CN111652273A

CN111652273A - 一种基于深度学习的rgb-d图像分类方法

Info

Publication number: CN111652273A
Application number: CN202010344538.XA
Authority: CN
Inventors: 李珣; 李林鹏; 南恺恺; 吴丹丹; 时斌斌; 马文哲
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-09-11
Anticipated expiration: 2040-04-27
Also published as: CN111652273B

Abstract

本发明公开了一种基于深度学习的RGB‑D图像分类方法，首先使用计算表面法线的方法对深度图像进行可视化编码，将深度图像编码为三通道，然后对RGB图像和编码后的深度图像进行长边缩放的短边扩展的归一化预处理，使用卷积神经网络分别对RGB图像和深度图像进行训练，提取RGB图像和深度图像的高层次特征，其次，网络顶层RGB图像和深度图像的特征通过特征融合单元进行融合最后将融合后的RGB‑D特征作为GRU递归神经网络的输入生成新的序列，使用Softmax对递归神经网络输出的特征序列进行分类。本发明使用两个并行的卷积神经网络对RGB‑D数据进行联合分类，与手工特征的方法和浅层网络模型相比，分类精度明显提高。

Description

一种基于深度学习的RGB-D图像分类方法

技术领域

本发明属于模式识别和图像分类技术领域，具体涉及一种基于深度学习的RGB-D图像分类方法。

背景技术

图像识别是计算机视觉领域中的重要分支之一，在过去的几年里RGB图像的识别工作取得了很大的进展。但是由于RGB图像自身的局限性，在实际应用的过程中容易受到光照背景因素的影响，不能达到实际应用中的需求。如在服务机器人领域，由于识别的鲁棒性不能达到指定的要求，导致图像识别在自主式移动机器人上的应用一度陷入瓶颈。近年来推出的RGB-D相机如Kinect等，可以同时捕获物体的RGB图像和深度图像，其中RGB图像包含的物体的颜色和纹理信息，深度图像包含了物体的空间几何形状信息，且具有光照不变性，两者所包含的信息对彼此都是一种有效的补充。已有的研究表明，结合物体的RGB图像和深度图像可以提高图像识别的准确率和鲁棒性。

早期的RGB-D图像分类方法大多基于手工构建特征，包括尺度不变特征变换(SIFT)、加速稳健性(SURF)和方向梯度直方图(HOG)等方法。这类方法具有很大的局限性，对于具体的视觉问题需要有很强的的先验知识才能设计好区分性强的特征与融合规则，所以很难具有普适性。而且手工设计特征的方法通常需要针对不同的条件进行手动调整，并且它们不能捕获不同类别对象的所有有用的区别信息，不容易扩展到其他数据集，很难利用大数据时代万物互联的优势。近年来基于高维数据集的特征学习技术在RGB-D图像分类中展现出优势，如专利(CN201811176644.0)公开了一种四元数广义判别分析的RGB-D目标识别方法，将核函数引入四元数子空间对图像矩阵进行分解，定义四元数广义判别分析；专利(CN105224942A)公开了一种RGB-D图像分类方法，使用单层的卷积神经网络(CNN)对RGB图像和深度图像提取低层次特征，采用块内约束字典学习的方法进行特征组稀疏表示，但是浅层特征表达能力有限，并没有充分利用RGB图像和深度图像的融合优势，对于颜色和纹理相近的图像分类效果不佳。为了克服以上缺陷，提高RGB-D图像的分类精度，本发明利用深度学习在图像处理中的优势，使用两个并行的卷积神经网络对RGB-D数据进行联合分类，与手工特征的方法和浅层网络模型相比，分类精度有了明显的提高。

发明内容

本发明的目的是提供一种基于深度学习的RGB-D图像分类方法，使用两个并行的卷积神经网络对RGB-D数据进行联合分类，与手工特征的方法和浅层网络模型相比，分类精度明显提高。

本发明所采用的技术方案是，一种基于深度学习的RGB-D图像分类方法，具体按照以下步骤实施：

步骤1、使用计算表面法线的方法对数据集中每个深度图像中的所有像素点计算表面法线，将单通道深度图像可视化编码为三通道深度图像，深度图像中包含的每个像素点的空间坐标(x，y，z)的数值分别被指定为R、G、B的像素值，并映射到整数值[0,255]之间；

步骤2、对数据集中经过步骤1所生成编码后的深度图像和数据集中剩余的所有RGB图像进行长边缩放、短边扩展的归一化预处理，避免因图像拉伸影响识别性能，得到尺度归一化后的RGB图像和深度图像；

步骤3、使用两个卷积神经网络分别对步骤2中尺度归一化后的RGB图像和深度图像进行训练，引入残差学习减小模型参数，在网络顶层得到RGB图像的高阶特征K^rgbfeaturemap和深度图像的高阶特征G^dfeature map；

步骤4、将步骤3中RGB图像的高阶特征和深度图像的高阶特征经过特征融合单元进行融合，特征融合单元由一个1×1卷积层、一个批量归一化层、Relu激活函数和全局均值池化层组成，得到RGB图像和深度图像的融合特征；

步骤5、将步骤4中的融合特征作为GRU递归神经网络的输入，生成新的RGB-D序列特征；

步骤6、对步骤5中的RGB-D序列特征计算概率分布，输出RGB-D图像的类别结果。

本发明的特点还在于，

步骤2具体如下：

步骤2.1、进行输入目标图像的预扫描，判别目标图像的长、短边；

步骤2.2、目标图像长边进行保留原始比例缩放，长边缩放为256像素；

步骤2.3、短边按照长边缩放后的像素差值进行额外边界创建，并沿短边轴进行扩充获得256×256像素的图像，原始目标位于扩展图像居中位置。

步骤3中使用49卷积层分别对RGB图像和深度图像进行卷积下采样操作，提取高层次特征，具体如下：

步骤3.1、其中，49个卷积层共组成5组卷积：conv2_x、conv3_x、conv4_x、conv5_x，卷积均包含多个残差单元，残差单元表示为：

Q_i＝h(s_i)+F(s_i，W_i)

s_i+1＝f(Q_i)

上式中，i表示任意残差单元，Q_i表示经过残差单元要得到的目标特征，s_i表示s_d残差单元的输入，s_i+1表示s_i的输出，即下一个残差单元的输入，F(s_i，W_i)是学习的残差，W_i代表残差单元i中的卷积操作，当h(s_i)＝s_i时表示恒等映射，f代表激活函数，I表示更深层的残差单元，I＞i，当h(s_i)＝s_i，f(Q_i)＝Q_i时可以计算出i到深层I所学习到的目标特征S_I，从第d个残差单元开始，S_I通式如下：

上式中，s_d代表第d个残差单元的输入，W_d代表第d个残差单元中的卷操作；

步骤3.2、通过链式求导计算反向过程的梯度：

上式中，第一个偏导

是Loss函数到I的梯度，

代表通过权重层传播的梯度，括号中常数1代表无损传播梯度，保证梯度不会完全消失；

经过49个卷积层提取的RGB图像的高阶特征K^rgbfeature map具体表示为K^rgb＝[K₁，K₂，…K_x]，深度图像的高阶特征G^d feature map具体表示为G^d＝[G₁，G₂，…G_x]，其中，x表示特征的个数，K₁代表所提取RGB图像的第一个特征，K₂代表所提取RGB图像的第二个特征，Kx代表所提取RGB图像的第x个特征，G₁代表所提取深度图像的第一个特征，G₂代表所提取深度图像的第二个特征，Gx代表所提取深度图像的第x个特征。

步骤4具体如下：

将步骤3中得到的高阶特征K^rgbfeature map和G^dfeature map经过特征融合单元进行融合，特征融合单元包括：1×1的卷积层、一个批量归一化层、Relu激活函数和全局均值池化层，得到RGB图像和深度图像的融合特征。

步骤5中递归神经网络模块中，使用tanh函数作为GRU递归神经网络的激活函数得到新的RGB-D序列特征。

步骤6中使用Softmax分类器对GRU递归神经网络生成的RGB-D序列特征计算概率分布，得到RGB-D图像的分类结果。

本发明的有益效果是，(1)本发明提出了一种基于深度神经网络的RG B-D图像分类方法，将更深层次的神经网络用于RGB-D图像分类算法，残差学习模块减少卷积神经网络的训练参数，克服RGB图像和深度图像同时训练占用资源过多的情况，同时避免过程中发生梯度下降，并提高分类效率。并使用双流卷积与递归相结合的学习模式，充分发挥深度学习在特征提取方面的优势。

(2)采用迁移学习的方法对编码后的深度图像进行训练，提高了深度图像的三维表达能力，增加了一个新的特征融合单元，把RGB图像和深度图像的高阶特征跨通道信息融合，并使用递归神经网络生成新的特征序列，避免了已有的网络模型中注重单独模态的识别结果，忽略了RGB-D融合特征问题，使融合后的识别结果有了明显的提高。

(3)本发明提出的RGB-D图像分类方法能够更好的自动学习特征并进行端到端的训练，与传统方法相比普适性更强。在标准的RGB-D数据库上进行了大量的验证，本发明提出的方法具有更优越的性能。

附图说明

图1是本发明一种基于深度学习的RGB-D图像分类方法流程图；

图2是本发明一种基于深度学习的RGB-D图像分类方法结构图；

图3是本发明一种基于深度学习的RGB-D图像分类方法特征融合单元结构示意图；

图4是本发明具体实验所用的RGB-D数据集示意图；

图5是本发明方法实验结果混淆矩阵表示图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于深度学习的RGB-D图像分类方法，流程图如图1所示，具体按照以下步骤实施：

步骤2具体如下：

Q_i＝h(s_i)+F(s_i，W_i)

s_i+1＝f(Q_i)

步骤3.2、通过链式求导计算反向过程的梯度：

上式中，第一个偏导

是Loss函数到I的梯度，

步骤4具体如下：

本发明的一种基于深度学习的RGB-D图像分类方法结构图如图2所示，主要包括：RGB-D数据集、RGB-Resnet提取RGB图像特征、Depth-Resnet提取深度图像特征、特征融合单元、GRU递归神经网络和Softmax分类器。图4所示为本发明专利实验所用RGB-D数据集，具体包括51类室内常见用品共300个实例，生成41877幅RGB图像和对应的深度图像。随机抽取每个类别的一种对象用于测试，剩余个对象用于训练，得到大约35000张训练图像和7000张测试图像。

RGB-Resnet和Depth-Resnet包含49的卷积层、共分为5组残差模块(conv2_x、conv3_x、conv4_x、conv5_x)提取RGB图像的高阶特征K^rgbfeature map和深度图像的高阶特征G^dfeature map。

图3所示为本发明专利特征融合单元示意图，将RGB-Resnet和Depth-Resnet提取的高阶特征跨通道信息整合。特征融合单元具体包括：一个1×1卷积层、一个批量归一化层、Relu激活函数和全局均值池化层组成。K^rgbfeature map和G^dfeature map经过特征融合单元，得到RGB图像和深度图像的融合特征(fusion feature map)

递归神经网使用GRU递归神经网络，递归神经网络的优势是包含时间序列的输出问题，网络中先前序列的所有输入会共同作用当前序列的输出。将融合后的特征fusionfeature map作为神经网络的输入，生成新的特征序列。

使用Softmax分类器读取GRU递归神经网络的输出序列计算概率分布，得到RGB-D图像的分类结果。

参见图5所示RGB-D数据集上分类结果的混淆矩阵，混淆矩阵可以更清晰的看到错误分类的类别，为分析其原因提供了有用的信息。具体的，每一行的索引代表了RGB-D数据集中所有类别的真实标签，每一列的索引代表了各类别的分类结果，主对角线的深浅表示正确分类的总体占比。可以看到容易错分的类别存在于颜色和纹理都相似的物体，具体集中在以下几个类别：orange和peach、ball和garlic、mushroon和garlic等。分析其原因，首先，较少的实例会影响分类结果，如mushroon类仅有3个实例，训练样本的单一化导致可学习特征类与量均受到限制，网络无法泛化新增添的数据，是造成错误的分类的原因之一；此外受传感器性能影响，已有的RGB-D数据集中图像的分辨率普遍不高，且深度图像中物体边缘部分深度值缺失，也可能对结果造成干扰。本发明专利的一种基于深度学习的RGB-D图像分类方法在大多数类别上都表现出高性能的识别率，可以很好的完成RGB-D图像的分类任务。

Claims

1.一种基于深度学习的RGB-D图像分类方法，其特征在于，具体按照以下步骤实施：

步骤3、使用两个卷积神经网络分别对步骤2中尺度归一化后的RGB图像和深度图像进行训练，引入残差学习减小模型参数，在网络顶层得到RGB图像的高阶特征K^rgbfeature map和深度图像的高阶特征G^dfeature map；

2.根据权利要求1所述的一种基于深度学习的RGB-D图像分类方法，其特征在于，所述步骤2具体如下：

3.根据权利要求2所述的一种基于深度学习的RGB-D图像分类方法，其特征在于，所述步骤3中使用49卷积层分别对RGB图像和深度图像进行卷积下采样操作，提取高层次特征，具体如下：

步骤3.1、其中，49个卷积层共组成5组卷积：conv2_x、conv3_x、con v4_x、conv5_x，卷积均包含多个残差单元，残差单元表示为：

Q_i＝h(s_i)+F(s_i，W_i)

s_i+1＝f(Q_i)

步骤3.2、通过链式求导计算反向过程的梯度：

上式中，第一个偏导

是Loss函数到I的梯度，

经过49个卷积层提取的RGB图像的高阶特征K^rgbfeature map具体表示为K^rgb＝[K₁，K₂，…K_x]，深度图像的高阶特征G^dfeature map具体表示为G^d＝[G₁，G₂，…G_x]，其中，x表示特征的个数，K₁代表所提取RGB图像的第一个特征，K₂代表所提取RGB图像的第二个特征，Kx代表所提取RGB图像的第x个特征，G₁代表所提取深度图像的第一个特征，G₂代表所提取深度图像的第二个特征，Gx代表所提取深度图像的第x个特征。

4.根据权利要求3所述的一种基于深度学习的RGB-D图像分类方法，其特征在于，所述步骤4具体如下：

5.根据权利要求4所述的一种基于深度学习的RGB-D图像分类方法，其特征在于，所述步骤5中GRU递归神经网络中，使用tanh函数作为GRU递归神经网络的激活函数得到新的RGB-D序列特征。

6.根据权利要求5所述的一种基于深度学习的RGB-D图像分类方法，其特征在于，所述步骤6中使用Softmax分类器对GRU递归神经网络生成的RGB-D序列特征计算概率分布，得到RGB-D图像的分类结果。