CN113378964A

CN113378964A - 一种基于深度学习的rgb-d图像分类方法及系统

Info

Publication number: CN113378964A
Application number: CN202110711688.4A
Authority: CN
Inventors: 盖杉; 李鹏程
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-10

Abstract

本发明涉及一种基于深度学习的RGB‑D图像分类方法及系统。该方法包括：获取RGB_D物体数据集；利用掩码图对应的RGB图片和深度图片进行去背景处理；将处理后的RGB_D物体数据集划分为训练集和测试集；获取VGG16迁移学习模型；在所述VGG16迁移学习模型之前加入两个卷积层获取混合图像的浅层特征，并在VGG16迁移学习模型之后添加拉直操作，进而利用Softmax分类器分类，同时使用Leaky_Relu函数来作为激活函数对隐藏层进行激活，构建RGB‑D图像分类模型；采用Adam优化算法，利用训练集对RGB‑D图像分类模型进行训练；根据测试集，利用训练好的RGB‑D图像分类模型。本发明能够提高图像识别的准确度和效率。

Description

一种基于深度学习的RGB-D图像分类方法及系统

技术领域

本发明涉及数字图像处理领域，特别是涉及一种基于深度学习的RGB-D图像分类方法及系统。

背景技术

随着信息科学技术的发展，人们对于目标检测与分析、物体与字符的识别、图像检索等多种应用有着的需求。而且许多应用是基于实时性处理的，然而由于光照条件的变化，图像在采集的过程中会导致光照视角等的变化等会导致识别不准确，所以如何在不同的条件下都能获得准确的识别是非常重要的。

目前的现有分类方法包括：基于词包类型的物体分类，基于深度学习的物体识别分类。这两类中包括了绝大多数的不同的分类算法，例如：人工设计特征类型类型的算法包括尺度不变特征转换(SIFT)算法，加速稳健特征(SURF)算法，快速点特征直方图(FastPoint Feature Histogram)算法等。基于深度学习的物体识别分类算法一般是通过神经网络搭建的深度学习网络，比较经典的网络有Yan LeCun等人于1998年第一次将卷积神经网络应用到图像分类任务上的LeNet网络，其次有美国谷歌公司推出的GoogleNet网络，以及Simonyan和Zisserman于2014年提出了VGG网络结构，Kaiming He等人在2015年提出了ResNet网络结构，这些网络结构在图像分类中都取得了比较好的效果。然而在进行图片分类的时候一般是基于图片的RGB三通道分类，当图片受到光照强弱等因素影响的时候分类效果会受到影响。

但是随着新技术的推出，由微软公司发布的Kinect摄像机由于能够拍摄RGB图片和深度图像，所以在一些问题上例如光照条件不好的情况下的图片识别提供了新的可能。

在中国科学院柳畅等人的论文《基于卷积神经网络的RGB_D图片分类》中，详细讲述了一个对于RGB_D图片的分类方法。其主要技术方案是：

训练和测试数据：对于神经网络的训练数据，参考论文首先使用了由华盛顿大学提供了RGB_D物体数据集(RGB_D Object Dataset)中选取保留35000对物体识别的图片作为实验的训练集和验证集，从剩余的图片中选取5000对图片作为测试集。

参数设置和网络训练：参考论文采用卷积神经网络对所取得的数据进行训练。在每个卷积和全连接层之后使用线性整流函数(Rectified Linear Unit，Relu)作为激活函数，对每层的神经元进行激活。然后采用两层全连接层，其中第一层全连接层为了提高模型的泛化能力，防止过拟合，采用了丢弃(dropout)部分神经元的方法。Drop操作不会使得神经元消失，Dropout操作在神经网络中的作用是训练时使得部分比例的神经元不参与训练，在下一次训练的时候，重新再从所有的神经元中选取出相应比例的神经元不参与训练。最后采用Softmax回归进行分类。具体的结构和参数设置细节如下：

Conv+Relu：第一层，卷积核大小为5*5，步长(padding)为1，共有48个卷积核来生成48个特征映射。

第二层采用2*2的最大值池化(Maxpooling)，步长(Padding)为2。

Conv+Relu：第三层，卷积核大小为5*5，步长(Padding)为1，共有96个卷积核来生成96个特征映射。

第四层采用2*2的最大值池化(Maxpooling)，步长(Padding)为2。

Conv+Relu：第五层，卷积核大小为3*3，步长(Padding)为1，共有128个卷积核来生成128个特征映射。

Conv+Relu：第六层，卷积核大小为3*3，步长(Padding)为1，共有256个卷积核来生成256个特征映射。

第七层采用2*2的最大值池化(Maxpooling)，步长(Padding)为2。

第八层采用全连接，将第七层的输出经过拉直(Flatten)操作之后连接到1024个节点上，设置丢弃神经元比例为0.5.

第九层采用全连接，将第八层的输出的1024个节点连接到512个节点上。

第十层采用Softmax分类器进行分类，输出类别为51类。

上述参考论文的网络一共设置了10层，在训练开始之前，首先采用了正态分布于[0，0.01]的随机数据初始化此神经网络的卷积层和全连接层的权值矩阵W，同时将矩阵的偏置量b设置为0.采用批梯度下降法(Batch Gradient Descent)来优化网络的参数，每批次(batch)为200张图像。在训练神经网络的时候，在对训练集的前16轮(epoch)训练中，学习率采用0.01，后8轮(epoch)训练中，学习率采用0.001，使得训练损失(loss)可以平稳下降。

在网络设计中，采用了Boosting算法的思想，对不同类型的数据，例如RGB数据，RGB_D数据，D数据，将RGB图像转化到HSI、Lab、YUV等空间的数据，以及灰度图(Gray)都用于训练，然后将训练的结果正确率再累加，色彩信息和深度信息能够互相取长补短，达到更好的分类效果。

参考论文方法的实验环境为Intel Core i7 CPU，主频为3.60GHz，内存为8G。

参考论文解决了RGB-D的分类问题，通过较简单的神经网络提取不同的图片特征来对RGB_D图像进行分类。同时，上述方法参考了Boosting算法，将多个卷积神经网络结合起来，以此实现更好的效果。其中将数据的训练模式设置为RGB+RGB-D+D结合起来的情况下，分类准确率比其他组合更高达到了95％，此种组合的准确率比单独使用任意一种信息来分类的准确率提高了至少5％。通过参考论文的方法以及实验结果可以看出，参考论文方法的正确率显著提高。

但是，由于参考论文采用的是通过使用卷积神经网络算法来进行图片的分类操作。需要通过输入图像对神经网络进行训练。在训练时需要花费较多的时间才能使得神经网络结构习得具体的特征。在训练神经网络的过程中是从最基础的随机初始化神经元的参数开始训练，到获得一个比较好的结果为止。并且在参考论文的神经网络结构中，对于隐藏层使用的激活函数是Relu函数，当隐藏层的神经元的输入信号值小于0的时候，这个隐藏层的神经元的输出为0，当隐藏层的神经元的输入信号值大于0的情况下，此神经元的输出值与输入值相同。Relu函数在此处也起到了稀疏激活的作用，但是Relu函数同样也存在着一些问题，其中一个最大的问题就是Relu激活函数在训练过程中比较脆弱，可能会导致神经元死亡的问题。因为Relu函数对于小于0的数据都输出0，对于小于0的梯度，这个神经元就会被变为0，不会再对数据有输出，相应的参数不会再被更新。在实际的模型训练过程中，如果学习率设置的过高，那么很可能网络中40％的神经元都会死亡。相对于来说可以利用的参数就会变少。并且在神经网络优化的时候，需要使用优化函数来给指定的目标函数找到一组参数，使得目标函数在这些参数的作用下使得指定的目标函数能够得到最优的一个解，这就是优化函数的目的。优化函数在神经网络的发展过程中经历了长足的发展。参考文献使用的优化方法是批次梯度下降法(BGD)来优化神经网络中的参数，这种方法虽然有优点但是同时存在着一些不足之处，这种方法在一次更新梯度的过程中，需要使用整个批次的样本数据来进行梯度的更新，当数据量太大的时候，优化过程的计算速度会变得比较慢。

综上，亟需一种新的分类方法，解决上述问题。

发明内容

本发明的目的是提供一种基于深度学习的RGB-D图像分类方法及系统，能够提高图像识别的准确度和效率。

为实现上述目的，本发明提供了如下方案：

一种基于深度学习的RGB-D图像分类方法，包括：

获取RGB_D物体数据集；所述RGB_D物体数据集包括了300个对象；共有51个类别；所述对象包括：水果、体育用品以及生活用品；所述对象分别包括：不同视角下所拍摄的设定数量的RGB图片、深度图片以及掩码图；

利用掩码图对所述RGB_D物体数据集中对应的RGB图片和深度图片进行去背景处理，得到处理后的RGB_D物体数据集；

将所述处理后的RGB_D物体数据集划分为训练集和测试集；

获取VGG16迁移学习模型；

在所述VGG16迁移学习模型之前加入两个卷积层获取混合图像的浅层特征，并在所述VGG16迁移学习模型之后添加拉直操作，进而利用Softmax分类器分类，同时使用Leaky_Relu函数来作为激活函数对隐藏层进行激活，构建RGB-D图像分类模型；

采用Adam优化算法，利用所述训练集对所述RGB-D图像分类模型进行训练；

根据所述测试集，利用训练好的RGB-D图像分类模型，确定RGB-D图像分类结果。

可选地，所述利用掩码图对所述RGB_D物体数据集中对应的RGB图片和深度图片进行去背景处理，得到处理后的RGB_D物体数据集，具体包括：

所述掩码图分别与对应的RGB图片和深度图片相乘，得到处理后的RGB_D物体数据集。

可选地，所述采用Adam优化算法，利用所述训练集对所述RGB-D图像分类模型进行训练，具体包括：

初始的学习率设置为0.0001；

动态改变学习率；

训练样本的大小为32个彩色图像和深度图像组成的矩阵。

所述损失函数为交叉熵损失函数。

一种基于深度学习的RGB-D图像分类系统，包括：

数据集获取模块，用于获取RGB_D物体数据集；所述RGB_D物体数据集包括了300个对象；共有51个类别；所述对象包括：水果、体育用品以及生活用品；所述对象分别包括：不同视角下所拍摄的设定数量的RGB图片、深度图片以及掩码图；

数据集处理模块，用于利用掩码图对所述RGB_D物体数据集中对应的RGB图片和深度图片进行去背景处理，得到处理后的RGB_D物体数据集；

数据集划分模块，用于将所述处理后的RGB_D物体数据集划分为训练集和测试集；

VGG16迁移学习模型获取模块，用于获取VGG16迁移学习模型；

RGB-D图像分类模型构建模块，用于在所述VGG16迁移学习模型之前加入两个卷积层获取混合图像的浅层特征，并在所述VGG16迁移学习模型之后添加拉直操作，进而利用Softmax分类器分类，同时使用Leaky_Relu函数来作为激活函数对隐藏层进行激活，构建RGB-D图像分类模型；

RGB-D图像分类模型训练模块，用于采用Adam优化算法，利用所述训练集对所述RGB-D图像分类模型进行训练；

RGB-D图像分类模型测试模块，用于根据所述测试集，利用训练好的RGB-D图像分类模型，确定RGB-D图像分类结果。

可选地，所述数据集处理模块具体包括：

数据集处理单元，用于所述掩码图分别与对应的RGB图片和深度图片相乘，得到处理后的RGB_D物体数据集。

可选地，所述RGB-D图像分类模型训练模块具体包括：

初始的学习率设置为0.0001；

动态改变学习率；

训练样本的大小为32个彩色图像和深度图像组成的矩阵。

可选地，所述RGB-D图像分类模型训练模块具体包括：

所述损失函数为交叉熵损失函数。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种基于深度学习的RGB-D图像分类方法及系统，通过VGG16迁移学习模型来作为RGB-D图像分类模型的一部分参数，使得RGB-D图像分类模型可以更快的达到较好的分类结果。相比于现有技术中所使用的卷积神经网络自身计算参数的情况，使用迁移学习的方法节省了使神经网络达到预期效果所需要的训练时间，这种方法提高了神经网络的训练效率。使用Leaky_Relu函数来作为激活函数对隐藏层进行激活，很好的解决了Relu激活函数因为自身的原因导致的神经网络中的神经元死亡的问题，使得神经网络的节点使用的效率更高。同时Leaky_Relu函数充分得利用了输入网络中的图像信息，使得神经网络对于图像的特征学习更加高效、充分。Adam优化算法收敛的速度快，并且在收敛过程中的摆动幅度较小。在训练神经网络的过程中使用Adam优化算法来优化神经网络中的参数，可以使得网络更快速的达到收敛。即本发明所提供的一种基于深度学习的RGB-D图像分类方法及系统，能够提高图像识别的准确度和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于深度学习的RGB-D图像分类方法流程示意图；

图2为处理之前的RGB_D物体数据集中的RGB图片和深度图片示意图；

图3为依次为掩码图以及处理后的RGB_D物体数据集中的RGB图片和深度图片示意图；

图4为VGG16迁移学习模型结构示意图；

图5为RGB-D图像分类模型结构示意图；

图6为本发明所提供的一种基于深度学习的RGB-D图像分类系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种基于深度学习的RGB-D图像分类方法流程示意图，如图1所示，本发明所提供的一种基于深度学习的RGB-D图像分类方法，包括：

S101，获取RGB_D物体数据集；所述RGB_D物体数据集包括了300个对象；共有51个类别；所述对象包括：水果、体育用品以及生活用品；所述对象分别包括：不同视角下所拍摄的设定数量的RGB图片、深度图片以及掩码图；设定数量一般为700组左右。如图2所示。

S102，利用掩码图对所述RGB_D物体数据集中对应的RGB图片和深度图片进行去背景处理，得到处理后的RGB_D物体数据集，并如图3所示。

S102具体包括：

S103，将所述处理后的RGB_D物体数据集划分为训练集和测试集；

作为一个具体的实施例，由于为数据集提供的数据图片较多，在每个大类别抽取数百张图片用于训练，例如“苹果”这个大类里面包括了5个不同外观的苹果个体，那么久需要从每个小类里面选取每个小类中的前100张图片和后100张图片一共200张图片作为训练集。对于测试数据集，在此处选取序号为第251-350共100张图片作为测试集。

S104，获取VGG16迁移学习模型；VGG16迁移学习模型如图4所示，其中，①为两次64个卷积核的3*3卷积操作；②为两次128个卷积核的3*3卷积操作；③为三次256个卷积核的3*3卷积操作。④为三次512个卷积核的3*3卷积操作。⑤为三次512个卷积核的3*3卷积操作。⑥为三个全连接层，连接的节点个数分别为4096个，4096个，1000个。

S105，在所述VGG16迁移学习模型之前加入两个卷积层获取混合图像的浅层特征，并在所述VGG16迁移学习模型之后添加拉直操作，进而利用Softmax分类器分类，同时使用Leaky_Relu函数来作为激活函数对隐藏层进行激活，构建RGB-D图像分类模型；RGB-D图像分类模型输出51个类别。

其中，在所述VGG16迁移学习模型之前加入两个卷积层获取混合图像的浅层特征。

RGB-D图像分类模型的结构如图5所示，其中，①为卷积层，卷积核大小为5*5，卷积核个数为10.②为两次全连接层，全连接层的节点个数分别是1024个，51个。

S106，采用Adam优化算法，利用所述训练集对所述RGB-D图像分类模型进行训练；

S105具体包括：

初始的学习率设置为0.0001；

动态改变学习率；即每训练一次，学习率减小为当前学习率的99.99％。

训练样本的大小为32个彩色图像和深度图像组成的矩阵。

所述损失函数为交叉熵损失函数。即利用

确定损失函数。其中，y指真实标签，a指预测的标签。

S107，根据所述测试集，利用训练好的RGB-D图像分类模型，确定RGB-D图像分类结果。

本发明在实验运行的PC环境中，CPU是采用的

Xeon(R)Gold 6134CPU@3.2Ghz的中央处理器，GPU是采用的NvidiaTITAN V图形处理器。所有的实验数据均在此环境下完成。训练集在经过10轮训练之后，已经基本收敛，此时此神经网络模型在测试集上的正确率为97.69％。

图6为本发明所提供的一种基于深度学习的RGB-D图像分类系统结构示意图，如图6所示，本发明所提供的一种基于深度学习的RGB-D图像分类系统，包括：

数据集获取模块601，用于获取RGB_D物体数据集；所述RGB_D物体数据集包括了300个对象；共有51个类别；所述对象包括：水果、体育用品以及生活用品；所述对象分别包括：不同视角下所拍摄的设定数量的RGB图片、深度图片以及掩码图；

数据集处理模块602，用于利用掩码图对所述RGB_D物体数据集中对应的RGB图片和深度图片进行去背景处理，得到处理后的RGB_D物体数据集；

数据集划分模块603，用于将所述处理后的RGB_D物体数据集划分为训练集和测试集；

VGG16迁移学习模型获取模块604，用于获取VGG16迁移学习模型；

RGB-D图像分类模型构建模块605，用于在所述VGG16迁移学习模型之前加入两个卷积层获取混合图像的浅层特征，并在所述VGG16迁移学习模型之后添加拉直操作，进而利用Softmax分类器分类，同时使用Leaky_Relu函数来作为激活函数对隐藏层进行激活，构建RGB-D图像分类模型；

RGB-D图像分类模型训练模块606，用于采用Adam优化算法，利用所述训练集对所述RGB-D图像分类模型进行训练；

RGB-D图像分类模型测试模块607，用于根据所述测试集，利用训练好的RGB-D图像分类模型，确定RGB-D图像分类结果。

所述数据集处理模块602具体包括：

所述RGB-D图像分类模型训练模块606具体包括：

初始的学习率设置为0.0001；

动态改变学习率；

训练样本的大小为32个彩色图像和深度图像组成的矩阵。

所述RGB-D图像分类模型训练模块606具体包括：

所述损失函数为交叉熵损失函数。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的RGB-D图像分类方法，其特征在于，包括：

将所述处理后的RGB_D物体数据集划分为训练集和测试集；

获取VGG16迁移学习模型；

2.根据权利要求1所述的一种基于深度学习的RGB-D图像分类方法，其特征在于，所述利用掩码图对所述RGB_D物体数据集中对应的RGB图片和深度图片进行去背景处理，得到处理后的RGB_D物体数据集，具体包括：

3.根据权利要求1所述的一种基于深度学习的RGB-D图像分类方法，其特征在于，所述采用Adam优化算法，利用所述训练集对所述RGB-D图像分类模型进行训练，具体包括：

初始的学习率设置为0.0001；

动态改变学习率；

训练样本的大小为32个彩色图像和深度图像组成的矩阵。

4.根据权利要求1所述的一种基于深度学习的RGB-D图像分类方法，其特征在于，所述采用Adam优化算法，利用所述训练集对所述RGB-D图像分类模型进行训练，具体包括：

所述损失函数为交叉熵损失函数。

5.一种基于深度学习的RGB-D图像分类系统，其特征在于，包括：

VGG16迁移学习模型获取模块，用于获取VGG16迁移学习模型；

6.根据权利要求5所述的一种基于深度学习的RGB-D图像分类系统，其特征在于，所述数据集处理模块具体包括：

7.根据权利要求5所述的一种基于深度学习的RGB-D图像分类系统，其特征在于，所述RGB-D图像分类模型训练模块具体包括：

初始的学习率设置为0.0001；

动态改变学习率；

训练样本的大小为32个彩色图像和深度图像组成的矩阵。

8.根据权利要求5所述的一种基于深度学习的RGB-D图像分类系统，其特征在于，所述RGB-D图像分类模型训练模块具体包括：

所述损失函数为交叉熵损失函数。