CN105224942B

CN105224942B - 一种rgb-d图像分类方法及系统

Info

Publication number: CN105224942B
Application number: CN201510402298.3A
Authority: CN
Inventors: 涂淑琴; 薛月菊; 胡月明; 梁云
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2015-07-09
Filing date: 2015-07-09
Publication date: 2020-02-04
Anticipated expiration: 2035-07-09
Also published as: CN105224942A

Abstract

本发明涉及一种RGB‑D图像分类方法及系统。所述方法包括：S1.利用卷积神经网络（CNN）分别对源RGB图像和Depth图像进行处理提取低层次特征；S2.通过递归神经网络（RNN）对图像低层次特征进行反馈学习，提取图像中层特征；S3.采用块内约束字典学习方法，对图像中层特征进行特征组稀疏表示，获取RGB‑D图像的高层特征表示；S4.将RGB‑D图像的高层特征输入线性SVM完成RGB‑D图像的分类识别。本发明能实现图像自动提取特征，学习的RGB‑D图像特征表示能有效区分噪声数据与高相似度图像分类，提高RGB‑D图像分类精确率，采用线性SVM，提高图像分类速度。

Description

一种RGB-D图像分类方法及系统

技术领域

本发明涉及模式识别与图像分类领域，更具体地，涉及一种RGB-D图像分类方法及系统。

背景技术

RGB-D图像分类是近几年兴起的模式识别技术新领域。带深度信息的三维图像分类与彩色图像分类相比，能直接反映物体表面的三维特征，且能够克服彩色图像分类易受光照变化、阴影、物体遮挡以及环境变化等因素干扰的缺点，融合深度信息的图像分类正成为目前的研究热点。Kinect相机的出现为经济、快速地获取带深度信息的RGB-D(RGB图像+深度图像)图像提供了可能。国内的研究者利用带深度信息的图像进行了手势识别、人体识别、蔬果形状特征提取。但这些方法仅利用深度图像信息进行识别，忽略彩色图像也含有丰富的信息，并且深度图像与彩色图像所在空间相互独立，在数字图像处理过程中相互补充，可得到更加丰富的图像信息，使得图像分类更加准确。国外的Yu K T等利用稀疏性的分层表示提取特征，并用最大紧邻法进行RGB-D图像识别；Bo L F等研究了面向目标识别的RGB-D无监督特征学习方法；Socher等人2012年提出卷积递归神经网络模型学习RGB-D特征和分类，对颜色与形状相似图像分类效果欠佳。为克服这个缺陷，提高RGB-D图像分类识别率，本发明方法利用块字典对提取的中层特征进行稀疏编码，能克服对噪声数据和高相似图像的分类。同稀疏表示和深度学习的方法相比较，准确度具有显著提高。

发明内容

本发明为克服对噪声数据和高相似图像的分类不足及分类精度不高问题，提供一种融合深度学习与组稀疏表示的RGB-D图像分类方法及系统，自动获取图像低层与中层特征，为克服噪声数据和高相似图像的分类缺陷，采用块字典优化与组稀疏编码方法进行特征稀疏表示，获取RGB-D图像高层特征稀疏表示并进行分类，提高RGB-D图像分类识别的准确度。

为实现上述目的，本发明提出一种深度学习与组稀疏融合的RGB-D图像分类方法及系统，首先主要是采用深度学习方法，包括单层卷积神经网络对RGB-D图像自动提取低层特征，包括颜色及边缘方向特征信息，3层树型递归神经网络将低层特征学习形成中层特征；然后将中层特征根据类别分成相应组，采用块内约束字典学习算法进行块字典学习(D)，能克服噪声数据和高相似图像错误分类问题；最后根据块字典D，将中层特征进行稀疏求解，获取特征稀疏系数表示，构成RGB-D图像的高层特征表示；采用线性SVM进行RGB-D图像分类，能有效提高RGB-D图像分类的精确度和速度。

一种RGB-D图像分类方法，包括如下步骤：

S1.分别对源RGB图像和Depth图像进行处理提取低层次特征；

S2.对图像低层次特征进行反馈学习，学习图像中层特征；

S3.采用块内约束字典学习方法，对图像中层特征进行特征组稀疏表示，获取RGB-D图像的高层特征表示；

S4.将RGB-D图像的高层特征输入线性SVM完成RGB-D图像的分类识别。

上述方案中，步骤S1的具体提取方式是：

S11.采用单层CNN分别对源RGB图像和Depth图像进行卷积下采样操作，提取图像低层次特征。

上述方案中，源RGB图像和Depth图像的图像低层次特征具体采用如下步骤提取：

S111.利用的K个滤波器对每幅尺寸均为d_i的图像进行卷积，卷积块的尺寸为d_p，对卷积块进行归一化和白化，最后形成K个特征滤波器映射，每个特征映射具有m个卷积块，其中m＝(d_i-d_p+1)×(d_i-d_p+1)，图像指的是源RGB图像和Depth图像；

S112.用尺寸为d₁×d₁的平方区域和步长大小为s将步骤S111中的卷积块进行池化操作，产生相等宽度和高度的采样块，其大小为

一幅图像经过CNN层的处理得到一系列采样块，一系列采样块作为CNN的输出结果Y，Y是一个K×r×r的3D矩阵，K为特征映射个数。

上述方案中，步骤S2的具体提取步骤为：

S21.将图像低层次特征输入到三层RNN网络中进行深入反馈学习，提取图像中层特征。

上述方案中，S21的具体步骤为：

S211.将CNN输出的包含K个特征映射的三维矩阵Y∈R^k×r×r，作为RNN网络的特征输入，其中R表示实数集；

S212.在RNN树结构中，定义一个表示相邻列向量列表的方形块，融合后合并为父向量P∈R^k，其中R表示实数集，所得父向量即为图像中层特征。

上述方案中，步骤S3的具体步骤为：

S31.将RGB图像和Depth图像的中层特征信息进行线性叠加融合；

S32.根据RGB-D图像类别个数，对图像的中层特征分成对应组数，采用块内约束字典学习算法学习块字典，其中初始块字典采用DCT产生；

S33.将图像中层特征随机分成训练集和测试集，采用学习好的块字典，采用ADMM对训练集和测试集进行稀疏系数求解，获取特征的优化表示，形成RGB-D图像的高层特征表示。

上述方案中，步骤S4的具体步骤为：

S41.将S33中获得的训练集稀疏系数，输入线性SVM，产生SVM分类器；

S42.采用S41中SVM分类器对测试集稀疏系数进行分类，得到RGB-D图像的分类结果。

一种RGB-D图像分类系统，包括：

低层次特征提取模块，用于分别对源RGB图像和Depth图像进行处理提取图像低层次特征；

中层特征提取模块，用于对图像低层次特征进行反馈学习，学习图像中层特征；

高层特征提取模块，用于采用块内约束字典学习方法，对图像中层特征进行特征组稀疏表示，获取RGB-D图像的高层特征表示；

分类模块，用于将RGB-D图像的高层特征输入线性SVM完成RGB-D图像的分类识别。

上述方案中，低层次特征提取模块具体用于通过单层CNN分别对源RGB图像和Depth图像进行卷积下采样操作，提取图像低层次特征；

中层特征提取模块具体用于将图像低层次特征输入到三层RNN网络中进行深入反馈学习，提取图像中层特征。

上述方案中，高层特征提提取模块具体包括：

融合模块，用于将RGB图像和Depth图像的中层特征信息进行线性叠加融合；

块字典模块，用于根据RGB-D图像类别个数，对图像的中层特征分成对应组数，采用块内约束字典学习算法学习块字典；

系数特征求解模块，用于将图像中层特征随机分成训练集和测试集，采用学习好的块字典，采用ADMM对训练集和测试集进行稀疏系数求解，获取特征的优化表示，形成RGB-D图像的高层特征表示。

与现有技术相比，本发明技术方案的有益效果是：

(1)本发明在对RGB-D图像进行分类时，采用层次特征学习方法，在提取低层次特征和中层特征后，再采用组稀疏和块内约束字典算法优化的方法对图像的中层特征进行稀疏表示，获取RGB-D图像的高层特征表示，符合人类大脑对视觉信息的层次处理方式。块字典学习算法能有效克服噪声数据和相似度高图像，结合组稀疏表示使得高层特征具有更强的表示能力和判别能力，同时采用SVM进行分类，使RGB-D图像分类更加准确，分类速度更快。

(2)本发明与现有的RGB-D图像分类方法相比，从低层次到高层特征的多层次特征学习模型能够更好地自动提取图像具有区分能力的特征表达，对自然图像具有普遍适应性。本发明在RGB-D大型数据库上的试验，验证了本发明所提出的方法的可行性和有效性。

附图说明

图1是本发明一种RGB-D图像分类方法具体实施例的流程图。

图2是本发明一种RGB-D图像分类方法中单层CNN结构图。

图3是本发明一种RGB-D图像分类方法中CNN和RNN结构图。

图4是本发明一种RGB-D图像分类方法中滤波器图。

图5是本发明一种RGB-D图像分类方法中三层RNN结构图。

图6是本发明一种RGB-D图像分类方法中组块稀疏表示的结构图

图7是本发明具体实验中所使用的水果数据集示意图。

图8是本发明具体实验中所使用的蔬菜数据集示意图。

图9是本发明的方法和其他普通RGB-D分类算法的实验结果图。

图10是普通RGB-D方法中难区分的高相似度图像图。

图11是CNN-RNN与本发明的方法在高相似度图像中的混淆矩阵示意图。

图12是本发明的方法与稀疏表示加HMP算法在分类速度上的对比分析图。

具体实施方式

下面结合附图详细说明本发明，通过实施例来说明本发明的原理。

实施例1

如图1所示，为本发明一种RGB-D图像分类方法具体实施例的流程图。参见图1，本具体实施例一种RGB-D图像分类方法的具体步骤包括；

S101.分别对源RGB图像和Depth图像进行处理提取低层次特征。

在此步骤中，图像低层次特征提取是利用单层卷积神经网络(CNN)分别对RGB图像和Depth图像进行卷积下采用操作，完成图像低层次特征的提取，如图2和3所示，提取的具体过程如下：

S1011.利用K个滤波器对每幅尺寸均为d_i(如d_i＝148)的图像进行卷积，卷积块的尺寸为d_p，对卷积块进行归一化和白化，最后形成K个特征滤波器映射，每个特征映射具有m个卷积块，其中m＝(d_i-d_p+1)×(d_i-d_p+1)，图像指的是源RGB图像和Depth图像；

S1012.用尺寸为d₁×d₁的平方区域和步长大小为s将步骤S111中的卷积块进行池化操作，池化操作中取最大的方法比平均方法操作更好，产生相等宽度和高度的采样块，其大小为

具体地，如利用64或者128个滤波器对每幅尺寸为148×148的图像，卷积块大小9*9进行卷积，对卷积块进行归一化和白化，最后形成64或者128个特征滤波器映射，结果如图4所示，其中，图4(a)为彩色图，图4(b)为深度图，每个特征映射具有m个卷积块；接着，利用为d₁×d₁的方形区域和步长大小为s将m个卷积块进行池化操作，也就是Pooling，此处Pooling操作采用最大或者平均方法，产生相等宽度和高度的采样块。

具体操作过程中，RGB图像和Depth图像分别采用步骤S1011和S1012步骤来获取各自的低层次特征。

S102.通过递归神经网络(RNN)对图像低层次特征进行反馈学习，学习图像中层特征。

在此步骤中，S101步骤得到的RGB图像和Depth图像的低层次特征分别作为新的输入输送到三层递归神经网络RNN(Recurrent Neural Network)中进行深入反馈学习，以学习RGB-D图像的中层特征信息。

如图3和5所示，步骤S102的具体步骤为：

S1021.将CNN输出的三维矩阵Y∈R^k×r×r作为RNN网络的特征输入，其中R表示实数集；

S1022.在RNN树结构中，定义一个表示相邻列向量列表的方形块，融合后合并为父向量P∈R^k，其中R表示实数集，所得父向量即为图像中层特征。

具体地，如图5所示，定义一个表示相邻列向量列表的方形块，融合后合并为父向量P∈R^k。设方形块的尺寸为K×b×b，如果用b＝3的块融合向量，沿用前述定义的K为128，则得到一个128×3×3块和这些向量(x₁,…,x₉)。设每个块都有b²个向量，计算父向量的值表示为：

其中R表示实数集，f是tanh函数非线性函数。公式(1)应用于三维向量Y中的所有块，采用相同权重w，产生一个新的父矩阵P₁，包含(r/b)²个向量p。同理，应用公式(1)及相同的权重w作用于P₁中的向量，产生新的父矩阵P₂，这个过程反复进行直到最后获得一个父向量。图5展示了一个CNNs层输出的特征是K×4×4的矩阵(r＝4)，作为RNN输入层(块b＝2)，应用公式(1)，在P₁层，共产生四个(r/b)²子块p₁，采用相同方法，获得只有一个向量的父矩阵P的RNNs。

S103.采用块内约束字典学习方法，对图像中层特征进行特征组稀疏表示，获取RGB-D图像的高层特征表示。在此过程中，将S102中获取的中层特征信息作为输入信息，利用组稀疏与块内约束字典学习算法进行稀疏表达，获取更具区分和判别能力的高层特征，图6为组块稀疏结构图。具体步骤为：

S1031.将RGB图像和Depth图像的中层特征信息进行线性叠加融合；

S1032.根据RGB-D图像类别个数，对图像的中层特征分成对应组数，采用块内约束字典学习算法(Intra-block Coherence Suppression Dictionary Learning，ICS-DL)学习块字典；

S1033.将图像中层特征随机分成训练集和测试集，采用学习好的块字典，采用ADMM(Alternating Direction Method of Multipliers)对训练集和测试集进行稀疏系数求解，获取特征的优化表示，形成RGB-D图像的高层特征表示。在本发明中，初始块字典采用DCT产生。

具体地，块内约束字典学习算法ICS-DL具体为：

(1)如图6所示，将CNN-RNN获取的中层特征向量表示为右边的X向量，令

设是同一类图像，作为一组特征向量，g_m是第m组编号，g表示任意组，n_i是特征维度，f是每组包含的特征向量数，s是组总数，D是块字典，C表示组稀疏系数，C_g是第g个组稀疏系数，其组优化函数如下：

其中Q_d是优化函数简写，d是字典块，d_k是第k个字典块，τ(b)是字典块原子的序号，γ表示约束块与块之间作用的常量，β是平衡块内常量，Ω是作用于C上的常量，||.||_F表示F范数，同理||.||₂表示2范数，p、q表示字典块编号，d_q表示第q个字典块，T是向量的转置，λ是固定小数。通过其优化函数，发现ICS-DL字典学习算法不仅考虑了字典块与块之间的作用(第二项)，还考虑了字典中每块内类约束(第三项)，增强字典对相似组特征的有效区分。

(2)假设已知求解到块字典D，求解组稀疏系数，其优化函数如下：

其中，Q_c为优化函数简写，λ为参数，用于平衡重构误差与稀疏项，表示第g个组稀疏系数中第i个列向量。通过梯度下降法求解组稀疏系数，可以保证用相同的字典块对组内特征编码，增强组特征的鲁棒性。

S104.将RGB-D图像的高层特征输入线性支持向量机SVM完成RGB-D图像的分类识别。具体为：

S1041.将S1033中获得的训练集稀疏系数，输入线性支持向量机SVM，产生SVM分类器；

S1042.采用S1041中SVM分类器对测试集稀疏系数进行分类，得到RGB-D图像的分类结果。

本发明的特征提取方法采用了深度学习的层次特征学习方法，深度学习中卷积神经网络和递归神经能自动高效地对复杂的客观事物进行的表示，这种方法与采用普通的手工设计特征提取方法(SIFT，SURF)相比，具有更好的通用性，能获取更高的分类精度。采用块内约束字典学习算法与组稀疏编码算法对图像中层特征进行稀疏表示，获取RGB-D图像的高层特征表示，块字典学习算法能有效克服噪声数据和相似度高图像，最后采用线性SVM分类器进行分类。与现有RGB-D图像分类方法相比，这种多层次特征学习模型能够更好地提取图像最有区分能力的特征表达，使RGB-D图像分类更加准确，对自然图像具有普遍适应性。

基于本发明RGB-D图像分类方法，本发明还利用实验数据对本发明的方法进行验证。

本发明采用的实验数据库是RGB-D dataset数据库。这个数据库是Lai K等人利用Kinect传感器建立的一个大规模、多层级多视角的RGB-D图像数据集，该数据集共有207920幅RGB-D图像，包含51类不同的物体，共有300个具体实例。每个实例均含有高于水平线30°、45°和60°的三个角度成像，且每个角度进行360°旋转获取图像，每个实例大约共有600幅图像。其中图7和图8所示是51类中水果和蔬菜数据集图像。在具体实验过程中，本发明采用所有类别数据，并将本发明的方法和其他普通RGB-D分类算法进行比较，具体的实验结果如图9所示。从图9所述的实验结果看，本发明的RGB-D图像分类方法平均准确率均高于SIFT、层次匹配追踪算法、卷积聚类算法、卷积和递归结合算法，其平均准确率和稀疏表示加HMP算法相近。从实验结果看，本发明的RGB-D图像分类算法准确率高，而且相对普通算法，本发明的分类速度更优。

普通RGB-D图像分类算法对图10中7类颜色与形状高相似图像难区分。图10中高相似度图像为：白色棒球帽与纸巾盒，蘑菇与大蒜头，水壶与黑帽子，水杯与洗发瓶子。采用本发明的RGB-D图像分类算法能准确区分出这些高相似图像的类别。将这些高相似类别数据单独进行分类，CNN-RNN(卷积与递归)方法与本发明的混淆矩阵图如图11所示，其中图11(a)表示CNN-RNN(卷积与递归)方法矩阵图，图11(b)为本发明的混淆矩阵图。从图11中可以发现，对颜色与形状高相似图像，本发明的RGB-D图像分类算法比CNN-RNN模型能获取更好的分类性能，这主要是因为本发明的RGB-D图像分类算法模型能对高相似度类与类之间获取更具有区分能力的特征。特别地，在图11中，本发明模型中帽子与蘑菇的分类准确分别为0.996和0.98，对比CNN-RNN模型(其帽子与蘑菇的分类准确分别为0.89和0.88)，分类准确率提高10％。

在分类速度方面，采用本发明的方法和稀疏表示加HMP算法对前述数据库的所有类别数据进行实验测试，实验测试发现，本发明的分类速度大大提高，接近稀疏表示加HMP算法的两倍。具体如图12所示，本发明的方法对数据库中每个训练样本的编码加分类的平均时间为250秒，而稀疏表示加HMP算法则需要450秒，本发明的方法对数据库中每个测试样本的编码加分类的平均时间为18.6秒，而稀疏表示加HMP算法则需要32.6秒。

实施例2

在实施例1的基础上，本发明还提供一种RGB-D图像分类系统。本发明一种RGB-D图像分类系统具体包括：

低层次特征提取模块，利用CNN分别对源RGB图像和Depth图像进行处理提取低层次特征；

中层特征提取模块，通过递归神经网络(RNN)对图像低层次特征进行反馈学习，学习图像中层特征；

分类模块，用于将RGB-D图像的高层特征输入线性支持向量机SVM完成RGB-D图像的分类识别。

在具体实施过程中，低层次特征提取模块具体用于单层CNN分别对源RGB图像和 Depth图像进行卷积下采样操作，提取图像低层次特征。具体地，利用K(如K＝64或者128)个滤波器对每幅尺寸均为d_i(如d_i＝148)的图像进行卷积，卷积块的尺寸为d_p，对卷积块进行归一化和白化，最后形成K个特征滤波器映射，每个特征映射具有m个卷积块，其中m＝(d_i-d_p +1)×(d_i-d_p+1)，图像指的是源RGB图像和Depth图像；接着利用尺寸为d₁×d₁的平方区域和步长大小为s将m个卷积块进行池化操作，池化操作中取最大操作，产生相等宽度和高度的采样块，其大小为

在具体实施过程中，中层特征提取模块具体用于将图像低层次特征输入到三层RNN网络中进行深入反馈学习，提取图像中层特征。具体地，将CNN输出的三维矩阵Y∈R^k×r×r作为RNN网络的特征输入；接着，在RNN树结构中，定义一个表示相邻列向量列表的方形块，3层融合后合并为父向量P∈R^k，其中R表示实数集，所得父向量即为图像中层特征。

在具体实施过程中，高层特征学习模块具体包括：

稀疏系数求解模块，用于采用学习好的块字典，采用ADMM对训练集和测试集进行稀疏系数求解，获取特征的优化表示，形成RGB-D图像的高层特征表示。

在具体实施过程中，分类模块具体包括：

分类器产生模块，具体用于将获得的训练集稀疏系数，输入线性支持向量机SVM，产生SVM分类器；

结果产生模块，具体用于采用SVM分类器对测试集稀疏系数进行分类，得到RGB-D图像的分类结果。

本发明的系统采用了深度学习的层次特征学习方法，在低层次特征提取模块和中层特征提取模块中，利用深度学习中卷积神经网络和递归神经能自动高效地对复杂的客观事物进行表示，这与采用普通的手工设计特征提取方法(SIFT，SURF)相比，具有更好的通用性，能获取更高的分类精度。在高层特征提取模块中，采用块内约束字典学习算法与组稀疏编码算法对图像中层特征进行稀疏表示，获取RGB-D图像的高层特征表示，块字典学习算法能有效克服噪声数据和相似度高图像。最后分类模块中采用线性SVM分类器进行分类。与现有RGB-D图像分类系统相比，这种多层次特征学习系统能够更好地提取图像最有区分能力的特征表达，使RGB-D图像分类更加精确，对自然图像具有普遍适应性。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种RGB-D图像分类方法，其特征在于，包括如下步骤：

S1.分别对源RGB图像和Depth图像进行处理提取图像低层次特征；

S2.对图像低层次特征进行反馈学习，学习图像中层特征；

S4.将RGB-D图像的高层特征输入线性SVM完成RGB-D图像的分类识别；

步骤S1的具体提取方式是：

S11.采用单层CNN分别对源RGB图像和Depth图像进行卷积下采样操作，提取图像低层次特征；

步骤S11中，源RGB图像和Depth图像的图像低层次特征具体采用如下步骤提取：

S111.利用K个滤波器对每幅尺寸均为d_i的图像进行卷积，卷积块的尺寸为d_p，对卷积块进行归一化和白化操作，最后形成K个特征滤波器映射，每个特征映射具有m个卷积块，其中m＝(d_i-d_p+1)×(d_i-d_p+1)；

S112.用尺寸为d_l×d_l的平方区域和步长大小为s将步骤S111中的卷积块进行池化操作，产生相等宽度和高度的采样块，其大小为

一幅图像经过CNN层的处理得到一系列采样块，一系列采样块作为CNN的输出结果Y，Y是一个K×r×r的3D矩阵，K为特征映射个数；

步骤S2的具体提取步骤为：

S21.将图像低层次特征输入到三次层RNN网络中进行深入反馈学习，提取图像中层特征；

S21的具体步骤为：

S212.在RNN树结构中，定义一个表示相邻列向量列表的方形块，融合后合并为父向量P∈R^k，其中R表示实数集，所得父向量即为图像中层特征；

步骤S3的具体步骤为：

S31.将RGB图像和Depth图像的中层特征信息进行线性叠加融合；

2.根据权利要求1所述的RGB-D图像分类方法，其特征在于，步骤S4的具体步骤为：

3.一种利用权利要求1所述的RGB-D图像分类方法的系统，其特征在于，包括：

4.根据权利要求3所述的RGB-D图像分类系统，其特征在于，低层次特征提取模块具体用于通过单层CNN分别对源RGB图像和Depth图像进行卷积下采样操作，提取图像低层次特征；

中层特征提取模块具体用于将图像低层次特征输入到三次层RNN网络中进行深入反馈学习，提取图像中层特征。

5.根据权利要求3或4所述的RGB-D图像分类系统，其特征在于，高层特征提取模块具体包括：

块字典模块，用于根据RGB-D图像类别个数，对图像的中层特征分成对应组数，采用块内约束字典学习算法学习块字典，其中初始块字典采用DCT产生；