CN105224942A - 一种rgb-d图像分类方法及系统 - Google Patents

一种rgb-d图像分类方法及系统 Download PDF

Info

Publication number
CN105224942A
CN105224942A CN201510402298.3A CN201510402298A CN105224942A CN 105224942 A CN105224942 A CN 105224942A CN 201510402298 A CN201510402298 A CN 201510402298A CN 105224942 A CN105224942 A CN 105224942A
Authority
CN
China
Prior art keywords
image
rgb
feature
block
middle level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510402298.3A
Other languages
English (en)
Other versions
CN105224942B (zh
Inventor
涂淑琴
薛月菊
胡月明
梁云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN201510402298.3A priority Critical patent/CN105224942B/zh
Publication of CN105224942A publication Critical patent/CN105224942A/zh
Application granted granted Critical
Publication of CN105224942B publication Critical patent/CN105224942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种RGB-D图像分类方法及系统。所述方法包括:S1.利用卷积神经网络(CNN)分别对源RGB图像和Depth图像进行处理提取低层次特征;S2.通过递归神经网络(RNN)对图像低层次特征进行反馈学习,提取图像中层特征;S3.采用块内约束字典学习方法,对图像中层特征进行特征组稀疏表示,获取RGB-D图像的高层特征表示;S4.将RGB-D图像的高层特征输入线性SVM完成RGB-D图像的分类识别。本发明能实现图像自动提取特征,学习的RGB-D图像特征表示能有效区分噪声数据与高相似度图像分类,提高RGB-D图像分类精确率,采用线性SVM,提高图像分类速度。

Description

一种RGB-D图像分类方法及系统
技术领域
本发明涉及模式识别与图像分类领域,更具体地,涉及一种RGB-D图像分类方法及系统。
背景技术
RGB-D图像分类是近几年兴起的模式识别技术新领域。带深度信息的三维图像分类与彩色图像分类相比,能直接反映物体表面的三维特征,且能够克服彩色图像分类易受光照变化、阴影、物体遮挡以及环境变化等因素干扰的缺点,融合深度信息的图像分类正成为目前的研究热点。Kinect相机的出现为经济、快速地获取带深度信息的RGB-D(RGB图像+深度图像)图像提供了可能。国内的研究者利用带深度信息的图像进行了手势识别、人体识别、蔬果形状特征提取。但这些方法仅利用深度图像信息进行识别,忽略彩色图像也含有丰富的信息,并且深度图像与彩色图像所在空间相互独立,在数字图像处理过程中相互补充,可得到更加丰富的图像信息,使得图像分类更加准确。国外的YuKT等利用稀疏性的分层表示提取特征,并用最大紧邻法进行RGB-D图像识别;BoLF等研究了面向目标识别的RGB-D无监督特征学习方法;Socher等人2012年提出卷积递归神经网络模型学习RGB-D特征和分类,对颜色与形状相似图像分类效果欠佳。为克服这个缺陷,提高RGB-D图像分类识别率,本发明方法利用块字典对提取的中层特征进行稀疏编码,能克服对噪声数据和高相似图像的分类。同稀疏表示和深度学习的方法相比较,准确度具有显著提高。
发明内容
本发明为克服对噪声数据和高相似图像的分类不足及分类精度不高问题,提供一种融合深度学习与组稀疏表示的RGB-D图像分类方法及系统,自动获取图像低层与中层特征,为克服噪声数据和高相似图像的分类缺陷,采用块字典优化与组稀疏编码方法进行特征稀疏表示,获取RGB-D图像高层特征稀疏表示并进行分类,提高RGB-D图像分类识别的准确度。
为实现上述目的,本发明提出一种深度学习与组稀疏融合的RGB-D图像分类方法及系统,首先主要是采用深度学习方法,包括单层卷积神经网络对RGB-D图像自动提取低层特征,包括颜色及边缘方向特征信息,3层树型递归神经网络将低层特征学习形成中层特征;然后将中层特征根据类别分成相应组,采用块内约束字典学习算法进行块字典学习(D),能克服噪声数据和高相似图像错误分类问题;最后根据块字典D,将中层特征进行稀疏求解,获取特征稀疏系数表示,构成RGB-D图像的高层特征表示;采用线性SVM进行RGB-D图像分类,能有效提高RGB-D图像分类的精确度和速度。
一种RGB-D图像分类方法,包括如下步骤:
S1.分别对源RGB图像和Depth图像进行处理提取低层次特征;
S2.对图像低层次特征进行反馈学习,学习图像中层特征;
S3.采用块内约束字典学习方法,对图像中层特征进行特征组稀疏表示,获取RGB-D图像的高层特征表示;
S4.将RGB-D图像的高层特征输入线性SVM完成RGB-D图像的分类识别。
上述方案中,步骤S1的具体提取方式是:
S11.采用单层CNN分别对源RGB图像和Depth图像进行卷积下采样操作,提取图像低层次特征。
上述方案中,源RGB图像和Depth图像的图像低层次特征具体采用如下步骤提取:
S111.利用的K个滤波器对每幅尺寸均为di的图像进行卷积,卷积块的尺寸为dp,对卷积块进行归一化和白化,最后形成K个特征滤波器映射,每个特征映射具有m个卷积块,其中m=(di-dp+1)×(di-dp+1),图像指的是源RGB图像和Depth图像;
S112.用尺寸为d1×d1的平方区域和步长大小为s将步骤S111中的卷积块进行池化操作,产生相等宽度和高度的采样块,其大小为一幅图像经过CNN层的处理得到一系列采样块,一系列采样块作为CNN的输出结果Y,Y是一个K×r×r的3D矩阵,K为特征映射个数。
上述方案中,步骤S2的具体提取步骤为:
S21.将图像低层次特征输入到三层RNN网络中进行深入反馈学习,提取图像中层特征。
上述方案中,S21的具体步骤为:
S211.将CNN输出的包含K个特征映射的三维矩阵Y∈Rk×r×r,作为RNN网络的特征输入,其中R表示实数集;
S212.在RNN树结构中,定义一个表示相邻列向量列表的方形块,融合后合并为父向量P∈Rk,其中R表示实数集,所得父向量即为图像中层特征。
上述方案中,步骤S3的具体步骤为:
S31.将RGB图像和Depth图像的中层特征信息进行线性叠加融合;
S32.根据RGB-D图像类别个数,对图像的中层特征分成对应组数,采用块内约束字典学习算法学习块字典,其中初始块字典采用DCT产生;
S33.将图像中层特征随机分成训练集和测试集,采用学习好的块字典,采用ADMM对训练集和测试集进行稀疏系数求解,获取特征的优化表示,形成RGB-D图像的高层特征表示。
上述方案中,步骤S4的具体步骤为:
S41.将S33中获得的训练集稀疏系数,输入线性SVM,产生SVM分类器;
S42.采用S41中SVM分类器对测试集稀疏系数进行分类,得到RGB-D图像的分类结果。
一种RGB-D图像分类系统,包括:
低层次特征提取模块,用于分别对源RGB图像和Depth图像进行处理提取图像低层次特征;
中层特征提取模块,用于对图像低层次特征进行反馈学习,学习图像中层特征;
高层特征提取模块,用于采用块内约束字典学习方法,对图像中层特征进行特征组稀疏表示,获取RGB-D图像的高层特征表示;
分类模块,用于将RGB-D图像的高层特征输入线性SVM完成RGB-D图像的分类识别。
上述方案中,低层次特征提取模块具体用于通过单层CNN分别对源RGB图像和Depth图像进行卷积下采样操作,提取图像低层次特征;
中层特征提取模块具体用于将图像低层次特征输入到三层RNN网络中进行深入反馈学习,提取图像中层特征。
上述方案中,高层特征提提取模块具体包括:
融合模块,用于将RGB图像和Depth图像的中层特征信息进行线性叠加融合;
块字典模块,用于根据RGB-D图像类别个数,对图像的中层特征分成对应组数,采用块内约束字典学习算法学习块字典;
系数特征求解模块,用于将图像中层特征随机分成训练集和测试集,采用学习好的块字典,采用ADMM对训练集和测试集进行稀疏系数求解,获取特征的优化表示,形成RGB-D图像的高层特征表示。
与现有技术相比,本发明技术方案的有益效果是:
(1)本发明在对RGB-D图像进行分类时,采用层次特征学习方法,在提取低层次特征和中层特征后,再采用组稀疏和块内约束字典算法优化的方法对图像的中层特征进行稀疏表示,获取RGB-D图像的高层特征表示,符合人类大脑对视觉信息的层次处理方式。块字典学习算法能有效克服噪声数据和相似度高图像,结合组稀疏表示使得高层特征具有更强的表示能力和判别能力,同时采用SVM进行分类,使RGB-D图像分类更加准确,分类速度更快。
(2)本发明与现有的RGB-D图像分类方法相比,从低层次到高层特征的多层次特征学习模型能够更好地自动提取图像具有区分能力的特征表达,对自然图像具有普遍适应性。本发明在RGB-D大型数据库上的试验,验证了本发明所提出的方法的可行性和有效性。
附图说明
图1是本发明一种RGB-D图像分类方法具体实施例的流程图。
图2是本发明一种RGB-D图像分类方法中单层CNN结构图。
图3是本发明一种RGB-D图像分类方法中CNN和RNN结构图。
图4是本发明一种RGB-D图像分类方法中滤波器图。
图5是本发明一种RGB-D图像分类方法中三层RNN结构图。
图6是本发明一种RGB-D图像分类方法中组块稀疏表示的结构图
图7是本发明具体实验中所使用的水果数据集示意图。
图8是本发明具体实验中所使用的蔬菜数据集示意图。
图9是本发明的方法和其他普通RGB-D分类算法的实验结果图。
图10是普通RGB-D方法中难区分的高相似度图像图。
图11是CNN-RNN与本发明的方法在高相似度图像中的混淆矩阵示意图。
图12是本发明的方法与稀疏表示加HMP算法在分类速度上的对比分析图。
具体实施方式
下面结合附图详细说明本发明,通过实施例来说明本发明的原理。
实施例1
如图1所示,为本发明一种RGB-D图像分类方法具体实施例的流程图。参见图1,本具体实施例一种RGB-D图像分类方法的具体步骤包括;
S101.分别对源RGB图像和Depth图像进行处理提取低层次特征。
在此步骤中,图像低层次特征提取是利用单层卷积神经网络(CNN)分别对RGB图像和Depth图像进行卷积下采用操作,完成图像低层次特征的提取,如图2和3所示,提取的具体过程如下:
S1011.利用K个滤波器对每幅尺寸均为di(如di=148)的图像进行卷积,卷积块的尺寸为dp,对卷积块进行归一化和白化,最后形成K个特征滤波器映射,每个特征映射具有m个卷积块,其中m=(di-dp+1)×(di-dp+1),图像指的是源RGB图像和Depth图像;
S1012.用尺寸为d1×d1的平方区域和步长大小为s将步骤S111中的卷积块进行池化操作,池化操作中取最大的方法比平均方法操作更好,产生相等宽度和高度的采样块,其大小为一幅图像经过CNN层的处理得到一系列采样块,一系列采样块作为CNN的输出结果Y,Y是一个K×r×r的3D矩阵,K为特征映射个数。
具体地,如利用64或者128个滤波器对每幅尺寸为148×148的图像,卷积块大小9*9进行卷积,对卷积块进行归一化和白化,最后形成64或者128个特征滤波器映射,结果如图4所示,其中,图4(a)为彩色图,图4(b)为深度图,每个特征映射具有m个卷积块;接着,利用为d1×d1的方形区域和步长大小为s将m个卷积块进行池化操作,也就是Pooling,此处Pooling操作采用最大或者平均方法,产生相等宽度和高度的采样块。
一幅图像经过CNN层的处理得到一系列采样块,一系列采样块作为CNN的输出结果Y,Y是一个K×r×r的3D矩阵,K为特征映射个数。
具体操作过程中,RGB图像和Depth图像分别采用步骤S1011和S1012步骤来获取各自的低层次特征。
S102.通过递归神经网络(RNN)对图像低层次特征进行反馈学习,学习图像中层特征。
在此步骤中,S101步骤得到的RGB图像和Depth图像的低层次特征分别作为新的输入输送到三层递归神经网络RNN(RecurrentNeuralNetwork)中进行深入反馈学习,以学习RGB-D图像的中层特征信息。
如图3和5所示,步骤S102的具体步骤为:
S1021.将CNN输出的三维矩阵Y∈Rk×r×r作为RNN网络的特征输入,其中R表示实数集;
S1022.在RNN树结构中,定义一个表示相邻列向量列表的方形块,融合后合并为父向量P∈Rk,其中R表示实数集,所得父向量即为图像中层特征。
具体地,如图5所示,定义一个表示相邻列向量列表的方形块,融合后合并为父向量P∈Rk。设方形块的尺寸为K×b×b,如果用b=3的块融合向量,沿用前述定义的K为128,则得到一个128×3×3块和这些向量(x1,…,x9)。设每个块都有b2个向量,计算父向量的值表示为:
p = f ( w x 1 . . . x b 2 ) - - - ( 1 )
其中R表示实数集,f是tanh函数非线性函数。公式(1)应用于三维向量Y中的所有块,采用相同权重w,产生一个新的父矩阵P1,包含(r/b)2个向量p。同理,应用公式(1)及相同的权重w作用于P1中的向量,产生新的父矩阵P2,这个过程反复进行直到最后获得一个父向量。图5展示了一个CNNs层输出的特征是K×4×4的矩阵(r=4),作为RNN输入层(块b=2),应用公式(1),在P1层,共产生四个(r/b)2子块p1,采用相同方法,获得只有一个向量的父矩阵P的RNNs。
S103.采用块内约束字典学习方法,对图像中层特征进行特征组稀疏表示,获取RGB-D图像的高层特征表示。在此过程中,将S102中获取的中层特征信息作为输入信息,利用组稀疏与块内约束字典学习算法进行稀疏表达,获取更具区分和判别能力的高层特征,图6为组块稀疏结构图。具体步骤为:
S1031.将RGB图像和Depth图像的中层特征信息进行线性叠加融合;
S1032.根据RGB-D图像类别个数,对图像的中层特征分成对应组数,采用块内约束字典学习算法(Intra-blockCoherenceSuppressionDictionaryLearning,ICS-DL)学习块字典;
S1033.将图像中层特征随机分成训练集和测试集,采用学习好的块字典,采用ADMM(AlternatingDirectionMethodofMultipliers)对训练集和测试集进行稀疏系数求解,获取特征的优化表示,形成RGB-D图像的高层特征表示。在本发明中,初始块字典采用DCT产生。
具体地,块内约束字典学习算法ICS-DL具体为:
(1)如图6所示,将CNN-RNN获取的中层特征向量表示为右边的X向量,令 是同一类图像,作为一组特征向量,gm是第m组编号,g表示任意组,ni是特征维度,f是每组包含的特征向量数,s是组总数,D是块字典,C表示组稀疏系数,Cg是第g个组稀疏系数,其组优化函数如下:
Q d ( D ; X , C ) = Σ g 1 2 | | X g - DC g | | F 2 + γ Σ k = 1 | D | | | d k | | 2 + β Σ b { Σ p , q ∈ τ ( b ) , p ≠ q | | d p T d q | | 2 } + λ Ω ( C ) - - - ( 2 )
其中Qd是优化函数简写,d是字典块,dk是第k个字典块,τ(b)是字典块原子的序号,γ表示约束块与块之间作用的常量,β是平衡块内常量,Ω是作用于C上的常量,||.||F表示F范数,同理||.||2表示2范数,p、q表示字典块编号,dq表示第q个字典块,T是向量的转置,λ是固定小数。通过其优化函数,发现ICS-DL字典学习算法不仅考虑了字典块与块之间的作用(第二项),还考虑了字典中每块内类约束(第三项),增强字典对相似组特征的有效区分。
(2)假设已知求解到块字典D,求解组稀疏系数,其优化函数如下:
Q c ( C ; X , D ) = Σ g Q c ( C g ; X g , D ) = Σ g ( 1 2 | | X g - DC g | | F 2 + λ Σ i | | C g ( i ) | | 2 ) - - - ( 3 )
其中,Qc为优化函数简写,λ为参数,用于平衡重构误差与稀疏项,表示第g个组稀疏系数中第i个列向量。通过梯度下降法求解组稀疏系数,可以保证用相同的字典块对组内特征编码,增强组特征的鲁棒性。
S104.将RGB-D图像的高层特征输入线性支持向量机SVM完成RGB-D图像的分类识别。具体为:
S1041.将S1033中获得的训练集稀疏系数,输入线性支持向量机SVM,产生SVM分类器;
S1042.采用S1041中SVM分类器对测试集稀疏系数进行分类,得到RGB-D图像的分类结果。
本发明的特征提取方法采用了深度学习的层次特征学习方法,深度学习中卷积神经网络和递归神经能自动高效地对复杂的客观事物进行的表示,这种方法与采用普通的手工设计特征提取方法(SIFT,SURF)相比,具有更好的通用性,能获取更高的分类精度。采用块内约束字典学习算法与组稀疏编码算法对图像中层特征进行稀疏表示,获取RGB-D图像的高层特征表示,块字典学习算法能有效克服噪声数据和相似度高图像,最后采用线性SVM分类器进行分类。与现有RGB-D图像分类方法相比,这种多层次特征学习模型能够更好地提取图像最有区分能力的特征表达,使RGB-D图像分类更加准确,对自然图像具有普遍适应性。
基于本发明RGB-D图像分类方法,本发明还利用实验数据对本发明的方法进行验证。
本发明采用的实验数据库是RGB-Ddataset数据库。这个数据库是LaiK等人利用Kinect传感器建立的一个大规模、多层级多视角的RGB-D图像数据集,该数据集共有207920幅RGB-D图像,包含51类不同的物体,共有300个具体实例。每个实例均含有高于水平线30°、45°和60°的三个角度成像,且每个角度进行360°旋转获取图像,每个实例大约共有600幅图像。其中图7和图8所示是51类中水果和蔬菜数据集图像。在具体实验过程中,本发明采用所有类别数据,并将本发明的方法和其他普通RGB-D分类算法进行比较,具体的实验结果如图9所示。从图9所述的实验结果看,本发明的RGB-D图像分类方法平均准确率均高于SIFT、层次匹配追踪算法、卷积聚类算法、卷积和递归结合算法,其平均准确率和稀疏表示加HMP算法相近。从实验结果看,本发明的RGB-D图像分类算法准确率高,而且相对普通算法,本发明的分类速度更优。
普通RGB-D图像分类算法对图10中7类颜色与形状高相似图像难区分。图10中高相似度图像为:白色棒球帽与纸巾盒,蘑菇与大蒜头,水壶与黑帽子,水杯与洗发瓶子。采用本发明的RGB-D图像分类算法能准确区分出这些高相似图像的类别。将这些高相似类别数据单独进行分类,CNN-RNN(卷积与递归)方法与本发明的混淆矩阵图如图11所示,其中图11(a)表示CNN-RNN(卷积与递归)方法矩阵图,图11(b)为本发明的混淆矩阵图。从图11中可以发现,对颜色与形状高相似图像,本发明的RGB-D图像分类算法比CNN-RNN模型能获取更好的分类性能,这主要是因为本发明的RGB-D图像分类算法模型能对高相似度类与类之间获取更具有区分能力的特征。特别地,在图11中,本发明模型中帽子与蘑菇的分类准确分别为0.996和0.98,对比CNN-RNN模型(其帽子与蘑菇的分类准确分别为0.89和0.88),分类准确率提高10%。
在分类速度方面,采用本发明的方法和稀疏表示加HMP算法对前述数据库的所有类别数据进行实验测试,实验测试发现,本发明的分类速度大大提高,接近稀疏表示加HMP算法的两倍。具体如图12所示,本发明的方法对数据库中每个训练样本的编码加分类的平均时间为250秒,而稀疏表示加HMP算法则需要450秒,本发明的方法对数据库中每个测试样本的编码加分类的平均时间为18.6秒,而稀疏表示加HMP算法则需要32.6秒。
实施例2
在实施例1的基础上,本发明还提供一种RGB-D图像分类系统。本发明一种RGB-D图像分类系统具体包括:
低层次特征提取模块,利用CNN分别对源RGB图像和Depth图像进行处理提取低层次特征;
中层特征提取模块,通过递归神经网络(RNN)对图像低层次特征进行反馈学习,学习图像中层特征;
高层特征提取模块,用于采用块内约束字典学习方法,对图像中层特征进行特征组稀疏表示,获取RGB-D图像的高层特征表示;
分类模块,用于将RGB-D图像的高层特征输入线性支持向量机SVM完成RGB-D图像的分类识别。
在具体实施过程中,低层次特征提取模块具体用于单层CNN分别对源RGB图像和Depth图像进行卷积下采样操作,提取图像低层次特征。具体地,利用K(如K=64或者128)个滤波器对每幅尺寸均为di(如di=148)的图像进行卷积,卷积块的尺寸为dp,对卷积块进行归一化和白化,最后形成K个特征滤波器映射,每个特征映射具有m个卷积块,其中m=(di-dp+1)×(di-dp+1),图像指的是源RGB图像和Depth图像;接着利用尺寸为d1×d1的平方区域和步长大小为s将m个卷积块进行池化操作,池化操作中取最大操作,产生相等宽度和高度的采样块,其大小为 r = ( m 2 - d 1 ) / s + 1.
一幅图像经过CNN层的处理得到一系列采样块,一系列采样块作为CNN的输出结果Y,Y是一个K×r×r的3D矩阵,K为特征映射个数。
在具体实施过程中,中层特征提取模块具体用于将图像低层次特征输入到三层RNN网络中进行深入反馈学习,提取图像中层特征。具体地,将CNN输出的三维矩阵Y∈Rk×r×r作为RNN网络的特征输入;接着,在RNN树结构中,定义一个表示相邻列向量列表的方形块,3层融合后合并为父向量P∈Rk,其中R表示实数集,所得父向量即为图像中层特征。
在具体实施过程中,高层特征学习模块具体包括:
融合模块,用于将RGB图像和Depth图像的中层特征信息进行线性叠加融合;
块字典模块,用于根据RGB-D图像类别个数,对图像的中层特征分成对应组数,采用块内约束字典学习算法学习块字典;
稀疏系数求解模块,用于采用学习好的块字典,采用ADMM对训练集和测试集进行稀疏系数求解,获取特征的优化表示,形成RGB-D图像的高层特征表示。
在具体实施过程中,分类模块具体包括:
分类器产生模块,具体用于将获得的训练集稀疏系数,输入线性支持向量机SVM,产生SVM分类器;
结果产生模块,具体用于采用SVM分类器对测试集稀疏系数进行分类,得到RGB-D图像的分类结果。
本发明的系统采用了深度学习的层次特征学习方法,在低层次特征提取模块和中层特征提取模块中,利用深度学习中卷积神经网络和递归神经能自动高效地对复杂的客观事物进行表示,这与采用普通的手工设计特征提取方法(SIFT,SURF)相比,具有更好的通用性,能获取更高的分类精度。在高层特征提取模块中,采用块内约束字典学习算法与组稀疏编码算法对图像中层特征进行稀疏表示,获取RGB-D图像的高层特征表示,块字典学习算法能有效克服噪声数据和相似度高图像。最后分类模块中采用线性SVM分类器进行分类。与现有RGB-D图像分类系统相比,这种多层次特征学习系统能够更好地提取图像最有区分能力的特征表达,使RGB-D图像分类更加精确,对自然图像具有普遍适应性。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种RGB-D图像分类方法,其特征在于,包括如下步骤:
S1.分别对源RGB图像和Depth图像进行处理提取图像低层次特征;
S2.对图像低层次特征进行反馈学习,学习图像中层特征;
S3.采用块内约束字典学习方法,对图像中层特征进行特征组稀疏表示,获取RGB-D图像的高层特征表示;
S4.将RGB-D图像的高层特征输入线性SVM完成RGB-D图像的分类识别。
2.根据权利要求1所述的RGB-D图像分类方法,其特征在于,步骤S1的具体提取方式是:
S11.采用单层CNN分别对源RGB图像和Depth图像进行卷积下采样操作,提取图像低层次特征。
3.根据权利要求2所述的RGB-D图像分类方法,其特征在于,步骤S11中,源RGB图像和Depth图像的图像低层次特征具体采用如下步骤提取:
S111.利用K个滤波器对每幅尺寸均为的图像进行卷积,卷积块的尺寸为,对卷积块进行归一化和白化操作,最后形成K个特征滤波器映射,每个特征映射具有m个卷积块,其中m=(
S112.用尺寸为的平方区域和步长大小为将步骤S111中的卷积块进行池化操作,产生相等宽度和高度的采样块,其大小为,一幅图像经过CNN层的处理得到一系列采样块,一系列采样块作为CNN的输出结果Y,Y是一个的3D矩阵,为特征映射个数。
4.根据权利要求3所述的RGB-D图像分类方法,其特征在于,步骤S2的具体提取步骤为:
S21.将图像低层次特征输入到三次层RNN网络中进行深入反馈学习,提取图像中层特征。
5.根据权利要求4所述的RGB-D图像分类方法,其特征在于,S21的具体步骤为:
S211.将CNN输出的包含K个特征映射的三维矩阵,作为RNN网络的特征输入,其中R表示实数集;
S212.在RNN树结构中,定义一个表示相邻列向量列表的方形块,融合后合并为父向量,其中R表示实数集,所得父向量即为图像中层特征。
6.根据权利要求1所述的RGB-D图像分类方法,其特征在于,步骤S3的具体步骤为:
S31.将RGB图像和Depth图像的中层特征信息进行线性叠加融合;
S32.根据RGB-D图像类别个数,对图像的中层特征分成对应组数,采用块内约束字典学习算法学习块字典,其中初始块字典采用DCT产生;
S33.将图像中层特征随机分成训练集和测试集,采用学习好的块字典,采用ADMM对训练集和测试集进行稀疏系数求解,获取特征的优化表示,形成RGB-D图像的高层特征表示。
7.根据权利要求6所述的RGB-D图像分类方法,其特征在于,步骤S4的具体步骤为:
S41.将S33中获得的训练集稀疏系数,输入线性SVM,产生SVM分类器;
S42.采用S41中SVM分类器对测试集稀疏系数进行分类,得到RGB-D图像的分类结果。
8.一种RGB-D图像分类系统,其特征在于,包括:
低层次特征提取模块,用于分别对源RGB图像和Depth图像进行处理提取图像低层次特征;
中层特征提取模块,用于对图像低层次特征进行反馈学习,学习图像中层特征;
高层特征提取模块,用于采用块内约束字典学习方法,对图像中层特征进行特征组稀疏表示,获取RGB-D图像的高层特征表示;
分类模块,用于将RGB-D图像的高层特征输入线性SVM完成RGB-D图像的分类识别。
9.根据权利要求8所述所述的RGB-D图像分类系统,其特征在于,低层次特征提取模块具体用于通过单层CNN分别对源RGB图像和Depth图像进行卷积下采样操作,提取图像低层次特征;
中层特征提取模块具体用于将图像低层次特征输入到三次层RNN网络中进行深入反馈学习,提取图像中层特征。
10.根据权利要求8或9所述所述的RGB-D图像分类系统,其特征在于,高层特征提提取模块具体包括:
融合模块,用于将RGB图像和Depth图像的中层特征信息进行线性叠加融合;
块字典模块,用于根据RGB-D图像类别个数,对图像的中层特征分成对应组数,采用块内约束字典学习算法学习块字典,其中初始块字典采用DCT产生;
系数特征求解模块,用于将图像中层特征随机分成训练集和测试集,采用学习好的块字典,采用ADMM对训练集和测试集进行稀疏系数求解,获取特征的优化表示,形成RGB-D图像的高层特征表示。
CN201510402298.3A 2015-07-09 2015-07-09 一种rgb-d图像分类方法及系统 Active CN105224942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510402298.3A CN105224942B (zh) 2015-07-09 2015-07-09 一种rgb-d图像分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510402298.3A CN105224942B (zh) 2015-07-09 2015-07-09 一种rgb-d图像分类方法及系统

Publications (2)

Publication Number Publication Date
CN105224942A true CN105224942A (zh) 2016-01-06
CN105224942B CN105224942B (zh) 2020-02-04

Family

ID=54993902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510402298.3A Active CN105224942B (zh) 2015-07-09 2015-07-09 一种rgb-d图像分类方法及系统

Country Status (1)

Country Link
CN (1) CN105224942B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825235A (zh) * 2016-03-16 2016-08-03 博康智能网络科技股份有限公司 一种基于多特征图深度学习的图像识别方法
CN106228177A (zh) * 2016-06-30 2016-12-14 浙江大学 基于卷积神经网络的日常生活物体图像识别方法
CN106599800A (zh) * 2016-11-25 2017-04-26 哈尔滨工程大学 一种基于深度学习的人脸微表情识别方法
CN106650795A (zh) * 2016-12-01 2017-05-10 携程计算机技术(上海)有限公司 酒店房型图像的排序方法
CN106683087A (zh) * 2016-12-26 2017-05-17 华南理工大学 一种基于深度神经网络的舌苔体质辨别方法
CN106709421A (zh) * 2016-11-16 2017-05-24 广西师范大学 一种基于变换域特征和cnn的细胞图像识别分类方法
CN106815578A (zh) * 2017-01-23 2017-06-09 重庆邮电大学 一种基于深度运动图‑尺度不变特征变换的手势识别方法
CN107133650A (zh) * 2017-05-10 2017-09-05 合肥华凌股份有限公司 冰箱的食物识别方法、装置及冰箱
CN107491459A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 三维立体图像的检索方法和装置
CN107808131A (zh) * 2017-10-23 2018-03-16 华南理工大学 基于双通路深度卷积神经网络的动态手势识别方法
CN107895386A (zh) * 2017-11-14 2018-04-10 中国航空工业集团公司西安飞机设计研究所 一种多平台联合目标自主识别方法
CN108388834A (zh) * 2017-01-24 2018-08-10 福特全球技术公司 利用循环神经网络和级联特征映射的对象检测
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法
CN108596256A (zh) * 2018-04-26 2018-09-28 北京航空航天大学青岛研究院 一种基于rgb-d物体识别分类器构造方法
CN108647723A (zh) * 2018-05-11 2018-10-12 湖北工业大学 一种基于深度学习网络的图像分类方法
CN108921190A (zh) * 2018-05-24 2018-11-30 北京飞搜科技有限公司 一种图像分类方法、装置及电子设备
CN109157210A (zh) * 2018-07-11 2019-01-08 厦门大学 一种基于admm和神经网络的心外膜电位重建方法
CN109359511A (zh) * 2018-08-28 2019-02-19 中国农业大学 一种监测易发芽作物发芽状态的方法及装置
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN110443813A (zh) * 2019-07-29 2019-11-12 腾讯医疗健康(深圳)有限公司 血管、眼底图像的分割方法、装置、设备及可读存储介质
CN110533078A (zh) * 2019-08-02 2019-12-03 西安电子科技大学 基于字典对的多视角识别方法
CN111480169A (zh) * 2017-10-10 2020-07-31 诺基亚技术有限公司 用于模式识别的方法、系统和装置
CN111753658A (zh) * 2020-05-20 2020-10-09 高新兴科技集团股份有限公司 一种睡岗告警方法、装置和计算机设备
CN112861760A (zh) * 2017-07-25 2021-05-28 虹软科技股份有限公司 一种用于表情识别的方法和装置
CN113343002A (zh) * 2021-06-07 2021-09-03 湖南大学 一种基于深度cnn特征的图像检索和分类方法
US20210279884A1 (en) * 2020-03-06 2021-09-09 Siemens Healthcare Gmbh Method of computing a boundary
CN113486929A (zh) * 2021-06-17 2021-10-08 中国地质大学(武汉) 基于残差收缩模块与注意力机制的岩石薄片图像识别方法
TWI794414B (zh) * 2018-02-21 2023-03-01 德商羅伯特博斯奇股份有限公司 用於使用深度感測器進行即時物件偵測的系統和方法
CN116863352A (zh) * 2023-09-05 2023-10-10 江西啄木蜂科技有限公司 一种超大幅面遥感影像异常区域检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258210A (zh) * 2013-05-27 2013-08-21 中山大学 一种基于字典学习的高清图像分类方法
KR20140001168A (ko) * 2012-06-27 2014-01-06 한국과학기술원 Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치
CN104331717A (zh) * 2014-11-26 2015-02-04 南京大学 一种整合特征字典结构与视觉特征编码的图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140001168A (ko) * 2012-06-27 2014-01-06 한국과학기술원 Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치
CN103258210A (zh) * 2013-05-27 2013-08-21 中山大学 一种基于字典学习的高清图像分类方法
CN104331717A (zh) * 2014-11-26 2015-02-04 南京大学 一种整合特征字典结构与视觉特征编码的图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张铖程: "基于稀疏表示的RGB-D物体检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄晓琳等: "基于压缩感知理论的RGB-D 图像分类方法", 《计算机应用与软件》 *

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825235A (zh) * 2016-03-16 2016-08-03 博康智能网络科技股份有限公司 一种基于多特征图深度学习的图像识别方法
CN105825235B (zh) * 2016-03-16 2018-12-25 新智认知数据服务有限公司 一种基于多特征图深度学习的图像识别方法
CN107491459A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 三维立体图像的检索方法和装置
CN106228177A (zh) * 2016-06-30 2016-12-14 浙江大学 基于卷积神经网络的日常生活物体图像识别方法
CN106709421A (zh) * 2016-11-16 2017-05-24 广西师范大学 一种基于变换域特征和cnn的细胞图像识别分类方法
CN106709421B (zh) * 2016-11-16 2020-03-31 广西师范大学 一种基于变换域特征和cnn的细胞图像识别分类方法
CN106599800A (zh) * 2016-11-25 2017-04-26 哈尔滨工程大学 一种基于深度学习的人脸微表情识别方法
CN106650795A (zh) * 2016-12-01 2017-05-10 携程计算机技术(上海)有限公司 酒店房型图像的排序方法
CN106650795B (zh) * 2016-12-01 2020-06-12 携程计算机技术(上海)有限公司 酒店房型图像的排序方法
CN106683087A (zh) * 2016-12-26 2017-05-17 华南理工大学 一种基于深度神经网络的舌苔体质辨别方法
CN106815578A (zh) * 2017-01-23 2017-06-09 重庆邮电大学 一种基于深度运动图‑尺度不变特征变换的手势识别方法
US10198655B2 (en) 2017-01-24 2019-02-05 Ford Global Technologies, Llc Object detection using recurrent neural network and concatenated feature map
US10452946B2 (en) 2017-01-24 2019-10-22 Ford Global Technologies, Llc Object detection using recurrent neural network and concatenated feature map
CN108388834A (zh) * 2017-01-24 2018-08-10 福特全球技术公司 利用循环神经网络和级联特征映射的对象检测
CN108388834B (zh) * 2017-01-24 2023-08-22 福特全球技术公司 利用循环神经网络和级联特征映射的对象检测
US11062167B2 (en) 2017-01-24 2021-07-13 Ford Global Technologies, Llc Object detection using recurrent neural network and concatenated feature map
CN107133650A (zh) * 2017-05-10 2017-09-05 合肥华凌股份有限公司 冰箱的食物识别方法、装置及冰箱
CN112861760A (zh) * 2017-07-25 2021-05-28 虹软科技股份有限公司 一种用于表情识别的方法和装置
US11755889B2 (en) 2017-10-10 2023-09-12 Nokia Technologies Oy Method, system and apparatus for pattern recognition
CN111480169B (zh) * 2017-10-10 2024-05-10 诺基亚技术有限公司 用于模式识别的方法、系统和装置
CN111480169A (zh) * 2017-10-10 2020-07-31 诺基亚技术有限公司 用于模式识别的方法、系统和装置
CN107808131A (zh) * 2017-10-23 2018-03-16 华南理工大学 基于双通路深度卷积神经网络的动态手势识别方法
CN107808131B (zh) * 2017-10-23 2019-12-10 华南理工大学 基于双通路深度卷积神经网络的动态手势识别方法
CN107895386A (zh) * 2017-11-14 2018-04-10 中国航空工业集团公司西安飞机设计研究所 一种多平台联合目标自主识别方法
TWI794414B (zh) * 2018-02-21 2023-03-01 德商羅伯特博斯奇股份有限公司 用於使用深度感測器進行即時物件偵測的系統和方法
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法
CN108520535B (zh) * 2018-03-26 2022-02-15 天津大学 基于深度恢复信息的物体分类方法
CN108596256A (zh) * 2018-04-26 2018-09-28 北京航空航天大学青岛研究院 一种基于rgb-d物体识别分类器构造方法
CN108596256B (zh) * 2018-04-26 2022-04-01 北京航空航天大学青岛研究院 一种基于rgb-d物体识别分类器构造方法
CN108647723A (zh) * 2018-05-11 2018-10-12 湖北工业大学 一种基于深度学习网络的图像分类方法
CN108647723B (zh) * 2018-05-11 2020-10-13 湖北工业大学 一种基于深度学习网络的图像分类方法
CN108921190A (zh) * 2018-05-24 2018-11-30 北京飞搜科技有限公司 一种图像分类方法、装置及电子设备
CN109157210A (zh) * 2018-07-11 2019-01-08 厦门大学 一种基于admm和神经网络的心外膜电位重建方法
CN109359511B (zh) * 2018-08-28 2020-09-15 中国农业大学 一种监测易发芽作物发芽状态的方法及装置
CN109359511A (zh) * 2018-08-28 2019-02-19 中国农业大学 一种监测易发芽作物发芽状态的方法及装置
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN110443813B (zh) * 2019-07-29 2024-02-27 腾讯医疗健康(深圳)有限公司 血管、眼底图像的分割方法、装置、设备及可读存储介质
CN110443813A (zh) * 2019-07-29 2019-11-12 腾讯医疗健康(深圳)有限公司 血管、眼底图像的分割方法、装置、设备及可读存储介质
CN110533078B (zh) * 2019-08-02 2022-03-22 西安电子科技大学 基于字典对的多视角识别方法
CN110533078A (zh) * 2019-08-02 2019-12-03 西安电子科技大学 基于字典对的多视角识别方法
US20210279884A1 (en) * 2020-03-06 2021-09-09 Siemens Healthcare Gmbh Method of computing a boundary
US11610316B2 (en) * 2020-03-06 2023-03-21 Siemens Healthcare Gmbh Method of computing a boundary
CN111753658A (zh) * 2020-05-20 2020-10-09 高新兴科技集团股份有限公司 一种睡岗告警方法、装置和计算机设备
CN113343002A (zh) * 2021-06-07 2021-09-03 湖南大学 一种基于深度cnn特征的图像检索和分类方法
CN113486929A (zh) * 2021-06-17 2021-10-08 中国地质大学(武汉) 基于残差收缩模块与注意力机制的岩石薄片图像识别方法
CN113486929B (zh) * 2021-06-17 2023-02-24 中国地质大学(武汉) 基于残差收缩模块与注意力机制的岩石薄片图像识别方法
CN116863352A (zh) * 2023-09-05 2023-10-10 江西啄木蜂科技有限公司 一种超大幅面遥感影像异常区域检测方法
CN116863352B (zh) * 2023-09-05 2024-01-02 江西啄木蜂科技有限公司 一种超大幅面遥感影像异常区域检测方法

Also Published As

Publication number Publication date
CN105224942B (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN105224942A (zh) 一种rgb-d图像分类方法及系统
Zweig et al. Exploiting object hierarchy: Combining models from different category levels
Bai et al. Subset based deep learning for RGB-D object recognition
Pandey et al. Scene recognition and weakly supervised object localization with deformable part-based models
CN103514456B (zh) 基于压缩感知多核学习的图像分类方法及其装置
CN105718889B (zh) 基于GB(2D)2PCANet深度卷积模型的人脸身份识别方法
CN106503687A (zh) 融合人脸多角度特征的监控视频人物身份识别系统及其方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
Sabu et al. Literature review of image features and classifiers used in leaf based plant recognition through image analysis approach
CN105488536A (zh) 一种基于多特征深度学习技术的农田害虫图像识别方法
CN104182772A (zh) 一种基于深度学习的手势识别方法
CN105809205B (zh) 一种高光谱图像的分类方法及其系统
CN105574505A (zh) 一种多摄像机间人体目标再识别的方法及系统
CN102054178A (zh) 一种基于局部语义概念的国画图像识别方法
CN104715254A (zh) 一种基于2d和3d sift特征融合的一般物体识别方法
Wan et al. Action recognition based on two-stream convolutional networks with long-short-term spatiotemporal features
CN109558806A (zh) 高分遥感图像变化的检测方法和系统
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN104537647A (zh) 一种目标检测方法及装置
CN104504395A (zh) 基于神经网络实现人车分类的方法和系统
Fadaeddini et al. A deep residual neural network for low altitude remote sensing image classification
CN103646255A (zh) 一种基于Gabor特征和极限学习机的人脸检测方法
Wang et al. LiDAR data classification using morphological profiles and convolutional neural networks
CN106296709B (zh) 一种基于粒子群及模糊均值聚类的细胞图像分割方法
CN109784288B (zh) 一种基于判别感知融合的行人再识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant