CN111652273A - 一种基于深度学习的rgb-d图像分类方法 - Google Patents

一种基于深度学习的rgb-d图像分类方法 Download PDF

Info

Publication number
CN111652273A
CN111652273A CN202010344538.XA CN202010344538A CN111652273A CN 111652273 A CN111652273 A CN 111652273A CN 202010344538 A CN202010344538 A CN 202010344538A CN 111652273 A CN111652273 A CN 111652273A
Authority
CN
China
Prior art keywords
rgb
image
feature
depth image
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010344538.XA
Other languages
English (en)
Other versions
CN111652273B (zh
Inventor
李珣
李林鹏
南恺恺
吴丹丹
时斌斌
马文哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN202010344538.XA priority Critical patent/CN111652273B/zh
Publication of CN111652273A publication Critical patent/CN111652273A/zh
Application granted granted Critical
Publication of CN111652273B publication Critical patent/CN111652273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的RGB‑D图像分类方法,首先使用计算表面法线的方法对深度图像进行可视化编码,将深度图像编码为三通道,然后对RGB图像和编码后的深度图像进行长边缩放的短边扩展的归一化预处理,使用卷积神经网络分别对RGB图像和深度图像进行训练,提取RGB图像和深度图像的高层次特征,其次,网络顶层RGB图像和深度图像的特征通过特征融合单元进行融合最后将融合后的RGB‑D特征作为GRU递归神经网络的输入生成新的序列,使用Softmax对递归神经网络输出的特征序列进行分类。本发明使用两个并行的卷积神经网络对RGB‑D数据进行联合分类,与手工特征的方法和浅层网络模型相比,分类精度明显提高。

Description

一种基于深度学习的RGB-D图像分类方法
技术领域
本发明属于模式识别和图像分类技术领域,具体涉及一种基于深度学习的RGB-D图像分类方法。
背景技术
图像识别是计算机视觉领域中的重要分支之一,在过去的几年里RGB图像的识别工作取得了很大的进展。但是由于RGB图像自身的局限性,在实际应用的过程中容易受到光照背景因素的影响,不能达到实际应用中的需求。如在服务机器人领域,由于识别的鲁棒性不能达到指定的要求,导致图像识别在自主式移动机器人上的应用一度陷入瓶颈。近年来推出的RGB-D相机如Kinect等,可以同时捕获物体的RGB图像和深度图像,其中RGB图像包含的物体的颜色和纹理信息,深度图像包含了物体的空间几何形状信息,且具有光照不变性,两者所包含的信息对彼此都是一种有效的补充。已有的研究表明,结合物体的RGB图像和深度图像可以提高图像识别的准确率和鲁棒性。
早期的RGB-D图像分类方法大多基于手工构建特征,包括尺度不变特征变换(SIFT)、加速稳健性(SURF)和方向梯度直方图(HOG)等方法。这类方法具有很大的局限性,对于具体的视觉问题需要有很强的的先验知识才能设计好区分性强的特征与融合规则,所以很难具有普适性。而且手工设计特征的方法通常需要针对不同的条件进行手动调整,并且它们不能捕获不同类别对象的所有有用的区别信息,不容易扩展到其他数据集,很难利用大数据时代万物互联的优势。近年来基于高维数据集的特征学习技术在RGB-D图像分类中展现出优势,如专利(CN201811176644.0)公开了一种四元数广义判别分析的RGB-D目标识别方法,将核函数引入四元数子空间对图像矩阵进行分解,定义四元数广义判别分析;专利(CN105224942A)公开了一种RGB-D图像分类方法,使用单层的卷积神经网络(CNN)对RGB图像和深度图像提取低层次特征,采用块内约束字典学习的方法进行特征组稀疏表示,但是浅层特征表达能力有限,并没有充分利用RGB图像和深度图像的融合优势,对于颜色和纹理相近的图像分类效果不佳。为了克服以上缺陷,提高RGB-D图像的分类精度,本发明利用深度学习在图像处理中的优势,使用两个并行的卷积神经网络对RGB-D数据进行联合分类,与手工特征的方法和浅层网络模型相比,分类精度有了明显的提高。
发明内容
本发明的目的是提供一种基于深度学习的RGB-D图像分类方法,使用两个并行的卷积神经网络对RGB-D数据进行联合分类,与手工特征的方法和浅层网络模型相比,分类精度明显提高。
本发明所采用的技术方案是,一种基于深度学习的RGB-D图像分类方法,具体按照以下步骤实施:
步骤1、使用计算表面法线的方法对数据集中每个深度图像中的所有像素点计算表面法线,将单通道深度图像可视化编码为三通道深度图像,深度图像中包含的每个像素点的空间坐标(x,y,z)的数值分别被指定为R、G、B的像素值,并映射到整数值[0,255]之间;
步骤2、对数据集中经过步骤1所生成编码后的深度图像和数据集中剩余的所有RGB图像进行长边缩放、短边扩展的归一化预处理,避免因图像拉伸影响识别性能,得到尺度归一化后的RGB图像和深度图像;
步骤3、使用两个卷积神经网络分别对步骤2中尺度归一化后的RGB图像和深度图像进行训练,引入残差学习减小模型参数,在网络顶层得到RGB图像的高阶特征Krgbfeaturemap和深度图像的高阶特征Gdfeature map;
步骤4、将步骤3中RGB图像的高阶特征和深度图像的高阶特征经过特征融合单元进行融合,特征融合单元由一个1×1卷积层、一个批量归一化层、Relu激活函数和全局均值池化层组成,得到RGB图像和深度图像的融合特征;
步骤5、将步骤4中的融合特征作为GRU递归神经网络的输入,生成新的RGB-D序列特征;
步骤6、对步骤5中的RGB-D序列特征计算概率分布,输出RGB-D图像的类别结果。
本发明的特点还在于,
步骤2具体如下:
步骤2.1、进行输入目标图像的预扫描,判别目标图像的长、短边;
步骤2.2、目标图像长边进行保留原始比例缩放,长边缩放为256像素;
步骤2.3、短边按照长边缩放后的像素差值进行额外边界创建,并沿短边轴进行扩充获得256×256像素的图像,原始目标位于扩展图像居中位置。
步骤3中使用49卷积层分别对RGB图像和深度图像进行卷积下采样操作,提取高层次特征,具体如下:
步骤3.1、其中,49个卷积层共组成5组卷积:conv2_x、conv3_x、conv4_x、conv5_x,卷积均包含多个残差单元,残差单元表示为:
Qi=h(si)+F(si,Wi)
si+1=f(Qi)
上式中,i表示任意残差单元,Qi表示经过残差单元要得到的目标特征,si表示sd残差单元的输入,si+1表示si的输出,即下一个残差单元的输入,F(si,Wi)是学习的残差,Wi代表残差单元i中的卷积操作,当h(si)=si时表示恒等映射,f代表激活函数,I表示更深层的残差单元,I>i,当h(si)=si,f(Qi)=Qi时可以计算出i到深层I所学习到的目标特征SI,从第d个残差单元开始,SI通式如下:
Figure BDA0002469667320000041
上式中,sd代表第d个残差单元的输入,Wd代表第d个残差单元中的卷操作;
步骤3.2、通过链式求导计算反向过程的梯度:
Figure BDA0002469667320000042
上式中,第一个偏导
Figure BDA0002469667320000043
是Loss函数到I的梯度,
Figure BDA0002469667320000044
代表通过权重层传播的梯度,括号中常数1代表无损传播梯度,保证梯度不会完全消失;
经过49个卷积层提取的RGB图像的高阶特征Krgbfeature map具体表示为Krgb=[K1,K2,…Kx],深度图像的高阶特征Gd feature map具体表示为Gd=[G1,G2,…Gx],其中,x表示特征的个数,K1代表所提取RGB图像的第一个特征,K2代表所提取RGB图像的第二个特征,Kx代表所提取RGB图像的第x个特征,G1代表所提取深度图像的第一个特征,G2代表所提取深度图像的第二个特征,Gx代表所提取深度图像的第x个特征。
步骤4具体如下:
将步骤3中得到的高阶特征Krgbfeature map和Gdfeature map经过特征融合单元进行融合,特征融合单元包括:1×1的卷积层、一个批量归一化层、Relu激活函数和全局均值池化层,得到RGB图像和深度图像的融合特征。
步骤5中递归神经网络模块中,使用tanh函数作为GRU递归神经网络的激活函数得到新的RGB-D序列特征。
步骤6中使用Softmax分类器对GRU递归神经网络生成的RGB-D序列特征计算概率分布,得到RGB-D图像的分类结果。
本发明的有益效果是,(1)本发明提出了一种基于深度神经网络的RG B-D图像分类方法,将更深层次的神经网络用于RGB-D图像分类算法,残差学习模块减少卷积神经网络的训练参数,克服RGB图像和深度图像同时训练占用资源过多的情况,同时避免过程中发生梯度下降,并提高分类效率。并使用双流卷积与递归相结合的学习模式,充分发挥深度学习在特征提取方面的优势。
(2)采用迁移学习的方法对编码后的深度图像进行训练,提高了深度图像的三维表达能力,增加了一个新的特征融合单元,把RGB图像和深度图像的高阶特征跨通道信息融合,并使用递归神经网络生成新的特征序列,避免了已有的网络模型中注重单独模态的识别结果,忽略了RGB-D融合特征问题,使融合后的识别结果有了明显的提高。
(3)本发明提出的RGB-D图像分类方法能够更好的自动学习特征并进行端到端的训练,与传统方法相比普适性更强。在标准的RGB-D数据库上进行了大量的验证,本发明提出的方法具有更优越的性能。
附图说明
图1是本发明一种基于深度学习的RGB-D图像分类方法流程图;
图2是本发明一种基于深度学习的RGB-D图像分类方法结构图;
图3是本发明一种基于深度学习的RGB-D图像分类方法特征融合单元结构示意图;
图4是本发明具体实验所用的RGB-D数据集示意图;
图5是本发明方法实验结果混淆矩阵表示图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于深度学习的RGB-D图像分类方法,流程图如图1所示,具体按照以下步骤实施:
步骤1、使用计算表面法线的方法对数据集中每个深度图像中的所有像素点计算表面法线,将单通道深度图像可视化编码为三通道深度图像,深度图像中包含的每个像素点的空间坐标(x,y,z)的数值分别被指定为R、G、B的像素值,并映射到整数值[0,255]之间;
步骤2、对数据集中经过步骤1所生成编码后的深度图像和数据集中剩余的所有RGB图像进行长边缩放、短边扩展的归一化预处理,避免因图像拉伸影响识别性能,得到尺度归一化后的RGB图像和深度图像;
步骤2具体如下:
步骤2.1、进行输入目标图像的预扫描,判别目标图像的长、短边;
步骤2.2、目标图像长边进行保留原始比例缩放,长边缩放为256像素;
步骤2.3、短边按照长边缩放后的像素差值进行额外边界创建,并沿短边轴进行扩充获得256×256像素的图像,原始目标位于扩展图像居中位置。
步骤3、使用两个卷积神经网络分别对步骤2中尺度归一化后的RGB图像和深度图像进行训练,引入残差学习减小模型参数,在网络顶层得到RGB图像的高阶特征Krgbfeaturemap和深度图像的高阶特征Gdfeature map;
步骤3中使用49卷积层分别对RGB图像和深度图像进行卷积下采样操作,提取高层次特征,具体如下:
步骤3.1、其中,49个卷积层共组成5组卷积:conv2_x、conv3_x、conv4_x、conv5_x,卷积均包含多个残差单元,残差单元表示为:
Qi=h(si)+F(si,Wi)
si+1=f(Qi)
上式中,i表示任意残差单元,Qi表示经过残差单元要得到的目标特征,si表示sd残差单元的输入,si+1表示si的输出,即下一个残差单元的输入,F(si,Wi)是学习的残差,Wi代表残差单元i中的卷积操作,当h(si)=si时表示恒等映射,f代表激活函数,I表示更深层的残差单元,I>i,当h(si)=si,f(Qi)=Qi时可以计算出i到深层I所学习到的目标特征SI,从第d个残差单元开始,SI通式如下:
Figure BDA0002469667320000071
上式中,sd代表第d个残差单元的输入,Wd代表第d个残差单元中的卷操作;
步骤3.2、通过链式求导计算反向过程的梯度:
Figure BDA0002469667320000072
上式中,第一个偏导
Figure BDA0002469667320000081
是Loss函数到I的梯度,
Figure BDA0002469667320000082
代表通过权重层传播的梯度,括号中常数1代表无损传播梯度,保证梯度不会完全消失;
经过49个卷积层提取的RGB图像的高阶特征Krgbfeature map具体表示为Krgb=[K1,K2,…Kx],深度图像的高阶特征Gd feature map具体表示为Gd=[G1,G2,…Gx],其中,x表示特征的个数,K1代表所提取RGB图像的第一个特征,K2代表所提取RGB图像的第二个特征,Kx代表所提取RGB图像的第x个特征,G1代表所提取深度图像的第一个特征,G2代表所提取深度图像的第二个特征,Gx代表所提取深度图像的第x个特征。
步骤4、将步骤3中RGB图像的高阶特征和深度图像的高阶特征经过特征融合单元进行融合,特征融合单元由一个1×1卷积层、一个批量归一化层、Relu激活函数和全局均值池化层组成,得到RGB图像和深度图像的融合特征;
步骤4具体如下:
将步骤3中得到的高阶特征Krgbfeature map和Gdfeature map经过特征融合单元进行融合,特征融合单元包括:1×1的卷积层、一个批量归一化层、Relu激活函数和全局均值池化层,得到RGB图像和深度图像的融合特征。
步骤5、将步骤4中的融合特征作为GRU递归神经网络的输入,生成新的RGB-D序列特征;
步骤5中递归神经网络模块中,使用tanh函数作为GRU递归神经网络的激活函数得到新的RGB-D序列特征。
步骤6、对步骤5中的RGB-D序列特征计算概率分布,输出RGB-D图像的类别结果。
步骤6中使用Softmax分类器对GRU递归神经网络生成的RGB-D序列特征计算概率分布,得到RGB-D图像的分类结果。
本发明的一种基于深度学习的RGB-D图像分类方法结构图如图2所示,主要包括:RGB-D数据集、RGB-Resnet提取RGB图像特征、Depth-Resnet提取深度图像特征、特征融合单元、GRU递归神经网络和Softmax分类器。图4所示为本发明专利实验所用RGB-D数据集,具体包括51类室内常见用品共300个实例,生成41877幅RGB图像和对应的深度图像。随机抽取每个类别的一种对象用于测试,剩余个对象用于训练,得到大约35000张训练图像和7000张测试图像。
RGB-Resnet和Depth-Resnet包含49的卷积层、共分为5组残差模块(conv2_x、conv3_x、conv4_x、conv5_x)提取RGB图像的高阶特征Krgbfeature map和深度图像的高阶特征Gdfeature map。
图3所示为本发明专利特征融合单元示意图,将RGB-Resnet和Depth-Resnet提取的高阶特征跨通道信息整合。特征融合单元具体包括:一个1×1卷积层、一个批量归一化层、Relu激活函数和全局均值池化层组成。Krgbfeature map和Gdfeature map经过特征融合单元,得到RGB图像和深度图像的融合特征(fusion feature map)
递归神经网使用GRU递归神经网络,递归神经网络的优势是包含时间序列的输出问题,网络中先前序列的所有输入会共同作用当前序列的输出。将融合后的特征fusionfeature map作为神经网络的输入,生成新的特征序列。
使用Softmax分类器读取GRU递归神经网络的输出序列计算概率分布,得到RGB-D图像的分类结果。
参见图5所示RGB-D数据集上分类结果的混淆矩阵,混淆矩阵可以更清晰的看到错误分类的类别,为分析其原因提供了有用的信息。具体的,每一行的索引代表了RGB-D数据集中所有类别的真实标签,每一列的索引代表了各类别的分类结果,主对角线的深浅表示正确分类的总体占比。可以看到容易错分的类别存在于颜色和纹理都相似的物体,具体集中在以下几个类别:orange和peach、ball和garlic、mushroon和garlic等。分析其原因,首先,较少的实例会影响分类结果,如mushroon类仅有3个实例,训练样本的单一化导致可学习特征类与量均受到限制,网络无法泛化新增添的数据,是造成错误的分类的原因之一;此外受传感器性能影响,已有的RGB-D数据集中图像的分辨率普遍不高,且深度图像中物体边缘部分深度值缺失,也可能对结果造成干扰。本发明专利的一种基于深度学习的RGB-D图像分类方法在大多数类别上都表现出高性能的识别率,可以很好的完成RGB-D图像的分类任务。

Claims (6)

1.一种基于深度学习的RGB-D图像分类方法,其特征在于,具体按照以下步骤实施:
步骤1、使用计算表面法线的方法对数据集中每个深度图像中的所有像素点计算表面法线,将单通道深度图像可视化编码为三通道深度图像,深度图像中包含的每个像素点的空间坐标(x,y,z)的数值分别被指定为R、G、B的像素值,并映射到整数值[0,255]之间;
步骤2、对数据集中经过步骤1所生成编码后的深度图像和数据集中剩余的所有RGB图像进行长边缩放、短边扩展的归一化预处理,避免因图像拉伸影响识别性能,得到尺度归一化后的RGB图像和深度图像;
步骤3、使用两个卷积神经网络分别对步骤2中尺度归一化后的RGB图像和深度图像进行训练,引入残差学习减小模型参数,在网络顶层得到RGB图像的高阶特征Krgbfeature map和深度图像的高阶特征Gdfeature map;
步骤4、将步骤3中RGB图像的高阶特征和深度图像的高阶特征经过特征融合单元进行融合,特征融合单元由一个1×1卷积层、一个批量归一化层、Relu激活函数和全局均值池化层组成,得到RGB图像和深度图像的融合特征;
步骤5、将步骤4中的融合特征作为GRU递归神经网络的输入,生成新的RGB-D序列特征;
步骤6、对步骤5中的RGB-D序列特征计算概率分布,输出RGB-D图像的类别结果。
2.根据权利要求1所述的一种基于深度学习的RGB-D图像分类方法,其特征在于,所述步骤2具体如下:
步骤2.1、进行输入目标图像的预扫描,判别目标图像的长、短边;
步骤2.2、目标图像长边进行保留原始比例缩放,长边缩放为256像素;
步骤2.3、短边按照长边缩放后的像素差值进行额外边界创建,并沿短边轴进行扩充获得256×256像素的图像,原始目标位于扩展图像居中位置。
3.根据权利要求2所述的一种基于深度学习的RGB-D图像分类方法,其特征在于,所述步骤3中使用49卷积层分别对RGB图像和深度图像进行卷积下采样操作,提取高层次特征,具体如下:
步骤3.1、其中,49个卷积层共组成5组卷积:conv2_x、conv3_x、con v4_x、conv5_x,卷积均包含多个残差单元,残差单元表示为:
Qi=h(si)+F(si,Wi)
si+1=f(Qi)
上式中,i表示任意残差单元,Qi表示经过残差单元要得到的目标特征,si表示sd残差单元的输入,si+1表示si的输出,即下一个残差单元的输入,F(si,Wi)是学习的残差,Wi代表残差单元i中的卷积操作,当h(si)=si时表示恒等映射,f代表激活函数,I表示更深层的残差单元,I>i,当h(si)=si,f(Qi)=Qi时可以计算出i到深层I所学习到的目标特征SI,从第d个残差单元开始,SI通式如下:
Figure FDA0002469667310000021
上式中,sd代表第d个残差单元的输入,Wd代表第d个残差单元中的卷操作;
步骤3.2、通过链式求导计算反向过程的梯度:
Figure FDA0002469667310000031
上式中,第一个偏导
Figure FDA0002469667310000032
是Loss函数到I的梯度,
Figure FDA0002469667310000033
代表通过权重层传播的梯度,括号中常数1代表无损传播梯度,保证梯度不会完全消失;
经过49个卷积层提取的RGB图像的高阶特征Krgbfeature map具体表示为Krgb=[K1,K2,…Kx],深度图像的高阶特征Gdfeature map具体表示为Gd=[G1,G2,…Gx],其中,x表示特征的个数,K1代表所提取RGB图像的第一个特征,K2代表所提取RGB图像的第二个特征,Kx代表所提取RGB图像的第x个特征,G1代表所提取深度图像的第一个特征,G2代表所提取深度图像的第二个特征,Gx代表所提取深度图像的第x个特征。
4.根据权利要求3所述的一种基于深度学习的RGB-D图像分类方法,其特征在于,所述步骤4具体如下:
将步骤3中得到的高阶特征Krgbfeature map和Gdfeature map经过特征融合单元进行融合,特征融合单元包括:1×1的卷积层、一个批量归一化层、Relu激活函数和全局均值池化层,得到RGB图像和深度图像的融合特征。
5.根据权利要求4所述的一种基于深度学习的RGB-D图像分类方法,其特征在于,所述步骤5中GRU递归神经网络中,使用tanh函数作为GRU递归神经网络的激活函数得到新的RGB-D序列特征。
6.根据权利要求5所述的一种基于深度学习的RGB-D图像分类方法,其特征在于,所述步骤6中使用Softmax分类器对GRU递归神经网络生成的RGB-D序列特征计算概率分布,得到RGB-D图像的分类结果。
CN202010344538.XA 2020-04-27 2020-04-27 一种基于深度学习的rgb-d图像分类方法 Active CN111652273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010344538.XA CN111652273B (zh) 2020-04-27 2020-04-27 一种基于深度学习的rgb-d图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010344538.XA CN111652273B (zh) 2020-04-27 2020-04-27 一种基于深度学习的rgb-d图像分类方法

Publications (2)

Publication Number Publication Date
CN111652273A true CN111652273A (zh) 2020-09-11
CN111652273B CN111652273B (zh) 2023-04-07

Family

ID=72345488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010344538.XA Active CN111652273B (zh) 2020-04-27 2020-04-27 一种基于深度学习的rgb-d图像分类方法

Country Status (1)

Country Link
CN (1) CN111652273B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257639A (zh) * 2020-10-30 2021-01-22 福州大学 基于人体骨架的学生学习行为识别方法
CN112308090A (zh) * 2020-09-21 2021-02-02 北京沃东天骏信息技术有限公司 图像分类方法及装置
CN112873211A (zh) * 2021-02-24 2021-06-01 清华大学 一种机器人人机交互方法
CN112950693A (zh) * 2021-02-04 2021-06-11 广州意东网络科技有限公司 使用高斯分布概率值的智能静电吸附距离控制方法
CN113902786A (zh) * 2021-09-23 2022-01-07 珠海视熙科技有限公司 一种深度图像的预处理方法、系统及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408562A (zh) * 2016-09-22 2017-02-15 华南理工大学 基于深度学习的眼底图像视网膜血管分割方法及系统
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
US20180293711A1 (en) * 2017-04-06 2018-10-11 Disney Enterprises, Inc. Kernel-predicting convolutional neural networks for denoising

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN106408562A (zh) * 2016-09-22 2017-02-15 华南理工大学 基于深度学习的眼底图像视网膜血管分割方法及系统
US20180293711A1 (en) * 2017-04-06 2018-10-11 Disney Enterprises, Inc. Kernel-predicting convolutional neural networks for denoising

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
万磊等: "Softmax分类器深度学习图像分类方法应用综述", 《导航与控制》 *
袁红星等: "利用深度传感器大数据的单目图像深度估计", 《计算机辅助设计与图形学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308090A (zh) * 2020-09-21 2021-02-02 北京沃东天骏信息技术有限公司 图像分类方法及装置
CN112257639A (zh) * 2020-10-30 2021-01-22 福州大学 基于人体骨架的学生学习行为识别方法
CN112950693A (zh) * 2021-02-04 2021-06-11 广州意东网络科技有限公司 使用高斯分布概率值的智能静电吸附距离控制方法
CN112950693B (zh) * 2021-02-04 2023-08-11 南京南华航空产业有限公司 使用高斯分布概率值的智能静电吸附距离控制方法
CN112873211A (zh) * 2021-02-24 2021-06-01 清华大学 一种机器人人机交互方法
CN112873211B (zh) * 2021-02-24 2022-03-11 清华大学 一种机器人人机交互方法
CN113902786A (zh) * 2021-09-23 2022-01-07 珠海视熙科技有限公司 一种深度图像的预处理方法、系统及相关装置

Also Published As

Publication number Publication date
CN111652273B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN108009559B (zh) 一种基于空谱联合信息的高光谱数据分类方法
CN111191583B (zh) 基于卷积神经网络的空间目标识别系统及方法
CN106599854B (zh) 基于多特征融合的人脸表情自动识别方法
CN111462120B (zh) 一种基于语义分割模型缺陷检测方法、装置、介质及设备
CN111339903A (zh) 一种多人人体姿态估计方法
CN111612807A (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN110222767B (zh) 基于嵌套神经网络和栅格地图的三维点云分类方法
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN112115806B (zh) 基于Dual-ResNet小样本学习的遥感影像场景精确分类方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN110490210B (zh) 一种基于紧致通道间t采样差分的彩色纹理分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant