CN109740539A - 基于超限学习机和融合卷积网络的3d物体识别方法 - Google Patents

基于超限学习机和融合卷积网络的3d物体识别方法 Download PDF

Info

Publication number
CN109740539A
CN109740539A CN201910007340.XA CN201910007340A CN109740539A CN 109740539 A CN109740539 A CN 109740539A CN 201910007340 A CN201910007340 A CN 201910007340A CN 109740539 A CN109740539 A CN 109740539A
Authority
CN
China
Prior art keywords
network
fusion
learning machine
convolutional network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910007340.XA
Other languages
English (en)
Other versions
CN109740539B (zh
Inventor
黄强
王永雄
谈咏东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201910007340.XA priority Critical patent/CN109740539B/zh
Publication of CN109740539A publication Critical patent/CN109740539A/zh
Application granted granted Critical
Publication of CN109740539B publication Critical patent/CN109740539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种基于超限学习机和融合卷积网络的3D物体识别方法,模型以3D物体的多视角投影图作为输入,经过多层融合卷积网络提取特征,利用半随机的ELM网络进行分类;卷积网络由提出的融合卷积单元组成,是一种改进的残差单元,多个并行残差通道上的卷积核个数依次增加,相同大小的卷积核参数共享。半数卷积核参数以高斯分布随机产生,其余通过训练寻优得到,使其能拟合更复杂的非线性函数,增加低层网络的特征提取能力。方法中使用了半随机的超限学习机分类层,既降低了模型训练的时间又增加了网络的稀疏性;结合了超限学习机和融合卷积网络,以2D视角图作为输入,其识别3D物体的准确率高于现有的深度学习的方法,网络实现更简单。

Description

基于超限学习机和融合卷积网络的3D物体识别方法
技术领域
本发明涉及一种3D物体识别技术,特别涉及一种基于超限学习机和融合卷积网络的3D物体识别方法。
背景技术
3D物体识别是人工智能最重要的研究和应用方向之一,也是自然场景理解最具挑战性的任务之一。在图像处理中,二维图像被离散化为多个像素点。一般,3D模型的处理与之类似,被离散化为多个三维体素(volume pixel)点。3D模型分类和3D物体识别的重点是提取三维结构的内部特征。很多研究者利用深度学习网络结构自动提取3D物体的特征并进行分类。现有的“一种RGB-D物体识别方法”发明专利中采集3D物体的RGB图像信息和深度信息,提取物体的特征矢量进行识别。这种方法需要用到能采集深度信息的摄像头,并且需要预先训练大量的特征数据库以进行对比。现有的国内外论文中,使用RGB-D信息识别3D物体的准确率并不高。
上述专利中的识别方法包括以下步骤:获取由彩色图像生成的灰度图像、由深度图像生成的表面法向量,将彩色图像、灰度图像、深度图像和表面法向量共同作为多数据模式信息;通过卷积-递归神经网络分别提取彩色图像、灰度图像和表面法向量中的高层特征;利用卷积-费舍尔向量-递归神经网络提取深度图像的高层特征;将上述多个高层特征进行特征融合,得到物体的总特征,将物体的总特征输入特征分类器中实现物体识别任务。
现有的拍照识别物体的技术多是获取物体的单个2D图像信息。这种方式受光照、视角、背景等影响较大。识别技术所训练的模型让计算机识别的仍是“2D”物体。而加入了深度信息的3D物体识别往往计算复杂,识别率低,并且获取物体的RGB-D信息成本较高。
发明内容
本发明是针对3D物体识别存在的问题,提出了一种基于超限学习机和融合卷积网络的3D物体识别方法,获取3D物体在6种不同视角下的图像;利用融合卷积网络分别提取每个图像的特征;根据提取的特征和训练的半随机超限学习机分类层对物体进行分类和识别。
本发明的技术方案为:一种基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,具体包括如下步骤:
1)建立基于超限学习机和融合卷积网络的预测网络模型:
1.1)利用大量的3D物体的多视角图作为输入训练预测网络模型,每个视角图对应一个特征提取通道;
1.2)训练融合卷积网络提取特征:融合卷积网络包含多个串并联的融合卷积单元,每个融合卷积单元依次包含多个不同残差通道的卷积层、mask层和池化层;
1.3)训练多残差通道卷积层提取3D特征,使用mask层消除背景和干扰特征;Mask层图像是输入的原视角图划去了背景和不相关元素后的二值图像,其大小与输入图像相同,mask二值图像被用于和卷积后的图像进行像素矩阵运算;
1.4)池化层进行均值池化操作,降低维度并增加旋转和平移不变性;
1.5)训练多层融合卷积网络,提取高层语义特征;
1.6)将每个视角图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的所有参数,预测网络模型即训练完成;
2)3D物体识别:获得3D物体的多视角图,输入到预测网络模型,提取特征后,在分类层输出,在输出中找到概率最大的类别,即为网络的识别类型。
所述步骤1.1)中获得3D物体的多视角图方法为,先使用Kinect采集3D物体或者真实场景的3维扫描模型,再利用OpenGL以3维模型的中心为中心点,构造一个正多面体,以正多面体的顶点为投影视角点,对3维模型进行多视角投影,获得不同视角的图像。
所述步骤1.2)所述多个串并联的融合卷积单元,融合卷积单元分为随机单元和稀疏单元两种,使用交叉网络结构进行组合;网络的第i层包含2i-1个随机融合卷积单元和2i-1个稀疏融合卷积单元。
所述步骤1.3)中多个不同残差通道的卷积层输出图像为Gp,q,Mp,q是mask二值图像经过和Gp,q相同的下采样后得到的图像;Gp,q和Mp,q图像矩阵对应的元素值相乘得到mask层输出图像。
所述步骤1.4)中池化层位于mask层之后,且所有的池化操作均为2*2均值池化。
本发明的有益效果在于:本发明基于超限学习机和融合卷积网络的3D物体识别方法,3D物体的特征提取采用新型的融合卷积网络,这种网络能拟合更复杂的非线性残差项函数,大大提高了低层网络的特征表达能力;方法中使用了半随机的超限学习机分类层,既降低了模型训练的时间又增加了网络的稀疏性;本发明结合了超限学习机和融合卷积网络,其识别3D物体的准确率高于现有的深度学习的方法,网络实现更简单,并且其直接以2D视角图作为输入,无需深度信息也能获得物体的3D特征。
附图说明
图1为本发明基于超限学习机和融合卷积网络识别3D物体的网络结构图;
图2为本发明K通道的融合卷积单元图;
图3为本发明基于超限学习机的融合卷积网络图;
图4为本发明方法识别3D物体过程图。
具体实施方式
本发明提出了一种基于超限学习机网络(ELM)和融合卷积网络(CCN)的3D物体识别方法。图1所示为基于超限学习机和融合卷积网络识别3D物体的网络结构图,1、输入共有D*N张图片,N为样本数,D为投影视角数,每个视角图像对应一个特征提取的通道,图1中D=6,即使用6个视图通道,利用3D物体的多视角图作为输入训练网络模型;2、每个通道中包含多层并联和串联的融合卷积单元,使用融合卷积单元提取特征,其中,融合卷积单元在残差单元上改进了残差项函数的形式,使其能拟合更复杂的非线性函数,增加低层网络的特征提取能力;3、卷积层后另增加了一个mask层,mask层图像是输入原图划去了背景和不相关元素后的二值图像,用于消除背景和干扰特征,mask图像和原图做像素级别的点乘操作;4、mask层后的池化层为2*2均值池化操作,增加旋转和平移不变性;5、将每个视图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的参数,得到预测网络模型。6、识别时,将3D物体的多视角图输入预测网络模型,提取特征后,在分类层进行识别。
获得3D物体的多视角图方法为,先使用Kinect采集3D物体或者真实场景的3维扫描模型,再利用OpenGL以3维模型的中心为中心点,构造一个正多面体,以正多面体的顶点为投影视角点,对3维模型进行多视角投影,获得不同视角的图像。
CCN-ELM结合了融合卷积网络(CCN)和超限学习机(ELM)网络。CCN-ELM网络有3个主要特点:1)同一个视图通道的融合卷积单元里,相同大小的卷积核参数共享;2)融合卷积层中一半的卷积核参数由高斯分布随机产生并经过了归一化处理,另一半则通过构造稀疏矩阵加高斯白噪声寻优的方法获得;3)多残差通道卷积层和mask层提取特征,ELM层分类。
CCN-ELM的训练过程分为两步:融合卷积网络提取特征和ELM网络进行矩阵运算训练分类层参数。
融合卷积网络包含多个串并联的融合卷积单元(CCB),融合卷积单元结构如图2所示,由k个不同残差通道的卷积层加上mask层和池化层构成;融合卷积单元分为随机单元和稀疏单元两种,它们在网络中的组合方式如图3所示,网络的第i层包含2i个融合卷积单元。这种交叉网络结构可以有效增强网络的特征提取能力,并能缓解过拟合现象。
下面具体讨论特征提取的方法。引入残差后的映射对输出的变化更敏感。受残差网络的启发,我们提出了一种多通道融合卷积单元,典型的k通道融合卷积单元图如图2所示,假设期望的最优映射为H(x),我们求取的残差映射为F(x)。则F(x)=H(x)-x。对于不同大小的融合卷积单元,F(x)的数学形式也不同。在k通道融合卷积单元中,每个通道输出分别为:
F1=W11x,F2=W22σ(W21x),F3=W33(W32σ(W31x)),...,F(x)=F1+F2+F3+...+Fk
其中,x为输入图像,W为卷积核,σ为RELU激活函数。
输出g(x)=σ(F(x)+x),设为Gp,q,加上mask层和池化层,就构成了一个多通道融合卷积单元。
Mask层的计算为:
其中,表示图像矩阵对应的元素值相乘,Mp,q是原mask二值图像经过和Gp,q相同的下采样后得到的图像(保持维度相同)。再对G'p,q进行均值池化操作,得到融合卷积单元的输出,所有的池化操作均为2*2均值池化。
图3为基于超限学习机的融合卷积网络图。其中,随机CCB为随机融合卷积单元,这个单元里的所有卷积核参数均以高斯分布随机产生并经过了归一化处理,这样给隐含层通道的特征提取带来了好处,同时也降低了特征扩散的风险;稀疏CCB为稀疏融合卷积单元,这个单元里的卷积核由稀疏矩阵加高斯白噪声寻优的方法获得。
在ELM分类层中,将所有的特征矩阵合并为一个行向量,假设大小为1*n。D个视角图的特征向量则为1*m(m=D*n)。若训练数据数量为N,可以得到特征矩阵H∈RN*m。每个输入模型对应一个标签类别,设共有L个类别,进行标号形成标签矩阵T∈RN*L,再经过训练优化处理得到预测网络模型。将测试集数据进行多视角投影预处理后输入到预测网络模型中,就可以预测样本的类别,在输出预测的类别中找出概率最大类别,即为识别类型。图4为本发明方法识别3D物体过程图。
最后应说明的是:以上所述,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,如本发明中的视角数、融合卷积单元通道数、网络层数等可根据实际应用来设定。本发明并不局限于此,尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明技术方案的精神和范围。

Claims (5)

1.一种基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,具体包括如下步骤:
1)建立基于超限学习机和融合卷积网络的预测网络模型:
1.1)利用大量的3D物体的多视角图作为输入训练预测网络模型,每个视角图对应一个特征提取通道;
1.2)训练融合卷积网络提取特征:融合卷积网络包含多个串并联的融合卷积单元,每个融合卷积单元依次包含多个不同残差通道的卷积层、mask层和池化层;
1.3)训练多残差通道卷积层提取3D特征,使用mask层消除背景和干扰特征;Mask层图像是输入的原视角图划去了背景和不相关元素后的二值图像,其大小与输入图像相同,mask二值图像被用于和卷积后的图像进行像素矩阵运算;
1.4)池化层进行均值池化操作,降低维度并增加旋转和平移不变性;
1.5)训练多层融合卷积网络,提取高层语义特征;
1.6)将每个视角图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的所有参数,预测网络模型即训练完成;
2)3D物体识别:获得3D物体的多视角图,输入到预测网络模型,提取特征后,在分类层输出,在输出中找到概率最大的类别,即为网络的识别类型。
2.根据权利要求1所述基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,所述步骤1.1)中获得3D物体的多视角图方法为,先使用Kinect采集3D物体或者真实场景的3维扫描模型,再利用OpenGL以3维模型的中心为中心点,构造一个正多面体,以正多面体的顶点为投影视角点,对3维模型进行多视角投影,获得不同视角的图像。
3.根据权利要求1所述基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,所述步骤1.2)所述多个串并联的融合卷积单元,融合卷积单元分为随机单元和稀疏单元两种,使用交叉网络结构进行组合;网络的第i层包含2i-1个随机融合卷积单元和2i-1个稀疏融合卷积单元。
4.根据权利要求1所述基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,所述步骤1.3)中多个不同残差通道的卷积层输出图像为Gp,q,Mp,q是mask二值图像经过和Gp,q相同的下采样后得到的图像;Gp,q和Mp,q图像矩阵对应的元素值相乘得到mask层输出图像。
5.根据权利要求1所述于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,所述步骤1.4)中池化层位于mask层之后,且所有的池化操作均为2*2均值池化。
CN201910007340.XA 2019-01-04 2019-01-04 基于超限学习机和融合卷积网络的3d物体识别方法 Active CN109740539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910007340.XA CN109740539B (zh) 2019-01-04 2019-01-04 基于超限学习机和融合卷积网络的3d物体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910007340.XA CN109740539B (zh) 2019-01-04 2019-01-04 基于超限学习机和融合卷积网络的3d物体识别方法

Publications (2)

Publication Number Publication Date
CN109740539A true CN109740539A (zh) 2019-05-10
CN109740539B CN109740539B (zh) 2021-07-13

Family

ID=66361572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910007340.XA Active CN109740539B (zh) 2019-01-04 2019-01-04 基于超限学习机和融合卷积网络的3d物体识别方法

Country Status (1)

Country Link
CN (1) CN109740539B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034446A (zh) * 2021-03-08 2021-06-25 国网山东省电力公司平邑县供电公司 一种变电站设备缺陷自动识别方法及系统
CN113077388A (zh) * 2021-04-25 2021-07-06 中国人民解放军国防科技大学 一种数据增广的深度半监督超限学习图像分类方法及系统
CN113361703A (zh) * 2020-03-06 2021-09-07 杭州海康威视数字技术股份有限公司 一种数据处理方法及装置
CN113487607A (zh) * 2021-09-06 2021-10-08 深圳新视智科技术有限公司 基于多视场图像的缺陷检测方法及装置
US11416994B2 (en) * 2019-05-05 2022-08-16 Keyamed Na, Inc. Method and system for detecting chest x-ray thoracic diseases utilizing multi-view multi-scale learning

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103338A (zh) * 2017-05-19 2017-08-29 杭州电子科技大学 融合卷积特征和集成超限学习机的sar目标识别方法
CN107665352A (zh) * 2017-09-07 2018-02-06 浙江工业大学 一种基于多通道残差网络的珍珠分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103338A (zh) * 2017-05-19 2017-08-29 杭州电子科技大学 融合卷积特征和集成超限学习机的sar目标识别方法
CN107665352A (zh) * 2017-09-07 2018-02-06 浙江工业大学 一种基于多通道残差网络的珍珠分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IGI ARDIYANTO 等: "Deep residual coalesced convolutional network for efficient semantic road segmentation", 《IPSJ TRANSACTIONS ON COMPUTER VISION AND APPLICATIONS》 *
MINGXING DUAN 等: "A hybrid deep learning CNN–ELM for age and gender classification", 《NEUROCOMPUTING》 *
ZHI-XIN YANG 等: "Multi-View CNN Feature Aggregation with ELM Auto-Encoder for 3D Shape Recognition", 《COGNITIVE COMPUTATION》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416994B2 (en) * 2019-05-05 2022-08-16 Keyamed Na, Inc. Method and system for detecting chest x-ray thoracic diseases utilizing multi-view multi-scale learning
CN113361703A (zh) * 2020-03-06 2021-09-07 杭州海康威视数字技术股份有限公司 一种数据处理方法及装置
CN113361703B (zh) * 2020-03-06 2023-09-05 杭州海康威视数字技术股份有限公司 一种数据处理方法及装置
CN113034446A (zh) * 2021-03-08 2021-06-25 国网山东省电力公司平邑县供电公司 一种变电站设备缺陷自动识别方法及系统
CN113077388A (zh) * 2021-04-25 2021-07-06 中国人民解放军国防科技大学 一种数据增广的深度半监督超限学习图像分类方法及系统
CN113077388B (zh) * 2021-04-25 2022-08-09 中国人民解放军国防科技大学 一种数据增广的深度半监督超限学习图像分类方法及系统
CN113487607A (zh) * 2021-09-06 2021-10-08 深圳新视智科技术有限公司 基于多视场图像的缺陷检测方法及装置

Also Published As

Publication number Publication date
CN109740539B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Shao et al. Performance evaluation of deep feature learning for RGB-D image/video classification
CN108520535B (zh) 基于深度恢复信息的物体分类方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
Garcia-Garcia et al. A review on deep learning techniques applied to semantic segmentation
CN109740539A (zh) 基于超限学习机和融合卷积网络的3d物体识别方法
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
Bai et al. Subset based deep learning for RGB-D object recognition
US9633282B2 (en) Cross-trained convolutional neural networks using multimodal images
CN111368896A (zh) 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法
CN106920243A (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN110458249A (zh) 一种基于深度学习与概率影像组学的病灶分类系统
CN106845527A (zh) 一种菜品识别方法
CN111612807A (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN108764316A (zh) 基于深度卷积神经网络和多核学习的遥感图像场景分类方法
Trigeorgis et al. Face normals" in-the-wild" using fully convolutional networks
Funk et al. Beyond planar symmetry: Modeling human perception of reflection and rotation symmetries in the wild
CN107066916A (zh) 基于反卷积神经网络的场景语义分割方法
CN108596195B (zh) 一种基于稀疏编码特征提取的场景识别方法
Hu et al. RGB-D semantic segmentation: a review
CN116052212A (zh) 一种基于双重自监督学习的半监督跨模态行人重识别方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN116824485A (zh) 一种基于深度学习的开放场景伪装人员小目标检测方法
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
CN113011506B (zh) 一种基于深度重分形频谱网络的纹理图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant