CN110059597B - 基于深度相机的场景识别方法 - Google Patents

基于深度相机的场景识别方法 Download PDF

Info

Publication number
CN110059597B
CN110059597B CN201910269824.1A CN201910269824A CN110059597B CN 110059597 B CN110059597 B CN 110059597B CN 201910269824 A CN201910269824 A CN 201910269824A CN 110059597 B CN110059597 B CN 110059597B
Authority
CN
China
Prior art keywords
scene
feature
neural network
depth
depth image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910269824.1A
Other languages
English (en)
Other versions
CN110059597A (zh
Inventor
张希武
苏岩
朱欣华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201910269824.1A priority Critical patent/CN110059597B/zh
Publication of CN110059597A publication Critical patent/CN110059597A/zh
Application granted granted Critical
Publication of CN110059597B publication Critical patent/CN110059597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度相机的场景识别方法,基于深度相机捕获的彩色图像和深度图像,并利用深度神经网络表征图像特征实现场景识别。在特征提取阶段,将经过预处理的深度图像和彩色图像输入给一个双路卷积神经网络,分别提取两种图像的特征;将得到的两种图像的特征向量输入给特征融合神经网络,得到两种特征的权重系数;根据得到的特征向量和权重系数,量化并计算不同场景之间的相似程度,从而实现场景识别。本发明有效利用了深度图像信息,不仅提高了场景识别精度,而且能在彩色图像信息失效或不完整的情况下,保证场景识别精度。

Description

基于深度相机的场景识别方法
技术领域
本发明属于移动机器人和计算机视觉技术,具体涉及一种基于深度相机的场景识别方法。
背景技术
场景识别是移动机器人和计算机视觉领域中的重要技术,在许多实际应用中扮演着重要的角色。例如,在智能机器人领域的基于视觉的同时定位与建图技术(V-SLAM)中,当机器人运动到某个位置(场景)时,根据视觉传感器在该位置采集到的图像,场景识别(又称回环检测)能够帮助V-SLAM系统识别出移动机器人是否曾经到达过该位置。正确的场景识别结果能够帮助V-SLAM系统减少视觉里程计的累计误差,并且建立一致性的环境地图。
根据对场景(图像)的表征方式,场景识别方法可以分为两类:基于人工设计特点的方法和基于深度学习的方法。近几年,随着计算机视觉技术和深度学习理论的快速发展,越来越多的研究人员开始将深度学习技术运用到场景识别技术中。相较于传统的基于人工设计特征点的场景识别方法,基于深度学习的方法充分利用了深度神经网络——尤其是卷积神经网络强大的图像表征能力,通过卷积神经网络提取的图像特征具有更好的辨识性以及对环境的变化有更高的鲁棒性,从而使得该类场景识别方法能够取得更高的场景识别精度,并且应用于更复杂的环境中。
当前,移动机器人都配备多种传感器,其中就包括深度相机,深度相机不仅能够获得环境的彩色图像(即RGB)信息,还能够采集环境的深度信息,得到深度图像。然而,目前的场景识别方法——无论是基于特征点法,还是基于深度学习方法,几乎都仅使用彩色图像信息,使得现有方法都具有一定的缺陷,即在彩色图像信息丢失或者不完整的情况下,例如,光线很弱或者摄像头被遮挡等,仅依靠彩色图像的场景识别方法不能够正常工作。
发明内容
本发明的目的在于提供一种基于深度相机的场景识别方法。
实现本发明目的的技术解决方案为:一种基于深度相机的场景识别方法,具体步骤如下:
步骤1、对深度图像进行预处理;
步骤2、将彩色图像和经过预处理的深度图像输入双路神经网络得到卷积层的输出,根据卷积层输出分别构建彩色图像和深度图像的特征向量,其中,所述双路神经网络由两个全卷积神经网络构成,所述全卷积神经网络为去除了最后的全连接层的卷积神经网络;
步骤3、将彩色图像特征和深度图像特征输入到训练好的特征融合神经网络进行融合,获得权重系数;
步骤4、根据步骤2中得到的特征向量和步骤3中的权重系数,计算待识别场景和数据库中的场景之间的相似度;
步骤5、将待识别场景和数据库中的场景之间的相似度与预先设定的阈值τ进行比较,如果相似度大于阈值τ,则判定二者为同一个场景。
本发明与现有技术相比,其显著优点为:1)本发明通过融合深度图像信息,能够在环境光照条件弱的情况下进行识别,提高了场景识别的可靠性,且场景识别精度高;2)本发明构建的深度神经网络结构能够同时处理彩色图像和深度图像,同时,所设计的特征融合网络具有样本自适应能力,训练后的特征融合网络能够根据输入信息自动调整特征两种特征的权重系数,具有更高的鲁棒性。
下面结合附图对本发明做进一步详细描述。
附图说明
图1是本发明的流程图。
图2是本发明中的双路神经网络和特征融合神经网络的结构示意图。
图3是深度图像预处理示意图。
图4是在深度神经网络训练阶段所使用的网络结构示意图。
图5是在TUM数据集上的Triplet样本示意图。
具体实施方式
如图1所示,一种基于深度相机的场景识别方法,具体步骤为:
步骤1、对深度相机采集到的深度图像进行预处理。深度相机采集到的彩色图像和深度图像是不完全同步的,因此需要根据彩色图像和深度图像的时间戳进行对准,以获得成对的彩色-深度图像,一个彩色-深度图像对代表了一个场景。同时,深度相机采集到的深度图像为单通道,其像素值的大小代表了环境中的物体到相机的距离信息。本发明中将使用卷积神经网络提取深度图像特征,单通道的深度图像不能直接输入给神经网络,因此需要对深度图像重新编码,在某些实施例中,通过HHA编码,将单通道的深度图像转化为三通道的图像,用于特征提取。如图3所示为一个原始深度图像经过重新编码的例子,单通道的深度图像经过编码被转换为3通道的图像,转换后的深度图像可以输入给双路神经网络进行特征提取。
步骤2、彩色图像和深度图像特征提取。本步骤中构建了一个特征提取网络,该结构由两路卷积神经网络构成,如图2左侧所示,分别用于彩色图像Ir和深度图像Id的特征提取,其中上角标r和d分别表示RGB彩色图像和Depth深度图像。具体地,使用两个VGG-16网络模型作为特征提取器,卷积神经网络采用全卷积模型,即舍掉原有卷积神经网路最后的全连接层,基于最后一层卷积层的输出得到图像的特征向量。
将待检索场景记为Pi对应的彩色图像
Figure BDA0002018022370000031
和深度图像
Figure BDA0002018022370000032
分别输入给VGG-16卷积神经网络,对于任意一路卷积神经网络,最后一层卷积层输出为一个大小为K×W×H的3D张量,其中,K表示feature map的数量,W和H分别表示feature map的长度和宽度;对每一个feature map进行最大池化处理,从而得到一个K维的向量,以此作为图像的特征向量,分别记为
Figure BDA0002018022370000033
Figure BDA0002018022370000034
VGG-16最后一层卷积层feature map的数量为512,即K=512,因此,
Figure BDA0002018022370000035
步骤3、彩色图像特征和深度图像特征融合。本步骤中构建了一种特征融合网络,如图2右侧部分所示,特征融合网络的输入为步骤2中得到的图像特征向量,输出为权重系数,代表了每种特征的重要程度,这个特征系数是输入特征向量的函数,并且通过特征融合网络预测得到;因此,经过训练,该网络能够根据输入信息自动调整不同样例的权重值,具体地,特征融合网络可由如下数学式表达:
Figure BDA0002018022370000036
其中,m表示特征的种类索引,即彩色图像特征(r)或深度图像特征(d),M=2表示特征种类的数量;vm
Figure BDA0002018022370000037
为特征融合网络的网络参数,是可训练的;wm为特征融合网络预测的权重系数,由上面数学式可以看出,wm是输入特征向量
Figure BDA0002018022370000038
的函数,因此wm具有样本自适应能力,经过训练,特征融合网络能够根据不同的样本自动调整权重系数的大小;并且,上面计算公式采用Softmax函数计算权重系数,保证了权重值的非负性,而且满足:wr+wd=1。
进一步的实施例中,特征融合网络结构由两路神经网络组成,每一路包含两层全连接层,最后通过Softmax层连接。其中第一层全连接层的大小为512×512,第二层全连接层的大小为512×1。
步骤4、根据步骤2中得到的特征向量和步骤3中的权重系数,计算待识别场景和数据库中的场景之间的相似度,相似度的计算方法如下:
根据步骤2中得到的特征向量和步骤3中得到的权重系数,待检索场景pq和数据库中场景Pi之间的相似度根据以下公式得出:
Sqi=1-Dqi
其中,i=1,2,3,...,N,N为数据库中场景的个数;Dqi为两个场景是之间的距离,具体为:
Figure BDA0002018022370000041
其中,wm为权重系数,
Figure BDA0002018022370000042
为对应的两个彩色图像或深度图像的特征向量之间的欧式距离,计算方法如下:
Figure BDA0002018022370000043
其中,||·||2表示向量的2-范数运算符。
步骤5、将待识别场景和数据库中的场景之间的相似度与预先设定的阈值τ进行比较,如果相似度大于阈值τ,则判定二者为同一个场景。
本发明中构建的双路神经网络和特征融合神经网络,在用于场景识别之前,首先需要在训练数据集上进行训练,本发明提供一种基于Triplet损失函数的端到端的训练方法。在训练阶段,用于计算Triplet损失的网络结构如图4所示。首先在训练数据集上生成Triplet样本,一个Triplet样本包含3个场景,6张图像,3张彩色图像和3张深度图像,即待检索场景
Figure BDA0002018022370000044
正相关场景(相同场景)
Figure BDA0002018022370000045
和负相关场景(不同场景)
Figure BDA0002018022370000046
Triplet损失的计算方法如下:
L=max(Dqp-Dqn+c,0)
其中,Dqp和Dqn分别为场景Pq与正相关场景Pp和相关场景Pn之间的距离,距离的计算方法如步骤4中所示。
Triplet训练样本的对于神经网络的训练非常重要,Triplet样本的质量会直接影响训练效果。以TUM RGB-D数据集中的fr2_pioneer_slam集合为例说明本发明中生成Triplet的方法。fr2_pioneer_slam数据集提供了每个场景所对应的相机的地理位置和姿态真值。给定场景Pq,根据所给真值,计算任意场景之间的距离t和相机角度差a,其中,角度差a取三个方向角度差的最大值。如果某个场景满足:t<0.3m且a<15°,则该场景被认为是正相关场景;如果某个场景满足:t>1.0m且a>80°,则该场景被认为是负相关场景。

Claims (8)

1.一种基于深度相机的场景识别方法,其特征在于,具体步骤如下:
步骤1、对深度图像进行预处理;
步骤2、将彩色图像和经过预处理的深度图像输入双路神经网络得到卷积层的输出,根据卷积层输出分别构建彩色图像和深度图像的特征向量,其中,所述双路神经网络由两个全卷积神经网络构成,所述全卷积神经网络为去除了最后的全连接层的卷积神经网络;
步骤3、将彩色图像特征和深度图像特征输入到训练好的特征融合神经网络进行融合,获得权重系数;
步骤4、根据步骤2中得到的特征向量和步骤3中的权重系数,计算待识别场景和数据库中的场景之间的相似度;
步骤5、将待识别场景和数据库中的场景之间的相似度与预先设定的阈值τ进行比较,如果相似度大于阈值τ,则判定二者为同一个场景。
2.根据权利要求1所述的基于深度相机的场景识别方法,其特征在于,步骤1中对深度图像进行预处理的方法为:根据彩色图像和深度图像的时间戳将两幅图像进行对准,并将单通道的深度图像转化为三通道的深度图像。
3.根据权利要求1所述的基于深度相机的场景识别方法,其特征在于,步骤2中提取彩色图像和深度图像特征的具体方法为:
步骤2-1、将彩色图像和预处理后的深度图像分别输入给双路神经网络,分别得到两个大小为K×W×H的3D张量,其中,K表示feature map的数量,W和H分别表示feature map的长度和宽度;
步骤2-2、对每一个feature map进行最大池化处理得到两个K维的向量,即分别为彩色图像和深度图像的特征向量。
4.根据权利要求1所述的基于深度相机的场景识别方法,其特征在于,所述特征融合神经网络包括两路神经网络,每路神经网络包含两层全连接层,两路神经网络通过Softmax层连接,其中,第一层全连接层的大小为512×512,第二层全连接层的大小为512×1。
5.根据权利要求1或4任一所述的基于深度相机的场景识别方法,其特征在于,步骤3中特征融合网络由下式表达:
Figure FDA0003718766490000021
其中,m表示特征的种类索引,即彩色图像特征r或深度图像特征d,M表示特征种类的数量;vm
Figure FDA0003718766490000022
为特征融合网络的网络参数;wm是输入特征向量
Figure FDA0003718766490000023
的函数。
6.根据权利要求1所述的基于深度相机的场景识别方法,其特征在于,步骤4计算不同场景之间相似度计算公式为:
Sqi=1-Dqi
其中,i=1,2,3,…,N,N为数据库中场景的个数;Dqi为两个场景之间的距离,Sqi为场景相似度。
7.根据权利要求6所述的基于深度相机的场景识别方法,其特征在于,两个场景之间的距离具体定义为:
Figure FDA0003718766490000024
其中,wm为权重系数,
Figure FDA0003718766490000025
为对应的彩色图像与彩色图像之间或深度图像与深度图像之间的欧式距离,计算方法如下:
Figure FDA0003718766490000026
其中,||·||2表示向量的2-范数运算符,
Figure FDA0003718766490000027
表示数据库中场景的彩色图像或深度图像的特征向量。
8.根据权利要求1所述的基于深度相机的场景识别方法,其特征在于,步骤2中的双路神经网络和步骤3中的特征融合神经网络的训练方法为:
首先在训练数据集上生成Triplet样本,一个Triplet样本包含3个场景,即待检索场景Pq:
Figure FDA0003718766490000028
正相关场景Pp:
Figure FDA0003718766490000029
和负相关场景;
使用两个预训练的VGG-16模型初始化双路神经网络,利用双路神经网络提取Triplet样本的特征训练特征融合网络;
固定训练好的特征融合网络的参数,微调双路神经网络。
CN201910269824.1A 2019-04-04 2019-04-04 基于深度相机的场景识别方法 Active CN110059597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910269824.1A CN110059597B (zh) 2019-04-04 2019-04-04 基于深度相机的场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910269824.1A CN110059597B (zh) 2019-04-04 2019-04-04 基于深度相机的场景识别方法

Publications (2)

Publication Number Publication Date
CN110059597A CN110059597A (zh) 2019-07-26
CN110059597B true CN110059597B (zh) 2022-09-06

Family

ID=67318285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910269824.1A Active CN110059597B (zh) 2019-04-04 2019-04-04 基于深度相机的场景识别方法

Country Status (1)

Country Link
CN (1) CN110059597B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001298B (zh) * 2020-08-20 2021-09-21 佳都科技集团股份有限公司 行人检测方法、装置、电子设备和存储介质
CN112001914B (zh) * 2020-08-31 2024-03-01 三星(中国)半导体有限公司 深度图像补全的方法和装置
CN112463999A (zh) * 2020-12-10 2021-03-09 中国科学院深圳先进技术研究院 视觉位置识别方法及装置、计算机设备及可读存储介质
CN113408590B (zh) * 2021-05-27 2022-07-15 华中科技大学 场景识别方法、训练方法、装置、电子设备及程序产品

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563388A (zh) * 2017-09-18 2018-01-09 东北大学 一种基于深度信息预分割的卷积神经网络物体识别方法
CN107808132A (zh) * 2017-10-23 2018-03-16 重庆邮电大学 一种融合主题模型的场景图像分类方法
CN109255364B (zh) * 2018-07-12 2021-06-08 杭州电子科技大学 一种基于深度卷积生成对抗网络的场景识别方法

Also Published As

Publication number Publication date
CN110059597A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110059597B (zh) 基于深度相机的场景识别方法
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN108537848B (zh) 一种面向室内场景重建的两级位姿优化估计方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN108898063B (zh) 一种基于全卷积神经网络的人体姿态识别装置及方法
CN106780631B (zh) 一种基于深度学习的机器人闭环检测方法
CN107239728A (zh) 基于深度学习姿态估计的无人机交互装置与方法
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN111797688A (zh) 一种基于光流和语义分割的视觉slam方法
CN113108771A (zh) 一种基于闭环直接稀疏视觉里程计的移动位姿估计方法
CN111402311A (zh) 一种基于知识蒸馏的轻量级立体视差估计方法
CN110119768B (zh) 用于车辆定位的视觉信息融合系统及方法
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN114279433A (zh) 地图数据自动化生产方法、相关装置及计算机程序产品
CN107808391B (zh) 一种基于特征选择与光滑表示聚类的视频动态目标提取方法
CN114926498B (zh) 一种基于时空约束与可学习特征匹配的快速目标跟踪方法
CN112329662A (zh) 基于无监督学习的多视角显著性估计方法
CN116772820A (zh) 一种基于slam和语义分割的局部细化建图系统及方法
CN118261979A (zh) 一种基于几何信息增强的类别级6d姿态估计方法
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN106650814B (zh) 一种基于车载单目视觉室外道路自适应分类器生成方法
CN111578956A (zh) 一种基于深度学习的视觉slam定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant