CN111753789A - 基于堆栈式组合自编码器的机器人视觉slam闭环检测方法 - Google Patents

基于堆栈式组合自编码器的机器人视觉slam闭环检测方法 Download PDF

Info

Publication number
CN111753789A
CN111753789A CN202010620731.1A CN202010620731A CN111753789A CN 111753789 A CN111753789 A CN 111753789A CN 202010620731 A CN202010620731 A CN 202010620731A CN 111753789 A CN111753789 A CN 111753789A
Authority
CN
China
Prior art keywords
encoder
self
image
layer
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010620731.1A
Other languages
English (en)
Inventor
罗元
肖雨婷
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010620731.1A priority Critical patent/CN111753789A/zh
Publication of CN111753789A publication Critical patent/CN111753789A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明请求保护一种基于堆栈式组合自编码器的机器人视觉SLAM闭环检测方法,属于移动机器人视觉SLAM领域。该方法包括步骤:S1,对视觉SLAM场景图像进行预处理,输入堆栈式自编码器模型;S2,逐层训练网络模型,采用随机梯度下降算法进行网络参数的迭代,不断调整模型参数,使得重构误差最小;S3,利用训练完成的堆栈式组合自编码器提取视觉SLAM场景图像的特征向量;S4,计算视觉SLAM场景的第k个关键帧(当前帧)的特征向量VK与历史关键帧特征向量V1,V2,...,VN的相似度;S5,将相似度得分与设定的阈值进行比较,如果大于设定的阈值,则判断为闭环。本发明能够有效提高视觉SLAM闭环检测的准确性和鲁棒性。

Description

基于堆栈式组合自编码器的机器人视觉SLAM闭环检测方法
技术领域
本发明属于移动机器人视觉SLAM领域,特别是一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法。
背景技术
同时定位与地图构建技术(Simultaneous Localization and Mapping,SLAM)是指机器人在未知环境的移动过程中进行实时定位并构建量式的环境地图。视觉SLAM以相机为传感器,能够实时构建三维环境地图。一个完整的视觉SLAM系统主要包括前端视觉里程计、后端非线性优化、闭环检测和建图四个模块。闭环检测是视觉SLAM中的一个关键模块,在消除累积误差方面起着非常重要的作用。闭环检测是指在给定当前观测信息和地图信息时,判断机器人是否回到了地图中已经存在的某一位置。大部分闭环检测算法是基于Image-to-Image匹配,即将移动机器人当前所处位置的场景图像与先前访问过的场景图像进行相似度比较,当相似度大于设定的阈值时,即确定为闭环。最常用的图像描述方法是视觉词袋模型(Bag of Visual Word,BoVW),由于BoVW是基于人工设计,它对环境变化非常敏感,不能够提供鲁棒性较好的图像特征描述,在实际的场景中往往会检测出假阳性的闭环,导致错误的结果,使闭环检测的准确率大大降低。
堆栈式自编码器,它是由多个自编码器组成的神经网络,前一个自编码器的输出作为后面一个自编码器的输入。堆栈式自编码器的效果要优于单个自编码器,可以提取图像的深层特征。传统的堆栈式自编码器通常是采用同一种自编码器多层堆叠而成,这种网络很容易丢失特征或产生维数爆炸问题。为了更好地提取图像特征,进一步提高网络模型的鲁棒性以及泛化能力,本发明设计了一种堆栈式组合自编码器,对多种自编码器进行堆叠。降噪自编码器通过人为地对输入信号加入噪声,来提高网络的鲁棒性。隐藏层提取的特征基本上包含了输入图像的所有特征,能够从部分被遮挡或损坏的图像中重构原图像。卷积自编码器通过共享权重来减少参数的个数,简化了训练过程,并且能够很好的保留图像的空间信息。稀疏自编码器能够提取输入图像的稀疏特征,在保证重建精度的前提下实现降维。堆栈式组合自编码器能够很好地结合各类自编码器的优点,提取鲁棒性较好的特征用于闭环检测,最终提高视觉SLAM闭环检测的准确性和鲁棒性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法。本发明的技术方案如下:
一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法,其包括以下步骤:
S1,获取机器人视觉SLAM场景图像,并对机器人视觉SLAM场景图像进行包括图像尺寸缩小和图像灰度化在内的预处理,输入堆栈式组合自编码器模型;所述堆栈式组合自编码器由降噪自编码器、卷积自编码器和稀疏自编码器多层堆叠而成,降噪自编码器通过人为地对输入信号加入噪声,来提高网络的鲁棒性;卷积自编码器通过共享权重来减少参数的个数,简化了训练过程,并且能够很好的保留图像的空间信息;稀疏自编码器能够提取输入图像的稀疏特征,在保证重建精度的前提下实现降维;
S2,逐层训练堆栈式组合自编码器网络模型,传统的堆栈式自编码器通常是采用同一种自编码器多层堆叠而成,这种网络很容易丢失特征或产生维数爆炸问题。对多种自编码器进行堆叠,能够很好地结合各类自编码器的优点,获得更好的网络模型,用于提取图像的特征。采用随机梯度下降算法进行网络参数的迭代,不断调整模型参数,使得重构误差最小;
S3,利用训练完成的堆栈式组合自编码器提取视觉SLAM场景图像的特征向量;
S4,计算视觉SLAM场景的第k个关键帧即当前帧的特征向量Vk与历史关键帧特征向量V1,V2,...,VN的相似度;
S5,将相似度得分与设定的阈值进行比较,如果大于设定的阈值,则判断为闭环。
进一步的,所述步骤S2逐层训练堆栈式组合自编码器网络模型是将前一个自编码器的输出作为后面一个自编码器的输入,采用逐层训练的方式来训练模型,具体包括:首先,向训练样本中添加随机噪声,作为降噪自编码器的输入,通过编码来学习图像的低维特征,使用梯度下降法不断减小重构误差,当重构误差达到最小时,表明降噪自编码器训练完成;然后,去掉降噪自编码器的输出层,将其隐藏层提取的低维特征作为输入,用于训练卷积自编码器,卷积自编码器的编码部分主要由四个卷积层构成,均采用较小尺寸的卷积核进行深度特征的提取,在保证局部感受野大小的同时,减少模型的参数;解码部分由三层全连接网络构成;原始图像经过降噪自编码器和卷积自编码器之后,能够逐层完成低维到高维的特征提取;最后,将卷积自编码器提取的高维特征作为输入,并加入稀疏性约束,用于训练稀疏自编码器,达到提取图像的抽象特征,同时对特征进行降维的目的。
进一步的,所述自编码器的输入层(x)到隐藏层(h)的映射称为编码,具体可表示为:
h=fθ(x)=σ(ωx+b) (1)
其中,σ是非线性激活函数Sigmoid函数:
Figure BDA0002565062720000031
参数集合θ={ω,b},ω,b分别表示输入层(x)和隐藏层(h)之间的连接权重及偏置。隐藏层(h)到输出层(y)之间的映射称为解码,具体可表示为:
y=gθ′(h)=σ′(ω′h+b′) (2)
其中,σ′是非线性激活函数Sigmoid函数,gθ′表示隐藏层(h)到输出层(y)之间的映射,参数集合θ′={ω′,b′},ω′,b′分别表示隐藏层(h)到输出层(y)之间的连接权重及偏置。通过调整参数使得输入样本和重构结果的误差收敛于一个极小值,数据重构的误差函数表达式如下:
L(x,y)=||x-y||2 (3)
最优参数如下所示:
θ,θ′=arg minθ,θ′L(x,gθ′(fθ(x))) (4)。
为训练降噪自编码器,在训练样本中加入随机噪声,将得到的样本
Figure BDA00025650627200000412
输入给输入层,随机噪声v服从均值为0、方差为σ2的正态分布,加噪率设置为0.15,
Figure BDA0002565062720000041
卷积自编码器的编码部分由卷积层与最大池化层构成,假设输入图像为I,编码过程中的卷积滤波器为
Figure BDA0002565062720000042
经过卷积操作,每张图像可以得到n组特征激活图,表示如下:
Figure BDA0002565062720000043
其中,hm(i,j)是第m个(m=1,2,…,n)激活图中像素(i,j)处的激活值;a是激活函数;k是与正方形卷积滤波器相关的变量,2k+1是滤波器的大小;
Figure BDA0002565062720000044
是第m个激活图的偏置,为提高网络的泛化能力,每次都采用一个非线性激活函数a作用于网络,卷积后的结果表示如下:
Figure BDA0002565062720000045
解码操作是从特征激活图中重建输入图像,将编码后的结果作为解码器的输入,然后与卷积滤波器F(2)进行卷积,即可得到重构图像
Figure BDA0002565062720000046
表示如下:
Figure BDA0002565062720000047
其中,H是n个h特征激活图的集合,输入图像与重构图像之间的误差函数可以表示为:
Figure BDA0002565062720000048
为训练稀疏自编码器,将KL散度作为正则项加入到损失函数中,以此对网络的稀疏性进行约束,其损失函数可表示为:
Figure BDA0002565062720000049
Figure BDA00025650627200000410
Figure BDA00025650627200000411
其中,KL是一个整体,表示KL散度,β是稀疏惩罚项的权重,可以取0~1之间的任意值,
Figure BDA0002565062720000051
为训练样本在隐藏层神经元j上的平均激活值,aj为隐藏层神经元j上的激活值,为了达到大部分神经元都被抑制的效果,稀疏系数ρ一般取接近于0的值,设置稀疏系数为0.005。
进一步的,所述步骤S4计算视觉SLAM场景的第k个关键帧,即当前帧的特征向量Vk与历史关键帧特征向量V1,V2,...,VN的相似度,具体包括:
假设存在两个关键帧fi和fj,每个关键帧可以用t个特征向量来表达:
Figure BDA0002565062720000052
Figure BDA0002565062720000053
表示某个关键帧的第t个特征向量,定义一个相似性函数δ,t表示特征向量的个数,利用余弦距离度量特征向量之间的相似度,表示如下:
Figure BDA0002565062720000054
进一步的,步骤S5将相似度得分与设定的阈值进行比较,如果大于设定的阈值,则判断为闭环,具体包括:
在闭环检测中,图像的相似性阈值选取规则如下:首先,取一个先验相似度s(ft,ft-△t),它表示某时刻关键帧图像与上一时刻的关键帧的相似性,其他的分值都参照这个值进行归一化:
Figure BDA0002565062720000055
如果当前帧与之前某关键帧的相似度超过当前帧与上一个关键帧相似度的3倍,则认为存在闭环。
本发明的优点及有益效果如下:
本发明提供了一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法,能够对场景图像进行低维到高维的特征提取并且保留图像的空间局部特性,输出的特征鲁棒性较好,能够有效提高视觉SLAM闭环检测的准确性和鲁棒性。在不同场景下的鲁棒性优于传统的闭环检测方法,且在较高召回率情况下仍能够保证较好的准确率。
本发明的创新主要在于设计了一种堆栈式组合自编码器用于提取视觉SLAM场景图像的特征,并将其用于视觉SLAM闭环检测。现有的视觉SLAM闭环检测算法通常采用视觉词袋模型描述场景图像的特征,在应对场景外观变化时鲁棒性较差,准确率不高。本发明所设计的堆栈式组合自编码器通过对多种自编码器进行堆叠,解决了传统堆栈式自编码器由同一种自编码器多层堆叠而成而产生的特征丢失或维数爆炸问题。降噪自编码器通过人为地对输入信号加入噪声,来提高网络的鲁棒性。隐藏层提取的特征基本上包含了输入图像的所有特征,能够从部分被遮挡或损坏的图像中重构原图像。卷积自编码器通过共享权重来减少参数的个数,简化了训练过程,并且能够很好的保留图像的空间信息。稀疏自编码器能够提取输入图像的稀疏特征,在保证重建精度的前提下实现降维。本发明所设计的堆栈式组合自编码器很好地结合了各类自编码器的优点,这种基于无监督学习的网络模型在泛化能力、鲁棒性等方面表现优异,且训练时使用的数据集不需要携带标签,减少了人工标记的工作量。利用所本发明所设计的堆栈式组合自编码器提取的特征在应对场景外观变化时鲁棒性较好,能够有效提高视觉SLAM闭环检测的准确性和鲁棒性。
附图说明
图1是本发明提供优选实施例基于堆栈式组合自编码器的视觉SLAM闭环检测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
针对现有技术的不足,设计了一种由降噪自编码器、卷积自编码器和稀疏自编码器多层堆叠而成的堆栈式组合自编码器,用于提取场景图像的特征,然后将输出的特征用于闭环检测。这种基于无监督学习的网络模型在泛化能力、鲁棒性等方面表现优异,有效提高闭环检测的准确性和鲁棒性,且训练时使用的数据集不需要携带标签,减少了人工标记的工作量。
如图1所示,本发明提供了一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法,其特征在于,包括以下步骤:
S1,对视觉SLAM场景图像进行预处理,输入堆栈式自编码器模型。
S2,逐层训练网络模型,采用随机梯度下降算法进行网络参数的迭代,不断调整模型参数,使得重构误差最小。堆栈式组合自编码器的训练过程为:
本发明所设计的堆栈式组合自编码器是由降噪自编码器(Denoising Auto-Encoder,DAE)、卷积自编码器(Convolutional Auto-Encoder,CAE)和稀疏自编码器(Sparse Auto-Encoder,SAE)多层堆叠而成。前一个自编码器的输出作为后面一个自编码器的输入。采用逐层训练的方式来训练模型。首先,向训练样本中添加随机噪声,作为降噪自编码器的输入,通过编码来学习图像的低维特征,使用梯度下降法不断减小重构误差,当重构误差达到最小时,表明降噪自编码器训练完成。然后,去掉降噪自编码器的输出层,将其隐藏层提取的低维特征作为输入,用于训练卷积自编码器。卷积自编码器的编码部分主要由四个卷积层构成,均采用较小尺寸的卷积核进行深度特征的提取,在保证局部感受野大小的同时,减少模型的参数。解码部分由三层全连接网络构成。原始图像经过降噪自编码器和卷积自编码器之后,能够逐层完成低维到高维的特征提取。最后,将卷积自编码器提取的高维特征作为输入,并加入稀疏性约束,用于训练稀疏自编码器,达到提取图像的抽象特征,同时对特征进行降维的目的。
自编码器的输入层(x)到隐藏层(h)的映射称为编码,具体可表示为:
h=fθ(x)=σ(ωx+b) (1)
其中,σ是非线性激活函数Sigmoid函数:
Figure BDA0002565062720000081
参数集合θ={ω,b}。隐藏层(h)到输出层(y)之间的映射称为解码,具体可表示为:
y=gθ′(h)=σ′(ω′h+b′) (2)
其中,σ′是非线性激活函数Sigmoid函数,参数集合θ′={ω′,b′}。通过调整参数使得输入样本和重构结果的误差收敛于一个极小值。数据重构的误差函数表达式如下:
L(x,y)=||x-y||2 (3)
最优参数如下所示:
θ,θ′=arg minθ,θ′L(x,gθ′(fθ(x))) (4)
为训练降噪自编码器,我们在训练样本中加入随机噪声,将得到的样本
Figure BDA0002565062720000089
输入给输入层,随机噪声v服从均值为0、方差为σ2的正态分布。加噪率设置为0.15。
Figure BDA0002565062720000082
卷积自编码器的编码部分由卷积层与最大池化层构成。假设输入图像为I,编码过程中的卷积滤波器为
Figure BDA0002565062720000083
经过卷积操作,每张图像可以得到n组特征激活图,表示如下:
Figure BDA0002565062720000084
其中,hm(i,j)是第m个(m=1,2,…,n)激活图中像素(i,j)处的激活值;a是激活函数;k是与正方形卷积滤波器相关的变量,2k+1是滤波器的大小;
Figure BDA0002565062720000085
是第m个激活图的偏置。为提高网络的泛化能力,每次都采用一个非线性激活函数a作用于网络,卷积后的结果表示如下:
Figure BDA0002565062720000086
解码操作是从特征激活图中重建输入图像I。将编码后的结果作为解码器的输入,然后与卷积滤波器F(2)进行卷积,即可得到重构图像
Figure BDA0002565062720000087
表示如下:
Figure BDA0002565062720000088
其中,H是n个h特征激活图的集合。输入图像与重构图像之间的误差函数可以表示为:
Figure BDA0002565062720000091
为训练稀疏自编码器,将KL散度作为正则项加入到损失函数中,以此对网络的稀疏性进行约束,其损失函数可表示为:
Figure BDA0002565062720000092
Figure BDA0002565062720000093
Figure BDA0002565062720000094
其中,β是稀疏惩罚项的权重,可以取0~1之间的任意值。
Figure BDA0002565062720000095
为训练样本在隐藏层神经元j上的平均激活值,aj为隐藏层神经元j上的激活值。为了达到大部分神经元都被抑制的效果,稀疏系数ρ一般取接近于0的值,设置稀疏系数为0.005。
S3,利用训练完成的堆栈式组合自编码器提取视觉SLAM场景图像的特征向量V1,V2,...,VN
S4,计算视觉SLAM场景的第k个关键帧(当前帧)的特征向量Vk与历史关键帧特征向量V1,V2,...,VN的相似度。
假设存在两个关键帧fi和fj,每个关键帧可以用t个特征向量来表达:
Figure BDA0002565062720000096
定义一个相似性函数δ,利用余弦距离度量特征向量之间的相似度,表示如下:
Figure BDA0002565062720000097
S5,将相似度得分与设定的阈值进行比较,如果大于设定的阈值,则判断为闭环。
在闭环检测中,图像的相似性阈值选取规则如下:首先,取一个先验相似度s(ft,ft-△t),它表示某时刻关键帧图像与上一时刻的关键帧的相似性。其他的分值都参照这个值进行归一化:
Figure BDA0002565062720000101
如果当前帧与之前某关键帧的相似度超过当前帧与上一个关键帧相似度的3倍,则认为可能存在闭环。这样做的目的是避免引入绝对的相似性阈值,使其能够适应更多的环境。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法,其特征在于,包括以下步骤:
S1,获取机器人视觉SLAM场景图像,并对机器人视觉SLAM场景图像进行包括图像尺寸缩小和图像灰度化在内的预处理,输入堆栈式组合自编码器模型;所述堆栈式组合自编码器由降噪自编码器、卷积自编码器和稀疏自编码器多层堆叠而成,降噪自编码器通过人为地对输入信号加入噪声,来提高网络的鲁棒性;卷积自编码器通过共享权重来减少参数的个数,简化了训练过程,并且能够很好的保留图像的空间信息;稀疏自编码器能够提取输入图像的稀疏特征,在保证重建精度的前提下实现降维;
S2,逐层训练堆栈式组合自编码器网络模型,传统的堆栈式自编码器通常是采用同一种自编码器多层堆叠而成,这种网络很容易丢失特征或产生维数爆炸问题,对多种自编码器进行堆叠,能够很好地结合各类自编码器的优点,获得更好的网络模型,用于提取图像的特征,采用随机梯度下降算法进行网络参数的迭代,不断调整模型参数,使得重构误差最小;
S3,利用训练完成的堆栈式组合自编码器提取视觉SLAM场景图像的特征向量;
S4,计算视觉SLAM场景的第k个关键帧,即当前帧的特征向量Vk与历史关键帧特征向量V1,V2,...,VN的相似度;
S5,将相似度得分与设定的阈值进行比较,如果大于设定的阈值,则判断为闭环。
2.根据权利要求1所述的一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法,其特征在于,所述步骤S2逐层训练堆栈式组合自编码器网络模型是将前一个自编码器的输出作为后面一个自编码器的输入,采用逐层训练的方式来训练模型,具体包括:首先,向训练样本中添加随机噪声,作为降噪自编码器的输入,通过编码来学习图像的低维特征,使用梯度下降法不断减小重构误差,当重构误差达到最小时,表明降噪自编码器训练完成;然后,去掉降噪自编码器的输出层,将其隐藏层提取的低维特征作为输入,用于训练卷积自编码器,卷积自编码器的编码部分主要由四个卷积层构成,均采用较小尺寸的卷积核进行深度特征的提取,在保证局部感受野大小的同时,减少模型的参数;解码部分由三层全连接网络构成;原始图像经过降噪自编码器和卷积自编码器之后,能够逐层完成低维到高维的特征提取;最后,将卷积自编码器提取的高维特征作为输入,并加入稀疏性约束,用于训练稀疏自编码器,达到提取图像的抽象特征,同时对特征进行降维的目的。
3.根据权利要求2所述的一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法,其特征在于,所述自编码器的输入层(x)到隐藏层(h)的映射称为编码,具体可表示为:
h=fθ(x)=σ(ωx+b) (1)
其中,σ是非线性激活函数Sigmoid函数:
Figure FDA0002565062710000021
编码过程的参数集合θ={ω,b},ω,b分别表示输入层(x)和隐藏层(h)之间的连接权重及偏置,隐藏层(h)到输出层(y)之间的映射称为解码,具体可表示为:
y=gθ′(h)=σ′(ω′h+b′) (2)
其中,σ′是非线性激活函数Sigmoid函数,gθ′表示隐藏层(h)到输出层(y)之间的映射,解码过程的参数集合θ′={ω′,b′},ω′,b′分别表示隐藏层(h)到输出层(y)之间的连接权重及偏置,通过调整参数使得输入样本和重构结果的误差收敛于一个极小值,数据重构的误差函数表达式如下:
L(x,y)=||x-y||2 (3)
最优参数如下所示:
θ,θ′=arg minθ,θ′L(x,gθ′(fθ(x))) (4)
为训练降噪自编码器,在训练样本中加入随机噪声,将得到的样本
Figure FDA0002565062710000023
输入给输入层,随机噪声v服从均值为0、方差为σ2的正态分布,加噪率设置为0.15。
Figure FDA0002565062710000022
v表示随机噪声 (5)
卷积自编码器的编码部分由卷积层与最大池化层构成,假设输入图像为I,编码过程中的卷积滤波器为
Figure FDA0002565062710000031
经过卷积操作,每张图像可以得到n组特征激活图,表示如下:
Figure FDA0002565062710000032
其中,hm(i,j)是第m个(m=1,2,…,n)激活图中像素(i,j)处的激活值;a是激活函数;k是与正方形卷积滤波器相关的变量,2k+1是滤波器的大小;
Figure FDA0002565062710000033
是第m个激活图的偏置,为提高网络的泛化能力,每次都采用一个非线性激活函数a作用于网络,卷积后的结果表示如下:
Figure FDA0002565062710000034
解码操作是从特征激活图中重建输入图像,将编码后的结果作为解码器的输入,然后与卷积滤波器F(2)进行卷积,即可得到重构图像
Figure FDA0002565062710000035
表示如下:
Figure FDA0002565062710000036
其中,H是n个h特征激活图的集合,输入图像与重构图像之间的误差函数可以表示为:
Figure FDA0002565062710000037
为训练稀疏自编码器,将KL(Kullback-Leibler divergence)散度作为正则项加入到损失函数中,以此对网络的稀疏性进行约束,其损失函数可表示为:
Figure FDA0002565062710000038
Figure FDA0002565062710000039
Figure FDA00025650627100000310
其中,KL是一个整体,表示KL散度,β是稀疏惩罚项的权重,可以取0~1之间的任意值,
Figure FDA00025650627100000311
为训练样本在隐藏层神经元j上的平均激活值,aj为隐藏层神经元j上的激活值,为了达到大部分神经元都被抑制的效果,稀疏系数ρ一般取接近于0的值,设置稀疏系数为0.005。
4.根据权利要求3所述的一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法,其特征在于,所述步骤S4计算视觉SLAM场景的第k个关键帧即当前帧的特征向量Vk与历史关键帧特征向量V1,V2,...,VN的相似度,具体包括:
假设存在两个关键帧fi和fj,每个关键帧可以用t个特征向量来表达:
Figure FDA0002565062710000041
Figure FDA0002565062710000042
表示某个关键帧的第t个特征向量,定义一个相似性函数δ,t表示特征向量的个数,利用余弦距离度量特征向量之间的相似度,表示如下:
Figure FDA0002565062710000043
5.根据权利要求4所述的一种基于堆栈式组合自编码器的视觉SLAM闭环检测方法,其特征在于,步骤S5将相似度得分与设定的阈值进行比较,如果大于设定的阈值,则判断为闭环,具体包括:
在闭环检测中,图像的相似性阈值选取规则如下:首先,取一个先验相似度s(ft,ft-Δt),它表示某时刻关键帧图像与上一时刻的关键帧的相似性,其他的分值都参照这个值进行归一化:
Figure FDA0002565062710000044
如果当前帧与之前某关键帧的相似度超过当前帧与上一个关键帧相似度的3倍,则认为存在闭环。
CN202010620731.1A 2020-07-01 2020-07-01 基于堆栈式组合自编码器的机器人视觉slam闭环检测方法 Pending CN111753789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010620731.1A CN111753789A (zh) 2020-07-01 2020-07-01 基于堆栈式组合自编码器的机器人视觉slam闭环检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010620731.1A CN111753789A (zh) 2020-07-01 2020-07-01 基于堆栈式组合自编码器的机器人视觉slam闭环检测方法

Publications (1)

Publication Number Publication Date
CN111753789A true CN111753789A (zh) 2020-10-09

Family

ID=72680234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010620731.1A Pending CN111753789A (zh) 2020-07-01 2020-07-01 基于堆栈式组合自编码器的机器人视觉slam闭环检测方法

Country Status (1)

Country Link
CN (1) CN111753789A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364939A (zh) * 2020-12-04 2021-02-12 中信银行股份有限公司 异常值检测方法、装置、设备及存储介质
CN112396167A (zh) * 2020-12-30 2021-02-23 桂林电子科技大学 一种外观相似度与空间位置信息融合的回环检测方法
CN112419317A (zh) * 2020-12-15 2021-02-26 东北大学 一种基于自编码网络的视觉回环检测方法
CN112464989A (zh) * 2020-11-02 2021-03-09 北京科技大学 一种基于目标检测网络的闭环检测方法
CN112561826A (zh) * 2020-12-22 2021-03-26 杭州趣链科技有限公司 基于人工智能的图像去模糊方法、装置、设备及存储介质
CN114565671A (zh) * 2022-02-21 2022-05-31 北京航空航天大学 一种基于自编码器的回环检测方法
CN114689700A (zh) * 2022-04-14 2022-07-01 电子科技大学 一种基于栈式自编码器的低功率emat信号降噪方法
CN115026833A (zh) * 2022-07-01 2022-09-09 北京盈迪曼德科技有限公司 多层地图创建方法、装置及机器人
CN116228769A (zh) * 2023-05-09 2023-06-06 和峻(广州)胶管有限公司 一种适用于钢丝编织管瑕疵检测的装置及检测方法
CN116736975A (zh) * 2023-06-07 2023-09-12 吉林大学 一种基于堆栈式自动编码的力触觉信息的生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038421A (zh) * 2017-04-17 2017-08-11 杭州电子科技大学 基于稀疏堆栈自编码的调制样式识别方法
CN107330357A (zh) * 2017-05-18 2017-11-07 东北大学 基于深度神经网络的视觉slam闭环检测方法
CN109341703A (zh) * 2018-09-18 2019-02-15 北京航空航天大学 一种全周期采用CNNs特征检测的视觉SLAM算法
CN109443382A (zh) * 2018-10-22 2019-03-08 北京工业大学 基于特征提取与降维神经网络的视觉slam闭环检测方法
CN110188774A (zh) * 2019-05-27 2019-08-30 昆明理工大学 一种基于深度学习的电涡流扫描图像分类识别方法
CN110321777A (zh) * 2019-04-25 2019-10-11 重庆理工大学 一种基于栈式卷积稀疏去噪自编码器的人脸识别方法
CN110555881A (zh) * 2019-08-29 2019-12-10 桂林电子科技大学 一种基于卷积神经网络的视觉slam测试方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038421A (zh) * 2017-04-17 2017-08-11 杭州电子科技大学 基于稀疏堆栈自编码的调制样式识别方法
CN107330357A (zh) * 2017-05-18 2017-11-07 东北大学 基于深度神经网络的视觉slam闭环检测方法
CN109341703A (zh) * 2018-09-18 2019-02-15 北京航空航天大学 一种全周期采用CNNs特征检测的视觉SLAM算法
CN109443382A (zh) * 2018-10-22 2019-03-08 北京工业大学 基于特征提取与降维神经网络的视觉slam闭环检测方法
CN110321777A (zh) * 2019-04-25 2019-10-11 重庆理工大学 一种基于栈式卷积稀疏去噪自编码器的人脸识别方法
CN110188774A (zh) * 2019-05-27 2019-08-30 昆明理工大学 一种基于深度学习的电涡流扫描图像分类识别方法
CN110555881A (zh) * 2019-08-29 2019-12-10 桂林电子科技大学 一种基于卷积神经网络的视觉slam测试方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464989A (zh) * 2020-11-02 2021-03-09 北京科技大学 一种基于目标检测网络的闭环检测方法
CN112464989B (zh) * 2020-11-02 2024-02-20 北京科技大学 一种基于目标检测网络的闭环检测方法
CN112364939A (zh) * 2020-12-04 2021-02-12 中信银行股份有限公司 异常值检测方法、装置、设备及存储介质
CN112419317B (zh) * 2020-12-15 2024-02-02 东北大学 一种基于自编码网络的视觉回环检测方法
CN112419317A (zh) * 2020-12-15 2021-02-26 东北大学 一种基于自编码网络的视觉回环检测方法
CN112561826A (zh) * 2020-12-22 2021-03-26 杭州趣链科技有限公司 基于人工智能的图像去模糊方法、装置、设备及存储介质
CN112396167A (zh) * 2020-12-30 2021-02-23 桂林电子科技大学 一种外观相似度与空间位置信息融合的回环检测方法
CN112396167B (zh) * 2020-12-30 2022-07-15 桂林电子科技大学 一种外观相似度与空间位置信息融合的回环检测方法
CN114565671A (zh) * 2022-02-21 2022-05-31 北京航空航天大学 一种基于自编码器的回环检测方法
CN114689700A (zh) * 2022-04-14 2022-07-01 电子科技大学 一种基于栈式自编码器的低功率emat信号降噪方法
CN114689700B (zh) * 2022-04-14 2023-06-06 电子科技大学 一种基于栈式自编码器的低功率emat信号降噪方法
CN115026833A (zh) * 2022-07-01 2022-09-09 北京盈迪曼德科技有限公司 多层地图创建方法、装置及机器人
CN116228769A (zh) * 2023-05-09 2023-06-06 和峻(广州)胶管有限公司 一种适用于钢丝编织管瑕疵检测的装置及检测方法
CN116228769B (zh) * 2023-05-09 2023-10-17 和峻(广州)胶管有限公司 一种适用于钢丝编织管瑕疵检测的装置及检测方法
CN116736975A (zh) * 2023-06-07 2023-09-12 吉林大学 一种基于堆栈式自动编码的力触觉信息的生成方法

Similar Documents

Publication Publication Date Title
CN111753789A (zh) 基于堆栈式组合自编码器的机器人视觉slam闭环检测方法
WO2022036777A1 (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN110555399B (zh) 手指静脉识别方法、装置、计算机设备及可读存储介质
US20230162522A1 (en) Person re-identification method of integrating global features and ladder-shaped local features and device thereof
CN111753752B (zh) 基于卷积神经网络多层特征融合的机器人闭环检测方法
CN110555881A (zh) 一种基于卷积神经网络的视觉slam测试方法
CN111460968A (zh) 基于视频的无人机识别与跟踪方法及装置
CN111783838A (zh) 一种用于激光slam的点云特征空间表征方法
CN115953665B (zh) 一种目标检测方法、装置、设备及存储介质
CN107871099A (zh) 人脸定位方法和装置
CN114241003B (zh) 一种全天候轻量化高实时性海面船只检测与跟踪方法
CN115994558A (zh) 医学影像编码网络的预训练方法、装置、设备及存储介质
CN116468995A (zh) 一种联合slic超像素和图注意力网络的声呐图像分类方法
CN117196963A (zh) 一种基于降噪自编码器的点云去噪方法
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN113298097A (zh) 基于卷积神经网络的特征点提取方法、设备及存储介质
CN116975651A (zh) 相似度确定模型处理方法、目标对象搜索方法和装置
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN115375966A (zh) 一种基于联合损失函数的图像对抗样本生成方法及系统
Zhang [Retracted] An Intelligent and Fast Dance Action Recognition Model Using Two‐Dimensional Convolution Network Method
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
CN115375913A (zh) 一种基于IDT-YOLOv5-CBAM混合算法的密集小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201009

RJ01 Rejection of invention patent application after publication