CN109443382B

CN109443382B - 基于特征提取与降维神经网络的视觉slam闭环检测方法

Info

Publication number: CN109443382B
Application number: CN201811231732.6A
Authority: CN
Inventors: 阮晓钢; 王飞; 黄静; 朱晓庆; 周静; 张晶晶; 董鹏飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2022-05-17
Anticipated expiration: 2038-10-22
Also published as: CN109443382A

Abstract

本发明公开了基于特征提取与降维神经网络的视觉SLAM闭环检测方法，本发明采用卷积神经网络模型，通过在大量数据集上进行训练，从而使网络具有特征学习的能力。这样将图片之间的相似度比较转换成特征向量之间的相似度对比。为了进一步提高检测的速度，在卷积神经网络的最后加上一层自编码器网络，用来对提取的图像特征进行降维。卷积神经网络具有平移不变性，尺度不变性等多种特性，可以有效克服传统人工特征对环境变化敏感的缺点，并且具有更快的特征提取速度。该方法可解决传统视觉SLAM闭环检测方法存在的特征提取时间短，受环境变化和光照变化影响大的缺点，可以有效提高闭环检测的准确率和召回率，对于构建全局一致的环境地图具有重要作用。

Description

基于特征提取与降维神经网络的视觉SLAM闭环检测方法

技术领域

本发明属于移动机器人领域视觉同时定位与地图构建算法中 (VisualSimultaneous Localization and Mapping,VSLAM)中闭环检测 (Loop ClosureDetection)方法，属于机器人视觉技术领域。

背景技术

随着人工智能技术最近几年的飞速发展，与之密切相关的机器人技术也取得了巨大进步。其中移动机器人是机器人领域的重点研究方向。实现机器人在未知环境中的导航是实现机器人自主移动的关键基础。经过长期研究，研究者们探索出对于解决此问题的一般算法框架，也就是同时定位与地图构建，根据所使用的传感器的不同，可以分为采用激光雷达的同时定位与地图构建和基于相机的视觉同时定位与地图构建。相比激光雷达，相机价格低廉并且图像信息丰富，因此视觉SLAM近年来成为移动机器人的主要研究方向。视觉SLAM主要分为前端视觉里程计，后端优化，闭环检测和地图构建。其中视觉里程计用来估计相邻两帧图像之间的相机运动。后端优化对前端估计的相机运动做进一步优化，减小误差，消除噪声。闭环检测是检测机器人当前位置是否是之前已经访问过的位置，视觉SLAM中闭环检测主要是通过比较图片之间的相似度来判断是否为闭环。当成功检测到闭环，可以给后端优化提供更多的优化信息，可以有效减小机器人运动估计的积累误差。地图构建就是根据存储的图像信息与位姿信息构建环境地图，为以后的路径规划等提供地图。

其中闭环检测是视觉SLAM中的一个关键环节，正确的闭环检测可以有效减小机器人运动估计随着时间的积累误差，对构建全局一致的环境地图起着重要作用。当前闭环检测存在两个主要问题：感知偏差(PerceptualAliasing)和感知变异(PerceptualVariability)。感知偏差是指将实际上不是闭环的两个位置判断为是闭环，这样就给整个系统提供了错误的信息，会对后端优化和地图构建产生较大影响，难以构建全局一致的环境地图。感知变异是指将本来是闭环的两个位置检测判断为不是闭环。这会造成丢失有用信息的丢失，降低定位与建图的精度。

为了解决闭环检测中存在的问题，提高闭环检测的准确率和召回率，本发明提出基于卷积神经网络的闭环检测算法，改进之前人工的特征方法。

发明内容

本发明根据卷积神经网络的特征学习能力和迁移学习能力结合卷积神经网络的基本架构提出一种卷积神经网络和自编码器网络结合的新型神经网络模型。针对传统的闭环检测方法容易受到环境动态变化与光照变化影响的问题，本发明采用卷积神经网络模型，通过在大量数据集上进行训练，从而使网络具有特征学习的能力。这样将图片之间的相似度比较转换成特征向量之间的相似度对比。为了进一步提高检测的速度，在卷积神经网络的最后加上一层自编码器网络，用来对提取的图像特征进行降维。卷积神经网络具有平移不变性，尺度不变性等多种特性，可以有效克服传统人工特征对环境变化敏感的缺点，并且具有更快的特征提取速度。该方法结合两种先进的卷积神经网络结构，并将其组合起来，利用其中优势。该方法可解决传统视觉 SLAM闭环检测方法存在的特征提取时间短，受环境变化和光照变化影响大的缺点，可以有效提高闭环检测的准确率和召回率，对于构建全局一致的环境地图具有重要作用。

本发明采用的技术方案为基于特征提取与降维神经网络视觉 SLAM闭环检测方法，本方法包括以下步骤：

第一步、构建卷积神经网络部分模型。选择图1所示的基本单元，指定合适的数量堆叠起来，建议选择10到30个基本单元。

第二步、网络训练。利用场景数据集，对第一步中构建的卷积神经网络部分模型做训练，使之能够提取图像特征。

第三步、自编码器网络部分构建。构建如图2所示的自编码器。

第四步、自编码器网络的训练。利用训练数据集对自编码器网络进行训练。使得自编码器网络可以对特征进行降维。

第五步、将训练好的卷积神经网络模型和自编码器模型组合起来，形成最终的特征提取与降维神经网络模型。

第六步、将图像输入到第五步特征提取与降维神经网络中，得到输出，即为图像的特征。

第七步、闭环检测。将第六步得到的图像的特征与之前图像特征作对比。若两张图像对应的特征向量的相似度高于一定的阈值，则认为这两张图像对应的位置形成闭环。

具体而言，

第一步中：

根据图1所示的基本网络单元构建卷积神经网络。其中，“1x1”表示尺寸为1x1的卷积核，用来控制生成的特征图的数量。“3x3”表示尺寸为3x3的卷积核，用来进行特征提取。“BN”表示Batch Normalization，用来对卷积层输出进行规范化，加快网络训练速度。为表示方便，将图1所示的基本网络单元简化成如图3所示的模块。其中Base-Block后的n表示此模块由n个Base-Block单元级联而成。 width,height表示此模块的生成的特征图的尺寸为width x height即宽 x高，depth表示此模块生成的特征图的数量。将不同的模块级联起来，同时加上最大池化层。最后加上全局池化层和softmax层，用来进行分类。整个网络的模型结构如图4所示。

第二步中：

训练卷积神经网络。采用场景分类数据集对第一步中构建的卷积神经网络进行训练。训练的目标是要对训练图像与测试图像具有高的分类准确率。对于给定图像，记为x，采用了softmax分类层的网络需要输出此图像对应每一个类别j的概率p(y＝j|x)。对每一幅图像，网络最终都将输出对每一个类别的概率。将其中最大的概率值对应的类作为分类结果。假设分类层对应的映射h_w(x)定义如下：

其中θ₁,θ₂,…,θ_k为分类模型参数，k为分类的类别数，y为模型预测的类别，e为自然对数的底。网络训练采用mini-batch方式进行训练，更新网络参数。假设训练数据批次中样本量为m，网络的损失函数 Loss(θ)为：

其中，x⁽ⁱ⁾为训练批次中第i个样本，y⁽ⁱ⁾为第i个样本的实际类别对应的标签。

采用Adam算法进行网络的参数更新，具体更新策略如下：

g_t＝▽_θLoss_t(θ_t-1)

m_t＝β₁m_t-1+(1-β₁)g_t

其中Loss为定义的损失函数，θ_t为模型参数，g_t为损失函数对变量的梯度，α和β₁、β₂为算法参数。通过在场景分类数据集上进行训练，使网络学习到特征提取能力。

第三步中：

构建自编码器，完整自编码器如图2所示。其中隐藏层神经元数要少于输入层神经元。整个自编码器分为编码部分和解码部分。

第四步中：

自编码器训练。自编码器的功能是让输入通过中间层，在输出层尽可能复现输入。设自编码器输入为x，中间层输出为h，网络输出为y，x和y的维度均为n。神经元的激活函数采用sigmoid函数即：

设网络的编码部分学习的映射为f₁，解码部分学习的映射为f₂，则有：

h＝f₁(x)

y＝f₂(h)＝f₂(f₁(x))

网络的训练目标是要使得网络输出尽可能逼近输入。此处仍采用批量数据进行训练，假设训练批次中样本数量为m。网络的损失函数定义为：

其中

表示训练批次中第i个样本的第j个分量，

表示第i个样本对应的输出的第j个分量。使用Adam算法进行网络的参数更新。

网络训练完成后，在输出层能够复现输入。由于网络的中间层神经元数量小于输入层神经元数，因此网络学习的不是恒等映射。中间层输出通过学习到的映射在输出层复现输入，由此可知中间层包含了所有输入层的信息，并且以一种新的方式对输入信息进行表达。由于中间层的神经元数小于输入层，因此认为中间层对输入信息进行了降维处理。

第五步中：

将第二步训练完成的卷积神经网络与第四步中训练完成的自编码器网络级联，组合成新的网络模型。对于卷积神经网络，需要其对于图像的特征提取能力，经过试验验证，选择Maxpool_5层的输出作为最终的图像特征。因此去掉Maxpool_5层之后的部分网络。对于自编码器网络，如第四步中所述，中间层基本保留了输入的全部信息，并且中间层维数远远小于输入维数，中间层输出即为需要的结果。因此去掉图2中自编码器的解码部分。将自编码器的前两层级联到卷积神经网络的Maxpool_5层之后。Maxpool_5层的输出为维数为8x8x512。级联到卷积神经网络后的自编码器的输入层即为将 Maxpool_5层输出调整为32768维的特征向量。最终模型如图5所示。

第六步中：

提取图像特征。本发明提出的神经网络模型要求输入图像的尺寸为256x256，因此在提取图像特征时首先要将图像的尺寸调整为 256x256的大小。然后将转换后的图像输入网络，取最后层的输出作为图像特征，记作F，并存储起来。

第七步中：

闭环检测。闭环检测的一般策略是将当前图像与之前时刻的图像作对比，如果当前图像与之前某一时刻的图像相似度超过一定程度，则判定拍摄这两张图像时机器人位于同一位置，即机器人的运动轨迹形成了闭环。本方法中使用图像的特征向量之间的欧式距离来度量图像之间的相似度。即特征向量的欧式距离越小，对应的图像的相似度越高。

实际中相机的运动速度较慢，因此时间上相隔比较近的图像也具有非常高的相似度。如果将当前图像与时间上紧邻的图像相比较也会产生较高的相似度，算法会判断为形成闭环，实际上只是位置相距比较近，没有形成闭环，因此会造成误判。为解决此问题，设定一个候选检测图像的范围阈值d，即与当前图像拍摄时间最近的d幅图像不用与当前图像作相似度比较。

实际中，相机每获得一幅图像，都将其通过神经网络模型，获得相对应的特征。并将图像编号与图像特征一起存储起来。检测闭环时，将当前图像的特征作归一化后与候选图像特征作归一化后分别作相似度比较，当相似度超过设定的阈值则判断为检测到闭环。

本发明的原理是：利用卷积神经网络的特征学习能力和迁移学习能力，首先构建用于分类的卷积神经网络，然后在场景数据集上进行训练。训练完成后分类网络对场景数据的分类准确率可以达到较高精度。同时神经网络的所有中间层的输出都可以看作是图像的特征。根据卷积神经网络的特点，其对图像的特征提取是逐层抽象，通过组合低层的特征形成抽象的高级特征，也就是说总体而言越往后的特征越具有更好的抽象能力，越能表示原始图像。因此选择最后的池化层的输出作为图像特征。利用自编码器网络可以对输入重新编码的特性来对图像特征进行降维处理，从而减小计算量，加快计算速度。采用设定阈值的方法来选择候选检测图像的范围。通过比较当前图像与候选图像之间对应特征的欧式距离，来判断是否检测到闭环。

附图说明

图1、卷积神经网络的基本结构单元Base-Block。其中，“1x1”表示1x1的卷积核，“3x3”表示3x3的卷积核，“BN”表示Batch Normalization，用来对卷积层输出作规范化。“+”表示对应特征图之间的对应位置数值相加。

图2、自编码器网络结构图。这是一个完整的自编码器神经网络，包括编码部分和解码部分，其中输入层和输出层神经元个数相同，隐藏层神经元个数小于输出层神经元个数。

图3、卷积神经网络的基本组成模块，由一个Base-Block单元组成或多个Base-Block单元级联而成。其中，n表示由n个Base-Block 单元级联而成。width，height分别表示此模块输出的特征图的宽和高， depth表示此模块输出的特征图的数量。

图4、分类卷积神经网络。用于分类的卷积神经网络，由第一层的7x7的卷积核组成的卷积层，5个图3所示的模块，以及最后的全局池化层和softmax分类层组成。

图5、特征提取与降维神经网络。用于特征提取与降维的神经网络，由图4所示的分类卷积神经网络去掉最后一个模块、全局池化层、 softmax层，然后和去掉解码部分的自编码器级联组合而成。“Flatten”表示将Maxpool_5层输出的特征图调整为一维向量，作为自编码器的输入，“Output”为整个网络的输出。

图6、本发明与传统方法的recall-precision曲线对比图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例：

第一步，构建网络模型。利用图1所示的Base-Block单元、池化层和softmax分类层构建用于分类的卷积神经网络，得到分类网络如图4所示。具体实现使用开源深度学习框架TensorFlow编写。

第二步，训练第一步中构建的用于分类的卷积神经网络。使用 Places205场景分类数据集对网络进行训练，该数据集包含205类场景。网络的损失函数如下所示：

网络权值的更新策略采用Adam算法：

g_t＝▽_θLoss_t(θ_t-1)

m_t＝β₁m_t-1+(1-β₁)g_t

其中参数设置为：β₁＝0.9，β₂＝0.999，ε＝10^-8。最初迭代时设t＝0，m₀＝0， v₀＝0，初始学设为α＝0.001。当网络在验证集上的分类准确率不再变化时，将学习率调整为之前的一半，如此迭代进行，直达完成训练。实验采用mini-batch训练方式，即在每次整个训练中选取一定数量的样本进行训练，在这些样本上计算损失函数对于网络参数的梯度，然后进行参数更新。本次实验采用样本量为256。

第三步，构建自编码器神经网络。其中输入层为32768个神经元，隐藏层为700个神经元，输出层为32768个神经元。神经元的激活函数采用sigmoid函数。相邻层之间的神经元采用全连接方式连接。

第四步，训练自编码器网络。采用mini-batch方式进行训练，设此处每批次训练样本数量为m(实验中为128)，网络的损失函数如下所示：

网络参数更新采用Adam算法，算法相关参数设置与第二步中相同。

第五步，将训练完成的卷积神经网络和自编码器网络组合成新的网络模型。将第二步中训练完成的如图4所示的分类网络去掉其中 Maxpool_5层后面的部分。将第四步训练完成的如图2所示的自编码器去掉解码部分，然后将输出层和中间层级联到卷积神经网络 Maxpool_5层之后。此时自编码器的输入层就是将Maxpool_5层输出的8x8x512维张量调整为32768维特征向量。至此构建了本发明提出的完整的特征提取与降维神经网络，如图5所示。

第六步，提取图像特征。第五步中构建的特征提取与降维神经网络要求输入图像的尺寸为256x256。在将图片输入到网络之前，将图像尺寸调整为256x256。然后将图像输入网络，获得对应的特征向量。并将图像编号与特征向量存储起来。

第七步，闭环检测。本次闭环检测实验使用的数据集为 NewCollege数据集，它是由机器人在校园里运动由左右两个相机拍摄所得，共包含2146张图像。其中图像按照拍摄时间顺序由前往后以1-2146的数字命名。将尺寸调整后的图像按顺序依次输入到特征提取与降维网络，获取对应的特征，并将其与对应的图像编号一起存储。按照发明内容的第七步所述，设置一个范围阈值d来选择可能与当前图像形成闭环的候选图片集，即与当前图像距离最近的且在当前图像之前拍色的d幅图像都不作对比。例如对于编号为500的图像，则编号为500-d到编号为499的图像均不作考虑。候选的闭环检测图像范围为编号1到编号499-d的图像。本次实验中d取120。图像的相似度比较采用将图像特征归一化，然后计算特征之间的欧式距离。当欧式距离小于设定阈值时，则判定此时作对比的两张图像之间形成闭环。

实施效果

根据以上步骤，在NewCollege数据集的奇数编号图像和偶数编号图像上分别进行实验。以检测的准确率、召回率以及平均准确率作为指标判定方法的性能。其中准确率和召回率计算公式为：

其中TP为算法将本来是真实闭环检测为闭环的数量，FP为算法将非闭环检测为闭环的数量，FN为算法将真实闭环检测为闭环的数量。通过更改判定闭环的欧式距离阈值，可以得到recall-precision曲线。平均准确率为多次实验中准确率的平均值。为了对比特征提取与降维网络与传统的人工特征法的结果，同时还进行了传统的人工特征方法 BoW、FV和GIST进行闭环检测的实验。图6展示了本发明的方法与传统方法的recall-precision曲线。表1展示了本发明的方法与传统方法的平均准确率对比。

表1 不同算法在不同数据集上的平均准确率(％)

Claims

1.基于特征提取与降维神经网络的视觉SLAM闭环检测方法，其特征在于：本方法包括以下步骤：

第一步、构建卷积神经网络部分模型；选择基本单元，指定合适的数量堆叠起来，建议选择10到30个基本单元；

第二步、网络训练；利用场景数据集，对第一步中构建的卷积神经网络部分模型做训练，使之能够提取图像特征；

第三步、自编码器网络部分构建；构建自编码器；

第四步、自编码器网络的训练；利用训练数据集对自编码器网络进行训练；使得自编码器网络可以对特征进行降维；

第五步、将训练好的卷积神经网络模型和自编码器模型组合起来，形成最终的特征提取与降维神经网络模型；

第六步、将图像输入到特征提取与降维神经网络中，得到输出，即为图像的特征；

第七步、闭环检测；将第六步得到的图像的特征与之前图像特征作对比；若两张图像对应的特征向量的相似度高于一定的阈值，则认为这两张图像对应的位置形成闭环；

第一步中：

基本网络单元构建卷积神经网络中，“1x1”表示尺寸为1x1的卷积核，用来控制生成的特征图的数量；“3x3”表示尺寸为3x3的卷积核，用来进行特征提取；“BN”表示BatchNormalization，用来对卷积层输出进行规范化，加快网络训练速度；为表示方便，将基本网络单元简化，其中Base-Block后的n表示此模块由n个Base-Block单元级联而成；width,height表示此模块的生成的特征图的尺寸为width x height即宽x高，depth表示此模块生成的特征图的数量；将不同的模块级联起来，同时加上最大池化层；最后加上全局池化层和softmax层，用来进行分类；

第二步中：

训练卷积神经网络；采用场景分类数据集对第一步中构建的卷积神经网络进行训练；训练的目标是要对训练图像与测试图像具有高的分类准确率；对于给定图像，记为x，采用了softmax分类层的网络需要输出此图像对应每一个类别j的概率p(y＝j|x)；对每一幅图像，网络最终都将输出对每一个类别的概率；将其中最大的概率值对应的类作为分类结果；假设分类层对应的映射h_w(x)定义如下：

其中θ₁,θ₂,…,θ_k为分类模型参数，k为分类的类别数，y为模型预测的类别，e为自然对数的底；网络训练采用mini-batch方式进行训练，更新网络参数；假设训练数据批次中样本量为m，网络的损失函数Loss(θ)为：

其中，x⁽ⁱ⁾为训练批次中第i个样本，y⁽ⁱ⁾为第i个样本的实际类别对应的标签；

采用Adam算法进行网络的参数更新，具体更新策略如下：

m_t＝β₁m_t-1+(1-β₁)g_t

其中Loss为定义的损失函数，θ_t为模型参数，g_t为损失函数对变量的梯度，α和β₁、β₂为算法参数；通过在场景分类数据集上进行训练，使网络学习到特征提取能力；

第三步中：

构建自编码器，完整自编码器；其中隐藏层神经元数要少于输入层神经元；整个自编码器分为编码部分和解码部分；

第四步中：

自编码器训练；自编码器的功能是让输入通过中间层，在输出层尽可能复现输入；设自编码器输入为x，中间层输出为h，网络输出为y，x和y的维度均为n；神经元的激活函数采用sigmoid函数即：

h＝f₁(x)

y＝f₂(h)＝f₂(f₁(x))

网络的训练目标是要使得网络输出尽可能逼近输入；此处仍采用批量数据进行训练，假设训练批次中样本数量为m；网络的损失函数定义为：

其中

表示训练批次中第i个样本的第j个分量，

表示第i个样本对应的输出的第j个分量；使用Adam算法进行网络的参数更新；

网络训练完成后，在输出层能够复现输入；由于网络的中间层神经元数量小于输入层神经元数，因此网络学习的不是恒等映射；中间层输出通过学习到的映射在输出层复现输入，由此可知中间层包含了所有输入层的信息，并且以一种新的方式对输入信息进行表达；由于中间层的神经元数小于输入层，因此认为中间层对输入信息进行了降维处理；

第五步中：

将第二步训练完成的卷积神经网络与第四步中训练完成的自编码器网络级联，组合成新的网络模型；对于卷积神经网络，需要其对于图像的特征提取能力，经过试验验证，选择Maxpool_5层的输出作为最终的图像特征；因此去掉Maxpool_5层之后的部分网络；对于自编码器网络，如第四步中所述，中间层基本保留了输入的全部信息，并且中间层维数远远小于输入维数，中间层输出即为需要的结果；因此去掉自编码器的解码部分；将自编码器的前两层级联到卷积神经网络的Maxpool_5层之后；Maxpool_5层的输出为维数为8x8x512；级联到卷积神经网络后的自编码器的输入层即为将Maxpool_5层输出调整为32768维的特征向量；

第六步中：

提取图像特征；提出的神经网络模型要求输入图像的尺寸为256x256，因此在提取图像特征时首先要将图像的尺寸调整为256x256的大小；然后将转换后的图像输入网络，取最后层的输出作为图像特征，记作F，并存储起来；

第七步中：

闭环检测；闭环检测的一般策略是将当前图像与之前时刻的图像作对比，如果当前图像与之前某一时刻的图像相似度超过一定程度，则判定拍摄这两张图像时机器人位于同一位置，即机器人的运动轨迹形成了闭环；本方法中使用图像的特征向量之间的欧式距离来度量图像之间的相似度；即特征向量的欧式距离越小，对应的图像的相似度越高。

2.根据权利要求1所述的基于特征提取与降维神经网络的视觉SLAM闭环检测方法，其特征在于：设定一个候选检测图像的范围阈值d，即与当前图像拍摄时间最近的d幅图像不用与当前图像作相似度比较。

3.根据权利要求1所述的基于特征提取与降维神经网络的视觉SLAM闭环检测方法，其特征在于：相机每获得一幅图像，都将其通过神经网络模型，获得相对应的特征；并将图像编号与图像特征一起存储起来；检测闭环时，将当前图像的特征作归一化后与候选图像特征作归一化后分别作相似度比较，当相似度超过设定的阈值则判断为检测到闭环。