CN107330357A

CN107330357A - 基于深度神经网络的视觉slam闭环检测方法

Info

Publication number: CN107330357A
Application number: CN201710350174.4A
Authority: CN
Inventors: 张云洲; 胡航; 闻时光; 吴成东; 段强; 胡美玉
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-05-18
Filing date: 2017-05-18
Publication date: 2017-11-07

Abstract

一种基于深度神经网络的视觉SLAM闭环检测方法，包括如下步骤：利用相似场景的数据集训练好线性解码器的网络参数；将采集到的图片通过线性解码器进行卷积处理；采用池化的方法对高维的特征向量进行降维处理；对训练得到的向量，采用夹角余弦函数衡量特征的相似性，通过设定阈值结合两幅场景图像的相似度来判断什么时候形成闭环；输出闭环检测准确率召回率曲线和检测到的闭环，作为后续SLAM建图优化使用。本方法充分考虑了手工特征的描述符对闭环检测准确性和鲁棒性的影响，在较低的计算成本情况下，大幅度提高了算法的准确性，避免了错误的闭环检测问题，有利于构建更加精确的地图，保证生成地图的一致性。

Description

基于深度神经网络的视觉SLAM闭环检测方法

技术领域

本发明属于图像处理技术领域，涉及一种基于深度神经网络模型的视觉SLAM闭环检测方法。

背景技术

移动机器人在未知环境根据传感器数据创建地图，并完成自主定位，即机器人同时定位与构图(Simultaneous localization and mapping，SLAM)，是实现自主移动机器人的关键。SLAM流程一般包含几个重要模块，比如特征提取与匹配、数据配准、闭环检测和全局优化等。闭环(Loop Closure)检测是指移动机器人判断当前位置是否已访问过，其是SLAM研究中的关键环节。准确地检测出闭环可以有效减少机器人位姿估计的累积误差，有利于构建更加精确的地图，保证生成地图的一致性。反之，不正确的闭环信息会影响SLAM后端的图优化建图过程，错误地修改原有的地图。机器人运动的时间越长，这种影响越显着，导致地图构建和定位错误。

当前SLAM闭环检测方法主要包括：概率计算方法和图像匹配方法。概率计算方法在计算机器人位于已建成地图区域以外的概率时通常假定环境中的目标为均匀分布，但实际情况并非如此，由于该方法忽略了环境中的部分有用信息，导致闭环检测的鲁棒性较差。并且基于概率的方法计算量较大，不适合实时的系统。图像匹配方法通过序列图像匹配的方法进行闭环检测，匹配当前时刻的场景图像与之前采集到的关键帧序列，根据图像相似度来判断是否形成闭环。闭环检测的主要影响因素有：受外部环境影响严重，误匹配率较高、感知混淆等问题。另一方面由于传感器感知范围有限，只能获取部分环境信息，难以区分观测物体。由此可见闭环检测的准确性和鲁棒性还有待提高。

综上所述，目前闭环检测大多采用图像匹配的方法。图像匹配包括两个部分：图像的表示和相似性比较。而常见的图像描述方法采用的是手工特征，这些手工特征的设计是基于人类的专业知识和见解(主观经验和期望)得到的特征。它们具有的共同特点是受人为因素和环境因素的影响，并且计算效率低下。

发明内容

针对传统手工特征方法易受环境影响的不足，本发明使用神经网络输出层获取的高维特征来描述图像，并利用这些特征来度量图像距离，建立帧到帧的特征关联。这些特征表达是图像与机器人位姿一对一的平滑内射，进而我们可以在不跟踪机器人位姿的前提下完成闭环检测。对于特征向量距离的衡量，可以采用欧氏距离或余弦相似度，利用余弦相似度来度量向量之间的距离具有更好的性能。

本发明采用的技术方案如下：

一种基于深度神经网络的视觉SLAM闭环检测方法，包括如下步骤：

步骤一：利用相似场景的数据集训练线性解码器的网络参数；

线性解码器是一种用于无监督特征学习的神经网络模型，其在稀疏自编码模型的基础上进行了改进。稀疏自编码模型通过训练一组超完备基向量来更有效地表达样本数据内部隐藏的模式和结构。对于最基本的自编码器包含三层：(1)输入层x；(2)隐藏层h；(3)输出层

对于神经网络中的每个节点可以看作一个非线性函数，将x作为输入，作为输出，则每个节点可以视作公式(1)：

其中w和b分别为权重和偏置参数，特征学习的目的就是得到参数w和b。

自编码神经网络中，输入层与隐藏层全连接，对于每个隐藏层单元h_i有：

相似地，对于输出层有：

写成矩阵形式如下：

假设有一个无标签的训练样本集{x⁽¹⁾,x⁽²⁾,…}，其中在自编码神经网络模型中，输出值等于输入值，即即自编码神经网络尝试训练一个h_W,b(x)≈x的函数。通常会设置W＝W^T，为了使得最终训练得到的参数应该满足：

g_w,bf_w,b(x)＝x (6)

从式(6)中可以看出，真实的输出是隐藏层，输出层仅仅是为了训练隐藏层参数设定的虚拟层。

通过最小化输入与输出的误差来训练参数w和b，误差用交叉熵来衡量，对于输入x∈[0,1)，交叉熵如式(7)所示：

自编码算法利用梯度下降法来求解最小问题，迭代过程中参数更新如式(8)所示：

其中η是学习率，θ是训练参数w和b。

上面的论述是在隐藏神经元较少的前提下，如果隐藏神经元的数量较大，可以在自编码神经网络模型的基础上附加一些新的约束条件，例如稀疏性限制，同样能够发现输入数据的内部模式。本发明使用a_j(x)表示在输入为x的情况下，隐藏神经元j的激活度，使用代表隐藏神经元j的平均激活度(在整个训练样本集上取平均)。通过在代价函数中加入一个额外的惩罚因子确保大部分隐藏神经元的平均活跃度是一个较小的值，惩罚因子的形式如下式所示：

其中s是隐藏层神经元的数量，ρ是稀疏性系数。惩罚因子也可以被表示为：

至此，总的代价函数可以表示为：

稀疏自编码存在一个局限性，那就是训练数据在输入之前必须进行归一化，这样不太适合应用于彩色图像。线性解码器对其进行了改进，只需要对系数自编码算法的最后一层的残差稍作修改即可。对于最后一层的输入，将sigmoid变换换成恒等变换，即：

其中aⁿ是最后一层输出，zⁿ是最后一层的输入，a^n-1是倒数第二层隐藏层的输入。经过变换之后，输入数据就不用缩放了，同样通过输入与输出的残差来训练隐藏层参数。

步骤二：将捕获采集到的图片不断的通过线性解码器进行卷积训练，描述如下：

在线性解码器中，输入层与隐藏层都是全连接的形式，对于小图像，从整幅图像计算特征是可行的，但是对于比较大的图像，就变得非常耗时。由于自然图像具有固有的性质，所以在图像一部分上学习到的特征也能用到其它部分上。由此，可以从大尺寸图像中随机选取小块图像作为样本，并通过训练这些小块样本来学习特征，最后将学习到的特征作为滤波器，卷积应用到大图像样本中，在新图像上任一位置均可获得一个不同的激活值。

假设原始训练样本是m×n的大尺寸图像，首先从原始样本中抽取a×b的小图像样本x_small来训练线性解码器，通过函数f＝σ(Wx_small+b)获得k个特征，然后用这k个特征对大尺寸图像做卷积，就可以得到k×(m-a+1)×(n-b+1)个卷积后的特征形成的矩阵。

步骤三：采用池化的方法对高维的特征向量进行降维处理；

卷积获得的特征可以用来做分类、识别等任务，但是利用卷积获得的特征维数过高，只有通过降维才能应用于各种任务中。因此我们对不同位置的特征进行聚合统计。这些聚合统计特征不仅具有较低的维数，同时还能改良特征的性能，我们称这种聚合操作为池化，有时也根据池化方法的不同称其为最大池化或平均池化。

步骤四：对训练得到的向量，采用夹角余弦函数衡量特征的相似性，通过设定阈值结合两幅场景图像的相似度来判断什么时候形成闭环；

SLAM中的闭环检测问题就是寻找机器人运动过程中的相同场景。对于输入的序列图像数据，通过训练好的线性解码器获取图像的特征，然后对这些特征进行卷积与池化，利用卷积之后的特征判断场景的相似性，进而判断是否形成闭环。

假设存在两个关键帧F⁽¹⁾和F⁽²⁾，每个关键帧通过线性解码器与卷积和池化之后可以用t个特征来表达：

定义一个相似性函数

s＝||δ(p⁽ⁱ⁾-p^(j))|| (14)

其中利用夹角余弦来衡量特征的相似度。

通过设定阈值结合两帧关键帧的相似度可以判定时候形成闭环。通过所有关键帧之间的相似性得分可以获得一个相似性矩阵，图2给出了利用线性解码器获得的相似性矩阵与真实相似性矩阵的对比。

步骤五：输出闭环检测准确率召回率曲线和检测到的闭环，作为后续SLAM建图优化使用。

本发明方法充分考虑了手工特征的描述符对闭环检测准确性和鲁棒性的影响，在较低的计算成本情况下，大幅度提高了算法的准确性，避免了错误的闭环检测问题，有利于构建更加精确的地图，保证生成地图的一致性。因此基于深度神经网络的闭环检测算法要优于传统的基于手工特征的闭环检测算法。

附图说明

图1是本发明具体实施方式的方法流程图。

图2是本发明具体实施方式的原理示意图。

图3是本发明具体实施方式的线性解码器特征权值图。

图4是本发明具体实施方式的闭环与非闭环图像对和特征响应图。

图5(a)是本发明具体实施方式的线性解码器检测出的闭环。

图5(b)是本发明具体实施方式的线性解码器与SDA的精度-召回曲线。

图6(a)是本发明具体实施方式的Oxford数据集获取的真实闭环。

图6(b)是本发明具体实施方式的Oxford数据集获取的闭环。

具体实施方式

下面结合附图对本发明的具体实施做详细说明。

实施方式的平台为：Windows 10系统，MATLAB R2015b，流程如图1所示：

步骤一：利用相似场景的数据集训练好线性解码器的网络参数。图3为训练好的线性解码器权值的可视化。

步骤二：将捕获采集到的图片不断的通过线性解码器进行卷积训练。图2可以看出操作的流程。

步骤三：采用池化的方法对高维的特征向量进行降维处理。

步骤四：对训练得到的向量，采用夹角余弦函数衡量特征的相似性，通过设定阈值结合两幅场景图像的相似度来判断什么时候形成闭环。图4具体结合两个场景对分析非闭环和闭环情形时候，得到的特征响应图。可以分析得到若两关键帧形成闭环，经线性解码器与卷积优化之后得到的特征基本是相等的，将两帧图像的特征向量对应元素相减，差值均在0值附近，而未形成闭环的两帧图像的特征向量对应差值却比较大，大部分超出了0.05，甚至达到了0.1。由此可以看出，深度学习的方法对于衡量图像相似度很有效。

步骤五：输出闭环检测准确率召回率曲线和检测到的闭环，作为后续SLAM建图优化使用。图5、6是针对不同的数据集做的实验。图5采用TUM数据集中的freiburg2_pioneer_slam进行闭环检测，图5(a)虽然并没有检测出所有闭环信息，但是检测的精度还是比较准确。图5(b)对于比较明显的闭环信息，线性解码器与SDA都可以检测出来，在召回率小于50％的时候，线性解码器的性能是优于SDA的。并且，在精确率为100％的前提下，线性解码器的召回率要高很多。对于VSLAM中的闭环检测问题，需要严格保证闭环的正确性，错误的闭环信息会影响全局优化的结果，更严重的情况会导致地图构建失败，因此线性解码器的性能优于SDA算法。图6采用的是Oxford数据集中的NewCollege，其包含2146帧室外彩色图像，还提供了真实的闭环信息，本发明从中选取了300帧图像来测试线性解码器的性能。图6将真实闭环信息与线性解码器所提取的闭环信息进行了可视化。从可视化图像可以看出，线性解码器能检测出比较明显的闭环，但是存在一定的噪声，因为本发明所提方法衡量两帧图像是否为闭环给出的是两帧图像的相似度，所以相邻的图像也会被认为形成了闭环。

综上所述，基于深度神经网络的视觉SLAM闭环检测方法提供了闭环检测的新思路，同时也克服了传统方法易受环境影响的弊端，该方法在较低的计算成本情况下，大幅度提高了算法的准确性，避免了错误的闭环检测问题，有利于构建更加精确的地图，保证生成地图的一致性。

Claims

1.一种基于深度神经网络的视觉SLAM闭环检测方法，其特征在于如下步骤：

最基本的自编码器包含三层：(1)输入层x；(2)隐藏层h；(3)输出层

神经网络中的每个节点看作一个非线性函数，将x作为输入，作为输出，则每个节点视作公式(1)：

其中w和b分别为权重和偏置参数；

<mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>f</mi> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>w</mi> <mi>i</mi> </msub> <mi>T</mi> </msup> <mi>x</mi> <mo>+</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

对于输出层有：

矩阵形式如下：

<mrow> <mi>h</mi> <mo>=</mo> <msub> <mi>f</mi> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <mi>x</mi> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mover> <mi>x</mi> <mo>^</mo> </mover> <mo>=</mo> <msub> <mi>g</mi> <mrow> <msubsup> <mi>w</mi> <mi>j</mi> <mo>&prime;</mo> </msubsup> <mo>,</mo> <msubsup> <mi>b</mi> <mi>j</mi> <mo>&prime;</mo> </msubsup> </mrow> </msub> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <mo>&prime;</mo> <mi>T</mi> </mrow> </msup> <mi>h</mi> <mo>+</mo> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

假设有一个无标签的训练样本集{x⁽¹⁾,x⁽²⁾,…}，其中在自编码神经网络模型中，输出值等于输入值，即即自编码神经网络尝试训练一个h_W,b(x)≈x的函数；设置W＝W^T，为使最终训练得到的参数应该满足：g_w,bf_w,b(x)＝x (6)

<mrow> <msub> <mi>&theta;</mi> <mi>k</mi> </msub> <mo>=</mo> <msub> <mi>&theta;</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <mi>&eta;</mi> <mfrac> <mrow> <mo>&part;</mo> <mi>d</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>&theta;</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

其中η是学习率，θ是训练参数w和b；

使用a_j(x)表示在输入为x的情况下，隐藏神经元j的激活度，使用代表隐藏神经元j的平均激活度；惩罚因子的形式如下式所示：

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <mi>&rho;</mi> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mi>&rho;</mi> <msub> <mover> <mi>&rho;</mi> <mo>^</mo> </mover> <mi>j</mi> </msub> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mover> <mi>&rho;</mi> <mo>^</mo> </mover> <mi>j</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中s是隐藏层神经元的数量，ρ是稀疏性系数；惩罚因子也被表示为：

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>&rho;</mi> <mo>|</mo> <mo>|</mo> <mover> <mi>&rho;</mi> <mo>^</mo> </mover> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

总的代价函数表示为：

对于最后一层的输入，将sigmoid变换换成恒等变换，即：

<mrow> <mover> <mi>x</mi> <mo>^</mo> </mover> <mo>=</mo> <msup> <mi>a</mi> <mi>n</mi> </msup> <mo>=</mo> <msup> <mi>z</mi> <mi>n</mi> </msup> <mo>=</mo> <msup> <mi>W</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>a</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>+</mo> <msup> <mi>b</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow> 1

其中aⁿ是最后一层输出，zⁿ是最后一层的输入，a^n-1是倒数第二层隐藏层的输入；经过变换之后，输入数据就不用缩放了，同样通过输入与输出的残差来训练隐藏层参数；

步骤二：将捕获采集到的图片不断的通过线性解码器进行卷积训练

假设原始训练样本是m×n的大尺寸图像，首先从原始样本中抽取a×b的小图像样本x_small来训练线性解码器，通过函数f＝σ(Wx_small+b)获得k个特征，然后用这k个特征对大尺寸图像做卷积，得到k×(m-a+1)×(n-b+1)个卷积后的特征形成的矩阵；

步骤三：采用池化的方法对高维的特征向量进行降维处理；

对不同位置的特征进行聚合统计；这些聚合统计特征不仅具有较低的维数，同时还能改良特征的性能，称这种聚合操作为池化；

假设存在两个关键帧F⁽¹⁾和F⁽²⁾，每个关键帧通过线性解码器与卷积和池化之后用t个特征来表达：

定义一个相似性函数：s＝||δ(p⁽ⁱ⁾-p^(j))|| (14)

其中利用夹角余弦来衡量特征的相似度；

通过设定阈值结合两帧关键帧的相似度判定时候形成闭环；通过所有关键帧之间的相似性得分获得一个相似性矩阵；