CN114140524A

CN114140524A - 一种多尺度特征融合的闭环检测系统及方法

Info

Publication number: CN114140524A
Application number: CN202111324371.1A
Authority: CN
Inventors: 胡博; 钟羽中; 赵涛; 尹艳杰; 张鸿; 佃松宜; 李胜川; 周桂平; 刘佳鑫; 李勇; 郭锐
Original assignee: Sichuan University; State Grid Shandong Electric Power Co Ltd; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Current assignee: Sichuan University; State Grid Shandong Electric Power Co Ltd; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-03-04

Abstract

本发明公开了一种多尺度特征融合的闭环检测系统及方法，该闭环检测系统包括分别对当前采集图像与历史采集的任一图像组成的相似性待匹配图像进行处理的基础特征提取模块和多尺度特征提取‑融合模块，以及用于获取待匹配图像相似性得分的多维相似性度量模块。本发明考虑到图像不同感受野信息以及特征的不同维度信息等，构建了一个统一的端到端网络系统，能够直接输出闭环检测结果，且同时具有高准确率和较高的召回率，可以有效地对SLAM系统中机器人估计位姿进行修正，协助机器人在位姿丢失时的重定位，纠正机器人随时间增长的轨迹累积误差，构建全局一致性地图，从而让机器人获得更加精准的定位和更好的建图效果。

Description

一种多尺度特征融合的闭环检测系统及方法

技术领域

本发明属于机器人导航技术领域，涉及机器人导航中的闭环检测，尤其涉及一种基于多尺度特征融合的闭环检测技术。

背景技术

闭环检测已成为移动机器人导航领域的一个关键问题和研究热点，特别是在同时定位与建图(SLAM)中，因为它可以减少机器人位姿估计的累积误差并构建全局一致性地图，这对于自主机器人的定位、建图和在大场景下进行导航、避障尤为重要。正确的闭环检测可以在姿势图中添加边缘约束，以帮助进一步优化机器人运动估计并构建一致性地图。错误的闭环检测将导致地图构建失败。因此，良好的闭环检测算法对于一致性地图乃至整个SLAM系统都至关重要。

基于视觉的闭环检测，也称为视觉重定位，是指机器人在导航过程中使用视觉传感器提供的图像来识别以前访问过的位置。近年来，学者们在基于视觉的闭环检测算法上进行了大量研究。传统算法可以大致分为两类：基于词袋(BoW)的方法和基于全局描述符的方法。

目前，基于词袋的方法是用于闭环检测的主流方法，其是指从场景图像中提取局部特征，并将它们聚类为多个“单词”；然后，基于这些“单词”以矢量的形式描述整个图像。因此，视觉闭环检测问题被转换为两张图像描述向量的相似性度量问题。基于词袋的方法的关键问题是如何选择图像的局部特征，常见的特征点提取算法有SIFT、SURF和ORB等。Rosten E等公开了一种用于高速角点检测的特征点提取方法，首先提取了FAST关键点，然后使用Brief计算描述符(Rosten E,Drummond T.Machine learning for high-speedcorner detection[C]//European conference on computer vision.Springer,Berlin,Heidelberg,2006:430-443)。对于一般的情况，可以通过直方图或汉明距离将词袋模型描述的图像进行一对一比较，并且当距离小于某个阈值时，确认检测到闭环。尽管词袋模型法取得了巨大的成功，但也存在许多缺陷：

①鲁棒性差，没法适应相机角度、光照强度变化大和存在障碍物遮挡的场景；这是由于，词袋模型运用的诸如SIFT、SURF和ORB等描述符，只能提取图像的局部特征，不具有全局性，只能表示某个特征的有无，无法描述特征之间的相对位置关系；因此，很难具有高的鲁棒性。

②迁移性差，字典需要提前由人工建立，并且建立的字典与特定环境极度相关，在一个场景中运行良好的方法很难在其它场景中达到同样的效果。因此，很难在不同场景之间扩展模型。

③效率低，特征提取、匹配流程复杂，且从图像中提取特征和构建特征向量需要花费大量的时间，这不利于某些对实时性能要求较高的SLAM系统；这是由于传统的闭环检测方法包含图像预处理、特征提取、外点筛除和建立特征向量等一系列流程，耗时巨大，对计算平台的性能要求较高，算法很难在嵌入式设备上实时运行。

张云洲等公开了基于栈式卷积自编码的是视觉SLAM闭环检测，利用自动编码器提取图像特征，并使用相似性测量矩阵来检测闭环，这在公共数据集上具有很高的准确性(张云洲,胡航,秦操,楚好,吴运幸.基于栈式卷积自编码的视觉SLAM闭环检测[J].控制与决策,2019,34(05):981-988)。

然而，无论传统的基于词袋模型的闭环检测方法，还是基于深度学习的闭环检测方法，均未考虑特征的多尺度性，只是在一个尺度上进行特征提取，不仅影响闭环检测效果，还进一步限制了其泛化能力，仍然难以实现训练模型在不同场景之间的有效迁移。

发明内容

针对目前适用于机器人导航的闭环检测方法存在的鲁棒性差、迁移性差等问题，提供一种多尺度特征融合的闭环检测方法，利用多尺度特征、单一的特征相似性度量等，能够提取图像中蕴含的高级、抽象和全局特征，通过多维特征相似性度量，旨在提高视觉闭环检测的准确率和鲁棒性。

本发明的发明思路为：根据当前采集的图像与较早拍摄的图像之间的相似性来确定两个时刻是否在同一位置。因此，本发明具有成对的输入，对应于两个分支，如图1所示。本发明分为三层：基础特征提取，多尺度特征提取-融合和多维相似性度量。基础特征提取层提取输入图像的基础特征。多尺度特征提取-融合层对提取的基础特征进行多尺度再提取和融合，得到图像的抽象特征。多维相似性度量层使用多维相似性度量方法来确定输入的两张图像是否形成闭环。两个分支在基础特征提取层和特征融合层结构上是相同的。

基于上述发明思路，本发明提供的多尺度特征融合的闭环检测系统，其包括分别对当前采集图像与历史采集的任一图像组成的相似性待匹配图像进行处理的基础特征提取模块和多尺度特征提取-融合模块，以及用于获取待匹配图像相似性得分的多维相似性度量模块；

基础特征提取模块结构相同，用于对相似性待匹配的图像进行基础特征提取；

多尺度特征提取-融合模块，位于基础特征提取模块的后面，用于对提取的基础特征进一步进行多尺度特征提取并进行融合得到相似性待匹配图像的高级特征；

多维相似性度量模块，用于分别获取相似性待匹配图像的高级特征各列的空间相似性向量、各行的通道相似性向量和全局相似性得分，并依据空间相似性向量、通道相似性向量和全局相似性得分通过全连接处理得到最终相似性得分。

上述基础特征提取模块可以采用常规CNN(Convolutional Neural Networks，卷积神经网络)，本发明采用的是VGG(Simonyan K,Zisserman A.Very deep convolutionalnetworks for large-scale image recognition[J].arXiv preprint arXiv:1409.1556,2014.)。与早期的CNN相比，VGG使用更深的网络模型来获取特征。它还增加了诸如ReLU激活函数，本地响应正则化(LRN)，Dropout等模块，可以降低过度拟合的风险。此外，网络上公开了其在多个大型数据集上的预训练权重。鉴于这些优点，本发明采用VGG-16模型的第5池化层的输出作为基础特征提取模块输出的图像特征表达，而舍弃了其后的全连接层。

上述多尺度特征提取-融合模块包括特征再提取单元、多尺度特征提取单元、转化单元、重构单元；所述特征再提取单元用于对提取的基础特征进行进一步特征提取和通道降维；所述多尺度特征提取单元包括多个并行设置的不同尺度的特征运算块和第一级联层，各特征运算块分别对特征再提取单元的输出进行不同尺度感受野的特征提取，并利用第一级联层将各特征运算块的输出在通道维度上进行级联；所述转化单元，用于将多尺度特征提取单元输出结果进行通道降维；所述重构单元包括多个并行设置的不同尺度的池化层和第二级联层，各池化层分别对转化单元输出特征进行不同尺度池化运算，并利用第二级联层将各池化层输出特征在空间维度上进行级联得到高级特征。所述特征再提取单元可以由一个以上的卷积层组成，当包含两个以上卷积层时，卷积层顺次设置即可；卷积层中过滤器的数量为64-256。所述多尺度特征提取单元包括3-6特征运算块；特征运算块由池化层或/和一个以上的卷积层组成；当包含两个以上卷积层时，卷积层顺次设置即可；卷积层中过滤器的数量为64-128。多个特征运算块分支输出经第一级联层级联以形成高维度特征。为了使级联后的高维度特征简化，以减小计算量，本发明进一步使用转化单元来对级联后的高纬度特征通道数进行降低维度；所述转化单元可以为采用滤波器数量为64-256的卷积层来实现。然后通过多个并行设置的不同尺度的池化层分别对转化单元输出特征进行池化运算，以实现空间金字塔(SPP)操作，进一步提炼特征中最为关键的信息。最后，将各池化层输出特征通过第二级联层在空间维度级联以重构得到用于相似性判断的高级特征。

上述多维相似性度量模块包括空间相似性度量单元、通道相似性度量单元、全局相似性度量单元、第三级联层和全连接层；所述空间相似性度量单元将两个待匹配图像高级特征的各对应列进行相似性分析，得到两个待匹配图像特征在每个通道上的空间相似性向量，并对该空间相似性向量进行压缩处理；所述通道相似性度量单元将两个待匹配图像高级特征的各对应行进行相似性分析，得到两个待匹配图像特征在各行的通道相似性向量，并对该通道相似性向量进行压缩处理；所述全局相似性度量单元将两个待匹配图像高级特征进行相似性分析，得到两个待匹配图像特征的全局相似性得分；第三级联层将压缩后的空间相似性向量、压缩后的通道相似性向量和全局相似性得分在通道维度上进行拼接得到最终相似性向量，并通过全连接层生成最终相似性得分。基于深度学习的闭环检测方法通常将图像映射到N维向量，然后通过L1范数、L2范数或余弦距离来度量两个向量的相似性。但是，这些方法具有严重的缺点。CNN卷积层的输出是包含多个通道的三维特征图，不仅包含前两个维度的空间信息，而且还包含第三个维度的通道信息。如果简单的将三维特征图简化为一维向量，然后判断相似度，则特征图中包含的空间信息和通道信息将丢失。为了解决这个问题，本发明提出了一种利用多维相似性度量模块将空间相似性、通道相似性和全局相似性相结合的多维相似性度量方法。本发明中，利用L2范数来度量两个特征的相似性。

L2范数的表达式如下：

其中，x_1i和x_2i分别代表两个N维向量的第i个元素。

卷积运算和池化操作的目的是提高感知能力，其在空间维度上提取多尺度信息，并在通道维度上执行特征融合。然而，卷积和池化以相同的权重融合输入特征图中的所有通道，无法区分每个通道的重要性。为了解决这个问题，本发明在多维相似性度量模块进行特征相似性度量之前引入了注意力机制。这里的注意力机制包括两个结构相同的注意力单元，分别对两个待匹配图像高级特征进行通道选择，使模型可以更多地关注信息量大的通道，同时抑制那些不重要通道的信息。

空间相似性度量单元用于获取两个特征的空间相似性，包括空间相似性计算子单元以及由一维卷积层和全局平均池化层组成的第一压缩子单元；具体操作为：首先空间相似性计算子单元利用L2范数将两个待匹配图像高级特征的各对应列进行相似性分析，得到两个待匹配图像特征在每个通道上的空间相似性向量；然后利用依次设置的一维卷积层和全局池化层，将空间相似性向量进行压缩处理。通道相似性度量单元与空间相似性度量单元的操作类似，包括通道相似性计算子单元以及由一维卷积层和全局平均池化层组成的第二压缩子单元；具体操作为：首先通道相似性计算子单元利用L2范数将两个待匹配图像高级特征的各对应行进行相似性分析，得到两个待匹配图像特征在各行的通道相似性向量；然后利用依次设置的一维卷积层和全局平均池化层，将通道相似性向量进行压缩处理。全局相似性度量单元，是利用L2范数直接对两个待匹配图像高级特征进行相似性分析，得到一个原始特征的L2范数相似性得分。最后，将压缩后的空间相似性向量、压缩后的通道相似性向量和全局相似性得分通过第三级联层级联以形成最终相似性向量，并通过全连接层形成最终相似性得分，依据该最终相似性得分便可确定两个待匹配图像图像是否来自同一位置。

以上多尺度特征提取-融合模块和多维相似性度量模块所使用的每个卷积层的卷积运算后均跟随有Dropout操作、BatchNormalization操作和LeakRelu的激活函数。

本发明进一步提供的一种多尺度特征融合的闭环检测方法，利用前面给出的基于多尺度特征融合的闭环检测系统，按照以下步骤操作：

S1分别对机器人当前采集图像与历史采集的任一图像组成的相似性待匹配图像进行基础特征提取；

S2分别对相似性待匹配图像对应的基础特征进行处理，得到对应的高级特征；

S3分别获取相似性待匹配图像的高级特征各列的空间相似性向量、各行的通道相似性向量和全局相似性得分，并依据空间相似性向量、通道相似性向量和全局相似性得分通过全连接处理得到最终相似性得分；

S4依据最终相似性得分判定机器人是否完成闭环检测。

上述步骤S2中，对基础特征处理的步骤如下：

S21对提取基础特征进行进一步特征提取和通道降维；

S22对步骤S21提取的特征进行不同尺度感受野的特征提取，并将提取结果在通道维度上进行级联；

S23对步骤S22得到的结果进行通道降维；

S24对步骤S23得到的输出特征进行不同尺度的池化运算，并将得到的结果在空间维度上进行级联得到高级特征。

上述步骤S3具体包括以下分步骤：

S31对两个待匹配图像高级特征的各对应列进行相似性分析，得到两个待匹配图像特征在每个通道上的空间相似性向量，并对该空间相似性向量进行压缩处理；

S32对两个待匹配图像高级特征的各对应行进行相似性分析，得到两个待匹配图像特征在各行的通道相似性向量，并对该通道相似性向量进行压缩处理；

S33对两个待匹配图像高级特征进行相似性分析，得到两个待匹配图像特征的全局相似性得分；

S34将压缩后的空间相似性向量、压缩后的通道相似性向量和全局相似性得分在通道维度上进行拼接得到最终相似性向量，并通过全连接处理生成最终相似性得分。

步骤S31中，利用L2范数将两个待匹配图像高级特征的各对应列进行相似性分析，得到两个待匹配图像特征在每个通道上的空间相似性向量；然后依次通过卷积运算和全局池化，将空间相似性向量进行压缩处理。

步骤S32中，利用L2范数将两个待匹配图像高级特征的各对应行进行相似性分析，得到两个待匹配图像特征在各行的通道相似性向量；然后依次通过卷积运算和全局池化，将通道相似性向量进行压缩处理。

步骤S33中，利用L2范数直接对两个待匹配图像高级特征进行相似性分析，得到一个原始特征的L2范数相似性得分。

上述步骤S4中，依据最终相似性得分判定机器人当前采集图像与历史采集的任一图像是否为闭环；进而判断机器人是否到达曾经到达过的地方，完成闭环检测。

本发明提供的多尺度特征融合的闭环检测系统及方法具有以下有益效果：

1)本发明考虑到图像不同感受野信息以及特征的不同维度信息等，利用基础特征提取模块、多尺度特征提取-融合模块和多维相似性度量模块构建了一个统一的端到端网络系统，相比于传统方法中将特征提取和相似性度量分开的策略，本发明能够直接输出闭环检测结果，且同时具有高准确率和较高的召回率，可以有效地对SLAM系统中机器人估计位姿进行修正，协助机器人在位姿丢失时的重定位，纠正机器人随时间增长的轨迹累积误差，构建全局一致性地图，从而让机器人获得更加精准的定位和更好的建图效果。

2)与基于单一尺度的传统方法不同，本发明为了最大化使用图像中的丰富信息，提出了可以利用图像不同感受野信息的多尺度特征提取-融合策略，包括使用不同尺度的特征运算块和不同尺度的池化层，不同尺度的特征运算块能够提取图像中不同感受野的高级特征，不同尺度的池化层能够进一步提炼特征中最为关键的信息。

3)与传统方法中单一维度相似性度量方法不同，本发明考虑到特征的几何特性,设计了结合空间相似性和通道相似性的多维相似性度量模块，来更全面地评估图像的相似性。

附图说明

图1为本发明多尺度特征特征融合的闭环检测系统原理框图。

图2为VGG-16网络结构示意图。

图3为多尺度特征提取-融合模块结构示意图。

图4为空间相似性度量单元原理示意图。

图5为三个维度的相似性计算原理示意图。

图6为注意力机制原理图。

图7为KITTI数据集部分样本。

图8为TUM数据集部分样本。

图9为KITTI数据集00序列的真实位姿3D视图(a)和闭环真值二值化矩阵(b)。

图10为KITTI数据集05序列的不同方法闭环测试得到的相似性矩阵；其中，(a)对应闭环真值二值化矩阵，(b)对应FabMap2.0测试得到的相似性矩阵，(c)为VGG-16测试得到的相似性矩阵，(d)为基于自编码器的闭环检测方法测试得到的相似性矩阵，(e)为本发明方法测试得到的相似性矩阵。

图11为KITTI数据集(02、05序列)和TUM数据集(fr3_office)的不同方法闭环测试得到的P-R曲线；其中，(a)对应KITTI02序列，(b)对应KITTI05序列，(c)对应TUM fr3_office。

具体实施方式

实施例1

本实施例提供的多尺度特征融合的闭环检测系统，如图1所示，其包括分别对当前采集图像与历史采集的任一图像组成的相似性待匹配图像进行处理的基础特征提取模块和多尺度特征提取-融合模块，以及用于获取待匹配图像相似性得分的多维相似性度量模块。本实施例中为了提高检测效率，分别设置了两个结构相同的基础特征提取模块和两个结构相同的多尺度特征提取-融合模块。

如图2所示，本实施例中，两个基础特征模块均采用VGG-16模型，以VGG-16模型的第5池化层的输出作为图像的特征表达，而舍弃了其后的全连接层。VGG-16模型具体网络结构参见Simonyan K,Zisserman A.Very deep convolutional networks for large-scaleimage recognition[J].arXiv preprint arXiv:1409.1556,2014。考虑到Places365-Standard数据集具有丰富的多场景图像，最终选择在其上训练的VGG-16网络权重作为预训练权重，并保持不变。

多尺度特征提取-融合模块位于基础特征提取模块的后面，用于对提取的基础特征进一步进行多尺度特征提取并进行融合得到相似性待匹配图像的高级特征。如图3所示，多尺度特征提取-融合模块包括特征再提取单元、多尺度特征提取单元、转化单元、重构单元。特征再提取单元用于对提取的基础特征进行进一步特征提取和通道降维；本实施例中，特征再提取单元由两个连续的卷积层a和卷积层b组成；卷积层a的核大小为c₁×c₁(c₁＝1)，滤波器数量为f₁＝128；卷积层b的核大小为c₂×c₂(c₂＝3)，滤波器数量为f₂＝64。多尺度特征提取单元包括多个并行设置的结构不同、通道维度相同的特征运算块和第一级联层；本实施例中，多尺度特征提取单元包括五个特征运算块(特征运算块a-特征运算块e)，特征运算块a由一个卷积层c(核大小为c₁×c₁、滤波器数量为f₃＝64)组成，特征运算块b由一个卷积层c和一个卷积层d(核大小c₂×c₂、滤波器数量为f₃＝64)顺次设置组成，特征运算块c由一个卷积层c和三个卷积层d顺次设置组成，特征运算块d由一个卷积层c和两个卷积层d顺次设置组成，特征运算块e由一个大小为p₁×p₁(p₁＝2)的池化层a组成；各特征运算块分别对特征再提取单元提取的特征进行不同尺度的运算，并利用第一级联层将4个卷积分支和池化分支输出在通道维度上进行级联以形成形状为H×W×5f₃(本实施例中为H×W×320)的高维特征(H和W是每个通道的特征的高度和宽度，随输入图像的大小而变化；320是通道数)。转化单元用于对多尺度特征提取单元输出结果进行通道降维；转化单元由一个卷积层e(核大小为c₁×c₁，滤波器数量为M＝128)组成，该卷积层e对第一级联层级联后的特征进行卷积运算。重构单元包括多个并行设置的不同尺度的池化层和第二级联层；本实施例中，重构单元包括三个池化层(池化层b-池化层d)，池化层b的大小为p₂×p₂(p₂＝2)，池化层c的大小为p₃×p₃(p₃＝4)，池化层c的大小为p₄×p₄(p₄＝8)，各池化层分别对转化单元输出特征分别进行池化运算，并利用第二级联层将3个池化层输出特征在空间维度上进行级联(级联后N＝N1+N2+N3，N1、N2和N3分别表示每个池化层输出的重构特征的空间维度)得到高级特征(即特征1和特征2)。

多维相似性度量模块包括两个结构相同的注意力单元、空间相似性度量单元、通道相似性度量单元、全局相似性度量单元、第三级联层和全连接层。本实施例中，两个注意力单元分别采用乘法注意力机制对特征1和特征2进行通道提取，使模型可以更多地关注信息量大的通道，同时抑制那些不重要通道的信息；如图6所示，所述注意力单元首先对输入的高级特征依次利用全局平均池化层、LeakRelu激活函数和Sigmoid函数进行处理，然后将处理结果与原始输入的高级特征进行相乘运算，所得结果进一步与原始输入的高级特征相加，完成对输入的高级特征的通道提取。空间相似性度量单元用于获取两个特征的空间相似性，包括空间相似性计算子单元以及由一维卷积层f(核大小为1、滤波器数量为k＝4)和全局平均池化层组成的第一压缩子单元；如图4所示，空间相似性计算子单元按照公式(1)利用L2范数将经注意力单元处理后的两个高级特征的各对应列(例如特征1和特征2的每一列是一个N维向量，特征1和特征2第一列与特征2的第一列比较，特征1的第二列与特征2的第二列比较，以此类推)进行相似性分析，每对N维向量会得到一个位于0至1之间的相似性得分，因此对于所有的列会得到一个M×1(本实施例中M＝128)的空间相似性向量，代表两个特征在每个通道上的空间相似性；然后利用依次设置的一维卷积层和全局池化层，将M维空间相似性向量进行压缩处理，得到k×1压缩后的空间相似性向量。通道相似性度量单元与空间相似性度量单元的操作类似，包括通道相似性计算子单元以及由一维卷积层f和全局平均池化层组成的第二压缩子单元，通道相似性计算子单元按照公式(1)利用L2范数将经注意力单元处理后的两个高级特征的各对应行进行相似性分析，得到两个特征在各行的通道相似性向量；然后利用依次设置的一维卷积层和全局池化层，将通道相似性向量进行压缩处理，同样得到一个k×1压缩后的通道相似性向量。全局相似性度量单元，是按照公式(1)利用L2范数直接对经注意力单元处理后的两个高级特征进行相似性分析，得到一个原始特征的L2范数相似性得分。最后，如图5所示，将压缩后的空间相似性向量、压缩后的通道相似性向量和全局相似性得分通过第三级联层级联以形成一个(2k+1)×1的最终相似性向量，并通过全连接层形成最终相似性得分，依据该最终相似性得分便可确定两张图像是否来自同一位置。

以上多尺度特征提取-融合模块和多维相似性度量模块所使用的每个卷积层的卷积运算之后都跟随比率为0.1的Dropout操作，BatchNormalization操作和α＝0.2的LeakRelu的激活函数(α是激活函数输入为负时的斜率)。

应用例

为了验证本发明对机器人移动闭环检测的有效性，本应用例在两个不同场景尺度的公开数据集上开展了实验，并将本发明方法与FabMap2.0、VGG-16和基于自编码器的闭环检测方法在多个评价指标下做了对比。实验使用了主频为2.8GHz的Intel Core i10处理器和NVIDIA GeForce GTX 2080Ti显卡。

(一)数据集

1、采用通过车载双目相机采集的大尺度场景KITTI数据集(论文：Fritsch J,Kuehnl T,Geiger A.A new performance measure and evaluation benchmark for roaddetection algorithms[C]//16th International IEEE Conference on IntelligentTransportation Systems(ITSC2013).IEEE,2013:1693-1700.网站：http://www.cvlibs.net/datasets/kitti/eval_odometry.php)。KITTI数据集由22个双目序列组成，部分数据集的样本如图7所示。选择其中包含真实里程计信息的00、01、02、03、04、05、06、07、09序列的左目图像用于实验。本应用例以KITTI数据集中样本形成样本对，来构建训练集和测试集。训练集采用00、01、03、04、06、07、09序列，测试集采用02、05序列。

2、为了验证算法的迁移性，又在采集自室内小尺度场景的TUM数据集(论文：Schubert D,Goll T,Demmel N,et al.The TUM VI benchmark for evaluating visual-inertial odometry[C]//2018IEEE/RSJ International Conference on IntelligentRobots and Systems(IROS).IEEE,2018:1680-1687.网站：https://vision.in.tum.de/data/datasets：)上展开实验。TUM数据集部分图像如图8所示。本应用例以TUM数据集中样本形成样本对，来构建训练集和测试集。训练集采用fr1_room、fr2_pioneer_slam、fr2_poineer_slam2和fr2_rpy序列，测试集采用fr3_office序列。

为了有监督地训练网络，必须提供训练数据的标签以指示两张图像是否为闭环。但是，由于KITTI数据集和TUM数据集仅提供每张图像的里程计信息，因此必须手动标记闭环标签。本应用例的标签值标记策略如公式(2)所示。

通过里程计信息，可以构建每帧图像的位姿矩阵T，T_i、T_j分别表示第i帧图像和第j帧图像的位姿矩阵。函数trans(·)和angle(·)分别代表位姿变换矩阵的平移和旋转部分。当相机位姿的平移分量不超过t₁米且旋转分量不超过t₂度时，将这两张图像视为闭环。对于KITTI数据集，t₁、t₂分别取6和15。对于TUM数据集，t₁、t₂分别取1和0.3。图9展示了KITTI数据集00序列的真实位姿3D视图和闭环真值二值化矩阵(即如图两个图像是闭环，值为1；两个图像对比不是闭环，值为0)。在(a)中，圆圈代表每个关键帧，轨迹交叉部分对应的关键帧表示闭环。在(b)中，矩阵的维数是数据集中的图像数量，矩阵中的1表示对应坐标的两帧是闭环，零表示非闭环。

(二)多尺度特征特征融合的闭环检测系统训练

本应用例，分别针对KITTI数据集和TUM数据集，使用相应的训练集按照下面给出方法训练出相应的多尺度特征融合的闭环检测系统。

上述多尺度特征融合的闭环检测系统，首先使用He Normal法初始化除基础特征提取模块以外其他可训练权重，然后按照以下训练步骤进行训练：

S1′采用基础特征提取模块分别对训练集中样本对的两个图像进行基础特征提取；

S2′采用多尺度特征提取-融合模块分别对样本对的两个图像的基础特征进行处理，得到对应的高级特征；对基础特征处理的步骤如下：

S21′利用特征再提取单元对提取基础特征进行进一步特征提取和通道降维；

S22′利用多个并行设置的不同尺度的特征运算块对特征再提取单元提取的特征进行运算，并利用第一级联层将各特征运算块的输出在通道维度上进行级联；

S23′利用转化单元对第一级联层输出的结果进行通道降维；

S24′利用重构单元并行设置的多个池化层对转化单元输出特征进行池化运算，再利用第二级联层将各池化层输出特征在空间维度上进行级联得到高级特征；

S3′依据样本对两个图像对应的高级特征，获取两者的相似性得分，具体包括以下分步骤：

S31′利用空间相似性度量单元将经注意力单元处理的两个高级特征的各对应列进行相似性分析，得到两个特征在每个通道上的空间相似性向量，并对该空间相似性向量进行压缩处理；

S32′利用通道相似性度量单元将经注意力单元处理的两个高级特征的各对应行进行相似性分析，得到两个特征在各行的通道相似性向量，并对该通道相似性向量进行压缩处理；

S33′利用全局相似性度量单元将经注意力单元处理的两个高级特征进行相似性分析，得到两个特征的全局相似性得分；

S34′利用第三级联层将压缩后的空间相似性向量、压缩后的通道相似性向量和全局相似性得分在通道维度上进行拼接得到最终相似性向量，并通过全连接层生成最终相似性得分；

S4′依据最终相似性得分与训练集中相应的闭环标签按照以下公式计算损失值：

其中，

表示输入训练样本对的第l对样本的闭环真实值标签，

表示输入训练样本对的第l对样本的最终相似性得分，d表示两个样本之间的距离(与相似性得分y_pred相反)，m为设定阈值，这里选用0.2，L为训练过程中输入系统的样本对个数。

S5′依据损失值，对系统参数进行优化。

本实施例使用反向传播算法来更新系统参数(这里系统参数包括除基础特征提取模块外的其他可训练的卷积层和全连接层等的权重)，具体采用随机梯度下降法(SGD)对系统参数进行优化(Ruder S.An overview of gradient descent optimizationalgorithms[J].arXiv preprint arXiv:1609.04747,2016.)。

重复上述步骤S1′-S5′，以不断的减小系统损失值，直至闭环检测系统表现收敛至良好且稳定(即损失值趋于稳定)的水平。

(三)多尺度特征特征融合的闭环检测系统测试

使用训练好的多尺度特征融合的闭环检测系统按照以下步骤对KITTI数据集和TUM数据集相应测试集中的样本对进行测试：

S1采用基础特征提取模块分别对测试集中样本对的两个待匹配图像进行基础特征提取；

S2采用多尺度特征提取-融合模块分别对两个待匹配图像对应的基础特征进行处理，得到对应的高级特征；对基础特征处理的步骤如下：

S21利用特征再提取单元对提取基础特征进行进一步特征提取和通道降维；

S22利用多个并行设置的不同尺度的特征运算块对特征再提取单元提取的特征进行运算，并利用第一级联层将各特征运算块的输出在通道维度上进行级联；

S23利用转化单元对第一级联层输出的结果进行通道降维；

S24利用重构单元并行设置的多个池化层对转化单元输出特征进行池化运算，利用第二级联层将各池化层输出特征在空间维度上进行级联得到高级特征；

S3依据两个待匹配图像对应的高级特征，获取两者的相似性得分，具体包括以下分步骤：

S31利用空间相似性度量单元将经注意力单元处理的两个高级特征的各对应列进行相似性分析，得到两个特征在每个通道上的空间相似性向量，并对该空间相似性向量进行压缩处理；

S32利用通道相似性度量单元将经注意力单元处理的两个高级特征的各对应行进行相似性分析，得到两个特征在各行的通道相似性向量，并对该通道相似性向量进行压缩处理；

S33利用全局相似性度量单元将经注意力单元处理的两个高级特征进行相似性分析，得到两个特征的全局相似性得分；

S34利用第三级联层将压缩后的空间相似性向量、压缩后的通道相似性向量和全局相似性得分在通道维度上进行拼接得到最终相似性向量，并通过全连接层生成最终相似性得分；

S4依据最终相似性得分作为闭环预测。

这里以最终相似性得分作为测试集中样本对的闭环预测标签值。

利用前面给出的训练集训练网络后，在测试集上分别与FabMap2.0闭环检测方法(Cummins M,Newman P.FAB-MAP:Probabilistic localization and mapping in thespace of appearance[J].The International Journal of Robotics Research,2008,27(6):647-665.)、基于自编码器的闭环检测方法(Gao X,Zhang T.Unsupervised learningto detect loops using deep neural networks for visual SLAM system[J].Autonomous robots,2017,41(1):1-18.)和直接利用VGG-16卷积输出通过L2范数来度量相似性的闭环检测方法进行对比。

本应用例采用的验证指标分别为在计算机视觉领域最为常用的：相似性矩阵和P-R曲线。

不同方法在KITTI数据集05序列上测试的相似性矩阵结果如图10所示，从结果中可以看出，与其它方法的相似性矩阵相比，本发明方法的相似性矩阵更接近真值矩阵。本发明方法的相似性矩阵中，黑色和白色像素之间存在明显的区别，这意味着该方法可以清楚地区分闭环图像和非闭环图像。相反，VGG-16和自编码器存在很多像素介于黑色和白色之间的像素，图像整体偏向灰色。这表明，二者只能识别相似度较高的图像，并且对图像外观的细微变化适应能力较差。而FabMap2.0的相似性矩阵，相比于其它方法存在大量的缺失，只有部分零散的线段，表明传统的基于“词袋模型”的闭环检测方法的检测能力很弱，远不如基于深度学习的方法。

不同方法在KITTI数据集(02、05序列)和TUM数据集(fr3_office)测试数据集中的P-R曲线结果如图11所示。好的算法需要同时具有高的准确率和召回率，因此P-R曲线应向右上方偏移。从结果中可以看出，基于深度学习的VGG-16、自编码器和本发明方法明显优于传统的基于词袋模型的FabMap2.0方法。同时，与VGG-16和自编码器相比,本发明方法也有很大的提升。

最后应当说明的是：以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解:本领域技术人员阅读本发明后依然可对发明的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在发明待批的权利要求保护范围之内。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解:本领域技术人员阅读本发明后依然可对发明的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在发明待批的权利要求保护范围之内。

Claims

1.一种多尺度特征融合的闭环检测系统，其特征在于，包括：分别对当前采集图像与历史采集的任一图像组成的相似性待匹配图像进行处理的基础特征提取模块和多尺度特征提取-融合模块，以及用于获取待匹配图像相似性得分的多维相似性度量模块；

基础特征提取模块，用于对相似性待匹配的图像进行基础特征提取；

多尺度特征提取-融合模块，用于对提取的基础特征进行多尺度特征提取并进行融合得到两个相似性待匹配图像的高级特征；

2.根据权利要求1所述多尺度特征融合的闭环检测系统，其特征在于所述基础特征提取模块采用VGG，以VGG-16模型的第5池化层的输出作为基础特征提取模块输出。

3.根据权利要求1所述多尺度特征融合的闭环检测系统，其特征在于所述多尺度特征提取-融合模块包括特征再提取单元、多尺度特征提取单元、转化单元、重构单元；所述特征再提取单元用于对提取的基础特征进行进一步特征提取和通道降维；所述多尺度特征提取单元包括多个并行设置的不同尺度的特征运算块和第一级联层，各特征运算块分别对特征再提取单元的输出进行不同尺度感受野的特征提取，并利用第一级联层将各特征运算块的输出在通道维度上进行级联；所述转化单元，用于将多尺度特征提取单元输出结果进行通道降维；所述重构单元包括多个并行设置的不同尺度的池化层和第二级联层，各池化层分别对转化单元输出特征进行不同尺度池化运算，并利用第二级联层将各池化层输出特征在空间维度上进行级联得到高级特征。

4.根据权利要求3所述多尺度特征融合的闭环检测系统，其特征在于所述特征再提取单元可以由一个以上的卷积层组成，当包含两个以上卷积层时，卷积层顺次设置即可；卷积层中过滤器的数量为64-256；所述多尺度特征提取单元包括3-6个特征运算块；特征运算块由池化层或/和一个以上的卷积层组成；当包含两个以上卷积层时，卷积层顺次设置即可；卷积层中过滤器的数量为64-128。

5.根据权利要求1所述多尺度特征融合的闭环检测系统，其特征在于所述多维相似性度量模块包括空间相似性度量单元、通道相似性度量单元、全局相似性度量单元、第三级联层和全连接层；所述空间相似性度量单元将两个待匹配图像高级特征的各对应列进行相似性分析，得到两个待匹配图像特征在每个通道上的空间相似性向量，并对该空间相似性向量进行压缩处理；所述通道相似性度量单元将两个待匹配图像高级特征的各对应行进行相似性分析，得到两个待匹配图像特征在各行的通道相似性向量，并对该通道相似性向量进行压缩处理；所述全局相似性度量单元将两个待匹配图像高级特征进行相似性分析，得到两个待匹配图像特征的全局相似性得分；第三级联层将压缩后的空间相似性向量、压缩后的通道相似性向量和全局相似性得分在通道维度上进行拼接得到最终相似性向量，并通过全连接层生成最终相似性得分。

6.根据权利要求5所述多尺度特征融合的闭环检测系统，其特征在于空间相似性度量单元包括空间相似性计算子单元以及由一维卷积层和全局平均池化层组成的第一压缩子单元；具体操作为：首先空间相似性计算子单元利用L2范数将两个待匹配图像高级特征的各对应列进行相似性分析，得到两个待匹配图像特征在每个通道上的空间相似性向量；然后利用依次设置的一维卷积层和全局池化层，将空间相似性向量进行压缩处理；通道相似性度量单元包括通道相似性计算子单元以及由一维卷积层和全局平均池化层组成的第二压缩子单元；具体操作为：首先通道相似性计算子单元利用L2范数将两个待匹配图像高级特征的各对应行进行相似性分析，得到两个待匹配图像特征在各行的通道相似性向量；然后利用依次设置的一维卷积层和全局池化层，将通道相似性向量进行压缩处理；全局相似性度量单元利用L2范数直接对两个待匹配图像特征进行相似性分析，得到一个原始特征的L2范数相似性得分。

7.一种多尺度特征融合的闭环检测方法，其特征在于包括以下步骤：

S4依据最终相似性得分判定机器人是否完成闭环检测。

8.根据权利要求7所述的多尺度特征融合的闭环检测方法，其特征在于步骤S2中，对基础特征处理的步骤如下：

S21对提取基础特征进行进一步特征提取和通道降维；

S23对步骤S22得到的结果进行通道降维；

9.根据权利要求7所述的多尺度特征融合的闭环检测方法，其特征在于步骤S3具体包括以下分步骤：

10.根据权利要求9所述的多尺度特征融合的闭环检测方法，其特征在于

步骤S31中，利用L2范数将两个待匹配图像高级特征的各对应列进行相似性分析，得到两个待匹配图像特征在每个通道上的空间相似性向量；然后依次通过卷积运算和全局池化，将空间相似性向量进行压缩处理；

步骤S32中，利用L2范数将两个待匹配图像高级特征的各对应行进行相似性分析，得到两个待匹配图像特征在各行的通道相似性向量；然后依次通过卷积运算和全局池化，将通道相似性向量进行压缩处理；