CN112419317B

CN112419317B - 一种基于自编码网络的视觉回环检测方法

Info

Publication number: CN112419317B
Application number: CN202011472443.2A
Authority: CN
Inventors: 于瑞云; 李张杰; 张倩妮; 杨骞
Original assignee: 东北大学
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-02-02
Anticipated expiration: 2040-12-15
Also published as: CN112419317A

Abstract

一种基于自编码网络的视觉回环检测方法，包括：1、获取一张图像；2、计算该图像的记忆性得分，与设定的记忆性得分阈值进行比较，确定是否保留该图像，确定关键帧；3、将筛选出的关键帧输入到已经训练好的卷积自编码网络中，获取降噪后的GIST全局特征f；4、从特征数据库中取出一个特征f_pre，计算f_pre与f这俩特征向量的余弦相似度，与设定相似度的阈值为进行比较，确定该帧是否为候选帧，进行回环验证；5、在回环验证阶段，在完成空间一致性验证前提下，进行时间一致性验证，连续运动过程中一张图像满足回环条件，成为回环候选帧，则在某个时间范围内，获取的关键帧必须都成为候选帧，满足上述条件才可最终确定回环的出现。

Description

一种基于自编码网络的视觉回环检测方法

技术领域

本发明属于视觉SLAM领域，具体涉及一种基于自编码网络的视觉回环检测方法。

背景技术

视觉回环检测是VSLAM(visual simultaneous localization and mapping，视觉即时定位与地图构建)中的关键模块，在一个完整的视觉SLAM过程中，视觉SLAM在开始运行之前，需要对相机进行标定工作，目的是确定相机的内参，SLAM系统开始运行后，相机获取当前环境的图像数据，前端视觉里程计模块通过相邻两帧图像计算相机的运动并估计出局部地图，从平面图像恢复出深度信息；视觉回环检测从图像相似性的角度判断相机是否运动到历史地点，如果出现回环，将这个可优化信息提供给后端优化模块；后端优化模块接受视觉里程计估算的每两帧图像之间的运动和回环的信息，进行非线性优化；建图模块则是按照SLAM应用任务的需求和已获得的路标信息，建立对应的地图。

回环检测根据数据关联方式的不同可以概括成三类：1)基于地图与地图间的匹配方法：考虑两个子地图中的特征之间的相互对应关系，包括特征的外观匹配和相对几何位置的匹配；2)基于图像与地图的匹配方法：解出从相机获取的当前图像与地图中的特征的对应关系，此方法需要高质量的度量地图和递增的内存空间；3)基于图像与图像的匹配方法：求解当前相机获取的图像与先前获取的图像之间的对应关系，通过比较图像特征的相似性来判断结果来自同一位置的可能性，减小错误回环检测的概率。由于地图点的估计本身具有误差，无法从根本上解决累积误差问题，来自加拿大魁北克省谢布克大学的M.Labbe在论文中证明了基于图像与图像匹配的回环检测方法更适用于较大场景的SLAM需求，所以通过提取当前时刻所获得的图像的特征与先前存储的图像的特征进行匹配，当两者的相似度达到一定的阀值时，可以判定为回环检测的候选帧，当连续几帧均为候选帧时，可判定出现了轨迹回环。

在视觉SLAM过程产生的累计漂移现象中，可能会出现已经到达历史地点，但是轨迹并不是闭合的情况。视觉回环检测通过匹配图像信息来判定运动轨迹是否出现回环，从而进行轨迹的修正来减少运动过程中构建地图产生的误差，从而解决累计漂移现象。影响回环检测性能的情况主要有以下几种：1)图像拍摄过程中光照变化及拍摄视角变化引起的噪声问题；2)无法准确辨别图像帧之间的相关性，导致机器人无法正确的估计当前的回环状态。

发明内容

针对现有技术存在的问题，本发明提供一种基于自编码网络的视觉回环检测方法，能够减少图像拍摄过程中光照变化及拍摄视角变化引起的噪声对回环检测的影响，提高回环检测的精度与效率，从而增强回环检测系统的鲁棒性。

本发明的技术方案为，首先获取一张图像，计算其记忆性得分来进行关键帧筛选，剔除不满足阈值的图像，再根据已经训练的卷积自编码网络CSE-Net来获得降噪后的GIST全局特征，并将该GIST全局特征与特征数据库中的特征进行对比，看是否满足空间上的一致性，若满足，还需对比在某个时间范围内，视觉传感器获取的关键帧均成为候选帧，此时满足时间一致性，可判定为出现回环。

一种基于自编码网络的视觉回环检测方法，其关键步骤如下所述：

步骤1：使用摄像机或者其它视觉传感器从场景中获取一张图像；

步骤2：通过设计的SRM-Net网络来计算该图像的记忆性得分S_m，设定记忆性得分阈值T_m，当S_m<T_m时，丢弃该图像，并重新获得一张新的图像；当S_m≥T_m时，保留该图像，确定为筛选出来的关键帧I，进行下一步操作；

步骤3：将筛选出来的关键帧I输入到已经训练好的卷积自编码网络CSE-Net中，获取降噪后的GIST全局特征f；

步骤4：从特征数据库中取出一个特征f_pre，计算f_pre与降噪后的GIST全局特征f这俩特征向量的余弦相似度c，设定相似度的阈值为D，当c<D时，说明降噪后的GIST全局特征f与特征数据库中取出的特征f_pre差别大，则将该关键帧I的GIST全局特征添加到特征数据库中，并再次从特征数据库中取出下一个特征仍记作f_pre，继续进行计算与对比，若特征数据库中初始时没有特征存储，则直接将该降噪后的GIST全局特征f添加到特征数据库中；当c≥D时，说明降噪后的GIST全局特征f与特征数据库中取出的特征f_pre差别小，此时认为可能发生了轨迹闭环，确定该帧为候选帧，进一步进行回环验证；

步骤5：在回环验证阶段，需考虑空间一致性和时间一致性，空间一致性已经使用特征的相似程度进行了验证，进行时间一致性验证时，当视觉传感器的连续运动过程中一张图像满足回环条件，成为回环候选帧，则在某个时间范围内，视觉传感器获取的关键帧必须都成为候选帧，满足上述条件才可最终确定回环的出现。

上述一种基于自编码网络的视觉回环检测方法，其中：

所述步骤2中，设计的SRM-Net网络为经典ResNet50网络的改进版，即在瓶颈分支及跳层连接外增加了空间注意力分支；其中，所述的空间注意力分支为五层的小型自编码网络；首先尺寸为W×H×C的特征图经过C/r个1×1的卷积操作进行降维，获得尺寸为W×H×C/r的特征图，其中，W、H和C依次为宽、高和通道数，r为降维的倍数，C/r为正整数，然后经过最大池化操作，将特征图的尺寸缩小为1/2W×1/2H×C/r，再然后通过C/r个3×3的卷积核，进行卷积操作得到1/2W×1/2H×C/r的空间注意力特征图，随后经过一个双线性插值上采样操作，将特征图尺寸放大为W×H×C/r，最后经过C个1×1的卷积操作进行升维，最终得到W×H×C的注意力特征图，与输入的特征图尺寸一致，且该特征图经过一个Sigmoid函数进行激活，使每个点的输出映射到0-1之间来表示每个点的注意力权重。当空间注意力分支的输出与瓶颈分支的输出进行对应位置的相乘后，可视为使用空间注意力进行特征的进一步提取与融合，将融合后的结果与跳层连接的结果加和，并通过relu激活后输出。

所述步骤3中，卷积自编码网络CSE-Net需要先进行训练才可以使用，采用无监督的模式进行学习。分别针对光照噪声和视角噪声来准备数据。对于光照噪声数据集，准备光照强度不同的图像数据，可选择同一地点，不同时间拍摄的图像对，一张作为CSE-Net的网络输入，另一张提取GIST全局特征作为标签进行学习；针对视角噪声的数据集，选取一张图像进行随机投影变换后，得到图像对，随机选取一张图像作为网络输入，另一张提取GIST全局特征作为网络的标签。

本发明的有益效果为：

在回环检测任务前增加了关键帧提取，通过计算图像的记忆性来筛减关键帧的数量，从而降低关键帧与特征数据库中匹配的难度，将适合作为场景表示的图像选择出来，输入到回环检测算法当中进行后续处理，既减轻了地图的存储代价，又去除了易混淆的情况，提高了回环检测的准确性和鲁棒性；通过将图像的光照变化和视角变换视为图像的噪声，利用卷积自编码网络CSE-Net对图像进行降噪，使用无监督学习方法训练，并提取得到图像降噪后的GIST全局特征作为图像的压缩特征表示，计算当前特征与关键帧特征数据库中特征的相似度，在满足时间一致性的条件下，实现回环检测的功能，提高了回环检测的效率及准确性。

附图说明

图1为本发明的基于自编码网络的视觉回环检测方法的流程图。

图2为本发明具体实施方式中空间注意力残差网络结构SRM_block示意图。

图3为本发明具体实施方式中空间注意力分支的结构示意图。

图4为本发明具体实施方式中GIST特征提取示意图。

图5为本发明具体实施方式中CSE-Net的网络结构。

图6为具体实施方式中小型在线回环检测系统示意图。

具体实施方式

下面将结合附图和具体实施方式，对本发明作进一步描述。

如图1所示，本发明的一种基于自编码网络的视觉回环检测方法，包括下述步骤：

步骤1：利用摄像机对场景进行实时摄像，获取实时的场景图像。

步骤2：将输入图像长宽比保持不变进行缩放，尺寸调整为224×224×3大小，计算三通道的均值来进行归一化，并添加高斯扰动噪声，通过设计的SRM-Net网络来计算该图像的记忆性得分S_m；其中，SRM-Net网络结构如表1所示；

表1 SRM-Net网络结构

具体为，将尺寸为224×224×3的图像输入到SRM-Net网络中后，首先通过一个3×3，步长为2，个数为32的卷积下采样得到一个尺寸为112×112×32的特征图，依次使用两个3×3的卷积进行进一步学习，使用最大池化操作，此时特征图大小为56×56×64。接下来将特征图输入到SRM block(空间残差块)中，共有四个SRM block结构，如上表所示，每个SRMblock都包含[2,2,3,2]个SRM模块。每个SRM block中的第一个SRM模块使用了2个步长的卷积降低特征图尺寸，并且在跳跃连接分支上使用了1×1卷积对输入特征图进行升维操作，使得瓶颈分支和空间注意力分支输出的特征通道数相同，方便叠加操作的实现。经过四个SRM block结构后，得到尺寸为7×7×2048的特征图，最终通过7×7的平均池化操作及变平操作(Flatten)后变为1维向量，然后经过一个全连接层，输出记忆性得分S_m，在训练过程中使用均方差损失公式如下：

式中，L代表损失，N代表计算损失项的个数，为得分标签，y为预测的记忆性得分S_m。

使用SRM-Net网络来实现对特征图不同位置的差别学习，代表图像的空间差异性对特征的影响，设定记忆性得分阈值T_m＝0.5，当S_m<T_m时，丢弃该记忆性弱的图像；当S_m≥T_m时，保留该记忆性强的图像，进行下一步操作。

本实施例中，设计的空间注意力残差网络结构SRM_block如图2所示，特别地，其空间注意力分支如图3所示，是一个五层的小型自编码结构，其输入与输出的尺寸一致。

步骤3：训练卷积自编码网络CSE-Net，并通过CSE-Net来获取降噪后的GIST全局特征；

步骤3.1：在训练时将图像分为R，G，B三通道图像，每个单通道图像划分为4×4共16个图像块；使用3个尺度，方向分别为[4,8,8]的Gabor滤波器组对每个图像块进行卷积滤波，得到块GIST的特征，将每个单通道图像的块GIST特征组合成一个320维的行向量，将三个通道的GIST特征组合，得到960维的GIST全局特征。使用GIST全局特征作为标签，采用加了光照噪声和视角噪声的图片作为输入来进行训练。

步骤3.2：将筛选出来的关键帧I裁剪为224×224×3，输入到已经训练好的卷积自编码网络CSE-Net中，如下表2所示，依次经过Conv1、Pool1、Conv2、Pool2、Conv3、Pool3、FC1、FC2、FC3，最终得到降噪后的960维的GIST全局特征。

表2 CSE-Net网络结构

层	参数	输出特征图尺寸
			input		224×224×3
Conv1	卷积核：3×3，步长＝1，填充＝1	224×224×32
			Pool1	3×3，步长＝2	112×112×32
Conv2	卷积核：3×3，步长＝2，填充＝2	57×57×64
			Pool2	2×2，步长＝1	56×56×64
Conv3	卷积核：3×3，步长＝2，填充＝1	28×28×128
			Pool3	2×2，步长＝2	14×14×128
FC1		6272
			FC2		1620
FC3		960

本实施例中，如图4所示为GIST特征提取示意图，使用多尺度多方向的Gabor滤波器可以从不同角度提取图像特征，从而得到GIST全局特征。卷积自编码网络CSE-Net的网络结构如图5所示。

步骤4：将自编码网络CSE-Net获得的GIST全局特征与特征数据库中的特征进行对比，使用余弦相似度计算特征向量的距离c度量，

式中，两个n维向量分别为(x₁₁,x₁₂,……x_1n)与(x₂₁,x₂₂,……x_2n)。

设定相似度的阈值为D＝0.9，当c<D时，说明降噪后的GIST全局特征f与特征数据库中取出的特征f_pre差别大，则将该关键帧I的GIST全局特征添加到特征数据库中，并再次从特征数据库中取出下一个特征仍记作f_pre，继续进行计算与对比，若特征数据库中初始时没有特征存储，则直接将该降噪后的GIST全局特征f添加到特征数据库中；当c≥D时，说明降噪后的GIST全局特征f与特征数据库中取出的特征f_pre差别小，此时认为可能发生了轨迹闭环，确定该帧为候选帧，进一步进行回环验证。

步骤5：在回环验证阶段，系统设置检测到回环的阈值D＝0.9，最小回环验证帧数为3，最大回环验证范围为6，即在6个关键帧范围内必须至少有3个图像帧被检测为回环候选帧，系统才会判定回环出现。

本实施例中，在KITTI自动驾驶评测数据集进行试验，效果如图6所示，使用rviz可视化界面，在视觉SLAM中的效果良好，其中灰色代表轨迹，黑色方框代表检测出回环的位置。

综上所述，本发明的基于关键帧筛选的卷积自编码网络回环检测方法能够有效的减少特征图的数量，减小特征的比对复杂度，提升回环检测的效率，增强回环检测的鲁棒性，从而使视觉SLAM即时定位与建图过程的精确度进一步提升。

Claims

1.一种基于自编码网络的视觉回环检测方法，其特征在于，按如下步骤进行：

步骤1：使用视觉传感器从场景中获取一张图像；

设计的SRM-Net网络为ResNet50网络的改进版，即在瓶颈分支及跳层连接外增加了空间注意力分支；其中，所述的空间注意力分支为五层的小型自编码网络；首先尺寸为W×H×C的特征图经过C/r个1×1的卷积操作进行降维，获得尺寸为W×H×C/r的特征图，其中W、H和C依次为宽、高和通道数，r为降维的倍数，C/r为正整数，然后经过最大池化操作，将特征图的尺寸缩小为1/2W×1/2H×C/r，再然后通过C/r个3×3的卷积核进行卷积操作得到1/2W×1/2H×C/r的空间注意力特征图，随后经过一个双线性插值上采样操作，将特征图尺寸放大为W×H×C/r，最后经过C个1×1的卷积操作进行升维，最终得到W×H×C的注意力特征图，与输入的特征图尺寸一致，且该特征图经过一个Sigmoid函数进行激活，使每个点的输出映射到0-1之间来表示每个点的注意力权重；当空间注意力分支的输出与瓶颈分支的输出进行对应位置的相乘后，可视为使用空间注意力进行特征的进一步提取与融合，将融合后的结果与跳层连接的结果加和，并通过relu激活后输出；

通过设计的SRM-Net网络来计算该图像的记忆性得分S_m的过程中，使用的均方差损失公式如下：

式中，L代表损失，N代表计算损失项的个数，为得分标签，y为预测的记忆性得分S_m；

步骤4：从特征数据库中取出一个特征f_pre，计算f_pre与降噪后的GIST全局特征f这俩特征向量的余弦相似度c，设定相似度的阈值为D，当c<D时，说明降噪后的GIST全局特征f与取出的特征f_pre差别大，则将该关键帧I的GIST全局特征添加到特征数据库中，并再次从特征数据库中取出下一个特征仍记作f_pre，继续进行计算与对比，若特征数据库中初始时没有特征存储，则直接将该降噪后的GIST全局特征f添加到特征数据库中；当c≥D时，说明降噪后的GIST全局特征f与取出的特征f_pre差别小，此时认为可能发生了轨迹闭环，确定该帧为候选帧，进一步进行回环验证；

步骤5：在回环验证阶段，需考虑空间一致性和时间一致性，空间一致性已经使用特征的相似程度进行了验证，进行时间一致性验证时，当视觉传感器的连续运动过程中一张图像满足回环条件，成为回环候选帧，则在某个时间范围内，视觉传感器获取的关键帧必须都成为候选帧，满足上述条件才可最终确定回环的出现；具体的，系统设置检测到回环的阈值D＝0.9，最小回环验证帧数为3，最大回环验证范围为6，即在6个关键帧范围内必须至少有3个图像帧被检测为回环候选帧，系统才会判定回环出现。

2.根据权利要求1所述的视觉回环检测方法，其特征在于，所述步骤3中，将筛选出来的关键帧I输入到已经训练好的卷积自编码网络CSE-Net中，获取降噪后的GIST全局特征f；包括：

在训练卷积自编码网络CSE-Net时将图像分为R，G，B三通道图像，每个单通道图像划分为4×4共16个图像块；使用3个尺度，方向分别为[4,8,8]的Gabor滤波器组对每个图像块进行卷积滤波，得到块GIST的特征，将每个单通道图像的块GIST特征组合成一个320维的行向量，将三个通道的GIST特征组合，得到960维的GIST全局特征，使用GIST全局特征作为标签，采用加了光照噪声和视角噪声的图片作为输入来进行训练。

3.根据权利要求2所述的视觉回环检测方法，其特征在于，所述步骤4中，将自编码网络CSE-Net获得的GIST全局特征f与特征数据库中的特征f_pre进行对比，计算这俩特征向量的余弦相似度c的公式如下：

式中，(x₁₁,x₁₂,……x_1n)与(x₂₁,x₂₂,……x_2n)分别为两个n维向量。