CN113377987B

CN113377987B - 基于ResNeSt-APW的多模块闭环检测方法

Info

Publication number: CN113377987B
Application number: CN202110511040.2A
Authority: CN
Inventors: 胡章芳; 欧俊雄; 吕润哲; 陈旭; 李天奎
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2023-03-28
Anticipated expiration: 2041-05-11
Also published as: CN113377987A

Abstract

本发明公开了一种基于ResNeSt‑APW的多模块闭环检测方法，包括在去除ResNeSt模型中的全局平均池化层及其之后的网络层，在此之后增加一个1×1大小的卷积层；之后添加APW对卷积后的特征图进行下采样计算，并采用ReLU激活函数对输出结果进行激活，所述APW对任意大小的特征图进行计算之后，都生成一个固定大小的特征图；采用LLE算法对输出特征进行降维，并将该特征展开为一个一维矩阵，进行相似度计算；在基于超级字典的基础上将超级字典与历史帧映射区域分为若干个小模块，在每个模块的首尾部分别选取一张图片；采用多线程的方式同时计算所选取的图片与当前图片的相似度。本发明在准确率‑召回率的性能上是具有优势的，同时，检索方式相比于超级字典等方法在耗时方面是有所提升的。

Description

基于ResNeSt-APW的多模块闭环检测方法

技术领域

本发明属于VSLAM领域，特别是一种基于ResNeSt-APW的多模块闭环检测方法。

背景技术

随着视觉同时定位与地图构建技术(Visual Simultaneous Localization andMapping，VSLAM)的不断发展，移动机器人、自动驾驶等领域取得了突破性的进展，使得我们的生活也变得更加便捷。

VSLAM是指机器人在未知环境中，实现环境感知，完善自身定位，以及路径规划。闭环检测是VSLAM中的重要模块之一，机器人通过采集到一张新的图像，判断它是否在历史帧序列中出现过，进而判断机器人是否进入某同一历史地点，或者在特征点匹配丢失后重新获取一个初始位置。基于深度学习的方法则是通过深度学习模型自主学习并提取图片深层次的特征，场景识别率的表现更好，但由于网络模型的不同，使得提取的图像特征的鲁棒性差异性较大，并且目前大多数卷积神经网络模型采取的是通过改变图像的大小，从而达到一个固定的输出维度，但这样往往会损失一些有用信息，影响闭环检测的精确度。同时，搜索检索图片的方法也影响着系统的实时性，超级字典检索方式极大的提高了图像检索的计算速率，但是在超级字典以及超级字典的映射区域仍然采用的是逐帧比较的方式，在目标区域检索相对耗时。

发明内容

为了解决上述问题，本发明提出了基于ResNeSt-APW的多模块闭环检测方法。在所设计的模型中，提出了一种自适应窗口方法(Adaptive Pooling Window,APW)，并与ResNeSt融合形成ResNeSt-APW模型，采用LLE进行降维，使得模型在不改变原始图像大小的情况下提取深层次的语义信息，并输出一个低维度的特征向量，并在基于超级字典的基础上设计了一种多模块随机检索的图像检索方法，通过对历史帧序列进行分段，产生多个历史帧模块，然后对每个模块的首尾同时进行检索图像，向历史帧序列模块中间进行逼近，使用多线程的方式进行计算，减少了计算时间，提升了闭环检测的实时性。

为了实现上述目的，本发明采用的技术方案是：基于ResNeSt-APW的多模块闭环检测方法，包括以下步骤：

S1，在ResNeSt模型的基础上，去除ResNeSt模型中的全局平均池化层及其之后的网络层，在此之后增加一个1×1大小的卷积层；主要作用是为了降低特征图的通道数。

S2，在所述1×1卷积层之后添加APW对卷积后的特征图进行下采样计算，并采用ReLU激活函数对输出结果进行激活，所述APW对任意大小的特征图进行计算之后，都生成一个固定大小的特征图，并不会将其展开成一个一维特征向量。

S3，采用LLE(Locally Linear Embedding,LLE)算法对所述S2处理后的输出特征进行降维，并将该特征展开为一个一维矩阵，进行相似度计算。

S4，在基于超级字典的基础上将超级字典与历史帧映射区域分为若干个小模块，在每个模块的首尾部分别选取一张图片。

S5，采用多线程的方式同时计算步骤S4所选取的图片与当前图片的相似度。

进一步，在上述方案中，每次选取的下一帧图片与前一帧图片的间隔是随机的。

进一步，上述设计的APW算法具体为，空间金字塔池化(Spatial PyramidPooling,SPP)模型与最大池化窗口(Max Pooling)的思想设计了一种自适应池化窗口，在对任意大小的特征图进行计算之后，都能够生成一个固定大小的特征图，并不会将其展开成一个一维特征向量。其中APW计算公式为：

h_new＝2*p_{APW_H}+h_in

w_new＝2*p_{APW_W}+w_in

其中

表示向下取整，/>

表示向上取整，K表示卷积核的大小，S表示步长，P表示填充数量，APW_h表示APW高度方向，APW_w表示APW宽度方向，n表示经过APW计算后的特征图的大小，in表示输入，h表示高，w表示宽，h_new表示填充之后特征图的高，w_new表示填充之后特征图的宽。

进一步，上述每个模块的首尾部分别选取一张图片具体为，首先将历史帧序列分为n个模块，之后设置2n个标志位分别用于指向每个模块的首尾，之后每次选取的图片则为标志位所指向的图片。

进一步，所述的采用LLE算法对模型的输出特征进行降维具体为，对模型的输出特征进行降维，使得降维后的特征的局部线性关系仍能保持不变，最后将该特征展开为一个一维矩阵，进行相似度计算。

进一步，上述多线程的方式同时计算选取的图片与当前图片的相似度，能够在计算相同图片数量的条件下，通过同时计算多张图片，有效地减少相似度计算的时间。

进一步，上述每次选取的下一帧图片与前一帧图片的间隔是随机的具体为，在超级字典模中，如果小模块中的首标志位的相似度大于尾标志位，则首标志位移动到下一帧，尾标志位向小模块中间移动，移动间距控制在5以内，具体的值是随机的，如果首标志位的相似度等于尾标志位的相似度，小模块的两个标记分别向小模块中间移动一帧，找到超级字典中与当前图片相似度最大的一帧F。在历史帧映射区，由于相邻帧的相似度总是相差不远的，所以在映射的区域中，通过比较F的前后相邻两帧的相似度的大小，可以判定F是否是需要寻找的帧。如果F的相似度大于其前后两帧的相似度，则F则是检测到的闭环的一帧；如果后一帧Flag_b的相似度最大时，判断其后一帧的相似度是否大于此时Flag_b的相似度，如果小于，则此时Flag_b是要寻找的帧，否则Flag_b向后移动一帧，而Flag_a则指向该模块的最后一帧，通过多模块随机法的方式找出相似度最大的一帧；如果前一帧Flag_a的相似度大于Flag_b时，则相反。

其中，F是指在超级字典中与当前图像相似度最大的一张图片，映射区域是指超级字典中与当前图片相似度最大的一帧F，并通过F的前后两帧映射出两帧在历史序列中包含的区域。

本发明的优点及有益效果如下：

针对于目前大多数卷积神经网络模型采取的是通过改变图像的大小，从而达到一个固定的输出维度，但这样往往会损失一些有用信息，影响闭环检测的精确度的问题，本发明提出了一种APW方法，并与ResNeSt融合形成ResNeSt-APW模型，采用LLE进行降维，使得模型在不改变原始图像大小的情况下提取深层次的语义信息，并输出一个低维度的特征向量；在图像检索方面，将在基于超级字典的基础上，采用多模块随机检索的方式检索图片，并采用多线程的方式同时计算多张图片的相似度，以此来减少闭环检测的耗时，提高系统的实时性。

通过在公开数据集City Centre、New College数据集以及KITTI数据集06序列包上测试，实验表明，ResNeSt-APW模型在不改变图像大小的情况下，能够提取图片更加丰富的深层次的语义信息，为了更明确地验证本模型对闭环检测的效果，将本发明提出的算法模型与其他神经网络模型的闭环检测方法进行对比，本发明提出的模型对闭环检测的准确率-召回率效果更好；同时，基于超级字典的基础上设计了一种新的图像检索方法--多模块随机检索法，通过对比不同数量历史帧序列的实验结果，结果显示，通过多个模块的多线程方式进行计算，本发明的方法优于超级字典、逐帧检索和随机帧检索三种检索方式。

附图说明

图1为ResNeSt-APW与LLE融合的整体框架图；

图2为超级字典多模块图；

图3为历史帧映射区域图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

如图1所示，本发明方案包括以下步骤：

S1，设计一种APW方法，在对任意大小的特征图进行计算之后，都能够生成一个固定大小的特征图，并不会将其展开成一个一维特征向量。

S2，去除ResNeSt模型中的全局平均池化层及其之后的网络层，在此之后增加了一个1×1大小的卷积层，主要作用是为了降低特征图的通道数。

S3，在1×1卷积层之后添加APW对卷积后的特征图进行下采样计算，生成一个固定大小的特征图，并采用ReLU激活函数对输出结果进行激活，其公式表示为：

f(x)＝max(0,x)

其中，x是输入，f(x)是经过ReLU激活函数之后的输出。

S4，采用LLE算法对模型的输出特征进行降维，使得降维后的特征的局部线性关系仍能保持不变，并将该特征展开为一个一维矩阵，进行相似度计算。

S5，在基于超级字典的基础上将超级字典与历史帧映射区分为多个小模块，在每个模块的首尾部分别选取一张图片。首先将超级字典分为n个模块，之后设置2n个标志位分别用于指向每个模块的首尾，之后每次选取的图片则为标志位所指向的图片。

S6，采用的是多线程的方式同时计算选取的图片与当前图片的相似度，能够在计算相同图片数量的条件下，通过同时计算多张图片，有效地减少相似度计算的时间。

S7，每次选取的下一帧图片与前一帧图片的间隔是随机的。为方便阐述，如图2所示，假设将含有n张图片的超级字典分为a、b两段，在第一次对四个标志位对应的图片进行相似度计算后，分别比较Flag_ah与Flag_ae，Flag_bh与Flag_be的相似度大小。如果a模块中的Flag_ah的相似度大于Flag_ae，则Flag_ah移动到下一帧，Flag_ae向a模块中间移动，移动间距控制在5以内，具体的值是随机的，如果Flag_bh的相似度等于Flag_ae的相似度，b模块的两个标记分别向b模块中间移动一帧。通过四个标志在两个模块内的比较，能够找出两个模块中相似度的最大值，最后通过比较这两个最大值，找到超级字典中与当前图片相似度最大的一帧F，并通过F的前后两帧映射出两帧在历史序列中包含的区域，如图3所示。由于相邻帧的相似度总是相差不远的，所以在映射的区域中，通过比较F的前后相邻两帧的相似度的大小，可以判定F是否是需要寻找的帧。如果F的相似度大于其前后两帧的相似度，则F则是检测到的闭环的一帧；如果后一帧Flag_b的相似度最大时，判断其后一帧的相似度是否大于此时Flag_b的相似度，如果小于，则此时Flag_b是要寻找的帧，否则Flag_b向后移动一帧，而Flag_a则指向该模块的最后一帧，通过多模块随机法的方式找出相似度最大的一帧；如果前一帧Flag_a的相似度大于Flag_b时，则相反。

其中，Flag_ah、Flag_ae、Flag_bh、Flag_be是指超级字典中a、b模块中的标志位。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.基于ResNeSt-APW的多模块闭环检测方法，其特征在于，包括以下步骤：

S1，在ResNeSt模型的基础上，去除ResNeSt模型中的全局平均池化层及其之后的网络层，在此之后增加一个1×1大小的卷积层；

S2，在所述1×1卷积层之后添加APW对卷积后的特征图进行下采样计算，并采用ReLU激活函数对输出结果进行激活，所述APW对任意大小的特征图进行计算之后，都生成一个固定大小的特征图；所述APW的计算公式为：

h_new＝2*p_{APW_h}+h_in

w_new＝2*p_{APW_W}+w_in

其中

表示向下取整，/>

表示向上取整，K表示卷积核的大小，S表示步长，P表示填充数量，APW_h表示APW高度方向，APW_w表示APW宽度方向，n表示经过APW计算后的特征图的大小，in表示输入，h表示高，w表示宽，h_new表示填充之后特征图的高，w_new表示填充之后特征图的宽；

S3，采用LLE算法对所述S2处理后的输出特征进行降维，并将该特征展开为一个一维矩阵，进行相似度计算；

S4，在基于超级字典的基础上将超级字典与历史帧映射区域分为若干个小模块，在每个模块的首尾部分别选取一张图片；

2.根据权利要求1所述基于ResNeSt-APW的多模块闭环检测方法，其特征在于：所述采用ReLU激活函数对输出结果进行激活为

f(x)＝max(0,x)

其中，x是输入，f(x)是经过ReLU激活函数之后的输出。

3.根据权利要求1所述基于ResNeSt-APW的多模块闭环检测方法，其特征在于：所述步骤S4中在每个模块的首尾部分别选取一张图片，具体包括首先将历史帧序列分为n个模块，设置2n个标志位分别用于指向每个模块的首尾，之后每次选取的图片则为标志位所指向的图片。

4.根据权利要求1-3任一项所述基于ResNeSt-APW的多模块闭环检测方法，其特征在于：还包括每次选取的下一帧图片与前一帧图片的间隔是随机的。

5.根据权利要求4所述基于ResNeSt-APW的多模块闭环检测方法，其特征在于：在所述超级字典中，如果小模块中的首标志位的相似度大于尾标志位，则首标志位移动到下一帧，尾标志位向小模块中间移动，移动间距为5以内的随机值，如果首标志位的相似度等于尾标志位的相似度，小模块的两个标记分别向小模块中间移动一帧，找到超级字典中与当前图片相似度最大的一帧F。

6.根据权利要求5所述基于ResNeSt-APW的多模块闭环检测方法，其特征在于：在所述历史帧映射区域，判定F是否是需要寻找的帧，如果F的相似度大于其前后两帧的相似度，则F是检测到的闭环的一帧；如果后一帧Flag_b的相似度最大时，判断其后一帧的相似度是否大于此时Flag_b的相似度，如果小于，则此时Flag_b是要寻找的帧，否则Flag_b向后移动一帧，而Flag_a则指向该模块的最后一帧，通过多模块随机法的方式找出相似度最大的一帧；如果前一帧Flag_a的相似度大于Flag_b时，则相反。

7.根据权利要求5所述基于ResNeSt-APW的多模块闭环检测方法，其特征在于：所述历史帧映射区域为F的前后两帧映射在历史序列中所包含的区域。