CN113377987B - 基于ResNeSt-APW的多模块闭环检测方法 - Google Patents
基于ResNeSt-APW的多模块闭环检测方法 Download PDFInfo
- Publication number
- CN113377987B CN113377987B CN202110511040.2A CN202110511040A CN113377987B CN 113377987 B CN113377987 B CN 113377987B CN 202110511040 A CN202110511040 A CN 202110511040A CN 113377987 B CN113377987 B CN 113377987B
- Authority
- CN
- China
- Prior art keywords
- apw
- frame
- module
- similarity
- flag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于ResNeSt‑APW的多模块闭环检测方法,包括在去除ResNeSt模型中的全局平均池化层及其之后的网络层,在此之后增加一个1×1大小的卷积层;之后添加APW对卷积后的特征图进行下采样计算,并采用ReLU激活函数对输出结果进行激活,所述APW对任意大小的特征图进行计算之后,都生成一个固定大小的特征图;采用LLE算法对输出特征进行降维,并将该特征展开为一个一维矩阵,进行相似度计算;在基于超级字典的基础上将超级字典与历史帧映射区域分为若干个小模块,在每个模块的首尾部分别选取一张图片;采用多线程的方式同时计算所选取的图片与当前图片的相似度。本发明在准确率‑召回率的性能上是具有优势的,同时,检索方式相比于超级字典等方法在耗时方面是有所提升的。
Description
技术领域
本发明属于VSLAM领域,特别是一种基于ResNeSt-APW的多模块闭环检测方法。
背景技术
随着视觉同时定位与地图构建技术(Visual Simultaneous Localization andMapping,VSLAM)的不断发展,移动机器人、自动驾驶等领域取得了突破性的进展,使得我们的生活也变得更加便捷。
VSLAM是指机器人在未知环境中,实现环境感知,完善自身定位,以及路径规划。闭环检测是VSLAM中的重要模块之一,机器人通过采集到一张新的图像,判断它是否在历史帧序列中出现过,进而判断机器人是否进入某同一历史地点,或者在特征点匹配丢失后重新获取一个初始位置。基于深度学习的方法则是通过深度学习模型自主学习并提取图片深层次的特征,场景识别率的表现更好,但由于网络模型的不同,使得提取的图像特征的鲁棒性差异性较大,并且目前大多数卷积神经网络模型采取的是通过改变图像的大小,从而达到一个固定的输出维度,但这样往往会损失一些有用信息,影响闭环检测的精确度。同时,搜索检索图片的方法也影响着系统的实时性,超级字典检索方式极大的提高了图像检索的计算速率,但是在超级字典以及超级字典的映射区域仍然采用的是逐帧比较的方式,在目标区域检索相对耗时。
发明内容
为了解决上述问题,本发明提出了基于ResNeSt-APW的多模块闭环检测方法。在所设计的模型中,提出了一种自适应窗口方法(Adaptive Pooling Window,APW),并与ResNeSt融合形成ResNeSt-APW模型,采用LLE进行降维,使得模型在不改变原始图像大小的情况下提取深层次的语义信息,并输出一个低维度的特征向量,并在基于超级字典的基础上设计了一种多模块随机检索的图像检索方法,通过对历史帧序列进行分段,产生多个历史帧模块,然后对每个模块的首尾同时进行检索图像,向历史帧序列模块中间进行逼近,使用多线程的方式进行计算,减少了计算时间,提升了闭环检测的实时性。
为了实现上述目的,本发明采用的技术方案是:基于ResNeSt-APW的多模块闭环检测方法,包括以下步骤:
S1,在ResNeSt模型的基础上,去除ResNeSt模型中的全局平均池化层及其之后的网络层,在此之后增加一个1×1大小的卷积层;主要作用是为了降低特征图的通道数。
S2,在所述1×1卷积层之后添加APW对卷积后的特征图进行下采样计算,并采用ReLU激活函数对输出结果进行激活,所述APW对任意大小的特征图进行计算之后,都生成一个固定大小的特征图,并不会将其展开成一个一维特征向量。
S3,采用LLE(Locally Linear Embedding,LLE)算法对所述S2处理后的输出特征进行降维,并将该特征展开为一个一维矩阵,进行相似度计算。
S4,在基于超级字典的基础上将超级字典与历史帧映射区域分为若干个小模块,在每个模块的首尾部分别选取一张图片。
S5,采用多线程的方式同时计算步骤S4所选取的图片与当前图片的相似度。
进一步,在上述方案中,每次选取的下一帧图片与前一帧图片的间隔是随机的。
进一步,上述设计的APW算法具体为,空间金字塔池化(Spatial PyramidPooling,SPP)模型与最大池化窗口(Max Pooling)的思想设计了一种自适应池化窗口,在对任意大小的特征图进行计算之后,都能够生成一个固定大小的特征图,并不会将其展开成一个一维特征向量。其中APW计算公式为:
hnew=2*pAPW_H+hin
wnew=2*pAPW_W+win
其中表示向下取整,/>表示向上取整,K表示卷积核的大小,S表示步长,P表示填充数量,APW_h表示APW高度方向,APW_w表示APW宽度方向,n表示经过APW计算后的特征图的大小,in表示输入,h表示高,w表示宽,hnew表示填充之后特征图的高,wnew表示填充之后特征图的宽。
进一步,上述每个模块的首尾部分别选取一张图片具体为,首先将历史帧序列分为n个模块,之后设置2n个标志位分别用于指向每个模块的首尾,之后每次选取的图片则为标志位所指向的图片。
进一步,所述的采用LLE算法对模型的输出特征进行降维具体为,对模型的输出特征进行降维,使得降维后的特征的局部线性关系仍能保持不变,最后将该特征展开为一个一维矩阵,进行相似度计算。
进一步,上述每个模块的首尾部分别选取一张图片具体为,首先将历史帧序列分为n个模块,之后设置2n个标志位分别用于指向每个模块的首尾,之后每次选取的图片则为标志位所指向的图片。
进一步,上述多线程的方式同时计算选取的图片与当前图片的相似度,能够在计算相同图片数量的条件下,通过同时计算多张图片,有效地减少相似度计算的时间。
进一步,上述每次选取的下一帧图片与前一帧图片的间隔是随机的具体为,在超级字典模中,如果小模块中的首标志位的相似度大于尾标志位,则首标志位移动到下一帧,尾标志位向小模块中间移动,移动间距控制在5以内,具体的值是随机的,如果首标志位的相似度等于尾标志位的相似度,小模块的两个标记分别向小模块中间移动一帧,找到超级字典中与当前图片相似度最大的一帧F。在历史帧映射区,由于相邻帧的相似度总是相差不远的,所以在映射的区域中,通过比较F的前后相邻两帧的相似度的大小,可以判定F是否是需要寻找的帧。如果F的相似度大于其前后两帧的相似度,则F则是检测到的闭环的一帧;如果后一帧Flag_b的相似度最大时,判断其后一帧的相似度是否大于此时Flag_b的相似度,如果小于,则此时Flag_b是要寻找的帧,否则Flag_b向后移动一帧,而Flag_a则指向该模块的最后一帧,通过多模块随机法的方式找出相似度最大的一帧;如果前一帧Flag_a的相似度大于Flag_b时,则相反。
其中,F是指在超级字典中与当前图像相似度最大的一张图片,映射区域是指超级字典中与当前图片相似度最大的一帧F,并通过F的前后两帧映射出两帧在历史序列中包含的区域。
本发明的优点及有益效果如下:
针对于目前大多数卷积神经网络模型采取的是通过改变图像的大小,从而达到一个固定的输出维度,但这样往往会损失一些有用信息,影响闭环检测的精确度的问题,本发明提出了一种APW方法,并与ResNeSt融合形成ResNeSt-APW模型,采用LLE进行降维,使得模型在不改变原始图像大小的情况下提取深层次的语义信息,并输出一个低维度的特征向量;在图像检索方面,将在基于超级字典的基础上,采用多模块随机检索的方式检索图片,并采用多线程的方式同时计算多张图片的相似度,以此来减少闭环检测的耗时,提高系统的实时性。
通过在公开数据集City Centre、New College数据集以及KITTI数据集06序列包上测试,实验表明,ResNeSt-APW模型在不改变图像大小的情况下,能够提取图片更加丰富的深层次的语义信息,为了更明确地验证本模型对闭环检测的效果,将本发明提出的算法模型与其他神经网络模型的闭环检测方法进行对比,本发明提出的模型对闭环检测的准确率-召回率效果更好;同时,基于超级字典的基础上设计了一种新的图像检索方法--多模块随机检索法,通过对比不同数量历史帧序列的实验结果,结果显示,通过多个模块的多线程方式进行计算,本发明的方法优于超级字典、逐帧检索和随机帧检索三种检索方式。
附图说明
图1为ResNeSt-APW与LLE融合的整体框架图;
图2为超级字典多模块图;
图3为历史帧映射区域图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
如图1所示,本发明方案包括以下步骤:
S1,设计一种APW方法,在对任意大小的特征图进行计算之后,都能够生成一个固定大小的特征图,并不会将其展开成一个一维特征向量。
S2,去除ResNeSt模型中的全局平均池化层及其之后的网络层,在此之后增加了一个1×1大小的卷积层,主要作用是为了降低特征图的通道数。
S3,在1×1卷积层之后添加APW对卷积后的特征图进行下采样计算,生成一个固定大小的特征图,并采用ReLU激活函数对输出结果进行激活,其公式表示为:
f(x)=max(0,x)
其中,x是输入,f(x)是经过ReLU激活函数之后的输出。
S4,采用LLE算法对模型的输出特征进行降维,使得降维后的特征的局部线性关系仍能保持不变,并将该特征展开为一个一维矩阵,进行相似度计算。
S5,在基于超级字典的基础上将超级字典与历史帧映射区分为多个小模块,在每个模块的首尾部分别选取一张图片。首先将超级字典分为n个模块,之后设置2n个标志位分别用于指向每个模块的首尾,之后每次选取的图片则为标志位所指向的图片。
S6,采用的是多线程的方式同时计算选取的图片与当前图片的相似度,能够在计算相同图片数量的条件下,通过同时计算多张图片,有效地减少相似度计算的时间。
S7,每次选取的下一帧图片与前一帧图片的间隔是随机的。为方便阐述,如图2所示,假设将含有n张图片的超级字典分为a、b两段,在第一次对四个标志位对应的图片进行相似度计算后,分别比较Flag_ah与Flag_ae,Flag_bh与Flag_be的相似度大小。如果a模块中的Flag_ah的相似度大于Flag_ae,则Flag_ah移动到下一帧,Flag_ae向a模块中间移动,移动间距控制在5以内,具体的值是随机的,如果Flag_bh的相似度等于Flag_ae的相似度,b模块的两个标记分别向b模块中间移动一帧。通过四个标志在两个模块内的比较,能够找出两个模块中相似度的最大值,最后通过比较这两个最大值,找到超级字典中与当前图片相似度最大的一帧F,并通过F的前后两帧映射出两帧在历史序列中包含的区域,如图3所示。由于相邻帧的相似度总是相差不远的,所以在映射的区域中,通过比较F的前后相邻两帧的相似度的大小,可以判定F是否是需要寻找的帧。如果F的相似度大于其前后两帧的相似度,则F则是检测到的闭环的一帧;如果后一帧Flag_b的相似度最大时,判断其后一帧的相似度是否大于此时Flag_b的相似度,如果小于,则此时Flag_b是要寻找的帧,否则Flag_b向后移动一帧,而Flag_a则指向该模块的最后一帧,通过多模块随机法的方式找出相似度最大的一帧;如果前一帧Flag_a的相似度大于Flag_b时,则相反。
其中,Flag_ah、Flag_ae、Flag_bh、Flag_be是指超级字典中a、b模块中的标志位。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (7)
1.基于ResNeSt-APW的多模块闭环检测方法,其特征在于,包括以下步骤:
S1,在ResNeSt模型的基础上,去除ResNeSt模型中的全局平均池化层及其之后的网络层,在此之后增加一个1×1大小的卷积层;
S2,在所述1×1卷积层之后添加APW对卷积后的特征图进行下采样计算,并采用ReLU激活函数对输出结果进行激活,所述APW对任意大小的特征图进行计算之后,都生成一个固定大小的特征图;所述APW的计算公式为:
hnew=2*pAPW_h+hin
wnew=2*pAPW_W+win
其中表示向下取整,/>表示向上取整,K表示卷积核的大小,S表示步长,P表示填充数量,APW_h表示APW高度方向,APW_w表示APW宽度方向,n表示经过APW计算后的特征图的大小,in表示输入,h表示高,w表示宽,hnew表示填充之后特征图的高,wnew表示填充之后特征图的宽;
S3,采用LLE算法对所述S2处理后的输出特征进行降维,并将该特征展开为一个一维矩阵,进行相似度计算;
S4,在基于超级字典的基础上将超级字典与历史帧映射区域分为若干个小模块,在每个模块的首尾部分别选取一张图片;
S5,采用多线程的方式同时计算步骤S4所选取的图片与当前图片的相似度。
2.根据权利要求1所述基于ResNeSt-APW的多模块闭环检测方法,其特征在于:所述采用ReLU激活函数对输出结果进行激活为
f(x)=max(0,x)
其中,x是输入,f(x)是经过ReLU激活函数之后的输出。
3.根据权利要求1所述基于ResNeSt-APW的多模块闭环检测方法,其特征在于:所述步骤S4中在每个模块的首尾部分别选取一张图片,具体包括首先将历史帧序列分为n个模块,设置2n个标志位分别用于指向每个模块的首尾,之后每次选取的图片则为标志位所指向的图片。
4.根据权利要求1-3任一项所述基于ResNeSt-APW的多模块闭环检测方法,其特征在于:还包括每次选取的下一帧图片与前一帧图片的间隔是随机的。
5.根据权利要求4所述基于ResNeSt-APW的多模块闭环检测方法,其特征在于:在所述超级字典中,如果小模块中的首标志位的相似度大于尾标志位,则首标志位移动到下一帧,尾标志位向小模块中间移动,移动间距为5以内的随机值,如果首标志位的相似度等于尾标志位的相似度,小模块的两个标记分别向小模块中间移动一帧,找到超级字典中与当前图片相似度最大的一帧F。
6.根据权利要求5所述基于ResNeSt-APW的多模块闭环检测方法,其特征在于:在所述历史帧映射区域,判定F是否是需要寻找的帧,如果F的相似度大于其前后两帧的相似度,则F是检测到的闭环的一帧;如果后一帧Flag_b的相似度最大时,判断其后一帧的相似度是否大于此时Flag_b的相似度,如果小于,则此时Flag_b是要寻找的帧,否则Flag_b向后移动一帧,而Flag_a则指向该模块的最后一帧,通过多模块随机法的方式找出相似度最大的一帧;如果前一帧Flag_a的相似度大于Flag_b时,则相反。
7.根据权利要求5所述基于ResNeSt-APW的多模块闭环检测方法,其特征在于:所述历史帧映射区域为F的前后两帧映射在历史序列中所包含的区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110511040.2A CN113377987B (zh) | 2021-05-11 | 2021-05-11 | 基于ResNeSt-APW的多模块闭环检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110511040.2A CN113377987B (zh) | 2021-05-11 | 2021-05-11 | 基于ResNeSt-APW的多模块闭环检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113377987A CN113377987A (zh) | 2021-09-10 |
CN113377987B true CN113377987B (zh) | 2023-03-28 |
Family
ID=77572443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110511040.2A Active CN113377987B (zh) | 2021-05-11 | 2021-05-11 | 基于ResNeSt-APW的多模块闭环检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377987B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553193A (zh) * | 2020-04-01 | 2020-08-18 | 东南大学 | 一种基于轻量级深层神经网络的视觉slam闭环检测方法 |
CN112258580A (zh) * | 2020-11-02 | 2021-01-22 | 上海应用技术大学 | 基于深度学习的视觉slam回环检测方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105856230B (zh) * | 2016-05-06 | 2017-11-24 | 简燕梅 | 一种可提高机器人位姿一致性的orb关键帧闭环检测slam方法 |
CN107403163B (zh) * | 2017-07-31 | 2019-11-08 | 武汉大学 | 一种基于深度学习的激光slam闭环自动检测方法 |
CN110462683B (zh) * | 2018-03-06 | 2022-04-12 | 斯坦德机器人(深圳)有限公司 | 紧耦合视觉slam的方法、终端及计算机可读存储介质 |
CN109325979B (zh) * | 2018-07-20 | 2021-11-02 | 上海理工大学 | 基于深度学习的机器人回环检测方法 |
CN109443382B (zh) * | 2018-10-22 | 2022-05-17 | 北京工业大学 | 基于特征提取与降维神经网络的视觉slam闭环检测方法 |
CN110765918A (zh) * | 2019-10-17 | 2020-02-07 | 北京影谱科技股份有限公司 | 基于MFANet的vSLAM快速回环检测方法和装置 |
CN111275702B (zh) * | 2020-02-26 | 2022-11-18 | 东南大学 | 一种基于卷积神经网络的回环检测方法 |
CN111753752B (zh) * | 2020-06-28 | 2022-07-01 | 重庆邮电大学 | 基于卷积神经网络多层特征融合的机器人闭环检测方法 |
-
2021
- 2021-05-11 CN CN202110511040.2A patent/CN113377987B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553193A (zh) * | 2020-04-01 | 2020-08-18 | 东南大学 | 一种基于轻量级深层神经网络的视觉slam闭环检测方法 |
CN112258580A (zh) * | 2020-11-02 | 2021-01-22 | 上海应用技术大学 | 基于深度学习的视觉slam回环检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113377987A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929578B (zh) | 一种基于注意力机制的抗遮挡行人检测方法 | |
KR102362744B1 (ko) | 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용하여 얼굴을 인식하고, 극도의 상황에서 결함 허용 능력 및 흔들림에 강인한 성질을 향상시키는 방법 | |
Ju et al. | A simple and efficient network for small target detection | |
Liu et al. | FG-Net: Fast large-scale LiDAR point clouds understanding network leveraging correlated feature mining and geometric-aware modelling | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
CN110334589B (zh) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 | |
CN112750140A (zh) | 基于信息挖掘的伪装目标图像分割方法 | |
CN111696110B (zh) | 场景分割方法及系统 | |
Geng et al. | Using deep learning in infrared images to enable human gesture recognition for autonomous vehicles | |
Dai et al. | Adaptive disparity candidates prediction network for efficient real-time stereo matching | |
CN110909741A (zh) | 一种基于背景分割的车辆再识别方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN114037839B (zh) | 一种小目标识别方法、系统、电子设备及介质 | |
CN107066520B (zh) | 一种基于多个语义层次的图片检索方法及系统 | |
CN108151728A (zh) | 一种用于双目slam的半稠密认知地图创建方法 | |
CN112070070A (zh) | 一种用于城市遥感场景识别的lw-cnn方法和系统 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN116188999A (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
US20150086118A1 (en) | Method for recognizing a visual context of an image and corresponding device | |
Gopal et al. | Tiny object detection: Comparative study using single stage CNN object detectors | |
CN118071932A (zh) | 一种三维静态场景图像重建方法及系统 | |
CN113570713B (zh) | 一种面向动态环境的语义地图构建方法及装置 | |
Li et al. | Improved YOLOv5s algorithm for small target detection in UAV aerial photography | |
CN113377987B (zh) | 基于ResNeSt-APW的多模块闭环检测方法 | |
Ammar et al. | Comparative Study of latest CNN based Optical Flow Estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |