CN115239974A - 融合注意力机制的视觉同步定位与地图构建闭环检测方法 - Google Patents
融合注意力机制的视觉同步定位与地图构建闭环检测方法 Download PDFInfo
- Publication number
- CN115239974A CN115239974A CN202210743887.8A CN202210743887A CN115239974A CN 115239974 A CN115239974 A CN 115239974A CN 202210743887 A CN202210743887 A CN 202210743887A CN 115239974 A CN115239974 A CN 115239974A
- Authority
- CN
- China
- Prior art keywords
- layer
- attention
- module
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明请求保护一种融合注意力机制的视觉同步定位与地图构建闭环检测方法,将经典的残差网络中表现较好的ResNet50网络做为我们方法的主干网络,在此基础上,为ResNet50网络层中的各层添加一个注意力模块;首先添加一个通道注意力层,为了获取丰富的尺度信息,我们采用三种尺寸的卷积核,包括7×7、5×5、3×3。之后经过分组卷积模块和全局平均池化模块,经过全连接层后得到通道注意力图。之后经过空间注意力模块,从而获得最显著的区域。同时经过特征融合模块,将深层和浅层的特征进行融合,获得丰富的图像表示。最后用全连接层将特征图转化为1000维的特征向量,进行相似度计算。本发明在准确率‑召回率的性能上是具有显著优势的。
Description
技术领域
本发明属于VSLAM领域,特别是一种基于注意力机制的闭环检测方法。
背景技术
随着视觉同步定位与地图构建技术(Visual Simultaneous Localization andMapping,VSLAM)的不断发展,移动机器人、自动驾驶等领域取得了突破性的进展,使得我们的生活也变得更加便捷。
SLAM是自主移动服务机器人在未知环境中进行探索和导航以执行复杂服务任务的必然特征。此外,由于易于将摄像头与各种移动机器人集成,视觉SLAM在过去几年一直是机器人学和计算机视觉的研究范围。此外,摄像机适用于各种环境,生产低成本、高性能、小尺寸摄像机的显著改进,促使SLAM算法依赖视觉传感器有效地从周围环境收集信息。闭环检测是任何视觉SLAM系统中的一个关键组件。闭环检测解决了移动机器人沿其路径识别先前访问过的位置的问题。因此,闭环检测有助于最小化姿态和地图估计中的固有不确定性,从而提高视觉SLAM系统的性能。基于深度学习的方法则是通过深度学习模型自主学习并提取图片深层次的特征,场景识别率的表现更好,但由于网络模型的不同,使得提取的图像特征的鲁棒性差异性较大,并且目前大多数卷积神经网络模型很难应对动态物体、局部遮挡和视角变化等问题,影响闭环检测的精确度。本发明通过提出的多尺度注意力机制和空间注意力机制,其中,通道注意力可以选择区分性高的显著特征,并重新加权,赋予它们更大的权重。空间注意力则专注于突出显示最具有辨别力的区域,抑制不相关的特征。以此来细化学习到的特征,不会受移动物体、局部遮挡和视角变化的影响。
CN112784685A,一种基于多尺度引导注意力机制网络的人群计数方法及系统,获取待识别的图像数据;对获取的图像数据进行多尺度特征提取,得到多个特征图,对所有特征图进行融合得到多尺度融合特征图;将获取的各个尺度的特征图和多尺度融合特征图输入到预设的引导注意力机制模型中,得到不同尺度下的注意力特征图;将各个尺度下的注意力特征图进行融合,对融合后的特征图进行密度回归,得到人群密度图,根据人群密度图得到人群计数;本公开通过采用多尺度引导注意力机制来捕获更丰富的多尺度上下文特征信息,能够将局部特征与其相应的全局依赖关系相集成,并以自适应方式突出显示重要的通道信息,极大的提高了人群计数精度。
该专利在一定程度上可以提高人群计数的精度,但是这种方法仅使用单一的注意力机制,而本发明将通道注意力和空间注意力串联使用比单个使用注意力机制细化学习到的特征效果要好。同时我们在通道注意力机制中加入了分组卷积模块,可以降低注意力机制模块的整体计算量,提升整个系统的运行速度。而该专利不仅没有使用分组卷积,在特征融合后的特征图维度较大,如果直接使用融合后的特征图进行后续的计算,则会大大影响计算效率。而我们在特征融合后还使用了全连接层来降低特征图的维度,以便于相似度的计算,从而提高系统的运行时间。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种融合注意力机制的视觉同步视觉定位与地图构建闭环检测方法。本发明的技术方案如下:
一种融合注意力机制的视觉同步定位与地图构建闭环检测方法,其包括以下步骤:
S1、将图像输入主干网络中,输入图像格式为224×224大小的RGB彩色图像,将ResNet50网络作为主干网络,在ResNet50网络各层之后增加一个通道注意力层和一个空间注意力层;在所述通道注意力层中,添加了三种不同大小尺寸的卷积核,获取不同的尺度信息;空间注意力层用于重新分配同一通道特征图的权重,更加专注于突出显示最具有辨别力的区域,抑制不相关的特征。以便关注哪里的特征是有意义的;
S2、之后经过分组卷积模块和全局平均池化模块来处理不同尺寸的特征,分组卷积模块用于减少卷积过程的参数量,全局平均池化模块强制了特征图和类别之间的对应关系,更加适合卷积结构,同时网络参数更少,避免了过拟合问题,然后通过全连接层得到最终的通道注意力图;
S3、经过通道注意力层后的输出特征图作为空间注意力层的输入特征图,在所述空间注意力层中,特征图经过最大池化层和平均池化层,然后进行拼接,最后经过卷积层和sigmoid函数得到空间特征图;
S4、最后经过特征融合模块,将距离输入比较近的浅层网络提取的特征作为浅层特征,将距离输出比较近的深层网络提取的特征作为深层特征,将深层特征和浅层特征进行融合,获得丰富的图像表示;其中深层特征之后接入一个通道调整模块,以便于和浅层特征进行融合,并采用ReLU激活函数对输出结果进行激活;
S5、最后用全连接层将特征图转化为1000维的特征向量,进行相似度计算,通过网络模型提取的当前图像特征和历史图像特征进行相似度计算,判断相似度是否大于等于设定的阈值,如果是,则判定为闭环,如果不是,则从历史图像序列中选取下一张图像重新相似度计算,结束循环的标志是找到闭环的位置或者遍历完历史图像序列。
进一步的,所述步骤S1三种不同大小尺寸的卷积核大小分别为7×7、5×5、3×3。
通道注意力是关注什么样的特征是有意义的。将ResNet50的中间特征图作为输入,首先经过两次分组卷积模块全局平均池化模块得到每个通道的特征图,为了汇聚总的特征将来自同一通道的特征图拼接在一起得到N*C×1×1的特征图,然后传入全连接层得到C×1×1的权重向量,将输入特征图与权重向量进行逐通道相乘得到带有权重的通道注意力图。空间注意力层将通道注意力图作为输入,首先经过平均池化和最大池化得到H×W×1的特征图,然后拼接得到一个二维特征图H*W*2,之后经过两个卷积层和一个sigmoid函数得到最终的空间注意力图。
进一步的,所述步骤S2分组卷积模块的计算公式为:
空间注意力模块的计算公式为:
进一步的,所述步骤S3中,在空间注意力模块中,输入特征图经过最大池化和平均池化后,特征图尺寸变为H×W×1,将得到的特征图拼接后变为H×W×2,分别经过步长为1,尺寸为1×1×1、3×3×2的卷积,得到尺寸为H×W×1的特征图。H、W分别表示特征图的高度和宽度。
进一步的,所述步骤S4深层特征之后接入一个通道调整模块,通道调整模块是由最大池化和1×1卷积层构成,特征图的尺寸由最大池化层改变,特征图的通道数由1×1卷积层改变。
所述采用ReLU激活函数对输出结果进行激活为
f(x)=max(0,x)
其中,x是输入,f(x)是经过ReLU激活函数之后的输出。
进一步的,所述S5、最后用全连接层将特征图转化为1000维的特征向量,进行相似度计算,通过网络模型提取的当前图像特征和历史图像特征进行相似度计算,其公式为:其中u和v分别表示从网络模型中提取的两幅图像的两个特征向量,θ(u,v)是它们之间的角度。判断相似度是否大于等于设定的阈值,如果是,则判定为闭环,如果不是,则从历史图像序列中选取下一张图像重新相似度计算,结束循环的标志是找到闭环的位置或者遍历完历史图像序列。
本发明的优点及有益效果如下:
本发明针对于目前大多数深度学习的闭环检测算法难以应对移动物体、局部遮挡以及视角变化等问题,从而影响闭环检测的准确率-召回率。本发明提出了一种注意力机制的闭环检测方法,与我们的主干网络ResNet50相结合。比如步骤S4中将浅层特征与深层特征融合,解决了随着网络层数的加深,会丢失一部分信息的情况,还减少了一部分冗余信息。所述的多尺度通道注意力机制和所述的分组卷积模块的联合使用可以大大降低注意力模块的计算量,同时,如步骤S1和S3所述将通道注意力和空间注意力串联使用,可以使学习到的特征更加细化。注意力机制可以提取图像中更具辨别力的区域,重新分配特征图的权重,从而减少不相关特征的影响,以此来解决面对动态物体、局部遮挡以及视角变化的问题,提高系统的性能。
通过在公开数据集City Centre、New College数据集以及KITTI数据集00序列包和02序列包上测试,实验表明,基于注意力机制的ResNet50模型在面对动态物体、局部遮挡和视角变化的情况下,能够有效提取图像中具有辨别力的区域,而且可以提取更加丰富的深层次的语义信息。为了更明确地验证本模型对闭环检测的效果,将本发明提出的算法模型与其他模型的闭环检测方法进行对比,本发明提出的模型对闭环检测的准确率-召回率效果更好。
附图说明
图1是本发明提供优选实施例ResNet50与注意力机制融合的整体框架图;
图2为多尺度通道注意力模块图;
图3为分组卷积模块图。
图4为空间注意力模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,本发明方案包括以下步骤:
S1,将ResNet50网络作为主干网络,在ResNet50网络各层之后增加一个通道注意力层和一个空间注意力层;
S2,在所述通道注意力层中,添加了三种不同大小尺寸的卷积核,包括7×7、5×5、3×3,从而获取丰富的尺度信息。之后经过分组卷积模块和全局平均池化模块来处理不同尺寸的特征,组卷积模块可以降低计算量,在经过最大池化和全局平均池化后,特征图的尺寸被降低到原来的一半,然后利用组卷积模块汇聚特征图。在经过两次分组卷积模块后特征图的尺寸被降为原来的四分之一。然后经过全局平均池化模块后特征图尺寸变为1×1,然后将各个通道的特征图进行拼接得到维度为N*C且尺寸为1×1的特征图。经过全连接层之后可以降低特征图的维度,将得到的权重向量和最初输入的特征图进行逐通道相乘,最终得到最终的特征图。
S3,在所述空间注意力层中,在空间注意力模块中,输入特征图经过最大池化和平均池化后,特征图尺寸变为H×W×1,将得到的特征图拼接后变为H×W×2,分别经过步长为1,尺寸为1×1×1、3×3×2的卷积,得到尺寸为H×W×1的特征图。
S4,最后经过特征融合模块,将深层和浅层的特征进行融合,获得丰富的图像表示。其中深层特征之后接入一个通道调整模块,以便于和浅层特征进行融合,并采用ReLU激活函数对输出结果进行激活。
S5,最后用全连接层将特征图转化为1000维的特征向量,进行相似度计算。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (6)
1.一种融合注意力机制的视觉同步定位与地图构建闭环检测方法,其特征在于,包括以下步骤:
S1、将图像输入主干网络中,输入图像格式为224×224大小的RGB彩色图像,将ResNet50网络作为主干网络,在ResNet50网络各层之后增加一个通道注意力层和一个空间注意力层;在所述通道注意力层中,添加了三种不同大小尺寸的卷积核,获取不同的尺度信息;空间注意力层用于重新分配同一通道特征图的权重,更加专注于突出显示最具有辨别力的区域,抑制不相关的特征,以便关注哪里的特征是有意义的;
S2、之后经过分组卷积模块和全局平均池化模块来处理不同尺寸的特征,分组卷积模块用于减少卷积过程的参数量,全局平均池化模块强制了特征图和类别之间的对应关系,更加适合卷积结构,同时网络参数更少,避免了过拟合问题,然后通过全连接层得到最终的通道注意力图;
S3、经过通道注意力层后的输出特征图作为空间注意力层的输入特征图,在所述空间注意力层中,特征图经过最大池化层和平均池化层,然后进行拼接,最后经过卷积层和sigmoid函数得到空间特征图;
S4、最后经过特征融合模块,将距离输入比较近的浅层网络提取的特征作为浅层特征,将距离输出比较近的深层网络提取的特征作为深层特征,将深层特征和浅层特征进行融合,获得丰富的图像表示;其中深层特征之后接入一个通道调整模块,以便于和浅层特征进行融合,并采用ReLU激活函数对输出结果进行激活;
S5、最后用全连接层将特征图转化为1000维的特征向量,进行相似度计算,通过网络模型提取的当前图像特征和历史图像特征进行相似度计算,判断相似度是否大于等于设定的阈值,如果是,则判定为闭环,如果不是,则从历史图像序列中选取下一张图像重新相似度计算,结束循环的标志是找到闭环的位置或者遍历完历史图像序列。
2.根据权利要求1所述的一种融合注意力机制的视觉同步定位与地图构建闭环检测方法,其特征在于,所述步骤S1三种不同大小尺寸的卷积核大小分别为7×7、5×5、3×3;
通道注意力是关注什么样的特征是有意义的;将ResNet50的中间特征图作为输入,首先经过两次分组卷积模块全局平均池化模块得到每个通道的特征图,为了汇聚总的特征将来自同一通道的特征图拼接在一起得到N*C×1×1的特征图,然后传入全连接层得到C×1×1的权重向量,将输入特征图与权重向量进行逐通道相乘得到带有权重的通道注意力图。空间注意力层将通道注意力图作为输入,首先经过平均池化和最大池化得到H×W×1的特征图,然后拼接得到一个二维特征图H*W*2,之后经过两个卷积层和一个sigmoid函数得到最终的空间注意力图。
4.根据权利要求3所述的一种融合注意力机制的视觉同步定位与地图构建闭环检测方法,其特征在于,所述步骤S3中,在空间注意力模块中,输入特征图经过最大池化和平均池化后,特征图尺寸变为H×W×1,将得到的特征图拼接后变为H×W×2,分别经过步长为1,尺寸为1×1×1、3×3×2的卷积,得到尺寸为H×W×1的特征图。H、W分别表示特征图的高度和宽度。
5.根据权利要求3所述的一种融合注意力机制的视觉同步定位与地图构建闭环检测方法,其特征在于,所述步骤S4深层特征之后接入一个通道调整模块,
通道调整模块是由最大池化和1×1卷积层构成,特征图的尺寸由最大池化层改变,特征图的通道数由1×1卷积层改变。
所述采用ReLU激活函数对输出结果进行激活为
f(x)=max(0,x)
其中,x是输入,f(x)是经过ReLU激活函数之后的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210743887.8A CN115239974A (zh) | 2022-06-27 | 2022-06-27 | 融合注意力机制的视觉同步定位与地图构建闭环检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210743887.8A CN115239974A (zh) | 2022-06-27 | 2022-06-27 | 融合注意力机制的视觉同步定位与地图构建闭环检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115239974A true CN115239974A (zh) | 2022-10-25 |
Family
ID=83671101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210743887.8A Pending CN115239974A (zh) | 2022-06-27 | 2022-06-27 | 融合注意力机制的视觉同步定位与地图构建闭环检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115239974A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116106880A (zh) * | 2023-04-13 | 2023-05-12 | 北京理工大学 | 基于注意力机制和多尺度融合的水下声源测距方法和装置 |
-
2022
- 2022-06-27 CN CN202210743887.8A patent/CN115239974A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116106880A (zh) * | 2023-04-13 | 2023-05-12 | 北京理工大学 | 基于注意力机制和多尺度融合的水下声源测距方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN111523410B (zh) | 一种基于注意力机制的视频显著性目标检测方法 | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN115171165A (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN114283316A (zh) | 一种图像识别方法、装置、电子设备和存储介质 | |
JP6892606B2 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
CN112749726B (zh) | 目标检测模型的训练方法、装置、计算机设备和存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN111310821A (zh) | 多视图特征融合方法、系统、计算机设备及存储介质 | |
KR20220098312A (ko) | 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체 | |
CN113704522A (zh) | 基于人工智能的目标图像快速检索方法及系统 | |
CN113870254B (zh) | 目标对象的检测方法、装置、电子设备及存储介质 | |
CN115797735A (zh) | 目标检测方法、装置、设备和存储介质 | |
CN113838135B (zh) | 基于lstm双流卷积神经网络的位姿估计方法、系统及介质 | |
CN115239974A (zh) | 融合注意力机制的视觉同步定位与地图构建闭环检测方法 | |
CN114091551A (zh) | 色情图像识别方法、装置、电子设备及存储介质 | |
CN116958873A (zh) | 行人跟踪方法、装置、电子设备及可读存储介质 | |
CN117058235A (zh) | 跨多种室内场景的视觉定位方法 | |
CN111767919A (zh) | 一种多层双向特征提取与融合的目标检测方法 | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 | |
CN115620054A (zh) | 一种缺陷分类方法、装置、电子设备及存储介质 | |
CN114372999A (zh) | 一种对象检测方法、装置、电子设备和存储介质 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
WO2021147084A1 (en) | Systems and methods for emotion recognition in user-generated video(ugv) | |
CN112949672A (zh) | 商品识别方法、装置、设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |