CN115631319B - 一种基于交叉注意力网络的回环检测方法 - Google Patents

一种基于交叉注意力网络的回环检测方法 Download PDF

Info

Publication number
CN115631319B
CN115631319B CN202211361582.7A CN202211361582A CN115631319B CN 115631319 B CN115631319 B CN 115631319B CN 202211361582 A CN202211361582 A CN 202211361582A CN 115631319 B CN115631319 B CN 115631319B
Authority
CN
China
Prior art keywords
attention
network
value
overlap
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211361582.7A
Other languages
English (en)
Other versions
CN115631319A (zh
Inventor
曾慧
郑锐
刘红敏
樊彬
张利欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Shunde Innovation School of University of Science and Technology Beijing
Original Assignee
University of Science and Technology Beijing USTB
Shunde Innovation School of University of Science and Technology Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB, Shunde Innovation School of University of Science and Technology Beijing filed Critical University of Science and Technology Beijing USTB
Priority to CN202211361582.7A priority Critical patent/CN115631319B/zh
Publication of CN115631319A publication Critical patent/CN115631319A/zh
Application granted granted Critical
Publication of CN115631319B publication Critical patent/CN115631319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明提供一种基于交叉注意力网络的回环检测方法,属于计算机视觉技术领域。所述方法包括:对激光雷达原始三维点云数据进行预处理,获得对应的球面投影图,即训练帧;构建基于自注意力机制和交叉注意力机制的重叠度估计网络;利用得到的训练帧,训练所述重叠度估计网络;利用训练好的重叠度估计网络估计每对扫描对之间的重叠度,扫描对为两帧激光雷达的球面投影图,选取重叠度估计值高于阈值的扫描对作为回环检测候选对象,对于当前帧,选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果。采用本发明,能够提高回环检测或地点识别中的准确率和召回率。

Description

一种基于交叉注意力网络的回环检测方法
技术领域
本发明涉及计算机视觉技术领域,特别是指一种基于交叉注意力网络的回环检测方法。
背景技术
同时定位与建图(SLAM)是无人驾驶或机器人自主导航中的一个重要组成部分。经典的SLAM框架通常由五部分组成,分别是传感器信息读取,前端里程计,回环检测,后端优化以及建图。其中,回环检测是判断机器人或无人车是否到达过先前的位置,用于更新当前帧与历史帧之间的位姿约束关系,以减小累积误差,从而得到信息一致的地图。基于激光雷达和基于视觉的回环检测方法较为常见。但同一地点通常会因光照、天气或视角的变化而变化,这在基于视觉的回环检测中是很难解决的,导致回环检测准确率低。
发明内容
本发明实施例提供了一种基于交叉注意力网络的回环检测方法,能够提高回环检测或地点识别中的准确率和召回率。
本发明实施例提供的基于交叉注意力网络的回环检测方法,包括:
对激光雷达原始三维点云数据进行预处理,获得对应的球面投影图,即训练帧;
构建基于自注意力机制和交叉注意力机制的重叠度估计网络;
利用得到的训练帧,训练所述重叠度估计网络;其中,在训练过程中,根据重叠度估计网络估计的每对训练帧之间的重叠度,计算重叠度误差损失函数值,基于得到的重叠度误差损失函数值,训练所述重叠度估计网络;
利用训练好的重叠度估计网络估计每对扫描对之间的重叠度,扫描对为两帧激光雷达的球面投影图,选取重叠度估计值高于阈值的扫描对作为回环检测候选对象,对于当前帧,选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果。
进一步地,所述球面投影图包括:二维球面投影深度图、二维球面投影强度图以及法向量图;
所述对激光雷达原始三维点云数据进行预处理,获得对应的球面投影图包括:
通过球面投影对激光雷达原始三维点云数据进行预处理,获得二维球面投影深度图和二维球面投影强度图;
由二维球面投影深度图计算得到法向量图。
进一步地,所述重叠度估计网络包括:孪生网络编码器、交叉注意力网络模块和重叠度预测模块;其中,
所述孪生网络编码器包括:2个子孪生网络编码器,每个子孪生网络编码器都由10层全卷积层堆叠而成,两个子孪生网络编码器的卷积层共享权值;
所述孪生网络编码器,用于将两帧点云数据经过球面投影变换后得到的深度图、强度图和法向量图作为输入,经过10层共享权值的卷积层,获得对应的两个特征块,对输出的两个特征块分别进行向量映射,并加入位置编码,得到特征向量f1和f2;其中,f1和f2作为交叉注意力网络模块的输入;
位置编码生成公式为:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
其中,pos表示某个分块的位置,d表示一个分块的维度大小,2i表示偶数,2i+1表示奇数,且满足2i≤d,2i+1≤d,i取自然数,PE(pos,2i)表示在第pos个分块中,索引为2i的向量元素所对应的位置编码值,PE(pos,2i+1)表示在第pos个分块中,索引为2i+1的向量元素所对应的位置编码值。
进一步地,所述交叉注意力网络模块包括:若干个交叉注意力块;
每个交叉注意力块包括:2个ECA模块和2个CFA模块;其中,ECA表示自注意力特征增强,CFA表示交叉注意力特征增强;
每个ECA模块通过多头自注意力来关注有用的上下文信息;ECA模块表示为:
XEC=X+MultiHead(X+Px,X+Px,X)
其中,
Figure BDA0003922800910000021
是未带位置编码的输入,/>
Figure BDA0003922800910000022
表示d×Nx维的实数空间,Nx表示分块的个数,d表示一个分块的维度;/>
Figure BDA0003922800910000031
是空间位置编码;/>
Figure BDA0003922800910000032
Figure BDA0003922800910000033
是ECA的输出;MultiHead()表示多头自注意力;
每个CFA模块同时接收两条分支上的特征向量,并通过多头交叉注意力来融合接收到的这两个特征向量,实现特征的增强;
在交叉注意力块中,分别把本分支的ECA模块输出的query和另一分支的ECA模块输出的key以及value送入本分支所在的CFA模块,CFA模块表示为:
Figure BDA0003922800910000034
Figure BDA0003922800910000035
其中,query、key、value分别表示查询矩阵、键矩阵、值矩阵,
Figure BDA0003922800910000036
作为一个分支的输入,/>
Figure BDA0003922800910000037
作为另一分支的输入,/>
Figure BDA0003922800910000038
分别表示d×Nq维、d×Nkv维的实数空间,Nq和Nkv分别表示各自分支输入特征的分块数目,/>
Figure BDA0003922800910000039
Figure BDA00039228009100000310
分别是两个输入对应的位置编码,/>
Figure BDA00039228009100000311
表示通过多头注意力层的输出,XCF是CFA模块的最终输出;FFN()为全连接的前馈网络,由两个线性变换组成:
FFN(x)=max(0,xW1+b1)W2+b2
其中,x表示FFN()的输入,max()表示求其中最大元素,W1和W2表示权重矩阵,b1和b2表示偏置向量,同一下标代表相同层。
进一步地,所述重叠度预测模块,用于估计扫描对之间的重叠度;
所述重叠度预测模块包括:CFA模块和带有dropout层的MLP层组成;其中,MLP表示多层感知器。
进一步地,重叠度误差损失函数表示为:
Figure BDA00039228009100000312
其中,L(I1,I2,YO)表示重叠度误差损失函数值,YO表示重叠度的真值,
Figure BDA00039228009100000313
表示重叠度的估计值,I1和I2表示输入的一对训练帧,sigmoid()为激活函数,a和b都表示偏移量,s表示尺度因子。
进一步地,对于一对激光雷达点云数据
Figure BDA00039228009100000314
分别进行球面投影处理,得到
Figure BDA00039228009100000315
并将第一帧/>
Figure BDA00039228009100000316
的所有点重投影到第二帧/>
Figure BDA00039228009100000317
的坐标系上,形成重投影映射/>
Figure BDA00039228009100000318
计算/>
Figure BDA00039228009100000319
和/>
Figure BDA00039228009100000320
中各对应像素的绝对差值/>
Figure BDA00039228009100000321
根据得到的绝对差值
Figure BDA00039228009100000322
计算得到/>
Figure BDA00039228009100000323
两帧之间的重叠度:
Figure BDA00039228009100000324
其中,(u,v)表示球面投影后的二维图像坐标,O1,2表示
Figure BDA0003922800910000041
两帧之间的重叠度的真值;∈表示阈值;若/>
Figure BDA0003922800910000042
满足小于等于阈值∈的条件,则
Figure BDA0003922800910000043
取值1,反之为0;valid()代表有效的像素个数。
进一步地,所述对于当前帧,选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果包括:
对于当前帧,搜寻在当前帧前N帧之前的历史帧,并且选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,对激光雷达原始三维点云数据进行预处理,获得对应的球面投影图,即训练帧;构建基于自注意力机制和交叉注意力机制的重叠度估计网络;利用得到的训练帧,训练所述重叠度估计网络;其中,在训练过程中,根据重叠度估计网络估计的每对训练帧之间的重叠度,计算重叠度误差损失函数值,基于得到的重叠度误差损失函数值,训练所述重叠度估计网络;利用训练好的重叠度估计网络估计每对扫描对之间的重叠度,扫描对为两帧激光雷达的球面投影图,选取重叠度估计值高于阈值的扫描对作为回环检测候选对象,对于当前帧,选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果,这样,能够提高回环检测或地点识别中的准确率和召回率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于交叉注意力网络的回环检测方法的流程示意图;
图2为本发明实施例提供的原始三维点云转化为球面投影图的原理示意图;
图3为本发明实施例提供的重叠度估计网络的结构示意图;
图4(a)为本发明实施例提供的ECA模块的结构示意图;
图4(b)为本发明实施例提供的CFA模块的结构示意图;
图5(a)为本发明实施例提供的在KITTI序列00中重叠度绝对误差分布图图;
图5(b)为本发明实施例提供的在KITTI序列00中重叠度准确率-召回率曲线的结构示意图;
图6为本发明实施例提供的不同方法在KITTI序列00中的候选者数量-召回率曲线示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例提供了一种基于交叉注意力网络的回环检测方法,包括:
S101,对激光雷达原始三维点云数据进行预处理,获得对应的球面投影图,即训练帧;其中,所述球面投影图包括:二维球面投影深度图、二维球面投影强度图以及法向量图。
本实施例中,所述对激光雷达原始三维点云数据进行预处理,获得对应的球面投影图包括:
A1,通过球面投影对激光雷达原始三维点云数据进行预处理,获得二维球面投影深度图和二维球面投影强度图;
如图2所示,球面投影关系可以表示为
Figure BDA0003922800910000051
其中,/>
Figure BDA0003922800910000052
表示三维实数空间,/>
Figure BDA0003922800910000053
表示二维实数空间。投影平面上的每一个点的像素值都代表了激光雷达传感器与对应的空间点之间的距离,即深度信息。空间上被扫描到的三维点pi=(x,y,z)都能通过以下公式转换到图像坐标(u,v):
Figure BDA0003922800910000054
其中,r=‖p‖2为三维点的深度,f=fup+fdown表示激光雷达的垂直视场角,fup表示上垂直视场角,fdown表示下垂直视场角。而w,h分别是投影图的宽度和高度。
A2,由二维球面投影深度图计算得到法向量图。
S102,构建基于自注意力机制和交叉注意力机制的重叠度估计网络(CrossT-Net);
如图3所示,构建的重叠度估计网络是一种端到端的神经网络,所述重叠度估计网络包括:孪生网络编码器、交叉注意力(Cross Transformer)网络模块和重叠度预测模块。
本实施例中,孪生神经网络编码器由共享权值的全卷积层构成,具体的:所述孪生网络编码器包括:2个子孪生网络编码器,每个子孪生网络编码器都由10层全卷积层堆叠而成,两个子孪生网络编码器的卷积层(CNN)共享权值,如图3所示;子孪生网络编码器的详细结构如表1所示:
表1子孪生网络编码器结构
Figure BDA0003922800910000061
本实施例中,所述孪生网络编码器,用于将两帧点云数据经过球面投影变换后得到的深度图(占用1个通道)、强度图(占用1个通道)和法向量图(占用3个通道)作为输入,其输入尺寸为5×64×900,对应着总通道数、高度、宽度,两帧的输入分别是input1和input2,经过10层共享权值的卷积层,获得对应的两个特征块,特征块的尺寸皆为1×386×128,对输出的两个特征块分别进行向量映射(embedding),并加入位置编码,得到两个分支的386个128维的特征向量,即386个分块(patch)。
本实施例中,用正弦函数来生成空间位置编码,位置编码按如下公式生成:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
其中,pos表示某个分块的位置,d表示一个分块的维度大小(d=128),i取自然数(i=0,1,2,3……),2i表示偶数,2i+1表示奇数,且满足2i≤d,2i+1≤d,PE(pos,2i)表示在第pos个分块中,索引为2i的向量元素所对应的位置编码值,PE(pos,2i+1)表示在第pos个分块中,索引为2i+1的向量元素所对应的位置编码值。
本实施例中,如图3所示,所述交叉注意力网络模块包括:若干个交叉注意力块;每个交叉注意力块包括:2个自注意力特征增强(ego-context augment,ECA)模块和2个交叉注意力特征增强(cross-feature augment,CFA)模块。交叉注意力网络模块,用于实现自注意力和交叉注意力特征增强,从而自适应地关注回环检测相关的关键信息。
本实施例中,每个ECA模块通过多头自注意力来关注有用的上下文信息;将两条分支上d=128的特征向量f1和f2作为2个ECA模块的输入,先通过一个ECA模块,如图4(a)所示,ECA模块计算可总结为下述公式:
XEC=X+MultiHead(X+Px,X+Px,X)
其中,
Figure BDA0003922800910000071
是未带位置编码的输入,/>
Figure BDA0003922800910000072
表示d×Nx维的实数空间,,d表示一个分块的维度,Nx表示分块的个数,设置Nx=386;/>
Figure BDA0003922800910000073
是空间位置编码;
Figure BDA0003922800910000074
是ECA的输出;MultiHead()表示多头自注意力;
多头自注意力的计算公式定义如下:
Figure BDA0003922800910000075
Figure BDA0003922800910000076
Figure BDA0003922800910000077
其中,Q,K,V分别是查询(query),键(key),值(value)矩阵,本发明结构所设置注意力头个数为nh=8,其中,为了防止QKT的内积过大,因此除以dk的平方根,默认值dk=d/nh=16,而
Figure BDA0003922800910000078
Figure BDA0003922800910000079
皆为参数矩阵,/>
Figure BDA00039228009100000710
表示nhdv×dm维的实数空间,dk代表Q,K矩阵的列数,dv代表V矩阵的列数,dm代表多头注意力最终输出的矩阵列数,其中,dm=d=128,dk=dv=16。另外,Concat()表示通道维度上的拼接,Hi表示第i个注意力头矩阵,Attention()表示注意力函数,softmax()为激活函数,并进行归一化。
每个CFA模块同时接收两条分支上的特征向量,并通过多头交叉注意力来融合接收到的这两个特征向量,实现特征的增强;
在交叉注意力块中,分别把本分支的ECA模块输出的查询矩阵query和另一分支的ECA模块输出的键矩阵key以及值矩阵value送入本分支所在的CFA模块,输出依旧是两分支的386个128维特征向量,如图4(b)所示,CFA模块计算可总结为下述公式:
Figure BDA00039228009100000711
Figure BDA0003922800910000081
其中,
Figure BDA0003922800910000082
作为一个分支的输入,/>
Figure BDA0003922800910000083
作为另一分支的输入,
Figure BDA0003922800910000084
和/>
Figure BDA0003922800910000085
分别是两个输入对应的位置编码,Nq和Nkv分别代表各自分支输入特征的分块(patch)数目,其中Nq=Nkv=Nx=386,/>
Figure BDA0003922800910000086
表示通过多头注意力层的输出,XCF是CFA模块的最终输出;FFN()用于增强模型的拟合能力,FFN()为一个全连接的前馈网络,由两个线性变换组成:
FFN(x)=max(0,xW1+b1)W2+b2
其中,x表示FFN()的输入,max()表示求其中最大元素,W1和W2表示权重矩阵,b1和b2表示偏置向量,同一下标代表相同层。
本实施例中,将上述的2个ECA模块和2个CFA模块作为一个交叉注意力块,将交叉注意力块重复N次(本实施例中,N=2),最后输出为2个386×128的向量。
本实施例中,所述重叠度预测模块为解码器,用于估计扫描对之间的重叠度(Overlap),即输出overlap的估计值;所述重叠度预测模块包括:CFA模块和带有dropout层的多层感知器(MLP)层组成。
本实施例中,交叉注意力网络模块输出的两个特征向量作为重叠度预测模块的CFA的输入,其key和value来自同一个特征向量,而query来自另一个特征向量。在CFA之后,这些特征向量被融合成一个新的特征向量,并把得到的新的特征向量展平为一维,送入带有dropout层的多层感知器得到单输出,通过softmax激活函数将估计的重叠度值范围控制在0到1之间。
本实施例中,用全卷积层构成的孪生网络编码器结合基于自注意力与交叉注意力的特征增强模块(即:交叉注意力网络模块),来实现SLAM回环检测中两帧激光雷达点云数据的重叠度估计。
S103,利用得到的训练帧,训练所述重叠度估计网络;其中,在训练过程中,根据重叠度估计网络估计的每对训练帧之间的重叠度,计算重叠度误差损失函数值,基于得到的重叠度误差损失函数值,训练所述重叠度估计网络;
本实施例中,在训练过程中,根据重叠度估计网络输出的每对训练帧之间的重叠度估计值,计算重叠度误差损失函数值;基于得到重叠度误差损失函数值,采取端到端的训练方式并通过反向传播来训练整个重叠度估计网络。
本实施例中,重叠度误差损失函数表示为:
Figure BDA0003922800910000091
其中,L(I1,I2,YO)表示重叠度误差损失函数值,YO表示重叠度的真值,
Figure BDA0003922800910000092
表示重叠度的估计值,I1和I2表示输入的一对训练帧,而sigmoid(x)=(1+exp(-x))-1为激活函数,使得输出值归一化,a和b都表示偏移量,s表示尺度因子。
本实施例中,选择为a=0.3,b=13,s=24。
本实施例中,所述的重叠度的真值计算方法为:
对于一对激光雷达点云数据
Figure BDA0003922800910000093
分别进行球面投影处理,得到/>
Figure BDA0003922800910000094
并将第一帧/>
Figure BDA0003922800910000095
的所有点重投影到第二帧/>
Figure BDA0003922800910000096
的坐标系上,形成重投影映射/>
Figure BDA0003922800910000097
计算/>
Figure BDA0003922800910000098
和/>
Figure BDA0003922800910000099
中各对应像素(深度值)的绝对差值/>
Figure BDA00039228009100000910
其中,(u,v)表示球面投影后的二维图像坐标,根据得到的绝对差值/>
Figure BDA00039228009100000911
计算得到/>
Figure BDA00039228009100000912
两帧之间的重叠度:
Figure BDA00039228009100000913
其中,O1,2表示
Figure BDA00039228009100000914
两帧之间的重叠度的真值;∈表示阈值;若
Figure BDA00039228009100000915
满足小于等于阈值∈的条件,则/>
Figure BDA00039228009100000916
取值1,反之为0;valid()代表有效的像素个数。
S104,利用训练好的重叠度估计网络估计每对扫描对之间的重叠度,扫描对为两帧激光雷达的球面投影图,选取重叠度估计值高于阈值的扫描对作为回环检测候选对象,对于当前帧,选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果。
本实施例中,对于当前帧,搜寻在当前帧前N帧之前的历史帧,并且选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果;若搜寻到无候选者,则判定并非回环。
本实施例中,为了验证本发明实施例提供的回环检测方法的有效性,使用KITTI里程计数据集以及Ford Campus数据集评估测试其性能:
本发明实施例提供的回环检测方法(简称:本发明方法)的评估结果与表2中的其他方法进行比较。表明本发明方法在KITTI数据集序列00的F1最大分数(F1 max)和AUC值(准确率-召回率曲线下的面积,Area Under Curve)都优于其他方法,并且本发明方法top-1召回率(Recall@1)也优于大多数其他方法。其中,若加入先验位姿的条件(在实验中设置搜索半径为50m),其表现能有进一步提升。可以注意到,本发明方法的AUC值甚至比其他方法有很大的领先优势。如图5(a)所示,本发明方法在KITTI测试数据集上的重叠度误差分布,88.4%的重叠度估计值误差范围在0.05以内。如图5(b)所示,本发明方法的准确率-召回率曲线与目前最先进的方法OverlapTransformer相比具有不小优势。其他方法更喜欢单独提取一个分支上的特征,相比之下,本发明方法在数据集上表现特别好的原因是本发明法在早期通过交叉注意加强了扫描对之间的联系,从而更容易专注于关键区域。本发明方法还在未经训练的Ford Campus数据集上测试了本发明的重叠度估计网络。表3显示了本发明方法与其他方法在Ford Campus上的比较,本发明的重叠度估计网络在三个评价指标中均领先。由于本发明没有在Ford Campus数据集上进行训练,因此CrossT-Net在FordCampus中的表现比在KITTI差是可以接受的。
表2KITTI数据集中本发明方法与其他方法对比
Figure BDA0003922800910000101
表3Ford Campus数据集中本发明方法与其他方法对比
Figure BDA0003922800910000102
如图6所示,本实施例中还验证了KITTI数据集上不同个数的候选者对召回率的影响曲线。从实验结果可以发现,此方法在候选者数量小的条件下具有一定的召回率优势,随着候选者数量增多,各类方法所获得的召回率表现相差不大。
为了验证本实施例所述的方法各部分的意义,本实施例中还进行了消融实验。
本实施例进行消融实验来探索不同输入和交叉注意力块的数量对结果的影响。不同输入的消融实验结果如表4所示。这项实验证实,如果CrossT-Net只去除法向量图,AUC值和F1分数最大值的性能不会下降太多,但只输入深度图,表现将会下降明显。
表4不同输入对结果影响的消融实验
Figure BDA0003922800910000111
本发明还使用不同数量的交叉注意力块来训练CrossT-Net。测试结果如表5所示,当N为0时,使用多次感知机层(MLP)代替注意力模块。可以从表5中验证,N取2时,这是最佳选择。同时也表明更多的交叉注意力块并不总是产生更好的结果。
表5不同数量的交叉注意力块对结果影响的消融实验
Figure BDA0003922800910000112
本发明实施例所述的回环检测方法,至少具有以下优点:
1)本发明是一种基于交叉注意力网络模块的回环检测方法,通过深度神经网络仅使用来自激光雷达的球面投影图,不使用任何其他信息来估计两帧间的重叠度,并利用所估计的重叠度(Overlap)来预测其是否为回环。
2)增加了结合自注意力机制和交叉注意力机制的交叉注意力网络模块,能够自适应地关注回环检测相关的关键信息,从而提高回环检测或地点识别中的准确率和召回率。
3)本发明可以在没有任何先验姿态的情况下检测环路,并且可以在没有微调的情况下应用于不同的道路环境。
4)本发明在不同的数据集上验证了此方法,并且可以获得比最先进的方法更好的结果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于交叉注意力网络的回环检测方法,其特征在于,包括:
对激光雷达原始三维点云数据进行预处理,获得对应的球面投影图,即训练帧;
构建基于自注意力机制和交叉注意力机制的重叠度估计网络;
利用得到的训练帧,训练所述重叠度估计网络;其中,在训练过程中,根据重叠度估计网络估计的每对训练帧之间的重叠度,计算重叠度误差损失函数值,基于得到的重叠度误差损失函数值,训练所述重叠度估计网络;
利用训练好的重叠度估计网络估计每对扫描对之间的重叠度,扫描对为两帧激光雷达的球面投影图,选取重叠度估计值高于阈值的扫描对作为回环检测候选对象,对于当前帧,选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果;
其中,所述球面投影图包括:二维球面投影深度图、二维球面投影强度图以及法向量图;
所述对激光雷达原始三维点云数据进行预处理,获得对应的球面投影图包括:
通过球面投影对激光雷达原始三维点云数据进行预处理,获得二维球面投影深度图和二维球面投影强度图;
由二维球面投影深度图计算得到法向量图;
其中,所述重叠度估计网络包括:孪生网络编码器、交叉注意力网络模块和重叠度预测模块;其中,
所述孪生网络编码器包括:2个子孪生网络编码器,每个子孪生网络编码器都由10层全卷积层堆叠而成,两个子孪生网络编码器的卷积层共享权值;
所述孪生网络编码器,用于将两帧点云数据经过球面投影变换后得到的深度图、强度图和法向量图作为输入,经过10层共享权值的卷积层,获得对应的两个特征块,对输出的两个特征块分别进行向量映射,并加入位置编码,得到特征向量f1和f2;其中,f1和f2作为交叉注意力网络模块的输入;
位置编码生成公式为:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
其中,pos表示某个分块的位置,d表示一个分块的维度大小,2i表示偶数,2i+1表示奇数,且满足2i≤d,2i+1≤d,i取自然数,PE(pos,2i)表示在第pos个分块中,索引为2i的向量元素所对应的位置编码值,PE(pos,2i+1)表示在第pos个分块中,索引为2i+1的向量元素所对应的位置编码值;
其中,所述交叉注意力网络模块包括:若干个交叉注意力块;
每个交叉注意力块包括:2个ECA模块和2个CFA模块;其中,ECA表示自注意力特征增强,CFA表示交叉注意力特征增强;
每个ECA模块通过多头自注意力来关注有用的上下文信息;ECA模块表示为:
XEC=X+MultiHead(X+Px,X+Px,X)
其中,
Figure FDA0004201726920000021
是未带位置编码的输入,/>
Figure FDA0004201726920000022
表示d×Nx维的实数空间,Nx表示分块的个数,d表示一个分块的维度;/>
Figure FDA0004201726920000023
是空间位置编码;/>
Figure FDA0004201726920000024
Figure FDA0004201726920000025
是ECA的输出;MultiHead()表示多头自注意力
每个CFA模块同时接收两条分支上的特征向量,并通过多头交叉注意力来融合接收到的这两个特征向量,实现特征的增强;
在交叉注意力块中,分别把本分支的ECA模块输出的query和另一分支的ECA模块输出的key以及value送入本分支所在的CFA模块,CFA模块表示为:
Figure FDA0004201726920000026
Figure FDA0004201726920000027
其中,query、key、value分别表示查询矩阵、键矩阵、值矩阵,
Figure FDA0004201726920000028
作为一个分支的输入,/>
Figure FDA0004201726920000029
作为另一分支的输入,/>
Figure FDA00042017269200000210
分别表示d×Nq维、d×Nkv维的实数空间,Nq和Nkv分别表示各自分支输入特征的分块数目,/>
Figure FDA00042017269200000211
Figure FDA00042017269200000212
分别是两个输入对应的位置编码,/>
Figure FDA00042017269200000213
表示通过多头注意力层的输出,XCF是CFA模块的最终输出;FFN()为全连接的前馈网络,由两个线性变换组成:
FFN(x)=max(0,xW1+b1)W2+b2
其中,x表示FFN()的输入,max()表示求其中最大元素,W1和W2表示权重矩阵,b1和b2表示偏置向量,同一下标代表相同层;
其中,所述重叠度预测模块,用于估计扫描对之间的重叠度;
所述重叠度预测模块包括:CFA模块和带有dropout层的MLP层组成;其中,MLP表示多层感知器;
其中,重叠度误差损失函数表示为:
Figure FDA0004201726920000031
其中,L(I1,I2,YO)表示重叠度误差损失函数值,YO表示重叠度的真值,
Figure FDA0004201726920000032
表示重叠度的估计值,I1和I2表示输入的一对训练帧,sigmoid()为激活函数,a和b都表示偏移量,s表示尺度因子;
其中,对于一对激光雷达点云数据
Figure FDA0004201726920000033
分别进行球面投影处理,得到/>
Figure FDA00042017269200000317
并将第一帧/>
Figure FDA0004201726920000034
的所有点重投影到第二帧/>
Figure FDA0004201726920000035
的坐标系上,形成重投影映射/>
Figure FDA0004201726920000036
计算/>
Figure FDA0004201726920000037
和/>
Figure FDA0004201726920000038
中各对应像素的绝对差值/>
Figure FDA0004201726920000039
根据得到的绝对差值
Figure FDA00042017269200000310
计算得到/>
Figure FDA00042017269200000311
两帧之间的重叠度:
Figure FDA00042017269200000312
其中,(u,v)表示球面投影后的二维图像坐标,O1,2表示
Figure FDA00042017269200000313
两帧之间的重叠度的真值;∈表示阈值;若/>
Figure FDA00042017269200000316
满足小于等于阈值∈的条件,则
Figure FDA00042017269200000315
取值1,反之为0;valid()代表有效的像素个数。
2.根据权利要求1所述的基于交叉注意力网络的回环检测方法,其特征在于,所述对于当前帧,选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果包括:
对于当前帧,搜寻在当前帧前N帧之前的历史帧,并且选择重叠度估计值最大的候选者作为回环匹配帧,且判定该回环匹配帧位置为回环检测结果。
CN202211361582.7A 2022-11-02 2022-11-02 一种基于交叉注意力网络的回环检测方法 Active CN115631319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211361582.7A CN115631319B (zh) 2022-11-02 2022-11-02 一种基于交叉注意力网络的回环检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211361582.7A CN115631319B (zh) 2022-11-02 2022-11-02 一种基于交叉注意力网络的回环检测方法

Publications (2)

Publication Number Publication Date
CN115631319A CN115631319A (zh) 2023-01-20
CN115631319B true CN115631319B (zh) 2023-06-23

Family

ID=84908545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211361582.7A Active CN115631319B (zh) 2022-11-02 2022-11-02 一种基于交叉注意力网络的回环检测方法

Country Status (1)

Country Link
CN (1) CN115631319B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689562A (zh) * 2019-09-26 2020-01-14 深圳市唯特视科技有限公司 一种基于生成对抗网络的轨迹回环检测优化方法
CN112258600A (zh) * 2020-10-19 2021-01-22 浙江大学 一种基于视觉与激光雷达的同时定位与地图构建方法
CN114937083A (zh) * 2022-05-27 2022-08-23 山东大学 一种应用于动态环境的激光slam系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108303710B (zh) * 2018-06-12 2018-11-02 江苏中科院智能科学技术应用研究院 基于三维激光雷达的无人机多场景定位建图方法
CN109615698A (zh) * 2018-12-03 2019-04-12 哈尔滨工业大学(深圳) 基于互回环检测的多无人机slam地图融合算法
CN111832484B (zh) * 2020-07-14 2023-10-27 星际(重庆)智能装备技术研究院有限公司 一种基于卷积感知哈希算法的回环检测方法
CN112461228B (zh) * 2020-11-03 2023-05-09 南昌航空大学 一种相似环境下基于imu和视觉的二次回环检测定位方法
CN112419317B (zh) * 2020-12-15 2024-02-02 东北大学 一种基于自编码网络的视觉回环检测方法
CN112396167B (zh) * 2020-12-30 2022-07-15 桂林电子科技大学 一种外观相似度与空间位置信息融合的回环检测方法
CN113988269A (zh) * 2021-11-05 2022-01-28 南通大学 一种基于改进孪生网络的回环检测及优化方法
CN114861761A (zh) * 2022-04-06 2022-08-05 南通大学 一种基于孪生网络特征与几何验证的回环检测方法
CN114926742A (zh) * 2022-06-17 2022-08-19 南通大学 一种基于二阶注意力机制的回环检测及优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689562A (zh) * 2019-09-26 2020-01-14 深圳市唯特视科技有限公司 一种基于生成对抗网络的轨迹回环检测优化方法
CN112258600A (zh) * 2020-10-19 2021-01-22 浙江大学 一种基于视觉与激光雷达的同时定位与地图构建方法
CN114937083A (zh) * 2022-05-27 2022-08-23 山东大学 一种应用于动态环境的激光slam系统及方法

Also Published As

Publication number Publication date
CN115631319A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
CN111325797A (zh) 一种基于自监督学习的位姿估计方法
CN111667535B (zh) 一种针对遮挡场景下的六自由度位姿估计方法
CN113538506A (zh) 基于全局动态场景信息深度建模的行人轨迹预测方法
Wu et al. Autonomous seam recognition and feature extraction for multi-pass welding based on laser stripe edge guidance network
CN112651262B (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
CN115908517B (zh) 一种基于对应点匹配矩阵优化的低重叠点云配准方法
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
CN112819080B (zh) 一种高精度通用的三维点云识别方法
Tang et al. Sonar image mosaic based on a new feature matching method
CN115690152A (zh) 一种基于注意力机制的目标追踪方法
CN117152554A (zh) 基于ViT模型的病理切片数据识别方法及系统
CN110956601B (zh) 一种基于多传感器样态系数的红外图像融合方法和装置以及计算机可读存储介质
CN114821536A (zh) 一种改进yolov5的无人驾驶拖拉机田间障碍物识别方法
CN114972439A (zh) 一种新的无人机目标跟踪算法
Yao et al. DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for Monocular 3D Semantic Scene Completion
CN115631319B (zh) 一种基于交叉注意力网络的回环检测方法
CN117011342A (zh) 一种注意力增强的时空Transformer视觉单目标跟踪方法
Mharolkar et al. RGBDTCalibNet: End-to-end Online Extrinsic Calibration between a 3D LiDAR, an RGB Camera and a Thermal Camera
CN116402858A (zh) 基于transformer的时空信息融合的红外目标跟踪方法
CN111578956A (zh) 一种基于深度学习的视觉slam定位方法
CN116486155A (zh) 基于Transformer和级联特征的目标检测方法
CN116563337A (zh) 基于双注意力机制的目标跟踪方法
CN115578574A (zh) 一种基于深度学习和拓扑感知的三维点云补全方法
CN115240079A (zh) 一种多源遥感影像深度特征融合匹配方法
Deng et al. Neslam: Neural implicit mapping and self-supervised feature tracking with depth completion and denoising

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant