CN115631319B

CN115631319B - 一种基于交叉注意力网络的回环检测方法

Info

Publication number: CN115631319B
Application number: CN202211361582.7A
Authority: CN
Inventors: 曾慧; 郑锐; 刘红敏; 樊彬; 张利欣
Original assignee: University of Science and Technology Beijing USTB; Shunde Innovation School of University of Science and Technology Beijing
Current assignee: University of Science and Technology Beijing USTB; Shunde Innovation School of University of Science and Technology Beijing
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-06-23
Anticipated expiration: 2042-11-02
Also published as: CN115631319A

Abstract

本发明提供一种基于交叉注意力网络的回环检测方法，属于计算机视觉技术领域。所述方法包括：对激光雷达原始三维点云数据进行预处理，获得对应的球面投影图，即训练帧；构建基于自注意力机制和交叉注意力机制的重叠度估计网络；利用得到的训练帧，训练所述重叠度估计网络；利用训练好的重叠度估计网络估计每对扫描对之间的重叠度，扫描对为两帧激光雷达的球面投影图，选取重叠度估计值高于阈值的扫描对作为回环检测候选对象，对于当前帧，选择重叠度估计值最大的候选者作为回环匹配帧，且判定该回环匹配帧位置为回环检测结果。采用本发明，能够提高回环检测或地点识别中的准确率和召回率。

Description

一种基于交叉注意力网络的回环检测方法

技术领域

本发明涉及计算机视觉技术领域，特别是指一种基于交叉注意力网络的回环检测方法。

背景技术

同时定位与建图(SLAM)是无人驾驶或机器人自主导航中的一个重要组成部分。经典的SLAM框架通常由五部分组成，分别是传感器信息读取，前端里程计，回环检测，后端优化以及建图。其中，回环检测是判断机器人或无人车是否到达过先前的位置，用于更新当前帧与历史帧之间的位姿约束关系，以减小累积误差，从而得到信息一致的地图。基于激光雷达和基于视觉的回环检测方法较为常见。但同一地点通常会因光照、天气或视角的变化而变化，这在基于视觉的回环检测中是很难解决的，导致回环检测准确率低。

发明内容

本发明实施例提供了一种基于交叉注意力网络的回环检测方法，能够提高回环检测或地点识别中的准确率和召回率。

本发明实施例提供的基于交叉注意力网络的回环检测方法，包括：

对激光雷达原始三维点云数据进行预处理，获得对应的球面投影图，即训练帧；

构建基于自注意力机制和交叉注意力机制的重叠度估计网络；

利用得到的训练帧，训练所述重叠度估计网络；其中，在训练过程中，根据重叠度估计网络估计的每对训练帧之间的重叠度，计算重叠度误差损失函数值，基于得到的重叠度误差损失函数值，训练所述重叠度估计网络；

利用训练好的重叠度估计网络估计每对扫描对之间的重叠度，扫描对为两帧激光雷达的球面投影图，选取重叠度估计值高于阈值的扫描对作为回环检测候选对象，对于当前帧，选择重叠度估计值最大的候选者作为回环匹配帧，且判定该回环匹配帧位置为回环检测结果。

进一步地，所述球面投影图包括：二维球面投影深度图、二维球面投影强度图以及法向量图；

所述对激光雷达原始三维点云数据进行预处理，获得对应的球面投影图包括：

通过球面投影对激光雷达原始三维点云数据进行预处理，获得二维球面投影深度图和二维球面投影强度图；

由二维球面投影深度图计算得到法向量图。

进一步地，所述重叠度估计网络包括：孪生网络编码器、交叉注意力网络模块和重叠度预测模块；其中，

所述孪生网络编码器包括：2个子孪生网络编码器，每个子孪生网络编码器都由10层全卷积层堆叠而成，两个子孪生网络编码器的卷积层共享权值；

所述孪生网络编码器，用于将两帧点云数据经过球面投影变换后得到的深度图、强度图和法向量图作为输入，经过10层共享权值的卷积层，获得对应的两个特征块，对输出的两个特征块分别进行向量映射，并加入位置编码，得到特征向量f₁和f₂；其中，f₁和f₂作为交叉注意力网络模块的输入；

位置编码生成公式为：

PE_(pos,2i)＝sin(pos/10000^2i/d)

PE_(pos,2i+1)＝cos(pos/10000^2i/d)

其中，pos表示某个分块的位置，d表示一个分块的维度大小，2i表示偶数，2i+1表示奇数，且满足2i≤d,2i+1≤d，i取自然数，PE_(pos,2i)表示在第pos个分块中，索引为2i的向量元素所对应的位置编码值，PE_(pos,2i+1)表示在第pos个分块中，索引为2i+1的向量元素所对应的位置编码值。

进一步地，所述交叉注意力网络模块包括：若干个交叉注意力块；

每个交叉注意力块包括：2个ECA模块和2个CFA模块；其中，ECA表示自注意力特征增强，CFA表示交叉注意力特征增强；

每个ECA模块通过多头自注意力来关注有用的上下文信息；ECA模块表示为：

X_EC＝X+MultiHead(X+P_x,X+P_x,X)

其中，

是未带位置编码的输入，/>

表示d×N_x维的实数空间，N_x表示分块的个数，d表示一个分块的维度；/>

是空间位置编码；/>

是ECA的输出；MultiHead()表示多头自注意力；

每个CFA模块同时接收两条分支上的特征向量，并通过多头交叉注意力来融合接收到的这两个特征向量，实现特征的增强；

在交叉注意力块中，分别把本分支的ECA模块输出的query和另一分支的ECA模块输出的key以及value送入本分支所在的CFA模块，CFA模块表示为：

其中，query、key、value分别表示查询矩阵、键矩阵、值矩阵，

作为一个分支的输入，/>

作为另一分支的输入，/>

分别表示d×N_q维、d×N_kv维的实数空间，N_q和N_kv分别表示各自分支输入特征的分块数目，/>

和

分别是两个输入对应的位置编码，/>

表示通过多头注意力层的输出，X_CF是CFA模块的最终输出；FFN()为全连接的前馈网络，由两个线性变换组成：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

其中，x表示FFN()的输入，max()表示求其中最大元素，W₁和W₂表示权重矩阵，b₁和b₂表示偏置向量，同一下标代表相同层。

进一步地，所述重叠度预测模块，用于估计扫描对之间的重叠度；

所述重叠度预测模块包括：CFA模块和带有dropout层的MLP层组成；其中，MLP表示多层感知器。

进一步地，重叠度误差损失函数表示为：

其中，L(I₁,I₂,Y_O)表示重叠度误差损失函数值，Y_O表示重叠度的真值，

表示重叠度的估计值，I₁和I₂表示输入的一对训练帧，sigmoid()为激活函数，a和b都表示偏移量，s表示尺度因子。

进一步地，对于一对激光雷达点云数据

分别进行球面投影处理，得到

并将第一帧/>

的所有点重投影到第二帧/>

的坐标系上，形成重投影映射/>

计算/>

和/>

中各对应像素的绝对差值/>

根据得到的绝对差值

计算得到/>

两帧之间的重叠度：

其中，(u,v)表示球面投影后的二维图像坐标，O_1，2表示

两帧之间的重叠度的真值；∈表示阈值；若/>

满足小于等于阈值∈的条件，则

取值1，反之为0；valid()代表有效的像素个数。

进一步地，所述对于当前帧，选择重叠度估计值最大的候选者作为回环匹配帧，且判定该回环匹配帧位置为回环检测结果包括：

对于当前帧，搜寻在当前帧前N帧之前的历史帧，并且选择重叠度估计值最大的候选者作为回环匹配帧，且判定该回环匹配帧位置为回环检测结果。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，对激光雷达原始三维点云数据进行预处理，获得对应的球面投影图，即训练帧；构建基于自注意力机制和交叉注意力机制的重叠度估计网络；利用得到的训练帧，训练所述重叠度估计网络；其中，在训练过程中，根据重叠度估计网络估计的每对训练帧之间的重叠度，计算重叠度误差损失函数值，基于得到的重叠度误差损失函数值，训练所述重叠度估计网络；利用训练好的重叠度估计网络估计每对扫描对之间的重叠度，扫描对为两帧激光雷达的球面投影图，选取重叠度估计值高于阈值的扫描对作为回环检测候选对象，对于当前帧，选择重叠度估计值最大的候选者作为回环匹配帧，且判定该回环匹配帧位置为回环检测结果，这样，能够提高回环检测或地点识别中的准确率和召回率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于交叉注意力网络的回环检测方法的流程示意图；

图2为本发明实施例提供的原始三维点云转化为球面投影图的原理示意图；

图3为本发明实施例提供的重叠度估计网络的结构示意图；

图4(a)为本发明实施例提供的ECA模块的结构示意图；

图4(b)为本发明实施例提供的CFA模块的结构示意图；

图5(a)为本发明实施例提供的在KITTI序列00中重叠度绝对误差分布图图；

图5(b)为本发明实施例提供的在KITTI序列00中重叠度准确率-召回率曲线的结构示意图；

图6为本发明实施例提供的不同方法在KITTI序列00中的候选者数量-召回率曲线示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供了一种基于交叉注意力网络的回环检测方法，包括：

S101，对激光雷达原始三维点云数据进行预处理，获得对应的球面投影图，即训练帧；其中，所述球面投影图包括：二维球面投影深度图、二维球面投影强度图以及法向量图。

本实施例中，所述对激光雷达原始三维点云数据进行预处理，获得对应的球面投影图包括：

A1，通过球面投影对激光雷达原始三维点云数据进行预处理，获得二维球面投影深度图和二维球面投影强度图；

如图2所示，球面投影关系可以表示为

其中，/>

表示三维实数空间，/>

表示二维实数空间。投影平面上的每一个点的像素值都代表了激光雷达传感器与对应的空间点之间的距离，即深度信息。空间上被扫描到的三维点p_i＝(x,y,z)都能通过以下公式转换到图像坐标(u,v)：

其中，r＝‖p‖₂为三维点的深度，f＝f_up+f_down表示激光雷达的垂直视场角，f_up表示上垂直视场角，f_down表示下垂直视场角。而w,h分别是投影图的宽度和高度。

A2，由二维球面投影深度图计算得到法向量图。

S102，构建基于自注意力机制和交叉注意力机制的重叠度估计网络(CrossT-Net)；

如图3所示，构建的重叠度估计网络是一种端到端的神经网络，所述重叠度估计网络包括：孪生网络编码器、交叉注意力(Cross Transformer)网络模块和重叠度预测模块。

本实施例中，孪生神经网络编码器由共享权值的全卷积层构成，具体的：所述孪生网络编码器包括：2个子孪生网络编码器，每个子孪生网络编码器都由10层全卷积层堆叠而成，两个子孪生网络编码器的卷积层(CNN)共享权值，如图3所示；子孪生网络编码器的详细结构如表1所示：

表1子孪生网络编码器结构

本实施例中，所述孪生网络编码器，用于将两帧点云数据经过球面投影变换后得到的深度图(占用1个通道)、强度图(占用1个通道)和法向量图(占用3个通道)作为输入，其输入尺寸为5×64×900，对应着总通道数、高度、宽度，两帧的输入分别是input1和input2，经过10层共享权值的卷积层，获得对应的两个特征块，特征块的尺寸皆为1×386×128，对输出的两个特征块分别进行向量映射(embedding)，并加入位置编码，得到两个分支的386个128维的特征向量，即386个分块(patch)。

本实施例中，用正弦函数来生成空间位置编码，位置编码按如下公式生成：

PE_(pos,2i)＝sin(pos/10000^2i/d)

PE_(pos,2i+1)＝cos(pos/10000^2i/d)

其中，pos表示某个分块的位置，d表示一个分块的维度大小(d＝128)，i取自然数(i＝0,1,2,3……)，2i表示偶数，2i+1表示奇数，且满足2i≤d,2i+1≤d，PE_(pos,2i)表示在第pos个分块中，索引为2i的向量元素所对应的位置编码值，PE_(pos,2i+1)表示在第pos个分块中，索引为2i+1的向量元素所对应的位置编码值。

本实施例中，如图3所示，所述交叉注意力网络模块包括：若干个交叉注意力块；每个交叉注意力块包括：2个自注意力特征增强(ego-context augment，ECA)模块和2个交叉注意力特征增强(cross-feature augment，CFA)模块。交叉注意力网络模块，用于实现自注意力和交叉注意力特征增强，从而自适应地关注回环检测相关的关键信息。

本实施例中，每个ECA模块通过多头自注意力来关注有用的上下文信息；将两条分支上d＝128的特征向量f₁和f₂作为2个ECA模块的输入，先通过一个ECA模块，如图4(a)所示，ECA模块计算可总结为下述公式:

X_EC＝X+MultiHead(X+P_x,X+P_x,X)

其中，

是未带位置编码的输入，/>

表示d×N_x维的实数空间，，d表示一个分块的维度，N_x表示分块的个数，设置N_x＝386；/>

是空间位置编码；

是ECA的输出；MultiHead()表示多头自注意力；

多头自注意力的计算公式定义如下：

其中，Q,K,V分别是查询(query)，键(key)，值(value)矩阵，本发明结构所设置注意力头个数为n_h＝8，其中，为了防止QK^T的内积过大，因此除以d_k的平方根，默认值d_k＝d/n_h＝16，而

皆为参数矩阵，/>

表示n_hd_v×d_m维的实数空间，d_k代表Q,K矩阵的列数，d_v代表V矩阵的列数，d_m代表多头注意力最终输出的矩阵列数，其中，d_m＝d＝128，d_k＝d_v＝16。另外，Concat()表示通道维度上的拼接，H_i表示第i个注意力头矩阵，Attention()表示注意力函数，softmax()为激活函数，并进行归一化。

在交叉注意力块中，分别把本分支的ECA模块输出的查询矩阵query和另一分支的ECA模块输出的键矩阵key以及值矩阵value送入本分支所在的CFA模块，输出依旧是两分支的386个128维特征向量，如图4(b)所示，CFA模块计算可总结为下述公式:

其中，

作为一个分支的输入，/>

作为另一分支的输入，

和/>

分别是两个输入对应的位置编码，N_q和N_kv分别代表各自分支输入特征的分块(patch)数目，其中N_q＝N_kv＝N_x＝386，/>

表示通过多头注意力层的输出，X_CF是CFA模块的最终输出；FFN()用于增强模型的拟合能力，FFN()为一个全连接的前馈网络，由两个线性变换组成：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

本实施例中，将上述的2个ECA模块和2个CFA模块作为一个交叉注意力块，将交叉注意力块重复N次(本实施例中，N＝2)，最后输出为2个386×128的向量。

本实施例中，所述重叠度预测模块为解码器，用于估计扫描对之间的重叠度(Overlap)，即输出overlap的估计值；所述重叠度预测模块包括：CFA模块和带有dropout层的多层感知器(MLP)层组成。

本实施例中，交叉注意力网络模块输出的两个特征向量作为重叠度预测模块的CFA的输入，其key和value来自同一个特征向量，而query来自另一个特征向量。在CFA之后，这些特征向量被融合成一个新的特征向量，并把得到的新的特征向量展平为一维，送入带有dropout层的多层感知器得到单输出，通过softmax激活函数将估计的重叠度值范围控制在0到1之间。

本实施例中，用全卷积层构成的孪生网络编码器结合基于自注意力与交叉注意力的特征增强模块(即：交叉注意力网络模块)，来实现SLAM回环检测中两帧激光雷达点云数据的重叠度估计。

S103，利用得到的训练帧，训练所述重叠度估计网络；其中，在训练过程中，根据重叠度估计网络估计的每对训练帧之间的重叠度，计算重叠度误差损失函数值，基于得到的重叠度误差损失函数值，训练所述重叠度估计网络；

本实施例中，在训练过程中，根据重叠度估计网络输出的每对训练帧之间的重叠度估计值，计算重叠度误差损失函数值；基于得到重叠度误差损失函数值，采取端到端的训练方式并通过反向传播来训练整个重叠度估计网络。

本实施例中，重叠度误差损失函数表示为：

表示重叠度的估计值，I₁和I₂表示输入的一对训练帧，而sigmoid(x)＝(1+exp(-x))^-1为激活函数，使得输出值归一化，a和b都表示偏移量，s表示尺度因子。

本实施例中，选择为a＝0.3，b＝13，s＝24。

本实施例中，所述的重叠度的真值计算方法为：

对于一对激光雷达点云数据

分别进行球面投影处理，得到/>

并将第一帧/>

的所有点重投影到第二帧/>

的坐标系上，形成重投影映射/>

计算/>

和/>

中各对应像素(深度值)的绝对差值/>

其中，(u,v)表示球面投影后的二维图像坐标，根据得到的绝对差值/>

计算得到/>

两帧之间的重叠度：

其中，O_1，2表示

两帧之间的重叠度的真值；∈表示阈值；若

满足小于等于阈值∈的条件，则/>

取值1，反之为0；valid()代表有效的像素个数。

S104，利用训练好的重叠度估计网络估计每对扫描对之间的重叠度，扫描对为两帧激光雷达的球面投影图，选取重叠度估计值高于阈值的扫描对作为回环检测候选对象，对于当前帧，选择重叠度估计值最大的候选者作为回环匹配帧，且判定该回环匹配帧位置为回环检测结果。

本实施例中，对于当前帧，搜寻在当前帧前N帧之前的历史帧，并且选择重叠度估计值最大的候选者作为回环匹配帧，且判定该回环匹配帧位置为回环检测结果；若搜寻到无候选者，则判定并非回环。

本实施例中，为了验证本发明实施例提供的回环检测方法的有效性，使用KITTI里程计数据集以及Ford Campus数据集评估测试其性能：

本发明实施例提供的回环检测方法(简称：本发明方法)的评估结果与表2中的其他方法进行比较。表明本发明方法在KITTI数据集序列00的F1最大分数(F1 max)和AUC值(准确率-召回率曲线下的面积，Area Under Curve)都优于其他方法，并且本发明方法top-1召回率(Recall@1)也优于大多数其他方法。其中，若加入先验位姿的条件(在实验中设置搜索半径为50m)，其表现能有进一步提升。可以注意到，本发明方法的AUC值甚至比其他方法有很大的领先优势。如图5(a)所示，本发明方法在KITTI测试数据集上的重叠度误差分布，88.4％的重叠度估计值误差范围在0.05以内。如图5(b)所示，本发明方法的准确率-召回率曲线与目前最先进的方法OverlapTransformer相比具有不小优势。其他方法更喜欢单独提取一个分支上的特征，相比之下，本发明方法在数据集上表现特别好的原因是本发明法在早期通过交叉注意加强了扫描对之间的联系，从而更容易专注于关键区域。本发明方法还在未经训练的Ford Campus数据集上测试了本发明的重叠度估计网络。表3显示了本发明方法与其他方法在Ford Campus上的比较，本发明的重叠度估计网络在三个评价指标中均领先。由于本发明没有在Ford Campus数据集上进行训练，因此CrossT-Net在FordCampus中的表现比在KITTI差是可以接受的。

表2KITTI数据集中本发明方法与其他方法对比

表3Ford Campus数据集中本发明方法与其他方法对比

如图6所示，本实施例中还验证了KITTI数据集上不同个数的候选者对召回率的影响曲线。从实验结果可以发现，此方法在候选者数量小的条件下具有一定的召回率优势，随着候选者数量增多，各类方法所获得的召回率表现相差不大。

为了验证本实施例所述的方法各部分的意义，本实施例中还进行了消融实验。

本实施例进行消融实验来探索不同输入和交叉注意力块的数量对结果的影响。不同输入的消融实验结果如表4所示。这项实验证实，如果CrossT-Net只去除法向量图，AUC值和F1分数最大值的性能不会下降太多，但只输入深度图，表现将会下降明显。

表4不同输入对结果影响的消融实验

本发明还使用不同数量的交叉注意力块来训练CrossT-Net。测试结果如表5所示，当N为0时，使用多次感知机层(MLP)代替注意力模块。可以从表5中验证，N取2时，这是最佳选择。同时也表明更多的交叉注意力块并不总是产生更好的结果。

表5不同数量的交叉注意力块对结果影响的消融实验

本发明实施例所述的回环检测方法，至少具有以下优点：

1)本发明是一种基于交叉注意力网络模块的回环检测方法，通过深度神经网络仅使用来自激光雷达的球面投影图，不使用任何其他信息来估计两帧间的重叠度，并利用所估计的重叠度(Overlap)来预测其是否为回环。

2)增加了结合自注意力机制和交叉注意力机制的交叉注意力网络模块，能够自适应地关注回环检测相关的关键信息，从而提高回环检测或地点识别中的准确率和召回率。

3)本发明可以在没有任何先验姿态的情况下检测环路，并且可以在没有微调的情况下应用于不同的道路环境。

4)本发明在不同的数据集上验证了此方法，并且可以获得比最先进的方法更好的结果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于交叉注意力网络的回环检测方法，其特征在于，包括：

利用训练好的重叠度估计网络估计每对扫描对之间的重叠度，扫描对为两帧激光雷达的球面投影图，选取重叠度估计值高于阈值的扫描对作为回环检测候选对象，对于当前帧，选择重叠度估计值最大的候选者作为回环匹配帧，且判定该回环匹配帧位置为回环检测结果；

其中，所述球面投影图包括：二维球面投影深度图、二维球面投影强度图以及法向量图；

由二维球面投影深度图计算得到法向量图；

其中，所述重叠度估计网络包括：孪生网络编码器、交叉注意力网络模块和重叠度预测模块；其中，

位置编码生成公式为：

PE_(pos，2i)＝sin(pos/10000^2i/d)

PE_(pos，2i+1)＝cos(pos/10000^2i/d)

其中，pos表示某个分块的位置，d表示一个分块的维度大小，2i表示偶数，2i+1表示奇数，且满足2i≤d，2i+1≤d，i取自然数，PE_(pos，2i)表示在第pos个分块中，索引为2i的向量元素所对应的位置编码值，PE_(pos，2i+1)表示在第pos个分块中，索引为2i+1的向量元素所对应的位置编码值；

其中，所述交叉注意力网络模块包括：若干个交叉注意力块；

X_EC＝X+MultiHead(X+P_x，X+P_x，X)

其中，