CN111105439B

CN111105439B - 一种使用残差注意力机制网络的同步定位与建图方法

Info

Publication number: CN111105439B
Application number: CN201911190243.5A
Authority: CN
Inventors: 张佳伟; 尤鸣宇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2023-05-02
Anticipated expiration: 2039-11-28
Also published as: CN111105439A

Abstract

本发明涉及一种使用残差注意力机制网络的同步定位与建图方法，包括以下步骤：步骤1：对神经网络进行训练；步骤2：将一组图片输入神经网络，获得每张图片对应的RGB图和特征权重图；步骤3：对RGB图进行改进FAST角点检测；步骤4：选择最终的特征点；步骤5：匹配特征点，对极约束求解相机初始化运动；步骤6：求解局部的相机运动；步骤7：进行图像之间的回环检测，得到相机的精准轨迹；步骤8：进行稠密重建，获得环境地图。与现有技术相比，本发明具有特征点更容易被人理解、重要区域可通过颜色和亮度突出显示等优点。

Description

一种使用残差注意力机制网络的同步定位与建图方法

技术领域

本发明涉及一种同步定位与建图方法，尤其是涉及一种使用残差注意力机制网络的同步定位与建图方法。

背景技术

同步定位与建图是计算机领域一个比较经典的问题，它在图像处理和计算机视觉领域得到了广泛地研究，但目前仍然是一个具有挑战性的问题。它是指运动物体根据传感器的信息，一边计算自身位置，一边构建环境地图的过程。传统的同步定位与建图方法主要是基于特征点法来估计相机运动。因为图片本身包含的信息过多，大部分方法都是从图像中选取具有代表性的点，在经典同步定位与建图方法里中称之为路标。

同步定位与建图另一个可能更有前景的研究方向是基于神经网络的方法。基于神经网络的方法与其它方法的一个最大不同点就是它从训练数据中学习到高级语义信息得到用于用来恢复轨迹和建立地图的路标。传统方法与人类执行映射任务的方式大相径庭，人类的视觉系统通过一系列的固定流程来识别、分割、跟踪和导航等各种任务。因此由神经网络以对象为中心的将高级语义引入视觉里程计的方法比传统方法更有效。此外，机器人需要记录由这些特征生成的地图的所有信息。范围越大，地图将按比例增长，而这是因为传统方法的几何特征信息冗余度太高。深度学习得到的特征可以通过权重的高低让人能找到地标地图上重要的位置，以便进一步定位和导航。也就是说神经网络找到的地标不仅是人类可以理解的，也是更高效的。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种特征点更加符合人类认知的使用残差注意力机制网络的同步定位与建图方法。

本发明的目的可以通过以下技术方案来实现：

一种使用残差注意力机制网络的同步定位与建图方法，包括以下步骤：

步骤1：对由残差注意力机制网络和长短期记忆网络组成的神经网络进行训练；

步骤2：将一组图片输入神经网络，获得每张图片对应的RGB图和特征权重图；

步骤3：对RGB图进行在特征图指导下的改进FAST角点检测；

步骤4：通过harris响应值由步骤3检测得到的角点中选择最终的特征点；

步骤5：匹配特征点，对极约束求解相机初始化运动；

步骤6：使用bundle adjustment最优化重投影误差求解局部的相机运动；

步骤7：进行图像之间的回环检测，得到相机的精准轨迹；

步骤8：由相机的轨迹、RGB图和特征点进行稠密重建，获得环境地图。

优选地，所述的步骤1具体为：

步骤1-1：获取一组相机的输入，并对相机进行参数标定，获得每张图片对应的六个位姿参数和RGB图；

步骤1-2：将RGB图输入神经网络，输出为六个位姿参数的预测值和图像的特征权重图，根据位姿参数的预测值和由步骤1-1得到的位姿参数进行训练，目标函数为：

其中，N为样本数，p_k为位置参数，p_k'为预测的位置参数，φ_k为欧拉角参数，φ_k'为预测的欧拉角参数，t为位姿参数的个数。

优选地，所述的位姿参数包括三个位置参数和三个欧拉角参数。

优选地，所述的残差注意力机制网络包括若干个堆叠的注意力模块，用于对输入的图片进行特征处理，获得对应的特征权重图；所述的长短期网络用于获得六个位姿参数的预测值。

优选地，所述的步骤3具体为：

步骤3-1：计算特征图特征权重的α分位数；

步骤3-2：从RGB图中选取一个像素点P，该像素点的亮度值为Ip；

步骤3-3：设定阈值t；

步骤3-4：获得以该像素点为中心，半径为3像素的离散的Bresenham圆，该圆的边界上有16个像素点；

步骤3-5：判断Bresenham圆的边界上是否有n个连续的亮度值均比Ip+t大或均比Ip-t小，且对应位置权重高于α分位数的像素点，若是，则像素点P为角点，否则，像素点P不是角点；

步骤3-6：设置步长l，以像素点P为起点，每隔l个像素点便返回步骤3-1，直至遍历RGB图。

优选地，所述步骤4具体为：

步骤4-1：对于输入图像I(x,y)，获取该图像对应的高斯图像金字塔P_l(x,y)；

步骤4-2：计算harris响应值，具体计算方法为：

其中，σ_d为微分尺度参数，σ_i为积分参数，g(x,y)为窗口函数，f_HM(x,y)为角强度函数，w(x,y)是位置(x,y)处注意力图中的像素值，ε是调整角强度f_HM(x,y)的比例因子；

步骤4-3：在f_HM(x,y)的3*3邻域内对f_HM(x,y)进行二维二次拟合并求其最大值，该最大值即为harris响应值；

步骤4-4：选取高于阈值t'的前N个最大的响应值所对应的角点为最终的特征点集合。

优选地，所述步骤7中的回环检测采用基于外观的回环检测方法。

优选地，所述步骤8中的稠密重建在opensfm开源库中进行。

与现有技术相比，本发明具有以下优点：

本发明提出了一种新型的方法来提取地标，由注意力机制网络和长短期记忆网络组成的神经网络专注于寻找自然环境中的带有可理解信息的路标，它要寻找到的特征点是符合人类认知的，相较于传统的orb方法通常是寻找图像处理意义上的特殊的像素点，人类更容易理解本发明寻找到的特征点；本发明通过注意力机制网络对地标进行过滤，最终可以获得能够突出重要区域的地图，并且重要区域可以通过亮度加颜色的形式突出，使人类能够更加容易理解；本发明还成功的将注意力机制网络和长短期记忆网络相结合，能够解决预测相机的六自由度位姿问题。

附图说明

图1为本发明的流程图；

图2为本发明与现有技术采集特征点的对比图，其中(1)为原图，(2)为传统的ORBSLAM特征点，(3)为注意力权重图，(4)为注意力蒙版图，(5)为本发明获得的特征点；

图3为本发明与现有技术生成的地图的对比图，其中(1)为RGB图，(2)为深度图，(3)为注意力权重图，(4)为注意力蒙版图，(5)为本发明得到的点云地图；

图4为验证模型泛化能力时在已训练的模型上预测的轨迹与真实的轨迹对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明涉及一种使用残差注意力机制网络的同步定位与建图方法，如图1所示，具体步骤为：

残差注意力机制由若干个注意力模块堆叠而成，用于对输入的图片进行特征处理，获得对应的特征权重图，长短期网络用于获得六个位姿参数的预测值。

步骤1具体为：

步骤1-1：获取一组相机的输入，并对相机进行参数标定，获得每张图片对应的六个位姿参数和RGB图，六个位姿参数包括三个位置参数和三个欧拉角参数，欧拉角参数由四个四元数方向角参数获得；

步骤1-2：将RGB图输入神经网络，输出为六个位姿参数的预测值和图像的特征权重图，根据位姿参数的预测值和由步骤1得到的位姿参数进行训练，目标函数为：

步骤3：对RGB图进行在特征图指导下的改进FAST角点检测；

步骤3具体为：

步骤3-1：计算特征图特征权重的α分位数，α取0.6最佳；

步骤3-3：设定阈值t，此处取t取20；

步骤3-5：判断Bresenham圆的边界上是否有n个连续的亮度值均比Ip+t大或均比Ip-t小，且对应位置权重高于α分位数的像素点，若是，则像素点P为角点，否则，像素点P不是角点，n的值可以设置为12或9，实验证明n选择9会有较好的效果；

步骤3-6：设置步长l，以像素点P为起点，每隔l个像素点便返回步骤3-1，直至遍历RGB图，此处l取30。

步骤4：通过harris响应值在角点中选择最终的特征点；

步骤4具体为：

步骤4-2：计算harris响应值，具体计算方法为：

步骤5：匹配特征点，对极约束求解相机初始化运动；

匹配特征点：从图像中提取到特征的关键点信息，通常只是其在图像的位置信息(有可能包含尺度和方向信息)，仅仅利用这些信息无法很好的进行特征点的匹配，所以就需要更详细的信息，将特征区分开来，这就是特征描述子。另外，通过特征描述子可以消除视角的变化带来图像的尺度和方向的变化，能够更好的在图像间匹配。

特征的描述子通常是一个精心设计的向量，描述了关键点及其周围像素的信息。在特征点周围随机的抽取点对，比较两个点灰度值的大小，而根据比较结果记为0或1，取256位组成256位的二进制串。本实施例选取汉明距离，即两个二进制串中不同位数的个数作为匹配度量，对于每一个特征点，选择与其汉明距离最近的点作为其匹配点。通常来说，为了先排除匹配距离过大的配对，选择已经匹配的点对的汉明距离小于最小距离的两倍作为判断依据，如果大于该值则认为是一个错误的匹配，过滤掉；小于该值才认为是一个正确的匹配。

对极约束：

本实施例希望得到两帧I₁,I₂之间的运动。设第一帧到第二帧的运动为旋转矩阵R，平移向量为t，两个相机的中心为O₁,O₂，通过特征匹配得到两张图片中的一组匹配点p₁，p₂。可以得知p₁,p₂是同一个空间点在两个成像平面的投影。利用相机模型参数可以得到

p₁＝KP，p₂＝K(RP+t)

其中，K为内参矩阵。

取x₁＝K^-1p₁，x₂＝K^-1p₂，从而有x₂＝Rx₁+t，综合上述式子，可得

重新带入p₁，p₂得到

其中，E＝t^R。

最后求解上式，然后分解E即可得到R和t。

通过这种方法，可以得到对相机初始化的一个良好估计，然后进行下一步骤。

Bundle Adjustment的思路是将像素坐标(观测到的投影位置)与3D点按照当前估计的位姿进行投影得到的位置相比较得到的误差。

步骤7：进行图像之间的回环检测，采用基于外观的回环检测方法，得到相机的精准轨迹；

基于外观的回环检测方法的核心思路是通过词袋模型计算图像间的相似度，一旦超过某个阈值则被视为形成了一个回环。

具体包括以下步骤：

1、构建词典，词典即为所有单词的集合；

2、确定一帧中具有哪些单词，用向量表示，1表示具有该单词，0表示没有；

3、计算两个词袋向量v1和v2之间的相似性，计算方法为：

步骤8：由相机的轨迹、RGB图和特征点进行稠密重建，获得环境地图，本发明使用opensfm这一开源库进行重建，opensfm是Mapillary公司在github上的开源项目，是封装很好的开源SfM项目之一，同时生成的结果可以快速实现可视化效果。

实施例

本实施例先将图片输入到注意力机制网络中，在背景杂乱的情况下，需要通过不同类型的注意来模拟具有复杂场景和大的外观变化的图像。在这种情况下，来自不同层的特征需要由不同的注意掩模建模。堆叠网络结构的增量性质可以逐渐增加对复杂图像的关注。主干分支执行特征处理。随后的LSTM模块保证图片中的注意力分布与位置预测相关。为了能够找到并利用在长轨迹中拍摄的图像之间的相关性，通过引入存储器门和单元能够学习长期依赖性的长短期记忆门被用作后续网络结构。相应地，尽管长短期记忆门可以处理长期依赖性并且具有深度时间结构，但是它仍然需要网络层上的深度来学习高级表示和模拟复杂动态。在这种情况下，通过堆叠两个LSTM层来构造深RNN，其中LSTM的隐藏状态是另一个的输入。在本实施例中的网络中，每个LSTM层都有1024个隐藏状态。

从长短期记忆门的最后一步，可以从注意力网络中得到权重图，它将与三通道图像一起作为slam系统的输入。采用ORB-SLAM作为骨干的视觉里程计系统。ORB-SLAM算法在所有步骤中都统一地利用了图像的ORB特征。ORB特征是一种快速的特征提取方法，具有旋转不变性，可以通过金字塔构造尺度不变性。

地图对视点和运动变化具有很强的鲁棒性，这使得它可以作为一个过滤器来指定特定的区域来提取特征。这样做的目的是减轻对不太集中的地区的重要性，比如墙壁、天空和天花板。因此，本实施例不是像在orb中一样从图像中均匀地选择候选点，而是基于权重映射来选择点。当场景中有很多物体或干扰物可能被人类视为地标时非常有用。

首先将图像分割成k*k块区域。对于一个区域，本实施例从相应的注意力权重图中计算出权值的中值作为区域自适应权值，得到一个区域自适应权重列表。基于图像中大部分区域不是重要的定位信息的思想，本实施例跳过了所有区域自适应权值小于列表第k百分位的区域，而不提取这些区域中的orb特征。此处通常选择k为60。

图2中(1)表示原图，(2)表示传统的ORBSLAM特征点，(3)表示注意力权重图，(4)表示注意力蒙版图，(5)表示本实施例中获得的特征点，由图可以看出，本实施例可以选择在感兴趣区域中分布良好的点。图2将基于注意机制的选择与ORB-SLAM采用的均匀选择进行了比较。可以很容易地注意到，纹理较少且基本相同的部分，如天空、地面、树木，都已下降。这有助于本方法将更多精力集中在人们感兴趣的地标上，从而使特征选择更加健壮和以对象为中心。

本实施例使用的兴趣点是多尺度harris角。对于每个输入图像I(x,y)，形成一个高斯图像金字塔P_l(x,y)，从金字塔的每个层次提取兴趣点。在层数l和位置(x,y)的harris矩阵是梯度的光滑外积：

考虑f_HM(x,y)在其3*3邻域内的极大值不一定落在像素点上，所以用插值的方法求到这个极大值，在f_HM(x,y)的3*3邻域内对f_HM(x,y)进行二维二次拟合并求其最大值，该最大值即为harris响应值，然后选取前N个高于阈值t'的最大的响应值所对应的角点为最终的特征点集合，本实施例中t'设为10。

最后在成功提取出符合人类特点的特征点以后，匹配当前图片和先前图片，通过最小化重投影误差，计算相机运动。

本实施例的效果可以通过以下实验进一步说明：

1、训练数据

本实施例在Kitti数据集，TUM数据集，同济大学道路数据集和RGB-D同济图书馆数据集上评估本实施例中的方法。最后两个数据集由发明人录制。来自Kitti的两个序列和来自道路数据集的两个序列用于比较本实施例中的方法和ORB-SLAM之间的性能。两个道路数据集用于证明本实施例中的方法的普遍性。而Tum数据集和一些图书馆序列被用来进行一些定性分析。

从kitti数据集中选择两个序列00，02用于室外场景测试。该数据集以相对较低的帧速率(10fps)记录，通过在具有许多动态物体的城市区域驾驶，并且驾驶速度高达90km/h，对单眼VO算法来说非常具有挑战性。本实施例在同济大学拍摄的户外数据集上进行了测试，该数据集的人行走速度和总轨迹长度达到了1138.880米。

评估指标是根据KITTI VO/SLAM分析训练的VO模型的性能的评估指标，即平移和旋转误差的平均均方根误差(RMSE)。RMSE表示实际和估计之间的差异值用作了解残差或偏差值的最佳度量。使用Evo作评估工具。

为了比较本实施例中的方法和ORB-SLAM的性能，将所有数据集的80％作为神经网络的训练集，其余作为测试集。为了测试本实施例中方法的普遍性，本实施例选择由发明人录制的同济大学数据为训练集，而与测试集类似的场景和数据集的集合通过GPS获得。为了可视化，还拍摄了一些深度相机图像，并使用了数据集来显示注意力的效果。深度信息由Kinect v1获得。

实施细节：旋转数据转换为欧拉角，位置数据单位统一为米。所有数据在进入网络之前进行归一化，以获得更好的性能。本实施例采用了先前研究相同的权重初始化方法，并使用小批量大小为32的Adam优化器训练残差注意网络。使用0.0001的权重衰减并将初始学习率设置为0.1，在300个epoch终止训练。

2、网络模型

本实施例中方法的网络结构由两部分组成，一部分是分散注意模块，分为两个分支：掩膜分支和主干分支，另一个是由Deepvo启发的长短期记忆门模块。本实施例将与时间相邻的八张图片作为序列输入到长短期记忆门中。

注意力模块：在背景杂乱的情况下，需要通过不同类型的注意来模拟具有复杂场景和大的外观变化的图像。在这种情况下，来自不同层的特征需要由不同的注意掩模建模。堆叠网络结构的增量性质可以逐渐增加对复杂图像的关注。主干分支执行特征处理。掩码分支学习相同大小的掩码M(x)，其软输出特征F(x)。输出掩码用作躯干分支神经元的控制门。注意力的输出

H_i,c(x)＝M_i,c(x)*T_i,c(x)

其中i是在所有空间位置上的范围，c是通道的索引。H(x)将用作注意力图，即每张图片的相应权重图。它也将被发送到LSTM以获得后续回归摄像机的6自由度位姿，虽然只需要注意模块H的输出，但本实施例仍然使用LSTM来预测6自由度位姿，因为掩模可以是在正向推断期间不仅用作特征选择器，而且在反向传播期间用作梯度更新滤波器。随后的LSTM模块保证图片中的注意力分布与位置预测相关。

LSTM：为了能够找到并利用在长轨迹中拍摄的图像之间的相关性，通过引入存储器门和单元能够学习长期依赖性的长短期记忆网络(LSTM)被用作时序推断模块。相应地，尽管LSTM可以处理长期依赖性并且具有深度时间结构，但是它仍然需要网络层上的深度来学习高级表示和模拟复杂动态。深度RNN架构的优点已经被证明用于使用声学信号的语音识别。因此，在在这种情况下，通过堆叠两个LSTM层来构造深的RNN网络，其中LSTM的隐藏状态是另一个的输入。在本实施例中的网络中，每个LSTM层都有1024个隐藏状态。

本实施例提出的基于RCNN的VO系统可以看做是用来计算姿态的条件概率，对姿势Y_t＝(y₁,y₂,...,y_t)，给定一系列单目三通道图像X_t＝(x₁,x₂...,x_t)，则有

p(Y_t|X_t)＝p(y₁,y₂,...,y_t|x₁,x₂,...,x_t)

建模和概率推理在深层的LSTM中执行。为了找到视觉里程计的最佳参数θ^*，网络最大化：

θ^*＝argmaxp(Y_t|X_t；θ)

要学习注意力网络的超参数θ，最小化地面真实位姿(p_k,φ_k)之间的欧几里德距离。损失函数由均方误差(MSE)组成：

其中N是样本数。值得注意的是，所有输入数据都被归一化。方向φ由欧拉角而不是四元数表示，因为四元数受到额外的单位约束，这阻碍了优化网络参数的问题。而且实践中使用四元数会在一定程度上降低方向估计。因此采取欧拉角的方法表示结果。

3、注意力机制

为了更直观地了解模型是如何工作的，本实施例可视化了一个来自TUM数据集的序列示例，如图3所示，1～5分别是RGB图，深度图，注意力权重图，注意力蒙版图和本实施例得到的点云地图。本实施例得到地地图不同于一般的点云，每个点都有一个权重。用亮度作为视觉标准，亮度越高代表注意力权重越高。因此，在注意力权重图中置为更高权重的点在点云里也被选为更亮的点。本实施例选择可视化RGB-D地图是因为它比稀疏地图显示得更清楚。感兴趣的对象在运动中高亮显示，可以看到它们是以对象为中心的。在后续的定位和导航任务中，可以划分阈值，丢弃较低的加权点，并保留大部分信息。在实际使用时，还可以用颜色加亮度作为视觉标准，使人类可以更加容易的理解特征点。

4、性能分析

与ORB-SLAM相比，利用注意加权特征，本实施例中的方法具有更好的精度。在表1中，将本实施例中的方法与Kitti Mono-VO数据集和户外数据集上的ORB-SLAM进行了比较。在大多数序列上，本实施例中的方法达到了相似或有更好的性能。

表1

可以看到，室内环境下的test2中，本实施例将ORB-SLAM的平移err减少了0.15m，获得了约13.8％的大幅度提升。在发明人录制的户外数据集上，因为大多数序列涉及复杂的光照环境，导致这种改进没有在室内环境下显著，这使得本实施例的性能仅仅是略高于传统的ORB-SLAM，这说明了控制光照条件会提升本专利的性能。不难发现，本实施例中的方法在评价平移上效果更好，这与注意力网络的输出相呼应，而本实施例中的注意力网络对平移的预测也比旋转的好。这可能是因为方向比位置更容易过度拟合，因为在相邻序列中方向的变化通常非常微妙。

5、泛化性

一个理想的模型需要具有一定的泛化能力，这样就可以在其他不同的场景中使用而无需修改或经过简单的微调。经过训练，本实施例计算了模型在相似环境下的可靠性。为验证模型泛化能力时在已训练的模型上预测的轨迹与真实的轨迹对比图如图4所示，一个约为20m*30m室外环境下拍摄的数据集，采用一个已经训练完的模型，在一个类似的场景下不用重新训练提取特征。实线表示真实的路径，虚线表示通过模型推理得到的路径。可以清晰的看到两者的轨迹十分接近，轨迹走向基本一致，距离平均误差约为1m。这表明表明该方法在不重新训练模型的情况下，无论是平移还是旋转，都能达到与传统ORB-SLAM方法相近的性能。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种使用残差注意力机制网络的同步定位与建图方法，其特征在于，所述的方法包括以下步骤：

步骤3：对RGB图进行在特征图指导下的改进FAST角点检测；

步骤4：通过harris响应值在由步骤3检测得到的角点中选择最终的特征点；

步骤5：匹配特征点，对极约束求解相机初始化运动；

步骤7：进行图像之间的回环检测，得到相机的精准轨迹；

步骤8：由相机的轨迹、RGB图和特征点进行稠密重建，获得环境地图；

所述的步骤1具体为：

其中，N为样本数，p_k为位置参数，p_k'为预测的位置参数，φ_k为欧拉角参数，φ_k'为预测的欧拉角参数，t为位姿参数的个数；

所述的残差注意力机制网络包括若干个堆叠的注意力模块，用于对输入的图片进行特征处理，获得对应的特征权重图；所述的长短期网络用于获得六个位姿参数的预测值。

2.根据权利要求1所述的一种使用残差注意力机制网络的同步定位与建图方法，其特征在于，所述的位姿参数包括三个位置参数和三个欧拉角参数。

3.根据权利要求1所述的一种使用残差注意力机制网络的同步定位与建图方法，其特征在于，所述的步骤3具体为：

步骤3-1：计算特征图特征权重的α分位数；

步骤3-3：设定阈值t；

4.根据权利要求1所述的一种使用残差注意力机制网络的同步定位与建图方法，其特征在于，所述步骤4具体为：

步骤4-2：计算harris响应值，具体计算方法为：

5.根据权利要求1所述的一种使用残差注意力机制网络的同步定位与建图方法，其特征在于，所述步骤7中的回环检测采用基于外观的回环检测方法。

6.根据权利要求1所述的一种使用残差注意力机制网络的同步定位与建图方法，其特征在于，所述步骤8中的稠密重建在opensfm开源库中进行。