CN114170304B

CN114170304B - 一种基于多头自注意力和置换注意力的相机定位方法

Info

Publication number: CN114170304B
Application number: CN202111297568.0A
Authority: CN
Inventors: 宋霄罡; 李宏娟; 梁莉; 黑新宏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2023-01-03
Anticipated expiration: 2041-11-04
Also published as: CN114170304A

Abstract

本发明公开了一种基于多头自注意力和置换注意力的相机定位方法，首先构建基于多头自注意力和置换注意力的相机定位模型；然后将建立的神经网络进行训练；最后将训练好的网络进行测试。本发明的方法使用单目图像作为输入，学习拒绝动态对象和光照条件以获得更好的性能，在室内以及室外数据集都可以高效运行；通过显著性图的可视化，我们展示了网络如何学习拒绝动态对象，从而可以进行准确而鲁棒的相机位姿估计，该模型不需要额外的手工几何损失函数即可进行端到端的训练。

Description

一种基于多头自注意力和置换注意力的相机定位方法

技术领域

本发明属于计算机视觉及人工智能技术领域，涉及一种基于多头自注意力和置换注意力的相机定位方法。

背景技术

从图像中恢复相机的位姿是计算机视觉的基本问题之一。准确估计相机的位姿是增强现实、自主导航和机器人技术应用的关键，其中定位对其性能至关重要。近年来，基于深度学习的视觉定位研究不断增多，其中以卷积神经网络为代表的深度学习的方法在计算机视觉领域发挥了非常重要的作用，这些深度网络在提取图片特征，找出潜在规律等方面相比传统方法效果显著，所以我们考虑把深度学习应用的相机位姿估计领域，直接让深度网络学习图片之间的几何关系，实现端到端的位姿估计。这个过程完全摒弃了传统方法中的特征提取、特征匹配、图优化等步骤，根据输入的图片直接得到相机的姿态。基于深度学习的代表作是PoseNet，它把位姿预测视为回归问题，其变种的模型使用了不同的特征提取网络或者几何约束等，尽管这些技术总体上表现出良好的性能，但它们在面对动态对象或照明变化时缺乏鲁棒性，在场景高度可变的室外数据集中尤为明显。进一步的技术考虑了使用多张图像作为网络的输入，在连续帧之间引入相对姿势作为附加约束，生成更精确的定位结果并减少许多异常值。然而，较大的区域可能包含更多局部相似的外观，从而会降低定位系统的能力，因此需要一种仅使用单幅图像作为输入的能在多种场景下进行准确的端到端位姿估计方法。

发明内容

本发明的目的是提供一种基于多头自注意力和置换注意力的相机定位回归方法，解决了在多种场景下的定位问题。

本发明所采用的技术方案是，一种基于多头自注意力和置换注意力的相机定位方法，具体按以下步骤实施：

步骤1，构建基于Transformers Bottleneck结构和置换注意力的相机定位网络；

步骤2，将经步骤1建立的神经网络进行训练；

步骤3，将经步骤2训练好的网络进行测试。

本发明的特点还在于：

其中步骤1的具体实施过程包括：视觉编码模块、置换注意力模块和位姿回归模块三部分，具体按以下步骤实施：

步骤1.1，图像输入网络后，首先通过视觉编码模块进行下采样提取特征；

步骤1.2，再经过置换注意力模块捕获特征图上的时空依赖关系，输出具有依赖关系的Attention map；

步骤1.3，最后将计算得到的Attention map输入位姿回归器用于回归相机位姿；

其中步骤1.1中视觉编码模块具体按以下步骤实施：

步骤1.1.1，输入图像，将图片大小设置为256*256，即输入网络的图片尺寸为256*256*3；

步骤1.1.2，对输入图像进行一次普通卷积操作，压缩1次h*w，将通道数调整为64通道，并进行BN与Relu激活；

步骤1.1.3，将步骤1.1.2中所得特征图传入残差卷积块进行13次残差卷积，每个残差卷积后接SE通道注意力模块，得到通道数为1024的特征图；

步骤1.1.4，将步骤1.1.3所得特征图输入基于Transformers Bottleneck的残差块进行全局特征提取，最后输出2048通道的特征图；

其中基于Transformers Bottleneck的残差块构造步骤为：

首先通过1*1卷积进行通道扩张，并进行BN与Relu激活；然后将残差卷积块中的3*3卷积替换为多头自注意力模块并加入相对位置编码信息；然后再通过1*1卷积调整通道数，并进行BN与Relu激活；最后再嵌入SE模块进行通道层面的特征提取；

其中步骤1.2中置换注意力模块具体按以下步骤实施：

步骤1.2.1，将特征提取模块所得到的特征图传入置换注意力模块，同时构建通道注意力和空间注意力；

步骤1.2.2，该模块将输出特征图的通道进行分组，将分组后的每个子特征继续分为两份，分别提取通道注意力和空间注意力；

步骤1.2.3，完成前面两种注意力计算后，需要对其进行集成，首先通过简单的Concat进行融合得到，最后，采用通道置换操作进行组间通信，输出具有2048通道的特征图；

其中步骤1.3中位姿回归模块具体按以下步骤实施：

步骤1.3.1，置换注意力模块融合特征后得到2048维特征图，构造MLP模块；

步骤1.3.2，将特征图输入全连接层，得到1*1*2048大小的特征图；

步骤1.3.3，将得到的特征图分别输入到两个全连接层，得到两个代表平移和旋转的三维特征向量；

步骤1.3.4，将得到的两个三维向量进行Concat，最后得到一个六维的位姿向量；

其中步骤2中网络训练的数据集分为室内数据集和室外数据集，室内数据集为7Scenes，室外数据集为Oxford RobotCar，具体按以下步骤实施：

步骤2.1，加载数据集，初始化权重参数；

步骤2.2，将数据集数据进行分割，将70％的图像用于训练，30％的图像用于估计；

步骤2.3，采用L1损失函数，每5个epoch之后输出训练损失值；

步骤2.4，初始学习率定为5e-5，训练采用学习率自动下降的方式；

步骤2.5，训练到600epoch后loss值不在下降，停止训练并保存模型；

其中步骤2.2中数据集分割的具体操作过程包括：

首先将训练集按照预先设定的batch输入网络，然后将数据集里的图片resize为256像素，再将图像归一化使像素强度在(-1,1)范围之内，在Oxford RobotCar数据集上，将亮度、对比度和饱和度设置为0.7，色调设置为0.5；

其中步骤3中网络测试的具体步骤如下：

步骤3.1，加载数据集中的测试图片，并设定相机位姿回归维数；

步骤3.2，加载训练后的模型参数并读取测试数据集；

步骤3.3，将数据集图像每一帧传入相机回归模型，对像素点进行回归预测；

步骤3.4，计算回归位姿的平移和旋转误差。

本发明的有益效果是：

本发明的一种基于多头自注意力和置换注意力的相机定位方法，该方法使用单目图像作为输入，学习拒绝动态对象和光照条件以获得更好的性能，在室内以及室外数据集都可以高效运行。通过显著性图的可视化，我们展示了网络如何学习拒绝动态对象，从而可以进行准确而鲁棒的相机位姿估计，该模型不需要额外的手工几何损失函数即可进行端到端的训练。

附图说明

图1是本发明的一种基于多头自注意力和置换注意力的相机定位方法中的位姿回归网络结构图；

图2是本发明的一种基于多头自注意力和置换注意力的相机定位方法的视觉编码器中的Transformers Bottleneck的残差块结构示意图；

图3是本发明的一种基于多头自注意力和置换注意力的相机定位方法中Transformers Bottleneck的残差块中的多头自注意力模块的结构示意图；

图4是本发明的一种基于多头自注意力和置换注意力的相机位定位方法中置换注意力模块的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了一种基于多头自注意力和置换注意力的相机定位方法，具体按以下步骤实施：

步骤1，构建基于Transformer结构和置换注意力的相机定位网络，然后通过视觉编码器提取图像特征，将提取到的图像特征传入置换注意力模块筛选具有鲁棒性的几何特征，再通过简单的Concat模块完成特征融合，最后将融合后的特征输入位姿回归器中回归出平移和旋转向量，该网络具体结构如图1所示；

其网络结构共分为3个模块：1)视觉编码模块；2)置换注意力模块；3)位姿回归模块。具体按以下步骤实施；

1)视觉编码模块；对于端到端的位姿回归任务来说，最为重要的是特征提取模块，此模块用于提取图像从低维的线性特征到高维抽象特征，位姿回归网络的大部分参数以及计算量来自于这个模块，本发明为保证精度的同时提取了有利于位姿回归的鲁棒的特征，通过改进一种适用于分类、分割的网络ResNet50作为本网络的主干，该网络能够提取到更加鲁棒的特征；

ResNet有2个基本的块，一个是Identity Block，输入和输出的维度是一样的，所以可以串联多个；另外一个基本块是Conv Block，输入和输出的维度是不一样的，所以不能连续串联，它的作用本来就是为了改变特征向量的维度，因为CNN最后都是要把输入图像逐渐转换成尺寸很小但是深度很深的feature map，一般的套路是用统一的比较小的卷积核(比如VGG都是用3*3)，但是随着网络深度的增加，输出的通道数也增大，网络学到的东西越来越复杂，所以必须在进入Identity Block之前，用Conv Block转换一下维度，这样网络就可以连续接Identity Block；ResNet分为5个stage，其中Stage0的结构比较简单，可以视其为对输入的预处理，后4个Stage都由Bottleneck组成，结构较为相似。Stage 1包含3个Bottleneck，剩下的3个stage分别包括4、6、3个Bottleneck；

本发明的视觉编码模块基于ResNet50进行改进，其中，将ResNet的最后三个Bottleneck中的3*3空间卷积替换为全局多头自注意力层，并且在1*1卷积后嵌入了SE模块，使得该层在2D特征图上实现全局自我注意，其它残差块只在1*1卷积后嵌入SE模块，残差块结构如图2所示；为了使注意力操作位置感知，基于Transformer的架构通常使用位置编码，并且相对位置编码更加有利于视觉任务；基于相对位置编码的多头自注意力模块不仅考虑了内容信息，还考虑了不同位置特征之间的相对距离，因此能够有效地将跨对象的信息于位置感知联系起来；TransformerBottleneck结构图如图3所示，本网络使用了四个头部，全局注意力模块在2D特征图上执行，其相对位置编码分别为高度和宽度编码，注意力为qk^T+qr^T，q、k、r分别代表查询向量、键向量和位置编码向量，视觉编码模块的详细结构如表1所示；

表1视觉编码器结构参数对比

其中步骤1.1中视觉编码模块具体按以下步骤实施：

其中残差卷积块构造步骤为：

首先通过1*1卷积进行通道扩张，并进行BN与Relu激活；然后通过3*3卷积进行特征提取；然后通过1*1卷积调整通道，并进行BN与Relu激活；每个残差块后接SE通道注意力模块进行通道上的特征提取；

其中基于Transformers的残差块的构造步骤为：

首先通过1*1卷积进行通道扩张，并进行BN与Relu激活；然后将将残差卷积块中的3*3卷积替换为多头自注意力模块并加入相对位置编码信息；最后通过1*1卷积调整通道，并进行BN与Relu激活；

其中步骤1.2中置换注意力模块包括通道注意力模块和空间注意力模块两部分，具体按以下步骤实施：

步骤1.2.1，将视觉编码模块提取到的特征传入置换注意力模块，同时构建通道注意力和空间注意力。

步骤1.2.2，该模块将输出特征进行通道分组，将分组后的每个子特征继续分为两份，分别提取通道特征和空间特征：

首先将传入置换注意力模块的特征沿着通道维度进行分组，然后再将分组后的特征沿着通道维度继续拆分成两个分支，一个分支用于学习通道注意力特征，一个分支用于学习空域注意力特征，最后还需要通过Spatial与Channel注意力模块生成不同的重要性系数；

步骤1.2.3，完成前面两种注意力计算后，需要对其进行集成，首先通过简单的Concat进行融合得到。最后，采用通道置换操作进行组间通信，输出具有2048通道的特征图；

其中步骤1.3中位姿估计模块的构造步骤为：

步骤1.3.1，置换注意力模块融合特征后得到2048维特征图，构造多层感知机(MLP)模块；

步骤2，网络训练：本发明使用PyTorch框架搭建网络结构，使用L1函数作为损失函数，使用Adam算法优化训练参数，并在训练过程中采用早停策略防止网络训练过拟合，以达到最优训练效果：

对网络进行训练的数据集分为室内数据集和室外数据集，室内数据集为7Scenes数据集，室外数据集为Oxford RobotCar数据集，具体按以下步骤实施：

步骤2.1，加载数据集，初始化权重参数；

步骤2.2，将数据集数据进行分割，将70％的图像用于训练，30％的图像用于估计：

首先将训练集按照预先设定的batch输入网络，然后将数据集里的图片resize为256像素，再将图像归一化使像素强度在(-1,1)范围之内，在Oxford RobotCar数据集上，我们将亮度、对比度和饱和度设置为0.7，色调设置为0.5，这一增强步骤有利于改进模型在各种天气和气候条件下的泛化能力；

步骤2.3，采用L1损失函数，每5个epoch之后输出训练损失值；

步骤3，网络测试：将测试图像输入网络，得到位姿估计结果，并计算平移和旋转的loss值，对网络性能进行评估：

步骤3.2，加载训练后的模型参数并读取测试数据集；

步骤3.4，计算回归位姿的平移和旋转误差。

以下表格说明本发明在测试集上的的效果：

表2在7Scenes数据集上的网络性能对比

表2总结了在7Scenes数据集上所有方法的性能，显然，我们可以看到，我们的方法优于其他基于单目图像的方法，与基于单目图像的基线IR-Baseline相比，位置精度提高了17％，旋转精度提高了25％，特别是在具有无纹理区域(如Fire和Pumpkin)和高度重复纹理(如Chess)的场景中达到了最佳的性能。在Pumpkin场景中将位置误差从0.26m减小到0.19m，在Chess场景中将位置误差从0.18m减小到0.11m，这是对现有技术的重大改进，在其他常规场景中仍能达到比基线更高的精度。

表3在Oxford RobotCar数据集上的网络性能对比

表3显示了PoseNet、MapNet、LsG和我们的方法的定量比较。由于训练和测试序列是在不同的时间、不同的条件下捕获的，因此PoseNet很难处理这些变化，并输出大量异常值的不准确估计。MapNet通过在连续帧之间引入相对姿势作为附加约束，生成更精确的结果并减少许多异常值。然而，较大的区域可能包含更多局部相似的外观，从而降低定位系统的能力。通过采用内容增强，虽然LsG在一定程度上改善了这个问题，但它降低了准确性。相比之下，考虑到内容和移动，我们的模型更有效地解决了这些挑战，与PoseNet+相比，位置精度提高了67％，旋转精度提高了64％。

由于场景动态性和环境外观的高度可变性，摄像机定位在计算机视觉中是一项具有挑战性的任务；本发明提出了一种基于Transformer结构和置换注意力的相机定位方法，其中在视觉编码模块中引入了Transformers Bottleneck结构可以鼓励框架学习几何稳健的特征，减轻动态对象和照明变化的影响；在位姿回归过程中引入了置换注意力模块，该模块融合了空间和通道上的特征信息，融合后的特征将输入位姿回归器用来指导位姿的回归；经过实验分析，我们的模型在室外和室内数据集上的定位精度得到明显提升。

Claims

1.一种基于多头自注意力和置换注意力的相机定位方法，其特征在于，具体按以下步骤实施：

步骤1，构建基于Transformer结构和置换注意力的相机定位网络：

具体实施过程包括：视觉编码模块、置换注意力模块和位姿回归模块三部分，具体按以下步骤实施：

步骤1.1，图像输入网络后，首先通过视觉编码模块进行下采样提取特征，视觉编码模块具体按以下步骤实施：

步骤1.2，再经过置换注意力模块捕获特征图上的时空依赖关系，输出具有依赖关系的Attention map；置换注意力模块具体按以下步骤实施：

步骤1.3，最后将计算得到的Attention map输入位姿回归器用于回归相机位姿；位姿回归模块具体按以下步骤实施：

步骤2，将经步骤1建立的神经网络进行训练；

步骤3，将经步骤2训练好的网络进行测试。

2.根据权利要求1所述的一种基于多头自注意力和置换注意力的相机定位方法，其特征在于，所述基于Transformers Bottleneck的残差块构造步骤为：

首先通过1*1卷积进行通道扩张，并进行BN与Relu激活；然后将残差卷积块中的3*3卷积替换为多头自注意力模块并加入相对位置编码信息；然后再通过1*1卷积调整通道数，并进行BN与Relu激活；最后再嵌入SE模块进行通道层面的特征提取。

3.根据权利要求1所述的一种基于多头自注意力和置换注意力的相机定位方法，其特征在于，所述步骤2中网络训练的数据集分为室内数据集和室外数据集，室内数据集为7Scenes，室外数据集为Oxford RobotCar，具体按以下步骤实施：

步骤2.1，加载数据集，初始化权重参数；

步骤2.3，采用L1损失函数，每5个epoch之后输出训练损失值；

步骤2.5，训练到600epoch后loss值不在下降，停止训练并保存模型。

4.根据权利要求3所述的一种基于多头自注意力和置换注意力的相机定位方法，其特征在于，所述步骤2.2中数据集分割的具体操作过程包括：

首先将训练集按照预先设定的batch输入网络，然后将数据集里的图片resize为256像素，再将图像归一化使像素强度在(-1,1)范围之内，在Oxford RobotCar数据集上，将亮度、对比度和饱和度设置为0.7，色调设置为0.5。

5.根据权利要求1所述的一种基于多头自注意力和置换注意力的相机定位方法，其特征在于，所述步骤3中网络测试的具体步骤如下：

步骤3.2，加载训练后的模型参数并读取测试数据集；

步骤3.4，计算回归位姿的平移和旋转误差。