CN116704205A

CN116704205A - 融合残差网络和通道注意力的视觉定位方法及系统

Info

Publication number: CN116704205A
Application number: CN202310685821.2A
Authority: CN
Inventors: 王静; 金玉楚; 薛嘉兴; 刘嘉星; 叶星; 黄健; 康晓非; 代新冠
Original assignee: Xian University of Science and Technology
Current assignee: Xian University of Science and Technology
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-05

Abstract

本发明公开了一种融合残差网络和通道注意力的视觉定位方法及系统，包括以下步骤：S1、构建特征提取网络，利用特征提取网络对输入的查询图像和参考图像分别进行特征提取，生成多尺度特征图；特征提取网络包括两个模块，分别为特征提取模块和特征增强模块；S2、根据查询图像的初始位姿，对齐特征图中对应的像素点，并计算查询图像与参考图像间的特征残差；S3、将特征残差作为最优化算法的目标函数，对初始位姿进行优化，得到最优位姿。其解决了现有定位方法在复杂场景中定位精度较低、泛化性较差的问题。

Description

融合残差网络和通道注意力的视觉定位方法及系统

【技术领域】

本发明属于视觉定位技术领域，具体涉及一种融合残差网络和通道注意力的视觉定位方法及系统。

【背景技术】

视觉定位的目的是估计相机相对于已知环境的六自由度姿态，即相机的位置坐标和环绕三个坐标轴的角度偏转，它是计算机视觉和机器人技术中的一个重要问题之一。

目前，现有的基于深度学习的视觉定位方法主要可以分为两类：特征级别的学习和像素级别的学习。特征级别的视觉定位使用神经网络直接回归相机位姿，如Kendall等人使用卷积神经网络从输入图像回归绝对相机位姿，使得视觉定位变得简单高效，但精度相对较低。像素级别的视觉定位则使用神经网络回归场景坐标，建立二维像素到三维空间的映射。比如Brachmann等人采用卷积神经网络预测场景坐标，接着通过采样最小个数的坐标子集，得到模型假设集合，最后通过另外一个卷积神经网络对模型集合进行打分，从而得到最佳模型。像素级别的视觉定位精度相较特征级别的方法有所提升，但在复杂场景下，比如：重复结构、镜面反射等，定位效果并不理想。且这些方法需要对每个场景进行训练，模型泛化性较差。

【发明内容】

本发明的目的是提供一种融合残差网络和通道注意力的视觉定位方法及系统，以解决现有定位方法在复杂场景中定位精度较低、泛化性较差的问题。

本发明采用以下技术方案：融合残差网络和通道注意力的视觉定位方法，包括以下步骤：

S1、构建特征提取网络，利用特征提取网络对输入的查询图像和参考图像分别进行特征提取，生成多尺度特征图；特征提取网络包括两个模块，分别为特征提取模块和特征增强模块；特征提取模块包括多个基本残差单元，特征增强模块包括多个上采样操作；

融合位姿估计误差和几何重投影误差，作为联合损失函数，利用联合损失函数训练特征提取网络；

S2、根据查询图像的初始位姿，对齐特征图中对应的像素点，并计算查询图像与参考图像间的特征残差；特征图为特征提取网络对输入的查询图像和参考图像；

S3、将特征残差作为最优化算法的目标函数，对初始位姿进行优化，得到最优位姿。

进一步的，步骤S1中特征提取网络包括：

特征提取模块：将全卷积网络UNet中的类VGG结构替换为ResNet-50，作为特征提取网络的编码器；

特征增强模块：利用上采样构建解码器，并在解码器的上采样操作后加入通道注意力ECA-Net；通道注意力机制用于提取图像中的细节信息；

以编码器和解码器构成的网络为基础架构，构建特征提取网络。

进一步的，编码器删去了原始ResNet-50最后的池化层和全连接层，保留了剩余结构；

编码器包括一个7×7的卷积层和最大池化层，以及4个残差模块。

进一步的，解码器包含四次上采样，每次上采样后都插入了通道注意力ECA-Net；

每个解码器层与编码器间有跳跃连接，每个解码器层的输入不仅包含解码器的特征信息，还包含所有编码器层的特征信息。

进一步的，位姿估计误差由位置损失与方向损失构成，公式为：

其中，t表示相机位姿的平移向量的地面真值，R表示相机位姿的旋转矩阵的地面真值，R^-1为旋转矩阵的逆矩阵，表示相机位姿的平移向量的估计值，R表示相机位姿的旋转矩阵的估计值，α为权值系数；

几何重投影误差的公式为：

其中，P_i表示场景中的3D点；

最终的联合损失函数为：

其中，l为特征图层数，λ为融合系数。

进一步的，步骤S2中查询图像的初始位姿(R₀,t₀)为参考图像的位姿；

查询图像与参考图像间特征残差的计算公式为：

其中，为查询图像特征图，/>为参考图像特征图，/>为查询图像上的3D点，/>为参考图像上的3D点。

进一步的，步骤S3中使用的最优化算法为自适应的LM算法，具体位姿优化过程如下：

S31、计算特征残差相对于姿势的导数雅各比矩阵J_i,k：

其中，表示导数运算，/>为姿态更新；

S32、使用雅各比矩阵计算得到海森矩阵H：

其中，为雅各比矩阵的转置矩阵，/>为对角权重矩阵，ρ是鲁棒的成本函数，其导数为ρ'，/>是每个特征残差的权重；

S33、通过求解线性系统来计算姿态更新δ：

其中，λ为自适应的LM算法中特有的阻尼因子；

S34、计算得到新的姿态：

其中，R⁺为优化后的旋转矩阵，t⁺为优化后的平移向量，δ^为姿态更新的李代数形式。

进一步的，步骤S33中通过将阻尼因子λ设置为可学习的参数，使其可以自适应的获得一个最优值，来实现优化器与训练数据的解耦。

本发明采用的另一技术方案是，融合全残差网络和通道注意力的视觉定位系统，包括：

特征提取网络构建模块，用于利用特征提取网络对输入的查询图像和参考图像分别进行特征提取，生成多尺度特征图；特征提取网络包括两个模块，分别为特征提取模块和特征增强模块；特征提取模块包括多个基本残差单元，特征增强模块包括多个上采样操作；

特征提取网络训练模块，用于利用联合损失函数训练特征提取网络；融合位姿估计误差和几何重投影误差得到联合损失函数；

特征残差获取模块，用于根据查询图像的初始位姿，对齐特征图中对应的像素点，并计算查询图像与参考图像间的特征残差；特征图为特征提取网络对输入的查询图像和参考图像；

位姿优化模块，用于将特征残差作为最优化算法的目标函数，对初始位姿进行优化，得到最优位姿。

本发明与现有技术相比，具有如下优点和有益效果：本发明公开一种融合残差网络和通道注意力的视觉定位方法，通过使用具有更强的特征提取能力的ResNet50代替原始网络中的类VGG结构，减少了参数量，提高了网络提取特征的能力；通过引入通道注意力机制(ECA-Net)，放大了图像中的微小特征，可以获取更多的场景中的细节信息，使改进网络更有效地提取场景中的重要信息以及细节信息，解决了由于过度下采样造成的细节特征损失；采用了融合位姿估计误差和几何重投影误差的联合损失函数，增强了复杂场景中的约束，解决了重投影误差损失失效的问题，提高了视觉定位的精度；通过分离模型参数与位姿优化器，解耦了模型参数与训练数据，提高了模型泛化到新场景的能力。

【附图说明】

图1为本发明融合残差网络和通道注意力的视觉定位方法的整体框架图；

图2为本发明融合残差网络和通道注意力的视觉定位方法中的Resnet-50中基本残差单元的示意图；

图3为本发明融合残差网络和通道注意力的视觉定位方法及系统中的通道注意力ECA-Net的示意图；

图4为本发明实施例提供的特征提取网络的结构示意图。

【具体实施方式】

本发明的目的是提供一种融合残差网络和通道注意力的视觉定位方法及系统，以提高视觉定位的精度和泛化性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明进行详细说明。

为了解决现有视觉定位算法泛化性较差、复杂场景中精度较低的问题，本发明提出了一种融残差网络和通道注意力的视觉定位方法，可以用于估计相机位姿。该融合残差网络和通道注意力的视觉定位方法具有：(1)考虑到网络提取特征的质量对位姿估计的影响，用Resnet-50网络代替了原始编码端的类VGG网络，增强了网络提取特征的能力，也减少了网络的参数量；(2)在解码器的每个上采样操作后加入通道注意力ECA-Net，使网络专注于重要特征，忽视次要特征，更有效地提取场景中的重要信息以及细节信息；(3)融合位姿估计误差和几何重投影误差作为网络的损失函数，加强了几何约束，降低复杂场景中重投影误差损失失效带来的影响；(4)通过分离模型参数与位姿优化器，提高了模型的泛化能力，使得模型一次训练可用于多个未见场景的位姿估计。

图1为本发明融合残差网络和通道注意力的视觉定位方法的整体框架图，本发明的融合残差网络和通道注意力的视觉定位方法及系统具体包括以下步骤：

融合位姿估计误差和几何重投影误差，作为联合损失函数，利用联合损失函数训练特征提取网络。

S2、根据参考图像的初始位姿，对齐特征图中对应的像素点，并计算查询图像与参考图像间的特征残差：特征图为特征提取网络对输入的查询图像和参考图像。

S3、将特征残差作为最优化算法的目标函数，对位姿进行优化，得到最优位姿。

得到最优位姿之后，可以使用公共数据集对特征提取网络进行训练，获得训练好的模型。本实施例中，使用MegaDepth数据集训练模型。模型训练好后，直接使用训练好的模型(不重新在新数据集上训练)在室内7-Scenes数据集以及室外Cambridge Landmarks数据集上进行对比试验，以此来验证模型的性能。

在一些实施例中，步骤S1中特征提取网络包括特征提取模块和特征增强模块。其中，

具体的，步骤S1按照以下步骤实施：

S11、将全卷积网络UNet中的类VGG结构替换为ResNet-50，作为特征提取网络的编码器；

原始UNet使用类VGG网络作为编码器来提取特征，网络深度较浅，特征提取能力较差。且VGG网络虽然准确率不错、结构简洁，但其效率较低，而且网络中参数较多，模型占用内存较大。如图2所示，ResNet中的基本残差单元通过引入跳跃连接加深网络深度，提升了网络性能，解决了网络退化的问题，且没有增加网络的参数量和计算复杂度。与VGG网络相比，ResNet的计算量和参数量较少，模型占用内存也较少，效率较高且复杂度低，特征提取能力也更强。

S12、利用上采样构建解码器，并在解码器的上采样操作后加入通道注意力ECA-Net；

在视觉定位中，一般使用连续帧图像作为输入。而连续帧图像每帧图像之间的变化较为细微，在进行卷积操作时，随着卷积层的增加，图像的特征图逐渐减小，一些微小的细节信息随着卷积操作被冗余信息淹没，导致位姿估计精度不高。针对以上问题，本节将通道注意力ECA-Net加入特征提取网络的解码器中，使网络专注于重要特征，忽视次要特征，更有效地提取场景中的重要信息。ECA-Net的结构如图3所示。

S13、以编码器和解码器构成的网络为基础架构，构建特征提取网络；

S14、融合位姿估计误差和几何重投影误差，作为联合损失函数；并利用联合损失函数训练特征提取网络。

重投影误差在设计之初并未考虑一些特殊情况：估计值位于相机中心的后方、估计值距离相机中心非常近，在这两种特殊情况下，重投影误差的约束作用会大大降低，模型可能会陷入错误的局部极小值。

因此，引入位姿估计误差损失，辅助重投影误差损失对模型进行监督。

本实施例中，最终的特征提取网络ResUNet-E的网络结构如图4所示。

图4左侧编码器部分为图像下采样过程，下采样部分提取具有代表性的特征。图像首先通过一个7×7的卷积层和最大池化层，接着通过4个残差模块(分别由3、4、6、3个残差结构组成)。同时，ResNet50的网络权重是在ImageNet上预训练好的，这样不仅可以防止过拟合，还可以提升网络收敛速度。为了使网络最终输出的特征图大小与输入图像大小保持一致，网络中所有卷积层都采用了填充策略。输入图像通过改进后的编码器模块后，一共可以得到5个不同尺度的特征图。

图4右侧解码器部分为上采样过程，经过下采样部分提取高水平语义信息的图像特征后，需要使用上采样来恢复原始的图像信息。经过4次上采样操作后，恢复到了原始图像的尺度，网络最终输出3层尺度不同的特征图。下采样操作会使图像细节信息丢失，导致上采样时难以恢复。因此，在上采样与下采样之间，同样存在跳跃连接。其目的是使用低层信息来帮助恢复图像信息。为了凸显细节信息，在上采样操作后插入ECA-Net，帮助网络更好地恢复原始图像信息。

在本实施例中，ResUNet-E网络是灵活多变的，可根据不同的需要，通过调整卷积层数、通道个数等，进行适当的压缩或扩展。通过对网络结构的调整，可以得到若干维度、尺度不同的特征图。本实施例中将尺度l设为3，即网络最终输出三个不同尺度的特征图。其中，l越小代表尺度越小，每个尺度对应的特征图维度分别为D_l＝32,128,128。l＝1时，特征图为编码器部分最后一层的输出再经过一个3×3卷积后得到的结果。l＝2时，先将编码器最后一层的输出进行2×2的上采样，然后再通过一个ECA-Net模块，最后与编码器部分对应尺度的特征图进行融合。重复上述步骤两次，然后再让特征图经过一个3×3卷积，即可得到特征图。l＝3时，获取特征图的步骤与时相同，这里不再赘述。最后，在这三个尺度的特征图上依次进行位姿优化，执行自适应的LM算法。

在一些实施例中，编码器删去了原始ResNet-50最后的池化层和全连接层，保留了剩余结构，保持了UNet的全卷积网络的特点；

编码器包括一个7×7的卷积层和最大池化层，以及4个残差模块(分别由3、4、6、3个基本残差单元组成)。

在一些实施例中，解码器包含四次上采样，每次上采样后都插入了通道注意力ECA-Net；

在一些实施例中，位姿估计误差由位置损失与方向损失构成，公式为：

其中，t表示相机位姿的平移向量的地面真值，R表示相机位姿的旋转矩阵的地面真值，表示相机位姿的平移向量的估计值，R表示相机位姿的旋转矩阵的估计值，α为权值系数；

几何重投影误差的公式为：

其中，P_i表示场景中的3D点；

最终的联合损失函数为：

其中，l为特征图层数，λ为融合系数。

在一些实施例中，步骤S2中查询图像的初始位姿(R₀,t₀)为参考图像的位姿；

查询图像与参考图像间特征残差的计算公式为：

在一些实施例中，步骤S3中使用的最优化算法为LM(Levenberg-Marquardt)算法，具体位姿优化过程如下：

S31、计算特征残差相对于姿势的导数雅各比矩阵J_i,k：

其中，表示导数运算，/>为姿态更新；

S32、使用雅各比矩阵计算得到海森矩阵H：

S33、通过求解线性系统来计算姿态更新δ：

其中，λ为自适应的LM算法中特有的阻尼因子；

S34、计算得到新的姿态：

其中，R⁺为优化后的旋转矩阵，t⁺为优化后的平移向量，δ^{^}为姿态更新的李代数形式。

在一些实施例中，步骤S33中，通过分离模型参数与位姿优化器来提高模型泛化到新场景的能力：通过将阻尼因子λ作为一个固定的模型参数来实现优化器与训练数据的解耦，提高模型泛化性。一些方法使用神经网络预测λ的值，损害了模型的泛化性，本发明将λ设置为可学习的参数，使其可以自适应的获得一个最优值。

具体的，参照注意力机制中权重系数的设置方式，将λ设置为可学习的模型参数。可学习的参数，将原来不可训练的tensor类型的参数λ，转换为可训练的parameter类型。同时，将λ绑定至ResUNet-E模型中的parameter列表中，与模型相关联。λ被绑定至模型的parameter列表中后，参数会随着模型训练一起更新迭代。λ的初始值一般通过随机初始化的方式获得。获得初始值后，就可以使用模型中的net.parameter()迭代器来迭代优化的值，使λ的值在模型的学习过程中达到最优。这个最优值是在模型的学习过程中使损失函数最小的值。

二、对应于前述的一种融合残差网络和通道注意力的视觉定位方法，本发明还提供了一种融合残差网络和通道注意力的视觉定位系统，包括：

实施例

ResUNet-E网络首先在MegaDepth数据集上进行训练，训练好后，在7-Scenes数据集中进行验证。在7-Scenes数据集中验证时，首先，使用特征提取网络提取7-Scenes数据集中图像的特征图；得到多尺度特征图后计算参考图像与查询图像间的特征残差；然后通过最小化特征残差来优化初始位姿，得到最优位姿。视觉定位主要定量的评估模型定位时的精度(位置与角度)，即定位误差。定位误差包括平移误差和旋转误差，分别用于衡量位置精度和角度精度。该实施例中，7-Scenes数据集的实验结果如表1和表2所示，其中表1为平移误差对比结果，表2为旋转误差对比结果。

表1 7-Scenes数据集的旋转误差对比结果

表2 7-Scenes数据集的平移误差对比结果

由表1和表2中可知，与PixLoc算法相比，本发明方法即融合残差网络和通道注意力的视觉定位方法及系统，在除Chess和Pumpkin场景外的其余场景中的定位误差均较小，尤其是在重复纹理的Stairs场景和低纹理的Fire场景中表现更好；在Chess场景中，本发明方法的旋转误差相对较小；而在Pumpkin场景中，定位误差则相差无几。从旋转误差方面分析，本发明方法在除Pumpkin场景外的其余场景中分别提升了2.4％、7.6％、3.4％、3.6％、4.2％、16.0％，整体上提升了6.9％；而在平移误差方面，本发明方法在除Chess和Pumpkin场景外的其余场景中分别提升了5.3％、7.7％、3.6％、4.7％、17.6％，整体上提升了9.7％。

本发明的一种融合残差网络和通道注意力的视觉定位方法，通过使用具有更强的特征提取能力的ResNet50代替原始网络中的类VGG结构，减少了参数量，提高了网络提取特征的能力；通过引入通道注意力机制(ECA-Net)，放大了图像中的微小特征，可以获取更多的场景中的细节信息，使改进网络更有效地提取场景中的重要信息以及细节信息，解决了由于过度下采样造成的细节特征损失；采用了融合位姿估计误差和几何重投影误差的联合损失函数，增强了复杂场景中的约束，解决了重投影误差损失失效的问题，提高了视觉定位的精度；通过分离模型参数与位姿优化器，解耦了模型参数与训练数据，提高了模型泛化到新场景的能力。

Claims

1.融合残差网络和通道注意力的视觉定位方法，其特征在于，包括以下步骤：

S1、构建特征提取网络，利用所述特征提取网络对输入的查询图像和参考图像分别进行特征提取，生成多尺度特征图；所述特征提取网络包括两个模块，分别为特征提取模块和特征增强模块；所述特征提取模块包括多个基本残差单元，所述特征增强模块包括多个上采样操作；

融合位姿估计误差和几何重投影误差，作为联合损失函数，利用联合损失函数训练所述特征提取网络；

S2、根据所述查询图像的初始位姿，对齐特征图中对应的像素点，并计算查询图像与参考图像间的特征残差；所述特征图为所述特征提取网络对输入的查询图像和参考图像；

S3、将所述特征残差作为最优化算法的目标函数，对所述初始位姿进行优化，得到最优位姿。

2.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述步骤S1中特征提取网络包括：

特征增强模块：利用上采样构建解码器，并在解码器的上采样操作后加入通道注意力ECA-Net；所述通道注意力机制用于提取图像中的细节信息；

以所述编码器和所述解码器构成的网络为基础架构，构建特征提取网络。

3.根据权利要求2所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述编码器删去了原始ResNet-50最后的池化层和全连接层，保留了剩余结构；

所述编码器包括一个7×7的卷积层和最大池化层，以及4个残差模块。

4.根据权利要求2所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述解码器包含四次上采样，每次上采样后都插入了通道注意力ECA-Net；

5.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述位姿估计误差由位置损失与方向损失构成，公式为：

所述几何重投影误差的公式为：

其中，P_i表示场景中的3D点；

最终的联合损失函数为：

其中，l为特征图层数，λ为融合系数。

6.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述步骤S2中查询图像的初始位姿(R₀,t₀)为参考图像的位姿；

查询图像与参考图像间特征残差的计算公式为：

7.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述步骤S3中使用的最优化算法为自适应的LM算法，具体位姿优化过程如下：

S31、计算特征残差相对于姿势的导数雅各比矩阵J_i,k：

其中，表示导数运算，/>为姿态更新；

S32、使用雅各比矩阵计算得到海森矩阵H：

S33、通过求解线性系统来计算姿态更新δ：

其中，λ为自适应的LM算法中特有的阻尼因子；

S34、计算得到新的姿态：

8.根据权利要求7所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述步骤S33中通过将阻尼因子λ设置为可学习的参数，使其可以自适应的获得一个最优值，来实现优化器与训练数据的解耦。

9.融合全残差网络和通道注意力的视觉定位系统，其特征在于，包括：

特征提取网络构建模块，用于利用所述特征提取网络对输入的查询图像和参考图像分别进行特征提取，生成多尺度特征图；所述特征提取网络包括两个模块，分别为特征提取模块和特征增强模块；所述特征提取模块包括多个基本残差单元，所述特征增强模块包括多个上采样操作；

特征提取网络训练模块，用于利用联合损失函数训练所述特征提取网络；融合位姿估计误差和几何重投影误差得到所述联合损失函数；

特征残差获取模块，用于根据所述查询图像的初始位姿，对齐特征图中对应的像素点，并计算查询图像与参考图像间的特征残差；所述特征图为所述特征提取网络对输入的查询图像和参考图像；

位姿优化模块，用于将所述特征残差作为最优化算法的目标函数，对所述初始位姿进行优化，得到最优位姿。