CN116704205A - 融合残差网络和通道注意力的视觉定位方法及系统 - Google Patents
融合残差网络和通道注意力的视觉定位方法及系统 Download PDFInfo
- Publication number
- CN116704205A CN116704205A CN202310685821.2A CN202310685821A CN116704205A CN 116704205 A CN116704205 A CN 116704205A CN 202310685821 A CN202310685821 A CN 202310685821A CN 116704205 A CN116704205 A CN 116704205A
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- feature extraction
- pose
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000000007 visual effect Effects 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 77
- 238000005457 optimization Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 20
- 230000004807 localization Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000013016 damping Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 6
- 235000000832 Ayote Nutrition 0.000 description 4
- 235000009854 Cucurbita moschata Nutrition 0.000 description 4
- 240000001980 Cucurbita pepo Species 0.000 description 4
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 235000015136 pumpkin Nutrition 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合残差网络和通道注意力的视觉定位方法及系统,包括以下步骤:S1、构建特征提取网络,利用特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;S2、根据查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;S3、将特征残差作为最优化算法的目标函数,对初始位姿进行优化,得到最优位姿。其解决了现有定位方法在复杂场景中定位精度较低、泛化性较差的问题。
Description
【技术领域】
本发明属于视觉定位技术领域,具体涉及一种融合残差网络和通道注意力的视觉定位方法及系统。
【背景技术】
视觉定位的目的是估计相机相对于已知环境的六自由度姿态,即相机的位置坐标和环绕三个坐标轴的角度偏转,它是计算机视觉和机器人技术中的一个重要问题之一。
目前,现有的基于深度学习的视觉定位方法主要可以分为两类:特征级别的学习和像素级别的学习。特征级别的视觉定位使用神经网络直接回归相机位姿,如Kendall等人使用卷积神经网络从输入图像回归绝对相机位姿,使得视觉定位变得简单高效,但精度相对较低。像素级别的视觉定位则使用神经网络回归场景坐标,建立二维像素到三维空间的映射。比如Brachmann等人采用卷积神经网络预测场景坐标,接着通过采样最小个数的坐标子集,得到模型假设集合,最后通过另外一个卷积神经网络对模型集合进行打分,从而得到最佳模型。像素级别的视觉定位精度相较特征级别的方法有所提升,但在复杂场景下,比如:重复结构、镜面反射等,定位效果并不理想。且这些方法需要对每个场景进行训练,模型泛化性较差。
【发明内容】
本发明的目的是提供一种融合残差网络和通道注意力的视觉定位方法及系统,以解决现有定位方法在复杂场景中定位精度较低、泛化性较差的问题。
本发明采用以下技术方案:融合残差网络和通道注意力的视觉定位方法,包括以下步骤:
S1、构建特征提取网络,利用特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;特征提取模块包括多个基本残差单元,特征增强模块包括多个上采样操作;
融合位姿估计误差和几何重投影误差,作为联合损失函数,利用联合损失函数训练特征提取网络;
S2、根据查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;特征图为特征提取网络对输入的查询图像和参考图像;
S3、将特征残差作为最优化算法的目标函数,对初始位姿进行优化,得到最优位姿。
进一步的,步骤S1中特征提取网络包括:
特征提取模块:将全卷积网络UNet中的类VGG结构替换为ResNet-50,作为特征提取网络的编码器;
特征增强模块:利用上采样构建解码器,并在解码器的上采样操作后加入通道注意力ECA-Net;通道注意力机制用于提取图像中的细节信息;
以编码器和解码器构成的网络为基础架构,构建特征提取网络。
进一步的,编码器删去了原始ResNet-50最后的池化层和全连接层,保留了剩余结构;
编码器包括一个7×7的卷积层和最大池化层,以及4个残差模块。
进一步的,解码器包含四次上采样,每次上采样后都插入了通道注意力ECA-Net;
每个解码器层与编码器间有跳跃连接,每个解码器层的输入不仅包含解码器的特征信息,还包含所有编码器层的特征信息。
进一步的,位姿估计误差由位置损失与方向损失构成,公式为:
其中,t表示相机位姿的平移向量的地面真值,R表示相机位姿的旋转矩阵的地面真值,R-1为旋转矩阵的逆矩阵,表示相机位姿的平移向量的估计值,R表示相机位姿的旋转矩阵的估计值,α为权值系数;
几何重投影误差的公式为:
其中,Pi表示场景中的3D点;
最终的联合损失函数为:
其中,l为特征图层数,λ为融合系数。
进一步的,步骤S2中查询图像的初始位姿(R0,t0)为参考图像的位姿;
查询图像与参考图像间特征残差的计算公式为:
其中,为查询图像特征图,/>为参考图像特征图,/>为查询图像上的3D点,/>为参考图像上的3D点。
进一步的,步骤S3中使用的最优化算法为自适应的LM算法,具体位姿优化过程如下:
S31、计算特征残差相对于姿势的导数雅各比矩阵Ji,k:
其中,表示导数运算,/>为姿态更新;
S32、使用雅各比矩阵计算得到海森矩阵H:
其中,为雅各比矩阵的转置矩阵,/>为对角权重矩阵,ρ是鲁棒的成本函数,其导数为ρ',/>是每个特征残差的权重;
S33、通过求解线性系统来计算姿态更新δ:
其中,λ为自适应的LM算法中特有的阻尼因子;
S34、计算得到新的姿态:
其中,R+为优化后的旋转矩阵,t+为优化后的平移向量,δ^为姿态更新的李代数形式。
进一步的,步骤S33中通过将阻尼因子λ设置为可学习的参数,使其可以自适应的获得一个最优值,来实现优化器与训练数据的解耦。
本发明采用的另一技术方案是,融合全残差网络和通道注意力的视觉定位系统,包括:
特征提取网络构建模块,用于利用特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;特征提取模块包括多个基本残差单元,特征增强模块包括多个上采样操作;
特征提取网络训练模块,用于利用联合损失函数训练特征提取网络;融合位姿估计误差和几何重投影误差得到联合损失函数;
特征残差获取模块,用于根据查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;特征图为特征提取网络对输入的查询图像和参考图像;
位姿优化模块,用于将特征残差作为最优化算法的目标函数,对初始位姿进行优化,得到最优位姿。
本发明与现有技术相比,具有如下优点和有益效果:本发明公开一种融合残差网络和通道注意力的视觉定位方法,通过使用具有更强的特征提取能力的ResNet50代替原始网络中的类VGG结构,减少了参数量,提高了网络提取特征的能力;通过引入通道注意力机制(ECA-Net),放大了图像中的微小特征,可以获取更多的场景中的细节信息,使改进网络更有效地提取场景中的重要信息以及细节信息,解决了由于过度下采样造成的细节特征损失;采用了融合位姿估计误差和几何重投影误差的联合损失函数,增强了复杂场景中的约束,解决了重投影误差损失失效的问题,提高了视觉定位的精度;通过分离模型参数与位姿优化器,解耦了模型参数与训练数据,提高了模型泛化到新场景的能力。
【附图说明】
图1为本发明融合残差网络和通道注意力的视觉定位方法的整体框架图;
图2为本发明融合残差网络和通道注意力的视觉定位方法中的Resnet-50中基本残差单元的示意图;
图3为本发明融合残差网络和通道注意力的视觉定位方法及系统中的通道注意力ECA-Net的示意图;
图4为本发明实施例提供的特征提取网络的结构示意图。
【具体实施方式】
本发明的目的是提供一种融合残差网络和通道注意力的视觉定位方法及系统,以提高视觉定位的精度和泛化性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明进行详细说明。
为了解决现有视觉定位算法泛化性较差、复杂场景中精度较低的问题,本发明提出了一种融残差网络和通道注意力的视觉定位方法,可以用于估计相机位姿。该融合残差网络和通道注意力的视觉定位方法具有:(1)考虑到网络提取特征的质量对位姿估计的影响,用Resnet-50网络代替了原始编码端的类VGG网络,增强了网络提取特征的能力,也减少了网络的参数量;(2)在解码器的每个上采样操作后加入通道注意力ECA-Net,使网络专注于重要特征,忽视次要特征,更有效地提取场景中的重要信息以及细节信息;(3)融合位姿估计误差和几何重投影误差作为网络的损失函数,加强了几何约束,降低复杂场景中重投影误差损失失效带来的影响;(4)通过分离模型参数与位姿优化器,提高了模型的泛化能力,使得模型一次训练可用于多个未见场景的位姿估计。
图1为本发明融合残差网络和通道注意力的视觉定位方法的整体框架图,本发明的融合残差网络和通道注意力的视觉定位方法及系统具体包括以下步骤:
S1、构建特征提取网络,利用特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;特征提取模块包括多个基本残差单元,特征增强模块包括多个上采样操作;
融合位姿估计误差和几何重投影误差,作为联合损失函数,利用联合损失函数训练特征提取网络。
S2、根据参考图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差:特征图为特征提取网络对输入的查询图像和参考图像。
S3、将特征残差作为最优化算法的目标函数,对位姿进行优化,得到最优位姿。
得到最优位姿之后,可以使用公共数据集对特征提取网络进行训练,获得训练好的模型。本实施例中,使用MegaDepth数据集训练模型。模型训练好后,直接使用训练好的模型(不重新在新数据集上训练)在室内7-Scenes数据集以及室外Cambridge Landmarks数据集上进行对比试验,以此来验证模型的性能。
在一些实施例中,步骤S1中特征提取网络包括特征提取模块和特征增强模块。其中,
特征提取模块:将全卷积网络UNet中的类VGG结构替换为ResNet-50,作为特征提取网络的编码器;
特征增强模块:利用上采样构建解码器,并在解码器的上采样操作后加入通道注意力ECA-Net;通道注意力机制用于提取图像中的细节信息;
以编码器和解码器构成的网络为基础架构,构建特征提取网络。
具体的,步骤S1按照以下步骤实施:
S11、将全卷积网络UNet中的类VGG结构替换为ResNet-50,作为特征提取网络的编码器;
原始UNet使用类VGG网络作为编码器来提取特征,网络深度较浅,特征提取能力较差。且VGG网络虽然准确率不错、结构简洁,但其效率较低,而且网络中参数较多,模型占用内存较大。如图2所示,ResNet中的基本残差单元通过引入跳跃连接加深网络深度,提升了网络性能,解决了网络退化的问题,且没有增加网络的参数量和计算复杂度。与VGG网络相比,ResNet的计算量和参数量较少,模型占用内存也较少,效率较高且复杂度低,特征提取能力也更强。
S12、利用上采样构建解码器,并在解码器的上采样操作后加入通道注意力ECA-Net;
在视觉定位中,一般使用连续帧图像作为输入。而连续帧图像每帧图像之间的变化较为细微,在进行卷积操作时,随着卷积层的增加,图像的特征图逐渐减小,一些微小的细节信息随着卷积操作被冗余信息淹没,导致位姿估计精度不高。针对以上问题,本节将通道注意力ECA-Net加入特征提取网络的解码器中,使网络专注于重要特征,忽视次要特征,更有效地提取场景中的重要信息。ECA-Net的结构如图3所示。
S13、以编码器和解码器构成的网络为基础架构,构建特征提取网络;
S14、融合位姿估计误差和几何重投影误差,作为联合损失函数;并利用联合损失函数训练特征提取网络。
重投影误差在设计之初并未考虑一些特殊情况:估计值位于相机中心的后方、估计值距离相机中心非常近,在这两种特殊情况下,重投影误差的约束作用会大大降低,模型可能会陷入错误的局部极小值。
因此,引入位姿估计误差损失,辅助重投影误差损失对模型进行监督。
本实施例中,最终的特征提取网络ResUNet-E的网络结构如图4所示。
图4左侧编码器部分为图像下采样过程,下采样部分提取具有代表性的特征。图像首先通过一个7×7的卷积层和最大池化层,接着通过4个残差模块(分别由3、4、6、3个残差结构组成)。同时,ResNet50的网络权重是在ImageNet上预训练好的,这样不仅可以防止过拟合,还可以提升网络收敛速度。为了使网络最终输出的特征图大小与输入图像大小保持一致,网络中所有卷积层都采用了填充策略。输入图像通过改进后的编码器模块后,一共可以得到5个不同尺度的特征图。
图4右侧解码器部分为上采样过程,经过下采样部分提取高水平语义信息的图像特征后,需要使用上采样来恢复原始的图像信息。经过4次上采样操作后,恢复到了原始图像的尺度,网络最终输出3层尺度不同的特征图。下采样操作会使图像细节信息丢失,导致上采样时难以恢复。因此,在上采样与下采样之间,同样存在跳跃连接。其目的是使用低层信息来帮助恢复图像信息。为了凸显细节信息,在上采样操作后插入ECA-Net,帮助网络更好地恢复原始图像信息。
在本实施例中,ResUNet-E网络是灵活多变的,可根据不同的需要,通过调整卷积层数、通道个数等,进行适当的压缩或扩展。通过对网络结构的调整,可以得到若干维度、尺度不同的特征图。本实施例中将尺度l设为3,即网络最终输出三个不同尺度的特征图。其中,l越小代表尺度越小,每个尺度对应的特征图维度分别为Dl=32,128,128。l=1时,特征图为编码器部分最后一层的输出再经过一个3×3卷积后得到的结果。l=2时,先将编码器最后一层的输出进行2×2的上采样,然后再通过一个ECA-Net模块,最后与编码器部分对应尺度的特征图进行融合。重复上述步骤两次,然后再让特征图经过一个3×3卷积,即可得到特征图。l=3时,获取特征图的步骤与时相同,这里不再赘述。最后,在这三个尺度的特征图上依次进行位姿优化,执行自适应的LM算法。
在一些实施例中,编码器删去了原始ResNet-50最后的池化层和全连接层,保留了剩余结构,保持了UNet的全卷积网络的特点;
编码器包括一个7×7的卷积层和最大池化层,以及4个残差模块(分别由3、4、6、3个基本残差单元组成)。
在一些实施例中,解码器包含四次上采样,每次上采样后都插入了通道注意力ECA-Net;
每个解码器层与编码器间有跳跃连接,每个解码器层的输入不仅包含解码器的特征信息,还包含所有编码器层的特征信息。
在一些实施例中,位姿估计误差由位置损失与方向损失构成,公式为:
其中,t表示相机位姿的平移向量的地面真值,R表示相机位姿的旋转矩阵的地面真值,表示相机位姿的平移向量的估计值,R表示相机位姿的旋转矩阵的估计值,α为权值系数;
几何重投影误差的公式为:
其中,Pi表示场景中的3D点;
最终的联合损失函数为:
其中,l为特征图层数,λ为融合系数。
在一些实施例中,步骤S2中查询图像的初始位姿(R0,t0)为参考图像的位姿;
查询图像与参考图像间特征残差的计算公式为:
其中,为查询图像特征图,/>为参考图像特征图,/>为查询图像上的3D点,/>为参考图像上的3D点。
在一些实施例中,步骤S3中使用的最优化算法为LM(Levenberg-Marquardt)算法,具体位姿优化过程如下:
S31、计算特征残差相对于姿势的导数雅各比矩阵Ji,k:
其中,表示导数运算,/>为姿态更新;
S32、使用雅各比矩阵计算得到海森矩阵H:
其中,为雅各比矩阵的转置矩阵,/>为对角权重矩阵,ρ是鲁棒的成本函数,其导数为ρ',/>是每个特征残差的权重;
S33、通过求解线性系统来计算姿态更新δ:
其中,λ为自适应的LM算法中特有的阻尼因子;
S34、计算得到新的姿态:
其中,R+为优化后的旋转矩阵,t+为优化后的平移向量,δ^为姿态更新的李代数形式。
在一些实施例中,步骤S33中,通过分离模型参数与位姿优化器来提高模型泛化到新场景的能力:通过将阻尼因子λ作为一个固定的模型参数来实现优化器与训练数据的解耦,提高模型泛化性。一些方法使用神经网络预测λ的值,损害了模型的泛化性,本发明将λ设置为可学习的参数,使其可以自适应的获得一个最优值。
具体的,参照注意力机制中权重系数的设置方式,将λ设置为可学习的模型参数。可学习的参数,将原来不可训练的tensor类型的参数λ,转换为可训练的parameter类型。同时,将λ绑定至ResUNet-E模型中的parameter列表中,与模型相关联。λ被绑定至模型的parameter列表中后,参数会随着模型训练一起更新迭代。λ的初始值一般通过随机初始化的方式获得。获得初始值后,就可以使用模型中的net.parameter()迭代器来迭代优化的值,使λ的值在模型的学习过程中达到最优。这个最优值是在模型的学习过程中使损失函数最小的值。
二、对应于前述的一种融合残差网络和通道注意力的视觉定位方法,本发明还提供了一种融合残差网络和通道注意力的视觉定位系统,包括:
特征提取网络构建模块,用于利用特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;特征提取模块包括多个基本残差单元,特征增强模块包括多个上采样操作;
特征提取网络训练模块,用于利用联合损失函数训练特征提取网络;融合位姿估计误差和几何重投影误差得到联合损失函数;
特征残差获取模块,用于根据查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;特征图为特征提取网络对输入的查询图像和参考图像;
位姿优化模块,用于将特征残差作为最优化算法的目标函数,对初始位姿进行优化,得到最优位姿。
实施例
ResUNet-E网络首先在MegaDepth数据集上进行训练,训练好后,在7-Scenes数据集中进行验证。在7-Scenes数据集中验证时,首先,使用特征提取网络提取7-Scenes数据集中图像的特征图;得到多尺度特征图后计算参考图像与查询图像间的特征残差;然后通过最小化特征残差来优化初始位姿,得到最优位姿。视觉定位主要定量的评估模型定位时的精度(位置与角度),即定位误差。定位误差包括平移误差和旋转误差,分别用于衡量位置精度和角度精度。该实施例中,7-Scenes数据集的实验结果如表1和表2所示,其中表1为平移误差对比结果,表2为旋转误差对比结果。
表1 7-Scenes数据集的旋转误差对比结果
表2 7-Scenes数据集的平移误差对比结果
由表1和表2中可知,与PixLoc算法相比,本发明方法即融合残差网络和通道注意力的视觉定位方法及系统,在除Chess和Pumpkin场景外的其余场景中的定位误差均较小,尤其是在重复纹理的Stairs场景和低纹理的Fire场景中表现更好;在Chess场景中,本发明方法的旋转误差相对较小;而在Pumpkin场景中,定位误差则相差无几。从旋转误差方面分析,本发明方法在除Pumpkin场景外的其余场景中分别提升了2.4%、7.6%、3.4%、3.6%、4.2%、16.0%,整体上提升了6.9%;而在平移误差方面,本发明方法在除Chess和Pumpkin场景外的其余场景中分别提升了5.3%、7.7%、3.6%、4.7%、17.6%,整体上提升了9.7%。
本发明的一种融合残差网络和通道注意力的视觉定位方法,通过使用具有更强的特征提取能力的ResNet50代替原始网络中的类VGG结构,减少了参数量,提高了网络提取特征的能力;通过引入通道注意力机制(ECA-Net),放大了图像中的微小特征,可以获取更多的场景中的细节信息,使改进网络更有效地提取场景中的重要信息以及细节信息,解决了由于过度下采样造成的细节特征损失;采用了融合位姿估计误差和几何重投影误差的联合损失函数,增强了复杂场景中的约束,解决了重投影误差损失失效的问题,提高了视觉定位的精度;通过分离模型参数与位姿优化器,解耦了模型参数与训练数据,提高了模型泛化到新场景的能力。
Claims (9)
1.融合残差网络和通道注意力的视觉定位方法,其特征在于,包括以下步骤:
S1、构建特征提取网络,利用所述特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;所述特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;所述特征提取模块包括多个基本残差单元,所述特征增强模块包括多个上采样操作;
融合位姿估计误差和几何重投影误差,作为联合损失函数,利用联合损失函数训练所述特征提取网络;
S2、根据所述查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;所述特征图为所述特征提取网络对输入的查询图像和参考图像;
S3、将所述特征残差作为最优化算法的目标函数,对所述初始位姿进行优化,得到最优位姿。
2.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述步骤S1中特征提取网络包括:
特征提取模块:将全卷积网络UNet中的类VGG结构替换为ResNet-50,作为特征提取网络的编码器;
特征增强模块:利用上采样构建解码器,并在解码器的上采样操作后加入通道注意力ECA-Net;所述通道注意力机制用于提取图像中的细节信息;
以所述编码器和所述解码器构成的网络为基础架构,构建特征提取网络。
3.根据权利要求2所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述编码器删去了原始ResNet-50最后的池化层和全连接层,保留了剩余结构;
所述编码器包括一个7×7的卷积层和最大池化层,以及4个残差模块。
4.根据权利要求2所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述解码器包含四次上采样,每次上采样后都插入了通道注意力ECA-Net;
每个解码器层与编码器间有跳跃连接,每个解码器层的输入不仅包含解码器的特征信息,还包含所有编码器层的特征信息。
5.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述位姿估计误差由位置损失与方向损失构成,公式为:
其中,t表示相机位姿的平移向量的地面真值,R表示相机位姿的旋转矩阵的地面真值,R-1为旋转矩阵的逆矩阵,表示相机位姿的平移向量的估计值,R表示相机位姿的旋转矩阵的估计值,α为权值系数;
所述几何重投影误差的公式为:
其中,Pi表示场景中的3D点;
最终的联合损失函数为:
其中,l为特征图层数,λ为融合系数。
6.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述步骤S2中查询图像的初始位姿(R0,t0)为参考图像的位姿;
查询图像与参考图像间特征残差的计算公式为:
其中,为查询图像特征图,/>为参考图像特征图,/>为查询图像上的3D点,/>为参考图像上的3D点。
7.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述步骤S3中使用的最优化算法为自适应的LM算法,具体位姿优化过程如下:
S31、计算特征残差相对于姿势的导数雅各比矩阵Ji,k:
其中,表示导数运算,/>为姿态更新;
S32、使用雅各比矩阵计算得到海森矩阵H:
其中,为雅各比矩阵的转置矩阵,/>为对角权重矩阵,ρ是鲁棒的成本函数,其导数为ρ',/>是每个特征残差的权重;
S33、通过求解线性系统来计算姿态更新δ:
其中,λ为自适应的LM算法中特有的阻尼因子;
S34、计算得到新的姿态:
其中,R+为优化后的旋转矩阵,t+为优化后的平移向量,δ^为姿态更新的李代数形式。
8.根据权利要求7所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述步骤S33中通过将阻尼因子λ设置为可学习的参数,使其可以自适应的获得一个最优值,来实现优化器与训练数据的解耦。
9.融合全残差网络和通道注意力的视觉定位系统,其特征在于,包括:
特征提取网络构建模块,用于利用所述特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;所述特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;所述特征提取模块包括多个基本残差单元,所述特征增强模块包括多个上采样操作;
特征提取网络训练模块,用于利用联合损失函数训练所述特征提取网络;融合位姿估计误差和几何重投影误差得到所述联合损失函数;
特征残差获取模块,用于根据所述查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;所述特征图为所述特征提取网络对输入的查询图像和参考图像;
位姿优化模块,用于将所述特征残差作为最优化算法的目标函数,对所述初始位姿进行优化,得到最优位姿。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685821.2A CN116704205A (zh) | 2023-06-09 | 2023-06-09 | 融合残差网络和通道注意力的视觉定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685821.2A CN116704205A (zh) | 2023-06-09 | 2023-06-09 | 融合残差网络和通道注意力的视觉定位方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704205A true CN116704205A (zh) | 2023-09-05 |
Family
ID=87823392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310685821.2A Pending CN116704205A (zh) | 2023-06-09 | 2023-06-09 | 融合残差网络和通道注意力的视觉定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704205A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252928A (zh) * | 2023-11-20 | 2023-12-19 | 南昌工控机器人有限公司 | 用于电子产品模块化智能组装的视觉图像定位系统 |
-
2023
- 2023-06-09 CN CN202310685821.2A patent/CN116704205A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252928A (zh) * | 2023-11-20 | 2023-12-19 | 南昌工控机器人有限公司 | 用于电子产品模块化智能组装的视觉图像定位系统 |
CN117252928B (zh) * | 2023-11-20 | 2024-01-26 | 南昌工控机器人有限公司 | 用于电子产品模块化智能组装的视觉图像定位系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462329B (zh) | 一种基于深度学习的无人机航拍影像的三维重建方法 | |
CN107564061B (zh) | 一种基于图像梯度联合优化的双目视觉里程计算方法 | |
CN110009674B (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
CN110570522B (zh) | 一种多视图三维重建方法 | |
CN110264563A (zh) | 一种基于orbslam2的八叉树建图方法 | |
CN111462210B (zh) | 一种基于极线约束的单目线特征地图构建方法 | |
CN113870422B (zh) | 一种点云重建方法、装置、设备及介质 | |
CN113283525B (zh) | 一种基于深度学习的图像匹配方法 | |
CN114936605A (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
CN112233179B (zh) | 一种视觉里程计测量方法 | |
CN116704205A (zh) | 融合残差网络和通道注意力的视觉定位方法及系统 | |
CN113838191A (zh) | 一种基于注意力机制和单目多视角的三维重建方法 | |
CN113096239B (zh) | 一种基于深度学习的三维点云重建方法 | |
CN112967327A (zh) | 基于联合自注意力机制的单目深度方法 | |
CN111860651A (zh) | 一种基于单目视觉的移动机器人半稠密地图构建方法 | |
CN114638842B (zh) | 一种基于mlp的医学图像分割方法 | |
CN115375838A (zh) | 一种基于无人机的双目灰度图像的三维重建方法 | |
CN115222977A (zh) | 一种智能多视图立体匹配方法及装置 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN113255569B (zh) | 一种基于图空洞卷积编码器解码器的3d姿态估计方法 | |
CN110580726A (zh) | 基于动态卷积网络的自然场景下人脸素描生成模型及方法 | |
CN116797640A (zh) | 一种面向智能伴行巡视器的深度及3d关键点估计方法 | |
CN113593007B (zh) | 一种基于变分自编码的单视图三维点云重建方法及系统 | |
CN115830090A (zh) | 一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |