CN112819853B

CN112819853B - 一种基于语义先验的视觉里程计方法

Info

Publication number: CN112819853B
Application number: CN202110137828.1A
Authority: CN
Inventors: 续欣莹; 杨斌超; 韩晓明; 程兰; 张喆; 冯洲
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2023-07-25
Anticipated expiration: 2041-02-01
Also published as: CN112819853A

Abstract

一种基于语义先验的视觉里程计方法，包括如下步骤：S1、采用语义先验信息构造语义先验模块，并在语义先验模块的基础上构建卷积神经网络并训练；S2、通过图像采集模块，得到相应的彩色图像序列；S3、将图像序列的图像依次输入语义先验模块，计算得到相应的语义概率先验信息；S4、将图像序列的图像依次输入深度图估计模块，计算得到相应的深度图；S5、向相机位姿估计模块输入相邻的三张图像，对图像特征镜像提取，利用提取到的特征实现相机位姿的估计；S6、将相机位姿估计模块得到的相机位姿的估计输入位姿处理模块，产生相机运动轨迹；本发明通过单目相机图像的帧间变化分析相机的位姿，分析实现动态物体语义分割并降低了复杂度。

Description

一种基于语义先验的视觉里程计方法

技术领域

本发明属于本发明属于移动机器人自主定位领域，具体涉及一种基于语义先验的视觉里程计方法。

背景技术

视觉里程计技术是移动机器人自主定位的重要课题，是视觉同时定位与地图构建中的前端技术，也是视觉同时定位与地图构建中最重要的组成部分。视觉里程计通过分析相关图像序列，得到相机帧间位姿估计，进而获取局部地图。在地图构建、自动驾驶、虚拟现实和三维重建等领域有着非常广泛的应用。由于受到复杂噪声、动态物体、交叠和遮挡等问题影响，具有很强鲁棒性的视觉里程计依然极具挑战。

传统的视觉里程计研究了数十年，并提出多种算法，其主要是解决如何准确估计相机位姿的问题。在特征提取上，稀疏特征提取相对于稠密特征提取通常会有着不错的数据处理速度，如基于SIFT特征和基于ORB特征等。通过特征点的匹配实现帧间位姿估计和回环检测，都已经取得了不错的成果，但其依赖人工设计的特征点、不准确的系统建模、环境动力约束复杂等不足导致其在现实使用中，尤其是纹理不明显区域、运动的动态目标、光度变化等的环境条件下依然存在较多挑战。与利用物理模型或几何理论创建人工设计的视觉里程计算法不同，基于深度学习的解决方案提供了一种以数据驱动的方式解决问题的替代方案，并且在基于单目图像预测位姿和深度等信息取得了积极进展。相对于基于雷达、双目相机或融合传感器的视觉里程计，现有的基于单目相机的视觉里程计相对鲁棒性较差，但是在低成本和鲁棒性上有着无法替代的优势。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于语义先验的视觉里程计方法，其设计解决当前视觉里程计在纹理不明显区域、运动的动态目标等的环境条件下依然存在较多挑战的问题，新颖合理，便于推广使用。

为解决上述技术问题，本发明采用的技术方案是构建一种卷积神经网络模型，实现基于语义先验的视觉里程计计算。该模型对当前图像帧进行语义分析，得到像素级分类下的语义概率图，利用稳定可靠的语义概率图作为语义先验信息实现对相机位姿和深度图的精确估计。该模型在公开的数据集上进行训练、验证和测试，使用训练得到的最终模型在测试集上进行实验，输出对应的相机位姿和深度图，最终得出运动轨迹。

进一步地，所述卷积神经网络由以下五个模块构成：

1)图像采集模块：使用单目相机采集视频，并按照10帧的采集速率将视频归一化为128×416像素大小的图像序列；

2)深度图估计模块：采用编码解码结构，在编码器部分使用7层卷积层；解码器部分使用7层反卷积层，用于估计得到输入图像对应的深度图；

3)相机位姿估计模块：采用一个具有5层卷积层和29个残差模块的编码器实现，用于估计得到输入的相邻两帧图像间的相对位姿变换矩阵；

4)语义先验模块：采用编码解码结构，在编码器部分使用ResNet50作为主干网络；解码器部分使用8个卷积层、2个上采样层和1个池化层，用于对当前图像帧进行分析，产生语义概率图，作为先验信息送入深度图估计模块中；

5)位姿处理模块：对相机位姿估计模块产生的相对位姿变换矩阵进行累加，以产生相机运动轨迹。

进一步地，本方法具体包括以下步骤：

S1、采用语义先验信息构造语义先验模块，并在语义先验模块的基础上构建卷积神经网络并训练。

语义先验模块为采用编码解码结构的卷积神经网络，通过在训练数据集上训练，根据深度学习理论，通过交叉熵损失函数，使用ADAM优化器对卷积神经网络进行训练，使语义分割误差下降至0.20时训练完成。

对卷积神经网络进行训练的过程为：通过估计相机位姿向量和估计深度图，根据图像光度重建理论构建时间一致性的自监督信号，通过深度学习理论，使用Adam优化器对卷积神经网络进行训练，使深度误差和位姿误差下降至0.09时训练完成。

S2、通过图像采集模块，得到相应的彩色图像序列。

将原始单目相机采集到的视频按照10帧的速率采集为彩色图像序列，图像尺寸裁剪为128×416×3，其中416为彩色图像宽度，128为彩色图像高度，3为彩色图像通道数。

S3、将图像序列的图像依次输入语义先验模块，计算得到相应的语义概率先验信息。

语义概率图的数据格式为128×416×8，其中128为语义概率图的高度，416为语义概率图的宽度，8为语义概率图通道数。语义概率先验信息SPFM计算公式如下：

ω＝C_ω(τ(P))

其中为点乘,/>和C_ω为卷积计算,P为语义概率图，τ为语义解析计算，/>ω为一参数对，F为特征图。

S4、将图像序列的图像依次输入深度图估计模块，计算得到相应的深度图。

深度图为四个尺度的深度图，并在训练过程中对每个尺度的深度图赋予不同的权重参数。

S5、向相机位姿估计模块输入相邻的三张图像，对图像特征镜像提取，利于提取到的特征实现相机位姿的估计。

所估计的相机位姿为六自由度位姿向量，其中前三自由度为旋转向量，后三自由度为平移向量，用以表述相机的运动位姿变化。

S6、将相机位姿估计模块得到的相机位姿的估计输入位姿处理模块，产生相机运动轨迹。

相机位姿估计模块所得到的位姿估计为相邻帧间的相对运动位姿向量，通过在初始条件下对每个相对运动位姿向量进行累加，可以得到全局的运动位姿轨迹。

本方法中的模型训练包括如下三个阶段：

1)训练数据集的准备，选择KITTI数据集、KITTI Odometry数据集、PASCAL VOC2012数据集、Cityscapes数据集作为训练或测试数据集。并进行相机内参预处理和图像的随机旋转与缩放等数据增强操作。

2)语义先验模块的训练，首先利用DeepLab的预训练模型作为语义先验模块的初始化参数，将交叉损失作为语义先验模块的训练损失函数。第一步，在PASCAL VOC 2012数据集上对语义先验模块进行预训练；第二步，再Cityscapes数据集进行精调，使语义先验模块可以产生精度较高的语义概率图，作为语义先验信息。

3)深度图估计模块和相机位姿估计模块的训练，首先利用ResNet101的预训练模型作为相机位姿估计模块的初始化参数，利用Xavier方法对深度图估计模块参数初始化；计算结构相似性损失、L1正则化损失组成的光度误差损失，梯度平滑损失和大旋转损失，并对这三者损失函数加权求和作为总的损失函数，实现对整体卷积神经网络的自监督训练。

本发明的有益效果为：

1)本发明使用卷积神经网络从端到端的方式来进行特征向量提取和输出位姿估计和深度图估计，避免了传统人工特征向量的设计、提取与匹配方法，大大降低了方法的复杂度。

2)本发明中的语义先验信息输入深度图估计模块是一种十分高效的提高视觉里程计精度的方法，实现图像的像素级分类作为先验信息，有效避免了动态物体、交叠、光度变换等对视觉里程计精度的影响。

3)本发明采用注意力机制构造注意力机制层，在注意力机制层和语义先验模块的基础上构建卷积神经网络，提高卷积神经网络的估计精度，确保视觉里程计的高精度与鲁棒性。

4)本发明使用自监督的方法进行训练，无需任何标签数据集，适合在大规模数据集上训练和测试，提高方法的鲁棒性，减少数据集标注带来的人力和物理开支。

5)本发明作为一种单目视觉里程计方法，其位姿估计精度和深度图估计精度可以与传统算法比肩，相比其他基于深度学习的视觉里程计方法，取得了更加优秀的表现。

附图说明

图1为本发明具体实施方式所述的步骤流程图。

图2为本发明具体实施方式所述的语义先验模块结构示意图。

图3为本发明具体实施方式所述的视觉里程计卷积神经网络结构示意图。

图4为本发明具体实施方式所述的语义概率融合机制层结构示意图。

图5为本发明具体实施方式所述的注意力机制层结构示意图。

图6为本发明具体实施方式所述的卷积神经网络训练和测试流程图。

图7为本发明具体实施方式所述的可视化KITTI数据集01序列全局位姿运动轨迹。

图8为本发明具体实施方式所述的可视化KITTI数据集03序列全局位姿运动轨迹。

图9为本发明具体实施方式所述的可视化KITTI数据集04序列全局位姿运动轨迹。

图10为本发明具体实施方式所述的可视化KITTI数据集10序列全局位姿运动轨迹。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种基于语义先验的视觉里程计方法，包括以下步骤：

S2、通过图像采集模块，得到相应的彩色图像序列。

如图2所示，语义先验模块的主干结构为ResNet101网络，在主干结构后依次为5条并列通道、一个1×1卷积层、一个4倍双线性上采样层、两个3×3卷积层和一个4倍双线性上采样层，最终输出8通道的语义概率先验图。

其中5条并列通道包括：第一条通道为一个1×1卷积层，第二、3、4条通道结构相同，均为一个3×3卷积层，第五条通道为一个3×3卷积层和池化层，每条通道后均包含一个全局平均池化层。

输入ResNet101网络的输入图像大小为128×416×3，其中，128为语义先验模块的输入图像的高度，416为语义先验模块的输入图像的宽度，3为语义先验模块的输入图像的通道数。在经过ResNet101网络后，输出的张量为2048通道，经过5条并列通道后输出的张量为1280通道，经过1×1卷积层降维，输出的张量为256通道，一个4倍双线性上采样层、两个3×3卷积层细化特征后，通过一个4倍双线性上采样层达到与原输入大小一致的张量，通道数为8，分别代表8类道路环境下不同的动态物体概率信息。

如图3所示，为本发明所提出的视觉里程计卷积神经网络结构，其包括语义先验模块、深度图估计模块、相机位姿估计模块。

所述深度图估计模块依次包括第一卷积层、第一注意力机制层、第二卷积层、第二注意力机制层、第三卷积层、第三注意力机制层、第四卷积层、第四注意力机制层、第五卷积层、第六卷积层、第七卷积层、第七反卷积层、第六上下文连接层、第六反卷积层、第五上下文连接层、第五反卷积层、第四上下文连接层、第四语义概率融合机制层、第三上下文连接层、第三语义概率融合机制层、第二上下文连接层、第二语义概率融合机制层、第一上下文连接层、第一语义概率融合机制层。

其中，深度图估计模块的输入图像大小为128×416×3，其中，128为深度图估计模块的输入图像的高度，416为深度图估计模块的输入图像的宽度，3为深度图估计模块的输入图像的通道数。第一卷积层的卷积核大小为7×7，第二卷积层的卷积核大小为5×5，之后的深度图估计模块中的卷积核大小均为3×3。输出的四个尺度的深度图大小分别为52×16、104×32、2018×64、416×128。

其中，上下文连接层为第六卷积层与第六反卷积层连接，第五卷积层与第五反卷积层连接，第四卷积层与第四语义概率融合机制层连接，第三卷积层与第三语义概率融合机制层连接，第二卷积层与第二语义概率融合机制层连接，第一卷积层与第一语义概率融合机制层连接。

如图4所示，所述第一语义概率融合机制层、第二语义概率融合机制层、第三语义概率融合机制层、第四语义概率融合机制层结构相同，输出的语义概率图的数据格式为128×416×8，其中128为语义概率图的高度，416为语义概率图的宽度，8为语义概率图通道数。语义概率融合机制层结构依次为所述语义先验模块、第一语义4×4卷积层、四个第二语义1×1卷积层、两个第三语义1×1卷积层、第四语义1×1卷积层、第一语义加法器、第一语义乘法器、两个第五语义1×1卷积层、第二语义加法器；所述第一语义1×1卷积层的输出端与第一语义加法器连接，所述第四语义1×1卷积层与第一语义乘法器连接，所述第五语义1×1卷积层与第二语义加法器连接；所述第二语义加法器的输出端为语义概率融合机制层的输出端，用于产生语义概率图，所述语义先验模块的输入端为语义概率融合机制层的输入端，所述第一语义乘法器的输入端与深度图估计模块的反卷积层连接。语义概率先验信息SPFM计算公式如下：

ω＝C_ω(τ(P))

如图5所示，所述第一注意力机制层、第二注意力机制层、第三注意力机制层、第四注意力机制层结构相同，均包括第一注意力通道模块和第二注意力通道模块：

所述第一注意力通道模块的输入端为注意力机制层的输入端，结构依次包括第一通道全局平均池化层、第一通道1×3卷积层、第一全连接层和第二全连接层；所述第一通道全局平均池化层的输入端为第一注意力通道模块的输入端，所述第二全连接层的输出端为第一注意力通道模块的输出端。

所述第二注意力通道模块的输入端为注意力机制层的输入端，结构依次包括两个第二通道1×1卷积层、两个第二通道3×3卷积层、第一加法器、第一激励函数层、第二加法器；所述第二通道1×1卷积层的输入端为第二注意力通道模块的输入端，所述第一加法器与第一注意力通道模块的输出端连接，经过第一激励函数层与第二加法器连接，所述第二注意力通道模块的输入端与第二加法器连接，所述第二加法器的输出端为第二注意力通道模块的输出端，所述第二注意力通道模块的输入端为注意力机制层的输出端。

所述步骤S1中对卷积神经网络进行训练的过程为：

视觉里程计卷积神经网络通过估计相机位姿向量和估计深度图，根据图像光度重建理论构建时间一致性的自监督信号，通过深度学习理论，使用Adam优化器对卷积神经网络进行训练，使深度误差和位姿误差下降至0.09时训练完成。

所述自监督信号估计位姿向量和估计深度图的误差损失函数为L_all：

L_all＝L_pho+L_smo+L_rot

其中，SSIM为结构相似度，L^SSIM为结构相似性损失(SSIM，structuralsimilarityindex)，L^L1为L1正则化损失，L_pho为光度误差损失，L_smo为梯度平滑损失，L_rot为大旋转损失，L_all为误差损失函数，α、β、γ均表示权重系数，e为指数，r表示旋转向量，Ω表示旋转阈值，表示两个梯度方向，I_k表示第K帧图像，/>表示通过光度一致性的投影图像，/>表示I_k所估计的深度图。

其中，L^SSIM和L^L1组成光度误差损失函数L_pho，其计算的是目标图像I_k和光度一致性的投影图像间的光度误差，单独使用L^L1损失函数会对光照变化非常敏感，为了降低光照变化的影响，我们引入了结构相似性损失L^SSIM共同组成光度误差损失L_pho。

其中，为了应对光度损失函数在弱纹理区域或均匀区域监督能力的有限性，本发明引入梯度平滑损失函数L_smo；如果像素位于弱纹理区域或光度均匀区域，这将会抑制卷积神经网络的学习，用于其光度是相似的，此区域的深度估计和此区域相机位姿估计可以是任意的，只要保证I_k图像中的弱纹理或光度均匀区域的像素能够投影到图像中相应的区域即可。为了降低此情况带来的不利影响，本方法引入具有边缘感知的深度平滑损失L_smo。

其中，针对网络对位姿向量的平移向量估计效果好于旋转向量的估计效果的现象，本发明引入大旋转损失函数L_rot；在旋转较大的时候，加强其光度误差损失，对于旋转较小的时候，此损失函数设置为0。

如图6所示，模型训练阶段包括以下：

1)训练数据集的准备，选择KITTI原始数据集作为深度估计模块和位姿估计模块的训练数据，本发明共使用34384个序列，其中，26652个序列用于训练，7732序列用于验证；KITTI Odometry数据集作为位姿估计模块的测试数据，此数据集是KITTI数据集的一个子集，其具有里程计的位姿真值等标签，主要用于对视觉里程计算法的训练和测试，在本发明中使用带有真值标签的01、03、04、10序列进行测试；PASCAL VOC 2012数据集、Cityscapes数据集作为训练或测试数据集。在训练过程中，本发明以相邻的三张图片作为一组进行训练，以中间的一张作为目标帧，其余两张图像作为源帧，在构建监督信息时，将会把源帧图像投影到目标帧上得到合成图像，根据光度一致性假设，利用合成图像和目标帧图像构建自监督信息。本发明对数据进行相机内参预处理和图像的随机旋转与缩放等数据增强操作。

训练中利用Xavier方法对参数初始化，此方法能够保证深度卷积神经网络中，每一层输出的方差能够均匀相等，从而使得网络信息在传递的过程中更好的流动，使得模型能够更好地学到相应的知识；在本发明中，使用Adam算法实现对网络模型的优化，学习率设置为2×e-4，动量参数设置为0.9，beta设置为0.999。深度图估计模块和相机位姿估计模块的训练共需要200次迭代，每次迭代1000次；语义先验模块的训练共需要200次迭代，每次迭代1500次；训练学习率每50次迭代训练将学习率衰减为0.1倍。

2)语义先验模块的训练，首先利用DeepLab的预训练模型作为语义先验模块的初始化参数，其他卷积层等参数；将交叉损失作为语义先验模块的训练损失函数。第一步，在PASCAL VOC 2012数据集上对语义先验模块进行预训练；第二步，再Cityscapes数据集进行精调，使语义先验模块可以产生精度较高的语义概率图，作为语义先验信息。

模型使用阶段包括以下：

将视觉里程计卷积神经网络结构构建完成后，载入训练好的模型，并按照步骤S2准备测试数据集。然后将数据集输入搭建好的网络模型中，位姿估计模块输出的结果即为所需相机位姿向量，按照步骤S6对在初始条件下的累计相对位姿向量即可得出全局相机运动位姿轨迹。

本发明方法测试：

本发明公开的方法在KITTI原始数据集上和KITTI Odometry数据集的01、03、04和10四个序列上进行测试，并且将从可视化结果和量化指标结果两个方面对本发明方法进行测试：

本发明对估计得到的相机位姿运动轨迹图进行了可视化，如图7、图8、图9、图10所示；其中分别为本应用实例在KIITTI Odometry数据集01、03、04和10序列上的视觉里程计轨迹。其中虚线为真值，实线为本发明方法的实验结果，轨迹评价指标为绝对轨迹误差(ATE，absolutetrajectoryerror)。实验证明本发明的取得了良好的估计效果，在真实场景中对相机位姿的估计和深度图的估计更为准确，且在一定程度上进一步缓解了轨迹漂移问题和深度图错误估计的问题，更具鲁棒性。

本发明公开了一种基于语义先验的视觉里程计方法，与传统的视觉里程计不同，神经网络直接将输入的原始数据和输出目标连接起来，不需要手动操作。针对真实场景中动态物体、光度变换、弱纹理区域对视觉里程计光度一致性的破坏，通过使用自我监督和端到端训练的训练卷积神经网络实现对场景中物体的像素级分类，并利用更为像素级分类的语义概率图中作为语义先验信息估计深度图和相机的运动。本发明的整体框架主要部分包含五个模块：图像采集模块、深度图估计模块、相机位姿估计模块、语义先验模块和位姿处理模块。训练过程主要分为三个阶段：第一个阶段对训练数据和测试数据进行处理；第二个阶段对语义先验模块进行训练；第三个阶段对深度图估计模块和位姿估计模块进行训练。通过实验测试结果，证明本方法进一步解决深度图错误估计和轨迹漂移问题，对深度图和相机位姿的估计更为准确，提升了算法在真实景中的鲁棒性。

Claims

1.一种基于语义先验的视觉里程计方法，其特征在于包括如下步骤：

S1、采用语义先验信息构造语义先验模块，并在语义先验模块的基础上构建卷积神经网络并训练；所述语义先验模块是采用编码解码结构，在编码器部分使用ResNet101作为主干网络；解码器部分使用8个卷积层、2个上采样层和1个池化层，用于对当前图像帧进行分析，产生语义概率图，作为先验信息送入深度图估计模块中；

S2、通过图像采集模块，得到相应的彩色图像序列；所述图像采集模块是使用单目相机采集视频，并按照10帧的采集速率将视频归一化为128*416像素大小的图像序列；

S3、将图像序列的图像依次输入语义先验模块，计算得到相应的语义概率先验信息；

S4、将图像序列的图像依次输入深度图估计模块，计算得到相应的深度图；所述深度图估计模块是采用编码解码结构，在编码器部分使用7层卷积层；解码器部分使用7层反卷积层，用于估计得到输入图像对应的深度图；

S5、向相机位姿估计模块输入相邻的三张图像，对图像特征镜像提取，利用提取到的特征实现相机位姿的估计；所述相机位姿估计模块是采用一个具有5层卷积层和29个残差模块的编码器实现，用于估计得到输入的相邻两帧图像间的相对位姿变换矩阵；

S6、将相机位姿估计模块得到的相机位姿的估计输入位姿处理模块，产生相机运动轨迹；所述位姿处理模块是对相机位姿估计模块产生的相对位姿变换矩阵进行累加，以产生相机运动轨迹；

所述步骤S1中卷积神经网络包括语义先验模块、深度图估计模块、相机位姿估计模块；

所述语义先验模块的主干结构为ResNet 101网络，在主干结构后依次为5条并列通道、一个1×1卷积层、一个4倍双线性上采样层、两个3×3卷积层和一个4倍双线性上采样层，最终输出8通道的语义概率先验图；所述5条并列通道包括：第一条通道为一个1×1卷积层，第二、3、4条通道结构相同，均为一个3×3卷积层，第五条通道为一个3×3卷积层和池化层，每条通道后均包含一个全局平均池化层；

所述深度图估计模块依次包括第一卷积层、第一注意力机制层、第二卷积层、第二注意力机制层、第三卷积层、第三注意力机制层、第四卷积层、第四注意力机制层、第五卷积层、第六卷积层、第七卷积层、第七反卷积层、第六上下文连接层、第六反卷积层、第五上下文连接层、第五反卷积层、第四上下文连接层、第四语义概率融合机制层、第三上下文连接层、第三语义概率融合机制层、第二上下文连接层、第二语义概率融合机制层、第一上下文连接层、第一语义概率融合机制层；

所述第一语义概率融合机制层、第二语义概率融合机制层、第三语义概率融合机制层、第四语义概率融合机制层结构相同，依次为所述语义先验模块、第一语义4×4卷积层、四个第二语义1×1卷积层、两个第三语义1×1卷积层、第四语义1×1卷积层、第一语义加法器、第一语义乘法器、两个第五语义1×1卷积层、第二语义加法器；所述第一语义1×1卷积层的输出端与第一语义加法器连接，所述第四语义1×1卷积层与第一语义乘法器连接，所述第五语义1×1卷积层与第二语义加法器连接；所述第二语义加法器的输出端为语义概率融合机制层的输出端，用于产生语义概率图，所述语义先验模块的输入端为语义概率融合机制层的输入端，所述第一语义乘法器的输入端与深度图估计模块的反卷积层连接；所述语义概率图的数据格式为128×416×8，其中128为语义概率图的高度，416为语义概率图的宽度，8为语义概率图的通道数；

所述第一注意力机制层、第二注意力机制层、第三注意力机制层、第四注意力机制层结构相同，均包括第一注意力通道模块和第二注意力通道模块：

所述第一注意力通道模块的输入端为注意力机制层的输入端，结构依次包括第一通道全局平均池化层、第一通道1×3卷积层、第一全连接层和第二全连接层；所述第一通道全局平均池化层的输入端为第一注意力通道模块的输入端，所述第二全连接层的输出端为第一注意力通道模块的输出端；

所述第二注意力通道模块的输入端为注意力机制层的输入端，结构依次包括两个第二通道1×1卷积层、两个第二通道3×3卷积层、第一加法器、第一激励函数层、第二加法器；所述第二通道1×1卷积层的输入端为第二注意力通道模块的输入端，所述第一加法器与第一注意力通道模块的输出端连接，经过第一激励函数层与第二加法器连接，所述第二注意力通道模块的输入端与第二加法器连接，所述第二加法器的输出端为第二注意力通道模块的输出端，所述第二注意力通道模块的输入端为注意力机制层的输出端；

所述上下文连接层为第六卷积层与第六反卷积层连接，第五卷积层与第五反卷积层连接，第四卷积层与第四语义概率融合机制层连接，第三卷积层与第三语义概率融合机制层连接，第二卷积层与第二语义概率融合机制层连接，第一卷积层与第一语义概率融合机制层连接。

2.根据权利要求1所述的一种基于语义先验的视觉里程计方法，其特征在于，所述步骤S2中将原始单目相机采集到的视频按照10帧的速率采集为彩色图像序列，图像尺寸裁剪为128×416×3，其中416为彩色图像宽度，128为彩色图像高度，3为彩色图像通道数。

3.根据权利要求1所述的一种基于语义先验的视觉里程计方法，其特征在于，所述步骤S1中对卷积神经网络进行训练的过程为：通过估计相机位姿向量和估计深度图，根据图像光度重建理论构建时间一致性的自监督信号，通过深度学习理论，使用Adam优化器对卷积神经网络进行训练，使深度误差和位姿误差下降至0.09时训练完成。

4.根据权利要求1所述的一种基于语义先验的视觉里程计方法，其特征在于，自监督信号估计位姿向量和估计深度图的误差损失函数为L_all：

L_all＝L_pho+L_smo+L_rot (6)

对卷积神经网络的训练时，将初始学习率设置为2×10-4，将训练的轮数设置为200，训练学习率每50轮训练将学习率衰减为0.1倍；

其中，SSIM为结构相似度，L^SSIM为结构相似性损失，L^L1为L1正则化损失，L_pho为光度误差损失，L_smo为梯度平滑损失，L_rot为大旋转损失，L_all为误差损失函数，α、β、γ均表示权重系数，e为指数，r表示旋转向量，Ω表示旋转阈值，表示两个梯度方向，I_k表示第K帧图像，/>表示通过光度一致性的投影图像，/>表示I_k所估计的深度图。