CN114743105A

CN114743105A - 一种基于跨模态知识蒸馏的深度特权视觉里程计方法

Info

Publication number: CN114743105A
Application number: CN202210413969.6A
Authority: CN
Inventors: 李斌; 龚小谨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-12

Abstract

本发明公开了一种基于跨模态知识蒸馏的深度特权单目视觉里程计方法。采集场景的彩色图像和三维点云构建视觉‑激光里程计数据集；输入视觉‑激光里程计网络和单目视觉里程计网络中分别训练；通过跨模态知识蒸馏模块来利用视觉‑激光里程计网络对单目视觉里程计网络再次训练；训练结束后，对待测的连续时刻的彩色图像序列输入训练后的单目视觉里程计网络，输出得到全局位姿，实现了单目视觉里程计的处理。本发明方法利用了更可靠的深度特权信息，对弱纹理区域和光照变化等环境因素有更好的鲁棒性，取得了显著的性能提升，有较好的通用性和普适性。

Description

一种基于跨模态知识蒸馏的深度特权视觉里程计方法

技术领域

本发明属于计算机视觉技术领域的一种深度特权视觉里程计方法，特别是涉及了一种基于跨模态知识蒸馏的深度特权单目视觉里程计方法。

背景技术

单目视觉里程计是位姿估计任务中最常用的方法。绝大多数传统的视觉里程计都通过特征点提取、特征匹配和几何关系优化来估计帧间位姿，尽管取得了不错的效果，但由于这类方法依赖手工设计的特征，在存在弱纹理区域或强烈光照变化的复杂场景中容易失效。近期基于深度学习的视觉里程计方法开始得到越来越多的研究者的关注，尤其是自监督的视觉里程计方法，由于不需要真值标签，可以更充分地发挥深度学习技术数据驱动的优势，从大数据中学习到更有效的特征，从而克服传统的手工特征缺陷。如Zhou等人发表在《Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition》的《Unsupervised Learning of Depth and Ego-Motion from Video》以及Gao等人发表在《4th Annual Conference on Robot Learning》的《AttentionalSeparation-and-Aggregation Network for Self-supervised Depth-Pose Learning inDynamic Scenes》，都是用单目图像序列无监督地联合训练深度估计网络和位姿估计网络的单目视觉里程计方法，训练过程中不需要任何额外真值。

但是由于单目和无监督学习本身的限制，这类方法不能预测真实尺度下的位姿和深度。一种解决办法是引入双目特权信息，利用双目图像之间的视图合成来获取真实尺度信息，如Huang等人发表在《Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition》的《Unsupervised Learning of Monocular DepthEstimation and Visual Odometry with Deep Feature Reconstruction》和Li等人发表在《IEEE International Conference on Robotics and Automation》的《UnDeepVO:Monocular Visual Odometry through Unsupervised Deep Learning》，都是双目特权单目视觉里程计方法，通过双目特权信息的辅助来恢复预测深度和位姿的真实尺度。但是这类方法依旧是基于彩色图像匹配的方法，仍然会受到光照变化、弱纹理区域等因素的影响。

随着激光雷达传感器技术的发展，深度特权信息为提供了另一种更加可靠的真实尺度来源。通过将激光雷达采集的三维点云投影到相机成像平面，可以得到与彩色图像对齐的稀疏深度图，这个深度图具备真实的尺度信息，且对光照条件和弱纹理区域鲁棒，有助于学习到更强大的视觉里程计。如Wang等人发表在《Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition》的《Recurrent neuralnetwork for(un-)supervised learning of monocular video visual odometry anddepth》使用稀疏深度图作为真值监督网络预测的致密深度图，从而让网络可以恢复真实尺度。但是这种方法对于深度特权信息的利用太过简单，取得的性能提升有限。

发明内容

为了解决背景技术中存在的问题，本发明提供了一种基于跨模态知识蒸馏的深度特权单目视觉里程计方法，以事先训练好的视觉-激光里程计网络作为教师网络，通过跨模态知识蒸馏模块在网络提取的编码器特征、预测的致密深度图和预测的帧间位姿三个部分指导单目视觉里程计网络的训练。同时，通过知识蒸馏条件判断模块来避免教师网络的错误指导。

本发明利用了跨模态的知识蒸馏，相比于用稀疏深度图作为真值的深度特权视觉里程计方法来说可以更加有效地利用深度特权信息，在编码器特征、预测致密深度图、预测位姿三个部分指导单目视觉里程计网络的训练，在恢复预测结果的真实尺度的同时，也取得了显著的性能提升。与双目特权视觉里程计方法相比，本发明在主要误差指标上也有更好的表现。

本发明采用的技术方案是：

(1)使用彩色相机和激光雷达联合采集多个场景的彩色图像和三维点云，构建视觉-激光里程计数据集；

本发明所述的场景可以为室外场景。

(2)建立视觉-激光里程计网络VLO和单目视觉里程计网络VO，将视觉-激光里程计数据集输入视觉-激光里程计网络VLO和单目视觉里程计网络VO中使用Adam优化算法分别进行第一次训练；

(3)通过跨模态知识蒸馏模块来利用视觉-激光里程计网络VLO进一步对单目视觉里程计网络VO进行再次训练；

(4)训练结束后，将待测的连续时刻的彩色图像序列分组后，再分别输入训练后的单目视觉里程计网络VO，输出得到每组各自的目标帧彩色图像I_t对应的致密深度图

以及帧间位姿

其中

为平移向量，

表示欧拉角向量；最后将各组的帧间位姿累乘获得全局位姿，全局位姿作为待测的连续时刻的彩色图像序列的完整运动轨迹，实现了单目视觉里程计的处理。

待测的连续时刻的彩色图像序列分段是将待测的连续时刻的彩色图像序列按照时序划分为连续奇数幅图像构成的多组。

本发明所述的帧间位姿均是指每一参考帧和目标帧之间的帧间位姿。预测帧间位姿是从目标帧到参考帧。

本发明采用视觉-激光里程计网络VLO指导再次优化单目视觉里程计网络VO的训练，再利用最终训练后的单目视觉里程计网络VO对待测的连续彩色图像序列进行识别处理，能够获得更优更精确的结果。

所述步骤(1)具体为：针对同一场景，由彩色相机采集连续时刻下的彩色图像序列，由激光雷达采集同样连续时刻下和彩色图像序列对应的三维点云序列，一个三维点云和一幅彩色图像对应均在同一时刻下采集获得，再将三维点云序列中的三维点云投影到彩色相机的相机成像平面得到稀疏深度图，由彩色图像序列<I_t，I_s>及其对应的稀疏深度图序列<D_t，D_s>组成视觉-激光里程计数据集；I_t表示目标帧彩色图像，I_s表示参考帧彩色图像，D_t表示目标帧稀疏深度图，D_s表示稀疏深度图像参考帧。

所述的彩色图像序列中的彩色图像数量和稀疏深度图序列中的稀疏深度图数量均相同，且均为奇数；将彩色图像序列和稀疏深度图序列中位于中间的一帧作为目标帧，其余帧均为参考帧。

具体实施中，彩色图像序列<I_t，I_s>是由2N+1张连续彩色图像组成，其中，I_t表示目标帧彩色图像，用下标t表示目标帧，I_s表示参考帧彩色图像，用下标s表示参考帧，s∈{t-N，…，t+N}，s≠t。

本发明设置上述目标帧和参考帧后，既能向前传播，又能向后传播，提升了训练效果。

所述视觉-激光里程计网络VLO的网络结构包括视觉特征编码器、深度特征编码器、第一深度解码器和位姿预测器；视觉特征编码器和深度特征编码器分别对彩色图像序列及其对应的稀疏深度图序列处理，从中提取视觉编码器特征和深度编码器特征，视觉编码器特征和深度编码器特征经过局部融合后得到多模态编码特征H^vlo，融合是进行像素相加，将视觉编码器特征、深度编码器特征、多模态编码特征H^vlo输入到第一深度解码器得到四个不同尺度的多模态致密深度图

将多模态编码特征H^vlo输入到位姿预测器得到多模态预测帧间位姿

其中i表示致密深度图的尺度阶数，

为多模态预测平移向量，

表示多模态预测欧拉角向量。

所述视觉-激光里程计网络VLO中，

所述的深度特征编码器主要由连续的五个卷积模块依次连接构成，稀疏深度图序列输入到深度特征编码器中，先按照时序对每三幅连续的稀疏深度图划分为一组，将每组中的三幅稀疏深度图进行通道连接组成初始稀疏深度图输入特征，将初始稀疏深度图输入特征分别经连续的五个卷积模块依次处理，第一个到第四个卷积模块的输出分别作为第一阶到第四阶深度编码器特征，尺度依次减小，第五个卷积模块的输出作为第五阶深度编码器特征，第四阶深度编码器特征和第五阶深度编码器特征的尺度相同；第一阶到第五阶深度编码器特征组成深度编码器特征。

所述的视觉特征编码器主要由连续的五个卷积模块依次连接构成，彩色图像序列输入到视觉特征编码器中，先按照时序对每三幅连续的彩色图像划分为一组，将每组中的三幅彩色图像的所有三个通道进行连接组成初始彩色图像输入特征，将初始彩色图像输入特征分别经连续的五个卷积模块依次处理，第一个到第四个卷积模块的输出分别作为第一阶到第四阶视觉编码器特征，尺度依次减小，第五个卷积模块的输出作为第五阶视觉编码器特征，第四阶视觉度编码器特征和第五阶深度编码器特征的尺度相同；第一阶到第五阶视觉编码器特征组成视觉编码器特征。

所述的第一深度解码器主要由五个尺度依次递增的反卷积模块、四个第一特征融合模块和四个深度预测器构成，五个反卷积模块依次连接，且在每相邻两个反卷积模块之间连接设置有一个第一特征融合模块，多模态编码特征H^vlo输入到第一个反卷积模块中；第一个反卷积模块的输出、第一阶深度编码器特征、第一阶视觉编码器特征均输入到第一个第一特征融合模块，第一个第一特征融合模块的输出直接输入到第二个反卷积模块中，第二个反卷积模块的输出经第一个深度预测器处理后输出第一阶尺度的多模态致密深度图

第二个反卷积模块的输出、第二阶深度编码器特征、第二阶视觉编码器特征均输入到第二个第一特征融合模块，第二个第一特征融合模块的输出直接输入到第三个反卷积模块中，第三个反卷积模块的输出经第二个深度预测器处理后输出第二阶尺度的多模态致密深度图

第三个反卷积模块的输出、第三阶深度编码器特征、第三阶视觉编码器特征均输入到第三个第一特征融合模块，第三个第一特征融合模块的输出直接输入到第四个反卷积模块中，第四个反卷积模块的输出经第三个深度预测器处理后输出第三阶尺度的多模态致密深度图

第四个反卷积模块的输出、第四阶深度编码器特征、第四阶视觉编码器特征均输入到第四个第一特征融合模块，第四个第一特征融合模块的输出直接输入到第五个反卷积模块中，第五个反卷积模块的输出经第四个深度预测器处理后输出第四阶尺度的多模态致密深度图

所述的深度预测器仅是由一个卷积模块构成。

视觉特征编码器输出视觉编码器特征、深度特征编码器输出深度编码器特征、第一特征融合模块前紧邻相连的反卷积模块输出特征均输入到第一特征融合模块中。所述的第一特征融合模块中，是先将从视觉特征编码器输出过来的视觉编码器特征和从第一特征融合模块自身前面紧邻相连的反卷积模块输出的特征进行连接，将连接后的结果再和从第一深度特征编码器输出过来的深度编码器特征进行相加作为第一特征融合模块的输出，相加是指像素相加；

所述的位姿预测器具体包括一个卷积模块和两个卷积池化单元，卷积模块的输入为位姿预测器的输入，卷积模块的输出分别输入到两个卷积池化单元中，两个卷积池化单元的输出作为位姿预测器的输出；每个卷积池化单元的结构相同，均是由第一个卷积模块、全局平均池化模块和第二个卷积模块依次连接构成，每个全局平均池化模块均是由一个全局平均池化操作构成，两个卷积池化单元分别用于处理输出帧间位姿中的平移向量和欧拉角向量。位姿预测器的输入先经卷积模块处理后输出分别输入到两个卷积池化单元中，以两个卷积池化单元的输出分别作为帧间位姿中的平移向量和欧拉角向量。

所述的单目视觉里程计网络VO的网络结构包括视觉特征编码器、第二深度解码器和位姿预测器；视觉特征编码器对彩色图像序列处理，从中提取视觉编码器特征作为视觉编码特征H^vo，将视觉编码特征H^vo输入到第二深度解码器得到四个不同尺度的视觉致密深度图

将视觉编码特征H^vo输入到位姿预测器得到视觉预测帧间位姿

其中i表示致密深度图的尺度阶数，

为视觉预测平移向量，

表示视觉预测欧拉角向量。

所述视觉-激光里程计网络与单目视觉里程计网络中各自的视觉特征编码器、位姿预测器的拓扑结构分别相同，即第一视觉特征编码器和第二视觉特征编码器拓扑结构相同，第一位姿预测器和第二位姿预测器拓扑结构相同；

但是深度解码器拓扑结构不同，即第一深度解码器和第二深度解码器拓扑结构不相同。

所述的第二深度解码器主要由五个尺度依次递增的反卷积模块、四个第二特征融合模块和四个深度预测器构成，五个反卷积模块依次连接，且在每相邻两个反卷积模块之间连接设置有一个第二特征融合模块，视觉编码特征H^vo输入到第一个反卷积模块中；第一个反卷积模块的输出、第一阶深度编码器特征、第一阶视觉编码器特征均输入到第一个第二特征融合模块，第一个第二特征融合模块的输出直接输入到第二个反卷积模块中，第二个反卷积模块的输出经第一个深度预测器处理后输出第一阶尺度的视觉致密深度图

第二个反卷积模块的输出、第二阶深度编码器特征、第二阶视觉编码器特征均输入到第二个第二特征融合模块，第二个第二特征融合模块的输出直接输入到第三个反卷积模块中，第三个反卷积模块的输出经第二个深度预测器处理后输出第二阶尺度的视觉致密深度图

第三个反卷积模块的输出、第三阶深度编码器特征、第三阶视觉编码器特征均输入到第三个第二特征融合模块，第三个第二特征融合模块的输出直接输入到第四个反卷积模块中，第四个反卷积模块的输出经第三个深度预测器处理后输出第三阶尺度的视觉致密深度图

第四个反卷积模块的输出、第四阶深度编码器特征、第四阶视觉编码器特征均输入到第四个第二特征融合模块，第四个第二特征融合模块的输出直接输入到第五个反卷积模块中，第五个反卷积模块的输出经第四个深度预测器处理后输出第四阶尺度的视觉致密深度图

所述的深度预测器仅是由一个卷积模块构成。

视觉特征编码器输出视觉编码器特征、第二特征融合模块前紧邻相连的反卷积模块输出特征均输入到第二特征融合模块中。所述的第二特征融合模块中，是将从视觉特征编码器输出过来的视觉编码器特征和从第二特征融合模块自身前面紧邻相连的反卷积模块输出的特征进行连接后作为第二特征融合模块的输出，相加是指像素相加。

每个卷积模块均是由卷积操作、批归一化操作、激活函数依次连接构成。每个反卷积模块均是由反卷积操作、批归一化操作、激活函数依次连接构成。

所述步骤(2)的训练过程中，

(2.1)所述的视觉-激光里程计网络训练时设置以下视觉-激光总损失函数

(2.2)所述的单目视觉里程计网络训练时，设置以下单目视觉总损失函数

其中，

表示视图合成损失函数，

表示深度自监督损失函数，

表示深度平滑损失函数，λ_vs、λ_ds和λ_sm分别表示视图合成损失函数

深度自监督损失函数

深度平滑损失函数

的权重。

所述的视图合成损失函数

具体为：

其中，s表示参考帧，

表示参考帧彩色图像I_s变换到目标帧所得到的合成目标帧彩色图像，合成目标帧彩色图像是根据目标帧彩色图像I_t的致密深度图

以及目标帧彩色图像I_t与参考帧彩色图像I_s之间的帧间位姿

将参考帧彩色图像I_s变换到目标帧所得到的图像；f()表示合成目标帧彩色图像的变换函数；V_s表示参考帧彩色图像I_s变换到目标帧时所设定的二值可视掩膜，α_s表示平衡误差标量，SSIM()表示图像结构相似度评估函数，⊙表示逐元素乘法；||||₁表示取L1范数的操作，

表示刚性变换矩阵；

所述的深度自监督损失函数

通过输入的目标帧稀疏深度图D_t来对预测的致密深度图

进行监督，表示为：

其中，M(D_t)表示稀疏深度图D_t中的有效像素二值掩膜，在稀疏深度图的位置的深度值大于0的位置为1，其余位置为0；

所述的深度平滑损失函数

表示为：

其中，

和

分别表示计算水平和垂直方向梯度的操作，e表示自然常数。

所述步骤(3)中，

利用视觉-激光里程计网络VLO输出的多模态编码特征H^vlo、多模态预测帧间位姿

和四个不同尺度的多模态致密深度图

来对单目视觉里程计网络VO输出的视觉编码特征H^vo、视觉预测帧间位姿

和四个不同尺度的视觉致密深度图

进行训练，具体为：

S1：按照步骤(2)中对视觉-激光里程计网络VLO的训练结果获得的视觉-激光里程计网络VLO的网络参数，固定视觉-激光里程计网络VLO的网络参数，使在整个步骤(3)的训练过程中保持不变；

S2：使用视觉-激光里程计网络VLO输出的四个不同尺度的致密深度图

作为伪真值标签，监督单目视觉里程计网络VO输出的四个不同尺度的致密深度图

建立第一监督损失通过以下公式计算：

S3：使用视觉-激光里程计网络VLO输出的帧间位姿

作为伪真值标签，监督单目视觉里程计网络VO输出的帧间位姿

建立第二监督损失通过以下公式计算：

其中，α_rot是固定系数，用于平衡平移与旋转分量的误差；

分别表示多模态预测平移向量和视觉预测平移向量，

分别表示多模态预测欧拉角向量和视觉预测欧拉角向量；

S4：使用视觉-激光里程计网络VLO中间提取的多模态编码特征H^vlo作为伪真值标签，监督单目视觉里程计网络VO中间提取的视觉编码器特征H^vo，建立第三监督损失通过以下公式计算：

其中，N_p表示多模态编码特征

中像素的总数(H^vlo与H^vo的像素总数相同)，

分别表示多模态编码特征H^vlo和视觉编码器特征H^vo在像素i上的特征向量，〈·，·>计算了两个向量之间的点积，||||₂表示计算向量模长的操作；

S5：设置一个知识蒸馏条件系数φ_{dk_c}来选择性地引入视觉-激光里程计网络：

其中

表示网络m下参考帧彩色图像I_s变换到目标帧所得到的合成目标帧彩色图像，m表示网络标识参数，φ_{kd_c}表示知识蒸馏条件系数，

表示网络m的刚性变换矩阵，

表示VLO预测的多模态致密深度图；

表示使用网络m的刚性变换矩阵进行视图合成时设定的二值可视掩膜，α_s表示平衡误差项标量；

φ_{kd_c}＝1表示视觉-激光里程计网络VLO预测输出的帧间位姿要优于单目视觉里程计网络VO预测输出的帧间位姿，反之则φ_{kd_c}＝0。

S6：最终建立跨模态知识蒸馏模块的相关训练损失函数如下：

其中，

表示跨模态知识蒸馏模块的相关训练损失函数，λ_p、λ_d和λ_h为第一监督损失、第二监督损失、第三监督损失的权重系数；

在绝大多数情况下视觉-激光里程计网络VLO预测的致密深度图都要优于单目视觉里程计网络VO，知识蒸馏条件系数φ_{kd_c}仅作用于另外两项。

S7：单目视觉里程计网络VO的总体训练损失函数

设置如下：

其中，λ_vo和λ_kd为单目视觉总损失函数和相关训练损失函数的权重系数。

本发明方法使用一个预先训练的视觉-激光里程计网络作为教师网络，通过跨模态知识蒸馏来指导单目视觉里程计网络的训练。视觉-激光里程计网络以连续彩色图像和对应的稀疏深度图序列作为输入，以自监督的方式进行训练。单目视觉里程计网络则只输入连续彩色图像序列，以无监督的方式进行训练。在跨模态知识蒸馏中，视觉-激光里程计网络将在预测的致密深度图、帧间位姿以及学习到的编码器特征三个部分指导单目视觉里程计网络的学习，同时使用一个蒸馏条件判断模块来避免教师网络潜在的错误指导。

本方法首先构建一个视觉-激光里程计数据集，其包括连续的彩色图像和对应的稀疏深度图序列；将待训练数据以小批次训练的方式分别用于训练视觉-激光里程计网络和单目视觉里程计网络；将训练好的视觉-激光里程计网络参数固定，通过跨模态知识蒸馏模块进一步指导单目视觉里程计网络的训练；训练结束后的单目视觉里程计网络用于单目视觉里程计应用。

本方法可以从单目图像序列中估计真实尺度下的致密深度图和帧间位姿，且在平移性能和旋转性能上处于领域前列。

本发明具有以下有益效果：

1、相较于双目特权视觉里程计方法，本方法利用了更可靠的深度特权信息，对弱纹理区域和光照变化等环境因素有更好的鲁棒性。

2、相较于直接使用深度特权信息监督预测致密深度图的深度特权方法来说，本方法利用跨模态知识蒸馏，从网络提取的编码器特征、网络预测的致密深度图和帧间位姿三个部分来对单目视觉里程计的训练提供指导，更充分地利用了深度特权信息，取得了显著的性能提升。

3、本发明在整个训练过程中都不需要额外的真值标签，故有较好的通用性和普适性。

附图说明

图1是本发明实例的流程图。

图2是本发明实例中设计的视觉-激光里程计网络模型的示意图。

图3是本发明实例中设计的单目视觉里程计网络模型的示意图。

图4是本发明实例中设计的跨模态知识蒸馏训练过程的示意图。

图5是本发明实例中设计的里程计方法的位姿估计结果示例

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，本发明的实施例及具体实施过程如下：

S01，采集用于定位场景的多张连续彩色图像和稀疏深度图，其中稀疏深度图是通过将激光雷达采集的三维点云投影到相机成像平面得到。用2N+1张连续彩色图像和其对应的稀疏深度图像组成训练样本(本发明中N＝1)。

S02，构建视觉-激光里程计网络和单目视觉里程计网络。如图2所示，本发明所述的视觉-激光里程计网络由视觉特征编码器、深度特征编码器、第一深度解码器和位姿预测器4个部分组成。视觉特征编码器和深度特征编码器分别从输入的3张连续彩色图像和3张对应的稀疏深度图中提取视觉编码器特征和深度编码器特征，并经过像素相加进行局部融合得到多模态编码特征H^vlo。位姿预测器以H^vlo为输入，预测帧间位姿

第一深度编码器以H^vlo、视觉编码器特征与深度编码器特征为输入，预测四个不同尺度的多模态致密深度图

其中i表示深度图的尺度阶数。

本发明所述的单目视觉里程计网络由视觉特征编码器、深度特征编码器、第二深度解码器和位姿预测器3个部分组成，如图3所示。视觉特征编码器从输入的3张连续彩色图像中提取视觉编码器特征作为视觉编码特征H^vo。位姿预测器以H^vo为输入，预测帧间位姿

第二深度解码器以H^vo、视觉编码器特征为输入，预测四个不同尺度的视觉致密深度图

其中i表示深度图的尺度阶数。

S02-1，使用Adam优化算法迭代训练视觉-激光里程计网络。训练的损失函数为：

S02-2，使用Adam优化算法迭代训练单目视觉里程计网络，训练的损失函数为：

S03，固定S02-1中训练完成的视觉-激光里程计网络模型参数，如图4所示，并通过跨模态知识蒸馏指导S02-2中训练完成的单目视觉里程计网络进一步训练，训练的损失函数为：

其中

为S02-2中所述损失函数，

为跨模态知识蒸馏相关损失函数：

S04，使用S03中训练完成的单目视觉里程计网络进行位姿估计任务。具体实施中，将一个完整的图像序列划分为多个3张连续彩色图像的样本，输入到所述单目视觉里程计网络预测帧间位姿。将起点图像的全局位姿变换矩阵设为单位矩阵，通过累乘连续图像的帧间位姿得到每张图像对应的全局位姿变换矩阵，实现整个图像序列的轨迹预测。

为了验证本发明的有效性，本发明在公开的视觉-激光里程计数据集KITTIOdometry Benchmark上进行验证，并与现有的单目视觉里程计方法、双目特权视觉里程计方法和深度特权视觉里程计方法进行对比：

KITTI Odometry Benchmark共有00～21共22个序列，其中00～10序列提供了位姿的真值用于验证。每个序列都通过4个单目相机(2个灰度相机+2个彩色相机)以及一个Velodyne HDL-64激光雷达分别采集图像和三维点云，且图像和三维点云在时序上对齐。以序列00为例，其每个相机都采集了4541张分辨率为1241x376的图像，激光雷达则采集了4541帧三维点云。通过将三维点云投影到对应相机的成像平面可以得到同样分辨率的稀疏深度图，其稠密度约为5％。考虑到计算效率，将输入图像分辨率缩放到192x624，并用连续的3张彩色图像和对应的稀疏深度图组成训练样本。与当前绝大多数自监督的视觉里程计方法一样，使用00-08序列用于训练，09-10序列用于测试。

本发明主要采用KITTI Odometry Benchmark中的官方性能指标评估网络性能：平均平移相对漂移t_rel(单位％/100m)，以及平均旋转相对漂移r_rel(单位度/100m)。这两个指标是在整个序列的长度为(100m，200m，…，800m)的子序列上计算得到的。

网络训练的细节如下：

S02中，视觉-激光视觉里程计网络和单目视觉里程计网络的模型参数均通过Xavier随机初始化，并通过Adam优化器进行优化。每次输入网络的批大小(Batch Size)设置为4。学习率初始值为0.0002，每迭代70K次减半，共迭代训练180K次。

S03中，固定S02-1中训练好的视觉-激光里程计网络的模型参数，指导S02-2中训练好的单目视觉里程计网络继续进行训练。每次输入网络的批大小(Batch Size)设置为4。学习率初始值为0.00005，每迭代50K次衰减为原来的0.8倍，共迭代训练200K次。

实验主要包括两个部分，第一部分是本发明中各个模块的控制变量实验，用以说明本发明中各个模块的有效性。第二部分是本发明方法与现有的主流视觉里程计方法的对比实验。

第一部分：本发明中各个模块的控制变量实验，用以说明本发明中各个模块的有效性；

跨模态知识蒸馏模块有效性：跨模态知识蒸馏模块主要包含三个部分：输出空间蒸馏(OD)，隐藏特征蒸馏(HD)和蒸馏条件判断(DCC)。OD表示使用视觉-激光里程计网络的输出结果(致密深度图、帧间位姿)来指导单目视觉里程计的训练。HD表示使用视觉-激光里程计网络的多模态编码特征来指导单目视觉里程计网络学习到的编码器特征。DCC则是通过对比教师网络和学生网络当前预测结果的质量来避免错误指导。根据蒸馏过程中是否使用这三个部分的功能，可以得到单目视觉里程计网络的四个变种，表示为KD-VO1到KD-VO4。另外还测试了直接用稀疏深度图作为真值直接监督预测的致密深度图的方法，记为VO-DS。实验结果如表1所示。表中*标记表示该模型的预测结果不能恢复真实尺度，在表格中展示其尺度校正后的结果。在图5中展示了VLO、VO、VO-DS和KD-VO4在测试序列上的预测轨迹进行定性比较。

实验结果表明，跨模态知识蒸馏模块中的三个部分都有助于性能提升，另外本方法相比于直接用稀疏深度图作为真值进行监督的方法而言，可以更好地利用深度特权信息，获得更为显著的性能提升。

表1.单目视觉里程计网络的各变种在KITTI Odometry Benchmark性能对比

训练策略：在本发明的跨模态知识蒸馏过程中，视觉-激光里程计网络作为教师网络，其模型参数是固定的。而另一种训练策略是联合训练视觉-激光里程计网络和单目视觉里程计网络，结果如表2所示。实验结果表明，在联合训练的过程中，单目视觉里程计网络的噪声会影响视觉-激光里程计网络的训练，导致其性能下降；同样的，单目视觉里程计网络的性能也同样下降。这表明当前的训练策略更加有效。

表2.不同训练策略下的视觉-激光里程计网络与单目视觉里程计网络在KITTIOdometry Benchmark性能对比

第二部分：表3展示了本方法与现有的视觉里程计方法进行对比实验。对比的方法包括6个标准单目视觉里程计方法，4个双目特权视觉里程计方法以及1个深度特权视觉里程计方法。符号

标记的方法是非端到端的方法(即网络不直接预测帧间位姿)，其预测光流和致密深度图，并通过RANSAC剔除外点，通过额外的优化算法来得到预测的帧间位姿。表中所有的标准单目VO方法都不能恢复真实尺度，表中展示了其在尺度对齐后的性能指标。

标准的单目视觉里程计方法往往需要更加复杂的网络结构，如SAVO、SGANVO、ASANet，且无法恢复真实尺度。而本方法则使用一个简单的网络结构取得了更准确且带真实尺度的位姿预测结果。与双目特权视觉里程计方法这类对光照变化和弱纹理区域敏感的方法相比，深度特权方法表现出更强的鲁棒性，因而有更好的结果。甚至比肩利用了额外的优化模块的方法。另外，相比于直接使用稀疏深度图作为监督信号的深度特权方法，本方法可以更好地利用深度特权信息指导训练，取得了更加显著的性能提升。

表3.与现有的视觉里程计方法在KITTI Odometry Benchmark上的性能对比

以上所述，仅是本发明的具体实施例而已，并非对本发明做任何形式上的限定，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或修饰为等同变化的等效实例，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上事例所做的任何的简单修改、等同变化与修饰，均仍属于本发明的保护范围之内。

Claims

1.一种基于跨模态知识蒸馏的深度特权单目视觉里程计方法，其特征在于，方法包括：

(1)使用彩色相机和激光雷达联合采集场景的彩色图像和三维点云，构建视觉-激光里程计数据集；

(2)将视觉-激光里程计数据集输入视觉-激光里程计网络VLO和单目视觉里程计网络VO中使用优化算法分别进行训练；

以及帧间位姿

其中

为平移向量，

2.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法，其特征在于：所述步骤(1)具体为：针对同一场景，由彩色相机采集连续时刻下的彩色图像序列，由激光雷达采集同样连续时刻下和彩色图像序列对应的三维点云序列，再将三维点云序列中的三维点云投影到彩色相机的相机成像平面得到稀疏深度图，由彩色图像序列及其对应的稀疏深度图序列组成视觉-激光里程计数据集。

3.根据权利要求2所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法，其特征在于：所述的彩色图像序列中的彩色图像数量和稀疏深度图序列中的稀疏深度图数量均相同，且均为奇数；将彩色图像序列和稀疏深度图序列中位于中间的一帧作为目标帧，其余帧均为参考帧。

4.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法，其特征在于：

所述视觉-激光里程计网络VLO的网络结构包括视觉特征编码器、深度特征编码器、第一深度解码器和位姿预测器；视觉特征编码器和深度特征编码器分别对彩色图像序列及其对应的稀疏深度图序列处理，从中提取视觉编码器特征和深度编码器特征，视觉编码器特征和深度编码器特征经过局部融合后得到多模态编码特征H^vlo，将视觉编码器特征、深度编码器特征、多模态编码特征H^vlo输入到第一深度解码器得到四个不同尺度的多模态致密深度图

i∈{1，2，3，4}，其中i表示致密深度图的尺度阶数，

为多模态预测平移向量，

表示多模态预测欧拉角向量。

5.根据权利要求4所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法，其特征在于：

所述视觉-激光里程计网络VLO中，

所述的深度特征编码器主要由连续的五个卷积模块依次连接构成，稀疏深度图序列输入到深度特征编码器中，先按照时序对每三幅连续的稀疏深度图划分为一组，将每组中的三幅稀疏深度图进行通道连接组成初始稀疏深度图输入特征，将初始稀疏深度图输入特征分别经连续的五个卷积模块依次处理，第一个到第四个卷积模块的输出分别作为第一阶到第四阶深度编码器特征，尺度依次减小，第五个卷积模块的输出作为第五阶深度编码器特征，第四阶深度编码器特征和第五阶深度编码器特征的尺度相同；

所述的视觉特征编码器主要由连续的五个卷积模块依次连接构成，彩色图像序列输入到视觉特征编码器中，先按照时序对每三幅连续的彩色图像划分为一组，将每组中的三幅彩色图像的所有三个通道进行连接组成初始彩色图像输入特征，将初始彩色图像输入特征分别经连续的五个卷积模块依次处理，第一个到第四个卷积模块的输出分别作为第一阶到第四阶视觉编码器特征，尺度依次减小，第五个卷积模块的输出作为第五阶视觉编码器特征，第四阶视觉度编码器特征和第五阶深度编码器特征的尺度相同；

所述的第一特征融合模块中，是先将从视觉特征编码器输出过来的视觉编码器特征和从第一特征融合模块自身前面紧邻相连的反卷积模块输出的特征进行连接，将连接后的结果再和从第一深度特征编码器输出过来的深度编码器特征进行相加作为第一特征融合模块的输出；

所述的位姿预测器具体包括一个卷积模块和两个卷积池化单元，卷积模块的输入为位姿预测器的输入，卷积模块的输出分别输入到两个卷积池化单元中，两个卷积池化单元的输出作为位姿预测器的输出；每个卷积池化单元的结构相同，均是由第一个卷积模块、全局平均池化模块和第二个卷积模块依次连接构成，每个全局平均池化模块均是由一个全局平均池化操作构成，两个卷积池化单元分别用于处理输出帧间位姿中的平移向量和欧拉角向量。

6.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法，其特征在于：