CN114743105A - 一种基于跨模态知识蒸馏的深度特权视觉里程计方法 - Google Patents

一种基于跨模态知识蒸馏的深度特权视觉里程计方法 Download PDF

Info

Publication number
CN114743105A
CN114743105A CN202210413969.6A CN202210413969A CN114743105A CN 114743105 A CN114743105 A CN 114743105A CN 202210413969 A CN202210413969 A CN 202210413969A CN 114743105 A CN114743105 A CN 114743105A
Authority
CN
China
Prior art keywords
visual
depth
encoder
module
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210413969.6A
Other languages
English (en)
Inventor
李斌
龚小谨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210413969.6A priority Critical patent/CN114743105A/zh
Publication of CN114743105A publication Critical patent/CN114743105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于跨模态知识蒸馏的深度特权单目视觉里程计方法。采集场景的彩色图像和三维点云构建视觉‑激光里程计数据集;输入视觉‑激光里程计网络和单目视觉里程计网络中分别训练;通过跨模态知识蒸馏模块来利用视觉‑激光里程计网络对单目视觉里程计网络再次训练;训练结束后,对待测的连续时刻的彩色图像序列输入训练后的单目视觉里程计网络,输出得到全局位姿,实现了单目视觉里程计的处理。本发明方法利用了更可靠的深度特权信息,对弱纹理区域和光照变化等环境因素有更好的鲁棒性,取得了显著的性能提升,有较好的通用性和普适性。

Description

一种基于跨模态知识蒸馏的深度特权视觉里程计方法
技术领域
本发明属于计算机视觉技术领域的一种深度特权视觉里程计方法,特别是涉及了一种基于跨模态知识蒸馏的深度特权单目视觉里程计方法。
背景技术
单目视觉里程计是位姿估计任务中最常用的方法。绝大多数传统的视觉里程计都通过特征点提取、特征匹配和几何关系优化来估计帧间位姿,尽管取得了不错的效果,但由于这类方法依赖手工设计的特征,在存在弱纹理区域或强烈光照变化的复杂场景中容易失效。近期基于深度学习的视觉里程计方法开始得到越来越多的研究者的关注,尤其是自监督的视觉里程计方法,由于不需要真值标签,可以更充分地发挥深度学习技术数据驱动的优势,从大数据中学习到更有效的特征,从而克服传统的手工特征缺陷。如Zhou等人发表在《Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition》的《Unsupervised Learning of Depth and Ego-Motion from Video》以及Gao等人发表在《4th Annual Conference on Robot Learning》的《AttentionalSeparation-and-Aggregation Network for Self-supervised Depth-Pose Learning inDynamic Scenes》,都是用单目图像序列无监督地联合训练深度估计网络和位姿估计网络的单目视觉里程计方法,训练过程中不需要任何额外真值。
但是由于单目和无监督学习本身的限制,这类方法不能预测真实尺度下的位姿和深度。一种解决办法是引入双目特权信息,利用双目图像之间的视图合成来获取真实尺度信息,如Huang等人发表在《Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition》的《Unsupervised Learning of Monocular DepthEstimation and Visual Odometry with Deep Feature Reconstruction》和Li等人发表在《IEEE International Conference on Robotics and Automation》的《UnDeepVO:Monocular Visual Odometry through Unsupervised Deep Learning》,都是双目特权单目视觉里程计方法,通过双目特权信息的辅助来恢复预测深度和位姿的真实尺度。但是这类方法依旧是基于彩色图像匹配的方法,仍然会受到光照变化、弱纹理区域等因素的影响。
随着激光雷达传感器技术的发展,深度特权信息为提供了另一种更加可靠的真实尺度来源。通过将激光雷达采集的三维点云投影到相机成像平面,可以得到与彩色图像对齐的稀疏深度图,这个深度图具备真实的尺度信息,且对光照条件和弱纹理区域鲁棒,有助于学习到更强大的视觉里程计。如Wang等人发表在《Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition》的《Recurrent neuralnetwork for(un-)supervised learning of monocular video visual odometry anddepth》使用稀疏深度图作为真值监督网络预测的致密深度图,从而让网络可以恢复真实尺度。但是这种方法对于深度特权信息的利用太过简单,取得的性能提升有限。
发明内容
为了解决背景技术中存在的问题,本发明提供了一种基于跨模态知识蒸馏的深度特权单目视觉里程计方法,以事先训练好的视觉-激光里程计网络作为教师网络,通过跨模态知识蒸馏模块在网络提取的编码器特征、预测的致密深度图和预测的帧间位姿三个部分指导单目视觉里程计网络的训练。同时,通过知识蒸馏条件判断模块来避免教师网络的错误指导。
本发明利用了跨模态的知识蒸馏,相比于用稀疏深度图作为真值的深度特权视觉里程计方法来说可以更加有效地利用深度特权信息,在编码器特征、预测致密深度图、预测位姿三个部分指导单目视觉里程计网络的训练,在恢复预测结果的真实尺度的同时,也取得了显著的性能提升。与双目特权视觉里程计方法相比,本发明在主要误差指标上也有更好的表现。
本发明采用的技术方案是:
(1)使用彩色相机和激光雷达联合采集多个场景的彩色图像和三维点云,构建视觉-激光里程计数据集;
本发明所述的场景可以为室外场景。
(2)建立视觉-激光里程计网络VLO和单目视觉里程计网络VO,将视觉-激光里程计数据集输入视觉-激光里程计网络VLO和单目视觉里程计网络VO中使用Adam优化算法分别进行第一次训练;
(3)通过跨模态知识蒸馏模块来利用视觉-激光里程计网络VLO进一步对单目视觉里程计网络VO进行再次训练;
(4)训练结束后,将待测的连续时刻的彩色图像序列分组后,再分别输入训练后的单目视觉里程计网络VO,输出得到每组各自的目标帧彩色图像It对应的致密深度图
Figure BDA0003596277570000021
以及帧间位姿
Figure BDA0003596277570000022
其中
Figure BDA0003596277570000023
为平移向量,
Figure BDA0003596277570000024
表示欧拉角向量;最后将各组的帧间位姿累乘获得全局位姿,全局位姿作为待测的连续时刻的彩色图像序列的完整运动轨迹,实现了单目视觉里程计的处理。
待测的连续时刻的彩色图像序列分段是将待测的连续时刻的彩色图像序列按照时序划分为连续奇数幅图像构成的多组。
本发明所述的帧间位姿均是指每一参考帧和目标帧之间的帧间位姿。预测帧间位姿是从目标帧到参考帧。
本发明采用视觉-激光里程计网络VLO指导再次优化单目视觉里程计网络VO的训练,再利用最终训练后的单目视觉里程计网络VO对待测的连续彩色图像序列进行识别处理,能够获得更优更精确的结果。
所述步骤(1)具体为:针对同一场景,由彩色相机采集连续时刻下的彩色图像序列,由激光雷达采集同样连续时刻下和彩色图像序列对应的三维点云序列,一个三维点云和一幅彩色图像对应均在同一时刻下采集获得,再将三维点云序列中的三维点云投影到彩色相机的相机成像平面得到稀疏深度图,由彩色图像序列<It,Is>及其对应的稀疏深度图序列<Dt,Ds>组成视觉-激光里程计数据集;It表示目标帧彩色图像,Is表示参考帧彩色图像,Dt表示目标帧稀疏深度图,Ds表示稀疏深度图像参考帧。
所述的彩色图像序列中的彩色图像数量和稀疏深度图序列中的稀疏深度图数量均相同,且均为奇数;将彩色图像序列和稀疏深度图序列中位于中间的一帧作为目标帧,其余帧均为参考帧。
具体实施中,彩色图像序列<It,Is>是由2N+1张连续彩色图像组成,其中,It表示目标帧彩色图像,用下标t表示目标帧,Is表示参考帧彩色图像,用下标s表示参考帧,s∈{t-N,…,t+N},s≠t。
本发明设置上述目标帧和参考帧后,既能向前传播,又能向后传播,提升了训练效果。
所述视觉-激光里程计网络VLO的网络结构包括视觉特征编码器、深度特征编码器、第一深度解码器和位姿预测器;视觉特征编码器和深度特征编码器分别对彩色图像序列及其对应的稀疏深度图序列处理,从中提取视觉编码器特征和深度编码器特征,视觉编码器特征和深度编码器特征经过局部融合后得到多模态编码特征Hvlo,融合是进行像素相加,将视觉编码器特征、深度编码器特征、多模态编码特征Hvlo输入到第一深度解码器得到四个不同尺度的多模态致密深度图
Figure BDA0003596277570000031
将多模态编码特征Hvlo输入到位姿预测器得到多模态预测帧间位姿
Figure BDA0003596277570000041
其中i表示致密深度图的尺度阶数,
Figure BDA0003596277570000042
为多模态预测平移向量,
Figure BDA0003596277570000043
表示多模态预测欧拉角向量。
所述视觉-激光里程计网络VLO中,
所述的深度特征编码器主要由连续的五个卷积模块依次连接构成,稀疏深度图序列输入到深度特征编码器中,先按照时序对每三幅连续的稀疏深度图划分为一组,将每组中的三幅稀疏深度图进行通道连接组成初始稀疏深度图输入特征,将初始稀疏深度图输入特征分别经连续的五个卷积模块依次处理,第一个到第四个卷积模块的输出分别作为第一阶到第四阶深度编码器特征,尺度依次减小,第五个卷积模块的输出作为第五阶深度编码器特征,第四阶深度编码器特征和第五阶深度编码器特征的尺度相同;第一阶到第五阶深度编码器特征组成深度编码器特征。
所述的视觉特征编码器主要由连续的五个卷积模块依次连接构成,彩色图像序列输入到视觉特征编码器中,先按照时序对每三幅连续的彩色图像划分为一组,将每组中的三幅彩色图像的所有三个通道进行连接组成初始彩色图像输入特征,将初始彩色图像输入特征分别经连续的五个卷积模块依次处理,第一个到第四个卷积模块的输出分别作为第一阶到第四阶视觉编码器特征,尺度依次减小,第五个卷积模块的输出作为第五阶视觉编码器特征,第四阶视觉度编码器特征和第五阶深度编码器特征的尺度相同;第一阶到第五阶视觉编码器特征组成视觉编码器特征。
所述的第一深度解码器主要由五个尺度依次递增的反卷积模块、四个第一特征融合模块和四个深度预测器构成,五个反卷积模块依次连接,且在每相邻两个反卷积模块之间连接设置有一个第一特征融合模块,多模态编码特征Hvlo输入到第一个反卷积模块中;第一个反卷积模块的输出、第一阶深度编码器特征、第一阶视觉编码器特征均输入到第一个第一特征融合模块,第一个第一特征融合模块的输出直接输入到第二个反卷积模块中,第二个反卷积模块的输出经第一个深度预测器处理后输出第一阶尺度的多模态致密深度图
Figure BDA0003596277570000044
第二个反卷积模块的输出、第二阶深度编码器特征、第二阶视觉编码器特征均输入到第二个第一特征融合模块,第二个第一特征融合模块的输出直接输入到第三个反卷积模块中,第三个反卷积模块的输出经第二个深度预测器处理后输出第二阶尺度的多模态致密深度图
Figure BDA0003596277570000051
第三个反卷积模块的输出、第三阶深度编码器特征、第三阶视觉编码器特征均输入到第三个第一特征融合模块,第三个第一特征融合模块的输出直接输入到第四个反卷积模块中,第四个反卷积模块的输出经第三个深度预测器处理后输出第三阶尺度的多模态致密深度图
Figure BDA0003596277570000052
第四个反卷积模块的输出、第四阶深度编码器特征、第四阶视觉编码器特征均输入到第四个第一特征融合模块,第四个第一特征融合模块的输出直接输入到第五个反卷积模块中,第五个反卷积模块的输出经第四个深度预测器处理后输出第四阶尺度的多模态致密深度图
Figure BDA0003596277570000053
所述的深度预测器仅是由一个卷积模块构成。
视觉特征编码器输出视觉编码器特征、深度特征编码器输出深度编码器特征、第一特征融合模块前紧邻相连的反卷积模块输出特征均输入到第一特征融合模块中。所述的第一特征融合模块中,是先将从视觉特征编码器输出过来的视觉编码器特征和从第一特征融合模块自身前面紧邻相连的反卷积模块输出的特征进行连接,将连接后的结果再和从第一深度特征编码器输出过来的深度编码器特征进行相加作为第一特征融合模块的输出,相加是指像素相加;
所述的位姿预测器具体包括一个卷积模块和两个卷积池化单元,卷积模块的输入为位姿预测器的输入,卷积模块的输出分别输入到两个卷积池化单元中,两个卷积池化单元的输出作为位姿预测器的输出;每个卷积池化单元的结构相同,均是由第一个卷积模块、全局平均池化模块和第二个卷积模块依次连接构成,每个全局平均池化模块均是由一个全局平均池化操作构成,两个卷积池化单元分别用于处理输出帧间位姿中的平移向量和欧拉角向量。位姿预测器的输入先经卷积模块处理后输出分别输入到两个卷积池化单元中,以两个卷积池化单元的输出分别作为帧间位姿中的平移向量和欧拉角向量。
所述的单目视觉里程计网络VO的网络结构包括视觉特征编码器、第二深度解码器和位姿预测器;视觉特征编码器对彩色图像序列处理,从中提取视觉编码器特征作为视觉编码特征Hvo,将视觉编码特征Hvo输入到第二深度解码器得到四个不同尺度的视觉致密深度图
Figure BDA0003596277570000061
将视觉编码特征Hvo输入到位姿预测器得到视觉预测帧间位姿
Figure BDA0003596277570000062
其中i表示致密深度图的尺度阶数,
Figure BDA0003596277570000063
为视觉预测平移向量,
Figure BDA0003596277570000064
表示视觉预测欧拉角向量。
所述视觉-激光里程计网络与单目视觉里程计网络中各自的视觉特征编码器、位姿预测器的拓扑结构分别相同,即第一视觉特征编码器和第二视觉特征编码器拓扑结构相同,第一位姿预测器和第二位姿预测器拓扑结构相同;
但是深度解码器拓扑结构不同,即第一深度解码器和第二深度解码器拓扑结构不相同。
所述的第二深度解码器主要由五个尺度依次递增的反卷积模块、四个第二特征融合模块和四个深度预测器构成,五个反卷积模块依次连接,且在每相邻两个反卷积模块之间连接设置有一个第二特征融合模块,视觉编码特征Hvo输入到第一个反卷积模块中;第一个反卷积模块的输出、第一阶深度编码器特征、第一阶视觉编码器特征均输入到第一个第二特征融合模块,第一个第二特征融合模块的输出直接输入到第二个反卷积模块中,第二个反卷积模块的输出经第一个深度预测器处理后输出第一阶尺度的视觉致密深度图
Figure BDA0003596277570000065
第二个反卷积模块的输出、第二阶深度编码器特征、第二阶视觉编码器特征均输入到第二个第二特征融合模块,第二个第二特征融合模块的输出直接输入到第三个反卷积模块中,第三个反卷积模块的输出经第二个深度预测器处理后输出第二阶尺度的视觉致密深度图
Figure BDA0003596277570000066
第三个反卷积模块的输出、第三阶深度编码器特征、第三阶视觉编码器特征均输入到第三个第二特征融合模块,第三个第二特征融合模块的输出直接输入到第四个反卷积模块中,第四个反卷积模块的输出经第三个深度预测器处理后输出第三阶尺度的视觉致密深度图
Figure BDA0003596277570000067
第四个反卷积模块的输出、第四阶深度编码器特征、第四阶视觉编码器特征均输入到第四个第二特征融合模块,第四个第二特征融合模块的输出直接输入到第五个反卷积模块中,第五个反卷积模块的输出经第四个深度预测器处理后输出第四阶尺度的视觉致密深度图
Figure BDA0003596277570000071
所述的深度预测器仅是由一个卷积模块构成。
视觉特征编码器输出视觉编码器特征、第二特征融合模块前紧邻相连的反卷积模块输出特征均输入到第二特征融合模块中。所述的第二特征融合模块中,是将从视觉特征编码器输出过来的视觉编码器特征和从第二特征融合模块自身前面紧邻相连的反卷积模块输出的特征进行连接后作为第二特征融合模块的输出,相加是指像素相加。
每个卷积模块均是由卷积操作、批归一化操作、激活函数依次连接构成。每个反卷积模块均是由反卷积操作、批归一化操作、激活函数依次连接构成。
所述步骤(2)的训练过程中,
(2.1)所述的视觉-激光里程计网络训练时设置以下视觉-激光总损失函数
Figure BDA0003596277570000072
Figure BDA0003596277570000073
(2.2)所述的单目视觉里程计网络训练时,设置以下单目视觉总损失函数
Figure BDA0003596277570000074
Figure BDA0003596277570000075
其中,
Figure BDA0003596277570000076
表示视图合成损失函数,
Figure BDA0003596277570000077
表示深度自监督损失函数,
Figure BDA0003596277570000078
表示深度平滑损失函数,λvs、λds和λsm分别表示视图合成损失函数
Figure BDA0003596277570000079
深度自监督损失函数
Figure BDA00035962775700000710
深度平滑损失函数
Figure BDA00035962775700000711
的权重。
所述的视图合成损失函数
Figure BDA00035962775700000712
具体为:
Figure BDA00035962775700000713
Figure BDA00035962775700000714
其中,s表示参考帧,
Figure BDA00035962775700000715
表示参考帧彩色图像Is变换到目标帧所得到的合成目标帧彩色图像,合成目标帧彩色图像是根据目标帧彩色图像It的致密深度图
Figure BDA00035962775700000716
以及目标帧彩色图像It与参考帧彩色图像Is之间的帧间位姿
Figure BDA00035962775700000717
将参考帧彩色图像Is变换到目标帧所得到的图像;f()表示合成目标帧彩色图像的变换函数;Vs表示参考帧彩色图像Is变换到目标帧时所设定的二值可视掩膜,αs表示平衡误差标量,SSIM()表示图像结构相似度评估函数,⊙表示逐元素乘法;||||1表示取L1范数的操作,
Figure BDA0003596277570000081
表示刚性变换矩阵;
所述的深度自监督损失函数
Figure BDA0003596277570000082
通过输入的目标帧稀疏深度图Dt来对预测的致密深度图
Figure BDA0003596277570000083
进行监督,表示为:
Figure BDA0003596277570000084
其中,M(Dt)表示稀疏深度图Dt中的有效像素二值掩膜,在稀疏深度图的位置的深度值大于0的位置为1,其余位置为0;
所述的深度平滑损失函数
Figure BDA0003596277570000085
表示为:
Figure BDA0003596277570000086
其中,
Figure BDA0003596277570000087
Figure BDA0003596277570000088
分别表示计算水平和垂直方向梯度的操作,e表示自然常数。
所述步骤(3)中,
利用视觉-激光里程计网络VLO输出的多模态编码特征Hvlo、多模态预测帧间位姿
Figure BDA0003596277570000089
和四个不同尺度的多模态致密深度图
Figure BDA00035962775700000810
来对单目视觉里程计网络VO输出的视觉编码特征Hvo、视觉预测帧间位姿
Figure BDA00035962775700000811
和四个不同尺度的视觉致密深度图
Figure BDA00035962775700000812
进行训练,具体为:
S1:按照步骤(2)中对视觉-激光里程计网络VLO的训练结果获得的视觉-激光里程计网络VLO的网络参数,固定视觉-激光里程计网络VLO的网络参数,使在整个步骤(3)的训练过程中保持不变;
S2:使用视觉-激光里程计网络VLO输出的四个不同尺度的致密深度图
Figure BDA00035962775700000813
作为伪真值标签,监督单目视觉里程计网络VO输出的四个不同尺度的致密深度图
Figure BDA00035962775700000814
建立第一监督损失通过以下公式计算:
Figure BDA00035962775700000815
S3:使用视觉-激光里程计网络VLO输出的帧间位姿
Figure BDA00035962775700000816
作为伪真值标签,监督单目视觉里程计网络VO输出的帧间位姿
Figure BDA00035962775700000817
建立第二监督损失通过以下公式计算:
Figure BDA0003596277570000091
其中,αrot是固定系数,用于平衡平移与旋转分量的误差;
Figure BDA0003596277570000092
分别表示多模态预测平移向量和视觉预测平移向量,
Figure BDA0003596277570000093
分别表示多模态预测欧拉角向量和视觉预测欧拉角向量;
S4:使用视觉-激光里程计网络VLO中间提取的多模态编码特征Hvlo作为伪真值标签,监督单目视觉里程计网络VO中间提取的视觉编码器特征Hvo,建立第三监督损失通过以下公式计算:
Figure BDA0003596277570000094
其中,Np表示多模态编码特征
Figure BDA0003596277570000095
中像素的总数(Hvlo与Hvo的像素总数相同),
Figure BDA0003596277570000096
分别表示多模态编码特征Hvlo和视觉编码器特征Hvo在像素i上的特征向量,〈·,·>计算了两个向量之间的点积,||||2表示计算向量模长的操作;
S5:设置一个知识蒸馏条件系数φdk_c来选择性地引入视觉-激光里程计网络:
Figure BDA0003596277570000097
其中
Figure BDA0003596277570000098
表示网络m下参考帧彩色图像Is变换到目标帧所得到的合成目标帧彩色图像,m表示网络标识参数,φkd_c表示知识蒸馏条件系数,
Figure BDA0003596277570000099
表示网络m的刚性变换矩阵,
Figure BDA00035962775700000910
表示VLO预测的多模态致密深度图;
Figure BDA00035962775700000911
表示使用网络m的刚性变换矩阵进行视图合成时设定的二值可视掩膜,αs表示平衡误差项标量;
φkd_c=1表示视觉-激光里程计网络VLO预测输出的帧间位姿要优于单目视觉里程计网络VO预测输出的帧间位姿,反之则φkd_c=0。
S6:最终建立跨模态知识蒸馏模块的相关训练损失函数如下:
Figure BDA0003596277570000101
其中,
Figure BDA0003596277570000102
表示跨模态知识蒸馏模块的相关训练损失函数,λp、λd和λh为第一监督损失、第二监督损失、第三监督损失的权重系数;
在绝大多数情况下视觉-激光里程计网络VLO预测的致密深度图都要优于单目视觉里程计网络VO,知识蒸馏条件系数φkd_c仅作用于另外两项。
S7:单目视觉里程计网络VO的总体训练损失函数
Figure BDA0003596277570000103
设置如下:
Figure BDA0003596277570000104
其中,λvo和λkd为单目视觉总损失函数和相关训练损失函数的权重系数。
本发明方法使用一个预先训练的视觉-激光里程计网络作为教师网络,通过跨模态知识蒸馏来指导单目视觉里程计网络的训练。视觉-激光里程计网络以连续彩色图像和对应的稀疏深度图序列作为输入,以自监督的方式进行训练。单目视觉里程计网络则只输入连续彩色图像序列,以无监督的方式进行训练。在跨模态知识蒸馏中,视觉-激光里程计网络将在预测的致密深度图、帧间位姿以及学习到的编码器特征三个部分指导单目视觉里程计网络的学习,同时使用一个蒸馏条件判断模块来避免教师网络潜在的错误指导。
本方法首先构建一个视觉-激光里程计数据集,其包括连续的彩色图像和对应的稀疏深度图序列;将待训练数据以小批次训练的方式分别用于训练视觉-激光里程计网络和单目视觉里程计网络;将训练好的视觉-激光里程计网络参数固定,通过跨模态知识蒸馏模块进一步指导单目视觉里程计网络的训练;训练结束后的单目视觉里程计网络用于单目视觉里程计应用。
本方法可以从单目图像序列中估计真实尺度下的致密深度图和帧间位姿,且在平移性能和旋转性能上处于领域前列。
本发明具有以下有益效果:
1、相较于双目特权视觉里程计方法,本方法利用了更可靠的深度特权信息,对弱纹理区域和光照变化等环境因素有更好的鲁棒性。
2、相较于直接使用深度特权信息监督预测致密深度图的深度特权方法来说,本方法利用跨模态知识蒸馏,从网络提取的编码器特征、网络预测的致密深度图和帧间位姿三个部分来对单目视觉里程计的训练提供指导,更充分地利用了深度特权信息,取得了显著的性能提升。
3、本发明在整个训练过程中都不需要额外的真值标签,故有较好的通用性和普适性。
附图说明
图1是本发明实例的流程图。
图2是本发明实例中设计的视觉-激光里程计网络模型的示意图。
图3是本发明实例中设计的单目视觉里程计网络模型的示意图。
图4是本发明实例中设计的跨模态知识蒸馏训练过程的示意图。
图5是本发明实例中设计的里程计方法的位姿估计结果示例
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示,本发明的实施例及具体实施过程如下:
S01,采集用于定位场景的多张连续彩色图像和稀疏深度图,其中稀疏深度图是通过将激光雷达采集的三维点云投影到相机成像平面得到。用2N+1张连续彩色图像和其对应的稀疏深度图像组成训练样本(本发明中N=1)。
S02,构建视觉-激光里程计网络和单目视觉里程计网络。如图2所示,本发明所述的视觉-激光里程计网络由视觉特征编码器、深度特征编码器、第一深度解码器和位姿预测器4个部分组成。视觉特征编码器和深度特征编码器分别从输入的3张连续彩色图像和3张对应的稀疏深度图中提取视觉编码器特征和深度编码器特征,并经过像素相加进行局部融合得到多模态编码特征Hvlo。位姿预测器以Hvlo为输入,预测帧间位姿
Figure BDA0003596277570000111
第一深度编码器以Hvlo、视觉编码器特征与深度编码器特征为输入,预测四个不同尺度的多模态致密深度图
Figure BDA0003596277570000112
其中i表示深度图的尺度阶数。
本发明所述的单目视觉里程计网络由视觉特征编码器、深度特征编码器、第二深度解码器和位姿预测器3个部分组成,如图3所示。视觉特征编码器从输入的3张连续彩色图像中提取视觉编码器特征作为视觉编码特征Hvo。位姿预测器以Hvo为输入,预测帧间位姿
Figure BDA0003596277570000113
第二深度解码器以Hvo、视觉编码器特征为输入,预测四个不同尺度的视觉致密深度图
Figure BDA0003596277570000114
其中i表示深度图的尺度阶数。
S02-1,使用Adam优化算法迭代训练视觉-激光里程计网络。训练的损失函数为:
Figure BDA0003596277570000121
S02-2,使用Adam优化算法迭代训练单目视觉里程计网络,训练的损失函数为:
Figure BDA0003596277570000122
S03,固定S02-1中训练完成的视觉-激光里程计网络模型参数,如图4所示,并通过跨模态知识蒸馏指导S02-2中训练完成的单目视觉里程计网络进一步训练,训练的损失函数为:
Figure BDA0003596277570000123
其中
Figure BDA0003596277570000124
为S02-2中所述损失函数,
Figure BDA0003596277570000125
为跨模态知识蒸馏相关损失函数:
Figure BDA0003596277570000126
S04,使用S03中训练完成的单目视觉里程计网络进行位姿估计任务。具体实施中,将一个完整的图像序列划分为多个3张连续彩色图像的样本,输入到所述单目视觉里程计网络预测帧间位姿。将起点图像的全局位姿变换矩阵设为单位矩阵,通过累乘连续图像的帧间位姿得到每张图像对应的全局位姿变换矩阵,实现整个图像序列的轨迹预测。
为了验证本发明的有效性,本发明在公开的视觉-激光里程计数据集KITTIOdometry Benchmark上进行验证,并与现有的单目视觉里程计方法、双目特权视觉里程计方法和深度特权视觉里程计方法进行对比:
KITTI Odometry Benchmark共有00~21共22个序列,其中00~10序列提供了位姿的真值用于验证。每个序列都通过4个单目相机(2个灰度相机+2个彩色相机)以及一个Velodyne HDL-64激光雷达分别采集图像和三维点云,且图像和三维点云在时序上对齐。以序列00为例,其每个相机都采集了4541张分辨率为1241x376的图像,激光雷达则采集了4541帧三维点云。通过将三维点云投影到对应相机的成像平面可以得到同样分辨率的稀疏深度图,其稠密度约为5%。考虑到计算效率,将输入图像分辨率缩放到192x624,并用连续的3张彩色图像和对应的稀疏深度图组成训练样本。与当前绝大多数自监督的视觉里程计方法一样,使用00-08序列用于训练,09-10序列用于测试。
本发明主要采用KITTI Odometry Benchmark中的官方性能指标评估网络性能:平均平移相对漂移trel(单位%/100m),以及平均旋转相对漂移rrel(单位度/100m)。这两个指标是在整个序列的长度为(100m,200m,…,800m)的子序列上计算得到的。
网络训练的细节如下:
S02中,视觉-激光视觉里程计网络和单目视觉里程计网络的模型参数均通过Xavier随机初始化,并通过Adam优化器进行优化。每次输入网络的批大小(Batch Size)设置为4。学习率初始值为0.0002,每迭代70K次减半,共迭代训练180K次。
S03中,固定S02-1中训练好的视觉-激光里程计网络的模型参数,指导S02-2中训练好的单目视觉里程计网络继续进行训练。每次输入网络的批大小(Batch Size)设置为4。学习率初始值为0.00005,每迭代50K次衰减为原来的0.8倍,共迭代训练200K次。
实验主要包括两个部分,第一部分是本发明中各个模块的控制变量实验,用以说明本发明中各个模块的有效性。第二部分是本发明方法与现有的主流视觉里程计方法的对比实验。
第一部分:本发明中各个模块的控制变量实验,用以说明本发明中各个模块的有效性;
跨模态知识蒸馏模块有效性:跨模态知识蒸馏模块主要包含三个部分:输出空间蒸馏(OD),隐藏特征蒸馏(HD)和蒸馏条件判断(DCC)。OD表示使用视觉-激光里程计网络的输出结果(致密深度图、帧间位姿)来指导单目视觉里程计的训练。HD表示使用视觉-激光里程计网络的多模态编码特征来指导单目视觉里程计网络学习到的编码器特征。DCC则是通过对比教师网络和学生网络当前预测结果的质量来避免错误指导。根据蒸馏过程中是否使用这三个部分的功能,可以得到单目视觉里程计网络的四个变种,表示为KD-VO1到KD-VO4。另外还测试了直接用稀疏深度图作为真值直接监督预测的致密深度图的方法,记为VO-DS。实验结果如表1所示。表中*标记表示该模型的预测结果不能恢复真实尺度,在表格中展示其尺度校正后的结果。在图5中展示了VLO、VO、VO-DS和KD-VO4在测试序列上的预测轨迹进行定性比较。
实验结果表明,跨模态知识蒸馏模块中的三个部分都有助于性能提升,另外本方法相比于直接用稀疏深度图作为真值进行监督的方法而言,可以更好地利用深度特权信息,获得更为显著的性能提升。
表1.单目视觉里程计网络的各变种在KITTI Odometry Benchmark性能对比
Figure BDA0003596277570000131
Figure BDA0003596277570000141
训练策略:在本发明的跨模态知识蒸馏过程中,视觉-激光里程计网络作为教师网络,其模型参数是固定的。而另一种训练策略是联合训练视觉-激光里程计网络和单目视觉里程计网络,结果如表2所示。实验结果表明,在联合训练的过程中,单目视觉里程计网络的噪声会影响视觉-激光里程计网络的训练,导致其性能下降;同样的,单目视觉里程计网络的性能也同样下降。这表明当前的训练策略更加有效。
表2.不同训练策略下的视觉-激光里程计网络与单目视觉里程计网络在KITTIOdometry Benchmark性能对比
Figure BDA0003596277570000142
第二部分:表3展示了本方法与现有的视觉里程计方法进行对比实验。对比的方法包括6个标准单目视觉里程计方法,4个双目特权视觉里程计方法以及1个深度特权视觉里程计方法。符号
Figure BDA0003596277570000143
标记的方法是非端到端的方法(即网络不直接预测帧间位姿),其预测光流和致密深度图,并通过RANSAC剔除外点,通过额外的优化算法来得到预测的帧间位姿。表中所有的标准单目VO方法都不能恢复真实尺度,表中展示了其在尺度对齐后的性能指标。
标准的单目视觉里程计方法往往需要更加复杂的网络结构,如SAVO、SGANVO、ASANet,且无法恢复真实尺度。而本方法则使用一个简单的网络结构取得了更准确且带真实尺度的位姿预测结果。与双目特权视觉里程计方法这类对光照变化和弱纹理区域敏感的方法相比,深度特权方法表现出更强的鲁棒性,因而有更好的结果。甚至比肩利用了额外的优化模块的方法。另外,相比于直接使用稀疏深度图作为监督信号的深度特权方法,本方法可以更好地利用深度特权信息指导训练,取得了更加显著的性能提升。
表3.与现有的视觉里程计方法在KITTI Odometry Benchmark上的性能对比
Figure BDA0003596277570000151
以上所述,仅是本发明的具体实施例而已,并非对本发明做任何形式上的限定,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或修饰为等同变化的等效实例,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上事例所做的任何的简单修改、等同变化与修饰,均仍属于本发明的保护范围之内。

Claims (10)

1.一种基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于,方法包括:
(1)使用彩色相机和激光雷达联合采集场景的彩色图像和三维点云,构建视觉-激光里程计数据集;
(2)将视觉-激光里程计数据集输入视觉-激光里程计网络VLO和单目视觉里程计网络VO中使用优化算法分别进行训练;
(3)通过跨模态知识蒸馏模块来利用视觉-激光里程计网络VLO进一步对单目视觉里程计网络VO进行再次训练;
(4)训练结束后,将待测的连续时刻的彩色图像序列分组后,再分别输入训练后的单目视觉里程计网络VO,输出得到每组各自的目标帧彩色图像It对应的致密深度图
Figure FDA0003596277560000011
以及帧间位姿
Figure FDA0003596277560000012
其中
Figure FDA0003596277560000013
为平移向量,
Figure FDA0003596277560000014
表示欧拉角向量;最后将各组的帧间位姿累乘获得全局位姿,全局位姿作为待测的连续时刻的彩色图像序列的完整运动轨迹,实现了单目视觉里程计的处理。
2.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于:所述步骤(1)具体为:针对同一场景,由彩色相机采集连续时刻下的彩色图像序列,由激光雷达采集同样连续时刻下和彩色图像序列对应的三维点云序列,再将三维点云序列中的三维点云投影到彩色相机的相机成像平面得到稀疏深度图,由彩色图像序列及其对应的稀疏深度图序列组成视觉-激光里程计数据集。
3.根据权利要求2所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于:所述的彩色图像序列中的彩色图像数量和稀疏深度图序列中的稀疏深度图数量均相同,且均为奇数;将彩色图像序列和稀疏深度图序列中位于中间的一帧作为目标帧,其余帧均为参考帧。
4.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于:
所述视觉-激光里程计网络VLO的网络结构包括视觉特征编码器、深度特征编码器、第一深度解码器和位姿预测器;视觉特征编码器和深度特征编码器分别对彩色图像序列及其对应的稀疏深度图序列处理,从中提取视觉编码器特征和深度编码器特征,视觉编码器特征和深度编码器特征经过局部融合后得到多模态编码特征Hvlo,将视觉编码器特征、深度编码器特征、多模态编码特征Hvlo输入到第一深度解码器得到四个不同尺度的多模态致密深度图
Figure FDA0003596277560000021
将多模态编码特征Hvlo输入到位姿预测器得到多模态预测帧间位姿
Figure FDA0003596277560000022
Figure FDA0003596277560000023
i∈{1,2,3,4},其中i表示致密深度图的尺度阶数,
Figure FDA0003596277560000024
为多模态预测平移向量,
Figure FDA0003596277560000025
表示多模态预测欧拉角向量。
5.根据权利要求4所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于:
所述视觉-激光里程计网络VLO中,
所述的深度特征编码器主要由连续的五个卷积模块依次连接构成,稀疏深度图序列输入到深度特征编码器中,先按照时序对每三幅连续的稀疏深度图划分为一组,将每组中的三幅稀疏深度图进行通道连接组成初始稀疏深度图输入特征,将初始稀疏深度图输入特征分别经连续的五个卷积模块依次处理,第一个到第四个卷积模块的输出分别作为第一阶到第四阶深度编码器特征,尺度依次减小,第五个卷积模块的输出作为第五阶深度编码器特征,第四阶深度编码器特征和第五阶深度编码器特征的尺度相同;
所述的视觉特征编码器主要由连续的五个卷积模块依次连接构成,彩色图像序列输入到视觉特征编码器中,先按照时序对每三幅连续的彩色图像划分为一组,将每组中的三幅彩色图像的所有三个通道进行连接组成初始彩色图像输入特征,将初始彩色图像输入特征分别经连续的五个卷积模块依次处理,第一个到第四个卷积模块的输出分别作为第一阶到第四阶视觉编码器特征,尺度依次减小,第五个卷积模块的输出作为第五阶视觉编码器特征,第四阶视觉度编码器特征和第五阶深度编码器特征的尺度相同;
所述的第一深度解码器主要由五个尺度依次递增的反卷积模块、四个第一特征融合模块和四个深度预测器构成,五个反卷积模块依次连接,且在每相邻两个反卷积模块之间连接设置有一个第一特征融合模块,多模态编码特征Hvlo输入到第一个反卷积模块中;第一个反卷积模块的输出、第一阶深度编码器特征、第一阶视觉编码器特征均输入到第一个第一特征融合模块,第一个第一特征融合模块的输出直接输入到第二个反卷积模块中,第二个反卷积模块的输出经第一个深度预测器处理后输出第一阶尺度的多模态致密深度图
Figure FDA0003596277560000031
第二个反卷积模块的输出、第二阶深度编码器特征、第二阶视觉编码器特征均输入到第二个第一特征融合模块,第二个第一特征融合模块的输出直接输入到第三个反卷积模块中,第三个反卷积模块的输出经第二个深度预测器处理后输出第二阶尺度的多模态致密深度图
Figure FDA0003596277560000032
第三个反卷积模块的输出、第三阶深度编码器特征、第三阶视觉编码器特征均输入到第三个第一特征融合模块,第三个第一特征融合模块的输出直接输入到第四个反卷积模块中,第四个反卷积模块的输出经第三个深度预测器处理后输出第三阶尺度的多模态致密深度图
Figure FDA0003596277560000033
第四个反卷积模块的输出、第四阶深度编码器特征、第四阶视觉编码器特征均输入到第四个第一特征融合模块,第四个第一特征融合模块的输出直接输入到第五个反卷积模块中,第五个反卷积模块的输出经第四个深度预测器处理后输出第四阶尺度的多模态致密深度图
Figure FDA0003596277560000034
所述的第一特征融合模块中,是先将从视觉特征编码器输出过来的视觉编码器特征和从第一特征融合模块自身前面紧邻相连的反卷积模块输出的特征进行连接,将连接后的结果再和从第一深度特征编码器输出过来的深度编码器特征进行相加作为第一特征融合模块的输出;
所述的位姿预测器具体包括一个卷积模块和两个卷积池化单元,卷积模块的输入为位姿预测器的输入,卷积模块的输出分别输入到两个卷积池化单元中,两个卷积池化单元的输出作为位姿预测器的输出;每个卷积池化单元的结构相同,均是由第一个卷积模块、全局平均池化模块和第二个卷积模块依次连接构成,每个全局平均池化模块均是由一个全局平均池化操作构成,两个卷积池化单元分别用于处理输出帧间位姿中的平移向量和欧拉角向量。
6.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于:
所述的单目视觉里程计网络VO的网络结构包括视觉特征编码器、第二深度解码器和位姿预测器;视觉特征编码器对彩色图像序列处理,从中提取视觉编码器特征作为视觉编码特征Hvo,将视觉编码特征Hvo输入到第二深度解码器得到四个不同尺度的视觉致密深度图
Figure FDA0003596277560000041
将视觉编码特征Hvo输入到位姿预测器得到视觉预测帧间位姿
Figure FDA0003596277560000042
i∈{1,2,3,4},其中i表示致密深度图的尺度阶数,
Figure FDA0003596277560000043
为视觉预测平移向量,
Figure FDA0003596277560000044
表示视觉预测欧拉角向量。
7.根据权利要求6所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于:
所述视觉-激光里程计网络与单目视觉里程计网络中各自的视觉特征编码器、位姿预测器的拓扑结构分别相同;
所述的第二深度解码器主要由五个尺度依次递增的反卷积模块、四个第二特征融合模块和四个深度预测器构成,五个反卷积模块依次连接,且在每相邻两个反卷积模块之间连接设置有一个第二特征融合模块,视觉编码特征Hvo输入到第一个反卷积模块中;第一个反卷积模块的输出、第一阶深度编码器特征、第一阶视觉编码器特征均输入到第一个第二特征融合模块,第一个第二特征融合模块的输出直接输入到第二个反卷积模块中,第二个反卷积模块的输出经第一个深度预测器处理后输出第一阶尺度的视觉致密深度图
Figure FDA0003596277560000045
第二个反卷积模块的输出、第二阶深度编码器特征、第二阶视觉编码器特征均输入到第二个第二特征融合模块,第二个第二特征融合模块的输出直接输入到第三个反卷积模块中,第三个反卷积模块的输出经第二个深度预测器处理后输出第二阶尺度的视觉致密深度图
Figure FDA0003596277560000046
第三个反卷积模块的输出、第三阶深度编码器特征、第三阶视觉编码器特征均输入到第三个第二特征融合模块,第三个第二特征融合模块的输出直接输入到第四个反卷积模块中,第四个反卷积模块的输出经第三个深度预测器处理后输出第三阶尺度的视觉致密深度图
Figure FDA0003596277560000047
第四个反卷积模块的输出、第四阶深度编码器特征、第四阶视觉编码器特征均输入到第四个第二特征融合模块,第四个第二特征融合模块的输出直接输入到第五个反卷积模块中,第五个反卷积模块的输出经第四个深度预测器处理后输出第四阶尺度的视觉致密深度图
Figure FDA0003596277560000051
所述的第二特征融合模块中,是将从视觉特征编码器输出过来的视觉编码器特征和从第二特征融合模块自身前面紧邻相连的反卷积模块输出的特征进行连接后作为第二特征融合模块的输出。
8.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于:所述步骤(2)的训练过程中,
(2.1)所述的视觉-激光里程计网络训练时设置以下视觉-激光总损失函数
Figure FDA0003596277560000052
Figure FDA0003596277560000053
(2.2)所述的单目视觉里程计网络训练时,设置以下单目视觉总损失函数
Figure FDA0003596277560000054
Figure FDA0003596277560000055
其中,
Figure FDA0003596277560000056
表示视图合成损失函数,
Figure FDA0003596277560000057
表示深度自监督损失函数,
Figure FDA0003596277560000058
表示深度平滑损失函数,λvs、λds和λsm分别表示视图合成损失函数
Figure FDA0003596277560000059
深度自监督损失函数
Figure FDA00035962775600000510
深度平滑损失函数
Figure FDA00035962775600000511
的权重。
9.根据权利要求8所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于:所述的视图合成损失函数
Figure FDA00035962775600000512
具体为:
Figure FDA00035962775600000513
Figure FDA00035962775600000514
其中,s表示参考帧,
Figure FDA00035962775600000515
表示参考帧彩色图像Is变换到目标帧所得到的合成目标帧彩色图像,合成目标帧彩色图像是根据目标帧彩色图像It的致密深度图
Figure FDA00035962775600000516
以及目标帧彩色图像It与参考帧彩色图像Is之间的帧间位姿
Figure FDA00035962775600000517
将参考帧彩色图像Is变换到目标帧所得到的图像;f()表示合成目标帧彩色图像的变换函数;Vs表示参考帧彩色图像Is变换到目标帧时所设定的二值可视掩膜,αs表示平衡误差标量,SSIM()表示图像结构相似度评估函数,⊙表示逐元素乘法;‖ ‖1表示取L1范数的操作,
Figure FDA00035962775600000518
表示刚性变换矩阵;
所述的深度自监督损失函数
Figure FDA0003596277560000061
通过输入的目标帧稀疏深度图Dt来对预测的致密深度图
Figure FDA0003596277560000062
进行监督,表示为:
Figure FDA0003596277560000063
其中,M(Dt)表示稀疏深度图Dt中的有效像素二值掩膜,在稀疏深度图的位置的深度值大于0的位置为1,其余位置为0;
所述的深度平滑损失函数
Figure FDA0003596277560000064
表示为:
Figure FDA0003596277560000065
其中,
Figure FDA0003596277560000066
Figure FDA0003596277560000067
分别表示计算水平和垂直方向梯度的操作,e表示自然常数。
10.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法,其特征在于:所述步骤(3)中,
利用视觉-激光里程计网络VLO输出的多模态编码特征Hvlo、多模态预测帧间位姿
Figure FDA0003596277560000068
和四个不同尺度的多模态致密深度图
Figure FDA00035962775600000619
来对单目视觉里程计网络VO输出的视觉编码特征Hvo、视觉预测帧间位姿
Figure FDA00035962775600000610
和四个不同尺度的视觉致密深度图
Figure FDA00035962775600000620
进行训练,具体为:
S1:固定视觉-激光里程计网络VLO的网络参数;
S2:使用视觉-激光里程计网络VLO输出的四个不同尺度的致密深度图
Figure FDA00035962775600000621
作为伪真值标签,监督单目视觉里程计网络VO输出的四个不同尺度的致密深度图
Figure FDA00035962775600000613
建立第一监督损失通过以下公式计算:
Figure FDA00035962775600000614
S3:使用视觉-激光里程计网络VLO输出的帧间位姿
Figure FDA00035962775600000615
作为伪真值标签,监督单目视觉里程计网络VO输出的帧间位姿
Figure FDA00035962775600000616
建立第二监督损失通过以下公式计算:
Figure FDA00035962775600000617
其中,αrot是固定系数;
Figure FDA00035962775600000618
分别表示多模态预测平移向量和视觉预测平移向量,
Figure FDA0003596277560000071
分别表示多模态预测欧拉角向量和视觉预测欧拉角向量;
S4:使用视觉-激光里程计网络VLO中间提取的多模态编码特征Hvlo作为伪真值标签,监督单目视觉里程计网络VO中间提取的视觉编码器特征Hvo,建立第三监督损失通过以下公式计算:
Figure FDA0003596277560000072
其中,Np表示多模态编码特征
Figure FDA0003596277560000073
中像素的总数(Hvlo与Hvo的像素总数相同),
Figure FDA0003596277560000074
分别表示多模态编码特征Hvlo和视觉编码器特征Hvo在像素i上的特征向量,<·,·>计算了两个向量之间的点积,‖ ‖2表示计算向量模长的操作;
S5:设置一个知识蒸馏条件系数φkd_c来选择性地引入视觉-激光里程计网络:
Figure FDA0003596277560000075
其中,
Figure FDA0003596277560000076
表示网络m下参考帧彩色图像Is变换到目标帧所得到的合成目标帧彩色图像,m表示网络标识参数,φkd_c表示知识蒸馏条件系数,
Figure FDA0003596277560000077
表示网络m的刚性变换矩阵,
Figure FDA0003596277560000078
表示VLO预测的多模态致密深度图;
Figure FDA0003596277560000079
表示使用网络m的刚性变换矩阵进行视图合成时设定的二值可视掩膜,αs表示平衡误差项标量;
S6:最终建立跨模态知识蒸馏模块的相关训练损失函数如下:
Figure FDA00035962775600000710
其中,
Figure FDA00035962775600000711
表示跨模态知识蒸馏模块的相关训练损失函数,λp、λd和λh为第一监督损失、第二监督损失、第三监督损失的权重系数;
S7:单目视觉里程计网络VO的总体训练损失函数
Figure FDA00035962775600000713
设置如下:
Figure FDA00035962775600000712
其中,λvo和λkd为单目视觉总损失函数和相关训练损失函数的权重系数。
CN202210413969.6A 2022-04-14 2022-04-14 一种基于跨模态知识蒸馏的深度特权视觉里程计方法 Pending CN114743105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210413969.6A CN114743105A (zh) 2022-04-14 2022-04-14 一种基于跨模态知识蒸馏的深度特权视觉里程计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210413969.6A CN114743105A (zh) 2022-04-14 2022-04-14 一种基于跨模态知识蒸馏的深度特权视觉里程计方法

Publications (1)

Publication Number Publication Date
CN114743105A true CN114743105A (zh) 2022-07-12

Family

ID=82283259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210413969.6A Pending CN114743105A (zh) 2022-04-14 2022-04-14 一种基于跨模态知识蒸馏的深度特权视觉里程计方法

Country Status (1)

Country Link
CN (1) CN114743105A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117214860A (zh) * 2023-08-14 2023-12-12 北京科技大学顺德创新学院 基于孪生特征金字塔和地面分割的激光雷达里程计方法
CN117635967A (zh) * 2023-11-30 2024-03-01 中科南京智能技术研究院 一种自监督学习里程计量方法、装置、系统及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117214860A (zh) * 2023-08-14 2023-12-12 北京科技大学顺德创新学院 基于孪生特征金字塔和地面分割的激光雷达里程计方法
CN117214860B (zh) * 2023-08-14 2024-04-19 北京科技大学顺德创新学院 基于孪生特征金字塔和地面分割的激光雷达里程计方法
CN117635967A (zh) * 2023-11-30 2024-03-01 中科南京智能技术研究院 一种自监督学习里程计量方法、装置、系统及存储介质

Similar Documents

Publication Publication Date Title
CN111160297B (zh) 基于残差注意机制时空联合模型的行人重识别方法及装置
Usenko et al. Visual-inertial mapping with non-linear factor recovery
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN111311666B (zh) 一种融合边缘特征和深度学习的单目视觉里程计方法
CN111325797A (zh) 一种基于自监督学习的位姿估计方法
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
Babu et al. Undemon: Unsupervised deep network for depth and ego-motion estimation
CN114743105A (zh) 一种基于跨模态知识蒸馏的深度特权视觉里程计方法
CN111325784A (zh) 一种无监督位姿与深度计算方法及系统
CN112270691B (zh) 一种基于动态滤波器网络的单目视频结构和运动预测方法
CN111242068B (zh) 基于视频的行为识别方法、装置、电子设备和存储介质
CN114693720A (zh) 基于无监督深度学习的单目视觉里程计的设计方法
CN113989699A (zh) 基于单目视觉和深度学习的结构全场位移稠密测量方法、装置、设备及存储介质
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
CN112819853A (zh) 一种基于语义先验的视觉里程计方法
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
CN117523100A (zh) 基于神经网络与多视图一致性的三维场景重建方法和装置
CN118212240A (zh) 一种汽车齿轮生产缺陷检测方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN112070181B (zh) 一种基于图像流的协同检测方法及装置、存储介质
CN117710429A (zh) 一种融合CNN与Transformer改进的轻量化单目深度估计方法
CN117252928A (zh) 用于电子产品模块化智能组装的视觉图像定位系统
CN117079072A (zh) 一种基于深度学习的图像鲁棒构建视觉里程计的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination