CN112308918A

CN112308918A - 一种基于位姿解耦估计的无监督单目视觉里程计方法

Info

Publication number: CN112308918A
Application number: CN202011151965.2A
Authority: CN
Inventors: 周文晖; 王威盛; 孙煨; 张桦; 戴国骏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-02-02
Anticipated expiration: 2040-10-26
Also published as: CN112308918B

Abstract

本发明公开了一种基于位姿解耦估计的无监督单目视觉里程计方法。本发明包括如下步骤：S1：准备KITTI数据集并进行预处理；S2：基于位姿解耦估计公式，设计位姿解耦估计网络；S3：设计基于位姿解耦估计的无监督单目视觉里程计；S4：定义基于位姿解耦估计的无监督单目视觉里程计的损失函数；S5：使用KITTI数据集中的训练集训练基于位姿解耦估计的无监督单目视觉里程计。本发明从相机位姿估计的级联解耦结构设计开始，以实现精确的位姿估计；并将其扩展到无监督单目视觉里程计，实现相邻帧间相机位姿的旋转矩阵和平移矩阵解耦估计；为提高旋转矩阵估计的鲁棒性，旋转矩阵采用单位四元数表示；最终在KITTI数据库上完成训练和测评。

Description

一种基于位姿解耦估计的无监督单目视觉里程计方法

技术领域

本发明是关于深度学习与计算机视觉领域，特别涉及了一种基于位姿解耦估计的无监督单目视觉里程计方法。

背景技术

深度学习是近年来人工智能领域中的一项重要突破，已在图像分类、图像理解、语音识别、自然语言处理等多个方向取得了突破性进展。相比于传统机器学习方法，深度学习方法的主要过程为：构建数据集；使用卷积层、全连接层、激活层等设计深度神经网络，设计损失函数；利用数据集训练深度神经网络，采用误差反传技术和梯度下降的优化方法更新深度神经网络中的参数，使得深度神经网络沿着损失函数最小的方向学习。训练完成的深度神经网络模型可拟合出高维复杂函数，实现网络输入到输出的期望映射，并在测试数据集上进行预测。卷积神经网络是深度学习方法中发展最成功的网络结构之一，它利用卷积层提取输入图像的低维和高维语义特征，然后利用这些语义特征完成分类、回归等任务。无监督学习是深度学习方法中的一类学习机制，可从无标记的训练数据中学习到语义特征。

基于视觉的定位方法通常有视觉里程计(Visual Odometry,VO) 和视觉同时定位与地图构建方法(Visual Simultaneous Localization and Mapping,V-SLAM)。视觉里程计由Nister提出，通过分析图像序列中前后帧图像来估计相机自运动。视觉里程计无需相机运动和场景的先验信息，并且能避免传统里程计中的缺点和局限。如果只使用一个相机进行定位估计，称为单目视觉里程计。如果使用立体视觉相机，则称为双目视觉里程计。一般使用立体视觉相机的情况时，根据两个相机在水平轴上的位置关系，称在左边的相机为左相机，在右边的相机为右相机。视觉里程计目标是根据相机拍摄的图像序列估计相机运动。相机运动表示为相邻图像帧间相机的空间位置变化，包括相机的平移距离和旋转角度。

发明内容

本发明的目的是提供一种基于位姿解耦估计的无监督单目视觉里程计方法。本发明具体实现包括如下步骤：

步骤S1：准备KITTI数据集并进行预处理；

步骤S2：基于位姿解耦估计公式，设计位姿解耦估计网络；

步骤S3：设计基于位姿解耦估计的无监督单目视觉里程计；

步骤S4：定义基于位姿解耦估计的无监督单目视觉里程计的损失函数；

步骤S5：使用KITTI数据集中的训练集训练基于位姿解耦估计的无监督单目视觉里程计。

进一步的，所述步骤S2具体实现包括：

步骤S2-1：所述的位姿解耦估计公式是将两帧间的相机位姿矩阵分解为解耦平移矩阵和解耦旋转矩阵的级联相乘，从而将相机位姿估计分解为解耦平移矩阵和解耦旋转矩阵的级联估计；具体表述为：

对于相邻两帧图像I_t和I_s，场景点在图像I_t上的投影像素点为g_t，在图像I_s上的投影像素点为g_s，根据相机内参矩阵K、相机位姿矩阵 P_t→s、像素点g_t在相机坐标系下的深度值z_t和像素点g_s在相机坐标系下的深度值z_s，像素点g_t和像素点g_s满足刚性运动的投影公式，具体为：

其中P_t→s为相机从第t帧到第s帧的相机位姿矩阵，包含了一个 3×3的旋转矩阵R和一个3×1的平移矩阵T；采用四元数表示旋转矩阵R，即旋转矩阵R由一个四元素(q₀,q₁,q₂,q₃)表示，所述四元数表示旋转矩阵为成熟技术；平移矩阵T包含了3个平移量，分别是相机坐标系下x、y、z坐标的平移量T_x、T_y和T_z；根据矩阵乘法，相机位姿矩阵P_t→s可表示为解耦平移矩阵和解耦旋转矩阵的级联相乘，具体为：

其中P_T为4×4的解耦平移矩阵，P_R为4×4的解耦旋转矩阵，E_3×3为3×3的单位矩阵；

将公式(2)代入公式(1)中，有：

根据公式(3)，可进一步将像素点g_t和像素点g_s的投影公式分解为两个投影公式的级联相乘，具体为：

其中公式(4)的第一行为解耦平移矩阵P_T的投影公式，公式(4)的第二行为解耦旋转矩阵P_R的投影公式；公式(4)称为位姿解耦估计公式，将相机位姿矩阵P_t→s估计分解为解耦平移矩阵P_T和解耦旋转矩阵P_R的级联估计；

步骤S2-2：所述的位姿解耦估计网络包含了一个平移估计网络T-Net和一个旋转估计网络R-Net；平移估计网络T-Net实现解耦平移矩阵P_T中三个平移量T_x、T_y和T_z估计，旋转估计网络R-Net实现解耦旋转矩阵P_R中四元素(q₀,q₁,q₂,q₃)估计。

进一步的，所述的平移估计网络T-Net具体表述为：网络输入为连续三帧的左相机图像I_t-1、I_t和I_t+1，输出为9个平移量，分别对应于I_t-1和I_t间的解耦平移矩阵P_T(t-1→t)、I_t和I_t+1间的解耦平移矩阵P_T(t→t+1)、以及I_t-1和I_t+1间的解耦平移矩阵P_T(t+1→t-1)；平移估计网络T-Net的网络结构如下所示：

第1网络层：采用卷积核为7×7，步长为[2,2]的卷积层，卷积层输出经批归一化后，采用ReLU激活函数对批归一化结果进行激活；

第2网络层：采用卷积核为5×5，步长为[2,2]的卷积层，卷积层输出经批归一化后，采用ReLU激活函数对批归一化结果进行激活；

第3～7网络层：每个网络层都采用卷积核为3×3，步长为[2,2]的卷积层，每个卷积层的输出经批归一化后，采用ReLU激活函数对批归一化结果进行激活；

第8网络层：采用卷积核为1×1，步长为[1,1]的卷积层，卷积层输出直接送入第9网络层；

第9网络层：对第8网络层输出特征的维度上进行求平均操作，第9网络层输出维度为N×9。

进一步的，所述的旋转估计网络R-Net具体表述为：根据平移估计网络T-Net输出结果，以及公式(4)中解耦平移矩阵P_T的投影公式，将左相机图像I_t-1投影到I_t图像空间，生成新图像I′_t-1，以及将左相机图像I_t+1投影到I_t图像空间，生成新图像I′_t+1；将{I′_t-1,I_t,I′_t+1}作为旋转估计网络R-Net的输入；旋转估计网络R-Net的输出为3个四元数(12 个数值)，分别对应于I′_t-1和I_t间的解耦旋转矩阵P_R(t-1→t)、I_t和I′_t+1间的解耦旋转矩阵P_R(t→t+1)、以及I′_t-1和I′_t+1间的解耦旋转矩阵P_R (t+1→t-1)；旋转估计网络R-Net的网络结构如下所示；

第9网络层：对第8网络层输出特征的(高度×宽度)维度上进行求平均操作，第9网络层输出维度为N×12。

进一步的，根据平移估计网络T-Net输出结果和旋转估计网络 R-Net输出结果，可得到连续三帧图像I_t-1、I_t和I_t+1间的相机位姿初始估计结果，包括I_t-1和I_t间的相机位姿矩阵P_init(t-1→t)、I_t和I_t+1间的相机位姿矩阵P_init(t→t+1)、以及I_t-1和I_t+1间的相机位姿矩阵P_init(t+1 →t-1)，具体公式为：

进一步的，所述步骤S3包括：

基于位姿解耦估计的无监督单目视觉里程计包含三个网络：视差估计网络DispNet、位姿解耦估计网络、位姿解耦修正网络；

所述的视差估计网络DispNet采用了与GeoNet中DepthNet相同的网络结构；

所述位姿解耦修正网络包含了一个平移修正网络T-RefineNet和一个旋转修正网络R-RefineNet。

进一步的，所述的平移修正网络T-RefineNet具体表述为：根据旋转估计网络R-Net输出结果，以及公式(4)中解耦旋转矩阵P_R的投影公式，将图像I′_t-1投影到I_t图像空间，生成新图像I″_t-1，以及图像I′_t+1投影到I_t图像空间，生成新图像I″_t+1；将{I″_t-1,I_t,I″_t+1}作为平移修正网络 T-RefineNet的输入；平移修正网络T-RefineNet输出为9个平移量，分别对应于I″_t-1和I_t间的解耦平移修正矩阵ΔP_T(t-1→t)、I_t和I″_t+1间的解耦平移修正矩阵ΔP_T(t→t+1)、以及I_t-1和I_t+1间的解耦平移修正矩阵ΔP_T(t+1→t-1)；平移修正网络T-RefineNet的网络结构与平移估计网络T-Net的网络结构相同。

进一步的，所述的旋转修正网络R-RefineNet具体表述为：根据平移修正网络T-RefineNet输出结果，以及公式(4)中解耦平移矩阵P_T的投影公式，将图像I″_t-1投影到I_t图像空间，生成新图像I″′_t-1，以及将图像I″_t+1投影到I_t图像空间，生成新图像I″′_t+1；将{I″′_t-1,I_t,I″′_t+1}作为旋转修正网络R-RefineNet的输入；旋转修正网络R-RefineNet输出为3个四元数(12个数值)，分别对应于I″′_t-1和I_t间的解耦旋转修正矩阵ΔP_R(t-1→t)、I_t和I″′_t+1间的解耦旋转修正矩阵ΔP_R(t→t+1)、以及I″′_t-1和I″′_t+1间的解耦旋转修正矩阵ΔP_R(t+1→t-1)；旋转修正网络R-RefineNet的网络结构与旋转估计网络R-Net的网络结构相同。

进一步的，根据旋转修正网络R-RefineNet输出结果，以及公式(4) 中解耦旋转矩阵P_R的投影公式，将图像I″′_t-1投影到I_t图像空间，生成新图像

以及图像I″′_t+1投影到I_t图像空间，生成新图像

根据步骤S2中的相机位姿初始估计结果和位姿解耦修正网络的输出结果，最终的相机位姿矩阵估计结果包括：I_t-1和I_t间的相机位姿矩阵P(t-1→t)、I_t和I_t+1间的相机位姿矩阵P(t→t+1)、以及I_t-1和I_t+1间的相机位姿矩阵P(t+1→t-1)，具体公式为：

进一步的，所述步骤S4包括：

所述的基于位姿解耦估计的无监督单目视觉里程计的损失函数 L_total包括亮度一致性损失L_lr、视差平滑损失L_smooth、刚性一致性损失 L_rigid、位姿回环一致性损失L_loop，具体公式为：

L_total＝λ_bL_lr+λ_sL_smooth+λ_rL_rigid+λ_lL_loop (8)

其中λ_b、λ_s、λ_r和λ_l为权重，用于调整不同损失在整个损失函数中的作用，通常λ_b＝λ_r＝λ_l＝1.0，λ_s＝0.5；

所述的亮度一致性损失L_lr为连续三帧左相机图像I_t-1、I_t和I_t+1与其右相机图像间的左右一致性程度，具体公式为：

L_lr＝L_lr(I_t-1)+L_lr(I_t)+L_lr(I_t+1) (9)

其中L_lr(I_t-1)表示为左相机图像I_t-1与其对应右相机图像间的左右一致性程度，L_lr(I_t)表示为左相机图像I_t与其对应右相机图像间的左右一致性程度，L_lr(I_t+1)表示为左相机图像I_t+1与其对应右相机图像间的左右一致性程度；

所述的左相机图像I_l与其对应右相机图像I_r间的左右一致性程度计算公式为：

其中I_l(u,v)为左相机图像中像素点(u,v)的像素值，I_r(u,v)为右相机图像中像素点(u,v)的像素值，d(u,v)像素点(u,v)的视差值，L_p(·)计算公式为：

其中β为权重，通常取值为0.8；SSIM(·)为两幅图像的结构相似性计算函数，其计算方法为成熟方法；||··||₁为计算L1距离；

所述的视差平滑损失L_smooth为连续三帧的视差图d_t-1、d_t和d_t+1的平滑程度，具体公式为：

L_smooth＝L_smooth(d_t-1)+L_smooth(d_t)+L_smooth(d_t+1) (12)

其中L_smooth(d_t-1)为视差图d_t-1的平滑程度，L_smooth(d_t)为视差图d_t的平滑程度，L_smooth(d_t+1)为视差图d_t+1的平滑程度；

所述的视差图d的平滑程度计算公式为：

其中

和

分别为水平方向和垂直方向的偏导数，I_l为视差图d所对应的左相机图像；

所述的刚性一致性损失L_rigid表示为左相机图像I_t-1和I_t+1投影到I_t图像空间后，与左相机图像I_t的一致性程度，具体公式为：

根据步骤S3中得到最终的相机位姿矩阵估计结果，所述的位姿回环一致性损失L_loop表示为

L_loop＝||P(t-1→t)·P(t→t+1)·P(t+1→t-1),E_4×4||₁ (15)

其中E_4×4为4×4的单位矩阵。

本发明有益效果如下：

本发明从相机位姿估计的级联解耦结构设计开始，提出了一种位姿解耦估计网络和位姿解耦修正网络，以实现精确的位姿估计；并将其扩展到无监督单目视觉里程计，实现相邻帧间相机位姿的旋转矩阵和平移矩阵解耦估计；为提高旋转矩阵估计的鲁棒性，旋转矩阵采用单位四元数表示；最终在KITTI数据库上完成训练和测评。

附图说明

图1为位姿解耦估计网络框图

图2为基于位姿解耦估计的无监督单目视觉里程计框图

图3为本发明的主要步骤流程示意图

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1-3所示，一种基于位姿解耦估计的无监督单目视觉里程计方法，包括如下步骤：

步骤S1：准备KITTI数据集并进行预处理；

步骤S2：基于位姿解耦估计公式，设计位姿解耦估计网络；

步骤S3：设计基于位姿解耦估计的无监督单目视觉里程计；

步骤S5：使用KITTI数据集中的训练集训练基于位姿解耦估计的无监督单目视觉里程计；

所述步骤S1包括：

步骤S1-1：采用德国卡尔斯鲁厄理工学院和丰田美国技术研究院发布的KITTI数据集作为训练集和测试集；KITTI数据集包含21个场景数据，每个场景数据为车载双目立体相机连续拍摄的道路场景图像序列，每帧双目立体图像包含了一幅左相机图像和一幅右相机图像；将第1到第8个场景数据作为训练集，第9和10个场景数据作为测试集。

步骤S1-2：从KITTI场景数据中提取连续三帧的双目立体图像，经数据增强后作为一次训练的输入数据；其中连续三帧的左相机图像作为网络输入，连续三帧的右相机图像仅用于训练时的损失函数计算；所述的数据增强方法为成熟技术，包括图像尺度缩放，随机裁剪和亮度调整等。

所述步骤S2包括：

步骤S2-1：所述的位姿解耦估计公式是将两帧间的相机位姿矩阵分解为解耦平移矩阵和解耦旋转矩阵的级联相乘，从而将相机位姿估计分解为解耦平移矩阵和解耦旋转矩阵的级联估计。具体表述为：

其中P_T为4×4的解耦平移矩阵，P_R为4×4的解耦旋转矩阵， E_3×3为3×3的单位矩阵。

将公式(2)代入公式(1)中，有：

其中公式(4)的第一行为解耦平移矩阵P_T的投影公式，公式(4)的第二行为解耦旋转矩阵P_R的投影公式。公式(4)称为位姿解耦估计公式，将相机位姿矩阵P_t→s估计分解为解耦平移矩阵P_T和解耦旋转矩阵P_R的级联估计。

步骤S2-2：所述的位姿解耦估计网络包含了一个平移估计网络 T-Net和一个旋转估计网络R-Net，如图1所示；平移估计网络T-Net 实现解耦平移矩阵P_T中三个平移量T_x、T_y和T_z估计，旋转估计网络 R-Net实现解耦旋转矩阵P_R中四元素(q₀,q₁,q₂,q₃)估计。

所述的平移估计网络T-Net具体表述为：网络输入为连续三帧的左相机图像I_t-1、I_t和I_t+1，输出为9个平移量，分别对应于I_t-1和I_t间的解耦平移矩阵P_T(t-1→t)、I_t和I_t+1间的解耦平移矩阵P_T(t→t+1)、以及I_t-1和I_t+1间的解耦平移矩阵P_T(t+1→t-1)；平移估计网络T-Net 的网络结构如表1所示；

表1：平移估计网络结构图输入(批处理数×高度×宽度×通道)：(N×H×W×9)

第9网络层：对第8网络层输出特征的(高度×宽度)维度上进行求平均操作，第9网络层输出维度为N×9。

所述的旋转估计网络R-Net具体表述为：根据平移估计网络T-Net 输出结果，以及公式(4)中解耦平移矩阵P_T的投影公式，将左相机图像I_t-1投影到I_t图像空间，生成新图像I′_t-1，以及将左相机图像I_t+1投影到I_t图像空间，生成新图像I′_t+1；将{I′_t-1,I_t,I′_t+1}作为旋转估计网络 R-Net的输入；旋转估计网络R-Net的输出为3个四元数(12个数值)，分别对应于I′_t-1和I_t间的解耦旋转矩阵P_R(t-1→t)、I_t和I′_t+1间的解耦旋转矩阵P_R(t→t+1)、以及I′_t-1和I′_t+1间的解耦旋转矩阵P_R(t+1→t-1)；旋转估计网络R-Net的网络结构如表2所示；

表2：旋转估计网络结构图

输入(批处理数×高度×宽度×通道)：(N×H×W×9)

根据平移估计网络T-Net输出结果和旋转估计网络R-Net输出结果，可得到连续三帧图像I_t-1、I_t和I_t+1间的相机位姿初始估计结果，包括I_t-1和I_t间的相机位姿矩阵P_init(t-1→t)、I_t和I_t+1间的相机位姿矩阵P_init(t→t+1)、以及I_t-1和I_t+1间的相机位姿矩阵P_init(t+1→t-1)，具体公式为：

所述步骤S3包括：

基于位姿解耦估计的无监督单目视觉里程计包含三个网络：视差估计网络DispNet、位姿解耦估计网络、位姿解耦修正网络，如图2 所示。

所述的视差估计网络DispNet采用了与GeoNet中DepthNet相同的网络结构(Zhichao Yin,Jianping Shi.GeoNet:Unsupervised Learning ofDense Depth,OpticalFlow and Camera Pose.in IEEE Conference on Computer Vision and PatternRecognition.2018)；其结构为一个包含了编码子网和解码子网的U型网络；编码子网的输入为连续三帧的左相机图像I_t-1、I_t和I_t+1，通过卷积和下采样提取深层特征信息；解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸，并得到连续三帧的视差图d_t-1、d_t和d_t+1。对于视差图d，u为图像空间的水平方向坐标，v为图像空间的垂直方向坐标，则像素点(u,v) 的视差值为d(u,v)，其深度值z的计算公式为：

其中B为车载双目立体相机的基线，f为车载双目立体相机的焦距。

所述位姿解耦修正网络包含了一个平移修正网络T-RefineNet和一个旋转修正网络R-RefineNet；

所述的平移修正网络T-RefineNet具体表述为：根据旋转估计网络R-Net输出结果，以及公式(4)中解耦旋转矩阵P_R的投影公式，将图像I′_t-1投影到I_t图像空间，生成新图像I″_t-1，以及图像I′_t+1投影到I_t图像空间，生成新图像I″_t+1；将{I″_t-1,I_t,I″_t+1}作为平移修正网络T-RefineNet 的输入；平移修正网络T-RefineNet输出为9个平移量，分别对应于I″_t-1和I_t间的解耦平移修正矩阵ΔP_T(t-1→t)、I_t和I″_t+1间的解耦平移修正矩阵ΔP_T(t→t+1)、以及I_t-1和I_t+1间的解耦平移修正矩阵ΔP_T(t+1→t-1)；平移修正网络T-RefineNet的网络结构与平移估计网络T-Net的网络结构相同；

所述的旋转修正网络R-RefineNet具体表述为：根据平移修正网络T-RefineNet输出结果，以及公式(4)中解耦平移矩阵P_T的投影公式，将图像I″_t-1投影到I_t图像空间，生成新图像I″′_t-1，以及将图像I″_t+1投影到 I_t图像空间，生成新图像I″′_t+1；将{I″′_t-1,I_t,I″′_t+1}作为旋转修正网络 R-RefineNet的输入；旋转修正网络R-RefineNet输出为3个四元数(12 个数值)，分别对应于I″′_t-1和I_t间的解耦旋转修正矩阵ΔP_R(t-1→t)、 I_t和I″′_t+1间的解耦旋转修正矩阵ΔP_R(t→t+1)、以及I″′_t-1和I″′_t+1间的解耦旋转修正矩阵ΔP_R(t+1→t-1)；旋转修正网络R-RefineNet的网络结构与旋转估计网络R-Net的网络结构相同；

根据旋转修正网络R-RefineNet输出结果，以及公式(4)中解耦旋转矩阵P_R的投影公式，将图像I″′_t-1投影到I_t图像空间，生成新图像

以及图像I″′_t+1投影到I_t图像空间，生成新图像

所述步骤S4包括：

L_total＝λ_bL_lr+λ_sL_smooth+λ_rL_rigid+λ_lL_loop (8)

其中λ_b、λ_s、λ_r和λ_l为权重，用于调整不同损失在整个损失函数中的作用，通常λ_b＝λ_r＝λ_l＝1.0，λ_s＝0.5。

L_lr＝L_lr(I_t-1)+L_lr(I_t)+L_lr(I_t+1) (9)

其中L_lr(I_t-1)表示为左相机图像I_t-1与其对应右相机图像间的左右一致性程度，L_lr(I_t)表示为左相机图像I_t与其对应右相机图像间的左右一致性程度，L_lr(I_t+1)表示为左相机图像I_t+1与其对应右相机图像间的左右一致性程度。

其中β为权重，通常取值为0.8；SSIM(·)为两幅图像的结构相似性计算函数，其计算方法为成熟方法；||·||₁为计算L1距离。

L_smooth＝L_smooth(d_t-1)+L_smooth(d_t)+L_smooth(d_t+1) (12)

其中L_smooth(d_t-1)为视差图d_t-1的平滑程度，L_smooth(d_t)为视差图d_t的平滑程度，L_smooth(d_t+1)为视差图d_t+1的平滑程度。

所述的视差图d的平滑程度计算公式为：

其中

和

分别为水平方向和垂直方向的偏导数，I_l为视差图d 所对应的左相机图像。

L_loop＝||P(t-1→t)·P(t→t+1)·P(t+1→t-1),E_4×4||₁ (15)

其中E_4×4为4×4的单位矩阵。

所述步骤S5包括：

通过步骤S1得到的训练集，送入步骤S3中搭建的基于位姿解耦估计的无监督单目视觉里程计，根据步骤S4中设计的无监督损失函数L_total，采用误差反向传播和Adam优化算法(β₁＝0.9，β₂＝0.99) 进行无监督训练，初始学习率为2×10^-4，经过一定的训练迭代次数，获取到最终的模型结果。

所述的误差反向传播和Adam优化算法为成熟技术。

Claims

1.一种基于位姿解耦估计的无监督单目视觉里程计方法，其特征在于包括如下步骤：

步骤S1：准备KITTI数据集并进行预处理；

步骤S2：基于位姿解耦估计公式，设计位姿解耦估计网络；

步骤S3：设计基于位姿解耦估计的无监督单目视觉里程计；

2.根据权利要求1所述的一种基于位姿解耦估计的无监督单目视觉里程计方法，其特征在于所述步骤S2具体实现包括：

对于相邻两帧图像I_t和I_s，场景点在图像I_t上的投影像素点为g_t，在图像I_s上的投影像素点为g_s，根据相机内参矩阵K、相机位姿矩阵P_t→s、像素点g_t在相机坐标系下的深度值z_t和像素点g_s在相机坐标系下的深度值z_s，像素点g_t和像素点g_s满足刚性运动的投影公式，具体为：

其中P_t→s为相机从第t帧到第s帧的相机位姿矩阵，包含了一个3×3的旋转矩阵R和一个3×1的平移矩阵T；采用四元数表示旋转矩阵R，即旋转矩阵R由一个四元素(q₀,q₁,q₂,q₃)表示，所述四元数表示旋转矩阵为成熟技术；平移矩阵T包含了3个平移量，分别是相机坐标系下x、y、z坐标的平移量T_x、T_y和T_z；根据矩阵乘法，相机位姿矩阵P_t→s可表示为解耦平移矩阵和解耦旋转矩阵的级联相乘，具体为：

将公式(2)代入公式(1)中，有：

3.根据权利要求2所述的一种基于位姿解耦估计的无监督单目视觉里程计方法，其特征在于所述的平移估计网络T-Net具体表述为：网络输入为连续三帧的左相机图像I_t-1、I_t和I_t+1，输出为9个平移量，分别对应于I_t-1和I_t间的解耦平移矩阵P_T(t-1→t)、I_t和I_t+1间的解耦平移矩阵P_T(t→t+1)、以及I_t-1和I_t+1间的解耦平移矩阵P_T(t+1→t-1)；平移估计网络T-Net的网络结构如下所示：

4.根据权利要求2或3所述的一种基于位姿解耦估计的无监督单目视觉里程计方法，其特征在于所述的旋转估计网络R-Net具体表述为：根据平移估计网络T-Net输出结果，以及公式(4)中解耦平移矩阵P_T的投影公式，将左相机图像I_t-1投影到I_t图像空间，生成新图像I′_t-1，以及将左相机图像I_t+1投影到I_t图像空间，生成新图像I′_t+1；将{I′_t-1,I_t,I′_t+1}作为旋转估计网络R-Net的输入；旋转估计网络R-Net的输出为3个四元数(12个数值)，分别对应于I′_t-1和I_t间的解耦旋转矩阵P_R(t-1→t)、I_t和I′_t+1间的解耦旋转矩阵P_R(t→t+1)、以及I′_t-1和I′_t+1间的解耦旋转矩阵P_R(t+1→t-1)；旋转估计网络R-Net的网络结构如下所示；

5.根据权利要求4所述的一种基于位姿解耦估计的无监督单目视觉里程计方法，其特征在于根据平移估计网络T-Net输出结果和旋转估计网络R-Net输出结果，可得到连续三帧图像I_t-1、I_t和I_t+1间的相机位姿初始估计结果，包括I_t-1和I_t间的相机位姿矩阵P_init(t-1→t)、I_t和I_t+1间的相机位姿矩阵P_init(t→t+1)、以及I_t-1和I_t+1间的相机位姿矩阵P_init(t+1→t-1)，具体公式为：

6.根据权利要求5所述的一种基于位姿解耦估计的无监督单目视觉里程计方法，其特征在于所述步骤S3包括：

7.根据权利要求6所述的一种基于位姿解耦估计的无监督单目视觉里程计方法，其特征在于所述的平移修正网络T-RefineNet具体表述为：根据旋转估计网络R-Net输出结果，以及公式(4)中解耦旋转矩阵P_R的投影公式，将图像I′_t-1投影到I_t图像空间，生成新图像I″_t-1，以及图像I′_t+1投影到I_t图像空间，生成新图像I″_t+1；将{I″_t-1,I_t,I″_t+1}作为平移修正网络T-RefineNet的输入；平移修正网络T-RefineNet输出为9个平移量，分别对应于I″_t-1和I_t间的解耦平移修正矩阵ΔP_T(t-1→t)、I_t和I″_t+1间的解耦平移修正矩阵ΔP_T(t→t+1)、以及I_t-1和I_t+1间的解耦平移修正矩阵ΔP_T(t+1→t-1)；平移修正网络T-RefineNet的网络结构与平移估计网络T-Net的网络结构相同。

8.根据权利要求6或7所述的一种基于位姿解耦估计的无监督单目视觉里程计方法，其特征在于所述的旋转修正网络R-RefineNet具体表述为：根据平移修正网络T-RefineNet输出结果，以及公式(4)中解耦平移矩阵P_T的投影公式，将图像I″_t-1投影到I_t图像空间，生成新图像I″′_t-1，以及将图像I″_t+1投影到I_t图像空间，生成新图像I″′_t+1；将{I″′_t-1,I_t,I″′_t+1}作为旋转修正网络R-RefineNet的输入；旋转修正网络R-RefineNet输出为3个四元数(12个数值)，分别对应于I″′_t-1和I_t间的解耦旋转修正矩阵ΔP_R(t-1→t)、I_t和I″′_t+1间的解耦旋转修正矩阵ΔP_R(t→t+1)、以及I″′_t-1和I″′_t+1间的解耦旋转修正矩阵ΔP_R(t+1→t-1)；旋转修正网络R-RefineNet的网络结构与旋转估计网络R-Net的网络结构相同。

9.根据权利要求8所述的一种基于位姿解耦估计的无监督单目视觉里程计方法，其特征在于根据旋转修正网络R-RefineNet输出结果，以及公式(4)中解耦旋转矩阵P_R的投影公式，将图像I″′_t-1投影到I_t图像空间，生成新图像