CN113450410B

CN113450410B - 一种基于对极几何的单目深度和位姿联合估计方法

Info

Publication number: CN113450410B
Application number: CN202110727147.0A
Authority: CN
Inventors: 章国锋; 鲍虎军; 蔡情情
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-07-26
Anticipated expiration: 2041-06-29
Also published as: CN113450410A

Abstract

本发明公开了一种基于对极几何的单目深度和位姿联合估计方法，属于三维视觉领域。本发明包括深度估计和位姿估计两个部分。深度估计模块是一个结合注意力机制的卷积网络模型；位姿估计过程使用稠密光流并筛选出精确的匹配点对，基于对极几何求解出位姿；然后将位姿用于监督深度估计网络的训练。本发明设计了3种采样掩膜剔除遮挡和动态物体的误匹配，筛选出更精确的匹配用于后续的位姿求解。注意力机制在深度估计网络中的使用提高了深度估计精度并优化了深度图中边界模糊的问题。本发明将深度网络和传统几何求解位姿方法进行结合，得到的单目深度和位姿联合估计模型具有较高的精度和泛化能力，在开源数据集中取得更先进的深度估计和位姿估计结果。

Description

一种基于对极几何的单目深度和位姿联合估计方法

技术领域

本发明涉及三维视觉领域，尤其涉及一种基于对极几何的自监督单目深度和位姿联合估计方法。

背景技术

深度估计和相机位姿估计是三维视觉任务的两个基础组成，在三维重建、SLAM等领域有重要应用。单目深度估计存在尺度不确定性的问题，即一张图像可能对应无数个深度图。要想获取真实尺度的深度唯一解，需要图像序列的运动位姿信息，或者提供海量的真实深度的真值。SfM等传统的深度和位姿联合估计方法，利用单目相机拍摄的图像序列估计相机位姿，再通过三角化从连续的视角中恢复出深度。但传统方法只能获取稀疏的深度图，且深度的精度强依赖于特征匹配的准确度。而现实的应用场景中，一般都需要像素级的稠密深度信息。

为了获取像素级的稠密深度图，深度学习在深度估计和位姿估计任务中得到了应用。目前，为了缓解有监督方法中数据深度真值标注的压力，自监督方法的单目深度估计网络将图像间的运动位姿作为深度估计网络的监督信号，一般通过两个子网络联合估计深度和位姿来实现。自监督方法虽然不需要数据集提供海量的真实深度值，但在精度方面仍有较大的提升空间，尤其是自监督方法中常用的光度误差无法很好地处理移动物体和被遮挡物体。而且目前基于卷积网络估计位姿的方法例如PoseNet，其精度和泛化能力都远不及对极几何、PnP和ICP等传统几何方法。

为了解决遮挡区域的问题，Monodepth2模型在多尺度上训练深度估计网络，还提出一种逐像素最小化重投影损失函数尝试解决物体遮挡问题，同时加入一个自动掩膜让网络过滤静态帧或与相机保持相对静止的运动物体的像素，这也是目前自监督单目深度估计中十分重要的一种模型，很多算法都基于Monodepth2进行改进。

如何估计出准确的位姿是自监督的单目深度和位姿联合估计方法提升性能的关键，因此很多方法额外加入了传统几何约束优化位姿求解。例如有方法在网络训练时使用了一个基于ICP的三维几何损失函数，基于预测出的深度图和像素坐标，可以渲染出图像对应的三维点云，并使用ICP对齐相邻帧的点云。但ICP依赖于精确的深度估计，否则计算出的位姿不够准确，而且本身计算也较为复杂。

因此，如何将神经网络与几何约束更好地结合，找到一个优质的几何约束条件提升位姿估计的精度进而改进深度估计结果，是研究自监督的单目深度和位姿估计方法的重点。

针对此背景，本发明尝试设计一个将卷积网络和传统几何方法结合的单目深度和位姿联合估计方案，结合对极几何和注意力机制，提升了单目深度估计和位姿估计的精度和泛化能力，具有现实意义。

发明内容

本发明针对现有技术的不足，提出了一种基于对极几何的自监督单目深度和位姿联合估计方法。

为了实现上述目的，本发明采用如下技术方案：

本发明提供了一种基于对极几何的单目深度和位姿联合估计方法，其包括以下步骤：

步骤1：获取和筛选匹配点对

基于光流网络以无监督训练的方式获取向前和向后光流，得到每两帧图像的稠密匹配点对；在获取稠密匹配点对后，剔除遮挡、动态物体和误匹配，筛选并采样出精确的匹配点对用于位姿求解；

步骤2：基于对极几何求解位姿

利用步骤1筛选和采样出的匹配点对，基于对极几何使用RANSAC算法求解基础矩阵，对其进行奇异值分解并从中选择出最佳位姿解；基于三角化获取一个稀疏深度图；

步骤3：深度估计网络

使用编码器—解码器的卷积网络结构并结合注意力机制，构建深度估计网络；在编码器部分使用ResNet18作为基础网络，并嵌入了ECA通道注意力模块和自注意力模块；基于求解出的位姿用于监督网络的训练，损失函数中计算了深度估计网络得到的深度图和三角化得到的深度之间的差值，并计算了重投影误差；在深度估计网络训练后，使用PnP优化位姿的估计。

优选的，本发明步骤1中使用了3种采样掩膜筛选精确的匹配点对，具体为：

1)使用遮挡掩膜识别被遮挡区域

对于两张图像I₁和I₂，基于光流网络中获取的向后光流f₂₁，可以反向计算I₂中每个像素到I₁的对应位置，得到图

而

中像素缺失的部分则表明I₁中的这些像素点在I₂中找不到对应，即I₁中因视角变化后被遮挡的不可见区域，因此得到遮挡掩膜剔除被遮挡区域的点对；

2)计算前后光流一致性掩膜

在理想情况下，对应像素的前后光流之和应该为0。计算向前光流和向后光流之间的差异值，将前后光流误差大于阈值的点对剔除；

3)基于对极距离的几何掩膜

由于误差，点到极线的距离定义为对极距离，两张图像的对极距离之和记为对称对极距离；将所有对应点对分别计算其对极距离和对称对极距离，并从小到大进行排序，选择出对极距离前20％小且对称对极距离前20％小的匹配点对。

进一步的，本发明的步骤1具体为：

1.1：基于RAFT的光流网络结构提取图像特征并使用GRU模块迭代估计向前、向后光流，使用无监督的方法训练光流网络来获取稠密的匹配点对；

1.2：基于步骤1.1的光流网络中估计的向前、向后光流，计算遮挡掩膜，剔除被遮挡区域的点对；计算前后光流的差值作为前后光流一致性掩膜，剔除前后光流误差大于阈值的点对；

1.3：基于对极距离计算几何掩膜；对步骤1.2得到的点对计算对极距离和对极几何距离，选择对极距离前20％小且对称对极距离前20％小的匹配点对；

1.4：基于步骤1.2和步骤1.3的掩膜筛选出的精确点对集合，从中随机采样匹配点对用于位姿求解。

步骤2具体为：

2.1：基于步骤1获取的匹配点对，使用RANSAC算法和归一化八点法迭代求解基础矩阵；

2.2：对于步骤2.1中求解的基础矩阵，进行奇异值分解后得到4个位姿可能解，根据相机位置必须要在两张图像的视角之前的判断条件，从4个可能解中确定唯一的位姿解；

2.3：利用步骤2.2中求解的位姿，使用迭代线性三角化的方法得到一个稀疏的深度图，并将三角化得到的深度图与深度估计网络估计出的深度图进行尺度对齐。

优选的，本发明步骤3的编码器中使用了ECA通道注意力模块和自注意力机制，具体为：

1)使用ECA通道注意力模块

将轻量级的ECA通道注意力模块嵌入到编码器基础网络ResNet18的每个残差块中；将其置于残差支路后、跳跃连接的相加操作前，得到新的残差块。

2)使用自注意力机制

将自注意力模块加在改进后的ResNet18的第三个下采样部分即第二个残差块后，计算不同位置的特征之间的相似度。

步骤3具体为：

3.1：使用基于ImageNet数据集预训练的残差网络ResNet18，作为网络的编码器部分的初始化参数；

3.2：基于嵌入ECA通道注意力模块和自注意力机制的编码器，来提取图像特征；

3.3：使用基于DispNet网络结构的解码器进行下采样操作，输出逆深度图，根据反比关系将其转化为深度图；

3.4：使用步骤2中得到的位姿作为网络的监督信号，对深度估计网络进行训练；训练时的损失函数计算了深度估计网络得到的深度图和步骤2中三角化得到的深度之间的差值，并且计算了重投影误差；

3.5：在深度估计网络训练得到较可靠的深度图后，基于对极几何计算得到初始化位姿，当其平移量趋于0即特征共面时，使用PnP重新计算位姿进行位姿优化。

本发明还提供了一种基于对极几何的单目深度和位姿联合估计系统，其包括位姿估计模块和深度估计模块；

所述的位姿估计模块包括匹配点对获取和筛选模块、对极几何求解位姿模块；

所述的匹配点对获取和筛选模块基于光流网络以无监督训练的方式获取向前和向后光流，得到每两帧图像的稠密匹配点对；在获取稠密匹配点对后，剔除遮挡、动态物体和误匹配，筛选并采样出精确的匹配点对用于位姿求解；

所述对极几何求解位姿模块利用匹配点对筛选模块筛选和采样出的匹配点对，基于对极几何使用RANSAC算法求解基础矩阵，对其进行奇异值分解并从中选择出最佳位姿解；

所述深度估计模块使用编码器—解码器的卷积网络结构并结合注意力机制，构建深度估计网络；在编码器部分使用参数较少的ResNet18作为基础网络，并嵌入了ECA通道注意力模块和自注意力模块；基于求解出的位姿用于监督网络的训练，损失函数中计算了深度估计网络得到的深度图和三角化得到的深度之间的差值，并计算了重投影误差。

与现有技术相比，本发明的优势在于：

1)将自监督深度估计网络与传统几何约束结合。在深度和位姿的联合估计时，本发明不暴力使用卷积网络估计位姿，而是基于光流获取特征匹配点对，然后利用对极几何更鲁棒地求解基础矩阵并估计出位姿。将对极几何求解的位姿作为深度估计子网络的监督信号，同时提高了算法在深度估计任务和位姿估计任务的精度和泛化能力；

2)在基于光流网络获取匹配点对后，本发明设计了3种采样掩膜剔除可能存在遮挡、动态物体的误匹配，筛选出更精确的匹配点对用于后续的位姿求解；

3)本发明的单目深度估计网络中引入了注意力机制，使用了ECA通道注意力模块和自注意力模块来优化原编码器—解码器网络结构，更好地提取像素之间的全局特征，有效地提高了单目深度估计的准确性，并获得物体边缘更清晰的深度图。

附图说明

图1是本发明的整体流程图；

图2是本发明的深度估计网络的整体结构图；

图3是深度估计网络的编码器中ECA通道注意力模块嵌入前后的残差块对比；

图4是深度估计网络的编码器中嵌入自注意力模块前后获取的特征图对比示意图；

图5是本发明与其他较先进的深度和位姿联合估计方法在KITTI测试集上的深度图对比；

图6是本发明泛化能力测试的深度图对比。

具体实施方式

下面结合说明书附图对本发明进行详细说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

本发明提出一种基于对极几何的自监督单目深度和位姿联合估计方法。本发明整体结构如图1所示，主要分成两个部分：深度估计模块是一个结合注意力机制的卷积网络模型；位姿估计部分则包括匹配点对的获取和筛选、基于对极几何求解位姿两个模块，先通过光流追踪网络获取稠密的特征点对，并设计3种采样方法筛选出精确的匹配点对，然后利用对极几何求解基础矩阵并估计位姿，基于三角化实现深度和位姿的尺度对齐。在深度估计网络训练后，使用PnP来优化平移量较小情况下的位姿估计。基于求解的位姿作为深度估计网络的监督信号，实现深度和位姿的联合估计。

位姿估计模块首先基于光流网络获取匹配点对并进行筛选和采样，主要包括以下步骤：

1.1：基于RAFT的网络结构提取图像特征并使用GRU模块迭代估计向前、向后光流，使用无监督的方法训练光流网络来获取稠密的匹配点对；

1.2：基于1.1的光流网络中估计的向前、向后光流，计算遮挡掩膜剔除被遮挡区域的点对；计算前后光流的差值作为前后光流一致性掩膜，剔除前后光流误差大于阈值的点对；

1.4：基于步骤1.2和步骤1.3的掩膜筛选出的精确点对集合，从中随机采样8000对匹配用于位姿求解。

本发明使用了3种采样掩膜筛选精确的匹配点对，具体为：

1)使用遮挡掩膜识别被遮挡区域：

对于两张图像I₁和I₂，根据光流网络中得到的向后光流f₂₁，可以反向计算I₂中(x′,y′)到I₁的像素对应位置

得到图

基于向后光流反向推导的

利用公式1对于I₁中的每个像素位置(x,y)得到的像素进行计数得到V(x,y)：

其中，W,H分别表示图像的宽和高，

和

则分别表示光流在x轴和y轴上的值。

将V(x,y)限制在0或1之间，即可得到遮挡掩膜M_occ，如公式2：

M_occ(x,y)＝min(1,V(x,y)) 公式2

2)计算前后光流一致性掩膜

在理想情况下，对应像素的前后光流之和应该为0。当向前、向后光流存在较大误差时，说明可能存在遮挡、移动或者计算错误等多种问题。通过计算向前光流和向后光流的差异值，将前后光流误差大于给定阈值的点对剔除。

3)计算基于对极距离的几何掩膜

由于误差，点到极线的距离定义为对极距离，两张图像的对极距离之和记为对称对极距离；将得到光流中的所有对应像素计算其对极距离和对称对极距离，并从小到大进行排序，选择对极距离前20％小且对称对极距离前20％小的匹配点对。

深度估计是本发明的目的之一，深度估计网络训练过程中估计出的深度精度不够高，如果使用PnP和ICP求解出的位姿误差较大。因此，本发明基于筛选和采样后的匹配点对，使用对极几何求解位姿，具体包括如下步骤：

2.1：基于采样的8000点对，使用RANSAC算法和归一化八点法迭代求解基础矩阵；

2.3：利用步骤2.2中求解的位姿，使用迭代线性三角化的方法得到一个稀疏的深度图D_t，对于三角化得到的D_t和深度估计网络得到的D，取D_t中深度值为中位数处的像素与D对应位置进行深度对齐，得到尺度因子s。因此，尺度对齐后深度估计网络部分的深度图D_s＝sD；

2.4：在网络训练得到较可靠的深度图后，基于对极几何计算得到初始化位姿，当其平移量趋于0即特征共面时，基于RANSAC迭代和最小化重投影误差的PnP方法重新求解位姿，进行位姿优化。

本发明的深度估计网络部分的网络结构如图2所示，具体步骤为：

3.2：基于嵌入ECA通道注意力模块和自注意力机制的编码器，提取图像特征；

3.3：使用基于DispNet网络结构的解码器进行下采样操作，并输出逆深度图σ，而深度值与其成反比，通过D＝1/(a+(b-a)σ)将其转化为深度值，a和b分别取值0.1和100将深度值限定在0.1m至100m以内；

3.4：使用求解的位姿作为网络的监督信号，对网络进行训练；训练时的损失函数不使用常见的光度误差，而是计算三角化得到的深度和深度估计网络得到并尺度对齐后的深度图之间的差值，并且计算重投影误差。

3.5:本发明在深度估计网络训练得到较可靠的深度图后，基于对极几何计算得到初始化位姿，当其平移量趋于0即特征共面时，使用PnP重新计算位姿进行位姿优化。

本发明步骤3所述的编码器中使用了ECA通道注意力模块和自注意力机制，具体为：

1)使用ECA通道注意力模块

将轻量级的ECA通道注意力模块嵌入到编码器基础网络ResNet18的每个残差块中，将其置于残差支路后、跳跃连接的相加操作前，得到新的残差块，原残差块和新残差块的对比如图3所示。

2)使用自注意力机制

自注意力机制计算了不同位置特征之间的相似度，来更好地提取图像的全局特征，以获取深度边界更清晰的深度图。将自注意力模块加在改进后的ResNet18的第三个下采样部分即第二个残差块后，计算不同位置的特征之间的相似度。图4给出了第三个下采样模块在经过自注意力模块前后的特征图对比，左图为嵌入自注意力前，右图为嵌入自注意力后。可以看出，经自注意力模块计算特征图各位置相似度后获取的特征图明显不同，且更能看出特征相似的区域，能较清晰区别出原图像物体的边界区域。

实施例

为了进一步展示本发明的实施效果，本实施使用开源的KITTI数据集进行实验验证。单目深度估计的实验部分使用了KITTI数据集中Raw数据中的左目彩色图像和深度信息，并基于相机标定文件获取相机内参。位姿估计实验部分使用了KITTI Odometry数据集，Odometry数据集中共有21个序列，其中00到10序列提供了位姿真实值。因此选择00到08序列作为训练集，在09和10序列上测试。

评价指标：

1)深度估计评价指标：使用通用的误差和精度作为评价指标，误差指标包括绝对相对误差(AbsRel)、平方相对误差(SqRel)、均方根误差(RMSE)、均方根误差(RMSE)，误差值越小，则深度估计性能越优。精度(Accuracy)指标，所有像素的预测深度和真值的比值满足给定阈值的百分比，精度值越大，性能越优。

2)位姿估计评价指标：计算本发明在数据集某个序列的100m到800m长度上的平均平移均方根误差t_err(％)和平均旋转均方根误差r_err(°/100m)。

实验1：本发明的不同模块对于深度估计的有效性验证

为了验证本发明提出的复合注意力模块、匹配采样掩膜和基于对极几何估计位姿等模块对于单目深度估计效果的提升，本实施例将本发明的几个模块进行了充分的对照实验。将复合注意力模块记为A，使用匹配采样掩膜机制定义为M，基于深度估计网络和对极几何的方法记为baseline，基于深度估计网络和PoseNet的方法简称为DPNet。进行消融实验，量化结果如表1。

从表中数据可以发现复合注意力模块、采样掩膜这两个部分都能够提高深度估计的性能，且两个模块叠加后的实验效果最佳。可以分析出，匹配采样掩膜模块直接关系到位姿估计的准确性，去除该模块会将位姿估计的误差叠加到深度估计中。

并对比DPNet和A-DPNet，在使用位姿子网络和深度子网络的结构中，即使用卷积网络来估计位姿而不使用传统几何方法，复合注意力模块也提高了深度估计的准确性，充分验证了本发明自注意力模块使用的有效性。

表1不同模块对于深度估计的有效性验证

实验2：单目深度估计的精度测试

本实施例将本发明与最近几年较先进的有监督和自监督单目深度估计方法都进行了对比，定量结果如表2所示。表2中D代表有监督深度估计方法，M代表自监督的单目深度估计，S代表自监督的双目深度估计算法。加粗表示每一类中的最优结果，下划线表示每一类中的次优结果。

表2与其他方法对比的深度估计结果

从表2可以看到，目前有监督的最先进方法在精度上仍领先于所有自监督方法，可见自监督方法仍存在较大的提升空间。但有监督方法强依赖于训练数据集，在未训练过的数据中泛化能力较弱。

表2中第二部分将本发明与其他自监督深度估计方法进行对比，例如自监督中的较先进方法Monodepth2，本发明提出的单目深度估计算法在误差和精度等多个指标上都取得了更好的结果。

同时，图5给出了在KITTI Raw数据的测试集上，本发明和较先进的SC-SfMLearner、Monodepth2这两个自监督方法得到的深度图对比。图5中方框表示本发明能够估计出原图像中对应远景或小物体的深度值，或者估计出更清晰的边界深度值。因此，本发明能更好地表示出物体的边界信息，同时也能有更好的深度图效果。

实验3：单目深度估计的泛化能力测试

本实施例测试了本发明在深度估计方面的泛化能力，使用了只在KITTI数据集上训练后的模型，在CityScapes数据集上进行深度估计的评测，其得到的结果图优于Monodepth2等其他方法，对比结果如图6所示，图6中可以看出，本发明预测得到的深度图依然有比Monodepth2更好的边界深度值，图中方框标注出了较清晰的边界深度。

实验4：本发明不同模块对位姿估计的有效性验证

本实施例对比了本发明中使用对极几何估计位姿的方法和使用PoseNet网络估计位姿方法的结果，其中PoseNet网络结构使用ResNet18作为基础网络。同时，还对匹配采样掩膜模块和网络训练后的PnP优化位姿模块这两个对位姿估计有提升的部分进行有效性验证。在数据集的序列09和10上得到的结果如表3所示。

表3本发明的不同模块对位姿估计误差的影响

表3中数据可以看出，本发明使用的位姿估计方法明显优于直接使用PoseNet网络估计位姿。因此，本发明使用的传统几何位姿求解方法比使用神经网络暴力估计位姿方法更加鲁棒。

对比表3中第2行和第4行数据，可看出：使用采样掩膜模块筛选出精确的匹配后，能更准确估计位姿。此外，使用PnP可以基于预测的深度图求解位姿来提升精度。由于对极几何在纯旋转、平移量较小的情况中较难适用，要想实现鲁棒、准确的位姿估计，只有对极几何显然不够，需要进一步使用PnP进行优化。

实验5：位姿估计的精度测试

本实施例将本发明分别与基于传统方法的单目视觉里程计ORB-SLAM2、其他较先进的自监督单目深度和位姿联合估计算法进行位姿估计的对比实验，得到在序列09和10上的测试结果，具体误差结果如表4所示。表4中(w/lc)表示ORB-SLAM2开启回环检测，(w/olc)表示ORB-SLAM2关闭回环检测。加粗表示该类最优结果。

表4本发明与其他方法的位姿估计误差对比

表4中第一组是本发明与ORB-SLAM2等传统方法的对比，可以看到，在09这种闭环的序列中，本发明的位姿估计误差明显小于关闭回环检测的ORB-SLAM2；但与经过回环检测后端优化后的ORB-SLAM2对比，本发明的平移误差和旋转误差仍较大。本发明取得的位姿估计结果与ORB-SLAM2基本接近。

表4中第二组是本发明与其他基于深度学习的自监督方法的对比(即深度与位姿通过两个网络联合估计得到的方法)，本发明有最先进的结果。其他方法都使用位姿网络来估计位姿，对比本发明中使用的对极几何位姿求解方法，在连续估计位姿任务即视觉里程计中，本发明估计位姿时更加准确。

根据对比实验可以得出以下结论：

1)本发明的注意力模块和遮挡掩膜模块都能有效提升深度估计的精度；本发明能在基于KITTI数据集的单目深度估计中能取得先进的结果，且获得物体边缘更清晰的深度图；

2)本发明在位姿估计任务中表现优于其他基于深度学习的单目深度和位姿联合估计方法，且能取得和经典传统方法ORB-SLAM2(无闭环检测)接近的精度结果。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。