CN113450410B - 一种基于对极几何的单目深度和位姿联合估计方法 - Google Patents

一种基于对极几何的单目深度和位姿联合估计方法 Download PDF

Info

Publication number
CN113450410B
CN113450410B CN202110727147.0A CN202110727147A CN113450410B CN 113450410 B CN113450410 B CN 113450410B CN 202110727147 A CN202110727147 A CN 202110727147A CN 113450410 B CN113450410 B CN 113450410B
Authority
CN
China
Prior art keywords
pose
depth
network
estimation
epipolar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110727147.0A
Other languages
English (en)
Other versions
CN113450410A (zh
Inventor
章国锋
鲍虎军
蔡情情
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110727147.0A priority Critical patent/CN113450410B/zh
Publication of CN113450410A publication Critical patent/CN113450410A/zh
Application granted granted Critical
Publication of CN113450410B publication Critical patent/CN113450410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于对极几何的单目深度和位姿联合估计方法,属于三维视觉领域。本发明包括深度估计和位姿估计两个部分。深度估计模块是一个结合注意力机制的卷积网络模型;位姿估计过程使用稠密光流并筛选出精确的匹配点对,基于对极几何求解出位姿;然后将位姿用于监督深度估计网络的训练。本发明设计了3种采样掩膜剔除遮挡和动态物体的误匹配,筛选出更精确的匹配用于后续的位姿求解。注意力机制在深度估计网络中的使用提高了深度估计精度并优化了深度图中边界模糊的问题。本发明将深度网络和传统几何求解位姿方法进行结合,得到的单目深度和位姿联合估计模型具有较高的精度和泛化能力,在开源数据集中取得更先进的深度估计和位姿估计结果。

Description

一种基于对极几何的单目深度和位姿联合估计方法
技术领域
本发明涉及三维视觉领域,尤其涉及一种基于对极几何的自监督单目深度和位姿联合估计方法。
背景技术
深度估计和相机位姿估计是三维视觉任务的两个基础组成,在三维重建、SLAM等领域有重要应用。单目深度估计存在尺度不确定性的问题,即一张图像可能对应无数个深度图。要想获取真实尺度的深度唯一解,需要图像序列的运动位姿信息,或者提供海量的真实深度的真值。SfM等传统的深度和位姿联合估计方法,利用单目相机拍摄的图像序列估计相机位姿,再通过三角化从连续的视角中恢复出深度。但传统方法只能获取稀疏的深度图,且深度的精度强依赖于特征匹配的准确度。而现实的应用场景中,一般都需要像素级的稠密深度信息。
为了获取像素级的稠密深度图,深度学习在深度估计和位姿估计任务中得到了应用。目前,为了缓解有监督方法中数据深度真值标注的压力,自监督方法的单目深度估计网络将图像间的运动位姿作为深度估计网络的监督信号,一般通过两个子网络联合估计深度和位姿来实现。自监督方法虽然不需要数据集提供海量的真实深度值,但在精度方面仍有较大的提升空间,尤其是自监督方法中常用的光度误差无法很好地处理移动物体和被遮挡物体。而且目前基于卷积网络估计位姿的方法例如PoseNet,其精度和泛化能力都远不及对极几何、PnP和ICP等传统几何方法。
为了解决遮挡区域的问题,Monodepth2模型在多尺度上训练深度估计网络,还提出一种逐像素最小化重投影损失函数尝试解决物体遮挡问题,同时加入一个自动掩膜让网络过滤静态帧或与相机保持相对静止的运动物体的像素,这也是目前自监督单目深度估计中十分重要的一种模型,很多算法都基于Monodepth2进行改进。
如何估计出准确的位姿是自监督的单目深度和位姿联合估计方法提升性能的关键,因此很多方法额外加入了传统几何约束优化位姿求解。例如有方法在网络训练时使用了一个基于ICP的三维几何损失函数,基于预测出的深度图和像素坐标,可以渲染出图像对应的三维点云,并使用ICP对齐相邻帧的点云。但ICP依赖于精确的深度估计,否则计算出的位姿不够准确,而且本身计算也较为复杂。
因此,如何将神经网络与几何约束更好地结合,找到一个优质的几何约束条件提升位姿估计的精度进而改进深度估计结果,是研究自监督的单目深度和位姿估计方法的重点。
针对此背景,本发明尝试设计一个将卷积网络和传统几何方法结合的单目深度和位姿联合估计方案,结合对极几何和注意力机制,提升了单目深度估计和位姿估计的精度和泛化能力,具有现实意义。
发明内容
本发明针对现有技术的不足,提出了一种基于对极几何的自监督单目深度和位姿联合估计方法。
为了实现上述目的,本发明采用如下技术方案:
本发明提供了一种基于对极几何的单目深度和位姿联合估计方法,其包括以下步骤:
步骤1:获取和筛选匹配点对
基于光流网络以无监督训练的方式获取向前和向后光流,得到每两帧图像的稠密匹配点对;在获取稠密匹配点对后,剔除遮挡、动态物体和误匹配,筛选并采样出精确的匹配点对用于位姿求解;
步骤2:基于对极几何求解位姿
利用步骤1筛选和采样出的匹配点对,基于对极几何使用RANSAC算法求解基础矩阵,对其进行奇异值分解并从中选择出最佳位姿解;基于三角化获取一个稀疏深度图;
步骤3:深度估计网络
使用编码器—解码器的卷积网络结构并结合注意力机制,构建深度估计网络;在编码器部分使用ResNet18作为基础网络,并嵌入了ECA通道注意力模块和自注意力模块;基于求解出的位姿用于监督网络的训练,损失函数中计算了深度估计网络得到的深度图和三角化得到的深度之间的差值,并计算了重投影误差;在深度估计网络训练后,使用PnP优化位姿的估计。
优选的,本发明步骤1中使用了3种采样掩膜筛选精确的匹配点对,具体为:
1)使用遮挡掩膜识别被遮挡区域
对于两张图像I1和I2,基于光流网络中获取的向后光流f21,可以反向计算I2中每个像素到I1的对应位置,得到图
Figure BDA0003139092630000031
Figure BDA0003139092630000032
中像素缺失的部分则表明I1中的这些像素点在I2中找不到对应,即I1中因视角变化后被遮挡的不可见区域,因此得到遮挡掩膜剔除被遮挡区域的点对;
2)计算前后光流一致性掩膜
在理想情况下,对应像素的前后光流之和应该为0。计算向前光流和向后光流之间的差异值,将前后光流误差大于阈值的点对剔除;
3)基于对极距离的几何掩膜
由于误差,点到极线的距离定义为对极距离,两张图像的对极距离之和记为对称对极距离;将所有对应点对分别计算其对极距离和对称对极距离,并从小到大进行排序,选择出对极距离前20%小且对称对极距离前20%小的匹配点对。
进一步的,本发明的步骤1具体为:
1.1:基于RAFT的光流网络结构提取图像特征并使用GRU模块迭代估计向前、向后光流,使用无监督的方法训练光流网络来获取稠密的匹配点对;
1.2:基于步骤1.1的光流网络中估计的向前、向后光流,计算遮挡掩膜,剔除被遮挡区域的点对;计算前后光流的差值作为前后光流一致性掩膜,剔除前后光流误差大于阈值的点对;
1.3:基于对极距离计算几何掩膜;对步骤1.2得到的点对计算对极距离和对极几何距离,选择对极距离前20%小且对称对极距离前20%小的匹配点对;
1.4:基于步骤1.2和步骤1.3的掩膜筛选出的精确点对集合,从中随机采样匹配点对用于位姿求解。
步骤2具体为:
2.1:基于步骤1获取的匹配点对,使用RANSAC算法和归一化八点法迭代求解基础矩阵;
2.2:对于步骤2.1中求解的基础矩阵,进行奇异值分解后得到4个位姿可能解,根据相机位置必须要在两张图像的视角之前的判断条件,从4个可能解中确定唯一的位姿解;
2.3:利用步骤2.2中求解的位姿,使用迭代线性三角化的方法得到一个稀疏的深度图,并将三角化得到的深度图与深度估计网络估计出的深度图进行尺度对齐。
优选的,本发明步骤3的编码器中使用了ECA通道注意力模块和自注意力机制,具体为:
1)使用ECA通道注意力模块
将轻量级的ECA通道注意力模块嵌入到编码器基础网络ResNet18的每个残差块中;将其置于残差支路后、跳跃连接的相加操作前,得到新的残差块。
2)使用自注意力机制
将自注意力模块加在改进后的ResNet18的第三个下采样部分即第二个残差块后,计算不同位置的特征之间的相似度。
步骤3具体为:
3.1:使用基于ImageNet数据集预训练的残差网络ResNet18,作为网络的编码器部分的初始化参数;
3.2:基于嵌入ECA通道注意力模块和自注意力机制的编码器,来提取图像特征;
3.3:使用基于DispNet网络结构的解码器进行下采样操作,输出逆深度图,根据反比关系将其转化为深度图;
3.4:使用步骤2中得到的位姿作为网络的监督信号,对深度估计网络进行训练;训练时的损失函数计算了深度估计网络得到的深度图和步骤2中三角化得到的深度之间的差值,并且计算了重投影误差;
3.5:在深度估计网络训练得到较可靠的深度图后,基于对极几何计算得到初始化位姿,当其平移量趋于0即特征共面时,使用PnP重新计算位姿进行位姿优化。
本发明还提供了一种基于对极几何的单目深度和位姿联合估计系统,其包括位姿估计模块和深度估计模块;
所述的位姿估计模块包括匹配点对获取和筛选模块、对极几何求解位姿模块;
所述的匹配点对获取和筛选模块基于光流网络以无监督训练的方式获取向前和向后光流,得到每两帧图像的稠密匹配点对;在获取稠密匹配点对后,剔除遮挡、动态物体和误匹配,筛选并采样出精确的匹配点对用于位姿求解;
所述对极几何求解位姿模块利用匹配点对筛选模块筛选和采样出的匹配点对,基于对极几何使用RANSAC算法求解基础矩阵,对其进行奇异值分解并从中选择出最佳位姿解;
所述深度估计模块使用编码器—解码器的卷积网络结构并结合注意力机制,构建深度估计网络;在编码器部分使用参数较少的ResNet18作为基础网络,并嵌入了ECA通道注意力模块和自注意力模块;基于求解出的位姿用于监督网络的训练,损失函数中计算了深度估计网络得到的深度图和三角化得到的深度之间的差值,并计算了重投影误差。
与现有技术相比,本发明的优势在于:
1)将自监督深度估计网络与传统几何约束结合。在深度和位姿的联合估计时,本发明不暴力使用卷积网络估计位姿,而是基于光流获取特征匹配点对,然后利用对极几何更鲁棒地求解基础矩阵并估计出位姿。将对极几何求解的位姿作为深度估计子网络的监督信号,同时提高了算法在深度估计任务和位姿估计任务的精度和泛化能力;
2)在基于光流网络获取匹配点对后,本发明设计了3种采样掩膜剔除可能存在遮挡、动态物体的误匹配,筛选出更精确的匹配点对用于后续的位姿求解;
3)本发明的单目深度估计网络中引入了注意力机制,使用了ECA通道注意力模块和自注意力模块来优化原编码器—解码器网络结构,更好地提取像素之间的全局特征,有效地提高了单目深度估计的准确性,并获得物体边缘更清晰的深度图。
附图说明
图1是本发明的整体流程图;
图2是本发明的深度估计网络的整体结构图;
图3是深度估计网络的编码器中ECA通道注意力模块嵌入前后的残差块对比;
图4是深度估计网络的编码器中嵌入自注意力模块前后获取的特征图对比示意图;
图5是本发明与其他较先进的深度和位姿联合估计方法在KITTI测试集上的深度图对比;
图6是本发明泛化能力测试的深度图对比。
具体实施方式
下面结合说明书附图对本发明进行详细说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
本发明提出一种基于对极几何的自监督单目深度和位姿联合估计方法。本发明整体结构如图1所示,主要分成两个部分:深度估计模块是一个结合注意力机制的卷积网络模型;位姿估计部分则包括匹配点对的获取和筛选、基于对极几何求解位姿两个模块,先通过光流追踪网络获取稠密的特征点对,并设计3种采样方法筛选出精确的匹配点对,然后利用对极几何求解基础矩阵并估计位姿,基于三角化实现深度和位姿的尺度对齐。在深度估计网络训练后,使用PnP来优化平移量较小情况下的位姿估计。基于求解的位姿作为深度估计网络的监督信号,实现深度和位姿的联合估计。
位姿估计模块首先基于光流网络获取匹配点对并进行筛选和采样,主要包括以下步骤:
1.1:基于RAFT的网络结构提取图像特征并使用GRU模块迭代估计向前、向后光流,使用无监督的方法训练光流网络来获取稠密的匹配点对;
1.2:基于1.1的光流网络中估计的向前、向后光流,计算遮挡掩膜剔除被遮挡区域的点对;计算前后光流的差值作为前后光流一致性掩膜,剔除前后光流误差大于阈值的点对;
1.3:基于对极距离计算几何掩膜;对步骤1.2得到的点对计算对极距离和对极几何距离,选择对极距离前20%小且对称对极距离前20%小的匹配点对;
1.4:基于步骤1.2和步骤1.3的掩膜筛选出的精确点对集合,从中随机采样8000对匹配用于位姿求解。
本发明使用了3种采样掩膜筛选精确的匹配点对,具体为:
1)使用遮挡掩膜识别被遮挡区域:
对于两张图像I1和I2,根据光流网络中得到的向后光流f21,可以反向计算I2中(x′,y′)到I1的像素对应位置
Figure BDA0003139092630000071
得到图
Figure BDA0003139092630000072
基于向后光流反向推导的
Figure BDA0003139092630000073
利用公式1对于I1中的每个像素位置(x,y)得到的像素进行计数得到V(x,y):
Figure BDA0003139092630000074
其中,W,H分别表示图像的宽和高,
Figure BDA0003139092630000075
Figure BDA0003139092630000076
则分别表示光流在x轴和y轴上的值。
将V(x,y)限制在0或1之间,即可得到遮挡掩膜Mocc,如公式2:
Mocc(x,y)=min(1,V(x,y)) 公式2
2)计算前后光流一致性掩膜
在理想情况下,对应像素的前后光流之和应该为0。当向前、向后光流存在较大误差时,说明可能存在遮挡、移动或者计算错误等多种问题。通过计算向前光流和向后光流的差异值,将前后光流误差大于给定阈值的点对剔除。
3)计算基于对极距离的几何掩膜
由于误差,点到极线的距离定义为对极距离,两张图像的对极距离之和记为对称对极距离;将得到光流中的所有对应像素计算其对极距离和对称对极距离,并从小到大进行排序,选择对极距离前20%小且对称对极距离前20%小的匹配点对。
深度估计是本发明的目的之一,深度估计网络训练过程中估计出的深度精度不够高,如果使用PnP和ICP求解出的位姿误差较大。因此,本发明基于筛选和采样后的匹配点对,使用对极几何求解位姿,具体包括如下步骤:
2.1:基于采样的8000点对,使用RANSAC算法和归一化八点法迭代求解基础矩阵;
2.2:对于步骤2.1中求解的基础矩阵,进行奇异值分解后得到4个位姿可能解,根据相机位置必须要在两张图像的视角之前的判断条件,从4个可能解中确定唯一的位姿解;
2.3:利用步骤2.2中求解的位姿,使用迭代线性三角化的方法得到一个稀疏的深度图Dt,对于三角化得到的Dt和深度估计网络得到的D,取Dt中深度值为中位数处的像素与D对应位置进行深度对齐,得到尺度因子s。因此,尺度对齐后深度估计网络部分的深度图Ds=sD;
2.4:在网络训练得到较可靠的深度图后,基于对极几何计算得到初始化位姿,当其平移量趋于0即特征共面时,基于RANSAC迭代和最小化重投影误差的PnP方法重新求解位姿,进行位姿优化。
本发明的深度估计网络部分的网络结构如图2所示,具体步骤为:
3.1:使用基于ImageNet数据集预训练的残差网络ResNet18,作为网络的编码器部分的初始化参数;
3.2:基于嵌入ECA通道注意力模块和自注意力机制的编码器,提取图像特征;
3.3:使用基于DispNet网络结构的解码器进行下采样操作,并输出逆深度图σ,而深度值与其成反比,通过D=1/(a+(b-a)σ)将其转化为深度值,a和b分别取值0.1和100将深度值限定在0.1m至100m以内;
3.4:使用求解的位姿作为网络的监督信号,对网络进行训练;训练时的损失函数不使用常见的光度误差,而是计算三角化得到的深度和深度估计网络得到并尺度对齐后的深度图之间的差值,并且计算重投影误差。
3.5:本发明在深度估计网络训练得到较可靠的深度图后,基于对极几何计算得到初始化位姿,当其平移量趋于0即特征共面时,使用PnP重新计算位姿进行位姿优化。
本发明步骤3所述的编码器中使用了ECA通道注意力模块和自注意力机制,具体为:
1)使用ECA通道注意力模块
将轻量级的ECA通道注意力模块嵌入到编码器基础网络ResNet18的每个残差块中,将其置于残差支路后、跳跃连接的相加操作前,得到新的残差块,原残差块和新残差块的对比如图3所示。
2)使用自注意力机制
自注意力机制计算了不同位置特征之间的相似度,来更好地提取图像的全局特征,以获取深度边界更清晰的深度图。将自注意力模块加在改进后的ResNet18的第三个下采样部分即第二个残差块后,计算不同位置的特征之间的相似度。图4给出了第三个下采样模块在经过自注意力模块前后的特征图对比,左图为嵌入自注意力前,右图为嵌入自注意力后。可以看出,经自注意力模块计算特征图各位置相似度后获取的特征图明显不同,且更能看出特征相似的区域,能较清晰区别出原图像物体的边界区域。
实施例
为了进一步展示本发明的实施效果,本实施使用开源的KITTI数据集进行实验验证。单目深度估计的实验部分使用了KITTI数据集中Raw数据中的左目彩色图像和深度信息,并基于相机标定文件获取相机内参。位姿估计实验部分使用了KITTI Odometry数据集,Odometry数据集中共有21个序列,其中00到10序列提供了位姿真实值。因此选择00到08序列作为训练集,在09和10序列上测试。
评价指标:
1)深度估计评价指标:使用通用的误差和精度作为评价指标,误差指标包括绝对相对误差(AbsRel)、平方相对误差(SqRel)、均方根误差(RMSE)、均方根误差(RMSE),误差值越小,则深度估计性能越优。精度(Accuracy)指标,所有像素的预测深度和真值的比值满足给定阈值的百分比,精度值越大,性能越优。
2)位姿估计评价指标:计算本发明在数据集某个序列的100m到800m长度上的平均平移均方根误差terr(%)和平均旋转均方根误差rerr(°/100m)。
实验1:本发明的不同模块对于深度估计的有效性验证
为了验证本发明提出的复合注意力模块、匹配采样掩膜和基于对极几何估计位姿等模块对于单目深度估计效果的提升,本实施例将本发明的几个模块进行了充分的对照实验。将复合注意力模块记为A,使用匹配采样掩膜机制定义为M,基于深度估计网络和对极几何的方法记为baseline,基于深度估计网络和PoseNet的方法简称为DPNet。进行消融实验,量化结果如表1。
从表中数据可以发现复合注意力模块、采样掩膜这两个部分都能够提高深度估计的性能,且两个模块叠加后的实验效果最佳。可以分析出,匹配采样掩膜模块直接关系到位姿估计的准确性,去除该模块会将位姿估计的误差叠加到深度估计中。
并对比DPNet和A-DPNet,在使用位姿子网络和深度子网络的结构中,即使用卷积网络来估计位姿而不使用传统几何方法,复合注意力模块也提高了深度估计的准确性,充分验证了本发明自注意力模块使用的有效性。
表1不同模块对于深度估计的有效性验证
Figure BDA0003139092630000101
实验2:单目深度估计的精度测试
本实施例将本发明与最近几年较先进的有监督和自监督单目深度估计方法都进行了对比,定量结果如表2所示。表2中D代表有监督深度估计方法,M代表自监督的单目深度估计,S代表自监督的双目深度估计算法。加粗表示每一类中的最优结果,下划线表示每一类中的次优结果。
表2与其他方法对比的深度估计结果
Figure BDA0003139092630000102
Figure BDA0003139092630000111
从表2可以看到,目前有监督的最先进方法在精度上仍领先于所有自监督方法,可见自监督方法仍存在较大的提升空间。但有监督方法强依赖于训练数据集,在未训练过的数据中泛化能力较弱。
表2中第二部分将本发明与其他自监督深度估计方法进行对比,例如自监督中的较先进方法Monodepth2,本发明提出的单目深度估计算法在误差和精度等多个指标上都取得了更好的结果。
同时,图5给出了在KITTI Raw数据的测试集上,本发明和较先进的SC-SfMLearner、Monodepth2这两个自监督方法得到的深度图对比。图5中方框表示本发明能够估计出原图像中对应远景或小物体的深度值,或者估计出更清晰的边界深度值。因此,本发明能更好地表示出物体的边界信息,同时也能有更好的深度图效果。
实验3:单目深度估计的泛化能力测试
本实施例测试了本发明在深度估计方面的泛化能力,使用了只在KITTI数据集上训练后的模型,在CityScapes数据集上进行深度估计的评测,其得到的结果图优于Monodepth2等其他方法,对比结果如图6所示,图6中可以看出,本发明预测得到的深度图依然有比Monodepth2更好的边界深度值,图中方框标注出了较清晰的边界深度。
实验4:本发明不同模块对位姿估计的有效性验证
本实施例对比了本发明中使用对极几何估计位姿的方法和使用PoseNet网络估计位姿方法的结果,其中PoseNet网络结构使用ResNet18作为基础网络。同时,还对匹配采样掩膜模块和网络训练后的PnP优化位姿模块这两个对位姿估计有提升的部分进行有效性验证。在数据集的序列09和10上得到的结果如表3所示。
表3本发明的不同模块对位姿估计误差的影响
Figure BDA0003139092630000121
表3中数据可以看出,本发明使用的位姿估计方法明显优于直接使用PoseNet网络估计位姿。因此,本发明使用的传统几何位姿求解方法比使用神经网络暴力估计位姿方法更加鲁棒。
对比表3中第2行和第4行数据,可看出:使用采样掩膜模块筛选出精确的匹配后,能更准确估计位姿。此外,使用PnP可以基于预测的深度图求解位姿来提升精度。由于对极几何在纯旋转、平移量较小的情况中较难适用,要想实现鲁棒、准确的位姿估计,只有对极几何显然不够,需要进一步使用PnP进行优化。
实验5:位姿估计的精度测试
本实施例将本发明分别与基于传统方法的单目视觉里程计ORB-SLAM2、其他较先进的自监督单目深度和位姿联合估计算法进行位姿估计的对比实验,得到在序列09和10上的测试结果,具体误差结果如表4所示。表4中(w/lc)表示ORB-SLAM2开启回环检测,(w/olc)表示ORB-SLAM2关闭回环检测。加粗表示该类最优结果。
表4本发明与其他方法的位姿估计误差对比
Figure BDA0003139092630000122
表4中第一组是本发明与ORB-SLAM2等传统方法的对比,可以看到,在09这种闭环的序列中,本发明的位姿估计误差明显小于关闭回环检测的ORB-SLAM2;但与经过回环检测后端优化后的ORB-SLAM2对比,本发明的平移误差和旋转误差仍较大。本发明取得的位姿估计结果与ORB-SLAM2基本接近。
表4中第二组是本发明与其他基于深度学习的自监督方法的对比(即深度与位姿通过两个网络联合估计得到的方法),本发明有最先进的结果。其他方法都使用位姿网络来估计位姿,对比本发明中使用的对极几何位姿求解方法,在连续估计位姿任务即视觉里程计中,本发明估计位姿时更加准确。
根据对比实验可以得出以下结论:
1)本发明的注意力模块和遮挡掩膜模块都能有效提升深度估计的精度;本发明能在基于KITTI数据集的单目深度估计中能取得先进的结果,且获得物体边缘更清晰的深度图;
2)本发明在位姿估计任务中表现优于其他基于深度学习的单目深度和位姿联合估计方法,且能取得和经典传统方法ORB-SLAM2(无闭环检测)接近的精度结果。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (4)

1.一种基于对极几何的单目深度和位姿联合估计方法,其特征在于包括以下步骤:
步骤1:获取和筛选匹配点对
基于光流网络以无监督训练的方式获取向前和向后光流,得到每两帧图像的稠密匹配点对;在获取稠密匹配点对后,剔除遮挡、动态物体和误匹配,筛选并采样出精确的匹配点对用于位姿求解;
所述剔除遮挡、动态物体和误匹配,为使用3种掩膜剔除遮挡、动态物体和误匹配,具体包括如下步骤:
1)使用遮挡掩膜识别被遮挡区域
对于两张图像I1和I2,根据RAFT光流网络中获取的向后光流f21,反向计算I2中(x′,y′)到I1的像素对应位置
Figure FDA0003648133550000011
得到图
Figure FDA0003648133550000012
基于向后光流反向推导的
Figure FDA0003648133550000013
利用公式1对于I1中的每个像素位置(x,y)得到的像素进行计数得到V(x,y):
Figure FDA0003648133550000014
其中,W,H分别表示图像的宽和高,
Figure FDA0003648133550000015
Figure FDA0003648133550000016
则分别表示光流在x轴和y轴上的值;
将V(x,y)限制在0或1之间,即得到遮挡掩膜Mocc,如公式2:
Mocc(x,y)=min(1,V(x,y)) 公式2
2)计算前后光流一致性掩膜
在理想情况下,对应像素的前后光流之和应该为0,计算向前光流和向后光流之间的差异值,将前后光流误差大于阈值的点对剔除;
3)基于对极距离的几何掩膜
由于误差,点到极线的距离定义为对极距离,两张图像的对极距离之和记为对称对极距离;将所有对应点对分别计算其对极距离和对称对极距离,并从小到大进行排序,选择出对极距离前20%小且对称对极距离前20%小的匹配点对作为精确的匹配点对用于位姿求解;
步骤2:基于对极几何求解位姿
利用步骤1筛选和采样出的匹配点对,基于对极几何使用RANSAC算法求解基础矩阵,对其进行奇异值分解并从中选择出最佳位姿解;基于三角化获取一个稀疏深度图;
所述的步骤2具体包括如下步骤:
2.1:基于步骤1获取的匹配点对,使用RANSAC算法和归一化八点法迭代求解基础矩阵;
2.2:对于步骤2.1中求解的基础矩阵,进行奇异值分解后得到4个位姿可能解,根据相机位置必须要在两张图像的视角之前的判断条件,从4个可能解中确定唯一的位姿解;
2.3:利用步骤2.2中求解的位姿,使用迭代线性三角化的方法得到一个稀疏的深度图,并将三角化得到的深度图与深度估计网络估计出的深度图进行尺度对齐;
步骤3:深度估计网络
使用编码器—解码器的卷积网络结构并结合注意力机制,构建深度估计网络;在编码器部分使用ResNet18作为基础网络,并嵌入了ECA通道注意力模块和自注意力模块;基于求解出的位姿用于监督网络的训练,损失函数中计算了深度估计网络得到的深度图和三角化得到的深度之间的差值,并计算了重投影误差;在深度估计网络训练后,使用PnP优化位姿的估计。
2.根据权利要求1所述的基于对极几何的单目深度和位姿联合估计方法,其特征在于,步骤3所述的编码器中使用了ECA通道注意力模块和自注意力机制,具体为:
1)使用ECA通道注意力模块
将轻量级的ECA通道注意力模块嵌入到编码器基础网络ResNet18的每个残差块中;将其置于残差支路后、跳跃连接的相加操作前,得到新的残差块;
2)使用自注意力机制
将自注意力模块加在步骤1)改进后的ResNet18的第三个下采样部分即第二个残差块后,计算不同位置的特征之间的相似度。
3.根据权利要求1所述的基于对极几何的单目深度和位姿联合估计方法,其特征在于,所述的步骤1具体为:
1.1:基于RAFT的光流网络结构提取图像特征并使用GRU模块迭代估计向前、向后光流,使用无监督的方法训练光流网络来获取稠密的匹配点对;
1.2:基于步骤1.1的光流网络中估计的向前、向后光流,计算遮挡掩膜,剔除被遮挡区域的点对;计算前后光流的差值作为前后光流一致性掩膜,剔除前后光流误差大于阈值的点对;
1.3:基于对极距离计算几何掩膜;对步骤1.2得到的点对计算对极距离和对极几何距离,选择对极距离前20%小且对称对极距离前20%小的匹配点对;
1.4:基于步骤1.2和步骤1.3的掩膜筛选出的精确点对集合,从中随机采样匹配点对用于位姿求解。
4.根据权利要求1所述的基于对极几何的单目深度和位姿联合估计方法,其特征在于,所述的步骤3具体包括如下步骤:
3.1:使用基于ImageNet数据集预训练的残差网络ResNet18,作为网络的编码器部分的初始化参数;
3.2:基于嵌入ECA通道注意力模块和自注意力机制的编码器,来提取图像特征;
3.3:使用基于DispNet网络结构的解码器进行下采样操作,输出逆深度图,根据反比关系将其转化为深度图;
3.4:使用步骤2中得到的位姿作为网络的监督信号,对深度估计网络进行训练;训练时的损失函数计算了深度估计网络得到的深度图和步骤2中三角化得到的深度之间的差值,并且计算了重投影误差;
3.5:在深度估计网络训练得到较可靠的深度图后,基于对极几何计算得到初始化位姿,当其平移量趋于0即特征共面时,使用PnP重新计算位姿进行位姿优化。
CN202110727147.0A 2021-06-29 2021-06-29 一种基于对极几何的单目深度和位姿联合估计方法 Active CN113450410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110727147.0A CN113450410B (zh) 2021-06-29 2021-06-29 一种基于对极几何的单目深度和位姿联合估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110727147.0A CN113450410B (zh) 2021-06-29 2021-06-29 一种基于对极几何的单目深度和位姿联合估计方法

Publications (2)

Publication Number Publication Date
CN113450410A CN113450410A (zh) 2021-09-28
CN113450410B true CN113450410B (zh) 2022-07-26

Family

ID=77813883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110727147.0A Active CN113450410B (zh) 2021-06-29 2021-06-29 一种基于对极几何的单目深度和位姿联合估计方法

Country Status (1)

Country Link
CN (1) CN113450410B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170304B (zh) * 2021-11-04 2023-01-03 西安理工大学 一种基于多头自注意力和置换注意力的相机定位方法
CN114399527A (zh) * 2022-01-04 2022-04-26 北京理工大学 单目内窥镜无监督深度和运动估计的方法及装置
CN114627317A (zh) * 2022-02-25 2022-06-14 桂林电子科技大学 一种基于稀疏特征匹配点对的相机相对定向深度学习方法
CN114972182A (zh) * 2022-04-15 2022-08-30 华为技术有限公司 一种物体检测方法及其装置
CN114998411B (zh) * 2022-04-29 2024-01-09 中国科学院上海微系统与信息技术研究所 结合时空增强光度损失的自监督单目深度估计方法和装置
CN114937083B (zh) * 2022-05-27 2024-04-02 山东大学 一种应用于动态环境的激光slam系统及方法
CN115115685A (zh) * 2022-06-07 2022-09-27 南京邮电大学 一种基于自注意力神经网络的单目图像深度估计算法
CN115330874B (zh) * 2022-09-02 2023-05-16 中国矿业大学 基于超像素处理遮挡的单目深度估计方法
WO2024098240A1 (zh) * 2022-11-08 2024-05-16 中国科学院深圳先进技术研究院 一种消化内镜视觉重建导航系统及方法
FR3147647A1 (fr) * 2023-04-04 2024-10-11 Psa Automobiles Sa Procédé et dispositif de détermination d’un masque de visibilité par un système de vision embarqué dans un véhicule.
CN117765040A (zh) * 2023-12-22 2024-03-26 中国人民解放军国防科技大学 一种无监督rgb-d点云配准方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN111145255A (zh) * 2019-12-27 2020-05-12 浙江省北大信息技术高等研究院 一种结合深度学习和几何优化的位姿计算方法和系统
CN111325797A (zh) * 2020-03-03 2020-06-23 华东理工大学 一种基于自监督学习的位姿估计方法
CN111739078A (zh) * 2020-06-15 2020-10-02 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法
CN112258600A (zh) * 2020-10-19 2021-01-22 浙江大学 一种基于视觉与激光雷达的同时定位与地图构建方法
CN112562001A (zh) * 2020-12-28 2021-03-26 中山大学 一种物体6d位姿估计方法、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783618B2 (en) * 2016-05-05 2020-09-22 Digimarc Corporation Compensating for geometric distortion of images in constrained processing environments
CN108062776B (zh) * 2018-01-03 2019-05-24 百度在线网络技术(北京)有限公司 相机姿态跟踪方法和装置
CN108416840B (zh) * 2018-03-14 2020-02-18 大连理工大学 一种基于单目相机的三维场景稠密重建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN111145255A (zh) * 2019-12-27 2020-05-12 浙江省北大信息技术高等研究院 一种结合深度学习和几何优化的位姿计算方法和系统
CN111325797A (zh) * 2020-03-03 2020-06-23 华东理工大学 一种基于自监督学习的位姿估计方法
CN111739078A (zh) * 2020-06-15 2020-10-02 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法
CN112258600A (zh) * 2020-10-19 2021-01-22 浙江大学 一种基于视觉与激光雷达的同时定位与地图构建方法
CN112562001A (zh) * 2020-12-28 2021-03-26 中山大学 一种物体6d位姿估计方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints;You-Yi Jau 等;《2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)》;20210124;1950-1957 *
Robust Bilayer Segmentation and Motion/Depth Estimation with a Handheld Camera;Guofeng Zhang 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20100607;第33卷(第3期);603-617 *

Also Published As

Publication number Publication date
CN113450410A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN113450410B (zh) 一种基于对极几何的单目深度和位姿联合估计方法
CN110569704B (zh) 一种基于立体视觉的多策略自适应车道线检测方法
CN111815757B (zh) 基于图像序列的大型构件三维重建方法
Revaud et al. Epicflow: Edge-preserving interpolation of correspondences for optical flow
Zhang et al. Integrated 3D scene flow and structure recovery from multiview image sequences
CN110490928A (zh) 一种基于深度神经网络的相机姿态估计方法
Luo et al. Multi-view hair capture using orientation fields
CN109242959B (zh) 三维场景重建方法及系统
CN106910242A (zh) 基于深度相机进行室内完整场景三维重建的方法及系统
CN111724439A (zh) 一种动态场景下的视觉定位方法及装置
CN104318561A (zh) 基于双目立体视觉与光流融合的车辆运动信息检测方法
CN105513083B (zh) 一种ptam摄像机跟踪方法及装置
Yuan et al. SDV-LOAM: semi-direct visual–LiDAR Odometry and mapping
Basha et al. Structure and motion from scene registration
CN111105451B (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
CN111127556B (zh) 基于3d视觉的目标物体识别和位姿估算方法以及装置
Ramirez et al. Open challenges in deep stereo: the booster dataset
CN106534833A (zh) 一种联合空间时间轴的双视点立体视频稳定方法
CN116563916A (zh) 基于注意力融合的循环人脸超分辨率方法及系统
Nouduri et al. Deep realistic novel view generation for city-scale aerial images
Sun et al. Robust, efficient depth reconstruction with hierarchical confidence-based matching
Khan et al. Towards monocular neural facial depth estimation: Past, present, and future
Zhang et al. A Robust Multi‐View System for High‐Fidelity Human Body Shape Reconstruction
CN115330874A (zh) 基于超像素处理遮挡的单目深度估计方法
Wei et al. Dense and occlusion-robust multi-view stereo for unstructured videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant