CN113436254B - 一种级联解耦的位姿估计方法 - Google Patents

一种级联解耦的位姿估计方法 Download PDF

Info

Publication number
CN113436254B
CN113436254B CN202110725433.3A CN202110725433A CN113436254B CN 113436254 B CN113436254 B CN 113436254B CN 202110725433 A CN202110725433 A CN 202110725433A CN 113436254 B CN113436254 B CN 113436254B
Authority
CN
China
Prior art keywords
loss
network
pose
decoupling
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110725433.3A
Other languages
English (en)
Other versions
CN113436254A (zh
Inventor
周文晖
孙煨
郎巍
王威盛
闫正茂
张桦
吴以凡
戴国骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huali Intelligent Equipment Co ltd
Hangzhou Dianzi University
Original Assignee
Zhejiang Huali Intelligent Equipment Co ltd
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huali Intelligent Equipment Co ltd, Hangzhou Dianzi University filed Critical Zhejiang Huali Intelligent Equipment Co ltd
Priority to CN202110725433.3A priority Critical patent/CN113436254B/zh
Publication of CN113436254A publication Critical patent/CN113436254A/zh
Application granted granted Critical
Publication of CN113436254B publication Critical patent/CN113436254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种级联解耦的位姿估计方法。首先基于位姿解耦公式,设计级联解耦位姿估计网络;然后设计基于级联解耦位姿估计的迭代网络;最后定义级联解耦位姿估计网络和基于级联解耦位姿估计的迭代网络的损失函数。本发明从相机位姿估计的级联解耦结构设计开始,首先提出了一种位姿级联解耦估计网络和位姿级联解耦优化网络,之后又提出了一种基于级联解耦位姿估计的迭代网络,以实现更高精度的位姿估计;最后将其扩展到无监督单目视觉里程计,实现相邻帧间相机位姿的旋转矩阵和平移矩阵解耦估计,得到更高精度的结果。

Description

一种级联解耦的位姿估计方法
技术领域
本发明属于深度学习与计算机视觉领域,特别涉及了一种级联解耦的位姿估计网络。
背景技术
来自图像序列的相机自运动估计或视觉里程计(Visual Odometry)因其在许多视觉任务中的关键作用而引起了研究人员的极大关注。在过去的二十年中,基于多视图几何理论的传统方法在条件良好的环境中表现出了极佳的性能,然而,它们的性能和鲁棒性很容易受到无纹理区域或图像质量低的影响。此外,传统方法由于复杂的计算使得在优化方面也不占优势。
随着深度神经网络(DNN)的快速发展,基于学习的相机自运动估计方法近年来取得了重大进展。它们通常利用基于卷积神经网络(CNN)的相机位姿预测模块来预测相邻帧之间的相机位姿。它们中的大多数方法都是有监督学习的网络。受益于DNN的学习能力,这些方法与传统方法相比,实验结果已经大幅提升。然而,有监督学习的性能在很大程度上取决于可用Ground Truth的数量和质量。
无监督方法可以有效地避免Ground Truth的限制。无监督方法的原理是利用相邻帧之间三维投影的光度一致性作为自运动学习的监督信号,而不是直接用真实相机位姿训练网络。由于缺少Ground Truth的引导,无监督方法的结果远不如有监督方法准确。为了提高无监督位姿估计的准确性,现有方法通常侧重于具有回环优化的各种长短期序列学习方案,而忽略了位姿估计网络的改进。因此,针对位姿估计网络本身,提出一种高精度位姿的网络是十分必要的。
此外,亮度一致性约束普遍应用于视觉里程计中,可以用于判断图像之间的亮度差异,刚性流图可以描述静止物体的差异,但是由于图像中普遍存在着运动对象,刚体流图无法正确描述运动对象的像素点变换关系,这会对图像之间的亮度一致性差异造成影响。目前大多数方法通过掩膜将遮挡区域排除在亮度一致性约束之外。
平移估计网络T-Net和旋转估计网络R-Net采用了Lili Lin,Weisheng Wangetc.Unsupervised monocular visual odometry with decoupled camera poseestimation.中的结构。
Yang Wang,Peng Wang.UnOS:Unified Unsupervised Optical-flow andStereo-depth Estimation by Watching Videos.2019。
发明内容
针对现有技术中存在的不足,本发明提供了一种级联解耦的位姿估计方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:基于位姿解耦公式,设计级联解耦位姿估计网络;
步骤S2:设计基于级联解耦位姿估计的迭代网络;
步骤S3:定义级联解耦位姿估计网络和基于级联解耦位姿估计的迭代网络的损失函数;
本发明有益效果如下:
本发明从相机位姿估计的级联解耦结构设计开始,首先提出了一种位姿级联解耦估计网络和位姿级联解耦优化网络,之后又提出了一种基于级联解耦位姿估计的迭代网络,以实现更高精度的位姿估计;最后将其扩展到无监督单目视觉里程计,实现相邻帧间相机位姿的旋转矩阵和平移矩阵解耦估计,得到更高精度的结果;
附图说明
图1为级联解耦位姿估计网络框图;
图2为基于级联解耦位姿估计的迭代网络框图;
图3为迭代网络中的级联解耦优化结构框图;
图4为本发明的主要步骤流程示意图。
具体实施方式
以下结合附图与实施例对本发明方案进行进一步描述。
如图4所示,一种级联解耦的位姿估计方法,步骤如下:
所述步骤S1基于位姿解耦公式,设计级联解耦位姿估计网络,具体方法如下:
所述的位姿解耦公式具体表述为:
对于相邻两帧图像Ig和Is,场景点在图像Ig上的投影像素点为pg,在图像Is上的投影像素点为ps,根据相机内参矩阵K、相机位姿矩阵Pg→s、像素点pg在相机坐标系下的深度值zg和像素点ps在相机坐标系下的深度值zs,像素点pg和像素点ps满足刚性运动的投影公式,具体为:
Figure BDA0003138436460000031
其中Pg→s为相机从第g帧到第s帧的相机位姿矩阵,Pg→s由一个3×3的旋转矩阵R和一个3×1的平移矩阵T组成,它能够转化为解耦平移矩阵和解耦旋转矩阵的级联相乘,具体为:
Figure BDA0003138436460000032
其中,
Figure BDA0003138436460000033
其中,PT为4×4的解耦平移矩阵,PR为4×4的解耦旋转矩阵,E3×3为3×3的单位矩阵。
将公式(1)代入公式(2)可得:
Figure BDA0003138436460000034
根据公式(4),能够得到像素点pg和像素点ps的级联相乘的公式:
Figure BDA0003138436460000041
其中公式(4)的第一行为解耦平移矩阵PT的投影公式,公式(4)的第二行为解耦旋转矩阵PR的投影公式。公式(4)称为位姿解耦估计公式,将相机位姿矩阵Pg→s估计分解为解耦平移矩阵PT和解耦旋转矩阵PR的级联估计。
所述的级联解耦位姿估计网络(DecoupledPoseNet)包括四个子网络,分别是平移估计网络T-Net、平移优化网络T-RefineNet、旋转估计网络R-Net和旋转优化网络R-RefineNet。其中T-Net和R-Net的结构采用了Lili Lin,Weisheng Wang etc.Unsupervisedmonocular visual odometry with decoupled camera pose estimation.中的结构,为现有成熟技术。T-RefineNet和R-RefineNet分别与T-Net和R-Net的结构相同。
级联解耦位姿估计网络(DecoupledPoseNet)的具体结构如图1所示,它的具体表述为:
在公式(2)的基础上,对旋转矩阵和平移矩阵进一步优化,公式如下所示:
Figure BDA0003138436460000042
其中,
Figure BDA0003138436460000043
将公式(6)代入公式(1),将公式(1)划分成四个级联部分,然后设计一个级联解耦位姿估计网络,即DecoupledPoseNet。它的网络输入为连续两帧的左相机图像It和It+1,输出为t时刻相对于t+1时刻的相机位姿Pt→t+1,为了得到更加准确的结果,这里同时输出了一个中间结果Pt'→t+1,并且:
Figure BDA0003138436460000051
所述步骤S2设计基于级联解耦位姿估计的迭代网络,具体方法如下:
所述的基于级联解耦位姿估计的迭代网络包括一个视差估计网络(UnDispNet),一个光流估计网络(UnFlowNet)和一个级联解耦的位姿迭代网络(DecoupledPoseNet_1&DecoupledPoseNet_2),通过视差估计网络(UnDispNet)和光流估计网络(UnFlowNet)的输出结果得到用于处理图像中的运动对象的掩膜。步骤S2的结构如图2所示。
所述的视差估计网络(UnDispNet)和光流估计网络(UnFlowNet)采用了与UnOS中DispNet和FlowNet相同的网络结构;
所述的视差估计网络(UnDispNet)的结构为一个包含了编码子网和解码子网的U型网络;编码子网的输入为连续两帧的左相机图像It和It+1,通过卷积和下采样提取深层特征信息;解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到连续两帧的视差图dt和dt+1。对于视差图d,u为图像空间的水平方向坐标,v为图像空间的垂直方向坐标,则像素点(u,v)的视差值为d(u,v),其深度值z的计算公式为:
Figure BDA0003138436460000052
其中B为车载双目立体相机的基线,f为车载双目立体相机的焦距。
所述的光流估计网络(UnFlowNet)的结构为一个包含了编码子网和解码子网的U型网络;编码子网由六层光流特征抽取层构成,每一层的光流特征抽取层是由一个步长为2,大小为3×3的卷积核和一个步长为1,大小为4×4的卷积核以及两个Leaky ReLU激活函数构成。光流特征抽取层的第一层是步长为2的卷积层,其作用是特征信息抽取和降采样作用,第二层是步长为1的卷积层,其作用为了对降采样后的特征块信息作细化处理。每一张图像经过六层光流特征抽取层处理获得一个六层的特征金字塔。编码子网的输入是连续两帧的左相机图像It和It+1,输出是两帧的特征金字塔。
解码子网利用六层光流特征金字塔结构逐级优化光流,使用了由粗到细(Fromcoarse to fine)的方式来优化光流结果。解码子网能够拆分为六层子网络结构,每层子网络结构中包含了图像特征代价空间生成器和光流估计网络。第一层子网络用来获取初始小尺寸光流图,第二层至第六层逐级扩大光流图尺寸,并以残差形式优化光流图。
所述的用于处理图像中的运动对象的掩膜具体表述为:
t+1时刻的图像It+1通过warp(可微分双线性插值,为成熟技术)得到t时刻的合成图像。图像It和It+1之间存在遮挡区域,遮挡区域会导致合成图无法和原图像It保持一致。根据视差估计网络(UnDispNet)输出的视差图和相机位姿能够获得图像It和It+1之间对应的刚性流图,刚性流图能够描述图像It中静态对象区域和图像It+1中对应区域的像素位移。由于刚性流图无法正确描述运动对象的像素点变换关系,通过刚性流获得的合成图无法正确表示运动对象区域。因此,针对运动对象,使用反向光流图生成光流遮挡图用来解决运动对象导致的遮挡区域在原图上不一致的问题。
首先根据光流估计网络(UnFlowNet)得到光流图,然后通过刚性流图和光流图进行差异比较,得到运动对象区域掩膜。首先,比较获取的刚性流和光流的差异获得Fdiff,具体公式为:
Figure BDA0003138436460000061
其中
Figure BDA0003138436460000071
Figure BDA0003138436460000072
分别表示x轴和y轴上的光流,
Figure BDA0003138436460000073
Figure BDA0003138436460000074
分别表示x轴和y轴上的刚性流。Fdiff中大于阈值的区域表示刚性流和光流不一致的区域,Fdiff中小于阈值的区域表示刚性流和光流一致的区域。Fdiff在阈值λdiff下进行二值化,得到的二值化图Mdiff分成一致区域和非一致区域,具体公式为:
Figure BDA0003138436460000075
Mregion是二值化后的遮挡掩膜图,其为了将Mdiff中错误的掩盖区域去除,使得Mmotion仅包含了非刚体部分的二值化运动分割掩膜,具体公式为:
Figure BDA0003138436460000076
Figure BDA0003138436460000077
所述的基于级联解耦的位姿迭代网络(DecoupledPoseNet_1&DecoupledPoseNet_2)的具体表述为:
基于级联解耦的位姿迭代网络包括级联解耦优化结构DecoupledPoseNet_1和级联解耦优化结构DecoupledPoseNet_2,这两个结构与上述的DecoupledPoseNet结构相同,它们的结构如图3所示。为了叙述方便,此处采用step1和step2代替。通过step1结构和step2结构获得四个相机位姿。通过step1结构获得
Figure BDA0003138436460000078
Figure BDA0003138436460000079
两个相机位姿,此处将
Figure BDA00031384364600000710
记为
Figure BDA00031384364600000711
Figure BDA00031384364600000712
记为
Figure BDA00031384364600000713
step2结构将step1结构得到的相机位姿
Figure BDA00031384364600000714
作为输入,获得
Figure BDA00031384364600000715
Figure BDA00031384364600000716
两个相机位姿,此处将
Figure BDA00031384364600000717
记为
Figure BDA00031384364600000718
Figure BDA00031384364600000719
记为
Figure BDA00031384364600000720
所述的步骤S3定义级联解耦位姿估计网络和基于级联解耦位姿估计的迭代网络的损失函数,具体方法如下:
所述的级联解耦位姿估计网络结构的损失Ltotal包括光流损失Lflow、双目视差损失Ldisparity、刚体一致性损失Lrigid,具体公式为:
Ltotal=λfLflowdLdisparityrLrigid (14)
其中λf、λd和λr为权重,用于调整不同损失在整个损失函数中的作用。
所述的光流损失Lflow,表示为光流图与原图的光流亮度一致性损失,具体公式为:
Figure BDA0003138436460000081
其中β为权重;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为现有成熟方法;||·||1为计算L1距离,Warp为可微分双线性插值方法,为现有成熟方法。
所述的双目视差损失Ldisparity由三个约束条件组成:图像亮度一致性损失Lp,视差图几何一致性损失Lg,视差边缘感知平滑损失Ls,具体公式为:
Ldisparity=λ1Lp2Lg3Ls (16)
其中λ1=λ3=1,λ2=10。
所述的相机的亮度一致性损失Lp,级联解耦优化结构能够获得PΔTPTPR和PΔTPTPRPΔR两个位姿变换,具体公式为:
Figure BDA0003138436460000082
所述的视差图几何一致性损失Lg,是比较左右视差图之间的视差值差异,其先对右视差图Dr使用Warp操作获得合成视差图
Figure BDA0003138436460000091
通过
Figure BDA0003138436460000092
和左视差图Dl相加后计算L1距离,来计算双目视差的差异,具体公式为:
Figure BDA0003138436460000093
所述的视差边缘感知平滑损失Ls,具体公式为:
Figure BDA0003138436460000094
所述的基于级联解耦位姿估计的迭代网络的损失函数由多视点损失Lmulti、双目视差损失Ldisparity、光流损失Loptical组成,具体公式为:
Ltotal=Loptical+Ldisparity+Lmulti (20)
其中双目视差损失Ldisparity与上述的基于无监督学习的级联解耦位姿估计网络结构的双目视差损失一致。
所述的多视点损失Lmulti具体公式为:
Lmulti=LTTR,step1+LTTRR,step1+LTTR,step2+LTTRR,step2 (21)
其中LTTR,step1是针对
Figure BDA0003138436460000095
的多视点亮度一致性损失,LTTRR,step1是针对
Figure BDA0003138436460000096
的多视点亮度一致性损失,LTTR,step2是针对
Figure BDA0003138436460000097
的多视点亮度一致性损失,LTTRR,step2是针对
Figure BDA0003138436460000098
的多视点亮度一致性损失。由于在多视点亮度一致性损失中,运动对象掩膜Mregion能够将运动对象排除在多视点亮度一致性损失之外,并且四个位姿
Figure BDA0003138436460000099
都需要加入到亮度一致性约束中,其具体公式为:
Figure BDA0003138436460000101
其中λTTR和λTTRR都是超参数,它们的值分别是0.4和0.6,Moccu·Mmotion作用于多视点的亮度一致性损失,
Figure BDA0003138436460000102
是由
Figure BDA0003138436460000103
Figure BDA0003138436460000104
经过视点合成生成的合成图。
所述的光流损失Loptical,由于引入了运动对象掩膜,针对刚性区域使用了光流和刚性流一致性损失Lconsistent,在非刚性区域使用了边缘感知平滑损失Lsmooth,光流的损失公式具体为:
Loptical=Limage+Lconsistent+Lsmooth (23)
其中Limage为光流的亮度一致性损失,它的计算公式为:
Figure BDA0003138436460000105
其中
Figure BDA0003138436460000106
为图片Warp操作后的合成图,它的计算公式为:
Figure BDA0003138436460000107
其中Dl为像素点的视差值。
所述的光流和刚性流一致性损失Lconsistent,刚性流通过视差图和相机位姿能够获得刚性区域对应像素运动,并且其刚性区域的精度高于光流,但是刚性流无法描述非刚体区域的像素位置变化。因此使用运动对象掩膜将运动对象排除在光流和刚性流一致性约束之外。光流与刚性流一致性损失的公式如下所示:
Figure BDA0003138436460000108
所述的边缘感知平滑损失Lsmooth,亮度一致性约束中存在模糊性和任意性问题,而边缘感知平滑约束基于来自边缘检测的边缘图梯度,能够提高边缘感知的平滑度,并且比像素级约束具有更强的语义性。光流的边缘感知平滑损失能够提高光流估计的准确率,也使得光流图在边缘部分与场景中的边缘轮廓一致。由于边缘的模糊性主要来源于运动对象,因此只对运动对象区域使用了边缘感知平滑约束,对应公式如下所示:
Figure BDA0003138436460000111
进一步的,步骤3中的λf=λd=λr=1,β为0.8。

Claims (3)

1.一种级联解耦的位姿估计方法,其特征在于,包括如下步骤:
步骤S1:基于位姿解耦公式,设计级联解耦位姿估计网络;
步骤S2:设计基于级联解耦位姿估计的迭代网络;
步骤S3:定义级联解耦位姿估计网络和基于级联解耦位姿估计的迭代网络的损失函数;
所述步骤S1具体方法如下:
所述的位姿解耦公式具体表述为:
对于相邻两帧图像Ig和Is,场景点在图像Ig上的投影像素点为pg,在图像Is上的投影像素点为ps,根据相机内参矩阵K、相机位姿矩阵Pg→s、像素点pg在相机坐标系下的深度值zg和像素点ps在相机坐标系下的深度值zs,像素点pg和像素点ps满足刚性运动的投影公式,具体为:
Figure FDA0003620730210000011
其中Pg→s为相机从第g帧到第s帧的相机位姿矩阵,Pg→s由一个3×3的旋转矩阵R和一个3×1的平移矩阵T组成,它能够转化为解耦平移矩阵和解耦旋转矩阵的级联相乘,具体为:
Figure FDA0003620730210000012
其中,
Figure FDA0003620730210000013
其中,PT为4×4的解耦平移矩阵,PR为4×4的解耦旋转矩阵,E3×3为3×3的单位矩阵;
将公式(1)代入公式(2)可得:
Figure FDA0003620730210000021
根据公式(4),能够得到像素点pg和像素点ps的级联相乘的公式:
Figure FDA0003620730210000022
其中公式(5)的第一行为解耦平移矩阵PT的投影公式,公式(5)的第二行为解耦旋转矩阵PR的投影公式;公式(5)称为位姿解耦估计公式,将相机位姿矩阵Pg→s估计分解为解耦平移矩阵PT和解耦旋转矩阵PR的级联估计;
所述的级联解耦位姿估计网络包括四个子网络,分别是平移估计网络T-Net、平移优化网络T-RefineNet、旋转估计网络R-Net和旋转优化网络R-RefineNet;T-RefineNet和R-RefineNet分别与T-Net和R-Net的结构相同;
级联解耦位姿估计网络的具体表述为:
在公式(2)的基础上,对旋转矩阵和平移矩阵进一步优化,公式如下所示:
Figure FDA0003620730210000023
其中,
Figure FDA0003620730210000024
将公式(6)代入公式(1),将公式(1)划分成四个级联部分,然后设计一个级联解耦位姿估计网络,即DecoupledPoseNet;它的网络输入为连续两帧的左相机图像It和It+1,输出为t时刻相对于t+1时刻的相机位姿Pt→t+1,为了得到更加准确的结果,这里同时输出了一个中间结果P′t→t+1,并且:
Figure FDA0003620730210000031
所述步骤S2具体方法如下:
所述的基于级联解耦位姿估计的迭代网络包括一个视差估计网络UnDispNet,一个光流估计网络UnFlowNet和一个级联解耦的位姿迭代网络DecoupledPoseNet_1&DecoupledPoseNet_2,通过视差估计网络UnDispNet和光流估计网络UnFlowNet的输出结果得到用于处理图像中的运动对象的掩膜;
所述的视差估计网络UnDispNet和光流估计网络UnFlowNet采用了与UnOS中DispNet和FlowNet相同的网络结构;
所述的视差估计网络UnDispNet的结构为一个包含了编码子网和解码子网的U型网络;编码子网的输入为连续两帧的左相机图像It和It+1,通过卷积和下采样提取深层特征信息;解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到连续两帧的视差图dt和dt+1;对于视差图d,u为图像空间的水平方向坐标,v为图像空间的垂直方向坐标,则像素点(u,v)的视差值为d(u,v),其深度值z的计算公式为:
Figure FDA0003620730210000032
其中B为车载双目立体相机的基线,f为车载双目立体相机的焦距;
所述的光流估计网络的结构为一个包含了编码子网和解码子网的U型网络;编码子网由六层光流特征抽取层构成,每一层的光流特征抽取层是由一个步长为2,大小为3×3的卷积核和一个步长为1,大小为4×4的卷积核以及两个Leaky ReLU激活函数构成;光流特征抽取层的第一层是步长为2的卷积层,其作用是特征信息抽取和降采样作用,第二层是步长为1的卷积层,其作用为了对降采样后的特征块信息作细化处理;每一张图像经过六层光流特征抽取层处理获得一个六层的特征金字塔;编码子网的输入是连续两帧的左相机图像It和It+1,输出是两帧的特征金字塔;
解码子网利用六层光流特征金字塔结构逐级优化光流,使用了由粗到细(From coarseto fine)的方式来优化光流结果;解码子网能够拆分为六层子网络结构,每层子网络结构中包含了图像特征代价空间生成器和光流估计网络;第一层子网络用来获取初始小尺寸光流图,第二层至第六层逐级扩大光流图尺寸,并以残差形式优化光流图;
所述的用于处理图像中的运动对象的掩膜具体表述为:
t+1时刻的图像It+1通过warp得到t时刻的合成图像;图像It和It+1之间存在遮挡区域,遮挡区域会导致合成图无法和原图像It保持一致;根据视差估计网络输出的视差图和相机位姿能够获得图像It和It+1之间对应的刚性流图,刚性流图能够描述图像It中静态对象区域和图像It+1中对应区域的像素位移;由于刚性流图无法正确描述运动对象的像素点变换关系,通过刚性流获得的合成图无法正确表示运动对象区域;因此,针对运动对象,使用反向光流图生成光流遮挡图用来解决运动对象导致的遮挡区域在原图上不一致的问题;
首先根据光流估计网络UnFlowNet得到光流图,然后通过刚性流图和光流图进行差异比较,得到运动对象区域掩膜;首先,比较获取的刚性流和光流的差异获得Fdiff,具体公式为:
Figure FDA0003620730210000041
其中
Figure FDA0003620730210000042
Figure FDA0003620730210000043
分别表示x轴和y轴上的光流,
Figure FDA0003620730210000044
Figure FDA0003620730210000051
分别表示x轴和y轴上的刚性流;Fdiff中大于阈值的区域表示刚性流和光流不一致的区域,Fdiff中小于阈值的区域表示刚性流和光流一致的区域;Fdiff在阈值λdiff下进行二值化,得到的二值化图Mdiff分成一致区域和非一致区域,具体公式为:
Figure FDA0003620730210000052
Mregion是二值化后的遮挡掩膜图,其为了将Mdiff中错误的掩盖区域去除,使得Mmotion仅包含了非刚体部分的二值化运动分割掩膜,具体公式为:
Figure FDA0003620730210000053
Figure FDA0003620730210000054
所述的基于级联解耦的位姿迭代网络DecoupledPoseNet_1&DecoupledPoseNet_2的具体表述为:
基于级联解耦的位姿迭代网络包括级联解耦优化结构DecoupledPoseNet_1和级联解耦优化结构DecoupledPoseNet_2,这两个结构与上述的DecoupledPoseNet结构相同;为了叙述方便,此处采用step1和step2代替;通过step1结构和step2结构获得四个相机位姿;通过step1结构获得
Figure FDA0003620730210000055
Figure FDA0003620730210000056
两个相机位姿,此处将
Figure FDA0003620730210000057
记为
Figure FDA0003620730210000058
Figure FDA0003620730210000059
记为
Figure FDA00036207302100000510
step2结构将step1结构得到的相机位姿
Figure FDA00036207302100000511
作为输入,获得
Figure FDA00036207302100000512
Figure FDA00036207302100000513
两个相机位姿,此处将
Figure FDA00036207302100000514
记为
Figure FDA00036207302100000515
Figure FDA00036207302100000516
记为
Figure FDA00036207302100000517
2.根据权利要求1所述的一种级联解耦的位姿估计方法,其特征在于,所述的步骤S3具体方法如下:
所述的级联解耦位姿估计网络结构的损失Ltotal包括光流损失Lflow、双目视差损失Ldisparity、刚体一致性损失Lrigid,具体公式为:
Ltotal=λfLflowdLdisparityrLrigid (14)
其中λf、λd、和λr为权重,用于调整不同损失在整个损失函数中的作用;
所述的光流损失Lflow,表示为光流图与原图的光流亮度一致性损失,具体公式为:
Figure FDA0003620730210000061
其中β为权重;SSIM(·)为两幅图像的结构相似性计算函数;||·||1为计算L1距离,Warp为可微分双线性插值方法;
所述的双目视差损失Ldisparity由三个约束条件组成:图像亮度一致性损失Lp,视差图几何一致性损失Lg,视差边缘感知平滑损失Ls,具体公式为:
Ldisparity=λ1Lp2Lg3Ls (16)
其中λ1=λ3=1,λ2=10;
所述的相机的亮度一致性损失Lp,级联解耦优化结构能够获得
Figure FDA0003620730210000062
Figure FDA0003620730210000063
两个位姿变换,具体公式为:
Figure FDA0003620730210000064
所述的视差图几何一致性损失Lg,是比较左右视差图之间的视差值差异,其先对右视差图Dr使用Warp操作获得合成视差图
Figure FDA0003620730210000065
通过
Figure FDA0003620730210000066
和左视差图Dl相加后计算L1距离,来计算双目视差的差异,具体公式为:
Figure FDA0003620730210000071
所述的视差边缘感知平滑损失Lsmooth,具体公式为:
Figure FDA0003620730210000072
所述的基于级联解耦位姿估计的迭代网络的损失函数由多视点损失Lmulti、双目视差损失Ldisparity、光流损失Loptical组成,具体公式为:
Ltotal=Loptical+Ldisparity+Lmulti (20)
其中双目视差损失Ldisparity与上述的基于无监督学习的级联解耦位姿估计网络结构的双目视差损失一致;
所述的多视点损失Lmulti具体公式为:
Lmulti=LTTR,step1+LTTRR,step1+LTTR,step2+LTTRR,step2 (21)
其中LTTR,step1是针对
Figure FDA0003620730210000073
的多视点亮度一致性损失,LTTRR,step1是针对
Figure FDA0003620730210000074
的多视点亮度一致性损失,LTTR,step2是针对
Figure FDA0003620730210000075
的多视点亮度一致性损失,LTTRR,step2是针对
Figure FDA0003620730210000076
的多视点亮度一致性损失;由于在多视点亮度一致性损失中,运动对象掩膜Mregion能够将运动对象排除在多视点亮度一致性损失之外,并且四个位姿
Figure FDA0003620730210000077
都需要加入到亮度一致性约束中,其具体公式为:
Figure FDA0003620730210000078
其中γTTR和γTTRR都是超参数,它们的值分别是0.4和0.6,Moccu(p)·Mmotion(p)作用于多视点的亮度一致性损失,
Figure FDA0003620730210000081
Figure FDA0003620730210000082
是由
Figure FDA0003620730210000083
经过视点合成生成的合成图;
所述的光流损失Loptical,由于引入了运动对象掩膜,针对刚性区域使用了光流和刚性流一致性损失Lconsistent,在非刚性区域使用了边缘感知平滑损失Lsmooth,光流的损失公式具体为:
Loptical=Limage+Lconsistent+Lsmooth (23)
其中Limage为光流的亮度一致性损失,它的计算公式为:
Figure FDA0003620730210000084
其中
Figure FDA0003620730210000085
为图片Warp操作后的合成图,它的计算公式为:
Figure FDA0003620730210000086
所述的光流和刚性流一致性损失Lconsistent,刚性流通过视差图和相机位姿能够获得刚性区域对应像素运动,并且其刚性区域的精度高于光流,但是刚性流无法描述非刚体区域的像素位置变化;因此使用运动对象掩膜将运动对象排除在光流和刚性流一致性约束之外;光流与刚性流一致性损失的公式如下所示:
Figure FDA0003620730210000087
所述的边缘感知平滑损失Lsmooth,亮度一致性约束中存在模糊性和任意性问题,而边缘感知平滑约束基于来自边缘检测的边缘图梯度,能够提高边缘感知的平滑度,并且比像素级约束具有更强的语义性;光流的边缘感知平滑损失能够提高光流估计的准确率,也使得光流图在边缘部分与场景中的边缘轮廓一致;由于边缘的模糊性主要来源于运动对象,因此只对运动对象区域使用了边缘感知平滑约束,对应公式如下所示:
Figure FDA0003620730210000091
3.根据权利要求2所述的一种级联解耦的位姿估计方法,其特征在于,步骤3中的λf=λd=λr=1,β为0.8。
CN202110725433.3A 2021-06-29 2021-06-29 一种级联解耦的位姿估计方法 Active CN113436254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110725433.3A CN113436254B (zh) 2021-06-29 2021-06-29 一种级联解耦的位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110725433.3A CN113436254B (zh) 2021-06-29 2021-06-29 一种级联解耦的位姿估计方法

Publications (2)

Publication Number Publication Date
CN113436254A CN113436254A (zh) 2021-09-24
CN113436254B true CN113436254B (zh) 2022-07-05

Family

ID=77757627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110725433.3A Active CN113436254B (zh) 2021-06-29 2021-06-29 一种级联解耦的位姿估计方法

Country Status (1)

Country Link
CN (1) CN113436254B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114034312B (zh) * 2021-11-05 2024-03-26 太原理工大学 一种轻量级多解耦的视觉里程计实现方法
CN114663509B (zh) * 2022-03-23 2022-09-27 北京科技大学 一种关键点热力图引导的自监督单目视觉里程计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6571024B1 (en) * 1999-06-18 2003-05-27 Sarnoff Corporation Method and apparatus for multi-view three dimensional estimation
EP1890263A2 (en) * 2000-03-07 2008-02-20 Sarnoff Corporation Method of pose estimation adn model refinement for video representation of a three dimensional scene
CN111354043A (zh) * 2020-02-21 2020-06-30 集美大学 一种基于多传感器融合的三维姿态估计方法及装置
CN112308918A (zh) * 2020-10-26 2021-02-02 杭州电子科技大学 一种基于位姿解耦估计的无监督单目视觉里程计方法
CN112686952A (zh) * 2020-12-10 2021-04-20 中国科学院深圳先进技术研究院 一种图像光流计算系统、方法及应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6571024B1 (en) * 1999-06-18 2003-05-27 Sarnoff Corporation Method and apparatus for multi-view three dimensional estimation
EP1890263A2 (en) * 2000-03-07 2008-02-20 Sarnoff Corporation Method of pose estimation adn model refinement for video representation of a three dimensional scene
CN111354043A (zh) * 2020-02-21 2020-06-30 集美大学 一种基于多传感器融合的三维姿态估计方法及装置
CN112308918A (zh) * 2020-10-26 2021-02-02 杭州电子科技大学 一种基于位姿解耦估计的无监督单目视觉里程计方法
CN112686952A (zh) * 2020-12-10 2021-04-20 中国科学院深圳先进技术研究院 一种图像光流计算系统、方法及应用

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos;Yang Wang,et al.;《IEEE Conference on Computer Vision and Pattern Recognition》;20200109;全文 *
Unsupervised monocular visual odometry with decoupled camera pose estimation;Lili Lin,et al.;《Digital Signal Processing》;20210409;全文 *
基于结构化随机矩阵的分块压缩感知光场重建;阳宁凯,戴国骏,周文晖,张桦;《杭州电子科技大学学报》;20180630;第38卷(第6期);全文 *
采用反向构成迭代的视觉SLAM直接发位姿估计;张一,等.;《测绘科学技术学报》;20190430;第36卷(第2期);全文 *

Also Published As

Publication number Publication date
CN113436254A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN111739078B (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
CN110490928B (zh) 一种基于深度神经网络的相机姿态估计方法
Liu et al. Robust dynamic radiance fields
Zitnick et al. Consistent segmentation for optical flow estimation
CN108876814B (zh) 一种生成姿态流图像的方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN113436254B (zh) 一种级联解耦的位姿估计方法
CN113077505B (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN112019828B (zh) 一种视频的2d到3d的转换方法
Qi et al. 3D motion decomposition for RGBD future dynamic scene synthesis
CN113284173A (zh) 基于伪激光雷达的端到端的场景流、位姿联合学习方法
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
Karpov et al. Exploring efficiency of vision transformers for self-supervised monocular depth estimation
CN115546505A (zh) 一种基于深度学习的无监督单目图像深度估计方法
Shi et al. CSFlow: Learning optical flow via cross strip correlation for autonomous driving
CN110889868B (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN111652922B (zh) 一种基于双目视觉的单目视频深度估计方法
Hara et al. Enhancement of novel view synthesis using omnidirectional image completion
Wewer et al. Simnp: Learning self-similarity priors between neural points
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统
CN115631223A (zh) 基于自适应学习和聚合的多视图立体重建方法
CN109934863B (zh) 一种基于密集连接型卷积神经网络的光场深度信息估计方法
Zhang et al. Unsupervised learning of depth estimation based on attention model from monocular images
Li et al. Point-based neural scene rendering for street views

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant