CN113436254B - 一种级联解耦的位姿估计方法 - Google Patents
一种级联解耦的位姿估计方法 Download PDFInfo
- Publication number
- CN113436254B CN113436254B CN202110725433.3A CN202110725433A CN113436254B CN 113436254 B CN113436254 B CN 113436254B CN 202110725433 A CN202110725433 A CN 202110725433A CN 113436254 B CN113436254 B CN 113436254B
- Authority
- CN
- China
- Prior art keywords
- loss
- network
- pose
- decoupling
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 39
- 238000013519 translation Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 230000003287 optical effect Effects 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 17
- 238000009499 grossing Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 230000008447 perception Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 238000003708 edge detection Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种级联解耦的位姿估计方法。首先基于位姿解耦公式,设计级联解耦位姿估计网络;然后设计基于级联解耦位姿估计的迭代网络;最后定义级联解耦位姿估计网络和基于级联解耦位姿估计的迭代网络的损失函数。本发明从相机位姿估计的级联解耦结构设计开始,首先提出了一种位姿级联解耦估计网络和位姿级联解耦优化网络,之后又提出了一种基于级联解耦位姿估计的迭代网络,以实现更高精度的位姿估计;最后将其扩展到无监督单目视觉里程计,实现相邻帧间相机位姿的旋转矩阵和平移矩阵解耦估计,得到更高精度的结果。
Description
技术领域
本发明属于深度学习与计算机视觉领域,特别涉及了一种级联解耦的位姿估计网络。
背景技术
来自图像序列的相机自运动估计或视觉里程计(Visual Odometry)因其在许多视觉任务中的关键作用而引起了研究人员的极大关注。在过去的二十年中,基于多视图几何理论的传统方法在条件良好的环境中表现出了极佳的性能,然而,它们的性能和鲁棒性很容易受到无纹理区域或图像质量低的影响。此外,传统方法由于复杂的计算使得在优化方面也不占优势。
随着深度神经网络(DNN)的快速发展,基于学习的相机自运动估计方法近年来取得了重大进展。它们通常利用基于卷积神经网络(CNN)的相机位姿预测模块来预测相邻帧之间的相机位姿。它们中的大多数方法都是有监督学习的网络。受益于DNN的学习能力,这些方法与传统方法相比,实验结果已经大幅提升。然而,有监督学习的性能在很大程度上取决于可用Ground Truth的数量和质量。
无监督方法可以有效地避免Ground Truth的限制。无监督方法的原理是利用相邻帧之间三维投影的光度一致性作为自运动学习的监督信号,而不是直接用真实相机位姿训练网络。由于缺少Ground Truth的引导,无监督方法的结果远不如有监督方法准确。为了提高无监督位姿估计的准确性,现有方法通常侧重于具有回环优化的各种长短期序列学习方案,而忽略了位姿估计网络的改进。因此,针对位姿估计网络本身,提出一种高精度位姿的网络是十分必要的。
此外,亮度一致性约束普遍应用于视觉里程计中,可以用于判断图像之间的亮度差异,刚性流图可以描述静止物体的差异,但是由于图像中普遍存在着运动对象,刚体流图无法正确描述运动对象的像素点变换关系,这会对图像之间的亮度一致性差异造成影响。目前大多数方法通过掩膜将遮挡区域排除在亮度一致性约束之外。
平移估计网络T-Net和旋转估计网络R-Net采用了Lili Lin,Weisheng Wangetc.Unsupervised monocular visual odometry with decoupled camera poseestimation.中的结构。
Yang Wang,Peng Wang.UnOS:Unified Unsupervised Optical-flow andStereo-depth Estimation by Watching Videos.2019。
发明内容
针对现有技术中存在的不足,本发明提供了一种级联解耦的位姿估计方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:基于位姿解耦公式,设计级联解耦位姿估计网络;
步骤S2:设计基于级联解耦位姿估计的迭代网络;
步骤S3:定义级联解耦位姿估计网络和基于级联解耦位姿估计的迭代网络的损失函数;
本发明有益效果如下:
本发明从相机位姿估计的级联解耦结构设计开始,首先提出了一种位姿级联解耦估计网络和位姿级联解耦优化网络,之后又提出了一种基于级联解耦位姿估计的迭代网络,以实现更高精度的位姿估计;最后将其扩展到无监督单目视觉里程计,实现相邻帧间相机位姿的旋转矩阵和平移矩阵解耦估计,得到更高精度的结果;
附图说明
图1为级联解耦位姿估计网络框图;
图2为基于级联解耦位姿估计的迭代网络框图;
图3为迭代网络中的级联解耦优化结构框图;
图4为本发明的主要步骤流程示意图。
具体实施方式
以下结合附图与实施例对本发明方案进行进一步描述。
如图4所示,一种级联解耦的位姿估计方法,步骤如下:
所述步骤S1基于位姿解耦公式,设计级联解耦位姿估计网络,具体方法如下:
所述的位姿解耦公式具体表述为:
对于相邻两帧图像Ig和Is,场景点在图像Ig上的投影像素点为pg,在图像Is上的投影像素点为ps,根据相机内参矩阵K、相机位姿矩阵Pg→s、像素点pg在相机坐标系下的深度值zg和像素点ps在相机坐标系下的深度值zs,像素点pg和像素点ps满足刚性运动的投影公式,具体为:
其中Pg→s为相机从第g帧到第s帧的相机位姿矩阵,Pg→s由一个3×3的旋转矩阵R和一个3×1的平移矩阵T组成,它能够转化为解耦平移矩阵和解耦旋转矩阵的级联相乘,具体为:
其中,
其中,PT为4×4的解耦平移矩阵,PR为4×4的解耦旋转矩阵,E3×3为3×3的单位矩阵。
将公式(1)代入公式(2)可得:
根据公式(4),能够得到像素点pg和像素点ps的级联相乘的公式:
其中公式(4)的第一行为解耦平移矩阵PT的投影公式,公式(4)的第二行为解耦旋转矩阵PR的投影公式。公式(4)称为位姿解耦估计公式,将相机位姿矩阵Pg→s估计分解为解耦平移矩阵PT和解耦旋转矩阵PR的级联估计。
所述的级联解耦位姿估计网络(DecoupledPoseNet)包括四个子网络,分别是平移估计网络T-Net、平移优化网络T-RefineNet、旋转估计网络R-Net和旋转优化网络R-RefineNet。其中T-Net和R-Net的结构采用了Lili Lin,Weisheng Wang etc.Unsupervisedmonocular visual odometry with decoupled camera pose estimation.中的结构,为现有成熟技术。T-RefineNet和R-RefineNet分别与T-Net和R-Net的结构相同。
级联解耦位姿估计网络(DecoupledPoseNet)的具体结构如图1所示,它的具体表述为:
在公式(2)的基础上,对旋转矩阵和平移矩阵进一步优化,公式如下所示:
其中,
将公式(6)代入公式(1),将公式(1)划分成四个级联部分,然后设计一个级联解耦位姿估计网络,即DecoupledPoseNet。它的网络输入为连续两帧的左相机图像It和It+1,输出为t时刻相对于t+1时刻的相机位姿Pt→t+1,为了得到更加准确的结果,这里同时输出了一个中间结果Pt'→t+1,并且:
所述步骤S2设计基于级联解耦位姿估计的迭代网络,具体方法如下:
所述的基于级联解耦位姿估计的迭代网络包括一个视差估计网络(UnDispNet),一个光流估计网络(UnFlowNet)和一个级联解耦的位姿迭代网络(DecoupledPoseNet_1&DecoupledPoseNet_2),通过视差估计网络(UnDispNet)和光流估计网络(UnFlowNet)的输出结果得到用于处理图像中的运动对象的掩膜。步骤S2的结构如图2所示。
所述的视差估计网络(UnDispNet)和光流估计网络(UnFlowNet)采用了与UnOS中DispNet和FlowNet相同的网络结构;
所述的视差估计网络(UnDispNet)的结构为一个包含了编码子网和解码子网的U型网络;编码子网的输入为连续两帧的左相机图像It和It+1,通过卷积和下采样提取深层特征信息;解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到连续两帧的视差图dt和dt+1。对于视差图d,u为图像空间的水平方向坐标,v为图像空间的垂直方向坐标,则像素点(u,v)的视差值为d(u,v),其深度值z的计算公式为:
其中B为车载双目立体相机的基线,f为车载双目立体相机的焦距。
所述的光流估计网络(UnFlowNet)的结构为一个包含了编码子网和解码子网的U型网络;编码子网由六层光流特征抽取层构成,每一层的光流特征抽取层是由一个步长为2,大小为3×3的卷积核和一个步长为1,大小为4×4的卷积核以及两个Leaky ReLU激活函数构成。光流特征抽取层的第一层是步长为2的卷积层,其作用是特征信息抽取和降采样作用,第二层是步长为1的卷积层,其作用为了对降采样后的特征块信息作细化处理。每一张图像经过六层光流特征抽取层处理获得一个六层的特征金字塔。编码子网的输入是连续两帧的左相机图像It和It+1,输出是两帧的特征金字塔。
解码子网利用六层光流特征金字塔结构逐级优化光流,使用了由粗到细(Fromcoarse to fine)的方式来优化光流结果。解码子网能够拆分为六层子网络结构,每层子网络结构中包含了图像特征代价空间生成器和光流估计网络。第一层子网络用来获取初始小尺寸光流图,第二层至第六层逐级扩大光流图尺寸,并以残差形式优化光流图。
所述的用于处理图像中的运动对象的掩膜具体表述为:
t+1时刻的图像It+1通过warp(可微分双线性插值,为成熟技术)得到t时刻的合成图像。图像It和It+1之间存在遮挡区域,遮挡区域会导致合成图无法和原图像It保持一致。根据视差估计网络(UnDispNet)输出的视差图和相机位姿能够获得图像It和It+1之间对应的刚性流图,刚性流图能够描述图像It中静态对象区域和图像It+1中对应区域的像素位移。由于刚性流图无法正确描述运动对象的像素点变换关系,通过刚性流获得的合成图无法正确表示运动对象区域。因此,针对运动对象,使用反向光流图生成光流遮挡图用来解决运动对象导致的遮挡区域在原图上不一致的问题。
首先根据光流估计网络(UnFlowNet)得到光流图,然后通过刚性流图和光流图进行差异比较,得到运动对象区域掩膜。首先,比较获取的刚性流和光流的差异获得Fdiff,具体公式为:
其中和分别表示x轴和y轴上的光流,和分别表示x轴和y轴上的刚性流。Fdiff中大于阈值的区域表示刚性流和光流不一致的区域,Fdiff中小于阈值的区域表示刚性流和光流一致的区域。Fdiff在阈值λdiff下进行二值化,得到的二值化图Mdiff分成一致区域和非一致区域,具体公式为:
Mregion是二值化后的遮挡掩膜图,其为了将Mdiff中错误的掩盖区域去除,使得Mmotion仅包含了非刚体部分的二值化运动分割掩膜,具体公式为:
所述的基于级联解耦的位姿迭代网络(DecoupledPoseNet_1&DecoupledPoseNet_2)的具体表述为:
基于级联解耦的位姿迭代网络包括级联解耦优化结构DecoupledPoseNet_1和级联解耦优化结构DecoupledPoseNet_2,这两个结构与上述的DecoupledPoseNet结构相同,它们的结构如图3所示。为了叙述方便,此处采用step1和step2代替。通过step1结构和step2结构获得四个相机位姿。通过step1结构获得和两个相机位姿,此处将记为将记为step2结构将step1结构得到的相机位姿作为输入,获得和两个相机位姿,此处将记为将记为
所述的步骤S3定义级联解耦位姿估计网络和基于级联解耦位姿估计的迭代网络的损失函数,具体方法如下:
所述的级联解耦位姿估计网络结构的损失Ltotal包括光流损失Lflow、双目视差损失Ldisparity、刚体一致性损失Lrigid,具体公式为:
Ltotal=λfLflow+λdLdisparity+λrLrigid (14)
其中λf、λd和λr为权重,用于调整不同损失在整个损失函数中的作用。
所述的光流损失Lflow,表示为光流图与原图的光流亮度一致性损失,具体公式为:
其中β为权重;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为现有成熟方法;||·||1为计算L1距离,Warp为可微分双线性插值方法,为现有成熟方法。
所述的双目视差损失Ldisparity由三个约束条件组成:图像亮度一致性损失Lp,视差图几何一致性损失Lg,视差边缘感知平滑损失Ls,具体公式为:
Ldisparity=λ1Lp+λ2Lg+λ3Ls (16)
其中λ1=λ3=1,λ2=10。
所述的相机的亮度一致性损失Lp,级联解耦优化结构能够获得PΔTPTPR和PΔTPTPRPΔR两个位姿变换,具体公式为:
所述的视差边缘感知平滑损失Ls,具体公式为:
所述的基于级联解耦位姿估计的迭代网络的损失函数由多视点损失Lmulti、双目视差损失Ldisparity、光流损失Loptical组成,具体公式为:
Ltotal=Loptical+Ldisparity+Lmulti (20)
其中双目视差损失Ldisparity与上述的基于无监督学习的级联解耦位姿估计网络结构的双目视差损失一致。
所述的多视点损失Lmulti具体公式为:
Lmulti=LTTR,step1+LTTRR,step1+LTTR,step2+LTTRR,step2 (21)
其中LTTR,step1是针对的多视点亮度一致性损失,LTTRR,step1是针对的多视点亮度一致性损失,LTTR,step2是针对的多视点亮度一致性损失,LTTRR,step2是针对的多视点亮度一致性损失。由于在多视点亮度一致性损失中,运动对象掩膜Mregion能够将运动对象排除在多视点亮度一致性损失之外,并且四个位姿都需要加入到亮度一致性约束中,其具体公式为:
所述的光流损失Loptical,由于引入了运动对象掩膜,针对刚性区域使用了光流和刚性流一致性损失Lconsistent,在非刚性区域使用了边缘感知平滑损失Lsmooth,光流的损失公式具体为:
Loptical=Limage+Lconsistent+Lsmooth (23)
其中Limage为光流的亮度一致性损失,它的计算公式为:
其中Dl为像素点的视差值。
所述的光流和刚性流一致性损失Lconsistent,刚性流通过视差图和相机位姿能够获得刚性区域对应像素运动,并且其刚性区域的精度高于光流,但是刚性流无法描述非刚体区域的像素位置变化。因此使用运动对象掩膜将运动对象排除在光流和刚性流一致性约束之外。光流与刚性流一致性损失的公式如下所示:
所述的边缘感知平滑损失Lsmooth,亮度一致性约束中存在模糊性和任意性问题,而边缘感知平滑约束基于来自边缘检测的边缘图梯度,能够提高边缘感知的平滑度,并且比像素级约束具有更强的语义性。光流的边缘感知平滑损失能够提高光流估计的准确率,也使得光流图在边缘部分与场景中的边缘轮廓一致。由于边缘的模糊性主要来源于运动对象,因此只对运动对象区域使用了边缘感知平滑约束,对应公式如下所示:
进一步的,步骤3中的λf=λd=λr=1,β为0.8。
Claims (3)
1.一种级联解耦的位姿估计方法,其特征在于,包括如下步骤:
步骤S1:基于位姿解耦公式,设计级联解耦位姿估计网络;
步骤S2:设计基于级联解耦位姿估计的迭代网络;
步骤S3:定义级联解耦位姿估计网络和基于级联解耦位姿估计的迭代网络的损失函数;
所述步骤S1具体方法如下:
所述的位姿解耦公式具体表述为:
对于相邻两帧图像Ig和Is,场景点在图像Ig上的投影像素点为pg,在图像Is上的投影像素点为ps,根据相机内参矩阵K、相机位姿矩阵Pg→s、像素点pg在相机坐标系下的深度值zg和像素点ps在相机坐标系下的深度值zs,像素点pg和像素点ps满足刚性运动的投影公式,具体为:
其中Pg→s为相机从第g帧到第s帧的相机位姿矩阵,Pg→s由一个3×3的旋转矩阵R和一个3×1的平移矩阵T组成,它能够转化为解耦平移矩阵和解耦旋转矩阵的级联相乘,具体为:
其中,
其中,PT为4×4的解耦平移矩阵,PR为4×4的解耦旋转矩阵,E3×3为3×3的单位矩阵;
将公式(1)代入公式(2)可得:
根据公式(4),能够得到像素点pg和像素点ps的级联相乘的公式:
其中公式(5)的第一行为解耦平移矩阵PT的投影公式,公式(5)的第二行为解耦旋转矩阵PR的投影公式;公式(5)称为位姿解耦估计公式,将相机位姿矩阵Pg→s估计分解为解耦平移矩阵PT和解耦旋转矩阵PR的级联估计;
所述的级联解耦位姿估计网络包括四个子网络,分别是平移估计网络T-Net、平移优化网络T-RefineNet、旋转估计网络R-Net和旋转优化网络R-RefineNet;T-RefineNet和R-RefineNet分别与T-Net和R-Net的结构相同;
级联解耦位姿估计网络的具体表述为:
在公式(2)的基础上,对旋转矩阵和平移矩阵进一步优化,公式如下所示:
其中,
将公式(6)代入公式(1),将公式(1)划分成四个级联部分,然后设计一个级联解耦位姿估计网络,即DecoupledPoseNet;它的网络输入为连续两帧的左相机图像It和It+1,输出为t时刻相对于t+1时刻的相机位姿Pt→t+1,为了得到更加准确的结果,这里同时输出了一个中间结果P′t→t+1,并且:
所述步骤S2具体方法如下:
所述的基于级联解耦位姿估计的迭代网络包括一个视差估计网络UnDispNet,一个光流估计网络UnFlowNet和一个级联解耦的位姿迭代网络DecoupledPoseNet_1&DecoupledPoseNet_2,通过视差估计网络UnDispNet和光流估计网络UnFlowNet的输出结果得到用于处理图像中的运动对象的掩膜;
所述的视差估计网络UnDispNet和光流估计网络UnFlowNet采用了与UnOS中DispNet和FlowNet相同的网络结构;
所述的视差估计网络UnDispNet的结构为一个包含了编码子网和解码子网的U型网络;编码子网的输入为连续两帧的左相机图像It和It+1,通过卷积和下采样提取深层特征信息;解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到连续两帧的视差图dt和dt+1;对于视差图d,u为图像空间的水平方向坐标,v为图像空间的垂直方向坐标,则像素点(u,v)的视差值为d(u,v),其深度值z的计算公式为:
其中B为车载双目立体相机的基线,f为车载双目立体相机的焦距;
所述的光流估计网络的结构为一个包含了编码子网和解码子网的U型网络;编码子网由六层光流特征抽取层构成,每一层的光流特征抽取层是由一个步长为2,大小为3×3的卷积核和一个步长为1,大小为4×4的卷积核以及两个Leaky ReLU激活函数构成;光流特征抽取层的第一层是步长为2的卷积层,其作用是特征信息抽取和降采样作用,第二层是步长为1的卷积层,其作用为了对降采样后的特征块信息作细化处理;每一张图像经过六层光流特征抽取层处理获得一个六层的特征金字塔;编码子网的输入是连续两帧的左相机图像It和It+1,输出是两帧的特征金字塔;
解码子网利用六层光流特征金字塔结构逐级优化光流,使用了由粗到细(From coarseto fine)的方式来优化光流结果;解码子网能够拆分为六层子网络结构,每层子网络结构中包含了图像特征代价空间生成器和光流估计网络;第一层子网络用来获取初始小尺寸光流图,第二层至第六层逐级扩大光流图尺寸,并以残差形式优化光流图;
所述的用于处理图像中的运动对象的掩膜具体表述为:
t+1时刻的图像It+1通过warp得到t时刻的合成图像;图像It和It+1之间存在遮挡区域,遮挡区域会导致合成图无法和原图像It保持一致;根据视差估计网络输出的视差图和相机位姿能够获得图像It和It+1之间对应的刚性流图,刚性流图能够描述图像It中静态对象区域和图像It+1中对应区域的像素位移;由于刚性流图无法正确描述运动对象的像素点变换关系,通过刚性流获得的合成图无法正确表示运动对象区域;因此,针对运动对象,使用反向光流图生成光流遮挡图用来解决运动对象导致的遮挡区域在原图上不一致的问题;
首先根据光流估计网络UnFlowNet得到光流图,然后通过刚性流图和光流图进行差异比较,得到运动对象区域掩膜;首先,比较获取的刚性流和光流的差异获得Fdiff,具体公式为:
其中和分别表示x轴和y轴上的光流,和分别表示x轴和y轴上的刚性流;Fdiff中大于阈值的区域表示刚性流和光流不一致的区域,Fdiff中小于阈值的区域表示刚性流和光流一致的区域;Fdiff在阈值λdiff下进行二值化,得到的二值化图Mdiff分成一致区域和非一致区域,具体公式为:
Mregion是二值化后的遮挡掩膜图,其为了将Mdiff中错误的掩盖区域去除,使得Mmotion仅包含了非刚体部分的二值化运动分割掩膜,具体公式为:
所述的基于级联解耦的位姿迭代网络DecoupledPoseNet_1&DecoupledPoseNet_2的具体表述为:
2.根据权利要求1所述的一种级联解耦的位姿估计方法,其特征在于,所述的步骤S3具体方法如下:
所述的级联解耦位姿估计网络结构的损失Ltotal包括光流损失Lflow、双目视差损失Ldisparity、刚体一致性损失Lrigid,具体公式为:
Ltotal=λfLflow+λdLdisparity+λrLrigid (14)
其中λf、λd、和λr为权重,用于调整不同损失在整个损失函数中的作用;
所述的光流损失Lflow,表示为光流图与原图的光流亮度一致性损失,具体公式为:
其中β为权重;SSIM(·)为两幅图像的结构相似性计算函数;||·||1为计算L1距离,Warp为可微分双线性插值方法;
所述的双目视差损失Ldisparity由三个约束条件组成:图像亮度一致性损失Lp,视差图几何一致性损失Lg,视差边缘感知平滑损失Ls,具体公式为:
Ldisparity=λ1Lp+λ2Lg+λ3Ls (16)
其中λ1=λ3=1,λ2=10;
所述的视差边缘感知平滑损失Lsmooth,具体公式为:
所述的基于级联解耦位姿估计的迭代网络的损失函数由多视点损失Lmulti、双目视差损失Ldisparity、光流损失Loptical组成,具体公式为:
Ltotal=Loptical+Ldisparity+Lmulti (20)
其中双目视差损失Ldisparity与上述的基于无监督学习的级联解耦位姿估计网络结构的双目视差损失一致;
所述的多视点损失Lmulti具体公式为:
Lmulti=LTTR,step1+LTTRR,step1+LTTR,step2+LTTRR,step2 (21)
其中LTTR,step1是针对的多视点亮度一致性损失,LTTRR,step1是针对的多视点亮度一致性损失,LTTR,step2是针对的多视点亮度一致性损失,LTTRR,step2是针对的多视点亮度一致性损失;由于在多视点亮度一致性损失中,运动对象掩膜Mregion能够将运动对象排除在多视点亮度一致性损失之外,并且四个位姿都需要加入到亮度一致性约束中,其具体公式为:
所述的光流损失Loptical,由于引入了运动对象掩膜,针对刚性区域使用了光流和刚性流一致性损失Lconsistent,在非刚性区域使用了边缘感知平滑损失Lsmooth,光流的损失公式具体为:
Loptical=Limage+Lconsistent+Lsmooth (23)
其中Limage为光流的亮度一致性损失,它的计算公式为:
所述的光流和刚性流一致性损失Lconsistent,刚性流通过视差图和相机位姿能够获得刚性区域对应像素运动,并且其刚性区域的精度高于光流,但是刚性流无法描述非刚体区域的像素位置变化;因此使用运动对象掩膜将运动对象排除在光流和刚性流一致性约束之外;光流与刚性流一致性损失的公式如下所示:
所述的边缘感知平滑损失Lsmooth,亮度一致性约束中存在模糊性和任意性问题,而边缘感知平滑约束基于来自边缘检测的边缘图梯度,能够提高边缘感知的平滑度,并且比像素级约束具有更强的语义性;光流的边缘感知平滑损失能够提高光流估计的准确率,也使得光流图在边缘部分与场景中的边缘轮廓一致;由于边缘的模糊性主要来源于运动对象,因此只对运动对象区域使用了边缘感知平滑约束,对应公式如下所示:
3.根据权利要求2所述的一种级联解耦的位姿估计方法,其特征在于,步骤3中的λf=λd=λr=1,β为0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110725433.3A CN113436254B (zh) | 2021-06-29 | 2021-06-29 | 一种级联解耦的位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110725433.3A CN113436254B (zh) | 2021-06-29 | 2021-06-29 | 一种级联解耦的位姿估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113436254A CN113436254A (zh) | 2021-09-24 |
CN113436254B true CN113436254B (zh) | 2022-07-05 |
Family
ID=77757627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110725433.3A Active CN113436254B (zh) | 2021-06-29 | 2021-06-29 | 一种级联解耦的位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436254B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114034312B (zh) * | 2021-11-05 | 2024-03-26 | 太原理工大学 | 一种轻量级多解耦的视觉里程计实现方法 |
CN114663509B (zh) * | 2022-03-23 | 2022-09-27 | 北京科技大学 | 一种关键点热力图引导的自监督单目视觉里程计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6571024B1 (en) * | 1999-06-18 | 2003-05-27 | Sarnoff Corporation | Method and apparatus for multi-view three dimensional estimation |
EP1890263A2 (en) * | 2000-03-07 | 2008-02-20 | Sarnoff Corporation | Method of pose estimation adn model refinement for video representation of a three dimensional scene |
CN111354043A (zh) * | 2020-02-21 | 2020-06-30 | 集美大学 | 一种基于多传感器融合的三维姿态估计方法及装置 |
CN112308918A (zh) * | 2020-10-26 | 2021-02-02 | 杭州电子科技大学 | 一种基于位姿解耦估计的无监督单目视觉里程计方法 |
CN112686952A (zh) * | 2020-12-10 | 2021-04-20 | 中国科学院深圳先进技术研究院 | 一种图像光流计算系统、方法及应用 |
-
2021
- 2021-06-29 CN CN202110725433.3A patent/CN113436254B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6571024B1 (en) * | 1999-06-18 | 2003-05-27 | Sarnoff Corporation | Method and apparatus for multi-view three dimensional estimation |
EP1890263A2 (en) * | 2000-03-07 | 2008-02-20 | Sarnoff Corporation | Method of pose estimation adn model refinement for video representation of a three dimensional scene |
CN111354043A (zh) * | 2020-02-21 | 2020-06-30 | 集美大学 | 一种基于多传感器融合的三维姿态估计方法及装置 |
CN112308918A (zh) * | 2020-10-26 | 2021-02-02 | 杭州电子科技大学 | 一种基于位姿解耦估计的无监督单目视觉里程计方法 |
CN112686952A (zh) * | 2020-12-10 | 2021-04-20 | 中国科学院深圳先进技术研究院 | 一种图像光流计算系统、方法及应用 |
Non-Patent Citations (4)
Title |
---|
UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos;Yang Wang,et al.;《IEEE Conference on Computer Vision and Pattern Recognition》;20200109;全文 * |
Unsupervised monocular visual odometry with decoupled camera pose estimation;Lili Lin,et al.;《Digital Signal Processing》;20210409;全文 * |
基于结构化随机矩阵的分块压缩感知光场重建;阳宁凯,戴国骏,周文晖,张桦;《杭州电子科技大学学报》;20180630;第38卷(第6期);全文 * |
采用反向构成迭代的视觉SLAM直接发位姿估计;张一,等.;《测绘科学技术学报》;20190430;第36卷(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113436254A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Robust dynamic radiance fields | |
CN110490928B (zh) | 一种基于深度神经网络的相机姿态估计方法 | |
CN111739078B (zh) | 一种基于上下文注意力机制的单目无监督深度估计方法 | |
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
Zitnick et al. | Consistent segmentation for optical flow estimation | |
CN111325794A (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN108876814B (zh) | 一种生成姿态流图像的方法 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN113436254B (zh) | 一种级联解耦的位姿估计方法 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN103702098A (zh) | 一种时空域联合约束的三视点立体视频深度提取方法 | |
CN112019828B (zh) | 一种视频的2d到3d的转换方法 | |
Qi et al. | 3D motion decomposition for RGBD future dynamic scene synthesis | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN113284173A (zh) | 基于伪激光雷达的端到端的场景流、位姿联合学习方法 | |
Shi et al. | CSFlow: Learning optical flow via cross strip correlation for autonomous driving | |
CN110889868B (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
Wewer et al. | Simnp: Learning self-similarity priors between neural points | |
CN111652922B (zh) | 一种基于双目视觉的单目视频深度估计方法 | |
Tian et al. | Monocular depth estimation based on a single image: a literature review | |
Li et al. | Point-Based Neural Scene Rendering for Street Views | |
CN109934863B (zh) | 一种基于密集连接型卷积神经网络的光场深度信息估计方法 | |
Zhao et al. | SAU-Net: Monocular Depth Estimation Combining Multi-Scale Features and Attention Mechanisms | |
Zhang et al. | Unsupervised learning of depth estimation based on attention model from monocular images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |