CN110910447B - 一种基于动静态场景分离的视觉里程计方法 - Google Patents

一种基于动静态场景分离的视觉里程计方法 Download PDF

Info

Publication number
CN110910447B
CN110910447B CN201911057343.0A CN201911057343A CN110910447B CN 110910447 B CN110910447 B CN 110910447B CN 201911057343 A CN201911057343 A CN 201911057343A CN 110910447 B CN110910447 B CN 110910447B
Authority
CN
China
Prior art keywords
dynamic
camera
information
depth
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911057343.0A
Other languages
English (en)
Other versions
CN110910447A (zh
Inventor
马伟
贾兆款
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911057343.0A priority Critical patent/CN110910447B/zh
Publication of CN110910447A publication Critical patent/CN110910447A/zh
Application granted granted Critical
Publication of CN110910447B publication Critical patent/CN110910447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动静态场景分离的视觉里程计方法,该方法是一个深度卷积神经网络模型,能够通过帧间变化分析实现动静态场景分离,并利用可靠的静态场景信息实现相机位姿的计算。该模型由三个子任务构成,分别为深度估计、相机位姿估计、动态物体检测。与现有技术相比,本发明具有以下优点:1)模型通过帧间变化分析,利用动态场景中深度信息的不一致性以及光流信息实现对场景的动静态分离,在此基础上利用更加可靠的静态场景信息实现相机位姿估计;2)利用估计得到的深度信息和相机位姿变换信息,使用T时刻的图像合成T+1时刻的图像,利用T+1时刻的合成图及其原图实现自监督学习,无需监督学习需要的昂贵代价。

Description

一种基于动静态场景分离的视觉里程计方法
技术领域
本发明属于数字图像处理与计算机视觉技术领域,涉及一种基于动静态场景分离的视觉里程计方法。
背景技术
视觉里程计是指通过分析相关图像序列计算得到相机的位置和姿态(简称位姿)的过程,是计算机视觉研究中的一个重要课题。视觉里程计是视觉SLAM(SimultaneousLocalization And Mapping)的重要组成部分,它更关注于计算相机的位姿,在三维重建、移动机器人、自动驾驶、虚拟现实、增强现实等领域有广泛应用。由于受到噪声、动态物体、遮挡等问题影响,视觉里程计计算极具挑战。
传统视觉里程计方法主要利用相邻图像中特征点的匹配关系及其几何关系计算相机的位姿,特征点的稀疏性导致传统方法不能充分利用图像信息。随着深度学习技术的发展,尤其是卷积神经网络的出现,其强大的特征提取和表达能力,使得卷积神经网络对图像信息的利用更加充分,众多计算机视觉任务也得到长足进步。基于此,众多研究人员将卷积神经网络应用到视觉里程计计算中,并得到了良好的结果。然而,基于神经网络的视觉里程计算法在面对动态场景时依然不够鲁棒,将动静态场景进行分离并利用静态场景信息计算视觉里程计成为一个热点研究问题。Bian等人在2019年NeurIPS上发表了“UnsupervisedScale-consistent Depth and Ego-motion Learning from Monocular Video”方法。该方法指出相邻两张图像分别对应的深度图深度信息应是一致,从而实现尺度一致性约束,利用两张深度图的差值实现对动态物体的检测。实验结果证明该方法取得了先进的成果。但是该方法对动态信息的利用不够充分,计算得到的相机轨迹存在漂移问题,位姿的计算精度有待进一步提升。
发明内容
针对现有视觉里程计方法难以适应动态场景的问题,本发明提出一种基于动静态场景分离的视觉里程计方法,该方法利用帧间变化信息实现对动态物体的检测,借此实现动静态场景的分离。实验证明,本发明能够实现对动态物体的有效检测,并在一定程度上缓解了轨迹漂移问题,提升了相机位姿的计算精度,使其在动态场景中更为鲁棒。
为实现这个目标,本发明的技术方案是:构建一种卷积神经网络模型,实现基于动静态场景分离的视觉里程计计算。该模型利用帧间变化信息实现对动态物体的检测,在此基础上分离出静态场景,利用稳定可靠的静态场景信息实现对相机位姿的估计。该模型在训练数据集上进行训练,使用训练得到的最终模型在测试集上进行实验,输出对应的相机位姿。
一种基于动静态场景分离的视觉里程计方法,由以下四个模块构成:
1)深度图估计模块:采用DispResNet模型,该模型是一个编解码器结构,在编码器部分使用了两个卷积层和16个残差模块;解码器部分使用了7个反卷积层和11个残差模块,用于估计得到输入图像对应的深度图;
2)相机位姿估计模块1:采用一个具有八层卷积结构的编码器实现,用于估计得到输入的相邻两帧图像间相机的相对位姿变换;
3)动态物体检测模块:对帧间变化进行分析,利用帧间的深度信息变化和光流信息实现对动态物体的检测;
4)相机位姿估计模块2:输入两帧去除动态物体的图像,只利用场景中的静态信息实现对相机位姿变换的估计。
本方法包含以下步骤:
步骤1:将图像输入深度图估计模块,计算得到相应的深度图;
步骤2:向相机位姿估计模块1输入相邻两张图像,对其动静态特征进行提取和鉴别,利用提取到的静态特征实现对相机位姿的估计;
相机位姿估计模块1中每个卷积层的步长设置为2,实现对特征图的下采样操作;除最后一个卷积层外,其它卷积层后均有一个Relu激活层;对编码器的输出求均值,得到一个含有6个元素的向量,以此作为相机位姿变换P;本发明还可以将P表示成矩阵的形式T:
Figure BDA0002256184780000021
步骤3:利用帧间的深度信息变化和光流信息实现对动态物体的检测:
步骤3.1利用深度信息变化对动态物体的检测:
动态物体检测模块通过深度图估计模块分别能够获得相邻两张图像对应的深度图(D1、D2),通过相机位姿估计模块获得它们之间的相机位姿变换T,利用公式
Figure BDA0002256184780000022
通过相机位姿变换矩阵T把深度图D1变换到图像I2对应的深度图/>
Figure BDA0002256184780000031
在此基础上利用如下公式(2)能够实现对动态物体的检测:
Figure BDA0002256184780000032
其中p表示图像中的像素;
步骤3.2利用光流信息对动态物体的检测:
使用残差流估计模块实现对动态物体光流的估计,残差流估计模块是一个编解码器结构,编码器由10个卷积层构成,实现下采样操作;解码器由6个反卷积层构成,实现上采样操作;该网络在FlowNetSimple结构的最后加上两层反卷积层,使得输入此残差流估计模块的图像和输出此残差流估计模块的光流,两者的尺寸是一样的;
步骤3.3将对由深度信息和光流信息估计得到的两种动态物体估计进行融合,提升对动态物体估计的精度;即对由深度信息估计得到的掩膜图Md和由光流信息估计得到的光流图Mf进行求和操作,得到一张最终的掩膜图Mall,以此作为对动态物体的估计,即Mall=Md+Mf
步骤3.4将动静态场景分离,得到只包含静态场景信息的图像对;
步骤4:将得到的只包含静态场景信息的图像对输入到位姿估计模块2,此时该模块只对可靠的静态场景进行特征抽取,同时利用这些可靠的特征实现对相机位姿的估计。
本方法中的模型训练过程包含以下两个阶段:
一、训练数据集的准备。选择KITTI odometry数据集作为训练数据集,并进行数据增强和相机内参预处理。
二、整体模型的训练。训练将分为两个阶段。首先利用Xavier方法对网络参数初始化。在第一个阶段,计算光度误差、平滑度误差、几何一致性误差,并对这三者加权求和作为总的损失函数,实现对整体网络的自监督训练。在第二个阶段,计算光度误差和平滑度误差并对此加权求和,以此作为总的损失函数实现自监督训练。
有益效果
本发明具有以下优点
1)模型通过帧间变化分析,利用动态场景中深度信息的不一致性和光流信息实现对场景的动静态分离,在此基础上利用更加可靠的静态场景信息实现相机位姿估计;
2)模型利用估计得到的深度信息和相机位姿变换信息以及T时刻的图像合成T+1时刻的图像,利用T+1时刻的合成图和原图实现自监督学习,无需监督学习需要的昂贵代价。实验证明:相比现有方法,本发明方法进一步缓解了相机运动轨迹漂移问题,同时计算得到的相机位姿的精度得到进一步提升,在动态场景下的鲁棒性更强。
附图说明
图1为本发明方法的网络框架示意图;I1和I2分别表示相邻两帧图像,D1和D2分别表示对应的两张深度图,Pose1和Pose2均为I1和I2间的相机位姿变换;Mask1表示检测得到的动态物体。
图2(a)为本发明实例的深度估计网络结构示意图,是一个编解码器。(b)和(c)为深度估计网络中用到的两种残差模块。(b)模块为conv_x中的黑色方块,(c)模块为conv_x和upconv_x的最右侧部分中的浅色方块。(a)中带斜线和横线的方块表示特征图拼接操作,剩余部分为卷积操作。
图3为本发明实例的位姿估计网络结构示意图,输入为在颜色通道上拼接到一起的相邻两帧图像,输出为这两帧图像间的相对相机位姿变化。
图4为本发明实例的动态物体检测模块用到的残差流估计网络结构示意图。此模块实现对相邻两幅图像中动态物体光流的估计。
图5为应用实例实验结果:(a)和(b)分别为本应用实例在KITTI odometry数据集第09和第10序列上的视觉里程计轨迹。其中虚线为真值,实线为Bian等人在2019年NeurIPS上发表的“Unsupervised Scale-consistent Depth and Ego-motion Learning fromMonocular Video”中方法的实验结果,点划线为本发明方法的实验结果。
具体实施方式
本发明基于深度学习的开源工具pytorch实现,使用GPU处理器NVIDIA TITAN X训练网络模型。
下面结合附图和具体实施方式对本发明方法中各个模块构成,以及方法模型的训练和使用方法做进一步说明,应理解文中的具体实例说明仅用于说明本发明,而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明的模块组成和流程如图1所示,具体包括如下模块:
一、深度图估计模块
深度图估计模块采用Ranjan等人在论文“Competitive Collaboration:JointUnsupervised Learning of Depth,Camera Motion,Optical Flow and MotionSegmentation”中使用的DispResNet模型。该模型是一个编解码器结构,如图2(a)所示。在编码器部分使用了两个卷积层和16个残差模块。解码器部分使用了7个反卷积层和11个残差模块。将图像输入此网络模块,计算得到相应的深度图。
在本发明中只使用了一个深度估计网络,但是在本发明方法运行过程中分别调用两次深度估计网络实现对相邻两张图片的深度估计。
二、相机位姿估计模块
本实施例中,本发明采用一个简单地具有八层卷积结构的编码器实现相机位姿估计模块。该模块中每个卷积层的步长设置为2,实现对特征图的下采样操作;除最后一个卷积层外,其它卷积层后均有一个Relu激活层。对编码器的输出求均值,得到一个含有6个元素的向量,以此作为相机位姿变换P。本发明还可以将P表示成矩阵的形式T:
Figure BDA0002256184780000051
其中,R表示相机的旋转,t表示相机的位移。
在本发明中,使用了两个上述相机位姿估计模块,如图(1)所示的位姿估计网络1和位姿估计网络2。位姿估计网络1输入的是相邻的两张图像,其所示的场景中会存在动态物体,此时位姿估计网络1需要隐式地完成两个任务,其一是实现对动静态特征的提取和鉴别,其二是利用提取得到的静态特征实现对相机位姿的估计。实际情况下,由于此模块是对提取得到的动静态特征进行隐式分离,分离结果不太可靠,故对相机位姿进行估计时会受到提取得到的动态特征的影响,导致相机位姿的估计不够准确。同时相机位姿估计网络1对双任务的建模能力不够强。由此本发明引入了动态物体检测模块实现对动静态场景的分离,得到只包含静态场景信息的图像对,将此图像对输入到位姿估计网络2,此时该网络只对可靠的静态场景进行特征抽取,同时利用这些可靠的特征实现对相机位姿的估计。位姿估计网络2只对静态场景信息实现建模,建模能力更强。
三、相机位姿估计模块2
视觉里程计估计主要是利用相邻两张图像之间匹配特征的对应关系,结合2D-2D对极几何约束实现对相机位姿的求解。在求解视觉里程计的过程中,本发明可以将场景中的运动分为两种,一种是相机自身相对静态场景的运动,一种是相机相对于场景中动态物体的运动。视觉里程计的目的是求解相机自身相对静态场景的运动,这就要求利用的相邻两张图像间对应的特征必须为从静态场中提取得到的特征。由此,本发明需要去除场景中存在的动态物体,以消除动态物体对相机位姿求解带来的不利影响,提升视觉里程计算法在动态场景中的鲁棒性。在本模块中,本发明将利用深度信息和光流信息实现对场景中动态物体的检测。
在深度图估计模块和相机位姿估计模块,分别能够获得相邻两张图像对应的深度图(D1、D2)和它们之间的相机位姿变换T。利用公式
Figure BDA0002256184780000061
通过相机位姿变换矩阵T把深度图D1变换到图像I2对应的深度图/>
Figure BDA0002256184780000062
在此基础上利用如下公式(2)能够实现对动态物体的检测:
Figure BDA0002256184780000063
其中p表示图像中的像素。同时,本发明还利用光流信息实现对动态物体的检测。本发明使用图4所示的网络结构实现对动态物体光流的估计。该网络结构是一个编解码器结构,编码器由10个卷积层构成,实现下采样操作;解码器由6个反卷积层构成,实现上采样操作。该网络参考Fischer等人在2015年ICCV上发表的“FlowNet:Learning Optical Flowwith Convolutional Networks”论文中的FlowNetSimple结构,并作出了一些修改,在FlowNetSimple的最后加上两层反卷积层,使得输入和输出的图像尺寸一样大,详见网络结构详图4。
本模块将对由深度信息和光流信息估计得到的两种动态物体估计进行融合,提升对动态物体估计的精度。即对由深度信息估计得到的掩膜图Md和由光流信息估计得到的光流图Mf进行求和操作,得到一张最终的掩膜图Mall,以此作为对动态物体的估计,即Mall=Md+Mf。将动静态场景分离,得到只包含静态场景信息的图像对。
四、动态物体检测模块
将得到的只包含静态场景信息的图像对输入到位姿估计模块2,此时该模块只对可靠的静态场景进行特征抽取,同时利用这些可靠的特征实现对相机位姿的估计。
训练阶段。
步骤一,数据集的准备。
本发明用于训练的数据集为KITTI odometry,此数据集是KITTI数据集的一个子集,主要用于对视觉里程计算法的训练和测试。此数据集是在室外场景下构建的,一共有22个子序列,每个子序列均是双目序列。其中前11个子序列有真值,剩下的11个子序列没有真值。此数据集是在长度约为39.2千米的道路上采集的,一共采集了41000张图像,采集速率为每秒10帧。且此数据集针对每个序列都提供了相机的内参。在本发明中使用带有真值的前11个序列(00-10)。在00-08的9个序列中,03序列作为验证集,其它的8个序列作为训练集,且对于每个序列,本发明分别使用了其左右两个视角的图像。09-10序列作为测试集。在训练过程中,本发明以相邻的三张图片作为一组进行训练,以中间的一张作为目标帧,其余两张图像作为源帧,在构建监督信息时,将会把源帧图像投影到目标帧上得到合成图像,利用合成图像和目标帧图像构建监督信息。且将原图像缩放至832×256的大小。本发明使用随机水平翻转、随机缩放至原尺寸的1.15倍并裁剪至832×256大小两种技术对数据集进行增强,同时对每张图像进行归一化操作。
步骤二,整体模型的训练。
本发明方法一共包含四个子网络模块,分别为深度估计网络模块、两个位姿估计网络模块、残差流估计模块。本发明的训练过程包括两个阶段:第一个阶段,本发明首先对深度估计网络、两个位姿估计网络这三个子网络模块进行训练;第二个阶段,本发明使用训练好的且固定参数的深度估计网络和位姿估计网络1,再加上残差流估计网络,实现对残差流估计网络的训练。在训练开始之前,本发明采用Xavier方法对每个子网络模型进行初始化,此方法能够保证深度神经网络中,每一层输出的方差能够尽量相等,从而使得信息在传递的过程中更好的流动,使得模型能够更好地学到相应的知识。
在本发明中,使用Adam算法实现对网络模型的优化,学习率设置为1e-4,动量参数设置为0.9,beta设置为0.999。第一个阶段的训练需要300代(epoch),每代迭代1000次。第二个阶段的训练需要200代(epoch),每代迭代1000次。
本发明方法两个阶段的训练均为自监督训练,不需要真值作为指导。对第一个阶段的训练本发明采用三种形式的损失函数作为监督信息,最终对这三种损失函数求加权平均。第一种损失函数称为光度损失函数,计算的是目标图像It和合成图像
Figure BDA0002256184780000075
间的光度误差,此误差对光照变化非常敏感,为了降低光照变化的影响,我们引入了结构相似性度量。具体函数如公式(3)所示:
Figure BDA0002256184780000071
其中,Ω表示图像中的所有像素,|Ω|表示图像中像素的个数。M表示去除动态物体后的掩膜图,此项能够消除动态物体对网络训练造成的不利影响,M=1-Mall。λm、和λn分别表示权重系数,设λm=0.15,λn=0.85。It表示目标图像,p表示图像像素,
Figure BDA0002256184780000072
表示由t时刻深度图Dt和It到Is的相机位姿变换Tt->s经过重投影计算得到图像It的合成图(详见Zhou等人在2017年CVPR上提出的论文“Unsupervised Learning of Depth and Ego-Motion fromVideo”),详见公式(4):
Figure BDA0002256184780000073
其中K为相机内参。SSIMt,ts表示图像It
Figure BDA0002256184780000074
的相似性,通过结构相似性函数SSIM(structural similarity index)度量。第二种损失函数称为平滑度损失函数,设置此函数是为了应对光度损失函数在弱纹理区域或均匀区域监督能力的有限性,如果像素位于弱纹理区域或均匀区域,这将会抑制网络的学习,因为在这样的区域像素强度是相似的,那么对此区域的深度估计和借用此区域特征估计得到的相机位姿可以是任意的,只要保证It图像中的弱纹理区域的像素能够投影到Is图像中相应的区域即可。为了降低此情况带来的不利影响,本方法引入具有边缘感知的深度平滑损失,详见公式(5)
Figure BDA0002256184780000081
其中,▽表示求一阶导数,D(p)表示像素p对应的深度。第三种损失函数称为几何一致性损失函数,在同一视点下,同一场景的深度信息应该是一致的,利用此原理构建几何一致性损失,详见公式(6):
Figure BDA0002256184780000082
借此公式能够最小化相邻两张图像间对应的深度信息误差,实现几何一致性的约束。综上,对于第一阶段的损失函数的总体设计如公式(7):
Lall=αLp+βLs+γLg (7)
其中α、β、γ分别为对应损失的权重,分别设置为1、0.1、0.5。
对第二个阶段的训练,本发明采用了公式(5)和公式(8)所示的两种损失函数。对于公式(8)中
Figure BDA0002256184780000083
的计算采用了光流的形式。首先利用公式(9)能够获得对图像中静态场景部分光流的估计fs,利用残差流估计网络能够获得对图像中动态部分光流的估计fr,将这两者估计进行求和得到最终的整体光流fall=fs+fr。获得整体光流fall后,采用公式(10)能够计算It中的每个像素坐标Ct在Is图像中的坐标/>
Figure BDA0002256184780000084
然后利用双线性差值算法实现基于Is对It的合成估计/>
Figure BDA0002256184780000085
Figure BDA0002256184780000086
fs=KTt->sDtK-1It-It (9)
Figure BDA0002256184780000087
综上,第二阶段的损失函数总体设计如公式(11):
L'all=λaL'pbLs (11)
其中λa、λb为权重系数,分别为1、0.2。
使用阶段。
按照前述方法构建图(1)所示的网络结构。注意图(1)中所示的两个深度估计网络为同一个模型,两个位姿估计网络为两个不同的模型,动态物体检测模块处应为残差流估计网络。网络结构构建完成后,载入训练好的模型,并准备测试数据集。然后将数据集输入搭建好的网络模型中,输出的结果即为所需相机位姿。
方法测试。
本发明公开的方法在KITTI odometry数据集的09和10两个序列上进行测试,并且将从可视化结果和量化指标两个方面对本发明和Bian等人提出的方法进行对比,借此说明本发明在动态场景中更为鲁棒。
一、可视化结果对比。
本发明对估计得到的相机位姿进行了可视化,得到相应的相机运动轨迹图,如图5所示,其中(a)和(b)分别为本应用实例在第09和第10序列上的视觉里程计轨迹。其中虚线为真值,实线为Bian等人在2019年NeurIPS上发表的“Unsupervised Scale-consistentDepth and Ego-motion Learning from Monocular Video”中方法的实验结果,点划线为本发明方法的实验结果。实验证明本发明的效果更好,且在一定程度上进一步缓解了轨迹漂移问题。
二、量化评测结果对比。
本发明采用绝对轨迹误差ATE(absolute trajectory error)作为量化指标。通过表1的对比可以看到,在第09序列上,本发明方法指标为0.0062,低于Bian等人提出的方法0.0071。在第10序列上,本发明方法指标为0.0119,同样低于Bian等人提出的方法0.0150。实验结果表明本发明方法在含有动态物体的场景中对相机位姿的估计更为准确。
表1
Figure BDA0002256184780000091
本发明公开了一种基于自监督深度学习的视觉里程计方法,其能够实现对场景中动静态物体的分离,并利用更为可靠的静态场景信息估计相机的运动。本发明的整体框架包含三个模块:深度图估计模块、相机位姿估计模块、动态物体检测模块。训练过程主要分为两个阶段:第一个阶段对深度估计网络,位姿估计网络1和2进行训练;第二个阶段对残差流估计模块进行单独训练。通过测试并对比Bian等人所提方法结果,证明本方法进一步缓解轨迹漂移问题,对相机位姿的估计更为准确,提升了算法在动态场景中的鲁棒性。

Claims (1)

1.一种基于动静态场景分离的视觉里程计方法,其特征在于:由以下四个模块构成:深度图估计模块:采用DispResNet模型,该模型是一个编码器解码器结构,在编码器部分使用了两个卷积层和16个残差模块;解码器部分使用了7个反卷积层和11个残差模块,用于估计得到输入图像对应的深度图;第一相机位姿估计模块:采用一个具有八层卷积结构的编码器实现,用于估计得到输入的相邻两帧图像间相机的相对位姿变换;动态物体检测模块:对帧间变化进行分析,利用帧间的深度信息变化和光流信息实现对动态物体的检测;第二相机位姿估计模块:输入两帧去除动态物体的图像,只利用场景中的静态信息实现对相机位姿变换的估计;
具体包含以下步骤:
步骤1:将图像输入深度图估计模块,计算得到相应的深度图;
步骤2:向第一相机位姿估计模块输入相邻两张图像,对其动静态特征进行提取和鉴别,利用提取到的静态特征实现对相机位姿的估计;
第一相机位姿估计模块中每个卷积层的步长设置为2,实现对特征图的下采样操作;除最后一个卷积层外,其它卷积层后均有一个Relu激活层;对编码器的输出求均值,得到一个含有6个元素的向量,以此作为相机位姿变换P;将P表示成矩阵的形式T:
Figure FDA0004195852840000011
其中,R表示相机的旋转,t表示相机的位移;
步骤3:利用帧间的深度信息变化和光流信息实现对动态物体的检测:
步骤3.1利用深度信息变化对动态物体的检测:
动态物体检测模块通过深度图估计模块分别获得相邻两张图像对应的深度图(D1、D2),通过公式(1)获得它们之间的相机位姿变换T,利用公式
Figure FDA0004195852840000012
通过相机位姿变换矩阵T把深度图D1变换到图像I2对应的深度图/>
Figure FDA0004195852840000013
利用公式(2)实现对动态物体的检测:
Figure FDA0004195852840000014
其中p表示图像中的像素;
步骤3.2利用光流信息对动态物体的检测:
使用残差流估计模块实现对动态物体光流的估计,残差流估计模块是一个编码器解码器结构,编码器由10个卷积层构成,实现下采样操作;解码器由6个反卷积层构成,实现上采样操作;
步骤3.3将对由深度信息和光流信息估计得到的两种动态物体估计进行融合;对由深度信息估计得到的掩膜图Md和由光流信息估计得到的光流图Mf进行求和操作,得到一张最终的掩膜图Mall,以此作为对动态物体的估计;
步骤3.4将动静态场景分离,得到只包含静态场景信息的图像对;
步骤4:将得到的只包含静态场景信息的图像对输入到第二位姿估计模块,此时该模块只对静态场景进行特征抽取,同时利用这些特征实现对相机位姿的估计。
CN201911057343.0A 2019-10-31 2019-10-31 一种基于动静态场景分离的视觉里程计方法 Active CN110910447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911057343.0A CN110910447B (zh) 2019-10-31 2019-10-31 一种基于动静态场景分离的视觉里程计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911057343.0A CN110910447B (zh) 2019-10-31 2019-10-31 一种基于动静态场景分离的视觉里程计方法

Publications (2)

Publication Number Publication Date
CN110910447A CN110910447A (zh) 2020-03-24
CN110910447B true CN110910447B (zh) 2023-06-06

Family

ID=69816070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911057343.0A Active CN110910447B (zh) 2019-10-31 2019-10-31 一种基于动静态场景分离的视觉里程计方法

Country Status (1)

Country Link
CN (1) CN110910447B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592875B (zh) * 2020-04-30 2024-01-23 阿里巴巴集团控股有限公司 数据处理方法、图像处理方法、存储介质及计算设备
US11398095B2 (en) 2020-06-23 2022-07-26 Toyota Research Institute, Inc. Monocular depth supervision from 3D bounding boxes
CN111950599B (zh) * 2020-07-20 2022-07-01 重庆邮电大学 一种动态环境下融合边缘信息的稠密视觉里程计方法
CN111982103B (zh) * 2020-08-14 2021-09-14 北京航空航天大学 一种权值优化的点线综合视觉惯性里程计方法
CN112150531B (zh) * 2020-09-29 2022-12-09 西北工业大学 一种鲁棒的自监督学习单帧图像深度估计方法
CN112344922B (zh) * 2020-10-26 2022-10-21 中国科学院自动化研究所 单目视觉里程计定位方法及系统
CN112184611A (zh) * 2020-11-03 2021-01-05 支付宝(杭州)信息技术有限公司 图像生成模型训练方法以及装置
CN112686952A (zh) * 2020-12-10 2021-04-20 中国科学院深圳先进技术研究院 一种图像光流计算系统、方法及应用
CN112561947A (zh) * 2020-12-10 2021-03-26 中国科学院深圳先进技术研究院 一种图像自适应运动估计方法及应用
CN112561978B (zh) * 2020-12-18 2023-11-17 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN112733616B (zh) * 2020-12-22 2022-04-01 北京达佳互联信息技术有限公司 一种动态图像的生成方法、装置、电子设备和存储介质
CN112802053B (zh) * 2021-01-27 2023-04-11 广东工业大学 一种面向动态环境稠密建图的动态物体检测方法
CN112967317B (zh) * 2021-03-09 2022-12-06 北京航空航天大学 一种动态环境下基于卷积神经网络架构的视觉里程计方法
CN113920153B (zh) * 2021-09-15 2024-05-28 北京工业大学 基于编码-解码网络的深度运动分离方法
CN114239736A (zh) * 2021-12-21 2022-03-25 北京地平线信息技术有限公司 光流估计模型的训练方法和装置
CN114612510B (zh) * 2022-03-01 2024-03-29 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序产品
CN114663496B (zh) * 2022-03-23 2022-10-18 北京科技大学 一种基于卡尔曼位姿估计网络的单目视觉里程计方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102209008B1 (ko) * 2014-02-17 2021-01-28 삼성전자주식회사 카메라 포즈 추정 장치 및 카메라 포즈 추정 방법
CN110163909A (zh) * 2018-02-12 2019-08-23 北京三星通信技术研究有限公司 用于获得设备位姿的方法、装置和存储介质
CN108846857A (zh) * 2018-06-28 2018-11-20 清华大学深圳研究生院 视觉里程计的测量方法及视觉里程计
CN108986166A (zh) * 2018-07-20 2018-12-11 山东大学 一种基于半监督学习的单目视觉里程预测方法及里程计
CN109272493A (zh) * 2018-08-28 2019-01-25 中国人民解放军火箭军工程大学 一种基于递归卷积神经网络的单目视觉里程计方法
CN109387204B (zh) * 2018-09-26 2020-08-28 东北大学 面向室内动态环境的移动机器人同步定位与构图方法
CN109903332A (zh) * 2019-01-08 2019-06-18 杭州电子科技大学 一种基于深度学习的目标姿态估计方法
CN109801337B (zh) * 2019-01-21 2020-10-02 同济大学 一种基于实例分割网络和迭代优化的6d位姿估计方法
CN109993113B (zh) * 2019-03-29 2023-05-02 东北大学 一种基于rgb-d和imu信息融合的位姿估计方法
CN110335337B (zh) * 2019-04-28 2021-11-05 厦门大学 一种基于端到端半监督生成对抗网络的视觉里程计的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Novel qualitative visual odometry for a ground: Vehicle based on funnel lane concept;Mohamad Mahdi Kassir 等;2017 10th Iranian Conference on Machine Vision and Image Processing (MVIP);全文 *
动态环境下基于线特征的RGB-D 视觉里程计;张慧娟等;机器人;全文 *

Also Published As

Publication number Publication date
CN110910447A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110910447B (zh) 一种基于动静态场景分离的视觉里程计方法
US11238606B2 (en) Method and system for performing simultaneous localization and mapping using convolutional image transformation
CN111311666B (zh) 一种融合边缘特征和深度学习的单目视觉里程计方法
Koch Dynamic 3-D scene analysis through synthesis feedback control
Varanasi et al. Temporal surface tracking using mesh evolution
CN111275518A (zh) 一种基于混合光流的视频虚拟试穿方法及装置
CN105404888B (zh) 结合颜色和深度信息的显著性目标检测方法
Armagan et al. Measuring generalisation to unseen viewpoints, articulations, shapes and objects for 3D hand pose estimation under hand-object interaction
CN104794737B (zh) 一种深度信息辅助粒子滤波跟踪方法
CN104869387A (zh) 基于光流法的双目图像最大视差获取方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN102881011A (zh) 基于区域分割的肖像光照迁移方法
CN112819853B (zh) 一种基于语义先验的视觉里程计方法
CN112686952A (zh) 一种图像光流计算系统、方法及应用
Jin et al. Face depth prediction by the scene depth
CN117274515A (zh) 基于ORB和NeRF映射的视觉SLAM方法及系统
Vobecký et al. Artificial dummies for urban dataset augmentation
Wang et al. Recurrent neural network for learning densedepth and ego-motion from video
CN116188550A (zh) 一种基于几何约束的自监督深度视觉里程计
Da Silveira et al. Indoor depth estimation from single spherical images
Khan et al. Towards monocular neural facial depth estimation: Past, present, and future
Babu V et al. A deeper insight into the undemon: Unsupervised deep network for depth and ego-motion estimation
Nobis et al. Exploring the capabilities and limits of 3d monocular object detection-a study on simulation and real world data
CN115330874A (zh) 基于超像素处理遮挡的单目深度估计方法
Zhang et al. Unsupervised learning of depth estimation based on attention model from monocular images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant