CN110910447B

CN110910447B - 一种基于动静态场景分离的视觉里程计方法

Info

Publication number: CN110910447B
Application number: CN201911057343.0A
Authority: CN
Inventors: 马伟; 贾兆款
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-06-06
Anticipated expiration: 2039-10-31
Also published as: CN110910447A

Abstract

本发明公开了一种基于动静态场景分离的视觉里程计方法，该方法是一个深度卷积神经网络模型，能够通过帧间变化分析实现动静态场景分离，并利用可靠的静态场景信息实现相机位姿的计算。该模型由三个子任务构成，分别为深度估计、相机位姿估计、动态物体检测。与现有技术相比，本发明具有以下优点：1)模型通过帧间变化分析，利用动态场景中深度信息的不一致性以及光流信息实现对场景的动静态分离，在此基础上利用更加可靠的静态场景信息实现相机位姿估计；2)利用估计得到的深度信息和相机位姿变换信息，使用T时刻的图像合成T+1时刻的图像，利用T+1时刻的合成图及其原图实现自监督学习，无需监督学习需要的昂贵代价。

Description

一种基于动静态场景分离的视觉里程计方法

技术领域

本发明属于数字图像处理与计算机视觉技术领域，涉及一种基于动静态场景分离的视觉里程计方法。

背景技术

视觉里程计是指通过分析相关图像序列计算得到相机的位置和姿态(简称位姿)的过程，是计算机视觉研究中的一个重要课题。视觉里程计是视觉SLAM(SimultaneousLocalization And Mapping)的重要组成部分，它更关注于计算相机的位姿，在三维重建、移动机器人、自动驾驶、虚拟现实、增强现实等领域有广泛应用。由于受到噪声、动态物体、遮挡等问题影响，视觉里程计计算极具挑战。

传统视觉里程计方法主要利用相邻图像中特征点的匹配关系及其几何关系计算相机的位姿，特征点的稀疏性导致传统方法不能充分利用图像信息。随着深度学习技术的发展，尤其是卷积神经网络的出现，其强大的特征提取和表达能力，使得卷积神经网络对图像信息的利用更加充分，众多计算机视觉任务也得到长足进步。基于此，众多研究人员将卷积神经网络应用到视觉里程计计算中，并得到了良好的结果。然而，基于神经网络的视觉里程计算法在面对动态场景时依然不够鲁棒，将动静态场景进行分离并利用静态场景信息计算视觉里程计成为一个热点研究问题。Bian等人在2019年NeurIPS上发表了“UnsupervisedScale-consistent Depth and Ego-motion Learning from Monocular Video”方法。该方法指出相邻两张图像分别对应的深度图深度信息应是一致，从而实现尺度一致性约束，利用两张深度图的差值实现对动态物体的检测。实验结果证明该方法取得了先进的成果。但是该方法对动态信息的利用不够充分，计算得到的相机轨迹存在漂移问题，位姿的计算精度有待进一步提升。

发明内容

针对现有视觉里程计方法难以适应动态场景的问题，本发明提出一种基于动静态场景分离的视觉里程计方法，该方法利用帧间变化信息实现对动态物体的检测，借此实现动静态场景的分离。实验证明，本发明能够实现对动态物体的有效检测，并在一定程度上缓解了轨迹漂移问题，提升了相机位姿的计算精度，使其在动态场景中更为鲁棒。

为实现这个目标，本发明的技术方案是：构建一种卷积神经网络模型，实现基于动静态场景分离的视觉里程计计算。该模型利用帧间变化信息实现对动态物体的检测，在此基础上分离出静态场景，利用稳定可靠的静态场景信息实现对相机位姿的估计。该模型在训练数据集上进行训练，使用训练得到的最终模型在测试集上进行实验，输出对应的相机位姿。

一种基于动静态场景分离的视觉里程计方法，由以下四个模块构成：

1)深度图估计模块：采用DispResNet模型，该模型是一个编解码器结构，在编码器部分使用了两个卷积层和16个残差模块；解码器部分使用了7个反卷积层和11个残差模块，用于估计得到输入图像对应的深度图；

2)相机位姿估计模块1：采用一个具有八层卷积结构的编码器实现，用于估计得到输入的相邻两帧图像间相机的相对位姿变换；

3)动态物体检测模块：对帧间变化进行分析，利用帧间的深度信息变化和光流信息实现对动态物体的检测；

4)相机位姿估计模块2：输入两帧去除动态物体的图像，只利用场景中的静态信息实现对相机位姿变换的估计。

本方法包含以下步骤：

步骤1：将图像输入深度图估计模块，计算得到相应的深度图；

步骤2：向相机位姿估计模块1输入相邻两张图像，对其动静态特征进行提取和鉴别，利用提取到的静态特征实现对相机位姿的估计；

相机位姿估计模块1中每个卷积层的步长设置为2，实现对特征图的下采样操作；除最后一个卷积层外，其它卷积层后均有一个Relu激活层；对编码器的输出求均值，得到一个含有6个元素的向量，以此作为相机位姿变换P；本发明还可以将P表示成矩阵的形式T：

步骤3：利用帧间的深度信息变化和光流信息实现对动态物体的检测：

步骤3.1利用深度信息变化对动态物体的检测：

动态物体检测模块通过深度图估计模块分别能够获得相邻两张图像对应的深度图(D₁、D₂)，通过相机位姿估计模块获得它们之间的相机位姿变换T，利用公式

通过相机位姿变换矩阵T把深度图D₁变换到图像I2对应的深度图/>

在此基础上利用如下公式(2)能够实现对动态物体的检测：

其中p表示图像中的像素；

步骤3.2利用光流信息对动态物体的检测：

使用残差流估计模块实现对动态物体光流的估计，残差流估计模块是一个编解码器结构，编码器由10个卷积层构成，实现下采样操作；解码器由6个反卷积层构成，实现上采样操作；该网络在FlowNetSimple结构的最后加上两层反卷积层，使得输入此残差流估计模块的图像和输出此残差流估计模块的光流，两者的尺寸是一样的；

步骤3.3将对由深度信息和光流信息估计得到的两种动态物体估计进行融合，提升对动态物体估计的精度；即对由深度信息估计得到的掩膜图M_d和由光流信息估计得到的光流图M_f进行求和操作，得到一张最终的掩膜图M_all，以此作为对动态物体的估计，即M_all＝M_d+M_f；

步骤3.4将动静态场景分离，得到只包含静态场景信息的图像对；

步骤4：将得到的只包含静态场景信息的图像对输入到位姿估计模块2，此时该模块只对可靠的静态场景进行特征抽取，同时利用这些可靠的特征实现对相机位姿的估计。

本方法中的模型训练过程包含以下两个阶段：

一、训练数据集的准备。选择KITTI odometry数据集作为训练数据集，并进行数据增强和相机内参预处理。

二、整体模型的训练。训练将分为两个阶段。首先利用Xavier方法对网络参数初始化。在第一个阶段，计算光度误差、平滑度误差、几何一致性误差，并对这三者加权求和作为总的损失函数，实现对整体网络的自监督训练。在第二个阶段，计算光度误差和平滑度误差并对此加权求和，以此作为总的损失函数实现自监督训练。

有益效果

本发明具有以下优点

1)模型通过帧间变化分析，利用动态场景中深度信息的不一致性和光流信息实现对场景的动静态分离，在此基础上利用更加可靠的静态场景信息实现相机位姿估计；

2)模型利用估计得到的深度信息和相机位姿变换信息以及T时刻的图像合成T+1时刻的图像，利用T+1时刻的合成图和原图实现自监督学习，无需监督学习需要的昂贵代价。实验证明：相比现有方法，本发明方法进一步缓解了相机运动轨迹漂移问题，同时计算得到的相机位姿的精度得到进一步提升，在动态场景下的鲁棒性更强。

附图说明

图1为本发明方法的网络框架示意图；I1和I2分别表示相邻两帧图像，D1和D2分别表示对应的两张深度图，Pose1和Pose2均为I1和I2间的相机位姿变换；Mask1表示检测得到的动态物体。

图2(a)为本发明实例的深度估计网络结构示意图，是一个编解码器。(b)和(c)为深度估计网络中用到的两种残差模块。(b)模块为conv_x中的黑色方块，(c)模块为conv_x和upconv_x的最右侧部分中的浅色方块。(a)中带斜线和横线的方块表示特征图拼接操作，剩余部分为卷积操作。

图3为本发明实例的位姿估计网络结构示意图，输入为在颜色通道上拼接到一起的相邻两帧图像，输出为这两帧图像间的相对相机位姿变化。

图4为本发明实例的动态物体检测模块用到的残差流估计网络结构示意图。此模块实现对相邻两幅图像中动态物体光流的估计。

图5为应用实例实验结果：(a)和(b)分别为本应用实例在KITTI odometry数据集第09和第10序列上的视觉里程计轨迹。其中虚线为真值，实线为Bian等人在2019年NeurIPS上发表的“Unsupervised Scale-consistent Depth and Ego-motion Learning fromMonocular Video”中方法的实验结果，点划线为本发明方法的实验结果。

具体实施方式

本发明基于深度学习的开源工具pytorch实现，使用GPU处理器NVIDIA TITAN X训练网络模型。

下面结合附图和具体实施方式对本发明方法中各个模块构成，以及方法模型的训练和使用方法做进一步说明，应理解文中的具体实例说明仅用于说明本发明，而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明的模块组成和流程如图1所示，具体包括如下模块：

一、深度图估计模块

深度图估计模块采用Ranjan等人在论文“Competitive Collaboration:JointUnsupervised Learning of Depth,Camera Motion,Optical Flow and MotionSegmentation”中使用的DispResNet模型。该模型是一个编解码器结构，如图2(a)所示。在编码器部分使用了两个卷积层和16个残差模块。解码器部分使用了7个反卷积层和11个残差模块。将图像输入此网络模块，计算得到相应的深度图。

在本发明中只使用了一个深度估计网络，但是在本发明方法运行过程中分别调用两次深度估计网络实现对相邻两张图片的深度估计。

二、相机位姿估计模块

本实施例中，本发明采用一个简单地具有八层卷积结构的编码器实现相机位姿估计模块。该模块中每个卷积层的步长设置为2，实现对特征图的下采样操作；除最后一个卷积层外，其它卷积层后均有一个Relu激活层。对编码器的输出求均值，得到一个含有6个元素的向量，以此作为相机位姿变换P。本发明还可以将P表示成矩阵的形式T：

其中，R表示相机的旋转，t表示相机的位移。

在本发明中，使用了两个上述相机位姿估计模块，如图(1)所示的位姿估计网络1和位姿估计网络2。位姿估计网络1输入的是相邻的两张图像，其所示的场景中会存在动态物体，此时位姿估计网络1需要隐式地完成两个任务，其一是实现对动静态特征的提取和鉴别，其二是利用提取得到的静态特征实现对相机位姿的估计。实际情况下，由于此模块是对提取得到的动静态特征进行隐式分离，分离结果不太可靠，故对相机位姿进行估计时会受到提取得到的动态特征的影响，导致相机位姿的估计不够准确。同时相机位姿估计网络1对双任务的建模能力不够强。由此本发明引入了动态物体检测模块实现对动静态场景的分离，得到只包含静态场景信息的图像对，将此图像对输入到位姿估计网络2，此时该网络只对可靠的静态场景进行特征抽取，同时利用这些可靠的特征实现对相机位姿的估计。位姿估计网络2只对静态场景信息实现建模，建模能力更强。

三、相机位姿估计模块2

视觉里程计估计主要是利用相邻两张图像之间匹配特征的对应关系，结合2D-2D对极几何约束实现对相机位姿的求解。在求解视觉里程计的过程中，本发明可以将场景中的运动分为两种，一种是相机自身相对静态场景的运动，一种是相机相对于场景中动态物体的运动。视觉里程计的目的是求解相机自身相对静态场景的运动，这就要求利用的相邻两张图像间对应的特征必须为从静态场中提取得到的特征。由此，本发明需要去除场景中存在的动态物体，以消除动态物体对相机位姿求解带来的不利影响，提升视觉里程计算法在动态场景中的鲁棒性。在本模块中，本发明将利用深度信息和光流信息实现对场景中动态物体的检测。

在深度图估计模块和相机位姿估计模块，分别能够获得相邻两张图像对应的深度图(D₁、D₂)和它们之间的相机位姿变换T。利用公式

在此基础上利用如下公式(2)能够实现对动态物体的检测：

其中p表示图像中的像素。同时，本发明还利用光流信息实现对动态物体的检测。本发明使用图4所示的网络结构实现对动态物体光流的估计。该网络结构是一个编解码器结构，编码器由10个卷积层构成，实现下采样操作；解码器由6个反卷积层构成，实现上采样操作。该网络参考Fischer等人在2015年ICCV上发表的“FlowNet:Learning Optical Flowwith Convolutional Networks”论文中的FlowNetSimple结构，并作出了一些修改，在FlowNetSimple的最后加上两层反卷积层，使得输入和输出的图像尺寸一样大，详见网络结构详图4。

本模块将对由深度信息和光流信息估计得到的两种动态物体估计进行融合，提升对动态物体估计的精度。即对由深度信息估计得到的掩膜图M_d和由光流信息估计得到的光流图M_f进行求和操作，得到一张最终的掩膜图M_all，以此作为对动态物体的估计，即M_all＝M_d+M_f。将动静态场景分离，得到只包含静态场景信息的图像对。

四、动态物体检测模块

将得到的只包含静态场景信息的图像对输入到位姿估计模块2，此时该模块只对可靠的静态场景进行特征抽取，同时利用这些可靠的特征实现对相机位姿的估计。

训练阶段。

步骤一，数据集的准备。

本发明用于训练的数据集为KITTI odometry，此数据集是KITTI数据集的一个子集，主要用于对视觉里程计算法的训练和测试。此数据集是在室外场景下构建的，一共有22个子序列，每个子序列均是双目序列。其中前11个子序列有真值，剩下的11个子序列没有真值。此数据集是在长度约为39.2千米的道路上采集的，一共采集了41000张图像，采集速率为每秒10帧。且此数据集针对每个序列都提供了相机的内参。在本发明中使用带有真值的前11个序列(00-10)。在00-08的9个序列中，03序列作为验证集，其它的8个序列作为训练集，且对于每个序列，本发明分别使用了其左右两个视角的图像。09-10序列作为测试集。在训练过程中，本发明以相邻的三张图片作为一组进行训练，以中间的一张作为目标帧，其余两张图像作为源帧，在构建监督信息时，将会把源帧图像投影到目标帧上得到合成图像，利用合成图像和目标帧图像构建监督信息。且将原图像缩放至832×256的大小。本发明使用随机水平翻转、随机缩放至原尺寸的1.15倍并裁剪至832×256大小两种技术对数据集进行增强，同时对每张图像进行归一化操作。

步骤二，整体模型的训练。

本发明方法一共包含四个子网络模块，分别为深度估计网络模块、两个位姿估计网络模块、残差流估计模块。本发明的训练过程包括两个阶段：第一个阶段，本发明首先对深度估计网络、两个位姿估计网络这三个子网络模块进行训练；第二个阶段，本发明使用训练好的且固定参数的深度估计网络和位姿估计网络1，再加上残差流估计网络，实现对残差流估计网络的训练。在训练开始之前，本发明采用Xavier方法对每个子网络模型进行初始化，此方法能够保证深度神经网络中，每一层输出的方差能够尽量相等，从而使得信息在传递的过程中更好的流动，使得模型能够更好地学到相应的知识。

在本发明中，使用Adam算法实现对网络模型的优化，学习率设置为1e-4，动量参数设置为0.9，beta设置为0.999。第一个阶段的训练需要300代(epoch)，每代迭代1000次。第二个阶段的训练需要200代(epoch)，每代迭代1000次。

本发明方法两个阶段的训练均为自监督训练，不需要真值作为指导。对第一个阶段的训练本发明采用三种形式的损失函数作为监督信息，最终对这三种损失函数求加权平均。第一种损失函数称为光度损失函数，计算的是目标图像I_t和合成图像

间的光度误差，此误差对光照变化非常敏感，为了降低光照变化的影响，我们引入了结构相似性度量。具体函数如公式(3)所示：

其中，Ω表示图像中的所有像素，|Ω|表示图像中像素的个数。M表示去除动态物体后的掩膜图，此项能够消除动态物体对网络训练造成的不利影响，M＝1-M_all。λ_m、和λ_n分别表示权重系数，设λ_m＝0.15，λ_n＝0.85。I_t表示目标图像，p表示图像像素，

表示由t时刻深度图D_t和I_t到I_s的相机位姿变换T_t-＞s经过重投影计算得到图像I_t的合成图(详见Zhou等人在2017年CVPR上提出的论文“Unsupervised Learning of Depth and Ego-Motion fromVideo”)，详见公式(4):

其中K为相机内参。SSIM_t,ts表示图像I_t和

的相似性，通过结构相似性函数SSIM(structural similarity index)度量。第二种损失函数称为平滑度损失函数，设置此函数是为了应对光度损失函数在弱纹理区域或均匀区域监督能力的有限性，如果像素位于弱纹理区域或均匀区域，这将会抑制网络的学习，因为在这样的区域像素强度是相似的，那么对此区域的深度估计和借用此区域特征估计得到的相机位姿可以是任意的，只要保证I_t图像中的弱纹理区域的像素能够投影到I_s图像中相应的区域即可。为了降低此情况带来的不利影响，本方法引入具有边缘感知的深度平滑损失，详见公式(5)

其中，▽表示求一阶导数，D(p)表示像素p对应的深度。第三种损失函数称为几何一致性损失函数，在同一视点下，同一场景的深度信息应该是一致的，利用此原理构建几何一致性损失，详见公式(6)：

借此公式能够最小化相邻两张图像间对应的深度信息误差，实现几何一致性的约束。综上，对于第一阶段的损失函数的总体设计如公式(7)：

L_all＝αL_p+βL_s+γL_g (7)

其中α、β、γ分别为对应损失的权重，分别设置为1、0.1、0.5。

对第二个阶段的训练，本发明采用了公式(5)和公式(8)所示的两种损失函数。对于公式(8)中

的计算采用了光流的形式。首先利用公式(9)能够获得对图像中静态场景部分光流的估计f_s，利用残差流估计网络能够获得对图像中动态部分光流的估计f_r，将这两者估计进行求和得到最终的整体光流f_all＝f_s+f_r。获得整体光流f_all后，采用公式(10)能够计算I_t中的每个像素坐标C_t在I_s图像中的坐标/>

然后利用双线性差值算法实现基于I_s对I_t的合成估计/>

f_s＝KT_t-＞sD_tK^-1I_t-I_t (9)

综上，第二阶段的损失函数总体设计如公式(11)：

L'_all＝λ_aL'_p+λ_bL_s (11)

其中λ_a、λ_b为权重系数，分别为1、0.2。

使用阶段。

按照前述方法构建图(1)所示的网络结构。注意图(1)中所示的两个深度估计网络为同一个模型，两个位姿估计网络为两个不同的模型，动态物体检测模块处应为残差流估计网络。网络结构构建完成后，载入训练好的模型，并准备测试数据集。然后将数据集输入搭建好的网络模型中，输出的结果即为所需相机位姿。

方法测试。

本发明公开的方法在KITTI odometry数据集的09和10两个序列上进行测试，并且将从可视化结果和量化指标两个方面对本发明和Bian等人提出的方法进行对比，借此说明本发明在动态场景中更为鲁棒。

一、可视化结果对比。

本发明对估计得到的相机位姿进行了可视化，得到相应的相机运动轨迹图，如图5所示，其中(a)和(b)分别为本应用实例在第09和第10序列上的视觉里程计轨迹。其中虚线为真值，实线为Bian等人在2019年NeurIPS上发表的“Unsupervised Scale-consistentDepth and Ego-motion Learning from Monocular Video”中方法的实验结果，点划线为本发明方法的实验结果。实验证明本发明的效果更好，且在一定程度上进一步缓解了轨迹漂移问题。

二、量化评测结果对比。

本发明采用绝对轨迹误差ATE(absolute trajectory error)作为量化指标。通过表1的对比可以看到，在第09序列上，本发明方法指标为0.0062，低于Bian等人提出的方法0.0071。在第10序列上，本发明方法指标为0.0119，同样低于Bian等人提出的方法0.0150。实验结果表明本发明方法在含有动态物体的场景中对相机位姿的估计更为准确。

表1

本发明公开了一种基于自监督深度学习的视觉里程计方法，其能够实现对场景中动静态物体的分离，并利用更为可靠的静态场景信息估计相机的运动。本发明的整体框架包含三个模块：深度图估计模块、相机位姿估计模块、动态物体检测模块。训练过程主要分为两个阶段：第一个阶段对深度估计网络，位姿估计网络1和2进行训练；第二个阶段对残差流估计模块进行单独训练。通过测试并对比Bian等人所提方法结果，证明本方法进一步缓解轨迹漂移问题，对相机位姿的估计更为准确，提升了算法在动态场景中的鲁棒性。

Claims

1.一种基于动静态场景分离的视觉里程计方法，其特征在于：由以下四个模块构成：深度图估计模块：采用DispResNet模型，该模型是一个编码器解码器结构，在编码器部分使用了两个卷积层和16个残差模块；解码器部分使用了7个反卷积层和11个残差模块，用于估计得到输入图像对应的深度图；第一相机位姿估计模块：采用一个具有八层卷积结构的编码器实现，用于估计得到输入的相邻两帧图像间相机的相对位姿变换；动态物体检测模块：对帧间变化进行分析，利用帧间的深度信息变化和光流信息实现对动态物体的检测；第二相机位姿估计模块：输入两帧去除动态物体的图像，只利用场景中的静态信息实现对相机位姿变换的估计；

具体包含以下步骤：

步骤2：向第一相机位姿估计模块输入相邻两张图像，对其动静态特征进行提取和鉴别，利用提取到的静态特征实现对相机位姿的估计；

第一相机位姿估计模块中每个卷积层的步长设置为2，实现对特征图的下采样操作；除最后一个卷积层外，其它卷积层后均有一个Relu激活层；对编码器的输出求均值，得到一个含有6个元素的向量，以此作为相机位姿变换P；将P表示成矩阵的形式T：

其中，R表示相机的旋转，t表示相机的位移；

步骤3.1利用深度信息变化对动态物体的检测：

动态物体检测模块通过深度图估计模块分别获得相邻两张图像对应的深度图(D₁、D₂)，通过公式(1)获得它们之间的相机位姿变换T，利用公式

利用公式(2)实现对动态物体的检测：

其中p表示图像中的像素；

步骤3.2利用光流信息对动态物体的检测：

使用残差流估计模块实现对动态物体光流的估计，残差流估计模块是一个编码器解码器结构，编码器由10个卷积层构成，实现下采样操作；解码器由6个反卷积层构成，实现上采样操作；

步骤3.3将对由深度信息和光流信息估计得到的两种动态物体估计进行融合；对由深度信息估计得到的掩膜图M_d和由光流信息估计得到的光流图M_f进行求和操作，得到一张最终的掩膜图M_all，以此作为对动态物体的估计；

步骤4：将得到的只包含静态场景信息的图像对输入到第二位姿估计模块，此时该模块只对静态场景进行特征抽取，同时利用这些特征实现对相机位姿的估计。