CN110490928A

CN110490928A - 一种基于深度神经网络的相机姿态估计方法

Info

Publication number: CN110490928A
Application number: CN201910603891.2A
Authority: CN
Inventors: 侯永宏; 李翔宇; 吴琦; 李岳阳; 郭子慧; 刘艳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-11-22
Anticipated expiration: 2039-07-05
Also published as: CN110490928B

Abstract

本发明公开了一种基于深度神经网络的相机姿态估计方法，步骤如下：1)构建相机姿态估计网络；2)构建无监督训练方案，利用估计的深度图、帧间相对位姿及光流从输入的前后帧图像中分别重建出相应的图像，利用输入图像和重建图像之间的光度误差构建网络的损失函数；3)位姿估计模块与光流估计模块共享特征提取部分，加强特征对于帧间的几何联系；4)输入待训练单视点视频，输出对应帧间相对位姿，通过最优化手段降低损失函数来训练模型，以至网络达到收敛。本发明所提出的模型通过输入单视点视频序列输出对应序列的相机位姿，训练过程以一种端到端无监督的方式进行，通过光流与位姿联合训练，提高位姿估计性能。

Description

一种基于深度神经网络的相机姿态估计方法

技术领域

本发明属于计算机视觉领域，涉及相机姿态估计方法，尤其是一种基于深度神经网络的相机姿态估计方法。

背景技术

相机姿态估计，作为即时定位与建图(SLAM)技术中最重要的部分，在过去的几十年引起了计算机视觉领域以及机器人社区的广泛关注。目前已被广泛地应用于各种机器人的GPS全球定位系统、惯性导航系统(INS)等各个方面。

传统的姿态估计算法诸如ORB-SLAM、VINS-mono等虽然能达到相当高的精度，然而这些算法对于经常无法应对场景的变化，对于纹理较为稀疏的图像处理效果也会大打折扣。卷积神经网络(CNN)已经在目标检测、跟踪等传统计算机视觉任务中获得了较好的效果，利用CNN从输入图像序列中提取特征并回归位姿已经成为近年来的热门。利用CNN来进行相机位姿估计主要有2类：有监督位姿估计与无监督位姿估计。相比于需要位姿标签进行训练的有监督方法，基于无监督估计的位姿方法可以最大程度的利用训练数据。

基于深度学习的位姿估计方法十分依赖于提取的特征，特征表示的性质决定了位姿估计的效果，利用与图像表面信息相关的特征训练的位姿网络往往在陌生场景中表现的较差。所以相机位姿估计任务是一项十分依赖于几何特征的任务。

发明内容

本发明基于深度神经网络的相机姿态估计方法，采用无监督训练方式，通过引入光流和位姿联合训练策略，使得提取的特征具备场景几何特征并且提高位姿估计的精度。

本发明为解决其技术问题采用如下技术方案：

所述的相机姿态估计网络，包含有三个子网络，深度估计子网络、光流估计子网络、位姿估计子网络。

其中深度估计子网络采用层叠卷积神经网络、光流估计子网络采用反卷积网络结构，位姿估计子网络采用全连接层组合。

输入单视点视频的连续两帧视图I_t-1，I_t，深度估计子网络输出t时刻的深度图D_t，光流子网络输出帧间光流f_t-1→t，位姿子网络输出帧间相对位姿T_t→t-1。

利用空间投影关系得到t帧坐标在t-1帧坐标上的投影p′_t-1：

p′_t-1＝KT_t→t-1D_t(p_t)K^-1p_t

其中p′_t-1为投影在I_t-1上的坐标，K为相机内参，T_t→t-1为估计的相机位姿，p_t为I_t上的坐标，D_t(p_t)为在p_t的深度。

通过光流坐标几何关系得到t-1帧坐标在t帧坐标上的投影p′_t：

p′_t＝f_t-1→t(p_t-1)+p_t-1

其中p′_t为投影在I_t上的坐标，f_t-1→t(p_t-1)为在p_t-1处的光流，p_t-1为I_t-1上的坐标。

得到相应的投影坐标p′_t-1和p′_t后，利用双线性插值分别从t-1帧I_t-1，t帧I_t中合成I′_t及I′_t-1。通过构建原图像和重建图像之间的光度误差来构建基础监督损失：

L＝∑_s|I′_t-I_t|+|I′_t-₁-I_t-₁l

其中L为损失函数，I_t和I_t-1为输入的原图，I′_t和I′_t-1为重建的视图，s为不同分辨率下的图像。

利用光流提取输入两帧之间几何关联的特性，对位姿子网络与光流子网络做一个联合训练即用同一个特征抓取网络给两个子网络输送特征。利用光流估计做一个辅助过程，抓取带有几何信息的特征来对位姿估计任务做一个加强。

输入一定分辨率下的单目视频序列，输出其对应两帧之间的相对位姿。同时利用最优化的手段对损失函数进行降低，直至降低至模型收敛，得到最优化的模型参数。

本发明的优点和有益效果如下：

1、本发明提出的一种深度神经网络的相机姿态估计方法。本发明基于无监督深度学习，训练过程中不需要已知的位姿标签，可以最大幅度利用训练数据。

2、本发明网络结构包含3个子网络，3个子网络利用几何约束同时以端到端的方式进行训练而不需要后处理。

3、本发明通过利用位姿估计与光流估计进行联合训练，能够有效的提取到几何信息，提高了位姿估计的性能。

4、本发明的位姿估计模型能够在测试阶段以绝对尺度恢复出视频序列的位姿，能够应用在现实世界中。

附图说明

图1为本发明相机姿态估计方法的网络结构图；

图2为位姿估计全局轨迹图。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

具体步骤如下：

1)构建相机姿态估计网络，如图1所示，模型基于层叠卷积神经网络结构设计，包含卷积层，反卷积层及全连接层等；

本发明位姿估计网络主要由3个子网络组成，包含深度估计子网络、光流估计子网络、位姿估计子网络。

其中深度估计子网络采用DispNet作为主体部分，其中前端编码网络部分采用层叠卷积网络，两层相同的卷积层组成一个卷积块，编码部分一共有4组卷积块，其中卷积核大小均为3*3；后端解码网络部分采用上采样卷积层与卷积层层叠组成，上采样卷积将低分辨率的特征图放大到原先的两倍大小进行卷积操作，解码网络部分的卷积核大小也为3*3。深度子网络的激活函数均为Relu(线性修正单元)。

位姿子网络由特征提取子网络与全连接网络组成，特征提取子网络为5层卷积层组成，对输入的RGB进行特征提取，同时为位姿子网络提供特征去估计帧间相对位姿。位姿估计器将提取的特征图进行展平后输入至两组层叠全连接网络中，两组全连接网络分别输出位姿的旋转量(rotation)与平移量(translation)，其中全连接层的输出分别为512、512、3。

光流子网络采用解码器结构，网络主要由反卷积层与卷积层层叠组成，卷积核均为3*3，激活函数为与深度子网络一致，也是采用Relu激活函数。

构建无监督训练方案，输入单视点视频连续两帧，神经网络输出对应前一帧深度图、帧间相对位姿、光流。利用估计的深度图、帧间相对位姿及光流从输入的前后帧图像中分别重建出相应的图像。利用输入图像和重建图像之间的光度误差构建网络的监督损失函数；

输入一定分辨率下的单视点视频的连续两帧视图I_t-1，I_t，深度估计子网络输出t时刻的深度图D_t，光流子网络输出帧间光流f_t-1→t，位姿子网络输出帧间相对位姿T_t→t-1。由于本发明以端到端无监督的方式训练整个位姿估计网络框架，故需要构建监督信号分别对3个子网络进行监督。

给定估计的深度图D_t与帧间相对位姿T_t→t-1，利用相机坐标系与世界坐标系及前后图像之间的投影关系，可以得到t帧坐标在t-1帧坐标上的投影p′_t-1，具体公式如下：

p′_t-1＝KT_t→t-1D_t(p_t)K-1p_t

其中p′_t-1为投影在I_t-1上的坐标，K为相机内参，T_t→t-1为估计的相机位姿，p_t为I_t上的坐标，D_t(p_t)为在p_t的深度。得到投影坐标p′_t-1，利用双线性插值可以由输入图像I_t-1中重建出I′_t。通过对输入的I_t与重建的I′_t之间的光度误差作为损失函数来监督位姿子网络与深度子网络。

其中L₁为损失函数，I_t为输入的原图，I′_t为重建的视图，s为不同分辨率下的图像。

对于光流子网络，从输入帧中估计出f_t-1→t，利用光流与前后帧坐标之间的关系，可以计算得到t-1帧坐标在t帧坐标上的投影p′_t：

p′_t＝f_t-1→t(p_t-1)+p_t-1

与上述重建步骤相似，利用p′_t与I_t，可以重建出I′_t-1。通过对输入的I_t-1与重建的I′_t-1之间的光度误差作为损失函数来监督光流子网络。

其中L₂为损失函数，I_t-1为输入的原图，I′_t-1为重建的视图，s为不同分辨率下的图像。

综上，位姿网络由L₁与L₂来监督3个子网络，并且在训练过程中不需要位姿的标签。

3)位姿估计模块与光流估计模块共享特征提取部分，加强特征对于帧间的几何联系；

由图1所示，位姿子网络与光流子网络共享特征提取子网络，特征提取网络在训练过程中能够提取兼容于两个任务的特征。对于相机位姿估计，提取的特征应该是与场景几何相关联的，因为它需要部署到未知场景中。通过光流训练，特征提取网络从连续两帧之间找到对应的几何关联性，同时位姿估计子网络能够利用带有几何信息的特征来提取出更加鲁棒的位姿。

4)输入待训练单视点视频，输出对应帧间相对位姿，按照上述步骤构建损失函数，通过最优化手段降低损失函数来训练模型，以至网络达到收敛。

本发明采用的单视点视频为KITTI，KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo)，光流(optical flow)，视觉测距(visualodometry)，3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。本发明采用KITTI的视觉里程计(visual odometry)数据划分，该数据划分提供了11个带有位姿标签的视频序列，本发明利用00-08序列作为训练序列，09-10作为测试评估的序列。KITTI图片的原始分辨率为1242x375，首先对输入图片进行数据增强操作，防止过拟合，具体包含轻度的仿射变形、随机水平旋转、随机尺度抖动、随机对比度、亮度、饱和度和锐度等。为了减小数据的计算量，将图像缩小至416x128输入至网络中。

本发明采用tensorflow深度学习框架进行实验，具体的参数如下图所示：

参数名	参数值
		优化器(optimizer)	Adamβ<sub>1</sub>＝晦.9,β<sub>2</sub>＝晦.99.
学习率(learningrate)	0.0001
		批处理大小(batch-size)	6
训练轮数(epoch)	30
		输入图像分辨率	128x416

图2为位姿估计全局轨迹图

模型训练至收敛后在利用KITTI Odometry评估指标进行评估，本发明主要在序列9上进行评估，评估轨迹图如图2所示。其中Ground Truth表示官方提供的位姿基准标签，ORB-SLAM为传统SLAM方法，Ours为本发明结果。由轨迹图所示，本发明提出的方法相比较于传统方法，更接近于基准标签。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于深度神经网络的相机姿态估计方法，其特征在于：以无监督深度学习方式构建相机姿态估计整体网络框架，通过在网络内联合训练光流估计网络与姿态估计网络，提取带有场景几何信息的特征，估计出更加鲁棒的相机姿态。

2.根据权利要求1所述的基于深度神经网络的相机姿态估计方法，其特征在于：包括如下步骤：

1)构建相机姿态估计网络；

2)构建无监督训练方案；

3.根据权利要求2所述的基于深度神经网络的相机姿态估计方法，其特征在于：步骤1)所述的相机姿态估计网络包括三个子网络，分别为深度估计子网络、光流估计子网络、位姿估计子网络。

4.根据权利要求3所述的基于深度神经网络的相机姿态估计方法，其特征在于：深度估计子网络采用层叠卷积神经网络、光流估计子网络采用反卷积网络结构，位姿估计子网络采用全连接层组合。

5.根据权利要求2所述的基于深度神经网络的相机姿态估计方法，其特征在于：步骤2)构建无监督训练方案具体为：输入单视点视频的连续两帧视图I_t-1，I_t，深度估计子网络输出t时刻的深度图D_t，光流子网络输出帧间光流f_t-1→t，位姿子网络输出帧间相对位姿T_t→t-1，利用空间投影关系得到t帧坐标在t-1帧坐标上的投影p′_t-1：

p′_t-1＝KT_t→t-1D_t(p_t)K^-1p_t

其中p′_t-1为投影在I_t-1上的坐标，K为相机内参，T_t→t-1为估计的相机位姿，p_t为I_t上的坐标，D_t(p_t)为在p_t的深度；

p′_t＝f_t-1→t(p_t-1)+p_t-1

其中p′_t为投影在I_t上的坐标，f_t-1→t(p_t-1)为在p_t-1处的光流，p_t-1为I_t-1上的坐标；

得到相应的投影坐标p′_t-1和p′_t后，利用双线性插值分别从t-1帧I_t-1，t帧I_t中合成I′_t及I′_t-1，通过构建原图像和重建图像之间的光度误差来构建基础监督损失：

6.根据权利要求2所述的基于深度神经网络的相机姿态估计方法，其特征在于：步骤3)具体为：利用光流提取输入两帧之间几何关联的特性，对位姿子网络与光流子网络做一个联合训练，用同一个特征抓取网络给两个子网络输送特征，利用光流估计做一个辅助过程，抓取带有几何信息的特征来对位姿估计任务做一个加强。