CN110264526B

CN110264526B - 一种基于深度学习的场景深度和摄像机位置姿势求解方法

Info

Publication number: CN110264526B
Application number: CN201910530398.2A
Authority: CN
Inventors: 全红艳; 姚铭炜
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2023-04-07
Anticipated expiration: 2039-06-19
Also published as: CN110264526A

Abstract

本发明公开了一种基于深度学习的场景深度和摄像机位置姿势求解方法，该方法利用卷积神经网络，使用图像序列作为输入，采用循环神经网络估计场景深度及相邻两幅图像的摄像机位置姿势参数。本发明采用多任务学习框架，利用序列中相邻两幅图像重建的三维场景几何信息的一致性定义网络的损失函数，以确保场景深度和摄像机位置姿势估计的准确性。

Description

一种基于深度学习的场景深度和摄像机位置姿势求解方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于深度学习的场景深度和摄像机位置姿势求解方法，使用图像序列作为输入，采用循环神经网络估计场景深度及相邻两幅图像的摄像机运动参数。

背景技术

深度估计技术，是根据二维图像信息，计算每个像素对应的三维信息。大多数深度估计方法研究都是基于多幅图像，根据对极几何原理，结合拍摄时摄像机运动产生的视差信息来估计深度。而对于单幅图像，由于无法获取景物目标的视差信息，只能通过图像自身的一些特征和先验知识来获得有限的线索以完成深度估计，因此具有较高的技术难度。因为深度学习对于图像特征和先验知识的学习有着较大的优势，在现有的单目深度估计方法中，出现了一些基于深度学习的方法，并取得了良好的结果。基于深度学习的深度估计仍在发展之中，随着数据集的完善，基于深度学习的深度估计方法有很大的发展空间。

摄像机位置姿势估计技术，是通过分析图像，从计算机视觉的角度来实时对摄像机进行定位的技术。基于特征点法的视觉里程计技术是一种主流的实现方法。特征点法主要通过检测图像中的特征点，并与之前的帧进行匹配，然后利用这些特征点在一定的约束下计算摄像机位置的变换。此外，由光流法发展来的基于直接法，能够在不提特征(或不计算特征描述)的情况下，通过最小化光度误差来估计摄像机运动和像素的空间位置。在传统方法的基础上，也开始出现了一些基于深度学习的视觉里程计技术，这种方法基于卷积神经网络，以原始RGB图像为输入，实现端到端的摄像机位置姿势估计。但是该类方法主要依赖CNN，由于CNN不能对时序信息建模，因此该类方法没有将图像序列用于时序学习，限制了其位置姿势估计性能。

发明内容

本发明的目的是针对现有技术的不足，并针对场景深度估计和摄像机位置姿势估计的实际需求，提供一种有效的深度估计和摄像机位置姿势求解方法，利用深度学习策略，构建多任务网络，提出了三维一致性损失，同时实现深度估计任务和摄像机位置姿势计算任务。

实现本发明目的的具体技术方案是：一种基于深度学习的场景深度和摄像机位置姿势求解方法，该方法输入RGB的图像序列，分辨率N×N，其中N为224、448或者896，具体包括以下步骤：

步骤1：数据集构建

从网站https：//vision.in.tum.de/data/datasets/rgbd-dataset的RGBD SLAMDataset数据集中筛选B个分辨率相同的图像序列，30≤B≤50，每个图像序列中图像个数为C幅，700≤C≤5000，每个图像样本包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵；

分别对B个图像序列的每个序列图像进行分组：每F个为一组，150≤F≤300，每个序列最后剩余的图像数量如果不足F个，则舍弃；

对于所有B个图像序列，得到G组图像的结果，235≤G≤480，由G组图像构建数据集A，A中每个样本是G的一组图像，每幅图像包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵；

步骤2：构建神经网络

网络采用多任务学习的网络框架，设置为深度估计子网络D-Net和摄像机位置姿势估计子网络T-Net，由D-Net和T-Net构成的整体网络具有一个输入端和两个输出端，D-Net和T-Net各自具有张量输出，并且，D-Net和T-Net之间不需要信息传输，D-Net和T-Net的输出共同用于网络损失的控制，D-Net和T-Net的输入是数据集A中任意一组样本中两幅相邻图像I₁和I₂，其张量形状为N×N×3，D-Net输出场景深度D，其张量形状为N×N×1，T-Net输出的是图像I₂与图像I₁之间相对的摄像机的位置姿势，其包括相对位移量T、旋转量R及缩放比例S，T的张量形状为3×1，R是归一化四元数形式，其张量形状为4×1，S的张量形状为1×1；

(1)D-Net结构设置

D-Net的编码器和解码器均包括L个单元，如果N为224，L为5；如果N为448，均L为6；如果N为896，L为7，编码器按照下列方式设置：

D-Net编码器是由相继连接相同结构的L个卷积编码单元组成，编码器的每个编码单元包含2个结构相同的卷积层，对于每个卷积层，都是采用3×3的卷积核，卷积步长为2，卷积时，对于图像边界进行补零处理，每一层卷积后的输出采用批归一化处理，然后采用Relu函数进行激活，在L个卷积编码单元中，第1个卷积编码单元的两个卷积层，卷积核的个数均为H，如果N为224，H取32，后面各编码单元的卷积核个数依次增加一倍，编码器的输出特征的尺寸为7×7；

D-Net解码器设置如下：解码器是由相继连接相同结构的L个转置卷积的解码单元组成，每个解码单元包括相继连接的一个转置卷积层和一个卷积层，采用相同的3×3卷积核结构，卷积步长为2，卷积时，对于图像边界进行补零处理，每一层卷积后的输出采用批归一化处理，然后采用Relu函数进行激活；

对于每个解码单元中，转置卷积层和卷积层均采用相同个数的卷积核进行处理，第1个解码单元中卷积核的个数设计为512，后面各解码单元的卷积核个数依次减半；解码器的最后一个解码单元连接着由一个1×1卷积核构成的特殊输出层，经过D-Net编码解码处理后输出图像的尺度与I₁尺度相同；

编码器和解码器之间采用跨层连接，即编码器中的每个编码单元的输出与解码器中对应的解码单元，在对应卷积通道进行特征串接后，作为解码器下一个解码单元的输入，即编码器第L-1个编码单元的输出与解码器第1个解码单元输出的特征进行串接，将结果作为第2个解码单元的输入，编码器第L-2个编码单元的输出与解码器第2个解码单元输出的特征进行串接，将结果作为第3个解码单元的输入，以此类推，直到第1个编码单元的跨层连接；

(2)T-Net结构设置

T-Net网络是由编码器和循环神经网络构成，编码器采用孪生网络结构，图像I₁和I₂分别输入到孪生网络的不同分支中；孪生网络两个分支输出特征尺寸完全相同，都为7×7，将输出的两个特征进行串接，将串接后的特征输入到循环神经网络；

孪生网络设置两个结构相同的分支，并且共享网络参数，每个分支的结构与D-Net中的编码器结构相同，也是包括L个编码单元组成；

循环神经网络结构中，三个并列LSTM循环单元采用一个共同的输入，在每个循环单元的输出部分，连接着一个全连接层，分别为O1、O2和O3，三个LSTM循环单元结构相同：每个单元的第1层，结点个数设计为M个，M为256、512或者1024，第2层结点个数设计为J个，J为256、512或者1024，O1设置为3个神经元节点，输出3×1的张量，表示摄像机相对位移量，O2设置为4个神经元节点，输出4×1的张量，表示摄像机旋转量的四元数，O3设置为1个神经元节点，输出1×1的张量，表示缩放比例；

步骤3：神经网络的训练

将数据集A中的所有组样本按照40∶1∶1的比例划分为训练数据集，评估数据集和测试数据集，利用训练数据集训练网络模型，利用评估数据集评估训练过程中网络的性能，利用测试数据集对网络性能进行测试；

训练时，输入I₁和I₂，先单独训练D-Net 100个轮次，然后，再对整个网络参数进行训练75个轮次；

在D-Net训练时，网络损失定义如下：

n为I₁中像素的个数N×N，E_i是I₁中的第i个像素的深度标签，d_i是第i个像素网络输出的深度，M_i表示第i个像素的掩模，M_i利用下式产生：

同时训练D-Net和T-Net时，定义一致性损失：

U表示图像I₂与图像I₁之间摄像机相对的旋转量的标签，V表示图像I₂与图像I₁之间摄像机相对的平移量的标签，W表示缩放比例标签，P_i表示利用标签数据计算的I₁中的第i个像素的三维重建点相对于I₂图像视点的坐标，Q_i表示利用网络输出的深度计算得到的I₁中的第i个像素的三维重建点相对于I₂图像视点的坐标，P_i和Q_i利用下式产生：

P_i＝K^-1E_ip_i (4)

Q_i＝K^-1d_ip_i (5)

其中K为样本中摄像机内部参数矩阵的标签，p_i为表示I₁中的第i个像素二维坐标；步骤4：估计场景深度和摄像机位置姿势参数

输入I₁和I₂，利用步骤2构建的网络，并利用训练时得到的参数，通过网络预测出D和R、T及S。

本发明可以用于场景的三维重建，广泛应用于虚拟场景的构建、游戏场景漫游以及动漫效果中三维结构的获取，利用本发明可以依据场景深度计算出场景的点云数据，再根据求解的摄像机位置和姿势，就可以实现虚拟场景的漫游及三维场景的交互功能。

附图说明

图1为本发明D-Net场景深度估计结果图；

图2为本发明T-Net摄像机平移量的误差图；

图3为本发明T-Net摄像机旋转量的误差图；

图4为本发明T-Net缩放比例的误差图。

具体实施方式

实施例

下面结合附图对本发明进一步说明，本实施例在PC机上Windows10 64位操作系统下实施，其硬件配置为CPU i7-6700k，内存16G，GPU NVIDIA GeForce GTX 1070 8G。深度学习框架采用Keras 2.1.0，用Tensorflow 1.4.0作为后端。编程采用python语言。

基于深度学习的场景深度和摄像机位置姿势求解方法，该方法输入RGB的图像序列，分辨率N×N，其中N为224，具体包括以下步骤：

步骤1：数据集构建

从网站https：//vision.in.tum.de/data/datasets/rgbd-dataset的RGBD SLAMDataset数据集中筛选B个分辨率相同的图像序列，B为48，每个图像序列中图像个数为C幅，700≤C≤5000，每个图像样本包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵；

分别对B个序列的每个序列图像进行分组：每F个为一组，F为300，每个序列最后剩余的图像数量如果不足F个，则舍弃；

对于所有B个图像序列，一共可以得到G组图像的结果，G取235，由G组图像构建数据集A，A中每个样本是G的一组图像，每幅图像包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵；

步骤2：构建神经网络

网络采用多任务学习的网络框架，设置为深度估计子网络D-Net和摄像机位置姿势求解子网络T-Net，由D-Net和T-Net构成的整体网络具有一个输入端和两个输出端，D-Net和T-Net各自具有张量输出，并且，D-Net和T-Net之间不需要信息传输，D-Net和T-Net的输出共同用于网络损失的控制，D-Net和T-Net的输入是数据集A中任意一组样本中两幅相邻图像I₁和I₂，其张量形状为N×N×3，D-Net输出场景深度D，其张量形状为N×N×1，T-Net输出的是图像I₂与图像I₁之间相对的摄像机的位置姿势，其包括相对位移量T、旋转量R及缩放比例S，T的张量形状为3×1，R是归一化四元数形式，其张量形状为4×1，S的张量形状为1×1；

(1)D-Net结构设置

D-Net结构包括编码器和解码器，均包括L个单元，L为5，编码器按照下列方案设计：

D-Net编码器是由相继连接相同结构的L个卷积编码单元组成，编码器的每个编码单元包含2个结构相同的卷积层，对于每个卷积层，都是采用3×3的卷积核，卷积步长为2，卷积时，对于图像边界进行补零处理，每一层卷积后的输出采用批归一化处理，然后采用Relu函数进行激活，在L个卷积编码单元中，第1个卷积编码单元的两个卷积层，卷积核的个数均为H，H取32，后面各编码单元的卷积核个数依次增加一倍，编码器的输出特征的尺寸为7×7；

D-Net解码器按照下列方案设置如下：解码器是由相继连接相同结构的L个转置卷积的解码单元组成，每个解码单元包括相继连接的一个转置卷积层和一个卷积层，它们采用相同的3×3卷积核结构，卷积步长为2，卷积时，对于图像边界进行补零处理，每一层卷积后的输出采用批归一化处理，然后采用Relu函数进行激活；

对于每个解码单元中，转置卷积层和卷积层均采用相同个数的卷积核进行处理，第1个解码单元中卷积核的个数设计为512，后面各解码单元的卷积核个数依次减半。解码器的最后一个解码单元连接着由一个1×1卷积核构成的特殊输出层，经过D-Net编码解码处理后输出图像的尺度与I₁尺度相同；

编码器和解码器之间采用跨层连接，即编码器中的每个编码单元的输出与解码器中对应的解码单元，在对应卷积通道进行特征串接后，作为解码器下一个解码单元的输入。即编码器第L-1个编码单元的输出与解码器第1个解码单元输出的特征进行串接，将结果作为第2个解码单元的输入，编码器第L-2个编码单元的输出与解码器第2个解码单元输出的特征进行串接，将结果作为第3个解码单元的输入，以此类推，直到第1个编码单元的跨层连接；

(2)T-Net结构设置

T-Net网络是由编码器和循环神经网络构成，编码器采用孪生网络结构，图像I₁和I₂分别输入到孪生网络的不同分支中。孪生网络两个分支输出特征尺寸完全相同，都为7×7，将输出的两个特征进行串接，将串接后的特征输入到循环神经网络；

对于孪生网络的设置，两个分支结构相同，并且共享网络参数，每个分支的结构与D-Net中的编码器结构相同，也是包括L个编码单元组成；

循环神经网络结构采用三个并列的LSTM循环单元，均采用一个共同的输入，在每个循环单元的输出部分，连接着一个全连接层，分别为O1、O2和O3，三个LSTM循环单元结构相同：每个单元的第1层，结点个数设计为M个，M为512，第2层结点个数设计为J个，J为256，O1设置为3个神经元节点，输出3×1的张量，表示摄像机相对位移量，O2设置为4个神经元节点，输出4×1的张量，表示摄像机旋转量的四元数，O3设置为1个神经元节点，输出1×1的张量，表示缩放比例；

步骤3：神经网络的训练

在D-Net训练时，网络损失定义如下：

同时训练D-Net和T-Net时，定义一致性损失：

P_i＝K^-1E_ip_i (4)

Q_i＝K^-1d_ip_i (5)

输入I₁和I₂，利用步骤2构建的网络，并利用训练时得到的参数，通过网络可以预测出D和R、T及S；

实验过程中，使用的重要超参数如下：优化器采用Adam优化器，且各超参数取默认值；每个批次的样本数取4；D-Net网络的学习率取10^-4，整体网络训练的学习率取10^-4，动量系数全置为0.99；

本实施例在数据集上进行网络训练，并对训练结果进行测试；图1为利用本发明的D-Net网络得到的场景深度信息的估计结果图，每一行中，第一列为场景图像，第二列为深度标签，第三列为本发明方法的预测深度，每一行来自于A数据集中不同场景，从图中可以看出：D-Net网络的输出结果与实际场景相符，图2为本发明方法预测的摄像机平移量的误差图，图3为本发明方法预测的摄像机旋转量的误差图，图4为本发明方法预测的缩放比例的误差图，这三幅图都是利用网络输出和标签数据进行比对计算得到的，它们的水平轴是样本中图像对的编号，纵坐标表示误差的大小；从图2、图3和图4中可以看出，T-Net网络输出结果与标签数据非常接近，在整个序列上具有一定的精确性。

Claims

1.一种基于深度学习的场景深度和摄像机位置姿势求解方法，其特征在于，该方法输入RGB的图像序列，分辨率N×N，其中N为224、448或者896，具体包括以下步骤：

步骤1：数据集构建

步骤2：构建神经网络

(1)D-Net结构设置

(2)T-Net结构设置

步骤3：神经网络的训练

在D-Net训练时，网络损失定义如下：

同时训练D-Net和T-Net时，定义一致性损失：

P_i＝K^-1E_ip_i (4)

Q_i＝K^-1d_ip_i (5)

其中K为样本中摄像机内部参数矩阵的标签，p_i为表示I₁中的第i个像素二维坐标；

步骤4：估计场景深度和摄像机位置姿势参数

输入I₁和I₂，利用步骤2构建的网络，并利用训练时得到的参数，通过网络预测出场景深度D、位移量T、旋转量R及缩放比例S。