CN110335299A

CN110335299A - 一种基于对抗网络的单目深度估计系统实现方法

Info

Publication number: CN110335299A
Application number: CN201910349584.6A
Authority: CN
Inventors: 纪荣嵘; 郭锋; 李珂
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-10-15
Anticipated expiration: 2039-04-28
Also published as: CN110335299B

Abstract

一种基于对抗网络的单目深度估计系统实现方法，涉及单目图像深度估计。包括训练阶段和测试，所述训练阶段的具体步骤为：收集用于训练的RGB图像集和前n张图像对应的深度图像集合；根据设计的网络结构初始化生成器网络参数θ_G和两个判别器网络的参数θ_PD,θ_DD；设置训练的迭代次数；所述测试阶段的具体步骤为：导入训练好的生成器网络权重；将一张图像作为输入传递给生成器网络；使用导入的网络权重对输入图像进行计算，网络输出输入图像中每个像素点对应的深度值信息。打破了主动深度感知硬件深度空洞和深度稀疏的瓶颈，并且保持了比较高的深度恢复精度，对场景重建、无人驾驶、增强现实等领域都有着重要的实用价值和意义。

Description

一种基于对抗网络的单目深度估计系统实现方法

技术领域

本发明涉及单目图像深度估计，尤其是涉及一种基于对抗网络的单目深度估计系统实现方法。

背景技术

当人类看到一张图像时，往往可以很容易地理解其中的场景三维结构。然而，对于目前的计算机视觉系统来说，推断场景的三维结构依然是一个十分困难的问题。确实，从一个较窄的数学视角来讲，从单张图像中恢复出三维结构是不可能的，因为我们无法知道一张图像是对着照片拍摄的(这种情况下所有的深度都应该在一个平面上)还是对着真实三维场景拍摄的。但在现实生活中人们仅仅通过一张照片就可以对照片中的场景深度有非常好的感知，并且在所有可能的深度值中，绝大多数的可能性在现实世界中都是不可能的。因此，单目图像中的深度还是可以被以相当可观的准确率预估的。

借助预估出的深度值，计算机视觉中的很多任务都可以得到相较于仅使用RGB图像时的性能提升。这其中包括重建^[1]、识别^[2]、语义分割^[3]以及人体姿态估计^[4]等。通过结合深度信息，这些任务可以更好地区分出物体边界以及相对位置，进而更好地完成相应的任务。

除此之外，相较于使用主动感知的传感器来获取场景深度，基于视觉的深度估计更加灵活，同时也是一个更加低成本的解决方案，尤其是受益于近期基于深度学习的深度估计模型^[5,6,7]的成功。伴随《新一代人工智能发展规划》的制定，人工智能领域的相关技术已经升级为国家战略，而从单目图像中恢复深度值则是人工智能和计算机视觉等领域中的重点环节之一。

参考文献：

[1]Silberman N,Hoiem D,Kohli P,et al.Indoor segmentation and supportinference from rgbd images[C].European Conference on ComputerVision.Springer,Berlin,Heidelberg,2012:746-760.

[2]Ren X,Bo L,Fox D.Rgb-(d)scene labeling:Features and algorithms[C].Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on.IEEE,2012:2759-2766.

[3]Eigen D,Fergus R.Predicting depth,surface normals and semanticlabels with a common multi-scale convolutional architecture[C].Proceedings ofthe IEEE International Conference on Computer Vision.2015:2650-2658.

[4]Taylor J,Shotton J,Sharp T,et al.The vitruvian manifold:Inferringdense correspondences for one-shot human pose estimation[C].Computer Visionand Pattern Recognition(CVPR),2012 IEEE Conference on.IEEE,2012:103-110.

[5]Eigen D,Puhrsch C,Fergus R.Depth map prediction from a singleimage using a multi-scale deep network[C].Advances in neural informationprocessing systems.2014:2366-2374.

[6]Laina I,Rupprecht C,Belagiannis V,et al.Deeper depth predictionwith fully convolutional residual networks[C].3D Vision(3DV),2016 FourthInternational Conference on.IEEE,2016:239-248.

[7]Xu D,Ricci E,Ouyang W,et al.Multi-scale continuous crfs assequential deep networks for monocular depth estimation[C].Proceedings ofCVPR.2017.

发明内容

本发明的目的在于提供一种基于对抗网络的单目深度估计系统实现方法。

本发明包括训练阶段和测试，所述训练阶段的具体步骤为：

1)收集用于训练的RGB图像集I＝{I₁,I₂,...,I_n,I_n+1,...,I_n+m}和前n张图像对应的深度图像集合D＝{D₁,D₂,...,D_n}；

2)根据设计的网络结构初始化生成器网络参数θ_G和两个判别器网络的参数θ_PD,θ_DD；

3)设置训练的迭代次数，在每次迭代中：

3.1从{I₁,I₂,...,I_n}和{D₁,D₂,...,D_n}中采样k个图像-深度图图像对{(i,d)⁽¹⁾,...,(i,d)^(k)}组成一个用于训练的子集和；

3.2从{I_n+1,...,I_n+m}中采样k张图像{i'⁽¹⁾,...,i'^(k)}组成一个用于训练的子集和；

3.3用SGD更新图像-深度图图像对判别器网络(PD)参数：

3.4用SGD更新深度图判别器网络(DD)参数：

3.5从{I_n+1,...,I_n+m}中采样k张图像{i”⁽¹⁾,...,i”^(k)}组成一个用于训练的子集和；

3.6用SGD更生成器网络(G)参数：

所述测试阶段的具体步骤为：

1)导入训练好的生成器网络权重；

2)将一张图像作为输入传递给生成器网络；

3)使用步骤1)中导入的网络权重对输入图像进行计算，网络输出输入图像中每个像素点对应的深度值信息。

本发明借助深度学习技术，设计了一个基于生成对抗网络的单目图像深度估计系统，很好地解决了目前现有方法存在的两个关键问题——即物体边界模糊和需要大量的训练集。该系统不仅有更小的训练数据集要求和时间开销，还能够准确的预测环境整体深度并区分物体边界，在针对室内和室外环境都可以实时估计出深度值。同时，本发明打破了主动深度感知硬件深度空洞和深度稀疏的瓶颈，并且保持了比较高的深度恢复精度，对场景重建、无人驾驶、增强现实等领域都有着重要的实用价值和意义。

附图说明

图1为本发明的框架图。

图2为本发明的生成器网络结构示意图。

图3为本发明的判别器网络结构示意图。

图4为本发明在室内环境下的效果示意图。

图5为本发明在室外环境下的效果示意图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

本发明实施例包括训练阶段和测试，所述训练阶段的具体步骤为：

3)设置训练的迭代次数，在每次迭代中：

3.3用SGD更新图像-深度图图像对判别器网络(PD)参数：

3.4用SGD更新深度图判别器网络(DD)参数：

3.6用SGD更生成器网络(G)参数：

所述测试阶段的具体步骤为：

1)导入训练好的生成器网络权重；

2)将一张图像作为输入传递给生成器网络；

以下给出具体实施例。

一、基本概念

(1)深度估计

深度估计是指对图像中像素点距离相机的距离进行估计。目前获取深度值主要有两种方式，一种基于硬件设备的主动感知，一种基于视觉线索的被动感知。常见的主动感知包括使用Kinect和LiDAR，前者有效范围为0～10m，适合在室内环境下使用；后者有效范围约为0～80m，适合在室外场景下使用。主动感知的问题在于采样点稀疏且存在大量空洞。

基于视觉的深度获取包含基于多视角和单视角两种情况。前者依赖同一场景下的多张视角，通过相机运动等线索还原深度。后者则仅仅依靠单张图像提供的视觉线索，通过学习的方式来估计真实场景的深度值，是本发明关注的重点。

(2)深度学习

深度学习(也称为深度结构学习或分层学习)是基于学习数据表示形式的更广泛的机器学习方法家族的一部分，与特定于任务的算法不同。学习可以进行监督、半监督或无监督。

深度学习架构如深度神经网络，深层信念网络和递归神经网络已应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计等领域。深度学习已经产生了与人类专家相媲美甚至在某些情况下优于人类专家的结果。

(3)生成对抗网络

生成对抗模型包含两个网络，每个网络扮着不同的角色(具体来说，是两个对抗的角色)。给定一些真实的数据集合R，G代表生成器网络，其试图生成看起来十分像真实数据的假的数据。D代表判别器网络，其分别从真实的数据集合和G生成的数据中获取数据，然后给出两者的差别。可以将G理解为一个油画造假团队，这个造假团队试图用他们的输出来尽可能地匹配真实的油画，而D代表一个专家团队来试图分辨出假的油画和真的油画(不过在这个例子中，G并不能看到真实的数据，而只有D可以看到真实的数据。这些造假者就像一些盲人造假者一样)。

理想状态下，在对抗中D和G都会逐渐提高自己的造假和鉴别真假的能力，直到G已经成为一个“专家造假者”，而D处于一个已经无法区分两种分布的情况的状态。在实际实验中，生成对抗网络的提出者古德费洛展示了G可以在原始数据集上进行一种无监督学习，找出一些更加低维的表示数据的方式。

二、单目图像深度值的估计

整个单目图像深度值估计的系统，按照实现流程分为两个阶段，第一阶段用已知对应真实深度值的数据对网络进行训练获得模型，第二阶段用第一阶段获得的模型对未知图像进行深度值的估计。

2.1网络结构

如图1所示，本发明的对抗生成网络由深度估计生成器、深度图判别器和图像-深度图判别器三部分组成。其中生成器负责学习图像到深度值之间的映射关系，尽可能地让生成的深度图接近真实的深度图，让判别器难辨真假。深度图判别器负责区分真实的深度图和预测的深度图。图像-深度图判别器负责区分真实的图像-深度图像对与生成的图像-深度图图像对，通过对抗学习，指导生成器生成与RGB图像尽可能匹配的深度图。

(1)生成器结构

编码器-解码器结构在深度估计中有较好的效果。本发明的生成器也采用了编码器-解码器结构，具体分为下采样结构(编码器)、上采样结构(解码器)和特征提取结构，如图2所示。本发明在编码器与解码器间加入了特征提取结构，该结构由多个跳转连接单元组成。长时间的跳转连接能让底层特征更直接地流向更高的级别，保留尽可能多的深层信息。

具体来说，下采样结构由三个卷积单元组成，其中有两个卷积操作的步长设为2，将特征图的长与宽都缩小为原大小的四分之一(卷积单元包括卷积层、批处理归一化层和ReLU层)。接下来，下采样结构最终的特征图将通过9个ResNet块来进一步提取深层特性。除该主路径外，上采样结构中的阶段特征图也通过长跳跃连接发送至下采样阶段。最后，将特征图与长跳跃连接的特征图拼接起来，利用逐步转置卷积进行上采样，以预测最终的深度。

(2)判别器结构

本发明的图像-深度图判别器和深度图判别器的结构图如图3所示。两者的结构相似，均由五个卷积层组成，前4层之后加上了批处理归一化层和ReLU层，以获得更稳定的结果。经过该结构后，得到长宽均为原图三十二之一的特征图，代表着图像中不同的块的真假概率，对所有块的预测结果求平均，得到最终的判别器损失。图像-深度判别器与深度图判别器的区别在于，图像-深度判别器是先将预深度图与RGB图连接在一起，组成图像-深度图像对后作为输入，而深度图判别器是仅将深度图作为输入。

2.2生成对抗网络的训练

(1)收集用于训练的RGB图像集I＝{I₁,I₂,...,I_n,I_n+1,...,I_n+m}和前n张图像对应的深度图像集合D＝{D₁,D₂,...,D_n}；

(2)根据设计的网络结构初始化生成器网络参数θ_G和两个判别器网络的参数θ_PD,θ_DD；

(3)设置训练的迭代次数，在每次迭代中：

(3.1)从{I₁,I₂,...,I_n}和{D₁,D₂,...,D_n}中采样k个图像-深度图图像对

{(i,d)⁽¹⁾,...,(i,d)^(k)}组成一个用于训练的子集和；

(3.2)用SGD更新图像-深度图图像对判别器网络和深度图判别器网络参数：

(3.3)从中采样k张图像组成一个用于训练的子集和；

(3.4)用SGD更生成器网络(G)参数：

2.3生成对抗网络的测试

(1)导入训练好的生成器网络权重；

(2)将一张图像作为输入传递给生成器网络；

(3)使用步骤(1)中导入的网络权重对输入图像进行计算，网络输出输入图像中每个像素点对应的深度值信息。

图4为本发明在室内环境下(NYUD数据集)的效果示意图，图5为本发明在室外环境下(Kitti数据集)的效果示意图。

Claims

1.一种基于对抗网络的单目深度估计系统实现方法，其特征在于包括训练阶段和测试阶段，所述训练阶段的具体步骤为：

3)设置训练的迭代次数，在每次迭代中：

3.3用SGD更新图像-深度图图像对判别器网络(PD)参数：

3.4用SGD更新深度图判别器网络(DD)参数：

3.6用SGD更生成器网络(G)参数：

所述测试阶段的具体步骤为：

1)导入训练好的生成器网络权重；

2)将一张图像作为输入传递给生成器网络；