CN108510535A

CN108510535A - 一种基于深度预测和增强子网络的高质量深度估计方法

Info

Publication number: CN108510535A
Application number: CN201810207285.4A
Authority: CN
Inventors: 叶昕辰; 李豪杰; 李阳; 段祥越
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2018-09-07
Anticipated expiration: 2038-03-14
Also published as: US20200265597A1; WO2019174378A1; US11238602B2; CN108510535B

Abstract

本发明公开了一种基于深度预测和增强子网络的高质量深度估计方法，属于图像处理和计算机视觉领域。本方法通过搭建深度预测子网络对彩色图进行深度预测，并采用深度增强子网络对深度预测子网络得到的低分辨率图进行分辨率恢复，进而得到高分辨率的深度预测图。本方法程序简单，易于实现；系统容易构建，用卷积神经网络即可端到端的从单张彩色图得到对应的高质量的深度图；通过彩色图像高频信息恢复深度预测子网络下采样所损失的信息，最终得到高质量高分辨率的深度图；采用空间池化金字塔结构有效的解决了物体尺寸不一带来的预测准确率的问题。

Description

一种基于深度预测和增强子网络的高质量深度估计方法

技术领域

本发明属于图像处理计算机视觉领域，涉及采用深度预测子网络对彩色图进行深度预测，并采用深度增强子网络对深度预测子网络得到的低分辨率深度图进行分辨率恢复，进而得到高分辨率的深度预测图，具体涉及到一种基于深度预测和增强子网络的高质量深度估计方法。

背景技术

真实场景的景深，即深度信息，是衡量场景第三维度的方法，广泛应用于各种计算机视觉任务中，比如姿态估计，三维建模等。尽管能使用彩色相机轻松获取高质量的纹理信息，但是深度信息的获取依旧是一个极具挑战的课题。传统方法中，深度信息的获取主要采用立体匹配技术，以及其他一些专业深度传感装置。立体匹配技术利用双目相机采集的两张对应的图片进行相关性匹配和三角测量方法进行深度推断。其他的深度获取方式多数采用深度传感装置，比如Time-of-Flight(TOF)相机，微软的Kinect相机等。这些方法尽管取得了不错的效果，但是严重依赖于深度采集装置。

随着深度学习的发展，利用深度卷积神经网络可以从单张彩色图片直接获取对应的深度信息，解决了传统方法中过度依赖深度采集装置的弊端，但是却产生了新的问题，即所获取的深度图是低分辨率的，以及对于多尺度物体深度预测的准确性不高。在现有的卷积神经网络中为了获取更大的感受野几乎都会包含一些池化层和下采样层，导致得到的深度图分辨率减小。在现有的方法中，为了解决场景中不同大小物体深度预测的正确率问题，普遍的方法是将彩色图缩放到不同尺度大小分开进行深度预测得到最终的结果。尽管提高了网络的表现，但是非常的费时。

基于以上问题，本发明设计了一个基于卷积神经网络进行高质量深度预测的框架，该框架包括两个部分：深度预测子网络和深度增强子网络。深度预测子网络基于101层残差网络(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for imagerecognition,”in IEEE CVPR,2016,pp.770–778.)构建，用于从彩色图获取深度信息。深度增强子网络用于恢复从深度预测子网络得到的深度图的分辨率，从而得到高分辨率的深度图。

发明内容

本发明旨在克服现有技术的不足，提供了一种基于深度预测和增强子网络的高质量的深度预测方法；设计了一个基于卷积神经网络进行高质量深度预测的框架，该框架包括两个部分：深度预测子网络和深度增强子网络，其中，深度预测子网络基于101层残差网络，用于从彩色图获取深度信息，而深度增强子网络用于恢复从深度预测子网络得到的深度图的分辨率，从而得到高分辨率的深度图。在此基础上，采用了一种空间金字塔池化结构，解决不同大小物体深度预测的正确率问题。基于此，通过这个卷积神经网络进行深度预测的框架，可以得到高质量的深度信息。

本发明的具体技术方案为，一种基于深度预测子网络和增强子网络的高质量深度预测方法，包括下列步骤：

1)准备初始数据：初始数据包括用来训练的彩色图和对应的深度图，以及用来测试的彩色图和对应的深度图；

2)深度预测子网络的构建：

2-1)利用扩张率为2的空洞卷积(Fisher Yu and VladlenKoltun,“Multi-scalecontext aggregation by dilated convolutions,”CoRR,vol.abs/1511.07122,2015.)取代ResNet-101(101层残差网络)中最后两个下采样层；在特征图分辨率不下降的情况下增大感受野的大小。

2-2)利用四个扩张率不同的空洞卷积代替ResNet-101最后的全连接层实现空间金字塔结构；所述不同扩张率分别为6、12、18、24；不同扩张率的空洞卷积有效准确的实现对不同尺度物体的覆盖，从而提高对不同尺寸物体深度预测的准确度，同时大大提高了时间效率。

3)深度增强子网络的构建：利用递进的卷积神经网络结构替代常见的线性插值和上采样结构，接在深度预测子网络的后面实现深度图分辨率的恢复；

4)基于步骤(2)和步骤(3)得到卷积神经网络进行训练。

进一步地，步骤3)中深度增强子网络的构建，具体包括以下步骤：

3-1)利用高频滤波器提取彩色图像的高频信息，并利用多层卷积提取特征，作为深度增强子网络的输入之一，帮助深度增强子网络在进行分辨率恢复时进行边缘优化；

3-2)深度图输入分支为卷积神经网络结构，包括三个相同结构的上采样模块，每个模块包括一个卷积层、一个标准的跳跃结构和一个反卷积层；每个模块将分辨率扩大到原来分辨率的两倍；

3-3)将两个输入分支连接在一起，再经过一次卷积操作，得到最后的输出。

进一步地，4)基于步骤(2)和步骤(3)得到卷积神经网络进行训练：

4-1)首先对深度预测、深度增强子网络进行分开训练，分别得到收敛的训练模型。

4-2)然后，设计一种损失函数用于促使预测深度图逼近实际深度图，公式如下：

式中L表示所要求的损失函数，表示深度预测子网络得到的低分辨的深度图，d_s表示与对应的实际深度图，表示深度增强网络得到的高分辨率的深度图，d表示与对应的实际深度图，λ表示平衡系数，定义域为(0，1]，N表示每次训练的图片数量，i表示当前图片索引，定义域为[1，N]。||·||₂表示2范数。利用上式联合训练深度预测、深度增强子网络,优化整个网络。

当训练完毕，即可以利用训练好的模型在测试集上进行测试，得到相应输入图像的输出结果。

本发明的有益效果是：

本发明基于深度神经网络，首先搭建一个基于101层残差网络的深度预测子网络，得到低分辨率的深度图，然后再搭建一个深度增强子网络用于恢复深度图的分辨率，最终得到高质量的深度图。该系统具有以下特点：

1、系统容易构建，用卷积神经网络即可端到端的从单张彩色图得到对应的高质量的深度图；

2、程序简单，易于实现；

3、本方法通过彩色图像高频信息恢复深度预测子网络下采样所损失的信息，最终得到高质量高分辨率的深度图；

4、本方法采用空间池化金字塔结构有效的解决了物体尺寸不一带来的预测准确率的问题。

附图说明

图1是实际流程图。

图2是网络结构简图。

图3是深度估计结果与其他方法的比较；其中(a)不同的彩色帧；(b)实际深度图；(c)Eigen方法；(d)Liu方法；(e)Laina方法；(f)本发明的结果。

具体实施方式

下面结合实施例和附图对本发明的基于深度预测和增强子网络的高质量深度估计方法做出详细说明：

一种基于深度预测和增强子网络的高质量深度估计方法，如图1所示，所述方法包括下列步骤；

1)准备初始数据；

1-1)使用两个公开数据集室内数据集NYUV2数据集，室外数据集Make3D数据集训练、评估该发明；

1-2)对于室内数据集NYUV2数据集，选择464个场景、1449张彩色图与对应深度图作为训练数据。依据官方划分的方法将训练数据划分795张彩色图与对应深度图作为训练集，654张彩色图与对应深度图作为测试集。

1-3)对于室外数据集Make3D数据集共有400张数据对作为训练集，134张数据对作为测试集。由于该数据集彩色图大小为2272×1704，而深度图大小只有55×305，于是将彩色图和对应深度图大小调整为460×345。

2)深度预测子网络的构建：深度预测子网络基于101层残差网络进行相应的改进而得到。

2-1)利用扩张率为2的空洞卷积(Fisher Yu and VladlenKoltun,“Multi-scalecontext aggregation by dilated convolutions,”CoRR,vol.abs/1511.07122,2015.)取代ResNet-101(101层残差网络)中最后两个下采样层，在特征图分辨率不下降的情况下增大感受野的大小。

2-2)利用四个扩张率不同(6,12,18,24)的空洞卷积代替ResNet-101最后的全连接层实现空间金字塔结构。不同扩张率的空洞卷积可以有效准确的实现对不同尺度物体的覆盖，从而提高对不同尺寸物体深度预测的准确度，同时大大提高了时间效率。

3)深度增强子网络的构建：利用卷积神经网络结构替代常见的线性插值和上采样结构，接在深度预测子网络的后面实现深度图分辨率的恢复。

3-1)利用高频滤波器提取彩色图像的高频信息，并利用多层卷积提取特征，作为深度增强子网络的输入之一，帮助深度增强子网络在进行分辨率恢复时进行边缘优化。

3-2)深度图输入分支为卷积神经网络结构，主要包括三个相同结构的上采样模块，每个模块包括一个卷积层，一个标准的跳跃结构，一个反卷积层。每个模块将分辨率扩大到原来分辨率的两倍。

3-3)将两个输入分支连接在一起，再经过一次卷积操作，得到最后的输出。整个网络结构如图2所示。

4)基于步骤(2)和步骤(3)得到卷积神经网络进行训练：

4-1)首先对深度预测、深度增强子网络进行分开训练。使用预训练好的101层残差网络模型初始化我们的网络，然后使用二范数的损失函数优化深度预测网络。对于深度增强网络，随机初始化网络，同样使用二范数的损失函数优化深度增强网络。二范数损失函数公式如下：

式中L表示所要求的损失函数，表示深度增强网络得到的高分辨率的深度图，d表示与对应的实际深度图，N表示每次训练的图片数量，i表示当前图片索引，定义域为[1，N]。||·||₂表示2范数。

式中L表示所要求的损失函数，表示深度预测子网络得到的低分辨的深度图，d_s表示与对应的实际深度图，表示深度增强网络得到的高分辨率的深度图，d表示与对应的实际深度图，λ表示平衡系数，定义域为(0，1]，N表示每次训练的图片数量，i表示当前图片索引，定义域为[1，N]。利用上式联合训练深度预测、深度增强子网络,优化整个网络，训练时设置动量参数为0.9，学习率被初始化为1e-4，学习率每一周期下降0.9。

本实施例对两个数据集合的最终深度估计结果及与其他方法的比较如图3所示，其中(a)不同的彩色帧；(b)实际深度图；(c)Eigen方法(D.Eigen and R.Fergus,“Predicting depth,surface nor-mals and semantic labels with a common multi-scale convolutional architecture,”in IEEE ICCV,2015,pp.2650–2658.)；(d)Liu方法(F.Liu,C.Shen,G.Lin,and I.Reid,“Learning depthfrom single monocular imagesusing deep convolutionalneural fields,”IEEE TPAMI,vol.38,no.10,pp.2024–2039,2016.)；(e)Laina方法(IroLaina,Christian Rupprecht,Vasileios Belagiannis,Federico Tombari,and Nassir Navab,“Deeper depthprediction with fullyconvolutional residual networks,”in Fourth International Conference on 3dVision,2016,pp.239–248.)；(f)本发明的结果。

Claims

1.一种基于深度预测和增强子网络的高质量深度预测方法，其特征在于，包括如下步骤：

2)深度预测子网络的构建：

2-1)利用扩张率为2的空洞卷积(Fisher Yu and VladlenKoltun,“Multi-scalecontext aggregation by dilated convolutions,”CoRR,vol.abs/1511.07122,2015.)取代ResNet-101(101层残差网络)中最后两个下采样层；在特征图分辨率不下降的情况下增大感受野的大小；

2-2)利用四个扩张率不同的空洞卷积代替ResNet-101最后的全连接层实现空间金字塔结构；所述不同扩张率分别为6、12、18、24；不同扩张率的空洞卷积有效准确的实现对不同尺度物体的覆盖，从而提高对不同尺寸物体深度预测的准确度，同时大大提高了时间效率；

4)基于步骤(2)和步骤(3)得到卷积神经网络进行训练。

2.根据权利要求1所述的一种基于深度预测和增强子网络的高质量深度预测方法，其特征在于，步骤3)中深度增强子网络的构建，具体包括以下步骤：

3.根据权利要求1或2所述的一种基于深度预测和增强子网络的高质量深度预测方法，其特征在于，步骤4)中基于步骤(2)和步骤(3)得到卷积神经网络进行训练，具体包括以下步骤：

4-1)首先对深度预测、深度增强子网络进行分开训练，分别得到收敛的训练模型；

式中L表示所要求的损失函数，表示深度预测子网络得到的低分辨的深度图，d_s表示与对应的实际深度图，表示深度增强网络得到的高分辨率的深度图，d表示与对应的实际深度图，λ表示平衡系数，定义域为(0，1]，N表示每次训练的图片数量，i表示当前图片索引，定义域为[1，N]，‖·||₂表示2范数；利用上式联合训练深度预测、深度增强子网络,优化整个网络。