CN106157307B

CN106157307B - 一种基于多尺度cnn和连续crf的单目图像深度估计方法

Info

Publication number: CN106157307B
Application number: CN201610510552.6A
Authority: CN
Inventors: 竺乐庆; 王勋; 王慧燕
Original assignee: Zhejiang Gongshang University
Current assignee: Guangzhou Huazhan Tiancheng Technology Co ltd
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2018-09-11
Anticipated expiration: 2036-06-27
Also published as: US20180231871A1; CN106157307A; WO2018000752A1; US10353271B2

Abstract

本发明公开了一种基于多尺度CNN和连续CRF的单目图像深度估计方法，其利用CRF模型根据DCNN的输出深度图计算单点势能，根据输入RGB图像计算成对稀疏势能，最后用MAP(最大化后验概率)算法推导出优化的深度图。本发明结合了多尺度CNN和连续CRF优化思想，不仅能够以较高的精确度估计出深度图，又能使得到的深度图轮廓清晰；本发明所估计的深度有比较高的分辨率，而且所得到的深度图能保留场景中所有对象的深度细节信息，具有更好的视觉效果。

Description

一种基于多尺度CNN和连续CRF的单目图像深度估计方法

技术领域

本发明属于三维图像深度估计技术领域，具体涉及一种基于多尺度CNN和连续CRF的单目图像深度估计方法。

背景技术

视频编辑过程中通常需要创建场景的三维模型来保证编辑的时空一致性，而从二维视频创建场景的三维模型则需要有该场景的深度信息。3D电影和3D电视能给观众带来身临其景的真实感，传统的3D视频通常通过多台摄像机从不同角度同步拍摄视频并制作得到，然而这种3D视频的同步处理和制作成本高昂、费时费力。最近几年来，许多研究人员寻求通过已有的3D模型库、深度估计技术从单视频序列来制作生成3D视频的方法，并取得了一定的成果。将2D视频转成3D视频过程中很重要的一步是从2D视频序列中估计出深度图，得到深度信息之后既可以生成3D模型并投影得到另一视角的视频序列，也可以根据双目视差原理直接计算得到另一视角的视图。

目前深度信息的获取可通过硬件和软件两种途径。硬件获取深度信息的设备有激光测距仪和微软推出的3D体感摄像仪Kinect等，但激光测距仪价格昂贵，不利于推广；Kinect虽然价格亲民，但最大检测距离不超过5米，且感知精度受光线和背景物体影响较大，对透明、镜面反光等物体无法正确测距。软件方法常见的主要有多视图立体法(multi-view stereo)、光度立体视觉法(photometric stereo)、色度成形法(shape fromshading)、散焦推断法(depth from defocus)以及基于机器学习的方法等。根据多视图几何原理，对于一个静止的场景，如果我们从不同位置拍摄了多幅图像，而且不同图像之间有公共内容，那么理论上就能从这些图像自动地恢复出摄像机的内外参数以及场景的三维信息。如果仅考虑两幅图像之间的立体匹配，就转化成了双视图立体匹配。

光度立体技术是一种基于光照模型的三维重建算法，最早由加拿大不列颠哥伦比亚大学的Woodham提出，利用物体在不同光照条件下的图像序列估计出物体的表面法向图，并利用线积分等技术获得最终的表面模型。光度立体计算法还被用于优化其他方法获得的初始3D模型以获得更为精确的几何结构。如果光度立体计算法的图像序列的数目减少至单张，此技术则演变为色度成形法。相机在拍摄时会聚焦到某个物体上，在焦平面外的物体会或多或少显得模糊，其模糊的程度与其深度有关，根据其模糊程度来估计深度的方法称为散焦推断深度法。基于散焦法有许多改进的方法，如双焦平面法和编码光圈法等。人类之所以能准确感知到所见场景的深度信息，除了依赖于视觉系统的双目视差进行感知外，还很大程度上依赖于在平时生活中积累的对所见物体的先验知识。机器学习的方法则是模仿了人类的这一学习过程，也是对单目图像进行深度估计用得最多的方法。美国斯坦福大学的Saxena等人提出采用基于监督学习的算法来获取场景的三维结构。Liu等改进了Saxena等人的方法，先对给定图像进行语义分割，并用这些语义分割的结果作为约束，再用MRF(马尔可夫随机场)来推断出深度信息，改进的方法比之前的方法有显著的性能提升。

近年来，深度学习框架被广泛应用在自动语音识别、图像识别、自然语言处理、药物发现与毒理学、客户关系管理、生物信息学等诸多领域。作为一种高性能的机器学习框架，深度学习方法也被应用到了单目图像自动深度估计中。Eigen等首先用多尺度卷积神经网络(CNN)实现了一种端到端的单目图像深度估计，然而因为输出的结果尺寸受限，预测得到深度图比输入的原图像要小很多，长和宽都只有原图的1/16；后来，Eigen和Fergus对网络结构进行了改进，先对原来实现的CNN的输出进行上采样，再与原输入图像的卷积的结果连接后，进一步用多个卷积层处理，使得神经网络更深，而最后的输出深度图的分辨率更高。Fayao Liu等也使用了深度卷积神经网络来从单目图像预测深度信息，然而他们设计的CNN只用来预测单个深度值，该深度值代表了图像中一个超像素的深度值。他们的框架中还集成了基于超像素的连续条件随机场(CRF)来进一步优化预测的深度，使其输出结果更可靠。基于超像素的方法可以获得跟原始输入图像一样大小的深度图，有更清晰的轮廓，然而因其CNN的推导是基于局部信息的，各项评估数据表明其准确程度逊于Eigen和Fergus的方法。

发明内容

由于深度卷积神经网络(DCNN)的不变性对其完成高级任务非常有利，但其输出因为不够局部化而导致预测结果丢失细节；为了克服DCNN这一缺点，本发明提供了一种基于多尺度CNN和连续CRF的单目图像深度估计方法，包括如下步骤：

(1)获取足够数量的样本图像，并对样本图像依次进行数据增强操作以及归一化处理；

(2)根据步骤(1)中归一化后的样本图像分两个阶段训练DCNN，DCNN共包括三个栈，前两个栈通过第一阶段训练完成，第三个栈通过第二阶段训练完成；

(3)对于待估计深度的输入图像I，根据DCNN的输出建立关于输入图像I及其深度图Y的条件概率分布函数P(Y|I)：

其中：Z(I)为输入图像I对应的配分函数，E(Y，I)为关于输入图像I及其深度图Y的能量函数，z_i为第i个有效像素预测的对数深度值，y_i和y_j分别为第i个有效像素和第j个有效像素实际的对数深度值，p_i和p_j分别为第i个有效像素和第j个有效像素的坐标值，c_i和c_j分别为第i个有效像素和第j个有效像素的LAB颜色值，w_ij1、w_ij2、σ_ij1、σ_ij2和σ_ij3均为CRF模型参数，i和j均为自然数且1≤i≤N，1≤j≤N，N为有效像素的总数；

然后对函数P(Y|I)进行最大化求解，进而将求解得到的深度图从对数空间转换回线性空间即可获得具有较高精确度且保留了物体轮廓细节信息的深度图。

所述的数据增强操作包括尺寸缩放、旋转、平移、亮度缩放以及镜像，所述的归一化处理即减去样本图像的均值并除以均方差。

所述DCNN的第一个栈为Imagenet预训练网络，即采用Alexnet模型的前7层或VGG16模型的前15层；第二个栈由5个卷积层组成，前4个卷积层均尾随池化操作，最后1个卷积层为线性输出，其中第1个卷积层的输入为步骤(1)中归一化处理后的样本图像，第2个卷积层的输入则是第一个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征，之后每一个卷积层的输入均为前一个卷积层的输出；第三个栈由4个卷积层组成，前3个卷积层均尾随池化操作，最后1个卷积层为线性输出，其中第1个卷积层的输入为步骤(1)中归一化处理后的样本图像，第2个卷积层的输入则是第二个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征，之后每一个卷积层的输入均为前一个卷积层的输出。

所述第一阶段训练中所使用的损失函数L如下：

其中：x_i和分别是第i个有效像素的预测深度值和实际深度值，和分别表示d_i的水平梯度和垂直梯度。

所述的步骤(3)中通过以下算式对函数P(Y|I)进行最大化求解：

其中：Z为DCNN第三个栈的输出经双线性插值上采样和边界补全后的深度图，D为对角元素d_ii＝∑_js_ij的对角矩阵，S为相似度矩阵且其中第i行第j列元素值E为N×N的单位矩阵。

所述的CRF模型参数w_ij1、w_ij2、σ_ij1、σ_ij2和σ_ij3可通过以下两种优化方法取得：第一种方法是将CRF集成到DCNN中统一用SGD(随机梯度下降)法寻优，此时CRF的输出与真实对数深度图进行比较计算损失；第二种方法是CRF模型独立调优，在一定的范围内用交叉验证集数据，步长从大到小循环寻优，此时DCNN的参数是固定不变的。

本发明结合了多尺度CNN和连续CRF优化思想，不仅能够以较高的精确度估计出深度图，又能使得到的深度图轮廓清晰；本发明所估计的深度有比较高的分辨率，而且所得到的深度图能保留场景中所有对象的深度细节信息，具有更好的视觉效果。

附图说明

图1为本发明深度估计方法的流程示意图。

图2为超像素及其邻域像素的示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明基于CNN和CRF的单目图像深度估计方法，包括如下步骤：

(1)准备训练数据。

准备足够数量的训练样本(训练集数据可自己采集创建或从互连网下载一些已公开的深度数据集，如NYU Depth v2、KITTI等)，并对训练样本进行缩放、旋转、平移、亮度缩放和镜像等数据增强操作，以使训练得到的CNN有较强的泛化能力；进行缩放增强时，目标深度数据要作相应的调整，如原图放大s倍，则目标深度缩小到原来的1/s；训练集的输入图像调整到一定大小，并进行归一化处理，即减去训练图像的均值并除以均方差；实际的深度图也要调整到较小的尺度(训练第1阶段的目标大小为输入长宽的1/4，第2阶段目标大小为输入长宽的1/2)，并转化到自然对数空间。

(2)训练DCNN。

因为网络较深，参数数量较大，为了避免出现梯度消失和过拟合现象，DCNN的训练分成两个阶段进行。第1阶段所训练的网络包括两个栈，第1个栈是Imagenet预训练网络(Alexnet的前7层或VGG16的前15层)，其结构和参数直接从Alexnet或VGG16迁移过来，在训练过程中只作微调；第2个栈由5个卷积层组成，前4个卷积层都尾随一个池化层，最后1个是线性输出：第1个卷积层的输入是归一化后的RGB输入原图，第2个卷积层的输入则是第1个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征，后面每一个卷积层的输入都是前一个卷积层的输出；该阶段训练所使用的损失函数为：

第2阶段训练时，第1阶段训练所得的网络参数固定不再变化，仅调整第3个栈的参数，第3个栈包括4个卷积层，前3个卷积层都尾随池化操作，最后一个卷积层是线性输出，第1个卷积层的输入是归一化后的RGB输入原图，第2个卷积层的输入则是上一个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征，后面每一个卷积层的输入都是前一个卷积层的输出。

本发明通过微调Imagenet预训练DCNN(Alexnet和VGG16均可)，将Imagenet预训练的Alexnet或VGG16的卷积层和前两个全连接层作为稠密特征提取器，再附加更多的卷积层使网络更深性能更强，最后形成多尺度DCNN来预测给定图像的稠密深度图，这个多尺度DCNN的结构如图1所示。

图1中的Imagenet预训练网络可以是Imagenet预训练的Alexnet的前7层，也可以是VGG16的前15层，当输入图像大小与Imagenet的输入训练图像大小不一致时，则只保留Alexnet的前5层或VGG16的前13层卷积层参数，随后的两个全连接层要重新训练。

整个网络的训练过程分两个阶段进行，如图1的虚线框所示。阶段1所训练的网络由两个网络栈构成，归一化后的图像首先通过第一个网络栈，即Imagenet预训练网络，经过该网络栈处理的输出尺度会比输入的原图小很多，为了提高输出的深度图的分辨率并保留更多的局部细节信息，首先对第一个训练栈的输出进行长宽均为4倍的上采样，然后将该结果与归一化后的输入图像经过一次卷积和池化的结果(选择卷积核的大小和池化的步长使输出尺度与上一栈的输出大小相同)进行通道上的连接，连接的特征输入给随后的4个卷积层，用较小的步长和补零填充，特征的大小在经过这4个层的过程中保持不变。在这4个卷积层中，前3个卷积层后都有修正线性单元(Rectified linear unit，ReLU)的处理，最后1个卷积层则是线性的，输出的是长宽约为输入图像1/4的预测深度图。

为了在训练过程中根据损失的大小反向传播调整网络参数，本发明把目标深度图缩小至与输出结果一样的尺度，并转化到对数空间，然后根据公式1计算损失。阶段1训练时仅调整图1中上面虚线框内的网络参数，每个层的学习率设置为：ImageNet预训练网络卷积层学习率为0.001，两个全连接层学习率为0.1，第二个栈的第一个和最后一个卷积层学习率为0.001，中间三个卷积层学习率为0.01。

阶段1训练得到的网络输出的深度图尺寸较小，只有输入图像长宽的1/4，而且轮廓模糊，丢失细节，因此本发明用阶段2所训练的网络来进一步细化特征并由输入图像中的高分辨率细节来得到更精致的深度图输出。为了得到尺寸更大的深度图输出，本发明首先将阶段1网络的输出的长宽方向都上采样2倍，并把归一化后的输入图像经过一层卷积和池化层后与该上采样的结果进行连接，再将该特征送入三个卷积层，输出的结果长宽与阶段1输出经上采样后的长宽一致，即为原始输入图像长宽的1/2。

将阶段1训练的那部分网络参数固定，单独训练阶段2的那部分网络，该阶段每个层的学习率设置为：第一个和最后一个卷积层学习率为0.001，中间的卷积层学习率为0.01，CRF层的学习率为0.1。

DCNN虽然能大致可靠地预测出给定图像中场景的粗糙深度图，但无法精确的构画出场景中各个对象的轮廓，因为经过多次池化层的高层特征有更强的不变性和更大的感受野，虽然有利于分类，但对从高层特征推导位置细节的任务却带来了挑战上。上述过程虽然已较充分地利用了多尺度结构来细化局部信息，但最终的预测结果仍然存在轮廓模糊的现象。为了在预测的深度图中恢复出清晰的边缘，本发明将稀疏连接CRF集成到多尺度深度学习CNN框架中。

(3)采用CRF进行优化预测。

假如用I来表示输入图像，Y＝(y₁,…,y_n)∈Rⁿ对应I中所有像素的深度值，对于给定的I，可以用如下密度函数为Y建立条件概率分布模型：

此处E(Y，I)是能量函数，其中配分函数Z定义为：

Z(I)＝∫_Yexp(-E(Y，I))dY (3)

对输入图像I的深度预测可以通过求解如下最大化后验概率得到：

能量函数E(Y，I)可以定义为单点势能和成对势能的组合，由DCNN中第3个栈的输出经双线性插值上采样和边界补全后的深度图与实际深度值的自然对数的欧氏距离作为能量函数中的单点势能，根据输入图像的像素间位置、颜色等相似性为依据计算能量函数的成对势能；如下：

E(Y，I)＝Σ_iu(y_i，I)+Σ_ijθ_ij(y_i，y_j，I) (5)

其中，u是单点势能项，由CNN的输出通过计算最小方差损失得到：

u(y_i，I)＝(z_i-y_i)² (6)

其中：z_i和y_i分别为第i个有效像素预测的对数深度和实际的对数深度值。

成对势能项定义为：

如图1所示，输入到CRF模型的除了DCNN初步预测的深度图外，还有像素之间的相似度矩阵(即成对势能)，成对势能是稀疏分布的，仅考虑那些相互处于对方邻域中的像素之间的关系。为了确定两个像素是否处于对方邻域中，本发明首先将输入图像用SLIC算法分割成500个超像素，并将处于同一超像素中或处于相邻超像素中的像素称为邻域像素，再在此基础上确定邻域和像素间相似度矩阵。如图2所示，假如图2中1～15个区域代表15个超像素，那么对第8个超像素内的像素来说，第2、3、4、7、8、9、12、13、14个超像素内的所有像素都是它们的邻域像素。

式7中的每个k_m是依赖于第i个像素的特征f_i和第j个像素特征f_j的高斯核，并由w_m加权。处于同一超像素内的像素之间分享一组高斯核参数，而分处于相邻超像素内的像素之间分享另一组参数。在本发明中像素的特征由位置和颜色来描述，因此带权高斯核定义为：

其中，p_i和p_j分别为像素i，j的纵横坐标，c_i和c_j分别为像素i，j的LAB颜色值，参数w和σ的值与像素i，j的相对位置有关，若两个像素处于同一超像素内，则w和σ取相对较大的值；若两个像素分别处于两个不同的超像素内，但这两个超像素相邻，则w和σ取相对小一点的值；若两个像素分别处于两个不相邻的超像素内，则两个权重w均为0。

式8中第1项同时依赖于位置和颜色，意味着如果两个像素之间位置和颜色都很接近，则这一项越大，反之亦然，第2项仅依赖于位置。在计算相似性时，原图像首先从RGB颜色空间转换到Lab颜色空间，依赖于像素间关系的成对势能概括如下：

当像素i和j处于同一超像素内时：

当像素i和j分处于两个相邻超像素内时：

其他情况：

θ_ij(y_i，y_j，I)＝0 (11)

从式9和式10可知，其实两式除了参数不同，形式完全一致，因为考虑到越相近的像素之间联系更大，因此w₁、w₂、σ₁、σ₂、σ₃的值会比w₃、w₄、σ₄、σ₅、σ₆的值相对大一些。参数w和σ需要进行优化才能取得理想的结果，优化方法有两种：第一种是将CRF集成到DCNN中统一用SGD法寻优，此时CRF的输出与真实对数深度图进行比较计算损失；第二种是CRF模型独立调优，在一定的范围内用交叉验证集数据，步长从大到小循环寻优，此时DCNN的参数是固定不变的。

对CRF层而言，可以将它集成到DCNN中通过训练获得参数w₁,…,w₄和σ₁,…,σ₆的最优值，也可以先训练DCNN网络，此时训练的网络到最后一个卷积层为止，将这个卷积层的输出作为预测的深度，仍使用公式1计算损失进行反向传播调整4个卷积层的网络参数，当然此时的目标深度图的大小是阶段1的目标图的长宽的2倍；而将CRF作为单独的后处理步骤，此时CRF的参数可以通过一个小的验证数据集通过交叉验证求解得到。

本发明采用负的对数似然函数作为模型的损失函数：

为了最小化式12所示的损失函数即最大化后验概率P(Y|I)，经过一系列的推导，最终可得：

此处Z为DCNN第三个栈的输出经双线性插值上采样和边界补全后的深度图，A是由下式决定的矩阵：

A＝E+D-S (14)

其中：S是由决定的相似度矩阵，D是对角元素d_ii＝∑_js_ij的对角矩阵，E是N×N的单位矩阵。式13中的就是最终获得的恢复了边缘细节的深度图，当DCNN和CRF的参数寻优完成后，只要将待估计深度的RGB图像输入到DCNN和CRF组成的系统中，将CRF输出的深度图从对数空间转换回线性空间即可得到有较高精确度且保留了物体轮廓等细节信息的深度图。

室外场景和室内场景的网络参数是不一样的，所以训练时应使用室内和室外两套数据集来分别训练两个不同的系统，分别用于室内场景和室外场景的深度估计；以下给出了四种不同的具体实施方式：

实施例1

1.使用NYU Depth v2数据集464个室内场景中的249个场景的原始数据做训练样本，把其中的RGB图像从640×480降采样到320×240，然后用随机平移的方式裁剪出304×228大小的图像作为最终的输入图像。从每个场景中取1200个不同的图像样本，通过平移、旋转、缩放、亮度缩放及镜像等数据增强方式将训练集样本扩充至接近2000000个。

2.进行阶段1的训练，其中第一个网络栈采用ImageNet预训练的Alexnet。

3.固定阶段1训练得到的网络参数，进行阶段2的训练，其中包括了DCNN的后半部分和CRF部分的参数优化。

4.网络输出的结果为自然对数深度，求自然指数将深度数据恢复到线性空间。

5.在用该网络能估计任意室内场景图像的深度，但在使用时，需要将输入图像的大小调整为304×228才能进行深度估计。

实施例2

2.进行阶段1的训练，其中第一个网络栈采用ImageNet预训练的VGG16网络结构与参数。

实施例3

3.固定阶段1训练得到的网络参数，进行阶段2的训练，仅训练DCNN的后半部分即图1中第二个虚线框内最后一个卷积层为止。

4.从训练集中每一个场景任取一个样本作为交叉验证CRF参数的数据集，用前面训练好的DCNN的输出及从输入图像计算得到的像素间稀疏相似矩阵数据以便对CRF的各项参数进行优化计算。

5.用训练好的DCNN及优化得到CRF构成图1所示的系统，处理输入到该系统的任意室内场景图像，在使用时，需要将输入图像的大小调整为304×228才能进行深度估计。

实施例4

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于多尺度CNN和连续CRF的单目图像深度估计方法，包括如下步骤：

Z(I)＝∫_Yexp(-E(Y，I))dY

2.根据权利要求1所述的单目图像深度估计方法，其特征在于：所述的数据增强操作包括尺寸缩放、旋转、平移、亮度缩放以及镜像，所述的归一化处理即减去样本图像的均值并除以均方差。

3.根据权利要求1所述的单目图像深度估计方法，其特征在于：所述DCNN的第一个栈为Imagenet预训练网络，所述Imagenet预训练网络采用Alexnet模型的前7层或VGG16模型的前15层；第二个栈由5个卷积层组成，前4个卷积层均尾随池化操作，最后1个卷积层为线性输出，其中第1个卷积层的输入为步骤(1)中归一化处理后的样本图像，第2个卷积层的输入则是第一个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征，之后每一个卷积层的输入均为前一个卷积层的输出；第三个栈由4个卷积层组成，前3个卷积层均尾随池化操作，最后1个卷积层为线性输出，其中第1个卷积层的输入为步骤(1)中归一化处理后的样本图像，第2个卷积层的输入则是第二个栈的输出经上采样后与第1个卷积层池化后的输出连接而成的特征，之后每一个卷积层的输入均为前一个卷积层的输出。

4.根据权利要求3所述的单目图像深度估计方法，其特征在于：所述第一阶段训练中所使用的损失函数L如下：

5.根据权利要求1所述的单目图像深度估计方法，其特征在于：所述的步骤(3)中通过以下算式对函数P(Y|I)进行最大化求解：