CN107204010B

CN107204010B - 一种单目图像深度估计方法与系统

Info

Publication number: CN107204010B
Application number: CN201710293908.XA
Authority: CN
Inventors: 曾一鸣; 胡瑜; 刘世策; 唐乾坤; 李晓维
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2019-11-19
Anticipated expiration: 2037-04-28
Also published as: CN107204010A

Abstract

本发明涉及单目图像深度估计方法和系统，包括：构建仅具有特征摄取部分的CNN模型架构，作为特征摄取架构；按所需深度图的分辨率设置多个全连接层；将全连接层连接至特征摄取架构，组成初级估计网络模型；使用训练数据集训练初级估计网络模型，并提取初级估计网络模型各层的特征图；计算特征图和其相应深度图的平均相对局部几何结构误差，并根据平均相对局部几何结构误差生成最终估计模型；使用训练数据集并结合损失函数对最终估计模型进行训练，并用训练完成后的最终估计模型对输入图像进行深度预测。本发明根据平均相对局部几何结构误差并基于损失函数训练CNN，进而提高CNN回归深度图像的精度与清晰度，生成的深度图保留了更多场景的几何结构特征。

Description

一种单目图像深度估计方法与系统

技术领域

本发明涉及三维图像深度估计技术领域，特别涉及一种单目图像深度估计方法与系统。

背景技术

目前，计算机视觉技术大部分是在二维平面图像的基础上提出的，然而图像在成像过程中丢失了部分真实三维场景的信息，导致一部分基于二维平面图像的计算机视觉技术存在一些固有的缺陷，例如：算法对场景的理解出错偏差，对物体识别发生错误。因此,从二维平面图像或者视频序列中提出深度信息进而预测深度图像重建三维结构是一项非常重要的技术。如果能很好的解决深度估计这个问题，将会对计算机视觉技术的极大帮助，对物体尺寸、遮挡关系、形状、分割等应用都有极大的促进。此外，深度估计也可广泛应用于2D电影转3D电影，智能机器人自主导航，机械臂抓取，增强现实等。

目前，场景的深度信息的获取主要通过两种方式：一种是通过专门的硬件设备直接获取深度，如三维激光雷达和RGB-D相机。Velodyne等公司生产的三维激光雷达测量的深度信息范围大，精度高，但是其高昂的价格制约了其推广使用。近年来，小型RGB-D相机逐渐出现在市场上，如Microsoft公司的Kinect，ASUS公司的Xtion，Intel公司的RealSense等。RGB-D相机可以通过红外光获取近景图像的深度信息，并且成本较低，被许多研究者应用到3D场景重建、人体姿势识别、多目标跟踪、语义分割等领域，取得了很多成果，效果好于仅使用RGB信息的方法。但是，RGB-D相机最大检测距离较短，受环境光的影响大，以Microsoft公司的Kinect为例，其最大检测距离仅为5米。RGB-D相机适合室内环境的深度感知，而不适用于大范围或户外场景深度信息的获取。

另一种方式是利用同一场景的单幅或者多幅可见光图像序列进行深度的估计。在此种方式下，通常根据同一场景的视点图像数量将深度估计的方法分为三类：基于多视图的深度估计方法、基于双目图像的深度估计算法和基于单目图像的深度估计方法。基于多视图的深度估计通常对同一场景采用摄像机阵列进行图像采集,并利用多个视点图像之间的冗余信息进行深度信息的计算。基于多视点的深度估计方法能够获得与此场景对应的较为准确的深度信息,但是摄像机阵列成本高，配置麻烦，拍摄要求高，因此在实践过程中较少使用。基于双目图像的深度估计仿照人类视觉系统对深度的感知方法，利用双目视差进行三角测距。基于双目图像的深度估计的主要问题在于寻找对应点，一般使用SIFT，SURF等特征寻找对应点。根据对应的特征点和两个摄像机的位置关系，恢复出摄像机的内外参数以及场景的三维信息。基于单目图像的深度估计只利用一个视点图像进行深度估计。与前两者相比，单目的情形更符合实际的应用，例如识别等应用大多只有单幅图像。同时，单目图像的深度估计没有可靠和鲁棒的线索可用，因此基于单目图像的深度估计难度更高。基于单目图像的深度估计算法分为两类：基于深度线索(depth cue)的深度估计算法和基于机器学习的深度估计算法。

常用的深度线索包括：运动信息、线性透视、聚焦、遮挡、纹理、阴影等。根据运动信息求解深度是最常用的一个方法：运动恢复结构(Structure from Motion，SfM)技术可以从摄像机拍摄的图像序列中恢复出摄像机的内外参数和场景的深度信息。基于SfM技术的深度估计算法通常能够恢复出较高精度的场景深度信息,但其缺点在于：受制于特殊的场景,要求必须存在摄像机的运动；当场景中存在运动物体时,对深度求解的精度也影响很大；由于需要求解摄像机内外参数,因此深度估计的速度也相对较慢。

近年来，基于机器学习的深度估计算法得到越来越广泛的研究，这类方法不受特定的场景条件的限制，具有较好的适用性。该类算法主要通过机器学习的方法，将大量训练图像和对应的深度图像输入到定义好的模型中进行有监督的学习，模型训练完成后，便可将实际待测试的图像输入到训练好的模型中进行深度的计算。这种训练测试的过程非常类似于人类的视觉系统利用积累的先验知识(如各种启发式的深度线索)进行深度感知的过程。基于图模型的深度估计算法是单目图像深度估计算法中最为经典的算法。此类深度估计算法的一般步驟为：1)使用超像素(superpixel)等方法预先将图像分割为多个块，并假设此图像块的深度值相同；2)分别选取绝对的深度特征和相对的深度特征，对应估计每个块的绝对深度和估计相邻块的相对深度(即深度差值)；3)构建后端求解模型，其中最常用的是马尔可夫随机场模型(Markov Random Field,MRF)，通过后端模型建立局部特征和深度之间的相关关系及不同图像块之间深度的相关关系，用训练集训练；4)使用训练好的模型预测深度。斯坦福大学的AndrewY.Ng所领导的团队基于此种方法开发了可通过二维图像重构三维场景的Make3D系统。

最近，深度学习技术崛起，并在图像识别、语音识别、自然语文处理等领域，并取得了突破性的进展。深度学习技术同样也已经被运用到单目图像的深度估计中。Eigen等人首先使用了基于卷积神经网络的端到端的回归方法，直接从输入的场景图像预测场景的深度图，他们使用了一种多尺度的卷积神经网络：首先用粗尺度的网络预测场景深度的大概范围，然后使用细尺度的网络细调深度值。之后，为了取得更高的精度，Eigen等人将他们的网络拓展为三种尺度的CNN。继Eigen之后，Laina等人将全卷积模型(Fully ConvolutionalNetwork,FCN)引入到深度预测中，同样也完成从输入场景图像到输出深度图的端对端回归，并取得了更高的精度。另一种基于CNN的深度预测方法是将CNN作为深度特征提取器使用，先使用CNN提取深度特征，然后使用条件随机场(Conditional Random Fields，CRF)等模型建立深度特征的联系估计深度。Liu等人提出了一种深度卷积神经网络和条件随机场的联合模型，首先使用超像素分割图像成小图像片，然后利用深度卷积神经网络建立了图像块到深度图之间的相关关系及相邻位置上的图像块所对应的深度之间关联，并利用条件随机场的损失函数实现了对此联合模型的学习。虽然此方法保留更多的图像几何结构，如清晰的边缘和角等，但精度不如使用基于CNN直接预测深度图像的方法。

在现有的基于CNN直接估计深度图像的方法中，与图像几何结构相关的深度线索在CNN回归过程中会丢失掉一部分，没有很好利用这些深度线索导致CNN直接预测的深度图像在精度和清晰度方面都受到限制。

发明内容

针对上述问题，本发明提出了一种单目图像深度估计方法，包括以下步骤：

步骤S1：获取多个原训练样本，并对该原训练样本进行数据增强操作，生成训练数据集，其中该原训练样本包括原场景图和原深度图；

步骤S2：构建仅具有特征摄取部分的CNN模型架构，作为特征摄取架构；

步骤S3：按所需深度图的分辨率设置多个全连接层，该全连接层的每一个输出对应该深度图的一个像素点；

步骤S4：将该全连接层连接至该特征摄取架构，组成初级估计网络模型；

步骤S5：使用该训练数据集训练该初级估计网络模型，并将该初级估计网络模型发送至步骤S6；

步骤S6：提取该初级估计网络模型各层的特征图；

步骤S7：计算该特征图和其相应深度图的平均相对局部几何结构误差，并根据该平均相对局部几何结构误差生成最终估计模型；

步骤S8：使用该训练数据集并结合损失函数对该最终估计模型进行训练，并用训练完成后的该最终估计模型对输入图像进行深度预测。

该单目图像深度估计方法，其中步骤S7中该最终估计模型的具体生成过程为：

绘制该平均相对局部几何结构误差的折线图，在该折线图中找到极小值点，将前q个该极小值点所对应的层记录为一个集合，并将该集合中每层之后的特征图通过一个前递结构连接到深度产生层，在该深度产生层合并该初级估计网络模型产生的深度图与q个前递结构送来的深度图，生成该最终估计模型。

该单目图像深度估计方法，其中该数据增强操作包括：

缩放步骤：将原场景图缩放到原来的θ倍，则对应的原深度图也缩放到原来的θ倍，同时原深度图中的深度值除以θ，生成缩放训练样本；

裁剪步骤：对该原训练样本、该缩放训练样本进行随机剪切，生成裁剪训练样本；

图像调整步骤：对该原训练样本、该缩放训练样本和该裁剪训练样本进行色度、饱和度和亮度调整，包括对色度、饱和度和亮度乘以一个随机值δ，生成图像调整训练样本；

镜像步骤：对该原训练样本、该缩放训练样本、该裁剪训练样本和该图像调整训练样本做水平镜像操作，生成镜像训练样本。该镜像训练样本与该原训练样本、该缩放训练样本、该裁剪训练样本和该HSL调整训练样本构成该训练数据集。

该单目图像深度估计方法，其中若是针对室内场景的深度估计，则步骤S1中，该数据增强操作还包括：

旋转步骤：将该原场景图与对应的该原深度图随机旋转ω∈[-5°,5°]，生成旋转训练样本。

该单目图像深度估计方法，其中该训练数据集包括该镜像训练样本、该原训练样本、该缩放训练样本、该裁剪训练样本和该图像调整训练样本，且若是针对室内场景的深度估计，则该训练数据集还包括旋转训练样本。

该单目图像深度估计方法，其中步骤S7中该平均相对局部几何结构误差的计算方法为，首先根据该特征图和其相应深度图计算相对几何特征值，之后除特征图通道数以得到各几何特征平均值，最后通过对该几何特征平均值进行归一化处理，得到该该平均相对局部几何结构误差。

该单目图像深度估计方法，其中步骤S8中该损失函数为：

其中，λ_j为可调整的系数，P表示输入场景图，分别表示特征图和P对应的深度图中的像素点；

j＝1时，为像素d_i处的曲率差；

j＝2时，为像素d_i处的梯度差；

j＝3时，为像素d_i处的对比度差。

该单目图像深度估计方法，其中该CNN模型架构基于ResNet-101模型。

本发明还提出了一种单目图像深度估计系统，其中包括以下模块：

数据增强模块：用于获取多个原训练样本，并对该原训练样本进行数据增强操作，生成训练数据集，其中该原训练样本包括原场景图和原深度图；

模型构建模块：用于构建仅具有特征摄取部分的CNN模型架构，作为特征摄取架构；

全连接层设置模块：用于按所需深度图的分辨率设置若干全连接层，该全连接层的每一个输出对应该深度图的一个像素点；

第一模型生成模块：用于将该全连接层连接至该特征摄取架构，生成初级估计网络模型；

模型训练模块：用于使用该训练数据集训练该初级估计网络模型；

特征图提取模块：用于提取该初级估计网络模型各层的特征图；

第二模型生成模块：用于计算该特征图和其相应深度图的平均相对局部几何结构误差，并根据该平均相对局部几何结构误差生成最终估计模型；

图像预测模块：用该训练数据集并结合损失函数对该最终估计模型进行训练，并用训练完成后的该最终估计模型对输入图像进行深度预测。

该单目图像深度估计系统，其中第二模型连接模块所用该损失函数为：

j＝1时，为像素d_i处的曲率差；

j＝2时，为像素d_i处的梯度差；

j＝3时，为像素d_i处的对比度差。

本发明提出了一种单目图像深度估计方法和系统，包含了一种衡量与几何结构相关的误差项，即平均相对局部几何结构误差，并且提出一种CNN网络结构，提升了几何结构相关的深度线索的利用率，同时基于该误差项派生新的损失函数训练CNN。进而提高CNN回归深度图像的精度与清晰度，生成的深度图保留了更多场景的几何结构特征。

附图说明

图1为本发明所述深度预测方法流程图；

图2为本发明所述实施过程图；

图3为本发明所述深度预测网络结构示意图；

图4为本发明所述平均RLGSE折线图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明提供的一种单目图像深度估计方法，如图1所示包括如下步骤：

步骤S1：获取多个原训练样本，并对该原训练样本依次进行数据增强操作，生成训练数据集，其中该原训练样本包括原场景图和原深度图；

步骤S3：按所需要的深度图的分辨率设置多个新的全连接层，并将最后一个全连接层的输出排列成二维的形式，该全连接层的每一个输出对应该深度图的一个像素点；

步骤S4：将步骤S3中的该全连接层连接到步骤S2中所保留的该特征摄取架构，组成初级估计网络模型M'；

步骤S5：使用步骤S1中准备好的该训练数据集训练步骤S4中的初级估计网络模型M'，并将训练完成的该初级估计网络模型M'发送至步骤S6；

步骤S6：提取该初级估计网络模型各层的特征图M'，具体为提取初级估计网络模型M'各层的特征图F_i,j，其中i＝1,2,3,...,n，j＝1,2,...,C_i，F_i,j表示第i层第j通道的特征图，C_i表示第i层的通道数，其中特征图为图像经过神经网络的每一层计算后产生的计算结果；

步骤S8：使用该训练数据集并结合损失函数对该最终估计模型进行训练，并使用训练完成后的该最终估计模型对输入图像进行深度预测。

其中在步骤S7中最终估计模型生成过程为，绘制该平均相对局部几何结构误差的折线图，在该折线图中找到极小值点，将前q个该极小值点所对应的层记录为一个集合，并将该集合中每层之后的特征图通过一个前递结构连接到深度产生层，在该深度产生层合并该初级估计网络模型产生的深度图与q个前递结构送来的深度图，生成该最终估计模型。进一步，该最终估计模型生成过程具体为，在折线图中找到平均RLGSE的前N个极小值点m_k，k＝1,2,...,N，并记录对应的层数l_k，得到集合L_N＝{l_k|k＝1,2,...,N}。从L_N中选取q(q≤N)个元素组成L_N的一个子集L_q，对于每个e∈L_q，将已经训练好的的初级估计网络模型M'中第e层后的特征图再通过一个前递结构(由全卷积网络组成)连接到深度产生层，最后在该深度产生层合并所有原M'产生的深度图与q个前递结构送来的深度图，这个新的深度预测网络模型记为最终估计模型。需要注意的是在步骤S7中的最终估计模型的结构在加了前递结构后，整体结构就不会修改了，随后的步骤S8训练该最终估计模型的过程仅涉及修改该最终估计模型中的参数，而不再涉及结构上的修改。其中深度产生层是指把之前的运算结果，即特征图融合并产生深度的层。

其中，步骤S7中该平均相对局部几何结构误差的计算方法为，首先根据该特征图和其相应深度图计算相对几何特征值，之后除特征图通道数以得到各几何特征平均值，最后通过对该几何特征平均值进行归一化处理，得到该该平均相对局部几何结构误差。具体为计算所有特征图与深度图的相对局部几何结构误差RLGSE(F_i,j,G_t)，G_t为S1中准备好的该数据集中场景对应的深度图，分别表示F_i,j和G_t中的像素点，其中：

公式中β_j为归一化系数，T_j表明不同的相对几何特征，实施例中取了三种几何特征项，即曲率、梯度和对比度，分别对应T₁、T₂、T₃，所以j取1，2，3：

表示像素d_i处的相对曲率差，其中k表示计算曲率；

表示像素d_i处的相对梯度差，其中▽表示计算梯度；

表示像素d_i处的相对对比度差，ξ表示计算对比度，其中Ng(d_i)表示像素d_i的八邻域，则像素d_i的邻域对比度差为：

其四阶矩μ₄为μ₄(Ng(d_i))＝E[(Ng(d_i)-E(Ng(d_i)))⁴]；

其方差σ²为σ²(Ng(d_i))＝E[(Ng(d_i)-E(Ng(d_i)))²]；

计算该初级估计网络模型M'第i层所有通道特征图的平均RLGSE：其中C_i为第i层的特征图的通道数，并以层数i为x轴，以平均RLGSE为y轴绘制平均RLGSE的折线图；

使用S1中准备好的训练数据集训练步骤S7中的初级估计网络模型M，生成最终网络模型，该最终网络模型为最终训练后得出的初级估计网络模型，可对输入图像进行深度预测，其中训练时所用的损失函数为：

其中，λ_j为可调整的系数，作为控制损失的权值，是一种经验性的值，一般取0.1-0.5，

为像素d_i处的曲率差，

为像素d_i处的梯度差，

为像素d_i处的对比度差；

步骤S11：使用该最终网络模型对输入的图像进行深度预测。

如图2所示，实施例一(在本实例主要针对室内场景的深度估计)包括：

准备训练数据集。训练数据集中应包含数量足够多的多个原训练样本，训练样本可以通过使用3D雷达、RGB-D相机等设备自己采集，也可以来自通用的数据集。在本实例主要针对室内场景的深度估计，在本实施例中使用NYU depthv2数据集进行训练，通过NYUdepth v2数据集中提供的工具箱可以得到同步的原场景图与原深度图组成的图像对，即原训练样本由多个该图像对组成。训练网络时原场景图为输入，原深度图为对应的参考结果。为了增加数据集中样本的数量并提高深度估计的卷积神经网络模型的泛化能力，对NYUdepth v2数据集中的原训练样本做如下数据增强操作：

缩放步骤：将原场景图缩放到原来的θ倍，并将对应的原深度图也缩放到原来的θ倍，同时深度图中的深度值除以θ，生成缩放训练样本，θ∈[0.75,1.25]；

旋转步骤：将原场景图与对应的原深度图随机旋转ω∈[-5°,5°]，生成旋转训练样本；

裁剪步骤：对原训练样本、缩放训练样本和旋转训练样本中所有样本进行随机剪切，生成298*218像素的场景图和对应位置的深度图，作为裁剪训练样本；

图像调整步骤：对原训练样本、缩放训练样本、旋转训练样本和裁剪训练样本中所有样本进行色度(Hue)、饱和度(Saturation)和亮度(Lightness)调整，调整包括对色度、饱和度和亮度乘以一个随机值δ，以生成图像调整训练样本，其中δ∈[0.8,1.2]以模拟自然环境的光照变化；

镜像步骤：对原训练样本、缩放训练样本、旋转训练样本、裁剪训练样本和图像调整训练样本中所有的样本做水平镜像操作，生成镜像训练样本，所得的镜像训练样本与之前的处理好的原训练样本、缩放训练样本、旋转训练样本、裁剪训练样本和图像调整训练样本构成深度估计的卷积神经网络模型的训练数据集。

构建深度估计的初级估计网络模型M'。基于现有的CNN架构，将该CNN模型中原有的全连接层及其后的所有层移除，仅保留卷积层、池化层、RELU层，Batch norm层，即仅保留该CNN模型中的特征摄取部分，生成特征摄取架构。本实施例选用文献“K.He,X.Zhang,S.Ren,and J.Sun,“Deep Residual Learning for Image Recognition,”Arxiv.Org,vol.7,no.3,pp.171–180,2015.”中的ResNet-101模型。基于ResNet-101模型，去除其中的全连接层以其后所有的层，然后按所需要的深度图的分辨率设计新的全连接层，构成深度估计的初级估计网络模型M'，如图3深度预测网络结构示意图中所示。本实施中设置全连接层的输出有3996个，对应74*54像素的深度图。在准备好的该数据集上训练初级估计网络模型M'。

计算各特征图与深度图的相对局部几何结构误差。对于已经训练好的初级估计网络模型M'，从该训练数据集中挑选一张原场景图作为输入场景图(如图3中所选输入场景图)，使用该初级估计网络模型M'预测场景的深度，在此过程中，该模型M'中每一层的中间计算结果称为特征图，导出卷积神经网络中所有层的特征图(本实施例中导出了136层的特征图)。计算所有特征图与深度图的相对局部几何结构误差RLGSE(F_i,j,G_t)，其中G_t为S1中准备好的该训练数据集中场景对应的深度图。用分别表示F_i,j和G_t中的像素点。则：

其中β_j为归一化系数，P表示输入场景图，T_j表明不同的相对几何特征，本实施例仅举例j为1、2、3时的情况，j的取值还可拓展为4以上的正整数以对应更多几何特征：

j＝1时，表示像素d_i处的相对曲率差，

j＝2时，表示像素d_i处的相对梯度差，

j＝3时，表示像素d_i处的相对对比度差，其中Ng(d_i)表示像素d_i的八邻域，则像素d_i的邻域对比度差为：

其四阶矩μ₄为μ₄(Ng(d_i))＝E[(Ng(d_i)-E(Ng(d_i)))⁴]，

其方差σ²为σ²(Ng(d_i))＝E[(Ng(d_i)-E(Ng(d_i)))²]。

计算各层特征图的平均RLSGE：并绘制平均RLSGE的折线图，如图4所示。在图4中找到平均RLSGE的极小值，并记录该极小值对应的层。平均RLSGE出现极小值说明此层的几何结构保留较多，而后续层中几何结构的丢失导致误差增大。在本实施例中，按两侧波动幅度，选择了三个极小值点，如图4中折线图上的圆圈所标记，所选择的这些层分别对应原来ResNet-101层的pool1层，res3a_branch2c层和res3b3层。

构造新的深度估计模型M。根据平均RLSGE的计算结果可知，初级估计网络模型M'的pool1层，res3a_branch2c层和res3b3层后的特征图保留了较为丰富的几何结构信息，为了更多的保留这些几何结构信息，使用基于全卷积网络的前递结构将这些特征图送到深度产生层，如图3深度预测网络结构示意图所示。在本实施例中，pool1层后连接了三个卷积层，其卷积核的大小都为3*3；在res3a层后连接了三个有不同大小卷积核的卷积层，注意，此处因res3a_branch2c层在ResNet-101的内部残差块(residual block)中，考虑到内部残差块的完整性，将前传结构放在了res3a_branch2c层所在内部残差块的末端，即res3a层；在res3b3层后连接了由三个卷积层和一个反卷积层组成的全卷积网络，因res3b3层后的特征图分辨率只有37*27，所以加了一层反卷积层对特征图进行上采样，使其特征图的分辨率增加到74*54。最后在深度产生层合并所有的特征图，产生场景图对应的深度图。

对于生成的最终估计模型，再次使用之前准备好的该训练数据集进行训练，训练时所用的损失函数为：

其中，λ_j为可调整的系数是一种经验性的值，一般可取0.1-0.5；

P表示输入场景图，分别表示特征图和P对应的深度图中的像素点；

j＝1时，为像素d_i处的曲率差；

j＝2时，为像素d_i处的梯度差；

j＝3时，为像素d_i处的对比度差。

训练完成后，即可输入其它场景的图像，以估算出场景的深度图。

实施例二(在本实例主要针对室外场景的深度估计)：

准备训练数据集。在本实例主要针对室外场景的深度估计。在本实施例中使用KITTI数据集进行训练，先处理数据集中的图像和激光数据，得到同步的原场景图与原深度图对应的图像对，训练网络时原场景图为输入，原深度图为对应的参考结果。为了增加数据集中样本的数量并提高深度估计的卷积神经网络模型的泛化能力，对KITTI数据集中的原训练样本做如下数据增强操作：

缩放步骤：将原场景图缩放到原来的θ倍，则对应的原深度图也缩放到原来的θ倍，同时原深度图中的深度值除以θ，生成缩放训练样本。考虑到室外场景更大的场景深度变化，本实施例中θ∈[1.0,1.5]。

裁剪步骤：对该原训练样本、该缩放训练样本进行随机剪切，在本实施例中裁切尺寸为576*172像素，裁切该原训练样本、该缩放训练样本中的场景图和对应位置的深度图，生成裁剪训练样本。

图像调整步骤：对该原训练样本、该缩放训练样本和该裁剪训练样本进行色度、饱和度和亮度调整，包括对色度、饱和度和亮度乘以一个随机值δ，其中δ∈[1.0,1.2]以模拟自然环境的光照变化，生成图像调整训练样本。

镜像步骤：对该原训练样本、该缩放训练样本、该裁剪训练样本和该图像调整训练样本做水平镜像操作，生成镜像训练样本，该镜像训练样本与该原训练样本、该缩放训练样本、该裁剪训练样本和该图像调整训练样本构成该训练数据集。

通过和实施例一对比可知，本实施例二作为室外场景的深度估计，不需要如实施例一中的旋转操作，因为采集室外深度图的激光雷达在水平和竖直两个方向的分辨率相差很大，水平方向分辨率很高，竖直方向分辨率很低，旋转会导致深度图的大量有效值丢失。

随后构建深度估计的初级估计网络模型M'。类似于实施例一，构成深度估计的初级估计网络模型M'，本实施中设置全连接层的输出有3834个，对应142*27像素的深度图。在准备好的训练数据集上训练初级估计网络模型M'。

接下来的步骤与实施例一中相似，本实施例中不再叙述。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

j＝1时，为像素d_i处的曲率差；

j＝2时，为像素d_i处的梯度差；

j＝3时，为像素d_i处的对比度差。

虽然本发明以上述实施例公开，但具体实施例仅用以解释本发明，并不用于限定本发明，任何本技术领域技术人员，在不脱离本发明的构思和范围内，可作一些的变更和完善，故本发明的权利保护范围以权利要求书为准。

Claims

1.一种单目图像深度估计方法，其特征在于，包括以下步骤：

步骤S3：按所需深度图的分辨率设置多个全连接层，该全连接层的每一个输出对应该所需深度图的一个像素点；

步骤S6：提取该初级估计网络模型各层的特征图；

2.如权利要求1所述的单目图像深度估计方法，其特征在于，步骤S7中该最终估计模型的具体生成过程为：

3.如权利要求1所述的单目图像深度估计方法，其特征在于，该数据增强操作包括：

镜像步骤：对该原训练样本、该缩放训练样本、该裁剪训练样本和该图像调整训练样本做水平镜像操作，生成镜像训练样本；该镜像训练样本与该原训练样本、该缩放训练样本、该裁剪训练样本和该图像调整训练样本构成该训练数据集。

4.如权利要求3所述的单目图像深度估计方法，其特征在于，若是针对室内场景的深度估计，则步骤S1中，该数据增强操作还包括：

5.如权利要求4所述的单目图像深度估计方法，其特征在于，该训练数据集包括该镜像训练样本、该原训练样本、该缩放训练样本、该裁剪训练样本和该图像调整训练样本，且若是针对室内场景的深度估计，则该训练数据集还包括旋转训练样本。

6.如权利要求1所述的单目图像深度估计方法，其特征在于，步骤S7中该平均相对局部几何结构误差的计算方法为，首先根据该特征图和其相应深度图计算相对几何特征值，之后除以特征图通道数以得到各几何特征平均值，最后通过对该几何特征平均值进行归一化处理，得到该平均相对局部几何结构误差。

7.如权利要求1所述的单目图像深度估计方法，其特征在于，该CNN模型架构基于ResNet-101模型。

8.一种单目图像深度估计系统，其特征在于，包括以下模块：

全连接层设置模块：用于按所需深度图的分辨率设置若干全连接层，该全连接层的每一个输出对应该所需深度图的一个像素点；