CN110415284B

CN110415284B - 一种单视彩色图像深度图获得方法及装置

Info

Publication number: CN110415284B
Application number: CN201910703005.3A
Authority: CN
Inventors: 陈雪锦; 陈啸天
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2022-04-19
Anticipated expiration: 2039-07-31
Also published as: CN110415284A

Abstract

本发明公开了一种单视彩色图像深度图获得方法及装置，可以从输入的一张单视角彩色图像中提取预设尺度队列中的多个尺度下的初始特征图；对多个尺度中的任一尺度：在该尺度下将提取的多个尺度下的初始特征图进行融合，获得该尺度下的融合特征图；根据多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图获得所述最粗尺度下的深度图；对多个尺度中的除所述最粗尺度外的任一尺度：根据该尺度下的融合特征图获得该尺度下的深度残差图，将该尺度下的深度残差图与预设尺度队列中上一尺度下的深度图融合后获得该尺度下的深度图；将所述多个尺度中最细尺度下的深度图确定为单视角彩色图像的深度图。本发明在定量和定性上均实现了最优的性能。

Description

一种单视彩色图像深度图获得方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种单视彩色图像深度图获得方法及装置。

背景技术

最近几年，卷积神经网络已经在各种计算机视觉任务上已经取得了显著的效果，Eigen等人(David Eigen et al.,Depth map prediction from a single image using amulti-scale deep network.In Advances in Neural Information ProcessingSystems,2014.)是第一个将卷积神经网络用于单目深度估计上的，首先通过粗网络估计场景的全局结构，然后细网络利用CNN的底层特征的局部信息对全局结构进行优化，超越了几乎所有的传统算法。之后，随着全卷积网络在语义分割任务中被提出(Jonathan Long etal.,Fully convolutional networks for semantic segmentation.In IEEE Conferenceon Computer Vision and Pattern Recognition,2015.)，该网络被广泛的用于包括深度估计在内的许多其他的稠密的计算机视觉任务。

Laina等人是第一个利用全卷积神经网络的架构预测深度，其利用ResNet作为编码器的骨架网络，用于从图像中提取特征，并利用上投影块恢复出高分辨率下的深度图，显著改善了预测深度图的精度(IroLaina et al.,Deeper depth prediction with fullyconvolutional residual networks.In 3DV,IEEE,2016.)。同时为了改善预测深度图的局部细节，也有大量方法被提出。Li等人利用条件随机场作为深度估计的后处理步骤(Bo Liet al.,Depth and surface normal estimation from monocular images usingregression on deep features and hierarchical crfs.In IEEE Conference onComputer Vision and Pattern Recognition,2015.)。Xu等人在卷积神经网络中整合条件随机场预测深度(Dan Xu et al.,Multi-scale continuous CRFs as sequential deepnetworks for monocular depth estimation.In IEEE Conference on Computer Visionand Pattern Recognition,2017.)。随后，又在其拓展工作中将注意力机制整合到该网络中(Dan Xu et al.,Structured attention guided convolutional neural fields formonocular depth estimation.In IEEE Conference on Computer Vision and PatternRecognition,2018.)，这些方法均使得预测的深度图得到了改善。Fu等人利用多尺度的架构去缓解由于池化操作和带步长的卷积操作所引起的细节丢失(Huan Fu et al.,Deepordinal regression network for monocular depth estimation.In IEEE Conferenceon Computer Vision and Pattern Recognition,2018.)。Hao等人利用膨胀卷积也同样缓解了细节丢失的问题(ZhixiangHao et al.,Detail preserving depth estimation froma single image using attention guided networks.In 3DV,IEEE,2018.)，Hu等人提出一个有效的多尺度融合模块明显的改善了预测深度图的边缘(Junjie Hu et al.,Revisiting single image depth estimation:Toward higher resolution maps withaccurate object boundaries.In IEEE Winter Conference on Applications ofComputer Vision,2019.)。为了更好地恢复结构细节，一些方法也提出了一些新颖的损失函数去显式地约束场景几何。Zheng等人提出序数敏感归一化损失函数用于约束全局布局(Kecheng Zheng et al.,LA-Net:Layout-aware dense network for monocular depthestimation.In ACM Multimedia Conference on Multimedia Conference,2018.)。相似的，Fu等人提出利用序数回归损失函数有效的改善了预测精度(Huan Fu et al.,Deepordinal regression network for monocular depth estimation.In IEEE Conferenceon Computer Vision and Pattern Recognition,2018.)。Hu等人提出在损失函数中融合深度，梯度和法向显著改善了预测精度(Junjie Hu et al.,Revisiting single imagedepth estimation:Toward higher resolution maps with accurate objectboundaries.In IEEE Winter Conference on Applications of Computer Vision,2019.)。

虽然这些方法通过融合这些多尺度的图像特征已经实现了显著的效果，但是当复杂场景中包含多尺度场景结构时，仍然会存在不精确的预测。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的单视彩色图像深度图获得方法及装置，技术方案如下：

一种单视彩色图像深度图获得方法，包括：

从输入的一张单视角彩色图像中提取预设尺度队列中的多个尺度下的初始特征图，所述多个尺度按照尺度从细到粗的顺序在所述尺度队列中从下到上依次排列；

对所述多个尺度中的任一尺度：在该尺度下将提取的多个尺度下的初始特征图进行融合，获得该尺度下的融合特征图；

根据所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图获得所述最粗尺度下的深度图；

对所述多个尺度中的除所述最粗尺度外的任一尺度：根据该尺度下的融合特征图获得该尺度下的深度残差图，将该尺度下的深度残差图与所述预设尺度队列中上一尺度下的深度图融合后获得该尺度下的深度图；

将所述多个尺度中最细尺度下的深度图确定为所述单视角彩色图像的深度图。

可选的，所述根据所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图获得所述最粗尺度下的深度图，包括：

将所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图进行通道合并，获得所述最粗尺度下的通道合并特征图；

使用训练得到的第一卷积核组对所述最粗尺度下的通道合并特征图进行卷积，获得所述最粗尺度下的初始深度图；

使用训练得到的第二卷积核组对所述初始深度图进行卷积，然后和所述最粗尺度下的初始深度图相加，获得所述最粗尺度下的细化深度图。

可选的，所述对所述多个尺度中的除所述最粗尺度外的任一尺度：根据该尺度下的融合特征图获得该尺度下的深度残差图，将该尺度下的深度残差图与所述预设尺度队列中上一尺度下的深度图融合后获得该尺度下的深度图，包括：

对所述多个尺度中的除所述最粗尺度外的任一尺度：使用训练得到的、与该尺度匹配的第三卷积核组对该尺度下的融合特征图进行卷积，获得该尺度下的深度残差图，对所述预设尺度队列中上一尺度下的细化深度图进行上采样，将上采样后的细化深度图与该尺度下的深度残差图相加，获得该尺度下的初始深度图，使用训练得到的、与该尺度匹配的第四卷积核组对该尺度下的初始深度图进行卷积，然后和该尺度下的初始深度图相加，获得该尺度下的细化深度图。

可选的，所述第三卷积核组包括第一卷积核和第二卷积核，所述第一卷积核的大小为3×3，所述第一卷积核的通道数与所述第三卷积核组匹配的尺度下的融合特征图的通道数相同；所述第二卷积核为一个通道数为1的3×3的卷积核；

所述第四卷积核组包括第三卷积核、第四卷积核和第五卷积核，所述第三卷积核、所述第四卷积核和所述第五卷积核的大小均为3×3，所述第三卷积核和所述第四卷积核的通道数均为与所述第四卷积核组匹配的尺度下的融合特征图的通道数的一半，所述第五卷积核的通道数为1。

可选的，所述对所述多个尺度中的任一尺度：在该尺度下将提取的多个尺度下的初始特征图进行融合，获得该尺度下的融合特征图，包括：

对所述多个尺度中的任一尺度：将提取的多个尺度下的初始特征图通过双线性插值调整到该尺度的分辨率下，将调整后的多个初始特征图输入自适应稠密特征融合模块进行融合，获得该尺度下的融合特征图。

一种单视彩色图像深度图获得装置，包括：特征提取单元、融合单元、第一深度图获得单元、第二深度图获得单元和深度图确定单元，

所述特征提取单元，用于从输入的一张单视角彩色图像中提取预设尺度队列中的多个尺度下的初始特征图，所述多个尺度按照尺度从细到粗的顺序在所述尺度队列中从下到上依次排列；

所述融合单元，用于对所述多个尺度中的任一尺度：在该尺度下将提取的多个尺度下的初始特征图进行融合，获得该尺度下的融合特征图；

所述第一深度图获得单元，用于根据所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图获得所述最粗尺度下的深度图；

所述第二深度图获得单元，用于对所述多个尺度中的除所述最粗尺度外的任一尺度：根据该尺度下的融合特征图获得该尺度下的深度残差图，将该尺度下的深度残差图与所述预设尺度队列中上一尺度下的深度图融合后获得该尺度下的深度图；

所述深度图确定单元，用于将所述多个尺度中最细尺度下的深度图确定为所述单视角彩色图像的深度图。

可选的，所述第一深度图获得单元包括：合并子单元、第一卷积子单元和相加子单元，

所述合并子单元，用于将所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图进行通道合并，获得所述最粗尺度下的通道合并特征图；

所述第一卷积子单元，用于使用训练得到的第一卷积核组对所述最粗尺度下的通道合并特征图进行卷积，获得所述最粗尺度下的初始深度图；

所述相加子单元，用于使用训练得到的第二卷积核组对所述初始深度图进行卷积，然后和所述最粗尺度下的初始深度图相加，获得所述最粗尺度下的细化深度图。

可选的，所述第二深度图获得单元具体用于：

可选的，所述融合单元，具体用于：

借由上述技术方案，本发明提供的一种单视彩色图像深度图获得方法及装置，可以从输入的一张单视角彩色图像中提取预设尺度队列中的多个尺度下的初始特征图，所述多个尺度按照尺度从细到粗的顺序在所述尺度队列中从下到上依次排列；对所述多个尺度中的任一尺度：在该尺度下将提取的多个尺度下的初始特征图进行融合，获得该尺度下的融合特征图；根据所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图获得所述最粗尺度下的深度图；对所述多个尺度中的除所述最粗尺度外的任一尺度：根据该尺度下的融合特征图获得该尺度下的深度残差图，将该尺度下的深度残差图与所述预设尺度队列中上一尺度下的深度图融合后获得该尺度下的深度图；将所述多个尺度中最细尺度下的深度图确定为所述单视角彩色图像的深度图。本发明在定量和定性上均实现了最优的性能。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种单视彩色图像深度图获得方法的流程图；

图2示出了本发明实施例提供的一种单视彩色图像深度图获得方法的实施示意图；

图3示出了本发明实施例提供的残差细化模块的处理示意图；

图4至图7示出了本发明得到的深度图与其他方案得到的深度图的比较示意图；

图8示出了本发明实施例提供的一种单视彩色图像深度图获得装置的结构示意图；

图9示出了本发明实施例提供的一种卷积核的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明实施例提供了一种单视彩色图像深度图获得方法，可以包括：

S100、从输入的一张单视角彩色图像中提取预设尺度队列中的多个尺度下的初始特征图，所述多个尺度按照尺度从细到粗的顺序在所述尺度队列中从下到上依次排列；

可选的，本发明可以预先训练得到一个卷积神经网络模型并通过该卷积神经网络模型来执行本发明图1所示各步骤。该卷积神经网络模型可以包括：多尺度编码器和残差金字塔解码器，本发明可以构建多尺度编码器的架构和残差金字塔解码器的架构。如图2所示，在本发明实施例提供一种单视彩色图像深度图获得方法的处理过程中，会涉及到卷积过程，则本发明可以通过卷积神经网络模型的训练来得到各卷积过程所使用的卷积核的参数。该卷积核的大小和通道数可以预先进行构建。图9所示为一个大小为2×2，通道数为1的卷积核。图9所示的卷积核中的数字1.1、2.3、3.0、-0.4即为卷积核的参数。可以理解的是，图2所示的处理流程仅为一种示意，本领域技术人员还可以根据需要对图2所示的处理流程进行修改和调整。

本发明可以首先利用一个多尺度编码器从输入的一张单视角彩色图像中提取多尺度的特征

其中

表示在第i层提取出的初始特征图，L表示尺度的数量。可选的，本发明的预设尺度队列中可以有五个不同的尺度。本发明可以用SENet(Squeeze-and-Excitation Networks)做为上述多尺度编码器的骨架网络，因为它可以通过重加权不同通道的特征图来提取更有效的图像特征。

下面结合图2举例说明步骤S100的其中一种具体执行过程：

设输入的单视角彩色图像的大小为W×H，通道数为3，则本发明可以将该单视角彩色图像表示为W×H×3的图像。本发明通过利用1个步长为2，卷积核为3×3的卷积核和2个步长为1，卷积核为3×3的卷积核(通道数可以为128)依次对输入的单视角彩色图像进行卷积，从输入图片中提取出

的初始特征图。之后，本发明可以通过堆叠的4个SE模块(详见：JunjieHu et al.,Squeezeand-excitation networks.In IEEE Conferenceon Computer Vision and Pattern Recognition,2018)逐层分别提取出

和

的初始特征图。因此，本发明可以提取出5个不同尺度下的初始特征图，即图2中最左侧的特征金字塔的5层初始特征图。其中，每层的初始特征图大小用符号表示为

其中i表示特征金字塔的层数。这些初始特征图携带有高层的语义信息(例如，物体的类别信息)和低层的细节信息。

S200、对所述多个尺度中的任一尺度：在该尺度下将提取的多个尺度下的初始特征图进行融合，获得该尺度下的融合特征图；

可选的，本发明的多尺度编码器可以包括自适应稠密特征融合模块。如图2所示，步骤S200可以将多尺度的初始特征图同时输入到一个自适应稠密特征融合模块中，该自适应稠密特征融合模块包括多个特征融合模块MFF(MFF英文全称为：Multi-scale FeatureFusion，详见Junjie Hu et al.,Revisiting single image depth estimation:Towardhigher resolution maps with accurate object boundaries.In IEEE WinterConference on Applications of Computer Vision,2019)。自适应稠密特征融合模块可以产生融合金字塔

融合金字塔中在第i层的融合特征被表示

其可以在所有特征图中自适应的选择生成某一尺度下深度图所需要的特征。具体的，图2所示的MFF可以为多个，每个MFF负责将多个尺度下的初始特征图进行融合获得一个尺度下的融合特征图，各MFF得到的融合特征图的尺度不同。

其中，步骤S200可以具体包括：

如图2所示，本发明可以通过步骤S200分别获得多个尺度下的融合特征图，每个尺度下的融合特征图均对不同尺度下的多个初始特征图进行了融合，因此每个尺度下的融合特征图即包含了高层的语义信息，又包含了低层的细节信息。

通常，残差金字塔解码器很难恢复出损失的低层结构细节。可是，低层的特征和高层的特征对于所有尺度的深度残差图的预测都很重要，因此深度残差图表达了在全局场景结构的基础上的一些额外的细节。如图2所示，为了对每一层的深度残差图的预测提供充足的信息，本发明分别将5个尺度下的初始特征图通过双线性插值同时调整到对应尺度的分辨率下，即

然后将调整了分辨率的初始特征图输入自适应稠密特征融合模块产生5个融合特征图，组合成用于预测残差深度图的融合金字塔。

具体的，上述步骤S100和步骤S200可以由多尺度编码器执行。

S300、根据所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图获得所述最粗尺度下的深度图；

其中，步骤S300可以具体包括：

可选的，将所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图进行通道合并，获得所述最粗尺度下的通道合并特征图的处理可以由多尺度编码器执行。初始深度图和细化深度图的获得过程可以由残差金字塔解码器执行。

如图2所示，最粗尺度下的初始特征图位于图2中最左侧的特征金字塔的最上层。最粗尺度下的初始特征图的大小可以为

通道数可以为2048，则最粗尺度下的初始特征图首先根据一个通道数为1024的3×3的卷积核进行卷积，从而使最粗尺度下的初始特征图变为

可选的，最粗尺度下的融合特征图可以为

则如图2所示，将最粗尺度下的初始特征图和所述最粗尺度下的融合特征图进行通道合并，获得的最粗尺度下的通道合并特征图可以为

如图2所示，第一卷积核组可以包括：两个卷积核，第一个卷积核的大小为3×3，通道数为1024(该卷积核可以表示为如图2所示的3×3×1024)；第二个卷积核的大小为3×3，通道数为1(该卷积核可以表示为如图2所示的3×3×1)。通过3×3×1024的卷积核，

的通道合并特征图可以变为

的通道合并特征图经过3×3×1的卷积核可以获得最粗尺度下的初始深度图。

如图2所示，第二卷积核组可以包括：三个卷积核，这三个卷积核依次为：3×3×512、3×3×512和3×3×1。

通过这三个卷积核，本发明可以将最粗尺度下的初始深度图卷积为一个

的图，然后将该图与最粗尺度下的初始深度图相加后得到大小为

的最粗尺度下的细化深度图。

S400、对所述多个尺度中的除所述最粗尺度外的任一尺度：根据该尺度下的融合特征图获得该尺度下的深度残差图，将该尺度下的深度残差图与所述预设尺度队列中上一尺度下的深度图融合后获得该尺度下的深度图；

其中，步骤S400可以具体包括：

其中，步骤S400和步骤S500可以由残差金字塔解码器执行，残差金字塔解码器中可以包括多个残差细化模块(RRM，Residual Refinement Modules)。

如图2和图3所示，对所述多个尺度中的除所述最粗尺度外的任一尺度：本发明可以使用残差细化模块RRM来进行下述处理(RRM的具体处理过程请参考图3)：

对所述预设尺度队列中上一尺度下的细化深度图进行上采样，将上采样后的细化深度图与该尺度下的深度残差图相加，获得该尺度下的初始深度图，使用训练得到的、与该尺度匹配的第四卷积核组对该尺度下的初始深度图进行卷积，然后和该尺度下的初始深度图相加，获得该尺度下的细化深度图。

其中，所述第三卷积核组包括第一卷积核和第二卷积核，所述第一卷积核的大小为3×3，所述第一卷积核的通道数与所述第三卷积核组匹配的尺度下的融合特征图的通道数相同；所述第二卷积核为一个通道数为1的3×3的卷积核。例如：对于所述最粗尺度的下一尺度(即金字塔从上至下的第二层尺度)，与该尺度匹配的所述第三卷积核组中的第一卷积核为3×3×1024，与该尺度匹配的所述第三卷积核组中的第二卷积核为3×3×1。

所述第四卷积核组包括第三卷积核、第四卷积核和第五卷积核，所述第三卷积核、所述第四卷积核和所述第五卷积核的大小均为3×3，所述第三卷积核和所述第四卷积核的通道数均为与所述第四卷积核组匹配的尺度下的融合特征图的通道数的一半，所述第五卷积核的通道数为1。例如：对于所述最粗尺度的下一尺度(即金字塔从上至下的第二层尺度)，与该尺度匹配的所述第四卷积核组中的第三卷积核和第四卷积核均为3×3×512与该尺度匹配的所述第四卷积核组中的第五卷积核为3×3×1。

本发明可以预测多个尺度的深度图，以一个由粗到细的机制恢复出分层的场景结构。如图2所示，低分辨率的深度图描绘出更多的全局场景布局，然而高分辨率的深度图包含了更多的结构细节信息。

如图2所示，对于除所述最粗尺度外的每个尺度，本发明都可以产生出一个该尺度下的深度残差图，从而获得图2所示的残差金字塔。将深度残差图和上一层尺度预测的细化深度图相加，获得该尺度下的初始深度图。使用训练得到的、与该尺度匹配的第四卷积核组对该尺度下的初始深度图进行卷积，然后和该尺度下的初始深度图相加，获得该尺度下的细化深度图。

本发明可以有效的在每个尺度去表达结构细节，并且分层的细化场景结构。与此同时，全局场景布局也被很好的保存。

为了训练本发明的卷积神经网络模型以预测精确的深度图同时以多个尺度的形式保留场景的结构，本发明在所有尺度的深度图和地面真实值之间计算损失，对于每一个尺度的损失函数，本发明利用[Hu et al.,2019]所定义的损失函数，其包含三项，表示在预测深度图和地面真实值之间像素值之间的差l_depth，l_grad表示对边缘处的惩罚，l_normal可以用于更好的改善细节。结合全部共L个尺度，本发明的损失函数对于卷积神经网络模型被构建为：

S500、将所述多个尺度中最细尺度下的深度图确定为所述单视角彩色图像的深度图。

在残差金字塔解码器部分，之前的方法都是通过逐步上采样特征图直接预测最高分辨率的深度图，与其不同的是本发明的残差金字塔解码器逐步地以一个由粗到细的机制逐步预测多个尺度的深度图。首先通过预测最顶层的深度图作为初始的场景结构。本发明利用一个卷积核为1，通道数为1024的卷积减少特征金字塔最顶层特征图的通道维数，即将最顶层的初始特征图的通道数从2048维降低到1024维，使得其与融合金字塔最顶层的融合特征图的通道维数相同，并将融合金字塔最顶层的融合特征图与降维后的多尺度编码器中最顶层初始特征图进行通道合并，之后再在后面接一个残差细化模块生成更加精细的细化深度图。

下面通过实际试验验证本发明的效果：

本发明使用NYU-Depth v2数据集来测试本发明的效果。该数据集中包括464组通过微软Kinect采集的视频序列。654张已矫正的RGB-Depth对被用于提供测试室内场景的深度估计算法。所有图片的分辨率均为640x480。为了训练本发明的卷积神经网络模型，本发明使用的训练数据和数据扩增方法与Hu等人(Junjie Hu et al.,Revisiting singleimage depth estimation:Toward higher resolution maps with accurate objectboundaries.In IEEE Winter Conference on Applications of Computer Vision,2019.)相同，共包含了50kRGBD对图片。每一张图片通过双线性插值被下采样到320x240大小，之后利用中心裁剪方法将其裁剪到304x228大小。预测的深度图尺寸为152×114，为了测试，本发明将预测的深度图通过双线性插值到304×228。本发明利用PyTorch实现了提出的卷积神经网络模型。多尺度编码器利用SENet作为主干网络，其权值初始化是通过预训练在ImageNet上，其余部分进行随机初始化。本发明利用学习率随步长衰减的方法和Adam优化方法，初始学习率被设置为10^-4，每5个epoch减少10％，β₁＝0.9，β₂＝0.999，权重衰减为10^-4，网络共训练20epochs，批大小设置为6。

下面将本发明与其他方案进行性能比较：

为了定量的评估本发明的一种单视彩色图像深度图获得方法，本发明采用4种度量方法去评估本发明的方法，包括平均相对误差(REL)，均方根误差(RMS)，平均log10误差(log10)和带阈值的精度。表1展示了本发明的方法和最近的一些方法的结果。对于单任务学习的方法而言，本发明的方法在REL，log10误差和带阈值的精度上获得了最好的性能。对于均方根误差而言，本发明的性能位列第三。本发明推测这些方法在设计网络和损失函数时只关注在绝对的像素深度精度，而忽略了细节的结构。因此这些方法在REL上并没有很好的性能。

本发明也将本发明的方法和多任务学习的方法进行了比较，结果证明本发明的方法优于三种方法，且和Jiao等人的方法(Jianbo Jiao et al.,Look deeper into depth:Monocular depth estimation with semantic booster and attention-driven loss.InEuropean Conference on Computer Vision,2018.)具有可比的性能，即使这些方法在训练中都使用了大量的语义标签。而且Jiao等人的方法在边缘处非常模糊，丢失了很多结构细节。本发明比较了本发明的方法和Jiao等人的方法，如图4，可以看出本发明的方法预测的深度图具有清晰的边缘和精细的结构。

本发明也分析了本发明的网络的每个部分的效果，本发明用简单的类UNet的结构作为本发明的基线，其中SENet作为本发明的多尺度编码器的主干网络，残差金字塔解码器利用逐步上采样特征图的方式恢复出深度图。本发明在基线的基础上逐步增加了本发明提出的残差金字塔解码器和自适应稠密特征融合模块，正如表1所示，定量评估的性能逐步被改善。具体的，在增加本发明的残差金字塔解码器之后，性能相对于基线有了一个很大的改善，其中REL降低了6.5％，RMS降低了3.5％，log10误差降低了3.8％，在增加了本发明提出的多尺度融合模块之后，REL减少了3.5％，RMS减少了2.7％，log10减少了4％。

表1：在NYUD v2数据集本发明的方法和最优的深度估计方法比较。

注意表1中联合学习的方法被本发明用*标注。在每个度量指标的最好的方法被本发明用黑色粗体标出。比本发明的结果好的被用斜体标出。

为了证明本发明的方法对于边缘细节上的有效性，本发明仿照Hu等人也测量了边缘精度。根据在地面真实的深度值上的边缘处计算精度，召回率，F1得分。从表2中，本发明可以看出本发明的F1得分超过了所有其他的方法在三个不同的阈值上。可以看出本发明的方法可以恢复出最优的结构细节。

表2：在不同阈值下深度预测的边缘精度定量比较

本发明在图5中比较了本发明的方法和一系列其他最优的方法。可以看到被本发明的方法预测的深度图在视觉上明显优于其他的方法。本发明的方法可以保留不同尺度的场景结构，尤其是对于大的平面区域和物体细节。例如，本发明的方法在第一行预测出书架的精度的几何细节，在第三行预测出精确的椅子腿和第五行预测出的沙发。对于大的平面区域，例如第二行左上角的墙面和第四行的墙面，都生成了更好的结果。为了更好的说明本发明的方法恢复大平面区域的能力，本发明投影了深度图到3D点云上，并且渲染其到新的视角。正如图6所示，本发明的重投影的结果非常接近地面真实值，尤其是通过本发明的方法恢复的平面区域非常平坦，然而其他的方法均会出现变形。

除了在NYUD v2数据集上测试本发明的方法，本发明进一步测试了本发明的提出的网络在其他的数据集上的泛化性能。本发明只在NYUD v2上训练的网路被测试在ScanNet数据集和SUN-RGBD数据集，这两个数据集都包涵了大量的RGBD数据集。正如图7所示，即使这两个数据集和NYUDv2数据集的分布完全不同，本发明的方法仍可以恢复在不同尺度的结构，包括大的平面区域和小的物体细节。而且，本发明的方法也补充了在地面真实值中存在的洞。

综上所述，本发明设计了一个卷积神经网络模型用于单目深度估计，为了将不同尺度基础结构考虑在内，一个残差金字塔解码器被提出用于预测多尺度的深度图。残差金字塔逐步增加在某一尺度精细的结构同时保留更上层的粗的布局。同时，通过用提出的自适应稠密特征融合模块其可以自适应地从所有尺度图像特征中选择特征去推测每个尺度的结构。实验结果证明本发明的方法在定量和定性上均实现了最优的性能。

与上述方法实施例相对应，如图8所示，本发明还提供了一种单视彩色图像深度图获得装置，可以包括：特征提取单元100、融合单元200、第一深度图获得单元300、第二深度图获得单元400和深度图确定单元500，

所述特征提取单元100，用于从输入的一张单视角彩色图像中提取预设尺度队列中的多个尺度下的初始特征图，所述多个尺度按照尺度从细到粗的顺序在所述尺度队列中从下到上依次排列；

所述融合单元200，用于对所述多个尺度中的任一尺度：在该尺度下将提取的多个尺度下的初始特征图进行融合，获得该尺度下的融合特征图；

可选的，所述融合单元200，可以具体用于：

所述第一深度图获得单元300，用于根据所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图获得所述最粗尺度下的深度图；

可选的，所述第一深度图获得单元300可以包括：合并子单元、第一卷积子单元和相加子单元，

所述第二深度图获得单元400，用于对所述多个尺度中的除所述最粗尺度外的任一尺度：根据该尺度下的融合特征图获得该尺度下的深度残差图，将该尺度下的深度残差图与所述预设尺度队列中上一尺度下的深度图融合后获得该尺度下的深度图；

可选的，所述第二深度图获得单元400可以具体用于：

其中，所述第三卷积核组包括第一卷积核和第二卷积核，所述第一卷积核的大小为3×3，所述第一卷积核的通道数与所述第三卷积核组匹配的尺度下的融合特征图的通道数相同；所述第二卷积核为一个通道数为1的3×3的卷积核。

所述深度图确定单元500，用于将所述多个尺度中最细尺度下的深度图确定为所述单视角彩色图像的深度图。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种单视彩色图像深度图获得方法，其特征在于，包括：

将所述多个尺度中最细尺度下的深度图确定为所述单视角彩色图像的深度图；

所述根据所述多个尺度中的最粗尺度下的初始特征图和所述最粗尺度下的融合特征图获得所述最粗尺度下的深度图，包括：

使用训练得到的第二卷积核组对所述初始深度图进行卷积，然后和所述最粗尺度下的初始深度图相加，获得所述最粗尺度下的细化深度图；

所述对所述多个尺度中的除所述最粗尺度外的任一尺度：根据该尺度下的融合特征图获得该尺度下的深度残差图，将该尺度下的深度残差图与所述预设尺度队列中上一尺度下的深度图融合后获得该尺度下的深度图，包括：

2.根据权利要求1所述的方法，其特征在于，所述第三卷积核组包括第一卷积核和第二卷积核，所述第一卷积核的大小为3×3，所述第一卷积核的通道数与所述第三卷积核组匹配的尺度下的融合特征图的通道数相同；所述第二卷积核为一个通道数为1的3×3的卷积核；

3.根据权利要求1所述的方法，其特征在于，所述对所述多个尺度中的任一尺度：在该尺度下将提取的多个尺度下的初始特征图进行融合，获得该尺度下的融合特征图，包括：

4.一种单视彩色图像深度图获得装置，其特征在于，包括：特征提取单元、融合单元、第一深度图获得单元、第二深度图获得单元和深度图确定单元，

所述深度图确定单元，用于将所述多个尺度中最细尺度下的深度图确定为所述单视角彩色图像的深度图；

所述第一深度图获得单元包括：合并子单元、第一卷积子单元和相加子单元，

所述相加子单元，用于使用训练得到的第二卷积核组对所述初始深度图进行卷积，然后和所述最粗尺度下的初始深度图相加，获得所述最粗尺度下的细化深度图；

所述第二深度图获得单元具体用于：

5.根据权利要求4所述的装置，其特征在于，所述第三卷积核组包括第一卷积核和第二卷积核，所述第一卷积核的大小为3×3，所述第一卷积核的通道数与所述第三卷积核组匹配的尺度下的融合特征图的通道数相同；所述第二卷积核为一个通道数为1的3×3的卷积核；

6.根据权利要求4所述的装置，其特征在于，所述融合单元，具体用于：