CN110060286A

CN110060286A - 一种单目深度估计方法

Info

Publication number: CN110060286A
Application number: CN201910340694.6A
Authority: CN
Inventors: 张云洲; 刘及惟; 冯永晖; 王帅; 裴美淇
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-07-26
Anticipated expiration: 2039-04-25
Also published as: CN110060286B

Abstract

本发明实施例涉及一种单目深度估计方法，其包括：获取待处理图像，并对所述待处理图像进行缩放处理，得到缩放图像；对所述缩放图像基于多尺度全卷积密集神经网络进行训练，得到深度图；对所述深度图进行放大处理，得到与所述待处理图像的尺寸大小相同的深度图；其中对所述缩放图像基于多尺度全卷积密集神经网络进行训练包括：对所述缩放图像进行特征提取，得到浅层特征；通过多尺度模块对所述浅层特征进行特征连接，得到深层特征；将所述深层特征与处理后的浅层特征进行特征连接，得到所述深度图。本发明实施例提供的方法通过多尺度全卷积密集神经网络对待处理图像进行训练，不仅可以大幅提高单目深度估计的准确率，还能提高单目深度估计的精度。

Description

一种单目深度估计方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种单目深度估计方法。

背景技术

目前，单目深度估计技术是计算机视觉领域中的热门技术，该技术可以广泛应用于3D建模、场景理解和深度感知等领域。

通常，单目深度估计算法主要可以分为三类，即传统方法、基于深度学习的有监督方法和基于深度学习的无监督方法。其中，传统方法使用图像中提取的手工特征，通过马尔科夫随机场对图像的相关关系进行建模，但是这些手工特征并不能较好地代表场景的3D结构信息，因此性能不理想。基于深度学习的无监督方法提出使用多视角信息作为有监督信号，可以有效地减少训练成本。而基于深度学习的有监督方法需要大量的真实深度标签，基于卷积神经网络具有的强大的从图像中学习到丰富的特征表达的能力，可以提高单目深度估计的准确性。

基于上述，基于深度学习的有监督方法具有准确率高的优势，但得到的深度图中仍然存在细节模糊、边缘不清晰等问题化。

上述缺陷是本领域技术人员期望克服的。

发明内容

(一)要解决的技术问题

为了解决现有技术的上述问题，本发明提供一种单目深度估计方法，其可以在提高准确率的同时提高单目深度估计的深度，解决深度图中细节模糊、边缘不清晰的问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

本发明一实施例提供一种单目深度估计方法，其包括：

获取待处理图像，并对所述待处理图像进行缩放处理，得到缩放图像；

对所述缩放图像基于多尺度全卷积密集神经网络进行训练，得到深度图；

对所述深度图进行放大处理，得到与所述待处理图像的尺寸大小相同的深度图；

其中对所述缩放图像基于多尺度全卷积密集神经网络进行训练包括：

对所述缩放图像进行特征提取，得到浅层特征；

通过多尺度模块对所述浅层特征进行特征连接，得到深层特征；

将所述深层特征与处理后的浅层特征进行特征连接，得到所述深度图。

本发明的一个实施例中，所述对所述缩放图像进行特征提取，得到浅层特征包括：

对所述缩放图像进行卷积运算；

利用DenseNet模块密集连接机制对所述卷积运算的结果进行特征提取，得到l层网络的输出为x_l，

x_l＝H_l([x_l-1,x_l-2,...,x₀]),

其中H_l(·)表示非线性激活，[x_l-1,x_l-2,...,x₀]表示密集连接操作。

本发明的一个实施例中，所述通过多尺度模块对所述浅层特征进行特征连接，得到深层特征包括：

利用至少三个不同尺寸的、并行的卷积核进行卷积运算，其中所述不同尺寸的卷积核包括1×1、3×3、5×5；

对所述卷积运算的结果进行池化运算；

对所述池化运算的结果利用DenseNet模块进行特征提取，分别得到至少三个不同的特征图；

采用特征连接对所述至少三个不同的特征图进行特征连接，得到所述深层特征。

本发明的一个实施例中，所述处理后的浅层特征为对所述浅层特征按照空间维度进行特征压缩处理得到的权重与所述浅层特征进行计算得到。

本发明的一个实施例中，所述按照空间维度进行特征压缩处理包括：

全局平均池化、卷积、非线性激活、卷积和归一化处理。

本发明的一个实施例中，所述将所述深层特征与处理后的浅层特征进行特征连接包括：

基于注意力机制的跳跃连接将所述深层特征与所述处理后的浅层特征进行特征连接。

本发明的一个实施例中，所述对所述深度图进行放大处理包括：

基于上采样密集模块采用至少三个3×3的卷积核进行卷积运算；

对所述卷积运算的结果进行特征连接。

本发明的一个实施例中，所述对所述缩放图像基于多尺度全卷积密集神经网络进行训练时采用边缘感知loss进行训练，其中所述边缘感知loss由berhu loss、梯度loss和边缘loss组成。

本发明的一个实施例中，所述边缘感知loss的计算公式为：

L＝L_depth+λL_gradient+μL_edge

其中L为所述边缘感知loss，L_depth为所述berhu loss，L_gradient为所述梯度loss，L_edge为所述边缘loss，λ和μ是权重系数；

其中L_depth的计算公式为：

其中e表示预测深度图和真实深度图的绝对值误差，c是超参数；

L_gradient的计算公式为：

其中表示所述预测深度图，y表示所述真实深度图，和分别代表水平梯度算子和垂直梯度算子；

L_edge的计算公式为：

其中H表示自编码器，用于提取浅层特征的边缘信息。

本发明的一个实施例中，当所述待处理图像为室内图像数据时，λ为5，μ为0.05；当所述待处理图像为室外图像数据时，λ为1，μ为0.05。

(三)有益效果

本发明的有益效果是：本发明实施例提供的单目深度估计方法，通过基于多尺度全卷积密集神经网络对缩放图像进行训练和处理，不仅可以大幅提高单目深度估计的准确率，还能有效解决深度图中存在的细节模糊、边缘不清晰等问题，以提高单目深度估计的精度。

附图说明

图1为本发明一个实施例提供的一种单目深度估计方法的流程图；

图2为本发明一个实施例中步骤S120的流程图；

图3为本发明一个实施例提供的一待处理图像的示意图；

图4为本发明一种实施例提供的基于多尺度全卷积密集神经网络的单目深度估计方法的流程图；

图5本发明一种实施例的基于多尺度全卷积密集神经网络的单目深度估计系统的结构框架图；

图6为本发明一种实施例的多尺度模块示意图；

图7为本发明一种实施例的基于注意力机制的跳跃连接示意图；

图8为本发明一种实施例的密集上采样模块示意图；

图9为本发明一种实施例的自编码器示意图；

图10为本发明一种实施例的生成深度图的示意图；

图11为本发明一种实施例的本文技术方案与其他算法生成的深度图在NYU数据集上的对比示意图；

图12本发明一种实施例的本文技术方案与其他算法生成的深度图在KITTI数据集上的对比示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1为本发明一个实施例提供的一种单目深度估计方法的流程图，如图1所示，该方法包括以下步骤：

如图1所示，在步骤S110中，获取待处理图像，并对所述待处理图像进行缩放处理，得到缩放图像；

如图1所示，在步骤S120中，对所述缩放图像基于多尺度全卷积密集神经网络进行训练，得到深度图；

如图1所示，在步骤S130中，对所述深度图进行放大处理，得到与所述待处理图像的尺寸大小相同的深度图。

基于上述，对其中步骤S120做进一步介绍，图2为本发明一个实施例中步骤S120的流程图，如图2所示，步骤S120对所述缩放图像基于多尺度全卷积密集神经网络进行训练包括以下步骤：

如图2所示，在步骤S121中，对所述缩放图像进行特征提取，得到浅层特征；

如图2所示，在步骤S122中，通过多尺度模块对所述浅层特征进行特征连接，得到深层特征；

如图2所示，在步骤S123中，将所述深层特征与处理后的浅层特征进行特征连接，得到所述深度图。

在图1及图2所示本发明实施例所提供的技术方案中，一方面，单目深度估计采用本发明实施例所提供的基于多尺度全卷积密集神经网络对缩放图像进行训练和处理，由于是深度学习的有监督方法进行训练，可以大幅提高单目深度估计的准确率。另一方面，通过特征提取以及多尺度特征融合，并基于跳跃连接将处理后的浅层特征与深层特征进行特征连接，还能有效解决深度图中存在的细节模糊、边缘不清晰等问题，以提高单目深度估计的精度。

以下对图1及图2所示实施例的各个步骤的具体实现进行详细阐述：

在步骤S110中，获取待处理图像，并对所述待处理图像进行缩放处理，得到缩放图像。

在本发明的一个实施例中，该步骤中获取待处理图像并将该待处理图像作为目标图像，然后对目标图像做缩放处理，得到的缩放图像的分辨率为304×228。

在步骤S120中，对所述缩放图像基于多尺度全卷积密集神经网络进行训练，得到深度图。

在本发明的一个实施例中，该步骤中主要通过对缩放图像进行训练，构建基于多尺度全卷积密集神经网络模型，该神经网络模型的构建过程如图2所示，包括步骤S121～S123。

在步骤S121中，对所述缩放图像进行特征提取，得到浅层特征。

在本发明的一个实施例中，步骤S121具体包括：

首先，对所述缩放图像进行卷积运算；

然后，利用DenseNet模块密集连接机制对所述卷积运算的结果进行特征提取，得到l层网络的输出为x_l，

x_l＝H_l([x_l-1,x_l-2,...,x₀]), 公式(1)

该步骤中，通过将DenseNet作为网络的编码部分，用于特征提取。由于DenseNet是一种具有密集连接的卷积神经网络，在该网络中，任何两层之间都有直接的连接，让网络的每一层都直接与前面层相连，也就是说，网络每一层的输入都是前面所有层输出的并集。通过密集连接操作可以缓解梯度消失问题，加强特征传播，实现了特征的重复利用，极大地减少参数量。

在步骤S122中，通过多尺度模块对所述浅层特征进行特征连接，得到深层特征。

在本发明的一个实施例中，步骤S122具体包括：

对所述卷积运算的结果进行池化运算；

在步骤S123中，将所述深层特征与处理后的浅层特征进行特征连接，得到所述深度图。

在本发明的一个实施例中，该步骤中所述处理后的浅层特征为对所述浅层特征按照空间维度进行特征压缩处理得到的权重与所述浅层特征进行计算得到。

在本发明的一个实施例中，得到浅层特征的步骤中所述按照空间维度进行特征压缩处理包括：

全局平均池化、卷积、非线性激活、卷积和归一化处理。

在本发明的一个实施例中，所述将所述深层特征与处理后的浅层特征进行特征连接包括：

在本发明的一个实施例中，所述对所述深度图进行放大处理包括：

基于上采样密集模块采用至少三个3×3的卷积核进行卷积运算；对所述卷积运算的结果进行特征连接。

在本发明的一个实施例中，所述对所述缩放图像基于多尺度全卷积密集神经网络进行训练时采用边缘感知loss进行训练，其中所述边缘感知loss由berhu loss、梯度loss和边缘loss组成。

在本发明的一个实施例中，所述边缘感知loss的计算公式为：

L＝L_depth+λL_gradient+μL_edge 公式(2)

其中L_depth的计算公式为：

L_gradient的计算公式为：

L_edge的计算公式为：

其中H表示自编码器，用于提取浅层特征的边缘信息。

在本发明的一个实施例中，当所述待处理图像为室内图像数据时，λ为5，μ为0.05；当所述待处理图像为室外图像数据时，λ为1，μ为0.05。

图3为本发明一个实施例提供的一待处理图像的示意图，图4为本发明一种实施例提供的基于多尺度全卷积密集神经网络的单目深度估计方法的流程图，下面以图3所示的待处理图像和图4所示流程为例对上述方法的技术方案进行介绍，具体如下：

以图4所示流程为例，大致包括：

S1：获取目标图像(即待处理图像)；

S2：进行缩放处理；

S3：将缩放处理后的缩放图像输入到基于多尺度全卷积密集神经网络的单目深度估计系统中；

S4：单目深度估计系统输出的深度图进行放大处理；

S5：生成原图尺寸的深度图。

图5本发明一种实施例的基于多尺度全卷积密集神经网络的单目深度估计系统的结构框架图，如图5所示，首先，对缩放图像进行卷积运算和DenseNet模块的处理，得到浅层特征；其次，对浅层特征进行卷积、池化以及DenseNet模块的处理，然后通过多尺度模块进行特征连接，得到深层特征；然后，再将得到的深层特征通过密集上采样模块进行图像尺寸放大，得到原图尺寸的深度图。

图6为本发明一种实施例的多尺度模块示意图，如图6所示，其中多尺度模块之前的卷积运算和DenseNet模块作为编码器，经过编码后的特征分析进行1×1卷积、3×3卷积、5×5卷积，得到三个不同的特征图，在多尺度模块中对三个不同的特征图采用特征连接的方式进行特征融合，得到深度图，该深度图以供后续步骤的解码器进行放大。

需要说明的是，在多尺度模块之后，解码之前，还需要对深层特征与处理后的浅层特征进行特征连接，本发明实施例中可以基于注意力机制的跳跃连接进行特征融合，具体介绍如下。

图7为本发明一种实施例的基于注意力机制的跳跃连接示意图，如图7所示，首先，基于注意力机制的跳跃连接首先顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野。然后通过网络学习方式为每个特征通道生成权重，如图7所示，具体的处理可以包括全局平均池化、卷积、非线性激活、卷积和归一化等，显示建模通道间的相关性，最后将输出权重看作是经过特征选择后的每个特征通道的重要性，再通过乘法逐通道与先前的浅层特征进行加权，即权重×特征，得到处理后的浅层特征。通过注意力机制可以传递更有用的浅层特征，然后将处理后的浅层特征与深层特征进行特征连接，得到深度图。

图8为本发明一种实施例的密集上采样模块示意图，如图8所示，得到深度图之后，在本发明的神经网络中解码部分使用密集上采样模块，用于特征图尺寸放大。本实施例中密集上采样模块可以采用四个3×3卷积操作得到四个特征图，然后对四个特征图进行特征连接，并将低分辨率的特征周期性地组装成高分辨率的特征图，即经过特征连接和特征转换的步骤可以得到深层特征图，即深度图。

图9为本发明一种实施例的自编码器示意图，自编码器用于提取浅层特征的边缘信息，如图9所示，自编码器的处理流程为：输入深度图、卷积、卷积、卷积以及转置卷积、转置卷积、转置卷积一系列处理输出深度，这里需要保证输入深度图和输出深度图尽可能相似。

图10为本发明一种实施例的生成深度图的示意图，单目深度估计系统的输出是分辨率为160×128的深度图，对此深度图进行放大处理，分辨率为原图尺寸，也就是图10所示的该深度图为与图2所示待处理图像对应的深度图。

图11为本发明一种实施例的本文技术方案与其他算法生成的深度图在NYU数据集上的对比示意图，如图11所示，示出基于多尺度全卷积密集神经网络的单目深度估计方法和真实深度图、Laina et al等人、Eigen et al等人的深度图在NYU室内数据集的对比示意图。

结合图11所示的对比图，表1为本发明对比Ladicky et al等人、Liu et al等人、Eigen et al等人、Laina et al等人、Xu et al等人和Li et al等人在NYU数据集的测试结果。其中RMSE代表均方根误差，REL代表绝对值误差，δ代表准确率。

表1

参见表1所示，本技术方案预测的深度图的方根误差与绝对值误差总体上均小于其他算法，准确率大于其他算法。

图12本发明一种实施例的本文技术方案与其他算法生成的深度图在KITTI数据集上的对比示意图，如图12所示，示出基于多尺度全卷积密集神经网络的单目深度估计方法和真实深度图、Eigen et al等人、Godard et al等人、Garg et al等人的深度图在KITTI室外数据集的对比示意图。

结合图12所示的对比图，表2为本发明对比Ladicky et al等人、Eigen et al等人、Godard et al等人和Garg et al等人在KITTI数据集的测试结果。其中RMSE代表均方根误差，REL代表绝对值误差，δ代表准确率。

表2

参见表2所示，本技术方案预测的深度图的方根误差与绝对值误差总体上均小于其他算法，准确率大于其他算法。

结合图1、图2、表1和表2所示，对于室内图像数据和室外图像数据的实验结果和其他算法相比，采用本发明实施例的技术方案，可以大幅提高深度估计的准确率，而且从图1和图2可以看出，该方案对于细节模糊、边缘不清晰等问题可以得到较好的改善。

综上所述，采用本发明实施例提供的单目深度估计方法，一方面，单目深度估计采用本发明实施例所提供的基于多尺度全卷积密集神经网络对缩放图像进行训练和处理，由于是深度学习的有监督方法进行训练，可以大幅提高单目深度估计的准确率。另一方面，通过特征提取以及多尺度特征融合，并基于跳跃连接将处理后的浅层特征与深层特征进行特征连接，还能有效解决深度图中存在的细节模糊、边缘不清晰等问题，以提高单目深度估计的精度。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种单目深度估计方法，其特征在于，其包括：

对所述缩放图像进行特征提取，得到浅层特征；

2.如权利要求1所述的单目深度估计方法，其特征在于，所述对所述缩放图像进行特征提取，得到浅层特征包括：

对所述缩放图像进行卷积运算；

利用DenseNet模块密集连接机制对所述卷积运算的结果进行特征提取，得到层网络的输出为x_l，

其中表示非线性激活，表示密集连接操作。

3.如权利要求1所述的单目深度估计方法，其特征在于，所述通过多尺度模块对所述浅层特征进行特征连接，得到深层特征包括：

对所述卷积运算的结果进行池化运算；

4.如权利要求3所述的单目深度估计方法，其特征在于，所述处理后的浅层特征为对所述浅层特征按照空间维度进行特征压缩处理得到的权重与所述浅层特征进行计算得到。

5.如权利要求4所述的单目深度估计方法，其特征在于，所述按照空间维度进行特征压缩处理包括：

全局平均池化、卷积、非线性激活、卷积和归一化处理。

6.如权利要求5所述的单目深度估计方法，其特征在于，所述将所述深层特征与处理后的浅层特征进行特征连接包括：

7.如权利要求1所述的单目深度估计方法，其特征在于，所述对所述深度图进行放大处理包括：

对所述卷积运算的结果进行特征连接。

8.如权利要求1所述的单目深度估计方法，其特征在于，所述对所述缩放图像基于多尺度全卷积密集神经网络进行训练时采用边缘感知loss进行训练，其中所述边缘感知loss由berhu loss、梯度loss和边缘loss组成。

9.如权利要求8所述的单目深度估计方法，其特征在于，所述边缘感知loss的计算公式为：

L＝L_depth+λL_gradient+μL_edge

其中L_depth的计算公式为：

L_gradient的计算公式为：

L_edge的计算公式为：

其中H表示自编码器，用于提取浅层特征的边缘信息。

10.如权利要求9所述的单目深度估计方法，其特征在于，当所述待处理图像为室内图像数据时，λ为5，μ为0.05；当所述待处理图像为室外图像数据时，λ为1，μ为0.05。