CN112785636B

CN112785636B - 一种多尺度增强式的单目深度估计方法

Info

Publication number: CN112785636B
Application number: CN202110189913.2A
Authority: CN
Inventors: 宁悦; 王文举
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2023-04-28
Anticipated expiration: 2041-02-18
Also published as: CN112785636A

Abstract

本发明提供一种多尺度增强式的单目深度估计方法，包括如下步骤：步骤1，输入单幅RGB图像，而后采用上下文及感受野增强型高分辨率网络CRE‑HRNet对所述RGB图像进行多尺度特征提取，得到高分辨率的第一图像；步骤2，采用感受野增强模块的残差膨胀卷积单元对所述第一深度图像进行扩张卷积，得到第二图像；步骤3，采用加权非局部邻域模块捕捉所述第二深度图像的远距离像素点，得到深度图像。本发明的方法能够在得到中间层的特征信息的基础上，使其单目深度估计精度高。

Description

一种多尺度增强式的单目深度估计方法

技术领域

本发明属于深度学习的计算机视觉领域，具体涉及一种多尺度增强式的单目深度估计方法。

背景技术

基于图像的深度信息估计，指的是从单幅或多幅二维图像学习其场景的三维信息，旨在预测其图像的像素点深度，其估计的深度图可应用于智能化机器人、场景重建、语义分割、无人驾驶等领域，具有重要的研究意义及应用价值，是计算机视觉领域的重要研究问题。其中，从单幅图像估计其深度信息又称为单目深度估计，因其仅需单张图像即可实现深度估计，相比多视角方法所需的多张图像更具便携性，但又因该单幅图像可能有无数个不确定的物理场景拍摄所得，从而造成单目深度估计问题的模糊不确定性，这给如何通过单幅图像估计出高精度的深度图带来一定的挑战性，亦成为如今一大研究热点。

研究人员结合自身先验经验，从单一视角捕获场景的几何特征信息，但该方法对概率模型及先验规则具有较大的依赖性，人为主观性较大。传统单目深度估计方法主要分为两种，基于传感器方法及基于几何约束方法。此类方法在实现过程中易受外界环境的限制，这给获取高精度的深度图带来不确定的因素，难以应用于普通场景，缺乏一定的普适性。

机器学习的单目深度方法分为参数化及非参数化两种。参数化方法，指目标函数中含有未知参数，训练过程即对该参数进行求解；非参数学习方法，仅需对已有的数据集进行相似性检索，并不需要学习其中的参数，就能实现其深度估计效果。相比参数化机器学习，非参数学习方法虽不需人为先验模型的操作步骤，但此类方法依赖序列化图像检索，仍具有计算量大、耗时长、可应用范围小等弊端。对于上述两类机器学习的单目深度估计方法，两者共同存在人为假设过多、当数据量较大时处理过程较为繁琐的弊端。

深度学习广泛应用于模式识别、语义分割、场景理解等图像处理领域，并取得较为显著成果。因卷积神经网络(CNN)体现的强大拟合能力，其学习的特征信息相比人工提取的特征信息更具丰富的层次性，为此，研究人员亦将其应用于单目深度估计领域。但大多数基于深度学习的单目深度估计方法，为提高单目深度估计网络的感受野，所采用的CNN大多通过重复堆叠的长范围依赖捕获，并且是反向传播而得到，当在需要较远距离来回传递信息时，此类局部操作难以实现，且容易丢失中间层的特征信息，导致单目深度估计精度不高的后果，如通过文献[1]、文献[2]以及文献[3]中涉及的单目深度估计方法得到的深度图的精度较低。因此，需要设计一种能够解决上述问题的方法。

[1]H.Fu,M.Gong,C.Wang,K.Batmanghelich,and D.Tao,"Deep ordinalregression network for monocular depth estimation,"in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2018,pp.2002-2011.

[2]J.Hu,M.Ozay,Y.Zhang,and T.Okatani,"Revisiting single image depthestimation:Toward higher resolution maps with accurate object boundaries,"in2019IEEE Winter Conference on Applications of ComputerVision(WACV),2019,pp.1043-1051:IEEE.

[3]D.Eigen and R.Fergus,"Predicting depth,surface normals andsemantic labels with a common multi-scale convolutional architecture,"inProceedings ofthe IEEE international conference on computer vision,2015,pp.2650-2658.

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种多尺度增强式的单目深度估计方法。

本发明提供了一种多尺度增强式的单目深度估计方法，具有这样的特征，包括如下步骤：步骤1，输入单幅RGB图像，而后采用上下文及感受野增强型高分辨率网络CRE-HRNet对RGB图像进行多尺度特征提取，得到高分辨率的第一图像；步骤2，采用感受野增强模块的残差膨胀卷积单元对第一深度图像进行扩张卷积，得到第二图像；步骤3，采用加权非局部邻域模块捕捉第二深度图像的远距离像素点，得到深度图像。

在本发明提供的多尺度增强式的单目深度估计方法中，还可以具有这样的特征：其中，上下文及感受野增强型包括两个子模块，分别为自上而下分辨率依次下降的4层特征金字塔组成的特征金字塔以及自上而下维度依次上升的4个分支多尺度高分辨率网络组成的多尺度高分辨率模块。

在本发明提供的多尺度增强式的单目深度估计方法中，还可以具有这样的特征：其中，上下文及感受野增强型高分辨率网络采用高分辨率网络HRNET-W48作为骨干，W48代表特征金字塔的第一层维度数量，即4C＝48，该特征金字塔的每层特征图经过下采样Downsampling，特征图的宽度将缩小至一半，维度将增加一倍，其特征图尺寸分别为H×W/4×4C、H×W/8×8C、H×W/16×16C及H×W/32×32C。

在本发明提供的多尺度增强式的单目深度估计方法中，还可以具有这样的特征：其中，4个分支多尺度高分辨率网络依次为Stage1、Stage2、Stage3及Stage4，且Stage1为位于高分辨的主分支，其将不断接受低分辨率分支Stage2、Stage3及Stage4的特征信息，最后将多尺度的上下文信息及多层次的深度信息进行融合。

在本发明提供的多尺度增强式的单目深度估计方法中，还可以具有这样的特征：其中，步骤1中，上下文及感受野增强型高分辨率网络的工作过程如下：特征金字塔采用横向连接的方式将H×W/4×4C、H×W/8×8C、H×W/16×16C及H×W/32×32C的4个尺度寸的特征图连接起来，而后将四个不同尺度的特征图作为多尺度高分辨率模块的输入，并采用元素级加法的初步融合方法，将多级特征融合为如下公式：

F_k＝P_k+S_k (1)

式(1)中，P_k表示特征金字塔第k级的特征映射，S_k表示多尺度高分辨率模块的第k个分支，其中，k≥1，k＝2，3，4，F_k表示两者之间的特征图经过元素级加法融合之后的输出第一图像。

在本发明提供的多尺度增强式的单目深度估计方法中，还可以具有这样的特征：其中，步骤2中，感受野增强模块采用具有小扩张率的扩张卷积之后加以使用具有大扩张率的扩张卷积的堆叠方式进行扩张卷积，即采用元素级的相加方法将4个平行分支的多尺度上下文特征信息进行融合后输出第二图像。

在本发明提供的多尺度增强式的单目深度估计方法中，还可以具有这样的特征：其中，4个平行分支分别为由扩张率从为3、6、12的扩张残差单元l₁、l₂、l₃组成的第一分支y₁、由扩张率依次为3、6的扩张残差单元l₁、l₂组成的第二分支y₂、扩张率为3的扩张残差单元l₁组成的第三分支y₁以及连接主干F_k，第二图像定义为：

y＝y₁+y₂+y₃+F_k (2)

式(2)中，

均为扩张率。

在本发明提供的多尺度增强式的单目深度估计方法中，还可以具有这样的特征：其中，步骤3包括如下子步骤：步骤3-1，在第二图像中选定a位置，针对a位置，计算位置索引b；步骤3-2，计算位置索引b的函数softmax，从而获得第二深度图像的远距离像素点，得到深度图像。

在本发明提供的多尺度增强式的单目深度估计方法中，还可以具有这样的特征：其中，步骤3-1中采用以下公式进行计算：

步骤3-2中采用以下公式进行计算：

式(3)中，C(y)值为归一化参数，y_a为a位置的特征图，y_b为b位置的特征图，

式(4)中，x^T为向量转置，g(y)用于计算特征图y的位置特征值，

W_φ分别为输入向量θ及φ的可学习权重值。

发明的作用与效果

根据本发明所涉及的多尺度增强式的单目深度估计方法，首先，因为采用高分辨率网络CRE-HRNet由低维至高维的四个分支来获取更为丰富的上下文信息，实现多尺度的特征提取功能，所以能够实现在更短时间内生成更高分辨率的深度图；其次，因为采用感受野增强模块的残差膨胀卷积单元来提高单目深度估计网络的感受野，所以能够减少下采样造成的细节损失，并扩大接收范围以产生更丰富的深度图像；最后，由于场景内物体之间的依赖关系影响着网络对远距离物体的精准识别，如物体轮廓边缘等响着单目深度估计精度，所以通过采用加权非局部邻域模块捕捉图像的远距离像素点，进而有助于捕捉远距离像素的依赖关系，并保留更丰富的上下文。

因此，本发明所涉及的多尺度增强式的单目深度估计方法，在实现过程中受外界环境的限制小，减少了获取高精度的深度图带来的不确定因素，还可以应用于普通场景，具有一定的普适性，另外，在数据量较大时，处理过程较为简单，此外，能够提高单目深度估计网络的感受野，还能够在需要较远距离来回传递信息时，让局部操作容易实现，使其不会丢失中间层的特征信息，进而使得单目深度估计精度高。

附图说明

图1是本发明的实施例中多尺度增强式的单目深度估计方法的流程框架图；

图2是本发明的实施例中感受野增强型高分辨率网络的基本框架示意图；

图3是本发明的实施例中感受野增强模块的基本框架示意图；

图4是本发明的实施例中多尺度增强式的单目深度估计方法的实验结果示意图；

图5是本发明的实施例中多尺度增强式的单目深度估计方法的三维点云示意图。

具体实施方式

为了使本发明实现的技术手段与功效易于明白了解，以下结合实施例及附图对本发明作具体阐述。

图1是本发明的实施例中多尺度增强式的单目深度估计方法的流程框架图。

如图1所示，本发明提供一种多尺度增强式的单目深度估计方法包括如下步骤：

图2是本发明的实施例中感受野增强型高分辨率网络的基本框架示意图。

步骤1，输入单幅RGB图像，而后采用如图2所示的上下文及感受野增强型高分辨率网络CRE-HRNet对RGB图像进行多尺度特征提取，得到高分辨率的第一图像。

本发明中，上下文及感受野增强型包括两个子模块，分别为自上而下分辨率依次下降的4层特征金字塔组成的特征金字塔以及自上而下维度依次上升的4个分支多尺度高分辨率网络组成的多尺度高分辨率模块，其中，特征金字塔能够用于提取输入的单幅RGB图像的浅层至深度的深度特征信息。

此外，上下文及感受野增强型高分辨率网络采用高分辨率网络HRNET-W48作为骨干，W48代表特征金字塔的第一层维度数量，即4C＝48，该特征金字塔的每层特征图经过下采样Downsampling，特征图的宽度将缩小至一半，维度将增加一倍，其特征图尺寸分别为H×W/4×4C、H×W/8×8C、H×W/16×16C及H×W/32×32C。

进一步地，4个分支多尺度高分辨率网络依次为Stage1、Stage2、Stage3及Stage4，且Stage1为位于高分辨的主分支，其将不断接受低分辨率分支Stage2、Stage3及Stage4的特征信息，最后将多尺度的上下文信息及多层次的深度信息进行融合，从而实现提高单目深度估计的精度。

进一步地，上下文及感受野增强型高分辨率网络的工作过程如下：

特征金字塔采用横向连接的方式将H×W/4×4C、H×W/8×8C、H×W/16×16C及H×W/32×32C的4个尺度寸的特征图连接起来，而后将四个不同尺度的特征图作为多尺度高分辨率模块的输入，并采用元素级加法的初步融合方法，将多级特征融合为如下公式：

F_k＝P_k+S_k (1)

进一步地，第一级分支Stage1代表高分辨率主分支，特征金字塔模块的第一级特征图直接作为高分辨率主分支的输入。

图3是本发明的实施例中感受野增强模块的基本框架示意图。

步骤2，采用如图3所示的感受野增强模块的残差膨胀卷积单元对第一深度图像进行扩张卷积，得到第二图像。

本发明中，感受野增强模块采用具有小扩张率的扩张卷积之后加以使用具有大扩张率的扩张卷积的堆叠方式进行扩张卷积，即采用元素级的相加方法将4个平行分支的多尺度上下文特征信息进行融合后输出第二图像。

4个平行分支分别为由扩张率依次为3、6、12的扩张残差单元l₁、l₂、l₃组成的第一分支y₁、由扩张率依次为3、6的扩张残差单元l₁、l₂组成的第二分支y₂、扩张率为3的扩张残差单元l₁组成的第三分支y₁以及连接主干F_k，且该连接主干F_k属于单位映射。

第二图像定义为：

y＝y₁+y₂+y₃+F_k (2)

式(2)中，

均为扩张率。

步骤3，采用加权非局部邻域模块捕捉第二深度图像的远距离像素点，得到深度图像，具体包括如下子步骤：

步骤3-1，在第二图像中选定a位置，针对a位置，计算位置索引b；

步骤3-2，计算位置索引b的函数softmax，从而获得第二深度图像的远距离像素点，得到深度图像。

本发明中，步骤3-1中采用以下公式进行计算：

步骤3-2中采用以下公式进行计算：

W_φ分别为输入向量θ及φ的可学习权重值。

此外，W_f为将关系向量转换为标量的权重，从而实现对更大范围的搜索，即捕捉长距离像素点的依赖关系。

实施例：

本实施例中所提及的单目深度估计框架，硬件配置为两块NVDIATitian Xp GPU，本实验使用操作系统为Windows，深度学习框架为PyTorch，batch size设置为4。

本实施例中采用的数据为NYU DepthV2数据集，该数据集由1449对RGB图像及其对应的具有深度信息图像所组成。本实施例中采用官方划分的训练集及测试集。其中，249个场景作为训练集，215个场景作为测试集。

另外，为提高模型的训练速度，本实施例所提出的网络框架(ABMN)其特征提取部分，采用ImageNet[预训练的参数对前端网络进行初始化，并使用SGD优化器，将学习率learning rate设置为0.0001，动量momentum设为0.9，权量衰减weight_decay设置为0.0005。

图4是本发明的实施例中多尺度增强式的单目深度估计方法的实验结果示意图，图中展示两组结果图，每组结果图自上而下分别为：RGB图像、真实标注深度图以及本实施例的方法估计深度图。

由图4可知，当采用本实施例的方法，得到的图片中的物体轮廓更清晰，深度图更细腻。

图5是本发明的实施例中多尺度增强式的单目深度估计方法的三维点云示意图，图中自上而下分别为：RGB图像、真实标注重建点云图以及本实施例的方法重建点云图。

由图5可知，当采用本实施例的方法，得到的图片包含更少的噪声，重建的平面更平坦，包含更丰富的细节信息。

将本实施例的方法与其它方法相比，结果如表1所示。其中，阈值误差(δ)指：

其中，n表示每张深度图的总像素数，d_p表示真实的深度值，

表示本实施例的方法所估计的深度值。

表1本实施例的方法与其它方法性能在NYU v2数据集的对比结果

由表1可知，采用本实施的方法得到的深度图的精度均高于其它三种方法，且绝对相对误差、对数误差以及均方根误差均很小，因此，采用本实施例的方法可以获得优于其它单目深度估计方法的精度。

实施例的作用与效果

根据本实施例所涉及的多尺度增强式的单目深度估计方法，首先，因为采用高分辨率网络CRE-HRNet由低维至高维的四个分支来获取更为丰富的上下文信息，实现多尺度的特征提取功能，所以能够实现在更短时间内生成更高分辨率的深度图；其次，因为采用感受野增强模块的残差膨胀卷积单元来提高单目深度估计网络的感受野，所以能够减少下采样造成的细节损失，并扩大接收范围以产生更丰富的深度图像；最后，由于场景内物体之间的依赖关系影响着网络对远距离物体的精准识别，如物体轮廓边缘等响着单目深度估计精度，所以通过采用加权非局部邻域模块捕捉图像的远距离像素点，进而有助于捕捉远距离像素的依赖关系，并保留更丰富的上下文。

因此，本实施例所涉及的多尺度增强式的单目深度估计方法，在实现过程中受外界环境的限制小，减少了获取高精度的深度图时带来的不确定因素，还可以应用于普通场景，具有一定的普适性，另外，在数据量较大时，处理过程较为简单，此外，能够提高单目深度估计网络的感受野，还能够在需要较远距离来回传递信息时，让局部操作容易实现，使其不会丢失中间层的特征信息，进而使得单目深度估计精度高。

因为上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种多尺度增强式的单目深度估计方法，其特征在于，包括如下步骤：

步骤1，输入单幅RGB图像，而后采用上下文及感受野增强型高分辨率网络CRE-HRNet对所述RGB图像进行多尺度特征提取，得到高分辨率的第一深度图像；

步骤2，采用感受野增强模块的残差膨胀卷积单元对所述第一深度图像进行扩张卷积，得到第二深度图像；

步骤3，采用加权非局部邻域模块捕捉所述第二深度图像的远距离像素点，得到深度图像；

其中，所述步骤1中所述上下文及感受野增强型高分辨率网络包括两个子模块，分别为特征金字塔模块和多尺度高分辨率模块，并采用高分辨率网络HRNET-W48作为骨干，

所述上下文及感受野增强型高分辨率网络的工作过程如下：

所述特征金字塔模块采用横向连接的方式将H×W/4×4C、H×W/8×8C、H×W/16×16C及H×W/32×32C的4个尺度的特征图连接起来，

而后将四个不同尺度的所述特征图作为所述多尺度高分辨率模块的输入，并采用元素级加法的初步融合方法，将多级特征融合为如下公式：

F_k＝P_k+S_k (1)

式(1)中，P_k表示所述特征金字塔模块第k级的特征映射，S_k表示多尺度高分辨率模块的第k个分支，其中，k≥1，k＝2，3，4，F_k表示两者之间的特征图经过元素级加法融合之后的输出第一深度图像；

所述步骤2中所述感受野增强模块采用具有小扩张率的扩张卷积之后加以使用具有大扩张率的扩张卷积的堆叠方式进行扩张卷积，即采用元素级的相加方法将4个平行分支的多尺度上下文特征信息进行融合后输出第二深度图像。

2.根据权利要求1所述的多尺度增强式的单目深度估计方法，其特征在于：

其中，所述特征金字塔模块由自上而下分辨率依次下降的4层特征金字塔组成，

所述多尺度高分辨率模块由自上而下维度依次上升的4个分支多尺度高分辨率网络组成。

3.根据权利要求1所述的多尺度增强式的单目深度估计方法，其特征在于：

其中，所述高分辨率网络HRNET-W48中的W48代表所述特征金字塔模块的第一层维度数量，即4C＝48，该所述特征金字塔模块的每层所述特征图经过下采样Downsampling，所述特征图的宽度将缩小至一半，维度将增加一倍，其所述特征图的尺寸分别为H×W/4×4C、H×W/8×8C、H×W/16×16C及H×W/32×32C。

4.根据权利要求2所述的多尺度增强式的单目深度估计方法，其特征在于：

其中，4个所述分支多尺度高分辨率网络依次为Stage1、Stage2、Stage3及Stage4，且Stage1为位于高分辨的主分支，其将不断接受低分辨率分支Stage2、Stage3及Stage4的特征信息，最后将多尺度的上下文信息及多层次的深度信息进行融合。

5.根据权利要求1所述的多尺度增强式的单目深度估计方法，其特征在于：

其中，4个所述平行分支分别为由扩张率依次为3、6、12的扩张残差单元l₁、l₂、l₃组成的第一分支y₁、由扩张率依次为3、6的扩张残差单元l₁、l₂组成的第二分支y₂、扩张率为3的扩张残差单元l₁组成的第三分支y₃以及连接主干F_k，

所述第二深度图像定义为：

y＝y₁+y₂+y₃+F_k (2)

式(2)中，