CN112001960A

CN112001960A - 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法

Info

Publication number: CN112001960A
Application number: CN202010865812.8A
Authority: CN
Inventors: 张丹; 刘京; 余义德; 张志伟; 时光; 孙杰; 夏光辉; 王红萍
Original assignee: Unite 91550 Of Pla
Current assignee: Unite 91550 Of Pla
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-11-27
Anticipated expiration: 2040-08-25
Also published as: CN112001960B

Abstract

一种基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法，旨在有效解决在复杂场景中复杂纹理和复杂几何结构造成的局部细节信息丢失、物体边界扭曲等问题，显著提升图像深度估计的精度。包括：获得待估计图像；由编码器部分提取包含位置信息的低级特征；将提取的特征通过预测得到预测深度图和四个残差深度图；对得到的预测深度图进行上采样得到上采样深度图；由解码器部分对得到的残差深度图和上采样深度图进行处理和融合，得到最终的深度图。实验结果表明，本发明方法中的网络模型在总体上有一定的提升，在物体边界和局部细节具有较好的性能，能够更好地预测复杂场景中物体边界和局部细节的深度信息。

Description

基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法

技术领域

本发明属于计算机视觉(虚拟现实)中的图像深度估计领域，具体涉及一种基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法。

背景技术

图像深度估计在虚拟现实领域取得了一系列丰富的研究成果，是计算机视觉领域中一项重要的研究课题。深度信息是理解一个场景三维结构关系的重要组成部分，准确的深度信息能够帮助我们更好地进行场景理解。单目图像的获取对设备数量和环境条件要求较低，通过单目图像进行深度估计更贴近实际情况，应用场景更广泛。深度学习的迅猛发展，使得基于卷积神经网络(Convolutional Neural Network，CNN)的方法在单目图像深度估计领域取得了一定的成果，成为图像深度估计领域的研究热点。

专利【申请号：CN106157307A】提出了一种基于多尺度卷积神经网络和连续条件随机场的单目图像深度估计方法，其利用条件随机场模型根据深度卷积神经网络的输出深度图计算单点势能，根据输入RGB图像计算成对稀疏势能，最后用最大化后验概率算法推导出优化的深度图。该方法能够以较高的精确度估计出深度图，又能使得到的深度图轮廓清晰；该方法所估计的深度有比较高的分辨率，而且所得到的深度图能保留场景中所有对象的深度细节信息，具有更好的视觉效果。但是模型不统一，且耗时长。

专利【申请号：CN109410261A】中提出了一种基于金字塔池化模块的单目图像深度估计方法。该方法在训练阶段先构建神经网络，其包括输入层、隐含层和输出层；隐含层包括单独的第一卷积层、特征提取网络框架、尺度恢复网络框架、单独的第二卷积层、金字塔池化模块、单独的连接层；再将训练集中的每幅原始的单目图像作为原始输入图像，输入到神经网络中进行训练，并通过计算训练集中的每幅原始的单目图像对应的预测深度图像与对应的真实深度图像之间的损失函数值，得到训练好的神经网络模型的最优权值矢量和最优偏置项；在测试阶段，将待预测的单目图像输入到神经网络模型中，并利用最优权值矢量和最优偏置项进行预测，得到预测深度图像；优点是计算复杂度低。但是仍然存在的不足是，该方法预测精度还不够高，无法应用于实际场景。

专利【申请号：CN109741383A】公开了一种基于空洞卷积和半监督学习的图像深度估计系统与方法，解决了从单幅图像中估计场景深度的问题。该方法对现有的编码器-解码器的网络结构模型进行了改进，在编码器模块和解码器模块之间加入了空洞卷积模块。该方法具有参数模型小，预测精度高的特点，但容易丢失细节信息。可应用于图像三维重建、自动驾驶等领域。

专利【申请号：CN110189370A】发明了一种基于全卷积密集连接神经网络的单目图像深度估计方法，通过构建四组密集连接模块+连接模块+下采样模块、一个15层的密集连接块以及四组上采样模块+连接模块+密集连接模块，在不同深度层结果之间采取跳远连接，使得每层网络能感知更多像素的信息。该方法充分利用了每一层的特征图，包含了高低不同等级的特征，从而实现训练出更精确的图像深度，且该方法得到的图像轮廓更加清晰，在一定程度上解决了现有单目图像深度估计方法生成的结果存在的过于平滑现象且不清晰的现象，获得了更为清晰的深度图像，从而提高了图像深度估计的精确度。但该方法无法准确地估计物体的边界部分。

专利【申请号：CN107767413B】公开了一种基于卷积神经网络的图像深度估计方法，包括以下步骤：搭建卷积-反卷积对神经网络模型；选取训练集，并设置卷积-反卷积对神经网络模型的训练参数；根据卷积-反卷积对神经网络模型及其训练参数，以最小化损失函数为目标训练卷积-反卷积对神经网络模型形成图像深度估计神经网络模型；将待处理的图像输入到图像深度估计神经网络模型，输出对应的深度图。利用该方法的基于卷积-反卷积对神经网络的图像深度估计方法获得的深度图灰度值较精确，深度图层次感更强，但是该方法未考虑场景中的复杂纹理和几何结构，容易导致物体边界扭曲和模糊重建等问题。

综上所述，现有方法大多是应用深度学习方法进行图像深度估计得到深度图，但是还存在以下不足之处：第一，算法精度低且耗时长、处理过程繁琐，很难估计出正确的场景深度信息，无法应用于实际场景。第二，传统的机器学习算法训练繁琐，数据往往需要预处理，多采用人工选择的图像特征，特征选取的优劣直接影响着模型的结果精度，精度不高。第三，现有的方法很少考虑复杂场景中的复杂纹理和几何结构，从而导致局部细节丢失、物体边界扭曲及模糊重建等问题。

发明内容

本发明基于深度学习方法在包含图像深度信息的虚拟现实领域的成功应用，提出一种端到端的采用多尺度残差金字塔注意力网络模型进行单目图像深度估计的新方法，旨在有效解决在复杂场景中复杂纹理和复杂几何结构造成的局部细节信息丢失、物体边界扭曲等问题，显著提升图像深度估计的精度。

本发明的技术方案

一种基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法，本发明涉及的网络模型包括用于自适应聚合全局上下文信息的编码器部分Encoder以及估计复杂场景结构的残差金字塔解码器部分RRM-Decoder两部分组成。编码器部分Encoder包括SENet模块和MFF+MACA模块，用于得到残差深度图和预测深度图，经过解码器部分RRM-Decoder处理得到最终的精细深度图；该方法主要包括以下步骤：

第1步、获得待估计图像；

第2步、由编码器部分中的SENet模块提取包含位置信息的低级特征；

第3步、编码器部分中的MFF+MACA模块由一个多尺度注意力上下文聚合模块(MACA)和用于将不同尺度提取的特征合并为一个尺度上的信息的四个多尺度特征融合模块(MFF)组成，MFF+MACA模块自适应聚合图像的全局上下文信息。MACA模块提取的特征通过预测得到预测深度图，四个MFF模块通过预测得到四个残差深度图；

第4步、对第3步得到的预测深度图进行双线性插值上采样操作，得到上采样深度图；

第5步、采用RRM-Decoder部分对第3步得到的残差深度图和第4步得到的上采样深度图进行处理和融合，得到最终的深度图。

进一步，采用编码器部分的MFF+MACA模块通过从不同尺度提取特征的上下文信息和多尺度特征融合信息，自适应地聚合像素的全局上下文信息。最后在编码器部分Encoder的输出使用1×1的卷积运算，将上层融合特征金字塔最终得到的特征图通道数减少到与下层融合特征金字塔最终得到特征图的通道数相同，并将它们连接在一起(Concatenate)；

其中，多尺度注意力上下文聚合模块(Multi-scale Attention ContextAggregation，MACA)由两部分组成：空间注意力子模块(Spatial Attention Module，SAM)和全局注意力子模块(Global Attention Module，GAM)。首先，空间注意力子模块，通过从空间考虑像素的位置相关性，捕获特征的空间上下文信息。其次，全局注意力子模块，通过从全局考虑像素的尺度相关性，捕获特征的尺度上下文信息。最后，多尺度注意力上下文聚合模块能够同时聚合特征的空间和尺度上下文信息，自适应地学习像素之间的相似性，从而获取图像更多的全局上下文信息，解决场复杂结构问题。

其中，四个多尺度特征融合模块MFF的主要作用是将不同尺度提取的特征

合并为一个尺度上的信息，自适应地从所有特征中选择合适的尺度特征，为每一个尺度预测融合特征图

如图2所示，以MFF₁为例，多尺度特征融合模块是采用上投影(Up-projection)和通道级联(Channel-wise)的方式，集成了来自Encoder其余四个不同尺度的特征。更具体地说，Encoder中有五个不同尺度的编码块(Block)，通过将其余四个尺度编码块的输出特征图分别以乘2、乘4、乘8、乘16的方式进行上采样，使得每个编码块最终输出都有16个通道。这种上采样是通过通道级联方式进行的，最后通过卷积层将它们连接起来并进一步变换，得到MFF1模块的输出结果(有64个信道的融合特征图

)。

进一步，采用残差金字塔解码器(RRM-Decoder)估计复杂场景结构。编码器由四个增强的残差细化模块(Residual Refinement Module，RRM)组成，将得到的预测深度图Dⁱ⁺¹经过上采样和残差深度图

进行处理和融合，得到当前尺度下的精细深度图Dⁱ。该部分通过结合金字塔模型，以由粗(先估计出粗略深度图)到精(估计出高精度的场景深度图)的方式来获取场景更高精度的深度图，在获取多尺度特征的同时，能够预测更深层次的语义信息和更多的细节信息，进一步细化场景结构。

本发明的优点和有益效果：

本发明详细介绍了该方法涉及的模型中每个模块的具体实现方法及原理。为解决复杂室内场景中的复杂纹理和复杂几何结构问题，设计了一个多尺度注意力聚合模块。该模块自适应地学习像素之间的任务相似性，聚合图像的空间上下文信息和尺度上下文信息。在此基础上，为解决场景理解中物体局部细节容易被忽略的问题，提出了残差细化模块，在获取多尺度特征的同时，获取更深层次的语义信息和更多的细节信息，进一步细化场景结构。最后，在具有挑战性的NYU Depth V2数据集上评估本发明提出的方法，为进一步验证模型的有效性还在SUN-RGBD和ScanNet两大数据集上分别对模型进行了测试。实验结果表明，本发明提出的网络模型在总体上有一定的提升，在物体边界和局部细节具有较好的性能，能够更好地预测复杂场景中物体边界和局部细节的深度信息。

附图说明

图1基于多尺度残差金字塔注意力网络模型结构图。

图2 MFF₁原理图。

图3多尺度注意力上下文聚合模块MACA。

图4空间注意力模块SAM。

图5全局注意力模块GAM。

图6残差细化模块RRM。

图7 NYU Depth V2数据集示例。

图8在NYU Depth V2数据集上的定性结果，其中，(a)RGB图，(b)Ground truth，(c)Hu等人^[4]，(d)本发明方法。

图9在SUN-RGBD数据集上的定性结果，其中，(a)RGB图，(b)Ground truth，(c)Chen等人^[5]，(d)本发明方法。

图10在ScanNet数据集上的定性结果，其中，(a)RGB图，(b)Ground truth，(c)Chen等人^[5]，(d)本发明方法。

图11发明实施流程图。

具体实施方式

以下结合附图在具体实施方式中详细叙述本发明的详细特征以及优点，其内容足以使本领域技术人员了解本发明的技术内容并据以实施。

图1展示了本发明提供的基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法网络模型结构图，所涉及的网络模型包括用于自适应聚合全局上下文信息的编码器部分Encoder以及估计复杂场景结构的残差金字塔解码器部分RRM-Decoder两部分组成。编码器部分中主要包括SENet和MFF+MACA模块，解码器部分中主要包括RRM-Decoder模块；编码器部分Encoder包括SENet模块和MFF+MACA模块，用于得到残差深度图和预测深度图；解码器部分RRM-Decoder包括四个增强的残差细化模块RRM，四个RRM用于将经过MACA模块提取的包含全局上下文信息的特征上采样得到的深度图和经过MFF模块提取的包含多尺度特征预测得到的残差深度图通过RRM进行处理和融合，得到当前尺度下的精细深度图。本发明的具体方法流程主要包括信息输入、编码器部分、解码器部分和信息输出四阶段方法流程。

本发明方法主要包括以下步骤：

步骤1、待估计图像为NYU Depth V2数据集。

步骤2、采用SENet模块提取图像包含位置信息的低级特征。

步骤3、用于自适应聚合全局上下文信息的编码器(Encoder)：MFF+MACA。由一个多尺度注意力上下文聚合模块(MACA)和用于将不同尺度提取的特征合并为一个尺度上的信息的四个多尺度特征融合模块(MFF)组成，MFF+MACA模块自适应聚合图像的全局上下文信息；MACA模块提取的特征通过预测得到预测深度图，四个MFF模块通过预测得到四个残差深度图；

步骤4、对步骤3中得到的预测深度图进行双线性插值上采样，得到上采样深度图。

步骤5、估计复杂场景结构的残差金字塔解码器(RRM-Decoder)：由四个增强的残差细化模块(RRM)组成，采用RRM-Decoder部分对步骤3得到的残差深度图和步骤4得到的上采样深度图进行处理和融合，得到最终的深度图。

下面结合图1的网络模型及图11的流程图对本发明提供的基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法进行详细说明，该方法的具体步骤包括：

步骤101、获得来自NYU Depth V2数据集的彩色待估计图像。

步骤201、SENet深度卷积神经网络获取图像低级特征。

步骤301、自适应聚合图像全局上下文信息。

该步骤通过自适应聚合全局上下文信息的编码器(Encoder)实现，Encoder模块主要包含四个MFF和一个MACA模块两部分(参见图1)。该部分通过从不同尺度提取特征的上下文信息和多尺度特征融合信息，自适应地聚合像素的全局上下文信息。最后在Encoder的输出使用1×1的卷积运算，将上层融合特征金字塔最终得到的特征图通道数减少到与下层融合特征金字塔最终得到特征图的通道数相同，并将它们连接在一起。

步骤3011、多尺度特征融合

通过MFF模块将不同尺度提取的特征

)。

步骤3012、多尺度注意力上下文聚合

通过多尺度注意力上下文聚合模块(MACA)实现，MACA由空间注意力子模块(Spatial Attention Module，SAM)和全局注意力子模块(Global Attention Module，GAM)组成。SAM子模块从空间考虑像素的位置相关性，捕获特征的空间上下文信息。GAM子模块从全局考虑像素的尺度相关性，捕获特征的尺度上下文信息。MACA模块通过聚合空间注意力模块和全局注意力模块提取的上下文信息，自适应地学习像素之间的相似性，获取图像更多的全局上下文信息。该模块能够恢复更精确的场景深度信息，也能够很好地解决复杂场景结构中存在的复杂纹理和复杂几何结构。MACA模块结构如图3所示。

步骤30121、图像的空间上下文信息提取

该步通过空间注意力模块SAM实现，图像的空间上下文信息提取如图4所示。本发明提出的模块是通过求解一个通道中所有特征的加权和来自适应地整合每个像素的权重，来捕获特征的空间上下文信息。

本发明将特征图定义为A∈R^C×H×W，其中C表示特征通道数，W，H分别表示特征图的宽和高。首先，将特征图经过两个1×1的卷积操作，随后是Batch Norm批归一化层和ReLU层，分别生成Keymap(K)和Query map(Q)。1×1的卷积层使通道数减少到原来通道数量的1/8倍。因此，Q和K的形状为C'×H×W，其中C'＝C/8。然后，K和Q分别reshape为K∈R^C’×N、Q∈R^C ^’×N，令N表示像素空间位置的个数，则N＝H×W。通过点积来测量两个像素之间的相似度，然后通过K和Q的转置矩阵乘法得到相似度图：

similarity(a,b)＝a·b (1)

使用Softmax层计算K的空间注意图S，s_ij测量了在查询图上第i个位置对第j个位置的影响，其中S∈R^C’×N：

最后，将Q与空间注意图S进行矩阵乘法运算，得到最终的输出E:

由公式(3)可知，每个位置的最终特征E是位置与原始特征的加权和。因此，最后的特征具有一个全局上下文信息的视图。

步骤30122、图像的全局上下文信息的获取

通过全局注意力模块GAM实现，图像的全局上下文信息的获取如图5所示，为了获取更多的尺度上下文信息，结合金字塔模型，本发明提出了一个新的全局注意力模块，自适应地整合每个像素的尺度特征，从而捕获特征的尺度上下文信息。

本发明提出的全局注意力模块将全局平均池化操作(Global Average Pooling，GAP)应用到空间金字塔的多尺度中，通过提取不同尺度的信息并结合全局平均池化操作提供图像的全局上下文信息，以指导底层选择更精细的局部细节。提出的注意力模块能更有效地提取不同尺度的特征图，并以简单的方式利用高层次的特征图为低层次特征图提供有效的指导信息。

步骤401、双线性插值进行上采样。通过对预测得到的深度图进行双线性插值上采样操作，得到上采样后的预测深度图深度图。

步骤501、估计复杂场景结构的残差金字塔解码器模块。通过获取预测深度图Dⁱ⁺¹和残差深度图

得到当前尺度下的精细深度图，通过融合各个尺度的精细深度图得到最终的深度图。

Decoder可以预测多个尺度的深度图，从而以由粗到精的方式恢复分层场景结构。在Decoder的每一层中，使用自适应聚合全局上下文信息编码器(Encoder)中得到的融合特征图

来预测残差深度图

而不是密集深度图，利用双线性插值方法将预测的深度图Dⁱ ⁺¹上采样到当前的深度图，利用FIFS融合特征算法生成残差深度图

通过将经过上采样得到的深度图和残差深度图结合起来，并利用本节提出的残差细化模块(RRM)，得到当前尺度下的精细深度图。如表1所示，为获取预测深度图D⁵和残差深度图

的具体操作。

表1网络的具体结构

如图6所示，在全分辨率下，第一层通过使用卷积核为3×3，步长为2的卷积操作生成该模块的第一层，然后是使用3×3的卷积核的第二层卷积。紧接着利用包含四个卷积层的残差块和跳远连接，每个卷积层都是使用3×3的卷积核，最后一层采用Sigmoid激活函数对输出结果进行批归一化。本发明提出的残差细化模块能够很好地保存全局场景结构和物体细节信息。

以往的研究大多采用深度估计值d_i与其groundtruth真实值g_i之间的差值之和(用e_i表示)作为损失(其中，n为图像中有效像素的总数)，即l1损失：

本发明使用深度、梯度和表面法作为我们的训练损失函数，误差的损失项有助于以互补的方式提高精度，总损失函数如下(其中，λ，μ为加权系数)：

L＝l_depth+λl_graad+μl_normal (5)

采用的是深度平衡的欧几里德损失l_depth：

其中，e_i＝||d_i-g_i||₁表示深度估计值d_i与其ground truth真实值g_i之间的差值之和，F(x)＝ln(x+α)，α是参数。

使用深度梯度的损失函数l_grad，在图像边缘附近对误差进行更多的惩罚：

其中，

表示e_i在第i个像素处对x的空间导数，

表示e_i在第i个像素处对y的空间导数。

则是测量两个法线之差的误差函数l_normal：

本发明选择在具有挑战性的NYU Depth V2数据集上对所提模型进行训练和测试，并验证模型的有效性。NYU Depth V2数据集是通过使用Kinect相机拍摄的视频序列图像，是常用的用来评估深度估计的室内场景数据集。如图7所示，该数据集是由1449对RGB图和其对应的具有深度信息的图像(深度图)组成，深度范围为0.5～10m。该数据集是通过采集3个城市的464个室内场景得到的，可分为26种场景类型，包含1000多种对象。按照官方划分的训练集与测试集比例249/215，本发明将249个场景作为训练集，215个场景作为测试集，模型训练完成后在测试集上对模型进行测试。所有原始的RGB图的分辨率都为480×640，为了训练本发明提出的网络模型，利用双线性插值将每幅图像下采样到320×240，然后中心裁剪到304×228作为网络的输入。预测深度图分辨率为152×114。本发明对训练数据进行了数据增强操作，如：水平翻转、随机缩放、改变颜色、平面内旋转等用来扩充数据集，避免模型过拟合，提升模型的泛化能力。为进一步验证模型的有效性，本发明还在SUN-RGBD^[8]和ScanNet^[9]两个数据集上测试模型。

SUN-RGBD和ScanNet数据集都是真实3D扫描数据，是大型的室内场景数据集。SUN-RGBD数据集是由四个不同的深度传感器捕获场景得到的，包含10335张RGB-D图像。ScanNet数据集有1513个室内场景数据，可分为20多个类别，其中使用1201个场景用于训练模型，其余312个场景用来测试。

在公共深度学习框架PyTorch上使用一块NVIDIA TITAN Xp显卡，实现了对提出的基于多尺度注意力金字塔残差网络模型进行训练。根据先前的研究，编码器模块在网络初始化的模型使用预先训练的ImageNet，本发明用SENet替换ImageNet并把SENet网络作为网络的主干提取图像特征。本发明使用Adam优化，初始学习率为10^-4，学习率每隔5个epoch减少原来的10％。设置β₁＝0.9，β₂＝0.999，权重参数为10^-4。该网络设置batch size大小为4，网络模型经过20个epoch的训练得到最终训练模型。

单目图像深度估计中的重要定量评价指标采用大部分算法所使用的绝对相对误差(Absolute Relative Error，Abs Rel)、均方根误差(Roor Mean Squared Error，RMS)、对数误差(Log Error，Log)，以及阈值误差(％correct)，它们的具体形式分别为：

绝对相对误差：

均方根误差：

对数误差：

阈值误差(σ)：

其中，N表示所评估的所有图像中使用的有效像素的总数，D_i：第i个像素的预测深度值，

第i个像素的真实深度值。σ，σ²，σ³表示在三个梯度上进行阈值精度测量。

为有效验证本发明提出的复杂室内场景图像深度估计方法的有效性，分别以NYUDepth v2数据集为基础，将本方法与其他方法进行实际计算分析，并在NYU Depth v2、SUN-RGBD和ScanNet数据集上进行可视化比较分析。

1.NYU Depth v2数据集对比分析

以NYU Depth v2数据集为基础的对比分析结果如下表2所示，表2是本方法与其他方法在NYU Depth v2数据集上的对比结果。评价指标采用了单目图像估计领域通用的四种度量标准：绝对相对误差(Abs rel)，均方根误差(RMS)，对数平均误差(Log10)和阈值准确度，与以下几种方法进行对比，本方法在误差和阈值准确度两方面上的表现均有提升。

表2在NYU Depth V2数据集上与其他方法的对比结果

与Eigen等人^[1]的方法相比，本发明在多尺度上提取图像特征的同时能够提取更多的全局上下文信息，阈值精度更高，在σ<1.25的阈值精度上高出他们近26％；与Laina等人^[2]的方法相比，本方法是使用SENet作为编码器的主干，通过对不同通道的特征进行重新加权提取更有效的特征，所以误差更小，并且在σ<1.25的阈值精度上提高了7.1％；与Xu等人^[6]的方法相比，本发明模型更统一，使得误差更低，阈值精度更高。与Chen等人^[3]的方法相比，本发明同时引入两个注意力模型，同时考虑空间和尺度上下文信息，能够有效地防止深度估计过程中物体细节丢失。虽然他们的均方根误差(RMS)降低了2.9％，但本发明的阈值精度更高；与Fu等人^[7]的方法相比，本发明在多尺度上能够捕获更多的全局上下文信息，并通过RRM模块捕获图像更多的背景上下文和细节信息。在σ<1.25的阈值精度上提高了4.4％。此外，本发明还与Hu等人^[4]提出的方法进行了比较，本发明误差较低，在σ<1.25阈值精度上提高了0.8％，在σ²<1.25²的阈值精度上降低了0.1％。基于上述讨论，本发明在误差方面优于其他现有的方法，阈值精度也有了很大的提高。

2.NYU Depth v2数据集可视化对比分析

如图8所示，本发明提出的模型可以获得更多的局部细节和更清晰的物体边界。从上到下场景依次为：客厅场景，书店1场景，书店2场景，书店3场景，办公室场景。红框标记出的区域是较好的深度估计结果，绿框标记出的区域是错误估计结果。

本发明实验结果与Hu等人^[4]的结果进行了对比，并进行了定性比较分析。首先，本发明获取的深度图在物体边界有较好的性能。如图8客厅场景和书店1场景中红框所示，门和书架等物体的边界更加清晰。该方法是通过聚合特征的空间和尺度上下文信息，能够获取图像更多的全局上下文信息，解决场景中物体边界模糊、区域错误估计的问题。

其次，提出的方法可以获取更多的细节信息。如图8客厅场景和书店2、书店3场景中红框所示，能够明显看出场景更多的细节信息。本发明是通过使用RRM模块对局部细节进一步细化场景结构，获得深层次的语义信息和更多的细节信息。但是，如图8书店2场景中绿框所示，有些区域也可能会错误估计和模糊重构。如图8办公场景中绿框区域内，人的轮廓更加模糊，是本发明出现的典型错误。

3.SUN-RGBD数据集可视化对比分析

如图9第一行红框所示，在SUN-RGBD数据集上的电脑场景中，本发明在书包的边界和电脑桌的边界恢复的更好，可以明显看出来本文模型估计的边界比Chen等人^[5]的方法更明显；如图9第二行绿框所示，在椅子场景中，本发明没有恢复出椅子的某些细节部分，但是在远景区域恢复的效果更加清晰。实验结果表明，本发明可以恢复复杂场景中各种尺度的结构，包括平滑的大平面区域和物体细节。

4.ScanNet数据集可视化对比分析

另外，还在ScanNet数据集上与Chen等人^[5]提出的方法进行了对比。本发明使用两个不同场景的图片对模型进行测试，如图10第一行红框所示，本发明能够估计更多的细节部分，如场景中远处的桌子腿和凳子腿；如图10第二行绿框所示，没有估计出沙发背部分，但是在物体边界表现出更好的效果，见图10第二行红框区域。

分别在NYU Depth V2、SUN-RGBD和ScanNet数据集上对本发明模型进行了定性分析，经对比分析，验证了本发明所提出的基于多尺度残差金字塔注意力网络模型的有效性，能够恢复出物体更多的细节，在物体边界表现更好，能够很好地解决复杂场景中的复杂几何结构问题，估计得到的深度图与GroundTruth更相似。

本发明提出了一种基于多尺度残差金字塔注意力网络模型以及基于该模型的单目图像深度估计方法，详细介绍了模型中每个模块的具体实现方法及原理。为解决复杂室内场景中的复杂纹理和复杂几何结构问题，设计了一个多尺度注意力聚合模块。该模块自适应地学习像素之间的任务相似性，聚合图像的空间上下文信息和尺度上下文信息。在此基础上，为解决场景理解中物体局部细节容易被忽略的问题，提出了残差细化模块，在获取多尺度特征的同时，获取更深层次的语义信息和更多的细节信息，进一步细化场景结构。最后，在NYU Depth V2数据集上进行评估，为进一步验证模型的有效性还在SUN-RGBD和ScanNet两大数据集上分别对模型进行了测试。实验结果表明，本发明提出的网络模型在在物体边界和局部细节具有较好的性能，能够更好地预测复杂场景中物体边界和局部细节的深度信息。

参考文献：

[1]Eigen D,Puhrsch C,Fergus R.Depth map prediction from a singleimage using a multi-scale deep network[C].International Conference on NeuralInformation Processing Systems,2014,2:2366-2374.

[2]Laina I,Rupprecht C,Belagiannis V,Tombari F and Navab N.Deeperdepth prediction with fully convolutional residual networks[C].In FourthInternational Conference on 3D Vision,2016:239-248.

[3]Chen Y,Zhao H,and Hu Z.Attention-based context aggregation networkfor monocular depth estimation[C].In The IEEE Conference on Computer Visionand Pattern Recognition,2019,1901:10137.

[4]Hu J,Ozay M,Zhang Y and Okatani T.Revisiting single image depthestimation:Toward higher resolution maps with accurate object boundaries[C].In IEEE Winter Conference on Applications ofComputerVision,2019:1043-1051.

[5]Chen Xiaotian,Chen Xuejin,Zha Zheng-Jun.Structure-aware residualpyramid network for monocular depth estimation[J].In the International JointConference on Artificial Intelligence,2019.

[6]Xu Dan,Wang Wei,Tang Hao,Liu Hong,Sebe Nicu,Ricci Elisa.Structuredattention guided convolutional neural fields for monocular depth estimation[C].In The IEEE Conference on ComputerVision and Pattern Recognition,2018:3917-3925.

[7]Fu Huan,Gong Mingming,Wang Chaohui,Batmanghelich Kayhan,TaoDacheng.Deep ordinal regression network for monocular depth estimation[C].TheIEEE Conference on ComputerVision andPattern Recognition,2018:2002-2011.

[8]Poggi Matteo,Aleotti Filippo,Tosi Fabio,Mattoccia Stefano,Towardsreal-time unsupervised monocular depth estimation on CPU[C].In IEEEInternational Conference on Intelligent Robots and Systems,2018:5848-5854.

[9]鲍振强,李艾华,崔智高.深度学习在视觉定位与三维结构恢复中的研究进展[J].激光与光电子学进展,2018,55(5):1-9.

Claims

1.一种基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法，其特征在于，该方法涉及的网络模型包括由SENet模块和MFF+MACA模块构成的用于自适应聚合全局上下文信息的编码器部分Encoder以及估计复杂场景结构的残差金字塔解码器部分RRM-Decoder两部分，编码器部分得到残差深度图和预测深度图，经过解码器部分处理得到最终的精细深度图，该方法操作步骤包括：

第1步、获得待估计图像；

第2步、由编码器部分中的SENet模块提取图像中包含位置信息的低级特征；

第3步、编码器部分中的MFF+MACA模块由一个多尺度注意力上下文聚合模块(MACA)和用于将不同尺度提取的特征合并为一个尺度上的信息的四个多尺度特征融合模块(MFF)组成，MFF+MACA模块自适应聚合图像的全局上下文信息；MACA模块提取的特征通过预测得到预测深度图，四个MFF模块通过预测得到四个残差深度图；

2.根据权利要求1所述的基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法，其特征在于，所述第3步中的MACA模块包括：空间注意力子模块(Spatial AttentionModule，SAM)和全局注意力子模块(GlobalAttention Module，GAM)。

3.根据权利要求1所述的基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法，其特征在于，四个多尺度特征融合模块MFF分别用于将不同尺度提取的特征合并为一个尺度上的信息，聚合所有特征中的尺度特征，作为每一个尺度预测融合特征图。

4.根据权利要求2所述的基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法，其特征在于，多尺度注意力上下文聚合模块MACA聚合全局上下文信息，其中的SAM子模块将SENet提取的低级特征进行Conv3×3处理后，通过从空间考虑像素的位置相关性，捕获特征的空间上下文信息，与经过GAM子模块处理后的特征进行Sum fusion处理，最后经过Conv3×3处理得到包含全局上下文信息的特征。

5.根据权利要求1所述的基于多尺度残差金字塔注意力网络模型的单目图像深度估计，其特征在于，所述第5步中的估计复杂场景结构的残差金字塔解码器部分RRM-Decoder包括四个增强的残差细化模块RRM，四个RRM用于将经过MACA模块提取的包含全局上下文信息的特征上采样得到的深度图和经过MFF模块提取的包含多尺度特征预测得到的残差深度图通过RRM进行处理和融合，得到当前尺度下的精细深度图。