CN116205962A

CN116205962A - 基于完整上下文信息的单目深度估计方法及系统

Info

Publication number: CN116205962A
Application number: CN202310490937.0A
Authority: CN
Inventors: 张明亮; 周大正; 智昱旻; 李彬; 刘丽霞; 张友梅; 张瑜
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-06-02
Anticipated expiration: 2043-05-05
Also published as: CN116205962B

Abstract

本发明公开了一种基于完整上下文信息的单目深度估计方法及系统，涉及人工智能技术领域，该方法包括：将预处理后的待估计图像输入至深度估计网络中，进行深度估计，输出深度图像；所述深度估计网络采用跳跃连接的编码器‑解码器结构，编码器包括Transformer分支和卷积分支；Transformer分支包括多个依次连接的下采样层，用于捕获图像中的全局上下文信息，提取全局特征；卷积分支包括卷积编码层和底层信息提取模块，用于捕获图像中包括底层纹理信息的局部上下文信息，提取局部特征；全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器，预测并输出深度图像，提高深度估计的准确性。

Description

基于完整上下文信息的单目深度估计方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于完整上下文信息的单目深度估计方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

深度估计是计算机视觉领域的一个基础性问题，目前大部分深度估计都是基于二维RGB（Red Green Blue，光学三原色）图像到RBG-D（Red Green Blue Depth，深度三原色)图像的转化估计，主要包括从图像明暗、不同视角、光度、纹理信息等获取场景深度形状的方法，还包括结合SFM(Structure from motion，从运动恢复结构)和SLAM(SimultaneousLocalization And Mapping，即时定位与地图构建)等方式预测相机位姿的算法。

目前，虽然有很多设备可以直接获取深度，但是设备造价昂贵；也可以利用双目图形进行深度估计，但是由于双目图像需要利用立体匹配进行像素点对应和视差计算，因此计算复杂度也较高，而且对于低纹理场景的匹配效果不好。相对而言，单目深度估计的成本更低，更容易普及。

单目深度估计是指预测给定的单个RGB图像中每个像素的深度值，常应用在机器人导航、增强现实、三维重建、自动驾驶等领域。图像的单目深度估计方法主要包括传统方法和基于深度学习的方法。其中，传统方法主要是基于几何算法从立体图像对中进行深度估计，此类方法使用手工设计的特征获取图像特征信息，因此只能捕获图像的局部特征，最终影响深度估计结果的准确性；基于深度学习的方法主要分为两种思路：利用CNN（Convolutional Neural Network，卷积神经网络）框架和利用Transformer框架对目标进行深度估计。这两种思路广泛运用于各种深度估计算法，并取得了良好的效果，但是，基于这两种思路的方法均无法实现模拟全局相关的同时准确建模局部信息，导致深度估计缺乏全局相关性或者缺乏空间感知偏差，造成在深度估计任务中表现不理想。利用CNN（Convolutional Neural Network，卷积神经网络）框架和利用Transformer框架对目标进行深度估计，主要存在以下问题：

(1)基于CNN的方法能够准确建模局部信息，但由于接受域小、局部归纳偏差大，无法准确提取丰富的全局信息，导致在估计精度上虽然有些许提高，但依旧无法解决根本问题；

(2)基于Transformer的方法通常表现出优异的全局上下文建模，在网络的每一阶段都能提取全局特征，Transformer编码器能尽可能地减少网络底层的语义信息丢失，保证解码器能接收到尽可能完整的特征输入，但是，这一方法缺乏对于局部空间的感知。由于Transformer网络的是通过Token（即令牌）之间的交互来得到整体相关性，而在交互过程中往往忽略了局部特征；而且由于深度值一般遵循长尾分布，对于图形中的小型物体，基于Transformer的方法无法实现准确估计。

发明内容

为解决上述现有技术的不足，本发明提供了一种基于完整上下文信息的单目深度估计方法及系统，通过结合CNN和Transformer的优势互补，实现提取目标图像的局部信息和全局信息，即提取完整的上下文信息；同时考虑到图像场景中底层信息对深度估计的重要性，通过设置底层信息提取模块在提取局部信息时获取图像的底层信息，以此增强特征的表征能力；最后通过窗口关注机制引入广域多尺度表示，实现多种尺度上下文信息的捕获，提高深度估计的准确性。

第一方面，本公开提供了一种基于完整上下文信息的单目深度估计方法。

一种基于完整上下文信息的单目深度估计方法，包括：

获取待估计图像，对待估计图像进行预处理；

将预处理后的待估计图像输入至深度估计网络中，提取待估计图像的完整上下文信息，进行深度估计，输出深度图像；

所述深度估计网络采用跳跃连接的编码器-解码器结构，所述编码器包括Transformer分支和卷积分支；所述Transformer分支包括多个依次连接的下采样层，用于捕获图像中的全局上下文信息，提取全局特征；所述卷积分支包括卷积编码层和底层信息提取模块，用于捕获图像中包括底层纹理信息的局部上下文信息，提取局部特征；全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器，通过逐层上采样和图像重投影作为监督信号，预测并输出深度图像。

进一步的技术方案，所述预处理包括：

通过分区算子对输入的待估计图像进行分割，分割得到多个大小一致的图像块。

进一步的技术方案，所述Transformer分支包括多个依次连接的下采样层，每个下采样层包括补丁合并层和多个Transformer块，每个Transformer块包括一个多头自注意模块和一个多层感知器模块，以及两个归一化层。

进一步的技术方案，所述卷积分支中的卷积编码层为深度残差网络ResNet的前两层卷积层，用于提取局部上下文信息。

进一步的技术方案，将Transformer分支输出的全局特征和卷积分支输出的局部特征输入至所述特征交互模块中，分别经过

卷积后得到第一全局特征与第一局部特征；

第一全局特征经过自注意力模块得到第二全局特征，第一局部特征经过交叉注意力模块得到第二局部特征；其中，将自注意力模块中的Vaule值作为交叉注意力模块中的Vaule值，计算交叉注意力，建模亲和力；

第二全局特征和第二局部特征分别通过通道级联和

卷积，将全局特征和第二全局特征、局部特征和第二局部特征结合起来，分别得到特征交互后的全局特征和局部特征。

进一步的技术方案，所述底层信息提取模块包括纹理特征提取模块和金字塔纹理特征提取模块；

所述纹理特征提取模块中，基于卷积编码层输出的原始特征图，利用一维量化和计算算子，以统计方式描述纹理信息，获取统计特征和量化特征；基于统计特征和量化特征，通过矩阵相乘，得到并输出纹理特征；

所述金字塔纹理特征提取模块中，将纹理特征提取模块输出的纹理特征图融合原始特征图作为输入特征图，对输入特征图从多个尺度上利用二维量化和计算算子，得到多尺度的共现统计特征；多尺度的共现统计特征分别通过多层感知机后进行上采样，将上采样的特征连接起来，得到并输出统计纹理特征。

进一步的技术方案，将输出的统计纹理特征与基于卷积编码层输出的原始特征融合，得到最终的局部特征。

进一步的技术方案，所述广域多尺度解码器采用空间金字塔池的结构与广域注意力协作，所述广域多尺度解码器由5个平行的分支组成，包括一个快捷连接分支、三个不同下采样率的广域注意力分支和一个图像池化分支；

所述广域注意力分支用于为局部窗口提供多个层次的感受野；所述图像池化分支用于通过全局池化层获得全局上下文信息，并通过线性转换和双线性上采样运算，匹配特征维度；所述快捷连接分支用于复制输入特征，并在所有上下文信息输出后粘贴所复制的输入特征。

进一步的技术方案，所有分支输出的特征连接后，通过一个学习的线性变换进行降维操作，生成最终的深度图像。

第二方面，本公开提供了一种基于完整上下文信息的单目深度估计系统。

一种基于完整上下文信息的单目深度估计系统，包括：

图像获取及预处理模块，用于获取待估计图像，对待估计图像进行预处理；

深度估计模块，用于将预处理后的待估计图像输入至深度估计网络中，提取待估计图像的完整上下文信息，进行深度估计，输出深度图像；

以上一个或多个技术方案存在以下有益效果：

1、本发明提供了一种基于完整上下文信息的单目深度估计方法及系统，将CNN与Transformer各自的优点融合应用于深度估计任务中，其中Transformer用于提取全局上下文信息，CNN用于保留局部上下文信息，从而使算法具备了提取场景中完整信息的能力，避免了CNN不能在有限的接受域内模拟全局相关以及Transformer建模时通常缺乏空间感知偏差的缺陷。

2、本发明中，针对场景中丰富的底层纹理信息，设计了底层信息提取模块，在卷积网络中加入直方图均衡化，利用均衡化后的掩膜乘以原始的特征，来增强特征的表征能力。

3、本发明中，考虑到Transformer缺乏多尺度的语境信息问题，设计了广域多尺度解码器，只产生少量位置混合操作引起的计算开销的同时能够捕捉到多种尺度的上下文信息，加强了深度估计的准确性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例所述基于完整上下文信息的单目深度估计方法的整体算法框架图；

图2为本发明实施例所述基于完整上下文信息的单目深度估计方法的整体算法流程图；

图3为本发明实施例中Transformer块的结构示意图；

图4为本发明实施例中特征交互模块的框架图；

图5为本发明实施例中底层信息提取模块的框架图；

图6为本发明实施例中广域注意力的框架图；

图7为本发明实施例中广域注意力的原理示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

正如背景技术所指出的现有基于深度学习的双目深度估计方法中存在的问题，本实施例提供了一种基于完整上下文信息的单目深度估计方法，提高单目深度估计的准确性和估计精度，实现更好的单目深度估计效果。

本实施例所述方案的整体思路为：提出一种用于单目深度估计的完整上下文信息提取算法，该算法通过搭建的深度估计网络实现，所搭建的深度估计网络的总体框架基于编码器-解码器结构，在编码器和解码器之间设有跳跃式连接，即所述深度估计网络采用跳跃连接的编码器-解码器结构，所述编码器包括Transformer分支和卷积分支，分别用于捕获图像的全局上下文信息和局部上下文信息，然后将Transformer分支和卷积分支所提取的特征经过特征交互模块进行特征融合，最后通过解码器输出估计的深度图像。

如图1所示，本实施例所提出的一种基于完整上下文信息的单目深度估计方法，包括以下步骤：

获取待估计图像，对待估计图像进行预处理；

所述深度估计网络采用跳跃连接的编码器-解码器结构，所述编码器包括Transformer分支和卷积分支；所述Transformer分支包括多个依次连接的下采样层，所述下采样层依次为Trans.1、Trans.2、Trans.3、Trans.4，用于捕获图像中的全局上下文信息，提取全局特征；所述卷积分支包括卷积编码层和底层信息提取模块，用于捕获图像中包括底层纹理信息的局部上下文信息，提取局部特征；全局特征和局部特征经过特征交互模块进行特征交互后输入至广域多尺度解码器，通过逐层上采样和图像重投影作为监督信号，预测并输出深度图像。

即，本实施例提出了一种深度估计网络框架，该框架由学习全局信息的Transformer分支和学习局部信息的卷积分支组成，Transformer分支用于捕获全局上下文信息（全局上下文信息在高级特征上语义丰富），以弥补基于CNN的方法的缺点，而卷积分支用于保留局部上下文信息（局部上下文信息在低级特征上空间精确且具有细粒度细节），避免低级特征仅被基于Transformer的网络冲刷掉；同时，卷积分支中还设置了一个额外的底层信息提取模块，用于强化网络对于细节的感知分析、增强学习能力；并且，为了解决Transformer缺乏多尺度的语境信息的问题，设置广域多尺度解码器来捕获多种尺度的上下文信息，以此提高单目深度估计得准确性及估计精度。

本实施例所提出的深度估计网络的总体框架基于编码器-解码器结构，在编码器和解码器之间设计跳跃式连接。其中，Transformer的方法通常表现出优秀的全局上下文建模，但是其潜在的瓶颈是缺乏细节和空间局部性的表示，主要原因在于基于Transformer的方法的特点是Token（令牌）之间的交互，而在交互过程中通常会忽略局部特征；同时，由于深度值一般遵循长尾分布，自然场景中有许多深度值较小的近距离物体，基于Transformer的方法不能很好地估计。而基于CNN的方法可以很好地表达局部上下文，但是由于接受域小、局部归纳偏差大，通常不足以提取语义丰富的全局上下文。因此，本实施例所述方案的关键思想在于利用CNN分支提取局部特征，以此补全Transformer分支的局部特征，从单张图像中准确估计深度图像。

在本实施例中，首先将预处理后的待估计图像输入至Transformer分支中，提取图像场景的全局特征。

具体而言，针对获取的待估计图像进行预处理，即通过分区算子（即patch算子）对输入图像进行分割，分割得到多个大小一致的图像块，将每个图像块作为一个令牌；然后，将预处理后的待估计图像输入至Transformer分支中，如图2所示，Transformer分支在编码部分包括多个依次连接的下采样层，在本实施例中设置4个下采样层，即包括4个阶段，如图3所示，每个下采样层（即阶段）包括补丁合并层和多个Transformer块，每个Transformer块包括一个多头自注意模块MSA和一个多层感知器模块MLP，以及两个归一化层（即规范层）。假设第

个Transformer块后的输出特征为/>

，则第/>

个Transformer块后的输出特征

表示为：

其中，

是层归一化，/>

表示第/>

个Transformer块中多头自注意模块MSA的输出特征，/>

表示Transformer块的个数。

基于Transformer的方法的特点是Token（令牌）之间的交互，而在交互过程中往往忽略了局部特征，因此，在框架中引入卷积分支来对局部特征进行补充。在卷积分支中，由于基于CNN的模型通常主要在低层次的特征层提取局部信息，因此，只使用深度残差网络ResNet的前两层卷积层来精确地捕获空间和局部上下文信息。

在本实施例中，所述卷积分支中的卷积编码层为标准深度残差网络ResNet的前两层卷积层，用于提取局部上下文信息，这避免了低层特征被连续乘法洗掉，并大大减少了计算时间。通过设置卷积分支，可以避免Transformer分支丢弃关键的局部信息。

进一步的，将Transformer分支与卷积分支分别得到的全局特征和局部特征经过特征交互模块进行特征交互后，再输入至广域多尺度解码器，预测并输出深度图像。

在特征交互模块中，应用自注意力模块和交叉注意力模块来解决不同特征的直接融合。如图4所示，将Transformer分支输出的全局特征

和卷积分支输出的局部特征/>

输入至特征交互模块中，分别经过/>

卷积分别得到第一全局特征/>

与第一局部特征/>

；之后，第一全局特征/>

经过自注意力模块得到第二全局特征/>

，第一局部特征/>

经过交叉注意力模块得到第二局部特征/>

，其中，将自注意力模块中的Vaule值作为交叉注意力模块中的Vaule值，以此计算交叉注意力，建模亲和力；最后，第二全局特征/>

和第二局部特征/>

分别通过通道级联和/>

卷积，将全局特征/>

和第二全局特征、局部特征/>

和第二局部特征/>

结合起来，分别得到特征交互后的全局特征/>

与局部特征/>

。上述过程实现了Transformer分支和卷积分支之间的亲和性建模和特征交互，分别得到特征交互后的全局特征/>

和局部特征/>

，将其共同输入到解码器中进行深度估计。

本实施例上述方案中，创新的将Transformer与CNN结合应用于单目深度估计任务，检测准确率优于已有的使用相同公共数据集的深度估计算法；使用卷积分支对局部特征进行补充，并只使用前两层卷积层来进行估计，在不增加计算复杂度情况下增强局部特征，提高深度估计的准确性，进而提高算法估计精度。相对于其他单目深度估计方法，本实施例上述方案的估计准确率实现了一定地提高。

进一步的，在卷积分支中还包括底层信息提取模块。基于卷积分支中卷积编码层输出的特征，获取图像的底层纹理信息，强化网络对于细节的感知分析及增强学习能力，通过底层细节纹理分析，增强深度估计的精度。

图像场景中的纹理信息包括两种：局部结构信息（卷积神经网络的提取）和全局统计信息（直方图等的统计信息）。在卷积网络中加入直方图均衡化，利用均衡化后的掩膜乘以原始特征，来增强特征的表征能力。针对上述问题，本实施例设计了两个算子，分别对应两个模块，即：一维量化和计数运算符，及其对应的纹理特征提取模块；二维量化和计数运算符，及其对应的金字塔纹理特征提取模块。其中，一维、二维量化和计数运算符被设计为以统计方式描述纹理信息；纹理特征提取模块，用于捕获与纹理有关的信息并增强纹理细节，提取纹理特征；金字塔纹理特征提取模块，用于有效地从多个尺度的纹理特征中提取统计纹理特征。

即，在本实施例中，所述底层信息提取模块包括纹理特征提取模块和金字塔纹理特征提取模块。所述纹理特征提取模块中，基于卷积编码层输出的原始特征图，利用一维量化和计算算子（即计数运算符），以统计方式描述纹理信息，获取统计特征和量化特征；基于统计特征和量化特征，通过矩阵相乘，得到并输出纹理特征。所述金字塔纹理特征提取模块中，将纹理特征提取模块输出的纹理特征图融合原始特征图作为输入特征图，对输入特征图从多个尺度上利用二维量化和计算算子，得到多尺度的共现统计特征；多尺度的共现统计特征分别通过多层感知机MLP后进行上采样，将上采样的特征图连接起来，得到并输出统计纹理特征。最后，将输出的统计纹理特征与基于卷积编码层输出的原始特征融合，得到最终的局部特征。

在底层信息提取模块中，设计一维量化和计算算子，以统计方式描述纹理信息。对输入的特征图

（即卷积编码层输出的大小为/>

的原始特征图，其中，/>

、/>

、/>

分别表示通道数、分辨率的长、分辨率的宽），首先，利用全局平均池化获得平均特征g（向量形式），随后，计算空间上每个像素的特征（向量形式）与平均特征g的余弦相似度，得到相似度图S，相似度图S的每个位置/>

的公式为：

其中，

表示特征图G中/>

处像素的特征，/>

表示向量的L2范数。

然后，直接对相似度图S进行量化统计，以提取类似于直方图的信息表征。首先，需要获得若干量化级，本实施例选用了一个简单的方法，直接在相似度图S的最小值和最大值之间均分N份，作为N个量化级。具体地，第n个量化级

为：

基于量化级L={

}，对相似度图S进行量化编码，得到量化编码后的特征E，相似度图S的每个像素/>

量化编码为/>

。具体的，相似度图S中的每个像素/>

会被N个函数/>

编码为一个N维向量/>

，其中函数/>

通过以下方式基于/>

生成/>

，函数/>

的公式为：

将

的N个结果进行级联，得到/>

。通过上述编码方式，只有当/>

被量化为/>

，对应的/>

才不为0，而N维向量/>

上其他维度均为0。在设计上述函数时，综合考虑了以下几方面：1）这个函数必须能够在神经网络中实现反向传播而不会梯度消失；2）每个像素最好只被量化到一个级数，避免混淆问题的出现；3）梯度不能过大，避免梯度爆炸的问题。因此，本实施例采用了一个截断的设置，而不是直接使用一个超大梯度的函数使因变量在/>

的区间范围内迅速从0变为1。

之后，基于量化编码后的特征E，获得具有统计意义的二维图

，公式为：/>

其中，C可以被看作是一个直方图，

为concatenation，表示串联操作，/>

为输入特征图分辨率的长宽相乘所得到像素点个数。其中第一个维度为N个量化级，第二个维度近似等于属于每个量化级的像素的数量（便于网络学习，经过了一个归一化处理）。

C本身已经是统计信息的表征了，但需要注意的是，为了在统计时保留高维信息，被统计的对象是一个相对值（与平均特征的余弦相似度）。因此，为了进一步获得绝对值的统计信息，将平均特征也加入进去，公式为：

其中，

表示通过一维量化和计算算子最终获取的统计特征。此外，上述特征E为量化特征。

一维量化和计算算子的输出反映了所有空间位置的特征分布。然而，它没有关于像素之间的空间关系的信息，这在描述纹理方面起着重要作用。为此，进一步提出了一种二维量化和计算算子来计算同时出现的像素特征的分布。二维量化和计算算子中的量化旨在计算输入特征图中像素之间的共同出现的空间关系，并且可以通过一维量化和计算算子中的量化来扩展。具体的，输入的特征图

首先通过与一维量化和计算算子类似的过程，以获得量化编码映射/>

和量化级别/>

。对于每对相邻像素/>

和/>

，计算/>

与

的矩阵转置/>

的乘积，公式为：

其中，

表示/>

的矩阵转置，/>

表示矩阵转置，只有当特征图G中/>

处像素的特征/>

被量化为/>

并且特征图G中/>

处像素的特征/>

被量化为/>

时，相应的

不等于零。因此，/>

可以表示每两个相邻像素的量化共现。

给定量化共现

，生成三维映射/>

，其中前两个维度表示每个可能的量化同现，第三个维度表示相应的归一化计数，则三维映射/>

表示为：

其中，

表示相邻像素的所有可能的量化级别对。

与一维量化和计算算子类似，加入平均特征，通过以下公式获得最终输出

，公式为：/>

其中，

即为通过二维量化和计算算子最终获取的统计特征。

如图5所示，纹理特征提取模块是受到传统图像处理方法中直方图均衡化的启发，其旨在对每个灰度级进行重建，且在对某个级数进行重建的过程中需要感知其他级数的统计信息，这可以看作是一个直方图，因此，将其扩展到一个可学习的直方图来对每个量化级进行重建。在这个直方图中，节点是

中所包含的每个量化级的统计信息。该直方图的实现方式是一个非常常规的图形推理：

其中，

为相邻矩阵，是手动定义的对角矩阵，/>

、/>

、/>

是三个不同的/>

卷积，Softmax是非线性归一化函数，/>

即为重构的量化级。

最后，将重构后的量化级分配回每个像素。在一维量化和计算算子中，中间量

能够反映每个像素具体被量化到了哪一级，因此，这个分配过程通过一个简单的矩阵乘法即可实现，公式为：

最后，

被重塑为/>

，即纹理特征提取模块最终输出的纹理特征，纹理特征图的大小为/>

×H×W，其中，/>

表示该纹理特征图的通道数。

由纹理特征提取模块进一步提出了金字塔纹理特征提取模块，该模块旨在使用包含丰富纹理细节的特征图从多个尺度上挖掘纹理相关信息。首先描述了从每个处理区域捕获纹理特征的单元，然后引入金字塔结构来构建金字塔纹理特征提取模块。

纹理与关于像素之间的空间关系的统计信息高度相关。对于特征图的处理区域，首先将其输入到二维量化和计算算子中，以获得共现统计特征

，其中，/>

表示信道数量（即通道数），/>

表示量化级别的数量。采用经过多层感知器MLP之后的水平平均值

来生成处理区域的纹理特征Y，即：

多尺度特征有助于有效提高语义分割的性能和鲁棒性，这些特征可以通过金字塔结构（如空间金字塔池）捕获。因此，本实施例该模块采用金字塔结构从多个尺度刻画纹理特征。具体的，如图5所示，金字塔结构通过四个不同比例的平行分支传递输入特征图[1，2，4，8]。对于每个分支，特征图被分成不同数量的子区域，并且每个子区域都通过纹理特征提取单元以利用该区域的对应纹理表示；然后，通过最近插值将获得的每个分支的纹理特征图上采样到原始尺寸作为输入图，并将四个分支的输出连接起来，得到金字塔纹理特征提取模块的输出。

进一步的，针对视觉Transformer缺乏多尺度的语境信息，从而影响性能和效率的问题，本实施例所述方案还提出了一种新的解码器，即广域多尺度解码器，具体如图2右侧所示。该解码器包含一种新的窗口关注机制——广域关注。如图7所示，卷积池化金字塔为一般网络中所使用的金字塔结构，与一般解码器使用的卷积池化金字塔相比，本实施例中的解码器采用的是广域卷积池化金字塔，该广域卷积池化金字塔拥有更大的背景补丁以及包含全局上下文信息，具体的，该广域卷积池化金字塔允许本地窗口在仅有少量计算开销的情况下查询更大范围的上下文窗口，通过调节上下文区域与查询区域的比例，使广域关注能够捕捉到多种尺度的上下文信息。此外，还采用了空间金字塔池的框架来与广域注意力协作。

如图6和图7所示，广域关注将整个特征图均匀地分割成几个斑块，当广域注意力在图像上滑动时，允许当前的补丁查询更大的区域。广域关注中查询补丁表示为

，把被查询的上下文背景补丁表示为/>

，其中，/>

是背景补丁大小与查询补丁大小的比率，/>

是补丁的面积，/>

表示通道数。由于注意力的计算复杂度为/>

，当/>

的空间大小增加/>

倍时，计算复杂度增加到/>

。在这种情况下，注意力的计算不限于

的局部斑块，如果比率/>

或输入分辨率非常大，甚至无法承受。为了保持原有的计算复杂性，将通道/>

汇集成一个抽象的张量，其下采样率为/>

（下采样率/>

与上述比率/>

并不冲突，如图6所示，背景补丁会池化下采样到查询补丁的大小，因此下采样率/>

必须等同于背景补丁与查询补丁的比例/>

，以此来减少计算复杂度），将上下文斑块的空间大小减少到

。然而，上述简单的过程也存在一定的缺点。情境补丁的下采样不可避免地抛弃了/>

和/>

之间丰富的依赖关系，特别是当/>

很大的时候。为了缓解注意力不集中的问题，采用多头机制让头的数量严格等于/>

，从而将注意力矩阵从/>

制定为/>

。特别的，头的数量对计算复杂性没有影响。此外，图6中，/>

、/>

分别是查询补丁/>

的长宽，4/>

、4

是背景补丁的长宽，背景补丁的长、宽分别是查询补丁/>

的长、宽的4倍，/>

是由于将池化后的背景补丁进行了变形，变形成了/>

个/>

×/>

大小的单通道特征，其中/>

是背景补丁的通道数。

通过一定的技术规范化头部子空间，多头注意力可以学习到所需的不同表征。考虑到下采样后空间信息变得抽象，因此，解码器将加强多头注意力的空间表征能力，在本实施例中，用位置混合多层感知器来加强空间表征能力。具体的，令牌混合

与通道混合

在收集空间知识方面是互补的，因此，在解码器中定义了一组针对头部的位置混合多层感知器/>

。如图6所示，汇集的上下文补丁的每个头都被推入其相应的令牌与通道混合/>

，同一头内的空间位置以相同的行为相互交流。所产生的语境称为位置混合语境补丁，并将其表示为/>

，其计算方法为：

/>

其中，

表示/>

的第/>

个头，/>

是加强第/>

个头的空间表示的第/>

个变换，/>

表示平均汇集操作，Reshape函数为变形函数，将原本/>

大小变换为与

同样的大小，/>

表示背景补丁，/>

表示单个补丁的大小，/>

为第/>

个头。基于位置混合语境补丁/>

，则可将多头关注/>

机制的基本操作描述为：

其中，

是位置混合语境补丁/>

的第/>

个头，/>

是学习到的线性变换，/>

是学习到的权重，聚集了多个注意值，/>

通常被设定为/>

，/>

是嵌入维度。同时，还有一个主要的问题是关于/>

的开销，因此，对局部窗口注意和广域注意列出计算复杂性为：

其中，

和/>

分别是整个图像的高度和宽度，/>

是局部窗口的大小。由于/>

通常设置为7或8，比高层特征中的/>

小得多，所以/>

引起的额外支出是可以合理忽略的。特别的，广域注意力的计算复杂性与比率/>

无关。

因此，为了捕捉多尺度表征，如图2右侧所示，所述广域多尺度解码器采用空间金字塔池的结构来与广域注意力协作，得到全新的金字塔结构解码器，该解码器由5个平行的分支组成，包括一个快捷连接分支、三个不同下采样率

的广域注意力分子和一个图像池化分支。广域注意力分支为局部窗口提供了三个层次的感受野，提供多尺度信息；图像池化分支使用全局池化层获得全局上下文信息，并将其推入线性转换，然后进行双线性上采样运算，以匹配特征维度；短路径（即快捷连接分支）复制输入特征，并在所有上下文信息输出后将其粘贴。所有产生的特征首先被连接起来，之后通过一个学习的线性变换执行降维，以生成最终的深度图像。

进一步的，在广域关注中启用了多头机制，在汇集上下文的同时，将头的数量严格设定为下采样率

的平方，主要用于恢复查询和上下文之间被抛弃的依赖关系。在头的/>

子空间上分别应用了/>

位置混合操作，加强了多头注意的空间表示能力。因此，广域注意力中的补丁可以捕获任何尺度的上下文信息，且只产生了少量位置混合操作引起的计算开销。

通过本实施例上述单目深度估计方法，将CNN与Transformer各自的优点融合应用于深度估计任务中，其中Transformer用于提取全局上下文信息，CNN用于保留局部上下文信息，从而使算法具备了提取场景中完整信息的能力，避免了CNN不能在有限的接受域内模拟全局相关以及Transformer建模时通常缺乏空间感知偏差的缺陷；针对场景中丰富的底层纹理信息，设计了底层信息提取模块，在卷积网络中加入直方图均衡化，利用均衡化后的掩膜乘以原始的特征，来增强特征的表征能力；此外，考虑到Transformer缺乏多尺度的语境信息问题，设计了广域多尺度解码器，只产生少量位置混合操作引起的计算开销的同时能够捕捉到多种尺度的上下文信息，加强了深度估计的准确性。

实施例二

本实施例提供了一种基于完整上下文信息的单目深度估计系统，包括：

以上实施例二中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于完整上下文信息的单目深度估计方法，其特征是，包括：

获取待估计图像，对待估计图像进行预处理；

2.如权利要求1所述的基于完整上下文信息的单目深度估计方法，其特征是，所述预处理包括：

3.如权利要求1所述的基于完整上下文信息的单目深度估计方法，其特征是，所述Transformer分支包括多个依次连接的下采样层，每个下采样层包括补丁合并层和多个Transformer块，每个Transformer块包括一个多头自注意模块和一个多层感知器模块，以及两个归一化层。

4.如权利要求1所述的基于完整上下文信息的单目深度估计方法，其特征是，所述卷积分支中的卷积编码层为深度残差网络ResNet的前两层卷积层，用于提取局部上下文信息。

5.如权利要求1所述的基于完整上下文信息的单目深度估计方法，其特征是，将Transformer分支输出的全局特征和卷积分支输出的局部特征输入至所述特征交互模块中，分别经过

卷积后得到第一全局特征与第一局部特征；

第二全局特征和第二局部特征分别通过通道级联和

6.如权利要求1所述的基于完整上下文信息的单目深度估计方法，其特征是，所述底层信息提取模块包括纹理特征提取模块和金字塔纹理特征提取模块；

7.如权利要求6所述的基于完整上下文信息的单目深度估计方法，其特征是，将输出的统计纹理特征与基于卷积编码层输出的原始特征融合，得到最终的局部特征。

8.如权利要求1所述的基于完整上下文信息的单目深度估计方法，其特征是，所述广域多尺度解码器采用空间金字塔池的结构与广域注意力协作，所述广域多尺度解码器由5个平行的分支组成，包括一个快捷连接分支、三个不同下采样率的广域注意力分支和一个图像池化分支；

9.如权利要求8所述的基于完整上下文信息的单目深度估计方法，其特征是，所有分支输出的特征连接后，通过一个学习的线性变换进行降维操作，生成最终的深度图像。

10.一种基于完整上下文信息的单目深度估计系统，其特征是，包括：