CN117437272A

CN117437272A - 一种基于自适应令牌聚合的单目深度估计方法及系统

Info

Publication number: CN117437272A
Application number: CN202311765041.5A
Authority: CN
Inventors: 张明亮; 周大正; 李彬; 杨姝慧; 智昱旻; 徐一明; 刘丽霞
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-01-23
Anticipated expiration: 2043-12-21
Also published as: CN117437272B

Abstract

本发明属于图像处理技术领域，为了解决现有方法无法准确提取丰富的全局信息，以及无法准确估计局部特征，从而导致无法实现准确估计的问题，提出一种基于自适应令牌聚合的单目深度估计方法及系统，将卷积网络与Transformer各自的优点融合应用于深度估计任务中，其中Transformer用于提取全局上下文信息，卷积网络用于保留局部上下文信息，从而使算法具备了提取场景中完整信息的能力，并将Transformer特征和卷积网络特征的信息进行交互并增强对应关系，增强特征的表征能力，从而提高估计的准确性。

Description

一种基于自适应令牌聚合的单目深度估计方法及系统

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于自适应令牌聚合的单目深度估计方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

深度估计是计算机视觉中的一个基本问题。它包括预测在每个像素处描绘的3D点的垂直坐标。对于3D重建、自动驾驶和机器人等众多应用至关重要。

目前，有很多设备能够直接获取场景深度，但是设备造价昂贵；而传统深度估计方法主要依赖于双目或多目摄像机系统，这些方法通常受到硬件要求和相机配置的限制。随着深度学习技术的兴起，基于卷积神经网络CNN即Convolutional Neural Network的深度估计方法取得了重大突破。这些方法使用卷积神经网络，通过学习大量带有深度标签的图像数据，能够从单一视图中推断出像素级的深度信息。

受自然语言处理中变形器成功的启发，视觉Transformer 模型最近被开发出来，并在计算机视觉领域的取得广泛关注。对比传统深度估计方法使用的卷积神经网络，在处理空间信息时受到卷积核大小和池化层的限制，Transformer 模型可以处理不同尺度的空间依赖关系，这在深度估计中具有巨大潜力。

但是，传统Transformer 模型对于深度估计来说是次优的，统一视觉令牌分配不能将更多的令牌分配到重要的区域。而且，Transformer 模型无法准确估计局部特征。然而，CNN 在捕获局部特征和纹理方面表现出色，这对于许多计算机视觉任务至关重要。利用CNN框架和利用Transformer框架对目标进行深度估计，主要存在以下问题：

（1）基于CNN的方法能够准确捕获局部特征和纹理，但在处理空间信息时受到卷积核大小和池化层的限制，无法准确提取丰富的全局信息；

基于Transformer的方法能够处理不同位置的特征之间的长距离依赖关系，可以捕获全局上下文信息，有助于处理涉及整个图像的任务，但是，传统transformer模型的统一视觉令牌分配方式不能将更多的令牌分配到重要的区域，而且无法准确估计局部特征，导致对于图形中的主要物体，特别是场景中的人体、电线杆等，无法实现准确估计。

发明内容

为了解决上述问题，本发明提供了一种基于自适应令牌聚合的单目深度估计方法及系统，将卷积网络与Transformer各自的优点融合应用于深度估计任务中，其中，Transformer用于提取全局上下文信息，卷积网络用于保留局部上下文信息，从而使算法具备了提取场景中完整信息的能力，并将Transformer特征和卷积网络特征的信息进行交互并增强对应关系，增强特征的表征能力，从而提高估计的准确性。

为了实现上述目的，本发明的第一个方面提供一种基于自适应令牌聚合的单目深度估计方法，采用如下技术方案：

获取待估计图像；

将获取的待估计图像进行图像分割，得到多个大小一致的图像块；

将所得到的图像块利用深度估计网络进行估计，得到估计结果；

其中，所述深度估计网络为跳跃连接的编码器-解码器结构，在编码器中，通过矩形卷积引导大小一致的图像块聚焦于场景中的物体，所述编码器包括Transformer分支和卷积分支，所述Transformer分支用于对预处理后的待估计图像提取全局上下文信息，得到全局特征；所述卷积分支用于对预处理后的待估计图像提取局部上下信息，得到局部特征；所述Transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强，得到增强的全局特征和增强的局部特征；利用所述解码器对增强的全局特征和增强的局部特征解码估计，得到估计结果。

本发明的第二个方面提供一种基于自适应令牌聚合的单目深度估计系统，包括：

获取模块：获取待估计图像；

预处理模块：将获取的待估计图像进行图像分割，得到多个大小一致的图像块；

估计模块：将所得到的图像块利用深度估计网络进行估计，得到估计结果；

本发明的有益效果是：

在本发明中，通过矩形卷积引导一致的图像块聚焦于场景中的重要物体，实现对重要物体的额外关注，将卷积网络与Transformer各自的优点融合应用于深度估计任务中，其中Transformer用于提取全局上下文信息，卷积网络用于保留局部上下文信息，从而使算法具备了提取场景中完整信息的能力，并将Transformer特征和卷积网络特征的信息进行交互并增强对应关系，增强特征的表征能力，从而提高估计的准确性。

在本发明中，考虑到卷积网络无法构建空间和通道间依赖关系，通过设置卷积特征增强模块在提取局部信息时产生全局的感受野，以此增强特征的表征能力。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中基于自适应令牌聚合的单目深度估计方法的整体算法框架图；

图2为本发明实施例一中Transformer块的结构示意图；

图3为本发明实施例一中自适应令牌的框架图；

图4为本发明实施例一中自适应令牌的效果图；

图5为本发明实施例一中矩形卷积模块的框架图；

图6为本发明实施例一中卷积特征增强模块的框架图；

图7为本发明实施例一中特征交互模块的框架图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

实施例一

本实施例提出一种基于自适应令牌聚合的单目深度估计方法，包括：

获取待估计图像；

将获取的待估计图像进行图像分割，得到多个大小一致的图像块，得到预处理后的待估计图像；

将预处理后的图像利用深度估计网络进行估计，得到估计结果；

其中，所述深度估计网络为跳跃连接的编码器-解码器结构，所述编码器包括Transformer分支和卷积分支，所述Transformer分支用于对预处理后的待估计图像提取全局上下文信息，得到全局特征；所述卷积分支用于对预处理后的待估计图像提取局部上下信息，得到局部特征；所述Transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强，得到增强的全局特征和增强的局部特征；利用所述解码器对增强的全局特征和增强的局部特征解码估计，得到估计结果。

本实施例所述方案的整体思路为：提出一种用于单目深度估计的完整上下文信息提取算法，该算法通过搭建的深度估计网络实现，所搭建的深度估计网络的总体框架基于编码器-解码器结构，在编码器和解码器之间设有跳跃式连接，即深度估计网络采用跳跃连接的编码器-解码器结构，所述编码器包括自适应的Transformer分支和特征增强的卷积分支，分别用于捕获图像的全局上下文信息和局部上下文信息，然后将Transformer分支和卷积分支所提取的特征经过特征交互模块进行特征融合，最后通过解码器输出估计的深度图像。

本实施例提出了一种深度估计网络框架，该框架由学习全局信息的Transformer分支和学习局部信息的卷积分支组成，Transformer分支用于捕获全局上下文信息，全局上下文信息在高级特征上语义丰富，以弥补基于CNN的方法的缺点，而卷积分支用于保留局部上下文信息，局部上下文信息在低级特征上空间精确且具有细粒度细节，避免低级特征仅被基于Transformer的网络冲刷掉；同时，Transformer分支设计一种矩形卷积引导的可变Transformer编码器，用于实现对场景中重要物体的准确估计；并且，考虑到CNN无法构建空间和通道间依赖关系，通过设置卷积特征增强模块在提取局部信息时产生全局的感受野，以此增强特征的表征能力；最后，为了更好的连接两个分支的信息，设计了特征交互模块，利用通道自注意力和跨图像的交叉注意力，实现两个分支信息的充分交互。

本实施例所提出的深度估计网络的总体框架基于编码器-解码器结构，在编码器和解码器之间设计跳跃式连接。其中，Transformer的方法通常表现出优秀的全局上下文建模，但是其潜在的瓶颈是无法区分背景和重点物体的重要程度，缺乏对场景中重点物体的额外关注，而且缺乏细节和空间局部性的表示，主要原因在于传统Transformer的方法采用规则和固定的网格将每个单元格视为标记来生成视觉标记，而在深度估计中并不是所有的区域都同样重要，而且基于令牌的交互过程中通常会忽略局部特征；同时，由于深度值一般遵循长尾分布，自然场景中有许多深度值较小的近距离物体，基于Transformer的方法不能很好地估计。而通过设置矩形卷积引导的可变Transformer编码器，可以实现对场景中重要物体如行人、树木等的额外关注。同时设计卷积分支，基于CNN的方法可以很好地表达局部上下文，但是由于接受域小、局部归纳偏差大，通常不足以提取语义丰富的全局上下文。因此，本实施例所述方案的关键思想在于设计自适应的令牌，实现对重点物体进行精细的表示，而对图像背景进行简单标记，并利用CNN分支提取局部特征，以此补全Transformer分支的局部特征，从单张图像中准确估计深度图像。

本实施例方案的整体流程为：输入图像分为两个分支，一个分支进行transformer的令牌的分割；一个分支进行卷积编码输出卷积特征；卷积编码的输出再输入到矩形卷积模块，输出矩形卷积聚类特征，输出的矩形卷积聚类特征再分为两个分支，一个分支输入到transformer的令牌的分割，来指导令牌聚类和合并；另一个分支输入带卷积特征增强模块中，得到最终的卷积分支特征。经过令牌聚类和合并后，输入到transformer编码器中，得到transformer分支特征。卷积分支特征和transformer分支特征共同输入到特征交互模块中进行融合，输出融合后的特征，再输入到解码器中，最终输出深度图。

如图1所示，在本实施例中，对获取的待估计图像进行预处理，即通过分区算子即patch算子对输入图像进行分割，采用矩形卷积引导的令牌聚类方法，利用令牌特征将视觉令牌聚到场景中的矩形物体中，然后应用特征合并将同一聚类中的令牌合并为单个令牌。

在令牌聚类过程前，首先使用矩形卷积模块提取场景中的矩形物体，如图5所示，将卷积分支中卷积编码层的输出特征输入到矩形卷积模块中，矩形卷积模块分为三个步骤。首先，利用一个大小5 × 5的卷积接收场提取局部信息；5 × 5的卷积的输出分别输入到大小为3 × 7、3 × 11和3 × 15的深度卷积中，然后3 × 7、3 × 11和3 × 15的输出分别输入到大小为7 × 3、11 × 3、15 × 3的深度卷积，通过捕获薄状或条状特征进行建模，7 × 3、11 × 3、15 × 3的深度卷积的输出使用1 × 1卷积对每个通道的信息进行聚合，通过1 × 1卷积算子使与5 × 5卷积的输入特征保持相同的通道数。最后，将5 × 5卷积的输入特征与1 × 1卷积输出特征进行加权，得到最终输出。

其中，和/>分别是矩阵的加法和乘法运算。DW_Conv表示深度卷积，以降低计算复杂度，i，j表示不同的卷积操作；/>表示大小为5×5的卷积层，/>表示大小为1×1的卷积层，F表示接受野，M为不同相关接受野的聚合特征：(7 × 3,3 × 7)、(11 ×3,3 × 11)和(15 × 3,3 × 15)；S表示最终输出的矩形卷积聚类特征。

将预处理后的待估计图像输入至Transformer分支中，如图3所示，Transformer分支在编码部分包括多个依次连接的下采样层，在本实施例中设置4个下采样层，即包括4个阶段，如图2所示，每个下采样层即每个阶段包括依次设置的补丁合并层和多个Transformer块，每个Transformer块包括依次连接的第一归一化层、多头自主意模块MSA、第二归一化层和多层感知器模块MLP。假设第个Transformer块后的输出特征为/>，则第/>个Transformer块后的输出特征/>表示为：

其中，是层归一化，/>表示第l个Transformer块中多头自注意模块MSA的输出特征，l表示Transformer块的个数。

在补丁合并层中，根据矩形卷积得到的矩形特征聚类作为先验知识引导所有令牌分配到相应的集群。具体的，给定初始分割标记T和矩形卷积聚类特征中心标记S，对于每个标记，计算指标为最小特征距离减去它与任何其他聚类中心标记之间的平均像素距离。公式表示为：

其中，表示每个标记应该隶属于哪个聚类，而/>和/>分别代表标记i和标记j的特征向量。/>表示查找函数，用于确定每个标记对应的特征映射上的平均位置。同时，β是一个重要的超参数。距离约束要求在图像空间中，两个接近的标记必须具有极其相似的特征，以确保被分到同一个聚类中。通过上述步骤，能够将所有令牌准确地分配到相应的聚类中。

之后进行令牌特征的合并，运用注意力机制来计算注意力分数p，以明确表示每个令牌的重要性。这一重要性是从令牌的特征中估计得出的。在依据注意力分数的指导下，对令牌特征进行平均池化：

式中，C _i表示第i个聚类的集合，和/>分别代表原始令牌特征和相应的权重评分，而/>表示合并后的令牌特征，合并令牌的区域包括了原始令牌区域的并集。

如图3所示，合并后的令牌被引入作为查询Q，并被馈送到一个转换器块中，而原始令牌则用作键K和值V。为了确保重要令牌对输出的贡献更显著，引入了重要性分数P，具体表达如下：

其中，softmax表示归一化指数函数，上标T表示转置；d _k是查询Q的通道数；引入标记重要性评分使自适应令牌模块能够在合并视觉标记时专注于关键图像重要物体，效果如图4所示。

分割得到多个大小不一致的图像块，将每个图像块作为一个令牌。基于Transformer的方法的特点是令牌Token之间的交互，而在交互过程中往往忽略了局部特征，因此，在框架中引入卷积分支来对局部特征进行补充。在卷积分支中，由于基于CNN的模型通常主要在低层次的特征层提取局部信息，因此，只使用深度残差网络ResNet的前两层卷积层来精确地捕获空间和局部上下文信息。

在本实施例中，卷积分支中的卷积编码层为标准深度残差网络ResNet的前两层卷积层，用于提取局部上下文信息，这避免了低层特征被连续乘法洗掉，并大大减少了计算时间。通过设置卷积分支，可以避免Transformer分支丢弃关键的局部信息。

如图6所示，卷积编码层得到的特征通过矩形卷积模块得到矩形卷积聚类特征后，再输入到卷积特征增强模块，在卷积特征增强模块中，卷积特征增强模块的输入分别输入到并列的第一卷积层和第二卷积层，第一卷积层的输出特征分别经过第三卷积层和第四卷积层，第三卷积层的输出特征使用sigmoid函数进行激活，经过sigmoid函数激活后的特征与第四卷积层的输出特征进行矩阵相乘，将相乘后的特征再经过第五卷积层进行特征提取；第二卷积层的输出特征输入至第六卷积层，第六卷积层的输出结果与第五卷积层的输出结果concat融合后再输入第七卷积层中，第七卷积层的输出与卷积特征增强模块的输入特征进行concat融合后输入到第八卷积层中，第八卷积层输出的增强后的卷积特征。

其中，第一卷积层、第二卷积层、第三卷积层、第五卷积层、第六卷积层、第七卷积层和第八卷积层均为1×1的卷积层，第四卷积层为3×3卷积。

将Transformer分支与卷积分支分别得到的全局特征和局部特征经过特征交互模块进行特征交互与增强后，再输入解码器中，预测并输出深度图像。

在特征交互模块中，操作过程为：将Transformer分支输出的全局特征和卷积分支输出的局部特征输入至所述特征交互模块中，分别经过池化得到第一全局特征与第一局部特征；第一全局特征和第一局部特征经过通道注意和跨图形信息交互得到第二全局特征和第二局部特征；其中，第一全局特征通过特征映射得到Query值与Vaule值，第一局部特征通过特征映射得到Key值与Vaule值，第一全局特征的Query值与第一局部特征的Key值，计算交叉注意力，建模亲和力矩阵；得到的亲和力矩阵分别与第一全局特征的Vaule值和第一局部特征的Vaule值进行矩阵乘法，分别得到特征交互后的全局特征和特征交互后的局部特征；将所得到的特征交互后的全局特征和特征交互后的局部特征，分别与经过通道注意的全局特征和局部特征进行矩阵乘法，得到增强的全局特征和增强的局部特征。

具体的，应用图像间交叉注意力和图像内通道注意力来解决不同特征的直接融合。如图7所示，将Transformer分支输出的全局特征和卷积分支输出的局部特征/>输入至特征交互模块中，分别对全局特征/>与局部特征/>进行池化，然后利用1×1卷积生成特征映射，分别为查询/>，值/>和键/>，值/>，其中/>,/>通过相互作用，进行跨图像信息交互，具体而言，对/>和/>的转置进行矩阵乘法得到特征映射，再将这个计算结果转置得到另一个分支的特征映射，最后，分别在其上应用softmax层计算得到空间注意图，公式如下所示：

其中，softmax表示归一化指数函数，上标T表示转置，d _k是查询Q的通道数。

得到的空间注意力图用于学习Transformer特征和卷积特征之间相似关系的知识映射，A分别与和/>进行矩阵乘法：

其中，A为亲和力矩阵，为第一全局特征的Vaule值，/>为第一局部特征的Vaule值，/>为特征交互后的局部特征，/>为特征交互后的全局特征。

在进行图像间的交叉注意力后，运用图像内的通道注意力来增强Transformer特征和卷积特征。首先，通过全局池化层将Transformer/卷积特征汇总到特定于类别的通道向量中。接着，使用一个多层感知器，由全连接层和激活函数组成，将Transformer/卷积通道向量映射到具有相关性的通道特征空间中。这个通用多层感知器的作用在于通过考虑通道映射中Transformer和卷积特征之间的相互依赖关系，来提升特定语义的特征表示。随后，以重新加权的方式将映射后的通道向量与位置嵌入特征相乘，以有选择地突出最重要的特征。最后，通过残差连接将输出与原始输入特征融合在一起。图像内通道注意力的计算如下所示：

其中，reshape函数表示向量扩展操作，将向量扩展到位置嵌入特征的空间大小，表示哈达玛乘积运算，Pooling表示池化操作，MLP表示多层感知器模块。

得到特征增强和交互后的和/>，输入到解码器中，最终得到深度估计图像。

本实施例上述方案中，创新的将Transformer与CNN结合应用于单目深度估计任务，检测准确率优于已有的使用相同公共数据集的深度估计算法；使用卷积分支对局部特征进行补充，并只使用前两层卷积层来进行估计，在不增加计算复杂度情况下增强局部特征，提高深度估计的准确性，进而提高算法估计精度。相对于其他单目深度估计方法，本实施例上述方案的估计准确率实现了一定地提高。

针对卷积分支无法构建空间和通道间依赖关系，通过设置卷积特征增强模块来对卷积特征进行增强，通过自适应卷积，围绕每个空间位置建立了远程空间和通道间依赖性-校准操作。具体而言，利用两个不同的尺度空间中进行卷积特征转换：原始尺度空间中的特征图即输入共享相同的分辨率和下采样后的较小的潜在空间。利用下采样后特征具有较大的视场，因此在较小的潜在空间中进行变换后的嵌入将用作参考，以指导原始特征空间中的特征变换过程。

实施例二

本实施例提出一种基于自适应令牌聚合的单目深度估计系统，包括：

获取模块：获取待估计图像；

本发明是参照根据本发明实施例的方法、系统，计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框，以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自适应令牌聚合的单目深度估计方法，其特征在于，包括：

获取待估计图像；

2.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，对获取待估计图像进行分割，具体包括：通过分区算子对待估计图像进行分割，分割得到多个大小一致的图像块。

3.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，所述Transformer分支包括多个依次连接的下采样层，每个下采样层包括依次包括补丁合并层和多个Transformer块，每个Transformer块包括依次连接的第一归一化层、多头自主意模块、第二归一化层和多层感知器模块。

4.如权利要求3所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，所述卷积分支包括卷积编码器和卷积特征增强模块，将卷积分支的卷积编码层的输出特征利用矩形卷积模块进行特征提取，得到矩形卷积聚类特征，将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中，引导令牌的聚类和合并。

5.如权利要求4所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中，引导令牌的聚类和合并，具体为：

给定初始分割标记和矩形卷积聚类特征中心标记，对于每个标记计算平均像素距离；

根据所计算的像素距离，将相似令牌特征分到同一聚类中；

利用注意力机制计算注意力分数进行令牌特征的合并。

6.如权利要求4所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，所述卷积特征增强模块包括并列的第一卷积层和第二卷积层，所述第一卷积层的输出特征分别经过第三卷积层和第四卷积层后进行特征相乘操作，将相乘后的结果再经过第五卷积层进行特征提取，所述第五卷积层的输出结果与所述第二卷积层的输出经过第六卷积层后的输出结果进行特征融合，将融合后的结果与所述卷积特征增强模块的输入再次特征融合，得到所述卷积分支的输出结果。

7.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，所述Transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强，得到增强的全局特征和增强的局部特征，具体操作为：

所述全局特征和所述局部特征分别经过池化得到第一全局特征与第一局部特征；

将所述第一全局特征和所述第一局部特征经过通道注意和跨图形信息交互得到增强的全局特征和增强的局部特征。

8.如权利要求7所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，将所述第一全局特征和所述第一局部特征经过通道注意和跨图形信息交互得到增强的全局特征和增强的局部特征，具体为：

所述第一全局特征通过特征映射得到查询值与价值；

所述第一局部特征通过特征映射得到键值与价值；

将所述第一全局特征的查询值与所述第一局部特征的键值，计算交叉注意力，建模亲和力矩阵；

将所述亲和力矩阵分别与所述第一全局特征的价值和所述第一局部特征的价值进行矩阵乘法，分别得到特征交互后的全局特征和特征交互后的局部特征；

将所得到的特征交互后的全局特征和特征交互后的局部特征，分别与经过通道注意的所述全局特征和所述局部特征进行矩阵乘法，得到增强的全局特征和增强的局部特征。

9.如权利要求8所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，将所得到的特征交互后的全局特征和特征交互后的局部特征，分别与经过通道注意的所述全局特征和所述局部特征进行矩阵乘法，得到增强的全局特征和增强的局部特征，具体为：

，

其中，reshape函数表示向量扩展操作，表示哈达玛乘积运算，Pooling表示池化操作，MLP表示多层感知器模块，/>为全局特征，/>为局部特征，/>为增强的全局特征，/>为增强的局部特征，/>为特征交互后的局部特征，/>为特征交互后的全局特征。

10.一种基于自适应令牌聚合的单目深度估计系统，其特征在于，包括：

获取模块：获取待估计图像；