CN116485860A

CN116485860A - 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法

Info

Publication number: CN116485860A
Application number: CN202310429798.0A
Authority: CN
Inventors: 夏晨星; 张梦格; 高修菊; 葛斌; 段秀真; 朱序; 高梦亚; 陈欣雨
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-07-25

Abstract

本发明属于计算机视觉图像处理领域，提出了一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法，包括以下步骤：在编码器中首先使用预训练后的ResNet‑50网络从输入的RGB图像中逐渐提取多尺度的特征，之后添加Transformer模块帮助解决卷积神经网络有限的感受野问题，指导提取编码器最终的深度特征图；其次，在解码器中，通过提出的查询注意模块渐进式地交互查询和利用来自多尺度ResNet‑50卷积模块提取的不同区域特征以及Transformer模块提取的全局上下文信息特征，做到充分增强和融合空间信息的多样性和相关性，逐渐查询细化边缘特征。本文提出的查询交叉注意模块(QAM)既能够充分地利用卷积神经网络对空间相关性建模的归纳偏差又能够使用Transformer对全局关系建模从而获得更细粒度和密集的深度特征表示，生成高质量的深度预测图。

Description

一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法

技术领域：

本发明属于计算机视觉图像处理领域，具体来说，提出了一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法。

背景技术：

该部分的陈述仅仅是涉及了与发明相关的技术背景，并不必然构成现有技术。

基于单目图像的深度预测是光度学计算机视觉领域的一个重要研究课题。它的目标是从特定视角的图像中生成像素级别的深度图，给定输入RGB图像，深度预测模型生成密集的深度图(最佳彩色视图)，深度图中的颜色对应于该像素的距离，黄色和蓝色分别表示远和近。这样的深度信息有助于更好地理解3D场景，并且还促进了许多计算机视觉任务，例如室内定位、同时定位和映射(SLAM)、自动驾驶场景等。通常，深度信息通过商业深度传感器(例如各种LiDAR设备和Kinect)来获得。但是，除了成本、操作技能要求高外，还存在分辨率低、感知距离短等缺点，限制了其广泛应用。由于RGB图像的广泛应用，从单目图像中提取深度图的方法受到了越来越多的关注。然而，这是一个具有挑战性的不适定问题，因为它存在固有的尺度模糊，这意味着无限数量的可能的深度图可以与图像相关联。受深度学习在图像分类、对象检测和语义分割方面的强大性能的启发，许多研究人员尝试使用深度学习技术来解决单目深度预测问题，并相继提出了基于卷积神经网络(CNN)、递归神经网络(RNN)和生成对抗网络(GAN)的各种网络架构。与传统方法相比，取得了明显的效果。

在过去的十年中，CNN卷积神经网络一直是用于深度预测的主流方法。基于CNN的模型严重依赖于纹理信息来识别场景和对象，输入的图像通过卷积通道逐渐进行down-sample捕获多尺度特性，同时扩大接受域。然而，down sampling有一定的缺点，比如有限的感受野会导致全局上下文信息会有一定的损失。相比之下，基于Transformer的模型在更大程度上使用形状信息来执行单目深度预测任务，Transformer中的self-attention机制可以捕获远程视觉依赖，同时在每个阶段提供全局接受域，有利于进行像素级别的预测任务。但是Transformer也存在一些缺点：纯Transformer主干网络模型的复杂度高，参数量大，并且需要大量的数据进行学习和推理，训练的时间和成本较高；在特征融合阶段，简单的跳跃连接方法将低分辨率语义丰富的解码器特征与较高分辨率、语义较弱的编码器特征融合来缓解缺乏全局接收域，但是对于保留局部细节，例如场景和对象的边缘、轮廓细节是比较有挑战性的。

发明内容：

为了解决上述问题，本发明提出一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法，采用混合主干网络的编码器结构，尝试在解码器阶段使用查询注意模快QAM，使用基于窗口的交叉注意和自注意力机制帮助将解码器的长距离上下文信息融合到通过Concat拼接增强边缘信息的编码器的特征中。具体来说，在编码器特征融合中，Concat拼接上一级编码器的特征和解码器特征来细化场景和对象的局部边缘分布。QAM模块初始使用来自Transformer模块输出的具有最大全局信息的粗糙特征图获得初始查询矩阵Q，从ResNet模块输出的最低分辨率特征图获得键K矩阵和值V矩阵，在卷积运算之后，经过交叉注意和多头自注意机制获得初始解码器特征表示；之后，QAM模块中的交叉注意机制从解码器特征表示中获得查询Q矩阵，从处理后的编码器特征中获得键K矩阵和值V矩阵，使用基于Swin-Transformer的思想，将注意力限制到窗口中计算关注度降低模型的复杂度，采用从粗到细的策略自底向上地融合编码器特征将解码器特征查询细化到更精细的尺度。利用解码器特征映射和对应的编码器特征映射之间的自相似性，不仅可以定位不同场景和对象的目标，而且提取的目标的边缘轮廓细节信息也很丰富，在提高训练速度的同时提高模型的性能和预测深度图结果的精确度。

1.一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法，其特征在于，该算法包含以下步骤：

1)此单目深度预测算法利用在ImageNet上预先训练好的ResNet-50架构初始化编码器网络的骨干网络提取多尺度的特征。

2)使用ResNet主干网络得到的最后一层输出特征映射作为Transformer层的输入进行处理，有效地提取和聚合整个场景信息，增强骨干网络输出特征的全局性和相关性。

3)使用自下而上的方法，从最低分辨率的的输出特征图开始，逐渐进行上采样，使用交叉注意力机制和跳跃连接从相应尺度的编码器特征图中不断强化边缘细节，融合全局和局部特征，得到更精细的特征表示。

4)使用尺度不变损失Scale-Invariant loss(SILog)监督和训练网络模型，计算预测深度值与地面真实值之间的差。

2.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法，其特征在于：所述步骤1)具体方法是：

2.1)下载单目深度预测方向的开源数据集NYU Depth v2数据集和KITTI数据集，NYU Depth v2是一个包含120K RGB-Depth对的室内数据集，深度图的范围为0-10m，KITTI是一个室外数据集，由安装在移动车辆顶部的多个传感器捕获的61个场景的立体图像和3D扫描组成，深度图的上限是80m。

2.2)对于KITTI数据集，使用随机裁剪(Random Crop)对来自32个场景的原始图像随机裁剪出大小为352×704的子图像作为新样本进行训练网络，使用来自其余29个场景的697张原始图像进行测试。对于NYU Depth v2数据集，使用随机裁剪对来自249个场景的原始图像随机裁剪出大小为416×512的子图像作为新样本进行训练网络，使用215个场景中的654张原始图像进行测试。

2.3)使用ResNet-50的预训练权重初始化编码器中的ResNet主干网络，避免从头开始训练导致特征提取效率低下并且不精确的问题，节约计算资源，提高模型的训练速度，对输入的RGB图像进行提取初始多尺度特征，生成的特征表示为分辨率大小分别为原始图像的/>通道数分别为{64,128,256,512}。

3.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法，其特征在于：所述步骤2)具体方法是：

3.1)为了弥补CNN卷积神经网络感受野固有的局限性，本算法在ResNet主干网路后增加了线性Transformer模块共同构成混合的编码器结构，不仅能更好的提取图像的全局特征，也让网络结构更简单和高效。

3.2)在Transformer模块中，使用ViT-B/16作为主干网络完成最终的特征提取任务，将特征表示进行线性投影得到一个展开的二维序列/>后传入此模块做进一步的处理。Transformer层数、隐藏层和多头注意力的参数分别设置为12、768和12，每个Transformer层包含层归一化、多头自注意机制、残差连接、层归一化、MLP多层感知器和残差连接操作。

3.3)Transformer模块将场景的全局信息聚合到特征表示中，以得到大小为的查询注意模块的初始输入序列Q_I。

4.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法，其特征在于：所述步骤3)具体方法是：

4.1)构建查询注意模块QAM，对于深度预测像素级别的密集估计任务，粗糙的语义上下文特征和精细的细节对于提高预测的准确性都至关重要，该模块从最低的分辨率特征图开始，逐渐进行上采样，使用交叉注意机制和跳跃连接查询对应尺度经过交互残差连接后的编码器特征图来有效地融合全局上下文和局部边缘细节特征。

4.2)在查询注意模块QAM中，首先，给定查询特征映射和特定比例i的相应残差连接后的编码器特征Eⁱ，在/>和Eⁱ上都使用执行D_i通道的3×3卷积，使得解码器特征生成的查询特征映射的通道数与编码器特征映射中的通道数相同。之后，使用MLP层获得的权重矩阵W_Q，W_K和W_V从/>获得查询矩阵Q，从Eⁱ获得键K矩阵和值V矩阵。为了提高模型训练的效率，使用类似于Swin Transformer的思想，将注意力限制在局部的窗口模块中，窗口大小设置为7×7。在注意力窗口w中，设Q_w、K_w、V_w是对应的查询、键和值矩阵，具体来说，

其中B表示相对位置偏差。B是尺寸大小为w²×w²的可学习矩阵，表示每个查询和值对对应的相对位置编码，用来为每个窗口w计算注意力，然后根据每个窗口在Q中的各自空间位置进行重新排列。

然后，交叉注意模块查询的特征表示在多头自我注意层中彼此汇总信息，再使用MLP层进行聚合。在第i层查询特征映射和编码器的特征Eⁱ的具体说明如下，

K＝W_K(LayerNorm(conv(Eⁱ))) (3)

V＝W_V(LayerNorm(conv(Eⁱ))) (4)

其中卷积核的通道数D_i分别为{128,256,512,1028}，查询注意模块中每一级的多头注意数目分为{4,8,16,32}。

4.3)在编码器中，查询注意模块QAM的初始输出分别是由Transformer主干的输出特征和ResNet主干提取的特征/>经过UpSample上采样到分辨率的两倍。

解码器的输出特征对应编码器的特征/>以及上采样后的Eⁱ⁺¹经过Concat拼接操作得到增强边缘细节的特征Eⁱ。

其中i∈{1,2,3}，通过关注不同尺度下的增强特征Eⁱ与解码器的输出特征将初始特征映射逐渐融合边缘细节特征。

最后对得到的特征映射进行卷积降维、激活函数、卷积和Sigmoid激活函数将每个通道的权重归一化到0-1之间，进一步提取和融合特征。

5.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法，其特征在于：所述步骤4)具体方法是：

为了计算像素位置i出的预测输出深度d_i与地面真实深度d_i ^*之间的对数距离，本算法使用尺度不变损失Scale-Invariant loss(SILog)训练模型。SILog损失函数使用缩放因子考虑了每个像素周围像素的数量，从而更好地处理尺度变化。

其中，n表示图像中的像素数，λ＝0.85，α＝10。

附图说明

图1多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法流程图

图2模型整体架构图

图3Transformer模块细节图

图4QAM注意查询模块细节图

具体实施方式

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，此外，所叙述的实施例仅仅是本发明一部分实施例，而不是所有的实施例。基于本发明中的实施例，本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护范围。

本发明的流程框架如图1所示，一种多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法流程图，具体操作如下：

1.此单目深度预测算法利用在ImageNet上预先训练好的ResNet-50架构初始化编码器网络的骨干网络提取多尺度的特征。

1.1下载单目深度预测方向的开源数据集NYU Depth v2数据集和KITTI数据集，NYU Depth v2是一个包含120K RGB-Depth对的室内数据集，深度图的范围为0-10m，KITTI是一个室外数据集，由安装在移动车辆顶部的多个传感器捕获的61个场景的立体图像和3D扫描组成，深度图的上限是80m。

1.2对于KITTI数据集，使用随机裁剪(Random Crop)对来自32个场景的原始图像随机裁剪出大小为352×704的子图像作为新样本进行训练网络，使用来自其余29个场景的697张原始图像进行测试。对于NYU Depth v2数据集，使用随机裁剪对来自249个场景的原始图像随机裁剪出大小为416×512的子图像作为新样本进行训练网络，使用215个场景中的654张原始图像进行测试。

1.3使用ResNet-50的预训练权重初始化编码器中的ResNet主干网络，避免从头开始训练导致特征提取效率低下并且不精确的问题，节约计算资源，提高模型的训练速度，对输入的RGB图像进行提取初始多尺度特征，生成的特征表示为分辨率大小分别为原始图像的/>通道数分别为{64,128,256,512}。模型的整体架构如图2所示。

2.使用ResNet主干网络得到的最后一层输出特征映射作为Transformer层的输入进行处理，有效地提取和聚合整个场景信息，增强骨干网络输出特征的全局性和相关性。Transformer分支细节图如图3所示。

2.1为了弥补CNN卷积神经网络感受野固有的局限性，本算法在ResNet主干网路后增加了线性Transformer模块共同构成混合的编码器结构，不仅能更好的提取图像的全局特征，也让网络结构更简单和高效。

2.2在Transformer模块中，使用ViT-B/16作为主干网络完成最终的特征提取任务，将特征表示进行线性投影得到一个展开的二维序列/>后传入此模块做进一步的处理。Transformer层数、隐藏层和多头注意力的参数分别设置为12、768和12，每个Transformer层包含层归一化、多头自注意机制、残差连接、层归一化、MLP多层感知器和残差连接操作。

2.3Transformer模块将场景的全局信息聚合到特征表示中，以得到大小为的查询注意模块的初始输入序列Q_I。

3.使用自下而上的方法，从最低分辨率的输出特征图开始，逐渐进行上采样，使用交叉注意力机制和跳跃连接从相应尺度的编码器特征图中不断强化边缘细节，融合全局和局部特征，得到更精细的特征表示。QAM查询注意模块的细节如图4所示。

3.1构建查询注意模块QAM，对于深度预测像素级别的密集估计任务，粗糙的语义上下文特征和精细的细节对于提高预测的准确性都至关重要，该模块从最低的分辨率特征图开始，逐渐进行上采样，使用交叉注意机制和跳跃连接查询对应尺度经过交互连接后的编码器特征图来有效地融合全局上下文和局部边缘细节特征。

3.2在查询注意模块QAM中，首先，给定查询特征映射和特定比例i的相应连接后的编码器特征Eⁱ，在/>和Eⁱ上都使用执行D_i通道的3×3卷积，使得解码器特征生成的查询特征映射的通道数与编码器特征映射中的通道数相同；之后，使用MLP层获得的权重矩阵W_Q，W_K和W_V从/>获得查询矩阵Q，从Eⁱ获得键K矩阵和值V矩阵。为了提高模型训练的效率，使用类似于Swin Transformer的思想，将注意力限制在局部的窗口模块中，窗口大小设置为7×7。在注意力窗口w中，设Q_w、K_w、V_w是对应的查询、键和值矩阵，具体来说，

K＝W_K(LayerNorm(conv(Eⁱ))) (3)

V＝W_V(LayerNorm(conv(Eⁱ))) (4)

3.3在编码器中，查询注意模块QAM的初始输出分别是由Transformer主干的输出特征和ResNet主干提取的特征/>经过UpSample上采样到分辨率的两倍。

4.为了计算像素位置i出的预测输出深度d_i与地面真实深度d_i ^*之间的对数距离，本算法使用尺度不变损失Scale-Invariant loss(SILog)训练模型。SILog损失函数使用缩放因子考虑了每个像素周围像素的数量，从而更好地处理尺度变化。

其中，n表示图像中的像素数，λ＝0.85，α＝10。

以上所述为本申请优选实施而以，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。

Claims

2.1)下载单目深度预测方向的开源数据集NYU Depth v2数据集和KITTI数据集，NYUDepth v2是一个包含120K RGB-Depth对的室内数据集，深度图的范围为0-10m，KITTI是一个室外数据集，由安装在移动车辆顶部的多个传感器捕获的61个场景的立体图像和3D扫描组成，深度图的上限是80m。

K＝W_K(LayerNorm(conv(Eⁱ))) (3)

V＝W_V(LayerNorm(conv(Eⁱ))) (4)

其中，n表示图像中的像素数，λ＝0.85，α＝10。