CN116758130A

CN116758130A - 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法

Info

Publication number: CN116758130A
Application number: CN202310755900.6A
Authority: CN
Inventors: 夏晨星; 张梦格; 高修菊; 葛斌; 刘舜; 朱序; 陈欣雨; 陆一鸣
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-15

Abstract

本发明属于计算机视觉领域中的一个基础研究课题，提出了一种基于多路径特征提取和多尺度特征融合的单目深度预测方法，并构建了一种全新的编码器‑解码器框架。在编码器部分，本发明结合卷积神经网络与Transformer各自的优点，采用多路径结构在局部和全局区域同时进行推理，实现了精细和粗糙的多路径特征提取，获得了多样化的多尺度特征表示。特别地，空间金字塔池化模块(PSP)利用多尺度自适应池化操作来提取不同尺度下的语义信息，从而初始化解码器特征。在解码器部分，本发明引入了精心设计的编码器和解码器特征交互模块(EDFI)，通过跳跃连接和双路径交叉自我注意机制，充分自适应地增强和融合全局上下文语义信息和精细的局部边缘信息。本发明充分利用了卷积神经网络的强大空间归纳和由Vision Transformer模型实现的全局信息推理，同时，结合灵活的轻量级解码器，本发明能够以更细粒度和更高的准确度完成深度预测。

Description

一种基于多路径特征提取和多尺度特征融合的单目深度预测方法

技术领域：

本发明属于计算机视觉图像处理领域，具体来说，提出了一种基于多路径特征提取和多尺度特征融合的单目深度预测方法。

背景技术：

该部分的陈述仅仅是涉及了与发明相关的技术背景，并不必然构成现有技术。

单目深度预测是是计算机视觉领域中长期以来一直受到积极研究的具有挑战性的基础课题。其任务是从给定输入的RGB彩色图像中，通过深度预测模型生成像素级别的密集深度图，深度图中包含图像中的场景相对于相机的距离信息。正确的像素场景深度信息对于完成更高级别的计算机视觉任务至关重要，包括三维重建、自动驾驶、3D目标检测和水下图像恢复等。通常，相比于成本和技术要求高的激光雷达相机设备，使用单目深度预测算法从单个图像直接预测场景深度是一种更具成本效益的方法。然而，由于单目深度预测问题固有的模糊性，传统方法通常会导致推理准确性低且概括性差，因此这是一个具有挑战性的不适定问题。近几年来，随着卷积神经网络(CNN)的出现，许多基于CNN的方法被广泛应用于深度预测任务。这些方法通常设计基于编码器-解码器的模型架构，并且显著提高了深度预测结果的准确性。

由于缺乏深度线索，充分利用长距离相关性(即对象间的距离关系)和局部信息(即对象内的一致性)对于准确的深度预测是至关重要的。研究人员通常在编码器阶段设计不同尺度的卷积算子扩大感受野，从粗到细捕获多尺度的特征，或者加入注意力机制来集成全局上下文信息。然而，具有有限感受野的卷积算子仍然难以充分捕获长距离相关性，这成为当前基于CNN卷积神经网络的深度预测方法的潜在瓶颈。相比于CNN，VisionTransformer(ViT)在像素级别的图像识别方面取得了巨大的成功，表现出在深度预测编码器上的优势，并引起了广泛的关注。得益于自我注意力机制，Transformer更擅长用全局感受野捕获长距离相关性，被认为比CNN表现更强的泛化能力，更类似于人类的认知过程。然而，在密集预测任务中，像素还必须理解局部信息。基于Transformer的编码器增加了网络的接收域，但在提取局部特征信息时可能缺乏空间归纳偏置，并丢失一些场景和对象的纹理信息，无法产生令人满意的性能。直接上采样到更高的分辨率和简单的融合会导致局部信息的丢失，因此，在解码器阶段，研究人员通过设计基于Transformer中自我注意力机制思想的跳跃连接方法，融合编码器和解码器阶段提取的多尺度特征信息来考虑和传递全局信息和本地局部信息，恢复图像的细节信息，产生精细的深度图。但是，这些框架在特征聚合阶段，会增加推理时的计算成本。因此，在实际的应用中，应考虑如何有效利用和结合CNN和Transformer的各自优点，提高模型性能的同时提高训练速度。

发明内容：

为了解决上述问题，本发明提出了一种基于多路径特征提取和多尺度特征融合的单目深度预测方法，并构建了一种新颖的编码器和轻量级解码器结构。在编码器阶段，使用Multi-Path Vision Transformer(MPViT)作为骨干网络进行特征提取。MPViT由多尺度patch embedding(MS-PatchEmbed)和多路径Transformer(MP-Transformer)模块组成，构建了一个拥有四阶段的层次结构。每个阶段的输出特征用于生成不同尺度的特征图。在每个阶段的过程中，借鉴了CNN模型的思想，对patch embedding使用不同感受野的多尺度卷积核进行重叠卷积操作，产生具有相同分辨率的特征。然后，不同尺度的tokens被并行独立地传递到多个Transformer编码器中，执行全局自我关注和附加的卷积分支来保留局部信息。最后，将得到的特征进行聚合，保证在每一阶段保持语义上丰富且空间上精确的表示，通过在这种精细和粗糙的多层次特征提取，帮助实现更加准确的预测，提高模型的性能。在解码器阶段，提出一种轻量级的特征融合EDFI模块。该模块通过迭代上采样特征图，并利用自注意力机制有效地将解码器的长程全局信息编码融合到编码器提取的多尺度特征中。该过程从最低分辨率开始，向高分辨率移动。这种特征融合方式有助于将全局信息传递到高分辨率并保留局部信息特征，从而在提高训练速度的同时提高模型的性能和预测深度图结果的准确性。

1.一种基于多路径特征提取和多尺度特征融合的单目深度预测方法，其特征在于，该方法包含以下步骤：

1)此单目深度预测方法利用在ImageNet上预先训练好的Multi-Path VisionTransformer(MPViT)模型构建多尺度patch embedding和多路径特征提取结构，初始化编码器网络的骨干网络。

2)对MPViT主干网络得到的最后一层输出特征映射通过Pyramid Scene ParsingNetwork(PSP，空间金字塔池化模块)进行处理，获得不同尺度下的语义信息，有效地增强解码器初始输入特征的全局性和相关性。

3)使用自下而上的方法，从最低分辨率的输出特征图开始，通过迭代上采样操作，使用注意力机制和跳跃连接方法融合对应尺度的编码器和解码器特征图，进行多尺度局部特征和全局上下文信息聚合，预测更加精确的深度图。

4)使用尺度不变损失Scale-Invariant loss(SILog)训练和优化网络模型，计算预测深度值与真实深度值之间的差。

2.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法，其特征在于：所述步骤1)具体方法是：

2.1)下载单目深度预测方向的开源官方数据集NYU Depth v2数据集和KITTI数据集，NYU Depth v2提供了用640×480的像素分辨率捕获的不同室内场景的RGB图像和深度图，深度图的范围为0-10m，KITTI是由安装在移动车辆上的设备捕获的室外场景的立体图像和对应的3D激光扫描的数据集，深度图的上限是80m。

2.2)对于KITTI数据集，使用中心裁剪(Center crop)对来自26K的左视图图像的子集裁剪出大小为352×704的子图像作为样本用于训练和697个测试集图像测试网络。对于NYU Depth v2数据集，采用随机裁剪(Random crop)对包含50K的249个场景中的原始图像随机裁剪出大小为448×576的子图像训练网络，并在654张图像上进行测试。

2.3)下载并使用MPViT-Base的预训练权重文件初始化编码器中的MPViT骨干网络，避免从零开始训练导致特征图提取效率低下并且质量不高的问题，并且能够加快模型的训练速度，避免过拟合现象，提高模型的性能。

3.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法，其特征在于：所述步骤2)具体方法是：

3.1)MPViT主干网络首先对输入的RGB图像进行提取初始多尺度特征，生成的特征分别表示为分辨率大小分别为原始图像的/>通道数分别为{224,368,480,480}。

3.2)将包含场景中最重要细节也是最粗糙分辨率的尺度的特征图被作为输入传送到空间金字塔池化模块(PSP)中做进一步的处理。PSP模块使用多尺度自适应池化提取不同尺度下的语义信息，尺度的大小分别为{1×1,2×2,3×3,6×6}。

3.3)为了保持输出特征图的维度与输入特征图一致，在完成不同尺度的池化操作后，使用1×1卷积将特征图的维度变为输入特征图维度的然后，通过双线性插值法对这些特征图进行上采样，使其恢复到和输入特征图相同的尺寸，并执行Concat拼接操作将他们合并在一起，能够有效地聚合整个场景信息，并得到大小为/>的特征图，其中N_c1为512，H和W分别为输入特征图的高度和宽度。最后，为了进一步处理特征图并保持分辨率不变，本发明使用一个卷积层，将特征图的维度调整为128。

4.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法，其特征在于：所述步骤3)具体方法是：

4.1)对于密集预测任务，一个像素必须知道它是否位于一个物体的边界上，或者它是否属于一个共同表面上的一组像素，才能进行准确的预测。因此，本方法构建了一个轻量级并且有效地进行编码器和解码器特征交互的模块EDFI，自适应地选择和融合全局上下文语义信息和精细的本地局部信息。该模块从最低的分辨率特征图开始，向高分辨率移动。首先对编码器和解码器/>特征图都通过1×1卷积层将通道数改变为128，以方便匹配维度，然后使用双路径交叉注意机制和跳跃连接经过一系列卷积层，在不使用复杂的上采样方式和增加额外的注意力模块的情况下，增强学习丰富的全局上下文和局部边缘密集特征的能力。

4.2)在编码器和解码器特征交互模块EDFI中，首先，构建双路径交叉注意机制模块，自适应地关注重要位置。具体来说，

其中，i∈{1,2,3,4}，W_K，W_Q和W_V是权重矩阵，是经过卷积操作后大小为{H_i,W_i,N_c}的编码器特征映射，其中N_c为128，/>是对应尺度{H_i,W_i,N_c}的解码器特征映射，/>是两个特征沿着通道维度Concat拼接得到的特征,这里/>的大小为{H_i,W_i,2N_c}，经过一层卷积后维度降低到N_c。

使用交叉协方差注意机制增强特征映射和/>具体来说，

其中，Attention(Q,K,V)＝V·Softmax(Q^TK)。

然后，增加特征的非线性度，具体来说，

其中，LN表示层归一化操作，ReLU表示激活函数，conv1表示1×1卷积，DWConv_r表示具有扩张率为r的3×3扩张卷积。

4.3)在解码器中，编码器和解码器特征交互模块EDFI的初始输入分别是由PSP模块的输出特征和MPViT骨干网络的最后一层输出特征/>然后经过UpSample上采样得到具体来说，

然后，通过融合不同尺度下的编码器特征与解码器的输出特征/>帮助初始特征映射逐渐增强全局的上下文信息以及局部连续性，具体来说，

这里，i∈{1,2,3}。

最后，对得到的解码器输出特征经过卷积、ReLU激活函数、卷积降维和Sigmoid激活函数操作，将每个通道的权重归一化到0-1之间，进一步提取和融合特征，预测深度图H×W×1，然后深度图乘以最大深度值(以米为单位)进行缩放。

5.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法，其特征在于：所述步骤4)具体方法是：

本发明使用尺度不变损失Scale-Invariant loss(SILog)优化和训练网络模型，计算像素位置i处的预测深度d_i与有效地面真实深度d_i ^*之间的对数距离。SILog损失函数将每个像素周围像素的数量用作缩放因子，更好地处理更小的对象，降低错误率。

这里，n表示图像中的像素数，λ＝0.85，α＝10。

附图说明

图1基于多路径特征提取和多尺度特征融合的单目深度预测方法流程图

图2MPViT骨干网络架构图

图3PSP模块细节图

图4编码器和解码器特征交互模块EDFI细节图

图5NYU Depth v2数据集上的结果对比表

具体实施方式

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，此外，所叙述的实施例仅仅是本发明一部分实施例，而不是所有的实施例。基于本发明中的实施例，本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护范围。

本发明的流程框架如图1所示，一种基于多路径特征提取和多尺度特征融合的单目深度预测方法流程图，具体操作如下：

1.此单目深度预测方法利用在ImageNet上预先训练好的Multi-Path VisionTransformer(MPViT)模型构建多尺度patch embedding和多路径特征提取结构，初始化编码器网络的骨干网络。

1.1下载单目深度预测方向的开源官方数据集NYU Depth v2数据集和KITTI数据集，NYU Depth v2提供了用640×480的像素分辨率捕获的不同室内场景的RGB图像和深度图，深度图的范围为0-10m，KITTI是由安装在移动车辆上的设备捕获的室外场景的立体图像和对应的3D激光扫描的数据集，深度图的上限是80m。

1.2对于KITTI数据集，使用中心裁剪(Center crop)对来自26K的左视图图像的子集裁剪出大小为352×704的子图像作为样本用于训练和697个测试集图像测试网络。对于NYU Depth v2数据集，采用随机裁剪(Random crop)对包含50K的249个场景中的原始图像随机裁剪出大小为448×576的子图像训练网络，并在654张图像上进行测试。

1.3下载并使用MPViT-Base的预训练权重文件初始化编码器中的MPViT骨干网络，避免从零开始训练导致特征图提取效率低下并且质量不高的问题，并且能够加快模型的训练速度，避免过拟合现象，提高模型的性能。网络的整体架构如图2所示。

2.对MPViT主干网络得到的最后一层输出特征映射通过Pyramid Scene ParsingNetwork(PSP，空间金字塔池化模块)进行处理，获得不同尺度下的语义信息，有效地增强解码器初始输入特征的全局性和相关性。PSP模块细节图如图3所示。

2.1MPViT主干网络首先对输入的RGB图像进行提取初始多尺度特征，生成的特征分别表示为分辨率大小分别为原始图像的/>通道数分别为{224,368,480,480}。

2.2将包含场景中最重要细节也是最粗糙分辨率的尺度的特征图被作为输入传送到空间金字塔池化模块(PSP)中做进一步的处理。PSP模块使用多尺度自适应池化提取不同尺度下的语义信息，尺度的大小分别为{1×1,2×2,3×3,6×6}。

2.3为了保持输出特征图的维度与输入特征图一致，在完成不同尺度的池化操作后，使用1×1卷积将特征图的维度变为输入特征图维度的然后，通过双线性插值法对这些特征图进行上采样，使其恢复到和输入特征图相同的尺寸，并执行Concat拼接操作将他们合并在一起，能够有效地聚合整个场景信息，并得到大小为/>的特征图，其中N_c1为512，H和W分别为输入特征图的高度和宽度。最后，为了进一步处理特征图并保持分辨率不变，本发明使用一个卷积层，将特征图的维度调整为128。

3.使用自下而上的方法，从最低分辨率的输出特征图开始，通过迭代上采样操作，使用注意力机制和跳跃连接方法融合对应尺度的编码器和解码器特征图，进行多尺度局部特征和全局上下文信息聚合，预测更加精确的深度图。编码器和解码器特征交互模块EDFI细节图如图4所示

3.1对于密集预测任务，一个像素必须知道它是否位于一个物体的边界上，或者它是否属于一个共同表面上的一组像素，才能进行准确的预测。因此，本方法构建了一个轻量级并且有效地进行编码器和解码器特征交互的模块EDFI，自适应地选择和融合全局上下文语义信息和精细的本地局部信息。该模块从最低的分辨率特征图开始，向高分辨率移动。首先对编码器和解码器/>特征图都通过1×1卷积层将通道数改变为128，以方便匹配维度，然后使用双路径交叉注意机制和跳跃连接经过一系列卷积层，在不使用复杂的上采样方式和增加额外的注意力模块的情况下，增强学习丰富的全局上下文和局部边缘密集特征的能力。

3.2在编码器和解码器特征交互模块EDFI中，首先，构建双路径交叉注意机制模块，自适应地关注重要位置。具体来说，

其中，i∈{1,2,3,4}，W_K，W_Q和W_V是权重矩阵，是经过卷积操作后大小为{H_i,W_i,N_c}的编码器特征映射，/>是对应尺度{H_i,W_i,N_c}的解码器特征映射，/>是两个特征沿着通道维度Concat拼接得到的特征,这里/>的大小为{H_i,W_i,2N_c}，经过一层卷积后维度降低到N_c。

使用交叉协方差注意机制增强特征映射和/>具体来说，

其中，Attention(Q,K,V)＝V·Softmax(Q^TK)。

然后，增加特征的非线性度，具体来说，

3.3在解码器中，编码器和解码器特征交互模块EDFI的初始输入分别是由PSP模块的输出特征和MPViT骨干网络的最后一层输出特征/>然后经过UpSample上采样得到具体来说，

这里，i∈{1,2,3}。

4.为本发明使用尺度不变损失Scale-Invariant loss(SILog)优化和训练网络模型，计算像素位置i处的预测深度d_i与有效地面真实深度d_i ^*之间的对数距离。SILog损失函数将每个像素周围像素的数量用作缩放因子，更好地处理更小的对象，降低错误率。

这里，n表示图像中的像素数，λ＝0.85，α＝10。本方法与其他单目深度预测方法在NYU Depth v2数据集上的结果对比表如图5所示。

以上所述为本申请优选实施而以，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。

Claims

2.2)对于KITTI数据集，使用中心裁剪(Center crop)对来自26K的左视图图像的子集裁剪出大小为352×704的子图像作为样本用于训练和697个测试集图像测试网络。对于NYUDepth v2数据集，采用随机裁剪(Random crop)对包含50K的249个场景中的原始图像随机裁剪出大小为448×576的子图像训练网络，并在654张图像上进行测试。

使用交叉协方差注意机制增强特征映射和/>具体来说，

其中，Attention(Q,K,V)＝V·Softmax(Q^T·K)。

然后，增加特征的非线性度，具体来说，

4.3)在解码器中，编码器和解码器特征交互模块EDFI的初始输入分别是由PSP模块的输出特征和MPViT骨干网络的最后一层输出特征/>然后经过UpSample上采样得到/>具体来说，

这里，i∈{1,2,3}。

这里，n表示图像中的像素数，λ＝0.85，α＝10。