CN115578436A

CN115578436A - 一种基于多级特征并行交互融合的单目深度预测方法

Info

Publication number: CN115578436A
Application number: CN202211252277.4A
Authority: CN
Inventors: 夏晨星; 段秀真; 梁兴柱; 王列伟; 孙延光; 段松松
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-06

Abstract

本发明提出一种基于多级特征并行交互融合的单目深度预测方法，尝试提出一种CNN与Transformer层级交互融合的方式，使用SwinTransformer和CNN不同分辨率特征图进行融合，以获得更好的编码器，获取更丰富的全局和局部特征信息，达到提取密集特征的效果。使用分层ResNet和SwinTransformer作为编码器，分别提取局部相邻信息特征与全局长范围上下文信息，通过层级ResNet网络与Transformer的融合，在编码器阶段获得丰富的局部与全局信息，避免因为重复的下采样而丢失过多的特征信息。此外，本发明构建了一个新的融合模块(FFM)，在层级特征提取阶段，更好的促进卷积神经网络输出与Transformer输出高效融合，进一步获得密集的深度信息，得到高质量的深度图，用于三维重建、自动驾驶、智能机器人等领域。

Description

一种基于多级特征并行交互融合的单目深度预测方法

技术领域：

本发明涉及图像处理领域，具体来说，涉及了一种基于多级特征并行交互融合的单目深度预测方法。

背景技术：

本部分的陈述仅仅是涉及到了与本发明相关的背景技术，并不必然构成现有技术。

深度预测是从一个或多个图像中预测场景的深度信息，是计算机视觉领域经典问题之一，这些深度信息有助于许多计算机视觉任务，如同步定位和映射、自动驾驶、三维重建、目标检测等领域。深度预测任务可以由专用硬件完成，如微软的测距仪和Kinect摄像头，但价格昂贵、场景有限，大多数图像都是由普通相机拍摄的，只含场景的颜色信息。为了重建深度信息，研究人员尝试直接从RGB图像中预测深度，这种方法与通过专业硬件设备获得深度信息相比，更具有普遍性。然而从RGB图像中预测深度是一个不适定的问题，缺乏线索、尺度模糊、半透明或反射材料都会导致模糊的情况，即外观不能推断空间结构。随着深度学习的快速发展，CNN已经成为从单一的RGB输入中提供合理的深度图的主流方法的关键组成部分。自Transformer出现以来，它在各个领域得到了相当广泛的关注。

近期，由于Transformer采用了一种具有多层感知器(MLP)的自注意机制，克服了以往RNN对自然语言处理无法并行、训练效率低的局限性，许多研究人员试图将Transformer引入计算机视觉领域，取得了一定成果，然而Transformer更关注全局上下文信息忽略了局部信息，CNN更注重对局部信息的提取。随后，研究人员将Transformer与CNN结合，取得了不错的效果，推动了单目深度预测的发展，目前Transformer与CNN的结合都是基于编码器解码器(encoder-decoder)结构，大多方法将Transformer与CNN串行结合，将Transformer作为encoder提取和传递全局上下文信息，然而很少方法将Transformer与CNN独立并行结合，充分发挥CNN与Transformer的优势，充分利用二者的互补性。现有方法同时准确恢复大规模几何(墙壁)和局部细节(边界和小目标)仍然具有挑战性，正是这种在不同尺度区域的不准确推断促使充分利用分层场景结构进行深度预测。

发明内容：

为解决上述问题，本发明提出一种基于多级特征并行交互融合的单目深度预测方法，尝试提出一种CNN与Transformer层级交互融合的方式，使用SwinTransformer和CNN不同分辨率特征图进行融合，以获得更好的编码器，获取更丰富的全局和局部特征信息，达到提取密集特征的效果。使用分层ResNet和SwinTransformer作为编码器，分别提取局部相邻信息特征与全局长范围上下文信息，通过层级ResNet网络与Transformer的融合，在编码器阶段获得丰富的局部与全局信息，避免因为重复的下采样而丢失过多的特征信息。此外，本发明构建了一个新的融合模块，在层级特征提取阶段，更好的促进卷积神经网络输出与Transformer输出高效融合，进一步获得密集的深度信息，得到高质量的深度图，用于三维重建、自动驾驶、智能机器人等领域。

1.一种基于多级特征并行交互融合的单目深度预测方法，其特征在于，该方法包括以下步骤：

1)收集公共RGB数据集，并对数据进行增强，使用网络的预训练权值，并初始化编码器。

2)采用ResNet获取多级局部特征，使用Swin Transformer获取全局上下文特征。

3)构建并行多级交互融合模块FFM，将局部与全局信息充分融合，生成高质量密集深度信息。

4)为了计算预测输出深度与地面真实深度图之间的距离，使用尺度不变损失Scale-Invariant loss(SI)来训练模型。

2.权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法，其特征在于：所述步骤1)具体方法是：

2.1)收集主流公共数据集有NYU Depth v2数据集和KITTI数据集，NYU Depth v2主要是针对室内场景，范围0-10m，KITTI数据集主要针对室外场景，多用于自动驾驶领域，范围在0-80m。

2.2)采用CutDepth进行数据增强，在不增加额外计算成本的情况下加速模型训练性能，用地面真深度图替换部分输入图像，为输入图像提供多样性，使网络能够聚焦于高频区域，在CutDepth中，随机选择切割区域的坐标(l、u)和大小(w、h)。

2.3)使用MiT-b4预训练权重初始化编码器，避免从零开始训练效果差且特征效果提取不明显的问题，建立耗时更短、更精确的模型。

3.根据权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法，其特征在于：步骤2)具体方法是：

3.1)CNN与Transformer之间有独特性与互补性，为了充分利用二者之间的优势，提出层级交互融合的网络。

3.2)在编码器阶段，为了获取丰富的全局上下文特征和局部特征，使用Transformer与CNN并行结构作为编码器，首先将图像尺寸裁剪成320*320大小，首先用编码器SwinTransformer分支与ResNet分支分别获取分辨率为[1/4,1/8,1/16,1/32]的特征图，通道数分别为[64,128,256,512]，SwinTransformer分支的块大小为4，通道数为3，深度为[2,2,6,2]，多头注意力数为[4,8,16,32]，窗口大小为10，其四个阶段的特征分别为[ft1,ft2,ft3,ft4]。

3.3)对应ResNet分支四个阶段[fr1,fr2,fr3,fr4]，然后通过所提出的融合模块FFM，结合Swin Transformer与ResNet不同层级与分辨率的特征，得到[F₁,F₂,F₃,F₄]通道数由512变为64，最后通过上采样与卷积操作恢复原始分辨率用于密集预测。

4.根据权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法，其特征在于：步骤3)具体方法是：

4.1)构建并行多级交互融合模块FFM，将局部与全局信息充分融合，生成高质量密集深度信息。

4.2)具体来说，获得Transformer中向量间的位置关系，得到特征，Transformer模型计算了空间中所有块间的相关性，ResNet建立了局部空间中的信息连接，Transformer建立了更好的上下文语义信息，ResNet则有更强的局部信息，为了更好的集成二者的优势，本发明设计了FFM模块来增强彼此特征的表达。具体过程表示如下：

F_t＝multi(x_t,Conv(up(Sigmoid(x_t)))) (1)

其中x_t表示Transformer分支特征信息，up表示上采样操作，Sigmoid表示激活函数，Conv表示3×3大小的卷积操作，multi表示像素级乘法，通过进一步对Transformer分支特征进行处理，得到F_t。

4.3)用类似的方处理ResNet分支特征信息，其中Softmax表示激活函数，GAP表示全局平均池化，进一步对空间特征进行压缩，将全局空间信息压缩到通道描述符的同时，也降低了网络参数，可以达到防止过拟合的作用，此时得到ResNet进一步处理的特征F_r。

F_r＝multi(x_res,GAP(Conv(Softmax(x_res))) (2)

F_mid＝BRC(Concat(F_t,up(F_r))) (3)

BRC表示预激活模块，典型的卷积块由Conv、BN与ReLu组成，在最后一步丢弃了整流线性单元激活的非线性性质的大部分负值，本发明采用预激活卷积块来缓解这个问题，得到中间融合特征F_mid。

F_i＝BRC(Concat(up(Conv(F_t)),F_mid,up(Conv(F_r)))) (4)

最终通过像素级相加操作，结合F_t、F_r与F_mid，再次通过预激活模块优化特征，得到输出F_i(其中i取值1,..4)，表示每一个阶段的融合的特征。通过有无融合模块的对比图可知，无融合模块只能捕捉像汽车、栏杆这样的大目标，生成的深度图边界较为模糊，而对于电线杆、路牌这样的小目标只能很少获取甚至无法获取。对于有融合的模块，不仅能捕捉到大物体的形状大小特征信息，还能对于像电线杆这样的小目标细节有着很好的把控。

5.根据权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法，其特征在于：步骤4)具体方法是：

为了计算预测输出深度与地面真实深度图之间的距离，本发明使用尺度不变损失Scale-Invariant loss(SI)来训练模型。

这里

其中地面真实深度为d_i，预测深度为

α＝10，λ＝0.85。

本发明的优势：本发明使用CNN与Transformer作为编码器，通过并行层级融合来完成单目深度预测任务，为了能够达到更好的效果，本发明引入了一个新的并行交互架构，此外，本发明设计一个高效的层级融合模块FFM，帮助完成对Transformer全局特征与CNN局部特征的有效融合。

附图说明

图1多级特征交互相融的单目深度预测方法流程图

图2与其他现有方法的对比图

图3模型整体架构图

图4 FFM层级融合模块细节图

图5与当前性能较好方法的定性比较图

具体实施方式

下面结合本发明中实例附图，对本发明实例中技术方案进行清楚、完整的描述，此外，所叙述的实施例仅仅是本发明一部分实施例，而不是所有的实施例。基于本发明中的实施例，本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，以及本发明所收集、分类、人工标注数据集都属于本发明保护范围。

本发明的流程框架如图1所示，一种基于多级特征并行交互融合的单目深度预测方法，具体操作如下：

1.收集公共RGB数据集，并对数据进行增强，使用网络的预训练权值，并初始化编码器。

1.1收集主流公共数据集有NYU Depth v2数据集和KITTI数据集，NYU Depth v2主要是针对室内场景，范围0-10m，KITTI数据集主要针对室外场景，多用于自动驾驶领域，范围在0-80m。

1.2采用CutDepth进行数据增强，在不增加额外计算成本的情况下加速模型训练性能，用地面真深度图替换部分输入图像，为输入图像提供多样性，使网络能够聚焦于高频区域，在CutDepth中，随机选择切割区域的坐标(l、u)和大小(w、h)。

1.3使用MiT-b4预训练权重初始化编码器，避免从零开始训练效果差且特征效果提取不明显的问题，建立耗时更短、更精确的模型。

2.采用ResNet获取多级局部特征，使用Swin Transformer获取全局上下文特征，模型整体结构如图2所示。

具体步骤如下：

2.1CNN与Transformer之间有独特性与互补性，为了充分利用二者之间的优势，与其他方法不同的是，本发明提出层级交互融合的网络，如图1所示。

2.2在编码器阶段，为了获取丰富的全局上下文特征和局部特征，使用Transformer与CNN并行结构作为编码器，首先将图像尺寸裁剪成320*320大小，首先用编码器Swin Transformer分支与ResNet分支分别获取分辨率为[1/4,1/8,1/16,1/32]的特征图，通道数分别为[64,128,256,512]，SwinTransformer分支的块大小为4，通道数为3，深度为[2,2,6,2]，多头注意力数为[4,8,16,32]，窗口大小为10，其四个阶段的特征分别为[ft1,ft2,ft3,ft4]。

2.3对应ResNet分支四个阶段[fr1,fr2,fr3,fr4]，然后通过所提出的融合模块FFM，结合Swin Transformer与ResNet不同层级与分辨率的特征，得到[]通道数由512变为64，最后通过上采样与卷积操作恢复原始分辨率用于密集预测，具体模型架构如图3所示。

3.构建并行多级交互融合模块FFM，将局部与全局信息充分融合，生成高质量密集深度信息，高效融合FFM模块如图4所示。

具体步骤如下：

3.1获得Transformer中向量间的位置关系，得到特征，Transformer模型计算了空间中所有块间的相关性，ResNet建立了局部空间中的信息连接，Transformer建立了更好的上下文语义信息，ResNet则有更强的局部信息，为了更好的集成二者的优势，本发明设计了FFM模块来增强彼此特征的表达。具体过程表示如下：

F_t＝multi(x_t,Conv(up(Sigmoid(x_t)))) (1)

3.2用类似的方处理ResNet分支特征信息，其中Softmax表示激活函数，GAP表示全局平均池化，进一步对空间特征进行压缩，将全局空间信息压缩到通道描述符的同时，也降低了网络参数，可以达到防止过拟合的作用，此时得到ResNet进一步处理的特征F_r。

F_r＝multi(x_res,GAP(Conv(Softmax(x_res))) (2)

F_mid＝BRC(Concat(F_t,up(F_r))) (3)

F_i＝BRC(Concat(up(Conv(F_t)),F_mid,up(Conv(F_r)))) (4)

4.使用损失函数优化网络，得到更准确的深度图。

具体步骤如下：

这里

其中地面真实深度为d_i，预测深度为

α＝10，λ＝0.85。

5.为了展示我们提出的一种基于多级特征并行交互融合的单目深度预测方法的高效性，如图5所示，我们展示了网络预测的深度图，前三列是当前较好方法显示的深度图，第四列是我们显示的深度图，第五列是真实的RGB图。

以上所述为本申请优选实施而以，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。