CN114565655A

CN114565655A - 一种基于金字塔分割注意力的深度估计方法及装置

Info

Publication number: CN114565655A
Application number: CN202210186323.9A
Authority: CN
Inventors: 李文举; 李梦颖; 苏攀
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-31
Anticipated expiration: 2042-02-28
Also published as: CN114565655B

Abstract

本发明公开了一种基于金字塔分割注意力的深度估计方法，包括如下步骤：获取图像进行预处理；基于预处理的图像数据通过深度估计网络进行深度估计运算；输出预测深度图。其中，对所述图像数据进行深度估计包括：将预处理的图像数据输入金字塔分割注意力模块；将预处理的图像数据进行下采样并自底向上依次输入到多层边界融合模块，将浅层的信息依次传入到深层，提取出边缘信息；基于编码器的输出数据通过深度相关模块进行运算，并通过解码器输出；将解码器的输出结果与金字塔分割注意力模块和多层边界融合模块的输出进行融合，输出预测深度图。能够丰富特征空间，且考虑了全局区域的信息能够得到上下文之间的相关性，提高深度估计的准确性。

Description

一种基于金字塔分割注意力的深度估计方法及装置

技术领域

本发明属于计算机视觉、图像处理领域技术领域，尤其涉及一种基于金字塔分割注意力的深度估计方法及装置。

背景技术

SLAM技术(simultaneous localization and mapping，即时定位与地图构建)是移动机器人的关键技术。SLAM技术目前是计算机视觉领域的热门研究方向，主要应用于无人机、自动驾驶、机器人、三维重建等领域。单目SLAM系统因为成像在深度距离的测算上没有确定性，需要运动起来才能有前后帧的估算深度，这使得其定位的精度较低。同时，深度学习的方式不断应用于各行各业，如：人脸识别、只能驾驶、自然语言处理等领域，利用深度学习对内在数据相关性的强大学习能力的特点，常常可以发挥较好的效果，同样通过深度学习的建模优势可以对单目图像进行较为准确的深度估计。

近年来，随着CNN(Convolutional Neural Networks，卷积神经网络)在图像领域的成功应用，研究人员开始大量地尝试应用CNN来处理单目图像的深度估计问题，但是还有两大问题待解决：(1)、容易错误的深度特征编码深度最深的区域，扭曲了预测深度的3D结构，各物体之间相对深度的准确性低；(2)、低级特征使用不足，使得估计深度变化明显的边缘的深度更难，网络得到的深度图物体的边缘细节的准确性低。

发明内容

为解决上述问题，本发明的目的是提供一种基于金字塔分割注意力的深度估计方法及装置，该方法既考虑了通道注意力又考虑了空间注意力，能够捕获不同尺度的空间信息来丰富特征空间，并且考虑了全局区域的信息，建立远距离的依赖，从而提取多尺度区域的相关性。将金字塔分割注意力模块与边界引导和场景聚合网络进行融合，能够有效提高单目图像深度估计的准确性。

为实现上述目的，本发明的技术方案为：一种基于金字塔分割注意力的深度估计方法，包括以下步骤：

S1：获取图像进行预处理；

S2：基于预处理的图像数据通过深度估计网络进行深度估计运算；

S3：输出预测深度图。

其中，对所述图像数据进行深度估计运算的方法包括：

S21：将预处理的图像数据输入金字塔分割注意力模块；

S22：将预处理的图像数据进行下采样，在下采样过程中自底向上依次输入到多层边界融合模块，将浅层的信息依次传入到深层，提取出丰富的边缘信息；

S23：基于编码器的输出数据通过深度相关模块进行运算，并通过解码器输出；

S24：将解码器的输出结果与所述金字塔分割注意力模块和多层边界融合模块的输出进行融合，输出预测深度图。

以边界引导和场景聚合网络(Boundary-induced and Scene-aggregatednetwork,BS-Net)为基础，融合金字塔分割注意力模块形成基于金字塔分割注意力的边界引导和场景聚合网络(Pyramid-Boundary-induced and Scene-aggregated network,PS-Net)。能够捕获不同尺度的空间信息来丰富特征空间，并且考虑了全局区域的信息能够得到上下文之间的相关性，从而建立远距离的依赖，提高了深度估计的准确性。

进一步的，所述金字塔分割注意力模块对预处理的图像数据进行处理的方法包括：

通过拆分和融合模块获取富含多尺度信息的特征图；

将富含多尺度信息的特征图及解码器的输出结果、多层边界融合模块的输出进行融合。

进一步的，获取富含多尺度信息的特征图的方法包括：

获得通道上的多尺度特征图，输入特征图X按照通道维度被分成S组，每组按照群卷积的方法进行卷积；

将拆分和融合模块的输出通过权重模块获得不同尺度特征图的通道注意力值；

使用softmax算法重新校准通道注意向量来获得重新校准的多尺度通道权重；

将像素级特征图与其对应重新校准的权重相乘以获取每个通道新的特征图，将每个通道的特征图进行拼接获取富含多尺度信息的特征图。

进一步的，权重模块获得不同尺度特征图的通道注意力值的方法包括：

通过自适应全局平均池化编码全局信息；

自适应重新校准通道关系。

基于相同的构思，本发明还提供一种实现上述基于金字塔分割注意力的深度估计方法的装置，包括：

编码器，用于获取图像并进行预处理；

深度相关模块，基于编码器的输出数据通过深度相关模块进行运算，并通过解码器输出；

解码器，用于将经过编码器和深度相关模块处理的图像数据进行解码；

金字塔分割注意力模块，用于对经过预处理的图像数据进行处理；

多层边界融合模块，用于将预处理的图像数据在下采样过程中自底向上依次输入的图像数据，将浅层的信息依次传入到深层，提取出丰富的边缘信息；

条纹细化模块，用于将解码器的输出结果与所述金字塔分割注意力模块和多层边界融合模块的输出进行融合以输出预测深度图。

进一步的，所述金字塔分割注意力模块包括：

拆分和融合模块，用于获得通道上的多尺度特征图，输入特征图X按照通道维度被分成S组，每组按照群卷积的方法进行卷积。

进一步的，所述金字塔分割注意力模块还包括：

权重模块，用于获得不同尺度特征图的通道注意力值。

基于相同的构思，本发明还提供一种电子设备，其特征在于，包括：

存储器，所述存储器用于存储处理程序；

处理器，所述处理器执行所述处理程序时实现上述所述的基于金字塔分割注意力的深度估计方法。

基于相同的构思，本发明还提供一种可读存储介质，其特征在于，所述可读存储介质上存储有处理程序，所述处理程序被处理器执行时实现上述基于金字塔分割注意力的深度估计方法。

本发明由于采用以上技术方案，使其与现有技术相比具有以下的优点和积极效果：

以边界引导和场景聚合网络(Boundary-induced and Scene-aggregatednetwork,BS-Net)为基础，融合金字塔分割注意力模块形成基于金字塔分割注意力的边界引导和场景聚合网络(Pyramid-Boundary-induced and Scene-aggregated network,PS-Net)。BS-Net以传统的编码器-解码器和多层边界融合模块(Bottom-Up Boundary Fusion,BUBF)为基础，添加了深度相关模块(Depth Correlation Encoder,DCE)和条纹细化模块(Stripe Refinement,SR)，本发明在此基础上融合金字塔分割注意力模块(Pyramid SplitAttention,PSA)，能够捕获不同尺度的空间信息来丰富特征空间，并且考虑了全局区域的信息能够得到上下文之间的相关性，从而建立远距离的依赖，提高了深度估计的准确性。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明，其中：

图1为本发明的一种基于金字塔分割注意力的深度估计方法流程图；

图2为本发明的一种基于金字塔分割注意力的深度估计方法的装置结构示意图；

图3为金字塔分割注意力模块示意图；

图4为拆分和融合模块示意图；

图5为权重模块图示意图；

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比率，仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

本发明的显著特点在于，使用非易失性存储器的唯一特征值作为程序运行过程判断的必要过程，可以有效防止程序被盗用。

第一实施例

如图1所示，本实施例提供一种基于金字塔分割注意力的深度估计方法，其特征在于，包括以下步骤：

S1：获取图像进行预处理；

S3：输出预测深度图。

其中，对所述图像数据进行深度估计运算的方法包括：

S21：将预处理的图像数据输入金字塔分割注意力模块；

以边界引导和场景聚合网络为基础，融合金字塔分割注意力模块形成基于金字塔分割注意力的边界引导和场景聚合网络。BS-Net以传统的编码器-解码器和多层边界融合模块为基础，添加了深度相关模块和条纹细化模块，本发明在此基础上融合金字塔分割注意力模块，能够捕获不同尺度的空间信息来丰富特征空间，并且考虑了全局区域的信息能够得到上下文之间的相关性，从而建立远距离的依赖，提高了深度估计的准确性。

优选的，BS-Net网络采用ResNet50作为编码器，在下采样过程中自底向上依次输入到多层边界融合模块，多层边界融合模块将浅层的信息依次传入到深层，提取出丰富的边缘信息，多层边界融合模块的输出送入到条纹细化模块中；金字塔分割注意力模块的输入为对数据进行预处理之后的第一层网络，输出与多层边界融合模块的输出一同送入到条纹细化模块；条纹细化模块将解码器的输出结果与以上两个模块的输出进行融合，输出我们最终需要的深度图。

第一实施例

本发明的技术方案经过如下验证网络模型评估，获得较好的效果：

输入含有对齐的RGB和深度图的数据集，选取其中50K对RGB-深度图进行训练，654对进行测试。

对数据集进行增强处理。使用双线性插值对640*480的原始图片进行下采样到320*240，然后从中间进行裁剪为304*228。为了对齐网络输出，裁剪后的标签被下采样到152*114。

输入数据到设计好的网络模型进行训练，训练的过程中我们设置20个epoch，batch size等于8，选取Adam优化器，参数设置为(0.9，0.999)，权重衰减10^-4，初始学习率为0.0001并且每5个epoch减少10％。

对输入图片进行预处理，通过网络对图像进行特征学习，得到对应的深度图；然后将得到的深度图与数据集中真实的深度图进行比较，计算误差；最后通过三种指标对该方法进行全面的评价，分别评价深度精度，预测深度中的边界精度，最远距离的归一化误差，通过评价指标判断模型的好坏。

评估深度精度采用：

(1)平均绝对误差REL：

(2)平均对数误差log10：

(3)均方根误差RMS：

(4)阈值t_d下的准确性：

使用准确率、召回率和F1值来衡量预测深度的边界精度，公式如下准确率

召回率

最远区域的归一化距离误差：

其中N_test表示测试图像的数量，

用来对误差距离进行归一化。

优选的，本发明通过在NYUD v2和iBims-1数据集上进行实验，得到了较好的实验效果。

本发明是在边界引导和场景聚合网络的基础上融合金字塔分割注意力模块对深度信息进行更为准确的预测。

进一步的，如图3所示，所述金字塔分割注意力模块对预处理的图像数据进行处理的方法包括：

通过拆分和融合模块获取富含多尺度信息的特征图；

进一步的，如图4所示，获取富含多尺度信息的特征图的方法包括：

获得通道上的多尺度特征图，输入特征图X按照通道维度被分成S＝4组，

每组按照群卷积的方法进行卷积，群组的大小按照如下公式计算：

多尺度特征图的生成函数为：

F_i＝Conv(k_i×k_i,G_i)(X_i) i＝0,1,2...S-1；

进一步的，如图5所示，权重模块获得不同尺度特征图的通道注意力值的方法包括：

通过自适应全局平均池化编码全局信息，编码全局信息通过自适应全局

平均池化来实现，公式如下：

第c通道的注意力权值可以通过如下公式计算：

w_c＝σ(W₁δ(W₀(g_c)))

δ表示ReLU激活函数的操作，

和

代表全连接层，σ通常表示sigmoid激活函数；

自适应重新校准通道关系。

第二实施例

如图2所示，本实施例提供一种实现上述基于金字塔分割注意力的深度估计方法的装置，其特征在于，包括：

编码器，用于获取图像并进行预处理；

金字塔分割注意力模块，用于对经过所述编码器预处理的图像数据进行处理；

本发明能够捕获不同尺度的空间信息来丰富特征空间，并且考虑了全局区域的信息能够得到上下文之间的相关性，从而建立远距离的依赖，提高了深度估计的准确性。

进一步的，所述金字塔分割注意力模块可以包括：

进一步的，所述金字塔分割注意力模块还包括：

权重模块，用于获得不同尺度特征图的通道注意力值。

第三实施例

一种电子设备，包括：

存储器，存储器用于存储处理程序；

处理器，处理器执行处理程序时实现上述基于金字塔分割注意力的深度估计方法。

第四实施例

一种可读存储介质，可读存储介质上存储有处理程序，处理程序被处理器执行上述实现上述的基于金字塔分割注意力的深度估计方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

下面对本发明的工作过程作详细说明：

编码器在下采样过程中自底向上依次输入到多层边界融合模块，多层边界融合模块将浅层的信息依次传入到深层，提取出丰富的边缘信息，多层边界融合模块的输出送入到条纹细化模块中；金字塔分割注意力模块的输入为对数据进行预处理之后的第一层网络，输出与多层边界融合模块一同送入到条纹细化模块；条纹细化模块将解码器的输出结果与以上两个模块的输出进行融合，输出最终需要的深度图。本发明能够捕获不同尺度的空间信息来丰富特征空间，并且考虑了全局区域的信息能够得到上下文之间的相关性，从而建立远距离的依赖，提高了深度估计的准确性。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式。即使对本发明作出各种变化，倘若这些变化属于本发明权利要求及其等同技术的范围之内，则仍落入在本发明的保护范围之中。

Claims

1.一种基于金字塔分割注意力的深度估计方法，其特征在于，包括以下步骤：

获取图像进行预处理；

基于预处理的图像数据通过深度估计网络进行深度估计运算；

输出预测深度图。

2.根据权利要求1所述的基于金字塔分割注意力的深度估计方法，其特征在于，对所述图像数据进行深度估计运算的方法包括：

将预处理的图像数据输入金字塔分割注意力模块；

将预处理的图像数据进行下采样，在下采样过程中自底向上依次输入到多层边界融合模块，将浅层的信息依次传入到深层，提取出丰富的边缘信息；

基于编码器的输出数据通过深度相关模块进行运算，并通过解码器输出；

将解码器的输出结果与所述金字塔分割注意力模块和多层边界融合模块的输出进行融合。

3.根据权利要求2所述的基于金字塔分割注意力的深度估计方法，其特征在于，所述金字塔分割注意力模块对预处理的图像数据进行处理的方法包括：

通过拆分和融合模块获取富含多尺度信息的特征图；

4.根据权利要求3所述的基于金字塔分割注意力的深度估计方法，其特征在于，获取富含多尺度信息的特征图的方法包括：

5.根据权利要求4所述的基于金字塔分割注意力的深度估计方法，其特征在于，权重模块获得不同尺度特征图的通道注意力值的方法包括：

通过自适应全局平均池化编码全局信息；

自适应重新校准通道关系。

6.一种实现上述权利要求1至5中任意一项基于金字塔分割注意力的深度估计方法的装置，其特征在于，包括：

编码器，用于对经过预处理的图像数据进行下采样；

7.根据权利要求6所述的基于金字塔分割注意力的深度估计方法的装置，其特征在于，所述金字塔分割注意力模块包括：

8.根据权利要求6所述的基于金字塔分割注意力的深度估计方法的装置，其特征在于，所述金字塔分割注意力模块还包括：

权重模块，用于获得不同尺度特征图的通道注意力值。

9.一种电子设备，其特征在于，包括：

存储器，所述存储器用于存储处理程序；

处理器，所述处理器执行所述处理程序时实现如权利要求1至5中任意一项所述的基于金字塔分割注意力的深度估计方法。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有处理程序，所述处理程序被处理器执行时实现如权利要求1至5中任意一项所述的基于金字塔分割注意力的深度估计方法。