CN115272437A

CN115272437A - 一种基于全局与局部特征的图像深度估计方法及装置

Info

Publication number: CN115272437A
Application number: CN202210959545.XA
Authority: CN
Inventors: 胡高杰; 刘光灿
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-01

Abstract

本发明公开了一种基于全局与局部特征的图像深度估计方法及装置，包括：1）数据预处理；2）提取输入图像中的全局特征与局部特征；3）融合全局特征与局部特征；4）解码预测。本发明方法引入了一种新的仅用于深度估计任务的数据增强方法，能够使得模型在编码阶段既可以提取彩色图像的全局特征，也可以提取局部特征，以及在解码阶段利用我们设计的融合模块结合不同特征的同时预估稠密的、高质量的深度图，并且在额外的数据集上表现出了更强的泛化性能。

Description

一种基于全局与局部特征的图像深度估计方法及装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于全局与局部特征的图像深度估计方法及装置。

背景技术：

单目深度估计任务旨在：将一张RGB图像映射成稠密的深度图。这是计算机视觉中的一个经典任务，对于许多的实际应用来说是至关重要的，例如：自动驾驶领域、机器人跟踪与定位、3D视觉场景重建等。但一直以来，该项任务存在一个病态问题，即单幅彩色图像中的目标可能来自于多个不同3D场景。因此，如何在以获取到的有限数据下使得模型学习的更好是众多该项任务学者的研究对象。

依据单幅彩色图像预测深度图的方法目前大致分为以下三种：第一种是基于机器学习的传统方法，具体指构建概率模型马尔科夫随机场(MRF)与或条件随机场(CRF)描述一个像素或区域的深度与其相邻像素或区域深度间的关系，从而为每一个像素匹配到最符合实际场景的深度值。此种方法存在以下缺点：除了模型在搭建与理解上过于复杂且不易复现外，由于该模型的随机性导致无法准确地寻找到可能来不同场景中的深度，影响最终的预测效果。第二种方法是基于有监督的深度学习，此种方法又分为以下几种：1)仅利用卷积提取图像中的编码信息预估深度，此种方法不足的是没有利用图像中的全局信息；2)仅利用自注意力机制提取图像中的编码信息预估深度，此种方法不足的是缺少局部信息；3)将卷积与自注意力机制分别用于搭建模型的编码与解码阶段，此种方法不足的是将两种信息分开对待，没有充分地结合两者的特点。第三种方法是基于无监督的深度学习方法，一般都是利用视差原理计算目标深度，但这种方法不足的地方在于：需要预先获取左图、右图以及相机参数，无法应用到不同设备下的场景中，十分不便于实际的工程中。

发明内容

目的：为了解决现有方法没有充分利用全局信息与局部信息的不足，本发明提供一种基于全局与局部特征的图像深度估计方法及装置。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

第一方面，提供一种基于全局与局部特征的图像深度估计方法，包括：

获取待估计的彩色图像；

对所述彩色图像进行数据预处理，得到输入图像InputRGB；

提取输入图像InputRGB中的全局特征与局部特征：利用SwinTransformer-T模块提取输入图像InputRGB的全局特征，利用ConvNeXt-S模块提取输入图像InputRGB的局部特征；

将提取得到的全局特征与局部特征进行融合，得到融合特征向量；

将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre，对绝对深度图Depth_pre采用镜像预测得到预测深度图Depth_final，作为图像深度估计结果。

在一些实施例中，所述数据预处理包括：利用CutDepth-Mask数据增强方法作数据预处理；还包括：随机水平翻转、随机裁剪、随机明亮度对比、随机gama正则分布、随机饱和度。

在一些实施例中，利用SwinTransformer-T模块提取输入图像InputRGB的全局特征，包括：

将输入图像InputRGB作为SwinTransformer-T模块的输入，利用一个卷积层将四维输入变量B x 3 x H x W展平成一个三维变量B x P x C，卷积核个数：C x 3，大小：7，步长：4，填充：2，过程按如下公式所示：

式中，

输入图像I经过第i个卷积层生成的特征向量；

第i个卷积核的权重参数；

第i个卷积核的偏置参数；*：卷积运算；i的最大值为C；

将三维变量I_emb送入到由4个自注意力层以及3个下采样层组成的全局特征提取模块进行编码，自注意力层由多个线性层和不同的激活函数组成，下采样层则由一个大小为3，步长为2的卷积层组成；自注意力层的过程按如下公式所示：

Q＝(I_emb·W_q+b_q)

K＝(I_emb·W_k+b_k)

V＝(I_emb·W_v+b_v)

式中Q、K、V为3个线性函数；W_q、W_k、W_v分别表示q、k、v三个线性层的权重参数；b_q、b_k、b_v分别表示q、k、v三个线性层的偏置参数；softmax表示logistic回归函数，公式如下所示：

d：特征向量K的维度；G_i：第i个自注意力层输出的全局特征向量；

第i个自注意力层第1个线性层的权重参数；

第i个自注意力层第1个线性层的偏置参数；

第i个自注意力层第2个线性层的权重参数；

第i个自注意力层第2个线性层的偏置参数；·表示矩阵乘法，T表示转置矩阵；

SwinTransformer-T模块输出4个不同分尺度的全局特征向量G₁、G₂、G₃、G₄，分别为输入图像InputRGB尺寸的

在一些实施例中，利用ConvNeXt-S模块提取输入图像InputRGB的局部特征，包括：

将输入图像InputRGB作为ConvNeXt-S模块的输入，通过四层卷积块与四个下采样层组成的模块对InputRGB进行编码，其中每一个卷积块均由1个7x7大小的卷积核与2个1x1大小的卷积核串联构成，分别输出4个不同尺度的局部特征向量L₁、L₂、L₃、L₄，分别为输入图像InputRGB尺寸的

在一些实施例中，将提取得到的全局特征与局部特征进行融合，包括：

将局部特征L₁、L₂、L₃、L₄与全局特征G₁、G₂、G₃、G₄输入融合模块进行融合，获得融合特征向量M₁、M₂、M₃、M₄：

式中：concat：拼接；dim：拼接的维度；Maxpool：最大池化，大小为3，步长为1，填充为1；Avgpool：均值池化，大小为3，步长为1，填充为1；Conv：卷积，大小为3，步长为1，填充为1；i：第i个特征向量，

为中间参数。

在一些实施例中，将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre，包括：

对融合特征向量M₁、M₂、M₃、M₄进行合并，得到合并后的融合特征向量Y₁、Y₂、Y₃：使用两个连续的卷积连接邻近的融合特征M_i、M_i+1：

Y₁＝Conv(Conv(concat(bilinear(M₁),M₂,dim＝1)))

Y₂＝Conv(Conv(concat(bilinear(Y₁),M₃,dim＝1)))

Y₃＝Conv(Conv(concat(bilinear(Y₂),M₄,dim＝1)))

式中，bilinear：双线性插值，缩放比例2；dim：拼接的维度；concat：拼接；Conv：卷积，Y_i：每一次缩放合并后的特征图；

将Y₃缩放为输入图像InputRGB一半的分辨率，缩放函数：Bilinear；利用卷积网络增强网络的拟合能力，最后再利用Sigmoid归一化，得到归一化后的Depth_pre_norm；过程如下公式所示：

Depth_pre_norm＝Sigmoid(Conv(bilinear(Y₃)))

将归一化后的Depth_pre_norm与预设的最大深度值max_depth相乘后采取双线性插值算法恢复到输入图像InputRGB尺寸，得到绝对深度图Depth_pre。

所述绝对深度图Depth_pre包括绝对深度图的左图Depth_pre_L和右图Depth_pre_R；输入图像InputRGB经过整个网络模型后输出绝对深度图的左图Depth_pre_L和右图Depth_pre_R，用一个总的模型公式可以表示为：

Depth_pre_L＝Net(InputRGB)

Depth_pre_R＝Net(ship(InputRGB))

式中，Net：整个网络模型；ship：水平翻转。

在一些实施例中，对绝对深度图Depth_pre采用镜像预测得到预测深度图Depth_final，包括：所述绝对深度图Depth_pre包括绝对深度图的左图Depth_pre_L和右图Depth_pre_R；

式中，ship：水平翻转。

在本实施例中，对彩色图像中全局特征与局部特征的提取，该过程可按如下公式所示：

L＝ConNeXt(InputRGB)

G＝Swin(InputRGB)

其中，ConNeXt：局部编码器；Swin：全局编码器；

此外，为了可以很好的体现我们模型的优异性能，我们还设计了一种新的指标函数：Dh_rel(Double hook function)。双钩函数公式如下所示：

式中，p_i：预测深度图Depth_pre的有效深度；g_i：真实深度图Depth_gt的有效深度。

第二方面，本发明提供了一种基于全局与局部特征的图像深度估计装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

本发明的优点在于：本发明提供的方法，使得模型在编码阶段不仅可以提取图像的局部信息，也能够获取到全局信息，输入仅为单幅彩色图像，解码阶段充分结合了提取的两种信息，从而更加准确地估计深度。

附图说明

图1为本发明实施例中方法的流程图。

图2为本发明实施例中数据增强方法的示意图。

图3为本发明实施例中编码阶段的结构图。

图4为本发明实施例中融合模块的结构图。

图5为本发明实施例方法在室外数据集KITTI上的可视化效果图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式进一步阐述本发明。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1

一种基于全局与局部特征的图像深度估计方法，包括：

获取待估计的彩色图像；

对所述彩色图像进行数据预处理，得到输入图像InputRGB；

在一些实施例中，所述数据预处理包括：利用CutDepth-Mask数据增强方法作数据预处理；

还包括：随机水平翻转、随机裁剪、随机明亮度对比、随机gama正则分布、随机饱和度。

进一步地，数据预处理：对给定的彩色图像RGB与真实深度图Depth_gt应用一些预处理方法，将预处理后的图像作为模型的输入用于后续的深度图预测是深度学习中常用的技术。常用的预处理方法有如下几个：随机水平翻转、随机裁剪、随机明亮度对比、随机gama正则分布、随机饱和度，我们加入了带有mask的CutDepth。对于CutDepth数据增强方法，原CutDepth方法指：将彩色图像中随机裁剪的区域使用同样区域的深度进行替换，将预处理后的InputRGB作为模型的输入。但由于获取到的真实深度标签不完整，即标签深度图中存在大量缺失的深度值。缺失值为0，然而我们知道在深度学习中0对于网络的学习没有任何的贡献，因而我们认为原CutDepth方法在实际的操作中是存在问题的。带有mask的CutDepth指：为了消除缺失值，我们对原有的CutDepth方法添加了mask，即保留原区域中深度值存在缺失的像素，相比于原CutDepth方法不仅可以降低计算复杂度，还可以提高模型输入的丰富性。

式中，

输入图像I经过第i个卷积层生成的特征向量；

第i个卷积核的权重参数；

第i个卷积核的偏置参数；*：卷积运算；i的最大值为C；

Q＝(I_emb·W_q+b_q)

K＝(I_emb·W_k+b_k)

V＝(I_emb·W_v+b_v)

第i个自注意力层第1个线性层的权重参数；

第i个自注意力层第1个线性层的偏置参数；

第i个自注意力层第2个线性层的权重参数；

为中间参数。

Y₁＝Conv(Conv(concat(bilinear(M₁),M₂,dim＝1)))

Y₂＝Conv(Conv(concat(bilinear(Y₁),M₃,dim＝1)))

Y₃＝Conv(Conv(concat(bilinear(Y₂),M₄,dim＝1)))

Depth_pre_norm＝Sigmoid(Conv(bilinear(Y₃)))

Depth_pre_L＝Net(InputRGB)

Depth_pre_R＝Net(ship(InputRGB))

式中，Net：整个网络模型；ship：水平翻转。

式中，ship：水平翻转。

在一些实施例中，对彩色图像中全局特征与局部特征的提取，该过程可按如下公式所示：

L＝ConNeXt(InputRGB)

G＝Swin(InputRGB)

其中，ConNeXt：局部编码器；Swin：全局编码器。

在一些实施例中，如图1所示，本实施例的基于全局与局部特征的图像深度估计方法，包括如下具体步骤：

1)首先对一张彩色图像利用CutDepth-Mask数据增强方法作数据预处理，得到新的输入图像InputRGB。

2)将InputRGB送入到模型的编码阶段提取全局特征G₁、G₂、G₃、G₄与局部特征L₁、L₂、L₃、L₄，该过程具体如下：

2.1)先将IuputRGB作为全局特征编码器SwinTransformer-T的输入，SwinTransformer-T总共分为4层，每一层均由滑动窗口自注意力机制组成，分别输出多尺度的特征图，其模块名称及输出特征图尺寸分别为g1：88x176、g2：44x88、g3：22x44、g4：11x22。

2.2)依旧将IuputRGB作为局部特征编码器ConvNeXt-S的输入，ConvNeXt-S总共也有四层，每一层均由卷积函数组成，同样分别输出多尺度的特征图，其模块名称及输出尺寸分别为l1：88x176、l2：44x88、l3：22x44、l4：11x22。与全局特征编码器分支并行，二者在编码阶段互不干扰。

3)将2)得到的全局特征G₁、G₂、G₃、G₄与局部特征L₁、L₂、L₃、L₄送入到融合模块，获得融合特征向量M₁、M₂、M₃、M₄。

式中：concat：拼接；dim：拼接的维度；Maxpool：最大池化，大小为3，步长为1，填充为1；Avgpool：均值池化，大小为3，步长为1，填充为1；Conv：卷积，大小为3，步长为1，填充为1；i：第i个特征向量。

特征M₁、M₂、M₃、M₄的尺寸分别为88x176、44x88、22x44、11x22。

4)随后再将3)得到的融合特征向量M₁、M₂、M₃、M₄利用卷积与双线性插值方法合并，最终输出352x704大小的深度图。具体步骤如下：

4.1)先将融合特征进行合并，得到Y₁、Y₂、Y₃，大小分别为22x44，44x88，88x176。

4.2)将Y₃上采样到IuputRGB一半的分辨率176x352，缩放函数Bilinear。紧接着利用卷积网络增强网络的拟合能力，最后使用Sigmoid归一化。

4.3)为了得到绝对深度图Depth_pre，需要按照我们预先设置的所要预测的最大深度值max_depth，选择将步骤4.2)得到的归一化后的Depth_pre_norm与max_depth相乘。为了不增加多余的算力，我们将一半分率176x352的绝对深度图使用双线性插值恢复到原输入IuputRGB的大小。

4.4)对Depth_pre我们采用镜像预测，得到最终的Depth_final。

应用实施例一：

本应用实例采用实施例一中的基于全局与局部特征的图像深度估计方法，在单目深度估计任务中常用的室外数据集KITTI与室内数据集NYU_v2验证其有效性，此外，还将NYU_v2的训练模型放到SUNRGBD上验证其泛化性能。实验结果如表1，表2，表3所示，KITTI上的可视化结果如图5所示。

如下表1所示，综合评价指标δ_i、Abs_rel的含义可知，本方法在KITTI上效果显著，尤其是阈值指标δ₁、δ₂、δ₃比起现有的技术分别从0.702、0.898、0.967提升到了0.968、0.996、0.999，相对绝对值误差Abs_rel从0.203降到了0.055。相比于拥有同等计算量的Adabins方法，本发明在Dh_rel上提升了11％的性能，充分验证了本发明的方法能够从彩色图像中提取到更加丰富的全局信息与局部信息，有助于生成更加精确的深度图。

表1本发明在KITTI数据集上的结果表

如下表2所示，结合评价指标δ_i、Abs_rel的含义可知，本方法不仅在明亮的KITTI上效果显著，而且在比较暗淡的NYU_v2上也有很大的性能提升。与最近的方法相比，δ₁、δ₂、δ₃比起现有的技术分别从0.769、0.950、0.988提升到了0.912、0.987、0.997，Abs_rel从0.158降到了0.098。比起Adabins方法，本发明在Dh_rel上提升了14％的性能，充分验证了本发明方法的有效性。

表2本发明在NYU_v2数据集上的结果表

如下表3所示，结合评价指标δ_i、Abs_rel的含义可知，为了验证本方法的有效性且体现本方法的泛化性能，我们将在NYU_v2上的训练模型在SUNRGBD进行测试，测试集的图像数量为5050张。与最近的方法相比，δ₁、δ₂、δ₃比起现有的技术分别从0.757、0.943、0.984提升到了0.808、0.963、0.990，Abs_rel从0.166降到了0.146。比起Adabins方法，本发明在Dh_rel上提升了4％的性能，充分验证了本发明方法的有效性。

实施例2

第二方面，本实施例提供了一种基于全局与局部特征的图像深度估计装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。