CN115035171A

CN115035171A - 基于自注意力导向特征融合的自监督单目深度估计方法

Info

Publication number: CN115035171A
Application number: CN202210606117.9A
Authority: CN
Inventors: 吴萌; 蒋培哲; 蔚婧; 文天贶; 江尚航; 张乐
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-09

Abstract

本发明公开一种基于注意力导向特征融合的自监督单目深度估计方法，本发明在编码器中加入通道自注意力模块用以捕获结构场景中更多的全局上下文信息，进而增强特征表示；在解码器中设计基于空间交叉注意力机制的特征融合模块，将增强的特征作为high‑level的特征来引导low‑level特征进一步校准解码器中的特征，以强调特定的语义信息，增强在非连续区域的特征表示能力；最后，解码器输出连接多层深度估计模块，以监督解码器中间层的结果，提高深度估计的精度，防止粗尺度上的估计误差累积并影响到细尺度上的估计，获得更加准确的深度图。

Description

基于自注意力导向特征融合的自监督单目深度估计方法

技术领域

本发明属于计算机视觉技术领域，涉及一种基于注意力导向特征融合的自监督单目深度估计方法。

背景技术

单目图像深度估计在自动驾驶、三维重建、增强现实等计算机视觉任务中有着广泛且重要的应用。随着深度卷积神经网络(Convolutional Neural Networks,CNN)的发展，基于CNN的单目图像深度估计方法已经可以从单张图像直接获取准确的目标深度信息，即实际3D物体投射到2D图像中每个像素点与相机的距离。相比于使用深度传感器，如结构光或激光雷达等主动探测深度的方法，单目深度估计则不需要昂贵的设备，因此在实际应用中要更加便捷。

在单目深度估计任务中，根据是否需要真实深度信息可以进一步划分为全监督单目深度估计和自/无监督单目深度估计。尽管全监督的方法的精度较高，但由于该方法需要大量且多样的真实深度标签，在训练数据的准备中往往成本较高。近年来，自监督深度估计，作为一种重要且极具挑战性的方法，凭借其利用没有标签的视频或双目数据直接端到端的训练深度网络的优势成为研究的热点，并且取得了大量的研究成果。Monodepth2的提出也为自监督单目深度估计提供了一套较为完整的框架，有效解决了遮挡以及违反相机运动假设的像素点的深度估计问题。但是，该方法仍然存在许多不足。一方面，Monodepth2中没有充分利用图像中的语义信息，只是简单地使用CNN来获取输入图像的语义特征并隐式地学习场景结构信息，这些不够鲁棒的场景结构表示会导致全局上下文信息感知不完整。另一方面，跳跃连接作为U-Net网络中的重要结构，目的是在解码过程中恢复下采样丢失的信息，然而使用拼接来融合层之间的特征缺乏对局部细节的进一步处理，忽视了不同level特征中语义信息和空间信息之间的差异，因此使用跳跃连接来融合low-level特征和high-level特征所带来的增益是非常有限的。

发明内容

本发明的目的是提供一种基于注意力导向特征融合的自监督单目深度估计方法，解决了现有技术中存在的全局上下文信息感知不完整以及不同level特征融合不充分的问题。

本发明所采用的技术方案是：

基于注意力导向特征融合的自监督单目深度估计方法，其包括以下步骤：

步骤1，使用连续的视频帧或者双目图像作为数据集，将图片调整至同一大小后作为训练集进行数据增广；

步骤2，构建基于注意力导向特征融合的自监督单目深度估计框架，包括改进的深度估计网络和位姿估计网络：

改进的深度估计网络包括依次连接的编码器和解码器，所述编码器使用ResNet18，编码器的输出端连接解码器，解码器为5层结构，每层包含卷积以及上采样模块，其中第2、3、4、5层依次连接有空间交叉注意力模块以及深度估计模块；所述编码器的输出还连接通道自注意力模块，通道自注意力模块的输出分别与每个空间交叉注意力模块的输入连接；

步骤3，设计损失函数，采用数据增广后的训练集和验证集对基于注意力导向特征融合的自监督单目深度估计框架进行训练；

步骤4，输入待估计图片，采用训练好改进的深度估计网络对待估计图片进行深度估计输出结果。

本发明的特点还在于：

所述步骤1中的数据增广方法包括依次进行的随机水平翻转、随机亮度、对比度、饱和度以及色调抖动。

所述通道自注意力模块中具体操作为，利用矩阵乘法计算输入特征E的特征相似性S，经过Softmax层得到注意力图A_c，最后将注意力图与原特征相乘，并与原特征中每个元素对应求和，可得到增强后的特征

所述空间交叉注意力特征融合模块对输入的增强特征

做如下操作：针对

使用临近点插值的方式对其进行上采样到40×128分辨率，并通过1×1卷积转化为query特征：Query＝Q(x)。针对X使用平均池化的方式也对其进行下采样到40×128分辨率，并使用1×1卷积得到key和value特征：Key＝K(x)和Value＝V(x)，按矩阵乘法得到空间交叉注意力图

最终获取融合特征F。

所述损失函数采用图像重投影损失和平滑度损失，公式分别为：

其中，L_ph表示重投影损失，I_t和I_s→t分别为t时刻的原始图像和重构图像，SSIM以3×3的像素窗口来计算图像的相似性，α和β为超参数；L_s表示平滑度损失，d_t ^*为t时刻平均归一化深度的倒数；

为了解决遮挡的区域并剔除与相对相机运动静止的目标，在损失函数中使用最小重投影损失与auto-mask进行改进：

其中μ为auto-mask，[]内条件满足记为1，不满足为0；

则总损失函数L为：

其中S＝4为层数，L_p为最小光度误差，μ为auto-mask，λ为平滑度损失的权值。

本发明的有益效果是：

本发明在编码器中加入通道自注意力模块用以捕获结构场景中更多的全局上下文信息，进而增强特征表示；在解码器中设计基于空间交叉注意力机制的特征融合模块，将增强的特征作为high-level的特征来引导low-level特征进一步校准解码器中的特征，以强调特定的语义信息，增强在非连续区域的特征表示能力；最后，解码器输出连接多层深度估计模块，以监督解码器中间层的结果，提高深度估计的精度，防止粗尺度上的估计误差累积并影响到细尺度上的估计，获得更加准确的深度图。

附图说明

图1是本发明的基于注意力导向特征融合的自监督单目深度估计算法的流程图；

图2是本发明的通道自注意力模块流程图；

图3是本发明的空间交叉注意力特征融合模块的流程图；

图4是实施例1中采用本发明与Monodepth2方法对某一图片进行深度估计的对比图；

图5是实施例1中采用本发明与Monodepth2方法对某一图片进行深度估计的对比图；

图6是实施例1中采用本发明与Monodepth2方法对某一图片进行深度估计的对比图；

图7是实施例1中采用本发明与Monodepth2方法对某一图片进行深度估计的对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于注意力导向特征融合的自监督单目深度估计方法，如图1，包括以下步骤：

步骤1，使用KITTI作为数据集，将图片调整至同一大小后划分为训练集验证集和测试集；分别对训练集和验证集的数据进行数据增广；

改进的深度估计网络包括依次连接的编码器和解码器，编码器使用ResNet18，编码器的输出端连接解码器，解码器为5层结构，每层包含卷积以及上采样模块，其中第2、3、4、5层依次连接有空间交叉注意力模块以及深度估计模块；编码器的输出还连接通道自注意力模块，通道自注意力模块的输出分别与每个空间交叉注意力模块的输入连接；

其中步骤1中的数据增广方法如下：

步骤1.1：图像水平翻转；概率为0.5；

步骤1.2：图像对比度偏移，偏移系数范围为0.8～1.2；概率为0.5；

步骤1.3：图像亮度偏移，偏移系数范围为0.8～1.2；概率为0.5；

步骤1.4：图像饱和度偏移，偏移系数为0.8～1.2；概率为0.5。

步骤1.5：图像色调抖动，抖动系数为-0.1～0.1；概率为0.5。

其中步骤2中通道自注意力模块如图2，对输入的原始特征做如下操作：

输入的原始特征为

其中C为通道数，H和W分表表示特征图的高和宽。为了计算任意两个通道的相关性，先将其调整为

其中N＝H×W表示像素的数量。之后利用矩阵乘法计算E与E^T的相似性：

进一步通过Softmax层获得注意力图

并与E相乘再调整回

最后按如下公式计算得到增强特征

在深度估计中，编码器输出的high-level特征图中每个值可以看作是一个特定区域的响应，通道自注意力模块的作用就是使每个通道图从所有其他通道图中捕获更多不同区域的响应，将从远处区域获得更多的相对深度信息，并显著增强对场景结构上下文信息的感知能力。

如图3，空间交叉注意力特征融合模块对输入的解码特征和增强特征

做如下操作：

针对

使用临近点插值的方式对其进行上采样到40×128分辨率，并通过1×1卷积转化为query特征：Query＝Q(x)。针对X使用平均池化的方式也对其进行下采样到40×128分辨率，并使用1×1卷积得到key和value特征：Key＝K(x)和Value＝V(x)。按矩阵乘法得到空间交叉注意力图

最终获取融合特征F，公式如下：

预测更锐利的边缘核心在于更好地处理局部细节，上述融合模块的优势在于引导网络清楚地认识所描述对象边界特征的类别和位置信息，这种融合high-level和low-level特征以对深度特征重新校准的操作可以自适应地在多尺度强调目标边缘地关键细节信息。

步骤2中的深度估计模块为依次连接的一个3×3卷积层和一个Sigmoid函数。

步骤2中的位姿估计网络的结构为：ResNet18作为编码器，并与位姿解码器连接。

步骤3中基于注意力导向特征融合的自监督单目深度估计框架采用图像重投影损失：假设一张t时刻的RGB图像为I_t，对应的深度图为D_t，利用已知相机内参K对I_t反投影到3D空间内，再根据估计的相机位姿T_t→s与s时刻的图像I_s对3D空间的点进行重投影，可以得到重建的t时刻图像I_s→t，并比较I_s→t和I_t的相似性来计算损失函数。图像重投影损失包括结构相似性误差(Structural Similarity Index Measure,SSIM)和L1误差：

I_s→t＝I_s<KT_t→sD_tK^-1p_t>

其中L_ph表示重投影损失，p_t表示I_t中的像素坐标，重建过程表示为<>，主要为双线性插值，SSIM以3×3的像素窗口来计算图像的相似性，α和β为超参数。

平滑度损失：为了获得密集的深度结果，需要使深度在局部上保持平滑，使用如下公式来惩罚边缘梯度过大的区域：

其中

表示平均归一化深度的倒数，为了防止估计的深度皱缩；

除此之外，为了处理遮挡像素以及违反相机运动假设的像素，分别在损失函数中使用最小重投影损失与auto-mask进行改进：

其中L_p为最小光度误差，μ为auto-mask，[]内条件满足记为1，不满足为0。

总损失函数的计算为：

其中S＝4为层数，λ为平滑度损失的权值。

深度估计网络和位姿估计网络均采用Adam优化器进行训练，训练过程中，深度估计网络输入单张RGB图像输出对应的深度图，使用ResNet18为网络骨架利用卷积池化层进行逐级下采样，解码器部分利用卷积并逐级上采样，原始输入图像中的空间信息与图像中的边缘信息会逐渐恢复，并且使用跳跃连接结构，即解码器每层特征与对应编码器中的特征使用拼接的方式在通道上融合，提供多尺度层次信息，以达到更精细的效果。位姿估计网络是基于ResNet18设计，可以输入两张RGB图像估计6自由度相对位姿旋转和平移参数。

实施例1

本实施例使用KITTI作为主要数据，作为计算机视觉领域中的基本数据集，广泛应用于深度估计任务中。其包含由RGB相机捕获的200个街景视频，并带有对应的真实深度标签。本发明将去除静态帧作为预处理步骤，并且把数据划分3份：39810张图像作为训练集，4424张图像作为验证集以及697张图像为测试集。

本发明分别在视频序列(M)以及双目图像对(S)作为训练数据，按照Monodepth2中的方法进行归一化和数据增广，输入的图像被调整到320×1024分辨率。本发明使用1张Tesla V100显卡训练整个网络，并在训练过程中，使用Adam优化器训练迭代20次，每一批10张图片，初始学习率设置为10^-4用于前15次迭代训练，之后降为10^-5用于后续的训练。训练的序列由3张连续帧图像组成。在图像重投影损失中SSIM的权重α＝0.85，L1的权重β＝0.15，平滑度损失的权重λ＝10^-3。

综合以上的描述，表1和表2展示了本发明的方法与原Monodepth2在KITTI数据集上的测试结果，并使用绝对相对误差(AbsRel)、平方相对误差(SqRel)、均方根误差(RMSE)、对数均方根误差(RMSElog)以及不同阈值精确度(δ<1.25、δ<1.25²和δ<1.25³)描述测试结果的精度。可以发现不管使用视频序列还是双目图像对，相比Monodepth2本发明在所有指标上都由明显的提升，在M训练上，比较突出的是Abs Rel降低了9％，Sq Rel降低了11％以及δ<1.25上提高了1.6％。说明本发明的方法可以在Monodepth2为基础上获得更好的精度。

其中绝对相对误差(AbsRel)、平方相对误差(SqRel)、均方根误差(RMSE)、对数均方根误差(RMSElog)以及不同阈值精确度(δ<1.25、δ<1.25²和δ<1.25³)的计算公式为：

其中d和d^*分别为预测的深度值和真实的深度值，D为图像中所有预测值的集合。

表1本发明方法与Monodepth2的对比结果(1)

表2本发明方法与Monodepth2的对比结果(2)

除此之外，图4～图7还展示了深度结果可视化的对比图，其中(a)为待估计图片、(b)为采用Monodepth2方法以M为训练数据进行估计的结果图，(c)在采用本发明方法预测的深度结果图，可以看出本发明模型的深度预测要更加准确，尤其是在目标边缘以及相对较细对象等细节预测上，更能看出本发明的优势。

Claims

1.基于注意力导向特征融合的自监督单目深度估计方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法，其特征在于，所述步骤1中的数据增广方法包括依次进行的随机水平翻转、随机亮度、对比度、饱和度以及色调抖动。

3.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法，其特征在于，所述通道自注意力模块中具体操作中，利用矩阵乘法计算输入特征E的特征相似性S，经过Softmax层得到注意力图A_c，最后将注意力图与原特征相乘，并与原特征中每个元素对应求和，得到增强后的特征

4.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法，其特征在于，所述空间交叉注意力特征融合模块对输入的增强特征

做如下操作：针对

使用临近点插值的方式对其进行上采样到40×128分辨率，并通过1×1卷积转化为query特征：Query＝Q(x)；针对X使用平均池化的方式也对其进行下采样到40×128分辨率，并使用1×1卷积得到key和value特征：Key＝K(x)和Value＝V(x)，按矩阵乘法得到空间交叉注意力图

最终获取融合特征F。

5.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法，其特征在于，所述损失函数采用图像重投影损失和平滑度损失，公式分别为：

其中μ为auto-mask，[]内条件满足记为1，不满足为0；

则总损失函数L为：

其中，L_p为最小光度误差，μ为auto-mask，S＝4为层数，λ为平滑度损失的权值。

6.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法，其特征在于，深度估计网络和位姿估计网络均采用Adam优化器进行训练，训练过程中，深度估计网络输入单张RGB图像输出对应的深度图，使用ResNet18为网络骨架利用卷积池化层进行逐级下采样，解码器部分利用卷积并逐级上采样，原始输入图像中的空间信息与图像中的边缘信息会逐渐恢复，并且使用跳跃连接结构，即解码器每层特征与对应编码器中的特征使用拼接的方式在通道上融合，提供多尺度层次信息，以达到更精细的效果；位姿估计网络是基于ResNet18设计，可以输入两张RGB图像估计6自由度相对位姿旋转和平移参数。