CN113240722A

CN113240722A - 一种基于多帧注意力的自监督深度估计方法

Info

Publication number: CN113240722A
Application number: CN202110462631.5A
Authority: CN
Inventors: 于慧敏; 徐晨锋; 龙阳祺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-10
Anticipated expiration: 2041-04-28
Also published as: CN113240722B

Abstract

本发明实例提供了一种基于多帧注意力的自监督深度估计方法。其中分为深度估计网络和相机姿态估计网络两路网络分别估计目标帧的深度以及预测相机运动。在相机姿态估计网络通过自注意力模块进行特征增强，预测相机运动；在深度估计网络通过多帧注意力模块给目标帧特征补充相邻帧信息，然后利用融合模块融合目标帧特征以及相机姿态估计网络中的相机姿态特征，进行目标帧的深度估计；最后利用深度估计网络预测的目标帧的深度和相机姿态估计网络预测的相机运动，用相邻帧来重建目标帧，并使用光度重建损失来约束重建帧和目标帧之间的一致性。本发明不仅可以大幅提高深度估计的各项精度，还能提高算法对于深度估计的时域一致性。

Description

一种基于多帧注意力的自监督深度估计方法

技术领域

本发明涉及一种基于深度学习的图像深度估计方法，特别涉及一种基于多帧注意力的自监督深度估计方法。

背景技术

近年来，深度学习的快速发展也大幅度地加快了深度估计算法的革新，为了避免耗费昂贵成本来获得深度真值数据，自监督深度估计算法成为了人们的一个研究方向。文献Godar d C,Mac Aodha O,Firman M,et al.Digging into self-supervised monoculardepth estimation[C].Proc eedings of the IEEE international conference oncomputer vision.2019:3828-3838.”提出了一种自监督的单目深度估计方法，利用估计深度和相机运动从前后帧重建当前帧，形成多视图之间的监督。并利用帧间的损失最小值来处理场景中的遮挡问题以及提出二值掩膜来减弱相对静止场景的影响。该方法有效地提升了自监督深度估计的各项指标，成为了自监督深度估计的一个优秀的设计架构。

然而，在实际应用中，人眼对于绝对深度的敏感度远小于相对深度，当连续图像的深度预测出现相反趋势的变化时，人眼会非常敏感地捕捉到这些抖动，这对于实际场景的应用影响很大。所以，在绝对深度的精度之外，还需要考虑到算法的时域一致性，也可以称为时域稳定性，即在单调变化的场景保持单调的深度估计。文献中的提出的自监督的单目深度估计，在相机姿态网络中引入了多帧，以获得相机的运动信息，但是在深度估计网络中只输入单帧图像，该部分的深度估计显然不存在视频图像中时域上的相关信息，因而对于整体算法的时域一致性没有保证。

鉴于深度估计算法的时域一致性对于实际应用的重要性，本发明设计了一种基于多帧注意力的自监督深度估计方法，在深度估计网络中输入连续帧图像信息，通过设计多帧之间的注意力模块给目标帧特征补充时域信息，且通过相机姿态网络的特征与深度估计网络特征的融合促进两部分网络的联合调优，提高深度估计中的时域一致性。

发明内容

针对深度估计算法中的时域一致性问题，本发明提供一种基于多帧注意力的自监督深度估计方法，采用多帧之间的注意力帮助深度估计网络做出时域稳定的预测，通过相机姿态网络的特征与深度估计网络特征的融合促进两部分网络的联合调优，采用本方法获取的场景深度信息在权威数据集上达到了优越的效果。

为解决上述问题，本发明采用的技术方案包括以下步骤：一种基于多帧注意力的自监督深度估计方法，包括以下步骤：

(1)获取训练数据：在视频序列中截取连续的多帧图像作为一个训练样本，获取数据集中相邻的多帧图像组成训练数据；

(2)相机姿态估计网络进行相机运动估计：在相机姿态估计网络中，训练数据通过编码器提取特征，然后送入自注意力模块增强特征，最后将增强后的特征送入解码器预测相机运动。

(3)深度估计网络进行深度估计：在深度估计网络中，训练数据通过编码器提取特征，送入多帧注意力模块，多帧注意力模块增强目标帧的特征，通过多帧注意力模块从相邻帧的特征里获取有效的信息补充给目标帧特征。将多帧注意力模块的输出特征与相机姿态估计网络中自注意力模块得到的特征一起输入特征融合模块进行融合，最后将融合后的最终特征送入解码器部分进行深度估计，得到深度估计图。

(4)网络训练：利用步骤(3)得到的深度估计图和预测的相机运动，从相邻帧重建当前帧图像，使用光度重建损失约束重建帧和目标帧的一致性。联合光度重建损失和边缘平滑损失作为最终的训练损失。

(5)测试阶段：以视频序列中的连续多帧为一个测试样本，中间帧为深度估计目标，将步骤(1)获取的训练数据分别送入相机姿态估计网络和深度估计网络，最终深度估计网络的输出为目标帧的深度估计图。

进一步地，所述步骤(2)中，相机姿态估计网络中的自注意力模块对于输入特征F_o，根据自注意力机制的关联方式可以得到补充特征F_a。自注意力模块采用残差形式，经过该模块后输出特征F_p＝F_o+F_a。其中自注意力关联的方式如下：

其中Q,K,V表示输入映射到不同空间的特征，d_k表示K的维度大小。

进一步地，所述步骤(3)中，深度估计网络中的多帧注意力模块以输入多帧帧图像经编码器提取的特征作为输入，在该模块中由目标帧和其余多帧计算相似度图S_i，再分别进行多帧特征之间的空间域关联和时域关联。空间域关联的注意力图和时域关联的注意力图计算如下：

其中

表示某一帧与目标帧的空间域关联注意力图，N表示除目标帧外总共输入的帧数。

最终注意力图A由两张注意力图相乘获得，以此注意力图作为多帧之间的特征关联的指导，获得增强的目标帧特征F_d。计算公式如下：

A＝A_t⊙A_s

其中⊙表示矩阵对应点相乘，

表示矩阵乘法，V表示用于信息增强的特征，F_o表示经过多帧注意力模块之前的目标帧特征。

进一步地，所述步骤(3)中，深度估计网络中的特征融合模块将深度估计网络多帧注意力模块的输出特征F_d和相机姿态网络自注意力模块的输出特征F_p进行信息融合获得最终特征F_final，该模块的操作如下：

其中

表示卷积运算、激活函数操作，θ表示卷积操作中的权重和偏差。

＝本发明的有益效果是：面对深度估计应用的时域一致性要求，当前的基于自监督的单目深度估计缺少相关的时域信息，虽然在单帧的深度估计上有不错的效果，但是在视频的深度估计中无法保证输出时域一致的深度图。本发明提供了用于多帧之间信息交互和融合的注意力模块，在用于深度估计的特征中融入了补充的时域信息，使得深度估计网络的视野扩展到多帧的范围，可以有效地感知连续帧之间的变化，同时通过相机姿态网络的特征与深度估计网络特征的融合促进两部分网络的联合调优，从而促进网络做出时域一致的深度预测。同时，多帧信息的引入融合也在很大程度上帮助缓解了遮挡、运动目标等问题，使得深度估计的精度也有大幅的提升。从现实应用场景来说，本发明迎合人眼的视觉感受，有益于用户的应用体验。

附图说明

图1是基于多帧注意力的自监督深度估计的网络整体结构示意图；

图2是自注意力模块的结构示意图；

图3是多帧注意力模块的结构示意图；

图4是基于多帧注意力的自监督深度估计的深度估计效果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例的实现过程如下：一种基于多帧注意力的自监督深度估计方法，包括以下步骤：

步骤1：获取训练数据：在视频序列中截取连续的三帧图像作为一个训练样本，按照此法获取数据集中相邻的多帧图像组成训练数据。

步骤2：相机姿态估计网络进行相机运动估计，该部分网络结构如图1所示。

在相机姿态估计网络中，训练数据通过编码器部分提取特征，然后送入自注意力模块增强特征，最后将增强后的特征送入解码器部分预测相机运动。

自注意力模块的结构如图2所示，对于输入特征F₀，根据自注意力机制的关联方式可以得到补充特征F_a。自注意力模块采用残差形式，经过该模块后输出特征为F_p＝F₀+F_a。其中自注意力关联的方式如下：

步骤3：深度估计网络进行深度估计，该部分网络结构如图1所示。

在深度估计网络中，训练数据通过编码器部分提取特征，送入多帧注意力模块。多帧注意力模块的结构如图3所示，由目标帧和其余帧计算相似度图S_i，再分别进行多帧特征之间的空间域关联和时域关联。空间域关联的注意力图和时域关联的注意力图计算如下：

其中

表示总共输入的帧数。最终注意力图A由两张注意力图相乘获得，以此注意力图作为多帧之间的特征关联的指导，获得增强的目标帧特征F_d。计算公式如下：

A＝A_t⊙A_s

其中⊙表示矩阵对应点相乘，

之后，将多帧注意力模块的输出特征与相机姿态估计网络中自注意力模块得到的特征一起输入特征融合模块。特征融合模块将深度估计网络多帧注意力模块的输出特征F_d和相机姿态网络自注意力模块的输出特征F_p进行信息融合，该模块的操作如下：

其中

表示一系列的卷积运算、激活函数操作，θ表示卷积操作中的相关参数，相关参数包括但不限于卷积操作中的权重和偏差。

最后将融合后的最终特征送入解码器部分进行深度估计，得到深度估计图。

步骤4：网络训练。

利用深度估计图和预测的相机运动，从相邻帧重建当前帧图像，使用光度重建损失约束重建帧和目标帧的一致性。联合光度重建损失和边缘平滑损失作为最终的训练损失。

步骤5：测试阶段。

以视频序列中连续三帧为一个测试样本，中间帧为深度估计目标，将步骤(1)获取的训练数据分别送入相机姿态估计网络和深度估计网络，最终深度估计网络的输出为目标帧的深度估计图，测试效果如图4所示。深度估计图中目标边缘平滑，深度预测精确反映了场景深度信息，与人眼视觉一致。

Claims

1.一种基于多帧注意力的自监督深度估计方法，其特征在于，包括以下步骤：

(3)深度估计网络进行深度估计：在深度估计网络中，训练数据通过编码器提取特征，送入多帧注意力模块，多帧注意力模块增强目标帧的特征，通过多帧注意力模块从相邻帧的特征里获取有效的信息补充给目标帧特征。将多帧注意力模块的输出特征与相机姿态估计网络中自注意力模块得到的特征一起输入特征融合模块进行融合，最后将融合后的最终特征送入解码器进行深度估计，得到深度估计图。

2.根据权利要求1所述的基于多帧注意力的自监督深度估计方法，其特征在于，所述步骤(2)中，相机姿态估计网络中的自注意力模块对于输入特征F_o，根据自注意力机制的关联方式可以得到补充特征F_a。自注意力模块采用残差形式，经过该模块后输出特征F_p＝F_o+F_a。其中自注意力关联的方式如下：

3.根据权利要求1所述的基于多帧注意力的自监督深度估计方法，其特征在于，所述步骤(3)中，深度估计网络中的多帧注意力模块以输入多帧帧图像经编码器提取的特征作为输入，在该模块中由目标帧和其余多帧计算相似度图S_i，再分别进行多帧特征之间的空间域关联和时域关联。空间域关联的注意力图和时域关联的注意力图计算如下：

其中

A＝A_t⊙A_s

其中⊙表示矩阵对应点相乘，

4.根据权利要求1所述的基于多帧注意力的自监督深度估计方法，其特征在于，所述步骤(3)中，深度估计网络中的特征融合模块将深度估计网络多帧注意力模块的输出特征F_d和相机姿态网络自注意力模块的输出特征F_p进行信息融合获得最终特征F_final，该模块的操作如下：

其中