CN113470097A

CN113470097A - 一种基于时域关联与姿态注意力的单目视频深度估计方法

Info

Publication number: CN113470097A
Application number: CN202110590232.7A
Authority: CN
Inventors: 于慧敏; 刘柏邑; 龙阳祺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-10-01
Anticipated expiration: 2041-05-28
Also published as: CN113470097B

Abstract

本发明公开了一种基于时域关联与姿态注意力的单目视频深度估计方法。该方法通过将姿态估计和深度估计分别在时域上引入关联，利用先前帧对当前帧进行时域上的约束，并利用姿态注意力将姿态特征与深度特征融合，实现对输入单目视频进行深度估计，并且生成深度图。不同于之前的深度估计方法，该方法使得姿态估计以及深度估计均保持时域稳定，并且利用注意力机制将姿态特征与深度特征融合，使得深度图在时域上保持平滑的同时大幅度提高深度估计的精度。

Description

一种基于时域关联与姿态注意力的单目视频深度估计方法

技术领域

本发明属于深度估计领域，特别地涉及一种基于时域关联与姿态注意力的单目视频深度估计方法。在算法设计和模型训练部分涉及了深度学习技术。

背景技术

深度估计能从图像中精确感知场景的几何结构，是许多上游应用的基础，在智能手机和机器人等领域中有广泛的应用。

深度估计使用较为广泛的方法之一是利用3D信息传感器来直接获取场景深度。这种方法简便且精准，但是只能在特定场景使用，无法大规模推广。因此，相机是深度估计中系统与环境进行信息交互的首选设备。

深度估计的方法根据使用相机数量的不同分为单目、双目、多目。相对于单目的方法，双目或多目方法对于相机参数标定的要求也比较高，实现存在一定难度。因此利用单目相机拍摄的视频来进行无监督的深度估计成为了一个比较主流的方法。

对于无监督单目深度估计来说，训练时使用连续视频帧，测试时使用单帧，这会导致视频帧的深度估计结果存在较为明显的跳变，这与客观的事实并不相符。因此如何让深度估计的结果在时域上保持稳定，减少抖动的情况，是深度估计问题的关键所在。而卷积长短时记忆网络给这个问题提供了良好的思路。通过让特征在时域上产生关联，能够让深度估计结果在时域上变得平滑、稳定。

发明内容

本发明的目的在于提供了一种基于时域关联与姿态注意力的单目视频深度估计方法。该方法通过引入时域关联，实现了深度估计在时域上的平滑与稳定，并提升了深度估计的精度。

为实现上述目的，本发明的技术方案为：一种基于时域关联与姿态注意力的单目视频深度估计。该方法为：处理姿态估计和深度估计的特征，使其在时域上产生关联。将姿态特征与深度特征利用注意力机制融合。利用融合过的特征通过解码器来进行深度图的估计，得到更平滑、稳定的深度图。

具体的，本发明方法包括如下步骤：

一种基于时域关联与姿态注意力的单目视频深度估计方法，该方法包括如下步骤：

步骤1：将连续视频帧数据{RGB图像I_i，RGB图像I_i+1}进行串联，其中i＝-n,…0为视频帧编号，使用第一卷积神经网络对串联过后的视频帧进行特征提取，并得到所有相邻视频帧对应的姿态变换特征

其中H^P、W^P、C^P分别为P_i→i+1的长、宽和通道数。

步骤2：将步骤1中得到的n组姿态变换特征P_i→i+1串联后送入姿态时域关联模块进行姿态时域关联，再均分成n组最终得到与P相同维度的姿态特征P′。

步骤3：基于连续视频帧数据{RGB图像I_j}，其中j＝-n+1，...0，1为视频帧编号，使用第二卷积神经网络对连续视频帧的每帧单独进行特征提取，得到所有每个视频帧对应的深度特征

其中

为D_j，s的长、宽和通道数，s是不同尺度的编号。

步骤4：将步骤3中得到的其中一尺度k对应的n组深度特征D_j，k串联后送入深度时域关联模块进行深度时域关联，再均分成n组最终得到与D_j，k相同维度的深度特征D′_j，k。

步骤5：将步骤2中得到的P′_-1→0、P′_0→1与步骤4中得到的D_0，k′进行串联，并将串联的特征送入姿态注意力模块进行特征提取，得到注意力特征A₀。

步骤6：将步骤5得到的注意力特征A₀与步骤4得到的D_0，k′融合得到特征D_0，k″，并将融合特征D_0，k″与步骤3中得到的当前帧其他尺度对应的深度特征D_0，m，m≠k，组合输入深度特征解码器即可得到当前视频帧深度估计Depth₀。

其中，所述姿态时域关联模块、深度时域关联模块采用循环神经网络。第一卷积神经网络、姿态时域关联模块、深度时域关联模块、第二卷积神经网络、姿态注意力模块、深度特征解码器通过联合一姿态特征解码器训练获得，具体如下：

使用姿态特征解码器处理步骤2中得到的P′，得到姿态变换矩阵

利用步骤6中的深度估计Depth₀以及对应的当前视频帧I₀，在姿态变换矩阵的作用下将当前视频帧转换为相邻帧的生成图像I′，并计算相邻帧的生成图像I′与真实图像I的光度损失完成网络的无监督训练。

进一步地，所述步骤2具体如下：

将{P_i→i+1}中n组姿态变换特征在通道的维度上进行串联输入到姿态时域关联模块中进行时域稳定的处理，最后输出特征

将其在通道的维度上均分为n个特征，最终得到n组姿态变换特征{P′_i→i+1}。

进一步地，所述步骤4具体如下：

将{D_j}中n组深度特征在通道的维度上进行串联输入到深度时域关联中进行时域稳定的处理，最后输出特征

将其在通道的维度上均分为n个特征，最终得到深度特征{D′_j}。

进一步地，所述步骤5具体如下：

将{P′_-1→0，D′₀，P′_0→1}进行串联，使用姿态注意力模块对串联后的特征进行特征提取，得到A₀，A₀与D′₀维度相同。

进一步地，步骤6中所述的特征融合具体如下：

D″₀＝D′₀+A₀

D′₀与步骤5得到的A₀注意力特征维度相同。

进一步地，所述姿态变换矩阵包括为当前视频帧I₀与连续视频帧中其他任一帧的变换矩阵

进一步地，所述第一卷积神经网络、第二卷积神经网络、深度特征解码器、姿态特征解码器采用Monodepth2的Baseline。

进一步地，所述姿态时域关联模块、深度时域关联模块采用选自ST-CLSTM网络等。

本发明的有益效果是：

(1)通过将时域稳定引入姿态特征与深度特征，使最后深度估计的结果更为平滑，主观感觉更好

(2)通过姿态注意力模块使得姿态特征可以对深度特征在深度恢复的时候进行约束，大幅度提高深度估计的精度。

附图说明

图1为本发明实施例的基于时域关联与姿态注意力的单目视频深度估计方法的步骤流程图；

图2为本发明实施例的深度估计的结果对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。

参考图1所示为本发明实施例的基于时域关联与姿态注意力的单目视频深度估计的网络结构图。

对于相机获取的连续视频帧数据{RGB图像I_i}，其中i＝-n，...0，1为视频帧编号，对其进行以下步骤处理：

1.生成姿态特征。具体地：

(1.1)将连续视频帧数据{RGB图像I_i，RGB图像I_i+1}进行串联，其中i为视频帧编号，得到{I_i，i+1}

(1.2)使用第一卷积神经网络ResNet-Pose-Encoder对{I_i，i+11}进行特征提取，并得到相邻视频帧对应的姿态变换特征

其中H^P、W^P、C^P分别为P的长、宽和通道数。

2.构建姿态时域关联(Pose-CLSTM)模块并得到经过时域稳定处理的姿态变换特征P′。

具体地：

(2.1)将{P_i→i+1}中n组姿态变换特征在通道的维度上进行串联，得到特征

其中T＝H^P×W^P×(n*C^P)。

(2.2)将P_concat输入到Pose-CLSTM模块中，得到

其中T＝H^P×W^P×(n*C^P)

(2.3)将P_clstm在通道的维度上均分为n个特征，最终得到姿态变换特征

3.生成深度特征。具体地：

使用第二卷积神经网络ResNet-Depth-Encoder对连续视频帧{I_i}的每帧单独进行特征提取，得到每帧视频帧对应的深度特征

其中

为Dj,s的长、宽和通道数，本实施例中，s＝1，2，3，4，5分别代表从大到小的5个尺度的特征编号。

4.构建深度时域关联(Depth-CLSTM)模块并得到经过时域稳定处理的深度特征D′。具体地：

(4.1)将{D_j，5}中n组深度特征在通道的维度上进行串联，得到特征

其中

(4.2)将D_concat输入到Depth-CLSTM模块中，得到

其中

(4.3)将D_clstm在通道的维度上均分为n个特征，最终得到深度特征

其中

该步骤中，除{D_j，5}之外，也可以采用其他4个尺度的深度特征进行时域稳定处理。

5.姿态变换特征与深度特征形成注意力。具体地：

(5.1)步骤2中得到的{P′_i→i+1}与D′_0，5的维度相同，即

将{P′_-1→0，D′_0，5，P′_0→1}进行串联，得到特征

其中

(5.2)使用姿态注意力(Pose-Attention)模块对PDP进行特征提取，得到注意力特征

其中

6.特征融合与深度图生成。具体地：

(6.1)步骤5中得到注意力特征

其中

与D′_0，5维度相同。将A_0，5与D′_0，5融合，并用得到的特征替换{D′_0，s}原有的D′_0，5，新的{D′_0，s}特征用{D″_0，s}表示。融合特征如下所示。

D″_0，5＝D′_0，5+A_0，5

(6.2)将{D″_0，s}输入深度特征解码器Depth-Decoder进行深度估计，得到视频帧编号为0的帧的深度图Depth₀。

7.训练网络。具体地：

(7.1)步骤2中得到的{P′_i→i+1}，输入到姿态特征解码器Pose-Decoder中得到姿态变换矩阵

通过矩阵相乘获得

(7.2)步骤6中得到的深度估计结果Depth₀与RGB图像I₀可以在姿态变换矩阵{T_0→i}的作用下warp得到合成RGB图像I′_i。

(7.3)利用合成RGB图像{I′_i}计算与{I_i}的损失，进行无监督训练。

(7.4)当网络收敛后，Depth-Decoder输出的深度估计即本方法需要的结果。

进一步地，所述步骤1中所使用的ResNet-Pose-Encoder、步骤3中所使用的ResNet-Depth-Encoder、步骤6中所使用的Depth-Decoder与步骤7中所使用的Pose-Decoder使用了Monodepth2的Baseline，该Baseline也可以更换为其他网络。

进一步地，步骤2所使用的Pose-CLSTM与步骤4所使用的Depth-CLSTM模块选自ST-CLSTM，ST-CLSTM属于RNN的一种，该种RNN也可以更换为其他种类的RNN。

进一步地，步骤5所使用的Pose-Attention模块的结构为4层卷积神经网络，由卷积层、池化层、ReLU激活函数构成。

图2的第一列代表原始视频帧，第二列代表本专利具体实施方式所用Baseline——MonoDepth2的深度估计结果，第三列代表本专利方法深度估计结果，白色框部分为本专利方法表现更好之处。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时域关联与姿态注意力的单目视频深度估计方法，其特征在于，该方法包括如下步骤：

步骤1：将连续视频帧数据{RGB图像I_i，RGB图像I_i+1}进行串联，其中i＝-n，…0为视频帧编号，使用第一卷积神经网络对串联过后的视频帧进行特征提取，并得到所有相邻视频帧对应的姿态变换特征

其中H^P、W^P、C^P分别为P_i→i+1的长、宽和通道数。

步骤3：基于连续视频帧数据{RGB图像I_j}，其中j＝-n+1,…0,1为视频帧编号，使用第二卷积神经网络对连续视频帧的每帧单独进行特征提取，得到所有每个视频帧对应的深度特征

其中

为D_j,s的长、宽和通道数，s是不同尺度的编号。

步骤4：将步骤3中得到的其中一尺度k对应的n组深度特征D_j,k串联后送入深度时域关联模块进行深度时域关联，再均分成n组最终得到与D_j,k相同维度的深度特征D′_j,k。

步骤5：将步骤2中得到的P′_-1→0、P′_0→1与步骤4中得到的D_0,k′进行串联，并将串联的特征送入姿态注意力模块进行特征提取，得到注意力特征A₀。

步骤6：将步骤5得到的注意力特征A₀与步骤4得到的D_0,k′融合得到特征D_0,k″，并将融合特征D_0,k″与步骤3中得到的当前帧其他尺度对应的深度特征D_0,m,m≠k,组合输入深度特征解码器即可得到当前视频帧深度估计Depth₀。

利用步骤6中的深度估计Depth₀以及对应的当前视频帧l₀，在姿态变换矩阵的作用下将当前视频帧转换为相邻帧的生成图像I′，并计算相邻帧的生成图像I′与真实图像I的光度损失完成网络的无监督训练。

2.根据权利要求1所述的方法，其特征在于，所述步骤2具体如下：

3.根据权利要求1所述的方法，其特征在于，所述步骤4具体如下：

4.根据权利要求1所述的方法，其特征在于，所述步骤5具体如下：

将{P′_-1→0,D′₀,P′_0→1}进行串联，使用姿态注意力模块对串联后的特征进行特征提取，得到A₀，A₀与D′₀维度相同。

5.根据权利要求1所述的方法，其特征在于，步骤6中所述的特征融合具体如下：

D″₀＝D′₀+A₀

D′₀与步骤5得到的A₀注意力特征维度相同。

6.根据权利要求1所述的方法，其特征在于，所述姿态变换矩阵包括为当前视频帧I₀与连续视频帧中其他任一帧的变换矩阵

7.根据权利要求1所述的方法，其特征在于，所述第一卷积神经网络、第二卷积神经网络、深度特征解码器、姿态特征解码器采用Monodepth2的Baseline。

8.根据权利要求1所述的方法，其特征在于，所述姿态时域关联模块、深度时域关联模块采用选自ST-CLSTM网络等。