CN112270692A

CN112270692A - 一种基于超分辨的单目视频结构和运动预测的自监督方法

Info

Publication number: CN112270692A
Application number: CN202011100648.8A
Authority: CN
Inventors: 李帅; 方嘉仪; 高艳博; 王帅; 张翔
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-26
Anticipated expiration: 2040-10-15
Also published as: CN112270692B

Abstract

本发明公开了一种基于超分辨的单目视频结构和运动预测的自监督方法，包括以下步骤：步骤1：获取数据集并进行预处理；步骤2：构建单目视频结构和运动预测系统，包括深度估计网络、相机姿态估计网络和可解释行网络；步骤3：将步骤1得到的数据集输入到步骤2构建的神经网络中，并对其进行联合训练；步骤4：采用步骤3训练得到的神经网络分别进行深度和相机姿态的预测；本发明方法能够实现对不同尺度的深度结果图的监督，也可直接作为网络结构的一部分，对反卷积操作提供更多信息，得到更加准确的大尺度深度图片。

Description

一种基于超分辨的单目视频结构和运动预测的自监督方法

技术领域

本发明涉及图像视频处理技术领域，特别是一种基于超分辨的单目视频结构和运动预测的自监督方法。

背景技术

随着三维信息的应用越来越广，对深度信息的需求日益增加。单目深度估计通过基于单视点的深度估计以单目图像或视频序列为输入，经过深度估计系统，根据图中边界、雾化效果以及位置关系中隐藏的几何结构信息，得到与原图对应的深度图。基于单目视频的深度估计方法是在视点生成的基础之上实现其中神经网络的训练的。无监督的单目视频的深度估计，在训练过程中不需要额外的深度信息——神经网络训练过程中运用的是自监督模式，根据深度信息实现视点之间的转换，并将视点转换的准确程度作为深度估计的损失函数。

无监督的单目视频深度估计系统由三个网络组成：深度估计网络、相机姿态估计网络、可解释性网络。针对一段连续的视频，在估计每一帧的深度时，以单帧图片的作为深度估计网络的输入，输出则是对应的深度图片，网络利用的是编码-解码结构，实现像素到像素的深度估计。相机姿态估计网络则以相邻的两帧图片作为输入，输出两帧图片拍摄时的视角转换矩阵。至于可解释性网络则是在训练过程中需要用到的，其作用是根据两帧图片之间的变化判断图片中哪些部分的变化是仅由相机的运动而引发的。因此可解释性网络和相机姿态估计网络有共用的部分。整个系统采用的是自监督训练，所以损失函数采用的是视点合成的方式。用<I₁,...,I_N>表示训练集中的图片序列，以I_t表示目标帧，I_s(1≤s≤N,s≠t)表示剩下的图片，那么视角生成的目标可以表示成以下形式：

这里的p表示像素坐标，而I_s则是根据源图像I_s，利用网络预测的深度和相机转换矩阵合成的目标视点上的影像，根据合成影像和真实影像之间的差别衡量网络得到的估计结果的准确性。

单目视频的深度估计利用了深度图片在视点合成的过程中起到的重要的作用，以合成视点的图片准确性作为整个系统的监督过程，从而实现无监督的深度估计。但这一流程涉及到视点之间的形变，因此必须同时获取相邻帧图片作为监督信息。于是这类监督信息只能用于单目深度估计网络的训练过程中，无法将其纳入神经网络中，成为网络结构的一部分。

发明内容

本发明所要解决的技术问题是提供一种基于超分辨的单目视频结构和运动预测的自监督方法，用于深度估计网络中，可以利用解码器结构对小尺度深度图片中的偏差进行修正，提高深度估计的准确性。

为解决上述技术问题，本发明采用的技术方案是：

一种基于超分辨的单目视频结构和运动预测的自监督方法，包括以下步骤：

步骤1：获取数据集并进行预处理

在处理单目视频结构和运动预测系统训练所需的数据集时，将平均光流运动幅度小于一个像素的视频序列归为静止，去除视频中的静止部分，并把序列中最中间的一帧作为需要估计深度的目标帧，序列中除了中间那一帧以外全部作为源视点；

步骤2：构建单目视频结构和运动预测系统，包括深度估计网络、相机姿态估计网络和可解释行网络

单目视频结构和运动预测系统由三个网络组成：深度估计网络、相机姿态估计网络和可解释性网络；所述深度估计网络使用的是U-net结构，并根据输出的每个尺度深度图像完成超分辨任务，并将超分辨产生的误差链接到相应的特征图中，作为特征图的一部分；而相机姿态估计网络和可解释性网络共用的编码部分，并在编码部分处理完成后直接得到相机姿态变换矩阵，可解释性网络则接着以解码部分继续处理，并最终输出一个同输入图片大小一致的掩膜；

步骤3：将步骤1得到的数据集输入到步骤2构建的神经网络中，并对其进行联合训练

在单目视频结构和运动预测系统处理过程中，分别使用深度估计网络和相机姿态估计网络，对视频中的深度信息和相机姿态变换矩阵做出预测，并根据可解释性网络输出的掩膜确定联合训练所用的损失函数，以此对深度估计网络、相机姿态估计网络和可解释性网络同时训练；

步骤4：采用步骤3训练得到的神经网络分别进行深度和相机姿态的预测

将步骤3中训练得到的网络和其参数用于单目视频的深度和相机姿态的估计，联合或者独立采用步骤3中得到的深度网络和相机姿态估计网络进行估计；在每次深度估计中，单帧图片作为输入，经过深度估计网络处理，获得的输出即为预测的深度图像；在相机姿态估计过程中，以连续的三帧图片作为输入，相机姿态估计网络的输出为相邻帧之间的相机姿态变换矩阵。

进一步地，所述深度估计网络沿用DispNet架构，该架构基于带跳跃连接和多尺度预测的编解码器设计，除输出层外，所有conv层均随后进行非线性激活函数激活。

进一步地，所述相机姿态估计网络的输入是与所有源视图相邻的目标视图，输出是目标视图和每个源视图之间的相机姿态变换矩阵。

进一步地，所述相机姿态估计网络由7个步长为2的1×1的卷积和6×(N-1)的输出通道组成，最后，将全局平均池化应用于所有空间位置的聚合预测，除了最后一层，所有conv层的激活函数都是非线性激活函数。

进一步地，所述可解释性网络与相机姿态估计网络共享前5个特征编码层，然后是5个反卷积层，除没有非线性激活的输出层外，所有卷积/反卷积层后面都是非线性激活函数，每个输出层的输出信道数为2*(N-1)，每两个信道通过softmax获得一个掩膜，用以表示对应的源图片和目标图片对的可解释性预测。

进一步地，在步骤1中，训练时使用的视频序列的长度为3帧；对于数据集中400个场景的视频中的每一帧都当作独立的帧处理，得到44540个长度为3帧的视频序列，其中训练集为40109个视频序列，验证集为4431个视频序列。

进一步地，在步骤3中，训练中采用

作为损失函数，其中L_vs为合成视点和原图的差别，L_smooth为平滑约束，

则为对于可解释性掩膜的约束。λ_s和λ_e则为平滑约束和可解释性掩膜约束的惩罚系数。l和s则表示不同视点和不同尺度。并采用当前广泛应用的Adam优化器对网络的参数进行优化；优化器的初始学习率被设置为2×10^-4，并在训练集识别准确率不再提升后衰减为原来的0.1；批处理尺寸被设置为4。

与现有技术相比，本发明的有益效果是：基于超分辨的单目视频结构和运动预测的自监督方法通过不同尺度之间图片的超分辨，能够实现对不同尺度的深度结果图的监督，并且由于超分辨过程仅需要单视点的图片即可完成，因此不仅可以在训练过程中作为监督，也可直接作为网络结构的一部分，对反卷积操作提供更多信息，得到更加准确的大尺度深度图片。本发明方法解决了单目深度估计过程中缺少基于单目图片的自监督问题，以超分辨任务的准确程度反应深度估计的质量，实现了深度图片在尺度之间误差纠正。

附图说明

图1是本发明中基于单目图片的深度估计网络。

图2是本发明中相机矩阵估计网络和掩膜估计网络。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明方法在单目深度估计的基础上，添加以超分辨任务为基础的自监督过程。其中，小尺度的图片在超分辨的过程中利用了深度图片提供细节信息，利用的方式为对双线性插值和最邻近插值的加权平均，其中权重由深度变化决定；

其中以i,j表示像素的位置坐标，d表示深度。

对于相机姿态估计和掩膜估计的网络则如图2所示，利用的也是编码-解码结构，其中编码器输出相机姿态估计结果，而掩膜估计则和相机姿态共用同一个编码器，并由解码器输出掩膜结果。

具体的，本发明方法包括以下步骤：

步骤1：获取深度估计数据集并进行预处理

超分辨的单目视频结构和运动预测的自监督系统去除视频中被认为是静止的部分，将平均光流运动幅度小于一个像素的视频序列归为静止的。训练时使用的视频序列的长度为3帧，在实际使用中这一数值是可以根据需求自己调节的。并把序列中最中间的一帧作为需要估计深度的目标帧，序列中除了中间那一帧以外全部作为源视点。对于数据集中400个场景的视频中的每一帧都当作独立的帧处理，从而得到44540个长度为3帧的视频序列，其中训练集为40109个视频序列，验证集为4431个视频序列。

单目视频结构和运动预测系统由三个网络组成：深度估计网络、相机姿态估计网络和可解释性网络；如图1和图2所示，所述深度估计网络使用的是U-net结构，并根据输出的每个尺度深度图像完成超分辨任务，并将超分辨产生的误差链接到相应的特征图中，作为特征图的一部分；而相机姿态估计网络和可解释性网络共用的编码部分，并在编码部分处理完成后直接得到相机姿态变换矩阵，可解释性网络则接着以解码部分继续处理，并最终输出一个同输入图片大小一致的掩膜。

其中深度估计网络沿用了DispNet架构，该架构主要基于带跳跃连接和多尺度预测的编解码器设计。除输出层外，所有conv层均随后进行ReLU激活，其中我们使用α＝10和β＝0.1的1/(α×sigmoid(x)+β)将预测深度限制在合理范围内始终为正值。

相机姿态估计网络的输入是与所有源视图(沿着颜色通道)相邻的目标视图，输出是目标视图和每个源视图之间的相机姿态变换矩阵。该网络由7个步长为2的1×1的卷积和6×(N-1)的输出通道组成(对应每个源视图的3个欧拉角和空间中三个维度上的位移)。最后，将全局平均池化应用于所有空间位置的聚合预测。除了最后一层，所有conv层的激活函数都是非线性激活函数(ReLU)。

可解释性网络与相机姿态估计网络共享前5个特征编码层，然后是5个反卷积层。除没有非线性激活的输出层外，所有卷积/反卷积层后面都是ReLU。每个输出层的输出信道数为2*(N-1)，每两个信道通过softmax获得一个掩膜，用以表示对应的源图片和目标图片对的可解释性预测。

在超分辨过程中对于深度信息的利用则是通过双线性插值和最邻近插值实现的，而两者结合的比例则是由深度信息决定的。这是因为在超分辨的过程中，双线性插值更擅长处理平滑区域的超分辨，而最邻近插值更能保留边界上的剧烈变化，因此将二者按照合适的比例结合起来，可以获得更加准确的超分辨结果。基于超分辨图片的跨尺度监督是结合小尺度的深度图片，从小尺度的彩色图片直接恢复出最大尺度的图片。具体来说就是，根据待复原像素的四个参照点的深度信息，确定大尺度图片上双线性插值法和最邻近插值法的比例。

还可利用动态滤波器生成网络，根据输入的彩色图片合成和深度图片一一对应的动态滤波器系数。最后，根据动态滤波器系数，生成滤波器，并对深度估计结果进行滤波处理。

训练中采用

则为对于可解释性掩膜的约束。λ_s和λ_e则为平滑约束和可解释性掩膜约束的惩罚系数。l和s则表示不同视点和不同尺度。并采用当前广泛应用的Adam优化器对网络的参数进行优化；优化器的初始学习率被设置为2×10^-4，并在训练集识别准确率不再提升后(连续20次不再提升)衰减为原来的0.1。批处理尺寸被设置为4。

步骤4：采用步骤3训练得到的神经网络进行深度值的预测

将步骤3中训练得到的网络和其参数用于单目视频的深度和相机姿态的估计，联合或者独立采用步骤3中得到的深度网络和相机姿态估计网络进行估计。在每次深度估计中，单帧图片作为输入，经过深度估计网络处理，获得的输出即为预测的深度图片。在相机姿态估计中，以连续的3帧图片作为输入，相机姿态估计网络的输出即为相邻帧之间的相机角度变换。为测试训练网络在实际应用中的准确率，本发明利用步骤1中准备的测试数据进行检测，实验结果表明深度估计的测试准确率为77.56％，相比不加入超分辨监督的73.40％准确率，本发明方法有显著提升。

以上具体实施方式和附图仅为本发明之常用实施例。显然，在不脱离权利要求书所界定的本发明精神和发明范围的前提下可以有各种增补、修改和替换。本领域技术人员应该理解，本发明在实际应用中可根据具体的环境和工作要求在不背离发明准则的前提下在形式、结构、布局、比例、材料、元素、组件及其它方面有所变化。因此，在此披露之实施例仅用于说明而非限制，本发明之范围由后附权利要求及其合法等同物界定，而不限于此前之描述。

Claims

1.一种基于超分辨的单目视频结构和运动预测的自监督方法，其特征在于，包括以下步骤：

步骤1：获取数据集并进行预处理

2.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法，其特征在于，所述深度估计网络沿用DispNet架构，该架构基于带跳跃连接和多尺度预测的编解码器设计，除输出层外，所有conv层均随后进行非线性激活函数激活。

3.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法，其特征在于，所述相机姿态估计网络的输入是与所有源视图相邻的目标视图，输出是目标视图和每个源视图之间的相机姿态变换矩阵。

4.根据权利要求3所述的一种基于超分辨的单目视频结构和运动预测的自监督方法，其特征在于，所述相机姿态估计网络由7个步长为2的1×1的卷积和6×(N-1)的输出通道组成，最后，将全局平均池化应用于所有空间位置的聚合预测，除了最后一层，所有conv层的激活函数都是非线性激活函数。

5.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法，其特征在于，所述可解释性网络与相机姿态估计网络共享前5个特征编码层，然后是5个反卷积层，除没有非线性激活的输出层外，所有卷积/反卷积层后面都是非线性激活函数，每个输出层的输出信道数为2*(N-1)，每两个信道通过softmax获得一个掩膜，用以表示对应的源图片和目标图片对的可解释性预测。

6.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法，其特征在于，在步骤1中，训练时使用的视频序列的长度为3帧；对于数据集中400个场景的视频中的每一帧都当作独立的帧处理，得到44540个长度为3帧的视频序列，其中训练集为40109个视频序列，验证集为4431个视频序列。

7.根据权利要求1所述的一种基于超分辨的单目视频结构和运动预测的自监督方法，其特征在于，

在步骤3中，训练中采用

则为对于可解释性掩膜的约束；λ_s和λ_e则为平滑约束和可解释性掩膜约束的惩罚系数；l和s则表示不同视点和不同尺度；并采用当前广泛应用的Adam优化器对网络的参数进行优化；优化器的初始学习率被设置为2×10^-4，并在训练集识别准确率不再提升后衰减为原来的0.1；批处理尺寸被设置为4。