CN112270691B

CN112270691B - 一种基于动态滤波器网络的单目视频结构和运动预测方法

Info

Publication number: CN112270691B
Application number: CN202011100484.9A
Authority: CN
Inventors: 方嘉仪; 王帅; 李帅; 高艳博; 张翔
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2023-04-21
Anticipated expiration: 2040-10-15
Also published as: CN112270691A

Abstract

本发明公开了一种基于动态滤波器网络的单目视频结构和运动预测方法，包括以下步骤：步骤1：获取深度估计数据集并进行预处理；步骤2：构建单目视频结构和运动估计系统，包括深度估计网络、相机姿态估计网络和可解释性网络以及动态滤波器生成网络；步骤3：将步骤1得到的数据集输入到步骤2构建的神经网络中，并对其进行联合训练；步骤4：采用步骤3训练得到的分别进行神经网络进行深度值的预测。本发明充分利用光学图像与深度图像之间的相关性，实现了对深度图片的自适应滤波，在深度估计任务中能够建立深度图和输入彩色图片之间的联系，对边界信息处理得也更好。

Description

一种基于动态滤波器网络的单目视频结构和运动预测方法

技术领域

本发明涉及图像处理技术领域，特别是一种基于动态滤波器网络的单目视频结构和运动预测方法。

背景技术

随着三维信息的应用越来越广，对深度信息的需求日益增加。单目深度估计通过基于单视点的深度估计以单目图像或视频序列为输入，经过深度估计系统，根据图中边界、雾化效果以及位置关系中隐藏的几何结构信息，得到与原图对应的深度图。基于单目视频的深度估计方法是在视点生成的基础之上实现其中神经网络的训练的。无监督的单目视频的深度估计，在训练过程中不需要额外的深度信息——神经网络训练过程中运用的是自监督模式，根据深度信息实现视点之间的转换，并将视点转换的准确程度作为深度估计的损失函数。

无监督的单目视频深度估计系统由三个网络组成：深度估计网络、相机姿态估计网络、可解释性网络。针对一段连续的视频，在估计每一帧的深度时，以单帧图片的作为深度估计网络的输入，输出则是对应的深度图片。而相机姿态估计网络则以相邻的两帧图片作为输入，输出两帧图片拍摄时的视角转换矩阵。至于可解释性网络则是在训练过程中需要用到的，其作用是根据两帧图片之间的变化判断图片中哪些部分的变化是仅由相机的运动而引发的。因此可解释性网络和相机姿态估计网络有共用的部分。整个系统采用的是自监督训练，所以损失函数采用的是视点合成的方式。用<I₁,...,I_N>表示训练集中的图片序列，以I_t表示目标帧，I_s(1≤s≤N,s≠t)表示剩下的图片，那么视角生成的目标可以表示成以下形式：

这里的p表示像素坐标，而I_s则是根据源图像I_s，利用网络预测的深度和相机转换矩阵合成的目标视点上的影像，根据合成影像和真实影像之间的差别衡量网络得到的估计结果的准确性。在深度估计过程中，深度图的平滑约束起到了很重要的作用，最近提出的动态滤波网络可以将单目深度估计中的平滑约束与彩色图片结合起来。

动态滤波模型包含两个部分，一是根据输入图片生成的滤波器系数，二是动态滤波层。这里的滤波系数在网络训练完成后，并不是固定的，而是会随着输入图片的变化而不同。动态滤波层在滤波系数确定后以卷积或者其他形式确定滤波器并将其运用到输入图像中，进而得到最终的输出结果。这样的动态滤波系统不仅实现了对局部信息的提取，也同时能够利用整幅图片的信息。因为滤波系数和滤波器所运用的位置及图片相关。

用

表示输入图片，其中h是图片的高度，ω是图片的宽度，c_A是图片的通道数。网络的输出则是一个以

为权值的滤波器。其中s是滤波器的大小，c_B是图片B的通道数，n是滤波器的个数。d在动态卷积过程中为1，而在动态局部滤波中则为h×ω个。网络输出的滤波器然后会被运用到输入

上，然后生成图片G＝F_θ(I_B)，其中F_θ表示的是由网络输出决定的滤波器。滤波器感受野的尺度大小s可以根据实际使用情况确定。

在深度估计过程中，深度图的平滑约束起到了很重要的作用。因为单视点的深度估计本身是欠定问题，因此需要额外的先验信息对估计结果进一步约束，而对于深度图的平滑程度要求则是一种常用的先验知识。

现有的单目深度估计过程中对于深度图片的平滑处理都是在目标函数中以平滑项的形式出现的，虽然也有一些平滑约束能够将输入的彩色图片的纳入其中。但这类处理方式，并不能充分利用彩色图片的整体信息，只能利用彩色图片的局部变化信息。

发明内容

本发明所要解决的技术问题是提供一种基于动态滤波器网络的单目视频结构和运动预测方法，考虑到输入图像和深度图像之间有很高的相关性，在现有的深度估计方法中广泛使用与图像相关的平滑项，提高最后得到的深度图的结果。

为解决上述技术问题，本发明采用的技术方案是：

一种基于动态滤波器网络的单目视频结构和运动预测方法，包括以下步骤：

步骤1：获取深度估计数据集并进行预处理

在处理单目视频结构和运动估计系统训练所需的数据集时，将平均光流运动幅度小于一个像素的视频序列归为静止，去除视频中的静止部分，并把序列中最中间的一帧作为需要估计深度的目标帧，序列中除了中间那一帧以外全部作为源视点；

步骤2：构建单目视频结构和运动估计系统，包括深度估计网络、相机姿态估计网络和可解释性网络以及动态滤波器生成网络

单目视频结构和运动估计系统由四个网络组成：深度估计网络、相机姿态估计网络、可解释性网络和动态滤波器生成网络；所述深度估计网络使用的是U-net结构，而相机姿态估计网络则和可解释性网络共用网络中的编码部分，并在编码部分处理完成后输出相机姿态估计矩阵，可解释性网络则接着以解码部分继续处理，并最终输出一个同输入图片大小一致的掩膜；动态滤波器生成网络是一个动态滤波网络，它根据输入的光学图像，由CNN计算平滑滤波器，然后对深度图像进行滤波；不同像素的滤波器适应光学图像的变化，将深度平滑度和输入图像联系起来；将动态滤波器生成网络得到的对应图片中每个位置的滤波器系数通过卷积的方式对深度图片进行滤波处理，得到最终的深度结果图；

步骤3：将步骤1得到的数据集输入到步骤2构建的神经网络中，并对其进行联合训练

在单目视频结构和运动估计系统处理过程中，分别使用深度估计网络和相机姿态估计网络，对视频中的深度信息和相机姿态变换矩阵做出预测，再利用动态滤波器生成网络，根据输入的彩色图片合成和深度图片一一对应的动态滤波器系数；最后，根据动态滤波器系数，生成滤波器，并对深度估计结果进行滤波处理；根据可解释性网络输出的掩膜确定联合训练所用的损失函数，以此对深度估计网络、相机姿态估计网络和可解释性网络同时训练；

步骤4：采用步骤3训练得到的分别进行神经网络进行深度值的预测

利用步骤3中训练得到的网络和其参数分别对单目视频的深度和相机姿态进行估计；同时使用或者独立使用步骤3中得到的深度网络和相机姿态估计网络进行估计；在每次深度估计中，单帧图片作为输入，经过深度估计网络处理，获得的输出即为预测的深度图像；在相机姿态估计过程中，以连续的3帧图片作为输入，相机姿态估计网络的输出为相邻帧之间的相机姿态变换矩阵。

进一步地，所述动态滤波器生成网络是一个动态滤波网络，其根据输入的光学图像，由CNN计算平滑滤波器，然后对深度图像进行滤波；不同像素的滤波器适应光学图像的变化，将深度平滑度和输入图像联系起来；将动态滤波器生成网络得到的对应图片中每个位置的滤波器系数通过卷积的方式对深度图片进行滤波处理，得到最终的深度结果图；采用动态滤波网络中的动态局部滤波网络，从而同时利用图片的整体信息和局部变化和深度图自身的局部信息。

进一步地，所述动态滤波器生成网络的动态滤波模型包含两个部分，一是根据输入图片生成的滤波器系数，二是动态滤波层，所述滤波系数随着输入图片的变化而不同；动态滤波层在滤波系数确定后以卷积或者其他形式确定滤波器并将其运用到输入图像中，进而得到最终的输出结果。

进一步地，所述动态滤波器生成网络输入彩色图片，对深度图优化，搭建深度图和彩色图片之间的联系。

进一步地，在步骤3中，训练中采用

作为损失函数，其中L_vs为合成视点和原图的差别，L_smooth为平滑约束，

则为对于可解释性掩膜的约束。λ_s和λ_e则为平滑约束和可解释性掩膜约束的惩罚系数。l和s则表示不同视点和不同尺度。并采用当前广泛应用的Adam优化器对网络的参数进行优化；优化器的初始学习率被设置为2×10^-4，并在训练集识别准确率不再提升后衰减为原来的0.1；批处理尺寸被设置为4。

进一步地，在步骤1中，训练时使用的视频序列的长度为3帧；对于数据集中400个场景的视频中的每一帧都当作独立的帧处理，得到44540个长度为3帧的视频序列，其中训练集为40109个视频序列，验证集为4431个视频序列。

与现有技术相比，本发明的有益效果是：

1)基于动态滤波器网络对深度图像进行动态滤波的深度图后处理方式，以彩色图片为输入，合成针对深度图片的滤波器系数，充分利用光学图像与深度图像之间的相关性。

2)以平滑约束作为对深度图片的平滑处理方式，只能利用从局部的角度利用彩色图片和深度图片之间在变换程度上的相关性，无法从整幅图片出发，利用更大范围上的信息。对于物体的边界部分由于其彩色图片变换剧烈程度和深度图片之间实际上并不存在严格的比例关系。因此简单的通过线性函数将彩色图片的变化程度纳入深度图片的平滑约束中，并不能很好地对深度图片的边缘提供准确的监督信息。本发明方法以动态滤波器网络为基础，能够将彩色图片和深度图片之间的联系通过动态滤波器，同时建立局部到局部和局部到整体的联系，更加准确地利用彩色图片中的各类信息对于深度图片平滑性的影响，能够自适应地调整深度图片的平滑程度，提高网络估计的准确性。

附图说明

图1是本发明中基于单目图片的深度估计网络。

图2是本发明中相机矩阵估计网络和掩膜估计网络。

图3是本发明使用的动态滤波器网络。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明为了直接建立深度图和彩色图片之间的联系，采用了动态滤波网络中的动态局部滤波网络，从而同时利用彩色图片的整体信息和局部变化和深度图自身的局部信息。考虑到对于深度图的平滑处理主要是以彩色图片的变化为依据的，因此动态滤波器生成网络的输入位彩色图片。据此得到的动态滤波器被用于对深度图进一步优化，搭建起深度图和彩色图片之间的关系。如图3所示，动态滤波器中系数生成部分采用了编码-解码结构，其输入即为深度图对应的彩色图片，这样得到的系数即能利用彩色图片的整体信息和边界信息，判断深度图中的像素是否属于同一部分，从而确定他们之间是否应当存在剧烈的变化。在滤波器的应用上，采用了动态局部滤波层，也对深度图中不同的位置采用了不同的滤波器，从而充分利用细节信息，使滤波器本身和图片中的位置信息关联起来，充分适应深度和彩色图片的变化情况。

本发明一种基于动态滤波器网络的单目视频结构和运动预测方法具体如下：

步骤1：获取深度估计数据集并进行预处理

单目视频结构和运动估计系统去除了视频中被认为是静止的部分，将平均光流运动幅度小于一个像素的视频序列归为静止的。训练时使用的视频序列的长度为3帧，在实际使用中这一数值是可以根据需求自己调节的。并把序列中最中间的一帧作为需要估计深度的目标帧，序列中除了中间那一帧以外全部作为源视点。对于数据集中400个场景的视频中的每一帧都当作独立的帧处理，从而得到44540个长度为3帧的视频序列，其中训练集为40109个视频序列，验证集为4431个视频序列。

单目视频结构和运动估计系统由四个网络组成：深度估计网络、相机姿态估计网络、可解释性网络和动态滤波器生成网络；所述深度估计网络使用的是U-net结构，而相机姿态估计网络则和可解释性网络共用网络中的编码部分，并在编码部分处理完成后输出相机姿态估计矩阵，可解释性网络则接着以解码部分继续处理，并最终输出一个同输入图片大小一致的掩膜；动态滤波器生成网络是一个动态滤波网络，它根据输入的光学图像，由CNN计算平滑滤波器，然后对深度图像进行滤波；不同像素的滤波器适应光学图像的变化，将深度平滑度和输入图像联系起来；将动态滤波器生成网络得到的对应图片中每个位置的滤波器系数通过卷积的方式对深度图片进行滤波处理，得到最终的深度结果图。

动态滤波器由动态滤波网络生成生成网络是一个动态滤波网络，它根据输入的光学图像，由CNN计算平滑滤波器，然后对深度图像进行滤波；不同像素的滤波器适应光学图像的变化，将深度图片的平滑度和输入图像联系起来；将动态滤波器生成网络得到的对应图片中每个位置的滤波器系数通过卷积的方式对深度图片进行滤波处理，得到最终的深度结果图；

为了直接建立深度图和彩色图片之间的联系，采用了动态滤波网络中的动态局部滤波网络，从而同时利用彩色图片的整体信息和局部变化和深度图自身的局部信息。考虑到对于深度图的平滑处理主要是以彩色图片的变化为依据的，因此动态滤波器生成网络的输入是彩色图片。据此得到的动态滤波器被用于对深度图进一步优化，搭建深度图和彩色图片之间的联系。

动态滤波网络模型包含两个部分，一是根据输入图片生成的滤波器系数，二是动态滤波层。滤波器生成网络类似U-net由编码-解码两部分组成，其输出为W×H×S²的张量，其中W和H分别为输入图片的长和宽，S为滤波器的尺寸。根据滤波器的形态，可以生成一组和图片中的位置相对应的滤波器系数。这里的滤波系数在网络训练完成后，并不是固定的，而是会随着输入图片的变化而不同。动态滤波层在滤波系数确定后以卷积或者其他形式确定滤波器并将其运用到输入图像中，进而得到最终的输出结果。这样的动态滤波系统不仅实现了对局部信息的提取，也同时能够利用整幅图片的信息。因为滤波系数和滤波器所运用的位置及图片相关。

在本本系统中采用的动态滤波模型中系数生成部分采用了编码-解码结构，其输入即为深度图对应的彩色图片，这样得到的系数即能利用彩色图片的整体信息和边界信息，判断深度图中的像素是否属于同一部分，从而确定他们之间是否应当存在剧烈的变化。在滤波器的应用上，采用了动态局部滤波层，也就是对深度图中不同的位置采用了不同的滤波器，只有这样才能充分利用细节信息，使滤波器本身和图片中的位置信息关联起来，充分适应深度和彩色图片的变化情况。

在单目视频结构和运动估计系统处理过程中，分别使用深度估计网络和相机姿态估计网络，对视频中的深度信息和相机姿态变换矩阵做出预测，再利用动态滤波器生成网络，根据输入的彩色图片合成和深度图片一一对应的动态滤波器系数；最后，根据动态滤波器系数，生成滤波器，并对深度估计结果进行滤波处理；根据可解释性网络输出的掩膜确定联合训练所用的损失函数，以此对深度估计网络、相机姿态估计网络和可解释性网络同时训练。

训练中采用

作为损失函数，其中L为

vs合成视点和原图的差别，L_smooth为平滑约束，

则为对于可解释性掩膜的约束。λ_s和λ_e则为平滑约束和可解释性掩膜约束的惩罚系数。l和s则表示不同视点和不同尺度。并采用当前广泛应用的Adam优化器对网络的参数进行优化；优化器的初始学习率被设置为2×10^-4，并在训练集识别准确率不再提升后(连续20次不再提升)衰减为原来的0.1。批处理尺寸被设置为4。

步骤4：采用步骤3训练得到的神经网络进行深度值的预测

利用步骤3中训练得到的网络和其参数分别对单目视频的深度和相机姿态进行估计；同时使用或者独立使用步骤3中得到的深度网络和相机姿态估计网络进行估计；在每次深度估计中，单帧图片作为输入，经过深度估计网络处理，获得的输出即为预测的深度图像；在相机姿态估计过程中，以连续的3帧图片作为输入，相机姿态估计网络的输出为相邻帧之间的相机姿态变换矩阵。为测试训练网络在实际应用中的准确率，本发明利用步骤1中准备的测试数据进行检测。实验结果表明深度估计的测试准确率为74.75％。相比不加入动态滤波器的73.40％准确率，本发明的方法有显著的提升。

Claims

1.一种基于动态滤波器网络的单目视频结构和运动预测方法，其特征在于，包括以下步骤：

步骤1：获取深度估计数据集并进行预处理

在步骤3中，训练中采用

作为损失函数，其中

为合成视点和原图的差别，

为平滑约束，

则为对于可解释性掩膜的约束；λ_s和λ_e则为平滑约束和可解释性掩膜约束的惩罚系数；l和s则表示不同视点和不同尺度；并采用当前广泛应用的Adam优化器对网络的参数进行优化；

步骤4：采用步骤3训练得到的神经网络进行深度值的预测

2.根据权利要求1所述的一种基于动态滤波器网络的单目视频结构和运动预测方法，其特征在于，采用动态滤波网络中的动态局部滤波网络，从而同时利用图片的整体信息和局部变化和深度图自身的局部信息。

3.根据权利要求2所述的一种基于动态滤波器网络的单目视频结构和运动预测方法，其特征在于，所述动态滤波器生成网络的动态滤波模型包含两个部分，一是根据输入图片生成的滤波器系数，二是动态滤波层，所述滤波系数随着输入图片的变化而不同；动态滤波层在滤波系数确定后以卷积或者其他形式确定滤波器并将其运用到输入图像中，进而得到最终的输出结果。

4.根据权利要求3所述的一种基于动态滤波器网络的单目视频结构和运动预测方法，其特征在于，所述动态滤波器生成网络输入彩色图片，对深度图优化，搭建深度图和彩色图片之间的联系。

5.根据权利要求1所述的一种基于动态滤波器网络的单目视频结构和运动预测方法，其特征在于，在步骤1中，训练时使用的视频序列的长度为3帧；对于数据集中400个场景的视频中的每一帧都当作独立的帧处理，得到44540个长度为3帧的视频序列，其中训练集为40109个视频序列，验证集为4431个视频序列。