CN111986105A

CN111986105A - 基于时域去噪掩码的视频时序一致性增强方法

Info

Publication number: CN111986105A
Application number: CN202010733344.9A
Authority: CN
Inventors: 徐行; 周逸峰; 沈复民; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-11-24
Anticipated expiration: 2040-07-27
Also published as: CN111986105B

Abstract

本发明公开了一种基于时域去噪掩码的视频时序一致性增强方法，属于视频处理领域。为解决现有图像处理方法不能在时序一致性和感知一致性之间达到很好的平衡，且其对应的输出效果很大程度上依赖于视频的预处理算法的问题，本申请方法包括：首先，对源视频进行采样，并进行预处理；其次，提取源视频的帧序列中的时序特征，并提取经预处理后视频的帧序列中的感知特征；然后，根据所述时序特征及所述感知特征构建时序去噪掩码网络，并通过所述构建的时序去噪网络重构源视频帧，并训练时序去噪掩码网络；最后，通过所述训练好的时序去噪掩码网络将输入的视频输出为时序稳定的视频。本发明能够减少图像处理算法的依赖性，进而能够增强视频时序一致性。

Description

基于时域去噪掩码的视频时序一致性增强方法

技术领域

本发明属于视频处理领域，具体涉及一种基于时域去噪掩码的视频时序一致性增强方法。

背景技术

由于现有基于图像的处理算法的可扩展性存在缺陷，基于时间一致性的视频处理技术的发展受到越来越多的关注。通常，将这些基于图像的算法独立地应用于每个视频帧通常会由于这些算法的全局不稳定性而导致闪烁。增强视频时序稳定性就是去消除这些不稳定的区域使得输出视频更加稳定连续。这不仅有重要的学术意义，而且有广泛的应用价值，视频稳定性的增强可以将多种图像算法直接拓展到视频域中。

基于图像的处理算法导致该类算法迁移至视频问题时缺少了时间维度上的全局信息，帧与帧之间的独立操作可能会导致感知内容的不一致性，不同种类的处理算法导致的闪烁形式和程度是不同的，因此难以设计出一种可以将所有图像处理方法拓展至视频域的算法。现有方法的解决思路通常是对预处理后的帧进行再修改，进而消视频帧中的不稳定区域。主要有两类方法：

1)视频时序一致性的梯度域优化算法：梯度域优化算法主要通过计算源视频帧与预处理视频帧的梯度值，通过优化两者之间的数值距离，从时域中平滑预处理的视频帧，实现视频时序一致性的增强。

2)视频时序一致性的深度学习方法：这些方法旨在利用深度神经网络对非线性关系的抽象能力，达到对源视频的时序一致性的提取以及迁移。现有方法一般通过构建卷积LSTM网络结构建模学习源视频中的时序一致性。通过输出帧之间的短期和长期时间损失最小化，实现视频时序一致性的增强。

由此可知，现有的这两类方法都不能在时序一致性和感知一致性两者之间达到一个很好的平衡，同时其对应的输出效果很大程度上依赖于视频的预处理算法。

发明内容

本发明的目的是提供一种基于时域去噪掩码的视频时序一致性增强方法，旨在解决现有图像处理方法不能在时序一致性和感知一致性之间达到很好的平衡，且其对应的输出效果很大程度上依赖于视频的预处理算法的问题。

本发明解决其技术问题，采用的技术方案是：基于时域去噪掩码的视频时序一致性增强方法，包括如下步骤：

步骤1、对源视频进行采样，并进行预处理；

步骤2、提取源视频的帧序列中的时序特征，并提取经预处理后视频的帧序列中的感知特征；

步骤3、根据所述时序特征及所述感知特征构建时序去噪掩码网络，并通过所述构建的时序去噪网络重构源视频帧，并训练时序去噪掩码网络；

步骤4、通过所述训练好的时序去噪掩码网络将输入的视频输出为时序稳定的视频。

进一步的是，步骤1中，所述预处理具体包括如下步骤：

步骤101、使用基于图像的算法对源视频的帧序列进行逐帧的处理；

步骤102、使用光流预测网络计算源视频中每一帧的光流图。

进一步的是，步骤2中，首先构建特征提取网络，通过所述特征提取网络进行时序特征及感知特征的提取；

所述特征提取网络为残差网络。

进一步的是，步骤3中，所述构建的时序去噪掩码网络为三元时序去噪掩码网络；

利用所述三元时序去噪掩码网络生成对偶光流图、运动遮罩图及残差精炼图。

进一步的是，所述三元时序去噪掩码网络的构建方法包括如下步骤：

步骤301、根据对偶光流约束以及感知特征运用卷积网络构建对偶光流图M_f；

步骤302、根据相邻连续帧间特征运用卷积网络构建运动遮罩图M_m；

步骤303、根据时序一致性约束以及感知特征运用卷积网络构建残差精炼图M_r。

进一步的是，步骤301中，所述对偶光流约束包括第一光流约束及第二光流约束；

所述第一光流约束为：最小化源视频的光流图于软光流图M_f的曼哈顿距离；

所述第二光流约束为：先根据前向光流对最终输出帧进行后向弯曲操作，然后最小化弯曲后的结果与前面输出帧的曼哈顿距离。

进一步的是，步骤3中，通过所述构建的时序去噪网络重构源视频帧时，其具体步骤如下：

步骤311、根据对偶光流图M_f对预处理视频中的前一帧进行弯曲操作；

步骤312、根据运动遮罩图M_m将上一时刻输出帧和所述进行弯曲操作后生成的帧进行融合；

步骤313、将残差精炼图M_r叠加在融合结果上的抑制闪烁区域，将源视频帧进行重构。

进一步的是，步骤3中，训练时序去噪掩码网络时，其具体步骤如下：

步骤321、根据光流计算源视频帧的真实运动遮罩；

步骤322、定义整个网络的损失函数，采用随机梯度下降算法对网络进行训练，所述整个网络的损失函数为网络各个子部分损失函数的线性相加结果。

进一步的是，步骤322中，所述网络各个子部分损失函数包括：对偶光流损失函数、时序一致性损失函数、图像感知损失函数及运动遮罩损失函数；

所述对偶光流损失函数至少包括：对偶光流约束；

所述时序一致性损失函数为：使用光流预处网络预测后向光流，对前一输出帧基于光流的前向弯曲，其弯曲结果与当前输出帧的曼哈顿距离；

所述图像感知损失函数为：生成帧与预处理帧通过SqueezeNet的得到的特征层的曼哈顿距离；

所述运动遮罩损失为：真实运动遮罩与运动遮罩图M_m的曼哈顿距离。

进一步的是，步骤4具体包括如下步骤：

步骤401、使用任意基于图像的图像处理算法独立应用于每个视频帧得到预处理后的视频帧序列；

步骤402、随机抽取源视频帧和预处理视频帧中的连续两帧作为输入块，并生成对应的对偶光流图、运动遮罩图及残差精炼图；

步骤403、使用对偶光流图、运动遮罩图及残差精炼图生成时序稳定的视频帧。

本发明的有益效果是，通过上述基于时域去噪掩码的视频时序一致性增强方法，将视频时序一致性看作是时序的去噪问题，通过构建时序去噪掩码网络来去除经预处理过的帧中存在的“噪声”，联合合成高质量稳定视频帧序列，增强其时序一致性；并且，根据源视频中提取的时序特征和预处理视频中提取的感知特征，将时序特征迁移至预处理视频中同时极大程度上保留预处理算法的感知特征，在保证视频时序一致性增强的同时，也减少了对于预处理算法的依赖程度。

附图说明

图1为本发明基于时域去噪掩码的视频时序一致性增强方法的流程图；

图2为本发明实施例2中基于本发明视频时序一致性增强的神经网络连接框架图；

图3为本发明实施例2中时序去噪掩码图生成模块的网络框架结构图；

图4为本发明实施例2第二光流约束以及时序一致性约束计算的示意图。

具体实施方式

下面结合附图及实施例，详细描述本发明的技术方案。

本发明所述的基于时域去噪掩码的视频时序一致性增强方法，其流程图见图1，其中，该方法包括如下步骤：

步骤1、对源视频进行采样，并进行预处理。

步骤2、提取源视频的帧序列中的时序特征，并提取经预处理后视频的帧序列中的感知特征。

步骤3、根据所述时序特征及所述感知特征构建时序去噪掩码网络，并通过所述构建的时序去噪网络重构源视频帧，并训练时序去噪掩码网络。

这里，通过本发明提出的上述方法，将视频时序一致性看作是时序的去噪问题，通过构建时序去噪掩码网络来去除经预处理过的帧中存在的“噪声”，联合合成高质量稳定视频帧序列，增强其时序一致性；并且，根据源视频中提取的时序特征和预处理视频中提取的感知特征，将时序特征迁移至预处理视频中同时极大程度上保留预处理算法的感知特征，在保证视频时序一致性增强的同时，也减少了对于预处理算法的依赖程度。

上述方法的步骤1中，为了能够较好的获取视频的帧序列中的感知特征，预处理具体可包括如下步骤：步骤101、使用基于图像的算法对源视频的帧序列进行逐帧的处理；步骤 102、使用光流预测网络计算源视频中每一帧的光流图。通过该预处理过程，在后续步骤获取视频的帧序列中的感知特征时，其所获得的感知特征更符合视频处理要求。

作为优选，步骤2中，为了实现有效的实现特征提取，可以首先构建特征提取网络，再通过特征提取网络进行时序特征及感知特征的提取；另外，由于残差网络的特点是容易优化，这里，为了能够通过增加相当的深度来提高特征提取的准确率，特征提取网络可以优选为残差网络。

作为优选，步骤3中，构建的时序去噪掩码网络优选为三元时序去噪掩码网络，可以利用三元时序去噪掩码网络生成对偶光流图、运动遮罩图及残差精炼图。这里，采用对偶光流约束获得视频帧之间的时序关系，避免了仅使用单向光流约束引起的时序误差，同时，采用了运动遮罩图高效利用了前帧的冗余信息，改善了仅仅使用残差图引起的优化不足的问题。

具体而言，三元时序去噪掩码网络的构建方法可包括如下步骤：

步骤301、根据对偶光流约束以及感知特征运用卷积网络构建对偶光流图M_f。

其中，可以通过设计对偶光流约束来提高对软光流的生成质量、重构视频帧的时序信息保留，而不是直接使用光流约束进行时序特征的提取，避免模型忽视较小局部区域的闪烁问题，从而达到高质量的时序去噪效果。

这里，对偶光流约束可以包括第一光流约束及第二光流约束；

第一光流约束为：最小化源视频的光流图于软光流图M_f的曼哈顿距离；

第二光流约束为：先根据前向光流对最终输出帧进行后向弯曲操作，然后最小化弯曲后的结果与前面输出帧的曼哈顿距离。

步骤302、根据相邻连续帧间特征运用卷积网络构建运动遮罩图M_m。

这里，由于采用了运动遮罩图，将前帧的冗余信息进行提取并融入当前帧中，增加了模型的时序感受野，使得重构信息不仅仅依赖于残差图，避免了重构过程中由于忽略前帧特征造成的单一性。

另外，步骤3中，通过构建的时序去噪网络重构源视频帧时，其具体步骤如下：

步骤311、根据对偶光流图M_f对预处理视频中的前一帧进行弯曲操作。

步骤312、根据运动遮罩图M_m将上一时刻输出帧和进行弯曲操作后生成的帧进行融合。

步骤313、将残差精炼图M_r叠加在融合结果上的抑制闪烁区域，将源视频帧进行重构，能够弥补丢失信息。

另外，步骤3中，训练时序去噪掩码网络时，其具体步骤如下：

步骤321、根据光流计算源视频帧的真实运动遮罩；

步骤322、定义整个网络的损失函数，采用随机梯度下降算法对网络进行训练，整个网络的损失函数为网络各个子部分损失函数的线性相加结果；

其中，网络各个子部分损失函数可以包括：对偶光流损失函数、时序一致性损失函数、图像感知损失函数及运动遮罩损失函数；

对偶光流损失函数至少包括：对偶光流约束；

时序一致性损失函数为：使用光流预处网络预测后向光流，对前一输出帧基于光流的前向弯曲，其弯曲结果与当前输出帧的曼哈顿距离；

图像感知损失函数为：生成帧与预处理帧通过SqueezeNet的得到的特征层的曼哈顿距离；

运动遮罩损失为：真实运动遮罩与运动遮罩图M_m的曼哈顿距离。

具体而言，步骤4具体包括如下步骤：

实施例1

本实施例中的基于时域去噪掩码的视频时序一致性增强方法，将视频中增强时序一致性看作一个时域去噪问题，它可以消除给定不稳定预处理帧中的闪烁效应。

具体来说，时序去噪掩码合成网络中，预测运动遮罩掩码、软光流和残差精炼图来合成高时序一致的帧。从原始视频中学特征提取网络习时序一致性，并将学习到的时序特征应用于对特定基于图像的处理算法不可知(盲)的输出帧进行重新处理。然后采用对偶光流约束、采用时序一致性约束、采用图像感知损失以及运动遮罩损失，经过整个网络训练后进行视频时序一致性增强。

增强视频时序一致性消除视频帧序列中闪烁效应,只使用时序一致性约束不能消除局部闪烁。例如：在一致性约束中，模型会通过质信度过滤掉一些光流图中指出的较小的不稳定区域，而在本任务中这些区域恰好是造成闪烁效应的来源。

本实例中通过在源域、经图像处理算法映射到的目标域中的两种光流信息进行约束，增强了网络对于局部闪烁效应的感知度。

这里，将视频时序一致性问题转化为时间去噪任务，以残差网络提取源视频时序特征以及预处理视频地感知特征，利用时序去噪掩码生成模块分别生成了软光流、运动遮罩图、残差精炼图，并合成高质量稳定视频帧序列，增强其时序一致性，同时也减少了对于预处理算法的依赖程度。

实施例2

本实施例的基于时域去噪掩码的视频时序一致性增强方法，主要包括步骤S1-步骤S6，基于本发明视频时序一致性增强的神经网络连接框架见图2，其中：

步骤S1：对视频进行采样，并进行预处理。

一段视频通常有大量的帧，如果都当作输入进行后续运算，需要花费巨大计算代价，而且这其中有很多信息是相似的，存在冗余，所以首先需对视频进行采样得到帧序列

其中：T为帧序列的个数。使用基于图像的处理算法对抽样得到的视频帧逐一进行预处理得到

预处理算法分为两类：第一类是传统的图像增强方法；第二类是基于神经网络的图像处理方法。同时通过光流网络对源视频帧序列的光流进行提取。

步骤S2：构建特征提取网络，在输入源视频帧序列中提取时序特征，在预处理视频帧序列中提取空间特征。

本实施例中将输入块分为源视频的帧对

以及目标域帧对

本实例中将第一帧预处理帧视为第一帧输出帧即

接着使用非监督的方式从源视频帧对中提取时序特征，在预处理视频帧对中提取纹理感知特征。

步骤S3：构建三元时序去噪掩码网络。

具体地：将时序特征以及纹理感知特征再运用卷积网络进行融合，分别构建三个残差子网络去预测构建软光流M_f、运动遮罩图M_m、残差精炼图M_r。

步骤S3具体包括以下步骤：

步骤S31：如图3所示，其为时序去噪掩码图生成模块的网络框架结构图，在光流生成器中，根据对偶光流约束以及感知特征运用卷积网络构建软光流

网络结构采用，3个残差网络块来进行预测，最后使用反卷积操作输出与输入帧大小相同的软光流图。采用监督学习的方法让软光流预测子网络生成与真实光流相差不大的光流图，采用曼哈顿距离进行约束：

在训练阶段源视频的光流信息

被视为目标光流。其中T是抽样帧序列的个数。同时如图4所示，其为第二光流约束以及时序一致性约束计算的示意图，其中，设计第二光流约束能够避免模型忽视较小局部区域的闪烁问题，从而达到高质量的时序去噪效果。其第二光流约束是在目标域中的光流约束：

其中

是在输出帧

之间计算的光流图。最终将两个光流约束进行线性相加就可以得到最终的对偶光流约束。

步骤S32：如图3所示，在运动遮罩图生成器中，根据相邻连续帧间特征运用卷积网络构建运动遮罩图

网络结构采用，3个残差网络块来进行预测，最后使用反卷积操作输出与输入帧大小相同的运动遮罩图。采用监督学习的方法让运动遮罩预测子网络生成与真实遮罩相差不大的遮罩图，运动遮罩的值从0到1不等。对于变换剧烈的区域M_m的值趋向于1，这表明生成网络需要采用

中的特征；对于冗余区域，M_m的值趋向于0，这表明生成网络需要采用

中的特征。在训练阶段M_m的目的是混合

以及光流弯曲过的

使用真实遮罩图与预测遮罩图的曼哈顿距离进行约束：

其中

由公式3计算得到：

其中α的值经验的取作50其中F_w是指基于双线性插值算法使用光流

对

进行弯曲操作。

步骤S33：如图3所示，在残差精炼图生成器中，根据时序一致性约束以感知特征运用卷积网络构建残差精炼图M_r，网络结构采用，5个残差网络块来进行预测，最后使用反卷积操作输出与输入帧大小相同的残差精炼图。采用非监督学习的方法生成残差精炼图。首先定义时序一致性约束为当前帧与前帧的光流弯曲误差。同时使用遮罩图作为光流图的质信图进行计算，最终时序一致性约束可以表达为公式5：

同时，为了约束网络产生于预处理帧感知度相似的图片帧，根据内容感知损失，采用非监督学习的方法进一步约束残差精炼图。图像感知一致性损失定义为任意两张图片经过特征提取模型在目标层上特征图的曼哈顿距离，最终图像感知一致性约束可以表达为公式6：

其中，T是帧样本数，L是特征提取网络中的层数，p_l(·)代表特征提取网络第l层的输出。

步骤S4具体包括：

步骤S41：根据软光流M_f对预处理视频中的前一帧进行弯曲操作,通过双线性插值算法根据光流图可以对前一帧进行光流弯曲操作得到弯曲帧。

步骤S42：根据运动遮罩图M_m将上一时刻输出帧和S41中生成的帧进行融合,通过软光流和运动遮罩图，通过公式4得到粗粒度的生成帧：

步骤S43：运用残差精炼图M_r叠加在S42的输出上抑制闪烁区域，弥补丢失信息,同时增加纹理细节,最终得到一个细粒度的结果图。

步骤S5对整个网络进行监督式训练,具体包括：

步骤S51：根据光流计算源视频帧的真实运动遮罩具体计算方式如公式4所示，根据该公式可以计算得到数据集中的每一帧的运动遮罩图，本实例中采用预计算的方式，在训练阶段可以不用计算，可以大大降低训练时的计算复杂度。

步骤S52：定义整个网络的损失L_final为网络各个子部分损失函数的线性相加结果，采用随机梯度下降算法对网络进行训练。

其中，λ_p、λ_fs、λ_fd和λ_w是控制每个损失影响的四个超参数。整个网络的损失函数反映模型得到结果和实际结果之间的差异，用来衡量模型预测的好坏。

在实际应用中，利用随机梯度下降(SGD)算法可以使公式10中的目标损失最小化，该算法可以计算梯度并迭代更新模型参数。根据步骤S1中获得的光流图，以及步骤S51中获得的运动遮罩图，每次从数据集中抽取源视频中连续两帧，预处理视频中对应时刻的连续两帧输入进网络中进行训练。需要特别指出的是，在本实例中假定第一帧输出帧等于第一帧预处理帧。

步骤S6：增强视频时序一致性。

步骤S61：使用任意基于图像的图像处理算法独立应用于每个视频帧得到预处理后的视频帧序列。

步骤S62：随机抽取源视频帧和预处理视频帧中的连续两帧作为输入块，并生成对应软光流图、运动遮罩图、残差精炼图。

步骤S63：使用3个时序去噪掩码图生成时序稳定的视频帧。

实施例3

本实施例在实施例1和实施例2的基础上，进一步优化，为了更加准确的评估我们的模型以及已有的模型，本实例提基于已有的评估指标提出了一种新型指标：空间-时序一致性。

空间-时序一致性包含了时序一致性与空间一致性，其中空间一致性又包含了感知指标LPIPS以及视频追踪IOU。时序一致性损失可由公式5计算得到；LPIPS是生成模型中常用的评价感知质量的指标；视频追踪IOU是基于视频追踪任务提出的：给定第一帧的分割图来追踪后序帧中的分割信息，其分割图的IOU衡量了模型的精度，本实例中给定了预处理视频中第一帧的分割标注，再使用视频追踪网络SiamMask进行跟踪预测，最后计算分割图与实际的分割图的IOU，以此来评估生成视频的空间、时间维度上前后一致性。

本实例中采用的数据集为DAVIS以及VIDEVO数据集。两个数据集中的每个视频都根据具体的任务，通过各种基于图像的翻译算法进行处理。主要的图像翻译算法有：(1)图像的风格转换方法WCT,CycleGAN；(2)图像的彩色话算法；(3)图像增强算法；(4)图像本质分解方法等。

在两个视频数据集DAVIS、VIDEVO上测试本发明视频时序稳定性的增强效果。在DAVIS 中选取WCT-antimono；WCT-candy；WCT-sketch；DBL-expertA；colorization；Intrinsic-shading，预处理版本进行训练。剩余的预处理版本全部作为未见过类进行测试，测试比较结果如下表1 所示：

表1

在数据集DAVIS上测试本得到视频追踪的IOU的结果。测试比较结果如下表2所示：

表2

从表1、表2可以看出，本发明在所有的测试集上均优于现有的方法。表1给出了本发明方法在时间一致性和合成时空一致性方面的定量评估，以及在不同的基于图像的预处理算法下的评估结果。我们可以观察到，在两个评估指标下，本发明几乎在所有任务中都优于两个对应的方法。特别是对于所有任务的总分，本发明取得了最好的结果。

表1中的总体比较表明，与两个模型相比，我们的模型在处理各种应用中的不同条件方面具有优越性。此外，我们从视觉跟踪的角度比较了这三种方法，其中IOU结果被用作测量。由于VIDEVO数据集没有分割标签，在DAVIS数据集上测试了三种方法在不同应用下的IOU结果。可以一致地看到，本发明在大多数任务上获得了比其他两种方法更好的IOU结果，并且在所有任务中获得了最好的总和得分。从而再次验证了本发明能够获得更高的处理视频的空间相似度。

Claims

1.基于时域去噪掩码的视频时序一致性增强方法，其特征在于,包括如下步骤：

步骤1、对源视频进行采样，并进行预处理；

2.根据权利要求1所述的基于时域去噪掩码的视频时序一致性增强方法，其特征在于,步骤1中，所述预处理具体包括如下步骤：

步骤102、使用光流预测网络计算源视频中每一帧的光流图。

3.根据权利要求1所述的基于时域去噪掩码的视频时序一致性增强方法，其特征在于,步骤2中，首先构建特征提取网络，通过所述特征提取网络进行时序特征及感知特征的提取；

所述特征提取网络为残差网络。

4.根据权利要求1所述的基于时域去噪掩码的视频时序一致性增强方法，其特征在于,步骤3中，所述构建的时序去噪掩码网络为三元时序去噪掩码网络；

5.根据权利要求4所述的基于时域去噪掩码的视频时序一致性增强方法，其特征在于,所述三元时序去噪掩码网络的构建方法包括如下步骤：

6.根据权利要求5所述的基于时域去噪掩码的视频时序一致性增强方法，其特征在于,步骤301中，所述对偶光流约束包括第一光流约束及第二光流约束；

7.根据权利要求6所述的基于时域去噪掩码的视频时序一致性增强方法，其特征在于,步骤3中，通过所述构建的时序去噪网络重构源视频帧时，其具体步骤如下：

8.根据权利要求1或7所述的基于时域去噪掩码的视频时序一致性增强方法，其特征在于,步骤3中，训练时序去噪掩码网络时，其具体步骤如下：

步骤321、根据光流计算源视频帧的真实运动遮罩；

9.根据权利要求8所述的基于时域去噪掩码的视频时序一致性增强方法，其特征在于,步骤322中，所述网络各个子部分损失函数包括：对偶光流损失函数、时序一致性损失函数、图像感知损失函数及运动遮罩损失函数；

所述对偶光流损失函数至少包括：对偶光流约束；

10.根据权利要求9所述的基于时域去噪掩码的视频时序一致性增强方法，其特征在于,步骤4具体包括如下步骤：