CN110175951A

CN110175951A - 基于时域一致性约束的视频风格迁移方法

Info

Publication number: CN110175951A
Application number: CN201910409352.5A
Authority: CN
Inventors: 董伟生; 张珍; 谢雪梅; 石光明; 孙璐
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-08-27
Anticipated expiration: 2039-05-16
Also published as: CN110175951B

Abstract

本发明公开了一种基于时域一致性约束的视频风格迁移方法，主要解决现有技术在视频风格迁移中出现的闪烁、前后不连贯的问题。其实现方案为：1)获取视频数据集、风格图像，并离线计算光流信息；2)构建基于时域一致性约束的视频风格转换网络；3)利用视频数据集、风格图像以及光流信息训练风格转换网络模型，更新其各层的权值和偏置；4)将测试视频输入到训练好的风格转换网络模型中，输出结果即为风格化视频。本发明通过训练风格转换网络模型拟合输入视频与风格化视频之间的非线性映射关系，并以这种关系为指导对真实视频进行不同风格的渲染，提高了风格化视频的时域一致性和视觉效果，可用于视频渲染、风格转换的视频处理场景。

Description

基于时域一致性约束的视频风格迁移方法

技术领域

本发明属于视频图像处理技术领域，具体涉及一种视频风格迁移方法，可用于视频渲染、风格转换的视频处理场合。

背景技术

十九世纪以来，不仅艺术家在探索如何创造出更优吸引力的艺术作品，图像处理领域的相关人员也在思考这个问题。随着深度学习的发展，2015年Leon A.Gatys等人在“ANeural Algorithm of Artistic Style[J].Computer Science,2015.”中，提出用深度神经网络模型提取图像的风格特征并将其赋予另一幅图像的算法，该算法被称为“图像风格迁移算法”。艺术作品的风格特征具体包括纹理特征、色彩特征、笔触特征、对比度特征及明暗光线的变化，是一个更为抽象的概念。

近几年，关于图像及视频风格迁移的研究层出不穷。在过去，人们如果需要将一幅真实图像重画为具有艺术风格的合成图像，不仅需要一批训练有素的画家，还需要大量的时间和精力；如果要重画一段视频序列，所耗费的人力物力更是难以想象，因此，使用算法实现图像或视频的风格迁移具有重要的意义。

目前，针对视频风格迁移问题，研究者们已经提出一些优秀的算法。根据算法的基本原理，可以将这些算法分为基于迭代优化的描述性方法和基于深度学习的生成式方法。

基于迭代优化的描述性方法的基本思想是：首先建模并分别提取风格图像的风格信息和内容图像的内容信息，然后在目标图像中将两种信息结合，通过不断迭代优化生成的风格化图像，产生视觉效果良好的结果。目前此类方法最主要的局限性有两点，一是迭代优化过程中计算量十分巨大，非常耗时；二是随机初始化和损失函数的局部极小容易使输出的结果质量较差。

基于迭代优化的视频的风格迁移方法最大的问题在于效率低下，而基于深度学习的生成式方法正好解决了速度和计算量的问题，最初的基于深度学习的生成式神经方法由Justin Johnson等人在“Perceptual Losses for Real-Time Style Transfer andSuper-Resolution[J].2016.”提出，他们通过预训练指定风格的深度神经网络模型，在测试阶段只需前向传播一次就可以产生对应的风格化结果。Justin Johnson等人的风格迁移网络结构设计主要借鉴了Alec Radford等人在“Unsupervised Representation Learningwith Deep Convolutional Generative Adversarial Networks[J].Computer Science,2015.”论文中提出的残差模块和步长卷积。可是如果直接将图像风格迁移算法应用于视频风格迁移问题，前后两帧之间微弱的明亮变化、噪声以及运动，都会在风格转换的过程中产生巨大的差异，从而导致风格化视频的闪烁和不连续性。因此，Huang Haozhi等人在“Real-Time Neural Style Transfer for Videos[C]//IEEE Conference on Computer Vision&Pattern Recognition.2017.”中提出将时域损失函数加入基于卷积神经网络的风格迁移算法中，通过相邻两帧图像的运动矢量估计约束输出结果时域上的一致性。该方法虽说提高了视频的风格转换速度，但又由于没有考虑间隔更远的帧图像之间的时域相关性，导致风格化视频缺少长时一致性，使得风格化视频的连贯效果较差。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种基于时域一致性约束的视频风格迁移方法，以增加风格化视频的时域一致性，提高风格化视频的连贯效果。

本发明的技术方案是：将多组视频帧序列、离线计算的光流信息和风格图像作为视频风格转换网络模型的输入，通过每组帧图像之间的光流信息约束输出结果之间的时域相关性；对视频风格转换网络模型进行训练，拟合输入的真实视频与输出的风格化视频之间的非线性映射关系，并以这种关系为指导对真实视频进行不同风格的渲染，提高风格化视频的时域一致性和视觉效果，同时提高对视频进行风格转换的速度，其实现步骤包括如下：

(1)根据视频训练集V和风格图像a，离线计算光流信息：

(1a)获取视频训练集V和风格图像a，其中V中包含N组视频序列，每组视频序列Ιⁿ包括四幅图像，分别为一段视频的第1帧I₁，第4帧I₄，第6帧I₆和第7帧I₇，其中n＝{1,2,...,N}；

(1b)通过变分光流法计算不同帧图像之间的光流信息和光流置信度信息Cⁿ＝{c^(1,7),c^(4,7),c^(6,7)}，其中表示第i帧到第7帧的光流信息，c^(i,7)表示第i帧与第7帧之间的光流置信度矩阵，其中，i∈{1,4,6}；

(2)构建基于时域一致性约束的视频风格迁移网络：

(2a)设计风格转换网络，该网络包括依次连接的三个底层卷积层、五个残差模块、两个反卷积层和一个高层卷积层；将底层第一个卷积层的输出输入到第二个反卷积层中，将底层第二个卷积层的输出输入到第一个反卷积层中，形成两个跳跃连接；

(2b)设置训练参数，随机初始化风格转换网络的权值σ₀和偏置值β₀；

(3)训练基于时域一致性约束的视频风格转换网络模型：

(3a)每次从视频训练集V中选择一组视频Iⁿ，以及它对应的光流信息Wⁿ、光流置信度信息Cⁿ，作为训练样本，其中n＝{1,2,...,N}；

(3b)将训练样本输入到风格转换网络生成风格化结果Pⁿ，Pⁿ＝{P₁,P₄,P₆,P₇}；

(3c)计算风格化结果的总损失值L_T：

L_T＝λ_sL_s+λ_cL_c+λ_vL_v+λ_tL_t，

其中，L_s表示风格损失值、L_c表示内容损失值、L_v表示全变分损失值、L_t表示时域损失值，λ_s表示风格损失权重，λ_c表示内容损失权重，λ_v表示全变分损失权重，λ_t表示时域损失权重；

(3d)使用总损失值L_T训练风格转换网络模型，更新风格转换网络模型的权值σ和偏置值β；

(3e)循环进行(3a)-(3d)对风格转换网络模型进行迭代优化训练，直到取完视频训练集V中所有的视频序列组，得到训练好的风格转换网络模型；

(4)利用训练好的视频风格转换模型对测试视频进行风格迁移，即将一段测试视频输入到训练好的风格转换网络模型中，风格转换网络模型的输出即为具有时域一致性的风格化视频。

本发明与现有技术相比，具有以下优点：

1.本发明由于采用对输入视频与风格化视频的非线性映射关系预先进行学习，再对非线性关系的视频风格转换网络模型进行训练，可得到能将测试视频转换为风格化视频的视频风格转换网络模型，不仅实现了利用离线视频风格转换模型对测试视频的风格转换，而且所生成的风格化视频具有时域一致性，且能满足实时性的要求；

2.本发明使用视频训练集的光流信息训练风格转换网络，使得该网络生成的风格化视频同时具有短时一致性和长时一致性，提高了风格化结果的视觉效果；

3.本发明在视频风格转换网络结构中加入跳跃连接，将底层卷积层中的局部图像特征直接传递到高层网络的反卷积层中，与高级语义图像特征相结合，提高了网络模型的训练速度。

附图说明

图1为本发明的实现流程图；

图2为采用本发明的方法和基于前向网络的视频风格迁移方法对视频进行风格迁移的效果对比图。

具体实施方式

以下结合附图对本发明的实施例和效果做进一步描述。

参照图1，本发明的实现步骤如下：

步骤1，根据视频训练集V和风格图像a，离线计算光流信息。

(1b)通过现有的变分光流法计算不同帧图像之间的光流信息和光流置信度信息Cⁿ＝{c^(1,7),c^(4,7),c^(6,7)}，其中表示第i帧到第7帧的光流信息，c^(i,7)表示第i帧与第7帧之间的光流置信度矩阵，i∈{1,4,6}。

步骤2，构建基于时域一致性约束的视频风格转换网络。

(2a)设计风格转换网络：

该网络包括依次连接的三个底层卷积层、五个残差模块、两个反卷积层和一个高层卷积层，且底层第一个卷积层的输出输入到第二个反卷积层中，底层第二个卷积层的输出输入到第一个反卷积层中，形成两个跳跃连接，各层参数如下：

第一底层卷积层的卷积核大小为9×9，卷积核数量为32，步长为1；

第二底层卷积层的卷积核大小为3×3，卷积核数量为64，步长为2；

第三底层卷积层的卷积核大小为3×3，卷积核数量为128，步长为2；

第一残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第二残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第三残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第四残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第五残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第一反卷积层的卷积核大小为3×3，卷积核数量为64，步长为0.5；

第二反卷积层的卷积核大小为3×3，卷积核数量为32，步长为0.5；

最后一层高层卷积层的卷积核大小为9×9，卷积核数量3，步长为1；

(2b)设置训练参数，随机初始化风格转换网络的权值σ₀和偏置值β₀。

步骤3，训练基于时域一致性约束的视频风格转换网络。

(3c)根据输入帧序列Iⁿ、光流信息Wⁿ、光流置信度信息Cⁿ和风格化结果Pⁿ计算总损失值L_T：

(3c1)计算风格损失值L_s：

其中，C表示风格特征的维度，H表示风格特征的高度，W表示风格特征的宽度，I_i表示输入帧，P_i表示输出的风格化帧，i∈{1,4,6}，||·||₂代表二范数操作，Φ(I_i)表示使用已有的VGG-19图像分类模型提取输入帧I_i的风格特征，Φ(P_i)表示使用已有的VGG-19图像分类模型提取风格化帧P_i的风格特征，n＝{1,2,...,N}；

(3c2)计算内容损失值L_c：

其中，C表示内容特征的维度，H表示内容特征的高度，W表示内容特征的宽度，I_i表示输入帧，P_i表示输出的风格化帧，i∈{1,4,6}，||·||₂代表二范数操作，Θ(I_i)表示使用已有的VGG-19图像分类模型提取输入帧I_i的内容特征，Θ(P_i)表示使用已有的VGG-19图像分类模型提取风格化帧P_i的内容特征，n＝{1,2,...,N}。

(3c3)计算全变分损失值L_v：

其中，P_i表示风格化帧，i∈{1,4,6}，(x,y)表示坐标值，||·||代表一范数操作，P_i ^(x,y)代表图像P_i上坐标(x,y)处的像素值。

(3c4)计算时域损失函数L_t：

首先，计算长时光流置信度信息：其中长时光流置信度矩阵的计算公式如下：

c^(i,7)表示光流置信度矩阵，i∈{1,4,6}。

接着，对风格化结果Pⁿ的前三帧{P₁,P₄,P₆}做光流变换，得到光流变换结果其中表示风格化帧P_i对应的光流变换结果；

然后，通过以下公式计算时域损失值L_t：

其中，C表示风格化帧的维度，H表示风格化帧的高度，W表示风格化帧的宽度，P₇表示风格化结果的第7帧；

(3c5)根据(3c1)-(3c4)的计算结果计算总损失值L_T：

L_T＝λ_sL_s+λ_cL_c+λ_vL_v+λ_tL_t，

其中λ_s表示风格损失权重，λ_c表示内容损失权重，λ_v表示全变分损失权重，λ_t表示时域损失权重；风格损失权重λ_s值被设置为200，内容损失权重λ_c值被设置为10，全变分损失权重λ_v值被设置为20，时域损失权重λ_t值被设置为0.1。

(3e)循环进行(3a)-(3d)对风格转换网络模型进行迭代优化训练，直到取完视频训练集V中所有的视频序列组，得到训练好的风格转换网络模型。

步骤4，利用训练好的视频风格转换模型对测试视频进行风格迁移。

(4a)将测试视频分解成有序的视频帧序列，并逐帧输入到训练好的视频风格转换模型之中，有序逐帧地输出具有指定风格的风格化结果；

(4b)将输出的风格化帧序列重新合成连续视频，输出风格化视频。

由于本发明构建的风格转换网络是全卷积网络，因此可对任意尺寸的输入视频进行视频风格迁移。

本发明的效果可以通过以下仿真进一步说明。

1、仿真实验条件：

软件环境为：Ubuntu16.04操作系统、Tensorflow-1.4.0-GPU深度学习框架、CUDA8.0显卡驱动、Python2.7编程语言解释器。硬件环境为：Intel i7-5930K CPU、DDR5-128GB内存、GeForce GTX 1080Ti显卡。

仿真实验使用公开的Septuplets视频数据集，取其中30000组视频序列作为训练集；使用公开的MPI-Sintel视频数据集作为测试集。

2、仿真内容：

在上述实验条件下，采用本发明方法和现有的基于前馈网络的视频风格迁移方法，分别对测试视频进行风格迁移，结果如图2。其中，图(2a)是三帧连续的测试帧序列，图(2b)是使用基于前馈网络的视频风格迁移方法对图(2a)进行风格迁移的实验结果，图(2c)是使用本发明对图(2a)进行风格迁移的实验结果。

3、仿真结果分析：

从图2可以看出，图(2c)产生的结果色彩对比度明显高于图(2b)，且在静止的背景区域，图(2c)相邻两帧的风格效果基本一致，而(2b)中具有严重的斑驳现象，同一静止区域风格效果却发生了变化，由此说明本发明相比于基于前馈网络的风格迁移方法可有效地避免风格化视频的闪烁现象，能够产生色彩鲜艳、纹理一致且视觉效果良好的风格化视频。

为了更进一步分析结果的时域一致性，通过时域误差E_temporal定量的衡量不同方法的性能差别，时域误差E_temporal通过如下公式计算：

其中，N代表视频的总帧数，D代表风格化结果的维度，表示第t帧与第t+1帧的光流置信度矩阵，P_t表示输出的第t帧风格化结果，t＝{1,2,...,N}，w(·)表示光流变换操作。

本发明现有基于前馈网络的视频风格迁移方法两种方法比较的数据如下表1：

表1不同方法时域误差对比

从表1可以看出，本发明提出的视频风格迁移方法相比于基于前馈网络的视频风格迁移方法时域误差更低，在时域一致性以及视觉效果等方面有明显的提升。

Claims

1.一种基于时域一致性约束的视频风格迁移方法，其特征在于，包括如下步骤：

(1)根据视频训练集V和风格图像a，离线计算光流信息：

(2)构建基于时域一致性约束的视频风格迁移网络：

(3)训练基于时域一致性约束的视频风格转换网络模型：

(3c)计算风格化结果的总损失值L_T：

L_T＝λ_sL_s+λ_cL_c+λ_vL_v+λ_tL_t，

2.根据权利要求1所述的方法，其特征在于，(2a)中的风格转换网络，其结构参数如下：

最后一层高层卷积层的卷积核大小为9×9，卷积核数量3，步长为1。

3.根据权利要求1所述的方法，其特征在于，(3c)中的风格损失值L_s，通过如下公式计算：

其中，C表示风格特征的维度，H表示风格特征的高度，W表示风格特征的宽度，I_i表示输入帧，P_i表示输出的风格化帧，i∈{1,4,6}，||·||₂代表二范数操作，Φ(I_i)表示使用已有的VGG-19图像分类模型提取输入帧I_i的风格特征，Φ(P_i)表示使用已有的VGG-19图像分类模型提取风格化帧P_i的风格特征，n＝{1,2,...,N}。

4.根据权利要求1所述的方法，其特征在于，(3c)中的内容损失值L_c，通过如下公式计算：

5.根据权利要求1所述的方法，其特征在于，(3c)中的全变分损失值L_v，通过如下公式计算：

6.根据权利要求1所述的方法，其特征在于，(3c)中的时域损失值L_t，其计算如下：

(3c1)计算长时光流置信度信息

先通过如下公式计算长时光流置信度矩阵

其中c^(i,7)表示光流置信度矩阵，i∈{1,4,6}。

再由长时光流置信度矩阵得到长时光流置信度信息

(3c2)对风格化结果Pⁿ的前三帧{P₁,P₄,P₆}做光流变换，得到光流变换结果其中表示风格化帧P_i对应的光流变换结果；

(3c3)计算时域损失值L_t：

其中C表示风格化帧的维度，H表示风格化帧的高度，W表示风格化帧的宽度，P₇表示风格化结果的第7帧。