CN112132915B

CN112132915B - 一种基于生成对抗机制的多样化动态延时视频生成方法

Info

Publication number: CN112132915B
Application number: CN202010795760.1A
Authority: CN
Inventors: 刘勇; 徐超; 张江宁
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2022-04-26
Anticipated expiration: 2040-08-10
Also published as: CN112132915A

Abstract

本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法，先将光流序列编码成一个标准正态分布的运动向量，然后使用单张静态风景图和运动向量作为输入，采用运动和纹理信息分解设计的思想，预测生成动态延时视频。光流编码模块输入光流序列，输出编码后的标准正态分布的运动向量。动态视频生成模块输入单张静态图和光流编码模块编码的运动向量，独立的纹理分支和运动分支负责提取各自的信息，并在最后将纹理和运动信息进行结合生成动态的延时视频。使用L1损失函数作为运动损失函数对运动分支输出的低分辨率光流图进行监督，此外还有视频鉴别器对视频的纹理和运动信息进行进一步的监督，以生成高真实度的动态视频。

Description

一种基于生成对抗机制的多样化动态延时视频生成方法

技术领域

本发明涉及一种视频生成方法，具体地，涉及一种基于生成对抗机制的多样化动态延时视频生成方法。

背景技术

基于单张图片生成动态视频的技术在实际生产和生活娱乐中都有极大的应用潜力。比如可以基于一张肖像画生成动态的假视频，也可以应用在机器人控制领域，预测控制对象的运动趋势，实现更好的物理交互。随着深度学习的发展以及大规模数据集的出现，生成高真实度的视频已经成为现实，而基于单张静态图到动态视频的生成技术可以使用更少的数据输入而生成同样丰富真实的视频。目前已有的方法一般都是二阶段方法，难以训练优化。另外一种方法首先生成关键点序列，再基于关键点序列生成动态视频，这类方法生成的视频单一，对于无法提取关键点的自然风光图无法适用，也同样没法端到端训练和推理。针对这些问题，亟待一种端到端的基于单张静态图的多样化的动态视频预测生成框架。

发明内容

本发明针对目前的方法不能很好地实现端到端的单张静态图生成多样化动态视频这一问题，提出了一种基于生成对抗机制的多样化动态延时视频生成方法。

本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法，包括光流编码模块和动态视频生成模块；所述光流编码模块包括光流估计网络FE和3D编码器ψ，原始视频序列I_0～T通过光流估计网络FE提取光流序列，记为U_1～T，光流序列U_1～T输入3D编码器ψ编码生成运动向量，同时将运动向量标准化为标准正态分布，记为f；

为了让运动向量对高层和底层特征有很好的自适应性，通过2层全连接层和和激活函数将运动向量映射为自适应运动向量

与动态视频生成模块中各个ResBlock输出的少量纹理特征和丰富的动态特征进行对应；

所述动态视频生成模块包括编码器φ_E，运动分支φ_M，纹理分支φ_C，解码器φ_D；

输入自适应运动向量

和单张静态图I₀，首先编码器φ_E提取图片的共享底层特征，之后分别通过运动分支φ_M和纹理分支φ_C提取运动信息和纹理信息，具体地，运动分支φ_M通过AdaIN引导网络学习动态的运动特征，然后将纹理特征和运动特征在通道上进行合并，送入解码器φ_D输出预测生成的动态延时视频

作为优选地，光流估计网络FE采用了无监督光流估计网络ARFlow，具体地，ARFlow由23层卷积层组成。

作为优选地，3D编码器ψ是3D编码网络，由6层3D卷积层组成。f映射到

的每个映射网络由2层全连接层和激活函数组成。

作为优选地，编码器φ_E是由3层卷积层组成，运动分支φ_M是由6个ResBlock+AdaIN组合模块组成，纹理分支φ_C是由9个ResBlock组成，其中ResBlock是残差模块，由2层卷积层组成；解码器φ_D是由1层反卷积和1层卷积层组成。

作为优选地，本发明方法在训练时，采用L1损失函数对生成的视频进行纹理约束，采用L1损失函数对运动分支φ_M输出的低分辨率光流图

进行运动信息约束，同时采用了对抗思想的视频鉴别器以进一步增加生成的视频的真实性。

作为优选地，所述视频鉴别器由6层3D卷积层和激活函数组成；

本发明方法在训练时需要保证同一场景的训练视频能够截取至少32帧连续的画面，否则丢弃该训练数据。

作为优选地，所述标准正态分布的运动向量f和自适应运动向量

定义为长度为512的向量，I₀是三通道的128*128分辨率的彩色图像，U_1～T是32帧连续的二通道光流图组成的序列，

是32帧连续的三通道彩色图组成的序列。

与现有技术相比，本发明的有益效果是：

本发明方法基于Py-Torch深度学习框架，先将光流序列编码成一个标准正态分布的运动向量，然后使用单张静态风景图和运动向量作为输入，采用运动和纹理信息分解设计的思想，预测生成动态延时视频。这样的设计使用光流来编码运动信息，可以实现端到端的训练，同时在测试阶段可以用任意的标准正态分布的运动向量生成多样化的动态延时视频。本发明方法由光流编码模块和动态视频生成模块构成。光流编码模块输入光流序列，输出编码后的标准正态分布的运动向量。动态视频生成模块输入单张静态图(提供纹理信息)和光流编码模块编码的运动向量(提供运动信息)，独立的纹理分支和运动分支负责提取各自的信息，并在最后将纹理和运动信息进行结合生成动态的延时视频。整个训练过程中，使用L1损失函数作为纹理损失函数对视频的纹理信息进行监督，同时使用L1损失函数作为运动损失函数对运动分支输出的低分辨率光流图进行监督，此外还有视频鉴别器对视频的纹理和运动信息进行进一步的监督，以生成高真实度的动态视频。

附图说明：

图1是本发明中光流编码模块的功能结构示意图；

图2是本发明中动态视频生成模块的功能结构示意图；

图3是本发明中光流编码模块和动态视频生成模块整体的功能结构示意图；

图4是本发明应用在Sky Time-lapse dataset数据集上的效果示意图，其中，第一列为输入的静态图片I₀，第一行是真值序列I_1～t，第二行是所述方法预测生成的序列

图5是本发明应用在在Beach数据集上的效果示意图，其中，第一列为输入的静态图片I₀，第一行是真值序列I_1～t，第二行是所述方法预测生成的序列

其中，图4、图5中应用的Sky Time-lapse dataset、Beach数据集均是公开的现有数据集；图4、图5中展示的是采样后的不同时刻的帧，分别是t＝2,6,10,14,18,22,26,30时刻对应的帧，实际上是一个32帧的视频。

具体实施方式：

以下结合说明书附图及具体实施例来对本发明作进一步的描述。

如图1～5所示，本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法的具体实施例，包括光流编码模块和动态视频生成模块；所述光流编码模块包括光流估计网络FE和3D编码器ψ，原始视频序列I_0～T通过光流估计网络FE提取光流序列，记为U_1～T，光流序列U_1～T输入3D编码器ψ编码生成运动向量，同时将运动向量标准化为标准正态分布，记为f；

输入自适应运动向量

其中，光流估计网络FE采用了无监督光流估计网络ARFlow，具体地，ARFlow由23层卷积层组成。

3D编码器ψ是3D编码网络，由6层3D卷积层组成。f映射到

的每个映射网络由2层全连接层和激活函数组成。

编码器φ_E是由3层卷积层组成，运动分支φ_M是由6个ResBlock+AdaIN组合模块组成，纹理分支φC是由9个ResBlock组成，其中ResBlock是残差模块，由2层卷积层组成；解码器φ_D是由1层反卷积和1层卷积层组成。

本发明方法在训练时，采用L1损失函数对生成的视频进行纹理约束，采用L1损失函数对运动分支φ_M输出的低分辨率光流图

进行运动信息约束，同时采用了对抗思想的视频鉴别器以进一步增加生成的视频的真实性。所述视频鉴别器由6层3D卷积层和激活函数组成；

所述标准正态分布的运动向量f和自适应运动向量

是32帧连续的三通道彩色图组成的序列。

Claims

1.一种基于生成对抗机制的多样化动态延时视频生成方法，其特征在于，包括光流编码模块和动态视频生成模块；

所述光流编码模块包括光流估计网络FE和3D编码器ψ，原始视频序列I_0～T通过光流估计网络FE提取光流序列，记为U_1～T，光流序列U_1～T输入3D编码器ψ编码生成运动向量，同时将运动向量标准化为标准正态分布，记为f；

输入自适应运动向量

2.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法，其特征在于，光流估计网络FE采用了无监督光流估计网络ARFlow，具体地，ARFlow由23层卷积层组成。

3.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法，其特征在于，3D编码器ψ是3D编码网络，由6层3D卷积层组成。

4.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法，其特征在于，编码器φ_E是由3层卷积层组成，运动分支φ_M是由6个ResBlock+AdaIN组合模块组成，纹理分支φ_C是由9个ResBlock组成，其中ResBlock是残差模块，由2层卷积层组成；解码器φ_D是由1层反卷积和1层卷积层组成。

5.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法，其特征在于，采用L1损失函数对生成的视频进行纹理约束，采用L1损失函数对运动分支φ_M输出的低分辨率光流图

6.根据权利要求5中所述的一种基于生成对抗机制的多样化动态延时视频生成方法，其特征在于，所述视频鉴别器由6层3D卷积层和激活函数组成；

在训练时需要保证同一场景的训练视频能够截取至少32帧连续的画面，否则丢弃该训练数据。

7.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法，其特征在于，所述标准正态分布的运动向量f和自适应运动向量

是32帧连续的三通道彩色图组成的序列。