CN112132915B - 一种基于生成对抗机制的多样化动态延时视频生成方法 - Google Patents

一种基于生成对抗机制的多样化动态延时视频生成方法 Download PDF

Info

Publication number
CN112132915B
CN112132915B CN202010795760.1A CN202010795760A CN112132915B CN 112132915 B CN112132915 B CN 112132915B CN 202010795760 A CN202010795760 A CN 202010795760A CN 112132915 B CN112132915 B CN 112132915B
Authority
CN
China
Prior art keywords
motion
video
phi
optical flow
texture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010795760.1A
Other languages
English (en)
Other versions
CN112132915A (zh
Inventor
刘勇
徐超
张江宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010795760.1A priority Critical patent/CN112132915B/zh
Publication of CN112132915A publication Critical patent/CN112132915A/zh
Application granted granted Critical
Publication of CN112132915B publication Critical patent/CN112132915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法,先将光流序列编码成一个标准正态分布的运动向量,然后使用单张静态风景图和运动向量作为输入,采用运动和纹理信息分解设计的思想,预测生成动态延时视频。光流编码模块输入光流序列,输出编码后的标准正态分布的运动向量。动态视频生成模块输入单张静态图和光流编码模块编码的运动向量,独立的纹理分支和运动分支负责提取各自的信息,并在最后将纹理和运动信息进行结合生成动态的延时视频。使用L1损失函数作为运动损失函数对运动分支输出的低分辨率光流图进行监督,此外还有视频鉴别器对视频的纹理和运动信息进行进一步的监督,以生成高真实度的动态视频。

Description

一种基于生成对抗机制的多样化动态延时视频生成方法
技术领域
本发明涉及一种视频生成方法,具体地,涉及一种基于生成对抗机制的多样化动态延时视频生成方法。
背景技术
基于单张图片生成动态视频的技术在实际生产和生活娱乐中都有极大的应用潜力。比如可以基于一张肖像画生成动态的假视频,也可以应用在机器人控制领域,预测控制对象的运动趋势,实现更好的物理交互。随着深度学习的发展以及大规模数据集的出现,生成高真实度的视频已经成为现实,而基于单张静态图到动态视频的生成技术可以使用更少的数据输入而生成同样丰富真实的视频。目前已有的方法一般都是二阶段方法,难以训练优化。另外一种方法首先生成关键点序列,再基于关键点序列生成动态视频,这类方法生成的视频单一,对于无法提取关键点的自然风光图无法适用,也同样没法端到端训练和推理。针对这些问题,亟待一种端到端的基于单张静态图的多样化的动态视频预测生成框架。
发明内容
本发明针对目前的方法不能很好地实现端到端的单张静态图生成多样化动态视频这一问题,提出了一种基于生成对抗机制的多样化动态延时视频生成方法。
本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法,包括光流编码模块和动态视频生成模块;所述光流编码模块包括光流估计网络FE和3D编码器ψ,原始视频序列I0~T通过光流估计网络FE提取光流序列,记为U1~T,光流序列U1~T输入3D编码器ψ编码生成运动向量,同时将运动向量标准化为标准正态分布,记为f;
为了让运动向量对高层和底层特征有很好的自适应性,通过2层全连接层和和激活函数将运动向量映射为自适应运动向量
Figure BDA0002625495060000011
与动态视频生成模块中各个ResBlock输出的少量纹理特征和丰富的动态特征进行对应;
所述动态视频生成模块包括编码器φE,运动分支φM,纹理分支φC,解码器φD
输入自适应运动向量
Figure BDA0002625495060000012
和单张静态图I0,首先编码器φE提取图片的共享底层特征,之后分别通过运动分支φM和纹理分支φC提取运动信息和纹理信息,具体地,运动分支φM通过AdaIN引导网络学习动态的运动特征,然后将纹理特征和运动特征在通道上进行合并,送入解码器φD输出预测生成的动态延时视频
Figure BDA0002625495060000021
作为优选地,光流估计网络FE采用了无监督光流估计网络ARFlow,具体地,ARFlow由23层卷积层组成。
作为优选地,3D编码器ψ是3D编码网络,由6层3D卷积层组成。f映射到
Figure BDA0002625495060000022
的每个映射网络由2层全连接层和激活函数组成。
作为优选地,编码器φE是由3层卷积层组成,运动分支φM是由6个ResBlock+AdaIN组合模块组成,纹理分支φC是由9个ResBlock组成,其中ResBlock是残差模块,由2层卷积层组成;解码器φD是由1层反卷积和1层卷积层组成。
作为优选地,本发明方法在训练时,采用L1损失函数对生成的视频进行纹理约束,采用L1损失函数对运动分支φM输出的低分辨率光流图
Figure BDA0002625495060000023
进行运动信息约束,同时采用了对抗思想的视频鉴别器以进一步增加生成的视频的真实性。
作为优选地,所述视频鉴别器由6层3D卷积层和激活函数组成;
本发明方法在训练时需要保证同一场景的训练视频能够截取至少32帧连续的画面,否则丢弃该训练数据。
作为优选地,所述标准正态分布的运动向量f和自适应运动向量
Figure BDA0002625495060000024
定义为长度为512的向量,I0是三通道的128*128分辨率的彩色图像,U1~T是32帧连续的二通道光流图组成的序列,
Figure BDA0002625495060000025
是32帧连续的三通道彩色图组成的序列。
与现有技术相比,本发明的有益效果是:
本发明方法基于Py-Torch深度学习框架,先将光流序列编码成一个标准正态分布的运动向量,然后使用单张静态风景图和运动向量作为输入,采用运动和纹理信息分解设计的思想,预测生成动态延时视频。这样的设计使用光流来编码运动信息,可以实现端到端的训练,同时在测试阶段可以用任意的标准正态分布的运动向量生成多样化的动态延时视频。本发明方法由光流编码模块和动态视频生成模块构成。光流编码模块输入光流序列,输出编码后的标准正态分布的运动向量。动态视频生成模块输入单张静态图(提供纹理信息)和光流编码模块编码的运动向量(提供运动信息),独立的纹理分支和运动分支负责提取各自的信息,并在最后将纹理和运动信息进行结合生成动态的延时视频。整个训练过程中,使用L1损失函数作为纹理损失函数对视频的纹理信息进行监督,同时使用L1损失函数作为运动损失函数对运动分支输出的低分辨率光流图进行监督,此外还有视频鉴别器对视频的纹理和运动信息进行进一步的监督,以生成高真实度的动态视频。
附图说明:
图1是本发明中光流编码模块的功能结构示意图;
图2是本发明中动态视频生成模块的功能结构示意图;
图3是本发明中光流编码模块和动态视频生成模块整体的功能结构示意图;
图4是本发明应用在Sky Time-lapse dataset数据集上的效果示意图,其中,第一列为输入的静态图片I0,第一行是真值序列I1~t,第二行是所述方法预测生成的序列
Figure BDA0002625495060000031
图5是本发明应用在在Beach数据集上的效果示意图,其中,第一列为输入的静态图片I0,第一行是真值序列I1~t,第二行是所述方法预测生成的序列
Figure BDA0002625495060000032
其中,图4、图5中应用的Sky Time-lapse dataset、Beach数据集均是公开的现有数据集;图4、图5中展示的是采样后的不同时刻的帧,分别是t=2,6,10,14,18,22,26,30时刻对应的帧,实际上是一个32帧的视频。
具体实施方式:
以下结合说明书附图及具体实施例来对本发明作进一步的描述。
如图1~5所示,本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法的具体实施例,包括光流编码模块和动态视频生成模块;所述光流编码模块包括光流估计网络FE和3D编码器ψ,原始视频序列I0~T通过光流估计网络FE提取光流序列,记为U1~T,光流序列U1~T输入3D编码器ψ编码生成运动向量,同时将运动向量标准化为标准正态分布,记为f;
为了让运动向量对高层和底层特征有很好的自适应性,通过2层全连接层和和激活函数将运动向量映射为自适应运动向量
Figure BDA0002625495060000033
与动态视频生成模块中各个ResBlock输出的少量纹理特征和丰富的动态特征进行对应;
所述动态视频生成模块包括编码器φE,运动分支φM,纹理分支φC,解码器φD
输入自适应运动向量
Figure BDA0002625495060000034
和单张静态图I0,首先编码器φE提取图片的共享底层特征,之后分别通过运动分支φM和纹理分支φC提取运动信息和纹理信息,具体地,运动分支φM通过AdaIN引导网络学习动态的运动特征,然后将纹理特征和运动特征在通道上进行合并,送入解码器φD输出预测生成的动态延时视频
Figure BDA0002625495060000035
其中,光流估计网络FE采用了无监督光流估计网络ARFlow,具体地,ARFlow由23层卷积层组成。
3D编码器ψ是3D编码网络,由6层3D卷积层组成。f映射到
Figure BDA0002625495060000041
的每个映射网络由2层全连接层和激活函数组成。
编码器φE是由3层卷积层组成,运动分支φM是由6个ResBlock+AdaIN组合模块组成,纹理分支φC是由9个ResBlock组成,其中ResBlock是残差模块,由2层卷积层组成;解码器φD是由1层反卷积和1层卷积层组成。
本发明方法在训练时,采用L1损失函数对生成的视频进行纹理约束,采用L1损失函数对运动分支φM输出的低分辨率光流图
Figure BDA0002625495060000042
进行运动信息约束,同时采用了对抗思想的视频鉴别器以进一步增加生成的视频的真实性。所述视频鉴别器由6层3D卷积层和激活函数组成;
本发明方法在训练时需要保证同一场景的训练视频能够截取至少32帧连续的画面,否则丢弃该训练数据。
所述标准正态分布的运动向量f和自适应运动向量
Figure BDA0002625495060000043
定义为长度为512的向量,I0是三通道的128*128分辨率的彩色图像,U1~T是32帧连续的二通道光流图组成的序列,
Figure BDA0002625495060000044
是32帧连续的三通道彩色图组成的序列。
本发明方法基于Py-Torch深度学习框架,先将光流序列编码成一个标准正态分布的运动向量,然后使用单张静态风景图和运动向量作为输入,采用运动和纹理信息分解设计的思想,预测生成动态延时视频。这样的设计使用光流来编码运动信息,可以实现端到端的训练,同时在测试阶段可以用任意的标准正态分布的运动向量生成多样化的动态延时视频。本发明方法由光流编码模块和动态视频生成模块构成。光流编码模块输入光流序列,输出编码后的标准正态分布的运动向量。动态视频生成模块输入单张静态图(提供纹理信息)和光流编码模块编码的运动向量(提供运动信息),独立的纹理分支和运动分支负责提取各自的信息,并在最后将纹理和运动信息进行结合生成动态的延时视频。整个训练过程中,使用L1损失函数作为纹理损失函数对视频的纹理信息进行监督,同时使用L1损失函数作为运动损失函数对运动分支输出的低分辨率光流图进行监督,此外还有视频鉴别器对视频的纹理和运动信息进行进一步的监督,以生成高真实度的动态视频。

Claims (7)

1.一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,包括光流编码模块和动态视频生成模块;
所述光流编码模块包括光流估计网络FE和3D编码器ψ,原始视频序列I0~T通过光流估计网络FE提取光流序列,记为U1~T,光流序列U1~T输入3D编码器ψ编码生成运动向量,同时将运动向量标准化为标准正态分布,记为f;
为了让运动向量对高层和底层特征有很好的自适应性,通过2层全连接层和和激活函数将运动向量映射为自适应运动向量
Figure FDA0002625495050000011
与动态视频生成模块中各个ResBlock输出的少量纹理特征和丰富的动态特征进行对应;
所述动态视频生成模块包括编码器φE,运动分支φM,纹理分支φC,解码器φD
输入自适应运动向量
Figure FDA0002625495050000012
和单张静态图I0,首先编码器φE提取图片的共享底层特征,之后分别通过运动分支φM和纹理分支φC提取运动信息和纹理信息,具体地,运动分支φM通过AdaIN引导网络学习动态的运动特征,然后将纹理特征和运动特征在通道上进行合并,送入解码器φD输出预测生成的动态延时视频
Figure FDA0002625495050000013
2.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,光流估计网络FE采用了无监督光流估计网络ARFlow,具体地,ARFlow由23层卷积层组成。
3.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,3D编码器ψ是3D编码网络,由6层3D卷积层组成。
4.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,编码器φE是由3层卷积层组成,运动分支φM是由6个ResBlock+AdaIN组合模块组成,纹理分支φC是由9个ResBlock组成,其中ResBlock是残差模块,由2层卷积层组成;解码器φD是由1层反卷积和1层卷积层组成。
5.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,采用L1损失函数对生成的视频进行纹理约束,采用L1损失函数对运动分支φM输出的低分辨率光流图
Figure FDA0002625495050000014
进行运动信息约束,同时采用了对抗思想的视频鉴别器以进一步增加生成的视频的真实性。
6.根据权利要求5中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,所述视频鉴别器由6层3D卷积层和激活函数组成;
在训练时需要保证同一场景的训练视频能够截取至少32帧连续的画面,否则丢弃该训练数据。
7.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,所述标准正态分布的运动向量f和自适应运动向量
Figure FDA0002625495050000021
定义为长度为512的向量,I0是三通道的128*128分辨率的彩色图像,U1~T是32帧连续的二通道光流图组成的序列,
Figure FDA0002625495050000022
是32帧连续的三通道彩色图组成的序列。
CN202010795760.1A 2020-08-10 2020-08-10 一种基于生成对抗机制的多样化动态延时视频生成方法 Active CN112132915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010795760.1A CN112132915B (zh) 2020-08-10 2020-08-10 一种基于生成对抗机制的多样化动态延时视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010795760.1A CN112132915B (zh) 2020-08-10 2020-08-10 一种基于生成对抗机制的多样化动态延时视频生成方法

Publications (2)

Publication Number Publication Date
CN112132915A CN112132915A (zh) 2020-12-25
CN112132915B true CN112132915B (zh) 2022-04-26

Family

ID=73850696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010795760.1A Active CN112132915B (zh) 2020-08-10 2020-08-10 一种基于生成对抗机制的多样化动态延时视频生成方法

Country Status (1)

Country Link
CN (1) CN112132915B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750185A (zh) * 2021-01-19 2021-05-04 清华大学 一种肖像画视频生成方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101087437A (zh) * 2007-06-21 2007-12-12 清华大学 基于光流场的平面视频转立体视频的方法
CN101548277A (zh) * 2006-09-18 2009-09-30 外星人实验室公司 多并行处理器的计算机图形系统
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置
CN111145282A (zh) * 2019-12-12 2020-05-12 科大讯飞股份有限公司 虚拟形象合成方法、装置、电子设备和存储介质
CN111294598A (zh) * 2019-02-08 2020-06-16 北京达佳互联信息技术有限公司 一种视频编解码方法及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170004646A1 (en) * 2015-07-02 2017-01-05 Kelly Phillipps System, method and computer program product for video output from dynamic content
US9934818B1 (en) * 2016-09-23 2018-04-03 Apple Inc. Automated seamless video loop

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101548277A (zh) * 2006-09-18 2009-09-30 外星人实验室公司 多并行处理器的计算机图形系统
CN101087437A (zh) * 2007-06-21 2007-12-12 清华大学 基于光流场的平面视频转立体视频的方法
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置
CN111294598A (zh) * 2019-02-08 2020-06-16 北京达佳互联信息技术有限公司 一种视频编解码方法及设备
CN111145282A (zh) * 2019-12-12 2020-05-12 科大讯飞股份有限公司 虚拟形象合成方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S. Aigner, M. Körner.FUTUREGAN: ANTICIPATING THE FUTURE FRAMES OF VIDEO SEQUENCES USING SPATIO-TEMPORAL 3D CONVOLUTIONS IN PROGRESSIVELY GROWING GANS.《The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences》.2019, *
基于深度学习的视频语义分割综述;韩利丽等;《计算机系统应用》;20191215(第12期);第5-12页 *
视频感兴趣区域快速提取与编码算法;刘鹏宇等;《电路与系统学报》;20130415(第02期);第417-423页 *

Also Published As

Publication number Publication date
CN112132915A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN113837938B (zh) 基于动态视觉传感器重建潜在图像的超分辨率方法
CN117094419B (zh) 面向多模态内容输出的大语言模型训练方法、装置及介质
CN113657388A (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN114007135B (zh) 视频插帧方法及其装置、设备、介质、产品
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN110610467A (zh) 一种基于深度学习的多帧视频去压缩噪声方法
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN111460876A (zh) 用于识别视频的方法和装置
CN112132915B (zh) 一种基于生成对抗机制的多样化动态延时视频生成方法
CN118015159A (zh) 角色视频生成方法、装置、电子设备及存储介质
CN116451398A (zh) 一种基于条件扩散模型的城市路网布局设计方法
CN117078539A (zh) 基于CNN-Transformer的局部全局交互式图像恢复方法
CN116091288A (zh) 一种基于扩散模型的图像隐写方法
CN116091978A (zh) 一种基于高级语义信息特征编码的视频描述方法
CN117391920A (zh) 基于rgb通道差分平面的大容量隐写方法及系统
EP4391533A1 (en) Feature map encoding method and apparatus and feature map decoding method and apparatus
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及系统
US11928855B2 (en) Method, device, and computer program product for video processing
CN115797178A (zh) 一种基于3d卷积的视频超分辨率的方法
CN113781376B (zh) 一种基于分治融合的高清人脸属性编辑方法
CN113436094B (zh) 一种基于多视角注意力机制的灰度图像自动上色方法
CN115690238A (zh) 图像生成及模型训练方法、装置、设备和存储介质
Tonchev et al. Semantic Communication System for 3D Video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant