CN112132915B - 一种基于生成对抗机制的多样化动态延时视频生成方法 - Google Patents
一种基于生成对抗机制的多样化动态延时视频生成方法 Download PDFInfo
- Publication number
- CN112132915B CN112132915B CN202010795760.1A CN202010795760A CN112132915B CN 112132915 B CN112132915 B CN 112132915B CN 202010795760 A CN202010795760 A CN 202010795760A CN 112132915 B CN112132915 B CN 112132915B
- Authority
- CN
- China
- Prior art keywords
- motion
- video
- phi
- optical flow
- texture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法,先将光流序列编码成一个标准正态分布的运动向量,然后使用单张静态风景图和运动向量作为输入,采用运动和纹理信息分解设计的思想,预测生成动态延时视频。光流编码模块输入光流序列,输出编码后的标准正态分布的运动向量。动态视频生成模块输入单张静态图和光流编码模块编码的运动向量,独立的纹理分支和运动分支负责提取各自的信息,并在最后将纹理和运动信息进行结合生成动态的延时视频。使用L1损失函数作为运动损失函数对运动分支输出的低分辨率光流图进行监督,此外还有视频鉴别器对视频的纹理和运动信息进行进一步的监督,以生成高真实度的动态视频。
Description
技术领域
本发明涉及一种视频生成方法,具体地,涉及一种基于生成对抗机制的多样化动态延时视频生成方法。
背景技术
基于单张图片生成动态视频的技术在实际生产和生活娱乐中都有极大的应用潜力。比如可以基于一张肖像画生成动态的假视频,也可以应用在机器人控制领域,预测控制对象的运动趋势,实现更好的物理交互。随着深度学习的发展以及大规模数据集的出现,生成高真实度的视频已经成为现实,而基于单张静态图到动态视频的生成技术可以使用更少的数据输入而生成同样丰富真实的视频。目前已有的方法一般都是二阶段方法,难以训练优化。另外一种方法首先生成关键点序列,再基于关键点序列生成动态视频,这类方法生成的视频单一,对于无法提取关键点的自然风光图无法适用,也同样没法端到端训练和推理。针对这些问题,亟待一种端到端的基于单张静态图的多样化的动态视频预测生成框架。
发明内容
本发明针对目前的方法不能很好地实现端到端的单张静态图生成多样化动态视频这一问题,提出了一种基于生成对抗机制的多样化动态延时视频生成方法。
本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法,包括光流编码模块和动态视频生成模块;所述光流编码模块包括光流估计网络FE和3D编码器ψ,原始视频序列I0~T通过光流估计网络FE提取光流序列,记为U1~T,光流序列U1~T输入3D编码器ψ编码生成运动向量,同时将运动向量标准化为标准正态分布,记为f;
所述动态视频生成模块包括编码器φE,运动分支φM,纹理分支φC,解码器φD;
输入自适应运动向量和单张静态图I0,首先编码器φE提取图片的共享底层特征,之后分别通过运动分支φM和纹理分支φC提取运动信息和纹理信息,具体地,运动分支φM通过AdaIN引导网络学习动态的运动特征,然后将纹理特征和运动特征在通道上进行合并,送入解码器φD输出预测生成的动态延时视频
作为优选地,光流估计网络FE采用了无监督光流估计网络ARFlow,具体地,ARFlow由23层卷积层组成。
作为优选地,编码器φE是由3层卷积层组成,运动分支φM是由6个ResBlock+AdaIN组合模块组成,纹理分支φC是由9个ResBlock组成,其中ResBlock是残差模块,由2层卷积层组成;解码器φD是由1层反卷积和1层卷积层组成。
作为优选地,本发明方法在训练时,采用L1损失函数对生成的视频进行纹理约束,采用L1损失函数对运动分支φM输出的低分辨率光流图进行运动信息约束,同时采用了对抗思想的视频鉴别器以进一步增加生成的视频的真实性。
作为优选地,所述视频鉴别器由6层3D卷积层和激活函数组成;
本发明方法在训练时需要保证同一场景的训练视频能够截取至少32帧连续的画面,否则丢弃该训练数据。
作为优选地,所述标准正态分布的运动向量f和自适应运动向量定义为长度为512的向量,I0是三通道的128*128分辨率的彩色图像,U1~T是32帧连续的二通道光流图组成的序列,是32帧连续的三通道彩色图组成的序列。
与现有技术相比,本发明的有益效果是:
本发明方法基于Py-Torch深度学习框架,先将光流序列编码成一个标准正态分布的运动向量,然后使用单张静态风景图和运动向量作为输入,采用运动和纹理信息分解设计的思想,预测生成动态延时视频。这样的设计使用光流来编码运动信息,可以实现端到端的训练,同时在测试阶段可以用任意的标准正态分布的运动向量生成多样化的动态延时视频。本发明方法由光流编码模块和动态视频生成模块构成。光流编码模块输入光流序列,输出编码后的标准正态分布的运动向量。动态视频生成模块输入单张静态图(提供纹理信息)和光流编码模块编码的运动向量(提供运动信息),独立的纹理分支和运动分支负责提取各自的信息,并在最后将纹理和运动信息进行结合生成动态的延时视频。整个训练过程中,使用L1损失函数作为纹理损失函数对视频的纹理信息进行监督,同时使用L1损失函数作为运动损失函数对运动分支输出的低分辨率光流图进行监督,此外还有视频鉴别器对视频的纹理和运动信息进行进一步的监督,以生成高真实度的动态视频。
附图说明:
图1是本发明中光流编码模块的功能结构示意图;
图2是本发明中动态视频生成模块的功能结构示意图;
图3是本发明中光流编码模块和动态视频生成模块整体的功能结构示意图;
其中,图4、图5中应用的Sky Time-lapse dataset、Beach数据集均是公开的现有数据集;图4、图5中展示的是采样后的不同时刻的帧,分别是t=2,6,10,14,18,22,26,30时刻对应的帧,实际上是一个32帧的视频。
具体实施方式:
以下结合说明书附图及具体实施例来对本发明作进一步的描述。
如图1~5所示,本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法的具体实施例,包括光流编码模块和动态视频生成模块;所述光流编码模块包括光流估计网络FE和3D编码器ψ,原始视频序列I0~T通过光流估计网络FE提取光流序列,记为U1~T,光流序列U1~T输入3D编码器ψ编码生成运动向量,同时将运动向量标准化为标准正态分布,记为f;
所述动态视频生成模块包括编码器φE,运动分支φM,纹理分支φC,解码器φD;
输入自适应运动向量和单张静态图I0,首先编码器φE提取图片的共享底层特征,之后分别通过运动分支φM和纹理分支φC提取运动信息和纹理信息,具体地,运动分支φM通过AdaIN引导网络学习动态的运动特征,然后将纹理特征和运动特征在通道上进行合并,送入解码器φD输出预测生成的动态延时视频
其中,光流估计网络FE采用了无监督光流估计网络ARFlow,具体地,ARFlow由23层卷积层组成。
编码器φE是由3层卷积层组成,运动分支φM是由6个ResBlock+AdaIN组合模块组成,纹理分支φC是由9个ResBlock组成,其中ResBlock是残差模块,由2层卷积层组成;解码器φD是由1层反卷积和1层卷积层组成。
本发明方法在训练时,采用L1损失函数对生成的视频进行纹理约束,采用L1损失函数对运动分支φM输出的低分辨率光流图进行运动信息约束,同时采用了对抗思想的视频鉴别器以进一步增加生成的视频的真实性。所述视频鉴别器由6层3D卷积层和激活函数组成;
本发明方法在训练时需要保证同一场景的训练视频能够截取至少32帧连续的画面,否则丢弃该训练数据。
所述标准正态分布的运动向量f和自适应运动向量定义为长度为512的向量,I0是三通道的128*128分辨率的彩色图像,U1~T是32帧连续的二通道光流图组成的序列,是32帧连续的三通道彩色图组成的序列。
本发明方法基于Py-Torch深度学习框架,先将光流序列编码成一个标准正态分布的运动向量,然后使用单张静态风景图和运动向量作为输入,采用运动和纹理信息分解设计的思想,预测生成动态延时视频。这样的设计使用光流来编码运动信息,可以实现端到端的训练,同时在测试阶段可以用任意的标准正态分布的运动向量生成多样化的动态延时视频。本发明方法由光流编码模块和动态视频生成模块构成。光流编码模块输入光流序列,输出编码后的标准正态分布的运动向量。动态视频生成模块输入单张静态图(提供纹理信息)和光流编码模块编码的运动向量(提供运动信息),独立的纹理分支和运动分支负责提取各自的信息,并在最后将纹理和运动信息进行结合生成动态的延时视频。整个训练过程中,使用L1损失函数作为纹理损失函数对视频的纹理信息进行监督,同时使用L1损失函数作为运动损失函数对运动分支输出的低分辨率光流图进行监督,此外还有视频鉴别器对视频的纹理和运动信息进行进一步的监督,以生成高真实度的动态视频。
Claims (7)
1.一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,包括光流编码模块和动态视频生成模块;
所述光流编码模块包括光流估计网络FE和3D编码器ψ,原始视频序列I0~T通过光流估计网络FE提取光流序列,记为U1~T,光流序列U1~T输入3D编码器ψ编码生成运动向量,同时将运动向量标准化为标准正态分布,记为f;
所述动态视频生成模块包括编码器φE,运动分支φM,纹理分支φC,解码器φD;
2.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,光流估计网络FE采用了无监督光流估计网络ARFlow,具体地,ARFlow由23层卷积层组成。
3.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,3D编码器ψ是3D编码网络,由6层3D卷积层组成。
4.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,编码器φE是由3层卷积层组成,运动分支φM是由6个ResBlock+AdaIN组合模块组成,纹理分支φC是由9个ResBlock组成,其中ResBlock是残差模块,由2层卷积层组成;解码器φD是由1层反卷积和1层卷积层组成。
6.根据权利要求5中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,所述视频鉴别器由6层3D卷积层和激活函数组成;
在训练时需要保证同一场景的训练视频能够截取至少32帧连续的画面,否则丢弃该训练数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010795760.1A CN112132915B (zh) | 2020-08-10 | 2020-08-10 | 一种基于生成对抗机制的多样化动态延时视频生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010795760.1A CN112132915B (zh) | 2020-08-10 | 2020-08-10 | 一种基于生成对抗机制的多样化动态延时视频生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112132915A CN112132915A (zh) | 2020-12-25 |
CN112132915B true CN112132915B (zh) | 2022-04-26 |
Family
ID=73850696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010795760.1A Active CN112132915B (zh) | 2020-08-10 | 2020-08-10 | 一种基于生成对抗机制的多样化动态延时视频生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132915B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750185A (zh) * | 2021-01-19 | 2021-05-04 | 清华大学 | 一种肖像画视频生成方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101087437A (zh) * | 2007-06-21 | 2007-12-12 | 清华大学 | 基于光流场的平面视频转立体视频的方法 |
CN101548277A (zh) * | 2006-09-18 | 2009-09-30 | 外星人实验室公司 | 多并行处理器的计算机图形系统 |
WO2017107188A1 (zh) * | 2015-12-25 | 2017-06-29 | 中国科学院深圳先进技术研究院 | 视频分类快速识别的方法及装置 |
CN111145282A (zh) * | 2019-12-12 | 2020-05-12 | 科大讯飞股份有限公司 | 虚拟形象合成方法、装置、电子设备和存储介质 |
CN111294598A (zh) * | 2019-02-08 | 2020-06-16 | 北京达佳互联信息技术有限公司 | 一种视频编解码方法及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170004646A1 (en) * | 2015-07-02 | 2017-01-05 | Kelly Phillipps | System, method and computer program product for video output from dynamic content |
US9934818B1 (en) * | 2016-09-23 | 2018-04-03 | Apple Inc. | Automated seamless video loop |
-
2020
- 2020-08-10 CN CN202010795760.1A patent/CN112132915B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101548277A (zh) * | 2006-09-18 | 2009-09-30 | 外星人实验室公司 | 多并行处理器的计算机图形系统 |
CN101087437A (zh) * | 2007-06-21 | 2007-12-12 | 清华大学 | 基于光流场的平面视频转立体视频的方法 |
WO2017107188A1 (zh) * | 2015-12-25 | 2017-06-29 | 中国科学院深圳先进技术研究院 | 视频分类快速识别的方法及装置 |
CN111294598A (zh) * | 2019-02-08 | 2020-06-16 | 北京达佳互联信息技术有限公司 | 一种视频编解码方法及设备 |
CN111145282A (zh) * | 2019-12-12 | 2020-05-12 | 科大讯飞股份有限公司 | 虚拟形象合成方法、装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
S. Aigner, M. Körner.FUTUREGAN: ANTICIPATING THE FUTURE FRAMES OF VIDEO SEQUENCES USING SPATIO-TEMPORAL 3D CONVOLUTIONS IN PROGRESSIVELY GROWING GANS.《The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences》.2019, * |
基于深度学习的视频语义分割综述;韩利丽等;《计算机系统应用》;20191215(第12期);第5-12页 * |
视频感兴趣区域快速提取与编码算法;刘鹏宇等;《电路与系统学报》;20130415(第02期);第417-423页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112132915A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113837938B (zh) | 基于动态视觉传感器重建潜在图像的超分辨率方法 | |
CN117094419B (zh) | 面向多模态内容输出的大语言模型训练方法、装置及介质 | |
CN113657388A (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
CN114723760B (zh) | 人像分割模型的训练方法、装置及人像分割方法、装置 | |
CN114007135B (zh) | 视频插帧方法及其装置、设备、介质、产品 | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN110610467A (zh) | 一种基于深度学习的多帧视频去压缩噪声方法 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN111460876A (zh) | 用于识别视频的方法和装置 | |
CN112132915B (zh) | 一种基于生成对抗机制的多样化动态延时视频生成方法 | |
CN118015159A (zh) | 角色视频生成方法、装置、电子设备及存储介质 | |
CN116451398A (zh) | 一种基于条件扩散模型的城市路网布局设计方法 | |
CN117078539A (zh) | 基于CNN-Transformer的局部全局交互式图像恢复方法 | |
CN116091288A (zh) | 一种基于扩散模型的图像隐写方法 | |
CN116091978A (zh) | 一种基于高级语义信息特征编码的视频描述方法 | |
CN117391920A (zh) | 基于rgb通道差分平面的大容量隐写方法及系统 | |
EP4391533A1 (en) | Feature map encoding method and apparatus and feature map decoding method and apparatus | |
CN117036436A (zh) | 一种基于双编码器-解码器的单目深度估计方法及系统 | |
US11928855B2 (en) | Method, device, and computer program product for video processing | |
CN115797178A (zh) | 一种基于3d卷积的视频超分辨率的方法 | |
CN113781376B (zh) | 一种基于分治融合的高清人脸属性编辑方法 | |
CN113436094B (zh) | 一种基于多视角注意力机制的灰度图像自动上色方法 | |
CN115690238A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
Tonchev et al. | Semantic Communication System for 3D Video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |