CN114092610B - 一种基于生成对抗网络的人物视频生成方法 - Google Patents

一种基于生成对抗网络的人物视频生成方法 Download PDF

Info

Publication number
CN114092610B
CN114092610B CN202111389378.1A CN202111389378A CN114092610B CN 114092610 B CN114092610 B CN 114092610B CN 202111389378 A CN202111389378 A CN 202111389378A CN 114092610 B CN114092610 B CN 114092610B
Authority
CN
China
Prior art keywords
image
discriminator
target
original image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111389378.1A
Other languages
English (en)
Other versions
CN114092610A (zh
Inventor
吴爱国
沈世龙
张颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202111389378.1A priority Critical patent/CN114092610B/zh
Publication of CN114092610A publication Critical patent/CN114092610A/zh
Application granted granted Critical
Publication of CN114092610B publication Critical patent/CN114092610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于生成对抗网络的人物视频生成方法,所述方法包括如下步骤:一、收集原图像和目标图像;二、对收集到的原图像和目标图像,利用多尺度特征提取模块提取目标姿态和多张原图像之间的多尺度特征;三、将多尺度特征作为全局‑局部模块的输入,使用全局模块建立目标姿态特征与原图像特征之间的全局对应关系,随后使用局部模块对全局模块的输出结果进行修正;四、挑选一张原图像采用池化操作将其重构到特定的尺寸,并使用修正后的流场进行形变操作,得到最终的特征图;五、采用纹理渲染器将特征图从特征空间映射到图像空间,得到最终的生成图像。该方法能够实现保留原图像服装纹理不变的同时按照目标姿态进行视频生成。

Description

一种基于生成对抗网络的人物视频生成方法
技术领域
本发明属于计算机视觉和图像处理技术领域,涉及一种基于生成对抗网络的人物视频生成方法。
背景技术
生成模型是计算机视觉领域的核心,近些年,GAN和VAE等方法在各种基于图像的生成任务中取得了令人瞩目的成果,与之相反基于视频的生成任务则进展较小,尤其是生成包含人物图像的视频(也可称为动画生成),因为除了需要确保生成每一帧图像都是真实的,还需要保证生成的视频帧的时序一致性。在实际的应用中,静态图像的生成往往不能够满足需求,与之相反,具有动态属性的视频能够提供更好的用户交互体验。人物视频生成不仅仅需要保证人物图像纹理不变,还需要保证生成视频帧之间的连续性。
人物视频生成具有广泛的应用场景,例如电影特效制作、时装造型设计、虚拟试衣以及数据集增强,无论是在学术界还是工业界都具有重要的研究意义。
发明内容
本发明的目的是提供一种基于生成对抗网络的人物视频生成方法,该方法能够实现人物视频的生成,即给定原图像和连续的目标姿态表示,能够实现保留原图像服装纹理不变的同时按照目标姿态进行视频生成。
本发明的目的是通过以下技术方案实现的:
一种基于生成对抗网络的人物视频生成方法,包括如下步骤:
步骤一、收集多张具有同一外观不同姿态的原图像和一张目标图像;
步骤二、对步骤一收集到的原图像和目标图像,采用人体姿态估计器估计出基于关键点的原图像姿态和目标姿态,利用多尺度特征提取模块提取目标姿态和多张原图像之间的多尺度特征;
步骤三、将步骤二得到的多尺度特征作为全局-局部模块的输入,首先使用全局模块建立目标姿态特征与原图像特征之间的全局对应关系,随后使用局部模块对全局模块的输出结果进行修正;
步骤四、挑选一张原图像采用池化操作将其重构到特定的尺寸,并使用步骤三得到的修正后的流场进行形变操作,得到最终的特征图;
步骤五、采用纹理渲染器将步骤四得到的特征图从特征空间映射到图像空间,得到最终的生成图像。
网络对抗训练过程如下:
步骤(a)将训练集中的图像分为原图像和目标图像,根据原图像和目标图像获取基于关键点的姿态表示;
步骤(b)对训练数据进行数据增强,并对增强后的数据进行归一化处理;
步骤(c)训练开始时首先初始化网络中各层卷积层的参数,之后将批度大小的训练数据作为生成器的输入;
步骤(d)将步骤(6)获得的生成图像与目标图像一起送入判别器,作为判别器的训练数据进行处理;
步骤(e)将判别器的输出结果用于计算判别器对抗损失函数与生成器的对抗损失函数以及特征损失函数,同时根据生成图像与真实图像计算生成器的感知损失函数与重构损失函数,并进行迭代优化;
步骤(f)达到最大训练迭代次数后,保存模型,完成整个训练过程。
具体地,所述步骤一中,需准备多张具有相同外观但是不同姿态的原图像。
具体地,所述步骤三中,针对不同尺度特征图采用多个全局-局部模块从多个尺度对目标姿态表示和原图像之间的流场进行修正。
具体地,所述步骤(b)中,采用随机翻转和随机裁剪的方法对训练数据进行数据增强。
具体地,在生成器和判别器中的每一层中添加谱归一化,并将生成器的初始学习率为0.0002,判别器的初始学习率为0.0003。
具体地,所述步骤(c)中,采用Kaiming初始化方法初始化网络中各层卷积层的参数。
具体地,所述步骤(d)中,采用双判别器结构进行训练,所述双判别器包括空间一致性判别器和时序一致性判别器,其中空间一致性判别器主要作用为使得生成图像和生成图像在空间结构上尽可能相似,而时序一致性判别器用于约束生成视频帧在时序上的一致性。
具体地,所述步骤(d)中,采用循环一致性训练方式进行训练,即模型一次性处理N张目标姿态,并且输出对应的N张生成图像,并将最后一帧生成图像作为其中一张输入原图像,其中:N值的大小需要根据硬件设备来实际确定,在本发明中N=6。
具体地,所述步骤(e)中,使用Adam优化器迭代优化网络参数。
相比于现有技术,本发明具有如下优点:
(1)由于原图像与目标姿态之间存在结构不对齐的现象,导致生成图像会存在伪影。为了解决这一问题,本发明采用了多张原图像作为网络输入,其能够在图像生成过程中提供更多丰富的外观信息,生成器可以利用这种数据冗余来补偿图像中的部分遮挡、自遮挡或噪声。
(2)对原图像和目标姿态表示间的流场采用全局-局部进行修正以确保特征图的准确性。
(3)采用循环训练的方式提高生成视频的时序一致性。
(4)本发明中,判别器训练时,添加了特征损失函数进行约束,具体是将生成图像和真实图像作为判别器输入,并在判别器的每一层中最小化生成图像特征和真实图像特征间的L1范数损失函数(即最小绝对值偏差LAD),如此可以稳定对抗训练的过程,保证训练的有效性。
(5)本发明设计合理,逻辑清晰,各环节环环相扣、相辅相成,通过新颖的网络结构及生成器和判别器对抗学习的方式实现了高质量的人物视频生成,具有很高的实用价值和推广价值。
附图说明
图1为人物视频生成模型操作的流程图。
图2为生成器网络结构图。
图3为全局-局部模块网络结构图。
图4为双判别器网络结构图。
图5为循环训练方式示意图。
图6为生成器与判别器的对抗训练流程示意图。
图7为实例图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本实施例提供了一种基于生成对抗网络的人物视频生成模型,如图2-5所示,该模型由生成器和判别器两部分组成,其中:
所述生成器由多尺度特征提取模块(具有多个下采样卷积层的卷积网络)、全局-局部模块、纹理渲染器(基于SPADE网络)组成;
所述判别器由空间一致性判别器和时序一致性判别器组成,空间一致性判别器主要作用为使得生成图像和生成图像在空间结构上尽可能相似,时序一致性判别器用于约束生成视频帧在时间上的一致性。
本实施例针对人物视频生成,提出了上述模型,为了保证生成视频帧的真实性以及生成视频的连续性,该模型主要有以下改进点:(1)由于原图像与目标姿态之间存在结构不对齐的现象,导致生成图像会存在伪影。为了解决这一问题,采用了多张原图像作为网络输入,其能够在图像生成过程中提供更多丰富的外观信息,生成器可以利用这种数据冗余来补偿图像中的部分遮挡、自遮挡或噪声。具体来说,给定M张原图像,这些原图像描述具有相同外观的同一个人,例如相同的服装,头发等等。注意,这里M并不是先验固定的,而是可以根据实际情况进行调整。(2)对原图像和目标姿态表示间的流场采用全局-局部进行修正以确保特征图的准确性。(3)采用循环训练的方式提高生成视频的时序一致性。
下面阐述人物视频生成方法的实现流程,如图1所示,包括如下步骤:
步骤一、收集M张具有同一外观不同姿态的原图像Is和一张目标图像It,这些原图像描述具有同一个相同外观的同一个人,例如相同的服装、头发等等。注意这里的M并不是先验固定的,而是可以根据实际情况进行调整,其中:M的取值大于1,最大值可以根据硬件设施进行设定,在本方法中M设置为2。
步骤二、对步骤一收集到的原图像和目标图像,采用人体姿态估计器估计出基于关键点的原图像姿态Ps和目标姿态Pt,利用多尺度特征提取模块提取目标姿态和多张原图像之间的多尺度特征。
步骤三、将步骤二得到的多尺度特征作为全局-局部模块的输入,该模块首先使用全局模块建立目标姿态特征与原图像特征之间的全局对应关系,随后使用局部模块对全局模块的输出结果进行修正。
步骤四、挑选一张原图像采用池化操作将其重构到特定的尺寸并使用步骤三得到的修正后的流场进行形变操作得到最终的特征图。
步骤五、采用纹理渲染器将步骤四得到的特征图从特征空间映射到图像空间,得到最终的生成图像。
下面阐述生成器与判别器的对抗训练过程,如图6所示,包括如下步骤:
(1)获取训练集,将训练集中的图像分为原图像和目标图像,根据原图像和目标图像分别获取基于关键点的姿态表示以及语义图;
(2)数据预处理,使用随机翻转和随机裁剪的方法对训练数据进行数据增强,并对增强后的数据进行归一化处理;
(3)训练开始时首先采用Kaiming初始化方法初始化网络中各层卷积层的参数,之后将批度大小的训练数据作为网络的输入;
(4)将上述得到的生成图像与目标图像一起送入判别器,作为判别器的训练数据进行处理;
(5)将判别器对生成图像和真实图像的输出结果用于计算判别器对抗损失函数
Figure BDA0003368246900000071
与生成器的对抗损失函数
Figure BDA0003368246900000072
以及特征损失函数
Figure BDA0003368246900000073
同时根据生成图像与真实图像计算生成器的感知损失函数
Figure BDA0003368246900000074
与重构损失函数
Figure BDA0003368246900000075
总的损失函数为
Figure BDA0003368246900000076
Figure BDA0003368246900000077
其中,λadv,λfea,λper,λrec分别表示对应损失函数的权重,在本实施例中取λadv=0.5,λfea=1,λper=2,λrec=2;对抗损失函数是使得生成图像的分布和真实图像的分布一致,其被定义为:
Figure BDA0003368246900000081
特征损失函数被定义为:
Figure BDA0003368246900000082
其中,Ig表示生成图像,It表示真实图像,Di表示判别器中的第i+1层特征提取器,i=0,1,2(判别器D由多层下采样卷积网络构成,本实施例采用从0开始编号的方式,第一个卷积层(特征提取器)为D0,第二个卷积层为D1,第三个卷积层为D2),αi表示每一层特征损失函数的权重,在本实施例中,α0=α1=α2
感知损失函数被定义为:
Figure BDA0003368246900000083
其中,φl表示预训练VGG19网络中的第l层,在本实施例中取l为relu_42层。
重构损失函数被定义为:
Figure BDA0003368246900000084
用于在像素级别来惩罚生成图像和真实图像之间的差异;使用Adam优化器优化网络参数;
(6)达到最大训练迭代次数后保存模型,完成整个训练过程。
如图7所示,给定目标姿态以及对应的原图像,即可生成对应的视频序列。

Claims (7)

1.一种基于生成对抗网络的人物视频生成方法,其特征在于所述方法包括如下步骤:
步骤一、收集多张具有同一外观不同姿态的原图像和一张目标图像;
步骤二、对步骤一收集到的原图像和目标图像,采用人体姿态估计器估计出基于关键点的原图像姿态和目标姿态,利用多尺度特征提取模块提取目标姿态和多张原图像之间的多尺度特征;
步骤三、将步骤二得到的多尺度特征作为全局-局部模块的输入,首先使用全局模块建立目标姿态特征与原图像特征之间的全局对应关系,随后使用局部模块对全局模块的输出结果进行修正;针对不同尺度特征图采用多个全局-局部模块从多个尺度对目标姿态表示和原图像之间的流场进行修正;
步骤四、挑选一张原图像采用池化操作将其重构到特定的尺寸,并使用步骤三得到的修正后的流场进行形变操作,得到最终的特征图;
步骤五、采用纹理渲染器将步骤四得到的特征图从特征空间映射到图像空间,得到最终的生成图像;
网络对抗训练过程如下:
步骤(a)将训练集中的图像分为原图像和目标图像,根据原图像和目标图像获取基于关键点的姿态表示;
步骤(b)对训练数据进行数据增强,并对增强后的数据进行归一化处理;
步骤(c)训练开始时首先初始化网络中各层卷积层的参数,之后将批度大小的训练数据作为生成器的输入;
步骤(d)将步骤五获得的生成图像与目标图像一起送入判别器,作为判别器的训练数据进行处理;
步骤(e)将判别器的输出结果用于计算判别器对抗损失函数与生成器的对抗损失函数以及特征损失函数,同时根据生成图像与真实图像计算生成器的感知损失函数与重构损失函数,并进行迭代优化;
步骤(f)达到最大训练迭代次数后,保存模型,完成整个训练过程。
2.根据权利要求1所述的基于生成对抗网络的人物视频生成方法,其特征在于所述步骤(b)中,采用随机翻转和随机裁剪的方法对训练数据进行数据增强。
3.根据权利要求1所述的基于生成对抗网络的人物视频生成方法,其特征在于所述步骤(c)中,采用Kaiming初始化方法初始化网络中各层卷积层的参数。
4.根据权利要求1所述的基于生成对抗网络的人物视频生成方法,其特征在于所述步骤(d)中,采用双判别器结构进行训练,所述双判别器包括空间一致性判别器和时序一致性判别器。
5.根据权利要求1所述的基于生成对抗网络的人物视频生成方法,其特征在于所述步骤(d)中,采用循环一致性训练方式进行训练,即模型一次性处理N张目标姿态,并且输出对应的N张生成图像,并将最后一帧生成图像作为其中一张输入原图像。
6.根据权利要求1所述的基于生成对抗网络的人物视频生成方法,其特征在于所述步骤(e)中,使用Adams优化器迭代优化网络参数。
7.根据权利要求1所述的基于生成对抗网络的人物视频生成方法,其特征在于所述步骤(e)中,对抗损失函数定义为:
Figure FDA0004070146500000031
特征损失函数定义为:
Figure FDA0004070146500000032
感知损失函数定义为:
Figure FDA0004070146500000033
重构损失函数定义为:
Figure FDA0004070146500000034
其中,Di表示判别器中的第i+1层特征提取器,i=0,1,2,αi表示每一层特征损失函数的权重,φl表示预训练VGG19网络中的第l层,Ig表示生成图像,It表示真实图像。
CN202111389378.1A 2021-11-22 2021-11-22 一种基于生成对抗网络的人物视频生成方法 Active CN114092610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111389378.1A CN114092610B (zh) 2021-11-22 2021-11-22 一种基于生成对抗网络的人物视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111389378.1A CN114092610B (zh) 2021-11-22 2021-11-22 一种基于生成对抗网络的人物视频生成方法

Publications (2)

Publication Number Publication Date
CN114092610A CN114092610A (zh) 2022-02-25
CN114092610B true CN114092610B (zh) 2023-04-07

Family

ID=80302961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111389378.1A Active CN114092610B (zh) 2021-11-22 2021-11-22 一种基于生成对抗网络的人物视频生成方法

Country Status (1)

Country Link
CN (1) CN114092610B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079194B (zh) * 2023-10-12 2024-01-05 深圳云天畅想信息科技有限公司 云视频ai理解生成方法、装置及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419455A (zh) * 2020-12-11 2021-02-26 中山大学 基于人体骨架序列信息的人物动作视频生成方法、系统及存储介质
WO2021043073A1 (zh) * 2019-09-03 2021-03-11 平安科技(深圳)有限公司 基于图像识别的城市宠物活动轨迹监测方法及相关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447906B (zh) * 2018-11-08 2023-07-11 北京印刷学院 一种基于生成对抗网络的图片合成方法
CN110335193B (zh) * 2019-06-14 2022-09-20 大连理工大学 一种基于生成对抗网络的目标域导向的无监督图像转换方法
CN113538608B (zh) * 2021-01-25 2023-08-01 哈尔滨工业大学(深圳) 基于生成对抗网络的可控人物图像生成方法
CN113506224A (zh) * 2021-05-24 2021-10-15 中国石油大学(华东) 基于多尺度生成对抗网络的图像修复方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021043073A1 (zh) * 2019-09-03 2021-03-11 平安科技(深圳)有限公司 基于图像识别的城市宠物活动轨迹监测方法及相关设备
CN112419455A (zh) * 2020-12-11 2021-02-26 中山大学 基于人体骨架序列信息的人物动作视频生成方法、系统及存储介质

Also Published As

Publication number Publication date
CN114092610A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN113658051B (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
US11367239B2 (en) Textured neural avatars
CN110503680B (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
Wang et al. Laplacian pyramid adversarial network for face completion
CN112347861B (zh) 一种基于运动特征约束的人体姿态估计方法
CN113177882B (zh) 一种基于扩散模型的单帧图像超分辨处理方法
CN111986075B (zh) 一种目标边缘清晰化的风格迁移方法
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
WO2021042774A1 (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
CN113362338B (zh) 铁轨分割方法、装置、计算机设备和铁轨分割处理系统
US11915383B2 (en) Methods and systems for high definition image manipulation with neural networks
US11568524B2 (en) Tunable models for changing faces in images
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN113689517B (zh) 一种多尺度通道注意力网络的图像纹理合成方法及系统
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN113538608A (zh) 基于生成对抗网络的可控人物图像生成方法
CN114092610B (zh) 一种基于生成对抗网络的人物视频生成方法
CN110580726A (zh) 基于动态卷积网络的自然场景下人脸素描生成模型及方法
Liu et al. X-gans: Image reconstruction made easy for extreme cases
CN113763268A (zh) 人脸图像盲修复方法及系统
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
CN116452431A (zh) 基于多分支渐进式深度网络的弱光图像增强方法
CN116091885A (zh) 一种基于rau-gan的肺结节数据增强方法
CN106897975B (zh) 一种超立方体粒计算的图像去噪方法
Horiuchi et al. Spectral normalization and relativistic adversarial training for conditional pose generation with self-attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant