CN114092610B

CN114092610B - 一种基于生成对抗网络的人物视频生成方法

Info

Publication number: CN114092610B
Application number: CN202111389378.1A
Authority: CN
Inventors: 吴爱国; 沈世龙; 张颖
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2023-04-07
Anticipated expiration: 2041-11-22
Also published as: CN114092610A

Abstract

本发明公开了一种基于生成对抗网络的人物视频生成方法，所述方法包括如下步骤：一、收集原图像和目标图像；二、对收集到的原图像和目标图像，利用多尺度特征提取模块提取目标姿态和多张原图像之间的多尺度特征；三、将多尺度特征作为全局‑局部模块的输入，使用全局模块建立目标姿态特征与原图像特征之间的全局对应关系，随后使用局部模块对全局模块的输出结果进行修正；四、挑选一张原图像采用池化操作将其重构到特定的尺寸，并使用修正后的流场进行形变操作，得到最终的特征图；五、采用纹理渲染器将特征图从特征空间映射到图像空间，得到最终的生成图像。该方法能够实现保留原图像服装纹理不变的同时按照目标姿态进行视频生成。

Description

一种基于生成对抗网络的人物视频生成方法

技术领域

本发明属于计算机视觉和图像处理技术领域，涉及一种基于生成对抗网络的人物视频生成方法。

背景技术

生成模型是计算机视觉领域的核心，近些年，GAN和VAE等方法在各种基于图像的生成任务中取得了令人瞩目的成果，与之相反基于视频的生成任务则进展较小，尤其是生成包含人物图像的视频(也可称为动画生成)，因为除了需要确保生成每一帧图像都是真实的，还需要保证生成的视频帧的时序一致性。在实际的应用中，静态图像的生成往往不能够满足需求，与之相反，具有动态属性的视频能够提供更好的用户交互体验。人物视频生成不仅仅需要保证人物图像纹理不变，还需要保证生成视频帧之间的连续性。

人物视频生成具有广泛的应用场景，例如电影特效制作、时装造型设计、虚拟试衣以及数据集增强，无论是在学术界还是工业界都具有重要的研究意义。

发明内容

本发明的目的是提供一种基于生成对抗网络的人物视频生成方法，该方法能够实现人物视频的生成，即给定原图像和连续的目标姿态表示，能够实现保留原图像服装纹理不变的同时按照目标姿态进行视频生成。

本发明的目的是通过以下技术方案实现的：

一种基于生成对抗网络的人物视频生成方法，包括如下步骤：

步骤一、收集多张具有同一外观不同姿态的原图像和一张目标图像；

步骤二、对步骤一收集到的原图像和目标图像，采用人体姿态估计器估计出基于关键点的原图像姿态和目标姿态，利用多尺度特征提取模块提取目标姿态和多张原图像之间的多尺度特征；

步骤三、将步骤二得到的多尺度特征作为全局-局部模块的输入，首先使用全局模块建立目标姿态特征与原图像特征之间的全局对应关系，随后使用局部模块对全局模块的输出结果进行修正；

步骤四、挑选一张原图像采用池化操作将其重构到特定的尺寸，并使用步骤三得到的修正后的流场进行形变操作，得到最终的特征图；

步骤五、采用纹理渲染器将步骤四得到的特征图从特征空间映射到图像空间，得到最终的生成图像。

网络对抗训练过程如下：

步骤(a)将训练集中的图像分为原图像和目标图像，根据原图像和目标图像获取基于关键点的姿态表示；

步骤(b)对训练数据进行数据增强，并对增强后的数据进行归一化处理；

步骤(c)训练开始时首先初始化网络中各层卷积层的参数，之后将批度大小的训练数据作为生成器的输入；

步骤(d)将步骤(6)获得的生成图像与目标图像一起送入判别器，作为判别器的训练数据进行处理；

步骤(e)将判别器的输出结果用于计算判别器对抗损失函数与生成器的对抗损失函数以及特征损失函数，同时根据生成图像与真实图像计算生成器的感知损失函数与重构损失函数，并进行迭代优化；

步骤(f)达到最大训练迭代次数后，保存模型，完成整个训练过程。

具体地，所述步骤一中，需准备多张具有相同外观但是不同姿态的原图像。

具体地，所述步骤三中，针对不同尺度特征图采用多个全局-局部模块从多个尺度对目标姿态表示和原图像之间的流场进行修正。

具体地，所述步骤(b)中，采用随机翻转和随机裁剪的方法对训练数据进行数据增强。

具体地，在生成器和判别器中的每一层中添加谱归一化，并将生成器的初始学习率为0.0002，判别器的初始学习率为0.0003。

具体地，所述步骤(c)中，采用Kaiming初始化方法初始化网络中各层卷积层的参数。

具体地，所述步骤(d)中，采用双判别器结构进行训练，所述双判别器包括空间一致性判别器和时序一致性判别器，其中空间一致性判别器主要作用为使得生成图像和生成图像在空间结构上尽可能相似，而时序一致性判别器用于约束生成视频帧在时序上的一致性。

具体地，所述步骤(d)中，采用循环一致性训练方式进行训练，即模型一次性处理N张目标姿态，并且输出对应的N张生成图像，并将最后一帧生成图像作为其中一张输入原图像，其中：N值的大小需要根据硬件设备来实际确定，在本发明中N＝6。

具体地，所述步骤(e)中，使用Adam优化器迭代优化网络参数。

相比于现有技术，本发明具有如下优点：

(1)由于原图像与目标姿态之间存在结构不对齐的现象，导致生成图像会存在伪影。为了解决这一问题，本发明采用了多张原图像作为网络输入，其能够在图像生成过程中提供更多丰富的外观信息，生成器可以利用这种数据冗余来补偿图像中的部分遮挡、自遮挡或噪声。

(2)对原图像和目标姿态表示间的流场采用全局-局部进行修正以确保特征图的准确性。

(3)采用循环训练的方式提高生成视频的时序一致性。

(4)本发明中，判别器训练时，添加了特征损失函数进行约束，具体是将生成图像和真实图像作为判别器输入，并在判别器的每一层中最小化生成图像特征和真实图像特征间的L₁范数损失函数(即最小绝对值偏差LAD)，如此可以稳定对抗训练的过程，保证训练的有效性。

(5)本发明设计合理，逻辑清晰，各环节环环相扣、相辅相成，通过新颖的网络结构及生成器和判别器对抗学习的方式实现了高质量的人物视频生成，具有很高的实用价值和推广价值。

附图说明

图1为人物视频生成模型操作的流程图。

图2为生成器网络结构图。

图3为全局-局部模块网络结构图。

图4为双判别器网络结构图。

图5为循环训练方式示意图。

图6为生成器与判别器的对抗训练流程示意图。

图7为实例图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本实施例提供了一种基于生成对抗网络的人物视频生成模型，如图2-5所示，该模型由生成器和判别器两部分组成，其中：

所述生成器由多尺度特征提取模块(具有多个下采样卷积层的卷积网络)、全局-局部模块、纹理渲染器(基于SPADE网络)组成；

所述判别器由空间一致性判别器和时序一致性判别器组成，空间一致性判别器主要作用为使得生成图像和生成图像在空间结构上尽可能相似，时序一致性判别器用于约束生成视频帧在时间上的一致性。

本实施例针对人物视频生成，提出了上述模型，为了保证生成视频帧的真实性以及生成视频的连续性，该模型主要有以下改进点：(1)由于原图像与目标姿态之间存在结构不对齐的现象，导致生成图像会存在伪影。为了解决这一问题，采用了多张原图像作为网络输入，其能够在图像生成过程中提供更多丰富的外观信息，生成器可以利用这种数据冗余来补偿图像中的部分遮挡、自遮挡或噪声。具体来说，给定M张原图像，这些原图像描述具有相同外观的同一个人，例如相同的服装，头发等等。注意，这里M并不是先验固定的，而是可以根据实际情况进行调整。(2)对原图像和目标姿态表示间的流场采用全局-局部进行修正以确保特征图的准确性。(3)采用循环训练的方式提高生成视频的时序一致性。

下面阐述人物视频生成方法的实现流程，如图1所示，包括如下步骤：

步骤一、收集M张具有同一外观不同姿态的原图像I_s和一张目标图像I_t，这些原图像描述具有同一个相同外观的同一个人，例如相同的服装、头发等等。注意这里的M并不是先验固定的，而是可以根据实际情况进行调整，其中：M的取值大于1，最大值可以根据硬件设施进行设定，在本方法中M设置为2。

步骤二、对步骤一收集到的原图像和目标图像，采用人体姿态估计器估计出基于关键点的原图像姿态P_s和目标姿态P_t，利用多尺度特征提取模块提取目标姿态和多张原图像之间的多尺度特征。

步骤三、将步骤二得到的多尺度特征作为全局-局部模块的输入，该模块首先使用全局模块建立目标姿态特征与原图像特征之间的全局对应关系，随后使用局部模块对全局模块的输出结果进行修正。

步骤四、挑选一张原图像采用池化操作将其重构到特定的尺寸并使用步骤三得到的修正后的流场进行形变操作得到最终的特征图。

下面阐述生成器与判别器的对抗训练过程，如图6所示，包括如下步骤：

(1)获取训练集，将训练集中的图像分为原图像和目标图像，根据原图像和目标图像分别获取基于关键点的姿态表示以及语义图；

(2)数据预处理，使用随机翻转和随机裁剪的方法对训练数据进行数据增强，并对增强后的数据进行归一化处理；

(3)训练开始时首先采用Kaiming初始化方法初始化网络中各层卷积层的参数，之后将批度大小的训练数据作为网络的输入；

(4)将上述得到的生成图像与目标图像一起送入判别器，作为判别器的训练数据进行处理；

(5)将判别器对生成图像和真实图像的输出结果用于计算判别器对抗损失函数

与生成器的对抗损失函数

以及特征损失函数

同时根据生成图像与真实图像计算生成器的感知损失函数

与重构损失函数

总的损失函数为

其中，λ_adv，λ_fea，λ_per，λ_rec分别表示对应损失函数的权重，在本实施例中取λ_adv＝0.5，λ_fea＝1，λ_per＝2，λ_rec＝2；对抗损失函数是使得生成图像的分布和真实图像的分布一致，其被定义为：

特征损失函数被定义为：

其中，I_g表示生成图像，I_t表示真实图像，D_i表示判别器中的第i+1层特征提取器，i＝0,1,2(判别器D由多层下采样卷积网络构成，本实施例采用从0开始编号的方式，第一个卷积层(特征提取器)为D₀，第二个卷积层为D₁，第三个卷积层为D₂)，α_i表示每一层特征损失函数的权重，在本实施例中，α₀＝α₁＝α₂；

感知损失函数被定义为：

其中，φ_l表示预训练VGG19网络中的第l层，在本实施例中取l为relu_42层。

重构损失函数被定义为：

用于在像素级别来惩罚生成图像和真实图像之间的差异；使用Adam优化器优化网络参数；

(6)达到最大训练迭代次数后保存模型，完成整个训练过程。

如图7所示，给定目标姿态以及对应的原图像，即可生成对应的视频序列。