CN116740212A

CN116740212A - 基于生成对抗网络的姿势引导人体图像生成及面部优化方法

Info

Publication number: CN116740212A
Application number: CN202310732562.4A
Authority: CN
Inventors: 熊邵华; 蔡强; 李海生; 韩龙飞
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-12

Abstract

本发明提出一种基于生成对抗网络的姿势引导人体图像生成及面部优化方法，其中图像生成模块通过导入预训练模型，生成前期的人体图像和人脸图像；姿势引导生成模块将人体图像转换为需要的目标姿势；面部定位模块定位出需要优化的人脸部分，优化模块对定位区域进行三个目标的联合优化最终输出目标图像。通过使用本发明所述的方法，可以生成拥有高清面部的目标姿势人体图像。

Description

基于生成对抗网络的姿势引导人体图像生成及面部优化方法

技术领域

本申请涉及计算机视觉和人工智能领域，具体而言，是一种基于生成对抗网络的姿势引导人体图像生成及面部优化方法。

背景技术

随着网络媒体的迅速发展和虚拟现实技术的崛起，逼真的、可控的人体图像生成在越来越多的应用场景中得到广泛的应用。这些应用包括创建虚拟角色、虚拟试衣、运动传输和视角合成等。此外，在人脸编辑、电影制作以及基于合成图像的图像检索等领域，生成逼真的图像也具有重要的应用价值。因此，生成虚拟目标姿态的人体图像技术不仅可以为广泛的应用场景提供素材和灵感，还可以在这些领域推动技术的发展。

发明内容

为了解决上述技术问题，本发明的目的是建立基于生成对抗网络的姿势引导人体图像生成及面部优化方法，实现生成目标姿势的人体图像以及对脸部质量优化或者脸部替换。包括以下步骤：

模型预处理：本方法采用了基于StyleGan2-ADA网络的图像生成部分，该网络在

DeepFashion数据集的一个图像子集上训练得到，分辨率为1024×768px，用于生成全身人预训练模型。在人脸区域内，我们使用了在FFHQ数据集上预训练的人脸生成器。我们使用facenet-pytorch来定位人脸区域，并采用VGG16计算感知损失来进行图像的合成与优化。

图像生成：利用导入的StyleGan2-ADA人体生成模型作为本方法的人体图像生成器G_A，StyleGan2-ADA在FFHQ数据集上预训练的面部生成模型作为本方法的生成器G_B。w_A和w_B分别为生成器G_A、G_B的输入潜码。I_A＝G_A(w_A)和I_B＝G_B(w_B)分别是对生成器输入对应潜码后生成的全身人体图像和人脸图像。

姿势引导生成：对于已生成的人体图像，通过构建姿势引导生成网络，使得生成的图像效果达到目标姿势。该网络的输入为生成的人体图像I_A和目标姿势。

本方法使用人体姿势估计算法获取和处理目标姿势。通过姿势估计器对目标姿势图像I_B生成关键点的坐标，生成人体姿势编码P_B，并将其作为姿势引导生成网络的输入。为将每个关键点映射到人体上的位置，P_B被编码为18个热图，其中每个热图在对应的关键点周围填充1个半径为4像素的高斯分布，在其他地方填充0。将人体图像I_A和P_B连接起来作为姿势引导生成模型的输入。

姿势引导生成网络构建两个生成器，第一阶段的生成器G1采用U-Net的架构，使用几个堆叠的卷积层将I_A和P_B从小邻域集成到大邻域，以便将外观信息集成并传输到相邻的身体部位，然后使用全连接层，以便远处身体部位之间的信息也可以交换信息。解码器由一组堆叠的卷积层组成，这些卷积层与编码器对称以生成图像。第一阶段的结果表示为

将与目标图像I_B进行比较，采用L1距离作为第一阶段的生成损失。由于我们只有一个原始图像和一个目标姿势作为输入，如果目标图像的背景与条件图像不同，模型很难生成背景的样子。因此，为了减轻背景变化的影响，在L1损失中添加一个姿势掩码M_B，使人体比背景权重更大。姿势掩码损失的公式为：

L_G1＝||M_B(G1(I_A，P_B)-I_B)||₁#(1)

对于每个真实图像，使用人体姿势估计算法得到人体的关键点，进而生成姿势掩码M_B。其中，人体关键点可以用一个二值矩阵来表示，即在人体部位位置的值为1，在背景位置的值为0。在计算L1损失时，将姿势掩码M_B应用到每个像素上，使得人体部位的像素比背景部位的像素更加重要。

G1的输出比较模糊，但是它能够捕获目标姿势所指定的全局结构信息和其他低频信息，例如衣服的颜色。身体外观的细节，也就是高频信息，将在第二阶段进行对抗训练，以便进一步细化。

在第二阶段，我们旨在通过纠正初始结果中的错误或缺失信息，从而生成更加精细的图像细节。我们使用条件DCGAN的变体作为基础模型，并根据第一阶段生成的结果进行调整。由于初始结果和目标姿势在结构上相似，第二阶段的生成器G2的目标是生成一个外观差异图，以使初始结果更接近目标图像。我们采用类似于第一阶段的U-Net网络计算图像差异，输入为初始结果和条件图像I_A，其中图像I_A替代传统噪声作为G2的输入。并且本网络结构删除了全连接层，有助于从输入中保留更多细节，因为全连接层压缩了输入中包含的许多信息。

为了避免判别器D直接输出I_A而不优化第一阶段生成的粗略结果我们将G2的输出/>与I_A进行拼接来提供更多信息给判别器，使得判别器D可以区分/>与(I_B，I_A)两个图像对。这样可以鼓励判别器D学习区分/>和I_B之间的差异，而不仅仅是合成图像与自然图像之间的差异。因此，我们为判别器D和生成器G2分别定义以下损失函数：

将对抗损失与最小距离的损失混合可以规范图像生成过程。使用第一阶段的姿势掩码损失，它将更关注人体图像的外观，而不是背景，公式为：

其中L_bce表示二进制交叉熵损失，通过将对抗损失和最小Lp距离的损失混合，可以规范图像生成的过程，同时惩罚生成图像与真实图像之间的差异，以获得更逼真的图像。此外，使用第一阶段的姿势掩码L1损失可以更加关注人体图像的外观而不是背景，公式如下：

L_G2＝L_G+λ||M_B(G1(I_A，P_B)-I_B)||₁#(4)

在该模型中，λ是L_G1损失的权重，它控制着生成器在低频率下接近目标图像的程度。当λ很小时，对抗损失将主导训练，可能会导致生成的图像存在一些缺陷；当λ很大时，带有基本L_G1损失的生成器将主导训练，导致整个模型产生模糊的结果。因此，需要通过实验来确定最佳的λ值，以平衡对抗损失和L_G1损失之间的关系，以获得高质量的目标姿势的人体图像。

面部定位：针对面部替换与优化，需要确定局部区域和全局替换区域的边界框，以保证局部区域(面部)和全局(全身人体图像)的生成网络相协调。在本发明中，我们使用facenet-pytorch算法中的多任务卷积神经网络(Multi-task convolutional neuralnetwork，MTCNN)对全身人体图像和人脸进行边界框计算，以实现人脸的替换与质量提升。

将I_A输入检测边界框中，将裁剪出的区域表示为C(I_A)，由于I_A和I_B是由潜码w_A和w_B生成而来的，因此在I_A中插入I_B本质上可以将其解释为找到一个优化函数使得潜码对(w_A，w_B)，使得I_A和I_B可以在C(I_A)和I_B的边界区域没有明显接缝的情况下组合在一起，在达到满意效果之后，直接将I_A的区域C(I_A)替换为I_B，此优化函数可以表示为：

其中B＝C(G_A(w_A))，为需要优化的区域，的功能为获取边界接缝质量的损失以及在区域内I_A和I_B各自脸部相似度。

优化模块：本方法优化模型主要用于优化面部和全局协调性，包含两个功能：面部替换、面部-人体协调、面部质量提升。根据需要达到的效果，我们设置了三个优化目标：1、面部GAN和身体GAN生成的面部区域在整体上应该一直协调性，使得面部GAN生成的面部I_B替换C(I_A)之后，其大致属性匹配，例如，以及边界框未能选择上的部分头发等部分的颜色；2、要使面部替换后周围的边界像素匹配，以便替换面部操作之后不会导致明显的接缝；3、人脸和身体以及身体姿势需要匹配。

为了匹配面部外观，对面部区域进行了下采样，并联合计算了F1损失和SSIM结构相似性：

其中表示下采样到64×64分辨率。对于边界框，同样采用联合计算F1损失和SSIM结构相似性：

L_boundary＝λ₃F₁(ε₈(C(I_A))，ε₈(I_B))+λ₄(1-SSIM(ε₈(C(I_A))，ε₈(I_B)))#(7)

其中ε_x(I)代表滤波操作，其作用是在像素宽度为x的边界区域上进行处理，以减少噪声和细节对结果的影响，提高模型的稳定性。为了确保在优化过程中保持真实感，我们还引入了两个正则项；

第一项是为了防止优化潜码偏离平均潜码太远，通过随机生成的向量Z中抽样的大量潜码计算出w_avg，再映射到W空间，并计算平均值。第二项是在w⁺潜在空间中对潜在代码进行正则化。这两项正则化用于约束模型参数的大小，以避免过度拟合和提高模型的泛化性能。

为了确保面部和身体之间具有良好的协调性，除了考虑它们的相似性外，还需要考虑它们的姿势是否相匹配。因此，我们可以设计一个损失函数来对面部和身体之间的姿势差异进行规范化。

使用前面步骤中优化后的人体图像I_A和一个面部图像I_B以及一张正常姿势的真实图像I_C输入姿势估计模型来获取姿势表示，记为P_A，P_B，P_C。然后我们可以计算P_A，P_B之间的平移和旋转差异，表示为T_AB和R_AB。计算P_A和P_C之间的平移和旋转差异，表示为T_AC和R_AC。为了计算面部和身体之间的姿势差异，我们可以将T_AB，R_AB，T_AC，R_AC结合起来，形成一个四元组表示姿势差异，记为D_ABC＝[T_AB，R_AB，T_AC，R_AC]。然后，我们可以计算D_ABC的L₂距离，并将其作为面部和身体之间的姿势协调性损失，表示为：

对于随机生成人体图像G_A(w_A)，我们要在保持w_A的基础上优化w_B使得G_B(w_B)能在粗尺度上与G_A(w_A)相似，并且在边界处精细尺度上匹配。为了达到更好的效果，需要对w_B和w_A联合优化。

最终结合各项损失，本优化模块的目标函数为：

在该申请中，基于前述方案，所述的确定单元配置为一种基于生成对抗网络的姿势引导人体图像生成及面部优化方法，包括以下模块：

图像生成模块，用于导入StyleGan2-ADA网络训练的人体和面部生成器，以及面部定位网络facenet-pytorch和VGG16作为图像分类器计算感知损失。利用随机种子生成潜码w_A和w_B并利用人体和面部生成模型生层高清全身人体图像和面部图像。

面部定位模块：将需要修改的面部区域利用facenet-pytorch网络进行定位，以便后续进行替换与优化面部。

姿势引导生成模块，将前述模块中输出的全身人体图像以及解码出的目标姿势作为输入，通过两阶段生成器生成目标姿势的人体图像。

优化模块，构建优化函数，对w_A和w_B进行联合优化，达到三个优化目标，生成高清高质量全身人体图像。

本发明提供了这样一种姿势引导人体图像生成及面部优化方法：通过设置随机种子生成随机潜码w_A和w_B导入生成器G_A和G_B生成出全身人体图像I_A和高清人脸图像I_B，导入姿势引导生成网络，将人体图像转换为目标姿势。通过面部定位网络定位出需要替换和优化的面部区域，利用构造的优化函数对面部及接缝细节以及全局协调性进行优化，生成目标高清全身人体图像。

附图说明

图1是本发明的姿势引导人体图像生成及面部优化方法结构示意图；

图2是本发明的姿势引导人体图像生成及面部优化方法流程示意图；

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。下面所描述的实施例仅为本发明的一部分，不应理解为局限在上述方式的全部范例。

模型预处理：导入StyleGan2-ADA网络在DeepFashion数据集和FFHQ数据集上预训练的全身人体图像生成器面部生成器和以及VGG16模型和facenet-pytorch，为后续图像生成、面部定位和计算感知损失做准备。

图像生成：将随机生成的潜码w_A和w_B分别导入人体和图像生成器，生成高清全身人体图像和高清人脸图像I_A和I_B。

姿势引导生成网络：将前述模块生成的全身人体图像I_A和目标姿势解码出的姿势点位信息作为输入，经过两层生成器，将人体图像转换为目标姿势并输出。

面部定位：将姿势变化后的的I_A和预插入的面部图像I_B利用facenet-pytorch定位网络将对面部图像和人体图像的面部区域定位，以便后续的面部替换和优化。

优化模块：建立优化函数，对随机生成的潜码w_A和w_B进行联合优化，实现面部替换、面部质量提升、全局协调等功能。其中I_A和P_B下采样后输入L_coarse计算损失，与/>输入L_border计算损失，L_reg和L_pose分别为正则项和姿势损失。联合优化四项损失，输出结果。

图1是本发明的姿势引导人体图像生成及面部优化方法模块结构示意图，展示了本发明中各模块的详细结构以及模块之间的数据传输。如图所示包括图像生成模块、姿势引导生成模块、面部定位模块、优化模块。

图2是本发明的姿势引导人体图像生成及面部优化方法流程示意图，展示了本发明实例的步骤流程。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于生成对抗网络的姿势引导人体图像生成及面部优化方法，其特征在于，包括以下步骤：

S1：模型预处理：导入StyleGan2-ADA网络在DeepFashion数据集和FFHQ数据集上预训练的全身人体图像生成器、面部生成器和以及VGG16模型和facenet-pytorch，为后续图像生成、面部定位和计算感知损失做准备。

S2：图像生成：将随机生成的潜码分别导入人体和面部生成器，生成高清全身人体图像和高清人脸图像。

S3：姿势引导生成网络：将前述步骤生成的全身人体图像和目标姿势解码出的姿势点位信息作为输入，将人体图像转换为目标姿势。

S4：面部定位：利用facenet-pytorch定位网络对面部图像和人体图像的面部区域定位，以便后续的面部替换和优化。

S5：优化模块：建立优化函数，对随机生成的潜码w_A和w_B进行联合优化，将给定的人脸图像插入到生成的人体图像中，实现面部质量提升功能并且使其与姿势相匹配，实现图像全局协调。

2.根据权利要求1所述的方法S3步骤，其特征在于：构建两阶段的生成器以及一个判别器，第一阶段生成器以S2步骤生成的人体图像和目标姿势作为输入，生成具有目标姿势的人体图像。第二阶段以原始人体图像作为条件优化第一阶段生成的图像质量，通过判别器对抗训练最终得到目标姿势的高质量人体图像。

3.根据权利要求1所述的基于生成对抗网络的姿势引导人体图像生成及面部优化方法S5步骤，其特征在于：基于设置的三个优化目标，构建了优化函数，联合优化潜码w_A和w_B。首先是联合计算了F1损失和感知损失L_lpips以匹配面部外观，同时为了保证w_A不变的情况下优化w_B，设计姿势损失函数L_pose以及正则项L_reg，最终实现面部和人体优化效果。

4.一种基于生成对抗网络的姿势引导人体图像生成及面部优化方法，包括：

图像生成模块，导入StyleGan2-ADA网络训练的人体和面部生成器以及面部定位网络facenet-pytorch和VGG16作为图像分类器计算感知损失。利用随机种子生成潜码w_A和w_B并利用人体和面部生成模型生层高清全身人体图像和面部图像。

面部定位模块，将需要修改的面部区域利用facenet-pytorch网络进行定位，以便后续进行替换与优化面部。

优化模块，构建优化函数，通过联合优化w_A和w_B达到三个优化目标，从而生成高清、高质量的全身人体图像。