CN117197294B

CN117197294B - 一种结合生成对抗网络和扩散模型的人脸生成方法

Info

Publication number: CN117197294B
Application number: CN202311286068.6A
Authority: CN
Inventors: 周书田; 王泽江; 段明亮; 袁臻
Original assignee: Chengdu Wuhou Community Technology Co ltd
Current assignee: Chengdu Wuhou Community Technology Co ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2024-05-14
Anticipated expiration: 2043-10-07
Also published as: CN117197294A

Abstract

本发明公开了一种结合生成对抗网络和扩散模型的人脸生成方法，包括以下步骤：S1：数据集生成：使用神经对抗网络GANs生成数据集，进行潜向量的人脸属性分类标记；S2：潜向量插值：将潜向量转化为具有人口属性的身份，通过插值生成新的身份；S3：通过融合和渐变操作生成身份；S4：将所有生成的身份的潜向量根据二元目标属性分离为多组不同的种群；S5：通过分离出的种群生成每个身份的类内变化；S6：引入扩散模型进行微调，输出具有类内变化的带文本提示的人脸图像；S7：优化模型；通过本申请通过操纵潜在空间和使用扩散模型实现增强的类内变异，从而提高面部识别模型的性能，并为面部识别系统的评估和改进提供了有效的工具。

Description

一种结合生成对抗网络和扩散模型的人脸生成方法

技术领域

本发明属于图像处理技术领域，具体涉及一种结合生成对抗网络和扩散模型的人脸生成方法。

背景技术

近年来，合成数据集在面部识别技术中得到了广泛应用，尤其是通过各种方法针对合成面部生成进行了改进，增加和多样化了面部识别数据集。与真实世界数据集相比，合成数据集具有几个优势。首先，它们解决了真实数据集中的隐私问题，因为真实数据集通常是从各种在线来源收集个人面部图像，但这些个人并没有事先知情或同意。其次，合成数据集可以提供大量的数据，这对于在收集和使用个人数据时需要获得个体知情同意的情况下非常重要。最后，如果合成过程是可控的，就可以轻松获得具有所需人口统计特征和标签的数据集，而真实世界数据集则无法平衡地代表不同的人口组群。然而，现有的合成数据集在类内变异性方面存在一定的局限性，这影响了使用这些数据集进行训练和评估面部识别模型的性能。

已有的与本专利技术最相近似的传统技术方案：

在现有的生成模型中，生成对抗网络（GANs）被广泛用于合成面部图像，特别是最近的StyleGAN3版本。然而，GANs生成的图像对于生成特征的控制有限，并且在训练过程中可能对某些人口组群存在偏差。为了解决这个问题，一些方法被提出来修改合成面部图像的属性，例如姿势、光照和人口统计特征。这些方法可以通过将目标属性注入到GANs的生成组件中，或者适当操纵GANs的潜在结构来实现。然而，与真实世界数据集相比，由GANs生成的图像在同一身份之间的变异性不足，这对于使用合成数据进行训练并使用真实数据进行评估的面部识别模型的性能产生了影响。

最近，扩散模型在多个任务中取得了比GAN模型更好的效果，包括图像合成。扩散模型通过逐渐向数据添加随机噪声并学习将其反转，从噪声生成所需的输出。与GAN模型相比，扩散模型可以根据文本或图像塑造其输出，并生成更多样的图像。然而，不同于GANs，扩散模型不会学习面部图像的显式潜在表示，使得它们的人口统计特征和类内变异性较难控制。

因此，本专利提出将GAN与扩散模型进行结合，充分利用GAN在生成高保真图像上的优势，以及扩散模型在生成同一身份之间高变异性的优势，来生成同时具有高变异性和逼真度的人脸照片，助力下游训练。

发明内容

为解决上述背景技术中提出的问题，本发明提供一种结合生成对抗网络和扩散模型的人脸生成方法，以解决现有技术中图像变异性和逼真度低的问题。

为实现上述目的，本发明提供如下技术方案：

一种结合生成对抗网络和扩散模型的人脸生成方法，包括以下步骤：

S1：数据集生成：使用神经对抗网络GANs生成一个包含多个人脸图像的初始随机数据集，将初始随机数据集中的人脸图像投射至潜空间中，得到潜向量，并使用属性模型对初始随机数据集中的潜向量进行人脸属性的分类标记，人脸属性包括人口属性和姿态属性，人口属性包括年龄、性别和种族，姿态属性包括光照、表情和姿势；

S2：潜向量插值：根据人脸属性的分类标记，将初始随机数据集中的潜向量转化为具有人口属性的身份，通过在两个具有不同人口属性的身份的潜向量之间进行线性插值，生成介于两个具有不同人口属性的身份之间的新的身份；

S3：对新的身份使用融合和渐变操作：融合操作用于将两个不同的身份进行混合，以生成同时具有两个不同身份的特征的身份，渐变操作用于在两个不同的身份之间生成具有渐变效果的身份；

S4：人脸属性表示：在潜空间中训练线性支持向量机SVM，将所有生成的身份的潜向量根据二元目标属性分离为多组不同的种群，每组种群包括两个种群，一组中的两个种群分别表示潜向量的一个人脸属性的两个极端分布；

种群的具体获得方法为：通过训练得到的超平面边界的法向量表示在潜空间中编辑人脸属性的方向，训练多个一对一的线性支持向量机SVM分离每个潜向量的每个姿态属性得到多组种群，包括表情与中性表情的一组种群，在每个不同的种族的潜向量上训练多个一对多的SVM，得到多个不同种族的潜向量的种群，所有超平面边界的训练用合成数据进行；

S5：潜空间转换：通过分离出的种群，在潜空间中应用属性转换来修改身份的姿态属性，再修改身份的人口属性，生成每个身份的类内变化；

S6：基于文本提示的图像合成：引入扩散模型对每个身份的人脸图像进行微调，将一个唯一标记与一个身份绑定，输出具有类内变化的带文本提示的人脸图像；

S7：优化操作：使用反向传播和优化算法对神经对抗网络GANs和扩散模型进行优化，通过最小化损失函数，提高扩散模型输出人脸图像的质量和准确性。

优选地，S1还包括图像质量评估操作，具体为：在使用神经对抗网络GANs生成初始随机数据集后，使用MagFace 质量模型，剔除初始随机数据集中具有模长最短的10%的图像。

优选地，S1中神经对抗网络GANs使用Flickr-Faces-HQ数据集进行预训练。

优选地，S5的具体操作如下：

S5.1：姿势中性化：通过将S4中种群分离后的潜向量投影到与偏航和俯仰相关的超平面边界上，使潜向量表示的人脸图像姿势中性化；

S5.2：表情中性化：通过将S4中种群分离后的潜向量投影到与偏航和俯仰相关的超平面边界上，并将结果潜向量沿着中性表情的方向移动，使潜向量表示的人脸图像表情中性化；

S5.3：人口属性转换：对根据姿势和表情进行中性化的潜向量应用属性边界的转换；

S5.4：基于神经对抗网络GANs的类内变化：根据姿势、表情和光照的边界修改人口属性的潜向量，以生成每个身份的类内变化。

优选地，S6中使用神经对抗网络GANs生成的人脸图像微调预训练好的扩散模型结构，将一个唯一标记与一个身份绑定，并将绑定了标记的身份植入到扩散模型的输出域中，使用包含标记后跟身份的类名的文本提示。

优选地，S7中的最小化损失函数包括神经网络生成器损失、身份特征匹配损失和像素级重建损失。

优选地，S7还包括人工评估操作，人工评估操作具体为使用包括图像质量分数FID、结构相似性SSIM和身份一致性度量的定量指标来对生成结果进行评估。

优选地，S1中的属性模型包括3DDFA_V2模型、DMUE模型和FairFace模型。

与现有技术相比，本发明的有益效果是：

本申请提出了一种结合GAN和扩散模型的新框架，该框架结合了生成对抗网络GAN和扩散模型的优势，使用生成对抗网络生成合成身份，并通过在潜在空间中操纵属性为每个身份创建不同的图像，然后使用扩散模型框架，对生成的图像进行进一步处理，以增强类内变异性。通过这种方式，我们能够生成易于控制和逼真的合成数据集，具有更好的类内变异性和人口统计特征，本申请解决了传统技术中缺乏类内变异性和人口统计特征的问题，该技术的优势在于能够生成逼真的人脸图像，并且通过操纵潜在空间和使用扩散模型实现增强的类内变异，从而提高面部识别模型的性能，这种技术可以被应用于训练和测试多个面部分析应用，为面部识别系统的评估和改进提供了有效的工具。

附图说明

图1为对抗神经网络GANs的工作流程示意图；

图2为扩散模型的工作流程示意图；

图3为扩散模型的推理流程示意图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，以下结合附图和具体的实例对本发明作进一步地详细说明。应当理解，此处所描述的具体实例仅用以解释本发明，并不用于限定本发明。

实施例：

如图1、图2、图3所示，一种结合生成对抗网络和扩散模型的人脸生成方法，包括以下步骤：

S1：数据集生成：使用神经对抗网络GANs生成一个包含多个人脸图像的初始随机数据集，首先，使用神经对抗网络（使用FFHQ数据集进行预训练）生成一个包含大量合成图像的初始随机数据集，然后，从初始数据集中删除质量较差的图像和年轻主体。为了评估图像质量，我们使用MagFace 质量模型，这是一种学习特征嵌入的先进系统，其模长大小表示了图像质量。我们剔除了具有模长最短的10%的图；

将初始随机数据集中的人脸图像投射至潜空间中，得到潜向量，并使用属性模型对初始随机数据集中的潜向量进行人脸属性的分类标记；

在该步骤中，为了结耦神经对抗网络（GAN)s生成的人脸属性，我们在潜空间中训练线性支持向量机（SVM），以将潜向量根据二元目标属性分离为两个不同的种群。通过训练得到的超平面边界的法向量表示在潜空间中编辑人脸属性的方向。我们使用3DDFA_V2、DMUE和FairFace等模型对合成数据集进行姿势、表情、光照、性别、年龄和种族等属性的标记。对于每个感兴趣的属性，我们用相同数量的潜向量表示两个种群，这些潜向量在目标属性的得分分布的两个极端处选择。对于分类属性，如表情和种族，我们使用DMUE和FairFace提供的数值分别表示所有可能的分类属性。因此，我们训练多个一对一的SVM来分离每个表情与中性表情，在每个不同的种族上训练多个一对多的SVM。所有边界的训练仅使用合成数据进行。边界确定后，我们就得到了多个可分离的潜空间。

在该步骤中，我们可以通过在潜空间中应用转换来修改代表面部图像的潜向量，使其呈中性状态。通过结合转换和中性化的操作来修改人脸图像的人口属性（种族、年龄和性别），可以生成任意数量的表示目标人口群体的身份。具体操作顺序如下：

S5.1：姿势中性化：通过将随机生成的身份的潜向量投影到与偏航和俯仰相关的超平面边界上，将它们的姿势中性化。

S5.2：表情中性化：通过将随机生成的身份的潜向量投影到与当前表情相关的超平面边界上，并将结果潜向量沿着中性表情的方向移动（与当前表情相反的方向），将它们的表情中性化。

S5.3：特定人口属性转换：对中性化的潜向量（根据姿势和表情进行中性化）应用属性边界的转换。通过预先选择与目标属性接近的具有人口属性的随机身份，我们考虑了70个不同的人口群组，包括七种种族、五个成年人年龄间隔和两个性别。总共，我们在这一步生成了700个不同的身份（每个70个人口群组中的10个身份）。

S5.4基于GAN(对抗神经网络）的类内变化：可以根据姿势、表情和光照的边界进一步修改特定人口属性身份的潜向量，以生成每个合成身份的（有限的）类内变化。

值得注意的是，通过将不同的人口属性转换应用于同一原始身份，可以模拟亲属关系、多种族联盟和人口老龄化。

在该步骤中，为了解决现有文本到图像合成模型在保持主体身份上的一致性方面的问题，我们引入了扩散模型。扩散模型是一种新颖的框架，它可以通过对文本到图像模型进行微调，将新词与特定主体绑定，并在不同上下文中合成主体的新版本，同时保持其独特的特征。

训练过程如下：

我们使用上述介绍的基于对抗神经网络模块生成的图像来微调表现优异的已经训练好的扩散模型结构。我们将一个唯一标记（我们使用“xyz”）与特定的合成身份绑定，并将其植入到扩散模型的输出域中。为了引用该身份，我们使用包含标记“xyz”后跟身份的类名的文本提示，例如“xyz person”。类名（即“person”）使模型能够利用其对该类的先验知识，并且附加的类特定的先验保护损失有助于保护身份信息。

在该步骤中，为了优化生成的图像质量和身份一致性，我们可以使用反向传播和优化算法对模型进行训练。通过最小化损失函数，如对抗神经网络生成器损失、身份特征匹配损失和像素级重建损失，我们可以提高合成图像的质量和准确性。此外，还可以使用人工评估和定量指标，如图像质量分数（例如FID和SSIM）和身份一致性度量（例如人脸验证准确率）来评估生成结果。

在本实施例中，本申请提出了一种结合GAN和扩散模型的新框架，该框架结合了生成对抗网络GAN和扩散模型的优势，使用生成对抗网络生成合成身份，并通过在潜在空间中操纵姿势、表情和光照属性为每个身份创建不同的图像，然后使用扩散模型框架，对生成的图像进行进一步处理，以增强类内变异性。通过这种方式，我们能够生成易于控制和逼真的合成数据集，具有更好的类内变异性和人口统计特征，本申请解决了传统技术中缺乏类内变异性和人口统计特征的问题，该技术的优势在于能够生成逼真的人脸图像，并且通过操纵潜在空间和使用扩散模型实现增强的类内变异，从而提高面部识别模型的性能，这种技术可以被应用于训练和测试多个面部分析应用，为面部识别系统的评估和改进提供了有效的工具。

Claims

1.一种结合生成对抗网络和扩散模型的人脸生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种结合生成对抗网络和扩散模型的人脸生成方法，其特征在于，S1还包括图像质量评估操作，具体为：在使用神经对抗网络GANs生成初始随机数据集后，使用MagFace 质量模型，剔除初始随机数据集中具有模长最短的10%的图像。

3.根据权利要求1所述的一种结合生成对抗网络和扩散模型的人脸生成方法，其特征在于，S1中神经对抗网络GANs使用Flickr-Faces-HQ数据集进行预训练。

4.根据权利要求1所述的一种结合生成对抗网络和扩散模型的人脸生成方法，其特征在于，S5的具体操作如下：

5.根据权利要求1所述的一种结合生成对抗网络和扩散模型的人脸生成方法，其特征在于，S6中使用神经对抗网络GANs生成的人脸图像微调预训练好的扩散模型结构，将一个唯一标记与一个身份绑定，并将绑定了标记的身份植入到扩散模型的输出域中，使用包含标记后跟身份的类名的文本提示。

6.根据权利要求1所述的一种结合生成对抗网络和扩散模型的人脸生成方法，其特征在于，S7中的最小化损失函数包括神经网络生成器损失、身份特征匹配损失和像素级重建损失。

7.根据权利要求1所述的一种结合生成对抗网络和扩散模型的人脸生成方法，其特征在于，S7还包括人工评估操作，人工评估操作具体为使用包括图像质量分数FID、结构相似性SSIM和身份一致性度量的定量指标来对生成结果进行评估。

8.根据权利要求1所述的一种结合生成对抗网络和扩散模型的人脸生成方法，其特征在于，S1中的属性模型包括3DDFA_V2模型、DMUE模型和FairFace模型。