CN108197525B

CN108197525B - 人脸图像生成方法及装置

Info

Publication number: CN108197525B
Application number: CN201711157541.5A
Authority: CN
Inventors: 雷震; 万军; 李子青; 万里鹏
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2020-08-11
Anticipated expiration: 2037-11-20
Also published as: CN108197525A

Abstract

本发明属于人脸识别技术领域，具体涉及一种人脸图像生成方法及装置。旨在解决如何对包含特定属性信息的人脸图像样本进行数据增广的技术问题。本发明提供一种人脸图像生成方法，包括将人脸样本图像和预设的人脸多属性条件向量输入对抗生成网络；分别对预设的噪声向量和预设的人脸多属性条件向量进行取样，将取样结果输入对抗生成网络的生成网络，得到合成图像；分别将合成图像与人脸样本图像输入对抗生成网络的判别网络，判别网络无法区分合成图像和输入的图像时，将合成图像作为符合人脸多属性条件的人脸图像输出。本发明能够在训练集样本难以获取的情况下，对原有的生成对抗网络进行拓展，通过多属性条件的引导，生成指定属性条件的图像。

Description

人脸图像生成方法及装置

技术领域

本发明属于人脸识别技术领域，具体涉及一种人脸图像生成方法及装置。

背景技术

随着神经网络技术的发展，神经网络技术正应用在越来越多的场景中，而人脸识别作为生物特征识别中最活跃的分支，也越来越受到重视。其中，图像视频检索以及人脸属性分析等又是人脸识别的重要应用，以人脸识别中的年龄估计为例，在传统的年龄估计技术中，由于缺乏人脸图像样本数据，只能基于有限的数据进行年龄分布挖掘，或者在获取人脸不同区域的图像信息后，结合所获取的图像信息进行年龄估计。目前，可以采用数据增广方法对人脸图像样本进行扩充，但是常规的数据增广方法无法对包含特定年龄和性别等属性信息的人脸图像样本进行扩充，从而影响人脸识别的准确性，进而限制人脸识别的应用和推广。

因此，如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决如何对包含特定属性信息的人脸图像样本进行数据增广的技术问题，本发明的一方面提供了一种人脸图像生成方法，包括：

步骤S1：将人脸样本图像和预设的人脸多属性条件向量输入对抗生成网络；

步骤S2：分别对预设的噪声向量和所述预设的人脸多属性条件向量进行取样，将取样结果输入所述对抗生成网络的生成网络，得到合成图像；

步骤S3：分别将所述合成图像与所述人脸样本图像输入所述对抗生成网络的判别网络，若所述判别网络能够区分所述合成图像和所述人脸样本图像，则优化所述生成网络和所述判别网络，并执行步骤S2；否则，将所述合成图像作为符合人脸多属性条件的人脸图像输出。

在上述方法的优选技术方案中，将所述人脸样本图像输入所述对抗生成网络之前，该方法还包括：

对所述人脸样本图像进行人脸检测，若所述人脸样本图像不存在人脸，则放弃该图像；否则对所述人脸样本图像进行人脸关键点检测，得到所述人脸关键点的位置信息；

根据所述人脸关键点的位置信息，进行图像对齐和裁剪操作，得到最终的人脸样本图像。

在上述方法的优选技术方案中，所述判别网络，配置为按照下述步骤区分所述合成图像与所述人脸样本图像：

根据所述合成图像和所述人脸样本图像，分别输出真伪判别概率以及多属性特征层输出；

根据所述真伪判别概率以及所述多属性特征层输出，分别计算所述判别网络的损失函数的对抗损失项、以及所述生成网络的损失函数的多属性交叉熵损失项；

若所述对抗损失项趋于平稳且所述多属性交叉熵损失项收敛，则所述判别网络无法区分所述合成图像和所述人脸样本图像，反之，则能够区分。

在上述方法的优选技术方案中，“计算所述判别网络的损失函数的对抗损失项、以及所述生成网络的损失函数的多属性交叉熵损失项”，其方法为按照下式所示的方法计算：

其中，L_adv表示对抗损失项，L_atr表示多属性交叉熵损失项，m表示训练Batch块的大小，D(x_i)表示表示合成图像的真伪判别概率值，D(x_i′)表示训练图像的真伪判别概率值，x_i表示训练图像，x_i′表示合成图像，x_i′＝G(z_i,g_i,e_i,a_i)，其中，G(z_i,g_i,e_i,a_i)表示把随机噪声向量z_i，指定的性别g_i、种族e_i和年龄a_i作为生成器G的输入，l_gender,l_ethnicity,l_age分别表示性别、种族和年龄的交叉熵损失；g_i,e_i,a_i表示生成网络的指定性别、种族和年龄。

在上述方法的优选技术方案中，“优化所述生成网络和所述判别网络”，其方法为：

计算所述生成网络和所述判别网络的参数梯度，采用Adam算法反向传播更新所述生成网络和所述判别网络的参数。

在上述方法的优选技术方案中，“分别对预设的噪声向量和所述预设的人脸多属性条件向量进行取样”，其方法为：

对所述预设的噪声向量进行随机取样；

将训练数据集中的标签属性赋值给所述预设的人脸多属性条件向量后，对赋值后的人脸多属性条件向量进行随机取样。

在上述方法的优选技术方案中，步骤S3之后，该方法还包括：

将所述人脸样本图像与所述合成图像进行等比例随机混合，将混合后的图像输入Alex Net网络，进行fine-tune训练，输出所述人脸图像的预测年龄。

本发明的第二方面提供了一种人脸图像生成装置，所述装置包括输入单元、合成单元以及输出单元；

所述输入单元，配置为将人脸样本图像和预设的人脸多属性条件向量输入对抗生成网络；

所述合成单元，配置为分别对预设的噪声向量和所述预设的人脸多属性条件向量进行取样，将取样结果输入所述对抗生成网络的生成网络，得到合成图像；

所述输出单元，配置为分别将所述合成图像与所述人脸样本图像输入所述对抗生成网络的判别网络，若所述判别网络能够区分所述合成图像和所述人脸样本图像，则优化所述生成网络和所述判别网络，并执行步骤S2；否则，将所述合成图像作为符合人脸多属性条件的人脸图像输出。

本发明的第三方面提供了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行如上述所述的人脸图像生成方法。

本发明的第四方面提供了一种处理装置，包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；所述程序适于由处理器加载并执行如上述所述的人脸图像生成。

与最接近的现有技术相比，本发明提供一种人脸图像生成方法，包括：

步骤S1：将人脸样本图像和预设的人脸多属性条件向量输入对抗生成网络；步骤S2：分别对预设的噪声向量和所述预设的人脸多属性条件向量进行取样，将取样结果输入所述对抗生成网络的生成网络，得到合成图像；步骤S3：分别将所述合成图像与所述人脸样本图像输入所述对抗生成网络的判别网络，若所述判别网络能够区分所述合成图像和所述人脸样本图像，则优化所述生成网络和所述判别网络，并执行步骤S2；否则，将所述合成图像作为符合人脸多属性条件的人脸图像输出。

上述技术方案至少具有如下有益效果：本发明能够在训练集样本难以获取的情况下，对原有的生成对抗网络进行拓展，通过多属性条件的引导，生成指定属性条件的图像，将其作为增广数据，生成满足条件的人脸图像，并且能够辅助其他识别器进行训练，提升模型的性能。

附图说明

图1为本发明一种实施例的人脸图像生成的方法的流程示意图；

图2为本发明一种实施例的人脸图像生成方法的框架示意图；

图3为本发明一种实施例的人脸样本图像进行人脸检测的流程示意图；

图4为本发明一种实施例的人脸图像生成的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参阅附图1，图1示例性的给出了本实施例中人脸图像生成的方法的流程示意图。如图1所示，本实施例中人脸图像生成的方法包括下述步骤：

如图2所示，图2示例性的给出了本实施例中人脸图像生成方法的框架示意图。在实际应用中，在人脸识别领域的具体应用场景中，以人脸属性分析为例，需要对输入的图像进行人脸属性中的年龄分析，则首先需要得到输入的图像中的人脸信息，而为了能够在训练集样本难获取或者样本数据很少的情况下，依旧进行准确属性识别，则可以将人脸多属性条件输入GAN(Generative Adversarial Networks，生成对抗网络)，随着GAN的生成网络学习真实的数据分布后，能生成出与训练样本集相同的分布，但是不包括在训练样本集中的新数据，再加上指定的标签属性条件，即，人脸多属性条件向量，可以生成指定的人脸属性图像，通过拟合分布后的生成数据，可以辅助其他模型进行训练，提高其他模型的性能。其中，人脸多属性条件向量可以包括：年龄、性别和种族。

进一步地，将人脸样本图像输入对抗生成网络之前，还包括：

对人脸样本图像进行人脸检测，若人脸样本图像不存在人脸，则放弃该图像；否则对人脸样本图像进行人脸关键点检测，得到人脸关键点的位置信息；

根据人脸关键点的位置信息，进行图像对齐和裁剪操作，得到最终的人脸样本图像。

如图3所示，图3为本发明实施例对人脸样本图像进行人脸检测的流程图，该方法具体步骤为：

步骤S11：在本实施例中，为了能够准确的生成高质量的人脸图像以及得到更为准确的人脸属性估计结果，首先对输入的人脸样本图像进行人脸检测操作，检测其是否包含人脸，若不包含人脸，则放弃该图片，提高处理效率，若检测到人脸，则进行下一步处理；

步骤S12：得到人脸图像后，对人脸图像的关键点进行检测，其中，人脸图像的关键点包括两眼之间连线的中心点以及上嘴唇的中心点，得到上述两个关键点的位置信息；

步骤S13：在实际应用中，会有大量的图片输入，为了能够高效地进行处理，需要将不同图片的人脸图像固定在同一位置，以便能够进行统一处理。得到上述两个关键点后，按照上述两个关键点位置对齐人脸，通过旋转、缩放、平移等操作，将图像裁剪成预设大小，在本发明的一种优选的实施例中，预设图像大小的尺寸可以为128*128，输出对齐后的人脸图像。对齐后的人脸图像的两眼之间连线的中心点以及上嘴唇的中心点均在同一位置，并且头发包含在整个对齐后的人脸图像中。

通过对输入的图像进行对齐预处理后，不仅能够统一训练数据的人脸姿态，便于后续进行数据训练和图像生成，还能保持数据对齐方式的一致性，将图像进行对齐预处理后，能够排除姿态等其他因素的干扰，加强GAN对五官的判别，提高人脸图像生成的准确率。

步骤S2：分别对预设的噪声向量和预设的人脸多属性条件向量进行取样，将取样结果输入对抗生成网络的生成网络，得到合成图像；

在本发明实施例中，噪声向量遵循均匀分布，并且取值区间位于(-1,1)，人脸多属性条件向量根据训练数据集标签属性分布进行取样，训练数据集标签属性分布具体是指训练集中每一个样本都有年龄、性别、种族标签，具体地，所使用的样本中年龄区间为16-77，性别分为男、女，种族分为白人、黑人，一共可能有248种情况，这些情况在原始数据集中的分布构成标签属性分布，对人脸多属性条件向量取样就是从所列出的所有多属性情况取出一种，比如说16岁的白人男青年；将上述取样结果和图像输入GAN的生成网络，得到合成图像。

具体地，步骤S2包括如下内容：

在本发明实施例中，图像分为训练图像以及合成图像，首先将训练图像进行预处理，得到两眼之间连线的中心点以及上嘴唇的中心点均在同一位置的对齐图像；噪声向量遵循均匀分布，对噪声向量z进行随机取样z～U(-1,1)，其中，U代表噪声向量的取值区间，根据训练数据集的标签属性分布，对多属性条件向量c进行取样，c～p_data(y)，其中，p_data(y)表示真实训练数据集中多属性标签的概率分布，data表示真实训练数据集，y表示标签；将随机噪声向量z和多属性条件向量c输入GAN的生成网络，正向传播输出合成图像；在本发明实施例的一种优选实施例中，为了保证生成网络(Generator)和判别网络(Discriminator)的训练一致，直接将训练样本取样的对应属性值赋予c(x,y～p_data(x,y),c＝y)，其中，年龄从[16,77]里随机采样，性别从[male,female]里随机采样，种族从[white,black]里随机采样，最终拼成条件向量，让生成网络的输入条件向量和判别网络的样本条件向量保持一致，有利于上述两个网络能针对当前训练的真实样本调整参数时保持同步。

步骤S3：分别将合成图像与人脸样本图像输入对抗生成网络的判别网络，若判别网络能够区分合成图像和人脸样本图像，则优化生成网络和判别网络，并执行步骤S2；否则，将合成图像作为符合人脸多属性条件的人脸图像输出。

在本发明实施例中，得到合成图像后，将合成图像和训练图像分别输入到GAN的判别网络中，判别网络根据输入的合成图像和训练图像，进行运算后，前向传播分别输出对应合成图像和训练图像的真伪判别概率值t,t′，以及多属性特征层的输出f,f′，为了能够达到GAN的目的，经过训练后的判别网络应尽可能地从训练图像中区分出合成图像，即(t→1,t′→0)，其中，t指代判别网络对于真实图像判断其为真实的概率，t′则表示判别网络对于合成图像判断其为真实的概率，而0，1分别表示完全为假和完全为真，箭头表示两个概率中真实图像判别概率要尽量逼近1，而生成图像判别概率要尽量逼近0。若判别网络能够区分所述合成图像和输入的图像，则更新所述生成网络和判别网络的参数，并执行步骤S2；否则，将所述合成图像作为符合人脸多属性条件的人脸图像输出。

经过训练后的生成网络应尽可能地生成足够逼真的合成图像骗过判别网络，即，(t′→1)；在对抗过程中，判别网络学习训练人脸图像的特征，并正确预测出人脸属性，即，(f→y)，其中，f是对应真实图像根据特征层提取的特征给出的多属性预测，y是训练数据集中与训练样本对应的多属性标签的one-hot向量，可以理解为属于某年龄某性别某种族的概率为1，其他为0，也是让判别网络给出从真实图像挖掘出的信息能尽量正确预测为实际标签；

在学习过程中，生成网络要生成符合指定条件c的合成图像让判别网络能够正确地预测(f′→c)，其中，f′是对应生成图像根据特征层提取的特征给出的多属性预测，c是输入到生成网络的指定多属性标签的one-hot向量，也是让生成网络能够生成足以让判别网络从生成图像挖掘出的信息，尽量正确预测指定的多属性标签。

本发明能够在训练集样本难以获取的情况下，对原有的生成对抗网络进行拓展，通过多属性条件的引导，生成指定属性条件的图像，将其作为增广数据，生成满足条件的人脸图像，并且能够辅助其他识别器进行训练，提升模型的性能。

在本发明的一种优选实施例中，所述判别网络，配置为按照下述步骤区分所述合成图像与所述人脸样本图像：

根据合成图像和人脸样本图像，分别输出真伪判别概率以及多属性特征层输出；

根据真伪判别概率以及多属性特征层输出，分别计算判别网络的损失函数的对抗损失项、以及生成网络的损失函数的多属性交叉熵损失项；

若对抗损失项趋于平稳且多属性交叉熵损失项收敛，则判别网络无法区分合成图像和人脸样本图像，反之，则能够区分。

在对抗训练过程中，输入训练图像和指定条件的生成图像，利用对抗损失项L_adv控制判别网络(Discriminator)和生成网络(Generator)的博弈过程，判别网络要尽量区分训练人脸图像和合成人脸图像，生成网络要尽量生成能骗过判别网络的合成人脸图像；利用属性交叉熵损失项L_atr控制两个网络在对抗过程中学习指定多属性的特征，最后根据反向传播算法调整网络参数，直至生成高画质的人脸图像。

具体地，对抗损失项L_adv利用KL距离或者欧式距离度量两个分布，判别网络要能同时做到把真实数据判断为真的概率往1逼近，把生成数据判断为真的概率往0逼近，也就是尽量区分开两个分布，而生成网络则需要做出回应，调整生成足以让判别网络判断为真的合成图像，所以对抗损失项应该是两项，一项控制判别网络，一项控制生成网络；

具体地，属性交叉熵损失项L_atr分成两部分，一部分用于判别网络，作为一个多属性分类器的角色，学习出真实数据的年龄、性别、种族特征依据，生成数据暂时不参与其中，另一部分生成数据再输给判别网络时，判别网络依据当前已有的先验知识给出对于生成数据年龄、性别、种族的判断，生成网络依据判断结果与给定的结果的差异进行调整，生成符合要求的图像。

在本发明的一种优选实施例中，对抗损失项L_adv能够控制判别网络和生成网络的博弈过程，交叉熵损失项L_atr控制判别网络和生成网络在对抗过程中学习指定多属性的特征，其中，判别网络损失函数各包括一个对抗损失项L_adv以及多属性交叉熵损失项L_atr；

计算判别网络损失函数L_D具体如公式(1)所示：

其中，m表示训练Batch块的大小，D(x_i)表示合成图像的真伪判别概率值，D(x_i′)表示训练图像的真伪判别概率值，x_i表示训练图像，x_i′表示合成图像，x_i′＝G(z_i,g_i,e_i,a_i)，其中，G(z_i,g_i,e_i,a_i)表示把随机噪声向量z_i，指定的性别g_i、种族e_i和年龄a_i作为生成器G的输入，l_gender,l_ethnicity,l_age分别表示性别、种族和年龄的交叉熵损失；g_i,e_i,a_i表示生成网络的指定性别、种族和年龄；

计算生成网络损失函数L_G具体如公式(2)所示：

计算性别的交叉熵损失具体如公式(3)所示：

计算种族的交叉熵损失具体如公式(4)所示：

计算年龄的交叉熵损失具体如公式(5)所示：

其中，p表示判别网络最后一层的关于该属性分类的概率输出。

通过上述公式计算后，可以观察对抗损失项是否趋于平稳，以及多属性交叉熵损失项是否收敛，若趋于平稳并收敛，则实时观察生成图像质量，若合成图像基本无法用肉眼区分且趋于稳定，则说明合成图像能够达到指定的多属性条件下生成的人脸图像的要求。

作为本发明的一种优选实施例，在步骤S3之后，还包括：

将人脸样本图像与合成图像进行等比例随机混合，将混合后的图像输入Alex Net网络，进行fine-tune训练，输出人脸图像的预测年龄。

在实际应用中，训练的真实数据集中不都是正脸，有些人脸姿态是往左偏一定度数，有些是往右偏一定度数，也是能够学出姿态变化，又比如训练集中的人脸有些光照较好，有些可能背景阴暗看不太清，如果把上述条件下的数据做成标签，对于这些信息都没有给出相应的条件进行引导，只能通过网络在随机噪声向量中进行学习，在具体应用中，每一个数的具体含义都是不清楚的，因此，需要对上述数据进行相应地引导。

用真实训练图像和合成图像等比例r数量随机取样混合，输入已经训练好的AlexNet网络，进行fine-tune训练，输出最终的预测年龄age_pre和平均绝对误差MAE，混合输入前可以使每个分类样本分布都相同，保证训练集和生成集一致。经过训练后得到预测的各个年龄的概率p(i)，根据年龄及其对应的概率值求期望，得到最终的预测年龄

其中，k表示年龄的分类数量。

在本发明的一种优选实施例中，“优化所述生成网络和所述判别网络”，其方法为：

具体地，通过计算之后，观察计算得到的对抗损失项L_adv是否趋于平稳，以及交叉熵损失项L_atr是否收敛，若上述两个参数趋于平稳且趋于稳定，则进一步观察实时生成的图像质量，若基本无法用肉眼区分合成图像和训练图像，说明达到了训练想要的效果，可以结束训练；若未达到训练想要的效果，则计算生成网络和判别网络的参数梯度，并采用Adam算法，反向传播更新生成网络和判别网络的参数，直至达到训练想要的效果。

参阅附图4，图4示例性的给出了本实施例中人脸图像生成的装置的结构示意图。如图4所示，本实施例中人脸图像生成的装置包括输入单元1、合成单元2以及输出单元3；

所述输入单元1，配置为将人脸样本图像和预设的人脸多属性条件向量输入对抗生成网络；

所述合成单元2，配置为分别对预设的噪声向量和所述预设的人脸多属性条件向量进行取样，将取样结果输入所述对抗生成网络的生成网络，得到合成图像；

所述输出单元3，配置为分别将所述合成图像与所述人脸样本图像输入所述对抗生成网络的判别网络，若所述判别网络能够区分所述合成图像和所述人脸样本图像，则优化所述生成网络和所述判别网络，并执行步骤S2；否则，将所述合成图像作为符合人脸多属性条件的人脸图像输出。

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明实施例的人脸图像生成的装置的具体工作过程以及相关说明，可以参考前述人脸图像生成的方法实施例中的对应过程，且与上述人脸图像生成的方法具有相同的有益效果，在此不再赘述。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本发明还提供一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行如上述的人脸图像生成的方法。

本发明还提供一种处理装置，包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；所述程序适于由处理器加载并执行如上述的人脸图像生成的方法。

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明实施例的存储装置和处理装置的具体工作过程以及相关说明，可以参考前述人脸图像生成的方法实施例中的对应过程，且与上述方法具有相同的有益效果，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种人脸图像生成方法，其特征在于，所述方法包括：

步骤S3：分别将所述合成图像与所述人脸样本图像输入所述对抗生成网络的判别网络，若所述判别网络能够区分所述合成图像和所述人脸样本图像，则优化所述生成网络和所述判别网络，并执行步骤S2；否则，将所述合成图像作为符合人脸多属性条件的人脸图像输出；

其中，所述判别网络，配置为按照下述步骤区分所述合成图像与所述人脸样本图像：

若所述对抗损失项趋于平稳且所述多属性交叉熵损失项收敛，则所述判别网络无法区分所述合成图像和所述人脸样本图像，反之，则能够区分；

其中，“计算所述判别网络的损失函数的对抗损失项、以及所述生成网络的损失函数的多属性交叉熵损失项”，其方法为按照下式所示的方法计算：

其中，L_adv表示对抗损失项，L_atr表示多属性交叉熵损失项，m表示训练Batch块的大小，也即一轮训练所用样本数量，D(x_i)表示训练图像的真伪判别概率值，D(x′_i)表示合成图像的真伪判别概率值，x_i表示训练图像，x′_i表示合成图像，x′_i＝G(z_i,g_i,e_i,a_i)，其中，G(z_i,g_i,e_i,a_i)表示把随机噪声向量z_i，指定的性别g_i、种族e_i和年龄a_i作为生成器G的输入，l_gender,l_ethnicity,l_age分别表示性别、种族和年龄的交叉熵损失；g_i,e_i,a_i表示生成网络的指定性别、种族和年龄。

2.根据权利要求1所述的方法，其特征在于，将所述人脸样本图像输入所述对抗生成网络之前，该方法还包括：

3.根据权利要求1所述的方法，其特征在于，“优化所述生成网络和所述判别网络”，其方法为：

4.根据权利要求3所述的方法，其特征在于，“分别对预设的噪声向量和所述预设的人脸多属性条件向量进行取样”，其方法为：

对所述预设的噪声向量进行随机取样；

5.根据权利要求1-4任一项所述的方法，其特征在于，步骤S3之后，该方法还包括：

将所述人脸样本图像与所述合成图像进行等比例随机混合，将混合后的图像输入AlexNet网络，进行fine-tune训练，输出所述人脸图像的预测年龄。

6.一种人脸图像生成装置，其特征在于，所述装置包括输入单元、合成单元以及输出单元；

所述输出单元，配置为分别将所述合成图像与所述人脸样本图像输入所述对抗生成网络的判别网络，若所述判别网络能够区分所述合成图像和所述人脸样本图像，则优化所述生成网络和所述判别网络，并分别对预设的噪声向量和所述预设的人脸多属性条件向量进行取样，将取样结果输入所述对抗生成网络的生成网络，得到合成图像；否则，将所述合成图像作为符合人脸多属性条件的人脸图像输出；

7.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行如权利要求1-5任一项所述的人脸图像生成方法。

8.一种处理装置，包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行如权利要求1-5任一项所述的人脸图像生成方法。