CN112613445A

CN112613445A - 人脸图像生成方法、装置、计算机设备和存储介质

Info

Publication number: CN112613445A
Application number: CN202011594255.7A
Authority: CN
Inventors: 张少林; 宁欣; 许少辉; 董肖莉; 孙琳钧
Original assignee: Shenzhen Weifuyou Technology Co ltd
Current assignee: Shenzhen Weifuyou Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-06
Anticipated expiration: 2040-12-29
Also published as: CN112613445B

Abstract

本申请涉及一种人脸图像生成方法、装置、计算机设备和存储介质。所述方法包括：获取待处理随机噪声；调用预先训练的图像生成模型，所述图像生成模型包括属性映射网络和生成网络，所述图像生成模型用于生成携带有目标属性的人脸图像；将所述待处理随机噪声输入至所述属性映射网络中，通过所述属性映射网络将所述待处理随机噪声映射至特征空间，得到所述待处理随机噪声对应的属性特征分布数据；将所述属性特征分布数据输入至所述生成网络中，通过所述生成网络根据所述属性特征分布数据生成携带有所述目标属性的人脸图像。采用本方法能够提高人脸图像的属性生成准确性。

Description

人脸图像生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种人脸图像生成方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，对人脸的研究也得到了快速发展，例如，人脸识别、人脸属性分析等人脸相关任务成为研究重点。在人脸相关任务中，需要生成大量的人脸图像。传统方式中，大多是通过获取输入图像，对输入图像的人脸属性进行修改，输出一张携带有目标属性的人脸图像。例如，当采用基于隐变量修改的方式来生成携带有目标属性的人脸图像时，首先利用已训练的模型提取模板图像和输入图像的特征，通过融合两者的特征，来生成携带有目标属性的的人脸图像。然而，基于隐变量修改的方式，在修改单一的目标属性时，容易发生相关属性的同步改变，导致人脸图像的属性生成准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高人脸图像的属性生成准确性的人脸图像生成方法、装置、计算机设备和存储介质。

一种人脸图像生成方法，所述方法包括：

获取待处理随机噪声；

调用预先训练的图像生成模型，所述图像生成模型包括属性映射网络和生成网络，所述图像生成模型用于生成携带有目标属性的人脸图像；

将所述待处理随机噪声输入至所述属性映射网络中，通过所述属性映射网络将所述待处理随机噪声映射至特征空间，得到所述待处理随机噪声对应的属性特征分布数据；

将所述属性特征分布数据输入至所述生成网络中，通过所述生成网络根据所述属性特征分布数据生成携带有所述目标属性的人脸图像。

在其中一个实施例中，所述将所述属性特征分布数据输入至所述生成网络中，通过所述生成网络根据所述属性特征分布数据生成携带有所述目标属性的人脸图像包括：

将所述属性特征分布数据输入至所述生成网络的处理单元中，得到多个分辨率级别的生成图像；每个处理单元对应一个分辨率级别；

将所述生成网络中上一个处理单元的生成图像输入至下一个处理单元中，在所述属性特征分布数据中选取所述下一个处理单元对应的分辨率级别的目标特征数据，将所述目标特征数据输入至所述下一个处理单元，通过所述下一个处理单元对所述上一个处理单元的生成图像以及所述目标特征数据进行运算处理，得到所述下一个处理单元对应的分辨率级别的生成图像，直至最后一个处理单元输出最后一个分辨率级别的生成图像；

将所述最后一个分辨率级别的生成图像确定为携带有目标属性的人脸图像。

在其中一个实施例中，在所述获取待处理随机噪声之前，所述方法还包括：

获取训练样本和随机噪声数据；

调用预先建立的图像生成模型，将所述训练样本和随机噪声数据输入至所述图像生成模型中，将所述随机噪声数据映射至特征空间，得到所述随机噪声数据对应的多维度噪声数据；

根据所述多维度噪声数据生成多个分辨率级别的虚拟图像；

根据所述训练样本以及多个分辨率级别的虚拟图像计算所述图像生成模型对应的目标误差；

根据所述目标误差对所述图像生成模型的模型参数进行调节，直至达到预设条件，停止参数调节，得到训练后的图像生成模型。

在其中一个实施例中，所述图像生成模型包括属性映射网络和生成网络，所述方法还包括：

通过所述图像生成模型中的空间映射网络将所述随机噪声数据映射至特征空间，得到多维度噪声数据；

将所述多维度噪声数据输入至所述图像生成模型中生成网络的处理单元中，得到多个分辨率级别的虚拟图像；每个处理单元对应一个分辨率级别；

将所述生成网络中上一个处理单元的虚拟图像输入至下一个处理单元中，在所述多维度噪声数据中选取所述下一个处理单元对应的分辨率级别的噪声数据，将所述噪声数据输入至所述下一个处理单元，通过所述下一个处理单元对所述上一个处理单元的虚拟图像以及所述噪声数据进行运算处理，得到所述下一个处理单元对应的分辨率级别的虚拟图像，直至最后一个处理单元输出最后一个分辨率级别的虚拟图像，得到多个分辨率级别的虚拟图像。

在其中一个实施例中，所述图像生成模型还包括判别网络，所述根据所述训练样本以及多个分辨率级别的虚拟图像计算所述图像生成模型对应的目标误差包括：

将每个分辨率级别的虚拟图像分别输入至所述图像生成模型的判别网络中，以及将所述训练样本输入至所述判别网络中；

通过所述判别网络根据所述训练样本计算每个分辨率级别的虚拟图像对应的对抗误差；

根据多个分辨率级别的虚拟图像对应的对抗误差计算所述图像生成模型对应的目标误差。

在其中一个实施例中，所述获取训练样本包括：

获取标注有人脸属性的初始图像集；

对所述初始图像集中的各人脸图像进行人脸检测，确定各人脸图像中的人脸目标对应的人脸区域，截取所述人脸区域，得到各人脸图像对应的人脸区域图像；

将所述人脸区域图像进行缩放处理，生成训练样本。

一种人脸图像生成装置，所述装置包括：

获取模块，用于获取待处理随机噪声；

调用模块，用于调用预先训练的图像生成模型，所述图像生成模型包括属性映射网络和生成网络，所述图像生成模型用于生成携带有目标属性的人脸图像；

映射模块，用于将所述待处理随机噪声输入至所述属性映射网络中，通过所述属性映射网络将所述待处理随机噪声映射至特征空间，得到所述待处理随机噪声对应的属性特征分布数据；

生成模块，用于将所述属性特征分布数据输入至所述生成网络中，通过所述生成网络根据所述属性特征分布数据生成携带有所述目标属性的人脸图像。

在其中一个实施例中，所述生成模块还用于将所述属性特征分布数据输入至所述生成网络的处理单元中，得到多个分辨率级别的生成图像；每个处理单元对应一个分辨率级别；将所述生成网络中上一个处理单元的生成图像输入至下一个处理单元中，在所述属性特征分布数据中选取所述下一个处理单元对应的分辨率级别的目标特征数据，将所述目标特征数据输入至所述下一个处理单元，通过所述下一个处理单元对所述上一个处理单元的生成图像以及所述目标特征数据进行运算处理，得到所述下一个处理单元对应的分辨率级别的生成图像，直至最后一个处理单元输出最后一个分辨率级别的生成图像；将所述最后一个分辨率级别的生成图像确定为携带有目标属性的人脸图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

上述人脸图像生成方法、装置、计算机设备和存储介质，获取待处理随机噪声，调用预先训练的图像生成模型，图像生成模型包括属性映射网络和生成网络，图像生成模型用于生成携带有目标属性的人脸图像，将待处理随机噪声输入至属性映射网络中，通过属性映射网络将待处理随机噪声映射至特征空间，得到待处理随机噪声对应的属性特征分布数据，从而将属性特征分布数据输入至生成网络中，通过生成网络根据属性特征分布数据生成携带有目标属性的人脸图像。只需要输入待处理随机噪声，就能生成携带有目标属性的人脸图像，无需依赖输入图像，也无需提前进行数据准备，减少了人脸图像生成成本，同时，只需要输入相应数量的待处理随机噪声，即可快速生成相应数量的人脸图像，实现了人脸图像的大规模生成。通过属性映射网络将待处理随机噪声映射至特征空间，能够将每个待处理随机噪声映射至对应的特征维度，从而确定目标属性的特征分布，将相关属性进行解耦，避免了相关属性之间的互相耦合问题，从而提高人脸图像生成目标属性的准确性。

附图说明

图1为一个实施例中人脸图像生成方法的应用环境图；

图2为一个实施例中人脸图像生成方法的流程示意图；

图3为一个实施例中生成网络的AdaIN处理单元的结构示意图；

图4为一个实施例中将属性特征分布数据输入至生成网络中，通过生成网络根据属性特征分布数据生成携带有目标属性的人脸图像步骤的流程示意图；

图5为一个实施例中图像生成模型的训练步骤的流程示意图；

图6为一个实施例中预先建立的图像生成模型的结构示意图；

图7为一个实施例中根据训练样本以及多个分辨率级别的虚拟图像计算图像生成模型对应的目标误差步骤的流程示意图；

图8为一个实施例中人脸图像生成装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的人脸图像生成方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。终端102将获取到的待处理随机噪声发送至服务器104。服务器104在获取到待处理随机噪声后，调用预先训练的图像生成模型，图像生成模型包括属性映射网络和生成网络，图像生成模型用于生成携带有目标属性的人脸图像。服务器104将待处理随机噪声输入至属性映射网络中，通过属性映射网络将待处理随机噪声映射至特征空间，得到待处理随机噪声对应的属性特征分布数据，将属性特征分布数据输入至生成网络中，通过生成网络根据属性分布特征信息生成携带有目标属性的人脸图像。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种人脸图像生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待处理随机噪声。

待处理随机噪声是指满足正态分布的随机向量。例如，随机噪声数据可以是满足均值为0，方差为1的标准正态分布的随机向量。例如，待处理随机噪声可以是1x512维度的随机向量。待处理随机噪声可以包括至少一个随机向量，一个随机向量可以对应生成一张人脸图像。可以根据需要生成的人脸图像的数量来确定待处理随机噪声的数量。

步骤204，调用预先训练的图像生成模型，图像生成模型包括属性映射网络和生成网络，图像生成模型用于生成携带有目标属性的人脸图像。

步骤206，将待处理随机噪声输入至属性映射网络中，通过属性映射网络将待处理随机噪声映射至特征空间，得到待处理随机噪声对应的属性特征分布数据。

步骤208，将属性特征分布数据输入至生成网络中，通过生成网络根据属性特征分布数据生成携带有目标属性的人脸图像。

服务器中存储有预先训练的图像生成模型，图像生成模型用于生成携带有目标属性的人脸图像。一种图像生成模型所生成的人脸图像携带的人脸属性是相同的。不同的图像生成模型所生成的人脸图像携带的人脸属性是不同的。人脸属性是表现人脸特征信息的重要标志。人脸属性可以分为自身属性和外部属性。自身属性是指人脸自身的属性特征，除人为情况外，在短时间内不会产生或不产生较大改变。例如，性别、头发颜色以及肤色等。外部属性是指人为对其外表进行改变的信息，会对其造成一定的影响的属性特征。例如，口罩、眼镜等。目标属性可以是人脸属性中的任意一种。例如，目标属性可以是女生、戴眼镜、黄皮肤等中的任意一种。

预先训练的图像生成模型可以是通过对预先建立的图像生成模型进行训练得到的。预先建立的图像生成模型可以包括属性映射网络、生成网络和判别网络。属性映射网络的输出与生成网络的输入相连接，生成网络的输出与判别网络的输入相连接，判别网络的输出再反馈至属性映射网络和生成网络。生成网络和对抗网络可以是生成式对抗模型中的生成网络和对抗网络，也可以是对生成式对抗模型进行修改后的模型中的生成网络和对抗网络。生成网络的目标在于尽可能使生成的图像被判别网络判别为真实图像。判别网络的目标则在于尽可能正确区分生成网络输出的图像是真实图像还是虚假图像。例如，属性映射网络可以包括8个全连接层，生成网络可以包括多个AdaIN(自适应实例归一化)处理单元，每个AdaIN处理单元可以包括上采样层、AdaIN块、卷积层等，生成网络中AdaIN处理单元的结构示意图可以如图3所示，其中，每个AdaIN处理单元包括一个上采样层、两个AdaIN块和一个卷积层，上采样层、AdaIN块、卷积层以及AdaIN块依次连接。判别器可以是卷积神经网络。在对预先建立的图像生成模型训练完成后，可以将属性映射网络、生成网络以及每个网络对应的参数进行保存，从而得到训练后的图像生成模型，因此，训练后的图像生成模型包括属性映射网络和生成网络。

进一步的，图像生成模型可以是通过大量的训练样本和随机噪声数据训练得到的。其中，训练样本是指标注有人脸属性的真实图像集，用于对图像生成模型进行训练。真实图像集可以包括多种不同人脸属性的人脸图像集，例如，男性图像集、女性图像集、儿童图像集、青年图像集等。训练样本可以是经过人脸检测、人脸对齐、人脸区域截取、缩放处理等预处理后的人脸图像集。图像生成模型中的生成网络对应有多个分辨率级别，训练样本中各人脸图像的分辨率和生成网络对应的最后一个分辨率级别是相同的。生成网络对应的最后一个分辨率级别可以是根据实际需要设置的，是指最终需要生成的图像的分辨率级别。随机噪声数据是指满足正态分布的随机向量。待处理随机噪声可以是图像生成模型在训练过程中输入的随机噪声数据中的一个或者多个噪声数据。

服务器将待处理噪声输入至图像生成模型的属性映射网络中，通过属性映射网络将待处理随机噪声映射至特征空间，得到待处理随机噪声对应的属性特征分布数据。具体的，通过属性映射模型将待处理随机噪声在特征空间进行重新分布，确定每个待处理随机噪声对应的特征维度，从而将每个待处理随机噪声映射至对应的特征维度，得到待处理随机噪声对应的属性特征分布数据。其中，一个特征维度可以表示一个人脸属性，不同特征维度所表示的人脸属性是不同的。属性特征分布数据对应的特征维度可以是根据生成网络对应的分辨率级别的数量决定的，特征维度的数量＝分辨率级别的数量x 2。例如，当生成网络对应7个逐渐增大的分辨率级别时，即4x4、8x8、16x16、32x32、64x64、128x128和256x256，属性网络输出的属性特征分布数据是一个14x512维度的矩阵，表示属性特征分布数据包括14个特征维度，每个特征维度包括512位数据。由于包括7个分辨率级别，每个分辨率级别需要2个特征维度的数据，最终属性维度分布数据需要14个特征维度的数据。

进一步的，属性特征分布数据中的多个特征维度可以包括粗、中、细三种特征维度，多个特征维度可以是按照粗特征维度、中特征维度、细特征维度的顺序进行排列的。每个特征维度对应的待处理噪声用于生成相应特征维度的属性。例如，粗特征维度对应的待处理噪声可以用于生成角度、头发、脸型等属性，中等特征维度对应的待处理噪声可以用于生成面部特征、五官结构等属性；细特征维度对应的待处理噪声可以用于生成皱纹、痘斑等属性。将多个特征维度按照粗特征维度、中等特征维度、细特征维度的顺序进行排列，便于后续生成网络生成人脸图像时，提取对应的特征维度数据进行属性生成。

属性映射网络将属性特征分布数据输入至生成网络中，生成携带有目标属性的人脸图像。生成网络包括多个处理单元，每个处理单元对应一个分辨率级别，用于生成该分辨率级别的图像，从而生成网络可以生成多个分辨率级别的生成图像，进而得到携带有目标属性的人脸图像。其中，人脸图像可以是最后一个分辨率级别的图像，例如，处理单元可以是AdaIN(自适应实例归一化)处理单元。在此过程中，将生成网络中上一个处理单元的生成图像输入至下一个处理单元，还可以将下一个处理单元对应的分辨率级别的属性特征分布数据输入至下一个处理单元中，得到下一个处理单元对应的分辨率级别的生成图像，直至最后一个处理单元输出生成图像。其中，下一个处理单元对应的分辨率级别的属性特征分布数据是根据下一个处理单元对应的分辨率级别在属性特征分布数据中选择的。最后一个处理单元输出的生成图像的分辨率级别为最后一个分辨率级别。由于每个处理单元是根据对应的分辨率级别的属性特征分布数据来生成图像的，能够针对每个分辨率级别，生成该分辨率级别对应的属性，因此，每个处理单元输出的生成图像均携带有相应分辨率级别对应的属性，实现属性分层生成，由于下一个处理单元输出的分辨率级别的生成图像是根据上一个处理单元输出的相应分辨率级别的生成图像生成的，能够将分层生成的属性进行融合，使得最后一个分辨率级别的生成图像可以包括所有分辨率级别对应的属性，从而得到目标属性，进而将最后一个分辨率级别的生成图像作为得到携带有目标属性的人脸图像。

在其中一个实施例中，一个待处理随机噪声可以对应生成一张携带有目标属性的人脸图像。当需要进行大规模的属性图像生成时，只需要输入相应数量的待处理随机噪声数据，将待处理随机噪声数据输入至预先训练后的图像生成模型中，即可快速生成相应数量的携带目标属性的人脸图像，在一定程度上缓解属性图像缺乏的问题。

在其中一个实施例中，当生成携带有目标属性的人脸图像人脸图像为批量生成的图像时，可能会出现不合格的图像，例如，图像尺寸不合格、不具有目标属性等。服务器可以生成的人脸图像进行图像筛选，将不具有目标属性的人脸图像剔除，还可以对携带有目标属性的人脸图像进行裁剪处理，将人脸图像剪裁到合格的尺寸，进而得到合格的人脸图像。

在本实施例中，获取待处理随机噪声，调用预先训练的图像生成模型，图像生成模型包括属性映射网络和生成网络，图像生成模型用于生成携带有目标属性的人脸图像，将待处理随机噪声输入至属性映射网络中，通过属性映射网络将待处理随机噪声映射至特征空间，得到待处理随机噪声对应的属性特征分布数据，从而将属性特征分布数据输入至生成网络中，通过生成网络根据属性特征分布数据生成携带有目标属性的人脸图像。只需要输入待处理随机噪声，就能生成携带有目标属性的人脸图像，无需依赖输入图像，也无需提前进行数据准备，减少了人脸图像的生成成本，同时，只需要输入相应数量的待处理随机噪声，即可快速生成相应数量的人脸图像，实现了人脸图像的大规模生成。通过属性映射网络将待处理随机噪声映射至特征空间，能够将每个待处理随机噪声映射至对应的特征维度，从而确定目标属性的特征分布，将相关属性进行解耦，避免了相关属性之间的互相耦合问题，从而提高人脸图像生成目标属性的准确性。

在一个实施例中，如图4所示，将属性特征分布数据输入至生成网络中，通过生成网络根据属性特征分布数据生成携带有目标属性的人脸图像的步骤包括：

步骤402，将属性特征分布数据输入至生成网络的处理单元中，得到多个分辨率级别的生成图像；每个处理单元对应一个分辨率级别。

步骤404，将生成网络中上一个处理单元的生成图像输入至下一个处理单元中，在属性特征分布数据中选取下一个处理单元对应的分辨率级别的目标特征数据，将目标特征数据输入至下一个处理单元，通过下一个处理单元对上一个处理单元的生成图像以及目标特征数据进行运算处理，得到下一个处理单元对应的分辨率级别的生成图像，直至最后一个处理单元输出最后一个分辨率级别的生成图像。

步骤406，将最后一个分辨率级别的生成图像确定为携带有目标属性的人脸图像。

生成网络可以采用渐进生成网络，通过逐步增大生成图像分辨率的方式，即增大图像的分辨率级别来生成人脸图像。生成网络会依次在每个分辨率级别上生成一张图像。生成网络可以包括多个处理单元，每个处理单元用于生成携带有相应分辨率级别的属性的图像。例如，处理单元可以是AdaIN(自适应实例归一化)处理单元，每个AdaIN处理单元可以包括上采样层、AdaIN块、卷积层等。

例如，生成网络可以包括7个不同分辨率级别的处理单元，由低到高依次是4x4、8x8、16x16、32x32、64x64、128x128和256x256。可以通过相应分辨率级别的处理单元输出携带有相应分辨率级别的属性的图像。低分辨率级别的处理单元可以包括4x4和8x8分辨率级别的处理单元，用于生成角度、头发、脸型等粗特征维度，中分辨率级别的处理单元可以包括16x16和32x32分辨率级别的处理单元，用于生成面部特征、五官结构等中等特征维度，高分辨率级别的处理单元可以包括64x64、128x128和256x256分辨率级别的处理单元，用于生成皱纹、痘斑等细特征维度。

生成网络中预先存储有一张初始分辨率级别的空白图像，例如，初始分辨率级别可以是4x4。生成网络首先对空白图像进行初始化，得到初始化图像。将初始化图像输入至生成网络的处理单元中，并将属性属性特征分布数据输入至生成网络的处理单元中，得到多个分辨率级别的生成图像。通过将生成网络中上一个处理单元的生成图像输入至下一个处理单元，还可以根据下一个处理单元对应的分辨率级别在属性特征分布数据中选取对应的目标特征数据，将目标特征数据输入至下一个处理单元中，通过下一个处理单元对上一个处理单元的生成图像以及目标特征数据进行运算处理，得到下一个处理单元对应的分辨率级别的生成图像，直至最后一个处理单元输出最后一个分辨率级别的生成图像。

进一步的，可以将初始化图像输入至生成网络的第一个处理单元中。第一处理单元用于生成初始分辨率级别的图像。第一个处理单元可以包括多个AdaIN块、卷积层等。还可以根据第一处理单元对应的分辨率级别在属性特征分布数据选择相应的目标特征数据，输入至第一处理单元中。其中，目标特征数据用于控制生成相应分辨率级别对应的属性，目标特征数据可以是相应的分辨率级别对应的两个维度的待处理噪声。第一处理单元对应的分辨率级别为初始分辨率级别。通过第一处理单元中的第一AdaIN块将第一个维度的待处理噪声添加至初始化图像中，得到第一图像。之后，将第一图像输入至第一处理单元的卷积层，通过卷积层对第一图像进行进行特征提取，得到第一特征图。通过第二AdaIN块将第二个维度的待处理噪声添加至第一特征图中，得到第二图像。第二图像对应的分辨率级别为初始分辨率级别。

通过生成网络将第一处理单元输出的第二图像输入至第二处理单元中。第二处理单元对应的分辨率级别为初始分辨率级别对应的下一个分辨率级别。第二处理单元以及后续的处理单元均包括上采样层、多个AdaIN块、卷积层等。第二处理单元以及后续的处理单元的运算过程是相同的。通过第二处理单元中的上采样层对第二图像进行上采样处理，得到上采样处理后的图像，上采样后的图像的分辨率级别为下一个分辨率级别。在上采样的过程中，根据在属性特征分布数据中选取下一个分辨率级别对应的目标特征数据，输入至第二处理单元中，通过第二处理单元中的AdaIN块将目标特征数据中的第一个维度的待处理噪声添加至上采样处理后的图像中，将此时的图像作为卷积层的输入，通过卷积层对该图像进行特征提取，得到第二特征图，将目标特征数据中第二个维度的待处理噪声与第二特征图进行融合，得到下一分辨率级别的生成图像。其中，卷积层中的卷积核尺寸均为3x3，能够保证提取特征的有效性。用3x3的卷积核替代较大尺寸的卷积核，减少了网络参数，更有利于保持图像特征。

将第二处理单元的输出作为下一个处理单元的输入，下一个处理单元中的运算过程如上述第二处理单元的运算过程，此处不再赘述。当生成网络的最后一个处理单元输出最后一个分辨率级别的生成图像后，生成网络完成图像生成过程，将最后一个分辨率级别的生成图像确定为携带有目标属性的人脸图像。

在本实施例中，通过在属性特征分布数据中选取下一个处理单元对应的分辨率级别的目标特征数据，根据目标特征数据以及上一个处理单元的生成图像生成下一个处理单元对应的分辨率级别的生成图像，利用不同分辨率上体现不同的特征维度，不同的特征维度对应不同的属性，来控制每个分辨率级别的生成图像生成该目标特征数据对应的属性，使得生成图像中携带有相应分辨率级别的属性，并通过多个分辨率级别的生成图像的属性合成，由此提高了人脸图像的属性生成的准确性。

在一个实施例中，如图5所示，在获取待处理人脸属性向量之前，还包括图像生成模型的训练步骤，具体包括：

步骤502，获取训练样本和随机噪声数据。

步骤504，调用预先建立的图像生成模型，将训练样本和随机噪声数据输入至图像生成模型中，将随机噪声数据映射至特征空间，得到随机噪声数据对应的多维度噪声数据。

步骤506，根据多维度噪声数据生成多个分辨率级别的虚拟图像。

步骤508，根据训练样本以及多个分辨率级别的虚拟图像计算图像生成模型对应的目标误差。

步骤510，根据目标误差对图像生成模型的模型参数进行调节，直至达到预设条件，停止参数调节，得到训练后的图像生成模型。

训练样本是指标注有人脸属性的真实图像集，用于对图像生成模型进行训练。真实图像集可以包括多种不同人脸属性的人脸图像集，例如，男性图像集、女性图像集、儿童图像集、青年图像集等。训练样本可以是经过人脸检测、人脸对齐、人脸区域截取、缩放处理处理等预处理后的人脸图像集。随机噪声数据是指满足正态分布的随机向量。例如，随机向量可以是满足均值为0，方差为1的标准正态分布的随机向量。服务器在获取待处理随机噪声之前，可以先对预先建立的图像生成模型进行训练。

服务器将训练数据和随机噪声数据输入至预先建立的图像生成模型的属性映射网络中，通过属性映射网络将随机噪声数据映射至特征空间，得到随机噪声数据对应的多维度噪声数据。具体的，通过属性映射模型将随机噪声数据在特征空间进行重新分布，确定每个随机噪声数据对应的特征维度，从而将每个随机噪声数据映射至对应的特征维度，得到随机噪声数据对应的多维度噪声数据。其中，一个特征维度可以表示一个人脸属性，不同特征维度所表示的人脸属性是不同的。

进一步的，多维度噪声数据中的多个特征维度可以是按照粗特征维度、中特征维度、细特征维度的顺序进行排列的。通过确定随机噪声数据对应的特征维度能够准确生成相应维度的人脸属性。例如，粗特征维度可以包括角度、头发、脸型等，中等特征维度可以包括面部特征、五官结构等；细特征维度可以包括皱纹、痘斑等。便于后续生成网络生成人脸图像时，提取对应的特征维度数据进行属性生成。

生成网络采用渐进生成网络，通过逐步增大生成图像分辨率的方式，即增大图像的分辨率级别来生成人脸图像。属性映射网络将多维度噪声数据输入至生成网络中，通过生成网络根据多维度噪声数据依次在每个分辨率级别上生成一张虚拟图像，以生成多个分辨率级别的虚拟图像。每当生成一张分辨率级别的虚拟图像后，将生成的虚拟图像输入至判别网络，还可以将训练样本输入至判别网络，通过判别网络根据训练样本以及多个分辨率级别的虚拟图像计算图像生成模型对应的目标误差，目标误差是指图像生成模型的对抗损失。图像生成模型的对抗损失可以是图像生成模型中生成网络的对抗损失，也可以是图像生成模型中判别网络的对抗损失。当训练判别网络时，目标误差为判别网络的对抗损失。当训练生成网络时，目标误差为生成网络的对抗损失。

预先建立的图像生成模型的结构示意图可以如图6所示，包括属性映射网络、生成网络和判别网络。属性1、属性2和属性3是指每个随机噪声数据对应的特征维度所代表的属性。W是指随机噪声数据对应的多维度噪声数据。属性映射网络将多维度噪声数据W输入至生成网络中。生成网络生成4x4、8x8、16x16、32x32、64x64、128x128和256x256等7个分辨率级别的图像，将每个分辨率级别的图像输入至判别网络中，将训练样本也输入至判别网络中，训练样本可以是女性真实图像。

在模型训练过程中，是分批次对图像生成模型的模型参数进行调节，即依次将每一批次的训练样本和随机噪声数据输入至图像生成模型中进行对抗训练，对抗训练是指对生成网络和判别网络进行相反方向的训练。当每一批次训练完成，计算得到相应的目标误差后，根据目标误差对图像生成模型的模型参数进行一次调节，进行迭代训练，直至达到预设条件，停止参数调节，得到训练后的图像生成模型。预设条件可以是生成网络的对抗损失和判别网络的对抗损失不再下降，或者是小于阈值。

在其中一个实施例中，服务器根据目标误差对图像生成模型的模型参数进行调节的过程中，可以将图像生成模型中属性映射网络的模型参数添加至生成网络中，对生成网络的模型参数进行调节，而对判别网路模型参数是单独进行调节的。具体的，可以先对判别网络进行训练，再对生成网络进行训练，判别网络和生成网络的训练次数可以是相同的，也可以是不同的。当训练判别网络时，目标误差为判别网络的对抗损失，需要固定生成网络和属性映射网络的模型参数，根据目标误差对判别网络的模型参数进行调节，直至判别网络的对抗损失不再下降，或者是小于阈值，停止对判别网络进行训练。之后，对生成网络进行训练，计算得到的目标误差为生成网络的对抗损失，在调节参数时，需要固定判别网络的模型参数，将属性映射网络的模型参数添加至生成网络中，根据目标参数对生成网络的模型参数进行训练，直至生成网络的对抗损失不再下降，或者是小于阈值，停止对生成网络进行训练，此时，服务器可以完成模型训练过程，将此时的属性映射网络与对应的模型参数，以及生成网络与对应的模型参数进行保存，得到训练后的图像生成模型。

在本实施例中，通过将训练样本和随机噪声数据输入至图像生成模型中进行训练，将随机噪声数据映射至特征空间，得到随机噪声数据对应的多维度噪声数据，能够自主学习人脸属性对应的多个特征维度，避免了相关属性之间的耦合问题，有利于提高属性生成的准确性。从而根据多维度噪声数据生成多个分辨率级别的虚拟图像，能够使得每个分辨率级别的虚拟图像均携带有相应的属性，实现属性分层以及属性合成。根据训练样本以及多个分辨率级别的虚拟图像计算图像生成模型对应的目标误差，进而根据目标误差对图像生成模型的模型参数进行调节，能够确保每个分辨率级别上生成准确、有效的属性，从而提高属性合成的准确性，同时有利于提高图像生成模型输出的生成图像的质量。

在一个实施例中，图像生成模型包括属性映射网络和生成网络，上述方法还包括：通过图像生成模型中的空间映射网络将随机噪声数据映射至特征空间，得到多维度噪声数据；将多维度噪声数据输入至图像生成模型中生成网络的处理单元中，得到多个分辨率级别的虚拟图像；每个处理单元对应一个分辨率级别；将生成网络中上一个处理单元的虚拟图像输入至下一个处理单元中，在多维度噪声数据中选取下一个处理单元对应的分辨率级别的噪声数据，将噪声数据输入至下一个处理单元，通过下一个处理单元对上一个处理单元的虚拟图像以及噪声数据进行运算处理，得到下一个处理单元对应的分辨率级别的虚拟图像，直至最后一个处理单元输出最后一个分辨率级别的虚拟图像，得到多个分辨率级别的虚拟图像。

通过属性映射模型将随机噪声数据在特征空间进行重新分布，确定每个随机噪声数据对应的特征维度，从而将每个随机噪声数据映射至对应的特征维度，得到随机噪声数据对应的多维度噪声数据，将多维度噪声数据输入至生成网络中，生成网络根据多维度噪声数据生成多个分辨率级别的虚拟图像和人脸图像生成过程中，根据生成网络根据属性特征分布数据生成携带有目标属性的人脸图像的过程是相同的。

生成网络可以包括多个处理单元，每个处理单元用于生成携带有相应分辨率级别的属性的图像。多个处理单元对应的分辨率级别是依次增加的。例如，处理单元可以是AdaIN(自适应实例归一化)处理单元，每个AdaIN处理单元可以包括上采样层、AdaIN块、卷积层等。在生成多个分辨率级别的虚拟图像的过程中，将生成网络中上一个处理单元的虚拟图像输入至下一个处理单元中，通过下一个处理单元中的上采样层对上一个处理单元的虚拟图像进行上采样处理，得到上采样处理后的图像，上采样后的图像的分辨率级别为下一个处理单元对应的分辨率级别。在上采样的过程中，在多维度噪声数据中选取下一个处理单元对应的分辨率级别的噪声数据。噪声数据是指相应的处理单元对应的分辨率级别的两个维度的噪声数据。将选取的噪声数据输入至下一个处理单元中，通过下一个处理单元中的AdaIN块将噪声数据中第一个维度的噪声数据添加至上采样处理后的图像中，将此时的图像作为卷积层的输入，通过卷积层对该图像进行特征提取，得到特征图，将选取的噪声数据中第二个维度的噪声数据与特征图进行融合，得到下一个处理单元对应的分辨率级别的虚拟图像。将下一个处理单元作为上一个处理单元，返回将生成网络中上一个处理单元的虚拟图像输入至下一个处理单元中的步骤，直至最后一个处理单元生成最后一个分辨率级别的虚拟图像，从而得到多个分辨率级别的虚拟图像。

在本实施例中，通过在多维度噪声数据中选取下一个处理单元对应的分辨率级别的噪声数据，根据噪声数据以及上一个处理单元的虚拟图像生成下一个处理单元对应的分辨率级别的虚拟图像，利用不同分辨率上体现不同的特征维度，不同的特征维度对应不同的属性，来控制每个分辨率级别的虚拟图像生成该目标特征数据对应的属性，使得虚拟图像中携带有相应分辨率级别的属性，并通过多个分辨率级别的虚拟图像的属性合成，由此可提高图像生成模型生成图像的准确性。

在一个实施例中，如图7所示，图像生成模型还包括判别网络，根据训练样本以及多个分辨率级别的虚拟图像计算图像生成模型对应的目标误差的步骤包括：

步骤702，将每个分辨率级别的虚拟图像分别输入至图像生成模型的判别网络中，以及将训练样本输入至判别网络中。

步骤704，通过判别网络根据训练样本计算每个分辨率级别的虚拟图像对应的对抗误差。

步骤706，根据多个分辨率级别的虚拟图像对应的对抗误差计算图像生成模型对应的目标误差。

服务器可以将训练样本输入至图像生成模型的判别网络中，生成网络每生成一个分辨率级别的虚拟图像后，会将生成的虚拟图像输入至判别网络中，此时，判别网络将输入的虚拟图像与训练样本中的真实图像进行比较，得到输入的虚拟图像的合格率。合格率是指输出的虚拟图像为人脸图像以及携带有真实图像中的人脸属性的概率。从而根据每个分辨率级别的虚拟图像的合格率计算相应的对抗误差。对抗误差可以是生成网络的对抗损失，也可以是判别网络的对抗损失。当训练判别网络时，则为判别网络的对抗损失。例如，可以采用平均绝对误差L1_loss损失函数，根据输入的虚拟图像的合格率来计算判别网络的对抗损失，判别网络的对抗损失值可以用d_loss表示。当训练生成网络时，则为生成网络的对抗损失。例如，可以采用MSE_loss(Mean Square Error，均方误差)损失函数，根据输入的虚拟图像的合格率来计算生成网络的对抗损失，生成网络的对抗损失值可以用g_loss表示。生成网络将计算得到的多个分辨率级别的虚拟图像对应的对抗损失进行累计得到图像生成模型对应的目标误差。

在本实施例中，通过判别网络根据训练样本计算每个分辨率级别的虚拟图像对应的对抗误差，根据多个分辨率级别的虚拟图像对应的对抗误差计算图像生成模型对应的目标误差。与在传统方式，仅对生成网络的最后一层输出的图像进行合格率判断相比，能够保证每个分辨率级别上生成的属性都是有效的，既有利于属性分层，使得合成属性更加准确，也有利于提升图像生成模型生成的图像的质量。

在一个实施例中，获取训练样本包括：获取标注有人脸属性的初始图像集；对初始图像集中的各人脸图像进行人脸检测，确定各人脸图像中的人脸目标对应的人脸区域，截取人脸区域，得到各人脸图像对应的人脸区域图像；将人脸区域图像进行缩放处理，生成训练样本。

服务器对预先建立的图像生成模型进行训练之前，可以先获取标注有人脸属性的初始图像集。人脸属性是图像生成模型生成的图像需要携带的目标属性。例如，标注的人脸属性可以是戴眼镜、男性、女性、儿童、青年等中的任意一种。标注有不同属性的初始图像集可以用于训练不同的图像生成模型，以生成携带有不同人脸属性的人脸图像。初始图像集中包括多张人脸图像，服务器可以对各人脸图像进行人脸检测，确定各人脸图像中的人脸目标对应的人脸区域，将该人脸区域进行截取，得到各人脸图像对应的人脸区域图像。例如，人脸检测的方式可以采用基于深层神经网络的OpenFace人脸检测方法。服务器可以对截取的多张人脸区域图像进行缩放处理，生成训练样本。缩放处理是指将截取的多张人脸区域图像缩放至相同的图像尺寸，例如，256x256。缩放处理的方式可以是最近邻插值、线性插值、区域插值等多种方式中的任意一种。训练样本中各图像的尺寸和图像生成模型生成的图像尺寸是相同的。

在本实施例中，用来进行模型训练的训练样本只需要进行目标属性的标注，不需要任何额外的标注信息，减少了人工标注的时间和成本。通过对初始图像集中的各人脸图像进行人脸检测、人脸区域截取、缩放处理等处理，能够减少模型训练过程中不必要的图像计算，能够提高模型的训练速度，也有利于提高图像生成模型的准确性。

应该理解的是，虽然图2、4、5和7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4、5和7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种人脸图像生成装置，包括：获取模块802、调用模块804、映射模块806和生成模块808，其中：

获取模块802，用于获取待处理随机噪声。

调用模块804，用于调用预先训练的图像生成模型，图像生成模型包括属性映射网络和生成网络，图像生成模型用于生成携带有目标属性的人脸图像。

映射模块806，用于将待处理随机噪声输入至属性映射网络中，通过属性映射网络将待处理随机噪声映射至特征空间，得到待处理随机噪声对应的属性特征分布数据。

生成模块808，用于将属性特征分布数据输入至生成网络中，通过生成网络根据属性特征分布数据生成携带有目标属性的人脸图像。

在一个实施例中，生成模块808还用于将属性特征分布数据输入至生成网络的处理单元中，得到多个分辨率级别的生成图像；每个处理单元对应一个分辨率级别；将生成网络中上一个处理单元的生成图像输入至下一个处理单元中，在属性特征分布数据中选取下一个处理单元对应的分辨率级别的目标特征数据，将目标特征数据输入至下一个处理单元，通过下一个处理单元对上一个处理单元的生成图像以及目标特征数据进行运算处理，得到下一个处理单元对应的分辨率级别的生成图像，直至最后一个处理单元输出最后一个分辨率级别的生成图像；将最后一个分辨率级别的生成图像确定为携带有目标属性的人脸图像。

在一个实施例中，上述装置还包括：

获取模块802还用于获取训练样本和随机噪声数据。

映射模块806还用于调用预先建立的图像生成模型，将训练样本和随机噪声数据输入至图像生成模型中，将随机噪声数据映射至特征空间，得到随机噪声数据对应的多维度噪声数据。

生成模块808还用于根据多维度噪声数据生成多个分辨率级别的虚拟图像。

计算模块，用于根据训练样本以及多个分辨率级别的虚拟图像计算图像生成模型对应的目标误差。

调节模块，用于根据目标误差对图像生成模型的模型参数进行调节，直至达到预设条件，停止参数调节，得到训练后的图像生成模型。

在一个实施例中，图像生成模型包括属性映射网络和生成网络，映射模块806还用于通过图像生成模型中的空间映射网络将随机噪声数据映射至特征空间，得到多维度噪声数据；生成模块808还用于将多维度噪声数据输入至图像生成模型中生成网络的处理单元中，得到多个分辨率级别的虚拟图像；每个处理单元对应一个分辨率级别；将生成网络中上一个处理单元的虚拟图像输入至下一个处理单元中，在多维度噪声数据中选取下一个处理单元对应的分辨率级别的噪声数据，将噪声数据输入至下一个处理单元，通过下一个处理单元对上一个处理单元的虚拟图像以及噪声数据进行运算处理，得到下一个处理单元对应的分辨率级别的虚拟图像，直至最后一个处理单元输出最后一个分辨率级别的虚拟图像，得到多个分辨率级别的虚拟图像。

在一个实施例中，图像生成模型还包括判别网络，计算模块还用于将每个分辨率级别的虚拟图像分别输入至图像生成模型的判别网络中，以及将训练样本输入至判别网络中；通过判别网络根据训练样本计算每个分辨率级别的虚拟图像对应的对抗误差；根据多个分辨率级别的虚拟图像对应的对抗误差计算图像生成模型对应的目标误差。

在一个实施例中，获取模块802还用于获取标注有人脸属性的初始图像集；对初始图像集中的各人脸图像进行人脸检测，确定各人脸图像中的人脸目标对应的人脸区域，截取人脸区域，得到各人脸图像对应的人脸区域图像；将人脸区域图像进行缩放处理，生成训练样本。

关于人脸图像生成装置的具体限定可以参见上文中对于人脸图像生成方法的限定，在此不再赘述。上述人脸图像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储一种人脸图像生成方法的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人脸图像生成方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人脸图像生成方法，其特征在于，所述方法包括：

获取待处理随机噪声；

2.根据权利要求1所述的方法，其特征在于，所述将所述属性特征分布数据输入至所述生成网络中，通过所述生成网络根据所述属性特征分布数据生成携带有所述目标属性的人脸图像包括：

3.根据权利要求1所述的方法，其特征在于，在所述获取待处理随机噪声之前，所述方法还包括：

获取训练样本和随机噪声数据；

根据所述多维度噪声数据生成多个分辨率级别的虚拟图像；

4.根据权利要求3所述的方法，其特征在于，所述图像生成模型包括属性映射网络和生成网络，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述图像生成模型还包括判别网络，所述根据所述训练样本以及多个分辨率级别的虚拟图像计算所述图像生成模型对应的目标误差包括：

6.根据权利要求3所述的方法，其特征在于，所述获取训练样本包括：

获取标注有人脸属性的初始图像集；

将所述人脸区域图像进行缩放处理，生成训练样本。

7.一种人脸图像生成装置，其特征在于，所述装置包括：

获取模块，用于获取待处理随机噪声；

8.根据权利要求7所述的装置，其特征在于，所述生成模块还用于将所述属性特征分布数据输入至所述生成网络的处理单元中，得到多个分辨率级别的生成图像；每个处理单元对应一个分辨率级别；将所述生成网络中上一个处理单元的生成图像输入至下一个处理单元中，在所述属性特征分布数据中选取所述下一个处理单元对应的分辨率级别的目标特征数据，将所述目标特征数据输入至所述下一个处理单元，通过所述下一个处理单元对所述上一个处理单元的生成图像以及所述目标特征数据进行运算处理，得到所述下一个处理单元对应的分辨率级别的生成图像，直至最后一个处理单元输出最后一个分辨率级别的生成图像；将所述最后一个分辨率级别的生成图像确定为携带有目标属性的人脸图像。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。