CN111414928A

CN111414928A - 一种人脸图像数据生成方法、装置及设备

Info

Publication number: CN111414928A
Application number: CN201910010774.5A
Authority: CN
Inventors: 田卉
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2020-07-14

Abstract

本发明公开了一种人脸图像数据生成方法、装置及设备，该人脸图像数据生成方法包括：获取原始图像中的人脸的单属性特征以及获取噪声向量；根据所述单属性特征和所述噪声向量，计算图像数据；利用所述图像数据以及原始图像数据，进行对抗网络模型训练；通过所述对抗网络模型，生成人脸图像数据。本发明的实施例，基于有限的人脸数据，利用自训练后的生成对抗网络生成具有多样性单属性特征的人脸图像数据，有效扩增训练数据集，解决了原始人脸数据集有限导致的过拟合问题，提升人脸属性分析模型对人脸的检测性能，进一步提高了人脸定位和识别分析的准确程度。

Description

一种人脸图像数据生成方法、装置及设备

技术领域

本发明涉及人脸识别领域，尤其涉及一种人脸图像数据生成方法、装置及设备。

背景技术

随着神经网络技术的发展，神经网络技术应用在越来越多的场景中，而人脸识别作为生物特征识别中最活跃的分支，也越来越受到重视。其中，图像视频检索以及人脸属性分析等又是人脸识别的重要应用，以人脸识别中的年龄估计为例，在传统的年龄估计技术中，由于缺乏人脸图像样本数据，只能基于有限的数据进行年龄分布挖掘，或者在获取人脸不同区域的图像信息后，结合所获取的图像信息进行年龄估计。目前，可以采用数据增广方法对人脸图像样本进行扩充，但是常规的数据增广方法无法对包含特定年龄等属性信息的人脸图像样本进行扩充，从而影响人脸识别的准确性，进而限制人脸识别的应用和推广。

如何在有限数据条件下，运用生成数据强化有限的真实数据并优化模型性能是生成对抗网络生成数据的主要目的。因此，如何保留光照、遮挡、姿态、表情的多样性，分离出上述多样性与目标属性之间的特征并再现至合成人脸上，以提高合成人脸的生成准确性；以及，如何在大批量合成人脸数据中选择出人脸数据用于增强有限的真实人脸数据，并优化预训练的人脸属性分析模型是生成数据辅助属性分析需要解决的主要问题。

发明内容

为了解决上述技术问题，本发明提供了一种人脸图像数据生成方法、装置及设备，以解决因人脸图像数据有限导致人脸属性分析模型容易过拟合的问题。

依据本发明的一个方面，提供了一种人脸图像数据生成方法，包括：

获取原始图像中的人脸的单属性特征以及获取噪声向量；

根据所述单属性特征和所述噪声向量，计算图像数据；

利用所述图像数据以及原始图像数据，进行对抗网络模型训练；

通过所述对抗网络模型，生成人脸图像数据。

可选地，获取原始图像中的人脸的单属性特征，包括：

提取训练集中的原始图像的单属性特征；

将所述单属性特征转换为独热one-hot向量。

可选地，根据所述单属性特征和所述噪声向量，计算生成图像数据，包括：

通过公式：x′＝G(z，a)＝f_n(...(f₁((z，a)·W¹)·W²))·Wⁿ，计算得到图像数据；

其中，x′为图像数据，G表示生成对抗网络中的生成网络，z为由随机分布的向量中取样的噪声向量，a为所述单属性特征，f_i为所述生成网络G的非线性函数，Wⁱ为权重，i为神经网络的层数，i＝1，2，…，n。

可选地，利用所述图像数据以及原始图像数据，进行对抗网络模型训练，包括：

根据所述图像数据和所述原始图像数据，获取图像的真伪判别概率和单属性特征值，以及原始图像的真伪判别概率和单属性特征值；

根据所述图像的真伪判别概率和单属性特征值，以及原始图像的真伪判别概率和单属性特征值，计算判别网络的损失函数和生成网络的损失函数；

根据所述判别网络的损失函数计算梯度更新后的判别网络，根据所述生成网络的损失函数计算梯度更新后的生成网络。

可选地，根据所述图像的真伪判别概率和单属性特征值，以及原始图像的真伪判别概率和单属性特征值，计算判别网络的损失函数和生成网络的损失函数，包括：

通过公式：L_D←log(s_r)+log(1-s_f)+LC(y′_a)+L_regular，计算得到所述判别网络的损失函数；

其中，L_D表示所述判别网络的损失函数，s_r表示所述原始图像的真伪判别概率，s_f表示所述图像的真伪判别概率，y′_a表示所述原始图像的单属性特征值，LC(y′_a)表示原始图像的单属性损失项，L_regular为正则化参数损失项；

通过公式：L_G←log(s_f)+LC(a′)+L_f-match，计算得到所述生成网络的损失函数；

其中，L_G表示所述生成网络的损失函数，s_f表示所述图像的真伪判别概率，a′表示所述图像的单属性特征值，LC(a′)表示原始图像的单属性损失项，L_f-match表示特征匹配损失项。

可选地，根据所述判别网络的损失函数计算梯度更新后的判别网络，根据所述生成网络的损失函数计算梯度更新后的生成网络，包括：

通过公式：

计算得到梯度更新后的判别网络；

通过公式：

计算得到梯度更新后的生成网络；

其中，D′表示梯度更新后最终生成的判别网络，D表示当前的判别网络，L_D表示所述判别网络的损失函数，G′表示梯度更新后最终生成的生成网络，G表示当前的生成网络，L_G表示所述生成网络的损失函数，α为已知系数；

表示对判别网络的损失函数求偏导数，

表示对生成网络的损失函数求偏导数。

依据本发明的另一个方面，提供了一种人脸图像数据生成装置，包括：

获取模块，用于获取原始图像中的人脸的单属性特征以及获取噪声向量；

计算模块，用于根据所述单属性特征和所述噪声向量，计算图像数据；

模型训练模块，用于利用所述图像数据以及原始图像数据，进行对抗网络模型训练；

数据生成模块，用于通过所述对抗网络模型，生成人脸图像数据。

可选地，所述获取模块具体用于：

提取训练集中的原始图像的单属性特征；

将所述单属性特征转换为独热one-hot向量。

可选地，所述计算模块具体用于：

可选地，所述模型训练模块，包括：

第一计算单元，用于根据所述图像数据和所述原始图像数据，获取图像的真伪判别概率和单属性特征值，以及原始图像的真伪判别概率和单属性特征值；

第二计算单元，用于根据所述图像的真伪判别概率和单属性特征值，以及原始图像的真伪判别概率和单属性特征值，计算判别网络的损失函数和生成网络的损失函数；

第三计算单元，用于根据所述判别网络的损失函数计算梯度更新后的判别网络，根据所述生成网络的损失函数计算梯度更新后的生成网络。

可选地，所述第二计算单元具体用于：

可选地，所述第三计算单元具体用于：

通过公式：

计算得到梯度更新后的判别网络；

通过公式：

计算得到梯度更新后的生成网络；

表示对判别网络的损失函数求偏导数，

良示对生成网络的损失函数求偏导数。

依据本发明的另一个方面，提供了一种人脸图像数据生成设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现上述的人脸图像数据生成方法的步骤。

依据本发明的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的人脸图像数据生成方法中的步骤。

本发明技术方案，基于有限的人脸数据，利用自训练后的生成对抗网络生成具有多样性单属性特征的人脸图像数据，有效扩增训练数据集，解决了原始人脸数据集有限导致的过拟合问题，辅助提升人脸检测、定位、识别、属性分析等训练模型的性能。同时为了优化对抗网络模型对人像属性图像生成的学习能力、避免训练的不稳定以及造成的样本失真问题，提出的一种新的生成对抗网络损失函数，提高了生成对抗模型对属性信息的学习能力，弥补了生成网络学习不到足够信息的问题，同时保证了训练网络的稳定性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1表示本发明实施例的人脸图像数据生成方法的流程图；

图2表示本发明实施例的图1中步骤13的具体流程示意图；

图3表示本发明实施例的人脸图像数据生成装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本发明的实施例提供了一种人脸图像数据生成方法，包括：

步骤11、获取原始图像中的人脸的单属性特征以及获取噪声向量；

该实施例中，生成对抗网络模型的训练集中包括有用于模型训练的真实人脸数据集，生成对抗网络模型能够从真实人脸数据集中提取训练数据，包括图像和其对应的单属性特征，将真实人脸数据集中的图像作为模型训练的原始图像，所述单属性特征指人脸特征中的年龄、性别、表情等属性特征中的一个属性特征，如，根据人脸图像对年龄进行识别，则获取原始图像中的人脸的年龄属性特征，所述年龄属性即为人脸识别的目标属性。

所述噪声向量为所述生成对抗网络模型从指定维度的随机分布(如均匀分布)中随机取样获得，作为控制生成人脸图像的单属性多样性的随机变量。

步骤12、根据所述单属性特征和所述噪声向量，计算图像数据；

将提取的人脸的单属性特征与所述噪声向量一起输入生成对抗网络的生成网络中，通过生成网络的计算，输出图像数据，所述图像数据可以映射成多个包括不同单属性特征的人脸图像。

所述生成对抗网络模型包括生成网络模型和判别网络模型，所述判别网络模型用于通过概率计算分析样本图像属于某类别的概率，即条件概率；所述生成网络模型需要在整个条件内产生数据的分布。

步骤13、利用所述图像数据以及原始图像数据，进行对抗网络模型训练；

将通过生成网络获得的图像数据和训练集中的原始图像数据分别输入生成对抗网络的判别网络中，经判别网络概率计算，针对不同的输入分别获得一组真伪判别概率和单属性特征值；利用所述真伪判别概率和单属性特征值，分别计算判别网络以及生成网络的损失函数的损失项，若所述判别网络能够区分所述图像和所述原始图像，则优化所述生成网络和所述判别网络，通过多次前向传播和后向传播，最小化损失函数，以减小误差为目标，不断优化生成网络和判别网络，直至所述判别网络不能区分由生成网络生成的图像和原始图像，认为此时模型达到最优，该过程即为模型的在线自训练过程。

步骤14、通过所述对抗网络模型，生成人脸图像数据。

该实施例中，自训练完成的对抗网络模型，生成网络和判别网络均达到最优，可以通过更新后的对抗网络模型进行人脸图像数据生成，从而达到扩充人脸图像数据集的目的。具体地，生成人脸图像数据的步骤为：从训练集的原始图像中提取人脸单属性特征，并从随机分布中随机取样噪声向量；将提取的人脸单属性特征和噪声向量输入生成网络，生成网络通过计算即可输出多个具有多样性的单属性特征人脸图像，由于模型经过优化，则生成的人脸图像接近于真实的带有单属性特征的人脸图像，可以在人脸属性分析时作为训练集辅助人脸属性分析，实现了对特定单属性信息的人脸图像的样本扩充，相对于原始有限的真实人脸数据集训练出的模型，提高了单属性分析的准确率和精确度。

该方案基于有限的人脸数据，利用自训练后的生成对抗网络生成具有多样性单属性特征的人脸图像数据，有效扩增训练数据集，解决了原始人脸数据集有限导致的过拟合问题，提升人脸属性分析模型对人脸的检测性能，进一步提高了人脸定位和识别分析的准确程度。

具体地，所述步骤11包括：

提取训练集中的原始图像的单属性特征；

将所述单属性特征转换为独热one-hot向量。

该实施例中，生成对抗网络模型能够从预处理后的训练集中提取训练数据，即原始图像的单属性特征，再把单属性特征转换为one-hot向量，one-hot向量能够把数据的各个属性转换为一个向量表示，每条数据的属性就是一个向量，向量上的每个维度表示一个特征属性。所述生成对抗网络还需要从指定维度的随机分布中随机取样噪声向量，作为控制人脸单属性多样性的随机变量，将转换为独热one-hot向量的单属性特征与噪声向量一起输入生成网络。

具体地，步骤12，包括：

其中，x′为图像数据，映射到图像上即为由生成网络生成的图像，G表示生成对抗网络中的生成网络，z为由随机分布的向量中取样的噪声向量，a为所述单属性特征，f_i为所述生成网络G的非线性函数，Wⁱ为权重，通过模型自训练不断优化更新，i为神经网络的层数，i＝1，2，…，n。由于在生成网络中输入了噪声向量z，则生成网络输出的图像为多样性的带有单属性特征的图像。

具体地，如图2所示，步骤13，包括：

步骤131、根据所述图像数据和所述原始图像数据，获取图像的真伪判别概率和单属性特征值，以及原始图像的真伪判别概率和单属性特征值；

将所述生成网络输出的图像数据和训练集中的原始图像数据分别输入判别网络，通过概率计算，即可得出针对不同输入的真伪判别概率和单属性特征值。所述概率计算的方法在不同的损失函数中也不相同，在这里可以采用任意损失函数对应的概率计算公式。

步骤132、根据所述图像的真伪判别概率和单属性特征值，以及原始图像的真伪判别概率和单属性特征值，计算判别网络的损失函数和生成网络的损失函数；

具体地，根据所述图像的真伪判别概率和单属性特征值，以及原始图像的真伪判别概率和单属性特征值，计算判别网络的损失函数和生成网络的损失函数，包括：

其中，LC(y′_a)通过公式：

计算得到；

j表示单属性类别的个数，L_regular的值为λW²，λ表示正则化强度，可以根据需求设置，W²为权重的平方。

在计算判别网络的损失函数时，通过叠加单属性信息的损失项以及正则化参数损失项，对模型进行优化训练，有利于训练网络的稳定，叠加单属性损失项提高了生成对抗网络模型对单属性信息的学习能力，叠加正则化损失项有助于提高整个训练过程的稳定。

其中，LC(a′)通过公式：

计算得到。

L_f-match通过公式：

计算得到；

m表示训练Batch块的大小，即每个训练Batch块包含的样本数量；q表示Batch块的数量，k＝1，2，3...，q，m_k表示第k个Batch块包含的样本数量，p＝1，2，3...，m_k；

表示第k个Batch块训练得到的所述原始图像的单属性特征值，a′_k表示第k个Batch块训练得到的所述图像的单属性特征值；

表示第k个Batch块中的第p个样本原始图像的单属性特征值，a′_kp表示第k个Batch块中的第p个样本训练得到的图像的单属性特征值。

在计算生成网络的损失函数时，通过叠加单属性特征的损失项以及特征匹配信息损失项，使得生成网络学习到更多信息，叠加单属性信息损失项提高了生成对抗网络模型对单属性信息的学习能力，叠加特征匹配损失项弥补了生成网络学习不到足够信息的问题。

步骤133、根据所述判别网络的损失函数计算梯度更新后的判别网络，根据所述生成网络的损失函数计算梯度更新后的生成网络。

具体地，根据所述判别网络的损失函数计算梯度更新后的判别网络，根据所述生成网络的损失函数计算梯度更新后的生成网络，包括：

通过公式：

计算得到梯度更新后的判别网络；

判别网络依据对真实图像判别为真，对生成图像判别为假，即对于真实样本得到的结果越大越好，对于生成样本需要优化的是其结果越小越好，在判别网络训练过程中，计算判别网络的梯度更新式，此时固定生成网络参数不变。

通过公式：

计算得到梯度更新后的生成网络；

生成网络的优化依据是让判别网络尽力误判为真，对于生成样本需要优化的是其结果越大越好，在生成网络训练过程中，计算生成网络梯度更新式，此时固定判别网络参数不变。

表示对判别网络的损失函数求偏导数，

表示对生成网络的损失函数求偏导数。

通过多次前向传播和后向传播计算，最小化损失函数，以减小误差为目标，不断优化生成网络和判别网络。生成对抗网络在训练过程中可能会出现陷入局部最优，可以通过调整学习率权重衰减值的网络参数控制网络学习的步伐，对于训练过拟合可以通过观察模型生成一批图像的效果来判定，如果人脸出现相似或者大面积一致时认为出现过拟合，需要采取防止过拟合的措施进行调整。在达到高质量的生成效果前(年龄特征被很好的提取出来，批量的生成人脸图像具有高度的多样性)，可以返回前述步骤中继续训练实现自训练优化，无需手动干预。

该方案通过随机变量控制生成人脸单属性图像的多样性；在模型自训练过程中，通过在生成对抗网络原有损失函数的基础上，叠加单属性、特征匹配以及正则化损失项，优化了生成对抗网络模型对人脸属性图像生成的学习能力，避免了训练的不稳定以及不稳定造成的生成样本失真的问题；基于有限的人脸图像数据，利用自训练生成对抗网络模型扩增单属性人脸图像，结合真实图像数据知道模型自身进行优化，提升了生成对抗网络的数据生成能力，生成多样性单属性的人脸图像数据集，可以有效扩增训练数据集，减少原有训练数据集过少造成的过拟合问题，进而辅助提升人脸检测、定位、识别等训练模型性能。

本发明实施例还提供一种人脸图像数据生成装置，如图3所示，包括：

获取模块31，用于获取原始图像中的人脸的单属性特征以及获取噪声向量；

计算模块32，用于根据所述单属性特征和所述噪声向量，计算生成图像数据；

模型训练模块33，用于利用所述图像数据以及原始图像数据，进行对抗网络模型训练；

数据生成模块34，用于通过所述对抗网络模型，生成人脸图像数据。

优选地，所述获取模块31具体用于：

提取训练集中的原始图像的单属性特征；

将所述单属性特征转换为独热one-hot向量。

优选地，所述计算模块32具体用于：

优选地，所述模型训练模块33，包括：

优选地，所述第二计算单元具体用于：

优选地，所述第三计算单元具体用于：

通过公式：

计算得到梯度更新后的判别网络；

通过公式：

计算得到梯度更新后的生成网络；

表示对判别网络的损失函数求偏导数，

表示对生成网络的损失函数求偏导数。

需要说明的是，该装置是与上述个体推荐方法对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明实施例还提供一种人脸图像数据生成设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现上述的人脸图像数据生成方法的步骤。

另外，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的人脸图像数据生成方法中的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。