CN109523463B

CN109523463B - 一种基于条件生成对抗网络的人脸老化方法

Info

Publication number: CN109523463B
Application number: CN201811385127.4A
Authority: CN
Inventors: 胡海峰; 黄杨健
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2023-04-07
Anticipated expiration: 2038-11-20
Also published as: CN109523463A

Abstract

本发明提供了一种基于条件生成对抗网络的人脸自动老化机制，通过对于海量已标注年龄的不同年龄段的图像训练得到一个由四个部分组成的条件生成对抗网络，包括图像生成器G，图像判别器D，年龄估计网络AEN和身份识别网络FRN。其中，G被训练用于生成老化图像，通过输入年轻图像和预设的年龄条件，自动有效地生成年老图像。D用于鉴别生成的年老图像是否为真实图片，能够确保生成的年老图片具备欺骗性。AEN是用于减小生成图像的年龄与预设值的差异，而FRN则是保证生成过程中人像身份的一致性。发明通过对网络结构的设计，使整个网络达到端对端的训练，并且在人脸老化方面有很好的表现，能够生成身份一致，欺骗性强和分辨率高等优点的优质人脸老化图像。

Description

一种基于条件生成对抗网络的人脸老化方法

技术领域

本发明涉及人工智能与深度学习领域，更具体地，涉及一种基于条件生成对抗网络的人脸老化方法。

背景技术

人脸老化，也称为人脸年龄进化，或老化合成，吸引了越来越多的研究兴趣。在美学方面，将其定义为对一个人的人脸用自然的老化或修复效果进行渲染。在人脸图像处理和模式分析中，人脸老化是一个与众不同的任务，其目的是由一个输入的年轻人脸图像，来生成相应身份年老的人脸图像。近年来，人脸老化的研究已经有了一定突破，并产生了许多相关的重要应用，例如：跨年龄的人脸分析、身份认证、寻找丢失儿童、娱乐、整容术，生物统计学或司法鉴定等。近年来，随着生成对抗网络的迅速发展，生成对抗网络出现多种变形形式，广泛应用于图像级应用中。2014年Ian Goodfellow发表Generative AdversarialNetwork(GAN)，打开了无监督学习和生成对抗网络的大门，生成对抗网络以一种无监督的方式学习训练样本的分布并以此生成高度真实的合成数据。Mirza et al.提出ConditionGAN在原始GAN的基础上引入额外的标签信息，也就是从原来的随机噪声变量中分出一部分来引导网络生成想要的图像，采取的方式是给判别网络和生成网络都输入训练图像对应的标签，这样生成对抗网络又具备监督形式，CGAN除了用于指定条件生成数据外，还用在图像转换，风格迁移中。但是该模型针对人脸老化的任务仍存在许多问题，比如人像转换的过程中无法保持身份的一致性，或者生成图像的与预设的年龄信息不相符，以及最终生成图像质量不高等各方面的问题。

发明内容

本发明为克服上述现有技术所述的人像转换的过程中无法保持身份的一致性，生成图像的与预设的年龄信息不相符，以及最终生成图像质量不高等方面的的问题。提供一种基于条件生成对抗网络的人脸老化方法。

本发明旨在至少在一定程度上解决上述技术问题。

为解决上述技术问题，本发明的技术方案如下：一种基于条件生成对抗网络的人脸老化方法，包括以下步骤：

S1：搜集人脸数据，并对人脸数据进行预处理；

S2：输入预处理后的人脸数据分别训练年龄估计网络AEN和身份识别网络FRN；

S3：编码年龄信息，构造图像生成器G和图像判别器D，并将图像生成器G的生成图像分别输入到构造的图像判别器D、训练好的年龄估计网络AEN以及身份识别网络FRN中，计算图像判别器、年龄估计网络、身份识别网络的损失函数并将损失函数进行融合作为生成器G最终的损失函数，从而构造生成对抗网络Age-GAN，训练生成对抗网络Age-GAN；

S4：将待测数据输入到生成对抗网络Age-GAN中用于人脸老化。

本发明通过对于海量已标注年龄的不同年龄段的图像训练得到一个由图像生成器G，图像判别器D，年龄估计网络AEN和身份识别网络FRN组成的条件生成对抗网络，通过这个网络结构的设计，完成了多种损失函数的相结合，使得模型在人脸老化方面有很好的表现实现人脸的老化。

优选地，步骤S1搜集人脸数据，并对人脸数据进行预处理的具体步骤为：

S11：对将公共的包含年龄标签和身份标签的人脸数据库进行搜集，人脸数据库包括FG-NET，CACD和MORPH公共数据库；

S12：将搜集到的人脸图像进行预处理，包括人脸检测，人脸裁剪和人脸对齐，再对处理后的数据进行数据增强，包括随机裁剪，最后得到固定尺寸的标准人脸图像，并将得到的人脸图像按年龄分成若干组；

优选地，所述将得到的人脸图像按年龄分成若干组，包括16组分别是0-5、6-10、11-15、16-20、21-25、26-30、31-35、36-40、41-45、46-50、51-55、56-60、61-65、66-70、71-75、76-100。

优选地，步骤S2中输入预处理后的人脸数据分别训练年龄估计网络AEN和身份识别网络FRN；具体步骤为：

S21：将经过预处理的标准人脸图像输入到年龄估计网络AEN中，采用随机梯度下降进行图像训练，并对年龄估计网络AEN中所有层的参数进行更新；

S22：将经过预处理的标准人脸图像输入到身份识别网络FRN，利用随机梯度下降进行网络训练，对FRN中的参数进行更新。

优选地，所述的一种基于条件生成对抗网络的人脸老化方法，其特征在于：所述年龄估计网络采用3×3的卷积核，在每个卷积层后增加最大池化层，每层卷积神经网络会接一个激活函数，即输入先经过一个BN(Batch Normalization)操作，再经过一个ReLU函数，最后通过一个最大池化层的处理，作为整个激活函数的输出，也作为下一个卷积层的输入；卷积层的输出最后会经过3个全连接层FC₁,FC₂,FC₃，对全连接层的参数进行了调整，分别将FC₁调整为512,FC₂调整为128和FC₃调整为16个卷积核，并将最后一层全连接层的输出输入到softmax层，通过softmax层将深度特征分为16类。

优选地，所述身份识别网络采用3×3的卷积核，在每个卷积层后增加最大池化层，每层卷积神经网络会接一个激活函数，即输入先经过一个BN(Batch Normalization)操作，再经过一个ReLU函数，最后通过一个最大池化层的处理，作为整个激活函数的输出，也作为下一个卷积层的输入；卷积层的输出最后会经过3个全连接层FC₁,FC₂,FC₃，对全连接层的参数进行了调整，分别将FC₁调整为4096，FC₂调整为4096和FC₃调整为2048个卷积核，并将最后一层全连接层的输出输入到softmax层，通过softmax层将深度特征分为16类。

优选地，步骤S3的具体过程如下：

S31：利用S13中训练好的年龄估计网络AEN对标准人脸图像的年龄信息进行编码，并获得代表若干年龄组的特征向量y_i，i表示年龄组的个数；

S32：构造图像生成器G和图像判别器D；

S33：去除FRN和AEN的Softmax层和最后一个全连接层，并将两个模型的参数进行固定，即在Age-GAN的训练过程中两个模型的参数不发生变化；

S34：将原始图像和年龄相关向量作为输入输入到图像生成器G，将图像生成器G的生成图像分别输入到图像判别器D、年龄估计网络AEN以及身份识别网络FRN中，其中年龄估计网络的输入还包括年龄信息，身份识别网络的输入还包括原始图像；

S35：分别计算图像判别器、年龄估计网络、身份识别网络的损失函数；

S36：通过将误差反向传播的方式来更新模型参数，即将图像判别器D、年龄估计网络AEN以及身份识别网络FRN中输出的损失函数进行融合并将其作为生成器G最终的损失函数。

优选地，步骤S35中图像判别器的损失函数为生成图像的图像损失函数，即与生成图像中同一个人的同一年龄组的另一图像与生成图像之间的深度特征的损失；年龄估计网络的损失函数是生成图像和原始图像输入到AEN中获得的两个深度特征的余弦距离，身份识别网络的损失函数是生成图像和原始图像输入到FRN得到的两个深度特征之间的欧式距离。

优选地，所述图像生成器主要包括编码器和解码器；编码器主要由3个卷积核大小为3×3，步长为2的卷积层组成，编码器的输出y₁会被输入到4个连续的残差块，并通过这4个残差块将年龄相关信息Vage编码到图像对应的深度特征中，即输出为y₂＝f(y₁,V_age)，f(y₁,V_age)表示将年龄相关信息Vage编码到图像对应的深度特征中；解码器主要由3个反卷积层组成，生成图像W_out＝f₂(y₂)，其中f₂()表示解码处理。

优选地，所述图像判别器包括6个卷积层作为特征提取网络，采用自上而下的金字塔结构，即由上到下卷积核呈逐渐减少，对特征提取网络中各层具有不同语义信息不同尺度的视觉特征进行融合，即分别对1，3，5和6层的输出分别记为{v₁,v₃,v₅,v₆}，将输出进行一个上采样到同一尺度后进行融合，得到输出为v_out＝map(v₁)+map(v₂)+map(v₅)+map(v₆)，map()表示对图像进行上采样到一定尺寸。

与现有技术相比，本发明技术方案的有益效果是：本发明通过对于海量已标注年龄的不同年龄段的图像训练得到一个由图像生成器G，图像判别器D，年龄估计网络AEN和身份识别网络FRN组成的条件生成对抗网络，将多种损失函数的相结合，使得模型在人脸老化方面有很好的表现，能够生成身份一致，欺骗性强和分辨率高等优点的优质人脸老化图像。

附图说明

图1为本发明流程图。

图2为本发明人脸老化模型示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的一种基于条件生成对抗网络的人脸老化方法流程图，包括以下步骤：

S1：搜集人脸数据，并对人脸数据进行预处理；

S11：对网络上的公共人脸数据库进行搜集，条件为人脸数据库必须包含年龄标签和身份标签，主要数据库包括FG-NET，CACD和MORPH等公共数据库；

S12：对得到的图像进行预处理，包括人脸检测，人脸裁剪和人脸对齐等，再对数据进行数据增强，包括随机裁剪，最后得到224×224的标准人脸图像。

S13：根据数据的现有量以及对于模型的需要，将模型的卷积层参数进行一次调整，根据经验，该方法将人的年龄大致分为16组，分别为{0-5,6-10,11-15,16-20,21-25,26-30,31-35,36-40,41-45,46-50,51-55,56-60,61-65,66-70,71-75,76-100}，最后一组主要由于数据分布的问题，将76岁以上设置为同一组。

S21：将现有的已训练好的现有的人脸模型进行微调得到初步的年龄估计网路模型；

S22：采用3×3的卷积核，增加网络的非线性表达能力，使得分割平面更具有可分性，同时减少参数的个数。与此同时，在每个卷积层后增加最大池化层，经过最大池化层的深度特征维数会变为原来的1/2。

S23：每层卷积神经网络会接一个激活函数，在这里它是一个复合操作，表示输入先经过一个BN(Batch Normalization)操作，再经过一个ReLU函数，最后通过一个最大池化层的处理，作为整个激活函数的输出，也作为下一个卷积层的输入。

S24：卷积层的输出最后会经过3个全连接层，对全连接层的参数进行了调整，分别将FC1,FC2,FC3调整为512,128和16个卷积核，并将最后一层全连接层的输出输入到softmax层，通过softmax层将深度特征分为16类。

S25：输入经过预处理的标准人脸图像，利用随机梯度下降进行图像训练，并对年龄估计网络中所有层的参数进行微调，得到更好的年龄估计结果。

S26：FRN是身份识别网络，主要用于提取人脸图像中的人脸深度特征，因此该方法采用当前效果最好的人脸识别网络模型，对网络模型进行微调，保证网络提取身份特征的能力并且要求对于年龄具有一定的鲁棒性；

S27：身份识别网络采用3×3的卷积核，在每个卷积层后增加最大池化层，每层卷积神经网络会接一个激活函数，即输入先经过一个BN(Batch Normalization)操作，再经过一个ReLU函数，最后通过一个最大池化层的处理，作为整个激活函数的输出，也作为下一个卷积层的输入；卷积层的输出最后会经过3个全连接层FC₁,FC₂,FC₃，对全连接层的参数进行了调整，分别将FC₁调整为4096，FC₂调整为4096和FC₃调整为2048个卷积核，并将最后一层全连接层的输出输入到softmax层，通过softmax层将深度特征分为16类。

S31：利用卷积神经网络的特性对年龄信息进行编码，根据对这16个年龄组的分类，获得能够代表16个年龄组的特征向量y_i。

S32：构造图像生成器G，G主要由两部分组成，包括编码器和解码器，其中编码器负责将原始图像编码到隐空间，并由卷积神经网络对特征进行年龄信息与图像信息的融合，再经过解码器恢复到生成图像。编码器主要由3个卷积核大小为3×3，步长为2的卷积层组成，主要是为了确保图像中的每一个像素都能被充分利用。编码器的输出y₁会被输入到4个连续的残差块，并通过这4个残差块将年龄相关信息Vage编码到图像对应的深度特征中，输出为y₂＝f(y₁,V_age)。解码器主要由3个反卷积层组成，用反卷积层去取代传统的上采样层可以保留更多的语义信息，使得生成图像更加准确，生成图像W_out＝f₂(y₂)，其中生成图像W_out是224×224×3的图像。

S33：构建判别器D。D主要是用于判断生成图像是否满足原始图像的概率分布。为了排除多余信息的干扰，该方法选取了与生成图像同一身份同一年龄信息的人脸图像W_In2作为输入；在D的结构中采用6个卷积层作为特征提取网络，其中运用了自上而下的金字塔结构，从特征提取网络中过去各层具有不同语义信息不同尺度的视觉特征，对其进行融合。分别将第1，3，5和6层的输出分别记为{v₁,v₃,v₅,v₆}，由于各层的输出是不同尺度的，因此这些输出会经过一个上采样到同一尺度后进行融合，v_out＝map(v₁)+map(v₂)+map(v₅)+map(v₆)。

S34：两个图像经过D得到深度特征之间距离损失函数会作为判别器的损失函数。

S35：去除FRN模型和AEN模型的Softmax层和最后一个卷积层，并将两个模型的参数进行固定，即在GAN的训练过程中两个模型的参数不发生变化；将图像生成器、图像判别器、年龄估计网络以及身份识别网络进行融合，其中生成图像网络将生成图片分别输入到图像判别器、年龄估计网络以及身份识别网络；同时年龄估计网络中还需要输入年龄编码信息，身份识别网络中还需要输入原始图像信息，其具体模型示意图如图2所示；

S36：训练过程是希望最小化G和D的损失函数，其训练策略可以被写为：

其中θ_G，θ_D分别为生成器G和鉴别器D的权重。P_data，P_y，P_z分别表示数据集，目标图片集和生成图片集的分布概率，G(x,y)和D(x,y)分别表示生成器的输出和鉴别器的输出。

S37：判别器D的损失函数可以表示为：

其中

表示卷积神经网络的映射，V_age表示生成图像，W_IN2表示与输入图像W_IN来自同一身份的，年龄信息为V_age的人脸图像；其中W,H,C分别表示图像的宽、高和对应的通道数。

S38：生成器G的损失函数课表示为：

L_GAN,G＝λ_DL_GAN,D+λ_IL_ide+λ_AL_age

其中L_ide和L_age可以被表示为：

其中cdis(x,y)表示x和y的余弦距离。

和

表示FRN模型和AEN模型的输出，λ_D、λ_L、λ_A分别表示图像判别器、身份识别网络以及年龄估计网络的损失函数在生成器G中的权重。

S39：将图像判别器、年龄估计网络以及身份识别网络中输出的损失函数会进行融合，作为生成器G最终的损失函数，通过最小化损失函数，误差反向传播的方式来更新模型参数。交替地训练G和D实现最优化，并最终达到G完全学习了年龄变化以及D变成一个具有辨别力的判断模型的目标。

S4：将待测数据输入到生成对抗网络Age-GAN中用于人脸老化。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于条件生成对抗网络的人脸老化方法，其特征在于，包括以下步骤：

S1：搜集人脸数据，并对人脸数据进行预处理；

S4：将待测数据输入到生成对抗网络Age-GAN中用于人脸老化；

步骤S3的具体过程如下：

S31：利用步骤S2中训练好的年龄估计网络AEN对标准人脸图像的年龄信息进行编码，并获得代表若干年龄组的特征向量y_i，i表示年龄组的个数；

S32：构造图像生成器G和图像判别器D；

S33：去除身份识别网络FRN和年龄估计网络AEN的Softmax层和最后一个全连接层，并将两个模型的参数进行固定，即在生成对抗网络Age-GAN的训练过程中两个模型的参数不发生变化；

S34：将原始图像和年龄相关向量作为输入到图像生成器G，将图像生成器G的生成图像分别输入到图像判别器D、年龄估计网络AEN以及身份识别网络FRN中，其中年龄估计网络的输入还包括年龄信息，身份识别网络的输入还包括原始图像；

2.根据权利要求1所述的一种基于条件生成对抗网络的人脸老化方法，其特征在于：步骤S1搜集人脸数据，并对人脸数据进行预处理的具体步骤为：

S12：将搜集到的人脸图像进行预处理，包括人脸检测，人脸裁剪和人脸对齐，再对处理后的数据进行数据增强，包括随机裁剪，最后得到固定尺寸的标准人脸图像，并将得到的人脸图像按年龄分成若干组。

3.根据权利要求1所述的一种基于条件生成对抗网络的人脸老化方法，其特征在于：步骤S2中输入预处理后的人脸数据分别训练年龄估计网络AEN和身份识别网络FRN；具体步骤为：

S22：将经过预处理的标准人脸图像输入到身份识别网络FRN，利用随机梯度下降进行网络训练，对身份识别网络FRN中的参数进行更新。

4.根据权利要求3所述的一种基于条件生成对抗网络的人脸老化方法，其特征在于：所述年龄估计网络采用3×3的卷积核，在每个卷积层后增加最大池化层，每层卷积神经网络会接一个激活函数，即输入先经过一个批归一化操作，再经过一个ReLU函数，最后通过一个最大池化层的处理，作为整个激活函数的输出，也作为下一个卷积层的输入；卷积层的输出最后会经过3个全连接层FC₁、FC₂、FC₃，对全连接层的参数进行了调整，分别将FC₁参数调整为512，FC₂参数调整为128和FC₃参数调整为16个卷积核，并将最后一层全连接层的输出输入到softmax层，通过softmax层将深度特征分为16类。

5.根据权利要求3所述的一种基于条件生成对抗网络的人脸老化方法，其特征在于：所述身份识别网络采用3×3的卷积核，在每个卷积层后增加最大池化层，每层卷积神经网络会接一个激活函数，即输入先经过一个批归一化操作，再经过一个ReLU函数，最后通过一个最大池化层的处理，作为整个激活函数的输出，也作为下一个卷积层的输入；卷积层的输出最后会经过3个全连接层FC₁,FC₂,FC₃，对全连接层的参数进行了调整，分别将FC₁调整为4096，FC₂调整为4096和FC₃调整为2048个卷积核，并将最后一层全连接层的输出输入到softmax层，通过softmax层将深度特征分为16类。

6.根据权利要求1所述的一种基于条件生成对抗网络的人脸老化方法，其特征在于：步骤S35中图像判别器的损失函数为生成图像的图像损失函数，即与生成图像中同一个人的同一年龄组的另一图像与生成图像之间的深度特征的损失；年龄估计网络的损失函数是生成图像和原始图像输入到年龄估计网络AEN中获得的两个深度特征的余弦距离，身份识别网络的损失函数是生成图像和原始图像输入到身份识别网络FRN得到的两个深度特征之间的欧式距离。

7.根据权利要求1所述的一种基于条件生成对抗网络的人脸老化方法，其特征在于：所述图像生成器主要包括编码器和解码器；编码器主要由3个卷积核大小为3×3，步长为2的卷积层组成，编码器的输出y₁会被输入到4个连续的残差块，并通过这4个残差块将年龄相关信息Vage编码到图像对应的深度特征中，即输出为y₂＝f(y₁,V_age)，f(y₁,V_age)表示将年龄相关信息Vage编码到图像对应的深度特征中；解码器主要由3个反卷积层组成，生成图像W_out＝f₂(y₂)，其中f₂()表示解码处理。

8.根据权利要求1所述的一种基于条件生成对抗网络的人脸老化方法，其特征在于：所述图像判别器包括6个卷积层作为特征提取网络，采用自上而下的金字塔结构，即由上到下卷积核呈逐渐减少，对特征提取网络中各层具有不同语义信息不同尺度的视觉特征进行融合，即分别对1，3，5和6层的输出分别记为{v₁,v₃,v₅,v₆}，将输出进行一个上采样到同一尺度后进行融合，得到输出为v_out＝map(v₁)+map(v₂)+map(v₅)+map(v₆)，map()表示对图像进行上采样到一定尺寸。