CN111798369A

CN111798369A - 一种基于循环条件生成对抗网络的人脸衰老图像合成方法

Info

Publication number: CN111798369A
Application number: CN202010608734.3A
Authority: CN
Inventors: 王博文; 潘力立
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-20
Anticipated expiration: 2040-06-29
Also published as: CN111798369B

Abstract

该发明公开了一种基于循环条件生成对抗网络的人脸衰老图像合成方法，属于计算机视觉领域。该方法首先选择使用生成对抗网络作为基本框架，同时，借鉴循环生成对抗网络的对偶学习的思想，并利用辅助分类器的监督学习思想，创新地在循环生成对抗网络进行衰老图片生成时引入类别标签，使网络对特定的年龄特征增加关注度，并通过给判别器增加一个辅助分类支路，使得生成网络可以有效利用标签信息去学习特定的知识，并且通过对偶学习的思想，单次训练即可完成生成网络在不同年龄段图像的生成转换。通过上述的方法，本发明充分利用了对偶学习和辅助分类监督思想的优势，大大地提高了循环生成对抗网络在衰老图像生成的效率和图片质量。

Description

一种基于循环条件生成对抗网络的人脸衰老图像合成方法

技术领域

本发明属于计算机视觉领域，主要涉及人脸衰老图像合成的问题。主要应用于刑事案件的侦破和影视娱乐产业等方面。

背景技术

人脸衰老图像合成是利用计算机视觉的相关技术，在保留原始人脸图像身份特征的基础上，合成指定人脸图像在不同年龄段的对应图像。随着相关理论研究的不断突破与信息科技产业的飞速发展，人脸衰老图像合成研究在公安刑事侦破、跨衰老的人脸识别、人脸数据翻译、人脸数据集扩展等方面都有非常广泛的应用。近年来，人脸衰老图像合成在机器学习和深度学习发展的基础上，有了进一步的发展。现有人脸衰老图像合成方法可以分为三个大的类别：1.基于物理模型的方法，2.基于原型的方法，3.基于深度学习的方法。

基于物理模型的人脸衰老图像合成方法的基本原理是通过研究人脸衰老过程的物理变化机制的统一规律，例如面部纹理，形状和骨骼的变化机制规律，从而在原始图片中加入这些统一的变化规律来合成人脸衰老图像。然而，人脸衰老过程是特定于个体的，受到其他因素(例如健康，性别和生活方式)的严重影响。基于物理模型的人脸衰老图像合成方法经常使用马尔可夫过程来描述人脸衰老的过程。这类方法缺陷在于合成指定人脸图像在不同年龄段的对应图像的效率很低，合成的图像缺乏个体化信息，衰老过程缺乏个体性和多样性。参见文献：Ramanathan N,Chellappa R.Modeling age progression in youngfaces[C]//2006IEEE Computer Society Conference on Computer Vision and PatternRecognition(CVPR'06).IEEE,2006,1:387-394.和Suo J,Zhu S C,Shan S,et al.Acompositional and dynamic model for face aging[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2009,32(3):385-401.

基于原型的人脸衰老图像合成方法通常分为两个步骤：首先，根据不同年龄组的图像建立平均脸，将生成的每个平均脸图像作为每个年龄组的原型，并学习不同年龄组的原型之间的纹理等特征的变化规律；然后，将这些规律用于测试图像，合成人脸衰老图像。然而，基于原型的方法也存在缺陷。不同的输入图像有着相同的衰老规律，这意味着基于原型的方法没有考虑到不同个体衰老规律的多样性，同时在计算平均脸的过程中丢失了与细节相关的纹理信息。参见文献：Shu X,Tang J,Lai H,et al.Personalized ageprogression with aging dictionary[C]//Proceedings of the IEEE internationalconference on computer vision.2015:3970-3978.

基于深度学习的人脸衰老图像合成方法，通常使用深度生成模型来产生图片，通过拥有不同年龄段的人脸图片的数据集来学习不同年龄组之间的映射关系。这种方法通过人工设计好的神经网络和损失函数，自动学习得到不同年龄组之间的纹理等特征的变化规律。这种方法一定程度上解决了上面两种方法的个体衰老方式单一、丢失与细节相关的纹理信息、生成效率低等问题。

最近，生成对抗网络和它的各种变体被用于人脸衰老图像的合成工作，这使得合成人脸图片的质量逐渐接近真实人脸图像。生成对抗网络由一组对抗性的神经网络构成(分别称为生成器和判别器)，生成器从潜在空间(latent space)中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别器的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

基于生成对抗网络的方法通常使用身份保护网络来使得模型在学习衰老的过程中保留原始人脸图像的身份特征。由于，身份保护网络保留原始人脸图像的身份特征的效果与预训练过程和数据库选择有密切关系。因此，想要得到一个很好的预训练的身份保护网络要选择合适的网络结构和损失函数，并需要选择与测试数据集相近的数据集进行预训练。由此看来预训练一个合适的身份保护网络是一个十分复杂的问题。对于衰老过程这些方法大都仅考虑了年龄组之间的人脸图像向人脸图像的转变，而不是明确考虑不同年龄之间的每个人的个性化衰老模式，提高个体衰老方式的多样性还是需要研究的重要问题。

循环生成对抗网络的提出是解决图像风格转换的问题。风格转换是从一幅(源域)图像到另一幅(目标域)图像的转换。循环生成对抗网络重要的想法是循环一致性思想的引入。利用循环一致性损失可以保持源域图像内容不变，图像的一些其他属性变成目标域相应的属性。通过循环一致性思想的启发，人脸衰老图像的合成也可以看作是从一个年龄组(源域)图像到另一年龄组(目标域)图像的转换，保持图像的身份特征内容不变，一些其他属性例如纹理等特征变成目标域特征。通过这种方式就解决了预训练身份保护网络这一难题和提高了个体衰老方式的多样性。然而，循环生成对抗网络一次训练只能学习到两个年龄组之间的映射关系。为此，我们引入辅助分类器条件生成对抗网络(AC-GAN)的思想。首先，我们在每个生成器的输入图片上串联它需要映射到的目标域的标签；然后，判别器结构加入一个辅助分类器，判别器在判别真假的同时，还会产生图片所在年龄段的标签；最后，在训练时，我们利用真实图片和真实图片所在年龄段的标签来训练判别器，利用判别器来训练生成器生成的图像逐渐逼近目标年龄段的真实图像，通过循环一致性损失来保证不同年龄组之间的身份特征的保留。

发明内容

本发明的任务是提供一种衰老图像的合成算法，该算法可以在保留原始人脸图像身份特征的基础上，合成指定人脸图像在不同年龄段的对应图像。本发明旨在克服现有的方法在合成过程中衰老图像与输入图像之间存在的无法保持身份一致性、衰老图像衰老方式缺乏个体化、衰老图像年龄信息不准确、衰老图像生成质量差等问题。

该方法首先将输入图像和目标年龄段标签加入到生成器G来合成目标年龄段的衰老图像，再将合成的衰老图像和原输入图像的年龄标签加入到生成器F来重建原输入图像；其次，将原输入图像和原输入图像的年龄标签加入判别器D(包含辅助分类器)训练提高判别器的年龄分类能力和判别图像真伪的能力，再将目标年龄段的衰老图像和目标年龄段标签输入判别器D判别生成器G生成的目标年龄段的衰老图像是否真实和属于目标年龄段；最后，将重建图像与原输入图像标签加入判别器D判别生成器F重建图像是否真实和属于原输入图像的年龄段，再将原图像逐像素做差并取绝对值相加以此来使得生成器G和生成器F在生成过程中保持身份一致性。

通过上述方法，本发明充分利用了图像的年龄标签信息来学习不同年龄段图像之间的映射关系，且考虑了衰老图像衰老方式的多样性问题，同时利用循环一致性损失，更好的保证了不同年龄段图像之间的身份一致性，提高了现有衰老合成方法的年龄精确度和鲁棒性。

为了方便地描述本发明内容，首先对一些术语进行定义。

定义1：人脸图像衰老合成(Face Aging)。人脸图像衰老合成的目标是通过研究人脸容貌随着年龄的变化规律，进而合成人脸在不同年龄段的对应图像。任务的输入是一张人脸图像和目标年龄，然后通过计算机视觉领域相关算法，对输入图像进行处理，改变其年龄信息，然后对图像进行重建，得到目标年龄的图像。

定义2：跨域图像转换。跨域图像转换的目的是学习输入数据的数据分布与目标数据的数据分布之间建立映射关系。输入数据的数据分布所在的空间称为源域(sourcedomain),目标数据的数据分布所在的空间称为目标域(target domain)。学习跨域关系对人类来说通常很自然，例如语言翻译。任意两个不同的域(X，Y),它们之间一定是有某种底层的关系，我们可以把这种隐含的关联理解为，不同域的事物之间的映射关系。但是如果只采用单向映射的方式，就可能存在某一个域的样本对应另一个域上的同一个样本的问题，也就是说这种映射关系可能不是单一的。对于这种问题，一种解决方法就是利用对偶学习的思想，再增加一个对应的映射关系，这样就可以达到双向之间的一一映射。本发明中衰老图像合成也可看作是跨域图像转换任务，我们将输入年龄段图像的数据分布所在空间看作是源域，将目标年龄段图像的数据分布所在空间看作是目标域。当模型学习到这两个域之间的映射关系时，我们输入图像到模型生成的图像就是我们需要合成的目标年龄段的衰老图像。如上文所述，单向的跨域图像转换存在映射关系不唯一的现象，放在衰老图像合成任务上就是图像转换过程中可能存在身份一致性丢失的问题，这时增加一个对应的映射关系就可以达到保护身份一致性的目的。

定义3：多域图像转换(Multi-Domain Image-to-Image Translation)。多域图像转换是在跨域图像转换的基础上提出的概念。传统的跨域图像转换中都只有一个源域和目标域，由于CycleGAN以及它的变体等研究取得显著的成功，研究者开始研究处理两个以上的域图像的转换问题，如多表情图像转换。现有的方法用于处理两个以上的域时在伸缩性以及鲁棒性上存在很大的局限性。其中原因在于这些方法必须为每一对图像域建立不同的模型。为了学习K个域之间的所有映射关系，这些方法就必须训练K×(K-1)个生成器，这种方法训练效率很低，而且没有充分利用到不同域之间的关联信息。本发明中将图像分为3个年龄段：20-40年龄段，40-60年龄段，60-80年龄段。如按照传统的跨域转换方法去完成不同年龄段图像之间的跨域转换的问题，则需要6个生成器。本发明提出一种衰老图像的合成算法，该算法利用图像的年龄标签信息完成多个年龄段衰老图像的合成。本方法只需一次训练便可以完成多个年龄段衰老图像的合成，充分提高了衰老图像合成算法的效率，极大地利用了不同域之间的关联信息。

定义4：one-hot编码。由于计算机无法理解非数字类的数据，one-hot编码可以将类别性数据转换成统一的数字格式，方便机器学习的算法进行处理及计算。在本发明中不同年龄段的年龄标签就是利用one-hot编码转换成固定维度的向量。转换成固定维度的向量则方便机器学习算法进行线性代数上的计算。另外由于一个one-hot向量中，绝大部分的数字都是0，所以若使用稀疏矩阵的数据结构，则可以节省计算机内存的使用量。

定义5：人脸对齐。人脸对齐任务是指给定一个人脸图像数据集，通过对数据集中的所有图像进行伸缩裁剪平移旋转等一系列操作，使得人脸的中心位置和角度等参数能够固定在一定范围内，眼睛鼻子等特征点的坐标固定在图片的固定位置附近，这样可以大大降低模型需要处理的数据复杂度。类似对普通数据进行的归一化处理，人脸对齐是与人脸图像相关的任务常用的一种预处理的方法，使用对齐后的数据集进行模型的学习，能够帮助提升模型的最终效果。人脸对齐切除与人脸无关的背景信息，并将人脸摆正到与图像纵轴平行。

定义6：神经网络与激活函数。神经网络通常包含输入层、输出层和隐含层。而卷积层则是这些层中常选用的层。输入层(Input layer)，众多神经元(Neuron)接受大量非线形输入数据。输入的数据称为输入向量。输出层(Output layer)，数据在神经元链接中传输、分析、权衡，形成输出结果。输出的数据称为输出向量。隐藏层(Hidden layer)，简称“隐层”，是输入层和输出层之间众多神经元和链接组成的各个层面。隐层可以有一层或多层。隐层的节点(神经元)数目不定，但数目越多神经网络的非线性越显著，从而神经网络的鲁棒性更显著。习惯上会选输入节点1.2至1.5倍的节点。非线性激活函数神经网络中的必不可少的基础单元，它的作用是加强网络的非线性，提高网络对非线性数据的建模能力。常见的激活函数包括Sigmoid函数、tanh函数、修正的线性单元ReLU。Sigmoid函数最大的缺陷就是具有软饱和性。当输入趋向无穷时，函数的导数趋近于0，有这种性质的称为软饱和激活函数，使用软饱和性的激活函数的深度网络在训练时很难收敛，其网络深度一旦增加就无法收敛。Sigmoid函数在网络训练的反向传播过程中，其梯度落入饱和区时会变为0，此时会出现梯度消失的现象，这一现象使得神经网络在反向传播过程中传递的梯度为0，导致网络参数无法更新，因此网络训练无法收敛。tanh也是一种非常常见的激活函数，tanh函数的输出均值是0，它的随机梯度下降更接近自然梯度，它的收敛速度比Sigmoid函数快。然而，tanh一样具有软饱和性，从而造成梯度消失。相比于传统的Sigmoid函数，ReLU有两大优势。首先，ReLU可以缓解梯度消失问题，同时可以加速收敛，并且可以避免网络收敛到一个局部最优解中。另外，ReLU更趋向于得到稀疏的编码，实验证明这种稀疏的表达通常会更有利于分类。ReLU的一个缺点是ReLU会忽略负激活，这些负激活通常会包含许多对表达目标有用的信息。ReLU的另一个缺陷是它的输出均值大于0，具有偏移现象，这会影响网络的收敛性。为了克服这个限制，许多改进ReLU的方法被提出来。LReLU对ReLU做了修改。LReLU对负激活建模成一个线性函数。LReLU通过将负激活乘以一个数值小的标量，例如0.01，使得负激活可以在整个深度卷积神经网络中传播。由于LReLU对于负激活有非零的导数，因此具有负激活值的参数也可以在端到端的学习中被更新。实验结果表明LReLU相比ReLU有更好的分类准确率。然而，LReLU在整个网络中被人为地设置成相同的参数，这种是一种不合理的设置，因为负激活在深度卷积神经网络的不同层中有不同的作用。PReLU是对LReLU的一个改进，PReLU引入一个可以学习的参数，其参数可以与原始深度网络参数同时通过反向传播算法更新。研究者已经证实自动学习参数要优于手工微调参数。PReLU引入了额外的参数，但这些额外参数并不足以使网络过拟合。另外，PReLU的输出均值接近于0，PReLU完美的解决了ReLU中存在的偏移现象，因此PReLU的收敛速度相比ReLU会更快。

定义7：图像卷积与转置卷积。图像卷积和转置卷积在深度学习中非常常见，分别用于特征提取和图像合成，二者可认为是相反方向的操作。卷积操作使得神经网络能够实现与人眼类似的功能，即提取图像的局部特征，同时卷积操作实现了参数共享和数据降维的功能。转置卷积又称为反卷积，低维的图像特征可以通过一系列的转置卷积操作生成高维图像，因此转置卷积多用于图像生成。

定义8：卷积神经网络(Convolutional Neural Network,简称CNN)和残差块(Residual Block)。卷积神经网络由一个或多个卷积层和顶端的全连通层组成，同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。卷积神经网络的一个基本理论是，神经网络的精确程度应该和其深度成正比例关系。然而，随着网络深度的增加，训练将会变得十分困难。这主要是由于随着神经网络的加深，随机梯度下降算法将会产生梯度消失或梯度爆炸等问题。对于该问题最初的解决方法是采用正则化层(Batch Normalization)，这样的话可以训练几十层的网络。然而虽然通过上述方法能够训练了，但是又会出现另一个问题，就是退化问题。随着网络层数增加，在训练集上的准确率却饱和甚至下降了。这个不能解释为过拟合，因为过拟合应该表现为在训练集上表现更好才对。退化问题说明了训练深层的神经网络是非常困难的，甚至造成反作用。在网络中插入残差块可以很好的解决这类问题。残差块相比于传统卷积神经网络，残差块增加了一个shortcut连接方式，以F(x)+x替代原本的H(x)函数。残差块将H(X)看做一个由部分堆叠的网络层进行拟合的底层函数映射，x是它们的输入。如果多个非线性层可以表征复杂的函数，那么残差函数即H(x)-x也能够被这些层所表征。残差块明确的让这些层来估计表征一个残差函数即F(x)＝H(x)-x，而非H(X)。因此原函数变成了F(x)+x。虽然这两种形式都可以逼近于所需要的函数，然而F(x)+x却比F(x)更加容易训练与收敛。残差结构不论是在效率上还是在精确度上，都已证明超过传统的直通式的卷积神经网络，是当前卷积神经网络的重要组成结构。在网络进行训练时，残差模块具有很明显的优势，反向传播的梯度在通过残差模块时，可以从高层直接传播到底层，这使得网络可以选择哪些模块要调整，让模块在训练时能够保持稳定。在原方法中作者对残差模块使用了bottleneck的结构，即每个残差模块依次通过1x1、3x3、1x1大小的卷积核。其中第一层卷积核起到数据降维的作用，可以减小网络的参数规模，第二层卷积核负责特征提取，第三层卷积核将数据维度还原。在相同内存的前提下，使用该种结构可以将网络设计得更深。

定义9：生成对抗网络(Generative Adversarial Network，简称GAN)是无监督学习的一种方法，通过让两个神经网络相互博弈的方式进行学习。该方法在文献GoodfellowI,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Advances inneural information processing systems.2014:2672-2680.中被开创性地提出。生成对抗网络由一个生成器(Generator)与一个判别器(Discriminator)组成。生成器从潜在空间(latent space)中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本的数据分布。判别器的输入则为真实样本或生成网络的输出，其目的是将生成器的输出从真实样本中尽可能分辨出来。而生成器则要尽可能地欺骗判别器。生成器和判别器相互对抗、不断调整参数，最终目的是使判别器无法判断生成器的输出结果是否真实。在理想情况下，两个模型之间终会达到纳什均衡。此时，可以认为生成器已经学习到了真实的数据分布，能够合成近似真实样本的图像。优化过程可以通过下式表达：

上式中min和max分别表示数学符号极小和极大，E[·]表示求数据分布的数学期望，x表示真实数据，p_data(x)是真实的数据分布，z表示从某种数据分布p_z(z)中随机采样得到的向量。

分别表示对x∈p_data(x)和z∈p_z(z)求期望。

如图1所示，生成对抗网络训练时首先选择一个随机噪声z作为生成器输入，满足先验分布p_z(z)。然后生成器将先验信息映射到图像，该过程表示为G(z),G是一个可微分的函数，通常可以使用多层感知机或多层卷积层等模型实现。判别器D输出一个标量。过程D(x)表示x来自于真实数据而不是合成图像的概率。模型同时训练生成器和判别器。训练判别器D时尽可能提高其分辨真实样本和合成样本的能力，训练生成器G时尽可能使合成样本被判别器D误认为是真实样本。

定义10：循环生成对抗网络(Cycle Generative Adversarial Network，简称CycleGAN)。CycleGAN模型是一种基于对偶思想的图像合成算法。该方法在文献Zhu J Y,Park T,Isola P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE internationalconference on computer vision.2017:2223-2232.中提出。CycleGAN模型可以在没有一一对应的输入数据的数据分布和目标数据的数据分布之间学习到映射关系，即使输入数据的数据分布和目标数据的数据分布没有配对，也可以进行图像跨域转换。CycleGAN模型是先通过从源域到目标域的映射，然后又能从目标域中转换回来，利用这种方式就可以消除训练图像配对的限制。对于单GAN模型，生成器和判别器两者之间进行相互博弈，生成网络从样本数据中学习数据特征分布，而判别网络分辨是真实图像还是生成图像。生成器和判别器之间从相互对抗训练中优化，从而最终可以生成和实际分布完全逼近的数据。对于这种训练方式在跨域图像风格转换任务上存在一个问题，网络模型可能会把源域映射到目标域上的不确定组合，所以甚至完全可以将所有的源域都映射到目标域中的同一张图像。仅仅通过单独的对抗损失，是不能达到将源域映射到目标域期望的输出结果。为了解决这个问题，CycleGAN模型采用的是循环一致的约束条件，将源域中的数据经过两次转换后，应该和源域分布中的数据特征吻合。CycleGAN模型通过第一个映射G，将X域的数据转换成Y域，然后通过第二个映射F转换回来，通过这种方式就解决了X域可能会都映射到Y域同一张图片的情况,而且输入图像与输出图像之间保证一定的属性一致性。CycleGAN模型结构可以看成一个双生成对抗的模式，在结构上像一个环形网络。在模型的判别器部分，会有两部分输入，一部分是来自该域的原始图像，而另一部分就是生成图像，判别网络在两部分图像中做出判断，是否为真实的图像或者生成的图像。而生成器的输出，也会慢慢接近目标数据分布图像。通过这样一个对称结构和不断地优化过程，实现了生成器和判别器之间的纳什均衡状态。

定义11：辅助分类器生成对抗网络(Auxililary Classifier GAN，简称ACGAN)。辅助分类器生成对抗网络模型的重要思想是生成器的输入不仅有表示从某种数据分布p_z(z)中随机采样得到的向量z，还加入表示类别信息的标签c。判别器除输出真假判别外，还输出输入标签c的后验估计。在网络训练完成后，输入一个样本x，判别器就可以输出其对应于每一类的概率p(c|x)，选择使得p(c|x)最大的类别作为输入样本x的类别，从而对图像进行分类。

定义12：循环条件生成对抗网络。循环条件生成对抗网络利用图像的年龄标签信息只需一次训练完成多个年龄段衰老图像的合成。本发明中将图像分为3个年龄段：20-40年龄段，40-60年龄段，60-80年龄段。如按照CycleGAN以及它的变体等方法去完成不同年龄段图像之间的跨域转换的问题，则需要6个生成器。循环条件生成对抗网络的模型示意图如图2所示。

因而本发明技术方案为一种基于循环条件生成对抗网络的人脸衰老图像合成方法，该方法包括：

步骤1：对数据集进行预处理；

获取UTKFace数据集，UTKFace数据集是具有较长年龄范围的大规模面部数据集，对获取的数据集根据不同的年龄段进行分组；再利用one-hot向量对这三个年龄段的图像标签进行编码，最后对图片像素值进行归一化；

步骤2：构建卷积神经网络；

构建的卷积神经网络包括三个子网络，一个为生成器G，一个为生成器F，一个为判别器D；生成器G输入源域图片x和目标域标签c，输出生成目标域人脸图片G(x，c)；生成器F输入生成的目标域人脸图片G(x，c)和源域标签c′，输出生成的源域人脸图片F(G(x，c)，c′)；生成器F的生成过程是源域图片x的重建过程，设计生成器F的重构损失使F(G(x，c)，c′)和源域图片x相似，这样一张源域图片经过G变为目标域图片，目标域图片再经过F转换回源域图片；G和F为一个互逆的过程，一张图片依次经过G和F，图片保持不变；保证图片在源域和目标域转换的过程中，重要特征不会丢失；因为如果G输出生成目标域人脸图片G(x，c)的过程中，如果生成器G不保留源域图片x的重要特征，F生成的源域图片F(G(x，c)，c′)将会和源域图片x有很大的不同；所以只有G和F在生成过程中都保留输入图片的重要特征，这种重建才能完成，这样人脸图片的身份等信息在年龄转换的过程中可以得到保留。判别器输入是目标域人脸图片G(x，c)和目标域标签c，或者输入是源域图片x和源域标签c′，判别器有两个作用：(1)使得生成器G生成的目标域人脸图片G(x，c)和源域图片x在真实性方面尽量一致，即生成的目标域人脸图片G(x，c)通过判别器的真假支路输出为真；(2)使得生成器G生成的目标域人脸图片G(x，c)尽可能属于目标域，即G(x，c)通过判别器的分类支路输出为目标域标签；

生成器输入输出均为图片，而判别器输入为图片，输出为标量和分类向量；生成器网络的前两层为3个下采样卷积块，之后接着6个残差网络块，最后再跟着3个上采样卷积块；判别器网络依次采用6个下采样卷积块，以及两个标准卷积块；

生成器G和F的详细参数如下：首先是3层卷积层，卷积核模板大小分别为7×7、4×4、4×4卷积层步长分别为1、2、2，每一卷积层后使用Instance norm归一化层来归一化，激活函数为ReLU函数；其次是6个残差块串联，然后是两层转置卷积，卷积核模板大小都为，步长都为2，每一转置卷积层后使用Instance norm归一化层来归一化，激活函数是ReLU函数；最后一层是卷积层，卷积核模板大小为7×7，卷积层步长为2，激活函数为tanh函数；

判别器D的详细参数如下：首先是6个卷积层，每个卷积层卷积核模板大小都为4×4，步长都为2，激活函数都为Leakey ReLU；最后输出分为两路，一路为辅助分类器路，另一路为判别器路；辅助分类器路卷积层卷积核模板大小2×2，步长为1，输出维度为3，对应生成器输入的标签维度；判别器路卷积核模板大小3×3，步长为1，输出维度为1；

步骤3：训练判别器D；利用上述步骤得到的人脸对齐图像和one-hot年龄标签来训练判别器D；判别器D的输入是源域图像x和源域标签c′，输出人脸图像的真假判别D_src(x)和源域真实图片的标签c′的后验估计D_cls(c′|x)；采用如下的损失函数：

公式中的c′是源域图片的标签，x是源域的图像；λ_cls是对E_x，c′[-log(D_cls(c′|x))]的平滑加权系数，即对输入图片的标签与辅助分类器输出的概率密度估计之间的交叉熵损失的平滑加权系数；E_x，c′，E_x分别表示对(x，c′)，x求期望；

在下一步的训练中，判别器这一次输入生成器G生成的目标域人脸图片G(x，c)，c是生成器需要生成的图片的年龄段标签，即目标域标签；输出人脸图像的真假判别D_src(G(x，c))；E_x，c是对(x，c)求期望；

这个过程用如下损失函数表示：

判别器D的总损失函数如下式表示：

步骤4：训练生成器G；

生成器G的输入是源域图片x和目标域标签c，输出生成器生成目标域人脸图片G(x，c)；利用上一步训练的判别器D来训练生成器G；训练生成器G时，判别器D的参数固定；判别器D的输入是生成器生成的目标域人脸图片G(x，c)，输出的是生成器目标域标签c的后验估计D_cls(c|G(x，c))和输出人脸图像的真假判别D_src(G(x，c))；为保证输入图像和衰老图像身份一致性，加入循环一致性损失；生成器G的损失如下面公式所示：

公式中λ_cls是对E_x，c[-log(D_cls(c|G(x，c)))]的平滑加权系数，即对目标域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失的平滑加权系数；λ_rec是对E_x，c，c′[||x-F(G(x，c)，c′)‖₁]的平滑加权系数，即对循环一致性损失项的平滑加权系数；E_x，c，E_x，c，c′分别是对(x，c)，(x，c，c′)求期望；

步骤5：训练生成器F；

生成器F的输入是上面得到的目标域图片G(x，c)和源域标签c′，输出生成器生成的人脸图片F(G(x，c)，c′)；生成器F与G的训练过程类似，生成器F是利用源域标签，将目标域图片转为源域图片，即对应目标年龄段图片映射回源年龄段图片；损失为：

公式中λ_cls是对E_x，c′[-log(D_cls(c′|F(G(x，c)，c′)))]的平滑加权系数，即对源域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失的平滑加权系数；λ_rec是对E_x，c，c′[‖x-(F(G(x，c)，c′))‖₁]的平滑加权系数，即对循环一致性损失项的平滑加权系数；E_x，c′，E_x，c，c′分别是对(x，c′)，(x，c，c′)求期望；

步骤6：训练完成后只采用生成器G部分，给定图片X和目标域标签C，则可以得到多张不同年龄段的输出图片。

本发明的创新之处在于：

1)在循环生成网络的生成器上加入标签分类信息，生成器可以对特定的年龄特征增加关注度，从而生成质量高和年龄准确度高的图片。

2)在判别网络上增加辅助分类支路，网络可有效利用标签信息去学习特定的知识，并在训练时可随机地进行不同年龄段图片之间的转换，大大提高了循环生成对抗网络生成图片的效率。

3)我们将训练好的模型进行多年龄图片的生成，取得了很好的效果。

1)中的改进可以使生成器对特定的年龄特征增加关注度，2)中的改进可以让我们更准确的对不同年龄段图片的转换进行有效控制，两者的结合最终使我们的生成结果得到提升。

附图说明

图1为GAN的训练过程示意图。

图2为本发明循环条件生成对抗网络的模型示意图。

图3为本发明生成的衰老图片。

具体实施方式

本方法基于循环条件生成对抗网络的人脸衰老图像合成方法，它的实现包含以下步骤：

步骤1：对数据集进行预处理。将UTKFace(https://susanqq.github.io/UTKFace/)人脸数据库进行人脸对齐。数据库图片首先需要计算人脸在图像的位置及大小，用一个方形框表示。其次使用方框将人脸部分从整幅图像中裁剪出来，作为后续步骤的输入。然后对图片中的特征点坐标进行定位，这里采用68个特征点的定位算法。最后，根据定位到的特征点坐标，计算人脸的几何平均点，以及左右眼的几何中心坐标。再根据这些信息，计算出图像需要进行的旋转、平移伸缩变换的参数，得到图像的仿射变换矩阵，对原图进行仿射变换便可以得到对齐后的图像。经过预处理后的每张人脸图像的眼睛处于图像的中心固定位置，且双眼水平，图像大小尺寸统一，最后得到23225张预处理后的带年龄标签的UTKFace数据库图像。

步骤2：根据数据库图像的年龄标签，将对齐后的UTKFace图像分为3个年龄段组：20-40年龄段，40-60年龄段，60-80年龄段。再利用one-hot向量对这三个年龄段的图像标签进行编码。对于年龄段为20-40的图像，经过one-hot编码，它的年龄标签就为[1,0,0]；对于年龄段为40-60的图像，经过one-hot编码，它的年龄标签就为[0,1,0]；对于年龄段为60-80的图像，经过one-hot编码，它的年龄标签就为[0,0,1]。

步骤3：构建的卷积神经网络包括三个子网络，一个为生成器G，一个为生成器F，一个为判别器D。生成器G输入源域图片x和目标域标签c，输出生成目标域人脸图片G(x，c)。生成器F输入生成的目标域人脸图片G(x，c)和源域标签c′，输出生成的源域人脸图片F(G(x，c)，c′)。F的生成过程其实是源域图片x的重建过程，我们设计重构损失使得F(G(x，c)，c′)和源域图片尽可能相似，这样一张源域图片经过G变为目标域图片，目标域图片再经过F转换回源域图片。我们希望G和F像是一个互逆的过程，一张图片依次经过G和F，图片可以保持不变。这样保证图片在源域和目标域转换的过程中，重要特征不会丢失。因为如果G输出生成目标域人脸图片G(x，c)的过程中，如果生成器G不保留源域图片x的重要特征，F生成的源域图片F(G(x，c)，c′)将会和源域图片x有很大的不同；所以只有G和F在生成过程中都保留输入图片的重要特征，这种重建才能完成，这样人脸图片的身份等信息在年龄转换的过程中可以得到保留。判别器输入是目标域人脸图片G(x，c)和目标域标签c，或者输入是源域图片x和源域标签c′，判别器有两个作用：(1)使得生成器G生成的目标域人脸图片G(x，c)和源域图片x在真实性方面尽量一致，即生成的目标域人脸图片G(x，c)通过判别器的真假支路输出为真(2)使得生成器G生成的目标域人脸图片G(x，c)尽可能属于目标域，即G(x，c)通过判别器的分类支路输出为目标域标签。

步骤4：训练判别器D；利用上述步骤得到的人脸对齐图像和one-hot年龄标签来训练判别器D；判别器D的输入是源域图像x和源域图片的标签c′，输出人脸图像的真假判别D_src(x)和源域真实图片的标签c′的后验估计D_cls(c′|x)；采用如下的损失函数：

公式中的c′是源域图片的标签，它用来训练判别器的分类能力。x是源域图像。D_cls(c′|x)表示判别器对输入图片的真实标签进行的概率密度估计，即辅助分类器输出的结果。E_x，c′[-log(D_cls(c′|x))]是输入图片的标签与辅助分类器输出的概率密度估计之间的交叉熵损失，这一项训练判别器的分类能力。公式中λ_cls是对E_x，c′[-log(D_cls(c′|x))]的平滑加权系数。E_x[log(D_src(x))]是判别器输出的真假向量概率密度估计损失，这一项训练判别器识别真假样本的能力。E_x，c′，E_x分别表示对(x，c′)，x求期望。

在下一步的训练中，判别器还输入生成器生成的目标域人脸图片G(x，c)，c是生成器需要生成图片的年龄段标签，即目标域标签。输出人脸图像的真假判别D_src(G(x，c))。E_x，c是对(x，c)求期望。

这个过程用如下损失函数表示：

判别器D的总损失函数如下式表示：

步骤5：训练生成器G。生成器G的输入是源域图片x和目标域标签c，输出生成的目标域人脸图片G(x，c)。利用上一步训练的判别器D来训练生成器G。训练生成器G时，判别器D的参数固定。判别器D的输入是生成器生成的目标域人脸图片G(x，c)，输出的是生成器目标域标签c的后验估计D_cls(c|G(x，c))和输出人脸图像的真假判别D_src(c|G(x，c))。E_x，c[-log(D_cls(c|G(x，c)))]是目标域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失。E_x，c[log(1-D_src(G(x，c)))]是判别器输出的真假向量概率密度估计损失，这一项训练生成器生成的样本要逼近真实图像的数据分布。为保证输入图像和衰老图像身份一致性，加入循环一致性损失。生成器G的损失如下面公式所示：

公式中λ_cls是对E_x，c[-log(D_cls(c|G(x，c)))]的平滑加权系数，即对目标域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失的平滑加权系数。λ_rec是对E_x，c，c′[‖x-F(G(x，c)，c′)‖₁]的平滑加权系数，即对循环一致性损失项的平滑加权系数。E_x，c，E_x，c，c′分别是对(x，c)，(x，c，c′)求期望。

步骤6：生成器F的输入是上面得到的目标域图片G(x，c)和源域标签c′，输出生成器生成的人脸图片F(G(x，c)，c′)；生成器F与G的训练过程类似，生成器F是利用源域标签，将目标域图片转为源域图片，即对应目标年龄段图片映射回源年龄段图片；损失为：

步骤7：根据损失函数设计模型和具体网络结构，并进行代码实现。其中需要设计的部分有G，F，D。本发明是在Pytorch深度学习框架下实现的，实验平台使用的GPU为GTX1080Ti。训练时长约为24个小时。

步骤8：根据本发明的方法，首先对图像进行与预处理，然后使用Python语言和Pytorch深度学习框架实现图2所示模型。接着将对齐后的UTKFace数据库图片以Mini-batch的方式送入网络进行训练。当损失函数不再变化或者变化很小的时表示训练结束。最后对实验结果进行测试，具体的实验参数如下：

图片大小：128×128

损失函数参数：λ_cls＝1，λ_rec＝10

训练批次大小：16(UTKFace)

总训练迭代次数：20000

ADAM训练器参数：学习率lr＝0.0001，β₁＝0.5，β₂＝0.9

步骤9：测试阶段，在步骤6中训练好模型，只取网络G部分。给定测试集图片X和目标域标签C，则可以得到多张不同年龄段的输出图片。

Claims

1.一种基于循环条件生成对抗网络的人脸衰老图像合成方法，该方法包括：

步骤1：对数据集进行预处理；

步骤2：构建卷积神经网络；

构建的卷积神经网络包括三个子网络，一个为生成器G，一个为生成器F，一个为判别器D；生成器G输入源域图片x和目标域标签c，输出生成目标域人脸图片G(x，c)；生成器F输入生成的目标域人脸图片G(x，c)和源域标签c′，输出生成的源域人脸图片F(G(x，c)，c′)；生成器F的生成过程是源域图片x的重建过程，设计生成器F的重构损失使F(G(x，c)，c′)和源域图片x相似，这样一张源域图片经过G变为目标域图片，目标域图片再经过F转换回源域图片；G和F为一个互逆的过程，一张图片依次经过G和F，图片保持不变；保证图片在源域和目标域转换的过程中，重要特征不会丢失；

这个过程用如下损失函数表示：

判别器D的总损失函数如下式表示：

步骤4：训练生成器G；

公式中λ_cls是对E_x，c[-log(D_cls(c|G(x，c)))]的平滑加权系数，即对目标域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失的平滑加权系数；λ_rec是对E_x，c，c′[||x-F(G(x，c)，c′)||₁]的平滑加权系数，即对循环一致性损失项的平滑加权系数；E_x，c，E_x，c，c′分别是对(x，c)，(x，c，c′)求期望；

步骤5：训练生成器F；

公式中λ_cls是对E_x，c′[-log(D_cls(c′|F(G(x，c)，c′)))]的平滑加权系数，即对源域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失的平滑加权系数；λ_rec是对E_x，c，c′[||x-(F(G(x，c)，c′))||₁]的平滑加权系数，即对循环一致性损失项的平滑加权系数；E_x，c′，E_x，c，c′分别是对(x，c′)，(x，c，c′)求期望；