CN113762117A

CN113762117A - 一种图像处理模型的训练方法、图像处理模型及计算机设备

Info

Publication number: CN113762117A
Application number: CN202110996242.0A
Authority: CN
Inventors: 陈仿雄
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-12-07
Anticipated expiration: 2041-08-27
Also published as: CN113762117B

Abstract

本申请实施例涉及图像处理技术领域，公开了一种图像处理模型的训练方法、图像处理模型及计算机设备，在经历多轮训练后，编码网络能够学习多个人在多个年龄段的年龄特征，并将各年龄段对应的年龄特征以编码形式进行表征，即每个年龄段的编码由编码网络学习多个人的年龄特征得到；生成式对抗网络通过将同一个人在各年龄段下的编码与人脸图像进行融合，学习同一个人在不同年龄段的年龄特征差异，使得生成的预测图像符合个体特性。此外，损失函数表征第一编码和第二编码之间的编码损失、真实人脸图像和预测人脸图像之间的特征损失和对抗损失，其中，真实人脸图像和预测人脸图像之间的特征损失使得生成式对抗网络中的生成器能够控制脸部特征的还原度。

Description

一种图像处理模型的训练方法、图像处理模型及计算机设备

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种图像处理模型的训练方法、图像处理模型及计算机设备。

背景技术

随着机器学习技术不断成熟,基于机器学习技术的服务的种类也越来越多。例如计算机设备通过机器学习技术,能够对第一人脸图像进行处理,得到第二人脸图像。其中,第一人脸图像中的人脸对应的第一年龄和第二人脸图像中的人脸对应的第二年龄不同,但对应相同身份。上述服务在多个场景中被广泛需求，例如，在公安刑事侦破时，根据走失儿童的现有照片，推测其几年后的样貌，以便寻找；或者，根据嫌疑人年轻时的旧照片预测其逃亡多年后的照片；再例如，在影视业制作的过程中，当演员扮演年老角色时，根据演员现在的样貌推测其衰老后的样貌，方便化妆师画出年老角色形象；再例如，在休闲娱乐时，人们想通过当前的图像溯源自己小时候的照片。

计算机设备通常根据输入的第一人脸图像,基于用户的人脸年龄变化操作,通过机器学习模型对该第一人脸图像进行处理,得到第二人脸图像。其中,该人脸年龄变化操作用于指示计算机设备使第二人脸图像中的人脸对应的第二年龄大于第一人脸图像中的人脸对应的第一年龄,或小于第一年龄。该机器学习模型是基于不同年龄段的不同人脸图像训练得到的。

在通过上述方法对第一人脸图像进行处理时,特征变化仅由年龄段决定，通常使得个体的特征变化相同，即对于具有相同年龄的用户A和用户B，两者的图像从第一年龄变化为第二年龄时，他们的特征变化是相同的，特征变化单一，然而，在实际生活中，每个人随着年龄变化的特征变化受个体因素影响，具有特异性。

发明内容

本申请实施例主要解决的技术问题是提供一种图像处理模型的训练方法、图像处理模型及计算机设备，该方法训练得到的图像处理模型能够使得基于年龄变化的特征变化符合个体特性，能够更加准确地预测衰老图像或溯源年轻图像。

为解决上述技术问题，第一方面，本申请实施例中提供一种图像处理模型的训练方法，图像处理模型包括编码网络和生成式对抗网络，该方法包括：

获取真实人脸图像、训练人脸图像和与训练人脸图像对应的预期年龄，训练人脸图像与真实人脸图像反映同一人的人脸，真实人脸图像标注有年龄段，预期年龄位于真实人脸图像标注的年龄段内，预期年龄与训练人脸图像对应的年龄不同；

采用编码网络对真实人脸图像进行特征编码，得到第一编码，第一编码反映真实人脸图像在预期年龄下的人脸特征；

采用生成式对抗网络对第一编码和训练人脸图像进行特征融合，得到预测人脸图像，预测人脸图像为训练人脸图像融合有第一编码的特征后生成的图像；

利用损失函数对图像处理模型进行迭代训练，返回获取真实人脸图像、训练人脸图像和与训练人脸图像对应的预期年龄的步骤，直至图像处理模型收敛，其中，损失函数用于表征第一编码和第二编码之间的编码损失、真实人脸图像和预测人脸图像之间的特征损失和对抗损失，第二编码为采用编码网络对预测人脸图像进行特征编码获得的编码，对抗损失为所述生成式对抗网络计算得到的损失。

在一些实施例中，生成式对抗网络包括生成器，生成器包括依次设置的多个下采样层、多个深度层和多个上采样层；

其中，多个下采样层分别用于输出分辨率逐层减小的中间特征图，多个深度层分别用于输出分辨率一致的中间特征图，多个上采样层分别用于输出分辨率逐层增加的中间特征图；

该采用生成式对抗网络中的生成器对第一编码和训练人脸图像进行特征融合，得到预测人脸图像，包括：

将第一编码分别与输入多个上采样层的中间特征图进行融合。

在一些实施例中，一个上采样层包括反向卷积层和融合层；

前述将第一编码分别与输入多个上采样层的中间特征图进行融合的步骤，包括：

获取用于输入目标层的目标中间特征图的分辨率，所述目标层为任意一个所述上采样层中的融合层；

根据目标中间特征图的分辨率，对第一编码进行线性变换，获得参数矩阵；

对目标中间特征图进行归一化处理，得到归一化处理后的目标中间特征图；

对归一化处理后的目标中间特征图和参数矩阵进行线性变换，得到目标层输出的融合有第一编码的中间特征图。

在一些实施例中，前述对归一化处理后的目标中间特征和参数矩阵进行线性变换，得到目标层输出的融合有第一编码的中间特征，包括：

根据参数矩阵，获取变量矩阵和偏量矩阵；

采用以下公式计算目标层输出的融合有第一编码的中间特征：

Y＝(1+D1)*y+D2；

其中，y为归一化处理后的目标中间特征，D1为变量矩阵，D2为偏量矩阵。

在一些实施例中，前述损失函数为：

其中，L_style为编码损失，L_Ads为对抗损失，L_res为特征损失，σ_style为编码损失的权重，σ_Ads为对抗损失的权重，σ_res为特征损失的权重，x为所述训练人脸图像，T为所述预期年龄所在的年龄段，S(Y_s,T)为第一编码，S(G(x,S(Y_s,T)),T)为第二编码，E表示分布函数的期望值，D(x)表示对于训练人脸图像判别为真假的概率，D(G(x,S(Y_s,T)))为对于预测人脸图像判别为真假的概率,G(x,S(Y_s,T))为预测人脸图像，Y_s为真实人脸图像；masK_G为预测人脸图像中像素点的标签，当预测人脸图像中一像素点位于五官区域内时，对应的masK_G为1，否则为0；masK_Y为真实人脸图像中像素点的标签，当真实人脸图像中一像素点位于五官区域内时，对应的masK_Y为1，否则为0。

在一些实施例中，在前述利用损失函数对图像处理模型进行迭代训练的步骤之前，还包括：

采用人脸关键点算法，分别获取真实人脸图像的五官区域和预测人脸图像的五官区域；

根据真实人脸图像的五官区域与预测人脸图像的五官区域之间的差异，确定真实人脸图像和预测人脸图像之间的特征损失。

在一些实施例中，前述根据真实人脸图像的五官区域与预测人脸图像的五官区域之间的差异，确定真实人脸图像和预测人脸图像之间的特征损失的步骤，包括：

采用以下公式计算真实人脸图像和预测人脸图像之间的特征损失：

L_res＝||G(x,s(Y_s,T))*mask_G-Y_s*masK_Y||₁

其中，x为训练人脸图像，T为预期年龄所在的年龄段，S(Y_s,T)为第一编码，G(x,S(Y_s,T))为预测人脸图像，Y_s为真实人脸图像；masK_G为预测人脸图像中像素点的标签，当预测人脸图像中一像素点位于五官区域内时，对应的masK_G为1，否则为0；masK_Y为真实人脸图像中像素点的标签，当真实人脸图像中一像素点位于五官区域内时，对应的masK_Y为1，否则为0。

在一些实施例中，在前述采用所述编码网络对真实人脸图像进行特征编码，得到第一编码的步骤之前，该方法还包括：

对真实人脸图像和训练人脸图像分别进行预处理，使得经预处理后的真实人脸图像和经预处理后的训练人脸图像的分辨率均为预设分辨率，经预处理后的真实人脸图像和经预处理后的训练人脸图像均为人脸区域图像且人脸均为正脸。

为解决上述技术问题，第二方面，本申请实施例中提供一种图像处理方法，包括：

获取待处理人脸图像和预期年龄；

将待处理人脸图像和预期年龄输入采用利用如上第一方面所述的方法训练得到的图像处理模型，输出年龄变化图像，该年龄变化图像反映的人物的年龄与预期年龄相适应。

为解决上述技术问题，第二方面，本申请实施例中提供一种计算机设备，包括：

至少一个处理器，以及

与至少一个处理器通信连接的存储器，其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上第一方面所述的方法。

为解决上述技术问题，第三方面，本申请实施例中提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机设备执行如上第一方面所述的方法。

本申请实施例的有益效果：区别于现有技术的情况，本申请实施例提供的图像处理模型的训练方法，图像处理模型包括编码网络和生成式对抗网络，每次训练，获取真实人脸图像，另外，获取训练人脸图像及与其对应的预期年龄，该训练人脸图像和真实人脸图像为同一个人的人脸图像，并且，预期年龄位于该真实人脸图像对应的年龄段内，预期年龄与训练人脸图像对应的年龄不同，例如，该真实人脸图像对应的年龄段为55-60岁，预期年龄为58岁，训练人脸图像中人物的年龄为40岁。然后，采用编码网络对真实人脸图像进行特征编码，得到第一编码，采用生成式对抗网络对第一编码和训练人脸图像进行特征融合，得到预测人脸图像，最后，利用用于表征第一编码和第二编码之间的编码损失、真实人脸图像和预测人脸图像之间的特征损失和对抗损失的损失函数计算总损失，根据总损失调整模型参数，完成一次训练，不断遍历图像样本集，更换真实人脸图像，进行新的训练，直至模型收敛，得到图像处理模型。其中，第二编码为采用编码网络对预测人脸图像进行特征编码获得的编码，对抗损失为生成式对抗网络计算得到的损失。

在经历多轮训练后，编码网络能够学习多个人在多个年龄段的年龄特征，并将各年龄段对应的年龄特征以编码形式进行表征，即每个年龄段的编码由编码网络学习多个人的年龄特征得到；生成式对抗网络通过将同一个人在各年龄段下的编码与人脸图像进行融合，学习同一个人在不同年龄段的年龄特征差异，使得生成的预测图像符合个体特性。此外，损失函数表征第一编码和第二编码之间的编码损失、真实人脸图像和预测人脸图像之间的特征损失和对抗损失，其中，真实人脸图像和预测人脸图像之间的特征损失使得生成式对抗网络中的生成器能够控制脸部特征的还原度，即使得预测人脸图像和真实人脸图像能够反映同一人物身份，预测人脸图像不失真，仅改变年龄特征(受年龄变化影响的特征)，即使得生成器能够更好地学习年龄特征，增加模型准确性。

从而，可以将训练得到的图像处理模型和多个年龄段对应的编码进行存储，当进行测试或应用时，调用该图像处理模型和多个年龄段对应的编码，根据输入的预期年龄确定对应的编码，在将预期年龄对应的编码与待处理人脸图像进行融合，使得待处理人脸图像按预期年龄对应的编码进行年龄特征变化，生成年龄变化图像，使得年龄变化图像中年龄特征变化符合个体特性，即图像处理模型能够更加准确地预测衰老图像或溯源年轻图像。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一实施例提供的图像处理模型的训练方法的流程示意图；

图2为本申请一实施例提供的图像处理模型的网络结构示意图；

图3为本申请另一实施例提供的图像处理模型的网络结构示意图；

图4为本申请另一实施例提供的图像处理模型的网络结构示意图；

图5为本申请一实施例提供的生成器的上采样层融合第一编码的结构示意图；

图6为本申请一实施例提供的图像处理方法的流程示意图；

图7为本申请一实施例提供的计算机设备的结构框图。

具体实施方式

下面结合具体实施例对本申请进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本申请，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本说明书中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本申请。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本申请各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为便于对本申请实施例提供的方法进行理解，首先对本申请实施例中涉及的名词进行介绍：

(1)神经网络

神经网络可以是由神经单元组成的,具体可以理解为具有输入层、隐含层、输出层的神经网络,一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。其中,具有很多层隐含层的神经网络则称为深度神经网络(deep neural network,DNN).神经网络中的每一层的工作可以用数学表达式y＝a(W·x+b)来描述,从物理层面,神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作,完成输入空间到输出空间的变换(即矩阵的行空间到列空间),这五种操作包括:1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中、2、3的操作由“W·x”完成,4的操作由“+b”完成,5的操作则由“a()”来实现这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物,而是一类事物,空间是指这类事物所有个体的集合,其中,W是神经网络各层的权重矩阵,该矩阵中的每一个值表示该层的一个神经元的权重值。该矩阵W决定着上文所述的输入空间到输出空间的空间变换,即神经网络每一层的W控制着如何变换空间。训练神经网络的目的,也就是最终得到训练好的神经网络的所有层的权重矩阵。因此,神经网络的训练过程本质上就是学习控制空间变换的方式,更具体的就是学习权重矩阵。

需要注意的是,在本申请实施例中,基于机器学习任务所采用的模型,本质都是神经网络。神经网络中的常用组件有卷积层、池化层、归一化层和反向卷积层等，通过组装神经网络中的这些常用组件，设计得到模型，当确定模型参数(各层的权重矩阵)使得模型误差满足预设条件或调整模型参数的数量达到预设阈值时，模型收敛。

其中，卷积层配置有多个卷积核、每个卷积核设置有对应的步长，以对图像进行卷积运算。卷积运算的目的是提取输入图像的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更深的卷积层能从低级特征中迭代提取更复杂的特征。

反向卷积层用于将一个低维度的空间映射到高维度，同时保持他们之间的连接关系/模式(这里的连接关系即是指卷积时候的连接关系)。反向卷积层配置有多个卷积核、每个卷积核设置有对应的步长，以对图像进行反卷积运算。一般，用于设计神经网络的框架库(例如PyTorch库)中内置有upsumple()函数，通过调用该upsumple()函数可以实现低维度到高维度的空间映射。

池化层(pooling)是模仿人的视觉系统可以对数据进行降维或，用更高层次的特征表示图像。池化层的常见操作包括最大值池化、均值池化、随机池化、中值池化和组合池化等。通常来说，神经网络的卷积层之间都会周期性插入池化层以实现降维。

归一化层用于对中间层的所有神经元进行归一化运算，以防止梯度爆炸和梯度消失。

(2)损失函数

在训练神经网络的过程中,因为希望神经网络的输出尽可能的接近真正想要预测的值,可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重矩阵(然,在第一次更新之前通常会有初始化的过程,即为神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重矩阵让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么神经网络的训练就变成了尽可能缩小这个loss的过程。

(3)生成式对抗网络

生成式对抗网络(Generative Adversarial Networks,GAN)通常包括一个生成器(Generator,G)和一个判别器(Discriminator,D)。通过生成器和判别器之间的相互博弈,从而实现非监督式学习。其中,生成器从潜在空间(latent space)中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别器的输入则为真实样本或生成器的输出,其目的是将生成器的输出作为输入的输入样本,从包括真实样本的全部输入样本中尽可能分辨出来。而生成器则要尽可能地欺骗判别器。构成生成器和判别器之间的对抗关系,从而不断调整参数,终生成以假乱真的图片,完成模型的训练。

为介绍本申请实施例前，先对目前常见的基于机器学习的与年龄相关的图像处理方法进行简单介绍，使得后续便于理解本申请实施例。

方式一：以已标注年龄的不同年龄段的多个图像作为训练集，对条件生成对抗网络进行训练，该条件生成对抗网络包括图像生成器G，图像判别器D，年龄估计网络AEN和身份识别网络FRN。其中，G被训练用于生成年老图像，具体地，通过输入年轻图像和预设的年龄条件，自动有效地生成年老图像。D用于鉴别生成的年老图像是否为真实图片，能够确保生成的年老图片具备欺骗性。AEN是用于减小生成的年老图像的年龄与预设值的差异，而FRN则是保证生成过程中人像身份的一致性。在模型训练的过程中，对训练集按照年龄段进行分组，使得条件对抗生成网络学习到每一组年龄对应的衰老特征，实现人脸的衰老变化。

由方式一可知，在该方案中，衰老特征是从每组图像中学习得到的，使得衰老特征仅由年龄段决定，使得个体的衰老特征相同，从而，对于每一个测试数据中的人脸衰老变化，特征变化是一样的。然而，在实际生活中，每个人随着年龄变化的特征变化受个体因素影响，具有特异性。因此，该方式一中的方案没有考虑到个体差异，无法准确地生成衰老后的图像。

针对上述问题，本申请实施提供了一种图像处理模型的训练方法，下面结合附图，对本申请的实施例进行描述。本领域技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参阅图1，图1为本申请实施例提供的模型的训练方法的一种流程示意图，该模型包括编码网络和生成式对抗网络，该方法具体可以包括如下步骤：

S21：获取真实人脸图像、训练人脸图像和与训练人脸图像对应的预期年龄，训练人脸图像与真实人脸图像反映同一人的人脸，预期年龄位于真实人脸图像对应的年龄段内，预期年龄与训练人脸图像对应的年龄不同。

真实人脸图像是在真实年龄下的人脸图像。为了多次训练，可以准备一个图像样本集，图像样本集包括若干个人在多个年龄段的人脸图像，每一人脸图像均标注有年龄段。

图像样本集包括多个人在各年龄段的人脸图像，人脸图像为包括人脸的信息的图像。例如，将10-80岁按5岁一段，分为14个年龄段，收集100个人在各年龄段内的人脸图像，即每个年龄段对应的图像均包括这100个人物在相应年龄的人脸图像，例如，对于年龄段[50,55)岁，包括当这100个人分别在[50,55)岁时拍摄的人脸图像。在此实施例中，图像样本集共有100*14＝1400张人脸图像。

每一人脸图像均标注有用于指示该人脸图像中的人脸的真实年龄所在的年龄段，例如，若一人脸图像1#为人物“张三”在38岁时的正脸照，则该人脸图像1#标注的年龄段可以为“[35,40)岁”。

具体实现中，可以从各种公开的人脸数据库中获取若干个人在各年龄段的正脸照，以作为该图像样本集，值得说明的是，同一个人的多个正脸照覆盖各个年龄段，即同一个人的人脸图像的数量至少为年龄段的组数。

每次训练时，从图像样本集中任意选择一人脸图像作为真实人脸图像，将(真实人脸图像，训练人脸图像，预期年龄)作为一组训练数据，对模型进行一次训练。可以理解的是，模型收敛所需的训练次数通常是数百次、数千次等，当完成一次训练后，遍历图像样本集，重新选择一人脸图像作为新的真实人脸图像，以及获取对应的新的训练人脸图像和预期年龄，即(真实人脸图像’，训练人脸图像’，预期年龄’)作为另一组训练数据，对模型进行下一次训练。依次类推，直到遍历完该图像样本集，进行下一轮的训练。可以理解的是，下一轮的训练，可以仍以该图像样本集作为训练数据进行迭代调参训练，还可以以其它另外准备的符合上述描述的图像样本集作为训练数据进行迭代调参训练，直至图像处理模型收敛。

由于在一次训练过程中，对每组训练数据(真实人脸图像，训练人脸图像，预期年龄)的处理过程相同，本申请实施例以一组训练数据的处理过程对图像处理模型的训练过程进行介绍。

在一组训练数据中，真实人脸图像为图像样本集中的一人脸图像，真实人脸图像中的人脸的真实年龄位于其标注的年龄段内，例如，若真实人脸图像为人物“李四”在50岁时的正脸照，则其标注的年龄段可以为[50,55)。

然后，获取人物“李四”在其他年龄段的人脸图像，例如，“李四”在32岁时的照片，作为训练人脸图像。可以理解的是，训练人脸图像和真实人脸图像反映同一个人的人脸，即均为同一个人的包括人脸信息的照片。预期年龄用于指示基于该训练人脸图像，获取在预期年龄时的人物的人脸图像。在训练过程中，预期年龄与训练人脸图像对应的年龄不同，并且，为了使得真实人脸图像作为真实数据对模型进行训练，预期年龄位于真实人脸图像对应的年龄段内，例如，延续上述举例，对于人物“李四”的预期年龄可以为50岁、51岁、52岁、53岁或54岁。可以理解的是，在模型的测试或使用过程中，预期年龄为用户输入的期望年龄。

可以理解的是，在训练阶段，该训练人脸图像可以为本领域技术人员另外准备的人脸图像，例如另外准备一张“李四”在32岁时的照片。在一些实施例中，也可以选择“李四”在其他年龄段的人脸图像作为训练人脸图像，例如，当真实人脸图像为人物“李四”在年龄段[50,55)的人脸图像时，训练人脸图像可以为人物“李四”在年龄段[30,35)的人脸图像。

可以理解的是，获取这三个数据(真实人脸图像，训练人脸图像，预期年龄)无先后关系。在一些实施例中，也可以先获取训练人脸图像和预期年龄，然后根据预期年龄从图像样本集中找出这个人在预期年龄所在年龄段的真实人脸图像。

可以理解的是，当预期年龄大于训练人脸图像对应的年龄时，相当于使用图像处理模型预测衰老人脸图像，当预期年龄小于训练人脸图像对应的年龄时，相当于使用图像处理模型溯源年轻人脸图像。在训练的过程中，可通过选择预期年龄，使得训练得到的图像处理模型具有预测衰老人脸图像的功能和/或溯源年轻人脸图像的功能。

在一些实施例中，对真实人脸图像进行预处理，得到经预处理后的真实人脸图像，以及，对训练人脸图像进行预处理，得到经预处理后的训练人脸图像，其中，经预处理后的真实人脸图像和经预处理后的训练人脸图像的分辨率均为预设分辨率，均为人脸区域图像，且人脸均为正脸。

在训练之前，首先，对真实人脸图像和训练人脸图像分别进行预处理，使得处理后的两图像结构化(每张图像在同一地方显示大致相同的脸部部位，例如眼睛在每张图像中的坐标位置大致相同)，有利于模型收敛。具体地，对真实人脸图像进行预处理，得到经预处理后的真实人脸图像，经预处理后的真实人脸图像的分辨率(即大小)为预设分辨率，经预处理后的真实人脸图像为人脸区域图像，人脸区域图像即为仅包括脸部区域、不包括背景的图像，即经预处理后的真实人脸图像仅包括脸部区域、不包括背景。此外，真实人脸图像中的人脸为正脸。正脸指示脸部无左右偏转，脸部中轴线与图像中轴线大致重合，脸部中轴线与图像中轴线的夹角近似于零度。

同理，对训练人脸图像进行预处理，得到经预处理后的训练人脸图像，经预处理后的训练人脸图像的分辨率也为预设分辨率，即经预处理后的训练人脸图像与经预处理后的真实人脸图像的尺寸大小相同，经预处理后的训练人脸图像也为人脸区域图像，即经预处理后的训练人脸图像仅包括脸部区域、不包括背景。此外，经预处理后的训练人脸图像中的人脸为正脸。

在一些实施例中，预设分辨率可以为1024*1024。在其它实施例中，预设分辨率可由本领域技术人员根据实际情况而设定，在此不做任何限定，使得经预处理后的训练人脸图像和经预处理后的真实人脸图像为结构化的人脸图像即可。

可以理解的是，在以下描述中的真实人脸图像可以为经预处理后的真实人脸图像，在以下描述中的训练人脸图像可以为经预处理后的训练人脸图像，为了方面描述，以下统称为真实人脸图像和训练人脸图像。

S22：采用编码网络对真实人脸图像进行特征编码，得到第一编码，该第一编码反映真实人脸图像在预期年龄下的人脸特征。

该编码网络为神经网络，用于获取表征输入图像的人脸特征的向量，即编码，因此，将图像转化为编码的神经网络称为编码网络。可以理解的是，编码网络主要起到提取特征和降维的作用，使得编码能够表征输入图像(真实人脸图像)的人脸特征。在此实施例中，通过第一编码能够更好地表示真实人脸图像在预期年龄下的人脸特征，有助于后续生成器基于第一编码准确生成预测图像，有助于后续判别器判断预测图像的可信度。由于真实人脸图像为个人在一年龄段的真实人脸图像，在损失函数的作用下，编码网络学习该个人在该年龄段的年龄特征，使得第一编码能够反映该个人在该年龄段具有的年龄特征。其中，年龄特征是指受年龄变化影响的特征，例如皱纹、苹果肌下垂等。应该说明的是，同一真实人脸图像在不同的预期年龄时生成的第一编码不同，进而能够更准确地反应不同年龄段时人脸的特征变化。

在一些实施例中，可以事先对真实人脸图像进行尺寸压缩，例如压缩至256*256大小，然后输入编码网络。

在一些实施例中，具有神经网络结构的编码网络包括输入层、多个隐含层和输出层，其中，输入层为编码网络的第一层，输出层为编码网络的最后一层。其中，输入层可以为卷积层，一隐藏层包括卷积层、池化层和归一化层，输出层可以包括激活函数层或卷积层等。由上述(1)神经网络中的描述可知，卷积层、池化层和归一化层均为神经网络中的常用组件。可以理解的是，在编码网络中，上一层的输出即为下一层的输入，真实人脸图像经过多次空间转换后，逐渐缩小尺寸，直到输出层输出特定大小的第一编码(特定大小的向量)。基于第一编码是通过对真实人脸图像进行特征提取得到的，且真实人脸图像标注的年龄段覆盖预期年龄，从而，第一编码反映真实人脸图像在预期年龄下的人脸特征。

在一些实施例中，编码网络的结构如表1所示，包括1*1的卷积层、具有卷积层、池化层和归一化层的隐藏层，以及，LReLU激活函数层、4*4的卷积层。输出的第一编码的维度为N*512，其中，N为年龄段的组数。例如，当年龄段组数为14时，N＝14，则第一编码为一个14*512维度的向量。可以理解的是，每一年龄段，占N*512的第一编码中的一行向量，即一年龄段对应的编码为一1*512的向量，例如，第一行为[10,15)岁对应的编码，第二行为[15,20)岁对应的编码。在一次训练中，对其中一行做主要调整，当遍历完整个图像样本集后，即各年龄段的人脸图像均得到训练后，N*512的第一编码中的每一行向量均得以调整，每一行向量能够表征图像样本集中对应的年龄段的多个人的年龄特征。由于每组年龄段中的人物相同，则N*512的第一编码中的每一行向量表征相同的多个人物在一年龄段的年龄特征。可以理解的是，编码的一个维度为“512”仅仅是为了示例性说明，还可以为其它维度。为了表述方便，将第一编码的维度描述为N*M，其中，M可由本领域技术人员灵活设置。

可以理解的是，该第一编码即为N*M的向量，其中，“第一”仅为与后续“第二”进行区别，无实质意义。本质上，N*M的向量即为N*M编码。训练完成后，得到训练好的N*M编码，N*M编码中的每一行向量表征相同的多个人物在一年龄段的年龄特征。该N*M编码与训练好的图像处理模型一起存储，即该N*M编码相当于图像处理模型的一部分。当调用训练好的图像处理模型时，可以调用该N*M编码，以帮助确定期望年龄下的编码。

表1

本领域技术人员可以理解的是，表1中各卷积层的配置(例如卷积核大小、数量和步长)可根据实际情况而设置，在此，不再详细说明。可以理解的是，表1中编码网络的结构仅仅为示例性说明，本领域技术人员可以自行设计神经网络，满足将图像通过特征提取获得编码的功能即可。

S23：采用生成式对抗网络对第一编码和训练人脸图像进行特征融合，得到预测人脸图像，预测人脸图像为训练人脸图像融合有第一编码的特征后生成的图像。

生成式对抗网络基于第一编码和训练人脸图像，将第一编码反映的真实人脸图像的年龄特征融合于训练人脸图像中，使得生成的预测人脸图像靠近真实人脸图像。

可以理解的是，生成式对抗网络包括生成器，生成器也是一种神经网络，具有神经网络的结构，即包括多个用于空间变化的层，除输入层和输出层外，其它层可以称为中间层，对于中间层，每一层的输入为下一层的输出，中间层输出的特征图可以成为中间特征图。在预测人脸图像的过程中，可以将至少一个中间特征图与第一编码或第一编码的变形进行融合，融合指将中间特征图与第一编码或第一编码的变形进行线性运算或非线性运算，使得训练人脸图像按第一编码所指示的特征方向进行改变，生成预测人脸图像。例如，预期年龄为70岁，则第一编码反映的真实人脸图像为一个人在[70,85)岁时的图像，该处于[70,85)岁的人的真实人脸图像中包括皱纹，则第一编码表征反映的特征也包括皱纹，训练人脸图像为此人在30岁时的人脸图像，则将表征有皱纹的第一编码融合于训练人脸图像中后，使得训练人脸图像朝向皱纹方向发展，生成此人在70岁的预测人脸图像也包括皱纹。

在此实施例中，当遍历完图像样本集，经过多轮训练后，生成式对抗网络通过将同一个人在各年龄段下的编码与人脸图像进行融合，学习同一个人在不同年龄段的年龄特征差异，使得生成的预测图像符合个体特性。

在一些实施例中，如图2所示，生成器包括依次设置的多个下采样层、多个深度层和多个上采样层。其中，多个下采样层分别用于输出分辨率逐层减小的中间特征图。可以理解的是，该多个下采样层为生成器的一部分层part1，part1中的每一层包括卷积层、池化层和归一化层，part1中的任一层对输入的中间特征图进行下采样操作，得到降低了分辨率的中间特征图。由于这部分层part1的作用是执行下采样操作，因此该部分层part1中的各层可以称为下采样层。通过多个下采样层，实现特征提取，不丢失特征。

之后，再通过生成器的另一部分层part2对最后一个下采样层输出的中间特征图进行特征提取，得到分辨率一致的中间特征图。该部分层part2中的每一层包括卷积层和归一化层，进行特征提取，不改变图像尺寸，加深了生成器的网络深度，使得生成器能够学习到更好的特征信息。由于这部分层part2的作用为提取特征，加深生成器的网络深度，因此该部分层part2中的各层可以称为深度层。通过多个深度层，加深网络深度，有益于学习特征信息。

然后，再通过生成器的另一部分层part3对最后一个深度层输出的中间特征图进行上采样，分别输出分辨率逐层增加的中间特征图。该部分层part3中的每一层包括反向卷积层和归一化层。通过反向卷积层使得part3中每层输出的中间特征图的分辨率逐层增加，实现上采样。由于这部分层part3的作用为上采样，对下采样层和深度层输出的中间特征图进行还原，即还原下采样层和深度层学习到的特征，因此，该部分层part3中的各层可以称为上采样层。通过多个上采样层，还原下采样层和深度层学习到的特征。

在此实施例中，通过多个下采样层、多个深度层和多个上采样层，使得训练人脸图像依次经过特征学习和特征还原，在此过程中融合第一编码，使得训练人脸图像按第一编码所指示的特征进行变化，最终，生成预测图像。

在此实施例中，上述步骤S23具体包括：

S231:将第一编码分别与输入该多个上采样层的中间特征图进行融合。

具体地，如图3所示，在特征还原的过程中，将第一编码分别与输入各上采样层的中间特征图进行融合。即将输入各上采样层的中间特征图与第一编码或第一编码的变形进行线性运算或非线性运算，使得各上采样层输出的中间特征图融合有部分第一编码所指示的特征。可以理解的是，一个中间特征图所反映的特征细度与该中间特征图融合的部分第一编码所指示的特征细度相同。

在一些实施例中，上述步骤S23具体包括：将第一编码分别与输入该多个上采样层的中间特征图和输入至少部分的深度层的中间特征图进行融合。

在此实施例中，如图4所示，在至少部分深度层进行学习和上采样层进行还原时，将第一编码进行融合。每一层的融合过程与上述一致。可以理解的是，基于神经网络设计的灵活性，本领域技术人员可以在多个深度层和多个上采样层中选择至少两个层进行特征融合。

在此实施例中，在特征还原的过程中，将第一编码分别与输入各采样层的中间特征图进行融合，不影响生成式对抗网络对训练人脸图像的特征学习，有益于输出更加准确的预测图像。

在一些实施例中，如图5所示，在上采样层的归一化层中进行特征融合，即归一化层将输入的中间特征图和第一编码进行或第一编码的变形进行线性计算或非线性计算，使得归一化层输出的中间特征图融合有第一编码所指示的特征。可以理解的是，该归一化层实现融合操作，因此，可以将该归一化层称为融合层。即在此实施例中，一个上采样层包括反向卷积层和融合层。

在此实施例中，上述步骤S231具体包括：

S2311:获取用于输入目标层的目标中间特征图的分辨率，目标层为任意一个上采样层中的融合层。

S2312:根据目标中间特征图的分辨率，对第一编码进行线性变换，获得参数矩阵。

S2313:对目标中间特征图进行归一化处理，得到归一化处理后的目标中间特征图。

S2314：对归一化处理后的目标中间特征图和参数矩阵进行线性变换，得到目标层输出的融合有第一编码的中间特征图。

在此，以任意一个上采样层中的融合层(即目标层)为例对融合过程进行说明，首先，获取用于输入目标层的目标中间特征图V，及目标中间特征图V的分辨率，分辨率即尺寸大小。根据目标中间特征图V的分辨率，对第一编码进行线性变化，得到参数矩阵。具体地，采用以下公式对第一编码进行线性变化：

D＝S*A^T+b；

其中，S为第一编码，A^T为变量，b为偏差值，D为参数矩阵。在此，通过对第一编码进行线性变化，使得参数矩阵尺寸维度与目标中间特征图的分辨率相适应。

其次，由上述可知具有融合功能的归一化层被称为融合层。因此，融合层具有归一化功能，对目标中间特征图进行归一化处理，即可以按如下公式进行归一化处理：

其中，V为目标中间特征图，

是V的平均值，σ为V的标准差，y为经过归一化处理后的目标中间特征图。ε是一个非常小的值(默认是1e^-5)，用于防止标准差为0时产生除数为0的异常。

然后，对该经过归一化处理后的目标中间特征图y和参数矩阵D进行线性变化，得到融合有第一编码所指示的特征的中间特征图。

在此实施例中，将归一化处理后的目标中间特征图与第一编码经变形后得到的参数矩阵进行融合，相比于先融合再进行归一化，基于归一化后的目标中间特征图的像素值在0和1之间，能够减少计算量，有益于提高运算速度。

在一些实施例中，步骤S2314具体包括：

A.根据参数矩阵，获取变量矩阵和偏量矩阵；

B.采用以下公式计算目标层输出的融合有第一编码的中间特征：

Y＝(1+D1)*y+D2；

其中，y为所述归一化处理后的目标中间特征，D1为所述变量矩阵，D2为所述偏量矩阵。

可以理解的是，在步骤A中，将参数矩阵D拆分为变量矩阵D1和偏量矩阵D2，使得参数矩阵D能够进行线性变换。在一些实施例中，可以设置参数矩阵D的第一维度与目标中间特征图V的第一维度相同，参数矩阵D的第二维度为目标中间特征图V的第二维度的两倍。例如，若目标中间特征图V的维度为18*18，则参数矩阵D的维度为18*36。

在一些实施例中，将参数矩阵D的前半部分(即前18*18)作为变量矩阵D1，将参数矩阵D的后半部分(即后18*18)作为偏量矩阵，使得变量矩阵D1、偏量矩阵D2和归一化处理后的目标中间特征y的大小一致。

在此实施例中，通过将参数矩阵拆分成变量矩阵和偏量矩阵，然后采用上述公式，以一种简单的方式进行线性融合，便于计算和处理。

可以理解的是，生成式对抗网络还包括判别器，在融合第一编码和真实人脸图像的过程中，判别器计算预测人脸图像的对抗损失，对抗损失用于表征预测人脸图像与训练人脸图像之间的相似程度。

可以理解的是，对抗损失为预测人脸图像是否为训练人脸图像(真实人脸图像)的损失，当对抗损失大时，说明预测人脸图像的分布与训练人脸图像的分布差异较大，当对抗损失小时，说明预测人脸图像的分布与训练人脸图像的分布差异较小、相近。此处，人脸图像的分布是指五官的分布，例如眼距、额头宽度、脸型等。

在一些实施例中，判别器包括4个卷积层，前3个卷积层均分别包括归一化层和LReLU激活函数层，最后一个卷积层包括Sigmoid激活函数层，用于将前面学习到的特征转换为一个评分，该评分用于表示预测人脸图像为第二真实图像的可信度，评分越高，表示预测人脸图像的分布越接近训练人脸图像的分布。

为了计算编码损失，采用所述编码网络对所述预测人脸图像进行特征编码，得到第二编码。

为了对编码网络进行训练，计算编码网络输出的编码损失，采用上述编码网络对预测人脸图像进行特征编码，得到第二编码。具体地，编码网络对预测人脸图像进行特征编码的过程与上述步骤S22中编码网络对真实人脸图像进行编码的过程相同，在此不再一一赘述。

可以理解的是，预测图像与对应的真实人脸图像越接近，则第二编码与第一编码也越相似，编码网络和生成式对抗网络的准确性也越高。

S24：利用损失函数对图像处理模型进行迭代训练，返回步骤S21，直至图像处理模型收敛，其中，损失函数用于表征第一编码和第二编码之间的编码损失、真实人脸图像和预测人脸图像之间的特征损失和对抗损失。

可以理解的是，第二编码为采用编码网络对预测人脸图像进行特征编码获得的编码，对抗损失为生成式对抗网络计算得到的损失。

上述步骤S21-S24是训练设备针对图像样本集中一人脸图像的训练过程，在获得预测人脸图像和第二编码后，训练设备会进一步利用损失函数计算损失，然后根据损失，调整图像处理模型的参数(包括编码网络的参数和生成式对抗网络的参数)，然后返回步骤S21，重复步骤S21-S24，进行迭代训练，直至图像处理模型收敛。模型收敛条件可以为损失小于预设值，或在预设范围内波动，或训练次数达到预设次数。

其中，基于损失函数用于表征第一编码和第二编码之间的编码损失、真实人脸图像和预测人脸图像之间的特征损失和对抗损失，从而，采用该损失函数计算得到的损失包括编码损失、特征损失和对抗损失。

可以理解的是，在编码损失的作用下，多次训练过程中的反向传播使得编码网络能够学习预期年龄下真实人脸图像的年龄特征，即基于预期年龄的特征。由于图像样本集包括多个人在各年龄段的人脸图像，从而，经过多轮训练后，编码网络能够学习同一个人在多个年龄段对应的年龄特征，以及一个年龄段、不同人物的年龄特征，使得编码网络能够输出反映各人物在多个年龄段对应的年龄特征的N*M编码。该N*M编码与训练好的图像处理模型一起存储，即该N*M编码相当于图像处理模型的一部分。当调用训练好的图像处理模型时，可以调用该N*M编码，以帮助确定期望年龄下的编码。

在特征损失的作用下，多次训练过程中的反向传播使得生成式对抗网络中的生成器生成的预测图像与对应的真实人脸图像的特征相似，例如五官特征相似，从而，能够更加精细化地控制预测图像相对于真实人脸图像除年龄特征外的还原度，例如五官特征的还原度，即使得预测人脸图像和真实人脸图像能够反映同一人物身份，预测人脸图像不失真，仅改变年龄特征(受年龄变化影响的特征)，即使得生成器能够更好地学习年龄特征，增加模型准确性。。

在对抗损失的作用下，多次训练过程中的反向传播使得生成式对抗网络中的生成器生成的预测图像与训练人脸图像的分布相似。从而，使得抗式生成网络能够准确地融合训练人脸图像和第一编码。此外，基于图像样本集包括多个人在各年龄段的人脸图像，使得生成式对抗网络能够学习同一个人在不同年龄段的特征差异，输出准确的预测图像。

因此，在本申请实施例中，在经历多轮训练后，编码网络能够学习多个人在多个年龄段的年龄特征，并将各年龄段对应的年龄特征以编码形式进行表征，即每个年龄段的编码由编码网络学习多个人的年龄特征得到；生成式对抗网络通过将同一个人在各年龄段下的编码与人脸图像进行融合，学习同一个人在不同年龄段的年龄特征差异，使得生成的预测图像符合个体特性。此外，损失函数表征第一编码和第二编码之间的编码损失、真实人脸图像和预测人脸图像之间的特征损失和对抗损失，其中，真实人脸图像和预测人脸图像之间的特征损失使得生成式对抗网络中的生成器能够控制脸部特征的还原度，即使得预测人脸图像和真实人脸图像能够反映同一人物身份，预测人脸图像不失真，仅改变年龄特征(受年龄变化影响的特征)，即使得生成器能够更好地学习年龄特征，增加模型准确性。

在一些实施例中，在步骤S24之前还包括：

步骤S31：采用人脸关键点算法，分别获取真实人脸图像的五官区域和预测人脸图像的五官区域。

步骤S32：根据真实人脸图像的五官区域与预测人脸图像的五官区域之间的差异，确定真实人脸图像和预测人脸图像之间的特征损失。

在此实施例中，真实人脸图像和预测人脸图像之间的特征损失主要包括五官特征差异。即通过真实人脸图像和预测人脸图像之间的五官特征差异，进行反向传播，使得生成器更够更好地学习真实人脸图像的五官特征，从而，使得预测人脸图像的五官特征无限逼近于真实人脸图像的五官特征。

具体地，根据人脸关键点算法可以定位出人脸面部的若干个关键点，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等区域的点。从而，根据这些关键点，确定五官区域。五官区域包括眼睛区域、眉毛区域、鼻子区域、嘴巴区域和耳朵区域。从而，采用人脸关键点算法分别对真实人脸图像和预测人脸图像进行关键点计算，根据真实人脸图像的关键点获取其五官区域，根据预测人脸图像的关键点获取其五官区域。

其中，人脸关键点算法可以为active appearance models(AAMs)、constrainedlocal models(CLMs)、explicit shape regression(ESR)或supervised descent method(SDM)等。

在获得到两者的五官区域后，根据两者的五官区域之间的差异，确定两者之间的特征损失。

在此实施例中，通过真实人脸图像和预测人脸图像之间的五官特征差异，进行反向传播，使得生成器更够更好地学习真实人脸图像的五官特征，从而，使得预测人脸图像的五官特征无限逼近于真实人脸图像的五官特征。因此，能够使得训练后的模型仅按年龄进行特征变化，即仅改变年龄特征，不会影响模型对年龄特征的学习，还能控制五官还原度。

在一些实施例中，步骤S32具体包括：

L_res＝||G(x,s(Y_s,T))*mask_G-Y_s*masK_Y||₁

通过设置预测人脸图像中像素点的标签masK_G和真实人脸图像中像素点的标签，能够有效区分五官区域和非五官区域，使得计算简化。

在此实施例中，前述损失函数为：

其中，L_style为编码损失，L_Ads为对抗损失，L_res为特征损失，σ_style为所述编码损失的权重，σ_Ads为所述对抗损失的权重，σ_res为所述特征损失的权重，S(Y_s,T)为第一编码，S(G(x,S(Y_s,T)),T)为第二编码，E表示分布函数的期望值，D(x)表示对于所述训练人脸图像判别为真假的概率，D(G(x,S(Y_s,T)))为对于所述预测人脸图像判别为真假的概率。

可知，损失函数为编码损失、特征损失和对抗损失的加权和。在编码损失的作用下，通过最小化编码损失

多次训练过程中的反向传播使得编码网络能够学习预期年龄下真实人脸图像的年龄特征；在特征损失的作用下，通过最小化特征损失

多次训练过程中的反向传播使得生成式对抗网络中的生成器生成的预测图像与对应的真实人脸图像的特征相似，例如五官特征相似，从而，能够更加精细化地控制预测图像相对于真实人脸图像除年龄特征外的还原度；在对抗损失的作用下，通过最大化概率max，多次训练过程中的反向传播使得生成式对抗网络D

中的生成器生成的预测图像与训练人脸图像的分布相似。从而，使得抗式生成网络能够准确地融合训练人脸图像和第一编码。

在一些实施例中，对真实人脸图像进行预处理，具体包括：

采用人脸关键点算法，获取真实人脸图像中左右眼球的中心坐标；

计算真实人脸图像中左右眼球的中心坐标连线与水平方向的夹角；

以真实人脸图像中左右眼眼球的中心坐标为基点，将真实人脸图像按上述夹角进行旋转；

截取旋转后的真实人脸图像中的人脸区域，并调整大小至预设分辨率，得到经预处理后的真实人脸图像。

根据人脸关键点算法定为出真实人脸图像中人脸面部的若干个关键点，包括眉毛、眼睛、鼻子、嘴巴和脸部轮廓等区域的点。从而，从这些关键点中，可以获取真实人脸图像中左右眼球的中心坐标，计算左右眼球的中心坐标连线与水平方向的夹角θ。

可以理解的是，该夹角θ即为人脸偏离正脸的角度，为了将真实人脸图像中的人脸调整为正脸，以真实人脸图像中左右眼眼球的中心坐标为基点，将真实人脸图像按上述夹角θ进行旋转，以得到正脸。

具体地，可以采用下述公式计算旋转后的真实人脸图像：

其中，(x,y)分别为旋转前真实人脸图像中像素点的二维坐标，(x’,y’)分别为旋转后真实人脸图像中像素点的二维坐标。

基于旋转后的真实人脸图像中的人脸为正脸，截取旋转后的真实人脸图像中的人脸区域，并调整大小至预设分辨率，得到经预处理后的真实人脸图像。从而，使得经预处理后的真实人脸图像的大小为该预设分辨率，并且经预处理后的真实人脸图像中仅包括正脸，不包括其他背景像素。

采用相同的预处理方式对训练人脸图像进行处理，具体如下：

采用人脸关键点算法，获取训练人脸图像中左右眼球的中心坐标；

计算训练人脸图像中左右眼球的中心坐标连线与水平方向的夹角；

以训练人脸图像中左右眼眼球的中心坐标为基点，将训练人脸图像按上述夹角进行旋转；

截取旋转后的训练人脸图像中的人脸区域，并调整大小至预设分辨率，得到经预处理后的训练人脸图像。

根据人脸关键点算法定为出训练人脸图像中人脸面部的若干个关键点，包括眉毛、眼睛、鼻子、嘴巴和脸部轮廓等区域的点。从而，从这些关键点中，可以获取训练人脸图像中左右眼球的中心坐标，计算左右眼球的中心坐标连线与水平方向的夹角α。

可以理解的是，该夹角α即为人脸偏离正脸的角度，为了将训练人脸图像中的人脸调整为正脸，以训练人脸图像中左右眼眼球的中心坐标为基点，将训练人脸图像按上述夹角α进行旋转，以得到正脸。

具体地，可以采用下述公式计算旋转后的训练人脸图像：

其中，(w,z)分别为旋转前训练人脸图像中像素点的二维坐标，(w’,z’)分别为旋转后训练人脸图像中像素点的二维坐标。

基于旋转后的训练人脸图像中的人脸为正脸，截取旋转后的训练人脸图像中的人脸区域，并调整大小至预设分辨率，得到经预处理后的训练人脸图像。从而，使得经预处理后的训练人脸图像的大小为该预设分辨率，并且经预处理后的训练人脸图像中仅包括正脸，不包括其他背景像素。

在此实施例中，通过上述预处理方式，将经预处理后的训练人脸图像和经预处理后的真实人脸图像的五官位置对齐，有利于模型更好地学习特征，能够帮助模型更好地收敛。

在通过本申请提供的图像处理模型的训练方法训练得到图像处理模型后，可利用该图像处理模型进行图像处理。参见图6，图6为本申请实施例提供的图像处理方法的流程示意图，如图6所示，该方法包括如下步骤：

S41：获取待处理人脸图像和预期年龄。

待处理人脸图像可以为一个人在某个年龄的证件照，预期年龄不同于该年龄。

在一些实施例中，可对待处理人脸图像进行预处理，得到经预处理后的待处理人脸图像，经预处理后的待处理人脸图像为人脸区域图像，经预处理后的待处理人脸图像的分辨率为预设分辨率，且经预处理后的待处理人脸图像中的人脸为正脸。

在输入模型前，对待处理人脸图像进行预处理，使得经预处理后的待处理人脸图像结构化(每张图像在同一地方显示大致相同的脸部部位，例如眼睛在每张图像中的坐位位置大致相同)，以防止待处理人脸图像中的背景区域干扰图像处理模型以及脸部特征位置杂乱干扰图像处理模型。

具体地，对待处理人脸图像进行预处理得到经预处理后的待处理人脸图像，经预处理后的待处理人脸图像为人脸区域图像，即仅包括人脸区域，不包括其它背景区域等。经预处理后的待处理人脸图像的分辨率为预设分辨率，该预设分辨率与前述经预处理后的真实人脸图像和经预处理后的训练人脸图像的预设分辨率一致。此外，经预处理后的待处理人脸图像中的人脸为正脸。值得说明的是，该预处理方式与训练过程中预处理方式相同。可以理解的是，下述描述中的待处理人脸图像也可以为进行预处理后的待处理人脸图像，为了方便描述，统称为待处理人脸图像。

S42：将待处理人脸图像和预期年龄输入至图像处理模型，输出年龄变化图像，年龄变化图像反映的人物的年龄与预期年龄相适应。

该步骤中的图像处理模型是指通过前述图1-图5的方法实施例训练得到的图像处理模型，存储该图像处理模型，当测试或应用时，进行调用。如前述所述，图像处理模型包括编码网络和生成式对抗网络，训练好的图像处理模型包括由编码网络学习到的N*M编码，以及，训练好的生成式对抗网络。其中，N*M编码中的每一行向量表征相同的多个人物在一年龄段的年龄特征。

因此，调用训练好的图像处理模型，将预期年龄输入图像处理模型，图像处理模型会根据该预期年龄在N*M编码查找出与该预期年龄对应的编码(即为N*M编码的某一行)，该编码反映预期年龄下的年龄特征，然后，将编码和待处理人脸图像输入训练好的生成式对抗网络，生成式对抗网络将编码和待处理人脸图像融合，使得待处理人脸图像根据编码所反映的年龄特征进行相应的变化，生成年龄变化图像。该年龄变化图像反映的人物的年龄与预期年龄相适应。其中，具体将编码和待处理人脸图像进行融合的方式可参考前述训练方法实施例中将第一编码和训练人脸图像进行融合的方式进行，此处不再赘述。

基于上述描述可知，在图6对应的技术方案中，将训练得到的图像处理模型和多个年龄段对应的编码进行存储，当进行测试或应用时，调用该图像处理模型和多个年龄段对应的编码，根据输入的预期年龄确定对应的编码，在将预期年龄对应的编码与待处理人脸图像进行融合，使得待处理人脸图像按预期年龄对应的编码进行年龄特征变化，生成年龄变化图像，使得年龄变化图像中年龄特征变化符合个体特性，即图像处理模型能够更加准确地预测衰老图像或溯源年轻图像。

参见图7，图7是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备50包括处理器501、存储器502。处理器501连接到存储器502，例如处理器501可以通过总线连接到存储器502。

处理器501被配置为支持该计算机设备50执行图1-图5的方法或图6的方法中相应的功能。该处理器501可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器502用于存储程序代码等。存储器502可以包括易失性存储器(volatilememory，VM)，例如随机存取存储器(random access memory，RAM)；存储器1002也可以包括非易失性存储器(non-volatile memory，NVM)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-statedrive，SSD)；存储器502还可以包括上述种类的存储器的组合。

在一些可能的情况中，处理器501可以调用所述程序代码以执行以下操作：

采用生成式对抗网络对第一编码和训练人脸图像进行特征融合，得到预测人脸图像，预测人脸图像为训练人脸图像融合有所述第一编码的特征后生成的图像；

利用损失函数对图像处理模型进行迭代训练，返回获取真实人脸图像、训练人脸图像和与训练人脸图像对应的预期年龄的步骤，直至图像处理模型收敛，其中，损失函数用于表征第一编码和第二编码之间的编码损失、真实人脸图像和预测人脸图像之间的特征损失和对抗损失，第二编码为采用编码网络对预测人脸图像进行特征编码获得的编码，对抗损失为生成式对抗网络计算得到的损失。

在另一些可能的情况中，处理器501可以调用程序代码以执行以下操作：

获取待处理人脸图像和预期年龄。

将待处理人脸图像和预期年龄输入至图像处理模型，输出年龄变化图像，年龄变化图像反映的人物的年龄与预期年龄相适应。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种图像处理模型的训练方法，其特征在于，所述图像处理模型包括编码网络和生成式对抗网络，所述方法包括：

获取真实人脸图像、训练人脸图像和与所述训练人脸图像对应的预期年龄，所述训练人脸图像与所述真实人脸图像反映同一人的人脸，所述真实人脸图像标注有年龄段，所述预期年龄位于所述真实人脸图像标注的年龄段内，所述预期年龄与所述训练人脸图像对应的年龄不同；

采用所述编码网络对所述真实人脸图像进行特征编码，得到第一编码，所述第一编码反映所述真实人脸图像在所述预期年龄下的人脸特征；

采用生成式对抗网络对所述第一编码和所述训练人脸图像进行特征融合，得到预测人脸图像，所述预测人脸图像为所述训练人脸图像融合有所述第一编码的特征后生成的图像；

利用损失函数对所述图像处理模型进行迭代训练，返回所述获取真实人脸图像、训练人脸图像和与所述训练人脸图像对应的预期年龄的步骤，直至所述图像处理模型收敛，其中，所述损失函数用于表征所述第一编码和第二编码之间的编码损失、所述真实人脸图像和所述预测人脸图像之间的特征损失和对抗损失，所述第二编码为采用所述编码网络对所述预测人脸图像进行特征编码获得的编码，所述对抗损失为所述生成式对抗网络计算得到的损失。

2.根据权利要求1所述的方法，其特征在于，所述生成式对抗网络包括生成器，所述生成器包括依次设置的多个下采样层、多个深度层和多个上采样层；

其中，所述多个下采样层分别用于输出分辨率逐层减小的中间特征图，所述多个深度层分别用于输出分辨率一致的中间特征图，所述多个上采样层分别用于输出分辨率逐层增加的中间特征图；

所述采用生成式对抗网络中的生成器对所述第一编码和所述训练人脸图像进行特征融合，得到预测人脸图像，包括：

将所述第一编码分别与输入所述多个上采样层的中间特征图进行融合。

3.根据权利要求2所述的方法，其特征在于，一个所述上采样层包括反向卷积层和融合层；

所述将所述第一编码分别与输入所述多个上采样层的中间特征图进行融合的步骤，包括：

根据所述目标中间特征图的分辨率，对所述第一编码进行线性变换，获得参数矩阵；

对所述目标中间特征图进行归一化处理，得到归一化处理后的目标中间特征图；

对所述归一化处理后的目标中间特征图和所述参数矩阵进行线性变换，得到所述目标层输出的融合有所述第一编码的中间特征图。

4.根据权利要求3所述的方法，其特征在于，

所述对所述归一化处理后的目标中间特征和所述参数矩阵进行线性变换，得到所述目标层输出的融合有所述第一编码的中间特征，包括：

根据所述参数矩阵，获取变量矩阵和偏量矩阵；

采用以下公式计算所述目标层输出的融合有所述第一编码的中间特征：

Y＝(1+D1)*y+D2；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述损失函数为：

其中，L_style为所述编码损失，L_Ads为所述对抗损失，L_res为所述特征损失，σ_style为所述编码损失的权重，σ_Ads为所述对抗损失的权重，σ_res为所述特征损失的权重，x为所述训练人脸图像，T为所述预期年龄所在的年龄段，S(Y_s,T)为第一编码，S(G(x,S(Y_s,T)),T)为第二编码，E表示分布函数的期望值，D(x)表示对于所述训练人脸图像判别为真假的概率，D(G(x,S(Y_s,T)))为对于所述预测人脸图像判别为真假的概率，G(x,S(Y_s,T))为所述预测人脸图像，Y_s为所述真实人脸图像；masK_G为所述预测人脸图像中像素点的标签，当所述预测人脸图像中一像素点位于五官区域内时，对应的masK_G为1，否则为0；masK_Y为所述真实人脸图像中像素点的标签，当所述真实人脸图像中一像素点位于五官区域内时，对应的masK_Y为1，否则为0。

6.根据权利要求1所述的方法，其特征在于，在所述利用损失函数对所述图像处理模型进行迭代训练的步骤之前，还包括：

采用人脸关键点算法，分别获取所述真实人脸图像的五官区域和所述预测人脸图像的五官区域；

根据所述真实人脸图像的五官区域与所述预测人脸图像的五官区域之间的差异，确定所述真实人脸图像和所述预测人脸图像之间的特征损失。

7.根据权利要求6所述的方法，其特征在于，所述根据所述真实人脸图像的五官区域与所述预测人脸图像的五官区域之间的差异，确定所述真实人脸图像和所述预测人脸图像之间的特征损失的步骤，包括：

采用以下公式计算所述真实人脸图像和所述预测人脸图像之间的特征损失：

L_res＝||G(x,s(Y_s,T))*mask_G-Y_s*masK_Y||₁

其中，x为所述训练人脸图像，T为所述预期年龄所在的年龄段，S(Y_s,T)为所述第一编码，G(x,S(Y_s,T))为所述预测人脸图像，Y_s为所述真实人脸图像；masK_G为所述预测人脸图像中像素点的标签，当所述预测人脸图像中一像素点位于五官区域内时，对应的masK_G为1，否则为0；masK_Y为所述真实人脸图像中像素点的标签，当所述真实人脸图像中一像素点位于五官区域内时，对应的masK_Y为1，否则为0。

8.根据权利要求1所述的方法，其特征在于，在所述采用所述编码网络对所述真实人脸图像进行特征编码，得到第一编码的步骤之前，所述方法还包括：

对所述真实人脸图像和所述训练人脸图像分别进行预处理，使得经所述预处理后的真实人脸图像和经所述预处理后的训练人脸图像的分辨率均为预设分辨率，经所述预处理后的真实人脸图像和经所述预处理后的训练人脸图像均为人脸区域图像且人脸均为正脸。

9.一种图像处理方法，其特征在于，包括：

获取待处理人脸图像和预期年龄；

将所述待处理人脸图像和所述预期年龄输入采用利用如权利要求1-8任一项所述的方法训练得到的图像处理模型，输出年龄变化图像，所述年龄变化图像反映的人物的年龄与所述预期年龄相适应。

10.一种计算机设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机设备执行如权利要求1-9任一项所述的方法。