CN112766143A

CN112766143A - 一种基于多情绪的人脸老化处理方法和系统

Info

Publication number: CN112766143A
Application number: CN202110054794.XA
Authority: CN
Inventors: 李肯立; 段明星; 方森; 廖清; 李克勤
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-07
Anticipated expiration: 2041-01-15
Also published as: CN112766143B

Abstract

本发明公开了一种基于多情绪的人脸老化处理方法，包括：获取一张原始图片和一张与该原始图片对应的目标图片；将获取的原始图片和目标图片分别输入训练好的第一网络模型的编码器E_e和E_I中，以分别得到原始图片的关键特征和目标图片的关键特征；将获得的原始图片的关键特征、以及目标图片的关键特征输入训练好的第一生成网络的生成器G_E中，以获得一张彩色图片；将彩色图片输入训练好的第二网络模型的生成器G_A，以得到老化处理后的彩色图片；本发明利用多重损失保证CD‑Net在不丢失其它信息的情况下学习真实的图像，可以生成不同的情绪下逼真的面部衰老图像，并且这些情绪特征是特定的，不是随机的。

Description

一种基于多情绪的人脸老化处理方法和系统

技术领域

本发明属于图像处理领域，更具体地，涉及一种基于多情绪的人脸老化处理方法和系统。

背景技术

现有的人脸老化处理技术主要包括两个过程，即构建大规模人脸老化数据集、以及构建新颖的深度学习框架。其中构建大规模人脸老化数据集需要采集各个年龄段的人脸图像，而构建新颖的深度学习框架需要通过构建网络模型，并对网络模型进行深度训练。

然而，现有的人脸老化处理技术，仍然存在一些不可忽略的缺陷：

第一、当前人脸老化算法都是基于单一人脸情绪下进行的，而实际上不同情绪下的人脸老化结果不相同，这导致当前人脸老化算法性能较差，难以在现有基础进一步提升；

第二、当前人脸不同情绪下的人脸数据集几乎没有，同时标注这样的大规模数据集需要巨大人力和物力支持，而且还要收集相同人脸图像不同时期的图像，耗时较长；

第三、当前大多数人脸老化处理过程都是系统随机老化到某一年龄，难以在指定的老化区间上进行老化处理。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于多情绪的人脸老化处理方法和系统，其目的在于，解决现有人脸老化处理方法人脸老化算法性能较差的技术问题，标注大规模数据集需要巨大人力和物力支持、且收集相同人脸图像不同时期的图像耗时较长的技术问题，以及难以在指定的老化区间上进行老化处理的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于多情绪的人脸老化处理方法，包括以下步骤：

(1)获取一张原始图片和一张与该原始图片对应的目标图片；

(2)将步骤(1)获取的原始图片和目标图片分别输入训练好的第一网络模型的编码器E_e和E_I中，以分别得到原始图片的关键特征和目标图片的关键特征；

(3)将步骤(2)获得的原始图片的关键特征、以及目标图片的关键特征输入训练好的第一生成网络的生成器G_E中，以获得一张彩色图片；

(4)将步骤(3)得到的彩色图片输入训练好的第二网络模型的生成器G_A，以得到老化处理后的彩色图片。

优选地，编码器E_e和E_I都采用VGG-16网络结构，且只保留第一个全连接层；

第一网络模型中的生成器G_E包括卷积模块层、以及编码和解码模型；

卷积模块层是由上采样层、卷积层、激活函数按前后串联形成，其中，上采样步长为2，输出大小128*128*1，卷积核尺寸为1*1，卷积步长为1，激活函数采用ReLU，输出大小为128*128*3；

编码和解码模型的结构如下：

第一层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成 (如图3)，输入大小为128*128*3。其中，卷积核大小为1*1，步长为2，输出大小为64*64*64，正则化操作的local_size是5，alpha值是0.0001， beta值是0.75，激活函数采用ReLU。

第二层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，输入大小为64*64*64。其中，卷积核大小为1*1，步长为2，输出大小为 32*32*128，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第三层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，输入大小为32*32*128。其中，卷积核大小为1*1，步长为2，输出大小为 16*16*256，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第四层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，输入大小为16*16*256。其中，卷积核大小为1*1，步长为2，输出大小为 8*8*512，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第五层是上卷积模块层，由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为8*8*512。其中，上采样步长为2，输出大小16*16*256，卷积核尺寸为1*1，卷积步长为1，正则化操作的local_size 是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU，输出大小为 16*16*256。

第六层是上卷积模块层，由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为16*16*256。其中，上采样步长为2，输出大小32*32*128，卷积核尺寸为1*1，卷积步长为1，正则化操作的 local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU，输出大小为32*32*128。

第七层是上卷积模块层，由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为32*32*128。其中，上采样步长为2，输出大小64*64*64，卷积核尺寸为1*1，卷积步长为1，正则化操作的local_size 是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU，输出大小为 64*64*64。

第八层是上卷积模块层，由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为64*64*64。其中，上采样步长为2，输出大小128*128*32，卷积核尺寸为1*1，卷积步长为1，正则化操作的 local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU，输出大小为128*128*32。

第九层是卷积模块层，由卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为128*128*32，其中，卷积核尺寸为1*1，卷积步长为1，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU，输出大小为128*128*3。

优选地，第一网络模型中判别器D_E的结构为：

第一层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，输入大小为128*128*3。其中，卷积核大小为1*1，步长为2，输出大小为 64*64*64，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第五层是第一个全连接层，对第四层输出进行全连接操作，输出为 1*4096。

第六层是第二个全连接层，对第四层输出进行全连接操作，输出为 1*1024。

第七层是第三个全连接层，对第四层输出进行全连接操作，输出为 1*512，最后采用softmax函数进行预测，进而判别图片的真伪。

优选地，第一网络模型中第一情绪分类器的结构如下：

第一层是卷积模块层，其是由卷积层、池化层、正则化操作以及激活函数组成，且每个输入标签大小为128*128*3，其中，卷积核大小为1*1，步长为2，池化层采用最大池化操作，步长为2，输出大小未32*32*64，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU；

第二层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，且每个输入标签大小为32*32*64，其中，卷积核大小为1*1，步长为2，输出大小未16*16*256，正则化操作的local_size是5，alpha值是0.0001，beta 值是0.75，激活函数采用ReLU；

第三层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，且每个输入标签大小为16*16*256，其中，卷积核大小为1*1，步长为2，输出大小未8*8*512，正则化操作的local_size是5，alpha值是0.0001，beta 值是0.75，激活函数采用ReLU。

第四层是第一个全连接层，将第三层输出进行全连接操作，输出为 1*1024。

第五层是第二个全连接层，将第四层输出进行全连接操作，输出为1*512。

第六层是第三个全连接层，对第五层的输出进行全连接操作，输出大小为1*256的输出样本。最后采用softmax函数进行预测，得到相应的结果。

优选地，步骤(3)具体为，首先将步骤(2)得到的两个1*4096的关键特征分别变为大小为64*64*1的特征图e(j)和I(i)，然后将两个特征图连接起来，变为大小为64*64*2的特征图，随后将其输入生成器G_E中的卷积模块层，对该特征图执行上卷积操作，并获得大小为128*128*3特征图，最后，将该特征图先后输入生成器G_E的编码和解码模型，最终获得大小为 128*128*3的彩色图片。

优选地，第一网络模型和第二网络模型是共同训练获得，其具体训练过程为：

(1-1)从原始数据集(X_O(1),X_O(2),...,X_O(N))和情绪数据集(X_E(1), X_E(2),...,X_E(N))中分别任意选择一张图片X_O(i)和X_E(j)，将图片X_O(i)和X_E(j) 分别输入到第一网络模型的编码器E_e和E_I，以得到两个大小为1*4096的特征向量I(i)和e(j)，对这两个特征向量进行调整，以得到一个大小为64*64*1 的中间特征图，将该中间特征图输入生成器G_E，以得到大小为128*128*3 的彩色图片所组成的集合(X_G(1),X_G(2),...,X_G(N))，其中N表示原始数据集或情绪数据集中的图片总数，且i和j均∈[1，N]。

(1-2)将步骤(1-1)得到的集合(X_G(1),X_G(2),...,X_G(N))中的每张彩色图片输入判别器D_E中，以得到所有彩色图片对应的第一识别结果(y_G(1), y_G(2),...,y_G(N)),根据所有彩色图片对应的第一识别结果(y_G(1),y_G(2),..., y_G(N))获取判别器的损失和生成器的损失；

其中判别器的损失等于：

其中X_O(i)表示原始数据集X_O(1),X_O(2),...,X_O(N)中的第i个数据，y_G(i) 表示第一识别结果y_G(1),y_G(2),...,y_G(N)中的第i个数据。

生成器的损失等于：

(1-3)将步骤(1-1)得到的集合(X_G(1),X_G(2),...,X_G(N))中的每张彩色图片输入第一情绪分类器中，以得到所有彩色图片对应的第二识别结果y_E(1),y_E(2),...,y_E(N)，根据该第二识别结果y_E(1),y_E(2),...,y_E(N)与真实的情绪标签y_E(1)’,y_E(2)’,...,y_E(N)’)获取情绪分类损失；

其中情绪分类损失为：

(1-4)将步骤(1-1)得到的集合(X_G(1),X_G(2),...,X_G(N))中的每张彩色图片分别输入编码器E_e’和E_I’中，以分别得到编码结果(y_Ee(1),y_Ee(2),..., y_Ee(N))和(y_EI(1),y_EI(2),...,y_EI(N))，根据编码结果(y_Ee(1),y_Ee(2),...,y_Ee(N))与特征图(y_Ee(1)’,y_Ee(2)’,...,y_Ee(N)’)获取编码器E_e’的损失，并根据编码结果 (y_EI(1),y_EI(2),...,y_EI(N))与特征图(y_EI(1)’,y_EI(2)’,...,y_EI(N)’)获取编码器E_I’的损失；

其中编码器E_e’的损失等于：

编码器E_I’的损失等于：

(1-5)根据步骤(1-2)得到的判别器的损失和生成器的损失、步骤(1-3) 得到的情绪分类损失、以及步骤(1-4)得到的编码器E_e’和编码器E_I’的损失，对第一网络模型进行迭代训练，直到第一网络模型的训练目标优化函数收敛为止；

(1-6)先后将步骤(1-1)得到的集合(X_G(1),X_G(2),...,X_G(N))输入到第二网络模型的生成器G_A中，以得到目标图片集合(XG_A(1),XG_A(2),..., XG_A(N))；

(1-7)将步骤(1-6)得到的目标图片集合(XG_A(1),XG_A(2),...,XG_A(N)) 中的每一张目标图片输入第二网络模型的判别器D_A中，以得到所有彩色图片对应的第三识别结果y_GA(1),y_GA(2),...,y_GA(N)，根据所有彩色图片对应的第三识别结果y_GA(1),y_GA(2),...,y_GA(N)获取判别器D_A的损失和生成器G_A的损失；

其中判别器的损失为：

生成器的损失为：

(1-8)将步骤(1-6)得到的目标图片集合(XG_A(1),XG_A(2),...,XG_A(N)) 中的每一张目标图片输入VGG-16模型中，以得到所有目标图片对应的年龄识别结果y_Age(1),y_Age(2),...,y_Age(N),根据年龄识别结果y_Age(1),y_Age(2),..., y_Age(N)和目标老化年龄标签y_Age(1)’,y_Age(2)’,...,y_Age(N)’获取年龄分类损失；

其中年龄分类损失为：

(1-9)将步骤(1-6)得到的目标图片集合(XG_A(1),XG_A(2),...,XG_A(N)) 中的每一张目标图片输入到第二情绪分类器中，以得到所有目标图片对应的情绪识别结果y_EA(1),y_EA(2),...,y_EA(N)，根据情绪识别结果y_EA(1), y_EA(2),...,y_EA(N)和真实的情绪标签y_EA(1)’,y_EA(2)’,...,y_EA(N)’获取情绪分类损失；

其中情绪分类损失为：

(1-10)根据步骤(1-7)得到的判别器D_A的损失和生成器G_A的损失、步骤(1-8)得到的年龄分类损失、以及步骤(1-9)得到的情绪分类损失对第二网络模型进行迭代训练，直到该第二网络模型的训练目标优化函数收敛为止。

(1-11)重复上述步骤(1-1)至(1-10)，直至迭代次数达到最大设定迭代次数、或者待测试人工智能模型的预测误差大于0.5、或者替代模型的损失函数大于0.5为止，从而得到训练好的第一网络模型和第二网络模型。

优选地，第一网络模型的训练目标优化函数为：

(a)判别器的优化函数：

L_D(E)＝L_adv(D_E)

(b)生成器的优化函数：

其中，

判别器和生成器交替训练直至模型收敛。

优选地，第二网络模型的训练优化函数为：

(c)判别器的优化函数：

(d)生成器的优化函数：

其中，

判别器和生成器交替训练直至模型收敛。

按照本发明的另一方面，提供了一种基于多情绪的人脸老化处理系统，包括：

第一模块，用于获取一张原始图片和一张与该原始图片对应的目标图片；

第二模块，用于将第一模块获取的原始图片和目标图片分别输入训练好的第一网络模型的编码器E_e和E_I中，以分别得到原始图片的关键特征和目标图片的关键特征；

第三模块，用于将第二模块获得的原始图片的关键特征、以及目标图片的关键特征输入训练好的第一生成网络的生成器G_E中，以获得一张彩色图片；

第四模块，用于将第三模块得到的彩色图片输入训练好的第二网络模型的生成器G_A，以得到老化处理后的彩色图片。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明先进行不同情绪学习，然后基于不同情绪特征得到相应人脸老化结果，因此能够解决现有人脸老化算法由于是基于单一人脸情绪导致性能较差的技术问题。

(2)由于本发明采用了步骤(1-5)和步骤(1-10)，确保原始单一情绪人脸老化数据集学习到逼真情绪特征，且保持人脸图像原有特性，因此能够生成大规模不同情绪人脸老化数据集，并节省收集和标注数据集所需要的大量开销。

(3)由于本发明采用了步骤(1-6)、步骤(1-7)以及步骤(1-8)，能让任意一张图片老化到指定年龄区间上，这能极大满足现实应用需求。

(4)由于本发明采用了第一网络模型和第二网络模型进行端到端的训练，这样确保整个系统更快训练和收敛，从而更高效地生成老化图片。

(5)由于本发明采用的网络结构简单，因此该模型能方便部署，且运行耗时较短，较好用于现实中一些黑盒模型鲁棒性测试。

附图说明

图1是本发明基于多情绪的人脸老化处理方法的整体系统架构图；

图2是本发明第一网络模型中生成器G_E所包括的卷积模块层的架构图；

图3是本发明第一网络模型中生成器G_E所包括的编码和解码模型的架构图；

图4是本发明图3的编码和解码模型中上卷积模块层的架构图；

图5是本发明第一网络模型中第一情绪分类器的卷积模块层的示意图；

图6是本发明提供的跨领域面部情绪学习的示例图；

图7是本发明提供的不同情绪下的一些老化示例图；

图8是本发明基于多情绪的人脸老化处理方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1和图8所示，本发明提供了一种基于多情绪的人脸老化处理方法，包括以下步骤：

(1)获取一张原始图片和一张与该原始图片对应的目标图片；

具体而言，原始图片和目标图片的大小均为256*256*3。

本发明的第一网络模型(即运动网络模型Emotion-Net)包括顺次连接的编码器E_e和E_I、生成器G_E、判别器D_E、第一情绪分类器、以及重构编码器E_e’和E_I’。具体而言，编码器E_e和E_I都采用VGG-16网络结构，且只保留第一个全连接层；

具体而言，重构编码器E_e’和E_I’分别和编码器E_e和E_I具有完全相同的结构，在此不再赘述。

需要注意的是，上述两个编码器的初始化过程并不相同，编码器E_e在初始化过程中的权重大小符合泊松分布，而编码器E_I在初始化过程中的权重大小符合均匀分布，通过后续的编码过程，编码器E_e和E_I的输出均为 1*4096大小的关键特征。

第一网络模型中的生成器G_E包括卷积模块层、以及编码和解码模型。

卷积模块层(如图2所示)是由上采样层、卷积层、激活函数按前后串联形成。其中，上采样步长为2，输出大小128*128*1，卷积核尺寸为1*1，卷积步长为1，激活函数采用ReLU，输出大小为128*128*3。

编码和解码模型的结构如下：

第一层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成 (如图3所示)，输入大小为128*128*3。其中，卷积核大小为1*1，步长为2，输出大小为64*64*64，正则化操作的local_size是5，alpha值是0.0001， beta值是0.75，激活函数采用ReLU。

第五层是上卷积模块层(如图4所示)，由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为8*8*512。其中，上采样步长为2，输出大小16*16*256，卷积核尺寸为1*1，卷积步长为1，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用 ReLU，输出大小为16*16*256。

第九层是卷积模块层，由卷积层、正则化层、激活函数按顺序前后串联形成(如图2所示)，输入大小为128*128*32。其中，卷积核尺寸为1*1，卷积步长为1，正则化操作的local_size是5，alpha值是0.0001，beta值是 0.75，激活函数采用ReLU，输出大小为128*128*3。

第一网络模型中判别器D_E的结构为：

第七层是第三个全连接层，对第四层输出进行全连接操作，输出为 1*512。最后采用softmax函数进行预测，进而判别图片的真伪。

第一网络模型中第一情绪分类器的结构如下：

第一层是卷积模块层，其是由卷积层、池化层、正则化操作以及激活函数组成(如图5所示)，且每个输入标签大小为128*128*3，其中，卷积核大小为1*1，步长为2，池化层采用最大池化操作，步长为2，输出大小未32*32*64，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第二层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成 (如图4所示)，且每个输入标签大小为32*32*64，其中，卷积核大小为 1*1，步长为2，输出大小未16*16*256，正则化操作的local_size是5，alpha 值是0.0001，beta值是0.75，激活函数采用ReLU。

第五层是第二个全连接层，将第四层输出进行全连接操作，输出为 1*512。

具体而言，在生成器G_E中，是先进行上卷积操作，后进行编码和解码过程。

更具体而言，本步骤首先是将步骤(2)得到的两个1*4096的关键特征分别变为大小为64*64*1的特征图e(j)和I(i)，然后将两个特征图连接起来，变为大小为64*64*2的特征图，随后将其输入生成器G_E中的卷积模块层，对该特征图执行上卷积操作，并获得大小为128*128*3特征图，最后，将该特征图先后输入生成器G_E的编码和解码模型，最终获得大小为 128*128*3的彩色图片。

(4)将步骤(3)得到的彩色图片输入训练好的第二网络模型的生成器G_A，以得到老化处理后的彩色图片；

本发明的第二网络模型(即年龄网络模型Age-Net)包括顺次连接的生成器G_A、判别器D_A、VGG-16模型、以及第二情绪分类器。

第二网络模型中的生成器G_A的结构与第一网络模型中的生成器G_E中的编码和解码模型完全相同，在此不再赘述。

第二网络模型中的判别器D_A与第一网络模型中的判别器D_E具有完全相同的结构，在此不再赘述。

第二网络模型中的第二情绪分类器与第一网络模型中的第一情绪分类器具有完全相同的结构，在此不再赘述。

本发明的第一网络模型和第二网络模型是共同训练获得，其具体训练过程如下：

(1-1)从原始数据集(X_O(1),X_O(2),...,X_O(N))和情绪数据集(X_E(1), X_E(2),...,X_E(N))中分别任意选择一张图片X_O(i)和X_E(j)，将图片X_O(i)和X_E(j) 分别输入到第一网络模型的编码器E_e和E_I，以得到两个大小为1*4096的特征向量I(i)和e(j)，对这两个特征向量进行调整(即调用Tensorflow里面 reshape函数对这两个特征向量进行处理)，以得到一个大小为64*64*1的中间特征图，将该中间特征图输入生成器G_E，以得到大小为128*128*3的彩色图片所组成的集合(X_G(1),X_G(2),...,X_G(N))，其中N表示原始数据集或情绪数据集中的图片总数，且i和j均∈[1，N]。

具体而言，判别器的损失等于：

生成器的损失等于：

具体而言，情绪分类损失为：

具体而言，编码器E_e’的损失等于：

编码器E_I’的损失等于：

具体而言，第一网络模型的训练目标优化函数为：

(a)判别器的优化函数：

L_D(E)＝L_adv(D_E)

(b)生成器的优化函数：

其中，

判别器和生成器交替训练直至模型收敛。

具体而言，判别器的损失为：

生成器的损失为：

在本步骤中，目标老化年龄是5个区间构成的区间集合，即为{11-20, 21-30,31-40,41-50,50+}，指定的目标老化年龄即为该区间集合中的任意一个区间。

本步骤中的年龄分类损失为：

具体而言，本步骤中的情绪分类损失为：

具体而言，第二网络模型的训练优化函数为：

(c)判别器的优化函数：

(d)生成器的优化函数：

其中，

判别器和生成器交替训练直至模型收敛。

(1-11)重复上述步骤(1-1)至(1-10)，直至迭代次数达到最大设定迭代次数(10万次)、或者待测试人工智能模型的预测误差较大(大于0.5)、或者替代模型的损失函数较大(大于0.5)为止，从而得到训练好的第一网络模型和第二网络模型；

第一网络模型和第二网络模型是通过“控制门”(即GATE，其可以看成一个控制门，就是第一网络模型生成的图片必须满足上述判断条件，才能接通)进行连接，从而实现端到端训练过程。

需要注意的是，在训练过程中，“GATE”一直处于待定状态，一旦 Emotion-Net生成合格的图片，“GATE”结构关闭，从而实现端到端的训练过程。

优选地，本发明的上述训练过程还可以包括在上述步骤(1-11)之后，利用测试数据集对训练好的第一网络模型和第二网络模型进行老化处理，并统计老化结果。

具体而言，本步骤是对测试中每一个老化结果进行判断，从而得出系统的老化性能。随机挑选500个志愿者。对测试完的结果进行好坏的判断，每人对每一个测试结果都进行判断。

优选地，本发明采用的老化数据集为CACD和Morph-II，人脸情绪数据集为CFEE，CACD图片有160000张，90％用于训练，其它用作测试，老化区间为{11-20,21-30,31-40,41-50,50+.}；Morph-II有52099张图片，主要用于性能测试。CFEE有5962张图片，26种不同的情绪特征，5365张图片用于训练，597张图片用于测试。

优选地，本发明方法是用tensorflow框架实现的，在NVIDIATesla P100 上进行实现的，batch大小为128，最大迭代次数为300000。训练方法采用 10倍交叉验证方法，采用Adam优化器对系统进行更新。

测试结果：

本发明所有实验都是NVIDIATesla P100上用Tensorflow实现的，批大小(Batchsize)为128，最大迭代次数为300000，训练方法采用1-fold交叉验证方法。整个系统训练花费46个小时本实验中，本发明采用Adam优化器，初始学习率为0.0002，且β1和β2费别设为0.5和0.99。

图6给出不同情绪学习结果，比较算法为目前最好的算法StarGAN网络，学习情绪为Angry(生气的)，Disgusted(恶心的)，Fearful(害怕的)， Happy(高兴的)，Sad(生气的)以及Surprised(惊讶的)。从实验结果可以看出我们算法能很好地学习人脸不同情绪，且能逼真显示出来。

图7给出不同情绪下老化结果，我们可以看到不同人脸情绪下的老化结果不一样，且我们算法能逼真学习到不同情绪下的老化特性，并逼真显示出来。

在相同的测试数据集情况下，本发明的性能和最新的老化算法CAAE, acGAN、以及IPCGAN进行比较，从以下4个方面进行比较：(1)情绪分类准确率即最终生成的图片是否学习好目标图片的情绪；(2)年龄分类准确率即最终老化的图片是否达到目标要求；(3)脸部认证准确率，即最终生成图片还是不是原始那个人；(4)图片质量，即图片是否清晰；表1给出详细结果，从表中可以得出我们提出在这4个方面表现最好。

用我们算法对测试集机型老化处理，并用最新的年龄预测算法对老化结果进行判断，判别该结果是否达到指定的年龄区间里面，进而统计合格老化结果，表2给出最新年龄预测算法预测结果，预测算法分别为 Ranking-CNN、DLDL、DEX、dLDLF、DRF、以及AR-Net，这其中AR-Net 算法年龄预测准确率最高。丛表2可以看出，AR-Net预测大多数结果都达到指定年龄区间，这也证明我们算法有效性。

表1不同算法老化结果比较

不同性能指标	CAAE	acGAN	IPCGAN	本发明算法
					情绪分类准确率	-	-	-	96.41％
年龄分类准确率	22.13％	30.17％	31.34％	35.41％
					脸部认证准确率	90.41％	82.62％	93.13％	98.72％
图片质量	69.64％	40.13％	72.42％	83.14％

表2不同年龄预测算法对人脸老化处理结果的预测准确率

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多情绪的人脸老化处理方法，其特征在于，包括以下步骤：

(1)获取一张原始图片和一张与该原始图片对应的目标图片；

2.根据权利要求1所述的人脸老化处理方法，其特征在于，

编码器E_e和E_I都采用VGG-16网络结构，且只保留第一个全连接层；

编码和解码模型的结构如下：

第一层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成(如图3)，输入大小为128*128*3。其中，卷积核大小为1*1，步长为2，输出大小为64*64*64，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第二层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，输入大小为64*64*64。其中，卷积核大小为1*1，步长为2，输出大小为32*32*128，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第三层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，输入大小为32*32*128。其中，卷积核大小为1*1，步长为2，输出大小为16*16*256，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第四层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，输入大小为16*16*256。其中，卷积核大小为1*1，步长为2，输出大小为8*8*512，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第五层是上卷积模块层，由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为8*8*512。其中，上采样步长为2，输出大小16*16*256，卷积核尺寸为1*1，卷积步长为1，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU，输出大小为16*16*256。

第六层是上卷积模块层，由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为16*16*256。其中，上采样步长为2，输出大小32*32*128，卷积核尺寸为1*1，卷积步长为1，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU，输出大小为32*32*128。

第七层是上卷积模块层，由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为32*32*128。其中，上采样步长为2，输出大小64*64*64，卷积核尺寸为1*1，卷积步长为1，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU，输出大小为64*64*64。

第八层是上卷积模块层，由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成，输入大小为64*64*64。其中，上采样步长为2，输出大小128*128*32，卷积核尺寸为1*1，卷积步长为1，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU，输出大小为128*128*32。

3.根据权利要求1或2所述的人脸老化处理方法，其特征在于，第一网络模型中判别器D_E的结构为：

第一层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，输入大小为128*128*3。其中，卷积核大小为1*1，步长为2，输出大小为64*64*64，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第五层是第一个全连接层，对第四层输出进行全连接操作，输出为1*4096。

第六层是第二个全连接层，对第四层输出进行全连接操作，输出为1*1024。

第七层是第三个全连接层，对第四层输出进行全连接操作，输出为1*512，最后采用softmax函数进行预测，进而判别图片的真伪。

4.根据权利要求1至3中任意一项所述的人脸老化处理方法，其特征在于，第一网络模型中第一情绪分类器的结构如下：

第二层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，且每个输入标签大小为32*32*64，其中，卷积核大小为1*1，步长为2，输出大小未16*16*256，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU；

第三层是卷积模块层，其是由卷积层、正则化操作以及激活函数组成，且每个输入标签大小为16*16*256，其中，卷积核大小为1*1，步长为2，输出大小未8*8*512，正则化操作的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第四层是第一个全连接层，将第三层输出进行全连接操作，输出为1*1024。

5.根据权利要求1所述的人脸老化处理方法，其特征在于，步骤(3)具体为，首先将步骤(2)得到的两个1*4096的关键特征分别变为大小为64*64*1的特征图e(j)和I(i)，然后将两个特征图连接起来，变为大小为64*64*2的特征图，随后将其输入生成器G_E中的卷积模块层，对该特征图执行上卷积操作，并获得大小为128*128*3特征图，最后，将该特征图先后输入生成器G_E的编码和解码模型，最终获得大小为128*128*3的彩色图片。

6.根据权利要求1所述的人脸老化处理方法，其特征在于，第一网络模型和第二网络模型是共同训练获得，其具体训练过程为：

(1-1)从原始数据集(X_O(1),X_O(2),...,X_O(N))和情绪数据集(X_E(1),X_E(2),...,X_E(N))中分别任意选择一张图片X_O(i)和X_E(j)，将图片X_O(i)和X_E(j)分别输入到第一网络模型的编码器E_e和E_I，以得到两个大小为1*4096的特征向量I(i)和e(j)，对这两个特征向量进行调整，以得到一个大小为64*64*1的中间特征图，将该中间特征图输入生成器G_E，以得到大小为128*128*3的彩色图片所组成的集合(X_G(1),X_G(2),...,X_G(N))，其中N表示原始数据集或情绪数据集中的图片总数，且i和j均∈[1，N]。

(1-2)将步骤(1-1)得到的集合(X_G(1),X_G(2),...,X_G(N))中的每张彩色图片输入判别器D_E中，以得到所有彩色图片对应的第一识别结果(y_G(1),y_G(2),...,y_G(N)),根据所有彩色图片对应的第一识别结果(y_G(1),y_G(2),...,y_G(N))获取判别器的损失和生成器的损失；

其中判别器的损失等于：

L_adv(D_E)＝_X[(D_E(X_O(i)))²]+y_G(i)[(y_G(i)-1)²]

其中X_O(i)表示原始数据集X_O(1),X_O(2),...,X_O(N)中的第i个数据，y_G(i)表示第一识别结果y_G(1),y_G(2),...,y_G(N)中的第i个数据。

生成器的损失等于：

L_adv(D_E)＝y_G(i)[(y_G(i))-1)²]

其中情绪分类损失为：

(1-4)将步骤(1-1)得到的集合(X_G(1),X_G(2),...,X_G(N))中的每张彩色图片分别输入编码器E_e’和E_I’中，以分别得到编码结果(y_Ee(1),y_Ee(2),...,y_Ee(N))和(y_EI(1),y_EI(2),...,y_EI(N))，根据编码结果(y_Ee(1),y_Ee(2),...,y_Ee(N))与特征图(y_Ee(1)’,y_Ee(2)’,...,y_Ee(N)’)获取编码器E_e’的损失，并根据编码结果(y_EI(1),y_EI(2),...,y_EI(N))与特征图(y_EI(1)’,y_EI(2)’,...,y_EI(N)’)获取编码器E_I’的损失；

其中编码器E_e’的损失等于：

编码器E_I’的损失等于：

(1-5)根据步骤(1-2)得到的判别器的损失和生成器的损失、步骤(1-3)得到的情绪分类损失、以及步骤(1-4)得到的编码器E_e’和编码器E_I’的损失，对第一网络模型进行迭代训练，直到第一网络模型的训练目标优化函数收敛为止；

(1-6)先后将步骤(1-1)得到的集合(X_G(1),X_G(2),...,X_G(N))输入到第二网络模型的生成器G_A中，以得到目标图片集合(XG_A(1),XG_A(2),...,XG_A(N))；

(1-7)将步骤(1-6)得到的目标图片集合(XG_A(1),XG_A(2),...,XG_A(N))中的每一张目标图片输入第二网络模型的判别器D_A中，以得到所有彩色图片对应的第三识别结果y_GA(1),y_GA(2),...,y_GA(N)，根据所有彩色图片对应的第三识别结果y_GA(1),y_GA(2),...,y_GA(N)获取判别器D_A的损失和生成器G_A的损失；

其中判别器的损失为：

L_adv(D_A)＝X[(D_E(X_O(i)|y_Age(i)'))²]+y_GA(i)[(y_GA(i)-1)²]

生成器的损失为：

L_adv(G_A)＝y_GA(i)[(y_GA(i)-1)²]

(1-8)将步骤(1-6)得到的目标图片集合(XG_A(1),XG_A(2),...,XG_A(N))中的每一张目标图片输入VGG-16模型中，以得到所有目标图片对应的年龄识别结果y_Age(1),y_Age(2),...,y_Age(N),根据年龄识别结果y_Age(1),y_Age(2),...,y_Age(N)和目标老化年龄标签y_Age(1)’,y_Age(2)’,...,y_Age(N)’获取年龄分类损失；

其中年龄分类损失为：

(1-9)将步骤(1-6)得到的目标图片集合(XG_A(1),XG_A(2),...,XG_A(N))中的每一张目标图片输入到第二情绪分类器中，以得到所有目标图片对应的情绪识别结果y_EA(1),y_EA(2),...,y_EA(N)，根据情绪识别结果y_EA(1),y_EA(2),...,y_EA(N)和真实的情绪标签y_EA(1)’,y_EA(2)’,...,y_EA(N)’获取情绪分类损失；

其中情绪分类损失为：