CN110276252A

CN110276252A - 一种基于生成式对抗网络的抗表情干扰的人脸识别方法

Info

Publication number: CN110276252A
Application number: CN201910403839.2A
Authority: CN
Inventors: 王韬; 蒋天夫
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2019-09-24
Anticipated expiration: 2039-05-15
Also published as: CN110276252B

Abstract

本申请涉及人脸识别技术领域，提供了一种基于生成式对抗网络的抗表情干扰的人脸识别方法，包括以下步骤：S11获得样本集合；S12将其中带有表情的样本图片输入待训练的生成器，生成合成图片；S13将该合成图片和至少一张样本图片输入待训练的判别器中，以训练和更新该判别器；S14通过待训练的生成器，再次生成合成图片；S15将再次生成的合成图片、以及该合成图片对应的无表情的样本图片输入更新后的判别器中，得到反馈值，并更新待训练的生成器；S16以更新后的生成器作为待训练的生成器，多次重复S12至S15，得到训练后的生成器；S17将待识别图片输入训练后的生成器，得到无表情的待识别图片；S18将无表情的待识别图片输入人脸识别系统，进行人脸识别。

Description

一种基于生成式对抗网络的抗表情干扰的人脸识别方法

技术领域

本申请涉及人脸识别技术领域，具体而言，涉及一种基于生成式对抗网络的抗表情干扰的人脸识别方法。

背景技术

人脸识别技术是一种基于人脸特征的生物特征识别技术。对于一幅静态图像或者一段动态视频，首先判断其中是否存在人脸，若存在，则进一步确定人脸的方位信息，然后根据方位信息和图像信息提取出人脸的特征信息，再将其与已知的人脸进行对比，最终识别出该人脸的对应身份。

人脸识别技术自20世纪60年代出现以来，一直是计算机视觉领域研究最深入的课题之一，在学术研究和商业应用中都取得了令人瞩目的成就。特别是近年来，随着防恐、安保、金融、管理等方面应用需求的快速增长，人脸识别技术已经在国家安全、智慧城市、智能家居、企业管理等方面得到了非常广泛的关注与应用。但是现有的人脸识别技术对在进行人脸识别时，准确率还有待进一步提高。

发明内容

有鉴于此，本申请实施例提供了一种基于生成式对抗网络的抗表情干扰的人脸识别方法，旨在进一步提高人脸识别的准确率。

本申请实施例提供的基于生成式对抗网络的抗表情干扰的人脸识别方法，包括以下步骤：

S11：获得样本集合，该样本集合包括来自多位训练参与者的样本图片，针对多位训练参与者中的每位训练参与者，该训练参与者的样本图片中包括至少一张不带表情的样本图片和至少一张带有表情的样本图片，每张样本图片携带标记，该标记用于表征该样本图片对应的训练参与者的身份、该样本图片是否带有表情以及该样本图片的人脸特征向量；

S12：将所述样本集合中的带有表情的样本图片输入待训练的生成器，生成合成图片；

S13：将所述合成图片和所述样本集合中的至少一张样本图片输入待训练的判别器中，以训练该判别器，并得到更新后的判别器；

S14：将所述样本集合中的带有表情的样本图片输入所述待训练的生成器，再次生成合成图片；

S15：将所述再次生成的合成图片、以及该再次生成的合成图片对应的测试参与者的不带表情的样本图片输入所述更新后的判别器中，以得到所述更新后的判别器所产生的反馈值，并根据所述反馈值，对所述待训练的生成器进行更新，得到更新后的生成器；

S16：以更新后的生成器作为待训练的生成器，多次重复S12至S15，得到训练后的生成器和训练后的判别器；

S17：将待识别图片输入所述训练后的生成器，得到不带表情的待识别图片；

S18：将所述不带表情的待识别图片输入人脸识别系统，以识别所述待识别图片中的人物。

可选地，所述方法还包括：

获取多张样本图片，所述多张样本图片来自多位训练参与者，针对多位训练参与者中的每位训练参与者，该训练参与者的样本图片中包括至少一张不带表情的样本图片和至少一张带有表情的样本图片；

针对所述多张样本图片中的每张样本图片，提取该样本图片的人脸特征向量；

针对所述多张样本图片中的每张样本图片，对该样本图片标注对应的训练参与者的身份、是否带有表情以及对应的人脸特征向量，从而使该样本图片携带所述标记。

可选地，所述待训练的生成器包括图片编码模块和图片解码模块，所述图片编码模块用于从输入的图片中提取图片特征向量，所述图片解码模块用于根据输入的图片特征向量，生成合成图片；

将所述样本集合中的带有表情的样本图片输入待训练的生成器，生成合成图片，包括：

针对所述样本集合中的带有表情的样本图片，执行以下步骤：

将该样本图片输入所述图片编码模块，得到第一图片特征向量；

将该样本图片的人脸特征向量与所述第一图片特征向量结合，得到第二图片特征向量；

将所述第二图片特征向量输入所述图片解码模块，生成所述合成图片。

可选地，所述待训练的生成器还包括人脸特征点编码模块，用于对输入的人脸特征向量进行降维；

将该样本图片的人脸特征向量与所述第一图片特征向量结合，得到第二图片特征向量，包括：

将该样本图片的人脸特征向量作为原人脸特征向量，输入所述人脸特征点编码模块，得到降维后的人脸特征向量；

将所述降维后的人脸特征向量的副本与所述第一图片特征向量结合，得到第二图片特征向量。

可选地，所述待训练的生成器还包括人脸特征点解码模块，用于对降维后的人脸特征向量进行升维；所述方法还包括：

将所述降维后的人脸特征向量输入所述人脸特征点解码模块，得到新人脸特征向量；

对比所述新人脸特征向量和所述原人脸特征向量，根据所述新人脸特征向量和所述原人脸特征向量之间的第一相似度，确定所述人脸特征点编码模块和所述人脸特征点解码模块是否运行正常。

可选地，所述合成图片携带标记，该标记用于表征该合成图片对应的训练参与者的身份、该合成图片不带表情、该合成图片的人脸特征向量以及该合成图片是合成的；所述样本集合中的每张样本图片的标记还用于表征该样本图片不是合成的；

所述待训练的判别器包括中性脸分类模块和真假图片分类模块，所述中性脸分类模块用于判别输入的图片是否不带表情，所述真假图片分类模块用于判别输入的图片是否是合成的；

所述步骤S13包括：

将所述样本集合中的至少一张样本图片输入所述中性脸分类模块，得到被输入的每张图片的第一分类结果；

根据每张样本图片的第一分类结果和该样本图片的标记，更新所述中性脸分类模块，得到更新后的中性脸分类模块；

将所述合成图片和所述样本集合中的至少一张样本图片输入所述真假图片分类模块，得到被输入的每张图片的第二分类结果；

根据每张样本图片的第二分类结果和该样本图片的标记，以及所述合成图片的第二分类结果和该合成图片的标记，更新所述真假图片分类模块，得到更新后的真假图片分类模块。

可选地，所述步骤S13包括：

将所述合成图片输入所述中性脸分类模块，得到该合成图片的第一分类结果；

根据所述合成图片的第一分类结果，确定所述待训练的生成器的训练状态。

可选地，所述待训练的判别器包括中性脸分类模块和真假图片分类模块，所述中性脸分类模块用于判别输入的图片是否不带表情，所述真假图片分类模块用于判别输入的图片是否是合成的；所述步骤S15包括：

将所述合成图片输入所述中性脸分类模块，得到所述合成图片的第三分类结果，将所述第三分类结果作为所述反馈值中的第一反馈值，根据所述第一反馈值，对所述待训练的生成器进行更新；

将所述合成图片输入所述真假图片分类模块，得到所述合成图片的第四分类结果，将所述第三分类结果作为所述反馈值中的第二反馈值，根据所述第二反馈值，对所述待训练的生成器进行更新。

可选地，所述待训练的判别器还包括生成相似度评估模块，所述生成相似度评估模块用于评估输入的两张图片之间的第二相似度；

所述步骤S15包括：

将所述再次生成的合成图片、以及该再次生成的合成图片对应的测试参与者的不带表情的样本图片输入所述生成相似度评估模块，得到所述再次生成的合成图片与所述不带表情的样本图片之间的第二相似度，将所述第二相似度作为所述反馈值中的第三反馈值，根据所述第三反馈值，对所述待训练的生成器进行更新。

可选地，在所述步骤S17之前，所述方法还包括：

将所述待识别图片输入所述训练后的判别器，使所述判别器判别所述待识别图片是否带有表情；

如果所述判别器判定所述待识别图片带有表情，则进入步骤S17；

如果所述判别器判定所述待识别图片不带表情，则进入步骤S18。

与现有技术相比，本申请具有以下有益效果：

一方面，采用本申请提供的基于生成式对抗网络的抗表情干扰的人脸识别方法，首先根据带有表情的待识别图片而智能地合成不带表情的待识别图片，然后利用人脸识别系统对这张不带表情的待识别图片进行识别，由于该不带表情的待识别图片不带表情，因此在人脸识别系统对该图片进行识别时，可以更准确地将该图片中的人脸特征与人脸识别系统已知的不带表情脸特征进行匹配，匹配结果不会因人脸表情变化而受到干扰，防止匹配失败，进一步提高人脸识别的准确率。

另一方面，采用本申请提供的基于生成式对抗网络的抗表情干扰的人脸识别方法，对生成式对抗网络的生成器和判别器进行反复交替的对抗训练，使生成器尽可能地根据一张带有表情的图片而准确生成对应的一张不带表情的合成图片，并尽可能保持人脸身份信息不变，消除人脸表情信息的干扰，从而提高人脸识别的准确率。

再一方面，现有人脸识别系统中的人脸数据库中仅存储不带表情的人脸图片，本申请通过对待识别图片进行处理，生成不带表情的待识别图片，然后将生成的不带表情的待识别图片输入现有的人脸识别系统中，使现有的人脸识别系统对该不带表情的待识别图片进行识别，提高了识别准确率。此过程可以保证在无需对现有人脸识别系统进行内部改造的情况下，通过快速简单的部署，即可增强现有人脸识别系统在识别人脸时的抗表情干扰能力，提高现有系统的识别准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是一实施例提出的基于生成式对抗网络的抗表情干扰的人脸识别方法的流程图；

图2是一实施例提出的生成式对抗网络中的生成器的结构框图；

图3是一实施例提出的生成式对抗网络中的判别器的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人发现，现有的人脸识别方法在较强的约束条件下可以取得较好的识别准确率，但在无约束条件或约束条件较弱时准确率则会发生明显下降。例如，现有人脸识别系统的人脸数据库中仅存储不带表情的人脸图片，而在很多人脸识别的应用场景中，如人脸跟踪识别，待识别对象会由情绪或言语交流而产生一系列的面部表情变化。这些表情变化导致在识别过程中提取的人脸特征信息，与已知人脸的特征信息进行对比时存在较大差异，导致识别困难甚至失败。

为了解决上述问题，本申请的发明人提出基于生成式对抗网络，首先对生成式对抗网络的生成器和判别器进行反复交替的对抗训练，使生成器尽可能地根据一张带有表情的图片而准确生成对应的一张不带表情的合成图片，并尽可能保持人脸身份信息不变；然后将待识别的人脸图片输入训练后的生成器，得到不带表情的人脸图片；最后将该不带表情的人脸图片输入人脸识别系统，进行更准确地人脸识别。

参考图1，图1是一实施例提出的基于生成式对抗网络的抗表情干扰的人脸识别方法的流程图。如图1所示，该方法包括以下步骤：

S11：获得样本集合，该样本集合包括来自多位训练参与者的样本图片，针对多位训练参与者中的每位训练参与者，该训练参与者的样本图片中包括至少一张不带表情的样本图片和至少一张带有表情的样本图片，每张样本图片携带标记，该标记用于表征该样本图片对应的训练参与者的身份、该样本图片是否带有表情以及该样本图片的人脸特征向量。

本实施例中，带有表情的样本图片是指：图片中的待识别对象由于情绪或言语交流而产生面部表情变化的样本图片。不带表情的样本图片是指：图片中的待识别对象的表情正处于平静状态。例如，一般的不带表情的证件照可作为上述不带表情的样本图片。

本实施例中，训练参与者的身份是指：针对多个训练参与者，能够使各训练参与者之间相互区分的信息。例如样本集合包括来自2000名训练参与者的样本图片，为了区分每位训练参与者，可以为每位训练参与者编号，编号从1至2000，每位训练参与者具有一个唯一的、能与其他训练参与者相区别的编号，此编号即可作为上述训练参与者的身份。

示例地，2000名训练参与者中的第625名训练参与者的样本图片包括：该训练参与者的一张不带表情的样本图片以及两张带有表情的样本图片。对于这张不带表情的样本图片，其可以被标记为“真[625,0,L]”，其中，“真”表征这张样本图片不是由生成式对抗网络的生成器所合成的，“625”表征这张样本图片对应的训练参与者的编号是625，“0”表征这张样本图片中的人脸不带表情，“L”表征这张样本图片中的人脸特征向量。对于这两张带有表情的样本照片中的每一张，其可以被标记为“真[625,1,L]”，其中，“真”表征这张样本图片不是由生成式对抗网络的生成器所合成的，“625”表征这张样本图片对应的训练参与者的编号是625，“1”表征这张样本图片中的人脸带有表情，“L”表征这张样本图片中的人脸特征向量。L为形如(x1,y1,x2,y2,…,x68,y68)的向量，其中xi和yi分别为第i个人脸特征点的横坐标与纵坐标。

本实施例中，在步骤S11获得样本集合之前，还可以包括预先建立该样本集合的过程，例如在预先建立该样本集合时，可以包括以下步骤：

S10-1：获取多张样本图片，所述多张样本图片来自多位训练参与者，针对多位训练参与者中的每位训练参与者，该训练参与者的样本图片中包括至少一张不带表情的样本图片和至少一张带有表情的样本图片；

S10-2：针对所述多张样本图片中的每张样本图片，提取该样本图片的人脸特征向量；

S10-3：针对所述多张样本图片中的每张样本图片，对该样本图片标注对应的训练参与者的身份、是否带有表情以及对应的人脸特征向量，从而使该样本图片携带所述标记。

示例地，在获取到多张样本图片后，针对多张样本图片中的每张样本图片，可以采用现有人脸特征点检测器对该样本图片进行检测，得到该样本图片中的人脸特征向量。例如采用现有人脸特征点检测器对该样本图片进行检测后，得到68个人脸特征点，每个特征点具有纵横两个坐标值，从而得到一个136维的人脸特征向量。针对多张样本图片中的每张样本图片，可以采用人工标注的方式，为每张样本图片标注对应的训练参与者的身份、以及该样本图片是否带有表情。

S12：将所述样本集合中的带有表情的样本图片输入待训练的生成器，生成合成图片。

本实施例中，生成器是预先构造的生成式对抗网络中的生成器，该生成器用于根据输入的带有表情的人脸图片及该图片的人脸特征向量，生成对应身份的不带表情的人脸图片。

参考图2，图2是一实施例提出的生成式对抗网络中的生成器的结构框图。图2中，待训练的生成器至少可以包括：图片编码模块和图片解码模块。其中，图片编码模块用于从输入的图片中提取图片特征向量，图片解码模块用于根据输入的图片特征向量，生成合成图片。图2中示意性地示出，输入生成器的样本图片的标记为“真[625,1,L]”，生成器输出的合成图片的标记为“假[625,0,L]”。

步骤S12中，将样本集合中的带有表情的样本图片输入该待训练的生成器，生成合成图片，包括：

S12-1：将该样本图片输入所述图片编码模块，得到第一图片特征向量；

S12-2：将该样本图片的人脸特征向量与所述第一图片特征向量结合，得到第二图片特征向量；

S12-3：将所述第二图片特征向量输入所述图片解码模块，生成所述合成图片。

本实施例中，可利用全卷积神经网络构建生成器中的图片编码模块和图片解码模块。示例地，生成器中的图片编码模块和图片解码模块的网络结构如表1所示，表1是图片编码模块和图片解码模块的网络结构要素表。

表1：图片编码模块和图片解码模块的网络结构要素表

表1中，图片编码模块对应层1至层7，层7输出的即是图片特征向量。图片解码模块对应的是层8至层14，层14输出的即是生成的合成图片，该合成图片是长128像素、宽128像素、通道数为3的合成图片。

以表1中的层9为例，其中，上采样层是在该层输入数据的基础上在数据点间通过合适的插值算法插入新的数据点，插值后得到的数据的规模更大，起到放大数据规模的作用。上采样因子是指：经上采样层处理后，其输出数据的规模与输入数据规模的比值；例如，上采样因子2指经上采样层处理后，其输出数据的长和宽均为输入数据的2倍。“256”是指：该层使用256个卷积核进行卷积操作，因此该层的输出的通道数为256。“卷积核4*4”是指：一个长和宽均为4个像素的二维卷积核。步长1是指：卷积核在图像上遍历时每次移动一个像素长度。保留边界是指：卷积核与图像尺寸不匹配，填充图像缺失区域。线性整流激活函数是指：该卷积层的激活函数选用线性整流函数。批量正则化是指：以每批数据为单位，对激活函数的输出值进行归一化，即使得其输出数据的均值接近0，其标准差接近1。“连接层5输出”是指：将该层经过批量正则化处理后的数据，与层5的输出以通道这一维度相连接，将连接后得到的数据作为该层的输出。

示例地，将带有表情的该样本图片128*128*3输入图片编码模块后，图片编码模块提取出图片特征向量(即第一图片特征向量)，假设提取出的图片特征向量为128维的向量。然后将该样本图片的人脸特征向量与这一128维的图片特征向量连接，假设该样本图片的人脸特征向量为136维的向量，则拼接后形成264维的图片特征向量(即第二图片特征向量)。最后将所述第二图片特征向量输入图片解码模块，生成合成图片128*128*3。

考虑到在步骤S11中，针对多张样本图片中的每张样本图片，提取该样本图片的人脸特征向量时，会提取出68个人脸特征点，形成一个136维的人脸特征向量，然而136维的人脸特征向量的维数太多，在利用其进行后续计算时，计算速度较慢。本实施例一方面为了加快计算速度，另一方面为了避免过拟合，在生成器中又设置了人脸特征点编码模块，如图2所示，该模块用于对输入的人脸特征向量进行降维。

基于图2所示的生成器，在将样本图片的人脸特征向量与该样本图片的第一图片特征向量结合，得到第二图片特征向量的步骤中，可以具体包括以下子步骤：

S12-2a：将该样本图片的人脸特征向量作为原人脸特征向量，输入所述人脸特征点编码模块，得到降维后的人脸特征向量；

S12-2b：将所述降维后的人脸特征向量的副本与所述第一图片特征向量结合，得到第二图片特征向量。

示例地，首先将带有表情的样本图片的136维人脸特征向量作为原人脸特征向量，将这一136维的人脸特征向量输入人脸特征点编码模块，得到降维后的人脸特征向量，假设降维后的人脸特征向量为32维的向量。然后对这一32维的向量进行复制，得到其副本，并将该副本与该样本图片的128维的第一图片特征向量连接，得到160维的第二图片特征向量。最后将这一160维的第二图片特征向量输入图片解码模块，生成合成图片。

此外，请继续参考图2，生成器还可以包括人脸特征点解码模块，该模块用于对降维后的人脸特征向量进行升维。在经过步骤S12-2a对人脸特征向量进行降维后，还可以包括以下步骤：

将所述降维后的人脸特征向量输入所述人脸特征点解码模块，得到新人脸特征向量；对比所述新人脸特征向量和所述原人脸特征向量，根据所述新人脸特征向量和所述原人脸特征向量之间的第一相似度，确定所述人脸特征点编码模块和所述人脸特征点解码模块是否运行正常。

应当理解的，上述步骤可以在步骤S12-2b之前或之后执行，也可以与步骤S12-2b同时执行。上述步骤通过对降维后的人脸特征向量进行升维，得到的新人脸特征向量与原人脸特征向量的维数相同，例如均为136维的向量。再通过比较新人脸特征向量和所述原人脸特征向量之间的第一相似度，进而可以判断人脸特征点解码模块是否运行正常，例如当新人脸特征向量与原人脸特征向量的相似度低于预设阈值时，则确定人脸特征点解码模块运行不正常，此时可以发出警告，也可以自动暂停生成器的训练或使用。

通过执行上述步骤，可以在人脸特征点解码模块运行期间，持续对人脸特征点解码模块的运行状态进行监控，利于在人脸特征点解码模块运行不正常情况下，可以及时得知这一情况。

本实施例中，可利用AutoEncoder(自编码网络)络构建生成器中的人脸特征点编码模块和人脸特征点解码模块。示例地，生成器中的人脸特征点编码模块和人脸特征点解码模块的网络结构如表2所示，表2是人脸特征点编码模块和人脸特征点解码模块的网络结构要素表。

表2：人脸特征点编码模块和人脸特征点解码模块的网络结构要素表

输入：136维人脸特征点向量
	层1：128神经元全连接层，线性整流激活函数，批量归一化
层2：64神经元全连接层，线性整流激活函数，批量归一化
	层3：32神经元全连接层，线性整流激活函数，批量归一化
层4：64神经元全连接层，线性整流激活函数，批量归一化
	层5：128神经元全连接层，线性整流激活函数，批量归一化
层6：136神经元全连接层，双曲正切激活函数
	输出：136维人脸特征点向量

表2中，人脸特征点编码模块对应层1至层3，层7输出的即是人脸特征向量。人脸特征点解码模块对应层4至层6，层6输出的即是新人脸特征向量。

步骤S13：将所述合成图片和所述样本集合中的至少一张样本图片输入待训练的判别器中，以训练该判别器，并得到更新后的判别器。

本实施例中，所述合成图片是指步骤12中由待训练的生成器生成的合成图片。所述至少一张样本图片是指从样本集合中随机获取的至少一张样本图片，对于至少一张样本图片中的每张样本图片，其可能是带有表情的样本图片，也可能是不带表情的样本图片。

本实施例中，所述合成图片携带标记，该标记用于表征该合成图片对应的训练参与者的身份、该合成图片不带表情、该合成图片的人脸特征向量以及该合成图片是合成的；所述样本集合中的每张样本图片的标记还用于表征该样本图片不是合成的。

示例地，合成图片可以被标记为“假[1301,0,L]”，其中，“假”表征这张合成图片是由生成式对抗网络的生成器所合成的，“1301”表征这张合成图片对应的训练参与者的编号是1301，“0”表征这张合成图片中的人脸不带表情，“L”表征这张合成图片中的人脸特征向量。本示例中，由于待训练的生成器还未完成训练，因此由其所生成的该合成图片不一定为一张真正的不带表情的图片，但是无论该合成图片是否为一张真正的不带表情的图片，均标记其为不带表情的图片。

参考图3，图3是一实施例提出的生成式对抗网络中的判别器的结构框图。图3中，待训练的生成器至少可以包括：中性脸分类模块和真假图片分类模块。其中，中性脸分类模块用于判别输入的图片是否不带表情，真假图片分类模块用于判别输入的图片是否是合成的。图3中示意性地示出，输入判别器的合成图片的标记为“假[625,0,L]”，从样本集合中随机或取的一张样本图片的标记为“真[268,1,L]”，该合成图片对应的测试参与者的不带表情的样本图片的标记为“真[625,0,L]”。

本实施例中，步骤S13可包括以下子步骤：

S131：将所述样本集合中的至少一张样本图片输入所述中性脸分类模块，得到被输入的每张图片的第一分类结果；

S132：根据每张样本图片的第一分类结果和该样本图片的标记，更新所述中性脸分类模块，得到更新后的中性脸分类模块；

S133：将所述合成图片和所述样本集合中的至少一张样本图片输入所述真假图片分类模块，得到被输入的每张图片的第二分类结果；

S134：根据每张样本图片的第二分类结果和该样本图片的标记，以及所述合成图片的第二分类结果和该合成图片的标记，更新所述真假图片分类模块，得到更新后的真假图片分类模块。

示例地，假设经过步骤S12而得到的合成图片的标记为“假[625,0,L]”，假设随机从样本集合中获取了一张样本图片，该样本图片的标记为“真[268,1,L]”。在步骤S131中，将该样本图片输入中性脸分类模块，中性脸分类模块输出第一分类结果。该第一分类结果有可能是“此图片是一张带有表情的图片”，这一结果与实际情况相符，表明中性脸分类模块在此轮训练中的判断准确，因此在步骤S132中，此轮训练可以不调整中性脸分类模块的参数，不对中性脸分类模块进行更新。该第一分类结果也可能是“此图片是一张不带表情的图片”，而这一结果与实际情况不符，表明中性脸分类模块在此轮训练中的判断错误，因此在步骤S132中，此轮训练需调整中性脸分类模块的参数，从而对中性脸分类模块进行更新。

在步骤S133中，将该合成图片和该样本图片均输入真假图片分类模块，真假图片分类模块对该合成图片输出第二分类结果，对该样本图片也输出第二分类结果。例如该合成图片对应的第二分类结果可能是“此图片是一张合成图片”，该样本图片对应的第二分类结果可能是“此图片不是一张合成图片”，这两个结果均与实际情况相符，表明真假图片分类模块在此轮训练中的判断准确，因此在步骤S134中，此轮训练可以不调整真假图片分类模块的参数，不对真假图片分类模块进行更新。对于除上述判断结果外的其他判断结果，均与实际情况不符，表明真假图片分类模块在此轮训练中的判断不够准确或完全不准确，因此在步骤S134中，此轮训练需调整真假图片分类模块的参数，从而对真假图片分类模块进行更新。

通过多次执行步骤S131至步骤S134，可以对待训练的判别器中的中性脸分类模块和真假图片分类模块进行训练，从而使中性脸分类模块更准确地确定出输入的图片中是否带有表情，使真假图片分类模块更准确地确定出输入的图片是否是一张由生成器生成的合成图片。

示例地，判别器中的中性脸分类模块的网络结构如表3所示，表3是中性脸分类模块的网络结构要素表。

表3：中性脸分类模块的网络结构要素表

示例地，当中性脸分类模块输出的概率大于预设阈值时，则表示图片不带表情，例如该预设阈值可设置为0.5。

示例地，判别器中的真假图片分类模块的网络结构如表4所示，表4是真假图片分类模块的网络结构要素表。

表4：真假图片分类模块的网络结构要素表

其中，实例正则化是指：以每个数据为单位，对该数据的每个通道做正则化，使其均值接近0，标准差接近1。

示例地，当真假图片分类模块输出的概率大于预设阈值时，则表示输入的图片不是合成图片，例如该预设阈值可设置为0.5。

此外，本实施例中，步骤S13还可包括以下子步骤：

S135：将所述合成图片输入所述中性脸分类模块，得到该合成图片的第一分类结果；

S136：根据所述合成图片的第一分类结果，确定所述待训练的生成器的训练状态。

示例地，将合成图片输入中性脸分类模块后，中性脸分类模块对该合成图片输出的第一结果可能是“此图片是一张带有表情的图片”，也可能是“此图片是一张不带表情的图片”。由于在生成器和判别器对抗训练的前期，生成器和判别器均未训练至成熟状态，由未成熟的生成器生成的合成图片不一定是一张真正的不带表情的图片，由未成熟的判别器输出的第一分类结果也不一定准确，因此在抗训练的前期，可能暂时不需要根据合成图片的第一分类结果，确定生成器的训练状态。在经过反复多次的对抗训练(即步骤S12至步骤S15)后，生成器和判别器均较为成熟，此时可以根据合成图片的第一分类结果，确定生成器的训练状态。例如在连续100轮的对抗训练中，中性脸分类模块针对合成图片的100个第一分类结果中，95％以上的第一分类结果是“此图片是一张不带表情的图片”，则说明生成器可以较稳定地根据带有表情的样本图片生成不带表情的合成图片，可以确定生成器的训练状态达到了成熟，该生成器可实际应用了。

应当理解的，确定所述生成器的训练状态时，不仅可以根据中性脸分类模块输出的第一分类结果，还可以同时根据真假图片分类模块输出的第二分类结果。例如在连续100轮的对抗训练中，中性脸分类模块针对合成图片的100个第一分类结果中，95％以上的第一分类结果是“此图片是一张不带表情的图片”，真假图片分类模块针对合成图片的100个第二分类结果中，95％以上的第二分类结果是“此图片不是一张合成图片”。则说明生成器可以较稳定地根据带有表情的样本图片生成不带表情的合成图片，并且生成的合成图片很逼真，可以确定生成器的训练状态达到了成熟，该生成器可实际应用了。

S14：将所述样本集合中的带有表情的样本图片输入所述待训练的生成器，再次生成合成图片

本实施例中，所述带有表情的样本图片可以是从样本集合中随机选择的，此步骤中的样本图片与步骤S12中的样本图片，不必是同一张样本图片。

S15：将所述再次生成的合成图片、以及该再次生成的合成图片对应的测试参与者的不带表情的样本图片输入所述更新后的判别器中，以得到所述更新后的判别器所产生的反馈值，并根据所述反馈值，对所述待训练的生成器进行更新，得到更新后的生成器。

本实施例中，所述再次生成的合成图片是指：步骤S14中待训练的生成器所生成的合成图片。示例地，随机从样本集合中获取一张带有表情的样本图片，该样本图片的标记为“真[1664,1,L]”，该样本图片来自于编号为1664的训练参与者。将该样本图片输入待训练的生成器，生成合成图片，该合成图片的标记为“假[1664,0,L]”，其中“1664”表示该合成图片同样是来自于编号为1664的训练参与者。本示例中，来自编号为1664的训练参与者的一张不带表情的样本图片，即为该再次生成的合成图片对应的测试参与者的不带表情的样本图片，其标记为“真[1664,0,L]”。

本实施例中，步骤S15可包括以下子步骤：

S15-1：将所述合成图片输入所述中性脸分类模块，得到所述合成图片的第三分类结果，将所述第三分类结果作为所述反馈值中的第一反馈值，根据所述第一反馈值，对所述待训练的生成器进行更新；

S15-2：将所述合成图片输入所述真假图片分类模块，得到所述合成图片的第四分类结果，将所述第三分类结果作为所述反馈值中的第二反馈值，根据所述第二反馈值，对所述待训练的生成器进行更新。

示例地，将标记为“假[1664,0,L]”的合成图片输入判别器的中性脸分类模块和真假图片分类模块，分别将中性脸分类模块和真假图片分类模块的输出结果作为反馈值中的第一反馈值和第二反馈值，并根据该第一反馈值和第二反馈值，通过梯度下降算法反向传播调整生成器的参数，从而对生成器进行训练，以更新生成器。

此外，请继续参考图3，判别器还可以包括生成相似度评估模块，该模块用于评估输入的两张图片之间的第二相似度。本实施例中，步骤S15还可包括以下子步骤：

S15-3：将所述再次生成的合成图片、以及该再次生成的合成图片对应的测试参与者的不带表情的样本图片输入所述生成相似度评估模块，得到所述再次生成的合成图片与所述不带表情的样本图片之间的第二相似度，将所述第二相似度作为所述反馈值中的第三反馈值，根据所述第三反馈值，对所述待训练的生成器进行更新。

示例地，将标记为“假[1664,0,L]”的合成图片和标记为“真[1664,0,L]”的样本图片输入生成相似度评估模块，将生成相似度评估模块输出结果作为反馈值中的第三反馈值，并根据该第三反馈值，通过梯度下降算法反向传播调整生成器的参数，从而对生成器进行训练，以更新生成器。

通过执行上述步骤S15-1至步骤S15-3，有选择地将合成图片和/或样本图片输入判别器中的各模型中，使判别器能判定由生成器生成的合成图片是否是一张不带表情的图片，是否是一张合成图片，合成相似度大小等，并根据判别器各模块的输出结果，对生成器进行更新，从而促进生成器生成逼真的、与待识别人物对应的、不带表情的合成图片。

S16：以更新后的生成器作为待训练的生成器，多次重复S12至S15，得到训练后的生成器和训练后的判别器。

本实施例中，在通过上述步骤S12至步骤S15，对生成式对抗网络中的生成器和判别器进行了一轮训练，而步骤S16中，通过使步骤S12至步骤S15多次重复地进行，从而使生成式对抗网络中的生成器和判别器进行反复地对抗训练，最终得到的训练后的生成器可以生成逼真的、与待识别人物对应的、不带表情的合成图片。

S17：将待识别图片输入所述训练后的生成器，得到不带表情的待识别图片。

本实施例中，所述训练后的生成器被应用于人脸识别实践中，用于根据待识别图片，生成不带表情的待识别图片。示例地，将一张带有表情的待识别图片输入训练后的生成器，生成器输出一张不带表情的合成的待识别图片，两张图片中的人脸指向的是同一人。

本实施例中，所述不带表情的待识别图片是指步骤S17中，由训练后的生成器根据待识别图片生成的。所述人脸识别系统可以是现有的任意人脸识别系统。通过对待识别图片进行处理，生成不带表情的待识别图片，然后将生成的不带表情的待识别图片输入现有的人脸识别系统中，使现有的人脸识别系统对该不带表情的待识别图片进行识别，提高了识别准确率。此过程可以保证在无需对现有人脸识别系统进行内部改造的情况下，通过快速简单的部署，即可增强现有人脸识别系统在识别人脸时的抗表情干扰能力，提高现有系统的识别准确率。

考虑到某些待识别图片中的人脸本来就是不带表情的图片，对于此类待识别图片，不必将其输入生成器再生成一张不带表情的合成的待识别图片。为此，在步骤S17之前，还可以包括以下步骤：

通过执行上述步骤，对于本身不带表情的待识别图片，可以不被输入训练后的生成器以重新生成不带表情的图片，因此可以减少计算量，从而提高识别效率。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种基于生成式对抗网络的抗表情干扰的人脸识别方法，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于生成式对抗网络的抗表情干扰的人脸识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述待训练的生成器包括图片编码模块和图片解码模块，所述图片编码模块用于从输入的图片中提取图片特征向量，所述图片解码模块用于根据输入的图片特征向量，生成合成图片；

4.根据权利要求3所述的方法，其特征在于，所述待训练的生成器还包括人脸特征点编码模块，用于对输入的人脸特征向量进行降维；

5.根据权利要求4所述的方法，其特征在于，所述待训练的生成器还包括人脸特征点解码模块，用于对降维后的人脸特征向量进行升维；所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述合成图片携带标记，该标记用于表征该合成图片对应的训练参与者的身份、该合成图片不带表情、该合成图片的人脸特征向量以及该合成图片是合成的；所述样本集合中的每张样本图片的标记还用于表征该样本图片不是合成的；

所述步骤S13包括：

7.根据权利要求6所述的方法，其特征在于，所述步骤S13包括：

8.根据权利要求1所述的方法，其特征在于，所述待训练的判别器包括中性脸分类模块和真假图片分类模块，所述中性脸分类模块用于判别输入的图片是否不带表情，所述真假图片分类模块用于判别输入的图片是否是合成的；所述步骤S15包括：

9.根据权利要求8所述的方法，其特征在于，所述待训练的判别器还包括生成相似度评估模块，所述生成相似度评估模块用于评估输入的两张图片之间的第二相似度；

所述步骤S15包括：

10.根据权利要求1至9任一所述的方法，其特征在于，在所述步骤S17之前，所述方法还包括：