CN109255289B

CN109255289B - 一种基于统一式生成模型的跨衰老人脸识别方法

Info

Publication number: CN109255289B
Application number: CN201810839535.6A
Authority: CN
Inventors: 陈家祥; 柏邱建; 潘力立
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2021-10-26
Anticipated expiration: 2038-07-27
Also published as: CN109255289A

Abstract

本发明提出了一种基于统一式生成模型的跨衰老人脸识别方法，属于计算机视觉和机器学习技术领域，涉及人脸识别中的跨衰老识别问题。该方法首先假设深度网络提取出的人脸身份特征并不能完全剔除人脸上衰老的信息，然后利用生成方法补全建立字典库缺失的年龄图片，再通过人脸识别网络提取出每张图片的特征，接着把相关的图片特征进行融合，然后求出待测图片特征与字典库中每一个特征的余弦相似度，最后把余弦相似度最大的作为正确匹配对象。本发明的方法，可以用于各种场景下的跨衰老人脸识别。

Description

一种基于统一式生成模型的跨衰老人脸识别方法

技术领域

本发明属于计算机视觉和机器学习技术领域，涉及人脸识别中的跨衰老识别问题。

背景技术

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。它是近年来计算机视觉和机器学习领域研究的热门问题，在人机交互、安全驾驶和关注度分析等方面都有非常广泛的应用。而由于人的年龄跨度有时会很大，这会造成人的面部衰老特征尤为明显，跨衰老人脸识别针对的正是此类问题。跨衰老人脸识别能帮助人们寻找失散儿童，进行年龄预测等。近年来，跨衰老人脸识别问题在度量学习和深度学习发展的基础上，有了进一步的发展。现有跨衰老人脸识别方法可以分为两个大的类别：1.基于判别的方法，2.基于生成的方法。

基于判别的跨衰老人脸识别方法的基本原理是将输入的人脸图片通过网络提取特征后再将特征映射进一个设计好的特征空间中，以期进一步减少特征中的年龄信息，达到良好的识别效果。该类方法最大的缺陷在于对同一人的年龄图片要求很高，但是现实生活中这类图片很难收集，总有很多年龄缺失，会对识别问题带来很大的干扰。参见文献：B.C.Chen,C.S.Chen,W.H.Hsu,Face Recognition and Retrieval Using Cross-AgeReference Coding With Cross-Age Celebrity Dataset.IEEE Transactions onMultimedia,vol.17,no.6,pp.804-815,2015.

基于生成的跨衰老人脸识别方法是指在进行人脸识别时，将待测图片通过合成的方法生成特定年龄的图片。该类方法中大多基于自编码器(Autoencoder)或者生成式对抗网络(Generative Adversarial Networks)。由于生成方法都有着很强的假设条件(假设样本满足多维正态分布)，有时会导致生成的人脸图片不真实，同时计算过程过于繁琐，需要的计算资源很大。参见文献：G.Antipov,M.Baccouche,J.L.Dugelay,Face Aging WithConditional Generative Adversarial Networks.In Proceedings of the IEEEInternational Conference on Image Processing，pp.2089-2093,2017.

发明内容

本发明的任务是提供一种基于统一式生成模型的跨衰老人脸识别方法。该方法利用统一式生成模型生成每一原图的衰老图片序列，再利用深度网络提取人脸图片的身份特征，最终建立字典库来进行人脸识别。通过上述方法，能很好地提高跨衰老人脸识别问题的准确性。

为了方便地描述本发明内容，首先对一些术语进行定义。

定义1：跨衰老人脸识别。人脸识别的一个分支，针对的是年龄差距大，差别明显的人脸识别问题。在图1给出了同一个人在不同年龄时的面部图片。

定义2：人脸对齐。将拍摄到的不同角度、不同大小的人脸归一化成正面且大小相同人脸图片。人脸对齐涉及特征点检测和归一化的过程。人脸对齐是人脸相关工作的重要步骤，能很好地帮助后续工作的展开。目前人脸对齐方法已经相对成熟。在图2给出了一幅图片对齐前和对齐后的效果。

定义3：CASIA-WebFace数据库。由中国科学院自动化研究所生物识别与安全技术研究中心提出，包含10575个人的共494414张图片，每个人的图片都有身份标签，常用于人脸识别研究。

定义4：FGNET数据库。包含82个人的共1002张图片，每个人的图片都有身份和年龄标签，年龄跨度为0-69岁，常用于跨衰老人脸识别研究。

定义5：UTK face数据库。包含23708张图片，每张图片都有年龄、性别和种族标签，年龄跨度为0-116岁，常用于人脸检测、年龄预测等研究。

定义6：OpenCV库。是一个基于BSD许可(开源)发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图片处理和计算机视觉方面的很多通用算法，是使用最多的视觉库之一。

定义7：Inception-Resnet V1网络。是由Google在15年提出，建立块(block)将不同的卷积结果堆叠在一起，一方面增加了网络的宽度，另一方面增加了网络对尺度的适应性。在图3给出了该网络的结构图。

定义8：UnifiedGAN网络。统一式生成网络，一种基于条件生成对抗式网络的改进网络，可以针对一张待测图片生成各个不同年龄段的新图片，并很好地保留原有身份信息。图4给出了该网络的结构图，图5给出了一张图片通过该网络得到的所有生成图。

定义9：Softmax loss。应用Softmax分类方法时得到的损失函数。Softmax分类是一种多分类方法，用于处理分类结果达两个以上的问题，目的是使得分类结果类别之间的差距明显。Softmax loss用符号

来表示，

其中

表示第i个特征是d维的，属于第y_i类；

是最后全连接层的权重矩阵

的第j列，

是权重项。m表示样本个数，n表示样本类别数。

定义10：Center loss。在求解多分类问题时，应用Center loss可以使得样本距离自己类别中心的距离更近，也就是减少类内距离。Center loss用符号

来表示，

其中

表示第i个特征是d维的，属于第y_i类。

表示第y_i类的类中心。m表示样本个数。

定义11：余弦相似度。余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。两个向量之间的余弦相似度表示为

其中x,y表示两个向量，||x||，||y||表示两个向量的模。

定义12：

范数。是向量所有元素的平方和再开平方。对一个向量

它的

范数表示为

其中a_i表示向量a中的元素。

范数的作用是改善过拟合。过拟合是：模型训练时候的误差很小，但是测试误差很大，也就是说模型复杂到可以拟合到所有训练数据，但在预测新的数据的时候，结果很差。通过对网络权重施加

范数约束，可以使得权重的每个元素都很小，都接近于0。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。

按照本发明的一种基于统一式生成模型的跨衰老人脸识别方法，它包含以下步骤：

步骤1：获取人脸数据库；将获得人脸数据库分为3部分，分别为A部分，B部分，C部分；

步骤2：对下载的图片进行人脸对齐处理；

进一步的，所述步骤2处理之后的大小为128×128像素的图片；对齐时首先检测出人脸上的5个特征点：左眼、右眼、鼻尖、左嘴角、右嘴角，然后根据两眼之间的距离和角度旋转图片并分割，使得人面部处于图片中心位置。

步骤3：利用步骤2处理后的A部分数据库图片训练一个人脸识别网络，该网络结构采用Inception-Resnet V1(如图3)，训练的损失函数采用Softmax Loss，Center Loss以及网络参数权重

范数的组合，总的损失函数用符号

表示，

其中

表示第i个特征是d维的，属于第y_i类；

是最后全连接层的权重矩阵

的第j列，

是权重项；m表示样本个数，n表示样本类别数；

表示第i个特征是d维的，属于第y_i类；

表示第y_i类的类中心；m表示样本个数；两个超参数λ_c和λ_w用于调节Center Loss和权重

范数在总的损失函数中的比重；

步骤4：利用步骤2处理后的B部分数据库图片训练一个年龄图片生成网络，该网络采用UnifiedGAN的网络结构(见图4)；训练时损失函数分为两部分；其中生成器的损失函数用

来表示，

其中β是超参数，调节损失权重；公式中的第一项

是传统条件生成对抗网络的生成器损失函数，z表示输入的随机噪声信号，服从p_z(z)分布，这里取-1到1之间的均匀分布；l表示年龄标签，p_data(l)是年龄分布；G(z，l)表示生成器根据输入的随机信号和年龄标签生成的年龄图片，D_a(G(z，l)，l)则表示判别器D对生成图片的判别结果，是判断是否为真实图片的概率值，该值为1表示判断为真实图片；公式中的第二项

表示原图和生成图之间的差别，是两张图片像素级别的比较；其中I表示输入原图即真实图片，D_z(I，l)表示原图通过判别器后提取出的特征，G(D_z(I，l)，l)表示根据原图特征和年龄信息重构出的生成图；

判别器的损失函数用

来表示，

其中γ是超参数，调节损失权重；公式中的第一项

是传统条件生成对抗网络的判别器损失函数，符号表示与前述一致；公式中第二项

表示原图和生成图的隐特征之间的差别，是隐特征向量的比较。其中符号表示与前述一致；

步骤5：利用步骤4中训练好的生成网络，将步骤2处理后的C部分数据库图片生成不同年龄段的新图片，每张原图分别生成10个年龄段的图片，以编号0,1,2,3,4,5,6,7,8,9代表年龄段0-5岁，6-10岁，11-20岁，21-30岁，31-40岁，41-50岁，51-60岁，61-70岁，71岁及以上；所有原图和生成图组成一个新的集合；

步骤6：利用步骤3中训练好的人脸识别网络，提取出步骤5新的集合中所有图片的特征，第i个人的第j张图片生成的第k个年龄段的图片提取出的特征用符号

来表示；

进一步的，所述步骤6提取出的特征为128维。

步骤7：测试；测试方法如下：取步骤6中每人一张原图的特征作为测试集，采用如下两种方法的中的任意一种构建其余原图与其生成图的特征共同构造特征字典库：

方法(1)将同一个人同一年龄段的所有生成图特征作平均化处理，融合为一个特征，这样每一个人最终均有10个生成图特征，然后将原图和生成图的特征都放入字典集中建立字典，平均化后，第i个人的第k个年龄段的图片特征用符号

来表示，

其中m_i表示第i个人在该年龄段的图片数目。

方法(2)将同一个人同一年龄段的不同生成图作加权平均化处理，融合为一个特征，权重分配根据原图年龄与生成图的年龄差构成；这样每一个人均有10个生成图特征，将原图和生成图都放入字典集中建立字典，加权平均化后，第i个人的第k个年龄段的图片特征用符号

来表示，

其中

表示第i个人第j张图片的生成图对应的权重向量，

是该向量的第k个元素，表示生成图序列中的第k张图在加权平均时对应的权重值；

进一步的，实验中采用的权重值依据原图所在年龄段共有10种，依次对应0-5岁，6-10岁，11-20岁，21-30岁，31-40岁，41-50岁，51-60岁，61-70岁，71岁及以上这10个年龄段，它们分别为

[0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1,0.05,0.01]

[0.7,0.8,0.7,0.6,0.5,0.40.3,0.2,0.1,0.05]

[0.6,0.7,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1]

[0.5,0.6,0.7,0.8,0.7,0.6,0.5,0.4,0.3,0.2]

[0.4,0.5,0.6,0.7,0.8,0.7,0.6,0.5,0.4,0.3]

[0.3,0.4,0.5,0.6,0.7,0.8,0.7,0.6,0.5,0.4]

[0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.7,0.6,0.5]

[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.7,0.6]

[0.05,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.7]

[0.01,0.05,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8]

步骤8：计算步骤7中得到的测试集图片特征与字典库中各特征的余弦相似度，选择相似度最大的作为匹配图片。

进一步的，所述步骤8的具体方法为，匹配结果表示为x_match,那么该特征向量对应的人即为待测图片匹配到的人，

其中

表示第i个人的第k个年龄段的生成图片平均化后的特征，x_t表示测试图片的特征，Cosine(x，y)表示两个特征向量的余弦相似度。

需要说明的是：

步骤6中构建字典库的第二个方法即加权平均时，权重按照年龄差设计。年龄差越小则权重越大，年龄差越大则权重越小。实际权重根据实验需要可以调整。

本发明的创新之处在于：

提出了基于统一式生成模型的跨衰老人脸识别方法，该方法首先假设深度网络提取出的人脸身份特征并不能完全剔除人脸上衰老的信息，然后利用生成方法补全建立字典库缺失的年龄图片，再通过人脸识别网络提取出每张图片的特征，接着把相关的图片特征进行融合，然后求出待测图片特征与字典库中每一个特征的余弦相似度，最后把余弦相似度最大的作为正确匹配对象。实验证明，按照步骤7、8中的测试方法进行测试，在不加入生成图片时，FGnet数据库上的准确率为87.2805％，而加入生成图片后按照步骤7中方法(1)构建字典库时准确率为92.3293％，按照步骤7中方法(2)构建字典库时准确率为92.7073％。

附图说明

图1为同一个人在不同年龄时的面部图片；

图2为人脸对齐效果示意图；

图3为Inception-ResNet-v1网络结构图；

图4为UnifiedGAN网络结构示意图；

图5为输入图片与生成图片序列示意图。

图3中Inception-ResNet-v1网络结构图。图(a)为网络总结构，图(b)-(g)为模块结构。图4中：UnifiedGAN网络结构示意图。左图中z表示随机噪声向量，l表示年龄。把两者级联后通过生成器G重构出年龄图片，再将该图通过判别器D得到经典条件生成网络的损失

以及新的特征向量z′，后者与输入向量z构成损失

右图中x表示输入图片，与年龄l级联后通过判别器D得到经典条件生成网络的损失

以及图片特征向量z,后者再与年龄级联后通过生成器G生成新的年龄图片x′，与原图构成损失

具体实施方式

根据本发明的方法，首先采集一定数量的人脸图片并记录这些图片对应的人的身份编号和年龄，根据本发明专利，利用Python语言编写人脸对齐程序，并对所有采集到的图片作对齐处理，然后分为训练图片和字典库图片；接着编写基于深度模型的跨衰老人脸识别程序和基于条件生成模型的年龄图片生成程序，并用训练图片训练本发明对应的两个模型的参数：识别模型和生成模型；接着将字典库图片通过生成模型生成各个年龄段的人脸图片；再将生成的图片通过人脸识别模型提取出特征并进行平均化处理，建立字典库；应用时需要将新的待测图片通过人脸对齐之后送入身份识别网络提取出特征然后与字典库中的特征进行比较，求得余弦相似度最大的即为匹配到的图片。

一种基于生成模型的跨衰老人脸识别方法，它包含以下步骤：

步骤1：获取人脸数据库；共需要3个数据库，分别是CASIA-WebFace数据库(下载地址：http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html)，FGNET数据库(下载地址：http://sting.cycollege.ac.cy/～alanitis/fgnetaging/index.html)和UTKface数据库(下载地址：https://susanqq.github.io/UTKFace/)；

步骤2：对下载的图片进行人脸对齐处理；处理之后的大小为128×128像素的图片。对齐时采用OpenCV-dlib处理库检测出人脸上的5个特征点(左眼、右眼、鼻尖、左嘴角、右嘴角)，然后根据两眼之间的距离和角度旋转图片并分割，使得人面部处于图片中心位置。

步骤3：利用步骤2处理后的CASIA-WebFace数据库图片训练一个人脸识别网络，该网络结构采用Inception-Resnet V1(见图3)，训练的损失函数采用Softmax Loss，CenterLoss以及网络参数权重

范数的组合，总的损失函数用符号

表示，

其中

表示第i个特征是d维的，属于第y_i类。

是最后全连接层的权重矩阵

的第j列，

是权重项。m表示样本个数，n表示样本类别数；

表示第i个特征是d维的，属于第y_i类。

表示第y_i类的类中心。m表示样本个数；两个超参数λ_c和λ_w用于调节Center Loss和权重

范数在总的损失函数中的比重；

步骤4：利用步骤2处理后的UTK face数据库图片训练一个年龄图片生成网络，该网络采用UnifiedGAN的网络结构(见图4)；训练时损失函数分为两部分；其中生成器的损失函数用

来表示，

其中β是超参数，调节损失权重；公式中的第一项

判别器的损失函数用

来表示，

其中γ是超参数，调节损失权重；公式中的第一项

表示原图和生成图的隐特征之间的差别，是隐特征向量的比较。其中符号表示与前述一致。

步骤5：利用步骤4中训练好的生成网络，将步骤2处理后的FGNET数据库图片生成不同年龄段的新图片，每张原图分别生成10个年龄段的图片，以编号0,1,2,3,4,5,6,7,8,9代表年龄段0-5岁，6-10岁，11-20岁，21-30岁，31-40岁，41-50岁，51-60岁，61-70岁，71岁及以上；所有原图和生成图组成一个新的集合；

步骤6：利用步骤3中训练好的人脸识别网络，提取出步骤5新的集合中所有图片的特征，特征为128维，第i个人的第j张图片生成的第k个年龄段的图片提取出的特征用符号

来表示；

步骤7：测试；测试方法如下：取步骤6中每人一张原图的特征作为测试集(在FGNET数据库中共有82人，故取82张不同人图片的特征作为测试集)，其余原图与其生成图的特征共同构造特征字典库，这里有两种方法构建：(1)将同一个人同一年龄段的所有生成图特征作平均化处理，融合为一个特征，这样每一个人最终均有10个生成图特征，然后将原图和生成图的特征都放入字典集中建立字典，平均化后，第i个人的第k个年龄段的图片特征用符号

来表示，

其中m_i表示第i个人在该年龄段的图片数目。

(2)将同一个人同一年龄段的不同生成图作加权平均化处理，融合为一个特征，权重分配根据原图年龄与生成图的年龄差构成。这样每一个人均有10个生成图特征，将原图和生成图都放入字典集中建立字典，加权平均化后，第i个人的第k个年龄段的图片特征用符号

来表示，

其中

表示第i个人第j张图片的生成图对应的权重向量，

是该向量的第k个元素，表示生成图序列中的第k张图在加权平均时对应的权重值。以原图年龄在31-40岁间为例，其生成图10个年龄段在加权平均时对应的权重值分别为

[0.3,0.4,0.5,0.6,0.7,0.8,0.7,0.6,0.5,0.4]

步骤8：计算步骤7中得到的测试集图片特征与字典库中各特征的余弦相似度，选择相似度最大的作为匹配图片，那么以步骤7-(1)构建的字典库计算，匹配结果表示为x_match,那么该特征向量对应的人即为待测图片匹配到的人，

其中

需要说明的是：

步骤6中构建字典库的第二个方法即加权平均时，权重按照年龄差设计。年龄差越小则权重越大，年龄差越大则权重越小。