CN106650653A

CN106650653A - 基于深度学习的人脸识别和年龄合成联合模型的构建方法

Info

Publication number: CN106650653A
Application number: CN201611155795.9A
Authority: CN
Inventors: 胡海峰; 杜灵双; 李昊曦
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2017-05-10
Anticipated expiration: 2036-12-14
Also published as: CN106650653B

Abstract

本发明提供一种基于深度学习的人脸识别和年龄合成联合模型的构建方法，该方法通过对输入的一对图像进行对齐和PCA和LDA降维的预处理；并通过一个经过训练得到的自动编码器，得到用于身份表示的特征和不同年龄段表示的特征共6组，然后对6对结果经过平行CNN，输出图像相似度，之后加权融合得到匹配结果；该发明对单独的人脸识别或者年龄检测以及共同任务均能得到很好的效果，对光照、姿势影响下的人脸识别也额能取得很好的效果；由于区分开了年龄与人脸身份的特征，因此对跨年龄的人脸识别也具有鲁棒性。并且，可视要求而定调整一些参数和权值，因此非常有灵活性。

Description

基于深度学习的人脸识别和年龄合成联合模型的构建方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于深度学习的人脸识别和年龄合成联合模型的构建方法。

背景技术

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术，通常也叫做人像识别、面部识别。

由于人脸识别分类与验证均有很大的实际应用价值，所以此课题作为一个研究热点已经持续了多年时间。人脸识别在现实生活中有很广的应用前景。如安保门禁系统、公安刑侦破案、摄像监视系统、网络应用，身份辨识、支付系统中均需用到人脸识别。

然而人脸识别并不是个简单的任务。人脸的外形很不稳定，人可以通过脸部的变化产生很多表情，而在不同观察角度，人脸的视觉图像也相差很大，另外，人脸识别还受光照条件(例如白天和夜晚，室内和室外等)、人脸的很多遮盖物(例如口罩、墨镜、头发、胡须等)、年龄等多方面因素的影响。这些问题给人脸识别带来了莫大的挑战。

因此近来许多关于人脸识别研究热烈开展起来。因为一幅人脸图像的维度太大，首要任务是对人脸图像的一系列处理。如经典的主成分分析方法(PCA)，通过线性变换原理将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量；还有线性判别分析(LDA)，将带上标签的数据(点)，通过投影的方法，投影到维度更低的空间中，使得投影后的点，会形成按类别区分，一簇一簇的情况，相同类别的点，将会在投影后的空间中更接近。这样将使不同类的数据更易于分类。在本发明中，将这两种算法都作为预处理的方法。

近年基于深度学习的人脸识别方法取得了很大进展。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络(CNN)是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能，基于CNN的方法的主要思想是：首先，对输入图像利用的CNN进行卷积提取局部特征，然后在全链接层通过矩阵相乘减少维数，同时通过反向传导的梯度下降法调整参数使得整个网络结构能输出与训练集结果相差最小的分类结果。网络中倒数第二，第三层的特征可被视为原图像的全局特征，在人脸验证模型中，这些特征将会使用各种方法组合计算出两张人脸图像属于同一个人的概率，通过与参考集一一比对以完成最终的识别过程。本发明将CNN方法用于身份识别过程。

虽然上述方法都取得了很大的进展，但在处理跨年龄的人脸识别方向还有待探索。年龄增长给人脸带来的巨大变化大大影响了人脸识别算法的精度。所以跨年龄的人脸识别仍需更有效的算法来解决。

发明内容

本发明提供一种基于深度学习的人脸识别和年龄合成联合模型的构建方法，该方法构建的模型可同时抑制身份表达和年龄表达的相关度，来达到年龄不变的人脸识别的目的。

为了达到上述技术效果，本发明的技术方案如下：

一种基于深度学习的人脸识别和年龄合成联合模型的构建方法，包括以下步骤：

S1：对图像进行切片预处理：根据双眼中心进行对齐，采用PCA和LDA的方式进行降维，以及达到增大类间差距的目的；

S2：编码：通过训练数据得到的一个自动编码器对输入特征向量进行编码。该编码器的目的是将原图特征通过某种编码方式合成新的特征，用于表达身份或者年龄的相关信息，对任何输入的图片，该编码器将生成六组不同的表达：

第一组为身份表达，对原特征减去平均脸后的映射编码，反映个体的身份的稳定信息；

第二组至第六组分别为幼年、少年、成年、中年、老年五个年龄段下原图像的合成图像的表达，这一部分的编码过程与上述相似，不同的是输入是原图信息，这五组编码器的作用是模拟老化过程来合成特定年龄组的图片，

然后通过损失函数和一定的约束规则来控制消除年龄对身份表达的影响，即在年龄合成中起到重要作用的特征，降低它在身份表达中起的作用；

S3：对每对图像进行身份匹配验证：测试图像与一幅训练图像作为一对，由编码器得到的六对特征分别通过平行CNN，Softmax层将给出输入的一对特征的相似度的大小；

令I_a，I_b为一对输入图像，则相似得分表示为：

s(I_a,I_b)＝soft max(Ws|o(I_a)-o(I_b)|+b_s)

其中，o()表示CNN中全连接层的输出，Ws和b_s为softmax层的参数；

对这六个结果进行加权平均即可得到验证结果，其中身份表达占的比重较大；五对年龄合成的相似度表示在五个年龄段里的相似度，作为参考因素，占的比重比身份表达要小，由此将得到两幅图像匹配的概率：

score＝as₁+(1-a)(s₂+s₃+s₄+s₅+s₆)；

S4：对所有特征得到的相似得分结果进行余弦相似度融合，即可得到最终的结果。

进一步地，所述步骤S2中，使用的编码器由训练库中的数据训练得出，该编码器将生成6组不同的表达：

S21：第一组为身份表达，是对原特征减去平均脸后的映射编码，假设输入的第i个人的人脸图片表示为X_i训练库中所有人脸图像的均值为M，则Y_i＝X_i-M反映的是该脸的独特信息，然后对Y_i进行编码：

假设编码由3层结构组成，每一层以上一层的输出作为输入，层数为j的输出表示为h_j则编码过程可表示为h_j＝W_jσ(h_j-1)+b_j，第一层的输入为Y_i，

则编码过程的映射表示为：

h＝Wσ(Y+b)

同时，编码后的图像重构可表示为Y'＝W'σ(h'+b')

这一部分参数W，b由最小化一个损失函数来获得，该损失函数表示原图减去平均脸的信息与由编码后重构的信息的距离的平方损失，该过程的损失函数表示为：

S22：第二组至第六组分别为幼年、少年、成年、中年、老年等5个年龄段下原图像的合成图像的表达，这一部分的编码过程与上述相似，不同的是输入是原图信息X_i，这一部分损失函数由每一组与库内同类同年龄组的原图的平方损失来表示，因此这里有5个不同的年龄合成的编码器，每一个编码器有不同的编码参数，因此损失函数为这5个编码器的生成的结果重构与原图的距离平方损失：

于是联合损失函数L＝L₁+L₂，表示两个不同的编码过程中原特征与重构特征的损失，这一部分是表示对原图特征的共享；

S23：要抑制年龄对身份表达的影响，即对年龄合成很重要的那部分特征，应该削弱其在身份表达中的作用，用一个矩阵Φ来表示在编码过程中反映的原图特征的重要程度，可表示为其中令s(j)为W_j作用的特征，m_kj＝δ(s(j)-k)＝1当且仅当s(j)＝k，即，M为将编码参数映射为特征重要程度的矩阵；

表示身份表达过程中反映的特征重要性矩阵；表示年龄合成表现出来的特征重要性矩阵，然后对联合损失函数加入了一个约束：目的是减小身份表达和年龄表达之间的相关度；

S24：编码器的参数表示为θ＝{W,b}，总损失函数L(θ)＝L₁+L₂+L₃通过最小化总损失函数来训练整个编码部分：W,b＝arg minL(θ)对该式求解利用交替贪婪联合下降算法，先固定b，对W求梯度下降的最优解；再固定W，对b求梯度下降的最优解，直到迭代收敛。

进一步地，所述步骤S3中，平行CNN的训练步骤如下：

用训练库中人脸图像，分别以多尺度矩形框截取人脸图像的多个部分的图像，成对作为CNN的输入进行预训练，平行CNN的结构有九个层次，是由随机梯度下降来训练，输入层需要一对图像作为输入，接下来的三个卷积层通过最大池层提取判别图像分层的功能，然后用一个非线性激活函数用于对输入进行卷积运算后的数据，在这用修正的线性函数Relu为激活函数，完全连接层通过学习一个语义空间，使同一个人的一对图像的相似性得分被放大，而来自不同的人的图像对的相似度减小，除了卷积特征从输入的人脸纹理中提取，归一化的坐标的68个地标相结合，作为一个132维向量，也被纳入学习的歧视性空间，最后一层是一个softmax层产生的相似性输入图像对的分数，在输入的图像对之间，输入端到完全连接层的参数共享。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过对输入的一对图像进行对齐和PCA和LDA降维的预处理；并通过一个经过训练得到的自动编码器，得到用于身份表示的特征和不同年龄段表示的特征共6组，然后对6对结果经过平行CNN，输出图像相似度，之后加权融合得到匹配结果；该发明对单独的人脸识别或者年龄检测以及共同任务均能得到很好的效果，对光照、姿势影响下的人脸识别也额能取得很好的效果；由于区分开了年龄与人脸身份的特征，因此对跨年龄的人脸识别也具有鲁棒性。并且，可视要求而定调整一些参数和权值，因此非常有灵活性。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于深度学习的人脸识别和年龄合成联合模型的构建方法，包括以下步骤：

令I_a，I_b为一对输入图像，则相似得分表示为：

s(I_a,I_b)＝soft max(Ws|o(I_a)-o(I_b)|+b_s)

score＝as₁+(1-a)(s₂+s₃+s₄+s₅+s₆)；

步骤S2中，使用的编码器由训练库中的数据训练得出，该编码器将生成6组不同的表达：

则编码过程的映射表示为：

h＝Wσ(Y+b)

同时，编码后的图像重构可表示为Y'＝W'σ(h'+b')

S24：编码器的参数表示为θ＝{W,b}，总损失函数L(θ)＝L₁+L₂+L₃通过最小化总损失函数来训练整个编码部分：W,b＝arg min L(θ)对该式求解利用交替贪婪联合下降算法，先固定b，对W求梯度下降的最优解；再固定W，对b求梯度下降的最优解，直到迭代收敛。

步骤S3中，平行CNN的训练步骤如下：

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习的人脸识别和年龄合成联合模型的构建方法，其特征在于，包括以下步骤：

令I_a，I_b为一对输入图像，则相似得分表示为：

s(I_a,I_b)＝soft max(Ws|o(I_a)-o(I_b)|+b_s)

score＝as₁+(1-a)(s₂+s₃+s₄+s₅+s₆)；

2.根据权利要求1所述的基于深度学习的人脸识别和年龄合成联合模型的构建方法，其特征在于，所述步骤S2中，使用的编码器由训练库中的数据训练得出，该编码器将生成6组不同的表达：

则编码过程的映射表示为：

h＝Wσ(Y+b)

同时，编码后的图像重构可表示为Y'＝W'σ(h'+b')

S24：编码器的参数表示为θ＝{W,b}，总损失函数L(θ)＝L₁+L₂+L₃通过最小化总损失函数来训练整个编码部分：W,b＝argminL(θ)对该式求解利用交替贪婪联合下降算法，先固定b，对W求梯度下降的最优解；再固定W，对b求梯度下降的最优解，直到迭代收敛。

3.根据权利要求2所述的基于深度学习的人脸识别和年龄合成联合模型的构建方法，其特征在于，所述步骤S3中，平行CNN的训练步骤如下：