CN107247940A

CN107247940A - 一种面部识别和聚类的联合嵌入方法

Info

Publication number: CN107247940A
Application number: CN201710460765.7A
Authority: CN
Inventors: 聂为之; 刘琛琛; 刘安安
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-06-18
Filing date: 2017-06-18
Publication date: 2017-10-13

Abstract

本发明公开了一种面部识别和聚类的联合嵌入方法，包括：将目标样本图像、正样本图像、以及负样本图像作为三元组，定义三元组的损失；从三元组中选择违反三元组等式约束的正样本图像与负样本图像，作为临界正样本图像与临界负样本图像；对临界负样本图像进行筛选获取半临界负样本图像；对半临界负样本图像进行嵌入函数模型的学习，以此加快训练模型的收敛速度，同时避免折叠模型；在分类准确率和每秒浮点计算量间进行权衡，从6种深度神经网络模型中进行深度神经网络的选择；训练模型并在测试集上进行测试，测试模型准确度、选择嵌入维度。本发明直接优化嵌入函数本身，降低了表示向量的维数，使得面部验证、面部识别、以及聚类任务变得简单。

Description

一种面部识别和聚类的联合嵌入方法

技术领域

本发明涉及面部识别领域，尤其涉及一种面部识别和聚类的联合嵌入方法。

背景技术

现有技术中存在多种对面部识别的方法，包括如下：

基于深度神经网络的方法采用了分类层，该分类层在由已知面孔构成的训练集上训练得到。此外，还采用了中间瓶颈层作为表示向量来进行泛化，从而使分类层能更好地识别新面孔，这种方法的缺点是间接性和低效性：该方法要求中间瓶颈层的表示向量对于新面孔的泛化效果足够好，此外，每个面孔的瓶颈层的表示向量的维数通常很大。

还有一些方法采用主成分分析(Principal Component Analysis,PCA)进行降维，如：参考文献^[1,2,3]的工作都采用多级复杂系统，将深层卷积网络的输出、与用于降维的PCA、以及用于分类的SVM(支持向量机)组合。然而主成分分析方法只是简单的线性变换，可以很容易的在网络中的某一层学习得到。

Sun等人^[1]提出一个紧凑，相对低廉的计算网络。主要区别是仅比较图像对，而缺点是相对距离约束较小。

发明内容

本发明提供了一种面部识别和聚类的联合嵌入方法，本发明避免了中间瓶颈层，直接优化嵌入函数本身，降低了表示向量的维数，使得面部验证、面部识别、以及聚类任务变得简单，详见下文描述：

一种面部识别和聚类的联合嵌入方法，所述方法包括以下步骤：

将目标样本图像、正样本图像、以及负样本图像作为三元组，定义三元组的损失；

从三元组中选择违反三元组等式约束的正样本图像与负样本图像，作为临界正样本图像与临界负样本图像；对临界负样本图像进行筛选获取半临界负样本图像；

对半临界负样本图像进行嵌入函数模型的学习，以此加快训练模型的收敛速度，同时避免折叠模型；

在分类准确率和每秒浮点计算量间进行权衡，从6种深度神经网络模型中进行深度神经网络的选择；

训练模型并在测试集上进行测试，测试模型准确度、选择嵌入维度。

其中，所述目标样本图像是在所述正样本图像与所述负样本图像之间强制的余量；

所述正样本图像与所述目标样本图像来自于同一人，所述负样本图像与所述目标样本图像来自不同人。

其中，所述三元组的损失具体为：

其中，x表示图像，a表示目标样本图像，p表示正样本图像，n表示负样本图像，i表示三元组，f表示嵌入函数，将一幅图像映射到一个点，N表示三元组的总数，α为在正样本图像p与负样本图像n之间强制的余量。

其中，所述对临界负样本图像进行筛选获取半临界负样本图像具体为：

满足上式的样本图像即为半临界负样本图像；

其中，x表示图像，a表示目标样本图像，p表示正样本图像，n表示负样本图像，i表示三元组，f表示嵌入函数，将一幅图像映射到一个点。

本发明提供的技术方案的有益效果是：

1、本方法只需要最小的对齐(围绕面部区域紧密作物)即可；

2、本方法在各种图像尺寸范围内具有鲁棒性，对于JPEG压缩具有令人惊讶的鲁棒性，并且在JPEG质量为20时效果较好。

3、本方法采用的端到端训练(即优化嵌入函数本身)既简化了设置，也表明直接优化嵌入函数与手头任务相关的损耗可提高方法的性能。

附图说明

图1为一种面部识别和聚类的联合嵌入模型的流程图；

图2为NN1(神经网络1)模型的网络结构示意图；

图3为NN2(神经网络2)模型的网络结构示意图；

图4为4个不同模型的完整受试者工作特征曲线示意图(receiver operatingcharacteristic curve，简称ROC曲线)；

图5为网络架构性能对比示意图；

图6为测试模型对图像质量的稳定性示意图；

图7为测试嵌入维度示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提出了一个联合方法，用于面部验证、面部识别、以及聚类。本方法是采用深度卷积网络学习图像的欧几里得嵌入函数。探索了两种不同的深度网络架构，两者都是深层卷积网络^[4,5]。第一种架构基于Zeiler&Fergus^[6]模型，该灵感来自参考文献^[7]的工作。第二种架构基于Szegedy等人的Inception模型^[8]。

一旦上述嵌入函数产生，背景技术中提到的任务就会变得很直接：面部验证只需要限定两个嵌入之间的距离，面部识别成为k-NN(k最近邻)分类问题；并且可以使用诸如k-均值或聚集聚类的现成技术实现聚类，详见下文描述：

实施例1

为了解决以上问题，需要能够进行端到端训练的方法。研究表明：使用中间瓶颈层的缺点是间接性和低效性。本发明实施例提出了面部识别和聚类的联合嵌入方法，参见图1，详见下文描述：

101：将目标样本图像、正样本图像、以及负样本图像作为三元组，定义三元组的损失；

其中，三元组的损失用于评估模型的指标，在后续步骤中获取到嵌入函数后，进行三元组损失的计算，损失最小是分类模型，验证模型，聚类模型共同的目标。

102：从三元组中选择违反三元组等式约束的正样本图像与负样本图像，作为临界正样本图像与临界负样本图像；对临界负样本图像进行筛选获取半临界负样本图像；

103：对半临界负样本图像进行嵌入函数模型的学习，以此加快训练模型的收敛速度，同时避免折叠模型；

104：在分类准确率和每秒浮点计算量间进行权衡，从6种深度神经网络模型中进行深度神经网络的选择；训练模型并在测试集上进行测试，测试模型准确度、选择嵌入维度。

其中，目标样本图像是在正样本图像与负样本图像之间强制的余量；正样本图像与目标样本图像来自于同一人，负样本图像与目标样本图像来自不同人。

其中，三元组的损失具体为：

其中，对临界负样本图像进行筛选获取半临界负样本图像具体为：

满足上式的样本图像即为半临界负样本图像；

综上所述，本发明实施例通过上述步骤101-步骤104避免了中间瓶颈层，直接优化嵌入函数本身，降低了表示向量的维数，使得面部验证、面部识别、和聚类任务变得简单，满足了实际应用中的多种需要。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：将目标样本图像、正样本图像、以及负样本图像作为三元组，定义三元组的损失；

将约束嵌入定义在d维超球面上，即||f(x)||₂＝1，f(x)为将输入图像映射到向量的嵌入函数。

为了使同一个人的面部图像间的距离小于其和另外一个人的面部图像间的距离，需要满足三元组等式约束：

其中，x表示图像，a表示目标样本图像，p表示正样本图像，n表示负样本图像，i表示三元组，f表示嵌入函数，将一幅图像映射到一个点。T表示所有三元组的集合，其包含的三元组的总数为N。目标样本图像α是在正样本图像p与负样本图像n之间强制的余量。

其中，同一个人对应多张面部图像，选择其中任意一张图像作为目标图像，然后再选择正样本图像和目标图像，需满足的条件为：正样本图像p与目标样本图像α来自于同一个人，负样本图像n与目标样本图像α来自于不同的人。

三元组损失公式如下:

其中，+表示加法。

202：从三元组中选择违反三元组等式约束的正样本图像p与负样本图像n，作为临界正样本图像p与临界负样本图像n；

即，给出选择选择在整个训练集上找到满足上述条件的和是不容易实现的。

此外，在整个训练集上找到的满足上述条件的和的方法可能导致训练不良，因为贴错标签和不良成像的面部图像将在临界正样本图像p与临界负样本图像n中占主导地位。有如下两个明显的选择可以避免这个问题：

一种方法是离线每隔n步生成三元组，使用最新的网络检查点并计算数据子集上的argmin和argmax；另一种方法是在线生成三元组。这可以通过从小批量中选择临界正样本图像p与临界负样本图像n来完成。

本方法主要通过在线产生三元组，按照几千个例子的顺序使用大型小批量，并且只计算一个小批量中的argmin和argmax。

为了使目标样本图像-正样本图像之间的距离有效表示，任何一个个体的最小数量的样本图像都要存在于每个小批量中。实验中对训练数据进行取样使得每个小批量对每个个体都选择40张左右的面部图像。另外，每个小批量中都会加入随机取样的负样本图像。

本发明实施例没有选择临界正样本图像，在选择临界负样本图像时使用了所有小批量中的所有目标样本图像-正样本图像对，本发明实施例没有将临界目标样本图像-正样本图像对、和目标样本图像-正样本图像对进行并排对比，但是发现实验中采用所有的目标样本图像-正样本图像对的方法在训练开始是更稳定并且收敛更快。

选择临界负样本图像n在实践中可能在训练早期导致不良的局部最小值，具体地，它可以导致折叠模型(即，f(x)＝0)。为了减轻这一点，选择使式(4)成立的

将满足式(4)的样本图像即为半临界负样本图像。因为这些半临界负样本图像比正样本图像离目标样本图像更远，然而仍旧是临界负样本图像，这是因为半临界负样本图像与目标样本的距离、与目标样本图像-正样本图像距离很接近。这些半临界负样本图像位于α(在正样本图像p与负样本图像n之间强制的余量)的内侧。

203：选择好半临界负样本图像后，进行嵌入函数模型的学习，半临界负样本图像能加快训练模型的收敛速度，同时避免折叠模型(即，f(x)＝0)；

嵌入函数的作用是将输入面孔图像映射为一个向量，本方法采用了面部识别和嵌入的联合嵌入方法，从而使得面部验证、面部识别、以及聚类的任务变得直接。

采用了本方法所述嵌入函数，面孔验证问题转化为设定一个阈值，具体为判断输入图像是否与目标图像属于同一个体，只需将两幅图像均由嵌入函数处理得到对应向量，若两个向量之间的距离小于阈值，则判断属于同一个体，否则则判断属于不同个体。

采用了本方法所述嵌入函数，面部识别问题可以用k-NN(k-最近邻)分类进行解决。k-最近邻分类可以对向量进行处理，指的是将与输入向量最相似的k个样本所属类别进行统计，选择最多的类别作为输入向量的类别。将输入图像和数据库内图像用嵌入函数处理得到对应向量，然后用k-最近邻分类方法进行处理，即可判断该向量所属个体。由于采用了面部识别和聚类的联合嵌入函数，对该向量所属个体判断与直接对面孔图像进行所属个体判断具有相同的结果。

采用了本方法所述嵌入函数，聚类问题可以使用诸如k-均值或聚集聚类的现成技术实现。下面以k-均值聚类为例。k均值聚类算法是先随机选取k个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。由于k均值聚类算法可以对向量进行处理。数据库内图像经嵌入函数处理后转化为向量，然后采用k均值聚类算法可以对向量进行聚类。由于采用了面部识别和聚类的联合嵌入函数，对向量进行聚类的结果与直接对面孔图像进行聚类的方法具有相同的聚类结果。

定义评估验证模型的参数为验证率(validation rate,VAL)和错误接受率(falseaccept rate，FAR)。

本发明实施例在四个数据集上评估本方法，包括：测试集、个人相册集、标记的野生面孔(LFW)^[9]和YouTube Faces DB^[10]，除了标记的野生面孔(LFW)和Youtube Faces DB，在面部验证任务上评估我们的方法。

例如：给定一对面部图像，使用平方L2距离D(x_k,x_j)来确定相同和不同的分类。相同个体的所有面部图像对(k,j)用p_same表示，而所有不同个体的所有面部图像对用p_diff表示。将所有真正接受的数据集(即相同个体的所有图像对中，满足距离小于d的图像对的集合)定义如下：

TA(d)＝{(k,j)∈p_same,withD(x_k,x_j)≤d}. (5)

其中，d表示距离，k，j为图像的下标，(k,j)表示图像对，TA为true accept(真正接受的)，TA(d)为根据给定距离d定义的真正接受的数据集。

这些是在使用阈值d时被正确分类为同一类的面部图像对(i,j)，类似的：

FA(d)＝{(k,j)∈p_diff,withD(x_k,x_j)≤d} (6)

其中，FA(d)为被错误分为同一类的图像对集(错误接受)。

对于给定的面部图像距离d，验证比率VAL(d)和错误接受率FAR(d)被定义如下：

其中，p_same表示相同个体的所有面部图像对的集合，p_diff表示不同个体的所有面部图像对的集合，x表示图像，k,j为图像的标号，d表示面部图像对间距离的阈值。

204：进行深度神经网络模型的选择，在分类准确率和每秒浮点计算量间进行权衡，主要包括6种模型，即NN1、NN2、NN3、NN4、NNS1、NNS2；

本方法所使用的深度神经网络模型都是在已有的模型的基础上进行的，本发明实施例对该6种深度神经网络模型仅做简单介绍，如下所示：

本方法的第一类模型NN1以Zeiler&Fergus^[6]模型为基础。NN1结构是在Zeiler&Fergus^[6]模型的基础上增加了一层卷积层(受参考文献[7]启发)，具体结构图见图2所示。其中输入和输出大小用rows×cols×#filters表示，核用rows×cols表示。

本方法中的第二类模型NNS1、NNS2、NN2、NN3和NN4以GoogLeNet风格Inception模型^[8]为基础。

第一种模型，NNS1，有2600万参数，每幅图像只需2.2亿每秒浮点计算量。第二种模型，NNS2，有430万参数和2000万的每秒浮点计算量。第三种模型为NN2模型。图3详细描述了最大的网络：NN2网络。第四种模型NN3与NN2的网络结构完全相同，但是输入尺寸减少到160×160。第五种模型NN4网络结构的输入尺寸只有96×96，因此戏剧性的降低了对CPU的需求(只需要2.85亿每秒浮点计算量，相对于NN2网络的16亿)。除了减小输入尺寸外，它在较高层不使用5×5的卷积，这是因为那时可行域已经太小了。一般发现将5×5卷积全部去掉只会使准确率有微小的降低。

即，除NN1外的5种模型均为inception模型，5种模型仅在参数数目和每秒浮点计算量上有所差别。

205：训练模型并在测试集上进行测试，测试模型准确度、选择嵌入维度。

由于嵌入函数会将输入图像映射为向量，而该向量的维数则为嵌入维度。显然，嵌入维度的大小会影响嵌入函数的性能。为了训练出更好的嵌入函数，本方法进行了嵌入维度的选择，从而保证在模型在具有较高准确度的前提下，选择较小的嵌入维度，从而减少运算量，提高运算速度。

在保持测试集上测试上述6种模型的性能，进行每秒浮点运算量和准确度的权衡，并计算五个测试分集的标准差。

在个人照片测试集上显示4个不同模型：NN1、NN2、NNS1、NNS2的完整受试者工作特征曲线(receiver operating characteristic curve，简称ROC曲线)。

使用NN1模型，在测试保持数据集的第一个分集上进行不同JPEG质量对验证率的影响的实验。同时改变像素的图像大小，看对验证率的影响。

在保持测试集上，改变模型NN1的嵌入维度进行对比实验。改变训练数据的大小进行对比实验，采用的具有96x96像素输入的较小模型，模型结构类似于NN2，但在初始模块中没有5x5卷积。

综上所述，本发明实施例通过上述步骤201-步骤205避免了中间瓶颈层，直接优化嵌入函数本身，降低了表示向量的维数，使得面部验证、面部识别、和聚类任务变得简单，满足了实际应用中的多种需要。

实施例3

下面结合具体的实验数据、计算公式、附图对实施例1和2中的方案进行可行性验证，详见下文描述：

保持测试集：保持一套大约一百万个图像，具有与训练集相同的分布，但不相交的身份。为了评估，将它分成五个不相交的集，每个200k图像。然后在100k×100k图像对上计算FAR和VAL率。五个分组报告标准错误。

个人照片集：这是一个测试集，与训练集具有相似的分布，但已经手动验证具有非常干净的标签。它由三个个人照片集合组成，总共大约12k图像。计算所有12k平方对图像的FAR和VAL率。

学术数据集：包括标记的野生面孔(LFW)^[9]和YouTube Faces DB^[10]。其中，标记的野生面孔(LFW)是面部验证的事实上的学术测试集。遵循无限制、标记的外部数据的标准协议，并报告平均分类精度以及标准差的平均值。

而YouTube Faces DB是一个新的数据集，在面部识别社区已经获得普及。该设置类似于LFW，但是不是验证图像对，而是使用视频对。

图4中显示了个人照片测试集的4个不同模型的完整受试者工作特征曲线(receiver operating characteristic curve，简称ROC曲线)。在10E-4时FAR的急剧下降可以由标定的真实数据的标签中的噪声来解释。模型按性能顺序为：NN2：224×224输入基于模型；NN1：具有1×1卷积的基于Zeiler&Fergus的网络；NNS1：只有220M FLOPS的小型样式模型；NNS2：微小的初始模型只有20M FLOPS。

图5比较了模型架构在保持测试集上的性能。报告指出了FAR为10E-3时的平均验证效率VAL。还示出了5个测试分集的平均标准差。

图6比较了具有96x96像素输入的较小模型的训练700小时后的性能。模型结构类似于NN2，但在初始模块中没有5x5卷积。

参考文献：

[1]Y.Sun,X.Wang,and X.Tang.Deeply learned face representations aresparse,selective,and robust.CoRR,abs/1412.1265,2014.1,2,5,8

[2]Y.Taigman,M.Yang,M.Ranzato,and L.Wolf.Deepface:Closing the gap tohuman-level performance in face verification.In IEEE Conf.on CVPR,2014.1,2,5,7,8,9

[3]Z.Zhu,P.Luo,X.Wang,and X.Tang.Recover canonicalview faces in thewild with deep neural networks.CoRR,abs/1404.3543,2014.2

[4]Y.LeCun,B.Boser,J.S.Denker,D.Henderson,R.E.Howard,W.Hubbard,andL.D.Jackel.Backpropagation applied to handwritten zip code recognition.NeuralComputation,1(4):541–551,Dec.1989.2,4

[5]D.E.Rumelhart,G.E.Hinton,and R.J.Williams.Learning representationsby back-propagating errors.Nature,1986.2,4

[6]M.D.Zeiler and R.Fergus.Visualizing and understandingconvolutional networks.CoRR,abs/1311.2901,2013.2,3,4,6

[7]M.Lin,Q.Chen,and S.Yan.Network in network.CoRR,abs/1312.4400,2013.2,4,6

[8]C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,and A.Rabinovich.Going deeper with convolutions.CoRR,abs/1409.4842,2014.2,3,4,5,6,10

[9]G.B.Huang,M.Ramesh,T.Berg,and E.Learned-Miller.Labeled faces inthe wild:A database for studying face recognition in unconstrainedenvironments.Technical Report 07-49,University of Massachusetts,Amherst,October 2007.5

[10]L.Wolf,T.Hassner,and I.Maoz.Face recognition in unconstrainedvideos with matched background similarity.In IEEE Conf.on CVPR,2011.5

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面部识别和聚类的联合嵌入方法，其特征在于，所述方法包括以下步骤：

将目标样本图像、正样本图像、以及负样本图像作为三元组，定义三元组的损失，用于得到嵌入函数后对模型进行评估；

2.根据权利要求1所述的一种面部识别和聚类的联合嵌入方法，其特征在于，

所述目标样本图像是在所述正样本图像与所述负样本图像之间强制的余量；

3.根据权利要求1所述的一种面部识别和聚类的联合嵌入方法，其特征在于，所述三元组的损失具体为：

<mrow> <munderover> <mo>&Sigma;</mo> <mi>i</mi> <mi>N</mi> </munderover> <msub> <mrow> <mo>&lsqb;</mo> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>a</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>a</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>n</mi> </msubsup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&alpha;</mi> <mo>&rsqb;</mo> </mrow> <mo>+</mo> </msub> </mrow>

4.根据权利要求3所述的一种面部识别和聚类的联合嵌入方法，其特征在于，所述对临界负样本图像进行筛选获取半临界负样本图像具体为：

满足上式的样本图像即为半临界负样本图像；