CN1276380C

CN1276380C - 使用部分学习模型的面部识别的方法

Info

Publication number: CN1276380C
Application number: CNB028189949A
Authority: CN
Inventors: S·V·R·古特塔; V·菲尔洛明; M·特拉科维
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-09-28
Filing date: 2002-09-10
Publication date: 2006-09-20
Anticipated expiration: 2022-09-10
Also published as: EP1433118B1; ATE313831T1; KR20040037180A; CN1559051A; WO2003030085A1; DE60208223D1; US7308133B2; EP1433118A1; JP2005505062A; US20030063780A1; DE60208223T2

Abstract

一种用于对面部图像数据进行分类的方法，该方法包括以下步骤：训练一个分类器设备以便识别一个或多个面部图像和得到该面部图像被用于训练的相应学习模型；把包括代表要被识别的一部分未知面部图像的数据的矢量输入到该分类器；按照分类方法对该部分未知面部图像进行分类；重复进行输入和分类步骤，在每次迭代时使用该未知面部图像的不同部分；以及标识由到该分类器的不同部分输入而引起的单个类别。

Description

使用部分学习模型的面部识别的方法

技术领域

本发明涉及面部识别系统，具体地，涉及一种通过使用部分的学习模型进行面部识别的方法。

背景技术

现有的面部识别系统试图通过将未知的面孔与那个主体的面孔的先前实例进行匹配来识别该未知的面孔。这典型地是通过使用该主体面孔的先前实例来训练分类器，然后使用经过训练的分类器、通过将该主体面孔的先前实例与该主体面孔的新实例进行匹配来识别该主体。众所周知，训练分类器牵涉到学习主体的面孔的模型。现有的系统在分类期间使用整个模型。

虽然任何模式识别系统的设计的最终目的是得到最好的可能的分类(预测)性能，但这个目的在传统上导致开发出了对于要被解决的任何模式识别问题的不同分类方案。然后不同设计方案的实验评估结果便作为基础来选择其中一个分类器(模型选择)作为问题的最终解决方案。在这样的设计研究中已经看到，虽然其中一个设计将产生最好的性能，但由不同的分类器误分类的图案组不一定重叠，正如在Kittler，J.，Hatef，H.和Duin，R.P.W.的、题目为“Combining Classifiers(组合分类器)”，Proceedings of the 13^th International Conference on patternRecognition，Vol.II，第897-901页，奥地利维也纳，1996的参考文献中认识到的。这篇文章提出，不同的分类器设计潜在地提供有关要被分类的图案的互补的信息，这可被利用来改进总的性能。

在神经网络应用中通常的做法是训练许多不同的候选网络，然后根据例如独立的验证组的性能来选择最好的网络，以及只保留这个网络，且丢弃其余网络。这样的方法有两个缺点。首先，与训练其余网络有关的所有努力被浪费。第二，验证组的通用化性能由于数据中的噪声而具有随机的成分，所以对于验证组具有最好性能的网络不一定是对新的或未见到的测试数据具有最好性能的网络。这些缺点可以通过把网络组合在一起以形成网络的委员会(committee)而克服。这样的方法的重要性在于，它可导致对新数据的预测的重大改进，而同时只牵涉到很小的附加计算工作。事实上，委员会的性能可以比孤立地使用的最好单个网络的性能更好，正如在C.M.Bishop的、题目为“Neural Network for PatternRecognition(用于模式识别的神经网络)”，Oxford Press，Oxford，UK，第364-377页，1997的参考书中讨论的。

为了识别面孔，识别系统采用多个分类器，该每个分类器对个体面孔的轮廓进行训练。根据探测器(测试图像)的呈现，把该探测器与每个学习模型进行匹配，以及从每个分类器得到的分数被使用，直到达到一致的决定。训练多个分类器的明显的缺点是，在训练和存储模型文件时浪费许多时间和空间。

因此非常希望提供一种面部识别系统和方法，由此作为对使多个分类器对个体面孔的各个轮廓进行训练的替代，可以使单个分类器对个体面孔的正面面孔或多个轮廓进行训练。

还非常希望提供一种面部识别系统和方法，其中一个主体模型的各部分被实施和被使用来相对一个主体面孔的不同部分进行匹配。也就是，在测试期间，通过把学习模型的不同部分与未知的面部图像进行匹配而标识该未知的面部图像。

发明内容

因此，本发明的一个目的是提供一种实施分类器(例如RBF网络)的方法，该分类器可被训练来识别一个个体面孔的正面面孔或多个轮廓。

本发明的另一个目的是提供一种实施单个分类器设备的面部识别方法，该单个分类器设备已经对主体的面孔的正面轮廓进行训练，以及在测试期间，取未知的测试图像并使用不同的部分把它与学习模型进行匹配。

优选地，在相对每个部分进行匹配后，确定匹配的概率，然后组合分数，以便达到一个一致的决定。例如，被分类的每个部分将生成一张选票。也就是，如果使用十(10)个部分，则将得到10张选票。然后，使用简单的投票规则(例如，如果10张中的6张是支持“A”，则主体的身份是“A”)来确定该个体的身份。

按照本发明的原理，提供了一种用于对面部图像数据进行分类的方法，该方法包括以下步骤：训练一个分类器设备以便识别一个或多个面部图像和得到该面部图像被用于训练的相应学习模型；把包括代表要被识别的一部分未知面部图像的数据的矢量输入到该分类器中；按照分类方法对该部分未知面部图像进行分类；重复进行输入和分类步骤，在每次迭代时使用该未知面部图像的不同部分；以及识别由输入到该分类器的不同部分所产生的单个类别。

有利地，虽然可能使用RBF分类器，但应当看到，也可以使用其他方法，包括各种概率/统计方法的组合。

附图说明

借助于以下列出的附图，在下文中描述这里揭示的本发明的细节，其中：

图1总的显示传统的三层后向传播网络的结构，根据该网络，构成按照本发明的原理实施的RBF网络；

图2显示馈送到网络的一组面部图像的样本。

具体实施方式

为了描述起见，实施径向基函数(“RBF”)分类器，尽管可能实施任何分类方法/设备。RBF分类器设备是从2001年2月27日提交的、题目为“Classification of objects through model ensembels(通过模型集群的对象分类)”的、共同拥有的、共同待决的美国专利申请序列号No.09/794,443(被公布为WO02/069267)可获得的，该专利申请的整个内容和公开内容在此整体引用，以供参考。

现在参照图1描述在共同拥有的、共同待决的美国专利申请序列号No.09/794,443中揭示的RBF网络的结构。如图1所示，基本RBF网络分类器10按照传统的三层后向传播网络被构建，包括由源节点(例如k个传感单元)组成的第一输入层12；包括i个节点(其功能是聚类数据和减小它的维数)的第二或隐层14；以及包括j个节点(其功能是提供网络对于加到输入层12的激活模式的响应20)的第三或输出层18。从输入空间到隐单元空间的变换是非线性的，而从隐单元空间到输出空间的变换是线性的。特别地，正如C.M.Bishop，“Neural Network for PatternRecognition(用于模式识别的神经网络)”，Clarendon Press，Oxford，1997的参考书中讨论的(该书的内容和公开内容在此引用，以供参考)，可以按照两种方式来看待RBF分类器网络：1)把RBF分类器10解释为一组核心功能，它们把输入矢量扩展为高维空间，以便利用数学论据：与低维空间中的分类问题相比，被透射到高维空间的分类问题更可能是线性可分离的；以及2)把RBF分类器10解释为函数映射内插方法，该方法试图通过取基函数(BF)的线性组合而构建超曲面(hypersurface)，每个类别一个超曲面。这些超曲面可被看作为鉴别函数，其中该超曲面对于它代表的类别具有高的数值，以及对于所有其他类别具有低的数值。未知的输入矢量被分类为属于与在该点具有最大输出的超曲面有关的类别。在这种情形下，BF不用作为用于高维空间的基，而用作为在想要的超曲面的有限扩展中的分量，其中分量系数(权重)必须被训练。

进一步参考图1，RBF分类器10，在输入层12和隐层14之间的连接22具有单位权重，且作为结果，它们不必被训练。在隐层14中的节点，即所谓的基函数(BF)节点，具有由特定的均值矢量μ_i(即，中心参量)和方差矢量σ_i ²(即，宽度参量)规定的高斯脉冲非线性，其中i＝1，...，F，以及F是BF节点的数目。应当指出，σ_i ²代表高斯脉冲(i)的协方差矩阵的对角线元素。给定D维输入矢量X后，每个BF节点(i)输出一个反映由该输入引起的BF的激活的标量数值y_i，如以下的公式(1)表示的：

y_{i} = φ_{i} (| | X - μ_{i} | |) = \exp [- Σ_{k = 1}^{D} \frac{{(x_{k} - μ_{ik})}^{2}}{2 h {σ^{2}}_{ik}}] - - - (1)

其中h是用于方差的比例常数，x_k是输入矢量X＝[x₁，x₂，...，x_D]的第k个分量，以及μ_ik和σ_ik ²分别是基本节点(i)的均值和方差矢量的第k个分量。接近于高斯BF的中心的输入导致更高的激活，而远离的那些输入导致较低的激活。因为RBF网络的每个输出节点18形成BF节点激活的线性组合，所以连接第二(隐)层和输出层的网络的部分是线性的，如以下的公式(2)表示的：

z_{j} = \underset{i}{Σ} w_{ij} y_{i} + w_{oj} - - - (2)

其中z_j是第j个输出节点的输出，y_i是第i个BF节点的激活，w_ij是连接第i个BF节点到第j个输出节点的权重24，以及w_oj是第j个输出节点的偏置或阈值。这个偏置来自与一BF节点关联的权重，所述BF节点具有不管输入如何都恒定的单位输出。

未知的矢量X被分类为属于与具有最大输出z_j的输出节点j有关的类别。在线性网络中的权重w_ij不能通过使用迭代最小化方法(诸如梯度下降)求解。它们可以通过使用矩阵伪逆技术(诸如在以上提到的参考文献C.M.Bishop，“Neural Network for Pattern Recognition(用于模式识别的神经网络)”，Clarendon Press，Oxford，1997中描述)而快速和精确地被确定。

在本发明中可实施的、优选的RSF分类器的详细算法说明被提供在这里的表1和表2上。如表1所示，初始地，通过选择F，即BF节点的数目，来确定RBF网络的大小。F的适当数值是特定于问题的，且它通常取决于问题的维数和要被形成的判决区域的复杂性。通常，F可以通过尝试各种各样的F而经验式地确定，或它可被设置为某个常数，通常大于问题的输入维数。在设置F后，可以通过使用各种方法来确定BF的均值μ_I和方差σ_I ²矢量。它们可以通过使用后向传播梯度下降技术连同输出权重一起被训练，但这通常需要长的训练时间，以及可能导致次最佳的本地最小值。替换地，均值和方差可能在训练输出权重之前被确定。然后网络的训练只牵涉到确定权重。

BF均值(中心)和方差(宽度)通常被选择为使得覆盖所关心的空间。也可以使用本领域公知的不同的技术：例如，一种技术实施对输入空间进行采样的、相等地间隔开的BF的网格；另一种技术则实施聚类算法，诸如k均值，以便确定BF中心组；其他技术实施从训练的组选择随机矢量作为BF中心，以确保每个类别都被代表。

一旦BF中心或均值被确定，就可以设置BF方差或宽度σ_I ²。它们可被固定为某个全局数值或者被设置为反映在BF中心的邻近区域中的数据矢量的密度。另外，包括有用于方差的全局比例因子H，以便允许重新缩放BF的宽度。通过对H空间搜索导致良好性能的数值，而确定它的适当的数值。

在设置BF参量后，下一个步骤是训练线性网络中的输出权重w_ij。个人训练模式X(p)和它们的类别标签C(p)被呈现给分类器，以及计算最终的BF节点输出y_I(p)。这些和想要的输出d_j(p)然后被使用来确定FxF相关矩阵“R”和FxM输出矩阵“B”。应当指出，每个训练模式产生一个R和B矩阵。最后的R和B矩阵是N个单独的R和B矩阵的总和的结果，其中N是训练模式的总数。一旦全部N个模式都被呈现给分类器，输出的权重W_ij就被确定。对最后的相关矩阵R求逆，以及将其使用来确定每个W_ij。

1.初始化

(a)通过选择F，即基函数的数目，而固定网络结构，其中每个基函数I具有输出，其中k是分量索引。

(b)通过使用K均值聚类算法，而确定基函数均值μ_I，

其中I＝1，...，F

(c)确定基函数方差σ_I ²，

其中I＝1，...，F。

(d)通过经验式的搜索而确定H，用于基函数方差的全局比例因子：

y_{i} = φ_{i} (| | X - μ_{i} | |) = \exp [- Σ_{k = 1}^{D} \frac{{(x_{k} - μ_{ik})}^{2}}{2 h {σ^{2}}_{ik}}],

2.呈现训练

(a)把训练模式X(p)和它们的类别标签C(p)输入到分类器，其中模式索引是p＝1，...，N。

(b)计算从模式X(p)得出的、基函数节点的输出y_I(p)，其中I＝1，...，F。

(c)计算基函数输出的F×F相关矩阵R：

B_ij＝∑_py_i(p)d_j(p)，其中

(d)计算F×M输出矩阵B，其中d_i是想要的输出，以及M是输出类别的数目：

R_ii＝∑_py_i(p)y_i(p) 且j＝1，...，M.

3.确定权重

(a)对F×F相关矩阵R求逆，得到R^-1。

(b)通过使用以下公式求解网络中的权重：

w_ij ^*＝∑_I(R^-1)_iB_ij

表1

如表2所示，通过把未知的输入矢量X_test呈现给训练的分类器以及计算最终得到的BF节点输出y_i，而执行分类。然后，这些数值连同权重w_ij被使用来计算输出值z_j。然后，把输入矢量X_test分类为属于与具有最大的z_j输出的输出节点j有关的类别。

1.把输入模式部分X_test呈现给分类器

y_i＝φ(||X_test-μ_i||)

2.对X_test的一部分进行分类

(a)对于所有的F基函数计算基函数输出。

(b)计算输出节点激活：

z_{j} = \underset{i}{Σ} w_{ij} y_{i} + w_{oj}

(c)选择具有最大值的输出z_j，以及把X_test部分分类为类别j；

(d)通过使用不同比例的减小的尺寸，而重复步骤2(a)-2(c)。

表2

在本发明的方法中，RBF输入包含被馈送到网络的、n尺寸归一化面部灰度级图像，作为一维(即：1D)矢量。隐(未监管的)层14实施“增强的”k均值聚类程序过程，诸如在S.Gutta，J.Huang，P.Jonathon和H.Wechsler，“Mixture of Experts for Classification of Gender，EthnicOrigin，and Pose of Human Faces(对于人面孔的性别、种族血统和姿势的分类的专家混合)”，IEEE Transactions on Neural Networks，11(4)：948-960，2000年7月中描述的，该参考文献整体地在此引用，以供参考，其中高斯聚类节点和它们的方差被动态地设置。聚类的数目例如可以在5个步骤中从训练图像数的1/5变化到训练图像的总数n。每个聚类的高斯的宽度σ_I ²被设置为最大值(聚类的中心与在类别直径内的最远成员之间的距离，在聚类的中心与来自其他聚类的最接近的模式之间的距离)乘以重叠因子o，这里该重叠因子等于2。通过使用不同的比例常数h，宽度被进一步动态地改进。隐层14产生功能的形状基的等价物，其中每个聚类节点对形状空间上的某些共同的特性进行编码。输出(被监管的)层把面部编码(“扩展”)沿这样的空间映射到它们的相应的ID类别以及通过使用伪逆技术来找出相应的扩展(“权重”)系数。应当指出，聚类的数目对于那个配置(聚类的数目和特定的比例常数h)被冻结，这在对相同的训练图像进行测试时，产生ID分类的100％精确度。

按照本发明，要被用于训练的输入矢量是全面部图像，例如，图2所示的面部图像30，例如每个包括64×72象素。按照本发明，单个分类器(RBF网络10)用这些全图像进行训练。然而，在实际的测试期间，测试图像的不同部分被相对模型的不同部分进行测试。例如，表2中所示的分类算法的步骤2是迭代处理过程，它在每次迭代时执行未知的测试图像与学习模型的不同部分的减法。训练是针对全面部全图像进行的，以及X_test(全图像)可以在第一次迭代被输入。得到第一输出分数，它包括：置信度(概率)度量，例如，如表2的步骤2(c)所示，具有在0与1之间的数值；以及标识类别标签(学习模型)的标签。在每次迭代时，这些步骤每次使用该图像的不同百分数，即部分学习模型，而被重复。例如，在下一个迭代中，未知图像的更小部分，例如90％，可以相对用于每个类别的学习模型图像的相应90％进行比较，依此类推。作为每次比较的结果，进一步的置信度(概率)度量和标识类别(学习模型)的标签由分类器设备确定。因此，如表2所示，整个步骤2(a)是一个循环，使处理过程取决于想要部分的数目而被重复任何次数。例如，正如可由用户选择的，所利用的X_test图像部分的范围可以从最大值(例如，全图像的100％)到最小值(例如，全图像的50％)，每次迭代以10％或5％部分减小。正如在题目为“System and method of face recognitionthrough 1/2 faces(通过1/2面孔进行面部识别的系统和方法)”的、共同拥有的、共同待决的美国专利申请No.09/966436[被公布为US2004/966436]中描述的，该专利申请的整个公开内容如在这里完全阐明一样被在此引入以供参考，当使用最小图像，即50％时，强制性地获取面部图像的至少一个眼睛、1/2鼻子和1/2嘴，例如该图像的垂直部分。在每次迭代时该部分减小的粒度可以是用户可选择的任选项，以及可能取决于该数据的良好程度和计算成本考虑。应当看到，在性能与成本之间存在折衷。例如，取决于想要的安全性级别，即，应用越安全，每次迭代时部分减小的粒度越细，并且将以更大的成本执行更多次数的比较。对于100％到50％、其中在每个步骤有10％图像减小比例的情形下，总共有6个置信度分数和类别标签，由此，如果在每个步骤有5％图像减小比例，那么总共有12个用于每个类别。在分数被积累后，规则可被应用来确定该测试图像的类别。例如，分数可被组合，以达到一致的决定。一个简单的类别可以是多数裁定规则，然而，可以应用更精巧的规则，例如，诸如在J.Kittler，H.Hateg，和R.P.W.Duin的、题目为“Combining Classifiers(组合分类器)”，Proceedings of the 13^th International Conference on patternRecognition，II，第897-901页，奥地利维也纳，1996的参考文献中描述的，该文章的内容和公开内容在此引用，以供参考。例如，被分类的每个部分将产生一个选票，以及如果使用10个部分，则将得到10票。然后，多数判决投票规则简单投票法则(例如，如果10票中的6票支持‘A’，则主体的身份是‘A’)被使用来确定个体(类别)的身份。作为响应，产生多个选票，以及在如图1所示的分类器中，选择设备28配备有逻辑，用于应用投票规则以达到适当的判决。

虽然已显示和描述了被认为是本发明的优选实施例的内容，当然，应当看到，可以容易地在形式或细节上进行各种修正和改变，而不背离本发明的精神。所以不打算把本发明限于所描述和显示的确切的形式，而是本发明应当被构造为覆盖可能属于附属权利要求的范围内的所有修正。

Claims

1.一种用于对面部图像数据进行分类的方法，该方法包括以下步骤：

a)训练一个分类器设备(10)，以便识别一个或多个面部图像和得到用于训练的、该面部图像的相应学习模型；

b)把包括代表要被识别的一部分未知面部图像的数据的矢量输入到所述分类器(10)中；

c)按照分类方法对所述部分的所述未知面部图像进行分类；

d)重复进行步骤b)和c)，在每次迭代时使用所述未知面部图像的不同部分；以及，

e)标识(28)由输入到所述分类器的所述不同部分而产生的单个类别。

2.权利要求1的方法，其中分类步骤c)的每一重复包括：

-把该未知图像的一部分相对用于每个类别的学习模型图像的相应部分进行比较；以及，

-得到用于每个已分类部分的置信度分数。

3.权利要求2的方法，其中所述识别步骤e)包括把一规则应用到所述置信度分数，以得到所述单个类别结果。

4.权利要求3的方法，其中所述置信度分数是用一个类别标识未知面部图像的当前部分的概率度量，所述被应用的规则包括得到具有为每个未知面部图像确定的多数类别标签的类别。

5.权利要求2的方法，其中分类步骤c)的每一重复包括减小被测试的、该未知图像的该部分以及把该未知图像的减小部分相对用于每个类别的学习模型图像的相应减小部分进行比较。

6.权利要求5的方法，其中所述部分以相等的减小量从该未知面部图像的100％减小到该未知面部图像的50％。

7.权利要求1的方法，其中该分类器设备(10)是径向基函数网络。

8.权利要求7的方法，所述训练步骤包括：

(a)初始化该径向基函数网络，该初始化步骤包括以下步骤：

-通过选择多个基函数F而固定该网络结构，其中每个基函数I具有高斯非线性的输出；

-通过使用K均值聚类算法来确定基函数均值μ_I，其中I＝1，...，F，

-确定基函数方差σ_I ²；以及

-通过经验式的搜索来确定用于基函数方差的全局比例因子H；

(b)呈现训练，该呈现步骤包括以下步骤：

-把训练模式X(p)和它们的类别标签C(p)输入到分类方法中，其中模式索引是p＝1，...，N；

-计算由模式X(p)导致的基函数节点的输出y_I(p)，F；

-计算基函数输出的尺寸为F×F的相关矩阵R；以及

-计算尺寸为F×M的输出矩阵B，其中d_j是想要的输出以及M是输出类别的数目，且j＝1，...，M；以及

(c)确定权重(24)，该确定步骤包括以下步骤：

-对该相关矩阵R求逆，以得到R^-1；以及

-求解该网络中的权重。

9.权利要求8的方法，其中该分类步骤c)的每一重复还包括：

-把每个输入矢量X_test部分呈现给该分类方法；以及

-通过以下方式对每个输入矢量X_test进行分类：

^*对于所有的F个基函数，计算基函数输出；

^*计算输出节点激活(20)；以及

^*选择具有最大数值的输出z_j和把该输入矢量X_test部分分类为类别j。

10.权利要求1的方法，其中该分类步骤c)包括输出标识该检测的未知面部图像部分所相应的类别的类别标签，以及表示该未知面部图像模式属于该类别的概率的概率数值。