CN101171599A

CN101171599A - 从脸图像鉴别脸的方法和相应的设备及计算机程序

Info

Publication number: CN101171599A
Application number: CNA2006800149452A
Authority: CN
Inventors: 锡德·A·伯拉尼; 克里斯托弗·加西亚
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-03-29
Filing date: 2006-03-28
Publication date: 2008-04-30
Also published as: JP2008537216A; EP1864242A1; FR2884007A1; US20080279424A1; WO2006103240A1

Abstract

本发明涉及一种从与至少一个人相关的称为查询图像的脸图像鉴别脸的方法。这种鉴别方法包括使用训练图像的训练阶段和能够鉴别出现在查询图像上的脸的识别阶段。根据本发明，训练阶段包括通过使用与至少一个人相关联的至少两幅训练脸图像的组执行的至少一个图像过滤步骤，从而能够选择代表将被鉴别的脸的至少一幅训练图像。上述识别阶段仅使用在训练阶段期间选择的训练图像。使用属于如下组的阈值中的至少一个阈值来执行所述图像过滤步骤，所述组包括：考虑与前述图像中的至少一些图像相关联的矢量对由所述矢量形成的云的隶属关系的最大距离(DRC_max)；和所述矢量和在将所述矢量投影到与所述矢量云相关联的空间上之后重构的矢量之间的最大距离(DO_max)。

Description

从脸图像鉴别脸的方法和相应的设备及计算机程序

技术领域

本发明的技术领域为对图像和诸如视频序列的图像序列进行处理的领域。更具体地讲，本发明涉及一种用于从一个人或多个人的脸图像的集合识别脸的技术。

本发明可专门应用于，但不只应用于生物统计学、视频监视或作视频索引的领域中，在这些领域中，从静止图像或视频序列识别脸(例如用于授权识别的人获得对受保护地方的访问)是很重要的。

背景技术

迄今为止，存在用于从静止图像或运动图像序列识别脸的几种技术。这些技术经典地依赖于第一学习阶段和第二识别阶段，在第一学习阶段中，从不同的人的脸图像(可从学习视频序列提取这些脸图像)构建学习库，在第二识别阶段期间，学习库的图像用于识别人。

这些技术通常基于学习库使用统计方法计算描述空间，在该描述空间中，评估两张脸之间的相似性。然后目标是用脸在描述空间中的投影之间的空间邻近的简单概念来尽可能忠实地表达两张脸之间的类似程度的概念。

不同的现有技术之间的主要差异在于在识别阶段期间执行的处理。

因而，A.W.Senior在“Recognizing Faces in Broadcast Video”，Proc.of Int.Workshop on Recognition，Analysis and Tracking ofFaces and Gestures in Real Time Systems，Corfu，Greece，September1999，pp.105-110中提出了在识别阶段期间使用从视频序列提取的所有脸图像或单幅关键的脸图像，即，脸检测器分配给最高置信分的脸图像。

在另一方法中，A.Hadid和M.Pietikinen在“From Still Imageto Video-Based Face Recognition：An Experimental Analysis”，Proc.of 6^th Int.Conf.on Automatic Face and Gesture Recognition，Seoul，Korea，May 2004，pp.813-818中就他们的部分提出了在不分析从视频序列选择的关键图像所包含的脸的情况下从视频序列选择关键图像，然后仅考虑从这些关键图像提取的脸来执行识别。由于每张脸返回不同的结果，所以然后使用合并这些结果的经典过程，进行后验。

最后，E.Acosta等就他们的部分在“An Automatic Face Detectionand Recognition System for Video Indexing Applications”，Proc.ofthe Int.Conf.on Acoustic Speech and Signal Processing(vol.4)，Orlando，Florida，May 2002，pp.IV-3644-IV-3647中在识别期间使用从查询视频序列提取的所有脸。为了评估请求和存储在学习库中的多个人中的一个人的模型之间的相似度，计算从查询序列提取的每幅脸图像和模型之间的相似性的度量。相似性的最终值是计算的所有度量的中间值，这相当于仅考虑已提取的所有脸图像中的一张脸图像。

现有技术的缺点

这些不同的现有技术都依赖于这样的统计方法，即，这些统计方法能够构建将脸图像投影到其中的描述空间。现在，这些投影必须能够吸收可影响脸图像的变化，即，无论可影响脸图像的变化如何，它们都必须能够突出脸图像之间的类似程度。

这些变化可以是两种类型的。首先存在脸表情(例如，微笑)改变和隐蔽形式(比如，戴眼镜、胡子等)所固有的全部变化。然后，存在由于获取图像的条件(比如，照明条件)和脸的分割(比如，提取包含脸的图像部分并使其居中)而引起的变化。

尽管当在好的照明条件下将脸图像很好地框起来并拍摄该脸图像时用于识别脸的现有技术方法是有效的，但是当没有非常好地调准用于学习或者识别期间的脸图像(即，脸、眼睛、嘴巴、鼻子等的不同特征在所有的脸图像中不在相同的位置)和/或用于学习或者识别期间的脸图像的质量不好时，它们的性能急剧恶化。

现在，在从视频序列识别脸的情况下，一般不对脸图像的调准和高质量的这些条件进行验证。另一方面，序列的获取没有受到非常大的约束，并且在整个获取时间内将被识别的人一般没有保持处于面对相机的正面位置。第二，通过脸检测技术从视频序列自动地提取脸图像，所述脸检测技术可产生伪检测并且就加框而言不精确。因此，在该背景下使用的脸图像的质量可能很差并且不能被很好地框起来，而且这些脸图像可包含差的检测。

本专利申请的发明者因此认识到这样的事实，即，用于从视频序列识别脸的现有方法的主要缺点中的一个缺点在于没有考虑所使用的脸图像的质量的事实。

因而，例如，在学习阶段期间惯常考虑所有可利用的脸图像(例如，从视频序列提取的所有脸图像)。这极大地降低了这些技术的性能，这是因为由于用于脸识别的(PCA或主成分分析类型的)统计方法依赖于协方差矩阵的计算(即，一阶矩和二阶矩)，所以这些统计方法对噪声极其敏感。

类似地，根据这些现有技术方法，在识别阶段期间使用的脸图像的选择不是最优的。现在，这些图像的选择极大地影响这些脸识别技术的性能：必须将它们很好地框起来并且它们必须具有好质量。然而，这以上所引用的现有技术方法中没有一种方法提出考虑图像的“质量，，的图像选择模式。

发明内容

本发明特别旨在克服现有技术的缺点。

更具体地讲，本发明的目的是提供一种与现有技术相比性能改进的用于从静止脸图像或视频序列识别脸的技术。具体地讲，本发明的目的是提出这种类型的技术，即，即使当将处理的脸图像有噪声、没有被很好地框起来和/或显示差的照明条件时也给出满意的结果的技术。

本发明的另一目的是提出这种类型的技术，即，可用于最优化这些技术所依赖的统计方法的识别能力的技术。

本发明的另一目的是提出这种类型的技术，即，考虑所使用的脸图像的质量的技术。

本发明的又一目的是提出这种类型的技术，即，很好地适于在例如生物统计学、视频监视和作视频索引的应用背景下识别几个不同的人的技术。

本发明的目的还在于提供这种类型的技术，即，简单并且几乎不花费成本地实现的技术。

通过从与至少一个人相关联的至少两幅脸图像的组中鉴别至少一张脸的方法来实现这些目的以及这里以下将出现的其它目的，所述方法包括学习阶段和识别所述至少一张脸的阶段。

根据本发明，学习阶段包括至少一个第一步骤，所述至少一个第一步骤通过使用与所述至少一个人相关联的至少两幅学习脸图像的组对所述图像进行过滤，以使得能够选择代表将被鉴别的所述脸的至少一幅学习图像，所述识别阶段仅使用在学习阶段期间选择的所述学习图像。通过使用属于如下组的阈值中的至少一个阈值来进行过滤，所述组包括：

-至少考虑与所述图像中的至少某些图像相关联的矢量在由所述矢量构成的云中的隶属关系的最大距离(DRC_max)；

-在所述矢量和在将所述矢量投影到与所述矢量云相关联的空间上之后重构的矢量之间的最大距离(DO_max)。

因而，本发明依赖于从静止图像或者从视频序列提取的图像来鉴别脸的完全新颖和具有创造性的方法。事实上，本发明提出不考虑可获得的脸图像的集合来鉴别人的脸，而是执行对图像的过滤以仅选择好质量的图像，即，代表将被鉴别的脸的图像(由于该脸处于正面姿势，或者被很好地框起来等)。通过作为距中心的鲁棒距离或DRC和/或正交距离或DD的一个或两个过滤阈值来进行这个过滤。对与图像相关联的矢量进行这种类型的过滤，并且在分析这些矢量的分布和统计属性之后，这种类型的过滤能够检测和分离一个异常矢量或多个异常矢量。它基于这样的假设，即，大部分可获得的图像为质量好的图像。这能够鉴别所有这样的矢量，这些矢量作为异常矢量不具有可获得的矢量的集合的分布属性，因此这些矢量与低质量图像相关联，或者在任何情况下，很差地代表将被鉴别的脸。

距中心的鲁棒距离或DRC考虑矢量距矢量云的中心的矢量距离以及在这个云中考虑的该矢量的关系。正交距离或DD是矢量和在将原始矢量投影到与矢量云相关联的空间中之后而获得的矢量之间的距离，在所述投影之后进行逆投影。

因而，与在学习过程期间系统地考虑所有可获得的图像的现有技术的方法不同，本发明提出根据学习图像的质量仅选择学习图像的一部分，以仅保留那些最代表脸图像的图像。

根据本发明的第一有利特性，从与所述学习图像相关联的矢量确定所述阈值中的至少一个阈值。

有利地，所述学习阶段还包括从所述一幅代表学习图像或多幅代表学习图像构建所述至少一个人的矢量描述空间的步骤。该构建步骤使用属于如下组的技术，所述组包括：

-主成分分析(Principal Component Analysis)技术；

-线性判别分析(Linear Discriminant Analysis)技术；

-2D主成分分析技术；

-2D线性判别分析技术。

在本发明的第二有利特性中，所述识别阶段从与所述至少一个人相关联的称为查询图像的至少两幅脸图像的组执行第二过滤步骤，并能够选择代表将被鉴别的所述脸的至少一幅查询图像以及在所述学习阶段期间从与学习脸图像相关联的矢量确定的所述阈值中的至少一个阈值。

因而，根据查询图像的质量来过滤查询图像，以仅基于最小噪声且最具代表性的脸来执行识别。因而，与现有技术的性能相比，极大地改进了脸鉴别性能。在识别阶段期间进行的这个第二过滤因而与在学习阶段期间进行的第一过滤互补。再者，由于学习图像的获取条件而使得学习图像的质量通常比查询图像的质量高，所以使用在学习阶段期间计算的阈值是特别有利的。

在本发明的一个变形中，在所述识别阶段期间使用与这样的图像集合相关联的矢量确定所述阈值中的至少一个阈值，所述图像集合包括与至少一个人相关联的称为查询图像的至少两幅脸图像和在所述学习阶段期间选择的代表将被鉴别的所述脸的至少两幅学习图像，所述识别阶段使用所述查询图像执行第二过滤步骤，并能够选择代表将被鉴别的所述脸的至少一幅查询图像。

因而，选择最小噪声学习图像和最小噪声查询图像，与现有技术相比，这极大地改进了脸识别性能。

在这个变形中，在识别阶段期间还使用学习阶段的结果对查询图像进行过滤，但是这次是以代表将被鉴别的一张脸或多张脸的学习图像的形式，不再是以阈值的形式来执行所述过滤。

优选地，所述识别阶段还包括在所述学习阶段期间构建的所述至少一个人的矢量描述空间中将与所述至少一幅代表查询图像相关联的矢量的投影和与在所述学习阶段期间选择的至少一幅代表学习图像相关联的矢量的投影进行比较以鉴别所述脸的步骤。然后将两张脸之间的类似程度的概念表达为这些脸在描述空间中的投影之间的空间邻近程度的简单概念。

在这个比较步骤期间：

-将与所述代表查询图像中的每幅代表查询图像相关联的所述矢量中的每个矢量的投影和与所述代表学习图像中的每幅代表学习图像相关联的所述矢量中的每个矢量的投影进行比较；

-对于与所述代表查询图像中的每幅代表查询图像相关联的所述矢量中的每个矢量，确定与所述代表学习图像中的每幅代表学习图像相关联的最接近的矢量和与该矢量相关联的人，所述人称为指定的人；

-将所述脸鉴别为被指定最多次数的人的脸。

优选地，所述对所述学习图像进行过滤的第一步骤和/或所述对所述查询图像进行过滤的第二步骤应用所述两个阈值，即，(对所有图像计算或逐序列地计算的)DO_max和DRC_max。

对于本发明的优选应用，通过执行本领域的技术人员公知的脸检测算法从至少一个视频序列提取所述图像中的至少某些图像。

本发明的鉴别方法还包括重新调整所述图像的大小以使所述图像都具有相同的大小的步骤。更具体地讲，在存在图像或视频序列的情况下，脸检测器能够提取固定大小的脸图像(来自检测器的所有图像从而具有相同的大小)。然后，在处理这幅固定大小的脸图像期间，在学习阶段的过滤期间对该图像执行第一重调大小的步骤以减小其大小。这避免了考虑细节的需要，并去除了噪声(例如，仅保留原始图像的每三个像素中的一个像素)。在构建描述空间期间，还进行图像的第二重调大小的步骤。

有利地，通过连接所述图像的行和/或列获得与所述图像相关联的所述矢量。

根据本发明的第一有利变形，对与至少两个人相关联的学习图像执行所述学习阶段，确定与所述至少两个人中的每个人的学习图像相关联的所述阈值，并且，在所述识别阶段期间，从与所述至少两个人中的每个人相关联的所述阈值对所述查询图像进行过滤。存在与在学习库中存在j个人一样多的计算的阈值DO^(j) _max和DRC^(j) _max。

根据本发明的第二有利变形，对与至少两个人相关联的学习图像执行所述学习阶段，确定与所述至少两个人的集合的学习图像相关联的所述阈值，并且，在所述识别阶段期间，从与所述至少两个人的集合相关联的所述阈值对所述查询图像进行过滤。然后，对于学习库的人的集合，仅计算两个阈值DO_max和DRC_max。

根据本发明的有利特性，在应用于与所述学习图像相关联的所述矢量的鲁棒主成分分析(RobPCA)的结尾确定所述阈值DO_max和DRC_max，还能够确定与所述矢量相关联的鲁棒均值μ和从与所述矢量相关联的鲁棒协方差矩阵的特征矢量构建的投影矩阵P，所述阈值与以下距离相关联：

{DO}_{i} = | | x_{i} - μ - P_{d, k} y_{i}^{t} | |

{DRC}_{i} = \sqrt{Σ_{j = 1}^{k} \frac{y_{ij}^{2}}{l_{j}}}

其中，x_i是与所述学习图像相关联的所述矢量中的一个矢量，P_d，k是包括所述投影矩阵P的前k个列的矩阵，y_ij是来自所述投影矩阵和来自所述鲁棒均值的所述矢量x_i的投影y_i的第j元素。

通过对矢量x_i的集合分析DO_i和DRC_i的值的分布来确定DO_max和DRC_max的值。

应该指出，在该整个文档中，使用以下标注：

-大写字母(比如，A、B)指这样的矩阵，即，按需要根据下标表示行数和列数(比如，A_n，m因而是n行m列的矩阵)；

-小写字母(比如，a、b)指矢量；

-对于矩阵A_n，m，a_i指A的第i行，a_ij指位于A的第i行第j列的交叉点的元素；

-det(A)是矩阵A的行列式；

-1_n是维数为n的单位矢量；

-diag(a₁，...，a_n)是n行n列的对角矩阵，对于该对角矩阵，对角线的元素为a₁， ...，a_n；

-A^t是矩阵A的转置矩阵；

-a^t是矢量a的转置；

-||v||是矢量v的欧几里得范数。

本发明还有关一种用于从与至少一个人相关联的至少两幅脸图像的组鉴别至少一张脸的系统，所述系统包括学习设备和用于识别所述至少一张脸的设备。

在这样的系统中，学习设备包括用于确定属于如下组的阈值中的至少一个阈值的装置和下述第一装置，所述组包括：

所述第一装置通过使用与所述至少一个人相关联的至少两幅学习脸图像的组对所述图像进行过滤，以使得能够根据所述阈值中的至少一个阈值选择代表将被鉴别的所述脸的至少一幅学习图像，识别设备仅使用所述学习设备所选择的所述学习图像。

本发明还有关一种用于从与至少一个人相关联的至少两幅脸图像的组鉴别至少一张脸的系统的学习设备。

这样的设备包括：

-用于分析所述学习图像以使可通过使用与所述学习图像相关联的矢量来确定属于如下组的阈值中的至少一个阈值的装置，所述组包括：

-至少考虑所述矢量在由所述矢量构成的云中的隶属关系的最大距离(DRC_max)，

-在所述矢量和在将所述矢量投影到与所述矢量云相关联的空间上之后重构的矢量之间的最大距离(DO_max)；

-用于通过使用所述阈值中的至少一个阈值对所述学习图像进行过滤以选择代表将被鉴别的所述脸的至少一幅学习图像的第一装置；

-用于从所述一幅代表学习图像或多幅代表学习图像构建所述至少一个人的矢量描述空间的装置，

从而识别设备仅使用所述学习设备所选择的所述学习图像。

本发明还有关一种用于从与至少一个人相关联的至少两幅脸图像的组识别至少一张脸的设备，所述脸图像称为查询图像，所述识别设备属于鉴别所述至少一张脸的系统，该系统还包括学习设备。

这种类型的识别设备包括：

-用于使用所述学习设备确定的至少一个阈值对所述查询图像进行过滤以选择代表将被识别的所述脸的至少一幅查询图像的第二装置；

-用于在由所述学习设备构建的所述至少一个人的矢量描述空间中将与所述至少一幅代表查询图像相关联的矢量的投影和与所述学习设备所选择的至少一幅代表学习图像相关联的矢量的投影进行比较以鉴别所述脸的装置，

所述学习设备包括根据与所述至少一个人相关联的至少两幅学习脸图像的组实现的第一过滤装置，其能够选择将被鉴别的所述脸的至少一幅代表学习图像，所述识别设备仅使用所述学习设备所选择的所述学习图像。

本发明还涉及一种计算机程序，其包括用于当处理器执行所述程序时执行上述用于鉴别至少一张脸的方法的学习阶段的程序代码指令。

本发明最后关于一种计算机程序，其包括用于当处理器执行所述程序时执行上述用于鉴别至少一张脸的方法的识别阶段的步骤的程序代码指令。

附图说明

从作为简单示出的非限制性示例而给出的优选实施例的以下描述以及附图，本发明的其它特征和优点将变得更清楚，其中：

图1表示处于正面姿势并被很好地框起来的脸图像的示例；

图2表示与图1的那些脸图像相反的脸图像的示例，由于这些脸图像没有被很好地框起来和/或这些脸图像处于非正面姿势，所以这些脸图像有噪声；

图3是本发明的脸鉴别方法的框图；

图4提供了在本发明的特定实施例中在图3的方法的学习阶段期间执行的处理操作的更精确的图示；

图5提供了图4的学习阶段的更示意性的视图；

图6是在图3所示的方法的识别阶段期间执行的处理操作的更详细的图示；

图7和图8分别表示本发明的学习设备和脸识别设备的简化附图。

具体实施方式

本发明的总原理依赖于通过使用鲁棒主成分分析或RobPCA来选择将在学习阶段和/或识别阶段期间使用的图像的子集。本发明可用于例如在学习期间分离有噪声的脸图像和在识别期间对还能够对脸图像进行过滤的参数进行推导。这使得能够不考虑噪声地重构描述空间，并且能够基于也是非噪声的几个脸图像的示例进行识别。与要考虑序列的所有图像的方法相比，提出的方法因而能够使得识别率显著增加。

参考图1和图2，示出了脸图像的示例，一些脸图像处于正面姿势并且被很好地框起来(图1)，一些脸图像处于非正面姿势并且没有被很好地框起来因此有噪声(图2)。本发明因此能够在存在脸图像的集合的情况下仅选择图像的图1类型的脸图像以执行脸的学习或识别，并筛选出图像的所有图2类型的脸图像，这些图像被认为是噪声图像。

我们将在该文档的整个其余部分中尽力描述本发明在学习阶段期间和在识别阶段期间从视频序列识别脸的背景下的实施例的示例。自然地，本发明还可应用于从例如通过相机在连拍模式下获得的静止图像的集合识别脸图像。

再者，我们将尽力描述在学习阶段期间和识别阶段期间对噪声图像进行过滤的特定实施例，在识别阶段中使用学习阶段的结果。当然还可彼此独立地实现这两个阶段。

图3是本发明的脸鉴别方法的框图，该方法包括三个主要步骤：

-分析31从学习视频序列(S⁽¹⁾，...S^(j)，...S^(N)，其中，索引j指定序列(S^(j))与其相关联的人)提取(30)的脸图像的整个集合((I₁ ⁽¹⁾，...I_M1 ⁽¹⁾)，...(I₁ ^(j)，...I_M2 ^(j))，...(I₁ ^(N)，...I_M3 ^(N)))，以首先确定用于对非代表性脸图像进行过滤的两个决定阈值(DO_max，DRC_max)，其次基于代表脸图像确定模型34(描述空间)；

-根据在学习阶段期间获得的阈值(DO_max，DRC_max)对将被识别的脸图像(I_q ^(k))_q＝1 ^K(从查询序列提取的图像)进行过滤32，以根据这些标准获得代表脸图像(I_q′ ^(k))_q′＝1 ^Q。如这里在该文档中以下更详细地描述的，这个过滤还考虑了投影矩阵P和鲁棒均值μ；

-根据在学习阶段期间获得的模型34，仅使用代表脸图像(I_q′ ^(k))_q′＝1 ^Q来识别33脸35。

当然，虽然不是那么频繁，但是没有图像具有足够好的质量以在过滤期间保持作为代表图像的情况是可能的。那么必须根据将定义的标准选择至少一幅图像；例如，可决定选择序列的第一图像。

这里以下，更详细地示出这些不同的主要步骤。

7.1学习视频序列的分析和代表图像的选择

每个人40(也由索引j标识)具有相关联的视频序列S^(j)。可在通过相机41在确定的持续期间内给人40拍照片时获得序列S^(j)。通过将脸检测器42应用于序列S^(j)的图像(根据本领域的技术人员公知的技术，该技术不是本发明的目的，因此将不对其进行更详细的描述)，从序列S^(j)提取脸图像的集合(I₁ ^(j)，...I_N ^(j))。本发明然后能够仅选择处于正面位置并被很好地框起来的脸图像，在分析脸图像本身时进行这个选择。为了这个目的，本发明使用如M.Hubert、P.J.Rousseeuw和K.Vanden Branden在″ROBPCA：A New Approach to Robust PrincipalComponent Analysic″，Technometrics，47(1)：64-79 February 2005中所描述的鲁棒主成分分析(RobPCA)。

这里的构思是：在假设从序列S^(j)提取的大多数脸具有好质量(即，其被很好地框起来并处于正面姿势)的情况下，将每幅脸图像I_i ^(j)视为矢量v_i ^(j)，并把该问题比作检测异常矢量的问题。由于可认为可在很好控制的条件下执行正被学习的人40的视频的获取，所以这是合理的假设。对于从视频序列S^(j)提取的每个脸图像的集合(I₁ ^(j)，...I_N ^(j))，后续过程如下：

-重新调整每个图像I_i ^(j)的大小43，以使所有的图像具有相同的大小：然后获得图像的集合(I′₁ ^(j)，...I′_N ^(j)；

-将矢量v′_i ^(j)与从序列S^(j)提取的每幅重调大小的脸图像I′_i ^(j)相关联44。通过连接图像I′_i ^(j)的行(或者列)构建矢量v′_i ^(j)。每个分量与图像I′_i ^(j)的像素的灰度级的值对应；

-按矩阵X^(j)的形式布置45矢量v′_i ^(j)，在矩阵X^(j)中，每行对应于与图像I′_i ^(j)相关联的矢量v′_i ^(j)；

-将鲁棒主成分分析(RobPCA)46应用于矩阵X^(j)。然后通过鲁棒投影矩阵P^(j)和鲁棒均值μ^(j)定义新的较小大小的空间；

-对于矢量v′_i ^(j)(与索引为j的人的脸图像相关联的矢量，矩阵X^(j)的行)，用以下方式计算两个距离47：正交距离(DO_i ^(j))和距中心的鲁棒距离(DRC_i ^(j))：

{DO}_{i}^{(j)} = | | v_{i}^{' (j)} - μ^{(j)} - P_{d, k}^{(j)} y_{i}^{t} | |

和

DR C_{i}^{(j)} = \sqrt{Σ_{m = 1}^{k} \frac{y_{im}^{2}}{l_{m}}},

其中，P^(j) _d，k由P^(j)的前k个列形成，y_i是矩阵Y^(j)的第i行，矩阵Y^(j)为矩阵X^(j)根据Y_n×k＝(X_n×d-1_nμ^t)P_d×k定义的投影。正交距离和距中心的鲁棒距离的分布的分析使得可确定在RobPCA块46的输出传送的两个决定阈值DO_max和DRC_max。如果对于矢量v′_i ^(j)，DO_i ^(j)＞DO_max ^(j)或者DRC_i ^(j)＞DRC_max ^(j)(48)，则认为矢量v′_i ^(j)是异常矢量(49)，并且不选择相关联的脸图像(即，在学习阶段期间不考虑相关联的脸图像)。如果认为矢量v′_i ^(j)不是异常矢量50，则认为图像I_i ^(j)为代表脸图像，并将其存储在学习库BA 51中；

-还将每个序列S^(j)的投影矩阵P^(j)、鲁棒均值μ^j以及两个决定阈值DO^(j) _max和DRC^(j) _max储存在学习库BA 51中。

在选择代表将被鉴别的脸的学习图像的这个步骤的实施例的一个变形中，同时考虑从所有学习视频序列S^(j)提取的脸图像的集合。在这种情况下，在学习阶段期间计算单个投影P、单个鲁棒均值μ、单个决定阈值DO_max和单个决定阈值DRC_max。因此通过使用P、μ、DO_max和DRC_max对学习脸图像进行过滤。如果DO_i＞DO_max或DRC_i＞DRC_max，则对图像I′_I进行过滤，其中，DO_i和DRC_i分别为使用P和μ时距v′_i(与I′_i相关联的矢量)的中心的正交距离和鲁棒距离。

7.2构建描述空间

只有在前一步骤中选择的脸图像50并入学习库51中以用于构建描述空间。通过使用已知的统计技术，诸如PCA(主成分分析)、LDA(线性判别分析)、2DPCA或2DLDA(即，二维PCA或LDA)来计算这个空间。这些技术的目的是找到缩小大小的空间，在该缩小大小的空间中与脸图像相关联的矢量v_i ^(j)被投影和被比较。

一旦计算了投影，就将与学习库51的脸图像I_i ^(j)相关联的所有矢量v_i ^(j)投影到描述空间中。然后储存它们的投影，并在识别阶段期间使用它们的投影。

图5表示学习阶段的这两个连续阶段的更示意性的视图，所述连续阶段即，学习视频序列的分析和代表图像的选择(§7.1)，以及描述空间的构建(§7.2)。在输入可获得多个学习视频序列S¹至Sⁿ。这些视频序列通常每个与其所寻求标识的不同的人相关联。脸检测器42应用于这些序列中的每个，以提取脸图像的n个集合(I_i ¹)_i＝1 ^N1至(I_i ⁿ¹)_i＝1 ^Nn。在脸图像的这些集合中的每个集合上，选择51代表脸图像，通过选择51可获得：

-首先，包括与考虑的视频序列相关联的两个过滤阈值DO_max和DRC_max以及与该序列相关联的投影方法(例如以与该序列的图像相关联的投影矩阵P和鲁棒均值μ的形式)的数据52；

-第二，代表学习脸图像(I_i ¹)_i＝1 ^M1至(I_i ⁿ)_i＝1 ^Mn53。

代表将被鉴别的脸的这些学习图像53用于构建54与将被鉴别的人相关联的描述空间55或模型，并用于执行与代表学习图像53相关联的矢量的投影56。

这里以下，我们示出在本发明的鉴别方法的识别阶段期间执行的处理操作。

7.3从查询序列选择代表图像

如图6所示，在存在代表将被识别的人的查询序列S(例如通过视频监视相机获得)的情况下，首先通过自动脸检测器42从序列S提取所有的脸图像(I_q)_q＝1 ^Q。可认为这些图像中的每幅图像I_q为查询图像，这些图像中的每幅图像I_q因此可用于鉴别正在寻找的人。现在，正如在学习阶段期间一样，为了增加正确地鉴别人的机会，决定仅选择这些图像的子集(I_q)_q＝1 ^Q用于鉴别。在本发明的优选实施例中，由于在通常不是那么好控制的条件下(比如，使用监视相机)获取视频查询并且不总是验证这样的假设，即，根据该假设从序列提取的大多数图像处于正面姿势并被很好地框起来，所以不选择再次使用与在学习阶段中相同的过程。

然而，在本发明的次优变形中，可选择通过RobPCA类型的分析对查询图像执行与在学习阶段期间对学习图像进行的处理操作相同的处理操作。

在本发明的优选实施例中，可根据基于在学习期间计算的或者直接来自代表学习图像的过滤阈值DO_max和DRC_max是否选择代表将被鉴别的脸的查询图像来设想两个变形。

在第一变形中，选择使用在学习阶段期间计算的决定参数52(§7.1，阈值DO_max和DRC_max)。(通过连接图像的行或者列)将矢量v_q与从查询序列S提取的每幅脸图像I_q相关联，并将以下算法80应用于决定是否保留脸图像I_q以及是否在鉴别期间使用脸图像I_q：

对于在学习期间所使用的视频序列中的每个S^(j)：

加载在学习阶段期间储存的投影矩阵P^(j)、鲁棒均值μ^(j)以及两个决定阈值DO_max ^(j)和DRC_max ^(j)，

如下通过使用P^(j)和μ^(j)计算距v′_q的正交距离DO_q ^(j)和距中心的鲁棒距离DRC_q ^(j)(其中，v′_q是与从重调I_q的大小而生成的图像I′_q相关联的矢量，所述重调I_q的大小的步骤与这里在该文档中上述的对学习图像进行的重调大小的步骤类似)：

{DO}_{q}^{(j)} = | | v_{q}^{(j)} - μ^{(j)} - P_{d, k}^{(j)} y_{i}^{t} | |

和

DR C_{q}^{(j)} = \sqrt{Σ_{m = 1}^{k} \frac{y_{im}^{2}}{l_{m}}},

其中，P^(j) _d，k由P^(j)的前k个列形成，y_i是矩阵Y^(j)的第i行，矩阵Y^(j)为矩阵X^(j)根据Y_n×k＝(X_n×d-1_nμ^t)P_d×k定义的投影。

如果

{DO}_{q}^{(j)} > {DO}_{\max}^{(j)} ou {DRC}_{q}^{(j)} > {DRC}_{\max}^{(j)},

j，则不选择图像I_q。换句话说，如果根据对所有学习视频序列计算的所有投影和阈值认为相关联的矢量异常，则在识别期间不考虑脸图像。

在这样的实施例的变形中，在识别阶段期间也使用P、μ、DO_max和DRC_max对脸查询图像进行过滤，在所述实施例中，在学习期间仅考虑在其中所有学习图像组合在一起的一个集合并且计算唯一一个投影P、唯一一个鲁棒均值μ、唯一一个决定阈值DO_max和唯一一个决定阈值DRC_max。与在学习的情况下一样，如果DO_q＞DO_max或DRC_q＞DRC_max，则对查询图像I进行过滤(即，认为查询图像I为异常)，其中，DO_q和DRC_q分别为在使用P和μ时距v′的中心的正交距离和鲁棒距离(其中，v′是与从重新调整I的大小而生成的图像I′相关联的矢量)。

第二变形使用来自学习阶段的代表学习图像53。对于从查询序列S提取的每幅脸图像I_q(42)，将矢量v_q相关联(通过连接图像的行或者列)，并且将这个矢量插入到与来自在学习期间使用的视频序列S^(j)的代表学习图像53相关联的矢量的集合中的每个集合中。因而存在与学习序列S^(j)一样多的可获得的集合。然后将过滤过程应用于这些集合中的每个集合。这个过滤过程与在学习期间使用的计算与这些集合中的每个集合相关联的阈值DO_max和DRC_max的过滤过程类似。如果通过所应用的过滤过程中的至少一个过滤过程将脸图像I_q选择为代表图像(即，如果对于集合中的至少一个集合，我们有DO_q≤DO_max和DRC_q≤DRC_max)，则选择脸图像I_q80。

还可通过将一幅或多幅图像I_q插入到由来自学习阶段的所有代表学习图像构成的脸图像的集合中(所有学习序列没有区别)来应用代表查询图像的选择80的这个过程。然而，理想情况是插入的图像I_q的数量应该保持比代表学习图像的数量少。因而过滤过程仅执行一次，并且如果将脸图像I_q选择为代表图像，则选择脸图像I_q。在这种情况下，对于由所有代表学习图像以及一幅图像或多幅图像I_q构成的集合，仅计算两个阈值DO_max和DRC_max。

如下标注选自查询序列的脸图像的集合：

Q＝{q₁，q₂，...，q_s}

7.4识别

在两个步骤中进行查询图像q_i的鉴别。首先，以与学习库的图像相同的方式(步骤54)将代表查询图像q_i投影到81(在学习期间计算的)描述空间55中。然后，在描述空间55中搜索82最接近的邻居。这涉及在与学习库的图像对应的投影矢量56中搜索与查询投影矢量最接近的投影矢量。查询图像q_i被分配给与和最接近的检索到的邻居相关联的人相同的人。每个图像q_i因而为特定的人投票，即，指定那些存储在学习库中的多个人中的一个人。然后，将集合Q的代表查询图像中的每幅代表查询图像获得的结果合并83，最后将查询序列的脸识别84为将获得最多投票数的人。

可应用基于集合Q的图像的其它鉴别过程。

7.5在本发明的背景下执行的处理操作的详细描述

这里以下，提供本发明的实际实现的更详细的描述，以及这里以上在§7.1至7.4中描述的步骤的集合中执行的算术处理操作。

假设存在可获得的视频序列的集合S⁽¹⁾，...，S^(r)，每个视频序列与多个人中对其进行学习的一个人相关联。例如通过利用相机在确定的持续期间内给相关联的人拍照片来获得每个序列。

如在§7.1中所示，通过应用于视频序列的图像中的每幅图像的自动脸检测器从每个学习序列S⁽ⁱ⁾提取脸图像的集合I₁，I₂，...，I_n。该操作使用例如C.Garcia和M.Delakis在″Convolutional Face Finder：ANeural Architecture for Fast and Robust Face Detection″，IEEE Trans.on Pattern Analysis and Machine Intelligence，26(11)：1408-1423，November 2004中所描述的CFF检测器。然后重新调整这些图像的大小，以使它们都具有相同的大小(28×31)。这个分辨率使得可避免考虑图像中关于脸的唯一姿势(正面还是非正面)以及该脸在图像内容中的定位的细节。

然后应用代表学习图像的选择过程。这个过程开始于对数据的矩阵x_nxd的鲁棒主成分分析(RobPCA)，所述矩阵X_nxd由与提取的脸图像相关联的矢量形成(d＝28×31)。该矩阵的行j对应于与图像Ij相关联的矢量。在对图像I_j重新调整大小之后，通过连接图像I_j的行构建这个矢量。

RobPCA可用于在仅考虑矢量(即，与脸图像相关联的大小为d的矢量。每个矢量对应于矩阵X的行)的子集的情况下计算鲁棒均值μ(维数为d的矢量)和鲁棒协方差C_d×d矩阵。还可通过将图像投影到由鲁棒协方差矩阵C的特征矢量定义的大小更小的空间k(k＜d)中来减小图像的大小。根据RobCap原理，以及如在作为本说明书的组成部分的附录1中详细描述的，如果：

C_d×d＝PLP^t (1)

其中，P是特征矢量的矩阵，L是特征值的对角矩阵(L＝diag(l₁，l₂，...，l_d)，则根据Y_n×k＝(X_n×d-1_nμ^t)P_d×k给出矩阵X的投影，其中，P_d×k由P的前k个列形成。

在矩阵Y中，行i表示矩阵X的行i的投影。因此它是图像I_i的投影。在形成本说明书的组成部分的附录1中给出了通过RobPCA计算矩阵C和鲁棒均值μ的细节。

为了选择代表学习图像(因此对噪声图像进行过滤)，对每幅图像I_i计算两个距离：这些距离是正交距离(DO_i)和距中心的鲁棒距离(DRC_i)。如下计算这两个距离：

{DO}_{i} = | | x_{i} - μ - P_{d, k} y_{i}^{t} | | - - - (2)

DR C_{i} = \sqrt{Σ_{j = 1}^{k} \frac{y_{ij}^{2}}{l_{j}}} - - - (3)

其中，x_i是与I_i相关联的矢量(矩阵X的行i)，y_i是矩阵Y的第i行。

为了分离异常矢量，研究这两个距离的分布。根据

if k＞1和

if k＝1定义与距中心的鲁棒距离相关联的阈值(对于标准分布的马哈拉诺比斯(Mahalanobis)平方距离，近似遵循x_k ²定律)(参见上述M.Hubert等的文章)。将这个阈值写成DRC_max ^(j)，j为学习序列的编号。相反，由于值DO_i的分布未知，所以正交距离的阈值更难以确定。再次使用在M.Hubert等的文章中提出的方法计算这个阈值，即，根据g₁χ_g2 ²定律大致估计分布，Wilson-Hilferty方法用于估计g₁和g₂。因此，正交距离的2/3方遵循均值为

m = {(g_{1} g_{2})}^{1 / 3} (1 - \frac{2}{9 g_{2}})

以及方差为

σ^{2} = \frac{2 g^{2 / 3}}{9 g_{2}^{1 / 3}}

的正态分布。在通过MCD估计器(参见M.Hubert等的文章)从值DO_i估计均值

和方差

时，根据

{DRC}_{\max}^{j} = {(\hat{m} + \hat{σ} z_{0,975})}^{3 / 2}

给出与存储序列j的正交距离相关联的阈值，其中，z_0.975＝Φ^-1(0.975)为在高斯分布的97.5％的分位点。

通过其中示出的过程从包括图1和图2所示的类型的图像的脸的集合选择代表脸图像，诸如图1的脸图像。提出的方法因此能够仅选择正面姿势的图像(图1)，并分离侧面脸或者没有被很好地框起来的脸(图2)。

在选择代表学习图像之后，可通过主成分分析(PCA)构建描述空间。在占用选择的代表学习图像时，首先以矩阵的形式构建学习库。重新调整每幅脸图像的大小，以使所有的图像具有相同的大小。选择的大小为例如63×57。该大小可以为在脸检测器的输出直接获得的大小。每幅图像然后具有通过连接图像的行构建的大小为63×57的相关联的矢量。然后将每个矢量定位在写为X_m，d的数据矩阵的行中，其中，m是选择的脸图像的数量，d是矢量的大小(在这种情况下d＝63×57)。

应该指出，在该文档的整个其余部分中，用于不同变量的标注独立于迄今为止在该文档的§7.5中使用的标注。

为了计算描述空间，首先使X居中，并进行谱分解：

X_{m, d} - 1_{m} μ^{t} = U_{m, d} D_{d, d} V_{d, d}^{t} - - - (12)

其中，μ是与选择的脸的图像相关联的矢量的均值(矩阵X的行)，D是对角矩阵D＝diag(l₁，l₂，...，l_d)。

通过矩阵V的矢量定义描述空间，矩阵V的矢量也是X的协方差矩阵的特征矢量。所选择的矢量的数量定义描述空间的维数r。可通过根据这样表达的惯量比例的标准来分析特征值(D)来确定这个数，所述标准表达为：

Σ_{j = 1}^{r} l_{j} / Σ_{j = 1}^{d} l_{j} = α,

(13)其中，α是先验固定参数。

因而，根据下式定义投影到描述空间中的矢量：

Y_n，r＝(X_m，d-1_mμ^t)V_d，r (14)

储存Y、μ和V用于识别阶段。

在识别阶段期间，在§7.3中描述的过程之后，从查询序列选择代表将被鉴别的脸的查询图像。将这些图像写成q₁，...，q_s。首先重新调整这些图像的大小，以使它们具有与在学习阶段时使用的图像的大小相同的大小(在以上情况下为63×57)。然后将矢量与这些图像中的每幅图像相关联。将这些矢量写成v₁，...，v_s。然后如下将每个矢量投影到描述空间中：

b_i＝(v_i-μ)^tV_d，r (15)

对于每个投影的矢量b_i，通过计算b_i和所有矢量y_i之间的距离来检索与其最接近的矢量y_i(矩阵Y的第i行)。因此将与b_i相关联的脸图像识别为与检索的最接近的邻居所代表的图像相关联的人。就是说，b_i投票给鉴别的人。一旦已对所有的b_i执行了这个步骤，最后就将查询序列的脸识别为已获得最多投票数的人。

7.6学习和识别设备

图7最后表示本发明的学习设备的结构，该学习设备包括存储器M 61和配备有处理器μP的处理单元60，通过计算机程序Pg 62驱动处理器μP。处理单元60在输入接收与由索引j标识的一个人或多个人相关联的学习脸图像的集合I_i ^(j)63，根据程序Pg 62的指令工作的微处理器μP对学习脸图像的集合I_i ^(j)63执行鲁棒主成分分析或RobPCA。根据这个分析的结果，处理单元60的处理器μP为与具有索引i的每个人相关联的每个图像子集或者为学习图像的集合63确定用于对图像63进行过滤的两个阈值68，这两个阈值称为DO_max和DRC_max。数据68还包括鲁棒均值μ和投影矩阵P。然后，基于这些阈值，处理器μP选择均值μ和投影矩阵P，并从在处理单元60的输出传送的学习图像63的集合63选择将被鉴别的一张脸或多张脸(I_i ^(j))^*的一幅代表学习图像或多幅代表学习图像64。PCA类型的分析还能够使处理器μP确定与具有索引j的人中的每个人相关联的描述空间或者模型65，以及在这个描述空间65中以均值和投影矩阵形式的与学习图像相关联的矢量的投影方法66。处理单元60还在输出传送与代表学习图像64相关联的矢量的集合的投影67。

图8示出包括存储器M 71和配备有处理器μP的处理单元70的脸图像识别设备的简化方案，通过计算机程序Pg 72驱动处理器μP。处理单元70在输入接收以下项：

-查询脸图像的集合73，识别设备必须从这个集合鉴别人的脸；

-在学习设备的输出传送的过滤阈值DO_max和DRC_max以及鲁棒均值μ和投影矩阵P68；

-学习设备构建的描述空间65；

-学习设备使用的投影方法66；

-与代表学习图像相关联并且通过学习设备投影到描述空间中的矢量67。

根据程序Pg 72的指令工作的处理单元70的处理器μP通过使用阈值DO_max和DRC_max、鲁棒均值μ和投影矩阵P68来从查询图像73的集合中选择将被鉴别的脸的一幅代表查询图像或多幅代表查询图像。然后按照投影方法66将与这些代表查询图像相关联的矢量投影到描述空间65中。然后将投影的学习矢量和投影的查询矢量进行比较以确定哪个是脸74，即被鉴别为查询图像73中的脸。

在这里以上已提及的变形中，用代表学习图像64代替在识别设备的输入的阈值68，处理单元70的处理器μP从由查询图像73和代表学习图像64构成的集合执行与学习设备进行的过滤相同的过滤。

应该指出，该说明书关注于实现RobPCA类型的分析的技术。自然地，可等同地使用基于与阈值DO_max和DRC_max类似的两个阈值的任何其它过滤技术。

附录1：通过RobPCA计算鲁棒均值μ和鲁棒协方差矩阵C

RobPCA可用于执行主成分分析，但是只考虑矢量的子集。这个构思是避免将噪声数据并入分析中，将噪声数据并入分析中将冒影响均值和协方差矩阵(已知对噪声高度敏感的一阶矩和二阶矩)的计算的风险。为了这个目的，RobPCA基于以下属性：如果子集A的矢量不如子集B的矢量分散得开，则子集A的噪声比另一子集B的噪声少，在统计方面，最小噪声集为协方差矩阵的行列式最小的集合。

取按矩阵X_n，d形式布置的大小为d的n个矢量的集合。按四个步骤执行RobPCA：

1.通过经典的PCA(主成分分析)对学习库(BA)的数据进行预处理。由于保留所有主成分，所以目的不在于减小它们的大小。简单地要做的是消除多余的大小。为了这个目的，分解成奇异值：

X_{n, d} - 1_{n} m_{0}^{t} = U_{n, r_{0}} D_{r_{0}, r_{0}} V_{r_{0}, d}^{t}

其中，m₀是经典均值，r₀是矩阵X_n，d-1_nm₀ ^t的秩。

然后，如下变换数据矩阵X：

Z_{n, r_{0}} = UD .

矩阵Z用在以下步骤中。这里以下，认为矩阵Z为这样的矢量集，在该矢量集中每个矢量对应于矩阵的行并且与从序列提取的多幅脸图像中的一幅脸图像相关联。

2．第二步骤的目的是检索h个最小噪声矢量。回忆，这里矢量指的是矩阵Z行，对应于脸图像，其被写成z_i。

可由用户选择h的值，但是n-h必须大于异常矢量的总数。由于异常矢量的数量通常未知，所以如下选择h：

h＝max{[αn]，[(n+k_max+1)/2]} (4)

其中，k_max是将被选择的主成分的最大数量，α范围为0.5～1的参数。它表示非噪声矢量的比例。在该情况下，这个参数与从序列提取的质量好的学习脸图像的比例对应，所述学习脸图像可并入学习库中。因此可将这个参数的值固定为学习序列的获取的条件和从序列提取的脸图像的质量的函数。缺省值为0.75。

以下是用于找到h个最小噪声矢量的方法：

首先，对每个矢量z_i计算其根据下式定义的噪声的程度：

outl (z_{i}) = \max_{v &Element; B} \frac{| z_{i}^{t} v - t_{MCD} (z_{j}^{t} v) |}{s_{MCD} (z_{j}^{t} v)} - - - (5)

其中，B是穿过两个不同的矢量的所有方向的集合。如果方向的数量大于250，则随机选择250个方向的子集。t_MCD(z_j ^tv)和s_MCD(z_j ^tv)分别为所有矢量沿由v定义的方向的投影的鲁棒均值和鲁棒标准差，这是具有最小方差的h个投影值的均值和标准差。通过Hubert等在上述文章中描述的一维MCD估计器计算这两个值。

如果所有的s_MCD大于0，则对所有矢量计算噪声的程度outl，并且考虑具有噪声程度的最小值的h个矢量。这些矢量的索引存储在集合H₀中。

如果沿所述方向中的一个方向，s_MCD(z_j ^tv)为0，则意味着存在包含h个矢量的与v正交的超平面H_v。在这种情况下，将所有的矢量投影到H_v上，这具有将矢量的大小减小为一个的效果，并且继续计算噪声的程度。应该指出，这可发生几次。

在这个步骤的结尾，存在最小噪声矢量的集合H₀，并且视情况，存在新的数据集Z_n，r1,r₁≤r₀。

然后，考虑先前选择的h个矢量的均值m₁，和协方差矩阵S₀以执行主成分分析并减小矢量的大小。

如下分解矩阵S₀：

S_{0} = P_{0} L_{0} P_{0}^{t}

，L₀为特征值的对角矩阵：

L_{0} = diag ({\tilde{l}}_{0} . . . {\tilde{l}}_{r})

和r≤r₁。认为所有的

为非零，并将其设置为降序。这个分解使得可决定将在分析的其余部分内保留的主成分k₀的数量。可以以不同的方式进行这个步骤。例如，可以以这样的方式选择k₀：

Σ_{j = 1}^{k_{0}} {\tilde{l}}_{j} / Σ_{j = 1}^{r} {\tilde{l}}_{j} \approx 90 %, - - - (6)

或者，以这样的方式选择k₀：

{\tilde{l}}_{k} / {\tilde{l}}_{1} &GreaterEqual; 10^{- 3} . - - - (7)

最后，将矢量投影到由S₀的k₀个第一特征矢量定义的空间中。

根据下式给出新的矩阵：

Z_{n, k_{0}}^{*} = (Z_{n, r 1} - 1_{n} m_{1}^{t}) P_{0 (r_{1}, k_{0})},

其中P_0(r1，k0)由P₀的前k₀个列形成。

3.在第三步中，通过MCD估计器估计Z_n，k0 ^*的矢量的协方差矩阵。构思是检索其协方差矩阵具有最小行列式的h个矢量。由于实际上不可能计算包含h个矢量的所有子集的协方差矩阵，所以使用逼近算法。这个算法按四个步骤工作。

3.1设m₀和C₀分别为在步骤2中选择的h个矢量的均值和协方差矩阵(集合H₀)：

(a)如果det(C₀)＞0，则对每个矢量z_i ^*，计算相对于m₀的马哈拉诺比斯距离：

d_{m_{0}, C_{0}} (i) = \sqrt{{(z_{i}^{*} - m_{0})}^{t} C_{0}^{- 1} (z_{i}^{*} - m_{0})} - - - (8)

选择具有最小距离d_m0，C0(i)的h个矢量使得能够构建新的集合H₁，对于该集合H₁，协方差矩阵的行列式小于C₀的行列式。换句话说，如果m₁和C₁分别为H₁的h个矢量的均值和协方差矩阵，则det(C1)≤det(C0)。

因此反复执行称为C-Step的这个过程，直到h个选择的矢量的协方差矩阵的行列式不再减小。

(b)如果，在给定的第j次迭代，协方差矩阵C_j奇异，则将数据投影到由C_j的其特征值为非零的特征矢量定义的最小大小的空间中，并且该过程继续。

在收敛处，我们获得将写成Z_n，k1 ^*，k₁≤k₀的数据矩阵和包含在最后一次迭代期间选择的h个矢量的索引的集合H₁。设m₂和S₂分别表示这些h个矢量的均值和协方差矩阵。

3.2将Rousseeuw和Van Driessen在1999年提出并作少量修改的算法FAST-MCD应用于矩阵Z_n，k1 ^*。所使用的这个算法的版本随机提取大小为(k₁+1)的250个子集。对于每个子集，它计算均值、协方差矩阵和马哈拉诺比斯距离(方程8)，并以具有最小距离的矢量完成子集以具有包含h个矢量的子集。它然后应用C-Step过程以提炼子集。这里可以指出，在第一阶段中，只有两次C-Step迭代应用于250个子集中的每个子集。然后选择10个最佳子集(具有它们的协方差矩阵的最小行列式的集合)，并将3.1的迭代过程(a)和(b)应用于它们，直到收敛。

将

k≤k₁写成在FAST-MCD算法的应用的结尾获得的数据的集合，m₃和S₃写成所选的h个矢量的协方差矩阵的均值。如果det(S₂)＜det(S₃)，则在考虑从步骤3.1获得的h个矢量的情况下继续计算，即，m₄＝m₂和S₄＝S₂，否则，考虑通过FAST-MCD获得的结果，即m₄＝m₃和S₄＝S₃。

3.3为了提高统计效率，从m₄和S₄计算加权的均值和加权的协方差矩阵。首先，将S₄与稠度系数c₁相乘，如下计算稠度系数c₁：

c_{1} = \frac{{d_{m_{4}, S_{4}}^{2}}_{(h)}}{χ_{k, \frac{h}{n}}^{2}} - - - (9)

其中，

{d_{m_{4}, S_{4}}^{2}}_{(1)} \leq . . . \leq {d_{m_{4}, S_{4}}^{2}}_{(n)},

并根据方程(8)通过使用的矢量计算它们。然后通过使用m₄和c₁S₄计算的所有矢量的马哈拉诺比斯距离。将这些距离写成d₁，d₂，...，d_n。最后如下估计均值和协方差矩阵：

m_{5} = \frac{Σ_{i = 1}^{n} w_{i} {\tilde{z}}_{i}^{*}}{Σ_{i = 1}^{n} w_{i}} - - - (10)

S_{5} = \frac{Σ_{i = 1}^{n} w_{i} ({\tilde{z}}_{i}^{*} - m_{5}) {({\tilde{z}}_{i}^{*} - m_{5})}^{t}}{Σ_{i = 1}^{n} w_{i} - 1} - - - (11)

其中，

w_{i} = w (d_{i}) = \{\begin{matrix} 0 & si d_{i} \leq \sqrt{χ_{k, 0,975}^{2}} \\ 1 & si d_{i} > \sqrt{χ_{k, 0,975}^{2}} \end{matrix}

4.这个最后的步骤的目的是推出最终的均值和协方差矩阵。首先，执行协方差矩阵S₅的谱分解：

S_{5} = P_{2} L_{2} P_{2}^{t}

其中，P₂是包含S₅的特征矢量的k×k矩阵，L₂是具有对应的特征值的对角矩阵。

然后通过在前面的步骤中所应用的那些算法的逆变换将矩阵P2投影到

中。这给出了特征矢量P_d，k的最终矩阵。对于均值类似地：将m₅投影到

中，从而给出μ。再者，可通过方程(1)计算最终的协方差矩阵C。

Claims

1.一种从与至少一个人相关联的至少两幅脸图像的组鉴别至少一张脸的鉴别方法，该方法包括学习阶段和对所述至少一张脸的识别阶段，

其特征在于，所述学习阶段包括至少一个第一步骤，即，通过使用与所述至少一个人相关联的至少两幅学习脸图像的组对所述图像进行过滤，以使得能够选择代表将被鉴别的所述脸的至少一幅学习图像，

所述识别阶段仅使用在所述学习阶段期间选择的所述学习图像，

并且，其特征在于，使用属于如下组的阈值中的至少一个阈值来进行所述过滤，所述组包括：

-至少考虑与所述图像中的至少某些图像相关联的矢量在由所述矢量构成的云中的隶属隶属关系的最大距离(DRC_max)；

2.根据权利要求1所述的鉴别方法，其特征在于，从与所述学习图像相关联的矢量确定所述阈值中的至少一个阈值。

3.根据权利要求1和2中的任何一个所述的鉴别方法，其特征在于，所述学习阶段包括从所述代表学习图像构建所述至少一个人的矢量描述空间的步骤。

4.根据权利要求1所述的鉴别方法，其特征在于，所述识别阶段根据与所述至少一个人相关联的称为查询图像的至少两幅脸图像的组执行第二过滤步骤，并使得能够选择代表被鉴别的所述脸的至少一幅查询图像，并且，其特征在于，在所述学习阶段期间从与学习脸图像相关联的矢量确定所述阈值中的至少一个阈值。

5.根据权利要求1所述的鉴别方法，其特征在于，在所述识别阶段期间通过使用与如下图像集合相关联的矢量来确定所述阈值中的至少一个阈值，所述图像集合包括与至少一个人相关联的称为查询图像的至少两幅脸图像和在所述学习阶段期间选择的代表将被鉴别的所述脸的至少两幅学习图像，并且，其特征在于，所述识别阶段使用所述查询图像来执行第二过滤步骤，并且使得能够选择代表将被鉴别的所述脸的至少一幅查询图像。

6.根据权利要求4和5中的任何一个所述的鉴别方法，其特征在于，所述识别阶段还包括在所述学习阶段期间构建的所述至少一个人的矢量描述空间中将与所述至少一幅代表查询图像相关联的矢量的投影和与在所述学习阶段期间选择的至少一幅代表学习图像相关联的矢量的投影进行比较以鉴别所述脸的步骤。

7.根据权利要求6所述的鉴别方法，其特征在于，在所述比较步骤期间：

-对于与所述代表查询图像中的每幅代表查询图像相关联的所述矢量中的每个矢量，确定与所述代表学习图像中的一幅代表学习图像相关联的最接近的矢量和该矢量所关联的人，所述人被称为指定人；

-将所述脸鉴别为被指定最多次数的人的脸。

8.根据权利要求1、4和5中的任何一个所述的鉴别方法，其特征在于，所述对所述学习图像进行过滤的第一步骤和/或所述对所述查询图像进行过滤的第二步骤应用所述两个阈值。

9.根据权利要求1和4所述的鉴别方法，其特征在于，对与至少两个人相关联的学习图像执行所述学习阶段，确定与所述至少两个人中的每个人的学习图像相关联的所述阈值，

并且，其特征在于，在所述识别阶段期间，根据与所述至少两个人中的每个人相关联的所述阈值对所述查询图像进行过滤。

10.根据权利要求1和4所述的鉴别方法，其特征在于，对与至少两个人相关联的学习图像执行所述学习阶段，确定与所述至少两个人的集合的学习图像相关联的所述阈值，

并且，其特征在于，在所述识别阶段期间，根据与所述至少两个人的集合相关联的所述阈值对所述查询图像进行过滤。

11.根据权利要求1至10中的任何一个所述的鉴别方法，其特征在于，在鲁棒主成分分析RobPCA应用于与所述学习图像相关联的所述矢量之后确定所述阈值，从而使得还能够确定与所述矢量相关联的鲁棒均值μ和从与所述矢量相关联的鲁棒协方差矩阵的特征矢量构建的投影矩阵P，

并且，其特征在于，所述阈值与以下距离相关联：

{DO}_{i} = | | x_{i} - μ - P_{d, k} y_{i}^{t} | |

{DRC}_{i} = \sqrt{Σ_{j = 1}^{k} \frac{y_{ij}^{2}}{l_{j}}}

其中，x_i是与所述学习图像相关联的所述矢量中的一个矢量，

P_d，k是包括所述投影矩阵P的前k个列的矩阵，

y_ij是来自所述投影矩阵且根据所述鲁棒均值的所述矢量x_i的投影y_i的第j个元素。

12.一种用于从与至少一个人相关联的至少两幅脸图像的组鉴别至少一张脸的系统，该系统包括学习设备和用于识别所述至少一张脸的识别设备，

其特征在于，所述学习设备包括用于确定属于如下组的阈值中的至少一个阈值的装置和下述第一装置，所述组包括：

-在所述矢量和在将所述矢量投影到与所述矢量云相关联的空间上之后重构的矢量之间的最大距离(DO_max)，

所述第一装置通过使用与所述至少一个人相关联的至少两幅学习脸图像的组对所述图像进行过滤，以使得能够根据所述阈值中的至少一个阈值选择代表将被鉴别的所述脸的至少一幅学习图像，

所述识别设备仅使用由所述学习设备选择的所述学习图像。

13.一种用于从与至少一个人相关联的至少两张脸图像的组鉴别至少一张脸的系统的学习设备，

其特征在于，该学习设备包括：

-用于分析所述学习图像以使得能通过使用与所述学习图像相关联的矢量来确定属于如下组的阈值中的至少一个阈值的装置，所述组包括：

-至少考虑所述矢量在由所述矢量构成的云中的隶属关系

的最大距离(DRC_max)，

-在所述矢量和在将所述矢量投影到与所述矢量云相关联

的空间上之后重构的矢量之间的最大距离(DO_max)；

-用于从所述代表学习图像构建所述至少一个人的矢量描述空间的装置，

从而识别设备仅使用所述学习设备所选择的所述学习图像。

14.一种用于从与至少一个人相关联的称为查询图像的至少两幅脸图像的组识别至少一张脸的识别设备，所述识别设备属于用于鉴别所述至少一张脸的系统，该系统还包括学习设备，

其特征在于，所述识别设备包括：

-用于使用由所述学习设备确定的至少一个阈值对所述查询图像进行过滤以选择代表将被识别的所述脸的至少一幅查询图像的第二装置；

-用于在由所述学习设备构建的所述至少一个人的矢量描述空间中将与所述至少一幅代表查询图像相关联的矢量的投影和与由所述学习设备选择的至少一幅代表学习图像相关联的矢量的投影进行比较以鉴别所述脸的装置，

所述学习设备包括根据与所述至少一个人相关联的至少两幅学习脸图像的组实现的第一过滤装置，其使得能够选择将被鉴别的所述脸的至少一幅代表学习图像，

所述识别设备仅使用所述学习设备所选择的所述学习图像。

15.一种计算机程序，其包括用于当处理器执行所述程序时执行根据权利要求1至11中的任何一个的用于鉴别至少一张脸的鉴别方法的步骤的程序代码指令。