CN101965588A

CN101965588A - 经高维数据分类的识别

Info

Publication number: CN101965588A
Application number: CN2009800004940A
Authority: CN
Inventors: 马毅; A·Y·杨; J·N·赖特; A·W·沃纳
Original assignee: University of Illinois
Current assignee: University of Illinois
Priority date: 2008-01-31
Filing date: 2009-01-29
Publication date: 2011-02-02
Also published as: US8406525B2; WO2009134482A2; WO2009134482A3; US20110064302A1

Abstract

本文公开一种用于在存在遮挡时识别高维数据的方法，包括：接收包括遮挡且属于未知类的目标数据，其中，目标数据包括已知对象；采样多个训练数据文件，所述训练数据文件包括与目标数据的对象相同的对象的多个不同类；以及使用l¹最小化，通过所采样的训练数据文件的线性叠加来标识目标数据的类，其中，具有最稀疏数量的系数的线性叠加用于标识目标数据的类。

Description

经高维数据分类的识别

相关申请

本申请要求美国临时申请61/025039的优先权，其通过引用结合于本文中。

联邦赞助的研究

本发明根据国家科学基金会(NSF)授予的合同NSFCAREER IIS-0347456、NSF CRS-EHS-0509151和合同NSFCCF-TF-051495、海军研究局(ONR)授予的ONR YIP N00014-05-1-063及陆军研究局(ARO)授予的ARO MURI W911NF-06-1-0076，在政府支持下完成。美国政府具有本发明的某些权利。

技术领域

本公开涉及用于即使在数据至少被部分遮挡时经高维数据分类进行识别的方法和系统，其复盖从语音识别到其它对象和面部识别。

背景技术

存在用于识别例如语音和图像的方法，但历史上它们对遮挡并不是非常健壮。通常，遮挡经常在数据对象的上下文中发生，并且在捕捉戴有帽子、太阳镜或不同程度的面毛遮盖的人的图像时相对面部出现。诸如噪声、反射等其它意外的对象也可能遮挡需要识别或标识的数据对象。这些遮挡可包括在尝试识别语音时语音数据的噪声或电磁干扰。许多现有方法要求测试对象或图像的先验知识和/或测试对象或图像内遮挡的位置的先验知识或有关遮挡的其它信息。

已用于图像识别的一种方法是称为最近邻(NN)的典型识别算法，该算法将与下面本文公开的方法进行比较。NN分类器计算测试向量y与训练向量v₁、...、v_n之间的欧几里德距离，并将y的成员关系指派为等于具有最近距离的训练向量之一。

已用于图像识别的另一种方法是称为最近子空间(NS)的有关算法，例如，到每个主体的图像跨越的子空间的最小距离。正如将示出的，本公开的方法在识别率方面要优越得多，特别是存在遮挡时。

附图说明

通过参考附图，将提供上面简要描述的公开内容的更具体描述。要理解，这些附图只提供有关典型实施例的信息，因此不可视为其范围的限制，公开内容将通过使用附图，借助于另外的特异性和细节来进行描述和解释。

图1A是使用高维数据分类、用于捕捉、对准和识别部分被遮挡的测试图像中的对象的系统100的框图。

图1B是示出识别系统的执行的系统图，其使用l¹最小化来恢复稀疏系数以增强识别。

图2A在左侧显示属于右侧八个人之一的被遮挡的面部。

图2B显示图2A中人物的成功识别，由作为训练图像的集合的稀疏线性组合加上由于遮挡造成的稀疏误差的测试图像来表示。

图3A显示通过从子空间R(A_j)之一采样点Ax₀、并通过稀疏向量e扰动它而生成被遮挡的测试图像y。

图3B显示耶鲁面部数据库B中的三个人的图像的混合线性结构；每个人的图像通过(仿射)三维子空间很好地近似。

图4A、4B、4C和4D分别显示：(A)被遮挡的测试图像y；(B)通过最小化l²范数来估计的相对训练集合的系数

(C)误差

以及(D)从估计的系数的重构。

图5A和5B显示l¹最小化器(l¹minimizer)对稀疏误差的健壮性，其中分别显示(A)通过将球体(l²球)居中x放置并将它扩展到触及R(A)而获得的l²最小化器；和(B)通过将l¹球(多面体)居中x放置并将它扩展到触及R(A)而获得的l¹最小化器。

图6显示经l¹最小化的分类的几何形状。

图7显示来自扩展耶鲁B数据库的人面部图像的示例。

图8A显示面部识别，带有12×10下采样图像为特征，并在图中绘出，测试图像y的从算法1恢复的稀疏系数的值及对应于两个最大稀疏系数的两个训练示例。

图8B显示相对于通过l¹最小化的投射稀疏系数

的图8A的测试图像的残差(residual)r_i(y)。

图8C使用来自图8A的测试图像，显示来自常规l²最小化的系数，其显示不稀疏的已恢复解。

图8D显示相对于通过l²最小化获得的系数的投影

的图8C的测试图像的残差。

图9显示图8的测试图像与训练图像之间的欧几里德距离。

图10A和10B分别显示右眼特征和半边面部特征的示例。

图11A、11B、11C、11D和11E显示变化的遮挡程度下的识别，分别是：(A)来自扩展耶鲁B的30％被遮挡的测试面部图像；(B)估计的稀疏误差

(C)绘出的估计的稀疏系数(D)重构的图像y_r；以及(E)算法1和三个竞争者的绘出的识别率。

图12A、12B、12C、12D和12E显示随机损坏下的识别，分别是：(A)来自扩展耶鲁B带有随机损坏的图像，逐行从顶部到底部，损坏量为30％、50％和70％；(B)估计的误差

(C)绘出的估计的稀疏系数

(D)重构的图像y_r；以及(E)算法1和三个竞争者的绘出的识别率。

图13A到13D显示分别遮挡不同区域鼻子、嘴巴和眼睛的效应和每个遮挡的识别率。

图14A、14B、14C和14D显示尽管有掩盖物的识别，分别是：(A)来自Aleix-Robert(AR)数据库的测试图像，有太阳镜遮挡；(B)估计的稀疏误差

的量值；(C)估计的稀疏系数向量

以及(D)重构的图像y_r。

图15A、15B、15C和15D显示失败的识别示例，分别是：(A)来自AR数据库的测试图像，大致40％被围巾遮挡；(B)估计的稀疏误差的量值；(C)估计的稀疏系数向量

以及(D)具有最大系数的训练图像，一名有胡须的男性。

图16A、16B和16C显示有效的测试图像，分别是：(A)30％被遮挡的测试图像；(B)恢复的系数；以及(C)对于每个类i的等式(10)的值。

图17A、17B和17C显示一个无效测试图像以便与图16A-16C对比，分别是：(A)30％被遮挡的测试图像；(B)恢复的系数；以及(C)对于每个类i的等式12的值，其中，用于有效测试图像(图16B)的系数稀疏得多，并且来自等式10的比率大得多。

图18A、18B、18C和18D显示用于异常值拒绝的受试者工作特征(receiver operator characteristics)(ROC)曲线，分别是：(A)无遮挡；(B)10％遮挡；(C)30％遮挡；以及(D)50％遮挡，其中，每个图的最顶部曲线表示带有如在算法1中的稀疏表示并随后经等式12拒绝异常值的计算。

图19A、19B、19C和19D显示处理邻接掩盖物的划分方案，分别是：(A)有围巾遮挡的测试图像，包括整体的和划分的；(B)估计的稀疏误差

(C)估计的稀疏系数以及(D)重构的图像y。

图20显示扩展耶鲁B的四个子集中的一种健壮设计，包含越来越极端的光照条件以展示对于每个子集的等效崩溃点(EBP)。

图21显示使用来自AR数据库的四个面部表情以从四个面部表情的不同对展示EBP的健壮设计。

图22A、22B和22C显示测试主体的配准和照明的复合效应，分别是：(A)来自Viola和Jones的面部检测器的输入面部(黑框)；(B)通过算法2与训练很好对准的输入面部(白框)，但只为用于识别的训练图像使用24个正面照明；以及(3)通过使用很好对准的输入面部和训练中充分的照明而获得的信息性表示。

图23A、23B、23C和23D显示通过l¹(顶部)和l²(底部)最小化的佩戴太阳镜的主体的比较，其中分别是：(A)虚线是面部检测器给出的初始面部边界，并且实线是对准的结果；(B)使用y_o的估计变换的扭曲的测试图像；(C)使用训练图像重构的面部A_ix；以及(D)误差e的图像。

图24A和24B显示算法对其成功对准合成扰动的测试图像的主体的一小部分，其中，转换的量表示为以度表示的平面内旋转的量和外眼角之间的距离的一小部分，分别是：(A)x和y方向中的同时转换；以及(B)y方向中的同时转换和平面内旋转θ。

图25显示主体的A到J姿势与正面训练图像的对准，其中，A到I显示对于-45°到+45°有良好的对准，并且J是基于极端姿势、算法失效的一个姿势。

图26A和26B分别是训练图像采集系统的透视图和训练图像采集系统的框图。

图27是按顺序显示单元的照明模式以在模式的每个相应照明捕捉主体的图像的方法的流程图。

图28是训练图像采集系统的顶视图。

图29A和29B分别是从图28的顶视图可观看的主体的前方和后方照明。

图30是训练图像采集系统的侧视图。

图31A和31B分别是从图30的侧视图可观看的主体的前方和后方照明。

图32A和32B分别是覆盖实验的照明模式和用于实现训练图像采集系统的选取的照明模式。

图33A和33B分别是显示在改变环的数量和单元的数量的实验期间、训练图像采集系统的照明模式的覆盖和粒度的图。

图34显示使用图32B的模式、从训练图像采集系统采集的38个训练图像的集合的示例。

图35通过采集、面部检测、与训练图像数据库对准和识别的步骤来显示测试图像的流程。

图36是Multi-PIE上的大型实验的图，显示与对于NN_m、NS_m和LDA_m的那些ROC曲线比较的对于算法的ROC曲线(标记为l¹)。

图37显示失败的Multi-PIE主体的代表性示例。

图38显示分类在类别1-3中的主体的代表性示例，每个类别一行，其中，类别1是未戴眼镜的主体，类别2是戴眼镜的主体，以及类别3是戴太阳镜的主体。

图39显示分类在类别4中的主体或带有明显的表情、姿势、轻度模糊和有时遮挡的主体的代表性示例，其中，顶部的行包括成功识别的那些主体，并且底部的行包括未识别出的那些主体。

图40显示分类在类别5中的主体或带有少量控制的主体的代表性示例，其中，顶部的行包括成功识别的那些主体，并且底部的行包括未识别出的那些主体。

具体实施方式

在下面的描述中，提供编程、软件模块、用户选择、网络事务、数据库查询、数据库结构等的许多特定细节以便彻底理解本文中公开的系统和方法的各种实施例。然而，公开的系统和方法能通过其它方法、组件、材料等来实践，或者能在没有一个或多个这些特定细节的情况下实践。

在一些情况下，未详细示出或描述公知的结构、材料或操作。此外，描述的特征、结构或特性可在一个或多个实施例中以任何适合的方式组合。如本文一般描述和图中示出的实施例的组件能以多种广泛不同的配置来布置和设计。正如本领域的技术人员将明白的，可更改结合公开实施例所述的方法的步骤或动作的顺序。因此，在例如流程图等图中的或具体实施例方式部分中出现的任何顺序只是用于说明目的，并无意暗示必需的顺序。

所述实施例的几个方面示为软件模块或组件。在本文中使用时，软件模块或组件可包括位于存储器装置内和/或作为电信号通过系统总线或有线或无线网络传送的任何类型的计算机指令或计算机可执行代码。软件模块可例如包括计算机指令的一个或多个物理或逻辑块，这些块可组织为执行一个或多个任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。

在某些实施例中，特定软件模块可包括存储在存储器装置的不同位置中的离散指令，这些指令一起实现模块的所述功能性。实际上，模块可包括单个指令或多个指令，并且它可在几个不同的代码段上、在不同的程序之间和跨几个存储器装置来分布。一些实施例可在分布式计算环境中实践，其中，由通过通信网络链接的远程处理装置执行任务。在分布式计算环境中，软件模块可位于本地和/或远程存储器存储装置中。

如在本文中所述的，对象指希望识别的内容，如图像内的特定主体(或人)或音频剪辑内来自某个人的特定语音等。对象指的是数据，表示能够通过分类来识别的事物。因此，关于面部，一个主体具有一个唯一的三维(3D)面部形状和颜色等。本文中公开的系统能够将3D面部标识为对象，并且在其标识后，对象可称为人物主体。

如在本文中所述，类描述例如在数据库中捕捉的所有对象的划分。每个主体采用单个类，例如，该主体的3D面部外观。类使得该划分是独占性的，这意味着对象被分类为单个类，如A类(MichaelChase)或B类(Andrew Wight)，而不是A类和B类两者或它们的某种混合。图像是被捕捉和存储的包含对象并在其上可执行分类的数字信息。异常值图像是与任何可用类无对应关系或者仅通过不止一个类的混合有对应关系的那些图像。作为一般规则，异常值图像或测试数据被拒绝。

大多数现代面部识别算法在实验室条件下工作良好，但在更少控制的环境中测试时降级。这大部分是由于难以同时处理照明、对准、姿势和遮挡的变化。提议的一种可行的面部识别系统对所有这些变化实现了高度的健壮性和稳定性。使用来自稀疏表示的工具显示在存在显著配准误差和遮挡的情况下将测试面部图像与正面训练图像的集合对准。对于有关例如在Carnegie Mellon University(CMU)开发的公共面部数据库Multi-PIE的公共面部数据集的提议的对准算法，详尽表征的是吸引的区域。其中描述的研究显示如何获得训练照明的充分集合以用于线性插入可行光照条件。包括基于投影仪的训练采集系统的完整面部识别系统已实现，以便评估开发的算法在实际测试条件下如何工作。该公开的系统能仅将提议照明下的正面图像用作训练，有效和高效地在多种现实条件下识别面部。

遮挡对健壮的现实对象识别造成了显著障碍。考虑捕捉人面部的图像的相机，希望实现其自动识别。图像能视为从相同面部的可能图像的相当严格的集合采样的一种测量。现在假设面部被部分遮挡(图2A和2B)。遮挡损坏了测量的图像，引入误差，这些误差：量值大(过失误差(gross error))；只集在部分图像上(稀疏误差)；和/或位置不可预测(随机支持的误差)。

图1A是使用如本文中公开的高维数据分类、用于在部分被遮挡的测试图像中捕捉、对准和识别对象的系统100的框图。系统100可包括服务器110，该服务器可包括但不限于：存储器114、处理器118、特征提取器122、面部检测器124、l¹最小化器126、识别器130、通信接口134及用户接口138，它们中的任何项可相互耦合。服务器110可还包括或耦合训练图像的图像数据库150和表示测试图像的源的测试图像数据库154，数据库154能包括足以将测试图像通过用户接口138传递到服务器110的任何存储器源。在本文中，词语“耦合”定义为表示直接连接或通过一个或多个中间组件间接连接。系统100可包括网络160，使得服务器110可通过网络160接收和发送图像和/或测试图像，并且可远程执行其处理的任何部分。

最后，系统100可还包括图像采集系统164和图像对准系统166，这将参照图26A、26B和27-35更详细公开。训练数据库150中存储的图像对于给定主体在数量上可以是多个，每个图像在姿势、角度和/或照明方面有某种程度的变化。因此，本文中公开的图像采集系统164允许从相同主体采集和记录多个变化的图像，存储在训练图像数据库150中以供以后使用。在基于训练图像可进行测试图像的标识前，数据库154中的测试图像和数据库150中的训练图像需要相互对准。图像对准系统166提供此类相互对准。图像对准系统166和图像采集系统164耦合在一起，并且可集成为单个采集和对准系统，包括但不排除集成在服务器110内。

特征提取器122可用于从图像数据库150和测试图像数据库154的任一个提取图像的特征。l¹最小化器126可由服务器110-或另一计算装置(包括移动装置)用于恢复稀疏系数，以在部分被遮挡的测试图像中恢复对象的相关和未损坏的数据，以便如下面将更详细解释的可由识别器130识别图像。用户接口138可用于例如从测试图像数据库154或图像采集系统164搜寻和/或采集要识别的测试图像。通信接口134可由服务器110用于通过网络160通信。网络160可包括通过使用有线或无线连接而连接到的因特网或万维网(“Web”)、广域网(WAN)、局域网(“LAN”)和/或外联网。

图1B是示出识别系统100的执行的系统图，其使用l¹最小化来恢复稀疏系数以增强识别。训练图像数据库150包含n个图像，图像在框170进行特征提取。测试图像174在框178进行特征提取。特征提取可由特征提取器122执行。系统100在框180经l¹最小化恢复稀疏系数，这些系数由x₁、x₂...、x_n表示，最终在框184产生测试图像174的识别。l¹最小化器128可用于在前者中恢复稀疏系数，而识别器130可用于在后者中识别即使存在部分遮挡的测试图像174。

为识别测试图像中的未知对象，系统100首先为测试图像(通过框178处的特征提取)，以及为其中之一是测试对象的k个对象的n个训练图像的图像数据库(通过框170处的特征提取)，计算有意义的图像特征。其次，l¹最小化过程在框180通过恢复将测试特征的稀疏表示恢复为训练特征的线性叠加。最后，在框184基于表示的已恢复稀疏系数，实现对象的识别。下面是系统100的实现的细节。

假设有图像I，特征选择或提取过程(框170和178)将图像转换成d维特征向量

图像特征的一些示例包括离散傅立叶变换(DFT)、离散余弦变换(DCT)、小波变换、主成分分析(PCA)、独立成分分析(ICA)、线性判别分析(LDA)及非线性内核图。在图1B中，用于数据库中n个图像的特征向量表示为v₁、v₂、...、v_n，而用于测试图像的特征向量表示为y。

测试图像的识别是基于其特征向量y相对于数据库150中训练图像的特征向量v₁、v₂、...、v_n的稀疏表示。更具体地说，假设y＝x₁v₁+x₂v₂+…+x_nv_n＝Ax， (1)其中，

是未知标量系数，以及A＝(v₁，v₂，...，v_n)是特征向量的矩阵，其可包括堆叠为向量的所有图像像素，或者该矩阵能包括在某些变换后的图像。稀疏性约束规定测试特征向量y应该仅使用相同对象的训练图像来线性表示。同样地，等式1中的系数x₁、x₂、...、x_n应全部为零，但与测试对象为相同对象的图像相关联的那些系数除外。也就是说，系数是稀疏的。

此类稀疏表示使用l¹最小化来计算：未知的系数x＝(x₁，x₂，...，x_n)^T经以下两种优化方法的任一个来计算：(P₁)min||x||₁ 以y＝Ax为条件； (2)(P₂)min||x||₁ 以||y-Ax||₂＜σ为条件，其中，σ是数据噪声的有界能(bounded energy)的估计。优化能使用线性规划或凸规划算法来有效地解决。

理想的情况是在恢复x后，x中的所有非零项将全部与单个主体相关联，并且测试图像y容易被指派到该主体。然而，由于噪声，非零项可能与多个主体相关联。许多分类器能解决此问题。例如，y可被指派到具有x中最大的多个非零项的主体(多数票)；或者y能被指派到具有x的单个最大项的主体。

图2A在左侧显示属于右侧八个人之一的被遮挡的面部。图2B通过将测试图像生成为训练图像的集合的稀疏线性组合加上由于遮挡造成的稀疏误差而显示图2A中人物的成功识别。

编码理论的基本原则是测量中的冗余对于检测和校正过失误差是必需的。冗余在对象识别中出现，这是因为图像像素的数量一般远远大于生成图像中的自由度的数量。在这种情况下，即使一小部分像素由于遮挡而被完全损坏，基于剩余像素，识别也仍是可能的。另一方面，基于降维或特征提取(例如，PCA、ICA、LDA)的方案丢弃冗余信息，从而降低对表示的误差容限。在A.Leonardis和H.Bischof的“Robust recognition using eigenimages”(Computer Visionand Image Understanding，vol.78，no.1，pp.99-118，2000)中提到了丢弃冗余信息的缺陷，该文提议随机采样以在PCA框架中处理遮挡。没有表示比原始图像本身更冗余或更具信息性。

当然，没有利用它的有效计算工具，冗余是无用的。直接利用原图像的冗余性的困难促使研究者转而关注于空间局部性作为用于健壮识别的指导原则。仅从一小部分图像像素计算得出的局部特征明显比整体特征更不可能被遮挡损坏。在面部识别中，诸如ICA和局部非负矩阵分解(LNMF)等方法尝试通过适应性地选取局部集中的过滤基(filter base)来利用此观察。有关的方案将图像划分成固定区域，并为每个区域计算特征。但要注意的是，投射到局部集中的基上变换遮挡问题的域，而不是消除损坏。有关原始像素的误差变成了已变换域中的误差，并且甚至可能变得更不具局部性。实现空间局部性中的特征提取的作用因此是可疑的：没有基或特征比原始图像像素更空间局部化。

用于健壮和准确识别的一个中心因素是在对象识别中自然出现的稀疏性。优选的是测试图像应该仅根据相同对象的训练图像、整个训练集合的一小部分来解释。遮挡造成的损坏一般也是稀疏的，只影响图像像素的一小部分。

稀疏表示在信号处理和信息理论中已吸引了极大关注。最近的进展集中在用于恢复稀疏表示的l¹范数的效力。一个相当重要的含义是在很一般的条件下，对线性等式系统求稀疏解的组合问题能通过最小化l¹范数，经凸优化而有效和准确地得以解决。在面部识别中，以前已提议l¹范数作为最近邻(NN)分类器的距离度量。l¹范数的此使用与本申请的主题不直接相关，并且在稀疏性或健壮性方面未表达相同的优点。

关于稀疏表示的早期工作已由D.Geiger、T.Liu和M.Donahue的“Sparse Representations for Image Decompositions”，(IJCV，vol.33，no.2，1999)用于检测来自小型库的已转换面部模板。而公开的l¹范数的使用产生了易处理的凸性问题。Geiger等人利用非凸性l^p范数(p＜1)，因此必须采取贪婪的匹配追踪策略(greedy matchingpursuit strategy)。由于使用小得多的图像库，测试图像的身份诱发的稀疏性未在Geiger等人中被标识为关键因素。

与此相反，本文中初次公开了l¹最小化如何提供一种原则性的框架以用于利用健壮识别问题中固有的两种类型的稀疏性：解释测试图像方面的稀疏性和遮挡引起的测量误差中的稀疏性。提议的是在存在遮挡时用于识别的算法。该算法使用l¹最小化，利用原图像数据中的冗余，将测试图像表示为给定训练图像的稀疏线性组合加上由于遮挡造成的稀疏误差。

直接利用问题的稀疏结构使方法能够使用原图像数据来实现技术现状的性能，无需降维、特征选择、合成训练示例或域特定的信息(如照明模型所要求的)。另外研究了此框架对识别系统的工程的含义，显示如何预测算法能处理多少遮挡及如何选取训练数据以使对遮挡的健壮性最大。有关公开可用数据库的广泛实验证明了提议方法的功效。

虽然提议的方法如上所述是通用的，但下面的实验结果局限于人面部识别。通过图21论述的提议的方法未明确考虑到对象姿势。基于l¹的框架对例如由于配准误差而造成的姿势方面的小变化具有健壮性。此类检测未假设，因此，面部的归一化和裁剪已在应用本申请的前半部分中的公开的算法之前执行。在从图22A、22B和22C开始的本申请后半部分中，公开了用于对姿势或未对准的自动对准和补偿的系统和方法。因此，公开的算法步骤在本申请的第二半部分中与第一半部分相比时有一定程度的变化，这是因为第二半部分自始至终自动进行对准和识别过程。

图3A显示通过从子空间R(A_j)之一对点Ax₀采样、并通过稀疏向量e扰动它而表示的被遮挡的测试图像y。图3B显示耶鲁面部数据库B中三个人的图像的混合线性结构；每个人的图像通过(仿射)三维子空间很好地近似。

对象识别中的基本问题是使用来自k个不同对象类的标记的训练图像正确地确定其身份最初未知的测试图像的类。w×h灰阶图像利用通过堆叠其列或行而产生的向量

被标识。系统100将给定训练图像布置为单个矩阵

的列，并且让

表示来自第i个类的n_i个训练图像的子矩阵。已提议统计、生成和判别模型的一个巨大变化以便为识别利用A_i的结构。一个特别简单和高效的方案将来自单个类的图像建模为取决于线性子空间。子空间模型灵活多变，足以捕捉实际数据集中的许多变化，并且特别是在面部识别的上下文中有明确目的，其中，已观察到在变化光照条件下面部的图像取决于特殊的9维子空间(参见图3A)。

因此，给定充分的训练图像，第i个对象的测试图像y将近似位于来自相同类的训练图像的线性跨度(linear span)中：y＝A_ix_i，其中，

是系数的向量。测试图像y也能根据完整的训练集合A＝[A₁，...，A_k]来表示：y＝Ax₀， (3)其中，

x_{0} \dot{=} {[0 . . . 0 x_{i}^{T} 0 . . . 0]}^{T} .

在存在噪声的情况下，线性子空间模型未精确成立，并且写成y＝Ax₀+z可能更实际，其中，z是小量值(例如高斯)误差的向量。为了讲解的简明，系统100可忽略z的效应。然而，所述几何形状和算法在噪声下可证明是稳定的。通过将下面算法1(表1)中的线性规划替代为E.Candes和P.A.Randall的“Highly robusterror correction by convex programming”(preprint，http://arxiv.org/abs/cs.IT/0612124，2006)中公开的二阶锥规划(second-order cone program)，能明确考虑到z项。

现在假设被观测的图像y也被部分遮挡。假设ρ是被遮挡区域中的像素的部分。因此，像素的部分(1-ρ)属于来自K个对象类之一的图像y₀：y＝y₀+e＝Ax₀+e， (4)其中，

是误差的向量。误差可具有任意量值，并且因此无法通过为小量值噪声设计的技术忽略或处理。然而，要注意的是，真正的e是稀疏的；其非零项取决于对应于被遮挡的像素的大小为ρm的集合(图3A和3B)。

给定此公式化，考虑在遮挡下解决识别的以下问题(问题1)。给定来自k类的训练图像的标记集合A₁，...，A_k和通过从第i₀类采样图像并随后任意扰动其值的部分ρ而生成的测试图像y，系统100可标识正确的类i₀。

作为解决此问题的第一步，要注意的是由于其特殊稀疏结构，向量x₀对于分类极具信息性。由于x₀最初是未知的，因此，对于线性等式系统寻求(近似)解Ax＝y。在图像像素的数量m大于训练图像的数量n时，系统被超定，并且可能不具有确切的解。这种情况下，通过将残差的l²范数最小化，传统常识压倒性地赞成最小二乘意义上的解：

{\hat{x}}_{2} = \underset{x}{\arg \min} {| | y - Ax | |}_{2} . - - - (5)

传统常识将此常见惯例包括在计算机视觉中。一些技术将y表示为基础向量的线性叠加，基础向量的系数通过将l²范数最小化而计算得出。对于正交基，这些系数只是y到基础向量上的投影。

图4A、4B、4C和4D分别显示：(A)被遮挡的测试图像y；(B)通过最小化l²范数估计的相对训练集合的系数

(C)误差

以及(D)从估计系数的重构。

在存在各向同性高斯噪声的情况下，

是x的最大似然估计。不过，由遮挡引发的误差e是高度非高斯的，由集中在图像像素的子集上的过失误差组成。在此情况下，

能够是任意不良的；由于||e||₂是不受限的，因此，

也不受限的。图4A到4D给出此现象的视觉展示。注意，通过l²最小化来估计的误差和系数

都受密集支持。不出所料的是，图4D中的重构相当差(与图11D的结果相比较)。该结论是不可避免的：常规最小二乘解未适当地利用问题1中固有的稀疏性，并且因此对遮挡不具健壮性。

下面示出如何通过最小化l¹范数而不是l²范数来利用稀疏性，从而产生在存在遮挡情况下用于识别的简单、健壮和有效的算法。

图5A和5B显示l¹最小化器(126)对稀疏误差的健壮性，其中分别显示(A)通过将球体(l²球)居中于x放置并将它扩展到触及R(A)而获得的l²最小化器；和(B)通过将l¹球(多面体)居中于x放置并将它扩展到触及R(A)而获得的l¹最小化器。

由于误差e已知是稀疏的，但属于任意量值，因此，最小化残差的l²范数的一个合理备选方案是转而寻求给出最稀疏残差的x：

{\hat{x}}_{0} = \arg \min_{x} {| | y - Ax | |}_{0} . - - - (6)

此处，l⁰“范数”||x||₀对向量x的非零项的数量进行计数。||x||₀不是真范数，因为对于α≠0，||αx||₀＝||x||₀。计算等式6给出A范围内的向量

使得误差

e = y - A {\hat{x}}_{0}

具有最少的非零项。

实际上，如果A在一般的位置中，并且误差e具有少于m/2的支持(少于一半的图像被遮挡)，则

{\hat{x}}_{0} = x_{0} .

也就是说，真解(truesolution)x₀给出最稀疏残差，并且能通过解等式(6)而确切地得出。不过，计算通常是非确定性多项式(NP)难题(nondeterministicpolynomial(NP)-hard)，并且要求检查误差e的每个可能支持。因此，似乎计算真x₀可能是毫无希望、难以解决的。不过，对于问题1，情况不是如此。能够看到，如果误差e足够稀疏，则l⁰最小化器

等于l¹最小化器：

{\hat{x}}_{0} = {\hat{x}}_{1}, - - - (7)

其中，

{\hat{x}}_{1} \dot{=} \arg \min_{x} {| | y - Ax | |}_{1} .

这是凸优化问题，其解是唯一的，并且能通过线性规划而有效地计算得出。

总之，如果y＝Ax₀+e，并且误差e足够稀疏，则通过生成系数，x₀能通过将误差e的l¹范数最小化而被准确地恢复。此等效性的证明和它成立的技术条件的详细讲解超出本申请的范围。要了解证明，参见J.Wright和Y.Ma的“Dense Error Correction viaL1-Minimization”(2008年8月提交到IEEE Transactions on InformationTheory，http://perception.csl.uiuc.edu/～jnwright/Wright08-IT.pdf)。

然而，图5A和5B给出l¹最小化器为何在健壮性方面表现出此类极大优点的基本直觉，其中，观察y通过对在A范围内的点Ax₀采样、然后沿坐标轴之一按e扰动它而生成。将l²范数最小化相当于查找触及A的范围R(A)的y周围的最小半径球体。它触及的点是

并且不等于

除非e⊥R(A)，一个有限的特殊子集。

另一方面，||·||₁的水平集合(level set)是八面体的，与坐标轴对准。将l¹范数最小化相当于将l¹球(八面体)围绕y居中，并且扩展它直到它触及R(A)。此交叉点是

在这种情况下，它等于Ax₀。注意，图5B的图形是比例不变的。这暗示l¹最小化恢复真解x₀的能力是与e的量值无关的，并且只取决于e的符号和子空间R(A)的相对几何形状及单位l¹球。从图5B的几何形状，应明白，在且仅在子空间R(A)到对应于e的单位l¹球上的(稀疏)点的转换R(A)e/||e||₁仅在e/||e||₁与球相交时，

{\hat{x}}_{1} = x_{0} .

前面显示了在超定系统(m＞＞n)中，将残差的l¹范数最小化能如何恢复x₀，即使存在任意大的误差(假设那些误差是稀疏支持的)。此方案未明确强制估计的系数向量

的稀疏性。不过，随着训练图像的数量n增大，等效性

{\hat{x}}_{1} = {\hat{x}}_{0} = x_{0}

开始崩溃。从检查线性系统Ax＝y明白此崩溃的原因。在n增大时，此系统变成平方的，然后变得欠定。R(A)将因而跨所有并且甚至被遮挡的测试图像x将可表示为A的列的线性组合。

从纠错角度而言，增大n(例如，通过扩展数据库中对象类K的数量)似乎降低了表示的冗余性：相同数量的图像像素必须表示更大数量的自由度。然而，注意情况并不是这样。每个测试图像仍具有高度冗余的表达式y₀＝Ax₀-它只取决于x₀的几个(≤n_i)非零项。但是，为利用此类冗余表示中固有的健壮性，需要强制估计的系数

具有此类稀疏结构。

因此，为x和e寻求同时稀疏的解。将等式4重写为

y = [Al] [\begin{matrix} x \\ e \end{matrix}] \dot{=} Bw . - - - (8)

此处，

因此系统Bw＝y欠定，并且不具有唯一解。然而，从上面的论述，生成w最多具有n_i+ρm个非零项。这促进寻求对此等式系统的最稀疏解。

{\hat{w}}_{0} = \arg \min {| | w | |}_{0} s . t . Bw = y (= Ax + e) . - - - (9)

实际上，如果矩阵B是在一般位置，则对于具有少于m/2个非零项的某一

只要

y = B \hat{w},

便是唯一最稀疏解：

{\hat{w}}_{0} = \hat{w} .

因此，如果遮挡e遮盖少于

个像素，或者大约50％的图像，则对于等式9的解是真生成器(true generator)[x₀e]。

像等式6的超定问题一样，求得对于线性等式系统的最稀疏解通常是NP难题。不过，对应的等效性结果表明如果最稀疏解w₀足够稀疏，则它等于最小的l¹范数解，

{\hat{w}}_{1} = \arg \min {| | w | |}_{1} s . t . Bw = y (= Ax + e) . - - - (10)

实际上，健壮性地求解超定系统y＝Ax+e的问题和稀疏性地求解欠定系统y＝Bw的问题是相当的，并且能相互变换。等式10的结果暗示只要遮挡e和系数x₀足够稀疏，它们便能通过l¹最小化有效和准确地计算得出。

至此，在l¹-l⁰等效性的理论中的几个结果已简述，并且显示了这些结果如何提供有效和易处理的方式以利用健壮识别问题中固有的两种类型的稀疏性。然而，确定这些结果是否实际相关要求有关w₀何时“足够稀疏”的更精确概念。

为了量化何时l¹-l⁰等效性成立(即，何时

{\hat{w}}_{1} = w_{0}

)，Donoho将矩阵B的等效崩溃点(EBP)定义为最大数k，使得对于具有少于k个非零项的某一w₀，如果y＝Bw₀，则对于系统Bw＝y的最小l¹范数解

等于该稀疏生成器w₀。“对于大多数大的欠定线性等式系统，最小l¹范数解也是最稀疏解(For most large underdetermined systems of linearequations the minimal l¹-norm solution is also the sparsest solution)”，Comm.Pure and Applied Math.，vol.59，no.6，pp.797-829，2006。在该文献中已为常数ρ₀的存在给出多个充分的条件，使得EBP(B)ρ₀m(即，对于具有通过l¹最小化可恢复的非零项的不消失部分的解)。例如，Candes等人指出，即使对于从高斯系综(Gaussian ensemble)得出的随机矩阵B，当m→∞时，具有极大的可能性EBP(B)＞ρ₀m。E.Candes、M.Rudelson、T.Tao和R.Vershynin，“Error correction via linearprogramming”(IEEE Symposium on FOCS，pp.295-308，2005)。有关EBP(B)的一个重要上界来自中央邻近多面体的理论：

D.Donoho，“Neighborly polytopes and sparse solution ofunderdetermined linear equations”(preprint，2005)。此结果指示如果n_i+|support(e)|＞m/3，则不应期望完美地恢复[x₀e]。通常，(m＞＞n_i)，因此，等式(11)暗示在其之下能希望仍实现完美重构的最大部分的遮挡是33％。此界限由下面论述的如图11A到11E所示的实验结果来证实。

假设接收根据等式8生成的测试图像y，并且还假设支持

({\hat{w}}_{0}) < EBP (B),

使得等式9和10等效。随后，通过以[A I]w＝y为条件将||w||₁最小化，能恢复系数向量x₀和遮挡引起的误差e。

图6显示经l¹最小化的分类的几何形状。B＝[A I]的列的凸包是

中的高维多面体。此多面体的每个顶点是训练图像或只照亮单个像素的图像(对应于B的身份子矩阵)。给定某个测试图像，解决l¹最小化问题必需定位测试图像落在多面体的哪个小平面上，其中，小平面类似于自然出现在晶体上或者在宝石上切割的平坦抛光表面之一。算法查找带有最少可能顶点的小平面。只有该小平面的顶点对表示有贡献；所有其它顶点没有贡献，或换而言之，在

中的其系数为零。

存在估计

和

的许多可能的方式能用于分类。例如，设置

y_{r} \dot{=} y - {\hat{e}}_{1}

补偿遮挡的效应。随后，能基于它离哪个面部子空间R(A₁)、...、R(A_k)最近来分类重构的图像y_r。然而，注意稀疏系数

已经将测试主体的身份编码。因此，能直接使用

指派y到其系数最接近它的类。更精确地说，k函数可定义为δ_i：

第i个其保留对应于第i组的系数，并将其它系数设置为零：

根据第i组相关联的系数的近似因而是

\hat{y} = A δ_{i} (x) + e,

并且通过指派y到将||y-Aδ_i(x)-e||₂最小化的组，分类能够实现。整个过程概括为下面表1中的算法1。基于S.Boyd和L.Vandenberghe的Convex Optimization(Cambridge University Press，2004)和E.Candes和J.Romberg的“l¹-magic：Recovery of sparsesignals via convex programming”(http://www.acm.caltech.edu/l1magic/，2005)，此实现经用于线性规划的原始对偶算法，将l¹范数最小化。表1

如上所述，算法1优选地补偿覆盖多达(EBP(B)-n_i)个像素的遮挡。超出此范围，理论不再保证准确的恢复，并且因此识别性能可能受损。不过，体验体(body of experience)暗示将l¹范数最小化仍助长稀疏性。另外，由于l¹最小化器在存在噪声的情况下稳定，因此，从高度遮挡的图像计算得出的x₀的估计可仍对识别是有用的。在下一节中，这被示出为确实如此。

图7显示来自扩展耶鲁B数据库(150)的人面部图像的示例。此处，一个示例用于演示上述方法超越现有方法在面部识别应用上的优点。扩展耶鲁B数据库(http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html)是一个免费的公共数据库，它提供测试面部识别方法的性能的基准。数据库(150)由来自38个人物主体的图像大小为192×168的2414个有效正面图像组成。图像在实验室控制的照明变化下捕捉。

作为演示，数据库中一半的图像(即1207个图像)是随机选择以用于训练的，并且面部图像的身份因此假设为未知。随后，剩余的1207个图像用于测试：对于每个测试图像，相对于1207个训练图像恢复稀疏表示x，并且将图像中主体的身份分类。

图8A显示带有12×10下采样图像作为特征并在图表中绘出的面部识别、从测试图像y的算法1恢复的稀疏系数的值及对应于两个最大系数的两个训练示例。在此第一实验中，将一个12×10下采样图像选取为图像特征。特征提取功能(图1B的框170)将每个图像从原始分辨率192×168转换到12×10。下采样图像的像素值用作120-D特征-堆叠为算法1中矩阵A的列。因此，矩阵A大小为120×1207，并且系统y＝Ax欠定。图8A示出使用l¹最小化方法、由算法1为来自第一主体的测试图像174恢复的稀疏系数x。图8A还示出对应于两个最大系数的原始图像和特征。两个最大(或最主要)系数均与来自主体1的训练样本相关联。

图8B显示相对于通过l¹最小化的投射稀疏系数

的图8A的测试图像的残差r_i(y)。两个最小残差之间的比率大约为1∶8.6。残差相关于38个投射的系数

i＝1，2，....，38。利用12×10下采样图像作为特征，算法1跨扩展耶鲁B数据库实现92.1％的总体识别率。虽然对于欠定系统y＝Ax的更常规最小l²范数解一般相当密集，但最小化l¹范数有利于稀疏解，并且当这个解足够稀疏时可证明地恢复最稀疏的解。

为示出此对比，图8C使用来自图8A的测试图像174，显示来自常规l²最小化的系数，这显示了不稀疏的已恢复解。图8D显示相对于通过l²最小化获得的系数的投影

图8C的测试图像174的残差。两个最小残差之间的比率大约为1∶1.3。这些系数比图8B中由l¹最小化给出的那些系数稀疏性少得多，并且主要系数不与主体1相关联。结果，图8D中的最小残差不对应于正确的主体(主体1)。

还考虑公开的方法与最近邻(NN)识别算法的比较。NN分类器计算测试向量y与训练向量v₁、...、v_n之间的欧几里德距离，并将y的成员关系指派为等于具有最近距离的训练向量之一。图9显示图8A的测试图像174与训练图像之间的欧几里德距离。明显的是，使用距离度量执行的识别比图8中的l¹解决方案效率更低。在数量上，公开方法在整个测试集合上的总识别准确率是92.4％，NN的准确率是61.81％。

图10A和10B分别显示右眼特征和半边面部特征的示例。在第二实验中，使用下面两个部分面部特征来测试提议的算法：(1)半边面部：系统100使用面部图像的左半边作为部分面部特征(在图10B和表2中示出)，该特征对应于主体的右半边面部；以及(2)右眼：在人类视觉的研究中，已知的是眼睛周围的区域是用于面部识别的最具信息性特征之一(在图10A和表2中示出)。从面部图像提取60×84右眼区域作为另一类型的部分面部特征。

下面的表2比较提议的方法和NN分类器的性能。通常，基于图像的对象识别和图像归类中所有技术现状的系统不利用稀疏性约束，因此，在与提议的方法比较时表现相当差。表2

特征	右眼	半边面部
			维度(d)	5,040	16,128
算法1[％]	93.5	98.4
			NN[％]	60.73	65.12

图11A、11B、11C、11D和11E分别显示在变化的遮挡程度下的识别：(A)来自扩展耶鲁B的30％被遮挡的测试面部图像；(B)估计的稀疏误差

(C)绘出的估计的稀疏系数

扩展耶鲁B面部数据库(经裁剪和归一化)用于此实验。此数据集包含各种照明条件下38个主体的正面图像。子集1和2(717个图像，一般到适中光照条件)被选取用于训练，并且子集3(453个图像，更极端的光照条件)被选取用于测试。在无遮挡的情况下，这是较简单的识别问题。此选择是故意的，以便隔离遮挡的效应。图像大小调整为96×84像素，因此，在此情况下，B是8064×8761矩阵。每个训练图像v_i被换算为具有单位l²范数。对于此数据集，EBP(B)≈1185，意味着能在高达13.3％百分比遮挡时实现完美的重构。

用于估计EBP(·)的工具基于图5A和5B的直觉和l¹球的几何形状。虽然用于正确计算EBP(·)的已知算法在本质上是组合式的，但通过将对于R(B)与l²球之间的交叉的搜索限制到R(B)的适当子集，能获得良好的上界。如在图11A中一样，通过将每个测试图像的随机定位块替代为不相关的图像，我们模拟从0％到50％的各种程度的遮挡。由于遮挡的不可预测的位置，选择图像的固定面部特征或块的方法在此处不太可能成功。

图11A示出30％遮挡情况下算法1的两个代表性结果。在第二行中，面部的整个中心被遮挡，这即使对人而言也是个困难的识别任务。图11B示出估计的误差

的量值。注意，

不但补偿由于狒狒造成的遮挡，而且补偿鼻子下阴影造成的线性子空间模型的违反。图11C绘出估计的系数向量

暗、高的项是对应于测试图像的真正类的系数。在两个示例中，估计的系数实际上是稀疏的，并且只对相同人的训练图像具有大的量值。在两种情况下，算法1正确地将被遮挡图像分类。

公开的方法在数量上与视觉文献中的三个通用技术进行比较。Turk等人的主成分分析(PCA)方案对遮挡不具健壮性，但为比较提供了标准基线。M.Turk和A.Pentland的“Eigenfaces forrecognition”(Journal of Cognitive Neuroscience，vol.3，no.1，pp.71-86，1991)。根据Georghiades等人所述，系统100在应用PCA前将图像像素归一化为具有零均值和单位方差。A.Georghiades、P.Belhumeur和D.Kriegman的“From few to many：Illumination cone models for facerecognition under variable lighting and pose”(IEEE Transactions onPattern Analysis and Machine Intelligence，vol.23，no.6，pp.643-660，2001)。对于PCA、独立成分分析(ICA)和局部化非负矩阵分解(LNMF)，基础成分的数量被选取为在范围{100，200，300，400，500，600}上给出最佳测试性能。ICA文献I尝试将训练集合表示为统计上独立的基础图像的线性组合。LNMF将训练集合近似为通过向稀疏基础(sparsebase)的偏置来计算的基础图像的相加性组合。

图11E示出所有四个算法的识别率，最顶部曲线是来自算法1的曲线，它与其竞争者相比，对所有程度的遮挡表现都要好得多。对于高达30％的遮挡，算法1表现几乎完美，正确地识别超过98％的测试主体。甚至在40％遮挡的情况下，只将9.7％的主体分类错误(表3)。表3量化性能：算法1有关具有变化遮挡程度的扩展耶鲁B的识别率

遮挡

0％

10％

20％

30％

40％

50％

识别率

100％

99.8％

98.5％

90.3％

65.3％

此结果对有关面部识别中使用整体与局部特征的争论具有有趣的含义。已建议ICAI和LNMF均对遮挡具有健壮性：因为它们的基是局部集中的，因此，遮挡只损坏系数的小部分。相反，如果使用l²最小化(正交投影)根据整体基础(例如训练图像本身)来表示被遮挡的图像，则所有系数可能损坏(如在图4D中)。此处的含义是问题不是根据整体或局部基础来表示测试图像的选择，而是如何计算该表示。适当地利用冗余和稀疏性直接与纠错和健壮性相关。提取局部或脱节的特征只能降低冗余，并且因此降低健壮性。

尽管存在随机损坏，识别也可实现。前面的示例考虑了阻挡面部邻接区域的结构化遮挡。然而，注意公开的方法不假设有关被遮挡区域的支持；它能够完全随机地被选取。在此示例中，来自扩展耶鲁B测试图像的变化百分比的随机选取的像素被损坏，将它们的值替代为来自均匀分布的独立相同分布式(iid)样本。被遮挡像素的百分比从0％到70％变化。

图12A、12B、12C、12D和12E分别显示随机损坏下的识别：(A)来自扩展耶鲁B的带有随机损坏的图像，逐行从顶部到底部损坏量为30％、50％和70％；(B)估计的误差(C)绘出的估计稀疏系数

图12A显示了几个结果。对于人眼，损坏的图像可刚刚识别为面部；确定其身份似乎是不可能的。然而即使在此极端情况下，算法1如图12D所示正确地恢复主体的身份。虽然损坏的此类随机模式不是典型的现实遮挡，但此健壮性可能对极不可靠的通信信道上的识别有用，或者甚至对室外环境中识别面部有用(例如，有雨或部分遮挡的叶子的情况下)。

图12E绘出算法1和三个竞争者如上所述作为损坏程度的函数的识别性能。从0直到50％遮挡，算法1正确地将所有主体分类。即使在70％遮挡，识别率也仍是93.2％(参见表4)。从图12E中，看到算法1表现比竞争者好得多。在50％损坏时，其它竞争者均未实现高于60％的识别率，而提议的方案表现完美。表4算法1有关具有变化程度的随机损坏的扩展耶鲁B的识别率

损坏(％)	0	10	20	30	40	50	60	70	80	90
											识别率(％)	100	100	100	100	100	100	99.8	93.2	44.2	9.3

注意，根据图12E，对于PCA和LNMF的识别率实际上对于10％和20％的损坏是增大的。此现象是由于训练和测试图像的统计中的差别造成的：测试图像从更极端光照条件拍摄，并因此在某些区域中更暗(参见图20)。均匀噪声包含比测试图像更多的明亮像素，并且当此损坏通过PCA和LNMF基过滤时，其主要效应是增大系数的量值，从而在本质上补偿此总体照明差别。然而，注意在噪声的量值增长大于30％时，这些算法的性能大大降级，而算法1的性能保持稳定和优越。

人类视觉方面的实验表明，眼睛和眉毛区域对于人面部识别最重要；如果去除眉毛，即使熟悉的脸也变得极难识别。使用扩展耶鲁B数据库，在算法1上测试遮挡各种图像区域的效应。生成了三个不同的测试集合，其中，黑色片分别遮挡眼睛、鼻子和嘴巴。

图13A到13D分别显示遮挡不同区域鼻子、嘴巴和眼睛的效果和每个遮挡的识别率。在每个遮挡中，黑色框遮挡20％的图像。在鼻子区域被遮挡时，算法1仍实现98.7％识别，而遮挡眼睛和眉毛将识别率降低到95.6％。这证实先前的结果，而眼睛似乎也是对于算法1的最重要的特征。

尽管主体在其面部戴有掩盖物，也可能实现识别。对于此实验，系统100使用由100个主体(50个男性和50个女性)的600个图像(每人6个)组成的Aleix-Robert(AR)面部数据库的子集。所有图像被裁剪，大小调整为83×60像素，并且归一化为具有l²范数1。对于训练，系统100使用200个未遮挡的正面视图的图像，带有中性的面部表情，产生的矩阵B大小为4980×5180。系统100估计EBP(B)≈845，表示高达16.9％的遮挡下完美重构是可能的。

图14A、14B、14C和14D显示虽然有掩盖物的识别，分别是：(A)来自AR数据库的测试图像，有太阳镜遮挡；(B)估计的稀疏误差

的量值；(C)估计的稀疏系数向量

以及(D)重构的图像y_r。考虑200个图像的两个单独测试集合。第一测试集合包含戴有太阳镜的主体的图像，遮挡大约20％的图像。图14示出来自此测试集合的成功示例。注意，

补偿图像边缘的未对准以及由于太阳镜造成的遮挡。然而，更大的未对准确实造成问题。有关此数据集的大多数失败似乎是由于配准误差造成的。

以及(D)带有最大系数的训练图像174，一名有胡须的男性。考虑的第二测试集合包含戴有围巾的主体的图像，围巾大致遮挡40％的图像。由于遮挡程度超过两倍的EBP(B)，因此，算法1不太可能在此域中成功。图15示出情况确实是如此。注意，带有最大系数的图像(图15D)是一名有胡须男性的图像，其嘴巴区域非常像围巾。

下面的表5比较算法1和前面部分中描述的三个竞争者。对于太阳镜遮挡的面部，算法1实现87％的识别率，优于最接近的竞争者17％。对于围巾的遮挡，其识别率为59.5％，比碰运气强，但远低于戴太阳镜的识别率。这确认虽然算法1可证明对高达EBP(B)的任意遮挡是健壮的，但在该点之外，它对于像来自不同人的训练图像174的区域的遮挡是敏感的。由于遮挡的量超过崩溃点，因此，需要另外的假设以实现良好的识别。下面描述在公开的框架内能如何利用遮挡的空间持续性，从而即使在此困难情况下也允许成功的识别。表5有关AR数据集的性能：在其假设成立的域中，算法1实现最佳识别率

算法1	戴有太阳镜时的识别率	戴有围巾时的识别率
			算法1()中的结果使用划分。	87.0％(97.5％)	59.5％(93.5％)
PCA+NN	70.0％	12.0％
			ICAI+NN	53.5％	15.0％
LNMF+NN	33.5％	24.0％

图16A、16B和16C显示有效的测试图像，分别是：(A)30％被遮挡的测试图像；(B)恢复的系数；以及(C)写在下面的等式(12)对于每个类i的值。实际的识别系统有时面临无效的测试图像：不在训练图像库中的某人的图像，或者甚至是某一完全不同的对象的图像。因此，除返回训练集合内的最佳匹配外，有效的识别系统100还应返回有关测试图像是否表示任何图库主体的置信度度量或甚至完全拒绝无效的图像。一个简单且有效的启发来自以下观察：与无效测试图像相关联的系数

一般不集中在任何个人主体上，而是如图16中一样分散在几个训练主体上。因此，对于图像，如果

\max_{i} {| | δ_{i} (\hat{x}) | |}_{1} \div {| | \hat{x} | |}_{1} < ν - - - (12)

，则拒绝图像，其中υ是预先选定的阈值。

在扩展耶鲁B数据库(150)上，如上将子集1和2用于训练并将子集3用于测试来测试了此理念。通过将每个测试图像的随机选取的块替代为无关的图像，在变化的遮挡程度(10％、30％、50％)执行模拟。然而，在此示例中，只包括训练集合中一半的主体。通过将阈值υ扫遍[0，1]中值的范围，生成图18中的受试者工作特征(ROC)曲线，测试系统100对于它确定给定测试主体是否在训练数据库中的能力得以测试。

图17A、17B和17C显示一个无效测试图像以便与图16A-16C对比，分别是：(A)30％被遮挡的测试图像；(B)恢复的系数；以及(C)等式12对于每个类i的值，其中，用于有效测试图像的系数(图16B)稀疏得多，并且来自等式12的比率大得多。为进行比较，通过为测试图像174的特征与PCA、ICA和LNMF特征空间内最近训练图像的特征之间的欧几里德距离设置阈值，考虑了异常值拒绝。这些曲线在图18A到18B中示出。

图18A、18B、18C和18D显示对于异常值拒绝的受试者工作特征(ROC)曲线，分别是：(A)无遮挡；(B)10％遮挡；(C)30％遮挡；以及(D)50％遮挡，其中，每个图中的最顶部曲线表示具有如算法1中的稀疏表示并随后经等式12拒绝异常值的计算。图18A到18D的每个图中的垂直轴是真阳性率。水平轴是假阳性率。每个图中的上部实心曲线是通过计算如算法1中的稀疏表示而生成。注意，等式12的启发在10％和30％遮挡近乎完美地执行。在50％遮挡，它仍比其三个竞争者表现更好，并且是四种算法中唯一表现比碰运气显著更强的算法。

在上述实验中，在未假设支持遮挡e的情况下，算法1仍能够容忍高达30％的图像像素的任意遮挡。另外，如果遮挡大致对所有训练图像是正交的(例如，图12中的损坏示例)，则算法容忍高达70％的损坏。不过，至今为止，在许多实际识别情形中，实际情况是遮挡落在先验未知但却知道是有关联的图像像素的某一片上，这种实际情况未得以利用。在面部识别中利用此信息的一个稍微传统的方案是将图像划分成块，并单独处理每个块。随后，例如通过投票聚集各个块的结果，同时丢弃被认为是遮挡的块。此方案的主要困难在于无法预期遮挡不妨碍任何固定划分；虽然只假设少量块被完全遮挡，但可能部分遮挡了剩余块的一些或所有。因此，在此类方案中，每个块内仍需要健壮的技术。

如果已知遮挡的量少于EBP(B)，则能且应直接应用算法1，因为它将实现更优的性能。然而，如果这不能得到保证，在每个块内执行l¹最小化能增大算法容忍的遮挡程度，这以一般性为代价。另外，此类方案严格改进基于诸如PCA等非健壮方法的现有块技术。

图19A、19B、19C和19D显示处理邻接掩盖物的划分方案，分别是：(A)围巾遮挡的测试图像，包括整体图像和划分的图像；(B)估计的稀疏误差

(C)估计的稀疏系数

以及(D)重构的图像y。图19B绘出的小图像是对应于大系数的训练图像。顶行示出算法1在整个图像(整体)上的性能。注意，两个最大的系数对应于一个有胡须的男性和一个尖叫的女性(图19D的顶部)，其嘴巴区域像遮挡的围巾的两个图像。第二行示出上述基于划分的方案。图19C示出对于两种类型遮挡的所有算法的性能。也就是说，图19C比较从作为整体的图像(顶部)恢复的稀疏系数和从各个块(底部四个图)恢复的那些系数。如图19D中所示，对于此遮挡，基于块的识别是成功的，而算法的整体版本失败。

每个训练图像被划分成大小为a×b的L个块，从而产生矩阵的集合A⁽¹⁾，...，

其中，

p \dot{=} ab .

测试被类似地将图像y划分成y⁽¹⁾，...，

测试图像的第l个块被写为训练图像的第l个块的稀疏线性组合A^(l)x^(l)加上稀疏误差通过l¹最小化能再次恢复稀疏

根据此分解，经等式13检测完全被遮挡的块。在每个未被遮挡的块中应用与算法1中相同的分类器。这些有效的分类结果随后由多数票来聚集。

图像被划分成大小为20×30像素的八个块，并且设置阈值υ＝.26。如此做将戴有围巾的图像的总体识别率从59.5％增大到93.5％，并且也将戴有太阳镜的图像的识别率从87.0％改进到97.5％。表6按性别和遮挡类型示出识别率的更全面的崩溃。有趣的是，女性始终更难以识别。这可能是由于男性面部上另外的独特特征(即，面毛)的存在以及女性头发外观中增加的可变性。表6有关使用块的AR的识别率的性别/条件崩溃

情况	识别率	情况	识别率
				太阳镜	97.5％	围巾	93.5％
男性	97.5％	女性	93.5％
				男性，太阳镜	100％	女性，太阳镜	95％
男性，围巾	95％	女性，围巾	92％

设计识别系统中许多重要的考虑事项之一是选择训练图像的数量以及要拍摄它们的状况(观察点、表情、光照)。

训练图像的集合应足够广泛，以复盖在测试集合中发生的状况，例如，从模式识别观点而言，它们应是“充分的”。上述等效崩溃点(EBP)的概念提供训练集合的质量的不同、量化的度量：更高的EBP意味着对遮挡更大的健壮性。

实际上，充分性和健壮性这两个顾虑是互补的。图20显示包含越来越极端的光照条件的扩展耶鲁B的四个子集中的一种健壮设计，以展示对于每个子集的等效崩溃点(EBP)。表7示出对于每个训练子集的估计EBP。注意，最高EBP≈1330，是通过具有最极端光照条件的子集4来实现的。表7

训练	1	2	3	4
					估计的EBP	1124	1122	1190	1330

图21显示使用来自AR数据库的四个面部表情以从四个面部表情的不同对展示EBP的健壮设计。表8示出带有不同面部表情的AR数据库的子集的估计的EBP。数据集包含图20中示出的四个面部表情：中性(N)、高兴(H)、生气(A)和尖叫(S)。从所有表情对生成训练集合，并且计算每个的EBP。最高崩溃点由中性+高兴和高兴+尖叫组合实现，而最低崩溃点来自中性+生气。注意，中性和生气图像在外观上很类似，而(例如)高兴和尖叫极不相同。表8

训练	N+H	N+A	N+S	H+A	H+S	A+S
							估计的EBP	585	421	545	490	550	510

因此，对于变化的光照(图20)和表情(图21)，图像中带有更广泛变化的训练集合允许对遮挡的更大的健壮性。设计允许在广泛变化的条件下识别的训练集合并不妨碍算法1；实际上，它有助于算法1。然而，训练集合不应包含太多类似的图像，如图21中的中性+生气示例。用信号表示的语言来说，训练图像应该形成不相干的词典(incoherent dictionary)。

自动面部识别仍是计算机视觉中最活跃的领域之一。虽然典型的算法由于其速度和简单而仍在通用，但它们往往在大型实际测试中无效，无法满足现实应用的真正自动化面部识别的最终目标，例如对设施、计算机系统和自动出纳机的访问控制。这些应用由于其潜在的社会影响，也因为它们可能允许仔细地控制训练数据的采集，从而允许更易处理和更可靠的解决方案，而具有吸引力。在此背景中，上述的一个有前途的方向将识别问题表现为根据作为整体的训练集合来查找测试图像的稀疏表示、取决于由于遮挡造成的某一稀疏误差的问题。

虽然上述内容在诸如扩展耶鲁B数据库等控制的实验室条件下拍摄的公共数据集上取得了令人印象深刻的结果，但它未解决现实的面部识别的两个方面：图像域和图像值中的显著变化。

图22A、22B和22C显示测试主体的配准和照明的复合效应，分别是：(A)来自Viola和Jones的面部检测器的输入面部(黑框)；(B)通过算法2(下述)与训练很好对准的输入面部(白框)，但只为用于识别的训练图像使用24个正面照明；以及(3)通过使用对准良好的输入面部和训练中充分的照明获得的信息性表示。任务是在20个主体中标识测试主体。如果测试面部图像(比方说从现有的面部检测器获得的)相对训练图像具有甚至少量的配准误差(由轻度姿势、比例或未对准造成)，则即使如图22A中所示的训练中存在充分的照明，表示也不再具有信息性。另外，为了充分地插入典型室内(或室外)环境的照明，在训练中也需要来自主体后的照明。否则，即使对于完美对准的测试图像，如图22B所示，表示也将不一定是稀疏的或具信息性的。不过，对于训练或测试，大多数公共面部数据库缺乏具有显著成分的后方(离正面超过90度)照明的图像。

本文中示出配准和照明两个强耦合问题如何能在稀疏表示框架内自然地得以解决。面部配准是一个具挑战性的非线性问题，能通过将配准误差的稀疏性迭代降到最低的一系列的线性规划来解决。这产生了用于面部图像的一种有效可行的对准算法，适用于转换、旋转、比例和姿势的大范围变化，甚至在由于眼镜、帽子、闭眼及张开嘴巴、传感器饱和等原因而只能看到部分面部时适用。还提议充分但不是最小的训练照明的集合，该集合能和用于捕捉光照的实际硬件系统一起插入典型的室内和室外光照。最后，通过简单、稳定且可升级的完整面部识别系统演示了提议的新方法的效力。提议的算法通过使用用于训练的提议照明下主体面部的标记的正面视图和检测图像中的面部的现有的面部检测器(124)，从室内室外拍摄的宽松控制的图像执行主体的健壮自动识别。本文中使用的是Viola和Jones的面部检测器的OpenCV实现。P.Viola和M.J.Jones的“Robust real-time facedetection”(IJCV，57：137-154，2004)。

如图22A中所示，算法1的稀疏表示和分类(SRC)的主要限制是测试图像174与训练集合(150)之间像素准确对准的假设。这导致姿势和未对准下的脆弱性，使得其不适合在实验室环境外部署。下面示出在仍保留SRC的概念简单性和良好的识别性能的同时能如何改正此弱点。

SRC假设对变化照明下拍摄的每主体多个登记的训练图像的数据库(150)进行访问。堆叠为向量的主体i的图像形成矩阵

所有图像一起形成大的矩阵

如所述一样，对准好的测试图像y₀能表示为数据库中所有图像-假设每个图像照明充分-的稀疏线性组合Ax₀加上由于遮挡造成的稀疏误差e₀。稀疏表示能通过将该和或x的1范数最小化而恢复，并且min||x||₁+||e||₁ subj y₀＝Ax+e (14)向量x的1范数是项的绝对值之和。

现在假设y₀受某一姿势或未对准影响，因此，不是观察y₀，而是观察扭曲的图像y＝y₀оτ^-1，对于某一变换，τ∈T，其中，T是在图像域上起作用的变换的有限维群。变换的图像y不再具有y＝Ax₀+e₀形式的稀疏表示，并且如在图22A中见到的，单纯地应用算法1不再适当。

注意，如果能发现真变形τ^-1，则能将其逆变τ应用到测试图像，并且再次可能找到结果图像的稀疏表示，如yоτ＝Ax₀+e₀。此稀疏性为查找正确的变形τ提供了强有力的线索：在概念上，将通过求解以下等式，寻求允许最稀疏的表示的变换T：

对于固定τ，此问题在x和e中是联合凸性的。然而，作为在系数x、误差表示e和变换τ上的同时优化，它是一个困难的非凸优化问题。困难的一个来源是在矩阵A中存在多个面部：等式15具有对应于将y与不同主体对准的许多局部最小值。在此意义上来说，未对准的识别问题不同于对准良好的版本。对于对准良好的情况，可能直接为全局表示求解，而无局部最小值的顾虑。在可能的未对准的情况下，更适当的是寻求测试面部与每个主体i的最佳对准：

其中，||x||₁由于A_i只包括主体i的图像而不再受到惩罚，并且因此x不再预期为是稀疏的。虽然问题(16)仍是非凸性的，但对于实际关注面部识别的情况，对变换的良好的初始猜测例如可从面部检测器124的输出得到。通过重复地线性化关于τ的当前估计，并寻求以下形式的表示，此初始化可改进为真变换的估计：y₀τ+JΔτ＝A_ix+e. (17)

此处，

是相对于变换参数τ的yоτ的雅可比行列式，并且Δτ是τ中的步长。如果允许配准误差e是任意的，则等式17是欠定的。在正确的对准附近，对准的测试图像被预期为与A_ix的不同仅在于被遮挡损坏的少量像素。因此，根据其l¹范数，寻求最佳稀疏化配准误差e的变形步长Δτ：

Δ {\hat{τ}}_{1} = \arg \min_{x, e, Δτ &Element; T} {| | e | |}_{1} subjy + JΔτ = A_{i} x + e . - - - (18)

注意，这不同于将配准误差的2范数最小化的通常选择：

Δ {\hat{τ}}_{2} = \arg \min_{x, e, Δτ &Element; T} {| | e | |}_{2} subjy + JΔτ = A_{i} x + e, - - - (19)

这也等效于通过解最小二乘问题：min||y+JΔτ-A_ix||₂来得出变形步长Δτ。根据经验，如果在y₀与A_ix之间只有小的噪声，则等式18和19均被发现有类似的性能。然而，如果在y₀中有遮挡，则等式18的迭代l¹最小化远远优于等式19的迭代l²最小化，图23A-23D示出一个示例。

图23A、23B、23C和23D显示通过l¹(顶部)和l²(底部)最小化，戴太阳镜的主体的比较，其中分别是：(A)虚线是面部检测器给出的初始面部边界，并且实线是对准的结果；(B)使用y₀的估计变换的扭曲的测试图像；(C)使用训练图像的重构的面部A_ix；以及(D)误差e的图像。

除将训练图像归一化(一次性完成)外，图像对准系统166可在算法运行时将扭曲的测试图像yоτ归一化。如果不进行归一化，则算法可能落入对应于扩展测试图像中的单个黑像素的退化全局最小值。归一化是通过将yоτ的线性化替代为归一化版本

的线性化来完成的。提议的对准算法能扩展到以多比例方式工作，在收敛行为和计算成本方面均有益。对准算法通过使用一级的结果来初始化下一级，在训练和测试图像的逐渐更少的下采样版本上简单地运行到完成。

一旦已为每个主体i计算最佳变换τ_i，便可将训练集合A_i与y对准，并且能解决等式14中的形式的全局稀疏表示问题以获得根据整个训练集合的有判别力的表示。另外，每主体对准残差||e||₁能用于从全局优化剪除无前途的候选者，留下小得多且可更有效的可解决的问题。完整的优化过程总结为下面所示表9中的算法2。

线性照明模型中的一个问题是在系数x中是否实行非负性，是否使用锥或子空间为照明建模。非负性组合被保证对应于物理上似乎真实的照明，但将不足以表示所有物理照明，除非训练图像确实跨越照明锥的边界。由于图像采集系统164是灵活的，因此，它能直接生成跨越照明锥的大多数的照明的集合，而不求助于负系数和冒险过度拟合(overfitting)。因此，在算法2中，x被强制为非负数。表9

算法2中一个重要的自由参数是变形T的类。在实验中，2D类似性变换

用于补偿面部检测器引起的误差，或者2D投影变换T＝GL(3)用于处理某一姿势变化。参数S决定一起考虑多少前面的候选者以提供用于测试图像的稀疏表示。如果S＝1，则算法通过配准误差简化为分类；但考虑到测试图像可能是无效的主体，一般选取S＝10。由于有效的图像具有根据此更大集合的稀疏表示，因此，可使用上面提议的稀疏性集中指数(sparsity concentration index)来拒绝无效的测试图像。图像对准系统166的快速线性规划已在C中为算法2实现。在2.8GHz Mac Pro上运行时，对于数据库150，每个主体对准花费0.65秒。

执行模拟和实验以演示前面部分中概括的单个对准过程的效力，并且阐明其操作范围。

2D变形。利用来自CMU Multi-PIE数据库的图像，验证根据算法2的对准的效力。R.Gross、I.Matthews、J.Cohn、T.Kanade和S.Bake的“Multi-PIE”(IEEE Conference on Face and GestureRecognition，2008)。在第2期(Session 2)中选择120个主体，其中，来自第2期的每个人对于训练使用11种照明，并且在来自第3期的一个新照明上测试。训练图像是Gross等人的照明{0，1，3，5，7，9，11，13，14，16，18}，并且测试图像是照明10。眼角在训练和测试中均手动选择为用于配准的地真值(ground truth)。图像下采样为80×60像素-除非另有说明，否则为默认值-并且两个外眼角之间的距离被归一化为对于每个人是50像素。人工变形通过转换或旋转的组合被引入测试图像。如果最终配准误差之间的差别是在手动配准造成的误差的1％之内，则配准被视为成功。

图24A和24B显示算法2对其成功对准合成扰动的测试图像174的主体的一小部分，其中，转换的量表示为以度表示的平面内旋转的量和外眼角之间的距离的一小部分，分别是：(A)x和y方向中的同时转换；以及(B)y方向中的同时转换和平面内旋转θ。图24A和24B示出对于每个人工变形的120个主体的成功配准的百分比。结果表明在所有方向上高达20％的眼距离(或10个像素)的转换和高达30°的平面内旋转的情况下，算法2表现极好。通过算法2的对准也对比例变化进行了测试，并且它能处理高达25％的比例变化。

还收集了Viola和Jones的面部检测器有关Multi-PIE数据集的统计资料。对于在20个不同照明下230个主体的4600个正现图像，使用手动配准作为地真值，检测到的面部的平均未对准误差是大约六(6)个像素，并且比例变化是17％。这安全地落在通过算法2的对准的吸引范围内。

3D姿势变化。由于在包括Multi-PIE等任何公共数据库中不可得到密集采样的姿势和照明面部图像，因此，使用图像对准系统166，已收集了单独的专有数据集150，这将在下面更详细解释。主体的正面面部图像在下面提议的38种照明下用作训练图像。为进行测试，在典型的室内光照条件下，以-90°到+90°范围(步长大小为5.625°)的姿势收集主体的图像，总共33个姿势。Viola和Jones的面部检测器用于初始化通过算法2的对准。

对SRC的修改牢固扎根于将变形健壮性添加到面部识别算法的传统中。然而，只有一个以前的工作在稀疏信号表示和SRC的上下文中研究了面部对准。J.Huang、X.Huang和D.Metaxas的“Simultaneous image transformation and sparse representation recovery”(CVPR，2008)。J.Huang等人考虑了训练图像本身未对准的情况并且允许每训练图像一种变形。他们线性化训练而不是测试，这在计算上成本更高，因为它实际上将训练集合的大小增至三倍。另外，由于他们将测试图像同时与所有主体对准，因此，如在下面的实验比较中将看到的，在主体数量增大时，它可能更易于受局部最小值影响。

扩展耶鲁B。在此实验中，使用了来自Huang等人的原样的实验设置。选择二十(20)个主体，并且每个主体具有32个正面图像(随机选择)作为训练，并且另外32个图像用于测试。10个像素(在x和y方向上)的人工转换被引入测试。对于算法2，由于存储器原因，所有图像被下采样到88×80，而Huang等人的工作使用随机投影。算法2实现88.59％的识别率，这与Huang等人报告的结果不相上下。然而，此特殊设置对算法2是不利的：使用裁剪的测试图像引入了边界效应，并且存在非常极端的照明使得如在算法2中一样强制x的非负性不太适当。

CMUMulti-PIE。在此实验中，从CMU Multi-PIE选取160个主体，每人来自第2期的11个训练图像和来自第3期的一(1)个测试图像。设置完全与有关2D变形的前面实验相同，但本实验有更多的主体。实验再次通过大小为80×60的下采样图像进行。在测试图像中引发了5像素(在x和y方向上)的人工转换。Huang等人的算法实现了73.75％的识别率，而算法2实现了90.625％的识别率。Huang等人的算法有两个自由参数：l和d。对于此实验，这些参数被选取为l＝1和d＝514(更高的值可在更高运行时间的代价下得到更好的识别率)。

上面假设了测试图像虽然在某一任意照明下拍摄，但能由有限数量的训练照明线性插入。已示出的是，对于凸性朗伯表面，只需要大约九(9)个基础照明便可线性插入所有其它照明。R.Basri和D.Jacobs，“Lambertian reflectance and linear subspaces”(PAMI，25(2)：218-233，2003)。虽然人面部既不是完全朗伯式或凸性的，但在各种经验研究中，已观察到经常能放弃使用类似数量的正面照明来插入在相同实验室条件下拍摄的大范围的新的正面照明。对于包括AR、ORL、PIE和Multi-PIE等许多公共面部数据库，情况是如此。

不过，在实际中，已发现纯粹由正面照明组成的训练数据库(150)不足以线性插入在典型室内或室外条件下拍摄的面部的图像。如图22B中示例所示，计算得出的表示不是始终是稀疏的或具信息性的。随后，识别会变得不精确。因此，为确保算法2在实践中有效，必须找到确实足以线性插入各种实际的室内和室外照明的训练照明的集合。为此，已设计了在采集主体的正面图像的同时、能从水平上方所有方向照亮主体的系统。

图26A和26B分别是训练图像采集系统164的透视图和训练图像采集系统164的框图。作为训练图像采集系统164的一部分的照明系统包括四个投影仪2604(A、B、C和D)，这些投影仪将对应的明亮图案2606(A、B、C、D)显示到在暗室2612的角落中的三个相邻反射表面(例如，墙壁)2608上(A-左，B-顶和C-右)。光从反射表面2608反射开，并且间接照亮主体的头部。任何多个相邻反射表面均可使用，例如带有反射涂层的屏幕，只要它们在邻接点形成角度，从而使得光能以各种角度从投影仪2604反射。因此，并不要求房间，但使用房间角落可以更方便，并且为了简明的缘故，将在下文中引用它。在主体面对角落时拍摄正面照明后，将椅子2616旋转大约180度，然后从相反方向(后方照明)通过至少一部相机2620拍摄照片。然而，具有两部相机2620将加速过程，这是因为只有椅子2616需要在正面与后方照明之间移动。一部相机2620可位于房间2612的角落，而另一部位于椅子2616与投影仪2604之间。

投影仪2604和/或相机2620可电连接到计算装置2624中或与其耦合，计算装置2624可控制投影仪2604的照明模式和强度以及从相机2620拍摄和记录图像的时序。照明模式的示例可从图32A和32B中看到，其每个单元可按顺序并以变化的强度来投射。基于投影仪的系统164与基于闪光的照明系统相比有几个优点：(1)照明能在软件中定义；(2)易于捕捉许多不同的照明；(3)无需在墙壁上安装相机或者构建大的穹顶；以及(4)对于基本系统164，不需要定制硬件。

因此，如图26B中的框图所示，训练图像采集系统164可包括都与计算机装置2624耦合的视频相机2620、投影仪2604，投影仪2604可以是数字光处理投影仪(DLP)或液晶显示器(LCD)投影仪2604。任何数量的投影仪2604可用于实现期望的照明模式。但是，在本实验中，4个投影仪2604被认为是足够的。

计算装置2624可包括但不限于存储器2628、处理器2636、磁盘储存器2636以及用于接纳投影仪2604和相机2620的连接器的输入/输出(I/O)端口2640。在计算装置2624的处理器2632上运行的软件或计算机代码使得能够定义来自投影仪2604的集合的照明模式。照明模式可包括多个单元，如下面将更详细解释的，这些单元按顺序从离开墙壁(反射表面)2608的不同角度照亮主体的面部。相机2620也可由计算装置2624控制，以便在来自投影仪2604的照明模式的每个相应单元更改后，图像以同步方式拍摄和记录在计算装置2624中。通过自动化照明模式和同步的图像采集，可在短时期内获得一组38个图像。当然，训练图像采集系统164能采集不同数量的训练图像，因此，数量38只是训练图像的足够数量的一个示例。

图27是按顺序显示单元的照明模式以在模式的每个相应照明捕捉主体的图像的方法的流程图。在框2710，从计算装置2624的磁盘储存器2636加载照明模式。在框2720，通过投影仪2604显示照明模式。在框2730，相机2620从主体的相机2620捕捉图像。在框2740，计算装置2624将图像存储(记录)到至少一个磁盘储存器2636以使得可用于存储在训练图像数据库150或测试图像数据库153中。在框2750，计算装置2624判定照明模式的所有单元是否已显示。如果没有，则方法返回框2720以显示照明模式的下一单元以便为主体采集图像。如果所有单元已显示，则在框2760，方法终止对该主体的采集。

图28是训练图像采集系统164的顶视图。正如能看到的，投影仪2604照亮房间2612的角落的后方两个墙壁2608A、C。投射的光实际上不直接照在椅子2616中坐着的主体2800，而是从墙壁2608反射到主体2800的面部上。

图29A和29B分别是从图28的顶视图可观看的主体的前方和后方照明。在图29A中，从左投影仪2604投射的光从后方的两个墙壁的左边墙壁2608A反射，以相对于墙壁2608A的特定角度照在前方坐着的主体2800的面部上。通过更改照明模式内的单元(图32A、32B)，光线可在多种角度-并且从不同墙壁2608-照在主体2800上，以便在测试主体识别期间在现场时可遇到的照明的所有情形能使用采集的训练图像的线性组合来表示。图29B来自后方的照明更困难-在某一点上，照明模式中间的一些单元将使照明直接位于主体2800的头部后面。当照明位于主体2800的头部后面时拍摄的图像是不可用的。从相对于主体2800的面部的侧角提供照明的其它单元可提供有用的图像，并且可以是在真实测试图像识别情形中实际遇到的照明情形。

图30是训练图像采集系统164的侧视图。注意，顶部的一组投影仪2604B、C的照明更多地照入房间2612的上部角和顶部墙壁2608B，但也照亮侧面墙壁2608A和2608C。底部的一组投影仪2604A、D分别专门照亮侧面墙壁2608A和2608C。

图31A和31B分别是从图30的侧视图可观看的主体的前方和后方照明。来自顶部的一组投影仪2604B和2604C的照明可从天花板2608B反射，并且在图31A中，从通常的前方途径照射主体2800的面部的顶部。在图31B中，照明模式来自通常的后方途径，但仍投射在主体2800的面部的顶部。

借助于具有投影仪2604的图像采集系统164，照明的选择只受以下需要约束：实现用于表示典型的测试图像的良好SNR和合理短的总采集时间。更佳的SNR能通过更多的照明来实现，但这将增加每个主体的捕捉时间。两个实验的进行是为了指导以下大型实验的照明选择。

图32A和32B分别是覆盖实验的照明模式和用于实现训练图像采集系统164的选取的照明模式。在第一(覆盖)实验中，确定需要球体的什么覆盖以便为测试图像实现良好的插入。主体由居中在前方相机、以同心环布置的100个(50个前方，50个后方)照明来照亮。从前方相机开始，并且每次添加一个环，选取训练图像的子集。每次添加一个环到训练照明集合时，计算并在图33A中绘出在阳光下拍摄的测试图像的集合的平均l¹配准误差(残差)。添加的训练照明的环越多，表示误差就变得越低，带有减少的返回(diminishingreturn)。

图33A和33B分别是显示改变环的数量和单元的数量的实验期间训练图像采集系统的照明模式的覆盖和粒度的图。在第二(粒度)实验中，确定应如何精细分割照明球体。在第一粒度级别，投影仪2604均匀照亮覆盖的区域。在每个随后的粒度级别，每个被照亮的单元沿其长边分成两个，但强度加倍。对于每个粒度级别，如在覆盖实验中一样计算平均l¹配准误差，其结果在图33B中示出。同样地，在添加更多照明时，观察到减少的返回。

在图33A中覆盖实验的绘图中，清楚地看到两个平稳区域：一个是在4环后，一个是在10环后。第一个四环表示典型的正面照明，这些照明在大多数公共面部数据集中存在；然而，很明显残差在包括来自主体背后的一些照明的10环后变得稳定。这暗示虽然正面照明能复盖面部上的大多数照明，但在训练中需要来自背后的一些照明以模拟来自所有方向的周围环境照明的效果。在图33B中粒度实验的绘图中，观察到在四次分割(对应于总共32个照明)后残差达到平稳。基于来自两个实验的结果，决定将前10个环覆盖的区域划分成如图32B所示的总共38个单元。选取的模式包括用于正面照明的所有24个单元，并且对于后方照明，单元1-5和7-11被忽略以组成总共38个单元。对于大型实验，为所有主体收集这38个照明。通过更仔细的实验，极可能的是能够进一步降低所需照明的数量，例如，一些前方照明可能是多余的。但是，由于另外的图像对于对准和识别算法2不增加太多的成本，因此，另外的图像保留在训练图像数据库150中。

图35通过采集、面部检测、与训练图像数据库150对准和识别的步骤来显示测试图像的流程。在框3510，将测试图像提交到系统100。在框3520，面部检测器124检测测试图像中的对象(面部)。在框3530，算法2的对准部分(步骤2到9)由图像对准系统166执行，以将对象与数据库150的训练图像对准。在框3540，对准的对象由l¹最小化器126进行l¹最小化-算法2的步骤10到14，以便识别器130能将对象分类，从而完成测试图像内的对象的身份的识别。

为了根据系统100的识别验证算法2的性能，将在大型面部数据库(150)上进行综合实验。第一个测试在适合测试算法2的可用的最大公共面部数据库CMU Multi-PIE上。目标是示出即使使用少量而不一定是足够量的训练照明，通过从现成的面部检测器124获得的测试图像，算法2也确实能用于在此类数据集上实现良好的性能。随后，在从本文中公开的图像采集系统164收集的图像形成的面部数据集(150)上，测试算法2。目标是示出利用对于每个主体的训练照明的充分集合，算法2确实如图22C示出的实验所示，对实际的照明、未对准、姿势和遮挡表现稳定和健壮。

CMU Multi-PIE在公共数据集150中提供算法2的最广泛的测试。此数据库包含337个主体在姿势、表情和照明方面同时变化的图像。在这337个主体中，第1期中存在的所有249个主体用作训练集合。剩余88个主体被视为“异常值”或无效图像。对于249个训练主体的每个，包括了带中性表情拍摄的7个正面照明-0、1、7、13、14、16、18-的正面图像。参见R.Gross、I.Matthews、J.Cohn、T.Kanade和S.Baker的“Multi-PIE”(FGR，2008)。对于每个定向照明，从其减去周围环境照明的图像0。这些极端正面照明将足以插入其它正面照明，这也将由图像采集系统164生成的数据集150上的下一实验来证实。对于测试集合，使用了第2-4期的所有20个照明。这些照明在几个月的期间内的不同的时间被记录。表10

识别率	第2期	第3期	第4期
				LDA_d(LDA_m)	5.1(49.4)％	5.1(44.3)％	4.3(47.9)％
NN_d(NN_m)	26.4(67.3)％	24.7(66.2)％	21.9(62.8)％
				NS_d(NS_m)	30.8(77.6)％	29.4(74.3)％	24.6(73.4)％
算法2	91.4％	90.3％	90.2％

由于主体的大的数量，并且由于随着时间的过去主体外观的自然变化，使用数据集150是挑战性的。表10示出算法2在3个测试期的每个上的结果。利用从Viola和Jones的面部检测器直接获得的输入(无手动干预)，算法2对所有三个期获得高于90％的识别率。算法2的结果与基线基于线性投影的算法，如最近邻(NN)、最近子空间(NS)和线性判别分析(LDA)进行比较。有关PCA的结果未列出，因为其性能始终低于最近子空间的性能。由于这些算法假设像素准确的对准，因此，如果测试未与训练对准好，则不预期它们可工作良好。在表10中，那些算法的结果示有两种类型的输入：(1)由下标“d”所示的Viola和Jones的检测器124的输出；以及(2)由下标“m”所示的、以手动选择的外眼角与训练对准的输入面部。注意，尽管进行了仔细的手动配准，但这些基线算法表现比使用直接来自面部检测器124的输入的算法2差得多。此处报告的LDA算法在Multi-PIE上的性能似乎与R.Gross等人已经报告的相符。

图36是Multi-PIE上的大型实验的图，显示与关于NN_m、NS_m和LDA_m的那些ROC曲线比较的关于算法的ROC曲线(标记为l¹)。测试了算法2拒绝未在训练数据库中出现的88个主体的无效图像的能力。图36绘出关于每个算法的受试者工作特征(ROC)曲线。拒绝不在整个数据库中的无效图像比判定两个面部图像是否是相同主体要困难得多。图36中的曲线不应与通过现有方法用于面部相似性的典型ROC曲线相混淆。

图37显示失败的Multi-PIE主体的代表性示例。算法2误差大部分是由在期之间显著更改其外观(如，头发、面毛和眼镜)的少数主体造成的。一些代表性示例在图37中示出。实际上，对于那些主体，对准和识别几乎在所有测试照明上都失败。

在Multi-PIE中带有姿势和表情的图像上运行了算法2的有限测试。使用与上面相同的训练图像，对于所有20个照明，在第2期中带有15°姿势的图像上测试了算法2。识别率是77.5％。算法2还在第3期中带有微笑的图像上被测试。对于照明0(周围环境)，识别率是58.5％，对于照明10，识别率是68.6％。

使用本文所述的训练采集系统164，收集少于图32B中所示的38个照明的未戴眼镜的74个主体的正面视图。为了测试算法2，在多种实际条件下通过不同相机拍摄这些主体的593个图像。

为了观察训练照明如何在实际中影响算法2的性能，比较了少数几个正面照明能如何很好地插入：(1)在相同实验室条件下拍摄的其它正面照明；以及(2)典型的室内和室外照明。为此，从面部数据库150选择由图像采集系统164采集的20个主体；每个主体的7个照明用作训练图像。照明被选取成类似于前面实验中在Multi-PIE上使用的7个照明，具体是图32B中示出的照明集合{6，9，12，13，18，21，22}，以模仿Multi-PIE中的照明集合{0，1，6，7，13，14，18}。随后，为所有20个主体在剩余17(24-7)个正面照明上测试算法2。识别率是近乎完美的99.7％。算法2还在多种室内和室外条件(在下面指定的类别1中)下拍摄的这些主体的173个正面图像上进行测试，类似于图22A、22B和22C中所示的测试，并且识别率下降到93.6％。当主体数量增加时，将预期识别率甚至进一步下降。

图38显示分类在类别1-3中的主体的代表性示例，每个类别一行，其中，类别1是未戴眼镜的主体，类别2是戴眼镜的主体，以及类别3是戴太阳镜的主体。图39显示分类在类别4中的主体或带有明显的表情、姿势、轻度模糊和有时遮挡的主体的代表性示例，其中，顶部的行包括成功识别的那些主体，并且底部的行包括未识别出的那些主体。图40显示分类在类别5中的主体或带有少量控制的主体的代表性示例，其中，顶部的行包括成功识别的那些主体，并且底部的行包括未识别出的那些主体。

最后，通过充分的训练照明进行大型测试。在多种条件下拍摄的593个图像上，所有74个主体和38个照明在训练和测试阶段中使用。基于测试图像中的主要可变性，测试图像被划分成五个主要类别。

类别1：在多种实际照明下(室内和室外)未戴眼镜的47个主体的242个图像，一般是正面视图(图38，第1行)。

类别2：戴眼镜的23个主体的109个图像(图38，第2行)。

类别3：戴太阳镜的14个主体的19个图像(图38，第3行)。

类别4：带有明显表情、姿势、轻度模糊和有时遮挡的40个主体的100个图像(图39的两行)。

类别5：带有少量控制(焦点未对准、运动模糊、显著的姿势、大的遮挡、搞怪的脸、极端的表情)的17个主体的123个图像(图40的两行)。

Viola和Jones的面部检测器(124)被应用在这些图像上，并且直接将检测到的面部用作对算法2的输入。表11(下面)报告算法2在每个类别上的性能。误差包括面部检测器124在一些更复杂图像上的失败。表11

测试类别	C1	C2	C3	C4	C5
						识别率(％)	95.9	91.5	63.2	73.7	53.5

本文中提议的是用于从实际条件下拍摄的图像识别人面部的新算法2和对应的系统100。提议的系统100在实现上较简单，并且因此结果较易于再现。提议的算法2在计算复杂性和识别性能方面均可伸缩。系统100直接与现有的面部检测器124兼容，并且在照明、未对准、姿势和遮挡大范围变化下实现稳定的性能。利用公共数据集和图像采集系统164采集的实际面部图像，在训练中仅使用正面2D图像而无需任何明确的3D面部模型，在大型测试上实现了极佳的识别性能。

在公开的方法和系统的布置、操作和细节中，可进行本领域的技术人员明白的各种修改、更改和变化。实施例可包括各种步骤，这些步骤可以在要由通用或专用计算机(或其它电子装置，包括诸如移动电话或个人数字助理等移动装置)执行的机器可执行指令中实施。备选的是，步骤可由包含用于执行步骤的特定逻辑的硬件组件来执行，或者由硬件、软件和/或固件的任何组合来执行。实施例还可提供为计算机程序产品，包括上面存储有指令的机器可读媒体，所述指令可用于将计算机(或其它电子装置)编程以执行本文中所述的过程。机器可读媒体可包括但不限于软盘、光盘、CD-ROM、DVD-ROM、ROM、RAM、EPROM、EEPROM、磁卡或光卡、传播媒体或适合于存储电子指令的其它类型的媒体/机器可读媒体。例如，用于执行所述过程的指令可经通信链路(例如，网络连接)，通过包含在载波或其它传播媒体中的数据信号从远程计算机(例如，服务器)传送到请求的计算机(例如，客户端)。

Claims

1.一种用于在存在遮挡时识别高维数据的计算机实现的方法，包括：

由计算机接收包括遮挡并属于未知类的目标数据，其中所述目标数据包括已知对象；

通过所述计算机采样多个训练数据文件，所述多个训练数据文件包括与所述目标数据的对象相同的对象的多个不同类；以及

由所述计算机使用l¹最小化，通过所采样的训练数据文件的线性叠加来标识所述目标数据的类，其中具有最稀疏数量的系数的线性叠加用于标识所述目标数据的类。

2.如权利要求1所述的方法，其中所述多个训练数据文件包含所述目标数据，以及其中识别所述目标数据的类是通过执行包括l¹最小化的算法以去除所述遮挡，以便允许标识所述目标数据。

3.如权利要求2所述的方法，其中所述目标数据的对象包括测试语音文件，以及其中所述多个训练数据文件包括训练语音文件。

4.如权利要求2所述的方法，其中所述目标数据的对象包括多个像素被部分遮挡的测试图像(y)，以及其中所述多个训练数据文件包括多个训练图像。

5.如权利要求4所述的方法，其中单个矩阵(A)表示所采样的多个训练图像，以及其中所述算法恢复y＝Ax₀+e形式的表示，其中x₀包括产生所述最稀疏数量的系数的解，并且其中e包括误差的向量，它也是y的稀疏表示。

6.一种用于在存在遮挡时识别高维数据的计算机实现的方法，包括：

由计算机接收包括遮挡且其身份未知的测试数据(y)，其中所述测试数据包括已知对象；

通过所述计算机采样多个标记的训练数据文件，所述多个标记的训练数据文件由包括多个(k)不同身份的矩阵A＝[A₁...A_k]来表示，其中所采样的训练数据文件具有与y的对象相同的对象；以及

通过所述计算机，使用l¹最小化将y表达为所述多个训练数据文件(A)的稀疏线性组合加上由于所述遮挡造成的稀疏误差(e)，其中所述测试数据y的身份由所述计算机来识别。

7.如权利要求6所述的方法，其中所述测试数据y的对象包括测试语音或音频文件。

8.如权利要求6所述的方法，其中所述测试数据y的对象包括多个像素被部分遮挡的测试图像，以及其中所述多个训练数据文件包括多个训练图像。

9.如权利要求8所述的方法，其中将y表达为A的稀疏线性组合和e包括：

生成系数(x₀)，使得y＝Ax₀+e，其中包括m空间中非零项的误差向量，并且x₀和e包括通过l¹最小化的y的同时稀疏表示，其中的非零项取决于对应于所遮挡的像素的大小为ρm的集合，其中m包括所述测试图像中像素的总数，并且ρ包括对应于遮挡的像素的数量的部分。

10.一种用于在存在遮挡时识别高维数据的计算机实现的方法，包括：

由所述计算机将多个的n个训练样本划分成k个类以产生矩阵A＝[A₁...A_k]，其中所述训练样本的对象与所述测试数据y的对象相同，

设置B＝[A₁...A_kI]；

计算

{\hat{w}}_{1} = {\arg \min}_{w = [xe]} {| | w | |}_{1},

使得通过l¹线性规划，Bw＝y；

对于i＝1:k，计算残差

r_{i} = {| | y - {Aδ}_{i} ({\hat{x}}_{1}) - {\hat{e}}_{l} | |}_{2};

以及

由所述计算机输出

\hat{i} (y) = {\arg \min}_{i = 1, . . ., k^{r_{i}}},

以将y指派到其系数与它最佳接近的类，由此识别所述测试数据y的身份。

11.如权利要求10所述的方法，其中所述测试数据y的对象包括测试语音或音频文件。

12.如权利要求10所述的方法，其中所述测试数据y的对象包括多个像素至少部分被遮挡的测试图像，以及其中所述多个的n个训练样本包括多个训练图像。

13.如权利要求10所述的方法，其中所述n个训练样本的k个类的至少一个类包括所述测试数据y。

14.一种用于在存在遮挡时识别高维数据的系统，包括：

处理器，与存储器耦合；

数据库，与所述处理器耦合；

用户接口，接收包括遮挡且属于未知类的目标数据，其中所述目标数据包括已知对象；

特征提取器，与所述数据库和所述处理器耦合，采样多个训练数据文件，所述多个训练数据文件包括与所述目标数据的对象相同的对象的多个不同类，其中所述数据库包括所述训练数据文件；

l¹最小化器，与所述处理器耦合，使用l¹最小化来线性叠加所采样的训练数据文件；以及

识别器，与所述l¹最小化器耦合，通过使用所叠加的采样的训练数据文件来标识所述目标数据的类，其中具有最稀疏数量的系数的线性叠加用于标识所述目标数据的类。

15.如权利要求14所述的系统，其中所述l¹最小化器执行包括l¹最小化的算法以去除所述遮挡，以便允许标识所述目标数据。

16.如权利要求15所述的系统，其中所述目标数据的对象包括测试语音文件，以及其中所述多个训练数据文件包括训练语音文件。

17.如权利要求15所述的系统，其中所述目标数据的对象包括多个像素被部分遮挡的测试图像(y)，以及其中所述多个训练数据文件包括多个训练图像。

18.如权利要求17所述的系统，其中单个矩阵(A)表示所采样的多个训练图像，所述算法恢复y＝Ax₀+e形式的表示，其中x₀包括产生所述最稀疏数量的系数的解，以及其中

包括含有y的稀疏表示的误差的向量，其中的非零项取决于对应于所遮挡的像素的大小为ρm的集合，其中m包括y中像素的总数，并且ρ包括对应于遮挡的像素的数量的部分。

19.一种用于在存在遮挡时识别高维数据的系统，包括：

处理器，与存储器耦合；

数据库，与所述处理器耦合，所述数据库包括多个的n个训练样本；

用户接口，接收包括遮挡且属于未知类的目标数据(y)，其中所述目标数据包括已知对象；

特征提取器，与所述处理器和所述数据库耦合，将多个的n个训练样本划分成k个类以产生矩阵A＝[A₁...A_k]，其中所述训练样本的对象与所述测试数据y的对象相同，其中所述特征提取器设置B＝[A₁...A_kI]；

l¹最小化器，与所述处理器耦合：

计算

{\hat{w}}_{1} = {\arg \min}_{w = [xe]} {| | w | |}_{1},

使得通过l¹线性规划，Bw＝y；

对于i＝1:k，计算残差

r_{i} = {| | y - {Aδ}_{i} ({\hat{x}}_{1}) - {\hat{e}}_{l} | |}_{2};

以及

识别器，与所述l¹线性最小化器耦合，输出

\hat{i} (y) = {\arg \min}_{i = 1, . . ., k^{r_{i}}},

并将y指派到其系数与它最佳接近的类，由此识别所述测试数据y的身份。

20.如权利要求19所述的系统，其中所述测试数据y的对象包括测试语音或音频文件。

21.如权利要求19所述的系统，其中所述测试数据y的对象包括多个像素至少部分被遮挡的测试图像，以及其中所述多个的n个训练样本包括多个训练图像。

22.如权利要求19所述的系统，其中所述n个训练样本的k个类的至少一个类包括所述测试数据y。

23.一种用于采集主体的训练图像的集合以便包含在图像训练数据库中的系统，所述系统包括：

投影仪的集合，照亮多个相邻反射表面，所述多个相邻反射表面在其之间在邻接点形成至少一个角度，其中所述反射表面反射来自所述投影仪的光，其中其图像要被采集的主体在投影仪的所述集合前所述邻接点的预定距离内的位置是可安置的；

计算装置，与投影仪的所述集合耦合，具有使得能够定义来自投影仪的所述集合的照明的模式的计算机代码，其中所述照明模式包括多个单元，所述多个单元从离开所述反射表面的不同角度按顺序照亮所述主体的面部；以及

相机，安置在两个位置之一，所述两个位置包括在所述邻接点的第一位置和投影仪的所述集合与所述主体位置之间的第二位置，朝所述主体位置定向所述相机以在来自投影仪的所述集合的照明的变化角度记录所述主体的面部的多个训练图像。

24.如权利要求23所述的系统，其中所述多个反射表面包括墙壁或屏幕，并且所述邻接点包括房间的上角。

25.如权利要求24所述的系统，其中投影仪的所述集合包括四个数字光处理(DLP)投影仪，所述投影仪的一对安置在底部一对投影仪的顶部上，其中所述顶部一对投影仪照亮所述房间的角落的上半部，并且所述底部一对投影仪照亮所述房间的角落的下半部。

26.如权利要求25所述的系统，其中定向投影仪的所述集合使得所述照明模式不直接照射在安置在所述主体位置的所述主体上。

27.如权利要求23所述的系统，其中所述计算装置还使得能够改变照明的所述模式的强度。

28.如权利要求23所述的系统，其中所述相机包括第一相机，所述系统还包括安置在所述第一和第二位置的另一位置并且朝所述主体位置定向的第二相机，其中所述主体可旋转以面对所述第一和第二相机的每个，使得在短时期内能够从两个相机记录所述主体的图像。

29.如权利要求28所述的系统，其中所述第一和第二相机以相对彼此的某个角度来安置，包括大约180度。

30.如权利要求28所述的系统，其中所述第一和第二相机的任何一个或两个相机与所述计算装置耦合，以及其中通过所述计算装置的所述计算机代码，同步记录所述主体的图像，使得所述计算装置在所述照明模式的顺序照明单元的每个记录图像。

31.一种用于采集主体的训练图像的集合以便包含在图像训练数据库中的方法，所述方法包括：

通过投影仪的集合照亮多个相邻的反射表面，其中所述反射表面在邻接点形成至少一个角度，并且反射来自所述投影仪的光；

在房间的所述邻接点与投影仪的所述集合之间安置要采集其图像的主体；

将计算装置与投影仪的所述集合耦合，其中所述计算装置包括使得能够定义来自投影仪的所述集合的照明的模式的计算机代码，其中所述照明模式包括多个单元，所述多个单元从离开所述反射表面的不同角度按顺序照亮所述主体的面部；

在两个位置之一安置相机，所述两个位置包括在所述邻接点的第一位置和在投影仪的所述集合与所述主体位置之间的第二位置；以及

朝所述主体定向所述相机以在来自投影仪的所述集合的照明的变化角度记录所述主体的多个训练图像。

32.如权利要求31所述的方法，其中所述多个反射表面包括墙壁或屏幕，并且所述邻接点包括房间的上角。

33.如权利要求31所述的方法，其中投影仪的所述集合包括四个液晶显示器(LCD)投影仪。

34.如权利要求31所述的方法，还包括：

通过所述计算装置来改变投影仪的所述集合的照明模式的强度。

35.如权利要求31所述的方法，其中所述相机包括第一相机，所述方法还包括：

在所述第一和第二位置的另一位置安置第二相机；以及

朝所述主体定向所述第二相机，其中所述主体可旋转以面对所述第一和第二相机的每个，使得在短时期内能够从两个相机记录所述主体的图像。

36.如权利要求35所述的方法，还包括：

将所述第一和第二相机的任何一个或两个相机与所述计算装置耦合；以及

通过所述计算装置的所述计算机代码，记录所述主体的多个图像，使得所述计算装置在所述照明模式的顺序照明单元的每个记录图像。

37.如权利要求31所述的方法，还包括：

定向投影仪的所述集合，使得所述照明模式不直接照射在安置在所述主体位置的所述主体上。

38.一种用于对准图像内的主体以便与数据库内其它图像进行比较的计算机实现的方法，所述方法包括：

使用计算机执行的面部检测器来生成图像(y)内所述主体的变换的初始估计(τ₀)；

通过计算机以τ₀扭曲所述图像(y)，以创建yοτ₀+e，其中e是配准误差；以及

由所述计算机以所述变换τ重复地扭曲y，使得e变得尽可能小和稀疏，由此通过迭代地执行以下操作来对准所述图像：

通过求解yοτ+JΔτ＝A_kx+e，线性化关于τ的当前估计，其中A_k包括多个训练图像的矩阵，x是所述多个训练图像的至少一些的线性组合，并且Δτ是用于当前迭代的τ中的步长变化；

找到将e在其l¹范数方面最佳稀疏化为

ar \underset{x, e, Δτ &Element; T}{g \min} {| | e | |}_{l} subjy + JΔτ = A_{k} x + e

的Δτ，其中T包括变形群；以及

设置τⁱ⁺¹等于τⁱ+Δτ。

39.如权利要求38所述的方法，还包括：

在所述计算机执行所述迭代扭曲时，通过将yοτ的线性化替代为归一化版本的雅可比行列式

将所扭曲的图像yοτ归一化。

40.如权利要求38所述的方法，其中执行迭代地扭曲y，直到Δτ达到预定的低阈值。

41.如权利要求38所述的方法，还包括：

在每图像(k)基础上，在多个训练图像(K)的每个上执行所述迭代扭曲对准；以及

在数据库中保存每个对准的训练图像以及相应的最终τ值以用于在标识测试图像中使用。

42.如权利要求41所述的方法，其中所述图像(y)是具有遮挡且其身份未知的测试图像，所述方法还包括：

通过所述计算机从所述数据库采样包括多个不同主体的由矩阵A＝[A₁...A_k]表示的多个标记的训练图像，其中所采样的训练数据文件包括与y的对象相同的对象；以及

通过所述计算机，使用l¹最小化将y表达为所述多个训练图像(A)的稀疏线性组合加上由于所述遮挡造成的稀疏误差(e)，其中所述测试图像y的身份由所述计算机来识别。

43.如权利要求42所述的方法，其中所述遮挡由多个被遮挡的像素来表示，其中将y表达为A的稀疏线性组合和e包括：

生成系数(x₀)，使得y＝Ax₀+e，其中包括m空间中的非零项的误差向量，并且x₀和e包括通过l¹最小化的y的同时稀疏表示；

44.一种计算机实现的方法，用于对准测试图像内的主体以便与数据库内多个训练图像进行比较，以在存在遮挡时识别所述测试图像，所述方法包括：

使用计算机执行的面部检测器来生成测试图像(y)内的所述主体的变换的初始估计(τ₀)，其中所述测试图像包括遮挡且其身份未知；

对于训练图像的所述数据库内的多个主体(K)的每个主体(k)，通过计算机迭代地执行：

从τ₀开始，通过计算机以变换(τ)来扭曲y，以创建yοτ₀+e，使得配准误差e变得尽可能小和稀疏；

通过求解yοτ+JΔτ＝A_kx+e，线性化关于τ的当前估计，其中A_k包括K个主体的多个训练图像的矩阵，x是所述多个训练图像的至少一些的线性组合，

并且Δτ是用于当前迭代的τ中的步长变化；

找到将e在其l¹范数方面最佳稀疏化为

ar \underset{x, e, Δτ &Element; T}{g \min} {| | e | |}_{l} subjy + JΔτ = A_{k} x + e

的Δτ，其中T包括变形群；以及

只要Δτ保持大于预定的低阈值，就设置τⁱ⁺¹等于τⁱ+Δτ；保留具有最小残差||e||_l的A_k中的最前(S)数量的训练图像；

设置A等于

其中包括用于第S个训练图像的逆变换τ值；

通过所述计算机来解决包括

\hat{x} = \arg \min_{x, e} {| | x | |}_{1} + {| | e | |}_{l} subj

y＝Ax+e，x≥0的l¹最小化问题；

对于i＝k₁，...，k_s，通过所述计算机来计算残差

r_{i} (y) = {| | y - A_{i} {\hat{x}}_{i} | |}_{2};

以及

从所述计算机将y输出为argmin_ir_i(y)，由此具有最稀疏数量的系数的线性叠加用于标识所述测试图像y。

45.如权利要求44所述的方法，还包括：

通过将yοτ的线性化替代为归一化版本的雅可比行列式

将所扭曲的测试图像yοτ归一化。

46.如权利要求44所述的方法，其中所述训练图像的对象与y的对象相同。

47.如权利要求44所述的方法，还包括：

在迭代地扭曲y以将y与其对准之前，将A_k中的所述多个训练图像归一化。

48.如权利要求44所述的方法，还包括：

设置S为大约10。

49.一种计算机实现的方法，用于对准测试图像内的主体以便与数据库内多个训练图像进行比较，以在存在遮挡时识别所述测试图像，所述方法包括：

从τ₀开始，以变换(τ)来扭曲y，以创建yοτ₀+e，使得配准误差e变得尽可能小和稀疏；

通过将yοτ的线性化替代为归一化版本的雅可比行列式

将所扭曲的测试图像yοτ归一化；

并且Δτ是用于当前迭代的τ中的步长变化；

找到将e在其l¹范数方面最佳稀疏化为

ar \underset{x, e, Δτ &Element; T}{g \min} {| | e | |}_{l} subjy + JΔτ = A_{k} x + e

的Δτ，其中T包括变形群；以及

只要Δτ保持大于预定的低阈值，就设置τⁱ⁺¹等于τⁱ+Δτ；通过所述计算机采样具有最小残差||e||_l的所述训练图像的多个(S)，其中，所述S个训练图像包括对应于y的类的多个不同类；

通过相应的变换τ_k，将所述S个训练图像的每个与y对准；以及

由所述计算机使用l¹最小化，通过所采样的训练图像的线性叠加来标识y的类，其中具有最稀疏数量的系数的线性叠加用于标识y的类。

50.如权利要求49所述的方法，还包括：

设置A等于

其中

包括用于第S个训练图像的逆变换τ值；

解决包括

\hat{x} = \arg \min_{x, e} {| | x | |}_{1} + {| | e | |}_{l} subj

y＝Ax+e，x≥0的l¹最小化问题；

对于i＝k₁，...，k_s，计算残差

r_{i} (y) = {| | y - A_{i} {\hat{x}}_{i} | |}_{2};

以及

将y输出为arg min_i r_i(y)，由此通过最稀疏数量的系数的线性叠加来标识所述测试图像。

51.如权利要求50所述的方法，还包括：

在迭代地扭曲y以将y对准其之前，将A_k中的所述多个训练图像归一化。

52.如权利要求50所述的方法，还包括：

设置S为大约10。

53.一种计算机实现的系统，用于对准图像内的主体以便与数据库内其它图像进行比较，所述系统包括：

存储器，与处理器和训练图像数据库耦合；

面部检测器，与所述处理器耦合，以生成图像(y)内的所述主体的变换的初始估计(τ₀)；

其中所述处理器以τ₀扭曲所述图像(y)，以创建yοτ₀+e，其中e是配准误差，并且以所述变换τ重复地扭曲y，使得e变得尽可能小和稀疏，由此通过迭代地执行以下操作来对准所述图像：

通过求解yοτ+JΔτ＝A_kx+e，线性化关于τ的当前估计，其中A_k包括所述数据库中的多个训练图像的矩阵，x是所述多个训练图像的至少一些的线性组合，

并且Δτ是用于当前迭代的τ中的步长变化；

找到将e在其l¹范数方面最佳稀疏化为

ar \underset{x, e, Δτ &Element; T}{g \min} {| | e | |}_{l} subjy + JΔτ = A_{k} x + e

的Δτ，其中T包括变形群；以及

设置τⁱ⁺¹等于τⁱ+Δτ。

54.如权利要求53所述的系统，其中在所述计算机执行所述迭代的扭曲时，通过将yοτ的线性化替代为归一化版本的雅可比行列式

所述处理器还将所扭曲的图像yοτ归一化。

55.如权利要求53所述的系统，其中执行迭代地扭曲y，直到Δτ达到预定的低阈值。

56.如权利要求53所述的系统，其中所述处理器在每图像(k)基础上，在多个训练图像(K)的每个上执行迭代的扭曲对准；并且将每个对准的训练图像以及相应的最终τ值保存在所述训练图像数据库中以用于在标识测试图像中使用。

57.如权利要求56所述的系统，其中所述图像(y)是具有遮挡且其身份未知的测试图像，其中所述处理器：

从所述数据库采样包括多个不同主体的由矩阵A＝[A₁...A_k]表示的多个标记的训练图像，其中所采样的训练数据文件包括与y的对象相同的对象；以及

使用l¹最小化将y表达为所述多个训练图像(A)的稀疏线性组合加上由于所述遮挡造成的稀疏误差(e)，其中识别出所述测试图像y的身份。

58.如权利要求57所述的系统，其中所述遮挡由多个被遮挡的像素来表示，其中将y表达为A的稀疏线性组合和e包括所述处理器生成系数(x₀)，使得y＝Ax₀+e，其中

包括m空间中的非零项的误差向量，并且x₀和e包括通过l¹最小化的y的同时稀疏表示。

59.一种计算机实现的系统，用于对准测试图像内的主体以便与多个训练图像进行比较，以在存在遮挡时识别所述测试图像，所述系统包括：

存储器，与处理器和具有多个训练图像的训练图像数据库耦合；

面部检测器，与所述处理器耦合，生成测试图像(y)内的所述主体的变换的初始估计(τ₀)，其中所述测试图像包括遮挡且其身份未知；

其中，对于训练图像的所述训练图像数据库内的多个主体(K)的每个主体(k)，所述处理器迭代地：

通过求解yοτ+JΔτ＝A_kx+e，线性化关于τ的当前估计，其中A_k包括来自所述训练图像数据库的K个主体的多个训练图像的矩阵，x是所述多个训练图像的至少一些的线性组合，并且Δτ是用于当前迭代的τ中的步长变化；

找到将e在其l¹范数方面最佳稀疏化为

ar \underset{x, e, Δτ &Element; T}{g \min} {| | e | |}_{l} subjy + JΔτ = A_{k} x + e

的Δτ，其中T包括变形群；以及

只要Δτ保持大于预定的低阈值，就设置τⁱ⁺¹等于τⁱ+Δτ；

其中所述处理器：

在所述训练图像数据库中保存具有最小残差||e||_l的A_k中的最前(S)数量的训练图像；

设置A等于

其中包括用于第S个训练图像的逆变换τ值；

解决包括

\hat{x} = \arg \min_{x, e} {| | x | |}_{1} + {| | e | |}_{l} subj

y＝Ax+e，x≥0的l¹最小化问题；

对于i＝k₁，...，k_s，计算残差

r_{i} (y) = {| | y - A_{i} {\hat{x}}_{i} | |}_{2};

以及

将y输出为arg min_i r_i(y)，由此具有最稀疏数量的系数的线性叠加用于标识所述测试图像。

60.如权利要求59所述的系统，其中所述处理器通过将yοτ的线性化替代为归一化版本的雅可比行列式

将所扭曲的测试图像yοτ归一化。

61.如权利要求59所述的系统，其中所述训练图像的对象与所述测试图像y的对象相同。

62.如权利要求59所述的系统，其中在迭代地扭曲y以将y与其对准之前，所述处理器将A_k中的所述多个训练图像归一化。

63.如权利要求59所述的系统，其中S由所述处理器设置在8与10之间。