CN101937513B

CN101937513B - 信息处理设备、信息处理方法

Info

Publication number: CN101937513B
Application number: CN2010102133917A
Authority: CN
Inventors: 佐部浩太郎; 大久保厚志; 日台健一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-06-30
Filing date: 2010-06-23
Publication date: 2013-04-24
Anticipated expiration: 2030-06-23
Also published as: JP2011013732A; US20100329544A1; CN101937513A; EP2270719A1; US8401283B2

Abstract

提供了信息处理设备、信息处理方法。信息处理设备包括以下元件。学习单元被配置为使用均被分配有级标签的多个样本图像的图像特征值来进行自适应增强纠错输出编码学习，以生成多级分类器，该多级分类器被配置为输出与输入图像相对应的多维得分矢量。注册单元被配置为将注册图像输入到多级分类器中，并与和所输入的注册图像相关的识别信息相关联地注册与注册图像相对应的多维得分矢量。确定单元被配置为将要识别的识别图像输入到多级分类器中，并确定与所输入的识别图像相对应的多维得分矢量和与注册图像相对应的所注册的多维得分矢量之间的相似度。

Description

信息处理设备、信息处理方法

技术领域

本发明涉及信息处理设备、信息处理方法和程序。更具体地，本发明涉及适合于在例如作为面部图像中的被摄体的人物的个人识别中使用的信息处理设备、信息处理方法和程序。

背景技术

在图像识别中的学习阶段已使用了统计学习方法。可以使用基于统计学习理论的学习技术的增强(boosting)来构建能够有效地从大量数据中选择特征值的高精度分类器。

通常，将图像识别的分类公式化为判断要识别的图像是否与预先学习的图像相匹配的两级分离(two-class separation)问题，并且已经提出了许多用于将分类扩展为多级分类(multi-class classification)的技术。

例如，在作者为Thomas G.Dietterich和Ghulum Bakiri的“SolvingMulticlass Learning Problems via Error-Correcting Output Codes”，Journal of Artificial Intelligence Research 2，第263-286页，1995年中，描述了在通信领域中使用的其中通过重复二值分类且使用二进制数来表示多个级并进行分类的纠错输出编码(ECOC)的应用。

此外，例如，在作者为Robert E.Shapire的“Using output codes toboost multiclass learning problems”，Proceedings of the FourteenthInternational Conference on Machine Learning，1997年中，描述了其中将上述的ECOC方法应用于增强算法以使得组合用于二值分类的弱分类器来构成多级分类器的机制。

此外，例如，在作者为T.Windeatt和G.Ardeshir的“Boosted ECOCEnsembles for Face Recognition”，International Conference on VisualInformation Engineering，2003(VIE 2003)，Volume，Issue，2003年7月7-9日，第165-168页中，描述了将作为针对多级方法的增强算法的自适应增强(AdaBoost)的扩展(即，输出码AdaBoost(AdaBoost.OC))用于基于面部图像的个人识别的任务。具体地，在多级分类器的学习中使用200个注册的人物的预定训练图像。将相同的200个人物的面部图像输入到多级分类器中，以评估每个面部图像属于哪一级(即，每个面部图像属于200个注册人物中的哪个人物)。

发明内容

然而，T.Windeatt和G.Ardeshir所描述的多级分类器不保证对未知人物(即，除了200个注册人物之外的人物)的面部图像的评估，并且在使用未注册假冒者的面部图像的验证任务中未获得满意的结果。

因此，期望通过对未知图像应用多级识别结果来识别甚至未知的图像。

根据本发明的实施例，一种信息处理设备包括以下元件。学习装置使用均被分配有K个级标签之一的多个样本图像的图像特征值来执行自适应增强纠错输出编码学习，以生成整个图像多级分类器，该整个图像多级分类器被配置为输出与输入图像相对应的K维得分矢量，并且学习装置使用通过将样本图像中的每个样本图像划分为M个部分而获得的分割图像中的每个分割图像的图像特征值来执行独立的自适应增强纠错输出编码学习，以生成M个基于部分的多级分类器，这M个基于部分的多级分类器中的每个被配置为输出与输入图像相对应的K维得分矢量。注册装置将注册图像输入到整个图像多级分类器以及M个基于部分的多级分类器中，并与和所输入的注册图像相关的识别信息相关联地注册与注册图像相对应的K(1+M)维得分矢量。确定装置将要识别的识别图像输入到整个图像多级分类器以及M个基于部分的多级分类器中，并确定与所输入的识别图像相对应的K(1+M)维得分矢量和与注册图像相对应的所注册的K(1+M)维得分矢量之间的相似度，其中，M、K为自然数。

级标签中的每个可以包括识别信息和属性信息中的至少一个，该识别信息用于识别样本图像中的对应的一个样本图像中的各个被摄体，该属性信息表示样本图像中的对应的一个样本图像中的被摄体的属性。

该信息处理设备还可以包括减少装置，用于选择性地减少多级分类器的维度。

该减少装置可以使用序列搜索来选择性地减少多级分类器的维度。

该减少装置可以根据下层分类器的增强学习结果来选择性地减少多级分类器的维度，该下层分类器被设置在多级分类器之后，并被配置为接收多级分类器的输出。

该图像特征值可以是像素差分特征或矩形特征。

根据本发明的另一实施例，一种信息处理方法是用于识别输入图像的信息处理设备的信息处理方法，并包括以下步骤：使用均被分配有K个级标签之一的多个样本图像的图像特征值来执行自适应增强纠错输出编码学习，以生成整个图像多级分类器，该整个图像多级分类器被配置为输出与输入图像相对应的K维得分矢量，并且使用通过将样本图像中的每个样本图像划分为M个部分而获得的分割图像中的每个分割图像的图像特征值来执行独立的自适应增强纠错输出编码学习，以生成M个基于部分的多级分类器，这M个基于部分的多级分类器中的每个被配置为输出与输入图像相对应的K维得分矢量；将注册图像输入到整个图像多级分类器以及M个基于部分的多级分类器中，并与和所输入的注册图像相关的识别信息相关联地注册与注册图像相对应的K(1+M)维得分矢量；以及将要识别的识别图像输入到整个图像多级分类器以及M个基于部分的多级分类器中，并确定与所输入的识别图像相对应的K(1+M)维得分矢量和与注册图像相对应的所注册的K(1+M)维得分矢量之间的相似度，其中，M、K为自然数。

根据本发明的又一实施例，一种程序使得计算机用作：学习装置，用于使用均被分配有级标签的多个样本图像的图像特征值来进行自适应增强纠错输出编码学习，以生成多级分类器，该多级分类器被配置为输出与输入图像相对应的多维得分矢量；注册装置，用于将注册图像输入到多级分类器中，并与和所输入的注册图像相关的识别信息相关联地注册与注册图像相对应的多维得分矢量；以及确定装置，用于将要识别的识别图像输入到多级分类器中，并确定与所输入的识别图像相对应的多维得分矢量和与注册图像相对应的所注册的多维得分矢量之间的相似度。

根据本发明的实施例，使用均被分配有K个级标签之一的多个样本图像的图像特征值来进行自适应增强纠错输出编码学习，以生成整个图像多级分类器，该整个图像多级分类器被配置为输出与输入图像相对应的K维得分矢量，并且使用通过将样本图像中的每个样本图像划分为M个部分而获得的分割图像中的每个分割图像的图像特征值来执行独立的自适应增强纠错输出编码学习，以生成M个基于部分的多级分类器，这M个基于部分的多级分类器中的每个被配置为输出与输入图像相对应的K维得分矢量。此外，将注册图像输入到整个图像多级分类器以及M个基于部分的多级分类器中，并且与关于所输入的注册图像的识别信息相关联地注册与该注册图像相对应的K(1+M)维得分矢量。另外，将要识别的识别图像输入到整个图像多级分类器以及M个基于部分的多级分类器中，并且确定与所输入的识别图像相对应的K(1+M)维得分矢量和与该注册图像相对应的所注册的K(1+M)维得分矢量之间的相似度，其中，M、K为自然数。

因此，可以识别未知图像。

附图说明

图1是示出根据本发明的实施例的面部图像识别设备的学习处理的概要的图；

图2是示出根据本发明的实施例的面部图像识别设备的注册处理的概要的图；

图3是示出根据本发明的实施例的面部图像识别设备的识别处理的概要的图；

图4是示出根据本发明的实施例的面部图像识别设备的示例配置的框图；

图5是示出样本图像的示例的图；

图6是示出用作图像特征值的像素差分特征的图；

图7是示出面部图像识别设备的操作的流程图；

图8是示出学习处理的流程图；

图9是示出二值分类弱分类器的学习处理的流程图；

图10是示出注册处理的流程图；

图11是示出K维得分矢量计算处理的流程图；

图12是示出识别处理的流程图；

图13是示出预处理的示例的图；

图14是示出面部图像的分割的示例的图；

图15是示出基于分量的多级分类器的图；

图16是示出分层多级分类器的图；

图17A至17D是示出用作图像特征值的矩形特征的图；

图18是示出用作图像特征值的矩形特征的图；以及

图19是示出计算机的示例配置的框图。

具体实施方式

现在，参考附图来详细描述本发明的实施例。按照下面的顺序给出描述：

1.根据实施例的面部图像识别设备的操作的概要

2.根据实施例的面部图像识别设备的示例配置

3.根据实施例的面部图像识别设备的操作

4.基于分量的多级分类器

5.级标签的另一示例

6.特征值的维的选择

7.分层分类器

8.其它图像特征值

1.根据实施例的面部图像识别设备的操作的概要

根据实施例的面部图像识别设备被配置为确定要识别的面部图像的特征值，将所确定的特征值与预先注册的多个人物(注册人物)的面部图像的特征值进行比较，并输出与注册人物中的具有最相似的特征值的一个注册人物相关的识别信息(例如姓名)作为识别结果。

面部图像识别设备的操作被宽泛地分为学习、注册和识别三个处理。

图1示出了学习处理的概要。在学习处理中，针对K个样本人物中的每个而提供多个面部图像。多级分类器学习单元22计算样本人物k(k＝1，2，...，K)中的每个的面部图像的图像特征值，并使用作为结果的图像特征值来学习多级分类器23。多级分类器23确定表示输入面部图像中的人物与样本人物k中的每个的相似程度的得分。假定该得分越大相似度就越高。因此，多级分类器23输出K维的得分(下文中称为“K维得分矢量”)。

图2示出了注册处理的概要。在注册处理中，针对多个注册人物X，Y，Z，...中的每个而提供面部图像，并且多级分类器23确定每个注册人物的面部图像的K维得分矢量。在注册数据库25中与注册人物的识别信息(例如姓名)相关联地注册所确定的K维得分矢量。注册人物与学习处理中的样本人物不相关(也就是说，与学习处理中的样本人物不相同)，但是可以与样本人物相同。

图3示出了识别处理的概要。在识别处理中，提供要识别的面部图像，并且多级分类器23确定要识别的面部图像的K维得分矢量，并将该K维得分矢量输入到相似度确定单元28中。相似度确定单元28指定在注册数据库25中注册的K维得分矢量中的与要识别的面部图像的K维得分矢量最相似的K维得分矢量，并输出与注册人物中对应的注册人物相关的识别信息作为识别结果。例如通过欧几里德距离(Euclidean distance)来测量K维得分矢量之间的相似度。

2.根据实施例的面部图像识别设备的示例配置

图4示出了根据实施例的面部图像识别设备的示例配置。面部图像识别设备10包括被配置为执行学习处理的学习系统11、被配置为执行注册处理的注册系统12和被配置为执行识别处理的识别系统13。

学习系统11包括学习样本输入单元21、多级分类器学习单元22和多级分类器23。注册系统12包括多级分类器23、注册图像输入单元24和注册数据库25。识别系统13包括多级分类器23、注册数据库25、识别图像输入单元26、预处理单元27和相似度确定单元28。也就是说，多级分类器23被包括在学习系统11、注册系统12和识别系统13中，注册数据库25被包括在注册系统12和识别系统13中。

学习样本输入单元21向针对K个样本人物中对应的一个样本人物提供的多个面部图像(也称为“样本图像”)添加与该K个样本人物中的每个相关的识别信息(例如姓名)作为级标签，并且向多级分类器学习单元22提供均包括样本图像x_i和级标签y_k的学习样本。更具体地，如图5所示，向M个样本图像x_i(i＝1，2，...，M)添加级标签y_k(k＝1，2，...，K)以生成M个学习样本(x_i，y_k)，将该M个学习样本(x_i，y_k)输入到多级分类器学习单元22中。

在将样本图像x_i输入到多级分类器学习单元22中之前，学习样本输入单元21将样本图像x_i的尺寸调整为预定尺寸(下文详细描述)。

多级分类器学习单元22利用添加的级标签y_k来确定M个样本图像x_i的图像特征值，并且使用AdaBoost ECOC学习多个弱分类器以产生由多个弱分类器形成的多级分类器23。均被配置为判断图像是否属于级的多个弱分类器的判断基于样本图像的图像特征值。图像特征值的示例可以包括由本发明的发明人提出的PixDifFeature(像素差分特征)。

例如，在作者为Sabe、Hidai的“pikuseru sabun tokucho wo mochiitajitsujikan nin′i shisei kao kenshutsuki no gakushu(Learning of aReal-Time Arbitrary Posture Face Detector Using Pixel DifferenceFeature)”，Proceedings of the 10th Symposium on Sensing via ImageInformation，第547-552页，2004年，日本未审专利申请公开第2005-157679号等中，公开了PixDif Feature(像素差分特征)。

图6是示出像素差分特征的概要的图。可以通过确定图像上的两个像素的像素值(亮度值)I₁和I₂之间的差(即，I₁-I₂)来获得像素差分特征。如下面的方程式(1)所给出的，与两个像素的组合相对应的二值分类弱分类器h(x)中的每个使用像素差分特征(由I₁-I₂给出)和阈值Th来识别真(+1)或假(-1)：

h(x)＝-1 如果I₁-I₂≤Th

h(x)＝+1 如果I₁-I₂＞Th (1)

如果在不调整输入图像的尺寸的情况下来确定像素差分特征，则可以获得大量的两个像素的组合。因此，在调整输入图像的尺寸之后，获得像素差分特征。例如，当将输入图像的尺寸调整为20×20个像素时，获得400×399个像素差分特征。当将输入图像的尺寸调整为64×64个像素时，获得4096×4095个像素差分特征。多个两个像素的组合和阈值Th用作二值分类弱分类器的参数，并且使用增强学习来选择最优的参数组。

多级分类器23计算并输出与从注册图像输入单元24输入的注册人物的面部图像(下文中也称为“注册图像”)相对应的K维得分矢量。在注册数据库25中与和对应的注册人物相关的识别信息(例如姓名)相关联地注册与输出注册图像相对应的输出的K维得分矢量。

多级分类器23还计算并输出与经由预处理单元27从识别图像输入单元26输入的识别图像相对应的K维得分矢量。将与识别图像相对应的输出K维得分矢量提供到相似度确定单元28。

注册图像输入单元24以与学习样本输入单元21调整样本图像的尺寸的方式相类似的方式调整注册人物的面部图像的尺寸，并将作为结果的面部图像输入到多级分类器23。注册图像输入单元24还将与注册人物相关的识别信息(例如姓名)输入到注册数据库25中。

注册数据库25与和注册人物相关的识别信息相关联地存储与注册人物的面部图像相对应的K维得分矢量。

识别图像输入单元26将要识别的面部图像(识别图像)经由预处理单元27输入到多级分类器23中。

预处理单元27根据需要而对从识别图像输入单元26输入的识别图像执行预处理(具体地，用于将非朝向正面的面部校正为朝向正面的面部的图像处理)。此外，预处理单元27以与学习样本输入单元21调整样本图像的尺寸的方式相类似的方式调整根据需要而被预处理后的识别图像的尺寸，并将作为结果的识别图像输入到多级分类器23中。

相似度确定单元28指定在注册数据库25中注册的K维得分矢量中的与对应于识别图像的K维得分矢量最相似的K维得分矢量(例如，具有最短欧几里德距离和具有小于等于预定阈值的欧几里德距离的K维得分矢量)，并将与对应的注册人物相关的识别信息作为识别结果而输出。

3.根据实施例的面部图像识别设备的操作

图7是示出面部图像识别设备10的操作的流程图。

在步骤S1中，面部图像识别设备10的学习系统11执行学习处理，以产生多级分类器23。

在步骤S2中，面部图像识别设备10的注册系统12执行注册处理，以计算与注册图像相对应的K维得分矢量，并将K维得分矢量与和对应的注册人物相关的识别信息相关联地注册在注册数据库25中。

在步骤S3中，面部图像识别设备10的识别系统13执行识别处理，以指定与识别图像中的人物最相似的注册人物。

现在，详细描述上述步骤S1至S3的处理。

将描述学习处理的细节。

图8是示出学习处理的流程图。

在步骤S11中，如图5所示，学习样本输入单元12将M个学习样本(x_i，y_k)输入到多级分类器学习单元22中。

在步骤S12中，多级分类器学习单元22使用下面的方程式(2)对用M行和K列表示的样本权重P_t(i，k)进行初始化：

对于yk≠k，P₁(i，k)＝1/M(K-1) (2)

具体地，将样本权重P_t(i，k)的初始值P₁(i，k)设置为其中与现有学习样本(x_i，y_k)相对应的样本权重为0而另外该值的总和为1的均匀值。

下面描述的步骤S13至S18的处理被重复期望的次数T。可以将次数T设置为直到对采样图像获得的像素差分特征的数量，并且产生与次数T相同的数量的弱分类器。

在步骤S13中，多级分类器学习单元22产生1行K列的ECOC表。ECOC表的k列中的值μ_t(k)为负1(-1)或正1(+1)，并且随机分配，以使得负1(-1)的数量等于正1(+1)的数量，也就是说：

μ_t(k)＝{-1，+1}. (3)

在步骤S14中，多级分类器学习单元22使用下面的方程式(4)计算由M行和1列表示的二值分类权重D_t(i)：

D_{t} (i) = \frac{Σ_{k}^{K} P (i, k) [μ_{t} (y_{i}) &NotEqual; μ (k)]}{Σ_{j}^{M} Σ_{k}^{K} P (j, k) [μ_{t} (y_{j}) &NotEqual; μ (k)]} - - - (4)

其中，[]表示对于真使用1且对于假使用0的布尔(Boolean)表达式。

在步骤S15中，多级分类器学习单元22学习在步骤S14中获得的二值分类权重D_t(i)而将通过下面的方程式(5)给出的加权错误率ε_t最小化的二值分类弱分类器h_t：

ϵ_{t} = \underset{i : h_{t} (x_{i}) &NotEqual; μ (y_{i})}{Σ} D_{t} (i) - - - (5)

图9是详细示出步骤S15中的处理的流程图。

在步骤S31中，多级分类器学习单元22从被调整了尺寸的样本图像的所有像素中随机选择两个像素。例如，当将样本图像的尺寸调整为64×64个像素时，通过选择4096×4095个两个像素的组合中的一个来选择两个像素。这里，用S₁和S₂表示选择的两个像素的像素位置，用I₁和I₂表示该两个像素的像素值(亮度值)。

在步骤S32中，多级分类器学习单元22使用在步骤S31中选择的两个像素的像素值I₁和I₂来针对所有学习样本确定像素差分特征(I₁-I₂)，并确定像素差分特征的频率分布。

在步骤S33中，多级分类器学习单元22基于像素差分特征的频率分布而确定将由方程式(5)给出的加权错误率ε_t设置为最小值ε_min的阈值Th_min。

在步骤S34中，多级分类器学习单元22基于像素差分特征的频率分布而确定将由方程式(5)给出的加权错误率ε_t设置为最大值ε_max的阈值Th_max。此外，多级分类器学习单元22根据下面的方程式(6)而反转(invert)阈值Th_max和其它值：

ε′_max＝1-ε_max

S′₁＝S₂

S′₂＝S₁

Th′_max＝-Th_max (6)

在步骤S35中，多级分类器学习单元22基于上述加权错误率ε_t的最小值ε_min和最大值ε_max之间的幅值关系而确定作为二值分类弱分类器的参数的两个像素的位置S₁和S₂以及阈值Th。

具体地，当ε_min＜ε′_max时，使用两个像素的位置S₁和S₂以及阈值Th_min作为参数。当ε_min≥ε′_max时，使用两个像素的位置S′₁和S′₂以及阈值Th′_max作为参数。

在步骤S36中，多级分类器学习单元22判断是否已将上述的步骤S31至步骤S35的处理重复了预定次数。处理返回到步骤S31，重复其后的处理，直到判断为将该处理重复了预定次数为止。当判断为将步骤S31至步骤S35的处理重复了预定次数时，处理进行到步骤S37。

在步骤S37中，多级分类器学习单元22最终使用如上所述地在被重复进行了预定次数的步骤S35的处理中确定的二值分类弱分类器中的将加权错误率ε_t最小化的一个二值分类弱分类器(的参数)，作为一个二值分类弱分类器h_t(的参数)。

如上所述，在确定了一个二值分类弱分类器h_t之后，处理返回到图8的步骤S16。

在步骤S16中，多级分类器学习单元22基于与在步骤S15中确定的与二值分类弱分类器h_t相对应的加权错误率ε_t而使用下面的方程式(7)计算可靠度α_t：

α_{t} = \frac{1}{2} \ln (\frac{1 - ϵ_{t}}{ϵ_{t}}) - - - (7)

在步骤S17中，如同下面的方程式(8)所给出的那样，多级分类器学习单元22将在步骤S15中确定的二值分类弱分类器h_t乘以在步骤S16中计算的可靠度α_t，以确定添加可靠度的二值分类弱分类器f_t(x_i)：

f_t(x_i)＝α_th_t (8)

在步骤S18中，多级分类器学习单元22使用下面的方程式(9)来更新由M行和K列表示的样本权重P_t(i，k)：

P_{t + 1} (i, k) = \frac{P_{t} (i, k) \exp (\frac{f_{t} (x_{i}) μ_{t} (k) - f_{t} (x_{i}) μ_{t} (y_{i})}{2})}{Z_{t}} - - - (9)

其中，Z_t由下面的方程式(10)给出：

Z_{t} = Σ_{i}^{M} Σ_{k}^{K} P_{t} (i, k) \exp (\frac{f_{t} (x_{i}) μ_{t} (k) - f_{t} (x_{i}) μ_{t} (y_{i})}{2}) - - - (10)

在步骤S19中，多级分类器学习单元22判断是否已将上述步骤S13至S18的处理重复了预定次数T。处理返回到步骤S13，重复其后的处理，直到判断为已将处理重复了预定次数T为止。当判断为已将步骤S13至S18的处理重复了预定次数T时，处理进行到步骤S20。

在步骤S20中，多级分类器学习单元22基于与预定次数T相同的数量的所获得的添加可靠度的二值分类弱分类器f_t(x)和相应的ECOC表并使用下面的方程式(11)来获得最终的分类器H_k(x)，即，多级分类器23：

H_{k} (x) = Σ_{t = 1}^{T} f_{t} (x) μ_{t} (k) - - - (11)

所获得的多级分类器23具有级数K和弱分类器的数量T作为参数。每个弱分类器具有被调整了尺寸的输入图像上的两个像素的位置S₁和S₂、用于像素差分特征的分类的阈值Th、可靠度α和ECOC表μ作为参数。

因此，获得最终的分类器H_k(x)(即，多级分类器23)，学习处理结束。

以上述方式生成的多级分类器23可以使用K维得分矢量来表示输入面部图像的图像特征值。例如，当由A、B、C、...表示样本人物时，可以用数值来表示每个注册人物与样本人物A、B、C、...的相似程度。此外，可以用数值来表示识别图像与样本人物A、B、C、...的相似程度。

现在，描述注册处理的详情。

图10是示出注册处理的流程图。

在步骤S51中，注册图像输入单元24调整注册人物的面部图像(注册图像)的尺寸，将作为结果的面部图像输入到多级分类器23中，还将与注册人物相关的识别信息输入到注册数据库25中。多级分类器23计算与注册图像相对应的K维得分矢量，并将计算的K维得分矢量输出到注册数据库25。

在步骤S52中，注册数据库25与和注册人物相关的识别信息相关联地存储与注册人物的面部图像相对应的K维得分矢量。由此，注册处理结束。

现在，详细描述使用多级分类器23计算与注册图像相对应的K维得分矢量的处理。

图11是示出针对输入图像(这里是注册图像)x计算K维得分矢量的处理的流程图。

在步骤S71中，多级分类器23将表示级的参数k(k＝1，2，...，K)初始化为1。在步骤S72中，多级分类器23将每个级的得分H_k初始化为0。

在步骤S73中，多级分类器23将用于指定弱分类器的参数t(t＝1，2，...，T)初始化为1。

在步骤S74中，多级分类器23设置二值分类弱分类器h_t的参数，即，被调整了尺寸的输入图像x上的两个像素的位置S₁和S₂、用于将像素差分特征分类的阈值Th、可靠度α和ECOC表μ。

在步骤S75中，多级分类器23基于输入图像x上的两个像素的位置S₁和S₂而读取像素值I₁和I₂，计算像素差分特征(I₁-I₂)，并将该像素差分特征与阈值Th相比较，以获得二值分类弱分类器h_t的分类值(-1或+1)。

在步骤S76中，多级分类器23将在步骤S75中获得的二值分类弱分类器h_t的分类值乘以可靠度α_t，并且进一步乘以1行K列的ECOC表的值μ_t(k)，以获得与参数t相对应的1行K列的级得分H_k。

在步骤S77中，多级分类器23将在步骤S76中获得的与参数t相对应的1行K列的级得分H_k与先前(即，t-1)的级得分H_k的累积值相加，以更新1行K列的级得分H_k。

在步骤S78中，多级分类器23判断参数t是否满足t＝T。当获得否定的判断时，处理进行到步骤S79，并将参数t增加1。然后，处理返回到步骤S74，重复其后的处理。随后，当在步骤S78中判断为参数t满足t＝T时，处理进行到步骤S80。

在步骤S80中，多级分类器23判断参数k是否满足k＝K。当判断为参数k不满足k＝K时，处理进行到步骤S81，并将参数k增加1。然后，处理返回到步骤S73，重复其后的处理。随后，当在步骤S80中判断为参数k满足k＝K时，处理进行到步骤S82。

在步骤S82中，多级分类器23将当前获得的1行K列的级得分H_k作为多级分类器23的输出(即，作为K维得分矢量)而输出到后续阶段(在这种情况下为注册数据库25)。由此，K维得分矢量计算处理结束。

现在，描述识别处理的详情。

图12是示出识别处理的流程图。

在步骤S91中，识别图像输入单元26将要识别的面部图像(识别图像)输入到预处理单元27中。预处理单元27根据需要而对从识别图像输入单元26输入的识别图像执行预处理，并调整面部图像的尺寸。将作为结果的面部图像输入到多级分类器23中。

图13示出了预处理的示例。

在预处理中，从面部图像(在这种情况下是识别图像)中检测诸如眼部、鼻部和嘴部之类的部分，将这些部分的位置与平均面部的预定几何模型中的位置相比较，以估计面部图像的朝向(或姿势)。此外，基于平均面部的预定几何模型而将面部图像的这些部分映射到朝向正面的面部图像，以将面部图像校正为朝向正面的面部图像。

根据需要，对样本图像和注册图像进行上述预处理。

返回参考图12，在步骤S92中，多级分类器23计算与根据需要进行了预处理并调整了尺寸的识别图像相对应的K维得分矢量，并将作为结果的K维得分矢量输出到相似度确定单元28。与识别图像相对应的K维得分矢量的计算与上面参考图11描述的对应于注册图像的K维得分矢量的计算相类似，因此省略其描述。

在步骤S93中，相似度确定单元28确定与识别图像相对应的K维得分矢量和在注册数据库25中注册的每个K维得分矢量之间的距离(例如欧几里德距离)。在步骤S94中，相似度确定单元28指定具有最短距离并具有小于等于预定阈值的距离的K维得分矢量，并输出与对应的注册人物相关的识别信息作为识别结果。由此，识别处理结束。

如上所述，在面部图像识别设备10的操作中，通过将AdaBoostECOC学习应用到多级分类器并使用ECOC表来对每个级分配期望的值-1或+1。因此，多级问题可以被作为两级问题来解决，并且可以提高存储器的使用效率。另外，可以实现允许辨别大量不同的人物的学习。

此外，面部图像识别设备10使用多级分类器23的输出(K维得分矢量)作为表示面部图像之间的差异的特征值，而不直接使用多级分类器23的输出作为识别结果。因此，即使当使用不被包括在学习的或注册的人物中的人物的面部图像作为识别图像时，也可以获得高的识别性能。

4.基于分量的多级分类器

通常，人不仅基于整个面部之间的相似度而且还基于在每个面部部分方面的相似度来确定面部之间的相似度。例如，人可以确定眼睛与样本人物A的眼睛相似、鼻子与样本人物B的鼻子相似、而嘴与样本人物C的嘴相似。

因此，可以扩展面部图像识别设备10的功能，以使得可以执行不仅包括对整个面部之间的相似度而且还包括对在每个面部部分方面的相似度的确定的面部识别处理。

具体地，将被调整了尺寸的样本图像划分为各个部分：前额部、眼部、鼻部和嘴部。当被调整了尺寸的面部图像是64×64个像素的图像时，如图14所示，该部分的宽度例如可以是：对于前额部为第一至第14行，对于眼部为第15至第32行，对于鼻部为第33至第45行，对于嘴部是第46至第64行。

然后，如图15所示，除了整个面部多级分类器23-1(对应于多级分类器23)之外，还基于作为结果的部分而分别学习针对各个部分的多级分类器23-2至23-5。

此外，在注册处理和识别处理中的每个中，将被调整了尺寸的注册图像或识别图像划分为各个部分：前额部、眼部、鼻部和嘴部，并且不仅计算针对整个面部的K维得分矢量，而且还计算针对各个部分的K维得分矢量。

以这种方式，除了用于整个面部图像的整个面部多级分类器23-1之外，还提供用于面部图像的各个部分的多级分类器23-1至23-5，并且连接多级分类器23-1至23-5的输出(K维得分矢量)。因此，对于输入图像(注册图像或识别图像)，可以获得K(1+M)维得分矢量，其中M是面部图像的分割(segment)的数量，在该示例中M＝4。可以获得注册图像和识别图像的更详细的特性。因此，可以更精确地对识别图像进行识别。

5.级标签的另一示例

在前述描述中，向针对人物提供的样本图像添加与K个样本人物中的一个样本人物相关的识别信息(例如姓名)作为级标签。然而，还可以向样本图像添加与样本人物相关的属性信息作为级标签，并且可以由多级分类器23学习所添加的信息。与样本人物相关的属性信息的示例可以包括针对其相同的样本人物属于相同的属性(例如人种、年龄、性别和是否戴眼镜)的信息。

然后，与当仅学习识别信息作为级标签时获得的注册图像和识别图像的特性相比，已学习了识别信息作为级标签的多级分类器23的输出与已学习了各个属性信息作为级标签的多级分类器的输出的连接可以提供注册图像和识别图像的更详细的特性。因此，可以更精确地对识别图像进行识别。

6.特征值的维的选择

如上所述，整个面部图像的特征值(得分矢量)是K维的，在将面部图像分割为部分并随后进行学习时所获得的特征值的连接具有K(1+M)维。此外，对属性信息的附加学习使得特征值的维数增加。输入图像的特征值的维度的增加提供了输入图像的更详细的特性，从而导致了对识别图像更精确的识别。

然而，如果特征值的维数增加，则可能存在输入图像的特征值的冗余维。此外，取决于样本人物的数量K，维数可能显著地增加。

因此，从特征值的大量维中，选择并使用可以提供有效实现识别性能的维。维的选择可以基于例如序列搜索(sequential search)。

在作为序列搜索技术的序列前向搜索中，通过选择具有对学习样本的最高辨识率的维来选择一个维，并通过从在与先前选择的维相组合的情况下具有最高辨识率的维中逐个选择维来选择后续的维。

在作为另一序列搜索技术的序列浮动搜索(sequential floatingsearch)中，通过逐个增加或者减少特征值的维来选择具有最高辨识率的维。

因此，对于面部图像的识别而言无效的多级分类器的数量的减少可以使得计算量减少，或者使得用于计算处理的存储器的数量减少。

7.分层分类器

描述用于使用多级分类器来减少要确定的级数(即，使用与上述的用于选择特征值的维的技术不相同的技术来减少特征值的维数)的方法。

具体地，如图16所示，在上层多级分类器41(整个面部多级分类器23-1和各个部分的多级分类器23-2至23-5)之后，设置下层分类器42。上层多级分类器41确定与输入图像相对应的级(或者计算特征值(K(1+M)维得分矢量))，而下层分类器42判断从上层多级分类器41输入的两个特征值是否属于同一人物。

在上述多级分类器中，计算输入图像(注册图像和识别图像)的特征值，并根据特征值之间的距离而确定相同人物的同一性(identity)。假定用于确定相同人物的同一性的标准在多维空间中是一致的。然而，作为用于确定相同人物的同一性的标准的距离在多维空间中不必是一致的。

因此，可以从上层多级分类器41向下层分类器42输入与相同人物的两个面部图像相对应的特征值或与两个不同的人物的面部图像相对应的两个特征值，并且可以执行用于直接判断输入的特征值是否属于同一人物的增强学习。

在下层分类器42的增强学习中，在学习形成下层分类器42的弱分类器的阶段中选择特征值的维度。由此，将弱分类器T的数量设置为期望的数量(在维度减少之后特征值的维数)，因此可以减少用于分类的特征值的维数。

此外，还可以由上层多级分类器41执行在下层分类器42中不使用的特征值的维的减少。

在以上述方式在上层多级分类器41之后设置下层分类器42的情况下，在下面的过程中执行图像识别：如图16所示，在注册处理中，将多个注册图像(包括图16中的输入A)输入到上层多级分类器41中，并计算对应的特征值(包括特征值A)，以及将该特征值注册在注册数据库中。

在识别处理中，将识别图像(图16中的输入B)输入到上层多级分类器41中，计算该识别图像的特征值B，并将该特征值B输入到下层分类器42中。在注册数据库中注册的注册图像的特征值被顺序地输入到下层分类器42中，并均被与识别图像的特征值B相组合，以确定表示特征值是否属于同一人物的得分。将注册图像中具有最高得分的一个注册图像确定为属于与识别图像中的人物相同的人物。

因此，分层分类器允许进行更精确的识别，并且允许选择性地减少上层多级分类器中的特征值。

8.其它图像特征值

虽然本实施例使用像素差分特征(Pix Dif Feature)作为图像特征值，但是可以使用其它图像特征值。

可用的图像特征值的示例可以包括使用主分量分析(PCA)的输入图像的低维版本以及矩形特征。例如，在“Robust Real-time ObjectDetection”，Viola 2001中公开了矩形特征。

图17A至17D和图18是示出矩形特征的图。

如图17A至17D所示，在输入图像上设置尺寸相同的相邻矩形区域，并确定这些矩形区域的亮度值的和。使用矩形区域中的一个矩形区域的亮度值的和与另一矩形区域的亮度值的和之间的差作为图像特征值。

例如，在图17A所示的示例中，使用矩形区域154A-1的亮度值的和与具有阴影线的矩形区域154A-2的亮度值的和之间的差作为图像特征值。类似地，在图17B所示的示例中，使用矩形区域154B-1的亮度值的和与具有阴影线的矩形区域154B-2的亮度值的和之间的差作为图像特征值。将通过两个矩形区域获得的这种特征称为二矩形特征。

在图17C所示的示例中，设置了三个矩形区域154C-1至154C-3，并且使用矩形区域154C-1和154C-3的亮度值的和与中心具有阴影线的矩形区域154C-2的亮度值的和之间的差作为图像特征值。将通过三个矩形区域获得的这种特征称为三矩形特征。

此外，在图17D所示的示例中，设置了四个矩形区域154D-1至154D-4，并且使用矩形区域154D-1和154D-3的亮度值的和与具有阴影线的矩形区域154D-2和154D-4的亮度值的和之间的差作为图像特征值。

将通过四个矩形区域获得的这种特征称为四矩形特征。

例如，当对人物面部应用图17B所示的二矩形特征时，例如，如图18所示，两个矩形区域154B(154B-1、154B-2)被配置为覆盖面部图像的主要部分。这同样可以适用于图17A所示的二矩形特征、图17C所示的三矩形特征或图17D所示的四矩形特征对人物面部的应用。

如上所述，可以使用除了像素差分特征之外的矩形特征作为图像特征值。然而，与诸如矩形特征之类的其它图像特征值的使用相比，像素差分特征的使用允许更多地减少计算量，并且允许减少用于计算处理的存储器的容量。

可以通过硬件或者软件来执行上述的系列处理。当通过软件执行上述的系列处理时，将构成软件的程序从程序记录介质安装到被包括在专用硬件中的计算机或者通过将各种程序安装到其中而能够执行各种功能的诸如通用个人计算机之类的计算机中。

图19是示出根据程序执行上述的系列处理的计算机200的示例硬件配置的框图。

在计算机200中，中央处理器(CPU)201、只读存储器(ROM)202和随机存取存储器(RAM)203经由总线204而相互连接。

输入/输出接口205还连接到总线204。输入/输出接口205连接到包括键盘、鼠标和麦克风的输入单元206、包括显示器和扬声器的输出单元207、包括硬盘和非易失性存储器的存储单元208、包括网络接口的通信单元209以及驱动诸如磁盘、光盘、磁光盘或半导体存储器之类的可拆卸介质211的驱动器210。

在具有上述配置的计算机200中，CPU 201将例如存储在存储单元208中的程序经由输入/输出接口205和总线204而加载到RAM 203中，并执行该程序，由此执行上述的系列处理。

可以将由计算机200(CPU 201)执行的程序记录在可拆卸介质211上，该可拆卸介质211可以是例如诸如磁盘(包括软盘)、光盘(例如光盘只读存储器(CD-ROM)或数字多功能盘(DVD))、磁光盘或半导体存储器之类的封装介质，或者该程序可以经由诸如局域网、因特网或数字卫星广播之类的有线传输介质或无线传输介质来提供。

然后，可以通过将可拆卸介质211放置在驱动器210中来经由输入/输出接口205而将程序安装到存储单元208中。还可以由通信单元209经由有线传输介质或无线传输介质接收程序并将其安装到存储单元208中。替代性地，还可以将程序预先安装在ROM 202或存储单元208中。

由计算机200执行的该程序可以是其中按照所描述的顺序而顺序地执行处理、并行地执行处理、或者例如在诸如当处理被调用时之类的期望的时间执行处理的程序。

还可以由单个计算机处理该程序，或者可以由多个计算机以分布的方式处理该程序。此外，可以将该程序传送到远程计算机并由此执行该程序。

本发明的实施例不限于上述实施例，并且在不脱离本发明的范围的情况下可以进行各种变型。

本申请包含与2009年6月30日在日本专利局提交的日本优先权专利申请JP 2009-154925中公开的主题相关的主题，其全部内容通过引用包含于此。

本领域的技术人员应当理解，根据设计需要和其它因素，可以进行各种变型、组合、子组合和改变，只要所述变型、组合、子组合和改变在所附权利要求或其等同内容的范围之内即可。

Claims

1.一种信息处理设备，包括：

学习装置，用于使用均被分配有K个级标签之一的多个样本图像的图像特征值来执行自适应增强纠错输出编码学习，以生成整个图像多级分类器，所述整个图像多级分类器被配置为输出与输入图像相对应的K维得分矢量，并且所述学习装置使用通过将所述样本图像中的每个样本图像划分为M个部分而获得的分割图像中的每个分割图像的图像特征值来执行独立的自适应增强纠错输出编码学习，以生成M个基于部分的多级分类器，所述M个基于部分的多级分类器中的每个被配置为输出与所述输入图像相对应的K维得分矢量；

注册装置，用于将注册图像输入到所述整个图像多级分类器以及所述M个基于部分的多级分类器中，并且与和所输入的注册图像相关的识别信息相关联地注册与所述注册图像相对应的K(1+M)维得分矢量；以及

确定装置，用于将要识别的识别图像输入到所述整个图像多级分类器以及所述M个基于部分的多级分类器中，并且确定与所输入的识别图像相对应的K(1+M)维得分矢量和与所述注册图像相对应的所注册的K(1+M)维得分矢量之间的相似度，

其中，M、K为自然数。

2.根据权利要求1所述的信息处理设备，其中，所述K个级标签中的每个包括识别信息和属性信息中的至少一个，所述识别信息用于识别所述样本图像中的对应的一个样本图像中的各个被摄体，所述属性信息表示所述样本图像中的对应的一个样本图像中的被摄体的属性。

3.根据权利要求1所述的信息处理设备，还包括：减少装置，用于选择性地减少所述多级分类器的维度。

4.根据权利要求3所述的信息处理设备，其中，所述减少装置使用序列搜索来选择性地减少所述多级分类器的维度。

5.根据权利要求3所述的信息处理设备，其中，所述减少装置根据下层分类器的增强学习结果来选择性地减少所述多级分类器的维度，所述下层分类器被设置在所述多级分类器之后，并被配置为接收所述多级分类器的输出。

6.根据权利要求1至5中任一项所述的信息处理设备，其中所述图像特征值是像素差分特征或矩形特征。

7.一种用于识别输入图像的信息处理设备的信息处理方法，包括以下步骤：

使用均被分配有K个级标签之一的多个样本图像的图像特征值来进行自适应增强纠错输出编码学习，以生成整个图像多级分类器，所述整个图像多级分类器被配置为输出与所述输入图像相对应的K维得分矢量，并且使用通过将所述样本图像中的每个样本图像划分为M个部分而获得的分割图像中的每个分割图像的图像特征值来执行独立的自适应增强纠错输出编码学习，以生成M个基于部分的多级分类器，所述M个基于部分的多级分类器中的每个被配置为输出与所述输入图像相对应的K维得分矢量；

将注册图像输入到所述整个图像多级分类器以及所述M个基于部分的多级分类器中，并且与和所输入的注册图像相关的识别信息相关联地注册与所述注册图像相对应的K(1+M)维得分矢量；以及

将要识别的识别图像输入到所述整个图像多级分类器以及所述M个基于部分的多级分类器中，并且确定与所输入的识别图像相对应的K(1+M)维得分矢量和与所述注册图像相对应的所注册的K(1+M)维得分矢量之间的相似度，

其中，M、K为自然数。