CN101095149B

CN101095149B - 图像比较设备和图像比较方法

Info

Publication number: CN101095149B
Application number: CN2005800171593A
Authority: CN
Inventors: R·M·S·波特; R·拉姆巴鲁思; S·D·海恩斯; J·利文; C·H·吉拉德
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Corp
Priority date: 2004-05-28
Filing date: 2005-05-27
Publication date: 2010-06-23
Anticipated expiration: 2025-05-27
Also published as: CN101095149A; US20080013837A1; JP2008501172A; WO2005116910A2; GB2414616A; GB0412037D0; WO2005116910A3

Abstract

一种将测试图像与一组参考图像进行比较的方法，其中存在不止一个参考图像，该方法包括如下步骤：将该测试图像分成一个或多个测试区；对于各测试区，将该测试区与一个或多个参考图像中的一个或多个参考区进行比较，并识别最接近地对应于该测试区的该参考区；根据该测试区与它们对应识别的参考区的比较来生成比较值。

Description

图像比较设备和图像比较方法

本发明涉及图像比较。

比较两个图像来确定它们相似的程度是众所周知的，为此存在许多技术：例如，可以将两个图像之间的均方差作为比较值计算-均方差越低，这两个图像越接近地匹配。图像比较用于各种原因，如视频比较算法(如MPEG2)中的运动估算。图像比较的另一应用是在跟踪存在于含有捕捉的图像序列的视频材料中的对象(如面部、车等)的算法中的应用。仅以示例的方式，对此下文是参考面部跟踪来描述的。

在文献中提出的许多面部检测算法，包括使用所谓的本征脸、面部模板匹配、可变形模板匹配或神经网络分类。这些都不是完美的，一般各有相关的优点和缺点。都未给出图像包含面部的绝对可靠指示；相反，它们都基于概率评估，继而基于图像是否具有包含面部的至少某个似然度对图像的数学分析。这些算法一般具有阈值似然度值，它往往被设置得非常高以努力避免面部的误检测。

通常希望能够“跟踪”图像序列中的面部，以便可以确定它的移动并且可以产生对应的所谓的“面部跟踪”。这允许例如将连续图像中检测到的面部链接到同一个人。尝试跟踪图像序列中的面部的一种方式是，检查相邻图像中的两个面部是否具有相同或非常相似的图像位置。但是，这种方法可能由于面部检测方案的概率特性而存在一些问题。一方面，如果将(用于执行面部检测的)阈值似然度设置得高，则可能在该序列中有一些图像中存在面部，但是未被算法检测出来，例如因为面部的主人将他的头转向一侧，或他的脸局部模糊，或他抓自己的鼻子，或许多可能原因的其中一个。另一方面，如果阈值似然度值设置得低，则误检测的比率将增加，而且可能在整个图像序列中成功跟踪非面部的对象。

在处理视频序列的同时，面部跟踪算法可以跟踪许多检测到的面部和产生对应的面部跟踪。常常多个面部跟踪实际对应于同一面部。如上所述，这可能是因为例如该面部的主人将他的头转向一侧，然后又将他的头转回来。面部跟踪算法可能无法在面部被转到一侧时检测它。这导致主人将他的头转向一侧之前的面部的面部跟踪和主人将他的头转回来之后的同一个面部的单独的面部跟踪。这可能发生多次，从而导致该特定面部的两个或两个以上的面部跟踪。又如，视频序列中人可能多次进入和离开场景，对于相同面部这会产生相应数量的面部跟踪。但是，许多面部跟踪算法无法确定这些多个面部跟踪对应于同一面部。

来自一个面部跟踪的图象与来自另一面部跟踪的图像的比较可以允许一定程度地确信这两个面部跟踪对应于不同面部或同一面部。但是，这可能由于两个图像间可能很大程度的变化而常常证明不可靠：例如，同一面部的两个图像可能取决于比例/缩放、观察角度/面、照明、障碍物的存在等而看上去完全不同。

根据本发明的一个方面，提出一种将测试图像与一组参考图像比较的方法，其中有不止一个的参考图像，该方法包括如下步骤：

将测试图像分成一个或多个测试区；

对于各测试区，将该测试区与一个或多个参考图像中的一个或多个参考区进行比较，并标识最接近地对应(或匹配)于该测试区的参考区(例如，使得如果要以它们对应标识的参考区来替换测试区，则如此形成的图像在外观上与测试图像相似)；以及

根据该测试区与它们对应标识的参考区的比较来生成比较值。

本发明的实施例具有可以将测试图像与一组两个或两个以上参考图像进行比较的优点。例如考虑面部跟踪，可以将来自一个面部跟踪的测试图像与来自另一面部跟踪的多个参考图像比较。这增加了正确检测出该测试图像对应于第二面部跟踪中存在的同一面部的可能性，因为在对照检测的参考图像中有更多的变化量。

本发明的实施例还将测试图像区与参考图像中的对应区比较，以找出在各区中最接近地匹配于该测试图像的参考图像。这有助于防止局部性的差异过多地负面影响比较。例如，参考图像可能包含因物体而局部模糊的面部。面部的可见部分可以非常好地与测试图像匹配，但是完整图像比较仍可能得出低相似度确定。因此将测试图像分成较小的区使图像一些区能够获得良好匹配，从而允许较高的相似度确定。在一些区与一个参考图像匹配得好，而其他区与不同参考图像匹配得好时尤其如此。

所附权利要求中定义了本发明的各多种其他方面和特征。

现在将参考附图仅以示例的方式描述本发明的实施例，在这些附图中相似的部分由相似的附图标记规定，其中：

图1是用作面部检测系统和/或非线性编辑系统的通用计算机系统的示意图；

图2是使用面部检测的视频摄像机(摄像机)的示意图；

图3示意性说明了视频会议系统；

图4和图5示意性地更详细说明了视频会议系统；

图6是说明训练过程的示意图；

图7是说明检测过程的示意图；

图8示意性说明了面部跟踪算法；

图9a至图9c示意性说明应用于视频场景时面部跟踪的使用；

图10是面部检测和跟踪系统的示意图；

图11示意性说明了相似度检测技术；

图12示意性说明了不同训练组的系统性能；

图13a和图13b示意性说明了试验结果；

图14示意性说明了包括面部登记的识别过程；

图15和图16示意性说明了图像比例的选择；

图17示意性说明了图像旋转的选择；

图18示意性说明了图像平移的选择；

图19示意性说明了一组所谓的本征眼；以及

图20示意性说明了将面部分成块。

图1至图9c的描述概括了申请号PCT/GB2003/005186的教授内容。为了解本文概括的这些技术特征更全面的细节，参考该申请。PCT/GB2003/005186中公开而未在如下概述说明中明示引述的特征仍应该被视为本发明检测设置的特征(至少为可选)。

下文描述将引述面部检测和/或跟踪作为各种技术的目标。但是应该认识到这些技术可应用于检测和/或跟踪许多不同类型的对象。一个示例是检测汽车。因此，对面部的引述仅仅是为了提供使描述更易于理解的框架。术语“面部”并不一定视为暗示下文描述中的任何限制。

图1是用作面部检测系统和/或非线性编辑系统的通用计算机系统的示意图。计算机系统包括处理单元10，它(在常规组件中)具有中央处理单元(CPU)20、例如随机存取存储器(RAM)30的存储器和例如磁盘驱动器40的非易失性存储装置。计算机系统可以连接到比如局域网或因特网(或二者)的网络50。还提供键盘60、鼠标或其他用户输入装置70和显示屏80。本领域技术人员将认识到通用计算机系统可包括许多本文不需描述的其他常规部件。

图2是使用面部检测的视频摄像机(摄像机)的示意图。摄像机100包括镜头110，它将图像聚焦于电荷耦合装置(CCD)图像捕获装置120上。以电子形式得到的图像由图像处理逻辑130处理，以便记录在例如盒式磁带140的记录介质上。装置120捕获的图像还显示在可通过目镜160观看的用户显示器150上。

为了捕获与图像相关联的声音，使用一个或多个麦克风。就它们通过软电缆连接到摄像机而言，这些麦克风可以是外部麦克风，或可以安装在摄像机本体上。来自麦克风的模拟音频信号由音频处理部件170处理，以产生适当的音频信号，以便记录在存储介质140上。

要注意的是可以按数字形式或模拟形式或二者兼有的形式将视频和音频信号记录在存储介质140上。因此，图像处理部件130和音频处理部件170可以包括模拟至数字转换的阶段。

摄像机用户能够控制通过用户控件180控制镜头110性能的方面，该用户控件180使得镜头控制部件190向镜头110发送电控制信号200。通常，以此方式来控制诸如焦距和变焦之类的属性，但是镜头光圈或其他属性也可以由用户来控制。

还示意说明了两个另外用户控件。提供按钮210以起始和停止在记录介质140上进行记录。例如，按一次控件210可启动记录，再按一次可停止记录，或者可需要将该控件保持在按下状态才能发生记录，或者按一次可以持续启动记录某定时的时段，例如五秒。在这些部件的任何一个部件中，从每次“拍摄”的开始和结束(持续的记录期间)发生的摄像机记录操作起来建立在技术上是非常容易的。

图2以示意图方式示出的另一用户控件是“拍摄好标记(good shotmarker)”(GSM)220，用户可以操作它以使“元数据”结合视频和音频素材存储在记录介质140上，指示该特定拍摄被操作者在主观上在某个方面认为“好”(例如演员表演得特别好；新闻报道员正确地对每个词发音等)。

取决于所使用的特定格式和标准，该元数据可以记录在记录介质140上的一些空闲容量中(例如“用户数据”)。或者，可以将该元数据存储在独立的存储介质(如可移动MemoryStickR^TM存储器，未示出)，或可以将该元数据存储在外部数据库(未示出)中，例如通过无线链路(未示出)传送到此类数据库中。该元数据可以不只包括GSM信息，而且可以包括拍摄边界、镜头属性、用户输入的字母数字信息(例如在键盘上输入的，未示出)、从全球定位系统接收器(未示出)接收到的地理位置信息等。

至此，描述已经涵盖具有元数据功能的摄像机。现在，将描述可以将面部检测应用于此类摄像机的方式。

摄像机包括面部检测器部件230。下文将更详细地描述适当的部件，但是对于该描述的部分，足可以说面部检测器部件230从图像处理器部件130接收图像，并检测或尝试检测此类图像是否包含一个或多个面部。面部检测器可以输出面部检测数据，该数据可以采用“是/否”标志的形式，或可以更详细些：该数据可以包含面部的图像坐标，例如眼睛位置在每个所检测的面部中的坐标。该信息可以被作为另一种类型的元数据来处理，并采用上述的其他格式的任何一种来存储。

如下文所述，检测过程内可使用其他类型的元数据来协助面部检测。例如，面部检测器230从镜头控制部件190接收控制信号，以指示镜头110的当前焦距和变焦设置。它们可以通过给出图像前景中存在的任何面部的期望图像尺寸的初始指示来协助面部检测器。就此而言，注意在它们之间的焦距和变焦设置规定摄像机100和正在被摄入的人之间期望的分隔，还规定镜头110的放大率。从这两个属性，基于平均面部尺寸，计算在所得到的图像数据中期望的面部尺寸(以像素为单位)是可能的。

常规(周知的)语音检测器240从音频处理部件170接收音频信息，并检测此类音频信息中的语音存在。语音的存在可以是其对应图像中存在面部的可能性高于没有检测到语音的情况的指示。

最后，将GSM信息220和拍摄信息(来自控件210)提供给面部检测器230，以指示拍摄边界和用户认为最有用的那些拍摄。

当然，如果摄像机基于模拟记录技术，则还可能需要模数转换器(ADC)来处理图像和音频信息。

作为使用这些检测技术的再一示例，图3以示意图方式说明视频会议系统。两个视频会议站1100、1110通过网络连接1120连接，如：因特网、局域网或广域网、电话线路、高比特速率租用线路、ISDN线路等。简单来说，每个站包括摄像头及相关联的发送设备1130和显示器及相关联的接收设备1140。视频会议的参与者在各自的站被摄像头观察到，并且他们的声音被该站处的一个或多个麦克风(图3中未示出)拾取。经网络1120将音频和视频信息传送到在其他站的接收器1140。这里，显示摄像头捕获的图像，并在扬声器等上产生参与者的声音。

将认识到多于两个站可以参与视频会议，虽然出于简化起见，本文的论述将限于两个站。

图4以示意图方式说明一个通道，它作为一个摄像头/发送设备到一个显示器/接收设备的连接。

在摄像头/发送设备处，提供有视频摄像头1150、使用上述技术的面部检测器1160、图像处理器1170以及数据格式化装置和发射器1180。麦克风1190检测参与者的声音。

将音频、视频和(可选的)元数据信号经网络连接1120从格式化装置和发射器1180传送到显示器/接收设备1140。可选地，经网络连接1120从显示/接收装置1140接收控制信号。

在显示器/接收设备处，提供有显示器和显示处理器1200(例如显示屏幕以及相关联的电子设备)、用户控件1210和音频输出部件1220(如数模(DAC)转换器)、放大器和扬声器。

一般来说，面部检测器1160检测(并可选地跟踪)来自摄像头1150的捕获的图像中的面部。将面部检测作为控制信号传递到图像处理器1170。图像处理器可以采用多种不同的方式动作，下文将对此予以描述，但是基本上图像处理器1170在经网络1120传送摄像头1150捕获的图像之前，会更改它们。这样做背后的主要目的在于更好地利用网络连接1120可承载的有效带宽或比特率。这里注意在大多数商业应用中，适于视频会议目的的网络连接1120的成本随着提高的比特率要求而增加。在格式化装置和发射器1180处，可以将来自图像处理器1170的图像与来自麦克风1190的音频信号(例如经模数转换器(ADC)转换的音频信号)组合，以及可选地与规定图像处理器1170执行的处理的特性的元数据组合。

图5是视频会议系统的再一示意图表示。这里，面部检测器1160、图像处理器1170、格式化装置和发射器1180的功能以及显示器和显示处理器1200的处理器方面由可编程个人计算机1230来执行。显示屏幕上显示的示意显示(1200的一部分)代表使用面部检测和跟踪的视频会议的一种可能模式，即仅将包含面部的那些图像部分从一个位置传送到其他位置，然后在该其他位置处以平铺或马赛克形式显示它们。

本实施例使用安排为两个阶段的面部检测技术。图6是说明训练阶段的示意图，以及图7是说明检测阶段的示意图。

不同于一些先前提出的面部检测方法，本发明方法基于部分地而非整体地对面部建模。这些部分可以是面部特征的假定位置上共中心的块(所谓的“选择性取样”)或面部上按规则间隔取样的块(所谓的“规则性取样”)。本发明的描述将主要涵盖规则性取样，因为在实验测试中发现此方式得到较好的结果。

在训练阶段中，将分析过程应用于一组已知包含面部的图像，以及(可选地)应用于另一组已知不包含面部知的图像(“非面部图像”)。可以对多个面部数据的训练组重复该过程，代表面部的不同视图(例如前视、左视、右视)。该分析过程构建面部和非面部特征的数学模型，之后(在检测阶段中)可对照它们来比较测试图像。

由此，要构建数学模型(图6的训练过程310)，基本步骤为如下所示：

1.从一组300标准化以具有相同眼睛位置的面部图像，规则地将各面部取样成小块。

2.对每个块计算属性；

3.将这些属性量化成可管理数量的不同值。

4.然后组合这些量化的属性以便生成关于该块位置的单个量化值。

5.然后将该单个量化的值作为项记录在直方图中。关于所有训练图像中所有块位置的集合直方图信息320构成面部特征的数学模型的基出。

通过对大量的测试面部图像重复上文的步骤，对于每个可能的块位置准备一个此类直方图。由此在使用8×8的块阵列的系统中，准备64个直方图。在处理的后面部分中，将测试量化的属性与直方图数据比较；整个直方图用于对数据建模的事实意味着，无需就它是否符合参数化的分布，例如高斯或其他方面作出假设。为了节省数据存储空间(如果需要的话)，可以将是相似的直方图合并，以便可以对不同的块位置重复使用相同的直方图。

在检测阶段中，为了将面部检测器应用于测试图像350，按如下步骤处理340测试图像中的连续窗口：

6.规则地将窗口取样为一系列的块，然后按上文阶段1-4计算并量化针对每个块的属性。

7.从对应的直方图中查询每个块位置的量化的属性值的对应“概率”。即，对于每个块位置，生成各自量化的属性，并将其与先前针对该块位置生成的直方图比较(或在多个训练部件代表不同的视图的情况中与多个直方图比较)。下文将描述直方图导出“概率”数据的方式。

8.将上文获得的所有概率乘在一起，以形成对照阈值比较以将该窗口归类为“面部”或“非面部”的最终概率。将认识到“面部”或“非面部”的检测结果是基于概率的测量，而非绝对检测。有时候，可能将不包含面部的图像错误地检测为“面部”，即所谓的错误肯定。在其他时候，可能将包含面部的图像错误地检测为“非面部”，即所谓的错误否定。任何面部检测系统的目标就是降低错误肯定的比例和错误否定的比例，但是当然要理解利用当前技术，即使并非不可能，将这这些比例降低到零也是不容易的。

如上所述，在训练阶段中，可以利用一组“非面部”图像来生成对应“非面部”直方图组。然后，为了实现面部的检测，可以将由非面部直方图产生的“概率”与独立的阈值进行比较，以使此概率必须在包含面部的测试窗口的阈值以下。或者，可以将面部概率与非面部概率的比值与阈值比较。

可以通过对原始训练组应用“综合变量”330来生成额外的训练数据，如位置、方向、尺寸、高宽比、背景景物、照明强度和频率成分上的变量。

下文还将描述对面部检测部件的进一步改进。

面部跟踪

现在将描述面部跟踪算法。跟踪算法是为了提高图像序列中的面部检测性能。

跟踪算法的最初目标是检测图像序列的每个帧中的每张面部。但是，要认识到有时可能检测不到序列中的面部。在这些情况中，跟踪算法可以协助跨遗漏的面部检测进行插值。

最终，面部跟踪的目的是为了能够从图像序列中属于同一场景的各组帧中输出一些有用的元数据。它可以包括：

·面部的数量。

·各面部的“面部照片”(由参考警察文档照片的一个术语派生的，用于人的面部图像的口语词)。

·各面部首先出现所在的帧编号。

·各面部最后一次出现所在的帧编号。

·各面部的身份(与前一个场景中看到的面部匹配或与面部数据库匹配)

跟踪算法使用面部检测算法的结果，作为它的起点独立地在图像序列的每个帧上运行。因为面部检测算法有时可能遗漏(未检测到)面部，所以一些对遗漏面部插值的方法是有用的。为此，使用卡尔曼过滤器来预测面部的下一位置，以及曾经使用肤色匹配算法来帮助面部的跟踪。此外，因为面部检测算法常常引起错误接受，所以一些拒绝它们的方法也是有用的。

图8中以示意图方式图示该算法。

总的来说，将输入视频数据545(代表图像序列)提供到本申请中描述类型的面部检测器和肤色匹配检测器550。面部检测器尝试检测每个图像中的一个或多个面部。当检测到面部时，建立卡尔曼过滤器560以跟踪该面部的位置。卡尔曼过滤器可以生成同一个面部在序列中下一个图像中的预测位置。眼睛位置比较器570、580检测面部检测器540是否在下一个图像中该位置处(或该位置的某个阈值距离内)检测到面部。如果发现是此情况，则使用检测到的面部位置来更新卡尔曼过滤器，并继续过程。

如果在预测的位置或其附近没有检测到面部，则使用肤色匹配方法550。这是欠精度的面部检测技术，它设为具有比面部检测器540低的接受阈值，由此对于肤色匹配技术来说，即使在面部检测器无法在该位置处作出肯定检测时，而它检测到该面部是可能的。如果肤色匹配检测到“面部”，则将它的位置作为更新的位置传递到卡尔曼过滤器，并继续过程。

如果面部检测器450或肤色检测器550均未发现匹配，则使用预测的位置来更新卡尔曼过滤器。

所有这些结果依据服从标准(参见下文)。由此，将拒绝例如基于一个肯定检测和作为预测的余下结果或作为肤色检测的余下结果而在整个序列中跟踪的面部。

使用单独的卡尔曼过滤器来跟踪在跟踪算法中的每张面部。

注意跟踪过程不限于沿前进时间方向通过视频序列进行跟踪。假定图像数据保持可访问(即该过程不是实时的，或为时间上连续使用而缓存该图像数据)，可以沿倒退时间方向执行整个跟踪过程。或者，当作出第一面部检测(常常在视频序列的中途)时，可以同时沿两个时间方向启动跟踪过程。作为进一步的选择，跟踪过程可以在视频序列中沿两个时间方向运行，其中组合结果，以便(例如)将满足接受标准的跟踪的面部作为有效结果包括，而无论跟踪沿哪个方向发生。

跟踪算法的优点

面部跟踪技术具有三个主要好处：

·它允许在没有面部检测结果的帧中使用卡尔曼过滤和肤色跟踪来填补遗漏的面部。这增加了图像序列上的真实接受率。

·它提供面部链接：通过成功地跟踪面部，算法自动知道将来的帧中检测到的面部属于同一个人还是不同人。因此，可以由此算法生成场景元数据，包括场景中的面部数量、它们所在的帧并提供每张面部的代表性面部照片。

·错误面部检测往往被拒绝，因为此类检测往往不会在图像之间接续。

图9a至图9c以示意图方式说明应用于视频场景时人脸跟踪的使用。

具体来说，图9a以示意图方式说明包括连续视频图像(例如场或帧)810的视频图像800。

在该示例中，图像810包含一个或多个面部。具体来说，该场景中的所有图像810包括图像810的示意图表示内的左上方位置处示出的面部A。还有，一些图像包括图像810的示意图表示内的右下方位置处示出的面部B。

将面部跟踪过程应用于图9a的场景。在场景上合理地成功跟踪面部A。在一个图像820中，不通过直接检测跟踪该面部，但是上述的肤色匹配技术和卡尔曼过滤技术意味着检测在“遗漏”图像820任何一侧是连续的。图9b的表示指示存在于每个图像中的面部A的检测的概率，以及图9c示出面部B的对应概率值。为了在面部A的跟踪与面部B的跟踪之间相区分，对每个跟踪分配唯一的(至少相对于系统中的其他跟踪是唯一的)标识号。

在上文和PCT/GB2003/005186描述的系统中，面部检测和跟踪期间，如果面部长时间转离摄像头或从场景暂时消失，则终止人的跟踪。在返回到场景时，面部再次被检测，但是开始不同的跟踪，并对新跟踪给出不同的标识(ID)编号。

现在将描述所谓“面部相似度”或“面部匹配”技术。

面部相似度的目的在于恢复在这些情况中人的身份，以便可以将(与同一个人相关的)较早的面部跟踪和后来的面部跟踪链接在一起。在该部件中，至少原理上来说，对每个人指定唯一ID编号。当此人返回到场景中时，算法尝试使用面部匹配技术再次分配相同ID编号。

面部相似度方法基于将新遇到的个人的多个面部“标记”(选择来代表所跟踪的面部的图像)与先前遇到的人的多个面部标记比较。注意，面部标记无需是正方形的。从系统的面部检测和跟踪组件中获取属于一个人的多个面部标记。如上所述，面部跟踪过程在时间上将检测到的面部链接，以使只要此人不从场景中消失或转离摄像头太久，就会在整个视频帧序列中维持它们的身份。因此，假定此类跟踪内的面部检测属于同一个人，以及可以使用该跟踪内的面部标记作为一个特定个人的面部标记“组”。

在每张面部标记组中维持固定数量的面部标记。下文将描述从跟踪选择图像标记的方式。接着将描述两个面部标记组的“相似度测量”。随后有面部检测和跟踪系统内如何使用相似度方法的描述。然而首先将描述图10，以便将面部相似度技术置于整体跟踪系统的环境中。

图10以示意图方式说明面部检测和跟踪系统，如上所述，但是将面部相似度功能放在技术环境中。该图概括了上文和PCT/GB2003/005186中所述的过程。

在第一阶段2300，所谓的“兴趣区域”逻辑派生图像内发生面部检测的那些区域。在那些兴趣区域，执行面部检测2310以生成检测到的面部位置。然后执行面部跟踪2320以生成跟踪的面部位置和ID。最终，使用面部相似度功能2330来匹配面部标记组。

为面部标记组选择标记

为了创建和维护面部标记组，从面部标记的时间上链接的跟踪中选择固定数量的标记。选择的标准如下：

1.标记必须是由面部检测直接生成的，而非由肤色跟踪或卡尔曼跟踪生成。此外，仅在使用由“前视图”面部训练组生成的直方图检测到它的情况下才选择它。

2.一收集前n个标记(例如依照构成面部跟踪的图像上的前进时间次序生成的)，则测量该跟踪中可获得的新标记(按时间次序)与现有面部标记集的相似度。还测量并存储跟踪中的每张面部标记与标记组中余下的标记的相似度。如果新获得的面部标记与面部标记组的相似度不及面部标记组的现有元素与面部标记组的相似度，则不考虑现有元素，并将新的面部标记包括在面部标记组中。以此方式选择标记，由此到该选择过程结束，将可能有的最大变化量结合到面部标记组内。这往往使面部标记组对特定个人更具代表性。

如果对于一个面部标记组收集到少于n个标记，则不使用该面部标记组来执行相似度评估，因为它可能未包含很多变化，因此不可能是个人的好表示。

该技术不仅可应用于面部相似度算法中，而且还可应用于为任何应用的任何对象选择代表性图片标记组中。

一个好的示例是在所谓的面部登录中。可能存在代表已被检测并登录的人通过摄像头的需求。为此，一个好的方式是使用几个图片标记。在理想情况下，这些图片标记应该尽可能彼此不同，以使尽可能多的变化被捕获。这将给予用户或自动面部识别算法尽可能多的机会来识别出人。

相似度测量

比较两个面部跟踪时，为了检测它们是否代表同一个人，新遇到的个人的面部标记组(组B)与先前遇到的个人的面部标记组(组A)之间的相似度测量基于可以从面部标记组A将面部标记组B中的标记重构到多好的程度。如果可以从组A中的面部标记很好地重构组B中的面部标记，则可能性很高地认为来自组A和组B的面部标记都属于同一个人，并由此可以说新遇到的人在之前已被检测。

该相同的技术适用于上述的部件，即选择面部图像用作代表特定面部跟踪的面部标记组。在该情况中，每个新遇到的候选面部标记与组中现有标记之间的相似度，以及现有组内的标记之间的相互相似度将在下文描述中，以与来自组B的标记与来自组A的标记之间的相似度相同的方式来考虑。

以基于块的方式从组A中的标记重构组B中的标记。图11中以示意图方式说明此过程。

图11以示意图方式示出具有四个面部标记2000、2010、2020、2030的面部标记组A。(当然将理解到选择数量四仅仅为了示意图的简明，而且本领域人员可以为实际的实施选择不同数量)。要将来自面部标记组B的标记2040与组A的四个标记比较。

以从面部标记组A中的标记选择的块，替换面部标记2040中的每个非重叠块2050。可以从组A中的任何标记及从该标记的原始块位置的相邻或搜索窗口2100内的任何位置选择块。选择这些位置内给出最小均方误差(MSE)的块，以替换使用运动估算方法重构的块。(好的可供使用的运动估算技术是在存在照明变化量的情况下给出最低均方误差同时使用小量处理能力的技术)。注意块无需是正方形的。在图示的示例中，以来自标记2000的邻近块替换块2060；以来自面部标记2010的块替换块2070；以及以来自面部标记2020的块替换块2080，等等。

当重构面部标记时，可以用参考面部标记中的对应相邻位置的块替换每个块。但是可选地，除了此相邻位置外，还可以从反射的参考面部标记中对应相邻位置选择该最佳块。之所以可以如此操作是因为面部大致是对称的。由此，可以利用面部标记组中存在的更多变化。

所用的每张面部标记是尺寸64×64的，并被划分成尺寸8×8的块。与系统的面部检测组件输出的面部标记相比，更密集地剪切用于相似度测量的面部标记。这是为了尽可能多的将背景排除在相似度测量之外。

为了剪切图像，选择缩小的尺寸(或预先确定)-例如50像素高×45像素宽(以应对大多数面部不是正方形的事实)。然后将该尺寸的中央区域所对应的像素群调整尺寸，以使所选择的区域再一次填充64×64的块。这涉及到一些直接插值。对中央非正方形区域调整尺寸以填充正方形块，意味着被调整尺寸的面部可能看上去有点被拉伸。

可以预先确定或响应每种情况中所检测到的面部的属性来选择剪切区域的选择(例如50×45像素的区域)。在每种情况中将尺寸调整尺寸为64×64的块，意味着面部标记的比较-无论是否剪切-在相同的64×64尺寸上进行。

一旦以此方式重构整个标记，则计算重构的标记与来自组B的标记之间的均方误差。均方误差越低，面部标记和面部标记组A之间的相似度越高。

在两个面部标记组比较的情况中，以相同方式重构面部标记组B中的每个标记，并且组合的均方误差用作这两个面部标记组之间的相似度测量。

由此，该算法充分利用这一事实，要匹配的每个人有多个面部标记。而且，该算法对于要匹配的面部的不精确登记是稳健的。

在上述系统中，从已有面部标记组重构新收集到的面部标记组，以便生成相似度测量。通过从另一个面部标记组重构面部标记组(从B到A)获得的相似度测量通常不同于从前者重构后者面部标记组(从A到B)时的相似度测量。因此，在一些情况中，已有面部标记组在从新面部标记组重构时可以得到比反向重构(例如在已有面部标记组是从非常短的跟踪收集时)更好的相似度测量。因此，为了增加相似面部之间成功合并的可能性，可以将两个相似度测量组合(例如平均)。

现在将描述再一可选变化量。当重构面部标记时，可以通过参考面部标记中相同尺寸、形状和方向的块替换每个块。但是如果主题的尺寸和方向在两个面部标记中不同，则这两个面部标记将不会较好地彼此重构，因为重构的面部标记中的块将不会良好地与相同尺寸、形状和方向的块匹配。可以通过允许对参考面部标记中的块取任何尺寸、形状和方向来克服此问题。因此使用高阶几何变换估算(其中诸如旋转、缩放)以从参考面部标记中选择最佳块。或者可以在通过基本方法重构面部标记之前旋转整个参考面部标记并对其调整尺寸。

为了使相似度测量相对照明变化稍微更稳健一些，首先将每张面部标记标准化为具有零的平均亮度和一的方差。

在对象跟踪系统内使用面部相似度分量

已看到，对象跟踪允许在一系列视频帧上保持人的身份，只要他/她不从场景中消失。面部相似度分量的目的是要能够链接跟踪，以便即使在此人暂时从场景消失或转离摄像头的情况下仍保持跟踪他/她的身份。

在面部检测和对象跟踪系统的操作过程中，每次开始新的跟踪时，就会启动新的面部标记组。最初对新的面部标记组给出唯一的(即与先前跟踪的组比较是新的)ID。当获取新面部标记组的每个标记时，计算它与所有先前收集的面部标记组的相似度测量(S_i)。使用该相似度测量，以迭代方式更新新面部标记组的已有元素与所有先前收集的面部标记组的组合相似度测量(S_i-1)：

jS_i＝0.9*jS_i-1+0.1*jS_i

其中上标j表示与先前收集的面部标记组j的比较。

如果新面部标记组与先前遇到的面部标记组的相似度高于某个阈值(T)且新的面部标记组中的元素的数量至少为n(参见上文)，则对该新的面部标记组给出与先前面部标记组相同的ID。然后使用上一部分所述的相同相似度比较方法，将这两个面部标记组合并以产生仅一个面部标记组，其中包括尽可能多地含在两组中的变化。

如果在收集到n个面部标记之前它的跟踪终止，则丢弃该新面部标记组。

如果该新面部标记组的相似度测量对于多于一个已存储的面部标记组高于阈值T，这意味着目前此人看上去与两个先前的人较好地匹配。在此情况中，需要甚至更严格的相似度阈值(即甚至更低的差异阈值)来将目前的人与先前两个人的其中之一匹配。

除了相似度标准外，另一个标准也可以帮助判断是否应该将两个面部标记组合并。该标准源于如下常识：属于同一个人的两个面部标记组不可能在时间上重叠。因此，超过少量帧同时出现在图片中的两个面部标记组永远不可能彼此匹配。为此，使用共存矩阵保持曾经共存于图片中的所有面部标记组的记录。该矩阵存储两个面部标记组的每种组合曾经共存的帧的数量。如果该数量大于少量的帧，例如10帧(容留一段时间，在该段时间期间跟踪有时会在一些帧被删除之前浮出一个面部)，则不允许将两个面部标记组合并成相同的ID。现在将给出编号为ID1至ID5的五个人(跟踪)的共存矩阵的一个示例：

该矩阵显示：

·ID1出现了总共234帧(虽然这些帧可能不是连续的)。它从未与ID2或ID3同时在一次拍摄中出现，因此在将来可能潜在地将它与这些人的其中之一合并。它与ID4共存了87帧，因此它应该不会与此人合并。它还与ID5共存了5帧。这低于帧的阈值数量，因此仍可能潜在地将这两个ID合并在一起。

·ID2出现了总共54帧(虽然这些帧可能不是连续的)。它仅曾经与ID3共存过，因此它不会与此人合并。但是，它将来可能潜在地与ID1、ID4或ID5合并，只要这些面部具有好的匹配。

·ID3出现了总共43帧(虽然这些帧可能不是连续的)。它仅曾经与ID2共存过，因此它不会与此人合并。但是，它将来可能潜在地与ID1、ID4或ID5合并，只要这些面部具有好的匹配。

·ID4出现了总共102帧(虽然这些帧可能不是连续的)。它从未与ID2或ID3同时在一次拍摄中出现，因此在将来可以潜在地将它与这些人的其中之一合并。它与ID1共存了87帧，因此它应该不会与此人合并。它还与面部5共存了5帧。这低于帧的阈值数量，因此仍可以潜在地将这两个ID合并在一起。

·ID5出现了总共刚好5帧(虽然这些帧可能不是连续的)。对于所有这些帧，它均与ID1和ID4共存，但是它仍可能与它们的其中之一合并，因为这低于阈值。它还可能与ID2或ID3合并，因为它从未与这些ID共存过。

如果因为高面部相似度而将两个ID合并，则通过组合这两个合并的ID的共存信息来更新共存矩阵。为此只需将这两个ID所对应的行中的量值相加，然后将这两个ID所对应的列中的量值相加。

例如，如果ID5与ID1合并，则上述的共存矩阵变成：

如果ID1随后与ID2合并，则上述的共存矩阵变成：

应该注意的是：

·ID1不能与任何其他现有的人合并。

·在本实施例中使用一个约定，由此使两个ID被合并之后总是保留最低ID号。

·不允许将ID合并而它们仍存在于图片中。

在生成和合并面部标记组的相似度检测过程中，通常需要从其他面部标记几次重构面部标记。这意味着需要使用运动估算方法多次匹配每个块。对于一些运动估算方法来说，第一步是计算有关要匹配的块的一些信息，而不管所使用的参考面部标记。因为运动估算需要执行几次，所以可以沿着面部标记存储该信息，以便无需在每次需要匹配块时都计算一次，由此节省了处理时间。

下文描述涉及对面部检测和对象跟踪技术的改进，其目的在于改进非经常性(或至少不是很经常)的照明条件下获得的图像上的性能。

改进照明变化的稳健性的方法

用于改进对照明变化的稳健性的方法包括：

(a)使用包含大的照明变化范围的额外样本进行附加的训练；

(b)降低形状阴影的影响的对比度调整。

进一步增强，对直方图标准化有助于改进面部检测性能，因为免去了调节面部检测系统的一个参数的需要。

这些实验的测试集包含在非经常性照明条件下获得的图像。第一组在图12中标记为“较小训练集”(曲线--◆--)，它包含正面面部(20％)、左视面部(20％)、右视面部(20％)、仰视面部(20％)和俯视面部(20％)的混合。图12中示出了在这些改进前后，该测试组上面部检测系统的性能。第二个测试组包含在办公室附近捕获的样本图像。图13a和图13b中示出样本结果，下文对此予以描述。

直方图训练集中的附加数据

为了应对不同的照明条件，可以将额外的面部样本添加到该训练组。这些面部样本最好比最初所用的训练组中的面部样本包含更多的照明变化。从图12可以看到，与仅使用较小训练集(红色曲线)相比，扩大(“组合的”)训练集(曲线--■--)导致少许改进。

直方图的标准化

先前发现使用正面姿态的直方图的检测的适当阈值稍微低于使用非正面姿态的直方图的时候。由于此原因，在将来自各姿态的概率图组合之前，需要向正面姿态的概率图添加偏移量。无论何时只要对面部检测系统的直方图训练分量作更改，就需要以实验方式确定此正面偏移量。

但是，可以代之以将此偏移量包含在直方图训练分量内，以便可以对正面和非正面概率图的检测使用相似的阈值。因此可以说正面和非正面直方图被彼此标准化。参考图12，在实验确定适合的正面偏移量之前已经生成该图形中“较小”和“组合的”曲线。曲线

是使用标准化的直方图生成的，它演示了可以达到比使用非最优偏移时更好的性能。

对比度调整

已经观察到存在形状阴影的面部较不可能被成功检测到。因此，设想了预处理操作器来尝试和减弱阴影的影响。这通过以输入图像的每个像素附近为中心居中设一个窗口(小于待测试的整个图像)，并利用窗口内的最小强度值对窗口中央里的像素值取均值。因此，输出图像(I_output)中每个像素的值由如下公式给出：

I_output(x)＝(I_input(x)+min(W))/2，

其中W是以像素x为中心的窗口。

在本实施例中使用的相邻窗口的尺寸为7×7个像素。然后按常规对处理过的图形执行面部检测。在图12中将所获得的改进图示为曲线--●--。可以看到该创新操作器对面部检测系统的性能有很大影响。(注意“窗口”包括整个图像的相似部件经测试，发现不提供这种有利的影响。

需要在如商店等的苛刻照明环境中检测如面部的对象的情况中，该技术尤其有用，因此该技术可以在所谓的“数字标牌”中具有应用，其中检测观看显示广告材料的视频屏幕的人的面部。可以使用面部的存在、面部保留的时间长度和/或面部的数量来更改广告屏幕上显示的材料。

样本图像

图13a和图13b中示出对一些样本图像执行建议的改进前后的面部检测系统的性能。左边和右边的图像分别显示改进之前和之后面部检测的结果。可以看出，现在可以成功地检测到苛刻照明下的正面和非正面面部。

现在将描述备选面部相似度检测技术和/或对上述技术的修改。

如果面部合理地较好“登记”，则面部识别一般执行得更好-就是说，通过将面部应用于相似度算法的形式，将它们相似地具有尺寸和方向，或已知它们的尺寸和方向，由此可以在算法中对此执行补偿。

上述的面部检测算法一般能够以合理高级别的性能(例如在一些实施例中＞90％的正确接受和＜10％的错误接受)确定图像或视频帧中的所有面部的数量和位置。但是，由于该算法的特性，不会以高精确度生成面部位置。因此，面部检测和面部识别之间的有用中间阶段是执行面部识别，例如通过精确定位每个检测的面部的眼睛位置。图14中的示意图示出如何将面部登记嵌入面部检测与面部识别之间的面部识别过程中(相似度检测)。

现在将描述面部登记技术，该技术可以有利地结合上述的面部识别技术或结合下文将要描述的其他面部识别技术来使用。

现在将描述两个面部登记算法：基于检测的登记算法和基于“本征眼”的登记算法。

基于检测的登记算法

基于检测的面部登记算法包括用一定数量的附加缩放、旋转和平移来重新运行面部检测算法，以便实现更精确的定位(localisation)。将从原面部检测算法输出的面部图片标记用作重新运行检测算法的输入图像。

将面部检测算法的更定位的版本用于登记算法。在具有较小综合变化范围的面部上训练该版本，以使之在面部未较好登记时可能给出较低的面部概率。训练集具有相同数量的面部，但是平移、旋转和缩放的范围更小。表1中将登记算法的综合变化的范围与原面部检测算法进行比较。

表1-原始面部检测算法与面部登记算法中所用的更定位的新面部检测算法的综合变化范围

此外，原面部检测算法是在观察范围为左右25度的面部上训练的，而定位的检测算法仅在正面面部上训练。

原面部检测算法在每八个一组的四个不同缩放上操作，由此每个缩放比先前缩放大二的四次根。图15以示意图方式说明原面部检测算法中缩放的间隔(每八个一组四个缩放)。

为了使面部的尺寸中能够有更高分辨率，由此得到更好的面部定位，面部登记算法在每张面部检测缩放中间按两个缩放附加地执行面部检测。为此，重新运行三次面部检测算法，其中在每次运行之前将原缩放比例乘以

进行变换。图16中以示意图方式说明该部件。因此图16中每行的缩放比例代表(定位的)面部检测算法的一次运行。所选的最终缩放比例是得到最高概率的面部检测结果的一个。

原面部检测算法一般能够检测平面内旋转最大约为+/-12度的面部。由此可见，从面部检测算法输出的面部图片标记可以具有最大约+/-12度的平面内旋转。为了对此进行补偿，登记算法的(定位的)面部检测算法从-12度到+12度以1.2度的步阶按输入图像的各种不同旋转运行。所选的最终旋转是给出最高概率的面部检测结果的一个。图17以示意图方式说明面部登记算法中所用的一组旋转。

原面部检测算法在输入图像的16×16窗口上操作。面部检测在从原图像尺寸(用于检测小头像)到原图像的明显缩小版本(用于检测大头)的缩放范围上执行。根据缩放量，可能存在与任何检测到的面部的位置相关联的平移误差。

为了帮助对此进行补偿，在面部登记算法中，在运行(定位的)面部检测算法之前，通过一定范围的平移来将128×128个像素的面部图片标记进行变换。变换的范围涵盖水平方向上-4个像素到+4个像素与垂直方向上-4个像素到+4个像素的各种平移组合，如图18所示。(定位的)面部检测算法对每个平移的图像运行，通过给出具有最高概率的面部检测结果的平移得到最终的面部位置。

在发现所有给出最高面部概率面部被检测到的缩放、平面内旋转和平移位置之后，可以更精确地估算眼睛的位置。最后的阶段是将该面部与具有固定眼睛位置的模板登记。为此，只需对面部检测算法输出的面部图片标记执行仿射变换，以将面部登记算法给出的眼睛位置变换成面部模板的固定眼睛位置。

基于本征眼的登记算法

基于本征眼的面部登记方法包括使用在眼睛周围的面部区域训练的一组本征块。这些本征块周知为本征眼。它们用于在从面部检测算法输出的面部图片标记中搜索眼睛。该搜索方法包括使用与基于本征脸的面部检测方法所用的那些技术相似的技术，该基于本征脸的面部检测方法在B.Moghaddam和A Pentland所著的“对象检测的概率性视觉学习”(参见″Probabilistic visual learning for objectdetection″，.Proceedings of the Fifth International Conference onComputer Vision，.20-23 June 1995，.pp786-793)中有描述。下文中将更详细地解释这些技术。

本征眼图像是在包含眼睛和鼻子的面部中央区域上训练的。图19中给出了示出平均图像(在上方)和一组几个本征眼(下方)的示意图示例。之所以选择组合的眼睛和鼻子区域，是因为在大量试验中发现这样得到最佳结果。经测试的其他区域包括个体眼睛、个体眼睛和鼻子和嘴以及图片标记中每个可能块位置的单独的本征块组。但是未发现它们其中的任何一个能够像本征眼方法那样有效地定位眼睛位置。

通过对2677个登记的正面面部执行本征矢量分析创建了本征眼。这些图像包括70个不同光照和表情的人。仅对每张面部的眼睛和鼻子周围的区域执行本征矢量分析。图19中可以看到所得到的平均眼图像和前四个本征眼图像。总共，生成十个本征眼图像并用于眼睛定位。

如前所述，使用与本征脸面部检测方法相似的技术执行眼睛定位。虽然已发现该方法在未限定的图像中查找面部时存在局限，但是发现在限定的搜索空间(即这里使用它来搜索面部图像中的眼睛区)中执行得更好。现在将概述该方法，以及突出说明在目前技术中的差异。

使用如下两个测量来规定输入图像的区域与眼睛有多相似：距离特征空间的距离(DFFS)和特征空间中的距离(DIFS)。通过依据图像子空间来考虑本征眼可以最好地理解它们。

本征眼代表完整图像空间的子空间。该子空间能够最优地代表人脸的眼睛中典型的变化(来自平均眼睛图像)。

DFFS代表从本征眼和平均眼睛图像的权重和来创建当前面部的眼睛时的重构误差。它相当于与本征眼代表的子空间正交的子空间中的能量。

DFFS代表本征眼子空间内与平均图像的距离，它使用按每个本征眼图像的方差权重的距离(即所谓的Mahalanobis)度量。

然后使用DFFS和DIFS的权重和来规定输入图像的区域与本征眼有多相似。在原本征脸方法中，按所有训练图像上的重构误差的方差对DFFS加权。这里，不像原本征脸方法，使用基于像素的权重。通过在重构训练图像时查找每个像素位置的重构误差的方差来构造权重图像。然后使用该权重图像以在将DFFS与DIFS组合之前逐个像素地将其标准化。这防止了通常难以重构的像素对距离度量的过度影响。

然后通过查找给出最小权重的DFFS+DIFS的位置来查找面部图片标记中的眼睛位置。为此，尝试在面部图片标记中每个像素位置处重构本征眼尺寸的图像区域并按上文简述的计算加权的DFFS+DIFS。

此外，还使用与基于检测的方法(上文)中所用的那些旋转和缩放组相似的旋转和缩放组来增加搜索范围并允许校正检测到的面部的旋转和缩放。然后所有测试的缩放、旋转和像素位置上的最小DFFS+DIFS用来生成眼睛位置的最佳估算。

在给定缩放比例和平面内旋转发现最优本征眼位置之后，现在可以将面部与具有固定眼睛位置的模板登记。就基于检测的登记方法来说，为此只需对面部图片标记执行仿射变换。这将面部登记算法给出的眼睛位置变换成面部模板的固定眼睛位置。

面部登记结果

使用如下两组数据来测试面部登记算法：所谓的面部照片图像和所谓的测试图像。对面部照片图像执行主面部登记测试。它们都是受控环境中捕获的一组静态图像。

还对“测试”图像测试面部登记。测试图像包括利用Sony^TMSNC-RZ30^TM照相机在办公区域附近捕获的一系列跟踪的面部。使用测试图像作为面部识别中的测试组。识别期间，对照面部照片图像中的每个面部检查测试组中的每个跟踪的面部，并对照地面实测数据(ground truth)记录和检查给定阈值下的所有匹配。每个阈值在正确接受/错误接受曲线中生成不同点。

通过对面部图像执行每个面部登记算法输出的眼睛位置的视觉比较来评估结果。该技术允许估算最大眼睛定位误差，并且就每个面部登记技术的精度而言感觉不错。

所获得的图像显示对于不同的面部登记方法，眼睛定位结果非常相似。实际上，视觉检验展示在128×128个像素面部图片标记中测量的，方法之间眼睛位置上的最大差是两个像素。

面部相似度

现在将描述备选面部相似度技术，它可选地利用上述的登记技术。

在该技术中，将每个面部标记(尺寸＝64×64个像素)分成尺寸为16×16个像素的重叠块，其中每个块与其相邻块重叠8个像素，如图20所示。

首先将每个块标准化为具有零的平均值和一的方差。然后用10个本征块的组对它执行卷积，以生成10个元素的矢量，周知为本征块加权(或属性)。本征块本身是16×16个图案的组，这些图案被计算以便较好地代表可能发生在面部图像内的图像图案。在离线训练过程期间，通过对取自样本面部图像的大组的块执行主分量分析(PCA)来创建本征块。每个本征块具有零的平均值和一的方差。因为使用10个属性来代表每个块以及面部标记内有49个块，所以需要490个属性来代表该面部标记。

在该系统中，由于跟踪分量的原因，所以获取属于一个人的多个面部标记是可能的。为了利用这一点，使用一组面部标记的属性来代表一个人。这意味着较之仅使用一个面部标记，可以保持有关此人的更多信息。在该实施例中，使用8个面部标记的属性来代表一个人。正如下文所述，自动选择用于代表一个人的面部标记。比较属性来产生相似度距离测量

为了计算两个面部标记组之间的相似度距离，首先通过计算面部标记所对应的属性之间的均方误差，以将一个组的每个面部标记的每个面部与另一个组的每个面部标记比较。得到64个均方误差值，因为每个组中有8个面部标记。这样两个面部标记组之间的相似度距离是计算的64个值中最小的均方误差值。

因此如果一个组的任何面部标记较好地与其他组的任何面部标记匹配，则这两个面部标记组较好地匹配，而且具有低的相似度距离测量。可以应用阈值来检测两个面部是否(至少非常可能)来自同一个人。

为面部标记组选择标记

为了创建和维护面部标记组，从面部标记的时间上链接的跟踪中选择8个面部标记。用于选择的标准如下：

1.标记必须是由面部检测直接生成的，而非由肤色或卡尔曼跟踪生成的。此外，仅在使用前视图直方图检测到它的情况下才选择它。

2.一旦以收集到前8个标记，则按上文所述计算可从该跟踪得到的每个新标记与已有面部标记之间的均方误差。还计算和存储跟踪里每个面部标记与该跟踪的其余标记之间的均方误差。如果新获得的面部标记与面部标记组的相似度不及面部标记组的现有元素与面部标记组的相似度，则不考虑该元素，并将新的面部标记包括在面部标记组中。以此方式选择标记，由此将可能有的最大变化量插入到面部标记组内。这使面部标记组对特定个人更具代表性。

如果对于一个面部标记组收集到少于8个标记，则不使用该面部标记组来执行相似度测量，因为它未包含很多变化，因此不可能是个人的良好代表。

参考文献

应用于面部和汽车的3D对象检测的统计模型(H.Schneidermanand T.Kanade，.″A statistical model for 3D object detection applied tofaces and cars，″IEEE Conference on Computer Vision and PatternRecognition，2000)。

对象识别的局部外观和空间关系的概率建模(H.Schneidermanand T.Kanade，.″Probabilistic modelling of local appearance and spatialrelationships for object recognition，″IEEE Conference on ComputerVision and Pattern Recognition，1998)。

应用于面部和汽车的3D对象检测的统计方法(H.Schneiderman，.″A statistical approach to 3D object detection applied to faces and cars，″PhD thesis，Robotics Institute，Carnegie Mellon University，2000)。

对象检测的概率视觉学习(B.Moghaddam & A Pentland，.″Probabilistic visual learning for object detection″，Proceedings of theFifth International Conference on Computer Vision，20-23 June 1995，pp786-793)。

PCT/GB2003/005186

Claims

1.一种将从图像序列中选择的测试图像与从所述图像序列产生的参考图像组进行比较的方法，存在不止一个参考图像，所述方法包括如下步骤：

将所述测试图像分成一个或多个测试区；

对于各测试区，将所述测试区与一个或多个参考图像中的一个或多个参考区进行比较，并识别最接近地对应于所述测试区的所述参考区；以及

根据所述测试区与它们的被对应识别的参考区的比较来生成比较值；

其中，所述图像序列是视频图像序列；

所述测试图像和所述参考图像是对象的图像；和

所述方法包括使用对象跟踪算法从所述视频图像序列中选择所述参考图像的步骤，如果所述对象跟踪算法执行如下步骤则选择参考图像：

(a)检测对象的存在，所述检测具有至少一个为正确的预定概率；以及

(b)确定所检测到的对象具有合适方向。

2.如权利要求1所述的方法，其中所述比较值用来确定所述测试图像是否与所述一组参考图像相似。

3.如权利要求1或2所述的方法，其中测试区域在各参考图像中具有对应的搜索区域，由此，对于参考图像：

与所述测试区域比较的所述参考图像中的各参考区不延伸到对应于所述测试区的所述搜索区域之外；以及

如果所述测试区在所述参考图像中位于在与所述测试图像中相同的位置处，则所述测试区不延伸到所述测试区的对应搜索区域之外。

4.如权利要求3所述的方法，其中所述搜索区域小于整个参考图像。

5.如权利要求3所述的方法，其中所述搜索区域大于所述测试区。

6.如前述权利要求1所述的方法，其中所述测试区和所述参考区基本上是矩形或正方形。

7.如前述权利要求1所述的方法，其中对应于测试区的参考区具有与所述测试区相同的尺寸和形状。

8.如前述权利要求1所述的方法，其中所述将测试区与参考区进行比较的步骤包括，计算所述测试区与所述参考区之间的均方误差。

9.如权利要求8所述的方法，其中如果参考区具有所有与测试区比较的参考区中最低的均方误差，则将所述参考区识别为最接近地匹配所述测试区。

10.如权利要求1所述的方法，其中：

将所述测试区与一个或多个参考区进行比较的步骤包括将各测试区与各参考区与一组本征块组合，以生成相应的本征块权重组的步骤；以及

生成比较值的步骤包括将获得的所述本征块权重相对于所述测试图像和各参考图像进行比较以生成对应的比较值的步骤。

11.如权利要求10所述的方法，其中所述组合步骤包括用所述本征块组对所述参考区进行卷积。

12.如前述权利要求1所述的方法，包括如下步骤：

更改与测试区对应的参考区的几何属性以获得更改的参考区；以及

在所述将所述测试区与一个或多个参考区进行比较的步骤中，除了使用所述原参考区外，还使用经更改的参考区。

13.如权利要求12所述的方法，其中所述更改参考区的几何特性的步骤包括一个或多个如下步骤：

旋转所述参考区；以及

对所述参考区调整尺寸。

14.如前述权利要求1所述的方法，包括如下步骤：

更改参考图像的几何属性以获得更改的参考图像；以及

将所述经更改的参考图像包括在所述一组参考图像中。

15.如权利要求14所述的方法，其中所述更改参考图像的几何特性的步骤包括一个或多个如下步骤：

旋转所述参考图像；以及

对所述参考图像调整尺寸。

16.如前述权利要求1所述的方法，包括将所述测试图像和各参考图像进行标准化的步骤。

17.如权利要求16所述的方法，其中分别将所述测试图像和参考图像标准化为均值为零和方差为一。

18.如权利要求1的方法，其中将所述测试区与一个或多个参考区进行比较的步骤包括执行运动估算以确定参考图像内的哪个参考区最接近地匹配所述测试区的步骤。

19.如权利要求18所述的方法，其中存储运动估算参数，使得无需为后续图像比较重新计算所述运动估算参数。

20.如权利要求1所述的方法，其中所述对象是面部。

21.如权利要求1所述的方法，包括关于如下项中的至少一个来标准化所述比较过程的步骤：对象位置、对象尺寸和对象方向。

22.如权利要求21所述的方法，其中所述标准化步骤包括如下步骤：在所述测试和参考图像中的至少一个中调整所述对象位置、对象尺寸和对象方向中的至少一个，以更接近地逼近于所述测试和参考图像中的另一个的相应特性。

23.如前述权利要求1所述的方法，其中所述方法包括如下步骤：

关于通过参考图像的垂直轴来反射所述参考图像，以获得经反射的参考图像；以及

将所述经反射的参考图像包括在所述一组参考图像中。

24.一种将测试图像与两个或两个以上的参考图像组进行比较的方法，各组参考图像包括两个或两个以上的参考图像，所述方法包括如下步骤：

通过如前述权利要求的任何一项所述的方法，将所述测试图像与各组参考图像进行比较，以对于各组参考图像确定识别所述测试图像是否与该组参考图像相似的对应比较值；以及

如果所述测试图像被识别为与两个或两个以上的所述参考图像组相似，则将对应于那些参考图像组的所述比较值进行比较，以识别那些参考图像组中哪一个与所述测试图像最相似。

25.一种将一组测试图像与一组参考图像进行比较的方法，其中存在不止一个测试图像和不止一个参考图像，所述方法包括如下步骤：

如前述权利要求的任何一项所述的方法，将各测试图像与所述一组参考图像进行比较，以对于各测试图像获得对应的比较值；

将所述比较值组合以生成相似度值。

26.如权利要求25所述的方法，其中所述相似度值用来确定所述一组测试图像是否与所述一组参考图像相似。

27.一种将两个或两个以上图像的第一组与两个或两个以上图像的第二组进行比较的方法，所述方法包括如下步骤：

使用所述第一组图像作为所述一组测试图像以及使用所述第二组图像作为所述一组参考图像，根据如权利要求26所述的方法将所述第一组图像与所述第二组图像进行比较以获得第一相似度值；

使用所述第一组图像作为所述一组参考图像以及使用所述第二组图像作为所述一组测试图像，根据如权利要求26所述的方法将所述第一组图像与所述第二组图像进行比较以获得第二相似度值；以及

使用所述第一和第二相似度值来确定所述第一和第二组图像是否相似。

28.一种将从图像序列中选择的测试图像与从所述图像序列中产生的参考图像组进行比较的设备，其中存在不止一个参考图像，所述设备包括：

分割器，用于将所述测试图像分成一个或多个测试区；

识别器，用于将测试区与一个或多个参考图像中的一个或多个参考区进行比较，以及用于识别最接近地对应于所述测试区的所述参考区；以及

生成器，用于根据所述测试区与它们的被对应识别的参考区的比较来生成比较值；

其中，所述图像序列是视频图像序列；

所述测试图像和所述参考图像是对象的图像；和

所述设备包括使用对象跟踪算法从所述视频图像序列中选择所述参考图像的装置，如果所述对象跟踪算法执行如下步骤则选择参考图像：

(b)确定所检测到的对象具有合适方向。