CN101681428A

CN101681428A - 来自图像集合的合成人物模型

Info

Publication number: CN101681428A
Application number: CN200880018337A
Authority: CN
Inventors: J·S·劳瑟; P·O·斯图布勒; M·达斯; A·C·路易; D·F·麦金泰尔
Original assignee: Eastman Kodak Co
Current assignee: Eastman Kodak Co
Priority date: 2007-05-30
Filing date: 2008-05-23
Publication date: 2010-03-24
Also published as: JP2010532022A; WO2008147533A1; US20080298643A1; EP2149106A1

Abstract

一种通过构造特定人物的至少头部部分的合成模型来改善对图像中的该特定人物的识别的方法，该方法包括：获取在特定事件期间拍摄的图像的集合；识别所述集合中具有特定人物的图像；识别与所述特定人物相关联的所识别出的图像中的一个或多个特征；使用识别出的特征搜索所述集合以识别集合中的其它图像中的所述特定人物；以及使用所述特定人物的识别出的图像构造所述特定人物的头部的至少一部分的合成模型。

Description

来自图像集合的合成人物模型

技术领域

本发明涉及来自图像集合的人物的合成模型的生成和该合成模型的使用。

背景技术

随着数字拍摄的出现，消费者累积了大量的数字图像和视频的集合。每个拍摄者利用数字照相机进行的图像拍摄的平均数量每年仍在增加。因此，图像和视频的组织和检索对于典型消费者而言已经成为问题。目前，典型消费者的数字图像集合所跨越的时间长度只有几年。随着平均数字图像和视频集合所跨越的时间长度的增加，组织和检索问题也将继续增长。

用户经常希望找到包含感兴趣的特定人物的图像和视频。用户可以进行用以找到包含感兴趣的人物的图像和视频的手动搜索。然而，这是很慢的费力过程。尽管一些商用软件(例如，Adobe Album)允许用户为图像标上指示图像中的人物的标签以便稍后能够进行搜索，然而最初的标记处理仍然非常令人厌烦且耗时。

脸部识别软件假定存在标出表面实况的一组图像(即，具有相应人物标识的一组图像)。大多数消费者图像集合没有类似的表面实况组。另外，因为许多消费者图像具有多个人物，因而图像中的脸部的标记很复杂。因此，利用图像中的人物的标识简单地标记图像并没有示出图像中哪个人物与哪个标识相关联。

存在为了安全或其它目的而试图对人进行识别的多种图像处理包。一些例子如下：来自Cognitec Systems GmbH的FaceVACS脸部识别软件产品和来自Imagis Technologies Inc.和Identix Inc.的脸部识别SDK产品。这些软件包起初意图用于其中在均匀照亮、正面姿势和中性表情的情况下人物面对照相机的安全型应用。由于在个人消费者图像领域的图像中遇到的姿势、照明、表情和脸部大小的大的变化，因此这些方法不适合用于个人消费者图像。

另外，这些程序没有随着时间的过去生成执行对人物的有效识别所必需的库。随着人们年龄的增长，随着时间的过去他们的脸部改变并且他们具有若干副眼镜、多种类型的服装和各种的发型。此外，存在如下未满足的需求：需要保留与人物相关联的独特特征以提供用以随着时间的过去对人物的图像集合进行识别、标识搜索和管理的线索。

发明内容

本发明的一个目的是容易地识别感兴趣的人物和能够帮助识别数字图像集合中的图像或视频中的感兴趣的人物的特征。通过如下方法来实现该目的，该方法用于通过构造特定人物的至少头部部分的合成模型来改善对图像中的该特定人物的识别，该方法包括以下步骤：

(a)获取在特定事件期间拍摄的图像集合；

(b)识别所述集合中具有特定人物的图像；

(c)识别所识别出的图像中与所述特定人物相关联的一个或多个特征；

(d)使用识别出的特征搜索所述集合以识别集合中的其它图像中的该特定人物；以及

(e)使用所述特定人物的识别出的图像构造所述特定人物的头部的至少一部分的合成模型。

该方法具有根据给定图像集合生成可以用于搜索其它图像集合的人物的合成模型的优点。它还使得能够保留合成和特征模型以使得在人物没有在看照相机或者从照相机的角度来看头部是模糊的时能够识别该人物。

附图说明

参考附图所示的实施例来说明本发明的主题。

图1是可以实现本发明的基于照相机电话的摄像系统的框图；

图2是用于合成和提取图像片段以用于人物识别的本发明实施例的框图；

图3是用于创建数字图像集合中的人物的合成模型的本发明实施例的流程图；

图4是与事件图像相关联的一组人物简档的表示；

图5是从事件中获取的图像的集合；

图6是人物的脸部点和脸部特征的表示；

图7是通过人物和特征对事件时的图像进行组织的表示；

图8是事件数据的中间表示；

图9是事件数据组的分解表示；

图10是分解的事件数据组的可视表示；

图11是与事件图像相关联的人物简档的更新后的表示；

图12是用于构建合成图像文件的流程图；

图13是用于识别照片中的特定人物的流程图；以及

图14是用于搜索数字图像集合中的特定人物的流程图。

具体实施方式

在以下说明中，将把本发明的一些实施例作为软件程序而进行说明。本领域技术人员将容易地认识到，也可以将这种方法的等同物构造为本发明范围内的硬件或软件。

因为图像处理算法和系统是众所周知的，因此本说明书将具体针对形成根据本发明的方法的一部分的或更直接地与该方法相互协作的算法和系统。这里没有具体示出或说明的这样的算法和系统以及用于生成并以其他方式处理其涉及的图像信号的硬件或软件的其它方面可以从现有技术已知的这样的系统、算法、部件和元件中选择。假定所述说明在以下说明书中被阐述，则其所有软件实现都是常规的，并且属于这样的技术的常用手段。

图1是可以实现本发明的基于数字照相机电话301的摄像系统的框图。数字照相机电话301是数字照相机的一种类型。优选地，数字照相机电话301是便携式电池供电的装置，其足够小从而使得用户在拍摄和浏览图像时可以容易地手持。数字照相机电话301生成使用图像数据/存储器330(可以是例如内部闪存EPROM存储器或移动存储卡)进行存储的数字图像。可选地，可以使用诸如磁硬盘驱动器、磁带或光盘的其它类型的数字图像存储介质来提供图像/数据存储器330。

数字照相机电话301包括将光从场景(未示出)聚焦到CMOS图像传感器311的图像传感器阵列314上的镜头305。图像传感器阵列314可以使用众所周知的拜尔(Bayer)颜色滤片模式来提供彩色图像信息。图像传感器阵列314由定时发生器312控制，其中当环境亮度较低时该定时发生器312还控制闪光灯303以照亮场景。图像传感器阵列314可以具有例如1280列x 960行的像素。

在一些实施例中，数字照相机电话301还可以通过将图像传感器阵列314的多个像素相加在一起(例如，将图像传感器阵列314的每4列x 4行区域内的相同颜色的像素相加)以生成较低分辨率的视频图像帧从而存储视频剪辑。以规则的间隔例如使用每秒24帧的读出率从图像传感器阵列314读取视频图像帧。

通过CMOS图像传感器311上的模-数(A/D)转换器电路316将来自图像传感器阵列314的模拟输出信号放大并转换为数字数据。将该数字数据存储在DRAM缓冲存储器318中，并且随后通过由固件存储器328中所存储的固件所控制的数字处理器320对该数字数据进行处理，固件存储器328可以是闪速EPROM存储器。数字处理器320包括即使在数字照相机电话301和数字处理器320处于各自的低功率状态时也保持日期和时间的实时时钟324。

将处理后的数字图像文件存储在图像/数据存储器330中。图像/数据存储器330还可以用于将人物简档信息236存储在数据库114中。图像/数据存储器330还可以存储诸如电话号码和任务列表等的其它类型的数据。

在静止图像模式中，数字处理器320执行后面跟随着颜色和色调校正的颜色插值，以便生成渲染后的sRGB图像数据。数字处理器320还可以提供由用户选择的各种图像大小。然后，对渲染后的sRGB图像数据进行JPEG压缩，并作为JPEG图像文件将其存储在图像/数据存储器330中。JPEG文件使用在前所述的被称之为“Exif”的图像格式。该格式包括使用各种TIFF标签存储特定图像元数据的Exif应用片段。例如，可以使用分开的TIFF标签来存储拍摄图片的日期和时间、镜头f/值以及其它照相机设置，并存储图像题注(caption)。特别地，可以使用图像描述标签来存储标记。实时时钟324提供作为日期/时间元数据而被存储在每个Exif图像文件中的拍摄日期/时间值。

位置确定器325提供与图像拍摄相关联的地理位置。优选地以经度和纬度为单位来存储该位置。注意，位置确定器325可以确定与图像拍摄时间略微不同的时刻的地理位置。在这种情况下，位置确定器325可以使用来自最近时间的地理位置作为与图像相关联的地理位置。可选地，位置确定器325可以在图像拍摄时间之前和/或之后的多个地理位置之间进行插值，以确定与图像拍摄相关联的地理位置。因为位置确定器325并不总是能够确定地理位置，因此插值是必要的。例如，当在室内时，GPS接收器经常不能检测到信号。在这种情况下，位置确定器325可以使用最后成功的地理位置读取(即，在进入建筑之前)来估计与特定图像拍摄相关联的地理位置。位置确定器325可以使用用于确定图像的位置的多种方法中的任意一种。例如，可以通过从众所周知的全球定位卫星(Global Positioning Satellite，GPS)接收通信来确定地理位置。

数字处理器320还生成如在共同转让给Kuchta等人的美国专利No.5,164,831中所述可以生成的那样的低分辨率“缩略图”大小的图像，该美国专利的公开内容通过引用被合并于此。可以将缩略图图像存储在RAM存储器322中，并提供给例如可以是有源矩阵LCD或有机发光二极管(OLED)的彩色显示器332。在拍摄到图像之后，可以通过使用缩略图图像数据在彩色LCD图像显示器332上快速浏览这些图像。

通过用户控制器334来控制显示在彩色显示器332上的图形用户界面。用户控制器334可以包括用于拨打电话号码的专用按钮(例如，电话键盘)、用于设置模式(例如，“电话”模式、“照相机”模式)的控制器、包括4向控制(上、下、左、右)的操纵杆控制器以及按钮中央的“OK(确认)”开关等。

连接至数字处理器320的音频编解码器340接收来自麦克风342的音频信号，并将音频信号提供至扬声器344。这些部件既可以用于电话通话，又可以用于记录和重放与视频序列或静止图像一起的音频轨道。扬声器344还可以用于通知用户呼入的电话呼叫。可以使用存储在固件存储器328中的标准响铃音或通过使用从移动电话网络358下载并存储在图像/数据存储器330中的定制响铃音来进行上述通知。另外，振动装置(未示出)可以用于提供呼入电话呼叫的静音(例如，不可听见的)通知。

坞(dock)接口362可以用于将数字照相机电话301连接至坞/充电器364，坞/充电器364连接至通用控制计算机375。坞接口362可以符合例如众所周知的USB接口规格。可选地，数字照相机301和通用控制计算机375之间的接口可以是无线接口，诸如众所周知的蓝牙无线接口或众所周知的802.11b无线接口。坞接口362可以用于将图像从图像/数据存储器330下载至通用控制计算机375。坞接口362还可以用于将日历信息从通用控制计算机375传送到数字照相机电话301中的图像/数据存储器。坞/充电器364还可以用于对数字照相机电话301中的电池(未示出)进行再充电。

数字处理器320耦合到使得数字照相机电话301能够经由RF信道352发送和接收信息的无线调制解调器350。无线调制解调器350在射频(例如，无线)链路上与诸如3GSM网络的移动电话网络358进行通信。移动电话网络358与可以存储从数字照相机电话301上载的数字图像的照片服务提供商372进行通信。包括通用控制计算机375的其它装置可以经由因特网370来访问这些图像。移动电话网络358还连接至标准电话网络(未示出)，以便提供正常的电话服务。

图2示出本发明实施例的框图。返回简要地参考图1，可以使用图像/数据存储器330、固件存储器328、RAM 332和数字处理器330来提供如以下所述的必要的数据存储功能。简要地，该图包括包含数字图像集合102的数据库114。与图像(诸如有关图像的元数据)以及照相机有关的信息被作为全局特征246而被公开。人物简档236包括与集合中的个体有关的信息。这样的人物简档可以包含与人物的区别特征有关的关系数据库。由Edgar Frank Codd在Communications of the ACM(Vol.13，No.6，1970年6月，pp.377-87)中公开的“A Relational Modelof Data for Large Shared Data Banks”中描述了关系数据库的概念。在共同转让给Seagraves的美国专利No.5,652,880中描述了附加的人物关系数据库构造方法，该美国专利的公开内容通过引用被合并于此。图4中示出了人物简档示例。

事件管理器36使得能够通过使用拍摄时间分析器272将数字图像子集分组到相关时间段中来改善图像管理和组织。全局特征检测器242从数据库114来解释全局特征246。从而事件管理器36生成数字图像集合子组112。人物探测器108使用人物检测器110来找出照片内的人物。脸部检测器270使用局部特征检测器240来找出脸部或部分脸部。可以使用关联特征检测器238来识别与人物相关联的特征。人物识别是向集合中感兴趣的特定人物分配人物名字。这通过与显示器332和标记器104相关联的交互式人物识别器250来实现。此外，可以采用人物分类器244，以将名字标记应用于之前在集合中识别出的人物。分割和提取130使用人物提取器252支持人物图像分割254。关联特征分割258和关联特征提取器实现关联人物元素的分割和提取以作为合成模型234而记录在人物简档236中。姿势估计器260向三维(3D)模型创建器262提供用于使用3D模型创建器262创建人物的至少头部元素的表面或立体表示模型的细节。

图3是示出通过构造特定人物的至少头部部分的合成模型来改善对图像中的该特定人物的识别的方法的流程图。本领域技术人员将认识到，用于使用本发明的处理平台可以是照相机、个人计算机、在诸如因特网的网络上确定的远程计算机、打印机等。

步骤210获取在事件时拍摄的图像集合。事件可以是生日聚会、假期、家庭时刻的集合或足球游戏。这样的事件也可以被分成子事件。生日聚会可以包括蛋糕、礼物和户外活动。假期可以是与各种城市、一天中的时刻和参观沙滩等相关联的一系列子事件。图5中示出被识别为事件的图像的群集的示例。可以手动地对事件进行标记或自动地对事件进行分组。共同转让的美国专利No.6,606,411和6,351,556公开了用于通过时间事件和子事件来将图像内容分组的算法。上述专利的内容通过引用包含于此。美国专利No.6,606,411教导：事件具有一致的颜色分布，因此这些图片可能是以相同的背景拍摄的。对于每个子事件，对于一起拍摄的全部背景区域计算单个颜色和纹理表示。上述专利教导了如何将数字图像集合中的图像和视频分组为时间事件和子事件。在客观意义上使用术语“事件”和“子事件”来表示试图将用户对(与事件相对应的)具体事情的主观感知与(与子事件相对应的)这些事情的划分进行匹配的计算机居间过程的产物。通过基于图像的时间或日期群集来确定图像的集合的一个或多个最大时间差，并基于事件之间具有与所述一个或多个最大时间差相对应的一个或多个边界来将多个图像划分成事件，从而将图像的集合分类成一个或多个事件。对于每个事件，如美国专利No.6,351,556中所述，可以通过比较连续图像的颜色直方图信息来确定子事件(若有的话)。这可以通过将图像划分为多个块然后计算每个块的颜色直方图来实现。如美国专利No.6,351,556中所述，使用基于块的直方图相关性过程来检测子事件边界。在共同转让的美国专利No.6,915,011中公开了将图像自动组织成事件的另一方法，该专利通过引用包含于此。根据本发明，事件分组方法使用用于将来自组的图像分组为类似的事件的前景和背景分割。起初，将每个图像划分为多个块，从而提供基于块的图像。使用逐块比较，将每个基于块的图像分割成至少包括前景和背景的多个区域。从这些区域提取一个或多个亮度、颜色、位置或大小特征，并使用所提取的特征来估计并比较组中相继的图像中包括前景和背景的区域的相似度。然后，计算相继的图像之间的总相似度的度量，由此提供相继的图像之间的图像距离，并根据图像距离来为事件群集定界。

将图像分组为事件的另一益处在于：在事件或子事件内，很可能人物穿着相同的服装或具有相同的关联特征。相反，如果人物已换了服装，则这可能是子事件已经改变的标志。在假期期间，去沙滩的行程之后可能不久跟着是去餐馆的行程。例如，假期是超级事件，并且沙滩可以是被识别为一个子事件的穿泳衣的地方，之后跟着是着套装和领带的外出就餐。

将图像分组为事件更有利于合并(consolidate)与人物相关联的相似的照明、服装和其它特征，以在人物简档236中创建人物的合成模型234。

对集合中具有特定人物的图像进行识别的步骤212使用人物探测器108。人物探测器108使用如共同转让给Luo的美国专利No.6,697,502(其公开内容通过引用包含于此)中所述的方法来检测人物并将所获取的事件图像的集合中的每个照片中的人物计数提供给事件管理器36。

根据本发明，之后跟随着山谷算法的脸部检测算法在皮肤检测算法之后。皮肤检测使用优选颜色空间度量Lst中的颜色图像分割和预定皮肤分布。(Lee，″Color image quantization based on physics andpsychophysics，″Journal of Society of Photographic Science and Technologyof Japan，Vol.59，No.1，pp.212-225，1996)。可以通过对分割后的区域的平均颜色进行分类来获得皮肤区域。在随后的人物特征构建步骤需要概率而非二元判定的情况下，也可以保留概率值。皮肤检测方法是基于亮度和色度分量中的人物皮肤颜色分布。总之，将RGB像素值的颜色图像转换为优选的Lst度量。然后，形成3D直方图并对其进行平滑。接着，定位3D直方图中的峰值，并通过将峰值分配至直方图的每个bin(柄)来进行bin分组。基于与像素的颜色相对应的bin来对每个像素进行分类。基于人类皮肤的平均颜色(Lst)值和连接区域的平均颜色，计算皮肤概率，并且如果概率大于预定阈值，则声明为皮肤区域。

脸部检测器270基于使用局部特征检测器240在候选皮肤区域内进行的主脸部特征的检测(眼睛、眉毛、鼻子和嘴)来识别可能的脸部。由皮肤检测步骤输出的肌肤地图与其它脸部相关试探相结合，以输出对图像中的脸部位置的判断(belief)。图像中每个被识别为皮肤区域的区域设置有椭圆，其中计算椭圆的长轴和短轴，还计算椭圆外的该区域中的像素数量和不是该区域的一部分的椭圆中的像素数量。将纵横比作为长轴和短轴的比率来计算。脸部的概率是设置的椭圆的纵横比、椭圆外的该区域的面积以及不是该区域的一部分的椭圆的面积的函数。同样，可以保留概率值或将概率值与预定阈值进行简单地比较，以生成关于特定区域是否是脸部的二元判定。另外，候选脸部区域中的纹理可以用于进一步表征脸部的可能性。山谷检测用于识别脸部特征(眼睛、鼻孔、眉毛和嘴)通常所处的凹部。需要该处理来将非脸部皮肤区域与脸部区域分开。

已知在数字图像处理领域有用于检测人类脸部的其它方法。例如，Jones和Viola在″Fast Multi-View Face Detection″，IEEE CVPR，2003中描述了用于使用基于完整图像的级联推进分类器找出人类脸部的脸部检测方法。

另外的脸部定位算法使用众所周知的诸如Yuille等人在″FeatureExtraction from Faces Using Deformable Templates，″Int.Journal of Comp.Vis.，Vol.8，Iss.2，1992，pp.99-111中所述的方法。作者描述了利用模板匹配使用能量最小化以定位嘴、眼睛和虹膜/巩膜边界的方法。也可以使用如T.F.Cootes和C.J.Taylor的″Constrained active appearance models″，8th International Conference on Computer Vision，volume 1，第748-754页IEEE Computer Society Press，2001年7月中所述的主动外观模型来找出脸部特征。在优选的实施例中，使用了Bolin和Chen在2002年的Proceedings of IS&T PICS conference中在″An automatic facial featurefinding system for portrait images″中所述的基于人物脸部的主动形状模型定位脸部特征点的方法。

局部特征是对人物的定量描述。优选地，人物探测器108特征提取器106输出检测到的每个人物的一组局部特征和一组全局特征246。优选地，局部特征是基于与特定脸部特征相关联的82个特征点的位置，所述特定脸部特征是使用与前述的Cootes等人的主动外观模型相似的方法找出的。

在图6中作为示例示出脸部图像的局部特征点的可视化表示。局部特征还可以是特定特征点之间的距离或特定特征点组连成的线所形成的角度，或是用于将特征点投影到描述脸部外观的变化的主分量上的系数。

在表1中列出所使用的特征，且它们的计算是指图6中以数字示出的脸部上的点。将Arc(Pn，Pm)定义为

其中，‖Pn-Pm‖是指特征点n和m之间的欧几里德距离。这些弧长特征被除以两眼间距以在不同的脸部大小间进行归一化。点PC是位于点0和点1的质心的点(即，恰好在两眼之间的点)。这里使用的脸部测量结果是从已被示出是相关的人类脸部的模拟人体测量结果而得出的，以用于判断性别、年龄、吸引力和种族(参考Farkas(Ed.)的“Anthropometry of the Head andFace”，第二版，Raven Press，New York，1994)。

表1：比率特征的列表

名称	分子	分母
名称	分子	分母	眼睛到鼻子/眼睛到嘴	PC-P2	PC-P32
眼睛到嘴/眼睛到下巴	PC-P32	PC-P75	眼睛到鼻子/眼睛到嘴	PC-P2	PC-P32
眼睛到嘴/眼睛到下巴	PC-P32	PC-P75	头部到下巴/眼睛到嘴	P62-P75	PC-P32
头部到眼睛/眼睛到下巴	P62-PC	PC-P75	头部到下巴/眼睛到嘴	P62-P75	PC-P32
头部到眼睛/眼睛到下巴	P62-PC	PC-P75	头部到眼睛/眼睛到嘴	P62-PC	PC-P32
鼻子到下巴/眼睛到下巴	P38-P75	PC-P75	头部到眼睛/眼睛到嘴	P62-PC	PC-P32
鼻子到下巴/眼睛到下巴	P38-P75	PC-P75	嘴到下巴/眼睛到下巴	P35-P75	PC-P75
头部到鼻子/鼻子到下巴	P62-P2	P2-P75	嘴到下巴/眼睛到下巴	P35-P75	PC-P75
头部到鼻子/鼻子到下巴	P62-P2	P2-P75	嘴到下巴/鼻子到下巴	P35-P75	P2-P75
颌宽/脸宽	P78-P72	P56-P68	嘴到下巴/鼻子到下巴	P35-P75	P2-P75
颌宽/脸宽	P78-P72	P56-P68	眼间距/鼻宽	P07-P13	P37-P39
嘴到下巴/颌宽	P35-P75	P78-P72	眼间距/鼻宽	P07-P13	P37-P39

表2：弧长特征的列表

名称	计算
名称	计算	颌的弧度	Arc(P69，P81)
上眼眶的弧度	(P56-P40)+Int(P40，P44)+(P44-P48) +Arc(P48，P52)+(P52-P68)	颌的弧度	Arc(P69，P81)
上眼眶的弧度	(P56-P40)+Int(P40，P44)+(P44-P48) +Arc(P48，P52)+(P52-P68)	上嘴唇的弧度	Arc(P23，P27)
下嘴唇的弧度	Arc(P27，P30)+(P30-P23)	上嘴唇的弧度	Arc(P23，P27)

一旦人物的脸部特征被人物探测器106定位，则颜色指示(colorcue)被容易地从数字图像或视频中提取。

可选地，还可以使用不同的局部特征。例如，实施例可以基于由M.Turk和A.Pentland在“Eigenfaces for Recognition”，Journal ofCognitive Neuroscience.Vol 3，No.1.71-86，1991中所述的脸部相似度度量。通过将脸部图像投影到一组描述脸部外观的变化的主要分量函数来获得脸部描述符。通过计算通过将每个脸部投影到同一组函数而获得的特征的欧几里德距离来测量任意两个脸部之间的相似度。

局部特征可以包括诸如本征脸部、脸部测量结果、颜色/纹理信息和小波特征的若干不同特征类型的组合。可选地，还可以以诸如眼睛颜色、肤色、头发颜色/纹理和脸型的可量化描述符来表示局部特征。

在某些情况下，当人物背对照相机时，人物的脸部不可见。然而，当服装区域匹配时，可以对匹配区域上的范围使用头发的检测和分析，以提供关于人物计数以及存在于图像中的人物的身份的额外线索。Yacoob和David在“Detection and Analysis of Hair”，IEEE Trans.PAMI，2006年7月中描述了用于检测和测量头发外观以比较不同的人的方法。他们的方法产生对头发外观的多维表示，其包括头发颜色、纹理、量、长度、对称性、头发分开位置、头发覆盖的区域和发线。

对于处理视频，使用脸部跟踪技术来找出横跨视频的帧的人物的位置。在美国专利No.6,700,999中描述了另一种用于视频中的脸部跟踪的方法，其中使用运动分析来跟踪脸部。

此外，在一些图像中，存在对这些算法能够识别的人物的量的限制。限制通常是由于图片中的人物的有限分辨率。在这种情况下，事件管理器36可以评价对该事件来说重要的多个人的相邻图像，或者跳转到手动输入计数的模式。

一旦对图5中的每个图像中的多个相关人物的计数建立起来，则事件管理器36建立将相关数据合并到事件的在图7、图8和图9示出的事件表264。这样的数据可以包括图像编号、每个图像的人物编号。另外，可以在不知道人物是谁的情况下确定每个图像内的每个人物的头部、头部姿势、脸部、头发和关联特征。在图7中，建立在图4中的人物简档236中所示的先前事件数据的基础上，将事件编号分配为3371。

如果图像包含数据库114没有记录的人物，则交互式人物识别器250显示识别出的脸部，其中在图像中具有围绕该脸部的圆圈。因此，如在前述美国专利No.5,652,880中所述，用户可以用名字或任何其它类型的数据来标记脸部。注意，与术语“标记”相同意思地使用术语“标签”、“题注”和“注释”。然而，如果人物已出现在先前图像中，则可以检索与该人物相关联的数据，以使用如图4第1行所示那样的人物简档236数据库114(其中数据被分成多个种类)利用先前识别出的人物分类器244算法中的任一种算法来进行匹配。这样记录的区别是人物身份、事件编号、图像编号、脸型、脸部点、脸部/头发颜色/纹理、头部图像片段、姿势角度、3D模型和关联特征。集合中的每个先前识别出的人物与在以前的图像中检测到的头部数据和关联特征具有联系。此外，也将所生成的图像群集的合成模型234与名字和关联事件识别符相结合地进行存储。使用该数据，人物分类器244识别集合中具有特定人物的图像。返回到图5的图像1，使用82点脸部模型或本征脸部模型不能识别左边的人物。第二个人物具有82个可识别的点和本征脸部结构，然而在图4所示的人物简档236中没有该人物的匹配数据。在图像2中，人物确实符合到作为属于Leslie的数据组“P”的脸部模型的连接。图像3和图像4中右边的人物也与Leslie的脸部模型集合“P”相匹配。图8中示出该事件数据的中间表示。

在步骤214中，对所识别出的图像中与特定人物相关联的一个或多个独特特征进行识别。关联特征是存在可以使他们成为独特的、与人物相关联的任何对象。这样的关联特征包括眼镜、服饰描述等。例如Wiskott在“Phantom Faces for Face Analysis”，Pattern Recognition，Vol.30，No.6，pp.837-846，1997中描述了用于检测脸部上的眼镜的存在的方法。关联特征包括与眼镜的存在和形状相关的信息。

简而言之，人物分类器244可以测量与两个或更多个人物相关联的特征组之间的相似度以确定人物的相似度，从而确定人物是相同的可能性。通过测量特征子组的相似度来完成特征组的相似度的测量。例如，当关联特征描述服装时，使用以下方法来比较两组特征。如果图像拍摄时间差较小(即，少于几个小时)，并且如果对服装的定量描述在两组特征的每一组中是相似的，那么增大了两组局部特征属于同一个人的可能性。另外，如果对于两组局部特征服饰都具有独特或特殊的图案(例如，具有大的绿、红和蓝斑纹的衬衫)，则相关联的人是同一个人的可能性甚至更大。

可以以不同的方式表示服饰。可以使用Zhu和Mehrotra的美国专利No.6,480,840中所述的颜色和纹理表示以及相似度。在另一表示中，Zhu和Mehrotra在美国专利No.6,584,465中描述了一种特定想要用于表示和匹配诸如在纺织品中找到的图案的图案的方法。该方法是颜色不变的，并且使用边缘方向的直方图作为特征。可选地，从服饰斑纹图像的边缘映射或傅立叶变换系数得到的特征可以用作用于进行匹配的特征。在计算基于边缘和基于傅立叶的特征之前，将斑纹归一化成相同大小，以使边缘的频率相对被摄体离照相机/变焦镜头的距离不变。计算将检测到的脸部的两眼间距变换为标准两眼间距的乘法因子。由于根据两眼间距计算斑纹大小，因而服饰斑纹然后通过该因子被子采样或扩展以与标准大小的脸部相对应。

针对每个服饰图案计算独特性量度，每个服饰图案确定匹配或不匹配对人物的总体匹配得分的贡献。将独特性作为图案独特性和颜色独特性的总和来计算。在斑纹的傅立叶变换中，图案的独特性与高于阈值的傅立叶系数的数目成比例。例如，普通斑纹和具有单一等距条纹的斑纹分别具有1个(仅dc)和2个系数，因此具有低的独特性得分。图案越复杂，描述它所需要的系数的数目越大，且它的独特性得分也越高。通过从人物图像的大数据库学习服装中出现特定颜色的可能性来测量颜色的独特性。例如，穿着白衬衫的人的可能性比穿着橙色和绿色衬衫的人的可能性要高得多。可选地，在不存在可靠可能性统计的情况下，由于饱和颜色比较稀少且也可以更明确地进行匹配，因而颜色独特性是基于它的饱和度的。这样，利用图像的拍摄时间所拍摄的服饰相似度或相异度以及服饰的独特性对于人物分类器244识别感兴趣的人物是重要的特征。通过从人物图像的大数据库学习特定服装出现的可能性来测量关联特征独特性。例如，穿着白衬衫的人的可能性比穿橙色和绿色格子衬衫的人的可能性要高得多。这样，利用图像的拍摄时间所拍摄的服饰相似度或相异度以及服饰的独特性对于人物分类器244识别感兴趣的人物是重要的特征。

当对人物分配一个或多个关联特征时，可能必需附加的验证步骤来确定独特性。所有孩子穿着足球制服是可能的，因而在这种情况下，只能通过数字、脸部以及眼镜或者也许鞋子和袜子进行区分。一旦识别出独特性，则唯一地存储这些特征。一个实施例是在正面图中从脸部的中心开始环顾人脸部的四周。可以将痣添加到脸颊。可以将珠宝附加到耳朵，纹身或妆容和眼镜可以与眼睛、前额和脸部相关联，帽子可以在头部的周围或上面，围巾、衬衫泳装或外套可以在头的周围和下部，等等。附加测试可以为以下测试：

a)相同图像内的两个人包含相同的关联特征，但是具有不同的特征(因此排除了同一个人的镜像图像以及使用这些相同的关联特征作为独特特征。)

b)在包含相同关联特征的所有图像中至少两个人物的不同脸部的至少两个正匹配(因此排除这些关联特征是作为独特特征的。)

c)在不同图像中但具有基本不同的服饰的相同人物的正匹配。(这是人物穿着新的服装的信号，表示可以由事件管理器36结合数据库114中的人物简档236来进行记录和校正的不同的事件或子事件)

在图5所示的并且记录在图8第7列中的图像的示例中，将辫子标识为Leslie的独特关联特征。

步骤216是使用识别出的特征搜索剩余图像以识别特定人物的特定图像。利用人物的每个正面图，可以从图像文件中提取独特特征并在剩余图像中进行比较。一副眼镜在前视图和侧视图中可能是明显的。头发、帽子、衬衫或外套在所有视图中都可能是可见的。

可以根据对象的类型以各种方式来匹配与特定人物相关联的对象。对于包含多个部分或片段的对象(例如，自行车、汽车)，Zhang和Chang在the Proc.of IEEE CVPR 2006中描述了被称为随机属性关系图(Random Attributed Relational Graph，RARG)的模型。在该方法中，使用随机变量的概率密度函数来获取部分外观和部分关系的统计，从而产生具有表示对象部分的可变数量的节点的图。该图用来表示和匹配不同场景中的对象。

用于不具有特定部分和形状的对象(例如，服饰)的方法包括低水平对象特征，诸如可以用于匹配的颜色、纹理或基于边缘的信息。特别地，Lowe在International Journal of Computer Vision，Vol.60，No 2.，2004中描述了表示任何图像中的感兴趣的边缘和角落的尺度不变特征(scale-invariant feature，SIFT)。Lowe还描述了用于即使当图像的其它部分改变且图案的尺度和方向存在变化时也使用SIFT来匹配图案的方法。该方法可以用来匹配服装、帽子、纹身和珠宝中的区别性的图案。

SIFT方法还可以用于局部特征。Luo等人的“Person Specific SIFTfeatures for Face Recognition”发表在“Proceedings of the IEEEInternational Conf.on acoustics，speech and Signal Processing(ICASSP)，Honolulu，Hawaii，2007年4月15-20”。作者使用人物特定的SIFT特征和与有关关键点群集的局部和全局相似度相结合的简单的非统计匹配策略来解决脸部识别问题。

还存在专门用于找出诸如眼镜的特定的经常出现的对象的其它方法。Wu等人在IEEE Transactions on PAMI，Vol.26，No.3，2004中描述了用于自动检测并定位眼镜的方法。他们的工作使用Markov-chainMonte Carlo(马尔可夫链蒙特卡罗)方法来定位眼镜框上的关键点。一旦已经检测到眼镜，则可以使用Berg等人在IEEE CVPR 2005中描述的方法来在图像间表征并匹配它们的形状。该算法通过将对象上的关键点之间的相关性建立作为整数二次规划问题的解来找出该相关性。

返回参考如图8所述的图5中的事件图像的集合，使用颜色和纹理映射来分割和提取图像形状，辫子可以为图像1和5中的Leslie提供正匹配。此外，与Leslie的头发颜色和纹理以及服装颜色和图案相关联的数据组Q可以为特定人物提供关联特征的图像间的侧面赋值的确认。

在Lesilie的该示例中，在检测到这些类型的独特的关联特征时，人物分类器244对该特定人物标记之前标记过的身份。

步骤218用于从包含特定人物的识别出的图像分割然后提取头部元素和特征。在这种情况下，使用在自适应贝叶斯颜色分割算法中所述的技术(Luo等人，“Towards physics-based segmentation of photographiccolor images，”Proceedings of the IEEE International Conference on ImageProcessing，1997)，来分割和提取与身体和头部相关联的元素。该算法用来生成任意形状的可处理的多个物理相干区域。尽管该分割方法是优选的，然而可以理解，在不背离本发明的范围的情况下，本领域普通技术人员可以使用不同的分割方法来获得任意形状的对象区域。任意形状区域的分割提供以下优点：(1)对对象的大小、形状、位置以及对象间的空间关系的精确测量；(2)对对象的颜色和纹理的精确测量；以及(3)对关键物体的精确分类。

首先，获得将图像分成区域的对图像的初始分割。通过编辑图像的颜色直方图然后将直方图划分成与图像中的区别性的显著颜色相对应的多个群集，来实现该分割。根据如(Luo等人，“Towards physics-basedsegmentation of photographic color images，”Proceedings of the IEEEInternational Conference on Image Processing，1997)中所述的相对于颜色群集的平均值的优选的基于物理的颜色距离度量，将图像的每个像素分类到颜色空间中最接近的群集。该分类处理导致对图像的初始分割。相邻窗口位于每个像素处，以确定对于该像素使用什么相邻像素来计算局部颜色直方图。将窗口的大小初始地设置为整个图像的大小，从而局部颜色直方图与整个图像的颜色直方图相同，并且不需要重新计算。

接着，在两个交替的处理之间进行迭代过程：基于当前的分割重新计算每个颜色类别的局部平均值，并根据颜色类别的更新后的局部平均值对像素进行重新分类。执行该迭代过程，直到达到收敛为止。在该迭代过程期间，可以逐渐调整空间约束的强度(例如，表示空间约束的强度的β值随着每次迭代而线性增大)。在对于特定的窗口大小达到收敛之后，用于估计颜色类别的局部平均值的窗口减小一半大小。对减小后的窗口大小重复该迭代过程，以允许对颜色类别的局部平均值的更精确的估计。该机制适应性地将空间引入分割处理。最终，当对于最小的窗口大小迭代过程达到收敛时，获得对图像的分割。

上述分割算法可以扩展到执行纹理分割。代替使用颜色值作为分割的输入，使用纹理特征来执行利用相同框架的纹理分割。纹理特征的示例类型是小波特征(R.Porter和N.Canagaraj ah，“A robust automaticclustering scheme for image segmentation using wavelets，”IEEETransaction on Image Processing，vol，

5，pp.

662-665，1996年4月)。

此外，为了联合地基于颜色和纹理特征执行图像分割，由颜色值和小波特征组成的组合输入可以用作所述方法的输入。联合的颜色和纹理分割的结果是均匀的颜色或纹理的分割区域。

因此，从头部和身体提取图像片段连同各个关联特征，并通过名称将其归档在人物简档236中。

步骤220是使用识别出的元素和提取出的特征以及图像片段来构造人物头部的至少一部分的合成模型。合成模型234是与图像集合相关联的人物简档236信息的子集。合成模型234可以被进一步定义为由包含人物的头部和身体的所提取的至少各种视图的复杂相关部分组成的概念整体。合成模型234可以进一步包括从特定人物得出和与特定人物相关联的特征。这些特征可以包括定义特征，诸如：服饰、眼镜、珠宝、耳部附件(助听器，电话配件)、纹身、妆容、脸部毛发、诸如痣、疤的脸部缺陷以及假肢和绷带。通常将服饰定义为人穿着的服装。服饰可以包括：衬衫、裤子、裙子、短裙、鞋子、短袜、袜子、泳装、外套、无边帽、围巾、手套、帽子和制服。该颜色和纹理特征通常与服饰物品相关联。颜色和纹理的组合通常称为样品(swatch)。将样品特征分配至一件普通服饰的图标或图形表示可以引起这样的服饰物品的可视化，就好像它属于识别出的人物的衣橱一样。创建服装物品的目录或库可以引起对识别出的人物的颜色偏好的确定。这样的偏好可以用来生成和增强人物的人物简档236，其可以进一步用于提供由识别出的简档人物购买的相似或补充物品。

帽子可以是随意的头部遮盖物，或者它们可以是专用于诸如棒球的特定活动的。头盔是帽子的另一形式且可以表示人物加入特定运动。在大多数运动的情况下，团队标志印在帽子上。在共同转让的美国专利No.6,958,821中教导了对这些标志的识别，该专利的公开内容通过引用包含于此。使用这些技术，可以增强人物简档236且使用该简档来向人物提供与他们的优选运动和优选团队相关联的附加商品或服务。项链也可以具有与风格和文化相关联的特征图案，从而增强用户的简档。它们可以反映关于颜色或风格或任意数量的其它偏好的个人品味。

在步骤222中，使用交互式人物识别器250和人物分类器244继续人物识别，直到在事件时所拍摄的图像集合中分类了所有可识别人物的脸部为止。如果John和Jerome是兄弟，则脸部相似度可能需要用于人物识别的额外分析。在家庭照片领域中，脸部识别问题需要在少量选择(典型地10s以内)中找到给定脸部的正确类别(人物)。这种多类别脸部识别问题可以通过使用成对分类范例来解决；其中，对每对类别设计两级分类器。使用成对方法的优点是两个人物之间的实际区别独立于数据组中的其他人而被探测，从而使得可以找到最能区分特定的个体对的特征或特征权重。在家庭照片领域中，数据库中的两个人物之间经常存在类同之处，从而使得该方法更适合。数据库中的主要特征的较少数目也使得可以使用该方法。该方法已经由Guo等人(IEEE ICCV 2001)示出以相比于使用所有脸部的相同特征组的标准方法改善脸部识别性能。他们注意到的另一个观测结果是当使用成对方法时获得相同水平的性能所需的特征数量要比使用全局特征组时的特征数量小得多。一些脸部对可以使用仅一个特征来完全分离，并且大多数需要小于10％的全部特征组。由于所使用的特征针对特定个体之间的主要差异，因此这是被期待的。合成模型234的好处在于其使得广泛多样的脸部特征用于分析。另外，由于独特特征，可以通过适应性系统在趋势出现时认出该趋势。另外，头发可以有两种模式，一种颜色以及然后另一种，一组脸部毛发然后另一组。通常，这些趋势局限于多模式分布。被分组成事件的图像的合成模型中能够支持这几个模式。

在数据库中具有N个主要个体的情况下，需要N(N-1)/2个两级分类器。对于每对，分类器使用为该特定对提供最大区别的来自全体特征的加权特征组。这允许不同的特征组用于不同的人物对。该策略不同于对所有脸部比较使用单个特征空间的传统方法。如在特性区分实验中报告的那样，人类视觉系统还可能采用不同的特征以在不同对之间进行区分。这在人试图在长相非常相似的人物例如双胞胎之间进行区分时更明显。可以使用特定特征在双胞胎之间进行区分，该特定特征不同于用于在不同对之间进行区分的特征。当询问脸部图像到达时，它经过N(N-1)/2个分类器。对于每一个分类器Φ_m，n，如果将该询问分类为类别m，则输出为1，如果将该询问分类为类别n，则输出为0。可以以若干方式来组合成对分类器的输出。最简单的方法是将询问脸部分配到取得N(N-1)/2个分类器中最多选票的类别。这仅需要对每个类别m计算选票

并将该询问分配到具有最多选票的类别。假定Φ_m，n是与Φ_n，m相同的分类器。

可以从通常用于脸部识别的任意特征中选取所使用的脸部特征组，包括本征脸部、Fishface(费雪脸部)、脸部测量结果、伽柏(Gabor)小波以及其他(在ACM Computing Surveys，2003年12月中，Zhao等人对脸部识别技术进行了广泛调查。)还存在可以用于成对两级分类问题的多种分类器。“助推(boosting)”是用于将弱分类器的集合进行组合以形成更强的分类器的方法。这在本发明中是优选的方法，因为诸如(Freund和Schapire在Eurocolt 1995中所述的)AdaBoost的大边际分类器找到提供训练数据的两个类别之间的最佳分离的决定策略从而得到良好的普遍能力。该分类策略在我们的申请中是尤其合适的，因为不可能得到导致需要来自消费者的广泛的手动标记的一大组经标记的训练示例。

在示例中，John对于脸部点和本征脸部具有匹配，并且人物分类器将该人物命名为John。用户通过使用交互式人物识别器250将具有脸型y、脸部点x和脸部头发颜色和纹理z的不确定的人物识别为Sarah。可选地，可以使用人物分类器244，利用来自位于其它计算机、照相机、因特网服务器或移动存储器上的不同数据库的数据来识别Sarah。

在来自图5中的事件的图像的示例中，新衣服与Sarah相关联，并且新裤子与John相关联。这是事件可能已经改变的标志。为了进一步对图像分类成事件进行细化，事件管理器36修改图9所示的事件表264，以生成新的事件编号3372。结果，图9中的事件表264现在包括人物标识，并且在图10中示出更新后的图像群集。图9中的数据可以被添加至图4，从而导致如图11所示的更新后的人物简档236。注意，在图11中的第8-16行第6列，已经针对Leslie的脸部/头发颜色/纹理改变了数据组。通过将该数据包含在人物简档236中，可以对于每个事件改变头发颜色。

合成模型包括：用于稍后的检索的特定人物的头部的所存储的部分；确定具有特定人物的所识别出的每个图像中的头部的姿势；或者创建特定人物的头部的三维模型。参考图12，提出了合成模型的构建的流程图。步骤224用于集合来自事件的特定人物头部的至少一部分的片段。这些片段可以单独地用作合成模型，并且从事件表264或人物简档236获取这些片段。步骤226用于确定每个图像中的人物头部的姿势角度。头部姿势是增强视觉系统的能力以处理脸部图像的重要视觉指示。该步骤可以在识别人物之前或之后进行。

头部姿势包括三个角度分量：偏航、俯仰和横摇。偏航是指头部围绕垂直轴转向右侧或左侧的角度。俯仰是指头部围绕横轴向上点头或向下点头的角度。横摇是指头部围绕与额状面垂直的轴向右或向左倾斜的角度。偏航和俯仰被称为面外旋转，这是因为脸部对准的方向相对于额状面改变。相反，横摇被称为面内旋转，这是因为脸部对准的方向相对于额状面没有改变。共同转让的美国专利申请公开号2005/0105805描述了对象的面内旋转的方法，并且该申请通过引用包含于此。

用于姿势估计的基于模型的技术通常再现来自图像的个体的3-D头部形状，然后使用3-D模型来估计头部的方位。在Shimizu等人的“HeadPose Determination from One Image Using a Generic Model，”ProceedingsIEEE International Conference on Automatic Face and Gesture Recognition，1998中公开了示例性的基于模型的系统，该内容通过引用包含于此。在所公开的系统中，首先为3-D模型定义边缘曲线(例如，眼睛、嘴唇和眉毛的轮廓)。接着，在输入图像中搜索与在模型中定义的曲线相对应的曲线。在建立模型中的边缘曲线和输入图像中的边缘曲线之间的对应性之后，通过利用各种姿势角度迭代地调整3-D模型并确定展示出与输入图像最接近的曲线拟合的调整，来估计头部姿势。将展示出最接近的曲线拟合的姿势角度确定为输入图像的姿势角度。因此，合成3-D模型的人物简档236是用于继续进行的姿势估计的重要工具，姿势估计使得能够细化3-D模型并改善人物识别。

用于姿势估计的基于外观的技术可以通过将个体头部与已知方向的脸部的一堆模板图像相比较来估计头部姿势。该个体头部被认为共享与其最接近地类似的模板图像相同的方向。一种示例性系统是由S.Hiyogi和W.Freeman的“Example-based head tracking.Technical ReportTR96-34，MERL Cambridge Research，1996”所提出的系统。

其它基于外观的技术可以采用神经网络或支持向量机(SupportVector Machine)或其它分类方法，以对头部姿势进行分类。这样的方法的示例包括：“Robust head pose estimation by machine learning，”CeWang；Brandstein，M.Image Processing，2000.Proceedings.2000International Conference on Volume 3，Issue，2000第210-213页vol.3。另一个这样的示例为：“Multi-View Head Pose Estimation using NeuralNetworks，”Michael Voit，Kai Nickel，Rainer Stiefelhagen，The 2ndCanadian Conference on Computer and Robot Vision(CRV′05)pp.347-352。

步骤228用于构造特定人物头部的三维表示。在图10中识别出的三个人物的头部示例的情况下，存在Leslie的三个不同的视图，以生成充分的3D模型。图像中的其它人物具有用于模型创建的一些数据，但是它将不如Leslie的数据那样精确。可以对一些提取特征进行镜像和标记，这样以用于合成模型创建。然而，John的人物简档236将具有来自与该事件相结合的更早的事件的、可以用于生成合成3D模型的更早的图像。

三维表示有利于随后的搜索和人物识别。这些表示对于与人物讲述、推演和动画相关联的体现有用。可以与姿势估计数据以及照明和阴影工具相结合地从各种视图生成这些三维模型的系列。从GPS系统得到的照相机角度能够实现一致的照明，因此改善了3D模型创建。如果人在外面，那么如果照相机相对于阳光指向相同的方向则照明就可以是类似的。此外，如果对于人物的若干视图而言背景是相同的，则如在事件管理器36中建立的那样，可以假定类似的照明。同样期望在短的时间段内根据人物的多个视图而编译3D模型。利用基于人物的不同前视图的可互换表情可以将这多个视图集成到3D模型中。

可以从一个或多个图像来生成3D模型，其中精确度随着与大小足以提供充分分辨率的头部大小相结合的图像的数量而增加。在共同转让的美国专利No.7,123,263；7,065,242；6,532,011；7,218,774；以及7,103,211中说明了3D建模的一些方法，上述专利的内容通过引用包含于此。本发明利用使用网格多边形或基线参量或通用头部模型的阵列的已知方法。将纹理映射或头部特征图像部分应用于所生成的表面，以生成模型。

步骤230用于存储作为与特定人物身份相关联的合成图像文件，其中至少一个元数据元素来自事件。这使得能够在照片集合中的事件上生成一系列合成模型。这些合成模型对于根据年龄、发型或服装来将特定人物的外观分组是有用的。如果在图像集合中存在大的时间间隙，则可以变换具有相似姿势角度的图像部分以填入时间隙中。随后，这可以有助于在从时间隙添加照片时对人物的识别。

转到图13，用于识别照片中的特定人物的流程图说明了合成模型的使用。

步骤400用于接收特定人物的照片。

步骤402用于搜索头部特征和关联特征以用于特定人物的匹配。

步骤404用于确定图像中的人物头部的姿势角度。

步骤406用于按照姿势角度搜索人物简档中的所有人。

步骤408用于确定接收到的照片的表情并搜索人物数据库。

步骤410用于将3D合成模型旋转到所接收到的照片中的姿势。

步骤412用于确定所接收到的照片的照明并再现以照明3D模型。

步骤414用于在集合中搜索匹配。

步骤416是对照片中的人物的识别，手动的、自动的或提议识别。

图14是合成模型的另一个用途的用于在数字图像集合中进行特定人物的搜索的流程图。

步骤420用于接收对特定人物的搜索请求。

步骤422用于显示特定人物的所提取的头部元素。

步骤424用于根据日期、事件、姿势、角度、表情等组织显示。

本领域技术人员将会认识到，可以对本发明的说明书进行多种变形，而不显著背离本发明的范围。

部件列表

36 事件管理器

102 数字图像集合

104 标记器

106 特征提取器

108 人物探测器

110 人物检测器

112 数字图像集合子组

114 数据库

130 提取和分割

210 框

212 框

214 框

216 框

218 框

220 框

222 框

224 框

226 框

228 框

230 框

234 合成模型

236 人物简档

238 关联特征检测器

240 局部特征检测器

242 全局特征检测器

244 人物分类器

246 全局特征

250 交互式人物识别器

252 人物提取器

254 人物图像分割器

258 关联特征分割器

260 姿势估计器

262 3D模型创建器

264 事件表

270 脸部检测器

272 拍摄时间分析器

301 数字照相机电话

303 闪光灯

305 镜头

311 CMOS图像传感器

312 定时发生器

314 图像传感器阵列

316 A/D转换器电路

318 DRAM缓冲存储器

320 数字处理器

322 RAM存储器

324 实时时钟

325 位置确定器

328 固件存储器

330 图像/数据存储器

332 彩色显示器

334 用户控制器

340 音频编解码器

342 麦克风

344 扬声器

350 无线调制解调器

352 RF信道

358 电话网络

362 坞接口

364 坞/充电器

370 因特网

372 服务提供商

375 通用控制计算机

400 框

402 框

404 框

406 框

408 框

410 框

412 框

414 框

416 框

420 框

422 框

424 框

Claims

1.一种通过构造特定人物的至少头部部分的合成模型来改善对图像中的该特定人物的识别的方法，该方法包括：

(a)获取在特定事件期间拍摄的图像的集合；

(b)识别所述集合中具有特定人物的图像；

(d)使用识别出的特征搜索所述集合以识别所述集合中的其它图像中的所述特定人物；以及

2.根据权利要求1所述的方法，其中所述特征包括服饰。

3.根据权利要求1所述的方法，其中所述合成模型包括：

(i)稍后搜索用的所述特定人物的头部的所存储的部分；

(ii)确定具有所述特定人物的所识别出的每个图像中的所述头部的姿势；

(iii)创建所述特定人物的头部的三维模型。

4.根据权利要求3所述的方法，还包括：存储所识别出的特征以用于搜索随后的集合。

5.根据权利要求3所述的方法，还包括：使用所述合成模型(i)或(ii)来搜索其它图像集合以识别所述特定人物。

6.根据权利要求5所述的方法，还包括：使用所存储的识别出的特征来搜索其它图像集合以识别所述特定人物。

7.根据权利要求3所述的方法，还包括：使用所述合成模型(ii)并提取头部特征，并使用这样的提取出的头部特征来搜索其它图像集合以识别所述特定人物。

8.根据权利要求7所述的方法，还包括：使用所存储的识别出的特征来搜索其它图像集合以识别所述特定人物。