CN102165464A

CN102165464A - 用于对视频内容中的人进行自动注释的方法和系统

Info

Publication number: CN102165464A
Application number: CN2009801357210A
Authority: CN
Inventors: 杰伊·亚格尼科; 赵铭
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2008-07-14
Filing date: 2009-07-14
Publication date: 2011-08-24
Also published as: EP2318979A1; JP2011528150A; JP5602135B2; KR101640268B1; US20100008547A1; EP2318979B1; WO2010008520A1; KR20110036934A; US8213689B2; JP2014146367A

Abstract

公开了一种对视频内容中的人进行自动注释的方法和系统。在一个实施例中，一种识别视频中的脸部的方法包括阶段：从输入视频流生成脸部轨迹；为每个脸部轨迹选择关键脸部图像；对所述脸部轨迹进行聚类以生成脸部集群；从所述脸部集群创建脸部模型；并且将脸部模型与脸部模型数据库相关联。在另一个实施例中，一种用于识别视频中的脸部的系统包括具有脸部条目的脸部模型数据库以及视频脸部识别器模块，所述脸部条目具有脸部模型和对应名称。在又另一个实施例中，所述用于识别视频中的脸部的系统还可以具有脸部模型生成器。

Description

用于对视频内容中的人进行自动注释的方法和系统

技术领域

本发明涉及识别视频内容中的人。

背景技术

互联网拥有包括文本、图像和视频的各种不同类型的大量内容。利用该内容要求所述内容是能够搜索且经过组织的。通常基于用户手工分配的标签搜索和组织图像。类似地，通常基于手工分配的标签搜索和组织视频内容。

然而，在向大量可在互联网上获得的视频内容手工分配标签时保持一致性是不切实际的。例如，每个视频可具有相当的长度并且可以包括出现在视频不同部分中的许多人。视频可以根据姿势、表情、照明、遮挡(occlusion)和质量而有所不同。这就需要相当数量的人为努力来以视频中出现的每个人的名称对视频准确加标签。对内容加标签的手工方法无法扩展到大量可在互联网上获得的内容。

对一般的对象识别的当前方法包括：使用图像搜索引擎找到与给定查询相关的图像并接着学习用于各种对象的相关模型，所述模型接着被用于图像和视频中的对象检测/识别。然而，这些方法并未解决单个人的脸部在大型数据集合中所表现出来的实质性变化，并且无法稳健地识别属于同一个人但是由于包括年龄、化妆、表情、光线条件等方面而具有实质性变化的脸部。其它方法自动提取脸部的判定坐标并且应用聚类步骤来使用新闻存档估计可能的标记。然而，直接基于脸部的判定坐标的集群并未解决图像序列中所出现的噪声问题。

因此，需要基于在视频中出现的人的脸部自动对视频内容进行注释的方法和系统。

发明内容

在一个实施例中，一种计算机实现的识别视频中的脸部的方法包括以下阶段：从输入视频流生成一个或多个脸部轨迹；为所述一个或多个脸部轨迹中的每一个选择关键脸部图像；对所述脸部轨迹进行聚类以生成脸部集群，其中每个脸部集群与一个或多个关键脸部图像相关联；从所述脸部集群创建脸部模型；以及将脸部模型与脸部模型数据库相互关联。

在另一个实施例中，一种用于识别视频中的脸部的系统包括组件：具有脸部条目的脸部模型数据库，所述脸部条目具有脸部模型和对应名称；以及视频脸部识别器模块，所述视频脸部识别器模块可以包括：脸部检测模块，其检测输入视频流中的脸部；脸部追踪模块，其对所检测的脸部进行追踪并生成脸部轨迹；轨迹内脸部聚类模块；轨迹间脸部聚类模块；检测脸部模型生成器模块；和模型比较模块，其将所检测的脸部模型与数据库中的脸部条目进行比较。

在又另一个实施例中，一种用于识别视频中的脸部的系统包括脸部模型生成器，所述脸部模型生成器具有组件：名称生成模块，其生成名称列表；图像搜索模块，其定位与所述名称列表相对应的图像；脸部检测模块；脸部模型生成模块；收集模块，其成对地存储一个或多个脸部模型和相应名称；和一致性学习模块。除了检测脸部模型和名称对之外，所述收集模块还可以存储从用户输入所得出的脸部模型和名称对。

以下参考附图对本发明的其它特征和优势及其各种实施例的结构和操作进行详细描述。应注意，本发明不局限于这里所描述的特定实施例。这些实施例仅是出于说明的目的而在此给出。基于这里所包含的教导，其它实施例对于相关领域的技术人员将是显而易见的。

附图说明

将参考本发明的实施例，其示例可以在附图中进行图示。这些图意在进行说明而非限定。虽然本发明总体上在这些实施例的背景下进行描述，但是应当理解的是，并非意在将本发明的范围局限于这些特定实施例。

图1是根据本发明一个实施例的系统示图。

图2示出了根据本发明实施例的脸部模型生成器模块的组件。

图3示出了根据本发明实施例的视频脸部识别模块的组件。

图4示出了实现本发明实施例的计算机实现的方法的高层级流程图，包括模型构建阶段和视频脸部识别阶段。

图5示出了根据本发明实施例的图4中的模型生成阶段的更详细操作。

图6示出了根据本发明实施例的对应于一个人的脸部模型条目的结构。

图7示出了根据本发明实施例的图4中的视频脸部识别阶段的更详细操作。

图8是根据本发明实施例的图7中的脸部检测和追踪阶段的详细操作示图。

具体实施方式

虽然在这里参考特定应用的说明性实施例对本发明进行描述，但是应当理解的是，本发明不局限于此。本领域技术人员根据这里的教导将会认识到其范围以及本发明将在其中具有显著效用的其它领域之内的额外修改、应用和实施例。

随着视频记录设备的广泛可用促成的内容增多以及互联网所提供的连接，能够获得日益更大的视频集合。通过使用互连的网络和共享的视频集合，单独用户在任何时候都可以访问分布在全世界的人们所创作的有关各种主题的大型视频集合。为了利用这些大型集合中所包含的信息，有必要以方便搜索的方式来结构化所述集合。能够自动利用例如视频中所出现的人的名称之类的信息对这些大型视频集合进行自动注释的系统将是有用的。该公开中的方法和系统使得可以使用例如互联网上的大型文本和图像库集用于以最少的人工干预自动将名称和脸部相关联，并接着得出用于视频内容中的脸部的稳健识别的脸部模型集合。所得出的模型集合能够被用于视频内容的自动识别和注释以使得视频内容的可搜索性更强。例如，可以对名人或者针对其可获得足够信息以进行关联的流行人物开发模型。

系统组件

图1示出了根据本发明实施例的系统100，其能够利用诸如在视频中出现的流行人物的名称之类的信息自动对视频进行注释。视频处理器模块101利用连接设备131耦合到系统接口130。系统接口130可以是位于与视频处理器模块101相同的计算平台上的用户接口或应用编程接口，或者例如web客户端的远程用户接口。相应地，连接设备131可以使用例如外设部件互连(PCI)总线、以太网或无线通信标准的连接方法。

视频处理器模块101还可以访问视频库集114、图像库集112和文本库集110。库集114、112和110中的一些或全部可以通过网络140进行访问，所述网络140例如类似互联网的广域网(WAN)或局域网(LAN)，或者可以本地位于在用户自己的系统上。库集114、112和110均可以包括共址或分布的一个或多个库集。在一些实施例中，库集114、112和110可以部分或全部共址。视频处理器模块101可以通过任何连接141耦合到网络140，所述连接141例如包括PCT总线、以太网和无线通信标准，但是不局限于此。视频库集114可以包括任意长度和任意视频格式的视频片段，所述视频格式例如包括运动图像专家组(MPEG)标准、音频视频交错(AVI)、QuickTime和Windows媒体视频(WMV)，但是不局限于此。所述视频片段包括具有一个或多个人的视频。图像库集112可以包括以诸如JPEG、TIFF和PNG的任意图像格式的图像。图像库集112包括人的图像。文本库集110例如包括可本地和/或通过互联网访问的文本存档。可获得的文本存档可以包括例如ASCII文本、PDF文本和其它文本形式，但是不局限于此。

视频处理器模块101还通过连接142耦合到脸部模型数据库121和注释视频数据库123。脸部模型数据库121包括由视频处理器模块101至少部分基于可在图像库集112中获得的图像而生成的脸部模型。以下将参考图5对这样的脸部模型生成进行进一步描述。数据库121可以包括每个所表示的人的一个或多个脸部模型。其还可以包括额外信息，诸如附着到所述人或该人的脸部图像的名称或其它标签。注释视频数据库123包括主要来自视频库集114的在视频处理器模块101中的处理期间被加以注释的视频。如本公开中所使用的，“数据库”是指数据元素的任意集合，以及相关联的存储和访问机制。连接142可以使用一种或多种连接方法，例如PCI总线、以太网和无线通信标准。

视频处理器模块101可以包括若干组件，包括脸部模型生成器模块102、视频脸部识别模块103、视频注释器模块109、模型更新器模块107和查询模块105。视频处理器模块101以及子模块102、103、105、107和109中的一些或全部可以以软件、硬件或其任意组合来实现。例如，模型生成器模块102可以实现为中央处理器单元(图1中未示出)上的可执行代码。在另一实施例中，模型生成器模块102可以以诸如现场可编程门阵列的硬件组件来实现。本领域技术人员将会理解的是，视频处理器模块101可以在一个或多个平台中实现。

脸部模型生成器模块102可以构建从图像库集112中和视频库集114中的图像所选择的脸部的模型。模块102还可以确定其脸部图像要被建模的人的集合。例如，在一个实施例中，对文本库集110进行分析以得出最为流行的人的列表并且定位他们中的每一个的脸部的一个或多个图像。新闻存档可以是组合的文本库集110和图像库集112，并且对人名在所述新闻存档中的出现频率的分析可以生成最频繁出现的名称的列表。许多最频繁出现的名称可以与具有在一个或多个新闻文章中被提及名称的人的脸部的图像相关联，并且由此可以被用作起始点来得到那些被提及名称的人的脸部图像的模型。从来自图像库集112和视频库集114的这些或其它匹配图像所得出的脸部模型接着可以被存储在脸部模型的数据库121中。

视频脸部识别模块103使用脸部模型从视频库集114检测和识别脸部，所述脸部模型包括来自脸部模型数据库121的脸部模型。以下将参考图7和图8对视频流中的脸部识别进行更为详细的解释。当在视频库集114的视频流中检测和识别了脸部时，模块103能够连同视频注释器模块109一起利用已知与其脸部被识别的人相关的信息对所述视频进行注释。例如，数据库121中与相应图像相关联的名称和标签可以被用于所述注释。经注释的视频或其部分能够接着被存储在注释视频数据库123中。

在本发明的一些实施例中，模型更新器模块107可以被用于基于对图像库集112和视频库集114新的添加对数据库121中的脸部模型进行更新。其还可以通过添加由视频脸部识别模块103所识别的脸部来更新数据库121中的脸部模块。根据增加数目的图像更新数据库121中的可用脸部模型可以提高对具有覆盖姿势、光线条件等范围的多个图像的人的脸部识别的可靠性。而且，在一些实施例中，查询模块105可以被用于利用注释视频数据库123中的视频信息。例如，查询模块105可用协同外部模块来搜索包括指定人的出现的视频片断或视频片断部分的集合，并且使得那些视频片断可被所述外部模块所访问。例如，以这种方式，对于特定人的标准浏览器搜索可以被增强以呈现具有指定人的至少出现一次的视频轨迹。

图2示出了脸部模型生成器模块102的组件。名称列表生成器模块201获取要对其生成脸部模型并存储在脸部模型数据库121中的人的列表。例如，名称列表生成器模块201可以访问例如文本库集110的外部文本库集以确定最频繁出现的名称的列表。图像搜索器模块203将至少一个图像与模块201所生成的名称列表中的每个名称相关联。例如，图像库集112中的一个或多个图像可以作为关于与其名称出现在模块201所生成的名称列表上的名人的报纸文章的一部分。利用文章包括图像提供了由图像搜索器模块203所检测的关联。使用感兴趣的人的名称列表以及与那些名称相关联的图像，脸部检测器模块205对每个图像进行处理以检测对应于相关联名称的脸部。脸部建模器模块207根据所检测的对应于单个名称的一个或多个脸部创建一个或多个脸部模型。模型收集器模块209收集对应于相同人的所有脸部模型。一致性学习模块211为每个相关联的名称选择一个或多个脸部模型，并且过滤掉被认为弱匹配的脸部模型。

回到图1，脸部模型数据库121包含包括在数据库中的每个人的一个或多个脸部模型。在脸部识别中使用多个模型提高了系统的准确度。多个脸部模型能够表示同一人的不同外貌、不同光线条件、不同环境等。对于同一人在大型图像和视频内容集合中的脸部可以预见到脸部表情、脸部附属物、年龄、光线条件等方面非常大的变化。与每个脸部模型和/或同一人的每个脸部模型群组相关联的可以是包括所述人的名称的一个或多个标签。

在图3中根据本发明实施例示出了视频脸部识别模块103的组件。视频脸部检测器模块301检测到来视频中的脸部。在检测器模块103检测到脸部之后，脸部追踪器模块303对到来视频流中的脸部进行追踪。脸部追踪器模块303能够为模块301所检测并接着由模块303所追踪的每个脸部创建一个或多个轨迹。轨迹内聚类模块305接着对所生成的轨迹进行处理以基于每个轨迹创建脸部集群。例如，如果单个人的脸部由于脸部表情、诸如墨镜之类的脸部附属物、不同光线条件等而在外貌上存在实质性变化，则由于其即使在单个轨迹的持续中也存在许多变化，所以需要多个脸部模型来准确捕捉脸部。轨迹内聚类模块305根据特定脸部中所检测到的变化水平而对每个视频轨迹中所追踪的每个脸部收集一个或多个脸部图像。轨迹间聚类模块307使用脸部图像的轨迹内聚类创建集群。轨迹间聚类模块307能够组合来自分立轨迹的相似集群，以为视频中所检测到的每个人创建脸部图像集群的一个集合。

以轨迹间聚类模块307所生成的脸部图像集群作为输入，视频脸部模块生成器模块309生成与为每个人选择的一个或多个图像相对应的脸部模型。所生成的新的脸部模型例如可以存储在脸部模型数据库121中。例如，拥有涵盖各种表情、光线条件等的多个脸部模型通常会使得更易于可靠检测视频或图像库集中脸部的出现。模型比较模块311取得新生成的脸部模型，并且可以确定存储额外模型是否有益。模块311将新生成的脸部模型与数据库121中所存储的一个或多个模型进行匹配，并且由此将新生成的脸部模型与数据库121中所存储的一个或多个标签相关联，所述标签可能包括人的名称。使新检测的脸部与先前存储在数据库121中的信息相关联，模块311可以便利注释模块109利用诸如相关联的人的名称和/或标签中所包含的其它信息对视频轨迹或分段进行注释。经注释的视频可以存储在注释视频数据库123中。随着新的脸部模型被添加到脸部模型数据库121中，可以使用例如一致性学习算法的验证和过滤算法来创建或更新脸部模型。

生成和更新脸部模型

图4是示出根据本发明实施例的两个主要处理阶段的流程图。脸部模型生成阶段401包括构建和更新诸如数据库121的脸部模型数据库。视频脸部识别阶段402包括使用现有脸部模型数据库检测和识别视频中的脸部。脸部模型生成阶段401的实施例进一步被分解为图5所示的组成阶段。阶段401可以使用包括图2所示的那些组件来实现。视频脸部识别阶段402的实施例一步被分解为图7所示的组成阶段。步骤402可以使用包括图3所示的那些组件来实现。

图5是图示根据本发明实施例的创建脸部模型数据库中的示例性处理阶段的流程图。在阶段501中，确定名称集合，其中针对每个名称，阶段401将试图确定一个或多个相应的脸部模型并且将这些脸部模型存储在诸如脸部模型数据库121的数据库中。可以基于诸如在文本和图像库集中最频繁出现的名称的标准来确定名称列表，所述文本和图像库集例如是当前的新闻存档。这样的选择标准通常可以产生最流行名称的列表，例如名人。自动生成的名称列表可以被手工或程序编辑以添加新的名称、删除现有名称或者修改现有名称。例如，在一个实施例中，可以将用户最密切的朋友的名称添加到所述名称列表中。用于确定源集合中最频繁出现的名称的文本分析方法是本领域已知的。

在阶段502中，搜索图像库集112以收集与所述名称列表中的每个名称相关联的多个图像。如之前所提到的，本发明的实施例可以利用完全或部分整合的文本和图像库集来操作。例如，可以使用图像标题或其中嵌入图像的文章来获得名称和相关联图像之间实质上明确的关联。在本发明的实施例中，可以假设名称和图像之间的关联，诸如在新闻文章中频繁出现的名称与同一文档中出现的图像的关联。例如，诸如以上所描述的新闻文章中的名称和图像之间的松散关联通常可以被认为是弱且具有噪声的文本—图像相关联数据。随着相应文本库集的大小相对于图像库集的大小增加，将名称与图像可靠相关联变得更加困难。然而，诸如可在互联网上访问的文本和图像库集的大小和多样性允许使用这些弱且具有噪声关联作为脸部图像到名称的关联的初始估计。

在阶段503中，对阶段502中找到的每个图像执行脸部检测。图像中的脸部检测方法是本领域已知的。在图像产生仅一个检测脸部的情况下，检测脸部和相应名称之间的关联可以是明确的。在本发明的一些实施例中，当图像产生多个检测脸部时，可以假设相应名称和每幅检测脸部之间的关联。针对单个人的关联的判定例如可以留到阶段506。在一些实施例中，具有多于预定数目的检测脸部的图像可以被排除在用于本发明的目的之外。在一些实施例中，可以使用诸如将最突出的脸部图像与相应文档中最频繁出现的名称相关联的方法。本领域技术人员将会理解的是，有多种方式来形成文本样本中所出现的名称和相应图像之间的松散初始关联。在本发明的一个实施例中，用户可以提供包括人的脸部的一个或多个图像以及相应的名称或文本标签。这些用户提供的图像和名称对也可以被添加到脸部数据库以便进一步处理。

对于阶段503中所检测的每个脸部，在阶段504中生成一个或多个特征矢量。特征矢量描述了所检测到的脸部的特定属性，以使得能够使用相应特征矢量对两个脸部图像进行比较。为脸部图像生成特征矢量的方法是本领域已知的。例如，在题为“Identifying Images Using Face Recognition”的美国专利申请公开No.2008/0130960中描述了对图像库集搜索具有名称的人并对所找到的图像进行处理。

在阶段505中，所述特征矢量与相应的人名相关联存储。例如，可以将包括其它相关联的标签信息的特征矢量和相应名称对存储在诸如脸部图像数据库121的数据库中。图6图示了本发明一个实施例中的脸部图像数据库121中的条目的示例。对于特定人A，表示该人的脸部图像的所有特征矢量601可以与包括该人A相关联的名称的文本标记或标签相关联。本领域技术人员将会理解的是，存储数据的其它形式是可能的。

在阶段506中，对特定人的特征矢量进行处理以减少为被可靠地认为属于该特定人的脸部模型集合和/或特征集合。为每个人保留的脸部模型的数量是可以变化的，并且主要取决于诸如脸部表情、年龄、脸部附属物、光线条件等的图像条件的变化。在本发明的一些实施例中，应用诸如一致性学习的猎获(bagging)技术来提取每个所表示的人的脸部模型集合。例如，在题为“Graph Based Sampling”的美国专利申请11/840139中对一致性学习进行了详细描述。

检测和追踪视频中的脸部

图7更为详细地图示了根据本发明实施例的视频脸部识别阶段402。在阶段701接收视频。例如，视频可以在本地接收、通过网络接收或者从诸如视频播放设备或视频记录设备的外部源接收，但是不局限于此。该公开的教导应用于任意视频格式的视频，例如包括MPEG、AVI、QuickTime、WMV等。在阶段702，对到来的视频流执行脸部检测和追踪。在本发明的一个实施例中，使用基于增强分类器的级联扩展的正面脸部检测。使用增强分类器的级联的正面脸部检测在Proceedings of the IEEE ICCV Workshop on Statistical and Computational Theories of Vision，Vancouver，Canada(2001年7月)中P.Viola和M.Jones的“Robust Real time object detection”中有所描述，。

在本发明的一些实施例中，对每个所检测的脸部交替和定期使用脸部检测和脸部追踪。由脸部追踪过程所指导的定期执行脸部检测有助于减少计算负荷，原因在于脸部检测在计算上通常比脸部追踪更加密集。为了提高脸部追踪的可靠性，本发明的一些实施例可以使用基于脸部特征的追踪，其中对从每个脸部图像的特征集合选择的特征集合进行追踪。基于脸部特征的追踪能够可靠地确定脸部是否能够被追踪。

图8是本发明一个实施例中阶段702的详细操作的图示。在阶段802中，观察每个到来的视频帧801以确定是否为镜头边界。镜头边界检测被用来减少跨不同镜头的追踪。镜头是来自一个相机的帧的连续序列。存在若干不同类型的镜头边界或镜头间转换，例如包括切出或淡出。切出是在单个帧中出现的突然镜头改变。淡出是通常导致固定黑色帧或以其开始的亮度逐渐变化。许多其它类型的逐渐转换也是可能的。在针对镜头边界检测的文献中描述了许多技术。如果帧被确定为镜头边界帧，则在脸部检测阶段803检测该帧中的人脸时将对所述帧进行处理。当阶段803成功时，可以在阶段806中开始新的脸部特征追踪器。脸部追踪器可以被实现为主要用于随视频进行追踪分配的脸部的单独处理线程。诸如阶段806中创建的脸部追踪器产生输出并且在诸如脸部模型数据库121的存储中记录追踪结果。

当在阶段802中确定当前视频帧不是镜头边界时，阶段808接着决定是否对所述视频帧执行脸部检测。预期使用脸部追踪来减少对每个帧实现脸部检测而会导致的计算负荷。基于脸部特征的追踪系统能够对每个帧有效确定是否能够继续进行追踪。当阶段808中的决定为使用脸部检测时，就在阶段809中开始脸部检测。如果在阶段809中检测到脸部，则必须在阶段811中确定所检测的脸部当前是否正在被追踪。如果阶段809中所检测的脸部当前正在被追踪，则在阶段812中试图恢复现有的相应追踪器。如果在阶段813中确定现有追踪器无法被阶段813，则在阶段806中创建并激活新的追踪器。如果阶段809中的脸部检测失败，则在阶段814中试图使用现有追踪器。在阶段815中，确定现有追踪器是否可以在阶段814中使用。在阶段816中终止阶段815中失败的每个现有追踪器。

如果在阶段808中确定没有必要对当前视频帧进行脸部检测，则在阶段817中试图恢复每个现有脸部追踪器。如果在阶段818中确定追踪器激活失败，则在阶段819中实现进一步检查以确定是否能够检测到追踪器。在阶段816中终止阶段819中无法检测的追踪器。否则，针对那些在阶段819中仍然能够检测到的追踪器，在阶段820中创建并激活新的追踪器。阶段807中针对每个输入视频帧所接收的结果可以被记录或存储以供进一步处理。

返回图7，已经对视频进行了脸部检测和追踪，在阶段702中为每个追踪选择代表性脸部图像的集合。在阶段702中的脸部检测和追踪之后，脸部可以由脸部轨迹来表示，其中在一个实施例中，每个轨迹是连续视频帧中相同人的脸部序列。考虑到诸如可在互联网上访问的可广泛获得的视频库集，通常情况下视频的质量差。在阶段703中选择每个视频追踪中的关键脸部图像能够明显减少视频库集114中包括的较低质量视频的影响。可以在选择视频追踪内的关键脸部图像集合时使用例如分级聚类和/或k均值(k-means)聚类的基于聚类的算法。为了将脸部划分到集群之中，可以使用两个图像之间的距离。两个脸部图像之间的距离可以基于从脸部特征点所提取的选定局部Gabor特征。在聚类之后，每个集群将包括同一人根据姿势、遮挡和质量的不同脸部。为了减少噪声，在本发明的一些实施例中，可以丢弃具有少于预定数量的脸部图像的集群。在另一实施例中，由于基于非正面脸部的识别较为不可靠，所以可以丢弃具有非正面脸部图像的集群或脸部图像。

同一个人可以在单个视频中出现多次。在阶段704中，实现轨迹间聚类以使得能够一起考虑具有同一人的图像的轨迹。在对轨迹进行聚类时，距离量度可以基于阶段703中选择的每个轨迹中的关键脸部的相似度。例如，两个集群之间的距离可以由第一轨迹的关键脸部与来自第二轨迹的关键脸部之间的最大相似度来定义。也可以在该阶段中使用分级聚类算法对轨迹进行聚类。在轨迹内集群被聚类为轨迹间集群之后，可以对每个轨迹间集群中的关键脸部图像集合进行进一步处理从而丢弃非必要或重复的图像。

接下来，处理阶段705对阶段704中创建的每一个集群实现脸部识别。在本发明的实施例中，可以使用多数投票算法和概率投票算法的组合来选择每个脸部图像的标识。在多数投票算法中，选择集群内出现最为频繁的标识。在概率投票算法中，还要考虑标识关联的置信度。因此，在概率投票算法中，选择具有最高置信度分值的标识。在本发明的一个实施例中，这可以通过引入稻草人(straw person)来实现，所述稻草人表示在所考虑的脸部模型集合中没有相应图像的人。例如，考虑通过k最近相邻算法被识别为具有置信度c(f_i)的人p(f_i)的每个关键脸部f_i(其中脸部轨迹集群的关键脸部集合为{f_i，f₂，...f_N})。接着对于所有识别的人p_j∈{p(f_i)}中的每个人，关键脸部被识别为p_j的次数为N(p_j)，即

N (p_{j}) = Σ_{i = 0}^{N} &PartialD; (p (f_{i}), p_{j})

其中

是指标函数，在两个自变量相匹配时为1，否则为0。p_j的平均识别置信度为C(p_j)，即

\overset{&OverBar;}{C} (p_{j}) = \frac{1}{N} Σ_{i = 0}^{N} &PartialD; (p (f_{i}), p_{j}) * C (f_{i})

如果那些参数达到了预先确定的阈值以上，则具有最大N(p_j)和的标识可以被识别为该轨迹集群的标识。如果没有达到预先确定的阈值，则集群标识未知。

在阶段705中识别了人的脸部之后，可以使用先前对相应的一个或多个脸部所得出的关联对视频进行注释。例如，脸部模型数据库121可以将每个所存储的模型与能够被用来对新处理的视频分段进行注释的人名和/或其它信息相关联。例如，诸如视频注释模块109的模块可以与视频脸部识别模块103协作以提供注释。

例如存储在注释视频数据库123中的视频的经注释视频可以被用来在查询响应中提供额外信息。例如，在本发明的一个实施例中，通过名称对人的搜索能够检索指向所述人在其中出现的特定视频分段的链接或者在整个视频中的出现时间的指示。在另一实施例中，所存储的信息可以被用来为搜索响应中所提供的附带链接提供缩略图图像。例如，查询模块105可以通过提供对应于与搜索查询相关的所识别的人的匹配图像片段或视频片段来与外部搜索应用进行协作。

应理解的是，旨在使用具体实施方式部分而不是发明内容和摘要部分对权利要求进行解释。发明内容和摘要部分可以给出如发明人所预见到的本发明的一个或多个而并非所有的示例性实施例，因此并非意在以任何方式对本发明和所附权利要求进行限制。

以上已经借助于对其特定功能及其关系的实施方式进行说明的功能构建块对本发明进行了描述。为了描述的方便，在此对这些功能构建块的边界进行了任意定义。只要指定功能及其关系被适当执行，也可以定义替选的边界。

以上对特定实施例的描述将完全揭示本发明的一般性质，通过应用本领域技术人员的知识，其他人无需不必要的实验就能够容易地对这些特定实施例的各种应用进行修改和/或改变，而并不背离本发明的一般概念。因此，基于这里所给出的教导和指引，这样的改变和修改意在处于所公开实施例的等同形式的含义和范围之内。应理解的是，这里的措辞或术语是出于描述而非限制的目的，从而该说明书的术语或措辞应由本领域技术人员借助于所述教导和指引进行解释。

本发明的宽度和范围不应当由以上所描述的任意示例性实施例进行限制，而是仅应当依据权利要求及其等同物来限定。

Claims

1.一种计算机实现的识别视频中的脸部的方法，包括：

(a)从至少一个输入视频流生成一个或多个脸部轨迹；

(b)为所述一个或多个脸部轨迹中的每一个选择一个或多个关键脸部图像；

(c)对所述一个或多个脸部轨迹进行聚类以生成一个或多个脸部集群，其中每个脸部集群与至少一个所述关键脸部图像相关联；

(d)从所述一个或多个脸部集群创建一个或多个脸部模型；以及

(e)将至少一个所述脸部模型与脸部模型数据库相互关联。

2.如权利要求1所述的计算机实现的方法，其中生成一个或多个脸部轨迹包括：

(i)检测所述至少一个输入视频流中的脸部；以及

(ii)对所述至少一个输入视频流中的所述脸部进行追踪。

3.如权利要求2所述的计算机实现的方法，其中在所述输入视频流的持续期间每隔一段时间重复所述检测和追踪。

4.如权利要求1所述的计算机实现的方法，进一步包括：

(f)使用来自所述脸部模型数据库的数据对至少一个输出视频流进行注释。

5.如权利要求4所述的计算机实现的方法，进一步包括：(i)对所述至少一个输出视频流中的至少一个脸部轨迹进行注释。

6.如权利要求1所述的计算机实现的方法，其中相互关联包括使用多数投票算法将所述一个或多个脸部集群与所述脸部模型数据库相互关联。

7.如权利要求1所述的计算机实现的方法，其中相互关联包括使用概率投票算法将所述一个或多个脸部集群与所述脸部模型数据库相互关联。

8.一种用于识别视频中的脸部的系统，包括：

(a)具有脸部条目的脸部模型数据库，所述脸部条目包括脸部模型和对应名称；以及

(b)视频脸部识别器模块，包括：

(i)脸部检测模块，检测输入视频流中的脸部，生成一个或多个检测的脸部；

(ii)脸部追踪模块，对所述一个或多个检测的脸部中的至少一个进行追踪并生成一个或多个脸部轨迹；

(iii)轨迹内脸部聚类模块，使用所述一个或多个脸部轨迹生成一个或多个轨迹内脸部集群；

(iv)轨迹间脸部聚类模块，使用所述一个或多个轨迹内脸部集群生成一个或多个轨迹间脸部集群；

(v)检测脸部模型生成器模块，使用所述一个或多个轨迹间脸部集群对所述一个或多个检测的脸部生成一个或多个检测脸部模型；和

(vi)模型比较模块，将所述一个或多个检测脸部模型与所述脸部条目进行比较。

9.如权利要求8所述的系统，进一步包括：

(c)脸部模型生成器，其中所述脸部模型生成器包括：

(i)名称生成模块，生成名称列表；

(ii)图像搜索模块，定位具有与所述名称列表中的一个或多个相应名称相关联的至少一个脸部的一个或多个图像；

(iii)脸部检测模块，检测所述一个或多个图像中的一个或多个目标脸部；

(iv)脸部模型生成模块，其对所述一个或多个目标脸部中的至少一个生成一个或多个脸部模型；

(v)收集模块，其成对存储所述一个或多个脸部模型和所述一个或多个相应名称；和

(vi)一致性学习模块，其中从所述一个或多个脸部模型选择一个或多个代表性脸部模型，并且其中所述一个或多个代表性脸部模型被存储在所述脸部模型数据库中。

10.如权利要求9所述的系统，其中基于在一个或多个远程位置可访问的文档中的名称生成名称列表。

11.如权利要求10所述的系统，其中文档包括web文档。

12.如权利要求8所述的系统，进一步包括：

(d)脸部模型更新模块，基于所述检测的脸部更新所述脸部模型数据库。

13.如权利要求8所述的系统，其中所述脸部模型数据库包括一个或多个条目，所述条目包括一个或多个脸部图像以及一个或多个相应的文本标签，其中每个条目表示一个实体。

14.如权利要求13所述的系统，其中所述脸部模型数据库进一步包括用户直接输入的一个或多个条目，包括一个或多个脸部图像以及一个或多个相应的文本标签。

15.如权利要求8所述的系统，其中所述脸部追踪模块包括基于脸部特征的脸部追踪器。

16.如权利要求8所述的系统，其中所述轨迹内聚类包括去除噪声集群。

17.如权利要求8所述的系统，其中所述轨迹间聚类包括去除噪声集群。

18.如权利要求8所述的系统，其中所述脸部检测模块被定期调用并且所述脸部追踪模块针对由所述脸部检测模块检测的脸部而被调用。

19.如权利要求8所述的系统，进一步包括：

(e)视频注释模块，对所述输入视频流进行注释产生经注释的输出视频流。

20.如权利要求8所述的系统，进一步包括：

(f)查询模块，将用户查询与所述脸部模型数据库中的一个或多个条目相关联。