CN101473207B

CN101473207B - 使用多种类型的输入对人进行标识

Info

Publication number: CN101473207B
Application number: CN2007800228730A
Authority: CN
Inventors: C·张; P·A·沃拉; P·尹; R·G·柯特勒; X·孙; Y·瑞
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2006-06-22
Filing date: 2007-02-13
Publication date: 2013-03-27
Anticipated expiration: 2027-02-13
Also published as: US20120278077A1; DK2035799T3; EP2035799B1; EP2035799A4; WO2008016392A2; EP2035799A2; CY1113152T1; KR20090031512A; CA2653278C; US8024189B2; US20070297682A1; PL2035799T3; CN101473207A; PT2035799E; BRPI0711800A2; WO2008016392A3; US8510110B2; US8234113B2; RU2008150475A; US20110313766A1

Abstract

公开了以自动化方式检测人或说话者的系统和方法。可标识包括多于一种类型的输入(如音频输入和视频输入)的特征池，该特征池可与学习算法一起使用来生成标识人或说话者的分类器。可评估所得到的分类器以检测人或说话者。

Description

使用多种类型的输入对人进行标识

背景

存在多种多样期望使用至少部分自动化的系统标识人(包括正在说话的人)的情形。一些标识说话者的现有系统使用音频——例如，他们可能使用“声源定位”，这包括处理来自不同位置的多个话筒的输入来尝试标识语音起源的一或多个方向。一些其它系统尝试通过执行“决策级融合(decision level fusion)”来提高如声源定位的方法的精确性，其中在作出有关人或说话者检测的决策时将来自多个输入的数据组合起来。

概述

下面呈现本公开的简化概述以便为读者提供基本的理解。本概述不是本公开的详尽概观，并不标识本发明的关键或重要元素或者描绘本发明的范围。其唯一目的是以简化形式呈现本文公开的一些概念作为稍后呈现的更详细的描述的序言。

本文描述的是针对人(包括说话者)的标识的各种技术和技术方法。这样的技术和技术方法包括对来自包括音频和视频两者的多种类型的输入或者模态(计算系统可通过其识别输入的路径)()的标识“特征”池的标识；以及“分类器”的生成，分类器包括来自特征池的特征子集，其中选择这些特征子集使得分类器能高效地标识人或说话者可能存在的区域。

附图描述

图1例示示出其中可完成人检测的一个系统的示例性概图。

图2例示一个示例性图象以及可标识为包含人或说话者的示例性区域的图形表示。

图3例示包含可在标识人时执行的各种操作的示例性概括操作流。

图4例示示出可在一些实现中标识和使用的一些示例性特征的示例性概图。

图5例示一些示例性视频特征。

图6例示包括一些示例性视频特征的代表性示例性特征矩形。

图7例示示出其中可完成用于人或说话者检测的分类器的生成的一个系统的示例性概图。

图8例示示出其中可完成人或说话者的检测的一个系统的示例性概图。

图9例示可用作检测人或说话者的过程的一部分的检测窗口的一些示例性表示。

图10例示其中可实现本文描述的各种技术的示例性计算机设备。

详细描述

本发明延及针对人(包括说话者)的标识的各种技术和方法。更具体地，本文描述了促进使用多种类型的输入对人进行标识的方法和系统，其中设想在检测过程的开始时而非检测过程的结束时将多种类型的输入组合起来。

现在转到图1，其中例示的是示出其中可完成人检测的一个系统100的示例性概图。对图1的描述是参考图10作出的。然而，应当理解参考图1描述的元素并不旨在限于与参考图10描述的元素一起使用。另外，尽管图1的示例性图指示了具体的元素，但在一些实现中不是所有这些元素都存在，并且在一些实现中可存在另外的元素。

图1中包括有一或多个视频输入设备110、一或多个音频输入设备120、一或多个其它输入设备130、视频数据140、音频数据150、其它数据160、在检测器设备165中实现的人检测器170、辅助设备175以及人检测器的输出即任何检测到的人或说话者180。

检测器170接受输入，它随后可用于尝试标识一或多个人180，包括正在说话的人即说话者。检测器可使用各种机制来尝试标识人，包括在本文更详细地讨论的那些机制。在一些实现中，检测器可执行在其它地方确定的检测机制，而在其它实现中检测器可确定并执行检测机制。检测器可使用各种输入，包括视频数据140、音频数据150和其它数据160。

一或多个视频输入设备110可包括各种视频输入设备，包括具有各种具有一定功能的相机和相机类型。在一个实现中，视频输入设备110可包括以圆形排列定位的多个相机以便提供360°视图。在其它实现中，相同的360°视图可由单个可能具有单个透镜的相机来提供。在又一实现中，一或多个视频输入设备可提供覆盖小于360°范围的视图。

一或多个视频输入设备110的输出的至少一部分是视频数据140。该数据可包括视频数据的多个单帧，其中每个帧包括由多个像素构成的图象。例如，能够以每秒30个视频帧的速率产生视频的相机可每秒输出30个图象。在一些实现中，由相机产生的每个图象可称为“基图象”(以将它与其它计算得到的图象如下面说明的短期差异和长期平均图象相区别)。注意一或多个视频输入设备110可提供各种形式的数据，包括其中每个视频帧的所有像素不是地从视频输入设备显式发送的形式。例如，一或多个视频输入设备110的输出可包括单个初始视频帧，其中提供该帧中所有像素的值，并且至少一些附加的后续帧的输出可仅包括距该初始帧的变化。在该情形中，任何后续帧的逐个像素的表示可通过将这些变化应用于原始帧来确定。在任一情形中，由相机产生的每个基图象可视为包括完全的逐个像素的图象。

另外，视频数据140还可包括其它计算得到的数据。例如，在一些实现中，使用多个视频帧计算“短期差异”可能是有用的。这样的短期差异可用于例如标识运动。尽管短期差异可用各种方法来计算，但一种可能的方法是，对于图象中的每个像素，从当前帧中的像素值中减去紧接的前一帧中的像素值。同时，该方法还可从当前帧中的像素值中减去紧接的前面第二帧中的像素值。然后，可取两个减法操作的最小值作为该像素的当前值。对于没有运动存在的像素——即对于图象保持相同的区域——该方法往往将产生接近于零的值。对于最近有运动的像素，该方法在一些情形中产生远大于零的值。该特定方法可由下面的等式来表示，其中M_t是在时刻t处的短期差异图象并且I_t是在时刻t处来自相机的图象：

M_t＝min(|I_t-I_t-1|，|I_t-I_t-2|)

注意，取决于相机的帧速率，由该计算使用的“前面的”帧可以不仅是紧接的前面二个帧。例如，当使用具有每秒30帧的帧速率的相机时，可以使用10帧以前和20帧以前的帧而非紧接的前面二个帧。

在相同或其它实现中，计算视频帧的“长期平均”可能是有用的，它也可以是视频数据140的一部分。长期平均可标识由一或多个视频输入设备110捕捉的区域中先前存在过运动的部分，即使该运动在最近没有发生。尽管长期平均可用各种方法来计算，但一种可能的方法是计算短期差异图象(可能包括用先前描述的短期差异方法产生的图象)的移动平均(running average)。使用这样一种方法，长期平均视频帧可不断地更新使得帧中的每个像素由来自所有或许多前面的短期差异图象帧的该像素的平均值组成。对于由相机捕捉的区域中在捕捉该视频过程中很少有运动或没有运动的范围，该方法往往产生接近于零的值。相反，对于在过去某些时刻有运动的范围，这通常包括区域中包含人的范围，该方法往往产生非零值。

另外，在一些实现中，代替考虑根据视频数据的最近帧计算得到的图象如短期差异和长期平均，将它们设想为还包括至少一些“将来的”数据可能是有用的。例如，短期差异可能通过等待直至捕捉到下一视频帧来使用当前帧、最近的前一帧以及“下一帧”作为输入并使用这三个所标识的帧来计算短期差异。任何这样的操作可使人检测过程的至少该部分的等待时间增加捕捉附加的“将来”数据所需的时间，但在一些情形中该增加的等待时间可由计算得到的图象所最终表示的数据来弥补。

视频数据140可包括先前讨论的任何或所有图象以及附加图象或视频帧。这些图象可从各种位置提供，或者如果必要的话可计算得到，这些位置包括一或多个视频输入设备110、检测器170或任何其它设备。另外，尽管该讨论涉及“视频”，但重要的是要理解可使用任何能够产生图象的相机，包括在传统上不被视为“摄像机”的那些相机。例如，在一些实现中可使用能够按序拍摄多个照片的“静物”相机。此外，如果认为检测运动不重要，则在一些实现中可使用单个的静止图象。另外，在一些情形中可使用附加数据。例如，检测器可使用皮肤颜色作为用于标识可能包含人的区域的附加手段。

一或多个音频输入设备120可包括各种音频输入设备，包括各种具有一定功能的话筒和话筒类型。在一些实现中，一或多个音频设备可包括由位于不同位置的多个话筒构成的话筒阵列。使用来自这样一组话筒的各种信息，可能包括对话筒的不同位置的了解以及在由这些话筒检测到的声音的幅度和到达时间方面的差异，一或多个音频输入设备可提供包括声音起源的方向的数据。这样的输入有时作为称为“声源定位”(SSL)的技术方法的一部分而被包括。在一些情形中，这样的方向信息在确定说话者时是有用的。

音频数据150在一些实现中通过某种处理可包括“概率分布函数”，它提供表示可能包括说话者的语音的声音来自任何特定方向的概率的似然值。例如，如果来自一或多个音频输入设备110的信息可用于定位来自任何方向的声音，则概率分布函数(本文也称为SSL似然函数)可包含不同方位或方向的概率值。对于其中检测到很少或检测不到声音的那些方向，概率值低，而检测到较多声音的那些方向，概率值高。

在一些实现中，可能取决于音频输入设备120的能力，音频数据150可包括附加信息。例如，在一些实现中，音频数据可包括声源的范围或距离和/或声源的仰角。在一些实现中，该数据——如声源的范围和/或声源的仰角——也可与概率分布函数相关联。

音频数据150可包括先前讨论的任何或全部数据以及附加数据。该数据可从包括关联于一或多个音频输入设备120、检测器170或任何其它设备的硬件的各种位置提供，或者如果必要的话可计算得到。例如，在一些实现中可能产生SSL似然函数的声源定位可使用关联于一或多个音频输入设备的硬件来执行、可使用关联于检测器的硬件来执行或者可使用某种其它硬件或者在某个其它位置来执行。

在一些实现中，视频数据140和音频数据150可在某种程度上链接起来，使得关联于视频数据的方向可与关联于音频数据的方向相关。例如，在这样一个实现中，从一个方位到另一方位的SSL似然函数的区域可与一或多个视频帧中可能由水平像素位置标识的特定区域相关。例如，在一个实现中，从例如10°到20°的区域可与位于例如从水平像素位置100至200的像素相关。使用这样的相关性，来自一或多个音频输入设备120的信息可在标识图象中由一或多个视频设备110提供的特定区域时使用，反之亦然。对于包括附加信息如仰角的音频数据150，附加信息还可与图象中的特定区域相关。例如，仰角信息可与垂直像素位置相关。取决于这些设备的本质和操作，对任何一或多个其它输入设备130中的任何一个也可能存在类似类型的相关性。

在一些实现中，存在附加类型的输入并且可用作检测过程的一部分。在一些情形中，这些附加类型的输入可起源于一或多个其它输入设备130并且产生其它数据160的至少一部分。例如，一个可能的其它输入设备可包括三维相机，它能够提供对图象中元素的距离或深度的某种度量。

检测器170可在各种计算设备中实现，包括如所示的检测器设备165。在一些实现中，该检测器设备可包含用于实现人检测的必要硬件并且可以例如通过各种连接手段诸如USB、包括无线网络的任何各种网络等等连接到一或多个视频输入设备和一或多个音频输入设备，如本领域的技术人员所了解的。在其它实现中，检测器可用包括一或多个视频输入设备或一或多个音频输入设备诸如可能是一或多个视频输入设备110和一或多个音频输入设备120的检测器设备实现。任何检测器设备可包括各种处理元件，包括通用中央处理单元(CPU)和/或数字信号处理器(DSP)单元。下面参考图10讨论其中可实现检测器的一个示例性计算环境。

无论检测器设备165包含还是连接至如一或多个视频输入设备110、一或多个音频输入设备120和其它输入设备130的元素，检测器设备在一些实现中还可连接至一或多个辅助设备175。在该上下文中，辅助设备可以是提供可与检测器设备165相关联或者可用于检测器设备165的附加功能的任何设备。例如，在一些实现中，辅助设备可包括包含检测器设备可在其上存储捕捉的视频、音频以及可能检测到人或说话者的区域的硬盘驱动器的膝上型计算机的辅助设备。在相同或其它实现中，辅助设备可向检测器设备提供计算机处理周期，使得例如检测器设备可将其部分或全部检测处理卸载至辅助设备。在其他实现中，辅助设备可仅包括存储装置——它可以是例如USB外壳中的硬盘驱动器。通常，辅助设备可使用包括USB、任何形式的网络等连接手段连接至检测器设备。

在一些实现中，对来自不同输入设备的数据进行同步是重要的。例如，来自一或多个视频输入设备110的输入可与来自一或多个音频设备120的输入同步。

现在转到图2，其中示出了一个示例性图象200以及可标识为包含人或说话者的示例性区域的图形表示。该图形表示包括有关联于第一标识人的第一区域210、关联于第二标识人的第二区域220和第三区域230。图2的该描述是参考图1作出的。然而，应当理解参考图2描述的元素并不旨在限于与参考图1描述的元素一起使用。另外，尽管图2的示例性图指示了具体的元素，但在一些实现中不是所有这些元素都存在，并且在一些实现中可存在另外的元素。

示例性图象200可表示由可能包括先前参考图1描述的一或多个视频输入设备110的一或多个视频输入设备产生的视频中的一个帧。

在一些实现中，可能如图1的检测器170的检测器可使用表示矩形或某种其它形状的水平和物理像素位置来指示所标识的人或说话者。例如，检测器可指示第一区域210具有与人或说话者相关联的高概率。同样，并且有可能同时，它可指示第二区域220也具有与人或说话者相关联的高概率。如可通过检查图2来了解的，在第一区域210和第二区域220的情形中，这样的检测器是正确的，因为每个区域包含一个人。检测器还可将第三区域230标识为具有与人相关联的高概率——可能例如因为来自墙或其它表面的声音反射。因为检测器可仅指示特定区域与人相关联的概率，所以在一些情形中由检测器标识的区域可能实际上不包含人。检测器认为一个区域包含人的阈值或水平可取决于检测器的应用或使用来改变或定义。例如，在一些实现中，这样的阈值可以设置为某个相当高的值，这可能将限制可能与人相关联的区域的数目同时还可能限制最终被误标识的区域的数目。

示例性图象200旨在用于说明目的并且不应当解释为限制任何所要求保护的本发明的范围。同样，所标识的人和误标识的区域的表示仅说明示出标识和误标识的区域的一个图形手段。可使用表示或例示区域的任何手段。

现在转到图3，其中示出的是包括可在标识人时执行的各种操作的示例性概括操作流300。图3的以下描述是参考包括图1、图4、图8和图9的其它附图来作出的。然而，应当理解参考图3描述的操作流不旨在限制于与参考这些其它附图描述的元素一起使用。另外，尽管图3的示例性操作流指示执行的特定顺序，但在一或多个替换实施例中，这些操作的次序可有所不同。此外，尽管示例性操作流包含多个步骤，但应当认识到在一些实现中这些操作中的至少一些可组合起来或同时执行。

在操作310的一个实现中，标识特征池。然后可在执行生成分类器操作315时使用特征池作为输入。在该上下文中，特征是关联于一或多个类型的输入的实体，它用于量化在特定时刻的这一或多个输入的某个元素。存在音频特征、视频特征和关联于其它类型输入的其它特征。例如，在包括SSL似然函数的音频输入的情形中，可至少部分地由SSL似然函数的“局部”最小和最大值与同一SSL似然函数的“全局”最小和最大值的某种比较来定义(其中“局部”指整个SSL似然函数的子集的值而“全局”指整个SSL似然函数的值)。取决于SSL似然函数的值，不同的音频特征将产生不同的数值结果。适用于与可使用的这些特征有关的一些实现的一些特定细节，包括有关专用于音频和视频输入的特征的更多信息，在下面例如参考图4更详细地进行讨论。

可标识特征池的手段可根据特征和与其相关联的输入的性质而变化。标识特征以及生成这些特征的方式通常是具有适用于要为其生成的特征池的目标范围的该领域专业知识的一或多个设计者的任务。例如，至少部分地由在给出来自SSL似然函数的值时产生一个数的函数定义的音频特征的创建可能需要设计音频特征的人类设计者方面的考虑。

在一些情形中，可挑选认为提供有关人或说话者存在性的某种信息的特征。然而，重要的是注意特征不必提供特别“良好”或始终准确的结果。下面讨论的生成分类器操作315可用于通过另一过程来选择最适合于人或说话者检测的特征。

在这样的生成分类器操作315的示例性实现中，可选择在操作310中标识的特征的子集来形成“分类器”。如本文所使用的，术语“分类器”指一种实体，在向它提供输入时——在一些实现中包括如在本申请书中其它部分讨论的音频和视频输入——可提供近似结果，该结果提供对图象中的特定区域是否包含人或说话者的的某种估计。

分类器通常使用自动化过程来建立或创建。例如，在一些实现中，分类器可使用某种“学习算法”来创建，该算法包括取某个输入并且产生可分类或回答特定问题的输出的过程。所生成的分类器一般由在操作310中所标识的特征的某个子集组成，其中学习算法已经选择了该子集中的这些特征来回答关联于该分类器的问题。取决于各种需求，所选的特征能更准确、更高效地回答问题。在一些实现中，作为分类器一部分的特征可能以使得在用于检测时改进分类器的操作的方式位于分类器中。例如，可对优选的特征定序，使得如果这些特征的评估需要相对较少的计算资源或者如果与其它特征相比这些特征与人或说话者具有更高的相关性时，这些优选的特征在分类器中被较早地评估。这样的定序可通过在生成分类器时对优选的特征加权、通过在已经生成分类器之后分拣分类器中的特征或者通过其它手段来执行。适用于与使用学习算法的分类器生成有关的一些实现的一些特定细节在下面例如参考图7更详细地描述。

一旦已经在操作315中生成了分类器，就可以在操作320中使用它来标识人或说话者。一般而言，操作320的实现将诸如音频和视频的输入馈送给分类器，后者使用该输入来确定人或说话者存在的似然性。在一些实现中，一或多个视频帧可作为输入提供并且可在逻辑上细分为各种尺寸的区域，并且随后可在每个细分的区域上评估分类器。如本文所使用的，每个细分的区域可称为“检测窗口”。对于每个检测窗口，检测器可评估分类器中特征的某个数量，最终以某个置信度级别确定特定区域是否包含人或说话者的。在一些实现中，在已经针对人或说话者评估了检测窗口之后，最有希望的——在一些情形中为最有可能的——区域可被标识并且输出为包含人或说话者的区域。最有可能的区域可部分地通过挑选具有某种相对较大数量的阳性检测窗口的区域来标识。可应用于与使用分类器来标识人或说话者有关的一些实现的一些特定细节，包括检测窗口，在下面例如参考图8和图9更详细地描述。

重要的是注意，参考图3例示的操作可在各种不同的计算设备或平台中实现或执行，包括在同一实现中使用多个计算设备。例如，标识特征操作310和生成分类器操作315可关联于一或多个个人计算机设备来执行，而评估用于检测的分类器操作320可在与例如关联于生成分类器操作的一或多个设备分开的设备上执行。这在至少一个示例性实现中包括如图1所示的检测器设备165的设备。还重要的是理解一些操作可比其它操作执行较少或较多次数。例如，在一些实现中，通常要执行标识特征操作310和生成分类器操作315某个数量的次数，直至找到合适的分类器为止。随后如由操作320例示的使用该分类器实现检测的可执行代码可使用某个其它设备——包括例如适于在会议室中使用的相机设备——来实现并且随后重复地执行以实际检测说话者中的人。在其它实现中，生成分类器操作315和评估用于检测的分类器操作320都可在同一设备中实现。在这样的实现中，或者在其它实现中，生成分类器操作可针对每个使用设备的新房间或者区域来执行，并且可为每个新房间或区域产生不同的分类器。

现在转到图4，其中例示的是示出可在一些实现中标识和使用的一些示例性特征的示例性概图。图4的该描述是参考图5和图6来作出的。然而，应当理解，参考图4描述的元素不旨在限于与参考这些其它附图描述的元素一起使用。另外，尽管图4的示例性图指示了具体的元素，但在一些实现中不是所有这些元素都存在，并且在一些实现中可存在另外的元素。

示例性图400包括特征池410，它可包含音频特征420、视频特征430和其它特征450。

一般而言，音频特征是关联于某种类型的音频输入的特征。可创建音频特征以反映任意数量的各种音频参数，包括音频信号的幅度、音频信号的频率等等。

在音频数据包括SSL似然函数的环境中，音频特征可使用关联于SSL似然函数的某个信息集合。在一些实现中，基于SSL似然函数的音频特征集合可使用来自关联于每个检测窗口的SSL似然函数的值以及整个SSL似然函数的全局值。它可使用离散的时间点上的这些值——例如当前时刻(SSL数据最近可用的时刻)或者例如最后一分钟内的任何时刻——以及在某个时间段上聚合。

例如，假设SSL似然函数全局最大、全局最小以及全局平均如下计算得到：全局最大(L_max ^g)是SSL似然函数在整个SSL似然函数上的最大值；全局最小(L_min ^g)是SSL似然函数在整个SSL似然函数上的最小值；全局平均(L_avg ^g)是SSL似然函数在整个SSL似然函数上的平均值。

还假设，对于每个检测窗口，使用对应于特定检测窗口的SSL似然函数的区域来计算一些局部值(这可能要求将图象和/或检测窗口使用的坐标空间转换成SSL似然函数使用的——有可能按角度的——坐标空间)：局部最大(L_max ^l)是SSL似然函数在检测窗口中的最大值；局部最小(L_min ^l)是SSL似然函数在检测窗口中的最小值；局部平均(L_avg ^l)是SSL似然函数在检测窗口上的平均值；以及局部中间输出(L_mid ^l)是SSL似然函数在检测窗口中点处的值——例如如果检测窗口包括从10°到20°的角度，则局部中间输出可计算为SSL似然函数在15度处的值。还假设存在“其余”最大值(L_max ^rest)，它是SSL似然函数在特定检测窗口之外的最大值。

给出这些值，可通过添加至少部分地由如下面列表中的那些函数定义的音频特征420来填充特征池410的一部分：

1 . \frac{L_{\max}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}

2 . \frac{L_{\min}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}

3 . \frac{L_{avg}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}

4 . \frac{L_{mid}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}

5 . \frac{L_{\max}^{l}}{L_{\min}^{l}}

6 . \frac{L_{\max}^{l}}{L_{avg}^{l}}

7 . \frac{L_{\min}^{l}}{L_{avg}^{l}}

8 . \frac{L_{mid}^{l}}{L_{avg}^{l}}

9 . \frac{L_{\max}^{l} - L_{\min}^{l}}{L_{avg}^{l}}

10 . \frac{L_{\max}^{l}}{L_{\max}^{g}}

11 . \frac{L_{\min}^{l}}{L_{\max}^{g}}

12 . \frac{L_{avg}^{l}}{L_{\max}^{g}}

13 . \frac{L_{mid}^{l}}{L_{\max}^{g}}

14 . \frac{L_{\max}^{l} - L_{\min}^{l}}{L_{\max}^{g}}

15 . L_{\max}^{g} - L_{\max}^{l} < ϵ

(二元特征，它测试检测窗口是否包含SSL似然函数的全局峰值)

16 . \frac{L_{\max}^{l}}{L_{\max}^{rest}}

创建音频特征的另一种手段可按与先前说明相似的方式使用来自SSL似然函数的数据，但可使用来自一或多个“先前的”时间段而非只使用来自“当前”时间段的函数的数据。例如，除了创建部分由先前列出的函数定义的(其中由这些函数使用的数据是由SSL似然函数产生的最新近的数据)音频特征集合之外，可创建附加特征，其中由这些函数使用的数据来自一或多个先前的时间段。例如，全局最大(L_max ^g)值可保留SSL似然函数在整个SSL似然函数上的最大值，但可能在不同的时刻，例如1/60秒之前——使用第二最新近的SSL似然函数值。可为任意数量的先前时间段创建类似的附加特征。例如，在每1/60秒提供新SSL似然函数的环境中，可创建使用紧接的前六十(60)个SSL似然函数的特征——如果为先前列出的十六(16)个函数中的每一个创建特征，则这可导致九百六十(960)个SSL音频特征。

除了使用SSL似然函数在离散时间点处的值之外，还可创建使用从多个先前的SSL似然函数得到的某个聚合值的一些特征。例如，在一些特征中，全局最大(L_max ^g)值可定义为SSL似然函数在例如前一秒内出现的绝对最大值，而非只是如由SSL似然函数的最新近实例提供的SSL似然函数的最大值。同样，例如，全局平均(L_max ^g)可定义为SSL似然函数在某个先前的时间段内在全部SSL似然函数上的平均值。

除了使用来自先前SSL似然函数的数据之外，如果由等待捕捉将来的数据而引起的增加的等待时间是可接受的，则还有可能使用来自“将来”SSL似然函数的数据。

任何或所有这些附加特征随后可添加至同一特征池410并且在生成分类器的过程中使用。还可包括至少部分基于SSL似然函数的其它特征，或者当然包括基于其它音频数据的其它特征，或者包括与来自其它输入的其它数据组合在一起的音频数据。

可以作为特征池410的一部分的另一特征集合是视频特征420。通常视频特征可以是关联于某种类型的视频输入的任何特征。视频特征可例如对图象中的部分或全部像素进行某种数学运算，这些图象包括基图象以及可能如计算得到的短期差异和长期平均图象的其它图象。可应用于与视频图象的定义有关的一些实现的一些特定细节在下面例如参考图5和图6更详细地描述。

特征池410中还包括有其它特征450。这些其它特征450包括标识为在生成分类器时可供考虑的任何附加特征。在一些实现中，在其中存在其它类型的输入的环境中，关联于其它类型的输入的特征可以是其它特征的一部分。例如，在包括来自三维相机的输入诸如图象中的元素的距离或深度的某种度量的环境中，其它特征可包括或者独立于其它输入或者可能结合其它输入来量化该附加数据的其它特征。在相同或其它实现中，其它特征可包括一起使用其它输入的组合的特征——例如，一些特征可在相同的一或多个特征中一起使用音频输入和视频输入两者。

在其中输入提供360°视图的实现中，可实现至少一些特征使得它们“环绕”——也就是说使得某些特征考虑来自例如由特定输入提供的数据的“开始”和“末端”两者的输入。例如，在包括提供360°视图的音频输入的环境中，至少一些特征可并入例如从355°方位至5°方位的输入。这样的特征在一些情形中可捕捉恰巧位于这些输入提供的数据的“开始”和“末端”之间的边界上的人或说话者。

现在转到图5，其中示出一些示例性视频特征。图5的该描述是参考图6作出的，它讨论了使用视频特征的一些方式。然而，应当理解参考图5描述的元素并不旨在限于与参考图6描述的元素一起使用。另外，尽管图5的示例性图指示了具体的元素，但在一些实现中不是所有这些元素都存在，并且在一些实现中可存在另外的元素。

尽管视频特征可包括能够量化特定时刻的视频输入的某个元素的任何实体，但一种有用类型的视频特征是部分地由一或多个矩形形成的视频特征。一般而言，对关联于一或多个矩形中的像素的值进行求和或者以其它数学方法来处理以确定关联于特定矩形的视频特征的数值。例如，在其中每个像素或开或关(即二进制的一(1)或零(0))的黑白图象中，关联于视频特征的数值可以是例如特定矩形中开的像素或者值具有一(1)的像素之和。在图5中矩形550和矩形560在图形上示出两个可能的单矩形视频特征。在灰度级或彩色图象中，关联于特定像素的数值可相似地处理。例如，在其中关联于每个像素的数值范围从零(0)至二百五十五(255)的灰度级图象中，特征可以与矩形中像素的灰度级值之和相关联。注意尽管在本文例示和讨论矩形，但关联于视频特征的一或多个区域可具有任何形状，而不限于矩形。

另一种视频特征可使用父矩形内的二或多个子矩形。矩形510、矩形520、矩形530和矩形540都是使用子矩形的视频特征的图形示例。在这样的视频特征中，关联于特征的数值可通过例如在这两个子矩形中对像素值求和且随后从所得到的和之一中减去另一个和来计算。在这样一个实现中，取决于子矩形的位置和方向，所得到的数值可以不同，即使在特征被应用于图象的相同部分时也是如此。例如，父矩形510中的子矩形是水平方向的，而父矩形530的子矩形是垂直方向的，并且因此所得到的关联于使用这些矩形的视频特征的数值可以不同，即使在这些矩形应用于图象的相同部分时也是如此。在一些情形中这种类型的特征可协助标识高相对对比度的区域——包括例如可能存在于脸上眼睛(通常是暗黑的)与周围的皮肤(通常不是暗黑的)之间的对比度。

尽管图5例示包括两个子矩形的视频特征的图形表示，但也有可能定义包括三个矩形、四个矩形等等的视频特征。关联于这些视频特征的数值可用多种方法来计算得到，包括通过取不同子矩形中的像素计数之间的差。

现在转到图6，其中示出包括一些示例性视频特征的代表性示例性特征矩形610。图6的该描述是参考图1、图4和图5作出的。然而，应当理解参考图6描述的元素不旨在限制于与参考这些其它附图描述的元素一起使用。另外，尽管图6的示例性图指示了具体的元素，但在一些实现中不是所有这些元素都存在，并且在一些实现中可存在另外的元素。

尽管图5中的示图示出关联于一些示例性视频特征的矩形(且在一些情形中为子矩形)，但图5中的示图没有明确地示出如何使用这些矩形和相应的视频特征来生成或评估分类器。标识要被包括在特征池中的视频特征的一种机制是取与各种形状相关联的各种特征，包括如先前参考图5描述的那些，并且改变这些形状在代表性特征矩形610上的位置和尺寸。代表性特征矩形以及视频特征的矩形在其中的位置，随后可在图象的特定区域上在不同的时刻或者针对不同的目的来进行评估，包括作为检测过程的一部分。

在代表性特征矩形610内，可改变关联于视频特征的形状的位置和尺寸。例如如所示的，关联于特定视频特征的父矩形620占据代表性特征矩形的左上角。除了父矩形620例示的特定位置和尺寸之外，父矩形(及其子矩形)可在代表性特征矩形内沿水平和垂直两种方向上移动，每次定义一个新的视频特征。在一些实现中，父矩形的位置可用确保整个代表性特征矩形保证得到覆盖的方式改变多次。在同一或其它实现中，当改变父矩形的位置时，新的位置可重叠先前定义的视频特征的父矩形或者重叠已经定义或者将要定义的视频特征的父矩形。

同样，父矩形的尺寸也可修改以定义新的视频特征。例如，在与父矩形620相比时，父矩形630、父矩形640和父矩形650示出对不同尺寸的使用。在一些实例中，可以想象父矩形可放大直至它占据整个代表性特征矩形。

在一些实现中，使用左右对称来模拟具有特定父矩形的视频特征的存在是有用的。也就是说，当存在一个具有特定位置中的父矩形的视频特征时，定义另一个具有作为第一视频特征的父矩形的镜像图象的父矩形的视频特征是有用的。一个发生这种情况的示例性情形由父矩形630和父矩形640例示。

在一些实现中，可生成应用于包括先前参考图1描述的图象类型在内的不同图象的多个视频特征。例如，可生成一些视频特征应用于基图象，同时其它视频特征应用于短期差异图象，以及还有一些其它的视频特征应用于长期平均图象。

在改变包括关联于视频特征的矩形的位置、关联于视频特征的矩形的尺寸和应用视频特征的图象的各种因素以及为这些因素的任何和所有组合生成不同视频特征之后，具有作为如之前参考图4所述的特征池410的特征池的一部分的数千视频特征并非不常见。在一些实现中，可在生成分类器过程期间从这大量的视频特征中选择某个视频特征集合。

重要的是再次注意图5和图6没有示出所有可能的视频特征。在许多实现中，视频特征将以聚合方式覆盖一个或多个图象的整体。图5和图6所示的视频特征仅用于演示如何定义一些视频特征。

现在转到图7，其中示出一个示例性概图，它示出其中可完成用于人或说话者检测的分类器的生成的一个系统700。图7的该描述是参考图3、图4和图10作出的。然而，应当理解参考图7描述的元素不旨在限于与参考这些其它附图描述的元素一起使用。另外，尽管图7的示例性图指示了具体的元素，但在一些实现中不是所有这些元素都存在，并且在一些实现中可存在另外的元素。

系统700可包括特征池710、训练输入数据720、输入数据的标记730、与学习算法745相关联的训练模块740和分类器755。

如上面在参考图3描述的操作流中介绍的，给定特征池诸如特征池710，有可能生成可用于实现人或说话者检测的分类器。图7例示的系统演示可用于生成这样的分类器的一些机制。

示例性训练模块740可使用特定的输入来生成分类器诸如分类器755。训练模块可在一或多个计算设备中实现，包括下面参考图10描述的示例性计算设备。

通常，训练模块可与某种形式的学习算法相关联。学习算法包括产生分类器的自动化过程。一些学习算法通过接受特征池710、训练输入数据720和输入数据的标记730来产生分类器。特征池710可以是可量化包括训练输入数据720在内的输入数据的某个或某些元素的实体集合。在一些实现中，特征池可包括如先前参考图4和其它相关附图讨论的那些特征。训练输入数据720通常可由如一旦生成分类器就将向分类器给出的那些输入数据组成。在一些实现中，训练输入数据可包括视频帧组合，可从其检索或计算得到图象——如基图象、短期差异图象和长期平均图象，以及音频信息，可从其生成SSL似然函数。输入数据的标记730一般由理想的分类器在给定训练输入数据时会产生的“正确的”回答组成。例如，对于每个视频帧和音频输入集合，输入数据的标记可标识视频帧内存在人或说话者的特定区域。

给定特征池710、训练输入数据720和输入数据的标记730，训练模块740可使用其相关联的学习算法745来生成分类器。学习算法的操作取决于所使用的特定学习算法而变化，这在本领域是周知的并且不必在本申请书中详细地说明。例如，如果学习算法是Adaboost算法的形式，则学习算法的操作可包括选择一系列特征使得所得到的分类器的准确性随着Adaboost算法的进行而提高。如果学习算法是除Adaboost算法以外的算法，诸如例如神经网，则学习算法的操作可能不同。

训练模块740和学习算法745的最终输出包括当在一个特定区域或检测窗口上对其评估时，返回对该特定区域包括人或说话者的似然性的某种估计的分类器。分类器本身一般可由已经由训练模块选择的特征子集构成。该所选特征集合一般比未被选择的特征能在某种程度上更准确地执行。在一些情形中，分类器的元素，包括特征子集在内，被称为“节点”，其中例如每个所选特征与分类器的单个节点相关联。

分类器755中的不同特征可能需要不同量的计算时间用于在检测期间进行评估或计算。例如，一些特征——如至少在一些实现中的音频特征——能够比其它特征——如至少在一些实现中的视频特征更快速地评估或计算。因为评估速度上的差异，在一些实现中在所生成的分类器中对特定特征定序使得将评估需要较少时间的特征定序在评估需要较多时间的特征之前是有用的。

在分类器755中的部分所选特征与其它所选特征相比，可相对较好地完成在检测窗口中标识人或说话者的任务。例如，特定的音频或视频特征与某个其它音频或视频特征相比，与人或说话者的检测更高度相关。在一些实现中，度分类器的特征定序，使得与人检测更高度相关的特征在相对较不准确的特征之前出现是有用的。

无论是否与评估的速度、准确的程度或者某个其它属性有关，特定的特征可使用各种机制定序在其它特征之前。在一些实现中，学习算法本身在生成分类器时可考虑所需的或者较佳的属性——包括评估的速度和准确程度，这可能通过与其它特征相比对这些特定或较佳的特征加更大的权来实现，可导致特定特征在所生成的分类器中往往较早出现。在相同或其它实现中，所生成的分类器中的特征可在学习算法生成分类器之后重新定序或分拣。

一般而言，用于生成分类器755的训练输入数据720越多，所得到的分类器将越准确。然而，产生训练输入数据需要时间和精力——例如可能必须为每个视频帧生成输入数据的标记730形式的“正确”回答。一种增加与产生全新训练输入数据相比可能需要相对较少工作的训练输入数据量的方法是创建已经存在的训练输入数据和输入数据的标记的镜像图象。例如，给定视频帧和SSL似然函数，可创建作为原始视频帧的镜像图象的新视频帧并且还对SSL似然函数和输入数据的标记形成镜像。

在至少一些实现中可选择一些特征，至少部分地使得在许多情形中“假阳性”与另一个人相关联而不与非人的对象或实体相关联。也就是说，在没有检测到期望的人或说话者的情形中，可选择特征使得在许多情形中检测到另一个人而不是某个非人的对象或实体。例如，可选择视频特征，使得在许多情形中当未检测到说话者时检测到不在说话的人。

现在转到图8，其中所示的是示例性概图，它示出其中可完成人或说话者的检测的一个系统800。图8的该描述是参考图1、图3、图7、图9和图10作出的。然而，应当理解参考图8描述的元素不旨在限于与参考这些其它附图描述的元素一起使用。另外，尽管图8的示例性图指示了具体的元素，但在一些实现中不是所有这些元素都存在，并且在一些实现中可存在另外的元素。

系统800可包括输入数据810、关联于分类器855的检测器模块840和检测结果865。

如以上在参考图3描述的操作流中介绍的，给定分类器855，包括如图7的所生成的分类器755的分类器，可能在检测器模块840中实现的检测器可检查输入数据810并使用分类器来产生检测结果865。图8例示的系统演示可使用这样的分类器来检测人或说话者的某些机制。检测器模块可在一或多个计算设备中实现，包括先前参考图1描述的检测器设备165和在下面参考图10描述的示例性计算设备。

输入数据810可包括多种多样的输入数据。在一些实现中输入数据可包括如先前例如参考图1描述的输入数据，包括一系列视频帧，从其可确定一系列基图象、短期差异图象和长期平均图象。输入数据还可包括如与一或多个视频帧相关联的一系列SSL似然函数的音频数据。输入数据还可包括其它类型的数据，包括先前例如参考图1描述的那些。

检测器模块840随后可使用分类器855来确定输入视频数据中的区域可包括人或说话者。在一些实现中这可通过将至少一部分输入数据细分成一系列称为检测窗口的较小区域来完成。检测窗口可用各种方法来定义，包括在下面参考图9更详细地讨论的一些方法。

对于每个检测窗口，检测器模块840可针对该检测窗口的输入数据评估分类器855。分类器的评估通常可产生对人或说话者存在于特定检测窗口中的似然性的某种估计。在至少一些实现中，该似然性估计可以是检测结果865的一部分。

一旦已经评估了某个数量或者全部的检测窗口，在一些实现中即可进行合并操作以确定输入数据中特别有可能包含人或说话者的特定区域。这在一些实现中可通过挑选具有相对大数量的检测窗口进而具有包含人或说话者的高似然性的区域来完成。这些所标识的区域在至少一些实现中也可以是检测结果865的一部分。

在一些实现中，可在完全确定特定检测窗口包含人或说话者的似然性之前评估分类器的所有元素或者节点。在一些实现中有可能使用称为“修剪”的技术方法来缩短为一些检测窗口评估分类器所需的时间。

当使用修剪时，分类器的评估可在分类器中的所有节点得到评估之前停止。例如如果可以确定已经计算出的结果提供特定检测窗口包含或者不包含人或说话者的某种水平的确定性，则可停止分类器的评估。例如，可以知道，例如分类器中的前四个节点全部评估为特定结果，检测窗口总是包含人(至少对于用于训练分类器的数据而言)。在该实例中，在检测过程期间分类器的评估可在所有节点已经得到评估之前停止，并且可将检测窗口确定为包含人或说话者。

在一些实现中，输入数据的特定子区域可排除在考虑进行人或说话者检测的区域之外。例如，一个房间可能有电视或投影仪屏幕，在一些情形中它可显示的人或说话者，这不应当由检测器标识为人或说话者。在这个示例性情形中，输入数据中关联于电视或投影仪屏幕的子区域可排除在考虑进行人或说话者检测的区域之外。这可用各种方法来完成，包括例如通过不定义涵盖要排除的子区域的检测窗口。

现在在转到图9，其中示出可用作检测人或说话者的过程的一部分的检测窗口的一些示例性表示。图9的该描述是参考图6作出的并且与为图8提供的讨论有关。然而，应当理解参考图9描述的元素不旨在限于与参考这些其它附图描述的元素一起使用。另外，尽管图9的示例性图指示了具体的元素，但在一些实现中不是所有这些元素都存在，并且在一些实现中可存在另外的元素。

在一些实现中，如视频帧或者从视频帧导出的一或多个图象的输入数据可细分成用作检测人或说话者的过程的一部分的多个检测窗口。

如图9所示，示例性图象905可包含多个示例性检测窗口，包括检测窗口910、检测窗口920、检测窗口930、检测窗口940和检测窗口950。每个检测窗口占据图象的某个部分。重要的是注意，没有示出可能存在于图象905中的所有检测窗口。在许多实现中，检测窗口将以聚合方式覆盖整个图象。图9所示的检测窗口仅用于演示如何定义检测窗口。此外，尽管检测窗口示为矩形，但检测窗口可以用任何形状来定义。而且，尽管检测窗口是参考“图象”来描述的，但检测窗口也可应用于非视觉输入，包括如先前已经描述的音频输入。例如，关联于音频输入的SSL似然函数的检测窗口可包括SSL似然函数的某个子集。

示例性检测窗口910占据图象905的左上角。示例性检测窗口920和示例性检测窗口930示出检测窗口可延伸以覆盖图象的更多区域的一种方式。尽管未示出，检测窗口可定义为在由箭头960表示的方向上继续。这样的检测窗口可覆盖图象的整个上部。

同样，示例性检测窗口940示出检测窗口如何垂直延伸以覆盖图象的附加区域。箭头970例示这样的检测窗口可继续的一个方向，以覆盖图象的整个左部。

通过向右延伸示例性检测窗口940，使得在示例性检测窗口920、示例性检测窗口930之下、且在箭头960所示方向上存在检测窗口，例示定义检测窗口使得它们覆盖整个图象905的一种方法。

检测窗口可任意程度地重叠。例如如所示的，检测窗口920的一半与检测窗口910重叠。除了所示的重叠，在表示360°视图的全景图象中，检测窗口也可重叠图象905的端部。例如，未示出的检测窗口可占据图象的最右边和图象的最左边。

在一些实现中，可使用各种尺寸的检测窗口。例如，检测窗口950大于检测窗口910。在一些实现中可使用许多不同尺寸的检测窗口。例如在一个实现中，可使用10种不同尺寸的检测窗口。每个相同尺寸的检测窗口的集合可被延伸以覆盖整个图象905，例如使用如先前参考检测窗口910和其它具有与检测窗口910相同尺寸的检测窗口说明的同一过程。

一些视频特征可使用如先前参考图6讨论的代表性特征矩形。在检测过程期间，可缩放代表性特征矩形以适合检测窗口，并且可在同时成比例缩放关联于代表性特征矩形的任何视频特征。例如，假设一个尺寸为50像素宽乘50像素高的示例性代表性特征矩形，包含许多视频特征，其中一个视频特征具有尺寸为10像素宽乘20像素高的矩形。如果这个代表性特征矩形与相同尺寸的检测窗口一起使用，则该视频特征的矩形也可保持相同尺寸。如果该代表性特征矩形与一个四倍尺寸的检测窗口——例如与尺寸为100像素宽乘100像素高的检测窗口——一起使用，则代表性特征矩形及其相关联的视频特征矩形也可缩放以适合该较大的检测窗口。在该示例中，视频特征的矩形可缩放至尺寸为20像素宽乘40像素高。

在一些实现中，使用检测器的空间或房间的尺寸和/或方向可能影响在检测过程中使用的检测窗口的尺寸。例如，在小房间中，关联于人或说话者的物理特征——如脸或躯干——与关联于大房间中的人或说话者的物理特征相比，在从一或多个输入设备的角度来看往往很大，或者在尺寸上变化的程度较小。发生这种情况是因为在小房间中，人或说话者离一或多个输入设备的距离相对较小——例如可能导致较大的脸——而在较大房间中的人或说话者可能离一或多个输入设备或近或远，并且因此相关联的物理特征的尺寸可在较大程度上变化。因此，在一些实现中，可使用这样的检测窗口，使得例如在小房间中检测窗口可限于较大的尺寸，并且可能在尺寸上的范围变化相对较少。相反，在较大房间中，检测窗口的范围可从小到大以便尝试捕捉物理特征在尺寸方面的较大变化。

示例的计算环境

现在转到图10，该图和相关的讨论旨在提供对其中可实现本文描述的各种技术的示例性计算环境的简要概括的描述。尽管不是必需的，本文至少部分地在由诸如图10所示的计算设备1000的控制器、处理器、个人计算机或其它计算设备执行的计算机可执行指令诸如程序模块的一般上下文中描述这些技术。

一般而言，程序模块包括例程、程序、对象、组件、用户界面、数据结构等，它们执行特定的任务、显示特定的信息或者实现特定的抽象数据类型。由程序模块执行的操作先前已经在一或多个框图和操作流程图的帮助下进行了描述。

本领域的技术人员可以以计算机可执行指令的形式实现这些描述、框图和流程图，这些计算机可执行指令可体现为一或多种计算机可读介质的形式。如本文所使用的，计算机可读指令可以是能存储或具体化以计算机可访问和理解的形式编码的信息的任何介质。计算机可读介质的典型形式非限制性地包括易失性和非易失性存储器、数据存储设备，包括可移动和/或不可移动介质，以及通信介质。

通信介质以已调制数据信号如载波或其它传输机制具体化计算机可读信息，并且包括任何信息传递介质。术语“已调制数据信号”指以将信息编码到信号中的方式设置或改变其一或多个特性的信号。作为示例而非限制，通信介质包括有线介质如有线网络或直接线连接以及无线介质如声音、RF、红外和其它无线介质。

图10所示的计算设备1000在其最基本的配置中包括至少一个处理单元1002和存储器1004。在一些实现中，处理单元1002可以是如存在于例如包括台式和膝上型计算机在内的各种计算机上的通用中央处理单元(CPU)。在其它实现中，处理单元也可以是数字信号处理器(DSP)，它特别适合数字信号处理任务，包括例如由如先前参考图1描述的检测器设备165的检测器设备所执行的那些任务。取决于计算设备的精确配置和类型，存储器1004可以是易失性(如RAM)、非易失性(诸如ROM、闪存等)或两者的某种组合。该最基本的配置在图10中由虚线1006例示。另外，计算设备100还可具有附加的特征和功能。例如，计算设备1000还可包括附加的存储(可移动和/或不可移动)，包括但不限于磁或光盘或带。这样的附加存储在图10中由可移动存储1008和不可移动存储1010例示。

计算设备1000还可包含一或多个通信连接1012，它(们)允许计算设备1000与其它设备和服务通信。例如，计算设备可具有至包括例如先前参考图1描述的辅助设备175在内的其它计算设备的一或多个连接。计算设备1000还可具有一或多个输入设备1014，诸如如相机或扫描仪的图象输入设备、键盘、鼠标、笔、包括话筒阵列在内的语音输入设备、触摸输入设备等等。诸如显示器、扬声器、打印机等等的一或多个输出设备1016也可包括在计算设备1000中。

本领域的技术人员将了解，本文描述的技术可由除图10例示的计算设备1000之外的计算设备来实践。例如且非限制性地，本文描述的技术同样可在包括移动电话和PDA在内的手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、小型机、大型机等等中实践。这些计算设备每一个可由图10的系统以某种详细级别来描述，或者可不同地描述。

本文描述的技术还可在分布式计算环境中实现，其中操作是由通过通信网络链接的远程处理设备执行的。在分布式计算环境中，程序模块可位于本地或远程设备两者中。

尽管本文所描述的技术是用软件实现的，但还可了解，本文描述的技术或者可全部或者部分地实现为硬件、固件或者软件、硬件和/或固件的各种组合。

尽管已经在附图中例示和在上述文本中描述了方法和系统的一些特定实现，但将理解，所示和所述的方法和系统不限于所述的特定实现，而可以是在不脱离由所附权利要求书阐述和定义的精神的情况下进行众多重置、修改和代替。

Claims

1.一种用于使用多种类型输入来标识人的方法，包括：

标识包括至少一个来自视频输入的特征以及至少一个来自音频输入的特征的特征池(310)；以及

使用学习算法生成用于人的检测的分类器(315)，其中所述分类器的节点是使用所述特征池来选择的。

2.如权利要求1所述的方法，其特征在于，还包括：

评估所述分类器以检测第一人(320)。

3.如权利要求2所述的方法，其特征在于，所述至少一个来自视频输入的特征或者所述至少一个来自音频输入的特征中的至少一个特征工作，使得假阳性结果与所述第一人不同的第二人相关联。

4.如权利要求1所述的方法，其特征在于，还包括：

在所述生成步骤(315)之后对所述分类器的所述节点分拣，使得较佳特征在所述分类器中位于较不佳特征之前。

5.如权利要求4所述的方法，其特征在于，所述较佳特征与所述较不佳特征相比要求较少的计算。

6.如权利要求4所述的方法，其特征在于，与所述较不佳特征相比，所述较佳特征与人的检测更高度相关。

7.如权利要求1所述的方法，其特征在于，所述生成步骤(315)还包括，与较不佳特征相比，对较佳特征加更高的权，使得所述较佳特征在所述分类器中位于所述较不佳特征之前。

8.如权利要求1所述的方法，其特征在于，所述特征池包括关联于声源定位输入的音频特征(420)。

9.如权利要求8所述的方法，其特征在于，所述音频特征(420)与从下列函数中选择的函数相关联：

\frac{L_{\max}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}, \frac{L_{\min}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}, \frac{L_{avg}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}, \frac{L_{mid}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}, \frac{L_{\max}^{l}}{L_{\min}^{l}}, \frac{L_{\max}^{l}}{L_{avg}^{l}}, \frac{L_{\min}^{l}}{L_{avg}^{l}}, \frac{L_{mid}^{l}}{L_{avg}^{l}},

\frac{L_{\max}^{l} - L_{\min}^{l}}{L_{avg}^{l}}, \frac{L_{\max}^{l}}{L_{\max}^{g}}, \frac{L_{\min}^{l}}{L_{\max}^{g}}, \frac{L_{avg}^{l}}{L_{\max}^{g}}, \frac{L_{mid}^{l}}{L_{\max}^{g}}, \frac{L_{\max}^{l} - L_{\min}^{l}}{L_{\max}^{g}}, L_{\max}^{g} - L_{\max}^{l} < ϵ

和

\frac{L_{\max}^{l}}{L_{\max}^{rest}};

其中，全局最大

是SSL似然函数在整个SSL似然函数上的最大值；全局最小

是SSL似然函数在整个SSL似然函数上的最小值；全局平均是SSL似然函数在整个SSL似然函数上的平均值；局部最大

是SSL似然函数在检测窗口中的最大值；局部最小

是SSL似然函数在检测窗口中的最小值；局部平均是SSL似然函数在检测窗口上的平均值；以及局部中间输出

是SSL似然函数在检测窗口中点处的值；“其余”最大值它是SSL似然函数在特定检测窗口之外的最大值；“ε”是二元特征，它测试检测窗口是否包含SSL似然函数的全局峰值。

10.如权利要求1所述的方法，其特征在于，所述特征池包括由矩形定义的视频特征(430)。

11.如权利要求1所述的方法，其特征在于，所述学习算法(745)包括AdaBoost算法。

12.一种用于使用多种类型输入来标识人的方法，包括：

接受包括视频输入数据和音频输入数据的输入数据(810)；以及

评估人检测分类器(855)以检测人，其中所述分类器已经通过以下步骤创建：

标识包括至少一个关联于所述视频输入数据的特征和至少一个关联于所述音频输入数据的特征的特征池(310)；以及

通过使用所述特征池选择所述分类器的节点，使用学习算法生成所述分类器。

13.如权利要求12所述的方法，其特征在于，所述的人是说话者。

14.如权利要求12所述的方法，其特征在于，所述分类器是还通过在所述生成步骤之后对所述分类器的节点进行分拣使得较佳特征在所述分类器中位于较不佳特征之前来创建的。

15.如权利要求14所述的方法，其特征在于，与所述较不佳特征相比，所述较佳特征要求较少的计算。

16.如权利要求14所述的方法，其特征在于，与所述较不佳特征相比，所述较佳特征与人检测更高度相关。

17.如权利要求12所述的方法，其特征在于，所述生成步骤还包括，与较不佳特征相比，对较佳特征加更高的权，使得所述较佳特征在所述分类器中位于所述较不佳特征之前。

18.一种用于使用多种类型输入来标识人的系统，包括：

产生视频数据(140)的视频输入设备(110)；

产生音频数据(150)的音频输入设备(120)；以及

包括检测器(170)的检测器设备(165)，所述检测器(170)被配置为接受所述视频数据和所述音频数据并且评估人检测分类器以检测人，其中所述分类器已经通过以下步骤创建：

标识包括至少一个关联于所述视频数据的特征和至少一个关联于所述音频数据的特征的特征池(310)；以及

19.如权利要求18所述的系统，其特征在于，还包括：

辅助设备(175)，为至少一部分所述视频数据或者至少一部分所述音频数据提供存储。

20.如权利要求18所述的系统，其特征在于，所述音频数据包括声源定位数据，以及所述特征池包括关联于从下列函数中选择的函数的音频特征(420)：

\frac{L_{\max}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}, \frac{L_{\min}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}, \frac{L_{avg}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}, \frac{L_{mid}^{l} - L_{\min}^{g}}{L_{\max}^{g} - L_{\min}^{g}}, \frac{L_{\max}^{l}}{L_{\min}^{l}}, \frac{L_{\max}^{l}}{L_{avg}^{l}}, \frac{L_{\min}^{l}}{L_{avg}^{l}}, \frac{L_{mid}^{l}}{L_{avg}^{l}},

\frac{L_{\max}^{l} - L_{\min}^{l}}{L_{avg}^{l}}, \frac{L_{\max}^{l}}{L_{\max}^{g}}, \frac{L_{\min}^{l}}{L_{\max}^{g}}, \frac{L_{avg}^{l}}{L_{\max}^{g}}, \frac{L_{mid}^{l}}{L_{\max}^{g}}, \frac{L_{\max}^{l} - L_{\min}^{l}}{L_{\max}^{g}}, L_{\max}^{g} - L_{\max}^{l} < ϵ

和

\frac{L_{\max}^{l}}{L_{\max}^{rest}};

其中，全局最大

是SSL似然函数在整个SSL似然函数上的最大值；全局最小

是SSL似然函数在整个SSL似然函数上的最小值；全局平均

是SSL似然函数在整个SSL似然函数上的平均值；局部最大

是SSL似然函数在检测窗口中的最大值；局部最小

是SSL似然函数在检测窗口中的最小值；局部平均

是SSL似然函数在检测窗口上的平均值；以及局部中间输出