CN1981293A - 具有在线学习能力的连续面貌识别 - Google Patents

具有在线学习能力的连续面貌识别 Download PDF

Info

Publication number
CN1981293A
CN1981293A CN 200580003771 CN200580003771A CN1981293A CN 1981293 A CN1981293 A CN 1981293A CN 200580003771 CN200580003771 CN 200580003771 CN 200580003771 A CN200580003771 A CN 200580003771A CN 1981293 A CN1981293 A CN 1981293A
Authority
CN
China
Prior art keywords
looks
unknown
image
classification
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200580003771
Other languages
English (en)
Other versions
CN100474328C (zh
Inventor
N·迪米特罗弗
J·F·深真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1981293A publication Critical patent/CN1981293A/zh
Application granted granted Critical
Publication of CN100474328C publication Critical patent/CN100474328C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一种面貌分类的系统和方法。一种系统(10)包括用于提供对在视频输入(20)中检测到的面貌图像是否与分类器(40)中的已知面貌相对应的判断的面貌分类器(40)。当一个未知检测面貌满足一个或多个持续标准(100)或者突出标准时所述系统(10)将所述未知检测面貌添加到分类器(40)中。

Description

具有在线学习能力的连续面貌识别
本申请要求了于2004年2月2日申请、由Nevenka Dimitrova和Jun Fan发明、标题为“具有在线学习能力的连续面貌识别”的美国临时专利申请60/541,206的优先权。
上述于2004年2月2日申请、由Nevenka Dimitrova和Jun Fan发明、标题为“Continuous Face Recognition With Online Learning”(“具有在线学习能力的连续面貌识别”)的美国临时专利申请60/541,206的内容被引入于此以供参考。
本发明通常涉及面貌识别。具体而言,本发明涉及对面貌识别的改进,包括对新面貌的在线学习。
面貌识别已经成为研究的活跃领域,其具有许多现行的技术。一种这样的技术使用随机神经网络(probabilistic neural network,通常称为“PNN”)来判断其是否认识在视频流或者其他图像中检测到的表示面貌的输入向量。PNN通过将输入向量同PNN已经结交的固定数目的已知面貌相比较的方式来判断面貌是“已知的”还是“未知的”。例如如果比较产生十分高的置信值,那么所述面貌被认为是数据库中的相应面貌。如果比较未产生十分高的置信值,那么所输入的面貌只不过被视为是“未知的”而丢弃。例如由P.K.Patra等人在2002年5月发表的2002年国际神经网络年会(IEEE IJCNN’02)的会议记录的第II卷第1200-1205页的“Probabilistic Neural Network for Pattern Classification”(“用于模式分类的随机神经网络”)一文中概括描述了PNN,将其全部内容引入于此以供参考。
将PNN应用于面貌识别的现有技术中的一种困难在于所输入的面貌仅仅被同预培训数据库中的面貌进行比较。换句话说,如果发现与用于培训PNN的面貌之一相对应,则所输入的面貌仅能被判断为是“已知的”。因此,如果发现与数据库中用于培训PNN的任一个面貌不相对应,那么即使以前系统已经检测到相同的面貌,而也可能将相同的输入面貌重复地判断为是“未知的”。
美国专利申请公开文本2002/0136433A1(“’433公开文本”)描述了应用在线培训的面貌识别系统,所述在线培训用于“自适应特征面貌”系统的未知面貌。根据′433公开文本,检测到的未知面貌被添加到已知面貌的类别中。′433公开文本此外涉及跟踪面貌以便未知面貌的多个图像可以被添加到数据库中。然而,′433公开文本未讲授在判断是否向数据库中添加未知面貌时进行选择。因此,′433数据库可以迅速地被新面貌扩展,同时也降低了系统的性能。虽然对某些应用(诸如监视,其中可能需要捕获每个面貌以便稍后识别)而言捕获所有未知图像可能是符合要求的,但是在其他应用中这可能是不合需要的。例如,在对突出面貌的快速识别很重要的视频系统中,不加区别的扩展数据库可能是不合需要的。
本发明尤其包括向用于面貌识别的数据库等中增加新面貌,并保持学习新面貌。当新面貌被添加到数据库中时,在随后接收的输入视频中再次发现新面貌时就可以将其检测为“已知的”。一个方面通过施加规则来鉴别要将哪个新面貌添加到数据库中以确保仅仅将视频中的新面貌添加到数据库中。这使得“伪造的(spurious)”或“飞逝的(fleeting)”的面貌不会被添加到数据库中。
在这里对在下面的说明书中所使用的术语作出旁注:通常,如果在系统中存储有关于面部特征的数据则系统认定面貌是“已知的”。通常,在面貌是“已知的”的情况下,系统就可以将包括该面貌的输入认定为与所存储的面貌相对应。例如,在基于PNN的系统中,如果存在与面貌相对应的类别则面貌是“已知的”,如果不存在这样的类别则认为面貌是“未知的”。(当然,因为在输入的已知面貌和它的类别之间可能“错过”,所以存在与面貌相对应的类别不一定意味着所述处理始终将判断匹配或者符合。)系统通常为“已知的”面貌指定标识符,诸如标签或者参考号之类。(如将看到的那样,图2和图6中的标签F1、F2、...、FN以及图6中的FA表示系统中的这种通用标识符。)系统可以存储有关于面部特征的数据和面貌的这种系统标识符或者标签,而无需存储人的身份(诸如人的名字之类)。因此,在系统包括所存储的面貌的面貌数据而无需具有关于面貌的人员识别的数据的意义上而言,系统“知晓”面貌。当然,系统既可以“知晓”面貌又可以具有该面貌的相应人员的标识数据。
因此,本发明包括一种系统,所述系统具有用于提供对在视频输入中检测到的面貌图像是否与分类器中的已知面貌相对应的判断的面貌分类器。当符合一个或多个持续标准的未知检测面貌持续存在于视频输入中时,所述系统将未知检测面貌添加到分类器中。所述未知面貌因此变成对系统而言是已知的。
面貌分类器例如可以是随机神经网络(PNN),并且如果在视频输入中检测到的面貌图像与PNN中的类别相对应则所检测到的面貌图像是已知面貌。当未知面貌符合持续标准时,则系统可以通过向PNN中添加未知面貌的类别和一个或多个模式结点将未知面貌添加到PNN中,借此让未知面貌为系统所知晓。一个或多个持续标准可以包括对视频输入中的同一个未知面貌检测最小时间周期。
本发明还包括相似的面貌分类方法。例如,一种面貌识别方法,包括下述步骤:判断在视频输入中检测到的面貌图像是否与存储器中的已知面貌相对应,以及当未知检测面貌根据一个或多个持续标准而持续存在于视频输入中时把该未知检测面貌添加到存储器中。
本发明还包括相似的面貌分类技术,所述技术使用诸如照片之类的离散图像。所述技术还包括当在至少一个图像中的面貌满足一个或多个突出标准时添加未知面貌(在视频或者离散图像的情况中),其中所述一个或多个突出标准例如是阈值大小。
在下文中将结合附图描述本发明的优选示例性实施方式,其中相同的标记指示相同的元件,并且:
图1是根据本发明的实施方式的系统的典型方框图;
图1a是图1的系统的不同级别的典型图;
图2是图1的系统的组件的最初培训修改的PNN;
图3是图1的系统的多个组件的更详细说明;
图3a是根据图3中的特征抽取组件为面貌图像所创建的矢量量化直方图;
图4是根据概率分布函数用于显示某些结果的典型一维实例;
图5显示了图4的修改实例;以及
图6是包括由在线培训创造的新类别的图2的修改PNN。
如上所述,本发明尤其包括对视频图像中持续存在的新的(也就是未知的)面貌进行在线培训的面貌识别。新面貌在视频图像中的持续程度是由一个或多个因素所测量的,所述一个或多个因素是提供例如这样的确认,即该面貌是新面貌并且提供这样一个阈值,所述阈值即面貌十分显著以批准添加到数据库中从而用于将来的判断(也就是,变成“已知的”面貌)。
图1描绘了本发明的示例性实施方式。图1表示本发明的系统实施方式和方法实施方式。在下面将使用系统术语以描述实施方式,不过应该注意的是:如下所述的处理步骤也用来描述和举例说明相应的方法实施方式。如从下面的说明中很容易看出的,位于顶端的虚线之上(部分A)的视频输入20和样本面貌图像70被输入到系统10中,收到之后所述视频输入20和样本面貌图像70可以被存储在系统10的存储器中。虚线内的程序方块图(部分“B”)包括如下所述由系统10执行的处理算法。
如本领域技术人员所很容易理解的那样,部分B中的系统10的处理算法可以存在于由一个或多个处理器执行并可以随时间流逝由系统修改的软件中(例如,以反映如下所述的对MPNN的在线培训)。如从下面的说明中还将明了的,各个处理模块算法输入是由其他处理模块的输出提供的,直接或者通过相关存储器提供。(图1a提供了支持图1中所表示的系统10的处理的硬件和软件组件的简易典型实施方式。因此,由图1的部分B中的方块图所表示的系统10的处理可以由图1a中的处理器10a结合相关的存储器10b和软件10c来执行。)
图1的系统10利用了面貌分类器40中的PNN,在如下所述的实施方式中所述PNN被修改以形成一个修改的PNN或者“MPNN”42,因此始终被称为“MPNN”。然而,应当理解的是基础(也就是未修改的)PNN也可以用于本发明。在所述实施方式中面貌分类器40主要由MPNN 42组成,但也可以包括其他处理。例如,如下所述,某些或者全部判定块50可以被认为是同MPNN 42相分离的分类器40的一部分。(此外,也可以使用备选的面貌分类技术。)因此,为了概念清楚起见面貌分类器40和MPNN 42是单独显示的,不过如在此描述的图1的实施方式中它们实质上是共生的。此外,系统10从样本面貌图像和视频输入中提取面部特征以判断所述面貌是已知的还是未知的。许多不同的面貌特征提取技术均可以在系统10中使用,诸如矢量量化(vectorquantizafion,VQ)直方图或者特征面貌特征。在图1的示例性系统10中,矢量化(VQ)直方图特征被用作面貌特征。
最初在图1的系统10中,样本面貌图像70被输入到系统10中以提供对MPNN 42的初始离线培训90。样本面貌图像具有多个不同的面貌,也就是第一面貌F1、第二面貌F2、...、第n面貌FN,其中N是样本图像中的不同面貌的总数。面貌F1-FN将包括初始“已知的”面貌(或者面貌类别)并通过他们的分类标签F1、F2、...、FN而对于系统是“已知的”。培训中所使用的样本面貌图像70包括面貌类别F1的多个样本图像,F2的多个样本图像,...,FN的多个样本图像。对在块70中输入的样本图像而言,已知哪个图像与哪种面貌类别相对应。
每个面貌类别的样本图像被用于创建面貌分类器40的MPNN 42中的面貌类别的模式结点和类别。因此,与F1相对应的样本图像被用于创建F1的模式和类别结点,与F2相对应的样本图像被用于创建F2的模式和类别结点,等等。由特征提取器75处理样本面貌图像70以创建每个样本面貌图像的相应输入特征向量X。(在下面对离线培训90的说明中,“X”一般指的是在考虑之中的特殊样本图像的输入特征向量。)在示例性的实施方式中,输入特征向量X包括从每个样本图像70提取的VQ直方图。特征提取的VQ直方图技术为本领域所熟知,以及下面在输入视频图像块35的类似特征提取环境中将被描述。因此,每个样本图像的输入特征向量X将具有由所使用的矢量代码本所确定的多个维度(在下面的特殊实例中是33)。
在样本图像的输入特征向量X被提取之后,由分类器培训器80对其执行标准化。分类器培训器80还将标准化的X指定为MPNN 42中的各个模式结点的加权向量W。因此,每个模式结点还与面貌之一的样本图像相对应。培训器80将每个模式结点与为类别层中的相应面貌所创建的结点相连接。一旦全部样本输入图像被以同样的方式接收和处理,那么MPNN 42就被最初培训。每个面貌类别将被连接到多个模式结点,每个模式结点具有与从该类别的样本面貌图像中提取的特征向量相对应的加权向量。每个面貌的模式结点(或者类别)的加权向量一起生成下面的该类别的概率分布函数(probability distributionfunction,PDF)。
图2是由分类器培训器80最初离线培训90的面貌分类器40的MPNN 42的说明。n_1个由块70输出的输入样本图像与面貌F1相对应。分配给第一模式结点的加权向量W11等于从F1的第一样本图像中提取的标准化的输入特征向量;分配给第二模式结点的加权向量W12等于从F1的第二样本图像中提取的标准化的输入特征向量;…;分配给第n_1模式结点的加权向量W1n_1等于从F1的第n_1样本图像中提取的标准化输入特征向量。最初的n_1个模式结点同相应的类别结点F1相连接。同样,n_2个输入样本图像与面貌F2相对应。接下来分别具有加权向量W21-W2n_2的n_2个模式结点是利用F2的n_2个样本图像以同样的方式产生的。面貌F2的模式结点同类别F2相连接。随后的模式结点和类别结点是以同样的方式为随后的面貌类别创建的。在图2中,培训使用N个不同面貌的多个样本图像。
现在将简要描述用于创建图2的最初培训MPNN的算法。如上所述,对在块70中输入的当前样本面貌图像而言,特征提取器75首先创建相应的输入特征向量X(如下所述,在特殊实施方式中所述输入特征向量X是VQ直方图)。分类器培训器80首先通过标准化输入特征向量的方式将该输入特征向量转换为模式结点的加权向量,其中所述标准化输入特征向量是通过将该矢量除以其各自的幅度而得出的:
X ′ = X · ( 1 / ∑ X 2 ) - - - ( 1 )
当前样本图像(并因此当前相应的标准化特征向量X′)与已知面貌Fj相对应,其中Fj是培训的面貌F1、F2、...、FN之一。此外,如所标注的那样,通常在块70的样本面貌流中的每个已知面貌都有多个样本图像。因此,当前样本图像通常将是与由块70输出的Fj相对应的第m个样本图像。从而把标准化输入特征向量X′分配给类别Fj的第m个模式结点作为加权向量:
Wjm=X'               (2)
具有加权向量Wjm的模式结点同各自的类别结点Fj相连接。由块70输入的其他样本面貌图像被转换为特征提取块75中的输入特征向量,并由分类器培训器80以同样的方式处理从而创建图2所示的面貌分类器的最初配置MPNN42。
例如,回头参照图2,如果由块70输入的当前的样本图像是面貌F1的第一样本图像,那么特征提取器75创建该图像的输入特征向量X。分类器培训器80标准化输入特征向量并将其分配作为F1的第一模式结点的加权向量W11。接下来的样本图像可以用于面貌F9的第三样本图像。在块75中提取该接下来的样本图像的输入特征向量X之后,分类器培训器80标准化特征向量,然后将标准化特征向量分配作为F9(未显示)的第三模式结点的加权向量W93。在某些输入图像之后,正在被培训的另一个样本图像被再次用于F1。该图像被以同样的方式处理,并被分配作为F1的第二模式结点的加权向量W12
以同样的方式处理全部样本面貌图像70,从而产生图2的分类器40的最初培训MPNN 42。在这种初始离线培训90之后,面貌分类器40包括MPNN 42,所述MPNN 42具有由离线培训产生的并反映用于离线培训的面貌的模式层和类别层。这种面貌包括离线培训的基于MPNN的系统的最初“已知的”面貌。
如稍后将描述的那样,输入节点I1、I2、...、IM将接收检测的面貌图像的特征向量并判断其是否与已知面貌类别相对应。从而,每个输入节点同每个模式结点相连接并且输入节点的数目等于特征向量中的维数(在下面的特殊实例中是33)。
如上所述,MPNN的培训可以做为一系列的输入样本图像而完成,或者也可以同时处理多个图像。同样,从上述的说明中很清楚的知道样本面貌图像输入的次序是不相关的。因为每个样本图像的面貌类别是已知的,所以每个已知面貌的全部样本可以被顺序提交,或者可以被次序颠倒地处理(如在如上的实例中那样)。但不论是哪种情况,最后的培训MPNN 42就如图2所示的那样。
应该注意的是:在这种系统10的初始离线培训之后直接形成的MPNN类似于现有技术中仅仅使用离线培训的PNN系统中的MPNN那样。例如,这种离线培训90可以根据由Patra等著的上述引用文档来执行。
在此(以及如下所述)应当注意的是:本发明未必需要离线培训90。相反如下所述还可以仅利用在线培训110来建立MPNN 42。然而,对于当前描述的实施方式来说,MPNN 42是利用离线培训90来进行最初的培训,并且如图2所示。在如上所述的MPNN 42的初始离线培训90之后,系统10常常检测视频输入20中的面貌,并且如果检测到,则判断检测到的面貌是否与MPNN42的类别之一的已知面貌相对应。回头查阅图1,视频输入20首先进行现有的面貌检测30处理技术,其检测视频输入20中的面貌(或者多个面貌)的存在和位置。(因此,面貌检测处理30仅仅识别在视频输入中是否存在面貌的图像,而不去识别所述图像是否是已知的。)系统10可以使用任何现有的面貌检测技术。
因此面貌检测算法30可以利用已知的AdaBoost应用来进行快速目标检测,如在“Rapid Object Detection Using A Boosted Cascade of Simple Features”by P.Viola and M.Jones,Proceedings of the 2001 IEEE Conference on Computer Visionand Pattern Recognition(IEEE CVPR′01),Vol.I,pp.511-518,Dec.2001中描述的那样,将其全部内容引入于此以供参考。所使用的基本面貌检测算法30可以是如由Viola所描述的,也就是将所述基本面貌检测算法30构造成层叠阶段,其中每个阶段是强分类器,并且每个阶段由几个弱分类器组成,每个弱分类器与图像的特征相对应。输入视频图像20被从左至右,从上到下扫描,并且在图像中分析不同尺寸的矩形以判断是否包括面貌。因此,继矩形之后应用分类器的阶段。对矩形而言每个阶段得到一个分数,所述分数是包括所述阶段的弱分类器的响应的总和。(在下面应当注意的是:对于矩形的评分通常涉及观察两个或更多的子矩形。)如果所述总和超出所述阶段的阈值,那么矩形前进至下一个阶段。如果矩形的分数通过所有阶段的阈值,则判断包括面貌部分,并且所述面貌图像被传至特征提取35。如果矩形低于任何阶段的阈值,那么丢弃所述矩形并且算法前进至图像中的另一个矩形。
所述分类器可以像在Viola中那样通过每次添加一个弱分类器的方式来构造,所述弱分类器是利用设置用于建立阶段或者强分类器的验证来评估的。新的弱分类器被添加到当前正在构造的阶段中。每个增加的圆t通过最小化下式添加矩形特征分类器h至正在构造的强分类器的当前特征集中:
E t = Σ 1 D t ( i ) exp ( - α t y i h t ( x i ) ) - - - ( 3 )
上述等式3等于在Viola的方法中所使用的等式,并且Et表示与第t个矩形特征分类器ht有关的加权误差,所述矩形特征分类器ht是利用矩形培训实例xi评估的。(用于矩形实例的小写字体注释“xi”将其同用于MPNN的图像的特征向量标注X区别开来。)基本上ht(xi)是像素的总和的加权总和,特别是培训实例xi的矩形子区域的像素的总和的加权总和。如果ht(xi)超过设定阈值,那么ht(xi)的输出,例如xi是1,以及如果ht(xi)没有超过设定阈值,那么ht(xi)的输出是-1。因为在上面的等式中h被限定为是+1或者-1,所以变量αt是关于正在构造的强分类器的该弱前提h的影响(幅度)。此外,yi≡[-1,1]是实例xi的目标标签(也就是说,xi是特征h的负实例还是正实例对于培训集的实例而言是已知的)。D是ht特征的第i个实例的权重因数。
一旦利用该方式确定了最小的E,那么相应的矩形特征分类器h(以及它的幅度α)被用于构造新的弱分类器。客户决定的h阈值还可以利用培训集的方式或者根据正负实例的分布来确定。根据设定的参数选择最好将正负实例间隔开的阈值。(参照上述的Viola文档中的阈值θj。)应当注意,弱分类器还包括α,其是一个实值的数字,表示所选择的矩形特征分类器h对正在构造的强分类器有多大的影响(并根据在培训过程中确定的错误E而被确定)。当实现时,图像的输入矩形部分典型地也由h根据输入矩形的两个或更多子矩形重的像素的加权总和来分析,并且如果对输入矩形而言超出阈值(根据培训确定的)则将h的输出设置为1,如果未超出阈值则设置h=-1。新的弱分类器的输出是h乘以影响值α的二进制输出。强分类器由在培训期间添加的弱分类器的总和组成。
一旦新的弱分类器被添加,则如果分类器的性能(根据检出率和虚警率)满足验证设置所要求的设计参数,那么因为新近添加的弱分类器足够检测其各自的特征所以其结束正在构造的阶段。否则,添加并评估另一个弱分类器。一旦构造了所有要求特征的阶段并根据验证设置的设计参数执行,则分类器完成。
做为选择,Viola弱分类器的上述结构的修改也可以用于面貌检测器30。在所述修改中,在新的弱分类器的h的选择期间α被合并到h中。以类似于如上所述的方式,通过最小化E的方式选择新的弱分类器h(现在合并了α)。关于弱分类器的实现,在修改过程中可以利用“放大残余(boosting stumps)”。放大残余是根据在非叶的父本模式中所作的判定而输出左右叶值的判定树。因此,弱分类器由输出两个真值之一(两个叶c_left和c_right之一)的判定树组成,而非输出1和-1。如下所述,弱分类器还包括自定义判定阈值。对图像的输入矩形部分而言,所选择的矩形特征分类器h被用于判断在输入矩形的子矩形区域之间的像素强度的和的加权和是否大于阈值。如果大于则从弱分类器输出c_left,如果小于则输出c_right。
在对所选择的h的培训期间,根据针对指定阈值将多少正负实例分配到分区的左侧和右侧来确定叶c_left和c_right。(因为培训集中的地面真值是已知的,所以实例是正还是负是客观已知的。)在整个样本集上评价矩形和的加权和,因此给出差值的分布,然后将其进行分类。从分类分布而言,并鉴于所需的检测率和虚警率,目的在于选择这样的分区,其中大多数的正实例落入一边而大多数的负实例落入另一边。对于已分类的分布而言,通过选择使下面的等式中的T最小的分区来执行最适宜的拆分(指定用于弱分类器的自定义判定阈值):
T = 2 ( W + Left W - Left ) + W + Right W - Right - - - ( 4 )
其中W表示落入所考虑的分区的左边或者右边的培训集中实例的权重,也就是“正”或者“负”。
所选择的分区(使T最小的分区)产生自定义判定阈值;此外,c_left和c_right是根据下述等式由培训数据分布计算的:
Figure A20058000377100142
其中W现在表示实例的权重,这些实例被分配给所选择分区的左侧或者右侧,也就是是“正”或者“负”(以及ε是平滑项,用于防止由大的预测所引起的数值问题)。这些值用来保持弱分类器平衡的下一次迭代的权重,也就是保持在基本上相等的边界的每侧的正负实例的相对权重。
应当注意,尽管弱分类器可以是在Viola中提到的所述结构,但是做为选择,弱分类器也可以是上面直接描述的决策树枝那样的结构。此外,应该注意的是:对任何一个弱分类器的培训都可以使用替换技术。根据一种技术,为了检测当前正在添加的弱分类器,验证设置的实例被扫描通过先前阶段全部的先前添加的弱分类器以及先前被加到当前阶段的弱分类器。然而,一旦在先的弱分类器被采用和计分,则分数不再变化。因此,在一种更有效的替换技术中,存储经过在前全部阶段的矩形及其在前阶段的分数。代替将实例通过全部的在前阶段,这些保持的矩形的在前的分数被用于培训当前的弱分类器,并且保持的矩形仅必须通过当前的弱分类器以便更新分数。
一旦由面貌检测30在视频20中检测到面貌图像,就将其在特征提取器35中处理以产生图像的VQ直方图。该特征提取处理产生所检测的图像的特征向量XD。符号XD(表示“检测”的X)用于强调该矢量与在视频信息流20中所检测的面貌图像(在下面为35a)相对应,而不是培训中的样本面貌图像。然而,应该注意的是:所检测的图像的特征向量XD是利用和上述讨论到的用于离线培训90的样本面貌图像的输入特征向量X一样的方法提取的。因此,系统10中的特征提取器35和75可以相同。包括所检测的面貌图像的视频帧和用于培训的样本图像可以具有相同的原始输入格式,而在这样情况下特征提取处理是相同的。
现在将参照面貌检测器30中所检测的视频输入20中的面貌图像来更详细地描述由特征提取器35执行的特征提取。图3显示了用于将所检测的面貌图像变换成VQ直方图以输入到面貌分类器40中的特征提取器35的元件。在视频输入(图3中标记为面貌片断35a)中检测的面貌图像被发送到低通滤波器35b。在此的面貌图块35a仍以其原始视频格式处于视频帧中。低通滤波器35a用于减少高频噪声并提取面貌图块35a的最有效低频分量用于识别。面貌图块然后被分成4乘4的像素块(处理块35c)。此外,为每个4乘4的象素块确定最低强度并从各个块中减去该强度。其结果是每个4乘4的块的强度变化。
在处理块35d中,每个这样的4乘4的面貌图像块同存储在存储器的矢量代码本35e中的代码进行比较。代码本35e是本领域众所周知的,并利用具有单调强度变化的33个代码向量进行系统地组织。最先的32个代码向量是通过改变强度变化的方向和范围而生成的,以及第33个矢量不包含变化和方向,如图3所示。针对每个4乘4的块而选择的代码向量是具有与针对该块的所判断的强度变换最匹配的代码向量。欧几里德距离被用于在图像块和代码本的代码向量之间的距离匹配。
因此33个代码向量的每一个都具有图像中特定数目的匹配4乘4的块。每个代码向量的匹配数目用于生成图像的VQ直方图35f。VQ直方图35f被生成,其具有沿x轴的代码向量池(bins)1-33,以及在y维上显示每个代码向量的匹配数目。图3a表示VQ直方图35f’,所述VQ直方图是通过诸如在图3中所示的特征提取器的处理针对面貌图块35a’而生成的。沿x轴显示代码向量1-33的池,沿y轴显示在每个代码向量和图像35a’的4乘4的图像块之间匹配的数目。应当注意:在该示例性的实施方式中,VQ直方图被用作所检测的面貌图像的图像特征矢量XD。(同样地,用于该处理的图像特征矢量XD可以被表示为33维的矢量XD=(和代码向量1相匹配的号码,和代码向量2相匹配的号码,...,和代码向量V相匹配的号码),其中V是代码本中最后的代码向量数(对于上述的代码本,V=33)。
文档″Face Recognition Using Vector Quantization Histogram Method″by K.Kotani et al.,Proceedings of the 2002 International Conference on Image Processing(IEEE ICIP′02),Vol.II,pp.105-108(Sept.2002)被结合与此以供参考,所述文档描述了利用VQ直方图来表示面部特征,其基本上如上所述参照由特征提取器35从输入面貌图像35a生成VQ直方图35f。
图3还显示了面貌分类器40的MPNN 42。VQ直方图35f输出所输入的面貌图像35a的特征向量XD。特征向量XD被发送到MPNN 42的输入层,并被处理以判断基底面貌片断是已知的还是未知的。
现在返回到如图2所示的MPNN 42的初始培训结构,如上所述,每个模式结点都被分配了加权向量W,所述加权向量W等于面貌类别中样本培训图像的标准化输入特征向量X。因为以同XD相同的方式来从样本图像中提取培训的输入特征向量,所以两个矢量具有相同的维数(在用于提取的33维代码向量的示例性的实施方式中是33)并表示在相应矢量维度中其各自图像的相同的特征。因此,所检测的图像的XD和类别的样本图像的加权向量W被比较以判断在XD和类别的已知面貌之间的对应性。
XD被经由输入层结点输入至MPNN 42,并且MPNN 42利用模式结点中的加权向量来评价与每个面貌类别的对应性。MPNN 42通过确定每个类别各自的PDF值的方式将XD和已知面貌类别(F1,F2,....)进行比较。首先,输入层标准化输入向量XD,(通过将其除以其幅度)以便将其缩放成对应于在离线培训期间的模式层的加权向量的在前标准化:
X D ′ = X D · ( 1 / ∑ X D 2 ) - - - ( 7 )
第二,在模式层中,MPNN 42执行在标准化的输入向量XD'和图2所示的每个模式结点的加权向量W之间的标量积,从而产生每个模式结点的输出矢量值Z:
Z 1 1 = X D ′ · W 1 1 , - - - ( 8 a )
Z 1 2 = X D ′ · W 1 2 , - - - ( 8 b )
.
.
.
Z N n _ N = X D ′ · W N n _ N - - - ( 8 n )
其中模式结点的加权向量W的参考符号(以及因此生成的输出矢量Z)如图2所示,并且如针对离线培训在上文中描述的那样。
最后,与每个类别相对应的模式结点的输出值被合计在一起并被标准化以确定每个相应的类别的输入向量XD的PDF(函数f)的值。因此,对于第j种类别Fj来说,第j种类别的模式结点的输出值Zj1-Zjn_j被使用,其中n_j是类别j的模式结点的数目。按照下述方式计算正在考虑之中的类别Fj的PDF值f:
f Fj ( X D ) = Σ l = 1 n _ j ( exp [ ( Z j l - 1 ) / σ 2 ] ) / n _ j - - - ( 9 )
其中σ是平滑因数。对j=1至N利用等式9,利用与每个相应的类别相对应的模式结点的输出值Z来分别为类别F1,...,FN计算PDF值fF1(XD),...,fFN(XD)。因为每个类别的PDF值f基于该类别的输出值Z的总和,所以类别的值f越大,则在那些类别的XD和加权向量之间的一致性越大。
MPNN 42然后选择具有输入向量XD的最大值f的类别(标记为第i种类别或者Fi)。由MPNN 42执行的对第i种类别的选择利用贝叶斯策略执行过程之一,其根据PDF寻找最低的风险成本。形式上地,贝叶斯判定规则被写为:
d(XD)=Fi如果fFi(XD)>fFj(XD)  i≠j    (10)
具有输入向量XD的最大PDF(由f度量)的类别Fi提供关于输入向量XD(与面貌图块42a相对应)可能同已知面貌类别Fi匹配的判断。在实际上认为存在匹配之前,MPNN 42生成信用度量,其将可能匹配的类别i的矢量XD的PDF同所有类别的矢量XD的PDF的总和进行比较;
Ci = f Fi ( X D ) / ( Σ j = 1 N f Fj ( X D ) ) - - - ( 11 )
如果信用度量超过信用阈值(例如,80%),那么系统查找到在输入向量XD和类别i之间的匹配。否则无法找到。
然而,如果输入向量的最大PDF值f仍然太低而不能同所表示的类别匹配,那么根据上面直接描述的决策函数结果的信用度量可能导致不需要的高信用度量。这是因为如上计算的信用度量是针对指定输入向量通过比较类别的PDF输出的相对结果而生成的。利用一维的简单通用实例来举例说明这一点:
图4表示两个类别(Cat1,Cat2)的PDF。每个类别的PDF函数在图4中通常被表示为“p(X|Cat)”(或者输入特征向量X属于类别Cat的概率),与一维特征向量X比较。显示了三个独立的一维输入特征向量XEx1、XEx2、XEx3,其用于举例说明如何可能产生不需要的高置信值。对于输入向量XEx1而言,最大PDF值与类别Cat1相对应(也就是p(XEx1|Cat1)≈0.1,并且p(XEx1|Cat2)≈0.02)。通过应用类似于等式10中给出的贝叶斯法则,从而选择Cat1。同时,为类似于在等式11中给出的XEx1的Cat1可以计算信用度量;
Confi_Ex1=p(XEx1|Cat1)/[p(XEx1|Cat1)+p(XEx1|Cat2)]    (12)
         ≈0.1/[0.1+0.02]=83%
然而,因为输入特征向量XEx1的PDF值非常低(对Cat1而言为0.1,对Cat2而言更低),所以这表示在输入向量和模式结点的加权向量之间的一致性很小,并因此应该将XEx1识别为“未知的”类别。
从图4中其他类似的不需要的结果也很明显:参照输入特征向量XEx2,因为输入特征向量XEx2与Cat1的最大值相对应,所以将其与类别Cat1相匹配是适当的。此外,以类似于等式12的方式对置信值Confi_Ex2的计算将生成大致66%的信用度量。然而,Confi_Ex2不应该低于Conf_Ex1,这是因为XEx2比XEx1更加接近Cat1的PDF的最大值。对于XEx3显示了另一个不合要求的结果,其中具有大约80%的置信值的Cat2被选择,即使XEx3同样处于Cat2的PDF的最大值一边的远处。
图5举例说明了当处理指定输入特征向量的低PDF值时用于防止这种不合需要的结果的技术。在图5中,阈值被用于图4的每一类别Cat1、Cat2。除选择具有最大PDF值的类别之外,在输入特征向量X被认为匹配之前必须满足或者超出所述类别的阈值。每个类别的阈值可以不同。例如,所述阈值可以是类别的PDF的极大值的某一百分数(例如,70%)。
如图5所示,Cat1仍然是针对特征向量XEx1具有最大PDF值的类别。然而,p(XEx1|Cat1)≈0.1,其不超过Cat1的大致是0.28的阈值。因此,确定特征向量XEx1是“未知的”。同样地,因为XEx3的PDF值不超过Cat2的阈值,所以确定XEx3是“未知的”。然而,因为XEx2的PDF值超过Cat1的阈值,所以为XEx2选择Cat1,其具有上面计算的66%的信用级。
显然当在多维的情况下可能出现类似的不合需要的情形(诸如在示例性的实施方式中33维的情况)。例如,输入多维特征向量的最大类别的PDF值仍然非常低以致难以宣布类别匹配。然而,当在信用测量中连同其他类别的PDF值(具有更低的幅度)一起使用最大PDF值时,就可以产生过高的置信值。
返回到所述示例性的实施方式,为了适当地处置指定输入向量的低PDF值输出f,采用先前所示的修改的PNN(MPNN 42)。在MPNN 42中,临时选择输入向量的具有最大PDF值f的类别。然而,类别的值f(X)必须也满足或者超出临时选择的类别的阈值。每个类别的阈值可以不同。例如,阈值可以是该类别的PDF的极大值的某一百分数(例如,70%)。针对在实施方式的MPNN中所使用的输入向量XD而生成的PDF值f的阈值处理被用作对如上的贝叶斯判定规则的修改。因此,供所述实施方式的MPNN使用的贝叶斯判定规则是:
d(XD)=Fi,如果(fFi(XD)>fFj(XD))并且(fFi(XD)≥ti)i≠j     (13)
d(XD)=未知,如果(fFi(XD)>fFj(XD))并且fFi(XD)<ti)i≠j    (14)
其中ti是与最大f(XD)相对应的面貌类别(Fi)的阈值,并且阈值基于类别Fi的PDF。(至少因为上述技术的阈值不是基于“未知的”类别的PDF,所以其不同于在″Identification Of Unknown Categories With Probabilisfic NeuralNetworks″by T.P. Washbume et al.,IEEE International Conference on NeuralNetworks,pp.434-437(1993)中所描述的其他应用的阈值。)
如果d是未知的,那么在块50中确定面貌是“未知的”。如果在MPNN的改进贝叶斯判定算法之下选择面貌类别(Fi),那么适合于以如上所述的方式针对选择的类别计算置信值(等式11)。如果置信值超过信用阈值,那么输入向量被认为与所选择的类别(Fi)相对应,并且在其与面貌类别对应的意义上说在图1的块50中确定面貌是“已知的”。在那种情况下,在块60中可以启动关于已知面貌检测的任何后续处理。这种启动是可选的,并且可以是许多其他任务的任何一个的,诸如视频索引,面貌身份的因特网搜索,编辑等等。此外,系统10可以提供输出65(诸如简易的图像或者音频警报),用于警报在视频输入的面貌图块和MPNN中的类别(已知面貌)之间的匹配。如果培训图像还包括面貌类别的个人标识(例如,相应的名字),那么可以输出该标识。另一方面,如果置信值不超过信用阈值,那么输入向量又被认为是未知的。
用于确定面貌是否是已知的或者未知的处理被分开显示为图1中的处理确定50。块50可以包括修改的贝叶斯判定规则(等式13和14)和马上将描述的后续的信用确定(等式11)。然而,虽然为了概念清楚起见将块50同面貌分类器40分开显示,但是应当理解典型地贝叶斯判定算法和信用确定是面貌分类器40的一部分。该判定处理可以被认为是MPNN 42的一部分,尽管作为选择也可以认为其是面貌分类器40的独立组件。
如果通过确定50确定面貌图像是未知的,那么图1显示了不是简单地将面貌丢弃而是所述处理变成持续的判定块100。如在下面更加详细描述的那样,利用一个或多个标准来监视具有未知面貌的视频输入20,以判断在视频中相同的面貌是否持续存在或者很普遍。如果是,那么经由输入20接收的未知面貌的一个或多个面貌图像的特征向量XD被发送给培训器80。培训器80利用面貌图像的数据来培训面貌分类器40中的MPNN 42以包括该面貌的新的类别。这种MPNN 42的“在线”培训确保视频中的突出新的(未知的)面貌将被添加作为面貌分类器中的一个类别。因此在后续的视频输入20中的相同的面貌可以被检测为“已知的”面貌(也就是,与类别相对应的面貌,尽管不一定例如用名字来“标识”)。
应当注意,当在块50中确定面貌是未知的时,启动持续处理100。监视视频输入20以判断是否满足一个或多个条件,从而指示将利用该未知面貌的图像对MPNN 42进行在线培训。所述一个或多个条件例如可以指示相同的未知面貌连续出现于视频中一段时间。因此,在持续处理100的一个实施方式中,利用任何公知的追踪技术来追踪视频输入中检测到的未知面貌。如果在视频输入中追踪面貌持续了最小的秒数(例如,10秒),那么处理块图100则认为面貌是持久的(“是”箭头)。
做为选择,持续确定块100可以考虑在面貌分类器40中被MPNN 42确定为未知的一系列面貌图像块的数据,以判断相同的未知面貌在视频中是否存在了某一时段。例如,以下四个标准可以被施加到所述序列中:
1)MPNN 42分类器以如上所述的方式将视频输入20中的一系列面貌片断识别为未知。
2)针对该序列的面貌片断所提取的特征向量XD的PDF输出的平均值很低(其中对最大值i而言“PDF输出”是值fFi(XD),即使这样也不超过阈值ti)。该特征向量的平均PDF输出的阈值典型地例如可以是小于或等于最大PDF输出的40%,并且大于最大PDF输出的20%。然而,因为该阈值易受视频数据的状态影响,所以该阈值可以根据经验来调整以便达到检测对比假阳性的期望水平。这个标准用来确认其不是已知面貌之一,也就是其是未知面貌。
3)该序列的特征向量XD的差异很小。这可以通过计算在输入向量之间的距离的方式来判断,而所述计算是通过对所述一系列的输入向量执行标准偏差确定的方式完成的。在输入向量之间的标准偏差的阈值典型地例如可以是在0.2至0.5的范围内。然而,因为该阈值同时受视频数据的状态影响,所以该阈值可以根据经验来调整以便达到检测对比假阳性的期望水平。该标准用来确认序列中的输入向量与相同的未知面貌相对应。
4)上述三个条件在块20输入的一系列面貌上持续某一段时间(例如,10秒)。
最上面的三个标准用来确认遍及整个块是同一未知面貌。第四个标准作为持续的度量,也就是说哪些未知面貌值得再培训以包含到MPNN中。在未知面貌在视频输入20中持续10秒或者更长时间的情况下,例如,从在线培训中淘汰了仅仅掠过视频短暂一段时间的虚面貌(或许与许多面貌、小量参与者等相对应)。遍及所述时段期间,面貌样本图像的特征向量XD可以被存储,并当其被执行时用于在线培训。
在序列持续一段持续的时期的情况下,处理直接向前。在那种情况下,视频输入20的面貌片断的一些或者全部特征向量XD可以被存储在缓冲存储器中,并且如果超出最小时间周期,则如下所述用于在线培训。在其它情况下,例如,在非连续的视频块中面貌可能出现非常短的一段时间,而面貌总计出现的时间超出了最小时间周期。(例如,其中有在专心于谈话的参与者之间的快速切换。)在那种情况下,持续块100中的多个缓存器的每一个都可以存储一个特定的未知面貌的未知面貌图像的特征向量,如由上面的条件1-3判断的那样。由MPNN确定为“未知的”的随后的面貌图像被存储在用于该面貌的适当的缓存器中,如由标准1-3所确定的那样。(如果未知面貌不与在现有的缓存器中找到的那些面貌相对应,则将其存储在新的缓存器中。)如果并且当用于特别的未知面貌的缓冲器随着时间的流逝积累了面貌图像的足够多的特征向量而超出最小时间周期时,则持续块100释放特征向量到分类器培训器80中,以便对缓冲器中的面貌进行在线培训110。
如果未知面貌的面貌序列被确定不满足持续标准(或者单个持续标准),那么序列的处理被终止并且所存储的任何关于未知面貌的特征向量和数据都被从存储器中丢弃(处理120)。如上所述在随着时间的推移在不同的缓存器中积累不同面貌的图像块的情况中,如果在较长的时间周期(例如,5分钟)之后随着时间的流逝而积累的面貌图像不超过最小周期,在丢弃任何一个的缓存器中的数据。
如果视频输入中确定为未知的面貌满足持续处理,那么系统10执行对MPNN 42的在线培训110以包括该未知面貌的类别。为了方便起见,随后的说明将集中在对满足持续块100的未知面貌“A”的在线培训。如上所述,在面貌A的持续的确定过程中,所述系统从经由视频输入20接收的图像序列中存储面貌A的图像的多个特征向量XD。特征向量的数目可以是针对持续确定所用的序列中所有的面貌A,或者是样本。例如,在培训中可以利用面貌A序列中10个图像的输入向量。
对于持久面貌A而言,系统处理返回到培训处理80,并且在这种情况下,执行对面貌分类器40的MPNN 42的在线培训110以包括面貌A。(例如)在面貌A的在线培训中所用的10个特征向量可以是序列中该图像的全部输入向量中具有最低差异的那些特征向量,也就是说,所述10个输入向量最接近于缓冲器中的平均值。培训器80的在线培训算法110培训MPNN 42以包括具有每个图像的模式结点的面貌A的新类别FA。
新类别FA的在线培训以与利用样本面貌图像70对MPNN 42的初始离线培训相类似的方式进行。应当注意的是:在块35中已经提取了面貌A的图像的特征向量XD。因此,用和离线培训一样的方式,分类器培训器80规范化FA的特征向量,并分配每个特征向量作为MPNN中类别FA的新模式结点的加权向量W。新模式结点同FA的类别结点相连接。
图6显示了具有新的类别FA的新模式结点的图2的MPNN。新添加的结点是除N类别以外还包括如上所述利用已知面貌的初始离线培训中所发展的相应模式结点。因此,分配给F1的第一模式结点的加权向量WA1等于经由视频输入20接收的FA的第一图像的标准化特征向量;分配给FA的第二模式结点(未显示)的加权向量WA2等于FA的第二样本图像的标准化特征向量;……;以及分配给FA的第n_A模式结点的加权向量WAn_A等于FA的第n_1样本图像的标准化特征向量。通过这种在线培训,面貌A变成MPNN中的“已知的”面貌。如上所述,MPNN 42现在能够利用图1的检测和分类处理来确定随后的视频输入20中的面貌A是“已知的”面貌。还应当注意的是:因为随后的视频输入20中的面貌图像A与MPNN的面貌类别FA相对应,所以其被认为是“已知的”。然而,这不一定意味着“识别”了面貌就表示面貌A的姓名为系统10所知。
以如上所述的方式在输入视频20中检测到的并由系统10分类为“未知的”其他面貌同样由持续处理100来处理。如果并且当另一个面貌符合在持续块100中施加的一个或多个标准时(例如,面貌B),那么培训器80以如上所述用于面貌A的方式对MPNN 42进行在线培训110。在在线培训以后,MPNN 42包括面貌B的另一个类别(具有相应的模式结点)。持续的其他的未知面貌(C、D等)也同样地用于对MPNN进行在线培训。一旦利用面貌培训MPNN,则面貌对系统而言就是“已知的”。在块20的视频输入中该面貌的随后图像被确定与在MPNN 42中为该面貌新创建类别相对应。
如上所述的实施方式利用了系统中的视频输入20。然而,本领域的技术人员很容易将在此描述的技术改成使用来自个人图像库、图像档案馆等的离散图像(诸如照片)。所述离散图像也可以例如通过利用其他的搜索软件的方式从因特网上的一个或多个站点下载。利用离散图像代替视频输入20可能需要对上述系统进行一些改进,然而这对本领域的技术人员来说是显而易见的。(例如,如果所提供的图像被限于面貌,那么可以绕过面貌检测30。)对离散图像而言,可以应用其他的标准来判断脸部是否应被认为是未知的并包括在在线培训处理中。例如,一个这样的标准是新面貌出现至少最小时间周期,所述最小时间周期可以由用户来指定。这为图像提供了类似的“持续标准”。
对图像而言,例如,在块100中,“突出”类型的标准可以用于代替持续类型的标准。例如,在一组图像之中可以仅仅存在一个图像包括特定面貌,但是希望对那个图像进行在线培训。作为一个特定实例,在用户去华盛顿旅行期间所拍摄的上百张照片中只有一张与美国总统一起拍摄的照片。应用持续标准或许不会导致对该图像的在线培训。然而,例如或许许多这样重要的单个面貌图像将被形成或者相反被收集在一起,也就是其在图像中将是“突出的”。因此,如果图像中未知面貌的尺寸大于预定阈值或者至少与MPNN 42中的阈值一样大,则可能发生在线培训。一个或多个这样的突出标准的应用也将用来排除在图像中很小的并且可能是背景图像的那些面貌。
应该注意的是:可以对离散图像应用一个或多个突出标准,或者也可以共同施加一个或多个持续标准。应当注意的是:突出标准也可以用于视频输入,用于替换持续标准或者连同持续标准一起应用。
虽然已经参照几个实施方式描述了本发明,但是本领域的技术人员应当理解的是本发明不局限于所显示和描述的特定形式。因此,在不脱离如所附权利要求所定义的本发明的精神和范围的情况下可以对形式和细节作出各种改变。例如,在本发明中使用的面貌检测30中有许多替换技术。本领域公知的一个示例性的面貌检测替换技术在“Neural Network-Based Face Detection”by H.A.Rowley et al.,IEEE Transactions On Pattem Analysis and Machine Intelligence″,vol.20,no.1,pp.23-38(Jan.1,1998)中有所描述。
此外,特征提取的其他技术可以替换如上所述的VQ直方图技术。例如,众所周知的“特征面貌”技术可以被用于比较面部特征。此外,PNN分类有许多变化,其可以用于代替如上所述的用于面貌分类的MPNN,在所述MPNN中例如可以使用如上所述的在线培训技术。此外,还有很多其他的面貌分类技术,诸如RBF、自然贝耶斯分类器和最近邻分类器之类,所述技术可以代替在上述示例性的实施方式中所使用的MPNN技术。包括适当的持续和/或突出标准的在线培训技术很容易适应这种替换技术。
同样,应当注意的是:例如,如上所述的实施方式未必一定利用N个不同的样本面貌的图像进行最初的离线培训。初始MPNN 42也可以不具有任何离线培训结点,并且可以仅以如上所述的方式用满足一个或多个持续(或者突出)标准的面貌进行专门的在线培训。
此外,除上述特别讨论到的标准以外的持续标准也属于本发明的范围。例如,面貌需要出现于视频输入中的阈值时间可以是视频中的视频内容、场景等的函数。因此,如上所述的特定技术仅是举例说明的,而非限制本发明的范围。

Claims (24)

1.一种系统(10),具有用于提供以下判断的面貌分类器:在视频输入(20)中的面貌图像没能与存储在分类器(40)中的任何一个已知面貌相对应的情况下判断所述面貌图像是未知面貌,所述系统(10)在未知面貌根据一个或多个持续标准(100)持续存在于视频输入(20)中时把该未知面貌添加到分类器(40)中。
2.根据权利要求1所述的系统(10),其中面貌分类器(40)包括随机神经网络(PNN)(42)。
3.根据权利要求2所述的系统(10),其中如果视频输入(20)中的面貌图像与PNN(42)中的类别相对应则所述面貌图像包括已知面貌。
4.根据权利要求3所述的系统(10),其中所述系统(10)通过向PNN(42)中添加未知面貌的类别和一个或多个模式结点来把未知面貌添加到PNN(42)中,借此使得该未知面貌为系统(10)所知。
5.根据权利要求2所述的系统(10),其中所述一个或多个持续标准(100)包括判断相同的未知面貌存在于视频输入中最小时间周期。
6.根据权利要求5所述的系统(10),其中在视频输入(20)中追踪未知面貌。
7.根据权利要求5所述的系统(10),其中所述一个或多个持续标准(100)包括:
a)由PNN(42)判断视频输入(20)中的一系列未知面貌;
b)所述一系列面貌的特征向量的平均概率分布函数(PDF)值低于第一阈值;
c)所述一系列面貌的特征向量的差异低于第二阈值;以及
d)标准a、b和c满足最小时间周期。
8.根据权利要求7所述的系统(10),其中最小时间周期大于或等于大约10秒。
9.根据权利要求2所述的系统(10),其中PNN(42)相对于类别向面貌图像的特征向量PDF值施加阈值以判断所述面貌图像是否是未知面貌,所述阈值是基于该类别的PDF而被确定的。
10.根据权利要求9所述的系统(10),其中所述阈值是该类别的PDF的最大值的百分数。
11.根据权利要求1所述的系统(10),其中存储在分类器(40)中的多个已知面貌包括在离线培训期间存储的面貌类别。
12.根据权利要求1所述的系统(10),其中存储在分类器(40)中的所有已知面貌是存在于视频输入中并由系统(10)添加到分类器(40)中的未知面貌。
13.一种面貌识别方法,包括下述步骤:
a)判断视频输入(20)中的面貌图像是否与已知面貌集中的已知面貌相对应,如果不相对应则判断所述面貌图像是未知的,
b)根据一个或多个持续标准(100)判断所述未知面貌是否持续存在于视频输入(20)中,以及
c)当满足步骤b中的一个或多个持续标准(100)时处理未知面貌以变成所述组中的已知面貌。
14.根据权利要求13所述的方法,其中所述一个或多个持续标准(100)包括判断同一未知面貌存在于视频输入(20)中最小时间周期。
15.根据权利要求14所述的方法,其中所述一个或多个持续标准(100)包括追踪视频输入(20)中的未知面貌最小时间周期。
16.根据权利要求14所述的方法,其中所述一个或多个持续标准包括判断在最小时间周期由以下条件得到了满足:
i)在视频输入(20)中存在一系列未知面貌;
ii)所述一系列未知面貌的特征向量的平均概率分布函数(PDF)值低于第一阈值;以及
iii)所述一系列面貌的特征向量的差异低于第二阈值。
17.根据权利要求13所述的方法,其中判断面貌未知包括判断面貌图像的特征向量PDF值相对于一个面貌类别低于阈值,其中所述阈值基于该类别的PDF。
18.根据权利要求13所述的方法,其中已知面貌集最初未包括已知面貌。
19.一种系统(10),具有用于提供以下判断的面貌分类器(40):在输入图像中的面貌图像没能与存储在分类器(40)中的任何一个已知面貌相对应的情况下判断所述面貌图像是未知面貌,所述系统(10)在输入图像中的未知面貌满足一个或多个持续标准(100)和一个或多个突出标准中的至少一个时把该未知面貌添加到分类器(40)中。
20.根据权利要求19所述的系统(10),其中输入图像是由图像档案文件提供的。
21.根据权利要求19所述的系统(10),其中所提供的输入图像是从一个或多个位置所获取的图像。
22.根据权利要求19所述的系统(10),其中所述一个或多个持续标准(100)包括判断同一未知面貌存在于最小数量的输入图像中。
23.根据权利要求19所述的系统(10),其中所述一个或多个突出标准包括判断在至少一个图像中未知面貌至少具有阈值尺寸。
24.根据权利要求19所述的系统(10),其中所述输入图像是视频图像和离散图像中的至少一个。
CNB2005800037715A 2004-02-02 2005-01-31 具有在线学习能力的连续面貌识别系统及方法 Expired - Fee Related CN100474328C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US54120604P 2004-02-02 2004-02-02
US60/541,206 2004-02-02
US60/637,370 2004-12-17

Publications (2)

Publication Number Publication Date
CN1981293A true CN1981293A (zh) 2007-06-13
CN100474328C CN100474328C (zh) 2009-04-01

Family

ID=38131603

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005800037715A Expired - Fee Related CN100474328C (zh) 2004-02-02 2005-01-31 具有在线学习能力的连续面貌识别系统及方法

Country Status (1)

Country Link
CN (1) CN100474328C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887526A (zh) * 2009-05-13 2010-11-17 索尼公司 信息处理设备和方法及系统、学习设备和方法、程序
CN101221623B (zh) * 2008-01-30 2011-11-23 北京中星微电子有限公司 一种物体类型的在线训练和识别方法及其系统
CN101216884B (zh) * 2007-12-29 2012-04-18 北京中星微电子有限公司 一种人脸认证的方法及系统
CN107506799A (zh) * 2017-09-01 2017-12-22 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置
TWI670653B (zh) * 2017-10-18 2019-09-01 大猩猩科技股份有限公司 一種基於線上學習的人臉辨識方法與系統

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216884B (zh) * 2007-12-29 2012-04-18 北京中星微电子有限公司 一种人脸认证的方法及系统
CN101221623B (zh) * 2008-01-30 2011-11-23 北京中星微电子有限公司 一种物体类型的在线训练和识别方法及其系统
CN101887526A (zh) * 2009-05-13 2010-11-17 索尼公司 信息处理设备和方法及系统、学习设备和方法、程序
CN107506799A (zh) * 2017-09-01 2017-12-22 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置
CN107506799B (zh) * 2017-09-01 2020-04-24 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置
TWI670653B (zh) * 2017-10-18 2019-09-01 大猩猩科技股份有限公司 一種基於線上學習的人臉辨識方法與系統

Also Published As

Publication number Publication date
CN100474328C (zh) 2009-04-01

Similar Documents

Publication Publication Date Title
Rahmad et al. Comparison of Viola-Jones Haar Cascade classifier and histogram of oriented gradients (HOG) for face detection
JP4579931B2 (ja) オンライン学習を用いた連続的な顔認識
US7310442B2 (en) Scene analysis surveillance system
CN101198987B (zh) 对象检测装置及其学习装置
Bhattacharya et al. Recognition of complex events: Exploiting temporal dynamics between underlying concepts
Hernandez-Diaz et al. Periocular recognition using CNN features off-the-shelf
Shah et al. Fingerprint classification using a feedback-based line detector
Mady et al. Face recognition and detection using Random forest and combination of LBP and HOG features
Hafemann et al. Meta-learning for fast classifier adaptation to new users of signature verification systems
Benkaddour et al. Human age and gender classification using convolutional neural network
Zhang Off‐line signature verification and identification by pyramid histogram of oriented gradients
CN100474328C (zh) 具有在线学习能力的连续面貌识别系统及方法
CN101099675A (zh) 带有弱分类器的组合系数的人脸检测方法
Huang et al. A method of combining multiple classifiers-a neural network approach
Borra et al. An efficient fingerprint identification using neural network and BAT algorithm
Janahiraman et al. Leaf classification using local binary pattern and histogram of oriented gradients
Prem Kumar et al. Quality grading of the fruits and vegetables using image processing techniques and machine learning: a review
Kaur et al. A novel biometric system based on hybrid fusion speech, signature and tongue
Baumann et al. Cascaded random forest for fast object detection
Aparna et al. Comparative study of CNN, VGG16 with LSTM and VGG16 with Bidirectional LSTM using kitchen activity dataset
Andrews et al. Rules and local function networks
Ciocca et al. IVLFood-WS: Recognizing food in the wild using Deep Learning
Filatov et al. Application of machine learning methods for traffic signs recognition
Herlambang et al. Cloud-based architecture for face identification with deep learning using convolutional neural network
Shen et al. Fast gender recognition by using a shared-integral-image approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090401

Termination date: 20140131