CN102081734A

CN102081734A - 对象检测装置及其学习装置

Info

Publication number: CN102081734A
Application number: CN2011100217895A
Authority: CN
Inventors: 藁谷克则; 河合富美; 王子敬
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-06-15
Filing date: 2006-06-14
Publication date: 2011-06-01
Anticipated expiration: 2026-06-14
Also published as: EP1892669A4; JP4767595B2; EP1892669A1; US20090232403A1; CN101198987B; JP2006350645A; WO2006134981A1; CN101198987A; CN102081734B; US8233720B2; EP2363829A1

Abstract

提供了一种能够高度准确地抑制处理负载增加的对象检测装置及其学习装置。对象检测装置包括：用于从输入图像中提取图像窗口作为图像的部分区域的图像窗口提取部分(210)，以及用于通过使用节点网络分别从所提取的图像窗口中检测对象的存在的网络识别器(590)，在该节点网络中，将每个具有用于识别存储在存储部分(502)中的对象的识别器的节点连接为网络。

Description

对象检测装置及其学习装置

本申请是申请日为2006年6月14日、申请号为200680021640.4、发明名称为“对象检测装置及其学习装置”的中国专利申请的分案申请。

技术领域

本发明涉及一种用于从图像中检测诸如人脸的对象的对象检测装置，以及一种用于该对象检测装置的学习装置。

背景技术

在计算机视觉中，对象检测技术被断定是应用于决定对象在图像中是否捕捉到特定对象的学科。作为对象，有汽车、行人、人脸等。在许多应用中，对象检测被认为是非常难的问题。例如，在对象是人脸的情况下，脸部看来如何很大程度上取决于人脸的方向、照明以及由太阳镜、面具等造成的部分遮挡而发生变化。此外，当画面质量失常以及在图像上叠加了噪声或者当在图像中所得到的脸部较小时，在监控系统等所使用的应用中检测人脸更加困难。

作为用于解决对象检测中问题的常见系统，有基于统计学习的模式识别技术。根据预先给出的学习样本来决定识别器的参数。作为在人脸检测中的常见方法，有使用神经网络、支持向量机、Bayes估计等方法。通常，基于特征选择技术以从输入图像中提取在识别中使用的特征量、基于识别器构建技术以构建用于根据所选择的特征量的输入决定对象是否存在的识别器、以及基于通过使用所构建的识别器来决定在图像窗口中是否存在人脸的技术，来构造这些方法。在此，“图像窗口”指的是在输入图像中的部分区域。可以从输入图像上切割出其中部分区域的位置或尺寸被改变的大量窗口。

作为识别器构建方法，有非专利文献1中已知的自适应提升(Adaptive Boosting)或Adaboost方法。在下文中，该方法被称作“Adaboost学习方法”。该方法适用于许多对象检测装置，并且在非专利文献2中陈述了使用该方法从图像中检测人脸的方法。在Adaboost学习方法中，识别器可以具有较高的误差率从而识别误差可以被设置为50％或更低，并且该识别器被称作弱分类器。在Adaboost学习方法中，通过在大量准备好的弱分类器中选择一些弱分类器并且随后组合这些弱分类器来构建误差率较低的强分类器。

作为通过使用Adaboost学习方法来实时检测正面人脸的方法，有在非专利文献2和专利文献1中陈述的方法。在人脸识别器也就是在非专利文献2和专利文献1中陈述的人脸传感器中，采用了其中串联多个强分类器的级联结构。在该级联结构中，所连接的分类器被称为级以及位于最靠近输入侧的第一级被称为第一级强分类器或在第一级处的级识别器。通过根据Adaboost学习方法执行学习并随后根据从为了学习目的的输入图像中提取的特征量连接大量的弱分类器，来构建在每一级处的识别器。针对人脸图像的学习样本来训练每一级的识别器，从而使得这些学习样本可以几乎被100％正确地识别，但是针对非人脸图像的学习样本来训练，从而使得非人脸图像的学习样本可以几乎被50％正确地识别。在第一级的级识别器决定输入图像是否对应于人脸，以及在第一级以及后面的级处的级识别器分别决定由在第一级的级识别器所决定的作为人脸的输入图像是否对应于人脸。由于由在第n级的级识别器决定为非人脸的输入图像不再被处理，并且做出该输入图像不是人脸的决定，所以可以有效地进行处理。因此，已知上述方法可以以大约每秒15帧的处理速度操作。

此外，还有通过使用不同的学习样本并且综合这些识别结果来构建多个人脸传感器从而改善识别准确度的方法。作为该方法的实例，在非专利文献2中示出了多数票决系统。非专利文献2的作者Viola等人指出制备三个级联识别器(具有级联结构的识别器)以及通过对这些输出结果的多数票决来降低识别误差。在非专利文献3示出的另一应用中，非专利文献3的作者Rowley等人训练许多神经网络以构建人脸传感器。作为连接多个传感器的结果的方法，已经提出了使用被训练的神经网络以从提出代替多数票决系统的大量神经网络传感器来输出最终结果的方法。

作为提取特征量来检测人脸的方法，在非专利文献2中Viola等人已经提出了被称作矩形特征的特征。通过分别测量由矩形滤波器所限定的矩形部分区域之间的亮度差，来提取图像窗口的矩形特征。

此外，作为另一个特征量提取方法，已经在非专利文献4中提出了“Modified Census Transform”。通过将输入图像中的3×3像素块转换为二值图像来提取特征量。将块中像素的亮度值与块中亮度平均值进行比较。如果像素的亮度值高于平均值，那么标记值1，反之如果像素的亮度值不高于平均值，那么标记值0。由此，通过顺序地排列块中所有像素的标记，来获得9-比特的信息，并且该信息被用作特征量的值。

专利文献1：美国专利申请公开2002/0102024说明书

非专利文献1：Yoav Freund，Robert E.Schapire，“A decision-theoretic generalization of on-line learning and an application to boosting”，Computational Learning Theory：Eurocolt’95，Springer-Verlag，1995，p.23-37

非专利文献2：Paul Viola，Michael Jones，“Rapid Object Detection Using a Boosted Cascade of Simple Features”，IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR)，2001December，ISSN：1063-6919，Vol.1，p.511-518

非专利文献3：H.Rowley，S.Baluja，T.Kanade，“Neural Network-Based Face Detection”，IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI)，Vol.20，No.1，1998January，p.23-28

非专利文献4：Bernhard Froba，Andreas Ernst，“Face Detection with the Modified Census Transform”，Proceedings for Sixth IEEE International Conference on Automatic Face and Gesture Recognition(AFGR)，2004May，p.91-96

发明内容

本发明需要解决的问题

然而，关于上述检测技术，存在一些问题。

第一个问题是，在非专利文献2及专利文献1中提出的级联识别器中，由处理整个输入空间的线性识别器来构造弱分类器。增加/训练弱分类器以补偿之前的弱分类器的识别误差。在这种情况下，当新近增加了经过训练的弱分类器时，通过连接这些弱分类器所构造的整个识别器的误差可以逐渐地降低并且在输入空间的某部分区域中可以改善误差，但是在另一部分区域中会产生识别误差。因此，当在包含对象(例如人脸)的图像和不包含对象的图像之间图像特征非常相似时，通常在级联识别器后面级的强分类器不能线性地分离在特征间隔上的这些数据，并由此增加识别误差的发生率。因此，需要大量的弱分类器，以及增加了在识别时所处理的识别的数目。

此外，在学习级识别器时，由每一级的不同的图像样本来学习不包含对象的图像(在下文中称作“对象无对象图像”)，并随后选择出适合学习中的对象无对象图像的最好的(最可识别的)弱分类器。相反，在所有级，必须对象将包含对象的图像(在下文中称作“对象图像”)识别为对象自身，并且由相同的图像样本来学习包含对象的图像。然而，例如，当对象是人脸时，人脸图像的特征根据人脸的方向/倾斜、照明条件、个人特征、种族、被太阳镜、面具、头发等的遮挡而大大不同。在图像中的正面向前并且具有清楚的眼睛、鼻子、嘴等的人脸易于识别，然而当人脸的特征被方向、照明等减弱时，人脸难以识别。尽管有这些情况，在现有技术中的识别器依然通过使用相同的弱分类器来处理这些人脸特征。不存在用于处理容易与非人脸区分开的人脸图像的机制。此外，由于不能实现响应每个人脸的特征的识别，所以难以高度准确地检测复杂的人脸特征。

第二个问题是，在非专利文献2及专利文献1中的级联结构中，从某一级处的强分类器到另一级处的强分类器之间没有信息传递。在现有技术的系统中，在某一级处的弱分类器不知道在先前级处的强分类器的输出值。因此，例如，当对象是人脸图像时，构建用于检测正面向前并且易于被识别为对象的人脸的传感器可以通过级联结构来实现，但是对于级联结构，难以实现检测复杂人脸(例如面向不同方向的人脸图像)为对象的传感器，复杂人脸的输入空间是复杂的并且其识别器延伸到高阶。当强分类器执行学习不是为了知道在先前级的强分类器的结果时，从总体上最令人满意地将学习人脸/非人脸样本分离的弱分类器中选择在该强分类器中所使用的弱分类器。相反，如果给出关于在先前级处的强分类器识别样本(也就是说，样本是否位于人脸和非人脸之间的边界周围)是困难还是容易的信息作为在先前级处的强分类器的结果，那么可以通过采用这样的信息，将用于令人满意地识别在人脸与非人脸之间的边界周围的样本的弱分类器包括进来。因此，可以快速地在特征空间上找出人脸/非人脸之间的边界。因此认为：在实现构建可以识别具有复杂识别边界的诸如朝向不同方向的人脸的复杂人脸等的传感器中，在前级处的强分类器的信息是不可缺少的。

第三个问题是，在非专利文献2中陈述的多数票决系统中，由于多个传感器并行操作，所以处理负载较重。此外，由于分别单独地训练级联识别器，所以不清楚这些识别器是否互补地工作。而且，在识别器之间没有信息共享。多数票决方法不是适用于连接多个传感器结果的最佳方法。例如，如在非专利文献4中所陈述的，当训练完全不同的识别器并且构建多个识别器以输出最佳结果时，处理时间变得更短。

第四个问题是，在非专利文献2及专利文献1中，基于亮度值并由Viola等人提出的矩形特征对于照明环境是敏感的。例如，图15是说明现有技术中矩形特征问题的视图，以及矩形特征是由图15中的斜线所遮蔽的矩形1220与矩形1221之间的亮度差值。例如，在图15(B)中的人脸图像1202中的人脸的部分上，照明的影响看起来较强，以及该图像中的亮度值差具有与图15(D)中的非人脸图像1212相似的值。此外，因为仅仅测量矩形块中的亮度信息作为特征量，所以从特征量不能获得重要的排列信息。例如，由于图15(C)中的非人脸图像1211与图15(A)中的人脸图像1201都具有相同数目的每个具有低亮度值的像素，所以它们具有在相同范围内的亮度差值。在识别图像中，具有高/低亮度值的像素的空间分布是非常重要的，然而在特征提取过程中，没有考虑这种分布。在其中非人脸图像与人脸图像彼此非常相似的后级处的识别器中，在分离人脸与非人脸时，矩形特征变得不那么有效并由此增加了识别误差。这种事件作为极大增加级识别器中的特征量数目的因素。

作为不同的方法，有如在非专利文献1中所述的基于模式的“modified census transform”特征量。然而，由于该方法只提取局部特征量，所以这种方法对于噪声的影响变得敏感。例如，图16是说明现有技术中特征量的问题的视图。转换模板从3×3像素块1250获得特征量。当块1250被转换为在二值块1251中所示的二值化值时，上面叠加了噪声的非人脸图像1231被转换为与人脸图像1201相同的二值块值。这是因为从“modified census transform”特征量中完全忽视了亮度信息。由于“modified census transform”特征量使用像素作为单元，所以像素块被过度地局部化并且不能在全部位置上获得特征量。

鉴于上述情况，提出了本发明，以及本发明的目的是提供能够高度准确地抑制处理负载的增加的对象检测装置及其学习装置对象。

解决问题的方法

第一方面，本发明的对象检测装置包括：图像窗口提取部分，用于从输入图像中提取多个图像窗口作为图像的部分区域；以及对象检测部分，用于通过使用节点网络分别从所提取的图像窗口中检测对象的存在，在节点网络中，将每一个具有用于识别对象的识别器的节点连接为网络。

根据该结构，通过使用节点网络来识别图像窗口从而检测对象的存在。因此，可以高度准确地抑制处理负载的增加。

第二方面，在根据本发明的第一方面的对象检测装置中，节点具有多个识别器。

第三方面，在根据本发明的第一或第二方面的对象检测装置中，对象检测部分具有用于在节点网络中生成至少一个路径的路线生成部分，以及用于在每个所生成的路径中执行对象的识别过程并且输出识别结果以表示图像窗口是否包含对象的识别部分。

第四方面，在根据本发明的第三方面的对象检测装置中，对象检测部分决定在图像窗口中的节点网络中是否存在还未评估的新路线，并且根据决定结果来重复路线生成部分的路线生成过程以及识别部分的识别结果输出过程。

第五方面，在根据本发明的第四方面的对象检测装置中，重复路线生成过程以及识别结果输出过程，直到重复的数目达到预定的次数或者不生成新路线。

第六方面，在根据本发明的第三到第五方面中任何一个的对象检测装置中，路线生成部分具有用于决定至少一个路线从而使得路线的数目不超出预定数目的路线决定部分，以及分割网络上的每个路线以生成新路线的功能。

第七方面，在根据本发明的第三到第六方面中任何一个的对象检测装置中，识别部分具有：评估部分，用于在每个生成的路线中执行识别过程以获得识别结果和识别误差；选择部分，用于选择具有最低识别误差的路线中的识别结果作为节点网络的识别结果；以及停止决定部分，用于决定当最低识别误差变得小于预定值时，停止在评估部分中的识别过程。

第八方面，在根据本发明的第七方面的对象检测装置中，评估部分具有：提取部分，用于在所生成路线的各个节点处提取图像窗口的特征量值；应用部分，用于将特征量值应用于识别器以得到所生成路线的各个节点的评估值；结合部分，用于结合各个节点的评估值以生成所生成路线的累积评估值；识别部分，用于通过采用累积评估值以获得所生成路线的识别结果，从而识别图像窗口是否包含对象物；以及误差估计部分，用于估计关于所生成路线的识别结果的识别误差。

第九方面，在根据本发明的第一到第八方面中任何一个的对象检测装置中，响应图像窗口中的特征来改变在最终结果的决定中是否利用由在各个节点处的识别器所获得的识别结果。

第十方面，在根据本发明的第一到第八方面中任何一个的对象检测装置中，响应图像窗口中的特征来改变在最终结果的决定中以何种比率利用由在各个节点处的识别器所获得的识别结果。

第十一方面，在根据本发明的第十方面的对象检测装置中，根据图像窗口中的特征与在识别器的学习中所使用的图像特征之间的差异，来决定在最终结果的决定中以何种比率利用由在各个节点处的识别器所获得的识别结果。

第十二方面，在根据本发明的第一到第八方面中任何一个的对象检测装置中，当识别器基于提升方法时，基于两个值之间的差异来决定某个识别器对于最终结果的决定的贡献比率，其中，第一个值为在图像窗口中的所关注识别器之前的所有识别器的累积评估值，而第二个值为当基于学习图像构建所关注识别器时的该关注识别器之前的所有识别器的累积评估值中识别误差最高的累积评估值。

第十三方面，在根据本发明的第一到第八方面中任何一个的对象检测装置中，基于两个值之间的差异来决定在各个节点处的识别器对于累积评估值的贡献比率，第一个值为在节点的父节点处的图像窗口的累积评估值，第二个值为：当基于学习图像构建在所关注节点处的特征分类器时，所关注节点的父节点处的累积评估值中识别误差最高的累积评估值。

第十四方面，在根据本发明的第一到第十三方面中任何一个的对象检测装置中，当对于某个节点存在多个父节点时，对象在父节点处的累积评估值的范围内，对象检测部分在当学习在所关注节点处的特征分类器时在学习图像中的所关注节点的父节点处的累积评估值中搜索包含最大识别误差的累积评估值。

第十五方面，用于对象检测装置的本发明的学习装置，该对象检测装置具有节点网络学习部分，用于通过使用其中将每个具有用于识别对象的识别器的节点连接为网络的节点网络来在网络结构中动态地学习识别器，以及该节点网络学习部分具有：空闲节点生成部分，用于在节点网络中生成至少一个空闲节点；学习图像收集部分，用于收集用来学习空闲节点的多个图像；以及节点学习部分，用于利用收集的图像来学习空闲节点。

第十六方面，在根据本发明第十五方面的学习装置中，节点网络学习部分决定是否可以生成新空闲节点，并且根据决定结果来重复在空闲节点生成部分、学习图像收集部分以及节点学习部分中的过程。

第十七方面，在根据本发明第十五或第十六方面的学习装置中，空闲节点生成部分当节点网络空闲时生成作为基准的节点，以及通过结合和分割已经存在于节点网络中的节点来生成新空闲节点。

第十八方面，在根据本发明第十五到第十七方面中任何一个的学习装置中，当通过学习图像收集部分所收集的图像数目不足时，空闲节点生成部分去除该节点。

第十九方面，在根据本发明第十五到第十八方面中任何一个的学习装置中，学习图像收集部分为正在构建的节点网络提供图像作为输入，传播图像以通过传播图像在空闲节点之中共享图像，以及收集到达各个空闲节点的图像。

第二十方面，在根据本发明第十五到第十九方面中任何一个的学习装置中，将提升算法应用到节点学习部分。

第二十一方面，在根据本发明第二十方面的学习装置中，节点学习部分根据提升算法从收集到的图像中决定子集，并且通过使用该子集分别为收集到的图像添加权重。

第二十二方面，在根据本发明第一到第十四方面中任何一个的对象检测装置中，对象检测部分通过利用图像窗口中的像素的空间分布信息以及像素的强度信息来检测对象。

第二十三方面，在根据本发明第二十二方面的对象检测装置中，像素的空间分布信息表示：在每个由一个或多个像素构造的多个像素块之中，各个像素块中特征量值的大小关系以及在图像上各个像素块的排列关系。

第二十四方面，在根据本发明第二十三方面的对象检测装置中，像素的强度信息结合空间分布信息表示在各个像素块中的特征量值的强度的大小关系。

第二十五方面，在根据本发明第二十三或第二十四方面的对象检测装置中，将矩形模板应用于每一个像素块。

本发明的优势

根据本发明，可以提供能够高度准确地抑制处理负载增加的对象检测装置及其学习装置。

附图说明

[图1]示出根据本发明实施例的对象检测装置的示意性结构的方框图。

[图2]示出根据本发明实施例的节点网络的概念视图。

[图3]示出根据本发明实施例的路径生成部分的处理过程的流程图。

[图4]示出根据本发明实施例的图像窗口检测处理部分的处理过程的流程图。

[图5]示出根据本发明实施例的对象检测学习装置的示意性结构的方框图。

[图6]示出根据本发明实施例的空闲节点生成部分的处理过程的流程图。

[图7]说明根据本发明实施例的空闲节点生成的概念视图。

[图8]示出根据本发明实施例的图像样本收集部分的处理过程的流程图。

[图9]示出根据本发明实施例的节点学习部分的处理过程的流程图。

[图10]示出根据本发明实施例的特征提取部分的示意性结构的方框图。

[图11]示出根据本发明实施例的用于特征提取的矩形模板实例的视图。

[图12]示出根据本发明实施例的特征提取部分的处理过程的流程图。

[图13]说明根据本发明实施例在特征提取部分中的处理过程的说明视图。

[图14]示出根据本发明实施例的用于特征提取的矩形模板的另一实例的视图。

[图15]说明现有技术中矩形特征的问题的视图。

[图16]说明现有技术中特征量的问题的视图。

附图标记的描述

201输入部分

202输出部分

210图像窗口提取部分

390特征提取部分

502存储部分

520路径生成部分

530图像窗口检测处理部分

590网络识别器

710空闲节点生成部分

720图像样本收集部分

730节点学习部分

790网络学习部分

具体实施方式

接下来，将在下文说明根据本发明实施例的对象检测装置。在下面，通过具体实例同时使用人脸作为对象来进行说明。

<检测系统的结构>

图1是示出根据本发明实施例的对象检测装置的示意性结构的方框图。如图1所示，根据本实施例的对象检测装置包括输入部分201、图像窗口提取部分210、存储部分502、网络识别器590以及输出部分202。

图像窗口提取部分210从来自输入部分201的图像输入中提取多个图像窗口。在此，“图像窗口”指的是在输入图像中的部分区域。可以从输入图像上切割出大量其中部分区域的位置或尺寸被改变的窗口。

存储部分502存储(accumulate)节点网络。图2是示出根据本发明实施例的节点网络的概念视图。网络100具有排列在网络上的多个节点。

在图2中，示出了网络的基本单元110。基本单元110由作为一个节点的“节点N”111、用于最多结合来自M个节点的连接的连接部分117、以及用于最多被分割为N个节点的分割部分118组成。例如，在图2中图示说明了M＝N＝2的情况。此外，M个节点被称为节点N的父节点，以及N个节点被称为节点N的子节点。

在图2中的情况下，节点N的父节点分别是节点112、113，以及节点N的子节点分别是114、115。没有父节点的节点被称为路线节点(在图2中的101)。输入图像170被输入到路线节点101中。

每个节点具有多个识别器，以及识别器具有特征分类器h_n、对象识别器H_n以及识别误差函数E_n。可以通过局部地使用提升算法来构建识别器，例如，如在Jin R.，Hauptmann A.，Carbonell J.，Si L.，Liu Y.，“A New Boosting Algorithm Using Input Dependent Regularizer”，20^thInternational Conference on Machine Learning(ICML’03)，Washington DC，August 21-23，2003(下文中称作“文献A”)中所陈述的。提升学习方法中的弱分类器可以被用作特征分类器，以及提升学习方法中的强分类器可以被用作对象识别器。

说明将返回到图1中的对象检测装置。网络识别器590是具有网络结构的识别器，以及从图像窗口提取部分210获得图像窗口并随后通过使用存储在存储部分502中的节点网络来识别在每个图像窗口中是否包含对象。

网络识别器590具有路径生成部分520以及图像窗口检测处理部分530。路径生成部分520读取存储在存储部分502中的节点网络的信息，并且生成至少一个路径(路线)或更多。路径是选择用来处理图像窗口的节点序列。

图像窗口检测处理部分530获得来自图像窗口提取部分210的图像窗口，并且经由由路径生成部分520所生成的路径来处理图像窗口。在此，在每个路径中，通过由上述每个节点处的识别器(特征分类器h_n、对象识别器H_n、识别误差函数E_n)执行操作来生成表示图像窗口是否包含对象的识别结果。当要需要输出该识别结果时，选择识别误差最低的识别结果并且将其存储在输出部分202中。

然后，图像窗口检测处理部分530指示路径生成部分520生成新路径，并且重复上述识别过程直到不再生成新路径或者直到重复达到了预定的次数。

图3是示出根据本发明实施例的路径生成部分的处理过程的流程图。首先，路径生成部分520决定在网络中是否有生成的路径(步骤621)。如果没有路径存在，那么生成只包含路线节点的路径(步骤622)。然后，路径生成过程结束。

如果路径存在，那么路径生成部分520决定网络中所生成的路径数目是否大于预先设置的K(步骤623)。例如，可以将1、2、3等设置为K的值。如果路径数目超过K，那么终止具有较高识别误差的路径以便将路径数目抑制到最多为K个(步骤624)。在此，根据已经由图像窗口检测处理部分530检测到的路径来作出决定。此外，措词“终止路径”意味着不再处理经由某路径输入的输入图像。

通过分别分割现有路径来生成更多的路径(步骤625)。例如，将考虑某一路径包含{node₀，node_a，node_b}的情况。此时，例如，生成node_b，child1和node_b，child2作为节点b的子节点，并且生成新路径{node₀，node_a，node_b，node_b，child1}和{node₀，node_a，node_b，node_b，child2}。

图4是示出根据本发明实施例的图像窗口检测处理部分的处理过程的流程图。

图像窗口检测处理部分530评估表示图像窗口是否包含对象的各个生成路径的识别结果。例如可以通过在上述文献A中所陈述的局部提升来获得识别结果。从所生成路径的所有识别结果中选择要输出的识别结果。

下面将说明图4中的流程图的各个步骤。首先，图像窗口检测处理部分530在所生成路径的每个节点处从输入图像窗口中提取特征量(步骤631)。在此，假设输入图像窗口是X以及在节点N处所提取的特征量是f_n(X)。例如，通过使用图10所示的特征提取部分390来处理特征提取，并且将在后面描述其细节。

然后，将所提取的特征量f_n(X)提供给识别器，并且计算所生成路径中每个节点的得分h_n(X)(步骤632)。通过特征分类器h_n得到得分h_n(X)，以及通过下面的公式(1)来计算得分h_n(X)。

[公式1]

h_n(X)＝Prob(Y＝+1|f_n(X))-Prob(Y＝-1|f_n(X))…(1)

在上面的公式(1)中，Prob(k)表示事件k将发生的概率。Y＝+1以及Y＝-1分别表示输入图像包含对象的情况以及输入图像不包含对象的情况。

然后，对各个节点得分进行积分以评估所生成路径的累积得分S_n(X)(步骤633)。可以通过下面的公式(2)来计算累积得分S_n(X)。

[公式2]

S_n(X)＝S_n，parent(X)+exp(-|S_n，parent(X)-α_n|)*h_n(X)…(2)

其中，S_0，parent(X)＝0，α₀＝0

正则化函数exp(-|S_n，parent(X)-α_n|)响应输入图像局部化由特征分类器h_n(X)所生成的影响，并且只有当S_n，parent(X)取值足够接近正则化参数α_n时才将输入图像X添加到累积得分S_n(X)。因此，在某种情况下，exp(-|S_n，parent(X)-α_n|)几乎变为0，并且有时新值S_n(X)的取值与旧值S_n，parent(X)相对没有什么差异。

然后，图像窗口检测处理部分530根据每个路径的累积得分S_n(X)和识别结果H_n(X)来决定图像窗口是否包含对象(步骤634)。在此，可以从对象识别器H_n得到识别结果H_n(X)或者可以通过下面的公式(3)来计算识别结果H_n(X)。

[公式3]

H_n(X)＝+1指的是表示图像窗口包含对象的识别结果，以及H_n(X)＝-1指的是表示图像窗口不包含对象的识别结果。

然后，图像窗口检测处理部分530估计路径的识别结果的识别误差E_n(X)(步骤635)。可以通过误差函数E_n(误差函数)得到识别误差或者通过下面的公式(4)来计算识别误差。

[公式4]

E_n(X)＝Prob(H_n(X)≠Y|S_n(X))＝Prob(H_n(X)≠Y|S_n，parent(X)，h_n(X))…(4)

此外，为了降低应用在计算中的处理负载，可以将函数h_n安装为由下面的公式(5)给出的查找表。而且，可以将函数E_n、H_n以及S_n安装为由下面的公式(6)给出的二维查找表。

[公式5]

h_n(X)＝LookUpTable(f_n(X))…(5)

[公式6]

[E_n(X)，S_n(X)，H_n(X)]＝LookUpTable(S_n，parent(X)，h_n(X))…(6)

然后，图像窗口检测处理部分530通过重复步骤631至635来评估各个路径的识别结果以及识别误差(误差函数)(步骤636)。然后，图像窗口检测处理部分530从所生成路径的识别结果中选择具有最低识别误差的识别结果作为输出结果(步骤637)。

然后，当输出结果的识别误差小于预定值时，图像窗口检测处理部分530终止识别过程(步骤638)。在这种情况下，当输出结果的识别误差不小于预定值时，图像窗口检测处理部分530指示路径生成部分520生成新路径。然后，路径生成部分520生成路径。

当网络识别器590的图像窗口检测处理部分530以这种方式识别图像窗口并且结果是窗口包含对象时，输出部分202输出图像窗口的位置(例如在输入图像上的坐标值)、尺寸等信息。

以这种这样，由于路径生成部分520结合并分割网络，所以可以构建大量的路径。此外，在评估识别结果中使用了各个路径，以及网络作为大量传感器的池(pool)。通过使用一组传感器可以输出比通过单个识别器获得的输出结果更加可靠的输出结果。

此外，由K来限制路径的数目以确保高速的识别过程。为了确保最佳的识别结果，动态地生成路径并且在识别过程中还终止具有较高识别误差的路径。因此，只使用相对于输入具有较低识别误差的路径。

因此，在现有技术中的并联装置中统计地操作并行传感器，并且并行传感器在识别过程中不能被改变，而在本实施例的对象检测装置中动态地改变所利用的传感器并且可以抑制不必要的过程。

此外，由于在图像窗口检测处理部分530中利用提升算法，所以确保将新近生成路径的识别误差降低为统计上小于旧路径的识别误差。此外，上述公式(2)可以确保局部地应用提升并且识别器h_n(X)只作用于输入图像的子集上。

此外，由于停止识别误差足够低的过程的本方法，可以实现识别过程的加速。这是由于即使输入图像可能包括对象或可能不包括对象，对象也可以在早期识别容易处理的输入图像，并由此可以将用于识别的必要节点的数目抑制到较小水平。

此外，本方法在早期可以只认识被识别为不包含对象的输入图像窗口，并随后通过固定数目的识别器来执行过程。因此，本方法比现有技术中的级联结构更加有效。

<用于对象检测的学习方法和系统>

图5是示出根据本发明实施例的对象检测学习装置的示意性结构的方框图。与图1中示出的对象检测系统中重复的部分被附上相同的附图标记。如图5所示，对象检测学习装置包括输入部分701、网络学习部分790以及存储部分502。该对象检测学习装置接收伴随有决定结果信息(是否存在对象)的多个图像样本，并且使得对象检测装置中所使用的节点网络的节点的识别器进行学习。在这种情况下，包含有目标对象的图像样本被称为正样本，以及不包含目标对象的图像样本被称为负样本。

当为输入部分701提供多个图像样本时，网络学习部分790决定已经进行过学习的节点网络以识别多个图像样本。在这里决定的节点网络被存储在存储部分502中，并且用于网络识别器方框590的识别过程中以识别图像窗口中是否具有对象的实例。

如图5所示，网络学习部分790具有空闲节点生成部分710、图像样本收集部分720以及节点学习部分730。在此，空闲节点表示还没有为其决定识别器的节点，以及学习节点表示已经为其决定识别器的节点。为了为网络节点决定识别器，例如，可以采用在上述文献A中所陈述的局部提升算法。

首先，空闲节点生成部分710读取保存在存储部分502中的当前节点网络并且为了学习生成空闲节点。然后，空闲节点生成部分710通过使用图像样本收集部分720来从多个输入图像样本701中收集预定数目的图像样本。如果收集到的图像样本的数目小于预定的数目，那么由于节点学习部分730不能执行学习所以删除该空闲节点。

然后，节点学习部分730最终决定对应于通过使用由图像样本收集部分720所收集的图像样本而生成的各个空闲节点的识别器。

重复这些学习过程直到空闲节点生成部分710不生成空闲节点。

图6是示出根据本发明实施例的空闲节点生成部分的处理过程的流程图。在步骤811，决定节点网络是否空闲。当没有节点存在时，假定网络是空闲的。如果节点网络是空闲的，那么通过生成空闲路线节点(node₀)来启动网络(步骤812)。

相反，如果节点网络不是空闲的，也就是说，如果存在至少一个节点，那么通过结合和分割该节点来生成新空闲节点并使得子节点的数目小于N(步骤813)。在此，将在下面说明该空闲节点生成过程。

图7是说明根据本发明实施例的空闲节点生成的概念视图。通过分割来自当前节点网络901的节点960、961、962、963来形成相应的空闲节点950、951、952、953，使得相邻的空闲节点共享共有的父代。例如，节点950与节点951具有一个共有的父节点。

返回到图6，将在下面说明生成空闲节点的过程。在步骤814，由图像样本收集部分720分别在空闲节点中收集预定数目T(例如10000)个图像样本。

在步骤815，删除其中不能收集到足够数目的图像样本的空闲节点。例如，当图像样本的数目小于T时，删除空闲节点。

图8是示出根据本发明实施例的图像样本收集部分的处理过程的流程图。

在步骤821，通过使用保存在存储部分502中的节点网络的识别中所使用的路径来传送输入图像样本组701。例如，在步骤821，图像样本收集部分720执行与网络识别器590相似的过程，并且生成一个或多个路线用于通过与在检测对象中所采取的相同操作来识别一个图像样本。生成图像样本的拷贝，通过所生成的网络路径传播该拷贝，并且该拷贝到达位于路线尾端的节点。在那时，由于在网络上可能存在以多种方式生成的路线，所以有时图像样本的多个拷贝到达相同的节点。

在这种情况下，图像样本收集部分720的操作是与检测对象中网络识别器590的操作相同的操作。因此，当在某个节点处将识别图像中的识别误差抑制到足够小时，终止那里的用于图像的路径并且还将路径数目限制为小于预定的数目。

在步骤822中，与空闲子节点共享已经到达父节点的图像样本组。(例如，当在一个子节点处存在多个父节点时，子节点获得来自各个父节点的图像样本组的并集作为图像样本。当在一个父节点处存在多个子节点时，各个子节点从共有的父节点接收相同的图像样本组。)也就是说，在子节点中分别生成在步骤821中已经到达父节点处的图像的拷贝。

正样本表示为(X，Y＝+1)，以及负样本表示为(X，Y＝-1)。由公式(2)相对于一个空闲节点来决定在父节点处的图像样本的累积得分S_n，parent(X)。在空闲节点处的图像样本组表示为(X，Y，S_n，parent(X))。

在步骤823中，图像样本收集部分720收集到达各个空闲节点的图像样本，最多收集T个样本。例如，图像样本收集部分720从到达空闲节点的所有图像样本中随机选择T/2个正样本以及T/2个负样本。

图9是示出根据本发明实施例的节点学习部分的处理过程的流程图。

节点学习部分730决定所收集的图像样本组的子集以学习空闲节点n，以便在父节点处增加了识别误差。然后，以这样的方式决定权函数，以便生成被局部化并且专门化用于集中在子集中进行学习的识别器。将按照合适的顺序说明该节点学习部分的行为。

在步骤831，节点学习部分730响应图像样本通过改变当考虑累积得分时所应用的权重，来决定应用于专门化节点的识别器的图像样本的子集。图像样本的子集是在父节点处给出最高识别误差的子集。过程如下给出。

首先，由图像样本收集部分720所收集的图像样本组被表示为(X，Y，S_n，parent(X))。然后，由上述公式(4)决定对于图像样本组的当前识别误差E_n，parent(X)。然后，由下面的公式(7)同时使用识别误差E_n，parent(X)来决定正则化参数的值α_n。

利用公式(7)在α_n，parent1和α_n，parent2之间选择α_n以便具有接近于α_n的累积得分S_n，parent(X)的图像样本组在父节点处具有最大的识别误差E_n，parent(X)。也就是说，进行选择以按照集中的方式学习在前级处不能被满意地识别的图像。因此，期望在节点n处的识别器学习被选择以便识别误差在父节点处达到最大的图像样本的子集，从而降低识别误差。

通过下面的公式(7)同时使用正则化函数exp(-|S_n，parent(X)-α|)来决定值α_n。正则化函数及累积得分都与对象检测装置中的相同。

[公式7]

α_{n} = \underset{α_{n, parenta} \leq α \leq α_{n, parent 2}}{\arg \max} {\underset{All collected image samples}{Σ} E_{n, parent} (X) * \exp (- | S_{n, parent} (X) - α |) . . . (7)

也就是说，在α_n，parent1＜α＜α_n，parent2范围内选择最大化在所有收集到的图像样本中的在父节点的识别误差与正则化函数的乘积的总和的α作为α_n。在这种情况下，当存在三个或更多父节点时，将α的选择范围设置为min(α_n，parent)＜α＜max(α_n，parent)。此时，当只存在单个父节点时，由以下公式(8)给出该值。

[公式8]

照这样，通过步骤831，决定用来专门化识别器的图像样本的子集作为图像样本的集合，其最大化在父节点处的识别误差。

然后，在步骤832，节点学习部分730通过使用在步骤831中决定的子集分别决定所有收集到的图像样本的权重。加权的学习样本组表示为(X，Y，w(X))。在此，通过下面的公式(9)数学地表示权函数w(X)。

[公式9]

w(X)＝exp(-|S_n，parent(X)-α_n|)*exp(-Y*S_n，parent(X))/w_sum…(9)

其中，当w(X)是分布时，W_sum是归一化常数。在该公式中，在

的情况下权重较大，以及在|S_n，parent(X)-α|较大的情况下，权重较大。

然后，在步骤833中，节点学习部分730通过使用加权的图像样本组来决定节点n的不同节点识别器。要决定的识别器是分别由公式(1)、(3)、(4)给出的特征分类器h_n、对象识别器H_n以及识别误差函数E_n。在此，例如从上述文献A中的提升算法中发现的特征量中选择可以提供最佳识别的一个特征量，并且使用该特征量作为特征量。

此外，特征分类器h_n可以由公式(10)来决定。

[公式10]

h_{n} (X) = P_{w} (Y = + 1 | f_{n} (X)) - P_{w} (Y = - 1 | f_{n} (X)) = \frac{Σ w_{+} - Σ w_{-}}{Σ w_{+} + Σ w_{-}} . . . (10)

在该公式中，P_w(j)表示在分布w中事件j发生的加权概率。此外，f_n(X)是通过使用最佳选择的特征量(＝提供最佳识别结果)而提取的图像样本X的特征量，例如，通过使用在图10中的特征提取部分390(将在后面描述)而提取的特征量。此外，∑w₊、∑w_-分别是具有特征量f_n(X)的正样本和负样本的权重的总和。

累积得分S_n(X)由公式(2)使用正则化参数的值α_n以及特征分类器h_n(X)来决定。由此，利用公式(11)、(12)来决定条件概率。

[公式11]

Prpb (Y = + 1 | S_{n} (X)) = \frac{C_{+}}{C_{+} + C_{-}} . . . (11)

[公式12]

Prpb (Y = - 1 | S_{n} (X)) = \frac{C_{-}}{C_{+} + C_{-}} . . . (12)

其中，C₊和C_-分别是具有累积得分S_n(X)的正样本和负样本的计数(件数)。对象识别器H_n由公式(3)使用条件概率来决定。

此外，对象识别器的识别误差En(X)由公式(13)来表示。

[公式13]

E_n(X)＝min{Prob(Y＝+1|S_n(X))，Prob(Y＝-1|S_n(X))}…(13)

其中，min{a，b}分别表示a和b的最小值。以这种方式，决定在每个节点处的特征分类器h_n、对象识别器H_n以及识别误差函数E_n。通过上述的一系列过程完成节点学习过程。

以这种方式，在本发明的实施例中的网络学习部分790具有下面的优势。

首先，可以由空闲节点生成部分710使用多个路线的识别结果来决定对象。因此，网络学习部分790具有相比现有技术中的级联结构可以更有效地作出决定的优势。

在本实施例中，由于采用节点的结合及分割，所以存在经由连接路径连接到一个低层节点的多于一个的高层节点。由于已经通过提升算法学习的特征分类器被用作相应节点的特征分类器并且这些识别器的结果被传送到一个或多个低层识别器，所以低层识别器可以通过采用在这多个路线中的识别器的所有信息来作出对象的决定。

这个优点以及可以通过采用在多个路线中的识别器的所有信息来作出决定的优点构成了相对于现有技术中的级联结构的优势，在现有技术的级联结构中，在一级的弱识别器不具有在另一级的弱识别器的信息。相反，在现有技术中，只将弱识别器的信息传递到在相同级的随后的弱识别器。这一优势对应于在后面描述的第三特征。

此外，从学习的观点看，空闲节点生成部分710具有下面的优势。采用现有技术中的级联结构的对象传感器中，在某一级的弱分类器从来不利用在另一级的弱分类器的信息。相反，在本实施例的系统中，可以通过利用属于在空闲节点生成流程中的多个级识别器的多个弱分类器的信息，来致使空闲节点进行学习。

此外，由于在本系统中采用了节点的结合和分割，所以存在从路线节点延伸到新近生成的空闲节点的路径以及从路线节点延伸到对应于级识别器的空闲节点的相应路径。各个高层节点是已经通过提升算法学习的特征分类器，以及实现了可以通过利用属于多个级识别器的特征分类器的结果来学习空闲节点的构造。

在已知作为现有技术实例的多数票决系统中，在并行操作的多个传感器中使用决定。与此相反，本发明的实施例具有下面的优势。

首先，在节点网络中生成有限数目的路径。因此，不像多数票决系统，计算复杂度不因为路径数目而增加那么多。此外，使得应用于学习/生成节点网络中的多个空闲节点的标准比较清楚。因此，可以有效地执行基于多个路径的学习，并由此可以解决第三问题，即，在现有技术的多数票决系统中不清楚各个级联识别器是否互补地操作的这一问题。以这种方式，可以实现比现有技术更加有效的总体学习。

然后，可以通过图像样本收集部分720获得如下给出的优势。首先，在本发明的实施例中，与多个空闲节点共享图像样本组。因此，可以通过一张学习图像来同时学习一个或多个路线的节点。

结果，可以由网络识别器有效地识别图像样本，网络识别器由到达相同空闲节点的多个路线构造并且利用来自多个路线的识别结果，不像其中一个图像样本由一个识别器所识别的情况。这一优势对应于将在后面描述的第二特征。这可以由其中图像样本收集部分使得多个空闲节点彼此共享图像样本组的系统来实现。

第二，在本发明的实施例中，尽管增加识别器的级数也从不会导致学习数据的过度分片，并且可以在后级处的识别器中执行稳定的学习。

在现有方法中，存在这样的缺陷，即当识别器的级数逐渐增加时，到达识别器的学习样本的数量逐渐降低(产生了多余的分片)，并由此学习结果强烈地表现出与学习样本的相关性(过度学习)。在本方法中，通过结合及分割节点来共享图像以允许经由多个路径的决定。因此，由于存在学习的优选区域的重叠，所以学习样本从来不会过度地被拆分为分片，并且学习结果很难表现为过度学习。结果，可以获得可以执行稳定学习的优势。

通常，当高度灵活地执行学习时，存在这样的趋势，即没有再生数据的统计原始特征但是学习过度地具有与在该学习中所使用的数据集的相关性。例如，作为决定这种模型是否优良的指数，AIC(Akaike′s信息标准)是已知的。

在多元分析中，由于采用具有灵活性使得AIC最小的模型，所以防止了学习过度地具有与在该学习中所使用的数据集的相关性。相似地，在本发明的网络类型识别器中，无目的的高灵活性导致这样潜在的危险，即只能对在学习中使用的数据集实现优良的学习结果，而不管原始模型是否优良。然而，在本实施例的方法中，强加了多种限制以便学习样本不会被节点结合过度地分片，当在空闲节点中没有收集指定数目的图像时，不执行学习，通过使用多个路径中的识别器来作出决定等，并且可以防止无目的地增加灵活性的危险。因此，在本方法中，学习结果很难表现为过度学习。

此外，可以通过本实施例的节点学习部分730获得如下给出的优势。

第一，节点学习部分730构建专用于在父节点处不能被识别的图像样本的子集的识别器。也就是说，节点学习部分730通过使用公式(9)的权函数为在父识别器处导致较大识别误差的图像样本组添加较大的权重(由于特征分类器h_n已经根据公式(10)进行学习)。

第二，节点学习部分730构建其中影响被局部化的识别器h_n。也就是说，只有当在父节点生成较大识别误差时，这个节点才对累积得分有贡献。实际上，当在父节点处生成较大识别误差时，在公式(2)中|S_n，parent(X)-α_n|具有较小的值。因此，在累积得分中，项exp(-|S_n，parent(X)-α_n|)*h_n(X)变得较大，并且在累积得分中充分反映了在该节点处的识别器的值h_n(X)。

相反地，当在父节点处没有生成较大的识别误差时，在公式(2)中|S_n，parent(X)-α_n|具有较大的值。因此，项exp(-|S_n，parent(X)-α_n|)*h_n(X)变得较小，并且在这个节点处的识别器的值h_n(X)很少对累积得分施加影响。

由于这个原因，将对累积得分的影响限制在其中在父节点处的识别误差较大的情况下。可以采用其影响被局部化的识别器来代替这个事件。

以这种方式，在各个识别器中为累积得分提供较大贡献的输入图像在一个路径中的各个节点处的识别器中是不同的。因此，在单独的识别器中，存在其中可以优选操作该识别器以不具有对所有其它识别器的操作的影响的优选区域。

相反，在具有如现有实例所列出的级联结构的识别器中，如在第一问题中所讨论的，弱分类器是将过程应用于整个输入空间的线性识别器，并且所有弱识别器必须将所有的人脸图像识别为人脸。相反，本发明的实施例的节点识别器，只在容易由在之前节点处的识别器导致错误识别的图像集中，从非人脸中鉴别出人脸。因此，其中节点识别器操作的输入图像空间是限制性的，并且可以利用相较具有级联结构的识别器的情况相当简单的结构来实现由这个节点识别器进行的人脸/非人脸识别。这对应于将在后面描述的第一特征。

以这种方式，在本发明的实施例中，由于提供了其中在每个节点处的识别器优选地操作的输入图像的优选空间，所以一个识别器的操作几乎不对另外识别器的操作施加影响。这相对于包含有弱识别器在整个输入空间中工作并且将具有对其它弱识别器的操作的影响的问题的现有技术来说，具有极大的优势。

<特征提取>

图10是示出根据本发明实施例的特征提取部分的示意性结构的方框图。例如，这个特征提取部分用于图1示出的图像窗口检测处理部分530以及图7示出的节点学习部分730中。

如图10所示，特征提取部分390从被输入到输入部分501的图像窗口提取特征量309。该特征量309用来识别图像窗口是否包含对象。

例如，由特征提取部分390执行由图像窗口检测处理部分530所执行的并在图4中陈述的步骤631。

图11是示出根据本发明实施例的用于特征提取的矩形模板实例的视图。矩形模板在给定的图像窗口1001的内部包含L个矩形块，例如具有相同尺寸的长方形等。例如可以将L设置为2和9之间的任意值。可以通过右上坐标、宽度w以及高度h来指定各个矩形块。

例如，图11(A)中示出的矩形模板1010、图11(B)中示出的矩形模板1020以及图11(C)中示出的矩形模板1030分别包含6、9、7个矩形块。

图12是示出根据本发明实施例的特征提取部分的处理过程的流程图。而且，图13是说明根据本发明实施例在特征提取部分中的处理过程的说明视图。

在步骤491，特征提取部分390将在图像窗口中限定矩形块的矩形模板f应用于图像窗口X。

在步骤492，特征提取部分390测量来自图像窗口的特别的分布信息。提供该特别的分布信息作为模式1110，表示模式的哪块矩形块具有高于其它块的亮度值。

通过相互比较矩形块的亮度值来计算模式1110。首先，计算所有矩形块的平均亮度值，并且将该值设置为基准亮度值。然后，计算各块矩形块的平均亮度值。如果矩形块的平均亮度值小于基准亮度值，那么该矩形块被标记“1”，而如果矩形块的平均亮度值大于基准亮度值，那么该矩形块被标记“0”。可以通过使用整体图像(integral image)来快速并有效地计算这些强度。可以通过收集矩形块的标记来获得模式1110。

在图13中，使用矩形模板1010作为实例。特征提取部分390生成关于输入人脸图像1105的“pattern＝101000”的模式1151。特征提取部分390生成关于输入非人脸图像1106的“pattern＝011000”的模式1161。

在步骤493中，特征提取部分390测量来自图像窗口的空间亮度信息。该空间亮度信息被称作“强度”，该“强度”表示在不同块之间的窗口中强度差异存在的方式。

通过从标记为“0”的所有矩形块的平均亮度值上减去标记为“1”的所有矩形块的平均亮度值来计算强度1120。

例如，在图13中，特征提取部分390生成关于输入人脸图像1105的“strength＝35”的强度1152。特征提取部分390生成关于另外的输入非人脸图像1106的“strength＝37”的强度1152。

特征提取部分390提取的特征f(X)是二维量，并且可以由下面的公式(14)来表示。

[公式14]

f(X)＝(pattern，strength)…(14)

所提取的特征量使用模式和强度两个属性来提高特征量识别能力。在许多情况下，需要空间分布信息和亮度值信息来鉴别图像。

举例来说，在图13中，输入人脸图像1105和输入非人脸图像1106具有相似的强度。根据强度信息，通过现有技术不能将这两个图像彼此区别开来。然而，由于人脸图像1105和非人脸图像1106具有不同的模式值，所以可以根据模式值相互区别这两个图像。

图14是示出根据本发明的实施例用于特征提取的矩形模板的另一实例的视图。当给出图像窗口1001时，矩形模板在窗口1001内部包含L个矩形块。

如图14(A)中示出的矩形块1091，矩形块可以分别具有不同的尺寸。此外，如图14(B)、图14(C)中示出的矩形块1092、1093，矩形块可以彼此不相交或者彼此不相邻。而且，如图14(D)、图14(E)中示出的矩形块1094、1095，矩形块可以彼此完全地重叠或者部分地重叠。

根据本发明实施例的对象检测装置及其学习装置，提供下面的构造。

首先，在对象检测装置中，节点具有已经通过提升学习方法训练过的多个识别器。网络学习过程接收许多图像样本作为输入，将这些图像样本组分为一些集合，并且根据相应的图像集来训练识别器。为了决定要布置在节点上的识别器，在识别过程中，首先，该构造收集到达节点的训练样本。然后，该构造决定具有最高识别误差并且其中驻留有许多学习样本的区域。然后，弱分类器在限制区域中执行识别。弱分类器从不对整个输入空间均匀地施加影响。特征化每个新近增加的弱分类器，并且仅仅做出在决定的区域中的前面弱分类器的结果的改进。在以这种方式构造的本发明实施例的网络识别器中，可以获得这样的优势，即由每个路径中的识别器来识别由通过该路径传播的图像组成的输入图像的部分空间，在部分空间中的人脸/非人脸决定中进行分离相较在整个输入图像空间中的决定更加容易，以及不像在现有技术中后级处的强分类器，不需要大量的弱分类器。结果，可以解决第一问题。

此外，在本发明的实施例的节点网络中，(1)每个节点具有用于根据在图像样本到达其自己的节点之前被处理节点的累积评估值来区别人脸/非人脸的强分类器，以及(2)使得在每个节点处的识别器根据到达该节点的学习样本以及在之前的节点处的累积评估值结果进行学习。也就是说，根据本系统，采用了这样的构造，即当结果不足以决定对象是否存在时，每个节点作为由存在于跟随到目前的路径上的节点组成的强分类器，并且在响应决定结果而被学习的随后的子节点处继续该过程。因此，由于总是可以有效地利用截止到目前所得到的识别结果，所以可以高速地最优地实现识别过程。此外，通过第一解决方法为每个节点选择专门用于输入空间的部分区域中的分类器以及，在结合作为本节点网络的典型结构之一(存在具有多个父节点的子节点)的节点中，可以通过结合结构来执行输入空间的多个部分区域的识别过程，该结合结构接收所有父节点的样本并学习在其中父节点的识别对象区域被结合的部分区域中的最优分类器。因此，在多个节点处，由弱分类器来处理输入空间中在某一点处的图像，并且可以实现根据这些结果的累积值作出决定。由此，可以解决第二问题。

此外，在用于从图像中检测对象的系统中，在识别过程中，可以经由网络上的多个路径来处理输入数据。术语“路径”是在处理/识别输入数据中所使用节点的路线。路径上每个节点的识别器不仅包含识别输入图像的弱分类器，而且还包含累积跟随到之前级的节点的弱分类器的识别结果的识别器。因此，可以通过使用来自路径上各个节点的弱分类器的累积得分来获得由强分类器或识别器得到的识别结果。此外，在识别过程中，从当前路径进一步生成多个路径。为了防止不必要路径的增加，终止具有最高识别误差的路径。由于节点被分割和/或被结合，所以可以将整个网络看作是共享共有弱分类器的多个不同强分类器的结合。通过使用多个路径上的节点而构建的强识别器等效于使被训练以协同操作的并行强分类器工作。选择路径的识别结果中具有最佳识别误差的识别结果作为输出结果。以这种方式，可以实现这样的识别器，该识别器可以以小于多数票决系统的计算复杂度使得各个路径协同工作，同时保持等于或大于由多个级联识别器(＝在多数票决系统中的级联识别器)组成的传感系统的识别能力。由此，可以解决第三问题。

在用于从图像中检测对象的系统中，本实施例的特征量提取方法测量输入图像窗口的空间分布信息及亮度值信息。首先，在特征模板中决定图像窗口中的对象区域。首先，作为表示为“模式”的属性，计算表示区域的亮度值高于或低于其它区域的亮度值的值。该属性表示亮度值的空间大小分布。然后，作为表示为“强度”的属性，计算表示在图像窗口中亮度值的大小之间差异的值。简而言之，由本实施例提出的特征选择方法采用两个属性值来从图像中提取有用信息。由此，可以解决第四问题。

此外，根据本发明实施例的对象检测装置及其学习装置具有如下所述的特征。第一特征是，识别器被局部化以在输入图像的部分空间中执行识别。不像其中训练弱分类器来识别整个输入空间的现有方法，本实施例通过引入网络结构来训练弱分类器处理输入空间的部分区域。也就是说，每个识别器在特定区域中执行特定的识别过程，而与其它识别器的识别过程无关。由此，可以获得准确度的改善以及识别误差的降低并且可以构建更加复杂的非线性识别器。

此外，在本实施例中，应用对应于输入图像的识别器，并由此不需要评估所有的识别器。因此，可以降低在识别过程中的计算处理成本。此外，为了确保不管输入图像是否包含对象都可以在早期识别出简单(容易识别)的输入图像，使位于网络的上部或者外部、其中较早处理输入图像的弱分类器专门用来处理简单的输入图像。

第二特征是，更加有效地共享识别结果。在本实施例中，采用网络结构来代替现有方法中的其中连接弱分类器的级联结构。识别器被布置在从多个节点连接到多个节点的网络的节点上。网络分割结构将识别器局部化在特定区域的操作上，以及结合结构确保网络相互地紧密连接。在连接节点的构造中，通过结合使用中的父节点的学习样本来防止对输入空间的过度分片。可以与其中通过分割及结合解决对象问题的本实施例的系统有效地分享识别信息，以及可以降低在整个对象检测装置中所使用的识别器的总数。

第三特征是从一个识别器生成多个识别结果。在本实施例的系统中，对象检测装置从识别器网络中选择多个弱分类器并且经由多个路线执行输入图像的识别过程。各个路径是用来识别输入图像的识别器集合。动态地选择识别器以降低在识别过程中的识别误差。在选择到达某一层中节点的识别器路径后，通过利用达到之前级的旧路径同时执行旧路径的节点的分割和结合来生成新路径。每个路径输出决定在输入图像中是否存在对象的强决定结果。也就是说，事实上网络本身是共享多个弱分类器的强分类器的集合。与其中使用单独的强分类器的现有多数票决系统形成对照，本实施例的多个强分类器被集体地训练并且以突出的方式操作。此外，可以通过终止具有最高识别误差的路径来抑制在现有多数票决系统中并行操作多个分类器中导致的处理负载的增加。

第四特征是，采用了具有更高识别能力的新特征提取方法。在本实施例中，提出了使得可以测量在输入图像窗口中的某个区域中的空间模式信息及亮度强度信息的矩形模式特征，与现有技术中的非专利文献1和专利文献1形成对照，其中，使用矩形特征量来测量某个区域的强度信息。空间模式信息表示在某个区域中如何布置具有不同亮度大小的像素。强度信息表示具有不同亮度大小的像素区域之间的亮度值差异有多强。由于包括了强度信息，所以本实施例的矩形模式特征对于噪声图像是鲁棒性的，不像非专利文献4中的方法。此外，本实施例的模式特征可以比非专利文献4中相互比较像素的方法提取更广泛的特征。由此，可以更高的增加识别能力，并且当这个方法应用于检测系统时，还可以降低找到对象物所需特征量的数目。

参考上述的具体实施例详细地说明了本发明。但是，对于本领域的技术人员，在不背离本发明的主旨和范围的情况下可以应用各种改变和修改是显而易见的。

本申请基于于2005年6月15日提交的日本专利申请(专利申请No.2005-175356)；其内容通过参考包括在这里。

产业适用性

本发明的对象检测装置及其学习装置具有可以高度准确地抑制处理负载的增加的优势，并且在检测由监视相机等或其它所取得的对象中是有用的。

Claims

1.一种对象检测装置，包括：

设置部分，所述设置部分关于图像设置由多个矩形块限定的矩形模板；

第一计算部分，所述第一计算部分基于所述矩形模板中包含的所述矩形块的亮度值来计算基准亮度值以及各个矩形块的各自的亮度值；

第二计算部分，所述第二计算部分基于所述基准亮度值与各个矩形块的各自的亮度值之间的大小关系来计算空间分布信息；以及

确定部分，所述确定部分确定所述矩形模板内的图像是否包含关于所述空间分布信息的对象。

2.根据权利要求1所述的对象检测装置，其中，所述多个矩形块的尺寸互不相同。

3.根据权利要求1所述的对象检测装置，包括标记部分，所述标记部分在所述各个矩形块的单个的亮度值等于或大于所述基准亮度值时标记相应的矩形块为第一标记，而在所述各个矩形块的单个的亮度值小于所述基准亮度值时标记相应的矩形块为第二标记，其中

所述空间分布信息由各个矩形块被标记的所述第一标记和所述第二标记的组构成。

4.根据权利要求3所述的对象检测装置，其中，基于被标记为第一标记的所有矩形块的单个亮度值的平均亮度值与被标记为第二标记的所有矩形块的单个亮度值的平均亮度值之差来计算强度，以及

所述确定部分确定被设置矩形模板的图像是否包含关于所述空间分布信息和所述强度的对象。

5.根据权利要求1至4中的任一项所述的对象检测装置，其中，所述多个矩形块互相分开。

6.根据权利要求1至4中的任一项所述的对象检测装置，其中，所述多个矩形块互相重叠。

7.一种对象检测方法，包括：

关于图像设置由多个矩形块限定的矩形模板；

基于所述矩形模板中包含的所述矩形块的亮度值来计算基准亮度值；

计算各个矩形块的各自的亮度值；

基于所述基准亮度值与各个矩形块的各自的亮度值之间的大小关系来计算空间分布信息；以及

确定所述矩形模板内的图像是否包含关于所述空间分布信息的对象。