CN101894376B

CN101894376B - 人物跟踪方法和人物跟踪装置

Info

Publication number: CN101894376B
Application number: CN201010185327.2A
Authority: CN
Inventors: 胡学斌
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2009-05-21
Filing date: 2010-05-21
Publication date: 2015-03-11
Anticipated expiration: 2030-05-21
Also published as: US8369574B2; CN101894376A; US20100296701A1; JP2010273112A; JP5214533B2

Abstract

本发明提供了一种人物跟踪方法和人物跟踪装置，其能够通过与采用卡尔曼滤波器的跟踪处理等相比更轻松的处理来跟踪由照相机捕捉的人物的移动。该方法包括：检测每个帧图像上的头部；计算表征在帧图像上检测到其头部的人的特征量；计算相关比，该相关比表示在过去帧图像上的特征量与当前帧图像上的特征量之间的一致度，所述特征量属于在当前帧图像上检测到其头部的每个人；以及确定一个头部是与具有第一头部的人为同一人的人的头部，该第一头部是用于计算表示是第一阈值而且是最大一致度的一致度的相关比的基础。

Description

人物跟踪方法和人物跟踪装置

技术领域

本发明涉及人物跟踪方法和人物跟踪装置，其跟踪其图像被照相机捕捉的人物的移动。

背景技术

人物跟踪方法包括两种处理，其为：用于检测人物以开始跟踪的人物检测处理，和用于集中于所检测的人物的特征、从而跟踪人物的人物跟踪处理。在人物检测处理中，通过找出人物与背景之间的差异或时间差(参见日本专利申请公布No.2000-105835和No.2002-342762)或通过集中于人物的某个特征并确定该特征是否存在来检测人物。在人物跟踪处理中，通常执行采用卡尔曼滤波器等的跟踪处理。然而，在此类常规方法中，存在下述问题。

通过使用基于背景的差异、时间差等的差分运算(differentialoperation)来检测人物的方法依赖于诸如背景或图像的时间变化等因素。因此，当背景等复杂时，不能产生精确的背景图像等，导致检测能力的下降。

同时，在使用卡尔曼滤波器等的跟踪处理中，计算复杂性高，因此需要很长的处理时间。此外，为了使卡尔曼滤波器等适当地操作，需要高帧速率，这对处理施加了额外的负担。

发明内容

本发明是鉴于以上情况实施的并旨在提供一种人物跟踪方法，一种人物跟踪装置，其能够在比采用卡尔曼滤波器等的跟踪处理更轻松的处理中跟踪人。

根据本发明的第一方面，一种人物跟踪方法包括：

头部检测步骤，其基于由于照相机拍摄测量空间的运动图像而生成的并表示以预定帧速率生成的运动图像的图像数据来针对每个测量帧图像检测形成运动图像的多个帧图像之中的多个测量帧图像中的每一个上的头部；

特征量计算步骤，其基于所述图像数据来针对每个测量帧图像和每个头部计算表征在每个测量帧图像上检测到其头部的人的特征量；

相关比计算步骤，其计算相关比，该相关比表示在过去测量帧图像上并属于在过去测量帧图像上检测到其头部的每个人的特征量与在当前测量帧图像上并属于在当前测量帧图像上检测到其头部的每个人的特征量之间的一致度；以及

同一人确定步骤，其确定在当前测量帧图像上检测到的头部之中的一个头部是与具有第一头部的人为同一人的人的头部，该一个头部是用于计算均为在过去测量帧图像上并属于具有在过去测量帧图像上检测到的头部之中的第一头部的人的特征量与在当前测量帧图像上并属于具有在当前测量帧图像上检测到的各头部的各人的每个特征量之间的相关比之中的、表示等于或大于第一阈值并且是最大一致度的一致度的相关比的基础。

根据本发明的人物跟踪方法执行其中针对多个测量帧图像中的每一个检测头部并基于表征各检测的头部的特征量之间的相关比来使多个测量帧图像上的头部相互关联的处理。因此，可以在比采用卡尔曼滤波器等的处理更轻松的处理中检测人物。

这里，在本发明的人物跟踪方法中，优选的是，当检测到在一系列第一测量帧图像上的被确定为属于同一第一人的头部，属于该第一人的头部在随后的一个测量帧图像或其量等于或小于第二阈值的多个随后连续测量帧图像上丢失，并且随后检测到在一系列第二测量帧图像上的被确定为属于同一第二人的头部时，

所述特征量计算步骤计算所述多个第一测量帧图像上的第一人的第一平均特征量和所述多个第二测量帧图像上的第二人的第二平均特征量，

所述相关比计算步骤计算第一平均特征量与第二平均特征量之间的相关比，并且

当第一平均特征量与第二平均特征量之间的相关比是表示等于或大于第三阈值的一致度的相关比时，所述同一人确定步骤确定所述第一人和所述第二人是相同的。

此附加特征使得即使当一个人的头部由于头部检测失败的发生或那个人到某物后面的位置的移动而在测量帧图像上丢失时，也可以跟踪那个人。

在本发明的人物跟踪方法中，优选地，该人物跟踪方法还包括：

碎片删除步骤，其中，当仅在一个测量帧图像或其量等于或小于第四阈值的多个连续测量帧图像上检测到第三人的头部且在所述一个测量帧图像或多个连续测量帧图像前后的帧图像上没有检测到对应于所检测的头部的第三人的头部时，将第三人的头部从所检测的头部中删除。

通过提供此碎片删除步骤，将所检测的头部删除，因此，可以以较高的准确度实现跟踪。

这里，所述特征量计算步骤可以是计算在测量帧图像上检测到的头部的像素值的直方图作为特征量之一的步骤；或者可以是计算属于在测量帧图像上检测到其头部的人的身体的像素值的直方图作为特征量之一的步骤。此外，所述特征量计算步骤可以是计算基于在多个过去测量帧图像上的属于同一人的头部的移动的函数值作为特征量之一的步骤，其中，在当前测量帧图像上并属于在当前测量帧图像上检测到的头部的外观位置是变量。

根据本发明，可以采用这些各种特征量。

根据本发明的第二方面，一种人物跟踪装置包括：

头部检测部分，其基于由于照相机拍摄测量空间的运动图像而生成的并表示以预定帧速率生成的运动图像的图像数据来针对每个测量帧图像检测形成运动图像的多个帧图像之中的多个测量帧图像中的每一个上的头部；

特征量计算部分，其基于所述图像数据来针对每个测量帧图像和每个头部计算表征在每个测量帧图像上检测到其头部的人的特征量；

相关比计算部分，其计算相关比，该相关比表示在过去测量帧图像上并属于在过去测量帧图像上检测到其头部的每个人的特征量与在当前测量帧图像上并属于在当前测量帧图像上检测到其头部的每个人的特征量之间的一致度；以及

同一人确定部分，其确定当前测量帧图像上检测到的头部之中的一个头部是与具有第一头部的人为同一人的人的头部，该一个头部是计算均为在过去测量帧图像上并属于具有在过去测量帧图像上检测到的头部之中的第一头部的人的特征量与在当前测量帧图像上并属于具有在当前测量帧图像上检测到的各头部的各人的每个特征量之间的相关比之中的、表示等于或大于第一阈值并且是最大一致度的一致度的相关比的基础。

这里，在所述人物跟踪装置中，优选的是，当检测到在一系列第一测量帧图像上的被确定为属于同一第一人的头部，属于该第一人的头部在随后的一个测量帧图像或其量等于或小于第二阈值的多个随后连续测量帧图像上丢失，并且随后检测到在一系列第二测量帧图像上的被确定为属于同一第二人的头部时，

所述特征量计算部分计算所述多个第一测量帧图像上的第一人的第一平均特征量和所述多个第二测量帧图像上的第二人的第二平均特征量，所述相关比计算部分计算第一平均特征量与第二平均特征量之间的相关比，以及

当第一平均特征量与第二平均特征量之间的相关比是表示等于或大于第三阈值的一致度的相关比时，所述同一人确定部分确定所述第一人和所述第二人是相同的。

在所述人物跟踪装置中，优选地，该人物跟踪装置还包括：碎片删除部分，其在仅在一个测量帧图像或其量等于或小于第四阈值的多个连续测量帧图像上检测到第三人的头部，且在所述一个测量帧图像或多个连续测量帧图像前后的帧图像上没有检测到对应于所检测的头部的第三人的头部时，将第三人的头部从所检测的头部中删除。

这里，所述特征量计算部分可以计算在测量帧图像上检测到的头部的像素值的直方图作为特征量之一；或者可以计算属于在测量帧图像上检测到其头部的人的身体的像素值的直方图作为特征量之一。替选地，所述特征量计算部分可以计算基于在多个过去测量帧图像上的属于同一人的头部的移动的函数值来作为特征量之一，其中，在当前测量帧图像上并属于在当前测量帧图像上检测到的头部的外观位置是变量。

根据本发明的各个方面，可以通过与采用卡尔曼滤波器等的跟踪处理相比更轻松的处理来跟踪人物。

附图说明

图1是图示用照相机拍摄测量空间的图像的状态的示意图；

图2是图示由于照相机拍摄而获得的运动图像的多个帧图像的图；

图3是其中用圆圈示意性地指示在每个帧图像上检测到的头部的图；

图4是图示每个头部的人物的特征量的图；

图5是图示相互关联的类似特征量的图；

图6是在连贯中存在中断时的关联处理的概念图；

图7是图示在连贯中存在中断时的关联处理的结果的概念图；

图8是图示最后获得且相互关联的每个帧图像上的头部的图；

图9是其中合并了本发明的实施例的监视照相机系统的示意图；

图10是示出用图9中的一个方框示出的个人计算机的外观的立体图；

图11是个人计算机的硬件配置图；

图12是示出人物跟踪方法的示例的流程图；

图13是示出人物跟踪装置的示例的方框图；

图14是图示在第二实施例中采用的特征量列表的图；

图15是“头部”和“身体”的说明图；

图16是直方图的概念图；

图17是在部分(A)中图示通过拍摄某一仓库内的状态的图像而获得的图像并在部分(B)中图示头部的尺寸分布的图；

图18是在部分(A)中图示拍摄图像上的头部的移动并在部分(B)中图示头部尺寸(Size)与图像高度(Y)之间的近似直线的图；

图19是图示当在顶视图中存在沿水平方向(X方向)的移动时依照公式(9)画的环路、和圆圈的图；

图20是图示当存在沿垂直方向(Y方向)的移动时依照公式(9)画的环路的图；

图21是图示指示当沿X方向发生恒速直线移动时的归一化均匀移动距离的环路和通过在顶视图中使圆圈(参见图19)变形获得的环路的图；

图22是图示指示当沿Y方向发生恒速直线移动时的归一化均匀移动距离的环路和通过在顶视图中使圆圈(参见图22)变形获得的环路的图；

图23是图示将在时间t+1在帧图像上检测到的头部连接到均匀移动距离的环路的图；

图24是图示基于公式(12)获得的比R与移动特征量之间的关系的图；

图25是包括头部检测步骤的细节的头部检测方法的流程图；

图26是图13中的一个方框所示的头部检测部分的详细方框图；

图27是图13所示的头部检测方法中的学习步骤S10的详细流程图；

图28是多分辨率展开处理的说明图；

图29是运动图像差分处理的说明图；

图30是滤波器结构的说明图；

图31图示各种类型的滤波器的示例；

图32是机器学习的概念图；

图33是教师图像的概念图；

图34是示出各种类型的滤波器和滤波器的学习结果的概念图；

图35是对教师图像进行加权的说明图；

图36是在提取8×8像素滤波器之后进行到16×16像素滤波器的学习的转换时的加权方法的说明图；

图37是示出由图像组产生部分执行的处理的示意图；以及

图38是示出由区域综合部分执行的区域综合处理的说明图。

具体实施方式

下面将参照附图来详细描述本发明的示例性实施例。

首先，下面将描述将在本实施例中执行的处理的概述。

图1是图示用照相机拍摄测量空间的图像的状态的示意图。

在这里，在测量空间10中存在三个人物11、12和13且其在自由地移动。此测量空间10在例如某一个仓库内部。此外，在这里，照相机20被设置在倾斜地俯视测量空间10的位置。此照相机20拍摄测量空间10的运动图像并生成图像数据，该图像数据表示具有预定帧速率的运动图像。照相机20拍摄包括测量空间10中的三个人物11、12和13的图像，并基于由于照相机20的拍摄而获得的图像数据来提取拍摄图像上的各个人物11、12和13的头部11a、12a和13a出现的区域。这里，将其称为“头部检测”。三个人物11、12和13在由照相机20获得的运动图像上的位置每时每刻都在变，且新的人物可能进入测量空间10，或者测量空间10中的任何人可能离开测量空间10。

这里，在这种环境中，基于由于照相机20的拍摄而获得的图像数据，执行人物的头部的检测、人物的特征量的计算、特征量之间的相关比的计算等，此外，确定在不同帧图像内检测的头部是否属于同一人，从而跟踪每个人在测量空间10中的移动。

图2是图示作为照相机拍摄的结果而获得的运动图像的多个帧图像的图。这里，均用细长垂直帧来示意性地指示在各时间、即“…、t-4、t-3、t-2、t-1和t”拍摄的帧图像。

附带地，在这里图示的每个图像帧可以是根据照相机20的帧速率的帧图像，或者，可以是通过依照这里的人物跟踪的目的、算术处理量、必要的精度等对该帧速率的帧图像进行薄化而获得的图像。例如，在照相机20每秒生成三十个帧图像的情况下，作为薄化的结果，由图2中的各垂直帧指示的每个帧图像可以是每九个帧获取的图像，即，基于每秒三个帧的速率的图像。

图3是其中用圆圈示意性地指示在每个帧图像上检测到的头部的图。

例如，在时间t-4在帧图像上检测到四个头部，并且在时间t-3在帧图像上检测到五个头部。其它帧图像具有以类似方式检测的头部。

图4是图示每个头部的人物的特征量的图。稍后将描述如何确定特征量。

表示每个头部的圆圈设计示意性地图示所确定的特征量。具有相同设计的头部指示其特征量彼此类似。

图5是图示相互关联的类似特征量的图。

在这里，确定了t-4时的帧图像上的头部a1的特征量与t-3时的帧图像上的各头部b1、b2、b3、b4和b5的每个特征量之间的相关比，其表示特征量彼此类似到什么程度。基于这些相关比中的每一个，确定具有头部b1、b2、b3、b4和b5的人物中的哪一个与具有头部a1的人物相同，并且被确定为属于同一人的头部相互关联。

这里，在头部b1、b2、...、和b5中，与头部1a相关联的头部具有每对的两个头部a1和b1、a1和b2、a1和b3、a1和b4、及a1和b5之间的相关比中具有特征量之间的最高一致度的相关比。此外，仅仅具有具有最高程度的相关比是不够的，一致度需要超过第一阈值。这是因为，当在t-3时仅在帧图像上检测到一个头部时，将头部a1与在t-3时在帧图像上检测到的一个头部之间的相关比假设为最高，但存在所述在t-3时在帧图像上检测到的一个头部可能是被错误地检测为头部的噪声的可能性。

这里，t-3时的帧图像上的五个头部b1、b2、...、和b5中的头部b2满足以上条件并与头部a1相关联。以类似方式使其它头部相互关联。

图6是在连贯中存在中断时的关联处理的概念图。

假设按照参照图5描述的方式，头部a2与头部b3相互关联，并且头部d3与头部e3相互关联。然而，在t-2时的帧图像上，未检测到将与a2和b3或d3和e3相关联的头部。在这种情况下，计算第一平均特征量，其为与头部a2有关的特征量和与头部b3有关的特征量的平均值；并且同样地计算第二平均特征量，其为与头部d3有关的特征量和与头部e3有关的特征量的平均值。随后，计算第一平均特征量与第二平均特征量之间的相关比。当该相关比等于或大于某一第三阈值时，确定头部a2和b3及头部d3和e3属于同一人，然后，添加头部c3，假设头部c3在t-2时以帧速率沿着平滑地将头部a2和b3连接到头部d3和e3的线作为属于同一人的头部出现。

这里，不需要第三阈值与第一阈值相同，并且将适合于这种情况的阈值确定为第三阈值。

附带地，当确定平均特征量时，对使用其特征量来确定平均值的前部和后部中的每一个的帧图像的数目或为其生成缺失头部的连续帧图像的数目没有特别限制。根据人物跟踪的目的、必要精度等来确定帧图像的这些数目。

图7是图示在连贯中存在中断时的关联处理的结果的概念图。

这里，通过参照图6描述的处理来添加头部c3作为在t-2时存在于帧图像上的头部，并且头部3c分别与前帧图像和后帧图像中的头部a2和b3及头部d3和e3相关联，因为头部a2和b3及头部d3和e3属于同一人的头部。然而，头部b5、头部d5和头部e1中的每一个单独存在，而不与其它头部相关联。此外，头部b1、c1和d1仅在t-3、t-2和t-1时的三个帧图像中相互关联，而不与前帧图像和后帧图像相关联。这里，将单独地存在的头部和仅与部分连续帧图像相关联的头部假设为由于某些噪声等引起的错误检测的结果并因此将其删除。

图8是图示最后获得且相互关联的每个帧图像上的头部的图。

这里，如图8所示，精确地跟踪三个人物的移动。

基于以上概述，将进一步描述本发明的实施例。

图9是其中合并了本发明的实施例的监视照相机系统的示意图。

在图9中的监视照相机系统1的示意图中，图示了用作根据本发明的人物跟踪装置的实施例的监视照相机20和个人计算机30。

例如，将监视照相机20设置为俯视仓库内部以拍摄仓库中的状态的照片。监视照相机20连接到个人计算机30，并且监视照相机20向个人计算机30发送表示运动图像的图像数据。在下文中，将关于该数据的图像简称为“图像”。

个人计算机30接收从监视照相机20发送的运动图像。

省略监视照相机20的详细说明，因为监视照相机20不是本发明的主题，并且在下文中，将进一步描述用作作为本发明的一个实施例的人物检测装置的个人计算机30。

图10是示出由图9中的一个方框示出的个人计算机30的外观的立体图，并且图11是个人计算机30的硬件配置图。

这里，个人计算机30的硬件和OS(操作系统)和被安装在个人计算机30中并由其执行的人物跟踪程序组成作为本发明的一个实施例的人物跟踪装置。

在外观上，个人计算机30装配有主体31、图像显示设备32、键盘33、和鼠标34。图像显示设备32根据从主体31提供的指令在显示屏32a上显示图像。键盘33根据按键操作将各种信息片馈送到主体31中。鼠标34指定显示屏32a上的任意位置以便馈送对应于在那时在该位置处显示的图标的指令。从外观上，主体31包括用来加载磁光盘(MO)的MO加载端口31a和用来加载CD或DVD的CD/DVD加载端口31b。

如图11所示，主体31包括CPU 301、主存储器302、硬盘设备303、MO驱动器304、CD/DVD驱动器305、和接口306。CPU 301执行各种程序。在主存储器302中，读取并展开存储在硬盘设备303中的程序，并由CPU 301来执行该程序。各种程序和数据片被存储在硬盘设备303中。MO 331被加载到MO驱动器304中，并且MO驱动器304访问加载的MO 331。CD或DVD(在这种情况下，将CD和DVD称为CD/DVD，同时不将其相互区别开)被加载在CD/DVD驱动器305中，并且CD/DVD驱动器305访问CD/DVD 332。接口306接收由监视照相机20获取的图像数据。这些各种类型的组件和图2中的图像显示设备32、键盘33、和鼠标34通过总线307相互连接。

此外，硬盘设备303还存储用于实现稍后将描述的处理的各种支持程序。该支持程序包括：用于执行下述处理的程序，该处理用于计算出现在照相机20拍摄的图像上的人物的头部的尺寸与表示被操作图像上的高度的位置之间的统计平均对应关系；图像处理程序，其用于在图像显示设备32的显示屏32a上显示图像并根据操作者的操作使图像经受各种图像处理，诸如以独立的方式将图像垂直地和水平地放大，使图像旋转并裁剪图像的一部分；以及用于通过执行稍后将描述的机器学习来提取滤波器的程序。

图12是示出通过使用图9至11所示的个人计算机30执行的人物跟踪方法的示例的流程图。

这种人物跟踪方法包括头部检测步骤(S01)、特征量计算步骤(S02)、相关比计算步骤(S03)、同一人确定步骤(S04)和碎片删除步骤(S06)。此外，在同一人确定步骤(S04)与碎片删除步骤(S06)之间提供的是确定当前情况是否是将执行上文参照图6描述的处理的情况的确定步骤(S05)。稍后将详细描述每个步骤。

图13是图示人物跟踪装置的一个示例的方框图。这是人物跟踪装置40，其为当在个人计算机30中执行被加载到图9至11所示的个人计算机30的人物跟踪程序时在个人计算机30中实现的算法。人物跟踪装置40包括头部检测部分41、特征量计算部分42、相关比计算部分43、同一人确定部分44和碎片删除部分45。

与图12所示的人物跟踪方法相比，头部检测部分41、特征量计算部分42、相关比计算部分43、同一人确定部分44和碎片删除部分45分别对应于图12所示的头部检测步骤(S01)、特征量计算步骤(S02)、相关比计算步骤(S03)、同一人确定步骤(S04)和碎片删除步骤(S06)，并且控制部分46对应于确定步骤(S05)。

由于在个人计算机30中执行时的人物跟踪程序的动作与图13所示的人物跟踪装置40的动作相同，这里不再重复该人物跟踪程序的图示和描述。

在下文中，将简要描述图13所示的人物跟踪装置40中的每个部分的动作。本说明还用作图12所示的人物跟踪方法中的人物跟踪程序和每一个步骤的解释。

对于形成运动图像的多个帧图像中的每个测量帧图像，图13所示的人物跟踪装置40的头部检测部分31用于基于表示由于照相机拍摄测量空间的运动图像而生成的预定帧速率的运动图像的图像数据来检测每个测量帧图像上的头部。这里，检测测量帧图像上的头部的二维位置及头部的垂直和横向尺寸。如图1所示，这里使用的照相机是设置在倾斜地俯视测量空间的位置并拍摄测量空间的图像的照相机。这里，将“帧图像”和“测量帧图像”描述为不同的概念。然而，如上所述，所述测量帧图像可以是形成由于照相机拍摄而获得的运动图像的帧图像，或者可以是例如每3、10或30个帧薄化的帧图像。下面，可以仅仅将其称为“帧图像”而不进行相互区别。稍后将详细描述头部检测部分41中的头部检测处理。

在特征量计算部分42中，基于上述图像数据，针对每个帧图像和每个头部计算表征在帧图像上检测到其头部的人物的特征量。

在相关比计算部分43中，计算相关比，该相关比表示以下二者之间的一致度：在过去帧图像上并属于在过去帧图像上检测到其头部的每个人物的特征量；和在当前帧图像上并属于在当前帧图像上检测到其头部的每个人物的特征量。这里，作为用于计算相关比的“过去帧图像”，通常采用“紧邻在”“当前帧图像”“前面的”“过去帧图像”。然而，当已发现头部属于同一人时，可以采用基于多个过去帧图像获得的平均特征量作为“过去帧图像”。

此外，同一人确定部分44确定在当前帧图像上检测到的头部之中，一个头部是与具有第一头部的人相同的人的头部，其为用于计算在过去帧图像上并属于具有在过去帧图像上检测到的头部之中的第一头部的人的每个特征量与在当前帧图像上并属于具有在当前帧图像上检测到的各头部的各人物的每个特征量之间的相关比之中的、表示等于或大于第一阈值以及作为最大一致度的一致度的相关比的基础。

当确定两个头部属于同一人时，如上所述，相关比需要出于噪声去除等目的表示等于或大于阈值(这里，称为“第一阈值”)的一致度，而且需要是在诸如在当前帧图像上检测到两个或更多头部的情况下的最大一致度。

此外，在碎片删除部分45中，当在其量等于或小于第四阈值的一个帧图像或多个连续帧图像上仅检测到第三个人的头部并且在所述一个帧图像或多个连续帧图像前后的帧图像上未检测到对应于所检测的头部的第三个人的头部时，将此头部从所检测的头部中删除。结果，去除了被错误地检测的头部。附带地，这里，为了在整个说明书中保持一致性，将这里提及的阈值称为“第四阈值”。当实际设计根据本实施例的人物跟踪装置时，适当地确定如何设置第四阈值。

此外，控制部分46控制每个部分并确定是否满足一个条件，该条件为“检测到在一系列第一帧图像上的被确定为属于同一第一人的头部，属于此第一人的头部在其量等于或小于第二阈值的随后一个帧图像上或随后多个连续帧图像上丢失，然后检测到在一系列第二帧图像上的被确定为属于同一第二人的头部”。然后，当确定满足此条件时，控制部分46促使特征量计算部分42、相关比计算部分43和同一人确定部分44执行以下处理。

当满足以上条件时，特征量计算部分42计算多个第一帧图像上的第一人的第一平均特征量和多个第二帧图像上的第二人的第二平均特征量。此外，相关比计算部分43计算第一平均特征量与第二平均特征量之间的相关比。此外，当第一平均特征量与第二平均特征量之间的相关比是表示等于或大于第三阈值的一致度的相关比时，同一人确定部分44确定第一人和第二人是相同的。

响应于此确定结果，控制部分46控制每个部分，以便每个部分假设相应的头部出现在其中相应的头部丢失的帧图像上的一个位置，该位置适合于头部的前后移动。结果，即使当发生头部检测失败等时，也可以实现恢复。

控制部分46包括存储部分461，用于存储在准备阶段获得的各种数据以操作人物跟踪装置40。稍后将描述细节。

图14是图示在本实施例中采用的特征量列表的图。

在图13所示的特征量计算部分42中，计算表征在帧图像上检测到其头部的人物的特征量。在本实施例中，采用“外观特征量”和“移动特征量”作为在特征量计算部分42中计算的特征量。“外观特征量”表示每个帧图像的特征，并且在这里，采用“头部直方图”和“身体直方图”作为“外观特征量”。下面，将顺序地描述“头部直方图”和“身体直方图”。

图15是“头部”和“身体”的说明图。

如上所述，在图13所示的人物跟踪装置40的头部检测部分41中，检测帧图像上的头部的二维位置和尺寸。

因此，在特征量计算部分42中，基于由头部检测部分41检测的位置和尺寸来设置头部区域。这里，如图15所示，假设将宽度w×高度h的头部区域设置为头部。

随后，将比头部的区域的下端低了头部的高度h的三分之一的点设置为身体区域的上端。该身体区域被设置为与头部区域垂直对准并具有与头部区域的尺寸相同的w×h尺寸。接下来，计算由头部区域中的多个像素值的直方图形成的“头部直方图”和由身体区域中的多个像素值的直方图形成的“身体直方图”。

每个像素的像素值是R、G和B的三原色的组合。这里，在计算直方图之前，为了减少由于被照相机20(参见图1)拍摄其图像的测量空间10中的照明度变化而引起的影响，基于以下公式(1)来确定归一化rgb。

r = \frac{R}{R + G + B},

g = \frac{G}{R + G + B},

b = \frac{B}{R + G + B} . . . (1)

在这里，R、G和B表示各R、G和B颜色的像素值。

随后，基于归一化rgb，为R、G和B颜色分别创建直方图。

图16是直方图的概念图。

图16图示三个R、G和B颜色之一及头部区域和身体区域之一的直方图作为代表性示例。这里，将其描述为头部区域的直方图R。

图16中的水平轴上的字符“m”(m＝1、2、...、M)表示通过对基于公式(12)归一化的R颜色的值r进行量化而获得的值。例如，r在0至255的范围内，其中，将0-7假设为m＝1，将8-16假设为m＝2，...，并将246-255假设为m＝M。垂直轴指示每个“m”的出现次数(出现频率)“q”。这里，用“qm”来表示值“m”的出现频率“q”。

这里，对于头部区域和身体区域中的每一个以及对于三个R、G和B颜色中的每一个，计算直方图作为特征量。

接下来，将描述特征量。

图17是在部分(A)中图示通过拍摄包含测量空间示例的某一仓库内的状态的图像而获得的图像并在部分(B)中图示头部的尺寸分布的图。

在图17的部分(A)所示的仓库中，照相机被设置在倾斜地俯视仓库内部的位置(参见图1)，并且由该照相机拍摄仓库内的始终变化的人物移动的图像。图17的部分(A)在单帧中图示一个拍摄图像。由阴影线圈指示出现在此拍摄图像上的每个人的头部。

当从上方倾斜地拍摄仓库内的图像时，如图17的部分(A)所示，距离照相机较近的人物出现在下部，其头部看起来较大，而远离照相机的人物出现在上部，其头部看起来较小。

图17的部分(B)图示拍摄图像内的头部的尺寸与指示高度的位置之间的关系，所述拍摄图像是通过用设置的照相机拍摄仓库内部多个场景的图像而获得的。如图17的部分(B)所示，以统计方式，大尺寸的头部出现在下部，而小尺寸的头部出现在上部。

这里，如图17的部分(B)所示，研究头部的尺寸分布，用直线来近似该尺寸分布，并计算以下近似直线的斜率K和Y轴截距D。

Y＝K·Size+D...(2)

当人物在仓库内移动一定距离(例如，1.0m)时，在那个人物更接近照相机的情况下那个人物在拍摄图像上移动较长距离，而在那个人物远离照相机的情况下，那个人物在拍摄图像上移动较短距离。因此，在这里，基于头部的尺寸的统计数值(公式(2))，使拍摄图像上的移动方向和距离与仓库内的实际移动方向和实际距离相关联。

这里，在稍后将描述的头部检测处理中，检测环绕拍摄图像上的人物的头部的矩形的位置及该矩形的垂直和横向尺寸。在图17的部分(B)中，所示的水平轴上的“Size”指示矩形的面积，而垂直轴指示表示拍摄图像上的矩形的中心点的高度的位置。然而，可以将内切在矩形中的圆形(或椭圆形)的面积视为所述“Size”，或者可以将矩形的垂直尺寸或横向尺寸视为所述“Size”。此外，垂直轴上的高度位置Y也可以不限于矩形的中心点，并且可以是表示拍摄图像上的位置的任意点，诸如矩形的一个拐角。

如果可以获得各种信息，诸如照相机的安装位置的高度、拍摄光轴的方向和拍摄透镜的焦距，则可以计算拍摄图像上的位置与仓库内的实际位置之间的对应关系。然而，为此，必须精确地测量并输入照相机的安装位置的值、用于仓库中的每个测量空间等的拍摄方向等，这给设置照相机的用户带来工作负担，并且除此之外，不能保证输入精确的测量值。因此，这里，如上所述，确定并使用拍摄图像上的头部尺寸与拍摄图像上的高度之间的统计关系(公式(2))。

如何确定此统计关系没有特别限制。例如，可以通过使用稍后将描述的头部检测处理在安装照相机时自动确定该统计关系。还可以在照相机的安装位置或拍摄方向改变时再一次自动确定该统计关系。此外，即使在曾确定统计关系之后，也可以通过增加表示头部的数据片数目来进一步改善准确度。

在本实施例中，计算以上公式(2)(参见图17的部分(B))，然后，基于以下运算表达式来计算移动特征量。

图18是在部分(A)中图示拍摄图像上的头部的移动并在部分(B)中图示头部尺寸(Size)与图像高度(Y)之间的近似直线的图。

这里，暂时假设时间t-1与时间t之间的人物头部的移动被保持到时间t+1，预测在时间t+1时的拍摄图像上的头部位置。当分别将分别在时间t-1和时间t获得的帧图像上的头部的尺寸定义为Size(t-1)和Size(t)时，基于以下公式(3)来近似Size(t+1)，其为在时间t+1获得的帧图像上的头部的尺寸。

Size (t + 1) = Size (t) \times \frac{Size (t)}{Size (t - 1)} . . . (3)

接下来，针对沿水平方向的位置X(t+1)和沿垂直方向的位置Y(t+1)中的每一个来计算时间t+1时的拍摄图像上的头部的位置。通过使用在时间t-1和时间t在各帧图像上检测的头部的沿水平方向的位置X(t-1)和X(t)、及头部的Size(t-1)和Size(t)，基于以下公式(4)来确定在时间t+1沿水平方向的位置X(t+1)。

X (t + 1) = X (t) + (X (t) - X (t - 1)) \times \frac{Size (b)}{Size (a)} . . . (4)

这里，如图18的部分(A)所示，Size(a)是时间t-1时的头部尺寸Size(t-1)与时间t时的头部尺寸Size(t)之间的中间头部尺寸，并且Size(b)是时间t时的头部尺寸Size(t)与基于公式(3)计算的时间t+1时的头部尺寸Size(t+1)之间的中间头部尺寸。

Size (a) = \frac{Size (t - 1) + Size (t)}{2} . . . (5)

Size (b) = \frac{Size (t) + Size (t + 1)}{2} . . . (6)

此外，通过使用公式(2)和(3)，基于以下公式(7)来确定时间t+1时沿垂直方向的位置。

Y(t+1)＝K·Size(t+1)+D...(7)

接下来，通过使用以下公式(8)，基于时间t与时间t+1之间的头部的移动方向来确定移动角D。

D = \tan^{- 1} \frac{Y (t + 1) - Y (t)}{X (t + 1) - X (t)} . . . . (8)

移动角D表示当拍摄图像上的人物将时间t-1与时间t之间的仓库内实际移动保持到时间t+1时、即当发生恒速直线移动时的拍摄图像上的移动方向。如上所述，出现在拍摄图像的下部中的人物在此人物移动例如1.0m时在拍摄图像上移动较长距离，而出现在拍摄图像的上部中的人物在拍摄图像上仅移动较小的距离，即使此人物移动了相同的距离，即1.0m。因此，基于公式(8)确定的移动方向不是仓库内的移动方向，而是当发生恒速直线移动时的拍摄图像上的移动方向。

这里，将考虑从上方看时的仓库顶视图。这里，将考虑此顶视图中的以下公式(9)。

Dist(Angle)＝α·Dist(t-1，t)/[A+B·sign{cos(Angle)}·cos^c(Angle)]...(9)

这里，“Angle”是当假设发生恒速直线移动时关于移动方向的角度。Dist(Angle)是当时间t时的头部位置被定义为原点时沿角度方向与原点的距离。这里，将此Dist(Angle)称为沿角度方向的“均匀移动距离”。此外，Dist(t-1，t)是基于以下公式(10)计算的时间t-1与时间t之间的头部的移动距离。此外，sign{cos(Angle)}是在cos(Angle)为正或零时取“+1”并在cos(Angle)为负时取“-1”的函数。此外，α、A、B和C中的每一个是恒定的，并且例如，可以采用α＝1.25、A＝3、B＝2和C＝2。

Dist (t - 1, t) = \sqrt{{X (t - 1) - X (t)}^{2} + {Y (t - 1) - Y (t)}^{2}} . . . (10)

这里，均匀移动距离表示时间t+1时的估计移动范围，其是基于时间t-1与时间t之间的移动方向和移动距离计算的。此估计移动范围是范围覆盖情况，诸如保持恒速直线移动的情况，移动速度沿相同方向略微增加的情况，移动方向横向改变的情况，以及移动突然停止或发生沿相反方向的突然移动的情况。

图19是图示当在顶视图中存在沿水平方向(X方向)的移动时依照公式(9)画的环路，和为了容易理解稍后将描述的“变形方式”而画的圆圈。此外，图20是存在沿垂直方向(Y方向)的移动时的类似图。

当发生恒速直线移动时，图19和图20所示的点t和点t+1分别是时间t和时间t-1时的头部位置。图19和图20所示的“Angle”是在公式(9)中指示的关于恒速直线移动的行进方向的角度。此外，当存在从时间t时的头部位置沿角度方向到一个点的距离为基于公式(9)计算的Dist(Angle)(均匀移动距离)的移动时，将此点处的坐标定义为(X1，Y1)。

随后，基于公式(11)来确定normDist(Angle)，其为拍摄图像上的均匀移动距离，即归一化均匀移动距离。

normDist(Angle)＝Dist(Angle)×Size(Y1)/Size(t)...(11)

这里，Dist(Angle)是基于公式(9)确定的值。此外，Size(Y1)是基于公式(2)计算的头部的尺寸，在当在图19和图20所示的顶视图中存在从原点沿角度方向到点(X1，Y1)的距离为均匀移动距离Dist(Angle)的移动时在沿点(X1，Y1)的高度方向(Y方向)的坐标点处。此外，Size(t)是时间t时的头部的尺寸。

图21是图示指示在沿X方向发生恒速直线移动时基于公式(11)计算的归一化均匀移动距离normDist(Angle)的环路和通过依照公式(11)使顶视图中的圆圈(参见图19)变形获得的环路的图。此外，图22是图示指示在沿Y方向发生恒速直线移动时基于公式(11)计算的归一化均匀移动距离normDist(Angle)的环路和通过依照公式(11)使顶视图中的圆圈(参见图20)变形获得的环路的图。

在拍摄图像上，当在拍摄图像上形成时，均匀移动距离和顶视图中的圆圈中的每一个是如图21和图22所示的“已变形”环路。

附带地，这里，已描述了其中沿横向(X方向)和垂直方向(Y方向)中的每一个发生恒速直线移动的示例。然而，实际上，将在由X和Y形成的二维平面内沿任意方向的恒速直线移动考虑在内。

图23是图示将在时间t+1在帧图像上检测的头部连接到均匀移动距离的环路(在如图21所示的拍摄图像上形成)的图。

假设在时间t+1在帧图像上检测到三个头部A、B和C。这里，为了确定三个头部A、B和C中的每一个与时间t时的帧图像上的头部(在图23中由字符“t”指示的原点处的头部)之间的连接强度，基于以下公式(12)来计算比。这里，将描述头部A作为示例。用于头部A的比R_A如下。

R_A＝Dist(A)/normDist(角度A)...(12)

这里，Dist(A)是原点(时间t时的头部位置)与头部A之间的距离，且normDist(Angle A)是从原点看的沿着朝向头部A的方向(AngleA)的归一化均匀移动距离。

附带地，当实际上执行该操作时，不需要计算指示图19至图23所示的均匀移动距离(或归一化均匀移动距离)的一圈环路，并仅对在时间t+1在帧图像上检测的头部的方向(即，图23所示的示例中的头部A、B和C的三个方向)执行操作。

图24是图示基于公式(12)获得的比R与移动特征量之间的关系的图。在图24所示的示例中，当比R≤1时(在图23所示的环路内部)，移动特征量是“1”，并且当比R≥1.8时，移动特征量近似为“0”。此外，当1＜R＜1.8时，移动特征量的值随着R的值变大而逐渐变小。

这里，均匀移动距离和归一化均匀移动距离的计算是以恒速直线移动为前提的。然而，当头部静止或仅移动等于或小于时间t-1与时间t之间的某一阈值的距离时，采用中心点在时间t时的头部位置上的圆形均匀移动距离，而不是基于公式(9)计算的环路。这将针对静止的头部同样地对待所有方向，因为在时间t+1之前不清楚头部向哪个方向移动。当同样第一次在拍摄图像上检测到将开始对其进行跟踪的人物的头部时，采用圆形均匀移动距离，因为不清楚那个人(头部)的过去的移动。然而，即使当采用圆形均匀移动距离时，基于公式(11)计算的归一化均匀移动距离是变形环路而不是圆圈。

用于计算移动特征量的方法的说明到此结束。

在本实施例中，以上述方式，确定头部直方图、身体直方图、和移动特征量的三个特征量。

当在图13所示的人物跟踪装置40的特征量计算部分42中如上所述地确定三个特征量时，相关比计算部分43基于这三个特征量来确定相关比，该相关比表示时间t时的帧图像上的头部i与时间t+1时的帧图像上的头部j之间的特征量方面的一致度。

当将头部i的直方图中的每个直方图区间(区间)m(在图16中沿水平方向的每个单元m，即，m＝1、2、...、M)的出现频率q(垂直轴)定义为“q_im”，并将头部j的直方图中的每个直方图区间m的出现频率q定义为“q_jm”时，通过使用归一化三颜色r、g、b的三颜色的直方图进行以下计算。

P_{{ij}_{1}} = \underset{q = r, g, b}{Π} \frac{Σ_{m = 1}^{M} (q_{im} \times q_{jm})}{\sqrt{Σ_{m = 1}^{M} {(q_{im})}^{2}} \times \sqrt{Σ_{m = 1}^{M} {(q_{jm})}^{2}}} . . . (13)

这里，关于“P_ij1”，“ij”指示其为时间t时的帧图像上的第i个头部与时间t+1时的帧图像上的第j个头部之间的运算，且“1”指示其为通过将头部直方图与身体直方图区别开而与头部直方图有关的运算。因此，“P_ij1”表示仅在头部i与头部j之间的头部直方图方面的相关比。

同样对于身体直方图，根据以下公式(14)，确定仅在具有头部i的人物的身体直方图与具有头部j的人物的身体直方图之间的身体直方图方面的相关比。

P_{{ij}_{2}} = \underset{q = r, g, b}{Π} \frac{Σ_{m = 1}^{M} (q_{im} \times q_{jm})}{\sqrt{Σ_{m = 1}^{M} {(q_{im})}^{2}} \times \sqrt{Σ_{m = 1}^{M} {(q_{jm})}^{2}}} . . . (14)

在此公式(14)中，“q_im”是具有头部i的人物的身体的直方图区间m的出现频率q，并且“q_jm”是具有头部j的人物的身体直方图的出现频率q。

此外，在第二实施例中，在这里将头部i与头部j之间的移动特征量(参见图24)的值表示为“P_ij3”，所述头部i是在时间t在帧图像上检测到的头部中的第i个头部，且所述头部j是在时间t+1在帧图像上检测到的头部中的第j个头部。此移动特征量表示关于时间t时的帧图像上的头部i与时间t+1时的帧图像上的头部j之间的移动的单相关比。

接下来，依照以下公式(15)来计算头部i与头部j之间的综合相关比“P_ij”。

P_{ij} = Σ_{k = 1}^{K} W_{k} \cdot P_{ijk} . . . . (15)

这里，“K”是单相关比的数目，并且在本示例中采用K＝3。

此外，“W_k”表示每个单相关比的权值。根据测量空间的性质、即根据是否预期到拥挤、是否可能有高速移动等来确定权值W_k。

对于时间t时的帧图像上的头部i和时间t+1时的帧图像上的每个头部j(j＝1、2、3、...)依照公式(15)来计算相关比“P_ij”。在图13所示的同一人确定部分44中，识别j＝1、2、3、...中的具有最大相关比P_ij的头部，并且当针对头部j识别的相关比P_ij具有超过某一预定阈值的值时，确定时间t时的帧图像上的头部i和时间t+1时的帧图像上的头部j属于同一人。

针对时间t时的帧图像上的每个头部i＝1、2、3、...重复以上处理，并使每个头部i＝1、2、3、...与时间t+1时的帧图像上的每个头部j＝1、2、3、...相关联，从而使每个同一人的头部相互关联。

针对各时间...、t-2、t-1、t、t+1、t+2、...的每个帧图像重复以上处理，从而执行人物跟踪。

在控制部分46的存储部分461中，图17的部分(B)所示的头部尺寸的分布和近似直线Y＝K·Size+D被存储且在上述运算期间被相关比计算部分43参考。

此外，当检测到预先确定其量的多个第一帧图像上的第一人物的头部，此人物的头部在其量等于或小于预定数目的随后帧图像上丢失，然后第二人物的头部出现在预先确定了其量的随后第二多个帧图像上时，控制部分46促使特征量计算部分42：计算关于第一多个帧图像上的第一人物的平均特征量(这里，为平均头部直方图和平均身体直方图)和关于第二多个帧图像上的第二人物的平均特征量(这里，为平均头部直方图和平均身体直方图)；计算这些平均特征量的相关比；并确定该相关比是否超过某一阈值。当该相关比超过阈值时，确定第一人物和第二人物是相同的，并且添加头部的数据，假设头部存在于在其中头部丢失的帧图像上的位置，该位置与其中头部丢失的帧图像前后的帧图像上的头部位置一致。

此外，碎片删除部分45删除仅出现在其量等于或小于预定数目的连续帧图像上而未出现在所述连续帧图像前后的帧图像上的人物的头部。

这可以改善人物跟踪的准确度。

随后，将描述头部检测处理的示例。

图25是包括在图12中由一个方框示出的头部检测步骤(S01)的细节的头部检测方法的流程图。

图25所示的头部检测方法包括学习步骤S10和检测步骤S20。检测步骤S20包括一组步骤S21至S25。学习步骤S10是为检测步骤S20做准备的步骤。检测步骤S20对应于图12所示的头部检测步骤S01。在学习步骤S10中，执行其中使用大量图像来执行机器学习(例如，用Aba Boosting的算法学习)的处理，提取作用于检测步骤S20中的头部检测目标的原始图像上的各种滤波器。稍后将描述学习步骤S10的详细说明。

检测步骤S20是通过使用在学习步骤S10中提取的各种滤波器自动地从目的用于检测的原始图像中检测人物的头部的步骤。检测步骤S20包括图像组产生步骤S21、亮度修正步骤S22、差分图像产生步骤S23、步进检测步骤S24和区域综合步骤S25。步进检测步骤S24包括主估计值计算步骤S241、辅助估计值计算步骤S242、区域提取步骤S243和确定步骤S244。在确定步骤S244中确定步骤S241、S242和S243的重复是否结束。稍后将详细描述检测步骤S20的步骤。

图26是由在图13中的一个方框示出的头部检测部分的详细方框图。

头部检测部分41是通过执行头部检测程序在个人计算机30中实现的算法，所述头部检测程序是上载到在图9至11所示的个人计算机30中的人物跟踪程序的程序部分之一。头部检测部分41包括图像组产生部分110、亮度修正部分120、差分图像产生部分130、步进检测部分140、区域综合部分50、滤波器存储部分160、和区域提取操作控制部分170。步进检测部分140包括主估计值计算部分141、辅助估计值计算部分142、和区域提取部分143。

与图25所示的头部检测方法相比，图26中的整个头部检测部分41对应于图25中的头部检测方法的检测步骤S20，图像组产生部分110对应于图像组产生步骤S21，亮度修正部分120对应于亮度修正步骤S22，差分图像产生部分130对应于差分图像产生步骤S23，步进检测部分140和区域提取操作控制部分170的组合对应于步进检测步骤S24，并且区域综合部分150对应于区域综合步骤S25。同样在图13和25中示出的存储部分461存储在学习步骤S10中提取的各种类型的滤波器(稍后描述)。

步进检测部分140的主估计值计算部分141、辅助估计值计算部分142、和区域提取部分143分别对应于图25所示的头部检测方法中的步进检测步骤S24的主估计值计算步骤S241、辅助估计值计算步骤242、和区域提取步骤S243。区域提取操作控制部分170对应于步进检测步骤S24的确定步骤S244。

由于在个人计算机30中执行的头部检测程序的动作与图26所示的头部检测部分的动作相同，所以这里不再重复头部检测程序的图示和描述。

在下文中，将简要地描述图26所示的头部检测部分41的每个部分的动作。本说明还用作头部检测程序和包括在图25所示的头部检测方法中的检测步骤S20中的每个步骤的解释。然后，将详细描述图25所示的头部检测方法的学习步骤S10和头部检测部分41。

图26所示的头部检测部分从二维阵列像素表示的图像中检测人物的头部。

在图25所示的头部检测方法的学习步骤S10中提取的许多滤波器被存储在存储部分461中。该滤波器作用于二维地散布在图像上的具有预定尺寸的区域，并且该滤波器计算人物的头部轮廓和相互不同的人物头部特征量之一。每个滤波器被存储在滤波器存储部分中，同时与由每个滤波器计算的特征量与指示人物头部的概率的主估计值之间的对应关系相关联。每个滤波器包括作用于具有多个尺寸(在这种情况下，为32×32像素、16×16像素、和8×8像素)的区域的采用多个尺寸中的每一个的多个滤波器。在所述多个尺寸中，对应于图像上的区域尺寸的像素数目沿垂直和水平方向的每一个以1/2的比以步进方式改变。

在图像组产生部分110中，组成馈送的原始图像的像素被以1/2的比垂直和水平地逐渐薄化，以产生包括原始图像和多个薄化图像的图像组。在图像组产生部分110中，除通过以1/2的比对原始图像进行薄化产生的图像组之外，通过向原始图像执行内插操作而产生组成包括原始图像的图像组的内插图像。内插图像的像素数目大于通过以1/2的比垂直和水平地对原始图像进行薄化而获得的薄化图像的像素数目(该像素数目变为原始图像的像素数目的四分之一(沿垂直和水平方向的每一个的1/2的比))，并且内插图像的像素数目小于原始图像的像素数目。以1/2的比垂直和水平地对组成产生的内插图像的像素进行逐渐薄化，以产生包括内插图像和通过对内插图像的像素进行薄化而获得的薄化图像的新图像组。

亮度修正部分120执行亮度修正处理。在亮度修正处理中，当注意力集中于图像上的一个像素时，使用存在于包括聚焦像素的某一区域中的多个像素的像素值(亮度值)的平均值和方差来修正聚焦像素的像素值(亮度值)。在将图像上的每个像素设置为聚焦像素时，对整个图像应用亮度修正处理。将亮度修正处理应用于组成从图像组产生部分110接收到的图像组的每个图像。

当将其中亮度根据像素而大大改变的图像设置为头部检测目标时，由亮度修正部分120执行的亮度修正处理有效地改善了头部检测的准确度。虽然本实施例的头部检测部分41包括亮度修正部分120，但并不总是需要执行本发明中的亮度修正处理。

从图1的监视照相机20向差分图像产生部分130中馈送运动图像。差分图像产生部分130产生相邻帧的差分图像，并且差分图像产生部分130将差分图像传输到步进检测部分130。

其中已由亮度修正部分120修正亮度的图像被直接馈送到步进检测部分140。其中已由亮度修正部分120修正亮度的图像还被馈送到差分图像产生部分130，并且由差分图像产生部分130产生的差分图像被馈送到步进检测部分140。这是因为通过不仅利用逐个静止图像、而且利用差分图像作为头部检测目标图像，使用关于人物的头部的移动信息来以高准确度检测头部。

在步进检测部分140中，首先，主估计值计算部分141将多个滤波器应用于头部检测目标图像上的每个区域以计算多个特征量，并且主估计值计算部分141基于与每个滤波器相关联的(由滤波器计算的特征量与指示人物头部的概率的主估计值之间的)对应关系来获得对应于每个特征量的主估计值。然后，辅助估计值计算部分142使用诸如加法和平均值的计算等运算将由主估计值计算部分141获得的对应于多个滤波器的多个主估计值综合，从而获得辅助估计值，其指示该区域中的人物头部存在的概率。然后，区域提取部分143将由辅助估计值计算部分142获得的辅助估计值与阈值相比较以提取其中人物头部存在的概率高于阈值的区域。在图26的头部检测部分41中，通过用区域提取部分143提取区域来检测人物的头部。

在步进检测部分140中，在区域提取操作控制部分170的序列控制下，反复地操作主估计值计算部分141、辅助估计值计算部分142、和区域提取部分143，并且最后以极高的概率提取人物的头部出现的区域。区域提取操作控制部分170如下控制步进检测部分140的主估计值计算部分141、辅助估计值计算部分142、和区域提取部分143的操作。

首先，区域提取操作控制部分170促使主估计值计算部分141、辅助估计值计算部分142、和区域提取部分143的操作以执行第一提取处理。也就是说，区域提取操作控制部分170促使主估计值计算部分141将存储在存储部分461中的许多滤波器中的作用在相对窄区域上的多个第一滤波器应用于由图像组产生部分110产生的图像组中的相对小的第一图像以计算多个特征量，并且区域提取操作控制部分170促使主估计值计算部分141基于对应关系来获得对应于每个特征量的主估计值。区域提取操作控制部分170促使辅助估计值计算部分142将由主估计值计算部分141获得的对应于多个第一滤波器的多个主估计值相加，从而促使辅助估计值计算部分142获得辅助估计值，该辅助估计值指示区域中人物头部的存在概率。区域提取操作控制部分170促使区域提取部分143将由辅助估计值计算部分142获得的辅助估计值与第一阈值相比较以提取其中人物头部的存在概率高于第一阈值的主候选区域。

然后，区域提取操作控制部分170促使主估计值计算部分141、辅助估计值计算部分142、和区域提取部分143的操作以执行第二提取处理。也就是说，区域提取操作控制部分170促使主估计值计算部分141通过将存储在存储部分461中的许多滤波器中的作用在比多个第一滤波器的区域宽一级的区域上的多个第二滤波器应用于对应于第二图像的主候选区域的区域来计算多个特征量，在所述第二图像中，像素数目比由图像组产生部分110产生的图像组中的第一图像的像素数目大一级，并且区域提取操作控制部分170促使主估计值计算部分141基于对应关系来获得对应于每个特征量的主估计值。区域提取操作控制部分170促使辅助估计值计算部分142将由主估计值计算部分141获得的对应于多个第二滤波器的多个主估计值相加，从而促使辅助估计值计算部分142获得辅助估计值，该辅助估计值指示主候选区域中人物头部的存在概率。区域提取操作控制部分170促使区域提取部分143将由辅助估计值计算部分142获得的辅助估计值与第二阈值相比较以提取其中人物头部的存在概率高于第二阈值的辅助候选区域。

区域提取操作控制部分170促使主估计值计算部分141、辅助估计值计算部分142、和区域提取部分143顺序地重复包括第一提取处理和第二提取处理的多个提取处理，从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理。

在图26的头部检测部分41中，区域提取部分143最后通过此重复提取区域，从而以高准确度检测人物的头部。

如上所述，在图像组产生部分110中，通过内插操作和薄化操作从一个原始图像产生多个图像组。对于由图像组产生部分110产生的多个图像组(由差分图像产生部分130产生差分图像的图像组，并且所述多个图像组包括由差分图像产生部分130产生的差分图像的图像组)中的每一个，区域提取操作控制部分170促使主估计值计算部分141、辅助估计值计算部分142、和区域提取部分143顺序地重复多个提取处理，从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理。

因此，可以检测具有各种尺寸的人物的头部。

有时，从区域提取部分143中提取第一区域和第二区域作为人物头部区域。第一区域在图像的实质中心上包括人物的脸。第二区域在同一图像的实质中心上包括头部，该头部包括同一人的头发。第二区域与第一区域重叠。因此，为了处理此类情况，图26中的头部检测部分41包括执行用于将多个区域综合为一个区域的处理的区域综合部分150。具体而言，在区域提取部分143检测到多个区域的情况下，根据多个区域之间的重叠程度将多个区域综合为一个区域。稍后将提供详细说明。

将更具体地描述关于头部检测处理的示例性实施例。

图27是图25的头部检测方法中的学习步骤S10的详细流程图。

图27示出两个流程图：上级的流程图示出用于在计算差之前逐个地处理静止图像的处理，且下级的流程图示出用于处理差分图像的处理。

首先，准备许多图像200以产生教师图像。许多图像200包括许多静止图像201和用于产生差分图像的运动图像202。可以使用运动图像202的每个帧作为静止图像201。优选地，由拍摄用于头部检测的原始图像的监视照相机20(参见图1)获得图像200，但图像200不限于由监视照相机20获得的图像。例如，作为由监视照相机20拍摄的图像的替代，图像200可以是其中存在人物的各种场景的图像和其中不存在人物的各种场景的图像的集合。

顺序地对图像200应用仿射变换处理210、多分辨率展开处理220、和亮度修正处理230，并通过差分操作处理240由运动图像202产生差分图像。然后，通过裁剪处理250产生教师图像251。教师图像251由用于每个场景的教师图像组形成。教师图像组包括32×32像素教师图像、16×16像素教师图像、和8×8像素教师图像。为许多场景中的每个产生教师图像组。

在下文中，将描述直至这一级的每个处理。

在仿射变换处理210中，通过渐渐地改变一个图像而不是极多图像的集合来产生许多图像，从而增加图像数目，这成为教师图像的基础。在这里，通过使一个原始图像倾斜-12°、-6°、0°、+6°、和+12°来产生图像。另外，通过将原始图像垂直地缩放1.2倍、1.0倍、和0.8倍来产生图像，并通过将原始图像水平地缩放1.2倍、1.0倍、和0.8倍来产生图像。在产生的图像中，具有0°的倾斜角、1.0倍的垂直缩放系数、和1.0倍的水平缩放系数的图像是原始图像。通过倾斜与缩放的组合，由一个原始图像产生包括原始图像的45(＝5×3×3)个图像。

因此，产生大量的教师图像，这使得能够实现高准确度学习。

下面将描述多分辨率展开处理220。

图28是多分辨率展开处理的说明图。

人物的头部出现在图28中且已获得教师图像。然而，在图27的多分辨率展开处理220中，在将图像裁剪为教师图像之前向整个图像应用以下处理。

假设L₀是图30的部分(A)中所示的一个原始图像，通过每隔一个像素垂直和水平地对原始图像L₀进行薄化来产生被垂直和水平地缩小至1/2(面积缩小至1/4)的图像L₁。同样地，通过每隔一个像素垂直和水平地对图像L₁进行薄化来产生被垂直和水平地缩小至1/2(面积缩小至1/4)的图像L₂。图28的部分(B)示出在倒金字塔状结构中以上述方式产生的图像组，该图像组包括三个图像L₀、L₁、和L₂。

执行亮度修正处理230。

在亮度修正处理230中，由以下公式(16)来获得修正之后的像素值(亮度值)。其中，X_org是修正之前的像素X的像素值(亮度值)，X_cor是修正之后的亮度。

X_{cor} = \frac{X_{org} - E (X_{org})}{σ (X_{org})} . . . . . . (16)

E(X_org)和σ(X_org)是像素X的相邻像素(例如，9×9像素)中的像素值(亮度值)的平均值和方差。通过对整个图像执行亮度修正处理230来修正亮度。

对图28的部分(B)所示的三层的每个图像L₀、L₁、和L₂应用亮度修正。也就是说，对下层(朝着图像L₂侧)应用使用比原始图像宽的区域的场景的亮度修正。

然后，对运动图像应用差分处理240。

图29是运动图像差分处理的说明图。

图29的部分(A)示出运动图像中的彼此相邻的两个帧的图像。通过多分辨率展开处理220(图29的部分(B))由两个图像产生分别包括图像L₀、L₁、和L₂及图像L₀′、L₁′、和L₂′的两个图像组。

对组成两个图像组的图像L₀、L₁、和L₂和图像L₀′、L₁′、和L₂′应用亮度修正处理230，并对图像L₀、L₁、和L₂和图像L₀′、L₁′、和L₂′应用差分处理240。

在差分处理中，针对具有相同尺寸的图像获得每个相应像素中的差分值的绝对值(|L_i′-L_i|、i＝0、1、和2)，并产生包括图29的部分(C)所示的三个差分图像的倒金字塔状图像组。

然后，执行裁剪处理250。

在裁剪处理250中，从具有图28的部分(B)和图29的部分(C)所示的三层结构的图像裁剪人的头部以各种模式出现的区域或除人的头部之外的对象出现的区域，从人的头部出现的区域产生人的头部存在的教师图像，并从除人的头部之外的对象出现的区域产生人的头部不存在的教师图像。

在裁剪教师图像时，从图28的部分(B)和图29的部分(C)所示的三层图像中的最上层图像裁剪32×32像素区作为教师图像，从第二层图像裁剪同一部分的16×16像素区，并从第三层图像裁剪同一部分的8×8像素区。裁剪的三层教师图像由于不同的图像尺寸而在分辨率方面相互不同。然而，该三层教师图像是从图像上的同一部分裁剪的。因此，教师图像也变成图28的部分(B)和图29的部分(C)所示的具有三层结构的倒金字塔状教师图像组。

产生具有三层结构的许多教师图像组251并将其用于学习。

将描述其中通过教师图像执行学习的一侧的滤波器。

图30是滤波器结构的说明图，并且图31图示各种类型的滤波器的示例。

在这里，准备了各种类型的滤波器。滤波器被分成作用于图像上的32×32像素区的滤波器、作用于图像上的16×16像素区的滤波器、和作用于图像上的8×8像素区的滤波器。该滤波器是用于检测头部直至通过学习来提取滤波器为止的滤波器候选。在滤波器候选之中，通过使用在图32的部分(A)所示的具有三层结构的教师图像组中的32×32像素教师图像执行的学习来选择作用于32×32像素区的滤波器，并提取应被用来检测头部的滤波器。同样地，通过使用具有三层结构的教师图像中的16×16像素教师图像执行的学习来选择许多滤波器候选之中的作用于16×16像素区的滤波器候选，并提取应被用来检测头部的滤波器。同样地，通过使用具有三层结构的教师图像组中的8×8像素教师图像执行的学习来选择许多滤波器候选之中的作用于8×8像素区的滤波器候选，并提取应被用来检测头部的滤波器。

如图30的部分(B)所示，一个滤波器具有类型、层、和六个像素坐标{pt₀、pt₁、pt₂、pt₃、pt₄、和pt₅}的属性。

假设X_pt0、X_pt1、X_pt2、X_pt3、X_pt4、和X_pt5是位于六个像素坐标处的像素的像素值(亮度值)，通过以下运算来计算三个差分值的向量。

V_{Feature} = (\begin{matrix} X_{{pt}_{0}} - X_{{pt}_{1}} \\ X_{{pt}_{2}} - X_{{pt}_{3}} \\ X_{{pt}_{4}} - X_{{pt}_{5}} \end{matrix}) . . . . . . (17)

“类型”指示诸如图31所示的类型0至类型8等大的分类。例如，图31的左上方的类型0指示计算沿水平方向(θ＝0°)的差的滤波器，类型1指示沿垂直方向(θ＝±90°)的差的滤波器，并且类型2至4指示计算沿每个类型的方向的差的滤波器。类型5至8指示通过图31所示的差分运算来检测每个曲线的边缘的滤波器。“层”是指示作用于32×32像素区的滤波器、作用于16×16像素区的滤波器、或作用于8×8像素区的滤波器的识别标记。

六个像素坐标{pt₀、pt₁、pt₂、pt₃、pt₄、和pt₅}在滤波器作用于8×8像素区的情况下指定64(＝8×8)像素中的六个像素的坐标。这也适用于作用于16×16像素区的滤波器和作用于32×32像素区的像素。

将使用公式(17)执行的运算应用于由六个像素坐标{pt₀、pt₁、pt₂、pt₃、pt₄、和pt₅}指定的六个像素。例如，在图31的左上方的类型0中的顶部滤波器的情况下，假设X₀是向其附加数值0的像素的亮度值，X₁是向其附加数值1的像素的亮度值，X₂(＝X₁)是向其附加数值2的像素(在这里，向其附加数值2的像素与向其附加数值1的像素相同)的亮度值，X₃是向其附加数值3的像素的亮度值，X₄(＝X₃)是向其附加数值4的像素(在这里，向其附加数值4的像素与向其附加数值1的像素相同)的亮度值，且X₅是向其附加数值5的像素的亮度值，获得以下公式(18)。

V_{Feature} = (\begin{matrix} X_{0} - X_{1} \\ X_{2} - X_{3} \\ X_{4} - X_{5} \end{matrix}) . . . . . . (18)

将0至5的数值附加于左侧的类型5的滤波器，并执行与公式(18)相同的运算。

这些是示例且图31中的各种类型的滤波器执行类似于这些示例的运算。

如图27所示，当产生教师图像组251时，通过机器学习从许多滤波器候选中提取用来检测头部的滤波器270。

下面将描述机器学习。

图32是机器学习的概念图。

如上所述，在准备许多教师图像组251的同时准备许多滤波器候选260，从作用于8×8像素区的滤波器候选260A中提取用来检测头部的滤波器270A，该8×8像素区使用教师图像组251中的许多8×8像素教师图像251A。然后，在反映提取结果的同时，从作用于16×16像素区的滤波器候选260B中提取用来检测头部的滤波器270B，该16×16像素区使用16×16像素教师图像251B。然后，在反映提取结果的同时，从作用于32×32像素区的滤波器候选260B中提取用来检测头部的滤波器270C，该32×32像素区使用许多32×32像素教师图像251C。

在这里，采用Aba Boost算法作为机器学习的示例。由于在广泛的领域中已采用Aba Boost算法，所以下面将简要地描述Aba Boost算法。

图33是教师图像的概念图。

在这里，假设准备了8×8像素的许多教师图像a0、b0、c0、...、和m0。教师图像包括作为头部的图像的教师图像和不是头部的图像的教师图像。

图34是示出各种类型的滤波器和滤波器的学习结果的概念图。

这里，准备作用于8×8像素区的各种滤波器(在此阶段，为滤波器候选)a、b、...、和n，并使用图33的许多教师图像对每个滤波器a、b、...、和n应用学习。

图34的每个图表示出每个滤波器的学习结果。

在每个滤波器中计算包括由公式(17)表示的三维向量的特征量。为简单起见，将该特征量示为一维特征量。

在图34的图表中，水平轴指示使用滤波器对于许多教师图像中的每一个获得的特征量的值，且垂直轴指示关于使用滤波器的头部的正确答案的百分比。使用该概率作为主估计值。

假设，作为对每个滤波器a、b、...、n执行第一学习的结果，获得如图34所示的学习结果且正确答案的百分比在使用滤波器n时变成最大值。在这种情况下，使用滤波器n作为头部检测滤波器，并对除滤波器n之外的滤波器a、b、...应用第二学习。

如图34的部分(C)所示，假设对于教师图像a0、b0、c0、和m0获得主估计值x、y、z、和z。

图35是对教师图像进行加权的说明图。

对具有同一权值1.0的所有教师图像a0、b0、c0、...、和m0应用第一学习。另一方面，在第二学习中，由在第一学习中获得正确答案的最大百分比的滤波器n将教师图像的x、y、z、和z的概率添加到教师图像a0、b0、c0、...、和m0，对于具有较高的正确答案可能性的教师图像降低权值，并对于具有较低的正确答案可能性的教师图像提高权值。该权值被反映在第二学习中的每个教师图像的正确答案的百分比上。也就是说，在第二学习中，权值等于每个教师图像在学习中重复使用的权值次数。在第二学习中，提取其中获得正确答案的最大百分比的滤波器候选作为头部检测滤波器。再次使用关于所提取的滤波器的特征量的正确答案百分比的图表来修正用于教师图像a0、b0、c0、...、和m0的权值，并对除当前提取的滤波器之外的其余滤波器应用学习。通过重复学习来提取作用于8×8像素区的许多头部检测滤波器270A(参见图32)。

图36是在提取8×8像素滤波器之后进行到16×16像素滤波器的学习的转换时的加权方法的说明图。

在提取8×8像素滤波器之后，当独立地使用每个滤波器时，对于每个滤波器获得特征量与主估计值之间的对应关系(例如，图34所示的图表)，并且通过添加从由许多8×8像素滤波器获得的特征量获得的每个滤波器的主估计值来为每个教师图像(例如，教师图像a0)获得辅助估计值。如图36所示，假设对于教师图像a0、b0、c0、...、和m0获得辅助估计值A、B、C、...、和M。在这里，使用辅助估计值A、B、C、...、和M将对应于8×8像素教师图像a0、b0、c0、...、和m0的16×16像素教师图像a1、b1、c1、...、和m1的权值从等于所有图像的权值1.0改变，并将改变的权值用于学习以提取作用于16×16像素区的滤波器。

在下文中，用于16×16像素区的滤波器的提取算法、加权改变算法、和用于进行到32×32像素区的滤波器提取的转换的算法与上文所述的那些类似，因此这里不再重复描述。

因此，提取包括作用于8×8像素区的许多滤波器270A、作用于16×16像素区的许多滤波器270B、和作用于32×32像素区的许多滤波器270C的滤波器组270，对于每个滤波器获得特征量(公式(17)的向量)与主估计值之间的对应关系(图表、表格、和函数公式中的任何一个)，并将滤波器组270和对应关系存储在图25和26所示的存储部分461中。

接下来，将描述使用被这样存储在存储部分461中的滤波器的头部检测处理。

在图26的图像组产生部分110、亮度修正部分120、和差分图像产生部分130中，执行在学习中与图27的多分辨率展开处理220、亮度修正处理230、和差分运算处理240的那些相同的一系列处理。然而，由于由图像组产生部分110执行的处理与多分辨率展开处理220略有不同，所以下面将描述由图像组产生部分110执行的处理。

图37是示出由图26中的图像组产生部分110执行的处理的示意图。

由图1的监视照相机20拍摄的运动图像被馈送到图像组产生部分110中，并将图37的处理应用于组成该运动图像的每个图像。

对于作为输入图像的原始图像应用内插操作处理，获得略小于原始图像的内插图像1，并获得略小于内插图像1的内插图像2。同样地，获得内插图像3。

用以下公式(19)来表示关于垂直和水平方向的每个方向的原始图像与内插图像1之间的图像尺寸比Sσ。

Sσ = 2^{- \frac{1}{N}} . . . . . . (19)

其中，N是包括原始图像的内插图像的数目(在图37的示例中N＝4)。

在产生内插图像(图37的示例中的内插图像1、2、和3)之后，通过沿水平和垂直方向每隔一个像素薄化原始图像和内插图像来产生沿垂直和水平方向具有1/2的尺寸的图像，通过沿垂直和水平方向从具有1/2的尺寸的内插图像和原始图像每隔一个像素进行薄化来产生沿垂直和水平方向具有1/4的尺寸的图像，并通过沿垂直和水平方向从具有1/4的尺寸的内插图像和原始图像每隔一个像素进行薄化来产生沿垂直和水平方向具有1/8的尺寸的图像。因此，在图37的示例中，从一个原始图像产生四个倒金字塔状图像组，每个具有四层。

这样，可以通过产生具有许多尺寸的图像来提取具有各种尺寸的头部。

由于由图26的亮度修正部分120和差分图像产生部分130执行的一系列处理类似于图27的亮度修正处理230和差分运算处理，所以这里不再重复重叠说明。

在亮度修正部分120向图37中的倒金字塔状图像组应用亮度修正处理之后，差分图像产生部分130将图39的倒金字塔状图像组转换成差分图像的倒金字塔状图像组，且差分图像的倒金字塔状图像组被馈送到步进检测部分140。步进检测部分140在区域提取操作控制部分170的序列控制下执行以下操作处理。

在主估计值计算部分141中，从存储部分461中读取作用于8×8像素区的许多滤波器，并用8×8像素滤波器对组成图37所示的具有四层的倒金字塔状图像组的四个图像之中具有最小尺寸的图像和具有次最小尺寸的图像进行光栅扫描。然后，在每个顺序移动的区域中获得指示特征量的向量(参见公式(17))，针对每个滤波器参考特征量与主估计值之间的对应关系(参见图34)，并将特征量转换成主估计值。

在辅助估计值计算部分142中，将由作用于8×8像素区的许多滤波器获得的许多主估计值彼此相加以获得辅助估计值。区域提取部分143提取其中辅助估计值等于或大于预定第一阈值(头部的高出现概率)的主提取区域。

然后，关于主提取区域的位置信息被发送到主估计值计算部分141。在主估计值计算部分141中，从存储部分461中读取作用于16×16像素区的许多滤波器，将作用于16×16像素区的每个滤波器应用于对应于由区域提取部分143提取的主提取区域的区域，对于图37中的四个倒金字塔状图像组中的每一个的次最小图像和第三最小图像(次最大图像)计算特征量，并将该特征量转换成主估计值。在辅助估计值计算部分142中，将由作用于16×16像素区的许多滤波器获得的许多主估计值彼此相加以获得辅助估计值。区域提取部分143将获得的辅助估计值与第二阈值相比较以从对应于主提取区域的区域中提取其中头部的出现概率进一步提高的辅助提取区域。关于辅助提取区域的位置信息被发送到主估计值计算部分141。在主估计值计算部分141中，从存储部分461中读取作用于32×32像素区的许多滤波器，将作用于36×36像素区的每个滤波器应用于对应于由区域提取部分143提取的辅助提取区域的区域，辅助提取区域在图37中的四个倒金字塔状图像组中的每一个中的次最大图像和最大图像上，并且特征量被转换成主估计值。在辅助估计值计算部分142中，将由作用于32×32像素区的许多滤波器获得的许多主估计值彼此相加以获得辅助估计值。区域提取部分143将获得的辅助估计值与第三阈值相比较以从对应于辅助提取区域的区域中提取具有头部会出现的确定性的第三提取区域。关于第三提取区域的信息、即区域在图像上的位置pos(区域的左上拐角处的坐标(l，t)和右下拐角处的坐标(r，b))的信息和最终辅助估计值相似性被馈送到图26中的区域综合部分150。

图38是示出由区域综合部分150执行的区域综合处理的说明图。

当关于多个头部区域(第三提取区域)Hi(i＝1、...、和M)的信息片Hi(位置，相似性)被馈送到区域综合部分150中时，区域综合部分150按照辅助估计值相似性的顺序将头部区域信息片Hi分类。在这里，假设两个区域Href和Hx相互重叠，并假设区域Href在辅助估计值相似性方面高于区域Hx。

假设S_Href是区域Href的面积，S_Hx是区域Hx的面积，并且S_oross是区域Href和Hx的重叠部分的面积，用以下公式来计算重叠比。

ρ = \frac{S_{cross}}{S_{Href} + S_{Hx} - S_{cross}} . . . . . . (20)

当重叠比等于或大于阈值ρlow时，执行区域综合操作。也就是说，根据区域中的相似性的权值被赋予在区域Href的四个拐角处和在区域Hx的四个拐角处的坐标之中的相应坐标，并将区域Href和Hx综合为一个区域。

例如，使用分别作为区域Href和Hx的相似性的相似性(ref)和相似性(x)将区域Href和Hx的左上拐角处的沿水平方向的坐标lref和lx转换成由以下公式(21)表示的综合坐标。

l = \frac{l_{ref} \times likeness (ref) + l_{x} \times likeness (x)}{likeness (ref) + likeness (x)} . . . . . . (21)

使用公式(21)，对指示位置的四个坐标pos＝(l，t，r，b)^t执行运算，并将两个区域Href和Hx综合为一个区域。

这也适用于至少三个区域彼此重叠的情况。

在本实施例中，通过上述一系列处理以高速度准确地提取人物头部出现的区域。

附带地，这里所述的头部检测处理不限于头部的检测，并且可以共同用于例如人脸的检测、或以各种形状出现在图像上的对象的检测。

现在，以一般表达法将此头部检测处理的各个方面描述为对象检测处理。

(1)一种用于从由二维阵列像素表示的图像中检测特定种类的对象的对象检测方法，该对象检测方法包括：

主估计值计算步骤，其将多个滤波器应用于对象检测目标的图像上的具有预定尺寸的区域以计算多个特征量，并基于对应关系来获得对应于每个特征量的主估计值，所述多个滤波器作用于具有预定尺寸的区域以计算特定种类的对象的轮廓和特定种类的对象中的相互不同的特征量之一，具有预定尺寸的区域二维地散布在图像上，所述多个滤波器与由所述多个滤波器中的每一个计算的特征量与指示至少特定种类对象的概率的主估计值之间的对应关系相关联；

辅助估计值计算步骤，其通过将多个主估计值综合来获得辅助估计值，所述辅助估计值指示存在于该区域中的特定种类对象的概率，所述对应于所述多个滤波器的多个主估计值是在主估计值计算步骤中获得的；以及

区域提取步骤，其将在辅助估计值计算步骤中获得的辅助估计值与阈值相比较以提取其中特定种类对象的存在概率高于该阈值的区域，

其中，通过在所述区域提取步骤中提取区域来检测所述特定种类的对象。

(2)根据(1)的对象检测方法，其中，所述多个滤波器包括尺寸为多个尺寸中的每一个的多个滤波器，所述多个滤波器中的每一个分别作用于具有多个尺寸的区域，像素的数目以预定速率改变，或者在多个尺寸中以步进方式以预定速率改变，每个滤波器与所述对应关系相关联，

所述对象检测方法还包括图像组产生步骤，其通过以预定速率对组成原始图像的像素进行薄化或通过以步进方式以预定速率对像素进行薄化来产生图像组，该图像组包括对象检测目标的原始图像和至少一个薄化图像；以及

多个提取处理包括第一提取处理和第二提取处理，其中

从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理顺序地重复所述多个提取处理，并通过最后在区域提取步骤中提取区域来检测特定种类的对象；

在第一提取处理中，所述第一估计值计算步骤通过将作用于相对窄的区域的多个第一滤波器应用于在图像组产生步骤中产生的图像组中的相对小的第一图像来计算所述多个特征量，并基于对应于所述多个第一滤波器中的每一个的对应关系来获得对应于每个特征量的每个主估计值，所述辅助估计值计算步骤通过将对应于所述多个第一滤波器的所述多个主估计值综合来获得指示特定种类对象存在于区域中的概率的辅助估计值，所述多个主估计值是在所述主估计值计算步骤中获得的，所述区域提取步骤将在辅助估计值计算步骤中获得的辅助估计值与第一阈值相比较以提取其中超过第一阈值的特定种类对象存在概率较高的主候选区域；以及

在第二提取处理中，所述主估计值计算步骤通过将作用于比所述多个第一滤波器的区域宽一级的区域的多个第二滤波器应用于对应于在图像组产生步骤中产生的图像组中的第二图像中的主候选区域的区域来计算所述多个特征量，第二图像的像素数目比第一图像的像素数目大一级，并基于对应于所述多个第二滤波器中的每一个的对应关系来获得对应于每个特征量的每个主估计值，所述辅助估计值计算步骤通过将对应于所述多个第二滤波器的所述多个主估计值综合来获得辅助估计值，该辅助估计值指示特定种类对象存在于对应于主候选区域的区域中的概率，所述多个主估计值是在主估计值计算步骤中获得的，所述区域提取步骤将在辅助估计值计算步骤中获得的辅助估计值与第二阈值相比较以提取其中超过第二阈值的特定种类对象存在概率较高的辅助候选区域。

(3)根据(2)的对象检测方法，其中，所述图像组产生步骤是对原始图像执行内插操作以便除所述图像组之外还产生一个内插图像或多个内插图像的步骤，所述一个内插图像或所述多个内插图像组成图像组，所述一个内插图像的像素数目在其中像素数目大于通过以预定速率对原始图像进行薄化获得的薄化图像的像素数目并小于原始图像的像素数目的范围内，所述多个内插图像具有在该范围内的相互不同的像素数目，并且所述图像组产生步骤是通过针对所产生的至少一个内插图像中的每一个以预定速率对组成内插图像的像素进行薄化并通过以步进方式以预定速率对像素进行薄化来产生新图像组的步骤，所述新图像组包括内插图像和通过对内插图像的像素进行薄化获得的至少一个薄化图像，以及

所述主估计值计算步骤、所述辅助估计值计算步骤、和区域提取步骤对在图像组产生步骤中产生的所述多个图像组中的每一个顺序地重复多个提取处理，从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理。

(4)根据(1)的对象检测方法，还包括学习步骤，其准备具有预定尺寸的多个教师图像和多个滤波器候选，所述多个教师图像包括其中出现特定种类对象的具有预定尺寸的多个图像和其中出现除所述特定种类对象之外的对象的具有预定尺寸的多个图像，所述多个滤波器候选作用于图像上的具有预定尺寸的区域以提取存在于该区域中的特定种类对象的轮廓和所述特定种类对象中的相互不同的特征量之一，并且该学习步骤通过机器学习从所述多个滤波器候选中提取多个滤波器以获得对应于每个滤波器的对应关系。

(5)根据(2)的对象检测方法，还包括学习步骤，其通过以预定速率对具有预定尺寸的多个教师图像进行薄化或通过以步进方式以预定速率对所述多个教师图像进行薄化来产生多个教师图像组，所述多个教师图像在具有不同尺寸的同时具有相同的场景，所述多个教师图像包括其中出现特定种类对象的具有预定尺寸的多个图像和其中出现除所述特定种类对象之外的对象的具有预定尺寸的多个图像，该学习步骤准备对应于多个尺寸步骤的多个滤波器候选，所述多个滤波器候选作用于图像上的区域并具有根据所述多个步骤的教师图像的尺寸的尺寸，所述教师图像组成教师图像组，所述多个滤波器候选提取存在于区域中的特定种类对象的轮廓和所述特定种类对象中的相互不同的特征量之一，并且该学习步骤通过机器学习针对每种尺寸从所述多个滤波器候选中提取多个滤波器以获得对应于每个提取的滤波器的对应关系。

(6)根据(1)的对象检测方法，还包括区域综合步骤，当在区域提取步骤中检测到多个区域时，该区域综合步骤根据多个区域之间的重叠程度将多个区域综合为一个区域。

(7)根据(1)的对象检测方法，还包括差分图像产生步骤，其获得连续图像以产生不同帧之间的差分图像，所述连续图像包括多个帧，所述差分图像被用作对象检测目标的对象。

(8)根据(1)的对象检测方法，其中，所述多个滤波器是产生指示人物头部的存在概率的估计值的滤波器，以及

所述对象检测方法意图检测出现在图像中的人头部。

(9)一种对象检测装置，其从由二维阵列像素表示的图像中检测特定种类的对象，该对象检测装置包括：

滤波器存储部分，多个滤波器在与由所述多个滤波器中的每一个计算的特征量与指示特定种类对象的概率的主估计值之间的对应关系相关联的同时被存储在其中，所述多个滤波器作用于具有预定尺寸的区域以计算所述特定种类对象的轮廓和所述特定种类对象中的相互不同的特征量之一，所述具有预定尺寸的区域被二维地散布在图像上；

主估计值计算部分，其将所述多个滤波器应用于对象检测目标的图像上的具有预定尺寸的区域以计算多个特征量并基于对应关系来获得对应于每个特征量的主估计值；

辅助估计值计算部分，其通过将所述多个主估计值综合来获得辅助估计值，所述辅助估计值指示存在于该区域中的特定种类对象的概率，对应于所述多个滤波器的所述多个主估计值是由所述主估计值计算部分获得的；以及

区域提取部分，其将由所述辅助估计值计算部分获得的辅助估计值与阈值相比较以提取其中特定种类对象的存在概率高于该阈值的区域，

其中，通过用所述区域提取部分提取区域来检测所述特定种类的对象。

(10)根据(9)的对象检测装置，其中，滤波器组在与所述对应关系相关联的同时被存储在所述滤波器存储部分中，所述滤波器组包括尺寸为多个尺寸中的每一个的多个滤波器，所述多个滤波器中的每一个分别作用于具有多个尺寸的区域，像素数目以预定速率改变或在所述多个尺寸中以步进方式以预定速率改变，每个滤波器与所述对应关系相关联，

所述对象检测装置包括：

图像组产生部分，其通过以预定速率对组成原始图像的像素进行薄化或通过以步进方式以预定速率对像素进行薄化来产生图像组，该图像组包括对象检测目标的原始图像和至少一个薄化图像；以及

区域提取操作控制部分，其促使所述主估计值计算部分、所述辅助估计值计算部分、和所述区域提取部分顺序地重复多个提取处理，从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理，以及

通过最后用所述区域提取部分提取区域来检测所述特定种类的对象，

所述多个提取处理包括第一提取处理和第二提取处理，

在第一提取处理中，所述第一估计值计算部分通过将存储在滤波器存储部分中的滤波器组中的作用于相对窄区域的多个第一滤波器应用于由所述图像组产生部分产生的图像组中的相对小的第一图像来计算所述多个特征量，并基于对应于所述多个第一滤波器中的每一个的对应关系来获得对应于每个特征量的每个主估计值，所述辅助估计值计算部分通过将对应于所述多个第一滤波器的所述多个主估计值综合来获得指示特定种类对象存在于区域中的概率的辅助估计值，所述多个主估计值是在所述主估计值计算部分中获得的，所述区域提取部分将在所述辅助估计值计算部分中获得的辅助估计值与第一阈值相比较以提取其中超过第一阈值的特定种类对象存在概率较高的主候选区域，以及

在第二提取处理中，所述主估计值计算部分通过将存储在滤波器存储部分中的滤波器组中的作用于比多个第一滤波器的区域宽一级的区域的多个第二滤波器应用于对应于由所述图像组产生部分产生的图像组中的第二图像中的主候选区域的区域来计算所述多个特征量，所述第二图像的像素数目比第一图像的像素数目大一级，并且所述主估计值计算部分基于对应于所述多个第二滤波器中的每一个的对应关系来获得对应于每个特征量的每个主估计值，所述辅助估计值计算部分通过将对应于所述多个第二滤波器的所述多个主估计值综合来获得指示特定种类对象存在于主候选区域中的概率的辅助估计值，所述多个主估计值是在所述主估计值计算部分中获得的，所述区域提取部分将在所述辅助估计值计算部分中获得的辅助估计值与第二阈值相比较以提取其中超过第二阈值的特定种类对象存在概率较高的辅助候选区域。

(11)根据(10)的对象检测装置，其中，所述图像组产生部分对原始图像执行内插操作以便除所述图像组之外还产生一个内插图像或多个内插图像，所述一个内插图像或所述多个内插图像组成图像组，所述一个内插图像的像素数目在其中像素数目大于通过以预定速率对原始图像进行薄化获得的薄化图像的像素数目并小于原始图像的像素数目的范围内，所述多个内插图像具有在该范围内的相互不同的像素数目，并且所述图像组产生部分通过针对所产生的至少一个内插图像中的每一个以预定速率对组成内插图像的像素进行薄化并通过以步进方式以预定速率对像素进行薄化来产生新图像组，所述新图像组包括内插图像和通过对内插图像的像素进行薄化获得的至少一个薄化图像，以及

区域提取操作控制部分促使所述主估计值计算部分、所述辅助估计值计算部分、和所述区域提取部分对由所述图像组产生部分产生的所述多个图像组中的每一个顺序地重复多个提取处理，从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理。

(12)根据(9)的对象检测装置，还包括区域综合部分，当所述区域提取部分检测到所述多个区域时，该区域综合部分根据所述多个区域之间的重叠程度将所述多个区域综合为一个区域。

(13)根据(9)的对象检测装置，还包括差分图像产生部分，其获得连续图像以产生不同帧之间的差分图像，所述连续图像包括多个帧，所述差分图像被用作对象检测目标的图像。

(14)根据(9)的对象检测装置，其中，所述滤波器存储部分存储包括多个滤波器的滤波器组，所述多个滤波器产生指示人头部存在概率的估计值，以及

所述对象检测装置意图检测出现在图像中的人头部。

(21)一种对象检测方法，其从由二维阵列像素表示的图像中检测特定种类的对象，该对象检测方法包括：

图像组产生步骤，其通过以预定速率对组成原始图像的像素进行薄化或通过以步进方式以预定速率对像素进行薄化来产生图像组，该图像组包括对象检测目标的原始图像和至少一个薄化图像；以及

步进检测步骤，其通过从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理顺序地重复多个提取处理来从原始图像中检测特定种类的对象，

所述多个提取处理包括：

第一提取处理，其提取其中通过将包括多个滤波器的滤波器组中的第一滤波器应用于在所述图像组产生步骤中产生的图像组中的相对小的第一图像而获得的超过预定第一阈值的估计值的主候选区域，所述第一滤波器作用于相对窄的区域，所述多个滤波器中的每一个作用于二维地散布在图像上的区域以产生估计值，所述估计值指示区域中的特定种类的对象的存在概率，所述多个滤波器作用于分别具有多个尺寸的区域，对应于图像上的区域的尺寸的像素数目以预定速率改变或在多个尺寸中以步进方式以预定速率改变；以及

第二提取处理，其提取其中通过将滤波器组中的第二滤波器应用于对应于第二图像中的主候选区域的区域而获得的超过预定第二阈值的估计值的辅助候选区域，在所述第二图像中，像素数目大于在所述图像组产生步骤中产生的图像组中的第一图像的像素数目，所述第二滤波器作用于比第一滤波器的区域宽的区域。

(22)根据(21)的对象检测方法，其中，所述图像组产生步骤是对原始图像执行内插操作以便除所述图像组之外还产生一个内插图像或多个内插图像的步骤，所述一个内插图像或所述多个内插图像组成图像组，所述一个内插图像的像素数目在其中像素数目大于通过以预定速率对原始图像进行薄化获得的薄化图像的像素数目并小于原始图像的像素数目的范围内，所述多个内插图像具有在该范围内的相互不同的像素数目，并且所述图像组产生步骤通过针对所产生的至少一个内插图像中的每一个以预定速率对组成内插图像的像素进行薄化并通过以步进方式以预定速率对像素进行薄化来产生新图像组，所述新图像组包括内插图像和通过对内插图像的像素进行薄化获得的至少一个薄化图像，以及

所述步进检测步骤是通过从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理对在所述图像组产生步骤中产生的所述多个图像组中的每一个顺序地重复提取处理来从每个原始图像和至少一个内插图像中检测特定种类的对象的步骤。

(23)根据(21)的对象检测方法，其中，为具有一个尺寸的每个区域准备多个种类的滤波器，所述多个种类的滤波器中的每一个计算特定种类的对象的轮廓和所述特定种类的对象中的特征量之一，

准备所述特征量与主估计值之间的相关性，所述特征量是由每个滤波器计算的，所述主估计值指示特定种类的对象的概率，以及

所述步进检测步骤是通过根据区域的尺寸将所述多个种类的滤波器应用于一个区域来计算所述多个特征量、获得对应于每个特征量的主估计值、并通过将辅助估计值与阈值相比较来确定该区域是否是其中存在特定种类的对象的候选区域的步骤，通过将所述多个主估计值综合来获得所述辅助估计值。

(24)根据(21)的对象检测方法，还包括区域综合步骤，当在所述步进检测步骤中检测到多个区域时，该区域综合步骤根据所述多个区域之间的重叠程度将所述多个区域综合为一个区域。

(25)根据(21)的对象检测方法，还包括差分图像产生步骤，其获得连续图像以产生不同帧之间的差分图像，所述连续图像包括多个帧，所述差分图像被用作对象检测目标的图像。

(26)根据(21)的对象检测方法，其中，所述滤波器组包括产生估计值的多个滤波器，所述估计值指示人头部的存在概率，以及

所述对象检测方法的检测目标是出现在图像中的人头部。

(27)一种对象检测装置，其从由二维阵列像素表示的图像中检测特定种类的对象，该对象检测装置包括：

滤波器存储部分，其中存储有包括多个滤波器的滤波器组，所述多个滤波器中的每一个作用于二维地散布在图像上的区域以产生估计值，该估计值指示区域中的特定种类对象的存在概率，所述多个滤波器分别作用于具有多个尺寸的区域，对应于图像上的区域的尺寸的像素数目以预定速率改变或者在所述多个尺寸中以步进方式以预定速率改变；

步进检测部分，其通过从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理顺序地重复多个提取处理来从原始图像中检测特定种类的对象，

所述多个提取处理包括：

第一提取处理，其提取其中通过将存储在滤波器存储部分中的滤波器组中的第一滤波器应用于由所述图像组产生部分产生的图像组中的相对小的第一图像而获得超过预定第一阈值的估计值的主候选区域，第一滤波器作用于相对窄的区域；以及

第二提取处理，其提取其中通过将存储在滤波器存储部分中的滤波器组中的第二滤波器应用于对应于第二图像中的主候选区域的区域而获得超过预定第二阈值的估计值的辅助候选区域，在所述第二图像中，像素数目大于由所述图像组产生部分产生的图像组中的第一图像的像素数目，所述第二滤波器作用于比第一滤波器的区域宽的区域。

(28)根据(27)的对象检测装置，其中，所述图像组产生部分对原始图像执行内插操作以便除所述图像组之外还产生一个内插图像或多个内插图像，所述一个内插图像或所述多个内插图像组成图像组，所述一个内插图像的像素数目在其中像素数目大于通过以预定速率对原始图像进行薄化获得的薄化图像的像素数目并小于原始图像的像素数目的范围内，所述多个内插图像具有在该范围内的相互不同的像素数目，并且所述图像组产生部分通过针对所产生的至少一个内插图像中的每一个以预定速率对组成内插图像的像素进行薄化并通过以步进方式以预定速率对像素进行薄化来产生新图像组，所述新图像组包括内插图像和通过对内插图像的像素进行薄化获得的至少一个薄化图像，以及

所述步进检测部分通过从将作用于相对窄的区域的滤波器应用于相对小的图像的提取处理到将作用于相对宽的区域的滤波器应用于相对大的图像的提取处理对由所述图像组产生部分产生的所述多个图像组中的每一个顺序地重复所述提取处理来从原始图像和至少一个内插图像的每个检测特定种类的对象。

(29)根据(27)的对象检测装置，其中，多个种类的滤波器被存储在所述滤波器存储部分中，所述多个种类的滤波器是为具有一个尺寸的每个区域准备的，所述多个种类的滤波器中的每一个计算特定种类的对象的轮廓和所述特定种类的对象中的特征量之一，

所述特征量与主估计值之间的相关性也被存储在所述滤波器存储部分中，由每个滤波器来计算所述特征量，所述主估计值指示特定种类的对象的概率，以及

所述步进检测部分通过根据区域的尺寸将所述多个种类的滤波器应用于一个区域来计算所述多个特征量，获得对应于每个特征量的主估计值，并通过将辅助估计值与阈值相比较来确定该区域是否是其中存在特定种类的对象的候选区域，通过将所述多个主估计值综合来获得所述辅助估计值。

(30)根据(27)的对象检测装置，还包括区域综合部分，在所述步进检测部分检测到多个区域时，该区域综合部分根据所述多个区域之间的重叠程度将所述多个区域综合为一个区域。

(31)根据(27)的对象检测装置，还包括差分图像产生部分，其获得连续图像以产生不同帧之间的差分图像，所述连续图像包括多个帧，所述差分图像被用作对象检测目标的图像。

(32)根据(27)的对象检测装置，其中，包括产生估计值的多个滤波器的滤波器组被存储在滤波器存储部分中，所述估计值指示人头部的存在概率，以及

所述对象检测装置的检测目标是出现在图像中的人头部。

Claims

1.一种人物跟踪方法，包括：

头部检测步骤，用于基于由于照相机拍摄测量空间的运动图像而生成并表示以预定帧速率生成的所述运动图像的图像数据来针对每个测量帧图像检测形成所述运动图像的多个帧图像之中的多个测量帧图像中的每一个上的头部；

特征量计算步骤，用于基于所述图像数据来针对每个所述测量帧图像和每个头部计算表征在每个所述测量帧图像上检测到其头部的人物的特征量；

相关比计算步骤，用于计算相关比，该相关比表示在过去测量帧图像上并属于在所述过去测量帧图像上检测到其头部的每个人的特征量与在当前测量帧图像上并属于在所述当前测量帧图像上检测到其头部的每个人的特征量之间的一致度；以及

同一人确定步骤，用于确定在所述当前测量帧图像上检测到的头部之中的一头部是与具有第一头部的人为同一人的人的头部，该头部是计算均为在过去测量帧图像上并属于具有在所述过去测量帧图像上检测到的头部之中的第一头部的人的特征量与在所述当前测量帧图像上并属于具有在所述当前测量帧图像上检测到的各头部的各人的每个特征量之间的相关比之中的、表示等于或大于第一阈值并且是最大一致度的一致度的相关比的基础，

其中，当检测到在一系列第一测量帧图像上的被确定为属于同一第一人的头部，属于该第一人的头部在随后的一个测量帧图像或数量上等于或小于第二阈值的多个随后连续测量帧图像上丢失，随后检测在一系列第二测量帧图像上的被确定为属于同一第二人的头部时：

所述特征量计算步骤计算多个第一测量帧图像上的第一人的第一平均特征量和多个第二测量帧图像上的第二人的第二平均特征量，

所述相关比计算步骤计算所述第一平均特征量与所述第二平均特征量之间的相关比，以及

当所述第一平均特征量与所述第二平均特征量之间的所述相关比是表示等于或大于第三阈值的一致度的相关比时，所述同一人确定步骤确定所述第一人和所述第二人是相同的。

2.如权利要求1所述的人物跟踪方法，还包括碎片删除步骤，其中，当仅在一个测量帧图像或数量上等于或小于第四阈值的多个连续测量帧图像上检测到第三人的头部，且在所述一个测量帧图像或所述多个连续测量帧图像前后的帧图像上没有检测到对应于所检测的头部的所述第三人的头部时，将所述第三人的头部从所检测到的头部中删除。

3.如权利要求1或权利要求2所述的人物跟踪方法，其中，所述特征量计算步骤是计算在测量帧图像上检测到的头部的像素值的直方图作为所述特征量之一的步骤。

4.如权利要求1或权利要求2所述的人物跟踪方法，其中，所述特征量计算步骤是计算属于在测量帧图像上检测到其头部的人的身体的像素值的直方图作为所述特征量之一的步骤。

5.如权利要求1或权利要求2所述的人物跟踪方法，其中，所述特征量计算步骤是计算基于在多个过去测量帧图像上的属于同一人的头部的移动的函数值作为所述特征量之一的步骤，其中，在当前测量帧图像上并属于在所述当前测量帧图像上检测到的头部的二维位置是变量。

6.一种人物跟踪装置，包括：

头部检测部分，用于基于由于照相机拍摄测量空间的运动图像而生成并表示以预定帧速率生成的所述运动图像的图像数据来针对每个测量帧图像检测形成所述运动图像的多个帧图像之中的多个测量帧图像中的每一个上的头部；

特征量计算部分，用于基于所述图像数据来针对每个所述测量帧图像和每个头部计算表征在每个所述测量帧图像上检测到其头部的人的特征量；

相关比计算部分，用于计算相关比，该相关比表示在过去测量帧图像上并属于在所述过去测量帧图像上检测到其头部的每个人的特征量与在当前测量帧图像上并属于在所述当前测量帧图像上检测到其头部的每个人的特征量之间的一致度；以及

同一人确定部分，用于确定在所述当前测量帧图像上检测到的头部之中的一头部是与具有第一头部的人为同一人的人的头部，该头部是计算均为在过去测量帧图像上并属于具有在所述过去测量帧图像上检测到的头部之中的第一头部的人的特征量与在所述当前测量帧图像上并属于具有在所述当前测量帧图像上检测到的各头部的各人的每个特征量之间的相关比之中的、表示等于或大于第一阈值并且是最大一致度的一致度的相关比的基础，

所述特征量计算部分计算多个第一测量帧图像上的第一人的第一平均特征量和多个第二测量帧图像上的第二人的第二平均特征量，

所述相关比计算部分计算所述第一平均特征量与所述第二平均特征量之间的相关比，以及

当所述第一平均特征量与所述第二平均特征量之间的所述相关比是表示等于或大于第三阈值的一致度的相关比时，所述同一人确定部分确定所述第一人和所述第二人是相同的。

7.如权利要求6所述的人物跟踪装置，还包括碎片删除部分，该碎片删除部分在仅在一个测量帧图像或数量上等于或小于第四阈值的多个连续测量帧图像上检测到第三人的头部，且在所述一个测量帧图像或所述多个连续测量帧图像前后的帧图像上没有检测到对应于所检测的头部的所述第三人的头部时，将所述第三人的头部从所检测到的头部中删除。

8.如权利要求6或权利要求7所述的人物跟踪装置，其中，所述特征量计算部分计算在测量帧图像上检测到的头部的像素值的直方图作为所述特征量之一。

9.如权利要求6或权利要求7所述的人物跟踪装置，其中，所述特征量计算部分计算属于在测量帧图像上检测到其头部的人的身体的像素值的直方图作为所述特征量之一。

10.如权利要求6或权利要求7所述的人物跟踪装置，其中，所述特征量计算部分计算基于在多个过去测量帧图像上的属于同一人的头部的移动的函数值作为所述特征量之一，其中，在当前测量帧图像上并属于在所述当前测量帧图像上检测到的头部的二维位置是变量。