CN105593901B

CN105593901B - 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序

Info

Publication number: CN105593901B
Application number: CN201480036661.8A
Authority: CN
Inventors: 池田浩雄
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-06-28
Filing date: 2014-05-21
Publication date: 2020-06-12
Anticipated expiration: 2034-05-21
Also published as: US10515294B2; US20190102661A1; WO2014207991A1; EP3016069A1; US10223620B2; US11132587B2; US11836586B2; CN108647631A; CN108647631B; EP3016069A4; HK1250542A1; US20230351259A1; JP6008045B2; US20190102660A1; EP3312770B1; US20170330061A1; HK1220795A1; US10776674B2; HK1257339A1; US9875431B2

Abstract

提供了一种教学数据生成设备，由此有可能容易地生成在用于识别人群状态的识别设备的字典的机器学习中使用的大量教学数据。人状态确定单元(72)根据作为与多个人有关的人状态的指令信息的多人状态控制指令和作为与该多个人之中的个别人的状态的指令信息的特定人状态控制指令来确定人群的人状态。人群状态图像合成单元(73)生成人群状态图像并且针对该人群状态图像指定教学水平，该人群状态图像是其中对应于人状态确定单元(72)已经确定的人状态的人图像被与由背景提取单元(71)获得的预定尺寸的图像相合成的图像。

Description

训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序

技术领域

本发明涉及用于生成训练数据的训练数据生成设备、训练数据生成方法和训练数据生成程序以及用于识别图像中的人群的状态的人群状态识别设备、人群状态识别方法和人群状态识别程序。

背景技术

提出了用于识别图像中的人群的状态(其在下面将被表示为人群状态)的各种技术(见PTL 1至PTL 3)。

在PTL 1中描述的人行为确定设备从视频提取改变的区域，并且根据该改变的区域来计算特征量，在改变的区域中由于背景差分等而造成差异。人行为确定设备然后通过使用对特征量进行机器学习的人鉴别器来确定改变的区域是否是人区域，从而检测人区域。另外，人行为确定设备考虑到距离或者颜色直方图而在帧之间关联检测到的人区域，并且在预定数目的帧上跟踪人区域。人行为确定设备然后根据通过跟踪获取的人轨迹来计算诸如平均速度、跟踪时间和运动方向之类的人轨迹的特征量，并且基于人轨迹的特征量来确定人行为。

在PTL 2中描述的人头数计数设备根据拍摄视频中的人群的视频对人的数目进行计数。人头数计数设备基于头部模型来提取图像中包括的人的头部。人头数计数设备然后通过使用诸如位置信息或颜色分布之类的特征量在帧之间将被确定为同一人的头部位置链接，并且根据链接结果(人跟踪结果)对人的数目进行计数。

在PTL 3中描述的系统检测诸如稳定(例如，人的主流)/不稳定(例如，与主流相对)之类的状态。系统聚集作为确定单元的确定块的光流属性，并且计算用于评估光流的稳定程度的评估值。系统然后根据评估值来确定确定块的状态。

引用列表

专利文献

PTL 1：日本专利申请特开第2011-100175号(0028至0030段)

PTL 2：日本专利申请特开第2010-198566号(0046至0051段)

PTL 3：日本专利申请特开第2012-22370号(0009段)

发明内容

技术问题

对于在PTL 1至PTL 3中描述的技术，确定性能对于低帧速率的视频降低。特别地，对于在PTL 1至PTL3中描述的技术，针对静止图像无法确定图像中的人群状态。

这是因为在PTL 1至PTL 3中描述的技术使用视频中的每个帧并且状态确定性能依赖于帧之间的间隔。例如，利用在PTL 1中描述的技术，人区域在帧之间被关联从而获取人轨迹。另外，利用在PTL 2中描述的技术，头部位置在帧之间被链接并且其结果被假定为人跟踪结果。当这种轨迹或者跟踪结果被获取时，人区域或者头部位置需要在帧之间关联。此时，人的运动量在低帧速率处更大，并且因此人区域或头部位置的变化或者形状(姿势)的变化增大。另外，由于照明的干扰等产生的影响也增大。因此，人区域或头部位置难以在帧之间关联。结果，人轨迹等的精度降低并且确定图像中的人群状态的精度降低。另外，同样利用在PTL 3中描述的技术，难以正确地找到低帧速率的光流，并且结果聚集的属性的精度降低并且状态确定性能降低。

例如，假定一种使用具有学习的字典的鉴别器以便识别图像中的人群状态的方法。字典通过诸如指示人群状态的图像之类的训练数据而被学习。然而，用于学习字典的大量训练数据(学习数据)需要被收集。例如，人的布置(人之间的重叠或者人位置的偏差)、人的方向和密度(每单位区域的人)在各种状态下需要被定义，并且其中拍摄人的角度、背景、照明、衣服或姿势等在每一种状态下被不同地改变的大量图像需要被收集。机器学习通过使用图像而被执行以使得鉴别器的字典被获取。然而，用于收集训练数据的工作负荷在收集大量此类训练数据时增大。

因此，本发明的一个目的是提供一种能够容易地生成用于对用于识别人群状态的鉴别器的字典进行机器学习的大量训练数据的训练数据生成设备、训练数据生成方法和训练数据生成程序。

本发明的另一目的是提供一种无论帧速率如何都能够优选地识别图像中的人群状态的人群状态识别设备、人群状态识别方法和人群状态识别程序。

对问题的解决方案

根据本发明的一种训练数据生成设备包括：背景提取装置，用于从多个预先准备的背景图像选择背景图像，提取该背景图像中的区域，并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像；人状态确定装置，用于根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态；以及人群状态图像合成装置，用于生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，人群状态图像是其中与由人状态确定装置所确定的人状态相对应的人图像被与由背景提取装置获取的预定尺寸的图像合成的图像。

另外，根据本发明的一种人群状态识别设备包括：矩形区域组存储装置，用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域；人群状态识别字典存储装置，用于存储通过利用人群状态图像和用于人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是以预定尺寸表达人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像；以及人群状态识别装置，用于从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域，并且基于字典来识别在提取的图像中拍摄的人群的状态。

另外，根据本发明的一种训练数据生成方法包括：背景提取步骤，从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像；人状态确定步骤，根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态；以及人群状态图像合成步骤，生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，人群状态图像是其中与在人状态确定步骤中确定的人状态对应的人图像被与在背景提取步骤中获取的预定尺寸的图像合成的图像。

另外，在根据本发明的一种人群状态识别方法中，矩形区域组存储装置存储指示图像上将针对人群状态而被识别的部分的一组矩形区域，并且人群状态识别字典存储装置存储通过利用人群状态图像和用于人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是以预定尺寸表达人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像，该方法包括人群状态识别步骤，从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域并且基于字典来识别在提取的图像中拍摄的人群的状态。

另外，根据本发明的一种训练数据生成程序使得计算机执行：背景提取处理，从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像；人状态确定处理，根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态；以及人群状态图像合成处理，生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，人群状态图像是其中与在人状态确定处理中确定的人状态对应的人图像被与在背景提取处理中获取的预定尺寸的图像合成的图像。

另外，根据本发明的一种人群状态识别程序使得包括矩形区域组存储装置和人群状态识别字典存储装置的计算机执行：人群状态识别处理，从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域并且基于字典来识别在提取的图像中拍摄的人群的状态，矩形区域组存储装置用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域，并且人群状态识别字典存储装置用于存储通过利用人群状态图像和用于人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是以预定尺寸表达人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像。

发明的有利效果

利用根据本发明的训练数据生成设备、训练数据生成方法和训练数据生成程序，可以容易地生成用对用于识别人群状态的鉴别器的字典进行于机器学习的大量训练数据。

利用根据本发明的人群状态识别设备、人群状态识别方法和人群状态识别程序，可以无论帧速率如何都优选地识别图像中的人群状态。

附图说明

[图1]其描绘了图示了根据本发明的训练数据生成设备的示例性结构的框图。

[图2]其描绘了图示了在人群状态控制指明存储装置中存储的示例性信息的示意图。

[图3]其描绘了图示了在人状态控制指明存储装置中存储的示例性信息的示意图。

[图4]其描绘了通过示例图示了在人图像存储装置中存储的人图像和对应于人图像的人区域图像的示图。

[图5]其描绘了图示了满足背景人状态的条件的示例的示意图。

[图6]其描绘了图示了满足前景人状态的条件的示例的示意图。

[图7]其描绘了图示了根据本发明的人群状态识别设备的示例性结构的框图。

[图8]其描绘了通过示例图示了如何识别拥挤程度(人的数目)的示意图。

[图9]其描绘了通过示例图示了如何识别人群的方向的示意图。

[图10]其描绘了通过示例图示了如何识别非异常人群或异常人群的示意图。

[图11]其描绘了通过示例图示了如何识别无序状态或有序状态的示意图。

[图12]其描绘了图示了训练数据生成设备的示例性处理进展的流程图。

[图13]其描绘了图示了步骤S1的示例性处理进展的流程图。

[图14]其描绘了图示了步骤S2的示例性处理进展的流程图。

[图15]其描绘了图示了步骤S3的示例性处理进展的流程图。

[图16]其描绘了图示了步骤S4的示例性处理进展的流程图。

[图17]其描绘了图示了人群状态识别设备的示例性处理进展的流程图。

[图18]其描绘了通过示例图示了根据本发明的训练数据生成设备的具体结构的框图。

[图19]其描绘了通过示例图示了根据本发明的人群状态识别设备的具体结构的框图。

[图20]其描绘了图示了根据本发明的训练数据生成设备中的主要部分的框图。

[图21]其描绘了图示了根据本发明的人群状态识别设备中的主要部分的框图。

具体实施方式

下面将参考附图来描述根据本发明的示例性实施例。

图1是图示了根据本发明的训练数据生成设备的示例性结构的框图。根据本发明的训练数据生成设备10生成用于对图像中的人群状态进行机器学习的训练数据。具体而言，训练数据生成设备10创建多对人群状态的局部图像和对应于局部图像的训练标签。在这里，“局部”指示比针对人群状态将被识别出的图像(通过下面描述的图像获取设备3(参见图7)获取的图像)的区域更小。然后，人群状态的局部图像表示在这种区域中配置人群的人的基本部位(其在下面将被表示为基准部位)的集合。根据本示例性实施例，将在假定头部被用作基准部位的情况下进行描述，但是除头部之外的其他部分可以被用作基准部位。人群状态的局部图像将被表示为人群补丁。人群补丁可以在其中指示除基准部位(本示例中的头部)之外的人的部位。

训练数据生成设备10包括在程序控制下工作的数据处理设备1，以及用于将信息存储在其中的存储设备2。

存储设备2包括背景图像存储装置21、学习局部图像信息存储装置22、人群状态控制指明存储装置23、人状态控制指明存储装置24、人图像存储装置25和人区域图像存储装置26。

背景图像存储装置21存储被用作人群补丁中的背景的多个背景图像(一组背景图像)。背景图像不包括人。将针对人群状态而被识别的图像被拍摄处的实际地方的图像可以被用作背景图像。通过使用CG(计算机图形学)等生成的背景图像可以被使用。

学习局部图像信息存储装置22存储人群补丁(用于机器学习的人群状态的局部图像)的尺寸，以及用于人群补丁的人的基准部位的尺寸。例如，人群补丁的尺寸被假定为高度是h个像素并且宽度是w个像素。构成人群补丁中的人群镜头的人的基准部位(本示例中的头部)的高度尺寸被假定为人群补丁的高度尺寸的1/α或是h/α个像素。在这种情况下，高度h个像素和宽度w个像素在学习局部图像信息存储装置22中被存储为人群补丁的尺寸。高度h/α个像素在学习局部图像信息存储装置22中被存储为人的基准部位的尺寸。在这里假定其中高度尺寸被存储为基准部位的尺寸的示例，但是将被存储的基准部位的尺寸不限于高度尺寸。例如，假定人的基准部位的宽度尺寸被定义为人群补丁的宽度尺寸的1/α倍或是个w/α像素。在这种情况下，高度h个像素和宽度w个像素在学习局部图像信息存储装置22中被存储为人群补丁的尺寸，并且宽度w/α个像素在学习局部图像信息存储装置22中可以被存储为人的基准部位的尺寸。在实际使用中，人的基准部位的尺寸可以运用高度尺寸或是宽度尺寸。在人群补丁的尺寸与人的基准部位的尺寸之间的关系是仅需已知的，并且对角线尺寸等可以被使用。

在这里，人的基准部位的尺寸是用来将其基准部位被拍摄为与人群补丁中的尺寸一样大的人识别为人类的尺寸。例如，当人的基准部位被拍摄为在人群补丁中显著大或者被拍摄为显著小时，该人构成人群但是只是被看作背景。

人群状态控制指明存储装置23存储在合成人群补丁中的多个人图像时关于用于多人的人状态(其在下面将被表示为多人状态控制指明)的指明信息。多人状态控制指明先前由训练数据生成设备10的操作者定义并且被存储在人群状态控制指明存储装置23中。多人状态控制指明按照项目而被定义，这些项目诸如是针对在合成多个人图像时诸如重叠的人或者位置偏差之类的多人布置关系的项目“人的布置”、关于人的朝向的项目“人的方向”或是针对人的数目或者说密度的项目“人的数目”。具有定义的多人状态控制指明的项目不限于此。图2是图示了在人群状态控制指明存储装置23中存储的示例性信息的示意图。图2图示了针对“人的布置”、“人的方向”和“人的数目”定义的多人状态控制指明。

多人状态控制指明的形式包括“预定状态”、“随机”和“预定规则”。

“预定状态”是用来指明对应项目的特定状态的指明形式。在图2中示出的示例中，针对项目“人的数目”定义的“三个人”对应于“预定状态”。在该示例中，“人的数目”被具体指明为“三个人”。作为“预定状态”的其他示例，例如，可以针对项目“人的方向”指明“所有人在右方向上”。

“随机”表明可以针对对应项目任意定义状态。在图2中示出的示例中，针对“人的布置”和“人的方向”定义了多人状态控制指明“随机”。

“预定规则”是表明可以在满足操作者指定的规则的范围内定义对应项目的状态的指定形式。例如，当针对项目“人的布置”定义了规则“人按照50％重叠被布置”时，人的布置被指明为至少定义满足该规则的人的状态。例如，当针对“人的方向”定义了规则“相对于人群补丁的中心布置在右侧的人面朝右并且相对于中心布置在左侧的人面朝左”时，人的方向被指明为至少定义满足规则的人的状态。

人群状态控制指明存储装置23按照项目来存储指定训练标签的存在。在图2中示出的示例中，“○”指示关于指明训练标签的存在的信息并且“×”指示关于指明训练标签的空缺的信息。这一点在稍后描述的图3中是相同的。

操作者利用从具有定义的多人状态控制指明的项目之中选择具有指明的训练标签的一个或多个项目。另外，操作者无论项目是否将被指明以训练标签都定义每一个项目的多人状态控制指明。在图2中示出的示例中，针对没有指明的训练标签的项目“人的布置”和“人的方向”定义了多人状态控制指明(在这一示例中是随机的指示)。操作者将一种形式的多人状态控制指明假定为具有指明的训练标签的项目的“预定状态”。在图2中示出的示例中，针对具有指明的训练标签的项目“人的数目”指明了“三个人”的特定状态。人群状态控制指明存储装置23在其中存储多人状态控制指明和由操作者按照项目定义的指明的训练标签的存在。

图2通过示例图示了项目“人的布置”、“人的方向”和“人的数目”，但是操作者为其定义了多人状态控制指明和指明的训练标签的存在的项目不限于此。根据本示例性实施例，将在假定人群状态控制指明存储装置23在其中存储多人状态控制指明和操作者至少为项目“人的布置”、“人的方向”和“人的数目”定义的指明的训练标签的存在的情况下进行描述。

多人状态控制指明存储装置24存储用来当在人群补丁内合成多个人图像时指明每个人的状态的信息(其在下面将被表示为个别人状态控制指明)。在“多人状态控制指明”指明用于多人的人状态的同时，“个别人状态控制指明”指明属于一组人的个别人的状态。个别人状态控制指明先前由训练数据生成设备10的操作者定义，并且被存储在人状态控制指明存储装置24中。个别人状态控制指明在与人群补丁合成时按照项目被定义，项目诸如是“人的拍摄角度”、“对人的照明”、“人的姿势”、“人的衣服”、“人的身体形状”、“人的发型”或“在与人群补丁合成时的人尺寸”。具有定义的个别人状态控制指明的项目不限于这些项目。图3是图示了在人状态控制指明存储装置24中存储的示例性信息的示意图。图3图示了针对项目“人的拍摄角度”、“对人的照明”和“人的姿势”定义的个别人状态控制指明。

类似于多人状态控制指明，个别人状态控制指明的形式是“预定状态”、“随机”和“预定规则”。

如针对多人状态控制指明所描述的，“预定状态”是用来指明对应项目的特定状态的指明形式。在图3中示出的示例中，针对项目“人的姿势”定义的“步行”对应于“预定状态”。在这一示例中，“人的姿势”被具体指明为步行姿势。

如针对多人状态控制指明所描述的，“随机”指示可以针对对应项目任意定义状态。在图3中示出的示例中，针对“对人的照明”定义了个别人状态控制指明“随机”。

如针对多人状态控制指明所描述的，“预定规则”是用来指示以在满足操作者指明的规则的范围内定义对应项目的状态的指明形式。在图3中示出的示例中，针对“人的拍摄角度”定义了预定规则。在这一示例中，指明了计算人的拍摄角度并且通过使用基于来自合成时的人布置的相机参数的等式来定义根据拍摄角度的人状态。例如，当针对“与人群补丁相合成时的人尺寸”定义了规则“基于合成时的人布置和在学习局部图像信息存储装置22中存储的基准部位的尺寸来确定合成时的人尺寸”时，人的尺寸将被定义为至少满足该规则。

多人状态控制指明存储装置24还按照项目来存储指明的训练标签的存在。

操作者可以不仅针对具有定义的多人状态控制指明的项目而且还针对具有定义的个别人状态控制指明的项目来选择具有指明的训练标签的一个或多个项目。同样，在这种情况下，操作者无论项目是否将被指明以训练标签都定义用于每个项目的个别人状态控制指明。在图3中示出的示例中，针对没有指明的训练标签的项目“人的拍摄角度”和“对人的照明”来定义个别人状态控制指明。操作者将一种形式的个别人状态控制指明假定为具有指明的训练标签的项目的“预定状态”。在图3中示出的示例中，具有指明的训练标签的项目“人的姿势”被具体指明为步行的状态。人状态控制指明存储装置24在其中存储个别人状态控制指明和用户按照项目定义的指明的训练标签的存在。

操作者可以不针对具有定义的个别人状态控制指明的所有项目指明训练标签。如上所述，操作者针对具有定义的多人状态控制指明的项目将一个或多个项目定义为具有指明的训练标签的项目。

根据本示例性实施例，将在假定人状态控制指明存储装置24存储操作者定义的个别人状态控制指明以及至少针对项目“人的拍摄角度”、“对人的照明”、“人的姿势”、“人的衣服”、“人的身体形状”、“人的发型”和“当与人群补丁相合成时的人尺寸”的指明的训练标签的存在。

针对具有指明的训练标签的项目而定义的多人状态控制指明的内容是与根据在人群状态控制指明存储装置23中存储的信息生成的人群补丁对应的训练标签。类似地，针对具有指明的训练标签的项目而定义的个别人状态控制指明的内容是与根据在人状态控制指明存储装置24中存储的信息生成的人群补丁对应的训练标签。基于多人状态控制指明的训练标签是主训练标签，并且基于个别人状态控制指明的训练标签是用于训练标签的补充训练标签。

具体而言，数据处理设备1(见图1)确定人状态，并且根据在人群状态控制指明存储装置23中存储的每个项目的多人状态控制指明和在人状态控制指明存储装置24中存储的每个项目的个别人状态控制指明来生成其中人被合成的人群补丁。数据处理设备1将针对具有指明的训练标签的项目定义的多人状态控制指明和个别人状态控制指明的内容定义为人群补丁的训练标签。例如，假定数据处理设备1根据在图2和图3中示出的多人状态控制指明和个别人状态控制指明来生成人群补丁。在这种情况下，在人群补丁中拍摄到三个步行的人。数据处理设备1将训练标签“三个人，步行”定义为用于人群补丁的训练标签。

项目“当与人群补丁合成时的人尺寸”将被存储在人状态控制指明存储装置24中。当被识别为人类的人在人群补丁中被合成时，例如，在学习局部图像信息存储装置22中存储的人的基准部位的尺寸可以被指明，或者随机可以被指明为“当与人群补丁合成时的人尺寸”的个别人状态控制指明。作为随机指定的结果，如果人状态被临时确定为与在学习局部图像信息存储装置22中存储的人的基准部位的尺寸很大不同的基准部位的尺寸，则人状态的临时确定可以被再次做出。当将是背景的人在人群补丁中被合成时，例如，与在学习局部图像信息存储装置22中存储的人的基准部位的尺寸很大不同的尺寸可以被指明，或者随机可以被指明为“当与人群补丁合成时的人尺寸”的个别人状态控制指明。作为随机指定的结果，如果不对应于背景的人的状态被临时确定，则人状态的临时确定可以被再次做出。

如在下面描述的，根据本示例性实施例，数据处理设备1确定将被识别为人类的人(其在下面可以被表示为前景人)的状态并且确定背景人的状态。用于确定前景人状态的多人状态控制指明和个别人状态控制指明以及用于确定背景人状态的多人状态控制指明和个别人状态控制指明可以由操作者分别定义。在这种情况下，人群状态控制指明存储装置23在其中存储用于确定前景人状态的多人状态控制指明和用于确定背景人状态的多人状态控制指明。人状态控制指明存储装置24在其中存储用于确定前景人状态的个别人状态控制指明和用于确定背景人状态的个别人状态控制指明。多人状态控制指明和个别人状态控制指明对于确定前景人状态和对于确定背景人状态可以不被分开。

人图像存储装置25存储添加有诸如人的方向、人的拍摄角度、对人的照明、人的姿势、人图像的衣服、身体形状和发型之类的关于人状态的信息的多个人图像(一组人图像)。就是说，数据处理设备1可以从人图像存储装置25读取与确定状态相匹配的人图像。

人区域图像存储装置26存储与在人图像存储装置25中存储的该一组人图像对应的一组人区域图像。人区域图像是指示在人图像存储装置25中存储的人图像中的人的区域的图像。图4是以示例方式图示了在人图像存储装置25中存储的人图像和对应于人图像的人区域图像的示图。图4以示例方式图示了人图像和人区域图像的四个配对。人区域图像可以是这样一个图像，其中在人图像中拍摄的人的区域以单个颜色(在图4中示出的示例中为白色)被表达并且除人之外的区域以另一单个颜色(在图4中示出的示例中为黑色)被表达。人区域图像不限于该示例。人区域图像可以是能够指示人图像中的人的区域的图像。

人区域图像用于从对应的人图像仅裁剪人(或者仅裁剪人的区域)。

可以配置为不使得一组各种人图像被先前准备并存储在人图像存储装置25中而是使得数据处理设备1包括用于通过CG等生成与确定的人状态匹配的人图像的人图像生成装置(未示出)。

数据处理设备1包括背景提取装置11、人状态确定装置15、人群状态图像合成装置14和控制装置16。

背景提取装置11从在背景图像存储装置21中存储的该组背景图像选择背景图像。背景提取装置11计算在学习局部图像信息存储装置22中存储的人群补丁尺寸的纵横比。背景提取装置11从选择的背景图像临时提取适当位置和适当尺寸的背景以满足纵横比。另外，背景提取装置11放大或者缩小临时提取的背景以与在学习局部图像信息存储装置22中存储的人群补丁尺寸匹配。以这种方式，放大或者缩小从图像提取的区域以与人群补丁尺寸匹配可以被表示为归一化。

当背景提取装置11临时提取适当位置和适当尺寸的背景时，随机位置和随机尺寸的区域可以被提取以满足纵横比。假定图像中的每个位置处的人的基准部位的尺寸是已知的，背景提取装置11可以根据在图像中的每个位置处已知的基准部位的尺寸找到以放大率或者缩小率放大或者缩小的人群补丁的尺寸，在学习局部图像信息存储装置22中存储的人的基准部位的尺寸以该放大率或缩小率被放大或缩小。背景提取装置11可以随后提取具有针对图像中的位置找到的尺寸的区域。背景提取装置11用来从选择的背景图像临时提取区域的方法可以是其他方法。

人状态确定装置15在基于在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明临时确定人状态的同时基于人群补丁尺寸的人的基准部位的尺寸的条件和基准部位如何被表达来确定最终人状态。

在这里，当满足多人状态控制指明和个别人状态控制指明的人状态被确定时，指明“随机”在指明中是可能的，并且因而适当的人状态可能无法获取。在这种情况下，满足多人状态控制指明和个别人状态控制指明的人状态被再次确定。当适当人状态被获取时，人状态被最终确定。以这种方式，人状态可以被再次确定，并且因而表达“临时确定”可以被使用。

根据本示例性实施例，人状态确定装置15确定前景人状态并且确定背景人状态。此时，当确定临时确定的前景人状态是否适当时，人状态确定装置15基于可与人群补丁尺寸的人的基准部位的尺寸比较的基准部位的尺寸是否被获取或者基准部位如何被表达来做出确定。当确定临时确定的背景人状态是否适当时，人状态确定装置15基于与人群补丁尺寸的人的基准部位的尺寸很大不同的基准部位的尺寸是否被获取或者基准部位如何被表达来做出确定。

人状态确定装置15在下面将被更详细地描述。人状态确定装置15包括背景人状态确定装置12和前景人状态确定装置13。

背景人状态确定装置12定义人的布置、人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型、当与人群补丁合成时的人尺寸等，并且根据在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明来临时确定与背景对应的人的状态。背景人状态确定装置12确定临时确定的人状态是否满足背景人状态的条件，并且如果背景人状态的条件未得到满足，则再次做出人状态的临时确定。如果临时确定的人状态满足条件，则背景人状态确定装置12最终将临时确定的人状态确定为与背景对应的人的状态。

背景人状态的条件例如对应于人被布置为使得人的基准部位不在人群补丁内的事实，或者人的基准部位的尺寸在被合成时显著大于在学习局部图像信息存储装置22中存储的基准部位的尺寸或者显著小于其的事实。在该条件下，最终基于相对于人群补丁尺寸的人的基准部位的尺寸或者基准部位如何被表达来确定与背景对应的人的状态。在这里列出的条件是示例性的，并且其他条件可以被用于背景人状态的条件。

人的基准部位在人群补丁内的事实指示这样一种状态，其中多于预定比率的表达其中的人的基准部位的区域是在人群补丁中拍摄的。相反地，人的基准部位不在人群补丁内的事实指示这样一种状态，其中少于预定比率的表达其中的人的基准部位的区域是在人群补丁中拍摄的。例如，假定预定比率先前被定义为80％。在这种情况下，例如，如果表达基准部位的区域的85％是在人群补丁内拍摄的，则可以说人的基准部位在人群补丁内。例如，如果只有表达基准部位的区域的20％是在人群补丁中拍摄的，则可以说人的基准部位不在人群补丁内。80％是示例性比率，并且除80％之外的值可以被定义为预定比率。

根据本示例性实施例，指示比在学习局部图像信息存储装置22中存储的基准部位的尺寸更大的尺寸的第一阈值和指示比在学习局部图像信息存储装置22中存储的基准部位的尺寸更小的尺寸的第二阈值是预先定义的。人的基准部位的尺寸在被合成时与在学习局部图像信息存储装置22中存储的基准部位的尺寸一样大的事实表明人的基准部位的尺寸在被合成时等于或者大于第二阈值，并且等于或者小于第一阈值。人的基准部位的尺寸在被合成时比在学习局部图像信息存储装置22中存储的基准部位的尺寸大得多的事实表明人的基准部位的尺寸在被合成时大于第一阈值。人的基准部位的尺寸在被合成时比在学习局部图像信息存储装置22中存储的基准部位的尺寸小得多的事实表明人的基准部位的尺寸在被合成时小于第二阈值。

图5(a)至图5(d)是图示了其中背景人状态的条件被满足的示例的示意图。在这一示例中，假定人的基准部位(在本示例中为头部)的高度尺寸在学习局部图像信息存储装置22中被存储为人群补丁的h个像素的高度尺寸的1/α(或者h/α个像素)。在图5(a)和图5(b)中示出的人状态处于布置状态下，其中在人群补丁中未找到人的基准部位，并且因而背景人状态的条件被满足。在图5(c)中示出的人状态是基准部位的尺寸比基准部位的定义尺寸小得多，并且因而背景人状态的条件被满足。在图5(d)中示出的人状态是基准部位的尺寸比基准部位的定义尺寸大得多，并且因而背景人状态的条件得到满足。

前景人状态确定装置13定义人的布置、人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型、当与人群补丁合成时的人尺寸等，并且根据在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明来临时确定与前景对应的人的状态。前景人状态确定装置13然后确定临时确定的人状态是否满足前景人状态的条件，并且如果前景人状态的条件未被满足，则再次做出人状态的临时确定。另外，如果临时确定的人状态满足条件，则前景人状态确定装置13最终将临时确定的人状态确定为与前景对应的人的状态。

前景人状态的条件例如是人的基准部位被布置为在人群补丁内并且人的基准部位的尺寸在被合成时与在学习局部图像信息存储装置22中存储的基准部位的尺寸一样大。在该条件下，最终基于相对于人群补丁尺寸的人的基准部位的尺寸或者基准部位如何被表达来确定与前景对应的人的状态。在这里列出的条件是示例性的，并且其他条件可以被用于前景人状态的条件。

图6(a)至图6(d)是图示了其中前景人状态的条件被满足的示例的示意图。如参考图5(a)至图5(d)描述，人的基准部位(在本示例中为头部)的高度尺寸被假定为学习局部图像信息存储装置22中的人群补丁的h个像素的高度尺寸的1/α(或者h/α个像素)。在图6(a)至图6(d)中示出的任何人状态是使得人的基准部位在人群补丁内并且基准部位的尺寸与在学习局部图像信息存储装置22中存储的基准部位的尺寸一样大。因此，在图6(a)至图6(d)中示出的任何人状态都满足前景人状态的条件。

如上所述，用于确定前景人状态的多人状态控制指明和个别人状态控制指明以及用于确定背景人状态的多人状态控制指明和个别人状态控制指明可以由操作者分别定义。在这种情况下，背景人状态确定装置12可以根据用于确定背景人状态的多人状态控制指明和个别人状态控制指明来临时确定人状态。前景人状态确定装置13然后可以根据用于确定前景人状态的多人状态控制指明和个别人状态控制指明来临时确定人状态。如上所述，当针对确定前景人状态和针对确定背景人状态而分别定义多人状态控制指明和个别人状态控制指明时，前景人的数目和背景人的数目可以被改变。

人群状态图像合成装置14从人图像存储装置25读取满足背景人状态确定装置12最终确定的人状态(诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型)的人图像，并且进一步从人区域图像存储装置26读取对应于该人图像的人区域图像。人群状态图像合成装置14然后通过使用人区域图像从人图像中裁剪只有人的图像(或者仅裁剪人区域)。类似地，人群状态图像合成装置14从人图像存储装置25读取满足前景人状态确定装置13最终确定的人状态的人图像，并且进一步从人区域图像存储装置26读取对应于该人图像的人区域图像。人群状态图像合成装置14然后通过使用人区域图像从人图像中裁剪只有人的图像。

人群状态图像合成装置14使如上所述裁剪的只有人的图像与背景图像合成。此时，人群状态图像合成装置14根据由背景人状态确定装置12确定的“人的布置”和“当与人群补丁合成时的人尺寸”使基于由背景人状态确定装置12最终确定的人状态而裁剪的只有人的图像与背景图像合成。另外，人群状态图像合成装置14根据由前景人状态确定装置13确定的“人的布置”和“当与人群补丁合成时的人尺寸”使基于由前景人状态确定装置13最终确定的人状态而裁剪的只有人的图像与背景图像合成。在这里，背景图像是由背景提取装置11归一化的图像。合成结果是人群补丁。

当使只有人的图像与背景图像合成时，人群状态图像合成装置14使来自与距离相机的最远布置位置对应的人的图像的图像顺序地重叠并合成。例如，当图像的上部距离相机更远时，人群状态图像合成装置14使屏幕的上部处的人的图像顺序地重叠并合成。当关于相机校准的信息被提供时，人群状态图像合成装置14考虑到人的图像的3D位置而使来自距离相机的最远图像的人的图像重叠并合成。

在假定人群状态图像合成装置14通过使用人区域图像从人图像裁剪只有人的图像并且使只有人的图像与背景图像合成的情况下描述了以上示例。人群状态图像合成装置14可以基于对应于人图像的人区域图像将从人图像存储装置25读取的人图像划分为人的区域和除人之外的区域，可以对人的区域和除人之外的区域加权，并且可以基于权重来混合并合成人图像。在这种情况下，人的区域的权重比除人之外的区域更重。权重在这些区域中可以被改变。

如上所述，数据处理设备1可以包括用于通过CG等来生成与指定人状态匹配的人图像的人图像生成装置(未示出)。在这种情况下，人图像生成装置(未示出)生成与由背景人状态确定装置12确定的人状态或由前景人状态确定装置13确定的人状态匹配的人图像，并且人群状态图像合成装置14可以合成人图像以由此生成人群补丁。

人群状态图像合成装置14在生成人群补丁时从人群状态控制指明存储装置23和人状态控制指明存储装置24读取训练标签。就是说，人群状态图像合成装置14从人群状态控制指明存储装置23读取具有指明的训练标签的项目的多人状态控制指明的内容，并且从人状态控制指明存储装置24读取具有指明的训练标签的项目的个别人状态控制指明的内容。人群状态图像合成装置14然后输出人群补丁和训练标签的配对。人群补丁和训练标签被用作用于识别图像中的人群状态的机器学习的训练数据。

控制装置16使得背景提取装置11、人状态确定装置15(具体而言，背景人状态确定装置12和前景人状态确定装置13)和人群状态图像合成装置14重复地执行一系列处理。结果，数据处理设备1输出人群补丁和训练标签的大量配对。

当改变人状态指明或训练标签时，操作者重置多人状态控制指明、个别人状态控制指明和指明的训练标签的存在以使得数据处理设备1根据设定输出人群补丁和训练标签的大量配对。因而，操作者可以获取大量期望训练数据。

图7是图示了根据本发明的人群状态识别设备的示例性结构的框图。根据本发明的人群状态识别设备30识别给定图像中的人群状态。人群状态识别设备30包括图像获取设备3、在程序控制下工作的数据处理设备4以及用于将信息存储在其中的存储设备5。

图像获取设备3是用于获取针对人群状态将被识别的图像的相机。

存储设备5包括搜索窗口存储装置51和人群状态识别字典存储装置52。

搜索窗口存储装置51存储指示图像上针对人群状态将被识别的部分的一组矩形区域。矩形区域可被称为搜索窗口。该一组矩形区域可以通过基于指示图像获取设备3的位置、姿势、焦距和透镜畸变的相机参数和与人群补丁尺寸对应的基准部位的尺寸(在学习局部图像信息存储装置22中存储的基准部位的尺寸)根据图像上的位置定义人群补丁的改变尺寸而被设置。例如，在图像中拍摄的人的基准部位的尺寸可以从相机参数得出。在根据基准部位的尺寸来放大或者缩小在学习局部图像信息存储装置22中存储的人的基准部位的尺寸时以放大率或者缩小率来放大或者缩小人群补丁的尺寸，由此设置矩形区域的尺寸。该一组矩形区域可以被设置为覆盖图像上的位置。该一组矩形区域可以不限于该方法而被自由地设置。另外，该一组矩形区域可以被设置为重叠。

人群状态识别字典存储装置52存储通过在图1中示出的训练数据生成设备10所生成的训练数据(人群补丁和训练标签的大量配对)而学习的鉴别器的字典。鉴别器是一种用于识别人群状态的算法，并且鉴别器的字典用于根据该算法来执行人群状态识别处理。在人群状态识别字典存储装置52中存储的鉴别器的字典例如是通过使用由训练数据生成设备10生成的人群补丁和训练标签的大量配对进行机器学习而得到的。机器学习可以是众所周知的机器学习。

数据处理设备4包括人群状态识别装置41。

人群状态识别装置41从由图像获取设备3获取的图像提取与在搜索窗口存储装置51中存储的该组一矩形区域对应的局部区域图像，并且使提取的局部区域图像归一化以与人群补丁尺寸匹配。人群状态识别装置41然后根据识别算法(或者鉴别器)通过使用在人群状态识别字典存储装置52中存储的鉴别器的字典来识别(确定)归一化的局部区域图像中的人群状态。

在图1中示出的训练数据生成设备10可以生成操作者期望的大量训练数据(人群补丁和训练标签的配对)。人群状态识别装置41通过使用作为使用这种训练数据进行机器学习的结果而获取的鉴别器的字典来识别局部区域图像中的人群状态。因而，人群状态识别设备30可以识别各种人群状态。

图8是通过示例方式图示了如何识别作为图像中的人群状态的拥挤程度(人的数目)的示意图。例如，假定训练数据生成设备10的操作者主要以逐步方式控制“人的数目”并且获取许多人群补丁和训练标签(见图8中的上部)。然后假定通过根据训练数据的机器学习而获取的鉴别器的字典被存储在人群状态识别字典存储装置52中。在图8中示出的图像61中，将从中提取局部区域图像的矩形区域以虚线指示。根据矩形区域提取的局部区域图像的人群状态的识别结果与需线区域对应地被表达。这适用于下面描述的图9至图11。另外，实际的矩形区域基本上被设置为覆盖整个图像，但是为了简单图示识别结果而通过示例方式图示了仅一些矩形区域。在这一示例中，人群状态识别装置41如在图8中示出可以识别图像61中的各种区域中的人的数目(拥挤程度)。

图9是通过示例方式图示了如何识别作为图像中的人群状态的人群的方向的示意图。例如，假定训练数据生成设备10的操作者主要控制“人的方向”并且获取了许多人群补丁和训练标签(见图9中的上部)。然后假定通过根据训练数据的机器学习而获取的鉴别器的字典被存储在人群状态识别字典存储装置52中。在这一示例中，人群状态识别装置41如在图9中所示可以识别图像62中的各种区域中的人群的方向。

图10是通过示例方式图示了如何识别作为图像中的人群状态的非异常人群(非显著拥挤人群)或异常人群(显著拥挤人群)的示意图。例如，假定训练数据生成设备10的操作者主要控制“人的数目”并且获取了许多人群补丁和训练标签。在这里，假定大量训练数据按照包括人的数目何时小于n和人的数目何时是n或者更大在内的两类而被获取(见图10的上部)。然后假定通过根据训练数据的机器学习而得到的鉴别器的字典被存储在人群状态识别字典存储装置52中。在这一示例中，人群状态识别装置41如在图10中示出可以识别图像63中的各种区域中的人群状态是非异常人群还是异常人群。

图11是通过示例方式图示了如何识别作为图像中的人群状态的无序状态(人的方向不统一)或有序状态(人的方向统一)的示意图。例如，假定训练数据生成设备10的操作者按照包括“人的方向”何时统一和何时不统一在内的两类获取大量训练数据(见图11的上部)。然后假定通过根据训练数据的机器学习而获取的鉴别器的字典被存储在人群状态识别字典存储装置52中。在这一示例中，人群状态识别装置41如在图11中示出可以识别图像64中的各种区域中的人群状态是无序状态还是有序状态。

因为大量的操作者期望的训练数据可以被生成，因此人群状态识别装置41可以识别各种状态，诸如除在图8至图11中示出的情况之外的其中人群散开并奔跑的离散状态、其中人群在一位置处聚集的聚集状态、其中人群避免某事的回避状态、指示特殊人群群集的逗留(hanging)状态以及直线(line)状态。

根据本发明的训练数据生成设备10的处理过程在下面将被描述。图12是图示了训练数据生成设备10的示例性处理进展的流程图。

背景提取装置11从存储在背景图像存储装置21中的该一组背景图像选择背景图像，并且提取被用作人群补丁的背景的图像(步骤S1)。

图13是图示了步骤S1的示例性处理进展的流程图。在步骤S1中，背景提取装置11首先从存储在背景图像存储装置21中的该一组背景图像选择一个背景图像(步骤S101)。选择方法不受特别限制。例如，背景提取装置11可以从该组背景图像选择任何一个背景图像。

背景提取装置11然后计算在学习局部图像信息存储装置22中存储的人群补丁的纵横比，并且从选择的背景图像临时提取适当位置和适当尺寸的背景以满足纵横比(步骤S102)。

背景提取装置11放大或者缩小(或者归一化)临时提取的背景图像以与人群补丁尺寸匹配，由此获取作为人群补丁的背景的图像(步骤S103)。这是步骤S1的结束。

在步骤S1之后，背景人状态确定装置12确定与背景对应的人的状态(步骤S2)。

图14是图示了步骤S2的示例性处理进展的流程图。背景人状态确定装置12定义人的布置、人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型、当与人群补丁合成时的人尺寸等，并且根据在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明来临时确定与背景对应的人的状态(步骤S201)。

背景人状态确定装置12然后确定在步骤S201中临时确定的人状态是否满足背景人状态的条件(步骤S202)。该条件在上面已经被描述，因而其描述在这里将被省略。

多人状态控制指明或个别人状态控制指明可能包括“随机”的指明等，并且因而在步骤S201中临时确定的状态可能不满足背景人状态的条件。在这种情况下(步骤S202中的“否”)，背景人状态确定装置12重复地执行步骤S201中及其之后的处理。

当在步骤S201中临时确定的状态满足背景人状态的条件时(步骤S202中的“是”)，背景人状态确定装置12将在步骤S201中临时确定的最新人状态定义为与背景对应的人的状态(步骤S203)。这是步骤S2的结束。

在步骤S2之后，前景人状态确定装置13确定与前景对应的人的状态(步骤S3)。

图15是图示了步骤S3的示例性处理进展的流程图。前景人状态确定装置13定义人的布置、人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型、当与人群补丁合成时的人尺寸等，并且根据在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明来临时确定与前景对应的人的状态(步骤S301)。

前景人状态确定装置13然后确定在步骤S301中临时确定的人状态是否满足前景人状态的条件(步骤S302)。该条件在上面已经被描述，因而其描述在这里将被省略。

多人状态控制指明或个别人状态控制指明可能包括“随机”的指明等，并且因而在步骤S301中临时确定的状态可能不满足前景人状态的条件。在这种情况下(步骤S302中的“否”)，前景人状态确定装置13重复地执行步骤S301中及其之后的处理。

当在步骤S301中临时确定的状态满足前景人状态的条件时(步骤S302中的“是”)，前景人状态确定装置13将在步骤S301中临时确定的最新人状态定义为与前景对应的人的状态(步骤S303)。这是步骤S3的结束。

在步骤S3之后，人群状态图像合成装置14基于在步骤S2和S3中确定的人状态来生成人群补丁，读取对应于人群补丁的训练标签，并且输出人群补丁和训练标签的配对(步骤S4)。

图16是图示了步骤S4的示例性处理进展的流程图。人群状态图像合成装置14从人图像存储装置25中的该一组人图像选择并读取满足在步骤S2和S3中确定的人状态(诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型)的人图像(步骤S401)。

人群状态图像合成装置14然后从人区域图像存储装置26读取与在步骤S401选择的每个人图像对应的每个人区域图像。人群状态图像合成装置14通过使用对应于人图像的人区域图像针对每个人图像裁剪只有人的图像(步骤S402)。

人群状态图像合成装置14根据在步骤S2和S3中确定的“人的布置”和“当与人群补丁合成时的人尺寸”来确定在步骤S402中生成的用于每个只有人的图像的布置状态(步骤S403)。人群状态图像合成装置14然后根据布置状态使每个只有人的图像与在步骤S1中获取的背景图像合成以由此生成人群补丁(步骤S404)。

人群状态图像合成装置14然后获取对应于人群补丁的训练标签(步骤S405)。就是说，人群状态图像合成装置14从人群状态控制指明存储装置23读取具有指明的训练标签的项目的多人状态控制指明的内容，并且从人状态控制指明存储装置24读取具有指明的训练标签的项目的个别人状态控制指明的内容。读取的内容对应于训练标签。

人群状态图像合成装置14输出在步骤S404中生成的人群补丁和在步骤S405中得到的训练标签的配对(步骤S406)。这是步骤S4的结束。

在步骤S4之后，控制装置16确定步骤S1至S4中的处理的重复次数是否达到预定次数(步骤S5)。当步骤S1至S4中的处理的重复次数未达到预定次数时(步骤S5中的“否”)，控制装置16使背景提取装置11、人状态确定装置15(具体而言是背景人状态确定装置12和前景人状态确定装置13)和人群状态图像合成装置14重复地执行步骤S1至S4中的处理。

当步骤S1至S4中的处理的重复次数达到预定次数时(步骤S5中的“是”)，处理被终止。

步骤S1至S4中的处理被执行一次以使得人群补丁和训练标签的配对被得到。因此，数据处理设备1重复地执行步骤S1至S4中的处理预定次以使得大量训练数据被得到。例如，当预定次数被定义为100000时，与多人状态控制指明和个别人状态控制指明匹配的人群补丁和训练标签的100000个配对被得到。

步骤S1、S2和S3的次序在图12中示出的流程图中可以被替换。

根据本发明的人群状态识别设备30的处理进展在下面将被描述。图17是图示了人群状态识别设备30的示例性处理进展的流程图。

图像获取设备3获取针对人群状态将被识别的图像，并且将该图像输入到人群状态识别装置41中(步骤S21)。

人群状态识别装置41然后确定在搜索窗口存储装置51中存储的整组矩形区域是否已被选择(步骤S22)。

当在搜索窗口存储装置51中存储的该组矩形区域中存在未选择的矩形区域时(步骤S22中的“否”)，人群状态识别装置41从该一组矩形区域选择一个未选择的矩形区域(步骤S23)。

人群状态识别装置41然后从在步骤S21中输入的图像提取与选择的矩形区域对应的局部区域图像(步骤S24)。人群状态识别装置41然后使该局部区域图像归一化以与人群补丁尺寸匹配(步骤S25)。

人群状态识别装置41然后通过使用在人群状态识别字典存储装置52中存储的鉴别器的字典来识别归一化的局部区域图像内的人群状态(步骤S26)。

在步骤S26之后，人群状态识别装置41重复地执行步骤S22中及其后的处理。当确定整组矩形区域已被选择时(步骤S22中的“是”)，人群状态识别装置41然后终止该处理。

利用根据本发明的训练数据生成设备，人状态确定装置15根据由操作者定义的多人状态控制指明(针对多人的状态指明，诸如“人的布置”、“人的方向”和“人的数目”)和个别人状态控制指明(针对个别人的状态指明，诸如“人的拍摄角度”、“对人的照明”、“人的姿势”、“人的衣服”、“人的身体形状”、“人的发型”和“当与人群补丁合成时的人尺寸”)来确定构成人群的人的状态。人群状态图像合成装置14然后合成确定状态下的人图像以由此生成人群补丁，并且读取对应于该人群补丁的训练标签。然后，确定人状态、生成人群补丁和指定训练标签的处理被重复地执行预定次以使得操作者期望的人群状态的大量各种训练数据(多对人群补丁和训练标签)可以被自动生成。

另外，如果大量这种训练数据被获取，则鉴别器的字典可以根据训练数据而被机器学习。然后人群状态识别设备30可以通过使用该字典在静止图像中容易地识别复杂的人群状态。

人群状态识别设备30中的人群状态识别装置41通过使用基于表达人群的人群补丁和对应于人群补丁的训练标签而学习的字典来识别给定图像中的人群状态。因此，人群状态识别装置41不是以诸如人的头部之类的单个对象为单位而是以作为其基准部位被拍摄的人的集合的人群为更大单位来识别人群状态。由此，其中头部或者个别人无法被识别的小型区域中的人群状态可以被识别。

对于根据本发明的人群状态识别设备30，人群状态识别装置41通过使用字典(鉴别器的字典)来识别人群状态。因此，识别人群状态的精度不依赖于帧速率。由此，根据本发明的人群状态识别设备无论帧速率如何都可以优选地识别图像中的人群状态。例如，根据本发明的人群状态识别设备30即使在静止图像中也可以优选地识别人群状态。

根据以上示例性实施例的训练数据生成设备10根据多人状态控制指明来确定诸如人之间的重叠之类的“人的布置”的人状态，并且生成指示人状态的人群补丁。当通过使用这种人群补丁来执行机器学习时，也可以学习包括人之间的遮挡(occlusion)在内的状态。因此，即使当发生难以通过头部识别或者人识别来识别的人之间的重叠(遮挡)时，人群状态识别设备30也可以通过使用作为学习的结果而获取的字典来优选地识别人群状态。

根据以上示例性实施例的训练数据生成设备10确定人状态、生成拍摄该状态下的人的人群补丁并且根据指明多人的人状态的信息(多人状态控制指明)和指明每个人的人状态的信息(个别人状态控制指明)来指定对应于该人群补丁的训练标签。因此，操作者定义多人状态控制指明或者个别人状态控制指明以由此容易地获取用于识别不同性质人群状态的训练数据。然后，训练数据被机器学习，由此容易地制成用于识别不同性质人群状态的人群状态识别设备30。

根据以上示例性实施例，如果指示图像获取设备(相机)3在人群拍摄环境中的位置、姿势、焦距和透镜畸变的相机参数可以被得到，则限于该环境的多人状态控制指明或个别人状态控制指明可以通过使用相机参数而被定义。训练数据生成设备10根据多人状态控制指明或个别人状态控制指明来确定人状态并且生成训练数据，由此学习适合于人群拍摄环境的鉴别器的字典。结果，人群状态识别设备30可以按照高精度在静止图像等中识别复杂的人群状态。

根据上面的示例性实施例，如果指示图像获取设备3在识别环境中的位置、姿势、焦距和透镜畸变的相机参数可以被获取，则人的人状态和每个人的人状态可以按照图像上的局部区域而被控制。然后，可以通过基于受控的人状态合成人图像来自动地生成大量操作者期望的人群补丁和对应于人群补丁的训练标签。然后，可以基于人群补丁和训练标签按照图像上的局部区域来学习鉴别器的字典，并且可以通过按照图像上的区域使用鉴别器的字典来增加识别复杂的人群状态的精度。

根据本发明的训练数据生成设备和人群状态识别设备的具体结构在下面将通过示例方式来描述。图18是通过示例方式图示了根据本发明的训练数据生成设备的具体结构的框图。与在图1中示出的组件相同的组件用与图1中相同的标号来表示，并且其详细描述将被省略。在图18中示出的示例性结构中，包括背景图像存储装置21、学习局部图像信息存储装置22、人群状态控制指明存储装置23、人状态控制指明存储装置24、人图像存储装置25和人区域图像存储装置26的存储设备2被连接到计算机100。用于将训练数据生成程序101存储在其中的计算机可读存储介质102也被连接到计算机100。

计算机可读存储介质102例如由磁盘、半导体存储器等实现。例如，当被激活时，计算机100从计算机可读存储介质102读取训练数据生成程序101。计算机100然后根据训练数据生成程序101作为在图1中示出的数据处理设备1中的背景提取装置11、人状态确定装置15(更具体地说，背景人状态确定装置12和前景人状态确定装置13)、人群状态图像合成装置14和控制装置16操作。

图19是通过示例方式图示了根据本发明的人群状态识别设备的具体结构的框图。与在图7中示出的组件相同的组件用与图7中相同的标号来表示，并且其详细描述将被省略。在图19中示出的示例性结构中，包括搜索窗口存储装置51和人群状态识别字典存储装置52的存储设备5被连接到计算机150。用于将人群状态识别程序103存储在其中的计算机可读存储介质104也被连接到计算机150。

计算机可读存储介质104例如由磁盘、半导体存储器等实现。例如，当被激活时，计算机150从计算机可读存储介质104读取人群状态识别程序103。计算机100然后根据人群状态识别程序103作为在图7中示出的数据处理设备4中的人群状态识别装置41操作。

在上面的示例性实施例中已经描述了其中人群状态识别字典存储装置52(见图7)存储通过利用由训练数据生成设备10(见图1)生成的训练数据进行学习而获取的字典的情况。换言之，在上面的示例性实施例中已经描述了其中通过利用人群补丁和人群补丁的训练标签的多个配对进行机器学习而获取的字典被存储在人群状态识别字典存储装置52中的情况，人群补丁通过合成与控制为期望状态的人状态匹配的人图像而被获取。

人群状态识别字典存储装置52可以将通过利用除由训练数据生成设备10生成的训练数据之外的数据进行机器学习而获取的字典存储为训练数据。即使对于除由训练数据生成设备10生成的训练数据之外的训练数据，人群补丁和人群补丁的训练标签的多个配对被准备并且可被用作训练数据，该人群补丁包括一人，其基准部位被表达为与针对人群补丁的尺寸定义的人的基准部位的尺寸一样大。就是说，通过利用多对人群补丁和训练标签进行机器学习而获取的鉴别器的字典可以被存储在人群状态识别字典存储装置52中。同样在这种情况下，可以得到一种效果，即无论帧速率如何都可以优选地识别图像中的人群状态。

根据本发明的主要部分在下面将被描述。图20是图示了根据本发明的训练数据生成设备中的主要部分的框图。根据本发明的训练数据生成设备包括背景提取单元71、人状态确定单元72和人群状态图像合成单元73。

背景提取单元71(例如，背景提取装置11)从多个预先准备的背景图像选择背景图像，提取该背景图像中的区域并且将与提取出的区域对应的图像放大或者缩小为预定尺寸的图像。

人状态确定单元72(例如，人状态确定装置15)根据作为关于人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态。

人群状态图像合成单元73生成作为其中与人状态确定单元72所确定的人状态对应的人图像被与背景提取单元71所得到的预定尺寸的图像合成的图像的人群状态图像(诸如人群补丁)，指定人群状态图像的训练标签，并且输出一对人群状态图像和训练标签。

例如，背景提取单元71、人状态确定单元72和人群状态图像合成单元73顺序地重复这些操作。背景提取单元71、人状态确定单元72和人群状态图像合成单元73的操作可以不被顺序地执行。例如，背景提取单元71和人状态确定单元72可以并行地执行操作。

利用该结构，用于机器学习用于识别人群状态的鉴别器的字典的大量训练数据可以被容易地生成。

图21是图示了根据本发明的人群状态识别设备中的主要部分的框图。根据本发明的人群状态识别设备包括矩形区域组存储单元81、人群状态识别字典存储单元82和人群状态识别单元83。

矩形区域组存储单元81(例如，搜索窗口存储装置51)存储指示图像上将针对人群状态而被识别的部分的一组矩形区域。

人群状态识别字典存储单元82(例如，人群状态识别字典存储装置52)存储通过利用多对人群状态图像(诸如人群补丁)和人群状态图像的训练标签进行机器学习而得到的鉴别器的字典，人群状态图像是其中包括一人的图像，该人的基准部位被表示为与针对表示人群状态的图像的预定尺寸定义的人的基准部位的尺寸一样大。

人群状态识别单元83(例如人群状态识别装置41)从给定图像提取由在矩形区域组存储单元81中存储的该组矩形区域所指示的区域，并且基于字典来识别在提取出的图像中拍摄的人群的状态。

利用该结构，无论帧速率如何都可以优选地识别图像中的人群状态。

上面的示例性实施例中的部分或者全部可以如在以下补充说明中描述，但是不限于以下。

(补充说明1)

一种训练数据生成设备，包括：

背景提取装置，用于从多个预先准备的背景图像选择背景图像，提取该背景图像中的区域，并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像；

人状态确定装置，用于根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态；以及

人群状态图像合成装置，用于生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，人群状态图像是其中与人状态确定装置所确定的人状态对应的人图像被与由背景提取装置获取的预定尺寸的图像合成的图像。

(补充说明2)

根据补充说明1所述的训练数据生成设备，

其中人状态确定装置根据多人状态控制指明和个别人状态控制指明来临时确定人群的人状态，在临时确定的人状态满足用于针对预定尺寸定义的人的基准部位的尺寸和基准部位如何被表达的条件时、将临时确定的人状态确定为人群的人状态，以及当临时确定的人状态不满足这些条件时、重复地进行对人群的人状态的临时确定。

(补充说明3)

根据补充说明1或2所述的训练数据生成设备，包括：

人群状态控制指明存储装置，用于存储按照项目定义的多人状态控制指明以及存储针对该项目定义的指明的训练标签的存在；以及

人状态控制指示存储装置，用于存储按照项目定义的个别人状态控制指明以及存储针对该项目定义的指明的训练标签的存在，

其中人状态确定装置根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明，来确定人群的人状态，并且

人群状态图像合成装置通过从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明、和从人状态控制指明存储装置读取被定义为具有指明的训练标签的项目的个别人状态控制指明，来指定训练标签。

(补充说明4)

根据补充说明3所述的训练数据生成设备，

其中，人群状态控制指明存储装置将至少一个项目存储为具有指明的训练标签，并且

人群状态图像合成装置从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明。

(补充说明5)

根据补充说明3或4所述的训练数据生成设备，

其中人群状态控制指明存储装置按照诸如人的布置、人的方向和人的数目之类的项目来存储多人状态控制指明和指明的训练标签的存在，并且以指示特定状态的第一形式、指明可以定义任意状态的第二形式和指明可以在预定规则内定义状态的第三形式中的任一形式来存储对应于每个项目的多人状态控制指明，

人状态控制指示存储装置按照诸如人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸之类的项目，来存储个别人状态指明和指明的训练标签的存在，并且以第一形式、第二形式和第三形式中的任一形式，来存储对应于每个项目的个别人状态控制指明，并且

人状态确定装置根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明，来确定人群的人状态。

(补充说明6)

根据补充说明1至5中任一项所述的训练数据生成设备，

其中人群状态图像合成装置从一组预先准备的人图像选择与诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型之类的确定的人状态匹配的人图像，从选择的人图像裁剪人的区域，由此生成只有人的图像，并且根据被确定为人状态的人的布置和当与人群状态图像合成时的人尺寸，来使只有人的图像与背景提取装置获取的预定尺寸的图像合成。

(补充说明7)

根据补充说明6所述的训练数据生成设备，

其中，人群状态图像合成装置从与距离相机的最远布置位置对应的只有人的图像顺序地与背景提取装置获取的预定尺寸的图像合成。

(补充说明8)

根据补充说明1至7中任一项所述的训练数据生成设备，

其中，人状态确定装置包括：

背景人状态确定装置，用于根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态，在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸、和基准部位如何被表达的第一条件时，将临时确定的人状态确定为作为背景的人群的人状态，并且在临时确定的人状态不满足第一条件时、重复地进行对作为背景的人群的人状态的临时确定；以及

前景人状态确定装置，用于根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态，在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸、和基准部位如何被表达的第二条件时将临时确定的人状态确定为作为前景的人群的人状态，并且在临时确定的人状态不满足第二条件时、重复地进行对作为前景的人群的人状态的临时确定。

(补充说明9)

根据补充说明8所述的训练数据生成设备，

其中第一条件是人的基准部位不在人群状态图像内、或者基准部位的尺寸比针对预定尺寸定义的人的基准部位的尺寸大得多或者小得多，并且

第二条件是人的基准部位在人群状态图像内、并且基准部位的尺寸与针对预定尺寸定义的人的基准部位的尺寸一样大。

(补充说明10)

一种人群状态识别设备，包括：

矩形区域组存储装置，用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域；

人群状态识别字典存储装置，用于存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是以预定尺寸表达人群状态、并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像；以及

人群状态识别装置，用于从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域，并且基于字典来识别在提取的图像中拍摄的人群的状态。

(补充说明11)

根据补充说明10所述的人群状态识别设备，

其中人群状态识别字典存储装置存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像通过合成与控制为期望状态的人状态匹配的人图像而被获取，并且

人群状态识别装置基于字典来识别在图像中拍摄的人群的状态。

(补充说明12)

根据补充说明10或11所述的人群状态识别设备，

其中矩形区域组存储装置存储基于指示用于获取图像的图像获取设备的位置、姿势、焦距和透镜畸变的相机参数的一组尺寸定义的矩形区域，以及针对预定尺寸定义的人的基准部位的尺寸，并且

人群状态识别装置从给定图像提取在该组一矩形区域中指示的区域。

(补充说明13)

根据补充说明10至12中任一项所述的人群状态识别设备，

其中人群状态识别字典存储装置存储通过改变在人群状态图像中表打的人的数目并且通过利用针对人的该数目准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典，并且

人群状态识别装置基于字典来识别在图像中拍摄的人群中的人的数目。

(补充说明14)

根据补充说明10至13中任一项所述的人群状态识别设备，

其中人群状态识别字典存储装置存储通过改变在人群状态图像中表示的人的方向、并且通过利用针对人的这些方向准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典，并且

人群状态识别装置基于字典来识别在图像中拍摄的人群的方向。

(补充说明15)

根据补充说明10至14中任一项所述的人群状态识别设备，

其中人群状态识别字典存储装置存储通过利用针对非显著拥挤的人群和显著拥挤的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典，并且

人群状态识别装置基于字典来识别在图像中拍摄的人群是否是显著拥挤的。

(补充说明16)

根据补充说明10至15中任一项所述的人群状态识别设备，

其中人群状态识别字典存储装置存储通过利用针对其中人的方向统一的人群和其中人的方向不统一的人群准备的人群状态图像和训练标签的配对进行机器学习而获取的鉴别器的字典，并且

人群状态识别装置基于字典来识别在图像中拍摄的人群中的人的方向是否是统一的。

(补充说明17)

一种训练数据生成方法，包括：

背景提取步骤，从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取出的区域的图像放大或者缩小为预定尺寸的图像；

人状态确定步骤，根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明，来确定人群的人状态；以及

人群状态图像合成步骤，生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，人群状态图像是其中与在人状态确定步骤中确定的人状态对应的人图像被与在背景提取步骤中得到的预定尺寸的图像合成的图像。

(补充说明18)

根据补充说明17所述的训练数据生成方法，包括：

根据多人状态控制指明和个别人状态控制指明来临时确定人群的人状态、在临时确定的人状态满足针对预定尺寸定义的人的基准部位的尺寸和基准部位如何被表示的条件时，将临时确定的人状态确定为人群的人状态并且当临时确定的人状态不满足这些条件时重复地进行对人群的人状态的临时确定的人状态确定步骤。

(补充说明19)

根据补充说明17或18所述的训练数据生成方法，

其中人群状态控制指明存储装置存储按照项目定义的多人状态控制指明并且存储针对该项目定义的指明的训练标签的存在，并且

人状态控制指明存储装置存储按照项目定义的个别人状态控制指明并且存储针对该项目定义的指明的训练标签的存在，

该方法包括：

人状态确定步骤，根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明来确定人群的人状态；以及

人群状态图像合成步骤，通过从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明和从人状态控制指示存储装置读取被定义为具有指明的训练标签的项目的个别人状态控制指明来指定训练标签。

(补充说明20)

根据补充说明19所述的训练数据生成方法，

其中人群状态控制指明存储装置将至少一个项目存储为具有指明的训练标签，并且

该方法包括人群状态图像合成步骤，从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明。

(补充说明21)

根据补充说明19或20所述的训练数据生成方法，

其中人群状态控制指明存储装置按照诸如人的布置、人的方向和人的数目之类的项目来存储多人状态控制指明和指明的训练标签的存在，并且以指示特定状态的第一形式、指明可以定义任意状态的第二形式和指明可以在预定规则内定义状态的第三形式中的任一形式来存储对应于每个项目的多人状态控制指明，并且

人状态控制指示存储装置按照诸如人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸之类的项目，来存储个别人状态指明和指明的训练标签的存在，并且以第一形式、第二形式和第三形式中的任一形式，来存储对应于每个项目的个别人状态控制指明，

该方法包括人状态确定步骤，根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明来确定人群的人状态。

(补充说明22)

根据补充说明17至21中任一项所述的训练数据生成方法，包括：

人群状态图像合成步骤，从一组预先准备的人图像选择与诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型之类的确定的人状态匹配的人图像，从选择的人图像裁剪人的区域，由此生成只有人的图像，并且根据被确定为人状态的人的布置和当与人群状态图像合成时的人尺寸，来使只有人的图像与背景提取装置获取的预定尺寸的图像合成。

(补充说明23)

根据补充说明22所述的训练数据生成方法，包括：

人群状态图像合成步骤，从与距离相机的最远布置位置对应的的只有人的图像顺序地与由背景提取装置获取的预定尺寸的图像合成。

(补充说明24)

根据补充说明17至23中任一项所述的训练数据生成方法，

其中人状态确定步骤包括：

背景人状态确定步骤，据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态，在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸和基准部位如何被表示的第一条件时将临时确定的人状态确定为作为背景的人群的人状态，并且在临时确定的人状态不满足第一条件时重复地做出对作为背景的人群的人状态的临时确定；以及

前景人状态确定步骤，根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态，在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸和基准部位如何被表示的第二条件时将临时确定的人状态确定为作为前景的人群的人状态，并且在临时确定的人状态不满足第二条件时重复地做出对作为前景的人群的人状态的临时确定。

(补充说明25)

根据补充说明24所述的训练数据生成方法，

其中第一条件是人的基准部位不在人群状态图像内或者基准部位的尺寸比针对预定尺寸定义的人的基准部位的尺寸大得多或者小得多，并且

第二条件是人的基准部位在人群状态图像内并且基准部位的尺寸与针对预定尺寸定义的人的基准部位的尺寸一样大。

(补充说明26)

一种人群状态识别方法，

其中矩形区域组存储装置存储指示图像上将针对人群状态而被识别的部分的一组矩形区域，并且

人群状态识别字典存储装置存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是以预定尺寸表达人群状态、并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像，

该方法包括人群状态识别步骤，从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域，并且基于字典来识别在提取出的图像中拍摄的人群的状态。

(补充说明27)

根据补充说明26所述的人群状态识别方法，

其中，人群状态识别字典存储装置存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像通过合成与控制为期望状态的人状态匹配的人图像而被获取，

该方法包括基于字典来识别在图像中拍摄的人群的状态的人群状态识别步骤。

(补充说明28)

根据补充说明26或27所述的人群状态识别方法，

其中矩形区域组存储装置存储基于指示用于获取图像的图像获取设备的位置、姿势、焦距和透镜畸变的相机参数的一组尺寸定义的矩形区域，以及针对预定尺寸定义的人的基准部位的尺寸，

该方法包括从给定图像提取在该组矩形区域中指示的区域的人群状态识别步骤。

(补充说明29)

根据补充说明26至28中任一项所述的人群状态识别方法，

其中人群状态识别字典存储装置存储通过改变在人群状态图像中表达的人的数目并且通过利用针对人的该数目准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典，

该方法包括人群状态识别步骤，基于字典来识别在图像中拍摄的人群中的人的数目。

(补充说明30)

根据补充说明26至29中任一项所述的人群状态识别方法，

其中人群状态识别字典存储装置存储通过改变在人群状态图像中表达的人的方向并且通过利用针对人的这些方向准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典，

该方法包括基于字典来识别在图像中拍摄的人群的方向的人群状态识别步骤。

(补充说明31)

根据补充说明26至30中任一项所述的人群状态识别方法，

其中人群状态识别字典存储装置存储通过利用针对非显著拥挤的人群和显著拥挤的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典，

该方法包括基于字典来识别在图像中拍摄的人群是否是显著拥挤的的人群状态识别方法。

(补充说明32)

根据补充说明26至31中任一项所述的人群状态识别方法，

其中人群状态识别字典存储装置存储通过利用针对其中人的方向统一的人群和其中人的方向不统一的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典，

该方法包括基于字典来识别在图像中拍摄的人群中的人的方向是否统一的人群状态识别方法。

(补充说明33)

一种用于使计算机执行以下处理的训练数据生成程序：

背景提取处理，从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像；

人状态确定处理，根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态；以及

人群状态图像合成处理，生成人群状态图像、指定该人群状态图像的训练标签并且输出人群状态图像和训练标签的配对，人群状态图像是其中与在人状态确定处理中确定的人状态对应的人图像被与在背景提取处理中得到的预定尺寸的图像合成的图像。

(补充说明34)

根据补充说明33所述的训练数据生成程序，该程序用于使计算机执行：

人状态确定处理，根据多人状态控制指明和个别人状态控制指明来临时确定人群的人状态、在临时确定的人状态满足针对预定尺寸定义的人的基准部位的尺寸和基准部位如何被表达的条件时将临时确定的人状态确定为人群的人状态并且当临时确定的人状态不满足这些条件时重复地进行对人群的人状态的临时确定。

(补充说明35)

根据补充说明33或34所述的训练数据生成程序，该程序用于使包括人群状态控制指明存储装置和人状态控制指示存储装置的计算机执行：

人群状态图像合成步骤，通过从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明和从人状态控制指示存储装置读取被定义为具有指明的训练标签的项目的个别人状态控制指明来指定训练标签，

其中人群状态控制指明存储装置用于存储按照项目定义的多人状态控制指明并且存储针对该项目定义的指定训练标签的存在，并且

人状态控制指示存储装置用于存储按照项目定义的个别人状态控制指明并且存储针对该项目定义的指定训练标签的存在。

(补充说明36)

根据补充说明35所述的训练数据生成程序，该程序用于使得包括用于将至少一个项目存储为具有指明的训练标签人群状态控制指明存储装置的计算机执行：

人群状态图像合成处理，从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明。

(补充说明37)

根据补充说明35或36所述的训练数据生成程序，该程序用于使得包括人群状态控制指明存储装置和人状态控制指示存储装置的计算机执行：

人状态确定处理，根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明来确定人群的人状态，

其中人群状态控制指明存储装置用于按照诸如人的布置、人的方向和人的数目之类的项目来存储多人状态控制指明和指明的训练标签的存在，并且以指示特定状态的第一形式、指示可以定义任意状态的第二形式和指示可以在预定规则内定义状态的第三形式中的任一项来存储对应于每个项目的多人状态控制指明，并且

人状态控制指示存储装置用于按照诸如人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸之类的项目来存储个别人状态控制指明和指明的训练标签的存在，并且以第一形式、第二形式和第三形式中的任一项来存储对应于每个项目的个别人状态控制指明。

(补充说明38)

根据补充说明33至37中任一项所述的训练数据生成程序，该程序用于使得计算机执行：

人群状态图像合成处理，从一组预先准备的人图像选择与诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型之类的确定的人状态匹配的人图像、从选择的人图像中裁剪人的区域，由此生成只有人的图像并且根据被确定为人状态的当人的布置和与人群状态图像合成时的人尺寸来使只有人的图像与背景提取装置获取的预定尺寸的图像合成。

(补充说明39)

根据补充说明38所述的训练数据生成程序，该程序用于使得计算机执行：

用于距离相机的最远布置位置对应的只有人的图像顺序地与由背景提取装置获取的预定尺寸的图像合成的人群状态图像合成处理。

(补充说明40)

根据补充说明33至39中任一项所述的训练数据生成程序，该程序用于使得计算机在人状态确定处理中执行：

背景人状态确定处理，根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态、在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸和基准部位如何被表达的第一条件时将临时确定的人状态确定为作为背景的人群的人状态并且在临时确定的人状态不满足第一条件时重复地进行对作为背景的人群的人状态的临时确定；以及

前景人状态确定处理，根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态、在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸和基准部位如何被表达的第二条件时将临时确定的人状态确定为作为前景的人群的人状态并且在临时确定的人状态不满足第二条件时重复地进行对作为前景的人群的人状态的临时确定。

(补充说明41)

根据补充说明40所述的训练数据生成程序，

(补充说明42)

一种人群状态识别程序，用于使得包括矩形区域组存储装置和人群状态识别字典存储装置的计算机执行：

人群状态识别处理，从给定图像提取在矩形区域组存储装置中存储的该组矩形区域中指示的区域并且基于字典来识别在提取出的图像中拍摄的人群的状态，

其中矩形区域组存储装置用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域，并且

人群状态识别字典存储装置用于存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是以预定尺寸表示人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像。

(补充说明43)

根据补充说明42所述的人群状态识别程序，该程序用于使得包括人群状态识别字典存储装置的计算机执行：

人群状态识别处理，基于字典来识别在图像中拍摄的人群的状态，

其中人群状态识别字典存储装置用于存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是通过合成与控制为期望状态的人状态匹配的人图像而得到的。

(补充说明44)

根据补充说明42或43所述的人群状态识别程序，该程序用于使得包括矩形区域组存储装置的计算机执行：

人群状态识别处理，从给定图像提取在该组矩形区域中指示的区域，

其中矩形区域组存储装置用于存储基于指示用于获取图像的图像获取设备的位置、姿势、焦距和透镜畸变的相机参数的一组尺寸定义的矩形区域，以及针对预定尺寸定义的人的基准部位的尺寸。

(补充说明45)

根据补充说明42至44中任一项所述的人群状态识别程序，该程序用于使包括人群状态识别字典存储装置的计算机执行：

基于字典来识别在图像中拍摄的人群中的人的数目的人群状态识别处理，

其中，群状态识别字典存储装置用于存储通过改变在人群状态图像中表达的人的数目并且通过利用针对人的该数目准备的多对人群状态图像和训练标签进行机器学习而得到的鉴别器的字典。

(补充说明46)

根据补充说明42至45中任一项所述的人群状态识别程序，该程序用于使得包括人群状态识别字典存储装置的计算机执行：

人群状态识别处理，基于字典来识别在图像中拍摄的人群的方向，

其中人群状态识别字典存储装置用于存储通过改变在人群状态图像中表达的人的方向并且通过利用针对人的这些方向准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典。

(补充说明47)

根据补充说明42至46中任一个所述的人群状态识别程序，该程序用于使得包括人群状态识别字典存储装置的计算机执行：

人群状态识别处理，基于字典来识别在图像中拍摄的人群是否显著拥挤，

其中人群状态识别字典存储装置存储通过利用针对非显著拥挤的人群和显著拥挤的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典。

(补充说明48)

根据补充说明42至47中任一项所述的人群状态识别程序，该程序用于使得包括人群状态识别字典存储装置的计算机执行：

人群状态识别处理，基于字典来识别在图像中拍摄的人群中的人的方向是否统一，

其中人群状态识别字典存储装置存储通过利用针对其中人的方向是统一的的人群和其中人的方向不是统一的的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典。

本发明已经参考了示例性实施例而得到描述，但是本发明不限于上面的示例性实施例。在本领域技术人员可以理解的本发明的范围内可以不同地改变本发明的结构和细节

本申请要求基于在2013年6月28日提交的日本专利申请第2013-135915号的优先权，其公开内容通过引用而被全部结合于此。

工业应用性

本发明可合适地应用于用于在学习用于识别人群状态的鉴别器的字典时生成训练数据的训练数据生成设备。

本发明被合适地应用于用于识别图像中的人群状态的人群状态识别设备。具体而言，本发明可合适地应用于识别低帧速率的图像中的人群状态。另外，当帧速率不稳定并且使用时间信息的人群状态识别处理无法被执行时也可以合适地利用本发明。另外，本发明可以被合适地用于根据静止图像来识别包括人之间的重叠的复杂人群状态。另外，本发明可以被用于监视领域中的可疑人识别、左可疑对象识别、追尾识别、异常状态识别、异常行为识别等以用与从由相机获取的图像识别人群状态。另外，本发明可被用于将图像中的人群状态的识别结果连同人群的位置(2D位置或者3D位置)一起输出给其他系统。另外，本发明可以被用于获取图像中的人群状态的识别结果和人群的位置(2D位置或3D位置)和利用获得物作为触发来进行视频搜索。

标号列表

11 背景提取装置

12 背景人状态确定装置

13 前景人状态确定装置

14 人群状态图像合成装置

15 人状态确定装置

16 控制装置

21 背景图像存储装置

22 学习局部图像信息存储装置

23 人群状态控制指明存储装置

24 人状态控制指明存储装置

25 人图像存储装置

26 人区域图像存储装置

41 人群状态识别装置

51 搜索窗口存储装置

52 人群状态识别字典存储装置

Claims

1.一种训练数据生成设备，包括：

背景提取单元，用于从多个预先准备的背景图像选择背景图像，提取所述背景图像中的区域，并且将对应于提取的所述区域的图像放大或者缩小为预定尺寸的图像；

人状态确定单元，用于根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于所述多人中的个别人的状态的指明信息的个别人状态控制指明，来确定人群的人状态；以及

人群状态图像合成单元，用于生成人群状态图像、指定用于所述人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，所述人群状态图像是其中与由所述人状态确定单元确定的所述人状态对应的人图像被与由所述背景提取单元获取的预定尺寸的所述图像合成的图像，

其中所述人状态确定单元包括：

背景人状态确定单元，用于根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态，在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的人的基准部位的所述尺寸、和所述基准部位如何被表达的第一条件时，将临时确定的所述人状态确定为作为所述背景的所述人群的所述人状态，并且在临时确定的所述人状态不满足所述第一条件时、重复地进行对作为所述背景的所述人群的所述人状态的所述临时确定；以及

前景人状态确定单元，用于根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态，在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的所述基准部位的所述尺寸、和所述基准部位如何被表达的第二条件时，将临时确定的所述人状态确定为作为所述前景的所述人群的所述人状态，并且在临时确定的所述人状态不满足所述第二条件时、重复地进行对作为所述前景的所述人群的所述人状态的所述临时确定，

其中所述第一条件是人的所述基准部位不在人群状态图像内、或者所述基准部位的所述尺寸比针对所述预定尺寸定义的人的所述基准部位的所述尺寸大得多或者小得多，并且

所述第二条件是人的所述基准部位在人群状态图像内、并且所述基准部位的所述尺寸与针对所述预定尺寸定义的人的所述基准部位的所述尺寸一样大，

其中所述训练数据生成设备包括：

人群状态控制指明存储单元，用于存储按照项目定义的所述多人状态控制指明以及存储针对所述项目定义的指明的训练标签的存在；以及

人状态控制指明存储单元，用于存储按照项目定义的个别人状态控制指明以及存储针对所述项目定义的指明的训练标签的存在，

其中所述人状态确定单元根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明，来确定人群的人状态，并且

所述人群状态图像合成单元通过从所述人群状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述多人状态控制指明、和从所述人状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述个别人状态控制指明，来指定训练标签，

其中所述人群状态控制指明存储单元按照关于人的布置、人的方向和人的数目的项目，来存储所述多人状态控制指明和指明的训练标签的所述存在，并且以指明特定状态的第一形式、指明可以定义任意状态的第二形式和指明可以在预定规则内定义状态的第三形式中的任一形式，来存储对应于每个项目的所述多人状态控制指明，

所述人状态控制指明存储单元按照关于人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸的项目，来存储所述个别人状态指明和指明的训练标签的所述存在，并且以所述第一形式、所述第二形式和所述第三形式中的任一形式，来存储对应于每个项目的所述个别人状态控制指明，并且

所述人状态确定单元根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明，来确定人群的人状态。

2.根据权利要求1所述的训练数据生成设备，

其中所述人状态确定单元根据所述多人状态控制指明和所述个别人状态控制指明来临时确定人群的人状态，在临时确定的所述人状态满足用于针对所述预定尺寸定义的人的基准部位的尺寸和所述基准部位如何被表达的条件时、将临时确定的所述人状态确定为所述人群的所述人状态，以及在临时确定的所述人状态不满足所述条件时、重复地进行对所述人群的所述人状态的所述临时确定。

3.根据权利要求1所述的训练数据生成设备，

其中所述人群状态控制指明存储单元将至少一个项目存储为具有指明的训练标签，并且

所述人群状态图像合成单元从所述人群状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述多人状态控制指明。

4.根据权利要求1所述的训练数据生成设备，

其中所述人群状态图像合成单元从一组预先准备的人图像选择与作为人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型的确定的所述人状态匹配的人图像，从选择的所述人图像裁剪人的区域，由此生成只有所述人的图像，并且根据被确定为所述人状态的人的布置和当与人群状态图像合成时的人尺寸，来使只有所述人的所述图像与由所述背景提取单元获取的预定尺寸的所述图像合成。

5.根据权利要求4所述的训练数据生成设备，

其中所述人群状态图像合成单元从与距相机的最远布置位置对应的只有人的图像顺序地与由所述背景提取单元获取的预定尺寸的所述图像合成。

6.一种训练数据生成方法，包括：

背景提取步骤，从多个预先准备的背景图像选择背景图像、提取所述背景图像中的区域并且将对应于提取的所述区域的图像放大或者缩小为预定尺寸的图像；

人状态确定步骤，根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于所述多人中的个别人的状态的指明信息的个别人状态控制指明，来确定人群的人状态；以及

人群状态图像合成步骤，生成人群状态图像、指定用于所述人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，所述人群状态图像是其中与在所述人状态确定步骤中确定的所述人状态对应的人图像被与在所述背景提取步骤中获取的预定尺寸的所述图像合成的图像，

其中所述人状态确定步骤包括：

背景人状态确定步骤，根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态，在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的人的基准部位的所述尺寸、和所述基准部位如何被表达的第一条件时，将临时确定的所述人状态确定为作为所述背景的所述人群的所述人状态，并且在临时确定的所述人状态不满足所述第一条件时、重复地进行对作为所述背景的所述人群的所述人状态的所述临时确定；以及

前景人状态确定步骤，根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态，在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的所述基准部位的所述尺寸、和所述基准部位如何被表达的第二条件时，将临时确定的所述人状态确定为作为所述前景的所述人群的所述人状态，并且在临时确定的所述人状态不满足所述第二条件时、重复地进行对作为所述前景的所述人群的所述人状态的所述临时确定，

其中

人群状态控制指明存储单元存储按照项目定义的所述多人状态控制指明并且存储针对所述项目定义的指明的训练标签的存在；并且

人状态控制指明存储单元存储按照项目定义的个别人状态控制指明并且存储针对所述项目定义的指明的训练标签的存在，

其中所述人状态确定步骤包括：

根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明，来确定人群的人状态，并且

所述人群状态图像合成步骤包括：

通过从所述人群状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述多人状态控制指明、和从所述人状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述个别人状态控制指明，来指定训练标签，

其中所述人状态确定步骤包括：

根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明，来确定人群的人状态。

7.一种计算机可读记录介质，其中记录训练数据生成程序，所述训练数据生成程序使得计算机执行以下处理：

背景提取处理，从多个预先准备的背景图像选择背景图像、提取所述背景图像中的区域并且将对应于提取的所述区域的图像放大或者缩小为预定尺寸的图像；

人状态确定处理，根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于所述多人中的个别人的状态的指明信息的个别人状态控制指明，来确定人群的人状态；以及

人群状态图像合成处理，生成人群状态图像、指定用于所述人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，所述人群状态图像是其中与在所述人状态确定处理中确定的所述人状态对应的人图像被与在所述背景提取处理中获取的预定尺寸的所述图像合成的图像，

其中所述训练数据生成程序使得所述计算机在所述人状态确定处理中执行：

背景人状态确定处理，根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态，在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的人的基准部位的所述尺寸、和所述基准部位如何被表达的第一条件时，将临时确定的所述人状态确定为作为所述背景的所述人群的所述人状态，并且在临时确定的所述人状态不满足所述第一条件时、重复地进行对作为所述背景的所述人群的所述人状态的所述临时确定；以及

前景人状态确定处理，根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态，在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的所述基准部位的所述尺寸、和所述基准部位如何被表达的第二条件时，将临时确定的所述人状态确定为作为所述前景的所述人群的所述人状态，并且在临时确定的所述人状态不满足所述第二条件时、重复地进行对作为所述前景的所述人群的所述人状态的所述临时确定，

其中所述计算机包括：

其中所述训练数据生成程序使得所述计算机执行：

在所述人状态确定处理中，根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明，来确定人群的人状态，以及

在所述人群状态图像合成处理中，通过从所述人群状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述多人状态控制指明、和从所述人状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述个别人状态控制指明，来指定训练标签，

其中所述人群状态控制指明存储单元按照关于人的布置、人的方向和人的数目关于的项目，来存储所述多人状态控制指明和指明的训练标签的所述存在，并且以指明特定状态的第一形式、指明可以定义任意状态的第二形式和指明可以在预定规则内定义状态的第三形式中的任一形式，来存储对应于每个项目的所述多人状态控制指明，

其中所述训练数据生成程序使得所述计算机执行，在所述人状态确定处理中，根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明，来确定人群的人状态。