CN105593901B - 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序 - Google Patents

训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序 Download PDF

Info

Publication number
CN105593901B
CN105593901B CN201480036661.8A CN201480036661A CN105593901B CN 105593901 B CN105593901 B CN 105593901B CN 201480036661 A CN201480036661 A CN 201480036661A CN 105593901 B CN105593901 B CN 105593901B
Authority
CN
China
Prior art keywords
person
state
crowd
image
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480036661.8A
Other languages
English (en)
Other versions
CN105593901A (zh
Inventor
池田浩雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to CN201810432697.8A priority Critical patent/CN108647631B/zh
Publication of CN105593901A publication Critical patent/CN105593901A/zh
Application granted granted Critical
Publication of CN105593901B publication Critical patent/CN105593901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Abstract

提供了一种教学数据生成设备,由此有可能容易地生成在用于识别人群状态的识别设备的字典的机器学习中使用的大量教学数据。人状态确定单元(72)根据作为与多个人有关的人状态的指令信息的多人状态控制指令和作为与该多个人之中的个别人的状态的指令信息的特定人状态控制指令来确定人群的人状态。人群状态图像合成单元(73)生成人群状态图像并且针对该人群状态图像指定教学水平,该人群状态图像是其中对应于人状态确定单元(72)已经确定的人状态的人图像被与由背景提取单元(71)获得的预定尺寸的图像相合成的图像。

Description

训练数据生成设备、方法和程序以及人群状态识别设备、方法 和程序
技术领域
本发明涉及用于生成训练数据的训练数据生成设备、训练数据生成方法和训练数据生成程序以及用于识别图像中的人群的状态的人群状态识别设备、人群状态识别方法和人群状态识别程序。
背景技术
提出了用于识别图像中的人群的状态(其在下面将被表示为人群状态)的各种技术(见PTL 1至PTL 3)。
在PTL 1中描述的人行为确定设备从视频提取改变的区域,并且根据该改变的区域来计算特征量,在改变的区域中由于背景差分等而造成差异。人行为确定设备然后通过使用对特征量进行机器学习的人鉴别器来确定改变的区域是否是人区域,从而检测人区域。另外,人行为确定设备考虑到距离或者颜色直方图而在帧之间关联检测到的人区域,并且在预定数目的帧上跟踪人区域。人行为确定设备然后根据通过跟踪获取的人轨迹来计算诸如平均速度、跟踪时间和运动方向之类的人轨迹的特征量,并且基于人轨迹的特征量来确定人行为。
在PTL 2中描述的人头数计数设备根据拍摄视频中的人群的视频对人的数目进行计数。人头数计数设备基于头部模型来提取图像中包括的人的头部。人头数计数设备然后通过使用诸如位置信息或颜色分布之类的特征量在帧之间将被确定为同一人的头部位置链接,并且根据链接结果(人跟踪结果)对人的数目进行计数。
在PTL 3中描述的系统检测诸如稳定(例如,人的主流)/不稳定(例如,与主流相对)之类的状态。系统聚集作为确定单元的确定块的光流属性,并且计算用于评估光流的稳定程度的评估值。系统然后根据评估值来确定确定块的状态。
引用列表
专利文献
PTL 1:日本专利申请特开第2011-100175号(0028至0030段)
PTL 2:日本专利申请特开第2010-198566号(0046至0051段)
PTL 3:日本专利申请特开第2012-22370号(0009段)
发明内容
技术问题
对于在PTL 1至PTL 3中描述的技术,确定性能对于低帧速率的视频降低。特别地,对于在PTL 1至PTL3中描述的技术,针对静止图像无法确定图像中的人群状态。
这是因为在PTL 1至PTL 3中描述的技术使用视频中的每个帧并且状态确定性能依赖于帧之间的间隔。例如,利用在PTL 1中描述的技术,人区域在帧之间被关联从而获取人轨迹。另外,利用在PTL 2中描述的技术,头部位置在帧之间被链接并且其结果被假定为人跟踪结果。当这种轨迹或者跟踪结果被获取时,人区域或者头部位置需要在帧之间关联。此时,人的运动量在低帧速率处更大,并且因此人区域或头部位置的变化或者形状(姿势)的变化增大。另外,由于照明的干扰等产生的影响也增大。因此,人区域或头部位置难以在帧之间关联。结果,人轨迹等的精度降低并且确定图像中的人群状态的精度降低。另外,同样利用在PTL 3中描述的技术,难以正确地找到低帧速率的光流,并且结果聚集的属性的精度降低并且状态确定性能降低。
例如,假定一种使用具有学习的字典的鉴别器以便识别图像中的人群状态的方法。字典通过诸如指示人群状态的图像之类的训练数据而被学习。然而,用于学习字典的大量训练数据(学习数据)需要被收集。例如,人的布置(人之间的重叠或者人位置的偏差)、人的方向和密度(每单位区域的人)在各种状态下需要被定义,并且其中拍摄人的角度、背景、照明、衣服或姿势等在每一种状态下被不同地改变的大量图像需要被收集。机器学习通过使用图像而被执行以使得鉴别器的字典被获取。然而,用于收集训练数据的工作负荷在收集大量此类训练数据时增大。
因此,本发明的一个目的是提供一种能够容易地生成用于对用于识别人群状态的鉴别器的字典进行机器学习的大量训练数据的训练数据生成设备、训练数据生成方法和训练数据生成程序。
本发明的另一目的是提供一种无论帧速率如何都能够优选地识别图像中的人群状态的人群状态识别设备、人群状态识别方法和人群状态识别程序。
对问题的解决方案
根据本发明的一种训练数据生成设备包括:背景提取装置,用于从多个预先准备的背景图像选择背景图像,提取该背景图像中的区域,并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像;人状态确定装置,用于根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态;以及人群状态图像合成装置,用于生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对,人群状态图像是其中与由人状态确定装置所确定的人状态相对应的人图像被与由背景提取装置获取的预定尺寸的图像合成的图像。
另外,根据本发明的一种人群状态识别设备包括:矩形区域组存储装置,用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域;人群状态识别字典存储装置,用于存储通过利用人群状态图像和用于人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典,人群状态图像是以预定尺寸表达人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像;以及人群状态识别装置,用于从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域,并且基于字典来识别在提取的图像中拍摄的人群的状态。
另外,根据本发明的一种训练数据生成方法包括:背景提取步骤,从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像;人状态确定步骤,根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态;以及人群状态图像合成步骤,生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对,人群状态图像是其中与在人状态确定步骤中确定的人状态对应的人图像被与在背景提取步骤中获取的预定尺寸的图像合成的图像。
另外,在根据本发明的一种人群状态识别方法中,矩形区域组存储装置存储指示图像上将针对人群状态而被识别的部分的一组矩形区域,并且人群状态识别字典存储装置存储通过利用人群状态图像和用于人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典,人群状态图像是以预定尺寸表达人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像,该方法包括人群状态识别步骤,从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域并且基于字典来识别在提取的图像中拍摄的人群的状态。
另外,根据本发明的一种训练数据生成程序使得计算机执行:背景提取处理,从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像;人状态确定处理,根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态;以及人群状态图像合成处理,生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对,人群状态图像是其中与在人状态确定处理中确定的人状态对应的人图像被与在背景提取处理中获取的预定尺寸的图像合成的图像。
另外,根据本发明的一种人群状态识别程序使得包括矩形区域组存储装置和人群状态识别字典存储装置的计算机执行:人群状态识别处理,从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域并且基于字典来识别在提取的图像中拍摄的人群的状态,矩形区域组存储装置用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域,并且人群状态识别字典存储装置用于存储通过利用人群状态图像和用于人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典,人群状态图像是以预定尺寸表达人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像。
发明的有利效果
利用根据本发明的训练数据生成设备、训练数据生成方法和训练数据生成程序,可以容易地生成用对用于识别人群状态的鉴别器的字典进行于机器学习的大量训练数据。
利用根据本发明的人群状态识别设备、人群状态识别方法和人群状态识别程序,可以无论帧速率如何都优选地识别图像中的人群状态。
附图说明
[图1]其描绘了图示了根据本发明的训练数据生成设备的示例性结构的框图。
[图2]其描绘了图示了在人群状态控制指明存储装置中存储的示例性信息的示意图。
[图3]其描绘了图示了在人状态控制指明存储装置中存储的示例性信息的示意图。
[图4]其描绘了通过示例图示了在人图像存储装置中存储的人图像和对应于人图像的人区域图像的示图。
[图5]其描绘了图示了满足背景人状态的条件的示例的示意图。
[图6]其描绘了图示了满足前景人状态的条件的示例的示意图。
[图7]其描绘了图示了根据本发明的人群状态识别设备的示例性结构的框图。
[图8]其描绘了通过示例图示了如何识别拥挤程度(人的数目)的示意图。
[图9]其描绘了通过示例图示了如何识别人群的方向的示意图。
[图10]其描绘了通过示例图示了如何识别非异常人群或异常人群的示意图。
[图11]其描绘了通过示例图示了如何识别无序状态或有序状态的示意图。
[图12]其描绘了图示了训练数据生成设备的示例性处理进展的流程图。
[图13]其描绘了图示了步骤S1的示例性处理进展的流程图。
[图14]其描绘了图示了步骤S2的示例性处理进展的流程图。
[图15]其描绘了图示了步骤S3的示例性处理进展的流程图。
[图16]其描绘了图示了步骤S4的示例性处理进展的流程图。
[图17]其描绘了图示了人群状态识别设备的示例性处理进展的流程图。
[图18]其描绘了通过示例图示了根据本发明的训练数据生成设备的具体结构的框图。
[图19]其描绘了通过示例图示了根据本发明的人群状态识别设备的具体结构的框图。
[图20]其描绘了图示了根据本发明的训练数据生成设备中的主要部分的框图。
[图21]其描绘了图示了根据本发明的人群状态识别设备中的主要部分的框图。
具体实施方式
下面将参考附图来描述根据本发明的示例性实施例。
图1是图示了根据本发明的训练数据生成设备的示例性结构的框图。根据本发明的训练数据生成设备10生成用于对图像中的人群状态进行机器学习的训练数据。具体而言,训练数据生成设备10创建多对人群状态的局部图像和对应于局部图像的训练标签。在这里,“局部”指示比针对人群状态将被识别出的图像(通过下面描述的图像获取设备3(参见图7)获取的图像)的区域更小。然后,人群状态的局部图像表示在这种区域中配置人群的人的基本部位(其在下面将被表示为基准部位)的集合。根据本示例性实施例,将在假定头部被用作基准部位的情况下进行描述,但是除头部之外的其他部分可以被用作基准部位。人群状态的局部图像将被表示为人群补丁。人群补丁可以在其中指示除基准部位(本示例中的头部)之外的人的部位。
训练数据生成设备10包括在程序控制下工作的数据处理设备1,以及用于将信息存储在其中的存储设备2。
存储设备2包括背景图像存储装置21、学习局部图像信息存储装置22、人群状态控制指明存储装置23、人状态控制指明存储装置24、人图像存储装置25和人区域图像存储装置26。
背景图像存储装置21存储被用作人群补丁中的背景的多个背景图像(一组背景图像)。背景图像不包括人。将针对人群状态而被识别的图像被拍摄处的实际地方的图像可以被用作背景图像。通过使用CG(计算机图形学)等生成的背景图像可以被使用。
学习局部图像信息存储装置22存储人群补丁(用于机器学习的人群状态的局部图像)的尺寸,以及用于人群补丁的人的基准部位的尺寸。例如,人群补丁的尺寸被假定为高度是h个像素并且宽度是w个像素。构成人群补丁中的人群镜头的人的基准部位(本示例中的头部)的高度尺寸被假定为人群补丁的高度尺寸的1/α或是h/α个像素。在这种情况下,高度h个像素和宽度w个像素在学习局部图像信息存储装置22中被存储为人群补丁的尺寸。高度h/α个像素在学习局部图像信息存储装置22中被存储为人的基准部位的尺寸。在这里假定其中高度尺寸被存储为基准部位的尺寸的示例,但是将被存储的基准部位的尺寸不限于高度尺寸。例如,假定人的基准部位的宽度尺寸被定义为人群补丁的宽度尺寸的1/α倍或是个w/α像素。在这种情况下,高度h个像素和宽度w个像素在学习局部图像信息存储装置22中被存储为人群补丁的尺寸,并且宽度w/α个像素在学习局部图像信息存储装置22中可以被存储为人的基准部位的尺寸。在实际使用中,人的基准部位的尺寸可以运用高度尺寸或是宽度尺寸。在人群补丁的尺寸与人的基准部位的尺寸之间的关系是仅需已知的,并且对角线尺寸等可以被使用。
在这里,人的基准部位的尺寸是用来将其基准部位被拍摄为与人群补丁中的尺寸一样大的人识别为人类的尺寸。例如,当人的基准部位被拍摄为在人群补丁中显著大或者被拍摄为显著小时,该人构成人群但是只是被看作背景。
人群状态控制指明存储装置23存储在合成人群补丁中的多个人图像时关于用于多人的人状态(其在下面将被表示为多人状态控制指明)的指明信息。多人状态控制指明先前由训练数据生成设备10的操作者定义并且被存储在人群状态控制指明存储装置23中。多人状态控制指明按照项目而被定义,这些项目诸如是针对在合成多个人图像时诸如重叠的人或者位置偏差之类的多人布置关系的项目“人的布置”、关于人的朝向的项目“人的方向”或是针对人的数目或者说密度的项目“人的数目”。具有定义的多人状态控制指明的项目不限于此。图2是图示了在人群状态控制指明存储装置23中存储的示例性信息的示意图。图2图示了针对“人的布置”、“人的方向”和“人的数目”定义的多人状态控制指明。
多人状态控制指明的形式包括“预定状态”、“随机”和“预定规则”。
“预定状态”是用来指明对应项目的特定状态的指明形式。在图2中示出的示例中,针对项目“人的数目”定义的“三个人”对应于“预定状态”。在该示例中,“人的数目”被具体指明为“三个人”。作为“预定状态”的其他示例,例如,可以针对项目“人的方向”指明“所有人在右方向上”。
“随机”表明可以针对对应项目任意定义状态。在图2中示出的示例中,针对“人的布置”和“人的方向”定义了多人状态控制指明“随机”。
“预定规则”是表明可以在满足操作者指定的规则的范围内定义对应项目的状态的指定形式。例如,当针对项目“人的布置”定义了规则“人按照50%重叠被布置”时,人的布置被指明为至少定义满足该规则的人的状态。例如,当针对“人的方向”定义了规则“相对于人群补丁的中心布置在右侧的人面朝右并且相对于中心布置在左侧的人面朝左”时,人的方向被指明为至少定义满足规则的人的状态。
人群状态控制指明存储装置23按照项目来存储指定训练标签的存在。在图2中示出的示例中,“○”指示关于指明训练标签的存在的信息并且“×”指示关于指明训练标签的空缺的信息。这一点在稍后描述的图3中是相同的。
操作者利用从具有定义的多人状态控制指明的项目之中选择具有指明的训练标签的一个或多个项目。另外,操作者无论项目是否将被指明以训练标签都定义每一个项目的多人状态控制指明。在图2中示出的示例中,针对没有指明的训练标签的项目“人的布置”和“人的方向”定义了多人状态控制指明(在这一示例中是随机的指示)。操作者将一种形式的多人状态控制指明假定为具有指明的训练标签的项目的“预定状态”。在图2中示出的示例中,针对具有指明的训练标签的项目“人的数目”指明了“三个人”的特定状态。人群状态控制指明存储装置23在其中存储多人状态控制指明和由操作者按照项目定义的指明的训练标签的存在。
图2通过示例图示了项目“人的布置”、“人的方向”和“人的数目”,但是操作者为其定义了多人状态控制指明和指明的训练标签的存在的项目不限于此。根据本示例性实施例,将在假定人群状态控制指明存储装置23在其中存储多人状态控制指明和操作者至少为项目“人的布置”、“人的方向”和“人的数目”定义的指明的训练标签的存在的情况下进行描述。
多人状态控制指明存储装置24存储用来当在人群补丁内合成多个人图像时指明每个人的状态的信息(其在下面将被表示为个别人状态控制指明)。在“多人状态控制指明”指明用于多人的人状态的同时,“个别人状态控制指明”指明属于一组人的个别人的状态。个别人状态控制指明先前由训练数据生成设备10的操作者定义,并且被存储在人状态控制指明存储装置24中。个别人状态控制指明在与人群补丁合成时按照项目被定义,项目诸如是“人的拍摄角度”、“对人的照明”、“人的姿势”、“人的衣服”、“人的身体形状”、“人的发型”或“在与人群补丁合成时的人尺寸”。具有定义的个别人状态控制指明的项目不限于这些项目。图3是图示了在人状态控制指明存储装置24中存储的示例性信息的示意图。图3图示了针对项目“人的拍摄角度”、“对人的照明”和“人的姿势”定义的个别人状态控制指明。
类似于多人状态控制指明,个别人状态控制指明的形式是“预定状态”、“随机”和“预定规则”。
如针对多人状态控制指明所描述的,“预定状态”是用来指明对应项目的特定状态的指明形式。在图3中示出的示例中,针对项目“人的姿势”定义的“步行”对应于“预定状态”。在这一示例中,“人的姿势”被具体指明为步行姿势。
如针对多人状态控制指明所描述的,“随机”指示可以针对对应项目任意定义状态。在图3中示出的示例中,针对“对人的照明”定义了个别人状态控制指明“随机”。
如针对多人状态控制指明所描述的,“预定规则”是用来指示以在满足操作者指明的规则的范围内定义对应项目的状态的指明形式。在图3中示出的示例中,针对“人的拍摄角度”定义了预定规则。在这一示例中,指明了计算人的拍摄角度并且通过使用基于来自合成时的人布置的相机参数的等式来定义根据拍摄角度的人状态。例如,当针对“与人群补丁相合成时的人尺寸”定义了规则“基于合成时的人布置和在学习局部图像信息存储装置22中存储的基准部位的尺寸来确定合成时的人尺寸”时,人的尺寸将被定义为至少满足该规则。
多人状态控制指明存储装置24还按照项目来存储指明的训练标签的存在。
操作者可以不仅针对具有定义的多人状态控制指明的项目而且还针对具有定义的个别人状态控制指明的项目来选择具有指明的训练标签的一个或多个项目。同样,在这种情况下,操作者无论项目是否将被指明以训练标签都定义用于每个项目的个别人状态控制指明。在图3中示出的示例中,针对没有指明的训练标签的项目“人的拍摄角度”和“对人的照明”来定义个别人状态控制指明。操作者将一种形式的个别人状态控制指明假定为具有指明的训练标签的项目的“预定状态”。在图3中示出的示例中,具有指明的训练标签的项目“人的姿势”被具体指明为步行的状态。人状态控制指明存储装置24在其中存储个别人状态控制指明和用户按照项目定义的指明的训练标签的存在。
操作者可以不针对具有定义的个别人状态控制指明的所有项目指明训练标签。如上所述,操作者针对具有定义的多人状态控制指明的项目将一个或多个项目定义为具有指明的训练标签的项目。
根据本示例性实施例,将在假定人状态控制指明存储装置24存储操作者定义的个别人状态控制指明以及至少针对项目“人的拍摄角度”、“对人的照明”、“人的姿势”、“人的衣服”、“人的身体形状”、“人的发型”和“当与人群补丁相合成时的人尺寸”的指明的训练标签的存在。
针对具有指明的训练标签的项目而定义的多人状态控制指明的内容是与根据在人群状态控制指明存储装置23中存储的信息生成的人群补丁对应的训练标签。类似地,针对具有指明的训练标签的项目而定义的个别人状态控制指明的内容是与根据在人状态控制指明存储装置24中存储的信息生成的人群补丁对应的训练标签。基于多人状态控制指明的训练标签是主训练标签,并且基于个别人状态控制指明的训练标签是用于训练标签的补充训练标签。
具体而言,数据处理设备1(见图1)确定人状态,并且根据在人群状态控制指明存储装置23中存储的每个项目的多人状态控制指明和在人状态控制指明存储装置24中存储的每个项目的个别人状态控制指明来生成其中人被合成的人群补丁。数据处理设备1将针对具有指明的训练标签的项目定义的多人状态控制指明和个别人状态控制指明的内容定义为人群补丁的训练标签。例如,假定数据处理设备1根据在图2和图3中示出的多人状态控制指明和个别人状态控制指明来生成人群补丁。在这种情况下,在人群补丁中拍摄到三个步行的人。数据处理设备1将训练标签“三个人,步行”定义为用于人群补丁的训练标签。
项目“当与人群补丁合成时的人尺寸”将被存储在人状态控制指明存储装置24中。当被识别为人类的人在人群补丁中被合成时,例如,在学习局部图像信息存储装置22中存储的人的基准部位的尺寸可以被指明,或者随机可以被指明为“当与人群补丁合成时的人尺寸”的个别人状态控制指明。作为随机指定的结果,如果人状态被临时确定为与在学习局部图像信息存储装置22中存储的人的基准部位的尺寸很大不同的基准部位的尺寸,则人状态的临时确定可以被再次做出。当将是背景的人在人群补丁中被合成时,例如,与在学习局部图像信息存储装置22中存储的人的基准部位的尺寸很大不同的尺寸可以被指明,或者随机可以被指明为“当与人群补丁合成时的人尺寸”的个别人状态控制指明。作为随机指定的结果,如果不对应于背景的人的状态被临时确定,则人状态的临时确定可以被再次做出。
如在下面描述的,根据本示例性实施例,数据处理设备1确定将被识别为人类的人(其在下面可以被表示为前景人)的状态并且确定背景人的状态。用于确定前景人状态的多人状态控制指明和个别人状态控制指明以及用于确定背景人状态的多人状态控制指明和个别人状态控制指明可以由操作者分别定义。在这种情况下,人群状态控制指明存储装置23在其中存储用于确定前景人状态的多人状态控制指明和用于确定背景人状态的多人状态控制指明。人状态控制指明存储装置24在其中存储用于确定前景人状态的个别人状态控制指明和用于确定背景人状态的个别人状态控制指明。多人状态控制指明和个别人状态控制指明对于确定前景人状态和对于确定背景人状态可以不被分开。
人图像存储装置25存储添加有诸如人的方向、人的拍摄角度、对人的照明、人的姿势、人图像的衣服、身体形状和发型之类的关于人状态的信息的多个人图像(一组人图像)。就是说,数据处理设备1可以从人图像存储装置25读取与确定状态相匹配的人图像。
人区域图像存储装置26存储与在人图像存储装置25中存储的该一组人图像对应的一组人区域图像。人区域图像是指示在人图像存储装置25中存储的人图像中的人的区域的图像。图4是以示例方式图示了在人图像存储装置25中存储的人图像和对应于人图像的人区域图像的示图。图4以示例方式图示了人图像和人区域图像的四个配对。人区域图像可以是这样一个图像,其中在人图像中拍摄的人的区域以单个颜色(在图4中示出的示例中为白色)被表达并且除人之外的区域以另一单个颜色(在图4中示出的示例中为黑色)被表达。人区域图像不限于该示例。人区域图像可以是能够指示人图像中的人的区域的图像。
人区域图像用于从对应的人图像仅裁剪人(或者仅裁剪人的区域)。
可以配置为不使得一组各种人图像被先前准备并存储在人图像存储装置25中而是使得数据处理设备1包括用于通过CG等生成与确定的人状态匹配的人图像的人图像生成装置(未示出)。
数据处理设备1包括背景提取装置11、人状态确定装置15、人群状态图像合成装置14和控制装置16。
背景提取装置11从在背景图像存储装置21中存储的该组背景图像选择背景图像。背景提取装置11计算在学习局部图像信息存储装置22中存储的人群补丁尺寸的纵横比。背景提取装置11从选择的背景图像临时提取适当位置和适当尺寸的背景以满足纵横比。另外,背景提取装置11放大或者缩小临时提取的背景以与在学习局部图像信息存储装置22中存储的人群补丁尺寸匹配。以这种方式,放大或者缩小从图像提取的区域以与人群补丁尺寸匹配可以被表示为归一化。
当背景提取装置11临时提取适当位置和适当尺寸的背景时,随机位置和随机尺寸的区域可以被提取以满足纵横比。假定图像中的每个位置处的人的基准部位的尺寸是已知的,背景提取装置11可以根据在图像中的每个位置处已知的基准部位的尺寸找到以放大率或者缩小率放大或者缩小的人群补丁的尺寸,在学习局部图像信息存储装置22中存储的人的基准部位的尺寸以该放大率或缩小率被放大或缩小。背景提取装置11可以随后提取具有针对图像中的位置找到的尺寸的区域。背景提取装置11用来从选择的背景图像临时提取区域的方法可以是其他方法。
人状态确定装置15在基于在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明临时确定人状态的同时基于人群补丁尺寸的人的基准部位的尺寸的条件和基准部位如何被表达来确定最终人状态。
在这里,当满足多人状态控制指明和个别人状态控制指明的人状态被确定时,指明“随机”在指明中是可能的,并且因而适当的人状态可能无法获取。在这种情况下,满足多人状态控制指明和个别人状态控制指明的人状态被再次确定。当适当人状态被获取时,人状态被最终确定。以这种方式,人状态可以被再次确定,并且因而表达“临时确定”可以被使用。
根据本示例性实施例,人状态确定装置15确定前景人状态并且确定背景人状态。此时,当确定临时确定的前景人状态是否适当时,人状态确定装置15基于可与人群补丁尺寸的人的基准部位的尺寸比较的基准部位的尺寸是否被获取或者基准部位如何被表达来做出确定。当确定临时确定的背景人状态是否适当时,人状态确定装置15基于与人群补丁尺寸的人的基准部位的尺寸很大不同的基准部位的尺寸是否被获取或者基准部位如何被表达来做出确定。
人状态确定装置15在下面将被更详细地描述。人状态确定装置15包括背景人状态确定装置12和前景人状态确定装置13。
背景人状态确定装置12定义人的布置、人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型、当与人群补丁合成时的人尺寸等,并且根据在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明来临时确定与背景对应的人的状态。背景人状态确定装置12确定临时确定的人状态是否满足背景人状态的条件,并且如果背景人状态的条件未得到满足,则再次做出人状态的临时确定。如果临时确定的人状态满足条件,则背景人状态确定装置12最终将临时确定的人状态确定为与背景对应的人的状态。
背景人状态的条件例如对应于人被布置为使得人的基准部位不在人群补丁内的事实,或者人的基准部位的尺寸在被合成时显著大于在学习局部图像信息存储装置22中存储的基准部位的尺寸或者显著小于其的事实。在该条件下,最终基于相对于人群补丁尺寸的人的基准部位的尺寸或者基准部位如何被表达来确定与背景对应的人的状态。在这里列出的条件是示例性的,并且其他条件可以被用于背景人状态的条件。
人的基准部位在人群补丁内的事实指示这样一种状态,其中多于预定比率的表达其中的人的基准部位的区域是在人群补丁中拍摄的。相反地,人的基准部位不在人群补丁内的事实指示这样一种状态,其中少于预定比率的表达其中的人的基准部位的区域是在人群补丁中拍摄的。例如,假定预定比率先前被定义为80%。在这种情况下,例如,如果表达基准部位的区域的85%是在人群补丁内拍摄的,则可以说人的基准部位在人群补丁内。例如,如果只有表达基准部位的区域的20%是在人群补丁中拍摄的,则可以说人的基准部位不在人群补丁内。80%是示例性比率,并且除80%之外的值可以被定义为预定比率。
根据本示例性实施例,指示比在学习局部图像信息存储装置22中存储的基准部位的尺寸更大的尺寸的第一阈值和指示比在学习局部图像信息存储装置22中存储的基准部位的尺寸更小的尺寸的第二阈值是预先定义的。人的基准部位的尺寸在被合成时与在学习局部图像信息存储装置22中存储的基准部位的尺寸一样大的事实表明人的基准部位的尺寸在被合成时等于或者大于第二阈值,并且等于或者小于第一阈值。人的基准部位的尺寸在被合成时比在学习局部图像信息存储装置22中存储的基准部位的尺寸大得多的事实表明人的基准部位的尺寸在被合成时大于第一阈值。人的基准部位的尺寸在被合成时比在学习局部图像信息存储装置22中存储的基准部位的尺寸小得多的事实表明人的基准部位的尺寸在被合成时小于第二阈值。
图5(a)至图5(d)是图示了其中背景人状态的条件被满足的示例的示意图。在这一示例中,假定人的基准部位(在本示例中为头部)的高度尺寸在学习局部图像信息存储装置22中被存储为人群补丁的h个像素的高度尺寸的1/α(或者h/α个像素)。在图5(a)和图5(b)中示出的人状态处于布置状态下,其中在人群补丁中未找到人的基准部位,并且因而背景人状态的条件被满足。在图5(c)中示出的人状态是基准部位的尺寸比基准部位的定义尺寸小得多,并且因而背景人状态的条件被满足。在图5(d)中示出的人状态是基准部位的尺寸比基准部位的定义尺寸大得多,并且因而背景人状态的条件得到满足。
前景人状态确定装置13定义人的布置、人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型、当与人群补丁合成时的人尺寸等,并且根据在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明来临时确定与前景对应的人的状态。前景人状态确定装置13然后确定临时确定的人状态是否满足前景人状态的条件,并且如果前景人状态的条件未被满足,则再次做出人状态的临时确定。另外,如果临时确定的人状态满足条件,则前景人状态确定装置13最终将临时确定的人状态确定为与前景对应的人的状态。
前景人状态的条件例如是人的基准部位被布置为在人群补丁内并且人的基准部位的尺寸在被合成时与在学习局部图像信息存储装置22中存储的基准部位的尺寸一样大。在该条件下,最终基于相对于人群补丁尺寸的人的基准部位的尺寸或者基准部位如何被表达来确定与前景对应的人的状态。在这里列出的条件是示例性的,并且其他条件可以被用于前景人状态的条件。
图6(a)至图6(d)是图示了其中前景人状态的条件被满足的示例的示意图。如参考图5(a)至图5(d)描述,人的基准部位(在本示例中为头部)的高度尺寸被假定为学习局部图像信息存储装置22中的人群补丁的h个像素的高度尺寸的1/α(或者h/α个像素)。在图6(a)至图6(d)中示出的任何人状态是使得人的基准部位在人群补丁内并且基准部位的尺寸与在学习局部图像信息存储装置22中存储的基准部位的尺寸一样大。因此,在图6(a)至图6(d)中示出的任何人状态都满足前景人状态的条件。
如上所述,用于确定前景人状态的多人状态控制指明和个别人状态控制指明以及用于确定背景人状态的多人状态控制指明和个别人状态控制指明可以由操作者分别定义。在这种情况下,背景人状态确定装置12可以根据用于确定背景人状态的多人状态控制指明和个别人状态控制指明来临时确定人状态。前景人状态确定装置13然后可以根据用于确定前景人状态的多人状态控制指明和个别人状态控制指明来临时确定人状态。如上所述,当针对确定前景人状态和针对确定背景人状态而分别定义多人状态控制指明和个别人状态控制指明时,前景人的数目和背景人的数目可以被改变。
人群状态图像合成装置14从人图像存储装置25读取满足背景人状态确定装置12最终确定的人状态(诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型)的人图像,并且进一步从人区域图像存储装置26读取对应于该人图像的人区域图像。人群状态图像合成装置14然后通过使用人区域图像从人图像中裁剪只有人的图像(或者仅裁剪人区域)。类似地,人群状态图像合成装置14从人图像存储装置25读取满足前景人状态确定装置13最终确定的人状态的人图像,并且进一步从人区域图像存储装置26读取对应于该人图像的人区域图像。人群状态图像合成装置14然后通过使用人区域图像从人图像中裁剪只有人的图像。
人群状态图像合成装置14使如上所述裁剪的只有人的图像与背景图像合成。此时,人群状态图像合成装置14根据由背景人状态确定装置12确定的“人的布置”和“当与人群补丁合成时的人尺寸”使基于由背景人状态确定装置12最终确定的人状态而裁剪的只有人的图像与背景图像合成。另外,人群状态图像合成装置14根据由前景人状态确定装置13确定的“人的布置”和“当与人群补丁合成时的人尺寸”使基于由前景人状态确定装置13最终确定的人状态而裁剪的只有人的图像与背景图像合成。在这里,背景图像是由背景提取装置11归一化的图像。合成结果是人群补丁。
当使只有人的图像与背景图像合成时,人群状态图像合成装置14使来自与距离相机的最远布置位置对应的人的图像的图像顺序地重叠并合成。例如,当图像的上部距离相机更远时,人群状态图像合成装置14使屏幕的上部处的人的图像顺序地重叠并合成。当关于相机校准的信息被提供时,人群状态图像合成装置14考虑到人的图像的3D位置而使来自距离相机的最远图像的人的图像重叠并合成。
在假定人群状态图像合成装置14通过使用人区域图像从人图像裁剪只有人的图像并且使只有人的图像与背景图像合成的情况下描述了以上示例。人群状态图像合成装置14可以基于对应于人图像的人区域图像将从人图像存储装置25读取的人图像划分为人的区域和除人之外的区域,可以对人的区域和除人之外的区域加权,并且可以基于权重来混合并合成人图像。在这种情况下,人的区域的权重比除人之外的区域更重。权重在这些区域中可以被改变。
如上所述,数据处理设备1可以包括用于通过CG等来生成与指定人状态匹配的人图像的人图像生成装置(未示出)。在这种情况下,人图像生成装置(未示出)生成与由背景人状态确定装置12确定的人状态或由前景人状态确定装置13确定的人状态匹配的人图像,并且人群状态图像合成装置14可以合成人图像以由此生成人群补丁。
人群状态图像合成装置14在生成人群补丁时从人群状态控制指明存储装置23和人状态控制指明存储装置24读取训练标签。就是说,人群状态图像合成装置14从人群状态控制指明存储装置23读取具有指明的训练标签的项目的多人状态控制指明的内容,并且从人状态控制指明存储装置24读取具有指明的训练标签的项目的个别人状态控制指明的内容。人群状态图像合成装置14然后输出人群补丁和训练标签的配对。人群补丁和训练标签被用作用于识别图像中的人群状态的机器学习的训练数据。
控制装置16使得背景提取装置11、人状态确定装置15(具体而言,背景人状态确定装置12和前景人状态确定装置13)和人群状态图像合成装置14重复地执行一系列处理。结果,数据处理设备1输出人群补丁和训练标签的大量配对。
当改变人状态指明或训练标签时,操作者重置多人状态控制指明、个别人状态控制指明和指明的训练标签的存在以使得数据处理设备1根据设定输出人群补丁和训练标签的大量配对。因而,操作者可以获取大量期望训练数据。
图7是图示了根据本发明的人群状态识别设备的示例性结构的框图。根据本发明的人群状态识别设备30识别给定图像中的人群状态。人群状态识别设备30包括图像获取设备3、在程序控制下工作的数据处理设备4以及用于将信息存储在其中的存储设备5。
图像获取设备3是用于获取针对人群状态将被识别的图像的相机。
存储设备5包括搜索窗口存储装置51和人群状态识别字典存储装置52。
搜索窗口存储装置51存储指示图像上针对人群状态将被识别的部分的一组矩形区域。矩形区域可被称为搜索窗口。该一组矩形区域可以通过基于指示图像获取设备3的位置、姿势、焦距和透镜畸变的相机参数和与人群补丁尺寸对应的基准部位的尺寸(在学习局部图像信息存储装置22中存储的基准部位的尺寸)根据图像上的位置定义人群补丁的改变尺寸而被设置。例如,在图像中拍摄的人的基准部位的尺寸可以从相机参数得出。在根据基准部位的尺寸来放大或者缩小在学习局部图像信息存储装置22中存储的人的基准部位的尺寸时以放大率或者缩小率来放大或者缩小人群补丁的尺寸,由此设置矩形区域的尺寸。该一组矩形区域可以被设置为覆盖图像上的位置。该一组矩形区域可以不限于该方法而被自由地设置。另外,该一组矩形区域可以被设置为重叠。
人群状态识别字典存储装置52存储通过在图1中示出的训练数据生成设备10所生成的训练数据(人群补丁和训练标签的大量配对)而学习的鉴别器的字典。鉴别器是一种用于识别人群状态的算法,并且鉴别器的字典用于根据该算法来执行人群状态识别处理。在人群状态识别字典存储装置52中存储的鉴别器的字典例如是通过使用由训练数据生成设备10生成的人群补丁和训练标签的大量配对进行机器学习而得到的。机器学习可以是众所周知的机器学习。
数据处理设备4包括人群状态识别装置41。
人群状态识别装置41从由图像获取设备3获取的图像提取与在搜索窗口存储装置51中存储的该组一矩形区域对应的局部区域图像,并且使提取的局部区域图像归一化以与人群补丁尺寸匹配。人群状态识别装置41然后根据识别算法(或者鉴别器)通过使用在人群状态识别字典存储装置52中存储的鉴别器的字典来识别(确定)归一化的局部区域图像中的人群状态。
在图1中示出的训练数据生成设备10可以生成操作者期望的大量训练数据(人群补丁和训练标签的配对)。人群状态识别装置41通过使用作为使用这种训练数据进行机器学习的结果而获取的鉴别器的字典来识别局部区域图像中的人群状态。因而,人群状态识别设备30可以识别各种人群状态。
图8是通过示例方式图示了如何识别作为图像中的人群状态的拥挤程度(人的数目)的示意图。例如,假定训练数据生成设备10的操作者主要以逐步方式控制“人的数目”并且获取许多人群补丁和训练标签(见图8中的上部)。然后假定通过根据训练数据的机器学习而获取的鉴别器的字典被存储在人群状态识别字典存储装置52中。在图8中示出的图像61中,将从中提取局部区域图像的矩形区域以虚线指示。根据矩形区域提取的局部区域图像的人群状态的识别结果与需线区域对应地被表达。这适用于下面描述的图9至图11。另外,实际的矩形区域基本上被设置为覆盖整个图像,但是为了简单图示识别结果而通过示例方式图示了仅一些矩形区域。在这一示例中,人群状态识别装置41如在图8中示出可以识别图像61中的各种区域中的人的数目(拥挤程度)。
图9是通过示例方式图示了如何识别作为图像中的人群状态的人群的方向的示意图。例如,假定训练数据生成设备10的操作者主要控制“人的方向”并且获取了许多人群补丁和训练标签(见图9中的上部)。然后假定通过根据训练数据的机器学习而获取的鉴别器的字典被存储在人群状态识别字典存储装置52中。在这一示例中,人群状态识别装置41如在图9中所示可以识别图像62中的各种区域中的人群的方向。
图10是通过示例方式图示了如何识别作为图像中的人群状态的非异常人群(非显著拥挤人群)或异常人群(显著拥挤人群)的示意图。例如,假定训练数据生成设备10的操作者主要控制“人的数目”并且获取了许多人群补丁和训练标签。在这里,假定大量训练数据按照包括人的数目何时小于n和人的数目何时是n或者更大在内的两类而被获取(见图10的上部)。然后假定通过根据训练数据的机器学习而得到的鉴别器的字典被存储在人群状态识别字典存储装置52中。在这一示例中,人群状态识别装置41如在图10中示出可以识别图像63中的各种区域中的人群状态是非异常人群还是异常人群。
图11是通过示例方式图示了如何识别作为图像中的人群状态的无序状态(人的方向不统一)或有序状态(人的方向统一)的示意图。例如,假定训练数据生成设备10的操作者按照包括“人的方向”何时统一和何时不统一在内的两类获取大量训练数据(见图11的上部)。然后假定通过根据训练数据的机器学习而获取的鉴别器的字典被存储在人群状态识别字典存储装置52中。在这一示例中,人群状态识别装置41如在图11中示出可以识别图像64中的各种区域中的人群状态是无序状态还是有序状态。
因为大量的操作者期望的训练数据可以被生成,因此人群状态识别装置41可以识别各种状态,诸如除在图8至图11中示出的情况之外的其中人群散开并奔跑的离散状态、其中人群在一位置处聚集的聚集状态、其中人群避免某事的回避状态、指示特殊人群群集的逗留(hanging)状态以及直线(line)状态。
根据本发明的训练数据生成设备10的处理过程在下面将被描述。图12是图示了训练数据生成设备10的示例性处理进展的流程图。
背景提取装置11从存储在背景图像存储装置21中的该一组背景图像选择背景图像,并且提取被用作人群补丁的背景的图像(步骤S1)。
图13是图示了步骤S1的示例性处理进展的流程图。在步骤S1中,背景提取装置11首先从存储在背景图像存储装置21中的该一组背景图像选择一个背景图像(步骤S101)。选择方法不受特别限制。例如,背景提取装置11可以从该组背景图像选择任何一个背景图像。
背景提取装置11然后计算在学习局部图像信息存储装置22中存储的人群补丁的纵横比,并且从选择的背景图像临时提取适当位置和适当尺寸的背景以满足纵横比(步骤S102)。
背景提取装置11放大或者缩小(或者归一化)临时提取的背景图像以与人群补丁尺寸匹配,由此获取作为人群补丁的背景的图像(步骤S103)。这是步骤S1的结束。
在步骤S1之后,背景人状态确定装置12确定与背景对应的人的状态(步骤S2)。
图14是图示了步骤S2的示例性处理进展的流程图。背景人状态确定装置12定义人的布置、人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型、当与人群补丁合成时的人尺寸等,并且根据在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明来临时确定与背景对应的人的状态(步骤S201)。
背景人状态确定装置12然后确定在步骤S201中临时确定的人状态是否满足背景人状态的条件(步骤S202)。该条件在上面已经被描述,因而其描述在这里将被省略。
多人状态控制指明或个别人状态控制指明可能包括“随机”的指明等,并且因而在步骤S201中临时确定的状态可能不满足背景人状态的条件。在这种情况下(步骤S202中的“否”),背景人状态确定装置12重复地执行步骤S201中及其之后的处理。
当在步骤S201中临时确定的状态满足背景人状态的条件时(步骤S202中的“是”),背景人状态确定装置12将在步骤S201中临时确定的最新人状态定义为与背景对应的人的状态(步骤S203)。这是步骤S2的结束。
在步骤S2之后,前景人状态确定装置13确定与前景对应的人的状态(步骤S3)。
图15是图示了步骤S3的示例性处理进展的流程图。前景人状态确定装置13定义人的布置、人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型、当与人群补丁合成时的人尺寸等,并且根据在人群状态控制指明存储装置23中存储的多人状态控制指明和在人状态控制指明存储装置24中存储的个别人状态控制指明来临时确定与前景对应的人的状态(步骤S301)。
前景人状态确定装置13然后确定在步骤S301中临时确定的人状态是否满足前景人状态的条件(步骤S302)。该条件在上面已经被描述,因而其描述在这里将被省略。
多人状态控制指明或个别人状态控制指明可能包括“随机”的指明等,并且因而在步骤S301中临时确定的状态可能不满足前景人状态的条件。在这种情况下(步骤S302中的“否”),前景人状态确定装置13重复地执行步骤S301中及其之后的处理。
当在步骤S301中临时确定的状态满足前景人状态的条件时(步骤S302中的“是”),前景人状态确定装置13将在步骤S301中临时确定的最新人状态定义为与前景对应的人的状态(步骤S303)。这是步骤S3的结束。
在步骤S3之后,人群状态图像合成装置14基于在步骤S2和S3中确定的人状态来生成人群补丁,读取对应于人群补丁的训练标签,并且输出人群补丁和训练标签的配对(步骤S4)。
图16是图示了步骤S4的示例性处理进展的流程图。人群状态图像合成装置14从人图像存储装置25中的该一组人图像选择并读取满足在步骤S2和S3中确定的人状态(诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型)的人图像(步骤S401)。
人群状态图像合成装置14然后从人区域图像存储装置26读取与在步骤S401选择的每个人图像对应的每个人区域图像。人群状态图像合成装置14通过使用对应于人图像的人区域图像针对每个人图像裁剪只有人的图像(步骤S402)。
人群状态图像合成装置14根据在步骤S2和S3中确定的“人的布置”和“当与人群补丁合成时的人尺寸”来确定在步骤S402中生成的用于每个只有人的图像的布置状态(步骤S403)。人群状态图像合成装置14然后根据布置状态使每个只有人的图像与在步骤S1中获取的背景图像合成以由此生成人群补丁(步骤S404)。
人群状态图像合成装置14然后获取对应于人群补丁的训练标签(步骤S405)。就是说,人群状态图像合成装置14从人群状态控制指明存储装置23读取具有指明的训练标签的项目的多人状态控制指明的内容,并且从人状态控制指明存储装置24读取具有指明的训练标签的项目的个别人状态控制指明的内容。读取的内容对应于训练标签。
人群状态图像合成装置14输出在步骤S404中生成的人群补丁和在步骤S405中得到的训练标签的配对(步骤S406)。这是步骤S4的结束。
在步骤S4之后,控制装置16确定步骤S1至S4中的处理的重复次数是否达到预定次数(步骤S5)。当步骤S1至S4中的处理的重复次数未达到预定次数时(步骤S5中的“否”),控制装置16使背景提取装置11、人状态确定装置15(具体而言是背景人状态确定装置12和前景人状态确定装置13)和人群状态图像合成装置14重复地执行步骤S1至S4中的处理。
当步骤S1至S4中的处理的重复次数达到预定次数时(步骤S5中的“是”),处理被终止。
步骤S1至S4中的处理被执行一次以使得人群补丁和训练标签的配对被得到。因此,数据处理设备1重复地执行步骤S1至S4中的处理预定次以使得大量训练数据被得到。例如,当预定次数被定义为100000时,与多人状态控制指明和个别人状态控制指明匹配的人群补丁和训练标签的100000个配对被得到。
步骤S1、S2和S3的次序在图12中示出的流程图中可以被替换。
根据本发明的人群状态识别设备30的处理进展在下面将被描述。图17是图示了人群状态识别设备30的示例性处理进展的流程图。
图像获取设备3获取针对人群状态将被识别的图像,并且将该图像输入到人群状态识别装置41中(步骤S21)。
人群状态识别装置41然后确定在搜索窗口存储装置51中存储的整组矩形区域是否已被选择(步骤S22)。
当在搜索窗口存储装置51中存储的该组矩形区域中存在未选择的矩形区域时(步骤S22中的“否”),人群状态识别装置41从该一组矩形区域选择一个未选择的矩形区域(步骤S23)。
人群状态识别装置41然后从在步骤S21中输入的图像提取与选择的矩形区域对应的局部区域图像(步骤S24)。人群状态识别装置41然后使该局部区域图像归一化以与人群补丁尺寸匹配(步骤S25)。
人群状态识别装置41然后通过使用在人群状态识别字典存储装置52中存储的鉴别器的字典来识别归一化的局部区域图像内的人群状态(步骤S26)。
在步骤S26之后,人群状态识别装置41重复地执行步骤S22中及其后的处理。当确定整组矩形区域已被选择时(步骤S22中的“是”),人群状态识别装置41然后终止该处理。
利用根据本发明的训练数据生成设备,人状态确定装置15根据由操作者定义的多人状态控制指明(针对多人的状态指明,诸如“人的布置”、“人的方向”和“人的数目”)和个别人状态控制指明(针对个别人的状态指明,诸如“人的拍摄角度”、“对人的照明”、“人的姿势”、“人的衣服”、“人的身体形状”、“人的发型”和“当与人群补丁合成时的人尺寸”)来确定构成人群的人的状态。人群状态图像合成装置14然后合成确定状态下的人图像以由此生成人群补丁,并且读取对应于该人群补丁的训练标签。然后,确定人状态、生成人群补丁和指定训练标签的处理被重复地执行预定次以使得操作者期望的人群状态的大量各种训练数据(多对人群补丁和训练标签)可以被自动生成。
另外,如果大量这种训练数据被获取,则鉴别器的字典可以根据训练数据而被机器学习。然后人群状态识别设备30可以通过使用该字典在静止图像中容易地识别复杂的人群状态。
人群状态识别设备30中的人群状态识别装置41通过使用基于表达人群的人群补丁和对应于人群补丁的训练标签而学习的字典来识别给定图像中的人群状态。因此,人群状态识别装置41不是以诸如人的头部之类的单个对象为单位而是以作为其基准部位被拍摄的人的集合的人群为更大单位来识别人群状态。由此,其中头部或者个别人无法被识别的小型区域中的人群状态可以被识别。
对于根据本发明的人群状态识别设备30,人群状态识别装置41通过使用字典(鉴别器的字典)来识别人群状态。因此,识别人群状态的精度不依赖于帧速率。由此,根据本发明的人群状态识别设备无论帧速率如何都可以优选地识别图像中的人群状态。例如,根据本发明的人群状态识别设备30即使在静止图像中也可以优选地识别人群状态。
根据以上示例性实施例的训练数据生成设备10根据多人状态控制指明来确定诸如人之间的重叠之类的“人的布置”的人状态,并且生成指示人状态的人群补丁。当通过使用这种人群补丁来执行机器学习时,也可以学习包括人之间的遮挡(occlusion)在内的状态。因此,即使当发生难以通过头部识别或者人识别来识别的人之间的重叠(遮挡)时,人群状态识别设备30也可以通过使用作为学习的结果而获取的字典来优选地识别人群状态。
根据以上示例性实施例的训练数据生成设备10确定人状态、生成拍摄该状态下的人的人群补丁并且根据指明多人的人状态的信息(多人状态控制指明)和指明每个人的人状态的信息(个别人状态控制指明)来指定对应于该人群补丁的训练标签。因此,操作者定义多人状态控制指明或者个别人状态控制指明以由此容易地获取用于识别不同性质人群状态的训练数据。然后,训练数据被机器学习,由此容易地制成用于识别不同性质人群状态的人群状态识别设备30。
根据以上示例性实施例,如果指示图像获取设备(相机)3在人群拍摄环境中的位置、姿势、焦距和透镜畸变的相机参数可以被得到,则限于该环境的多人状态控制指明或个别人状态控制指明可以通过使用相机参数而被定义。训练数据生成设备10根据多人状态控制指明或个别人状态控制指明来确定人状态并且生成训练数据,由此学习适合于人群拍摄环境的鉴别器的字典。结果,人群状态识别设备30可以按照高精度在静止图像等中识别复杂的人群状态。
根据上面的示例性实施例,如果指示图像获取设备3在识别环境中的位置、姿势、焦距和透镜畸变的相机参数可以被获取,则人的人状态和每个人的人状态可以按照图像上的局部区域而被控制。然后,可以通过基于受控的人状态合成人图像来自动地生成大量操作者期望的人群补丁和对应于人群补丁的训练标签。然后,可以基于人群补丁和训练标签按照图像上的局部区域来学习鉴别器的字典,并且可以通过按照图像上的区域使用鉴别器的字典来增加识别复杂的人群状态的精度。
根据本发明的训练数据生成设备和人群状态识别设备的具体结构在下面将通过示例方式来描述。图18是通过示例方式图示了根据本发明的训练数据生成设备的具体结构的框图。与在图1中示出的组件相同的组件用与图1中相同的标号来表示,并且其详细描述将被省略。在图18中示出的示例性结构中,包括背景图像存储装置21、学习局部图像信息存储装置22、人群状态控制指明存储装置23、人状态控制指明存储装置24、人图像存储装置25和人区域图像存储装置26的存储设备2被连接到计算机100。用于将训练数据生成程序101存储在其中的计算机可读存储介质102也被连接到计算机100。
计算机可读存储介质102例如由磁盘、半导体存储器等实现。例如,当被激活时,计算机100从计算机可读存储介质102读取训练数据生成程序101。计算机100然后根据训练数据生成程序101作为在图1中示出的数据处理设备1中的背景提取装置11、人状态确定装置15(更具体地说,背景人状态确定装置12和前景人状态确定装置13)、人群状态图像合成装置14和控制装置16操作。
图19是通过示例方式图示了根据本发明的人群状态识别设备的具体结构的框图。与在图7中示出的组件相同的组件用与图7中相同的标号来表示,并且其详细描述将被省略。在图19中示出的示例性结构中,包括搜索窗口存储装置51和人群状态识别字典存储装置52的存储设备5被连接到计算机150。用于将人群状态识别程序103存储在其中的计算机可读存储介质104也被连接到计算机150。
计算机可读存储介质104例如由磁盘、半导体存储器等实现。例如,当被激活时,计算机150从计算机可读存储介质104读取人群状态识别程序103。计算机100然后根据人群状态识别程序103作为在图7中示出的数据处理设备4中的人群状态识别装置41操作。
在上面的示例性实施例中已经描述了其中人群状态识别字典存储装置52(见图7)存储通过利用由训练数据生成设备10(见图1)生成的训练数据进行学习而获取的字典的情况。换言之,在上面的示例性实施例中已经描述了其中通过利用人群补丁和人群补丁的训练标签的多个配对进行机器学习而获取的字典被存储在人群状态识别字典存储装置52中的情况,人群补丁通过合成与控制为期望状态的人状态匹配的人图像而被获取。
人群状态识别字典存储装置52可以将通过利用除由训练数据生成设备10生成的训练数据之外的数据进行机器学习而获取的字典存储为训练数据。即使对于除由训练数据生成设备10生成的训练数据之外的训练数据,人群补丁和人群补丁的训练标签的多个配对被准备并且可被用作训练数据,该人群补丁包括一人,其基准部位被表达为与针对人群补丁的尺寸定义的人的基准部位的尺寸一样大。就是说,通过利用多对人群补丁和训练标签进行机器学习而获取的鉴别器的字典可以被存储在人群状态识别字典存储装置52中。同样在这种情况下,可以得到一种效果,即无论帧速率如何都可以优选地识别图像中的人群状态。
根据本发明的主要部分在下面将被描述。图20是图示了根据本发明的训练数据生成设备中的主要部分的框图。根据本发明的训练数据生成设备包括背景提取单元71、人状态确定单元72和人群状态图像合成单元73。
背景提取单元71(例如,背景提取装置11)从多个预先准备的背景图像选择背景图像,提取该背景图像中的区域并且将与提取出的区域对应的图像放大或者缩小为预定尺寸的图像。
人状态确定单元72(例如,人状态确定装置15)根据作为关于人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态。
人群状态图像合成单元73生成作为其中与人状态确定单元72所确定的人状态对应的人图像被与背景提取单元71所得到的预定尺寸的图像合成的图像的人群状态图像(诸如人群补丁),指定人群状态图像的训练标签,并且输出一对人群状态图像和训练标签。
例如,背景提取单元71、人状态确定单元72和人群状态图像合成单元73顺序地重复这些操作。背景提取单元71、人状态确定单元72和人群状态图像合成单元73的操作可以不被顺序地执行。例如,背景提取单元71和人状态确定单元72可以并行地执行操作。
利用该结构,用于机器学习用于识别人群状态的鉴别器的字典的大量训练数据可以被容易地生成。
图21是图示了根据本发明的人群状态识别设备中的主要部分的框图。根据本发明的人群状态识别设备包括矩形区域组存储单元81、人群状态识别字典存储单元82和人群状态识别单元83。
矩形区域组存储单元81(例如,搜索窗口存储装置51)存储指示图像上将针对人群状态而被识别的部分的一组矩形区域。
人群状态识别字典存储单元82(例如,人群状态识别字典存储装置52)存储通过利用多对人群状态图像(诸如人群补丁)和人群状态图像的训练标签进行机器学习而得到的鉴别器的字典,人群状态图像是其中包括一人的图像,该人的基准部位被表示为与针对表示人群状态的图像的预定尺寸定义的人的基准部位的尺寸一样大。
人群状态识别单元83(例如人群状态识别装置41)从给定图像提取由在矩形区域组存储单元81中存储的该组矩形区域所指示的区域,并且基于字典来识别在提取出的图像中拍摄的人群的状态。
利用该结构,无论帧速率如何都可以优选地识别图像中的人群状态。
上面的示例性实施例中的部分或者全部可以如在以下补充说明中描述,但是不限于以下。
(补充说明1)
一种训练数据生成设备,包括:
背景提取装置,用于从多个预先准备的背景图像选择背景图像,提取该背景图像中的区域,并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像;
人状态确定装置,用于根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态;以及
人群状态图像合成装置,用于生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对,人群状态图像是其中与人状态确定装置所确定的人状态对应的人图像被与由背景提取装置获取的预定尺寸的图像合成的图像。
(补充说明2)
根据补充说明1所述的训练数据生成设备,
其中人状态确定装置根据多人状态控制指明和个别人状态控制指明来临时确定人群的人状态,在临时确定的人状态满足用于针对预定尺寸定义的人的基准部位的尺寸和基准部位如何被表达的条件时、将临时确定的人状态确定为人群的人状态,以及当临时确定的人状态不满足这些条件时、重复地进行对人群的人状态的临时确定。
(补充说明3)
根据补充说明1或2所述的训练数据生成设备,包括:
人群状态控制指明存储装置,用于存储按照项目定义的多人状态控制指明以及存储针对该项目定义的指明的训练标签的存在;以及
人状态控制指示存储装置,用于存储按照项目定义的个别人状态控制指明以及存储针对该项目定义的指明的训练标签的存在,
其中人状态确定装置根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明,来确定人群的人状态,并且
人群状态图像合成装置通过从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明、和从人状态控制指明存储装置读取被定义为具有指明的训练标签的项目的个别人状态控制指明,来指定训练标签。
(补充说明4)
根据补充说明3所述的训练数据生成设备,
其中,人群状态控制指明存储装置将至少一个项目存储为具有指明的训练标签,并且
人群状态图像合成装置从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明。
(补充说明5)
根据补充说明3或4所述的训练数据生成设备,
其中人群状态控制指明存储装置按照诸如人的布置、人的方向和人的数目之类的项目来存储多人状态控制指明和指明的训练标签的存在,并且以指示特定状态的第一形式、指明可以定义任意状态的第二形式和指明可以在预定规则内定义状态的第三形式中的任一形式来存储对应于每个项目的多人状态控制指明,
人状态控制指示存储装置按照诸如人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸之类的项目,来存储个别人状态指明和指明的训练标签的存在,并且以第一形式、第二形式和第三形式中的任一形式,来存储对应于每个项目的个别人状态控制指明,并且
人状态确定装置根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明,来确定人群的人状态。
(补充说明6)
根据补充说明1至5中任一项所述的训练数据生成设备,
其中人群状态图像合成装置从一组预先准备的人图像选择与诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型之类的确定的人状态匹配的人图像,从选择的人图像裁剪人的区域,由此生成只有人的图像,并且根据被确定为人状态的人的布置和当与人群状态图像合成时的人尺寸,来使只有人的图像与背景提取装置获取的预定尺寸的图像合成。
(补充说明7)
根据补充说明6所述的训练数据生成设备,
其中,人群状态图像合成装置从与距离相机的最远布置位置对应的只有人的图像顺序地与背景提取装置获取的预定尺寸的图像合成。
(补充说明8)
根据补充说明1至7中任一项所述的训练数据生成设备,
其中,人状态确定装置包括:
背景人状态确定装置,用于根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态,在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸、和基准部位如何被表达的第一条件时,将临时确定的人状态确定为作为背景的人群的人状态,并且在临时确定的人状态不满足第一条件时、重复地进行对作为背景的人群的人状态的临时确定;以及
前景人状态确定装置,用于根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态,在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸、和基准部位如何被表达的第二条件时将临时确定的人状态确定为作为前景的人群的人状态,并且在临时确定的人状态不满足第二条件时、重复地进行对作为前景的人群的人状态的临时确定。
(补充说明9)
根据补充说明8所述的训练数据生成设备,
其中第一条件是人的基准部位不在人群状态图像内、或者基准部位的尺寸比针对预定尺寸定义的人的基准部位的尺寸大得多或者小得多,并且
第二条件是人的基准部位在人群状态图像内、并且基准部位的尺寸与针对预定尺寸定义的人的基准部位的尺寸一样大。
(补充说明10)
一种人群状态识别设备,包括:
矩形区域组存储装置,用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域;
人群状态识别字典存储装置,用于存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典,人群状态图像是以预定尺寸表达人群状态、并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像;以及
人群状态识别装置,用于从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域,并且基于字典来识别在提取的图像中拍摄的人群的状态。
(补充说明11)
根据补充说明10所述的人群状态识别设备,
其中人群状态识别字典存储装置存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典,人群状态图像通过合成与控制为期望状态的人状态匹配的人图像而被获取,并且
人群状态识别装置基于字典来识别在图像中拍摄的人群的状态。
(补充说明12)
根据补充说明10或11所述的人群状态识别设备,
其中矩形区域组存储装置存储基于指示用于获取图像的图像获取设备的位置、姿势、焦距和透镜畸变的相机参数的一组尺寸定义的矩形区域,以及针对预定尺寸定义的人的基准部位的尺寸,并且
人群状态识别装置从给定图像提取在该组一矩形区域中指示的区域。
(补充说明13)
根据补充说明10至12中任一项所述的人群状态识别设备,
其中人群状态识别字典存储装置存储通过改变在人群状态图像中表打的人的数目并且通过利用针对人的该数目准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典,并且
人群状态识别装置基于字典来识别在图像中拍摄的人群中的人的数目。
(补充说明14)
根据补充说明10至13中任一项所述的人群状态识别设备,
其中人群状态识别字典存储装置存储通过改变在人群状态图像中表示的人的方向、并且通过利用针对人的这些方向准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典,并且
人群状态识别装置基于字典来识别在图像中拍摄的人群的方向。
(补充说明15)
根据补充说明10至14中任一项所述的人群状态识别设备,
其中人群状态识别字典存储装置存储通过利用针对非显著拥挤的人群和显著拥挤的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典,并且
人群状态识别装置基于字典来识别在图像中拍摄的人群是否是显著拥挤的。
(补充说明16)
根据补充说明10至15中任一项所述的人群状态识别设备,
其中人群状态识别字典存储装置存储通过利用针对其中人的方向统一的人群和其中人的方向不统一的人群准备的人群状态图像和训练标签的配对进行机器学习而获取的鉴别器的字典,并且
人群状态识别装置基于字典来识别在图像中拍摄的人群中的人的方向是否是统一的。
(补充说明17)
一种训练数据生成方法,包括:
背景提取步骤,从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取出的区域的图像放大或者缩小为预定尺寸的图像;
人状态确定步骤,根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明,来确定人群的人状态;以及
人群状态图像合成步骤,生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对,人群状态图像是其中与在人状态确定步骤中确定的人状态对应的人图像被与在背景提取步骤中得到的预定尺寸的图像合成的图像。
(补充说明18)
根据补充说明17所述的训练数据生成方法,包括:
根据多人状态控制指明和个别人状态控制指明来临时确定人群的人状态、在临时确定的人状态满足针对预定尺寸定义的人的基准部位的尺寸和基准部位如何被表示的条件时,将临时确定的人状态确定为人群的人状态并且当临时确定的人状态不满足这些条件时重复地进行对人群的人状态的临时确定的人状态确定步骤。
(补充说明19)
根据补充说明17或18所述的训练数据生成方法,
其中人群状态控制指明存储装置存储按照项目定义的多人状态控制指明并且存储针对该项目定义的指明的训练标签的存在,并且
人状态控制指明存储装置存储按照项目定义的个别人状态控制指明并且存储针对该项目定义的指明的训练标签的存在,
该方法包括:
人状态确定步骤,根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明来确定人群的人状态;以及
人群状态图像合成步骤,通过从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明和从人状态控制指示存储装置读取被定义为具有指明的训练标签的项目的个别人状态控制指明来指定训练标签。
(补充说明20)
根据补充说明19所述的训练数据生成方法,
其中人群状态控制指明存储装置将至少一个项目存储为具有指明的训练标签,并且
该方法包括人群状态图像合成步骤,从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明。
(补充说明21)
根据补充说明19或20所述的训练数据生成方法,
其中人群状态控制指明存储装置按照诸如人的布置、人的方向和人的数目之类的项目来存储多人状态控制指明和指明的训练标签的存在,并且以指示特定状态的第一形式、指明可以定义任意状态的第二形式和指明可以在预定规则内定义状态的第三形式中的任一形式来存储对应于每个项目的多人状态控制指明,并且
人状态控制指示存储装置按照诸如人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸之类的项目,来存储个别人状态指明和指明的训练标签的存在,并且以第一形式、第二形式和第三形式中的任一形式,来存储对应于每个项目的个别人状态控制指明,
该方法包括人状态确定步骤,根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明来确定人群的人状态。
(补充说明22)
根据补充说明17至21中任一项所述的训练数据生成方法,包括:
人群状态图像合成步骤,从一组预先准备的人图像选择与诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型之类的确定的人状态匹配的人图像,从选择的人图像裁剪人的区域,由此生成只有人的图像,并且根据被确定为人状态的人的布置和当与人群状态图像合成时的人尺寸,来使只有人的图像与背景提取装置获取的预定尺寸的图像合成。
(补充说明23)
根据补充说明22所述的训练数据生成方法,包括:
人群状态图像合成步骤,从与距离相机的最远布置位置对应的的只有人的图像顺序地与由背景提取装置获取的预定尺寸的图像合成。
(补充说明24)
根据补充说明17至23中任一项所述的训练数据生成方法,
其中人状态确定步骤包括:
背景人状态确定步骤,据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态,在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸和基准部位如何被表示的第一条件时将临时确定的人状态确定为作为背景的人群的人状态,并且在临时确定的人状态不满足第一条件时重复地做出对作为背景的人群的人状态的临时确定;以及
前景人状态确定步骤,根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态,在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸和基准部位如何被表示的第二条件时将临时确定的人状态确定为作为前景的人群的人状态,并且在临时确定的人状态不满足第二条件时重复地做出对作为前景的人群的人状态的临时确定。
(补充说明25)
根据补充说明24所述的训练数据生成方法,
其中第一条件是人的基准部位不在人群状态图像内或者基准部位的尺寸比针对预定尺寸定义的人的基准部位的尺寸大得多或者小得多,并且
第二条件是人的基准部位在人群状态图像内并且基准部位的尺寸与针对预定尺寸定义的人的基准部位的尺寸一样大。
(补充说明26)
一种人群状态识别方法,
其中矩形区域组存储装置存储指示图像上将针对人群状态而被识别的部分的一组矩形区域,并且
人群状态识别字典存储装置存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典,人群状态图像是以预定尺寸表达人群状态、并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像,
该方法包括人群状态识别步骤,从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域,并且基于字典来识别在提取出的图像中拍摄的人群的状态。
(补充说明27)
根据补充说明26所述的人群状态识别方法,
其中,人群状态识别字典存储装置存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典,人群状态图像通过合成与控制为期望状态的人状态匹配的人图像而被获取,
该方法包括基于字典来识别在图像中拍摄的人群的状态的人群状态识别步骤。
(补充说明28)
根据补充说明26或27所述的人群状态识别方法,
其中矩形区域组存储装置存储基于指示用于获取图像的图像获取设备的位置、姿势、焦距和透镜畸变的相机参数的一组尺寸定义的矩形区域,以及针对预定尺寸定义的人的基准部位的尺寸,
该方法包括从给定图像提取在该组矩形区域中指示的区域的人群状态识别步骤。
(补充说明29)
根据补充说明26至28中任一项所述的人群状态识别方法,
其中人群状态识别字典存储装置存储通过改变在人群状态图像中表达的人的数目并且通过利用针对人的该数目准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典,
该方法包括人群状态识别步骤,基于字典来识别在图像中拍摄的人群中的人的数目。
(补充说明30)
根据补充说明26至29中任一项所述的人群状态识别方法,
其中人群状态识别字典存储装置存储通过改变在人群状态图像中表达的人的方向并且通过利用针对人的这些方向准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典,
该方法包括基于字典来识别在图像中拍摄的人群的方向的人群状态识别步骤。
(补充说明31)
根据补充说明26至30中任一项所述的人群状态识别方法,
其中人群状态识别字典存储装置存储通过利用针对非显著拥挤的人群和显著拥挤的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典,
该方法包括基于字典来识别在图像中拍摄的人群是否是显著拥挤的的人群状态识别方法。
(补充说明32)
根据补充说明26至31中任一项所述的人群状态识别方法,
其中人群状态识别字典存储装置存储通过利用针对其中人的方向统一的人群和其中人的方向不统一的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典,
该方法包括基于字典来识别在图像中拍摄的人群中的人的方向是否统一的人群状态识别方法。
(补充说明33)
一种用于使计算机执行以下处理的训练数据生成程序:
背景提取处理,从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像;
人状态确定处理,根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态;以及
人群状态图像合成处理,生成人群状态图像、指定该人群状态图像的训练标签并且输出人群状态图像和训练标签的配对,人群状态图像是其中与在人状态确定处理中确定的人状态对应的人图像被与在背景提取处理中得到的预定尺寸的图像合成的图像。
(补充说明34)
根据补充说明33所述的训练数据生成程序,该程序用于使计算机执行:
人状态确定处理,根据多人状态控制指明和个别人状态控制指明来临时确定人群的人状态、在临时确定的人状态满足针对预定尺寸定义的人的基准部位的尺寸和基准部位如何被表达的条件时将临时确定的人状态确定为人群的人状态并且当临时确定的人状态不满足这些条件时重复地进行对人群的人状态的临时确定。
(补充说明35)
根据补充说明33或34所述的训练数据生成程序,该程序用于使包括人群状态控制指明存储装置和人状态控制指示存储装置的计算机执行:
人状态确定步骤,根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明来确定人群的人状态;以及
人群状态图像合成步骤,通过从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明和从人状态控制指示存储装置读取被定义为具有指明的训练标签的项目的个别人状态控制指明来指定训练标签,
其中人群状态控制指明存储装置用于存储按照项目定义的多人状态控制指明并且存储针对该项目定义的指定训练标签的存在,并且
人状态控制指示存储装置用于存储按照项目定义的个别人状态控制指明并且存储针对该项目定义的指定训练标签的存在。
(补充说明36)
根据补充说明35所述的训练数据生成程序,该程序用于使得包括用于将至少一个项目存储为具有指明的训练标签人群状态控制指明存储装置的计算机执行:
人群状态图像合成处理,从人群状态控制指明存储装置读取被定义为具有指明的训练标签的项目的多人状态控制指明。
(补充说明37)
根据补充说明35或36所述的训练数据生成程序,该程序用于使得包括人群状态控制指明存储装置和人状态控制指示存储装置的计算机执行:
人状态确定处理,根据在人群状态控制指明存储装置中存储的多人状态控制指明和在人状态控制指示存储装置中存储的个别人状态控制指明来确定人群的人状态,
其中人群状态控制指明存储装置用于按照诸如人的布置、人的方向和人的数目之类的项目来存储多人状态控制指明和指明的训练标签的存在,并且以指示特定状态的第一形式、指示可以定义任意状态的第二形式和指示可以在预定规则内定义状态的第三形式中的任一项来存储对应于每个项目的多人状态控制指明,并且
人状态控制指示存储装置用于按照诸如人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸之类的项目来存储个别人状态控制指明和指明的训练标签的存在,并且以第一形式、第二形式和第三形式中的任一项来存储对应于每个项目的个别人状态控制指明。
(补充说明38)
根据补充说明33至37中任一项所述的训练数据生成程序,该程序用于使得计算机执行:
人群状态图像合成处理,从一组预先准备的人图像选择与诸如人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型之类的确定的人状态匹配的人图像、从选择的人图像中裁剪人的区域,由此生成只有人的图像并且根据被确定为人状态的当人的布置和与人群状态图像合成时的人尺寸来使只有人的图像与背景提取装置获取的预定尺寸的图像合成。
(补充说明39)
根据补充说明38所述的训练数据生成程序,该程序用于使得计算机执行:
用于距离相机的最远布置位置对应的只有人的图像顺序地与由背景提取装置获取的预定尺寸的图像合成的人群状态图像合成处理。
(补充说明40)
根据补充说明33至39中任一项所述的训练数据生成程序,该程序用于使得计算机在人状态确定处理中执行:
背景人状态确定处理,根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态、在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸和基准部位如何被表达的第一条件时将临时确定的人状态确定为作为背景的人群的人状态并且在临时确定的人状态不满足第一条件时重复地进行对作为背景的人群的人状态的临时确定;以及
前景人状态确定处理,根据多人状态控制指明和个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态、在临时确定的人状态满足针对人群状态图像的预定尺寸定义的人的基准部位的尺寸和基准部位如何被表达的第二条件时将临时确定的人状态确定为作为前景的人群的人状态并且在临时确定的人状态不满足第二条件时重复地进行对作为前景的人群的人状态的临时确定。
(补充说明41)
根据补充说明40所述的训练数据生成程序,
其中第一条件是人的基准部位不在人群状态图像内或者基准部位的尺寸比针对预定尺寸定义的人的基准部位的尺寸大得多或者小得多,并且
第二条件是人的基准部位在人群状态图像内并且基准部位的尺寸与针对预定尺寸定义的人的基准部位的尺寸一样大。
(补充说明42)
一种人群状态识别程序,用于使得包括矩形区域组存储装置和人群状态识别字典存储装置的计算机执行:
人群状态识别处理,从给定图像提取在矩形区域组存储装置中存储的该组矩形区域中指示的区域并且基于字典来识别在提取出的图像中拍摄的人群的状态,
其中矩形区域组存储装置用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域,并且
人群状态识别字典存储装置用于存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典,人群状态图像是以预定尺寸表示人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像。
(补充说明43)
根据补充说明42所述的人群状态识别程序,该程序用于使得包括人群状态识别字典存储装置的计算机执行:
人群状态识别处理,基于字典来识别在图像中拍摄的人群的状态,
其中人群状态识别字典存储装置用于存储通过利用人群状态图像和人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典,人群状态图像是通过合成与控制为期望状态的人状态匹配的人图像而得到的。
(补充说明44)
根据补充说明42或43所述的人群状态识别程序,该程序用于使得包括矩形区域组存储装置的计算机执行:
人群状态识别处理,从给定图像提取在该组矩形区域中指示的区域,
其中矩形区域组存储装置用于存储基于指示用于获取图像的图像获取设备的位置、姿势、焦距和透镜畸变的相机参数的一组尺寸定义的矩形区域,以及针对预定尺寸定义的人的基准部位的尺寸。
(补充说明45)
根据补充说明42至44中任一项所述的人群状态识别程序,该程序用于使包括人群状态识别字典存储装置的计算机执行:
基于字典来识别在图像中拍摄的人群中的人的数目的人群状态识别处理,
其中,群状态识别字典存储装置用于存储通过改变在人群状态图像中表达的人的数目并且通过利用针对人的该数目准备的多对人群状态图像和训练标签进行机器学习而得到的鉴别器的字典。
(补充说明46)
根据补充说明42至45中任一项所述的人群状态识别程序,该程序用于使得包括人群状态识别字典存储装置的计算机执行:
人群状态识别处理,基于字典来识别在图像中拍摄的人群的方向,
其中人群状态识别字典存储装置用于存储通过改变在人群状态图像中表达的人的方向并且通过利用针对人的这些方向准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典。
(补充说明47)
根据补充说明42至46中任一个所述的人群状态识别程序,该程序用于使得包括人群状态识别字典存储装置的计算机执行:
人群状态识别处理,基于字典来识别在图像中拍摄的人群是否显著拥挤,
其中人群状态识别字典存储装置存储通过利用针对非显著拥挤的人群和显著拥挤的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典。
(补充说明48)
根据补充说明42至47中任一项所述的人群状态识别程序,该程序用于使得包括人群状态识别字典存储装置的计算机执行:
人群状态识别处理,基于字典来识别在图像中拍摄的人群中的人的方向是否统一,
其中人群状态识别字典存储装置存储通过利用针对其中人的方向是统一的的人群和其中人的方向不是统一的的人群准备的人群状态图像和训练标签的多个配对进行机器学习而获取的鉴别器的字典。
本发明已经参考了示例性实施例而得到描述,但是本发明不限于上面的示例性实施例。在本领域技术人员可以理解的本发明的范围内可以不同地改变本发明的结构和细节
本申请要求基于在2013年6月28日提交的日本专利申请第2013-135915号的优先权,其公开内容通过引用而被全部结合于此。
工业应用性
本发明可合适地应用于用于在学习用于识别人群状态的鉴别器的字典时生成训练数据的训练数据生成设备。
本发明被合适地应用于用于识别图像中的人群状态的人群状态识别设备。具体而言,本发明可合适地应用于识别低帧速率的图像中的人群状态。另外,当帧速率不稳定并且使用时间信息的人群状态识别处理无法被执行时也可以合适地利用本发明。另外,本发明可以被合适地用于根据静止图像来识别包括人之间的重叠的复杂人群状态。另外,本发明可以被用于监视领域中的可疑人识别、左可疑对象识别、追尾识别、异常状态识别、异常行为识别等以用与从由相机获取的图像识别人群状态。另外,本发明可被用于将图像中的人群状态的识别结果连同人群的位置(2D位置或者3D位置)一起输出给其他系统。另外,本发明可以被用于获取图像中的人群状态的识别结果和人群的位置(2D位置或3D位置)和利用获得物作为触发来进行视频搜索。
标号列表
11 背景提取装置
12 背景人状态确定装置
13 前景人状态确定装置
14 人群状态图像合成装置
15 人状态确定装置
16 控制装置
21 背景图像存储装置
22 学习局部图像信息存储装置
23 人群状态控制指明存储装置
24 人状态控制指明存储装置
25 人图像存储装置
26 人区域图像存储装置
41 人群状态识别装置
51 搜索窗口存储装置
52 人群状态识别字典存储装置

Claims (7)

1.一种训练数据生成设备,包括:
背景提取单元,用于从多个预先准备的背景图像选择背景图像,提取所述背景图像中的区域,并且将对应于提取的所述区域的图像放大或者缩小为预定尺寸的图像;
人状态确定单元,用于根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于所述多人中的个别人的状态的指明信息的个别人状态控制指明,来确定人群的人状态;以及
人群状态图像合成单元,用于生成人群状态图像、指定用于所述人群状态图像的训练标签以及输出人群状态图像和训练标签的配对,所述人群状态图像是其中与由所述人状态确定单元确定的所述人状态对应的人图像被与由所述背景提取单元获取的预定尺寸的所述图像合成的图像,
其中所述人状态确定单元包括:
背景人状态确定单元,用于根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态,在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的人的基准部位的所述尺寸、和所述基准部位如何被表达的第一条件时,将临时确定的所述人状态确定为作为所述背景的所述人群的所述人状态,并且在临时确定的所述人状态不满足所述第一条件时、重复地进行对作为所述背景的所述人群的所述人状态的所述临时确定;以及
前景人状态确定单元,用于根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态,在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的所述基准部位的所述尺寸、和所述基准部位如何被表达的第二条件时,将临时确定的所述人状态确定为作为所述前景的所述人群的所述人状态,并且在临时确定的所述人状态不满足所述第二条件时、重复地进行对作为所述前景的所述人群的所述人状态的所述临时确定,
其中所述第一条件是人的所述基准部位不在人群状态图像内、或者所述基准部位的所述尺寸比针对所述预定尺寸定义的人的所述基准部位的所述尺寸大得多或者小得多,并且
所述第二条件是人的所述基准部位在人群状态图像内、并且所述基准部位的所述尺寸与针对所述预定尺寸定义的人的所述基准部位的所述尺寸一样大,
其中所述训练数据生成设备包括:
人群状态控制指明存储单元,用于存储按照项目定义的所述多人状态控制指明以及存储针对所述项目定义的指明的训练标签的存在;以及
人状态控制指明存储单元,用于存储按照项目定义的个别人状态控制指明以及存储针对所述项目定义的指明的训练标签的存在,
其中所述人状态确定单元根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明,来确定人群的人状态,并且
所述人群状态图像合成单元通过从所述人群状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述多人状态控制指明、和从所述人状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述个别人状态控制指明,来指定训练标签,
其中所述人群状态控制指明存储单元按照关于人的布置、人的方向和人的数目的项目,来存储所述多人状态控制指明和指明的训练标签的所述存在,并且以指明特定状态的第一形式、指明可以定义任意状态的第二形式和指明可以在预定规则内定义状态的第三形式中的任一形式,来存储对应于每个项目的所述多人状态控制指明,
所述人状态控制指明存储单元按照关于人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸的项目,来存储所述个别人状态指明和指明的训练标签的所述存在,并且以所述第一形式、所述第二形式和所述第三形式中的任一形式,来存储对应于每个项目的所述个别人状态控制指明,并且
所述人状态确定单元根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明,来确定人群的人状态。
2.根据权利要求1所述的训练数据生成设备,
其中所述人状态确定单元根据所述多人状态控制指明和所述个别人状态控制指明来临时确定人群的人状态,在临时确定的所述人状态满足用于针对所述预定尺寸定义的人的基准部位的尺寸和所述基准部位如何被表达的条件时、将临时确定的所述人状态确定为所述人群的所述人状态,以及在临时确定的所述人状态不满足所述条件时、重复地进行对所述人群的所述人状态的所述临时确定。
3.根据权利要求1所述的训练数据生成设备,
其中所述人群状态控制指明存储单元将至少一个项目存储为具有指明的训练标签,并且
所述人群状态图像合成单元从所述人群状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述多人状态控制指明。
4.根据权利要求1所述的训练数据生成设备,
其中所述人群状态图像合成单元从一组预先准备的人图像选择与作为人的方向、人的数目、人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状和人的发型的确定的所述人状态匹配的人图像,从选择的所述人图像裁剪人的区域,由此生成只有所述人的图像,并且根据被确定为所述人状态的人的布置和当与人群状态图像合成时的人尺寸,来使只有所述人的所述图像与由所述背景提取单元获取的预定尺寸的所述图像合成。
5.根据权利要求4所述的训练数据生成设备,
其中所述人群状态图像合成单元从与距相机的最远布置位置对应的只有人的图像顺序地与由所述背景提取单元获取的预定尺寸的所述图像合成。
6.一种训练数据生成方法,包括:
背景提取步骤,从多个预先准备的背景图像选择背景图像、提取所述背景图像中的区域并且将对应于提取的所述区域的图像放大或者缩小为预定尺寸的图像;
人状态确定步骤,根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于所述多人中的个别人的状态的指明信息的个别人状态控制指明,来确定人群的人状态;以及
人群状态图像合成步骤,生成人群状态图像、指定用于所述人群状态图像的训练标签以及输出人群状态图像和训练标签的配对,所述人群状态图像是其中与在所述人状态确定步骤中确定的所述人状态对应的人图像被与在所述背景提取步骤中获取的预定尺寸的所述图像合成的图像,
其中所述人状态确定步骤包括:
背景人状态确定步骤,根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态,在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的人的基准部位的所述尺寸、和所述基准部位如何被表达的第一条件时,将临时确定的所述人状态确定为作为所述背景的所述人群的所述人状态,并且在临时确定的所述人状态不满足所述第一条件时、重复地进行对作为所述背景的所述人群的所述人状态的所述临时确定;以及
前景人状态确定步骤,根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态,在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的所述基准部位的所述尺寸、和所述基准部位如何被表达的第二条件时,将临时确定的所述人状态确定为作为所述前景的所述人群的所述人状态,并且在临时确定的所述人状态不满足所述第二条件时、重复地进行对作为所述前景的所述人群的所述人状态的所述临时确定,
其中所述第一条件是人的所述基准部位不在人群状态图像内、或者所述基准部位的所述尺寸比针对所述预定尺寸定义的人的所述基准部位的所述尺寸大得多或者小得多,并且
所述第二条件是人的所述基准部位在人群状态图像内、并且所述基准部位的所述尺寸与针对所述预定尺寸定义的人的所述基准部位的所述尺寸一样大,
其中
人群状态控制指明存储单元存储按照项目定义的所述多人状态控制指明并且存储针对所述项目定义的指明的训练标签的存在;并且
人状态控制指明存储单元存储按照项目定义的个别人状态控制指明并且存储针对所述项目定义的指明的训练标签的存在,
其中所述人状态确定步骤包括:
根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明,来确定人群的人状态,并且
所述人群状态图像合成步骤包括:
通过从所述人群状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述多人状态控制指明、和从所述人状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述个别人状态控制指明,来指定训练标签,
其中所述人群状态控制指明存储单元按照关于人的布置、人的方向和人的数目的项目,来存储所述多人状态控制指明和指明的训练标签的所述存在,并且以指明特定状态的第一形式、指明可以定义任意状态的第二形式和指明可以在预定规则内定义状态的第三形式中的任一形式,来存储对应于每个项目的所述多人状态控制指明,
所述人状态控制指明存储单元按照关于人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸的项目,来存储所述个别人状态指明和指明的训练标签的所述存在,并且以所述第一形式、所述第二形式和所述第三形式中的任一形式,来存储对应于每个项目的所述个别人状态控制指明,并且
其中所述人状态确定步骤包括:
根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明,来确定人群的人状态。
7.一种计算机可读记录介质,其中记录训练数据生成程序,所述训练数据生成程序使得计算机执行以下处理:
背景提取处理,从多个预先准备的背景图像选择背景图像、提取所述背景图像中的区域并且将对应于提取的所述区域的图像放大或者缩小为预定尺寸的图像;
人状态确定处理,根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于所述多人中的个别人的状态的指明信息的个别人状态控制指明,来确定人群的人状态;以及
人群状态图像合成处理,生成人群状态图像、指定用于所述人群状态图像的训练标签以及输出人群状态图像和训练标签的配对,所述人群状态图像是其中与在所述人状态确定处理中确定的所述人状态对应的人图像被与在所述背景提取处理中获取的预定尺寸的所述图像合成的图像,
其中所述训练数据生成程序使得所述计算机在所述人状态确定处理中执行:
背景人状态确定处理,根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的背景的人群的人状态,在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的人的基准部位的所述尺寸、和所述基准部位如何被表达的第一条件时,将临时确定的所述人状态确定为作为所述背景的所述人群的所述人状态,并且在临时确定的所述人状态不满足所述第一条件时、重复地进行对作为所述背景的所述人群的所述人状态的所述临时确定;以及
前景人状态确定处理,根据所述多人状态控制指明和所述个别人状态控制指明来临时确定作为人群状态图像中的前景的人群的人状态,在临时确定的所述人状态满足针对所述人群状态图像的所述预定尺寸定义的所述基准部位的所述尺寸、和所述基准部位如何被表达的第二条件时,将临时确定的所述人状态确定为作为所述前景的所述人群的所述人状态,并且在临时确定的所述人状态不满足所述第二条件时、重复地进行对作为所述前景的所述人群的所述人状态的所述临时确定,
其中所述第一条件是人的所述基准部位不在人群状态图像内、或者所述基准部位的所述尺寸比针对所述预定尺寸定义的人的所述基准部位的所述尺寸大得多或者小得多,并且
所述第二条件是人的所述基准部位在人群状态图像内、并且所述基准部位的所述尺寸与针对所述预定尺寸定义的人的所述基准部位的所述尺寸一样大,
其中所述计算机包括:
人群状态控制指明存储单元,用于存储按照项目定义的所述多人状态控制指明以及存储针对所述项目定义的指明的训练标签的存在;以及
人状态控制指明存储单元,用于存储按照项目定义的个别人状态控制指明以及存储针对所述项目定义的指明的训练标签的存在,
其中所述训练数据生成程序使得所述计算机执行:
在所述人状态确定处理中,根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明,来确定人群的人状态,以及
在所述人群状态图像合成处理中,通过从所述人群状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述多人状态控制指明、和从所述人状态控制指明存储单元读取被定义为具有指明的训练标签的项目的所述个别人状态控制指明,来指定训练标签,
其中所述人群状态控制指明存储单元按照关于人的布置、人的方向和人的数目关于的项目,来存储所述多人状态控制指明和指明的训练标签的所述存在,并且以指明特定状态的第一形式、指明可以定义任意状态的第二形式和指明可以在预定规则内定义状态的第三形式中的任一形式,来存储对应于每个项目的所述多人状态控制指明,
所述人状态控制指明存储单元按照关于人的拍摄角度、对人的照明、人的姿势、人的衣服、人的身体形状、人的发型和当与人群状态图像合成时的人尺寸的项目,来存储所述个别人状态指明和指明的训练标签的所述存在,并且以所述第一形式、所述第二形式和所述第三形式中的任一形式,来存储对应于每个项目的所述个别人状态控制指明,并且
其中所述训练数据生成程序使得所述计算机执行,在所述人状态确定处理中,根据在所述人群状态控制指明存储单元中存储的所述多人状态控制指明和在所述人状态控制指明存储单元中存储的所述个别人状态控制指明,来确定人群的人状态。
CN201480036661.8A 2013-06-28 2014-05-21 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序 Active CN105593901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810432697.8A CN108647631B (zh) 2013-06-28 2014-05-21 人群状态识别设备、方法和计算机可读记录介质

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013-135915 2013-06-28
JP2013135915 2013-06-28
PCT/JP2014/002670 WO2014207991A1 (ja) 2013-06-28 2014-05-21 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201810432697.8A Division CN108647631B (zh) 2013-06-28 2014-05-21 人群状态识别设备、方法和计算机可读记录介质

Publications (2)

Publication Number Publication Date
CN105593901A CN105593901A (zh) 2016-05-18
CN105593901B true CN105593901B (zh) 2020-06-12

Family

ID=52141367

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201480036661.8A Active CN105593901B (zh) 2013-06-28 2014-05-21 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序
CN201810432697.8A Active CN108647631B (zh) 2013-06-28 2014-05-21 人群状态识别设备、方法和计算机可读记录介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201810432697.8A Active CN108647631B (zh) 2013-06-28 2014-05-21 人群状态识别设备、方法和计算机可读记录介质

Country Status (6)

Country Link
US (8) US9875431B2 (zh)
EP (2) EP3016069A4 (zh)
JP (1) JP6008045B2 (zh)
CN (2) CN105593901B (zh)
HK (3) HK1220795A1 (zh)
WO (1) WO2014207991A1 (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105593901B (zh) * 2013-06-28 2020-06-12 日本电气株式会社 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序
AU2015203771B2 (en) * 2014-07-08 2020-11-05 Iomniscient Pty Ltd A method and apparatus for surveillance
JP6969871B2 (ja) * 2015-01-14 2021-11-24 日本電気株式会社 移動状況推定装置、移動状況推定方法およびプログラム
CN106033548B (zh) * 2015-03-13 2021-04-20 中国科学院西安光学精密机械研究所 基于改进字典学习的拥挤人群异常检测方法
JP2017097510A (ja) * 2015-11-20 2017-06-01 ソニー株式会社 画像処理装置と画像処理方法およびプログラム
US10789484B2 (en) 2016-03-07 2020-09-29 Nec Corporation Crowd type classification system, crowd type classification method and storage medium for storing crowd type classification program
JP6866889B2 (ja) * 2016-03-09 2021-04-28 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
US10699422B2 (en) * 2016-03-18 2020-06-30 Nec Corporation Information processing apparatus, control method, and program
JP2019114821A (ja) * 2016-03-23 2019-07-11 日本電気株式会社 監視システム、装置、方法およびプログラム
JP6950692B2 (ja) * 2016-08-04 2021-10-13 日本電気株式会社 人流推定装置、人流推定方法およびプログラム
JP6977730B2 (ja) 2016-09-13 2021-12-08 日本電気株式会社 人流推定装置、人流推定方法およびプログラム
JP2018060360A (ja) * 2016-10-05 2018-04-12 日本電信電話株式会社 人数推定方法、人数推定装置、人数推定プログラム、及び記録媒体
JP6874772B2 (ja) 2016-11-25 2021-05-19 日本電気株式会社 画像生成装置、画像生成方法、およびプログラム
US10292585B1 (en) 2016-12-23 2019-05-21 X Development Llc Mental state measurement using sensors attached to non-wearable objects
CA3041148C (en) * 2017-01-06 2023-08-15 Sportlogiq Inc. Systems and methods for behaviour understanding from trajectories
CN110235146A (zh) * 2017-02-03 2019-09-13 西门子股份公司 用于检测图像中的感兴趣对象的方法和装置
WO2018154360A1 (ja) * 2017-02-24 2018-08-30 オムロン株式会社 学習データを生成するための処理方法、システム、プログラムおよび記憶媒体、並びに学習データを生成する方法およびシステム
JP6942488B2 (ja) * 2017-03-03 2021-09-29 キヤノン株式会社 画像処理装置、画像処理システム、画像処理方法、及びプログラム
US11157749B2 (en) 2017-05-22 2021-10-26 Nec Corporation Crowd state recognition device, learning method, and learning program
FR3074942B1 (fr) * 2017-12-08 2021-04-02 Valeo Comfort & Driving Assistance Procede de determination de l'etat d'un individu a partir du traitement d'images de sa tete et dispositif associe
GB2583676B (en) * 2018-01-18 2023-03-29 Gumgum Inc Augmenting detected regions in image or video data
JP6719497B2 (ja) * 2018-03-12 2020-07-08 株式会社 日立産業制御ソリューションズ 画像生成方法、画像生成装置及び画像生成システム
SG10201802673VA (en) * 2018-03-29 2019-10-30 Nec Asia Pacific Pte Ltd Method and system for integration and automatic switching of crowd estimation techniques
US11429814B2 (en) 2018-04-12 2022-08-30 Nec Corporation Learning image generation apparatus, learning image generation method, and non-transitory storage medium
JP2019212106A (ja) * 2018-06-06 2019-12-12 日本電信電話株式会社 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム
JP2020013467A (ja) * 2018-07-20 2020-01-23 株式会社壽屋 分類器生成方法、機械学習用画像及び学習データ生成方法
MY188075A (en) 2018-08-20 2021-11-16 Beijing Sensetime Tech Development Co Ltd Pose detection method and device, electronic device and storage medium
CN109284681B (zh) * 2018-08-20 2020-11-27 北京市商汤科技开发有限公司 位姿检测方法及装置、电子设备和存储介质
US11157931B2 (en) * 2018-08-21 2021-10-26 International Business Machines Corporation Predicting the crowdedness of a location
JP7300699B2 (ja) * 2018-11-12 2023-06-30 株式会社イシダ 教師データ生成方法、教師データ生成プログラム、教師データ生成装置、及び商品識別装置
JP7211428B2 (ja) * 2018-11-21 2023-01-24 日本電気株式会社 情報処理装置、制御方法、及びプログラム
KR102163573B1 (ko) * 2018-11-23 2020-10-12 연세대학교 산학협력단 실시간 객체 탐지 시스템 학습을 위한 합성 데이터 생성 장치 및 방법
TWI686748B (zh) * 2018-12-07 2020-03-01 國立交通大學 人流分析系統及人流分析方法
CN109583509B (zh) * 2018-12-12 2020-11-03 南京旷云科技有限公司 数据生成方法、装置及电子设备
JP7075056B2 (ja) 2018-12-27 2022-05-25 オムロン株式会社 画像判定装置、画像判定方法及び画像判定プログラム
US11386562B2 (en) 2018-12-28 2022-07-12 Cyberlink Corp. Systems and methods for foreground and background processing of content in a live video
JP6843319B2 (ja) 2019-01-22 2021-03-17 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法
CN116916080A (zh) * 2019-05-17 2023-10-20 上海哔哩哔哩科技有限公司 视频数据处理方法、装置、计算机设备及可读存储介质
US11048948B2 (en) * 2019-06-10 2021-06-29 City University Of Hong Kong System and method for counting objects
US11106904B2 (en) * 2019-11-20 2021-08-31 Omron Corporation Methods and systems for forecasting crowd dynamics
KR102359289B1 (ko) * 2019-12-30 2022-02-08 한국과학기술연구원 학습된 기계학습 모델의 성능을 개선하기 위한 가상 학습데이터 생성 방법 및 이를 수행하는 장치
US11410443B2 (en) 2020-03-13 2022-08-09 Nec Corporation Labelling training method and system for implementing the same
JP2021196755A (ja) * 2020-06-11 2021-12-27 日本電信電話株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP7265672B2 (ja) * 2020-09-28 2023-04-26 ソフトバンク株式会社 情報処理方法、プログラムおよび情報処理装置
WO2022080407A1 (ja) * 2020-10-14 2022-04-21 国立研究開発法人海洋研究開発機構 魚数算出方法、魚数算出プログラム、及び、魚数算出装置
CN115880648B (zh) * 2023-03-08 2023-05-12 城云科技(中国)有限公司 无人机角度下的人群聚集识别方法、系统及其应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1983303A (zh) * 2005-12-15 2007-06-20 索尼株式会社 图像处理设备、方法及程序
CN102422325A (zh) * 2009-05-11 2012-04-18 佳能株式会社 用于识别对象及另一低级别对象的模式识别装置及其方法

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7121946B2 (en) * 1998-08-10 2006-10-17 Cybernet Systems Corporation Real-time head tracking system for computer games and other applications
US7139409B2 (en) * 2000-09-06 2006-11-21 Siemens Corporate Research, Inc. Real-time crowd density estimation from video
JP3981391B2 (ja) 2003-10-21 2007-09-26 松下電器産業株式会社 監視装置
US20080166020A1 (en) * 2005-01-28 2008-07-10 Akio Kosaka Particle-Group Movement Analysis System, Particle-Group Movement Analysis Method and Program
JP4725377B2 (ja) 2006-03-15 2011-07-13 オムロン株式会社 顔画像登録装置、顔画像登録方法、顔画像登録プログラム、および記録媒体
JP2007329762A (ja) 2006-06-08 2007-12-20 Fujitsu Ten Ltd 物体候補領域検出装置、物体候補領域検出方法、歩行者認識装置、および車両制御装置
JP2008140107A (ja) * 2006-12-01 2008-06-19 Seiko Epson Corp 画像処理装置、画像処理方法、制御プログラム及び記録媒体
US8195598B2 (en) * 2007-11-16 2012-06-05 Agilence, Inc. Method of and system for hierarchical human/crowd behavior detection
JP5176572B2 (ja) * 2008-02-05 2013-04-03 ソニー株式会社 画像処理装置および方法、並びにプログラム
EP2093698A1 (en) * 2008-02-19 2009-08-26 British Telecommunications Public Limited Company Crowd congestion analysis
CN101990667B (zh) * 2008-04-02 2013-08-28 谷歌公司 将自动人脸识别合并入数字图像集中的方法和装置
US8355576B2 (en) * 2008-06-13 2013-01-15 Lockheed Martin Corporation Method and system for crowd segmentation
CN101777114B (zh) * 2009-01-08 2013-04-24 北京中星微电子有限公司 视频监控智能分析系统和方法及头肩检测跟踪系统和方法
JP2010198566A (ja) 2009-02-27 2010-09-09 Nec Corp 人数計測装置、方法及びプログラム
JP5271227B2 (ja) 2009-09-30 2013-08-21 富士フイルム株式会社 群衆監視装置および方法ならびにプログラム
JP5285575B2 (ja) 2009-11-04 2013-09-11 日本放送協会 人物行動判定装置及びそのプログラム
JP2011248548A (ja) * 2010-05-25 2011-12-08 Fujitsu Ltd コンテンツ決定プログラムおよびコンテンツ決定装置
JP5400718B2 (ja) * 2010-07-12 2014-01-29 株式会社日立国際電気 監視システムおよび監視方法
CN101980245B (zh) * 2010-10-11 2013-07-17 北京航空航天大学 一种基于自适应模板匹配的客流统计方法
CN101959060B (zh) * 2010-10-26 2012-06-06 镇江科大船苑计算机网络工程有限公司 视频客流监控系统及方法
CN102063613B (zh) * 2010-12-28 2012-12-05 北京智安邦科技有限公司 基于头部识别的人群计数方法及装置
US9117147B2 (en) * 2011-04-29 2015-08-25 Siemens Aktiengesellschaft Marginal space learning for multi-person tracking over mega pixel imagery
US9208386B1 (en) * 2012-01-09 2015-12-08 The United States Of America As Represented By The Secretary Of The Navy Crowd state characterization system and method
CN102663369B (zh) * 2012-04-20 2013-11-20 西安电子科技大学 基于surf高效匹配核的人体运动跟踪方法
CN102722699A (zh) * 2012-05-22 2012-10-10 湖南大学 基于多尺度韦伯局部特征和核组稀疏表示的人脸识别方法
CN105593901B (zh) * 2013-06-28 2020-06-12 日本电气株式会社 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序
US20160335552A1 (en) * 2014-01-15 2016-11-17 Nec Europe Ltd. Method and sytem for crowd detection in an area
JP2015204561A (ja) * 2014-04-15 2015-11-16 株式会社デンソー 情報提示システム、及び、提示装置
WO2015198767A1 (ja) * 2014-06-27 2015-12-30 日本電気株式会社 異常検知装置及び異常検知方法
JP6708122B2 (ja) * 2014-06-30 2020-06-10 日本電気株式会社 誘導処理装置及び誘導方法
US10699130B2 (en) * 2014-07-25 2020-06-30 Nec Corporation Image processing apparatus, monitoring system, image processing method, and program
CN105654021B (zh) * 2014-11-12 2019-02-01 株式会社理光 检测人群对目标位置关注度的方法及设备
JP6356266B2 (ja) * 2014-12-24 2018-07-11 株式会社日立国際電気 群集監視システム
US10122483B2 (en) * 2015-02-04 2018-11-06 Ebay Inc. Crowd sentiment detection and analysis
US20170017846A1 (en) * 2015-07-15 2017-01-19 Umm Al-Qura University Crowd and traffic monitoring apparatus and method
JP6750622B2 (ja) * 2015-07-17 2020-09-02 日本電気株式会社 照射システム、照射方法および照射プログラム
JP2019114821A (ja) 2016-03-23 2019-07-11 日本電気株式会社 監視システム、装置、方法およびプログラム
US11193688B2 (en) * 2018-05-23 2021-12-07 Trustees Of Boston University Fusion-based occupancy sensing for building systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1983303A (zh) * 2005-12-15 2007-06-20 索尼株式会社 图像处理设备、方法及程序
CN102422325A (zh) * 2009-05-11 2012-04-18 佳能株式会社 用于识别对象及另一低级别对象的模式识别装置及其方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Crowd Analysis Using Computer Vision Techniques;Julio Cezar Silveira Jacques Junior等;《IEEE Signal Processing Magazine》;20100920;第27卷(第5期);全文 *
Crowd Density Analysis Using Co-occurrence Texture Features;Wenhua Ma等;《Computer Sciences and Convergence Information Technology (ICCIT), 2010 5th International Conference on》;20110210;全文 *
Learning People Detection Models from Few Training Samples;Leonid Pishchulin等;《Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on》;20110822;全文 *
Real-Time Counting People in Crowded Areas by Using Local Empirical Templates and Density Ratios;Dao-Huu HUNG等;《IEICE Transactions on Information and Systems》;20120731;第E95–D卷(第7期);1791-1803 *

Also Published As

Publication number Publication date
US10515294B2 (en) 2019-12-24
US20190102661A1 (en) 2019-04-04
WO2014207991A1 (ja) 2014-12-31
EP3016069A1 (en) 2016-05-04
US10223620B2 (en) 2019-03-05
US11132587B2 (en) 2021-09-28
US11836586B2 (en) 2023-12-05
CN108647631A (zh) 2018-10-12
CN108647631B (zh) 2023-04-07
EP3016069A4 (en) 2017-06-14
HK1250542A1 (zh) 2018-12-21
US20230351259A1 (en) 2023-11-02
JP6008045B2 (ja) 2016-10-19
US20190102660A1 (en) 2019-04-04
EP3312770B1 (en) 2023-05-10
US20170330061A1 (en) 2017-11-16
HK1220795A1 (zh) 2017-05-12
US10776674B2 (en) 2020-09-15
HK1257339A1 (zh) 2019-10-18
US9875431B2 (en) 2018-01-23
US20230351258A1 (en) 2023-11-02
US20200090013A1 (en) 2020-03-19
US20210350191A1 (en) 2021-11-11
CN105593901A (zh) 2016-05-18
US20160132755A1 (en) 2016-05-12
EP3312770A1 (en) 2018-04-25
JPWO2014207991A1 (ja) 2017-02-23

Similar Documents

Publication Publication Date Title
CN105593901B (zh) 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序
CN110235138B (zh) 用于外观搜索的系统和方法
US10832069B2 (en) Living body detection method, electronic device and computer readable medium
CN108140032B (zh) 用于自动视频概括的设备和方法
US9633044B2 (en) Apparatus and method for recognizing image, and method for generating morphable face images from original image
US20200211271A1 (en) Image processing apparatus that generates a virtual view image from multiple images captured from different directions and method controlling the same
US20200184228A1 (en) People flow estimation device, display control device, people flow estimation method, and recording medium
US11157749B2 (en) Crowd state recognition device, learning method, and learning program
CN107346414B (zh) 行人属性识别方法和装置
CN105243395A (zh) 一种人体图像比对方法和装置
JP2017211939A (ja) 生成装置、生成方法、及び生成プログラム
JP2017054210A (ja) 人物検索システムおよび人物検索方法
KR20220063256A (ko) 캐빈 내부 환경의 조절 방법 및 장치
JP6577397B2 (ja) 画像解析装置、画像解析方法、画像解析プログラム、および画像解析システム
JP6976731B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2009289210A (ja) 重要物体認識装置および重要物体認識方法ならびにそのプログラム
JP2011232845A (ja) 特徴点抽出装置および方法
JP2016024534A (ja) 移動体追跡装置及び移動体追跡方法、並びにコンピュータ・プログラム
JP7385416B2 (ja) 画像処理装置、画像処理システム、画像処理方法及び画像処理プログラム
CN115937918A (zh) 图像分类方法、装置及设备
CN116977157A (zh) 一种图像处理方法、装置、设备、介质及程序产品
JP2010092294A (ja) 時空間画像分離装置、時空間画像分離方法および時空間画像分離プログラム
Liu Reasoning Scene Geometry from Single Images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1220795

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant