CN104221054B

CN104221054B - 人物属性推定系统及学习用数据生成装置

Info

Publication number: CN104221054B
Application number: CN201380018436.7A
Authority: CN
Inventors: 西村纯; 由雄宏明; 山田伸; 松川隆行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2012-05-23
Filing date: 2013-05-22
Publication date: 2016-12-21
Anticipated expiration: 2033-05-22
Also published as: CN104221054A; WO2013175792A1; EP2854105A4; US20150086110A1; EP2854105A1; JP2013242825A; JP5899472B2

Abstract

本发明提供一种能够根据对作为属性推定对象的人物进行拍摄的环境而精确地推定人物的属性的人物属性推定系统。人物属性推定系统(1)具备：相机(10)，拍摄作为属性推定对象的人物而生成图像；属性推定部(32)，使用推定模型来推定相机(10)所生成的图像中拍到的人物的属性；模拟现场图像生成部(23)，根据表示由相机(10)对作为属性推定对象的人物进行拍摄的拍摄环境的拍摄环境数据，对作为人物图像的标准图像的数据进行加工，由此生成模拟现场图像；及推定模型再学习部(25)，使用模拟现场图像来进行推定模型的学习。

Description

人物属性推定系统及学习用数据生成装置

在本申请中，主张在2012年5月23日向日本提出的专利申请2012-117129的优先权，该申请的内容通过引用而援引于此。

技术领域

本发明涉及根据人物的图像来推定人物的属性(例如，年龄、性别)的人物属性推定系统及学习用数据生成装置，尤其是涉及使用通过学习而生成的推定模型来推定人物的属性的人物属性推定系统及学习用数据生成装置。

背景技术

以往，已知有在便利店等店铺中为了对来店顾客的顾客阶层进行分析而在店铺的入口附近等对来店顾客进行拍摄并根据该图像来推定来店顾客的属性的人物属性推定系统。这样的人物属性推定系统根据拍摄到的影像的各帧图像来检测被摄体的脸部区域，并对检测到的脸部推定年龄、性别等属性，在制造/出厂的时候存储有预先生成的用于属性推定的模型。

例如，在专利文献1中公开了如下的技术：通过构成离线训练系统的计算机，使用将分别包含属性已知的人物的脸部图像的多个采样图像数据与各个人物的属性建立对应的学习采样数据来进行学习，由此生成属性识别辞典，并且在预先存储有该属性识别辞典的计算机中，参照属性识别辞典，来识别通过所连接的相机拍摄到的人物的属性。

专利文献1：日本特开2006-323507号公报

发明内容

然而，在专利文献1那样的现有技术中，学习用的采样图像是在与拍摄作为属性推定对象的人物的环境、即实际的相机的设置场所的环境不同的环境下被拍摄的图像，因此使用这样的采样图像而生成的推定模型未反映实际的利用现场的拍摄环境，因此，在用于实际的利用时，存在难以精确地推定人物的属性这样的课题。

更具体而言，多个学习用采样图像例如通常是全部在相同的照度下且全部从正面拍摄人物的脸部而得到的图像。因此，若在与该照度相同的照度下从正面拍摄来店顾客等，则也能够基于以这些采样图像为基础而生成的推定模型来精确地推定人物的属性，相对于此，在与该照度不同的照度下从正面以外的方向拍摄来店顾客等的情况下，属性推定的精度有时会下降。

为了防止这样的精度下降，带回通过设置于店铺等现场的相机实际拍摄到的图像作为学习用采样图像并在与正解属性数据建立对应的基础上重新生成推定模型的方法也是有效的。然而，在这样的方法中，需要在实际的利用现场中对各种属性的被摄体拍摄多人或者对几千至几万这样的等级的大量采样图像一个个地进行用于生成推定模型的正解属性数据的赋予等繁杂的作业。

本发明鉴于上述的问题而作出，其目的在于提供不需要繁杂的作业而能够根据拍摄作为属性推定的对象的人物的环境来精确地推定人物的属性的人物属性推定系统及学习用数据生成装置。

人物属性推定系统具有如下结构，即具备：相机，拍摄属性推定对象人物而生成图像；属性推定部，使用推定模型来推定相机所生成的图像中拍到的人物的属性；拍摄环境数据取得部，取得表示由相机对属性推定对象人物进行拍摄的拍摄环境的拍摄环境数据；标准图像取得部，取得作为人物图像的标准图像；模拟现场图像生成部，根据拍摄环境数据而对标准图像的数据进行加工，由此生成使拍摄环境反映于标准图像中的模拟现场图像；及学习部，使用模拟现场图像来进行推定模型的学习。

学习用数据生成装置在人物属性推定系统中使用，生成用于学习人物属性推定用的推定模型的学习用数据，该人物属性推定系统具备拍摄属性推定对象人物而生成图像的相机和对相机所生成的图像中拍到的人物的属性进行推定的属性推定部，该学习用数据生成装置具备：拍摄环境数据取得部，取得表示由相机对属性推定对象人物进行拍摄的拍摄环境的拍摄环境数据；标准图像取得部，取得作为人物图像的标准图像；及模拟现场图像生成部，根据拍摄环境数据而对标准图像的数据进行加工，由此生成使拍摄环境反映于标准图像中的模拟现场图像，使用模拟现场图像或者模拟现场图像拍摄图像来生成学习用数据，该模拟现场图像拍摄图像是在通过相机拍摄属性推定对象的人物的环境下由相机对出现模拟现场图像的被摄体进行拍摄而得到的。

如以下说明的那样，本发明存在其他形态。因此，本发明的公开意图在于提供本发明的一部分的形态，并非限制在此记述并申请的发明的范围。

发明效果

根据本发明，通过根据拍摄环境数据对标准图像的数据进行加工而生成模拟现场图像，并使用该模拟现场图像来基于用于属性推定的推定模型的学习进行生成，因此能够进行与实际的拍摄环境对应的精度良好的属性推定。

附图说明

图1是表示本发明的第一实施方式的人物属性推定系统的结构的框图。

图2是本发明的第一实施方式的人物属性系统的动作流程图。

图3A是表示本发明的第一实施方式的相机的设置状况的一例的图。

图3B是表示本发明的第一实施方式的利用相机拍摄到的图像的一例的图。

图4A是表示本发明的第一实施方式的拍摄图像的脸部朝向角度的数据的分布的一例的图。

图4B是表示本发明的第一实施方式的拍摄图像的亮度对比度的数据的分布的一例的图。

图5A是表示本发明的第一实施方式的标准图像的一例的图。

图5B是表示本发明的第一实施方式的标准图像的一例的图。

图5C是表示本发明的第一实施方式的模拟现场图像的一例的图。

图5D是表示本发明的第一实施方式的模拟现场图像的一例的图。

图6是表示本发明的第一实施方式的属性推定部的结构的框图。

图7是说明本发明的第一实施方式的用于属性推定的特征量的变换的图。

图8是本发明的第一实施方式的推定模型再学习部的动作流程图。

图9是表示本发明的第一实施方式的拍摄环境推定部的结构的框图。

图10是表示本发明的第二实施方式的人物属性推定系统的结构的框图。

图11是说明本发明的第二实施方式的模拟现场图像拍摄图像与正解属性数据的建立关联的一例的图。

图12是表示本发明的第二实施方式的拍摄环境推定部的结构的框图。

具体实施方式

以下，对本发明进行详细说明。以下说明的实施方式只是本发明的例子，本发明能够变形为各种形态。因此，以下公开的特定结构及功能并未限定权利要求。

实施方式的人物属性推定系统具有如下结构，即具备：相机，拍摄属性推定对象人物而生成图像；属性推定部，使用推定模型来推定相机所生成的图像中拍到的人物的属性；拍摄环境数据取得部，取得表示由相机对属性推定对象人物进行拍摄的拍摄环境的拍摄环境数据；标准图像取得部，取得作为人物图像的标准图像；模拟现场图像生成部，根据拍摄环境数据而对标准图像的数据进行加工，由此生成使拍摄环境反映于标准图像中的模拟现场图像；及学习部，使用模拟现场图像来进行推定模型的学习。

根据该结构，以表示在何种拍摄环境下拍摄作为属性推定对象的人物的拍摄环境数据和作为人物图像的标准图像为基础，生成如实际在现场拍摄到人物那样的模拟现场图像，并使用该模拟现场图像来进行推定模型的学习。因此，能够生成并利用反映了相机的利用现场的状况、相机的状态等拍摄环境的、精度良好的用于属性推定的模型。

另外，在上述的人物属性推定系统中，可以是，学习部使用模拟现场图像拍摄图像作为学习用图像数据来进行推定模型的学习，该模拟现场图像拍摄图像是在由相机对属性推定对象人物进行拍摄的拍摄环境下由相机对出现模拟现场图像的被摄体进行拍摄而得到的。

根据该结构，出现以标准图像为基础生成的模拟现场图像的被摄体在进行属性推定对象的人物的拍摄的利用现场或假定了利用现场的环境下被拍摄。使用如此拍摄到的图像作为用于生成属性推定模型的学习用采样图像，因此能够生成并利用更好地反映了相机噪声等实际的拍摄环境的、精度良好的用于属性推定的模型。

另外，在上述的人物属性推定系统中，可以是，学习部使用由模拟现场图像生成部生成的模拟现场图像作为学习用图像数据来进行推定模型的学习。

根据该结构，由于使用以标准图像为基础生成的模拟现场图像作为用于生成属性推定模型的学习用采样图像，因此能够简易地生成并利用反映了实际的拍摄环境的、精度良好的用于属性推定的模型。

另外，在上述的人物属性推定系统中，可以是，将表示作为被摄体的人物的属性的属性数据与标准图像建立对应，学习部使用与用于生成模拟现场图像的标准图像对应的属性数据作为学习用正解属性数据来进行推定模型的学习。

根据该结构，使用标准图像的属性数据作为学习用图像数据即模拟现场图像或模拟现场图像拍摄图像的正解属性数据来进行推定模型的学习，因此能够通过简易的结构来实现学习用图像数据与正解属性数据的建立对应，能够进行属性推定模型的学习。

另外，可以是，上述的人物属性推定系统还具备基于由相机生成的图像来算出拍摄环境数据的拍摄环境推定部，拍摄环境数据取得部取得由拍摄环境推定部算出的拍摄环境数据。

根据该结构，基于实际的拍摄图像而算出的拍摄环境数据用于推定模型的学习所使用的模拟现场图像的生成，因此例如通过在利用现场对用于算出拍摄环境数据的图像进行拍摄，能够使根据拍摄图像而掌握的拍摄环境反映于模拟现场图像及推定模型中。

另外，在上述的人物属性推定系统中，可以是，拍摄环境数据包含表示通过相机拍摄属性推定对象人物的场所中的照明状态的数据，模拟现场图像生成部根据表示照明状态的数据对标准图像进行变换，由此生成模拟现场图像。

根据该结构，根据实际的利用现场的照明状态对标准图像进行变换来生成模拟现场图像，因此能够生成并利用反映了作为对属性推定的精度造成影响的原因的利用现场的照明状态的属性推定模型。

另外，在上述的人物属性推定系统中，可以是，属性推定部基于图像中的脸部区域的局部图像来推定相机所生成的图像中拍到的人物的属性，拍摄环境数据包含通过相机拍摄属性推定对象人物时的与脸部的朝向相关的数据，标准图像是包含人物的脸部的图像，模拟现场图像生成部根据与脸部的朝向相关的数据对标准图像的脸部的朝向进行变换，由此生成模拟现场图像。

根据该结构，根据作为拍摄环境数据的与脸部的朝向相关的数据对标准图像进行变换来生成模拟现场图像。该与脸部的朝向相关的数据是作为属性推定对象的人物的脸部朝向而预想到的数据，因此能够生成并利用适于与着眼于拍摄图像的人物的脸部区域进行的属性推定的推定模型。

另外，在上述的人物属性推定系统中，可以是，拍摄环境数据是通过相机生成的图像内的一个以上的各代表性的人物检测区域的拍摄环境数据。

根据该结构，使用关于代表性的人物检测区域的拍摄环境数据来生成模拟现场图像，因此能够生成并利用以适于实际的属性推定的方式反映了拍摄环境数据的推定模型。需要说明的是，代表性的人物检测区域是指在拍摄图像内预想到属性推定对象人物的检测的局部区域。

另外，在上述的人物属性推定系统中，可以是，模拟现场图像生成部使用各代表性人物检测区域的拍摄环境数据来生成各代表性的人物检测区域的模拟现场图像，学习部对各代表性的人物检测区域进行推定模型的学习，属性推定部根据相机所生成的图像中拍到的人物的检测位置，选择推定模型，并推定人物的属性。

根据该结构，在预想到属性推定对象人物的检测的代表性的人物检测区域存在多个时，使用各代表性的人物检测区域的拍摄环境数据而生成各自的模拟现场图像及推定模型。并且，在人物属性推定时，根据在哪个代表性的人物检测区域(或接近于此的位置)拍到对象人物，而分开使用推定模型。在代表性的人物检测区域存在多个的情况下，在各区域中拍摄环境数据的反映可能不同，因此能够根据该结构而更精确地进行属性推定。

实施方式的学习用数据生成装置在人物属性推定系统中使用，且生成用于人物的属性推定的推定模型的学习所使用的学习用数据，该人物属性推定系统具备拍摄属性推定对象人物而生成图像的相机和对相机所生成的图像中拍到的人物的属性进行推定的属性推定部，该学习用数据生成装置具备：拍摄环境数据取得部，取得表示由相机对属性推定对象人物进行拍摄的拍摄环境的拍摄环境数据；标准图像取得部，取得作为人物图像的标准图像；及模拟现场图像生成部，根据拍摄环境数据而对标准图像的数据进行加工，由此生成使拍摄环境反映于标准图像中的模拟现场图像，使用模拟现场图像或者模拟现场图像拍摄图像来生成学习用数据，该模拟现场图像拍摄图像是在通过相机拍摄属性推定对象的人物的环境下由相机对出现模拟现场图像的被摄体进行拍摄而得到的。

根据该结构，以表示在何种拍摄环境下拍摄作为属性推定对象的人物的拍摄环境数据和标准图像为基础，生成如实际在现场拍摄到人物那样的模拟现场图像。并且，使用模拟现场图像或在利用现场环境下拍摄了该模拟现场图像的模拟现场图像拍摄图像，生成属性推定模型的学习用的图像数据，因此能够生成反映了相机的利用现场的状况、相机的状态等的、用于生成精度良好的模型的学习用数据。

另外，在上述的学习用数据生成装置中，可以是，学习用数据包含：作为学习用图像数据的模拟现场图像或模拟现场图像拍摄图像；及属性数据，是学习用正解属性数据，且与用于生成模拟现场图像的标准图像建立对应。

根据该结构，将模拟现场图像或模拟现场图像拍摄图像作为学习用图像数据，与用于生成模拟现场图像的标准图像对应的属性数据作为学习用正解数据，因此能够简易地生成学习用数据。

以下，参照附图，说明人物属性推定系统及学习用数据生成装置。在以下的实施方式中，说明推定人物的年龄(年龄段)及性别作为人物的属性的情况。

[第一实施方式]

图1是表示第一实施方式的人物属性推定系统的结构的图。人物属性推定系统1具备相机10、再学习控制系统20、人物属性推定装置30。相机10、再学习控制系统20、人物属性推定装置30分别具备未图示的通信单元，且相互连接。需要说明的是，再学习控制系统20通过网络上的服务器或服务器组实现，与人物属性推定装置30一起形成云计算系统。

相机10对作为属性推定的对象的人物进行拍摄。人物属性推定装置30基于脸部区域的图像来推定由相机10拍摄到的人物的属性。再学习控制系统20通过再学习来更新在人物属性推定装置30推定由相机10拍摄到的人物的属性时使用的推定模型，并提供给人物属性推定装置30。

相机10设置成对欲推定年龄段及性别的不特定多个人物(属性推定对象的人物)所通过的场所进行拍摄。例如，设置在店铺内的高处以拍摄从店铺的入口进入的顾客的脸部。因此，作为属性推定对象的人物的脸部并不局限于由相机10从正面拍摄。另外，拍摄时的照明、自然光的状态(光源的方向、照度等)等照明状态也可能根据设置相机10的场所、拍摄时刻等而变化。即，若设置相机10的利用现场不同，则作为属性推定的对象的人物的图像在何种环境下拍摄也变得不同。

相机10具备图像生成部11和拍摄环境推定部12。其中，图像生成部11生成连续的帧图像作为影像。或者，也可以在每当以预定时间间隔进行拍摄时生成静止图像。如此生成的图像在实际进行人物属性的推定的情况下，提供给人物属性推定装置30，在生成用于人物属性推定的模型时，向拍摄环境推定部12输出。

拍摄环境推定部12推定由相机10对人物进行拍摄的拍摄环境，并算出表示拍摄环境的数据。在此，拍摄环境是指可能对所拍摄的人物的脸部的朝向、拍摄到的脸部图像的亮度对比度等所生成的图像的内容造成影响的、相机10自身及相机10周边的状态。拍摄环境例如是相机的设置位置(相机的设置高度、镜头方向等)、拍摄时的相机周边的照明、自然光的状态(光源的方向、照度等)等。这样的拍摄环境可能反映于拍摄到的图像中，因此在本实施方式中，以拍摄到的图像为基础，算出推定拍摄环境的数据。在本实施方式中，具体而言，推定拍摄环境的数据是指关于所生成的图像中的人物的脸部朝向角度(上下/左右)分布和脸部区域的亮度对比度分布的数据。所算出的数据作为拍摄环境数据提供给再学习控制系统20。

再学习控制系统20具备拍摄环境数据存储部21、标准图像存储部22、模拟现场图像生成部23、再学习用数据存储部24、推定模型再学习部25。这些全部可以由一个服务器具备，也可以由在网络上连接的多个服务器分担具备。

拍摄环境数据存储部21存储由相机10的拍摄环境推定部算出的、表示拍摄环境的数据即拍摄环境数据。多个脸部图像分别与作为正解值的属性值建立对应而存储于标准图像存储部22。在本实施方式中，作为推定对象的属性值为年龄段和性别，因此作为正解值而建立对应的属性值也包含年龄段(年龄)及性别。存储于标准图像存储部22的标准图像能够通用地提供给设置在不同的利用现场的相机10。因此，作为标准图像而存储的多个脸部图像可以是在相机10的设置场所以外的实验室等中从人物的正面拍摄到的图像。

模拟现场图像生成部23从拍摄环境数据存储部21及标准图像存储部22读出数据，并使用拍摄环境数据，根据标准图像数据生成模拟现场图像。模拟现场图像是指使相机10的拍摄环境反映于标准图像而生成的图像。如此生成的图像能够看作像是在利用现场、即在实际设置相机10的场所取得的假想的拍摄图像，因此能够称为“模拟现场图像”。所生成的模拟现场图像向再学习用数据存储部24输出。

在再学习用数据存储部24中，将所生成的模拟现场图像与作为正解值的属性值建立对应并作为再学习用数据进行存储，该正解值与用于生成该模拟现场图像的标准图像数据建立对应。另外，在本实施方式中，也存储有与通过再学习而更新的、属性推定装置30预先具备的推定模型相关的数据。存储于再学习用数据存储部24的这些数据向推定模型再学习部25输出。

推定模型再学习部25使用再学习用数据来进行推定模型的再学习。通过再学习而更新后的推定模型提供给人物属性推定装置30。

人物属性推定装置30具备推定模型存储部31、属性推定部32。在推定模型存储部31存储有初始推定模型，该初始推定模型是通过基于如在人物属性推定装置30的制造/出厂的时候存储于标准图像存储部22那样的通用的带正解的脸部图像的学习而生成的。推定模型存储部31将从推定模型再学习部25取得到的新的推定模型向属性推定部32输出。

属性推定部32取得由相机10拍摄到的图像，并使用推定模型来推定该图像所包含的人物的年龄段、性别。

接着，使用图2至图6，说明人物属性推定系统1的动作。

首先，在实际的利用现场、即作为属性推定对象的人物的拍摄场所，取得通过相机10拍摄到的包含人物的脸部的图像(步骤S21)。步骤S21中的取得人物拍摄图像的目的在于获得与相机10的拍摄环境相关的信息。因此，优选将相机10设置在实际的利用现场，或者在假定了实际的利用现场的场所进行拍摄。

相机10在生成连续的帧图像作为影像的情况下生成同一人物的脸部的位置逐渐变化的多个连续的帧图像。在本实施方式中，从其中选择在代表性的脸部检测区域拍到的脸部的帧图像。代表性的脸部检测区域是指在拍摄到的图像中预想到属性推定对象人物的脸部区域的检测的局部区域，具体而言，是指在通过相机10生成的帧图像中检测到人物的脸部区域的次数较多的一个以上的局部区域。在图像中，根据在哪个位置拍到人物的脸部，拍摄环境的反映方式可能不同。因此，通过将预想为在实际的利用时最多地检测到脸部的局部区域中的拍摄环境如后述那样反映于推定模型，能够更精确地进行属性推定。

例如，如图3A所示，当在店铺的入口D附近设置相机10而拍摄入口D附近时，得到如图3B那样的图像。在该位置处拍摄从D进入店铺的来店顾客的情况下，若得知在图3B内的区域A1、A2最多地拍到来店顾客的脸部，则这些区域成为代表性的脸部检测区域，选择在区域A1拍到来店顾客的脸部的帧图像和在区域A2拍到来店顾客的脸部的帧图像。区域A1和区域A2中的脸部的朝向、照明状况等可能不同，但是若这些区域中的脸部的朝向、照明状况等大致相同，则也可以在任一区域仅选择包含脸部的帧。

接着，使用在步骤S21拍摄到的图像，算出作为推定相机10的拍摄环境的数据的、图像中的人物的脸部朝向角度(上下/左右)和脸部区域中的亮度对比度(步骤S22)。在本实施方式中，这些拍摄环境数据通过分布来表现，因此在步骤S22中，优选使用较多的拍摄图像。需要说明的是，关于步骤S22中的拍摄环境数据的计算处理，在后文详细说明。

图4A是将在步骤S22算出的、脸部朝向角度数据的分布的一例示意性地图形化而成的图，图4B是将脸部区域中的亮度对比度数据的分布的一例示意性地图形化而成的图。在图4A的例子中得知，图3B的区域A1中的脸部的朝向以向下10度且向右20度为中心进行分布，相对于此，图3B的区域A2中的脸部的朝向以向下20度且左右0度为中心进行分布。另一方面，在图4B的例子中得知，区域A1中的对比度的60％为最多，相对于此，区域A2中的对比度的20％为最多。

接着，使用在步骤S22求出的拍摄环境数据和标准图像，生成模拟现场图像(步骤S23)。换言之，模拟现场图像的生成是考虑了相机10的拍摄环境的、标准图像的变换等加工。由于在标准图像的加工中使用相机10的拍摄环境数据，因此所生成的模拟现场图像能够用作在利用现场直接拍摄作为标准图像的被摄体的人物而得到的图像。根据标准图像生成的这些图像根据该意思而能够称为模拟的现场图像。与在步骤S22中求出拍摄环境数据的分布对应地，在本实施方式中，模拟现场图像的生成根据比例及数据的分布来进行。

图5A是存储于标准图像存储部22的标准图像的例子。标准图像是从正面拍摄到的脸部图像。各图像的作为被摄体的人物的年龄段、性别已知，如图5A、B所示，这些属性值作为正解值赋予于各图像。该标准图像的脸部的朝向和对比度基于在步骤S22算出的拍摄环境数据进行变换。在图4A的例子中，区域A2中的脸部的朝向以向下20度、向右0度为中心进行分布。因此，将标准图像的脸部的朝向变换为向下20度、向右0度及其附近的角度而成的图像按照图4A的分布比例作为区域A2中的模拟现场图像而生成。关于区域A1也同样。

标准图像的脸部的朝向的变换能够通过AAM(Active Appearance Model)、3DMorphable Model等各种方法来进行。在构筑基于这些方法的模型时，设定与上下方向及左右方向的脸部朝向变化对应的参数，从而能够将脸部的朝向变换为任意角度。这样一来，在步骤S23中，标准图像的脸部朝向被进行三维变换而生成模拟现场图像。

而且，在图4B的例子中，区域A2中的对比度以20％为中心进行分布。因此，以标准图像的对比度成为20％及其附近的值的方式按照图4B的分布比例生成变换图像。关于区域A1也同样。图5C、D表示通过如此对标准图像进行变换而生成的模拟现场图像的例子。图5C是通过图5A的标准图像的变换而作为区域A1中的模拟现场图像生成的图，图5D是通过图5B的标准图像的变换而作为区域A2中的模拟现场图像生成的图。

接着，进行用于属性推定的推定模型的再学习(步骤S24)。在本实施方式中，在属性推定装置30中预先存储有推定模型，通过再学习，更新初始推定模型，生成新的推定模型。在步骤S23生成的模拟现场图像用于该推定模型的再学习。更具体而言，向所生成的模拟现场图像赋予正解属性值，输入该带正解的模拟现场图像作为学习用的采样。需要说明的是，关于用于进行推定模型的再学习的处理的流程，在后文详细叙述。

模拟现场图像对各标准图像进行变换而生成，因此与模拟现场图像建立对应的正解属性值也使用原来的赋予于标准图像的正解属性值。伴随着学习用的新的采样图像的追加，通常需要求出其正解属性值并将其与新的采样图像建立对应。相对于此，在本实施方式中，作为新的采样图像的模拟现场图像的被摄体与标准图像的被摄体相同，因此只要对标准图像的正解属性值直接建立对应即可，不需要繁杂的作业。

在图5的例子中，图5C的模拟现场图像根据图5A的标准图像生成，图5D的模拟现场图像根据图5B的标准图像生成。因此，将图5C的模拟现场图像与性别为女且年龄段为40多岁这样的属性值组合，另外，将图5D的模拟现场图像与性别为男且年龄段为30多岁这样的属性值组合，并用作再学习用数据。在该例子中，对于拍摄图像内的区域A1、A2，分别生成不同的模拟现场图像，因此推定模型的再学习也可以对这样的各局部区域进行，对各局部区域生成不同的推定模型。

并且，使用通过这样的再学习而得到的推定模型，进行属性推定对象人物的属性推定(步骤S25)。对于人物的属性的推定，在后文详细叙述，但是概略而言进行以下的处理。即，首先，根据由相机10拍摄到的来店顾客的图像，进行脸部检测，根据该脸部图像，进行特征量的提取。根据该特征量，使用在步骤S24通过学习而更新后的推定模型，来推定该脸部图像的人物的属性即年龄段、性别。

在图5的例子中，在拍摄图像内的多个局部区域中生成了不同的推定模型的情况下，通过相机10拍摄到的人物的属性推定也可以根据该人物的脸部在拍摄图像中位于何处而分开使用不同的推定模型来进行。例如，在通过相机10拍摄到的图像中，在接近图3B的局部区域A1的位置处检测到属性推定对象人物的脸部的情况下，可以使用对于区域A1生成的推定模型来进行属性推定。另外，在接近局部区域A1的位置、接近A2的位置这双方连续地检测到人物的脸部的情况下，可以使用更清晰地拍到人物的脸部的一方的局部区域的推定模型来进行属性推定。

如此，在本实施方式中，使用表示相机10的利用现场环境、即实际设置相机10的场所及相机10的实际的设置状况的数据，将作为通用的脸部图像的标准图像变换为好像在相机10的实际的设置场所拍摄到的图像。并且，使用该模拟现场图像对推定模型实施再学习，基于更新后的推定模型，进行属性推定。因此，能够消除繁杂的作业而生成反映了利用现场的拍摄环境的用于属性推定的推定模型。

(属性推定部的详细结构)

接着，参照附图，说明本实施方式的属性推定部32的详细结构。图6是表示属性推定部32的结构的框图。如图6所示，属性推定部32具备拍摄图像取得部321、脸部检测部322、脸部特征提取部323、属性计算部324。

拍摄图像取得部321通过拍摄来取得由相机10的图像生成部11生成的图像，并向脸部检测部322输出。脸部检测部322检测拍摄图像中的脸部区域，并将脸部区域的局部图像向脸部特征提取部323输出。脸部区域的检测能够使用各种方法来进行，例如，能够利用基于Haar-like特征的AdaBoost法。需要说明的是，如上所述，在本实施方式中，算出代表性的脸部检测区域中的拍摄环境数据，来进行推定模型的生成。因此，脸部检测部322也可以将在代表性的脸部检测区域及其附近的位置处检测到脸部的图像的脸部区域局部图像向脸部特征提取部323输出。

脸部特征提取部323从脸部区域的局部图像提取Gabor特征等既有的脸部特征量，并向属性计算部324输出。在本实施方式中，为了提高脸部特征量的提取的精度，从取得到的脸部区域图像检测眼、鼻等脸部部位，以这些脸部部位为基准而对脸部的大小等进行标准化，在此基础上进行脸部特征量的提取。

属性计算部324根据从脸部特征提取部323取得到的脸部特征量，使用存储于推定模型存储部31的推定模型，求算脸部区域的局部图像的属性。在本实施方式中，按照线性判别法，将取得到的一般的脸部特征量向用于属性推定的特征量空间进行投影，在此基础上，使用属性推定函数，算出属性值。即，在本实施方式中，推定模型是指将从脸部特征提取部323取得到的脸部特征量向用于属性推定的特征量空间进行投影的矩阵和用于在投影后的特征量空间进行属性推定的属性推定函数。

在线性判别法中，向用于属性推定的特征量空间的投影通过以下的式(1)进行。

【数学式1】

y＝W^Tx 式(1)

在此，x是投影前的脸部特征量向量，y是投影后的特征量向量。另外，W是映射矩阵，以下，称为特征空间投影矩阵。

图7是表示通过特征空间投影矩阵W而使利用既有的方法提取到的脸部特征量x变换成用于属性推定的特征量y后的例子的图。通过线性判别法，变换后的脸部特征量的维数与变换前相比变小，但是成为更适当地表现推定对象属性(年龄段、性别)的特征量。

另一方面，属性推定函数是以投影后的特征量向量y为输入值的函数，通过以下的式(2)来求算。

【数学式2】

f(y)＝b^T·y 式(2)

在此，

【数学式3】

b＝(Y^TY+αI)^-1Yt 式(3)

α是加权系数，I为单位矩阵。t是以各正解属性值t_i为要素的向量，关于各t_i，例如，若为年龄段，则取20(多岁)、30(多岁)等值，若为性别，则取-1(男性)、+1(女性)等值。在采样存在k个的情况下，向量t能够如下所述地记述。

【数学式4】

t = [\begin{matrix} t_{1} \\ \cdot \\ \cdot \\ \cdot \\ t_{k} \end{matrix}]

式(4)

另外，

【数学式5】

式(5)

d是投影后的特征量向量y的维数。

当向式(2)输入投影后的特征量向量时，输出表示该脸部图像的人物的属性值的标量。

(推定模型的再学习的处理的流程)

接着，对于本实施方式的推定模型再学习部25中的推定模型再学习的处理的流程，使用图8的流程图说明处理的流程。

首先，取得再学习用数据(步骤S81)。如上所述，再学习用数据是与模拟现场图像及与其对应的正解属性值数据及应通过再学习更新的初始推定模型相关的数据。接着，提取在步骤S81取得到的各模拟现场图像的脸部特征量(步骤S82)。在此的脸部特征量可以是Gabor特征量等既有的脸部特征量。

并且，使用在步骤S82提取到的模拟现场图像的脸部特征量和在步骤S81取得到的与各模拟现场图像所对应的正解属性值及初始推定模型相关的数据，进行基于特征空间投影矩阵W的再学习的更新(步骤S83)。

在本实施方式的属性推定所使用的线性判别法中，特征空间投影矩阵W被定义作生成如组间方差相对于组内方差之比成为最大那样的特征空间的矩阵。因此，步骤S83中的特征空间投影矩阵W的再学习也以组间方差相对于组内方差之比变得更大的方式，通过求解以下的式(6)来进行。

【数学式6】

W = \arg \max \frac{| W^{T} {Σ_{B}}^{'} W |}{| W^{T} {Σ_{W}}^{'} W |}

式(6)

在此，Σ_B是属性组间的协方差矩阵，Σ_W是属性组内的协方差矩阵。属性组间协方差矩阵Σ_B，对于某一属性，作为表示不同的属性值的组彼此之间的相关性的指标而发挥功能。相对于此，属性组内协方差矩阵Σ_W，对于某一属性，在相同属性值的组内表示各个数据的相关性的指标而发挥功能。例如，当着眼于性别作为属性时，属性组间协方差矩阵Σ_B表示男性的组与女性的组的偏离程度，相对于此，属性组内协方差矩阵Σ_W在男性/女性各自的组内表示各个特征量数据的偏差程度如何。

式(6)中的属性组间协方差矩阵Σ_B′、属性组内协方差矩阵Σ_W′是使用在步骤S81取得到的正解属性值和在步骤S82提取到的模拟现场图像的脸部特征量数据进行了更新(再计算)的属性组间协方差矩阵Σ_B、属性组内协方差矩阵Σ_W。这样一来，在步骤S83中，两个协方差矩阵首先被更新。

属性组间协方差矩阵Σ_B、属性组内协方差矩阵Σ_W分别通过以下的式(7)、式(8)更新为Σ_B′、Σ_W′。

【数学式7】

{Σ_{B}}^{'} = (1 - λ) Σ_{B_retrain} + λ Σ_{B_ini}

式(7)

【数学式8】

{Σ_{W}}^{'} = (1 - λ) Σ_{W_retrain} + λ Σ_{W_ini}

式(8)

在此，Σ_{B_retrain}及Σ_{W_retrain}是关于再学习用的模拟现场图像的属性组间协方差矩阵和属性组内协方差矩阵，使用在步骤S81取得到的正解属性值和在步骤S82提取到的模拟现场图像的脸部特征量数据来计算。

另外，Σ_{B_ini}及Σ_{W_ini}是初始协方差矩阵，是使用了模拟现场图像的再学习前的属性组间协方差矩阵和属性组内协方差矩阵。在步骤S81取得到的与初始推定模型相关的数据是该初始协方差矩阵。在本实施方式中，这些初始协方差矩阵例如可以使用用于生成模拟现场图像的带正解属性值的标准图像而预先生成。另外，λ是取0至1之间的值的加权系数。例如，若再学习用的数据充分存储，则更大地设定λ，能够在协方差矩阵、进一步特征空间投影矩阵W中进一步反映模拟现场图像的特征量。

属性组间协方差矩阵Σ_B、属性组内协方差矩阵Σ_W分别根据以下的式(9)、式(10)求算。

【数学式9】

Σ_{B} = Σ_{j = 1}^{C} (μ_{j} - μ) {(μ_{j} - μ)}^{T}

式(9)

【数学式10】

Σ_{W} = Σ_{j = 1}^{C} Σ_{i = 1}^{n_{j}} (μ_{ji} - μ) {(μ_{ji} - μ)}^{T}

式(10)

其中，C是属性组数。在本实施方式中，关于性别，C＝2，关于年龄，C＝10(0至10岁，10至20岁，…90至100岁)。另外，n_j表示属性组编号j的采样数，μ_j表示属性组j的平均脸部特征量，μ表示所有采样的平均脸部特征量，x_i表示各个图像的脸部特征量。

如上所述，通过再学习而更新了特征空间投影矩阵W，之后进行属性推定函数的更新(步骤S84)。属性推定函数如上所述地能够记述作特征空间投影后的特征量y的函数f(y)，但也能够使用投影前的特征量向量x和特征空间投影矩阵W，如式(11)那样记述作x的函数f(x)。

【数学式11】

f(x)＝b^T·y＝b^TW^Tx 式(11)

因此，伴随着特征空间投影矩阵W的更新，属性推定函数f(x)也被更新。

如上所述，在本实施方式中，作为用于属性推定的模型的特征空间投影矩阵W及属性推定函数f(x)通过使用了模拟现场图像的特征量和正解属性值的再学习而被更新。

(拍摄环境推定部的详细结构)

接着，对于本实施方式中的拍摄环境推定部12的详细结构，参照附图进行说明。图9是表示拍摄环境推定部12的结构的框图。如图9所示，拍摄环境推定部12具备输入图像取得部121、脸部检测部122、脸部朝向推定部123、照明状态推定部124、统计部125。

输入图像取得部121取得拍摄到的图像，更具体而言，取得由相机10的图像生成部11生成的帧图像，并向脸部检测部122输出。脸部检测部122对取得到的图像内的脸部区域进行检测，将取得到的图像中的脸部区域的局部图像与图像内的位置信息一起向脸部朝向推定部123、照明状态推定部124、统计部125输出。

脸部朝向推定部123推定从脸部检测部122取得到的局部图像所包含的脸部的朝向，并将与脸部朝向相关的数据向统计部125输出。脸部朝向角度的推定能够通过各种方法来进行。例如，能够基于学习用采样脸部图像的特征量和从脸部检测部122取得到的脸部图像的特征量之间的距离，使用k近邻算法进行推定。

照明状态变动部124算出取得到的脸部区域的局部图像中的亮度对比度，并向统计部125输出。亮度对比度C通过以下的式(12)来计算。

【数学式12】

C = \frac{I_{\max} - I_{\min}}{I_{\max} + I_{\min}}

式(12)

在式(12)中，I_min为脸部区域的最小亮度值，I_max为脸部区域的最大亮度值。

统计部125对作为输入图像的各帧图像内的脸部检测区域进行分类，确定最多地检测到脸部的图像内的区域作为代表性的脸部检测区域。另外，统计部125使用从脸部朝向推定部123取得到的数据，算出代表性的脸部检测区域中的脸部的朝向的分布。统计部125还使用从照明状态推定部124取得到的数据，算出代表性的脸部检测区域中的亮度对比度的分布。统计部125将脸部朝向分布数据和亮度对比度数据向拍摄环境数据存储部21输出。

这样一来，拍摄环境推定部12具备用于以通过拍摄在相机10内生成的图像为基础而算出与基于相机10的拍摄环境相关的数据的结构。

如上所述，根据第一实施方式的人物属性推定系统，将使用表示相机10的拍摄环境的数据对标准图像进行变换后的图像即模拟现场图像作为再学习用的采样图像，并使用与标准图像建立对应的属性数据作为模拟现场图像的正解属性数据，进行用于属性推定的模型的再学习，因此不需要繁杂的作业，能够重构反映了相机10的实际的利用现场的拍摄环境的模型，能够提高年龄段、性别这样的人物的属性的推定的精度。

需要说明的是，在上述的实施方式中，作为拍摄环境数据，使用了与脸部朝向和照明状态相关的数据，但除此以外，也可以使用与由图像传感器噪声、JPEG压缩等引起的块失真、对焦方式等相机自身的性质或相机的设定引起的各种相机噪声相关的数据。与相机噪声相关的数据可以使用从图像生成部10取得到的利用现场的拍摄图像来计算，若相机噪声的相关数据已知，则也可以将其输入。

另外，作为拍摄环境数据，也可以考虑相机10周边的照度的时间性变动，对各时间段生成不同的模拟现场图像和推定模型，根据属性推定的时刻来选择推定模型，并进行人物属性推定。

[第二实施方式]

接着，说明第二实施方式的人物属性推定系统。在第二实施方式中，根据标准图像而生成反映了相机的利用现场的拍摄环境的模拟现场图像这方面与第一实施方式同样。在第二实施方式中，为了进一步提高推定精度，具备用于生成在所生成的模拟现场图像中反映了相机10的实际的利用现场中的相机噪声等的新图像并将其作为再学习用的图像数据的结构。

图10是表示第二实施方式的人物属性系统的结构的图。相机10和属性推定装置30的结构与第一实施方式相同。另外，在再学习控制系统20中，具备拍摄环境数据存储部21、标准图像存储部22、模拟现场图像生成部23、再学习用数据存储部24、推定模型再学习部25这方面也与第一实施方式相同。除此之外，在本实施方式中，再学习控制系统20还具备模拟现场图像存储部26、模拟现场图像输出部27、模拟现场图像拍摄图像取得部28。

模拟现场图像存储部26对在模拟现场图像生成部22中生成的模拟现场图像进行存储。模拟现场图像输出部27输出存储于模拟现场图像存储部26的模拟现场图像。模拟现场图像输出部27与打印机、平板PC等未图示的预定单元连接，并对这些单元输出模拟现场图像数据。所输出的模拟现场图像例如向纸等印刷、显示在平板PC的显示器上等而进行可视化。

在由相机10拍摄到从模拟现场图像输出部27输出且出现模拟现场图像的被摄体(印刷物、显示器等)的情况下，相机10的图像生成部11生成其图像并向再学习控制系统20输出。

模拟现场图像拍摄图像取得部28取得由图像生成部11生成的作为模拟现场图像的拍摄图像的图像，并向再学习用数据存储部24输出。即，模拟现场图像拍摄图像是在相机10的利用现场中由相机10拍摄出现模拟现场图像的被摄体而得到的图像。这样一来，通过在利用现场实际拍摄模拟现场图像，能够得到更真实地再现了相机的噪声、照明状况的图像。

再学习用数据存储部24与第一实施方式同样地，存储初始协方差矩阵数据作为与成为更新对象的推定模型相关的数据。另外，再学习用数据存储部24存储模拟现场图像拍摄图像作为再学习用图像数据，并存储与标准图像建立对应的正解属性值作为再学习用正解属性数据。

作为再学习用图像数据的模拟现场图像拍摄图像与作为再学习用正解属性数据的标准图像的属性值的建立关联通过各种方法来实现。例如，如图11所示，模拟现场图像输出部27可以使用标准图像的正解属性值，对各属性值(在此着眼于性别作为属性)排列输出模拟现场图像，并且在切换属性时，插入能够识别不是脸部图像的作为记号的数据而输出。通过按照输出的顺序进行拍摄，能够对各属性值进行汇总而简易地进行模拟现场图像拍摄图像与正解属性值数据的建立对应。也可以将其取代，模拟现场图像输出部27对于各模拟现场图像，与表示正解属性值、对应的标准图像的ID的条形码一起输出模拟现场图像，基于拍摄到的条形码，对模拟现场图像拍摄图像进行属性值的建立关联。

推定模型再学习部25使用存储于再学习用数据存储部24的数据来进行属性推定模型的再学习。即，在本实施方式中，取代模拟现场图像，使用模拟现场图像拍摄图像，提取其特征量，在此基础上，进行推定模型的再学习。

图12是表示第二实施方式中的拍摄环境推定部12的结构的图。如本实施方式那样，在实际在相机10的利用现场拍摄模拟现场图像的情况下，相机的噪声和该利用现场中的照明状态能够从拍摄了出现该模拟现场图像的被摄体的图像得知。因此，在本实施方式中，拍摄环境推定部12不具备第一实施方式中的照明状态推定部124。

在本实施方式中，也与第一实施方式的情况同样，统计部125对代表性的脸部检测区域进行确定。相机10对模拟现场图像的拍摄优选在模拟现场图像的脸部来到通过统计部125确定的代表性的脸部检测区域那样的位置对模拟现场图像的可视化物进行提示来进行。

如上所述，根据第二实施方式的属性推定系统1，生成反映了相机10的拍摄环境的模拟现场图像，使用由相机10拍摄了出现该模拟现场图像的被摄体的图像来进行推定模型的再学习，因此能够生成更准确地反映了相机10的拍摄环境的推定模型。

需要说明的是，也可以根据模拟现场图像来生成三维的人物模型，并将其作为被摄体，生成模拟现场图像拍摄图像。

[其他的变形例]

在上述的实施方式中，说明了根据相机10的生成图像来检测被摄体的脸部区域并推定被摄体的属性的情况，但也可以使用脸部区域以外的人物的局部区域图像来推定属性。在这种情况下，也可以取代上述的实施方式中的代表性的脸部检测区域，取得代表性的人物检测区域中的拍摄环境数据，来生成模拟现场图像，并生成推定模型。而且，作为推定对象的属性可以仅是年龄(年龄段)或性别，并不局限于年龄、性别，也可以是人种、社会性的地位或分类(高中生、参加工作的人、老人等)。

另外，在上述的实施方式中，举例说明了与脸部的朝向相关的数据及与照明状态相关的数据、相机噪声作为拍摄环境数据，但是拍摄环境数据也可以是与可能会对拍摄图像造成影响的其他原因相关的数据。另外，在上述的实施方式中，页可以将几个拍摄环境数据任意组合，或者仅使用任一个拍摄环境数据，来生成模拟现场图像。

另外，在上述的实施方式中，说明了通过对作为人物的图像的标准图像进行加工而生成模拟现场图像的情况，但是例如也可以通过立体相机来拍摄人物，对用于生成人物的三维图像的多边形数据那样的人物模型数据进行加工来生成模拟现场图像。

另外，在上述的实施方式中，说明了相机10具备拍摄环境推定部11且属性推定装置30具备推定模型存储部31的情况，但是也可以由再学习控制系统20具备拍摄环境推定部及/或推定模型存储部。另外，可以由相机10或属性推定装置30具备再学习控制服务器的结构，也可以由相机10具备属性推定装置30的结构。而且，相机10、再学习控制服务器20、属性推定装置30的动作也可以全部通过一个装置来实现。

另外，在上述的实施方式中，说明了属性推定装置30具备初始推定模型且初始推定模型通过使用了模拟现场图像的再学习而更新的情况，但属性推定装置30可以不具备初始推定模型，也可以从一开始将通过使用了模拟现场图像的学习而生成的推定模型用于属性推定。另外，推定模型的再学习可以伴随着相机的设置场所的变更、标准图像的追加等而反复进行。

另外，在上述的实施方式中，说明了根据通过相机10生成的拍摄图像来算出拍摄环境数据的情况，但拍摄环境数据可以通过使用者以手动进行输入，也可以从设置在相机10的利用现场的传感器等取得。例如，在以对进入到店铺的顾客的脸部从其正面向左倾斜30度、向上倾斜20度的方向进行拍摄的方式设置相机10的情况下，在拍摄图像中，来店顾客的脸部以向右约30度、向下约20度的状态被拍摄。所拍摄的脸部朝向可能根据人物的身高而变化，因此也可以加入各年龄段的平均身高。这样一来，在能够得到直接表示拍摄环境的数据时，也可以不进行步骤S21中的拍摄图像的取得及作为其前提的相机10的拍摄。

另外，在上述的实施方式中，说明了按照线性判别法进行属性推定的情况，但也可以使用核回归或高斯混合分布模型等来推定属性。在上述的实施方式中，与初始推定模型相关的数据预先存储于再学习用数据存储部，但是也可以在进行推定模型的再学习时，从推定模型存储部取得初始推定模型或与之相关的数据来进行再学习。

以上说明了在当前考虑到的本发明的优选的实施方式，但是能够对本实施方式进行多种多样的变形，并且，意图在于本发明的真实的主旨和范围内的全部的变形包括于所附的权利要求。

工业实用性

本发明的属性推定系统具有能够根据实际的拍摄环境来进行精度良好的属性推定这样的效果，作为使用通过学习而生成的推定模型来推定人物的属性的人物属性推定系统等是有用的。

附图标记说明

1 人物属性推定系统

10 相机

11 图像生成部

12 拍摄环境推定部

121 输入图像取得部

122 脸部检测部

123 脸部朝向推定部

124 照明状态推定部

125 统计部

20 再学习控制系统

21 拍摄环境数据存储部

22 标准图像存储部

23 模拟现场图像生成部

24 再学习用数据存储部

25 推定模型再学习部

26 模拟现场图像存储部

27 模拟现场图像输出部

28 模拟现场图像拍摄图像取得部

30 人物属性推定装置

31 推定模型存储部

32 属性推定部

321 拍摄图像取得部

322 脸部检测部

323 脸部特征提取部

324 属性计算部

Claims

1.一种人物属性推定系统，其特征在于，具备：

相机，拍摄属性推定对象人物而生成图像；

属性推定部，使用推定模型来推定所述相机所生成的图像中拍到的人物的属性；

拍摄环境数据取得部，取得表示由所述相机对所述属性推定对象人物进行拍摄的拍摄环境的拍摄环境数据；

标准图像取得部，取得作为人物图像的标准图像；

模拟现场图像生成部，根据所述拍摄环境数据对所述标准图像的数据进行加工，由此生成使所述拍摄环境反映于所述标准图像中的模拟现场图像；及

学习部，使用所述模拟现场图像来进行所述推定模型的学习。

2.根据权利要求1所述的人物属性推定系统，其特征在于，

所述学习部使用模拟现场图像拍摄图像作为学习用图像数据来进行所述推定模型的学习，所述模拟现场图像拍摄图像是在由所述相机对所述属性推定对象人物进行拍摄的拍摄环境下利用所述相机对出现所述模拟现场图像的被摄体进行拍摄而得到的。

3.根据权利要求1所述的人物属性推定系统，其特征在于，

所述学习部使用由所述模拟现场图像生成部生成的所述模拟现场图像作为学习用图像数据来进行所述推定模型的学习。

4.根据权利要求1～3中任一项所述的人物属性推定系统，其特征在于，

将表示作为被摄体的人物的属性的属性数据与所述标准图像建立对应，

所述学习部使用与用于生成所述模拟现场图像的所述标准图像对应的属性数据作为学习用正解属性数据来进行所述推定模型的学习。

5.根据权利要求1～4中任一项所述的人物属性推定系统，其特征在于，

所述人物属性推定系统还具备基于由所述相机生成的图像来算出所述拍摄环境数据的拍摄环境推定部，

所述拍摄环境数据取得部取得由所述拍摄环境推定部算出的所述拍摄环境数据。

6.根据权利要求1～5中任一项所述的人物属性推定系统，其特征在于，

所述拍摄环境数据包含表示通过所述相机对所述属性推定对象人物进行拍摄的场所的照明状态的数据，

所述模拟现场图像生成部根据表示所述照明状态的数据对所述标准图像进行变换，由此生成所述模拟现场图像。

7.根据权利要求1～6中任一项所述的人物属性推定系统，其特征在于，

所述属性推定部基于所述图像中的脸部区域的局部图像来推定所述相机所生成的图像中拍到的人物的属性，

所述拍摄环境数据包含通过所述相机对所述属性推定对象人物进行拍摄时的与脸部的朝向相关的数据，

所述标准图像是包含人物的脸部的图像，

所述模拟现场图像生成部根据所述与脸部的朝向相关的数据对所述标准图像的脸部的朝向进行变换，由此生成所述模拟现场图像。

8.根据权利要求1～7中任一项所述的人物属性推定系统，其特征在于，

所述拍摄环境数据是通过所述相机生成的图像内的一个以上代表性人物检测区域中的各个代表性人物检测区域的拍摄环境数据。

9.根据权利要求8所述的人物属性推定系统，其特征在于，

所述模拟现场图像生成部使用所述各个代表性人物检测区域的拍摄环境数据来生成所述各个代表性人物检测区域的模拟现场图像，

所述学习部对所述各个代表性人物检测区域进行所述推定模型的学习，

所述属性推定部根据所述相机所生成的图像中拍到的人物的检测位置，选择所述推定模型，并推定所述人物的属性。

10.一种学习用数据生成装置，在人物属性推定系统中使用，生成用于学习人物属性推定用的推定模型的学习用数据，所述人物属性推定系统具备拍摄属性推定对象人物而生成图像的相机和对所述相机所生成的图像中拍到的人物的属性进行推定的属性推定部，

所述学习用数据生成装置的特征在于，具备：

标准图像取得部，取得作为人物图像的标准图像；及

模拟现场图像生成部，根据所述拍摄环境数据而对所述标准图像的数据进行加工，由此生成使所述拍摄环境反映于所述标准图像中的模拟现场图像，

使用所述模拟现场图像或者模拟现场图像拍摄图像来生成所述学习用数据，所述模拟现场图像拍摄图像是在通过所述相机对作为所述属性推定对象的人物进行拍摄的环境下由所述相机对出现所述模拟现场图像的被摄体进行拍摄而得到的。

11.根据权利要求10所述的学习用数据生成装置，其特征在于，

所述学习用数据包含：作为学习用图像数据的所述模拟现场图像或所述模拟现场图像拍摄图像；及属性数据，是学习用正解属性数据，且与用于生成所述模拟现场图像的所述标准图像建立有对应。