JP5899472B2

JP5899472B2 - 人物属性推定システム、及び学習用データ生成装置

Info

Publication number: JP5899472B2
Application number: JP2012117129A
Authority: JP
Inventors: 純西村; 宏明由雄; 伸山田; 隆行松川
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2012-05-23
Filing date: 2012-05-23
Publication date: 2016-04-06
Anticipated expiration: 2032-05-23
Also published as: WO2013175792A1; CN104221054A; EP2854105A1; CN104221054B; EP2854105A4; JP2013242825A; US20150086110A1

Description

本発明は、人物の画像から人物の属性（例えば、年齢や性別）を推定する人物属性推定システム、及び学習用データ生成装置に関し、特に、学習により生成される推定モデルを用いて人物の属性を推定する人物属性推定システム、及び学習用データ生成装置に関するものである。

従来、コンビニエンスストア等の店舗において、来店客の客層を分析するために、店舗の入口付近等において来店客を撮影し、その画像から来店客の属性を推定する人物属性推定システムが知られている。かかる人物属性推定システムは、撮影された映像の各フレーム画像から被写体の顔領域を検出して、検出された顔について、年齢、性別等の属性を推定するものであり、予め作成された属性推定のためのモデルが、製造・出荷の時点で記憶されている。

例えば、特許文献１には、オフライントレーニングシステムを構成するコンピュータで、属性が既知である人物の顔画像をそれぞれ含む複数枚のサンプル画像データと、個々の人物の属性とを対応付けた学習サンプルデータを用いて学習を行うことにより、属性識別辞書を作成するとともに、この属性識別辞書を予め格納するコンピュータにおいて、属性識別辞書を参照して、接続されたカメラにより撮影された人物の属性を識別する技術が開示されている。

特開２００６−３２３５０７号公報

しかしながら、特許文献１のような従来技術においては、学習用のサンプル画像は、属性推定対象となる人物が撮影される環境、すなわち、実際のカメラの設置場所の環境とは異なる環境において撮影されたものであるため、かかるサンプル画像を用いて生成された推定モデルには実際の利用現場の撮影環境が反映されず、したがって、実際の利用に供された際に、精度よく人物の属性を推定することが困難であるという課題があった。

より具体的には、複数の学習用サンプル画像は、例えば、全て同じ照度の下、全て正面から人物の顔を撮影した画像であるのが一般的である。したがって、当該照度と同じ照度の下で、正面から来店客等を撮影するのであれば、これらのサンプル画像をもとに生成された推定モデルに基づいても、精度よく人物の属性を推定することができるのに対し、当該照度とは異なる照度の下、正面以外の方向から来店客等を撮影する場合には、属性推定の精度が低下することがある。

このような精度の低下を防ぐには、店舗等の現場に設置されたカメラにより実際に撮影された画像を学習用サンプル画像として持ち帰り、正解属性データと対応付けた上で改めて推定モデルを生成し直す手法も有効ではある。ところが、かかる手法では、実際の利用現場において、様々な属性の被写体を何人も撮影したり、数千ないし数万というオーダーの大量のサンプル画像の１つ１つに対して、推定モデルを生成するための正解属性データの付与を行うなどの煩雑な作業が必要となる。

本発明は、上記の問題に鑑みてなされたものであり、煩雑な作業を要することなく、属性推定の対象となる人物が撮影される環境に応じて、精度よく人物の属性を推定することができる人物属性推定システム、及び学習用データ生成装置を提供することを目的とする。

本発明の人物属性推定システムは、属性推定対象人物を撮影して画像を生成するカメラと、前記カメラが生成した画像に写っている人物の属性を、推定モデルを用いて推定する属性推定部と、前記カメラによる前記属性推定対象人物の撮影環境を示す、撮影環境データを取得する撮影環境データ取得部と、人物画像である標準画像を取得する標準画像取得部と、前記撮影環境データに応じて前記標準画像のデータを加工することにより、前記標準画像に前記撮影環境を反映させた疑似現場画像を生成する疑似現場画像生成部と、前記疑似現場画像を用いて前記推定モデルの学習を行なう学習部とを備えた構成を有している。

この構成によれば、どのような撮影環境の下で属性推定対象となる人物が撮影されるかを示す撮影環境データと、人物画像である標準画像とをもとに、実際に人物を現場にて撮影したかのような疑似現場画像が生成され、この疑似現場画像を用いて推定モデルの学習が行われるので、カメラの利用現場の状況やカメラの状態等の撮影環境を反映した、精度の良い属性推定のためのモデルを生成して利用することができる。

また、上記の人物属性推定システムにおいて、前記学習部は、前記カメラによる前記属性推定対象人物の撮影環境において、前記カメラで前記疑似現場画像が現出した被写体を撮影することにより得られた疑似現場画像撮影画像を学習用画像データとして用いて前記推定モデルの学習を行うものであってよい。

この構成によれば、標準画像をもとに生成された疑似現場画像が現出した被写体を、属性推定対象の人物の撮影を行う利用現場又はそれを想定した環境において撮影することで、この撮影画像が、属性推定モデル生成のための学習用サンプル画像として用いられるので、カメラノイズ等、実際の撮影環境をさらによく反映した、精度の良い属性推定のためのモデルを生成して利用することができる。

また、上記の人物属性推定システムにおいて、前記学習部は、前記疑似現場画像生成部にて生成された前記疑似現場画像を学習用画像データとして用いて前記推定モデルの学習を行なうものであってよい。

この構成によれば、標準画像をもとに生成された疑似現場画像が属性推定モデル生成のための学習用サンプル画像として用いられるので、実際の撮影環境を反映した、精度の良い属性推定のためのモデルを、簡易に生成して利用することができる。

また、上記の人物属性推定システムにおいて、前記学習部は、前記疑似現場画像の生成に用いられた前記標準画像に対応する属性データを、学習用正解属性データとして用いて前記推定モデルの学習を行うものであってよい。

この構成によれば、標準画像の属性データを、学習用画像データである疑似現場画像又は疑似現場画像撮影画像の正解属性データとして用いて、推定モデルの学習を行うので、学習用画像データと正解属性データとの対応付けを簡易な構成により実現することができ、属性推定モデルの学習を行うことができる。

また、上記の人物属性推定システムは、前記カメラで生成された画像に基づき、前記撮影環境データを算出する撮影環境推定部をさらに備え、前記撮影環境データ取得部は、前記撮影環境推定部で算出された前記撮影環境データを取得するものであってよい。

この構成によれば、実際の撮影画像に基づき算出された撮影環境データが、推定モデルの学習に用いられる疑似現場画像の生成に用いられるので、例えば、利用現場において撮影環境データ算出のための画像を撮影することで、撮影画像から把握される撮影環境を、疑似現場画像及び推定モデルに反映させることができる。

また、上記の人物属性推定システムにおいて、前記撮影環境データは、前記カメラにより前記属性推定対象人物が撮影される場所における照明状態を示すデータを含み、前記疑似現場画像生成部は、前記照明状態を示すデータに応じて、前記標準画像を変換することにより、前記疑似現場画像を生成してよい。

この構成によれば、実際の利用現場の照明状態に応じて標準画像を変換し、疑似現場画像が生成されるので、属性推定の精度に影響を与える要因である、利用現場の照明状態を反映した属性推定モデルを生成し、利用することができる。

また、上記の人物属性推定システムにおいて、前記属性推定部は、前記カメラが生成した画像に写っている人物の属性を、前記画像中の顔領域の部分画像に基づき推定するものであり、前記撮影環境データは、前記属性推定対象人物が、前記カメラにより撮影される場合の顔の向きに関するデータを含み、前記標準画像は、人物の顔を含む画像であって、前記疑似現場画像生成部は、前記顔の向きに関するデータに応じて、前記標準画像の顔の向きを変換することにより、前記疑似現場画像を生成してよい。

この構成によれば、属性推定対象となる人物の顔向きとして予想される、撮影環境データとしての顔の向きに関するデータに応じて標準画像を変換し、疑似現場画像が生成されるので、撮影画像の人物の顔領域に着目して行う属性推定に適した推定モデルを生成し、利用することができる。

また、上記の人物属性推定システムにおいて、前記撮影環境データは、前記カメラにより生成される画像内の１つ以上の代表的な人物検出領域ごとの撮影環境データであってよい。

この構成によれば、代表的な人物検出領域、すなわち、撮影画像内で属性推定対象人物の検出が予想される部分領域についての撮影環境データを用いて疑似現場画像が生成されるので、実際の属性推定に適した形で撮影環境データを反映させた推定モデルを生成し、利用することができる。

また、上記の人物属性推定システムにおいて、前記疑似現場画像生成部は、前記代表的な人物検出領域ごとの撮影環境データを用いて、前記代表的な人物検出領域ごとの疑似現場画像を生成し、前記学習部は、前記代表的な人物検出領域ごとに、前記推定モデルの学習を行い、前記属性推定部は、前記カメラが生成した画像に写っている人物の検出位置に応じて、前記推定モデルを選択して、前記人物の属性を推定するものであってよい。

この構成によれば、属性推定対象人物の検出が予想される代表的人な物検出領域が複数ある場合、各領域ごとに、撮影環境データの反映が異なりうるところ、代表的な人物検出領域ごとの撮影環境データを用いて、それぞれの疑似現場画像及び推定モデルを生成し、人物属性推定の際には、対象人物がどの代表的な人物検出領域（またはそれに近い位置）に写っているかに応じて、推定モデルを使い分け、より精度よく属性推定を行うことができる。

本発明の学習用データ生成装置は、属性推定対象人物を撮影して画像を生成するカメラと、前記カメラが生成した画像に写っている人物の属性を推定する属性推定部とを備えた人物属性推定システムにおいて使用される、人物の属性推定のための推定モデルの学習に用いる学習用データを生成する学習用データ生成装置であって、前記カメラによる前記属性推定対象人物の撮影環境を示す、撮影環境データを取得する撮影環境データ取得部と、人物画像である標準画像を取得する標準画像取得部と、前記撮影環境データに応じて前記標準画像のデータを加工することにより、前記標準画像に前記撮影環境を反映させた疑似現場画像を生成する疑似現場画像生成部とを備え、前記疑似現場画像、又は前記カメラにより前記属性推定対象の人物が撮影される環境において前記カメラで前記疑似現場画像が現出した被写体を撮影することにより得られた疑似現場画像撮影画像を用いて前記学習用データを生成する構成を有している。

この構成によれば、どのような撮影環境の下で属性推定対象となる人物が撮影されるかを示す撮影環境データと、標準画像とをもとに、実際に人物を現場にて撮影したかのような疑似現場画像が生成され、この疑似現場画像又は疑似現場画像を利用現場環境の下で撮影した疑似現場画像撮影画像を用いて、属性推定モデルの学習用の画像データが生成されるので、カメラの利用現場の状況やカメラの状態等を反映した、精度の良いモデルの生成のための学習用データを生成することができる。

また、上記の学習用データ生成装置において、前記学習用データは、学習用画像データである前記疑似現場画像又は前記疑似現場画像撮影画像と、学習用正解属性データであって、前記疑似現場画像の生成に用いられた前記標準画像に対応する属性データとを含むものであってよい。

この構成によれば、疑似現場画像又は疑似現場画像撮影画像を学習用画像データとして、疑似現場画像の生成に用いられた標準画像に対応する属性データが学習用正解データとなるので、簡易に学習用データを生成することができる。

本発明によれば、撮影環境データに応じて標準画像のデータを加工することにより疑似現場画像が生成され、この疑似現場画像を用いて、属性推定のための推定モデルの学習による生成が行われるので、実際の撮影環境に応じた、精度の良い属性推定が可能となる。

本発明の第１の実施の形態における人物属性推定システムの構成を示すブロック図本発明の第１の実施の形態における人物属性システムの動作フロー図（ａ）本発明の第１の実施の形態におけるカメラの設置状況の一例を示す図（ｂ）本発明の第１の実施の形態におけるカメラで撮影された画像の一例を示す図（ａ）本発明の第１の実施の形態における撮影画像の顔向き角度のデータの分布の一例を示す図（ｂ）本発明の第１の実施の形態における撮影画像の輝度コントラストのデータの分布の一例を示す図（ａ）本発明の第１の実施の形態における標準画像の一例を示す図（ｂ）本発明の第１の実施の形態における標準画像の一例を示す図（ｃ）本発明の第１の実施の形態における疑似現場画像の一例を示す図（ｄ）本発明の第１の実施の形態における疑似現場画像の一例を示す図本発明の第１の実施の形態における属性推定部の構成を示すブロック図本発明の第１の実施の形態における属性推定のための特徴量の変換を説明する図本発明の第１の実施の形態における推定モデル再学習部の動作フロー図本発明の第１の実施の形態における撮影環境推定部の構成を示すブロック図本発明の第２の実施の形態における人物属性推定システムの構成を示すブロック図本発明の第２の実施の形態における疑似現場画像撮影画像と正解属性データの関連付けの一例を説明する図本発明の第２の実施の形態における撮影環境推定部の構成を示すブロック図

以下、本発明を実施するための形態について、図面を参照しながら説明する。本発明は、人物の属性を推定する人物属性推定システム、及び学習用データ生成装置に関するが、以下の実施の形態では、人物の属性として、人物の年齢（年代）及び性別を推定する場合について説明する。

［第１の実施の形態］
図１は、本発明の第１の実施の形態の人物属性推定システムの構成を示す図である。人物属性推定システム１は、カメラ１０、再学習制御システム２０、人物属性推定装置３０を備えている。カメラ１０、再学習制御システム２０、人物属性推定装置３０は、それぞれ、図示しない通信ユニットを備え、相互に接続される。なお、再学習制御システム２０は、ネットワーク上のサーバないしサーバ群により実現され、人物属性推定装置３０とともに、クラウド・コンピューティングシステムを形成する。

カメラ１０は、属性推定の対象となる人物を撮影する。人物属性推定装置３０は、カメラ１０で撮影された人物の属性を、顔領域の画像に基づいて推定する。再学習制御システム２０は、人物属性推定装置３０が、カメラ１０で撮影された人物の属性を推定する際に用いられる推定モデルを、再学習により更新して人物属性推定装置３０に提供する。

カメラ１０は、年代及び性別を推定したい不特定多数の人物（属性推定対象の人物）が通る場所を撮影するように設置される。例えば、店舗の入口から入ってくる客の顔を撮影するように店舗内の高所に設置される。したがって、属性推定対象となる人物の顔は、カメラ１０により正面から撮影されるとは限らないし、撮影時の照明や自然光の状態（光源の方向、照度等）などの照明状態も、カメラ１０が設置される場所や、撮影時刻等により変わりうる。すなわち、カメラ１０が設置される利用現場が異なれば、属性推定の対象となる人物の画像が、どのような環境で撮影されるかも異なることになる。

カメラ１０は、画像生成部１１と、撮影環境推定部１２とを備える。このうち、画像生成部１１は、映像として、連続的なフレーム画像を生成する。あるいは、所定の時間間隔での撮影のたびに、静止画像を生成するものであってもよい。このように生成された画像は、実際に人物属性の推定を行う場合には、人物属性推定装置３０に提供され、人物属性推定のためのモデルを生成する際には、撮影環境推定部１２に出力される。

撮影環境推定部１２は、カメラ１０による人物の撮影環境を推定し、撮影環境を示すデータを算出する。ここで、撮影環境とは、撮影される人物の顔の向き、撮影された顔画像の輝度コントラスト等、生成される画像の内容に影響を与えうる、カメラの設置位置（カメラの設置高さ、レンズ方向等）や、撮影時のカメラ周辺の照明や自然光の状態（光源の方向、照度等）等の、カメラ１０自体ないしカメラ１０周辺の状態をいう。このような撮影環境は、撮影された画像に反映されうるので、本実施の形態では、撮影された画像をもとに、撮影環境を推定させるデータを算出する。撮影環境を推定させるデータとは、本実施の形態においては、具体的には、生成された画像における人物の顔向き角度（上下・左右）分布と、顔領域における輝度コントラスト分布についてのデータである。算出されたデータは、撮影環境データとして、再学習制御システム２０に提供される。

再学習制御システム２０は、撮影環境データ記憶部２１、標準画像記憶部２２、疑似現場画像生成部２３、再学習用データ記憶部２４、推定モデル再学習部２５を備える。これらすべてを一つのサーバが備えてもよいし、ネットワーク上で接続される複数のサーバが分担して備えてもよい。

撮影環境データ記憶部２１は、カメラ１０の撮影環境推定部にて算出された、撮影環境を示すデータである、撮影環境データを記憶する。標準画像記憶部２２には、複数の顔画像が、それぞれ、正解値としての属性値と対応付けて記憶されている。本実施の形態では、推定対象となる属性値は、年代と性別であるから、正解値として対応付けられる属性値も、年代（年齢）及び性別を含む。標準画像記憶部２２に記憶される標準画像は、異なる利用現場に設置されるカメラ１０に共通に提供され得る。したがって、標準画像として記憶される複数の顔画像は、カメラ１０の設置場所以外の実験室等で、人物の正面から撮影されたものであってよい。

疑似現場画像生成部２３は、撮影環境データ記憶部２１及び標準画像記憶部２２からデータを読み出し、撮影環境データを用いて、標準画像データから疑似現場画像を生成する。疑似現場画像とは、標準画像にカメラ１０の撮影環境を反映させて生成される画像である。このようにして生成される画像は、利用現場、すなわち、カメラ１０が実際に設置される場所において取得されるであろう仮想的な撮影画像とみることができる点で、「疑似現場画像」と呼ぶことができる。生成された疑似現場画像は、再学習用データ記憶部２４に出力される。

再学習用データ記憶部２４には、生成された疑似現場画像と、当該疑似現場画像の生成に用いられた標準画像データに対応付けられた正解値としての属性値とが対応付けられて、再学習用データとして格納されている。また、本実施の形態では、再学習により更新されることとなる、属性推定装置３０が予め備える推定モデルに関するデータも格納されている。再学習用データ記憶部２４に記憶されるこれらのデータは、推定モデル再学習部２５に出力される。

推定モデル再学習部２５は、再学習用データを用いて、推定モデルの再学習を行う。再学習により更新された推定モデルは、人物属性推定装置３０に提供される。

人物属性推定装置３０は、推定モデル記憶部３１、属性推定部３２を備える。推定モデル記憶部３１には、人物属性推定装置３０の製造・出荷の時点において、標準画像記憶部２２に記憶されるような、汎用的な正解付き顔画像による学習により生成された初期推定モデルが格納されている。推定モデル記憶部３１は、推定モデル再学習部２５から取得した新たな推定モデルを、属性推定部３２に出力する。

属性推定部３２は、カメラ１０により撮影された画像を取得し、推定モデルを用いて、当該画像に含まれる人物の年代、性別を推定する。

次に、人物属性推定システム１の動作を、図２から図６を用いて説明する。

まず、実際の利用現場、すなわち、属性推定対象となる人物の撮影場所において、カメラ１０により撮影された人物の顔を含む画像を取得する（ステップＳ２１）。ステップＳ２１における人物撮影画像取得の目的は、カメラ１０の撮影環境に関する情報を得ることである。したがって、カメラ１０を実際の利用現場に設置し、あるいは、実際の利用現場を想定した場所において撮影が行われることが好ましい。

カメラ１０が、映像として、連続的なフレーム画像を生成する場合、同一人物の顔の位置が徐々に変化する複数の連続的なフレーム画像が生成されるが、本実施の形態では、その中から、代表的な顔検出領域に顔が写っているフレーム画像が選択される。代表的な顔検出領域とは、撮影された画像において属性推定対象人物の顔領域の検出が予想される部分領域のことであり、具体的には、カメラ１０により生成されたフレーム画像において、人物の顔領域が検出される回数が多かった１以上の部分領域のことをいう。画像中、どの位置に人物の顔が写るかによって、撮影環境の反映のされ方は異なりうるところ、実際の利用の際に最も多く顔が検出されると予想される部分領域における撮影環境を、後述のように推定モデルに反映することで、より精度よく属性推定を行うことが可能となる。

例えば、図３（ａ）に示すように、店舗の入口Ｄ付近にカメラ１０を設置して、入口Ｄ付近を撮影すると、図３（ｂ）のような画像が得られる。この位置において、Ｄから店舗に入って来る来店客を撮影する場合、図３（ｂ）内の領域Ａ１、Ａ２で、最も多く来店客の顔が写ることが分かれば、これらの領域が代表的な顔検出領域となり、領域Ａ１に来店客の顔が写っているフレーム画像と、領域Ａ２に来店客の顔が写っているフレーム画像が選択されることになる。領域Ａ１と領域Ａ２における顔の向き、照明状況等は異なりうるが、これらの領域における顔の向き、照明状況等がほぼ同じであれば、いずれかの領域に顔を含むフレームのみが選択されてもよい。

次に、ステップＳ２１で撮影された画像を用いて、カメラ１０の撮影環境を推定させるデータとしての、画像における人物の顔向き角度（上下・左右）と、顔領域における輝度コントラストが算出される（ステップＳ２２）。本実施の形態では、これらの撮影環境データが分布により表現されるため、ステップＳ２２においては、多くの撮影画像を用いることが好ましい。なお、ステップＳ２２における撮影環境データの算出処理については、後に詳述する。

図４（ａ）は、ステップＳ２２で算出された、顔向き角度データの分布の一例を模式的にグラフ化したもの、図４（ｂ）は、顔領域における輝度コントラストデータの分布の一例を模式的にグラフ化したものである。図４（ａ）の例では、図３（ｂ）の領域Ａ１における顔の向きは、下向き１０度、右向き２０度を中心として分布しているのに対し、図３（ｂ）の領域Ａ２における顔の向きは、下向き２０度、左右０度を中心として分布していることが分かる。一方、図４（ｂ）の例では、領域Ａ１におけるコントラストは、６０％が最も多いのに対し、領域Ａ２におけるコントラストは、２０％が最も多いことが分かる。

次に、ステップＳ２２で求めた撮影環境データと、標準画像とを用いて、疑似現場画像が生成される（ステップＳ２３）。疑似現場画像の生成は、言い換えれば、カメラ１０の撮影環境を考慮した、標準画像の変換等の加工である。標準画像の加工に、カメラ１０の撮影環境データが用いられるために、生成された疑似現場画像は、標準画像の被写体である人物を利用現場にて直接撮影して得た画像として利用することができるという意味で、疑似的な現場画像ということができる。疑似現場画像の生成は、ステップＳ２２において、撮影環境データの分布を求めたことにあわせて、本実施の形態では、データの分布に割合に応じて行われる。

図５（ａ）は、標準画像記憶部２２に記憶される、標準画像の例である。標準画像は、正面から撮影された顔画像である。各画像の被写体である人物の年齢、性別は既知であり、図５（ａ）、（ｂ）に示すように、各画像に、それらの属性値が正解値として付与されている。この標準画像の顔の向きとコントラストを、ステップＳ２２で算出した撮影環境データに基づき変換する。図４（ａ）の例では、領域Ａ２における顔の向きは、下向き２０度、右向き０度を中心として分布していた。そこで、標準画像の顔の向きを下向き２０度、右向き０度及びその付近の角度に変換した画像が、図４（ａ）の分布割合にしたがって、領域Ａ２における疑似現場画像として生成される。領域Ａ１についても同様である。

標準画像の顔の向きの変換は、ＡＡＭ（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ）や、３ＤＭｏｒｐｈａｂｌｅＭｏｄｅｌ等の種々の方法により行うことが可能である。これらの手法によるモデルを構築する際、上下方向及び左右方向の顔向き変化に対応するパラメータを設定することで、任意の角度に顔の向きを変換することができる。
このように、ステップＳ２３では、標準画像の顔向きが３次元的に変換されて疑似現場画像が生成される。

さらに、図４（ｂ）の例では、領域Ａ２におけるコントラストは、２０％を中心として分布していた。そこで、標準画像のコントラストが２０％、及びその付近の値となるように、図４（ｂ）の分布割合にしたがって、変換画像が生成される。領域Ａ１についても同様である。このように標準画像を変換することにより生成された疑似現場画像の例を図５（ｃ）、（ｄ）に示す。図５（ｃ）は、図５（ａ）の標準画像の変換により、領域Ａ１における疑似現場画像として生成されたもの、図５（ｄ）は、図５（ｂ）の標準画像の変換により領域Ａ２における疑似現場画像として生成されたものである。

続いて、属性推定のための推定モデルの再学習が行われる（ステップＳ２４）。本実施の形態においては、属性推定装置３０に、予め推定モデルが記憶されており、再学習により、初期推定モデルが更新され、新たな推定モデルが生成される。ステップＳ２３で生成された疑似現場画像は、この推定モデルの再学習に用いられる。より具体的には、生成された疑似現場画像に、正解属性値が付与され、この正解付き疑似現場画像が学習のためのサンプルとして入力される。なお、推定モデルの再学習を行うための処理の流れについては、後に詳述する。

疑似現場画像は、各標準画像を変換して生成されるので、疑似現場画像に対応付けられる正解属性値も、元の標準画像に付されたものが用いられる。学習用の新たなサンプル画像の追加に伴い、通常は、その正解属性値を求めることと、それを新たなサンプル画像に対応付けることが必要となる。これに対し、本実施の形態では、新たなサンプル画像である疑似現場画像の被写体は、標準画像の被写体と同一であるため、標準画像の正解属性値をそのまま対応付ければ足り、煩雑な作業は必要ない。

図５の例では、図５（ｃ）の疑似現場画像は、図５（ａ）の標準画像から、図５（ｄ）の疑似現場画像は、図５（ｂ）の標準画像からそれぞれ生成されたものである。したがって、図５（ｃ）の疑似現場画像と、性別が女、かつ、年代が４０代という属性値が、また、図５（ｄ）の疑似現場画像と、性別が男、かつ、年代が３０代という属性値がそれぞれ組み合わされ、再学習用データとして用いられる。この例では、撮影画像内の領域Ａ１、Ａ２について、それぞれ異なる疑似現場画像が生成されるため、推定モデルの再学習も、このような部分領域ごとに行い、部分領域ごとに異なる推定モデルが生成されてもよい。

そして、このような再学習により得られた推定モデルを用いて、属性推定対象人物の属性推定が行われる（ステップＳ２５）。人物の属性の推定については、後に詳述するが、概略、以下の処理が行われる。すなわち、まず、カメラ１０で撮影された来店客の画像から、顔検出を行い、その顔画像から、特徴量の抽出を行う。この特徴量から、ステップＳ２４にて学習により更新した推定モデルを用いて、当該顔画像の人物の属性である、年代、性別を推定する。

図５の例において、撮影画像内の複数の部分領域において、異なる推定モデルが生成された場合、カメラ１０により撮影された人物の属性推定も、当該人物の顔が撮影画像においてどこに位置するかに応じて、異なる推定モデルを使い分けて行われてもよい。例えば、カメラ１０により撮影された画像中、属性推定対象人物の顔が図３（ｂ）の部分領域Ａ１に近い位置にて検出された場合、領域Ａ１について生成された推定モデルを用いて属性推定が行われてよい。また、部分領域Ａ１に近い位置、Ａ２に近い位置の両方で連続的に人物の顔が検出された場合、より鮮明に人物の顔が写っている方の部分領域の推定モデルを用いて、属性推定が行われるようにしてもよい。

このように、本実施の形態においては、カメラ１０の利用現場環境、すなわち、カメラ１０が実際に設置される場所及びカメラ１０の実際の設置状況を示すデータを用いて、汎用的な顔画像である標準画像が、あたかも、カメラ１０の実際の設置場所にて撮影されたものであるかのように変換される。そして、この疑似現場画像を用いて推定モデルに再学習が施され、更新された推定モデルに基づき、属性推定が行われる。したがって、煩雑な作業なしに、利用現場の撮影環境を反映した、属性推定のための推定モデルを生成することができる。

（属性推定部の詳細な構成）
次に、本実施の形態における属性推定部３２の詳細な構成について、図面を参照して説明する。図６は、属性推定部３２の構成を示すブロック図である。図６に示すように、属性推定部３２は、撮影画像取得部３２１、顔検出部３２２、顔特徴抽出部３２３、属性算出部３２４を備える。

撮影画像取得部３２１は、撮影により、カメラ１０の画像生成部１１にて生成された画像を取得し、顔検出部３２２に出力する。顔検出部３２２は、撮影画像中の顔領域を検出し、顔領域の部分画像を顔特徴抽出部３２３に出力する。顔領域の検出は、種々の手法を用いて行うことが可能であり、例えば、Ｈａａｒ−ｌｉｋｅ特徴に基づくＡｄａＢｏｏｓｔ法によることができる。なお、前述のように、本実施の形態では、代表的な顔検出領域における撮影環境データが算出され、推定モデルの生成が行われる。したがって、顔検出部３２２は、代表的な顔検出領域ないしその付近の位置で顔が検出された画像の、顔領域部分画像を顔特徴抽出部３２３に出力してもよい。

顔特徴抽出部３２３は、顔領域の部分画像から、ガボール特徴等、既存の顔特徴量を抽出し、属性算出部３２４に出力する。本実施の形態では、顔特徴量の抽出の精度向上のため、取得した顔領域画像から、目、鼻、などの顔部品を検出し、これらの顔部品を基準として顔の大きさ等について正規化を行ったうえで、顔特徴量の抽出を行う。

属性算出部３２４は、顔特徴抽出部３２３から取得した顔特徴量から、推定モデル記憶部３１に記憶される推定モデルを用いて、顔領域の部分画像の属性を求める。本実施の形態では、線形判別法に従い、取得した一般的な顔特徴量を、属性推定のための特徴量空間に射影した上で、属性推定関数を用いて、属性値を算出する。つまり、本実施の形態において、推定モデルとは、顔特徴抽出部３２３から取得した顔特徴量を、属性推定のための特徴量空間に射影する行列と、射影後の特徴量空間で属性推定を行うための属性推定関数のことを指す。

線形判別法では、属性推定のための特徴量空間への射影を、以下の式（１）によって行う。

ここで、ｘは、射影前の顔特徴量ベクトル、ｙは射影後の特徴量ベクトルである。また、Ｗは、写像行列であり、以下では、特徴空間射影行列と呼ぶ。

図７は、特徴空間射影行列Ｗにより、既存の手法により抽出された顔特徴量ｘが、属性推定のための特徴量ｙに変換された例を示す図である。線形判別法により、変換後の顔特徴量の次元は、変換前よりも小さくなっているが、推定対象属性（年代、性別）をより適切に表現する特徴量となる。

一方、属性推定関数は、射影後の特徴量ベクトルｙを入力値とする関数であり、以下の式（２）により求められる。

ここで、

であり、αは、重み係数、Ｉは単位行列である。ｔは、各正解属性値ｔ_iを要素とするベクトルあり、各ｔ_iは、例えば、年代であれば、２０（代）、３０（代）等、性別なら、−１（男性）、＋１（女性）等の値をとる。ベクトルｔは、サンプルがｋ個ある場合、以下のように記述することができる。

また、

であり、ｄは射影後の特徴量ベクトルｙの次元数である。
式（２）に射影後の特徴量ベクトルを入力すると、その顔画像の人物の属性値を表すスカラー量が出力される。

（推定モデルの再学習の処理の流れ）
次に、本実施の形態における、推定モデル再学習部２５における推定モデル再学習の処理の流れを、図８のフロー図を用いて処理の流れを説明する。

まず、再学習用データが取得される（ステップＳ８１）。再学習用データは、上述のように、疑似現場画像とそれに対応する正解属性値データ、及び、再学習により更新されるべき初期推定モデルに関するデータである。次に、ステップＳ８１で取得された各疑似現場画像の顔特徴量を抽出する（ステップＳ８２）。ここでの顔特徴量は、ガボール特徴量等の既存の顔特徴量でよい。

そして、ステップＳ８２で抽出された、疑似現場画像の顔特徴量と、ステップＳ８１で取得された各疑似現場画像に対応する正解属性値及び初期推定モデルに関するデータとを用いて、特徴空間射影行列Ｗの再学習による更新が行われる（ステップＳ８３）。

本実施の形態の属性推定において用いられる線形判別法では、特徴空間射影行列Ｗは、グループ間分散の、グループ内分散に対する比が最大となるような特徴空間を生成する行列として定義される。したがって、ステップＳ８３における特徴空間射影行列Ｗの再学習も、グループ間分散の、グループ内分散に対する比がより大きくなるよう、以下の式（６）を解くことにより行われる。

ここで、Σ_Bは、属性グループ間の共分散行列、Σ_Wは、属性グループ内の共分散行列である。属性グループ間共分散行列Σ_Bは、ある属性について、異なる属性値のグループ同士の相関傾向を示す指標として機能する。これに対して、属性グループ内共分散行列Σ_Wは、ある属性について、同じ属性値のグループ内において、個々のデータの相関傾向を示す指標として機能する。例えば、属性として性別に着目すると、属性グループ間共分散行列Σ_Bが、男性のグループと女性のグループとがどのくらい離れているかを示すのに対し、属性グループ内共分散行列Σ_Wは、男性／女性それぞれのグループ内で、個々の特徴量データのばらつきの程度がどのくらいであるかを示す。

式（６）における属性グループ間共分散行列Σ_B´、属性グループ内共分散行列Σ_W´は、ステップＳ８１で取得した正解属性値とステップＳ８２で抽出した疑似現場画像の顔特徴量データを用いて更新（再計算）された、属性グループ間共分散行列Σ_B、属性グループ内共分散行列Σ_Wである。このように、ステップＳ８３においては、２つの共分散行列がまず更新される。

属性グループ間共分散行列Σ_B、属性グループ内共分散行列Σ_Wは、それぞれ、以下の式（７）、式（８）により、Σ_B´、Σ_W´に更新される。

ここで、Σ_{B_retrain}及びΣ_{W_retrain}は、再学習用の疑似現場画像についての、属性グループ間共分散行列と、属性グループ内共分散行列であり、ステップＳ８１で取得した正解属性値とステップＳ８２で抽出した疑似現場画像の顔特徴量データを用いて算出される。

また、Σ_{B_ini}及びΣ_{W_ini}は、初期共分散行列であり、疑似現場画像を用いた再学習前の属性グループ間共分散行列と、属性グループ内共分散行列である。ステップＳ８１で取得した、初期推定モデルに関するデータとは、この初期共分散行列のことである。本実施の形態において、これらの初期共分散行列は、例えば、疑似現場画像を生成するのに用いられた正解属性値付きの標準画像を用いて、予め作成されていてよい。また、λは０から１の間の値をとる重み係数である。例えば、再学習用のデータが十分蓄積されていれば、λをより大きく設定して、共分散行列、ひいては、特徴空間射影行列Ｗに、疑似現場画像の特徴量をより反映させることができる。

属性グループ間共分散行列Σ_B、属性グループ内共分散行列Σ_Wは、それぞれ、以下の式、式（９）、式（１０）から求められる。

このうち、Ｃは、属性グループ数である。本実施の形態においては、性別についてはＣ＝２、年代についてはＣ＝１０（０から１０歳、１０から２０歳、…９０から１００歳）とする。また、ｎ_jは属性グループ番号ｊのサンプル数、μ_jは属性グループｊの平均顔特徴量、μは全サンプルの平均顔特徴量、ｘ_iは個々の画像の顔特徴量を、それぞれ示す。

以上のようにして、特徴空間射影行列Ｗを再学習により更新したのち、属性推定関数の更新が行われる（ステップＳ８４）。属性推定関数は、上述のように、特徴空間射影後の特徴量ｙの関数ｆ（ｙ）として記述することができるが、射影前の特徴量ベクトルｘと、特徴空間射影行列Ｗとを用いて、式（１１）のように、ｘの関数ｆ（ｘ）としても記述することができる。

したがって、特徴空間射影行列Ｗの更新に伴い、属性推定関数ｆ（ｘ）も更新されることとなる。

以上のように、本実施の形態では、属性推定のためのモデルである特徴空間射影行列Ｗ及び属性推定関数ｆ（ｘ）が、疑似現場画像の特徴量と、正解属性値を用いた再学習により更新される。

（撮影環境推定部の詳細な構成）
次に、本実施の形態における撮影環境推定部１２の、詳細な構成について、図面を参照しながら説明する。図９は、撮影環境推定部１２の構成を示すブロック図である。図９に示すように、撮影環境推定部１２は、入力画像取得部１２１、顔検出部１２２、顔向き推定部１２３、照明状態推定部１２４、統計部１２５を備える。

入力画像取得部１２１は、撮影された画像、より具体的には、カメラ１０の画像生成部１１で生成されたフレーム画像を取得し、顔検出部１２２に出力する。顔検出部１２２は、取得された画像内の顔領域を検出し、取得された画像のうち、顔領域の部分画像を、画像内の位置情報とともに、顔向き推定部１２３、照明状態推定部１２４、統計部１２５に出力する。

顔向き推定部１２３は、顔検出部１２２から取得した部分画像に含まれる顔の向きを推定し、顔向きに関するデータを統計部１２５に出力する。顔向き角度の推定は、種々の手法により行うことが可能である。例えば、学習用サンプル顔画像の特徴量と、顔検出部１２２から取得した顔画像の特徴量との距離に基づき、ｋ近傍法を用いて推定することができる。

照明状態変動部１２４は、取得した顔領域の部分画像における輝度コントラストを算出し、統計部１２５に出力する。輝度コントラストＣは、以下の式（１２）により算出される。

式（１２）において、Ｉ_minは、顔領域の最小輝度値、Ｉ_maxは、顔領域の最大輝度値である。

統計部１２５は、入力画像である各フレーム画像内の顔検出領域についてクラスタリングを行い、最も多く顔が検出される画像内の領域を、代表的な顔検出領域として特定する。また、統計部１２５は、顔向き推定部１２３から取得したデータを用いて、代表的な顔検出領域における顔の向きの分布を算出する。統計部１２５は、さらに、照明状態推定部１２４から取得したデータを用いて、代表的な顔検出領域における輝度コントラストの分布を算出する。統計部１２５は、顔向き分布データと、輝度コントラストデータを、撮影環境データ記憶部２１に出力する。

このように、撮影環境推定部１２は、撮影によりカメラ１０内で生成された画像をもとに、カメラ１０による撮影環境に関するデータを算出するための構成を備えている。

以上のように、本発明の第１の実施の形態の人物属性推定システムによれば、標準画像をカメラ１０の撮影環境を示すデータを用いて変換した画像である疑似現場画像を再学習用のサンプル画像とし、標準画像に対応付けられた属性データを、疑似現場画像の正解属性データとして用いて、属性推定のためのモデルの再学習を行うので、煩雑な作業を要することなく、カメラ１０の実際の利用現場の撮影環境を反映したモデルを再構築することができ、年代、性別といった人物の属性の推定の精度を向上できる。

なお、上記の実施形態では、撮影環境データとして、顔向きと照明状態に関するデータを用いたが、このほかに、イメージセンサノイズやＪＰＥＧ圧縮等によるブロック歪み、ピントの合い方等、カメラ自体の性質又はカメラの設定に起因する、種々のカメラノイズに関するデータを用いてもよい。カメラノイズに関するデータは、画像生成部１０から取得した、利用現場の撮影画像を用いて算出してもよいし、カメラノイズの関するデータが既知であれば、それを入力してもよい。

また、撮影環境データとして、カメラ１０周辺の照度の時間的な変動を加味し、時間帯ごとに異なる疑似現場画像と推定モデルを生成し、属性推定の時刻に応じて推定モデルを選択し、人物属性推定を行ってもよい。

［第２の実施形態］
次に、本発明の第２の実施の形態の人物属性推定システムを説明する。第２の実施形態において、標準画像からカメラの利用現場の撮影環境を反映した疑似現場画像を生成する点は、第１の実施形態と同様である。第２の実施形態では、さらに推定精度を向上させるべく、生成された疑似現場画像に、カメラ１０の実際の利用現場でのカメラノイズ等を反映させた新たな画像を生成し、これを再学習用の画像データとするための構成を備えている。

図１０は、第２の実施の形態の人物属性システムの構成を示す図である。カメラ１０と属性推定装置３０の構成は、第１の実施の形態と同じである。また、再学習制御システム２０において、撮影環境データ記憶部２１、標準画像記憶部２２、疑似現場画像生成部２３、再学習用データ記憶部２４、推定モデル再学習部２５を備える点も、第１の実施形態と同じである。これに加え、本実施の形態では、再学習制御システム２０は、さらに、疑似現場画像記憶部２６、疑似現場画像出力部２７、疑似現場画像撮影画像取得部２８を備える。

疑似現場画像記憶部２６は、疑似現場画像生成部２２において生成された、疑似現場画像を記憶する。疑似現場画像出力部２７は、疑似現場画像記憶部２６に格納される疑似現場画像を出力する。疑似現場画像出力部２７は、プリンタやタブレットＰＣ等、図示しない所定のユニットに接続され、これらのユニットに対して、疑似現場画像データを出力する。出力された疑似現場画像は、例えば、紙等への印刷や、タブレットＰＣのディスプレイ上に表示されるなどして、可視化される。

カメラ１０の画像生成部１１は、疑似現場画像出力部２７から出力され、疑似現場画像が現出された被写体（印刷物やディスプレイなど）がカメラ１０で撮影された場合、その画像を生成し、再学習制御システム２０に出力する。

疑似現場画像撮影画像取得部２８は、画像生成部１１で生成された、疑似現場画像の撮影画像としての画像を取得し、再学習用データ記憶部２４に出力する。すなわち、疑似現場画像撮影画像とは、疑似現場画像が現出した被写体をカメラ１０の利用現場において、カメラ１０で撮影した画像である。このように、疑似現場画像を利用現場で実際に撮影することで、カメラのノイズや、照明状況を、よりリアルに再現した画像を得ることができる。

再学習用データ記憶部２４は、第１の実施の形態と同様、更新対象となる推定モデルに関するデータとして、初期共分散行列データを記憶する。また、再学習用データ記憶部２４は、再学習用画像データとして、疑似現場画像撮影画像を記憶し、再学習用正解属性データとして、標準画像に対応付けられた正解属性値を記憶する。

再学習用画像データである疑似現場画像撮影画像と、再学習用正解属性データである標準画像の属性値との関連付けは、種々の方法により実現される。例えば、図１１に示すように、疑似現場画像出力部２７が、標準画像の正解属性値を用いて、属性値（ここでは属性として性別に着目）ごとに疑似現場画像を並べて出力するとともに、属性が切り替わるところで、顔画像でないことが識別可能なマーカとなるデータを挿入して出力する構成としてもよい。出力された順序で撮影を行うことで、疑似現場画像撮影画像と正解属性値データとの対応付けを、属性値ごとにまとめて簡易に行うことができる。これに代えて、疑似現場画像出力部２７が、各疑似現場画像に正解属性値や対応する標準画像のＩＤを示すバーコードとともに疑似現場画像を出力し、撮影されたバーコードに基づき、疑似現場画像撮影画像に属性値の関連付けを行ってもよい。

推定モデル再学習部２５は、再学習用データ記憶部２４に記憶されるデータを用いて、属性推定モデルの再学習を行う。つまり、本実施の形態においては、疑似現場画像の代わりに、疑似現場画像撮影画像を用いて、その特徴量を抽出した上、推定モデルの再学習を行う。

図１２は、第２の実施の形態における撮影環境推定部１２の構成を示す図である。本実施の形態のように、疑似現場画像を実際にカメラ１０の利用現場にて撮影する場合、カメラのノイズと、当該利用現場における照明状態は、その疑似現場画像が現出した被写体を撮影した画像から知ることができる。したがって、本実施の形態においては、撮影環境推定部１２は、第１の実施の形態における照明状態推定部１２４を備えていない。

本実施の形態においても、第１の実施の形態におけるのと同様、統計部１２５は、代表的な顔検出領域を特定する。カメラ１０による疑似現場画像の撮影は、統計部１２５により特定された代表的な顔検出領域に、疑似現場画像の顔がくるような位置に、疑似現場画像の可視化物を提示して行うことが好ましい。

以上のように、第２の実施の形態の属性推定システム１によれば、カメラ１０の撮影環境を反映した疑似現場画像を生成し、この疑似現場画像が現出した被写体をカメラ１０で撮影した画像を用いて推定モデルの再学習を行うので、カメラ１０の撮影環境をより正確に反映した推定モデルを生成することができる。

なお、疑似現場画像から３次元の人物モデルを生成して、これを被写体とし、疑似現場画像撮影画像を生成してもよい。

［その他の変形例］
上記の実施の形態では、カメラ１０の生成画像から被写体の顔領域を検出し、被写体の属性を推定する場合について説明したが、顔領域以外の人物の部分領域画像を用いて、属性を推定してもよい。この場合、上記の実施形態における代表的な顔検出領域に替えて、代表的な人物検出領域における撮影環境データを取得して、疑似現場画像を生成し、推定モデルを生成してもよい。さらに、推定対象となる属性は、年齢（年代）又は性別のみであってもよいし、年齢、性別に限られず、人種や社会的地位ないし区分（高校生、社会人、老人等）であってもよい。

また、上記の実施の形態では、撮影環境データとして、顔の向きに関するデータ及び照明状態に関するデータ、カメラノイズを例に挙げて説明したが、撮影環境データは、撮影画像に影響を与えうる他の要因に関するものであってもよいし、上記の実施の形態において、いくつかの撮影環境データを任意に組み合わせて、又は、いずれか１つの撮影環境データのみを用いて、疑似現場画像を生成してもよい。

また、上記の実施の形態では、人物の画像である標準画像を加工することで疑似現場画像を生成する場合について説明したが、例えば、ステレオカメラにより人物を撮影し、人物の３次元画像を生成するためのポリゴンデータのような、人物モデルデータを加工して疑似現場画像を生成してもよい。

また、上記の実施の形態では、撮影環境推定部１１をカメラ１０が備え、推定モデル記憶部３１を属性推定装置３０が備える場合について説明したが、撮影環境推定部及び／または推定モデル記憶部とを再学習制御システム２０が備えていてもよい。また、再学習制御サーバの構成を、カメラ１０ないし属性推定装置３０が備えていてもよいし、カメラ１０が属性推定装置３０の構成を備えていてもよい。さらに、カメラ１０、再学習制御サーバ２０、属性推定装置３０の動作が全て、１つの装置により実現されてもよい。

また、上記の実施の形態では、属性推定装置３０が、初期推定モデルを備え、初期推定モデルが、疑似現場画像を用いた再学習により更新される場合について説明したが、属性推定装置３０は、初期推定モデルを備えていなくてもよく、疑似現場画像を用いた学習により生成された推定モデルを初めから属性推定に用いてもよい。また、推定モデルの再学習は、カメラの設置場所の変更や、標準画像の追加等に伴い、繰り返されてよい。

また、上記の実施の形態では、撮影環境データを、カメラ１０により生成された撮影画像から算出する場合について説明したが、撮影環境データは、ユーザにより手動で入力されてもよいし、カメラ１０の利用現場に設置されたセンサ等から取得されてもよい。例えば、カメラ１０が、店舗に入って来る客の顔をその正面から左に３０度、上に２０度傾いた方向から撮影するように設置されている場合には、撮影画像において、来店客の顔は右に約３０度、下に約２０度向いた状態で撮影されることになる。撮影される顔向きは、人物の身長によって変わりうるので、各年代の平均身長をこれに加味してもよい。このように、撮影環境を直接的に示すデータを得ることができる場合、ステップＳ１における撮影画像の取得ないしその前提となるカメラ１０による撮影はされなくてもよい。

また、上記の実施の形態では、線形判別法に従い、属性推定する場合について説明したが、カーネル回帰やガウス混合分布モデルなどを用いて属性を推定してもよい。上記の実施の形態においては、初期推定モデルに関するデータが、予め再学習用データ記憶部に記憶されていたが、推定モデルの再学習を行う際に、推定モデル記憶部から初期推定モデル又はそれに関するデータを取得して再学習が行われてもよい。

本発明の属性推定システムは、実際の撮影環境に応じて、精度の良い属性推定を行うことができるという効果を有し、学習により生成される推定モデルを用いて人物の属性を推定する人物属性推定システム等として有用である。

１人物属性推定システム
１０カメラ
１１画像生成部
１２撮影環境推定部
１２１入力画像取得部
１２２顔検出部
１２３顔向き推定部
１２４照明状態推定部
１２５統計部
２０再学習制御システム
２１撮影環境データ記憶部
２２標準画像記憶部
２３疑似現場画像生成部
２４再学習用データ記憶部
２５推定モデル再学習部
２６疑似現場画像記憶部
２７疑似現場画像出力部
２８疑似現場画像撮影画像取得部
３０人物属性推定装置
３１推定モデル記憶部
３２属性推定部
３２１撮影画像取得部
３２２顔検出部
３２３顔特徴抽出部
３２４属性算出部

Claims

属性推定対象人物を撮影して画像を生成するカメラと、
前記カメラが生成した画像に写っている人物の属性を、推定モデルを用いて推定する属性推定部と、
前記カメラによる前記属性推定対象人物の撮影環境を示す、撮影環境データを取得する撮影環境データ取得部と、
人物画像である標準画像を取得する標準画像取得部と、
前記撮影環境データに応じて前記標準画像のデータを加工することにより、前記標準画像に前記撮影環境を反映させた疑似現場画像を生成する疑似現場画像生成部と、
前記疑似現場画像を用いて前記推定モデルの学習を行なう学習部と、
を備えたことを特徴とする人物属性推定システム。
前記学習部は、前記カメラによる前記属性推定対象人物の撮影環境において、前記カメラで前記疑似現場画像が現出した被写体を撮影することにより得られた疑似現場画像撮影画像を学習用画像データとして用いて前記推定モデルの学習を行う
ことを特徴とする請求項１に記載の人物属性推定システム。
前記学習部は、前記疑似現場画像生成部にて生成された前記疑似現場画像を学習用画像データとして用いて前記推定モデルの学習を行なう
ことを特徴とする請求項１に記載の人物属性推定システム。
前記標準画像には、被写体である人物の属性を示す属性データが対応付けられており、
前記学習部は、前記疑似現場画像の生成に用いられた前記標準画像に対応する属性データを、学習用正解属性データとして用いて前記推定モデルの学習を行う
ことを特徴とする請求項１から３のいずれかに記載の人物属性システム。
前記カメラで生成された画像に基づき、前記撮影環境データを算出する撮影環境推定部をさらに備え、
前記撮影環境データ取得部は、前記撮影環境推定部で算出された前記撮影環境データを取得する
ことを特徴とする請求項１から４のいずれかに記載の人物属性推定システム。
前記撮影環境データは、前記カメラにより前記属性推定対象人物が撮影される場所における照明状態を示すデータを含み、
前記疑似現場画像生成部は、前記照明状態を示すデータに応じて、前記標準画像を変換することにより、前記疑似現場画像を生成する
ことを特徴とする請求項１から５のいずれかに記載の人物属性推定システム。
前記属性推定部は、前記カメラが生成した画像に写っている人物の属性を、前記画像中の顔領域の部分画像に基づき推定するものであり、
前記撮影環境データは、前記属性推定対象人物が、前記カメラにより撮影される場合の顔の向きに関するデータを含み、
前記標準画像は、人物の顔を含む画像であって、
前記疑似現場画像生成部は、前記顔の向きに関するデータに応じて、前記標準画像の顔の向きを変換することにより、前記疑似現場画像を生成する
ことを特徴とする請求項１から６のいずれかに記載の人物属性推定システム。
前記撮影環境データは、前記カメラにより生成される画像内の１つ以上の代表的な人物検出領域ごとの撮影環境データである
ことを特徴とする請求項１から７のいずれかに記載の人物属性推定システム。
前記疑似現場画像生成部は、前記代表的な人物検出領域ごとの撮影環境データを用いて、前記代表的な人物検出領域ごとの疑似現場画像を生成し、
前記学習部は、前記代表的な人物検出領域ごとに、前記推定モデルの学習を行い、
前記属性推定部は、前記カメラが生成した画像に写っている人物の検出位置に応じて、前記推定モデルを選択して、前記人物の属性を推定する
ことを特徴とする請求項８に記載の人物属性推定システム。
属性推定対象人物を撮影して画像を生成するカメラと、前記カメラが生成した画像に写っている人物の属性を推定する属性推定部とを備えた人物属性推定システムにおいて使用される、人物の属性推定のための推定モデルの学習に用いる学習用データを生成する学習用データ生成装置であって、
前記カメラによる前記属性推定対象人物の撮影環境を示す、撮影環境データを取得する撮影環境データ取得部と、
人物画像である標準画像を取得する標準画像取得部と、
前記撮影環境データに応じて前記標準画像のデータを加工することにより、前記標準画像に前記撮影環境を反映させた疑似現場画像を生成する疑似現場画像生成部とを備え、
前記疑似現場画像、又は前記カメラにより前記属性推定対象の人物が撮影される環境において前記カメラで前記疑似現場画像が現出した被写体を撮影することにより得られた疑似現場画像撮影画像を用いて前記学習用データを生成する
ことを特徴とする学習用データ生成装置。
前記学習用データは、学習用画像データである前記疑似現場画像又は前記疑似現場画像撮影画像と、学習用正解属性データであって、前記疑似現場画像の生成に用いられた前記標準画像に対応付けられた属性データと、を含むことを特徴とする請求項１０に記載の学習用データ生成装置。