JP2018022416A

JP2018022416A - 顔方向推定装置及びそのプログラム

Info

Publication number: JP2018022416A
Application number: JP2016154536A
Authority: JP
Inventors: 真介横澤; Shinsuke Yokozawa; 高橋　正樹; Masaki Takahashi; 正樹高橋; 山内　結子; Yuiko Yamauchi; 結子山内
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2018-02-08
Anticipated expiration: 2036-08-05
Also published as: JP6770363B2

Abstract

【課題】本発明は、リアルタイムで顔方向を高精度に推定できる顔方向推定装置を提供する。【解決手段】顔方向推定装置１は、顔画像を複数の領域に分割する画像領域分割部１２と、領域毎の色ヒストグラムを計算し、顔画像全体の色ヒストグラムを求める第１特徴量計算部１３と、識別器により、顔画像全体の色ヒストグラムから、信頼度を計算する第１識別部１４と、顔画像のＨＯＧを計算する第２特徴量計算部１５と、識別器により、顔画像のＨＯＧから、信頼度を計算する第２識別部１６と、色ヒストグラム及びＨＯＧで計算した信頼度を統合することで、被写体の顔方向を推定する識別結果統合部１７と、を備える。【選択図】図３

Description

本発明は、色ヒストグラム及び他の特徴量を用いて、被写体の顔方向を推定する顔方向推定装置及びそのプログラムに関する。

従来より、映像中の人物の顔向きを推定する手法は、様々なものが提案されている。ここで、サッカーの試合を広角の固定カメラで撮影し、その映像からサッカー選手の顔画像を抽出すると、その顔画像の解像度が低くなることが多い。このような低解像度の顔画像を扱う手法では、顔方向を８方向で定義し、それらをパターン認識で分類するアプローチが多く取られている。

また、顔画像から抽出する特徴量として、ｉＤＦ（Non-local Intensity Difference Feature）と、ｃＤＦ（Non-local Color Different Feature）と、ＩＦ（Intensity Feature）とを用いる手法が提案されている（非特許文献１）。この他、ＨＯＧ（Histograms of Oriented Gradients）と、ＣＴＣ（Color Triplet Comparison）とを用いる手法が提案されている（非特許文献２）。

T. Siriteerakul, D. Sugimura and Y. Sato, "Head Pose Classification from Low Resolution Images Using Pairwise Non-Local Intensity and Color Differences", Proc. Fourth Pacific-Rim Symposium on Image and Video Technology, pp.362-369 (Nov. 2010) B. Benfold and I. Reid, "Unsupervised learning of a scene-specific coarse gaze estimator", Proc. 2011 International Conference on Computer Vision, pp.2344-2351 (Nov. 2011)

しかし、非特許文献１，２に記載の手法は、特徴量の次元数が多いので、その特徴量による学習及び識別の処理負荷が重くなるという問題があった。このため、非特許文献１，２に記載の手法は、サッカーの中継のようにリアルタイム性が要求されるコンテンツへの適用が困難であった。

そこで、本発明は、リアルタイムで顔方向を高精度に推定できる顔方向推定装置及びそのプログラムを提供することを課題とする。

前記した課題に鑑みて、本発明に係る顔方向推定装置は、色ヒストグラム、及び、前記色ヒストグラムと異なる１種類以上の第２特徴量を用いて、被写体の顔画像から前記被写体の顔方向を推定する顔方向推定装置であって、画像領域分割部と、第１特徴量計算部と、第１識別部と、第２特徴量計算部と、第２識別部と、顔方向推定部と、を備える構成とした。

かかる構成によれば、顔方向推定装置は、画像領域分割部によって、前記顔画像を入力し、入力した前記顔画像を複数の領域に分割する。そして、顔方向推定装置は、前記領域毎の色ヒストグラムを計算し、計算した前記領域毎の色ヒストグラムを連結することで、前記顔画像全体の色ヒストグラムを求める。

ここで、顔方向推定装置は、各画素の位置情報を記述するために顔画像を領域分割し、それぞれの領域で色ヒストグラムを計算するので、特徴量の次元数を少なくできる。さらに、顔方向推定装置は、顔画像内で頭部位置が変化する場合、顔画像の解像度が低下する場合や顔画像にノイズが重畳する場合でも、顔画像の領域毎に色ヒストグラムを計算するので、特徴量の計算結果がこれらの影響を受けにくくなる。

顔方向推定装置は、第１識別部により、顔方向が異なる訓練データの色ヒストグラムを学習した識別器により、前記顔画像全体の色ヒストグラムから、前記被写体が各顔方向を向いている確率である信頼度を計算する。

顔方向推定装置は、第２特徴量計算部によって、前記第２特徴量の種類毎に、前記顔画像の第２特徴量を計算する。そして、顔方向推定装置は、第２識別部によって、前記第２特徴量の種類毎に、前記訓練データの第２特徴量を学習した識別器により、前記顔画像の第２特徴量から、前記信頼度を計算する。さらに、顔方向推定装置は、顔方向推定部によって、色ヒストグラム及び前記第２特徴量の種類毎に計算した信頼度を統合することで、前記被写体の顔方向を推定する。

このように、顔方向推定装置は、特徴量の次元数が少ないので、学習及び識別の処理負荷を軽減し、被写体の顔方向をリアルタイムで推定することができる。さらに、顔方向推定装置は、色ヒストグラムと、色ヒストグラム以外の第２特徴量とを併用するので、被写体の顔方向を高精度に推定することができる。

なお、本発明に係る顔方向推定装置は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、前記した各手段として協調動作させる顔方向推定プログラムで実現することもできる。

本発明によれば、以下のような優れた効果を奏する。
本発明に係る顔方向推定装置は、顔画像の領域毎に色ヒストグラムを計算するので、顔画像内での頭部位置の変化、顔画像の解像度低下やノイズ重畳の影響を受けにくく、特徴量の次元数を少なくできる。これにより、顔方向推定装置は、学習及び識別の処理負荷を軽減し、被写体の顔方向をリアルタイムで推定することができる。さらに、顔方向推定装置は、色ヒストグラムと、色ヒストグラム以外の第２特徴量とを併用するので、被写体の顔方向を高精度に推定することができる。

本発明の第１実施形態に係る顔方向推定システムの概略を示す概略図である。顔方向推定システムが合成したＣＧ映像を説明する説明図である。本発明の第１実施形態に係る顔方向推定装置の構成を示すブロック図である。（ａ）は顔画像抽出部が抽出した顔画像の一例であり、（ｂ）は正規化した顔画像の一例である。画像領域分割部が分割した顔画像の一例である。（ａ）は領域画像の一例であり、（ｂ）は色ヒストグラムの計算を説明する説明図である。（ａ）は顔方向の基準となる座標軸を説明する図であり、（ｂ）は顔方向を説明する図である。訓練データの一例である。（ａ）は輝度の勾配強度及び勾配方向を説明する図であり、（ｂ）は輝度のヒストグラムを説明する図である。本発明の第２実施形態に係る顔方向推定装置の構成を示すブロック図である。顔方向推定装置の学習モードの動作を示すフローチャートである。顔方向推定装置の推定モードの動作を示すフローチャートである。実施例１、参考例１及び比較例１〜３の識別性能を表すテーブルである。実施例１、参考例１及び比較例１〜３の計算時間を表すテーブルである。実施例１の混同行列である。参考例１の混同行列である。比較例１の混同行列である。比較例２の混同行列である。比較例３の混同行列である。

以下、本発明の各実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の手段には同一の符号を付し、説明を省略した。

（第１実施形態）
［顔方向推定システムの概略］
図１を参照し、本発明の第１実施形態に係る顔方向推定システム１００の概略について説明する。
顔方向推定システム１００は、サッカー選手（被写体）の顔方向をリアルタイムで推定し、推定したサッカー選手の顔方向を中継映像にＣＧ合成する。図１に示すように、顔方向推定システム１００は、第１撮影部Ｃ_１と、第２撮影部Ｃ_２と、顔方向推定装置１と、ＣＧ合成装置２と、を備える。

第１撮影部Ｃ_１は、顔方向推定用の映像を撮影するカメラである。本実施形態では、第１撮影部Ｃ_１は、コーナーエリア９１付近に配置され、複数のサッカー選手を同時に撮影できるように、広角でサッカーの試合を撮影する。この第１撮影部Ｃ_１は、特に制限されないが、例えば、パン、チルト及びズームの各機能（ＰＴＺ機能）を備えない固定カメラである。

第２撮影部Ｃ_２は、サッカーの試合映像を撮影するカメラである。本実施形態では、第２撮影部Ｃ_２は、センターライン９２付近に配置され、カメラマンによる手動操作又は自動制御でサッカーの試合を撮影する。この第２撮影部Ｃ_２は、特に制限されないが、例えば、ＰＴＺ機能を備えたＰＴＺカメラである。

顔方向推定装置１は、サッカー選手の顔方向を識別するための識別器を予め生成する。そして、顔方向推定装置１は、この識別器を用いて、第１撮影部Ｃ_１で撮影した映像から、サッカー選手の顔方向を推定する。なお、顔方向推定装置１の詳細は、後記する。

ＣＧ合成装置２は、第２撮影部Ｃ_２で撮影した映像に、顔方向推定装置１が推定したサッカー選手の顔方向を示すＣＧを合成する。例えば、ＣＧ合成装置２は、図２に示すように、サッカーの試合映像に、サッカー選手の顔方向を示す扇状マーカαのＣＧを合成する。
これにより、顔方向推定システム１００は、サッカー選手の動きを視聴者が把握し易くなり、より臨場感が高いスポーツ映像を提供することができる。

［顔方向推定装置の構成］
図３を参照し、本発明の実施形態に係る顔方向推定装置１の構成について説明する。
顔方向推定装置１は、色ヒストグラム、及び、色ヒストグラムと異なる１種類以上の第２特徴量を用いて、サッカー選手の顔画像から顔方向を推定する。本実施形態では、顔方向推定装置１は、第２特徴量として、ＨＯＧを用いることとした。つまり、顔方向推定装置１は、色に関連した特徴量である色ヒストグラム、及び、形状に関連した特徴量であるＨＯＧのように、特性が異なる特徴量を併用している。

図３に示すように、顔方向推定装置１は、特徴量計算装置３と、顔画像抽出部１０と、画像サイズ正規化部１１と、第１識別部１４と、第２特徴量計算部１５と、第２識別部１６と、識別結果統合部（顔方向推定部）１７と、出力部１８と、を備える。

ここで、操作者は、図示を省略したマウス、キーボード等の操作手段を介して、顔方向推定装置１に学習モード又は推定モードを指定する。
学習モードは、顔方向推定装置１が識別器を生成するモードである。学習モードの場合、顔方向推定装置１は、特徴量計算装置３、画像サイズ正規化部１１、第１識別部１４、第２特徴量計算部１５、及び、第２識別部１６が機能する。
推定モードは、顔方向推定装置１がサッカー選手の顔方向を推定するモードである。推定モードの場合、顔方向推定装置１の全手段が機能する。

顔画像抽出部１０は、推定モードの場合、第１撮影部Ｃ_１より入力した映像から顔画像を抽出する。例えば、顔画像抽出部１０は、サッカーの試合映像に被写体追跡処理を施し、この映像に含まれるサッカー選手の位置を求める（例えば、参考文献１）。この参考文献１に記載の手法は、サッカー選手の動きをモデル化し、パーティクルフィルタにより追跡を行うものである。
参考文献１：西濃拓郎、滝口哲也、有木康雄、「単眼動画像におけるボールと選手の３次元位置推定」、２００９年電子情報通信学会総合大会(情報・システム講演論文集２)、ｐ２１３

また、顔画像抽出部１０は、外部からサッカー選手の位置情報が提供される場合（例えば、参考文献２）、この位置情報を利用してもよい。
参考文献２：ChyronHego, “TRACAB Optical Tracking”, URL<http://chyronhego.com/sports-data/tracab>

次に、顔画像抽出部１０は、サッカー選手の位置を基準にして、サッカー選手の顔領域の画像である顔画像を抽出する。この顔画像は、第１撮影部Ｃ_１が広角で撮影を行っているので、解像度が低くなることが多い。また、顔画像は、映像内におけるサッカー選手の位置に応じて、その解像度（サイズ）が異なる。図４（ａ）の例では、顔画像の解像度は、横１５ピクセル、縦１５ピクセルである。

なお、顔画像抽出部１０は、映像に複数のサッカー選手が含まれる場合、全サッカー選手の顔画像を抽出してもよい。この場合、顔方向推定装置１は、顔画像抽出部１０が抽出した全サッカー選手の顔方向を推定することになる。
また、操作者は、操作手段により、顔方向の推定対象となるサッカー選手を指定してもよい。この場合、顔方向推定装置１は、操作者が指定したサッカー選手の顔方向を推定することになる。

画像サイズ正規化部１１は、推定モードの場合、顔画像抽出部１０から入力した顔画像を、予め設定したサイズに正規化する。例えば、画像サイズ正規化部１１は、図４（ａ）の顔画像を、図４（ｂ）に示すように縦横２０ピクセルのサイズに正規化する。
また、画像サイズ正規化部１１は、学習モードの場合、操作者が入力した訓練データを、推定モードと同様に正規化する。なお、訓練データの詳細は、後記する。

特徴量計算装置３は、色ヒストグラムを用いて、画像サイズ正規化部１１から入力した顔画像の特徴量を計算する。図３に示すように、特徴量計算装置３は、画像領域分割部１２と、第１特徴量計算部１３と、を備える。

画像領域分割部１２は、推定モードの場合、画像サイズ正規化部１１から入力した顔画像を、ｉ×ｊ個の領域に分割する（ｉは縦方向の領域分割数を表す２以上の整数、ｊは横方向の領域分割数を表す２以上の整数）。例えば、画像領域分割部１２は、図５に示すように、縦横２０ピクセルの顔画像を縦横に４等分し、１６個の領域に分割する（ｉ＝ｊ＝４）。つまり、各領域は、縦横５ピクセルの画像になる。
また、画像領域分割部１２は、学習モードの場合、画像サイズ正規化部１１から入力した訓練データを、推定モードと同様に分割する。

第１特徴量計算部１３は、推定モードの場合、画像領域分割部１２から入力した顔画像の領域毎に色ヒストグラムを計算し、計算した領域毎の色ヒストグラムを連結することで、顔画像全体の色ヒストグラムを求める。
また、第１特徴量計算部１３は、学習モードの場合、画像領域分割部１２から入力した訓練データ全体の色ヒストグラムを、推定モードと同様に求める。

＜色ヒストグラムの計算＞
以下、図６を参照し、色ヒストグラムの計算について説明する（適宜図３参照）。
第１特徴量計算部１３は、図６（ａ）の領域画像について、各原色の画像における画素値（輝度値）のヒストグラムを求める。図６（ａ）の領域画像は、図５の顔画像で左上の領域に対応する画像である。

まず、第１特徴量計算部１３は、図６（ａ）の領域画像から、赤色成分を抽出したＲ画像、緑色成分を抽出したＧ画像、及び、青色成分を抽出したＢ画像を生成する。そして、第１特徴量計算部１３は、図６（ｂ）に示すように、Ｒ画像、Ｇ画像及びＢ画像において、それぞれの画素値の分布を表したヒストグラムを算出する。

例えば、第１特徴量計算部１３は、画素値が０〜２５５の範囲となる場合には、この範囲を４等分し、０〜６３、６４〜１２７、１２８〜１９１、１９２〜２５５のグループに分割する。そして、第１特徴量計算部１３は、Ｒ画像、Ｇ画像及びＢ画像のそれぞれで、各グループに含まれる画素値の数を格納した配列を生成する。例えば、第１特徴量計算部１３は、Ｒ画像について、０〜６３のグループに対応したＲ［０］と、６４〜１２７のグループに対応したＲ［１］と、１２８〜１９１のグループに対応したＲ［２］と、１９２〜２５５のグループに対応したＲ［３］とを格納した配列を生成する（Ｇ画像及びＢ画像も同様）。

このようにして、第１特徴量計算部１３は、図６（ａ）の領域画像について、Ｒ［０］〜Ｒ［３］、Ｇ［０］〜Ｇ［３］、Ｂ［０］〜Ｂ［３］を要素とする色ヒストグラムを計算できる。さらに、第１特徴量計算部１３は、図６（ａ）以外の領域についても、同様に色ヒストグラムを計算する。その後、第１特徴量計算部１３は、左上から右下までの全領域画像の色ヒストグラムを連結し、顔画像全体の色ヒストグラムを求める。

図３に戻り、顔方向推定装置１の構成について、説明を続ける。
第１識別部１４は、学習モードの場合、顔方向が異なる訓練データの色ヒストグラムを学習した識別器を生成する。また、第１識別部１４は、推定モードの場合、この識別器により、顔画像全体の色ヒストグラムから、被写体が各顔方向を向いている確率である信頼度を計算する。

第１識別部１４は、機械学習の手法が特に制限されないが、例えば、ｏｎｅ‐ｖｅｒｓｕｓ‐ｒｅｓｔによるマルチクラスＳＶＭ（Support Vector Machine）を用いる。本実施形態では、第１識別部１４は、顔方向を８方向で定義したので、８クラスのＳＶＭを用いる。

ＳＶＭは、あるクラスと別のクラスとの境界を定義すべく、サポートベクトルとマージンという２つの概念を導入する。サポートベクトルとは、分離超平面から一番近い各クラスのデータのことであり、サポートベクトルから分離超平面までの距離をマージンと呼ぶ。

２次元の特徴空間において、２クラスの訓練サンプルを与えたこととする。この場合、ＳＶＭは、マージンが最大となるように、２クラスの真ん中に分離超平面を引く。また、ＳＶＭでは、分離超平面を境界として、２クラスの訓練サンプルを識別（分類）する。すなわち、マルチクラスＳＶＭは、２クラスのＳＶＭを複数用いて、マルチクラスの識別を行う。

本実施形態では、図７（ａ）に示すように、センターマーク９３を基準にして、サッカーコート９０の横方向（図面下方向）をｘ軸とし、サッカーコート９０の縦方向（図面右方向）をｙ軸とする。そして、図７（ｂ）に示すように、ｘ軸の方向を０°とし、反時計回りに４５°おきの８方向で顔方向を定義した。

＜識別器の生成、識別器による信頼度の計算＞
以下、識別器の生成と、識別器による信頼度の計算とを順に説明する。
識別器の生成に必要な訓練データを準備する。この訓練データは、サッカー選手の顔方向を表した教師信号（アノテーション）と、サッカー選手の顔画像とを対応付けたデータである。例えば、図８に示すように、訓練データとして、０°から３１５°までの方向を向いたサッカー選手の顔画像を準備する。

なお、図８では、各顔方向の訓練データを１つだけ図示したが、識別精度を向上させるため、訓練データを複数準備することが好ましい。
また、訓練データは、実際にサッカーの試合を撮影した映像から生成してもよく、所定のデータセットを利用してもよい（例えば、参考文献３）。

参考文献３： S. A. Pettersen et al., “Soccer video and player position dataset”, Proc. of the 5th ACM Multimedia Systems Conference, pp.18-23, Mar. 2014. DOI: 10.1145/2557642.2563677

操作者は、顔方向推定装置１を学習モードに設定し、訓練データを画像サイズ正規化部１１に入力する。すると、顔方向推定装置１は、訓練データのサイズを正規化し、訓練データを複数の領域に分割する。そして、顔方向推定装置１は、訓練データの領域毎に色ヒストグラムを計算及び連結し、訓練データ全体の色ヒストグラムを求める。さらに、第１識別部１４は、マルチクラスＳＶＭにより、訓練データ全体の色ヒストグラムを学習し、識別器を生成する。

次に、操作者は、顔方向推定装置１を推定モードに設定し、第１撮影部Ｃ_１でサッカーの試合を撮影する。すると、顔方向推定装置１は、第１撮影部Ｃ_１の映像から顔画像を抽出し、顔画像のサイズを正規化し、顔画像を複数の領域に分割する。そして、顔方向推定装置１は、顔画像の領域毎に色ヒストグラムを計算及び連結し、顔画像全体の色ヒストグラムを求める。さらに、第１識別部１４は、顔画像全体の色ヒストグラムを識別器に入力し、この識別器から信頼度の計算結果を得る。

図３に戻り、顔方向推定装置１の構成について、説明を続ける。
第２特徴量計算部１５は、推定モードの場合、画像サイズ正規化部１１から入力した顔画像のＨＯＧを計算する。
また、第２特徴量計算部１５は、学習モードの場合、画像サイズ正規化部１１から入力した訓練データのＨＯＧを、推定モードと同様に求める。

＜ＨＯＧの計算＞
以下、図９を参照して、ＨＯＧの計算について説明する（適宜図３参照）。
このＨＯＧは、顔画像の局所領域（セル）での輝度の勾配方向をヒストグラム化したものである。図９（ａ）に示すように、顔画像全体を１ブロックとし、セルのサイズを縦横に４ピクセルとした。つまり、１ブロックは、縦横に５個のセルを有する。

まず、第２特徴量計算部１５は、図９（ａ）の顔画像に含まれる全てのピクセルから、輝度の勾配強度及び勾配方向を求める。図９（ａ）のセルでは、各ピクセルにおける輝度の勾配強度及び勾配方向を、線分の濃淡と方向で図示した。つまり、図９（ａ）のセルにおいて、線分の濃淡が輝度の勾配強度を示し、線分の方向が輝度の勾配方向を示す。

次に、第２特徴量計算部１５は、図９（ｂ）に示すように、セル毎に、輝度の勾配方向を０°〜１８０°の間で２０°間隔で９方向に区分けして、輝度のヒストグラムを生成する。つまり、このヒストグラムは、縦軸が輝度の勾配強度となり、横軸が輝度の勾配方向となる。

図３に戻り、顔方向推定装置１の構成について、説明を続ける。
第２識別部１６は、学習モードの場合、訓練データのＨＯＧを学習した識別器を生成する。また、第２識別部１６は、推定モードの場合、この識別器により、顔画像のＨＯＧから信頼度を計算する。
なお、第２識別部１６は、色ヒストグラムの代わりにＨＯＧを用いる以外、第１識別部１４と同様のため、詳細な説明を省略する。

識別結果統合部１７は、推定モードの場合、色ヒストグラム及びＨＯＧで計算した信頼度を統合することで、被写体の顔方向を推定する。具体的には、識別結果統合部１７は、顔方向毎に色ヒストグラムで計算した信頼度とＨＯＧで計算した信頼度とを乗算し、乗算した信頼度が最も高くなる顔方向を被写体の顔方向として推定する。

つまり、識別結果統合部１７は、下記式（１）のように、マルチクラスＳＶＭの信頼度に基づくlate fusionを行う。ここで、ｐ^ｈ（Ｘ）は、顔画像Ｘがｈ番目のクラスに属する信頼度、つまり、クラス統合後の識別結果を表す。また、ｐ^ｈ _ｎ（Ｘ）は、ｎ番目の識別器により、顔画像Ｘがｈ番目のクラスに分類される事後確率である。

なお、ｎは、何種類目の特徴量であるかを表す整数であり、１≦ｎ≦Ｎである。また、Ｎは、顔方向推定装置１で用いる特徴量の最大種類数を表す。本実施形態では、１種類目の特徴量が色ヒストグラムであり、２種類目の特徴量がＨＯＧであるので、Ｎ＝２となる。

また、顔方向が８方向なので、顔方向０°をクラス１、顔方向４５°をクラス２、顔方向９０°をクラス３、顔方向１３５°をクラス４、顔方向１８０°をクラス５、顔方向２２５°をクラス６、顔方向２７０°をクラス７、顔方向３１５°をクラス８と定義する。この場合、ｈは、何番目のクラスであるかを表す整数であり、１≦ｈ≦Ｈである。また、Ｈは、顔方向推定装置１で定義したクラスの最大数を表す。本実施形態では、８クラスを定義したので、Ｈ＝８となる。

本実施形態では、識別結果統合部１７は、Ｎ＝２及びＨ＝８なので、下記式（１−１）の計算を行う。そして、識別結果統合部１７は、信頼度ｐ^１（Ｘ）〜ｐ^８（Ｘ）の信頼度のうち、その値が最も高くなるクラスの顔方向を推定結果とする。

例えば、第１識別部１４が、クラス１の事後確率ｐ^１ _１（Ｘ）＝０．８、クラス２の事後確率ｐ^２ _１（Ｘ）＝０．４、…、クラス８の事後確率ｐ^８ _１（Ｘ）＝０．０５と計算したこととする。また、例えば、第２識別部１６が、クラス１の事後確率ｐ^１ _２（Ｘ）＝０．７、クラス２の事後確率ｐ^２ _２（Ｘ）＝０．５、…、クラス８の事後確率ｐ^８ _２（Ｘ）＝０．１と計算したこととする。
なお、説明を簡易にするため、クラス３〜７の事後確率の計算は省略した。

この場合、識別結果統合部１７は、色ヒストグラムで計算したクラス１の信頼度ｐ^１ _１（Ｘ）＝０．８と、ＨＯＧで計算した計算したクラス１の信頼度ｐ^１ _２（Ｘ）＝０．７とを乗算し、クラス１の信頼度ｐ^１（Ｘ）＝０．５６を求める。また、識別結果統合部１７は、色ヒストグラムで計算したクラス２の信頼度ｐ^２ _１（Ｘ）＝０．４と、ＨＯＧで計算した計算したクラス２の信頼度ｐ^２ _２（Ｘ）＝０．５とを乗算し、クラス２の信頼度ｐ^２（Ｘ）＝０．２を求める。そして、識別結果統合部１７は、色ヒストグラムで計算したクラス８の信頼度ｐ^８ _１（Ｘ）＝０．０５と、ＨＯＧで計算した計算したクラス８の信頼度ｐ^８ _２（Ｘ）＝０．１とを乗算し、クラス８の信頼度ｐ^８（Ｘ）＝０．００５を求める。さらに、識別結果統合部１７は、信頼度ｐ^１（Ｘ）〜ｐ^８（Ｘ）のうち、最高値となるクラス１の顔方向＝０°を推定結果とする。

出力部１８は、識別結果統合部１７が推定した顔方向を外部（例えば、ＣＧ合成装置２）に出力する。本実施形態では、出力部１８は、顔方向の推定結果として、顔方向を表した数値を出力する。
なお、出力部１８は、顔方向を任意の形式で出力可能であり、顔方向を表したＣＧを生成、出力してもよい。

［作用・効果］
以上のように、本発明の第１実施形態に係る顔方向推定装置１は、各画素の位置情報を記述するために顔画像を領域分割し、それぞれの領域で色ヒストグラムを計算するので、従来技術に比べて、特徴量の次元数を少なくできる（例えば、ＲＧＢ各色のビン数が４なので、色ヒストグラムで合計１２次元）。さらに、顔方向推定装置１は、顔画像の領域毎に色ヒストグラムを計算するので、顔画像内での頭部位置の変化、顔画像の解像度低下やノイズ重畳の影響を受けにくくなる。これにより、顔方向推定装置１は、学習及び識別の処理負荷を軽減し、サッカー選手の顔方向をリアルタイムで推定することができる。

さらに、顔方向推定装置１は、色に関連した特徴量である色ヒストグラム、及び、形状に関連した特徴量であるＨＯＧのように、特性が異なる特徴量を併用するので、サッカー選手の顔方向を高精度に推定することができる。
なお、顔方向推定装置１の動作は、第２実施形態で説明する。

（第２実施形態）
［顔方向推定装置の構成］
図１０を参照し、本発明の第２実施形態に係る顔方向推定装置１Ｂの構成について、第１実施形態と異なる点を説明する。

第１実施形態では、色ヒストグラム及びＨＯＧという２種類の特徴量を用いることとして説明した。第２実施形態では、Ｎ−１種類の第２特徴量及び色ヒストグラムを合わせて、Ｎ種類の特徴量を用いる点が、第１実施形態と異なる。

図１０に示すように、顔方向推定装置１Ｂは、特徴量計算装置３と、顔画像抽出部１０と、画像サイズ正規化部１１と、第１識別部１４と、第２特徴量計算部１５（１５_２〜１５_Ｎ）と、第２識別部１６（１６_２〜１６_Ｎ）と、識別結果統合部（顔方向推定部）１７Ｂと、出力部１８と、を備える。

つまり、顔方向推定装置１Ｂは、第２特徴量の種類毎に、第２特徴量計算部１５と第２識別部１６との組を備える。言い換えるなら、顔方向推定装置１Ｂは、第２特徴量計算部１５と第２識別部１６との組をＮ−１個だけ備える。

ここで、顔方向推定装置１Ｂは、組み合わせ可能な特徴量の種類及び数が特に制限されず、特性が異なる第２特徴量を併用することが好ましい。また、顔方向推定装置１Ｂは、色に関連した特徴量（色ヒストグラム）を用いるので、色以外に関連した第２特徴量を併用することがより好ましい。

例えば、顔方向推定装置１Ｂは、第１実施形態と同様、２種類目の特徴量として、形状に関連したＨＯＧを用いてもよい。また、顔方向推定装置１Ｂは、３種類目の特徴量として、エッジに関連したＥＯＧ(Edge of Orientation Histogram)を用いてもよい。さらに、顔方向推定装置１Ｂは、ＳＩＦＴ(Scale-Invariant Feature Transform)、ＳＵＲＦ(Speeded Up Robust Features)等の特徴量を用いてもよい。ＳＩＦＴ又はＳＵＲＦを用いる場合、顔方向推定装置１Ｂは、顔画像の画素数が少ないため特徴点を抽出せず、固定グリッドで特徴量を記述することが好ましい（dense sampling）。

第２特徴量計算部１５（１５_２〜１５_Ｎ）は、第２特徴量の種類毎に、画像サイズ正規化部１１から入力した顔画像及び訓練データの第２特徴量を計算する。具体的には、第２特徴量計算部１５_２は、顔画像及び訓練データから１種類目の第２特徴量を計算する。また、第２特徴量計算部１５_３は、顔画像及び訓練データから２種類目の第２特徴量を計算する。さらに、第２特徴量計算部１５_Ｎは、顔画像及び訓練データからＮ−１種類目の第２特徴量を計算する。
なお、第２特徴量計算部１５（１５_２〜１５_Ｎ）は、学習モード及び推定モードでの処理内容が第１実施形態と同様のため、これ以上の説明を省略する。

第２識別部１６（１６_２〜１６_Ｎ）は、学習モードの場合、第２特徴量の種類毎に、訓練データの第２特徴量を学習した識別器を生成する。また、第２識別部１６（１６_２〜１６_Ｎ）は、推定モードの場合、第２特徴量の種類毎に、この識別器により、顔画像の第２特徴量から信頼度を計算する。

具体的には、第２識別部１６_２は、１種類目の第２特徴量により、識別器の生成及び信頼度の計算を行う。また、第２識別部１６_３は、２種類目の第２特徴量により、識別器の生成及び信頼度の計算を行う。さらに、第２識別部１６_Ｎは、Ｎ−１種類目の第２特徴量により、識別器の生成及び信頼度の計算を行う。
なお、第２識別部１６（１６_２〜１６_Ｎ）は、学習モード及び推定モードでの処理内容が第１実施形態と同様のため、これ以上の説明を省略する。

識別結果統合部１７Ｂは、推定モードの場合、第１識別部１４及び第２識別部１６_２〜１６_Ｎで計算した信頼度を統合することで、被写体の顔方向を推定する。具体的には、識別結果統合部１７Ｂは、顔方向毎に色ヒストグラム、及び、それぞれの第２特徴量で計算した信頼度を乗算し、乗算した信頼度が最も高くなる顔方向を被写体の顔方向として推定する。つまり、識別結果統合部１７Ｂは、前記した式（１）により、顔方向毎の信頼度を計算し、その値が最も高くなるクラスの顔方向を推定結果とする。

［顔方向推定装置の動作：学習モード］
図１１を参照し、顔方向推定装置１Ｂの学習モードの動作について説明する（適宜図１０参照）。この学習モードでは、操作者が顔方向推定装置１Ｂに複数の訓練データを入力し、顔方向推定装置１Ｂが訓練データを１個ずつ学習する。
なお、図１１では、ｎ種類目の特徴量を特徴量（ｎ）と図示した（図１２も同様）。

画像サイズ正規化部１１は、訓練データのサイズを正規化する（ステップＳ１０）。
顔方向推定装置１Ｂは、何種類目の特徴量であるかを表す整数ｎを１に初期化する（ステップＳ１１）。

顔方向推定装置１Ｂは、ｎ種類目の特徴量で領域分割が必要か否かを判定する。ここで、顔方向推定装置１Ｂは、領域分割が必要な特徴量（例えば、色ヒストグラム）、及び、領域分割が必要でない特徴量（例えば、ＨＯＧ）を予め設定し、その設定結果に基づいて判定を行う。ここで、顔方向推定装置１Ｂは、ｎ＝１（色ヒストグラム）の場合、領域分割が必要と判定する。一方、顔方向推定装置１Ｂは、ｎ＝２（ＨＯＧ）の場合、領域分割が必要でないと判定する（ステップＳ１２）。

領域分割が必要な場合（ステップＳ１２でＹｅｓ）、画像領域分割部１２は、訓練データを、ｉ×ｊ個の領域に分割する（ステップＳ１３）。
第１特徴量計算部１３は、訓練データのそれぞれの領域について、色ヒストグラムを計算する。そして、第１特徴量計算部１３は、それぞれの領域の色ヒストグラムを連結し、訓練データ全体の色ヒストグラムを求める（ステップＳ１４）。
第１識別部１４は、訓練データの色ヒストグラムを学習した識別器を生成する（ステップＳ１５）。

領域分割が必要でない場合（ステップＳ１２でＮｏ）、第２特徴量計算部１５_ｎは、訓練データのｎ種類目の特徴量を計算する（ステップＳ１６）。
第２識別部１６_ｎは、訓練データのｎ種類目の特徴量を学習した識別器を生成する（ステップＳ１７）。

顔方向推定装置１Ｂは、整数ｎが特徴量の最大種類数Ｎに一致するか否かにより、全種類の特徴量で識別器を生成したか否かを判定する（ステップＳ１８）。
整数ｎが最大種類数Ｎに一致しない場合（ステップ１８でＮｏ）、顔方向推定装置１Ｂは、整数ｎをインクリメントし（ステップＳ１９）、ステップＳ１２の処理に戻る。

整数ｎが最大種類数Ｎに一致する場合（ステップ１８でＹｅｓ）、顔方向推定装置１Ｂは、全訓練データの学習を終了したか否かを判定する（ステップＳ２０）。
全訓練データの学習を終了していない場合（ステップＳ２０でＮｏ）、顔方向推定装置１Ｂは、ステップＳ１０の処理に戻り、次の訓練データを学習する。
全訓練データの学習を終了した場合（ステップＳ２０でＹｅｓ）、顔方向推定装置１Ｂは、学習モードを終了する。
このように、学習モードにより、顔方向推定装置１Ｂは、サッカー選手の顔方向の推定に必要な識別器を生成できる。

［顔方向推定装置の動作：推定モード］
図１２を参照し、顔方向推定装置１Ｂの推定モードの動作について説明する（適宜図１０参照）。

顔方向推定装置１Ｂは、第１撮影部Ｃ_１が撮影したサッカーの試合映像を入力する（ステップＳ３０）。
顔画像抽出部１０は、映像に被写体追跡処理を施し、サッカー選手の位置を求める。そして、顔画像抽出部１０は、サッカー選手の位置を基準にして、サッカー選手の顔画像を抽出する（ステップＳ３１）。

このステップＳ３１において、サッカーの試合映像に複数のサッカー選手が含まれる場合、顔画像抽出部１０は、全サッカー選手の顔画像を抽出してもよく、操作者が指定したサッカー選手の顔画像を抽出してもよい。推定モードでは、顔方向推定装置１Ｂが、顔画像を１個ずつ推定する。

画像サイズ正規化部１１は、顔画像のサイズを正規化する（ステップＳ３２）。
顔方向推定装置１Ｂは、何種類目の特徴量であるかを表す整数ｎを１に初期化する（ステップＳ３３）。
顔方向推定装置１Ｂは、図１１のステップＳ１２と同様、ｎ種類目の特徴量で領域分割が必要か否かを判定する（ステップＳ３４）。

領域分割が必要な場合（ステップＳ３４でＹｅｓ）、画像領域分割部１２は、顔画像を、ｉ×ｊ個の領域に分割する（ステップＳ３５）。
第１特徴量計算部１３は、顔画像のそれぞれの領域について、色ヒストグラムを計算する。そして、第１特徴量計算部１３は、それぞれの領域の色ヒストグラムを連結し、顔画像全体の色ヒストグラムを求める（ステップＳ３６）。
第１識別部１４は、色ヒストグラムを学習した識別器により、顔画像全体の色ヒストグラムから信頼度を計算する（ステップＳ３７）。

領域分割が必要でない場合（ステップＳ３４でＮｏ）、第２特徴量計算部１５_ｎは、顔画像のｎ種類目の特徴量を計算する（ステップＳ３８）。
第２識別部１６_ｎは、ｎ種類目の特徴量を学習した識別器により、顔画像でｎ種類目の特徴量から信頼度を計算する（ステップＳ３９）。

顔方向推定装置１Ｂは、整数ｎが特徴量の最大種類数Ｎに一致するか否かにより、全種類の特徴量で信頼度を計算したか否かを判定する（ステップＳ４０）。
整数ｎが最大種類数Ｎに一致しない場合（ステップ４０でＮｏ）、顔方向推定装置１Ｂは、整数ｎをインクリメントし（ステップＳ４１）、ステップＳ３４の処理に戻る。

整数ｎが最大種類数Ｎに一致する場合（ステップＳ４０でＹｅｓ）、識別結果統合部１７Ｂは、１種類目からｎ種類目までの信頼度を統合し、顔方向を推定する（ステップＳ４２）。
顔方向推定装置１Ｂは、全顔画像の顔方向の推定を終了したか否かを判定する（ステップＳ４３）。
全顔画像の顔方向の推定を終了していない場合（ステップＳ４３でＮｏ）、顔方向推定装置１Ｂは、ステップＳ３２の処理に戻り、次の顔画像の顔方向を推定する。

全顔画像の顔方向の推定を終了した場合（ステップＳ４３でＹｅｓ）、出力部１８は、識別結果統合部１７Ｂが推定した全顔画像の顔方向を外部（例えば、ＣＧ合成装置２）に出力し（ステップＳ４４）、推定モードを終了する。
このように、推定モードにより、顔方向推定装置１Ｂは、サッカー選手の顔方向を推定できる。

［作用・効果］
本発明の第２実施形態に係る顔方向推定装置１Ｂは、顔画像の領域毎に色ヒストグラムを計算するので、第１実施形態と同様、特徴量の次元数を少なくし、サッカー選手の顔方向をリアルタイムで推定することができる。さらに、顔方向推定装置１Ｂは、色ヒストグラム、及び、１以上の任意の第２特徴量を併用するので、サッカー選手の顔方向を高精度に推定することができる。

（変形例）
以上、本発明の各実施形態を詳述してきたが、本発明は前記した各実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した各実施形態では、顔方向を８方向で識別することとして説明したが、これに限定されない。例えば、顔方向推定装置は、顔方向を４方向又は１６方向で推定してもよい。

前記した各実施形態では、顔方向推定装置が、識別器を事前に学習することとして説明したが、これに限定されない。例えば、顔方向推定装置は、オンライン学習により、識別器を学習しながら、リアルタイムで顔方向を推定することができる。

前記した各実施形態では、顔方向推定装置が、ｏｎｅ‐ｖｅｒｓｕｓ‐ｒｅｓｔによるマルチクラスＳＶＭを用いることとして説明したが、これに限定されない。例えば、顔方向推定装置は、ランダムフォレスト、ニューラルネットワーク等の機械学習を用いてもよい。

前記した各実施形態では、顔方向推定装置が、サッカー選手の顔方向を推定することとして説明したが、これに限定されない。例えば、顔方向推定装置は、サッカー以外のスポーツ映像に含まれる選手の顔方向を推定できる。また、顔方向推定装置は、監視カメラの映像に含まれる人物の顔方向を推定してもよい。

前記した各実施形態では、顔方向推定装置を独立したハードウェアとして説明したが、これに限定されない。例えば、顔方向推定装置は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、前記した各手段として協調動作させる顔方向推定プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、ＣＤ−ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

前記した各実施形態では、顔方向推定装置が特徴量計算装置を備えることとして説明したが、これに限定されない。つまり、特徴量計算装置は、顔方向推定装置に組み込むことなく、独立したハードウェアとして利用することができる。

本発明の実施例として、本発明に係る顔方向推定装置の評価試験の結果について説明する。
本発明に係る顔方向推定プログラムをコンピュータにインストールし、第１実施形態と同様の構成とした。このコンピュータは、ＣＰＵがインテル株式会社製の「Ｃｏｒｅ（登録商標）ｉ７‐４７９０３．６０ＧＨｚ」であり、ＲＡＭが１６ＧＢであり、ＯＳがマイクロソフト社製の「ＷＩＮＤＯＷＳ（登録商標）７ＰｒｏＳＰ１６４ｂｉｔ」である。また、顔方向推定プログラムは、Ｐｙｔｈｏｎ３．５．１の環境においてシングルスレッドで実装した。以下、顔方向推定プログラムを実装したコンピュータを、顔方向推定装置とする。

本発明に係る顔方向推定装置の評価試験には、サッカーの試合映像を用いた。第１撮影部は、キヤノン株式会社製の「ＸＡ２５」の１台で撮影を行った。第１撮影部は、センターライン付近の観客席に配置し、サッカーコートの半分が映る画角で撮影した。センターマークの原点を（０，０）とすれば、第１撮影部の座標は、（３４，０）付近の観客席を表す。

評価試験では、正解ラベル（教師信号）を手入力とし、各クラス均等に合計８００サンプルを用意した。サンプルの７５％を訓練データ、残り２５％を評価データ（顔画像）とした。ＨＯＧのパラメータは、１セルを４×４ピクセル、１ブロックを５×５セルとした。色ヒストグラムのパラメータは、領域分割数をｉ＝ｊ＝４とし、ＲＧＢ各色についてビン数を４とした。そして、識別器の生成及び顔方向の推定を５０回試行し、推定結果を平均した。これを実施例１とする。

また、特徴量計算装置（領域分割する色ヒストグラム）の評価実験を行った。これを参考例１とする。この参考例１において、コンピュータの仕様、サンプル、特徴量のパラメータ、試行回数等の評価条件は、実施例１と同等であった。

実施例１と比較すべく、ｉＤＦ、ｃＤＦ及びＩＦを組み合わせて評価実験を行った。このとき、ｉＤＦ及びｃＤＦのパラメータは、ペア数＝１００００とした。これを比較例１とする。ＨＯＧ及びＣＴＣを組み合わせて評価実験を行い、これを比較例２とした。さらに、ＨＯＧのみで評価実験を行い、これを比較例３とした。比較例１〜３の評価条件は、実施例１，２と同等であった。

図１３では、「ｉＤＦ＋ｃＤＦ＋ＩＦ」が比較例１であり、「ＣＴＣ＋ＨＯＧ」が比較例２であり、「ＨＯＧ」が比較例３であり、「Ｃｏｌｏｒｈｉｓｔｏｇｒａｍｓ」が参考例１であり、「Ｐｒｏｐｏｓｅｄ」が実施例１である（図１４〜図１９も同様）。

また、図１３には、実施例１、参考例１及び比較例１〜３の識別性能として、正解率（Accuracy）、適合率（Precision）、再現率（Recall）、Ｆ値（F-measure）を示した。図１３より、実施例１は、全項目で比較例１〜３を上回っており、ＨＯＧと色ヒストグラムとを組み合わせたことで、良好な識別性能を有することが分かった。

図１４には、実施例１、参考例１及び比較例１〜３の計算時間として、１サンプルあたりの特徴量抽出時間（Feature extraction）、学習時間（Training）、識別時間（Classifying）を示した。図１４より、実施例１は、３つの合計時間が約３．３ｍｓとなり、リアルタイム（２９．９７ｆｐｓ相当）で処理できることが分かった。

図１５〜図１９には、実施例１、参考例１及び比較例１〜３の識別結果として、混同行列（Confusion matrix）を示した。この混同行列は、縦軸が訓練データの顔方向を表し、横軸が評価データの顔方向を表す。また、混同行列は、数値が識別数を表し、濃淡が信頼度を表す。これら混同行列では、左上から右下まで対角線上の項目において、識別数が多く、信頼度が高くなれば、識別結果が良好であると言える。

図１５〜図１９より、実施例１は、比較例１〜３と比較して、同程度の推定精度を有することが分かった。また、実施例１は、隣接するクラス間で誤分類が発生している。その理由としては、訓練及び識別のプロセスに起因するものの他、アノテーションにおける顔方向の判断の影響もあると考えられる。つまり、アノテーションの明確な基準がなく、顔方向を人間の主観で判断しているため、例えば、顔方向が０°と４５°との中間のように見える場合、アノテーションをどちらにするか判断が困難である。このように、アノテーションが誤分類の原因になると考えられる。

１，１Ｂ顔方向推定装置
３特徴量計算装置
１０顔画像抽出部
１１画像サイズ正規化部
１２画像領域分割部
１３第１特徴量計算部
１４第１識別部
１５，１５_２〜１５_Ｎ第２特徴量計算部
１６，１６_２〜１６_Ｎ第２識別部
１７，１７Ｂ識別結果統合部（顔方向推定部）
１８出力部

Claims

色ヒストグラム、及び、前記色ヒストグラムと異なる１種類以上の第２特徴量を用いて、被写体の顔画像から前記被写体の顔方向を推定する顔方向推定装置であって、
前記顔画像を入力し、入力した前記顔画像を複数の領域に分割する画像領域分割部と、
前記領域毎の色ヒストグラムを計算し、計算した前記領域毎の色ヒストグラムを連結することで、前記顔画像全体の色ヒストグラムを求める第１特徴量計算部と、
顔方向が異なる訓練データの色ヒストグラムを学習した識別器により、前記顔画像全体の色ヒストグラムから、前記被写体が各顔方向を向いている確率である信頼度を計算する第１識別部と、
前記第２特徴量の種類毎に、前記顔画像の第２特徴量を計算する第２特徴量計算部と、
前記第２特徴量の種類毎に、前記訓練データの第２特徴量を学習した識別器により、前記顔画像の第２特徴量から、前記信頼度を計算する第２識別部と、
色ヒストグラム及び前記第２特徴量の種類毎に計算した信頼度を統合することで、前記被写体の顔方向を推定する顔方向推定部と、
を備えることを特徴とする顔方向推定装置。
前記第２特徴量計算部は、前記第２特徴量として、前記顔画像のＨＯＧを計算し、
前記第２識別部は、前記訓練データでＨＯＧを学習した識別器により、前記顔画像のＨＯＧから前記信頼度を計算することを特徴とする請求項１に記載の顔方向推定装置。
前記顔方向推定部は、前記顔方向毎に前記色ヒストグラムで計算した信頼度と前記ＨＯＧで計算した信頼度とを乗算し、乗算した当該信頼度が最も高くなる顔方向を前記被写体の顔方向として推定することを特徴とする請求項２に記載の顔方向推定装置。
前記被写体を撮影した映像を入力し、入力した前記映像から低解像度の前記顔画像を抽出する顔画像抽出部と、
前記低解像度の顔画像を予め設定したサイズに正規化する画像サイズ正規化部と、をさらに備え、
前記画像領域分割部は、正規化した前記顔画像を前記複数の領域に分割することを特徴とする請求項１から請求項３の何れか一項に記載の顔方向推定装置。
コンピュータを、請求項１から請求項４の何れか一項に記載の顔方向推定装置として機能させるための顔方向推定プログラム。