JP7107380B2

JP7107380B2 - 推定装置、推定方法、およびプログラム

Info

Publication number: JP7107380B2
Application number: JP2020547686A
Authority: JP
Inventors: 雄介森下
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2022-07-27
Anticipated expiration: 2038-09-26
Also published as: JPWO2020065790A1; US20220180554A1; EP3858235A1; US20220036581A1; US20230360433A1; EP3858235A4; US20220180555A1; WO2020065790A1; US20220180556A1

Description

本開示は、向きを推定する技術に関し、特に、画像に含まれる人物の視線や顔の向きを推定する技術に関する。

人物の視線（すなわち、目が見ている方向）や顔の向きは、その人物の行動や意図を解析する上で重要な手掛かりとなり得る。例えば、人物の視線から、その人物が注視している物体または事象を特定することができる。

また、人物の視線と顔向きとを計測することによって得られる、視線と顔向きの方向の違いから、意図的な視線を特定することができる。具体的には、人物は、通常、顔向きと視線とが概ね同一の方向になることが多い。しかし、例えば顔は右を向いているのに視線は左を向いている場合など、人物の視線と顔向きとが異なる場合は、その人物は、他人に視線の方向を悟られないように対象物を見ようとしているとも考えられる。他者は、人物の顔の向きを容易に把握できるが、ある程度その人物に近づかない限り、視線の方向を把握できない。このように、人物の視線と顔向きを計測することによって、その人物が何らかの意図をもって対象を見ているか否かを特定することができる。

人物の視線や顔向きを推定する技術、特に、人物の顔を含む画像（以下「顔画像」と呼ぶ）を用いて、人物の視線や顔向きを推定する技術が、以下に示す文献によって開示されている。

顔画像に基づいて視線を推定する技術が、例えば、特許文献１～３、および非特許文献１～２に記載されている。特許文献１は、顔画像に含まれる特徴点（画像特徴点）を用いて、視線を推定する方法（feature-based methods）を開示している。非特許文献１は、ただ１つの目を含む顔画像から、視線を推定する方法を開示している。

また、特許文献２および非特許文献２は、「見た目に基づく視線の推定」（appearance-based gaze estimation）の例を、それぞれ開示している。例えば、特許文献２では、与えられた顔画像のデータセットを用いて、ＣＮＮ（Convolutional neural network）モデルに基づく深層学習を行うことにより、顔と視線の関係を学習する。

顔画像に基づいて顔向きを推定する技術が、例えば、非特許文献３に記載されている。非特許文献３は、ＣＮＮモデルに基づく深層学習を行うことにより顔の位置や顔の部位の位置とともに、顔の向きなどを同時に推定する方法を開示している。

特許文献４には、顔の部品の３次元位置に基づいて算出された顔の中心位置と、瞳の中心位置の差に基づいて、視線方向を推定する装置が開示されている。

特許文献５には、顔の輪郭と目の位置とに基づいて、視線の方向を検出する装置が開示されている。

特許文献６には、推定された視線の時系列変化に基づいて、車両運転者が正面として認識している方向を推定し、推定された方向に基づいて、視線の方向を補正する装置が開示されている。

特許文献７には、鼻孔の検出の結果に基づいて目の領域を推定し、目の開閉状態を判定する装置が開示されている。

特許文献８には、複数の顔の向きについて生成された部分空間の各々に、検出した特徴点の座標を表すベクトルを射影し、それぞれの部分空間において判別した向きを統合することによって、顔の向きを判定する装置が開示されている。

特許文献９には、目の領域の特徴量と、検出された顔の向きに応じた両目のそれぞれの信頼度とに基づいて、視線の方向を推定する装置が開示されている。

特許第４８２９１４１号公報特開２００９－０５９２５７号公報特許第５７７２８２１号公報国際公開第２００８／００７７８１号特開２０１４－２１００７６号公報特開２００８－２１０２３９号公報特開２０００－３３９４５７号公報特開２０１１－１３８３８８号公報特開２０１２－０３７９３４号公報

J. Wang, E. Sung, and R. Venkateswarlu, "Eye Gaze Estimation from a Single Image of One Eye," Proc. IEEE ICCV 2003, pp.I－136－143, 2003. X. Zhang, Y. Sugano, M. Fritz and A. Bulling, "Appearance-Based Gaze Estimation in the Wild," Proc. IEEE CVPR 2015, pp. 4511-4520, 2015. R. Ranjan, V. M. Patel, R. Chellappa, "HyperFace: A Deep Multi-task Learning Framework for Face Detection, Landmark Localization, Pose Estimation, and Gender Recognition," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.

上述した関連する技術では、単一の画像から視線や顔向きを推定するため、推定の対象である画像が、撮影条件や遮蔽により推定に向かない画像である場合に、精度のよい推定を行うことができない。推定の結果に間違いが生じていたとしても、間違いを修正することが出来ない。例えば、非特許文献２に開示された技術では、入力された一枚の顔画像から視線が推定される。そのため、画像の状態が悪い場合、顔や目の位置を精度良く求めることができない。画像の状態が悪い場合には、例えば、照明の条件が悪く、画像が全体的に暗い場合、又は、顔に影が出来ている場合などがある。画像の状態が悪い場合には、例えば、画像中に顔や目がはっきりと写っていない場合や、目や顔の一部が別の物体により遮蔽されている場合もある。顔や目の位置を精度良く求めることが出来なければ、視線の推定を行うための目の領域を精度よく抽出できず、結果的に視線の推定に失敗する場合がある。

また目の領域を精度よく抽出できていても、目の付近が暗い場合や目が遮蔽されている場合、視線を推定するための情報が目の領域の画像に十分含まれないので、視線の推定に失敗する場合がある。

また、非特許文献３に開示された技術では、入力された一枚の画像から顔や顔部位の位置を検出するとともに顔向きを推定するため、上述の場合と同様の場合、同様の理由により、顔向きの推定に失敗する場合がある。

すなわち、上述の文献に開示されている、１枚の画像から顔などの方向を推定する技術では、画像の状態が、例えば顔の特徴点の抽出に適さない状態である場合に、視線や顔向きを高精度に推定することが困難である。

本開示の目的の１つは、人物の画像における視線や顔向きを推定する精度の、画像の状態による低下を抑制することができる推定装置等を提供することである。

本開示の一態様に係る推定装置は、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動手段と、前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定手段と、推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合手段と、を備える。

本開示の一態様に係る推定方法は、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成し、前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定し、推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する。

本開示の一態様に係る記憶媒体は、コンピュータに、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動処理と、前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定処理と、推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合処理と、を実行させるプログラムを記憶する。本開示の一態様は、上述の記憶媒体に格納されているプログラムによっても実現される。

本開示によれば、人物の画像における視線や顔向きを推定する精度の、画像の状態による低下を抑制することができる。

図１は、本開示の第１実施形態に係る推定装置の構成の一例を示すブロック図である。図２は、顔画像の一例を示す図である。図３は、部分画像（目領域画像）の一例を示す図である。図４は、部分画像（顔領域画像）の一例を示す図である。図５は、摂動量に基づく部分画像の抽出の流れを説明する図である。図６は、本開示の第１実施形態に係る推定装置の動作の一例を示すフローチャートである。図７は、本開示の第２実施形態に係る推定装置の構成の一例を示すブロック図である。図８は、本開示の第２実施形態に係る推定装置の動作の一例を示すフローチャートである。図９は、推定装置を実現するコンピュータのハードウェア構成の一例を示すブロック図である。

＜第１実施形態＞
図１は、第１実施形態に係る推定装置１００の構成を示すブロック図である。推定装置１００は、画像に含まれる人物の視線及び顔向きの少なくとも一方を推定するための装置である。本実施形態の説明では、人物の視線の方向と、人物の顔の方向（すなわち、上述の顔向き）を、まとめて、人物の方向とも表記する。また、人物の視線の方向を、単に、視線とも表記する。さらに、人物の顔の方向を、単に、顔向きとも表記する。図１に示すように、推定装置１００は、取得部１１０と、検出部１２０と、摂動部１３０と、抽出部１４０と、推定部１５０と、統合部１６０と、出力部１７０とを含む。推定装置１００は、他の構成要素を含んでもよい。

＜取得部１１０＞
取得部１１０は、人物の顔を含む画像の画像データを取得する。取得部１１０は、例えば、通信ネットワークを介して推定装置１００と接続され、画像データを出力する他の装置から、画像データを受け取ってもよい。取得部１１０は、例えば、通信ネットワークを介して推定装置１００と接続され、画像データを記憶する他の装置から、画像データを読み出してもよい。他の装置は、撮影した画像の画像データを出力する、監視カメラ、または、電子機器に内蔵されるカメラ等の撮像装置であってもよい。他の装置は、例えばデータベース等として、画像データが格納された記憶装置であってもよい。取得部１１０は、検出部１２０へ、取得した画像データを送出する。

取得部１１０が取得する画像データは、複数の画素の輝度値によって表現されている。画像データ（言い換えると、画像データが表す画像）に含まれる画素数、色数（すなわち色成分の数）、および階調数などは、特定の数値に限定されない。取得部１１０は、あらかじめ決められた画素数および色数を有する画像データのみを取得してもよい。取得部１１０が取得する画像データの画素数および色数は、特定の画素数および色数に限定されていなくてもよい。また、画像データは、静止画像のデータであってもよいし、動画像のデータであってもよい。説明の便宜上、以下では、取得部１１０が取得する画像データを「入力画像」と呼ぶ。

以下の説明においては、入力画像は１つの人物の顔を含んでいることとする。１つの入力画像に複数の顔が含まれる場合、取得部１１０は、その入力画像を、それぞれ１つの顔のみを含む複数の入力画像に分割すればよい。取得部１１０と、推定装置１００の他の構成要素は、分割によって生成された複数の入力画像のそれぞれに対して、以下で説明する動作を行えばよい。

取得部１１０は、取得した入力画像から顔画像を生成する。取得部１１０は、生成した顔画像を、検出部１２０および抽出部１４０に供給する。顔画像は、人物の顔の一部又は全部を含む画像を表す。顔画像は、入力画像から、人物の顔以外の要素（例えば、背景、物体、および人物の体等）が除かれた画像であってよい。顔画像は、入力画像から、人物の顔の一部以外の要素が除かれた画像であってよい。

取得部１１０は、例えば、顔の領域を検出する一般的な方法を用いて、入力画像において顔の領域を検出してもよい。取得部１１０は、入力画像において、顔の一部の領域（例えば、顔の特定の部品の領域）を、顔の特定の部品（例えば目等）の領域を検出する一般的な方法を用いて、検出してもよい。入力画像から人物の顔以外の要素を除くことは、入力画像の、人物の顔以外の領域の全ての画素の画素値を、所定の画素値に変更することであってもよい。入力画像から人物の顔の一部以外の要素を除くことは、入力画像の、人物の顔の一部以外の領域の全ての画素の画素値を、所定の画素値に変更することであってもよい。取得部１１０は、例えば、検出した顔の領域（又は顔の一部の領域）以外の領域の画素の画素値を、所定の画素値に変更してもよい。取得部１１０は、検出された顔の領域（又は顔の一部の領域）以外の領域の画素の画素値が所定の画素値に変更された画像を、顔画像として、検出部１２０および抽出部１４０に供給してもよい。

（顔画像）
図２は、取得部１１０が入力画像から生成する顔画像の例（顔画像４００）を示す。図２に示す顔画像４００は、顔のパーツ（目、眉、鼻、および口）を含んでいる。顔画像は、推定部１５０が視線又は顔向きを推定するのに必要な情報を少なくとも含んでいれば良い。例えば、推定部１５０が視線を推定する場合は、顔画像の目の領域のみが使用される。従って、推定部１５０が視線を推定する場合、顔画像は、少なくとも目を含んでいればよい。以下の説明では、目の領域の画像を、目領域画像とも表記する。

なお、本開示の各実施形態の説明では、取得部１１０が入力画像から生成する画像、すなわち、取得部１１０によって入力画像から抽出された、少なくとも顔の部位を含む画像を顔画像と表記する。また、顔画像の、検出部１２０によって検出された特徴点の位置に基づいて定まる領域、及び、その領域に摂動を加えることによって得られる領域から、抽出部１４０によって抽出される画像を、部分画像と表記する。

入力画像が動画像である場合、入力画像は複数の画像（すなわちフレーム）を含む。この場合、入力画像に含まれる全てのフレームが、顔を含むとは限らない。あるフレームには顔が含まれるが、別のフレームには顔が含まれない可能性がある。そこで、入力画像が動画像である場合、取得部１１０は、動画像から、人物の顔を含む画像のみを抽出し、抽出した画像を、顔画像として、検出部１２０および抽出部１４０に供給してもよい。この構成により、推定装置１００が視線又は顔の向きを推定する処理（後述）を効率化することができる。

入力画像が静止画像である場合、取得部１１０は、入力画像をそのまま、顔画像として、検出部１２０と抽出部１４０に供給してもよい。取得部１１０は、入力画像を加工し、加工した入力画像を、顔画像として、検出部１２０と抽出部１４０に供給してもよい。後者の場合、例えば、取得部１１０は、入力画像において人物の顔を検出し、検出した顔を含む、入力画像の一部を、顔画像として抽出し、抽出した顔画像を、検出部１２０および抽出部１４０に供給してもよい。

顔画像は、モノクロ画像であってよい。顔画像は、カラー画像であってよい。すなわち、顔画像の画素の画素値は、Ｒ（赤）、Ｇ（緑）、Ｂ（青）などの複数の色成分の大きさを示す値を表す。この場合、取得部１１０は、顔画像の色数が所定の色数になるように、顔画像を変換してもよい。取得部１１０は、顔画像の階調数が所定の階調数になるように、顔画像を変換してもよい。取得部１１０は、変換した顔画像を、検出部１２０および抽出部１４０に供給してもよい。例えば、顔画像がカラー画像であり、顔画像に含まれる色の情報（彩度、色相）を使用しない場合、取得部１１０は、顔画像を、単一成分のグレースケールで表わされる顔画像に変換してもよい。このようにして変換された顔画像のことも、以後は単に「顔画像」と呼ぶ。

＜検出部１２０＞
検出部１２０は、取得部１１０から供給される顔画像（例えば、図２に示す顔画像４００）を受け取り、受け取った顔画像から、顔の特徴点を検出する。顔の特徴点は、顔又は顔の部品において定められている特徴点である。

推定装置１００が推定する方向が視線の方向である場合、検出部１２０は、目に定められている特徴点を検出してよい。検出部１２０は、例えば、顔画像から目の瞳の中心を特徴点として検出してもよい。検出部１２０は、さらに、目の輪郭線上の複数の点を特徴点として検出してもよい。検出部１２０が特徴点として検出する、瞳の中心、および、目の輪郭線上の複数の点を、以下では目の特徴点と表記する。

目の輪郭線上の複数の点は、例えば、内眼角、外眼角、上瞼の中心、および、下瞼の中心の、４点などである。内眼角（いわゆる目頭）は、目の輪郭線の両端において、上下の瞼が相会する２点のうち、顔の内側にあるほうの点を指す。外眼角（いわゆる目尻）は、上下のまぶたが相会する２点のうち、顔の外側にあるほうの点を指す。上瞼の中心は、上瞼と眼球との境界の、横方向における中心の点である。また、下瞼の中心は、下瞼と眼球との境界の、横方向における中心の点である。

本実施形態では、以下の説明では、抽出部１４０は、瞳の中心の点を中心として含む部分画像を抽出する。抽出部１４０は、瞳の中心の点の代わりに、内眼角と外眼角とを結ぶ線分の中点を中心として含む部分画像を抽出してもよい。抽出部１４０は、内眼角、外眼角、上瞼の中心、および、下瞼の中心の、４点に基づいて定まる点を中心として含む部分画像を抽出してもよい。抽出部１４０は、このようにすると、抽出する部分画像の位置がより安定する。なお、上述の４点に基づく点は、４点が頂点である矩形の重心であってもよい。上述の４点に基づく点は、内眼角と外眼角とを結ぶ線分と、上瞼の中心と下瞼の中心とを結ぶ線分の、交点であってもよい。上述の４点に基づく点は、平行な２辺がそれぞれ内眼角と外眼角とを通り、他の平行な２辺がそれぞれ上瞼の中心と下瞼の中心とを通る平行四辺形の重心であってもよい。内眼角を通る辺及び外眼角を通る辺は、画像の２軸のうち、内眼角と外眼角とを通る直線に対する角度が大きい方の軸に平行であってよい。上瞼の中心を通る辺及び下瞼の中心を通る辺は、画像の２軸のうち、上瞼の中心と下瞼の中心とを通る直線に対する角度が大きい方の軸に平行であってよい。

推定装置１００が推定する方向が顔の方向である場合、検出部１２０は、目に定められている特徴点に限らず、顔の特徴点を検出してよい。検出部１２０は、例えば、顔画像から、上述の目の特徴点に加えて、眉毛、鼻、口、顎下などに定められている複数の点を検出してもよい。この場合に検出部１２０が検出する、目、眉毛、鼻、口、顎下の複数の点を、以下では顔の特徴点と表記する。本実施形態の顔の特徴点は、一般的によく使用される、顔の特徴点であってもよい。本実施形態の顔の特徴点は、例えば推定装置１００のオペレータなどによって、顔の上に適宜定められた点であってもよい。推定装置１００が、視線の方向と顔の方向とを推定する場合、検出部１２０は、顔の特徴点を抽出してよい。

検出部１２０は、目の特徴点を検出するために、例えば特許文献３に記載された方法など、周知の様々な方法のいずれかを使用してもよい。同様に、検出部１２０は、顔の特徴点を検出するために、例えば特許文献３に記載された方法など、周知の様々な方法のいずれかを使用してもよい。例えば、検出部１２０は、教師あり学習などの一般的な機械学習を用いてもよい。この場合、検出部１２０は、例えば、複数の人物の、目、眉毛、鼻、口、顎下などの特徴点の位置が与えられた顔画像を用いて、複数の人物の顔における目、眉毛、鼻、口、顎下の特徴および位置を学習する。言い換えると、検出部１２０は、特徴点の位置が与えられた顔画像を用いて、入力された顔画像の特徴点の位置を出力する検出器を、あらかじめ学習させておく。そして、検出部１２０は、学習させて置いた検出器を使用して、供給された顔画像から特徴点を検出する。

検出部１２０は、顔画像から検出した特徴点（例えば、目の特徴点、又は、顔の特徴点）の情報を、摂動部１３０と抽出部１４０に送出する。

＜摂動部１３０＞
摂動部１３０は、検出部１２０から、検出部１２０が検出した特徴点（例えば、目の特徴点又は顔の特徴点）の情報を受け取る。摂動部１３０は、抽出部１４０によって抽出される部分画像の領域に加える摂動の量（以下では、「摂動量」と表記）を、受け取った特徴点の情報に基づいて計算する。摂動量の計算については、後で詳細に説明する。

顔画像から抽出される部分画像の領域は、上述のように特徴点に基づいて定まる。摂動は、部分画像が抽出される領域の位置等に与える変動を指す。摂動量は、部分画像が抽出される領域の位置等に与える変動を表す値である。摂動部１３０は、変動量を、特徴点の情報に基づいて計算する。部分画像の領域に摂動を加えることは、特徴点に基づいて定められた領域（以下、元の領域とも表記）に、摂動量に基づいて定められる変動を加えることによって、他の領域を決定すること（言い換えると、他の領域を生成すること）を指す。摂動は、複数の変動（例えば、複数の変動の集合）であってもよい。その場合、摂動部１３０は、特徴点の情報に基づいて、複数の変動量を計算する。領域に摂動を加えることは、摂動を表す複数の変動のそれぞれを領域に適用することによって、複数の領域を決定すること（言い換えると、複数の領域を生成すること）である。以下の説明では、摂動が複数の変動によって表されている場合、その摂動は、「摂動が複数の変動を含む」と表される場合がある。

具体的には、摂動は、例えば、平行移動等の、領域の位置の変化であってもよい。領域の平行移動は、領域の大きさ及び方向を変化させない、領域の移動を表す。この場合、摂動量は、特徴点の情報によって定まる、１つの２次元ベクトルによって表されていてよい。

上述のように、摂動は、それぞれ特徴点の情報によって定まる、複数の変動の集合であってもよい。摂動部１３０は、例えば、特徴点の情報に基づいて計算される値ｐを用いて複数の摂動量を決定してもよい。値ｐは、例えば、所定の特徴点の間の距離の定数倍であってもよい。値ｐは、例えば、所定の特徴点の間の位置の関係に基づいて算出される値の定数倍であってもよい。

具体的には、摂動は、例えば、顔画像に定められている２つの座標軸に基づいて定まる、座標の２つの要素の値の少なくとも一方が、ｐ増加する、領域の位置の平行移動の集合であってよい。この場合、摂動は、（ｐ，０）、（０，ｐ）、（ｐ，ｐ）の３つのベクトルによって表される。摂動部１３０は、これらの３つのベクトルを、摂動量に決定してよい。そして、後述の抽出部１４０は、顔画像の特徴点によって定まる元の領域に対して（ｐ，０）、（０，ｐ）、（ｐ，ｐ）の３つのベクトルによって表される移動をそれぞれ行うことによって得られる３つの領域と、元の領域とから、部分画像を抽出してよい。

摂動は、例えば、顔画像に定められている２つの座標軸に基づいて定まる、座標の２つの要素の値の少なくとも一方が、ｐ増加または減少する、領域の位置の平行移動の集合であってもよい。この場合、摂動は、（ｐ，０）、（０，ｐ）、（ｐ，ｐ）、（－ｐ，０）、（０，－ｐ）、（－ｐ，ｐ）（ｐ，－ｐ）（－ｐ，－ｐ）の８つのベクトルによって表される。摂動部１３０は、これらの８つのベクトルを、摂動量に決定してよい。そして、後述の抽出部１４０は、顔画像の元の領域に対して上記８つのベクトルによって表される移動をそれぞれ行うことによって得られる８つの領域と、元の領域とから、部分画像を抽出してよい。摂動が平行移動である場合の摂動量を計算し決定する方法は、以上の方法に限られない。

摂動は、例えば、部分画像が抽出される領域の大きさの変動であってもよい。大きさの変動は、例えば、拡大であってもよい。大きさの変動は、縮小であってもよい。大きさの変動は、等方的でなくてもよい。例えば、顔画像内のある方向の大きさの変動が、他の方向の大きさの変動と異なっていてもよい。

摂動が領域の大きさの変動である場合、摂動量は、例えば、領域の大きさの変化率を表していてもよい。摂動が、例えば、領域のサイズをｒ倍にする、領域の大きさの変動である場合、摂動量は、ｒであってよい。摂動が、例えば、横方向のサイズをｒ１倍にし、縦方向のサイズをｒ２倍にする、領域の大きさの変動である場合、摂動量は、ベクトル（ｒ１，ｒ２）であってもよい。摂動が、変化率の異なる複数の大きさの変動の集合である場合、摂動量は、変化率の集合であってよい。

摂動が領域の大きさの変動である場合、摂動量は、例えば、領域の大きさの変化量であってもよい。摂動は、例えば、縦方向のサイズをｓ１増加させ、横方向のサイズをｓ２増加させる、領域のサイズの変更であってもよい。この場合、摂動量は、ベクトル（ｓ１，ｓ２）であってもよい。摂動が、変化量の異なる複数の大きさの変動の集合である場合、摂動量は、変化量を表すベクトルの集合であってよい。

抽出部１４０は、特徴点の情報に基づいて定まる領域に対して摂動量が表す大きさの変動を適用し、特徴点の情報に基づいて定まる領域と、大きさの変動が適用された領域とから、部分画像を抽出する。なお、摂動が領域の大きさの変動である場合、抽出部１４０は、領域の中心の位置が変化しないように領域が決定してもよい。

摂動は、抽出した部分画像の拡大又は縮小であってもよい。この場合、摂動量は、部分画像の大きさの変化量を表す値であってもよい。摂動量は、部分画像の大きさの変化率を表す値であってもよい。この場合、摂動部１３０は、摂動が、部分画像が抽出される領域の大きさの変動である場合の、領域のサイズを決定する方法と同様の方法によって、部分画像の領域に摂動を加えることによって生成される領域のサイズを決定してよい。この場合、抽出部１４０は、特徴点に基づいて定まる領域から抽出された部分画像を、決定されたそれぞれのサイズの画像に、例えば補間によって変換することによって、摂動によって得られる部分画像を生成してもよい。

摂動は、例えば、部分画像が抽出される領域の回転であってもよい。この場合、摂動量は、回転の角度の大きさであってもよい。そして、摂動は、特徴点によって定まる領域を、その領域の中心点を中心に、摂動量によって大きさが表される角度回転させる回転の集合であってもよい。例えば、角度の大きさがｔである場合、摂動は、特徴点によって定まる領域を、角度ｔ回転させる回転と、角度－ｔ回転させる回転とであってもよい。この場合、抽出部１４０は、回転させられた領域から抽出される画像の各画素の画素値を、顔画像の画素の画素値を使用した補間によって算出してもよい。摂動は、パラメータによって変形の大きさを調整することができる他の変換であってもよい。

摂動は、顔画像に対する、例えばホワイトノイズなどのノイズの付加であってもよい。その場合、摂動量は、付加されるノイズの強度及び量のいずれかを表すパラメータであってもよい。付加されるノイズの生成方法は、パラメータによってノイズの強度及び量のいずれかを調整できる、既存のノイズを発生させる方法のいずれかであってよい。摂動は、顔画像の平滑化であってもよい。その場合、摂動量は、平滑化の強度を示すパラメータであってもよい。平滑化の方法は、パラメータによって強度を調整できる平滑化の方法のいずれかであってよい。摂動は、パラメータによって強度等を調整できる、画像に対する他の処理であってもよい。

摂動部１３０は、複数の摂動量を決定してもよい。具体的には、例えば、特徴点の情報に基づいて摂動量を決定し、さらに、例えば決定した摂動量を使用した所定の方法によって、０と決定した摂動量の値との間に値を持つ他の摂動量の値を決定してもよい。摂動部１３０は、例えば、０と決定した摂動量の値との間を、所定数で等分する値を、上述の他の摂動量と決定してもよい。例えば、所定数が２である場合、摂動部１３０は、特徴点の情報に基づいて決定した摂動量を２で割った値を、上述の他の摂動量と決定してもよい。

なお、以上の説明では、摂動が表す変動は、領域を変更しない変動を表す値を含まず、抽出部１４０は、特徴点の情報に基づいて定まる領域から部分画像を抽出する。しかし、抽出部１４０は、特徴点の情報に基づいて定まる領域に摂動量によって表される変動が加えられた領域から部分画像を抽出し、特徴点の情報に基づいて定まる領域から必ずしも部分画像を抽出しなくてよい。その場合、摂動部１３０は、摂動量が領域を変更しない変動を表す値を含むように、摂動量を設定してもよい。そして、抽出部１４０は、摂動量が、領域を変更しない変動を表す値を含んでいる場合に、特徴点の情報に基づいて定まる領域から部分画像を抽出してもよい。

また、摂動は、以上で説明した摂動の組み合わせであってもよい。摂動の組み合わせによって表される摂動は、例えば、領域の位置を回転させ、平行移動させ、大きさを変化させる摂動などである。摂動の組み合わせによって表される摂動は、この例に限られない。

次に、図３及び図４を参照して、摂動量の決定方法の例を具体的に説明する。図３および図４は、図２に示す顔画像４００の一部と、その一部において検出された特徴点を表す図である。図３に示す部分画像４１０は、図２に示す顔画像４００の領域４１０から抽出された部分画像に相当する。領域４１０は、顔画像４００の左側の目を含む領域である。図３に示す部分画像４２０は、図２に示す顔画像４００の領域４２０から抽出された部分画像に相当する。領域４２０には、顔画像４００の右側の目を含む領域である。また、図４に示す部分画像４３０は、図２に示す顔画像４００の領域４３０から抽出された部分画像に相当する。部分画像４３０は、顔画像４００の目や鼻などの顔の部位を含む領域４３０から抽出された部分画像する。

部分画像４３０は、顔向きを推定する手がかりとなる顔の部位を含む。例えば、顔画像における右目と左目と鼻の頭頂部の位置関係は、顔が正面向きの場合、顔画像において、右目と鼻との間の距離と、左目と鼻との間の距離とが、概ね一致することを示す。なお、鼻の頭頂部は、鼻の、最も突き出た部分を表す。しかし、顔が右を向いている場合（すなわち、人物が右目のある方向に首を横に振った状態では）、右目と鼻の頭頂部との間の顔画像における距離は、左目と鼻の頭頂部との間の顔画像における距離より短い。この距離の違いは、顔が横を向いていることを推定する手がかりとして使用できる。部分画像４３０が含む顔の部位は、上述の右目、左目、および鼻に限定されない。

図３に示す部分画像４１０、４２０において、点Ｐ_１および点Ｐ_２は、瞳の中心である。また図４に示す部分画像４３０において、点Ｐ_１および点Ｐ_２は、瞳の中心であり。点Ｐ_３は、鼻の頭頂部である。点Ｐ_４は、顎下である。点Ｐ_１2は、点Ｐ_１と点Ｐ_２とを結ぶ線分の中点である。

（領域の位置に摂動を加える場合）
摂動部１３０は、例えば、抽出部１４０によって抽出される部分画像の領域の位置に与える摂動の大きさを表す摂動量を、顔の大きさを表す値（以下、顔の大きさとも表記）に基づいて求める。摂動部１３０は、例えば、画像における両目の間隔を、顔の大きさに決定する。具体的には、摂動部１３０は、検出部１２０が検出した目の特徴点のうち、右目の瞳の位置（例えば、図３の部分画像４１０の点Ｐ_１）と左目の瞳の位置（例えば、図３の部分画像４２０の点Ｐ_２）との間の距離を、顔の大きさとして用いてもよい。本実施形態では、距離は、例えば、ユークリッド距離である。距離は、他の距離であってもよい。

また、摂動部１３０は、両目の中点と顎の最下部の点との間の間隔を、顔の大きさに決定しても良い。具体的には、摂動部１３０は、右目の瞳の位置と左目の瞳の位置とを結ぶ線分の中点（例えば図４の部分画像４３０の点Ｐ_１２）と、顎の最下部の点（例えば図４の部分画像４３０の点Ｐ_４）との間の距離を、顔の大きさとして用いてもよい。

目は、画像において特徴的なパターンを有する。例えば、白目と黒目では明確な輝度の差が生じる。そのため、目の特徴点は、高精度に求められることが多い。従って、顔の大きさとして両目の間隔を用いる場合、顔の大きさも高精度に求まる。顔が横を向いている場合は、画像における両目の間隔（例えばユークリッド距離）は、顔が正面を向く場合の両目の間隔と比べ小さい。この場合、両目の間隔の代わりに、両目の中点と顎の最下部の点との間の間隔を用いることによって、顔の向きによらず、顔の大きさを安定して求めることが出来る。

顔の大きさをＳとしたとき、摂動部１３０は、部分画像の位置に加える摂動の大きさを表す摂動量として、摂動が表す、領域の位置のｘ軸方向の移動量ｄ_ｘとｙ軸方向の移動量ｄ_ｙを、例えば以下の式により求めてもよい。

位置の摂動量（ｄ_ｘｉ，ｄ_ｙｉ）＝（ｕ_ｘｉ×Ｓ，ｕ_ｙｉ×Ｓ）
ここで、ｉは、摂動が含む変動に付与された番号であり、ｕ_ｘｉおよびｕ_ｙｉは、領域の位置に加える摂動の、ｉ番目の変動の大きさを決定するために予め定められたパラメータであり、「×」は掛け算を表す演算子である。（ｄ_ｘｉ，ｄ_ｙｉ）は、ｉ番目の変動を表す位置の摂動量である。パラメータｕ_ｘｉとｕ_ｙｉは、同じ値であってもよい。パラメータｕ_ｘｉとｕ_ｙｉは、別の値であってもよい。上述のように、摂動は、複数の変動を含んでいてもよい。その場合の複数のパラメータの例を、以下に示す。

（ｕ_ｘ０，ｕ_ｙ０）＝（０．０，０．０）
（ｕ_ｘ１，ｕ_ｙ１）＝（０．１，０．０）
（ｕ_ｘ２，ｕ_ｙ２）＝（０．０，０．１）
（ｕ_ｘ３，ｕ_ｙ３）＝（０．１，０．１）
なお、以上の例において、（ｕ_ｘ０，ｕ_ｙ０）が表す変動は、部分画像が抽出される領域の位置を変更しない。

（領域の大きさに摂動を加える場合）
摂動部１３０は、例えば、抽出部１４０で抽出する部分画像の大きさに加える摂動を表す摂動量を、顔の大きさに基づいて求めてもよい。顔の大きさの算出方法は、上述の算出方法と同じでよい。顔の大きさをＳとしたとき、摂動部１３０は、部分画像の大きさに加える摂動を表す摂動量として、摂動が表す、領域のサイズのｘ軸方向の変化量ｓ_ｘとｙ軸方向の変化量ｓ_ｙを、例えば以下の式により求めてもよい。

大きさの摂動量（ｓ_ｘｉ，ｓ_ｙｉ）＝（ｖ_ｘｉ×Ｓ，ｖ_ｙｉ×Ｓ）
ここで、大きさの摂動量（ｓ_ｘｉ，ｓ_ｙｉ）は、領域の大きさに加えられる摂動のｉ番目の変動の大きさを表す。ｖ_ｘｉおよびｖ_ｙｉは、領域の大きさに加える摂動の、ｉ番目の変動の大きさを決定するために予め定められたパラメータである。パラメータｖ_ｘｉとｖ_ｙｉは、同じ値であってもよい。パラメータｖ_ｘｉとｖ_ｙｉは、別の値であってもよい。上述のように、摂動は、複数の変動を含んでいてもよい。その場合の複数のパラメータの例を、以下に示す。

（ｖ_ｘ０，ｖ_ｙ０）＝（０．０，０．０）
（ｖ_ｘ１，ｖ_ｙ１）＝（０．１，０．０）
（ｖ_ｘ２，ｖ_ｙ２）＝（０．０，０．１）
（ｖ_ｘ３，ｖ_ｙ３）＝（０．１，０．１）
なお、領域の位置に加える摂動の大きさを決定するパラメータ（ｕ_ｘｉ，ｕ_ｙｉ）や、領域の大きさに加える摂動の大きさを決定するパラメータ（ｖ_ｘｉ，ｖ_ｙｉ）は、予め定められていてもよい。例えば摂動部１３０が、顔画像４００の性質や、何らかの指標に基づいて、これらのパラメータを決定してもよい。

摂動部１３０は、例えば、顔画像の画質を評価し、顔画像の画質に応じて、これらのパラメータを決定してもよい。画質の評価は、画像に含まれるノイズの量に基づく評価であってもよい。画質の評価は、コントラストの大きさに基づく評価であってもよい。摂動部１３０は、画質を評価する既存の方法のいずれかによって、顔画像の画質を評価してよい。顔画像の画質が低い場合、検出部１２０が検出する特徴点の精度が低い（言い換えると、正確な検出に失敗し、検出された位置と本当の位置とが乖離する）と考えられる。摂動部１３０は、顔画像の画質が低いほど、摂動の大きさが増加するように、摂動量を決定してもよい。例えば、摂動部１３０は、顔画像の画質が低いほど摂動の大きさが大きくなるよう、領域の位置に加える摂動の大きさを決定するパラメータ（ｕ_ｘｉ，ｕ_ｙｉ）を決定してもよい。摂動部１３０は、顔画像の画質が低いほど摂動の大きさが大きくなるよう、領域の大きさに加える摂動の大きさを決定するパラメータ（ｖ_ｘｉ，ｖ_ｙｉ）を決定してもよい。これにより、検出された特徴点の位置と本当の特徴点の位置との間に乖離がある場合でも、摂動により生成される部分画像の何れかによって、人物の向きを正しく推定できる可能性が高まる。

検出部１２０が、例えば、顔の検出と顔の信頼度（例えば検出スコア）の算出とを行い、検出された顔において特徴点を検出するよう構成されている場合、摂動部１３０は、顔の信頼度に基づいて、摂動の大きさを決定する上述のパラメータを決定してもよい。推定装置１００が、外部の顔検出装置等から、検出された顔の位置と、検出された顔の信頼度を受け取るように構成されている場合も、摂動部１３０は、顔の信頼度に基づいて、摂動の大きさを決定する上述のパラメータを決定してもよい。検出された顔の信頼度が低い場合、正確な顔の位置を検出できていない可能性が高い。正確な顔の位置を検出できていない場合、検出部１２０によって検出された特徴点の精度が低いことが考えられる。そのため、顔画像の画質が低い場合と同様に、摂動部１３０は、検出された顔の信頼度に応じて、上述のパラメータ（例えば、（ｕ_ｘｉ，ｕ_ｙｉ）および（ｖ_ｘｉ，ｖ_ｙｉ））を、摂動の大きさが大きくなるように決定してもよい。

摂動部１３０は、計算した摂動量（具体的には、摂動量の情報）を、抽出部１４０に送出する。

＜抽出部１４０＞
抽出部１４０は、取得部１１０から、顔画像（図２に顔画像４００として例示）を受け取る。抽出部１４０は、摂動部１３０から、摂動量（具体的には、摂動量の情報）を受け取る。抽出部１４０は、検出部１２０から、特徴点の情報を受け取る。

抽出部１４０は、受け取った特徴点の情報に基づいて領域の位置を定め、領域の位置と受け取った摂動量とに基づいて、部分画像を抽出する領域の位置を特定する。具体的には、例えば摂動が領域の範囲の変更（位置の変更、大きさの変更等）である場合、抽出部１４０は、領域の位置が示す領域から、部分画像を抽出する。なお、抽出部１４０が、特徴点の情報に基づく領域の位置に摂動量が表す摂動を加えることによって得られる領域のみから部分画像を抽出するよう構成されている場合、特徴点の情報に基づく領域の位置から、部分画像を抽出しなくてよい。抽出部１４０は、さらに、受け取った顔画像の、受け取った特徴点の情報に基づく領域の位置に、摂動量が表す摂動を加えることによって（すなわち、摂動量が表す変動を適用することによって）、部分画像を抽出する領域を特定する。そして、抽出部１４０は、受け取った顔画像の、特定された領域から、部分画像を抽出する。例えば摂動が部分画像に対するノイズ除去等の処理である場合、抽出部１４０は、受け取った顔画像の、受け取った特徴点の情報に基づく領域の位置から、部分画像を抽出し、抽出した部分画像に、摂動量に基づく処理を行ってよい。抽出部１４０は、受け取った顔画像に、摂動量に基づく処理を行い、処理が行われた顔画像の、受け取った特徴点の情報に基づく領域の位置から、部分画像を抽出してよい。抽出部１４０は、以上のように、複数の部分画像を抽出する。以下の説明では、顔画像の、特徴点に基づいて定まる領域に摂動を加えることによって得られる領域から、部分画像を抽出する処理を、正規化処理とも表記する。また、抽出された部分画像を、正規化された顔画像とも表記する。

以下では、まず、推定部１５０が視線を推定する場合における、抽出部１４０が部分画像を抽出する動作の例について説明する。その後、推定部１５０が顔向きを推定する場合における、抽出部１４０が部分画像を抽出する動作の例について説明する。

（視線を推定する場合の部分画像の抽出）
推定部１５０が視線を推定する場合、上述のように、抽出部１４０が抽出する部分画像は、右目付近の領域の画像及び左目付近の領域の画像（以下、目領域画像とも表記する）である。

抽出部１４０は、まず、顔画像上において、摂動部１３０から取得した摂動量の情報を用いて、部分画像（両目の目領域画像）の位置と大きさを規定する４つの基準座標を決定する。摂動部１３０から複数の変動を表す摂動量の情報が取得されている場合、抽出部１４０は、摂動量が表す変動毎に４つの基準座標を生成し、摂動量が表す変動毎に部分画像（右目の目領域画像及び左目の目領域画像）を抽出する。

以下では、上述の４つの基準座標を基準座標Ａ～Ｄと表記する。基準座標Ａ～Ｄは、それぞれ、部分領域の左上、右上、右下、左下の点の座標を表す。例えば、図３に示す部分画像４１０、４２０、および図４に示す部分画像４３０において、基準座標Ａ～Ｄが示す点に、符号Ａ～Ｄが示されている。基準座標Ａ～Ｄは二次元の画像において定義されている座標系の座標であるため、それぞれ二次元の座標値を持つ。以下の説明は、画像の座標系の座標軸は、ｘ軸及びｙ軸であるとする。以下の説明では、例えば基準座標Ａの、ｘ座標及びｙ座標を、それぞれ、Ａｘ及びＡｙと表記することもある。

抽出部１４０は、部分画像の基準の大きさ（すなわち、基準座標Ａ～Ｄによって定まる四辺形の大きさ）を、顔の大きさに基づいて求める。顔の大きさは、摂動部１３０が摂動量の算出に使用した顔の大きさと同様に、例えば、両目の間隔（右目と左目との間の距離）であってもよい。具体的には、抽出部１４０は、検出部１２０が検出した目の特徴点のうち、右目の瞳の位置と左目の瞳の位置との距離（例えばユークリッド距離）を、顔の大きさとして用いてもよい。

また、顔の大きさは、両目を結ぶ線分の中点と顎の最下部の点との間の間隔であってもよい。具体的には、抽出部１４０は、検出部１２０が検出した顔の特徴点のうち、右目の瞳の位置と左目の瞳の位置とを結ぶ直線の中点と、顎の最下部の点（すなわち、上述の顎下の点）との距離（例えばユークリッド距離）を、顔の大きさとして用いてもよい。

検出部１２０によって、特徴点（例えば、目の特徴点、又は、目の特徴点を含む顔の特徴点）が検出されている。抽出部１４０は、検出部１２０から受け取った特徴点の情報を用いて、顔の大きさを計算することができる。

抽出部１４０は、次に、基準座標Ａ～Ｄを設定するために、例えば以下の式（１）にしたがって、部分画像の幅Ｘ０および高さＹ０を計算する。
Ｘ０＝Ｙ０＝Ｓ×ｋ・・・・（１）
ここで、Ｓは顔の大きさを表し、ｋは所定の定数を表す。式（１）によれば、部分画像の幅Ｘ０および高さＹ０は、顔の大きさＳに比例する。定数ｋは、適宜定められていてよい。定数ｋは、例えば０．７５であってよい。定数ｋは、他の値であってもよい。また、Ｘ０及びＹ０を計算するための式は、式（１）に限られない。

抽出部１４０は、例えば、右目の瞳の中心の特徴点Ｐ_１が重心であり、二辺の長さがＸ０及びＹ０である長方形（式（１）に従った計算によると正方形）の領域を右目の部分画像（すなわち目領域画像）が抽出される領域に設定する。抽出部１４０は、その領域の４つの頂点の座標を、右目の部分画像が抽出される領域の基準座標Ａ～Ｄに設定する。画像に二次元の直交座標系が定義されており、その座標系の２つの座標軸がｘ軸とｙ軸とである場合、抽出部１４０は、例えば、長さがＸ０である辺がｘ軸と平行になり、長さがＹ０である辺がｙ軸と平行になるように、長方形の領域を設定してよい。抽出部１４０は、左目の瞳の中心の特徴点Ｐ_２に対して、同様に、左目の部分画像（すなわち目領域画像）が抽出される領域を設定する。そして、その領域の４つの頂点の座標を、左目の部分画像が抽出される領域の基準座標Ａ～Ｄに設定する。
この場合、特徴点Ｐ_１と右目の部分領域が抽出される領域の基準座標Ａ～Ｄとの間の相対位置は、４つのベクトル（－Ｘ０／２，Ｙ０／２）、（Ｘ０／２，Ｙ０／２）、（Ｘ０／２，－Ｙ０／２）、（－Ｘ０／２，－Ｙ０／２）によって表される。同様に、特徴点Ｐ_２と左目の部分領域が抽出される領域の基準座標Ａ～Ｄとの間の相対位置は、４つのベクトル（－Ｘ０／２，Ｙ０／２）、（Ｘ０／２，Ｙ０／２）、（Ｘ０／２，－Ｙ０／２）、（－Ｘ０／２，－Ｙ０／２）によって表される。

抽出部１４０は、さらに、摂動部１３０から受け取った摂動量の情報を用いて、特徴点の情報によって定まる領域に摂動を加える。具体的には、抽出部１４０は、受け取った摂動量の情報を用いて、基準座標Ａ～Ｄの位置や大きさなどに摂動を加える。領域の位置に摂動を加える場合は、抽出部１４０は、基準座標Ａ～Ｄに、位置の摂動量（ｄ_ｘｉ，ｄ_ｙｉ）を加算する。受け取った摂動量が、複数の変動を表す値として、複数の位置の摂動量（ｄ_ｘｉ，ｄ_ｙｉ）を含む場合、抽出部１４０は、複数の位置の摂動量が表す変動（例えば、位置の摂動量（ｄ_ｘｉ，ｄ_ｙｉ））を、それぞれ、基準座標Ａ～Ｄに加える。基準座標Ａ～Ｄに変動を加えることによって得られる座標を、摂動後の基準座標Ａ´～Ｄ´と表記する。また、摂動後の基準座標Ａ´～Ｄ´を、摂動基準座標Ａ´～Ｄ´とも表記する。さらに、ｉ番目の摂動基準座標Ａ´を、（Ａ´ｘ_ｉ，Ａ´ｙ_ｉ）とも表記する。摂動基準座標Ｂ´～Ｄ´も同様に表記される。摂動基準座標Ａ´～Ｄ´と、基準座標Ａ～Ｄと、位置の摂動量（ｄ_ｘｉ，ｄ_ｙｉ）との関係は、以下のように表される。

（Ａ´ｘ_ｉ，Ａ´ｙ_ｉ）＝（Ａｘ，Ａｙ）＋（ｄ_ｘｉ，ｄ_ｙｉ）
（Ｂ´ｘ_ｉ，Ｂ´ｙ_ｉ）＝（Ｂｘ，Ｂｙ）＋（ｄ_ｘｉ，ｄ_ｙｉ）
（Ｃ´ｘ_ｉ，Ｃ´ｙ_ｉ）＝（Ｃｘ，Ｃｙ）＋（ｄ_ｘｉ，ｄ_ｙｉ）
（Ｄ´ｘ_ｉ，Ｄ´ｙ_ｉ）＝（Ｄｘ，Ｄｙ）＋（ｄ_ｘｉ，ｄ_ｙｉ）

また、領域の大きさに摂動を加える場合は、抽出部１４０は、領域の中心が移動しないように基準座標Ａ～Ｄに変動を加えることによって、領域の大きさを変化させる。具体的には、抽出部１４０は、例えば、以下のように、基準座標Ａ～Ｄに、大きさの摂動量（ｓ_ｘｉ，ｓ_ｙｉ）から計算される量を加算する。摂動が、複数の変動を表す値として、大きさの摂動量（ｄ_ｘｉ，ｄ_ｙｉ）を含む場合、抽出部１４０は、基準座標Ａ～Ｄに、複数の大きさの摂動量（ｄ_ｘｉ，ｄ_ｙｉ）から計算される量の各々を加算する。

（Ａ´ｘ_ｉ，Ａ´ｙ_ｉ）＝（Ａｘ，Ａｙ）＋（－０．５×ｓ_ｘｉ，－０．５×ｓ_ｙｉ）
（Ｂ´ｘ_ｉ，Ｂ´ｙ_ｉ）＝（Ｂｘ，Ｂｙ）＋（０．５×ｓ_ｘｉ，－０．５×ｓ_ｙｉ）
（Ｃ´ｘ_ｉ，Ｃ´ｙ_ｉ）＝（Ｃｘ，Ｃｙ）＋（０．５×ｓ_ｘｉ，０．５×ｓ_ｙｉ）
（Ｄ´ｘ_ｉ，Ｄ´ｙ_ｉ）＝（Ｄｘ，Ｄｙ）＋（－０．５×ｓ_ｘｉ，０．５×ｓ_ｙｉ）
上記式は、領域に摂動を加えることによる領域の大きさの変化が、大きさの摂動量（ｓ_ｘｉ，ｓ_ｙｉ）によって表されることを示す。

なお、抽出部１４０は、右目の瞳の中心Ｐ_１および左目の瞳の中心Ｐ_２を結ぶ線分が、部分画像が抽出される長方形（または正方形）の領域の二辺と平行になるように、基準座標Ａ～Ｄを回転させても良い。具体的には、抽出部１４０は、右目の瞳の中心Ｐ_１および左目の瞳の中心Ｐ_２を結ぶ線分の、顔画像の横軸に対する角度θを算出する。抽出部１４０は、右目の瞳の中心Ｐ_１を含む領域の基準座標Ａ～Ｄを、右目の瞳の中心Ｐ_１を回転中心として、θだけ回転させる。抽出部１４０は、さらに、左目の瞳の中心Ｐ_２を含む領域の基準座標Ａ～Ｄを、左目の瞳の中心Ｐ_２を回転中心として、θだけ回転させる。これにより、顔画像に含まれる顔の水平方向の傾きによらず、目領域画像に含まれる目の傾きが一定になる。

摂動が、領域の位置に加えられる摂動である場合、抽出部１４０は、上述の回転を、領域に摂動を加える処理の前に行っても良い。摂動が、領域の大きさに加えられる摂動である場合、抽出部１４０は、上述の回転を、領域に摂動を加える処理の後に行ってもよい。その場合、抽出部１４０は、摂動基準座標Ａ´～Ｄ´に対しても、回転を行う。

図５は、領域に摂動を加えることによって得られる領域および部分画像の例を模式的に表す図である。図５を参照して、抽出部１４０によって生成される部分画像（すなわち、目領域画像）の一例について説明する。図５の部分画像４１１および部分画像４２１は、それぞれ、部分画像４１０および部分画像４２０が抽出される領域に摂動を加えることによって生成される領域から抽出される部分画像を表す。図５に示す例では、簡単のため、変動の番号ｉが３である上述の変動が加えられた場合の領域から抽出される部分画像のみを示す。図５に示す例では、領域の位置に加える摂動の大きさを決定するパラメータ（ｕ_ｘ３，ｕ_ｙ３）は、（ｕ_ｘ３，ｕ_ｙ３）＝（０．０８，０．０８）である。

図５に示す、部分画像４１１および部分画像４２１のＡ´～Ｄ´は、摂動基準座標Ａ´～Ｄ´が表す点を示す。領域の位置に加える摂動の大きさを決定するパラメータが（ｕ_ｘ３，ｕ_ｙ３）＝（０．０８，０．０８）である場合、位置の摂動量（ｄ_ｘ3，ｄ_ｙ3）は、（ｄ_ｘ3，ｄ_ｙ3）＝（０．０８×Ｓ，０．０８×Ｓ）となる。上述のように、Ｓは顔の大きさである。図５に示す例では、Ｓは、両目の間隔（すなわち、点Ｐ_１と点Ｐ_２の間の距離）である。摂動が、領域の位置に加えられる摂動である場合、抽出部１４０は、基準座標Ａ～Ｄに、位置の摂動量（ｄ_ｘ3，ｄ_ｙ3）を加算する。顔の大きさは非負であるので、０．０８×Ｓは、同じく非負である。摂動基準座標Ａ´～Ｄ´のｘ座標およびｙ座標は、それぞれ、基準座標Ａ～Ｄのｘ座標およびｙ座標に非負の値が加算された値である。そのため、摂動基準座標Ａ´～Ｄ´が表す領域は、基準座標Ａ～Ｄが表す領域を、画像において右下方向に移動させた領域に対応する。図５のＡ´～Ｄ´は、その様子を示す。

（顔向きを推定する場合の部分画像の抽出）
推定部１５０が顔向きを推定する場合、抽出部１４０は部分画像として顔全体の領域の画像を抽出する。顔向きを推定する場合の部分画像の抽出は、式（１）におけるｋの大きさ、及び、基準座標Ａ～Ｄの中心位置、の二点において、視線を推定する場合の部分画像の抽出と異なる。

具体的には、推定部１５０が顔向きを推定する場合、基準座標Ａ～Ｄの大きさを規定する式（１）のｋは、視線を推定する場合の０．７５のではなく、２．５であってよい。また、基準座標Ａ～Ｄの中心位置は、視線を推定する場合の瞳の中心ではなく、顔の中心位置、例えば鼻の頭頂部であってよい。

（摂動により複数の部分画像を抽出する場合の効果）
抽出部１４０が部分画像を抽出する領域を表す基準座標Ａ～Ｄは、検出部１２０が検出する特徴点に基づいて計算される。例えば、撮影の条件が悪い場合、遮蔽物が存在する場合、及び、特徴点が抽出される顔画像の画質が低い場合等に、検出部１２０が顔の特徴点を精度よく検出できず、実際の特徴点の位置と検出された特徴点の位置との間に、ずれが生じることがある。検出された特徴点の位置にずれが生じた場合、部分画像が抽出される領域の位置や大きさに、特徴点の位置を正確に検出できた場合の領域の位置や大きさに対する乖離が生じることがある。このような場合、視線や顔向きの推定に必要な顔の部位が、部分画像に含まれない可能性がある。部分画像における、視線や顔向きの推定に必要な顔の部位の場所が、視線や顔向きの推定に適さない場所である可能性もある。言い換えると、特徴点を正確に検出できない場合、推定部１５０が正確に視線や顔方向を推定できる部分画像を得ることができるとは限らない。例えば、視線を推定する場合、部分画像における目の位置がずれることによって、推定部１５０が視線の推定を正しく行えるとは限らない。同様に、特徴点を精度よく検出できない場合、顔向きを正しく推定できるとは限らない。

検出された特徴点に基づいて定まる領域に本実施形態の摂動が加えられる場合、検出された特徴点に基づいて定まる領域の周囲に、部分画像が抽出される複数の領域が設定される。特徴点が正確に検出されていない場合であっても、領域に摂動を加えることによって生成される領域から抽出される部分画像のいずれかが、人物の方向の推定（すなわち、視線や顔向きの推定）に適した画像である可能性がある。複数の部分画像に、人物の方向の推定に適した画像が含まれていれば、後で詳述する推定部１５０は、その画像に基づいて、人物の方向を精度よく推定できる。言い換えると、推定部１５０は、信頼度の高い人物の方向を推定できる。後で詳述する統合部１６０は、複数の、推定された人物の方向を、信頼度に基づいて統合する。信頼度の高い人物の方向が推定されていれば、複数の、推定された人物の方向を統合することによって得られる人物の方向が、正しい人物の方向である可能性が高まる。言い換えると、本実施形態の推定装置１００は、入力画像の顔の状態が特徴点の精度の良い検出に適さないことによる、人物の方向を推定する精度の低下を抑制できる。

＜推定部１５０＞
推定部１５０は、顔画像に含まれる人物の方向（例えば、人物の視線、及び、人物の顔向きの少なくとも一方）を推定する。視線は、人物の目が見ている方向を表す。顔向きは、人物の顔が向いている方向を表す。具体的には、推定部１５０は、抽出部１４０が正規化した複数の部分画像（すなわち、抽出部１４０によって抽出された複数の画像）に基づいて、人物の方向を推定する。

本実施形態では、推定部１５０は、顔の画像が入力されると、入力された顔の画像に基づいて人物の方向を推定するように、予め学習した推定器を使用して、人物の方向を推定する。推定器を学習する方法は、既存の学習方法のいずれかであってよい。例えば推定部１５０が、人物の方向が予め特定されている複数の顔の画像（言い換えると、正解あり顔の画像）を用いて、入力された顔の画像における顔の見た目と、視線または顔向きとの関係を、予め推定器に学習させておく。顔の画像は、例えば、正しい顔の特徴点として与えられた、顔の特徴点に基づいて定まる領域から抽出された部分画像である。推定部１５０は、学習した推定器を用いて、視線または顔向きを推定する。推定部１５０は、推定結果のデータを、統合部１６０に出力する。視線を推定する場合、推定部１５０は、視線を推定する推定器を含む。顔向きを推定する場合、推定部１５０は、顔向きを推定する推定器を含む。視線および顔向きを推定する場合、推定部１５０は、視線を推定する推定器と、顔向きを推定する推定器とを含む。なお、推定部１５０が視線及び顔向きの双方を推定する場合、顔の画像に基づいて視線の方向を推定する推定器と、顔の画像に基づいて顔向きを推定する推定器とを、予め学習しておいてよい。そして、推定部１５０は、顔の画像に基づいて視線の方向を推定する推定器によって推定した視線の方向と、顔の画像に基づいて顔向きを推定する推定器によって推定した顔向きとを、統合部１６０に送出してよい。

本実施形態では、推定器によって推定される、人物の方向を、ベクトル（ｇ_ｘ，ｇ_ｙ）で表す。以下では、まず、推定器によって推定される人物の方向が視線である場合（すなわち、推定器が視線を推定する場合）の、ベクトル（ｇ_ｘ，ｇ_ｙ）について説明する。次に、推定される人物の方向が顔向きである場合（すなわち、推定器が顔向きを推定する場合）のベクトル（ｇ_ｘ，ｇ_ｙ）について説明する。いずれの場合も、ベクトル（ｇ_ｘ，ｇ_ｙ）は、画像に定義される座標系におけるベクトルである。

（推定器が視線を推定する場合）
推定器が視線を推定する場合、推定される視線が、ベクトル（ｇ_ｘ，ｇ_ｙ）によって表される。ｇ_ｘが水平方向の視線の角度であり、ｇ_ｙが垂直方向の視線の角度である。ベクトル（ｇ_ｘ，ｇ_ｙ）は、顔の正面に対する視線のずれの方向を表してもよい。この場合、視線が顔の正面を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（０，０）である。視線が真上を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（０，＋９０）である。視線が真下を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（０，－９０）である。また、視線が右真横を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（－９０，０）である。視線が左真横を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（９０，０）である。

なお、ベクトル（ｇ_ｘ，ｇ_ｙ）は、顔の正面に対する相対的な方向を表してもよい。言い換えると、視線は、人物の顔の正面の方向に対する、人物が見ている方向の差を表してもよい。この場合は、撮影された人物が目で見ている方向は、視線のベクトル（ｇ_ｘ，ｇ_ｙ）のみによっては特定されず、ベクトル（ｇ_ｘ，ｇ_ｙ）と人物の顔の向きとによって特定される。

推定器が推定する視線は、顔の正面を基準とする代わりに、カメラへの方向（すなわち、目からカメラへの方向）を基準としてもよい。この場合、目がカメラを真っすぐに見ているとき、すなわち視線とカメラへの方向とが一致するとき、ベクトル（ｇ_ｘ，ｇ_ｙ）＝（０，０）になる。ベクトル（ｇ_ｘ，ｇ_ｙ）は、カメラへの方向からの視線のずれを水平角と仰俯角とによって表す。例えば、視線が、カメラへの方向に対して、上に３０度を向いているとき、ベクトル（ｇ_ｘ，ｇ_ｙ）＝（０，＋３０）である。視線の方向が、カメラへの方向に対して、右に３０度の方向であるとき、ベクトル（ｇ_ｘ，ｇ_ｙ）＝（－３０，０）である。視線の方向が、カメラへの方向に対して、左に３０度の方向であるとき、ベクトル（ｇ_ｘ，ｇ_ｙ）＝（３０，０）である。

（推定器が顔向きを推定する場合）
推定器が顔向きを推定する場合、本実施形態では、推定される顔向きが、ベクトル（ｇ_ｘ，ｇ_ｙ）によって表される。ｇ_ｘが水平方向の顔向きの角度で、ｇ_ｙが垂直方向の顔向きの角度である。ベクトル（ｇ_ｘ，ｇ_ｙ）は、顔がカメラを真っ直ぐ向いている状態（すなわち、顔の正面の方向にカメラがある状態）における顔の正面の方向を基準とし、顔の正面の方向の、その基準からの角度を表してもよい。顔がカメラを真っ直ぐ向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（０，０）である。顔が真上を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（０，＋９０）である。顔が真下を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（０，－９０）である。また、顔が右真横を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（－９０，０）である。顔が左真横を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（９０，０）である。

次に、推定器の学習方法について記す。

（推定器の学習）
本実施形態では、例えば推定部１５０が、推定器を、教師あり学習の何れかの手法により、人物の方向（例えば、視線または顔向き）を推定するように、予め学習しておく。以下では、教師あり学習の方法として、一般化学習ベクトル量子化（ＧＬＶＱ；ＧｅｎｅｒａｌｉｚｅｄＬｅａｒｎｉｎｇＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎ）を使用して、視線又は顔向きの角度と、その信頼度とを推定する場合の学習の例について説明する。信頼度とは、推定器が推定する視線又は顔向きの角度が、どの程度信頼できるかを示す値である。使用する学習方法は、視線又は顔向きの角度と、その信頼度とを推定できる学習方法であれば、ＧＬＶＱ以外の方法であってもよい。例えばサポートベクトルマシン（Support Vector Machine, SVM）を用いることも可能である。

推定器の学習を行う場合、人物の方向が特定されている顔の画像（すなわち、部分画像）と、特定されている人物の方向との、複数の組み合わせが、取得部１１０に入力される。取得部１１０は、人物の方向が特定されている顔の画像と、特定されている人物の方向との、複数の組み合わせを、推定部１５０に送出する。

推定部１５０は、人物の方向が特定されている顔の画像と、特定されている人物の方向との、複数の組み合わせを、取得部１１０を介して受け取る。この場合の人物の方向は、推定器が推定する方向（すなわち、視線又は顔向き）の、正解である。人物の方向は、ベクトル（ｇ_ｘ，ｇ_ｙ）によって表されている。

推定部１５０は、まず、人物の方向の、水平方向および垂直方向の角度を離散化することによって、連続的な「角度」を離散的な「クラス」に分類する。具体的には、例えば人物の方向が視線である場合、推定部１５０は、水平方向および垂直方向の視線ベクトル（ｇ_ｘ，ｇ_ｙ）のそれぞれの成分を、－３０度から＋３０度の範囲において、１０度ごとに離散化する。この場合、水平方向の視線角度は、－３０度から－２０度、－２０度から－１０度、－１０度から０度、０度から＋１０度、＋１０度から＋２０度、＋２０度から＋３０度、の６個の範囲に分割される。垂直方向の視線角度は、－３０度から－２０度、－２０度から－１０度、－１０度から０度、０度から＋１０度、＋１０度から＋２０度、＋２０度から＋３０度、の６個の範囲に分割される。視線の方向の水平方向に－３０度から＋３０度、垂直方向に－３０度から＋３０度の範囲は、水平方向の範囲が６個の範囲に分割され、垂直方向の範囲が６個の範囲に分割されるので、６×６＝３６個の範囲に分割される。ベクトル（ｇ_ｘ，ｇ_ｙ）によって表されている視線を上述のように離散化することによって、視線は、上述の３６個の範囲のいずれかに分類される。

以下では、視線が分類される上述の３６個の範囲を、クラスと表記する。本実施形態では、推定部１５０は、３６個のクラスと、目や顔以外の領域の画像に対応する負例のクラスとを含む、３７個のクラスのいずれかに、人物の方向を分類する。例えば、垂直方向の範囲の下限の値が小さいほど番号が小さく、垂直方向の範囲の下限の値が同じである場合、水平方向の範囲の下限の値が小さいほど番号が小さくなるように、３７個のクラスに番号が付与されていてよい。例えば、水平方向の範囲が－３０度から－２０度であり、垂直方向の範囲が垂直－３０度から－２０度であるクラスに、番号として１が割り当てられていてよい。水平方向の範囲が－２０度から－１０度であり、垂直方向の範囲が垂直－３０度から－２０度であるクラスに、番号として２が割り当てられていてよい。
例えば、ベクトル（ｇ_ｘ，ｇ_ｙ）が（－１５，－１５）である場合、そのベクトルが分類されるクラスは、水平方向の範囲が－２０度から－１０度であり、垂直方向の範囲が垂直－２０度から－１０度であるクラスである。そのクラスには、番号として８が割り当てられている。負例のクラスに割り当てられる番号は、例えば、０である。

なお、負例のクラスを加える理由は、例えば顔以外の領域から抽出された部分画像が推定器に入力された場合に、推定器が、方向を出力する代わりに、部分画像が推定の対象ではないことを示す情報を出力するように、推定器を学習するためである。例えば、検出部１２０が顔の特徴点の検出に失敗した場合などに、推定器に顔以外の領域から抽出された部分画像が入力されることがある。そのような場合に、負例のクラスがなければ、推定器は、入力された部分画像を３６個のいずれかのクラスに分類する。顔ではない（すなわち、推定器の推定対象ではない）ことを表す負例のクラスを含む、いずれかのクラスに分類するように、推定器を学習しておいた場合、推定器は、上述の場合に、部分画像が推定の対象ではないことを示す情報を出力することができる。

推定部１５０は、次に、抽出部１４０が正規化した部分画像と、その部分画像における人物の方向が分類されるクラスとの関係を、例えば、一般化学習ベクトル量子化（ＧＬＶＱ）によって学習することによって、推定器の学習を行う。具体的には、推定部１５０は、ＧＬＶＱにより、３７個のクラスの多クラス分類問題を学習する。より具体的には、推定部１５０は、部分画像（すなわち、人物の正しい方向が与えられている顔の画像）から画像特徴量ｆを計算する。画像特徴量ｆは、ベクトルによって表される。推定部１５０は、計算した画像特徴量ｆと、参照ベクトルｍとから式（２）によって計算される評価値Ｊ_ｋが最適になるように、参照ベクトルｍを調整する。具体的には、後述のように、推定部１５０は、例えば評価値Ｊ_ｋの値が－１に近づくように、参照ベクトルｍを調整する。

ここで関数ｄ（ｘ，ｙ）は、ベクトルｘとベクトルｙの距離（例えばユークリッド距離など）を計算する関数である。

以下の説明では、参照ベクトルｍは、各クラスにＭ個存在するものとする。すなわち、参照ベクトルの個数は、３７個のクラスのそれぞれにＭ個であり、参照ベクトルの個数の合計は、３７×Ｍ個である。ただし、参照ベクトルの個数は、各クラスで同一でなくてもよい。本実施形態では、参照ベクトルの個数は、各クラスで共通でありＭ個である場合について説明する。

式（２）の参照ベクトルｍ_ｋｉは、ＧＬＶＱにより決定した全ての参照ベクトルの中で、画像特徴量ｆとの距離が最も近い参照ベクトル、すなわち、画像特徴量ｆに最も近い参照ベクトルを示す。画像特徴量ｆに最も近い参照ベクトルが属するクラスをｋで表す。参照ベクトルｍ_ｋｉは、クラスｋに属するＭ個の参照ベクトルのうちｉ番目の参照ベクトルを示す。また、式（２）の参照ベクトルｍ_ｌｊは、クラスｋに属するＭ個の参照ベクトルを除き、次にｆとの距離が近い参照ベクトルを示す。参照ベクトルｍ_ｌｊは、クラスｌに属するＭ個の参照ベクトルのうちｊ番目の参照ベクトルを示す。

画像特徴量ｆは、部分画像における輝度の変化の方向と大きさとを、所定の次元数（例えば、数百～数千）で示す。一例では、画像特徴量ｆは、画像の輝度の勾配に関する画像特徴量を表す。輝度の勾配に関する画像特徴量ｆとしては、例えば、ＨＯＧ（Histograms of Oriented Gradients）が知られている。この画像特徴量ｆは、所定の要素数の列ベクトルによって表される。

参照ベクトルｍ_ｋｉおよびｍ_ｌｊは、列ベクトルである。参照ベクトルｍ_ｋｉおよびｍ_ｌｊの要素数は、それぞれ、画像特徴量ｆの要素数のと同じである。したがって、推定部１５０は、画像特徴量ｆと、参照ベクトルｍ_ｋｉやｍ_ｌｊとの距離を算出することができる。

式（２）の評価値Ｊ_ｋは、ＧＬＶＱにおいて誤分類尺度と呼ばれる。式（２）において、評価値Ｊ_ｋは、－１≦Ｊ_ｋ≦＋１を満たす。評価値Ｊ_ｋが－１に近づくほど、評価値Ｊ_ｋは、画像特徴量ｆがクラスｋに属する確度が高いことを示す。

推定部１５０は、ＧＬＶＱによる教師あり学習により、最適な参照ベクトルｍを決定する。決定した参照ベクトルｍは、推定器が角度を推定する際に利用される。上述の推定器の学習は、例えば、参照ベクトルｍの決定であってよい。推定器が角度を推定する方法は、例えば、以下で説明する、「粗い角度の推定」による方法であってもよい。推定器が角度を推定する方法は、例えば、以下で説明する、「詳細な角度の推定」による方法であってもよい。

（粗い角度の推定）
推定器は、ＧＬＶＱにより決定した参照ベクトルｍを用いて、人物の方向（すなわち、視線又は顔向き）の角度を推定し、さらに式（２）に従って信頼度を推定する。

具体的には、推定器は、まず、ＧＬＶＱにより決定した全ての参照ベクトルの中から、抽出された部分画像から計算される画像特徴量ｆに対する距離が最も近い参照ベクトルを求める。画像特徴量ｆに対する距離が最も近い参照ベクトルが、クラスＫに属する参照ベクトルｍ_Ｋｉである場合、取得部１１０に入力された顔画像の視線又は顔向きの角度は、クラスＫの角度の範囲に含まれる。例えば、画像特徴量ｆに対する距離が最も近い参照ベクトルが８番目のクラスに属する場合、人物の方向（すなわち、視線又は顔向き）は、８番目のクラスの角度の範囲である、水平方向の範囲が－２０度から－１０度までであり、垂直方向の範囲が－２０度から－１０度までである範囲に含まれる。

推定器は、画像特徴量ｆに最も近い参照ベクトルが属するクラスの角度の範囲の中心の角度を、推定の結果として出力してもよい。上述の場合、水平方向の－２０度から－１０度の範囲の中心の角度は－１５度であり、垂直方向の－２０度から－１０度の範囲の中心の角度も－１５度である。推定器は、水平方向に－１５度、垂直方向に－１５度の方向を、推定した人物の方向（すなわち、視線又は顔向き）としても良い。この場合、推定器によって推定された角度は、ベクトル（ｇ_ｘ，ｇ_ｙ）＝（－１５，－１５）である。

次に、推定器は、式（２）に従って、評価値Ｊ_ｋを計算する。評価値Ｊ_ｋは、前述の通り、－１≦Ｊ_ｋ≦＋１を満たす。推定器は、評価値Ｊ_ｋの符号を反転した値を信頼度にしても良い。この場合、信頼度は、－Ｊ_ｋである。その場合、信頼度は－１から＋１の範囲に含まれる。そして、信頼度の値が大きいほど、推定器によって推定された、人物の方向（すなわち、視線又は顔向き）の角度の信頼度が高いことを示す。

（詳細な角度の推定）
推定器は、ＧＬＶＱにより決定した参照ベクトルｍを用いて、後述の式（３）に従ってクラスごとの評価値Ｊ_ｋを計算し、計算した評価値Ｊ_ｋに基づいて、より詳細な角度を推定しても良い。

具体的には、推定器は、まず、ＧＬＶＱにより決定された全ての参照ベクトルの中から、抽出された部分画像から計算される画像特徴量ｆに対する距離が最も近い参照ベクトルを求める。以下では、一例として、画像特徴量ｆに対する距離が最も近い参照ベクトルが、ｋ＝８番目のクラスに属する参照ベクトルであるとする。

次に、推定器は、クラスｋ＝８の周辺のクラスのそれぞれについて、画像特徴量ｆに距離が最も近い参照ベクトルを求める。クラスｋの周辺のクラスは、例えば、クラスｋを含む、クラスｋの領域の周囲の３ｘ３の領域のクラスである、合計９個のクラスであってよい。例えば、ｋ＝８の場合、８番目のクラスの周辺のクラスは、８番目のクラスと、８番目のクラスの角度の領域に、角度の領域が隣接する８つのクラスと、である。本実施形態の例では、８番目のクラスの周辺のクラスは、８番目のクラスを中心として、ｋ＝１，２，３，７，８，９、１３，１４，１５の合計９個のクラスである。推定器は、それらのクラスのそれぞれについての、画像特徴量ｆに対する距離が最も近い参照ベクトルを求める。求められた参照ベクトルは、参照ベクトルｍ_ｋｉ（ｋ＝１，２，３，７，８，９、１３，１４，１５）である。

さらに、推定器は、上述の参照ベクトルｍ_ｋｉ（ｋ＝１，２，３，７，８，９、１３，１４，１５）を用いて、式（３）に従って、８番目のクラスの周辺のクラスの評価値を、それぞれ計算する。計算される評価値は、９個のクラスの評価値Ｊ_ｋ（ｋ＝１，２，３，７，８，９、１３，１４，１５）である。

式（３）は、式（２）と異なり、分母と分子のそれぞれの第二項が、画像特徴量ｆと参照ベクトルｍ_０ｊとの距離である。参照ベクトルｍ_０ｊは、０番目のクラスの参照ベクトル、すなわち、目や顔以外の領域の画像に対応する負例のクラスに属する参照ベクトルの中で、画像特徴量ｆに対する距離が最も近い参照ベクトルを示す。

さらに、推定器は、式（３）に従って計算した９個のクラスの評価値Ｊ_ｋ（ｋ＝１，２，３，７，８，９、１３，１４，１５）から、人物の方向（すなわち、視線又は顔向き）の詳細な角度と、その角度の信頼度とを計算する。具体的には、推定器は、９つのクラスの評価値Ｊ_ｋを、クラスの角度の領域の配置に従って３行３列（以下、３×３とも表記）に並べる。推定器は、３×３の形に並んだ評価値Ｊ_ｋを評価値の曲面とみなして、その評価値の曲面に二次曲面をフィッティングし、得られた二次曲面の頂点を求める。推定器は、求めた頂点が示す角度を、人物の方向（すなわち、視線又は顔向き）の詳細な方向として推定する。推定器は、さらに、推定した人物の方向の信頼度（すなわち、求めた頂点が示す角度の信頼度）を計算する。

推定部１５０は、抽出された部分画像の各々について、推定器によって人物の方向と信頼度とを推定し、推定された、人物の方向と信頼度と（具体的には、人物の方向と信頼度とを表すデータ）を統合部１６０に送出する。上述のように、推定部１５０は、人物の方向として、視線および顔向きの双方を推定してもよい。その場合、推定部１５０は、視線を示す角度の信頼度と、顔向きの角度の信頼度とを、別々に推定してよい。そして、推定部１５０は、視線を示す角度の信頼度と、顔向きの角度の信頼度とを、統合部１６０に送出する。

＜統合部１６０＞
統合部１６０は、推定部１５０によって推定された人物の方向（すなわち、視線又は顔向き）と信頼度とを示すデータ（以下「推定データ」とも表記する）を、推定部１５０から受け取る。統合部１６０は、受け取った推定データに含まれる人物の方向を、推定データに含まれる信頼度に基づいて統合する。なお、上述のように、人物の方向は、角度によって表されている。統合部１６０は、推定部１５０から、視線の方向及び顔向きの両方を受け取ってもよい。その場合、統合部１６０は、視線の方向と、顔向きとを、別々に統合する。

統合部１６０は、具体的には以下のように、人物の方向を信頼度に基づいて統合する。統合部１６０は、推定部１５０により推定された人物の方向（すなわち、角度によって表されている視線又は顔向き）のうち、信頼度が所定の閾値より高い、人物の方向を示す角度を特定してもよい。そして、統合部１６０は、特定した、人物の方向を示す角度の平均を、統合された、人物の方向（すなわち、視線又は顔向き）を示す角度として算出してもよい。

また、統合部１６０は、例えば、まず、信頼度を正規化してもよい。具体的には、統合部１６０は、まず、最も低い信頼度の値が０になるように、全ての信頼度に、最も低い信頼度の値の符号を逆転させた値を加算してもよい。統合部１６０は、さらに、正規化された信頼度の総和が１になるように、信頼度の総和によってすべての信頼度を割ることにより、信頼度を正規化してもよい。そして、統合部１６０は、正規化された信頼度を重みとみなし、全ての、人物の方向（すなわち、視線又は顔向き）を表す角度の重み付き平均を、統合された人物の方向（すなわち、視線又は顔向き）を表す角度として算出してもよい。具体的には、統合部１６０は、人物の方向を表す角度の各々について、角度とその角度の積を算出し、算出した積の総和を算出してよい。

統合部１６０は、信頼度が最も高い、人物の方向を示す角度を、統合された、人物の方向を示す角度にしてもよい。

統合部１６０は、統合された、人物の方向（すなわち、視線又は顔向き）を示すデータを、出力部１７０に送出する。

＜出力部１７０＞
出力部１７０は、統合部１６０によって統合された視線又は顔向きを示すデータ（以下「統合データ」とも表記する）を、統合部１６０から受け取る。出力部１７０は、統合データを出力する。推定データは、例えば、統合部１６０により統合された、人物の方向（すなわち、視線又は顔向き）を、所定のフォーマットに従って表すデータである。具体的には、出力部１７０は、推定データを、例えば、表示装置等の他の装置に出力してもよい。すなわち、出力部１７０は、推定データを、他の装置に供給してもよい。

統合データを表示装置に出力する場合、出力部１７０は、人物の方向を表すマークを、入力画像に重畳し、人物の方向を表すマークが重畳された入力画像（出力画像とも表記）を、表示装置に出力してもよい。

例えば、視線の方向を表す統合データを表示装置に出力する場合、出力部１７０は、例えば、視線の方向を表す、例えば矢印などのマークを、入力画像の、抽出された瞳の中心に基づく位置に重畳し、マークが重畳された入力画像を、表示装置に出力してもよい。抽出された瞳の中心に基づく位置は、例えば、右目の瞳の位置と左目の瞳の位置とを結ぶ線分の中点であってもよい。抽出された瞳の中心に基づく位置は、例えば、上述の中点から、視線の方向に所定距離離れた点であってもよい。上述のマークが矢印である場合、出力部１７０は、上述の中点、または、中点から視線の方向に所定距離離れた点が起点である矢印を、入力画像に重畳してもよい。

顔向きを表す統合データを表示装置に出力する場合、出力部１７０は、顔向きを表す、例えば矢印などのマークを、入力画像の、顔の特徴点に基づく位置に重畳し、マークが重畳された入力画像を、表示装置に出力してもよい。顔の特徴点に基づく位置は、例えば、鼻の頭頂部を示す点であってもよい。顔の特徴点に基づく位置は、例えば、鼻の頭頂部を示す点から、顔向きの方向に所定距離離れた点であってもよい。マークが矢印である場合、出力部１７０は、例えば、顔の特徴点に基づく位置が起点である矢印を、入力画像に重畳してもよい。

出力部１７０は、統合データが、視線の方向を示すマークと、顔向きを示すマークとを、入力画像に重畳してもよい。

出力部１７０は、推定データを、推定装置１００に含まれる記憶媒体や、推定装置１００と通信可能に接続されている記憶装置に書き込んでもよい。

次に、推定装置１００の動作について説明する。上述の構成を備えた推定装置１００は、例えば、以下で説明するように動作する。ただし、推定装置１００の具体的な動作は、以下で説明する動作の例に限定されない。

＜視線又は顔向きの推定方法（推定装置１００の動作例）＞
図６は、本実施形態の推定装置１００の動作の例を表すフローチャートである。言い換えると、図６は、本実施形態に係る推定装置１００が実行する、人物の方向（視線及び顔向きの少なくとも一方）を推定する推定方法を示すフローチャートである。推定装置１００は、例えば、図６に示す各ステップの処理を、図６に示すフローにしたがって順番に実行することにより、顔画像から人物の方向を推定してもよい。

推定装置１００は、例えば、ユーザによって指定されたタイミングや、他の装置から入力画像が送信されたタイミングなどの適当なタイミングで、図６に示される処理を開始することができる。この例において、推定装置１００に入力される画像データは、人物の顔を含む。画像上の座標は、所定の位置（例えば、画像の中心）を原点とする直交座標系によって表される。

まず、取得部１１０は、入力画像を取得する（ステップＳ１０１）。

次に、取得部１１０は、取得した入力画像から、顔の領域を抽出する（ステップＳ１０２）。取得部１１０は、１つの、顔の領域が、１つの顔を含むように、顔の領域を検出してよい。取得部１１０は、入力画像から、１つ以上の、顔の領域を抽出してよい。取得部１１０は、入力画像の、抽出した顔の領域の画像から、顔画像を生成する。取得部１１０は、１つまたは複数の顔画像を生成してよい。顔画像の各々は、１つの人物の顔を含む。

検出部１２０は、ステップＳ１０２において生成された顔画像に含まれる顔の部位の特徴点を検出する（ステップＳ１０３）。

摂動部１３０は、ステップＳ１０３において計算された顔の特徴点の情報を用いて、検出された特徴点に基づいて定まる領域（具体的には、領域の位置又は大きさ）に加える摂動の大きさ（すなわち、摂動量）を計算する（ステップＳ１０４）。摂動量は、複数の変動を表す値を含んでいてもよい。

抽出部１４０は、ステップＳ１０２において生成された顔画像と、ステップＳ１０４で計算された摂動量から、検出された特徴点に基づいて定まる領域に摂動を加えることによって得られる領域における、顔画像の部分画像を抽出する（ステップＳ１０５）。抽出部１４０は、検出された特徴点に基づいて定まる領域から抽出される部分画像を含む、複数の部分画像を抽出してもよい。抽出部１４０は、顔画像の、検出された特徴点に基づいて定まる領域に、摂動量が表す複数の変動をそれぞれ加えることによって得られる、複数の部分画像を抽出してもよい。

推定部１５０は、事前に機械学習を行った推定器を用いて、ステップＳ１０５で生成された複数の部分画像のそれぞれにから、人物の方向（すなわち、視線又は顔向き）と信頼度とを推定する（ステップＳ１０６）。

統合部１６０は、推定部１５０により推定された人物の方向（すなわち視線又は顔向き）を、信頼度に基づいて統合する（ステップＳ１０７）。

出力部１７０は、統合部１６０によって統合された人物の方向を表す、推定データを出力する（ステップＳ１０８）。推定データは、例えば、表示装置に出力されることによって可視化される。推定データは、数値で表示されてもよいし、顔画像に重畳された、視線の方向を示す矢印によって表示されてもよい。

＜変形例＞
第１実施形態は、例えば、以下の変形例のように変形できる。以下で説明する変形例の２つ以上を、適宜組み合わせることも可能である。

（変形例１）
右目および左目の中心などの特徴点の位置や、部分画像が抽出される領域の位置を、ユーザが入力してもよい。この場合、推定装置１００は、特徴点を検出する必要がなく、また部分画像を生成する必要がない。

（変形例２）
部分画像の形状は、必ずしも矩形に限定されない。部分画像から、顔の一部（例えば、人物の方向の推定に直接的に影響しない、眉などの部分）が、除外されていてもよい。また、視線の推定に使用される部分画像は、片目（左目または右目）のみを含む部分画像ではなく、両目を含む部分画像であってもよい。

（変形例３）
推定装置１００により推定された視線や顔向きの用途は特に限定されない。例えば、推定装置１００は、店舗に設置された監視カメラによって撮像された人物の視線を推定し、推定した視線から不審人物を判定するシステムに適用されてもよい。

推定装置１００は、情報が表示された画面に対するユーザの視線を推定し、推定された視線に基づいて、ユーザの興味及び関心を推測するシステムに適用されてもよい。そのほかにも、推定装置１００は、視線の動きによって操作することが可能な電子機器に適用されてもよい。推定装置１００は、自動車等の運転支援に適用されてもよい。

（変形例４）
推定装置１００の具体的なハードウェア構成には、さまざまなバリエーションが含まれてよく、特定の構成に限定されない。例えば、推定装置１００は、ソフトウェアを用いて実現されてもよい。推定装置１００は、複数のハードウェアが、それぞれ、複数の処理のいずれかを分担するように構成されてもよい。なお、本変形例の構成に関して、後の他の実施形態の説明において詳細に説明する。

＜第１実施形態の効果＞
本実施形態に係る推定装置１００は、部分画像が抽出される領域の位置や大きさなどに摂動を加えることによって得られる複数の領域から複数の部分画像を抽出する。推定装置１００は、抽出した複数の部分画像から人物の方向（すなわち、視線又は顔向き）を推定する。推定装置１００は、推定した人物の方向を信頼度に基づいて統合することで、人物の方向（例えば、視線又は顔向き）の推定の結果を得る。推定装置１００は、このようにして、領域に摂動を加えることによって得られる領域から抽出された複数の部分画像に基づく推定結果を信頼度に応じて統合することによって、頑健（ロバスト）な推定結果を安定して得ることができる。

＜第２実施形態＞
次に、本開示の第２実施形態について、図面を参照して詳細に説明する。

＜第２実施形態の構成＞
図７は、本実施形態の推定装置１０１の構成の例を表すブロック図である。

図７に示すように、本実施形態の推定装置１０１は、摂動部１３０と、推定部１５０と、統合部１６０と、を備える。

摂動部１３０は、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する。推定部１５０は、前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する。統合部１６０は、推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する。

＜第２実施形態の動作＞
図８は、本実施形態の推定装置１０１の動作の例を表すフローチャートである。

図８に示す動作では、摂動部１３０が、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する（ステップＳ２０１）。本実施形態の摂動部１３０は、第１の実施形態の摂動部１３０と同様に動作してよい。

次に、推定部１５０は、顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、複数の方向の各々の信頼度とを推定する（ステップＳ２０２）。本実施形態の推定部１５０は、第１実施形態の推定部１５０と同様に、部分画像に基づいて方向と信頼度とを推定するように、予め学習させておいた推定器によって、方向と信頼度とを推定してよい。

さらに、統合部１６０は、推定された信頼度に基づいて、複数の方向が統合された統合方向を算出する（ステップＳ２０３）。統合部１６０は、第１実施形態の統合部１６０と同様の方法によって、信頼度に基づいて複数の方向を統合してよい。

＜効果＞
本実施形態の推定装置１０１は、人物の画像における視線や顔向きを推定する精度の、画像の状態による低下を抑制することができる。

その理由は、摂動部１３０が、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成するからである。そして、推定部１５０が、生成された複数の抽出領域から、方向とその方向の信頼度とを推定するからである。さらに、統合部１６０が、推定部１５０によって推定された信頼度に基づいて、推定部１５０によって推定された複数の方向が統合された統合方向を算出する。顔画像から抽出された特徴点の位置が不正確である場合、その位置に基づいて定まる抽出領域から抽出される部分画像は、方向の推定に適さないことがある。そのような場合であっても、抽出領域に摂動を加えることによって得られる抽出領域のいずれかの部分画像が、方向の推定に適する可能性がある。方向の推定に適さない部分画像から抽出された方向より、方向の推定に適する部分画像を含む複数の部分画像から抽出された複数の方向を、方向の信頼度に基づいて統合することによって得られる方向の方が、精度が高いことが期待される。従って、推定装置１００は、人物の画像における視線や顔向きを推定する精度の、画像の状態による低下を抑制することができる。

＜他の実施形態＞
第１の実施形態の推定装置１００は、プログラムがロードされたメモリと、そのプログラムを実行するプロセッサとを含む、コンピュータによって実現できる。推定装置１００は、互いに通信可能に接続されている複数のコンピュータによっても実現できる。推定装置１００は、専用のハードウェアによっても実現できる。推定装置１００は、上述のコンピュータと専用のハードウェアとの組み合わせによっても実現できる。

同様に、第２の実施形態の推定装置１０１は、プログラムがロードされたメモリと、そのプログラムを実行するプロセッサとを含む、コンピュータによって実現できる。推定装置１０１は、互いに通信可能に接続されている複数のコンピュータによっても実現できる。推定装置１０１は、専用のハードウェアによっても実現できる。推定装置１０１は、上述のコンピュータと専用のハードウェアとの組み合わせによっても実現できる。以下では、さらに詳しく説明する。

図９は、推定装置１００及び推定装置１０１を実現できるコンピュータ３００のハードウェア構成の一例を示すブロック図である。コンピュータ３００は、ＣＰＵ（Central Processing Unit）３０１と、ＲＯＭ（Read Only Memory）３０２と、ＲＡＭ（Random Access Memory）３０３と、記憶装置３０４と、ドライブ装置３０５と、通信インタフェース３０６と、入出力インタフェース３０７とを含む。

ＣＰＵ３０１は、ＲＡＭ３０３にロードされたプログラム３０８を実行する。プログラム３０８は、ＲＯＭ３０２に記憶されていてもよい。また、プログラム３０８は、メモリカード等の記憶媒体３０９に記録され、ドライブ装置３０５によって読み出されてもよい。プログラム３０８は、外部装置から、通信ネットワーク３１０を介して、コンピュータ３００へと送信されてもよい。通信インタフェース３０６は、通信ネットワーク３１０を介して外部装置とデータをやり取りする。入出力インタフェース３０７は、周辺機器（例えば、入力装置、表示装置など）とデータをやり取りする。通信インタフェース３０６および入出力インタフェース３０７は、データを取得及び出力するための構成要素として機能できる。

推定装置１００の構成要素は、ＲＡＭ３０３などのメモリにロードされた、推定装置１００の構成要素の機能を実現するプログラム３０８などのプログラムを実行するＣＰＵ３０１等のプロセッサによって実現できる。推定装置１００の構成要素は、例えば、取得部１１０、検出部１２０、摂動部１３０、抽出部１４０、推定部１５０、統合部１６０、及び、出力部１７０である。

推定装置１０１の構成要素は、ＲＡＭ３０３などのメモリにロードされた、推定装置１０１の構成要素の機能を実現するプログラム３０８などのプログラムを実行するＣＰＵ３０１等のプロセッサによって実現できる。推定装置１００の構成要素は、例えば、摂動部１３０、推定部１５０、及び、統合部１６０である。

推定装置１００の構成要素は、単一の回路（circuitry）（例えばプロセッサ等）によって実現されてもよい。推定装置１００の構成要素は、複数の回路の組み合わせによって実現されてもよい。回路及び複数の回路は、専用の回路であってもよく、汎用の回路であってもよい。例えば、推定装置１００は、一部が専用の回路によって実現され、他の部分が汎用の回路によって実現されてもよい。

推定装置１０１の構成要素は、単一の回路（circuitry）（例えばプロセッサ等）によって実現されてもよい。推定装置１０１の構成要素は、複数の回路の組み合わせによって実現されてもよい。回路及び複数の回路は、専用の回路であってもよく、汎用の回路であってもよい。例えば、推定装置１０１は、一部が専用の回路によって実現され、他の部分が汎用の回路によって実現されてもよい。

推定装置１００及び推定装置１０１を実現するコンピュータは、単体のコンピュータである必要はない。推定装置１００の構成要素及び推定装置１０１の構成要素は、複数のコンピュータに分散して設けられてもよい。例えば、推定装置１００及び推定装置１００は、クラウドコンピューティング技術を用いて、複数のコンピュータ装置の協働によって実現されてもよい。

また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動手段と、
前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定手段と、
推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合手段と、
を備える推定装置。

（付記２）
前記摂動手段は、前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
付記１に記載の推定装置。

（付記３）
前記摂動手段は、前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
付記１又は２に記載の推定装置。

（付記４）
前記摂動は、前記抽出領域の大きさの変更、前記抽出領域の位置の変更、前記抽出領域の角度の変更、及び、前記抽出領域から抽出される部分画像に対する画像処理の少なくともいずれかである
付記１乃至３のいずれか１項に記載の推定装置。

（付記５）
入力画像を取得し、当該入力画像から前記顔画像を抽出する取得手段と、
前記顔画像から前記特徴点を抽出する抽出手段と、
前記統合方向を出力する出力手段と、
をさらに備える付記１乃至４のいずれか１項に記載の推定装置。

（付記６）
前記推定手段は、前記顔の複数の方向と、前記視線の複数の方向とを推定し、
前記統合手段は、前記顔の複数の方向が統合された統合顔方向と、前記視線の複数の方向が統合された統合視線方向とを算出し、
前記出力手段は、前記統合顔方向を示す第１のマークと、前記統合視線方向を示す第２のマークとを、前記入力画像に重畳し、前記第１のマークと第２のマークとが重畳された前記入力画像を出力する
付記５に記載の推定装置。

（付記７）
顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成し、
前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定し、
推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する、
推定方法。

（付記８）
前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
付記７に記載の推定方法。

（付記９）
前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
付記７又は８に記載の推定方法。

（付記１０）
前記摂動は、前記抽出領域の大きさの変更、前記抽出領域の位置の変更、前記抽出領域の角度の変更、及び、前記抽出領域から抽出される部分画像に対する画像処理の少なくともいずれかである
付記７乃至９のいずれか１項に記載の推定方法。

（付記１１）
入力画像を取得し、当該入力画像から前記顔画像を抽出する、
前記顔画像から前記特徴点を抽出し、
前記統合方向を出力する
付記７乃至１０のいずれか１項に記載の推定方法。

（付記１２）
前記顔の複数の方向と、前記視線の複数の方向とを推定し、
前記顔の複数の方向が統合された統合顔方向と、前記視線の複数の方向が統合された統合視線方向とを算出し、
前記統合顔方向を示す第１のマークと、前記統合視線方向を示す第２のマークとを、前記入力画像に重畳し、前記第１のマークと第２のマークとが重畳された前記入力画像を出力する
付記１１に記載の推定方法。

（付記１３）
コンピュータに、
顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動処理と、
前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定処理と、
推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合処理と、
を実行させるプログラムを記憶する記憶媒体。

（付記１４）
前記摂動処理は、前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
付記１３に記載の記憶媒体。

（付記１５）
前記摂動処理は、前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
付記１３又は１４に記載の記憶媒体。

（付記１６）
前記摂動は、前記抽出領域の大きさの変更、前記抽出領域の位置の変更、前記抽出領域の角度の変更、及び、前記抽出領域から抽出される部分画像に対する画像処理の少なくともいずれかである
付記１３乃至１５のいずれか１項に記載の記憶媒体。

（付記１７）
コンピュータに、
入力画像を取得し、当該入力画像から前記顔画像を抽出する取得処理と、
前記顔画像から前記特徴点を抽出する抽出処理と、
前記統合方向を出力する出力処理と、
をさらに実行させる付記１３乃至１６のいずれか１項に記載の記憶媒体。

（付記１８）
前記推定処理は、前記顔の複数の方向と、前記視線の複数の方向とを推定し、
前記統合処理は、前記顔の複数の方向が統合された統合顔方向と、前記視線の複数の方向が統合された統合視線方向とを算出し、
前記出力処理は、前記統合顔方向を示す第１のマークと、前記統合視線方向を示す第２のマークとを、前記入力画像に重畳し、前記第１のマークと第２のマークとが重畳された前記入力画像を出力する
付記１７に記載の記憶媒体。

以上、本開示の実施形態を説明した。しかし、本発明は、これらの実施形態に限定されない。本発明は、本発明のスコープ内において、当業者が把握し得るさまざまな変形又は応用を適用した実施の形態を含み得る。また、本発明は、本明細書に記載された事項を必要に応じて適宜組み合わせ、又は置換した実施の形態を含み得る。例えば、特定の実施形態を用いて説明された事項は、矛盾を生じない範囲において、他の実施形態に対しても適用し得る。

１００推定装置
１０１推定装置
１１０取得部
１２０検出部
１３０摂動部
１４０抽出部
１５０推定部
１６０統合部
１７０出力部
３００コンピュータ
３０１ＣＰＵ
３０２ＲＯＭ
３０３ＲＡＭ
３０４記憶装置
３０５ドライブ装置
３０６通信インタフェース
３０７入出力インタフェース
３０８プログラム
３０９記憶媒体
３１０通信ネットワーク
４００顔画像
４１０部分画像
４１１部分画像
４２０部分画像
４２１部分画像
４３０部分画像

Claims

顔画像から抽出された特徴点の位置に基づいて定まる部分画像が抽出される抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動手段と、
前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定手段と、
推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合手段と、
を備え、
前記摂動は、前記抽出領域の範囲への変動を含む
推定装置。
前記摂動手段は、前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
請求項１に記載の推定装置。
前記摂動手段は、前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
請求項１又は２に記載の推定装置。
前記摂動は、前記抽出領域の大きさの変更、前記抽出領域の位置の変更、前記抽出領域の角度の変更、及び、前記抽出領域から抽出される部分画像に対する画像処理の少なくともいずれかを含む
請求項１乃至３のいずれか１項に記載の推定装置。
入力画像を取得し、当該入力画像から前記顔画像を抽出する取得手段と、
前記顔画像から前記特徴点を抽出する抽出手段と、
前記統合方向を出力する出力手段と、
をさらに備える請求項１乃至４のいずれか１項に記載の推定装置。
前記推定手段は、前記顔の複数の方向と、前記視線の複数の方向とを推定し、
前記統合手段は、前記顔の複数の方向が統合された統合顔方向と、前記視線の複数の方向が統合された統合視線方向とを算出し、
前記出力手段は、前記統合顔方向を示す第１のマークと、前記統合視線方向を示す第２のマークとを、前記入力画像に重畳し、前記第１のマークと第２のマークとが重畳された前記入力画像を出力する
請求項５に記載の推定装置。
顔画像から抽出された特徴点の位置に基づいて定まる部分画像が抽出される抽出領域に摂動を加えることにより、複数の抽出領域を生成し、
前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定し、
推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出し、
前記摂動は、前記抽出領域の範囲への変動を含む
推定方法。
前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
請求項７に記載の推定方法。
前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
請求項７又は８に記載の推定方法。
コンピュータに、
顔画像から抽出された特徴点の位置に基づいて定まる部分画像が抽出される抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動処理と、
前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定処理と、
推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合処理と、
を実行させ、
前記摂動は、前記抽出領域の範囲への変動を含む
プログラム。