JP7107380B2 - 推定装置、推定方法、およびプログラム - Google Patents

推定装置、推定方法、およびプログラム Download PDF

Info

Publication number
JP7107380B2
JP7107380B2 JP2020547686A JP2020547686A JP7107380B2 JP 7107380 B2 JP7107380 B2 JP 7107380B2 JP 2020547686 A JP2020547686 A JP 2020547686A JP 2020547686 A JP2020547686 A JP 2020547686A JP 7107380 B2 JP7107380 B2 JP 7107380B2
Authority
JP
Japan
Prior art keywords
face
image
perturbation
region
sight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020547686A
Other languages
English (en)
Other versions
JPWO2020065790A1 (ja
Inventor
雄介 森下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020065790A1 publication Critical patent/JPWO2020065790A1/ja
Application granted granted Critical
Publication of JP7107380B2 publication Critical patent/JP7107380B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/163Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state by tracking eye movement, gaze, or pupil change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/18Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state for vehicle drivers or machine operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Description

本開示は、向きを推定する技術に関し、特に、画像に含まれる人物の視線や顔の向きを推定する技術に関する。
人物の視線(すなわち、目が見ている方向)や顔の向きは、その人物の行動や意図を解析する上で重要な手掛かりとなり得る。例えば、人物の視線から、その人物が注視している物体または事象を特定することができる。
また、人物の視線と顔向きとを計測することによって得られる、視線と顔向きの方向の違いから、意図的な視線を特定することができる。具体的には、人物は、通常、顔向きと視線とが概ね同一の方向になることが多い。しかし、例えば顔は右を向いているのに視線は左を向いている場合など、人物の視線と顔向きとが異なる場合は、その人物は、他人に視線の方向を悟られないように対象物を見ようとしているとも考えられる。他者は、人物の顔の向きを容易に把握できるが、ある程度その人物に近づかない限り、視線の方向を把握できない。このように、人物の視線と顔向きを計測することによって、その人物が何らかの意図をもって対象を見ているか否かを特定することができる。
人物の視線や顔向きを推定する技術、特に、人物の顔を含む画像(以下「顔画像」と呼ぶ)を用いて、人物の視線や顔向きを推定する技術が、以下に示す文献によって開示されている。
顔画像に基づいて視線を推定する技術が、例えば、特許文献1~3、および非特許文献1~2に記載されている。特許文献1は、顔画像に含まれる特徴点(画像特徴点)を用いて、視線を推定する方法(feature-based methods)を開示している。非特許文献1は、ただ1つの目を含む顔画像から、視線を推定する方法を開示している。
また、特許文献2および非特許文献2は、「見た目に基づく視線の推定」(appearance-based gaze estimation)の例を、それぞれ開示している。例えば、特許文献2では、与えられた顔画像のデータセットを用いて、CNN(Convolutional neural network)モデルに基づく深層学習を行うことにより、顔と視線の関係を学習する。
顔画像に基づいて顔向きを推定する技術が、例えば、非特許文献3に記載されている。非特許文献3は、CNNモデルに基づく深層学習を行うことにより顔の位置や顔の部位の位置とともに、顔の向きなどを同時に推定する方法を開示している。
特許文献4には、顔の部品の3次元位置に基づいて算出された顔の中心位置と、瞳の中心位置の差に基づいて、視線方向を推定する装置が開示されている。
特許文献5には、顔の輪郭と目の位置とに基づいて、視線の方向を検出する装置が開示されている。
特許文献6には、推定された視線の時系列変化に基づいて、車両運転者が正面として認識している方向を推定し、推定された方向に基づいて、視線の方向を補正する装置が開示されている。
特許文献7には、鼻孔の検出の結果に基づいて目の領域を推定し、目の開閉状態を判定する装置が開示されている。
特許文献8には、複数の顔の向きについて生成された部分空間の各々に、検出した特徴点の座標を表すベクトルを射影し、それぞれの部分空間において判別した向きを統合することによって、顔の向きを判定する装置が開示されている。
特許文献9には、目の領域の特徴量と、検出された顔の向きに応じた両目のそれぞれの信頼度とに基づいて、視線の方向を推定する装置が開示されている。
特許第4829141号公報 特開2009-059257号公報 特許第5772821号公報 国際公開第2008/007781号 特開2014-210076号公報 特開2008-210239号公報 特開2000-339457号公報 特開2011-138388号公報 特開2012-037934号公報
J. Wang, E. Sung, and R. Venkateswarlu, "Eye Gaze Estimation from a Single Image of One Eye," Proc. IEEE ICCV 2003, pp.I-136-143, 2003. X. Zhang, Y. Sugano, M. Fritz and A. Bulling, "Appearance-Based Gaze Estimation in the Wild," Proc. IEEE CVPR 2015, pp. 4511-4520, 2015. R. Ranjan, V. M. Patel, R. Chellappa, "HyperFace: A Deep Multi-task Learning Framework for Face Detection, Landmark Localization, Pose Estimation, and Gender Recognition," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
上述した関連する技術では、単一の画像から視線や顔向きを推定するため、推定の対象である画像が、撮影条件や遮蔽により推定に向かない画像である場合に、精度のよい推定を行うことができない。推定の結果に間違いが生じていたとしても、間違いを修正することが出来ない。例えば、非特許文献2に開示された技術では、入力された一枚の顔画像から視線が推定される。そのため、画像の状態が悪い場合、顔や目の位置を精度良く求めることができない。画像の状態が悪い場合には、例えば、照明の条件が悪く、画像が全体的に暗い場合、又は、顔に影が出来ている場合などがある。画像の状態が悪い場合には、例えば、画像中に顔や目がはっきりと写っていない場合や、目や顔の一部が別の物体により遮蔽されている場合もある。顔や目の位置を精度良く求めることが出来なければ、視線の推定を行うための目の領域を精度よく抽出できず、結果的に視線の推定に失敗する場合がある。
また目の領域を精度よく抽出できていても、目の付近が暗い場合や目が遮蔽されている場合、視線を推定するための情報が目の領域の画像に十分含まれないので、視線の推定に失敗する場合がある。
また、非特許文献3に開示された技術では、入力された一枚の画像から顔や顔部位の位置を検出するとともに顔向きを推定するため、上述の場合と同様の場合、同様の理由により、顔向きの推定に失敗する場合がある。
すなわち、上述の文献に開示されている、1枚の画像から顔などの方向を推定する技術では、画像の状態が、例えば顔の特徴点の抽出に適さない状態である場合に、視線や顔向きを高精度に推定することが困難である。
本開示の目的の1つは、人物の画像における視線や顔向きを推定する精度の、画像の状態による低下を抑制することができる推定装置等を提供することである。
本開示の一態様に係る推定装置は、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動手段と、前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定手段と、推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合手段と、を備える。
本開示の一態様に係る推定方法は、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成し、前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定し、推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する。
本開示の一態様に係る記憶媒体は、コンピュータに、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動処理と、前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定処理と、推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合処理と、を実行させるプログラムを記憶する。本開示の一態様は、上述の記憶媒体に格納されているプログラムによっても実現される。
本開示によれば、人物の画像における視線や顔向きを推定する精度の、画像の状態による低下を抑制することができる。
図1は、本開示の第1実施形態に係る推定装置の構成の一例を示すブロック図である。 図2は、顔画像の一例を示す図である。 図3は、部分画像(目領域画像)の一例を示す図である。 図4は、部分画像(顔領域画像)の一例を示す図である。 図5は、摂動量に基づく部分画像の抽出の流れを説明する図である。 図6は、本開示の第1実施形態に係る推定装置の動作の一例を示すフローチャートである。 図7は、本開示の第2実施形態に係る推定装置の構成の一例を示すブロック図である。 図8は、本開示の第2実施形態に係る推定装置の動作の一例を示すフローチャートである。 図9は、推定装置を実現するコンピュータのハードウェア構成の一例を示すブロック図である。
<第1実施形態>
図1は、第1実施形態に係る推定装置100の構成を示すブロック図である。推定装置100は、画像に含まれる人物の視線及び顔向きの少なくとも一方を推定するための装置である。本実施形態の説明では、人物の視線の方向と、人物の顔の方向(すなわち、上述の顔向き)を、まとめて、人物の方向とも表記する。また、人物の視線の方向を、単に、視線とも表記する。さらに、人物の顔の方向を、単に、顔向きとも表記する。図1に示すように、推定装置100は、取得部110と、検出部120と、摂動部130と、抽出部140と、推定部150と、統合部160と、出力部170とを含む。推定装置100は、他の構成要素を含んでもよい。
<取得部110>
取得部110は、人物の顔を含む画像の画像データを取得する。取得部110は、例えば、通信ネットワークを介して推定装置100と接続され、画像データを出力する他の装置から、画像データを受け取ってもよい。取得部110は、例えば、通信ネットワークを介して推定装置100と接続され、画像データを記憶する他の装置から、画像データを読み出してもよい。他の装置は、撮影した画像の画像データを出力する、監視カメラ、または、電子機器に内蔵されるカメラ等の撮像装置であってもよい。他の装置は、例えばデータベース等として、画像データが格納された記憶装置であってもよい。取得部110は、検出部120へ、取得した画像データを送出する。
取得部110が取得する画像データは、複数の画素の輝度値によって表現されている。画像データ(言い換えると、画像データが表す画像)に含まれる画素数、色数(すなわち色成分の数)、および階調数などは、特定の数値に限定されない。取得部110は、あらかじめ決められた画素数および色数を有する画像データのみを取得してもよい。取得部110が取得する画像データの画素数および色数は、特定の画素数および色数に限定されていなくてもよい。また、画像データは、静止画像のデータであってもよいし、動画像のデータであってもよい。説明の便宜上、以下では、取得部110が取得する画像データを「入力画像」と呼ぶ。
以下の説明においては、入力画像は1つの人物の顔を含んでいることとする。1つの入力画像に複数の顔が含まれる場合、取得部110は、その入力画像を、それぞれ1つの顔のみを含む複数の入力画像に分割すればよい。取得部110と、推定装置100の他の構成要素は、分割によって生成された複数の入力画像のそれぞれに対して、以下で説明する動作を行えばよい。
取得部110は、取得した入力画像から顔画像を生成する。取得部110は、生成した顔画像を、検出部120および抽出部140に供給する。顔画像は、人物の顔の一部又は全部を含む画像を表す。顔画像は、入力画像から、人物の顔以外の要素(例えば、背景、物体、および人物の体等)が除かれた画像であってよい。顔画像は、入力画像から、人物の顔の一部以外の要素が除かれた画像であってよい。
取得部110は、例えば、顔の領域を検出する一般的な方法を用いて、入力画像において顔の領域を検出してもよい。取得部110は、入力画像において、顔の一部の領域(例えば、顔の特定の部品の領域)を、顔の特定の部品(例えば目等)の領域を検出する一般的な方法を用いて、検出してもよい。入力画像から人物の顔以外の要素を除くことは、入力画像の、人物の顔以外の領域の全ての画素の画素値を、所定の画素値に変更することであってもよい。入力画像から人物の顔の一部以外の要素を除くことは、入力画像の、人物の顔の一部以外の領域の全ての画素の画素値を、所定の画素値に変更することであってもよい。取得部110は、例えば、検出した顔の領域(又は顔の一部の領域)以外の領域の画素の画素値を、所定の画素値に変更してもよい。取得部110は、検出された顔の領域(又は顔の一部の領域)以外の領域の画素の画素値が所定の画素値に変更された画像を、顔画像として、検出部120および抽出部140に供給してもよい。
(顔画像)
図2は、取得部110が入力画像から生成する顔画像の例(顔画像400)を示す。図2に示す顔画像400は、顔のパーツ(目、眉、鼻、および口)を含んでいる。顔画像は、推定部150が視線又は顔向きを推定するのに必要な情報を少なくとも含んでいれば良い。例えば、推定部150が視線を推定する場合は、顔画像の目の領域のみが使用される。従って、推定部150が視線を推定する場合、顔画像は、少なくとも目を含んでいればよい。以下の説明では、目の領域の画像を、目領域画像とも表記する。
なお、本開示の各実施形態の説明では、取得部110が入力画像から生成する画像、すなわち、取得部110によって入力画像から抽出された、少なくとも顔の部位を含む画像を顔画像と表記する。また、顔画像の、検出部120によって検出された特徴点の位置に基づいて定まる領域、及び、その領域に摂動を加えることによって得られる領域から、抽出部140によって抽出される画像を、部分画像と表記する。
入力画像が動画像である場合、入力画像は複数の画像(すなわちフレーム)を含む。この場合、入力画像に含まれる全てのフレームが、顔を含むとは限らない。あるフレームには顔が含まれるが、別のフレームには顔が含まれない可能性がある。そこで、入力画像が動画像である場合、取得部110は、動画像から、人物の顔を含む画像のみを抽出し、抽出した画像を、顔画像として、検出部120および抽出部140に供給してもよい。この構成により、推定装置100が視線又は顔の向きを推定する処理(後述)を効率化することができる。
入力画像が静止画像である場合、取得部110は、入力画像をそのまま、顔画像として、検出部120と抽出部140に供給してもよい。取得部110は、入力画像を加工し、加工した入力画像を、顔画像として、検出部120と抽出部140に供給してもよい。後者の場合、例えば、取得部110は、入力画像において人物の顔を検出し、検出した顔を含む、入力画像の一部を、顔画像として抽出し、抽出した顔画像を、検出部120および抽出部140に供給してもよい。
顔画像は、モノクロ画像であってよい。顔画像は、カラー画像であってよい。すなわち、顔画像の画素の画素値は、R(赤)、G(緑)、B(青)などの複数の色成分の大きさを示す値を表す。この場合、取得部110は、顔画像の色数が所定の色数になるように、顔画像を変換してもよい。取得部110は、顔画像の階調数が所定の階調数になるように、顔画像を変換してもよい。取得部110は、変換した顔画像を、検出部120および抽出部140に供給してもよい。例えば、顔画像がカラー画像であり、顔画像に含まれる色の情報(彩度、色相)を使用しない場合、取得部110は、顔画像を、単一成分のグレースケールで表わされる顔画像に変換してもよい。このようにして変換された顔画像のことも、以後は単に「顔画像」と呼ぶ。
<検出部120>
検出部120は、取得部110から供給される顔画像(例えば、図2に示す顔画像400)を受け取り、受け取った顔画像から、顔の特徴点を検出する。顔の特徴点は、顔又は顔の部品において定められている特徴点である。
推定装置100が推定する方向が視線の方向である場合、検出部120は、目に定められている特徴点を検出してよい。検出部120は、例えば、顔画像から目の瞳の中心を特徴点として検出してもよい。検出部120は、さらに、目の輪郭線上の複数の点を特徴点として検出してもよい。検出部120が特徴点として検出する、瞳の中心、および、目の輪郭線上の複数の点を、以下では目の特徴点と表記する。
目の輪郭線上の複数の点は、例えば、内眼角、外眼角、上瞼の中心、および、下瞼の中心の、4点などである。内眼角(いわゆる目頭)は、目の輪郭線の両端において、上下の瞼が相会する2点のうち、顔の内側にあるほうの点を指す。外眼角(いわゆる目尻)は、上下のまぶたが相会する2点のうち、顔の外側にあるほうの点を指す。上瞼の中心は、上瞼と眼球との境界の、横方向における中心の点である。また、下瞼の中心は、下瞼と眼球との境界の、横方向における中心の点である。
本実施形態では、以下の説明では、抽出部140は、瞳の中心の点を中心として含む部分画像を抽出する。抽出部140は、瞳の中心の点の代わりに、内眼角と外眼角とを結ぶ線分の中点を中心として含む部分画像を抽出してもよい。抽出部140は、内眼角、外眼角、上瞼の中心、および、下瞼の中心の、4点に基づいて定まる点を中心として含む部分画像を抽出してもよい。抽出部140は、このようにすると、抽出する部分画像の位置がより安定する。なお、上述の4点に基づく点は、4点が頂点である矩形の重心であってもよい。上述の4点に基づく点は、内眼角と外眼角とを結ぶ線分と、上瞼の中心と下瞼の中心とを結ぶ線分の、交点であってもよい。上述の4点に基づく点は、平行な2辺がそれぞれ内眼角と外眼角とを通り、他の平行な2辺がそれぞれ上瞼の中心と下瞼の中心とを通る平行四辺形の重心であってもよい。内眼角を通る辺及び外眼角を通る辺は、画像の2軸のうち、内眼角と外眼角とを通る直線に対する角度が大きい方の軸に平行であってよい。上瞼の中心を通る辺及び下瞼の中心を通る辺は、画像の2軸のうち、上瞼の中心と下瞼の中心とを通る直線に対する角度が大きい方の軸に平行であってよい。
推定装置100が推定する方向が顔の方向である場合、検出部120は、目に定められている特徴点に限らず、顔の特徴点を検出してよい。検出部120は、例えば、顔画像から、上述の目の特徴点に加えて、眉毛、鼻、口、顎下などに定められている複数の点を検出してもよい。この場合に検出部120が検出する、目、眉毛、鼻、口、顎下の複数の点を、以下では顔の特徴点と表記する。本実施形態の顔の特徴点は、一般的によく使用される、顔の特徴点であってもよい。本実施形態の顔の特徴点は、例えば推定装置100のオペレータなどによって、顔の上に適宜定められた点であってもよい。推定装置100が、視線の方向と顔の方向とを推定する場合、検出部120は、顔の特徴点を抽出してよい。
検出部120は、目の特徴点を検出するために、例えば特許文献3に記載された方法など、周知の様々な方法のいずれかを使用してもよい。同様に、検出部120は、顔の特徴点を検出するために、例えば特許文献3に記載された方法など、周知の様々な方法のいずれかを使用してもよい。例えば、検出部120は、教師あり学習などの一般的な機械学習を用いてもよい。この場合、検出部120は、例えば、複数の人物の、目、眉毛、鼻、口、顎下などの特徴点の位置が与えられた顔画像を用いて、複数の人物の顔における目、眉毛、鼻、口、顎下の特徴および位置を学習する。言い換えると、検出部120は、特徴点の位置が与えられた顔画像を用いて、入力された顔画像の特徴点の位置を出力する検出器を、あらかじめ学習させておく。そして、検出部120は、学習させて置いた検出器を使用して、供給された顔画像から特徴点を検出する。
検出部120は、顔画像から検出した特徴点(例えば、目の特徴点、又は、顔の特徴点)の情報を、摂動部130と抽出部140に送出する。
<摂動部130>
摂動部130は、検出部120から、検出部120が検出した特徴点(例えば、目の特徴点又は顔の特徴点)の情報を受け取る。摂動部130は、抽出部140によって抽出される部分画像の領域に加える摂動の量(以下では、「摂動量」と表記)を、受け取った特徴点の情報に基づいて計算する。摂動量の計算については、後で詳細に説明する。
顔画像から抽出される部分画像の領域は、上述のように特徴点に基づいて定まる。摂動は、部分画像が抽出される領域の位置等に与える変動を指す。摂動量は、部分画像が抽出される領域の位置等に与える変動を表す値である。摂動部130は、変動量を、特徴点の情報に基づいて計算する。部分画像の領域に摂動を加えることは、特徴点に基づいて定められた領域(以下、元の領域とも表記)に、摂動量に基づいて定められる変動を加えることによって、他の領域を決定すること(言い換えると、他の領域を生成すること)を指す。摂動は、複数の変動(例えば、複数の変動の集合)であってもよい。その場合、摂動部130は、特徴点の情報に基づいて、複数の変動量を計算する。領域に摂動を加えることは、摂動を表す複数の変動のそれぞれを領域に適用することによって、複数の領域を決定すること(言い換えると、複数の領域を生成すること)である。以下の説明では、摂動が複数の変動によって表されている場合、その摂動は、「摂動が複数の変動を含む」と表される場合がある。
具体的には、摂動は、例えば、平行移動等の、領域の位置の変化であってもよい。領域の平行移動は、領域の大きさ及び方向を変化させない、領域の移動を表す。この場合、摂動量は、特徴点の情報によって定まる、1つの2次元ベクトルによって表されていてよい。
上述のように、摂動は、それぞれ特徴点の情報によって定まる、複数の変動の集合であってもよい。摂動部130は、例えば、特徴点の情報に基づいて計算される値pを用いて複数の摂動量を決定してもよい。値pは、例えば、所定の特徴点の間の距離の定数倍であってもよい。値pは、例えば、所定の特徴点の間の位置の関係に基づいて算出される値の定数倍であってもよい。
具体的には、摂動は、例えば、顔画像に定められている2つの座標軸に基づいて定まる、座標の2つの要素の値の少なくとも一方が、p増加する、領域の位置の平行移動の集合であってよい。この場合、摂動は、(p,0)、(0,p)、(p,p)の3つのベクトルによって表される。摂動部130は、これらの3つのベクトルを、摂動量に決定してよい。そして、後述の抽出部140は、顔画像の特徴点によって定まる元の領域に対して(p,0)、(0,p)、(p,p)の3つのベクトルによって表される移動をそれぞれ行うことによって得られる3つの領域と、元の領域とから、部分画像を抽出してよい。
摂動は、例えば、顔画像に定められている2つの座標軸に基づいて定まる、座標の2つの要素の値の少なくとも一方が、p増加または減少する、領域の位置の平行移動の集合であってもよい。この場合、摂動は、(p,0)、(0,p)、(p,p)、(-p,0)、(0,-p)、(-p,p)(p,-p)(-p,-p)の8つのベクトルによって表される。摂動部130は、これらの8つのベクトルを、摂動量に決定してよい。そして、後述の抽出部140は、顔画像の元の領域に対して上記8つのベクトルによって表される移動をそれぞれ行うことによって得られる8つの領域と、元の領域とから、部分画像を抽出してよい。摂動が平行移動である場合の摂動量を計算し決定する方法は、以上の方法に限られない。
摂動は、例えば、部分画像が抽出される領域の大きさの変動であってもよい。大きさの変動は、例えば、拡大であってもよい。大きさの変動は、縮小であってもよい。大きさの変動は、等方的でなくてもよい。例えば、顔画像内のある方向の大きさの変動が、他の方向の大きさの変動と異なっていてもよい。
摂動が領域の大きさの変動である場合、摂動量は、例えば、領域の大きさの変化率を表していてもよい。摂動が、例えば、領域のサイズをr倍にする、領域の大きさの変動である場合、摂動量は、rであってよい。摂動が、例えば、横方向のサイズをr1倍にし、縦方向のサイズをr2倍にする、領域の大きさの変動である場合、摂動量は、ベクトル(r1,r2)であってもよい。摂動が、変化率の異なる複数の大きさの変動の集合である場合、摂動量は、変化率の集合であってよい。
摂動が領域の大きさの変動である場合、摂動量は、例えば、領域の大きさの変化量であってもよい。摂動は、例えば、縦方向のサイズをs1増加させ、横方向のサイズをs2増加させる、領域のサイズの変更であってもよい。この場合、摂動量は、ベクトル(s1,s2)であってもよい。摂動が、変化量の異なる複数の大きさの変動の集合である場合、摂動量は、変化量を表すベクトルの集合であってよい。
抽出部140は、特徴点の情報に基づいて定まる領域に対して摂動量が表す大きさの変動を適用し、特徴点の情報に基づいて定まる領域と、大きさの変動が適用された領域とから、部分画像を抽出する。なお、摂動が領域の大きさの変動である場合、抽出部140は、領域の中心の位置が変化しないように領域が決定してもよい。
摂動は、抽出した部分画像の拡大又は縮小であってもよい。この場合、摂動量は、部分画像の大きさの変化量を表す値であってもよい。摂動量は、部分画像の大きさの変化率を表す値であってもよい。この場合、摂動部130は、摂動が、部分画像が抽出される領域の大きさの変動である場合の、領域のサイズを決定する方法と同様の方法によって、部分画像の領域に摂動を加えることによって生成される領域のサイズを決定してよい。この場合、抽出部140は、特徴点に基づいて定まる領域から抽出された部分画像を、決定されたそれぞれのサイズの画像に、例えば補間によって変換することによって、摂動によって得られる部分画像を生成してもよい。
摂動は、例えば、部分画像が抽出される領域の回転であってもよい。この場合、摂動量は、回転の角度の大きさであってもよい。そして、摂動は、特徴点によって定まる領域を、その領域の中心点を中心に、摂動量によって大きさが表される角度回転させる回転の集合であってもよい。例えば、角度の大きさがtである場合、摂動は、特徴点によって定まる領域を、角度t回転させる回転と、角度-t回転させる回転とであってもよい。この場合、抽出部140は、回転させられた領域から抽出される画像の各画素の画素値を、顔画像の画素の画素値を使用した補間によって算出してもよい。摂動は、パラメータによって変形の大きさを調整することができる他の変換であってもよい。
摂動は、顔画像に対する、例えばホワイトノイズなどのノイズの付加であってもよい。その場合、摂動量は、付加されるノイズの強度及び量のいずれかを表すパラメータであってもよい。付加されるノイズの生成方法は、パラメータによってノイズの強度及び量のいずれかを調整できる、既存のノイズを発生させる方法のいずれかであってよい。摂動は、顔画像の平滑化であってもよい。その場合、摂動量は、平滑化の強度を示すパラメータであってもよい。平滑化の方法は、パラメータによって強度を調整できる平滑化の方法のいずれかであってよい。摂動は、パラメータによって強度等を調整できる、画像に対する他の処理であってもよい。
摂動部130は、複数の摂動量を決定してもよい。具体的には、例えば、特徴点の情報に基づいて摂動量を決定し、さらに、例えば決定した摂動量を使用した所定の方法によって、0と決定した摂動量の値との間に値を持つ他の摂動量の値を決定してもよい。摂動部130は、例えば、0と決定した摂動量の値との間を、所定数で等分する値を、上述の他の摂動量と決定してもよい。例えば、所定数が2である場合、摂動部130は、特徴点の情報に基づいて決定した摂動量を2で割った値を、上述の他の摂動量と決定してもよい。
なお、以上の説明では、摂動が表す変動は、領域を変更しない変動を表す値を含まず、抽出部140は、特徴点の情報に基づいて定まる領域から部分画像を抽出する。しかし、抽出部140は、特徴点の情報に基づいて定まる領域に摂動量によって表される変動が加えられた領域から部分画像を抽出し、特徴点の情報に基づいて定まる領域から必ずしも部分画像を抽出しなくてよい。その場合、摂動部130は、摂動量が領域を変更しない変動を表す値を含むように、摂動量を設定してもよい。そして、抽出部140は、摂動量が、領域を変更しない変動を表す値を含んでいる場合に、特徴点の情報に基づいて定まる領域から部分画像を抽出してもよい。
また、摂動は、以上で説明した摂動の組み合わせであってもよい。摂動の組み合わせによって表される摂動は、例えば、領域の位置を回転させ、平行移動させ、大きさを変化させる摂動などである。摂動の組み合わせによって表される摂動は、この例に限られない。
次に、図3及び図4を参照して、摂動量の決定方法の例を具体的に説明する。図3および図4は、図2に示す顔画像400の一部と、その一部において検出された特徴点を表す図である。図3に示す部分画像410は、図2に示す顔画像400の領域410から抽出された部分画像に相当する。領域410は、顔画像400の左側の目を含む領域である。図3に示す部分画像420は、図2に示す顔画像400の領域420から抽出された部分画像に相当する。領域420には、顔画像400の右側の目を含む領域である。また、図4に示す部分画像430は、図2に示す顔画像400の領域430から抽出された部分画像に相当する。部分画像430は、顔画像400の目や鼻などの顔の部位を含む領域430から抽出された部分画像する。
部分画像430は、顔向きを推定する手がかりとなる顔の部位を含む。例えば、顔画像における右目と左目と鼻の頭頂部の位置関係は、顔が正面向きの場合、顔画像において、右目と鼻との間の距離と、左目と鼻との間の距離とが、概ね一致することを示す。なお、鼻の頭頂部は、鼻の、最も突き出た部分を表す。しかし、顔が右を向いている場合(すなわち、人物が右目のある方向に首を横に振った状態では)、右目と鼻の頭頂部との間の顔画像における距離は、左目と鼻の頭頂部との間の顔画像における距離より短い。この距離の違いは、顔が横を向いていることを推定する手がかりとして使用できる。部分画像430が含む顔の部位は、上述の右目、左目、および鼻に限定されない。
図3に示す部分画像410、420において、点Pおよび点Pは、瞳の中心である。また図4に示す部分画像430において、点Pおよび点Pは、瞳の中心であり。点Pは、鼻の頭頂部である。点Pは、顎下である。点P12は、点Pと点Pとを結ぶ線分の中点である。
(領域の位置に摂動を加える場合)
摂動部130は、例えば、抽出部140によって抽出される部分画像の領域の位置に与える摂動の大きさを表す摂動量を、顔の大きさを表す値(以下、顔の大きさとも表記)に基づいて求める。摂動部130は、例えば、画像における両目の間隔を、顔の大きさに決定する。具体的には、摂動部130は、検出部120が検出した目の特徴点のうち、右目の瞳の位置(例えば、図3の部分画像410の点P)と左目の瞳の位置(例えば、図3の部分画像420の点P)との間の距離を、顔の大きさとして用いてもよい。本実施形態では、距離は、例えば、ユークリッド距離である。距離は、他の距離であってもよい。
また、摂動部130は、両目の中点と顎の最下部の点との間の間隔を、顔の大きさに決定しても良い。具体的には、摂動部130は、右目の瞳の位置と左目の瞳の位置とを結ぶ線分の中点(例えば図4の部分画像430の点P12)と、顎の最下部の点(例えば図4の部分画像430の点P)との間の距離を、顔の大きさとして用いてもよい。
目は、画像において特徴的なパターンを有する。例えば、白目と黒目では明確な輝度の差が生じる。そのため、目の特徴点は、高精度に求められることが多い。従って、顔の大きさとして両目の間隔を用いる場合、顔の大きさも高精度に求まる。顔が横を向いている場合は、画像における両目の間隔(例えばユークリッド距離)は、顔が正面を向く場合の両目の間隔と比べ小さい。この場合、両目の間隔の代わりに、両目の中点と顎の最下部の点との間の間隔を用いることによって、顔の向きによらず、顔の大きさを安定して求めることが出来る。
顔の大きさをSとしたとき、摂動部130は、部分画像の位置に加える摂動の大きさを表す摂動量として、摂動が表す、領域の位置のx軸方向の移動量dとy軸方向の移動量dを、例えば以下の式により求めてもよい。
位置の摂動量(dxi,dyi)=(uxi×S,uyi×S)
ここで、iは、摂動が含む変動に付与された番号であり、uxiおよびuyiは、領域の位置に加える摂動の、i番目の変動の大きさを決定するために予め定められたパラメータであり、「×」は掛け算を表す演算子である。(dxi,dyi)は、i番目の変動を表す位置の摂動量である。パラメータuxiとuyiは、同じ値であってもよい。パラメータuxiとuyiは、別の値であってもよい。上述のように、摂動は、複数の変動を含んでいてもよい。その場合の複数のパラメータの例を、以下に示す。
(ux0,uy0)=(0.0,0.0)
(ux1,uy1)=(0.1,0.0)
(ux2,uy2)=(0.0,0.1)
(ux3,uy3)=(0.1,0.1)
なお、以上の例において、(ux0,uy0)が表す変動は、部分画像が抽出される領域の位置を変更しない。
(領域の大きさに摂動を加える場合)
摂動部130は、例えば、抽出部140で抽出する部分画像の大きさに加える摂動を表す摂動量を、顔の大きさに基づいて求めてもよい。顔の大きさの算出方法は、上述の算出方法と同じでよい。顔の大きさをSとしたとき、摂動部130は、部分画像の大きさに加える摂動を表す摂動量として、摂動が表す、領域のサイズのx軸方向の変化量sとy軸方向の変化量sを、例えば以下の式により求めてもよい。
大きさの摂動量(sxi,syi)=(vxi×S,vyi×S)
ここで、大きさの摂動量(sxi,syi)は、領域の大きさに加えられる摂動のi番目の変動の大きさを表す。vxiおよびvyiは、領域の大きさに加える摂動の、i番目の変動の大きさを決定するために予め定められたパラメータである。パラメータvxiとvyiは、同じ値であってもよい。パラメータvxiとvyiは、別の値であってもよい。上述のように、摂動は、複数の変動を含んでいてもよい。その場合の複数のパラメータの例を、以下に示す。
(vx0,vy0)=(0.0,0.0)
(vx1,vy1)=(0.1,0.0)
(vx2,vy2)=(0.0,0.1)
(vx3,vy3)=(0.1,0.1)
なお、領域の位置に加える摂動の大きさを決定するパラメータ(uxi,uyi)や、領域の大きさに加える摂動の大きさを決定するパラメータ(vxi,vyi)は、予め定められていてもよい。例えば摂動部130が、顔画像400の性質や、何らかの指標に基づいて、これらのパラメータを決定してもよい。
摂動部130は、例えば、顔画像の画質を評価し、顔画像の画質に応じて、これらのパラメータを決定してもよい。画質の評価は、画像に含まれるノイズの量に基づく評価であってもよい。画質の評価は、コントラストの大きさに基づく評価であってもよい。摂動部130は、画質を評価する既存の方法のいずれかによって、顔画像の画質を評価してよい。顔画像の画質が低い場合、検出部120が検出する特徴点の精度が低い(言い換えると、正確な検出に失敗し、検出された位置と本当の位置とが乖離する)と考えられる。摂動部130は、顔画像の画質が低いほど、摂動の大きさが増加するように、摂動量を決定してもよい。例えば、摂動部130は、顔画像の画質が低いほど摂動の大きさが大きくなるよう、領域の位置に加える摂動の大きさを決定するパラメータ(uxi,uyi)を決定してもよい。摂動部130は、顔画像の画質が低いほど摂動の大きさが大きくなるよう、領域の大きさに加える摂動の大きさを決定するパラメータ(vxi,vyi)を決定してもよい。これにより、検出された特徴点の位置と本当の特徴点の位置との間に乖離がある場合でも、摂動により生成される部分画像の何れかによって、人物の向きを正しく推定できる可能性が高まる。
検出部120が、例えば、顔の検出と顔の信頼度(例えば検出スコア)の算出とを行い、検出された顔において特徴点を検出するよう構成されている場合、摂動部130は、顔の信頼度に基づいて、摂動の大きさを決定する上述のパラメータを決定してもよい。推定装置100が、外部の顔検出装置等から、検出された顔の位置と、検出された顔の信頼度を受け取るように構成されている場合も、摂動部130は、顔の信頼度に基づいて、摂動の大きさを決定する上述のパラメータを決定してもよい。検出された顔の信頼度が低い場合、正確な顔の位置を検出できていない可能性が高い。正確な顔の位置を検出できていない場合、検出部120によって検出された特徴点の精度が低いことが考えられる。そのため、顔画像の画質が低い場合と同様に、摂動部130は、検出された顔の信頼度に応じて、上述のパラメータ(例えば、(uxi,uyi)および(vxi,vyi))を、摂動の大きさが大きくなるように決定してもよい。
摂動部130は、計算した摂動量(具体的には、摂動量の情報)を、抽出部140に送出する。
<抽出部140>
抽出部140は、取得部110から、顔画像(図2に顔画像400として例示)を受け取る。抽出部140は、摂動部130から、摂動量(具体的には、摂動量の情報)を受け取る。抽出部140は、検出部120から、特徴点の情報を受け取る。
抽出部140は、受け取った特徴点の情報に基づいて領域の位置を定め、領域の位置と受け取った摂動量とに基づいて、部分画像を抽出する領域の位置を特定する。具体的には、例えば摂動が領域の範囲の変更(位置の変更、大きさの変更等)である場合、抽出部140は、領域の位置が示す領域から、部分画像を抽出する。なお、抽出部140が、特徴点の情報に基づく領域の位置に摂動量が表す摂動を加えることによって得られる領域のみから部分画像を抽出するよう構成されている場合、特徴点の情報に基づく領域の位置から、部分画像を抽出しなくてよい。抽出部140は、さらに、受け取った顔画像の、受け取った特徴点の情報に基づく領域の位置に、摂動量が表す摂動を加えることによって(すなわち、摂動量が表す変動を適用することによって)、部分画像を抽出する領域を特定する。そして、抽出部140は、受け取った顔画像の、特定された領域から、部分画像を抽出する。例えば摂動が部分画像に対するノイズ除去等の処理である場合、抽出部140は、受け取った顔画像の、受け取った特徴点の情報に基づく領域の位置から、部分画像を抽出し、抽出した部分画像に、摂動量に基づく処理を行ってよい。抽出部140は、受け取った顔画像に、摂動量に基づく処理を行い、処理が行われた顔画像の、受け取った特徴点の情報に基づく領域の位置から、部分画像を抽出してよい。抽出部140は、以上のように、複数の部分画像を抽出する。以下の説明では、顔画像の、特徴点に基づいて定まる領域に摂動を加えることによって得られる領域から、部分画像を抽出する処理を、正規化処理とも表記する。また、抽出された部分画像を、正規化された顔画像とも表記する。
以下では、まず、推定部150が視線を推定する場合における、抽出部140が部分画像を抽出する動作の例について説明する。その後、推定部150が顔向きを推定する場合における、抽出部140が部分画像を抽出する動作の例について説明する。
(視線を推定する場合の部分画像の抽出)
推定部150が視線を推定する場合、上述のように、抽出部140が抽出する部分画像は、右目付近の領域の画像及び左目付近の領域の画像(以下、目領域画像とも表記する)である。
抽出部140は、まず、顔画像上において、摂動部130から取得した摂動量の情報を用いて、部分画像(両目の目領域画像)の位置と大きさを規定する4つの基準座標を決定する。摂動部130から複数の変動を表す摂動量の情報が取得されている場合、抽出部140は、摂動量が表す変動毎に4つの基準座標を生成し、摂動量が表す変動毎に部分画像(右目の目領域画像及び左目の目領域画像)を抽出する。
以下では、上述の4つの基準座標を基準座標A~Dと表記する。基準座標A~Dは、それぞれ、部分領域の左上、右上、右下、左下の点の座標を表す。例えば、図3に示す部分画像410、420、および図4に示す部分画像430において、基準座標A~Dが示す点に、符号A~Dが示されている。基準座標A~Dは二次元の画像において定義されている座標系の座標であるため、それぞれ二次元の座標値を持つ。以下の説明は、画像の座標系の座標軸は、x軸及びy軸であるとする。以下の説明では、例えば基準座標Aの、x座標及びy座標を、それぞれ、Ax及びAyと表記することもある。
抽出部140は、部分画像の基準の大きさ(すなわち、基準座標A~Dによって定まる四辺形の大きさ)を、顔の大きさに基づいて求める。顔の大きさは、摂動部130が摂動量の算出に使用した顔の大きさと同様に、例えば、両目の間隔(右目と左目との間の距離)であってもよい。具体的には、抽出部140は、検出部120が検出した目の特徴点のうち、右目の瞳の位置と左目の瞳の位置との距離(例えばユークリッド距離)を、顔の大きさとして用いてもよい。
また、顔の大きさは、両目を結ぶ線分の中点と顎の最下部の点との間の間隔であってもよい。具体的には、抽出部140は、検出部120が検出した顔の特徴点のうち、右目の瞳の位置と左目の瞳の位置とを結ぶ直線の中点と、顎の最下部の点(すなわち、上述の顎下の点)との距離(例えばユークリッド距離)を、顔の大きさとして用いてもよい。
検出部120によって、特徴点(例えば、目の特徴点、又は、目の特徴点を含む顔の特徴点)が検出されている。抽出部140は、検出部120から受け取った特徴点の情報を用いて、顔の大きさを計算することができる。
抽出部140は、次に、基準座標A~Dを設定するために、例えば以下の式(1)にしたがって、部分画像の幅X0および高さY0を計算する。
X0=Y0=S×k ・・・・ (1)
ここで、Sは顔の大きさを表し、kは所定の定数を表す。式(1)によれば、部分画像の幅X0および高さY0は、顔の大きさSに比例する。定数kは、適宜定められていてよい。定数kは、例えば0.75であってよい。定数kは、他の値であってもよい。また、X0及びY0を計算するための式は、式(1)に限られない。
抽出部140は、例えば、右目の瞳の中心の特徴点Pが重心であり、二辺の長さがX0及びY0である長方形(式(1)に従った計算によると正方形)の領域を右目の部分画像(すなわち目領域画像)が抽出される領域に設定する。抽出部140は、その領域の4つの頂点の座標を、右目の部分画像が抽出される領域の基準座標A~Dに設定する。画像に二次元の直交座標系が定義されており、その座標系の2つの座標軸がx軸とy軸とである場合、抽出部140は、例えば、長さがX0である辺がx軸と平行になり、長さがY0である辺がy軸と平行になるように、長方形の領域を設定してよい。抽出部140は、左目の瞳の中心の特徴点Pに対して、同様に、左目の部分画像(すなわち目領域画像)が抽出される領域を設定する。そして、その領域の4つの頂点の座標を、左目の部分画像が抽出される領域の基準座標A~Dに設定する。
この場合、特徴点Pと右目の部分領域が抽出される領域の基準座標A~Dとの間の相対位置は、4つのベクトル(-X0/2,Y0/2)、(X0/2,Y0/2)、(X0/2,-Y0/2)、(-X0/2,-Y0/2)によって表される。同様に、特徴点Pと左目の部分領域が抽出される領域の基準座標A~Dとの間の相対位置は、4つのベクトル(-X0/2,Y0/2)、(X0/2,Y0/2)、(X0/2,-Y0/2)、(-X0/2,-Y0/2)によって表される。
抽出部140は、さらに、摂動部130から受け取った摂動量の情報を用いて、特徴点の情報によって定まる領域に摂動を加える。具体的には、抽出部140は、受け取った摂動量の情報を用いて、基準座標A~Dの位置や大きさなどに摂動を加える。領域の位置に摂動を加える場合は、抽出部140は、基準座標A~Dに、位置の摂動量(dxi,dyi)を加算する。受け取った摂動量が、複数の変動を表す値として、複数の位置の摂動量(dxi,dyi)を含む場合、抽出部140は、複数の位置の摂動量が表す変動(例えば、位置の摂動量(dxi,dyi))を、それぞれ、基準座標A~Dに加える。基準座標A~Dに変動を加えることによって得られる座標を、摂動後の基準座標A´~D´と表記する。また、摂動後の基準座標A´~D´を、摂動基準座標A´~D´とも表記する。さらに、i番目の摂動基準座標A´を、(A´x,A´y)とも表記する。摂動基準座標B´~D´も同様に表記される。摂動基準座標A´~D´と、基準座標A~Dと、位置の摂動量(dxi,dyi)との関係は、以下のように表される。
(A´x,A´y)=(Ax,Ay)+(dxi,dyi
(B´x,B´y)=(Bx,By)+(dxi,dyi
(C´x,C´y)=(Cx,Cy)+(dxi,dyi
(D´x,D´y)=(Dx,Dy)+(dxi,dyi

また、領域の大きさに摂動を加える場合は、抽出部140は、領域の中心が移動しないように基準座標A~Dに変動を加えることによって、領域の大きさを変化させる。具体的には、抽出部140は、例えば、以下のように、基準座標A~Dに、大きさの摂動量(sxi,syi)から計算される量を加算する。摂動が、複数の変動を表す値として、大きさの摂動量(dxi,dyi)を含む場合、抽出部140は、基準座標A~Dに、複数の大きさの摂動量(dxi,dyi)から計算される量の各々を加算する。
(A´x,A´y)=(Ax,Ay)+(-0.5×sxi,-0.5×syi
(B´x,B´y)=(Bx,By)+( 0.5×sxi,-0.5×syi
(C´x,C´y)=(Cx,Cy)+( 0.5×sxi, 0.5×syi
(D´x,D´y)=(Dx,Dy)+(-0.5×sxi, 0.5×syi
上記式は、領域に摂動を加えることによる領域の大きさの変化が、大きさの摂動量(sxi,syi)によって表されることを示す。
なお、抽出部140は、右目の瞳の中心Pおよび左目の瞳の中心Pを結ぶ線分が、部分画像が抽出される長方形(または正方形)の領域の二辺と平行になるように、基準座標A~Dを回転させても良い。具体的には、抽出部140は、右目の瞳の中心Pおよび左目の瞳の中心Pを結ぶ線分の、顔画像の横軸に対する角度θを算出する。抽出部140は、右目の瞳の中心Pを含む領域の基準座標A~Dを、右目の瞳の中心Pを回転中心として、θだけ回転させる。抽出部140は、さらに、左目の瞳の中心Pを含む領域の基準座標A~Dを、左目の瞳の中心Pを回転中心として、θだけ回転させる。これにより、顔画像に含まれる顔の水平方向の傾きによらず、目領域画像に含まれる目の傾きが一定になる。
摂動が、領域の位置に加えられる摂動である場合、抽出部140は、上述の回転を、領域に摂動を加える処理の前に行っても良い。摂動が、領域の大きさに加えられる摂動である場合、抽出部140は、上述の回転を、領域に摂動を加える処理の後に行ってもよい。その場合、抽出部140は、摂動基準座標A´~D´に対しても、回転を行う。
図5は、領域に摂動を加えることによって得られる領域および部分画像の例を模式的に表す図である。図5を参照して、抽出部140によって生成される部分画像(すなわち、目領域画像)の一例について説明する。図5の部分画像411および部分画像421は、それぞれ、部分画像410および部分画像420が抽出される領域に摂動を加えることによって生成される領域から抽出される部分画像を表す。図5に示す例では、簡単のため、変動の番号iが3である上述の変動が加えられた場合の領域から抽出される部分画像のみを示す。図5に示す例では、領域の位置に加える摂動の大きさを決定するパラメータ(ux3,uy3)は、(ux3,uy3)=(0.08,0.08)である。
図5に示す、部分画像411および部分画像421のA´~D´は、摂動基準座標A´~D´が表す点を示す。領域の位置に加える摂動の大きさを決定するパラメータが(ux3,uy3)=(0.08,0.08)である場合、位置の摂動量(dx3,dy3)は、(dx3,dy3)=(0.08×S,0.08×S)となる。上述のように、Sは顔の大きさである。図5に示す例では、Sは、両目の間隔(すなわち、点Pと点Pの間の距離)である。摂動が、領域の位置に加えられる摂動である場合、抽出部140は、基準座標A~Dに、位置の摂動量(dx3,dy3)を加算する。顔の大きさは非負であるので、0.08×Sは、同じく非負である。摂動基準座標A´~D´のx座標およびy座標は、それぞれ、基準座標A~Dのx座標およびy座標に非負の値が加算された値である。そのため、摂動基準座標A´~D´が表す領域は、基準座標A~Dが表す領域を、画像において右下方向に移動させた領域に対応する。図5のA´~D´は、その様子を示す。
(顔向きを推定する場合の部分画像の抽出)
推定部150が顔向きを推定する場合、抽出部140は部分画像として顔全体の領域の画像を抽出する。顔向きを推定する場合の部分画像の抽出は、式(1)におけるkの大きさ、及び、基準座標A~Dの中心位置、の二点において、視線を推定する場合の部分画像の抽出と異なる。
具体的には、推定部150が顔向きを推定する場合、基準座標A~Dの大きさを規定する式(1)のkは、視線を推定する場合の0.75のではなく、2.5であってよい。また、基準座標A~Dの中心位置は、視線を推定する場合の瞳の中心ではなく、顔の中心位置、例えば鼻の頭頂部であってよい。
(摂動により複数の部分画像を抽出する場合の効果)
抽出部140が部分画像を抽出する領域を表す基準座標A~Dは、検出部120が検出する特徴点に基づいて計算される。例えば、撮影の条件が悪い場合、遮蔽物が存在する場合、及び、特徴点が抽出される顔画像の画質が低い場合等に、検出部120が顔の特徴点を精度よく検出できず、実際の特徴点の位置と検出された特徴点の位置との間に、ずれが生じることがある。検出された特徴点の位置にずれが生じた場合、部分画像が抽出される領域の位置や大きさに、特徴点の位置を正確に検出できた場合の領域の位置や大きさに対する乖離が生じることがある。このような場合、視線や顔向きの推定に必要な顔の部位が、部分画像に含まれない可能性がある。部分画像における、視線や顔向きの推定に必要な顔の部位の場所が、視線や顔向きの推定に適さない場所である可能性もある。言い換えると、特徴点を正確に検出できない場合、推定部150が正確に視線や顔方向を推定できる部分画像を得ることができるとは限らない。例えば、視線を推定する場合、部分画像における目の位置がずれることによって、推定部150が視線の推定を正しく行えるとは限らない。同様に、特徴点を精度よく検出できない場合、顔向きを正しく推定できるとは限らない。
検出された特徴点に基づいて定まる領域に本実施形態の摂動が加えられる場合、検出された特徴点に基づいて定まる領域の周囲に、部分画像が抽出される複数の領域が設定される。特徴点が正確に検出されていない場合であっても、領域に摂動を加えることによって生成される領域から抽出される部分画像のいずれかが、人物の方向の推定(すなわち、視線や顔向きの推定)に適した画像である可能性がある。複数の部分画像に、人物の方向の推定に適した画像が含まれていれば、後で詳述する推定部150は、その画像に基づいて、人物の方向を精度よく推定できる。言い換えると、推定部150は、信頼度の高い人物の方向を推定できる。後で詳述する統合部160は、複数の、推定された人物の方向を、信頼度に基づいて統合する。信頼度の高い人物の方向が推定されていれば、複数の、推定された人物の方向を統合することによって得られる人物の方向が、正しい人物の方向である可能性が高まる。言い換えると、本実施形態の推定装置100は、入力画像の顔の状態が特徴点の精度の良い検出に適さないことによる、人物の方向を推定する精度の低下を抑制できる。
<推定部150>
推定部150は、顔画像に含まれる人物の方向(例えば、人物の視線、及び、人物の顔向きの少なくとも一方)を推定する。視線は、人物の目が見ている方向を表す。顔向きは、人物の顔が向いている方向を表す。具体的には、推定部150は、抽出部140が正規化した複数の部分画像(すなわち、抽出部140によって抽出された複数の画像)に基づいて、人物の方向を推定する。
本実施形態では、推定部150は、顔の画像が入力されると、入力された顔の画像に基づいて人物の方向を推定するように、予め学習した推定器を使用して、人物の方向を推定する。推定器を学習する方法は、既存の学習方法のいずれかであってよい。例えば推定部150が、人物の方向が予め特定されている複数の顔の画像(言い換えると、正解あり顔の画像)を用いて、入力された顔の画像における顔の見た目と、視線または顔向きとの関係を、予め推定器に学習させておく。顔の画像は、例えば、正しい顔の特徴点として与えられた、顔の特徴点に基づいて定まる領域から抽出された部分画像である。推定部150は、学習した推定器を用いて、視線または顔向きを推定する。推定部150は、推定結果のデータを、統合部160に出力する。視線を推定する場合、推定部150は、視線を推定する推定器を含む。顔向きを推定する場合、推定部150は、顔向きを推定する推定器を含む。視線および顔向きを推定する場合、推定部150は、視線を推定する推定器と、顔向きを推定する推定器とを含む。なお、推定部150が視線及び顔向きの双方を推定する場合、顔の画像に基づいて視線の方向を推定する推定器と、顔の画像に基づいて顔向きを推定する推定器とを、予め学習しておいてよい。そして、推定部150は、顔の画像に基づいて視線の方向を推定する推定器によって推定した視線の方向と、顔の画像に基づいて顔向きを推定する推定器によって推定した顔向きとを、統合部160に送出してよい。
本実施形態では、推定器によって推定される、人物の方向を、ベクトル(g,g)で表す。以下では、まず、推定器によって推定される人物の方向が視線である場合(すなわち、推定器が視線を推定する場合)の、ベクトル(g,g)について説明する。次に、推定される人物の方向が顔向きである場合(すなわち、推定器が顔向きを推定する場合)のベクトル(g,g)について説明する。いずれの場合も、ベクトル(g,g)は、画像に定義される座標系におけるベクトルである。
(推定器が視線を推定する場合)
推定器が視線を推定する場合、推定される視線が、ベクトル(g,g)によって表される。gが水平方向の視線の角度であり、gが垂直方向の視線の角度である。ベクトル(g,g)は、顔の正面に対する視線のずれの方向を表してもよい。この場合、視線が顔の正面を向いているならば、(g,g)=(0,0)である。視線が真上を向いているならば、(g,g)=(0,+90)である。視線が真下を向いているならば、(g,g)=(0,-90)である。また、視線が右真横を向いているならば、(g,g)=(-90,0)である。視線が左真横を向いているならば、(g,g)=(90,0)である。
なお、ベクトル(g,g)は、顔の正面に対する相対的な方向を表してもよい。言い換えると、視線は、人物の顔の正面の方向に対する、人物が見ている方向の差を表してもよい。この場合は、撮影された人物が目で見ている方向は、視線のベクトル(g,g)のみによっては特定されず、ベクトル(g,g)と人物の顔の向きとによって特定される。
推定器が推定する視線は、顔の正面を基準とする代わりに、カメラへの方向(すなわち、目からカメラへの方向)を基準としてもよい。この場合、目がカメラを真っすぐに見ているとき、すなわち視線とカメラへの方向とが一致するとき、ベクトル(g,g)=(0,0)になる。ベクトル(g,g)は、カメラへの方向からの視線のずれを水平角と仰俯角とによって表す。例えば、視線が、カメラへの方向に対して、上に30度を向いているとき、ベクトル(g,g)=(0,+30)である。視線の方向が、カメラへの方向に対して、右に30度の方向であるとき、ベクトル(g,g)=(-30,0)である。視線の方向が、カメラへの方向に対して、左に30度の方向であるとき、ベクトル(g,g)=(30,0)である。
(推定器が顔向きを推定する場合)
推定器が顔向きを推定する場合、本実施形態では、推定される顔向きが、ベクトル(g,g)によって表される。gが水平方向の顔向きの角度で、gが垂直方向の顔向きの角度である。ベクトル(g,g)は、顔がカメラを真っ直ぐ向いている状態(すなわち、顔の正面の方向にカメラがある状態)における顔の正面の方向を基準とし、顔の正面の方向の、その基準からの角度を表してもよい。顔がカメラを真っ直ぐ向いているならば、(g,g)=(0,0)である。顔が真上を向いているならば、(g,g)=(0,+90)である。顔が真下を向いているならば、(g,g)=(0,-90)である。また、顔が右真横を向いているならば、(g,g)=(-90,0)である。顔が左真横を向いているならば、(g,g)=(90,0)である。
次に、推定器の学習方法について記す。
(推定器の学習)
本実施形態では、例えば推定部150が、推定器を、教師あり学習の何れかの手法により、人物の方向(例えば、視線または顔向き)を推定するように、予め学習しておく。以下では、教師あり学習の方法として、一般化学習ベクトル量子化(GLVQ;Generalized Learning Vector Quantization)を使用して、視線又は顔向きの角度と、その信頼度とを推定する場合の学習の例について説明する。信頼度とは、推定器が推定する視線又は顔向きの角度が、どの程度信頼できるかを示す値である。使用する学習方法は、視線又は顔向きの角度と、その信頼度とを推定できる学習方法であれば、GLVQ以外の方法であってもよい。例えばサポートベクトルマシン(Support Vector Machine, SVM)を用いることも可能である。
推定器の学習を行う場合、人物の方向が特定されている顔の画像(すなわち、部分画像)と、特定されている人物の方向との、複数の組み合わせが、取得部110に入力される。取得部110は、人物の方向が特定されている顔の画像と、特定されている人物の方向との、複数の組み合わせを、推定部150に送出する。
推定部150は、人物の方向が特定されている顔の画像と、特定されている人物の方向との、複数の組み合わせを、取得部110を介して受け取る。この場合の人物の方向は、推定器が推定する方向(すなわち、視線又は顔向き)の、正解である。人物の方向は、ベクトル(g,g)によって表されている。
推定部150は、まず、人物の方向の、水平方向および垂直方向の角度を離散化することによって、連続的な「角度」を離散的な「クラス」に分類する。具体的には、例えば人物の方向が視線である場合、推定部150は、水平方向および垂直方向の視線ベクトル(g,g)のそれぞれの成分を、-30度から+30度の範囲において、10度ごとに離散化する。この場合、水平方向の視線角度は、-30度から-20度、-20度から-10度、-10度から0度、0度から+10度、+10度から+20度、+20度から+30度、の6個の範囲に分割される。垂直方向の視線角度は、-30度から-20度、-20度から-10度、-10度から0度、0度から+10度、+10度から+20度、+20度から+30度、の6個の範囲に分割される。視線の方向の水平方向に-30度から+30度、垂直方向に-30度から+30度の範囲は、水平方向の範囲が6個の範囲に分割され、垂直方向の範囲が6個の範囲に分割されるので、6×6=36個の範囲に分割される。ベクトル(g,g)によって表されている視線を上述のように離散化することによって、視線は、上述の36個の範囲のいずれかに分類される。
以下では、視線が分類される上述の36個の範囲を、クラスと表記する。本実施形態では、推定部150は、36個のクラスと、目や顔以外の領域の画像に対応する負例のクラスとを含む、37個のクラスのいずれかに、人物の方向を分類する。例えば、垂直方向の範囲の下限の値が小さいほど番号が小さく、垂直方向の範囲の下限の値が同じである場合、水平方向の範囲の下限の値が小さいほど番号が小さくなるように、37個のクラスに番号が付与されていてよい。例えば、水平方向の範囲が-30度から-20度であり、垂直方向の範囲が垂直-30度から-20度であるクラスに、番号として1が割り当てられていてよい。水平方向の範囲が-20度から-10度であり、垂直方向の範囲が垂直-30度から-20度であるクラスに、番号として2が割り当てられていてよい。
例えば、ベクトル(g,g)が(-15,-15)である場合、そのベクトルが分類されるクラスは、水平方向の範囲が-20度から-10度であり、垂直方向の範囲が垂直-20度から-10度であるクラスである。そのクラスには、番号として8が割り当てられている。負例のクラスに割り当てられる番号は、例えば、0である。
なお、負例のクラスを加える理由は、例えば顔以外の領域から抽出された部分画像が推定器に入力された場合に、推定器が、方向を出力する代わりに、部分画像が推定の対象ではないことを示す情報を出力するように、推定器を学習するためである。例えば、検出部120が顔の特徴点の検出に失敗した場合などに、推定器に顔以外の領域から抽出された部分画像が入力されることがある。そのような場合に、負例のクラスがなければ、推定器は、入力された部分画像を36個のいずれかのクラスに分類する。顔ではない(すなわち、推定器の推定対象ではない)ことを表す負例のクラスを含む、いずれかのクラスに分類するように、推定器を学習しておいた場合、推定器は、上述の場合に、部分画像が推定の対象ではないことを示す情報を出力することができる。
推定部150は、次に、抽出部140が正規化した部分画像と、その部分画像における人物の方向が分類されるクラスとの関係を、例えば、一般化学習ベクトル量子化(GLVQ)によって学習することによって、推定器の学習を行う。具体的には、推定部150は、GLVQにより、37個のクラスの多クラス分類問題を学習する。より具体的には、推定部150は、部分画像(すなわち、人物の正しい方向が与えられている顔の画像)から画像特徴量fを計算する。画像特徴量fは、ベクトルによって表される。推定部150は、計算した画像特徴量fと、参照ベクトルmとから式(2)によって計算される評価値Jが最適になるように、参照ベクトルmを調整する。具体的には、後述のように、推定部150は、例えば評価値Jの値が-1に近づくように、参照ベクトルmを調整する。
Figure 0007107380000001
ここで関数d(x,y)は、ベクトルxとベクトルyの距離(例えばユークリッド距離など)を計算する関数である。
以下の説明では、参照ベクトルmは、各クラスにM個存在するものとする。すなわち、参照ベクトルの個数は、37個のクラスのそれぞれにM個であり、参照ベクトルの個数の合計は、37×M個である。ただし、参照ベクトルの個数は、各クラスで同一でなくてもよい。本実施形態では、参照ベクトルの個数は、各クラスで共通でありM個である場合について説明する。
式(2)の参照ベクトルmkiは、GLVQにより決定した全ての参照ベクトルの中で、画像特徴量fとの距離が最も近い参照ベクトル、すなわち、画像特徴量fに最も近い参照ベクトルを示す。画像特徴量fに最も近い参照ベクトルが属するクラスをkで表す。参照ベクトルmkiは、クラスkに属するM個の参照ベクトルのうちi番目の参照ベクトルを示す。また、式(2)の参照ベクトルmljは、クラスkに属するM個の参照ベクトルを除き、次にfとの距離が近い参照ベクトルを示す。参照ベクトルmljは、クラスlに属するM個の参照ベクトルのうちj番目の参照ベクトルを示す。
画像特徴量fは、部分画像における輝度の変化の方向と大きさとを、所定の次元数(例えば、数百~数千)で示す。一例では、画像特徴量fは、画像の輝度の勾配に関する画像特徴量を表す。輝度の勾配に関する画像特徴量fとしては、例えば、HOG(Histograms of Oriented Gradients)が知られている。この画像特徴量fは、所定の要素数の列ベクトルによって表される。
参照ベクトルmkiおよびmljは、列ベクトルである。参照ベクトルmkiおよびmljの要素数は、それぞれ、画像特徴量fの要素数のと同じである。したがって、推定部150は、画像特徴量fと、参照ベクトルmkiやmljとの距離を算出することができる。
式(2)の評価値Jは、GLVQにおいて誤分類尺度と呼ばれる。式(2)において、評価値Jは、-1≦J≦+1を満たす。評価値Jが-1に近づくほど、評価値Jは、画像特徴量fがクラスkに属する確度が高いことを示す。
推定部150は、GLVQによる教師あり学習により、最適な参照ベクトルmを決定する。決定した参照ベクトルmは、推定器が角度を推定する際に利用される。上述の推定器の学習は、例えば、参照ベクトルmの決定であってよい。推定器が角度を推定する方法は、例えば、以下で説明する、「粗い角度の推定」による方法であってもよい。推定器が角度を推定する方法は、例えば、以下で説明する、「詳細な角度の推定」による方法であってもよい。
(粗い角度の推定)
推定器は、GLVQにより決定した参照ベクトルmを用いて、人物の方向(すなわち、視線又は顔向き)の角度を推定し、さらに式(2)に従って信頼度を推定する。
具体的には、推定器は、まず、GLVQにより決定した全ての参照ベクトルの中から、抽出された部分画像から計算される画像特徴量fに対する距離が最も近い参照ベクトルを求める。画像特徴量fに対する距離が最も近い参照ベクトルが、クラスKに属する参照ベクトルmKiである場合、取得部110に入力された顔画像の視線又は顔向きの角度は、クラスKの角度の範囲に含まれる。例えば、画像特徴量fに対する距離が最も近い参照ベクトルが8番目のクラスに属する場合、人物の方向(すなわち、視線又は顔向き)は、8番目のクラスの角度の範囲である、水平方向の範囲が-20度から-10度までであり、垂直方向の範囲が-20度から-10度までである範囲に含まれる。
推定器は、画像特徴量fに最も近い参照ベクトルが属するクラスの角度の範囲の中心の角度を、推定の結果として出力してもよい。上述の場合、水平方向の-20度から-10度の範囲の中心の角度は-15度であり、垂直方向の-20度から-10度の範囲の中心の角度も-15度である。推定器は、水平方向に-15度、垂直方向に-15度の方向を、推定した人物の方向(すなわち、視線又は顔向き)としても良い。この場合、推定器によって推定された角度は、ベクトル(g,g)=(-15,-15)である。
次に、推定器は、式(2)に従って、評価値Jを計算する。評価値Jは、前述の通り、-1≦J≦+1を満たす。推定器は、評価値Jの符号を反転した値を信頼度にしても良い。この場合、信頼度は、-Jである。その場合、信頼度は-1から+1の範囲に含まれる。そして、信頼度の値が大きいほど、推定器によって推定された、人物の方向(すなわち、視線又は顔向き)の角度の信頼度が高いことを示す。
(詳細な角度の推定)
推定器は、GLVQにより決定した参照ベクトルmを用いて、後述の式(3)に従ってクラスごとの評価値Jを計算し、計算した評価値Jに基づいて、より詳細な角度を推定しても良い。
具体的には、推定器は、まず、GLVQにより決定された全ての参照ベクトルの中から、抽出された部分画像から計算される画像特徴量fに対する距離が最も近い参照ベクトルを求める。以下では、一例として、画像特徴量fに対する距離が最も近い参照ベクトルが、k=8番目のクラスに属する参照ベクトルであるとする。
次に、推定器は、クラスk=8の周辺のクラスのそれぞれについて、画像特徴量fに距離が最も近い参照ベクトルを求める。クラスkの周辺のクラスは、例えば、クラスkを含む、クラスkの領域の周囲の3x3の領域のクラスである、合計9個のクラスであってよい。例えば、k=8の場合、8番目のクラスの周辺のクラスは、8番目のクラスと、8番目のクラスの角度の領域に、角度の領域が隣接する8つのクラスと、である。本実施形態の例では、8番目のクラスの周辺のクラスは、8番目のクラスを中心として、k=1,2,3,7,8,9、13,14,15の合計9個のクラスである。推定器は、それらのクラスのそれぞれについての、画像特徴量fに対する距離が最も近い参照ベクトルを求める。求められた参照ベクトルは、参照ベクトルmki(k=1,2,3,7,8,9、13,14,15)である。
さらに、推定器は、上述の参照ベクトルmki(k=1,2,3,7,8,9、13,14,15)を用いて、式(3)に従って、8番目のクラスの周辺のクラスの評価値を、それぞれ計算する。計算される評価値は、9個のクラスの評価値J(k=1,2,3,7,8,9、13,14,15)である。
Figure 0007107380000002
式(3)は、式(2)と異なり、分母と分子のそれぞれの第二項が、画像特徴量fと参照ベクトルm0jとの距離である。参照ベクトルm0jは、0番目のクラスの参照ベクトル、すなわち、目や顔以外の領域の画像に対応する負例のクラスに属する参照ベクトルの中で、画像特徴量fに対する距離が最も近い参照ベクトルを示す。
さらに、推定器は、式(3)に従って計算した9個のクラスの評価値J(k=1,2,3,7,8,9、13,14,15)から、人物の方向(すなわち、視線又は顔向き)の詳細な角度と、その角度の信頼度とを計算する。具体的には、推定器は、9つのクラスの評価値Jを、クラスの角度の領域の配置に従って3行3列(以下、3×3とも表記)に並べる。推定器は、3×3の形に並んだ評価値Jを評価値の曲面とみなして、その評価値の曲面に二次曲面をフィッティングし、得られた二次曲面の頂点を求める。推定器は、求めた頂点が示す角度を、人物の方向(すなわち、視線又は顔向き)の詳細な方向として推定する。推定器は、さらに、推定した人物の方向の信頼度(すなわち、求めた頂点が示す角度の信頼度)を計算する。
推定部150は、抽出された部分画像の各々について、推定器によって人物の方向と信頼度とを推定し、推定された、人物の方向と信頼度と(具体的には、人物の方向と信頼度とを表すデータ)を統合部160に送出する。上述のように、推定部150は、人物の方向として、視線および顔向きの双方を推定してもよい。その場合、推定部150は、視線を示す角度の信頼度と、顔向きの角度の信頼度とを、別々に推定してよい。そして、推定部150は、視線を示す角度の信頼度と、顔向きの角度の信頼度とを、統合部160に送出する。
<統合部160>
統合部160は、推定部150によって推定された人物の方向(すなわち、視線又は顔向き)と信頼度とを示すデータ(以下「推定データ」とも表記する)を、推定部150から受け取る。統合部160は、受け取った推定データに含まれる人物の方向を、推定データに含まれる信頼度に基づいて統合する。なお、上述のように、人物の方向は、角度によって表されている。統合部160は、推定部150から、視線の方向及び顔向きの両方を受け取ってもよい。その場合、統合部160は、視線の方向と、顔向きとを、別々に統合する。
統合部160は、具体的には以下のように、人物の方向を信頼度に基づいて統合する。統合部160は、推定部150により推定された人物の方向(すなわち、角度によって表されている視線又は顔向き)のうち、信頼度が所定の閾値より高い、人物の方向を示す角度を特定してもよい。そして、統合部160は、特定した、人物の方向を示す角度の平均を、統合された、人物の方向(すなわち、視線又は顔向き)を示す角度として算出してもよい。
また、統合部160は、例えば、まず、信頼度を正規化してもよい。具体的には、統合部160は、まず、最も低い信頼度の値が0になるように、全ての信頼度に、最も低い信頼度の値の符号を逆転させた値を加算してもよい。統合部160は、さらに、正規化された信頼度の総和が1になるように、信頼度の総和によってすべての信頼度を割ることにより、信頼度を正規化してもよい。そして、統合部160は、正規化された信頼度を重みとみなし、全ての、人物の方向(すなわち、視線又は顔向き)を表す角度の重み付き平均を、統合された人物の方向(すなわち、視線又は顔向き)を表す角度として算出してもよい。具体的には、統合部160は、人物の方向を表す角度の各々について、角度とその角度の積を算出し、算出した積の総和を算出してよい。
統合部160は、信頼度が最も高い、人物の方向を示す角度を、統合された、人物の方向を示す角度にしてもよい。
統合部160は、統合された、人物の方向(すなわち、視線又は顔向き)を示すデータを、出力部170に送出する。
<出力部170>
出力部170は、統合部160によって統合された視線又は顔向きを示すデータ(以下「統合データ」とも表記する)を、統合部160から受け取る。出力部170は、統合データを出力する。推定データは、例えば、統合部160により統合された、人物の方向(すなわち、視線又は顔向き)を、所定のフォーマットに従って表すデータである。具体的には、出力部170は、推定データを、例えば、表示装置等の他の装置に出力してもよい。すなわち、出力部170は、推定データを、他の装置に供給してもよい。
統合データを表示装置に出力する場合、出力部170は、人物の方向を表すマークを、入力画像に重畳し、人物の方向を表すマークが重畳された入力画像(出力画像とも表記)を、表示装置に出力してもよい。
例えば、視線の方向を表す統合データを表示装置に出力する場合、出力部170は、例えば、視線の方向を表す、例えば矢印などのマークを、入力画像の、抽出された瞳の中心に基づく位置に重畳し、マークが重畳された入力画像を、表示装置に出力してもよい。抽出された瞳の中心に基づく位置は、例えば、右目の瞳の位置と左目の瞳の位置とを結ぶ線分の中点であってもよい。抽出された瞳の中心に基づく位置は、例えば、上述の中点から、視線の方向に所定距離離れた点であってもよい。上述のマークが矢印である場合、出力部170は、上述の中点、または、中点から視線の方向に所定距離離れた点が起点である矢印を、入力画像に重畳してもよい。
顔向きを表す統合データを表示装置に出力する場合、出力部170は、顔向きを表す、例えば矢印などのマークを、入力画像の、顔の特徴点に基づく位置に重畳し、マークが重畳された入力画像を、表示装置に出力してもよい。顔の特徴点に基づく位置は、例えば、鼻の頭頂部を示す点であってもよい。顔の特徴点に基づく位置は、例えば、鼻の頭頂部を示す点から、顔向きの方向に所定距離離れた点であってもよい。マークが矢印である場合、出力部170は、例えば、顔の特徴点に基づく位置が起点である矢印を、入力画像に重畳してもよい。
出力部170は、統合データが、視線の方向を示すマークと、顔向きを示すマークとを、入力画像に重畳してもよい。
出力部170は、推定データを、推定装置100に含まれる記憶媒体や、推定装置100と通信可能に接続されている記憶装置に書き込んでもよい。
次に、推定装置100の動作について説明する。上述の構成を備えた推定装置100は、例えば、以下で説明するように動作する。ただし、推定装置100の具体的な動作は、以下で説明する動作の例に限定されない。
<視線又は顔向きの推定方法(推定装置100の動作例)>
図6は、本実施形態の推定装置100の動作の例を表すフローチャートである。言い換えると、図6は、本実施形態に係る推定装置100が実行する、人物の方向(視線及び顔向きの少なくとも一方)を推定する推定方法を示すフローチャートである。推定装置100は、例えば、図6に示す各ステップの処理を、図6に示すフローにしたがって順番に実行することにより、顔画像から人物の方向を推定してもよい。
推定装置100は、例えば、ユーザによって指定されたタイミングや、他の装置から入力画像が送信されたタイミングなどの適当なタイミングで、図6に示される処理を開始することができる。この例において、推定装置100に入力される画像データは、人物の顔を含む。画像上の座標は、所定の位置(例えば、画像の中心)を原点とする直交座標系によって表される。
まず、取得部110は、入力画像を取得する(ステップS101)。
次に、取得部110は、取得した入力画像から、顔の領域を抽出する(ステップS102)。取得部110は、1つの、顔の領域が、1つの顔を含むように、顔の領域を検出してよい。取得部110は、入力画像から、1つ以上の、顔の領域を抽出してよい。取得部110は、入力画像の、抽出した顔の領域の画像から、顔画像を生成する。取得部110は、1つまたは複数の顔画像を生成してよい。顔画像の各々は、1つの人物の顔を含む。
検出部120は、ステップS102において生成された顔画像に含まれる顔の部位の特徴点を検出する(ステップS103)。
摂動部130は、ステップS103において計算された顔の特徴点の情報を用いて、検出された特徴点に基づいて定まる領域(具体的には、領域の位置又は大きさ)に加える摂動の大きさ(すなわち、摂動量)を計算する(ステップS104)。摂動量は、複数の変動を表す値を含んでいてもよい。
抽出部140は、ステップS102において生成された顔画像と、ステップS104で計算された摂動量から、検出された特徴点に基づいて定まる領域に摂動を加えることによって得られる領域における、顔画像の部分画像を抽出する(ステップS105)。抽出部140は、検出された特徴点に基づいて定まる領域から抽出される部分画像を含む、複数の部分画像を抽出してもよい。抽出部140は、顔画像の、検出された特徴点に基づいて定まる領域に、摂動量が表す複数の変動をそれぞれ加えることによって得られる、複数の部分画像を抽出してもよい。
推定部150は、事前に機械学習を行った推定器を用いて、ステップS105で生成された複数の部分画像のそれぞれにから、人物の方向(すなわち、視線又は顔向き)と信頼度とを推定する(ステップS106)。
統合部160は、推定部150により推定された人物の方向(すなわち視線又は顔向き)を、信頼度に基づいて統合する(ステップS107)。
出力部170は、統合部160によって統合された人物の方向を表す、推定データを出力する(ステップS108)。推定データは、例えば、表示装置に出力されることによって可視化される。推定データは、数値で表示されてもよいし、顔画像に重畳された、視線の方向を示す矢印によって表示されてもよい。
<変形例>
第1実施形態は、例えば、以下の変形例のように変形できる。以下で説明する変形例の2つ以上を、適宜組み合わせることも可能である。
(変形例1)
右目および左目の中心などの特徴点の位置や、部分画像が抽出される領域の位置を、ユーザが入力してもよい。この場合、推定装置100は、特徴点を検出する必要がなく、また部分画像を生成する必要がない。
(変形例2)
部分画像の形状は、必ずしも矩形に限定されない。部分画像から、顔の一部(例えば、人物の方向の推定に直接的に影響しない、眉などの部分)が、除外されていてもよい。また、視線の推定に使用される部分画像は、片目(左目または右目)のみを含む部分画像ではなく、両目を含む部分画像であってもよい。
(変形例3)
推定装置100により推定された視線や顔向きの用途は特に限定されない。例えば、推定装置100は、店舗に設置された監視カメラによって撮像された人物の視線を推定し、推定した視線から不審人物を判定するシステムに適用されてもよい。
推定装置100は、情報が表示された画面に対するユーザの視線を推定し、推定された視線に基づいて、ユーザの興味及び関心を推測するシステムに適用されてもよい。そのほかにも、推定装置100は、視線の動きによって操作することが可能な電子機器に適用されてもよい。推定装置100は、自動車等の運転支援に適用されてもよい。
(変形例4)
推定装置100の具体的なハードウェア構成には、さまざまなバリエーションが含まれてよく、特定の構成に限定されない。例えば、推定装置100は、ソフトウェアを用いて実現されてもよい。推定装置100は、複数のハードウェアが、それぞれ、複数の処理のいずれかを分担するように構成されてもよい。なお、本変形例の構成に関して、後の他の実施形態の説明において詳細に説明する。
<第1実施形態の効果>
本実施形態に係る推定装置100は、部分画像が抽出される領域の位置や大きさなどに摂動を加えることによって得られる複数の領域から複数の部分画像を抽出する。推定装置100は、抽出した複数の部分画像から人物の方向(すなわち、視線又は顔向き)を推定する。推定装置100は、推定した人物の方向を信頼度に基づいて統合することで、人物の方向(例えば、視線又は顔向き)の推定の結果を得る。推定装置100は、このようにして、領域に摂動を加えることによって得られる領域から抽出された複数の部分画像に基づく推定結果を信頼度に応じて統合することによって、頑健(ロバスト)な推定結果を安定して得ることができる。
<第2実施形態>
次に、本開示の第2実施形態について、図面を参照して詳細に説明する。
<第2実施形態の構成>
図7は、本実施形態の推定装置101の構成の例を表すブロック図である。
図7に示すように、本実施形態の推定装置101は、摂動部130と、推定部150と、統合部160と、を備える。
摂動部130は、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する。推定部150は、前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する。統合部160は、推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する。
<第2実施形態の動作>
図8は、本実施形態の推定装置101の動作の例を表すフローチャートである。
図8に示す動作では、摂動部130が、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する(ステップS201)。本実施形態の摂動部130は、第1の実施形態の摂動部130と同様に動作してよい。
次に、推定部150は、顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、複数の方向の各々の信頼度とを推定する(ステップS202)。本実施形態の推定部150は、第1実施形態の推定部150と同様に、部分画像に基づいて方向と信頼度とを推定するように、予め学習させておいた推定器によって、方向と信頼度とを推定してよい。
さらに、統合部160は、推定された信頼度に基づいて、複数の方向が統合された統合方向を算出する(ステップS203)。統合部160は、第1実施形態の統合部160と同様の方法によって、信頼度に基づいて複数の方向を統合してよい。
<効果>
本実施形態の推定装置101は、人物の画像における視線や顔向きを推定する精度の、画像の状態による低下を抑制することができる。
その理由は、摂動部130が、顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成するからである。そして、推定部150が、生成された複数の抽出領域から、方向とその方向の信頼度とを推定するからである。さらに、統合部160が、推定部150によって推定された信頼度に基づいて、推定部150によって推定された複数の方向が統合された統合方向を算出する。顔画像から抽出された特徴点の位置が不正確である場合、その位置に基づいて定まる抽出領域から抽出される部分画像は、方向の推定に適さないことがある。そのような場合であっても、抽出領域に摂動を加えることによって得られる抽出領域のいずれかの部分画像が、方向の推定に適する可能性がある。方向の推定に適さない部分画像から抽出された方向より、方向の推定に適する部分画像を含む複数の部分画像から抽出された複数の方向を、方向の信頼度に基づいて統合することによって得られる方向の方が、精度が高いことが期待される。従って、推定装置100は、人物の画像における視線や顔向きを推定する精度の、画像の状態による低下を抑制することができる。
<他の実施形態>
第1の実施形態の推定装置100は、プログラムがロードされたメモリと、そのプログラムを実行するプロセッサとを含む、コンピュータによって実現できる。推定装置100は、互いに通信可能に接続されている複数のコンピュータによっても実現できる。推定装置100は、専用のハードウェアによっても実現できる。推定装置100は、上述のコンピュータと専用のハードウェアとの組み合わせによっても実現できる。
同様に、第2の実施形態の推定装置101は、プログラムがロードされたメモリと、そのプログラムを実行するプロセッサとを含む、コンピュータによって実現できる。推定装置101は、互いに通信可能に接続されている複数のコンピュータによっても実現できる。推定装置101は、専用のハードウェアによっても実現できる。推定装置101は、上述のコンピュータと専用のハードウェアとの組み合わせによっても実現できる。以下では、さらに詳しく説明する。
図9は、推定装置100及び推定装置101を実現できるコンピュータ300のハードウェア構成の一例を示すブロック図である。コンピュータ300は、CPU(Central Processing Unit)301と、ROM(Read Only Memory)302と、RAM(Random Access Memory)303と、記憶装置304と、ドライブ装置305と、通信インタフェース306と、入出力インタフェース307とを含む。
CPU301は、RAM303にロードされたプログラム308を実行する。プログラム308は、ROM302に記憶されていてもよい。また、プログラム308は、メモリカード等の記憶媒体309に記録され、ドライブ装置305によって読み出されてもよい。プログラム308は、外部装置から、通信ネットワーク310を介して、コンピュータ300へと送信されてもよい。通信インタフェース306は、通信ネットワーク310を介して外部装置とデータをやり取りする。入出力インタフェース307は、周辺機器(例えば、入力装置、表示装置など)とデータをやり取りする。通信インタフェース306および入出力インタフェース307は、データを取得及び出力するための構成要素として機能できる。
推定装置100の構成要素は、RAM303などのメモリにロードされた、推定装置100の構成要素の機能を実現するプログラム308などのプログラムを実行するCPU301等のプロセッサによって実現できる。推定装置100の構成要素は、例えば、取得部110、検出部120、摂動部130、抽出部140、推定部150、統合部160、及び、出力部170である。
推定装置101の構成要素は、RAM303などのメモリにロードされた、推定装置101の構成要素の機能を実現するプログラム308などのプログラムを実行するCPU301等のプロセッサによって実現できる。推定装置100の構成要素は、例えば、摂動部130、推定部150、及び、統合部160である。
推定装置100の構成要素は、単一の回路(circuitry)(例えばプロセッサ等)によって実現されてもよい。推定装置100の構成要素は、複数の回路の組み合わせによって実現されてもよい。回路及び複数の回路は、専用の回路であってもよく、汎用の回路であってもよい。例えば、推定装置100は、一部が専用の回路によって実現され、他の部分が汎用の回路によって実現されてもよい。
推定装置101の構成要素は、単一の回路(circuitry)(例えばプロセッサ等)によって実現されてもよい。推定装置101の構成要素は、複数の回路の組み合わせによって実現されてもよい。回路及び複数の回路は、専用の回路であってもよく、汎用の回路であってもよい。例えば、推定装置101は、一部が専用の回路によって実現され、他の部分が汎用の回路によって実現されてもよい。
推定装置100及び推定装置101を実現するコンピュータは、単体のコンピュータである必要はない。推定装置100の構成要素及び推定装置101の構成要素は、複数のコンピュータに分散して設けられてもよい。例えば、推定装置100及び推定装置100は、クラウドコンピューティング技術を用いて、複数のコンピュータ装置の協働によって実現されてもよい。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動手段と、
前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定手段と、
推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合手段と、
を備える推定装置。
(付記2)
前記摂動手段は、前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
付記1に記載の推定装置。
(付記3)
前記摂動手段は、前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
付記1又は2に記載の推定装置。
(付記4)
前記摂動は、前記抽出領域の大きさの変更、前記抽出領域の位置の変更、前記抽出領域の角度の変更、及び、前記抽出領域から抽出される部分画像に対する画像処理の少なくともいずれかである
付記1乃至3のいずれか1項に記載の推定装置。
(付記5)
入力画像を取得し、当該入力画像から前記顔画像を抽出する取得手段と、
前記顔画像から前記特徴点を抽出する抽出手段と、
前記統合方向を出力する出力手段と、
をさらに備える付記1乃至4のいずれか1項に記載の推定装置。
(付記6)
前記推定手段は、前記顔の複数の方向と、前記視線の複数の方向とを推定し、
前記統合手段は、前記顔の複数の方向が統合された統合顔方向と、前記視線の複数の方向が統合された統合視線方向とを算出し、
前記出力手段は、前記統合顔方向を示す第1のマークと、前記統合視線方向を示す第2のマークとを、前記入力画像に重畳し、前記第1のマークと第2のマークとが重畳された前記入力画像を出力する
付記5に記載の推定装置。
(付記7)
顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成し、
前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定し、
推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する、
推定方法。
(付記8)
前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
付記7に記載の推定方法。
(付記9)
前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
付記7又は8に記載の推定方法。
(付記10)
前記摂動は、前記抽出領域の大きさの変更、前記抽出領域の位置の変更、前記抽出領域の角度の変更、及び、前記抽出領域から抽出される部分画像に対する画像処理の少なくともいずれかである
付記7乃至9のいずれか1項に記載の推定方法。
(付記11)
入力画像を取得し、当該入力画像から前記顔画像を抽出する、
前記顔画像から前記特徴点を抽出し、
前記統合方向を出力する
付記7乃至10のいずれか1項に記載の推定方法。
(付記12)
前記顔の複数の方向と、前記視線の複数の方向とを推定し、
前記顔の複数の方向が統合された統合顔方向と、前記視線の複数の方向が統合された統合視線方向とを算出し、
前記統合顔方向を示す第1のマークと、前記統合視線方向を示す第2のマークとを、前記入力画像に重畳し、前記第1のマークと第2のマークとが重畳された前記入力画像を出力する
付記11に記載の推定方法。
(付記13)
コンピュータに、
顔画像から抽出された特徴点の位置に基づいて定まる部分画像の抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動処理と、
前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定処理と、
推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合処理と、
を実行させるプログラムを記憶する記憶媒体。
(付記14)
前記摂動処理は、前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
付記13に記載の記憶媒体。
(付記15)
前記摂動処理は、前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
付記13又は14に記載の記憶媒体。
(付記16)
前記摂動は、前記抽出領域の大きさの変更、前記抽出領域の位置の変更、前記抽出領域の角度の変更、及び、前記抽出領域から抽出される部分画像に対する画像処理の少なくともいずれかである
付記13乃至15のいずれか1項に記載の記憶媒体。
(付記17)
コンピュータに、
入力画像を取得し、当該入力画像から前記顔画像を抽出する取得処理と、
前記顔画像から前記特徴点を抽出する抽出処理と、
前記統合方向を出力する出力処理と、
をさらに実行させる付記13乃至16のいずれか1項に記載の記憶媒体。
(付記18)
前記推定処理は、前記顔の複数の方向と、前記視線の複数の方向とを推定し、
前記統合処理は、前記顔の複数の方向が統合された統合顔方向と、前記視線の複数の方向が統合された統合視線方向とを算出し、
前記出力処理は、前記統合顔方向を示す第1のマークと、前記統合視線方向を示す第2のマークとを、前記入力画像に重畳し、前記第1のマークと第2のマークとが重畳された前記入力画像を出力する
付記17に記載の記憶媒体。
以上、本開示の実施形態を説明した。しかし、本発明は、これらの実施形態に限定されない。本発明は、本発明のスコープ内において、当業者が把握し得るさまざまな変形又は応用を適用した実施の形態を含み得る。また、本発明は、本明細書に記載された事項を必要に応じて適宜組み合わせ、又は置換した実施の形態を含み得る。例えば、特定の実施形態を用いて説明された事項は、矛盾を生じない範囲において、他の実施形態に対しても適用し得る。
100 推定装置
101 推定装置
110 取得部
120 検出部
130 摂動部
140 抽出部
150 推定部
160 統合部
170 出力部
300 コンピュータ
301 CPU
302 ROM
303 RAM
304 記憶装置
305 ドライブ装置
306 通信インタフェース
307 入出力インタフェース
308 プログラム
309 記憶媒体
310 通信ネットワーク
400 顔画像
410 部分画像
411 部分画像
420 部分画像
421 部分画像
430 部分画像

Claims (10)

  1. 顔画像から抽出された特徴点の位置に基づいて定まる部分画像が抽出される抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動手段と、
    前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定手段と、
    推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合手段と、
    を備え
    前記摂動は、前記抽出領域の範囲への変動を含む
    推定装置。
  2. 前記摂動手段は、前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
    請求項1に記載の推定装置。
  3. 前記摂動手段は、前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
    請求項1又は2に記載の推定装置。
  4. 前記摂動は、前記抽出領域の大きさの変更、前記抽出領域の位置の変更、前記抽出領域の角度の変更、及び、前記抽出領域から抽出される部分画像に対する画像処理の少なくともいずれかを含む
    請求項1乃至3のいずれか1項に記載の推定装置。
  5. 入力画像を取得し、当該入力画像から前記顔画像を抽出する取得手段と、
    前記顔画像から前記特徴点を抽出する抽出手段と、
    前記統合方向を出力する出力手段と、
    をさらに備える請求項1乃至4のいずれか1項に記載の推定装置。
  6. 前記推定手段は、前記顔の複数の方向と、前記視線の複数の方向とを推定し、
    前記統合手段は、前記顔の複数の方向が統合された統合顔方向と、前記視線の複数の方向が統合された統合視線方向とを算出し、
    前記出力手段は、前記統合顔方向を示す第1のマークと、前記統合視線方向を示す第2のマークとを、前記入力画像に重畳し、前記第1のマークと第2のマークとが重畳された前記入力画像を出力する
    請求項5に記載の推定装置。
  7. 顔画像から抽出された特徴点の位置に基づいて定まる部分画像が抽出される抽出領域に摂動を加えることにより、複数の抽出領域を生成し、
    前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定し、
    推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出し、
    前記摂動は、前記抽出領域の範囲への変動を含む
    推定方法。
  8. 前記特徴点の位置に基づいて、当該特徴点の位置に基づいて定まる抽出領域に加える前記摂動を決定する
    請求項7に記載の推定方法。
  9. 前記顔画像から前記顔の領域である顔領域を抽出し、当該顔領域から前記特徴点を抽出し、抽出した前記特徴点の位置に基づいて前記顔のサイズを推定し、推定した前記サイズに基づいて、前記摂動を決定する
    請求項7又は8に記載の推定方法。
  10. コンピュータに、
    顔画像から抽出された特徴点の位置に基づいて定まる部分画像が抽出される抽出領域に摂動を加えることにより、複数の抽出領域を生成する摂動処理と、
    前記顔画像の複数の抽出領域における複数の部分画像に基づいて、顔及び視線の少なくとも一方の、複数の方向と、当該複数の方向の各々の信頼度とを推定する推定処理と、
    推定された前記信頼度に基づいて、前記複数の方向が統合された統合方向を算出する統合処理と、
    を実行させ
    前記摂動は、前記抽出領域の範囲への変動を含む
    プログラム。
JP2020547686A 2018-09-26 2018-09-26 推定装置、推定方法、およびプログラム Active JP7107380B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/035785 WO2020065790A1 (ja) 2018-09-26 2018-09-26 推定装置、推定方法、および記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2020065790A1 JPWO2020065790A1 (ja) 2021-09-24
JP7107380B2 true JP7107380B2 (ja) 2022-07-27

Family

ID=69953429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020547686A Active JP7107380B2 (ja) 2018-09-26 2018-09-26 推定装置、推定方法、およびプログラム

Country Status (4)

Country Link
US (5) US20220036581A1 (ja)
EP (1) EP3858235A4 (ja)
JP (1) JP7107380B2 (ja)
WO (1) WO2020065790A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6760318B2 (ja) * 2018-03-14 2020-09-23 オムロン株式会社 顔画像識別システム、識別器生成装置、識別装置、画像識別システム、及び識別システム
TWI768852B (zh) 2021-04-28 2022-06-21 緯創資通股份有限公司 人體方向之偵測裝置及人體方向之偵測方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007781A1 (fr) 2006-07-14 2008-01-17 Panasonic Corporation Dispositif de détection de la direction d'axe visuel et procédé de détection de la direction de ligne visuelle
JP2010211613A (ja) 2009-03-11 2010-09-24 Omron Corp 情報処理装置及び方法、プログラム、並びに情報処理システム
JP2012037934A (ja) 2010-08-03 2012-02-23 Canon Inc 視線検出装置、視線検出方法及びプログラム
JP2012038106A (ja) 2010-08-06 2012-02-23 Canon Inc 情報処理装置、情報処理方法、およびプログラム
WO2016093459A1 (en) 2014-12-11 2016-06-16 Lg Electronics Inc. Mobile terminal and control method thereof
US20170293354A1 (en) 2016-04-09 2017-10-12 Beihang University Calculation method of line-of-sight direction based on analysis and match of iris contour in human eye image
WO2018008575A1 (ja) 2016-07-05 2018-01-11 日本電気株式会社 不審者検出装置、不審者検出方法およびプログラム
WO2018078857A1 (ja) 2016-10-31 2018-05-03 日本電気株式会社 視線推定装置、視線推定方法及びプログラム記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4829141B1 (ja) 1969-01-25 1973-09-07
JP3695990B2 (ja) 1999-05-25 2005-09-14 三菱電機株式会社 顔画像処理装置
JP4826506B2 (ja) 2007-02-27 2011-11-30 日産自動車株式会社 視線推定装置
JP2009059257A (ja) 2007-09-03 2009-03-19 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
WO2010035472A1 (ja) * 2008-09-26 2010-04-01 パナソニック株式会社 視線方向判定装置及び視線方向判定方法
US8891880B2 (en) * 2009-10-16 2014-11-18 Nec Corporation Person clothing feature extraction device, person search device, and processing method thereof
JP5406705B2 (ja) 2009-12-28 2014-02-05 キヤノン株式会社 データ補正装置及び方法
EP2579210A4 (en) 2010-05-26 2018-01-17 Nec Corporation Face feature-point position correction device, face feature-point position correction method, and face feature-point position correction program
JP5856100B2 (ja) 2013-04-19 2016-02-09 株式会社ユニバーサルエンターテインメント 遊技機および遊技機の管理方法
WO2015056466A1 (ja) * 2013-10-16 2015-04-23 オリンパスイメージング株式会社 表示装置、画像生成装置、表示方法およびプログラム
US9760935B2 (en) * 2014-05-20 2017-09-12 Modiface Inc. Method, system and computer program product for generating recommendations for products and treatments
JP6874772B2 (ja) * 2016-11-25 2021-05-19 日本電気株式会社 画像生成装置、画像生成方法、およびプログラム
US10963675B2 (en) * 2019-01-30 2021-03-30 Realnetworks, Inc. Method for selecting images in video of faces in the wild
CN111192241B (zh) * 2019-12-23 2024-02-13 深圳市优必选科技股份有限公司 一种人脸图像的质量评估方法、装置及计算机存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007781A1 (fr) 2006-07-14 2008-01-17 Panasonic Corporation Dispositif de détection de la direction d'axe visuel et procédé de détection de la direction de ligne visuelle
JP2010211613A (ja) 2009-03-11 2010-09-24 Omron Corp 情報処理装置及び方法、プログラム、並びに情報処理システム
JP2012037934A (ja) 2010-08-03 2012-02-23 Canon Inc 視線検出装置、視線検出方法及びプログラム
JP2012038106A (ja) 2010-08-06 2012-02-23 Canon Inc 情報処理装置、情報処理方法、およびプログラム
WO2016093459A1 (en) 2014-12-11 2016-06-16 Lg Electronics Inc. Mobile terminal and control method thereof
US20170293354A1 (en) 2016-04-09 2017-10-12 Beihang University Calculation method of line-of-sight direction based on analysis and match of iris contour in human eye image
WO2018008575A1 (ja) 2016-07-05 2018-01-11 日本電気株式会社 不審者検出装置、不審者検出方法およびプログラム
WO2018078857A1 (ja) 2016-10-31 2018-05-03 日本電気株式会社 視線推定装置、視線推定方法及びプログラム記録媒体

Also Published As

Publication number Publication date
JPWO2020065790A1 (ja) 2021-09-24
US20220180554A1 (en) 2022-06-09
EP3858235A1 (en) 2021-08-04
US20220036581A1 (en) 2022-02-03
US20230360433A1 (en) 2023-11-09
EP3858235A4 (en) 2021-09-08
US20220180555A1 (en) 2022-06-09
WO2020065790A1 (ja) 2020-04-02
US20220180556A1 (en) 2022-06-09

Similar Documents

Publication Publication Date Title
EP3539054B1 (en) Neural network image processing apparatus
US11775056B2 (en) System and method using machine learning for iris tracking, measurement, and simulation
Shreve et al. Macro-and micro-expression spotting in long videos using spatio-temporal strain
US9098760B2 (en) Face recognizing apparatus and face recognizing method
TWI383325B (zh) 臉部表情辨識
US8761459B2 (en) Estimating gaze direction
US9117111B2 (en) Pattern processing apparatus and method, and program
US7912253B2 (en) Object recognition method and apparatus therefor
US11232586B2 (en) Line-of-sight estimation device, line-of-sight estimation method, and program recording medium
US20230360433A1 (en) Estimation device, estimation method, and storage medium
US9858501B2 (en) Reliability acquiring apparatus, reliability acquiring method, and reliability acquiring program
Xia et al. SDM-based means of gradient for eye center localization
Dahmane et al. Learning symmetrical model for head pose estimation
JP7040539B2 (ja) 視線推定装置、視線推定方法、およびプログラム
Vezhnevets et al. Automatic extraction of frontal facial features
Hong et al. Lightweight, low-cost, side-mounted mobile eye tracking system
Rabba et al. Discriminative robust gaze estimation using kernel-dmcca fusion
JP7255721B2 (ja) 視線推定装置、視線推定方法、およびプログラム
Niese et al. Robust facial expression recognition based on 3-d supported feature extraction and SVM classification
JP7103443B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210315

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220627

R151 Written notification of patent or utility model registration

Ref document number: 7107380

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151