JP7103443B2 - Information processing equipment, information processing methods, and programs - Google Patents
Information processing equipment, information processing methods, and programs Download PDFInfo
- Publication number
- JP7103443B2 JP7103443B2 JP2021000498A JP2021000498A JP7103443B2 JP 7103443 B2 JP7103443 B2 JP 7103443B2 JP 2021000498 A JP2021000498 A JP 2021000498A JP 2021000498 A JP2021000498 A JP 2021000498A JP 7103443 B2 JP7103443 B2 JP 7103443B2
- Authority
- JP
- Japan
- Prior art keywords
- sight
- line
- image
- estimation
- estimators
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本開示は、視線推定装置等に関する。 The present disclosure relates to a line-of-sight estimation device and the like.
人間の視線(目の向き)は、その人物の行動や意図を解析する上で重要な手掛かりとなり得る。そのため、人間の視線に関する情報を推定する技術、特に人間の顔を含む画像(以下「顔画像」ともいう。)に基づいて視線を推定する技術が広く検討されている。 The line of sight (eye orientation) of a person can be an important clue in analyzing the behavior or intention of the person. Therefore, a technique for estimating information on the human line of sight, particularly a technique for estimating the line of sight based on an image including a human face (hereinafter, also referred to as a "face image") has been widely studied.
顔画像に基づいて視線を推定する技術として、例えば、特許文献1~3、非特許文献1~2に記載された技術がある。特許文献1は、画像に含まれる特徴点(画像特徴点)を用いる特徴点ベースの方法(feature-based methods)の一例を開示している。また、特許文献2及び非特許文献2は、物体の見え方(appearance)を利用するアピアランスベースの方法(appearance-based methods)の一例を開示している。非特許文献1は、瞳の虹彩の形状を楕円で近似することにより視線を推定する方法を開示している。 As a technique for estimating the line of sight based on a face image, for example, there are techniques described in Patent Documents 1 to 3 and Non-Patent Documents 1 and 2. Patent Document 1 discloses an example of feature-based methods using feature points (image feature points) included in an image. Further, Patent Document 2 and Non-Patent Document 2 disclose an example of appearance-based methods that utilize the appearance of an object. Non-Patent Document 1 discloses a method of estimating the line of sight by approximating the shape of the iris of the pupil with an ellipse.
上述のように、視線の推定にはさまざまな方法が用いられ、それぞれに特徴がある。しかし、いずれの方法にも、顔の向きや照明の明るさなどが特定の条件である場合において、推定の精度が低下する可能性がある。 As mentioned above, various methods are used to estimate the line of sight, and each has its own characteristics. However, in either method, the accuracy of estimation may decrease when the orientation of the face, the brightness of the illumination, or the like is a specific condition.
本開示の例示的な目的は、画像に基づく視線推定の精度を向上させる技術を提供することにある。 An exemplary object of the present disclosure is to provide techniques for improving the accuracy of image-based gaze estimation.
本開示の一態様の情報処理装置は、条件が異なる複数の画像を学習した学習結果を用いて、対象画像に含まれる対象の視線を複数推定する推定部と、その条件と、対象画像に関する条件とに基づいて、対象の視線を決定する決定部と、を備える。 The information processing apparatus of one aspect of the present disclosure uses a learning result of learning a plurality of images having different conditions to estimate a plurality of lines of sight of a target included in the target image, the conditions thereof, and conditions related to the target image. Based on the above, a determination unit for determining the line of sight of the target is provided.
本開示の一態様の情報処理方法においては、コンピュータが、条件が異なる複数の画像を学習した学習結果を用いて、対象画像に含まれる対象の視線を複数推定し、その条件と、対象画像に関する条件とに基づいて、対象の視線を決定する。 In one aspect of the information processing method of the present disclosure, a computer estimates a plurality of lines of sight of a target included in a target image by using learning results obtained by learning a plurality of images having different conditions, and the conditions and the target image are related. The line of sight of the target is determined based on the conditions.
本開示の一態様のプログラムは、条件が異なる複数の画像を学習した学習結果を用いて、対象画像に含まれる対象の視線を複数推定する処理と、その条件と、対象画像に関する条件とに基づいて、対象の視線を決定する処理と、をコンピュータに実行させる。 The program of one aspect of the present disclosure is based on a process of estimating a plurality of lines of sight of a target included in a target image by using learning results obtained by learning a plurality of images having different conditions, the conditions, and conditions related to the target image. Then, the computer is made to execute the process of determining the line of sight of the target.
本開示によれば、画像に基づく視線推定の精度が向上する。 According to the present disclosure, the accuracy of line-of-sight estimation based on images is improved.
[第1実施形態]
図1は、一の実施形態に係る視線推定装置100の構成を示すブロック図である。視線推定装置100は、顔画像に含まれる視線を推定するための装置である。視線推定装置100は、推定部110と、決定部120とを少なくとも含む。ただし、視線推定装置100は、必要に応じて他の構成要素を含んでもよい。
[First Embodiment]
FIG. 1 is a block diagram showing a configuration of a line-of-
ここにおいて、顔画像とは、人間の顔の一部又は全部を含む画像をいう。顔画像は、撮像装置(監視カメラ、電子機器の内蔵カメラ等)によって撮像された画像である。顔画像は、このような撮像された画像そのものであってもよいし、撮像された画像の一部、すなわち撮像された画像から顔に相当する領域が抽出された画像であってもよい。 Here, the face image means an image including a part or all of a human face. The face image is an image captured by an imaging device (surveillance camera, built-in camera of electronic device, etc.). The face image may be the captured image itself, or may be a part of the captured image, that is, an image in which a region corresponding to the face is extracted from the captured image.
推定部110は、顔画像に含まれる顔の視線を推定する。例えば、推定部110は、顔画像に含まれる目の領域を推定することにより、視線、すなわち人間の目が見ている方向(より正確には向き)を推定する。推定部110による視線の推定方法は、周知のいずれの方法であってもよい。例えば、推定部110は、教師あり学習などの機械学習を用いることにより視線を推定することができる。具体的には、推定部110は、あらかじめ収集された顔画像を用いて顔画像と視線の関係を学習してもよい。
The
推定部110は、顔画像に含まれる顔の視線を複数の推定器で推定する。換言すれば、推定部110は、単一の顔画像に対して複数の推定方法を用いて視線を推定する。複数の推定器により推定される視線は、その方向が異なり得る。したがって、推定部110により推定される視線は、複数通りある。
The
複数の推定器は、それぞれ、顔画像に含まれる顔の視線を所定のアルゴリズムに基づいて推定する。複数の推定器は、それぞれ別異の回路によって実現されてもよいが、単一の回路によって実現されてもよい。複数の推定器は、ソフトウェアを用いて実現されてもよい。 Each of the plurality of estimators estimates the line of sight of the face included in the face image based on a predetermined algorithm. The plurality of estimators may be realized by different circuits, or may be realized by a single circuit. The plurality of estimators may be implemented using software.
視線の推定が機械学習により行われる場合、推定器の相違は、事前の学習に用いられるデータの相違によって生じ得る。すなわち、推定部110は、あるデータセットを用いた学習と、別のデータセットを用いた学習のそれぞれに基づいて視線を推定してもよい。事前の学習に用いられるデータセットが異なれば、当該データセットに基づく視線の推定結果も異なり得る。
When the line-of-sight estimation is performed by machine learning, the difference in the estimator can be caused by the difference in the data used for the prior learning. That is, the
決定部120は、顔画像に含まれる顔の視線を決定する。具体的には、決定部120は、推定部110による視線の推定結果に基づいて視線を決定する。換言すれば、決定部120は、推定部110により推定された複数の視線(すなわち複数の方向)に基づいて、単一の方向を決定する。
The
より詳細には、決定部120は、推定部110により推定された複数の視線と、第1の条件情報と、第2の条件情報とに基づいて視線を決定する。第1の条件情報は、顔画像の撮像に関する条件を少なくとも含む。換言すれば、第1の条件情報は、顔画像が撮像装置によりどのように撮像されたかを示す情報を含む。第1の条件情報は、物理量等を表す数値によってこのような条件を表してもよい。
More specifically, the
一例として、第1の条件情報は、撮像装置と被写体たる人物との相対的な位置関係を示す情報であってもよい。具体的には、第1の条件情報は、撮像装置と人物との距離や、人物の顔の高さを基準とした撮像装置の高さを示してもよい。あるいは、第1の条件情報は、撮像装置の性能を示す情報であってもよい。具体的には、第1の条件情報は、撮像装置の光学系のパラメータ(画角等)を示してもよい。 As an example, the first condition information may be information indicating the relative positional relationship between the image pickup apparatus and the person who is the subject. Specifically, the first condition information may indicate the distance between the image pickup device and the person and the height of the image pickup device based on the height of the face of the person. Alternatively, the first condition information may be information indicating the performance of the image pickup apparatus. Specifically, the first condition information may indicate parameters (angle of view, etc.) of the optical system of the image pickup apparatus.
また、第1の条件情報は、撮像装置の設置角度を示してもよい。ここにおいて、撮像装置の設置角度とは、撮像される人物の顔の方向と撮像装置の光軸方向とがなす角度をいう。ここでいう顔の方向は、顔画像に基づいて算出されてもよいし、あらかじめ決められてもよい。例えば、ある通路を通行する不特定多数の人物を撮像装置によって撮像する場合、顔の方向は、その通路を通行する人物の平均的又は典型的な顔の方向としてもよい。この場合、顔の方向は、通路の進行方向と一致する可能性が高い。なお、設置角度は、水平角と仰俯角(鉛直角ともいう。)によって表されてもよいし、鉛直角を省略して水平角のみで表されてもよい。 Further, the first condition information may indicate the installation angle of the imaging device. Here, the installation angle of the image pickup device means an angle formed by the direction of the face of the person to be imaged and the direction of the optical axis of the image pickup device. The direction of the face referred to here may be calculated based on the face image or may be determined in advance. For example, when an unspecified number of people passing through a certain passage are imaged by an imaging device, the direction of the face may be the average or typical face direction of the person passing through the passage. In this case, the direction of the face is likely to coincide with the direction of travel of the passage. The installation angle may be represented by a horizontal angle and an elevation / depression angle (also referred to as a vertical angle), or may be represented only by the horizontal angle without the vertical angle.
一方、第2の条件情報は、推定部110の複数の推定器のそれぞれに対応する条件を少なくとも含む。第2の条件情報が表す条件は、第1の条件情報が表す条件と比較可能である。例えば、事前に収集された顔画像のデータセットに基づく機械学習に基づいて視線が推定される場合、第2の条件情報が表す条件は、当該データセットに含まれる顔画像を撮像した際の撮像装置と人物との距離、撮像装置の設置角度又は画角(又はこれらのいずれかの平均値)であってもよい。
On the other hand, the second condition information includes at least the conditions corresponding to each of the plurality of estimators of the
決定部120は、第1の条件情報と第2の条件情報とを比較することによって視線を決定することができる。例えば、決定部120は、顔画像が撮像された際の条件と、推定部110により推定された複数の視線に対応する複数の条件(換言すれば、当該複数の視線の推定に用いられた複数の推定器に対応する複数の条件)とを比較する。決定部120は、これらの比較結果に基づいて視線を決定する。
The
具体的には、決定部120は、推定部110により推定された複数の視線のうち、第2の条件情報により表される条件が、第1の条件情報により表される条件により近い視線に近付くように視線を決定する。例えば、決定部120は、推定部110により推定された複数の視線に対し、第1の条件情報と第2の条件情報との比較結果に応じた重みを付与した重み付き演算(重み付き加算、加重平均等)を実行することによって視線を決定してもよい。なお、決定部120は、第1の条件情報と第2の条件情報とを比較し、一定の基準を満たさない推定結果を除外した上で上記の重み付き演算を実行してもよい。
Specifically, the
図2は、本実施形態に係る視線推定方法を示すフローチャートである。視線推定装置100は、このフローチャートに従って処理を実行することにより、顔画像に含まれる顔の視線を推定することができる。
FIG. 2 is a flowchart showing a line-of-sight estimation method according to the present embodiment. The line-of-
ステップS11において、推定部110は、顔画像に基づいて複数の視線を推定する。より詳細には、推定部110は、1つの顔画像に対して複数の推定器を適用することにより、複数の視線を推定結果として算出する。換言すれば、推定部110は、複数通りの方法で視線を推定するともいえる。
In step S11, the
ステップS12において、決定部120は、ステップS11において推定された複数の視線に基づいて、一の視線を決定する。より詳細には、決定部120は、第1の条件情報と第2の条件情報とに基づいて、ステップS11の推定に用いられた顔画像に対応する視線を決定する。
In step S12, the
以上のとおり、本実施形態の視線推定装置100は、顔画像に含まれる顔の視線を複数の推定器で推定し、推定された複数の視線に基づいて一の視線を決定する構成を有する。この構成は、単一の推定器を用いて視線を推定する場合に比べ、推定の精度が低下する可能性を低減させることが可能である。したがって、視線推定装置100によれば、視線推定の精度を向上させることが可能である。
As described above, the line-of-
視線推定の精度は、さまざまな要因によって変動し得る。例えば、視線推定の精度は、顔画像の撮像に関する条件によって変動し得る。具体的には、視線推定の精度は、被写体たる人物と撮像装置との相対的な位置関係(顔の向きなど)によって変動し得る。また、視線推定の精度は、撮像装置そのものの性能や、明るさ等の照明の条件などによっても変動し得る。また、視線推定の精度は、その推定方法によっては特定の条件下において低下する可能性がある。 The accuracy of line-of-sight estimation can vary due to a variety of factors. For example, the accuracy of line-of-sight estimation may vary depending on the conditions for capturing a facial image. Specifically, the accuracy of the line-of-sight estimation may vary depending on the relative positional relationship (face orientation, etc.) between the person who is the subject and the imaging device. In addition, the accuracy of line-of-sight estimation may vary depending on the performance of the imaging device itself, lighting conditions such as brightness, and the like. In addition, the accuracy of line-of-sight estimation may decrease under certain conditions depending on the estimation method.
視線推定装置100は、複数の推定器を用いて推定された複数の視線に基づいて視線を決定することにより、単一の推定器を用いたことに起因する精度の低下を抑制することが可能である。したがって、視線推定装置100によれば、顔画像が撮像された条件に対して頑健(ロバスト)な推定結果を得ることが可能である。換言すれば、視線推定装置100は、さまざまな条件下で撮像された顔画像に対して良好な視線推定を実現することが可能である。
The line-of-
[第2実施形態]
図3は、別の実施形態に係るデータ処理装置200の構成を示すブロック図である。データ処理装置200は、第1実施形態の視線推定装置100の一例に相当する。データ処理装置200は、画像取得部210と、条件取得部220と、領域抽出部230と、視線推定部240と、統合部250と、出力部260とを含む。
[Second Embodiment]
FIG. 3 is a block diagram showing a configuration of a
データ処理装置200は、画像に基づいて視線を推定するための装置である。ここでいう画像は、静止画と動画のいずれであってもよい。例えば、動画に基づいて視線を推定する場合、動画のある期間には顔画像が含まれ、別の期間には顔画像が含まれない可能性がある。このような場合、データ処理装置200は、顔画像が含まれる期間の画像について視線を推定し、顔画像が含まれない期間の画像について視線を推定しない(推定結果を出力しない)ように構成されてもよい。
The
画像取得部210は、画像を取得する。例えば、画像取得部210は、他の装置から画像データを受け付けることにより画像を取得する。ここでいう他の装置は、監視カメラ等の撮像装置であってもよいし、複数の画像データが記録されたデータベース等の記憶装置であってもよい。画像取得部210は、領域抽出部230に画像データを供給する。
The
ここでいう画像データは、画像が複数の画素の輝度値によって表現されたデータである。画像データの画素数、色数(色成分の数)、階調数などは、特定の数値に限定されない。画像取得部210により取得される画像データは、画素数や色数があらかじめ決められていてもよいが、そうでなくてもよい。説明の便宜上、以下においては、画像取得部210により取得される画像データを「入力画像データ」ともいう。
The image data referred to here is data in which the image is represented by the luminance values of a plurality of pixels. The number of pixels, the number of colors (the number of color components), the number of gradations, and the like of image data are not limited to specific numerical values. The number of pixels and the number of colors of the image data acquired by the
説明の便宜上、以下においては、1つの画像データには1つの顔画像のみが含まれ得るとし、複数の顔画像が含まれていないものとする。ただし、データ処理装置200は、1つの画像データに複数の顔画像が含まれる場合には、当該複数の顔画像のそれぞれに対して後述される処理を実行すれば足りる。
For convenience of explanation, in the following, it is assumed that one image data may include only one face image and does not include a plurality of face images. However, when one image data includes a plurality of face images, the
画像取得部210は、入力された画像データをそのまま領域抽出部230に供給してもよいが、入力された画像データを加工してから領域抽出部230に供給してもよい。例えば、画像取得部210は、画像データにより表される画像から人間の顔を検出することにより、当該画像の一部である顔画像を表す画像データを生成し、生成された画像データを領域抽出部230に供給してもよい。
The
あるいは、画像取得部210は、画像の色数や階調数が所定の数値になるように画像データを変換してから領域抽出部230に供給してもよい。例えば、画像取得部210は、R(赤)、G(緑)、B(青)などの複数の色成分によりカラー画像を表す画像データを、単一成分のグレースケール画像を表す画像データに変換してもよい。
Alternatively, the
条件取得部220は、カメラ情報を取得する。カメラ情報は、画像取得部210により取得される画像の撮像条件を含むデータである。ここでいう撮像条件は、例えば、撮像装置の設置角度である。そのほか、撮像条件は、撮像装置のレンズのパラメータ(画角など)や、推定される撮像時の視線の範囲を含み得る。カメラ情報は、第1実施形態の第1の条件情報の一例に相当する。
The
カメラ情報は、画像データとともに入力されてもよい。例えば、カメラ情報は、画像データに含まれるメタデータとして記述されていてもよい。あるいは、カメラ情報は、ユーザの操作によって入力されてもよい。この場合、条件取得部220は、キーボードやタッチスクリーンディスプレイを介してユーザの操作を受け付ける。
The camera information may be input together with the image data. For example, the camera information may be described as metadata included in the image data. Alternatively, the camera information may be input by a user operation. In this case, the
領域抽出部230は、画像データから特定の領域を抽出する。領域抽出部230は、視線推定部240による視線の推定に必要な領域を抽出する。本実施形態において、領域抽出部230は、顔画像のうち特に目の周辺領域を抽出する。以下においては、領域抽出部230により抽出される領域のことを「目領域」という。目領域は、例えば、人間の両目を含む所定のサイズの長方形である。
The
領域抽出部230は、一般的な顔画像に特有の画像特徴に基づいて目領域を抽出することが可能である。領域抽出部230は、例えば、虹彩(いわゆる瞳)、強膜(いわゆる白目)、内眼角(いわゆる目頭)、外眼角(いわゆる目尻)、眉毛などを検出することにより目領域を抽出することができる。目領域の抽出には、例えば特許文献3に記載された方法など、周知の特徴点検出手法を用いることができる。
The
領域抽出部230は、視線の推定方法に応じた前処理を実行してもよい。例えば、領域抽出部230は、抽出された目領域が水平でない場合、すなわち目領域における右目の中心の高さと左目の中心の高さとが一致しない場合に、右目と左目が水平に位置するように画像を回転してもよい。また、領域抽出部230は、目領域のサイズが一定のサイズになるように画像を拡大又は縮小してもよい。画像の回転処理、拡大処理(すなわち補間処理)及び縮小処理(すなわち間引き処理)には、周知の画像処理が適用可能である。このような画像処理を実行すると、目領域の縮尺や傾きが安定することによりこれらを学習する必要がなくなるため、視線の推定精度を向上させることが可能である。
The
視線推定部240は、顔画像に含まれる顔の視線を推定する。視線推定部240は、より詳細には、視線推定器2411、2412、・・・、241nを含む。ここにおけるnの値、すなわち視線推定器の総数は、「2」以上であれば特定の数値に限定されない。以下において、視線推定器2411、2412、・・・、241nは、それぞれが区別される必要がない場合には、「視線推定器241」と総称される。視線推定部240は、第1実施形態の推定部110の一例に相当する。
The line-of-
視線推定器241は、領域抽出部230により抽出された目領域を用いて視線を推定する。本実施形態において、視線推定器241は、顔画像に含まれる目の視線を機械学習によりあらかじめ学習し、その学習結果を用いて視線を推定するように構成されている。
The line-of-sight estimator 241 estimates the line of sight using the eye region extracted by the
視線推定器2411、2412、・・・、241nは、視線の推定方法がそれぞれ異なる。例えば、視線推定器2411、2412、・・・、241nは、機械学習においてサンプルとして用いられる顔画像がそれぞれ異なる。あるいは、視線推定器2411、2412、・・・、241nは、機械学習のアルゴリズムがそれぞれ異なっていてもよい。 The line-of - sight estimators 241, 241, ..., 241 n have different line-of-sight estimation methods. For example, the line-of-sight estimators 241, 241, ..., 241 n have different facial images used as samples in machine learning. Alternatively, the line-of - sight estimators 241, 241, ..., 241 n may have different machine learning algorithms.
統合部250は、視線推定部240、より詳細には視線推定器2411、2412、・・・、241nにより推定された推定結果を統合する。換言すれば、統合部250は、視線推定器2411、2412、・・・、241nにより推定された複数の視線に基づき、単一の方向の視線を決定する。統合部250は、第1実施形態の決定部120の一例に相当する。
The
統合部250は、カメラ情報及び学習情報に基づいて複数の視線を統合する。ここにおいて、学習情報は、視線推定器2411、2412、・・・、241nのそれぞれの学習に関する条件を含むデータである。学習情報は、例えば、視線推定器2411、2412、・・・、241nのそれぞれの学習に用いられた撮像装置の撮像条件を表す。学習情報は、データ処理装置200に記憶されているものとする。学習情報は、第1実施形態の第2の条件情報の一例に相当する。
The
統合部250は、視線推定器2411、2412、・・・、241nのそれぞれに対して決定される重みを用いた重み付き演算により、視線推定器2411、2412、・・・、241nのそれぞれにより推定された複数の視線を統合する。このとき、統合部250は、カメラ情報及び学習情報を用いることにより、それぞれの視線に対する重みを決定することができる。統合部250による重み付き演算は、後述の動作例において詳細に説明される。
The
出力部260は、統合部250により統合された視線を示すデータ(以下「視線データ」ともいう。)を出力する。視線データは、例えば、統合部250により統合された視線、換言すれば統合部250により決定された方向を所定の規則に従って表す。出力部260による出力は、視線データを表示装置等の他の装置に供給することであってもよく、データ処理装置200に含まれる記憶媒体に視線データを書き込むことであってもよい。
The
データ処理装置200の構成は、以上のとおりである。この構成の下、データ処理装置200は、画像データに基づいて視線を推定する。データ処理装置200は、例えば、以下の動作例のように動作する。ただし、データ処理装置200の具体的な動作は、この動作例に限定されない。
The configuration of the
図4は、データ処理装置200の動作例を示すフローチャートである。データ処理装置200は、例えば、ユーザによって指定されたタイミングや、他の装置から画像データが送信されたタイミングなどの適当なタイミングで、図4に示される処理を実行することができる。この例において、画像データにより表される画像は、顔画像を含むものとする。また、カメラ情報及び学習情報は、撮像装置の設置角度であるとする。また、ここでいう画像の座標は、所定の位置を原点とする直交座標系によって表されるものとする。
FIG. 4 is a flowchart showing an operation example of the
ステップS21において、画像取得部210は、画像データを取得する。ステップS22において、条件取得部220は、カメラ情報を取得する。なお、ステップS21及びS22の処理は、図4と逆の順序で実行されてもよく、同時に(すなわち並列的に)実行されてもよい。
In step S21, the
ステップS23において、領域抽出部230は、ステップS21において取得された画像データを用いて目領域を抽出する。この例において、領域抽出部230は、右目の虹彩の中心の座標と左目の虹彩の中心の座標とを特定する。領域抽出部230は、これらの座標に基づいて目領域を決定する。説明の便宜上、以下においては、右目の虹彩の中心の座標を「右目の中心座標」、左目の虹彩の中心の座標を「左目の中心座標」ともいう。
In step S23, the
具体的には、領域抽出部230は、右目の中心座標と左目の中心座標とを結ぶ線分の中点を目領域の中心とする。領域抽出部230は、右目の中心座標と左目の中心座標とを結ぶ線分の長さ(以下「瞳孔間距離(interpupillary distance)」ともいう。)の2倍の長さを目領域の幅とし、瞳孔間距離の0.75倍の長さを目領域の高さとする。領域抽出部230は、このように決定された中心、幅、高さによって規定される矩形の領域を目領域として画像から切り出す。
Specifically, the
また、領域抽出部230は、後続の処理が容易になるように、目領域の傾き、幅及び高さを補正する前処理を実行してもよい。より詳細には、領域抽出部230は、右目の中心座標と左目の中心座標が水平でなければ、これらの座標を水平にし、目領域の幅方向及び高さ方向の画素数が所定の画素数でなければ、目領域を拡大又は縮小する。
In addition, the
図5は、顔画像の一例を示す図である。図6は、この顔画像から抽出される目領域の一例を示す図である。図6に示される目領域600は、図5に示される顔画像500の一部に相当する。具体的には、目領域600は、顔画像500のうちの破線で囲まれた領域510に相当する。ただし、目領域600は、上述の前処理が実行された場合には、その画素数や傾きが領域510と必ずしも一致しない。
FIG. 5 is a diagram showing an example of a face image. FIG. 6 is a diagram showing an example of an eye region extracted from this face image. The
ステップS24において、視線推定部240は、ステップS23において抽出された目領域に基づいて視線を推定する。視線推定部240は、事前に学習された視線推定器2411~241nを用いて視線を推定する。この例において、視線推定器2411~241nは、目領域から検出される画像特徴量に基づいて視線を推定する。
In step S24, the line-of-
この例における画像特徴量は、画像の輝度の勾配に関する特徴量である。輝度の勾配に関する特徴量としては、例えば、HOG(Histograms of Oriented Gradients)特徴量が知られている。この例における画像特徴量は、目領域における輝度の変化の方向と大きさとを所定の次元数(例えば、数百~数千)で示す。以下において、この画像特徴量は、所定の要素数の列ベクトルfによっても表現される。 The image feature amount in this example is a feature amount related to the gradient of the brightness of the image. As a feature amount related to the gradient of brightness, for example, a HOG (Histograms of Oriented Gradients) feature amount is known. The image feature amount in this example indicates the direction and magnitude of the change in brightness in the eye region by a predetermined number of dimensions (for example, hundreds to thousands). In the following, this image feature amount is also represented by a column vector f having a predetermined number of elements.
視線推定器2411~241nは、以下の式(1)を用いて視線(gx,gy)を算出する。ここにおいて、視線(gx,gy)は、顔の向きを基準とした視線の向きを水平角と仰俯角とによって示す。このうち、gxは、水平角を表し、-90≦gx≦90を満たす(単位は[deg])。また、gyは、仰俯角を表し、-90≦gy≦90を満たす(単位は[deg])。 The line-of-sight estimators 241 1 to 241 n calculate the line-of-sight (g x , gy ) using the following equation (1). Here, the line of sight (g x , gy ) indicates the direction of the line of sight with respect to the direction of the face by a horizontal angle and an elevation / depression angle. Of these, g x represents the horizontal angle and satisfies −90 ≦ g x ≦ 90 (unit is [deg]). Further, gy represents an elevation / depression angle and satisfies −90 ≦ gy ≦ 90 (unit is [deg]).
視線(gx,gy)は、(gx,gy)=(0,0)である場合を基準、すなわち顔に対して真正面を向いている視線であるとし、真正面からの視線のずれを水平角と仰俯角とによって表す。例えば、視線が真上を向いている場合に(gx,gy)=(0,+90)であり、視線が真下を向いている場合に(gx,gy)=(0,-90)である。また、視線が真横(右)を向いている場合に(gx,gy)=(+90,0)であり、視線が真横(左)を向いている場合に(gx,gy)=(-90,0)である。 The line of sight (g x , gy ) is based on the case where (g x , gy ) = (0,0), that is, the line of sight is facing directly in front of the face, and the line of sight is deviated from the front. Is represented by the horizontal angle and the elevation / depression angle. For example, (g x , gy ) = (0, +90) when the line of sight is directly upward, and (g x , gy ) = (0, -90) when the line of sight is directly downward. ). Further, when the line of sight is directed to the side (right), (g x , gy) = (+90,0), and when the line of sight is directed to the side (left), (g x , gy ) = . (-90,0).
なお、ここでいう正面の向きは、顔画像により表される顔の向きに依存する。すなわち、ここでいう正面は、顔の向きに応じて変化する。したがって、撮像された人物が実際に目で見ている方向は、視線(gx,gy)のみによっては特定されず、視線(gx,gy)と当該人物の顔の向きとによって特定される。 The front orientation referred to here depends on the orientation of the face represented by the face image. That is, the front surface referred to here changes according to the direction of the face. Therefore, the direction actually seen by the photographed person is not specified only by the line of sight (g x , gy ), but is specified by the line of sight (g x , gy ) and the direction of the person's face. Will be done.
式(1)において、ux、uyは、重みベクトルである。重みベクトルux、uyは、各々が画像特徴量fと同じ要素数の行ベクトルであり、画像特徴量fとの内積が算出可能である。重みベクトルux、uyは、視線推定器2411~241n毎に異なり得る。重みベクトルux、uyは、サポートベクトル回帰や最小二乗法による線形回帰などの周知の手法によって事前に学習可能である。視線推定器2411~241nにおける学習は、一般に、ステップS23と同様に抽出された目領域の画像と、当該画像の実際の視線を示す情報(すなわち正解の情報)との組を多数用意して実行される。 In equation (1), u x and u y are weight vectors. Each of the weight vectors u x and u y is a row vector having the same number of elements as the image feature amount f, and the inner product with the image feature amount f can be calculated. The weight vectors u x and u y can be different for each line-of-sight estimator 241 1 to 241 n . The weight vectors u x and u y can be learned in advance by well-known methods such as support vector regression and linear regression by the least squares method. For learning in the line-of-sight estimators 241 1 to 241 n , in general, a large number of sets of an image of the eye region extracted as in step S23 and information indicating the actual line-of-sight of the image (that is, correct answer information) are prepared. Is executed.
この例において、視線推定器2411~241nは、撮像条件が異なる目領域の画像をそれぞれ用いて学習が実行される。具体的には、視線推定器2411~241nの学習には、設置角度が異なる撮像装置により撮像された目領域の画像がそれぞれ用いられる。 In this example, the line-of-sight estimators 241 1 to 241 n perform learning using images of eye regions having different imaging conditions. Specifically, for learning the line-of-sight estimators 241 1 to 241 n , images of the eye region captured by imaging devices having different installation angles are used.
図7は、目領域の画像の撮像条件を説明するための概念図である。ここにおいて、視線推定器241の数(すなわちnの値)は、「4」であるとする。図7の例において、カメラ710、720、730、740は、人物700の顔画像を撮像する撮像装置である。カメラ710は、顔画像を右上方から撮像する。カメラ720は、顔画像を左上方から撮像する。カメラ730は、顔画像を右下方から撮像する。カメラ740は、顔画像を左下方から撮像する。なお、人物700は、画像毎に異なる人物であってもよいし、いずれの画像においても同一の人物であってもよい。また、人物700は、撮像時は同じ方向(正面)を向いているものとする。
FIG. 7 is a conceptual diagram for explaining the imaging conditions of the image in the eye region. Here, the number of the line-of-sight estimator 241 (that is, the value of n) is assumed to be "4". In the example of FIG. 7, the
視線推定器2411は、カメラ710により撮像された顔画像を学習に用いる。視線推定器2412は、カメラ720により撮像された顔画像を学習に用いる。視線推定器2413は、カメラ730により撮像された顔画像を学習に用いる。視線推定器2414は、カメラ740により撮像された顔画像を学習に用いる。そうすると、視線推定器2411~2414は、学習に用いられた顔画像に対応する撮像装置の設置角度が互いに異なることになる。
The line-of -
視線推定器2411~241nは、機械学習の条件(ここでは、学習に用いられた顔画像の撮像条件)が異なるため、同一の目領域の画像を用いて視線を推定しても推定結果が異なり得る。換言すると、視線推定器2411~241nは、式(1)における重みベクトルux、uyが互いに異なり得るゆえに、画像特徴量fの値が同一であっても視線(gx,gy)が異なる可能性がある。以下においては、視線推定器2411により推定された視線を(g(1)
x,g(1)
y)、視線推定器2412により推定された視線を(g(2)
x,g(2)
y)、・・・、視線推定器241nにより推定された視線を(g(n)
x,g(n)
y)ともいう。
Since the line-of-sight estimators 241 1 to 241 n have different machine learning conditions (here, the imaging conditions of the face image used for learning), the estimation result is obtained even if the line-of-sight is estimated using images of the same eye region. Can be different. In other words, in the line-of-sight estimators 241 1 to 241 n , since the weight vectors ux and yy in the equation (1) can be different from each other, the line-of-sight (g x , gy ) even if the values of the image feature values f are the same. ) May be different. In the following, the line of sight estimated by the line - of-
ステップS25において、統合部250は、ステップS24において推定された視線(g(1)
x,g(1)
y)~(g(n)
x,g(n)
y)を統合する。すなわち、統合部250は、ステップS24において推定された視線(g(1)
x,g(1)
y)~(g(n)
x,g(n)
y)に基づいて単一の視線を算出する。ここにおいて、統合部250は、カメラ情報と学習情報とに基づいて重みを算出する。カメラ情報及び学習情報は、ここでは、撮像装置の設置角度である。
In step S25, the integrating
統合部250は、以下の式(2)を用いて視線推定器241iに対応する重みwiを算出する。ここにおいて、ci、cj及びctは、いずれも撮像装置の設置角度を表すベクトルである。ci(又はcj)は、視線推定器241i(又は241j)の学習に用いられた複数の顔画像が表す顔の方向のそれぞれと当該顔画像を撮像した撮像装置の光軸方向とがなす角度の平均値を示す。一方、ctは、入力画像データに含まれる顔画像が表す顔の方向と当該顔画像を撮像した撮像装置の光軸方向とがなす角度を示す。ci、cjは、学習情報の一例である。一方、ctは、カメラ情報の一例である。また、αは、0より大きい適当な係数である。
The
例えば、n=2、すなわち視線推定器241の数が2つであるとすると、重みw1、w2は、以下の式(3)、(4)によって表すことができる。なお、重みwiは、学習情報ciとカメラ情報ctとの差が小さいほど大きくなる。 For example, assuming that n = 2, that is, the number of line-of-sight estimators 241 is two , the weights w1 and w2 can be expressed by the following equations ( 3 ) and (4). The weight w i increases as the difference between the learning information c i and the camera information c t becomes smaller.
統合部250は、重みwiをこのように算出した後、以下の式(5)に従って視線(Gx,Gy)を算出する。式(5)が示すとおり、視線(Gx,Gy)は、視線(g(1)
x,g(1)
y)~(g(n)
x,g(n)
y)の加重平均である。なお、式(5)の右辺の分母は、ここでは「1」である(式(2)参照)。
After calculating the weight wi in this way, the integrating
ステップS26において、出力部260は、統合部250により算出された視線(Gx,Gy)を示す視線データを出力する。この視線データは、例えば、表示装置によって可視化される。視線データにより示される視線は、数値で表示されてもよいし、視線を示す矢印を顔画像に重ねて表示されてもよい。
In step S26, the
図8は、本実施形態の効果の一例を示す図である。この例において、視線推定器241の数は、2つである。この例は、2つの注視点を順に見つめる1人の被験者を撮像した動画を用いて視線を推定した例である。なお、視線推定器2411に対応する学習情報(設置角度)は、(+2.3[deg],+5.5[deg])である。また、視線推定器2412に対応する学習情報(設置角度)は、(+1.2[deg],-22.7[deg])である。また、カメラ情報(設置角度)は、(0[deg],0[deg])である。係数αは、ここでは「0.04」である。
FIG. 8 is a diagram showing an example of the effect of the present embodiment. In this example, the number of line-of-sight estimators 241 is two. This example is an example in which the line of sight is estimated using a moving image of one subject looking at two gazing points in order. The learning information (installation angle) corresponding to the line - of-
図8において、グラフ810は、視線推定器2411により推定された視線(g(1)
x,g(1)
y)を表す。グラフ820は、視線推定器2412により推定された視線(g(2)
x,g(2)
y)を表す。グラフ830は、統合部250により統合された視線(Gx,Gy)を表す。グラフ840は、被験者の実際の視線を表す。
In FIG. 8,
図8に示されるように、統合部250により統合された視線(Gx,Gy)は、視線推定器2411により推定された視線(g(1)
x,g(1)
y)及び視線推定器2412により推定された視線(g(2)
x,g(2)
y)に比べ、実際の視線との誤差が少ない。したがって、データ処理装置200は、単一の視線推定器241を用いる場合に比べ、視線推定の精度が向上しているといえる。
As shown in FIG. 8, the line of sight (G x , G y ) integrated by the
この例において、グラフ810、すなわち視線(g(1)
x,g(1)
y)とグラフ820、すなわち視線(g(2)
x,g(2)
y)とを比較すると、視線(g(1)
x,g(1)
y)の方が実際の視線(グラフ840)に近い推定結果であるといえる。ここで、カメラ情報と視線推定器2411、2412に対応する学習情報とを比較すると、視線推定器2411に対応する学習情報の方が、カメラ情報との差が小さいといえる。本実施形態の重み付き加算(式(2)~(5)参照)によれば、学習情報とカメラ情報との差が小さい視線推定器241ほど重みwiが大きくなる。したがって、視線データが表す視線、すなわち最終的な推定結果は、撮像条件に含まれる設置角度がより近い視線推定器241により推定された視線に近付く。
In this example, comparing
この例において、視線推定器241の推定精度は、事前の学習における撮像条件と、データ処理装置200による推定対象である顔画像、すなわち入力画像データが表す顔画像の撮像条件とに依存するといえる。より詳細には、視線推定器241の推定精度は、事前の学習における顔画像と撮像装置との相対的な位置関係(設置角度)と、推定対象である顔画像と当該顔画像を撮像した撮像装置との相対的な位置関係(設置角度)との近似する程度に依存するといえる。しかしながら、推定対象である顔画像と撮像装置との相対的な位置関係は、常に一定であるとは限らず、撮像方法によってはまちまちになる場合もある。
In this example, it can be said that the estimation accuracy of the line-of-sight estimator 241 depends on the imaging conditions in the prior learning and the imaging conditions of the face image to be estimated by the
本実施形態の視線推定方法によれば、式(2)~(5)のような重み付き加算を実行することで、異なる撮像条件を用いて学習された複数の視線推定器241による推定結果を統合することができる。したがって、本実施形態の視線推定方法によれば、入力画像データが表す顔画像の撮像条件と複数の視線推定器241の事前の学習における撮像条件とが一致していなくても、精度が良い視線推定が可能である。加えて、本実施形態の視線推定方法によれば、入力画像データが表す顔画像と撮像装置との相対的な位置関係が一定でなくても、精度が良い視線推定が可能である。 According to the line-of-sight estimation method of the present embodiment, by executing the weighted addition as in the equations (2) to (5), the estimation results by the plurality of line-of-sight estimators 241 learned using different imaging conditions can be obtained. Can be integrated. Therefore, according to the line-of-sight estimation method of the present embodiment, even if the image pickup condition of the face image represented by the input image data and the image pickup condition in the prior learning of the plurality of line-of-sight estimators 241 do not match, the line-of-sight with good accuracy It can be estimated. In addition, according to the line-of-sight estimation method of the present embodiment, it is possible to perform line-of-sight estimation with good accuracy even if the relative positional relationship between the face image represented by the input image data and the imaging device is not constant.
以上のとおり、本実施形態のデータ処理装置200は、顔画像に含まれる顔の視線を複数の視線推定器241で推定し、推定された複数の視線を統合する構成を有する。この構成により、データ処理装置200は、第1実施形態の視線推定装置100と同様の作用効果を奏することができる。
As described above, the
また、データ処理装置200は、撮像条件を表す学習情報とカメラ情報とに応じて決定される重みに従った重み付き演算を実行することによって視線を統合する構成を有する。この構成は、複数の視線推定器241により推定された複数の視線に対し、撮像条件に応じた重みを付与することを可能にする。したがって、データ処理装置200は、このような重みを付与しない場合に比べ、視線推定の精度を向上させることが可能である。
Further, the
さらに、データ処理装置200は、撮像条件を表す学習情報及びカメラ情報の比較結果に応じた重みを決定する構成を有する。データ処理装置200は、より詳細には、複数の視線推定器241により推定された複数の視線に対し、視線推定器241の学習時における撮像装置の設置角度が入力画像データにより表される顔画像を撮像した撮像装置の設置角度に近いものほど重みを大きくする。このような構成により、データ処理装置200は、出力される視線データが表す視線を、設置角度がより近い視線推定器241により推定された視線に近付けることが可能である。
Further, the
[変形例]
上述された実施形態は、例えば、以下のような変形を適用することができる。これらの変形例は、必要に応じて適宜組み合わせることも可能である。
[Modification example]
For example, the following modifications can be applied to the above-described embodiment. These modifications can be combined as needed.
(変形例1)
決定部120は、周知の顔向き推定技術を用いることによって顔の方向を推定することが可能である。決定部120は、このように推定された顔の方向と、撮像装置の光軸方向とがなす角度とに基づいて撮像装置の設置角度を算出してもよい。
(Modification example 1)
The
(変形例2)
カメラ情報及び学習情報は、顔画像の撮像に用いられた撮像装置の種類を示す情報を含んでもよい。ここでいう撮像装置の種類は、例えば、撮像装置の機種や、撮像装置が感度を有する光の波長帯を表す。
(Modification 2)
The camera information and the learning information may include information indicating the type of the imaging device used for capturing the facial image. The type of the image pickup apparatus referred to here represents, for example, the model of the image pickup apparatus and the wavelength band of light having the sensitivity of the image pickup apparatus.
例えば、可視光により撮像する可視光カメラと近赤外光により撮像する近赤外光カメラとが撮像装置に含まれる場合がある。このような場合において、視線推定器241の学習に用いられる撮像装置にも可視光カメラと近赤外光カメラとが含まれるときには、入力される顔画像の撮像に用いられた撮像装置と学習に用いられた撮像装置とに異同が生じる可能性がある。例えば、入力される顔画像の撮像に用いられた撮像装置が近赤外光カメラであれば、学習に用いられた撮像装置が近赤外光カメラである視線推定器241による推定結果の方が信頼できる(すなわち精度が保証される)可能性が高いといえる。 For example, the image pickup apparatus may include a visible light camera that captures images with visible light and a near-infrared light camera that captures images with near-infrared light. In such a case, when the image pickup device used for learning the line-of-sight estimator 241 also includes a visible light camera and a near-infrared light camera, the image pickup device used for capturing the input face image and learning Differences may occur with the imaging device used. For example, if the image pickup device used to capture the input face image is a near-infrared light camera, the estimation result by the line-of-sight estimator 241 whose image pickup device used for learning is a near-infrared light camera is better. It can be said that it is likely to be reliable (that is, accuracy is guaranteed).
このような場合、統合部250は、入力される顔画像の撮像に用いられた撮像装置と学習に用いられた撮像装置の種類とが一致する視線推定器241iに対応する重みwiを大きくし、そうでない視線推定器241iに対応する重みwiを小さくする。このようにすれば、入力される顔画像の撮像に用いられた撮像装置と同種の撮像装置が学習に用いられている視線推定器241iの推定結果を視線データにより強く反映させることが可能である。
In such a case, the
また、カメラ情報及び学習情報は、撮像装置の光学系のパラメータであってもよい。例えば、カメラ情報及び学習情報は、レンズの水平方向及び垂直方向の画角をパラメータとして含んでもよい。この場合、統合部250は、このようなパラメータを要素とするベクトルをカメラ情報及び学習情報として用いて、式(2)と同様の計算によって重みを算出することが可能である。
Further, the camera information and the learning information may be parameters of the optical system of the imaging device. For example, the camera information and the learning information may include the horizontal and vertical angles of view of the lens as parameters. In this case, the
(変形例3)
第2実施形態における重み付き演算の方法は、上述の動作例に限定されない。例えば、統合部250は、式(2)により算出された重みwiの一部を用いずに視線(g(1)
x,g(1)
y)~(g(n)
x,g(n)
y)を統合してもよい。具体的には、統合部250は、重みwiのうちの所定の閾値以上であるもの(又は値が大きい順に所定数のもの)以外のものを「0」に置換してもよい。この置換は、重みwiのうち最終的な推定結果に与える影響が少ないものを切り捨てることに相当する。また、この場合において、統合部250は、切り捨て後の重みwiの総和が「1」になるように各重みの比率(式(2)の分母)を再計算してもよい。
(Modification example 3)
The method of weighted operation in the second embodiment is not limited to the above-mentioned operation example. For example, the
また、統合部250は、式(2)において、exp(-α||ci-ct||)に代えて、||ci-ct||の増加に対して単調減少する別の関数を用いてもよい。例えば、統合部250は、以下の式(6)を用いて重みwiを算出してもよい。ここにおいて、max(a,b)は、a、bのうちのより大きい値を返す関数を表す。また、βは、0以上の定数である。
Further, in the equation (2), the
あるいは、統合部250は、視線(g(1)
x,g(1)
y)~(g(n)
x,g(n)
y)の一部を切り捨ててから式(5)の視線(Gx,Gy)を算出してもよい。例えば、統合部250は、視線(g(1)
x,g(1)
y)~(g(n)
x,g(n)
y)に外れ値が含まれる場合に、外れ値を除外して式(5)の計算を実行してもよい。外れ値に相当する視線は、推定に失敗した視線であると考えられるためである。ここでいう外れ値は、視線(g(1)
x,g(1)
y)~(g(n)
x,g(n)
y)のうちの他の値と大きく外れた値である。外れ値は、例えば、視線(g(1)
x,g(1)
y)~(g(n)
x,g(n)
y)をベクトルと捉えた場合における視線間のユークリッド距離に基づいて特定される。
Alternatively, the integrating
(変形例4)
上述のとおり、学習情報及びカメラ情報は、推定される視線の範囲を含み得る。ここでいう視線の範囲は、カメラ情報においては、推定しようとしている視線の範囲を示し、学習情報においては、視線推定器241において学習に用いられた視線の範囲を示す。視線の範囲は、例えば、視線(gx,gy)と同様に、真正面からのずれを-90~+90[deg]の範囲の数値によって表す。学習情報及びカメラ情報は、視線の範囲を水平角と仰俯角の双方によって表してもよく、これらの一方によって表してもよい。
(Modification example 4)
As mentioned above, the learning information and the camera information may include an estimated range of line of sight. The line-of-sight range referred to here indicates the range of the line-of-sight to be estimated in the camera information, and indicates the range of the line-of-sight used for learning in the line-of-sight estimator 241 in the learning information. As for the range of the line of sight, for example, the deviation from the front is represented by a numerical value in the range of −90 to +90 [deg], similarly to the line of sight (g x , gy ). The learning information and the camera information may represent the range of the line of sight by both the horizontal angle and the elevation / depression angle, or may be represented by one of them.
このような学習情報及びカメラ情報が用いられる場合、統合部250は、視線の範囲が重なる割合(以下「重複率」ともいう。)に基づいて重みを算出することができる。ここにおいて、重複率は、学習情報とカメラ情報の少なくとも一方に含まれる視線の範囲と、学習情報とカメラ情報の双方に含まれる視線の範囲の比率を表す。
When such learning information and camera information are used, the
例えば、学習情報が表す視線の範囲とカメラ情報が表す視線の範囲が完全に一致する場合、重複率は「1.0」である。一方、学習情報が表す視線の範囲とカメラ情報が表す視線の範囲が全く一致しない場合、重複率は「0」である。より具体的には、視線推定器2411の学習情報が表す水平方向の視線の範囲が-10~+5[deg]であり、カメラ情報が表す水平方向の視線の範囲が-10~+10[deg]である場合、水平方向の重複率は、「0.75(=15/20)」である。
For example, when the line-of-sight range represented by the learning information and the line-of-sight range represented by the camera information completely match, the duplication rate is "1.0". On the other hand, when the line-of-sight range represented by the learning information and the line-of-sight range represented by the camera information do not match at all, the duplication rate is "0". More specifically, the range of the horizontal line of sight represented by the learning information of the line - of-
このような学習情報及びカメラ情報が用いられる場合、統合部250は、式(2)の学習情報ci、cj及びカメラ情報ctとして水平方向及び垂直方向の重複率を用いることができる。統合部250は、撮像角度の設置角度に代えて重複率を用いてもよく、撮像角度の設置角度に加えて重複率を用いてもよい。例えば、学習情報ci、cj及びカメラ情報ctは、撮像角度の設置角度と重複率の双方が用いられる場合には、4成分(設置角度の水平成分及び垂直成分並びに重複率の水平成分及び垂直成分)のベクトルになる。
When such learning information and camera information are used, the
(変形例5)
領域抽出部230は、右目及び左目の中心座標や目領域を計算によって特定しなくてもよい。例えば、右目及び左目の中心座標や目領域は、ユーザが入力してもよい。この場合、データ処理装置200は、ユーザの入力に基づいて右目及び左目の中心座標や目領域を特定することができる。
(Modification 5)
The
(変形例6)
目領域の形状は、必ずしも矩形に限定されない。例えば、領域抽出部230は、上述された目領域(図6参照)から視線の推定に直接的には影響しない領域(例えば鼻の領域)を除外してもよい。また、目領域は、必ずしも両目を含まなくてもよい。例えば、領域抽出部230は、右目又は左目の一方を含み、他方を含まない領域と目領域として抽出してもよい。
(Modification 6)
The shape of the eye region is not necessarily limited to a rectangle. For example, the
(変形例7)
視線推定部240による学習は、上述された例に限定されない。例えば、視線推定部240は、ランダムフォレスト等の集団学習アルゴリズムにより視線を推定するための非線形の関数を学習してもよい。
(Modification 7)
The learning by the line-of-
(変形例8)
視線推定装置100(又はデータ処理装置200)により推定された視線の用途は、特に限定されない。例えば、視線推定装置100は、コンビニエンスストア等の小売店に設置された監視カメラによって撮像された人物の視線を推定し、不審人物を検出するシステムに適用されてもよい。また、視線推定装置100は、情報が表示された画面に対するユーザの視線に基づいて当該ユーザの興味・関心を推測するシステムに適用されてもよい。あるいは、視線推定装置100は、視線の動きによって操作可能な電子機器や、自動車等の運転支援に適用されてもよい。
(Modification 8)
The use of the line of sight estimated by the line-of-sight estimation device 100 (or the data processing device 200) is not particularly limited. For example, the line-of-
(変形例9)
本開示に係る装置(視線推定装置100又はデータ処理装置200)の具体的なハードウェア構成は、さまざまなバリエーションが含まれ、特定の構成に限定されない。例えば、本開示に係る装置は、ソフトウェアを用いて実現されてもよく、複数のハードウェアを用いて各種処理を分担するように構成されてもよい。
(Modification 9)
The specific hardware configuration of the device (line-of-
図9は、本開示に係る装置を実現するコンピュータ装置300のハードウェア構成の一例を示すブロック図である。コンピュータ装置300は、CPU(Central Processing Unit)301と、ROM(Read Only Memory)302と、RAM(Random Access Memory)303と、記憶装置304と、ドライブ装置305と、通信インタフェース306と、入出力インタフェース307とを含んで構成される。本開示に係る装置は、図9に示される構成(又はその一部)によって実現され得る。
FIG. 9 is a block diagram showing an example of the hardware configuration of the
CPU301は、RAM303を用いてプログラム308を実行する。プログラム308は、ROM302に記憶されていてもよい。また、プログラム308は、メモリカード等の記録媒体309に記録され、ドライブ装置305によって読み出されてもよいし、外部装置からネットワーク310を介して送信されてもよい。通信インタフェース306は、ネットワーク310を介して外部装置とデータをやり取りする。入出力インタフェース307は、周辺機器(入力装置、表示装置など)とデータをやり取りする。通信インタフェース306及び入出力インタフェース307は、データを取得又は出力するための構成要素として機能することができる。
The
なお、本開示に係る装置の構成要素は、単一の回路(プロセッサ等)によって構成されてもよいし、複数の回路の組み合わせによって構成されてもよい。ここでいう回路(circuitry)は、専用又は汎用のいずれであってもよい。例えば、本開示に係る装置は、一部が専用のプロセッサによって実現され、他の部分が汎用のプロセッサによって実現されてもよい。 The components of the apparatus according to the present disclosure may be composed of a single circuit (processor or the like) or a combination of a plurality of circuits. The circuitry referred to here may be either dedicated or general purpose. For example, the apparatus according to the present disclosure may be partially realized by a dedicated processor and the other part may be realized by a general-purpose processor.
上述された実施形態において単体の装置として説明された構成は、複数の装置に分散して設けられてもよい。例えば、視線推定装置100は、クラウドコンピューティング技術などを用いて、複数のコンピュータ装置の協働によって実現されてもよい。また、視線推定器2411~241nは、互いに異なるコンピュータ装置によって実現されてもよい。
The configuration described as a single device in the above-described embodiment may be distributed to a plurality of devices. For example, the line-of-
以上、本発明は、上述された実施形態及び変形例を模範的な例として説明された。しかし、本発明は、これらの実施形態及び変形例に限定されない。本発明は、本発明のスコープ内において、いわゆる当業者が把握し得るさまざまな変形又は応用を適用した実施の形態を含み得る。また、本発明は、本明細書に記載された事項を必要に応じて適宜に組み合わせ、又は置換した実施の形態を含み得る。例えば、特定の実施形態を用いて説明された事項は、矛盾を生じない範囲において、他の実施形態に対しても適用し得る。 As described above, the present invention has been described as a model example of the above-described embodiments and modifications. However, the present invention is not limited to these embodiments and modifications. The present invention may include embodiments within the scope of the present invention to which so-called variations or applications that can be grasped by those skilled in the art are applied. In addition, the present invention may include embodiments in which the matters described in the present specification are appropriately combined or replaced as necessary. For example, the matters described using a particular embodiment may be applied to other embodiments as long as they do not cause inconsistency.
[付記]
本開示の一部又は全部は、以下の付記のようにも記載され得る。ただし、本開示は、必ずしもこの付記の態様に限定されない。
(付記1)
顔画像に含まれる顔の視線を複数の推定器で推定する推定手段と、
前記顔画像の撮像に関する条件を含む第1の条件情報と、各々が前記複数の推定器のいずれかに対応する前記条件を含む複数の第2の条件情報と、前記推定された複数の視線とに基づいて前記顔の視線を決定する決定手段と
を備える視線推定装置。
(付記2)
前記条件は、撮像手段による撮像条件を含む
付記1に記載の視線推定装置。
(付記3)
前記条件は、推定される視線の範囲を含む
付記1又は付記2に記載の視線推定装置。
(付記4)
前記決定手段は、前記複数の推定器で推定された複数の視線のそれぞれに対して決定される重みであって、当該推定器に対応する前記第2の条件情報と前記第1の条件情報とに応じて決定される重みに従った重み付き演算を実行する
付記1から付記3までのいずれかに記載の視線推定装置。
(付記5)
前記決定手段は、前記第2の条件情報と前記第1の条件情報との比較結果に基づいて前記重みを決定する
付記4に記載の視線推定装置。
(付記6)
前記決定手段は、前記第2の条件情報が前記第1の条件情報に近いものほど前記重みを大きくする
付記5に記載の視線推定装置。
(付記7)
前記複数の推定器は、前記条件が互いに異なる顔画像に基づいて学習される
付記1から付記6までのいずれかに記載の視線推定装置。
(付記8)
前記顔画像を取得する第1の取得手段と、
前記第1の条件情報を取得する第2の取得手段と、
前記取得された顔画像から目の周辺の領域を抽出する抽出手段と、
前記決定手段により決定された視線を示す視線情報を出力する出力手段とをさらに備え、
前記推定手段は、前記顔画像のうちの前記領域を用いて前記顔の視線を推定する
付記1から付記7までのいずれかに記載の視線推定装置。
(付記9)
顔画像に含まれる顔の視線を複数の推定器で推定し、
前記顔画像の撮像に関する条件を含む第1の条件情報と、各々が前記複数の推定器のいずれかに対応する前記条件を含む複数の第2の条件情報と、前記推定された複数の視線とに基づいて前記顔の視線を決定する
視線推定方法。
(付記10)
前記第1の条件情報及び前記第2の条件情報は、撮像手段による撮像条件を示す情報を含む
付記9に記載の視線推定方法。
(付記11)
コンピュータに、
顔画像に含まれる顔の視線を複数の推定器で推定する処理と、
前記顔画像の撮像に関する条件を含む第1の条件情報と、各々が前記複数の推定器のいずれかに対応する前記条件を含む複数の第2の条件情報と、前記推定された複数の視線とに基づいて前記顔の視線を決定する処理と
を実行させるためのプログラムを記録したコンピュータ読み取り可能なプログラム記録媒体。
(付記12)
前記第1の条件情報及び前記第2の条件情報は、撮像手段による撮像条件を示す情報を含む
付記11に記載のプログラム記録媒体。
[Additional Notes]
Part or all of this disclosure may also be described as in the appendix below. However, the present disclosure is not necessarily limited to this additional aspect.
(Appendix 1)
Estimating means for estimating the line of sight of the face included in the face image with multiple estimators,
The first condition information including the condition relating to the imaging of the face image, the plurality of second condition information including the condition each corresponding to any of the plurality of estimators, and the estimated plurality of lines of sight. A line-of-sight estimation device including a determination means for determining the line-of-sight of the face based on the above.
(Appendix 2)
The line-of-sight estimation device according to Appendix 1, wherein the conditions include imaging conditions by an imaging means.
(Appendix 3)
The line-of-sight estimation device according to Appendix 1 or Appendix 2, wherein the condition includes an estimated range of the line-of-sight.
(Appendix 4)
The determination means is a weight determined for each of the plurality of lines of sight estimated by the plurality of estimators, and includes the second condition information and the first condition information corresponding to the estimator. The line-of-sight estimation device according to any one of Supplementary note 1 to Supplementary note 3, which executes a weighted operation according to a weight determined according to.
(Appendix 5)
The line-of-sight estimation device according to Appendix 4, wherein the determination means determines the weight based on a comparison result between the second condition information and the first condition information.
(Appendix 6)
The line-of-sight estimation device according to
(Appendix 7)
The line-of-sight estimation device according to any one of Supplementary note 1 to Supplementary note 6, wherein the plurality of estimators are learned based on facial images whose conditions are different from each other.
(Appendix 8)
The first acquisition means for acquiring the face image and
A second acquisition means for acquiring the first condition information and
An extraction means for extracting the area around the eyes from the acquired face image,
Further provided with an output means for outputting line-of-sight information indicating the line-of-sight determined by the determination means.
The line-of-sight estimation device according to any one of Supplementary note 1 to Supplementary note 7, wherein the estimation means estimates the line-of-sight of the face using the region of the face image.
(Appendix 9)
Estimate the line of sight of the face included in the face image with multiple estimators,
The first condition information including the condition relating to the imaging of the face image, the plurality of second condition information including the condition each corresponding to any of the plurality of estimators, and the estimated plurality of lines of sight. A line-of-sight estimation method for determining the line-of-sight of the face based on.
(Appendix 10)
The line-of-sight estimation method according to
(Appendix 11)
On the computer
Processing to estimate the line of sight of the face included in the face image with multiple estimators,
The first condition information including the condition relating to the imaging of the face image, the plurality of second condition information including the condition each corresponding to any of the plurality of estimators, and the estimated plurality of lines of sight. A computer-readable program recording medium that records a program for executing the process of determining the line of sight of the face based on the above.
(Appendix 12)
The program recording medium according to Appendix 11, wherein the first condition information and the second condition information include information indicating imaging conditions by the imaging means.
100 視線推定装置
110 推定部
120 決定部
200 データ処理装置
210 画像取得部
220 条件取得部
230 領域抽出部
240 視線推定部
241 視線推定器
250 統合部
260 出力部
300 コンピュータ装置
100 Line-of-
Claims (7)
前記複数の推定器で推定された複数の視線のそれぞれに対して決定される重みであって、前記条件と、前記対象画像に関する条件とに応じて決定される重みに従った重み付き演算を実行して、前記対象の視線を決定する決定手段と、
を備える情報処理装置。 An estimation means for estimating a plurality of lines of sight of an object included in a target image by using a plurality of estimators that have learned a plurality of images under different conditions, and an estimation means.
A weighted operation is executed according to the weights determined for each of the plurality of lines of sight estimated by the plurality of estimators and determined according to the conditions and the conditions relating to the target image. Then , the determination means for determining the line of sight of the object and
Information processing device equipped with.
前記推定手段は、前記第1の推定器及び前記第2の推定器を用いて、前記対象の視線を複数推定する、
請求項1に記載の情報処理装置。 The plurality of estimators include a first estimator learned under the first condition and a second estimator learned under the second condition.
The estimation means estimates a plurality of lines of sight of the target by using the first estimator and the second estimator.
The information processing device according to claim 1.
前記第2の推定器は、第2の撮像装置から撮像された画像を用いて学習される、
請求項2に記載の情報処理装置。 The first estimator is trained using an image captured from the first image pickup device, and is trained.
The second estimator is learned using an image captured by the second image pickup device.
The information processing device according to claim 2.
請求項3に記載の情報処理装置。 The first imaging device and the second imaging device have different installation angles.
The information processing device according to claim 3.
請求項3または4に記載の情報処理装置。 The first imaging device and the second imaging device have different performances.
The information processing apparatus according to claim 3 or 4.
条件が異なる複数の画像を学習した複数の推定器を用いて、対象画像に含まれる対象の視線を複数推定し、
前記複数の推定器で推定された複数の視線のそれぞれに対して決定される重みであって、前記条件と、前記対象画像に関する条件とに応じて決定される重みに従った重み付き演算を実行して、前記対象の視線を決定する、
情報処理方法。 The computer
Using multiple estimators that have learned multiple images with different conditions, multiple gazes of the target included in the target image are estimated.
A weighted operation is executed according to the weights determined for each of the plurality of lines of sight estimated by the plurality of estimators and determined according to the conditions and the conditions relating to the target image. Then , the line of sight of the target is determined.
Information processing method.
前記複数の推定器で推定された複数の視線のそれぞれに対して決定される重みであって、前記条件と、前記対象画像に関する条件とに応じて決定される重みに従った重み付き演算を実行して、前記対象の視線を決定する処理と、
をコンピュータに実行させるプログラム。 A process of estimating multiple lines of sight of a target included in a target image using a plurality of estimators that have learned a plurality of images under different conditions, and
A weighted operation is executed according to the weights determined for each of the plurality of lines of sight estimated by the plurality of estimators and determined according to the conditions and the conditions relating to the target image. Then , the process of determining the line of sight of the target and
A program that causes a computer to run.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021000498A JP7103443B2 (en) | 2021-01-05 | 2021-01-05 | Information processing equipment, information processing methods, and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021000498A JP7103443B2 (en) | 2021-01-05 | 2021-01-05 | Information processing equipment, information processing methods, and programs |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018547082A Division JP6822482B2 (en) | 2016-10-31 | 2016-10-31 | Line-of-sight estimation device, line-of-sight estimation method, and program recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021061048A JP2021061048A (en) | 2021-04-15 |
JP7103443B2 true JP7103443B2 (en) | 2022-07-20 |
Family
ID=75380329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021000498A Active JP7103443B2 (en) | 2021-01-05 | 2021-01-05 | Information processing equipment, information processing methods, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7103443B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002282210A (en) | 2001-03-27 | 2002-10-02 | Japan Science & Technology Corp | Method and apparatus for detecting visual axis |
JP2003070742A (en) | 2001-08-31 | 2003-03-11 | Japan Science & Technology Corp | Device and method to detect visual line |
JP2012037934A (en) | 2010-08-03 | 2012-02-23 | Canon Inc | Visual line detection device, visual line detection method and program |
JP2014153815A (en) | 2013-02-06 | 2014-08-25 | Toshiba Corp | Estimation device, method and program |
JP2014186505A (en) | 2013-03-22 | 2014-10-02 | Canon Inc | Visual line detection device and imaging device |
US20160004303A1 (en) | 2014-07-07 | 2016-01-07 | Logitech Europe Sa | Eye gaze tracking system and method |
-
2021
- 2021-01-05 JP JP2021000498A patent/JP7103443B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002282210A (en) | 2001-03-27 | 2002-10-02 | Japan Science & Technology Corp | Method and apparatus for detecting visual axis |
JP2003070742A (en) | 2001-08-31 | 2003-03-11 | Japan Science & Technology Corp | Device and method to detect visual line |
JP2012037934A (en) | 2010-08-03 | 2012-02-23 | Canon Inc | Visual line detection device, visual line detection method and program |
JP2014153815A (en) | 2013-02-06 | 2014-08-25 | Toshiba Corp | Estimation device, method and program |
JP2014186505A (en) | 2013-03-22 | 2014-10-02 | Canon Inc | Visual line detection device and imaging device |
US20160004303A1 (en) | 2014-07-07 | 2016-01-07 | Logitech Europe Sa | Eye gaze tracking system and method |
Also Published As
Publication number | Publication date |
---|---|
JP2021061048A (en) | 2021-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6822482B2 (en) | Line-of-sight estimation device, line-of-sight estimation method, and program recording medium | |
US20210056360A1 (en) | System and method using machine learning for iris tracking, measurement, and simulation | |
US9098760B2 (en) | Face recognizing apparatus and face recognizing method | |
JP5010905B2 (en) | Face recognition device | |
US7925093B2 (en) | Image recognition apparatus | |
JP6544900B2 (en) | Object identification device, object identification method and program | |
CN108985210A (en) | A kind of Eye-controlling focus method and system based on human eye geometrical characteristic | |
US20120219180A1 (en) | Automatic Detection of Vertical Gaze Using an Embedded Imaging Device | |
US11915518B2 (en) | Facial authentication device, facial authentication method, and program recording medium | |
JP5766564B2 (en) | Face authentication apparatus and face authentication method | |
KR101612605B1 (en) | Method for extracting face feature and apparatus for perforimg the method | |
WO2016107638A1 (en) | An image face processing method and apparatus | |
JP6071002B2 (en) | Reliability acquisition device, reliability acquisition method, and reliability acquisition program | |
JP7151875B2 (en) | Image processing device, image processing method, and program | |
JP5971712B2 (en) | Monitoring device and method | |
WO2020065790A1 (en) | Estimation device, estimation method, and storage medium | |
JP7103443B2 (en) | Information processing equipment, information processing methods, and programs | |
US11138741B2 (en) | System and method for eye tracking | |
JP5791361B2 (en) | PATTERN IDENTIFICATION DEVICE, PATTERN IDENTIFICATION METHOD, AND PROGRAM | |
JP2008015871A (en) | Authentication device and authenticating method | |
US10902628B1 (en) | Method for estimating user eye orientation using a system-independent learned mapping | |
JP7040539B2 (en) | Line-of-sight estimation device, line-of-sight estimation method, and program | |
CN110781712A (en) | Human head space positioning method based on human face detection and recognition | |
Singh et al. | PHOTOGENIC–A Tool for Best Photo Generation from Multiple Group Photographs | |
JP2022066409A (en) | Line-of-sight estimation device, line-of-sight estimation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210105 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20211020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220620 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7103443 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |