JP4898026B2 - Face / Gaze Recognition Device Using Stereo Camera - Google Patents
Face / Gaze Recognition Device Using Stereo Camera Download PDFInfo
- Publication number
- JP4898026B2 JP4898026B2 JP2001197915A JP2001197915A JP4898026B2 JP 4898026 B2 JP4898026 B2 JP 4898026B2 JP 2001197915 A JP2001197915 A JP 2001197915A JP 2001197915 A JP2001197915 A JP 2001197915A JP 4898026 B2 JP4898026 B2 JP 4898026B2
- Authority
- JP
- Japan
- Prior art keywords
- face
- image
- eyes
- feature point
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Processing (AREA)
- Position Input By Displaying (AREA)
- Image Analysis (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、ヒューマン・インターフェース一般に関連し、より具体的には、画像認識を利用して人間の顔向きと視線方向を認識する技術に関する。
【0002】
【従来の技術】
人間の視線の動きは、人間の意図するものや注意するものに深い関係があり、この視線の動きをキーボードやマウスなどの入力デバイスの代わりに利用する研究が進められている。この様な次世代ヒューマン・インターフェースは、カメラによって人間の行動を撮影し、人間の意図や注意を認識する高度なインターフェースとして構築される。
【0003】
視線認識によるインターフェースでは、視線の動きが顔の動きに追従して動く場合が多いので、視線の動きを検出するのと同時に顔の向きを検出することが好ましい。この様な顔向きと視線方向を同時に検出する顔・視線認識装置は、松本ほかによる「顔・視線計測システムの開発と動作認識への応用」(第5回ロボティクス・シンポジア、2000/3/26、27)の論文に示されている。
【0004】
【発明が解決しようとする課題】
松本ほかにより提案された顔・視線認識装置では、ステレオカメラにより撮影された画像フレームから人間の顔の向きを3次元的に検出し、その後で顔の向きに基づいて視線方向を検出している。視線方向を検出した後では、新たに撮影された画像フレームを使用して、同様の顔向き検出と視線方向検出が繰り返される。この顔向きと視線方向の検出は、ビデオカメラによる画像フレームの撮影速度に応じた速度で繰り返されて、顔向きと視線方向のリアルタイムでの追従が可能とされる。
【0005】
この様なリアルタイムでの顔向き・視線方向の追従が高速な画像処理を必要とするので、無駄な演算時間が発生した場合、顔・視線認識装置は顔向き・視線方向をリアルタイムで追従することができなくなる。したがって、顔・視線認識装置では、誤認識を減少させ、精度を向上させることが望ましい。
【0006】
本発明は、リアルタイムでの顔向き・視線方向の追従において、高速な画像処理を実現するために、無駄な演算時間を発生させるエラーを可能な限り低減することを目的とする。
【0007】
【課題を解決するための手段】
上記課題を解決するために、本発明の顔・視線認識装置は、ユーザの顔を撮影する複数のカメラと、前記カメラの画像出力から顔の向きを検出する検出手段と、前記カメラの画像出力に撮影されている目周辺の画像領域から前記ユーザの目が開いているかどうかを検出する手段と、前記ユーザの目が開いていることに応答して、前記カメラの画像出力から前記ユーザの視線方向を検出する手段と、を備えるよう構成される。
【0008】
この発明によると、ユーザの視線方向を検出する前にユーザの目の開閉を検出するので、視線方向の検出におけるエラーを回避することができる。
【0009】
この発明の1つの形態によれば、前記目が開いているかどうかを検出する手段は、前記目周辺の画像領域に含まれる水平方向エッジを検出し、該画像領域に含まれている水平方向エッジの割合に応じて、目が開いているかどうかを検出するよう構成される。
【0010】
この形態によると、目が開いている場合には目周辺の画像領域に縦や斜めのエッジが多く含まれているが、目が閉じている場合には水平方向のエッジが比較的多く含まれているので、水平方向のエッジを検出し、その割合を調べることにより、目が開いているかどうかを検出することができる。
【0011】
この発明の1つの形態によれば、前記顔向き検出手段は、特徴的な顔の部分に相当する1つまたは複数の特徴点のそれぞれについて用意された複数のテンプレートから、顔向きに応じて各特徴点のために1つのテンプレートを選択する手段と、前記選択されたテンプレートをそれぞれ使用して、前記画像出力から前記特徴点に対応する1つまたは複数の画像領域を抽出する手段と、を備え、前記抽出された1つまたは複数の画像領域に基づいて、前記ユーザの顔向きを検出するよう構成される。
【0012】
この形態によると、各特徴点のために複数のテンプレートの中から顔向きに応じて最適なテンプレートを選択し、その選択されたテンプレートを使用してテンプレート・マッチングを実行するので、テンプレート・マッチングでのエラーを低減することができる。
【0013】
この発明の1つの形態によれば、前記テンプレートの選択手段は、前回の画像出力から検出された顔向きに基づいて、今回の画像出力のために前記複数のテンプレートから1つのテンプレートを選択するよう構成される。
【0014】
この形態によると、前回の画像出力と今回の画像出力が連続的な画像フレームであり、前回の画像における顔向きと今回の画像における顔向きとが比較的相関が高いので、今回の画像における顔向きに比較的近い顔向きに対応したテンプレートを複数のテンプレートから選択することができる。
【0015】
この発明の1つの形態によれば、前記顔・視線認識装置において、前記画像領域抽出手段は、前回の画像出力から検出された顔向きに基づいて今回の画像出力に撮影されていない特徴点を判断し、撮影されていない特徴点に対応する画像領域の抽出を処理しないよう構成される。
【0016】
この発明の1つの形態によれば、今回の画像出力に撮影されていない特徴点に関するテンプレート・マッチングを回避することができるので、顔・視線認識装置のエラーを回避することができる。
【0017】
この発明の1つの形態によれば、前記顔・視線認識装置の前記カメラの画像出力は、近赤外画像であり、前記視線方向の検出手段は、目周辺の画像の明暗から瞳孔の位置を検出し、検出された瞳孔の中心位置と眼球の中心位置から視線方向を検出するよう構成される。
【0018】
この形態によると、近赤外画像に撮影されている瞳孔が虹彩との反射率の違いにより比較的暗く撮影されるので、目周辺の画像から最も暗い部分を検出することにより瞳孔が撮影されている領域を検出することができる。
【0019】
【発明の実施の形態】
次に本発明の実施例を図面を参照して説明する。図1は、顔・視線認識装置におけるハードウェア構成の1つの実施形態を示す。この実施形態では、顔・視線認識装置はコンピュータで構成されるが、必ずしもこの様なハードウェア構成に限定されない。
【0020】
図1の実施形態の顔・視線認識装置は、2個のビデオカメラ(右カメラ11および左カメラ13)、2個のカメラ・コントロール・ユニット(15、17)、画像処理ボード19、IR投光機14、パーソナル・コンピュータ21、モニタ・ディスプレイ23、キーボード25、およびマウス27を含む。
【0021】
2個のビデオカメラは、撮影対象の人の前方左右に設置され、撮影対象の顔をステレオ視して撮影する。各ビデオカメラ(11、13)は、カメラ・コントロール・ユニット(15、17)を介してそれぞれ制御される。各カメラ・コントロール・ユニットは、外部同期信号線を介して相互接続されており、この同期信号によって左右のビデオカメラの同期がとられ、左右の位置で同じ時刻に撮影された2つの画像フレームが得られる。顔・視線認識装置は、左右の位置で同じ時刻に撮影された2つの画像フレームを入力画像として使用し、ステレオ法を用いて3次元的な物体認識を処理することができる。
【0022】
赤外線投光機14は、近赤外光を顔に照射するよう被写体の前面に設置され、車内の照明変動による画像の劣化を低減する。このため、ビデオカメラは、近赤外透過フィルタ29などにより近赤外光以外の波長を遮断された状態で被写体を撮影する。
【0023】
近赤外光を照明として使用する第1の理由は、照明変動に対する画像のロバスト性を向上させることにある。一般に撮影対象の周囲の明るさは、屋内外、または日中や夜間などの環境変化によって大きく変動する。また、強い可視光が1方向から顔にあたる場合には、顔面上に陰影のグラデーションが発生する。この様な照明の変動や陰影のグラデーションは、画像認識の精度を著しく悪化させる。
【0024】
この実施例では、正面から赤外線投光機14により近赤外光を照射して画像を撮影することによって、周囲からの可視光による顔面上の陰影のグラデーションを低減する。この様な近赤外画像は、可視光を使用して得られる画像と比較して照明変化による影響を受けにくく、画像認識の精度を向上させることができる。
【0025】
近赤外光を使用する第2の理由は、目の瞳孔を明瞭に抽出することが可能な点にある。瞳の位置が視線方向を検出するために使用されるので、瞳を明瞭に撮影することは重要である。
【0026】
画像処理ボード47は、ビデオカメラで撮影された画像を様々に処理する。例えば、各ビデオカメラで撮影された画像がNTSC方式のビデオ信号として送られてくる場合、画像処理ボード47は、それらの画像を適当なフォーマットのクラスタ画像に変換し、内部のバッファメモリに記憶する。さらに、画像処理ボード47は、画像処理アルゴリズムを実行するハードウェア回路を備えており、画像処理を高速に実行することができる。例えば、ハードウェア回路による画像処理アルゴリズムには、斜方投影機構、ハフ変換、2値画像マッチングフィルタ、アフィン変換(画像の回転、拡大、縮小)などの処理が含まれる。
【0027】
画像処理ボード19は、任意のインターフェース(例えばPCIバス、シリアルバス、IEEE1394など)を介してパーソナル・コンピュータ21に接続され、パーソナル・コンピュータ21上のプログラムに応じて制御される。パーソナル・コンピュータ21は、モニタ・ディスプレイ23、キーボード25、マウス27などのユーザ・インターフェースなどを備え、「Linux」として知られるOSを使用して動作する。
【0028】
図2は、図1に示すハードウェアによって実施される顔・視線認識装置の機能ブロック図を示す。図2の参照番号31は撮影対象となる顔を示している。画像入力部33は、図1で示す左右のビデオカメラ(11、13)、カメラ・コントロール・ユニット(15、17)、画像処理ボード19を総合的に示している。この画像入力部33は、撮影対象の顔31を連続的にステレオ撮影し、それらの画像をクラスタ化して図2の画像処理部35に提供する。
【0029】
画像処理部35は、顔探索部37、顔トラッキング部39、まばたき検出部41、視線検出部43を含み、提供された画像に撮影されている顔から顔向きと視線方向をリアルタイムで検出する。
【0030】
顔探索部37は、画像全体から顔が撮影されている領域を探索し、顔トラッキングの最初の初期化とエラー回復のために使用される。顔トラッキング部39は、顔の特徴点を抽出し、撮影されている顔の向きをリアルタイムで検出する。まばたき検出部41は、目周辺の画像を解析し、目が閉じているかどうかを判断する。視線検出部43は、瞳孔を検出し、瞳孔の位置と眼球の位置から視線方向をリアルタイムで検出する。
【0031】
図3は、画像処理部35の全体的なフローチャートを示す。顔探索部37、顔トラッキング部39、まばたき検出部41、視線検出部43は、それぞれ関連して動作し、連続的に撮影される左右の入力画像から顔向きと視線方向をリアルタイムで検出することができる。
【0032】
図3のフローチャートでは、顔探索部37の処理がステップ101から103で示され、顔トラッキング部39の処理がステップ105から113で示され、まばたき検出部41の処理がステップ115から117で示され、視線検出部43の処理がステップ119から123で示される。以下では、このフローチャートを参照して画像処理部35の各機能ブロックの処理を説明する。
【0033】
顔探索部37
図3を参照して顔探索部37の処理を説明する。顔探索部37は、入力された画像から人間の顔が撮影されている画像領域をおおまかに探索する。ここでの処理は、顔トラッキング部39のための前処理ともいえる。顔探索部37が、顔トラッキング部39の処理の前に、入力画像から顔が撮影されている領域をおおまかに探索することにより、顔トラッキング部39は、入力画像中の顔の詳細な解析を高速に実行することができる。
【0034】
最初に、ステップ101で画像入力部33から左右のビデオカメラの画像が入力され、入力画像全体から人間の顔が撮影されている領域がおおまかに探索される。これは、予め記憶された探索用テンプレート51を使用して2次元テンプレート・マッチングで実行される。
【0035】
図4は、探索用テンプレート51の例を示す。探索用テンプレート59に使用される画像は、正面を向いた人間の顔を部分的に切り取った画像であり、この画像には目、鼻、口などの人間の顔の特徴的な領域が1つのテンプレートに含まれている。この探索用テンプレート51は、テンプレート・マッチングでの処理速度を高めるために、予め低解像度化されており、さらに照明変動の影響を低減するために微分画像にされている。このテンプレートは、複数のサンプルから作成されて予め記憶されている。
【0036】
ステップ101での探索は、2次元的なテンプレート・マッチングであるので、右ビデオカメラ11の画像かまたは左ビデオカメラ13の画像のどちらかが使用される。以下では、右ビデオカメラ11の画像を使用したテンプレート・マッチングを例として述べる。
【0037】
右ビデオカメラ11の画像を使用したテンプレート・マッチングの場合、右ビデオカメラ11の画像から探索用テンプレート51に対応する画像領域が探索され抽出される。次に、ステップ103において、マッチした右画像内の画像領域をテンプレートにして、同様のテンプレート・マッチングが左画像に対して実行され、そのステレオ・マッチングの結果から顔全体の3次元位置がおおまかに求められる。この様にして得られた画像情報は、顔トラッキング部39における各特徴点の探索範囲を設定するために使用される。
【0038】
顔トラッキング部39
顔トラッキング部39は、前もって得られた画像情報に基づいて顔の特徴点を入力画像から抽出し、それらの特徴点から顔の3次元位置と顔の向きを求める。以下では、顔トラッキング部39が入力画像から特徴点を抽出する方法に関して説明する。
【0039】
顔トラッキング部39は、テンプレート・マッチングにより入力画像から顔の特徴点を探索する。この探索に使用されるテンプレートは、データベース47に予め記憶されている3次元顔特徴点モデル69の画像を使用する。図5は、3次元顔特徴点モデル69の例を示す。
【0040】
本実施例における3次元顔特徴点モデル69は、正面を向いた人間の顔の特徴的な部分を画像から局所的に切り取った部分的画像(53〜67)から生成される。例えば、これらの部分的画像は、図5に示すように、左の眉頭53、右の眉頭55、左の目尻57、左の目頭59、右の目尻61、右の目頭63、口の左端65、口の右端67などのように予め用意された顔画像から局所的に切り取られて生成される。これらの部分的画像のそれぞれは、その画像内で撮影されている対象物(この例では、左右の眉頭、左右の目尻と目頭、および口の両端)の3次元位置を表す3次元座標に関連付けられ、データベース47に記憶されている。本明細書では、これらの3次元座標を有した顔特徴領域の部分的画像を顔特徴点と呼び、これらの複数の顔特徴点から生成される顔モデルを3次元顔特徴点モデル69と呼ぶ。3次元顔特徴点モデル69は、複数のサンプルから生成されデータベース47に記憶されている。
【0041】
顔トラッキング部39は、3次元顔特徴点モデル69の各部分的画像をテンプレートにしてそれぞれ対応する特徴点を入力画像から抽出する。このテンプレート・マッチングは、右ビデオカメラの画像と左ビデオカメラの画像のどちらを使用しても構わないが、この実施例では、右ビデオカメラの画像を使用している。このテンプレート・マッチングの結果得られる画像は、撮影された顔の左右の眉頭、左右の目頭と目尻、口の両端の計8個の画像である。
【0042】
図3のフローチャートを参照してこの抽出処理を説明すると、最初に、ステップ105で各特徴点の探索範囲が設定される。この探索範囲の設定は、前もって得られた画像情報に基づいて行われる。例えば、ステップ103の後にステップ105が処理される場合、入力画像における顔全体の領域が既に分かっているので(ステップ101で検出されているので)、入力画像において各特徴点が存在している領域もおおまかに分かる。ステップ117またはステップ123の後にステップ105が処理される場合には、前回のループで検出された各特徴点(前回の入力画像における各特徴点)の情報から、今回の入力画像において各特徴点が存在している領域がおおまかに予測できる。したがって、各特徴点が存在する可能性が高い画像領域だけを各特徴点の探索範囲として設定することができ、この各特徴点の探索範囲の設定により、テンプレート・マッチングを高速に処理することが可能になる。
【0043】
ステップ107で、各特徴点の探索範囲に基づいて3次元顔特徴点モデル69に対応する画像領域が右ビデオカメラの画像から探索される。これは、3次元顔特徴点モデル69の各特徴点の画像をテンプレートとし、右ビデオカメラ11の画像に対してテンプレート・マッチングを行うことにより実行される。
【0044】
ステップ109では、ステップ107の探索から得られた各特徴点の画像をテンプレートにして左ビデオカメラ13の画像に対してステレオ・マッチングが実行される。これにより、3次元顔特徴点モデル69の各特徴点に対応する入力画像の各特徴点の3次元座標が求められる。このステレオ・マッチングの結果、顔の左右の眉頭、左右の目尻と目頭、口の両端の3次元座標(観測点)がそれぞれ得られる。
【0045】
ステップ111で、3次元顔特徴点モデル69を使用して3次元モデル・フィッティングが実行され、顔の向きが検出される。以下ではこの3次元モデル・フィッティングを説明する。
【0046】
先に述べたように、3次元顔特徴点モデル69は、正面を向いた顔の特徴点から生成されている。それに対して入力画像で撮影されている顔は、必ずしも正面を向いているとは限らない。入力画像に撮影されている顔が正面を向いていない場合、ステップ111で得られた入力画像の各特徴点の3次元座標(観測点)は、3次元顔特徴点モデル67の各特徴点の3次元座標から任意の角度と変位だけずれを有している。したがって、正面を向いた3次元顔特徴点モデル67を任意に回転、変位させたときに、入力画像の各特徴点に一致する角度と変位が入力画像中の顔の向きと位置に相当する。
【0047】
3次元顔特徴点モデル67を任意に回転、変位させて、入力画像の各特徴点にフィッティングさせた場合、フィッティング誤差Eは、下記の式で表される。
【0048】
【数1】
【0049】
ここで、Nが特徴点の数であり、xiがモデル内の各特徴点の3次元座標であり、yiが入力画像からの各特徴点の3次元座標を表す。ωiは、各特徴点に関する重み付け係数であり、入力画像から特徴点の3次元位置を求めたときのステレオ・マッチングにおける相関値を利用する。この相関値を利用することによって、それぞれの特徴点の信頼度を考慮することができる。回転行列は、R(φ,θ,ψ)であり、並進ベクトルは、t(x,y,z)で表され、これらが、この式における変数となる。
【0050】
したがって、上記の式におけるフィッティング誤差Eを最小にする回転行列Rと並進ベクトルtを求めれば、入力画像の顔向きと顔位置が求められる。この演算は、最小二乗法または仮想バネモデルを使用したフィッティング手法などを利用することによって実行される。
【0051】
ステップ113では、ステップ111で顔の向きが正しく検出されたかどうかが判定される。もし顔の向きが正しく検出されなかったと判定された場合、ステップ101に戻り、新しい入力画像を使用して一連の処理が繰り返される。
【0052】
図6は、より詳細な顔トラッキング部39のフローチャートを示している。このフローチャートは、基本的には図3に示す顔トラッキング部39の処理と同一であるが、各特徴点のテンプレート・マッチング(ステップ107)をより詳細に示している。
【0053】
図6のフローチャートでは、1つの特徴点に対して複数のテンプレートを使用するよう示されている。1つの特徴点に対する複数のテンプレートは、テンプレート・マッチングにおけるエラーを低減させ、顔向き検出の精度を向上させるために使用される。さらに、このフローチャートでは、カメラに撮影されていない特徴点を予測し、撮影されていない特徴点のテンプレート・マッチングを行わないよう処理している。
【0054】
最初に、1つの特徴点に対して複数のテンプレートを使用する顔トラッキング部39の処理を説明する。
【0055】
3次元顔特徴点モデル69における各特徴点の画像に撮影されている対象物(左右の眉頭、左右の目頭と目尻、口の両端など)は、平面ではなく立体である。したがって、その見え方(すなわち撮影されている対象物の状態)は、顔向きや傾きに応じて変化する。このため、単一のテンプレートだけでテンプレート・マッチングを行う場合、入力画像がそのテンプレートとは異なる見え方をしているときにテンプレート・マッチングでエラーを生じる。
【0056】
例えば正面の顔の画像から作成された特徴点のテンプレートだけをテンプレート・マッチングに使用する場合、入力画像の顔が斜めを向いているときにエラーが生じることがある。この様な各特徴点の見え方の違いで生じるエラーを回避するために、各顔向きの画像から作成された各特徴点のテンプレートが使用される。
【0057】
1つの顔特徴点に対して複数のテンプレートを使用する場合、前回の入力画像における顔の情報(顔の向き)に基づいて、今回のテンプレート・マッチングで使用するテンプレートが選択される。すなわち、前回の入力画像における顔の情報に基づいて、予め用意された複数のテンプレートから最適なテンプレートが選択され、選択されたテンプレートが今回のフレームにおける特徴点のテンプレート・マッチングに使用される。
【0058】
図7は、1つの特徴点に対する複数のテンプレートを示す図であり、具体的には、右目尻の特徴点に対する複数のテンプレートの例を示す図である。図7のaは、頭部がカメラに対して左右方向を向いたときの状態を示し、図7のbは、頭部がカメラに対して正面を向いているときの状態を示し、図7のcは、頭部がカメラの光軸に対して回転したときの状態を示す。図7のaに対応する右目尻のテンプレートが参照番号71で示され、図7のbに対応する右目尻のテンプレートが参照番号61で示され、図7のcに対応する右目尻のテンプレートが参照番号73で示されている。
【0059】
図7を参照して分かるように、同じ右目尻の画像であっても、画像における見え方は、頭部の姿勢に応じて変化する。このため、顔トラッキング部39は、頭部の姿勢に応じた複数のテンプレートを予めデータベース47に記憶しておき、その複数のテンプレートから1つのテンプレートを選択して使用する。例えば、図7の例では、頭部が左右方向に回転した状態に対して3種類のテンプレートを用意し、頭部が光軸に対して回転した状態に対しても3種類のテンプレートを用意している。したがって、右目尻の特徴点のために、計9(3×3)個の右目尻のテンプレートの集合が使用される。
【0060】
これらのテンプレートの集合のうち、テンプレート・マッチングで実際に使用されるテンプレートは1つだけである。このテンプレートの選択は、前回の入力画像の顔の情報に基づいて決められる。前回の入力画像と今回の入力画像が連続した画像フレームであるので、前回の頭部の姿勢と今回の頭部の姿勢は、比較的相関が高いはずである。したがって、図6のステップ201で、前回の入力画像に撮影されていた頭部の姿勢が取得され、ステップ203で、その頭部の姿勢に対応するテンプレートが選択される。対応するテンプレートが選択された後で、そのテンプレートを使用して今回の入力画像に対してテンプレート・マッチングを行うので、エラーを低減することができる。
【0061】
上記では、計9個の右目尻のテンプレートの集合を例として述べた。しかしながら、他の特徴点に関しても複数のテンプレートが用意され、その中から前回の画像における顔の情報に応じて1つのテンプレートがそれぞれ使用される。各特徴点のためのテンプレートの数は、必要に応じていくつ用意してもよい。
【0062】
次に、カメラに撮影されていない特徴点を予測する処理に関して詳細に説明する。これらの処理は、図6のフローチャートのステップ205から209で処理される。
【0063】
図8および図9を参照して、カメラに撮影されていない特徴点の予測の概要を説明する。図9は、カメラに対して正面を向いた顔31の正面図と上面図を示している。この図では便宜的に1個のカメラしか示されていないが、実際には、ステレオカメラを構成する2個のカメラが存在し、この処理は2個のカメラそれぞれに関して実行される。
【0064】
図8では、カメラの設置位置に基づいて基準位置が定められる。この基準位置と各特徴点の3次元座標とを結ぶベクトルを各特徴点の「位置ベクトル」と呼ぶことにする。さらに、各特徴点の座標を結んで得られる曲面に対する各特徴点の法線方向のベクトルを各特徴点の「法線ベクトル」と呼ぶ。各特徴点がカメラに撮影されるかどうかは、各特徴点について「位置ベクトル」と「法線ベクトル」とがなす角度θによって判断することができる。
【0065】
例えば、図8の上面図におけるx−z平面に関して考察する。この場合、各特徴点について位置ベクトルと法線ベクトルとがなす角度θは、90°より十分小さい。したがって、各特徴点全てがカメラで撮影することが可能である。しかしながら、顔が横向きである図9の上面図の場合、特徴1について位置ベクトルと法線ベクトルとがなす角度θ1が、ほぼ90°になる。この場合、カメラは、特徴1を撮影することが出来なくなり、この特徴1に関するテンプレート・マッチングがエラーを生じる可能性が高くなる。
【0066】
したがって、顔トラッキング部39は、各特徴点ごとに位置ベクトルと法線ベクトルを求め、それらのベクトルがなす角度θを求める。この各特徴点のθが予め定められたしきい値より大きい場合、それに対応する特徴点は、カメラによって撮影されていないと判断される。結果として、顔トラッキング部39は、その特徴点に関するテンプレート・マッチングを行わない。
【0067】
上記の例では、x−z平面について説明したが、同様の処理は、x−y平面についても処理される。さらに、ステレオカメラを構成する2個のカメラのそれぞれについて、この処理が実行される。これにより、頭部の姿勢によって撮影されていない特徴点によって生じるエラーを回避することができる。
【0068】
図6のフローチャートを参照して説明すると、ステップ205で前回の入力画像の頭部位置情報から各特徴点について位置ベクトルと法線ベクトルが求められる。ステップ207で各特徴点の位置ベクトルと法線ベクトルとがなす角度θが求められる。次に、ステップ209で、求められた角度θが予め定められたしきい値と比較され、テンプレート・マッチングを実行する特徴点が選択される。ステップ211で、今回の画像フレームに対して、選択されたテンプレートを使用してテンプレート・マッチングが実行され、その結果に基づいて、ステップ213で各特徴点のステレオ・マッチングが実行される。最終的にステップ215で3次元顔特徴点モデル63に対して、3次元観測値とのフィッティングが行われることによって、入力画像に撮影されている顔向きが検出される。
【0069】
まばたき検出部41
まばたき検出部41は、視線検出部43のために、入力画像から目周辺の画像を抽出して目が閉じているかどうかを判断する。もし目が閉じられている場合、視線方向を検出する意味がないので顔トラッキング部39に戻るよう処理される。
【0070】
図10は、まばたき検出部41の処理(ステップ115)を詳細に示すフローチャートである。最初にステップ301で、入力画像において目が存在している領域が左右それぞれについて求められる。これは、顔トラッキング部39で得られた左右の目尻と目頭の特徴点の情報に基づいて行われる。例えば、左右それぞれの目について、目全体を含む画像領域が求められる。次に、ステップ303で、その求められた領域から画像が抽出される。
【0071】
図11は、入力画像から抽出された右目の領域75を示す。顔トラッキング部39で検出された右目頭の特徴点は参照番号63で示されており、右目尻の特徴点は参照番号61で示されている。この例では、入力画像から抽出される目領域の範囲は、幅方向が目頭の特徴点から目尻の特徴点までであり、高さ方向が特徴点の高さの倍の長さである。
【0072】
ステップ305で、目が開いているかどうかを判断するために目領域の画像から水平な直線が検出される。すなわち、目が開いている状態で撮影された入力画像の場合、抽出された目領域の画像には、虹彩や目の輪郭により生じる縦や斜めのエッジが多く含まれている。それに対して目が閉じている状態で撮影された入力画像の場合、閉じたまぶたによって生じる水平なエッジが比較的多く含まれている。したがって、目領域の画像からエッジ検出を行い、その目領域に含まれるエッジの種類(縦、斜め、水平など)の割合から目が閉じているかどうかを判断することができる。エッジの種類は、例えばハフ変換などの線分当てはめを行い、画像中に存在する直線群を検出することによって求められる。画像中に存在する直線群において水平とみなせる直線の割合が予め定めたしきい値より多く存在している場合、まばたき検出部41は、ステップ307で目を閉じていると判断する。
【0073】
この実施例では、左右両方の目についてそれぞれ目が開いているかどうかが検出される。左右どちらかの目が閉じられていると判断された場合、視線方向の検出には進まず、新たな画像フレームを使用して顔向き検出を処理する。
【0074】
視線検出部43
図12は、視線検出部43の詳細なフローチャートを示す。視線検出部43は、顔トラッキング部39で得られた顔の位置と向きに基づき、入力画像から視線方向を検出する。
【0075】
視線検出部43では、人の眼球は、眼球の中心が回転中心と一致する3次元的な球でモデル化される。視線方向は、顔トラッキング部39で検出された頭部の位置および姿勢、並びに瞳孔の中心位置の関係で求められる。すなわち、視線検出部43で検出される視線方向は、眼球の中心位置と瞳孔の中心位置とを結ぶベクトルとして求められる。
【0076】
図12のステップ401で、視線検出部43は、顔トラッキング部39で検出された顔の位置と向きから眼球の中心位置を求める。図13を参照してこれを詳細に説明する。
【0077】
図13の参照番号77は、顔トラッキング部39で検出された目尻の特徴点の3次元座標を示しており、参照番号77は、顔トラッキング部39で検出された目頭の特徴点の3次元座標を示している。最初に、この2つの座標を結ぶ直線を得て、その直線の中点から眼球の中心方向に向かう直線が求められる。この明細書では、その中点から眼球の中心方向に向かうベクトルを「オフセット・ベクトル」と呼び、顔トラッキング部39で得られた顔の向きに基づいて定める。眼球の中心位置81は、その中点からオフセット・ベクトルに沿って引かれた直線上に存在し、中点から眼球の半径に相当する距離上に存在する。眼球の半径は、標準的な眼球の大きさに基づいて予め定められる。
【0078】
次に、ステップ403で、画像から瞳孔の中心位置83が検出される。先に述べたように、この実施例では、近赤外光を使用して撮影された近赤外画像が使用されている。この様な近赤外画像に撮影されている瞳孔は、虹彩との反射率の違いにより比較的暗く撮影される。したがって、目周辺の画像から最も暗い部分を検出することにより瞳孔が撮影されている領域を検出することができる。
【0079】
ステップ405で、眼球の中心位置81と瞳孔の中心位置83とを結ぶベクトルから視線方向が求められる。図14は、この様にして求められた視線方向を水平面および垂直面に対する角度として示している。図14では、眼球の中心位置が参照番号81で示され、眼球表面上に存在する瞳孔の中心が参照番号82に示されている。図14のaは、画像上平面をxy座標とした場合に眼球の中心位置81と瞳孔の中心位置83とを結ぶベクトル(視線ベクトル)を示している。カメラの光軸方向をz軸とすると、図14のaに対応する側面図は図14のbで示される。垂直面(この場合yz平面)に対する視線方向は、視線ベクトルがxz平面に対してなす角度85で表される。図14のcは、図14のaの上面図を示している。この場合、水平面(xz平面)に対する視線方向は、視線ベクトルがyz平面に対してなす角度87で表される。
【0080】
この実施例では、入力画像として左右の画像を使用しているので、右画像、左画像それぞれに対して視線ベクトルを求めることができる。さらに、1つの画像につき左右両方の視線ベクトルを求めることができるので、合計4つの視線ベクトルを求めることができる。本実施例では、この4つの視線ベクトルを平均したベクトルを入力画像の視線方向として使用する。
【0081】
図3のステップ123で、顔の視線方向が検出された後で、ステップ105に戻り、新たな入力画像を使用して一連の処理が繰り返される。この繰り返しの結果、ドライバーの顔向き、顔位置、視線方向の連続的な追従をリアルタイムで実行することが可能になる。
【0082】
他の実施形態
上記の顔・視線認識装置の実施形態では、コンピュータで構成されたハードウェア構成が説明されたが、本発明はこの様な実施形態に限定されない。図15は、本発明による顔・視線認識装置を備えた自動車の1つの実施形態を示す。図15の自動車は、画像入力部33、サイドミラー91、ルームミラー93、制御装置95、赤外線投光機14を備える。
【0083】
図16は、図15に示す顔・視線認識装置を備えた自動車の機能ブロック図を示す。この機能ブロック図には、画像入力部33、赤外線投光機14、画像解析部35、個人識別部96、環境設定部97、サイドミラー・アクチュエータ98、ルームミラー・アクチュエータ99、シート・アクチュエータ100が含まれる。
【0084】
この実施形態における自動車は、図16に示す各機能ブロックを使用して2種類の動作モードを処理する。第1の動作モードは、画像解析部35が実行する顔向き・視線検出モードであり、このモードは、ドライバーの存在を検出して顔向きと視線方向の状態を連続的に検出する。第2の動作モードは、個人認証モードであり、このモードは、運転席に座っているドライバーを特定して、そのドライバーに合わせてミラーやシートなどの環境設定を実行する。
【0085】
図15に示す自動車は、通常、顔向き・視線検出モードで動作しており、ドライバーが運転席にいるかどうかを監視している。ドライバーが運転席にいる場合、ドライバーの顔向きと視線方向が常に画像解析部35により検出される。自動車は、監視された顔向きと視線方向に基づいてドライバーの状態を判断し、それに応じた様々な処理を実行することができる。
【0086】
個々のドライバーの情報は、データベース92に予め登録されている。登録されているドライバー情報は、個々のドライバーの顔のデータ、個々のドライバーに対応する環境設定情報などである。顔のデータは、画像入力部33で撮影された入力画像との照合のために個人識別部96によって使用される。この実施形態では、個人識別部96による個人認証の前に、画像解析部35がドライバーの顔の位置や向き、視線方向などの情報を取得しているので、それらの顔の情報に応じた個人認証を実行することができる。
【0087】
例えば、通常、ドライバーが斜め方向を向いている場合、個人認証の精度が低下する。しかしながら、この実施形態では、画像解析部35がドライバーの顔の位置や向き、視線方向を前もって検出しているので、その様な顔の情報に応じた個人認証を実行することができる。
【0088】
個人識別部96によって運転席にいるドライバーが特定された場合、環境設定部97は、登録された設定値を参照して、個々のドライバーのためにサイドミラー・アクチュエータ98、バックミラー・アクチュエータ99、シート・アクチュエータ100を制御する。
【0089】
以上この発明を特定の実施例について説明したが、この発明はこのような実施例に限定されるものではなく、当業者が容易に行うことができる種々の変形もこの発明の範囲に含まれる。
【0090】
【発明の効果】
本発明は、リアルタイムでの顔向き・視線方向の追従において、誤認識が減少し、高精度な画像処理を実現させることができる。
【図面の簡単な説明】
【図1】コンピュータで構成される顔・視線認識装置の実施例。
【図2】顔・視線認識装置の機能ブロック図の実施例。
【図3】画像処理部の全体的なフローチャート。
【図4】探索用テンプレートの例。
【図5】3次元顔特徴点モデルの例。
【図6】顔トラッキング部のフローチャート。
【図7】複数のテンプレートを示す図。
【図8】カメラに撮影されていない特徴点の予測方法を示す図。
【図9】カメラに撮影されていない特徴点の予測方法を示す図。
【図10】まばたき検出部のフローチャート。
【図11】入力画像から抽出された右目の領域を示す図。
【図12】視線検出部のフローチャート。
【図13】視線検出部の処理を模式的に示す図。
【図14】視線検出部により検出された視線方向を水平面および垂直面に対する角度として示した図。
【図15】顔・視線認識装置を備えた自動車の実施例。
【図16】図13に示す顔・視線認識装置を備えた自動車の機能ブロック図。
【符号の説明】
14 赤外線投光機
33 画像入力部
35 画像解析部
37 顔探索部
39 顔トラッキング部
41 まばたき検出部
43 視線検出部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a human interface in general, and more specifically to a technique for recognizing a human face direction and a line-of-sight direction using image recognition.
[0002]
[Prior art]
Human eye movements are closely related to human intentions and cautions, and research is underway to use these eye movements instead of input devices such as keyboards and mice. Such a next-generation human interface is constructed as an advanced interface that captures human actions with a camera and recognizes human intentions and attention.
[0003]
In an interface based on gaze recognition, since the movement of the gaze often follows the movement of the face, it is preferable to detect the orientation of the face at the same time as detecting the movement of the gaze. Such a face / gaze recognition device that simultaneously detects the face direction and the gaze direction is described in “Development of Face / Gaze Measurement System and Application to Motion Recognition” by Matsumoto et al. (5th Robotics Symposia, 2000/3/26 27).
[0004]
[Problems to be solved by the invention]
In the face / line-of-sight recognition device proposed by Matsumoto et al., The direction of a human face is detected three-dimensionally from an image frame taken by a stereo camera, and then the line-of-sight direction is detected based on the direction of the face. . After detecting the gaze direction, the same face orientation detection and gaze direction detection are repeated using the newly captured image frame. The detection of the face direction and the line-of-sight direction is repeated at a speed corresponding to the image frame shooting speed by the video camera, and the face direction and the line-of-sight direction can be tracked in real time.
[0005]
Since tracking of the face direction / gaze direction in this way requires high-speed image processing, the face / gaze recognition device should follow the face direction / gaze direction in real time if unnecessary computation time occurs. Can not be. Therefore, in the face / gaze recognition device, it is desirable to reduce misrecognition and improve accuracy.
[0006]
An object of the present invention is to reduce as much as possible errors that generate unnecessary computation time in order to realize high-speed image processing in real-time tracking of the face direction and the line-of-sight direction.
[0007]
[Means for Solving the Problems]
In order to solve the above-described problems, a face / gaze recognition apparatus according to the present invention includes a plurality of cameras that capture a user's face, a detection unit that detects a face orientation from an image output of the camera, and an image output of the camera. Means for detecting whether or not the user's eyes are open from an image area around the eye being photographed, and in response to the user's eyes being opened, from the image output of the camera, Means for detecting a direction.
[0008]
According to this invention, since the opening / closing of the user's eyes is detected before the user's line-of-sight direction is detected, errors in the detection of the line-of-sight direction can be avoided.
[0009]
According to one aspect of the present invention, the means for detecting whether or not the eye is open detects a horizontal edge included in an image area around the eye, and the horizontal edge included in the image area Configured to detect whether the eyes are open according to the percentage of
[0010]
According to this form, when the eyes are open, the image area around the eyes contains many vertical and diagonal edges, but when the eyes are closed, there are relatively many horizontal edges. Therefore, it is possible to detect whether or not the eyes are open by detecting the edge in the horizontal direction and examining the ratio.
[0011]
According to one aspect of the present invention, the face direction detecting means can select each of one or more feature points corresponding to a characteristic face portion from a plurality of templates prepared according to the face direction. Means for selecting one template for feature points, and means for extracting one or more image regions corresponding to the feature points from the image output, each using the selected template. , Configured to detect the face orientation of the user based on the extracted one or more image regions.
[0012]
According to this mode, since an optimal template is selected from a plurality of templates according to the face orientation for each feature point, and template matching is executed using the selected template, template matching is performed. Errors can be reduced.
[0013]
According to one aspect of the present invention, the template selecting means selects one template from the plurality of templates for the current image output based on the face orientation detected from the previous image output. Composed.
[0014]
According to this form, the previous image output and the current image output are continuous image frames, and the face orientation in the previous image and the face orientation in the current image have a relatively high correlation. A template corresponding to the face orientation relatively close to the orientation can be selected from a plurality of templates.
[0015]
According to one aspect of the present invention, in the face / line-of-sight recognition device, the image area extraction unit includes feature points that have not been captured in the current image output based on the face orientation detected from the previous image output. Judgment is made so that extraction of an image region corresponding to a feature point that has not been photographed is not processed.
[0016]
According to one aspect of the present invention, it is possible to avoid template matching related to feature points that are not photographed in the current image output, and thus it is possible to avoid errors in the face / gaze recognition device.
[0017]
According to one aspect of the present invention, the image output of the camera of the face / line-of-sight recognition device is a near-infrared image, and the line-of-sight direction detection means determines the position of the pupil from the brightness of the image around the eyes. It detects, and it is comprised so that a gaze direction may be detected from the center position of the detected pupil, and the center position of the eyeball.
[0018]
According to this form, the pupil imaged in the near-infrared image is imaged relatively dark due to the difference in reflectance from the iris, so the pupil is imaged by detecting the darkest part from the image around the eyes. Can be detected.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings. FIG. 1 shows an embodiment of a hardware configuration in a face / line-of-sight recognition apparatus. In this embodiment, the face / line-of-sight recognition device is configured by a computer, but is not necessarily limited to such a hardware configuration.
[0020]
1 includes two video cameras (
[0021]
The two video cameras are installed on the front left and right of the person to be photographed, and photograph the face to be photographed in stereo. Each video camera (11, 13) is controlled via a camera control unit (15, 17). The camera control units are interconnected via an external sync signal line, and the left and right video cameras are synchronized by this sync signal, and two image frames taken at the same time at the left and right positions are taken. can get. The face / line-of-sight recognition apparatus can process three-dimensional object recognition using a stereo method using two image frames taken at the same time at left and right positions as input images.
[0022]
The
[0023]
The first reason for using near-infrared light as illumination is to improve the robustness of the image against illumination variations. In general, the brightness around a subject to be photographed varies greatly depending on environmental changes such as indoors or outdoors or during the day or at night. Further, when strong visible light strikes the face from one direction, a shaded gradation is generated on the face. Such illumination fluctuations and shade gradations significantly deteriorate the accuracy of image recognition.
[0024]
In this embodiment, the
[0025]
The second reason for using near-infrared light is that the pupil of the eye can be extracted clearly. Since the position of the pupil is used to detect the gaze direction, it is important to photograph the pupil clearly.
[0026]
The
[0027]
The
[0028]
FIG. 2 shows a functional block diagram of the face / gaze recognition apparatus implemented by the hardware shown in FIG.
[0029]
The
[0030]
The
[0031]
FIG. 3 shows an overall flowchart of the
[0032]
In the flowchart of FIG. 3, the process of the
[0033]
Processing of the
[0034]
First, in
[0035]
FIG. 4 shows an example of the
[0036]
Since the search in
[0037]
In the case of template matching using an image of the
[0038]
Face tracking
The
[0039]
The
[0040]
The three-dimensional face
[0041]
The
[0042]
This extraction process will be described with reference to the flowchart of FIG. 3. First, in
[0043]
In
[0044]
In
[0045]
In
[0046]
As described above, the three-dimensional face
[0047]
When the three-dimensional face
[0048]
[Expression 1]
[0049]
Where N is the number of feature points and xiAre the three-dimensional coordinates of each feature point in the model, yiRepresents the three-dimensional coordinates of each feature point from the input image. ωiIs a weighting coefficient for each feature point, and uses a correlation value in stereo matching when the three-dimensional position of the feature point is obtained from the input image. By using this correlation value, the reliability of each feature point can be considered. The rotation matrix is R (φ, θ, ψ), the translation vector is represented by t (x, y, z), and these are variables in this equation.
[0050]
Therefore, if the rotation matrix R and the translation vector t that minimize the fitting error E in the above equation are obtained, the face orientation and face position of the input image can be obtained. This calculation is performed by using a least square method or a fitting method using a virtual spring model.
[0051]
In
[0052]
FIG. 6 shows a more detailed flowchart of the
[0053]
In the flowchart of FIG. 6, it is shown that a plurality of templates are used for one feature point. Multiple templates for one feature point are used to reduce errors in template matching and improve the accuracy of face orientation detection. Further, in this flowchart, feature points that are not photographed by the camera are predicted, and processing is performed so as not to perform template matching of feature points that are not photographed.
[0054]
First, processing of the
[0055]
The objects (such as the left and right eyebrows, the left and right eyes and corners of the eyes, and both ends of the mouth) captured in the image of each feature point in the three-dimensional face
[0056]
For example, when only the feature point template created from the front face image is used for template matching, an error may occur when the face of the input image is directed diagonally. In order to avoid such an error caused by the difference in the appearance of each feature point, a template for each feature point created from each face-oriented image is used.
[0057]
When a plurality of templates are used for one face feature point, a template to be used for this template matching is selected based on face information (face orientation) in the previous input image. That is, based on face information in the previous input image, an optimum template is selected from a plurality of templates prepared in advance, and the selected template is used for template matching of feature points in the current frame.
[0058]
FIG. 7 is a diagram showing a plurality of templates for one feature point, and specifically shows an example of a plurality of templates for the feature point of the right eye corner. FIG. 7a shows a state when the head is facing left and right with respect to the camera, and FIG. 7b shows a state when the head is facing front with respect to the camera. C indicates a state when the head is rotated with respect to the optical axis of the camera. The right eye corner template corresponding to FIG. 7a is indicated by
[0059]
As can be seen with reference to FIG. 7, even in the same right eye corner image, the appearance of the image changes according to the posture of the head. For this reason, the
[0060]
Of these sets of templates, only one template is actually used in template matching. The selection of this template is determined based on the face information of the previous input image. Since the previous input image and the current input image are continuous image frames, the previous head posture and the current head posture should have a relatively high correlation. Therefore, in
[0061]
In the above description, a set of a total of nine right eye corner templates has been described as an example. However, a plurality of templates are prepared for other feature points, and one template is used for each of them according to face information in the previous image. Any number of templates for each feature point may be prepared as necessary.
[0062]
Next, a process for predicting feature points not photographed by the camera will be described in detail. These processes are performed in
[0063]
With reference to FIG. 8 and FIG. 9, an outline of prediction of feature points not photographed by the camera will be described. FIG. 9 shows a front view and a top view of the
[0064]
In FIG. 8, the reference position is determined based on the installation position of the camera. A vector connecting the reference position and the three-dimensional coordinates of each feature point is referred to as a “position vector” of each feature point. Furthermore, a vector in the normal direction of each feature point with respect to the curved surface obtained by connecting the coordinates of each feature point is referred to as a “normal vector” of each feature point. Whether or not each feature point is photographed by the camera can be determined by an angle θ formed by the “position vector” and the “normal vector” for each feature point.
[0065]
For example, consider the xz plane in the top view of FIG. In this case, the angle θ formed by the position vector and the normal vector for each feature point is sufficiently smaller than 90 °. Therefore, all the feature points can be taken with the camera. However, in the case of the top view of FIG. 9 with the face facing sideways, the angle θ between the position vector and the normal vector for feature 11Is approximately 90 °. In this case, the camera cannot capture the feature 1 and the template matching related to the feature 1 is likely to cause an error.
[0066]
Therefore, the
[0067]
In the above example, the xz plane has been described, but the same processing is also performed for the xy plane. Further, this process is executed for each of the two cameras constituting the stereo camera. Thereby, it is possible to avoid an error caused by a feature point that is not photographed depending on the posture of the head.
[0068]
Referring to the flowchart of FIG. 6, in
[0069]
The
[0070]
FIG. 10 is a flowchart showing in detail the process (step 115) of the
[0071]
FIG. 11 shows a
[0072]
In
[0073]
In this embodiment, it is detected whether the eyes are open for both the left and right eyes. When it is determined that either the left or right eye is closed, the detection of the face direction is processed using a new image frame without proceeding to the detection of the gaze direction.
[0074]
Line-of-
FIG. 12 shows a detailed flowchart of the line-of-
[0075]
In the line-of-
[0076]
In
[0077]
[0078]
Next, in
[0079]
In
[0080]
In this embodiment, since the left and right images are used as the input image, the line-of-sight vector can be obtained for each of the right image and the left image. Furthermore, since both the left and right line-of-sight vectors can be obtained for one image, a total of four line-of-sight vectors can be obtained. In this embodiment, a vector obtained by averaging these four line-of-sight vectors is used as the line-of-sight direction of the input image.
[0081]
After the face line-of-sight direction is detected in
[0082]
Other embodiments
In the embodiment of the face / line-of-sight recognition apparatus described above, a hardware configuration configured by a computer has been described, but the present invention is not limited to such an embodiment. FIG. 15 shows one embodiment of an automobile provided with a face / line-of-sight recognition device according to the present invention. 15 includes an image input unit 33, a
[0083]
FIG. 16 is a functional block diagram of an automobile provided with the face / gaze recognition device shown in FIG. This functional block diagram includes an image input unit 33, an
[0084]
The automobile in this embodiment processes two types of operation modes using each functional block shown in FIG. The first operation mode is a face direction / line-of-sight detection mode executed by the
[0085]
The vehicle shown in FIG. 15 normally operates in the face orientation / gaze detection mode, and monitors whether the driver is in the driver's seat. When the driver is in the driver's seat, the
[0086]
Information on individual drivers is registered in the
[0087]
For example, usually, when the driver is facing obliquely, the accuracy of personal authentication is lowered. However, in this embodiment, since the
[0088]
When the driver in the driver's seat is specified by the
[0089]
Although the present invention has been described above with reference to specific embodiments, the present invention is not limited to such embodiments, and various modifications that can be easily made by those skilled in the art are also included in the scope of the present invention.
[0090]
【The invention's effect】
According to the present invention, in the real-time tracking of the face direction and the line-of-sight direction, erroneous recognition is reduced, and high-accuracy image processing can be realized.
[Brief description of the drawings]
FIG. 1 shows an embodiment of a face / line-of-sight recognition apparatus constituted by a computer.
FIG. 2 is an example of a functional block diagram of the face / gaze recognition apparatus.
FIG. 3 is an overall flowchart of an image processing unit.
FIG. 4 shows an example of a search template.
FIG. 5 shows an example of a three-dimensional face feature point model.
FIG. 6 is a flowchart of a face tracking unit.
FIG. 7 is a diagram showing a plurality of templates.
FIG. 8 is a diagram illustrating a method for predicting feature points that are not captured by a camera.
FIG. 9 is a diagram illustrating a method for predicting feature points that are not photographed by a camera.
FIG. 10 is a flowchart of a blink detection unit.
FIG. 11 is a diagram showing a region of the right eye extracted from an input image.
FIG. 12 is a flowchart of a gaze detection unit.
FIG. 13 is a diagram schematically illustrating processing of a line-of-sight detection unit.
FIG. 14 is a diagram illustrating a line-of-sight direction detected by a line-of-sight detection unit as an angle with respect to a horizontal plane and a vertical plane.
FIG. 15 shows an example of an automobile equipped with a face / line-of-sight recognition device.
16 is a functional block diagram of an automobile provided with the face / gaze recognition device shown in FIG.
[Explanation of symbols]
14 Infrared projector
33 Image input section
35 Image Analysis Department
37 Face Search Unit
39 Face Tracking Unit
41 Blink detector
43 Gaze detection unit
Claims (3)
前記目開閉検出手段は、前記目周辺の画像領域に含まれる水平方向エッジを検出し、該画像領域に含まれている水平方向エッジの割合に応じて、目が開いているかどうかを検出し、前記カメラの画像出力は、近赤外画像であり、前記視線方向検出手段は、目周辺の画像領域の明暗から瞳孔の位置を検出し、検出された瞳孔の中心位置と眼球の中心位置から視線方向を検出する顔・視線認識装置。A plurality of cameras that capture the face of the user, face orientation detection means for detecting the orientation of the face from the image output of the camera, and the user's eyes from an image area around the eyes that are captured in the image output of the camera Eye opening / closing detection means for detecting whether the user's eyes are open, and gaze direction detection means for detecting the user's gaze direction from the image output of the camera in response to the user's eyes being opened,
The eye opening / closing detection means detects a horizontal edge included in the image area around the eye, detects whether the eye is open according to a ratio of the horizontal edge included in the image area , The image output of the camera is a near-infrared image, and the line-of-sight direction detecting means detects the position of the pupil from the brightness of the image area around the eye, and the line-of-sight is detected from the detected center position of the pupil and the center position of the eyeball. Face / line-of-sight recognition device that detects direction .
前記顔向き検出手段は、特徴的な顔の部分に相当する1つまたは複数の特徴点のそれぞれについて用意された複数のテンプレートから、顔の向きに応じて各特徴点のために1つのテンプレートを選択するテンプレート選択手段と、前記選択されたテンプレートをそれぞれ使用して、前記画像出力から前記特徴点に対応する1つまたは複数の画像領域を抽出する画像領域抽出手段と、を備え、前記抽出された1つまたは複数の画像領域に基づいて、前記ユーザの顔向きを検出し、
前記テンプレート選択手段は、前回の画像出力から検出された顔の向きに基づいて、今回の画像出力のために前記複数のテンプレートから1つのテンプレートを選択する顔・視線認識装置。A plurality of cameras that capture the face of the user, face orientation detection means for detecting the orientation of the face from the image output of the camera, and the user's eyes from an image area around the eyes that are captured in the image output of the camera Eye opening / closing detection means for detecting whether the user's eyes are open, and gaze direction detection means for detecting the user's gaze direction from the image output of the camera in response to the user's eyes being opened,
The face orientation detection means selects one template for each feature point according to the face orientation from a plurality of templates prepared for each of one or more feature points corresponding to a characteristic face portion. A template selection means for selecting, and an image area extraction means for extracting one or a plurality of image areas corresponding to the feature points from the image output using the selected templates, respectively, Detecting the user's face orientation based on one or more image regions;
The face selection / gaze recognition device, wherein the template selection means selects one template from the plurality of templates for the current image output based on the face orientation detected from the previous image output.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001197915A JP4898026B2 (en) | 2001-06-29 | 2001-06-29 | Face / Gaze Recognition Device Using Stereo Camera |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001197915A JP4898026B2 (en) | 2001-06-29 | 2001-06-29 | Face / Gaze Recognition Device Using Stereo Camera |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003015816A JP2003015816A (en) | 2003-01-17 |
JP4898026B2 true JP4898026B2 (en) | 2012-03-14 |
Family
ID=19035443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001197915A Expired - Fee Related JP4898026B2 (en) | 2001-06-29 | 2001-06-29 | Face / Gaze Recognition Device Using Stereo Camera |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4898026B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9898080B2 (en) | 2015-09-07 | 2018-02-20 | Samsung Electronics Co., Ltd. | Method and apparatus for eye tracking |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004259043A (en) * | 2003-02-26 | 2004-09-16 | Toyota Motor Corp | Direction detection device and direction detection method |
JP2005063041A (en) * | 2003-08-08 | 2005-03-10 | Olympus Corp | Three-dimensional modeling apparatus, method, and program |
JP4471607B2 (en) * | 2003-08-29 | 2010-06-02 | 富士通株式会社 | Eye tracking device, eye state determination device, and computer program |
US7874917B2 (en) * | 2003-09-15 | 2011-01-25 | Sony Computer Entertainment Inc. | Methods and systems for enabling depth and direction detection when interfacing with a computer program |
JP2005141655A (en) * | 2003-11-10 | 2005-06-02 | Olympus Corp | Three-dimensional modeling apparatus and three-dimensional modeling method |
US7508979B2 (en) * | 2003-11-21 | 2009-03-24 | Siemens Corporate Research, Inc. | System and method for detecting an occupant and head pose using stereo detectors |
JP4319535B2 (en) * | 2003-12-19 | 2009-08-26 | 株式会社東海理化電機製作所 | Face orientation detection device |
JP4654434B2 (en) * | 2004-11-24 | 2011-03-23 | 国立大学法人佐賀大学 | Gaze direction identification system |
JP4771797B2 (en) * | 2004-11-26 | 2011-09-14 | 株式会社デンソーアイティーラボラトリ | Distance measuring device and distance measuring method |
JP4692006B2 (en) * | 2005-02-15 | 2011-06-01 | トヨタ自動車株式会社 | Image processing apparatus and image processing method |
JP2006227736A (en) * | 2005-02-15 | 2006-08-31 | Toyota Motor Corp | Image processing device and image processing method |
JP2006244385A (en) * | 2005-03-07 | 2006-09-14 | Fuji Photo Film Co Ltd | Face-discriminating apparatus, program and learning method for the apparatus |
US7835549B2 (en) | 2005-03-07 | 2010-11-16 | Fujifilm Corporation | Learning method of face classification apparatus, face classification method, apparatus and program |
JP4622702B2 (en) * | 2005-05-27 | 2011-02-02 | 株式会社日立製作所 | Video surveillance device |
JP4774818B2 (en) * | 2005-06-07 | 2011-09-14 | トヨタ自動車株式会社 | Image processing apparatus and image processing method |
JP4734176B2 (en) * | 2006-05-22 | 2011-07-27 | 財団法人電力中央研究所 | Wire abnormality detection method, wire abnormality detection device, and wire abnormality detection program |
WO2008007781A1 (en) | 2006-07-14 | 2008-01-17 | Panasonic Corporation | Visual axis direction detection device and visual line direction detection method |
JP2008136789A (en) * | 2006-12-05 | 2008-06-19 | Nec Corp | Eyeball parameter estimating instrument and method |
JP4372804B2 (en) | 2007-05-09 | 2009-11-25 | トヨタ自動車株式会社 | Image processing device |
JP4986797B2 (en) * | 2007-10-02 | 2012-07-25 | キヤノン株式会社 | Image processing apparatus and image processing method |
JP4966816B2 (en) * | 2007-10-25 | 2012-07-04 | 株式会社日立製作所 | Gaze direction measuring method and gaze direction measuring device |
JP2009266155A (en) * | 2008-04-30 | 2009-11-12 | Toshiba Corp | Apparatus and method for mobile object tracking |
JP2010020594A (en) * | 2008-07-11 | 2010-01-28 | Kddi Corp | Pupil image recognition device |
WO2010010926A1 (en) * | 2008-07-24 | 2010-01-28 | 国立大学法人静岡大学 | Feature-point tracking method and feature-point tracking device |
JP4915413B2 (en) * | 2008-12-03 | 2012-04-11 | オムロン株式会社 | Detection apparatus and method, and program |
JP2011243141A (en) * | 2010-05-21 | 2011-12-01 | Nec System Technologies Ltd | Operation information processor, method and program |
JP5187372B2 (en) * | 2010-10-12 | 2013-04-24 | 沖電気工業株式会社 | Personal authentication system and personal authentication method |
JP5545450B2 (en) * | 2010-12-07 | 2014-07-09 | 株式会社デンソー | Face orientation detection device |
US8885882B1 (en) | 2011-07-14 | 2014-11-11 | The Research Foundation For The State University Of New York | Real time eye tracking for human computer interaction |
EP2639674B1 (en) * | 2012-03-12 | 2016-06-01 | Alcatel Lucent | Method for control of a video interface, face orientation detector, and video conferencing server |
JP5856100B2 (en) * | 2013-04-19 | 2016-02-09 | 株式会社ユニバーサルエンターテインメント | Game machine and game machine management method |
JP6187817B2 (en) * | 2013-10-09 | 2017-08-30 | アイシン精機株式会社 | Face detection apparatus, method and program |
JP6337530B2 (en) * | 2014-03-14 | 2018-06-06 | オムロン株式会社 | Image processing apparatus, image processing method, and image processing program |
JP2015194838A (en) * | 2014-03-31 | 2015-11-05 | 株式会社国際電気通信基礎技術研究所 | Line-of-sight direction estimation device and line-of-sight direction estimation method |
CN108604291A (en) * | 2016-01-13 | 2018-09-28 | Fove股份有限公司 | Expression identification system, expression discrimination method and expression identification program |
CN114666499A (en) * | 2016-05-11 | 2022-06-24 | 索尼公司 | Image processing apparatus, image processing method, and movable body |
CN110099254B (en) * | 2019-05-21 | 2023-08-25 | 浙江师范大学 | Driver face tracking device and method |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0782539B2 (en) * | 1988-07-14 | 1995-09-06 | 株式会社エイ・ティ・アール通信システム研究所 | Pupil imager |
JPH07244556A (en) * | 1994-03-04 | 1995-09-19 | Hitachi Ltd | Information terminal |
JPH09259284A (en) * | 1996-03-22 | 1997-10-03 | Nissan Motor Co Ltd | Detecting device for face position and eye position of vehicle driver |
JP3050808B2 (en) * | 1996-06-28 | 2000-06-12 | 財団法人大阪科学技術センター | Positioning device |
JPH11212715A (en) * | 1998-01-29 | 1999-08-06 | Shimadzu Corp | Line-of-sight input device |
JP2000123188A (en) * | 1998-10-20 | 2000-04-28 | Toyota Motor Corp | Eye open/close discriminating device |
JP2000132693A (en) * | 1998-10-27 | 2000-05-12 | Sony Corp | Device and method for processing picture, and providing medium |
JP2000138872A (en) * | 1998-10-30 | 2000-05-16 | Sony Corp | Information processor, its method and supplying medium |
JP2000311238A (en) * | 1999-04-28 | 2000-11-07 | Niles Parts Co Ltd | Detection device for opening degree of eye |
JP2001043382A (en) * | 1999-07-27 | 2001-02-16 | Fujitsu Ltd | Eye tracking device |
-
2001
- 2001-06-29 JP JP2001197915A patent/JP4898026B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9898080B2 (en) | 2015-09-07 | 2018-02-20 | Samsung Electronics Co., Ltd. | Method and apparatus for eye tracking |
Also Published As
Publication number | Publication date |
---|---|
JP2003015816A (en) | 2003-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4898026B2 (en) | Face / Gaze Recognition Device Using Stereo Camera | |
JP4675492B2 (en) | Personal authentication device using facial images | |
Liu et al. | Hand gesture recognition using depth data | |
US7227976B1 (en) | Method and system for real-time facial image enhancement | |
JP5016175B2 (en) | Face image processing system | |
Martin et al. | Real time head model creation and head pose estimation on consumer depth cameras | |
JP4546956B2 (en) | Target orientation estimation using depth detection | |
US11715231B2 (en) | Head pose estimation from local eye region | |
Medioni et al. | Identifying noncooperative subjects at a distance using face images and inferred three-dimensional face models | |
CN109359514B (en) | DeskVR-oriented gesture tracking and recognition combined strategy method | |
JP5001930B2 (en) | Motion recognition apparatus and method | |
US20210056291A1 (en) | Method for analysis of an intrinsic facial feature of a face | |
JP2002274265A (en) | Mirror adjusting device | |
Zhu et al. | Real time 3d face pose tracking from an uncalibrated camera | |
US11048926B2 (en) | Adaptive hand tracking and gesture recognition using face-shoulder feature coordinate transforms | |
Voit et al. | A bayesian approach for multi-view head pose estimation | |
Medioni et al. | Non-cooperative persons identification at a distance with 3D face modeling | |
Mase et al. | Real-time head motion detection system | |
Wallhoff et al. | Multimodal face detection, head orientation and eye gaze tracking | |
JP4185433B2 (en) | Real-time object detection and recognition system and computer-executable program | |
Park et al. | Head segmentation and head orientation in 3d space for pose estimation of multiple people | |
Bebis et al. | An eigenspace approach to eye-gaze estimation | |
Chu et al. | Real time body pose tracking in an immersive training environment | |
Shafi et al. | Face pose estimation using distance transform and normalized cross-correlation | |
US20240112496A1 (en) | Image processing apparatus, authentication system, method, and non-transitory computer-readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080526 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100618 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110706 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110706 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111206 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111226 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150106 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |