JP4729188B2

JP4729188B2 - 視線検出装置

Info

Publication number: JP4729188B2
Application number: JP2001089886A
Authority: JP
Inventors: 仁志本郷
Original assignee: Japan Science and Technology Agency; Sanyo Electric Co Ltd; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; Sanyo Electric Co Ltd; National Institute of Japan Science and Technology Agency
Priority date: 2001-03-27
Filing date: 2001-03-27
Publication date: 2011-07-20
Anticipated expiration: 2021-03-27
Also published as: JP2002282210A

Description

【０００１】
【発明の属する技術分野】
本発明は、視線検出装置に関するものである。
【０００２】
【従来の技術】
従来より、人物の視線や動作など、人間をセンシングして得られる情報と、物体センシングにより構築された周辺環境とから、その人の要望を察知し、その人の意図に適したサービスを提供することが提案されている。これらを実現するためには、人間とその周辺環境をセンシングし、その人が何を見て、どのような動作を行っているかを知ることが重要なこととなる。このとき、視線情報はその人が注目している物又は、その人の意図や状況を推定するのに欠かせない情報の１つである。
【０００３】
視線を検出する視線検出方法としては、以下のようなものが知られている。即ち、視線検出用光源を有するゴーグル型の視線検出装置を検出対象者の頭部に装着させ、前記光源から赤外光を眼部に照射する。そして、視線検出装置内に設けられた受光センサが眼部（瞳孔と角膜）にて反射する反射光を受光し、その反射光に基づいて視線を検出する。
【０００４】
【発明が解決しようとする課題】
しかしながら、上記のような視線検出方法では、頭部（眼部）にいちいちゴーグル型の装置を装着しなくてはならず、非常に煩わしいという問題があった。また、通常ゴーグル型の視線検出装置は、検出した視線に基づいて所定の処理や制御を行う制御用コンピュータ等に有線接続されているため、移動範囲が規制され、広い室内空間等では使用できないという問題があった。
【０００５】
本発明は上記問題点を解決するためになされたものであり、その目的は、装置を検出対象者に装着させることなく、広い室内空間でも好適に視線を検出することができる視線検出装置を提供することにある。
【０００６】
【課題を解決するための手段】
上記問題点を解決するために、請求項１に記載の発明は、撮像装置が撮像した画像データから、人物の顔領域を検出する第１検出部と、該人物の瞳領域と、瞳孔領域とを検出する第２検出部と、第２検出部が検出した瞳領域と瞳孔領域の位置関係に基づいて視線を推定する推定部とを備えたことを要旨とする。
【０００７】
請求項２に記載の発明は、請求項１において、第１検出部が検出した顔が正面顔か否かを判定する判定部をさらに備え、推定部は判定部が正面顔と判定した画像データのみを対象に推定を行うことを要旨とする。
【００１４】
（作用）
請求項１の発明によれば、第１検出部が撮像装置が撮像した画像データから、人物の顔領域を検出し、第２検出部が該人物の瞳領域と、瞳孔領域とを検出して、推定部が第２検出部が検出した瞳領域と瞳孔領域の位置関係に基づいて視線を推定する。
【００１５】
請求項２の発明によれば、さらに判定部が第１検出部が検出した顔が正面顔か否かを判定し、推定部は判定部が正面顔と判定した画像データのみを対象に推定を行う。
【００１９】
【発明の実施の形態】
以下、本発明の視線検出装置を具体化した一実施の形態を図１〜図１０を参照して説明する。
【００２０】
本実施形態の視線検出装置１０は、複数台の電気機器１７（例えば、テレビ、オーディオ、エアコン等）をオンオフ等の制御をする場合に、視線検出装置１０が検出した視線上の電気機器１７に対して対応するコマンド信号を付与するためのものである。
【００２１】
例えば、テレビがオフ状態（又はオン状態）の際に、テレビが配置されている方向に視線が向けられた際に、その視線を検出して、コマンド信号としてオン信号（又はオフ信号）を付与する。
【００２２】
視線検出装置１０は、撮像手段としての複数台（本実施形態では４台）のビデオカメラ（ＣＣＤカメラ）１１、カメラ用パソコン１４、メインパソコン１６等を備えている。前記ビデオカメラ１１は、複数台の電気機器１７（例えば、テレビ、オーディオ、エアコン等）が配置された地点と同一箇所に配置されている。本実施形態ではカメラ用パソコン１４が顔向き推定手段、判定手段、目領域検出手段、瞳孔検出手段、及び瞳検出手段に相当し、メインパソコン１６が視線推定手段に相当する。また、ビデオカメラ１１は任意の位置に配置されており、各ビデオカメラ１１の位置が所定ポイントに相当する。
【００２３】
各ビデオカメラ１１には、カメラ用パソコン１４がそれぞれ接続されている。カメラ用パソコン１４には、ビデオカメラ１１で撮影された個々のフレーム（画像データ）が、ビデオレートのカラー画像（６４０×４８０）として入力されるようになっている。
【００２４】
カメラ用パソコン１４はメインパソコン１６に接続されており、メインパソコン１６は、各カメラ用パソコン１４との通信をイーサネット（登録商標）を介したソケット通信で行うようにしている。また、ネットワーク・タイムサーバシステムが用いられており、メインパソコン１６がタイムサーバとして設定され、各カメラ用パソコン１４の時刻がメインパソコン１６に合わされるようになっている。又、メインパソコン１６は、各電気機器１７（例えば、テレビ、オーディオ、エアコン等）に電気的に接続されており、視線検出装置１０の視線検出結果に応じてオンオフ制御する。すなわち、現在の電気機器１７の状態に応じたコマンド信号を出力する。例えば、電気機器１７がオン状態のときには、コマンド信号としてオフ信号が、オフ状態のときには、コマンド信号としてオン信号が出力される。なお、メインパソコン１６と各電気機器１７を有線接続せずに、赤外線でコントロールしてもよく、つまり無線で制御する態様をとってもよい。
【００２５】
（作用）
以下、本実施形態の視線検出装置１０の作用について説明する。まず、視線検出装置１０が行う視線検出の概要を説明する。
【００２６】
各ビデオカメラ１１は、検出対象者Ｈを撮像し、各カメラ用パソコン１４に入力する。各カメラ用パソコン１４はビデオカメラ１１からの画像のキャプチャを行い、続いて肌色領域抽出、顔向き推定を行い、顔向き推定結果が所定条件を満たすか否かを判定し、条件を満たす画像データから目領域３２を検出する。そして、検出された目領域３２から、瞳の大きさを正規化し、瞳の中心部位（瞳中心）Ｃ１及び瞳内の瞳孔の位置（瞳孔中心）Ｃ２を算出し（図９参照）、２点間の距離を算出（計測）する。カメラ用パソコン１４はその距離の演算結果をメインパソコン１６に送信し、メインパソコン１６は、その距離の大小を比較することで複数のビデオカメラ１１のうち何れのビデオカメラ１１に視線を送っているか、即ち視線を検出する。
【００２７】
以下、図２のフローチャートを参照して詳細に説明する。
メインパソコン１６からカメラ用パソコン１４へ、開始要求信号が送信されるとこのフローチャートは開始される。そして、メインパソコン１６からカメラ用パソコン１４へ、終了要求信号が送信されるまで、Ｓ１〜Ｓ１１の処理が繰り返し行われる。
【００２８】
ステップ（以下「Ｓ」と略す）１において、まず、カメラ用パソコン１４は、ビデオカメラ１１からの画像のキャプチャを行うか否かの判定を行う。即ち、本実施形態では、ビデオカメラ１１からの画像のキャプチャは所定間隔（例えば０．３秒）毎に行われるようになっており、各カメラ用パソコン１４は、その時刻か否かを判定する。そして、画像をキャプチャする時刻であると判断した場合は（Ｓ１がＹＥＳ）、各カメラ用パソコン１４はビデオカメラ１１からの画像のキャプチャを行う（Ｓ２）。一方、カメラ用パソコン１４が画像をキャプチャする時刻ではないと判断した場合は（Ｓ１がＮＯ）、この判定を繰り返す。なお、各カメラ用パソコン１４の時刻はメインパソコン１６に合わされているため、各カメラ用パソコン１４は、同時刻に画像のキャプチャを行うようになっている。
【００２９】
（顔領域検出）
各カメラ用パソコン１４は、ビデオカメラ１１からのフレーム（画像データ、例えば図３参照）をキャプチャした後、顔領域検出を行う。顔領域検出は、色情報を用いた公知の肌色基準値による手法を用いている。本実施形態では、均等知覚色空間の１つであるCIE L*u*v 表色系を用いている。
【００３０】
まず、入力された画像データから、画像の全領域に亘り、Ｕ，Ｖ座標値による２次元色ヒストグラムを求め、予め定めた肌色有効範囲内のピーク値（度数が最大の値）を肌色基準値とする。その基準値からの色差に対して公知の判別分析法を適用して閾値を決定し、その閾値に基づいて肌色領域とその他の領域に２値化する（図４参照）。本実施形態では、検出対象者Ｈが一人の場合を想定しているため、複数の肌色領域が検出された場合には、各カメラ用パソコン１４は最大領域を顔領域３１と判定する（Ｓ３）。すなわち、抽出された複数の肌色領域にて、画素数（面積）を求め、最大面積Ｓmax の領域を顔領域３１とする。なお、以下の説明において、前記Ｕ，Ｖ座標値は、説明の便宜上ＵＶ値又はＵ値，Ｖ値というときもある。
【００３１】
（顔向き推定）
次に、Ｓ４において、各カメラ用パソコン１４は対応するビデオカメラ１１から得た画像データに基づいて顔向き推定を行う。
【００３２】
本実施形態では、顔向き推定は、４方向面特徴抽出した結果を線形判別分析により、顔向きの判別空間を作成する方法で行っている。
４方向面特徴抽出では、画像データの濃淡値の勾配により各画素での４方向（縦、横、右斜め４５度、左斜め４５度）のベクトル場を求め、方向別に分割したエッジ画像を得る。得られたエッジ画像は方向性を持った濃淡画像となる。
【００３３】
具体的には、Ｓ３において入力した画像データからPrewitt オペレータを用いて、微分フィルタとしてのプレヴィットフィルタ処理を行い、水平（横）、垂直（縦）、右上がり４５度（右斜め４５度）、右下がり４５度（左斜め４５度）の４方向のそれぞれのエッジ画像を生成する。これらのエッジ画像を、以下、方向面という。次に、これらの４方向面のそれぞれの画像を顔領域３１で正規化し、８×８に低解像度化して、各方向面の画素の濃淡値を特徴量（以下、特徴ベクトルという。）として抽出する。
【００３４】
この特徴ベクトルは４つの方向面に分けてから解像度を低くしているため、入力画像の解像度を直接低くする場合よりも、高解像度でエッジ情報が保持される。その結果、位置ずれや、形状変化の影響を受けにくく、かつ計算コストを削減して処理の高速化が可能となる。
【００３５】
次に、各カメラ用パソコン１４は線形判別分析を行う。なお、線形判別分析は、抽出された特徴量（特徴ベクトル：ｘｉ）が、どのクラスに属するかを判別するためのものであり、クラス内の分散が小さく、各クラスの平均特徴ベクトルが互いに離れるような判別空間を構成すると高い判別力が得られる。図５は判別分析に係るクラスを示した概念図である。
【００３６】
本実施形態では、予め、学習データに基づいた係数行列Ａが各カメラ用パソコン１４の記憶装置（図示しない）に記憶されている。
なお、学習データは、複数の検出対象者Ｈである人物を撮像して得た画像データに基づいたデータである。すなわち、図７に示すように、光軸を室内中心に向けるように等角度間隔（本実施形態では２２．５度間隔）で放射状に配置された１６台のビデオカメラ１１により、１６方向から得た画像データを得て、上記と同様に顔領域検出と、同顔領域３１における４方向面特徴抽出を行い、特徴ベクトルｘを求める。
【００３７】
ｘ＝｛ｘ１，ｘ２，……ｘ２５６｝
なお、１６台のビデオカメラ１１を使用する代わりに、例えば、１台のビデオカメラ１１を使用して、検出対象者Ｈが室内中心を中心に等角度毎に回転するたびに撮像し、そのときの画像データを学習用データに使用しても良い。
【００３８】
この特徴ベクトルｘから判別空間の特徴ベクトルｙ（＝Ａｘ）へ線形写像する係数行列Ａが求められており、かつ各クラス（本実施形態では学習データを取り込むときに使用した２２．５度間隔に配置したビデオカメラ１１に応じた１６のクラス）が生成され、クラスの平均特徴ベクトルｙj が算出されている。そして、前記係数行列Ａと、各クラスの平均特徴ベクトルｙj のデータが、予め各カメラ用パソコン１４の記憶装置に格納されている。
【００３９】
なお、本実施形態では、クラス番号ｊは、０、２２．５、４５、６７．５、９０、１１２．５、１３５、１５７．５、１８０、−１５７．５、−１３５、−１１２．５、−９０、−６７．５、−４５、−２２．５の等差となる１６の値である。図７に示すように、各クラス番号（数値）はカメラ用パソコン１４に係るビデオカメラ１１の光軸（カメラ方向）に対する相対顔方向（相対的な顔向き）とのなす角度と一致する。図７は検出対象者Ｈを中心に２２．５度間隔で１６方向に配置したビデオカメラ１１の配置を示し、各カメラから検出対象者Ｈを撮像した場合の、各カメラから得られる画像データに対するクラス付与の内容を示している。同図において、例えば−２２．５が付与されたカメラから検出対象者Ｈを撮像した画像データには、クラス−２２．５が付与される。本実施形態では、相対顔方向に係るクラス番号０度が、正面顔を撮像した場合としている。なお、「−」は、図７において、当該ビデオカメラ１１の光軸から反時計回り方向の角度を示す。
【００４０】
そして、未知データの識別を行う線形判別分析では、前記係数行列Ａに基づいて、未知データから抽出した４方向面特徴に係る特徴ベクトルｘi を写像変換し、特徴ベクトルｙi （＝Ａｘi ）を生成する。次に、生成された特徴ベクトルｙi と、各クラスの平均特徴ベクトルｙj とのユークリッド距離の２乗である距離（以下、２乗距離という）Ｄijを、以下の式（１）で演算し、２乗距離Ｄijが最小値となるクラスを決定することにより、パターン認識を行う（図６参照）。その後、最小値を含む下位３つの２乗距離Ｄijの値に対応したクラスを用いて以下の式（２）にて、カメラ方向（ビデオカメラ１１の光軸γが向く方向、図１参照）と相対顔方向（光軸γに対する相対的な顔向き）βとのなす角度Ｆを推定する。なお、図６中のＤｊは、ｉが省略されており、本明細書中では、Ｄijに相当する。
【００４１】
Ｄij＝｜ｙi −ｙj ｜² …（１）
【００４２】
【数１】

なお、式（２）において、ｉはクラス番号を示し、本実施形態ではｎ＝３を想定している。このため、最小値を含む下位３つの２乗距離Ｄijに対応したクラス番号が、最小値に対応するクラス番号から順にｉに代入される。θは各クラスにおける顔向きの相対角度（カメラ方向に対する相対顔方向のなす角度＝クラス番号）を示す。また、式（２）中において、２乗距離Ｄijはj が省略されている。
【００４３】
（顔向き判定）
Ｓ５においては、各カメラ用パソコン１４はＳ４で行った顔向き推定の結果を利用して、相対顔方向においてその推定された顔向きの角度が所定角度（本実施形態では±２０度）範囲内であるか否かを判定する。そして、所定角度内であれば（Ｓ５がＹＥＳ）、Ｓ６に進む。なお、この推定された角度が所定角度（例えば±２０度）範囲内であるか否かという条件を、本実施形態では所定条件ということがある。
【００４４】
このとき、ビデオカメラ１１は、一定間隔毎に配置していないため、相対顔方向の角度Ｆが所定角度（±２０度）内である画像データ、換言すれば、前述した所定条件を満たす画像データは１つとは限らない。従って、本実施形態では、相対顔方向の角度Ｆが所定角度内の正面顔を撮像したカメラ１１が２つあり、ビデオカメラ１１Ａ及びビデオカメラ１１Ｂで捉えた画像データが視線が向けられた候補、即ち、所定条件を満たし、後述する目領域検出の対象として判断されたものとして、以下の説明を続ける。なお、推定された顔向きの角度Ｆが所定条件を満たしていない（Ｓ５がＮＯ）と判定したカメラ用パソコン１４は、今回の画像データについては、以下のステップを行わず、このフローチャートを終了する。
【００４５】
（視線検出）
次のＳ６〜Ｓ１０の概要を説明すると、ビデオカメラ１１Ａ及びビデオカメラ１１Ｂにおけるカメラ用パソコン１４は、顔領域３１の中から目領域３２を検出する（図９参照）。そして、瞳領域３５を検出すると共に、その瞳領域３５の大きさを正規化し、さらにそこから瞳孔領域３６を検出し、瞳中心Ｃ１と瞳孔中心Ｃ２を算出して両位置間の距離を演算（計測）する。そして、その距離の演算結果をメインパソコン１６に送信する。メインパソコン１６はビデオカメラ１１Ａ，１１Ｂの各カメラ用パソコン１４から受信した前記距離の演算結果を比較して視線を検出（推定）する。本実施形態では、瞳中心Ｃ１が第１所定部位、瞳孔中心Ｃ２が第２所定部位にそれぞれ相当する。
【００４６】
（目領域検出）
さて、Ｓ６において、まず、カメラ用パソコン１４は、画像データについて肌色基準値を再算出し、肌色領域を抽出する。抽出された肌色領域のうち、最大領域を顔領域３１と判定する。
【００４７】
カメラ用パソコン１４は、その顔領域３１に基づき、４方向面特徴と色差面特徴を用いたテンプレートマッチング手法により、それぞれ目領域３２、並びに口領域を検出する。
【００４８】
ところで、今回の画像データの１つ前に本フローチャートを用いて処理された画像データにおいて、このＳ６で目領域３２及び口領域が検出されていた場合は、前回の検出結果に基づいて、今回得られた顔領域３１を所定領域削除し、顔領域３１が前記所定領域分狭められた探索範囲として設定されるようになっている。そして、今回の画像データに関しては、前記探索範囲が用いられ、テンプレートマッチング手法により目領域３２及び口領域の検出が行われる。なお、テンプレートマッチングを行った結果、前記探索範囲に対して目領域３２及び口領域が検出されなかった場合は、再度、顔領域３１に対して両領域の検出が行われるようになっている。
【００４９】
ここで、前記テンプレートマッチング手法について説明する。
この手法は、得られた画像データから、前述した４方向面特徴抽出にて４方向面特徴（方向面）、及びＵ，Ｖ座標値による色差面特徴を抽出し、肌色領域抽出で得られた肌色領域（顔領域３１）又は探索範囲に対して、右目、左目、口の各テンプレートを用いて類似度を計算する。
【００５０】
なお、前記色差面特徴は、肌色基準値からのＵ値の差、及びＶ値の差を示すものである。また、前記テンプレートとは、予め、右目、左目、口の画像を複数枚用意し、４方向面特徴及び色差面特徴を抽出した画像データを、所定比率で縮小し、横幅を所定ピクセル（例えば３２ピクセル）に揃え、大きさの正規化を行う。そして、４方向面特徴に関しては、エッジ方向情報を４方向に分解し、さらに、４方向面特徴及び色差面特徴に対してガウシャンフィルタで平滑化し、各画像データを８×８の解像度に変換したものである。このテンプレートは、記憶装置（図示しない）に記憶されている。
【００５１】
そして、前記テンプレートＴと画像データ（入力画像）Ｉとの４方向面特徴の類似度ａを以下の式（３）で算出し、色差面特徴の類似度ｂを以下の式（４）で算出する。
【００５２】
【数２】

（３）、（４）式中、Ｉは入力画像を示し、Ｔはテンプレートを示す。ｉ、ｊは、１〜ｍ、１〜ｎの値であり、ｍ×ｎ画素のテンプレート及び入力画像に対応している。（ｘ，ｙ）は入力画像の左上座標を示す。また、（４）式中Ｔｕ，ＴｖはテンプレートのＵＶ値、Ｉｕ，Ｉｖは画像データのＵＶ値を示し、Ｕmax ，Ｖmax はＵＶ値の最大範囲を示す。本実施形態では、CIE L*u*v 表色系を用いており、このＣＩＥＬＵＶ表色系において、処理の高速化及び記憶装置の空間を節約するため、Ｕmax ＝２５６，Ｖmax ＝２５６としている。
【００５３】
次いで、これらの式（３），（４）で算出した、各類似度ａ，ｂに基づいて、以下の式（５）により、最終的な類似度ｃを算出する。
ｃ＝Ｗa ×ａ＋Ｗb ×ｂ …（５）
（５）式中Ｗａ，Ｗｂは、重み付けとして、各類似度ａ，ｂに掛け合わせられる所定の定数であり、Ｗa ＋Ｗb ＝１を満たしている。なお、本実施形態では、Ｗa ＝Ｗb ＝０．５としている。
【００５４】
その演算結果を元に、前記類似度ｃが予め設定された閾値以上の箇所を、目の候補領域とする。そして、入力画像（画像データ）には、左上座標が予め付与されており、その座標に基づき目、口の位置関係が把握できる。従って、その座標に基づいて、例えば、目は口より上にある、右目と左目の配置等、目、口の大まかな位置関係（座標位置）を満たし、最も類似度ｃの高い組み合わせを目領域３２並びに口領域として決定する。この結果、顔領域３１の中で目領域３２が検出される。
【００５５】
（瞳検出）
次にＳ７において、検出された目領域３２からカメラ用パソコン１４は瞳の中心Ｃ１を検出する瞳検出を行う。なお、本実施形態では、Ｓ６にて検出された目領域３２のうち何れか一方（例えば右目）の目領域３２について、以下に説明する瞳検出及び瞳孔検出を行う。
【００５６】
まず、目領域画像の彩度値ヒストグラムを作成して、公知の判別分析法を適用し、顔領域３１を目領域３２と肌領域（顔領域の目領域３２以外の領域）とに分離する。一般的に、肌領域の彩度は高く、目領域３２の彩度は低い。このため、この分離処理はその特性を利用している。次いで、前記目領域画像の輝度ヒストグラムを作成して、公知の判別分析法を適用し、分離された目領域３２を、瞳領域３５と白目領域３４とに分割する。
【００５７】
その後、瞳領域３５の検出結果を元に、瞳領域３５を縮小又は拡大し、所定の大きさに正規化する。そして、瞳領域３５に対して円形状の補完を行う。この際、前述したように、彩度値ヒストグラム及び輝度ヒストグラムにそれぞれ判別分析法を適用して分割することで得られた瞳領域３５内には図８（ａ）に示すように、瞼による陰影３５ａの存在が考えられる。このとき、通常、画像の濃淡値を８ビットで表した場合、濃淡値０が黒、濃淡値２５６が白となる。従って、領域分割結果における濃淡値０（黒色）の領域に対して、水平射影ヒストグラムを作成し（図８（ｂ）参照）、同ヒストグラムにおいて縦軸方向の上部に示されるように、極端なピークをもつ部分を予め設定された閾値に基づいて削除する。つまり、瞼による陰影３５ａの部分は該ヒストグラム上でピークとして現れ、それを削除することで、図８（ｃ）に示すような、瞳領域３５のみが抽出される。なお、本実施形態では、縦軸方向は、図８（ａ）〜（ｃ）及び図９において上下方向を示し、横軸方向は、図８（ａ）〜（ｃ）及び図９において左右方向を示す。
【００５８】
次に、目領域３２に対して、白目領域３４と瞳領域３５の濃淡の違いを利用して、Prewitt オペレータを用い図８（ｃ）に示す瞳領域３５のエッジ画像を生成することで、輪郭（エッジ）を抽出する。その後、その輪郭を構成する点群に対して公知のハフ変換を用いて瞳領域３５の円方程式を求める。この結果、前記円方程式から瞳中心Ｃ１が検出される（図９参照）。
【００５９】
（瞳孔検出）
次いで、Ｓ８において、検出された瞳領域３５からカメラ用パソコン１４は瞳孔の中心Ｃ２を検出する瞳孔検出を行う。このとき、瞳孔領域３６は非常に小さいため、瞳領域３４までを検出していた画像データでは、瞳孔と虹彩の濃淡の違いを判別してエッジ抽出を行うことができず、これに伴い瞳孔中心Ｃ２を検出できない。このため、ビデオカメラ１１Ａ，１１Ｂがズームアップされ、図９に示すように、目領域３２を拡大した画像データが取得される。
【００６０】
そして、瞳領域３５（虹彩）と瞳孔領域３６の濃淡の違いを利用して、Prewitt オペレータを用い、瞳孔領域３６のエッジ画像を生成することで、輪郭（エッジ）を抽出する。その後、瞳の大きさに基づいて瞳孔の大きさを推定し（例えば、瞳の１／３〜１／５）、その推定結果を利用して、前記輪郭を構成する点群に対して公知のハフ変換にて瞳孔領域３６の円方程式を求める。このとき、瞳には、様々なものが映し出されるため、前記Prewitt オペレータによる瞳孔領域３６のエッジ抽出の際には、瞳孔領域３６以外の輪郭（エッジ）が検出されるおそれがある。このため、瞳中心Ｃ１近辺で検出されたエッジのみを用い、瞳孔領域３６の検出精度を高めている。そして、前記円方程式から瞳孔中心Ｃ２が検出される（図９参照）。
【００６１】
（視線決定（カメラ決定））
次いで、Ｓ９において、図９に示すように、カメラ用パソコン１４は演算された瞳中心Ｃ１及び瞳孔中心Ｃ２から、両位置間の距離、即ち、瞳中心Ｃ１に対する瞳孔中心Ｃ２のズレ量を算出（計測）する。そして、算出したズレ量の結果を各カメラ用パソコン１４は、メインパソコン１６に送信する。なお、各カメラ用パソコン１４の時刻はメインパソコン１６に合わされているため、各カメラ用パソコン１４から送信されるズレ量はそれぞれ同時刻にキャプチャした画像データから算出されたものになっている。
【００６２】
Ｓ１０において、メインパソコン１６は、ビデオカメラ１１Ａのカメラ用パソコン１４から受信したズレ量と、ビデオカメラ１１Ｂのカメラ用パソコン１４から受信したズレ量とを比較し、視線が向けられているビデオカメラを決定する。このとき前記ズレ量が小さい方を視線が向けられているビデオカメラとする。視線が決定すると、メインパソコン１６は、視線が向けられたビデオカメラに対応する電気機器１７へコマンド信号を出力する（Ｓ１１）。このようにして視線は検出される。
【００６３】
従って、上記実施形態によれば、以下のような効果を得ることができる。
（１）上記実施形態では、カメラ用パソコン１４は、推定した顔向きの角度に基づいて、画像データが所定角度範囲内の正面顔を捉えているか否かを判定し、その条件を満たす画像データの目領域３２における瞳領域３５の大きさを正規化した後に、瞳中心Ｃ１と瞳孔中心Ｃ２を算出し、両位置のズレ量を算出する。そして、メインパソコン１６は、各ビデオカメラ１１Ａ，１１Ｂに対応したそれぞれのズレ量を比較し、そのズレ量が最も小さいビデオカメラ１１Ａに視線を向けているという視線推定を行う。このため、従来と異なり、頭部に装置を装着することなく、広い室内空間でも好適に視線を検出できる。また、正面顔を撮像するビデオカメラが複数存在する場合でも、ズレ量の比較により、視線が向けられているカメラを正確に推定できる。
【００６４】
（２）上記実施形態では、瞳孔検出を目領域３２を拡大した画像データを取得した上で行った。このため、瞳孔と虹彩の濃淡の違いを確実に判別することができ、好適に瞳孔検出を実現できる。
【００６５】
（３）上記実施形態では、視線を検出するために行う瞳孔検出を、ズームアップしたビデオカメラ１１で捉えた画像データに対して、Prewitt オペレータを用いて輪郭（エッジ）を抽出し、さらにその点群に対してハフ変換を行うことで実現した。このため、例えば各ビデオカメラ１１に光源を設け、その光源からそれぞれ赤外光を照射し、瞳領域３５（瞳孔）から反射した反射光に基づいて、瞳孔中心Ｃ２を検出する場合と異なり、赤外光が乱れ飛び合い、赤外光同士がノイズとなるという問題が発生することはなく、簡便に瞳孔中心Ｃ２の検出ができる。
【００６６】
（４）上記実施形態では、視線を検出するために、瞳中心Ｃ１を検出し、更に瞳孔中心Ｃ２を検出する。そして、視線の最終判断において、瞳中心Ｃ１と瞳孔中心Ｃ２とのズレ量に基づいて、どのビデオカメラに視線を向けているかを決定した。このため、目領域３２内における他の部位同士のズレ量を元に視線を検出する場合と異なり、最も正確に視線の方向を検出できる。
【００６７】
（５）上記実施形態では、瞳孔検出に際して、瞳中心Ｃ１近辺で検出されたエッジのみを用いて、ハフ変換で瞳孔領域３６の円方程式を求めている。通常、瞳孔は、瞳中心Ｃ１の近辺に位置することが多いため瞳孔領域３６の検出精度を高めることができる。
【００６８】
なお、上記実施形態は以下のように変更してもよい。
・上記実施形態において、瞳孔検出を以下のような手法で行ってもよい。即ち、赤外光を照射するための光源をビデオカメラ１１に備える。赤外光を用いた場合、瞳孔領域は白く映し出される。このとき、輝度の高い範囲が瞳孔領域３６に相当し、輝度の低い範囲が虹彩領域に相当する。そして、閾値に基づく２値化により、瞳孔領域３６（輝度の高い（明るい）範囲）を検出する。そして、前記瞳孔領域３６の重心を算出し、その重心を瞳孔中心Ｃ２とする。なお、この際も、瞳孔領域３６を好適に捉えるためにビデオカメラ１１によるズームアップは行われる。
【００６９】
このようにした場合、瞳領域３５に赤外光が照射されるタイミングはメインパソコン１６によって制御される。即ち、Ｓ４において、各カメラ用パソコン１４で推定された相対顔方向の角度Ｆがメインパソコン１６に入力され、その角度Ｆが所定条件を満たしているか否かの判断（Ｓ５の処理）がメインパソコン１６で行われる。そして、メインパソコン１６は所定条件を満たしているカメラ用パソコン１４に対して制御信号を出力し、所定のビデオカメラ１１Ａ，１１Ｂにおいて、各光源から順次赤外光を照射させるとともに、そのカメラ１１Ａ，１１Ｂに対応するカメラ用パソコン１４にＳ６〜Ｓ９の処理を再び行わせる。なお、メインパソコン１６から制御信号出力されなかったカメラ用パソコン１４については、今回の画像データに関してはＳ６以降の処理は行わない。
【００７０】
このようにしても、各ビデオカメラ１１Ａ，１１Ｂの光源からタイミングが制御された赤外光が照射されるため、赤外光が乱れ飛び合い、赤外光同士がノイズとなることはなく、簡便に瞳孔中心Ｃ２の検出ができる。また、赤外光により、瞳領域内において瞳孔領域を明確に判別できる。この場合、メインパソコン１６が判定手段に相当する。
【００７１】
・また、赤外光を用いた場合でも、瞳孔領域３６を、Prewitt オペレータを用いたエッジ抽出及びハフ変換にて瞳孔中心Ｃ２を検出してもよい。
・上記実施形態では、視線の最終判断は、瞳中心Ｃ１と瞳孔中心Ｃ２とのズレ量に基づいて行われたが、瞳中心Ｃ１又は瞳孔中心Ｃ２の代わりに瞳領域３５における他の部位を用いて、ズレ量を求めてもよい。
【００７２】
・上記実施形態では、メインパソコン１６と各カメラ用パソコン１４との通信をイーサネット（登録商標）を介したソケット通信にて行っていたが、無線電波にて行ってもよい。
【００７３】
・上記実施形態では、瞳領域３５の円方程式の算出をハフ変換で行ったが、以下の手法で行ってもよい。即ち、Prewitt オペレータを用いて抽出された輪郭を構成する点群から公知の４点サンプリング法で４点をサンプリングする。そして、その４点を用いて、公知の最小二乗法によって瞳領域３５の円方程式を求める。
【００７４】
・上記実施形態では、Ｓ７及びＳ８における瞳検出、瞳孔検出を、Ｓ６において検出された目領域３２のうち何れか一方の目領域３２について行ったが、右・左、両方の目領域３２に対して行ってもよい。この場合、各目領域３２において算出されたズレ量の平均値が算出され、その値が、各画像データのズレ量とされ、比較される。このようにすれば、片目について、ズレ量を算出する場合と比較して、高精度に視線検出を行うことができる。
【００７５】
・上記実施形態では、視線検出を瞳中心Ｃ１と瞳孔中心Ｃ２のズレ量に基づいて行ったが、瞳孔中心Ｃ２の代わりに、図１０に示すように、目領域３２の重心Ｃ３を用いてもよい。この場合、Ｓ６において、目領域３２が検出された後に、その目領域３２を拡大又は縮小して所定の大きさに正規化し、その正規化後の目領域３２に対して、重心Ｃ３を求める。そして、Ｓ９において、瞳中心Ｃ１と目領域３２の重心Ｃ３とのズレ量を算出し、視線を推定する。このようにすれば、瞳孔中心Ｃ２を利用する場合と比較して、ビデオカメラ１１をズームアップする必要なしに視線検出ができる。即ち、瞳孔を検出できない低解像度の画像データからでも簡単な演算でズレ量を求めることができる。なお、このようにした場合、Ｓ８は必要なくなる。
【００７６】
・上記実施形態では、複数台のビデオカメラ１１が所定角度内の正面顔を撮像したとして、各カメラ用パソコン１４で算出された瞳中心Ｃ１と瞳孔中心Ｃ２とのズレ量をメインパソコン１６が比較することで、視線を検出したが、ズレ量同士の比較ではなく、閾値との比較で視線を検出してもよい。すなわち、例えば、１台のビデオカメラ１１に対応するカメラ用パソコン１４のみが、相対顔方向の角度Ｆが所定角度内であると判断した場合は、メインパソコン１６はカメラ用パソコン１４から送信されたズレ量と予め設定された閾値とを比較する。そして、前記閾値を超えた場合に、検出対象者Ｈがビデオカメラ１１に視線を向けているという視線検出を行う。
【００７７】
このようにしても、好適に視線検出を行うことができる。また、複数のカメラ用パソコン１４からズレ量がメインパソコン１６に送信された場合でも、各ズレ量をそれぞれ閾値と比較して視線検出を行うことも可能である。また、上記実施形態では、複数台のビデオカメラ１１を設置したが、１台でもよい。
【００７８】
次に、上記実施形態及び各別例から把握できる技術的思想について、それらの効果と共に以下に記載する。
（１）請求項１乃至請求項４のうちいずれか１項の視線検出装置において、前記所定ポイントは複数あり、前記判定手段が複数の画像データを正面顔であると判定した際は、前記視線推定手段は、距離計測手段が計測した距離を比較することで視線を検出する視線検出装置。このようにすれば、複数のポイントから検出対象者を撮像した場合でも、好適に視線検出を行うことができる。
【００７９】
（２）請求項３に記載の視線検出装置において、前記瞳孔検出手段による瞳孔検出は、前記撮像手段が検出対象者の目領域を拡大撮像した画像データに基づいて行われる視線検出装置。このようにすれば、簡便に瞳孔検出を実現できる。
【００８０】
【発明の効果】
以上詳述したように、請求項１の発明によれば、装置を検出対象者に装着させることなく、広い室内空間でも好適に視線を検出することができる。
【００８１】
請求項２の発明によれば、請求項１の発明の効果に加えて、推定部が判定部により正面顔と判定された画像データのみを対象とするため、より好適に視線を検出することができる。
【図面の簡単な説明】
【図１】本発明に係る実施形態の視線検出装置の構成を示すブロック図。
【図２】同じくフローチャート。
【図３】ビデオカメラが撮像した画像データの説明図。
【図４】肌色基準で抽出した画像データの説明図。
【図５】判別分析に係るクラスを示した概念図。
【図６】パターン認識の概念図。
【図７】ビデオカメラの光軸（カメラ方向）と相対顔方向とのなす角度に対する学習データ取得の説明図。
【図８】（ａ）、（ｃ）は瞳検出を示す説明図、（ｂ）は瞳検出における水平射影ヒストグラムを示す説明図。
【図９】目領域を示した説明図。
【図１０】別の実施形態における目領域を示した説明図。
【符号の説明】
Ｈ…検出対象者、Ｃ１…瞳中心、Ｃ２…瞳孔中心、
１１…ビデオカメラ（撮像手段）、１４…カメラ用パソコン（顔向き推定手段、判定手段、目領域検出手段、瞳孔検出手段、瞳検出手段）、１６…メインパソコン（視線推定手段）、３１…顔領域、３２…目領域。

Claims

撮像装置が撮像した画像データから、人物の顔領域を検出する第１検出部と、
該人物の瞳領域と、瞳孔領域とを検出する第２検出部と、
第２検出部が検出した瞳領域と瞳孔領域の位置関係に基づいて視線を推定する推定部とを備えたことを特徴とする視線検出装置。
第１検出部が検出した顔領域から、画像データが正面顔か否かを判定する判定部をさらに備え、
推定部は判定部が正面顔と判定した画像データのみを対象に推定を行う、請求項１に記載の視線検出装置。