JP4774818B2

JP4774818B2 - 画像処理装置及び画像処理方法

Info

Publication number: JP4774818B2
Application number: JP2005167300A
Authority: JP
Inventors: 雅道大杉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2005-06-07
Filing date: 2005-06-07
Publication date: 2011-09-14
Anticipated expiration: 2025-06-07
Also published as: JP2006343859A

Description

本発明は、撮像画像から物体についての様々な情報を検出する画像処理装置及び画像処理方法に関する。

画像処理には、カメラで撮像した撮像画像から顔などの対象物体を検出し、物体を検出できた場合にはその物体の位置や姿勢を推定するものがある。このような画像処理の手法としては、対象物体を様々な視点や位置から撮像した多数の参照画像を予め用意しておき、入力される撮像画像と各参照画像とのマッチングをそれぞれ行い、類似する参照画像を探すことによって撮像画像上における対象物体を検出する手法がある。また、他の手法としては、対象物体を撮像した画像から抽出した複数の特徴点の参照画像を予め用意しておき、入力される撮像画像とその複数の特徴点の参照画像とのマッチングをそれぞれ行い、撮像画像上で各参照画像と類似する位置をそれぞれ探索し、その撮像画像上での複数の特徴点の位置関係に矛盾がないか否かを判定することによって撮像画像上における対象物体を検出する手法がある（特許文献１参照）。
特開２００４−２５２５１１号公報

しかしながら、１つの目の手法の場合、物体の画像上での見え方は物体の向き、位置、照明条件などによって大きく変化するので、それらのバリエーションを全て網羅するような参照画像を予め用意しておかないと、それらの変化が生じた撮像画像内において対象物体を検出できない。全てのバリエーションの参照画像を用意した場合、膨大なデータ量となり、処理負荷が増大し、処理時間を非常に要する。また、２つの目の手法の場合、画像上で特徴点を探索する際に物体の向き、位置、照明条件が生じると、特徴点を抽出できなかったりあるいは誤った点を特徴点として抽出する場合ある。また、個別に複数の特徴点を探索するので、特徴点の位置決め精度が劣化する場合がある。

そこで、本発明は、少ないデータ量により撮像画像から対象物体についての情報を高精度に検出することができる画像処理装置及び画像処理方法を提供することを課題とする。

本発明に係る画像処理装置は、撮像手段と、対象物体の二次元画像上の３つ以上の特徴点についての特徴点としての確からしさを評価するための評価情報と三次元位置情報からなるテンプレートを保持する情報保持手段と、対象物体の位置又は／及び姿勢の推定値を複数生成する推定値生成手段と、撮像手段で撮像した撮像画像と情報保持手段で保持している３つ以上の特徴点についての各テンプレートに基づいて推定値生成手段で生成した複数の推定値の適合度を算出する適合度算出手段と、適合度算出手段で算出した複数の推定値の適合度に基づいて撮像手段で撮像した撮像画像における対象物体の有無、位置又は／及び姿勢を判断する判断手段とを備え、適合度算出手段は、推定値生成手段で生成した各推定値によりテンプレートの各特徴点の三次元位置を変換し、当該変換した三次元位置を撮像手段で撮像された撮像画像に投影し、当該投影位置での特徴点の確からしさをテンプレートの評価情報と撮像画像の投影位置周辺の情報に基づいて評価し、当該評価値に基づいて適合度を算出することを特徴とする。

この画像処理装置は、情報保持手段に対象物体の二次元画像上での複数の特徴点についてのテンプレートを保持している。テンプレートは、二次元画像上において各特徴点がその点であることの確からしさを評価するための評価情報（例えば、輝度画像（輝度パターン）、輝度ヒストグラム、エッジ画像、輝度画像に対するフーリエ変換による周波数特性）と特徴点間の三次元上での位置関係を示すための三次元位置情報（例えば、三次元モデルの三次元座標）からなる。画像処理装置では、撮像手段により撮像し、二次元画像を取得する。画像処理装置では、推定値生成手段により対象物体の撮像手段に対する位置又は／及び姿勢の推定値を複数生成する。そして、画像処理装置では、適合度算出手段により、推定値毎に、撮像画像と複数の特徴点についての各テンプレートに基づいて、三次元的な位置関係を考慮して複数の特徴点の確からしさを評価し、その複数の特徴点に対する評価から推定値が撮像画像における対象物体の位置又は／及び姿勢に対して適合している度合いを算出する。複数の特徴点についての三次元的位置関係を保持した上で個々の特徴点らしさを評価することにより、推定値の位置や姿勢が実際の位置や姿勢に合っているか否かを求めている。さらに、画像処理装置では、判断手段により、複数の推定値の適合度に基づいて、撮像画像における対象物体の有無、位置又は／及び姿勢を判断する。適合度が高いほど推定値の位置又は／姿勢が撮像画像における対象物体の位置又は／及び姿勢に適合している度合いが高いので、適合度が高い推定値を用いることによって対象物体が撮像画像内に存在するか否かを判断できるとともに位置又は／及び姿勢が判る。このように、画像処理装置では、各特徴点についての評価情報と三次元位置情報を保持し、画像全体ではなく各特徴点に対して処理を行うので、少ないデータ量に処理可能であり、処理負荷が軽く、処理時間も短い。また、画像処理装置では、位置や姿勢に対する様々な推定値を生成し、各推定値の適合度を求めているので、対象物体の各種変動に対してロバスト性があり、撮像画像における対象物体の有無、位置、姿勢を高精度に判断することができる。

本発明の上記画像処理装置では、推定値生成手段は、撮像手段で過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値、対象物体が構造上取りうる位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて推定値を生成する構成としてもよい。

この画像処理装置の推定値生成手段では、撮像手段で過去に撮像した撮像画像（例えば、前フレームの撮像画像）における対象物体の位置又は／及び姿勢に関する値、対象物体が構造上取りうる位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて推定値を生成する。つまり、推定値をランダムに生成するのではなく、対象物体が取りうる可能性の高い位置や姿勢を基準にして推定値を生成する。このように、画像処理装置では、推定値を生成する範囲を絞ることによって、無駄な推定値を生成せず、処理負荷を軽減することができる。

なお、撮像手段で過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値は、撮像手段で撮像している過程で順次得られる撮像画像から判断された位置や姿勢自体あるいはその位置や姿勢を示す他の値であり、例えば、前フレームの撮像画像から判断された対象物体の位置や姿勢である。対象物体が構造上取りうる位置又は／及び姿勢に関する値は、対象物体がおかれている環境や対象物体と撮像手段との位置関係などから物理的に決まる対象物体が動作可能な位置や姿勢の範囲である。対象物体の位置又は／及び姿勢の履歴は、対象物体が過去にとっていた位置や姿勢を蓄積し、対象物体個々の位置や姿勢の傾向を示すものであり、対象物体のとる可能性の高い位置や姿勢を示すことになる。

本発明の上記画像処理装置では、推定値生成手段は、撮像手段で過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて複数生成する推定値の密度を変える構成としてもよい。

この画像処理装置の推定値生成手段では、撮像手段で過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて複数生成する推定値の設定間隔を変える。つまり、複数の推定値を生成する際に位置や姿勢を一定間隔とするのではなく、対象物体がとる可能性の高い位置や姿勢付近では推定値の設定間隔を狭くし（密度を高くし）、対象物体がとる可能性の低い位置や姿勢付近では推定値の設定間隔を広くする（密度を低くする）。このように、画像処理装置では、複数の推定値の密度を変えることによって、推定値の数を削減でき、処理負荷を軽減することができる。

この画像処理装置の適合度算出手段では、推定値毎に、各推定値の位置又は／及び姿勢に応じてテンプレートの各特徴点の三次元位置をそれぞれ変換し、当該変換した各三次元位置を二次元の撮像画像上にそれぞれ投影する。つまり、各特徴点の基準の三次元位置を推定値の位置や姿勢に応じて移動させ、推定値の位置や姿勢に応じた三次元位置の特徴点の撮像画像上の二次元位置を求める。そして、適合度算出手段では、各特徴点についてテンプレートの評価情報と撮像画像の投影位置周辺の情報に基づいて特徴点の確からしさを評価し、複数の特徴点についての評価値に基づいて適合度を算出する。つまり、推定値の位置や姿勢に応じた特徴点の三次元的な位置関係を保持した撮像画像上での投影位置で、投影位置周辺の画像情報がその位置に対応する特徴点の評価情報とどの程度類似しているかを評価することによって、推定値が撮像画像における対象物体の位置や姿勢にどれくらい適合しているかを求めている。

本発明の上記画像処理装置では、適合度算出手段は、撮像画像の投影位置周辺の情報をテンプレートの評価情報と同じ物理量に変換する。

この画像処理装置の適合度算出手段では、評価する際に投影位置周辺の画像情報をテンプレートの評価情報の物理量と同じ物理量に変換し、評価値を求める。例えば、評価情報が輝度パターンの場合、撮像画像から得られる投影位置周辺の情報を輝度パターンに変換する。

本発明の上記画像処理装置では、適合度算出手段は、投影位置における特徴点の確からしさの評価値が所定値以下の場合には一定値にするように構成してもよい。

この画像処理装置の適合度算出手段では、各投影位置での特徴点の確からしさの評価値が所定値か否かを判定し、所定値以下の場合には評価値を一定値に設定する。このように、画像処理装置では、所定値以下の悪い評価値を取り除くことによって、ノイズなどの影響によって低下している評価値が適合度に影響するのを防止する。

本発明の上記画像処理装置では、適合度算出手段は、特徴点毎の各投影位置における評価値からなるデータ構造を撮像画像における対象物体が変化する毎に生成する構成としてもよい。

この画像処理装置の適合度算出手段では、撮像画像における対象物体が変化すると（例えば、撮像画像が次フレームになると）、特徴点毎の画像上の各投影位置における評価値からなるデータ構造を生成する。このようなデータ構造を生成することにより、複数の推定値について順次評価値を求めていく過程で、ある特徴点のデータ構造において同じ投影位置の評価値が既に格納されている場合（つまり、同じ投影位置に再度投影された場合）、その投影位置については評価値を求める必要がなくなる。そのため、画像処理装置では、特徴点の同じ投影位置についての評価値を重複して算出することがなくなり、処理負荷を軽減できる。

本発明の上記画像処理装置では、適合度算出手段は、３つ以上の特徴点のうち評価値が高い特徴点を用いて適合度を算出する構成としてもよい。

この画像処理装置の適合度算出手段では、推定値毎に、複数の特徴点についての評価値をそれぞれ求め、その複数の特徴点の評価値のうち評価値が高いものだけを用いて適合度を算出する。このように、画像処理装置では、高い評価値だけを用いることによって、ノイズなどの影響によって低下している評価値や推定値の位置や姿勢によって撮像画像上に投影されない特徴点の評価値などが適合度に影響するのを防止し、高精度な適合度を求めることができる。

本発明の上記画像処理装置では、適合度算出手段は、３つ以上の特徴点の評価値の統計量を算出し、当該統計量を適合度とする構成としてもよい。

この画像処理装置の適合度算出手段では、推定値毎に、複数の特徴点についての評価値の統計量（例えば、和、平均）を算出し、統計量を適合度とする。適合度を評価する際に各特徴点の評価値の統計量を用いるので、全体的な類似度に応じて適合度も変化する。その結果、物体の向き、位置、照明条件などによる見た目の変化に対するロバスト性が高くなり、局所的な誤った位置や姿勢に収束することを抑制する。

本発明の上記画像処理装置では、判断手段は、適合度の最大値が所定値以上、所定値以上の適合度の数が所定数以上、適合度の最大値から所定範囲内の値の適合度の数が所定数以上の少なくとも１つの条件を満たす場合に撮像画像に対象物体が存在すると判断する構成としてもよい。

この画像処理装置の判断手段では、複数の推定値の適合度において適合度の最大値が所定値以上、所定値以上の適合度の数が所定数以上、適合度の最大値から所定範囲内の値の適合度（例えば、適合度の最大値の９割以上の値の適合度）の数が所定数以上のいずれかの条件を満たした場合に撮像画像に対象物体が存在すると判断する。適合度が高い場合には撮像画像の各投影位置において対応する特徴点がそれぞれ存在していると推測できるので、撮像画像に対象物体が存在していると判断できる。

本発明の上記画像処理装置では、対象物体の位置及び／又は姿勢の推定値と当該推定値に対する適合度を記憶する構成としてもよい。

この画像処理装置では、対象物体の位置及び／又は姿勢の推定値と当該推定値に対する適合度を記憶する。これらの情報を記憶していくことにより、適合度が高い推定値から対象物体の位置や姿勢の履歴を蓄積することができる。したがって、この記憶した情報から対象物体のとる可能性の高い位置や姿勢が判る。そこで、画像処理装置では、推定値生成手段により、この記憶した情報を利用して、推定値を生成することができる。

本発明に係る画像処理方法は、撮像ステップと、対象物体の位置及び／又は姿勢の推定値を複数生成する推定値生成ステップと、撮像ステップで撮像した撮像画像と対象物体の二次元画像上の３つ以上の特徴点についての特徴点としての確からしさを評価するための評価情報と三次元位置情報からなるテンプレートに基づいて推定値生成ステップで生成した複数の推定値の適合度を算出する適合度算出ステップと、適合度算出ステップで算出した複数の推定値の適合度に基づいて対象物体の有無、位置又は／及び姿勢を判断する判断ステップとを含み、適合度算出ステップでは、推定値生成ステップで生成した各推定値によりテンプレートの各特徴点の三次元位置を変換し、当該変換した三次元位置を撮像ステップで撮像された撮像画像に投影し、当該投影位置での特徴点の確からしさをテンプレートの評価情報と撮像画像の投影位置周辺の情報に基づいて評価し、当該評価値に基づいて適合度を算出することを特徴とする。

本発明の上記画像処理方法の推定値生成ステップでは、撮像ステップで過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値、対象物体が構造上取りうる位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて推定値を生成する構成としてもよい。

本発明の上記画像処理方法の推定値生成ステップでは、撮像ステップで過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて複数生成する推定値の密度を変える構成としてもよい。

本発明の上記画像処理方法の適合度算出ステップでは、撮像画像の投影位置周辺の情報をテンプレートの評価情報と同じ物理量に変換する。

本発明の上記画像処理方法の適合度算出ステップでは、投影位置における特徴点の確からしさの評価値が所定値以下の場合には一定値にする構成としてもよい。

本発明の上記画像処理方法の適合度算出ステップでは、特徴点毎の各投影位置における評価値からなるデータ構造を撮像画像における対象物体が変化する毎に生成する構成としてもよい。

本発明の上記画像処理方法の適合度算出ステップでは、３つ以上の特徴点のうち評価値が高い特徴点を用いて適合度を算出する構成としてもよい。

本発明の上記画像処理方法の適合度算出ステップでは、３つ以上の特徴点の評価値の統計量を算出し、当該統計量を適合度とする構成としてもよい。

本発明の上記画像処理方法の判断ステップでは、適合度の最大値が所定値以上、所定値以上の適合度の数が所定数以上、適合度の最大値から所定範囲内の値の適合度の数が所定数以上の少なくとも１つの条件を満たす場合に撮像画像に対象物体が存在すると判断する構成としてもよい。

本発明の上記画像処理方法では、対象物体の位置及び／又は姿勢の推定値と当該推定値に対する適合度を記憶する構成としてもよい。

上記画像処理方法は、上記した各画像処理装置と同様の作用効果を有する。

本発明によれば、少ないデータ量により撮像画像から対象物体の有無、位置又は／及び姿勢を高精度に検出することができる。

以下、図面を参照して、本発明に係る画像処理装置及び画像処理方法の実施の形態を説明する。

本実施の形態では、本発明を、対象物体を人間の顔又は人間の眼球とする画像処理装置に適用する。本実施の形態には、３つの形態があり、第１の実施の形態が顔の位置と姿勢を推定する形態であり、第２の実施の形態が顔の有無を判定する形態であり、第３の実施の形態が眼球の姿勢を推定する形態である。各本実施の形態では、保持する情報を求めるために事前に処理を行うための画像処理装置と対象物体の有無、位置、姿勢を判断するための画像処理装置が構成される。例えば、対象の人としては自動車などの乗り物の運転者であり、運転者の顔の位置や姿勢あるいは視線などを推定するために用いられる。

図１〜図１６を参照して、第１の実施の形態について説明する。図１は、第１の実施の形態及び第２の実施の形態に係るモデリング処理用の画像処理装置の構成図である。図２は、第１の実施の形態に係る顔位置・姿勢推定処理用の画像処理装置の構成図である。図３は、図１の第１カメラで撮像された顔の撮像画像の一例である。図４は、図３の撮像画像から抽出された特徴点を示す画像である。図５は、特徴点に対応する点を含む三次元モデルの一例である。図６は、図３の各特徴点の三次元位置を示す図である。図７は、図１の第１カメラと第２カメラでそれぞれ撮像された顔の撮像画像の一例である。図８は、図７の２つの撮像画像からそれぞれ抽出された特徴点を示す画像である。図９は、図２のカメラで撮像された顔の撮像画像の一例である。図１０は、図９の撮像画像から検出された顔領域を示す画像である。図１１は、図１０の撮像画像の顔領域から抽出された参照輝度パターンと類似する領域を示す画像である。図１２は、第１段階での顔の位置・姿勢の推定値に応じた特徴点の基準三次元位置から二次元画像上への投影の説明図である。図１３は、第１段階での各特徴点の正規化相関値の一例である。図１４は、第２段階での顔の位置・姿勢の推定値に応じて特徴点の基準三次元位置から二次元画像上への投影の説明図である。図１５は、第２段階での各特徴点の正規化相関値の一例である。図１６は、特徴点毎の各投影位置における正規化相関値からなるマップの一例である。

第１の実施の形態では、画像処理装置１と画像処理装置１１が構成される。画像処理装置１は、モデリング処理用の画像処理装置である。画像処理装置１１は、顔位置・姿勢推定処理用の画像処理装置である。

画像処理装置１の構成について説明する。画像処理装置１は、画像処理装置１１で処理を行う前に、画像処理装置１１で保持する情報として認識対象の人の顔における複数の特徴点の輝度パターンと各特徴点の三次元位置を求める。そのために、画像処理装置１は、第１カメラ２、第２カメラ３、画像処理部４を備えている。画像処理部４は、パーソナルコンピュータなどのコンピュータ上でモデリング処理用のアプリケーションプログラム（ソフトウエア）を実行することによって特徴点抽出部４ａ、特徴点三次元位置推定部４ｂ、情報保持部４ｃが構成される。なお、２台の第１カメラ２と第２カメラ３を備えているが、１台の第１カメラ２だけが使用可能な場合と２台のカメラ２，３が使用可能の場合があり、その２つの場合について説明する。

第１カメラ２、第２カメラ３は、所定の間隔をあけて平行に撮像対象に配置されたステレオカメラであり、視点の異なる二枚の撮像画像を同時に撮像する。カメラ２，３は、ＣＣＤ［Charge coupled device］などの撮像素子を備えるデジタルカメラであり、デジタル画像データからなる撮像画像を画像信号として画像処理部４に送信する。２台のカメラ２，３間の位置関係及び各カメラ２，３の内部パラメータ、外部パラメータは計測可能であり、これらの情報は画像処理部４に予め保持されている。画像処理部４では少なくとも輝度情報が有れば処理を行うことができるので、カメラ２，３はカラーカメラでもあるいは白黒カメラでもよい。カラーカメラの場合、画像処理部４でカラー画像から輝度画像に変換される。

１台の第１カメラ２だけを使用する場合、認識対象の人に第１カメラ２の方向を向いてもらう。したがって、第１カメラ２では、その人の真正面の顔を撮像し、その画像信号を画像処理部４に送信する。図３には、第１カメラ２で撮像された撮像画像ＢＩの一例を示している。２台のカメラ２，３を使用する場合、認識対象の人に第１カメラ２の方向を向いてもらう。したがって、第１カメラ２では、その人の顔を真正面から撮像し、その画像信号を画像処理部４に送信する。第２カメラ３では、その人の顔を真正面から少し側方にずれた位置から第１カメラ２と同時に撮像し、その画像信号を画像処理部４に送信する。図７には、第１カメラ２で撮像された撮像画像ＢＩ１と第２カメラ３で撮像された撮像画像ＢＩ２の一例を示している。

１台の第１カメラ２だけを使用する場合、特徴点抽出部４ａは、第１カメラ２で撮像された撮像画像ＢＩの顔内から輝度が周囲に比べて特徴的な点（特徴点）を３つ以上抽出する。特徴点としては、例えば、両目の各目尻、各目頭、鼻の左右の孔、口の左右端などの肌との境界となる箇所であり、輝度が周囲の領域と明らかな差がある箇所である。さらに、特徴点抽出部４ａでは、撮像画像ＢＩから各特徴点のその点らしさ（特徴点としての確からしさ）を評価する特徴量として特徴点を中心とした矩形領域の輝度パターンを参照輝度パターンとして抽出する。そして、特徴点抽出部４ａでは、各特徴点の輝度パターンを情報保持部４ｃに記憶させる。図４には、第１カメラ２で撮像された撮像画像ＢＩの顔から抽出した６つの特徴点（左右の目尻の各点と目頭の各点、口の左右端の各点）についての参照輝度パターンＩＰａ，ＩＰｂ，ＩＰｃ，ＩＰｄ，ＩＰｅ，ＩＰｆが示されている。なお、コンピュータのオペレータによって抽出される点を特徴点としてもよい。また、経験的にその後の処理に対して望ましい点があれば、そのような点周辺の画像を抽出し、統計的な特徴を元にそれと類似する輝度パターンを持つ位置として特徴点を抽出するようにしてもよい。

２台のカメラ２，３を使用する場合、特徴点抽出部４ａでは、第１カメラ２だけを使用する場合と同様に、第１カメラ２で撮像された撮像画像ＢＩ１の顔内から特徴点を３つ以上抽出し、撮像画像ＢＩ１から各特徴点の参照輝度パターンを抽出する。そして、特徴点抽出部４ａでは、各特徴点の輝度パターンを情報保持部４ｃに記憶させる。図８には、第１カメラ２で撮像された撮像画像ＢＩ１の顔から抽出した６つの特徴点についての参照輝度パターンＩＰ１ａ，ＩＰ１ｂ，ＩＰ１ｃ，ＩＰ１ｄ，ＩＰ１ｅ，ＩＰ１ｆが示されている。

１台の第１カメラ２だけを使用する場合、特徴点三次元位置推定部４ｂでは、平均的な顔の三次元モデルから各特徴点に対応する点を抽出し、三次元モデルの座標系における各特徴点に対応する三次元位置（三次元座標）を読み出す。顔の三次元モデルは、正面を向いている顔の三次元形状を示す数百個程度の頂点からなるモデルであり、各頂点が三次元座標を有している。三次元モデルの生成方法としては、レンジスキャナやステレオカメラなどを用いて、平均的な顔をした人物の正面を向いているときの顔の三次元形状（三次元形状を示す点の集まり）を取得する。図５には、三次元モデルＤＭの一例を示している。

さらに、特徴点三次元位置推定部４ｂでは、各特徴点について、第１カメラ２の画像のカメラ座標系での二次元座標と三次元モデルの座標系での三次元座標との位置関係から、第１カメラ２のカメラ座標系における三次元位置（つまり、第１カメラ２の画像上での三次元位置）を推定する。そして、特徴点三次元位置推定部４ｂでは、特徴点毎に、各特徴点のカメラ座標系における三次元位置を参照輝度パターンに対応付けて情報保持部４ｃに記憶させる。図６には、図４に示す各特徴点のカメラ座標系における三次元位置を示している。

ここで求められた三次元位置は、顔の位置や姿勢を推定する際の基準位置となる。したがって、第１の実施の形態では、この三次元位置からの位置や姿勢に関する変化量を位置や姿勢としている。なお、三次元モデルの座標系とカメラ座標系とが一致しているとし、その状態を基準として、そこからの位置や姿勢に関する変化量を位置や姿勢とすることもできる。

ここで、第１カメラ２のカメラ座標系における三次元位置を推定する具体的な手法について説明する。以降の説明では、第１カメラ２に対して真正面を向いた認識対象の人の顔の状態を基準三次元位置として説明する。第１カメラ２で撮像した画像上の各特徴点の二次元座標、そのカメラの内部パラメータ、外部パラメータ及び各特徴点の三次元モデル座標系における三次元座標は既知である。したがって、未知なカメラ座標系における三次元位置を求めるためには、第１カメラ２と三次元モデルの位置関係（カメラ座標と三次元モデル座標系との位置関係）がどのようなときに、三次元モデル上の各特徴点が画像上の各特徴点の投影されている位置に映りこむのかを推定することになる。

この推定を行うための手法としては、例えば、ＰＯＳＩＴ(D.DeMenthon andL.S.Davis,"Model-Based Object Pose in 25 Lines of Code",InternationalJournal of Computer Vision,15,pp.123-141,june 1995.)を用いる。この手法を用いることにより、三次元モデル上の各特徴点のカメラ座標系における位置と姿勢を算出することができる。特徴点三次元位置推定部４ｂでは、式（１）により、各特徴点について、三次元モデル座標系における三次元位置（Ｘ，Ｙ，Ｚ）から第１カメラ２のカメラ座標系における三次元位置（Ｘ’，Ｙ’，Ｚ’）を算出する。

式（１）において、ｔがＰＯＳＩＴによって求められた位置（並進ベクトル）であり、ＲがＰＯＳＩＴによって求められた姿勢（回転行列）である。三次元位置（Ｘ’，Ｙ’，Ｚ’）は、カメラ座標系における基準三次元位置となる。

２台のカメラ２，３を使用する場合、特徴点三次元位置推定部４ｂでは、第１カメラ２の撮像画像ＢＩ１上の各特徴点に対応する第２カメラ３の撮像画像ＢＩ２上での類似位置を検出する。この検出方法としては、例えば、以下のような手法を用いる。カメラ２，３の位置関係及び内部パラメータ、外部パラメータは既知である。したがって、式（２）で示すエピポーラ拘束は、三次元空間内のある物体の同一点を第１カメラ２、第２カメラ３で撮像したときの各撮像画像上の投影位置ｍ１，ｍ２（拡張座標）に対して成立する。

ｍ１は、三次元空間内のある点の第１カメラ２の撮像画像上の投影位置であり、式（３）で表され、既知である。ｍ２は、三次元空間内のある点の第２カメラ３の撮像画像上の投影位置であり、式（４）で表され、未知である。Ｆは、基礎行列であり、式（５）で表される。Ａ１，Ａ２は、カメラ２，３の各内部行列であり、既知である。Ｔは、式（６）の行列で表され、（ｔ１，ｔ２，ｔ３）は並進ベクトルの各要素である。Ｒは、第１カメラ２のカメラ座標系における第１カメラ２のカメラ座標系から第２カメラ３のカメラ座標系への回転行列である。式（５）におけるＴ（位置）とＲ（姿勢）は外部パラメータとして算出されているので、式（５）から基礎行列Ｆを算出できる。

そこで、特徴点三次元位置推定部４ｂでは、第１カメラ２の撮像画像から抽出された各特徴点の二次元座標であるｍ１を用いて、式（２）により、第２カメラ３の撮像画像上での対応位置を算出する。そして、特徴点三次元位置推定部４ｂでは、第２カメラ３の撮像画像上での各対応位置が存在する領域において、第１カメラ２の撮像画像から抽出された各参照輝度パターンと類似する位置（特徴点）を探索する。そして、特徴点三次元位置推定部４ｂでは、各特徴点について、第２カメラ３の撮像画像からその探索した類似位置を中心とした矩形領域の輝度パターンを参照輝度パターンとして抽出し、その参照輝度パターンを第１カメラ２の撮像画像から抽出した情報保持部４ｃに記憶させる。図８には、第２カメラ３で撮像された撮像画像ＢＩ２から抽出された参照輝度パターンＩＰ２ａ，ＩＰ２ｂ，ＩＰ２ｃ，ＩＰ２ｄ，ＩＰ２ｅ，ＩＰ２ｆが示されている。この探索手法としては、例えば、テンプレートマッチングを用いる。テンプレートマッチングは、例えば、式（７）で表現され、第２カメラ３の撮像画像上の座標（ｘ，ｙ）における類似度ｎｏｒｍ（ｘ，ｙ）が求められる。

ｆ（ｘ，ｙ）は、第２カメラ３の撮像画像上の座標（ｘ，ｙ）における輝度値である。ｇ（ｕ，ｖ）は、第１カメラ２の撮像画像から抽出された参照輝度パターンの座標（ｕ，ｖ）における輝度値である。ｆ_ａｖｅは、第２カメラ３の撮像画像上の座標（ｘ，ｙ）を中心とした参照輝度パターンと同じサイズの領域の平均輝度である。ｇ_ａｖｅは、参照輝度パターンの平均輝度である。Ｖは、参照輝度パターンの垂直方向の取りえる座標の要素の集合である。Ｕは、参照輝度パターンの水平方向の取りえる座標の要素の集合である。

さらに、特徴点三次元位置推定部４ｂでは、第１カメラ２の撮像画像から抽出した特徴点の二次元座標と第２カメラ３の撮像画像から探索した特徴点の二次元座標とを用いて、三角測量の原理により、第１カメラ２のカメラ座標系における各特徴点の三次元位置（基準三次元位置）を算出する。そして、特徴点三次元位置推定部４ｂでは、特徴点毎に、各特徴点のカメラ座標系における三次元位置を参照輝度パターンに対応付けて情報保持部４ｃに記憶させる。

情報保持部４ｃは、所定のメモリ領域に構成され、認識対象の３つ以上の特徴点についての参照輝度パターンと第１カメラ２のカメラ座標系における三次元位置をテンプレートとして保持する。第１カメラ２だけ使用する場合には第１カメラ２の撮像画像から得られた参照輝度パターンだけが保持され、カメラ２，３を使用する場合にはカメラ２，３の各撮像画像からそれぞれ得られた参照輝度パターンが保持される。

画像処理装置１１の構成について説明する。画像処理装置１１は、画像処理装置１で生成した各特徴点についてのテンプレートを保持し、そのテンプレートを利用して撮像画像上の認識対象の人の顔の位置と姿勢を推定する。その際、画像処理装置１１では、各フレームの撮像画像について、位置と姿勢の推定値を多数設定し、その各推定値が撮像画像における顔の位置と姿勢に対して適合している度合いを算出し、その適合度に基づいて位置と姿勢を推定する。特に、画像処理装置１１では、位置と姿勢を高精度に推定するために、第１段階の推定値生成及び適合度算出を行い、さらに、第１段階で絞った推定値（位置と姿勢）に基づいて第２段階の推定値生成及び適合度算出を行う。そのために、画像処理装置１１は、カメラ１２、画像処理部１３を備えている。画像処理部１３は、コンピュータ上で顔位置・姿勢推定処理用のアプリケーションプログラムを実行することによって情報保持部１３ａ、記憶解析部１３ｂ、推定値生成部１３ｃ、適合度算出部１３ｄ、顔位置・姿勢出力部１３ｅが構成される。このコンピュータは画像処理装置１と同一のコンピュータであってもよいし、異なるコンピュータでもよく、同一のコンピュータの場合には情報保持部が共有されてもよい。

なお、第１の実施の形態では、カメラ１２が特許請求の範囲に記載する撮像手段に相当し、情報保持部１３ａが特許請求の範囲に記載する情報保持手段に相当し、推定値生成部１３ｃが特許請求の範囲に記載する推定値生成手段に相当し、適合度算出部１３ｄが特許請求の範囲に記載する適合度算出手段に相当し、顔位置・姿勢出力部１３ｅが特許請求の範囲に記載する判断手段に相当する。

カメラ１２は、ＣＣＤなどの撮像素子を備えるデジタルカメラであり、デジタル画像データからなる撮像画像を画像信号として画像処理部１３に送信する。この際、カメラ１２では、時間的に連続して撮像し、一定時間間隔（例えば、１／３０秒）毎の連続した撮像画像（動画像）データを出力する。カメラ１２の内部パラメータ、外部パラメータは計測可能であり、これらの情報は画像処理部１３に予め保持されている。画像処理部１３では少なくとも輝度情報が有れば処理を行うことができるので、カメラ１２はカラーカメラでもあるいは白黒カメラでもよい。カラーカメラの場合、画像処理部１３でカラー画像から輝度画像に変換される。ちなみに、画像処理装置１１が自動車などに搭載される場合、カメラ１２は、車室内において、運転席に座っている運転者の顔を真正面から撮像できる位置に配置される。

情報保持部１３ａは、所定のメモリ領域に構成され、画像処理装置１で求められた認識対象の顔の複数の特徴点についての参照輝度パターンとカメラ座標系における三次元位置をテンプレートとして保持する。

記憶解析部１３ｂは、所定のメモリ領域に構成され、推定値生成部１３ｃで生成される位置、姿勢の推定値と適合度算出部１３ｄで算出される各推定値に対する適合度を対応付けて記憶するとともに、顔位置・姿勢出力部１３ｅから出力される各フレームの撮像画像における推定された顔の位置と姿勢を記憶する。そして、記憶解析部１３ｂでは、認識対象の人が過去にとった顔の位置や姿勢を履歴として蓄積する。さらに、記憶解析部１３ｂでは、この位置と姿勢の履歴から、位置と姿勢の６つのパラメータによる六次元空間内で取りえる位置と姿勢の組み合わせを洗い出す。また、記憶解析部１３ｂでは、この位置と姿勢の履歴から、頻度的に多くとりえる位置と姿勢付近をピークとする正規分布を設定し、その正規分布を複数重ねて確率密度関数を生成する。なお、記憶解析部１３ｂでは、顔位置・姿勢出力部１３ｅから出力される顔の位置と姿勢を用いて履歴を蓄積してもよいし、あるいは、多数の推定値とその推定値の適合度の中から適合度が閾値より大きい推定値を用いて履歴を蓄積してもよい。

画像処理部１３では、現フレーム分の画像信号を受信する毎に、その撮像画像を所定のメモリ領域に記憶させる。そして、画像処理部１３では、前フレームの撮像画像において顔の位置と姿勢が推定されているか否かを判定する。これは、現フレームが初期フレームである場合や前フレームで顔を検出できなかった場合には前フレームで顔の位置と姿勢を推定できないので、後段の処理を行うことができない。そこで、現フレームから顔を検出し、おおよその位置と姿勢を推定し、前フレームの位置と姿勢とする。図９には、カメラ１２から入力されるあるフレームの撮像画像ＩＩの一例を示している。

前フレームで顔の位置と姿勢の推定を行っていない場合、画像処理部１３では、現フレームの撮像画像内に顔が存在するか否かの顔検出を行い、顔が存在するときにはその顔の存在する領域を求める。図１０には、撮像画像ＩＩから顔を検出でき、その顔領域ＦＡを示している。この顔の検出方法としては、従来の顔検出処理を用いてもよいし、あるいは、第２の実施の形態における顔有無判定処理を用いてもよい。ここで、顔を検出できない場合、画像処理部１３では、次フレームの撮像画像を待つ。

次に、画像処理部１３では、顔領域ＦＡから各特徴点に対応する点を探索する。この探索手法としては、例えば、テンプレートマッチングを利用し、情報保持部１３ａで保持されている各特徴点の参照輝度パターンを用いて、上記した式（７）により、各参照輝度パターンと類似する位置（特徴点）を探索する。図１１には、撮像画像ＩＩの顔領域から探索した各参照輝度パターンと類似する領域ＲＡａ，ＲＡｂ，ＲＡｃ，ＲＡｄ，ＲＡｅ，ＲＡｆが示され、この各領域の中心が対応点である。ここで、３つ以上の対応点を探索できない場合、後段の処理を行うことができないので、画像処理部１３では、次フレームの撮像画像を待つ。

次に、画像処理部１３では、各特徴点について、探索した対応点の二次元座標と情報保持部１３ａに保持されている基準三次元位置の対応関係から、基準三次元位置に対するカメラ１２のカメラ座標系におけるおおよその位置と姿勢を算出し、現フレームでの位置と姿勢の推定値とする。この推定値が、次フレームでの処理で、前フレームの位置と姿勢の推定値として利用される。この推定手法としては、例えば、ＰＯＳＩＴを用いる。

前フレームの位置と姿勢が推定されている場合、推定値生成部１３ｃでは、前フレームでの位置と姿勢（参照値）から取りえる現フレームの撮像画像における顔の位置と姿勢の推定値を多数個生成する。取りえる位置、姿勢の範囲は、位置と姿勢の６つのパラメータ毎に、フレーム間の時間内でそれぞれ変化できる各最大値を前フレームの位置と姿勢の６つのパラメータに加算及び減算した範囲となる。ただし、この範囲が認識対象の顔が構造上取りえない範囲を含んでいる場合、構造的に取りえない範囲を除いた範囲とする。つまり、認識対象の人の顔がおかれている環境やその顔とカメラ１２との位置関係などから、顔が動作可能な位置や姿勢の範囲は物理的に決まっているので、その範囲内で推定値が生成される。フレーム間の時間内でそれぞれ変化できる最大値としては、その顔がおかれている環境における顔の位置や姿勢を事前に測定し、その測定から得られた変化の最大値から予め設定してもよいし、あるいは、前フレームと前々フレームとの間での位置と姿勢の変化に基づいて設定してもよい。

このように設定した取りえる位置、姿勢の６つのパラメータの範囲において、各パラメータが実際にどのような値を取るかは同様に確からしい。そこで、推定値生成部１３ｃでは、位置、姿勢の６つのパラメータ毎にそれぞれの最小値と最大値の範囲の値をとる合計六次元空間内の一様分布からランダムにｎ回取り出し、その取り出した値を位置と姿勢の推定値ｅｓｔ１（ｉ）（ｉ＝１，・・・，ｎ）とする。具体的には、推定値生成部１３ｃでは、式（８）により、推定値を生成する。

ｅｓｔ＿ｔ_ｘは位置のｘ座標の推定値であり、ｅｓｔ＿ｔ_ｙは位置のｙ座標の推定値であり、ｅｓｔ＿ｔ_ｚは位置のｚ座標の推定値であり、ｅｓｔ＿ｄｅｇ_ｘは姿勢のＸ軸周りの回転角度の推定値であり、ｅｓｔ＿ｄｅｇ_ｙは姿勢のＹ軸周りの回転角度の推定値であり、ｅｓｔ＿ｄｅｇ_ｚは姿勢のＺ軸周りの回転角度の推定値である。ｏｌｄ＿ｔ_ｘは位置のｘ座標の前フレーム値であり、ｏｌｄ＿ｔ_ｙは位置のｙ座標の前フレーム値であり、ｏｌｄ＿ｔ_ｚは位置のｚ座標の前フレーム値であり、ｏｌｄ＿ｄｅｇ_ｘは姿勢のＸ軸周りの回転角度の前フレーム値であり、ｏｌｄ＿ｄｅｇ_ｙは姿勢のＹ軸周りの回転角度の前フレーム値であり、ｏｌｄ＿ｄｅｇ_ｚは姿勢のＺ軸周りの回転角度の前フレーム値である。ｍａｘ＿ｔ_ｘは位置のｘ座標のフレーム間変化最大値であり、ｍａｘ＿ｔ_ｙは位置のｙ座標のフレーム間変化最大値であり、ｍａｘ＿ｔ_ｚは位置のｚ座標のフレーム間変化最大値であり、ｍａｘ＿ｄｅｇ_ｘは姿勢のＸ軸周りの回転角度のフレーム間変化最大値であり、ｍａｘ＿ｄｅｇ_ｙは姿勢のＹ軸周りの回転角度のフレーム間変化最大値であり、ｍａｘ＿ｄｅｇ_ｚは姿勢のＺ軸周りの回転角度のフレーム間変化最大値である。ｕ（−１，１）は−１から１の間の一様分布である。

なお、推定値の生成手法としては、記憶解析部１３ｂに蓄積されている履歴から導かれた六次元空間内で取りえる位置と姿勢の組み合わせに基づいて推定値を生成してもよいし、あるいは、記憶解析部１３ｂに蓄積されている履歴から導かれた確率密度関数に基づいて推定値を生成してもよいし、あるいは、推定値を一様分布ではなく、前フレームの位置と姿勢付近に現フレームの位置と姿勢がいる可能性が高いならば、前フレームの位置と姿勢をピークとする正規分布で推定値を生成してもよい。このような正規分布を用いて推定値を生成することにより、ピークに近いほど推定値の設定間隔が密となり、ピークから離れるほど推定値の設定間隔が疎となる。

さらに、推定値生成部１３ｃでは、適合度算出部１３ｄで第１段階の推定値ｅｓｔ（ｉ）に対する適合度が算出されると、その最大の適合度が閾値を超えたか否かを判定する。この閾値は、撮像画像上に顔が存在している（つまり、現フレームの撮像画像上の投影位置には特徴点として確からしい点がそれぞれ存在する）と推定できる程度の適合度であるか否かを判定するための閾値である。最大の適合度が閾値以下の場合、現フレームの撮像画像上で顔を検出できないと判断し、推定値生成部１３ｃでは、次フレームの撮像画像を待つ。なお、この判定手法としては、閾値を超える適合度の推定値の数が所定数以上の場合に顔が存在すると判定してもよいし、あるいは、適合度の最大値の一定の割合以上の値（例えば、最大値の９割以上の値）をとる適合度の推定値の数が所定数以上の場合に顔が存在すると判定してもよい。

一方、最大の適合度が閾値を超えた場合、顔が存在すると判断し、推定値生成部１３ｃでは、更に絞った位置と姿勢の推定値を生成する。第１段階での最大の適合度を持つ推定値の位置と姿勢付近に真の位置と姿勢が存在していると推測できるので、その付近に集中して多数の位置と姿勢の推定値を再度設定する。そこで、推定値生成部１３ｃでは、この最大の適合度を持つ推定値の位置と姿勢を平均値とするような正規分布を仮定し、その正規分布からランダムにｎ’回取り出し、その取り出した値を位置と姿勢の推定値ｅｓｔ２（ｉ）（ｉ＝１，・・・，ｎ’）とする。あるいは、推定値生成部１３ｃでは、この最大値の適合度とその最大の一定の割合以上の値をとる適合度の推定値の位置と姿勢をサンプルとして取り出し、その各取り出した全てのサンプルから位置と姿勢のパラメータ毎に平均と分散を算出する。そして、推定値生成部１３ｃでは、式（９）により各パラメータの推定値ｅｓｔをそれぞれ算出し、推定値ｅｓｔ２（ｉ）（ｉ＝１，・・・，ｎ’）を生成する。

Ｎ（ａ，ｂ）は、平均ａ、分散ｂの正規分布である。ｍｅａｎは、パラメータのサンプルの平均である。σ^２は、パラメータのサンプルの分散である。

適合度算出部１３ｄでは、推定値生成部１３ｃで生成した推定値毎に、式（１０）により、各推定値の位置と姿勢の６つのパラメータを用いて、情報保持部１３ａに保持している各特徴点の基準三次元位置をそれぞれ移動させる。

（Ｘ，Ｙ，Ｚ）が情報保持部１３ａに保持されている特徴点の基準三次元位置（三次元座標）であり、（Ｘ’，Ｙ’，Ｚ’）が移動後の特徴点の三次元位置（三次元座標）である。また、Ｒ_ｚは、Ｚ軸周りの回転行列であり、式（１１）の行列で表さる。Ｒ_ｙは、Ｙ軸周りの回転行列であり、式（１２）の行列で表さる。Ｒ_ｘは、Ｘ軸周りの回転行列であり、式（１３）の行列で表される。ｅｓｔ＿ｔ_ｘは位置のｘ座標の推定値であり、ｅｓｔ＿ｔ_ｙは位置のｙ座標の推定値であり、ｅｓｔ＿ｔ_ｚは位置のｚ座標の推定値であり、ｅｓｔ＿ｄｅｇ_ｘは姿勢のＸ軸周りの回転角度の推定値であり、ｅｓｔ＿ｄｅｇ_ｙは姿勢のＹ軸周りの回転角度の推定値であり、ｅｓｔ＿ｄｅｇ_ｚは姿勢のＺ軸周りの回転角度の推定値である。

さらに、適合度算出部１３ｄでは、式（１４）により、移動後の三次元位置（Ｘ’，Ｙ’，Ｚ’）をカメラ１２の撮像画像上に投影する。図１２には、特徴点の基準三次元位置３Ｄａ，３Ｄｂ，３Ｄｃ，３Ｄｄ，３Ｄｅ，３Ｄｆが第１段階で生成した推定値ｅａｔ１（ｉ）に応じて画像上に投影された二次元座標２Ｄ１ａ，２Ｄ１ｂ，２Ｄ１ｃ，２Ｄ１ｄ，２Ｄ１ｅ，２Ｄ１ｆを示している。また、図１４には、特徴点の基準三次元位置３Ｄａ，３Ｄｂ，３Ｄｃ，３Ｄｄ，３Ｄｅ，３Ｄｆが第２段階で生成した推定値ｅａｔ２（ｉ）に応じて画像上に投影された二次元座標２Ｄ２ａ，２Ｄ２ｂ，２Ｄ２ｃ，２Ｄ２ｄ，２Ｄ２ｅ，２Ｄ２ｆを示している。なお、ここでは、式（１０）の変換後の座標がカメラ座標系で表現されているので、座標系の変換の必要はない。また、この投影では、推定値の位置や姿勢によっては、撮像画像内に投影されない場合もある。

ｓがスカラーであり、Ａがカメラ１２の内部行列であり、（ｕ，ｖ）が特徴点の撮像画像上の二次元座標であり、（Ｘ’，Ｙ’，Ｚ’）が移動後の特徴点の三次元位置（三次元座標）である。

さらに、適合度算出部１３ｄでは、式（１５）により、特徴点毎に、情報保持部１３ａに保持されている参照輝度パターンと現フレームの撮像画像上の投影位置での輝度パターンとの正規化相関値を算出する。この正規化相関値は、−１〜１の値であり、値が大きいほど相関度が高いことを示す。推定値の位置と姿勢が撮像画像の顔の位置と姿勢に近いほど、参照輝度パターンと現フレームの撮像画像から切り出された投影位置での輝度パターンとは近いパターンとなり、正規化相関値は大きくなる。

ｆ（ｘ，ｙ）は、現フレームの撮像画像上の座標（ｘ，ｙ）における輝度値である。ｇ（ｕ，ｖ）は、参照輝度パターンの座標（ｕ，ｖ）における輝度値である。ｆ_ａｖｅは、現フレームの撮像画像上の座標（ｘ，ｙ）を中心とした参照輝度パターンと同じサイズの領域の平均輝度である。ｇ_ａｖｅは、参照輝度パターンの平均輝度である。Ｖは、参照輝度パターンの垂直方向の取りえる座標の要素の集合である。Ｕは、参照輝度パターンの水平方向の取りえる座標の要素の集合である。

多数の推定値に応じて各特徴点の基準三次元位置を撮像画像上に投影した場合、投影される位置はある範囲に集中し、同じ位置に投影される場合もある。特に、第２段階で位置と姿勢を絞った場合には、同じ位置に投影されるケースが増加する。その場合、撮像画像上の同じ投影位置では同じ輝度パターンなので、正規化相関値を算出した場合には同じ値が得られる。そこで、重複して計算を行わないように、特徴点毎にマップを生成し、マップによって算出した投影位置の正規化相関値が既に算出されているか否かを確認する。

マップは、特徴毎に設定され、撮像画像の全画素分の正規化相関値を格納するためのテーブルが用意される（図１６参照）。マップは、フレームが変わる毎あるいは撮像画像の顔の位置や姿勢に変化がある毎に全データが消去され、新たに生成される。図１６に示す例では、画像上の（ａ１，ｂ１）には０．５という値の正規化相関値が格納されており、既にこの投影位置が算出されていることを示し、（ａ１，ｂ２）、（ａ２，ｂ１）、（ａ２，ｂ２）などには正規化相関値が格納されておらず、未だこれらの投影位置が算出されていることを示す。

適合度算出部１３ｄでは、ある特徴点の投影位置を算出する毎に、その特徴点のマップを参照し、その算出した投影位置に既に正規化相関値が格納されているか否かを判定する。既に正規化相関値が格納されている場合、適合度算出部１３ｄでは、その正規化相関値を取り出して後処理で使用する。一方、未だ正規化相関値が格納されていない場合、適合度算出部１３ｄでは、その投影位置での正規化相関値を算出する。次に、適合度算出部１３ｄでは、算出した正規化相関値が閾値より小さいか否かを判定し、閾値より小さい場合には正規化相関値を一定値に置き換える。例えば、正規化相関値が０より小さい場合には、正規化相関値を０に置き換える。このように、非常に小さな正規化相関値を排除することにより、ノイズなどの影響によって低下している正規化相関値が適合度に影響するのを防止する。そして、適合度算出部１３ｄでは、その特徴点のマップの該当する投影位置に正規化相関値を書き込む。このように、適合度算出部１３ｄでは、推定値毎に、全ての特徴点についての正規化相関値を求める。図１３には、第１段階の推定値ｅｓｔ１（ｉ）の場合の各特徴点の正規化相関値を示している。また、図１５には、第２段階の推定値ｅｓｔ２（ｉ）の場合の各特徴点の正規化相関値を示しており、一部の特徴点については第１段階の場合より正規化相関値が大きくなっている。

適合度算出部１３ｄでは、推定値毎に、全ての特徴点の中から特徴点を選択し、選択した特徴点の正規化相関値を用いて適合度を算出する。適合度は、推定値の位置と姿勢に応じて三次元的な位置関係によって投影された現フレームの撮像画像上における各投影位置において複数の特徴点の位置と確からしさを評価し、推定値の位置及び姿勢と撮像画像上の顔の位置及び姿勢とが適合しているか否かの度合いを示し、値が大きいほど適合していること示す。具体的には、基準三次元位置の各特徴点を推定値の位置と姿勢に応じて投影した撮像画像上の各投影位置の輝度パターンが各特徴点の参照輝度パターンとそれぞれ類似しているほど、適合度が大きくなる。

適合度の算出に用いる特徴点の選択方法は、全ての特徴点を用いてもよいし、閾値より大きい正規化相関値の特徴点だけを用いてもよいし、撮像画像内に投影された特徴点だけを用いてもよいし、あるいは、特徴点の三次元位置が定義された座標系における特徴点周辺の平均的な法線ベクトル及び姿勢の推定値を考慮し、カメラ１２の撮像画像上に見えていると判断される特徴点だけを用いてもよい。このカメラ１２の撮像画像上に見えていると判断される特徴点だけを用いる場合、位置と姿勢の推定値により特徴点の基準三次元位置を移動させた後の三次元位置にカメラ１２の光学原点から向かうベクトルと姿勢の推定値により特徴点の法線ベクトルを回転させてできるベクトルの内積が０以上の閾値より大きいときに、この特徴点が使用可能だと判断する。なお、上記のような適合度算出に用いる特徴点の選択方法を示したが、これらの選択方法うちのいくつかを組み合わせて特徴点を選択してもよい。

適合度の算出は、全ての推定値に対して実施してもよいが、適合度が小さくなると予測できる推定値に対して適合度の算出を中止してもよい。例えば、特徴点の中でも信頼性の高そうな１つ以上の特徴点の正規化相関値の平均値が閾値以上の場合に適合度の算出を実施し、その平均値が閾値未満の場合に適合度の算出を中止するようにしてもよい。

適合度の算出方法としては、選択された特徴点の各正規化相関値の統計量を算出する。統計量としては、例えば、和、平均値がある。

顔位置・姿勢出力部１３ｅでは、第２段階の全ての推定値ｅｓｔ２（ｉ）について適合度の算出が終了すると、算出した適合度とその適合度に対応する推定値の位置と姿勢を用いて、撮像画像における顔の位置と姿勢を推定し、その推定した位置と姿勢を出力する。その推定方法としては、例えば、適合度が最大の推定値の位置と姿勢としてもよいし、閾値以上の適合度を持つ推定値の適合度による加重平均値によって位置と姿勢を算出してもよいし、適合度を算出された全ての推定値の適合度による加重平均値によって位置と姿勢を算出してもよいし、適合度の最大値の一定の割合以上の値をとる適合度の推定値の適合度による加重平均値によって位置と姿勢を算出してもよいし、適合度の最大値の一定の割合以上の値をとる適合度の推定値の適合度の数が所定数以上の場合にそれらの適合度の推定値の適合度による加重平均値によって位置と姿勢を算出してもよいし、あるいは、適合度の最大値の一定の割合以上の値をとる適合度の推定値の適合度の数が所定数未満の場合に適合度が最大の推定値の位置と姿勢としてもよい。加重平均値を利用する場合にが、式（１６）によって算出を行う。

ｅｓｔ_ｉが推定値ｉのパラメータであり、ｗ_ｉが推定値ｉの適合度であり、Ｇが推定に使用すると判断された適合度のインデックス集合である。

次に、図１を参照して、画像処理装置１の動作について説明する。特に、画像処理部４のモデリング処理については図１７のフローチャートに沿って説明する。図１７は、図１の画像処理装置におけるモデリング処理の流れを示すフローチャートである。

第１カメラ２では、第１カメラ２に対して真正面を向いている認識対象の人の顔を撮像し、その撮像画像の画像信号を画像処理部４に送信する。第２カメラ３も使用可能な場合、第２カメラ３では、第１カメラ２と同時に、第１カメラ２に対して真正面を向いている認識対象の人の顔を側方から撮像し、その撮像画像の画像信号を画像処理部４に送信する。

画像処理部４では、第１カメラ２及び第２カメラ３が使用可能かあるいは第１カメラ２だけが使用可能かを判定する（Ｓ１０）。

Ｓ１０にて第１カメラ２だけが使用可能と判定した場合、画像処理部４では、第１カメラ２からの画像信号を受信し、顔の撮像画像を取得する（Ｓ１１）。画像処理部４では、第１カメラ２の撮像画像から複数の特徴点を抽出し、その各特徴点周辺の輝度パターンを参照輝度パターンとして保持する（Ｓ１２）。また、画像処理部４では、平均的な顔の三次元モデルから各特徴点に対応する点をそれぞれ選択し、その各対応点の三次元モデルの座標系における三次元位置を抽出する（Ｓ１３）。そして、画像処理部４では、各特徴点の撮像画像上の二次元座標と各特徴点に対応する対応点の三次元モデル座標系での三次元位置との関係から、第１カメラ２のカメラ座標系における各特徴点の三次元位置を推定する（Ｓ１４）。さらに、画像処理部４では、特徴点毎に、推定した三次元位置（三次元座標）を基準三次元位置として参照輝度パターンに対応付けて保持する。

Ｓ１０にて第１カメラ２及び第２カメラ２が使用可能と判定した場合、画像処理部４では、第１カメラ２及び第２カメラ３からの各画像信号を受信し、顔の各撮像画像を取得する（Ｓ１５）。画像処理部４では、第１カメラ２の撮像画像から複数の特徴点を抽出し、その各特徴点周辺の輝度パターンを参照輝度パターンとして保持する（Ｓ１６）。画像処理部４では、特徴点毎に、第１カメラ２の撮像画像から得られた特徴点の輝度パターンにより、第２カメラ３の撮像画像から類似する位置を探索する（Ｓ１７）。この際、画像処理部４では、第２カメラ３の撮像画像上でのその各類似位置周辺の輝度パターンを参照輝度パターンとして保持する。そして、画像処理部４では、第１カメラ２の撮像画像上での特徴点の二次元座標と第２カメラ３の撮像画像上での類似位置の二次元座標との関係から、第１カメラ２のカメラ座標系における各特徴点の三次元位置を推定する（Ｓ１８）。さらに、画像処理部４では、特徴点毎に、推定した三次元位置（三次元座標）を基準三次元位置として参照輝度パターンに対応付けて保持する。

図２を参照して、画像処理装置１１の動作について説明する。特に、画像処理部１３の顔位置・姿勢推定処理について図１８のフローチャートに沿って説明し、画像処理部１３の正規化相関値算出処理について図１９のフローチャートに沿って説明する。図１８は、図２の画像処理装置における顔位置・姿勢推定処理の流れを示すフローチャートである。図１９は、図２の画像処理装置における正規化相関値算出処理の流れを示すフローチャートである。

カメラ１２では、時間的に連続して撮像し、一定時間毎に撮像画像の画像信号を画像処理部１３に送信する。

画像処理部１３では、カメラ１２から画像信号を受信し、現フレームの撮像画像を順次取得する（Ｓ２０）。

画像処理部１３では、前フレームで撮像画像における顔の位置と姿勢を推定したか否かを判定する（Ｓ２１）。Ｓ２１にて前フレームで位置と姿勢を推定していないと判定した場合、画像処理部１３では、現フレームの撮像画像において顔を検出できたか否かを判定する（Ｓ２２）。Ｓ２２にて顔を検出できなかった場合、画像処理部１３では、Ｓ２０に戻って、次フレームの撮像画像を待つ。Ｓ２２にて顔を検出できた場合、画像処理部１３では、その顔の中から３つ以上の特徴点が検出できたか否かを判定する（Ｓ２３）。Ｓ２３にて３つ以上の特徴点を検出できなかったと判定した場合、画像処理部１３では、Ｓ２０に戻って、次フレームの撮像画像を待つ。Ｓ２３にて３つ以上の特徴点を検出できたと判定した場合、画像処理部１３では、検出した各特徴点の二次元座標と保持している各特徴点の基準三次元位置の対応関係から基準三次元位置に対するカメラ１２のカメラ座標系における位置と姿勢を算出し、この位置と姿勢を現フレームの位置と姿勢の推定値（つまり、この推定値が次フレームでは前フレームでの位置と姿勢の推定値となる）とする（Ｓ２４）。そして、画像処理部１３では、Ｓ２０に戻って、次フレームの撮像画像を待つ。

Ｓ２１にて前フレームで位置と姿勢を推定していると判定した場合、画像処理部１３では、前フレームで推定した位置と姿勢に基づいて現フレームで取りえる位置と姿勢の推定値ｅｓｔ１（ｉ）（ｉ＝１，・・・，ｎ）を生成する（Ｓ２５）。そして、画像処理部１３では、各推定値ｅｓｔ１（ｉ）の位置と姿勢により保持している各特徴点の基準三次元位置をそれぞれ移動させ、その移動させた各三次元位置からカメラ１２で撮像した撮像画像上に投影した投影位置（二次元座標）をそれぞれ算出する（Ｓ２６）。さらに、画像処理部１３では、ｅｓｔ１（ｉ）の場合の各特徴点について、撮像画像上の投影位置での輝度パターンと保持している参照輝度パターンとの正規化相関値を算出する（Ｓ２７）。そして、画像処理部１３では、各特徴点の正規化相関値から、推定値ｅｓｔ１（ｉ）の撮像画像の顔の位置と姿勢に対する整合性の評価値として適合度を算出する（Ｓ２８）。ここまでの処理で、第１段階の推定値ｅｓｔ１（ｉ）が生成され、その推定値ｅｓｔ１（ｉ）に対してそれぞれ適合度が算出される。

画像処理部１３では、算出した全ての適合度の中から最大の適合度を抽出し、その最大の適合度が閾値を超えたか否かを判定する（Ｓ２９）。Ｓ２９にて閾値以下と判定した場合、この現フレームで顔を検出できなかったと判断し、画像処理部１３では、Ｓ２０に戻って、次フレームの撮像画像を待つ。

Ｓ２９にて閾値を超えると判定した場合、画像処理部１３では、最大の適合度に対応する推定値ｅｓｔ１（ｉ）の位置と姿勢付近で現フレームで取りえる位置と姿勢の推定値ｅｓｔ２（ｉ）（ｉ＝１，・・・，ｎ’）を生成する（Ｓ３０）。そして、画像処理部１３では、各推定値ｅｓｔ２（ｉ）の位置と姿勢により保持している各特徴点の基準三次元位置をそれぞれ移動させ、その移動させた各三次元位置からカメラ１２で撮像した撮像画像上に投影した投影位置（二次元座標）をそれぞれ算出する（Ｓ３１）。さらに、画像処理部１３では、ｅｓｔ２（ｉ）の場合の各特徴点について、撮像画像上の投影位置での輝度パターンと保持している参照輝度パターンとの正規化相関値を算出する（Ｓ３２）。そして、画像処理部１３では、各特徴点の正規化相関値から、推定値ｅｓｔ２（ｉ）の適合度を算出する（Ｓ３３）。ここまでの処理で、第２段階の推定値ｅｓｔ２（ｉ）が生成され、その推定値ｅｓｔ２（ｉ）に対してそれぞれ適合度が算出される。

画像処理部１３では、推定値ｅｓｔ２（ｉ）の位置と姿勢と各推定値ｅｓｔ２（ｉ）に対して算出した適合度に基づいて、現フレームの撮像画像における顔の位置と姿勢を推定し、その推定した位置と姿勢を出力する（Ｓ３４）。そして、画像処理部１３では、Ｓ２０に戻って、次フレームの撮像画像を待つ。

特に、Ｓ２７、Ｓ３２で正規化相関値を算出する際、画像処理部１３では、全ての特徴点に対する投影位置が算出されると、特徴点毎に、マップを参照し、その算出された投影位置が既に投影されたことがあるか否か（つまり、各特徴点のマップのその投影位置に既に正規化相関値が格納されているか否か）を判定する（Ｓ４０）。

Ｓ４０にてその算出された投影位置に未だ投影されていないと判定した場合、画像処理部１３では、現フレームの撮像画像から、投影位置を中心とし、保持している特徴点の参照輝度パターンと同じサイズで輝度パターンを切り出す（Ｓ４１）。そして、画像処理部１３では、切り出し輝度パターンと保持している特徴点の参照輝度パターンとの間で正規化相関値を算出する（Ｓ４２）。さらに、画像処理部１３では、算出した正規化相関値が閾値より小さいか否かを判定し、閾値より小さいときには正規化相関値を一定値に置き換える（Ｓ４３）。そして、画像処理部１３では、各特徴点のマップに、投影位置に対応付けて正規化相関値を書き込む（Ｓ４４）。

一方、Ｓ４０にてその算出された投影位置が既に投影されていると判定した場合、画像処理部１３では、その特徴点についての正規化相関値を算出せずに、後処理ではマップからその投影位置の正規化相関値を抽出する（Ｓ４５）。

画像処理部１３では、全ての特徴点について正規化相関値の書き込みが終了したか否かを判定する（Ｓ４６）。Ｓ４６にて全ての特徴点について正規化相関値の書き込みが終了したと判定した場合、画像処理部１３では、次の推定値に対する正規化相関値算出に移る。一方、Ｓ４６にて全ての特徴点について正規化相関値の書き込みが終了していないと判定した場合、画像処理部１３では、Ｓ４０に戻って、次の特徴点についての正規化相関値算出に移る。

この画像処理装置１１によれば、多数の推定値を生成し、各推定値について各特徴点としての確からしさと特徴点の全体的な位置とを評価した適合度を求めることにより、撮像画像から顔の位置と姿勢を高精度に推定することができる。また、画像処理装置１１によれば、各特徴点についての参照輝度パターンと基準三次元位置の少ないデータだけを保持し、画像全体ではなく、この各特徴点についての処理を行うだけなので、処理負荷を軽減でき、処理時間も短い。

画像処理装置１１では、第１段階で絞った推定値の位置と姿勢を用いて第２段階で更に位置と姿勢を絞り込むので、非常に高精度な位置と姿勢を推定することができる。

画像処理装置１１では、推定値を生成する際に、認識対象の人の顔がとる可能性のある範囲に限定して推定値を生成するので、無駄な推定値を生成せず、処理負荷を軽減するとともに、局所的な誤った位置や姿勢を推定することを抑制する。特に、画像処理装置１１では、位置と姿勢の履歴を蓄積し、その履歴も考慮して推定値を生成する場合には、個々の人の顔の動きの癖を考慮した推定値を設定できる。そのため、比較的狭い範囲に集中させて推定値を分布させることができ、ロバスト性が向上し、処理負荷も軽減する。

画像処理装置１１では、適合度を評価する際に、各特徴点の正規化相関値の統計量を用いるので、全体的な類似度に応じて適合度も変化する。そのため、特徴点の一部が隠れたりあるいは照明変動などによって見え方の違いが生じても、その一部分の輝度パターンとの類似度が低下しても、全体的な類似度を使用しているので、適合度としてはそれほど低下せず、その一部の影響を抑えることができる。また、一部の特徴点と類似する部分が撮像画像上に存在しても、全体的な類似度が高くなければ適合度としてはそれほど上昇せず、その一部の影響を抑えることができる。このように、見た目の変化に対するロバスト性が高く、局所的に誤った位置や姿勢に収束することを抑制する。

画像処理装置１１では、特徴点毎のマップを設定しているので、同じ投影位置については正規化相関値を重複して算出することがなく、処理負荷を軽減することができる。また、画像処理装置１１では、位置と姿勢を推定する際に、最大値の適合度の一定割合以上の適合度の推定値も利用する場合には、推定する位置と姿勢に対してフィルタリング効果がある。そのため、推定した位置と姿勢が連続的な値となり、滑らかに変化する。

図２０を参照して、第２の実施の形態について説明する。図２０は、第２の実施の形態に係る顔有無判定処理用の画像処理装置の構成図である。

第２の実施の形態では、第１の実施の形態と同様の画像処理装置１と画像処理装置２１が構成される。画像処理装置２１は、顔有無判定処理用の画像処理装置である。なお、画像処理装置１についての説明は第１の実施の形態で行ってので、説明を省略する。また、第２の実施の形態でも、画像処理装置１で生成した認識対象の人の顔における複数の特徴点の輝度パターンと各特徴点の三次元位置からなる複数の特徴点のテンプレートを画像処理装置２１で保持する。

画像処理装置２１の構成について説明する。画像処理装置２１は、画像処理装置１で生成した各特徴点についてのテンプレートを保持し、そのテンプレートを利用して撮像画像上の認識対象の人の顔の有無を判定する。その際、画像処理装置２１では、位置と姿勢の推定値を多数設定し、その各推定値が撮像画像における顔の位置と姿勢に対して適合している度合いを算出し、その適合度に基づいて顔の有無を判定する。そのために、画像処理装置２１は、カメラ２２、画像処理部２３を備えている。画像処理部２３は、コンピュータ上で顔有無判定処理用のアプリケーションプログラムを実行することによって情報保持部２３ａ、記憶解析部２３ｂ、推定値生成部２３ｃ、適合度算出部２３ｄ、顔有無出力部２３ｅが構成される。このコンピュータは画像処理装置１と同一のコンピュータであってもよいし、異なるコンピュータでもよく、同一のコンピュータの場合には情報保持部が共有されてもよい。

なお、第２の実施の形態では、カメラ２２が特許請求の範囲に記載する撮像手段に相当し、情報保持部２３ａが特許請求の範囲に記載する情報保持手段に相当し、推定値生成部２３ｃが特許請求の範囲に記載する推定値生成手段に相当し、適合度算出部２３ｄが特許請求の範囲に記載する適合度算出手段に相当し、顔有無出力部２３ｅが特許請求の範囲に記載する判断手段に相当する。

カメラ２２は第１の実施の形態に係るカメラ１２と同様のカメラであり、その説明を省略する。情報保持部２３ａは第１の実施の形態に係る情報保持部１３ａと同様の情報保持部であり、その説明を省略する。

記憶解析部２３ｂは、所定のメモリ領域に構成され、推定値生成部２３ｃで生成される位置、姿勢の推定値と適合度算出部２３ｄで算出される各推定値に対する適合度を対応付けて記憶するとともに、顔有無出力部２３ｅから出力される各フレームの撮像画像における顔の有無を記憶する。そして、記憶解析部２３ｂでは、多数の推定値とその推定値の適合度の中から適合度が閾値より大きい推定値を用いて、認識対象の人が過去にとった顔の位置や姿勢を履歴として蓄積する。さらに、記憶解析部２３ｂでは、第１の実施の形態に係る記憶解析部１３ｂと同様に、この位置と姿勢の履歴から、六次元空間内で取りえる位置と姿勢の組み合わせを洗い出したり、あるいは、頻度的に多くとりえる位置と姿勢付近をピークとする正規分布を複数重ねて確率密度関数を生成する。

推定値生成部２３ｃでは、第１の実施の形態に係る推定値生成部１３ｃと同様の手法により、前フレームでの位置と姿勢（参照値）から取りえる現フレームの撮像画像における顔の位置と姿勢の推定値ｅｓｔ（ｉ）（ｉ，・・・，ｎ）を多数個生成する。適合度算出部２３ｃでは、第１の実施の形態に係る適合度算出部１３ｃと同様の手法により、推定値生成部２３ｃで生成した推定値ｅｓｔ（ｉ）毎に、各推定値ｅｓｔ（ｉ）の位置と姿勢を用いて情報保持部２３ａに保持している各特徴点の基準三次元位置をそれぞれ移動させた三次元位置をカメラ２２の撮像画像上に投影し、さらに、各特徴点の正規化相関値を算出し、各特徴点の正規化相関値を用いて適合度を算出する。正規化相関値の算出では、第１の実施の形態と同様に特徴点毎のマップを用いる。

顔有無出力部２３ｅでは、全ての推定値ｅｓｔ（ｉ）について適合度の算出が終了すると、算出した適合度からその最大の適合度を抽出し、その最大の適合度が閾値を超えたか否かを判定する。この閾値は、撮像画像上に顔が存在していると推定できる程度の適合度であるか否かを判定するための閾値である。最大の適合度が閾値以下の場合、顔有無出力部２３ｅでは、現フレームの撮像画像上に顔は存在しないと判定し、その判定結果を出力する。一方、最大の適合度が閾値を超える場合、顔有無出力部２３ｅでは、現フレームの撮像画像上に顔は存在すると判定し、その判定結果を出力する。なお、この判定手法としては、閾値を超える適合度の推定値の数が所定数以上の場合に顔が存在すると判定してもよいし、あるいは、適合度の最大値の一定の割合以上の値をとる適合度の推定値の数が所定数以上の場合に顔が存在すると判定してもよい。

なお、全ての適合度と閾値とをそれぞれ判定し、閾値を超えた適合度が複数ある場合には、撮像画像上に複数の顔が存在すると判定することもできる。この場合、テンプレートとして保持する参照輝度パターンを生成するための人の顔を平均的な人の顔とするか、あるいは、テンプレートとして保持されている参照輝度パターンを生成するための人の顔と似た人の顔の有無判定が可能となる。

図２０を参照して、画像処理装置２１の動作について説明する。特に、画像処理部２３の顔有無判定処理について図２１のフローチャートに沿って説明する。図２１は、図２０の画像処理装置における顔有無判定処理の流れを示すフローチャートである。

カメラ２２では、時間的に連続して撮像し、一定時間毎に撮像画像の画像信号を画像処理部２３に送信する。

画像処理部２３では、カメラ２２から画像信号を受信し、現フレームの撮像画像を順次取得する（Ｓ５０）。画像処理部２３では、前フレームで推定した位置と姿勢に基づいて現フレームで取りえる位置と姿勢の推定値ｅｓｔ（ｉ）（ｉ＝１，・・・，ｎ）を生成する（Ｓ５１）。そして、画像処理部２３では、各推定値ｅｓｔ（ｉ）の位置と姿勢により保持している各特徴点の基準三次元位置をそれぞれ移動させ、その移動させた各三次元位置からカメラ２２で撮像した撮像画像上に投影した投影位置（二次元座標）をそれぞれ算出する（Ｓ５２）。さらに、画像処理部２３では、推定値ｅｓｔ（ｉ）の場合の各特徴点について、撮像画像上の投影位置での輝度パターンと保持している参照輝度パターンとの正規化相関値を算出する（Ｓ５３）。そして、画像処理部２３では、各特徴点の正規化相関値から、推定値ｅｓｔ（ｉ）の適合度を算出する（Ｓ５４）。

全ての推定値ｅｓｔ（ｉ）についての適合度を算出すると、画像処理部２３では、適合度の中からその最大の適合度を抽出し、その最大の適合度が閾値を超えたか否か（すなわち、撮像画像内に顔が存在するか否か）を判定する（Ｓ５５）。Ｓ５５にて最大の適合度が閾値以下と判定した場合、画像処理部２３では、現フレームの撮像画像上に顔は存在しないと判定し、その判定結果を出力する。一方、Ｓ５５にて最大の適合度が閾値を超えると判定した場合、画像処理部２３では、現フレームの撮像画像上に顔は存在すると判定し、その判定結果を出力する。

この画像処理装置２１によれば、多数の推定値を生成し、各推定値について各特徴点としての確からしさと特徴点の全体的な位置とを評価した適合度を求めることにより、撮像画像から顔の有無を高精度に判定することができる。また、画像処理装置２１によれば、各特徴点の参照輝度パターンと基準三次元位置の少ないデータだけを保持し、画像全体ではなく、この各特徴点についての処理を行うだけなので、処理負荷を軽減でき、処理時間も短い。さらに、画像処理装置２１は、推定値の生成、適合度による評価、マップの活用については第１の実施の形態の画像処理装置１１と同様の効果を有している。

図２２〜図２９を参照して、第３の実施の形態について説明する。図２２は、第３の実施の形態に係る眼球中心位置推定処理用の画像処理装置の構成図である。図２３は、第３の実施の形態に係る眼球姿勢推定処理用の画像処理装置の構成図である。図２４は、眼球構造を示す図である。図２５は、眼球モデルを示す図である。図２６は、眼球とカメラとの関係を示す図である。図２７は、カメラで撮像された目の撮像画像の一例である。図２８は、眼球の回転の推定値に応じて黒目内の点を二次元画像上への投影の説明図である。図２９は、カメラ座標系と眼球座標系との関係を示す図である。

第３の実施の形態では、画像処理装置３１と画像処理装置４１が構成される。画像処理装置３１は、眼球中心位置推定処理用の画像処理装置である。画像処理装置４１は、眼球姿勢推定処理用の画像処理装置である。

画像処理装置３１の構成について説明する。画像処理装置３１では、画像処理装置４１で処理を行う前に、画像処理装置４１で保持する情報として眼球の中心位置とその眼球中心位置の場合の黒目内の各点の三次元位置を求める。その際、画像処理装置３１では、眼球中心位置の推定値を多数設定し、その各推定値が撮像画像における眼球中心位置に対して適合している度合いを算出し、その適合度に基づいて眼球中心位置を推定する。そのために、画像処理装置３１は、カメラ３２、画像処理部３３を備えている。画像処理部３３は、コンピュータ上で眼球中心位置推定処理用のアプリケーションプログラムを実行することによって情報保持部３３ａ、推定値生成部３３ｂ、適合度算出部３３ｃ、眼球中心位置出力部３３ｄが構成される。

なお、第３の実施の形態の画像処理装置３１では、カメラ３２が特許請求の範囲に記載する撮像手段に相当し、情報保持部３３ａが特許請求の範囲に記載する情報保持手段に相当し、推定値生成部３３ｂが特許請求の範囲に記載する推定値生成手段に相当し、適合度算出部３３ｃが特許請求の範囲に記載する適合度算出手段に相当し、眼球中心位置出力部３３ｄが特許請求の範囲に記載する判断手段に相当する。

カメラ３２は第１の実施の形態に係る第１カメラ２と同様のカメラであり、その説明を省略する。ここでの撮像では、認識対象の人に、カメラ３２のレンズ中心を覗き込むように向いてもらう。したがって、カメラ３２では、その人のレンズを覗き込む目を撮像し、その画像信号を画像処理部３３に送信する。

情報保持部３３ａは、所定のメモリ領域に構成され、眼球モデルを保持する。眼球モデルの構築方法について説明する。まず、図２４に示すような眼球構造を仮定する。この眼球構造では、眼球の左右方向の軸をＸ軸とし、眼球の上下方向の軸をＹ軸とし、眼球の奥行き方向の軸をＺ軸とする。また、Ｐが眼球中心であり、Ｒが眼球半径であり、ｒが虹彩半径である。眼球半径Ｒ、虹彩半径ｒについては、標準値を用い、固定である。また、眼球中心Ｐと虹彩（黒目領域）の輪郭とを結ぶ線分と眼球中心Ｐと虹彩中心とを結ぶ線分とが作る立体角をθとする。また、この立体角θを近似するＸ軸周りの回転角をｄｅｇ＿ｘとし、Ｙ軸周りの回転角をｄｅｇ＿ｙとする。回転角ｄｅｇ＿ｘ及び回転角ｄｅｇ＿ｙと立体角θとの関係は式（１７）で表される。また、立体角θは、例えば、標準的な眼球半径Ｒと虹彩半径ｒを使うと、式（１８）で表される。

ここで、図２４に示す眼球構造を、図２５に示すような眼球中心Ｐ、眼球半径Ｒ及び虹彩半径ｒからなる簡易の眼球モデルに近似し、眼球モデルを構築する。情報保持部３３ａでは、この眼球モデルが保持されている。

推定値生成部３３ｂでは、カメラ３２の光学中心Ｏと眼球中心Ｐとを結ぶ線分と眼球モデルの視線とが一致するように眼球を回転させながら眼球モデルが眼球中心位置をカメラ３２の前で変化させたときに取りえる眼球中心位置の推定値を多数個生成する（図２６参照）。ここでは、例えば、顔の位置を検出する従来技術を利用し、顔を撮像画像上から検出し、そのサイズで顔を検出できるのは平均的な顔であるとすると、どの程度の位置に顔がいるということが予測できる。このような顔の位置の予測値が使用可能な場合、撮像画像上での顔の位置と平均的な顔の位置の関係及び顔の位置に対する眼球中心位置の相対的な位置関係を利用することにより、おおよその眼球中心位置を推定できるので、その位置付近に推定値を生成する。

適合度算出部３３ｃでは、まず、各推定値の眼球中心位置の場合に、撮像画像上で黒目内の各点がとる二次元位置を算出する。適合度算出部３３ｃでは、眼球中心位置Ｐと視線方向（眼球中心から黒目中心に向かうベクトルＱ）が決まると、上記の式（１７）、式（１８）から、眼球モデルにおける多数の黒目内の点の三次元位置を式（１９）によりそれぞれ算出する。

式（１９）では、Ｐが眼球中心位置の推定値であり、Ｑが眼球中心から黒目中心に向かうベクトル（三次元座標）であり、Ｑ’が黒目内の点の三次元座標である。ここでは、後段での処理を簡単にするために、カメラ座標系でのＰ及びＱが得られたとし、Ｑが眼球モデルから求められる。Ｒ_ｙは、Ｙ軸周りの回転行列であり、式（２０）で表される。Ｒ_ｘは、Ｘ軸周りの回転行列であり、式（２１）で表される。この場合、黒目内の各点は、Ｘ軸周りの回転角ｄｅｇ＿ｘ及びＹ軸周りの回転角ｄｅｇ＿ｙと立体角θとは式（２２）の関係を満たすことになる。

さらに、適合度算出部３３ｃでは、式（２３）により、黒目内の各点の三次元座標Ｑ’の撮像画像上への投影位置をそれぞれ算出する。この多数の投影位置で形成される領域が、眼球モデルを推定値の眼球中心位置で移動させたときの眼球モデル上の虹彩（黒目）の撮像画像上での領域となる。

ｓがスカラーであり、Ａがカメラ３２の内部行列であり、（ｕ，ｖ）が黒目内の点の撮像画像上の投影位置（二次元座標）であり、（Ｘ’，Ｙ’，Ｚ’）が黒目内の点の三次元位置（三次元座標）Ｑ’である。ここでは、ｄｅｇ＿ｘ、ｄｅｇ＿ｙの値を様々な組み合わせで設定することによって、黒目内の多数の点を算出している。ｄｅｇ＿ｘ，ｄｅｇ＿ｙの刻み幅は、撮像画像上に投影したときに黒目内の点群が隙間だらけにならないように、例えば、数ｄｅｇ程度で行う。

適合度算出部３３ｃでは、推定値毎に、カメラ３２の撮像画像から黒目内の各点の投影位置の輝度値をそれぞれ取得する。そして、適合度算出部３３ｃでは、推定値毎に、全ての投影位置での輝度値の平均値を算出し、この平均値を適合度とする。なお、適合度算出部３３ｃでも、第１の実施の形態と同様に、マップを設定し、処理負荷を軽減する。

このように、各推定値の眼球中心位置を与えことにより、その眼球中心位置と光学中心とを結ぶ線分に視線が一致するように眼球モデルを回転し、眼球モデル上の虹彩にあたる円盤（図２５の斜線領域）が撮像画像上でとる位置が決まり、その円盤内部の点が黒目内の点に相当する。つまり、算出される輝度値の平均値は、黒目らしさの指標となる。この指標を適合度として捉えることにより、黒目は、目の周辺の中でもとりわけ黒いので、その平均値は小さな値になることが予測される。したがって、この指標では、最小値をとるものが最も確からしいと考えることができる。

そこで、眼球中心位置出力部３３ｄでは、全ての推定値について適合度の算出が終了すると、算出した適合度の中から最小値の適合度を抽出する。そして、眼球中心位置出力部３３ｄでは、その最小の適合度を持つ推定値を眼球中心位置と推定し、その推定した眼球中心位置を出力する。また、眼球中心位置出力部３３ｄでは、その推定した眼球中心位置の場合の黒目内の各点の三次元座標も出力する。

画像処理装置４１の構成について説明する。画像処理装置４１では、眼球モデルについてのテンプレートを保持し、そのテンプレートを利用して撮像画像上の眼球の姿勢（視線方向）を推定する。ここでは、顔が動かないと仮定し、画像処理装置３１で求めた眼球中心位置Ｐが固定であるとしているので、眼球モデルに生じる変化はカメラ座標系に対する回転運動であり、この回転運動を眼球姿勢として推定する。その際、画像処理装置４１では、眼球姿勢の推定値を多数設定し、その各推定値が撮像画像における眼球姿勢に対して適合している度合いを算出し、その適合度に基づいて眼球姿勢を推定する。そのために、画像処理装置４１は、カメラ４２、画像処理部４３を備えている。画像処理部４３は、コンピュータ上で眼球姿勢推定処理用のアプリケーションプログラムを実行することによって情報保持部４３ａ、記憶解析部４３ｂ、推定値生成部４３ｃ、適合度算出部４３ｄ、眼球姿勢出力部４３ｅが構成される。

なお、第３の実施の形態の画像処理装置４１では、カメラ４２が特許請求の範囲に記載する撮像手段に相当し、情報保持部４３ａが特許請求の範囲に記載する情報保持手段に相当し、推定値生成部４３ｃが特許請求の範囲に記載する推定値生成手段に相当し、適合度算出部４３ｄが特許請求の範囲に記載する適合度算出手段に相当し、眼球姿勢出力部４３ｅが特許請求の範囲に記載する判断手段に相当する。

カメラ４２は第１の実施の形態に係るカメラ１２と同様のカメラであり、その説明を省略する。なお、画像処理装置４１が自動車などに搭載される場合、カメラ４２は、車室内において、運転席に座っている運転者の目付近を真正面から撮像できる位置に配置される。図２７には、カメラ４２で撮像されたあるフレームの撮像画像の一例を示している。

情報保持部４３ａは、所定のメモリ領域に構成され、画像処理装置３１で保持した同様の眼球モデル及び画像処理装置３１から出力された眼球中心位置Ｐとその眼球中心位置Ｐの場合の眼球モデルの黒目内の各点のカメラ座標系における三次元位置を保持する。

記憶解析部４３ｂは、所定のメモリ領域に構成され、推定値生成部４３ｃで生成される眼球の姿勢の推定値と適合度算出部４３ｄで算出される各推定値に対する適合度を対応付けて記憶するとともに、眼球姿勢出力部４３ｅから出力される撮像画像における眼球の姿勢を記憶する。そして、記憶解析部４３ｂでは、認識対象の人が過去にとった眼球の姿勢を履歴として蓄積する。さらに、記憶解析部４３ｂでは、この過去の履歴から取りえる眼球の姿勢を洗い出す。また、記憶解析部４３ｂでは、過去の履歴から頻度的に多くとりえる眼球の姿勢付近をピークとする正規分布を設定し、その正規分布を複数重ねて確率密度関数を生成する。なお、記憶解析部４３ｂでは、眼球姿勢出力部４３ｅから出力される眼球の姿勢を用いて履歴を蓄積してもよいし、あるいは、多数の推定値とその推定値の適合度の中から適合度が閾値より大きい推定値を用いて履歴を蓄積してもよい。

推定値生成部４３ｃでは、情報保持部４３ａに保持されている眼球モデルに基づいて、前フレームでの眼球の姿勢から取りえる現フレームの撮像画像における眼球の姿勢（回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙ）の推定値を多数個生成する。取りえる姿勢の範囲は、姿勢の２つのパラメータ毎に、フレーム間の時間内でそれぞれ変化できる各最大値を前フレームの姿勢の２つのパラメータに加算及び減算した範囲となる。ただし、この範囲が認識対象の眼球が構造上取りえない範囲を含んでいる場合、構造的に取りえない範囲を除いた範囲とする。つまり、回転可能な眼球の姿勢の範囲は物理的に決まっているので、その範囲を超えて推定値は生成されることはない。フレーム間の時間内でそれぞれ変化できる最大値としては、その眼球がおかれる環境における眼球の姿勢を予め測定し、その測定から得られた変化の最大値から予め設定してもよいし、あるいは、前フレームと前々フレームとの間での姿勢の変化に基づいて設定してもよい。

このように設定した取りえる姿勢の２つのパラメータの範囲において、各パラメータが実際にどのような値を取るかは同様に確からしい。そこで、推定値生成部４３ｃでは、姿勢の２つのパラメータ毎にそれぞれの最小値と最大値の範囲の値をとる合計ニ次元平面内の一様分布からランダムにｎ回取り出し、その取り出した値を姿勢の推定値とする。

なお、推定値の生成手法としては、記憶解析部４３ｂに蓄積されている履歴から導かれた取りえる位置と姿勢の組み合わせに基づいて推定値を生成してもよいし、あるいは、記憶解析部４３ｂに蓄積されている履歴から導かれた確率密度関数に基づいて推定値を生成してもよいし、あるいは、推定値を一様分布ではなく、前フレームの姿勢付近に現フレームの姿勢がいる可能性が高いならば、前フレームの姿勢をピークとする正規分布で推定値を生成してもよい。

適合度算出部４３ｄでは、推定値生成部４３ｃで生成した推定値毎に、各推定値の姿勢の２つのパラメータを用いて、撮像画像上で黒目内の各点がとる二次元位置を算出する。ここでは、情報保持部４３ａに保持されている固定の眼球中心位置Ｐと推定値の各回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙを用いて二次元位置を算出する。図２９に示すように、眼球に設定した仮想的な眼球座標系ＥＣを考え、その眼球の姿勢の方向ＥＤとカメラ４２の光軸の方向ＣＤとが真逆の方向としかつ眼球座標系ＥＣのＸ軸とカメラ座標系ＣＣのＸ軸とが真逆の方向とし、この状態を基準姿勢とする。回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙは、この基準姿勢からの眼球の回転角である。

ここで、情報保持部４３ａで保持している眼球モデルと眼球モデルの黒目内の各点のカメラ座標系における三次元位置を使用する。このとき、眼球モデルの中心を画像処理装置３１で求めた眼球中心位置Ｐ（固定）とし、眼球中心位置Ｐが眼球座標系ＥＣの原点となる（図２９参照）。この状態で、推定値の回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙを用いて、眼球モデルを回転させる。適合度算出部４３ｄでは、式（２４）により、回転前の黒目内の各点のカメラ座標系における三次元位置をＱとし、回転後の黒目内の各点の三次元位置Ｑ’をそれぞれ算出する。

Ｒ_ｙは、Ｙ軸周りの回転行列であり、式（２５）で表され、推定値の回転角ｄｅｇ＿ｙが使用される。Ｒ_ｘは、Ｘ軸周りの回転行列であり、式（２６）で表され、推定値の回転角ｄｅｇ＿ｘが使用される。この場合、黒目内の各点は、回転角ｄｅｇ＿ｘ及び回転角ｄｅｇ＿ｙと立体角θとは式（２７）の関係を満たすことになる。

そして、適合度算出部４３ｄでは、画像処理装置３１と同様に、上記の式（２３）により、黒目内の各点の三次元座標Ｑ’の撮像画像上への投影位置をそれぞれ算出する。この多数の投影位置で形成される領域が、眼球モデルを推定値の回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙで回転させたときの眼球モデル上の虹彩（黒目）の撮像画像上での領域となる。図２８には、推定値の回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙに応じて、画像上に投影された二次元座標ＩＤ，・・・・を示している。

さらに、適合度算出部４３ｄでは、画像処理装置３１と同様に、推定値毎に、カメラ４２の撮像画像から黒目内の各点の投影位置の輝度値をそれぞれ取得し、全ての投影位置での輝度値の平均値を適合度とする。なお、適合度算出部４３ｄでも、第１の実施の形態と同様に、マップを設定し、処理負荷を軽減する。

眼球姿勢出力部４３ｅでは、全ての推定値について適合度の算出が終了すると、算出した適合度の中から最小値の適合度を抽出する。そして、眼球姿勢出力部４３ｅでは、その最小の適合度を持つ推定値を姿勢（回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙ）と推定し、その推定した眼球姿勢を出力する。

適合度の推定方法としては、他の方法でもよく、例えば、閾値以下の適合度を持つ推定値の適合度による加重平均値によって姿勢を推定してもよいし、適合度を算出された全ての推定値の適合度による加重平均値によって姿勢を推定してもよいし、適合度の最小値の一定倍以下の値（例えば、最大値の１．１倍以下の値）をとる適合度の推定値の適合度による加重平均値によって姿勢を推定してもよいし、適合度の最小値の一定倍以下の値をとる適合度の推定値の適合度の数が所定数以上の場合にそれらの適合度の推定値の適合度による加重平均値によって姿勢を推定してもよいし、あるいは、適合度の最小値の一定倍以下の値をとる適合度の推定値の適合度の数が所定数未満の場合に適合度が最小の推定値の姿勢としてもよい。

次に、図２２を参照して、画像処理装置３１の動作について説明する。特に、画像処理部３３の眼球中心位置推定処理については図３１のフローチャートに沿って説明する。図３１は、図２２の画像処理装置における眼球中心位置推定処理の流れを示すフローチャートである。

カメラ３２では、カメラを覗き込む目を撮像し、その撮像画像の画像信号を画像処理部３３に送信する。

画像処理部３３では、眼球中心位置Ｐ、眼球半径Ｒ、虹彩半径ｒからなる眼球モデルを設定する（Ｓ６０）。画像処理部３３では、カメラ３２から画像信号を受信し、目の撮像画像を取得する（Ｓ６１）。

画像処理部３３では、眼球モデルの眼球中心とカメラ３２の光学中心を結ぶ線分が眼球モデルの視線と一致するように回転する場合に、眼球中心がカメラ３２に対して取りえる位置の推定値を多数生成する（Ｓ６２）。そして、画像処理部３３では、各推定値の眼球中心位置の場合に、各回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙに応じて黒目内の各点をそれぞれ移動させ、その移動させた各三次元位置からカメラ３２で撮像した撮像画像上に投影した投影位置（二次元座標）をそれぞれ算出する（Ｓ６３）。さらに、画像処理部３３では、各推定値の眼球中心位置の場合に、撮像画像上の黒目内の各点の投影位置での輝度の平均値を算出し、その平均値を適合度とする（Ｓ６４）。

全ての推定値の眼球中心位置についての適合度を算出すると、画像処理部３３では、推定値の眼球中心位置と各推定値に対して算出した適合度を用いて、撮像画像における眼球中心位置を推定し、その推定した眼球中心位置を出力する（Ｓ６５）。また、画像処理部３３では、その推定した眼球中心位置の場合の眼球モデルの黒目内の各点のカメラ座標系における三次元位置を出力する。

次に、図２３を参照して、画像処理装置４１の動作について説明する。特に、画像処理部４３の眼球姿勢推定処理については図３２のフローチャートに沿って説明する。図３２は、図２３の画像処理装置における眼球姿勢推定処理の流れを示すフローチャートである。

カメラ４２では、時間的に連続して撮像し、一定時間毎に撮像画像の画像信号を画像処理部４３に送信する。

画像処理部４３では、眼球中心位置Ｐ、眼球半径Ｒ、虹彩半径ｒからなる眼球モデルを設定する（Ｓ７０）。この眼球モデルは、眼球中心位置Ｐが画像処理装置３１で推定した眼球中心位置で固定され、その眼球中心位置Ｐの場合の黒目内の各点の基準となる三次元位置が画像処理装置３１で算出された値である。画像処理部４３では、カメラ４２から画像信号を受信し、現フレームの撮像画像を取得する（Ｓ７１）。

画像処理部４３では、前フレームで推定した眼球姿勢に基づいて、眼球がカメラ座標系に対して取りえる回転の推定値を多数生成する（Ｓ７２）。そして、画像処理部４３では、各推定値の回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙに応じて、保持している黒目内の各点の三次元位置をそれぞれ移動させ、その移動させた各三次元位置からカメラ４２で撮像した撮像画像上に投影した投影位置（二次元座標）をそれぞれ算出する（Ｓ７３）。さらに、画像処理部４３では、各推定値の回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙの場合に、撮像画像上の黒目内の各点の投影位置での輝度の平均値を算出し、その平均値を適合度とする（Ｓ７４）。

全ての推定値の回転角ｄｅｇ＿ｘ，ｄｅｇ＿ｙについての適合度を算出すると、画像処理部４３では、推定値の回転角と各推定値に対して算出した適合度を用いて、撮像画像における眼球姿勢を推定し、その推定した眼球姿勢を出力する（Ｓ７５）。

この画像処理装置３１及び画像処理装置４１によれば、多数の推定値を生成し、各推定値について黒目としての確からしさと黒目の位置とを評価した適合度を求めることにより、撮像画像から眼球中心位置や眼球姿勢を高精度に推定することができる。また、画像処理装置３１及び画像処理装置４１によれば、眼球モデルの少ないデータだけを保持し、画像全体ではなく、この眼球モデルについての処理を行うだけなので、処理負荷を軽減でき、処理時間も短い。

特に、画像上での黒目は、視線がカメラを向いているときにはほぼ円であるが、視線の光学中心からのずれが大きくなるのに従って楕円になる。そこで、画像処理装置３１及び画像処理装置４１では、眼球モデルを利用し、かつ、眼球モデルの位置や姿勢を三次元的に移動させ、その画像上での投影位置を用いることにより、画像上での黒目の変化を高精度に表現することができる。そのため、画像上での黒目と同じ見え方をする眼球モデルの位置や姿勢を探すことが可能となり、その位置や姿勢を推定することができる。その結果、撮像画像上で楕円に見えるような黒目に対しても、その姿勢（視線）を高精度に推定することができる。

以上、本発明に係る実施の形態について説明したが、本発明は上記実施の形態に限定されることなく様々な形態で実施される。

例えば、本実施の形態では対象物体として人間の顔や眼球に適用したが、これら以外の三次元物体にも適用可能であり、例えば、人の体や車両などの同じような三次元形状を有しており、その三次元形状を特定可能な物体に適用可能である。

また、本実施の形態ではパーソナルコンピュータなどのコンピュータ上でアプリケーションプログラム（ソフトウエア）を実行することによって各部を構成したが、ハードウエアによって各部を構成してもよい。

また、本実施の形態では対象物体の有無、位置、姿勢を判断するための画像処理装置に１台のカメラを備え、単一の撮像画像から有無、位置、姿勢を判断する構成としたが、画像処理装置に複数台のカメラ（例えば、ステレオカメラ）を備え、複数の撮像画像から有無、位置、姿勢を判断するようにしてもよい。この場合、処理負荷は増加するが、有無判定や位置、姿勢の推定精度は向上する。例えば、第１の実施の形態で複数台のカメラを備える場合、複数の撮像画像それぞれについて、投影位置の算出、各特徴点についてのマップの生成や保持、正規化相関演算、適合度算出などを行う必要がある。

また、本実施の形態では特徴点を評価するための情報として輝度情報を用いる構成としたが、彩度、ＲＧＢの色情報などの他の画像情報を用いてもよい。また、本実施の形態では特徴点を評価するための情報として輝度パターンを用いる構成としたが、輝度のヒストグラム、輝度の分布形状、エッジパターン（エッジ画像）、フーリエ変換による周波数特性などの他の情報を用いてもよい。

また、本実施の形態では特徴点毎にマップを生成する構成としたが、マップを生成しない構成としてもよい。

また、本実施の形態では記憶解析部を設け、推定値や推定値の適合度を記憶し、対象物体が過去にとった位置や姿勢の履歴を作成し、その履歴も利用して推定値を生成する構成としたが、記憶解析部を設けずに、履歴を利用しないで推定値を生成するようにしてもよい。

また、第１の実施の形態及び第２の実施の形態では顔の位置及び姿勢の両方についての推定値を生成する構成としたが、位置と姿勢のいずれか一方を固定とし、他方のみの推定値を生成する構成としてもよい。また、対象物体によっては、位置と姿勢のいずれか一方しか変化しないものもあり、その場合にはその変化するものについてのみ推定値を生成する。

また、第１の実施の形態では２つの段階で推定値生成や各推定値についての適合度算出を行うことによって位置と姿勢を推定する構成としたが、１つの段階で位置と姿勢を推定するようにしてもよい。

また、第３の実施の形態では眼球モデルに基づいて眼球中心位置を推定する構成としたが、顔の位置に対する平均的な眼球中心位置の相対的な位置関係が既知な場合、第１の実施の形態で推定した顔の位置や姿勢を元にしてその相対的な位置関係から眼球中心位置を推定することも可能である。

また、第３の実施の形態では顔が動かないと仮定した場合の眼球の姿勢を推定する構成としたが、顔（頭部）が動く場合の眼球の姿勢を推定することも可能である。例えば、まず、第１の実施の形態で顔の位置と姿勢を推定し、その推定した顔の位置と姿勢を考慮して眼球の姿勢を推定するようにする。

また、第３の実施の形態では黒目だけを考慮した眼球モデルを用いて各推定を行ったが、黒目に加えて白目も考慮した眼球モデルを用いて各推定を行ってもよい。撮像画像の上の目は、黒目以外にも目尻付近や上瞼付近も同様に黒い場合がある。そこで、図３０に示すような、黒目とその周辺の白目との位置関係まで考慮できる眼球モデルを用いることもできる。この眼球モデルを用いる場合、黒目内の各点の画像上の投影位置における輝度の平均値以外に、白目内の各点の画像上の投影位置における輝度の平均値も求めることができるので、例えば、白目領域の輝度平均値から黒目領域の輝度平均値を減算した値を適合度とし、この適合度が最も大きくなる位置が最も黒目らしいと判断することができる。

また、第３の実施の形態では黒目としての確からしさを評価する際に、黒目領域が他の領域に比べて最も輝度が小さいので、適合度の中から最も小さい適合度を抽出する構成としたが、評価情報として黒目領域を示す輝度の平均値を判定するための閾値を保持し、その閾値以下の適合度を抽出する構成としてもよいし、あるいは、虹彩が青や緑などの他の色の場合には評価情報としてその色の領域の輝度の平均値を判定するための閾値を保持し、その閾値内の適合度を抽出する構成としてもよいし、また、評価情報として個々の人の虹彩模様を示す参照輝度パターンを保持し、その参照輝度パターンと投影位置での輝度パターンとから正規化相関値を求め、正規化相関値から適合度を算出する構成としてもよい。

第１の実施の形態及び第２の実施の形態に係るモデリング処理用の画像処理装置の構成図である。第１の実施の形態に係る顔位置・姿勢推定処理用の画像処理装置の構成図である。図１の第１カメラで撮像された顔の撮像画像の一例である。図３の撮像画像から抽出された特徴点を示す画像である。特徴点に対応する点を含む三次元モデルの一例である。図３の各特徴点の三次元位置を示す図である。図１の第１カメラと第２カメラでそれぞれ撮像された顔の撮像画像の一例である。図７の２つの撮像画像からそれぞれ抽出された特徴点を示す画像である。図２のカメラで撮像された顔の撮像画像の一例である。図９の撮像画像から検出された顔領域を示す画像である。図１０の撮像画像の顔領域から抽出された参照輝度パターンと類似する領域を示す画像である。第１段階での顔の位置・姿勢の推定値に応じた特徴点の基準三次元位置から二次元画像上への投影の説明図である。第１段階での各特徴点の正規化相関値の一例である。第２段階での顔の位置・姿勢の推定値に応じて特徴点の基準三次元位置から二次元画像上への投影の説明図である。第２段階での各特徴点の正規化相関値の一例である。特徴点毎の各投影位置における正規化相関値からなるマップの一例である。図１の画像処理装置におけるモデリング処理の流れを示すフローチャートである。図２の画像処理装置における顔位置・姿勢推定処理の流れを示すフローチャートである。図２の画像処理装置における正規化相関値算出処理の流れを示すフローチャートである。第２の実施の形態に係る顔有無判定処理用の画像処理装置の構成図である。図２０の画像処理装置における顔有無判定処理の流れを示すフローチャートである。第３の実施の形態に係る眼球中心位置推定処理用の画像処理装置の構成図である。第３の実施の形態に係る眼球姿勢推定処理用の画像処理装置の構成図である。眼球構造を示す図である。眼球モデルを示す図である。眼球とカメラとの関係を示す図である。図２３のカメラで撮像された目の撮像画像の一例である。眼球の回転の推定値に応じて黒目内の点を二次元画像上への投影の説明図である。カメラ座標系と眼球座標系との関係を示す図である。白目も含めた眼球モデルを示す図である。図２２の画像処理装置における眼球中心位置推定処理の流れを示すフローチャートである。図２３の画像処理装置における眼球姿勢推定処理の流れを示すフローチャートである。

符号の説明

１，１１，２１，３１，４１…画像処理装置、２…第１カメラ、３…第２カメラ、１２，２２，３２，４２…カメラ、４，１３，２３，３３，４３…画像処理部、４ａ…特徴点抽出部、４ｂ…特徴点三次元位置推定部、４ｃ，１３ａ，２３ａ，３３ａ，４３ａ…情報保持部、１３ｂ，２３ｂ，４３ｂ…記憶解析部、１３ｃ，２３ｃ，３３ｂ，４３ｃ…推定値生成部、１３ｄ，２３ｄ，３３ｃ，４３ｄ…適合度算出部、１３ｅ…顔位置・姿勢出力部、２３ｅ…顔有無出力部、３３ｄ…眼球中心位置出力部、４３ｅ…眼球姿勢出力部

Claims

撮像手段と、
対象物体の二次元画像上の３つ以上の特徴点についての特徴点としての確からしさを評価するための評価情報と三次元位置情報からなるテンプレートを保持する情報保持手段と、
対象物体の位置又は／及び姿勢の推定値を複数生成する推定値生成手段と、
前記撮像手段で撮像した撮像画像と前記情報保持手段で保持している３つ以上の特徴点についての各テンプレートに基づいて前記推定値生成手段で生成した複数の推定値の適合度を算出する適合度算出手段と、
前記適合度算出手段で算出した複数の推定値の適合度に基づいて前記撮像手段で撮像した撮像画像における対象物体の有無、位置又は／及び姿勢を判断する判断手段と
を備え、
前記適合度算出手段は、前記推定値生成手段で生成した各推定値によりテンプレートの各特徴点の三次元位置を変換し、当該変換した三次元位置を前記撮像手段で撮像された撮像画像に投影し、当該投影位置での特徴点の確からしさをテンプレートの評価情報と撮像画像の投影位置周辺の情報に基づいて評価し、当該評価値に基づいて適合度を算出することを特徴とする画像処理装置。
前記推定値生成手段は、前記撮像手段で過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値、対象物体が構造上取りうる位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて推定値を生成することを特徴とする請求項１に記載する画像処理装置。
前記推定値生成手段は、前記撮像手段で過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて複数生成する推定値の密度を変えることを特徴とする請求項１又は請求項２に記載する画像処理装置。
前記適合度算出手段は、撮像画像の投影位置周辺の情報をテンプレートの評価情報と同じ物理量に変換することを特徴とする請求項１〜請求項３のいずれか１項に記載する画像処理装置。
前記適合度算出手段は、投影位置における特徴点の確からしさの評価値が所定値以下の場合には一定値にすることを特徴とする請求項１〜請求項４のいずれか１項に記載する画像処理装置。
前記適合度算出手段は、特徴点毎の各投影位置における評価値からなるデータ構造を撮像画像における対象物体が変化する毎に生成することを特徴とする請求項１〜請求項５のいずれか１項に記載する画像処理装置。
前記適合度算出手段は、３つ以上の特徴点のうち評価値が高い特徴点を用いて適合度を算出することを特徴とする請求項１〜請求項６のいずれか１項に記載する画像処理装置。
前記適合度算出手段は、３つ以上の特徴点の評価値の統計量を算出し、当該統計量を適合度とすることを特徴とする請求項１〜請求項７のいずれか１項に記載する画像処理装置。
前記判断手段は、適合度の最大値が所定値以上、所定値以上の適合度の数が所定数以上、適合度の最大値から所定範囲内の値の適合度の数が所定数以上の少なくとも１つの条件を満たす場合に撮像画像に対象物体が存在すると判断することを特徴とする請求項１〜請求項８のいずれか１項に記載する画像処理装置。
対象物体の位置及び／又は姿勢の推定値と当該推定値に対する適合度を記憶することを特徴とする請求項１〜請求項９のいずれか１項に記載する画像処理装置。
撮像ステップと、
対象物体の位置及び／又は姿勢の推定値を複数生成する推定値生成ステップと、
前記撮像ステップで撮像した撮像画像と対象物体の二次元画像上の３つ以上の特徴点についての特徴点としての確からしさを評価するための評価情報と三次元位置情報からなるテンプレートに基づいて前記推定値生成ステップで生成した複数の推定値の適合度を算出する適合度算出ステップと、
前記適合度算出ステップで算出した複数の推定値の適合度に基づいて対象物体の有無、位置又は／及び姿勢を判断する判断ステップと
を含み、
前記適合度算出ステップでは、前記推定値生成ステップで生成した各推定値によりテンプレートの各特徴点の三次元位置を変換し、当該変換した三次元位置を前記撮像ステップで撮像された撮像画像に投影し、当該投影位置での特徴点の確からしさをテンプレートの評価情報と撮像画像の投影位置周辺の情報に基づいて評価し、当該評価値に基づいて適合度を算出することを特徴とする画像処理方法。
前記推定値生成ステップでは、前記撮像ステップで過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値、対象物体が構造上取りうる位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて推定値を生成することを特徴とする請求項１１に記載する画像処理方法。
前記推定値生成ステップでは、前記撮像ステップで過去に撮像した撮像画像における対象物体の位置又は／及び姿勢に関する値、対象物体の位置又は／及び姿勢の履歴の少なくとも１つに基づいて複数生成する推定値の密度を変えることを特徴とする請求項１１又は請求項１２に記載する画像処理方法。
前記適合度算出ステップでは、撮像画像の投影位置周辺の情報をテンプレートの評価情報と同じ物理量に変換することを特徴とする請求項１１〜請求項１３のいずれか１項に記載する画像処理方法。
前記適合度算出ステップでは、投影位置における特徴点の確からしさの評価値が所定値以下の場合には一定値にすることを特徴とする請求項１１〜請求項１４のいずれか１項に記載する画像処理方法。
前記適合度算出ステップでは、特徴点毎の各投影位置における評価値からなるデータ構造を撮像画像における対象物体が変化する毎に生成することを特徴とする請求項１１〜請求項１５のいずれか１項に記載する画像処理方法。
前記適合度算出ステップでは、３つ以上の特徴点のうち評価値が高い特徴点を用いて適合度を算出することを特徴とする請求項１１〜請求項１６のいずれか１項に記載する画像処理方法。
前記適合度算出ステップでは、３つ以上の特徴点の評価値の統計量を算出し、当該統計量を適合度とすることを特徴とする請求項１１〜請求項１７のいずれか１項に記載する画像処理方法。
前記判断ステップでは、適合度の最大値が所定値以上、所定値以上の適合度の数が所定数以上、適合度の最大値から所定範囲内の値の適合度の数が所定数以上の少なくとも１つの条件を満たす場合に撮像画像に対象物体が存在すると判断することを特徴とする請求項１１〜請求項１８のいずれか１項に記載する画像処理方法。
対象物体の位置及び／又は姿勢の推定値と当該推定値に対する適合度を記憶することを特徴とする請求項１１〜請求項１９のいずれか１項に記載する画像処理方法。