JP4568223B2 - 推定装置 - Google Patents

推定装置 Download PDF

Info

Publication number
JP4568223B2
JP4568223B2 JP2005368124A JP2005368124A JP4568223B2 JP 4568223 B2 JP4568223 B2 JP 4568223B2 JP 2005368124 A JP2005368124 A JP 2005368124A JP 2005368124 A JP2005368124 A JP 2005368124A JP 4568223 B2 JP4568223 B2 JP 4568223B2
Authority
JP
Japan
Prior art keywords
hidden state
estimation
time
state
hidden
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005368124A
Other languages
English (en)
Other versions
JP2007172237A (ja
Inventor
直樹 深谷
幹郎 清水
信 石井
智広 柴田
誉司 坂東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2005368124A priority Critical patent/JP4568223B2/ja
Priority to DE102006059172A priority patent/DE102006059172B4/de
Priority to US11/642,763 priority patent/US7813544B2/en
Publication of JP2007172237A publication Critical patent/JP2007172237A/ja
Application granted granted Critical
Publication of JP4568223B2 publication Critical patent/JP4568223B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、観測データから隠れ状態を推定する推定装置に関する。
従来より、運転中のドライバの頭部姿勢など、推定対象(ここではドライバ)を拘束することなく推定対象の状態(ここでは頭部姿勢)を検出したい場合に、カメラで撮影された画像を観測データとして用いることが行われている。
しかし、この場合、観測データである画像から直接取得されるのは、画素毎の輝度や色情報に過ぎず、従って、画像から頭部姿勢を直接検出することはできない。
このような観測データ(画像)から直接検出することができない推定対象の状態(例えば頭部姿勢)のことを隠れ状態と呼び、この推定対象の隠れ状態の事後確率分布を観測データから算出する手法として、時系列ベイズ推定が知られている。
時系列ベイズ推定では、種々のモデル変数(隠れ状態変数を含む)の分布を求める際に、複雑な積分計算を必要とするため、一般的には、解析的に解くことができないが、モデル変数の確率分布がガウス分布に従い、モデルを規定するシステム方程式が線形性を有することを仮定することによって、推定対象の隠れ状態の事後確率分布の算出に伴う積分計算を解析的に行うことを可能としたカルマンフィルタを用いて、高速に時系列ベイズ推定を実現する手法が知られている(例えば、非特許文献1参照。)。
しかし、ドライバの頭部姿勢を推定することを考えた場合、実際の環境下では、頭部の複雑な動きや、直射日光や西日、街灯などによる照明条件の急激な変化、ドライバの手や帽子などの遮蔽物の存在などに基づく複雑な外乱(非ガウス性雑音)が観測データに加わる。つまり、モデル変数の確率分布がガウス分布に従わなかったり、システム方程式が線形から外れたりするため、カルマンフィルタにて、安定した推定精度を得ることは一般に困難である。
また、観測データとして画像を用いた場合、一般に、扱うモデル変数の次元が高次元となる場合が多く、上述した積分計算のために、非常に膨大な処理負荷が発生し、実時間での実現が非常に困難であるという問題がある。
これに対して、非ガウス性雑音が加わった観測データから隠れ状態の時系列推定や予測を近似的な時系列ベイズ推定によって行うパーティクルフィルタが知られている。
このパーティクルフィルタは、有限のパーティクルによって各時刻での隠れ状態の事前確率分布及び事後確率分布を離散的に表現し、それを用いて時系列推定や予測を行うものである。
但し、パーティクルフィルタによる事後確率分布の近似精度を高めるためには、パーティクル数を増加させる必要があり、一方、実時間処理のためにはパーティクル数を少なく抑える必要がある。つまり、パーティクルフィルタを用いた場合、精度と処理時間との間には、トレードオフの関係がある。
そこで、状態変数を解析的に積分可能なものとそうでないものに分け,解析的に積分不可能なものに対してのみパーティクルフィルタを用いることにより、パーティクルフィルタで推定する次元を小さくでき、比較的少ないパーティクル数によって推定精度の向上と計算量の抑制を両立させるRao-Blackwellisationという手法が知られている(例えば、非特許文献2参照。)。
画像処理の分野でもこのRao-Blackwellizationの適用例があり、一般に推定対象の隠れ状態と観測データの中間に推定対象の隠れ状態と観測データの双方と因果関係を持つ中間の隠れ状態(例えば,複数の顔の特徴点の画像面上の座標)を設けることで、線形ガウス過程を仮定することができる推定対象の隠れ状態と中間の隠れ状態とから構成される確率システム(上位層)と線形ガウス過程を仮定することができない中間の隠れ状態と観測可能な状態とから構成される確率システム(下位層)とに分け、上位層における時系列推定では例えばカルマンフィルタを用い、下位層における時系列推定ではパーティクルフィルタを用いることにより、パーティクルフィルタで推定する次元を小さくして、推定精度の向上と処理時間の抑制を両立させる手法が知られている(例えば、非特許文献3参照。)。
なお、Rao-Blackwellisationの適用には、状態変数の一部が解析的に積分可能である必要があるが、これは線形ガウス過程モデルに対するカルマンフィルタに限定されるものではない。(例えば混合正規分布モデル,隠れマルコフモデル,ディリクレ過程モデルなどでもよい。)
A. Blake, R. Curwen and A. Ziseerman : "A frame work for spatio-temporal control in the tracking of visual contours", International Journal of Computer Vision, 11, 2, pp.127-145 (1993). G. Casella and C. Robert : "Rao-blackwellisation of sampling schmes", Biometrika, 83, 1, pp.81-94 (1996). A. Doucet, S. Godsil and C. Andrieu : "On sequential monte carlo sampling methods for bayesian filtering", Statistics and Computiong, 10, 3, pp.197-208 (2000).
しかし、非特許文献3に記載の手法では、下位層においてパーティクルフィルタで推定した中間の隠れ状態の推定結果(中間の隠れ状態の事後確率分布)を推定対象の隠れ状態に対する観測データとして用いて上位層で推定対象の隠れ状態の推定を行っているため、下位層で中間の隠れ状態の推定精度が低下すると、上位層での推定対象の隠れ状態の推定精度も低下しまい、しかも、下位層で中間の隠れ状態の推定精度が一旦低下すると、これを正常な状態に復元することが一般に困難であるという問題があった。
即ち、例えば、下位層の推定に用いるパーティクルフィルタが、ドライバの顔のある特徴点が画像(観測データ)上に投影された座標(中間の隠れ状態)を時系列推定するように構成されていると仮定した場合、この特徴点と類似した部分(偽特徴点という)が観測データ中に存在すると、この偽特徴点は特徴点と共に大きな尤度を持つことになる。このため、特徴点が不規則で急激な動きをする等した場合に、中間の隠れ状態の事前確率分布及び事後確率分布を離散近似するパーティクル群が特徴点から外れて偽特徴点に捕らわれてしまうことがある。このようにパーティクル群が偽特徴点に一旦捕らわれてしまうと、以後、パーティクルフィルタでは、その誤った特徴点の座標の推定結果(中間の隠れ状態の事後確率分布)から生成した予測(中間の隠れ状態の事前確率分布)に従うパーティクル群を用いて、次回の観測及び推定を行うことになるため、パーティクル群が偽特徴点を追跡する異常な状態から抜け出すことが困難になってしまうのである。
そこで、本発明は、非ガウス性雑音が存在する環境でも、精度良くしかもリアルタイムに時系列ベイズ推定の良い近似計算を行うことが可能な推定装置を提供することを目的とする。
ここで、図17,図18は、以下で使用する用語の定義の理解を容易にするための説明図である。
上記目的を達成するためになされた本発明の推定装置では、推定対象の隠れ状態予測手段が、当該手段での時刻t−1の推定情報と、推定対象の隠れ状態の時間変化に伴う動きのモデルを表す推定対象の隠れ状態の状態遷移構造とに基づいて、時刻tの推定対象の隠れ状態の状態予測情報を生成する。
すると、推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測手段が、推定対象の隠れ状態予測手段によって生成された時刻tの推定対象の隠れ状態予測情報と,推定対象の隠れ状態と前記中間の隠れ状態との間の因果関係とに基づいて,時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報を生成する。
そして、中間の隠れ状態の尤度観測手段が、後述する混合手段によって生成された時刻tの中間の隠れ状態予測情報と、時刻tの観測可能な状態の観測データとに基づいて,時刻tの中間の隠れ状態の尤度を生成する。
すると、中間の隠れ状態推定手段が、後述する混合手段によって生成された時刻tの中間の隠れ状態予測情報と,中間の隠れ状態の尤度観測手段によって生成された時刻tの中間の隠れ状態の尤度とに基づいて時刻tの中間の隠れ状態推定情報を生成する。
そして、推定対象の隠れ状態の尤度観測手段が、中間の隠れ状態推定手段によって生成された時刻tの中間の隠れ状態推定情報と,推定対象の隠れ状態予測手段によって生成された時刻tの推定対象の隠れ状態予測情報とに基づいて,時刻tの推定対象の隠れ状態の尤度を生成する。
すると、推定対象の隠れ状態推定手段が、推定対象の隠れ状態推定手段によって生成された時刻tの推定対象の隠れ状態予測情報と,推定対象の隠れ状態の尤度観測手段によって生成された時刻tの推定対象の隠れ状態の尤度とに基づいて時刻tの推定対象の隠れ状態推定情報を生成する。
なお、推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測手段が、時刻tの推定対象の隠れ状態予測情報と、推定対象の隠れ状態と中間の隠れ状態との因果関係とに基づいて中間の隠れ状態を予測した、時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報を生成し、中間の隠れ状態の状態遷移構造による中間の隠れ状態予測手段が、時刻t−1の中間の隠れ状態推定情報と、中間の隠れ状態の状態遷移構造とに基づいて中間の隠れ状態を予測した、時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報を生成し、混合手段が、時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報と、時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報とを、予め設定された混合比に従って混合することで時刻tの中間の隠れ状態予測情報を生成する。
つまり、中間の隠れ状態推定手段が使用する時刻tの中間の隠れ状態予測情報には、その中間の隠れ状態推定手段での時刻t−1での推定結果(時刻t−1での中間の隠れ状態推定情報)だけでなく、推定対象の隠れ状態推定手段での時刻t−1での推定結果(時刻t−1での推定対象の隠れ状態推定情報)も反映されている。
そして、時刻t−1の中間の隠れ状態推定情報から中間の隠れ状態の状態遷移構造によって導かれる時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報と、時刻t−1の推定対象の隠れ状態推定情報から推定対象の隠れ状態の状態遷移構造と、推定対象の隠れ状態と中間の隠れ状態との因果関係とからによって導かれる時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報とは異なっているため、時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報と時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報とが同時に大きく精度を低下させてしまう従来手法の問題を解決することができる。
従って、本発明の推定装置によれば、何等かの原因(観測データが画像、中間の隠れ状態が画面上に投影された顔の特徴点の座標である場合は、顔の特徴点の複雑な動きや照明の変動、遮蔽物による顔の特徴点の隠れなど)で、時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報及び時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報のうち一方の精度が大きく低下したとしても、両者を混合することで生成される時刻tの中間の隠れ状態予測情報は、その影響が緩和されたものとなり、実環境で発生する状況の変化や大きな外乱の影響を除去することができ、頑強で正確な推定を実現することができる。
ところで、中間の隠れ状態推定手段は、時刻tの中間の隠れ状態推定情報と、その時刻tの中間の隠れ状態推定情報の生成に使用した時刻tの定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報及び時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報とに基づき、時刻tの中間の隠れ状態推定情報を最も良く近似する時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報と時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報との混合比を求める混合比算出手段を備え、この混合比算出手段にて算出された混合比を、時刻t+1の中間の隠れ状態予測情報を生成する際に使用するように構成されていることが望ましい。
なお、時刻tの中間の隠れ状態推定情報を最も良く近似する混合比を求めた場合、時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報及び時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報のうち予測精度の高い方がより高い比率で混合されるような混合比となる。
つまり、本発明の推定装置によれば、時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報と時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報との混合比を、予測精度の良好な側がより大きな割合で混合されるように、状況に応じて動的に変化させることになるため、より頑強で正確な推定を実現することができる。
なお、混合比算出手段では、混合比の算出に、オンライン化したEMアルゴリズムを用いることで,統計的に望ましい推定値をオンラインで得ることができ,変動するデータに追従することができるため,本推定装置に更なる頑健性を与える。
また、例えば、推定対象の隠れ状態推定手段は、推定対象の隠れ状態の確率分布が線形性,ガウス性を有し、中間の隠れ状態推定手段は、中間の隠れ状態の確率分布が非線形性,非ガウス性を有するものとして構成されていてもよい。
そして、この場合、中間の隠れ状態推定手段は、中間の隠れ状態推定情報の生成にパーティクルフィルタを用いること、また、推定対象の隠れ状態推定手段は、推定対象の隠れ状態の推定にカルマンフィルタを用いることが望ましい。
なお、観測データが顔面を撮影した画像であり、推定対象の隠れ状態が頭部姿勢を表すアフィンパラメータであり、中間の隠れ状態が顔面の特徴を表す顔の特徴点の画像上での座標である場合には、本発明の推定装置を、ドライバの頭部姿勢を推定して、居眠りやわき見運転を防止する運転支援システム等を構成する際に好適に用いることができる。
以下に本発明の実施形態を図面と共に説明する。
図1は、本発明を適用した画像処理装置1の全体構成を示すブロック図である。なお、画像処理装置1は、車両に搭載され、ドライバの頭部を撮影した画像から、ドライバのわき見や居眠り等を検出するための情報である頭部姿勢を時系列的に求める処理を実行する装置である。
図1に示すように、画像処理装置1は、ドライバシートの前面上部又は下部(例えば、メータ内)に設置され、ドライバの頭部を含む画像を取得するカメラ2と、カメラ2が取得した画像を取り込むビデオキャプチャーボード3と、初期化指令が入力された場合に、ビデオキャプチャーボード3を介して取り込んだ入力画像zt (tは時刻を表す)から、ドライバの顔の特徴を表す複数(N個)の特徴点の座標(以下、顔特徴点という)x_{n}(n=1,2,…N)を抽出する初期特徴点抽出部4と、初期特徴点抽出部4が抽出した顔特徴点x_{n}のそれぞれについて、その顔特徴点x_{n}を中心とする予め設定された大きさの画像をテンプレートtpn として切り出して記憶するテンプレート生成・記憶部5と、初期特徴点抽出部4が抽出した顔特徴点x_{n}間の幾何学的拘束条件を記述した初期顔モデル(観測行列Ca)を生成して記憶する観測行列生成・記憶部6と、入力画像zt ,テンプレートtpn ,観測行列Caに基づいて、時系列ベイズ推定を行うことにより、頭部姿勢を表すアフィンパラメータat を推定する推定部8と、推定部8が推定したアフィンパラメータat に従って、頭部姿勢θx,θy,θzを算出する頭部姿勢算出部9から構成される。
このうち、初期特徴点抽出部4では、図2(a)に示すように、顔特徴点として、目尻,目頭,口元、鼻(鼻の穴,鼻の中心,鼻の左右端)などを抽出する。但し、本実施形態では、左右目尻、左右目頭,左右口元,鼻の中心の7(=N)個の点を抽出するものとする。また、初期化指令は、ドライバが正面を向き、顔特徴点の隠れのない画像をカメラ2で撮影した時に、ドライバの操作によって入力されるものとする。
また、観測行列生成・記憶部6では、図2(b)に示すように、顔特徴点x_{1}〜x_{N}(線図の各頂点)が一つの平面上にあるとした平面顔モデルを仮定して、顔特徴点x_{n}間の位置関係(相対位置,距離)を表す観測行列Ca を生成する。なお、平面顔モデルを仮定するのは、計算を簡単にするためである。具体的には、図3に示すように、画面上の座標を表す水平方向の座標軸をu軸、垂直方向の座標軸をv軸、3次元空間の水平方向の座標軸をx軸、垂直方向の座標軸をy軸、光軸方向(奥行き方向)の座標軸をz軸とし、初期特徴点抽出部4で抽出されたn番目の顔特徴点の座標を(cun,cvn)で表すものとして、観測行列Ca は、(1)式にて表される。
テンプレート生成・記憶部5が生成するテンプレートtpn は、具体的には、図2(a)中の点線白枠にて示すようなものとなる。但し、図では、左口元、鼻の中心、左目尻についてのみ示す。
推定部8で推定されるアフィンパラメータat は、実世界(三次元のxyz空間)での回転による座標変換を、射影面である画像面(二次元のuv平面)でのアフィン変換による座標変換で表した場合に得られる変換行列の要素a1〜a6を縦に並べて得られるベクトルである。
即ち、ある特徴点の三次元座標を(x,y,z)T 、この特徴点をx軸を中心に角度θx,y軸を中心に角度θy,z軸を中心に角度θzだけ回転させた移動後の座標を(x’,y’,z’)T とすると、移動(回転)前の三次元座標と移動後の三次元座標の関係は(2)式で表される。
これら三次元座標(x,y,z)T ,(x’,y’,z’)T を画像面上に射影した二次元座標、すなわち画像上での特徴点の座標を(u,v)T ,(u’,v’)T とした場合、移動前の二次元座標と移動後の二次元座標の関係は、アフィンパラメータat を用いて(3)式で表される。
そして、頭部姿勢算出部9では、頭部姿勢情報として、頭部の3軸角度θx,θy,θzを(4)〜(6)式を用いて算出する。
つまり、(x’,y’,z’)T の画像面への正射影と、(u’,v’)T とが一致すると仮定すると、(2)(3)式から(7)〜(10)式が導かれ、更に、これら(7)〜(10)式から(4)〜(6)式が導かれる。
このように、時刻tにおける頭部姿勢を表すアフィンパラメータat が得られれば、平面顔モデルの初期位置(即ち、観測行列Ca )から、時刻tの全ての顔特徴点の位置Pt (=Cat )を予測することができる。
また、時刻tにおけるアフィンパラメータat は、顔特徴点x_{1}〜x_{N}の初期位置x_{1}(0)〜x_{N}(0)と時刻tでの位置x_{1}(t)〜x_{N}(t)との対応関係を3組以上特定できれば求めることができる。従って、アフィンパラメータat が求められると、その求めたアフィンパラメータat から、逆に、時刻tにおける画像に映っていない隠れた顔特徴点の位置を予測することも可能となる。
以下では、本発明の主要部である推定部8について詳述する。
ここで、図4は、推定部8が扱う状態空間モデルを表すグラフである。
図4に示すように、推定部8は、時刻tにおける顔モデルの姿勢を表すアフィンパラメータat を隠れ状態として求める上位層と、時刻tにおける顔特徴点群の位置x(t)(=(x_{1}(t), x_{2}(t), …,x_{N}(t))T)を隠れ状態として求める顔特徴点x_{n}毎に設けられたN個の下位層(図では一つだけ示す)とを備えており、時刻tまでに入力された入力画像系列z1:t から、これら隠れ状態at ,x(t) を、時系列ベイズ推定により推定するものである。
なお、時系列ベイズ推定は、図5に示すように、状態変数をすべて確率分布として扱い、隠れ状態に関する時刻t−1における推定結果(推定分布)から時刻tにおける予測分布を求めると共に、時刻tにおける観測データから、検出すべき隠れ状態であるもっともらしさ(尤度)を求め、これら予測分布と尤度を考慮して時刻tにおける推定結果(推定分布)を得るという手順を繰り返すことで、逐次的に隠れ状態を推定するものである。
つまり、推定部8では、入力画像系列(観測データ)z1:t に基づいて、アフィンパラメータ(頭部姿勢の隠れ状態)at を推定した事後確率分布(推定分布)p(at |z1:t )を求めることになり、これを数式で記述すると(11)(12)式で表される。
ここで、p(at |z1:t-1 )はアフィンパラメータat の事前確率分布(予測分布)、p(x(t)|at ,z1:t-1 )は顔特徴点群の位置x(t)の事前確率分布(予測分布)、p(zt |at ,z1:t-1 ),p(zt |x(t))は尤度を表す。
そして、(12)式の部分を下位層がパーティクルフィルタを用いて推定し、(11)式の部分を上位層がカルマンフィルタを用いて推定する。
なお、あるパラメータfの確率分布がガウス分布(正規分布)に従う場合、その確率分布は、平均をμ,分散をΣ(標準偏差σ)とすると、(13)式で表すことができる。つまりこの場合、パラメータの確率分布の計算は、実際には、その平均μと分散Σを求めれば十分である。
次に、図6は推定部8の具体的な構成を表すブロック図である。
図6に示すように、推定部8は、顔特徴点x_{n}毎に設けられたN個の追跡器BKn からなり、それぞれが一つの顔特徴点x_{n}を追跡して、時刻tにおけるその顔特徴点x_{n}の位置x_{n}(t)を推定した確率分布をガウス近似した確率分布を規定する特徴点推定分布パラメータ(平均、標準偏差)を生成する顔特徴点追跡部10と、各追跡器BKn にて算出された特徴点推定分布パラメータに基づき、カルマンフィルタを用いてアフィンパラメータat 及びアフィンパラメータの予測値at+1,その分散Vt+1 (以下、予測値等という)を算出するアフィンパラメータ算出部30と、アフィンパラメータ算出部30にて算出されるアフィンパラメータの予測値等を保持する予測値保持部40と、予測値保持部40にて保持された時刻t−1において算出されたアフィンパラメータの予測値等に基づいて、時刻tの顔特徴点群の位置x(t) (=(x_{1}(t), x_{2}(t), …,x_{N}(t))T)を予測した確率分布p(x(t)|at )を規定する上位予測分布パラメータ(平均値,分散)を算出して、追跡器BKn のそれぞれに供給する予測分布パラメータ算出部41とを備えている。
つまり、アフィンパラメータ算出部30が上述の上位層、顔特徴点追跡部10を構成する各追跡器BKn が上述の下位層に相当する。
なお、アフィンパラメータ算出部30で使用するカルマンフィルタでは、アフィンパラメータat の状態遷移過程として、アフィンパラメータat の動きモデルが等速直線運動であること、システムノイズが標準正規分布(ガウス分布でμ=0,Σ=1)の分散を線形変換したガウス分布に従うことを表す(14)式に示す関係式を仮定し、また、下位層にて推定される顔特徴点群の位置x(t) の期待値ベクトルft の観測過程として、(15)式に示す線形の関係式を仮定している。ここで、このような観測モデルを仮定するのは、カルマンフィルタの適用が可能となるためには、システムが線形で表現されることと、状態及び尤度の確率分布がガウス分布で表されることとが必要なためである。そして、このガウス分布で近似された顔特徴点群の位置の期待値ベクトルft はアフィンパラメータat を推定する際の観測情報に相当する。
但し、Aa は動きモデル(等速直線運動)、Ba はシステムノイズの分散の大きさ(予測からの外れ具合)、Ca は観測行列(顔特徴点座標とアフィンパラメータとの間の幾何関係)、Da は観測ノイズの分散の大きさ(観測値に加わっているノイズの大きさ)を表す行列である。また、wa,t ,va,t は、標準正規分布に従うノイズを表すベクトルである。
ここで図7は、アフィンパラメータ算出部30の具体的な構成を表すブロック図である。
図7に示すように、アフィンパラメータ算出部30は、顔特徴点追跡部10から、顔特徴点x_{1}〜x_{N}毎に供給される特徴点推定分布パラメータ(平均、標準偏差)に基づいて、時刻tにおける各顔特徴点の位置x_{1}(t)〜x_{N}(t)の確率分布の,期待値(平均)を配列してなる顔特徴点群の位置の期待値ベクトルft 、標準偏差を配列してなる雑音行列Da,t を生成する算出器31と、予測値保持部40を介して供給される時刻t−1におけるアフィンパラメータの推定値に基づく予測値等(以下単にアフィンパラメータ予測値等という)、及び算出器31にて生成された雑音行列Da,t 、観測行列生成・記憶部6に記憶された観測行列Ca に基づいてカルマンゲインKt を算出するカルマンゲイン算出部32と、カルマンゲインKt ,アフィンパラメータ予測値等,顔特徴点群の位置の期待値ベクトルft ,観測行列Ca に基づいて、事後確率分布を表現するアフィンパラメータ及びその分散の推定値(以下単にアフィンパラメータ推定値等という)at ,Vt を推定するアフィンパラメータ推定部33と、アフィンパラメータ推定部33にて推定されたアフィンパラメータ推定値等at ,Vt に基づいて、事前確率分布を表現する次時刻t+1におけるアフィンパラメータ予測値等を算出するアフィンパラメータ予測部34とからなる。
なお、算出器31が生成する顔特徴点群の位置の期待値ベクトルft は(16)式、雑音行列Da,t は(17)式で表される。また、diagは、各成分を対角成分として持つ対角行列を表す。
また、カルマンゲイン算出部32ではカルマンゲインKt を(18)式により、アフィンパラメータ推定部33ではアフィンパラメータの推定値at を(19)式、アフィンパラメータの分散の推定値Vt を(20)式により算出する。
更に、アフィンパラメータ予測部34では、アフィンパラメータの予測値を(21)式、アフィンパラメータの分散の予測値を(22)式により算出する。但し、各式において、ハットが付されたパラメータat ,Vt は推定値を表し、バーが付されたパラメータat ,Vt は予測値を表す(以下同様)。
また、(13)式を用いることにより、アフィンパラメータat の事後確率分布p(at |z1:t )は(23)式、事前確率分布p(at+1 |z1:t )は(24)式で表される。
ところで、アフィンパラメータの推定値at を算出する(19)式は、顔特徴点群の位置x(t)の観測値(ft )と予測値(Ca t )との差をカルマンゲインKt で乗じた補正値を、予測値に加算したものを推定値at とすることに相当する。
このとき、カルマンゲインKt は、顔特徴点群の位置x(t)の観測値と予測値との混合比を制御するものと見なすことができ、予測値の分散が大きいほど(又は観測値の分散が小さいほど)、カルマンゲインKt は大きな値となり、逆に、予測値の分散が小さいほど(又は観測値の分散が大きいほど)カルマンゲインKt は小さな値となる。
なお、予測値や観測値の分散が大きいということは、予測値や観測値の信頼度が低い(想定したモデルから外れ易い,観測値に大きなノイズが加わり易い)ことを意味し、予測値や観測値の分散が小さいということは、予測値や観測値の信頼度が高い(想定したモデルに近い動きをし易い,観測値にノイズが加わり難い)ことを意味する。
つまり、アフィンパラメータ算出部30では、予測値より観測値の信頼度が高い時には、カルマンゲインKt が大きくなり、観測値を重視した推定値を生成し、逆に、観測値より予測値の信頼度が高い時には、カルマンゲインKt が小さくなり、予測値を重視した推定値を生成することになる。
次に、上位予測分布パラメータ算出部41では、顔特徴点の位置x(t)の上位予測分布p(x(t)|at )は(25)式で与えられるため、この式に従って、上位予測分布パラメータである平均μ及び分散Σを算出する。
次に、顔特徴点追跡部10を構成する追跡器BKn について説明する。
なお、追跡器BKn は、パーティクルフィルタによって一つの顔特徴点xn を追跡するものである。ここで、パーティクルフィルタの動作概要を、図8に示す説明図を参照して説明する。
図8に示すように、パーティクルフィルタでは、推定したい対象の状態(顔特徴点の位置)の実現値(画像上の座標)をパーティクルで表し、予測,観測,リサンプルという三つの過程を繰り返し実行することで、時系列的にパーティクルの分布を求める。なお、パーティクルフィルタでは、カルマンフィルタとは異なり、ガウス分布に限らず任意の確率分布を対象とすることができる。
まず、予測過程では、推定したい対象の動きを考慮して、状態空間(ここでは画像上)での各パーティクルの状態(ここでは画像上での位置)を遷移させ、推定したい対象の動きに加わるノイズを考慮してパーティクルを確率的に散らすことで,推定したい対象が存在しそうな位置にパーティクル群を配置する。これにより、推定したい対象の状態を予測した確率分布が、パーティクル群の位置と数により離散的かつ近似的に表現されることになる。
次に、観測過程では、各パーティクルの状態が推定したい対象の状態であることの尤度(ここでは顔特徴点を表すテンプレートとの正規化相関値)を、尤度に応じてパーティクルの重みを算出する。これにより、推定したい対象の状態の確率分布が、重みのあるパーティクルによって表現されることになる。
また、リサンプル過程では、重みの小さいパーティクルを消去すると共に重み大きいパーティクルを重みのない複数のパーティクルに増殖させることにより、推定したい対象の状態の確率分布を、重みのあるパーティクルによる表現から、重みのないパーティクルにより表現に確率的に変換する。
そして、このリサンプル(リサンプル過程で生成)されたパーティクルを用いて上述の予測過程を行うことにより、パーティクルで表された推定したい対象の状態の確率分布が時系列的に求められることになる。
ここで図9は、顔特徴点x_{n}を追跡する追跡器BKn の具体的な構成を示すブロック図である。
図9に示すように、追跡器BKn は、パーティクルのリサンプル値(後述する)に基づいて顔特徴点を予測した確率分布(以下、下位予測分布という)に従ったパーティクルを生成する下位予測分布生成部11と、上位予測分布パラメータ算出部41にて生成された顔特徴点についての上位予測分布パラメータ(顔特徴点座標の平均,分散)、及び下位予測分布生成部11にて生成されたパーティクルに基づいて、上位予測分布と下位予測分布とを予め設定された混合比αa,t ,αz,t (0≦αa,t ≦1,0≦αz,t ≦1,αa,t +αz,t =1)にて混合してなる混合分布π(x(t)|αt )に従ったパーティクルを生成する混合分布生成部14とを備えている。
また、追跡器BKn は、混合分布生成部14が生成するパーティクルの重みを、観測データzt ,テンプレートtpn を用いて算出する観測部22と、混合分布生成部14が生成するパーティクルの位置、及び観測部22が算出するパーティクルの重みに基づいて、顔特徴点の位置を推定した確率分布(以下、推定分布という)を規定する特徴点推定分布パラメータ(平均,標準偏差)を算出する推定分布パラメータ算出部25と、観測部22が算出するパーティクルの重みに従って、混合分布生成部14が生成したパーティクルをリサンプルするリサンプル部26と、リサンプル部26がリサンプルしたパーティクル、上位予測分布パラメータ算出部41にて算出された上位予測分布パラメータ、下位予測分布生成部11にて生成されたパーティクルに基づいて、混合分布生成部14が次回使用する混合比αa,t ,αz,t を生成する混合比設定部18とを備えている。
このうち、予測分布生成部11は、リサンプル部26にてリサンプルされたNp個のパーティクルを保持するリサンプルパーティクル保持部12と、リサンプルパーティクル保持部12に保持された前回の推定結果(推定分布)に従ったパーティクルを遷移/拡散させることで、下位予測分布に従ったパーティクルを生成するパーティクル遷移/拡散部13とからなる。
なお、パーティクル遷移/拡散部13では、各パーティクルに(26)式を作用させる。
つまり、行列Af は、顔特徴点のダイナミクスとして等速直線運動を仮定したことを意味するものであり、図10に示すように、パーティクル群の位置を前々回(時刻t−2)の推定位置から前回(時刻t−1)の推定位置までの間の移動量だけ遷移(シフト)させることに相当し、また、行列Bf は、移動量にランダム(白色ガウス)ノイズを付加することを意味するものであり、パーティクル群の位置を拡散させることに相当する。
混合分布生成部14は、上位予測分布パラメータμn,t ,σn,t に従って、上位予測分布p(x(t)|at )に従ったαa,t ×Np個のパーティクルを発生させるパーティクル生成部15と、予測分布生成部11にて生成された下位予測分布p(x(t)|at-1 ,z1:t-1 )に従ったNp個のパーティクルの中から、αz,t ×Np個のパーティクルを確率的に選択するパーティクル選択部16と、パーティクル生成部15にて生成されたパーティクル、及びパーティクル選択部16にて選択されたパーティクルを混合して、上位予測分布と下位予測分布との混合分布π(x(t)|αt )≒p(x(t)|at ,z1:t-1 )に従ったNp個のパーティクルを出力する混合部17とからなる。
なお、パーティクル生成部15は、具体的には、平均及び分散(又は標準偏差)を入力することで、その平均及び分散(又は標準偏差)で特定される正規分布に従った乱数を発生する周知の乱数発生器を用いればよい。
観測部22は、混合分布生成部14にて生成されたパーティクルのそれぞれについて、入力画像zt から、パーティクルが表す位置を中心に、テンプレートtpn と同じ大きさの画像(以下、切出画像という)St を切り出す画像切出部23と、画像切出部23が切り出した切出画像St のそれぞれについて、切出画像St とテンプレートtpn との類似度を表す正規化相関値を求め、その求めた正規化相関値に従って各パーティクルの重みwt を設定する重み算出部24とからなる。
なお、重み算出部24では、(27)式により重みwt を決定し、このパーティクルの重みと位置から求められる確率分布が今回(時刻t)の推定分布(事後確率分布)p(x(t)|at ,z1:t )となる。
なお、図8及び図11中では、パーティクルの重みwt を濃淡で示す。
つまり、真の観測過程((12)式におけるp(zt |x(t)))は未知であるため,パーティクルの重みwt の計算には何らかのモデルが必要となり、ここでは、テンプレートtpn と切出画像St との正規化相関を用いてパーティクルの重みwt を決定している。このため、重み算出部24におけるパーティクルの重みwt の計算が、陰に観測過程を規定していることになる。
推定分布パラメータ算出部25は、パーティクルの重みwt を考慮して、混合分布生成部14が生成したパーティクルの位置の平均(期待値)、及び標準偏差(又は分散)を算出する。このように、重みを持つパーティクルにて表現される確率分布を、その平均と標準偏差で表現されるガウス分布で表すということは、この非ガウス性を有する確率分布を、ガウス性を有する確率分布で近似することを意味する。そして、アフィンパラメータ算出部30では、上述したように、この平均と標準偏差が示すガウス分布を用いて顔特徴点の尤度を求め、アフィンパラメータの推定に用いる。
リサンプル部26は、位置と重みにより確率分布を表現するパーティクルを、位置と数により確率分布を表現するパーティクルに確率的に変換する。具体的には、パーティクルの持つ重みの大きさに応じて、重みの小さいパーティクルを消去し、重みの大きいパーティクルを増殖させる。
これは、図8及び図12に示すように、重みの大きいパーティクルが存在する位置、即ち、推定分布が高い値を持つ位置に、パーティクルを確率的に寄せることに相当する。このようにしてリサンプルされたパーティクルは、顔特徴点の事後確率分布を表すものとして、予測分布生成部11と混合比設定部18とに供給される。
次に、混合比設定部18は、予測分布生成部11にて生成された下位予測分布に従うパーティクルに基づき、下位予測分布を規定する下位予測分布パラメータ(平均,分散)を算出する下位予測分布パラメータ算出部19と、上位予測分布パラメータ算出部41にて算出された上位予測分布パラメータ、下位予測分布パラメータ算出部19にて算出された下位予測分布パラメータ、リサンプル部26にて生成された推定分布に従うパーティクルに基づき、次回の推定で使用する混合比αa,t+1 ,αz,t+1 を算出する混合比算出部20と、混合比算出部20にて算出された混合比αa,t+1 ,αz,t+1 を保持して、前回の推定結果から算出された混合比を混合分布生成部14に供給する混合比保持部21とからなる。
このうち、混合比算出部20では、推定分布(リサンプルされたパーティクル)と、その生成に用いられた二つの予測分布とに基づき、二つの予測分布から生成される混合分布が推定分布と最も近くなるように求めた混合比を、次回の推定で使用する混合比として算出する。
具体的には、二つの分布の距離を測る指標として、(28)式に示す周知のカルバックライブラーダイバージェンスを使用し、これを最小化する混合比αを求める。この問題は、結局、(29)式に示す対数尤度L(α)を最大にすること、即ち、(30)式に示すように、対数尤度L(α)の微分値がゼロとなるαを求めるという問題に帰着する。
実際には、過去の不正確な推定による影響を徐々に忘却するための忘却係数をλs(0≦λs≦1)として、この忘却係数λsを組み込んだ(31)式に示す対数尤度を用いる。
しかし、(31)式の最大化は、非線形な形となり計算が困難であるため、ここでは(31)式のαに関する最大化と等価となる(36)式のαに関する最大化をオンラインEMアルゴリズムを用いて行う。この(36)式は(31)式で示した対数尤度の、指標変数m(注目するパーティクルが上位と下位のどちらの予測分布からサンプルされたかを示す隠れ変数である)の予測事後分布についての期待値(期待対数尤度)である。
このEMアルゴリズムでは、まず、現在設定されている(今回の推定で使用した)混合比αt ={αa,t ,αz,t }を用いて、上位予測分布及び下位予測分布について(37)(38)式で表される値(図13参照)を、リサンプルされたパーティクルのそれぞれについて算出する(E−STEP)。
次に、E−STEPでの算出値と、(40)〜(43)式を用いることにより混合比αa ,αz を算出し、この混合比αa ,αz を次回の混合分布を生成する際に用いる混合比αa,t+1 ,αz,t+1 とする(M−STEP)。
なお、(40)〜(43)式は、(36)式の右辺の確率分布を表す二つの項のうち、前側(式中左側)の項に、E−STEPでの算出結果を代入することで期待対数尤度の一部を定数化し、その一部が定数化された期待対数尤度を用いて(39)式を、αa,t+1 +αz,t+1 =1という制約下で解くことで求められる。
このようにして求められた混合比αa,t+1 ,αz,t+1 は、下位予測分布(顔特徴点の推定分布)に基づく予測精度が高い(即ち、顔特徴点の追跡が上手くいっている)ときは、下位予測分布(特徴点による予測)を重視したものとなり、顔特徴点の推定分布に基づく予測精度が低い(即ち、顔特徴点の追跡が上手くいっていない)ときは、上位予測分布(顔モデルによる予測)を重視したものとなるようにされている。
以上説明したように、本実施形態の画像処理装置1では、画面上における顔特徴点x_{n}の追跡(位置の推定)をパーティクルフィルタを用いて行う下位層と、下位層で得られた顔特徴点群の位置x(t)の推定結果(尤度)から顔モデルへのアフィン変換過程をカルマンフィルタを用いて推定する上位層とを有する階層的なモデルを用いて、入力画像からアフィンパラメータatを推定するようにされている。
また、本実施形態の画像処理装置1では、下位層での顔特徴点x_{n}の推定に使用する予測分布として、上位層でのアフィンパラメータの推定結果at に基づく上位予測分布と下位層での顔特徴点x_{n}の推定結果に基づく下位予測分布とを混合してなる混合分布を用いており、しかも、下位予測分布の予測精度が高い時には下位予測分布を重視し、下位予測分布の予測精度が低い時には上位予測分布を重視した混合分布が生成されるように混合比を動的に変化させ、精度の低下した階層を互いに補い合うようにされている。
このように、本実施形態の画像処理装置1によれば、非ガウス性ノイズが重畳しやすい顔特徴点x_{n}の追跡(位置の推定)にのみパーティクルフィルタを用いているため、パーティクルフィルタで使用するパーティクル数を抑制することができると共に、実環境において発生する状況の変化や大きなノイズの影響を最小限に抑えることができる。
つまり、下位層では、個々の顔特徴点x_{n}の位置を高い精度で推定できるため、精度の高い下位予測分布を得ることができるが、その反面、ノイズ(手やめがねによる顔特徴点の隠れ/顔向きの大きな変化/照明条件の変化など)の影響を受けた場合には、推定結果(ひいては下位予測分布)が大きく外れやすいという特徴がある。一方、上位層では、平面顔モデルを仮定したことに基づく誤差が存在し、また、一つ顔特徴点での精度低下が、全ての顔特徴点の上位予測分布に影響するため、アフィンパラメータの推定結果から個々の顔特徴点を高精度に予測することは困難であるが、その反面、顔特徴点群の位置x(t) を全体として推定するため、顔特徴点の一部がノイズの影響を大きく受けていても、その結果として得られる上位予測分布が大きく外れたものとなってしまうことがないという特徴がある。このように相補的な性質を持つ二つの予測分布を混合した混合分布は、二つの予測分布の長所を併せ持つことになる。
従って、手や飲み物等により顔特徴点の一部が隠されたり、運転行動における高速な頭部姿勢の変化(例えば、正面方向からルームミラー方向に顔を向け、再び正面に向き直るなど)により、顔特徴点が予め仮定した動きモデル(等速直線運動)とは大きく異なる動きをする等して、下位予測分布の推定精度が大きく低下したとしても、混合分布を使用する下位層での顔特徴点の推定精度が大きく低下することがない。その結果、本実施形態の
画像処理装置1によれば、上位層でのアフィンパラメータの推定、ひいてはアフィンパラメータに基づくドライバの頭部姿勢の算出を高い信頼性,頑健性をもって行うことができる。
また、本実施形態の画像処理装置1では、オンライン化したEMアルゴリズムを用いて混合比の算出を行うため、動的に変化する実際の環境への対処が可能となっている。
ここで、画像処理装置1の動作をシミュレーションによって確認した結果を示す。
なお、テンプレートtpn には、実際の車内でドライバーが正面を向いている時に撮影した画像(正面顔画像)から、人手によって切り出した両眼・鼻孔画像を用いた。
また、シミュレーション画像は、図3に示すように、各顔部品(両眼,鼻)は、単一平面上にあるものとし、この平面がY軸を中心とした回転角(ヨー角)がθyだけ回転するものとして、次のように作成した。
即ち、頭部を左右に振っている人の頭部姿勢のヨー角を、実際の車内で連続的に計測し、その計測結果に基づいて、図14に示すように、各時刻毎に回転後の座標を透視変換により画像面上に射影することで得られる画像面上の両眼中心および鼻の位置に、正面顔画像から切り出したテンプレートを配置したものをシミュレーション画像とした。つまり、シミュレーション画像では、各時刻のヨー角に応じて画像上での両眼中心・鼻の位置は変化するが、各顔部品は常に正面向きになっている。
更に、車内における遮蔽(手,飲み物などによる顔特徴点の隠れ)を模擬するために、シミュレーション画像には、観測ノイズの大きな大ノイズ領域Rを設けた。但し、この大ノイズ領域Rは、頭部姿勢が右向きのときに、右眼尻がちょうど隠れるような大きさ,位置に設定した。
また各顔特徴点を追跡する追跡器BKn が用いるパーティクルの個数Npは、実時間処理が十分に実現可能な50個とし、混合比αa,t ,αz,t を算出する際に用いるオンラインEMアルゴリズムの忘却係数λsは、0.5とした。更に、(26)式におけるbu,bvは、bu =bv =7、(27)式におけるDf は、Df =0.15とした。
上述のようにして作成したシミュレーション画像列に対して、本実施形態の画像処理装置1を適用し、推定されたアフィンパラメータat から復元した頭部姿勢のヨー角を図15に示す。この図15では、推定結果のヨー角が、正面方向を表す0°を中心にプラス方向,マイナス方向の両方に変化しており、頭部を左右に振る様子がよく推定されていることがわかる。
また、図16(a)には、シミュレーションを50回試行し、その結果に基づいて頭部姿勢の平均推定誤差(平均二乗誤差)と平均誤差標準偏差を求めた結果を示す。なお、ここでは比較のために、上位層の混合比αa,t を1(即ち、上位予測分布のみ使用)及び0(即ち、下位予測分布のみを使用)に固定して、同様のシミュレーションを行った場合の結果も示す。
また、図16(b)には、各顔特徴点について算出された混合比αa,t を示す。
但し、ここでは、混合比αa,t の最大値を0.8、最小値を0.2とした。図16(b)中のグレー領域は、顔特徴点が図14の大ノイズ領域に隠れていることを示す。
図示されているように、右眼,右眼尻が大ノイズ領域に隠れる期間では、上位層の混合比αa,t が大きくなって、上位予測分布(顔モデルに基づく予測)を重視した混合分布が生成されるように変化している。つまり、画像処理装置1では、実環境における複雑な外乱に対応して、その時の状況に即した混合比を算出(ひいては混合分布を生成)し、外乱に対して頑強で正確な顔特徴点の自動追跡を実現していることがわかる。
なお、本実施形態において、アフィンパラメータ予測部34が「推定対象の隠れ状態予測手段」、上位予測分布パラメータ算出部41が「推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測手段」、観測部22が「中間の隠れ状態の尤度観測手段」、推定分布パラメータ算出部25が「中間の隠れ状態推定手段」、算出器31が「推定対象の隠れ状態の尤度観測手段」、カルマンゲイン算出部32及びアフィンパラメータ推定部32が「推定対象の隠れ状態推定手段」、下位予測分布生成部11が「中間の隠れ状態の状態遷移構造による中間の隠れ状態予測手段」、混合分布生成部14が「混合手段」、混合比設定部18が「混合比算出手段」に相当する。
[他の実施形態]
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
例えば、上記実施形態では、画像処理装置1を入力画像に基づいてドライバの頭部状態を推定するために使用しているが、これに限定されるものではなく、入力画像以外の観測データを用いて、ドライバの頭部状態以外の隠れ状態を推定するために使用してもよい。
なお、応用例としては顔の追跡に限らず、階層表現を持ったいかなる剛体の追跡でも良い。さらに一般的には、推定分布や予測分布が解析的に積分可能となる変数の階層関係が保証されていれば、追跡対象を剛体に限る必要もなく、またデータを画像データに限る必要もない。
実施形態の推定装置の全体構成を示すブロック図。 顔特徴点、平面顔モデルを示す説明図。 推定装置に適用する座標系を示す説明図。 推定部が扱う状態空間モデルを表すグラフ。 時系列ベイズ推定の動作概略を示す説明図。 推定部の構成を示すブロック図。 アフィンパラメータ算出部の構成を示すブロック図。 パーティクルフィルタの動作概要を示す説明図。 追跡器の構成を示すブロック図。 パーティクルフィルタの動作(遷移/拡散)の具体例を示す説明図。 パーティクルフィルタの動作(観測)の具体例を示す説明図。 パーティクルフィルタの動作(リサンプル)の具体例を示す説明図。 混合比の算出に必要なパラメータの意味を示す説明図。 シミュレーションに使用した画像の構成を示す説明図。 シミュレーションによるヨー角の算出結果を示すグラフ。 シミュレーションの結果に基づいて算出した頭部姿勢の誤差を示す表、及びEMアルゴリズムによる顔特徴点毎の混合比の算出結果を示すグラフ。 状態遷移構造に関わる用語を理解するための説明図。 状態間でやりとりされる情報、及び各手段との関係を示す説明図。
符号の説明
1…画像処理装置、2…カメラ、3…ビデオキャプチャーボード、4…初期特徴点抽出部、5…テンプレート生成・記憶部、6…観測行列生成・記憶部、8…推定部、9…頭部姿勢算出部、10…顔特徴点追跡部、11…下位予測分布生成部、12…リサンプルパーティクル保持部、13…パーティクル遷移/拡散部、14…混合分布生成部、15…パーティクル生成部、16…パーティクル選択部、17…混合部、18…混合比設定部、19…下位予測分布パラメータ算出部、20…混合比算出部、21…混合比保持部、22…観測部、23…画像切出部、24…重み算出部、25…推定分布パラメータ算出部、26…リサンプル部、30…アフィンパラメータ算出部、31…算出器、32…カルマンゲイン算出部、33…アフィンパラメータ推定部、34…アフィンパラメータ予測部、40…予測値保持部、41…上位予測分布パラメータ算出部、BKn …追跡器。

Claims (6)

  1. 観測可能な状態から推定対象の隠れ状態を時系列に推定する推定装置であって、
    前記推定対象の隠れ状態から観測可能な状態が観測される過程が階層構造を有し、
    前記階層構造は、前記推定対象の隠れ状態と前記観測可能な状態の間に、前記推定対象の隠れ状態と前記観測可能な状態の両者と因果関係を持つ中間の隠れ状態を持ち,前記推定対象の隠れ状態が時間変化に伴って状態遷移する構造を持つ階層構造であって、
    前時刻(以下、時刻t−1とする)の推定対象の隠れ状態推定情報と推定対象の隠れ状態の状態遷移構造とに基づいて、現時刻t(以下、時刻tとする)の推定対象の隠れ状態予測情報を生成する推定対象の隠れ状態予測手段と、
    前記時刻tの推定対象の隠れ状態予測情報と、前記推定対象の隠れ状態と前記中間の隠れ状態との間の因果関係とに基づいて、時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報を生成する推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測手段と、
    時刻tの観測可能な状態の観測データと、後述する混合手段によって生成された時刻tの中間の隠れ状態予測情報とに基づいて、時刻tの中間の隠れ状態の尤度を生成する中間の隠れ状態の尤度観測手段と、
    前記時刻tの中間の隠れ状態予測情報と、前記時刻tの中間の隠れ状態の尤度と、に基づいて時刻tの中間の隠れ状態推定情報を生成する中間の隠れ状態推定手段と、
    前記時刻tの中間の隠れ状態推定情報と、前記時刻tの推定対象の隠れ状態予測情報とに基づいて、時刻tの推定対象の隠れ状態の尤度を生成する推定対象の隠れ状態の尤度観測手段と、
    前記時刻tの推定対象の隠れ状態予測情報と、前記時刻tの推定対象の隠れ状態の尤度と、に基づいて時刻tの推定対象の隠れ状態推定情報を生成する推定対象の隠れ状態推定手段と、
    を備え、
    前記階層構造に、前記中間の隠れ状態にも時間変化に伴って状態遷移する構造と、
    時刻t−1の中間の隠れ状態推定情報と中間の隠れ状態の状態遷移構造とに基づいて、時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報を生成するところの、中間の隠れ状態の状態遷移構造による中間の隠れ状態予測手段と、
    前記時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報と、前記時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報を予め設定された混合比に従って混合することで前述の時刻tの中間の隠れ状態予測情報を生成する混合手段と、
    を設けたことを特徴とする推定装置。
  2. 前記中間の隠れ状態推定手段は、
    前記時刻tの中間の隠れ状態推定情報と、該時刻tの中間の隠れ状態推定情報の生成に使用した前記時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報及び前記時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報とに基づき、前記時刻tの中間の隠れ状態推定情報を最もよく近似する前記時刻tの推定対象の隠れ状態の状態遷移構造による中間の隠れ状態予測情報と前記時刻tの中間の隠れ状態の状態遷移構造による中間の隠れ状態予測情報との混合比を求める混合比算出手段を備え、該混合比算出手段にて算出された混合比を、次時刻(以下、時刻t+1とする)の中間の隠れ状態予測情報を生成する際に使用することを特徴とする請求項1に記載の推定装置。
  3. 前記混合比算出手段は、前記混合比の算出に、オンライン化したEMアルゴリズムを用いることを特徴とする請求項2に記載の推定装置。
  4. 前記中間の隠れ状態推定手段は、前記時刻tの中間の隠れ状態推定情報の生成に、パーティクルフィルタを用いることを特徴とする請求項1〜3のいずれかに記載の推定装置。
  5. 前記推定対象の隠れ状態推定手段は、前記時刻tの推定対象の隠れ状態推定情報の生成に、カルマンフィルタを用いることを特徴とする請求項1〜4のいずれかに記載の推定装置。
  6. 前記観測可能な状態は、顔面を撮影した画像であり、前記推定対象の隠れ状態は、頭部姿勢を表すアフィンパラメータであり、前記中間の隠れ状態は、顔面の特徴的な部位の画像面上での位置を表す複数の特徴点の画像面上での座標であることを特徴とする請求項1〜5のいずれかに記載の推定装置。
JP2005368124A 2005-12-21 2005-12-21 推定装置 Active JP4568223B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005368124A JP4568223B2 (ja) 2005-12-21 2005-12-21 推定装置
DE102006059172A DE102006059172B4 (de) 2005-12-21 2006-12-14 Bildprozessor
US11/642,763 US7813544B2 (en) 2005-12-21 2006-12-20 Estimation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005368124A JP4568223B2 (ja) 2005-12-21 2005-12-21 推定装置

Publications (2)

Publication Number Publication Date
JP2007172237A JP2007172237A (ja) 2007-07-05
JP4568223B2 true JP4568223B2 (ja) 2010-10-27

Family

ID=38193786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005368124A Active JP4568223B2 (ja) 2005-12-21 2005-12-21 推定装置

Country Status (3)

Country Link
US (1) US7813544B2 (ja)
JP (1) JP4568223B2 (ja)
DE (1) DE102006059172B4 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8213677B2 (en) * 2005-03-04 2012-07-03 National University Corporation NARA Institute of Science and Technology Motion measuring device, motion measuring system, in-vehicle device, motion measuring method, motion measurement program, and computer-readable storage medium
JP4865517B2 (ja) * 2006-12-05 2012-02-01 スズキ株式会社 頭部の位置・姿勢検出装置
KR20080073933A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 객체 트래킹 방법 및 장치, 그리고 객체 포즈 정보 산출방법 및 장치
US7856120B2 (en) * 2007-03-30 2010-12-21 Mitsubishi Electric Research Laboratories, Inc. Jointly registering images while tracking moving objects with moving cameras
US8107735B2 (en) * 2007-04-10 2012-01-31 Denso Corporation Three dimensional shape reconstitution device and estimation device
JP2009015671A (ja) * 2007-07-06 2009-01-22 Sony Corp 情報処理装置および方法、並びにプログラム
US8108800B2 (en) * 2007-07-16 2012-01-31 Yahoo! Inc. Calculating cognitive efficiency score for navigational interfaces based on eye tracking data
JP4942197B2 (ja) * 2007-10-31 2012-05-30 日本電信電話株式会社 テンプレート作成装置及び表情認識装置並びにその方法、プログラム及び記録媒体
JP5133783B2 (ja) 2008-05-30 2013-01-30 アルパイン株式会社 車載装置
WO2010010926A1 (ja) * 2008-07-24 2010-01-28 国立大学法人静岡大学 特徴点追跡方法及び特徴点追跡装置
TWI363614B (en) * 2008-09-17 2012-05-11 Ind Tech Res Inst Method and system for contour fitting and posture identification, and method for contour model adaptation
KR101640458B1 (ko) * 2009-06-25 2016-07-18 삼성전자주식회사 영상 장치 및 컴퓨터 판독 기록매체
JP5326920B2 (ja) * 2009-08-07 2013-10-30 株式会社リコー 画像処理装置、画像処理方法、及び、コンピュータプログラム
JP2011040993A (ja) 2009-08-11 2011-02-24 Nikon Corp 被写体追尾プログラム、およびカメラ
JP5370122B2 (ja) * 2009-12-17 2013-12-18 富士通株式会社 移動体位置推定装置及び移動体位置推定方法
JP2011243088A (ja) * 2010-05-20 2011-12-01 Sony Corp データ処理装置、データ処理方法、及び、プログラム
JP5767078B2 (ja) * 2011-10-25 2015-08-19 日本電信電話株式会社 姿勢推定装置、姿勢推定方法及び姿勢推定プログラム
US9373088B2 (en) * 2012-09-17 2016-06-21 The Board Of Trustees Of The Leland Stanford Junior University Brain machine interface utilizing a discrete action state decoder in parallel with a continuous decoder for a neural prosthetic device
WO2015026960A1 (en) * 2013-08-21 2015-02-26 Sanger Terence D Systems, methods, and uses of b a yes -optimal nonlinear filtering algorithm
KR101514242B1 (ko) 2013-09-30 2015-05-04 한양대학교 산학협력단 얼굴 특징을 추적하는 방법 및 장치
JP6304999B2 (ja) * 2013-10-09 2018-04-04 アイシン精機株式会社 顔検出装置、方法およびプログラム
JP6340769B2 (ja) * 2013-10-11 2018-06-13 カシオ計算機株式会社 物体位置推定装置、物体位置推定方法及びプログラム
US9609074B2 (en) * 2014-06-18 2017-03-28 Adobe Systems Incorporated Performing predictive analysis on usage analytics
US10310068B2 (en) 2014-12-08 2019-06-04 Northrop Grumman Systems Corporation Variational track management
JP6482844B2 (ja) * 2014-12-11 2019-03-13 株式会社メガチップス 状態推定装置、プログラムおよび集積回路
US10089525B1 (en) 2014-12-31 2018-10-02 Morphotrust Usa, Llc Differentiating left and right eye images
US9846807B1 (en) * 2014-12-31 2017-12-19 Morphotrust Usa, Llc Detecting eye corners
WO2016126994A1 (en) * 2015-02-06 2016-08-11 Quorum.Ai Inc. System and method for using artificial intelligence in making decisions
WO2017023541A1 (en) * 2015-07-31 2017-02-09 Schlumberger Technology Corporation A method and apparatus of determining a state of a system
TWI676536B (zh) * 2016-01-22 2019-11-11 大陸商鴻富錦精密工業(武漢)有限公司 基於腦電訊號控制之智慧型機器人系統和方法
JP6809262B2 (ja) 2017-02-08 2021-01-06 トヨタ自動車株式会社 ドライバ状態検出装置
JP7281733B2 (ja) * 2019-04-15 2023-05-26 パナソニックIpマネジメント株式会社 監視システム、移動体、監視方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1404259A4 (en) * 2001-07-10 2008-12-03 California Inst Of Techn AUTOMATE COGNITIVE FINISH FOR PROTHETIC SYSTEMS
US7280696B2 (en) * 2002-05-20 2007-10-09 Simmonds Precision Products, Inc. Video detection/verification system
AU2003280516A1 (en) * 2002-07-01 2004-01-19 The Regents Of The University Of California Digital processing of video images

Also Published As

Publication number Publication date
US20070147661A1 (en) 2007-06-28
US7813544B2 (en) 2010-10-12
JP2007172237A (ja) 2007-07-05
DE102006059172B4 (de) 2009-12-17
DE102006059172A1 (de) 2007-11-15

Similar Documents

Publication Publication Date Title
JP4568223B2 (ja) 推定装置
JP4728432B2 (ja) 顔姿勢推定装置、顔姿勢推定方法、及び、顔姿勢推定プログラム
US8165347B2 (en) Visual tracking eye glasses in visual head and eye tracking systems
US10860752B2 (en) Method and system for vision measure for digital human models
JP7289013B2 (ja) オクルージョン認識室内シーン分析
Bandouch et al. Accurate human motion capture using an ergonomics-based anthropometric human model
CN102142085A (zh) 一种林区监控视频中运动火焰目标的鲁棒跟踪方法
JP2013156680A (ja) フェーストラッキング方法、フェーストラッカおよび車両
Bandouch et al. Evaluation of Hierarchical Sampling Strategies in 3D Human Pose Estimation.
AU2020436768B2 (en) Joint rotation inferences based on inverse kinematics
US20070171228A1 (en) Methods and Apparatus for Accelerated Animation Using Point Multiplication and Soft Caching
JP5048381B2 (ja) 三次元形状復元装置
KR100951793B1 (ko) 타원체 모델을 이용한 파티클 필터에서의 머리 추적 방법
JP4879257B2 (ja) 移動対象追跡装置、移動対象追跡方法及び移動対象追跡プログラム
JP4971015B2 (ja) 推定装置
Jindai et al. A nodding detection system based on the active appearance model
Dong et al. A robust and efficient face tracking kernel for driver inattention monitoring system
Ude et al. Online tracking and mimicking of human movements by a humanoid robot
JP5231183B2 (ja) 三次元形状復元装置
Takahashi et al. Head pose tracking system using a mobile device
Hero-Ek Improving AR visualizationwith Kalman filtering andhorizon-based orientation:–To prevent boats to run aground at sea
Carapencea et al. Real-time gaze tracking with a single camera
Dornaika et al. 3D head tracking by particle filters
CN116453095A (zh) 头部姿态估计方法及装置、计算机可读存储介质、终端
Zhu et al. Hand detection and tracking in an active vision system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080229

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080229

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100727

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100806

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350