JP2013156680A - フェーストラッキング方法、フェーストラッカおよび車両 - Google Patents
フェーストラッキング方法、フェーストラッカおよび車両 Download PDFInfo
- Publication number
- JP2013156680A JP2013156680A JP2012014327A JP2012014327A JP2013156680A JP 2013156680 A JP2013156680 A JP 2013156680A JP 2012014327 A JP2012014327 A JP 2012014327A JP 2012014327 A JP2012014327 A JP 2012014327A JP 2013156680 A JP2013156680 A JP 2013156680A
- Authority
- JP
- Japan
- Prior art keywords
- face
- feature points
- various parameters
- tracker
- facial feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】事前登録を行うことなく、顔の姿勢や表情を高精度に推定することの可能なフェーストラッキング方法、フェーストラッカおよび車両を提供する。
【解決手段】フェーストラッキング方法は、輝度画像および距離画像を取得する取得ステップと、輝度画像および距離画像を利用して顔の特徴点を抽出する抽出ステップと、抽出した顔の特徴点を利用して顔モデルの各種パラメータを推定する推定ステップとを含む。
【選択図】図5
【解決手段】フェーストラッキング方法は、輝度画像および距離画像を取得する取得ステップと、輝度画像および距離画像を利用して顔の特徴点を抽出する抽出ステップと、抽出した顔の特徴点を利用して顔モデルの各種パラメータを推定する推定ステップとを含む。
【選択図】図5
Description
本発明は、顔の姿勢(向き)や、顔の表情を推定することの可能なフェーストラッキング方法に関する。また、本発明は、顔の姿勢(向き)や、顔の表情を推定することの可能なフェーストラッカおよびそれを備えた車両(例えば自動車、鉄道)に関する。
顔は、読話によって語られたものを解釈したり、感情的な表情に基づいて自分の感情や意図を理解したり、または、人々を区別し、識別したりするための主な情報源である。そのため、画像から顔の3次元情報を復元する研究が盛んに行われている。最近では、例えば、顔認識、ビデオ会議、ドライバの不注意の監視、バーチャルリアリティなど、多くの興味深いアプリケーションが実用化され始めている。
例えば、非特許文献1〜4には、単一カメラを用いて顔特徴を検出し、検出した顔特徴から、顔の向きや表情などを予測する様々な手法が開示されている。
勞世こう,山口修:顔画像処理技術の動向,情報処理,Vol.50, No.4, pp.319-326 (2009).
勞世こう,山口修:顔画像処理技術の動向,情報処理,Vol.50, No.5, pp.436-443 (2009).
Seeing Machines社 DSS装置 http://www.seeingmachines.com/product/dss/
トヨタ自動車プリクラッシュセーフティシステム http://www2.toyota.co.jp/jp/news/08/01/nt08_008.html
しかし、非特許文献1〜4では、単一カメラで得られる情報には奥行き情報が含まれていない。そのため、単一カメラで得られた顔領域を、顔モデルに相対的にフィッティングさせることしかできないので、瞼の開閉度や、顔の向きの絶対角度の計測が難しく、特に視線の計測はできない。また、単一カメラでは、観察視野が狭いので、被験者の顔特徴を検出するとともに追跡することの可能な範囲が限定されてしまう。さらに、被験者の顔の一部が遮蔽されている場合には、計測結果が不安定になってしまう。上記の問題を解決する有効な方法としては、2台以上のカメラを利用して、より広い範囲で顔特徴を検出するとともに追跡することが挙げられる。
ところで、2台以上のカメラを利用したシステムにおいて、顔の姿勢(向き)や表情をより詳細に解析するためには、事前に被験者の顔特徴を登録することが必要である。しかし、事前登録を要するというのは、被験者に負担を強いることになり、実用的ではない。もっとも、顔平均モデルを使用することにより、事前登録を省略することは可能である。しかし、顔平均モデルは、個々の被験者の細かな顔特徴に対応していないので、顔の姿勢(向き)や表情の推定に誤差が生じてしまう。
本発明はかかる問題点に鑑みてなされたもので、その目的は、事前登録を行うことなく、顔の姿勢(向き)や表情を高精度に推定することの可能なフェーストラッキング方法、フェーストラッカ、および上記のフェーストラッカを備えた車両を提供することにある。
本発明のフェーストラッキング方法は、輝度画像および距離画像を取得する取得ステップと、輝度画像および距離画像を利用して顔の特徴点を抽出する抽出ステップと、抽出した顔の特徴点を利用して顔モデルの各種パラメータを推定する推定ステップとを含む。
本発明のフェーストラッキング方法では、抽出ステップにおいて、輝度画像および距離画像を利用して顔の特徴点の座標を導出するようになっていてもよい。さらに、推定ステップにおいて、導出した顔の特徴点の座標を利用して各種パラメータを推定するようになっていてもよい。また、本発明のフェーストラッキング方法では、推定ステップにおいて、拡張カルマンフィルタを利用して各種パラメータを推定するようになっていてもよい。また、本発明のフェーストラッキング方法では、推定ステップにおいて、各種パラメータとして、形状パラメータと、アニメーションパラメータとを推定するようになっていてもよい。
本発明のフェーストラッカは、輝度画像および距離画像を取得する取得部と、輝度画像および距離画像を利用して顔の特徴点を抽出する抽出部と、抽出した顔の特徴点を利用して顔モデルの各種パラメータを推定する推定部とを備えている。本発明の車両は、上記のフェーストラッカを備えている。
本発明のフェーストラッカおよび車両では、抽出部が、輝度画像および距離画像を利用して顔の特徴点の座標を導出するようになっていてもよい。さらに、推定部が、導出した顔の特徴点の座標を利用して各種パラメータを推定するようになっていてもよい。また、本発明のフェーストラッカおよび車両では、推定部が、拡張カルマンフィルタを利用して各種パラメータを推定するようになっていてもよい。また、本発明のフェーストラッカおよび車両では、各種パラメータが、形状パラメータおよびアニメーションパラメータとなっていてもよい。
本発明のフェーストラッキング方法、フェーストラッカおよび車両では、輝度画像および距離画像から抽出した顔の特徴点を利用して、顔モデルの各種パラメータが推定される。これにより、個々の被験者の細かな顔特徴に対応した顔モデルを生成することが可能となる。また、顔モデルの自動登録も可能となる。
本発明のフェーストラッキング方法、フェーストラッカおよび車両によれば、個々の被験者の細かな顔特徴に対応した顔モデルを生成するとともに、自動登録を行うことができるようにしたので、顔特徴の事前登録を行うことなく、顔の姿勢(向き)や表情を高精度に推定することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
図1は、本発明の一実施の形態に係るフェーストラッカ1を自動車100に搭載した様子を表したものである。フェーストラッカ1は、人の顔特徴を検出するシステムであり、例えば、自動車100に搭載されるものである。フェーストラッカ1が自動車100に搭載さているときの検出対象は、自動車100を運転するドライバ200の顔である。ドライバ200は、例えば、自動車100の運転席120に座ってハンドル130等を操作することにより自動車100を操縦する者である。
フェーストラッカ1は、ドライバ200と向き合う位置に配置されており、例えば、自動車100のフロントガラス110に固定されている。フェーストラッカ1は、例えば、図2に示したように、ドライバ情報取得部10、トラッキング部20、記憶部30および出力部40を備えている。
記憶部30は、例えば、RAM(Random Access Memory)およびHD(hard disk)からなる。記憶部30には、顔特徴を検出するためのプログラムなどが格納されており、トラッキング部20で得られた演算結果(例えば各種パラメータ)などが随時格納される。トラッキング部20は、例えば、DSP(Digital Signal Processor)などにより構成されており、記憶部30に格納された顔特徴を検出するためのプログラムがロードされることにより、ドライバ情報取得部10によって得られた情報を処理して顔特徴を導出するようになっている。なお、トラッキング部20は、顔特徴を検出するためのプログラムで実行される処理がハードウェアで実現されたものであってもよい。出力部40は、トラッキング部20で導出した顔特徴を利用して他のデバイスを制御するものであり、他のデバイスを制御する制御信号を出力するようになっている。
ドライバ情報取得部10は、ドライバ200についての情報を取得するものであり、具体的には、フェーストラッカ1との関係でドライバ200側の空間領域の距離情報および輝度情報の2つの情報を取得するようになっている。ドライバ情報取得部10は、例えば、図3(A)に示したように、TOF(Time Of Flight)センサ11で構成されている。TOFセンサ11は、単眼カメラとLED(light emitting diode)照明を組み合わせたものであり、単眼カメラで輝度画像(輝度情報)を取得するとともに、LEDから照射される赤外線が反射して観測されるまでの時間差から距離画像(奥行き情報)を取得するようになっている。
なお、ドライバ情報取得部10は、例えば、図3(B)に示したように、2つのカメラ(右カメラ12R,左カメラ12L)を有するステレオカメラ12で構成されていてもよい。ステレオカメラ12は、2つのカメラを用いて視差の互いに異なる2枚の画像を取得するようになっている。上記の2枚の画像から、輝度画像および距離画像が得られる。
[3Dフェーストラッキング(face tracking)法]
次に、本実施の形態のフェーストラッカ1における数学的定式化の一例について詳細に説明する。フェーストラッカ1は、いわゆるモデルベースのトラッカである。モデルベースのトラッカは、構造についての予備知識と、物体の動きを使用し、新しいフレームに合うようにオブジェクトモデルの姿勢(さらに、できれば形状)パラメータの変更を試みるようになっている。そのため、モデルベースのトラッカでは、モーションベースのトラッカに起こりがちなドリフトの問題がない。さらに、フェーストラッカ1は、特徴ベースのトラッカでもある。特徴ベースのトラッカは、容易にかつ確実にトラックできる顔の特徴点(feature points)をいくつか抽出し、抽出した特徴点から顔の姿勢(さらに、できれば形状)を計算するようになっている。顔の特徴点は、顔の構成要素(例えば、眉毛、目、鼻、および口)を取り巻く目立ったランドマークである。これらは、顔の表情や頭部の動きに関する重要な情報を符号化している。
次に、本実施の形態のフェーストラッカ1における数学的定式化の一例について詳細に説明する。フェーストラッカ1は、いわゆるモデルベースのトラッカである。モデルベースのトラッカは、構造についての予備知識と、物体の動きを使用し、新しいフレームに合うようにオブジェクトモデルの姿勢(さらに、できれば形状)パラメータの変更を試みるようになっている。そのため、モデルベースのトラッカでは、モーションベースのトラッカに起こりがちなドリフトの問題がない。さらに、フェーストラッカ1は、特徴ベースのトラッカでもある。特徴ベースのトラッカは、容易にかつ確実にトラックできる顔の特徴点(feature points)をいくつか抽出し、抽出した特徴点から顔の姿勢(さらに、できれば形状)を計算するようになっている。顔の特徴点は、顔の構成要素(例えば、眉毛、目、鼻、および口)を取り巻く目立ったランドマークである。これらは、顔の表情や頭部の動きに関する重要な情報を符号化している。
このように、フェーストラッカ1は、モデルベースおよび特徴ベースの双方を兼ね備えたトラッカである。そこで、以下では、そのようなトラッカにおける数学的定式化について説明する。具体的には、(A)投影モデル、(B)顔モデル、(C)ゼロオーダーバイノキュラーフェースポーズトラッカーカーネル(The Zero-Order Binocular Face Pose Tracker Kernel)、(D)顔の形状登録と、姿勢およびアニメーションの推定、(E)規則化および安定化、の5つについて順に説明する。
(A)投影モデル
世界座標系内の点Xの座標を(x,y,z)’とし、カメラ座標系内の点bcの3次元座標を(xc,yc,zc)’ とし、画像面の座標系内の点mの座標を(u,v)’とする。なお、上記の「’」はベクトル転置の符号である。このとき、回転行列をRwcとすると共に並進ベクトルをtwcとすると、点Xと点bcとの関係は、以下の数1で表される。
世界座標系内の点Xの座標を(x,y,z)’とし、カメラ座標系内の点bcの3次元座標を(xc,yc,zc)’ とし、画像面の座標系内の点mの座標を(u,v)’とする。なお、上記の「’」はベクトル転置の符号である。このとき、回転行列をRwcとすると共に並進ベクトルをtwcとすると、点Xと点bcとの関係は、以下の数1で表される。
ここで、カメラ座標系の原点は(u0,v0)であり、画像中央に対応しており、カメラ座標系の座標は(u,v)で与えられるものとする。数2において、Φは透視投影の変換関数を意味しており、Acamは、カメラの内部パラメータベクトルである。また、fxはu軸のスケーリング(scaling)係数であり、fyはv軸のスケーリング係数である。
(B)顔モデル
顔モデルは、複数個の三角形の面を形成する複数の線によって接続された複数個の特徴点を含んで構成されている。顔モデルは、例えば、184個の三角形の面を形成する複数の線によって接続された113個の特徴点を含んで構成されている。顔モデルは、一般的な固定の顔モデル(固定の特徴点)と、顔の形状を制御する形状ユニットと、顔のアニメーションを制御するアニメーションユニットとのセットを含んで構成されている。モデル中心の座標系において、顔モデルbmは、以下の数3で表される。
顔モデルは、複数個の三角形の面を形成する複数の線によって接続された複数個の特徴点を含んで構成されている。顔モデルは、例えば、184個の三角形の面を形成する複数の線によって接続された113個の特徴点を含んで構成されている。顔モデルは、一般的な固定の顔モデル(固定の特徴点)と、顔の形状を制御する形状ユニットと、顔のアニメーションを制御するアニメーションユニットとのセットを含んで構成されている。モデル中心の座標系において、顔モデルbmは、以下の数3で表される。
数3において、gは一般的な固定の顔モデル(固定の特徴点)である。また、Sは形状ユニットであり、Aはアニメーションユニットである。ベクトルであるsは形状パラメータであり、ベクトルであるaはアニメーションパラメータである。
回転(rotation)、縮小拡大(scaling)、および平行移動(translation)により、モデル中心の座標系から世界座標系への変換を実行した後の顔モデルbmのi番目の特徴点bwiは、以下の数4で表される。
数4において、Rは回転行列(R(rx,ry,rz))である。また、Cはスケーリング行列(diag(cx,cy,cz))である。なお、diagは、対角行列である。tは移動ベクトル((tx,ty,tz)’)である。rx,ry,rzは、それぞれ、x軸,y軸,z軸周りの回転角(ラジアン単位)である。cx,cy,czは、それぞれ、x軸,y軸,z軸におけるスケーリング係数である。tx,ty,tzは、それぞれ、x軸,y軸,z軸方向における平行移動量である。c=(cx,cy,cz)’とすると、顔モデルbmは、以下の数5に示したベクトルpによってパラメータ化される。
顔の姿勢(向き)は回転角(r)と平行移動量(t)で表され、顔の形状はスケーリング係数(c)と形状パラメータ(s)で表され、そして顔の器官(例えば、目、眉毛、口)のアニメーションはアニメーションパラメータ(a)で表される。つまり、顔モデルbmは、顔の姿勢(向き)に関するパラメータと、顔の形状に関するパラメータと、顔の器官のアニメーションに関するパラメータとにより表される。
(C)ゼロオーダーバイノキュラーフェースポーズトラッカーカーネル
人間の顔の形状は互いに異なっており、顔は、常にグローバルまたはローカルの動きのいくつかの形態を取る。そのため、ベクトルpのすべてのパラメータが確率変数である。しかし、時刻tkから時刻tk+1にかけてのベクトルpの進化(evolution)は、いくつかの古典的な動的モデルといくつかの付加的なノイズで近似することができる。顔のグローバルな動き(顔の姿勢の動き)は、rとtで表される動きであり、ゼロオーダーバイノキュラーフェースポーズトラッカーカーネルによってトラッキングされる。ここで、ゼロオーダーバイノキュラーフェースポーズトラッカーカーネルは、システムの動的モデル、計測モデル、および解析アルゴリズムを含んでおり、回転角(r)と平行移動量(t)をトラッキングするものである。以下に、ゼロオーダーバイノキュラーフェースポーズトラッカーカーネルについて説明する。
人間の顔の形状は互いに異なっており、顔は、常にグローバルまたはローカルの動きのいくつかの形態を取る。そのため、ベクトルpのすべてのパラメータが確率変数である。しかし、時刻tkから時刻tk+1にかけてのベクトルpの進化(evolution)は、いくつかの古典的な動的モデルといくつかの付加的なノイズで近似することができる。顔のグローバルな動き(顔の姿勢の動き)は、rとtで表される動きであり、ゼロオーダーバイノキュラーフェースポーズトラッカーカーネルによってトラッキングされる。ここで、ゼロオーダーバイノキュラーフェースポーズトラッカーカーネルは、システムの動的モデル、計測モデル、および解析アルゴリズムを含んでおり、回転角(r)と平行移動量(t)をトラッキングするものである。以下に、ゼロオーダーバイノキュラーフェースポーズトラッカーカーネルについて説明する。
数7において、Aeは、単位行列である。Mは、サンプリング時間Tsに等しい。wkは、プロセスノイズであり、具体的には、ゼロ平均(zero-mean)のホワイトガウスノイズ(gaussian white noise)(w1,w2,w3,w4,w5,w6)’である。
計測モデルは、カメラの画像平面上に顔の特徴点の座標系がどのように影響するかを扱う。一般性を失わずに、例えば、右カメラ12Rの座標系(右カメラ座標系)および左カメラ12Lの座標系(左カメラ座標系)は図4のように配置されている。世界座標系と、左カメラ12Lの座標系とは、剛性変換(rigid transformation)(Rwc0、twc0)によって関連付けられている。ここで、Rwc0は、左カメラ座標系と世界座標系の回転行列である。twc0は、左カメラ座標系と世界座標系の平行移動行列である。同様に、世界座標系と、右カメラ座標系とは、剛性変換(Rwc1、twc1)によって関連付けられている。ここで、Rwc1は、右カメラ座標系と世界座標系の回転行列である。twc1は、右カメラ座標系と世界座標系の平行移動行列である。投影モデルと顔モデルbmとを互いに組み合わせ、さらに両目の場合にはホワイトガウスノイズVkを追加することにより、計測モデルが得られる。この計測モデルは、数8に示したように、7つの式で表される。
数8において、c0iは、左カメラ12Lの画像面内で計測された複数の特徴点のうちi番目の特徴点を指している。従って、bc0iは、左カメラ12Lの画像面内で計測された複数の特徴点のうちi番目の特徴点のカメラ座標系の座標である。また、mc0iは、左カメラ12Lの画像面内で計測された複数の特徴点のうちi番目の特徴点の左カメラ12Lの画像面内の座標である。また、(uc00,uv00)は、左カメラ12Lの光学中心の画像への投影座標であり、(uc10,uv10)は、右カメラ12Rの光学中心の画像への投影座標である。また、vkc0iは、左カメラ12Lで計測された画像面内のホワイトガウスノイズVkである。
また、数8において、c1iは、右カメラ12Rの画像面内で計測された複数の特徴点のうちi番目の特徴点を指している。従って、bc1iは、右カメラ12Rの画像面内で計測された複数の特徴点のうちi番目の特徴点のカメラ座標系の座標である。また、mc1iは、右カメラ12Rの画像面内で計測された複数の特徴点のうちi番目の特徴点の右カメラ12Rの画像面内の座標である。また、vkc1iは、右カメラ12Rで計測された画像面内のホワイトガウスノイズVkである。
計測モデルは、yk=h(xk,vk)で表される。ここで、ykは状態ベクトルxkとホワイトガウスノイズVkより推定される計測ベクトルである。hは計測ベクトルの計算関数である。この計測モデルは、非線形である。そのため、この計測モデルでは、ヤコビ(Jacobian)行列が用いられる。この計測モデルで計測される特徴点は、以下の数9で表される。
数9において、c0Nfは、左カメラ12Lの画像面内で計測された特徴点の数である。また、c1Nfは、右カメラ12Rの画像面内で計測された特徴点の数である。従って、状態ベクトルに対する計測モデルのヤコビ行列は、以下の数10のようになる。
ここで、Rwc,1,Rwc,2,Rwc,3は、Rwc(=R’wc,1,R’wc,2,R’wc,3)’)の列ベクトルである。
初期状態の誤差共分散(error covariance)行列がPであるとすると、ノイズの分布は、p(wk)〜N(0,Qk)およびp(vk)〜N(0,Rk)を満たす。ここで、N(0,Qk)は状態ベクトルxkのノイズ分布関数であり、N(0,Rk)は計測ベクトルykのノイズ分布関数である。p(wk)は状態ベクトルxkのノイズwkの分布であり、p(vk)は計測ベクトルykのノイズvkの分布である。このとき、EKF(Extending the Kalman Filter:拡張カルマンフィルタ)アルゴリズムが、ゼロオーダーバイノキュラーフェースポーズトラッカーカーネルにおける解析アルゴリズムとして用いられる。EKFアルゴリズムは、以下の数12に示すように、顔の姿勢(向き)を再帰的に推定するために利用される。演繹的な(priori)推定は、以下の数12で表される。なお、EKFとは、誤算の分散が最小となる値を時系列的に推定し、推定値と測定値とから推定値を修正する最適化フィルタである。ここで、数12において、「−」は推定値であり、「+」は、推定値をベースに補正した値である。
以上、数6〜数14が、ゼロオーダーバイノキュラーEKFフェースポーズトラッカーの式である。
(D)顔の形状登録と、姿勢およびアニメーションの推定
ヤコビ行列の各要素を計算するとき、数11に示すように、顔モデルbmの特徴点bmiが、あらかじめ用意されていなければならない。数4は、特徴点bmiが一般的な固定の顔モデルgと、顔の形状パラメータsと、顔のアニメーションパラメータaとを互いに融合することにより導出されることを示している。初期登録の段階で形状パラメータsを推定するために、状態ベクトルxは以下の数15に示したように拡張される。
ヤコビ行列の各要素を計算するとき、数11に示すように、顔モデルbmの特徴点bmiが、あらかじめ用意されていなければならない。数4は、特徴点bmiが一般的な固定の顔モデルgと、顔の形状パラメータsと、顔のアニメーションパラメータaとを互いに融合することにより導出されることを示している。初期登録の段階で形状パラメータsを推定するために、状態ベクトルxは以下の数15に示したように拡張される。
ここで、c=(cx’,cy’,cz’)は、スケーリングのベクトルである。s=(s1,s2,...,sNs)は、形状パラメータsのベクトルである。Nsは、形状パラメータsの数である。ヤコビ行列は、新たに追加された状態変数を含むように拡張される。具体的には、数11に対して、さらに、数16が新たに追加される。r’,t’,c’,s’の再帰的な推定は、上記の『(C)ゼロオーダーバイノキュラーフェースポーズトラッカカーネル』で説明したようになされる。
顔に表情が現れたとき、アニメーションパラメータaの推定が不可欠である。数3において、形状パラメータsとアニメーションパラメータaは、顔モデルbmの調整において同じ力を持っている。したがって、形状パラメータsをトラッキングする技術と、アニメーションパラメータaをトラッキングする技術とは、その点で似ている。ただし、形状パラメータsのトラッキングは初期登録段階だけで使用されるタスクである一方で、アニメーションパラメータaのトラッキングは、初期登録以降の手順においても継続的に使用されるタスクである。そのため、その点で、形状パラメータsをトラッキングする技術と、アニメーションパラメータaをトラッキングする技術とは相違している。
ここで、a=(a1,a2,...,aNa))’は、アニメーションパラメータaのベクトルである。Naは、アニメーションパラメータaの数である。ヤコビ行列の行は、数18に示したように、新しく追加された状態変数と、ヤコビ行列に新たに追加された要素の計算とを含むように拡張される。
ヤコビ行列を得た後の形状パラメータsおよびアニメーションパラメータaの再帰的な推定は、上記の『(C)ゼロオーダーバイノキュラーフェースポーズトラッカカーネル』で説明したようになされる。
ヤコビ行列の要素の計算は複雑にみえるが、上述の数11,数16,数18を見ると、ヤコビ行列は、ヤコビ行列の要素のうちの2つのファクタ(以下の数19参照)で構成されていることがわかる。従って、プログラムでヤコビ行列の記述することは容易である。
(E)規則化および安定化
いくつかの形状パラメータsとアニメーションパラメータaは相互に連成(coupling)されている。例えば、形状パラメータsの1つである口の幅は、アニメーションパラメータaの1つである口の伸縮と連成されている。1つのカーネルが、連成されたパラメータ同士を同時に推定する場合、これらの連成されたパラメータの推定は、間違っている可能性がある。従って、状態ベクトルxは、互いに連成していない複数のパラメータで構成する必要がある。注意深くいくつかのパラメータを選択した場合であっても、場合によっては、それらのパラメータ同士が互いに連成しているかもしれない。z軸周りの回転rzと、x軸周りの回転rxが共にゼロの状態では、例えば、y軸tyに沿って顔を移動させた場合、その移動量は、顔の器官(例えば、目や口)の垂直位置と結合する。上述のEKFは、時間ステップkで、以下の数20に示したエネルギー関数を再帰的に解く。
いくつかの形状パラメータsとアニメーションパラメータaは相互に連成(coupling)されている。例えば、形状パラメータsの1つである口の幅は、アニメーションパラメータaの1つである口の伸縮と連成されている。1つのカーネルが、連成されたパラメータ同士を同時に推定する場合、これらの連成されたパラメータの推定は、間違っている可能性がある。従って、状態ベクトルxは、互いに連成していない複数のパラメータで構成する必要がある。注意深くいくつかのパラメータを選択した場合であっても、場合によっては、それらのパラメータ同士が互いに連成しているかもしれない。z軸周りの回転rzと、x軸周りの回転rxが共にゼロの状態では、例えば、y軸tyに沿って顔を移動させた場合、その移動量は、顔の器官(例えば、目や口)の垂直位置と結合する。上述のEKFは、時間ステップkで、以下の数20に示したエネルギー関数を再帰的に解く。
従来のカルマンフィルタでは、エネルギー関数(数20)において、状態ベクトルxのオーバーフィッティングが生じる。特に、連成条件で、奇妙な状態推定を与える可能性がある。例えば、形状パラメータsとアニメーションパラメータaの分布(p(si)〜N(0,wi))を事前に与えた場合に、連成条件で、オーバーフィッティングの問題を解決することが必要である。事前情報を与える際に、オーバーフィッティングを最小化するエネルギー関数は以下の数21で表される。
ここで、Wは対角行列であり、その対角要素は、対応する状態変数の分散が含まれている。数21には、エネルギー関数を規格化するための事前情報が組み込まれている。これにより、拡張カルマンフィルタを利用した各種パラメータの推定に際して、数21を再帰的に解くことにより、状態ベクトルのフィッティングを行うことが可能となる。つまり、数21に対して上述の事前情報が組み込まれていることにより、オーバーフィッティングの問題を低減し得る。しかし、数21は、閉じた形の解を持っていない。そのため、いくつかの状態変数を規格化するためのカルマンフィルタの枠組みに、事前情報を組み込むために別の新たな戦略が必要である。
具体的には、いくつかの状態変数の期待値で、測定ベクトル(数9)をあらかじめ補強し、さらに、対応する状態変数の分散で、測定分散行列をあらかじめ補強した上で、拡張カルマンフィルタを利用した各種パラメータの推定を行う。補強後の測定ベクトルは、以下の数22のようになる。
ここで、si,・・・,Sj,al,・・・,amは、事前情報を持った状態変数である。この補強をプログラムに実装することは容易であり、しかも、数22では、オーバーフィッティングの問題を低減するために数21を用いたときと同じ効果が得られる。
なお、上記の議論では、カルマンフィルタの演算が無限精度であることが前提となっている。しかし、デジタルコンピュータの演算は有限精度であり、それゆえ、デジタルコンピュータの演算においてカルマンフィルタを実装したとしても、発散したり、不安定になったりする可能性がある。上記の議論では、システムモデルや計測モデルが正確に知られていることが前提となっており、ノイズモデルQk,Rkは、ゼロ平均(zero-mean)のホワイトガウスノイズであり、それぞれが互いに関係付けられていないことが前提となっている。これらの前提のうちの1つでも正しくない場合には、カルマンフィルタの前提も正しくなくなるので、上記のシステムは正しく機能しない。上述の前提が成り立たないような現実の状況下で、カルマンフィルタの堅牢性を改善するためには、いくつかの実装技術を用いることが必要となる。
数7に示すように、ゼロオーダーの静的進化系モデルは、顔の動きの近似に用いられる。そして、この近似は、推定結果の精度に影響を与えるいくつかのモデリング誤差を必然的に含んでいる。モデリング誤差を補償するために、フェーディングメモリ(fading memory)技術が用いられる。フェーディングメモリフィルタは、下記の点を除いて、標準的なカルマンフィルタと全く同一である。フェーディングメモリフィルタが標準的なカルマンフィルタと異なる点は、演繹的な(priori)推定誤差の共分散の計算のための時間更新式が、数23に示したように、その最初の項でα2の係数を持っていることである。α2の係数は、状態推定において曖昧さを高める役割を有している。このことが、測定の信憑性をより高めている。ほとんどのアプリケーションでは、αは、1(たとえば、1.01)よりわずかに大きい。
状態誤差共分散行列Pは対称正定行列であることが好ましい。数値計算上の問題から、数14における状態誤差共分散行列P+ k+1の事後更新は、P- k+1とP+ kが正定値である場合であってもP+ k+1が正定であることを保証していない。そのため、数14の2段目の式は、以下の数24に置き換えられる。数24は、P+ k+1が正定であることを保証している。
(フェーストラッキングの手順)
次に、図5を参照して、本実施の形態のフェーストラッカ1におけるフェーストラッキングの手順の一例について説明する。
次に、図5を参照して、本実施の形態のフェーストラッカ1におけるフェーストラッキングの手順の一例について説明する。
トラッキング部20は、まず、ドライバ情報を取得する(ステップS101)。具体的には、トラッキング部20は、ドライバ情報取得部10に対して、ドライバ情報の取得を要求する制御信号を出力する。ドライバ情報取得部10は、そのような制御信号をトラッキング部20から受信すると、ドライバ情報の取得を開始する。
ドライバ情報取得部10がTOFセンサ11で構成されている場合には、TOFセンサ11は、上記の制御信号の受信に同期して、単眼カメラで輝度画像(輝度情報)を取得するとともに、LEDから照射される赤外線が反射して観測されるまでの時間差から距離画像(距離情報)を取得する。TOFセンサ11は、さらに、取得した輝度画像および距離画像をトラッキング部20に出力する。
ドライバ情報取得部10がステレオカメラ12で構成されている場合には、ステレオカメラ12上記の制御信号の受信に同期して、2つのカメラ(右カメラ12R,左カメラ12L)で、視差の互いに異なる2枚の画像を取得する。ステレオカメラ12は、さらに、取得した2枚の画像をトラッキング部20に出力する。トラッキング部20は、ステレオカメラ12から取得した2枚の画像から、輝度画像および距離画像を生成する。
トラッキング部20は、次に、輝度画像および距離画像を利用して、顔の特徴点を抽出する(ステップS102)。トラッキング部20は、例えば、距離画像上をラスタスキャンし、次に、検出ウィンドウ内から距離ヒストグラム特徴量とHOG(Histograms of Oriented Gradients)特徴量を用いてCascade AdaBoostによる識別を行う。これにより、トラッキング部20は、検出ウィンドウが顔の特定の器官(例えば、目、眉毛、口)であるか否かを判別し、顔の器官を検出する。続いて、トラッキング部20は、検出した顔の器官の特定の部位を特徴点とし、その部位の座標(カメラ座標系および画像面内の座標)を導出する。
なお、HOG特徴量は、エッジベースの局所特徴量であり、輝度勾配から算出されるものである。なお、トラッキング部20は、HOG特徴量以外の特徴量を用いてCascade AdaBoostによる識別を行ってもよい。また、トラッキング部20は、Cascade AdaBoost以外の識別器を用いてもよい。
トラッキング部20は、次に、抽出した顔の特徴点bmi(または、導出した顔の特徴点の座標)を利用して、顔モデルbmの各種パラメータを推定する(ステップS103)。トラッキング部20は、例えば、顔の特徴点の座標と、上述の数6〜数16を利用して、形状パラメータsを推定する。このとき、ドライバ情報取得部10は、ドライバ200の顔が無表情に近い状態で、輝度画像(輝度情報)と、距離画像(距離情報)とを取得することが好ましい。推定終了条件としては、形状パラメータsの推定値が安定であることが挙げられる。次に,通常状態で抽出により得られた顔の特徴点の座標と、上述の数17〜数24を利用して、アニメーションパラメータaを推定する。このように、トラッキング部20は、顔特徴の事前登録をドライバ200に要求せず、その代わりに、抽出した顔の特徴点bmiを利用して顔モデルbmの各種パラメータを推定することにより顔特徴を自動登録している。続いて、トラッキング部20は、推定により得られた顔モデルbmから、顔の姿勢(向き)や、顔の表情を推定する。
その後、トラッキング部20は、推定により得られた顔の姿勢(向き)や、顔の表情から、ドライバ200に対して何らかのフィードバックを必要とするか否かを判定する。言い換えると、トラッキング部20は、フィードバックに必要な制御信号の出力が必要か否かを判定する(ステップS104)。例えば、トラッキング部20は、推定により得られた顔の姿勢(向き)や、顔の表情から、ドライバ200の眠気の強さを判定する。
その結果、フィードバックが必要と判断した場合には、トラッキング部20は、所定の制御信号を出力するよう、出力部40に指令を出す。例えば、トラッキング部20は、ドライバ200の強い眠気を検知した場合には、ドライバ200に対して警告音などを発することの可能なデバイスに対して、警告音を発する指令に相当する制御信号を出力するよう、出力部40に指令を出す。出力部40は、トラッキング部20から指令を受信すると、指令の内容に応じた制御信号を所定のデバイスに出力する(ステップS105)。また、フィードバックが必要でない判断した場合や、出力部40から所定の制御信号が出力された後は、トラッキング部20は、再び、上述のステップS101〜ステップS104を実行する。このようにして、トラッキング部20は、フェーストラッキングを繰り返し、実行する。
次に、本実施の形態のフェーストラッカ1の効果について説明する。
本実施の形態のフェーストラッカ1では、輝度画像および距離画像から抽出した顔の特徴点bmiを利用して、顔モデルbmの各種パラメータ(形状パラメータsおよびアニメーションパラメータa)が推定される。これにより、個々の被験者の細かな顔特徴に対応した顔モデルbmを生成することが可能となる。また、顔モデルbmの自動登録も可能となる。その結果、顔特徴の事前登録を行うことなく、顔の姿勢(向き)や表情を高精度に推定することができる。
また、本実施の形態のフェーストラッカ1では、数21に示したように、エネルギー関数に対して、当該エネルギー関数を規格化するための事前情報が組み込まれているので、パラメータ間の連成を抑制することができる。その結果、オーバーフィッティングの問題を低減することができる。また、本実施の形態のフェーストラッカ1では、いくつかの状態変数の期待値で、測定ベクトル(数9)があらかじめ補強され、さらに、対応する状態変数の分散で、測定分散行列があらかじめ補強されているので(数22参照)、数21と同様に、パラメータ間の連成を抑制することができる。その結果、オーバーフィッティングの問題を低減することができる。
また、本実施の形態のフェーストラッカ1では、演繹的な(priori)推定誤差の共分散の計算のための時間更新式がその最初の項でα2の係数を持つフェーディングメモリフィルタが用いられているので、測定の信憑性をより高めることができる。
また、本実施の形態のフェーストラッカ1において、輝度画像および距離画像の取得にTOFセンサ11が用いられている場合、TOFセンサ11のセンシングは赤外線でなされている。そのため、外部の照明条件に依らずに、精度よく、フェーストラッキングを実行することができる。
以上、実施の形態および実施例を挙げて本発明を説明したが、本発明は、これらに限定されるものではなく、種々の変形が可能である。
例えば、上記実施の形態では、フェーストラッカ1が自動車100に搭載されていたが、他の車両(例えば、鉄道など)に搭載されていてもよい。この場合の検出対象は、鉄道の運転手の顔である。
1…フェーストラッカ、10…ドライバ情報取得部、11…TOFセンサ、12…ステレオカメラ、12R…右カメラ、12L…左カメラ、20…トラッキング部、30…記憶部、40…出力部、100…自動車、110…フロントガラス、120…運転席、130…ハンドル。
Claims (11)
- 輝度画像および距離画像を取得する取得ステップと、
前記輝度画像および前記距離画像を利用して顔の特徴点を抽出する抽出ステップと、
抽出した顔の特徴点を利用して顔モデルの各種パラメータを推定する推定ステップと
を含む
フェーストラッキング方法。 - 前記抽出ステップにおいて、前記輝度画像および前記距離画像を利用して顔の特徴点の座標を導出し、
前記推定ステップにおいて、導出した顔の特徴点の座標を利用して前記各種パラメータを推定する
請求項1に記載のフェーストラッキング方法。 - 前記推定ステップにおいて、拡張カルマンフィルタを利用して前記各種パラメータを推定する
請求項1または請求項2に記載のフェーストラッキング方法。 - 前記推定ステップにおいて、前記拡張カルマンフィルタを利用した前記各種パラメータの推定に際して、エネルギー関数を再帰的に解くことにより、状態ベクトルのフィッティングを行うようになっており、
前記エネルギー関数には、当該エネルギー関数を規格化するための事前情報が組み込まれている
請求項3に記載のフェーストラッキング方法。 - 前記推定ステップにおいて、いくつかの状態変数の期待値で、測定ベクトルをあらかじめ補強し、さらに、対応する状態変数の分散で、測定分散行列をあらかじめ補強した上で、前記拡張カルマンフィルタを利用した前記各種パラメータの推定を行う
請求項3に記載のフェーストラッキング方法。 - 前記推定ステップにおいて、前記各種パラメータとして、形状パラメータと、アニメーションパラメータとを推定する
請求項1ないし請求項5のいずれか一項に記載のフェーストラッキング方法。 - 輝度画像および距離画像を取得する取得部と、
前記輝度画像および前記距離画像を利用して顔の特徴点を抽出する抽出部と、
抽出した顔の特徴点を利用して顔モデルの各種パラメータを推定する推定部と
を備えた
フェーストラッカ。 - 前記抽出部は、前記輝度画像および前記距離画像を利用して顔の特徴点の座標を導出し、
前記推定部は、導出した顔の特徴点の座標を利用して前記各種パラメータを推定する
請求項7に記載のフェーストラッカ。 - 前記推定部は、拡張カルマンフィルタを利用して前記各種パラメータを推定する
請求項7または請求項8に記載のフェーストラッカ。 - 前記各種パラメータは、形状パラメータおよびアニメーションパラメータである
請求項7ないし請求項9のいずれか一項に記載のフェーストラッカ。
- フェーストラッカを備え、
前記フェーストラッカは、
輝度画像および距離画像を取得する取得部と、
前記輝度画像および前記距離画像を利用して顔の特徴点を抽出する抽出部と、
抽出した顔の特徴点を利用して顔モデルの各種パラメータを推定する推定部と
を有する
車両。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012014327A JP2013156680A (ja) | 2012-01-26 | 2012-01-26 | フェーストラッキング方法、フェーストラッカおよび車両 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012014327A JP2013156680A (ja) | 2012-01-26 | 2012-01-26 | フェーストラッキング方法、フェーストラッカおよび車両 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013156680A true JP2013156680A (ja) | 2013-08-15 |
Family
ID=49051832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012014327A Pending JP2013156680A (ja) | 2012-01-26 | 2012-01-26 | フェーストラッキング方法、フェーストラッカおよび車両 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013156680A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016091566A (ja) * | 2014-11-05 | 2016-05-23 | モルフォ | 改善されたデータ比較方法 |
CN109300148A (zh) * | 2018-09-19 | 2019-02-01 | 西北工业大学 | 基于方法协同的多源图像配准方法 |
CN110728697A (zh) * | 2019-09-30 | 2020-01-24 | 华中光电技术研究所(中国船舶重工集团有限公司第七一七研究所) | 基于卷积神经网络的红外弱小目标检测跟踪方法 |
KR20200015459A (ko) * | 2017-06-07 | 2020-02-12 | 구글 엘엘씨 | 고속, 고성능 얼굴 추적 |
JP2020522764A (ja) * | 2018-05-10 | 2020-07-30 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 生体検知方法および装置、システム、電子機器、記憶媒体 |
JP2020204942A (ja) * | 2019-06-18 | 2020-12-24 | 凸版印刷株式会社 | 顧客情報取得支援システム及び顧客情報取得支援方法 |
US10930010B2 (en) | 2018-05-10 | 2021-02-23 | Beijing Sensetime Technology Development Co., Ltd | Method and apparatus for detecting living body, system, electronic device, and storage medium |
JP2022517050A (ja) * | 2018-05-21 | 2022-03-04 | ベステル エレクトロニク サナイー ベ ティカレト エー.エス. | 頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラム |
-
2012
- 2012-01-26 JP JP2012014327A patent/JP2013156680A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016091566A (ja) * | 2014-11-05 | 2016-05-23 | モルフォ | 改善されたデータ比較方法 |
KR20200015459A (ko) * | 2017-06-07 | 2020-02-12 | 구글 엘엘씨 | 고속, 고성능 얼굴 추적 |
KR102376948B1 (ko) | 2017-06-07 | 2022-03-21 | 구글 엘엘씨 | 고속, 고성능 얼굴 추적 |
JP2020522764A (ja) * | 2018-05-10 | 2020-07-30 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 生体検知方法および装置、システム、電子機器、記憶媒体 |
US10930010B2 (en) | 2018-05-10 | 2021-02-23 | Beijing Sensetime Technology Development Co., Ltd | Method and apparatus for detecting living body, system, electronic device, and storage medium |
JP2022517050A (ja) * | 2018-05-21 | 2022-03-04 | ベステル エレクトロニク サナイー ベ ティカレト エー.エス. | 頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラム |
JP7162079B2 (ja) | 2018-05-21 | 2022-10-27 | ベステル エレクトロニク サナイー ベ ティカレト エー.エス. | 頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラムを記録する記録媒体 |
CN109300148A (zh) * | 2018-09-19 | 2019-02-01 | 西北工业大学 | 基于方法协同的多源图像配准方法 |
CN109300148B (zh) * | 2018-09-19 | 2021-05-18 | 西北工业大学 | 基于方法协同的多源图像配准方法 |
JP2020204942A (ja) * | 2019-06-18 | 2020-12-24 | 凸版印刷株式会社 | 顧客情報取得支援システム及び顧客情報取得支援方法 |
CN110728697A (zh) * | 2019-09-30 | 2020-01-24 | 华中光电技术研究所(中国船舶重工集团有限公司第七一七研究所) | 基于卷积神经网络的红外弱小目标检测跟踪方法 |
CN110728697B (zh) * | 2019-09-30 | 2023-06-13 | 华中光电技术研究所(中国船舶重工集团有限公司第七一七研究所) | 基于卷积神经网络的红外弱小目标检测跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013156680A (ja) | フェーストラッキング方法、フェーストラッカおよび車両 | |
JP6695503B2 (ja) | 車両の運転者の状態を監視するための方法及びシステム | |
KR101169533B1 (ko) | 얼굴 자세 추정 장치, 얼굴 자세 추정 방법 및 얼굴 자세 추정 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 | |
EP3413234B1 (en) | Gaze-tracking device, gaze-tracking method, program, and computer-readable medium | |
Baak et al. | A data-driven approach for real-time full body pose reconstruction from a depth camera | |
Malassiotis et al. | Robust real-time 3D head pose estimation from range data | |
JP5647155B2 (ja) | 内側距離形状関係を使用する身体特徴検出及び人間姿勢推定 | |
JP4852764B2 (ja) | 動き計測装置、動き計測システム、車載機器、動き計測方法、動き計測プログラム、およびコンピュータ読み取り可能な記録媒体 | |
CN111480164B (zh) | 头部姿势和分心估计 | |
EP1977374A1 (en) | Visual tracking of eye glasses in visual head and eye tracking systems | |
JP5012615B2 (ja) | 情報処理装置、および画像処理方法、並びにコンピュータ・プログラム | |
KR20130073812A (ko) | 객체 포즈 추정을 위한 장치 및 방법 | |
JP7345664B2 (ja) | 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 | |
JP2019185557A (ja) | 画像解析装置、方法およびプログラム | |
JP2008140290A (ja) | 頭部の位置・姿勢検出装置 | |
KR102110459B1 (ko) | 3차원 이미지 생성 방법 및 장치 | |
JPWO2015198592A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP5482412B2 (ja) | ロボット、位置推定方法及びプログラム | |
KR101732807B1 (ko) | 3차원 얼굴 비대칭 분석 장치 및 방법 | |
Zhu et al. | 3D face pose tracking from an uncalibrated monocular camera | |
Terissi et al. | 3D Head Pose and Facial Expression Tracking using a Single Camera. | |
Luo et al. | Automatic Tongue Tracking in X‐Ray Images | |
JP5231183B2 (ja) | 三次元形状復元装置 | |
Rezaei et al. | Driver Inattention Detection | |
Hahn et al. | 3D pose estimation and motion analysis of the articulated human hand-forearm limb in an industrial production environment |