JP2002511620A

JP2002511620A - 人間の姿を与えたものを動画化するためのウェーブレットに基づく顔の動きの捕捉

Info

Publication number: JP2002511620A
Application number: JP2000543930A
Authority: JP
Inventors: マウラー，トーマス; エラジン，イゴー・バレリビッチ; ノセラ，ルシアノ・パスクゥアレ・アゴスティーノ; ステファンズ，ヨハネス・バーナード; ネベン，ハルトムット
Original assignee: アイマティック・インターフェイシズ・インコーポレイテッド
Priority date: 1998-04-13
Filing date: 1999-04-12
Publication date: 2002-04-16
Anticipated expiration: 2019-04-12
Also published as: DE69910757T2; CA2327304A1; BR9909611A; JP3970520B2; JP2007109255A; JP4177402B2; US6580811B2; EP1072018A1; KR20010042673A; DE69910757D1; US20010033675A1; KR100530812B1; EP1072018B1; WO1999053443A1; BR9909611B1; ATE248409T1; AU3639699A

Abstract

(57)【要約】本発明は、人物の顔の動き、特徴、および特性などを検知し、顔の検知に基づいて、人間の姿を与えたものの画像を生成しかつ動画化するための、装置および関連の方法において実施される。この装置は、画像の特徴をジェットとして効率的に表現するモデルグラフおよびバンチグラフに基づいた画像処理技術を用いる。ジェットは、容易に識別可能な特徴に対応する、画像のノードまたはランドマークロケーションで処理されたウェーブレット変換からなる。ノードを獲得し追跡して、人物の顔の動きに従い、人間の姿を与えたものを動画化する。また、顔の検知では、ジェット類似度を用いて人物の顔の特徴および特性を求めることにより、人物の自然な特性を、その人物の自然な特性を妨害または阻止し得る不自然な要素を伴なわずに、追跡することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の分野】

本発明は、動的な顔の特徴の検知に関し、より具体的には、顔の特徴をリアル
タイムで発見、追跡、かつ分類して、人の姿を与えたもの（avatar、分身）を動
画化するグラフィックスエンジンに入力する、視覚に基づく動き捕捉システムに
関する。

【０００２】

【発明の背景】

仮想空間を人間の姿を与えたもので満たすことは、共有環境を経験できるよう
にするには魅力的な方法である。しかしながら、一般的に、既存の共有環境では
、ユーザを具体化するすなわちユーザの表情またはジェスチャーをそのユーザの
分身に与えユーザに似たものにするのに十分な質で顔の特徴は検知されていない
。高品質で顔の特徴を検知することは非常に有利である。なぜなら、顔によるジ
ェスチャーは、コミュニケーションの根本的手段であるからである。したがって
、ユーザを具体化することによって、仮想空間の魅力は増大する。

【０００３】典型的に、顔の特徴を検知する既存の方法は、人物の顔に固定されるマーカを
用いる。顔の動きを捕捉するためにマーカを使用することは煩わしいもので、一
般的にはマーカの使用によって顔の動き捕捉の用途は映画の制作といったコスト
のかかる応用に限定されてきた。

【０００４】したがって、現在非常に必要なのは、好都合でかつ効率的な顔の特徴検知を実
現する、視覚に基づく動き捕捉システムである。本発明はこの必要を満たす。

【０００５】

【発明の概要】

本発明は、人物の顔の動き、特徴または特性を検知するための装置および関連
の方法において実施される。顔の検知の結果を用いて、人間の姿を与えたもの（
分身）の画像を動画化することができる。この分身装置は、モデルグラフおよび
バンチグラフに基づく画像処理技術を使用する。このモデルグラフおよびバンチ
グラフは、画像の特徴を、容易に識別可能な特徴に対応する顔の画像のランドマ
ークにおけるウェーブレット変換からなるジェットとして、効率的に表現する。
この検知システムにより、ある人物の自然な特性を、その人物の自然な特性を妨
害する不自然な要素を伴なわずに追跡することができる。

【０００６】特徴検知プロセスは、画像フレームのシーケンスに対して働き、ウェーブレッ
ト変換を用いて各画像フレームを変換し、変換された画像フレームを生成する。
変換された画像フレームへの、モデルグラフのウェーブレットジェットに関連す
るノードロケーションの初期化は、モデルグラフを変換された画像フレームを横
切るように動かし、モデルグラフを、ノードロケーションのウェーブレットジェ
ットと変換された画像フレームとの間のジェット類似度が最大である、変換され
た画像フレームにおけるあるロケーションに配置することによって行なわれる。
モデルグラフの１以上のノードロケーションのロケーションを画像フレーム間で
追跡する。追跡されたノードは、そのノードの位置が画像フレーム間の予め定め
られた位置制約を超えてずれた場合に、再初期化される。

【０００７】本発明のある実施例において、顔の特徴の発見は、頭モデルを個別化するため
の弾性バンチグラフマッチングに基づき得る。また、顔の画像の解析のためのモ
デルグラフは、人間の顔の目立つ特徴に関連する複数のロケーションノード（た
とえば１８）を含み得る。

【０００８】本発明の他の特徴および利点は、好ましい実施例についての以下の記載を、添
付の図面と関連づけて検討することにより明らかになるはずであり、この図面は
例として本発明の原理を示している。

【０００９】

【好ましい実施例の詳細な説明】

本発明は、人物の顔の動き、特徴、および特性などを検知し、その顔検知に基
づいて、人間の姿を与えたもの（分身）の画像を生成しかつ動画化するための装
置および関連の方法において実施される。この分身装置は、画像の特徴をジェッ
トとして効率的に表現するモデルグラフおよびバンチグラフに基づく画像処理技
術を利用する。このジェットはウェーブレット変換からなり、容易に識別可能な
特徴に対応する画像のノードまたはランドマークロケーションにおいて処理され
る。ノードを獲得して追跡し、人物の顔の動きに従って、人間の姿を与えたもの
の画像を動画化する。また、顔の検知では、ジェット類似度を用いて人物の顔の
特徴および特性を判断するので、人物の自然な特性を、その人物の自然な特性を
妨害し得る不自然な要素を伴なわずに、追跡することができる。

【００１０】図１に示すように、本発明の分身動画化システム１０は、撮像システム１２と
、顔検知プロセス１４と、データ通信ネットワーク１６と、顔動画化プロセス１
８と、分身ディスプレイ２０とを含む。撮像システムは、ある人物のライブビデ
オ画像信号を獲得しデジタル化することによって、画像フレームに組織されるデ
ジタル化されたビデオデータのストリームを生成する。デジタル化されたビデオ
画像データは、顔検知プロセスに与えられ、このプロセスは、各フレームにおけ
る、その人物の顔および対応する顔の特徴の場所を求める。顔検知プロセスはま
た、フレームからフレームへと顔の特徴の位置および特性を追跡する。追跡情報
をネットワークを介して１以上の遠隔場所に送り、この遠隔場所においてその情
報を受信し、グラフィックスエンジンを用いて分身ディスプレイに動画化された
顔の画像を生成することができる。動画化された顔の画像は、その人物の写真の
ように写実的なモデル、漫画のキャラクター、またはユーザに全く無関係の顔に
基づき得る。

【００１１】撮像システム１２および顔検知プロセス１４を図２および３においてさらに詳
細に示す。撮像システムは、ビデオ画像フレームのストリームを発生するデジタ
ルビデオカメラ２２を用いて人物の画像を捕捉する。ビデオ画像フレームは、処
理のためにビデオランダムアクセスメモリ（ＶＲＡＭ）２４に転送される。Matr
ox（登録商標）から入手可能なMatrox Meteor IIは、申し分ない撮像システムで
あり、これは、従来のＣＣＤカメラによって生成されたデジタル化画像を発生し
、この画像をリアルタイムでフレームレート３０Ｈｚでメモリに転送する。画像
フレームは、ＶＲＡＭおよびランダムアクセスメモリＲＡＭ３０に結合された中
央処理装置（ＣＰＵ）２８を備える画像プロセッサ２６によって処理される。Ｒ
ＡＭは、プログラムコードおよびデータを記憶し、顔検知および分身動画化プロ
セスを実現する。

【００１２】顔特徴プロセスは、デジタル化された画像に対して働き、人物の顔の特徴を発
見し（ブロック３２）、その特徴を追跡し（ブロック３４）、必要に応じて特徴
追跡を再初期化する。顔の特徴を分類してもよい（ブロック３６）。顔特徴プロ
セスは、顔の特徴の位置および分類に関連するデータを生成し、これが、顔動画
化プロセスとのインターフェイスに与えられる（ブロック３８）。

【００１３】顔の特徴の場所は、図４に示す弾性グラフマッチングを用いて求めることがで
きる。この弾性グラフマッチング技術では、捕捉された画像（ブロック４０）を
、図５を参照して以下でさらに詳細に説明するウェーブレット変換を用いて、ガ
ボール空間に変換する（ブロック４２）。変換された画像（ブロック４４）は、
当初の画像の各画素につき、ウェーブレット成分を表わす４０の複素値によって
表現される。次に、図７を参照して以下でさらに詳細に説明するモデルグラフの
ハードコピーを、変換された画像の上の、変化するモデルノード位置に位置決め
し、最適類似度の位置を発見する（ブロック４６）。最適類似度の探索は、モデ
ルグラフを画像の左上隅に位置決めし、ノードにあるジェットを抽出し、画像グ
ラフとモデルグラフとの間の類似度を求めることによって行なうことができる。
この探索は、モデルグラフを、画像の左上隅から始めて左から右へとスライドさ
せることによって続けられる（ブロック４８）。顔のおおよその位置がわかると
（ブロック５０）、ノードを個別に動かして弾性グラフ歪みを導入する（ブロッ
ク５２）。うまくマッチングする場所を求めるために、位相の影響を受けない類
似度関数を用いる（ブロック５４）。次に、位相の影響を受ける類似度関数を用
いて、正確にジェットの場所を求める。その理由は、位相がジェットの小さな変
位の影響を大きくうけるからである。位相の影響を受けない類似度関数および位
相の影響を受ける類似度関数については、図５−８を参照して以下で説明する。
なお、図４では当初の画像に関するグラフが示されているが、モデルグラフの移
動およびマッチングは、実際には変換された画像に対して行なわれる。

【００１４】ウェーブレット変換について図５を参照して説明する。当初の画像をガボール
ウェーブレットを用いて処理すると畳込みの結果が生じる。ガボールに基づくウ
ェーブレットは、ガウスエンベロープにより変調された２次元の複合波フィール
ドからなる。

【００１５】

【数１】

【００１６】ウェーブレットは、ガウス窓により制限される、波数ベクトルｋ→（記号→は
本来ｋの上に示されるものである。以下の表記も同様。）の平面波であり、波長
に対するその大きさは、σによりパラメータ化される。括弧内の項はＤＣ成分を
除去する。波数ベクトルｋの振幅は以下のようにして選択できる。式中νは所望
の空間解像度に関連する。

【００１７】

【数２】

【００１８】典型的には、波数ベクトルｋ→の空間を、解像度レベルが５（２分の１オクタ
ーブずつ異なる）および各解像度レベルでの配向が８の離散階層構造において（
例として図８参照）サンプリングすることにより、サンプリングされた画像ポイ
ント各々に対し４０の複素値を生成する。（実成分および虚成分は平面波の正弦
および余弦相を指す。）ｋ−空間におけるサンプルは、インデックスｊ＝１、…
、４０で指定され、１つの画像ポイントを中心とするすべてのウェーブレット成
分は、図６に示すジェット６０と呼ばれるベクトルとみなされる。各ジェットは
、ｘ→を囲む領域の局所的な特徴を記述する。サンプリングの際の密度が十分で
あれば、画像を、サンプリングされた周波数によりカバーされる帯域内のジェッ
トから再構成できる。このように、あるジェットの各成分は、画像のポイント（
ｘ，ｙ）で抽出されたガボールウェーブレットのフィルタ応答である。

【００１９】図６に示す６２で示した画像グラフを用いて物体の外観を記述する（このコン
テクストでは顔）。この番号で示されたグラフのノード６４は、物体上のポイン
トを指し、ジェット６０として示される。グラフのエッジ６６は、ノード間の距
離ベクトルで示される。ノードおよびエッジはグラフトポロジーを定める。トポ
ロジーが等しいグラフを比較することができる。２つのジェットの絶対成分の正
規化ドット積が、ジェット類似度を定める。この値はコンラストの変化と無関係
である。２つのグラフ間の類似度を計算するために、グラフ間の対応するジェッ
トの類似度に対して和を取り入れる。

【００２０】画像において人間の顔を発見するために具体的に指定されるモデルグラフ６８
を図７に示す。グラフにおいて数字がつけられたノードは以下のロケーションを
有する。

【００２１】０右の瞳１左の瞳２鼻の上端３右眉の右隅４右眉の左隅５左眉の右隅６左眉の左隅７右の鼻孔８鼻尖９左の鼻孔１０口の右隅１１上唇の中心１２口の左隅１３下唇の中心１４右耳の下部１５右耳の上部１６左耳の上部１７左耳の下部顔を表わすために、バンチグラフ７０（図６）と呼ばれるデータ構造を用いる。
これは上記のグラフと似ているが、各ノードに対しジェットを１つだけ設ける代
わりに、ジェットのバンチ（束）全体７２（バンチジェット）を各ノードに設け
る。各ジェットは異なる顔の画像から得られる。バンチグラフを形成するために
、顔の画像のコレクション（バンチグラフギャラリー）を、頭の規定された位置
のノードロケーションでマークする。この規定された位置はランドマークと呼ば
れる。バンチグラフと画像とのマッチングの際、画像から抽出されたジェットを
、バンチグラフに添付された対応するバンチにおけるすべてのジェットと比較し
、最もよくマッチングしているもの１つを選択する。このマッチングプロセスは
、弾性バンチグラフマッチングと呼ばれる。バンチグラフは、慎重に選択したギ
ャラリーを用いて構成されると、局所的性質が大きく異なる多岐にわたる顔、た
とえば、男性および女性の顔のサンプルならびに年齢または人種の異なる人々の
サンプルをカバーする。

【００２２】再び、画像における顔を発見するために、グラフが最もよくマッチングしてい
る場所が見つかるまで、グラフを移動させ、スケーリングし、歪ませる（バンチ
ジェット内で最も適合するジェットは、ノードの現在の位置で画像から抽出され
たジェットに最も類似する）。顔の特徴は顔ごとに異なるため、グラフはこのタ
スクに対してより一般的に作成される。たとえば、各ノードには、１０から１０
０の個々の顔から取り入れた、対応するランドマークのジェットが割当てられる
。

【００２３】異なるまたは相補的でさえある２つのタスクに対して異なる２つのジェット類
似度関数が用いられる。ジェットＪ→の成分が振幅および位相ψ_jを用いた形式
で書かれる場合、２つのジェットＪ→およびＪ′→の類似度に対する一方の形式
は、以下のような、振幅ベクトルの正規化されたスカラ積である。

【００２４】

【数３】

【００２５】この関数は、２つのジェットが指す画像ポイント間の相対移動ベクトルを含む。
グラフマッチング中に２つのジェットを比較するとき、これらの類似度をｄに関
して最大化し、ジェット位置の正確な判断を行なう。双方の類似度関数を用いる
が、最初にグラフのマッチングを行なうときには位相の影響を受けない方（これ
は相対的位置とともに滑らかに変化する）が好まれることが多く、ジェットを正
確に位置決めするときには位相の影響を受ける方が好まれることが多い。

【００２６】顔の特徴の位置を発見した後、顔の特徴を、図９に示すように連続フレームに
わたって追跡する。本発明の追跡技術により、ある特徴またはノードの追跡に失
敗したかどうかを検出しそのノードに対する追跡プロセスを再初期化する追跡修
正方法を用いることによって、長いフレームシーケンスにわたって強力な追跡を
行なうことができる。

【００２７】画像シーケンスの画像Ｉ＿ｎにおける１つのノードの位置Ｘ＿ｎは、上記のラ
ンドマーク発見方法（ブロック８０）を用いて画像Ｉ＿ｎでランドマークを発見
する、または、追跡プロセスを用いて画像Ｉ＿（ｎ−１）からＩ＿ｎへとノード
を追跡することによりわかる。次にこのノードを、いくつかの技術のうち１つに
よって、画像Ｉ＿（ｎ＋１）における対応する位置Ｘ＿（ｎ＋１）まで追跡する
（ブロック８２）。以下で説明する追跡法により、有利に高速な動きに対処する
ことができる。

【００２８】第１の追跡技術は線形動き予測を含む。新規の画像Ｉ＿（ｎ＋１）における対
応するノード位置Ｘ＿（ｎ＋１）に対する探索は、動き予測子により発生した位
置で開始される。速度が一定であると仮定して、先行する２つのフレーム間での
ノードの変位を表わすディスパリティベクトル（Ｘ＿ｎ−Ｘ＿（ｎ−１））を計
算する。ディスパリティまたは変位ベクトルＤ＿ｎを位置Ｘ＿ｎに加算して、ノ
ード位置Ｘ＿（ｎ＋１）を予測することができる。この線形動きモデルは、一定
速度の動きに対処するのに特に好都合である。線形動きモデルはまた、追跡され
ている物体の加速度と比較してフレームレートが高い場合に優れた追跡をもたら
す。しかしながら、フレームレートが画像シーケンスにおける物体の加速度と比
較して低すぎれば、線形動きモデルの性能は低い。動きモデルがこういった条件
下で物体を追跡するのは困難であるため、フレームレートのより高いカメラを用
いることが推奨される。

【００２９】線形動きモデルが発生する推定動きベクトルＤ＿ｎが大きすぎると、動き予測
における誤差の累積につながり得る。したがって、線形予測を減衰定数ｆ＿Ｄを
用いて減衰することができる。結果として得られる、予測された動きベクトルは
、Ｄ＿ｎ＝ｆ＿Ｄ＊（Ｘ＿ｎ−Ｘ＿（ｎ−１））である。適切な減衰定数は０．
９である。先行するフレームＩ＿（ｎ−１）がない場合、たとえば、ランドマー
ク発見直後のフレームに対し、予測される動きベクトルは０と等しくなるように
設定される（Ｄ＿ｎ＝０）。

【００３０】１次元に適用される、ガウス画像ピラミッドに基づく追跡技術は図１０に示さ
れる。当初の画像解像度を用いる代わりに、画像を２から４倍にダウンサンプリ
ングして画像のガウスピラミッドを作成する。４レベルの画像ピラミッドは、結
果として、最も粗いレベルにおいて３画素のみとして表わされている最も精細な
当初の解像度レベルに対し２４画素の距離をもたらす。ピラミッドのいずれかの
レベルでジェットを計算および比較することができる。

【００３１】一般的に、ガウス画像ピラミッドにおけるノードの追跡は、最初に最も粗いレ
ベルで行ない次に最も精細なレベルに移る。ジェットは、上記のように減衰され
た線形動き予測Ｘ＿（ｎ＋１）＝（Ｘ＿ｎ＋Ｄ＿ｎ）を用いて、位置Ｘ＿（ｎ＋
１）の実際の画像フレームＩ＿（ｎ＋１）の最も粗いガウスレベルで抽出され、
先行する画像フレームの最も粗いガウスレベルで計算した対応するジェットと比
較される。これらの２つのジェットから、ディスパリティを求める、すなわちＸ
＿（ｎ＋１）から、先行するフレームからのジェットに最もよく対応する位置ま
でを指し示す２次元ベクトルを求める。この新しい位置がＸ＿（ｎ＋１）に割当
てられる。このディスパリティ計算については、以下でさらに詳細に説明する。
最も粗いガウスレベルの位置Ｘ＿（ｎ＋１）に対応する、実際の画像（２＊Ｘ＿
（ｎ＋１）である）の次に精細なガウスレベルの位置が、この次に精細なレベル
のディスパリティ計算についての開始点である。この点で抽出されたジェットは
、先行する画像フレームの同じガウスレベルについて計算された対応するジェッ
トと比較される。このプロセスは、最も精細な解像度レベルに達するまで、また
は、先行する画像の位置に対応するノードの位置を求めるのに特定されたガウス
レベルに達するまで、すべてのガウスレベルに対して繰返される。

【００３２】ガウス画像ピラミッドの代表的な２つのレベルが図１０に示されており、粗い
方のレベル９４は上であり、精細な方のレベル９６は下である。各ジェットは２
つの周波数レベルに対するフィルタ応答を有すると仮定される。粗い方のガウス
レベルの位置Ｘ＿（ｎ＋１）＝Ｘ＿ｎ＋Ｄ＿ｎで始めて、最低周波数ジェット係
数のみを用いた第１のディスパリティ移動により位置２に至る。双方の周波数レ
ベルのすべてのジェット係数を用いた第２のディスパリティ移動により位置３に
至り、これはこのガウスレベルの最終位置である。精細な方のガウスレベルの位
置１は、座標が２倍の粗い方のレベルの位置３に対応する。ディスパリティ移動
シーケンスは繰返され、最も精細なガウスレベルの位置３が、追跡されたランド
マークの最終位置である。追跡をより正確にするために、ガウスおよび周波数レ
ベルの数を増やしてもよい。

【００３３】実際の画像フレームにおいて追跡されたノードの新規の位置を求めた後、すべ
のガウスレベルにおけるジェットをこの位置で計算する。追跡されたノードを表
わす、先行するフレームに対して計算されたジェットの記憶されたアレイを、現
在のフレームに対して計算されたジェットの新規のアレイと置き換える。

【００３４】ガウス画像ピラミッドを用いることには２つの主要な利点がある。第１に、粗
い方のレベルにおける画素に関しノードの移動が当初の画像におけるものよりも
遥かに小さく、これによって、大きな画像領域において徹底的に探索を行なう代
わりに局所的な移動のみを行なうことによって追跡が可能になる。第２に、ジェ
ット成分の計算が低周波数に対して非常に速い。なぜなら、この計算は、当初の
解像度の画像の大きなカーネルウィンドウに対してではなく、ダウンサンプリン
グされた画像の小さなカーネルウィンドウを用いて行なわれるからである。

【００３５】なお、対応レベルは動的に選択してもよい。たとえば、顔の特徴の追跡の場合
、対応レベルを顔の実際の大きさに依存して選択してもよい。ガウス画像ピラミ
ッドの大きさも、追跡プロセスを通して変更できる。すなわち、この大きさを動
きが速くなったときに大きくし動きが遅くなったときに小さくできる。典型的に
は、最も粗いガウスレベルの最大ノード移動は４画素に制限される。なお、動き
予測は最も粗いレベルで行なわれることが多い。

【００３６】同じガウスレベルの所与の２つのジェット間の移動ベクトル（ディスパリティ
ベクトル）の計算について次に説明する。連続する２つのフレーム間の変位を計
算するために用いるある方法は、本来、D. J. FleetおよびA. D. Jepson, Compu
tation of component image velocity from local phase information, Interna
tional Journal of Computer Vision, volume 5, issue 1, pages 77-104, 1990
、ならびに、W. M. TheimerおよびH. A. Mallot, Phase-based binocular verge
nce control and depth reconstruction using active vision, CVGIP: Image U
nderstanding, volume 60, issue 3, pages 343-358, November 1994に基づき、
ステレオ画像におけるディスパリティ推定に対して開発されたものである。

【００３７】複合フィルタ応答の位相の強い変化を用いてサブピクセル精度で変位を明確に
計算する（Wiskott, L.,“Labeled Graphs and Dynamic Link Matching for Fac
e Recognition and Scene Analysis”, Verlag Harri Deutsch, Thun-Frankfurt
am Main, Reihe Physik 53 (PhD thesis, 1995)）。振幅ａ_jおよび位相ｊに関
しｊ番目のガボールフィルタへの応答Ｊを書くことにより、類似度関数を以下の
ように定めることができる。

【００３８】

【数４】

【００３９】ＪおよびＪ′を位置ＸおよびＸ′＝Ｘ＋ｄの２つのジェットとすると、変位ｄは
、ｄに関する類似度Ｓを最大化することによって発見でき、ｋ_jはＪ_jを発生する
フィルタと関連する波数ベクトルである。ｄの推定は、小さな変位、すなわちガ
ボールジェットの大きな重なりのみに対して正確であるため、大きな移動ベクト
ルは第１の推定のみとして扱われ、このプロセスは以下の態様で繰返される。最
初に、最も周波数レベルの低いフィルタ応答のみを用いて第１の推定ｄ＿１が生
まれる。次に、この推定を実行し、ジェットＪをジェットＪ′の位置Ｘ′により
近い位置Ｘ＿１＝Ｘ＋ｄ＿１で再計算する。次に、２つの最も低い周波数レベル
を変位ｄ＿２の推定のために用い、ジェットＪを位置Ｘ＿２＝Ｘ＿１＋ｄ＿２で
再計算する。これは、用いた最大周波数レベルに達するまで反復され、２つの開
始ジェットＪおよびＪ′間の最終ディスパリティｄが、ｄ＝ｄ＿１＋ｄ＿２＋…
として与えられる。このようにして、最低周波数のカーネルの波長の半分まで変
位を計算することができる（先のWiskott、1995参照）。

【００４０】変位は浮動小数点数を用いて求めているが、ジェットを（整数）画素位置のみ
で抽出してもよい（すなわち畳込みによって計算してもよい）。その結果、シス
テム的な丸め誤差が生まれる。このサブピクセル誤差Δｄを補償するために、複
合ガボールフィルタ応答の位相を以下に従いシフトする必要がある。

【００４１】

【数５】

【００４２】こうすれば、ジェットは、あたかも正しいサブピクセル位置で抽出されたかのよ
うに見えるであろう。このように、ガボールジェットを、さらなる丸め誤差を考
慮せずに、サブピクセル精度で追跡できる。なお、ガボールジェットは画像処理
において実質的な利点をもたらす。その理由は、サブピクセル精度の問題は他の
ほとんどの画像処理方法において対処がより困難なためである。

【００４３】追跡誤差は、信頼度または類似度の値が予め定められたしきい値よりも小さい
かどうかを判断することによって検出できる（図９のブロック８４）。類似度（
または信頼度）の値Ｓを計算して、２つの画像フレームにおける２つの画像領域
がいかにうまく対応しているかを、連続する画像フレーム間のノードの変位の計
算と同時に、示すことができる。典型的には、信頼度の値が１に近いことは、対
応度の高いことを示す。信頼度の値が１に近くなければ、画像において対応する
ポイントが発見されていないか（たとえばフレームレートが動いている物体の速
度と比較して低すぎるため）、または、この画像領域があるフレームから次のフ
レームへとあまりにも大幅に変化しているため対応性をうまく定めることができ
ないかである（たとえば瞳を追跡するノードに対し瞳が閉じられる）。信頼度の
値があるしきい値よりも低いノードはスイッチオフされる。

【００４４】何らかの幾何学的制約が侵害されたときにも追跡誤差が検出される（ブロック
８６）。同時に多くのノードが追跡される場合、ノードの幾何学的構成が一致し
ているかどうかについて検査される。このような幾何学的制約はかなり緩やかで
よい。たとえば、顔の特徴を追跡するとき鼻は目と口との間になければならない
といったことである。代わりに、こういった幾何学的制約はかなり厳しいもので
もよい。たとえば、追跡される顔の正確な形状情報を含むモデルといったもので
ある。この中間の精度に対しては、制約は平面モデルに基づくものである。平面
モデルでは、顔グラフのノードは平面にあると仮定される。正面図で始まる画像
シーケンスについては、追跡されるノード位置を、アフィン変換により実際のフ
レームに変換される正面グラフの対応するノード位置と比較することができる。
最適アフィン変換の６つのパラメータが、ノード位置における最小二乗誤差を最
小にすることによって発見される。追跡されたノード位置と変換されたノード位
置との間のずれがしきい値と比較される。しきい値よりもずれの大きいノードは
スイッチオフされる。アフィン変換のパラメータを用いて、姿勢および相対的な
スケール（開始グラフと比較したもの）を同時に求めることができる（ブロック
８８）。このように、この大まかな平面モデルによって、追跡誤差が予め定めら
れたしきい値よりも大きくなることが確実になくなる。

【００４５】追跡されたノードが追跡誤差のためにスイッチオフされた場合、ノードを、異
なる姿勢を含むバンチグラフを有利に用いて正しい位置で再び活性化し（ブロッ
ク９０）、修正された位置から追跡を続行することができる（ブロック９２）。
追跡されたノードがスイッチオフされた後、システムは、姿勢に固有のバンチグ
ラフが存在する予め規定された姿勢に達するまで待ってもよい。それ以外の場合
は、正面のバンチグラフのみが記憶されているならば、システムは、正面の姿勢
に達するまで待って追跡誤差を修正しなければならない。記憶されたジェットの
バンチを適合位置を囲む画像領域と比較してもよい（たとえば平面モデルからの
もの）。これは追跡と同じ態様で作用するが、異なる点は、先行する画像フレー
ムのジェットとの比較の代わりに、比較は例のバンチのジェットすべてについて
繰返され最も似ているものが取込まれることである。顔の特徴はわかっているの
で、たとえば、実際の姿勢、スケールおよび大まかな位置までもわかっているの
で、グラフマッチングまたは画像における徹底的な探索および／または姿勢空間
は不要であり、ノード追跡修正をリアルタイムで行なうことができる。

【００４６】追跡訂正のために、多くの異なる姿勢およびスケールに対するバンチグラフは
不要である。なぜなら、画像面における回転およびスケールは、局所的画像領域
またはバンチグラフのジェットの変換を図１１に示すように行なうことにより、
考慮されているからである。正面の姿勢に加え、深さにおける回転に対してのみ
バンチグラフを作成する必要がある。

【００４７】再初期化プロセスの速度を、画像シーケンス中は追跡される人物のアイデンテ
ィティが同じであるという事実を利用して、高めることができる。したがって、
最初の学習セッションでは、人物の最初のシーケンスに、正面の顔の表情の全レ
パートリーを表わしている人物を与える。この最初のシーケンスを、異なる多く
の人物に関する知識を含む大きな一般化されたバンチグラフに基づき上述の追跡
および訂正方法を用いて、精度高く追跡することができる。このプロセスをオフ
ラインで行ない、個人別にされた新たなバンチグラフを生成することができる。
次に、個人別にされたバンチグラフを用いて、この人物をリアルタイムで高速レ
ートで追跡できる。なぜならば、個人別にされたバンチグラフは一般化された大
きなバンチグラフよりも遥かに小さいからである。

【００４８】再初期化プロセスの速度を、部分バンチグラフ再初期化を利用して高めること
もできる。部分バンチグラフは、全バンチグラフのノードのサブセットのみを含
む。このサブセットの大きさは１つのノードぐらいでしかない。

【００４９】姿勢推定バンチグラフは、画像面において定められる２次元バンチグラフの一
族を利用する。１つの族内の異なるグラフは、頭の、異なる姿勢および／または
スケールを説明する。ランドマーク発見プロセスは、画像における頭の姿勢また
は大きさを求めるために、その族からの各バンチグラフを入力画像とマッチング
させようとする。こうした姿勢推定手順の一例が図１２に示される。この姿勢推
定の第１ステップは、通常のランドマーク発見のものと等しい。画像（ブロック
９８）は、グラフ類似度関数を用いるために、変換される（ブロック１００およ
び１０２）。次に、１つだけではなく、３つのバンチグラフの族を用いる。第１
のバンチグラフは正面の姿勢の顔のみを含み（上記の正面図と等しい）、他の２
つのバンチグラフは４分の１だけ回転させた顔を含む（一方が左への回転を表わ
し、他方が右への回転を表わす）。先のように、グラフ各々に対する初期位置は
左上隅にあり、グラフの位置は画像においてスキャンされ、ランドマーク発見後
最も高い類似度を戻す位置およびグラフが選択される（ブロック１０４−１１４
）。

【００５０】各グラフに対する最初のマッチングの後、最終位置の類似度が比較される（ブ
ロック１１６）。画像において与えられた姿勢に最もよく対応しているグラフは
類似度が最も高い。図１２において、左に回転させたグラフは、類似度によって
示されるように最もよく適合している（ブロック１１８）。像における顔の解像
度および回転の角度に応じて、正しいグラフおよび他の姿勢に対するグラフの類
似度は、変化し、グラフを規定した２つの姿勢間のおよそ中間に顔があるときに
、非常に近くなる。より多くの姿勢に対してバンチグラフを作成することにより
、姿勢推定手順がより精細になり、これにより、他の方向（たとえば上または下
）への頭の回転およびハンドル回転のより多くの角度が識別される。

【００５１】カメラから任意の距離にある顔を確実に発見するために、同様の方策を用いて
、各々がスケールの異なる２または３の異なるバンチグラフを用いてもよい。画
像における顔は、最高のものを顔の画像に戻すバンチグラフと同じスケールを有
すると仮定される。

【００５２】上記の技術に関連する３次元（３Ｄ）ランドマーク発見技術を用いて、異なる
姿勢に適合させた複数のバンチグラフを用いることもできる。しかしながら、こ
の３次元方策は３次元空間で規定されるバンチグラフ１つのみを用いる。３次元
グラフのジオメトリは、平均的な顔または頭のジオメトリを反映する。回転度数
の異なる数人の人物の顔の画像からジェットを抽出することにより、３次元バン
チグラフを作成する。これは、２次元方策と似ている。次に各ジェットを３つの
回転角度でパラメータ化する。２次元方策のように、ノードは頭の面の基準点に
位置する。次に、３次元グラフの突起をマッチングプロセスで用いる。３次元方
策におけるある重要な一般化は、各ノードに、異なる姿勢に適合するバンチジェ
ットのパラメータ化された族を設けることである。第２の一般化は、グラフが画
像面での変換のみではなく３次元空間でユークリッド変換されることである。

【００５３】グラフマッチングプロセスは、粗から精への方策として定めることができる。
ここでは初めにノードおよびカーネルの少ないグラフを用い、次に後続のステッ
プではより密度の高いグラフを利用する。粗から精への方策は、顔のある領域に
おける特徴ポイントの高精度の局所化が所望される場合に特に適している。この
ように、階層的方策を採用することによって、計算上の手間を省く。ここでは、
最初に粗い解像度についてランドマーク発見を行ない、次に、適合したグラフを
より高い解像度で検査して、ある領域をより精細に解析する。

【００５４】さらに、計算上の作業負荷を、マルチプロセッサマシンで簡単に分割できる。
こうすれば一旦粗い領域が発見されると、少数の子プロセスが並列に、各々が画
像全体のうちそれ自身の部分に対して作業を開始する。子プロセスの最後に、こ
れらプロセスはそれらが位置する特徴座標をマスタプロセスに送り、マスタプロ
セスは適切にこれらをスケーリングおよび組合せて当初の画像に適合するように
し、こうして計算の総時間が大幅に短縮する。

【００５５】図１３に示すように、ノードに対応する顔の特徴を分類して、たとえば瞬きや
口の開きといった不適切な追跡誤差の表示に対応することができる。顔の特徴に
対応する、バンチグラフにおける異なるジェットに、たとえば目が開いている／
閉じている、口が開いている／閉じているなどの、ラベルを添付する。このラベ
ルを、現在の画像と比較して最も類似している、バンチグラフにおける対応する
ジェットとともに、コピーする。追跡誤差が検出されたかどうかにかかわらず、
ラベル追跡を連続してモニタする。このようにして、以下について、分類ノード
が追跡されたノードに添付される。

【００５６】目が開いている／閉じている。口が開いている／閉じている。

【００５７】舌が見えているまたは見えていない。紙の種類の分類。

【００５８】皺の検出（たとえば額の皺）。このように、追跡により２つの情報源を利用できる。一方の情報源は特徴の場
所すなわちノード位置に基づき、他方の情報源は特徴分類に基づく。特徴分類情
報は、テクスチャに一層基づいており、局所的画像領域を１組の記憶された例と
比較することにより、ノード位置のみに基づく特徴分類情報よりも、低い解像度
および追跡精度で機能し得る。

【００５９】本発明の顔検知は、図１４に示すように、静的および動的な、人間の姿を与え
たものの、作成および動画化に適用できる。この人間の姿を与えたものは、一般
的な顔のモデルに基づく、または、ある人物に固有の顔のモデルに基づく。追跡
および顔の表情の認識を利用して、その人物の特徴を有するようにこの人間の姿
を与えたものを具体化できる。

【００６０】一般的な顔のモデルを、代表的な数の個人に適合させ、写実的な動画化を行な
い、広範囲にまたがる顔の特徴および／または表情を与えることができる。一般
的なモデルは以下の技術によって得ることができる。

【００６１】１．モノカメラシステムを用いて（T. Akimoto他、１９９３）、低価格のテレ
イマージョンシステムにおいて用いるために、実物に似た、人間の姿を与えたも
のを作成する。サジタル平面および頭頂面から見た、個人の横顔情報を併合して
、人間の姿を与えたものを得る。

【００６２】２．ステレオカメラシステムは、カメラを十分に校正した場合（カメラパラメ
ータは校正プロセスを通して計算される）、正確な３次元測定を行なうことがで
きる。次に、個々の顔のモデルは、一般的な顔のモデルを、得られた３次元デー
タに適合させることによって得ることができる。ステレオアルゴリズムは非テク
スチャ領域に対する正確な情報を与えないので、活性テクスチャ光の投射を利用
する。

【００６３】３．個々の顔に対してマーカを用いる、特徴に基づくステレオ技術によって、
マーカの正確な３次元位置を計算する。次に３次元情報を用いて一般的なモデル
に適合させる。

【００６４】４．センサまたは位置発見装置が、測定される各平面の点に対して動かされる
、３次元デジタイザ。

【００６５】５．パターンが投影され、結果として得られるビデオストリームを処理して３
次元測定値を抽出するアクティブ構成光。

【００６６】６．正確な顔測定値をもたらす、レーザに基づいた表面スキャン装置（Cyberw
are, Incが開発するもののようなもの）。

【００６７】７．以前の技術の組合せこうした異なる技術はユーザにとって等しく好都合ではない。１回のプロセス
で個人の測定値を得ることができるものもあれば（顔は測定期間中所望の姿勢を
とっている）。一方で、サンプルの収集が必要であり使用するのに面倒なものも
ある。

【００６８】特定の人物に対する一般的な３次元頭モデルを、正面および側面を示す２つの
顔の画像を用いて生成できる。顔の検知により、３次元頭モデルを効率的かつ強
力に生成できる。

【００６９】顔の輪郭の抽出は、人物の目、鼻、口および頬の局所化とともに行なわれる。
図１４に示すように、この特徴局所情報は、弾性バンチグラフ技術を階層的マッ
チングとともに用いて、自動的に顔の特徴を抽出することにより得ることができ
る。次に、特徴場所情報を組合せ（T. AkimotoおよびY. Suenaga, Automatic Cr
eation of 3D Facial Models, IEEE Computer Graphics & Applications, Pages
16-22, September 1993参照）、人物の頭の３次元モデルを生成する。一般的な
３次元頭モデルを適合させて、そのプロポーションが画像の測定値と関連するよ
うにする。最後に、側面および正面の画像を組合せ、人間の姿を与えたものに対
しよりよいテクスチャモデルを得る、すなわち、正面図を用いてモデルの正面を
テクスチャマッピングし、側面図をモデルの側面に対して用いる。顔の検知によ
りこの技術が向上する。なぜなら抽出された特徴をラベルづけし（既知のポイン
トは横顔において定められる）、２つの画像が同時に取込まれないようにするか
らである。

【００７０】人間の姿を与えたものの画像は、以下の一般的な技術によって動画化できる（
F.I.ParkeおよびK.Waters, Computer Facial Animation, A K Peters, Ltd., We
llesley, Massachusetts, 1996）。

【００７１】１．キーフレーミングおよび幾何内挿。多数の重要な姿勢および表情を規定す
る。次に幾何内挿をキーフレーム間で用いて動画化を行なう。このようなシステ
ムは、性能に基づく（または性能により駆動される）モデルと呼ばれることが多
い。

【００７２】２．直接パラメータ化。これは表情および姿勢を１組のパラメータに直接マッ
ピングし次にこれを用いてモデルを駆動する。

【００７３】３．幾何学的変形を用いて筋肉動作をシミュレートする擬似筋肉モデル。４．筋肉および皮膚を物理的モデルを用いてモデル化する、筋肉に基づくモデ
ル。

【００７４】５．２次元および３次元モーフィング。これは、ビデオストリームにおける画
像間で２次元モーフィングを用い、２次元動画を生成する。１組のランドマーク
を識別しこれを用いてシーケンスの２つの画像間のワープを行なう。このような
技術は３次元に拡張できる（F.F.Pighin, J.Hecker, D.Lischinski, R.Szeliski
,D.H.Salesin, Synthesizing Realistic Facial Expression from Photographs,
SIGGRAPH 98 Conference Proceedings, pages 75-84, July 1998参照）。

【００７５】６．制御ポイントおよび有限要素モデルといった他の方策。これらの技術に対し、顔検知は、顔の特徴の自動抽出および特徴化によって、
動画化プロセスを向上させる。抽出された特徴を用いて、キーフレーミングおよ
び内挿モデルの場合は表情を内挿し、または、直接パラメータ化モデルまたは擬
似筋肉または筋肉モデルの場合はパラメータを選択できる。２次元および３次元
モーフィングの場合は、顔検知を用いて、自動的に顔の特徴を選択し、幾何学的
変換を行なうのに適切な情報を与える。

【００７６】顔の特徴の追跡および分類を利用した、人間の姿を与えたものの動画化の例は
、図１５に関連付けて示される。訓練相の間、個人は、一連の予め定められた顔
の表情をするようにされる（ブロック１２０）。検知を用いて特徴を追跡する（
ブロック１２２）。予め定められた場所で、ジェットおよび画像パッチを種々の
表情に対して抽出する（ブロック１２４）。顔の特徴を囲む画像パッチは、これ
らの特徴から抽出したジェット１２６とともに集められる。これらのジェットを
後で用いて、顔の特徴１２８を分類またはタグづけする。これは、これらのジェ
ットを用いて、個人別のバンチグラフを生成し、上記のような分類法を適用する
ことによって、行なわれる。

【００７７】図１６に示すように、人間の姿を与えたものを動画化するために、このシステ
ムは、すべての画像パッチ１２８とともに、顔全体１３０（「顔フレーム」）の
画像から画像パッチにおいて示された部分をマイナスしたものを、遠隔場所に送
る（ブロック１３２および１３４）。動画化エンジンのためのソフトウェアも送
る必要がある。次に、検知システムは、ユーザの顔を観察して、顔の検知を適用
してどの画像パッチが現在の顔の表情に最も似ているかを判断する（ブロック１
３６および１３８）。画像タグは遠隔場所に送られ（ブロック１４０）、動画化
エンジンが正しい画像パッチを用いて顔１４２を組立てることができるようにす
る。

【００７８】画像パッチをスムーズに画像フレームに適合させるために、ガウスぼかしを用
いることができる。写実的にするためには、局所画像モーフィングが必要である
。なぜなら、動画は、画像の連続が検知によって与えられた通りに現れるという
意味において、不連続かもしれないからである。モーフィングは、画像空間にお
いて対応するポイントの線形内挿を用いて実現される。中間画像を作成するため
に、以下の等式を用いて線形内挿を適用する。

【００７９】Ｐ_i＝（２−ｉ）Ｐ₁＋（ｉ−１）Ｐ₂ （７）Ｉ_i＝（２−ｉ）Ｉ₁＋（ｉ−１）Ｉ₂ （８）式中、Ｐ₁およびＰ₂は画像Ｉ₁およびＩ₂において対応するポイントであり、Ｉ_i
はｉ番目に内挿された画像で、１(ｉ(２である。なお、プロセス効率のために、
画像内挿を、予め計算したＰ_iおよびＩ_iに対するハッシュ表を用いて実現できる
。用いるポイントの数および精度、それらの正確度、ならびに内挿された顔のモ
デルが、一般的に、結果として得られる画像の品質を決定する。

【００８０】このように、遠隔ディスプレイにおいて再構成された顔は、学習ステップにお
いて検出された表情に対応する画像の部分を集めることによって作成できる。し
たがって、こうして人間の姿を与えたものは、動画化を命令する人物に対応する
特徴を示している。したがって、初期化時、１組のクロッピングされた画像は、
追跡された顔の各特徴、および、結果として得られる、各特徴が除去された後の
画像としての「顔コンテナ」に対応する。動画化が開始され、前述のように、顔
の検知を用いて、送られる特定のタグを生成する。送られたタグと関連する画像
部分を選択することによりデコードが生じる。たとえば、「笑っている口」とい
うタグ１４６（図１６）でラベルづけられた口の画像である。

【００８１】上記のような動的テクスチャ生成を、図１７に示すようなボリュームモーフィ
ングの従来技術と統合した場合に、より進んだレベルで、人間の姿を与えたもの
を動画化できる。ボリュームモーフィングを行なうために、ノード位置のロケー
ションを用いてメッシュ１５０の制御ポイントを駆動する。次に、タグを用いて
動的に生成されたテクスチャ１５２をメッシュにマッピングし、実物に似た頭の
画像１５４を生成する。検知されたノード位置をメッシュの制御ポイントのドラ
イバとして用いる代わりに、タグを用いて局所的モーフィングターゲットを選択
する。モーフィングターゲットは、サンプルジェットを収集した対象の、顔の異
なる表情およびジェスチャに対して求められた、局所的メッシュ構成である。局
所的メッシュジオメトリはステレオ視覚技術によって求めることができる。モー
フィングターゲットの使用はさらに、以下の関連団体によって開発されている。
（J.R.Kent, W.E.Carlson, R.E.Parent, Shape Transformation for Polyhedral
Objects, SIGGRAPH 92 Conference Proceeding, volume 26, pages 47-54, Aug
ust 1992, Pighin et al, 1998参照）。

【００８２】視覚に基づき人間の姿を与えたものを動画化することに役立つ拡張は、図１８
に示すように正しい唇の動きを合成するために顔の検知を音声解析と統合するこ
とである。リップシンク技術は特に、音声の結果として現われる唇の動きを、人
物の姿を与えたものにマッピングするのに役立つ。これはまた、視覚に基づく唇
の追跡に失敗した場合のバックアップとしても役立つ。

【００８３】上記は本発明の好ましい実施例を開示しているが、当業者であれば本発明の範
囲から逸脱することなく好ましい実施例を種々に変形できることが理解される。
本発明は前掲の特許請求の範囲によってのみ規定される。

【図面の簡単な説明】

【図１】本発明に従う、人間の姿を与えたものを動画化するシステムおよ
びプロセスのブロック図である。

【図２】図１の人間の姿を与えたものを動画化するシステムおよびプロセ
スのための、本発明に従う顔の特徴検知装置およびプロセスのブロック図である
。

【図３】図２の顔の特徴検知装置を実現するためのビデオ画像プロセッサ
のブロック図である。

【図４】図２の顔の特徴検知装置およびシステムのランドマーク発見技術
を示すためのフロー図に写真を添付したものである。

【図５】本発明に従う、ガボールウェーブレットを用いた顔の画像の処理
を示す一連の画像である。

【図６】本発明に従う、図５のウェーブレット処理技術を用いた、ジェッ
ト、画像グラフおよびバンチグラフの構成を示す、一連のグラフである。

【図７】顔の画像を処理するための、本発明に従うモデルグラフの図であ
る。

【図８】顔の特徴の場所を求めるためのウェーブレット処理の使用を示す
２つの図を含む。

【図９】図４のランドマーク発見技術により発見されるランドマークを追
跡するための追跡技術を示すフロー図である。

【図１０】１次元でのランドマーク追跡を示すためのガウス画像ピラミッ
ド技術の図である。

【図１１】２つの顔の一連の画像に、５０の一連の画像フレームにわたる
顔の特徴の追跡を示した姿勢の角度対フレーム数のグラフを添付したものである
。

【図１２】図２の顔の特徴検知装置およびシステムの姿勢推定技術を示す
フロー図に写真を添付したものである。

【図１３】粗から精へのランドマーク発見技術を示すための、顔を抽出さ
れた目および口領域とともに示す概略図である。

【図１４】図６の弾性バンチグラフ技術を用いた横顔および顔の特徴の抽
出を示す写真である。

【図１５】本発明に従う、タグづけされ個別化されたバンチグラフの生成
を示すフロー図とともに、人間の姿を与えたものの動画化のための、人物の種々
の表情を含む対応の画像パッチのギャラリーを示したものである。

【図１６】遠隔場所に送られる画像パッチを用いて人間の姿を与えたもの
を動画化するための技術を示すフロー図であり、この画像パッチは、人物の現在
の顔の表情に関連した顔の検知に基づき、送られたタグに基づいて、遠隔場所で
選択される。

【図１７】顔の特徴の位置およびタグに基づき、動的テクスチャ生成と統
合されたボリュームモーフィングを用いて生成された、３次元の頭の画像を与え
ることを示す、フロー図である。

【図１８】本発明に従う、人間の姿を与えたものを動画化するシステムの
ブロック図であり、人間の姿を与えたものの動画化のためのオーディオ解析を含
む。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年５月１６日（２０００．５．１６）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者エラジン，イゴー・バレリビッチアメリカ合衆国、90007 カリフォルニア州、ロス・アンジェルス、セベランス・ストリート、2636、ナンバー・エイ (72)発明者ノセラ，ルシアノ・パスクゥアレ・アゴスティーノアメリカ合衆国、90025 カリフォルニア州、ロス・アンジェルス、サウス・ウェストゲート・アベニュ、1230、ユニット・エフ (72)発明者ステファンズ，ヨハネス・バーナードアメリカ合衆国、90230 カリフォルニア州、カルバー・シティ、グリーン・バレー・サークル、6420、ナンバー・207 (72)発明者ネベン，ハルトムットアメリカ合衆国、90405 カリフォルニア州、サンタ・モニカ、トゥエンティエイス・ストリート、2336、ナンバー・イーＦターム(参考） 5L096 AA06 AA09 BA08 BA18 CA04 EA03 EA17 FA26 FA67 FA73 GA19 HA04 HA08 JA03 JA14 JA18 KA07 KA15

Claims

【特許請求の範囲】

【請求項１】画像フレームのシーケンスに対する特徴検知のための方法で
あって、ウェーブレット変換を用いて各画像フレームを変換し、変換された画像フレー
ムを生成するためのステップと、モデルグラフのウェーブレットジェットに関連するノードロケーションを、前
記モデルグラフを前記変換された画像フレームを横切るように動かし、前記モデ
ルグラフを、前記ノードロケーションのウェーブレットジェットと前記変換され
た画像フレームとの間のジェット類似度が最大である、前記変換された画像フレ
ームにおけるロケーションに配置することにより、前記変換された画像フレーム
へ初期化するためのステップと、画像フレーム間で前記モデルグラフの１以上のノードロケーションのロケーシ
ョンを追跡するためのステップと、追跡されたノードを、前記ノードの位置が画像フレーム間の予め定められた位
置制約を超えてずれた場合に、再初期化するためのステップとを含む、特徴検知
のための方法。
【請求項２】前記初期化するステップにおいて用いられる前記モデルグラ
フは、予め定められた姿勢に基づく、請求項１に記載の特徴検知のための方法。
【請求項３】前記追跡するステップは、弾性バンチグラフマッチングを用
いてノードロケーションを追跡する、請求項１に記載の特徴検知のための方法。
【請求項４】前記追跡するステップは、線形位置予測を用いて後続の画像
フレームのノードロケーションを予測し、前記再初期化するステップは、前記予
測されたノードロケーションからの、予め定められたしきい値ずれよりも大きな
ずれに基づき、ノードロケーションを再初期化する、請求項１に記載の特徴検知
のための方法。
【請求項５】前記予め定められた位置制約は、ノードロケーション間の相
対的位置に関する幾何学的位置制約に基づく、請求項１に記載の特徴検知のため
の方法。
【請求項６】前記ノードロケーションは、人間の姿を与えたものの画像を
動画化するために、遠隔場所に送られる、請求項１に記載の特徴検知のための方
法。
【請求項７】前記追跡するステップは顔の特性を判断することを含む、請
求項１に記載の特徴検知のための方法。
【請求項８】前記ノードロケーションおよび顔の特性を、前記追跡するス
テップにおいて判断された顔の特性に基づく顔の特性を有する、人間の姿を与え
たものの画像を動画化するために、遠隔場所に送ることをさらに含む、請求項７
に記載の特徴検知のための方法。
【請求項９】前記追跡するステップにおいて判断される顔の特性は、口が
開いているか閉じているかということである、請求項７に記載の特徴検知のため
の方法。
【請求項１０】前記追跡するステップにおいて判断される顔の特性は、目
が開いているか閉じているかということである、請求項７に記載の特徴検知のた
めの方法。
【請求項１１】前記追跡するステップにおいて判断される顔の特性は、舌
が口の中で見えているかどうかということである、請求項７に記載の特徴検知の
ための方法。
【請求項１２】前記追跡するステップにおいて判断される顔の特性は、画
像で検出される顔の皺に基づく、請求項７に記載の特徴検知のための方法。
【請求項１３】前記追跡するステップにおいて判断される顔の特性は、髪
の種類に基づく、請求項７に記載の特徴検知のための方法。
【請求項１４】顔の特性各々は、その顔の特性と関連する画像フレームの
画像セグメントを識別する画像タグを用いた訓練により関連づけられる、請求項
７に記載の特徴検知のための方法。
【請求項１５】前記関連する画像タグにより識別される画像セグメントは
、人間の姿を与えたものの画像にモーフィングされる、請求項１４に記載の特徴
検知のための方法。
【請求項１６】前記ノードロケーションおよび特徴タグを用いて、対応す
る画像セグメントを３次元画像にボリュームモーフィングする、請求項１４に記
載の特徴検知のための方法。
【請求項１７】前記モデルグラフは、人間の顔の目立つ特徴に関連する１
８のロケーションノードを含む、請求項７に記載の特徴検知のための方法。
【請求項１８】顔の１８のノードロケーションはそれぞれ、右の瞳と、左の瞳と、鼻の上端と、右眉の右隅と、右眉の左隅と、左眉の左隅と、右の鼻孔と、鼻尖と、左の鼻孔と、口の右隅と、上唇の中心と、口の左隅と、下唇の中心と、右耳の下部と、右耳の上部と、左耳の上部と、左耳の下部とに関連する、請求項１７に記載の特徴検知のための方法。
【請求項１９】前記ノードロケーションを追跡するステップは、オーディ
オ信号に基づくリップシンクを含み、前記オーディオ信号はオーディオ信号を発
生する口のノードロケーションの動きに関連する、請求項１に記載の特徴検知の
ための方法。
【請求項２０】顔の特徴の発見に基づき頭モデルを個別化するための方法
であって、顔の特徴の発見は弾性バンチグラフマッチングに基づく、頭モデルを
個別化するための方法。
【請求項２１】前記マッチングは粗から精への方策を用いて行なわれる、
請求項２０に記載の頭モデルを個別化するための方法。
【請求項２２】画像フレームのシーケンスに対する特徴検知のための装置
であって、ウェーブレット変換を用いて各画像フレームを変換し、変換された画像フレー
ムを生成するための手段と、モデルグラフのウェーブレットジェットに関連するノードロケーションを、前
記モデルグラフを前記変換された画像フレームを横切るように動かし、前記モデ
ルグラフを、前記ノードロケーションのウェーブレットジェットと前記変換され
た画像フレームとの間のジェット類似度が最大である、前記変換された画像フレ
ームにおけるロケーションに配置することにより、前記変換された画像フレーム
へ初期化するための手段と、画像フレーム間で前記モデルグラフの１以上のノードロケーションのロケーシ
ョンを追跡するための手段と、追跡されたノードを、前記ノードの位置が画像フレーム間の予め定められた位
置制約を超えてずれた場合に、再初期化するための手段とを含む、特徴検知のた
めの装置。
【請求項２３】顔の特性を判断するための手段と、前記判断する手段により生成された顔の特性に基づく顔の特性を有する、人間
の姿を与えたものの画像を動画化するための手段とをさらに含む、請求項２２に
記載の特徴検知のための装置。
【請求項２４】前記モデルグラフは、人間の顔の目立つ特徴と関連する１
８のロケーションノードを含む、請求項２３に記載の特徴検知のための装置。
【請求項２５】人間の顔の目立つ特徴と関連する１８のロケーションノー
ドを含む、顔の画像解析のためのモデルグラフ。
【請求項２６】前記顔の１８のノードロケーションはそれぞれ、右の瞳と、左の瞳と、鼻の上端と、右眉の右隅と、右眉の左隅と、左眉の左隅と、右の鼻孔と、鼻尖と、左の鼻孔と、口の右隅と、上唇の中心と、口の左隅と、下唇の中心と、右耳の下部と、右耳の上部と、左耳の上部と、左耳の下部とに関連する、請求項２５に記載の顔の画像解析のためのモデルグ
ラフ。