JPH04281688A

JPH04281688A - ３次元対象物のトラッキング方法及び装置

Info

Publication number: JPH04281688A
Application number: JP3227533A
Authority: JP
Inventors: Timothy I P Trew; ティモシィ　イアン　パターソン　トゥリュー; Gabriele C Seeling; ガブリエル　カロラ　シーリング
Original assignee: Philips Gloeilampenfabrieken NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1990-09-07
Filing date: 1991-09-07
Publication date: 1992-10-07
Anticipated expiration: 2016-09-10
Also published as: US5625715A; DE69132156D1; EP0474307A3; US5280530A; DE69132156T2; EP0474307A2; JP3207461B2; EP0474307B1; GB9019538D0

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一連の２次元画像フレ
ームとして捕獲される被写体中の動３次元対象物のトラ
ッキング方法及び装置に関するものである。本発明は、
医療、工業オートメーション、検査、ＣＤ−Ｉ（コンパ
クト　　ディスクインターアクティブ）オーサリング、
ディスクのフィルム、デジタルテレビジョン放送などの
多くの用途に用いられるが、ここでは特に、ビデオ電話
及びＣＤ−Ｉ適用について説明をおこなう。

【０００２】

【従来の技術】顔をトラッキングする方法は、１９８９
年７　月１８−２０　日にワーウィックで行われた画像
処理及びその応用に関する第３回国際会議で発表され、
ＩＥＥ　会議刊行物Ｎｏ．３０７の５３１−５３５　ペ
ージにおいて刊行物発表された”Ａ　Ｆｅａｔｕｒｅ　
Ｔｒａｃｋｉｎｇ　Ｍｅｔｈｏｄ　ｆｏｒ　Ｍｏｔｉｏ
ｎ　Ｐａｒａｍｅｔｅｒ　Ｅｓｔｉｍａｔｉｏｎ　Ｉｎ
　Ａ　Ｍｏｄｅｌ−Ｂａｓｅｄ　Ｃｏｄｉｎｇ　Ａｐｐ
ｌｉｃａｔｉｏｎ”というタイトルのユー（Ｊ．Ｆ．Ｓ
．Ｙａｕ）及びデュフィー（Ｎ．Ｄ．Ｄｕｆｆｙ）によ
る論文に開示されている。この論文では、モデルベース
の画像コーディング計画に応用するための顔の動きの変
動をパラメータ処理するための方法を公開している。ト
ラッキングアルゴリズムが記述されており、これによっ
て、まず被写体の目、鼻及び口のバウンディングボック
ス（ｂｏｕｎｄｉｎｇ　ｂｏｘ）　を配置し、その後ブ
ロックマッチング及びコードブックサーチ技術の両方を
用いて、連続するフレームにわたってトラッキングする
。動きパラメータ評価アルゴリズムによって、頭部の位
置及び方向を規定するのに必要とされる６個の自由度が
、トラッキングされたボックス位置から得られる。この
アルゴリズムを実現するために、ボックス位置の空間的
配置を判断するとともに、これらを、簡略化された顔の
位相数学的３次元モデルに関連づける。

【０００３】分析された画像シーケンスの各フレーム毎
に、位置及び方位の評価を２段階で行う。第１段階は、
画像シーケンスにわたって目、鼻及び口をトラッキング
する段を具えている。このことは、顔の特徴を第１フレ
ーム内に配置し、その後ブロックサーチ及びコードブッ
ク技術の両方を用いて、連続するフレームにわたってこ
れらをトラッキングすることによって達成された。初期
の特徴の配置は、マニュアルで行われたが、その後のす
べての処理は、ソフトウェアアルゴリズムによって行わ
れていた。特徴の配置は、関連する顔の特徴を完全に取
り囲んでいるボックスによって表現される。したがって
、画像シーケンス分析の第１段階、すなわちトラッキン
グ段の結果、時間軸に沿った画像シーケンスにわたって
顔の特徴ボックスの奇跡が記述される。動きパラメータ
評価段と称する第２段階は、各フレームの顔の特徴ボッ
クスの空間的配置を判断し、位置及び方位の評価を行う
。顔の特徴ボックスの位置を顔の簡略化された位相数学
的モデルに当てはめることによって、２次元データから
３次元情報を回復させる。

【０００４】画像電話に応用する場合、画像シーケンス
分析から３次元情報を得るのに、ロボットの視覚に応用
する場合と同程度の正確性及び精密性は必要とされない
。ロボットに応用する場合には、角度及び距離の正確か
つ絶対的な測定が必要とされる。顔の画像の場合、位置
及び方位パラメータを近似すれば十分である。更に重要
なことは、元の画像シーケンスの変動との完全な同期が
とられ、顔の動きの変動が再生されることである。この
理由は、チャンネルを介しての通信に関して、視覚的に
微妙な差異が生じるのは、絶対的な位置及び方位の変動
よりもむしろ顔の動きの変動である。

【０００５】

【発明が解決しようとする課題】しかし、ユー及びデュ
フィーによる方法には、多くの欠点がある。まず第一に
、一方の目あるいは口が妨害される（ｏｃｃｌｕｄｅｄ
）　場合、すなわち対象物が目や口の前を通過する場合
、顔をトラッキングすることができないことである。第
二に、頭部がかなり回転して、一方の目がカメラの視界
から外れる場合に、顔をトラッキングできないことであ
る。第三に、顔の特定の特徴、すなわち目、鼻、口の識
別を必要とすることである。本発明の目的は、改良され
た対象物トラッキング方法を提供するとともに、該方法
をトラッキングすべき対象物の妨害（ｏｃｃｌｕｓｉｏ
ｎ）に対して強くせんとするにある。

【０００６】

【課題を解決するための手段】本発明は、被写体中の３
次元対象物を、　一連の２次元画像フレームにわたって
トラッキングする方法であって、該方法が：ａ）トラッ
キングすべき前記対象物を含む初期テンプレートを形成
する工程と；ｂ）トラッキングすべき前記対象物の輪郭を形成するマ
スクを抽出する工程と；ｃ）前記初期テンプレートを、前記対象物の特定の特徴
とは無関係な複数のサブテンプレートに分割する工程と
；ｄ）連続する各々のフレームをサーチし、先行するフレ
ームのテンプレートとのマッチングを見いだす工程と；
ｅ）連続する各々のフレームをサーチし、先行するフレ
ームのサブテンプレートの各々とのマッチングを見いだ
す工程と；ｆ）連続する各々のフレームにおいて、テンプレートの
位置に対する各々のサブテンプレートの位置の変位を決
定する工程と；ｇ）前記変位を用いて、変位した位置を写像することの
できる２変量変換の係数を決定する工程と；ｈ）前記変
換を行い、更新されたテンプレートと更新されたマスク
とを供給する工程；とを具えていることを特徴とする。

【０００７】テンプレートを多くのサブテンプレートに
分割し、局所的マッチング処理をサブテンプレートの各
々に適用することによって、対象物の方位が変化する際
の対象物のひずみを検出することができる。このことを
用いて、アフィン変換のような２変量変換の係数を規定
し、対象物の新しい外観を予測することができる。用い
ることのできる他の変換は、より高次の多項式関数又は
フーリエ係数を有している。サブテンプレートは、対象
物の特定の特徴と関係していないので、本発明を用いて
任意の対象物をトラッキングすることができ、顔や他の
規定される対象物のトラッキングには限定されない。形
成すべきサブテンプレート数の選択には、更に大きな自
由度があり、一定の冗長度を組み込み、対象物が部分的
に妨害されても、トラッキングを継続できるようにして
いる。この方法は、画像中に見ることのできる特定の対
象物の特徴に依存していない。このため、特定の対象物
の特徴を視覚可能な状態に保持するために、対象物の回
転の自由度が制約されることはない。サブテンプレート
の各々に対するサーチ領域を、テンプレートマッチング
位置の周囲のある限定された領域とすることができる。このサーチ領域を限定することによって、サーチに要す
る時間を最小にするとともに、特徴に依存しないサブテ
ンプレートを用いて、サブテンプレートと、対象物の類
似する遠隔部分とのマッチングの可能性を減少させてい
る。例えば、この制約がないと、あるサーチ領域制約が
課されなければ、顔の左ほおをカバーしているサブテン
プレートが、右ほおとマッチングしうる。

【０００８】本発明による方法は更にｉ）前記対象物の境界で画素を繰り返すことによって、
前記初期テンプレートを拡張する工程を具えることがで
きる。変換の適用によって、対象物の境界における画素
値の内挿をおこない、結果的に、背景画素が対象物の周
囲に残存している場合、あるいは背景がブランクの場合
、特に、背景画素値が対象物の画素値と著しく異なる場
合、誤った内挿値が発生しうる。また特に、多くの連続
画像フレームにわたって変換を繰り返して適用すると、
対象物の境界が次第にぼんやりとしてくる。

【０００９】本発明による方法は、更にｊ）マスクの内
側の各画素の輝度を第１一定値に設定するとともに、マ
スクの外側の各画素の輝度を第２一定値に設定する工程
を具えることができる。このことによって、テンプレー
トが拡張される際に失われる対象物の輪郭を決定するこ
とができ、例えば、境界の外側を黒、内側を白に輝度を
設定することによって、境界において明確なしきい値処
理を保持することができる。

【００１０】本発明による方法は、更にｋ）トラッキン
グすべき前記対象物の領域占有率が所定の値より小さい
サブテンプレートの各々を切り捨てる工程を具えること
ができる。前記所定の値を２０％〜３０％の間に設定す
ることができる。このことによって、サブテンプレート
に含まれる対象物に関する情報がほとんどない場合であ
っても、誤ったサブテンプレートの局所的マッチングを
見いだす可能性が減少する。実際に選択される対象物の
領域占有率は、テンプレートが分割されるサブテンプレ
ートの数と、一般的な適用の場合における誤ったマッチ
ングが見いだされる範囲とに依存している。

【００１１】本発明による方法は、更にｌ）局所的マッ
チングを見いだすことのできない任意のサブテンプレー
トを切り捨てる工程と；ｍ）最低限の数のサブテンプレ
ートが残存しているかどうかを決定する工程と；ｎ）最低限の数のサブテンプレートが残存している場合
に、これらの変位を用いて前記変換係数を計算する工程
；とを具えることができる。前記最低限の数を６とする
ことができる。このことによって、妨害されていないサ
ブテンプレートの数が十分であれば、全対象物の変換係
数を計算することができるので、部分的な妨害対象物を
処理することができる。対象物が完全に妨害されている
場合、あるいは妨害によって変換係数の計算ができるほ
ど十分なサブテンプレートが残存していない場合、先行
するフレームで計算された係数を再び用いて、対象物の
位置及び外観を予測することができる。残存しているサ
ブテンプレートの数が前記最低限の数よりも少ない場合
に、次のフレームにおいて前記テンプレートマッチング
のためのサーチ領域を増大させることができる。一以上
のフレームにおいて対象物が見えないために、その予測
位置は、より大きなエラーに従属し、サーチ領域を増大
させることによって、マッチングを見いだす可能性が大
きくなる。

【００１２】本発明による方法は、更にｏ）前記更新さ
れたテンプレートを、前記テンプレートマッチングの位
置で、前記変換されたマスクによって選択された次のフ
レームの領域と比較する工程と；ｐ）該比較工程の結果
を用い、カルマンフィルタの利得補正項を制御する工程
；とを具えることができる。

【００１３】変換は、通常３次元対象物の外観の変化の
すべてを表示できないために、変換によって得られる対
象物と思われるものの予測は、実際の外観から逸脱しう
る。カルマンフィルタ処理を用いることによって、実際
の外観を内挿し、対象物の外観を更新することができる
。このことは、妨害が発生しているかどうかによって決
定される領域占有率の現在の画像を加えることによって
達成される。すなわち、何の妨害もない場合には、高い
領域占有率の現在の画像を内挿し、対象物の妨害が検出
される場合には、低い領域占有率の現在の画像を内挿す
る。その理由は、妨害対象物がトラッキングされる対象
物に内挿されることは、通常望ましくないからである。しかし、低い領域占有率の画像を内挿すると、メガネを
かけている人などの変化は、結局トラッキングされる対
象物に内挿されてしまう。

【００１４】８個の連続する画素値の平均を用いて、前
記比較工程ｏ）における比較をおこなうことができる。これによって、雑音の影響を小さくすることができる。

【００１５】前記比較工程ｏ）が：ｏ１）　各画素毎に、中心に問題となる画素を有する３
×３の画素ブロックを用いる工程と；ｏ２）　前記ブロックを、１画素づつ各方向に順番に変
位させる工程と；ｏ３）　各変位毎に、更新されたテンプレート内の画素
を、現在の画像と比較し、差値を計算する工程と；ｏ４
）　最小差値を見いだす工程と；ｏ５）　前記比較の結果として、前記最小差値を出力す
る工程；とを具えることができる。

【００１６】この差値を、例えば、平均二乗値あるいは
絶対値に基づき計算、又は他の相関関数、例えば、連続
するフレームの画素の内積に基づき計算することができ
る。内積による計算の場合、２個のフレーム間の最小差
値によって、最大内積値が与えられる。この手段によっ
て、微細な部分を有する領域の小さな不整列によって生
じる誤差を小さくすることができる。

【００１７】マッチングが見いだされない場合に、再び
前記変換を前記テンプレートに適用して、次のフレーム
のテンプレートの形状及び位置を予測することができる
。このようにして、対象物が完全に、あるいはほぼ完全
に妨害されている場合に、以前の経歴からその位置又は
形状を予測することができる。

【００１８】本発明によれば更に、トラッキングすべき
前記対象物を含む初期テンプレートを形成するための手
段と；トラッキングすべき前記対象物の輪郭を形成する
マスクを抽出するための手段と；前記初期テンプレート
を、複数のサブテンプレートに分割するための手段と；
連続する各々のフレームをサーチし、先行するフレーム
のテンプレートマッチングを見いだすための手段と；連
続する各々のフレームをサーチし、先行するフレームの
サブテンプレートの各々のマッチングを見いだすための
手段と；連続する各々のフレームにおいて、テンプレー
トの位置に対する各々のサブテンプレートの位置の変位
を決定するための手段と；前記変位を用いて、変位した
位置を写像することのできる２変量変換の変換係数を決
定するための手段と；前記変換を行い、更新されたテン
プレートと更新されたマスクとを供給するための手段；
とを具えている、被写体中の３次元対象物を、　一連の
２次元画像フレームにわたってトラッキングするための
装置が提供される。

【００１９】該３次元対象物トラッキング装置は、前記
サブテンプレートの各々のサーチ領域を、テンプレート
マッチング位置の周囲に限定するための手段を具えるこ
とができる。

【００２０】前記３次元対象物トラッキング装置は更に
、対象物の境界で画素を繰り返すことによって初期テン
プレートを拡張するための手段を具えることができる。

【００２１】前記３次元対象物トラッキング装置は更に
、マスクの内側の各画素の輝度を第１一定値に設定する
とともに、マスクの外側の各画素の輝度を第２一定値に
設定するための手段を具えることができる。

【００２２】前記３次元対象物トラッキング装置は更に
、トラッキングすべき対象物の領域占有率が所定の値よ
りも小さいサブテンプレートの各々を切り捨てるための
手段を具えることができる。前記所定の値を、２０％〜
３０％の間に設定することができる。

【００２３】前記３次元対象物トラッキング装置は更に
、局所的マッチングを見いだすことのできない任意のサ
ブテンプレートを切り捨てるための手段と；最低限の数
のサブテンプレートが残存しているかどうかを決定する
ための手段と；最低限の数のサブテンプレートが残存し
ている場合に、これらの変位を用いて前記変換係数を計
算するための手段；とを具えることができる。前記最低
限の数を６とすることができる。

【００２４】前記３次元対象物トラッキング装置は更に
、残存しているサブテンプレートの数が前記最低限の数
よりも少ない場合に、次のフレームにおいて前記テンプ
レートマッチングのためのサーチ領域を増大させるため
の手段を具えることができる。

【００２５】前記３次元対象物トラッキング装置は更に
、更新されたテンプレートを、前記テンプレートマッチ
ングの位置で、前記変換されたマスクによって選択され
た次のフレームの領域と比較するとともに、該比較の結
果を用い、カルマンフィルタの利得補正項を制御するた
めの比較手段を具えることができる。前記比較を、８個
の連続する画素値の平均を用いておこなうことができる
。

【００２６】前記比較手段が：各画素毎に、中心に問題
となる画素を有する３×３の画素ブロックを用いるため
の手段と；前記ブロックを、１画素づつ各方向に順番に
変位させるための手段と；各変位毎に、前記更新された
テンプレートを現在の画像と比較し、差値を計算するた
めの手段と；最小差値を見いだすための手段と；前記比
較の結果として、前記最小差値を出力するための手段；
とを具えることができる。

【００２７】前記比較手段を、連続するフレームの内積
を発生させるための手段とすることもできる。この場合
、最小差値は、最大内積で表される。

【００２８】再び前記変換を前記テンプレートに適用し
て、次のフレームのテンプレートの形状及び位置を予測
することができる。

【００２９】本発明によれば更に、ビデオカメラと、該
ビデオカメラが供給する画像内の顔を識別するための手
段と、連続する画像フレームの顔の位置をトラッキング
するための手段と、電話線に接続されるべき出力信号を
供給するコーデックとを具えているビデオ電話端末であ
って、前記コーデックが、ビデオカメラの出力端子に結
合される第１入力端子と、前記トラッキング手段の出力
端子に接続される第２入力端子とを有し、該第２入力端
子における信号に分解能が依存する出力信号を供給する
ように前記コーデックを構成し、且つ前記トラッキング
手段が上記の３次元対象物トラッキング装置を具えてい
ることを特徴とするビデオ電話端末が提供される。

【００３０】本発明によれば更に、ａ）前記一連の２次元画像を表しているビデオ信号を発
生させるための工程と；ｂ）前記動３次元対象物の輪郭を形成するための工程と
；ｃ）請求項１〜１０のいづれか一項に記載の方法によっ
て、前記動３次元対象物をトラッキングする工程と；ｄ
）輪郭の外側の画像部分を表示する場合よりも、輪郭の
内側の画像部分を表示する場合に、高分解能でビデオ信
号を符号化する工程；とを具えていることを特徴とする
動３次元対象物を含んでいる被写体を表している一連の
２次元画像を符号化するための方法が提供される。

【００３１】符号化は、通常画素のブロック、例えば、
１６×１６画素ブロックでおこなわれ、結果的に、分解
能の変化はブロックを基準として生じる。これは、正確
に対象物の輪郭と一致してはいない。この場合、ブロッ
クの全体が輪郭の内側に存在する場合にのみ、高分解能
のブロックを送ることができることもち論であるが、輪
郭の内側の部分を有するブロックを高分解能で送ること
が好ましい。

【００３２】本発明によれば更に、前記一連の２次元画
像フレームを表しているビデオ信号を発生させるための
手段と；前記動３次元対象物の輪郭を形成するための手
段と；上記の３次元対象物トラッキング装置を具え、一
連の画像フレームにわたって、前記動３次元対象物をト
ラッキングするための手段と；輪郭の外側の領域よりも
輪郭の内側の領域を、より高分解能でビデオ信号を符号
化するための手段；とを具えていることを特徴とする動
３次元対象物を含んでいる被写体を表している一連の２
次元画像を符号化するための装置が提供される。

【００３３】該２次元画像符号化装置を、コンパクトデ
ィスクインターアクティブ（ＣＤ−Ｉ）プレーヤの記録
担体に記録するために画像を符号化するように構成し、
前記輪郭形成手段が、表示手段に結合されるとともに、
ユーザが前記対象物の周囲の輪郭を作成できるようにす
る入力装置を有している計算手段を具え、前記符号化手
段をＣＤ−Ｉエミュレータに結合させ、前記一連の画像
をディスプレイ手段で再生できるように前記ＣＤ−Ｉエ
ミュレータを構成することができる。

【００３４】

【実施例】以下、図面を参照して実施例を説明するに、
図１は、本発明による方法を示すブロック図である。図
１のブロックＺは、トラッキングすべき対象物、例えば
ビデオ電話に応用する場合では人の顔、の初期基準テン
プレートの発生を示している。初期テンプレートは、第
一フレームから抽出され、応用によって、オペレータが
対象物の輪郭をトレースすることによって、マニュアル
で形成、あるいは、１９９０年３月２６〜２８日に、マ
サチューセッツ州ケンブリッジの画像コーディングシン
ポジウムで発表された”Ｋｎｏｗｌｅｄｇｅ−Ｂａｓｅ
ｄ　Ｆａｃｉａｌ　Ａｒｅａ　Ｒｅｃｏｇｎｉｔｉｏｎ
　ａｎｄＩｍｐｒｏｖｅｄ　Ｃｏｄｉｎｇ　ｉｎ　ａ　
ＣＣＩＴＴ−Ｃｏｍｐａｔｉｂｌｅ　Ｌｏｗ−ｂｉｔｒ
ａｔｅ　Ｖｉｄｅｏ−Ｃｏｄｅｃ　”というタイトルの
バディク（Ｅ．Ｂａｄｉｑｕｅ）による論文に記載され
ているように自動的に形成される。オリジナルテンプレ
ートが画素の繰り返しによって拡張され（ブロックＡ）
、また、テンプレートのバイナリマスクを発生させる（
ブロックＢ）。

【００３５】次の画像フレームは、入力端子Ｗを介して
供給され、サブサンプリングされるとともに（ブロック
Ｃ）、テンプレートもサブサンプリングされる（ブロッ
クＤ）。もちろん、サブサンプリング工程を削除できる
が、これには、より大きな記憶容量及び信号処理能力が
必要となる。広域マッチングプロセス（ブロックＥ）に
おいて、サブサンプリングされる画像（ブロックＣ）の
テンプレートの大きさに比例するサーチ領域、あるいは
オペレータによって制御されるサーチ領域を、サブサン
プリングされる拡張テンプレート（ブロックＤ）と比較
する。マッチング基準に基づき、画像中の最も適切な対
象物の位置を判定する。

【００３６】画像のシーケンスが進むにつれて、対象物
はその方向を変更しうる。結果的に、実際の画像と基準
との類似性が低下し、テンプレートマッチングプロセス
が低下し、やがては、システム故障も生じうる。この問
題を解消すべく、テンプレートを更新する。テンプレー
トは、同型の、好ましくは長方形のサブテンプレートに
分割され（ブロックＦ）、顔の強度の４分の１より小さ
な強度の画素を有するサブテンプレートは切り捨てられ
る（ブロックＧ）。その後、残りのサブテンプレートの
各々をマッチングさせ、局所的に位置合わせをする（ブ
ロックＨ）。画像は、検出された対象物の位置の周りの
小さな領域で処理され、個々のサブテンプレートに含ま
れている対象物の特徴を配置する。すなわち、広域マッ
チングが行われる場合、各々のサブテンプレートのサー
チ領域を制限し、サブテンプレートが誤って対象物の遠
隔部分の類似の領域とマッチングされないようにしてい
る。例えば、トラッキングすべき対象物が顔であり、サ
ブテンプレートが左側のほおの一部をカバーしている場
合、両側のほおが類似しているため、右側のほおの一部
を用いて優れたマッチングを行うことができる。サーチ
領域を制限することによって、このような誤ったマッチ
ングが行われる可能性を低くすることができる。局所的
位置合わせ処理より得られる最小コスト機能をしきい値
処理し（ブロックＩ）、潜在的に妨害された領域を切り
捨てることができるようにしている（ブロックＪ）。次
のフレームの広域サーチ領域は、不十分な局所的マッチ
ングであれば増大し、十分なマッチングであれば、その
元の大きさにリセットされる。

【００３７】サブテンプレートが多くの微細な部分を有
している場合に生じる一つの問題点は、小さな不整列に
よって、大きなエラー信号が発生しうることである。こ
の問題を解消すべく、問題となっている画素を中心とす
る３×３ブロックの画素を用い、このブロックが、１画
素づつ各方向に順番に変位するようにする。各変位毎に
、更新されたサブテンプレートは現在の画像と比較され
、差値が得られる。最終的に採用される値は、最小差値
を発生させるものである。この手続きが有効な一般的領
域は、髪や、薄いストライプを有するネクタイなどの物
品の領域である。

【００３８】妨害された領域がない場合、あるいは妨害
されたものとして検出された対象物のパーセンテージが
極めて小さい場合、対象物のフレーム内ひづみを測定す
ることができる、すなわち、テンプレートに対する個々
のサブテンプレートの変位が評価される。この評価より
、アフィン変換の係数が計算される（ブロックＬ）。その後、アフィン変換は、拡張テンプレート（ブロック
Ｍ）及びバイナリーマスク（ブロックＮ）に適用され、
対象物の幾何学的ひづみを修正する。アフィン変換され
たバイナリーマスクをしきい値処理し（ブロックＯ）、
正確な対象物の境界が得られるようにする。この工程を
含める理由は、アフィン変換では、グレイレベル強度値
を境界領域に加え、テンプレートの更新に誤った結果を
もたらしうるアルゴリズムの反復の度にテンプレートの
大きさを増大させてしまうからである。広域マッチング
手続きの間、拡張されるとともに更新されたテンプレー
トを、バイナリーマスクで与えられる境界の内側に用い
る。テンプレートの拡張が必要な理由は、アフィン変換
では、境界の画素値を計算するために境界の直ぐ外側の
画素値を用いるからである。しきい値処理されたバイナ
リーマスクは、再びアフィン変換され（ブロックＶ）、
スイッチＳＷ１ｂを介して次のフレームのバイナリーマ
スクとして用いられる。

【００３９】アフィン変換の結果（ブロックＭ）を直接
ＳＷ１ａに供給し、これを以前のフレームのテンプレー
トとして用いることもできるが、このことは、エラーを
計算する際に必ずしも必要なことではない。その代わり
に、図１に示されている例では、テンプレートの妨害さ
れていない部分に対する現在のフレームからの情報を用
いて、テンプレートを更新する。広域マッチングによっ
て見いだされる位置で、変換されたマスクによって選択
される実際の画像領域と、更新されたテンプレートとを
比較することにより（ブロックＰ）、妨害を検出する。基準テンプレートから、実際の画像の対応する領域引く
ことによって得られる相違画像を分析することによって
、妨害対象物が検出される。この相違は、８個の連続す
る画素値を平均する（ブロックＱ）のに用いられ、比較
の際の雑音感度を低減させる。８個の連続する画素とは
、所定の画素の直ぐ周りの８個の画素、すなわち、水平
方向、垂直方向及び両対角線方向の近傍の画素である。８個の連続する画素を平均することは必ずしも必要では
なく、他の好適なノイズフィルタリング技術を用いるこ
ともできる。

【００４０】更に、８個の連続する画素から成る３×３
ブロックを１画素づつ各方向に順番に変位させ、各々の
変位に対して、更新されたテンプレートのブロック中の
画素を現在の画像の画素と比較し、平均差値を計算する
ことによって、基準テンプレート及び実際の画像の端部
間のわずかな不整列によって生じうる大きな相違を低減
させることができる。この場合、ブロックＱの出力は、
これらの平均差値の最小値となる。

【００４１】モデルの不一致と、妨害などの対象物環境
の変化とを区別できるように、ブロックＲのしきい値を
設定する。相違画像をしきい値処理した結果を用いて、
テンプレートと実際の画像とを選択するのに用いられる
妨害対象物のマスクを発生させる。妨害されていない対
象物領域では、実際の被写体中の対象物が高い比率で含
まれている。部分的な対象物の妨害が生じると、対象物
が妨害されていない領域及びトラッキングプロセスから
得られる部分的な情報を用いて、これらの妨害された領
域が修正される。例えば、妨害対象物が、かけているメ
ガネである場合、画像が規則的に更新されるにつれてメ
ガネが徐々に現れるように、利得をゼロというよりもむ
しろ低い値に設定する。

【００４２】ブロックＳの出力端子を直接スイッチＳＷ
１ａに接続する場合には、この更新の結果を直接次のフ
レームのテンプレートとして用いることができるが、ア
フィン変換（ブロックＴ）を再び適用することによって
、より優れたマッチングが見いだされ、次に続くフレー
ムを予測することができる。この場合、ブロックＴの出
力端子を直接スイッチＳＷ２　に接続する。図１に示さ
れている例は、更に改良がなされている。。ここではカ
ルマンフィルタ内に、テンプレートの更新と予測とを含
めている。更にこのことによって、テンプレートと実際
の画像との相違が生じるもう一つの原因である照度の変
化を、トラッキングするとともに予測することができる
。

【００４３】テンプレートを更新するための上記メカニ
ズムを、カルマンフィルタの利得を制御する妨害検出信
号を用いて、カルマンフィルタの測定更新（ブロックＳ
）内に組み込む。カルマンフィルタの測定更新は、テン
プレート内の各画素の時間的導関数も有しており、その
２個の組み合わせにより、カルマンフィルタの状態変数
を形成する。カルマンフィルタの予測段は、顔の位置を
予測するためのアフィン変換予測（ブロックＴ）を行う
とともに、照度変化を計算する（ブロックＵ）ためのカ
ルマン状態空間マトリックスの状態変数への適用を行う
。この状態空間マトリックスの構成要素は、”Ｍｏｖｉ
ｎｇ　Ｏｂｊｅｃｔ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｕｓｉ
ｎｇ　ａｎ　ＡｄａｐｔｉｖｅＢａｃｋｇｒｏｕｎｄ　
Ｍｅｍｏｒｙ　”，Ｔｉｍｅ−ｖａｒｙｉｎｇ　Ｉｍａ
ｇｅ　Ｐｒｏｃｅｓｓｉｎｇ　ａｎｄ　Ｍｏｖｉｎｇ　
Ｏｂｊｅｃｔ　Ｒｅｃｏｇｎｉｔｉｏｎ，Ｅｄ．Ｖ．Ｃ
ａｐｅｌｌｉｎｉ，ｐｐ２８９−２９６，Ｓｐｒｉｎｇ
ｅｒ−Ｖｅｒｌａｇ，　Ｂｅｒｌｉｎ，１９９０　に記
載されているカルマンなどによって用いられたのと同一
の構成要素とすることができる。位置合わせプロセスで
、対象物が検出されない場合、すなわち対象物がほとん
ど、あるいは完全に妨害されている場合、更新段及びカ
ルマンフィルタ段は省略され、その代わりに、それより
以前の画像において計算されたアフィン変換（ブロック
Ｋ）を適用することにより、次のフレームの位置及び大
きさが予測される。

【００４４】初期テンプレートが発生し、更新され、ス
イッチＳＷ２　を介してフィードバックされる場合にの
み、スイッチＳＷ１ａ，ＳＷ１ｂは図に示されている位
置にある。スイッチＳＷ２　は、対象物がほとんど、あ
るいは全体的に妨害されている場合には図に示されてい
る位置にあり、対象物が妨害されていない、あるいは部
分的にのみ妨害されている場合には第２の位置を採るよ
うに制御され、カルマンフィルタの出力を選択する。

【００４５】本発明による方法は、広域マッチングと局
所的マッチングとの両者を具え、適応性のあるテンプレ
ートマッチングを用いて対象物を追跡する。このように
して、プロセスは、追跡すべき対象物の最初の視界から
、次のフレームの類似のパターンをサーチする。テンプ
レートを更新し、フレームからフレームへの方位及び外
観の変化、及びこれによる形状、大きさの変化に対処す
る。これらの変化が、フレーム内期間では小さいものと
仮定する。一方、本発明のある態様では、更新手続きが
妨害、及びこれによる著しいフレーム内変化を処理する
ことができるとともに、妨害されている特徴がテンプレ
ート内に組み込まれないことを保証している。したがっ
て、ビデオ電話への応用では、人間の頭部は長い距離に
わたって迅速に移動しないので、トラッキングできるが
、対象物が顔の前面を通過すると、これらの対象物を顔
に組み込むことは望めない。

【００４６】初期テンプレートを見いだすための方法は
、クリティカルなものではなく、その適用に依存してい
る。ビデオ電話端末などのリアルタイム適用の場合、こ
こで参照されているＥ．Ｂａｄｉｑｕｅ　によって記載
された方法を用いるのが便利であるが、ＣＤ−Ｉオーサ
リング（ａｕｔｈｒｏｉｎｇ）などの非リアルタイム適
用に用いられる場合には、初期テンプレートはマニュア
ルで作成される。初期テンプレートが供給されると、こ
れは対象物をトラッキングするのに用いられる。幾つか
の小さなテンプレートを、例えば目や口などの臨界的な
特徴に対して用い、顔などの対象物をトラッキングする
ことは、以前より提案されている。これは、妨害が発生
する場合に特に必要なことではない。この方法では、他
の処理を行う以前に、完全な対象物、例えば顔のテンプ
レートに対して、広域マッチングを行う。テンプレート
及び被写体をサブサンプリングすることによって、必要
な計算を減らすことができるとともに、サーチ領域を、
以前のフレームにおいてテンプレートが位置していた点
の付近に制限することができる。サーチ領域の範囲をテ
ンプレートの大きさに比例させ、種々のレンジでこの方
法を顔（すなわち対象物）に関して用いることができる
。

【００４７】最も可能性の高い顔の位置を見いだした後
、テンプレートが更新され、新しいフレームにおける真
の顔の外観が表示される。顔の外観の変化は、局所的マ
ッチング、すなわちサブテンプレートマッチングによっ
て検出される。テンプレートを、同形且つ長方形である
ことが好ましいサブテンプレートに分割する。これらの
サブテンプレートは、広域的マッチングポジションの周
囲の小領域にわたる現在のフレームの内容とマッチング
している。特定の点におけるマッチングコスト機能が、
特定のテンプレートにおいて極めて高い場合、このサブ
テンプレートの領域で対象物が妨害されており、サブテ
ンプレートがこれ以上処理されないものと思われる。局
所的マッチングプロセスでは、４分の１より多くの画素
がアクティブであるサブテンプレートのみが含まれてい
る。サブテンプレートの局所的マッチングによって、顔
のフレーム内ひづみを示す一組の変位が生じる。これらの変位は、全テンプレートに適用されるアフィン
変換の係数を計算するのに用いられる。

【００４８】テンプレートマッチングの範囲を制限する
ためには、トラッキングすべき対象物の境界を知る必要
がある。このことを達成するための一つの方法は、元の
テンプレートと同一形状のバイナリーマスクを作り出す
ことである。アフィン変換をテンプレート自体に適用す
るとともに、このバイナリーマスクにも適用する。また
、変換されたマスクをしきい値処理することによって、
つぎのフレームのテンプレートの境界が得られる。古い画素位置と、新しいテンプレートとが１対１対応し
ていないために、このような手続きが必要である。新し
い画素値は、古い画素値の間に内挿を行うことによって
形成される。アクティブテンプレートの周囲の領域をゼ
ロに設定すると、アフィン変換において境界の周囲の変
換のために、これらの画素値を誤って用い、テンプレー
トの境界周囲がぼんやりとする原因となる。このことを
防ぐために、境界の外側の画素値を繰り返すことによっ
て、アクティブテンプレートを拡張することができる。アクティブテンプレートを、画素値を繰り返す以外の他
の手段、例えば双線形内挿によって拡張することもでき
る。この手続きによって、境界がぼんやりとなることを
防げるが、これには、テンプレート形状の個々の記録を
維持しなければならない。このことは、パラレルにマス
クを行うことによって達成される。マスクは、境界の内
側の画素に大きな値を割り当て、境界の外側の画素に小
さな値を割り当てることによって形成され、アフィン変
換を適用すると、出力信号が間違いなくしきい値処理さ
れ、正確な境界形状を復元することができる。

【００４９】アフィン変換によって、数フレームにわた
る顔の外観の変化に対する合理的なモデルが提供される
が、すべての変化を正確に表現することはできず、また
、繰り返される内挿によってテンプレートの空間的分解
能が急激に低下してしまう。この性能を改善するために
、テンプレートの更新及び予測をカルマンフィルタに組
み込むことができる。このことによって更に、テンプレ
ートと実際の画像との相違が生じる他の原因となる照度
変化のトラッキング及び予測が可能となる。

【００５０】テンプレートの更新のためのメカニズムを
カルマンフィルタの測定更新（ブロックＳ）に組み込む
。この際、妨害検出信号が利得を制御する。カルマンフ
ィルタの測定更新も、テンプレート内の各画素の時間的
な導関数を有しており、その２個の組み合わせによって
、カルマンフィルタの状態変数が構成される。カルマン
フィルタの予測段は、顔の位置変化を予測するためのア
フィン変換予測と、照度変化を計算するための状態空間
マトリックスの状態変数への適用の両者を具えている。状態空間マトリックスの構成要素は、以前に引用したカ
ルマンなどによって用いられた構成要素と同じものであ
る。

【００５１】アフィン変換では、その係数を計算するの
に少なくとも６個の座標対が必要である。６個より少な
い座標対が検出される場合、すなわち、６個より少ない
サブテンプレートマッチングの場合、顔のほとんどの部
分が妨害されていると思われる。このため、以前のフレ
ームに対して計算されたアフィン変換を再び次のフレー
ムの予測を行うためにも適用する。このことは、顔の外
観が滑らかに変化し、全体的な妨害が検出される場合に
は、次のフレームの広域サーチ領域を大きくし、顔が再
び見える際にトラッキングが回復できるようになってい
るとの仮定に基づいている。。この手続きは、監視シス
テムが通知により初期化手続きを起動できる際に、タイ
ムがしきい値に到達していないことを条件に、妨害が続
く限り繰り返される。マッチングが得られる度ごとに、
サーチ領域は元の大きさに戻される。

【００５２】少なくとも６個の局所的マッチング、すな
わちサブテンプレートマッチングが見いだされると、変
換されたテンプレートと実際の被写体との差を用いて、
妨害されている顔の領域を検出することができる。小さ
な領域、例えば３×３画素にわたってこの差を平均化し
、雑音に対する感度を低下させる。所定のしきい値より
大きな差を有する画素は、妨害されているものと思われ
る。

【００５３】妨害が検出されると、カルマンフィルタの
利得を低い値に設定し、現在のフレームの小部分だけが
組み込まれる。利得をゼロに設定していないため、妨害
が長時間持続する場合、妨害対象物がやがては含まれる
こととなる。このことは、メガネをかけている人などの
場合に役立つ。この場合、始めメガネは妨害対象物であ
るが、画像に関する限り、次第に顔の一部となる。妨害
が検出されない場合には、カルマンフィルタの値を大き
な値に設定するが、１には設定しない。これによって、
テンプレートの雑音に対する感度を引き下げることがで
きる。妨害されていない顔の確からしい外観のモデルが
得られると、次のフレームにおける顔の外観の予測が与
えられる。このことは、アフィン変換を更新されたテン
プレートに再度適用することによって達成され、その後
カルマン状態空間マトリックスを用いて、アフィン変換
では処理されない照度変化を計算することができる。

【００５４】図２は、水平方向に８個の画素を有し、垂
直方向に１２個の画素を有する領域における初期テンプ
レートの一例を示す図である。ここにおいて、水平方向
、垂直方向にハッチングされている画素は、トラッキン
グすべき対象物を表しており、一様な画素及び陰影の付
されていない画素は、背景を表している。図３は、拡張
されたテンプレートを示す図である。ここにおいて、背
景の画素は、対象物の境界における強度と同一の強度の
画素で置き換えられる。図４は、対象物の輪郭を提供す
るバイナリーマスク示す図であり、輪郭内の画素は高強
度（白）であり、輪郭外の画素は低強度（黒）である。これらの画素値を逆にすること、あるいは２個の異なる
色にすることはもちろん可能である。図５は、ドットで
示された対象物の輪郭におけるサブテンプレートを示す
図である。この場合では１６個の長方形のサブテンプレ
ートであるが、サブテンプレートの数及び形状は任意に
選択可能で有り、異なる数及び形状のサブテンプレート
を用いることができる。

【００５５】図６は、ビデオカメラ６０を具えているビ
デオ電話端末を示すブロック図である。ビデオカメラ６
０の出力信号は、コーデック６１の第１入力端子に供給
され、フェース検出手段６２の第１入力端子に供給され
るとともに、トラッキング評価手段６４の第１入力端子
に供給される。フェース検出手段６２は、上記にて引用
した、Ｅ．Ｂａｄｉｑｕｅ　による刊行物にしたがって
構成することができる。フェース検出手段６２の出力信号は、図１〜５を引用し
て説明されているように実現可能な対象物検出手段に供
給されるとともに、トラッキング評価手段６４の第２入
力端子に供給される。対象物トラッキング手段６３の出
力信号は、コーデック６１の第２入力端子に供給される
とともに、トラッキング評価手段６４の第３入力端子に
供給される。コーデック６１を、他の端末と通信を行う
のに介するポート６５に接続するとともに、通信リンク
を介して他の端末から受信される画像を表示するための
ビデオディスプレイ装置に接続する。

【００５６】フェース検出手段の６２は、端末ユーザの
頭及び肩を、最初の数画像フレームに割り当てるととも
に、顔の輪郭を対象物トラッキング手段６３に供給する
。フェース検出手段６２は、一度その機能を実行すると、
ディゼーブルされる。同時に、トラッキング評価手段６
４は、フェース検出手段６２から、顔の特徴を受信する
とともに、これらの特徴を記憶する。対象物トラッキン
グ手段６３が供給する顔の輪郭はトラッキング評価手段
６４に供給され、そのトラッキングされた対象物の特徴
を、記憶されている特徴と比較し、対象物トラッキング
手段６２が依然として顔のトラッキングを行っていると
ともに、被写体内のある他の対象物を自動追跡していな
いことを保証する。この機能を達成するための一つの方
法は、記憶されている対象物の肌の色と、トラッキング
されている対象物の肌の色とを比較することである。ト
ラッキング評価手段６４は、現在のトラッキングが失わ
れていないことを示している場合、フェース検出手段６
２をイネーブルするとともに、プロセスを再度初期化し
、顔を配置し、顔のトラッキングを再び開始できるよう
にする。

【００５７】コーデック６１は、ＣＣＩＴＴ　ＳＧ　Ｘ
Ｖ　Ｈ．２６１　ｎ×６４Ｋｂｉｔｓ／ｓ　ビデオコー
ドにしたがって実現される。ここで、ｎは整数である。コーデック６１の第１　入力端子は、　ビデオカメラ６
０からのビデオ信号を受信し、　第２　入力端子は、　
対象物トラッキング手段６３の出力信号を受信する。　
この出力信号の特性が、　分解能を制御する。　これを
用いて伝送する画像を符号化し、　顔の外観が背景より
も高分解能で伝送されるようにする。明らかに、　被写
体の多くが会話している人間の顔の場合、　高分解能で
これを伝送する必要はない。　この場合、　目や口だけ
を強められた分解能で伝送するのが有効である。　その
理由は、　目や口が、　看者の注目する顔の部分だから
である。　この場合、　顔全体を検出するための手段と
ともに、　目（　及び口）　を検出するための手段を設
ける。　これを２　段プロセスとし、　まず顔全体を認
識し、　その後個々の特徴（　目や口）　を配置するこ
とができる。　実質的に、　もち論のことながらトラッ
キングすべき２　個以上の対象物をトラッキングするた
め、　各対象物に対して独立のトラッキング手段を設け
るべきであろう。

【００５８】図７　は、　コンパクトディスクインター
アクティブ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｉｎｔｅｒａ
ｃｔｉｖｅ（ＣＤ−Ｉ）ディスクのビデオシーケンスを
作成するためのオーサリングワークステーションを示す
ブロック図である。　この装置は、　ビデオ信号源７０
を具えている。このビデオ信号源７０を、　ビデオカセ
ットプレイヤーとすることもできるが、　任意の好適な
信号源を用いることができる。　ビデオ信号源７０の出
力信号は、　ＣＤ−Ｉコーダ７１の第１　入力端子に供
給され、対象物トラッキング装置７２に供給されるとと
もに、　スイッチＳＷ３　を介してビデオディスプレイ
装置７３に供給される。　ＳＵＮ　ＭＩＣＲＯＳＹＳＴ
ＥＭ　ＩＮＣ　によって販売されているようなワークス
テーション７４を、　ビデオディスプレイ装置７３と、
　対象物トラッキング装置７２とに接続し、　ユーザが
、　符号化すべきビデオシーケンスの集合を制御できる
ようにする。　対象物トラッキング装置７２の出力端子
をビデオディスプレイ装置７３と、　ＣＤ−Ｉコーダ７
１の第２　入力端子に接続する。　ＣＤ−Ｉコーダ７１
の出力端子をＣＤ−Ｉエミュレータ７５と、　出力端子
７６とに接続する。　ＣＤ−Ｉエミュレータ７５の出力
端子をデコーダ７７を介してスイッチＳＷ３　に接続す
る。

【００５９】動作中、　ユーザは、　例えばマウスを入
力装置として用いるとともにビデオディスプレイ装置７
３のスクリーンで対象物の輪郭をたどることによって、
　ワークステーション７４を用い、　トラッキングすべ
き対象物の輪郭を抽出する。　この処理の間、　スイッ
チＳＷ３　は図７　にて示されている位置にあり、　こ
の結果、　ビデオ信号源７０からの画像がビデオディス
プレイ装置７３に表示される。　この後、　画像シーケ
ンスは、　ＣＤ−Ｉコーダ７１を用いて符号化される。　このようにして、　ワークステーション７４は、　図
１　〜５　を参照して説明したように処理される元の対
象物のマスクを、　対象物トラッキング装置７２に供給
する。　対象物トラッキング装置７２は、　分解能を制
御するための出力信号をＣＤ−Ｉコーダ７１の第２　入
力端子に供給する。　この出力信号を用いて、　ビデオ
信号源７０からのビデオ信号を符号化する。　通常、こ
の適用において、　対象物を自動的にビデオ電話の顔に
関するものと識別することはできない。　その理由は、
　トラッキングされるべき対象物の特徴がユーザにより
選択され、多くの形態を採り得るからである。　更に、
　ユーザが、　符号化されるべき画像シーケンスをビデ
オディスプレイ装置７３で監視し、　トラッキングが十
分なものであるかを調べることができるので、　ビデオ
電話適用において、　トラッキングを自動的に評価する
必要は必ずしもない。

【００６０】既に知られているように、　ＣＤ−Ｉオー
サリングステーションは、　ＣＤ−Ｉエミュレータ７５
とデコーダ７７とを具え、　ユーザが、　符号化された
シーケンスが十分なものであるかをチェックできるよう
にしている。　このことを可能にするために、　ビデオ
信号源７０からのビデオ信号の代わりに、　ＣＤ−Ｉコ
ーダ７１の出力端子を、　ビデオディスプレイ装置７３
に接続できるようにスイッチＳＷ３　を配置する。　こ
のスイッチＳＷ３の動作は、　ユーザの制御によるもの
であり、　好都合なことには、　ワークステーションの
キイボードあるいはマウスによって行うことができる。対象物トラッキング装置を、　ＣＤ−Ｉ規格による画像
シーケンス発生装置のみならず、　任意のマルチメディ
ア適用のための画像シーケンス発生装置とともに用いる
ことができる。

【００６１】本発明は、　ここに開示されている実施例
に限定されるものではなく、　要旨を変更しない範囲内
で、　種々の変更が可能である。　このような変更は、
　対象物トラッキング装置及びその構成要素の設計、　
製造、　及び使用において既知となっている他の特徴部
分を具えることができる。

【図面の簡単な説明】

【図１】本発明による方法を示すブロック図である。

【図２】初期テンプレートの一例を示す図である。

【図３】境界で画素値を繰り返すことによって拡張され
た図２の初期テンプレートを示す図である。

【図４】対象物のバイナリーマスクを示す図である。

【図５】１６個のサブテンプレートに分割された初期テ
ンプレートを示す図である。

【図６】本発明によるビデオ電話端末を示すブロック図
である。

【図７】本発明によるコンパクトディスクインターアク
ティブ（ＣＤ−Ｉ）オーサリング装置を示すブロック図
である。

【符号の説明】

Ａ　　テンプレートの拡張ブロックＢ　　境界の抽出ブロックＣ　　フレームのサブサンプリングブロックＤ　　テン
プレートのサブサンプリングブロックＥ　　広域マッチ
ングブロックＦ　　サブテンプレートの抽出ブロックＧ　　小さなサ
ブテンプレートの切り捨てブロックＨ　　局所的マッチ
ングブロックＩ　　しきい値処理ブロックＪ　　妨害テンプレートの切り捨てブロックＫ　　アフ
ィン変換予測ブロックＬ　　アフィン変換係数の計算ブロックＭ　　アフィン
変換ブロックＮ　　アフィン変換ブロックＯ　　マスクのしきい値処理ブロックＰ　　相違検出ブロックＱ　　平均化ブロックＲ　　しきい値処理ブロックＳ　　予測更新ブロックＴ　　アフィン変換予測ブロックＵ　　照度変化計算ブロックＶ　　アフィン変換予測ブロックＷ　　画像フレームの入力端子Ｚ　　テンプレート発生ブロック６０　　ビデオカメラ６１　　コーディク６２　　フェース検出手段６３　　対象物トラッキング手段６４　　トラッキング評価手段６５　　ポート６６　　ビデオディスプレイ装置７０　　ビデオ信号源７１　　ＣＤ−Ｉコーダ７２　　対象物トラッキング装置７３　　ビデオディスプレイ装置７４　　ワークステーション７５　　ＣＤ−Ｉエミュレータ７６　　出力端子７７　　デコーダ

Claims

【特許請求の範囲】

【請求項１】　　被写体中の３次元対象物を、　一連の
２次元画像フレームにわたってトラッキングする方法で
あって、該方法が：ａ）トラッキングすべき前記対象物を含む初期テンプレ
ートを形成する工程と；ｂ）トラッキングすべき前記対象物の輪郭を形成するマ
スクを抽出する工程と；ｃ）前記初期テンプレートを、前記対象物の特定の特徴
とは無関係な複数のサブテンプレートに分割する工程と
；ｄ）連続する各々のフレームをサーチし、先行するフレ
ームのテンプレートとのマッチングを見いだす工程と；
ｅ）連続する各々のフレームをサーチし、先行するフレ
ームのサブテンプレートの各々とのマッチングを見いだ
す工程と；ｆ）連続する各々のフレームにおいて、テンプレートの
位置に対する各々のサブテンプレートの位置の変位を決
定する工程と；ｇ）前記変位を用いて、変位した位置を写像することの
できる２変量変換の係数を決定する工程と；ｈ）前記変
換を行い、更新されたテンプレートと更新されたマスク
とを供給する工程；とを具えていることを特徴とする３
次元対象物トラッキング方法。
【請求項２】　　請求項１に記載の方法において、前記
２変量変換をアフィン変換とし、且つ前記方法が更にｉ
）前記対象物の境界で画素を繰り返すことによって、前
記初期テンプレートを拡張する工程を具えていることを
特徴とする３次元対象物トラッキング方法。
【請求項３】　　請求項１又は請求項２に記載の方法に
おいて、前記サブテンプレートの各々のサーチ領域を、
テンプレートマッチング位置の周囲の限定された領域と
することを特徴とする３次元対象物トラッキング方法。
【請求項４】　　請求項１〜３のいづれか一項に記載の
方法が更にｊ）マスクの内側の各画素の輝度を第１一定値に設定す
るとともに、マスクの外側の各画素の輝度を第２一定値
に設定する工程を具えていることを特徴とする３次元対
象物トラッキング方法。
【請求項５】　　請求項１〜４のいづれか一項に記載の
方法が更にｋ）トラッキングすべき前記対象物の領域占有率が所定
の値より小さいサブテンプレートの各々を切り捨てる工
程を具えていることを特徴とする３次元対象物トラッキ
ング方法。
【請求項６】　　請求項１〜５のいづれか一項に記載の
方法が更にｌ）局所的マッチングを見いだすことのできない任意の
サブテンプレートを切り捨てる工程と；ｍ）最低限の数
のサブテンプレートが残存しているかどうかを決定する
工程と；ｎ）最低限の数のサブテンプレートが残存している場合
に、これらの変位を用いて前記変換係数を計算する工程
；とを具えていることを特徴とする３次元対象物トラッ
キング方法。
【請求項７】　　請求項６に記載の方法において、残存
しているサブテンプレートの数が前記最低限の数よりも
少ない場合に、次のフレームにおいて前記テンプレート
マッチングのためのサーチ領域を増大させることを特徴
とする３次元対象物トラッキング方法。
【請求項８】　　請求項１〜７のいづれか一項に記載の
方法が更にｏ）前記更新されたテンプレートを、前記テンプレート
マッチングの位置で、前記変換されたマスクによって選
択された次のフレームの領域と比較する工程と；ｐ）該
比較工程の結果を用い、カルマンフィルタの利得補正項
を制御する工程；とを具えていることを特徴とする３次
元対象物トラッキング方法。
【請求項９】　　請求項８に記載の方法において、前記
比較工程ｏ）が：ｏ１）　各画素毎に、中心に問題となる画素を有する３
×３の画素ブロックを用いる工程と；ｏ２）　前記ブロックを、１画素づつ各方向に順番に変
位させる工程と；ｏ３）　各変位毎に、更新されたテンプレート内の画素
を、現在の画像と比較し、差値を計算する工程と；ｏ４
）　最小差値を見いだす工程と；ｏ５）　前記比較の結果として、前記最小差値を出力す
る工程；とを具えていることを特徴とする３次元対象物
トラッキング方法。
【請求項１０】　　請求項７〜９のいづれか一項に記載
の方法において、マッチングが見いだされない場合に、
再び前記変換を前記テンプレートに適用して、次のフレ
ームのテンプレートの形状及び位置を予測することを特
徴とする３次元対象物トラッキング方法。
【請求項１１】　　被写体中の３次元対象物を、　一連
の２次元画像フレームにわたってトラッキングするため
の装置が；トラッキングすべき前記対象物を含む初期テ
ンプレートを形成するための手段と；トラッキングすべ
き前記対象物の輪郭を形成するマスクを抽出するための
手段と；前記初期テンプレートを、複数のサブテンプレ
ートに分割するための手段と；連続する各々のフレーム
をサーチし、先行するフレームのテンプレートマッチン
グを見いだすための手段と；連続する各々のフレームを
サーチし、先行するフレームのサブテンプレートの各々
のマッチングを見いだすための手段と；連続する各々の
フレームにおいて、テンプレートの位置に対する各々の
サブテンプレートの位置の変位を決定するための手段と
；前記変位を用いて、変位した位置を写像することので
きる２変量変換の変換係数を決定するための手段と；前
記変換を行い、更新されたテンプレートと更新されたマ
スクとを供給するための手段；とを具えていることを特
徴とする３次元対象物トラッキング装置。
【請求項１２】　　請求項１１に記載の装置が、前記サ
ブテンプレートの各々のサーチ領域を、テンプレートマ
ッチング位置の周囲に限定するための手段を具えている
ことを特徴とする３次元対象物トラッキング装置。
【請求項１３】　　請求項１１又は請求項１２に記載の
装置が更に：局所的マッチングを見いだすことのできな
い任意のサブテンプレートを切り捨てるための手段と；
最低限の数のサブテンプレートが残存しているかどうか
を決定するための手段と；最低限の数のサブテンプレー
トが残存している場合に、これらの変位を用いて前記変
換係数を計算するための手段；とを具えていることを特
徴とする３次元対象物トラッキング装置。
【請求項１４】　　請求項１３に記載の装置が、残存し
ているサブテンプレートの数が前記最低限の数よりも少
ない場合に、次のフレームにおいて前記テンプレートマ
ッチングのためのサーチ領域を増大させるための手段を
具えていることを特徴とする３次元対象物トラッキング
装置。
【請求項１５】　　請求項１１〜１４のいづれか一項に
記載の装置が更に更新されたテンプレートを、前記テン
プレートマッチングの位置で、前記変換されたマスクに
よって選択された次のフレームの領域と比較するととも
に、該比較の結果を用い、カルマンフィルタの利得補正
項を制御するための比較手段を具えていることを特徴と
する３次元対象物トラッキング装置。
【請求項１６】　　請求項１５に記載の装置において、
前記比較手段が：各画素毎に、中心に問題となる画素を
有する３×３の画素ブロックを用いるための手段と；前
記ブロックを、１画素づつ各方向に順番に変位させるた
めの手段と；各変位毎に、前記更新されたテンプレート
を現在の画像と比較し、差値を計算するための手段と；
最小差値を見いだすための手段と；前記比較の結果とし
て、前記最小差値を出力するための手段；とを具えてい
ることを特徴とする３次元対象物トラッキング装置。
【請求項１７】　　請求項１５又は請求項１６に記載の
装置において、再び前記変換を前記テンプレートに適用
して、次のフレームのテンプレートの形状及び位置を予
測するための手段を具えていることを特徴とする３次元
対象物トラッキング装置。
【請求項１８】　　ビデオカメラと、該ビデオカメラが
供給する画像内の顔を識別するための手段と、連続する
画像フレームの顔の位置をトラッキングするための手段
と、電話線に接続されるべき出力信号を供給するコーデ
ックとを具えているビデオ電話端末であって、前記コー
デックが、ビデオカメラの出力端子に結合される第１入
力端子と、前記トラッキング手段の出力端子に接続され
る第２入力端子とを有し、該第２入力端子における信号
に分解能が依存する出力信号を供給するように前記コー
デックを構成し、且つ前記トラッキング手段が請求項１
１〜１７に記載の３次元対象物トラッキング装置を具え
ていることを特徴とするビデオ電話端末。
【請求項１９】　　動３次元対象物を含んでいる被写体
を表している一連の２次元画像を符号化するための方法
が：ａ）前記一連の２次元画像を表しているビデオ信号を発
生させるための工程と；ｂ）前記動３次元対象物の輪郭を形成するための工程と
；ｃ）請求項１〜１０のいづれか一項に記載の方法によっ
て、前記動３次元対象物をトラッキングする工程と；ｄ
）輪郭の外側の画像部分を表示する場合よりも、輪郭の
内側の画像部分を表示する場合に、高分解能でビデオ信
号を符号化する工程；とを具えていることを特徴とする
２次元画像符号化方法。
【請求項２０】　　動３次元対象物を含んでいる被写体
を表している一連の２次元画像を符号化するための装置
が：前記一連の２次元画像フレームを表しているビデオ
信号を発生させるための手段と；前記動３次元対象物の
輪郭を形成するための手段と；請求項１５〜１７のいづ
れか一項に記載の３次元対象物トラッキング装置を具え
、一連の画像フレームにわたって、前記動３次元対象物
をトラッキングするための手段と；輪郭の外側の領域よ
りも輪郭の内側の領域を、より高分解能でビデオ信号を
符号化するための手段；とを具えていることを特徴とす
る２次元画像符号化装置。
【請求項２１】　　インターアクティブ・メディア・プ
レーヤの記録担体に記録するために画像を符号化するよ
うに構成される請求項２０に記載の装置であって、前記
輪郭形成手段が、表示手段に結合されるとともに、ユー
ザが前記対象物の周囲の輪郭を作成できるようにする入
力装置を有している計算手段を具え、前記符号化手段を
エミュレータに結合させ、前記一連の画像をディスプレ
イ手段で再生できるように前記エミュレータを構成する
ことを特徴とする２次元画像符号化装置。