JPH06168330A

JPH06168330A - 移動対象のトラッキング

Info

Publication number: JPH06168330A
Application number: JP5175433A
Authority: JP
Inventors: Thanassas Dimitrios; ザナッサスディミトリオス
Original assignee: Koninklijke Philips Electronics NV; Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1992-07-16
Filing date: 1993-07-15
Publication date: 1994-06-14
Also published as: DE69317821D1; GB9215102D0; EP0579319A2; EP0579319B1; EP0579319A3

Abstract

(57)【要約】【目的】表示デバイス上に表示するためにカメラによ
って捕獲された一連の画像フレームとして表された情景
で対象をトラッキングすることを目的とする。【構成】本方法は、ａ）初期フレームの対象を一様な
動きを有する領域に区分し、ｂ）対象を初期フレームに
配置し、かつその重心と動きベクトルを見い出し、ｃ）
対象の重心の新しい位置を規定するために動きベクトル
を使用して次のフレームに対象の重心を投影し、ｄ）一
様な動きを有する多数の領域に次のフレームの影像を区
分し、ｅ）以前のフレームの対象の領域に類似する影像
の領域を見い出し、かつそれと共に新しい対象を生成す
るために投影された重心に近い重心を生成し、ｆ）新し
い対象のサイズと動きベトルを計算し、ｇ）新しい対象
の動きベトルを使用して続いて起こるフレームに対象の
重心の新しい位置を投影し、ｈ）ステップｄ）からｇ）
を繰り返すことの各ステップを具えている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、表示デバイス上に表示
するためにカメラによって捕獲された一連の画像フレー
ムとして表された情景で対象をトラッキングする方法に
関連している。

【０００２】本発明は、さらに表示デバイス上に表示す
るためにカメラによって捕獲された一連の画像フレーム
として表された情景で対象をトラッキングする装置に関
連している。

【０００３】本発明は特にビデオフォンに適用され、典
型的には通信伝送者の顔のような情景の部分が観測者に
特別な関心がある。ビデオフォンが広く受け入れられる
と、異なる製造業者の機器の間の両立性を保証する国際
的な標準を厳密に一致させなければならい。統合サービ
スディジタル回線網（ＩＳＤＮ：Integrated ServiceDi
gital Network）にわたって動作するビデオフォンにこ
の標準化が適合している。そのような１つの標準は低ビ
ット速度（64ｋビット／秒の倍数）でディジタル回線網
にわたるビデオフォン伝送に対するＣＣＩＴＴ研究グル
ープＸＶにより開発されたＨ．261 である。最も低いビ
ット速度（64ｋビット／秒）の達成に含まれた帯域幅低
減（あるいは、ビデオ圧縮比）は 300：１のオーダーで
ある。現行の符号化技術を使用するなら、復号された影
像の目に見える劣化としてそれ自身を表す伝送シーケン
スにいくらかの誤りを導入することなしにそのような大
きな低減の達成は可能ではない。

【０００４】Ｈ．261 符号化アルゴリズムの基礎は、い
くつかのよく知られた技術の混成（hybrid）であり、そ
れは混成動き補償DPCM/DCT符号器として記述することが
でき、ここでDPCMは差分パルスコード変調であり、DCT
は離散余弦変換である。上記のアルゴリズムにより生成
された影像の本質的な品質は影像の複雑性と影像の動き
の程度およびタイプの双方に依存している。ビデオフォ
ンを使用する人々はその動きを不当に制限できず、かつ
典型的なオフィス環境では背景のかなりの動きが存在し
よう。それ故、影像のかなりの部分にわたる動きによる
画像劣化の問題を考慮しなければならない。

【０００５】典型的なビデオフォン通信において、ビデ
オフォンを使用する人々は互いに会話し、互いの顔を眺
め、かつ何が背景に見えるかについては特に関心を持た
ない。それ故、ある戦略が提案され、そこでは例えば顔
のような影像の本質的な重要部分は、余り重要でない部
分を犠牲にして余分な利用可能ビット速度を受信するよ
うな態様で割り付けられている。このように、もし各画
像フレームにおいて、ユーザーの顔の配置が既知である
か、あるいは検出されたなら、顔の領域に使用された量
子化ステップは、余計なビットがこの領域に使用される
よう低下できる。その結果、背景は僅かなビットしか受
信せず、さらに劣化するが、しかしそれは注目の中心で
はないから、観測者によって知覚された受信画像の全体
の本質的な品質は改善される。影像の異なる部分へのビ
ット割り付けのこの荷重に対してＨ．261 標準内に規定
が存在している。

【０００６】その結果、ビデオフォン通信の画像品質を
改善するビット割り付けの荷重に適用できるよう、一連
の画像フレームの顔の配置とトラッキングの問題が取り
扱われた。

【０００７】顔をトラッキングする１つの方法はジェー
・エフ・エス・ヨー（J. F. S. Yau）とエヌ・ディー・
ダッフィ（N. D. Duffy ）の論文、「モデルに基づく符
号化適用における動きパラメータ評価の特徴トラッキン
グ方法（A Featrue TrackingMethos for Motion Parame
ter Estimation In A Model-Based Coding Application
）」、影像処理とその適用の第３回国際会議（Third I
nternational Conference on Image Processing and it
s Applications ）に提出、1989年7 月18−20にワーウ
ィック（Warwick ）で開催、ＩＥＥ会議刊行物No.307、
頁531 −535 に開示されている。

【０００８】この論文は次のことを表している。すなわ
ち、「顔の動きのダイナミックスがモデルに基づく影像
符号化構造の適用にパラメータ化できる方法である。ト
ラッキングアルゴリズムが記述され、それにより被験者
の眼、鼻および口のボックス（box ）が最初に配置さ
れ、次にブロック整合とコード一覧表（code book ）探
索技術の双方を使用して引き続くフレームにわたりトラ
ックされた。頭の位置と方位を規定するのに必要な６次
元の自由度が動きパラメータ評価アルゴリズムによりト
ラックされたボックス位置から導出される。アルゴリズ
ムの実現はボックス位置の空間分布の解釈と、それらを
顔の簡単化された位相幾何学的３次元モデルの関連付け
を含んでいる。

【０００９】解析された影像シーケンスの各フレームの
位置と方位の評価は２つのフェーズで実行される。第１
フェーズは影像シーケンスにわたる目、鼻および口のト
ラッキングを含んでいる。このことは第１フレーム内で
顔の特徴（facial features）を配置し、次にブロック
探索とコード一覧表技術を使用して引き続くフレームに
わたってそれらをトラッキングすることにより達成され
た。初期の特徴配置は手動で実行されるが、しかしその
後のすべての処理はソフトウエアアルゴリズムにより実
行された。特徴配置は関連した顔の特徴を完全に含有し
たボックスにより表現された。従って、影像シーケンス
解析の第１フェーズ（トラッキングフェーズ）の結果
は、時間軸に沿う影像シーケンスにわたる顔の特徴ボッ
クスの軌跡（trajectory）の記述である。第２フェーズ
（動きパラメータ評価フェーズと呼ばれた）は位置と方
位の評価を与える各フレームの顔の特徴の空間分布を解
釈する。２−Ｄデータから３−Ｄ情報を復元するタスク
は顔の簡単化された位相幾何学的モデルに顔の特徴ボッ
クス位置を参照することにより達成された。

【００１０】ピクチャーフォン適用の影像シーケンス解
析からの３−Ｄ情報の導出はロボットビジョンの適用の
ような適用では確度と精度を要求しない。後者（精度）
は角度と距離の正確かつ絶対的測定を要求する。顔の影
像の場合では、位置と方位パラメータを近似することで
十分である。顔の動きのダイナミクスは元の影像シーケ
ンスからのダイナミクスと完全に同期して再生されるこ
とがさらに重要である。それはチャネルにわたる通信の
可視ニュアンスを伝える絶対位置と方位よりも顔の動き
のダイナミクスであるという理由からである。」

【００１１】ヨー（Yau ）とダァフィ（Duffy ）により
説明された方法は多くの欠点を蒙っている。第１に、も
し目の１つあるいは口が閉塞（occlude ）される（すな
わち対象がその前で通過される）なら、顔のトラッキン
グが不可能になる。第２に、もし１つの目がカメラに対
して見えないように頭が回転されるなら、顔をトラック
できない。第３に、それは顔の特定の特徴、すなわち
目、鼻および口の識別を要求する。

【００１２】本発明は、表示デバイス上に表示するため
にカメラによって捕獲された一連の画像フレームとして
表された情景で対象をトラッキングする方法を与え、該
方法は、ａ）初期フレームの対象を一様な動きを有する領域に区
分すること、ｂ）対象を初期フレームに配置し、かつその重心と動き
ベクトルを見い出すこと、ｃ）対象の重心の新しい位置を規定するために動きベク
トルを使用して次のフレームに対象の重心を投影するこ
と、ｄ）一様な動きを有する多数の領域に次のフレームの影
像を区分すること、ｅ）以前のフレームの対象の領域に類似する影像の領域
を見い出し、かつそれと共に新しい対象を生成するため
に投影された重心に近い重心を生成すること、ｆ）新しい対象のサイズと動きベトルを計算すること、ｇ）新しい対象の動きベトルを使用して続いて起こるフ
レームに対象の重心の新しい位置を投影すること、およ
びｈ）ステップｄ）からｇ）を繰り返すこと、の各ステッ
プを具えている。

【００１３】この方法で、各フレームは一様な動きの領
域に区分される。対象の初期配置が必要とされ、それは
一様な動きのそのような多数の領域を具え、かつ連続す
る各フレームにおいて、対象に属する領域が見い出さ
れ、これらは新しい対象と呼ばれる。対象の重心は対象
の評価された動きを使用してフレームのシーケンスにわ
たってトラックされる。新しい対象の重心は対象のトラ
ックに使用されず、その代わりに、投影された重心が対
象のトラックに使用される。各ステージで得られた新し
い対象領域は新しい対象のサイズと動き特性の計算のみ
に使用されるが、その位置はそうではない。

【００１４】ステップｃ）とステップｆ）において、前
方動きベクトル（forward motion vector ）が計算さ
れ、一方、後方動きベクトル（backward motion vecto
r）は影像の区分に使用されよう。

【００１５】後方動きベクトルは標準Ｈ．261 コーデッ
クで既に利用可能であり、かつそれは対象のトラックに
これらの動きベクトルを使用することに対し便利であろ
う。しかし、これらの後方動きベクトル、すなわち以前
のフレームに現行フレームを投影するのに使用された動
きベクトルは、Ｈ．261 符号化アルゴリズムのフレーム
間符号化モデルを満足するよう設計されている。それに
対して、トラッキングは現行フレームから前方を眺める
評価ベクトル、すなわち前方動きベクトルを要求する。
トラッキングは後方動きベクトルの向きを逆にすること
により近似できるが、しかしこれは背景をカバーしたり
カバーしないことにより生起するあいまいさを生じ得
る。その結果、トラッキング機能に対して前方動きベク
トルを計算し、一方、区分に対して後方動きベクトルの
使用を保留することが好ましい。

【００１６】類似度（similarity）を決定するファクタ
は、サイズ、位置、および比較すべき領域の方向と方位
であろう。

【００１７】これらのファクタの相対的重要性は実験的
に決定でき、かつ現在好ましい実施例では、類似度の測
度は次の式により決定される。

【数１】類似度＝（mmd ＋mad ＋12×cd＋２×sd）／８ここでmmd は動きの大きさの差 mad は動きの角度の差 cd は重心の差 sd はサイズの差である。

【００１８】対象は人間の頭であり、かつこの方法は頭
の周りに矩形を構成するステップを含んでいる。画像の
残りよりも高い解像度でユーザーの顔を伝送できる量子
化器を導くよう、この矩形はＨ．261 ビデオフォンコー
デックに使用できよう。

【００１９】このステップの区分は、ｉ）画素の２つの隣接ブロックの動きベクトルを比較す
ること、 ii）もしその動きベクトルの間の差が所与のしきい値内
にあるなら、画素のブロックを同じ領域に割り当てるこ
と、 iii）画素のすべての隣接ブロックが検査され、かつ画
素の別のブロックが領域に統合されなくなるまで、領域
内で画素のブロックに隣接する画素の各ブロックにステ
ップｉ）とii）を繰り返すこと、 iv）領域内に含まれない２つの別の隣接ブロックを選択
し、かつ一様な動きの別の領域を創成するためにステッ
プｉ）から iii）を繰り返すこと、およびｖ）画像フレーム内のすべてのブロックが１つの領域に
割り付けられるまでステップiv）を繰り返すこと、のス
テップを具えることができる。

【００２０】画像を区分するこの方法は、所与の対象が
さらに単一区分領域となりやすいという利点を有してい
る。例えば、たとえその端部の１方の周りで回転した棒
（bar ）が各端部で著しく異なる動きを有しても、隣接
ブロック間の動きベクトルの差が小さいので単一領域に
区分されよう。領域の平均動きベクトルは可能なブロッ
ク（potential block ）との比較に使用されない。その
代わりに、隣接ブロックの動きベクトルが使用される。

【００２１】本発明は、表示デバイス上に表示するため
にカメラによって捕獲された一連の画像フレームとして
表された情景で対象をトラッキングする装置を備え、該
装置は、初期フレームの影像を一様な動きを有する領域
に区分する手段、対象を初期フレームに配置し、かつそ
の重心と動きベクトルを見い出す手段、対象の重心の新
しい位置を規定するために動きベクトルを使用して次の
フレームに対象の重心を投影する手段、一様な動きを有
する多数の領域に次のフレームの影像を区分する手段、
以前のフレームの対象の領域に類似する影像の領域を見
い出し、かつ新しい対象を生成するために投影された重
心に近い重心を有する手段、新しい対象のサイズと動き
ベトルを計算する手段、および新しい対象の動きベトル
を使用して続いて起こるフレームに対象の重心の新しい
位置を投影する手段、を具えている。

【００２２】区分手段は画素ブロックの後方動きベクト
ルを使用し、一方、投影手段は対象の前方動きベクトル
を使用しよう。

【００２３】領域の類似度は相対サイズ、位置および比
較すべき対象の動きの大きさと方向を考慮して決定され
よう。

【００２４】対象は人間の頭であり、かつ頭の周りに矩
形を構成する手段が備えられよう。

【００２５】区分手段は、画素の２つの隣接ブロックの
動きベクトルを比較する手段、もしその動きベクトルの
間の差が所与のしきい値より小さいなら、画素のブロッ
クを同じ領域に割り当てる手段、画素のすべての隣接ブ
ロックが検査され、かつ別のブロックが領域に統合され
なくなるまで、同じ領域内で画素のブロックに隣接する
画素のすべてのブロックを繰り返して考慮する手段、を
具えよう。

【００２６】本発明は、さらにビデオフォン端末を備
え、それはカメラ、表示ユニットおよびコーデックを具
え、ここでコーデックは所与の帯域幅の通信リンクにわ
たって画像情報を伝送するよう配設され、かつ異なる解
像度で各画像フレームの異なる領域を量子化する手段を
含み、ここで本発明によるトラッキング装置は、トラッ
クされた対象を含む画像フレームの領域が画像フレーム
の残りよりも高い解像度で伝送されるようにコーデック
を制御するために配設されている。

【００２７】本発明の上述および他の態様ならびにその
利点は添付図面を参照し、実例により記述された本発明
の以下の実施例から明らかであろう。

【００２８】

【実施例】図１に示されたように、Ｈ．261 コーデック
の符号化セクションは、処理および伝送のために共通の
中間フォーマットに受信ビデオ信号を変換する符号化配
列２に接続されている入力１を有している。符号化配列
２の出力はライン20を介して減算器３の第１入力と動き
評価器４の第１入力に送られている。減算器３の出力は
量子化器６に送られる離散余弦変換（ＤＣＴ）を形成す
る配列５に送られている。量子化器６の出力はバッファ
回路７の入力と逆量子化器８の入力に接続されている。
逆量子化器８の出力は逆ＤＣＴを実行する配列９の入力
に接続されている。逆ＤＣＴ配列９の出力はその出力が
フレームメモリ11に送られている加算回路10の第１入力
に接続されている。フレームメモリ11からの出力は加算
回路10の第２入力と減算器３の第２入力に接続されてい
る。加算回路10の出力はその出力がフレームメモリ11に
接続されているライン21を介して動き評価器４の第２入
力に送られている。コーデックの第２入力12は伝送のた
めの適切なコードに受信音声信号を符号化する音声符号
器13に接続されている。バッファ回路７と音声符号器13
の出力は伝送マルチプレクサ14の第１入力と第２入力に
それぞれ接続され、伝送マルチプレクサ14の出力はコー
デックの出力15に接続され、かつそれは伝送のために符
号化信号を供給している。

【００２９】これまで説明されたように、符号化セクシ
ョンはＨ．261 規格から知られたようなものであり、か
つ種々の機能ブロックの実現は当業者によく知られてお
り、従ってこれ以上説明されないであろう。Ｈ．261 コ
ーデックの前後関係で本発明を実行するために、多数の
追加機能ブロックが備えられている。符号化配列２の出
力はさらに動き検出器16の第１入力に接続され、一方、
加算回路10の出力はさらに動き検出器16の第２入力に接
続されている。動き検出器16の出力は初期ヘッドロケー
タ（initial head locator）17の入力に送られている。
ヘッドロケータ17の出力はその出力が量子化器６の別の
入力に接続されているヘッドトラッカー（head tracke
r）18に送られている。動き評価器４の出力は別の動き
評価器19の入力と、初期ヘッドロケータ17の第２入力
と、そしてヘッドトラッカー18の別の入力とに送られ
て。動き評価器19はヘッドトラッカー18の別の入力に印
加されている前方動きベクトルを以前のフレームについ
て計算する。

【００３０】Ｈ．261 は低ビット速度（64ｋビット／秒
の倍数）でディジタル回線網にわたるビデオフォン伝送
のために、ＣＣＩＴＴ研究グループＸＶにより開発され
た国際標準である。Ｈ．261 符号化アルゴリズムの基礎
はいくつかのよく知られた技術の混成であり、それは混
成動き補償DPCM/DCT符号器として説明され、ここでDPCM
は差分パルスコード変調であり、DCT は離散余弦変換で
ある。図１はそのようなシステムのブロック線図を示し
ている。初期化の後、このアルゴリズムは以下のように
進行する。フレームメモリ11は以前のフレーム期間の間
に捕獲された影像を含み、かつ「マクロブロック」と名
付けられた16×16画素ブロックと整合するブロックを使
用する動き評価器４は以前のフレームのブロックと現在
のブロックの各ブロックとの最良の整合を見い出す。現
在のフレームのデータはライン20を介して動き評価器４
に伝えられ、一方、以前のフレームのデータはライン21
を介して動き評価器４にも伝えられる。動きベクトルは
DPCM予測を形成するため検出器に応答するフレームメモ
リ11に影像を置き換えるのに使用される。現行の影像の
この予測と実際の影像との間の差は動き補償されたフレ
ーム差を与えるために２つの影像の減算により計算され
る。これは伝送すべきデータの総量を低減するために影
像シーケンス内の時間相関を利用している。

【００３１】アルゴリズムの次のステージは８×８画素
ブロックベースでその離散余弦変換を取ることにより動
き補償フレーム差内で、フレーム内相関あるいは空間相
関を利用するよう試みる。DCT の係数は量子化され（エ
ラーを導入するが）、かつ任意のブロックの小さい係数
を放棄するよう閾値化される。このステージの出力はハ
フマン（Huffman ）符号化であり、かつ伝送チャネルの
固定速度に符号器の瞬時データ速度を整合するバッファ
７に送られる。バッファ７内のデータの総量はモニタさ
れ、かつ信号は、解像度と伝送されたDCT 係数の数を決
定する量子化器６のステップサイズとしきい値を制御す
るようフィードバックされる。もしステップがあまりに
も粗くなると、符号器設計者は各フレームにデータを伝
送するためにさらに時間を与えて、フレーム速度を減少
し、かつ細かい量子化ステップを使用するよう選択しよ
う。

【００３２】符号器それ自身内で、符号化された影像は
複号され、かつ次の符号化サイクルに予測フレームを発
生するために蓄積される。たとえ符号化戦略の性質によ
りエラーが影像に導入されても、基準として複号された
影像の使用により導入されたネガティブフィードバック
はエラーが影像のそれらの部分に次第に集積されること
を許容し、その影像部分に対して予測は真の影像の良好
な近似であり、すなわち領域に対してそれは固定的かあ
るいは純粋に併進的な動きを有している。

【００３３】上記のアルゴリズムにより生成された影像
の本質的な品質は影像の複雑性（およびいかにこの複雑
性が適しているかはDCT の基本機能である）と影像の動
きの程度とタイプ（すなわちブロック整合は２−Ｄの平
面的動きを全くうまく処理できるが、しかし回転を含む
動きあるいはカメラ軸に平行な動きは本質的な影像品質
の劣化となる整合プロセスの相関を低減しよう）の双方
依存している。ビデオフォンを使用する人々はその動き
を不当に制限できず、全くそうであるが、典型的なオフ
ィス環境で、どんな場合でも背景の全く多くの動きであ
り、そこで影像の顕著な部分にわたる動きにより画像の
忠実度の劣化の問題が重要である。

【００３４】典型的なビデオフォン通信において、電話
を使用する人々は互いに会話し、互いの顔を眺め、かつ
背景の見かけには大きな関心がない。このことは影像わ
たって利用可能なビットを平等に割り付ける代わりに、
重要性の少ない部分を犠牲にして、影像の本質的な主要
部分が一層の利用可能なビット速度を受信する態様で割
り付けられるという戦略を提案する。このように、もし
ユーザーの顔の配置が既知なら、顔の領域で使用された
量子化は減少でき、従ってさらに多いビットがこの領域
で使用されよう。もちろん背景は少ないビットを受信
し、それ故劣化するが、しかしそれは注意の中心ではな
いから、全体の本質的な画像品質は改善される。影像の
異なる部分へのビット割り付けの荷重に対して、Ｈ．26
1 内に規定が存在する。話し手の頭の配置とトラッキン
グ、および、それを取り巻く矩形の生成によりこの規定
を使用するよう提案されている。矩形の座標は量子化器
６に印加され、従ってそれは矩形内で量子化を減少し、
このようにして顔の特徴は画像の他の部分と比較して増
大した解像度で伝送される。

【００３５】ユーザーの頭を配置しかつトラックするた
めに、追加の機能ブロック16から19が使用されている。
初期ヘッドロケーター17は任意の適当な形式を取ろう。
１つのアプローチはドイツ国出願特許第4028191 号に開
示されたような態様で頭と肩のシルエットを最初に配置
することである。

【００３６】影像フローフィールドのヒストグラムは、
水平軸に沿った16×16画素の連続する各ブロックに対し
て、その動きベクトルが零でない垂直軸に沿ったブロッ
クの数をカウントすることにより計算される。図２ｂに
示されてように、このことは肩に対して相対的に小さい
数と、頭に対して相対的に大きい数を与える。頭の縁部
に到達する場合に不連続性が存在し、この不連続性の検
出は水平方向に頭の縁部の配置を可能にする。このよう
にもし影像にわたり左から右に動くと、最初の不連続性
は顔の右側を識別しよう（被験者はカメラに対面してい
るものと仮定する）。

【００３７】同様に、顔の左側は影像にわたって右から
左に動く場合に不連続性を検出することにより配置でき
る。図２ｂに示されたように、左側からの水平位置５と
６との間に垂直に５ブロックのジャンプが、そして右側
からの水平位置３と４との間に垂直に４ブロックのジャ
ンプが存在する。するとこの例で垂直に５ブロックを水
平に４ブロックだけ取って頭の周りに矩形が描かれる。
図３に示された区分領域が検査され、矩形内に含まれた
それらの領域の少なくとも50％を有する領域は頭の部分
であると見なされ、かつそれらの領域に関連する情報は
頭の組（head set）として規定される。画像に頭を配置
すると、この情報はヘッドトラッカー18に伝えられる。

【００３８】ヘッドトラッカー18の目的はビデオフォン
シーケンスの人間のシルエットの頭の動き（ここで典型
的なシルエットは話し手の頭と肩である）をトラックす
ることであり、従って頭の領域の解像度は影像の残りに
対して増大でき、特に、Ｈ．261 規格の性質により、影
像の品質が劣化するかなりの動きを持つシーケンスでそ
うである。ヘッドトラッカーの入力は動きベクトルから
なるフレームの一連のペアーであり（それは影像の個別
ブロックに対応する）、ベクトルに対する１つのフレー
ムは水平方向であり、ベクトルに対するの他のフレーム
は垂直方向である。出力はシーケンスの人間のシルエッ
トの頭をカバーする矩形である。

【００３９】システムの主要な特徴は以下の通りであ
る。（１）各フレームの後方観察動きベクトル（backward l
ooking motion vector)により形成された光学的フロー
フィールドは一様な動きの領域に区分され、（２）頭の
初期の「良好な推定（good guess）」が得られ、それは
それぞれが一様な動きを有する一組の領域を具え、連続
する各フレームで、頭に属する領域が見い出され、そし
てそれらの領域は頭の組と呼ばれ、（３）頭の初期の
「良好な推定」の重心は、各フレームの頭の組の評価さ
れた前方動きを使用してフレームのシーケンスに沿って
トラックされ、（４）各フレームの頭の組の重心は保持
されるものではないが、しかしトラックされたものは保
持され、（５）各ステージで得られる頭の組は頭のサイ
ズと動き特性についての情報のみを与えるのに使用され
るが、その配置についてはそうではない。

【００４０】要約すると、ヘッドトラッカーは以前の
頭、すなわち以前のフレームの頭の重心を取り、かつそ
の前方動きベクトルを使用してそれを現在のフレームに
投影する。それが現在のフレームを処理する場合、それ
は以前の頭に類似するシルエットの領域を分離し、かつ
それは一緒にとられる場合に投影されたものに可能な限
り近い重心を生成する。本質的には、それは投影された
重心の周りで頭の組を生じる。それは頭の周りで矩形を
創成する頭の組のサイズを計算し、かつ今後説明する再
スタート動作に使用される頭の複合後方動きベクトルを
計算する。

【００４１】元の影像シーケンスからの各フレームはブ
ロック（16×16画素）に区分され、かつ各ブロックに対
して１つの水平動きベクトルおよび１つの垂直動きベク
トルが計算される。後方動きベクトルは既知の態様で動
き評価器４により計算される。追加の動き評価器19によ
り生成された前方動きベクトルはヘッドトラッカー18の
コーデックで既に利用可能な動き評価器４により生成さ
れた後方動きベクトルと共に使用される。動き評価器４
により生成された動きベクトルは以前のフレームに現行
のフレームを戻して投影することにより計算され、かつ
一様な動きの領域に影像を区分するためにヘッドトラッ
カー18で使用される。動き評価器４により生成された後
方動きベクトルを逆にし、かつそれらを以前のフレーム
の適当なブロック割り当てることにより生成される前方
観察動きベクトルは以前のフレームから現行フレームに
頭の重心を投影するために使用される。ヘッドトラッカ
ー18の入力は前方動きベクトルと後方動きベクトルの双
方を具えている。ｘ（水平）方向とｙ（垂直）方向に個
別動きベクトルを得るから、第１ステップは各ブロック
の個別動きベクトルを、ｙ軸の位置に対してその大きさ
と角度により特性化されるものに結合される。例えば大
きさ3.2 の画素と角度287 度を持つ動きベクトルが得ら
れるであろう。

【００４２】次のステップは、以下の原理に従って、後
方動きベクトル（それぞれは単一ブロックに対応する）
を同様な動きの領域にグループ分けすることである。２
つの隣接ブロックの動きベクトルが検査され、もしそれ
らの大きさと角度の差があるしきい値（それはプリセッ
トできるかあるいは開始時にユーザーにより設定され
る）内にあるなら、それらの２つの動きベクトルは同じ
領域に所属しているように見える。このタスクを実行す
る手順は反復的であり、かつその結果としてプロセスの
開始点にかかわらず、出力として１つの区分のみが存在
する。このような態様で、もし上述の規準に応じる一連
の隣接動きベクトルが存在するなら、それらは単一領域
にグループ分けされよう。従って、もしその端部の点の
１つの周りに回転する固体の棒が一例として取られるな
ら、区分は棒全体の１つの領域を与えるであろう（もし
隣接ブロックの動きの差が所定のしきい値内にあるな
ら）。これは区分の通常の方法とは異なっており、そこ
では１つのブロックの動きベクトルは候補メンバーであ
る領域の複合動きベクトルと比較される。通常の方法で
は、１つの端部の周りに回転する固体の棒は２つの端部
の非常に異なる動きによりいくつかの領域に区分されよ
う。

【００４３】一度１つの領域が見い出されたなら、その
領域の部分を形成しない２つの別の隣接ブロックが検査
され、かつ一様な動きの別の領域が同様な態様で構築さ
れる。全体のプロセスは画像フレームのすべてのブロッ
クが１つの領域に割り付けられるまで繰り返される。

【００４４】以前の区分の各領域に対して、重心（座標
はブロックを示すが画素は示さない）、動き、およびサ
イズが決定され、かつフレームのその隣接領域が見い出
される。このすべての情報は頭の配置プロセスの次のス
テージで使用される。

【００４５】現行フレームの各領域は以前のフレームの
各領域と比較される。領域はそれらの動き、サイズおよ
びそれらの重心間の距離に対して比較され、かつ類似度
測度は単一の実数であるこの情報から決定される。その
数が大きいほど、領域は似ていない。前述のファクタの
それぞれ１つは類似度測度に等しい寄与をしない。説明
された実施例では、２つの領域間の類似度測度を決定す
る式は、

【数２】類似度＝（mmd ＋mad ＋12×cd＋２×sd）／８ここでmmd は動きの大きさの差 mad は動きの角度の差 cd は重心の差 sd はサイズの差である。

【００４６】上述の類似度の式を使用すると、類似度測
度の大きさが大きいと非類似度（dissimilarity ）の程
度が大きい。上述の差のそれぞれ１つは計数できる（あ
るいは処理されたシーケンスで検出された）差に対応す
る最大値により分割され、その理由は小さい数で処理す
るのに便利であるからである。上述の式のファクタのそ
れぞれ１つの相対荷重は純粋に実験的に決定された。重
心の間の距離はサイズの差（それは動きの大きさと角度
の差よりもさらに寄与すべきである）よりも非類似度に
さらに寄与すべきであるということは理論的であるよう
に見える。このシステムはサイズと変位の変化よりも動
きの差にさらに寛容である。

【００４７】引き続くステップに対して、現行フレーム
の１つの領域が以前のフレームの１つの領域に類似して
いるかどうか、従って類似度のしきい値を規定すべきか
を知る必要がある。所定のしきい値より低い類似度を持
つ領域のみが類似していないと考慮される。不連続性を
決定するために、類似度関数の傾斜を使用して、しきい
値の自動決定の方法がこの実施例で使用されている。特
に、現行のフレームの各領域に対して、以前のフレーム
のすべての領域の類似度測度は、バブルソートアルゴリ
ズム（bubble-sorting algorithm）を使用して、昇順に
配列され、かつ離散関数ｓ（ｎ）が得られる。ここでｎ
は昇順の各領域の場所を表し、ｓ（ｎ）は対応する類似
度である。例えば、現行フレームの領域８が、

【数３】ｎ＝１，ａ＝５，ｓ（１）＝3.2 ／ｎ＝２，ａ
＝17，ｓ（ｎ）＝5.7 ／.. であると仮定し、ここで「ａ」は以前のフレームの領域
を表すものとする。以前のフレームの領域数５は3.2 に
等しい類似度を持つ第１のものであり、領域数17は5.7
に等しい類似度を持つ第２のものである等々である。

【００４８】関数ｓ（ｎ）の傾斜は傾斜近似式、

【数４】ｄ²s（ｎ）／ｄｎ²＝〔ｓ（ｎ＋ｄｎ）−２＊
ｓ（ｎ）＋ｓ（ｎ−ｄｎ) 〕／（ｄｎ)² を使用して見い出され、ここでｄｎは３に設定されてい
る。もし負から正への傾斜の変化（あるいはその逆）が
ｎの値ｉとｉ＋１との間で検出されるなら、領域ｉに対
応する類似度は検査されている現行フレームの特定の領
域のしきい値である。従って、現行フレームの各領域に
対して、しきい値が得られる。これらのすべてのしきい
値の平均値が計算され、これは以前のフレームと現行フ
レームの現行ペアの全体のしきい値である（それは多分
そのような次のペアとは異なるであろう）。もし、しき
い値が検出されないなら、システムはプリセット値を使
用する。

【００４９】しきい値内の類似度を持つ領域は類似であ
ると自動的に宣言されたような類似ではない。そのため
に、それらの重心間の距離がある所定の限界（２つの領
域のサイズを考慮するファクタにより増大されるが）内
にでなければならないことが起こる。

【００５０】一度、初期の頭が利用可能なら、すなわち
これまで説明されたように頭および肩シルエットから矩
形が見い出されるなら、システムは現在のフレームの頭
の組の計算を開始できる。第１ステップは以前のフレー
ム（それは最初、「良好な推定」である）の頭の組に対
応する前方動きベクトルを見い出し、かつ前方動きベク
トルにより述べられた位置で現在のフレームに以前の頭
の重心を投影することである。例えば、もし以前のフレ
ームの頭の重心がｘ＝５，ｙ＝12（これらの数はブロッ
クに対応することを想起されたい）であり、かつ動きベ
クトルが例えば180 度の方向に10画素だけ動くなら、現
在のフレームの投影された重心はｘ＝５，ｙ＝11（１ブ
ロックは16×16画素であることに注意されたい）であ
る。第１の反復において、頭の初期の重心は「良好な推
定」の重心である。それから、それは次のフレームに投
影され、その投影はそのフレームに対して頭の重心であ
る。重心は次のフレームに再び投影され、このプロセス
は終了するまで連続する。

【００５１】既に説明したように、重心が以前のフレー
ムから現在のフレームに投影された後、その重心の周り
に新しい頭を構築する必要がある。このステージで実行
すべき３つの動作が存在し、それらは順次記述されよ
う。

【００５２】新しい影像の頭の重心とすべての動き領域
の重心が既知であるから、もし新しい頭の組の重心への
それらの寄与が近いものよりもむしろ以前に投影された
ものからさらに離れるなら、第１ステップは領域（頭の
組に所属しない）の放棄を開始する。全シルエットの重
心が計算され、各領域は１つづつチエックされる。もし
以前の頭に類似していると見い出されるなら、すなわ
ち、もしそれが以前の頭の組の領域に類似したなら、考
慮されている領域は以前の頭の領域によりその類似度を
決定するためにまずチエックされ、かつ新しい頭の組に
のみ含むことができる。もし領域がこの判定規準に適合
するなら、それは一時無視され、かつ全シルエットの新
しい重心が計算される（その領域をマイナスする）。も
し新しい重心が予め投影されたものに近いなら、この領
域は頭の組に所属しないものと見える（その省略は残り
のものを所望の重心に近づけるからである）。もしこの
ことが起こらないなら、新しい領域は頭の組に含まれ
る。もし領域が放棄されるなら、残りの領域の重心は次
の領域がチェックされる場合に比較点として役立つもの
である。このような態様で、すべての領域がチェックさ
れ、頭の組に所属する領域の集合が見い出される。領域
がチェックされる順序は予め投影された重心に関してさ
らに遠いものから最も近いものである。従って、パブル
ソートアルゴリズムはその距離の昇順で領域を配列する
ために採用される。

【００５３】第１ステップの終わりで、その重心が所望
のものに非常に近い頭の組が利用可能である。しかし、
１つの問題は、しばしば、予め投影された重心を囲む領
域のみが見い出され、矩形の境界線のようなものを形成
し、かつ矩形の境界線の内部である領域は含まれないこ
とである。重心はなお投影されたものに非常に近いが、
しかし内部領域は失われる。このように、システムはこ
の境界線を満たすように配設され、かつ、もしもそれら
が再び以前の頭に類似しているなら、頭の組で内部のす
べての領域を含む。このことを実行するために、水平方
向と垂直方向の予め投影された重心から現行の頭の組の
最も遠い点の距離が計算される。水平方向と垂直方向の
これらの距離の平均値が取られ、かつ矩形はその側部が
以前の平均値（すなわち、矩形の各側部からの重心の距
離が平均値に等しい）の２倍に等しいその側部を有する
重心の周りに有効に描かれている。それらのサイズの少
なくとも50％だけその矩形内に含まれ、かつ以前の頭に
類似しているすべての領域は頭の組に含まれる。

【００５４】第３のステップは、空の頭の組が見い出さ
れている場合、すなわち頭の組のどの領域も以前の手順
により見い出されなかった場合の問題を処理している。
この場合、システムは全動作を再スタートすべきであ
り、そのようにするために、それは創成された頭の組が
存在した最後のフレームに戻る。すると最後に検出され
た頭の組と最大にオーバーラップする現行フレームの領
域を見い出し、これは初期の新しい頭の組である。この
頭の組は初期に加算された領域のオーバーラップに関し
てある限界内にある最後に検出された頭との全体のオー
バーラップを与える現行フレームのすべての領域により
さらに増大される。この手順は新しい頭の組２〔new he
ad set 2〕と呼ばれる。しかし、もしこの手順が失敗す
ると、システムはあるしきい値以下の以前の頭との類似
度を持つ領域を見い出す。この手順は新しい頭の組１
〔new head set 1〕と呼ばれる。すべてのこれらの努力
の後、もしもどんな頭も検出されないなら、あるいは、
もしも検出された頭の組の領域が非常に小さい（所与の
しきい値以下）であるなら、システムは以前の頭の情報
（サイズと動きベクトル）を現在のフレームに転送し、
もしどんな頭も見い出されないなら、頭が全く動かない
という理由で、多分どんな頭の組も見い出されないとい
うことを含んでいる。

【００５５】現行の頭の組が決定された場合（もしそれ
が空の組でないなら）、そのサイズと後方動きベクトル
が計算される。サイズ情報は顔の周りの矩形の構築に採
用され、それは現在のフレームの顔についての最終予測
を表し、かつ後方動きベクトルはこれまで説明された動
作の再スタートに使用される。その重心は重心を現在の
フレームに投影するために前方動きベクトルを使用して
既に計算された頭の重心と同じであるようにこの矩形が
構築される。矩形の領域は通常頭の領域に等しい。しか
し、非常に僅かな領域が頭の組に所属する場合に、頭の
対応領域が非常に小さい（多分、頭が非常に小さく動
き、それ故、それに対応して僅かな動きベクトルが存在
する）という問題を処理するためにサイズ正規化が遂行
されよう。正規化手順は次のようである。現行の頭の領
域が以前の頭の領域と比較され、もし現行領域が以前の
ものよりも小さいなら、最終の現行領域が影像として取
られ、それは現行領域プラス現行領域と以前の領域の間
の差の90％である。このようなやり方で、頭は縮小（sh
rink）を許容される（というのは、例えば人間はカメラ
から離れるという理由で）が、しかし余り多くはない
（もし現行の頭の組の非常に僅かな領域を検出するなら
それは生起するであろう）。これが頭の最終予測であ
る。

【００５６】以下が顔のトラッキング方法の特殊な実現
に関して注意すべき点である。（１）頭の重心の計算は各フレームで見い出された頭の
組の重心によって影響されない。頭の組の最初の「良好
な推定」で開始し、かつ初期の頭の組の重心と動きベク
トルを計算した後、動きベクトルは重心を次のフレーム
に投影するよう使用される。新しい位置は新しい動きベ
クトルにより再び投影され、この手順はシーケンスの終
了まで繰り返される。第１のものから離れたすべてのフ
レームで構成された頭の組の重心（すなわち「良好な推
定」に対応するもの）はこのプロセスに含まれない。

【００５７】（２）各ステージで見いだ出された頭の組
は頭の動きベクトルとサイズの決定にのみ使用される。
動きベクトルは次のフレームに重心を投影するのに使用
され、かつサイズは最終の矩形の創成に使用される。

【００５８】（３）頭のサイズと動きの計算から重心の
計算を分離することは顔配置システムで必要な頑丈さを
システムに与える。たとえ不良な領域が頭の組に統合さ
れても（これはさもなければ領域が統合されない正しい
動きベクトルを徹底的に変化しないから）、システムは
回復能力を有し、かつ悪い方向に頭の重心をシフトしな
い。

【００５９】（４）全プロセスに使用された２種類の動
きベクトルが存在する。それは、区分、類似度測定およ
び頭の再スタート動作に使用された後方動きベクトル
（それは現在のフレームの各ブロックが以前のフレーム
から到来した所を規定する）と、現在のフレームへの以
前の頭の重心の投影で使用された前方動きベクトル（そ
れは以前のフレームの各ブロックが現在のフレームに動
く所を規定する）である。

【００６０】図４は本発明による対象のトラッキング方
法を例示するフロー線図を示しており、それは特にビデ
オフォンの適用で顔のトラッキングに適用されている。
ブロック100 （ＩＩＭＶ）は影像と動きベクトルのメモ
リへの入力のプロセスを表している。

【００６１】図２は頭と肩の影像に重畳された動きベク
トルの一例を示し、頭と肩はトラックすべき対象であ
る。動きベクトルは16×16画素ブロックに対して導出さ
れている。入力影像はボックス101 （ＳＡＵＭ）により
表されたような一様な動きを有する領域に区分される。

【００６２】図３は図２の頭と肩の対象の区分を示して
いる。ボックス102 （ＦＦ？）の判定は、これがシーケ
ンスの第１フレームであるかどうかに関して行われてい
る。もしそうなら、以前に説明したように頭と肩の位置
の初期評価を行う必要があり、このプロセスはボックス
103 （ＩＥＨ）により表される。頭の位置の初期評価を
得ると、その重心と後方動きベクトルはボックス104
（ＣＣＭＶ）により表されたように計算される。ボック
ス105 （ＧＴＮＦ）は次のフレームに向かうステップを
表している。もしボックス102 （ＦＦ？）により表され
た判定が、これが初期フレームでないなら、以前のフレ
ームの頭の前方動きベクトルがボックス120 （ＣＦＭ
Ｖ）で計算され、かつ以前のフレームの頭の重心をボッ
クス106 （ＰＮＣ）で表されたような新しいフレームに
投影するのに使用される。現在の画像フレームに新しい
重心を投影すると、現在のフレームの区分された領域は
以前のフレームの区分された領域と比較される。それら
が以前のフレームのものに類似しているところ、および
投影された新しい重心から所与の距離内にある重心をと
もに生成する場合、それらはボックス107 （ＧＨ）によ
り表されたように重心の周りに対象を成長するよう新し
い頭に統合される。一様な動きの領域を取ることにより
重心の周りに成長した対象は頭の全領域を与える。する
とチェック、ボックス108 （ＨＦ？）が行われ、事実頭
が投影された重心の周りに見い出されるかどうかを見
る。もしそのような頭が見い出されたなら、ボックス10
9 （ＲＲＨ）に表されたような頭の境界線を含むよう矩
形が頭の周りに形成される。矩形内の領域の複合後方動
きベクトルはボックス110 （ＣＢＭＶ）により表された
ように計算され、かつ次のフレームに重心を投影するの
に使用される。

【００６３】もしボックス108 （ＨＦ？）の判定が、頭
が現在のフレームで見い出されなかってというものな
ら、再スタート手順はボックス111 （ＲＳＴ）により表
されたように行われる。再スタート動作にはいくつかの
異なる手順が存在する。第１の場合、システムは最後の
フレームに戻り、そこでは頭が見い出され、かつ現行フ
レームの区分された領域が最後に検出された頭と最大の
オーバーラップを有し、かつこれが初期の新しい頭であ
ると見い出される。この頭は初期の加算領域のオーバー
ラップの広がりに依存する程度で以前の頭の組の領域と
オーバーラップする現行フレームのすべての領域により
さらに増大される。もしこれが失敗すると、システムは
あるしきい値以下の以前の頭に、ある類似度を持つ領域
を見い出す。ボックス110 （ＣＢＭＶ）により表された
プロセスにより生成されたような頭の後方動きベクトル
が使用され、この機能を実行する。もしそれらのすべて
の努力の後で、どんな頭も検出されないか、あるいは検
出された頭の領域が非常に小さいなら（所与のしきい値
以下なら）、システムは現在のフレームに以前の頭の情
報を転送する。もしどんな頭も見い出されないなら、頭
が全く動かないという理由で、見い出すべき頭の領域が
多分存在しないと仮定される。もし情景に何の動きも存
在しないなら、すべての動きベクトルが零であるので、
全画像はただ１つの領域しか形成しないことに注意すべ
きである。

【００６４】図５は本発明による対象をトラッキングす
る方法を詳細に例示する別のフロー線図である。図５に
示されたプロセスを遂行するために、データプロセッサ
とメモリアレイを有する必要がある。システムが採用す
る最も重要なデータ構造は次のようなものである。ａ）入力動きベクトルの２つの固定サイズアレイ、（ｘ
動き２，ｙ動き２〔ｘmotion 2, ｙ motion 2 〕）、ｂ）結合動きベクトルを各ブロックに蓄積する１つの固
定サイズアレイ、（結合動き２〔comb motion 2 〕）、ｃ）区分の後で生じる対応領域番号を各ブロックに蓄積
する１つの固定サイズアレイ、（ｘｙ領域数２〔ｘｙ a
rea number 2〕）、ｄ）区分が生じる領域の記述に対し、１つは以前のフレ
ーム、１つは現在のフレームに対するものである記録の
２つの可変サイズアレイ、（フレーム１，フレーム２
〔frame 1 ，frame 2 〕）、ｅ）現行フレームの各領域と以前のフレームの各領域の
比較結果の１つの可変サイズアレイ、（比較アレイ〔co
mpare arr 〕）、ｆ）現行フレームの各領域と以前の頭との比較結果の１
つの可変サイズアレイ、（頭の比較〔comp head 〕）、ｇ）現行フレームの頭に所属するすべての領域の１つの
組（頭の組２〔headset 2 〕）と、頭が検出された最後
のフレームの頭の１つの組（頭の組１〔headset 1
〕）、ｈ）頭の組２〔headset 2 〕の特性（動き、サイズ、重
心）を記録する１つの記録（head rec 1）、ならびに頭
の組１〔head set 1〕の特性を記録するもの（head rec
1）。頭の組２〔headset 2 〕は現在のフレームの頭の
領域の組であり、頭の組１〔headset 1 〕はそのような
組が最後に検出されたフレームの頭の領域の組である。

【００６５】図５に示されたように、第１ステージ500
はメモリアレイ条件を初期化し、かつ最初の２つのフレ
ームに関するデータを読み取る。初期ステップ501 （Ｉ
ＮＩＴＯ）はアレイの各要素を零に設定することによ
り、アレイ、ｘ動き２，ｙ動き２〔ｘ motion 2, ｙ m
otion 2 〕および結合動き２〔comb motion 2 〕）を初
期化する。次のステージのボックス502 （ＲＢＭＶ）は
水平方向および垂直方向に入力後方動きベクトルを読み
取り、かつアレイ、ｘ動き２〔ｘ motion 2 〕とｙ動き
２〔ｙ motion 2 〕の対応要素にその値を割り当てる。
第３ステージのボックス503 （ＣＭＶ）はその大きさと
角度を与える結合動きベクトルを画素の各ブロックに対
して計算する。これはアレイ、結合動き２〔comb motio
n 2 〕に蓄積される結合動きベクトルを計算するために
ｘ動き２〔ｘ motion 2 〕とｙ動き２〔ｙ motion 2 〕
の値の入力を要求する。ボックス504 は入力影像の区分
を表している。この区分は影像を一様な動きの領域に区
分することに基づいて遂行される。ボックス505 （ＳＩ
Ｉ）は画素の各ブロックとその近傍の各々とを比較する
動作を表し、もし２つのブロックの後方動きベクトルの
対応する大きさと角度の間の差があるしきい値内にある
なら、２つのブロックは同じ領域に割り当てられる。全
動作は以前のテストに適合する各近傍ブロックに反復的
に繰り返される。これは判定点ａ（ボックス506 ）によ
り示される。

【００６６】ボックス504 への入力は、アレイ、結合動
き２〔comb motion 2 〕から取られ、かつ生成された出
力はアレイ、ｘｙ領域２〔ｘｙ area 2 〕に蓄積され
る。ボックス507 （ＣＮＡ）は区分から生じる領域の数
の計数のステップを表している。これはアレイ、フレー
ム２〔frame 2 〕の創成に使用され、かつアレイのサイ
ズを規定する。ボックス508 （ＩＮＩＴＩ）は、アレ
イ、フレーム２〔frame 2〕の要素を表す各記録の成分
への適当な初期値の割り当てを表している。ボックス50
9 （ＦＡＩ）において、現行区分から生じる各領域に対
して、動き、サイズおよび重心が見い出される。このこ
とを達成するために、入力、ｘ動き２，ｙ動き２〔ｘ m
otion 2, ｙ motion 2 〕，ｘｙ領域２〔ｘｙ area 2
〕が使用され、かつ生成された出力はアレイ、フレー
ム２〔frame 2 〕に蓄積される。これがボックス510
（ＦＦ？）に表されたように決定されたシーケンスの第
１フレームでないなら、現行フレームの各領域はボック
ス511 （ＣＦ）において、動きの大きさ、動きの角度お
よび重心の位置に対する以前のフレームの各領域と比較
され、２つの全領域の類似度が計算され、かつアレイ、
比較アレイ〔comp arr〕に蓄積される。

【００６７】現行フレームの類似度しきい値はバブルソ
ートを使用して昇順で配列した後で類似度測度のシーケ
ンスの不連続性の配置により見い出される。次に２つの
領域、すなわち現行フレームからのものと以前のフレー
ムからのものがその類似度と類似度しきい値とを比較す
ることにより類似しているかどうかが決定される。これ
はアレイ、フレーム１〔frame 1 〕とフレーム２〔fram
e 2 〕からの入力を使用し、かつ結果は比較アレイ〔co
mpare arr 〕に蓄積される。次のステージ、ボックス51
2 （ＣＨＤ）は以前のフレームの頭に対して現行フレー
ムの各領域の類似度測度の計算と、その領域が以前の頭
に類似しているかどうかの決定を含んでいる。類似度測
度は、アレイ、頭の比較〔compare head〕に蓄積され
る。ボックス513 （ＳＩＭ）により表された次のステー
ジは、以前のフレームの頭の組に所属しているどの領域
に類似しているかどうかを現行フレームの各領域に対し
て決定する。もし現行フレームの領域が以前の頭に類似
していると宣言されるなら、この情報はフレーム２〔fr
ame 2 〕の対応記録に蓄積される。ボックス514 （ＦＨ
２）により表された次のステージは現在のフレームの頭
に所属する領域を配置するプロセスを具えている。これ
は以前のフレームの前方動きベクトルを使用し、かつ投
影された重心に近い頭の組２〔headset 2 〕の重心を与
える一組の領域を具える頭の組〔headset 2 〕を見い出
すことにより、以前のフレームの頭の重心を現在のフレ
ームに投影して達成される。

【００６８】投影された重心に近いことに加えて、それ
らの領域はボックス513 （ＳＩＭ）に類似する手順によ
り決定されたような以前の頭に類似すべきである。この
手順は入力ｘとｙ（以前の頭の前方動きベクトルを使用
して以前のフレームから現在のフレームに投影されたよ
うな頭の重心の座標）とアレイ、フレーム２〔frame2
〕を使用し、かつ頭の組２〔headset 2 〕として蓄積
される出力を生成する。ボックス515 （ＦＨ３）により
表された次のステップは、頭の組２〔headset 2〕を充
填する手順である。この手順により決定される頭の組２
〔headset 2 〕の領域がボックス514 （ＦＨ２）で頭２
を見い出し、無視された内側領域を持つ矩形の実質的な
境界線の形を取る（この境界線は所望の重心を実際に有
している）ことが可能であるという理由で、この手順は
必要である。頭３を見い出すこのプロセスは、頭の組２
〔headset 2 〕にも含まれる以前の領域の領域に類似し
ている頭の組２〔headset 2 〕の境界線の内側のすべて
の領域を生起する。もしどの頭の組２〔headset 2 〕も
見い出されないなら（判定点ｂ）、ボックス516 （ＮＨ
Ｓ２）において、頭の組１〔headset 1 〕と最大のオー
バーラップを与えるすべての領域を頭の組２〔headset
2 〕として取ることによりシステムは再スタートする。
このプロセスは新しい頭の組２〔headset 2 〕と呼ばれ
る。もしこれが失敗すると、判定点ｃ（これは新しい頭
の組２〔headset 2 〕であるが）は空の組であり、する
とシステムはボックス517 （ＮＨＳ１）において、ある
しきい値以下である以前の頭との類似度を持つそれらの
領域を見い出す。

【００６９】もし頭の組２〔headset 2 〕が、以前の頭
の記録１〔head rec 1〕が頭の記録２〔head rec 2〕の
現行のフレームに転送されることをなお見い出さないな
いなら、頭は動かず、かつこれは頭の組２〔headset 2
〕が見い出されない理由であったということが仮定さ
れよう。頭の組が見い出されたと仮定すると（判定点
ｄ）、プロセスは今や遂行され、それは頭の組２〔head
set 2 〕の動きベクトル、サイズ、および重心をボック
ス518 （ＨＩ）で見い出すことを必要とする。この計算
に使用された入力はｘ動き２，ｙ動き２〔ｘ motion 2,
ｙ motion 2 〕，ｘｙ領域２〔ｘｙ area 2 〕であ
り、生成された出力は頭の記録２〔head rec 2〕に蓄積
される。次のプロセス、ボックス519 （ＦＨ１）は頭の
記録１〔head rec 1〕のサイズに従って正規化されたサ
イズ、頭の記録２〔head rec 2〕により決定されるサイ
ズを有する頭の重心の周りでの矩形の構築を必要とす
る。このように、このステージにおいて、頭は以前のフ
レームから現在のフレームにトラックされ、かつ矩形は
頭の周りに描かれ、従ってこれは量子化レベルを制御す
るために量子化器に送ることができる。

【００７０】別のフレームの入力を準備するために、初
期化ステップ、ボックス520 （ＩＮＩＴ２）が遂行さ
れ、それはアレイ、比較アレイ〔compare array 〕とフ
レーム１〔frame 1 〕を初期化する。次のステップ、ボ
ックス521 （ＳＤ）は現在のフレーム、すなわちフレー
ム２〔frame 2 〕からのすべての関連データを次のフレ
ームを処理するための準備にフレーム１〔frame 1 〕に
シフトする。次のステップ、ボックス522 （ＩＮＩＴ
３）は頭の記録２〔head rec 2〕のすべての成分を初期
化する。プロセスはボックス501 の初期化プロセスで再
スタートする。

【００７１】ボックス510 により決定された初期フレー
ムに対して、第１の頭を見い出すプロセス、ボックス53
0 （ＦＦＨ）が遂行される。初期の頭がこれまで説明さ
れたように見い出され、かつ初期の頭を作成する領域の
動きベクトルとサイズに関する情報は、ボックス518
（ＨＩ）において、プロセス頭の情報（process head i
nfo ）に使用される。

【００７２】説明された実施例に種々の修正を行うこと
ができる。例えば、説明された再スタート手順は空の頭
の組が見い出されるたび毎に初期の頭配置プロセスに進
むことにより置き換えができる。さらに再スタート手順
の数の制限が設定でき、そこではもしもどんな頭の組も
フレームの所与の数に対して見い出されないなら、対象
はトラッキングシステムで失われる。この方法はビデオ
フォンリンクにわたり伝送すべき画像の頭のトラッキン
グを参照して説明されたが、しかし画像データが制限さ
れた容量のデータリンクにわたり伝送すべきであるか、
あるいは制限された容量のメモリに蓄積されるべきであ
る任意のシステム、および所与の環境で関心のある他の
対象にも等しく適用可能である。

【００７３】そのようなシステムの一例は、対話式コン
パクトディスク（ＣＤ−Ｉ）と、動きを含む画像を表す
データが光ディスク（そこでは蓄積容量ならびに蓄積デ
ータの読み取り速度が制限されている）に蓄積される別
のシステムである。そのようなシステムでは、対象の初
期配置は、符号化動作が通常実時間で遂行されないの
で、画像フレームの各シーケンスに対してディスクの著
者により手動で遂行されよう。一方では、説明された実
施例で、後方動きベクトルは、区分、類似度測定、およ
び頭の再スタート動作に使用され、かつ前方動きベクト
ルは１つのフレームから次のフレームへの対象の重心の
投影に使用されているが、たとえこれが最良の全性能を
与えると現在信じられているとはいえ、それは動きベク
トルがこのような態様で使用すべきであるという新しい
概念にとって本質的ではない。Ｈ．261 コーデックにお
いて、後方動きベクトルはそれらがコーデック内で他の
機能に使用されるように既に利用可能であるが、しか
し、もしそれらが使用可能でないなら、区分、類似度測
定および種々のプロセスのタイミングに適当に修正して
ヘッドトラッカーの頭の再スタートに前方動きベクトル
を使用することは可能であろう。

【００７４】この開示から、さらに別の修正も当業者に
とって明らかであろう。そのような修正はそれ自身既知
であり、かつここに既に記載された特徴の代わりに、あ
るいはそれに付加して使用できる別の修正を含んでいて
もよい。たとえ特許請求の範囲（クレーム）がこの出願
では特徴の特定の組合せについて形式化されていても、
本出願の開示の範囲が明示的にせよ、暗示的にせよ、あ
るいは当業者に明らかなその任意の一般化ないし修正の
いずれかでここに開示された新奇な特徴あるいはその新
しい組合せを含み、それが任意のクレームで現在請求さ
れた同じ発明に関連しているかどうか、あるいはそれが
本発明と同じ技術的問題のいくつかないしそのすべてを
軽減するかどうかにかかわらずそうであることを理解す
べきである。出願人は本出願あるいはそれから導かれる
別の出願の実施の間にそのような特徴および／またはそ
のような特徴の組合せに新しいクレームを形式化する権
利を保有していることを注意する。

【図面の簡単な説明】

【図１】図１は本発明による対象トラッキング配列を統
合するＣＣＩＴＴのＨ．261 規格に適合するよう構成さ
れたコーデックの符号化セクションのブロック線図であ
る。

【図２】図２は画像フレームを示し、図２ａはその上に
重畳された動きベクトルを持つ画像フレームを示し、図
２ｂは図２ａに示された動きベクトルのブロックのヒス
トグラムを示している。

【図３】図３は一様な動きの区分された領域を持つ図２
の画像フレームを示している。

【図４】図４は本発明による対象のトラッキング方法を
例示するフロー線図である。

【図５】図５は本発明による対象のトラッキング方法を
さらに詳しく例示する別のフロー線図である。

【符号の説明】

１入力２符号化配列３減算器４動き評価器５ＤＣＴ配列６量子化器７バッファ回路８逆量子化器９逆ＤＣＴ配列 10 加算回路 11 フレームメモリ 12 第２入力 13 音声符号器 14 伝送マルチプレクサ 15 コーデックの出力 16 動き検出器 17 （初期）ヘッドロケーター 18 ヘッドトラッカー 19 動き評価器 20 ライン 21 ライン 100 ボックス 101 ボックス 102 ボックス 103 ボックス 104 ボックス 105 ボックス 106 ボックス 107 ボックス 108 ボックス 109 ボックス 110 ボックス 111 ボックス 500 ステージ 501 ボックスあるいはステップ 502 ボックス 503 ボックス 504 ボックス 505 ボックス 506 ボックス 507 ボックス 508 ボックス 509 ボックス 510 ボックス 511 ボックス 512 ボックス 513 ボックス 514 ボックス 515 ボックス 516 ボックス 517 ボックス 518 ボックス 519 ボックス 520 ボックス 521 ボックス 522 ボックス 530 ボックス

Claims

【特許請求の範囲】

【請求項１】表示デバイス上に表示するためにカメラ
によって捕獲された一連の画像フレームとして表された
情景で対象をトラッキングする方法であって、該方法
が、ａ）初期フレームの影像を一様な動きを有する領域に区
分すること、ｂ）対象を初期フレームに配置し、かつその重心と動き
ベクトルを見い出すこと、ｃ）対象の重心の新しい位置を規定するために動きベク
トルを使用して次のフレームに対象の重心を投影するこ
と、ｄ）一様な動きを有する多数の領域に次のフレームの影
像を区分すること、ｅ）以前のフレームの対象の領域に類似する影像の領域
を見い出し、かつそれと共に新しい対象を生成するため
に投影された重心に近い重心を生成すること、ｆ）新しい対象のサイズと動きベトルを計算すること、ｇ）新しい対象の動きベトルを使用して続いて起こるフ
レームに対象の重心の新しい位置を投影すること、およ
びｈ）ステップｄ）からｇ）を繰り返すこと、の各ステッ
プを具える方法。
【請求項２】ステップｃ）とステップｆ）において、
前方動きベクトルが計算される請求項１に記載の方法。
【請求項３】後方動きベクトルが影像の区分に使用さ
れる請求項１あるいは２に記載の方法。
【請求項４】ステップｅ）において、類似度を決定する
ファクタが、サイズ、位置および比較すべき領域の動き
の大きさと方向である請求項１から３のいずれか１つに
記載の方法。
【請求項５】対象が人間の頭である請求項１から４の
いずれか１つに記載の方法。
【請求項６】頭の周りに矩形を構成するステップを含
む請求項５に記載の方法。
【請求項７】ステップの区分が、ｉ）画素の２つの隣接ブロックの動きベクトルを比較す
ること、 ii）もしその動きベクトルの間の差が所与のしきい値内
にあるなら、画素のブロックを同じ領域に割り当てるこ
と、 iii）画素のすべての隣接ブロックが検査され、かつ画
素の別のブロックが領域に統合されなくなるまで、領域
内で画素のブロックに隣接する画素の各ブロックにステ
ップｉ）とii）を繰り返すこと、 iv）領域内に含まれない２つの別の隣接ブロックを選択
し、かつ一様な動きの別の領域を創成するためにステッ
プｉ）から iii）を繰り返すこと、およびｖ）画像フレーム内のすべてのブロックが１つの領域に
割り付けられるまでステップiv）を繰り返すこと、のス
テップを具える請求項１から６のいずれか１つに記載の
方法。
【請求項８】表示デバイス上に表示するためにカメラ
によって捕獲された一連の画像フレームとして表された
情景で対象をトラッキングする装置であって、該装置
が、初期フレームの影像を一様な動きを有する領域に区分す
る手段、対象を初期フレームに配置し、かつその重心と動きベク
トルを見い出す手段、対象の重心の新しい位置を規定するために動きベクトル
を使用して次のフレームに対象の重心を投影する手段、一様な動きを有する多数の領域に次のフレームの影像を
区分する手段、以前のフレームの対象の領域に類似する影像の領域を見
い出し、かつ新しい対象を生成するために投影された重
心に近い重心を有する手段、新しい対象のサイズと動きベトルを計算する手段、およ
び新しい対象の動きベトルを使用して続いて起こるフレ
ームに対象の重心の新しい位置を投影する手段、を具え
る装置。
【請求項９】区分手段が画素ブロックの後方動きベク
トルを使用する請求項８に記載の装置。
【請求項１０】投影手段が対象の前方動きベクトルを
使用する請求項８あるいは９に記載の装置。
【請求項１１】領域の類似度が相対サイズ、位置およ
び比較すべき対象の動きの大きさと方向を考慮して決定
される請求項８から１０のいずれか１つに記載の装置。
【請求項１２】対象が人間の頭である請求項８から１
１のいずれか１つに記載の装置。
【請求項１３】頭の周りに矩形を構成する手段を具え
る請求項１２に記載の装置。
【請求項１４】区分手段が、画素の２つの隣接ブロックの動きベクトルを比較する手
段、もしその動きベクトルの間の差が所与のしきい値より小
さいなら、画素のブロックを同じ領域に割り当てる手
段、画素のすべての隣接ブロックが検査され、かつ別のブロ
ックが領域に統合されなくなるまで、同じ領域内で画素
のブロックに隣接する画素のすべてのブロックを繰り返
して考慮する手段、を具える請求項８から１３のいずれ
か１つに記載の装置。
【請求項１５】ビデオフォン端末であって、カメラ、表示ユニットおよびコーデックを具え、ここで
コーデックは所与の帯域幅の通信リンクにわたって画像
情報を伝送するよう配設され、かつ異なる解像度で各画
像フレームの異なる領域を量子化する手段を含み、ここ
で請求項８から１４のいずれか１つに記載の対象トラッ
キング装置が、トラックされた対象を含む画像フレーム
の領域が画像フレームの残りよりも高い解像度で伝送さ
れるようにコーデックを制御するよう配設されるビデオ
フォン端末。