JP4074062B2

JP4074062B2 - ベクトル画像シーケンスにおける意味対象物の追跡

Info

Publication number: JP4074062B2
Application number: JP2000570977A
Authority: JP
Inventors: グチュアン; リーミン−チェ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1998-09-10
Filing date: 1999-09-10
Publication date: 2008-04-09
Anticipated expiration: 2019-09-10
Also published as: WO2000016563A1; US20050240629A1; EP1519589A2; DE69922973T2; US7088845B2; US7162055B2; US6711278B1; EP1112661A1; US20040189863A1; DE69922973D1; JP2002525735A; EP1112661B1; ATE286337T1; EP1519589A3

Description

【０００１】
（発明の分野）
本発明は、ビデオデータの分析に関し、より詳細には、意味対象物(セマンティックオブジェクト）と呼ばれ、意味のある実在物がビデオシーケンスなどのベクトル画像シーケンスを通じ移動する際に、それらを追跡(トラッキング）する方法に関する。
【０００２】
（発明の背景）
意味ビデオ対象物は、ボール、車、飛行機、ビル、細胞、目、唇、手、頭など、デジタルビデオクリップの有意な実在物を表す。このコンテキストでの「意味」という用語は、ビデオクリップの聴視者が、ある意味をその対象物(オブジェクト）に結び付けることを意味する。例えば、上に列挙した各対象物は、ある実世界の実在物を表し、ビューワは、これらの実在物に対応するスクリーンの部分を、それが描写する有意な対象物と関連付ける。意味ビデオ対象物は、コンテンツをベースとする通信、マルチメディア信号処理、デジタルビデオライブラリ、デジタル映画スタジオ、およびコンピュータの画面（ｖｉｓｉｏｎ）とパターンの認識を含む、様々な新しいデジタルビデオの応用分野で非常に有用である。意味ビデオ対象物をこれらの応用分野で使用するために、対象物の分割（セグメンテーション）と追跡の方法は、各ビデオフレームにおいて対象物を識別する必要がある。
【０００３】
ビデオ対象物を分割するプロセスは、一般に、画像データ中の関係のある対象物を抽出する、自動化または半自動化された方法を指す。ビデオクリップから意味ビデオ対象物を抽出することは、依然として長年わたる挑戦的な課題である。典型的なビデオクリップでは、意味対象物は、断片的な構成要素と、異なる色、複数の剛体運動／非剛体運動とを含む。意味対象物は、聴視者が認識することは容易であるが、意味対象物の形、色、および運動が非常に多様であるために、このプロセスをコンピュータ上で自動化することは困難である。最初のフレームで意味対象物の最初の輪郭をユーザに描かせ、次いでその輪郭を使用して、そのフレームの対象物の部分である画素を計算させることによって、満足な結果を達成することができる。各連続フレームにおいて、運動の推定を使用して、先行フレームからの分割した対象物に基づいて、対象物の最初の境界を予測することができる。この半自動対象物分割追跡方法は、ＣｈｕａｎｇＧｕとＭｉｎｇＣｈｉｅｈＬｅｅによるＳｅｍａｎｔｉｃＶｉｄｅｏＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎａｎｄＴｒａｃｋｉｎｇという名称の、同時継続中の米国特許出願第０９／０５４，２８０号に記載されており、本明細書でも参考文献によって組み込まれている。
【０００４】
対象物の追跡は、対象物がフレームからフレームに移動するときに、対象物の位置を計算するプロセスである。より一般的な意味ビデオ対象物に対処するために、対象物追跡方法は、断片的な構成要素と複数の非剛体運動を含んでいる対象物に対処することができなければならない。研究の大半は対象物追跡に費やされてきたが、現存の方法は、依然として、非剛体運動をする複数の構成要素を有する対象物を正確に追跡しない。
【０００５】
追跡技術のいくつかは、基準として同一グレイスケール／カラー使用して、領域を追跡する。１９９２年５月、イタリア、サンタマルゲリータ、ＥＣＣＶ′９２、ｐｐ．４７６〜４８４のＦ．ＭｅｙｅｒとＰ．Ｂｏｕｔｈｅｍｙによる「Ｒｅｇｉｏｎ−ｂａｓｅｄｔｒａｃｋｉｎｇｉｎａｎｉｍａｇｅｓｅｑｕｅｎｃｅ」、１９９５年６月、ＰｒｏｃｅｅｄｉｎｇｏｆｔｈｅＩＥＥＥ、Ｖｏｌ．８３、Ｎｏ．６、ＰＰ．８４３〜８５７のＰｈ．Ｓａｌｅｍｂｉｅｒ、Ｌ．Ｔｏｒｒｅｓ、Ｆ．Ｍｅｙｅｒ、Ｃ．Ｇｕによる「Ｒｅｇｉｏｎ−ｂａｓｅｄｖｉｄｅｏｃｏｄｉｎｇｕｓｉｎｇｍａｔｈｅｍａｔｉｃａｌｍｏｒｐｈｏｌｏｇｙ」、１９９７年、２月、サンホゼ、ＶＣＩＰ′９７、Ｖｏｌ．３０２４、Ｎｏ．１、ｐｐ．１９０〜１９９のＦ．ＭａｒｑｕｅｓとＣｒｉｓｔｉｎａＭｏｌｉｎａによる「Ｏｂｊｅｃｔｔｒａｃｋｉｎｇｆｏｒｃｏｎｔｅｎｔ−ｂａｓｅｄｆｕｎｃｔｉｏｎａｌｉｔｉｅｓ」、および１９９７年１０月、サンタバーバラ、ＩＣＩＰ′９７、Ｖｏｌ．Ｉ、ページ１１３〜１１６のＣ．Ｔｏｋｌｕ、Ａ．Ｔｅｋａｌｐ、Ａ．Ｅｒｄｅｍによる「Ｓｉｍｕｌｔａｎｅｏｕｓａｌｐｈａｍａｐｇｅｎｅｒａｔｉｏｎａｎｄ２−Ｄｍｅｓｈｔｒａｃｋｉｎｇｆｏｒｍｕｌｔｉｍｅｄｉａａｐｐｌｉｃａｔｉｏｎｓ」を参照されたい。
【０００６】
ある者は、同一運動情報を使用して、運動する対象物を追跡する。例えば、１９９４年９月、ＩＥＥＥＴｒａｎｓ．ｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、Ｖｏｌ．３、Ｎｏ．５．ｐｐ．６２５〜６３８のＪ．ＷａｎｇとＥ．Ａｄｅｌｓｏｎによる「Ｒｅｐｒｅｓｅｎｔｉｎｇｍｏｖｉｎｇｉｍａｇｅｓｗｉｔｈｌａｙｅｒｓ」、および１９９６年９月、スイス、ローザンヌ、ＩＣＩＰ′９６、Ｖｏｌ．Ｉ、ｐｐ．９２５〜９２８のＮ．ＢｒａｄｙとＮ．Ｏ′Ｃｏｎｎｏｒによる「Ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｔｒａｃｋｉｎｇｕｓｉｎｇａｎｅｍ−ｂａｓｅｄｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎａｎｄｓｅｇｍｅｎｔａｉｏｎｆｒａｍｅｗｏｒｋ」を参照されたい。
【０００７】
他の者は、空間基準と時間基準の組合わせを使用して、対象物を追跡する。１９９２年５月、イタリア、サンタマルゲリータ、ＥＣＣＶ′９２、ｐｐ．４８５〜４９３のＭ．Ｊ．Ｂｌａｃｋによる「Ｃｏｍｂｉｎｉｎｇｉｎｔｅｓｉｔｙａｎｄｍｏｔｉｏｎｆｏｒｉｎｃｒｅｍｅｎｔａｌｓｅｇｍｅｎｔａｔｉｏｎａｎｄｔｒａｃｋｉｎｇｏｖｅｒｌｏｎｇｉｍａｇｅｓｅｑｕｅｎｃｅｓ」、１９９５年、ニューヨーク、ＰｌｅｎｕｍＰｒｅｓｓ、ＭｕｌｔｉｍｅｄｉａＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＶｉｄｅｏＣｏｄｉｎｇ、ｐｐ．２３３〜２４０のＣ．Ｇｕ、Ｔ．Ｅｂｒａｈｉｍｉ、Ｍ．Ｋｕｎｔによる「Ｍｏｒｐｈｏｌｏｇｉｃａｌｍｏｖｉｎｇｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎａｎｄｔｒａｃｋｉｎｇｆｏｒｃｏｎｔｅｎｔ−ｂａｓｅｄｖｉｄｅｏｃｏｄｉｎｇ」、１９９６年５月、ＧＡ、アトランタ、Ｐｒｏｃ．ＩＣＡＳＳＰ′９６、Ｖｏｌ．４、ｐｐ．１９１４〜１９１７のＦ．Ｍｏｓｃｈｅｎｉ、Ｆ．Ｄｕｆａｕｘ、Ｍ．Ｋｕｎｔによる「Ｏｂｊｅｃｔｔｒａｃｋｉｎｇｂａｓｅｄｏｎｔｅｍｐｏｒａｌ、ａｎｄｓｐａｔｉａｌｉｎｆｏｒｍａｔｉｏｎ」、および１９９７年、１０月、サンタバーバラ、ＩＣＩＰ′９７、Ｖｏｌ．ＩＩ、ページ５１４〜５１７のＣ．ＧｕとＭ．Ｃ．Ｌｅｅによる「Ｓｅｍａｎｔｉｃｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎａｎｄｔｒａｃｋｉｎｇｕｓｉｎｇｍａｔｈｅｍａｔｉｃａｌｍｏｒｐｈｏｌｏｇｙａｎｄｐｅｒｓｐｅｃｔｉｖｅｍｏｔｉｏｎｍｏｄｅｌ」を参照されたい。
【０００８】
これらの技術のほとんどは、先行する領域／対象物を現在のフレームに射影し、現在のフレームで射影された領域／対象物をなんとか組み立てる／調整する順方向追跡メカニズムを使用する。これらの順方向技術の主な欠点は、現在のフレームで射影領域を組み立てる／調整すること、または複数の非剛体運動に対処することが困難なことである。これらの場合の多くでは、不確定なホールが出現するか、または結果的に境界が歪む可能性がある。
【０００９】
図１Ａ〜Ｃは、対象物追跡に関連する困難を示す、意味ビデオ対象物の簡単な例を提供する。図１Ａは、複数の色１０２、１０４を含んでいる建物１００の意味ビデオ対象物を示す。対象物が同一の色を有すると仮定する方法は、これらの種類の対象物をうまく追跡しない。図１Ｂは、図１Ａと同じ建物対象物を示すが、部分的に建物を遮っている木１１０によって断片的な構成要素１０６、１０８に分割されている点が異なる。対象物が画素の接続されたグループから形成されていると仮定する方法は、これらの種類の断片的な対象物をうまく追跡しない。最後に、図１Ｃは、人１１２を表す簡単な意味ビデオ対象物を示す。この簡単な対象物でさえ、異なる運動をする複数の構成要素１１４、１１６、１１８、１２０を有する。対象物は同一な運動を有すると仮定する方法は、これらの種類の対象物をうまく追跡しない。一般に、意味ビデオ対象物は、断片的な構成要素と、複数の色と、複数の運動と、任意の形状を有することが可能である。
【００１０】
一般的な意味ビデオ対象物のこれらの属性を取り扱うことに加えて、追跡方法は、許容可能な正確さのレベルを達成し、エラーがフレームからフレームに伝搬することを回避しなければならない。通常、対象物追跡方法は、先行フレームの区分に基づいて各フレームを区切るので、先行フレームのエラーは、次のフレームに伝搬する傾向がある。追跡方法が、画素的な正確で対象物の境界を計算しない場合には、重大なエラーが次のフレームに伝搬する可能性がある。その結果、各フレームについて計算された対象物の境界は精密ではなく、いくつかのフレームを追跡した後、対象物が失われることがある。
【００１１】
（発明の概要）
本発明は、ベクトル画像シーケンスにおいて、意味対象物を追跡する方法を提供する。本発明は、デジタルビデオクリップにおいて意味ビデオ対象物を追跡することに特に適しているが、様々な他のベクトル画像シーケンスに使用することもできる。この方法は、ソフトウエアプログラムのモジュールで実現されるが、デジタルハードウエア論理、またはハードウエア構成要素とソフトウエア構成要素の組合わせで実現することもできる。
【００１２】
この方法は、フレームから領域を分割し、次いで分割した領域を、１つまたは複数の意味対象物の境界が既知である目標フレームに射影することによって、画像シーケンスにおいて意味対象物を追跡する。射影領域は、それが目標フレームの意味対象物と重複する程度を決定することによって、意味対象物の形成部分として分類される。例えば、通常の応用では、追跡方法は、各フレームに対し、意味対象物の境界が以前に計算されている先行フレームに領域を射影することによって領域を分類することを繰り返す。
【００１３】
追跡方法は、意味対象物が、最初のフレームですでに識別されていると仮定する。意味対象物の最初の境界を得るために、意味対象物分割方法を使用して、最初のフレームにおいて意味対象物の境界を識別することが可能である。
【００１４】
最初のフレームの後、追跡方法は、先行フレームの分割結果および現在と先行する画像フレームの分割結果に基づいて動作する。シーケンスの各フレームに対し、領域抽出処理（ｒｅｇｉｏｎｅｘｔｒａｃｔｏｒ）は、同一領域をフレームから分割する。次いで、運動推定処理（ｍｏｔｉｏｎｅｓｔｉｍａｔｏｒ）で、これらの領域のそれぞれに対して領域をベースとする整合を実行し、先行フレームで最も密接に整合しているイメージの値の領域を識別する。このステップで得られた運動パラメータを使用して、分割境界がすでに計算されている先行フレームに、分割した領域を射影する。次いで、領域分類処理（ｒｅｇｉｏｎｃｌａｓｓｉｆｉｃａｔｉｏｎ）は、射影された領域が先行フレームの意味対象物と重複する程度に基づいて、現在のフレームの意味対象物の部分として領域を分類する。
【００１５】
上述の手法は、フレームの順序付けられたシーケンス上で動作する場合特に適している。これらの種類の応用では、先行フレームの分割結果を使用して、次のフレームから抽出した領域を分類する。しかし、入力フレームと、意味対象物の境界が既知である他の任意の目標フレームとの間で、意味対象物を追跡するために使用することもできる。
【００１６】
方法のある実装では、独自の空間分割方法を使用する。特に、この空間分割方法は領域発生プロセスであり、このプロセスでは領域の点に対する最小のイメージの値と最大のイメージの値の差が閾値より小さい限り、イメージの点が領域に追加される。この方法は、シーケンシャル分割方法として実現され、ある開始点の第１領域で開始し、同じテストを用いて次々にシーケンシャル領域を形成して、イメージの点の同一グループを識別する。
【００１７】
方法の実装は、追跡方法の正確さを改善する他の特徴を含む。例えば、追跡方法は、対象物の境界を不鮮明にせずに画像エラーを除去する領域ベースの前処理と、計算した意味対象物境界に関する後処理を含むことが好ましい。対象物の計算した境界は、目標フレームの同じ意味対象物に関連しているものとして分類された個々の領域から形成される。ある実装では、ポストプロセッサは、過半数オペレータフィルタを用いて、意味対象物の境界を円滑化する。このフィルタは、フレームの各点に対し近接するイメージの点を検査し、これらの点の最大数を含む意味対象物を決定する。次いで、その点を点の最大数を含んでいる意味対象物に割り当てる。
【００１８】
本発明の他の利点および特徴は、以下の詳細な説明と添付の図によって明らかになるであろう。
【００１９】
（詳細な説明）
意味対象物追跡システムの概要
以下のセクションで、意味対象物追跡方法について説明する。この方法は、最初のフレーム（Ｉ−フレーム）に対する意味対象物が既知であると仮定する。この方法の目的は、先行する意味区分画像と先行フレームからの情報に基づいて、現在のフレームで意味区分画像を見つけることにある。
【００２０】
意味区分画像に関する基本的な観察は、区分画像の境界は、有意な実在物の物理的な縁部に位置するということにある。物理的な縁部は、２つの接続された点の間の位置であり、これらの点でのイメージの値（例えば、３色の色強度、グレイスケール値、運動ベクトル）は、著しく異なっている。追跡方法は、この観察を利用し、分割と克服の戦略を用いて、意味ビデオ対象物追跡システムを解明する。
【００２１】
第１に、追跡方法は、現在のフレームで物理的な縁部を見つける。これは、分割方法、特に空間分割方法を用いて実現される。この分割方法の目的は、現在のフレームで、同一イメージの値（例えば、色強度の３重線、グレイスケール値）を有する全ての接続されている領域を抽出することである。第２に、追跡方法は、現在のフレームで抽出された各領域を分類し、それが先行フレームのどの対象物に属するかを決定する。この分類分析は、領域ベースの分類問題である。領域ベースの分類問題が解明された後は、現在のフレームの意味ビデオ対象物は、抽出および追跡されたことになる。
【００２２】
図２は、意味ビデオ対象物追跡システムを示す図である。追跡システムは、以下の５つのモジュールを備える。
１．領域前処理２２０
２．領域抽出２２２
３．領域ベースの運動推定２２４
４．領域ベースの分類２２６
５．領域の後処理２２８
【００２３】
図２では、以下の表記を使用する。
Ｉ _ｉ−フレームｉに対する入力画像
Ｓ _ｉ−フレームｉに対する空間分割の結果
Ｍ _ｉ−フレームｉに対する運動パラメータ
Ｔ _ｉ−フレームｉに対する追跡結果
【００２４】
追跡方法は、最初のフレームＩ _０に対する意味ビデオ対象物が、すでに既知であると仮定する。最初のフレームから開始して、分割プロセスは、フレームの意味対象物の境界を定義する最初の区分を決定する。図２では、Ｉ−分割ブロック２１０が、意味ビデオ対象物を分割するプログラムを表す。このプログラムは、最初のフレームＩ _０を取り入れ、意味対象物の境界を計算する。通常、この境界は、２進またはアルファマスクとして表される。様々な分割の手法を使用して、第１フレームに対する意味対象物を見つけることが可能である。
【００２５】
ＧｕとＬｅｅによる同時継続中の米国特許出願第０９／０５４，２８０号に記載されているように、１つの手法は、ユーザが、意味ビデオ対象物の境界の内側および外側の回りで境界を描くことができる描写用ツールを提供することである。次いで、このユーザが描いた境界は、計算した境界を意味ビデオ対象物の縁部にスナップする自動化方法のための開始点として役立つ。関連のある複数のビデオ対象物を含んでいるアプリケーションでは、Ｉ−分割プロセス２１０は、各対象物についてマスクなどの区分画像を計算する。
【００２６】
最初のフレームで使用した後処理ブロック２１２は、最初の区分画像を円滑化し、エラーを除去するプロセスである。このプロセスは、後続フレームＩ _１、Ｉ _２で意味ビデオ対象物を追跡する結果を処理するために使用する後処理と同一または類似のものである。
【００２７】
次のフレーム（Ｉ _１）で開始する追跡プロセスのための入力は、先行フレームＩ _０と先行フレーム分割の結果Ｔ _０を含む。破線２１６は、各フレームに対する処理を分離する。破線２１４は、最初のフレームと次のフレームに対する処理を分離するが、破線２１６は、意味ビデオ対象物がフレームを追跡する間、後続フレームに対する処理を分離する。
【００２８】
意味ビデオ対象物追跡は、フレームＩ _１で開始する。第１ステップでは、入力フレームＩ _１を簡略化する。図２では、簡略化ブロック２２０が、他の分析の前に入力フレームＩ _１を簡略化するために使用する領域前処理ステップを表す。多くの場合、入力データは、追跡結果に悪影響を与える可能性がある雑音を含んでいる。領域前処理は、雑音を除去し、他の意味対象物追跡が、クリーンな入力データ上で実行されることを保証する。
【００２９】
簡略化ブロック２２０は、分割方法が、接続された画素の領域をより正確に抽出することを可能とするクリーンな結果を提供する。図２では、分割ブロック２２２は、入力フレームで同一イメージの値を有する接続された領域を抽出する空間分割方法を表す。
【００３０】
各領域に対し、追跡システムは、接続された領域が、以前の意味ビデオ対象物を源とするかを決定する。追跡段階が現在のフレームに対して完全であるとき、現在のフレームにある意味ビデオ対象物の境界は、これらの接続された領域の境界から構成される。したがって、空間分割は、現在のフレームに対し、信頼できる分割結果を提供すべきである。すなわち、いかなる領域も欠損するべきではなく、いかなる領域もそれに属さない区域を含むべきではない。
【００３１】
接続された領域が、意味ビデオ対象物に属するかを決定する第１ステップでは、接続領域と先行フレームの対応する領域とを整合することである。図２に示すように、運動推定ブロック２２４は、接続された領域と現在および先行フレームを入力として取り入れ、現在のフレームで各領域と最も密接に整合する、先行フレームの対応する領域を見つける。各領域に対し、運動推定ブロック２２４は運動情報を提供し、現在のフレームの各領域が、先行フレームに由来する場所を予測する。この運動情報は、先行フレームにある各領域の祖先の位置を示す。その後で、この位置情報を使用して、現在の領域が、意味ビデオ対象物に属するかをどうかを決定する。
【００３２】
次に、追跡システムは、各領域が意味ビデオ対象物を源とするかについて各領域を分類する。図２では、分類ブロック２２６は、各領域が源としている可能性がある先行フレームで意味対象物を識別する。分類プロセスは、各領域に対する運動情報を使用して、その領域が先行フレームに由来する場所を予測する。予測した領域を先行フレームの分割結果と比較することによって、分類プロセスは、予測した領域が意味対象物または先行フレームに対してすでに計算された対象物と重複する程度を決定する。この分類プロセスの結果は、現在のフレームの各領域を意味ビデオ対象物または背景と関連付ける。現在のフレームで追跡された意味ビデオ対象物は、先行フレームの対応する意味ビデオ対象物と連結された全ての領域の集合（ｕｎｉｏｎ）を備える。
【００３３】
最後に、追跡システムは、各対象物に対して連結領域を後処理する。図２では、後処理ブロック２２８が、現在のフレームで各意味ビデオ対象物の獲得された境界を微調整する。このプロセスは、分類手続きで導入されたエラーを除去し、境界を円滑化して視覚効果を改善する。
【００３４】
各後続フレームに対し、追跡システムは、先行フレームと、先行フレームの追跡結果と、現在のフレームとを入力として使用して、自動化形態で同じステップを繰り返す。図２は、フレームＩ _２に対して反復された処理ステップの例を示す。ブロック２４０〜２４８は、次のフレームに適用された追跡システムのステップを表す。
【００３５】
様々な順方向追跡メカニズムを使用する他の領域と対象物の追跡システムと異なり、図２に示す追跡システムは、逆方向追跡を実行する。逆方向の領域をベースとする分類の手法は、空間分割の結果として、最終の意味ビデオ対象物の境界が、常に有意な実在物の物理的な縁部に位置するという利点を有する。また、各領域が個々に取り扱われるので、追跡システムは、容易に断片的な意味ビデオ対象物または非剛体運動に対処することができる。
【００３６】
定義
追跡システムの実装について説明する前に、これ以降の説明を通して使用する一連の定義から始めることが助けになろう。これらの定義は、追跡方法が、カラーのビデオフレームのシーケンスだけでなく、複数次元画像データの他の時間的シーケンスについても適用されることを示す助けになる。このコンテキストでは、「複数次元」は、各離散イメージの点の空間的座標、並びにその点でのイメージの値を指す。画像データの時間的シーケンスは、それが複数次元データアレイの連続フレームからなるので、「ベクトル画像シーケンス」と呼ぶことができる。ベクトル画像シーケンスの例として、下記の表１に列挙した例について考える。
【００３７】
【表１】

【００３８】
次元ｎは、画像サンプルの空間座標における次元の数を指す。次元ｍは、画像サンプルの空間座標に位置するイメージの値の次元の数を指す。例えば、カラーボリューム画像シーケンスの空間座標は、３次元空間における画像サンプルの位置を定義する３つの空間座標を含み、したがってｎ＝３である。カラーボリューム画像の各サンプルは、３つのカラーの値Ｒ、Ｇ、およびＢを有し、したがってｍ＝３である。
【００３９】
以下の定義は、集合およびグラフの理論表記を用いて、ベクトル画像のコンテキストで追跡システムを説明する基礎を与える。
【００４０】
定義１接続点：
Ｓはｎ次元の集合とする。点ｐ∈Ｓ⇒ｐ＝（ｐ１、．．．、ｐ_ｎ）。∀ｐ、ｑ∈Ｓ、ｐとｑは、その距離Ｄ_ｐ、ｑが１に等しい場合のみ接続されている。
【００４１】
【数１】

【００４２】
定義２接続経路：
Ｐ（Ｐ⊆Ｓ）は、ｍ個の点ｐ１、．．．ｐ_ｍからなる経路とする。経路Ｐは、ｐ_ｋとｐ_ｋ＋１（ｋ∈｛１、．．．、ｍ−１｝が接続点である場合のみ接続されている。
【００４３】
定義３近接点：
Ｒ（Ｒ⊆Ｓ）は領域とする。点
【００４４】
【数２】

【００４５】
は、∃他の点ｑ（ｑ∈Ｒ）ｐとｑが接続点である場合のみ領域Ｒに近接する。
【００４６】
定義４接続領域：
Ｒ（Ｒ⊆Ｓ）は領域とする。Ｒは、∀ｘ、ｙ∈Ｒ、∃接続経路Ｐ（Ｐ＝｛ｐ_１、．．．ｐ_ｍ｝）でｐ_１＝ｘおよびＰ_ｎ＝ｙである場合のみ接続領域である。
【００４７】
定義５区分画像：
区分画像Ｐは、写像（ｍａｐｐｉｎｇ）Ｐ：Ｓ→Ｔであり、Ｔは完全な順序付けされた格子（ｌａｔｔｉｃｅ）である。Ｒ _ｐ（ｘ）は、点ｘ：Ｒ _ｐ（ｘ）＝∪_ｙ∈Ｓ｛ｙ｜Ｐ（ｘ）＝Ｐ（ｙ）｝を含む領域とする。区分画像は、次の条件を満たさなければならない。∀ｘ、ｙ∈Ｓ、Ｒ _ｐ（ｘ）＝Ｒ _ｐ（ｙ）またはＲ _ｐ（ｘ）∩Ｒ _ｐ（ｙ）＝φ；∪_ｘ∈ＳＲ _ｐ（ｘ）＝Ｓ。
【００４８】
定義６接続区分画像：
接続区分画像は、∀ｘ∈Ｓ、Ｒ _ｐ（ｘ）が常に接続されている区分画像Ｐである。
【００４９】
定義７微細区分
区分画像Ｐが、Ｓ上の他の区分画像Ｐ′より微細である場合、これは、∀ｘ∈Ｓ、Ｒ _ｐ（ｘ）⊇Ｒ _ｐ′（ｘ）を意味する。
【００５０】
定義８粗区分：
区分画像Ｐが、Ｓ上の他の区分画像Ｐ′より粗である場合、これは、∀ｘ∈Ｓ、Ｒ _ｐ（ｘ）⊆Ｒ _ｐ′（ｘ）を意味する。
【００５１】
区分画像に対して究極的な場合が２つある。一方は「最も粗い区分」であり、これは、全てのＳ：∀ｘ、ｙ∈Ｓ、Ｒ _ｐ（ｘ）＝Ｒ _ｐ（ｙ）に及ぶ。他方は「最も微細な区分」であり、Ｓの各点は、個々の領域：∀ｘ、ｙ∈Ｓ、ｘ≠ｙ⇒Ｒ _ｐ（ｘ）≠Ｒ _ｐ（ｙ）である。
【００５２】
定義９隣接領域：
２つの領域Ｒ _１とＲ _２は、∃ｘ、ｙ（ｘ∈Ｒ _１およびｙ∈Ｒ _２）に対し、ｘとｙが接続点である場合のみ隣接する。
【００５３】
定義１０領域に隣接するグラフ：
Ｐは複数次元集合Ｓ上の区分画像である。Ｐにはｋ（Ｒ _１、．．．、Ｒ _ｋ）の領域があり、Ｓ＝∪Ｒ _ｉ、およびｉ≠ｊ⇒Ｒ _ｉ∩Ｒ _ｊ＝φである。領域隣接グラフ（ＲＡＧ）は、頂点Ｖの集合と縁部の集合Ｌとからなる。Ｖ＝｛ｖ_１、．．．、ｖ_ｋ｝とし、各ｖ_ｉは、対応する領域Ｒ _ｉに関連付けられている。縁部の集合Ｌは、｛ｅ_１、．．．、ｅ_ｔ｝、
【００５４】
【数３】

【００５５】
であり、各ｅ_ｉは、２つの対応する領域が隣接領域である場合、２つの頂点の間に構築される。
【００５６】
図３Ａ〜Ｃは、異なる種類の区分画像の例を示し、図３Ｄは、これらの区分画像に基づく領域隣接グラフの例を示す。これらの例では、Ｓは、２次元画像の集合である。白区域３００〜３０８と、斜線区域３１０〜３１４と、点区域３１６とは、２次元画像フレームでの異なる領域を表す。図３Ａは、２つの断片的な領域（白区域３００と３０２）を有する区分画像を示す。図３Ｂは、２つの接続領域（白区域３０４と斜線区域３１２）を有する接続区分画像を示す。図３Ｃは、図３Ａの斜線区域が、２つの領域、斜線区域３１４と点区域３１６を備えるという点で、図３Ａと比較してより微細な区分画像を示す。図３Ｄは、図３Ｃの区分画像の対応する領域隣接グラフを示す。グラフの頂点３２０、３２２、３２４、３２６は、それぞれ領域３０６、３１４、３１６、３０８に対応する。縁部３３０、３３２、３３４、３３６、および３３８は、隣接領域の頂点を接続する。
【００５７】
定義１１ベクトル画像シーケンス：
積
【００５８】
【数４】

【００５９】
のｍ（ｍ≧１）個の完全に順序付けされた完全格子Ｌ_１、．．．、Ｌ_ｍを与えられた場合、ベクトル画像シーケンスは、写像Ｉ _ｔ：Ｓ→Ｌのシーケンスであり、Ｓはｎ次元の集合で、ｔは時間領域にある。
【００６０】
いくつかの種類のベクトル画像シーケンスを表１に示す。これらのベクトル画像シーケンスは、カラー画像などの一連のセンサ、または濃度（ｄｅｎｓｅ）運動の場などの計算されたパラメータスペースから獲得することができる。入力信号の物理的な意味は場合ごとに異なるが、それらは全て例外なくベクトル画像シーケンスと見なされる。
【００６１】
定義１２意味ビデオ対象物：
Ｉは、ｎ次元集合Ｓ上のベクトル画像とする。Ｐは、Ｉの意味区分画像とする。Ｓ＝∪_{ｉ＝１、．．．、ｍ} Ｏ _ｉであり、各Ｏ _ｉは、意味ビデオ対象物の位置を示す。
【００６２】
定義１３意味ビデオ対象物分割：
Ｉは、ｎ次元集合Ｓ上のベクトル画像とする。意味ビデオ対象物分割は、対象物の数ｍと各対象物Ｏ _ｉの位置を見つけるものとする。
【００６３】
ｉ＝１、．．．、ｍ、でＳ＝∪_{ｉ＝１、．．．、ｍ} Ｏ _ｉである。
【００６４】
定義１４意味ビデオ対象物追跡：
Ｉ _ｔ−１は、ｎ次元集合Ｓの上のベクトル画像であり、Ｐ_ｔ−１は、時間ｔ−１での対応する意味区分画像とする。Ｓ＝∪_{ｉ＝１、．．．、ｍ} Ｏ _{ｔ−１、ｉ}である。各Ｏ _{ｔ−１、ｉ}（ｉ＝１、．．．、ｍ）は、時間ｔ−１での意味ビデオ対象物である。Ｉ _ｔの意味ビデオ対象物追跡は、時間ｔ、ｉ＝１、．．．、ｍで意味ビデオ対象物を見つけるときに定義される。∀ｘ∈Ｏ _ｔ−１、_ｉおよび∀ｙ∈Ｏ _ｔ、ｉ：Ｐ_ｔ−１（ｘ）＝Ｐ_ｔ（ｙ）である。
【００６５】
実装例
以下のセクションでは、特定の意味ビデオ対象物追跡方法について、より詳細に説明する。図４は、以下で説明する実装の主要な構成要素を示すブロック図である。図４の各ブロックは、上記で略述した対象物追跡方法の部分を実現するプログラムモジュールを表す。コスト、性能、および設計の複雑さなどの様々な考慮事項に応じて、これらのモジュールのそれぞれは、デジタル論理回路においても実現することが可能である。
【００６６】
上記で定義した表記を用いて、図４に示す追跡方法は、入力として、時間ｔ−１での先行フレームの分割結果と現在のベクトル画像Ｉ _ｔを取り入れる。現在のベクトル画像は、ｎ次元集合Ｓ上の積Ｌ（定義１１参照）のｍ個（ｍ≧１）の完全に順序付けされた完全格子Ｌ_１、．．．、Ｌ_ｍにおいて定義されている。
【００６７】
∀ｐ、ｑ∈Ｓ、Ｉ _ｔ（ｐ）＝｛Ｌ_１（ｐ）、Ｌ_２（ｐ）、．．．、Ｌ_ｍ（ｐ）｝
【００６８】
この情報を用いて、追跡方法は、シーケンスの各フレームに対し、区分画像を計算する。分割の結果は、各フレームで各意味対象物の位置を識別するマスクである。各マスクは、各フレームで、それがどの対象物に対応するかを識別する対象物番号を有する。
【００６９】
例えば、表１で定義されているカラー画像シーケンスについて考察する。各点ｐは、２次元画像の画素を表す。集合Ｓの点の数は、各画像フレームの画素の数に対応する。各画素での格子は、赤、緑、および青の強度値に対応する３つのサンプル値を備える。追跡方法の結果は、各フレームに対する対応する意味ビデオ対象物の部分を形成する全ての画素の位置を識別する一連の２次元マスクである。
【００７０】
領域の前処理
図４に示す実装は、入力ベクトル画像を簡略化することによって、フレームに対する処理を開始する。特に、簡略フィルタ４２０は、入力ベクトル画像全体をクリーンにし、その後さらに処理を行う。この前処理段階の設計では、偽データを導入しない簡略方法を選択することが好ましい。例えば、低域通過フィルタは、画像をクリーンにし滑らかにする可能性があるが、ビデオ対象物の境界を歪める可能性もある。したがって、入力ベクトル画像を簡略化し、同時に意味ビデオ対象物の境界の位置を保持する方法を選択することが好ましい。
【００７１】
中央値フィルタまたは形態フィルタなどの多くの非線形フィルタは、このタスクのための候補である。現在の実装では、入力ベクトル画像の簡略化のために、ベクトル中央値フィルタ、メジアン（Ｍｅｄｉａｎ）（・）を使用する。
【００７２】
ベクトル中央値フィルタは、入力画像の各点に対する近接点の中央イメージの値を計算し、その点のイメージの値を中央値で置き換える。ｎ次元集合Ｓのあらゆる点ｐに対し、構造要素Ｅは、それの回りで定義され、それは全ての接続点を含んでいる（接続点に関する定義１参照）。
【００７３】
Ｅ＝∪_ｑ∈Ｓ｛Ｄ_ｐ、ｑ＝１｝
【００７４】
点ｐのベクトル中央値は、構造要素Ｅ内の各構成要素の中央値として定義される。
【００７５】
メジアン（Ｉ_ｔ（ｐ））＝｛中央値_ｑ∈Ｅ｛Ｌ_１（ｑ）、．．．、中央値_ｑ∈Ｅ｛Ｌ_ｍ（ｑ）｝｝
【００７６】
そのようなベクトル中央値フィルタを使用することによって、ベクトル画像Ｉ _ｔの小さな変動を除去することができ、同時に、ビデオ対象物の境界が、構造要素Ｅの空間的設計の下でうまく保持される。その結果、追跡プロセスは、より効果的に、意味ビデオ対象物の境界を識別することができる。
【００７７】
領域抽出
ベクトル入力画像をフィルタリングした後、追跡プロセスは、現在の画像から領域を抽出する。これを達成するために、追跡プロセスは、現在の画像を取り入れて、「同一」イメージの値を有する接続点の領域を識別する空間分割方法４２２を使用する。これらの接続領域は、領域ベースの運動推定４２４と領域ベースの分類４２６で使用される点の領域である。
【００７８】
領域抽出段階の実行において、取り組まなければならない主要な課題が３つある。第１に、「同一」の概念を強固にする必要がある。第２に、領域の合計の数を見つけるべきである。第３に、各領域の位置を固定しなければならない。ベクトル画像データの分割に関係する文献は、様々な空間分割方法を記載している。大半の一般的な空間分割方法は、下記のものを使用する。
【００７９】
・領域の同一性を定義する多項式関数
・領域の数を見つける決定論的方法、および／または
・全ての領域の位置を最終決定する境界調整
【００８０】
これらの方法は、いくつかの応用例では満足な結果をもたらすことが可能であるが、非剛体運動と、断片的な領域と、複数の色を有する非常に多様な意味ビデオ対象物に対しては、正確な結果を保証しない。意味対象物を分類することができる正確さは、領域の正確さに依存しているので、空間分割方法に要求される正確さは、非常に高度なものとなる。分割段階後、いかなる意味対象物の領域も欠損しておらず、いかなる領域もそれに属さない区域を含まないことが好ましい。現在のフレームにある意味ビデオ対象物の境界は、これらの接続領域の全境界の部分集合として定義されているので、その正確さは、追跡プロセスの結果の正確さに直接影響する。境界が不正確な場合、結果的な意味ビデオ対象物の境界も不正確になる。したがって、空間分割方法は、現在のフレームに対し、正確な空間区分画像を提供するべきである。
【００８１】
追跡方法の現在の実装では、ＬａｂｅｌＭｉｎＭａｘと呼ばれる、新規で速い空間分割方法を使用する。この特別の手法は、シーケンシャルの形態で、１度に１つの領域を発生（ｇｒｏｗ）発生させる。この手法は、他の並行領域発生プロセス、すなわち、領域発生が任意のシードから始まる前に、全てのシードを特定する必要のある他の並行領域発生プロセスとは異なる。シーケンシャル領域発生方法は、領域を次々に抽出する。これにより、より柔軟に各領域を取り扱うことが可能となり、全体的な計算の煩雑さを低減する。
【００８２】
領域の同一性は、領域の最大値と最小値の差によって制御される。入力ベクトル画像Ｉ _ｔは、積Ｌの完全に順序付けされたｍ個（ｍ≧１）の完全格子Ｌ_１、．．．、Ｌ_ｍにおいて定義されていると仮定する（定義１１参照）。
【００８３】
∀ｐ、ｑ∈Ｓ、Ｉ _ｔ（ｐ）＝｛Ｌ_１（ｐ）、Ｌ_２（ｐ）、．．．、Ｌ_ｍ（ｐ）｝
【００８４】
領域Ｒの最大値と最小値（ＭａｘＬとＭｉｎＬ）は、下式のように定義される。
【００８５】
【数５】

【００８６】
ＭａｘＬとＭｉｎＬの差が、閾値（Ｈ＝｛ｈ_１、ｈ_２、．．．、ｈ_ｍ｝より小さい場合、その領域は同一である。
【００８７】
同一性；∀ｉ、１≦ｉ≦ｍ、（ｍａｘ_ｐ∈Ｒ｛Ｌ_ｉ（ｐ）｝−ｍｉｎ_ｐ∈Ｒ｛Ｌ_ｉ（ｐ）｝≦ｈ_ｉ
【００８８】
ＬａｂｅｌＭｉｎＭａｘ方法は、次々に各領域に名前を付ける。ｎ次元集合Ｓの点ｐから開始する。領域Ｒは、ＬａｂｅｌＭｉｎＭａｘがその上で動作している現在の領域と仮定する。開始時では、点ｐ：Ｒ＝｛ｐ｝のみを含んでいる。次に、ＬａｂｅｌＭｉｎＭａｘは、領域Ｒの全ての近接点（定義３参照）を検査し、近接点ｑがその中に挿入されている場合に、領域Ｒが依然として同一であるかを調べる。挿入によって領域の同一性を変更しない場合、点ｑは領域Ｒに追加される。点ｑが領域Ｒに追加されたとき、点ｑは集合Ｓから消去されるべきである。領域Ｒは、徐々に、さらに近接点を追加することができない同一テリトリまで拡大する。次いで、Ｓに残存している点からの点で、新しい領域が構築される。Ｓにもはや残存する点がなくなるまで、このプロセスが続く。プロセス全体は、以下の疑似コードによって明瞭に説明することができる。
【００８９】
ＬａｂｅｌＭｉｎＭａｘ：
【００９０】
【数１】

【００９１】
ＬａｂｅｌＭｉｎＭａｘは、下記を含む多くの利点を有する。
【００９２】
・ＭａｘＬとＭｉｎＬは、他の基準と比較して、領域の同一性について、より精密な説明を提示する。
・同一性の定義は、正確な領域をもたらす領域の同一性に対し、より厳密な制御を与える。
・ＬａｂｅｌＭｉｎＭａｘは、信頼できる空間分割結果をもたらす。
・ＬａｂｅｌＭｉｎＭａｘは、多くの他の方法より、計算がはるかに煩雑でない。
【００９３】
これらの利点により、ＬａｂｅｌＭｉｎＭａｘは、空間分析に対しよい選択肢となり、また、代替分割方法を使用して、接続領域を識別することが可能である。例えば、他の領域発生方法は、異なる同一基準と「同一」領域のモデルを使用して、追加の点を同一領域に追加するかを決定する。例えば、これらの基準は強度の閾値を含んでおり、各新しい点と領域の近接点との強度の差が閾値を超えない限り、領域に点が追加される。また、同一基準は、領域の点の強度値が変動することが可能であり、それでも依然として接続領域の部分と見なすことができる方法について説明する数学的関数の観点から定義することが可能である。
【００９４】
領域ベースの運動推定
領域ベースの運動推定４２４のプロセスは、分割プロセスによって識別された領域のイメージの値と、先行フレームの対応するイメージの値とを整合し、領域が先行フレームから移動した方法を推定する。このプロセスを示すために、以下の例を考察する。Ｉ _ｔ−１は、時間ｔ−１のｎ次元集合Ｓ上の先行ベクトル画像とし、Ｉ _ｔは、時間ｔの同じ集合Ｓ上にある現在のベクトル画像とする。領域抽出手順は、現在のフレームＩ _ｔでＮ個の同一領域Ｒ _ｉ（ｉ＝１、２、．．．、Ｎ）を抽出する。
【００９５】
Ｓ＝∪_{ｉ−１、．．．、Ｎ} Ｒ _ｉ
【００９６】
ここで、追跡プロセスは次に進み、先行フレームの意味ビデオ対象物の正確に１つに属するとして、各領域を分類する。追跡プロセスは、この領域ベースの分類問題を、領域ベースの運動推定と補償を用いて解明する。現在のフレームＩ _ｔの各抽出した領域Ｒ _ｉに対し、運動推定手順を実行して、これらの領域が、先行フレームＩ _ｔ−１で発生した場所を見つける。多くの運動モデルを使用することが可能であるが、現在の実装は、運動推定手順として並進運動モデルを使用する。このモデルでは、運動推定手順は、その領域に関する予想エラー（ＰＥ）を最小限に抑える領域Ｒ _ｉに対する運動ベクトルＶ _ｉを計算する。
【００９７】
【数７】

【００９８】
上式で‖・‖は、２つのベクトルの絶対的な差の合計を表し、Ｖ _ｉ≦Ｖ _ｍａｘ（Ｖ _ｍａｘは最大探索範囲）である。この運動ベクトルＶ _ｉは、先行フレームＩ _ｔ−１での軌跡の位置を示す領域Ｒ _ｉに割り当てられる。
【００９９】
他の運動モデルも同様に使用することが可能である。例えば、アフィンまたは透視運動モデルを使用して、現在のベクトル画像の領域と、先行ベクトル画像の対応する領域との間の運動をモデルすることができる。アフィンおよび透視運動モデルは、幾何学的変換（例えば、アフィンまたは透視変換）を使用して、あるフレームと他のフレームとの間の領域の運動を定義する。この変換は、領域のいくつかの点に対する運動ベクトルを見つけ、次いで、選択した点での運動ベクトルを用いて連立方程式を解いて係数を計算することによって計算することが可能な運動係数で表される。他の方式は、運動係数の最初の集合を選択し、次いでエラー（例えば、絶対的な差の合計または２乗した差の合計）が閾値より小さくなるまで繰り返す。
【０１００】
領域ベースの分類
領域ベースの分類プロセス４２６は、運動情報を用いて各領域の位置を変更し、先行フレームで領域の推定された位置を決定する。次いで、この推定位置を先行フレーム（Ｓ _ｔ）の意味ビデオ対象物の境界と比較し、どの意味ビデオ対象物の部分を最も形成しやすいかを決定する。
【０１０１】
それを示すために、以下の例を考察する。Ｉ _ｔ−１とＩ _ｔは、ｎ次元集合Ｓ上の先行および現在のベクトル画像とし、Ｐ_ｔ−１は、時間ｔ−１での対応する意味区分画像とする。
【０１０２】
Ｓ＝∪_{ｉ＝１、．．．、ｍ} Ｏ _{ｔ−１、ｉ}
【０１０３】
各Ｏ _{ｔ−１、ｉ}（ｉ＝１、．．．、ｍ）は、時間ｔ−１での意味ビデオ対象物の位置を示す。Ｎ個の抽出された全領域Ｒ _ｉ（ｉ＝１、２、．．．、Ｎ）があり、各領域は、現在のフレームで関連付けられた運動ベクトルＶ _ｉ（ｉ＝１、２、．．．、Ｎ）を有すると仮定する。ここで、追跡方法は、時間ｔで現在の意味区分画像Ｐ_ｔを構築することが必要である。
【０１０４】
追跡プロセスは、現在のフレームで、各領域Ｒ _ｉに対し意味ビデオ対象物Ｏ _{ｔ−１、ｊ}（ｊ∈｛１、２、．．．、ｍ｝）を見つけることによって、このタスクを履行する。
【０１０５】
各領域Ｒ _ｉに対する運動情報が、すでにこの段階で利用可能であるので、領域分類装置４２６は、逆方向運動補償を用いて、現在のフレームの各領域Ｒ _ｉを、先行フレームに向けてワープする。領域に対する運動情報を、その領域の点に適用することによって、領域をワープする。以前の領域にあるワープした領域をＲ′ _ｉと仮定する。
【０１０６】
Ｒ′ _ｉ＝∪_ｐ∈Ｒ _ｉ｛ｐ＋Ｖ _ｉ｝
【０１０７】
理想的には、ワープした領域Ｒ′ _ｉは、先行フレームの意味ビデオ対象物の１つに当てはまるべきである。
【０１０８】
∃ｉ、ｊ∈｛１、２、．．．、ｍ｝およびＲ′ _ｉ⊆Ｏ _{ｔ−１、ｊ}
【０１０９】
これがその場合であれば、追跡方法は、意味ビデオ対象物Ｏ _{ｔ−１、ｊ}をこの領域Ｒ _ｉに割り当てる。しかし、実際には、運動推定プロセスからの潜在的な曖昧さのために、Ｒ′ _ｉは、先行フレームの複数の意味ビデオ対象物と重複する可能性がある。すなわち、
【０１１０】
【数８】

【０１１１】
である。
【０１１２】
現在の実装は、領域ベースの分類に対し、過半数基準Ｍを使用する。現在のフレームの各領域Ｒ _ｉに対し、ワープした領域Ｒ′ _ｉの過半数部分が、先行フレームの意味ビデオ対象物Ｏ _{ｔ−１、ｊ}（Ｊ∈１、２、．．．、ｍ）に由来する場合、この領域は、その意味ビデオ対象物Ｏ _{ｔ−１、ｊ}に割り当てられる。
【０１１３】
∀ｐ∈Ｒ _ｉ、および∀ｑ∈Ｏ _{ｔ−１、ｊ}、Ｐ_ｔ（ｐ）＝Ｐ_ｔ−１（ｑ）
【０１１４】
より詳細には、Ｒ′ _ｉと重複する過半数区域（ＭＯＡ）を有する意味ビデオ対象物Ｏ _{ｔ−１、ｊ}は、下式のように見つけられる。
【０１１５】
【数９】

【０１１６】
現在のフレームの完全意味ビデオ対象物Ｏ _ｔ、ｊは、現在のフレームの全ての領域Ｒ _ｉ（ｉ＝１、２、．．．、ｍ）に対してこの領域ベースの分類手順を用いることにより、１つずつ構築される。点ｑ∈Ｏ _{ｔ−１、ｊ}、
【０１１７】
Ｏ _ｔ、ｊ＝∪_ｐ∈Ｓ｛ｐ｜Ｐ_ｔ（ｐ）＝Ｐ_ｔ−１（ｑ）｝、ｊ＝１、２、．．．、ｍ
【０１１８】
と仮定する。この領域ベースの分類プロセスの設計によって、現在のフレームでは、いかなるホール／ギャップ、または異なる意味ビデオ対象物間の重複はないことになる。
【０１１９】
∪_{ｉ＝１，．．．，}ｍＯ_ｔ，ｉ＝∪_{ｉ＝１，．．．，}ＮＲ_ｉ＝∪_{ｉ＝１，．．．}，ｍＯ_{ｔ−１，ｉ}＝Ｓ
∀ｉ，ｊ∈｛１，．．．，ｍ｝，ｉ≠ｊ⇒Ｏｔ，ｉ∩Ｏｔ，ｉ＝φ
【０１２０】
これは、意味ビデオ対象物の境界を決定することができないフレーム内へと対象物を追跡する追跡システムと比較して、この追跡システムの利点である。例えば、順方向追跡システムにおいて、対象物追跡は、精密な境界が未知である後続フレームへと進む。次いで、境界は、境界条件をモデルするいくつかの所定の基準に基づいて、未知の境界に合うように調整される。
【０１２１】
領域後処理
現在のフレームの追跡結果は、意味区分画像Ｐ_ｔであると仮定する。様々な理由のために、領域ベースの分類手順には、いくつかのエラーが存在する可能性がある。領域後処理プロセスの目的は、これらのエラーを除去し、同時に、現在のフレームで各意味ビデオ対象物の境界を滑らかにすることである。興味深いことに、区分画像は、従来の画像とは異なる空間画像である。この区分画像の各点における値は、意味ビデオ対象物の位置を示すだけである。したがって、一般に、信号処理用の全ての従来の線形または非線形フィルタは、この空間後処理に適していない。
【０１２２】
この実装は、過半数オペレータＭ（・）を使用して、このタスクを履行する。ｎ次元集合Ｓの各点ｐに対し、構造要素Ｅは、全ての接続点を含むそれの回りで定義されている（接続点に関する１参照）。
【０１２３】
Ｅ＝∪_ｐ∈Ｓ｛Ｄ_ｐ、ｑ＝１｝
【０１２４】
第１に、過半数オペレータＭ（・）は、構造要素Ｅと最大限重複している区域（ＭＯＡ）を有する意味ビデオ対象物Ｏ _ｔ、ｊを見つける。
【０１２５】
【数１０】

【０１２６】
第２に、過半数オペレータＭ（・）は、その意味ビデオ対象物Ｏ _ｔ、ｊの値を、点ｐに割り当てる。
【０１２７】
ｑ∈Ｏ _ｔ、ｊ、Ｐ_ｔ（ｐ）＝Ｍ（ｐ）＝Ｐ_ｔ（ｑ）とする。
【０１２８】
過半数基準の採用のために、非常に小さい区域（エラーである可能性が最も高い）を除去し、同時に、各意味ビデオ対象物の境界を滑らかにすることが可能である。
【０１２９】
コンピュータシステムの簡単な概要
図５および以下の議論は、本発明を実現することが可能である適切なコンピュータ環境について、簡単で一般的な説明を提供することを意図している。本発明またはその態様は、ハードウエアデバイスで実現することが可能であるが、上述の追跡システムは、プログラムモジュールにおいて組織されたコンピュータ実行可能命令で実行される。プログラムモジュールは、ルーチンと、プログラムと、対象物と、構成要素と、タスクを実行し、上述のデータタイプを実行するデータ構造とを含む。
【０１３０】
図５は、デスクトップコンピュータの一般的な構成を示すが、本発明は、手持ち式デバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な消費者エレクトロニクス、ミニコンピュータ、メインフレームコンピュータなどを含む、他のコンピュータシステム構成で実施することが可能である。また、本発明は、コンピュータネットワークを介して連結されているリモート処理装置によってタスクを実行する分散計算環境で使用することが可能である。分散コンピュータ環境では、プログラムモジュールは、局所およびリモートメモリ格納装置の両方に配置することが可能である。
【０１３１】
図５は、本発明の操作環境として役立つコンピュータシステムの例を示す。コンピュータシステムは、処理ユニット５２１と、システムメモリ５２２と、システムメモリを含んでいる様々なシステム構成要素を処理ユニット５２１に内部接続するシステムバス５２３とを含んでいるパーソナルコンピュータ５２０を含む。システムバスは、メモリバスまたはメモリ制御装置と、周辺バスと、ＰＣＩ、ＶＥＳＡ、マイクロチャネル（ＭＣＡ）、ＩＳＡおよびＥＩＳＡなどが例として挙げられるバス体系を使用する局所バスとを含んでいるいくつかの種類のバス構造のうち、いずれかを備えることが可能である。システムメモリは、読取り専用メモリ（ＲＯＭ）５２４とランダムアクセスメモリ（ＲＡＭ）５２５を含む。基本的な入力／出力システム５２６（ＢＩＯＳ）は、開始時中などに、パーソナルコンピュータ５２０内で要素間の情報を転送することに役立つ基本的なルーチンを含んでおり、ＲＯＭ５２４に格納されている。さらに、パーソナルコンピュータ５２０は、ハードディスクドライブ５２７と、例えば取外し可能ディスク５２９から読み込むまたはそれに書き込む磁気ディスクドライブ５２８と、例えばＣＤ−ＲＯＭディスク５３１を読むまたは他の光学メディアを読み込むあるいはそれに書き込む光学ディスクドライブ５３０とを含む。ハードディスクドライブ５２７、磁気ディスクドライブ５２８、光学ディスクドライブ５３０は、それぞれ、ハードディスクドライブインターフェース５３２、磁気ディスクドライブインターフェース５３３、光学ドライブインターフェース５３４によって、システムバス５２３に接続される。ドライブとそれに関連付けられたコンピュータ読取り可能媒体は、データの不揮発性格納、データ構造、コンピュータ実行可能命令（動的リンクライブラリなどのプログラムコードと実行可能ファイル）などを、パーソナルコンピュータ５２０に提供する。上記のコンピュータ読取り可能媒体の説明は、ハードディスクと、取外し可能磁気ディスクと、ＣＤとを指すが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジなど、コンピュータによって読み取ることができる他の種類の媒体を含むことができる。
【０１３２】
多くのプログラムモジュールを、オペレーティングシステム５３５と、１つまたは複数のアプリケーションプログラム５３６と、他のプログラムモジュール５３７と、プログラムデータ５３８とを含む、ドライブおよびＲＡＭ５２５に格納することが可能である。ユーザは、キーボード５４０およびマウス５４２などの位置表示装置を介して、コマンドおよび情報をパーソナルコンピュータ５２０に入力することが可能である。他の入力装置（図示せず）には、マイクロフォン、ジョイスティック、ゲームパッド、衛星放送用パラボラアンテナ、スキャナなどを含むことが可能である。これらおよび他の入力装置は、しばしば、システムバスに結合されているシリアルポートインターフェース５４６を介して、処理ユニット５２１に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）などの他のインターフェースによって接続することも可能である。また、モニタ５４７または他の種類の表示装置も、表示制御装置またはビデオアダプタ５４８などのインターフェースを介して、システムバス５２３に接続される。通常、モニタの他に、パーソナルコンピュータは、スピーカおよびプリンタなどの他の周辺出力装置（図示せず）を含む。
【０１３３】
パーソナルコンピュータ５２０は、ネットワークされた環境で、リモートコンピュータ５４９などの１つまたは複数のリモートコンピュータへの論理接続を用いて動作することが可能である。リモートコンピュータ５４９は、サーバ、ルータ、ピアデバイス、または他の一般的なネットワークノードとすることが可能であり、通常、パーソナルコンピュータ５２０に関して記述した多くのまたは全ての要素を含むが、図５では、メモリ格納装置５５０のみを図示している。図５に示した論理接続は、ローカルエリアネットワーク（ＬＡＮ）５５１とワイドエリアネットワーク（ＷＡＮ）を含む。そのようなネットワーキング環境は、会社、企業全体にわたるコンピュータネットワーク、イントラネット、およびインターネットでは一般的である。
【０１３４】
ＬＡＮネットワーキング環境で使用するとき、パーソナルコンピュータ５２０は、ネットワークインターフェースまたはアダプタ５５３を介してローカルネットワーク５５１に接続されている。ＷＡＮネットワーキング環境で使用するとき、パーソナルコンピュータ５２０は、通常、インターネットなど、ワイドエリアネットワーク５５２上で通信を確立する、モデム５５４または他の手段を含む。モデム５５４は、内在または外付けとすることが可能であり、シリアルポートインターフェース５４６を介して、システムバス５２３に接続されている。ネットワークされた環境では、パーソナルコンピュータ５２０に関連して記述したプログラムモジュール、またはその部分は、リモートメモリ格納装置に格納することが可能である。示したネットワーク接続は、単なる例であり、コンピュータ間で通信リンクを確立する他の手段を使用することが可能である。
【０１３５】
結論
本発明を特定の実装の詳細に関するコンテキストで説明したが、本発明は、これらの特定の詳細に限定されるものではない。本発明は、ベクトル画像フレームにおいて同一領域を識別し、次いでこれらの領域を意味対象物の部分であると分類する、意味対象物追跡の方法とシステムを提供する。上述した実装の分類方法は、意味領域を、意味対象物の境界が以前に計算されている先行フレームに射影するので、「逆方向追跡」と呼ばれる。
【０１３６】
また、この追跡システムは、一般に、意味ビデオ対象物の境界が既知であるフレームに、たとえこれらのフレームが順序付けられたシーケンスにある先行フレームでない場合でも、分割領域を射影する応用に適用されることに留意されたい。したがって、上述した「逆方向」追跡方式は、分類が必ずしも先行フレームに限定されておらず、代わりに、意味対象物の境界が既知または以前に計算されているフレームに限定されている応用に適用される。意味ビデオ対象物がすでに識別されているフレームは、より一般的に、基準フレームと呼ぶ。現在のフレームに対する意味対象物の追跡は、基準フレームの意味対象物の境界に関して、現在のフレームで分割された領域を分類することによって計算される。
【０１３７】
上述のように、対象物追跡方法は、一般に、ベクトル画像シーケンスに適用される。したがって、２Ｄビデオシーケンス、またはイメージの値が強度値を表しているシーケンスに限定されていない。
【０１３８】
領域分割段階の説明により、特に有用であるが、意味ビデオ対象物追跡の全ての実装に必要ではない基準が識別された。すでに述べたように、他の分割技術を使用して、点の接続領域を識別することが可能である。領域の同一性の定義は、イメージの値の種類（例えば、運動ベクトル、色の強度）と応用例に応じて異なる可能性がある。
【０１３９】
運動推定と補償を実行するために使用する運動モデルは、同様に変更することができる。計算はより複雑であるが、領域の各個々の点に対して、運動ベクトルを計算することが可能である。代替として、上述の変換モデルのように、各領域に対して、１つの運動ベクトルを計算することが可能である。好ましくは、領域ベースの整合方法を使用して、関心のあるフレームにおいて整合領域を見つけるべきである。領域ベースの整合では、現在のフレームの境界またはマスクを使用して、予測した点と基準フレームの対応する領域との間のエラーを最小限に抑えるプロセスから、領域の外部に位置する点を除外する。この種類の手法は、Ｍｉｎｇ−ＣｈｉｅｈＬｅｅによる名称ＰｏｌｙｇｏｎＢｌｏｃｋＭａｔｃｈｉｎｇＭｅｔｈｏｄの米国特許第５，７９６，８５５号に記載されており、参考文献によってここに組み込まれている。
【０１４０】
本発明の多くの可能な実装を考慮すると、上述した実装は本発明の単なる例であり、本発明の範囲に対する限定と考えるべきではない。むしろ、本発明の範囲は、添付の請求項によって定義される。したがって、我々の発明は全て、これらの特許請求の範囲および精神内に由来することを主張する。
【図面の簡単な説明】
【図１Ａ】一般的な意味対象物を追跡する困難さを示すために異なる種類の意味対象物を表す例である。
【図１Ｂ】一般的な意味対象物を追跡する困難さを示すために異なる種類の意味対象物を表す例である。
【図１Ｃ】一般的な意味対象物を追跡する困難さを示すために異なる種類の意味対象物を表す例である。
【図２】意味対象物追跡システムを示すブロック図である。
【図３Ａ】区分画像の例と、領域近接グラフにおける区分画像を表す方法を示す図である。
【図３Ｂ】区分画像の例と、領域近接グラフにおける区分画像を表す方法を示す図である。
【図３Ｃ】区分画像の例と、領域近接グラフにおける区分画像を表す方法を示す図である。
【図３Ｄ】区分画像の例と、領域近接グラフにおける区分画像を表す方法を示す図である。
【図４】意味対象物追跡システムの実装を示すフローチャートである。
【図５】本発明の実装に対する操作環境として役立つコンピュータシステムのブロック図である。

Claims

コンピュータにおいて、ビデオフレームにおいてビデオ対象物を追跡する方法であって、前記コンピュータが、
現在のビデオフレーム上で空間分割を実行して、同一強度値を有する画素の領域を識別する手段、
現在のビデオフレームおよびビデオ対象物の境界が前以て計算されている先行ビデオフレームの各領域の間で運動推定を実行する手段、
各領域に対する運動推定を用いて、各領域の画素の位置を、先行ビデオフレームの位置にワープする手段、
ワープした画素の位置が、先行ビデオフレームの前以て計算されているビデオ対象物の境界内にあるかを判定して、ビデオ対象物の部分である可能性がある領域のセットを識別する手段、および
前記セットから、前記現在のビデオフレームの中のビデオ対象物の境界を形成する手段
として動作することを特徴とする方法。
現在のビデオフレームのビデオ対象物の境界を、後続のビデオフレームに対する基準境界として使用して、後続フレームに対して請求項１の方法を繰り返すこと特徴とする請求項１に記載の方法。
前記空間分割は、複数の領域について、領域中の最大強度値と領域中の最小強度値の差を閾値よりも小さくすることを特徴とする請求項１に記載の方法。
前記空間分割はシーケンシャルな空間成長であり、
現在のビデオフレーム中の最初の画素位置でスタートし、最初の領域に複数の画素位置を付加することにより前記最初の位置のまわりの画素を結合して前記最初の領域を、同一基準を満足するように成長させ、
境界の画素がない場合に、前記最初の領域の外の画素位置を有する別の領域の領域について前記成長を繰り返し、
前記現在のビデオフレーム中の各画素位置が複数の領域の１つの領域の部分であると識別されるまで前記成長を続けることを特徴とする請求項１に記載の方法。
前記判定では、各領域について、以前のビデオフレーム中のビデオ対象物の境界内にあるワープの画素位置を計数し、
ワープの画素位置のスレッショルドの総計が前記ビデオ対象物の境界内である場合、前記領域が、現在のビデオ対象物の部分である可能がある領域のセットの中にあると分類することを特徴とする請求項１に記載の方法。
それにより請求項１の方法を実行するようにコンピュータをプログラムするために、コンピュータが実行可能な命令がストアされたことを特徴とするコンピュータ可読媒体。
画像フレームのベクトル画像シーケンスにおいて、意味対象物を追跡するコンピュータシステムであって、
前記ベクトル画像シーケンス中の現在の画像フレームを複数の領域に分割する空間分割モジュールであって、各領域は、同一の基準を満足する画像値を有する画像ポイントを有している空間分割モジュールと、
現在の画像フレームおよび基準画像フレームの各領域の間の運動を推定し、および各領域について、現在の画像フレームおよび基準画像フレームの間の領域の運動を示す運動係数を判定する運動推定モジュールであって、そこでは、前記基準画像フレームが意味対象物の境界が予め計算されている意味対象物を含む運動推定モジュールと
各領域の運動係数を該領域に適用して、基準画像フレーム中の推定領域を計算し、および前記基準画像フレーム中の前以て計算された意味対象物の境界内で、前記領域に対する推定領域の大きさに基づいて、意味対象物の部分であるか否かを各領域について分類する領域分類モジュールと
を有し、現在の画像フレーム中の対応の意味対象物の境界が、意味対象物の部分であると分類された各領域から形成されることを特徴とするコンピュータシステム。
前記基準画像フレームは、２または３以上の意味対象物を含み、前記２または３以上の意味対象物の各々は前記基準画像フレームの重複しないエリアを占め、
前記領域についての推定領域と重複する２または３以上の意味対象物のいずれが前記領域についての推定領域と重複するかに基づいて、前記２または３つの意味対象物の１つの部分であるかについて、前記領域分類モジュールは、前記複数の領域を分類し、前記現在の画像フレーム中の意味対象物の対応の境界が複数の分類された領域から形成されることを特徴とする請求項７に記載のコンピュータシステム。
コンピュータにおいて、逆方向の領域ベースの分類を使用する、ベクトル画像シーケンス中の対象物を追跡する方法であって、前記コンピュータが、
ベクトル画像シーケンスの第１の画像フレームの中の対象物の境界を計算し、
前記ベクトル画像シーケンスの第２の画像を複数の領域に分割する手段、
前記領域を、前記第２の画像フレームから前記第１の画像フレームに到る運動推定に基づいて、前記第１の画像フレームの対応の領域と関連付ける手段、および
もしも前記第１の画像フレーム中の、関連付けられた対応領域のスレッショルド部が前以て計算された第１の画像フレーム中の境界の中にある場合は、前記対象物の部分であると前記第２の画像フレームの領域を分類する手段
として動作することを特徴とする方法。
対象物の部分であると分類された１または複数の領域から前記第２の画像フレームの中の対象物の新しい境界を形成することを特徴とする請求項９に記載の方法。
前記分割、前記関連付けおよび前記分類を第３の画像フレームについて繰り返し、前記関連付けは、前記第３の画像フレームから前記第２の画像フレームに到る運動推定に基いており、前記分類は新しい境界との比較により生じることを特徴とする請求項１０に記載の方法。
それにより請求項９の方法を実行するようにコンピュータシステムをプログラムするように、コンピュータ実行可能な命令がストアされたことを特徴とするコンピュータ可読媒体。
逆方向領域ベースの分類に基づいて、ベクトル画像シーケンス中の対象物をコンピュータに追跡させる、該コンピュータが実行可能な命令がストアされたコンピュータ可読媒体であって、前記コンピュータは、
ベクトル画像シーケンスの以前の画像フレーム中の対象物の境界を計算する手段、
現在のベクトル画像シーケンスの画像フレームを、複数の領域に分割し、
前記現在の画像フレームの複数の領域についての運動推定に基づいて、各領域を前記以前の画像フレームにワープする手段、および
各領域について、もしワープされた領域のスレッショルド部が以前の画像フレームの対象物の、前以て計算された境界の中にある場合、現在の画像フレームの領域が前記対象物の部分であると分類する手段
として動作することを特徴とすることを特徴とするコンピュータ可読媒体。
コンピュータにおいて、ベクトル画像シーケンス中で対象物を追跡する方法であって、前記コンピュータは
複数の画素を有する画像フレームを提供する手段、
前記画像フレーム中の複数の領域の最初の領域についての同一の基準を満足する近接の画素を付加することにより、最初の画素から前記最初の画像フレームを成長させ、前記同一の基準は前記最初の領域の中の最大画素値および最小画素値の差を抑制する手段、
前記最初の領域について同一基準を満足する近接の画素がもうない場合、前記複数の領域の１または２以上の他の領域について前記成長を、前記画像フレームの各画素が該画像フレームの中の複数の領域の１つの部分となるまで繰り返し、前記領域の成長は、領域の成長を開始する前に複数の領域全てについてのシードを指定することなくシーケンシャルに行う手段、および
前記画像フレームの複数の領域に関して、前記ベクトル画像シーケンスにおいて前記対象物を追跡する手段
として動作することを特徴とする方法。