JP2005513656A

JP2005513656A - 体積成長および変化検出マスクを使用してビデオ内の移動オブジェクトを識別するための方法

Info

Publication number: JP2005513656A
Application number: JP2003555443A
Authority: JP
Inventors: ポリクリ、ファティー、エム
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-12-20
Filing date: 2002-12-18
Publication date: 2005-05-12
Also published as: US20030118214A1; US6904159B2; CN1537299A; WO2003054801A1; EP1444657A1

Abstract

【課題】ビデオ内の移動オブジェクトを自動的に識別するための方法を得る。
【解決手段】体積成長と変化検出とを組み合わせる。入力ビデオ１０１をフィルターしてノイズを除去した後、空間時間データ構造がビデオフレームから形成され、マーカーが選択される。それらのマーカーから、色類似性に基づく重心接続法を使用して、ボリューム２５１を成長させる。そして、局所的色特徴を使用して、ビデオ内の隣接フレームから変化検出マスクを抽出する。それらの変化検出マスクを各ボリュームと交差させ、そのボリューム内に存在するマスク３４１の部分内の変化したピクセルの個数のみを求める。交差部内の変化したピクセルの個数が閾値を超える場合には、そのボリュームが移動オブジェクト４２１として識別される。

Description

この発明は、一般的にビデオの処理に関し、特にビデオ内の移動オブジェクトを識別に関する。

最近のMPEG-4およびMPEG-7の標準化作業により示されるように、多くのビデオ（映像）は、オブジェクト（物体）を見つけ出し、イベントを決定し、アプリケーションに応じた視覚的評価を数量化する処理を必要とし、またビデオシーケンスの特徴を分析する処理を必要とする（たとえば、非特許文献１参照）。コンテンツに基づくビデオの表現は、画像またはビデオシーケンスの特定のオブジェクトへの分解、すなわち、動いている人間を静止している背景から分離することを必要とする。

多くのテレビ放送は、人が比較的静的な背景の前で話しているシーン、すなわち、ニュース番組、パネルショウ、バイオグラフィーズ（列伝）、連続ドラマなどを含む。
また、テレビ会議のアプリケーションは、ビジュアルコミュニケーション（視覚的通信）を達成するために、ヘッド・アンド・ショルダータイプ（首および肩型）のシーンを広く使用する。モバイル（携帯）ビデオカメラの増大する利用可能性は、ピアツーピアの、帯域幅を規制されたフェイシャルコミュニケーション（顔通信）を将来広めるであろう。このようにして、ヘッド・アンド・ショルダータイプの、また「語り手（トーキングヘッド）」としても知られる、ビデオシーケンスの正確なオブジェクトセグメント化（オブジェクトの区分化）は、ビデオ処理の重要な側面である。

しかしながら、ヘッド・アンド・ショルダータイプのシーケンスの自動的なセグメント化は困難である。パラメーターに基づく方法は、通常ディスクに座っている語り手が最小限の動作（モーション）しか表さないので、そのようなシーケンス型のオブジェクトの動作を正確に推測することができない。さらに、動作に基づくセグメント化の方法は演算的には高価であり、且つ信頼できない。領域に基づく方法はセグメント化し過ぎることなどの不利があり、対象領域を決定できないことがある。フレームの相違に基づく方法はオブジェクトの形状を正確に決定できないという欠陥がある。

オブジェクトセグメント化の他の方法は、ビデオの最小の色整合（不変の）成分を得るために体積成長（ボリュームグローイング）を利用する（たとえば、非特許文献２、または、特許文献１参照）。
まず、高速のメディアンフィルターが、局所的な色ムラを取り除くために、ビデオに適用される（たとえば、非特許文献３参照）。
そして、空間時間データ構造が、画像フレームおよびそれらの特徴をインデックス化することによって、入力ビデオシーケンスから形成される。

オブジェクト情報が、連続的なビデオフレームを３次元データ構造の面として取り扱うことによって、時間的に前方および後方へ伝搬される。ビデオシーケンスがフィルターされた後、マーカーポイントが色階調度（色勾配）によって選択される。各マーカーの周りのボリューム（体積）が色距離を使って成長される。
ビデオボリューム（映像体積）の問題点は、移動オブジェクト（物体）が静止オブジェクト（物体）から識別できないことである。たとえば、体積成長では、明確な色の空白の壁がボリューム（体積）を形成する。

変化検出マスク(CDM)は、ビデオのシーケンスにおいて、以前のフレームおよび現在のフレームからなる一対のフレーム間において変化するピクセルのマップである。CDMは、所与のセット（組）のルールに対して２つのフレームの色の不同性（相違）として定義される。

静止したカメラ、一致する（不変の）オブジェクトおよび一定の照明条件について考えると、一対の隣接するフレームのピクセル毎の色の相違は、そのシーンにおける移動オブジェクトの表示である。しかしながら、移動オブジェクトでも、全ての色変化が生じるわけではない。

カメラの動き、ビデオフレームを横切る非均一な照明による強度変化および影並びに画像ノイズも、また、フレームの相違に寄与する。
演算の簡単さにより、CDMは、リアルタイムアプリケーションに対して現実的である（たとえば、非特許文献４参照）。
しかしながら、移動オブジェクトを決定するのにCDMのみを使用することは、セグメント化のパフォーマンスを悪化させる。

したがって、特に、たとえば話し手のように、オブジェクトが背景に対して非常に僅かにしか動かないような場合においても、ビデオ内の如何なる数の移動オブジェクトをも正確に識別するための改良された、完全に自動的な方法が必要とされている。この方法は、時間の経過に応じてビデオ内の動きと色の特徴との両方を一体化させなければならない。
セグメント化は、合理的な時間内に行わなければならないし、且つ最初のユーザのセグメント化や、均質な動きを拘束することに依存するべきではない。

米国特許第09/826,333号明細書「“Method for Segmenting Multi-Resolution Video Objects,” filed by Porikli et al. on April 4, 2001」 R. Castagno, T. EbrahimiおよびM. Kuntによる「"Video segmentation based on multiple features for interactive multimedia applications," IEEE Trans. on Circuits and Systems for Video Technology, Vol.8, No.5, pp. 562-571, September,1998」 F. PorikliおよびY. Wang, 「"An unsupervised multi-resolution object extraction algorithm using video-cube," Proceedings of Int. Conf. Image Process, Thesselaniki, 2001」 M. Kopp および W. Purgathofer, 「"Efficient 3x3 median filter computations," Technical University, Vienna, 1994」 C.S.Regazzoni, G.FabriおよびG.Vernazza, 「"Advanced video-based surveillance system", Kluwer Academic Pub., 1999」

従来のビデオ内の移動オブジェクトを識別するための方法において、ビデオボリューム（映像体積）は、移動オブジェクト（物体）が静止オブジェクト（物体）から識別できないという課題があった。
また、移動オブジェクトを決定するのにCDMのみを使用することは、セグメント化のパフォーマンスを悪化させ、自動的な方法を実現することができないという課題があった。

この発明は、自動的にビデオ内の移動オブジェクトを識別するための方法を得ることを目的とする。

この発明によるビデオ内の移動オブジェクトを識別するための方法は、体積成長（ボリューム・グローイング）と変化検出とを組み合わせたものである。まず、入力ビデオをフィルターしてノイズを除去した後、空間時間データ構造がビデオフレームから形成され、マーカーが選択される。これらのマーカーから、色類似性に基づいた重心接続方法（セントロイド・リンキッジ・メソッド）を使用して、ボリューム（体積）が成長される。そして、局所的な色特徴を使用して、変化検出マスクがビデオ内の隣接フレームから抽出される。変化検出マスクを各ボリュームに交差させて、そのボリューム内にあるマスクの部分において変化したピクセルの個数を求める。もし、交差部の、変化したピクセルの個数が閾値を超えれば、そのボリュームは移動オブジェクトとして識別される。

この発明は、特に移動オブジェクト（物体）が、たとえばヘッド・アンド・ショルダータイプのビデオシーケンスのように、それに関連して非常に小さな動きしかしない場合でも、ビデオ内の移動オブジェクトを正確に識別することができる。
また、この発明によれば、時間の経過にともなう動き（モーション）および色の特徴の両方を使用する。このような識別は、合理的な時間内に行われ、且つ最初のユーザによるセグメント化や均質な動きの規制には依存せず、識別された移動オブジェクトを簡単にセグメント化することができる。
さらに、この発明は、背景の登録を必要とせず、スネイクモデルや境界補正方法を使用せずに、物体の境界を正確に抽出することができる。また、移動する、滑らかにテクスチャー化されたオブジェクトをセグメント化することができる。

実施の形態１．
この発明は、空間時間体積成長（スペイショオテンパラレル・ボリューム・グローイング）および変化検出マスクを用いてビデオ１０１内の移動オブジェクトを識別する。
この発明は、ビデオ（映像）において「話し手（トーキングヘッド）」などの動きの少ないオブジェクト（物体）を識別するのに特に有用である。

図１に示されるように、第１のステップは、ビデオ１０１のフレームから時間空間データ構造を構成することにより、ビデオ１０１からボリューム（体積）２４１をセグメント（区分）化２００する。
マーカーm_i がそのデータ構造から選択される。それらのマーカーはボリュームV_i ２４１を成長させるための開始点である。

第２のステップは、入力ビデオ１０１から変化検出マスク３４１を抽出３００する。それらのマスクは、隣接する１対のフレーム内の対応するピクセルの色特徴における変化を判定することによって抽出される。
第３のステップは、抽出されたマスク３４１がボリューム２４１に適用されて、ビデオ１０１内の移動オブジェクト４２１を識別４００する。

ボリュームのセグメント化
空間時間データ構造Sの構築
図２は図１のセグメント化ステップ２００の詳細を示す。
まず、任意の予備処理ステップにおいて、高速メディアンフィルター２１０がビデオ１０１に適用されて局所的な不規則性（ムラ）を取り除く。
次のステップは、入力ビデオ１０１のフレームのピクセルから空間時間データ構造S ２２１を構築２２０する。そのデータ構造S(x, y, t) の各要素（エレメント）は、１つの位置(x,y,t) の１つのピクセルの色値および変化検出スコア（値）を含むベクトルw(x,y,t) である。ここで、(x,y) は、入力ビデオ１０１の特定のフレームt におけるピクセルの座標である。

マーカーの選択
最小の色階調度を有するベクトルがマーカー２３１として選択２３０される。マーカー２３１は、リファイン（精製）されていないボリューム２４１を成長させるための開始点２４０である。
１つの好適な実施形態では、YUV色空間が使用される。その理由は、この色空間が人間の視覚にしたがって実行し、色間距離が強度すなわちユークリッド距離ノルム（基準）によって算出され得るからである。如何なる色空間も、色間距離の式が成り立つ限り、使用され得る。
マーカーは、複数のベクトル２２１の内のいずれが最小の色階調度を有するかを判定することによって選択２３０される。その理由は、最小の階調度を有するベクトルが、ピクセルの均一にテクスチャー化された局所的近傍を最もよく特徴付けるからである。色階調度

は、次式（１）により決定される。

ここで、

および

は、上記局所的近傍における中央のピクセルから等距離を表す。演算の簡素化のため、輝度成分w_yのみが使用される。そして、最小の勾配度を有するベクトルがマーカーm_i ２３１として選択２３０される。

体積の成長（グローイング・ボリューム）
リファイン（精錬）されていないボリューム２４１は、マーカー２３１の周りで成長２４０される。ボリューム２４０を成長させるために、重心接続法（セントロイド・リンキィジ・メッソド）が使用される。重心c_i は、そのマーカーのベクトルw(m_i)である。

アクティブシェルは、現在のボリューム２４１の全ての外側境界ベクトルp⁺を含む。隣接するベクトルp⁻がベクトル(x+1,y,t), (x-1,y,t), (x,y+1,t), (x,y-1,t), (x,y,t+1), (x,y,t-1)を含む６-近傍部において、アクティブシェルベクトル(x,y,t)に選定される。

アクティブシェルに隣接するベクトルp⁻は、重心と比較されて、その重心と各隣接ベクトルp⁻との間の色距離d(c_i,p⁻) が求められる。その重心と各隣接ベクトルとの間の色距離が閾値ε以下の場合には、その隣接ベクトルがリファイン（精錬）されていないボリュームに含められ、そして重心c_i が更新される。

色距離閾値εを決めるために、入力ビデオ１０１のピクセルが、支配的（優勢）な色を使用して、色空間におけるベクトルクラスタリングにより量子化される。この量子化により、重心接続法の堅固さが色スペクトルを簡略にすることによって改善される。
ボリューム２４１が成長されると、そのボリュームのベクトルが、次式（２）によってセットQ から取り除かれる。

ここで、 Q は最初、全てのベクトル２２１のセットである。
次いで、残りのセットの中で最小の勾配度を有する次のベクトルが、次のマーカーとして選択され、ベクトル２２１がもはや残らなくなるまで、体積成長プロセスが繰り返される。

ボリュームのマージ（体積の併合）
マージ（併合）２５０することにより、リファインされていないボリューム２４１における不規則性（ムラ）を減少させる。最小サイズよりも小さなボリュームを隣接するボリュームとマージ２５０する。たとえば、0.001 のボリュームV よりも小さなボリュームすなわち全ビデオが、マージされる。

このプロセスを加速するため、マージ２５０が、最小ボリュームから始めて、最小サイズ要求を満たさない最大ボリュームで終わることにより、階層的に行われる。最小サイズ要求を満たさない最小ボリュームが最も近くのボリュームとマージされる。これが、サイズの増大する順番に全ての小さなボリュームに対して繰り返される。

変化検出マスクの抽出
距離の決定
図３は図１の抽出ステップ３００の詳細を示す。このステップは隣接する複数対のフレームから変化検出マスクを抽出する。
まず、現在のフレームt の局所的ウィンドウ内のピクセルp(x,y,t) および隣接フレームt-1 内のピクセルq_n(x_n,y_n,t-1) に対して、距離３１１が決定３１０される。

ここで、x_ni,y_nj はウィンドウN₁ 内の中心ピクセルq_n(x_n,y_n,t)の周りのピクセルの座標であり、k は色成分y,u,vであり、距離 δ(p,q) 311を生成する。他のウィンドウN₂ において、点q_n(x_n,y_n,t-1) が選択される。その色成分は、いずれの色空間、たとえば、RGB、HISなどから選択することができる。単一チャンネル入力が使用される場合には、k はその単一チャンネル、すなわちグレイレベル（濃度）を表す。

最小スコア（値）の選択
最小スコア（値）３２０を選択することにより、動き（モーション）の推定におけるエラーを防止する。他のウィンドN₂ における距離δ(p,q_n) 311 の最小値は、次式（４）により、各ピクセルp のスコア（値）Δ(p) 321 として割り当てられる。

スコア（値）の平均化
ウィンドN₃ におけるスコア３３０を平均化することにより、変化検出マスク３４１を生成するための閾値を求めること３４０のために平均されたスコア３３１を生成する。

スコアの閾値化
スコア３４０を閾値かすることにより、バイナリ（２進値）の変化検出マスクcdm(p) 341を生成する。

ここで、μ は閾値である。それは色成分のダイナミックレンジの重み付けされた平均値として割り当てることができる。そのスコアの閾値は、平均スコア３３１が単一の点に代わって変化した点のクラスタに対応するように、選択される。小さな領域は、このようにしてフィルターされる。

他の変化検出マスク
上記方法の代わりに、他の変化検出マスクを使用することができる。これらのマスクは、フレーム相違オペレータに限られないが、グローバルモーション補償マスク、非バイナリ変化検出マスクを含む。したがって、本開示で説明される方法は全ての変化検出マスク抽出方法をカバーする。簡単な変化検出マスクは次式（６）で表される。

ここで、ピクセルp はフレームt 内のピクセル(x,y) であり、k は色成分を表す。

変化検出マスクのセグメント化されたボリュームへの適用
図４は図１の識別ステップ４００の詳細を示す。
ボリュームをセグメント化２００し、マスクを抽出３００した後、移動オブジェクトが識別４００される。各ボリュームに対して、そのボリュームと交差するマスクの部分における変化したピクセルの個数だけをカウント（計数）する。
総計数値を正規化することができ、所定の閾値を超える計数値を有するボリュームが移動物体４２１として識別される。

この発明は、特に移動オブジェクト（物体）が、たとえばヘッド・アンド・ショルダータイプのビデオシーケンスのように、それに関連して非常に小さな動きしかしない場合でも、ビデオ内の移動オブジェクトを正確に識別することができる。
この発明の方法は、時間の経過にともなう動き（モーション）および色の特徴の両方を使用する。このような識別は、合理的な時間内に行われ、且つ最初のユーザによるセグメント化や均質な動きの規制には依存しない。識別された移動オブジェクトは今簡単にセグメント化することができる。
この発明のさらなる利点は、背景の登録を必要としないことである。
また、この発明は、スネイクモデルや境界補正方法を使用せずに、物体の境界を正確に抽出できる。
この発明の方法は、また、移動する、滑らかにテクスチャー化されたオブジェクトをセグメント化することができる。
この発明について好適な実施の形態を例に挙げて説明したが、種々の他の改変や変更がこの発明の精神および範囲内でなされ得る。したがって、添付の請求の範囲の目的は、この発明の精神および範囲に入るような全ての変更例や変形例をカバーすることにある。

この発明による、ビデオ内の移動オブジェクトを識別する方法のブロック図である。図１の方法のボリュームをセグメント化するステップを示すブロック図である。図１の方法の変化検出マスクの抽出ステップを示すブロック図である。図１の方法の移動オブジェクトの識別ステップを示すブロック図である。

符号の説明

１０１ビデオ入力、２３１マーカー、２５１ボリューム、３４１マスク、４２１移動オブジェクト。

Claims

ビデオを複数のボリュームにセグメント化し、
前記ビデオから複数のマスクを抽出し、
前記複数のマスクを前記複数のボリュームに適用して移動オブジェクトに対応するボリュームを識別する、
ことを含む、ビデオ内の移動オブジェクトを識別するための方法。
前記ビデオが複数のフレームを含み、各フレームが複数のピクセルを含む、請求項１の方法であって、
前記フレームのピクセルから空間時間データ構造を構築し、その際、前記データ構造の各要素は１つのピクセル(x,y,t) の色値を含み、ここで、(x,y) は前記ビデオ内の特定のフレームt 内の前記ピクセルの座標であり、
最小勾配度を有するベクトルをマーカーとして選択し、
各マーカーの周りのリファインされていないボリュームを成長させ、
前記データ構造から前記リファインされていないボリュームを取り除き、
前記データ構造が空になるまで、前記選択、成長、除去ステップを繰り返す、
ことをさらに含む方法。
請求項２の方法であって、
最も近接する、より大きなボリュームを有する最小サイズの要求を満たさないリファインされていないボリュームをマージする、
ことをさらに含む方法。
請求項２の方法であって、色階調度

が次式、

（ここで、

および

は、ピクセルの局所的近傍における中心ピクセルから等距離を表す。）
により決定される方法。
請求項１の方法であって、
現在のフレームのウィンドウ内のピクセルと隣接フレームのウィンドウ内のピクセルとの間の距離を求め、
前記距離のうちの最小距離を隣接フレームのウィンドウ内の各ピクセルのスコアとして選択し、
前記スコアを平均化し、
前記スコアを閾値化して前記マスクを生成する、
ことをさらに含む方法。
請求項１の方法であって、
フレームの相違を変化検出マスクとして使用する、
ことをさらに含む方法。
請求項１の方法であって、前記複数のマスクを前記複数のボリュームに適用して移動オブジェクトを識別する前記ステップは、
各ボリュームと交差する前記マスクの部分内の変化したピクセルの個数を計数し、
所定の閾値を超える計数値を有するボリュームを移動オブジェクトとして選択する、
ことをさらに含む方法。
請求項６の方法であって、
総計数値を正規化する、
ことをさらに含む方法。