JP2004350283A

JP2004350283A - 圧縮ビデオから３次元オブジェクトをセグメント化する方法

Info

Publication number: JP2004350283A
Application number: JP2004149464A
Authority: JP
Inventors: Faith M Porikli; ファティー・エム・ポリクリ; Huifang Sun; ハイファン・スン; Ajay Divakaran; アジェイ・ディヴァカラン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2003-05-21
Filing date: 2004-05-19
Publication date: 2004-12-09
Also published as: US20040233987A1; US7142602B2

Abstract

【課題】本方法は、ユーザ支援なしにビデオをオブジェクトにセグメント化する。
【解決手段】ＭＰＥＧ圧縮ビデオを、ＤＣＴ係数と動きベクトルを使用して擬似空間／時間データと呼ぶ構造に変換する。最初に圧縮ビデオを解析し、擬似空間／時間データを形成する。例えばマクロブロックのＤＣＴ係数と動きベクトルの変化を使用してシードマクロブロックを識別する。ＤＣＴ係数と動き距離基準を使用して各シードマクロブロックの周囲でビデオボリュームを「成長」させる。ボリュームに対して自己記述子を割当て、類似するボリュームの対に相互記述子を割当てる。これらの記述子は、ボリュームの動きと空間情報を表現する。ボリュームのあり得る対単位の組合せの各々に対し、類似性スコアを確定する。最大スコアを与えるボリュームの対を反復的に結合する。結合段階で、ボリュームを分類しビデオオブジェクトの複数解像度の粗から密への階層で表現する。
【選択図】図１

Description

本発明は、包括的にはビデオをセグメント化することに関し、詳細には、ビデオから３Ｄオブジェクトをセグメント化することに関する。

圧縮ビデオを、解凍する必要なく分析することが可能でなければならない。圧縮ビデオを分析することは、データが少なくなるため必要な労力が少なくなければならない。しかしながら、圧縮ビデオでは、ピクセル色の強度等著元のピクチャ情報がいずれも利用できない。ビデオがＭＰＥＧ規格に従って圧縮される場合、ビットストリームはＩ、ＢおよびＰフレームに変換される。Ｉフレームは、元のビデオフレームのＤＣＴ情報を格納し、ＢおよびＰフレームは、動き補償後の動き情報および残余を格納する。Ｉフレームは動き情報を格納しないが、静的色およびテクスチャ情報を、逆動き補償によってＢおよびＰフレームに伝播することができる。

圧縮ビデオは、オブジェクト分析に有用ないくつかの重要な特性を有する。第１に、動き情報は、動きフィールドを推定する必要なく容易に入手可能である。第２に、ＤＣＴ情報は画像特性を表す。しかしながら、動きベクトルは、不適合によって汚染される（contaminated）場合が多い。さらに、ＭＰＥＧ圧縮ビットストリームの動きフィールドは、量子化誤差を受け易い。したがって、未圧縮ビデオに対する動き分析の方が、十分な情報を提供する。しかしながら、元の情報を回復するためにビデオを解凍することは非常に時間がかかり、ビデオを最初に解凍しなければならない場合、圧縮ビデオの必要な分析をリアルタイムで行うことが不可能である可能性がある。

従来技術では、圧縮画像を分析するいくつかの方法が知られている。１つの方法は、ＪＰＥＧ文書をハーフトーン、テキストおよび連続階調ピクチャ等著特定領域にセグメント化する。De Queiroz等著「Optimizing block thresholding segmentation for multilayer compression of compound images」、IEEE Trans. Image Proc. pp. 1461-1471、2000を参照されたい。彼らは、符号化コストマップ（encoding cost map）に基づくセグメント化を使用した。しかしながら、ＪＰＥＧ規格は、単一静止画像を扱うのみである。したがって、静止画像から任意の３Ｄオブジェクトをセグメント化することは不可能である。

Wang等は、「Automatic face region detection in MPEG video sequences」、Electronic Imaging and Multimedia Systems、SPIE Photonics、1996において、ＭＰＥＧ圧縮ビデオにおいて顔を検出するプロセスを述べた。彼らは、クロミナンス、すなわち肌の色合いの統計量と、顔形状制約と、輝度値のエネルギー分布と、を使用して、顔を検出し位置を特定した。彼らの方法は一般的ではなく、未知の色および形状の未知数の任意のオブジェクトを含むビデオに対しては機能しない。

Meng等は、「Tools for compressed-domain video indexing and editing」、SPIE Proceedings、2670:180-191、1996において、ブロックカウント方法を使用して３パラメータアフィン変換グローバル動きモデルにおいてパラメータを推定した。そして、彼らは、グローバル動き補償を実行してオブジェクトマスクを取得し、複数のオブジェクトを扱うためにヒストグラムクラスタリングを使用した。

Sukmarg等は、「Fast algorithm to detect and segmentation in MPEG compressed domain」、IEEE TENCON、2000において、ＭＰＥＧ圧縮ビデオにおいて動き情報を使用して背景から前景を検出しセグメント化するアルゴリズムを述べた。彼らのセグメント化は、４つの主な段階、すなわち逐次リーダ（sequential leader）および適応的Ｋ平均クラスタリングによる初期セグメント化と、空間・時間類似性に基づく領域併合と、前景・背景分類と、オブジェクト詳細抽出と、を有する。初期セグメント化された領域を、ＤＣ画像およびＡＣエネルギーデータに基づいて３Ｄ空間情報から生成する。その情報を使用して画像をクラスタ化する。クラスタが取得された後、各クラスタにそれ以上変化が発生しなくなるまで、適応的Ｋ平均クラスタリングを適用する。時間的類似性を、時間勾配の分布のコロモゴロフ・スミルノフ（Kolmogorov-Smirnov）仮説検定に基づいて導出する。An等著「A Kolmogorov-Smirnov type statistic with applications to test for normality in time series」、International Statistics Review、59:287-307、1991を参照されたい。仮説検定は、２つの累積分布関数間の全体の差を測定する。空間的・時間的類似性を使用して、領域間の類似性グラフを構成する。そのグラフを閾値処理しクラスタ化する。第１のクラスタリング段階を使用して、グラフのサイクルを形成する領域を併合する。第２のクラスタリング段階を使用して、関心のあるクラスタとその隣接クラスタとの間を接続するグラフエッジと、関心のあるクラスタ自体の中で接続するグラフエッジとの数に基づいて領域を併合する。

ビデオセグメント化の本質的なステップは、ビデオを、シーンすなわち「ショット」と呼ぶ画像のシーケンスに分割することである。ショットは、内容に関して一貫した画像のシーケンスである。通常、ショットは、カメラシャッタ開閉間のフレームのシーケンスを含む。ショットは、ビデオの基本単位として識別されており、それらの検出は、ビデオセグメント化における最初のタスクである。ショット検出に対しいくつかの技術が知られている。

ショットが識別された後、動き、色、テクスチャおよび他の特徴に基づいてそれらの内容を分析することができる。

ショット検出は、データ駆動であってもモデル駆動であってもよい。データ駆動方法は、２つのクラスに分類される。グローバルな特徴に基づくものと、画像の空間的に記録された特徴に基づくものと、である。グローバルな特徴、すなわち色ヒストグラムに基づく方法は、動きの影響を受けないが、ショットカットの前後の画像が類似するグローバルな特徴を有する場合、シーンカットを検出しない可能性がある。空間的に記録された特徴に基づく方法は、動くオブジェクトの影響を受け、画像が極度に低速または高速である場合に失敗する可能性がある。モデル駆動手法は、数学的モデルに基づく。

Flickner等は、「Query by image and video content」、IEEE Computer、pages 23-31、1995において、色ヒストグラムおよび空間的に関連する特徴等著グローバルな表現によるショット検出を述べた。圧縮領域において色を直接利用することはできないということに留意しなければならない。

Corridoni等は、「Automatic video segmentation through editing analysis」、Lecture Notes in Computer Science、974:179-190、1995において、フレーム間の相対的な差に基づく方法を述べた。彼らは、２つのフレーム間の差が同じショットに属するフレーム間の閾値差よりはるかに大きい場合に、ショットカットを予測する。閾値を、実験的に確定した。

長坂等は、「ビデオ作品の場面変わりの自動検出法（Automatic scene-change detection method for video works）」、日本情報処理学会第４０回全国大会講演論文集、１９９０（Proc.40^th National Con. Information Processing Society of Japan、1990）において、テンプレートマッチング技術とＸ^２検定とを２つの続くフレームの色ヒストグラムに適用した。

Arman等は、「Image processing on compressed data for large video databases」、ACM Multimedia、pp. 267-272、1993において、ＤＣＴの係数の既知の特性を使用して圧縮ビデオに直接作用するショット検出技術を述べた。

より最近の方法は、ショット検出のために、ＤＣＴ係数と動きベクトル情報（Zhang等著「Video parsing and browsing using compressed data」、Multimedia Tools and Applications、1(1):89-111、1995参照）と、ニューラルネットワーク（Ardizzone等著「A real-time neural approach to scene cut detection」、Proc. of IS-T/SPIE - Storage and Retrieval for Image and Video Databases IV、1996参照）と、低減した画像シーケンス（Yeo等著「Rapid scene change detection on compressed video」、IEEE Transactions on Circuits and Systems for Video Technology、5:533-544、1995参照）と、を使用する。

それらの方法は、ビデオをショットにセグメント化するためには十分であるが、圧縮ビデオから３Ｄオブジェクトをセグメント化するためには不十分である。

本発明は、ユーザ支援なしにビデオをオブジェクトにセグメント化する方法を提供する。

ＭＰＥＧ圧縮ビデオを、ＤＣＴ係数および動きベクトルを使用して擬似空間／時間データ（pseudo spatial/temporal data）と呼ぶ構造に変換する。

最初に圧縮ビデオを解析し、擬似空間／時間データを形成する。たとえばマクロブロックのＤＣＴ係数および動きベクトルの変化を使用して、シード（seed）マクロブロックを識別する。

ＤＣＴ係数と動き距離基準とを使用して、各シードマクロブロックの周囲でビデオボリュームを「成長（grow）」させる。ボリュームに対して自己記述子を割り当て、類似するボリュームの対に対して相互記述子を割り当てる。これらの記述子は、ボリュームの動きおよび空間情報を表現する(capture)。

ボリュームのあり得る対単位の組合せの各々に対し、類似性スコアを確定する。最大スコアを与えるボリュームの対を、反復的に結合する。結合段階において、ボリュームを分類しビデオオブジェクトの複数解像度の粗から密への（coarse-to-fine）階層で表現する。

より詳細には、本発明による方法は、フレームのビデオシーケンスをビデオオブジェクトにセグメント化する。各フレームは、マクロブロックから構成される。ビデオの各マクロブロックに特徴ベクトルを割り当てる。次に、選択されたマクロブロックを、シードマクロブロックとして識別する。シードマクロブロックの特徴ベクトルと隣接するマクロブロックの特徴ベクトルとの間の距離が第１の所定閾値を下回る場合、各シードマクロブロックに隣接するマクロブロックをマクロブロックの対応するボリュームにアセンブルする。たとえば、ユークリッド、ガウスまたはマハラノビス距離、ｌ_１、ｌ_２およびｌ_∞ノルム等、多数の距離測定法を使用することができる、ということに留意しなければならない。利点として、マハラノビス距離は、データの変数間変化に対して感度が高い。

すべてのマクロブロックをボリュームにアセンブルした後、各ボリュームに対して第１のスコアと自己記述子とを割り当てる。この時点で、各ボリュームはセグメント化されたビデオオブジェクトを表す。

そして、ボリュームを、第１のスコアに従って高から低の順序でソートし、さらに高から低の順序で処理する。

隣接するボリュームの対の記述子に依存する第２のスコアを確定する。第２のスコアが第２の閾値を超えるとボリュームを反復的に結合することにより、結合されたボリュームまたはビデオオブジェクトがビデオ全体である場合に完了する複数解像度ビデオオブジェクトツリーにおけるビデオオブジェクトを生成する。

図１は、本発明による圧縮ビデオ１０１から３Ｄオブジェクト１１１をセグメント化する方法１００を示す。ビデオ１０１は、時間順に配置された２Ｄ（空間）フレームのシーケンスを含む。最初に、圧縮ビデオを解析する１０２ことにより、元のピクセル輝度値を圧縮するために用いたＤＣＴ係数と動きベクトルとを取得する。圧縮ビデオから解析されるＤＣＴ係数を、Ｉフレームメモリ１０３に格納し、解析された動きベクトルを、Ｐフレームメモリ１０４に格納する。

本発明を説明するために使用する圧縮ビデオ１０１例は、広く使用されるＭＰＥＧ規格に従って圧縮するが、本発明は、高速フーリエ変換（ＦＦＴ）またはウェーブレット等著他の変換に従って圧縮されたビデオに適用することも可能である、ということを理解しなければならない。したがって、本明細書で「変換された係数」と言う場合、それは、ＤＣＴ係数、ＦＦＴ係数、ウェーブレット係数、動き係数、もしくは、元のピクセル輝度値およびピクセル動きから導出された他の任意の低減された係数のセットを意味する。ビデオがカラーである場合、各カラーチャネルに対して変換された係数のセットがあると想定される。

ショット検出器２００は、シーン境界を見つける。そして、同じショットのフレームに対し、変換された係数から擬似空間／時間データを構成する３００。このデータを使用して、ボリューム成長段階の閾値を適合させる１０７。

擬似空間／時間データをセグメント化するために、まず、変換された係数の勾配の大きさに基づいて、シードマクロブロック、すなわち「シード」を選択する１０８。そして、このシードマクロブロックの周囲で、閾値１０７を用いてボリュームを成長させる１０９。このシード割当ておよびボリューム成長を、データにそれ以上マクロブロックが残らなくなるまで繰り返す。したがって、本発明による方法は、基本的に、圧縮領域において見つけ解析される変換された係数の周囲でボリュームを成長させる。

各ボリュームに対し自己記述子（self-descriptor）を、ボリュームの対に対し相互記述子（mutual-descriptor）を確定する１１０。これら記述子を使用して、オブジェクトツリー生成ステップ１１１を使用してボリュームをオブジェクトに併合することにより、ツリー９９０を構築する。好ましい実施形態では、実際のボリュームを、成長するに従って格納する。すなわち、ツリーの最下レベルのリーフノードのみを格納する。そして、ツリーを使用して、ボシュームを最下レベルのリーフノードから特定の用途に対する必要に応じて任意の所望のレベルまで併合することができる。たとえば、ボリュームをルートノードまですべて併合する場合、単一ボリュームのみが残る。

解析
圧縮ＭＰＥＧビデオストリームが従来のシステムレイヤマルチプレクサ、可変長復号器（ＶＬＤ）および逆量子化（ＩＱ）プロセスを通過した後、ＩフレームのＤＣＴ係数とＰフレームの動きベクトルとがビットストリームにおいてキューに入れられる。しかしながら、このデータストリームは、依然として復号化ビデオではなく、最小計算コストで取得することができる初期ストリームの再編成されたバージョンである。

ビデオの完全な復号化フレームを取得するためには、逆離散コサイン変換（ＩＤＣＴ）を適用することによってＩフレームの色値を計算する必要がある。Ｐフレームの色値を確定するために、Ｐフレームと先に復号化されたＩフレームとの動きベクトルを使用して、動き補償を行う。そして、復号化されたＩおよびＰフレームからそれらのフレーム順に従って、補間されたＢフレームを計算することができる。最後に、残差を復号化しすべてのフレームに加算することにより、元のビデオフレームを回復する。

しかしながら、解析動作は、ビデオストリームを復号化せず、単に２進数を並べ替え、ＶＬＤおよび逆量子化（ＩＱ）を適用し、ブロック単位で順序付けられたデータを構成する。解析後、ＩフレームのマクロブロックのＤＣＴ係数と、Ｐフレームの対応するマクロブロックのベクトルの形式での動き係数と、を取得する。ＩフレームＤＣＴ係数を１６×１６マクロブロックに割り当て、Ｐフレームの動きベクトルは、Ｙカラーチャネルに対する１６×１６マクロブロックに対応する。ＵおよびＶカラーチャネルの場合、ブロックサイズは８×８である。

本明細書では、ＤＣＴ係数を、配列ＤＣＴ（ｃ，ｍ，ｎ，ｒ，ｓ，ｔ）として示す。ここで、ｃはカラーチャネル（Ｙ，Ｕ，Ｖ）を表し、（ｍ，ｎ）はフレーム内のマクロブロックの空間インデックスであり、（ｒ，ｓ）は対応するマクロブロック内のＤＣＴ係数のインデックスであり、ｔはフレーム番号である。たとえば、ＤＣＴ（Ｖ，２２，３５，０，０，４）は、フレーム４のＶチャネルのマクロブロック（２２，３５）の（０，０）係数を示す。ＤＣＴ行列の次元は、３×ＩＭ／１６×ＩＮ／１６×１６×１６×ＴＩであり、ここで、ＩＭ、ＩＮは、元のビデオフレームサイズであり、ＴＩは、シーンにおけるＩフレームの数である。

Ｐフレームの動き情報を、別の配列Ｍ（ａ，ｍ，ｎ，ｔ）に編成する。ここで、ａはｘまたはｙ方向であり、（ｍ，ｎ）はマクロブロックインデックスであり、ｔはフレーム番号である。たとえば、Ｍ（ｘ，２２，３０，４）は、第４Ｐフレームにおけるマクロブロック（２２，３０）の水平の動きの大きさである。動きデータ配列Ｍの次元は、２×ＩＭ／１６×ＩＮ／１６×ＴＰである。

ショット検出
圧縮ビデオをＩフレームおよびＰフレームに解析した１０２後、図２に示すように、シーンすなわち「ショット」を検出することができる２００。当然ながら、ビデオが単一シーンである場合、ショット検出は必要ではない。対応するＩフレームをメモリ１０３に格納し、Ｐフレームをフレームタイムライン順序を登録しながら別のメモリに格納する。

連続したＩフレーム１０３の対に対し、フレーム差スコアを確定する２０５。Ｉフレーム２０１のＤＣＴ係数ヒストグラムを、対応するカラーチャネルの各々に対して抽出する２０２。ヒストグラムを、ＤＣ成分および／または追加のＤＣＴ係数を利用して計算する。これらのヒストグラムを、フレーム単位で順序付けられたヒストグラムメモリ２０３に格納する。そして、現Ｉフレームのヒストグラムと先のＩフレームのヒストグラム２０４との間のフレーム差スコアを確定する２０５。ヒストグラム距離を計算するために、ビン毎の（bin-by-bin）またはビンを超えた（cross-bin）測定法を使用することができる。

現Ｐフレーム２１１と先のＰフレーム２１３との動きベクトルを使用して、Ｐフレーム１０４の対に対し動き差スコアを確定する２１５。先のフレームの動きベクトルを、動きベクトルメモリ２１２に格納する。動き差スコアを、同じマクロブロック位置に対応する動きベクトルの差として画定する。さらに、フレームの動きを、パラメータ化されたモデル関数に関してモデル化することができ、その後、同様に２つのモデルパラメータの発散を測定することにより動き距離を確定することができる。

ＤＣＴベースの差２０５と動きベクトルベースの差２１５とを、重み付けして合計する２２０。差スコア合計が事前設定された閾値ｔを上回る場合、ショットが検出される。ＤＣＴおよび動きベクトルメモリの両方に格納された現データを、データ構成プロセスに転送する２３０。

解析されたＩおよびＰフレームデータ２０３、２１２を使用して、擬似空間／時間データを生成し、このデータ内でオブジェクトをセグメント化する。ＤＣＴおよび動きベクトルメモリを空にし２０６、またはリセットし２１７、続くＩフレームおよびＰフレームについてシーン・カット検出プロセスを繰り返すことにより、次のシーン・カットの位置を見つける。

擬似空間／時間データ構成（ＰＳＴ）
図３乃至図６は、ビデオ１０１のシーン３０１に対して空間／時間データ（ＰＳＴ）３１０をいかに構成するか３００を示す。ここで、空間成分３１１はＤＣＴ情報であり、時間成分３１２は動き情報である。本明細書では、ＰＳＴデータをＰ（ｍ，ｎ，ｔ，ｋ）３１０として示す。ここで、（ｍ，ｎ）はフレーム内のマクロブロックインデックスを表し、ｔはフレーム番号、すなわち初期シーンカットフレームの開始からの距離を示し、ｋは順序付けされた３２０マクロブロックの変換された係数を表す。８×８マクロブロックの場合、ｋ＝１，…，６４であり、１６×１６マクロブロックの場合、ｋ＝１，…，２５６である。各マクロブロック成分は、ＤＣＴ係数と動きベクトルとを含む。言い換えれば、Ｐ（ｍ，ｎ，ｔ）は、マクロブロック（ｍ，ｎ，ｔ）に対応するテンソルとも呼ばれるベクトルである。このように、各マクロブロックは、空間および時間情報を含むテンソルを有する。圧縮ビデオに対し、２つのシーンカット間の一定数のＴフレームに対して、または単一ショットの場合はビデオ全体に対して、ＰＳＴデータを生成する。

Ｉフレームのみを使用
図４に示すように、ＰＳＴデータ３１０を生成する１つのプロセスは、Ｉフレームメモリ１０３に格納されたＩフレームＤＣＴ係数、すなわちＤＣＴ（ｃ，ｍ，ｎ，ｒ，ｓ，ｔ）配列のみを使用し、この配列の成分を、ＰＳＴテンソルの各成分が一定のカラーチャネルの対応するマクロブロックのＤＣＴ係数に等しいように、たとえばＰ（ｍ，ｎ，ｔ，１）＝ＤＣＴ（Ｙ，ｍ，ｎ，ｒ１，ｓ１，ｔ）、Ｐ（ｍ，ｎ，ｔ，２）＝ＤＣＴ（Ｙ，ｍ，ｎ，ｒ１，ｓ２，ｔ）、…Ｐ（ｍ，ｎ，ｔ，２５６＋１）＝ＤＣＴ（Ｕ，ｍ，ｎ，ｒ１，ｓ１，ｔ）、…Ｐ（ｍ，ｎ，ｔ，２５６＋６４＋１）＝ＤＣＴ（Ｖ，ｍ，ｎ，ｒ１，ｓ１，ｔ）等であるように再マップする。

ＩおよびＰフレームを使用
ＩおよびＰフレームを使用してＰＳＴデータ３１０を生成する２つの方法がある。第一の用法は、図５に示すように、ＰフレームＤＣＴ係数を計算し５０１、その後インデックス付けされる５２０テンソルを構成する４００。Ｐフレームに対してＤＣＴ係数が存在しないため、１つのプロセスは、先のＩフレームの動きベクトルとＤＣＴ係数とを使用してＰフレームのＤＣＴ係数を予測する。ＰフレームのＤＣＴ係数を予測する１つの方法は、Ｉフレームデータを動きベクトルに関して補償し４つのあり得るマクロブロック係数の重み付き平均を計算することによる推定である。他の方法を使用してもよい。フィルタを使用して圧縮領域においてＰフレームのＤＣＴ係数を予測する方法が、Sun等著「A new approach for memory efficient ATV decoding」、IEEE Trans. Consumer Electronics、pages 517-525、August 1997において述べられている。

そして、ＰＳＴデータ３０１を、ＩフレームのＤＣＴ係数とＰフレームの推定されたＤＣＴ係数とのみから構成する。ＰＳＴデータにおけるフレームの数は、ＩフレームおよびＰフレームの総数に等しい。

図６に示すように、第２のプロセスは、上記のようにＰフレームに対してＤＣＴ係数を推定する代りにＩフレームに対して動きパラメータを確定する６１０。２つの連続したＩフレーム間のＰフレームのすべての動きベクトルを使用して、Ｉフレームのマクロブロックの動きをモデル化する何らかの動きパラメータを推定する。

そして、ＰＳＴデータ３１０を、ＩフレームのＤＣＴ係数とマクロブロックの推定された動きパラメータとにより構成する。ＰＳＴデータのフレームの数は、シーン内のＩフレームの数に等しい。

空間／時間勾配
図７に示すように、シードマクロブロックを選択する１０８ために、最初に、空間勾配の大きさ７０１と時間勾配の大きさ７０２とを次のように確定する。

ここで、ｗ（ｋ）はＰＳＴテンソルの対応する成分の重みであり、α_ｍおよびα_ｎは空間成分の重みであり、α_ｔは時間成分の重みである。微分ステップサイズｈを、整数、好ましくは１に等しくすることができる。

シードマクロブロック選択
最小空間／時間勾配の大きさｍｉｎ｜∇Ｐ（ｍ，ｎ，ｔ，ｋ）｜を有するマクロブロック（ｍ，ｎ，ｔ）を、ボリュームの成長に対するシードマクロブロックとしてＰＳＴデータのセグメント化されていないマクロブロックから選択する１０８。シードマクロブロックの周囲でボリュームＶ１０９が成長し、成長したボリュームに属するマクロブロックをＰＳＴデータからセグメント化する。

セグメント化されていないマクロブロックの残りのセットにおいて次に勾配の大きさが小さいマクロブロックを選択し、データセットＰにマクロブロックが残らなくなるまで成長プロセスを繰り返す。

ボリューム成長
特徴類似性基準に従って、ボリュームＶをシードマクロブロック（ｍ，ｎ，ｔ）の周囲でアセンブルする。各ボリュームＶに対し、シードマクロブロックのテンソルと同じである特徴ベクトルｖを、ｖ＝Ｐ（ｍ，ｎ，ｔ）によって初期化する７２０。この特徴ベクトルは、成長しているボリュームの特性を表し、たとえば、それらの特徴はＤＣＴ係数および動きベクトルである。そして、近傍すなわち隣接するマクロブロックを検査する７３０。

隣接するマクロブロックのテンソルｑ＝Ｐ（ｍ，ｎ，ｔ）と現ボリュームＶの特徴ベクトルｖとの間の距離ｄ（ｖ，ｑ）を、ｄ（ｖ，ｑ）＝‖Ｐ（ｑ）−ｖ‖＝‖Ｐ（ｍ，ｎ，ｔ）−ｖ‖として測定する７４０。ここで、‖・‖は、何らかの距離関数を意味する。

距離を、適合された１０７閾値と比較する７５０。距離ｄが閾値より大きい場合、近傍が残っているかを検査し７６０、マクロブロックが残っているか検査し７７０、図８のＡに続く。

一方、距離ｄが所定閾値λを下回る場合、ボリューム特徴ベクトルｖを更新し７８０、ボリュームＶに隣接するマクロブロックを含める７９０。次の繰返しにおいて、アクティブなサーフェスのマクロブロックのみを評価する７９５ことにより探索の速度を向上させる。

シードマクロブロックに対する特徴ベクトルｖを、次のように更新する。

次の繰返しにおいて、アクティブなサーフェスのマクロブロックの隣接するマクロブロックを比較する。この操作を、ＰＳＴデータのすべてのマクロブロックを処理するまで繰り返す。上記プロセスは、シードマクロブロックと同じ特徴ベクトルを有する隣接するマクロブロックを同じボリュームにアセンブルする。各アセンブルされたボリュームの位置を、そのシードマクロブロックの位置によって指定する。

小さいボリュームを包含
初期ボリュームが成長した後、ボリューム成長プロセスは、図８に示すようにＡに進み、小さいボリュームに対してテストする８１０。以下のように、所定サイズを下回るボリュームをより大きい類似するボリュームに併合する。

小さいボリュームがない場合、図９のＢに続く。小さいボリュームがある場合、次に小さいボリュームを選択し８２０、そのマクロブロックのマークを解除し８３０、次のマークされていないマクロブロックを選択し８４０、最も類似するより大きいボリュームの位置を特定し８５０、マークされていないマクロブロックが残らなくなるまで８７０、その類似するボリュームにマークされていないマクロブロックを含める８６０。類似性の度合いは、上述したように距離測定法と特徴ベクトルとに基づく。言い換えれば、小さいボリュームのマクロブロックを、個々のマクロブロックにもっとも類似するボリュームに個々に分散させ包含させる。

ボリューム記述子
図９に示すように、各ボリュームＶに対し自己記述子Ｆ（Ｖ）のセットを割り当てる９１０。図１０に示すように、あり得るボリューム対Ｖｐ１００１およびＶｑ１００２の各々に対し相互記述子Ｆ（Ｖｐ，Ｖｑ）のセットを割り当てる。図１１および図１２は、それぞれ自己記述子と相互記述子とを示す。記述子を利用して、ボリュームの動き軌道、形状、容量、ＤＣＴ単位および動き単位の特性とともに、ボリュームの任意の対の間の相互相関を識別する。

図１０において、線１０１１および１０１２は、それぞれのボリュームの軌道を示し、破線１０３０は特定のフレームにおける軌道１０１１〜１０１２間の距離△を示す。後述するように、各ボリュームＶに対し、そのボリューム内部のマクロブロックの垂直および水平座標をフレーム単位で平均化することにより、軌道Ｔｒａｊ１０１１〜１０１２を確定する。平均化の代りに、他の重心画定を使用することも可能である。

自己記述子
図１１において、自己記述子ＳＤ_１（Ｖ，ｋ）は、ボリュームにおけるマクロブロックのＤＣＴ成分平均を含む２Ｄ行列である。ＤＣＴ係数平均（平均(average)）は、１６×１６マクロブロックに対する２５６のＤＣＴ成分および／または動きパラメータのすべてを含む。

ＳＤ_２（Ｖ）は、ボリュームにおけるマクロブロックの数である。

ＳＤ_３（Ｖ）は、ボリュームのサーフェス上のマクロブロックの数である。

ボリュームの二乗したサーフェス領域に対する比がＳＤ_４（Ｖ）であるように、第１の稠密度（compactness）を定義する。

サーフェスの代りにマックスコード（maxcord）を使用することにより、第２の稠密度記述子ＳＤ_５（Ｖ）を定義する。好ましい稠密度測度に対するさらなる詳細については、参照により本明細書に援用される、２００１年４月４日にPorikliによって出願された米国特許出願第０９／８２６，０４８号明細書「Method for Determining Compactness Ratios of Multiple Data and Signal Sets」を参照されたい。マックスコードは、ボリューム内に適合することができる最長コードの長さである。

ＳＤ_６（Ｖ）およびＳＤ_７（Ｖ）は、フレームのシーケンスに対し、それぞれ水平方向および垂直方向のボリュームの軌道を記述する。

ＳＤ_８（Ｖ）は、軌道の全長（ルート長）である。

ＳＤ_９（Ｖ）およびＳＤ_１０（Ｖ）は、ボリュームのマクロブロックの平均化された座標である。

相互記述子
図１２に示すように、相互記述子ＭＤ（Ｖｐ，Ｖｑ）は、ボリューム間の空間、形状、動き、色関係を表す。

ＭＤ_１１（Ｖｐ，Ｖｑ）は、ボリュームＶｐ、Ｖｑ両方が存在する各フレームにおいて軌道の距離△１０３０を合計することによるボリュームＶｐ、Ｖｑの軌道間の平均化された距離である。

軌道距離の分散はＭＤ_１２（Ｖｐ，Ｖｑ）であり、その最大値がＭＤ_１３（Ｖｐ，Ｖｑ）である。

距離ＭＤ_１４の平均変化（Ｖｐ，Ｖｑ）は、フレーム間の軌道の累算距離変化を表す。ボリュームの方向は、最後のフレームにおけるボリュームの重心から、それが存在したフレームのボリュームの重心までを指すベクトルである。

方向差ＭＤ_１５（Ｖｐ，Ｖｑ）は、ボリュームＶｐ、Ｖｑに関連するかかる２つのベクトルの距離である。

ＭＤ_１６（Ｖｐ，Ｖｑ）は、それらの別々の稠密度スコアの平均に関して相互ボリュームの稠密度を表す。

ＭＤ_１７（Ｖｐ，Ｖｑ）およびＭＤ_１８（Ｖｐ，Ｖｑ）は、相互ボリュームおよびサーフェスである。

ＭＤ_１９（Ｖｐ，Ｖｑ）は色差であり、ＭＤ_２０（Ｖｐ，Ｖｑ）は両ボリュームが同時に存在するフレームの数である。

ボリューム併合
図９は、ビデオを複数解像度３Ｄビデオオブジェクトにセグメント化するためにボリュームをいかに併合するかを示す。各ボリュームＶに対し、フレームごとにボリュームのマクロブロックの空間平均をとることにより、軌道Ｔｒａｊ（ｐ，ｔ）＝（ｘ，ｙ）_ｔを確定する。

そして、時刻ｔにおける２つのボリュームＶｐおよびＶｑの軌道間の距離△ｄ（ｐ，ｑ，ｔ）は、次のようになる。

垂直および水平動き、ルート長、距離の平均および分散、方向差ならびに距離の平均変化等著動き情報を、軌道から抽出する。

したがって、従来技術におけるようにオプティカルフロー、パラメトリックモデルまたは広範囲な探索に基づくマッチング方法によって動きを推定することなく、本方法は、動き情報を効率的に使用する。

併合ステップは、実質的に類似するボリューム記述子を有するボリュームを反復的に併合することにより、セグメント化された３Ｄビデオオブジェクトを生成する。好ましい併合は対単位であるが、他の併合戦略を使用することも可能である。

まず、ボリューム対の現組合せを、対が残らなくなるまで９３０確定する９２０。ボリュームＶの記述子を、それらのサイズ、稠密度および存在値に関してスコア付けしソートする９４０。リスト９４１を高から低へソートする。

ソート済みリスト９４１において最高類似性スコアを有するボリュームＶを選択する９５０ことにより、単一ボリュームが残るまで以下のようにボリュームを処理する。

併合９６０中、現ボリュームの記述子をその隣接するボリュームの記述子と比較する。関係記述子の場合、あり得る併合の類似性スコアを計算する。これらのスコアを、対応する記述子単位のリスト内に形成する。そして、各リストを、最高類似性スコアから開始して順序付けする。各相互記述子リストにおけるあり得る併合Ｖｐ、ＶｑのランクＲ_ｋ（Ｖｐ，Ｖｑ）を確定する。

併合されたボリュームのあり得る対の各々に対し、総類似性スコアをＳｉｍ（Ｖｐ，Ｖｑ）＝Σ_ｋｂ（ｋ）Ｒ_ｋ（Ｖｐ，Ｖｑ）として確定する。ここで、重みｂ（ｋ）を、各記述子の寄与を正規化し調整するために使用する。これらの乗数を、特定の用途に同様に適合させることができる。最大類似度を有する対を併合し９６０、ボリュームの記述子を更新する９７０。

併合を、２つのボリュームのみが残る９８０まで実行する。併合のいかなるレベルにおいても、ボリュームの選択された対が優れた選択であるか否かを分析することができる。これを、選択された併合ボリュームの類似性スコアの挙動を観察することによって行うことができる。このスコアが小さくなるかまたは急な減少を示す場合、併合は無効である可能性が高いが、それがあり得る最良の併合である。

ボリュームが併合されると、既知の技術を使用してビデオオブジェクトツリー９９０を生成することができる１１１。上述したように併合が対単位である場合、ツリーはバイナリツリーである。その時点で併合が４つのボリュームである場合、ツリーはクワッドツリーである。ボリュームを併合する方法次第で、他のツリー構造も可能である。

好ましい実施形態では、ツリー構造のみを維持し、ボリュームは最下レベルリーフノードとして残る。そして、アプリケーションは、必要に応じてビデオオブジェクトツリーを使用して、ボリュームをいかなる所望のレベルまでにも併合することができる。たとえば、単一ボリュームが望まれる場合、ボリュームをツリーのルートノードまで併合する。

この発明を、特定の用語および例を使用して説明した。本発明の精神および範囲内でさまざまな他の適応および変更を行ってもよい、ということを理解しなければならない。したがって、添付の特許請求の範囲の目的は、かかる変形および変更のすべてを本発明の真の精神および範囲内にあるように包含することである。

本発明によるビデオをオブジェクトにセグメント化する方法のブロック図である。図１の方法によって使用されるショット検出プロセスのブロック図である。図１の方法に対して擬似空間／時間データを構成するプロセスのブロック図である。図１の方法に対して擬似空間／時間データを構成するプロセスのブロック図である。図１の方法に対してＤＣＴ係数を推定するプロセスのブロック図である。Ｉフレームに対してテンソルを構成するプロセスのブロック図である。図１の方法のボリューム成長プロセスのブロック図である。図１の方法のボリューム成長プロセスのブロック図である。ボリュームのブロック図である。図１の方法によって使用されるオブジェクトツリーを生成するプロセスのブロック図である。自己記述子のブロック図である。相互記述子のブロック図である。

Claims

圧縮ビデオは時間的に分離された複数のフレームを含み、各フレームは空間的に分離された複数のマクロブロックを含む、圧縮ビデオから３次元オブジェクトをセグメント化する方法であって、
各マクロブロックに対して変換された係数を解析すること、
前記変換された係数に基づいて各マクロブロックに対し空間／時間勾配を確定すること、
最小の空間／時間勾配の大きさを有する特定のマクロブロックをシードマクロブロックとして選択すること、
前記シードマクロブロックと空間的及び時間的に隣接するマクロブロックとの間の距離を前記変換された係数に基づいて測定すること、並びに
所定閾値を下回る距離を有する前記隣接するマクロブロックを使用して前記シードマクロブロックの周囲でボリュームを成長させること
を含む圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記複数のフレームは、単一ショットである
請求項１記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記複数のフレームは、ＤＣＴ係数を有するＩフレームを含む
請求項１記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記複数のフレームは、動きベクトルを有するＰフレームを含む
請求項３記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記変換された係数は、ウェーブレットである
請求項１記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記変換された係数は、高速フーリエ変換係数である
請求項１記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記圧縮ビデオの各カラーチャネルに対し変換された係数のセットがある
請求項１記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記単一ショットは、前記変換された係数から検出される
請求項２記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
各マクロブロックの前記変換された係数を、空間／時間データＰ（ｍ，ｎ，ｔ，ｋ）として表し、ここで（ｍ，ｎ）は特定フレームｔ内のマクロブロックインデックスを表し、前記マクロブロック内の変換された係数の特定のセットを表す
請求項４記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記空間／時間勾配の大きさを、

として確定し、ここでｗ（ｋ）は変換された係数の対応するセットの重みであり、α_ｍ及びα_ｎは前記ＤＣＴ係数の重みであり、α_ｔは前記動きベクトルの重みであり、ｈは微分ステップサイズである
請求項９記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記最小空間／時間勾配の大きさは、ｍｉｎ｜∇Ｐ（ｍ，ｎ，ｔ，ｋ）｜である
請求項１０記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記選択すること、測定すること、及び成長させることを、マクロブロックが残らなくなるまで繰り返すことにより、複数のボリュームを生成する
請求項１記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記シードマクロブロックｖと特定の隣接するマクロブロックｑとの間の距離は、
ｄ（ｖ，ｑ）＝‖Ｐ（ｑ）−ｖ‖＝‖Ｐ（ｍ，ｎ，ｔ）−ｖ‖
であり、‖・‖は特定の距離関数である
請求項９記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
ｄを前記測定された距離、λを閾値、Ｎを次の隣接するマクロブロックとすると、前記ボリュームを、

として成長させながら、前記シードマクロブロックに対する特徴ベクトルｖを更新すること
をさらに含む請求項１３記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
所定サイズを下回る特定ボリュームの個々のマクロブロックを、前記複数のボリュームのうちのより大きい類似するものに包含すること
をさらに含む請求項１２記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記ボリュームに対し自己記述子のセットを割り当てること
をさらに含む請求項１記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記自己記述子は、
前記ボリュームにおける前記マクロブロックの前記変換された係数の平均と、
前記ボリュームにおけるマクロブロックの数と、
前記ボリュームのサーフェス上のマクロブロックの数と、
前記ボリュームの稠密度比と、
前記ボリュームの軌道と、
前記軌道の長さと、
前記ボリュームの前記マクロブロックの平均座標とを含む
請求項１６記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
ボリュームのあり得る対の各々に対し相互記述子のセットを割り当てること
をさらに含む請求項１２記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記相互記述子は、
前記ボリュームの対の軌道間の平均距離と、
前記軌道の距離の分散と、
前記軌道間の最大距離と、
前記軌道間の前記距離の平均変化と、
前記軌道の累算距離変化と、
前記ボリュームの対の稠密度と、
前記ボリュームの対間の色差と、
前記ボリュームの対が同時に存在するフレームの数とを含む
請求項１８記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記ボリュームに対し自己記述子のセットを割り当てること、及び
ボリュームのあり得る対の各々に対し相互記述子のセットを割り当てること
をさらに含む請求項１２記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記圧縮ビデオを複数解像度３Ｄビデオオブジェクトにセグメント化するために、前記自己記述子のセットと前記相互記述子のセットとに従って前記複数のボリュームを併合すること
をさらに含む請求項２０記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記併合することは、対単位である
請求項２１記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。
前記併合されたボリュームは、ビデオオブジェクトツリーに保持される
請求項２１記載の圧縮ビデオから３次元オブジェクトをセグメント化する方法。