JP2004350283A - 圧縮ビデオから3次元オブジェクトをセグメント化する方法 - Google Patents
圧縮ビデオから3次元オブジェクトをセグメント化する方法 Download PDFInfo
- Publication number
- JP2004350283A JP2004350283A JP2004149464A JP2004149464A JP2004350283A JP 2004350283 A JP2004350283 A JP 2004350283A JP 2004149464 A JP2004149464 A JP 2004149464A JP 2004149464 A JP2004149464 A JP 2004149464A JP 2004350283 A JP2004350283 A JP 2004350283A
- Authority
- JP
- Japan
- Prior art keywords
- volume
- compressed video
- segmenting
- macroblock
- volumes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/48—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/87—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20101—Interactive definition of point of interest, landmark or seed
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
【課題】本方法は、ユーザ支援なしにビデオをオブジェクトにセグメント化する。
【解決手段】MPEG圧縮ビデオを、DCT係数と動きベクトルを使用して擬似空間/時間データと呼ぶ構造に変換する。最初に圧縮ビデオを解析し、擬似空間/時間データを形成する。例えばマクロブロックのDCT係数と動きベクトルの変化を使用してシードマクロブロックを識別する。DCT係数と動き距離基準を使用して各シードマクロブロックの周囲でビデオボリュームを「成長」させる。ボリュームに対して自己記述子を割当て、類似するボリュームの対に相互記述子を割当てる。これらの記述子は、ボリュームの動きと空間情報を表現する。ボリュームのあり得る対単位の組合せの各々に対し、類似性スコアを確定する。最大スコアを与えるボリュームの対を反復的に結合する。結合段階で、ボリュームを分類しビデオオブジェクトの複数解像度の粗から密への階層で表現する。
【選択図】図1
【解決手段】MPEG圧縮ビデオを、DCT係数と動きベクトルを使用して擬似空間/時間データと呼ぶ構造に変換する。最初に圧縮ビデオを解析し、擬似空間/時間データを形成する。例えばマクロブロックのDCT係数と動きベクトルの変化を使用してシードマクロブロックを識別する。DCT係数と動き距離基準を使用して各シードマクロブロックの周囲でビデオボリュームを「成長」させる。ボリュームに対して自己記述子を割当て、類似するボリュームの対に相互記述子を割当てる。これらの記述子は、ボリュームの動きと空間情報を表現する。ボリュームのあり得る対単位の組合せの各々に対し、類似性スコアを確定する。最大スコアを与えるボリュームの対を反復的に結合する。結合段階で、ボリュームを分類しビデオオブジェクトの複数解像度の粗から密への階層で表現する。
【選択図】図1
Description
本発明は、包括的にはビデオをセグメント化することに関し、詳細には、ビデオから3Dオブジェクトをセグメント化することに関する。
圧縮ビデオを、解凍する必要なく分析することが可能でなければならない。圧縮ビデオを分析することは、データが少なくなるため必要な労力が少なくなければならない。しかしながら、圧縮ビデオでは、ピクセル色の強度等著元のピクチャ情報がいずれも利用できない。ビデオがMPEG規格に従って圧縮される場合、ビットストリームはI、BおよびPフレームに変換される。Iフレームは、元のビデオフレームのDCT情報を格納し、BおよびPフレームは、動き補償後の動き情報および残余を格納する。Iフレームは動き情報を格納しないが、静的色およびテクスチャ情報を、逆動き補償によってBおよびPフレームに伝播することができる。
圧縮ビデオは、オブジェクト分析に有用ないくつかの重要な特性を有する。第1に、動き情報は、動きフィールドを推定する必要なく容易に入手可能である。第2に、DCT情報は画像特性を表す。しかしながら、動きベクトルは、不適合によって汚染される(contaminated)場合が多い。さらに、MPEG圧縮ビットストリームの動きフィールドは、量子化誤差を受け易い。したがって、未圧縮ビデオに対する動き分析の方が、十分な情報を提供する。しかしながら、元の情報を回復するためにビデオを解凍することは非常に時間がかかり、ビデオを最初に解凍しなければならない場合、圧縮ビデオの必要な分析をリアルタイムで行うことが不可能である可能性がある。
従来技術では、圧縮画像を分析するいくつかの方法が知られている。1つの方法は、JPEG文書をハーフトーン、テキストおよび連続階調ピクチャ等著特定領域にセグメント化する。De Queiroz等著「Optimizing block thresholding segmentation for multilayer compression of compound images」、IEEE Trans. Image Proc. pp. 1461-1471、2000を参照されたい。彼らは、符号化コストマップ(encoding cost map)に基づくセグメント化を使用した。しかしながら、JPEG規格は、単一静止画像を扱うのみである。したがって、静止画像から任意の3Dオブジェクトをセグメント化することは不可能である。
Wang等は、「Automatic face region detection in MPEG video sequences」、Electronic Imaging and Multimedia Systems、SPIE Photonics、1996において、MPEG圧縮ビデオにおいて顔を検出するプロセスを述べた。彼らは、クロミナンス、すなわち肌の色合いの統計量と、顔形状制約と、輝度値のエネルギー分布と、を使用して、顔を検出し位置を特定した。彼らの方法は一般的ではなく、未知の色および形状の未知数の任意のオブジェクトを含むビデオに対しては機能しない。
Meng等は、「Tools for compressed-domain video indexing and editing」、SPIE Proceedings、2670:180-191、1996において、ブロックカウント方法を使用して3パラメータアフィン変換グローバル動きモデルにおいてパラメータを推定した。そして、彼らは、グローバル動き補償を実行してオブジェクトマスクを取得し、複数のオブジェクトを扱うためにヒストグラムクラスタリングを使用した。
Sukmarg等は、「Fast algorithm to detect and segmentation in MPEG compressed domain」、IEEE TENCON、2000において、MPEG圧縮ビデオにおいて動き情報を使用して背景から前景を検出しセグメント化するアルゴリズムを述べた。彼らのセグメント化は、4つの主な段階、すなわち逐次リーダ(sequential leader)および適応的K平均クラスタリングによる初期セグメント化と、空間・時間類似性に基づく領域併合と、前景・背景分類と、オブジェクト詳細抽出と、を有する。初期セグメント化された領域を、DC画像およびACエネルギーデータに基づいて3D空間情報から生成する。その情報を使用して画像をクラスタ化する。クラスタが取得された後、各クラスタにそれ以上変化が発生しなくなるまで、適応的K平均クラスタリングを適用する。時間的類似性を、時間勾配の分布のコロモゴロフ・スミルノフ(Kolmogorov-Smirnov)仮説検定に基づいて導出する。An等著「A Kolmogorov-Smirnov type statistic with applications to test for normality in time series」、International Statistics Review、59:287-307、1991を参照されたい。仮説検定は、2つの累積分布関数間の全体の差を測定する。空間的・時間的類似性を使用して、領域間の類似性グラフを構成する。そのグラフを閾値処理しクラスタ化する。第1のクラスタリング段階を使用して、グラフのサイクルを形成する領域を併合する。第2のクラスタリング段階を使用して、関心のあるクラスタとその隣接クラスタとの間を接続するグラフエッジと、関心のあるクラスタ自体の中で接続するグラフエッジとの数に基づいて領域を併合する。
ビデオセグメント化の本質的なステップは、ビデオを、シーンすなわち「ショット」と呼ぶ画像のシーケンスに分割することである。ショットは、内容に関して一貫した画像のシーケンスである。通常、ショットは、カメラシャッタ開閉間のフレームのシーケンスを含む。ショットは、ビデオの基本単位として識別されており、それらの検出は、ビデオセグメント化における最初のタスクである。ショット検出に対しいくつかの技術が知られている。
ショットが識別された後、動き、色、テクスチャおよび他の特徴に基づいてそれらの内容を分析することができる。
ショット検出は、データ駆動であってもモデル駆動であってもよい。データ駆動方法は、2つのクラスに分類される。グローバルな特徴に基づくものと、画像の空間的に記録された特徴に基づくものと、である。グローバルな特徴、すなわち色ヒストグラムに基づく方法は、動きの影響を受けないが、ショットカットの前後の画像が類似するグローバルな特徴を有する場合、シーンカットを検出しない可能性がある。空間的に記録された特徴に基づく方法は、動くオブジェクトの影響を受け、画像が極度に低速または高速である場合に失敗する可能性がある。モデル駆動手法は、数学的モデルに基づく。
Flickner等は、「Query by image and video content」、IEEE Computer、pages 23-31、1995において、色ヒストグラムおよび空間的に関連する特徴等著グローバルな表現によるショット検出を述べた。圧縮領域において色を直接利用することはできないということに留意しなければならない。
Corridoni等は、「Automatic video segmentation through editing analysis」、Lecture Notes in Computer Science、974:179-190、1995において、フレーム間の相対的な差に基づく方法を述べた。彼らは、2つのフレーム間の差が同じショットに属するフレーム間の閾値差よりはるかに大きい場合に、ショットカットを予測する。閾値を、実験的に確定した。
長坂等は、「ビデオ作品の場面変わりの自動検出法(Automatic scene-change detection method for video works)」、日本情報処理学会第40回全国大会講演論文集、1990(Proc.40th National Con. Information Processing Society of Japan、1990)において、テンプレートマッチング技術とX2検定とを2つの続くフレームの色ヒストグラムに適用した。
Arman等は、「Image processing on compressed data for large video databases」、ACM Multimedia、pp. 267-272、1993において、DCTの係数の既知の特性を使用して圧縮ビデオに直接作用するショット検出技術を述べた。
より最近の方法は、ショット検出のために、DCT係数と動きベクトル情報(Zhang等著「Video parsing and browsing using compressed data」、Multimedia Tools and Applications、1(1):89-111、1995参照)と、ニューラルネットワーク(Ardizzone等著「A real-time neural approach to scene cut detection」、Proc. of IS-T/SPIE - Storage and Retrieval for Image and Video Databases IV、1996参照)と、低減した画像シーケンス(Yeo等著「Rapid scene change detection on compressed video」、IEEE Transactions on Circuits and Systems for Video Technology、5:533-544、1995参照)と、を使用する。
それらの方法は、ビデオをショットにセグメント化するためには十分であるが、圧縮ビデオから3Dオブジェクトをセグメント化するためには不十分である。
本発明は、ユーザ支援なしにビデオをオブジェクトにセグメント化する方法を提供する。
MPEG圧縮ビデオを、DCT係数および動きベクトルを使用して擬似空間/時間データ(pseudo spatial/temporal data)と呼ぶ構造に変換する。
最初に圧縮ビデオを解析し、擬似空間/時間データを形成する。たとえばマクロブロックのDCT係数および動きベクトルの変化を使用して、シード(seed)マクロブロックを識別する。
DCT係数と動き距離基準とを使用して、各シードマクロブロックの周囲でビデオボリュームを「成長(grow)」させる。ボリュームに対して自己記述子を割り当て、類似するボリュームの対に対して相互記述子を割り当てる。これらの記述子は、ボリュームの動きおよび空間情報を表現する(capture)。
ボリュームのあり得る対単位の組合せの各々に対し、類似性スコアを確定する。最大スコアを与えるボリュームの対を、反復的に結合する。結合段階において、ボリュームを分類しビデオオブジェクトの複数解像度の粗から密への(coarse-to-fine)階層で表現する。
より詳細には、本発明による方法は、フレームのビデオシーケンスをビデオオブジェクトにセグメント化する。各フレームは、マクロブロックから構成される。ビデオの各マクロブロックに特徴ベクトルを割り当てる。次に、選択されたマクロブロックを、シードマクロブロックとして識別する。シードマクロブロックの特徴ベクトルと隣接するマクロブロックの特徴ベクトルとの間の距離が第1の所定閾値を下回る場合、各シードマクロブロックに隣接するマクロブロックをマクロブロックの対応するボリュームにアセンブルする。たとえば、ユークリッド、ガウスまたはマハラノビス距離、l1、l2およびl∞ノルム等、多数の距離測定法を使用することができる、ということに留意しなければならない。利点として、マハラノビス距離は、データの変数間変化に対して感度が高い。
すべてのマクロブロックをボリュームにアセンブルした後、各ボリュームに対して第1のスコアと自己記述子とを割り当てる。この時点で、各ボリュームはセグメント化されたビデオオブジェクトを表す。
そして、ボリュームを、第1のスコアに従って高から低の順序でソートし、さらに高から低の順序で処理する。
隣接するボリュームの対の記述子に依存する第2のスコアを確定する。第2のスコアが第2の閾値を超えるとボリュームを反復的に結合することにより、結合されたボリュームまたはビデオオブジェクトがビデオ全体である場合に完了する複数解像度ビデオオブジェクトツリーにおけるビデオオブジェクトを生成する。
図1は、本発明による圧縮ビデオ101から3Dオブジェクト111をセグメント化する方法100を示す。ビデオ101は、時間順に配置された2D(空間)フレームのシーケンスを含む。最初に、圧縮ビデオを解析する102ことにより、元のピクセル輝度値を圧縮するために用いたDCT係数と動きベクトルとを取得する。圧縮ビデオから解析されるDCT係数を、Iフレームメモリ103に格納し、解析された動きベクトルを、Pフレームメモリ104に格納する。
本発明を説明するために使用する圧縮ビデオ101例は、広く使用されるMPEG規格に従って圧縮するが、本発明は、高速フーリエ変換(FFT)またはウェーブレット等著他の変換に従って圧縮されたビデオに適用することも可能である、ということを理解しなければならない。したがって、本明細書で「変換された係数」と言う場合、それは、DCT係数、FFT係数、ウェーブレット係数、動き係数、もしくは、元のピクセル輝度値およびピクセル動きから導出された他の任意の低減された係数のセットを意味する。ビデオがカラーである場合、各カラーチャネルに対して変換された係数のセットがあると想定される。
ショット検出器200は、シーン境界を見つける。そして、同じショットのフレームに対し、変換された係数から擬似空間/時間データを構成する300。このデータを使用して、ボリューム成長段階の閾値を適合させる107。
擬似空間/時間データをセグメント化するために、まず、変換された係数の勾配の大きさに基づいて、シードマクロブロック、すなわち「シード」を選択する108。そして、このシードマクロブロックの周囲で、閾値107を用いてボリュームを成長させる109。このシード割当ておよびボリューム成長を、データにそれ以上マクロブロックが残らなくなるまで繰り返す。したがって、本発明による方法は、基本的に、圧縮領域において見つけ解析される変換された係数の周囲でボリュームを成長させる。
各ボリュームに対し自己記述子(self-descriptor)を、ボリュームの対に対し相互記述子(mutual-descriptor)を確定する110。これら記述子を使用して、オブジェクトツリー生成ステップ111を使用してボリュームをオブジェクトに併合することにより、ツリー990を構築する。好ましい実施形態では、実際のボリュームを、成長するに従って格納する。すなわち、ツリーの最下レベルのリーフノードのみを格納する。そして、ツリーを使用して、ボシュームを最下レベルのリーフノードから特定の用途に対する必要に応じて任意の所望のレベルまで併合することができる。たとえば、ボリュームをルートノードまですべて併合する場合、単一ボリュームのみが残る。
解析
圧縮MPEGビデオストリームが従来のシステムレイヤマルチプレクサ、可変長復号器(VLD)および逆量子化(IQ)プロセスを通過した後、IフレームのDCT係数とPフレームの動きベクトルとがビットストリームにおいてキューに入れられる。しかしながら、このデータストリームは、依然として復号化ビデオではなく、最小計算コストで取得することができる初期ストリームの再編成されたバージョンである。
圧縮MPEGビデオストリームが従来のシステムレイヤマルチプレクサ、可変長復号器(VLD)および逆量子化(IQ)プロセスを通過した後、IフレームのDCT係数とPフレームの動きベクトルとがビットストリームにおいてキューに入れられる。しかしながら、このデータストリームは、依然として復号化ビデオではなく、最小計算コストで取得することができる初期ストリームの再編成されたバージョンである。
ビデオの完全な復号化フレームを取得するためには、逆離散コサイン変換(IDCT)を適用することによってIフレームの色値を計算する必要がある。Pフレームの色値を確定するために、Pフレームと先に復号化されたIフレームとの動きベクトルを使用して、動き補償を行う。そして、復号化されたIおよびPフレームからそれらのフレーム順に従って、補間されたBフレームを計算することができる。最後に、残差を復号化しすべてのフレームに加算することにより、元のビデオフレームを回復する。
しかしながら、解析動作は、ビデオストリームを復号化せず、単に2進数を並べ替え、VLDおよび逆量子化(IQ)を適用し、ブロック単位で順序付けられたデータを構成する。解析後、IフレームのマクロブロックのDCT係数と、Pフレームの対応するマクロブロックのベクトルの形式での動き係数と、を取得する。IフレームDCT係数を16×16マクロブロックに割り当て、Pフレームの動きベクトルは、Yカラーチャネルに対する16×16マクロブロックに対応する。UおよびVカラーチャネルの場合、ブロックサイズは8×8である。
本明細書では、DCT係数を、配列DCT(c,m,n,r,s,t)として示す。ここで、cはカラーチャネル(Y,U,V)を表し、(m,n)はフレーム内のマクロブロックの空間インデックスであり、(r,s)は対応するマクロブロック内のDCT係数のインデックスであり、tはフレーム番号である。たとえば、DCT(V,22,35,0,0,4)は、フレーム4のVチャネルのマクロブロック(22,35)の(0,0)係数を示す。DCT行列の次元は、3×IM/16×IN/16×16×16×TIであり、ここで、IM、INは、元のビデオフレームサイズであり、TIは、シーンにおけるIフレームの数である。
Pフレームの動き情報を、別の配列M(a,m,n,t)に編成する。ここで、aはxまたはy方向であり、(m,n)はマクロブロックインデックスであり、tはフレーム番号である。たとえば、M(x,22,30,4)は、第4Pフレームにおけるマクロブロック(22,30)の水平の動きの大きさである。動きデータ配列Mの次元は、2×IM/16×IN/16×TPである。
ショット検出
圧縮ビデオをIフレームおよびPフレームに解析した102後、図2に示すように、シーンすなわち「ショット」を検出することができる200。当然ながら、ビデオが単一シーンである場合、ショット検出は必要ではない。対応するIフレームをメモリ103に格納し、Pフレームをフレームタイムライン順序を登録しながら別のメモリに格納する。
圧縮ビデオをIフレームおよびPフレームに解析した102後、図2に示すように、シーンすなわち「ショット」を検出することができる200。当然ながら、ビデオが単一シーンである場合、ショット検出は必要ではない。対応するIフレームをメモリ103に格納し、Pフレームをフレームタイムライン順序を登録しながら別のメモリに格納する。
連続したIフレーム103の対に対し、フレーム差スコアを確定する205。Iフレーム201のDCT係数ヒストグラムを、対応するカラーチャネルの各々に対して抽出する202。ヒストグラムを、DC成分および/または追加のDCT係数を利用して計算する。これらのヒストグラムを、フレーム単位で順序付けられたヒストグラムメモリ203に格納する。そして、現Iフレームのヒストグラムと先のIフレームのヒストグラム204との間のフレーム差スコアを確定する205。ヒストグラム距離を計算するために、ビン毎の(bin-by-bin)またはビンを超えた(cross-bin)測定法を使用することができる。
現Pフレーム211と先のPフレーム213との動きベクトルを使用して、Pフレーム104の対に対し動き差スコアを確定する215。先のフレームの動きベクトルを、動きベクトルメモリ212に格納する。動き差スコアを、同じマクロブロック位置に対応する動きベクトルの差として画定する。さらに、フレームの動きを、パラメータ化されたモデル関数に関してモデル化することができ、その後、同様に2つのモデルパラメータの発散を測定することにより動き距離を確定することができる。
DCTベースの差205と動きベクトルベースの差215とを、重み付けして合計する220。差スコア合計が事前設定された閾値tを上回る場合、ショットが検出される。DCTおよび動きベクトルメモリの両方に格納された現データを、データ構成プロセスに転送する230。
解析されたIおよびPフレームデータ203、212を使用して、擬似空間/時間データを生成し、このデータ内でオブジェクトをセグメント化する。DCTおよび動きベクトルメモリを空にし206、またはリセットし217、続くIフレームおよびPフレームについてシーン・カット検出プロセスを繰り返すことにより、次のシーン・カットの位置を見つける。
擬似空間/時間データ構成(PST)
図3乃至図6は、ビデオ101のシーン301に対して空間/時間データ(PST)310をいかに構成するか300を示す。ここで、空間成分311はDCT情報であり、時間成分312は動き情報である。本明細書では、PSTデータをP(m,n,t,k)310として示す。ここで、(m,n)はフレーム内のマクロブロックインデックスを表し、tはフレーム番号、すなわち初期シーンカットフレームの開始からの距離を示し、kは順序付けされた320マクロブロックの変換された係数を表す。8×8マクロブロックの場合、k=1,…,64であり、16×16マクロブロックの場合、k=1,…,256である。各マクロブロック成分は、DCT係数と動きベクトルとを含む。言い換えれば、P(m,n,t)は、マクロブロック(m,n,t)に対応するテンソルとも呼ばれるベクトルである。このように、各マクロブロックは、空間および時間情報を含むテンソルを有する。圧縮ビデオに対し、2つのシーンカット間の一定数のTフレームに対して、または単一ショットの場合はビデオ全体に対して、PSTデータを生成する。
図3乃至図6は、ビデオ101のシーン301に対して空間/時間データ(PST)310をいかに構成するか300を示す。ここで、空間成分311はDCT情報であり、時間成分312は動き情報である。本明細書では、PSTデータをP(m,n,t,k)310として示す。ここで、(m,n)はフレーム内のマクロブロックインデックスを表し、tはフレーム番号、すなわち初期シーンカットフレームの開始からの距離を示し、kは順序付けされた320マクロブロックの変換された係数を表す。8×8マクロブロックの場合、k=1,…,64であり、16×16マクロブロックの場合、k=1,…,256である。各マクロブロック成分は、DCT係数と動きベクトルとを含む。言い換えれば、P(m,n,t)は、マクロブロック(m,n,t)に対応するテンソルとも呼ばれるベクトルである。このように、各マクロブロックは、空間および時間情報を含むテンソルを有する。圧縮ビデオに対し、2つのシーンカット間の一定数のTフレームに対して、または単一ショットの場合はビデオ全体に対して、PSTデータを生成する。
Iフレームのみを使用
図4に示すように、PSTデータ310を生成する1つのプロセスは、Iフレームメモリ103に格納されたIフレームDCT係数、すなわちDCT(c,m,n,r,s,t)配列のみを使用し、この配列の成分を、PSTテンソルの各成分が一定のカラーチャネルの対応するマクロブロックのDCT係数に等しいように、たとえばP(m,n,t,1)=DCT(Y,m,n,r1,s1,t)、P(m,n,t,2)=DCT(Y,m,n,r1,s2,t)、…P(m,n,t,256+1)=DCT(U,m,n,r1,s1,t)、…P(m,n,t,256+64+1)=DCT(V,m,n,r1,s1,t)等であるように再マップする。
図4に示すように、PSTデータ310を生成する1つのプロセスは、Iフレームメモリ103に格納されたIフレームDCT係数、すなわちDCT(c,m,n,r,s,t)配列のみを使用し、この配列の成分を、PSTテンソルの各成分が一定のカラーチャネルの対応するマクロブロックのDCT係数に等しいように、たとえばP(m,n,t,1)=DCT(Y,m,n,r1,s1,t)、P(m,n,t,2)=DCT(Y,m,n,r1,s2,t)、…P(m,n,t,256+1)=DCT(U,m,n,r1,s1,t)、…P(m,n,t,256+64+1)=DCT(V,m,n,r1,s1,t)等であるように再マップする。
IおよびPフレームを使用
IおよびPフレームを使用してPSTデータ310を生成する2つの方法がある。第一の用法は、図5に示すように、PフレームDCT係数を計算し501、その後インデックス付けされる520テンソルを構成する400。Pフレームに対してDCT係数が存在しないため、1つのプロセスは、先のIフレームの動きベクトルとDCT係数とを使用してPフレームのDCT係数を予測する。PフレームのDCT係数を予測する1つの方法は、Iフレームデータを動きベクトルに関して補償し4つのあり得るマクロブロック係数の重み付き平均を計算することによる推定である。他の方法を使用してもよい。フィルタを使用して圧縮領域においてPフレームのDCT係数を予測する方法が、Sun等著「A new approach for memory efficient ATV decoding」、IEEE Trans. Consumer Electronics、pages 517-525、August 1997において述べられている。
IおよびPフレームを使用してPSTデータ310を生成する2つの方法がある。第一の用法は、図5に示すように、PフレームDCT係数を計算し501、その後インデックス付けされる520テンソルを構成する400。Pフレームに対してDCT係数が存在しないため、1つのプロセスは、先のIフレームの動きベクトルとDCT係数とを使用してPフレームのDCT係数を予測する。PフレームのDCT係数を予測する1つの方法は、Iフレームデータを動きベクトルに関して補償し4つのあり得るマクロブロック係数の重み付き平均を計算することによる推定である。他の方法を使用してもよい。フィルタを使用して圧縮領域においてPフレームのDCT係数を予測する方法が、Sun等著「A new approach for memory efficient ATV decoding」、IEEE Trans. Consumer Electronics、pages 517-525、August 1997において述べられている。
そして、PSTデータ301を、IフレームのDCT係数とPフレームの推定されたDCT係数とのみから構成する。PSTデータにおけるフレームの数は、IフレームおよびPフレームの総数に等しい。
図6に示すように、第2のプロセスは、上記のようにPフレームに対してDCT係数を推定する代りにIフレームに対して動きパラメータを確定する610。2つの連続したIフレーム間のPフレームのすべての動きベクトルを使用して、Iフレームのマクロブロックの動きをモデル化する何らかの動きパラメータを推定する。
そして、PSTデータ310を、IフレームのDCT係数とマクロブロックの推定された動きパラメータとにより構成する。PSTデータのフレームの数は、シーン内のIフレームの数に等しい。
空間/時間勾配
図7に示すように、シードマクロブロックを選択する108ために、最初に、空間勾配の大きさ701と時間勾配の大きさ702とを次のように確定する。
図7に示すように、シードマクロブロックを選択する108ために、最初に、空間勾配の大きさ701と時間勾配の大きさ702とを次のように確定する。
ここで、w(k)はPSTテンソルの対応する成分の重みであり、αmおよびαnは空間成分の重みであり、αtは時間成分の重みである。微分ステップサイズhを、整数、好ましくは1に等しくすることができる。
シードマクロブロック選択
最小空間/時間勾配の大きさmin|∇P(m,n,t,k)|を有するマクロブロック(m,n,t)を、ボリュームの成長に対するシードマクロブロックとしてPSTデータのセグメント化されていないマクロブロックから選択する108。シードマクロブロックの周囲でボリュームV109が成長し、成長したボリュームに属するマクロブロックをPSTデータからセグメント化する。
最小空間/時間勾配の大きさmin|∇P(m,n,t,k)|を有するマクロブロック(m,n,t)を、ボリュームの成長に対するシードマクロブロックとしてPSTデータのセグメント化されていないマクロブロックから選択する108。シードマクロブロックの周囲でボリュームV109が成長し、成長したボリュームに属するマクロブロックをPSTデータからセグメント化する。
セグメント化されていないマクロブロックの残りのセットにおいて次に勾配の大きさが小さいマクロブロックを選択し、データセットPにマクロブロックが残らなくなるまで成長プロセスを繰り返す。
ボリューム成長
特徴類似性基準に従って、ボリュームVをシードマクロブロック(m,n,t)の周囲でアセンブルする。各ボリュームVに対し、シードマクロブロックのテンソルと同じである特徴ベクトルvを、v=P(m,n,t)によって初期化する720。この特徴ベクトルは、成長しているボリュームの特性を表し、たとえば、それらの特徴はDCT係数および動きベクトルである。そして、近傍すなわち隣接するマクロブロックを検査する730。
特徴類似性基準に従って、ボリュームVをシードマクロブロック(m,n,t)の周囲でアセンブルする。各ボリュームVに対し、シードマクロブロックのテンソルと同じである特徴ベクトルvを、v=P(m,n,t)によって初期化する720。この特徴ベクトルは、成長しているボリュームの特性を表し、たとえば、それらの特徴はDCT係数および動きベクトルである。そして、近傍すなわち隣接するマクロブロックを検査する730。
隣接するマクロブロックのテンソルq=P(m,n,t)と現ボリュームVの特徴ベクトルvとの間の距離d(v,q)を、d(v,q)=‖P(q)−v‖=‖P(m,n,t)−v‖として測定する740。ここで、‖・‖は、何らかの距離関数を意味する。
距離を、適合された107閾値と比較する750。距離dが閾値より大きい場合、近傍が残っているかを検査し760、マクロブロックが残っているか検査し770、図8のAに続く。
一方、距離dが所定閾値λを下回る場合、ボリューム特徴ベクトルvを更新し780、ボリュームVに隣接するマクロブロックを含める790。次の繰返しにおいて、アクティブなサーフェスのマクロブロックのみを評価する795ことにより探索の速度を向上させる。
シードマクロブロックに対する特徴ベクトルvを、次のように更新する。
次の繰返しにおいて、アクティブなサーフェスのマクロブロックの隣接するマクロブロックを比較する。この操作を、PSTデータのすべてのマクロブロックを処理するまで繰り返す。上記プロセスは、シードマクロブロックと同じ特徴ベクトルを有する隣接するマクロブロックを同じボリュームにアセンブルする。各アセンブルされたボリュームの位置を、そのシードマクロブロックの位置によって指定する。
小さいボリュームを包含
初期ボリュームが成長した後、ボリューム成長プロセスは、図8に示すようにAに進み、小さいボリュームに対してテストする810。以下のように、所定サイズを下回るボリュームをより大きい類似するボリュームに併合する。
初期ボリュームが成長した後、ボリューム成長プロセスは、図8に示すようにAに進み、小さいボリュームに対してテストする810。以下のように、所定サイズを下回るボリュームをより大きい類似するボリュームに併合する。
小さいボリュームがない場合、図9のBに続く。小さいボリュームがある場合、次に小さいボリュームを選択し820、そのマクロブロックのマークを解除し830、次のマークされていないマクロブロックを選択し840、最も類似するより大きいボリュームの位置を特定し850、マークされていないマクロブロックが残らなくなるまで870、その類似するボリュームにマークされていないマクロブロックを含める860。類似性の度合いは、上述したように距離測定法と特徴ベクトルとに基づく。言い換えれば、小さいボリュームのマクロブロックを、個々のマクロブロックにもっとも類似するボリュームに個々に分散させ包含させる。
ボリューム記述子
図9に示すように、各ボリュームVに対し自己記述子F(V)のセットを割り当てる910。図10に示すように、あり得るボリューム対Vp1001およびVq1002の各々に対し相互記述子F(Vp,Vq)のセットを割り当てる。図11および図12は、それぞれ自己記述子と相互記述子とを示す。記述子を利用して、ボリュームの動き軌道、形状、容量、DCT単位および動き単位の特性とともに、ボリュームの任意の対の間の相互相関を識別する。
図9に示すように、各ボリュームVに対し自己記述子F(V)のセットを割り当てる910。図10に示すように、あり得るボリューム対Vp1001およびVq1002の各々に対し相互記述子F(Vp,Vq)のセットを割り当てる。図11および図12は、それぞれ自己記述子と相互記述子とを示す。記述子を利用して、ボリュームの動き軌道、形状、容量、DCT単位および動き単位の特性とともに、ボリュームの任意の対の間の相互相関を識別する。
図10において、線1011および1012は、それぞれのボリュームの軌道を示し、破線1030は特定のフレームにおける軌道1011〜1012間の距離△を示す。後述するように、各ボリュームVに対し、そのボリューム内部のマクロブロックの垂直および水平座標をフレーム単位で平均化することにより、軌道Traj1011〜1012を確定する。平均化の代りに、他の重心画定を使用することも可能である。
自己記述子
図11において、自己記述子SD1(V,k)は、ボリュームにおけるマクロブロックのDCT成分平均を含む2D行列である。DCT係数平均(平均(average))は、16×16マクロブロックに対する256のDCT成分および/または動きパラメータのすべてを含む。
図11において、自己記述子SD1(V,k)は、ボリュームにおけるマクロブロックのDCT成分平均を含む2D行列である。DCT係数平均(平均(average))は、16×16マクロブロックに対する256のDCT成分および/または動きパラメータのすべてを含む。
SD2(V)は、ボリュームにおけるマクロブロックの数である。
SD3(V)は、ボリュームのサーフェス上のマクロブロックの数である。
ボリュームの二乗したサーフェス領域に対する比がSD4(V)であるように、第1の稠密度(compactness)を定義する。
サーフェスの代りにマックスコード(maxcord)を使用することにより、第2の稠密度記述子SD5(V)を定義する。好ましい稠密度測度に対するさらなる詳細については、参照により本明細書に援用される、2001年4月4日にPorikliによって出願された米国特許出願第09/826,048号明細書「Method for Determining Compactness Ratios of Multiple Data and Signal Sets」を参照されたい。マックスコードは、ボリューム内に適合することができる最長コードの長さである。
SD6(V)およびSD7(V)は、フレームのシーケンスに対し、それぞれ水平方向および垂直方向のボリュームの軌道を記述する。
SD8(V)は、軌道の全長(ルート長)である。
SD9(V)およびSD10(V)は、ボリュームのマクロブロックの平均化された座標である。
相互記述子
図12に示すように、相互記述子MD(Vp,Vq)は、ボリューム間の空間、形状、動き、色関係を表す。
図12に示すように、相互記述子MD(Vp,Vq)は、ボリューム間の空間、形状、動き、色関係を表す。
MD11(Vp,Vq)は、ボリュームVp、Vq両方が存在する各フレームにおいて軌道の距離△1030を合計することによるボリュームVp、Vqの軌道間の平均化された距離である。
軌道距離の分散はMD12(Vp,Vq)であり、その最大値がMD13(Vp,Vq)である。
距離MD14の平均変化(Vp,Vq)は、フレーム間の軌道の累算距離変化を表す。ボリュームの方向は、最後のフレームにおけるボリュームの重心から、それが存在したフレームのボリュームの重心までを指すベクトルである。
方向差MD15(Vp,Vq)は、ボリュームVp、Vqに関連するかかる2つのベクトルの距離である。
MD16(Vp,Vq)は、それらの別々の稠密度スコアの平均に関して相互ボリュームの稠密度を表す。
MD17(Vp,Vq)およびMD18(Vp,Vq)は、相互ボリュームおよびサーフェスである。
MD19(Vp,Vq)は色差であり、MD20(Vp,Vq)は両ボリュームが同時に存在するフレームの数である。
ボリューム併合
図9は、ビデオを複数解像度3Dビデオオブジェクトにセグメント化するためにボリュームをいかに併合するかを示す。各ボリュームVに対し、フレームごとにボリュームのマクロブロックの空間平均をとることにより、軌道Traj(p,t)=(x,y)tを確定する。
図9は、ビデオを複数解像度3Dビデオオブジェクトにセグメント化するためにボリュームをいかに併合するかを示す。各ボリュームVに対し、フレームごとにボリュームのマクロブロックの空間平均をとることにより、軌道Traj(p,t)=(x,y)tを確定する。
そして、時刻tにおける2つのボリュームVpおよびVqの軌道間の距離△d(p,q,t)は、次のようになる。
垂直および水平動き、ルート長、距離の平均および分散、方向差ならびに距離の平均変化等著動き情報を、軌道から抽出する。
したがって、従来技術におけるようにオプティカルフロー、パラメトリックモデルまたは広範囲な探索に基づくマッチング方法によって動きを推定することなく、本方法は、動き情報を効率的に使用する。
併合ステップは、実質的に類似するボリューム記述子を有するボリュームを反復的に併合することにより、セグメント化された3Dビデオオブジェクトを生成する。好ましい併合は対単位であるが、他の併合戦略を使用することも可能である。
まず、ボリューム対の現組合せを、対が残らなくなるまで930確定する920。ボリュームVの記述子を、それらのサイズ、稠密度および存在値に関してスコア付けしソートする940。リスト941を高から低へソートする。
ソート済みリスト941において最高類似性スコアを有するボリュームVを選択する950ことにより、単一ボリュームが残るまで以下のようにボリュームを処理する。
併合960中、現ボリュームの記述子をその隣接するボリュームの記述子と比較する。関係記述子の場合、あり得る併合の類似性スコアを計算する。これらのスコアを、対応する記述子単位のリスト内に形成する。そして、各リストを、最高類似性スコアから開始して順序付けする。各相互記述子リストにおけるあり得る併合Vp、VqのランクRk(Vp,Vq)を確定する。
併合されたボリュームのあり得る対の各々に対し、総類似性スコアをSim(Vp,Vq)=Σkb(k)Rk(Vp,Vq)として確定する。ここで、重みb(k)を、各記述子の寄与を正規化し調整するために使用する。これらの乗数を、特定の用途に同様に適合させることができる。最大類似度を有する対を併合し960、ボリュームの記述子を更新する970。
併合を、2つのボリュームのみが残る980まで実行する。併合のいかなるレベルにおいても、ボリュームの選択された対が優れた選択であるか否かを分析することができる。これを、選択された併合ボリュームの類似性スコアの挙動を観察することによって行うことができる。このスコアが小さくなるかまたは急な減少を示す場合、併合は無効である可能性が高いが、それがあり得る最良の併合である。
ボリュームが併合されると、既知の技術を使用してビデオオブジェクトツリー990を生成することができる111。上述したように併合が対単位である場合、ツリーはバイナリツリーである。その時点で併合が4つのボリュームである場合、ツリーはクワッドツリーである。ボリュームを併合する方法次第で、他のツリー構造も可能である。
好ましい実施形態では、ツリー構造のみを維持し、ボリュームは最下レベルリーフノードとして残る。そして、アプリケーションは、必要に応じてビデオオブジェクトツリーを使用して、ボリュームをいかなる所望のレベルまでにも併合することができる。たとえば、単一ボリュームが望まれる場合、ボリュームをツリーのルートノードまで併合する。
この発明を、特定の用語および例を使用して説明した。本発明の精神および範囲内でさまざまな他の適応および変更を行ってもよい、ということを理解しなければならない。したがって、添付の特許請求の範囲の目的は、かかる変形および変更のすべてを本発明の真の精神および範囲内にあるように包含することである。
Claims (23)
- 圧縮ビデオは時間的に分離された複数のフレームを含み、各フレームは空間的に分離された複数のマクロブロックを含む、圧縮ビデオから3次元オブジェクトをセグメント化する方法であって、
各マクロブロックに対して変換された係数を解析すること、
前記変換された係数に基づいて各マクロブロックに対し空間/時間勾配を確定すること、
最小の空間/時間勾配の大きさを有する特定のマクロブロックをシードマクロブロックとして選択すること、
前記シードマクロブロックと空間的及び時間的に隣接するマクロブロックとの間の距離を前記変換された係数に基づいて測定すること、並びに
所定閾値を下回る距離を有する前記隣接するマクロブロックを使用して前記シードマクロブロックの周囲でボリュームを成長させること
を含む圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記複数のフレームは、単一ショットである
請求項1記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記複数のフレームは、DCT係数を有するIフレームを含む
請求項1記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記複数のフレームは、動きベクトルを有するPフレームを含む
請求項3記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記変換された係数は、ウェーブレットである
請求項1記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記変換された係数は、高速フーリエ変換係数である
請求項1記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記圧縮ビデオの各カラーチャネルに対し変換された係数のセットがある
請求項1記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記単一ショットは、前記変換された係数から検出される
請求項2記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 各マクロブロックの前記変換された係数を、空間/時間データP(m,n,t,k)として表し、ここで(m,n)は特定フレームt内のマクロブロックインデックスを表し、前記マクロブロック内の変換された係数の特定のセットを表す
請求項4記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記最小空間/時間勾配の大きさは、min|∇P(m,n,t,k)|である
請求項10記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記選択すること、測定すること、及び成長させることを、マクロブロックが残らなくなるまで繰り返すことにより、複数のボリュームを生成する
請求項1記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記シードマクロブロックvと特定の隣接するマクロブロックqとの間の距離は、
d(v,q)=‖P(q)−v‖=‖P(m,n,t)−v‖
であり、‖・‖は特定の距離関数である
請求項9記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 所定サイズを下回る特定ボリュームの個々のマクロブロックを、前記複数のボリュームのうちのより大きい類似するものに包含すること
をさらに含む請求項12記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記ボリュームに対し自己記述子のセットを割り当てること
をさらに含む請求項1記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記自己記述子は、
前記ボリュームにおける前記マクロブロックの前記変換された係数の平均と、
前記ボリュームにおけるマクロブロックの数と、
前記ボリュームのサーフェス上のマクロブロックの数と、
前記ボリュームの稠密度比と、
前記ボリュームの軌道と、
前記軌道の長さと、
前記ボリュームの前記マクロブロックの平均座標とを含む
請求項16記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - ボリュームのあり得る対の各々に対し相互記述子のセットを割り当てること
をさらに含む請求項12記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記相互記述子は、
前記ボリュームの対の軌道間の平均距離と、
前記軌道の距離の分散と、
前記軌道間の最大距離と、
前記軌道間の前記距離の平均変化と、
前記軌道の累算距離変化と、
前記ボリュームの対の稠密度と、
前記ボリュームの対間の色差と、
前記ボリュームの対が同時に存在するフレームの数とを含む
請求項18記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記ボリュームに対し自己記述子のセットを割り当てること、及び
ボリュームのあり得る対の各々に対し相互記述子のセットを割り当てること
をさらに含む請求項12記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記圧縮ビデオを複数解像度3Dビデオオブジェクトにセグメント化するために、前記自己記述子のセットと前記相互記述子のセットとに従って前記複数のボリュームを併合すること
をさらに含む請求項20記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記併合することは、対単位である
請求項21記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。 - 前記併合されたボリュームは、ビデオオブジェクトツリーに保持される
請求項21記載の圧縮ビデオから3次元オブジェクトをセグメント化する方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/442,417 US7142602B2 (en) | 2003-05-21 | 2003-05-21 | Method for segmenting 3D objects from compressed videos |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004350283A true JP2004350283A (ja) | 2004-12-09 |
Family
ID=33450193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004149464A Pending JP2004350283A (ja) | 2003-05-21 | 2004-05-19 | 圧縮ビデオから3次元オブジェクトをセグメント化する方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7142602B2 (ja) |
JP (1) | JP2004350283A (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100543706B1 (ko) * | 2003-11-28 | 2006-01-20 | 삼성전자주식회사 | 비젼기반 사람 검출방법 및 장치 |
GB2442983A (en) * | 2006-10-16 | 2008-04-23 | Martin Audio Ltd | A computer-based method of configuring loudspeaker arrays |
US8315466B2 (en) | 2006-12-22 | 2012-11-20 | Qualcomm Incorporated | Decoder-side region of interest video processing |
US8339418B1 (en) * | 2007-06-25 | 2012-12-25 | Pacific Arts Corporation | Embedding a real time video into a virtual environment |
US8401229B2 (en) | 2007-09-04 | 2013-03-19 | Objectvideo, Inc. | Stationary target detection by exploiting changes in background model |
AU2007231756B2 (en) * | 2007-10-30 | 2011-04-07 | Canon Kabushiki Kaisha | A method of segmenting videos into a hierachy of segments |
US8442278B2 (en) * | 2008-02-28 | 2013-05-14 | Honeywell International Inc. | Covariance based face association |
WO2009112790A1 (en) * | 2008-03-14 | 2009-09-17 | Panasonic Corporation | Image processing method and image processing apparatus |
JP2012501506A (ja) * | 2008-08-31 | 2012-01-19 | ミツビシ エレクトリック ビジュアル ソリューションズ アメリカ, インコーポレイテッド | 観察者位置にマッチする3dビデオコンテンツの変換 |
US8669979B2 (en) | 2010-04-01 | 2014-03-11 | Intel Corporation | Multi-core processor supporting real-time 3D image rendering on an autostereoscopic display |
US8730396B2 (en) * | 2010-06-23 | 2014-05-20 | MindTree Limited | Capturing events of interest by spatio-temporal video analysis |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US8989503B2 (en) * | 2012-08-03 | 2015-03-24 | Kodak Alaris Inc. | Identifying scene boundaries using group sparsity analysis |
US9177245B2 (en) | 2013-02-08 | 2015-11-03 | Qualcomm Technologies Inc. | Spiking network apparatus and method with bimodal spike-timing dependent plasticity |
US9070043B2 (en) * | 2013-02-28 | 2015-06-30 | Korea University Research And Business Foundation | Method and apparatus for analyzing video based on spatiotemporal patterns |
US9939253B2 (en) | 2014-05-22 | 2018-04-10 | Brain Corporation | Apparatus and methods for distance estimation using multiple image sensors |
US9713982B2 (en) | 2014-05-22 | 2017-07-25 | Brain Corporation | Apparatus and methods for robotic operation using video imagery |
US10194163B2 (en) * | 2014-05-22 | 2019-01-29 | Brain Corporation | Apparatus and methods for real time estimation of differential motion in live video |
US9848112B2 (en) | 2014-07-01 | 2017-12-19 | Brain Corporation | Optical detection apparatus and methods |
US10057593B2 (en) | 2014-07-08 | 2018-08-21 | Brain Corporation | Apparatus and methods for distance estimation using stereo imagery |
US10055850B2 (en) | 2014-09-19 | 2018-08-21 | Brain Corporation | Salient features tracking apparatus and methods using visual initialization |
US10197664B2 (en) | 2015-07-20 | 2019-02-05 | Brain Corporation | Apparatus and methods for detection of objects using broadband signals |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN110992342B (zh) * | 2019-12-05 | 2023-04-18 | 电子科技大学 | 基于3datv约束的spcp红外弱小目标检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU761202B2 (en) * | 1997-09-22 | 2003-05-29 | Sony Corporation | Generation of a bit stream containing binary image/audio data that is multiplexed with a code defining an object in ascii format |
JP4151158B2 (ja) * | 1999-06-14 | 2008-09-17 | ソニー株式会社 | シーン記述生成装置及び方法 |
US6597739B1 (en) * | 2000-06-20 | 2003-07-22 | Microsoft Corporation | Three-dimensional shape-adaptive wavelet transform for efficient object-based video coding |
US6859554B2 (en) * | 2001-04-04 | 2005-02-22 | Mitsubishi Electric Research Laboratories, Inc. | Method for segmenting multi-resolution video objects |
-
2003
- 2003-05-21 US US10/442,417 patent/US7142602B2/en not_active Expired - Fee Related
-
2004
- 2004-05-19 JP JP2004149464A patent/JP2004350283A/ja active Pending
Non-Patent Citations (1)
Title |
---|
JPN7010000401, Porikli, F, "F. Porikli, Video object segmentation by volume growing using feature−based motion estimator", Proc.of Int. Symp. on Computer and Information Science, 200111 * |
Also Published As
Publication number | Publication date |
---|---|
US20040233987A1 (en) | 2004-11-25 |
US7142602B2 (en) | 2006-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004350283A (ja) | 圧縮ビデオから3次元オブジェクトをセグメント化する方法 | |
CN104508682B (zh) | 使用群组稀疏性分析来识别关键帧 | |
CN100538743C (zh) | 通过实时视频动作分析理解视频内容 | |
JP4566498B2 (ja) | ビデオにおける動きアクティビティの記述方法 | |
US6366701B1 (en) | Apparatus and method for describing the motion parameters of an object in an image sequence | |
Kim et al. | Efficient camera motion characterization for MPEG video indexing | |
US7840081B2 (en) | Methods of representing and analysing images | |
CN112418012B (zh) | 一种基于时空注意力模型的视频摘要生成方法 | |
JP2006092559A (ja) | 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体 | |
JP2011108262A (ja) | 少なくとも1つの画像及び画像群を表現する方法、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体 | |
Doulamis et al. | Non-sequential video content representation using temporal variation of feature vectors | |
Wang et al. | COME for no-reference video quality assessment | |
CN116363554A (zh) | 一种监控视频关键帧提取方法、系统、介质、设备及终端 | |
Panchal et al. | Scene detection and retrieval of video using motion vector and occurrence rate of shot boundaries | |
EP2325802A2 (en) | Methods of representing and analysing images | |
Guru et al. | Histogram based split and merge framework for shot boundary detection | |
Pandey et al. | A survey on key frame extraction methods of a MPEG video | |
Gandhi et al. | Object-based surveillance video synopsis using genetic algorithm | |
Rahman et al. | A robust optical flow estimation algorithm for temporal textures | |
Ragavan et al. | A Case Study of Key Frame Extraction in Video Processing | |
Wu et al. | Detecting duplicate video based on camera transitional behavior | |
Hsia et al. | Single-object-based segmentation and coding technique for video surveillance system | |
Min | Key Frame Extraction Techniques | |
Al-Shweiki et al. | Video Compression Enhancement Based On Speeded Up Robust Features (SURF) Algorithm and Scene Segmentation | |
KRISHNA | SUPER-PIXEL BASED SALIENCY IN 3D-IMAGE OBJECT DETECTION USING CONTENT BASED IMAGE RETRIEVAL. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100209 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100629 |