JP4456867B2

JP4456867B2 - ビデオ中の異常イベントを検出する方法およびシステム

Info

Publication number: JP4456867B2
Application number: JP2003546581A
Authority: JP
Inventors: ディヴァカラン、アジェイ; ラドクリシュナン、レギュナータン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2001-11-19
Filing date: 2002-11-12
Publication date: 2010-04-28
Anticipated expiration: 2022-11-12
Also published as: US20030095602A1; WO2003045070A1; US6823011B2; CN1224272C; JP2005510909A; CN1488224A; EP1446957A1

Description

本発明は、包括的にはビデオフレームシーケンスから動きベクトルを抽出することに関し、特にビデオ中の異常イベントを検出することに関する。

圧縮ビデオフォーマット
デジタルカラービデオ信号の帯域幅を圧縮する基本的な規格がモーションピクチャーエキスパーツグループ（ＭＰＥＧ）によって採用されている。ＭＰＥＧ規格は、画像のフルフレームの情報を時々にのみ作成することによって高いデータ圧縮率を達成する。画像のフルフレーム、すなわちフレーム内符号化フレームは、しばしば「Ｉフレーム」または「アンカー（anchor）フレーム」と呼ばれるもので、他のあらゆるフレームとは独立してフルフレームの情報を含む。画像差分フレーム、すなわちフレーム間符号化フレームは、しばしば「Ｂフレーム」および「Ｐフレーム」、または「予測フレーム」と呼ばれるもので、Ｉフレーム間で符号化され、基準フレームに関する画像差分すなわち残差（residue）のみを反映する。

通常、ビデオシーケンス中の各フレームは、より小さな画像要素（すなわち画素）データブロックに分割される。各ブロックは離散コサイン変換（ＤＣＴ）関数にかけられ、統計的に依存した空間領域の画素が独立した周波数領域のＤＣＴ係数に変換される。それぞれの８×８または１６×１６の画素ブロックは、「マクロブロック」と呼ばれ、ＤＣＴ関数にかけられて符号化信号をもたらす。

ＤＣＴ係数は、通常エネルギーが集中するため、マクロブロック中で画像情報の主要部分を含むのは少数の係数のみである。例えば、あるマクロブロックがオブジェクトのエッジ境界を含む場合、そのブロックの変換後の、すなわちＤＣＴ係数で表されるエネルギーは、係数行列全体で比較的大きなＤＣ係数とランダムに分布するＡＣ係数とを含む。

一方、エッジでないマクロブロックは通常、同様に大きなＤＣ係数と、そのブロックに関連付けられた他の係数よりも実質的に大きい少数の隣接するＡＣ係数によって特徴付けられる。ＤＣＴ係数は通常、適応的量子化にかけられた後、伝送媒体のためにランレングス符号化および可変長符号化される。したがって、伝送データのマクロブロックは通常、８×８より小さい符号語行列を含む。

フレーム間符号化フレームデータ、すなわち符号化されたＰまたはＢフレームデータのマクロブロックは、予測画素とマクロブロック中の実際の画素との間の差分のみを表すＤＣＴ係数を含む。フレーム内符号化およびフレーム間符号化データのマクロブロックはまた、使用した量子化レベル、マクロブロックのアドレスまたは位置インジケータ、およびマクロブロックのタイプといった情報も含む。この後者の情報はしばしば「ヘッダ」または「オーバーヘッド」情報と呼ばれる。

各Ｐフレームは、最も最後に現れたＩフレームまたはＰフレームから予測される。各Ｂフレームは、このＢフレームが挟まれているＩフレームまたはＰフレームから予測される。予測符号化プロセスは、しばしば「動きベクトル」と呼ばれる変位ベクトルを生成することを含む。この変位ベクトルは、現在符号化中のＢフレームまたはＰフレームのマクロブロックに最もよく適合するＩフレームのマクロブロックの変位の大きさを示す。Ｉフレーム中の適合ブロックの画素データを符号化中のＰフレームまたはＢフレームのブロックから画素毎に引き、残差を生じる。変換した残差およびベクトルは、ＰフレームおよびＢフレームの符号化データの一部をなす。

従来のビデオ規格、例えばＩＳＯＭＰＥＧ−１およびＭＰＥＧ−２は、ビデオ信号の時間的および空間的圧縮を主に扱う比較的低レベルの仕様である。これらの規格を用いることにより、広範な用途にわたり高い圧縮率を達成することができる。より新しいビデオ符号化規格、例えばＭＰＥＧ−４（「Information TechnologyGeneric coding of audio/visual objects」（ISO/IEC FDIS 14496-2 (MPEG4 Visual), Nov. 1998）を参照）は、任意形状のオブジェクトを別個のビデオオブジェクトプレーン（ＶＯＰ）として符号化および復号化することを可能にする。これらの新たに出現した規格は、自然な素材と合成素材が統合された、アクセスがユニバーサルであるマルチメディア用途、例えば双方向ビデオを可能にするものである。例えば、特定タイプのビデオオブジェクトから特徴を抽出したい、あるいは特定クラスのビデオオブジェクトを処理したい（perform for）と思うかもしれない。

インターネット上でのビデオ配信といった新たなデジタルビデオサービスの出現に伴い、ビデオシーケンス中の情報をフレームレベルまたはオブジェクトレベルで特定する、例えばアクティビティを特定する信号処理技法がますます必要とされている。

特徴の抽出
圧縮データからビデオを索引付けするための特徴抽出の従来の研究は主に、ＤＣ係数の抽出に重点を置いていた。「Rapid Scene Analysis on Compressed Video」という題名の論文（IEEE Transactions on Circuits and Systems for Video Technology, Vol. 5, No. 6, December 1995, page 533-544）において、YeoおよびLiuは、ＭＰＥＧ−２圧縮のビデオ領域においてシーン変化を検出する手法を記載している。著者らはまた、未圧縮の全画像データのシーケンスに基づくシーン変化の検出における以前の成果、および他者による様々な圧縮ビデオ処理技法を概説している。YeoおよびLiuは、原画像を空間的に縮小したもの、いわゆるＤＣ画像と、圧縮ビデオから抽出したＤＣシーケンスとを使用してシーン解析操作を容易にすることを発表した。彼らの「ＤＣ画像」は原画像のブロック中の画素の平均値である画素で構成され、ＤＣシーケンスはＤＣ画像の減少させた数の画素の組み合わせである。ＤＣ画像の抽出に基づく技法は、ＩフレームからのＤＣ値の抽出が比較的簡単であるため、Ｉフレームに関して優れていることに留意すべきである。しかしながら、他のタイプのフレームに関しては、さらなる計算が必要となる。

Wonらは、Proc. SPIE Conf. on Storage and Retrieval for Image and Video Databases, January 1998に発表した論文において、ＤＣ係数に費やされるビットを利用してフレーム中のエッジを見つけ出すことによって、圧縮したＭＰＥＧ−２ビデオから特徴を抽出する方法を記載している。しかしながら、彼らの研究はＩフレームのみに限定されている。

Koblaらは同論文集（Proceedings）に、YeoらのＤＣ画像抽出を使用して、ビデオクリップを特徴付けるビデオトレイル（video trail）を形成する方法を記載している。

Fengら（IEEE International Conference on Image Processing, Vol. II, pp.821-824, Sept. 16-19, 1996）は、ＭＰＥＧ−２フレームのマクロブロック全体にビット割り当てを用いて、ＤＣ画像を抽出することなく、急激なシーン変化を検出する。Fengらの技法は、圧縮ビットストリームの解析に必要である以上の著しい計算を必要としないため、最も計算が単純である。

米国特許出願「Methods of scene change detection and fade detection for indexing of video sequences」（出願第０９／２３１，６９８号、１９９９年１月１４日提出）、「Methods of scene fade detection for indexing of video sequences」（出願第０９／２３１，６９９号、１９９９年１月１４日提出）、「Methods of Feature Extraction for Video Sequences」（出願第０９／２３６，８３８号、１９９９年１月２５日）は、Fengらの手法とYeoらの手法のある種の側面を踏まえて精確で単純なシーン変化の検出を行う、計算が単純な技法を記載している。

推測されるシーンまたはオブジェクトの変化を連続するフレーム群中で、ＤＣ画像の抽出に基づく技法を用いて精確に見つけ出した後、適切なビット割り当て技法および／または適切なＤＣ残差係数処理技法を、見つけ出したシーンの近傍のＰフレームまたはＢフレーム情報に適用することによって、カット点が迅速かつ精確に見つけ出される。この複合方法は、ＭＰＥＧ−２のフレームシーケンスまたはＭＰＥＧ−４の複数のオブジェクトシーケンスに適用可能である。ＭＰＥＧ−４の場合、各オブジェクトの領域を重み係数として用いて、フレームの各オブジェクトにおける変化の重み付き和を使用することが有利である。

米国特許出願第０９／３４５，４５２号「Compressed Bit-Stream Segment Identification and Descriptor」（Divakaranら、１９９９年７月１日提出）は、フレーム間符号化フレームの変位の大きさをそのフレーム間符号化フレームに関連付けられた圧縮ビットストリーム中のビット数を基に求める技法を記載している。フレーム間符号化フレームはマクロブロックを含む。各マクロブロックは、そのマクロブロックから最もよく適合するフレーム内符号化フレームへの変位を表すフレーム間符号化フレームのビットのそれぞれの部分に関連付けられる。変位の大きさは、フレーム間符号化フレームに関連付けられた全マクロブロックの変位の大きさの平均である。変位の大きさの平均よりも小さいマクロブロックの変位の大きさはゼロに設定される。変位の大きさがゼロであるマクロブロックのランレングス数を求めて、１番目のフレーム間符号化フレームを特定する。

アクティビティ
これまでの研究は、動き情報の抽出と、動き情報をシーン変化の検出といった低レベルの用途に用いることに重点を置いてきた。高レベル用途向けの特徴を抽出する必要が依然としてある。例えば、ビデオシーケンス内のアクティビティの性質および非常イベントを示す特徴を抽出する必要がある。ビデオすなわちアニメーションシーケンスは、低速シーケンス、高速シーケンス、アクションシーケンス等と考えることができる。

高アクティビティの例には、サッカーの試合でゴールを決める、バスケットボールの試合で得点が入る、高速のカーチェイスといったシーンがある。一方、ニュースアナウンサーの映像（shot）、インタビューシーン、あるいは静止映像といったシーンは、低アクション映像と考えられる。静止映像は、フレーム間でアクティビティの変化がほとんどない映像である。ビデオの内容は一般に、アクティビティの高いものから低いものまでの全範囲にわたる。観察されるアクティビティに関連するビデオ中の非常イベントを特定できることも有用であろう。非常イベントは用途により、アクティビティの突然の増減、または他の一時的なアクティビティの変動であり得る。

方法およびシステムが、ビデオ中の非常イベントを検出する。あるシーンについてカメラが取得したビデオ中の各フレームから動きベクトルを抽出する。この動きベクトルから各フレームのゼロランレングスパラメータを求める。ビデオの所定の時間間隔にわたってゼロランレングスパラメータを合計し、現在の時間間隔のゼロランレングスの合計と、前の時間間隔のゼロランレングスの合計との間の距離を求める。次に、この距離が所定の閾値よりも大きい場合に非常イベントを検出する。

ゼロランレングスパラメータは、短いゼロランレングス、中間のゼロランレングス、および長いゼロランレングスに分類することができ、ビデオの各フレームの幅について正規化され、ビデオ中の別個の移動オブジェクトの数、サイズ、および形状を表すようになっている。

本発明は、以下の本発明の好適な実施形態の詳細な説明を添付図面とともに考慮すればより容易に明らかとなるであろう。

アクティビティ記述子
図１は、本発明による、ビデオ１０２中の非常イベントを検出するために用いられるアクティビティ記述子１００を示す。ビデオ１０２は、「映像」１０３を形成するフレームシーケンス（ｆ_０、．．．、ｆ_ｎ）を含む。以降、ビデオの映像またはセグメントは、何らかのまとまりのあるフレームの組、例えばレンズを開いて閉じるまでの間に撮影された全フレームを意味する。本発明は、ビデオ１０２中の空間、時間、方向、および強度情報を解析する。

空間情報は、映像中の移動領域のサイズおよび数をフレーム毎に表す。空間情報は、少数の大きな移動領域を有する「疎な（sparse）」映像（例えば「話者の顔（talking head）」）と、多数の小さな移動領域を有する「密な（dense）」映像（例えばフットボールの試合）とを区別する。したがって、アクティビティレベルが疎である映像は少数の大きな移動領域を有すると言え、アクティビティレベルが密である映像は多数の小さな移動領域を有すると言える。

時間分布情報は、映像中の各アクティビティレベルの持続時間を表す。時間情報は、動きアクティビティの強度を時間の次元において拡張したものである。情報の方向は、８個の等間隔の方向の組における動きの優勢方向を表す。方向情報は、ビデオ中の動きベクトルの角度（方向）の平均から抽出することができる。

したがって、アクティビティ記述子１００は、ビデオシーケンス１０２中のアクティビティレベルの強度１１１、方向１１２、空間１１３、および時間１１４の属性を組み合わせる（１１０）。

動きベクトルの大きさ
アクティビティ記述子１００のパラメータを、次のようにビデオの動きベクトルの大きさから導き出す。オブジェクトまたはフレームについて、「アクティビティ行列（activity matrix）」Ｃ_ｍｖは次のように定められる。
Ｃ_ｍｖ＝｛Ｂ（ｉ，ｊ）｝
ここで

ここで（ｘ_ｉ，ｊ，ｙ_ｉ，ｊ）は、（ｉ，ｊ）番目のブロックＢに関連付けられた動きベクトルである。ＭＰＥＧビデオにおいてアクティビティ記述子１００を抽出する目的で、フレームまたはオブジェクトの記述子は以下のステップに従って構築される。

アクティビティ記述子の抽出
図２は、アクティビティ属性１００の抽出方法２００を示す。ステップ２１０において、フレーム内符号化ブロックＢ（ｉ，ｊ）２１１をゼロにセットする。
ステップ２２０では、フレーム／オブジェクトの各ブロックＢについて、動きベクトルの大きさの平均Ｃ_ｍｖ ^ａｖｇ２２１、すなわち、「動きの複雑さの平均」を次のように求める。

Ｍ＝ブロック数で表した幅
Ｎ＝ブロック数で表した高さ

ステップ２３０では、Ｃ_ｍｖ ^ａｖｇの分散σ^２２３１を次のように求める。

Ｍ＝ブロック数で表した幅
Ｎ＝ブロック数で表した高さ

ステップ２４０では、アクティビティ行列の閾値として平均を用いることにより、動きベクトルアクティビティ行列Ｃ_ｍｖの「ランレングス」パラメータ２４１を次のように求める。

以下の説明のために、ラスタ走査長（raster-scan length）についてはゼロランレングスパラメータのみを扱う。

ゼロランレングスパラメータを３つの種類、すなわち短いもの、中間のもの、および長いものに分類する。ゼロランレングスパラメータをオブジェクト／フレームの幅について正規化する。短いゼロランレングスはフレームの幅の１／３以下であると定義し、中間のゼロランレングスはフレームの幅の１／３より長く２／３未満であると意義する。長いゼロランレングスはフレームの幅以上である、すなわちランレングスは連続する数本のラスタ走査線にわたって延びる。「ゼロランレングス」のさらなる説明については、米国特許出願第０９／２３６，８３８号「Methods of Feature Extraction of Video」（Divakaraら、１９９９年１月２５日出願、参照により本明細書中に援用する）を参照。

以下の表記では、パラメータＮ_ｓｒを短いゼロランレングスの数として用い、中間のゼロランレングス、および長いゼロランレングスも同様にそれぞれＮ_ｍｒおよびＮ_ｌｒとして定義する。ゼロランレングスパラメータを量子化し、回転、平行移動、反転等に関して何らかの不変性を得る。

したがって、フレーム／オブジェクトのアクティビティパラメータ１００は次の要素を含む。

ゼロランレングス
図３および図４に示すように、ゼロランレングスパラメータ２４１は、フレーム中の別個の移動オブジェクトの数、サイズ、および形状、ならびにそれらのフレーム全体における分布を表すことができる。図３および図４において、横線は概してラスタスキャンの順序を示す。少数すなわち疎な数の大きな移動領域（例えば話者の顔３００）を有するフレームの場合、比較的短いランレングス３０１の数は長いランレングス３０２の数と比べて比較的多い。長いランレングスは、フレーム上部に１箇所、下部に１箇所の２箇所しかないことに留意されたい。数個の小さなオブジェクト４００を有するフレームの場合、短いランレングス４０１の数は中間のランレングスおよび長いランレングス４０２の数と比べて比較的少ない。

非常イベントの検出
図５は、各フレームのゼロランレングスパラメータを用いて非常イベントを検出する方法５００を示す。ステップ５１０において、ビデオシーケンスから動きベクトルを抽出する。ステップ５２０では、各フレームについて短いゼロランレングス、中間のゼロランレングス、および長いゼロランレングスを求める。ステップ５３０では、各時間間隔ｔ_ｎにわたってランレングスパラメータを合計する。例えば各時間間隔ｔは１分、すなわち３０フレーム毎秒で１８００フレームである。

ステップ５４０では、現在の時間間隔におけるランレングスパラメータの合計と、前の時間間隔のランレングスパラメータの合計との間の「距離」を求める。この距離が所定の閾値Ｔよりも大きい場合は非常イベントが起こっており（５４４）、そうでなければ起こっていない（５４２）。非常イベントの場合は警報装置５５０を作動させることができる。

距離メトリック（metric）はランレングスに対して作用するある種の関数ｆ、すなわちｆ（Ｓ_ｎ，Ｓ_ｎ−１）＞Ｔである。単純な例では、短いランレングスのみが考慮され、距離は短いランレングスの合計の差の絶対値、すなわち｜Ｓ_ｎ（Ｎ_ｓｒ）−Ｓ_ｎ−１（Ｎ_ｓｒ）｜である。検出すべき非常イベントのタイプに応じ、異なる関数を用いることができる。例えば、短いゼロランレングスと長いゼロランレングスのみが考慮され、距離は二乗の差である。

例えば、カメラが通常はシーン（例えば誰もいない玄関）を観察する監視用途では、ランレングスの合計の変化を非常イベント、すなわち侵入者の突然の立ち入りとみなす。

ハイウェイの交通監視カメラも同様に、ある時間間隔にわたる移動オブジェクトの平均数が突然減少すると、おそらくはシーン外の「下流の」事故に起因する交通渋滞を検出することができる。ここで、非常イベントすなわち下流の事故は、従来技術の交通監視用途のようにカメラによって直接観察されるのではなく推定されることに留意すべきである。

本発明は、リアルタイムビデオにおいて非常イベントを検出するか、あるいは事後にビデオを処理できることに留意すべきである。

好ましい実施形態を例として本発明を記載してきたが、本発明の精神および範囲内で他の様々な適用および変更がなされ得ることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および変更をすべて網羅することである。

本発明によるアクティビティ記述子のブロック図である。フレームの動きベクトルの大きさからアクティビティ記述子を抽出する方法のフロー図である。ビデオ中のアクティビティが疎であるフレームの図である。ビデオ中のアクティビティが密であるフレームの図である。ビデオ中の非常イベントを検出する方法のフロー図である。

Claims

ビデオ中の異常イベントを検出する方法であって、
ビデオ中の各フレームから動きベクトルを抽出すること、
前記動きベクトルから各フレームのゼロのランレングスを求めること、
前記ビデオの所定の時間間隔にわたって前記ゼロのランレングスを合計すること、
現在の時間間隔のゼロのランレングスの合計と、前の時間間隔のゼロのランレングスの合計との間の所定の関数で定義される差分を求めること、
前記差分が所定の閾値よりも大きい場合に前記異常イベントを信号で知らせること、
を含むビデオ中の異常イベントを検出する方法。
前記ゼロのランレングスは、短いゼロのランレングス、中間のゼロのランレングス、および長いゼロのランレングスに分類される請求項１に記載のビデオ中の異常イベントを検出する方法。
前記ゼロのランレングスは、前記ビデオの各フレームの幅について正規化される請求項２に記載のビデオ中の異常イベントを検出する方法。
短いゼロのランレングスが前記フレームの幅の３分の１以下であると定義され、中間のゼロのランレングスが前記フレームの幅の３分の１より長く３分の２未満であり、長いゼロのランレングスが前記フレームの幅以上である請求項２に記載のビデオ中の異常イベントを検出する方法。
前記差分は、前記短いランレングスの合計の差の絶対値である請求項２に記載のビデオ中の異常イベントを検出する方法。
前記差分は、前記短いゼロのランレングスの合計の二乗と前記長いゼロのランレングスの合計の二乗との差である請求項２に記載のビデオ中の異常イベントを検出する方法。
前記ビデオは移動オブジェクトのないシーンのものであり、前記異常イベントは前記ビデオのシーンに現れた移動オブジェクトである請求項１に記載のビデオ中の異常イベントを検出する方法。
前記ビデオはハイウェイ上の車の通行を含むシーンのものであり、前記異常イベントは交通渋滞である請求項１に記載のビデオ中の異常イベントを検出する方法。
前記交通渋滞はシーン外の事故に起因するものである請求項１に記載のビデオ中の異常イベントを検出する方法。
前記異常イベントは、直接観察されるのではなく推定される請求項１に記載のビデオ中の異常イベントを検出する方法。
リアルタイムビデオにおいて前記異常イベントを検出することをさらに含む請求項１に記載のビデオ中の異常イベントを検出する方法。
ビデオ中の異常イベントを検出するシステムであって、
シーンのビデオを取得するカメラ、
前記ビデオ中の各フレームから動きベクトルを抽出する手段、
前記動きベクトルから各フレームのゼロのランレングスを求める手段、
前記ビデオの所定の時間間隔にわたって前記ゼロのランレングスを合計する手段、
現在の時間間隔のゼロのランレングスの合計と、前の時間間隔のゼロのランレングスの合計との間の所定の関数で定義される差分を求める手段、および
前記差分が所定の閾値よりも大きい場合に前記異常イベントを信号で知らせる警報装置、
を備えるビデオ中の異常イベントを検出するシステム。