JP4566498B2

JP4566498B2 - ビデオにおける動きアクティビティの記述方法

Info

Publication number: JP4566498B2
Application number: JP2001556982A
Authority: JP
Inventors: アジェイディヴァカラン; カディア・エーペーカー; ハイファンスン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2000-02-02
Filing date: 2001-01-30
Publication date: 2010-10-20
Anticipated expiration: 2021-01-30
Also published as: US6600784B1; AU2885701A; EP1211644A1; EP1211644B1; WO2001057802A1; EP1211644A4

Description

技術分野
本発明は、連続したビデオフレームから特徴を抽出することに関し、特に、圧縮されたビデオ信号から“動き（ｍｏｔｉｏｎａｃｔｉｖｉｔｙ）”を抽出する方法に関するものである。
背景技術
動画像符号化専門家グループ（ＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ））により、デジタルカラービデオ信号の帯域幅を圧縮するための基本的な規格が採用されている。ＭＰＥＧ規格では、画像のフルフレームに対してとびとびにのみ情報を展開することにより、高圧縮率を達成させている。フル画像フレーム、すなわち、フレーム内符号化フレーム（ｉｎｔｒａ−ｃｏｄｅｄｆｒａｍｅ）は、しばしば「Ｉフレーム」または「アンカフレーム」と呼ばれ、他のいかなるフレームからも独立したフルフレーム情報を含んでいる。画像差フレーム、すなわち、フレーム間符号化フレーム（ｉｎｔｅｒ−ｃｏｄｅｄｆｒａｍｅ）は、しばしば「Ｂフレーム」及び「Ｐフレーム」あるいは「予測符号化フレーム（ｐｒｅｄｉｃｔｉｖｅｆｒａｍｅ）」と呼ばれ、Ｉフレーム間で符号化され、参照フレームに関する画像差すなわち残余のみを表したものである。
一般に、連像したビデオ信号（以下、ビデオシーケンスとする。）の各フレームは、より小さいブロックの画像素子（ｐｉｃｔｕｒｅｅｌｅｍｅｎｔ）、すなわち、画素（ｐｉｘｅｌ）データに分割される。各ブロックには、統計的に依存した空間的ドメイン画素を、独立した周波数ドメインＤＣＴ係数に変換する、離散コサイン変換（ＤＣＴ）関数が施される。８×８または１６×１６ブロックの画素は、「マクロブロック」と呼ばれるが、それらにそれぞれＤＣＴ関数が施されることにより、符号化信号が供給される。
ＤＣＴ係数は、通常、マクロブロックにおいてわずかな係数のみがピクチャ情報の主要部分を表すよう、エネルギ集中されている。例えば、マクロブロックが物体の輪郭（エッジ）の境界を含む場合、変換後の、すなわち、ＤＣＴ係数によって表されるそのブロックのエネルギは、ＤＣＴ係数の行列を通して相対的に大きいＤＣ係数とランダムに分散したＡＣ係数とを含む。
一方、エッジの無いマクロブロックは、通常、同様に大きいＤＣ係数と、そのブロックに関連付けられた他の係数より実質的に大きい隣接した数個のＡＣ係数とによって特徴付けられる。一般に、ＤＣＴ係数は、送信媒体に対し、適応量子化が施され、その後、ランレングスおよび可変長符号化が施される。このため、送信されたデータのマクロブロックは、一般に、８×８行列より少ないコードワード（ｃｏｄｅｗｏｒｄ）を含む。
フレーム間符号化フレームデータ、すなわち符号化されたＰまたはＢフレームデータのマクロブロックは、マクロブロックにおける予測された画素と実際の画素との間の差のみをあらわすＤＣＴ係数を含む。また、フレーム内符号化およびフレーム間符号化フレームデータのマクロブロックは、採用される量子化のレベル、マクロブロックアドレスまたはロケーションインジケータおよびマクロブロックタイプ等の情報も含む。後者の情報は、しばしば「ヘッダ」または「オーバヘッド」情報と呼ばれる。
各Ｐフレームは、最後に現れたＩまたはＰフレームから予測される。各Ｂフレームは、それが間に配置されているＩまたはＰフレームから予測される。予測符号化プロセスには、しばしば「動きベクトル」と呼ばれる変位ベクトルを生成することが含まれる。これは、現在符号化されているＢまたはＰフレームのマクロブロックと最も近接して一致するＩフレームのマクロブロックに対する変位の大きさを示す。Ｉフレームにおける一致したブロックの画素データが、画素毎に、符号化されているＰまたはＢフレームのブロックから引出されることにより、残余が得られる。変換された残余およびベクトルは、ＰおよびＢフレームに対して符号化データの一部を形成する。
ＩＳＯＭＰＥＧ−１およびＭＰＥＧ−２等の他の従来のビデオ規格は、本来ビデオ信号の時間的および空間的圧縮を扱う比較的低レベルの仕様である。これらの規格を用いて、広範囲のアプリケーションに亙って高圧縮率を達成することができる。ＭＰＥＧ−４等のより新しいビデオ符号化規格（「ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ−−Ｇｅｎｅｒｉｃｃｏｄｉｎｇｏｆａｕｄｉｏ／ｖｉｓｕａｌｏｂｊｅｃｔｓ」ＩＳＯ／ＩＥＣＦＤＩＳ１４４９６−２（ＭＰＥＧ４Ｖｉｓｕａｌ）、Ｎｏｖ．１９９８を参照）により、任意形状の物体を別々のビデオオブジェクトプレーン（ＶＯＰ）として符号化および復号化することができる。これら新しい規格は、インタラクティブビデオ等、自然および人工の材料が統合され、アクセスが多方向（ｕｎｉｖｅｒｓａｌ）のマルチメディアアプリケーションを可能にすることが意図されている。例えば、特定のタイプのビデオオブジェクトから特徴を抽出するか、または特定のクラスのビデオオブジェクトに対して実行することが望まれる場合がある。
インターネット上のビデオ配信等、新しいデジタルビデオサービスの出現に伴い、例えばアクティビティの識別等、フレームレベルかまたはオブジェクトレベルで、ビデオシーケンスにおける情報を識別する信号処理技術に対する必要性が高まっている。
特徴抽出
圧縮データからビデオを索引付けするための特徴抽出における従来の方法は、本来、ＤＣ係数抽出に重きをおいていた。「ＲａｐｉｄＳｃｅｎｅＡｎａｌｙｓｉｓｏｎＣｏｍｐｒｅｓｓｅｄＶｉｄｅｏ」（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ，Ｖｏｌ．５，Ｎｏ．６，Ｄｅｃｅｍｂｅｒ１９９５，ｐｐ．５３３−５４４）と題された論文において、ＹｅｏおよびＬｉｕは、ＭＰＥＧ−２圧縮ビデオドメインにおけるシーン変化検出の方法を記述している。また、その著者達は、圧縮されていない画像データ全体のシーケンスに基づいてシーン変化を検出するこれまでの努力および他の種々の圧縮ビデオ処理技術を再検討している。ＹｅｏおよびＬｉｕは、シーン分析操作を容易にするために、いわゆるＤＣ画像である原画像の空間的に低減されたバージョンと圧縮ビデオから抽出されたＤＣシーケンスとを使用することを示した。それら「ＤＣ画像」は、原画像のブロックにおける画素の平均値である画素から作成されており、ＤＣシーケンスは、ＤＣ画像の数の低減された画素の組合せである。なお、ＤＣ画像抽出ベースの技術は、Ｉフレームに対して適している。それは、ＩフレームからＤＣ値を抽出することが、比較的簡単だからである。しかしながら、他のタイプのフレームに対しては、追加の計算が必要である。
Ｐｒｏｃ．ＳＰＩＥＣｏｎｆ．ｏｎＳｔｏｒａｇｅａｎｄＲｅｔｒｉｅｖａｌｆｏｒＩｍａｇｅａｎｄＶｉｄｅｏＤａｔａｂａｓｅｓ，Ｊａｎｕａｒｙ１９９８で発表された論文において、Ｗｏｎ等は、ＤＣ係数で費やされたビットを利用してフレーム内のエッジを位置付けることにより、圧縮されたＭＰＥＧ−２ビデオから特徴を抽出する方法を述べている。しかしながら、彼らの研究は、Ｉフレームのみに限定されている。
Ｋｏｂｌａ等は、同じ会報において、Ｙｅｏ等のＤＣ画像抽出を用いてビデオクリップを特徴付けるビデオトレイルを形成する方法を述べている。
Ｆｅｎｇ等（ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．ＩＩ，ｐｐ．８２１−８２４，Ｓｅｐｔ．１６−１９，１９９６）は、ＤＣ画像を抽出することなく、ＭＰＥＧ−２フレームのマクロブロックに亙ってビットアロケーション（ビットの割り当て）を使用することにより、急なシーンの変化を検出した。Ｆｅｎｇ等の技術は、圧縮ビットストリームを解析するために必要である以上に重要な計算が必要でないため、計算上最も簡単である。
１９９９年１月１４日に出願された「Ｍｅｔｈｏｄｓｏｆｓｃｅｎｅｃｈａｎｇｅｄｅｔｅｃｔｉｏｎａｎｄｆａｄｅｄｅｔｅｃｔｉｏｎｆｏｒｉｎｄｅｘｉｎｇｏｆｖｉｄｅｏｓｅｑｕｅｎｃｅｓ」と題された米国特許出願第０９／２３１，６９８号および１９９９年１月２５日に出願された「ＭｅｔｈｏｄｓｏｆＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎｆｏｒＶｉｄｅｏＳｅｑｕｅｎｃｅｓ」と題された米国特許出願第０９／２３６，８３８は、Ｆｅｎｇ等の方法とＹｅｏ等の方法のいくつかの態様に基づいて正確かつ簡単なシーン変化検出を行う、計算上簡単な技術を述べている。推測されるシーンまたはオブジェクトの変化が、ＤＣ画像抽出ベースの技術を使用することにより、連続フレームのグループに正確に位置付けられると、位置付けられたシーンの付近のＰまたはＢフレーム情報に対する、適当なビットアロケーションベースの技術および／または適当なＤＣ残余係数処理技術のアプリケーションは、その切点を迅速かつ正確に位置付ける。この組み合わされた技術は、ＭＰＥＧ−２フレームシーケンスまたはＭＰＥＧ−４複数オブジェクトシーケンスのいずれに対して適用可能である。ＭＰＥＧ−４の場合、各オブジェクトの領域を重み係数として用いて、フレームの各オブジェクトにおける変化の重み付け合計を使用することが有利である。
１９９９年７月１日にＤｉｖａｋａｒａｎ等によって出願された「ＣｏｍｐｒｅｓｓｅｄＢｉｔ−ＳｔｒｅａｍＳｅｇｍｅｎｔＩｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｄｅｓｃｒｉｐｔｏｒ」と題された米国特許出願第０９／３４５，４５２号は、フレーム間符号化フレームの変位の大きさを、フレーム間符号化フレームに関連する圧縮ビットストリームにおけるビットに基づいて決定する技術を述べている。フレーム間符号化フレームは、マクロブロックを含む。各マクロブロックは、そのマクロブロックから最も近接して一致するフレーム内符号化フレームへの変位を表すフレーム間符号化フレームビットのそれぞれの部分に関連付けられている。変位の大きさは、フレーム間符号化フレームに関連付けられたすべてのマクロブロックの変位量の平均である。平均変位量より小さいそれらマクロブロックの変位量は、０に設定される。０の大きさのマクロブロックのランレングスの数は、最初のフレーム間符号化フレームを識別するために決定されかつ使用される。
動きアクティビティ
これまで行われた研究は、動き情報を抽出することと、シーン変化を検出する等の低レベルアプリケーションに対する動き情報を使用することと、に焦点が当てられていた。そのため、より高レベルのアプリケーションに対する特徴抽出が未だに必要とされている。例えば、ビデオシーケンスにおける動きアクティビティの空間的分布の性質を示す特徴を抽出する必要がある。
ビデオまたはアニメーションシーケンスは、低速なシーケンス、高速なペースのシーケンス、断続的なシーケンス等として知覚することができる。アクティビティの特徴は、この、ビデオセグメントにおける「アクションの強度」または「アクションのペース」の直観的概念を捉える。高「アクティビティ」および低「アクティビティ」の例は、それぞれ、スポーツイベントと画面に登場する話し手である。
適切な動きアクティビティ記述子により、ビデオブラウジング、サーベイランス、ビデオコンテントリパーパシングおよびビデオデータベースのコンテントベースの間合せ等のアプリケーションが可能となる。例えば、ビデオブラウジングでは、アクティビティ特徴により、アクティビティの広い記述に基づいてビデオコンテントのクラスタ化を可能にすることができる。これらアプリケーションに対し、動きアクティビティの強度だけでなく、アクティビティの空間的および時間的分布等のアクティビティの他の属性を用いる必要がある。
発明の開示
本発明は、ビデオシーケンスにおける動きアクティビティの空間的分布に対する記述子を提供する。本発明は、ビデオのフレームにおけるマクロブロックの動きアクティビティの強度の測度として、ビデオシーケンスから抽出される動きベクトルの大きさを使用する。所定のＰフレームの各マクロブロックに対し、動きベクトルの大きさを含む動きアクティビティ行列Ｃ_ｍｖが構成される。
動きアクティビティ行列に対し、閾値が決定される。１つの実施の形態において、閾値は、各マクロブロックに対する平均値Ｃ_ｍｖ ^ａｖｇである。閾値より小さいＣ_ｍｖの要素はすべて０に設定される。また、他の閾値を使用することも可能である。閾値は、ノイズに対する頑強性を提供するために、平均にある経験的に決定された定数を足したものとすることができる。また、動きベクトルの大きさの中央値も使用することができる。これにより、少しの大きい値がその平均に基づく閾値に対して不当に影響することが防止される。また、最も一般的な動きベクトルの大きさ、すなわちモードを使用することも可能である。これは基本的にクラスタ化の問題であるため、ニューラルネットおよびベクトルサポートマシン等、Ｋ平均に基づく周知のクラスタ化技術のいずれかを用いることにより、動きベクトルをそれらの大きさに基づいて２つのカテゴリに分割することも可能である。この場合、２つのクラスタ間の境界を閾値として使用することができる。
次に、ビデオシーケンス全体に対してヒストグラムが構成される。ヒストグラムの「区間（ｂｉｎ）」は、閾値が決定された行列における非ゼロ値の明瞭な連結領域のエリアに対する統計量を蓄積する。他の閾値決定プロセスが、ヒストグラムに適用され、ヒストグラムは、非ゼロ動きの平均サイズに対して基準化され、それによりフレームのサイズに関して正規化される。
重畳的な類似性測定により、本発明の記述子は、最新のＭＰＥＧ−７実験モデルにおける空間的アクティビティ記述子より優れた適合率−再現率性能を有する。
また、本記述子の明瞭な無相関部分におけるカメラ動きおよび非カメラ動きの影響を捕らえることが可能である。特徴抽出は、圧縮ドメインにおいて行われるため、従来技術による非圧縮ビデオシーケンスからの特徴抽出より高速に実行することができる。
およそ１４時間の種類の異なるＭＰＥＧ−１符号化されたビデオコンテントを含む、ＭＰＥＧ−７テストコンテントセットに基づくテストにおいて、本記述子により、ビデオの高速かつ正確な索引付けが可能となる。記述子は、フレームサイズ、フレーム率、符号化ビットレート、符号化フォーマット等の符号化パラメータにおけるノイズおよび変化に対して頑強である。これは、同じプログラム内の意味論的一致を与える低レベル非意味論的記述子であり、そのため、ビデオブラウジング等のアプリケーションに非常に適している。
より詳細には、本発明は、ビデオシーケンスにおける動きアクティビティを記述する方法を提供する。ビデオシーケンスに対し、動きアクティビティ行列が決定される。動きアクティビティ行列に対する閾値が決定される。少なくとも閾値に等しい動きベクトルの連結領域が識別され、そのサイズが測定される。ビデオシーケンス全体に対し、連結領域のサイズの分布のヒストグラムが構成される。動きアクティビティ記述子におけるビデオシーケンスの空間的分布を特徴付けるために、ヒストグラムが正規化される。
発明を実施するための最良の形態
図１は、本発明による動きアクティビティの空間的分布を記述する方法１００を示す。本発明では、圧縮ビデオシーケンスのＰフレームにおいてブロック動きベクトルの大きさの平均をとることにより、ビデオフレームまたはビデオオブジェクトのマクロブロック（Ｃ_ｍｖ ^ａｖｇ）毎の平均の動きベクトルの大きさを決定する。このプロセスは、参照をもってその開示内容が本明細書に援用されたものとする、１９９９年１月２５日にＤｉｖａｋａｒａｎ等によって出願された「ＭｅｔｈｏｄｏｆＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎｏｆＶｉｄｅｏＳｅｑｕｅｎｃｅｓ」と題された米国特許出願第０９／２３６，８３８号に述べられている。
要するに、ビデオシーケンス１０１の各ビデオフレームまたはオブジェクトについて、ステップ１１０では、動きアクティビティ行列Ｃ_ｍｖ１０２を決定する。

ここで、（ｘ_ｉ，ｊ，ｙ_ｉ，ｊ）は、（ｉ，ｊ）番目のブロックに関連する動きベクトルである。
この決定では、Ｐフレーム／オブジェクトのみを考慮しており、以下のステップにおいて１つのフレームの記述子を構成する。フレーム内符号化ブロックの場合、Ｒ（ｉ，ｊ）＝０である。
ステップ１２０では、閾値Ｔ１０３を決定する。使用することができる１つの閾値は、フレーム／オブジェクトのマクロブロック毎の平均の動きベクトルの大きさである。平均Ｃ_ｍｖ ^ａｖｇ１０３は、以下のように与えられる。

ここで、Ｍはマクロブロックの幅、Ｎはマクロブロックの高さである。
また、他の閾値を使用することもできる。ノイズに対する頑強性を提供するために、閾値を、平均にある経験的に決定された定数を足したものとすることができる。また、動きベクトルの大きさの中央値を用いることも可能である。これにより、少しの大きい値が平均に基づく閾値に不当に影響を与えることが防止される。また、最も一般的な動きベクトルの大きさ、すなわちモードを使用することもできる。これは、基本的にクラスタ化の問題であるため、ニューラルネットおよびベクトルサポートマシン等、Ｋ平均に基づく周知のクラスタ化技術のうちのいずれかを用いることによって、動きベクトルをそれらの大きさに基づいて２つのカテゴリに分割することができ、閾値として２つのクラスタの間の境界を使用することができる。
次に、ステップ１３０では、Ｃ_ｍｖ ^{ｔｈｒｅｓｈ}１０４として、閾値１０３より大きい動きを有するアクティビティ行列Ｃ_ｍｖの特徴を識別する。閾値Ｔは、以下のようにＣ_ｍｖに対して与えられる。

すなわち、動きアクティビティベクトル行列の要素が閾値１０３より小さい場合、要素をゼロに設定する。
ステップ１４０では、アクティビティ行列における非ゼロ値の連結領域１０５のエリア（サイズ）を識別し測定する。すなわち、少なくとも平均の動きベクトルの大きさほど大きい動きベクトルを有する非常に隣接しているマクロブロックを識別し、かかる領域のマクロブロックの数を計数することにより領域のサイズ（エリア）を測定する。
ステップ１５０では、ビデオシーケンス全体に対し非ゼロ連結領域のヒストグラムＨ１０６を構成する。ヒストグラムの区間の幅は、対数的尺度に従って均一でない。サンプルヒストグラムとして図３（ａ）〜図３（ｃ）を参照する。区間は、非ゼロ動きの小さいエリア、中間のエリアおよび大きいエリアに対して大まかに分類することができる。
フレームのエリアの半分より大きい非ゼロ動きのエリアは、通常、カメラパン等のグローバル動きを示唆する。従って、ヒストグラムの最後の２つの区間を、ビデオシーケンスにおけるカメラの動きのインジケータとして使用することができる。
ステップ１６０において、ヒストグラム１０６が、各区間の非ゼロ動きエリアの平均により基準化されることにより、以下のように表される基準化されたヒストグラムｈ１０７がもたらされる。

各区間の値、すなわち、特定のサイズの領域の数は、ヒストグラムの連結領域の平均サイズによって割られて丸められる。区間における非ゼロ動きエリアの絶対数よりも区間における非ゼロ動きエリアの存在を強調するために、区間の値に対するコンパンダとして、平方根演算が使用される。
正規化されたヒストグラムｈ１０７は、ビデオ１０１における動きの空間的分布に対する記述子となる。任意に、ｈ１０７と共に平均動きベクトルＣ_ｍｖ ^ａｖｇ１０３を使用することにより、結合された記述子１０９を生成することも可能である。
ビデオマッチングのための記述子の使用
記述子ｈ１０７を使用して、ビデオを比較することができる。図２に示すように、記述子の値をマッチングするために重み付け相関比較手続き２００を使用する。非ゼロ動きエリアは、許容できる一致に対して厳密に一致する必要はないため、ヒストグラムの１シフトしたバージョンの間の距離を考慮することもできる。しかしながら、ヒストグラムのシフトされたバージョンを使用することで距離が決定される場合、厳密な一致に有利であるようにｗ＞１の乗算因子を使用する。
従って、ステップ２１０〜２１２において、第１のヒストグラムＨ_１２０１を左シフトし、右シフトし、およびシフトしないことにより、それぞれＨ_１ ^Ｌ２２０、Ｈ_１ ^Ｒ２２１およびＨ_１２２２を生成する。ステップ２３０〜２３２において、ヒストグラム２２０の各々が第２のヒストグラムＨ_２２０２と比較されることにより、それぞれＤ（Ｈ_１ ^Ｌ，Ｈ_２）２４０、Ｄ（Ｈ_１ ^Ｒ，Ｈ_２）２４１およびＤ（Ｈ_１，Ｈ_２）２４２が決定される。上述したように、ステップ２５０〜２５２において、ｗにより距離が重み付けされる。
この時点で、２つのヒストグラム２０１〜２０２の間の最終的な距離を、少なくとも２つの可能な方法で決定することができる。ステップ２６０では、重み付けされた距離の最短距離Ｄ_ｍｉｎ（Ｈ_１，Ｈ_２）２７０をとる。ステップ２６１では、ヒストグラム間の距離として合計Ｄ_ｓｕｍ（Ｈ_１，Ｈ_２）２７１をとる。
なお、他の代替態様は、上述した代替態様の組合せである。例えば、距離Ｄ（Ｈ_１ ^Ｌ，Ｈ_２）２４０，Ｄ（Ｈ_１ ^Ｒ，Ｈ_２）２４１の最小値をＤ（Ｈ_１，Ｈ_２）２４２に加算することにより、２つのヒストグラム間の距離を計算することができる。また、これは、第２の代替態様において使用される重みの非線形生成の一例としてみなすことも可能である。
ＭＰＥＧ−７ビデオテストセットによる結果
上述したような本発明による記述子を、ＭＰＥＧ−１、すなわちＭＰＥＧ−７テストセットからの「Ｖ３」ビデオシーケンスに適用する。表１に、いくつかの検索の例を示す。

表１から分かるように、本発明による動きアクティビティ記述子により、ビデオシーケンス内の意味論的ショット分類およびマッチングが可能となる。本発明による記述子は、一貫して、表２に示すようなビデオシーケンス内の１／１０〜５／５の範囲の適合率の値を取得する。

例えば、スペインのニュースシーケンスで、総合司会者を捜す場合、１０／１０適合率および１／３０再現率を得る。なお、１０の一致しか検索しないため、再現率は多くても１０／（あり得る正確な一致の合計数）であるように制限される。サッカーショットを捜す場合、適合率は３／１０に低減されるが、再現率は０．３に増大する。テストコンテントを用いた本発明の実験は、本発明による記述子により、同様の時間および空間上のアクティビティを有するショットを一致させることができる、ということを示している。同じプログラム内であれば、意味論的分類が、時間および空間上のアクティビティの強度および分布という意味で広く分割され、本発明による記述子が適切に作用する。
表１と対応するヒストグラム３０１〜３０３の図３（ａ）〜図３（ｃ）において、スペインのニュースを用いた本発明による結果を示す。他のニュースプログラムでも同様の結果が得られる。また、パンが１つの大きい非ゼロ動きを生成するため、本発明による非ゼロ動き構造を有するパン等のカメラ動きを検出することができる。本発明による記述子は１つのショットにおいてカメラ動きのセグメントを分離するため、カメラ動きと非カメラ動きとを別々に検出することができる。これにより、ＭＰＥＧ−７ＸＭにおける現存の空間的動きアクティビティ記述子に改良を加えることができる。
ビデオシーケンスにおけるアクティビティの空間的分布を特徴付ける動き記述子を示した。本発明による記述子は、パラメータ変化を符号化することに対する頑強性、適合率−再現率、カメラ動きおよび非カメラ動きの検出および分析等に関して、ＭＰＥＧ−７ＸＭによって提案される規格において、現存の空間的アクティビティ記述子より性能が優れている。本発明による記述子は、圧縮ビデオに使用するため、抽出簡潔性においてＭＰＥＧ−７記述子に匹敵する。また、本発明による非ゼロ動きフレームワークにおいて、動きベクトルを符号化するためにとられるビット等、動きベクトルの大きさの間接的かつ計算上より簡単な測度も、有効性は低くなるが、使用することが可能であることも分かっている。
動きベクトルの大きさに対し閾値決定手続きを使用することにより、フレーム内のアクティビティの領域または「非ゼロ動き」を識別する。そして、これら領域のエリアを使用することにより、非ゼロ動きエリアの「閾値が与えられた」ヒストグラムを決定する。このヒストグラムを、ビデオショットに対する「記述子」として使用する。「領域のエリア」方法は、ランレングスと異なる領域サイズの直接の測定であり、フレーム率、フレームサイズ等の符号化パラメータに関してより容易に正規化されるため、より有効である。更に、記述子は、オブジェクト変換、回転等に対してより頑強である。記述子は、ショット内のカメラ動きと非カメラ動きとを切離すことにより、より正確なアクティビティ記述を提供する。このように、本発明により、マッチングおよび探索によく適しているビデオショットのための記述子が提供される。
本発明は、好ましい実施の形態の実施例として述べられてきたが、本発明の精神および範囲内で種々の他の適用および変更を行うことができる、ということは理解されなければならない。従って、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内にあるものとしてかかるすべての変形および変更をカバーすることである。
産業上の利用の可能性
以上のように、この発明に関わるビデオにおける動きアクティビティの記述方法は、ビデオに対し動きアクティビティ行列を決定するステップと、動きアクティビティ行列のための閾値を決定するステップと、少なくとも閾値に等しい動きベクトルを有する連結領域を識別するステップと、連結領域のサイズを測定するステップと、ビデオの上記連結領域のヒストグラムを構成するステップと、ヒストグラムを正規化することにより、動きアクティビティ記述子においてビデオの空間的記述を特徴付けるステップとを備えているので、優れた適合率−再現率性能を有する。
【図面の簡単な説明】
図１は、本発明によるビデオにおける動きアクティビティの空間的分布を記述する方法のブロック図、
図２は、ヒストグラム間の距離を決定するブロック図、
図３は、本発明による動きの空間的分布のヒストグラムである。

Claims

ビデオにおける動きアクティビティの記述子を生成するための処理方法であって、
ビデオ内の動きベクトルに基づいて動きアクティビティ行列を決定するステップと、
上記動きアクティビティ行列に対する閾値を決定するステップと、
上記閾値以上の動きアクティビティ行列を有する動きベクトルを含む上記ビデオ内の領域を検出し、それらのうち、隣接している領域を連結して、連結領域を決定するステップと、
上記連結領域の大きさを測定するステップと、
上記ビデオに対して上記連結領域の大きさの分布のヒストグラムを構成するステップと、
上記ヒストグラムを正規化するステップとを備え、
上記正規化されたヒストグラムは、上記ビデオにおける動きの空間的分布を特徴付ける動きアクティビティ記述子として用いられることを特徴とする方法。
上記ビデオの各フレームは、複数のマクロブロックを含み、各マクロブロックは、動きベクトルを含み、上記動きアクティビティ行列は、上記フレームの上記マクロブロックの上記動きベクトルに基づいて求められることを特徴とする請求項１記載の方法。
上記連結領域は、上記閾値以上の動きアクティビティ行列を有する動きベクトルを含む隣接するマクロブロックを連結することによって形成され、上記連結領域の大きさは、上記連結領域に含まれる上記マクロブロックの数に等しいことを特徴とする請求項２記載の方法。
上記閾値は、平均の動きベクトルの大きさであることを特徴とする請求項３記載の方法。
上記閾値は、上記平均の動きベクトルの大きさに予め決められた定数を足したものであることを特徴とする請求項４記載の方法。
上記閾値は、上記動きベクトルの大きさの中央値であることを特徴とする請求項３記載の方法。
上記閾値は、動きベクトルの大きさのモード（最頻値）であることを特徴とする請求項３記載の方法。
動きベクトルをそれらの大きさに基づいて２つのカテゴリに分類してクラスタを生成した場合に、上記閾値として、当該２つのクラスタ間の境界を用いることを特徴とする請求項３記載の方法。
上記ヒストグラムは、複数の区間を有し、上記区間は、対数的尺度に従うことを特徴とする請求項１記載の方法。
上記フレームの領域の半分より大きい連結領域は、グローバルな動きを示すことを特徴とする請求項２記載の方法。
上記正規化は、
上記ヒストグラムの連結領域の平均の大きさにより各区間の値を割って丸めることと、
上記区間の上記値に対しコンパンダとして平方根演算を適用することと
を更に備えたことを特徴とする請求項９記載の方法。
２つのビデオのマッチングを行うステップをさらに備え、
該ステップは、
第１のビデオから正規化された第１のヒストグラムを生成し、第１の動きアクティビティ記述子とするステップと、
第２のビデオから正規化された第２のヒストグラムを生成し、第２の動きアクティビティ記述子とするステップと、
上記第１および第２の動きアクティビティ記述子を比較することにより上記第１および第２のビデオのマッチングを行うステップと
を備えたことを特徴とする請求項１記載の方法。
上記第１のヒストグラムを左シフトさせるステップと、
上記第１のヒストグラムを右シフトさせるステップと、
上記第１のヒストグラムをシフトさせないステップと、
上記左シフトさせた第１のヒストグラム、上記右シフトさせた第１のヒストグラム、および、上記シフトさせなかった第１のヒストグラムを、上記第２のヒストグラムと比較することにより、それぞれのヒストグラムと上記第２のヒストグラムとの間の距離を求め、それぞれ、第１、第２および第３の距離とするステップと、
上記第１、第２および第３の距離に重み付けするステップと
を更に備えたことを特徴とする請求項１２記載の方法。
上記第１および第２のビデオの間の最終的な距離として、前記重み付けされた第１、第２および第３の距離の最小値を選択するステップ
を更に備えたことを特徴とする請求項１３記載の方法。
上記第１、第２および第３の重み付けされた距離を合計することにより、上記第１および第２のビデオの間の最終的な距離を決定するステップ
を更に備えたことを特徴とする請求項１３記載の方法。