JP2005331940A

JP2005331940A - マルチメディア中の事象を検出する方法

Info

Publication number: JP2005331940A
Application number: JP2005127865A
Authority: JP
Inventors: Regunathan Radhakrishnan; レギュナータン・ラドクリシュナン; Ajay Divakaran; アジェイ・ディヴァカラン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2004-05-07
Filing date: 2005-04-26
Publication date: 2005-12-02
Also published as: US7409407B2; US20050249412A1

Abstract

【課題】本方法はマルチメディア中の事象を検出する。
【解決手段】マルチメディアから特徴を抽出する。スライディングウインドウを用いて特徴をサンプリングしてサンプルを得る。各サンプルのコンテキストモデルを作成する。モデルと、各対のコンテキストモデル間の交換距離メトリックとから類似性行列を求める。類似性行列の第２一般固有ベクトルを求め、次に、この第２一般固有ベクトルに応じてサンプルを事象にクラスタリングする。
【選択図】図１

Description

本発明は、包括的にはマルチメディアの解析に関し、特にコンテンツ中の事象パターンに応じたマルチメディアの要約化に関する。

ほとんどの従来技術のマルチメディアコンテンツの要約化方法は、コンテンツ中の既知の事象パターンを検出してコンテンツの要約を提供することに重点を置いてきた。結果として、要約化に役立つ事象パターンは特定の既知のジャンルのマルチメディアに限られている。教師あり統計学習ツールを用いてパターンを抽出する方法も良く知られている。

ニュースビデオの場合、クローズドキャプションの文字、原稿（speech transcript）の解析、および話者に基づく分割による「ストーリー」の境界の検出が有用であることが示されている（Rainer著「ビデオの索引付けのための自動文字認識（Automatic text recognition for video indexing）」（Proc. ACM Multimedia, 1996）、およびHsu等著「ニュースストーリーの分割における中レベルの知覚特徴を融合するための統計的枠組み（A statistical framework for fusing mid-level perceptual features in news story segmentation）」（Proc. of ICME, 2003））。

シチュエーションコメディーの場合、シーンのモザイク表現を用いた物理的設定の検出、および視聴覚キューを用いた主な登場人物の検出が有用であることが示されている（Aner等著「モザイクに基づくショットおよびシーンのクラスタリングによるビデオの要約（Video summaries through mosaic-based shot and scene clustering）」（Proc. European Conference on Computer Vision, 2002）、およびLi著「多角的情報を用いた、コンテンツに基づくビデオの解析、索引付けおよび表現（Content-based video analysis, indexing and representation using multimodal information）」（Ph. D Thesis, University of Southern California, 2003））。

スポーツビデオの要約化の場合、方法によっては、視聴覚キューを用いてハイライトに関連するドメイン固有の事象を検出するものもある（Pan等著「ハイライトの生成のための、スポーツビデオにおけるスローモーション再生部分の検出（Detection of slow-motion replay segments in sports video for highlights generation）」（Proc. IEEE International Conf. on Acoustics, Speech and Signal Processing, 2001）、およびXu等著「サッカービデオにおける事象検出のための聴覚キーワードの作成（Creating audio keywords for event detection in soccer video）」（Proc. of ICME, 2003））。別の方法は、教師なしの方法で試合休憩部分を抽出する（Xie等著「ビデオにおける統計的時間構造の教師なしマイニング（Unsupervised mining of statistical temporal structures in video）」（Video Mining, Rosenfeld et al. Eds, Kluwer Academic Publishers, 2003））。

映画コンテンツの場合、構文構造、例えば話者が二人だけのシーンの検出、および「異常」事象、例えば爆発の検出が有用であることが示されている（Sundaram等著「視聴覚記憶モデルを用いた、映画中の計算可能なシーンとその構造の判定（Determining computable scenes in films and their structures using audio-visual memory models）」（ACM Multimedia, 2000））。

監視コンテンツの場合、ビデオからのオブジェクトの分割と追跡を用いた「異常」事象の検出が有効であることが示されている（Wu等著「安全監視のためのマルチカメラによる時空間融合およびバイアスシーケンスデータの学習（Multi-camera spatio-temporal fusion and biased sequence data learning for security surveillance）」（ACM Multimedia, 2003））。

以下の米国特許および特許出願もまた、マルチメディアにおいて特徴を抽出し事象を検出するとともにマルチメディアを要約化する方法を記載している。Divakaran他により２０００年３月６日付で出願された米国特許出願第０９／５１８，９３７号「マルチメディア中のデータ構造を順序付ける方法（Method for Ordering Data Structures in Multimedia）」、Divakaran他により２０００年７月６日付で出願された米国特許出願第０９／６１０，７６３号「マルチメディアコンテンツの低レベルの特徴からの意味的な高レベルの特徴の抽出（Extraction of Semantic and Higher Level Features from Low-Level Features of Multimedia Content）」、Divakaranに対して２００４年２月２４日付で発行された米国特許第６，６９７，５２３号「動き記述子およびカラー記述子を用いたビデオの要約化（Video Summarization Using Motion and Color Descriptors）」、Divakaran他により２００１年４月２７日付で出願された米国特許出願第０９/８４５，００９号「動き記述子を用いたビデオの要約化方法（Method for Summarizing a Video Using Motion Descriptors）」、Divakaran他により２００３年６月３０日付で出願された米国特許出願第１０／６１０，４６７号「ビデオ中の短期間の異常事象を検出する方法（Method for Detecting Short Term Unusual Events in Videos）」、およびDivakaran他により２００３年１２月５日付で出願された米国特許出願第１０／７２９，１６４号「隠れマルコフモデルを用いた視聴覚ハイライトの検出（Audio-visual Highlights Detection Using Hidden Markov Models）」。上記は全て参照により本明細書中に援用される。

いくつかの特定のジャンルのマルチメディアについてパターンを検出する方法が知られているが、一般化された検出タスクは、異なるコンテンツ提供者によって用いられる異なるマルチメディア製作様式、および他の要因によるジャンル内の差異のために依然として課題となっている。例えば、監視ビデオ中のパターンは決して予測することができない。そうでなければ、監視ビデオは必要ないだろう。したがって、そのようなビデオにおいて事象検出のための教師ありモデルを作成することは不可能である。

明らかに、ジャンルに関係なくあらゆるマルチメディアにおいて事象パターンを検出することができる方法が必要とされている。

以下は、マルチメディアの要約化と事象パターンの認識に望まれる要件の一部である。

先ず最初に、方法は、コンテンツ適応的かつ教師なしであるべきである。第２に、方法は、事象パターンを発見するために、共通する特徴を抽出し統計的に解析する枠組みを有するべきである。次に、同一の特徴抽出プロセスを全てのジャンルのマルチメディアにフロントエンドとして用い、マルチメディアのジャンルに応じて異常の意味するものが異なる場合でも、発見したパターンに対して同一の後処理段階を実行して「異常」事象を特定することができる。方法はまた、検出事象の格付け方式を組み込み、適切な要約を判定できるようにすべきである。

本発明は、ジャンルに関係なく、マルチメディアコンテンツ中の事象の時間パターンを検出する。本発明は、異なるジャンルのマルチメディアからそのような時間パターンを取り出すために、統合的でコンテンツ適応的な教師なし学習の枠組みを用いる。

本方法は、パターン検出の問題を時系列のクラスタリング問題として定式化する。低レベルおよび中レベルの視聴覚特徴のシーケンスをマルチメディアから抽出する。特徴を時系列として処理する。この時系列を、時系列から推定される統計モデルから作成される類似性行列（affinity matrix）の固有ベクトル解析に基づいて時間的に分割する。

時間分割を用いて、抽出した特徴シーケンスから遷移点および「孤立点（outliers）」を検出することができる。検出された孤立点のそれぞれについて、確率に関して信頼度（confidence measure）を定める。ブートストラップおよびカーネル密度推定を用いて学習パラメータと信頼度の間の関係を確立する。それによって、本発明は、あらゆるマルチメディアジャンルの学習パラメータを選択するための体系的な方法を可能にする。さらに、信頼度を用いて、検出した遷移をそのバックグラウンドプロセス（background process）からの偏差（departure）に関して格付けすることができる。

本発明は、マルチメディア中の異常事象を検出する、統合的でコンテンツ適応的な教師なしデータ方法を提供する。本方法は、低レベルの特徴または中レベルの意味ラベルの時系列の統計的モデリングと、その後に行われる、グループ分けのグラフ理論的な定式化を用いた分割とに基づく。本発明はまた、検出事象の信頼度を提供する。

本発明は、マルチメディア中のフォアグラウンド（前景）の「異常」事象が「通常」事象のバックグラウンド（背景）の中で散発するという観察に基づく。異常事象のいくつかの例として次のものが挙げられる。スポーツ番組では、番組のオーディオ部分のほとんどを試合解説が占める。しかし、時として、比較的稀な得点事象に続いて圧倒された観客の反応、例えば、歓声、拍手、およびウェーブが沸き上がる。シチュエーションコメディー番組では、通常、対話のバックグラウンドの中でコミカルな事象に続いて笑いが沸き上がる。監視ビデオでは、ほとんどが無音のまたは静止したバックグラウンドの中で不審な事象に続いて動きまたは大きな音が突如として発生する。

このことから、本発明では、マルチメディア中の異常事象を検出するという問題を「孤立点」を検出する問題として定式化することにした。本発明では、ほとんどが静止したバックグラウンドプロセスを、バックグラウンドプロセスがわずかな期間しか静止しておらず、経時的に変化する可能性があっても、ビデオから抽出した低レベルおよび中レベルの視聴覚特徴に関して統計的にモデリングする。これは、バックグラウンドのモデリングがコンテンツ全体を通して適応的に行われることを意味する。これはまた、モデリングが１度に１つのバックグラウンドプロセスを処理すれば十分に孤立点を検出できることを意味する。

問題の定式化
マルチメディア中の支配的なすなわち「通常」クラスの事象はＣ_１で表すことができる。これらの通常事象は、マルチメディア中のバックグラウンドプロセスとして考えることができる。マルチメディア中の「異常」クラスの事象はＣ_２で表すことができる。これらの異常事象は、フォアグラウンドプロセスとして考えることができる。

マルチメディア中の２つのクラスの事象（Ｃ_１およびＣ_２）ついて抽出した観測値（observations）または低レベルおよび中レベルの視聴覚特徴の時間シーケンスが

に対応する場合、異常事象を検出する問題は、全ての通常のバックグラウンド事象Ｃ_１の中から時折の異常なフォアグラウンド事象Ｃ_２と、その実現の対応する発生時刻とを見つける問題となる。

初めに、クラスＣ_１の通常事象の統計値を、少なくとも稀な異常事象の期間に対して静止しているものと仮定する。しかし、クラスＣ_２の異常事象に関するそのような仮定はない。クラスＣ_２の事象は、様々なランダムプロセスの集合とすることさえできる。唯一の要件は、異常事象Ｃ_２の発生回数が、支配的なクラスの通常事象Ｃ_１の遥かに多い発生回数に比べて比較的少ないことである。

この定式化は、より一般的な問題、すなわち１つの極めて支配的なプロセスが必ずしも存在しない時系列のクラスタリングの特別な場合であることに留意されたい。

本発明では、ビデオから抽出した低レベルおよび中レベルの視聴覚特徴のシーケンスを時系列として扱い、時間分割を行って、観測値すなわち抽出した特徴のシーケンスから遷移点および孤立点を検出する。

類似性行列の固有ベクトル解析を用いた分割
固有ベクトル解析を用いた分割が画像について記載されている（Shi等著「正規化されたカットおよび画像分割（Normalized cuts and image segmentation）」（Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 1997））。この分割は、グループ分けのグラフ理論的な定式化に関する。

任意の特徴空間Ｖにおける点の集合を重み付き無向グラフとして表す。ここで、グラフの各ノードは特徴空間における１点であり、各対のノード間に辺が形成される。辺にかかる重みは、対のノードの類似度を表す。ノードｉおよびｊ間の類似度は、辺にかかる重みｗ（ｉ，ｊ）で表すことができる。

グラフの分割基準を理解するために、グラフを２つのクラスタＡおよびＢに分割し、Ａ∪Ｂ＝Ｖとなるようにすることを考える。ここで、Ｖは全特徴空間である。すると、次式が成り立つ。

Shi等は、Ｎ_ｃｕｔを最小化することによって、クラスタ間の類似度がいかに最小化され、個々のクラスタ内の関連が最大化されるかを記載する。Shi等はまた、ｙ_ｉ∈｛−１，ｂ｝という条件で、

であると記載している。ここで、ＷはＮ×Ｎのサイズの対称類似性行列であり、この類似性行列は、ノードｉおよびｊ間の類似度であるｗ（ｉ，ｊ）をエントリとして含み、Ｄはｄ（ｉ，ｉ）＝Σ_ｊｗ（ｉ，ｊ）である対角行列であり、ｙ^Ｔはベクトルｙの転置を表す。パラメータｘおよびｙはクラスタ指示ベクトルである。すなわち、ｙ（ｉ）が−１である場合、特徴点「ｉ」はクラスタＡに属し、そうでない場合、この特徴点はクラスタＢに属す。上の式の解は、ｙが実数値をとるように緩和される場合に、以下の一般固有値方程式の解と同じであることも知られている。

ここで、λは固有ベクトルｙの対応する固有値である。

この一般固有値方程式は、先ず、ｚ＝Ｄ^１／２ｙを代入して次式を得ることにより、この方程式を標準固有値方程式に変換することによって解かれる。

ｚ_０＝Ｄ^１／２１（→）は、固有値が０である自明の（trivial）解であることが検証できる。この固有値方程式の最も小さな非自明の解である第２一般固有ベクトルｚ_１は、２つのクラスタについてＮ_ｃｕｔを最適化する分割を行う。なお、１（→）は、１の上に→があることを表す。

カーネル密度推定
何らかの未知の密度関数（ｆ）およびカーネル（Ｋ）からｄ次元のベクトルの観測値のｎ個のランダムサンプルｘ_１、ｘ_２，．．．，ｘ_ｎが与えられると、真の密度の推定値を次のように得ることができる。

ここで、ｈは、選択されたカーネル関数のスケールを決めるバンド幅パラメータである。平均二乗誤差（ＭＳＥ）を密度推定効率の測度として用いる場合、推定値のバイアスと偏差のトレードオフは次のようになる。

バイアスはｈ^２に比例し、偏差はｎ^−１ｈ^−ｄに比例する（Wand等著「カーネル平滑化（Kernel Smoothing）」（London, Chapman & Hall, 1995））。したがって、固定バンド幅の推定量について、最適なトレードオフを達成するバンド幅パラメータｈの値を選択する。本発明では、Sheather等著「カーネル密度推定のための信頼性の高いデータに基づくバンド幅選択方法（A reliable data-based bandwidth selection method for kernel density estimation）」（J. R. Statist. Society, 1991）によって概説されるデータ駆動型のバンド幅選択プロセスを推定に用いる。

パターンの発見
図１に示すように、本発明は、観測値の時系列からバックグラウンドの通常事象Ｃ_１の中でのフォアグラウンドの異常事象Ｃ_２の発生回数を検出する方法１００を提供する。

予備ステップにおいて、マルチメディア１０１から低レベルおよび中レベルの特徴（．．．Ａ．．．．Ｚ．．．）１０２を抽出する１０５。抽出した特徴１０２を、別個のラベルの集合Ｓを用いてラベル付けする、すなわち、Ｃ_１およびＣ_２のアルファベットは集合Ｓ＝｛Ａ，Ｂ，Ｃ，Ｄ，Ｅ，．．．，Ｘ，Ｙ，Ｚ｝である。代替的に、ラベルは連続的であってもよい。特徴１０２は、本発明における事象検出の目的で、基礎となるマルチメディアコンテンツ１０１を定義する時系列として扱われる。複数の同期された時系列を用いることもでき、例えば、１つの低レベルの系列が音量のみを示し、別の系列が音声、音楽、無音、および非音声を区別することに留意すべきである。音声はさらに、女性または男性の音声に分類することができる。これらの時系列は、ビデオ部分の他の時系列とともに用いることができる。

マルチメディアのオーディオ部分に関して、オーディオ特徴は、ピッチ、振幅、メル周波数ケプストラム係数（ＭＦＣＣ）のような低レベルの特徴、ならびに音声および音楽のような中レベルの特徴を含むことができる。ビデオ部分の場合、低レベルのビデオ特徴は色、動き、テクスチャ等を含むことができる。ビデオが圧縮されている場合、中レベルの特徴はＭＰＥＧ−７記述子を含むことができる。利点として、これらの特徴は、あらゆるジャンルのマルチメディアに存在する。

特徴１０２の時系列は、複数（Ｎ個）の「サンプル」１１３としてサンプリングされる１１０。サンプリングは、長さＷ_Ｌのスライディングウインドウ１１１およびステップ幅Ｗ_Ｓ１１２を用いる。これらのパラメータは、ラベル、フレーム、または時間に関して指定することができる。本発明の好ましい実施形態において、サンプリングは均一である。各ステップに関して、ウインドウ中のサンプルは、マルチメディアの「コンテキスト」を定義する。

コンテキストモデル１２１が、Ｎ個のサンプル１１３すなわち「コンテキスト」のそれぞれに作成される１２０。モデリングは、離散的または連続的な統計関数を用いることができる。

コンテキストモデル１２１と、対のコンテキストモデル間で定められる交換（commutative）距離メトリックｄ１２２とを用いて時系列全体についてＮ×Ｎの対称類似性行列Ｗ１３１を求める１３０。

類似性行列の第２一般固有ベクトルｚ_１１４１を求める１４０。次に、この第２一般固有ベクトルを用いて、事象１５１をクラスタリングし、異常事象すなわち「孤立点」を検出し、事象を格付けする１５０。

格付けした事象１５１は、マルチメディア１０１のコンテンツを摘要または要約１６１として要約化する１６０ために用いることができる。

本発明による方法１００には、３つの重要な問題、すなわちコンテキストの統計モデル１２１、ならびにＷ_ＬおよびＷ_Ｓの２つのパラメータの選択がある。

無記憶バックグラウンドプロセスの場合のコンテキストモデルとしては単純な無条件の確率分布関数ＰＤＦで十分である。しかし、バックグラウンドプロセスがいくらかの記憶を有する場合、選択されたモデルは、バックグラウンドプロセスを説明しなければならないだろう。例えば、隠れマルコフモデルは、バックグラウンドプロセスの一次近似を与えることができる。

２つのパラメータ（Ｗ_ＬおよびＷ_Ｓ）の選択は、或る特定の事象が「異常」であるという信頼度によって判定することができる。サンプリングウインドウの長さＷ_Ｌは、ウインドウ内のコンテキストについて統計モデルの信頼度を決める。ステップ幅Ｗ_Ｓは、異常事象が検出される分解能を決める。

検出された異常事象に対する信頼度
本発明の方法１００では、先ず、長さＷ_Ｌのウインドウ内のサンプルからバックグラウンドプロセスのパラメータを推定する。次に、或る特定のモデルと他のコンテキストモデルとの差がどれほどであるかを測定する。この差は、ウインドウＷ_Ｌ内のＣ_２からの観測値によって、あるいはバックグラウンドモデルの推定値の偏差によって生じる。２つのコンテキストモデル間の観測される差が、推定値自体の偏差だけ「許容差よりも実質的に大きい」場合、本発明ではその偏差が、異常事象Ｃ_２からの観測値によるコンテキストのうちの１つの「破壊（corruption）」によるものであると「ほぼ確信（confident）」する。

以下では、「許容差よりも実質的に大きい」ものと、「ほぼ確信」するものとをウインドウ長Ｗ_Ｌに関して定量化する。

２項および多項ＰＤＦモデルの信頼度
２項または多項ＰＤＦによってモデリングされるバックグラウンドプロセスの場合に、特徴１０２は別個のラベルＳ＝｛Ａ，Ｂ，Ｃ，Ｄ，Ｅ，．．．｝を有する。長さがＷ_Ｌサンプルのウインドウにコンテキストが与えられると、相対度数による確率の定義を用いてＳ中のラベルのそれぞれの確率を推定することができる。

ラベルＡの確率の不偏推定量は（＾）ｐ_Ａで表される。この値（＾）ｐ_Ａは、Ｗ_Ｌ≧３０ラベルである場合に平均ｐ_Ａおよび偏差√｛ｐ_Ａ（１−ｐ_Ａ）／Ｗ_Ｌ｝を有するガウスランダム変数によって近似値を求めることができる２項ランダム変数である。なお、（＾）ｐは、ｐの上に＾があることを表す。

上述のように、本発明は、コンテキストモデルの２つの推定値の差を測定するランダム変数ｄの信頼区間を知ることに関心がある。数学的に取り扱い易くするために、カルバック・ライブラー（Kullback-Leibler）距離のような厳密な測度の単調な近似でしかないが、２つのＰＤＦ間のユークリッド距離メトリックを考慮する。

ここで、（＾）ｐ_ｉ，１および（＾）ｐ_ｉ，２は、長さＷ_Ｌの２つの異なるコンテキストからのｉ番目のラベルの確率の推定値を表す。（＾）ｐ_ｉ，１および（＾）ｐ_ｉ，２はいずれもガウスランダム変数であるので、ｄは、自由度がｎであるｘ^２ランダム変数であり、ｎは集合Ｓの濃度である。

ここで、実質的な確率

を用いて、（（＾）ｄ）のあらゆる推定値が閉区間［Ｌ，Ｕ］にあると仮定する。言い換えれば、２つのコンテキストモデル推定値の、この区間外にある差が、コンテキストモデルのうちの１つにおける異常事象Ｃ_２の発生により生じたものであるとＮ％確信することができる。また、ｄの確率密度関数を用いて全ての孤立点を格付けすることができる。

検証
上記の解析を検証するために、以下のシミュレーションを行うことができる。本発明では、既知の２項または多項ＰＤＦから、上記で定義したようなバックグラウンドプロセスであると仮定される長さＷ_Ｌの２つのコンテキストを生成した。これらの２つのコンテキストから推定したモデルはそれぞれＭ_１およびＭ_２で表される。本発明では次に、「ブートストラップ」およびカーネル密度推定を用いて、ｄのＰＤＦの解析を下記のように検証する。
１．Ｍ_１およびＭ_２からＷ_Ｌのラベルを生成する。
２．生成されたデータに基づいてモデルパラメータ（＾）ｐ_ｉ，１および（＾）ｐ_ｉ，２を再推定し、２つのコンテキストモデルを比較するための交換距離メトリック（ｄ）を求める。
３．ステップ１および２をＮ回繰り返す。
４．カーネル密度推定からｄのＰＤＦ、（＾）ｐ_ｉ，１および（＾）ｐ_ｉ，２を得る。

ＧＭＭモデルおよびＨＭＭモデルの信頼度
無記憶バックグラウンドプロセスの観測値が離散的なラベルではなく連続的なラベルである場合、連続的なラベルを用いて、ガウス混合モデル（ＧＭＭ）を用いてプロセスのＰＤＦをモデリングすることができる。プロセスが一次記憶を有する場合、その一次ＰＤＦを隠れマルコフモデル（ＨＭＭ）を用いてモデリングすることができる。

λ＝（Ａ，Ｂ，π）は、ＨＭＭとＧＭＭの両方のモデルパラメータを表すものとする。ここで、Ａは状態遷移行列であり、Ｂはサンプルラベルの確率分布であり、πは初期状態分布である。ＧＭＭの場合、Ａおよびπは１であり、Ｂは分布の混合モデルを表す。連続的なサンプルを有するＨＭＭの場合、Ｂはそれぞれの状態における混合モデルである。観測値として離散的なラベルを有するＨＭＭの場合、Ｂはそれぞれの状態における多項ＰＤＦである。

２つのコンテキストモデルが異なるパラメータを有する場合でも、モデルは統計的に等価である。したがって、以下の交換距離メトリックを用いて、観測値シーケンスまたはサンプルＯ_１およびＯ_２からそれぞれ作成した２つのコンテキストモデルλ_１およびλ_２を比較する。

距離メトリックの初めの２つの項は、推定モデルを与えられた場合の訓練データの尤度を測定する。後の２つの交差項は、λ_１でＯを観測する尤度とその逆の尤度を測定する。２つのモデルが異なる場合、交差項は初めの２つの項よりも実質的に小さい。定義された距離メトリックｄは、そのＰＤＦを求めるのに役立つことのできる２項および多項モデルの場合のようには、同様の解析に役立たない。したがって本発明では、ブートストラップを適用して距離メトリックのいくつかの観測値を得るとともに、カーネル密度推定を用いて定義された距離メトリックのＰＤＦを得る。

Ｗ_Ｌが１００フレームから６００フレームに増加するにつれて、ＰＤＦの台は小さくなることに留意されたい。訓練データの量が増え、よって正規化された対数尤度差の分散が小さくなるにつれて、同一バックグラウンドプロセスの２つのコンテキストモデルの信頼度は増加する。したがって、別のプロセス、例えばフォアグラウンドプロセス（Ｃ_２）からの観測値の破壊によって生じるあらゆる対数尤度差の値を定量化することが可能である。同様の解析により、同一の観測値が、ＨＭＭをコンテキストモデルとして用いる場合にも当てはまることが示される。

信頼度を用いた孤立点の格付け
上記では、本発明の方法によって用いられる、コンテキストモデル、例えば無記憶モデルおよびＨＭＭの特定の距離メトリックのＰＤＦの推定を説明している。次に、Ｃ_１およびＣ_２からの観測値の所与の時系列について、コンテキストモデルの選択されたウインドウ長Ｗ_Ｌの類似性行列を求める。

第２一般固有ベクトルｚ_１を用いて通常点（inliers）および孤立点を検出する。次に、孤立点コンテキストモデルの信頼度メトリックＭ_ｊを次のように求める。

ここで、Ｐ_ｄ，ｉは通常点コンテキストｉにおける観測値を用いた距離メトリックの密度推定である。ＯおよびＩの値はそれぞれ孤立点および通常点の集合を表す。記号＃Ｉは通常点の集合の濃度を表す。

ブートストラップおよびカーネル密度推定により、あるいは２項または多項の場合と同様の解析により得られた密度推定が有限台を有する場合、通常点とは全く異なり、Ｐ_ｄ，ｉ（ｄ≦ｄ（Ｍ_ｉ，Ｍ_ｊ））ｄとして格付けすることができない孤立点のいくつかは１である。このような場合、距離自体を用いて孤立点を格付けすることができる。

格付けの順序は、累積分布関数（ＣＤＦ）が単調増加関数であるため、Ｐ_ｄ（ｄ≦ｄ（Ｍ_ｉ，Ｍ_ｊ））の代わりにｄ（Ｍ_ｉ，Ｍ_ｊ）を使用することには影響されない。しかし、ｄ（Ｍ_ｉ，Ｍ_ｊ）を使用した場合、ｄ（Ｍ_ｉ，Ｍ_ｊ）の意味はバックグラウンドに依存するため、格付けリストを融合させることはより難しくなる可能性がある。

スポーツビデオへの応用
上述のように、スポーツビデオの「異常」事象は通常プロセスのバックグラウンドの中で時折起こる。ゴルフの試合では、通常プロセスは静かなバックグラウンドの中の解説者の音声である。サッカーの試合では、通常プロセスは比較的騒がしいバックグラウンドの中の解説者の音声である。しかし、ビデオ全体から異常な番組部分、例えばコマーシャルを抽出するためには、後述のように、コマーシャルが番組全体のバックグラウンドの中で「異常」であるという観察に基づいて、本発明の方法をより粗いスケールで用いる。

第２レベルのラベルを用いた事象の検出
本発明の方法は、バックグラウンドプロセスが比較的静止しているものと仮定するため、第１のステップは、スポーツビデオ全体から時系列をクラスタリングして、同一のバックグラウンドを有する時系列の連続部分を特定することである。

図２は、３時間のゴルフビデオの類似性行列を示す。本発明では、２状態ＨＭＭを用いて、１２０（Ｗ_Ｌ）の分類ラベルの各時系列を１０のステップサイズ（Ｗ_Ｓ）でモデリングする。類似性行列は、上記で定義した対となる尤度距離メトリックを用いて作成される。類似性行列は、１つのバックグラウンドに対して暗い領域を示すことに留意されたい。暗い領域、すなわち孤立点は、コマーシャル２０１の発生時であることが検証される。

本発明では、ラベルの時系列を１秒の分解能で用いるため、検出される孤立点は、ビデオ全体を２つのクラスタ、すなわち番組を表す部分と、コマーシャルを表す部分とに粗く分割する。また、このような粗い分割は、本発明において低レベルの特徴ではなく中レベルの分類ラベル、例えば音声と非音声の時系列を用いたために可能である。この段階において低レベルのオーディオ特徴を使用した場合、番組部分を非番組部分と区別することに関係のない、いくらかの微小な変化を生じる。例えば、低レベルの特徴は、コンテンツ中の２人の異なる話者を区別することができ、より一般的な音声ラベルはこれらの話者を１つのものとして区別する。

異常事象の検出
スポーツビデオ中の異常事象は、観客の反応とともに、通常数秒間だけ続く。これは、短い異常事象の抽出に第２レベルの分類ラベルを使用できないことを意味する。第２レベルの分類ラベルを用いた場合、その分解能で事象を検出するために、Ｗ_Ｌのサイズは十分に小さくなければならない。しかし、本発明における上記の信頼度の解析は、Ｗ_Ｌの値が小さいとコンテキストモデルの信頼性が低下することを示す。

したがって、少なくとも以下の２つの選択肢、すなわち、中レベルのラベルではなくフレームレベルの分類ラベルを用いた時系列の処理、または低レベルのＭＦＣＣ特徴を用いた時系列の処理がある。明らかに、フレームレベルの分類ラベルの使用は計算効率がより高い。また、上述のように、ラベルを処理することによって、異なる話者のような、バックグラウンドプロセスの無関係な変化を抑えることができる。

監視ビデオへの応用
スポーツビデオの場合、応用ドメインに関するいくらかの事前知識を用いて、拍手、歓声等の音クラスを訓練し、低レベルの特徴の時系列とは別にさらなる時系列を抽出することができる。

監視ビデオでは、異常事象を特徴付けできる音の種類が常に予測できるとは限らない。しかし、本発明の方法は、ドメイン知識を取得して「区別可能な」音のクラスを特定するための体系的な方法論を提供する。いかなる事前知識もない状態で、本発明では、そのようなシナリオにおける低レベルの特徴を用いて、ドメインを効果的に特徴付けるとともに事象を検出する。

本発明を好適な実施形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適用および変更を行うことができることを理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入るこのような変形および変更をすべて網羅することである。

本発明によるマルチメディアコンテンツ中の事象を検出する方法のフロー図である。本発明による類似性行列の画像である。

Claims

マルチメディア中の事象を検出する方法であって、
前記マルチメディアから特徴を抽出すること、
スライディングウインドウを用いて前記特徴をサンプリングして、複数のサンプルを得ること、
各サンプルのコンテキストモデルを作成すること、
前記モデルと、各対のコンテキストモデル間の交換距離メトリックとから類似性行列を求めること、
前記類似性行列の第２一般固有ベクトルを求めること、
および
前記第２一般固有ベクトルに応じて前記複数のサンプルを事象にクラスタリングすること
を含むマルチメディア中の事象を検出する方法。
前記事象は、バックグラウンドプロセスの通常事象と、フォアグラウンドプロセスの異常事象とを含む
請求項１記載の方法。
前記特徴のラベルは、離散的である
請求項１記載の方法。
前記特徴のラベルは、連続的である
請求項１記載の方法。
前記マルチメディアは、オーディオ部分を含み、オーディオ特徴が、ピッチ、振幅、メル周波数ケプストラム係数、音声および音楽からなる群から選択される
請求項１記載の方法。
前記マルチメディアは、ビデオ部分を含み、ビデオ特徴が、色、動き、テクスチャおよびＭＰＥＧ−７記述子からなる群から選択されたマルチメディアである
請求項１記載の方法。
前記スライディングウインドウは、長さＷ_Ｌおよびステップ幅Ｗ_Ｓを有し、前記長さは前記コンテキストモデルの信頼度を決め、前記ステップ幅は前記事象の分解能を決める
請求項１記載の方法。
前記第２一般固有ベクトルは、前記事象を格付けする
請求項１記載の方法。
前記格付けされた事象に応じて前記マルチメディアを要約化することをさらに含む
請求項８記載の方法。
前記バックグラウンドプロセスは、無記憶であり、前記コンテキストモデルは、無条件の確率分布関数である
請求項２記載の方法。
前記バックグラウンドプロセスは、記憶を有し、前記コンテキストモデルは、隠れマルコフモデルである
請求項２記載の方法。
前記コンテキストモデルは、ガウス混合モデルである
請求項１記載の方法。
前記スライディングウインドウは、長さＷ_Ｌを有し、サンプルＯ_１およびＯ_２からそれぞれ作成される各対のコンテキストモデルλ_１およびλ_２の前記交換距離メトリックｄは、
Ｄ（λ_１，λ_２）＝１／Ｗ_Ｌ（ｌｏｇＰ（Ｏ_１｜λ_１）＋ｌｏｇＰ（Ｏ_２｜λ_２）
−ｌｏｇＰ（Ｏ_１｜λ_２）−ｌｏｇＰ（Ｏ_２｜λ_１））である
請求項１記載の方法。