JP2006058874A

JP2006058874A - マルチメディア中の事象を検出する方法

Info

Publication number: JP2006058874A
Application number: JP2005218930A
Authority: JP
Inventors: Regunathan Radhakrishnan; レギュナータン・ラドクリシュナン; Isao Otsuka; 功大塚; Ajay Divakaran; アジェイ・ディヴァカラン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2004-08-20
Filing date: 2005-07-28
Publication date: 2006-03-02

Abstract

【課題】マルチメディア中の事象を検出する方法。
【解決手段】マルチメディアから特徴を抽出する。スライディングウインドウを用いて特徴をサンプリングしてサンプルを得る。各サンプルのコンテキストモデルを作成する。このコンテキストモデルは時系列を形成する。時系列モデルと、各対のコンテキストモデル間の交換距離メトリックとから類似性行列を求める。類似性行列の第２一般固有ベクトルを求め、次に、この第２一般固有ベクトルに応じてサンプルを事象にクラスタリングする。
【選択図】図１

Description

本発明は、包括的にはマルチメディアの解析に関し、特にマルチメディア中の通常事象に関連する特徴の特定に関する。

ほとんどの従来技術のマルチメディアコンテンツの要約化方法は、コンテンツ中の既知の事象パターンを検出してコンテンツの要約を提供することに重点を置いてきた。結果として、要約化に役立つ事象パターンは特定の既知のジャンルのマルチメディアに限られている。教師あり統計学習ツールを用いてパターンを抽出する方法も良く知られている。

ニュースビデオのジャンルでは、クローズドキャプションの文字、原稿（speech transcript）の解析、および話者に基づく分割による「ストーリー」の境界の検出が有用であることが示されている（Rainer著「ビデオの索引付けのための自動文字認識（Automatic text recognition for video indexing）」（Proc. ACM Multimedia, 1996）、およびHsu等著「ニュースストーリーの分割における中レベルの知覚特徴を融合するための統計的枠組み（A statistical framework for fusing mid-level perceptual features in news story segmentation）」（Proc. of ICME, 2003））。

シチュエーションコメディーのジャンルでは、シーンのモザイク表現を用いた物理的設定の検出、および視聴覚キューを用いた主な登場人物の検出が有用であることが示されている（Aner等著「モザイクに基づくショットおよびシーンのクラスタリングによるビデオの要約（Video summaries through mosaic-based shot and scene clustering）」（Proc. European Conference on Computer Vision, 2002）、およびLi著「多角的情報を用いた、コンテンツに基づくビデオの解析、索引付けおよび表現（Content-based video analysis, indexing and representation using multimodal information）」（Ph. D Thesis, University of Southern California, 2003））。

スポーツビデオの要約化の場合、方法によっては、視聴覚キューを用いてハイライトに関連するドメイン固有の事象を検出するものもある（Pan等著「ハイライトの生成のための、スポーツビデオにおけるスローモーション再生部分の検出（Detection of slow-motion replay segments in sports video for highlights generation）」（Proc. IEEE International Conf. on Acoustics, Speech and Signal Processing, 2001）、およびXu等著「サッカービデオにおける事象検出のための聴覚キーワードの作成（Creating audio keywords for event detection in soccer video）」（Proc. of ICME, 2003））。別の方法は、教師なしの方法で試合休憩部分を抽出する（Xie等著「ビデオにおける統計的時間構造の教師なしマイニング（Unsupervised mining of statistical temporal structures in video）」（Video Mining, Rosenfeld et al. Eds, Kluwer Academic Publishers, 2003））。

映画コンテンツの場合、構文構造、例えば話者が二人だけのシーンの検出、および「異常」事象、例えば爆発の検出が有用であることが示されている（Sundaram等著「視聴覚記憶モデルを用いた、映画中の計算可能なシーンとその構造の判定（Determining computable scenes in films and their structures using audio-visual memory models）」（ACM Multimedia, 2000））。

監視コンテンツの場合、ビデオからのオブジェクトの分割と追跡を用いた「異常」事象の検出が有効であることが示されている（Wu等著「安全監視のためのマルチカメラによる時空間融合およびバイアスシーケンスデータの学習（Multi-camera spatio-temporal fusion and biased sequence data learning for security surveillance）」（ACM Multimedia, 2003））。

以下の米国特許および特許出願もまた、マルチメディアにおいて特徴を抽出し事象を検出するとともにマルチメディアを要約化する方法を記載している。Divakaran他により２０００年３月６日付で出願された米国特許出願第０９／５１８，９３７号「マルチメディア中のデータ構造を順序付ける方法（Method for Ordering Data Structures in Multimedia）」、Divakaran他により２０００年７月６日付で出願された米国特許出願第０９／６１０，７６３号「マルチメディアコンテンツの低レベルの特徴からの意味的な高レベルの特徴の抽出（Extraction of Semantic and Higher Level Features from Low-Level Features of Multimedia Content）」、Divakaranに対して２００４年２月２４日付で発行された米国特許第６，６９７，５２３号「動き記述子およびカラー記述子を用いたビデオの要約化（Video Summarization Using Motion and Color Descriptors）」、Divakaran他により２００１年４月２７日付で出願された米国特許出願第０９/８４５，００９号「動き記述子を用いたビデオの要約化方法（Method for Summarizing a Video Using Motion Descriptors）」、Divakaran他により２００３年６月３０日付で出願された米国特許出願第１０／６１０，４６７号「ビデオ中の短期間の異常事象を検出する方法（Method for Detecting Short Term Unusual Events in Videos）」、およびDivakaran他により２００３年１２月５日付で出願された米国特許出願第１０／７２９，１６４号「隠れマルコフモデルを用いた視聴覚ハイライトの検出（Audio-visual Highlights Detection Using Hidden Markov Models）」。上記は全て参照により本明細書中に援用される。

いくつかの特定のジャンルのマルチメディアについて特定の事象を検出する方法が知られているが、一般化された検出タスクは、異なるコンテンツ提供者によって用いられる異なるマルチメディア製作様式、および他の要因によるジャンル内の差異のために依然として課題となっている。例えば、監視ビデオ中の事象は決して予測することができない。そうでなければ、監視ビデオは必要ないだろう。したがって、多くのジャンルのビデオについて事象検出のための教師ありモデルを作成することは不可能である。

もう１つの問題は、コンテンツ中の、特定の事象に関連する特定の特徴を特定することである。例えば、どのタイプの視聴覚キューがコンテンツ中で、事象検出のタスクに役立てるために利用できるかを特定することである。

明らかに、事象に関連する特徴を特定することができる方法が必要とされている。

以下は、マルチメディアの要約化と事象の検出に望まれる要件の一部である。

先ず最初に、方法は、コンテンツ適応的かつ教師なしであるべきである。第２に、方法は、事象パターンを発見するために、共通する特徴を抽出し統計的に解析する枠組みを有するべきである。次に、同一の特徴抽出プロセスを全てのジャンルのマルチメディアにフロントエンドとして用い、マルチメディアのジャンルに応じて異常の意味するものが異なる場合でも、発見したパターンに対して同一の後処理段階を実行して事象を特定することができる。方法はまた、検出事象の格付け方式を組み込み、適切な要約を判定できるようにすべきである。

本発明は、ジャンルに関係なく、マルチメディアコンテンツ中の事象の時間パターンを検出する。本発明は、異なるジャンルのマルチメディアからそのような時間パターンを取り出すために、統合的でコンテンツ適応的な教師なし学習の枠組みを用いる。

本方法は、パターン検出の問題を時系列のクラスタリング問題として定式化する。視聴覚特徴のシーケンスをマルチメディアから抽出する。特徴を時系列として処理する。時系列データを、窓掛けプロセスを用いてモデルで表現する。モデリングした時系列を用いて類似性行列（affinity matrix）を作成する。固有ベクトル解析および固有ベクトルのクラスタリングにより異常事象を検出する。

検出された孤立点（outliers）のそれぞれについて、確率に関して信頼度（confidence measure）を定める。ブートストラップおよびカーネル密度推定を用いて学習パラメータと信頼度の間の関係を確立する。それによって、本発明は、あらゆるジャンルのマルチメディアについて学習パラメータを選択するための体系的な方法を可能にする。さらに、本方法は、異常事象に関連する可能性が最も高い特定の特徴を特定する。

本発明は、マルチメディア（例えばビデオ）中のフォアグラウンド（前景）の「異常」事象が「通常」事象のバックグラウンド（背景）の中で散発するという観察に基づく。異常事象のいくつかの例として次のものが挙げられる。スポーツ番組では、番組のオーディオ部分のほとんどを試合解説が占める。しかし、時として、比較的稀な得点事象に続いて圧倒された観客の反応、例えば、歓声、拍手、およびウェーブが沸き上がる。シチュエーションコメディー番組では、通常、日常的な対話のバックグラウンドの中でコミカルな事象に続いて笑いが沸き上がる。監視ビデオでは、ほとんどが無音のまたは静止したバックグラウンドの中で不審な事象に続いて動きまたは大きな音が突如として発生する。

このことから、本発明では、マルチメディア中の異常事象を検出するという問題を「孤立点」を検出する問題として定式化することにした。本発明では、ほとんどが静止したバックグラウンドプロセスを、バックグラウンドプロセスがわずかな期間しか静止しておらず、経時的に変化する可能性があっても、マルチメディアから抽出した視聴覚特徴に関して統計的にモデリングする。これは、バックグラウンドのモデリングが時間的に展開するコンテンツ全体を通して適応的に行われることを意味する。これはまた、モデリングが１度に１つのバックグラウンドプロセスを処理すれば十分に孤立点を検出できることを意味する。

マルチメディア中の支配的なすなわち「通常」クラスの事象はＣ_１で表すことができる。これらの通常事象は、マルチメディア中のバックグラウンドプロセスとして考えることができる。マルチメディア中の「異常」クラスの事象はＣ_２で表すことができる。これらの異常事象は、フォアグラウンドプロセスとして考えることができる。

時間的なマルチメディア中の２つのクラスの事象（Ｃ_１およびＣ_２）について抽出した特徴シーケンスが

に対応する場合、異常事象を検出する問題は、全ての通常のバックグラウンド事象Ｃ_１の中から時折の異常なフォアグラウンド事象Ｃ_２と、その実現の対応する発生時刻とを見つける問題となる。

初めに、クラスＣ_１の通常事象の統計値を、少なくとも稀な異常事象の期間に対して静止しているものと仮定する。しかし、クラスＣ_２の異常事象に関するそのような仮定はない。クラスＣ_２の事象は、様々なランダムプロセスの集合とすることさえできる。唯一の要件は、異常事象Ｃ_２の発生回数が、支配的なクラスの通常事象Ｃ_１の遥かに多い発生回数に比べて比較的少ないことである。

この定式化は、より一般的な問題、すなわち１つの極めて支配的なプロセスが必ずしも存在しない時系列のクラスタリングの特別な場合であることに留意されたい。

本発明では、ビデオから抽出した特徴シーケンスを時系列として扱い、この時系列の時間分割を行って、抽出した特徴から遷移点および孤立点を検出する。

類似性行列の固有ベクトル解析を用いた分割
固有ベクトル解析を用いた分割が静止画について記載されている（Shi等著「正規化されたカットおよび画像分割（Normalized cuts and image segmentation）」（Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 1997））。この分割は、グループ分けのグラフ理論的な定式化に関する。任意の特徴空間Ｖにおける点の集合を重み付き無向グラフとして表す。ここで、グラフの各ノードは特徴空間における１点であり、各対のノード間に辺が形成される。辺にかかる重みは、対のノードの類似度を表す。ノードｉおよびｊ間の類似度は、辺にかかる重みｗ（ｉ，ｊ）で表すことができる。

グラフの分割基準を理解するために、グラフを２つのクラスタＡおよびＢに分割し、Ａ∪Ｂ＝Ｖとなるようにすることを考える。ここで、Ｖは全特徴空間である。すると、次式が成り立つ。

Shi等は、Ｎ_ｃｕｔを最小化することによって、クラスタ間の類似度がいかに最小化され、個々のクラスタ内の関連が最大化されるかを記載する。Shi等はまた、ｙ_ｉ∈｛−１，ｂ｝という条件で、

であると記載している。ここで、ＷはＮ×Ｎのサイズの対称類似性行列であり、この類似性行列は、ノードｉおよびｊ間の類似度であるｗ（ｉ，ｊ）をエントリとして含み、Ｄはｄ（ｉ，ｉ）＝Σ_ｊｗ（ｉ，ｊ）である対角行列であり、ｙ^Ｔはベクトルｙの転置を表す。パラメータｘおよびｙはクラスタ指示ベクトルである。すなわち、ｙ（ｉ）が−１である場合、特徴点「ｉ」はクラスタＡに属し、そうでない場合、この特徴点はクラスタＢに属す。上の式の解は、ｙが実数値をとるように緩和される場合に、以下の一般固有値方程式の解と同じであることも知られている。

ここで、λは固有ベクトルｙの対応する固有値である。

この一般固有値方程式は、先ず、ｚ＝Ｄ^１／２ｙを代入して次式を得ることにより、この方程式を標準固有値方程式に変換することによって解かれる。

第１固有ベクトルｚ_０＝Ｄ^１／２１（→）は、この固有値方程式の、固有値が０に等しい自明の（trivial）解であることが検証できる。なお、１（→）は、１の上に→があることを表す。

しかし、この固有値方程式の最も小さな非自明の解である第２一般固有ベクトルｚ_１は、２つのクラスタについてＮ_ｃｕｔを最適化する望ましい分割を行う。

何らかの未知の密度関数（ｆ）およびカーネル（Ｋ）からｄ次元のベクトルのｎ個のランダムサンプルｘ_１、ｘ_２、．．．、ｘ_ｎが与えられると、真の密度の推定値を次のように得ることができる。

ここで、ｈは、選択されたカーネル関数のスケールを決めるバンド幅パラメータである。平均二乗誤差（ＭＳＥ）を密度推定効率の測度として用いる場合、推定値のバイアスと偏差のトレードオフは次のようになる。

バイアスはｈ^２に比例し、偏差はｎ^−１ｈ^−ｄに比例する（Wand等著「カーネル平滑化（Kernel Smoothing）」（London, Chapman & Hall, 1995））。したがって、固定バンド幅の推定量について、最適なトレードオフを達成するバンド幅パラメータｈの値を選択する。本発明では、Sheather等著「カーネル密度推定のための信頼性の高いデータに基づくバンド幅選択方法（A reliable data-based bandwidth selection method for kernel density estimation）」（J. R. Statist. Society, 1991）によって概説されるデータ駆動型のバンド幅選択プロセスを推定に用いる。

異常事象の検出
図１に示すように、本発明は、サンプルの時系列からバックグラウンドの通常事象Ｃ_１の中でのフォアグラウンドの異常事象Ｃ_２の発生回数を検出する方法１００を提供する。

予備ステップにおいて、マルチメディア１０１から特徴（．．．Ａ．．．．Ｚ．．．）１０２を抽出する１０５。抽出した特徴１０２を、離散的なラベルの集合Ｓを用いてラベル付けする、すなわち、Ｃ_１およびＣ_２のアルファベットは集合
Ｓ＝｛Ａ，Ｂ，Ｃ，Ｄ，Ｅ，．．．，Ｘ，Ｙ，Ｚ｝
である。

代替的に、ラベルは連続的であってもよい。特徴１０２は、本発明における事象検出の目的で、基礎となるマルチメディアコンテンツ１０１を定義する時系列として扱われる。

複数の同期された時系列を用いることもでき、例えば、１つの系列が音量のみを示し、別の系列が音声、音楽、無音、および非音声を区別することに留意すべきである。音声はさらに、女性または男性の音声に分類することができる。音の分類は、オーディオ信号の混合、例えば同時の歓声と音声、または同時の拍手と音声、または同時の拍手と歓声と興奮した高ピッチの大声とすることもできる。これらの時系列は、ビデオ部分の他の時系列とともに用いることができる。視覚的な時系列は、支配色および動きレベルを特徴として含み得る。

マルチメディアのオーディオ部分に関して、オーディオ特徴は、ピッチ、振幅、メル周波数ケプストラム係数（ＭＦＣＣ）、音声、音楽、または音声と音楽を含むことができる。ビデオ部分の場合、特徴は色、動き、テクスチャ等を含むことができる。ビデオが圧縮されている場合、特徴はＭＰＥＧ−７記述子を含むことができる。利点として、これらの特徴は、ほぼあらゆるジャンルのマルチメディアに存在する。

特徴１０２の時系列は、複数（Ｎ個）の「サンプル」１１３としてサンプリングされる１１０。サンプリングは、時系列データに適用される長さＷ_Ｌのスライディングウインドウ１１１およびステップ幅Ｗ_Ｓ１１２を用いる。例えば、ウインドウは８秒であり、各ステップは、ウインドウを４秒だけ前方移動させる。これらのパラメータは、ラベル、フレーム、または時間に関して指定することができる。本発明の好ましい実施形態において、サンプリングは均一である。各ステップに関して、ウインドウ中のサンプルは、マルチメディアの「コンテキスト」を定義する。

コンテキストモデル１２１が、Ｎ個のサンプル１１３すなわち「コンテキスト」のそれぞれに作成される１２０。モデリングは、離散的または連続的な統計関数を用いることができる。当然ながらモデル１２１も時系列である。

コンテキストモデル１２１と、全ての可能な対のコンテキストモデル間で測定される交換（commutative）距離メトリックｄ１２２とを用いて、時系列全体についてＮ×Ｎの対称類似性行列Ｗ１３１を求める１３０。類似性行列１３１は、各ノードがモデル１２１のうちの１つであり、２つのノードをつなぐ辺にかかる重みがｅｘｐ（−ｄ／σ^２）であるグラフを表す。ここで、ｄは所定の距離メトリックであり、パラメータσは類似度が低下する速さを制御する。

図２は、画素強度が距離ｄに対応する例示的な類似性行列２００を示す。すなわち、明るい画素は対のモデル間の距離が小さいことを示し、暗いピクセルは距離が大きいことを示す。軸は基本的に時間を表す。明らかに、対角線沿いの距離値は０である。

類似性行列１３１の第２一般固有ベクトルｚ_１１４１を求める１４０。次に、この第２一般固有ベクトルを用いて、事象１５１に関連する距離をクラスタリングする１５０。「孤立点」である事象は異常とみなされ、これらを格付けすることができる。固有ベクトルは、例えば特異値分解または主成分分析を用いた類似性行列の分解によって求めることができる。

格付けした事象１５１は、マルチメディア１０１のコンテンツを摘要すなわち要約１６１として要約化する１６０ために用いることができる。

類似性行列
図２は、３時間のゴルフビデオの類似性行列２００を示す。本発明では、２状態ＨＭＭを用いて、１２０の分類ラベル（Ｗ_Ｌ）の各時系列を或るステップサイズ（Ｗ_Ｓ）でモデリングする１２０。類似性行列２００は、上記で定義した対となる尤度距離メトリックを用いて作成される。類似性行列は、大部分が明るいバックグラウンドに対して暗い領域を示すことに留意されたい。暗い「縞」、すなわち孤立点は、コマーシャル２０１の発生時刻であることが検証される。

検出される孤立点は、ビデオ全体を２つのクラスタ、すなわちバックグラウンドの番組または通常事象を表す部分と、フォアグラウンドのコマーシャルまたは異常事象を表す部分とに粗く分割する。このような粗い分割は、本発明において音量のような低レベルの特徴ではなく中レベルの特徴、例えば音声と非音声の時系列を用いるために可能である。低レベルのオーディオ特徴を使用した場合、番組部分を非番組部分と区別することに関係のない、いくつかの微小な変化を引き出す。例えば、低レベルの特徴は、コンテンツ中の２人の異なる話者を区別することができるのに対し、より一般的な音声ラベルはこれらの特徴を１人の話者としてグループ分けする。

本発明による階層的クラスタリングを以下で説明する。階層的クラスタリングは微小な変化を排除する。

問題
本発明による方法１００では、以下の問題、すなわち、コンテキストの統計モデル１２１、２つのパラメータＷ_ＬおよびＷ_Ｓの選択、および抽出すべき特徴が検討される。

無記憶バックグラウンドプロセスの場合のコンテキストモデルとしては単純な無条件の確率分布関数（ＰＤＦ）で十分である。しかし、バックグラウンドプロセスがいくらかの記憶を有する場合、選択されたモデルは、バックグラウンドプロセスを説明しなければならないだろう。例えば、隠れマルコフモデルは、バックグラウンドプロセスの一次近似を与えることができる。

２つのパラメータ（Ｗ_ＬおよびＷ_Ｓ）の選択は、或る特定の事象が「異常」であるかどうかを示す信頼度によって判定することができる。サンプリングウインドウの長さＷ_Ｌは、ウインドウ内のコンテキストについて統計モデルの信頼度を決める。ステップ幅Ｗ_Ｓは、異常事象が検出される分解能を決める。

検出された異常事象に対する信頼度
本発明の方法１００では、先ず、長さＷ_Ｌのウインドウ内のサンプルからバックグラウンドプロセスのパラメータを推定する。次に、或る特定のモデルと他のコンテキストモデルとの差がどれほどであるかを測定する。この差は、ウインドウＷ_Ｌ内のＣ_２からのサンプルによって、あるいはバックグラウンドモデルの推定値の偏差によって生じる。２つのコンテキストモデル間の差が、推定値自体の偏差だけ「許容差よりも実質的に大きい」場合、本発明ではその偏差が、異常事象Ｃ_２からのサンプルによるコンテキストのうちの１つの「破壊（corruption）」によるものであると「ほぼ確信（confident）」する。

以下では、「許容差よりも実質的に大きい」こと、および「ほぼ確信」することをウインドウ長Ｗ_Ｌに関して定量化する。

２項および多項ＰＤＦモデルの信頼度
図１に示すように、２項または多項ＰＤＦによってモデリングされるバックグラウンドプロセスの場合に、特徴１０２は離散的なラベルＳ＝｛Ａ，Ｂ，Ｃ，Ｄ，Ｅ，．．．｝を有する。長さがＷ_Ｌサンプルのウインドウにコンテキストが与えられると、相対度数による確率の定義を用いてＳ中のラベルのそれぞれの確率を推定することができる。

ラベルＡの確率の不偏推定量は（＾）ｐ_Ａで表される。この値（＾）ｐ_Ａは、Ｗ_Ｌ≧３０ラベルである場合に平均ｐ_Ａおよび偏差

を有するガウスランダム変数によって近似値を求めることができる２項ランダム変数である。なお、（＾）ｐは、ｐの上に＾があることを表す。

上述のように、本発明は、コンテキストモデルの２つの推定値の差を測定するランダム変数ｄの信頼区間を知ることに関心がある。数学的に取り扱い易くするために、カルバック・ライブラー（Kullback-Leibler）距離のような厳密な測度の単調な近似でしかないが、２つのＰＤＦ間のユークリッド距離メトリックを考慮する。

ここで、（＾）ｐ_ｉ，１および（＾）ｐ_ｉ，２は、長さＷ_Ｌの２つの異なるコンテキストからのｉ番目のラベルの確率の推定値を表す。推定値（＾）ｐ_ｉ，１および（＾）ｐ_ｉ，２はいずれもガウスランダム変数であるので、ｄは、自由度がｎであるχ^２ランダム変数であり、ｎは集合Ｓの濃度である。

ここで、実質的な確率

を用いて、｛（＾）ｄ｝のあらゆる推定値が閉区間［Ｌ，Ｕ］にあると仮定する。言い換えれば、２つのコンテキストモデル推定値の、この区間外にある差が、一方のコンテキストにおける異常事象Ｃ_２の発生により生じたものであるとＮ％確信することができる。また、ｄの確率密度関数を用いて全ての孤立点を格付けすることができる。

検証
上記の解析を検証するために、以下のシミュレーションを行うことができる。本発明では、既知の２項または多項ＰＤＦから、上記で定義したようなバックグラウンドプロセスであると仮定される長さＷ_Ｌの２つのコンテキストを生成した。これらの２つのコンテキストから推定したモデルはそれぞれＭ_１およびＭ_２で表される。本発明では次に、「ブートストラップ」およびカーネル密度推定を用いて、ｄのＰＤＦの解析を下記のように検証する。
１．Ｍ_１およびＭ_２からＷ_Ｌのラベルを生成する。
２．生成されたデータに基づいてモデルパラメータ（＾）ｐ_ｉ，１および（＾）ｐ_ｉ，２を再推定し、２つのコンテキストモデルを比較するための交換距離メトリック（ｄ）を求める。
３．ステップ１および２をＮ回繰り返す。
４．カーネル密度推定からｄのＰＤＦ、（＾）ｐ_ｉ，１および（＾）ｐ_ｉ，２を得る。

特徴の特定
上記のクラスタリング技法は、ドメイン知識を体系的に得るためにも用いることができる。これにより、特徴の選択が場当たり的ではなく体系的になる。例えば、本発明では、スポーツビデオのオーディオ部分を用いる。本発明では上述のように、オーディオ部分からスペクトルまたはケプストラム特徴を抽出し、これらの特徴を時系列として処理する。

時系列クラスタリングの枠組みを用いて、本発明では、選択された特徴について区別可能なクラスタを得る。すなわち、各クラスタは、特定のクラスの音、例えば歓声、音声、興奮した声と歓声、歓声と拍手、または単に拍手のみである。次に本発明では、個々のクラスタを検討することによって、異常事象に対応する特徴中の不変パターンを特定し、特定した特徴に基づいて教師ありの統計学習モデルを作成する。例えば、本発明では、「興奮した声と歓声」のクラスがスポーツビデオにおける異常事象の指標として、単なる「歓声」のクラスよりも優れていることを実証する。したがって、訓練データに「興奮した声と歓声」のクラスを選択することによって、より良好な結果を得ることができる。

図３は、このような枠組みを特徴のクラスの選択に用いることができる方法の一例を示す。縦軸はクラスタメンバーシップの指標であり、横軸は対応する時系列サンプルの発生時刻を示す。

例示的なスポーツビデオの場合の類似性行列の第２一般固有ベクトルは、拍手を含むビデオ部分の発生時刻における「拍手」の孤立点３０１を示す。さらに、明らかに異なる話者からの音声特徴３０２に対応する各部分に対して別個のクラスタがある。本発明では、これらのクラスタを、異常事象を検出する目的とは無関係なものとみなす。したがって、クラスタ３０２は、異なる話者から収集した訓練データを用いて音声ガウス混合モデル（ＧＭＭ）を訓練することによって、単一のラベル下にグループ分けされるべきである。

このような解析により、異なる特徴クラスタ間の相互作用が引き出され、関連性のある、あるいは異常事象の検出に役立つ特徴の選択が可能になる。

標的とする特徴クラスを選択した後、本発明では、ＧＭＭを用いて、特徴の分布をパラメータ化することができる。本発明では、ＧＭＭの混合成分数を求める一方法である最小記述長ガウス混合モデル（ＭＤＬ−ＧＭＭ）の背景にある理論を記述する。

最小記述長（Minimum Descriptor Length）ＧＭＭ
Rissanenの目的関数を最小化することによってＭＤＬ−ＧＭＭのパラメータを得る。この目的関数は、モデルの複雑度と、サンプルに対するモデルの適合度とのトレードオフである。オーディオ分類に基づく異常事象の検出の場合、ＭＤＬ−ＧＭＭは、任意数の特徴、すなわちオーディオ混合成分を用いるＧＭＭよりも性能的に優れている。したがって、本発明では、ＭＤＬ−ＧＭＭを用いて異常オーディオクラスの特徴の分布をモデリングする。

最適数の混合成分およびモデルパラメータを得るための目的関数は次のように導出される。Ｙは、ガウス混合分布を用いてモデリングすべきＭ次元のランダムベクトルとする。Ｋはガウス混合数を示すものとする。本発明では、π、μ、およびＲという表記を用いて、混合の係数、平均および偏差のパラメータセット｛π_ｋ｝、｛μ_ｋ｝、および｛Ｒ_ｋ｝（ｋ＝１〜Ｋ）をそれぞれ示す。完全なパラメータセットはＫによって与えられ、θ＝（π，μ，Ｒ）である。シーケンスＹ＝｛Ｙ_ｎ｝^Ｎ _ｎ＝１全体の確率の対数は次のように表される。

目的は、パラメータＫおよびθ∈Ω^（Ｋ）を推定することである。最尤（ＭＬ）推定値は次式によって与えられる。

最小化に基づくＫの推定値は次のように表される。

ここで、Ｌは、パラメータθの指定に必要な連続値の実数の数である。この用途では次のように表される。

ＧＭＭモデルおよびＨＭＭモデルの信頼度
無記憶バックグラウンドプロセスのサンプルが離散的なラベルではなく連続的なラベルである場合、連続的なラベルを用いるとともに、ガウス混合モデル（ＧＭＭ）を用いてプロセスのＰＤＦをモデリングすることができる。プロセスが一次記憶を有する場合、その一次ＰＤＦを隠れマルコフモデル（ＨＭＭ）を用いてモデリングすることができる。

λ＝（Ａ，Ｂ，π）は、ＨＭＭとＧＭＭの両方のモデルパラメータを表すものとする。ここで、Ａは状態遷移行列であり、Ｂはサンプルラベルの確率分布であり、πは初期状態分布である。ＧＭＭの場合、Ａおよびπは１であり、Ｂは分布の混合モデルを表す。連続的なサンプルを有するＨＭＭの場合、Ｂはそれぞれの状態における混合モデルである。観測値として離散的なラベルを有するＨＭＭの場合、Ｂはそれぞれの状態における多項ＰＤＦである。

２つのコンテキストモデル１２１が異なるパラメータを有する場合でも、モデルは統計的に等価であることができる。したがって、以下の交換距離メトリックｄを用いて、サンプルシーケンスまたはサンプルＯ_１およびＯ_２からそれぞれ作成した２つのコンテキストモデルλ_１およびλ_２を比較する。

距離メトリックの初めの２つの項は、推定モデルを与えられた場合の訓練データの尤度を測定する。後の２つの交差項は、λ_１でＯを観測する尤度とその逆の尤度を測定する。２つのモデルが異なる場合、交差項は初めの２つの項よりも実質的に小さい。定義された距離メトリックｄは、そのＰＤＦを求めるのに役立つことのできる２項および多項モデルの場合のようには、同様の解析に役立たない。したがって本発明では、ブートストラップを適用して距離メトリックのいくつかの観測値を得るとともに、カーネル密度推定を用いて定義された距離メトリックのＰＤＦを得る。類似性グラフの図では、距離ｄを色強度として示す。すなわち、暗い色は大きな距離を示し、対角線沿い等における白は距離０を示す。

Ｗ_Ｌが例えば１００フレームから６００フレームに増加するにつれて、ＰＤＦの台は小さくなることに留意されたい。訓練データの量が増え、よって正規化された対数尤度差の分散が小さくなるにつれて、同一バックグラウンドプロセスの２つのコンテキストモデルの信頼度は増加する。したがって、別のプロセス、例えばフォアグラウンドプロセス（Ｃ_２）からの観測値の破壊によって生じるあらゆる対数尤度差の値を定量化することが可能である。同様の解析により、同一の観測値が、ＨＭＭをコンテキストモデルとして用いる場合にも当てはまることが示される。

信頼度を用いた孤立点の格付け
上記では、本発明の方法によって用いられる、コンテキストモデル、例えば無記憶モデルおよびＨＭＭの特定の距離メトリックのＰＤＦの推定を説明している。次に、Ｃ_１およびＣ_２のサンプルの所与の時系列について、コンテキストモデルの選択されたウインドウ長Ｗ_Ｌの類似性行列を求める。

本発明では、第２一般固有ベクトルｚ_１を用いて通常点（inliers）および孤立点を検出する。次に、孤立点コンテキストモデルの信頼度メトリックＭ_ｊを次のように求める。

ここで、Ｐ_ｄ，ｉは通常点コンテキストｉのサンプルを用いた距離メトリックの密度推定である。ＯおよびＩの値はそれぞれ孤立点（異常事象）および通常点（通常事象）の集合を表す。記号＃１は通常点の集合の濃度を表す。

ブートストラップおよびカーネル密度推定により、あるいは２項または多項の場合と同様の解析により得られた密度推定が有限台を有する場合、通常点とは全く異なり、Ｐ_ｄ，ｉ（ｄ≦ｄ（Ｍ_ｉ，Ｍ_ｊ））ｄとして格付けすることができない孤立点のいくつかは１である。このような場合、距離自体を用いて孤立点を格付けすることができる。

格付けの順序は、累積分布関数（ＣＤＦ）が単調増加関数であるため、Ｐ_ｄ（ｄ≦ｄ（Ｍ_ｉ，Ｍ_ｊ））の代わりにｄ（Ｍ_ｉ，Ｍ_ｊ）を使用することには影響されない。しかし、ｄ（Ｍ_ｉ，Ｍ_ｊ）を使用した場合、ｄ（Ｍ_ｉ，Ｍ_ｊ）の意味はバックグラウンドに依存するため、格付けリストを融合させることはより難しくなる可能性がある。

特徴の特定
異常事象の検出に有用な特徴を特定するために、本発明では、類似性行列に対して正規化されたカットを用いることによって階層的クラスタリングを行う。類似性行列は、グラフ中の各対のノード間の類似度の表現であり、各ノードはコンテキストモデルを表し、グラフ中の任意の２つのノードをつなぐ辺は、ノード間の類似度によって重み付けされる。正規化されたカットは、このグラフを区分化するための、クラスタ内の類似度を維持しながらクラスタの非類似度を強調する最適解を提供する。

図４に示すように、本発明では、類似性行列４１０を以下のように区分化する。先ず、正規化されたカットの解（第２一般固有ベクトル）を用いて類似性行列を２つの個々のクラスタ４１１および４１２に区分化する。最初の類似性行列（親類似性行列）は各対のノード間の類似度を表すため、親類似性行列から対応する要素を選ぶことによって、親類似性行列４１０の２つの特定したクラスタについて類似性行列４２１および４２２を作成することができる。例えば、特定の区分の類似性行列を作成するために、親類似性行列においてこの区分の各クラスタメンバに対応する行を選び、区分のこのメンバおよび他のクラスタメンバにより、このメンバの類似度のみを構成する類似性行列を作成する。

図４は、日本の野球の試合の１５分間のビデオについて類似性行列を階層表現４００で示す。この図において、ルートノード４１０はビデオ全体の類似性行列である。区分４１１および４１２におけるほぼ均一な明るい画素強度に注目する。２つの子ノード４２１および４２２は、これらの区分を用いてルートノード４１０から抽出した類似性行列である。これらのノードは、ほぼ一定のバックグラウンドプロセスを有するビデオ部分、例えば野球試合の対戦（playing）を表し、異常事象検出の対象となる。類似性行列の残りの部分における縞状の暗い強度はおそらく、イニング間の休憩中のコマーシャルに関連するため、異常事象を検出する目的では無視すべきである。

次に、結果として得られる各子ノードに関連する類似性グラフ４２１および４２２に上述のようなスペクトルクラスタリングを再び適用して、次世代の類似性行列４３１を得ることができる。

このプロセスにより、図５に示すような特徴が明らかになる。図５において、縦軸はクラスタインジケータ値であり、横軸は時間である。グラフ５１０は親類似性行列４１０を表し、グラフ５２０および５３０は、親類似性行列４１０からのクラスタ４１１および４１２それぞれの区分を表す。各グラフにおいて、事象は、通常事象のクラスタ（５１１、５２１、および５３１）と異常事象のクラスタ（５１２、５２２、および５３２）にグループ分けすることができる。

グラフ５２０中の異常事象のクラスタ５２２は、スポーツビデオの「ハイライト」を表すことが分かる。上述のように、これらの事象の顕著な特徴の特定により、特定のジャンルのマルチメディアにおいて異常事象を検出するための訓練データとして用いるのに十分な情報が得られる。本発明では、最小記述長原理を用いてガウス混合モデルを訓練し、「ハイライト」クラスの低レベルのケプストラル特徴の分布をモデリングする。次に、本発明では、上記のＧＭＭを用いて、スポーツビデオを「ハイライト」部分と「非ハイライト」部分に分類することができる。

図６は、ここでは日本の野球の試合である第２の例について、ハイライトの瞬間を孤立点として引き出すことにおけるこの方式の成功を示す。グラフ６１０は親類似性行列を表し、グラフ６２０および６３０は親類似性行列からの２つのクラスタそれぞれの区分を表す。各グラフにおいて、事象は、通常事象のクラスタ（６１１、６２１、および６３１）と異常事象のクラスタ（６１２、６２２、および６３２）にグループ分けされる。グラフ６２０における異常事象のクラスタ６２２は野球試合の「ハイライト」を表し、グラフ６３０における事象のクラスタ６３２は解説者が無言である時系列を表すことが分かる。

図７は、サッカー試合のクリップである第３の例における孤立点検出の結果である。親類似性行列７１０はグラフ７２０によって表される。グラフ７２０において、事象は、通常事象のクラスタ７２１と異常事象のクラスタ７２２にグループ分けされる。グラフ７２０中の異常事象のクラスタ７２２は、サッカー試合の「ハイライト」を表すことが分かる。

図８に示すように、本発明では、１２秒間のウインドウ（ステップ毎に１秒ずつ時間を前方スライドする）におけるこれらのオーディオ特徴の割合を用いて、入力スポーツビデオを１秒毎に格付けする。図８において、縦軸は、入力ビデオにおける１秒間の部分の「関心の高さ（interesting-ness）」の測定に用いられる重要なオーディオクラスの割合であり、横軸は時間である。

図８中の破線の曲線８１０は、「ハイライト」ラベルの割合を用いた入力ビデオの毎秒の格付けを示す。図８はまた、実線の曲線８２０により、歓声と拍手のラベルの割合を用いた入力ビデオの毎秒の格付けを示す。本発明では、これらの２つの格付け方式に対して同じハイライト選択閾値８３０を設定することによって、ビデオを要約化するための「関心のある」時間部分、すなわち、選択された閾値８３０よりも高い格付けを有する部分を得ることができる。

図９において、縦軸は精度（要約中のハイライト部分の数を要約中の部分の総数で割ったもの）であり、横軸は再現率（要約中のハイライト部分の数をビデオ全体のハイライト部分の数で割ったもの）である。図９に示すように、「ハイライト」クラスラベルの割合を格付けに用いた場合に得られる精度−再現率性能は、歓声と拍手の割合を格付けに用いた場合の精度−再現率性能よりも良好である。

ここで、より優れた精度−再現率性能を生じる「ハイライト」クラスが得られたので、ＧＭＭの各混合成分のどれが所与の訓練データセットをモデリングしているかを推測することによって、このクラスのＭＤＬ−ＧＭＭの意味を解釈することができる。この目的のために、「ハイライト」クラスの訓練データから学習したＭＤＬ−ＧＭＭを考察する。

「ハイライト」オーディオクラスのデータセットのＧＭＭの成分数に対するＭＤＬ解は４である。これら４つの混合成分のそれぞれを解釈するために、訓練データセットの全てのオーディオフレームを混合成分のうちの１つに割り当てる必要がある。次に、特定の混合成分に属する全てのフレームを聴くことによって、その混合成分がどの音のクラスをモデリングしているかを解釈することができる。

本発明では、全てのオーディオフレームを混合成分に割り当てるために、ＧＭＭが学習した特徴（ｙ_ｎ）を抽出する。入力特徴ベクトルｙ_ｎ、Ｋ成分ＧＭＭ、および学習したパラメータμが与えられた状態で、ベイズの定理を用いることによって混合成分ｋが特徴ｙ_ｎを生成した確率を求める。

次に、本発明では、事後確率（ｐ（ｋ／ｙ_ｎ，θ））が最大となる混合成分に特徴ｙ_ｎを割り当てる。混合成分のそれぞれに対応する全てのオーディオフレームを収集した後、各混合成分がモデリングしている音を聴くことによって全ての成分の意味を解釈する。

したがって、本発明では、ＭＤＬ−ＧＭＭを用いて「ハイライト」オーディオクラスの混合成分を推測する。成分のうちの１つが主に解説者の興奮した声を表し、別の成分が観衆の歓声を表すことを発見する。これは、重要な「ハイライト」クラスが観衆の歓声と解説者の興奮した声の混合であることの証拠である。また、本発明の方法は、観衆からの歓声しかない場合、それが異常事象に起因するものである可能性は低いことを示す。言い換えれば、観衆と解説者の双方が興奮している場合にのみ、ビデオセグメントはハイライトとして分類される。このような結果は直感的に満足できるものである。

スポーツビデオへの応用
上述のように、スポーツビデオの「異常」事象は通常プロセスのバックグラウンドの中で時折起こる。ゴルフの試合では、通常プロセスは静かなバックグラウンドの中の解説者の音声である。サッカーの試合では、通常プロセスは比較的騒がしいバックグラウンドの中の解説者の音声である。しかし、ビデオ全体から異常な番組部分、例えばコマーシャルを抽出するためには、後述のように、コマーシャルが番組全体のバックグラウンドの中で「異常」であるという観察に基づいて、本発明の方法をより粗いスケールで用いる。

１つの第２レベルのラベルを用いた事象の検出
本発明の方法は、バックグラウンドプロセスが比較的静止しているものと仮定するため、第１のステップは、スポーツビデオ全体から時系列をクラスタリングして、同一のバックグラウンドを有する時系列の連続部分を特定することである。

異常事象の検出
スポーツビデオ中の異常事象は、観客の反応とともに、通常数秒間だけ続く。これは、短い異常事象の抽出に第２レベルの分類ラベルを使用できないことを意味する。第２レベルの分類ラベルを用いた場合、その分解能で事象を検出するために、Ｗ_Ｌのサイズは十分に小さくなければならない。しかし、本発明における上記の信頼度の解析は、Ｗ_Ｌの値が小さいとコンテキストモデルの信頼性が低下することを示す。

したがって、少なくとも以下の２つの選択肢、すなわち、中レベルのラベルではなくフレームレベルの分類ラベルを用いた時系列の処理、または低レベルのＭＦＣＣ特徴を用いた時系列の処理がある。明らかに、フレームレベルの分類ラベルの使用は計算効率がより高い。また、上述のように、ラベルを処理することによって、異なる話者のような、バックグラウンドプロセスの無関係な変化を抑えることができる。

監視ビデオへの応用
スポーツビデオの場合、応用ドメインに関するいくらかの事前知識を用いて、拍手、歓声等の音クラスを訓練し、低レベルの特徴の時系列とは別にさらなる時系列を抽出することができる。

監視ビデオでは、異常事象を特徴付けできる音の種類が常に予測できるとは限らない。しかし、本発明の方法は、ドメイン知識を取得して「区別可能な」音のクラスを特定するための体系的な方法論を提供する。いかなる事前知識もない状態で、本発明では、そのようなシナリオにおける低レベルの特徴を用いて、ドメインを効果的に特徴付けるとともに事象を検出する。

発明の総括
図１０に示すように、本発明では、特定のジャンル、例えばスポーツビデオについて例示的なマルチメディア１０１１から特徴１００１を抽出する１０１０。本発明では、特徴を時系列データとして処理する。最適には、特徴は、例えば窓掛けおよびモデリングを用いてさらに処理されて、抽出した特徴１００１のより高レベルの特性および関係を示すことができる。

いずれの場合にも、時系列データを用いて類似性行列１００２を作成する１０２０。類似性行列は、上述のような区分化プロセス１００３を用いて階層状にクラスタリングされ１０３０、異常事象に関連する特徴１００４が特定される１０４０。

本発明では、特定した特徴について訓練データ１００５を収集し、この訓練データを用いてＭＤＬ−ＧＭＭ１００６のモデルを訓練する１０５０。ＭＤＬ−ＧＭＭを用いて、例示的なマルチメディア１０１１中のハイライトの要約を作成する１０６０。

本発明では、学習したＧＭＭの混合成分のそれぞれの意味を解釈して、「ハイライト」クラスが選択された特徴をモデリングすることを発見した。本発明では、選択された特徴を用いて、他の方法では偽陽性として分類されてしまう異常事象の数を減らす。

本発明を好適な実施形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適用および変更を行うことができることを理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入るこのような変形および変更をすべて網羅することである。

本発明によるマルチメディアコンテンツ中の異常事象を検出する方法のフロー図である。本発明による類似性行列である。クラスタリングした特徴のグラフである。類似性行列の階層表現である。図４の階層表現のクラスタリングした特徴のグラフである。図４の別の階層表現のクラスタリングした特徴のグラフである。類似性グラフおよび関連する特徴のクラスタリングである。格付けした特徴を比較するグラフである。スポーツビデオの精度−再現率グラフである。モデルを訓練してビデオを要約化する方法のフロー図である。

Claims

マルチメディア中の事象を検出する方法であって、
前記マルチメディアから特徴を抽出すること、
スライディングウインドウを用いて前記特徴をサンプリングして、複数のサンプルを得ること、
各サンプルのコンテキストモデルを作成すること、
前記モデルと、可能な各対のコンテキストモデル間の交換距離メトリックとから類似性行列を求めること、
前記類似性行列の第２一般固有ベクトルを求めること、
及び
前記第２一般固有ベクトルに応じて前記複数のサンプルを事象にクラスタリングすること
を含むマルチメディア中の事象を検出する方法。
前記特徴は、バックグラウンドプロセスの通常事象と、フォアグラウンドプロセスの異常事象とを表す
請求項１記載の方法。
前記特徴をラベルによりラベル付けすることをさらに含む
請求項１記載の方法。
前記ラベルは、離散的である
請求項３記載の方法。
前記ラベルは、連続的である
請求項３記載の方法。
前記マルチメディアは、オーディオ部分を含み、オーディオ特徴が、ＡＣ−３ストリーム、音声、及び音楽からのピッチ、振幅、メル周波数ケプストラム係数（ＭＦＣＣ）、変形離散コサイン変換（ＭＤＣＴ）係数からなる群から選択される
請求項１記載の方法。
前記マルチメディアは、ビデオ部分を含み、ビデオ特徴が、色、動き、テクスチャ、及びＭＰＥＧ−７記述子からなる群から選択されたマルチメディアである
請求項１記載の方法。
前記スライディングウインドウは、長さＷ_Ｌおよびステップ幅Ｗ_Ｓを有し、前記長さＷ_Ｌは前記コンテキストモデルの信頼度を決め、前記ステップ幅Ｗ_Ｓは前記事象の分解能を決める
請求項１記載の方法。
前記第２一般固有ベクトルは、前記事象を格付けする
請求項１記載の方法。
前記格付けされた事象に応じて前記マルチメディアを要約化することをさらに含む
請求項９記載の方法。
前記バックグラウンドプロセスは、無記憶であり、前記コンテキストモデルは、無条件の確率分布関数である
請求項２記載の方法。
前記バックグラウンドプロセスは、記憶を有し、前記コンテキストモデルは、隠れマルコフモデルである
請求項２記載の方法。
前記コンテキストモデルは、ガウス混合モデルである
請求項１記載の方法。
前記スライディングウインドウは、長さＷ_Ｌを有し、サンプルＯ_１及びＯ_２からそれぞれ作成される各対のコンテキストモデルλ_１およびλ_２の前記交換距離メトリックｄは、

である
請求項１記載の方法。