JP2006058874A - マルチメディア中の事象を検出する方法 - Google Patents
マルチメディア中の事象を検出する方法 Download PDFInfo
- Publication number
- JP2006058874A JP2006058874A JP2005218930A JP2005218930A JP2006058874A JP 2006058874 A JP2006058874 A JP 2006058874A JP 2005218930 A JP2005218930 A JP 2005218930A JP 2005218930 A JP2005218930 A JP 2005218930A JP 2006058874 A JP2006058874 A JP 2006058874A
- Authority
- JP
- Japan
- Prior art keywords
- multimedia
- features
- event
- events
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】マルチメディア中の事象を検出する方法。
【解決手段】マルチメディアから特徴を抽出する。スライディングウインドウを用いて特徴をサンプリングしてサンプルを得る。各サンプルのコンテキストモデルを作成する。このコンテキストモデルは時系列を形成する。時系列モデルと、各対のコンテキストモデル間の交換距離メトリックとから類似性行列を求める。類似性行列の第2一般固有ベクトルを求め、次に、この第2一般固有ベクトルに応じてサンプルを事象にクラスタリングする。
【選択図】図1
【解決手段】マルチメディアから特徴を抽出する。スライディングウインドウを用いて特徴をサンプリングしてサンプルを得る。各サンプルのコンテキストモデルを作成する。このコンテキストモデルは時系列を形成する。時系列モデルと、各対のコンテキストモデル間の交換距離メトリックとから類似性行列を求める。類似性行列の第2一般固有ベクトルを求め、次に、この第2一般固有ベクトルに応じてサンプルを事象にクラスタリングする。
【選択図】図1
Description
本発明は、包括的にはマルチメディアの解析に関し、特にマルチメディア中の通常事象に関連する特徴の特定に関する。
ほとんどの従来技術のマルチメディアコンテンツの要約化方法は、コンテンツ中の既知の事象パターンを検出してコンテンツの要約を提供することに重点を置いてきた。結果として、要約化に役立つ事象パターンは特定の既知のジャンルのマルチメディアに限られている。教師あり統計学習ツールを用いてパターンを抽出する方法も良く知られている。
ニュースビデオのジャンルでは、クローズドキャプションの文字、原稿(speech transcript)の解析、および話者に基づく分割による「ストーリー」の境界の検出が有用であることが示されている(Rainer著「ビデオの索引付けのための自動文字認識(Automatic text recognition for video indexing)」(Proc. ACM Multimedia, 1996)、およびHsu等著「ニュースストーリーの分割における中レベルの知覚特徴を融合するための統計的枠組み(A statistical framework for fusing mid-level perceptual features in news story segmentation)」(Proc. of ICME, 2003))。
シチュエーションコメディーのジャンルでは、シーンのモザイク表現を用いた物理的設定の検出、および視聴覚キューを用いた主な登場人物の検出が有用であることが示されている(Aner等著「モザイクに基づくショットおよびシーンのクラスタリングによるビデオの要約(Video summaries through mosaic-based shot and scene clustering)」(Proc. European Conference on Computer Vision, 2002)、およびLi著「多角的情報を用いた、コンテンツに基づくビデオの解析、索引付けおよび表現(Content-based video analysis, indexing and representation using multimodal information)」(Ph. D Thesis, University of Southern California, 2003))。
スポーツビデオの要約化の場合、方法によっては、視聴覚キューを用いてハイライトに関連するドメイン固有の事象を検出するものもある(Pan等著「ハイライトの生成のための、スポーツビデオにおけるスローモーション再生部分の検出(Detection of slow-motion replay segments in sports video for highlights generation)」(Proc. IEEE International Conf. on Acoustics, Speech and Signal Processing, 2001)、およびXu等著「サッカービデオにおける事象検出のための聴覚キーワードの作成(Creating audio keywords for event detection in soccer video)」(Proc. of ICME, 2003))。別の方法は、教師なしの方法で試合休憩部分を抽出する(Xie等著「ビデオにおける統計的時間構造の教師なしマイニング(Unsupervised mining of statistical temporal structures in video)」(Video Mining, Rosenfeld et al. Eds, Kluwer Academic Publishers, 2003))。
映画コンテンツの場合、構文構造、例えば話者が二人だけのシーンの検出、および「異常」事象、例えば爆発の検出が有用であることが示されている(Sundaram等著「視聴覚記憶モデルを用いた、映画中の計算可能なシーンとその構造の判定(Determining computable scenes in films and their structures using audio-visual memory models)」(ACM Multimedia, 2000))。
監視コンテンツの場合、ビデオからのオブジェクトの分割と追跡を用いた「異常」事象の検出が有効であることが示されている(Wu等著「安全監視のためのマルチカメラによる時空間融合およびバイアスシーケンスデータの学習(Multi-camera spatio-temporal fusion and biased sequence data learning for security surveillance)」(ACM Multimedia, 2003))。
以下の米国特許および特許出願もまた、マルチメディアにおいて特徴を抽出し事象を検出するとともにマルチメディアを要約化する方法を記載している。Divakaran他により2000年3月6日付で出願された米国特許出願第09/518,937号「マルチメディア中のデータ構造を順序付ける方法(Method for Ordering Data Structures in Multimedia)」、Divakaran他により2000年7月6日付で出願された米国特許出願第09/610,763号「マルチメディアコンテンツの低レベルの特徴からの意味的な高レベルの特徴の抽出(Extraction of Semantic and Higher Level Features from Low-Level Features of Multimedia Content)」、Divakaranに対して2004年2月24日付で発行された米国特許第6,697,523号「動き記述子およびカラー記述子を用いたビデオの要約化(Video Summarization Using Motion and Color Descriptors)」、Divakaran他により2001年4月27日付で出願された米国特許出願第09/845,009号「動き記述子を用いたビデオの要約化方法(Method for Summarizing a Video Using Motion Descriptors)」、Divakaran他により2003年6月30日付で出願された米国特許出願第10/610,467号「ビデオ中の短期間の異常事象を検出する方法(Method for Detecting Short Term Unusual Events in Videos)」、およびDivakaran他により2003年12月5日付で出願された米国特許出願第10/729,164号「隠れマルコフモデルを用いた視聴覚ハイライトの検出(Audio-visual Highlights Detection Using Hidden Markov Models)」。上記は全て参照により本明細書中に援用される。
いくつかの特定のジャンルのマルチメディアについて特定の事象を検出する方法が知られているが、一般化された検出タスクは、異なるコンテンツ提供者によって用いられる異なるマルチメディア製作様式、および他の要因によるジャンル内の差異のために依然として課題となっている。例えば、監視ビデオ中の事象は決して予測することができない。そうでなければ、監視ビデオは必要ないだろう。したがって、多くのジャンルのビデオについて事象検出のための教師ありモデルを作成することは不可能である。
もう1つの問題は、コンテンツ中の、特定の事象に関連する特定の特徴を特定することである。例えば、どのタイプの視聴覚キューがコンテンツ中で、事象検出のタスクに役立てるために利用できるかを特定することである。
明らかに、事象に関連する特徴を特定することができる方法が必要とされている。
以下は、マルチメディアの要約化と事象の検出に望まれる要件の一部である。
先ず最初に、方法は、コンテンツ適応的かつ教師なしであるべきである。第2に、方法は、事象パターンを発見するために、共通する特徴を抽出し統計的に解析する枠組みを有するべきである。次に、同一の特徴抽出プロセスを全てのジャンルのマルチメディアにフロントエンドとして用い、マルチメディアのジャンルに応じて異常の意味するものが異なる場合でも、発見したパターンに対して同一の後処理段階を実行して事象を特定することができる。方法はまた、検出事象の格付け方式を組み込み、適切な要約を判定できるようにすべきである。
本発明は、ジャンルに関係なく、マルチメディアコンテンツ中の事象の時間パターンを検出する。本発明は、異なるジャンルのマルチメディアからそのような時間パターンを取り出すために、統合的でコンテンツ適応的な教師なし学習の枠組みを用いる。
本方法は、パターン検出の問題を時系列のクラスタリング問題として定式化する。視聴覚特徴のシーケンスをマルチメディアから抽出する。特徴を時系列として処理する。時系列データを、窓掛けプロセスを用いてモデルで表現する。モデリングした時系列を用いて類似性行列(affinity matrix)を作成する。固有ベクトル解析および固有ベクトルのクラスタリングにより異常事象を検出する。
検出された孤立点(outliers)のそれぞれについて、確率に関して信頼度(confidence measure)を定める。ブートストラップおよびカーネル密度推定を用いて学習パラメータと信頼度の間の関係を確立する。それによって、本発明は、あらゆるジャンルのマルチメディアについて学習パラメータを選択するための体系的な方法を可能にする。さらに、本方法は、異常事象に関連する可能性が最も高い特定の特徴を特定する。
本発明は、マルチメディア(例えばビデオ)中のフォアグラウンド(前景)の「異常」事象が「通常」事象のバックグラウンド(背景)の中で散発するという観察に基づく。異常事象のいくつかの例として次のものが挙げられる。スポーツ番組では、番組のオーディオ部分のほとんどを試合解説が占める。しかし、時として、比較的稀な得点事象に続いて圧倒された観客の反応、例えば、歓声、拍手、およびウェーブが沸き上がる。シチュエーションコメディー番組では、通常、日常的な対話のバックグラウンドの中でコミカルな事象に続いて笑いが沸き上がる。監視ビデオでは、ほとんどが無音のまたは静止したバックグラウンドの中で不審な事象に続いて動きまたは大きな音が突如として発生する。
このことから、本発明では、マルチメディア中の異常事象を検出するという問題を「孤立点」を検出する問題として定式化することにした。本発明では、ほとんどが静止したバックグラウンドプロセスを、バックグラウンドプロセスがわずかな期間しか静止しておらず、経時的に変化する可能性があっても、マルチメディアから抽出した視聴覚特徴に関して統計的にモデリングする。これは、バックグラウンドのモデリングが時間的に展開するコンテンツ全体を通して適応的に行われることを意味する。これはまた、モデリングが1度に1つのバックグラウンドプロセスを処理すれば十分に孤立点を検出できることを意味する。
マルチメディア中の支配的なすなわち「通常」クラスの事象はC1で表すことができる。これらの通常事象は、マルチメディア中のバックグラウンドプロセスとして考えることができる。マルチメディア中の「異常」クラスの事象はC2で表すことができる。これらの異常事象は、フォアグラウンドプロセスとして考えることができる。
時間的なマルチメディア中の2つのクラスの事象(C1およびC2)について抽出した特徴シーケンスが
に対応する場合、異常事象を検出する問題は、全ての通常のバックグラウンド事象C1の中から時折の異常なフォアグラウンド事象C2と、その実現の対応する発生時刻とを見つける問題となる。
初めに、クラスC1の通常事象の統計値を、少なくとも稀な異常事象の期間に対して静止しているものと仮定する。しかし、クラスC2の異常事象に関するそのような仮定はない。クラスC2の事象は、様々なランダムプロセスの集合とすることさえできる。唯一の要件は、異常事象C2の発生回数が、支配的なクラスの通常事象C1の遥かに多い発生回数に比べて比較的少ないことである。
この定式化は、より一般的な問題、すなわち1つの極めて支配的なプロセスが必ずしも存在しない時系列のクラスタリングの特別な場合であることに留意されたい。
本発明では、ビデオから抽出した特徴シーケンスを時系列として扱い、この時系列の時間分割を行って、抽出した特徴から遷移点および孤立点を検出する。
類似性行列の固有ベクトル解析を用いた分割
固有ベクトル解析を用いた分割が静止画について記載されている(Shi等著「正規化されたカットおよび画像分割(Normalized cuts and image segmentation)」(Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 1997))。この分割は、グループ分けのグラフ理論的な定式化に関する。任意の特徴空間Vにおける点の集合を重み付き無向グラフとして表す。ここで、グラフの各ノードは特徴空間における1点であり、各対のノード間に辺が形成される。辺にかかる重みは、対のノードの類似度を表す。ノードiおよびj間の類似度は、辺にかかる重みw(i,j)で表すことができる。
固有ベクトル解析を用いた分割が静止画について記載されている(Shi等著「正規化されたカットおよび画像分割(Normalized cuts and image segmentation)」(Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 1997))。この分割は、グループ分けのグラフ理論的な定式化に関する。任意の特徴空間Vにおける点の集合を重み付き無向グラフとして表す。ここで、グラフの各ノードは特徴空間における1点であり、各対のノード間に辺が形成される。辺にかかる重みは、対のノードの類似度を表す。ノードiおよびj間の類似度は、辺にかかる重みw(i,j)で表すことができる。
グラフの分割基準を理解するために、グラフを2つのクラスタAおよびBに分割し、A∪B=Vとなるようにすることを考える。ここで、Vは全特徴空間である。すると、次式が成り立つ。
Shi等は、Ncutを最小化することによって、クラスタ間の類似度がいかに最小化され、個々のクラスタ内の関連が最大化されるかを記載する。Shi等はまた、yi∈{−1,b}という条件で、
であると記載している。ここで、WはN×Nのサイズの対称類似性行列であり、この類似性行列は、ノードiおよびj間の類似度であるw(i,j)をエントリとして含み、Dはd(i,i)=Σjw(i,j)である対角行列であり、yTはベクトルyの転置を表す。パラメータxおよびyはクラスタ指示ベクトルである。すなわち、y(i)が−1である場合、特徴点「i」はクラスタAに属し、そうでない場合、この特徴点はクラスタBに属す。上の式の解は、yが実数値をとるように緩和される場合に、以下の一般固有値方程式の解と同じであることも知られている。
ここで、λは固有ベクトルyの対応する固有値である。
この一般固有値方程式は、先ず、z=D1/2yを代入して次式を得ることにより、この方程式を標準固有値方程式に変換することによって解かれる。
第1固有ベクトルz0=D1/21(→)は、この固有値方程式の、固有値が0に等しい自明の(trivial)解であることが検証できる。なお、1(→)は、1の上に→があることを表す。
しかし、この固有値方程式の最も小さな非自明の解である第2一般固有ベクトルz1は、2つのクラスタについてNcutを最適化する望ましい分割を行う。
何らかの未知の密度関数(f)およびカーネル(K)からd次元のベクトルのn個のランダムサンプルx1、x2、...、xnが与えられると、真の密度の推定値を次のように得ることができる。
ここで、hは、選択されたカーネル関数のスケールを決めるバンド幅パラメータである。平均二乗誤差(MSE)を密度推定効率の測度として用いる場合、推定値のバイアスと偏差のトレードオフは次のようになる。
バイアスはh2に比例し、偏差はn−1h−dに比例する(Wand等著「カーネル平滑化(Kernel Smoothing)」(London, Chapman & Hall, 1995))。したがって、固定バンド幅の推定量について、最適なトレードオフを達成するバンド幅パラメータhの値を選択する。本発明では、Sheather等著「カーネル密度推定のための信頼性の高いデータに基づくバンド幅選択方法(A reliable data-based bandwidth selection method for kernel density estimation)」(J. R. Statist. Society, 1991)によって概説されるデータ駆動型のバンド幅選択プロセスを推定に用いる。
異常事象の検出
図1に示すように、本発明は、サンプルの時系列からバックグラウンドの通常事象C1の中でのフォアグラウンドの異常事象C2の発生回数を検出する方法100を提供する。
図1に示すように、本発明は、サンプルの時系列からバックグラウンドの通常事象C1の中でのフォアグラウンドの異常事象C2の発生回数を検出する方法100を提供する。
予備ステップにおいて、マルチメディア101から特徴(...A....Z...)102を抽出する105。抽出した特徴102を、離散的なラベルの集合Sを用いてラベル付けする、すなわち、C1およびC2のアルファベットは集合
S={A,B,C,D,E,...,X,Y,Z}
である。
S={A,B,C,D,E,...,X,Y,Z}
である。
代替的に、ラベルは連続的であってもよい。特徴102は、本発明における事象検出の目的で、基礎となるマルチメディアコンテンツ101を定義する時系列として扱われる。
複数の同期された時系列を用いることもでき、例えば、1つの系列が音量のみを示し、別の系列が音声、音楽、無音、および非音声を区別することに留意すべきである。音声はさらに、女性または男性の音声に分類することができる。音の分類は、オーディオ信号の混合、例えば同時の歓声と音声、または同時の拍手と音声、または同時の拍手と歓声と興奮した高ピッチの大声とすることもできる。これらの時系列は、ビデオ部分の他の時系列とともに用いることができる。視覚的な時系列は、支配色および動きレベルを特徴として含み得る。
マルチメディアのオーディオ部分に関して、オーディオ特徴は、ピッチ、振幅、メル周波数ケプストラム係数(MFCC)、音声、音楽、または音声と音楽を含むことができる。ビデオ部分の場合、特徴は色、動き、テクスチャ等を含むことができる。ビデオが圧縮されている場合、特徴はMPEG−7記述子を含むことができる。利点として、これらの特徴は、ほぼあらゆるジャンルのマルチメディアに存在する。
特徴102の時系列は、複数(N個)の「サンプル」113としてサンプリングされる110。サンプリングは、時系列データに適用される長さWLのスライディングウインドウ111およびステップ幅WS112を用いる。例えば、ウインドウは8秒であり、各ステップは、ウインドウを4秒だけ前方移動させる。これらのパラメータは、ラベル、フレーム、または時間に関して指定することができる。本発明の好ましい実施形態において、サンプリングは均一である。各ステップに関して、ウインドウ中のサンプルは、マルチメディアの「コンテキスト」を定義する。
コンテキストモデル121が、N個のサンプル113すなわち「コンテキスト」のそれぞれに作成される120。モデリングは、離散的または連続的な統計関数を用いることができる。当然ながらモデル121も時系列である。
コンテキストモデル121と、全ての可能な対のコンテキストモデル間で測定される交換(commutative)距離メトリックd122とを用いて、時系列全体についてN×Nの対称類似性行列W131を求める130。類似性行列131は、各ノードがモデル121のうちの1つであり、2つのノードをつなぐ辺にかかる重みがexp(−d/σ2)であるグラフを表す。ここで、dは所定の距離メトリックであり、パラメータσは類似度が低下する速さを制御する。
図2は、画素強度が距離dに対応する例示的な類似性行列200を示す。すなわち、明るい画素は対のモデル間の距離が小さいことを示し、暗いピクセルは距離が大きいことを示す。軸は基本的に時間を表す。明らかに、対角線沿いの距離値は0である。
類似性行列131の第2一般固有ベクトルz1141を求める140。次に、この第2一般固有ベクトルを用いて、事象151に関連する距離をクラスタリングする150。「孤立点」である事象は異常とみなされ、これらを格付けすることができる。固有ベクトルは、例えば特異値分解または主成分分析を用いた類似性行列の分解によって求めることができる。
格付けした事象151は、マルチメディア101のコンテンツを摘要すなわち要約161として要約化する160ために用いることができる。
類似性行列
図2は、3時間のゴルフビデオの類似性行列200を示す。本発明では、2状態HMMを用いて、120の分類ラベル(WL)の各時系列を或るステップサイズ(WS)でモデリングする120。類似性行列200は、上記で定義した対となる尤度距離メトリックを用いて作成される。類似性行列は、大部分が明るいバックグラウンドに対して暗い領域を示すことに留意されたい。暗い「縞」、すなわち孤立点は、コマーシャル201の発生時刻であることが検証される。
図2は、3時間のゴルフビデオの類似性行列200を示す。本発明では、2状態HMMを用いて、120の分類ラベル(WL)の各時系列を或るステップサイズ(WS)でモデリングする120。類似性行列200は、上記で定義した対となる尤度距離メトリックを用いて作成される。類似性行列は、大部分が明るいバックグラウンドに対して暗い領域を示すことに留意されたい。暗い「縞」、すなわち孤立点は、コマーシャル201の発生時刻であることが検証される。
検出される孤立点は、ビデオ全体を2つのクラスタ、すなわちバックグラウンドの番組または通常事象を表す部分と、フォアグラウンドのコマーシャルまたは異常事象を表す部分とに粗く分割する。このような粗い分割は、本発明において音量のような低レベルの特徴ではなく中レベルの特徴、例えば音声と非音声の時系列を用いるために可能である。低レベルのオーディオ特徴を使用した場合、番組部分を非番組部分と区別することに関係のない、いくつかの微小な変化を引き出す。例えば、低レベルの特徴は、コンテンツ中の2人の異なる話者を区別することができるのに対し、より一般的な音声ラベルはこれらの特徴を1人の話者としてグループ分けする。
本発明による階層的クラスタリングを以下で説明する。階層的クラスタリングは微小な変化を排除する。
問題
本発明による方法100では、以下の問題、すなわち、コンテキストの統計モデル121、2つのパラメータWLおよびWSの選択、および抽出すべき特徴が検討される。
本発明による方法100では、以下の問題、すなわち、コンテキストの統計モデル121、2つのパラメータWLおよびWSの選択、および抽出すべき特徴が検討される。
無記憶バックグラウンドプロセスの場合のコンテキストモデルとしては単純な無条件の確率分布関数(PDF)で十分である。しかし、バックグラウンドプロセスがいくらかの記憶を有する場合、選択されたモデルは、バックグラウンドプロセスを説明しなければならないだろう。例えば、隠れマルコフモデルは、バックグラウンドプロセスの一次近似を与えることができる。
2つのパラメータ(WLおよびWS)の選択は、或る特定の事象が「異常」であるかどうかを示す信頼度によって判定することができる。サンプリングウインドウの長さWLは、ウインドウ内のコンテキストについて統計モデルの信頼度を決める。ステップ幅WSは、異常事象が検出される分解能を決める。
検出された異常事象に対する信頼度
本発明の方法100では、先ず、長さWLのウインドウ内のサンプルからバックグラウンドプロセスのパラメータを推定する。次に、或る特定のモデルと他のコンテキストモデルとの差がどれほどであるかを測定する。この差は、ウインドウWL内のC2からのサンプルによって、あるいはバックグラウンドモデルの推定値の偏差によって生じる。2つのコンテキストモデル間の差が、推定値自体の偏差だけ「許容差よりも実質的に大きい」場合、本発明ではその偏差が、異常事象C2からのサンプルによるコンテキストのうちの1つの「破壊(corruption)」によるものであると「ほぼ確信(confident)」する。
本発明の方法100では、先ず、長さWLのウインドウ内のサンプルからバックグラウンドプロセスのパラメータを推定する。次に、或る特定のモデルと他のコンテキストモデルとの差がどれほどであるかを測定する。この差は、ウインドウWL内のC2からのサンプルによって、あるいはバックグラウンドモデルの推定値の偏差によって生じる。2つのコンテキストモデル間の差が、推定値自体の偏差だけ「許容差よりも実質的に大きい」場合、本発明ではその偏差が、異常事象C2からのサンプルによるコンテキストのうちの1つの「破壊(corruption)」によるものであると「ほぼ確信(confident)」する。
以下では、「許容差よりも実質的に大きい」こと、および「ほぼ確信」することをウインドウ長WLに関して定量化する。
2項および多項PDFモデルの信頼度
図1に示すように、2項または多項PDFによってモデリングされるバックグラウンドプロセスの場合に、特徴102は離散的なラベルS={A,B,C,D,E,...}を有する。長さがWLサンプルのウインドウにコンテキストが与えられると、相対度数による確率の定義を用いてS中のラベルのそれぞれの確率を推定することができる。
図1に示すように、2項または多項PDFによってモデリングされるバックグラウンドプロセスの場合に、特徴102は離散的なラベルS={A,B,C,D,E,...}を有する。長さがWLサンプルのウインドウにコンテキストが与えられると、相対度数による確率の定義を用いてS中のラベルのそれぞれの確率を推定することができる。
ラベルAの確率の不偏推定量は(^)pAで表される。この値(^)pAは、WL≧30ラベルである場合に平均pAおよび偏差
を有するガウスランダム変数によって近似値を求めることができる2項ランダム変数である。なお、(^)pは、pの上に^があることを表す。
上述のように、本発明は、コンテキストモデルの2つの推定値の差を測定するランダム変数dの信頼区間を知ることに関心がある。数学的に取り扱い易くするために、カルバック・ライブラー(Kullback-Leibler)距離のような厳密な測度の単調な近似でしかないが、2つのPDF間のユークリッド距離メトリックを考慮する。
ここで、(^)pi,1および(^)pi,2は、長さWLの2つの異なるコンテキストからのi番目のラベルの確率の推定値を表す。推定値(^)pi,1および(^)pi,2はいずれもガウスランダム変数であるので、dは、自由度がnであるχ2ランダム変数であり、nは集合Sの濃度である。
ここで、実質的な確率
を用いて、{(^)d}のあらゆる推定値が閉区間[L,U]にあると仮定する。言い換えれば、2つのコンテキストモデル推定値の、この区間外にある差が、一方のコンテキストにおける異常事象C2の発生により生じたものであるとN%確信することができる。また、dの確率密度関数を用いて全ての孤立点を格付けすることができる。
検証
上記の解析を検証するために、以下のシミュレーションを行うことができる。本発明では、既知の2項または多項PDFから、上記で定義したようなバックグラウンドプロセスであると仮定される長さWLの2つのコンテキストを生成した。これらの2つのコンテキストから推定したモデルはそれぞれM1およびM2で表される。本発明では次に、「ブートストラップ」およびカーネル密度推定を用いて、dのPDFの解析を下記のように検証する。
1.M1およびM2からWLのラベルを生成する。
2.生成されたデータに基づいてモデルパラメータ(^)pi,1および(^)pi,2を再推定し、2つのコンテキストモデルを比較するための交換距離メトリック(d)を求める。
3.ステップ1および2をN回繰り返す。
4.カーネル密度推定からdのPDF、(^)pi,1および(^)pi,2を得る。
上記の解析を検証するために、以下のシミュレーションを行うことができる。本発明では、既知の2項または多項PDFから、上記で定義したようなバックグラウンドプロセスであると仮定される長さWLの2つのコンテキストを生成した。これらの2つのコンテキストから推定したモデルはそれぞれM1およびM2で表される。本発明では次に、「ブートストラップ」およびカーネル密度推定を用いて、dのPDFの解析を下記のように検証する。
1.M1およびM2からWLのラベルを生成する。
2.生成されたデータに基づいてモデルパラメータ(^)pi,1および(^)pi,2を再推定し、2つのコンテキストモデルを比較するための交換距離メトリック(d)を求める。
3.ステップ1および2をN回繰り返す。
4.カーネル密度推定からdのPDF、(^)pi,1および(^)pi,2を得る。
特徴の特定
上記のクラスタリング技法は、ドメイン知識を体系的に得るためにも用いることができる。これにより、特徴の選択が場当たり的ではなく体系的になる。例えば、本発明では、スポーツビデオのオーディオ部分を用いる。本発明では上述のように、オーディオ部分からスペクトルまたはケプストラム特徴を抽出し、これらの特徴を時系列として処理する。
上記のクラスタリング技法は、ドメイン知識を体系的に得るためにも用いることができる。これにより、特徴の選択が場当たり的ではなく体系的になる。例えば、本発明では、スポーツビデオのオーディオ部分を用いる。本発明では上述のように、オーディオ部分からスペクトルまたはケプストラム特徴を抽出し、これらの特徴を時系列として処理する。
時系列クラスタリングの枠組みを用いて、本発明では、選択された特徴について区別可能なクラスタを得る。すなわち、各クラスタは、特定のクラスの音、例えば歓声、音声、興奮した声と歓声、歓声と拍手、または単に拍手のみである。次に本発明では、個々のクラスタを検討することによって、異常事象に対応する特徴中の不変パターンを特定し、特定した特徴に基づいて教師ありの統計学習モデルを作成する。例えば、本発明では、「興奮した声と歓声」のクラスがスポーツビデオにおける異常事象の指標として、単なる「歓声」のクラスよりも優れていることを実証する。したがって、訓練データに「興奮した声と歓声」のクラスを選択することによって、より良好な結果を得ることができる。
図3は、このような枠組みを特徴のクラスの選択に用いることができる方法の一例を示す。縦軸はクラスタメンバーシップの指標であり、横軸は対応する時系列サンプルの発生時刻を示す。
例示的なスポーツビデオの場合の類似性行列の第2一般固有ベクトルは、拍手を含むビデオ部分の発生時刻における「拍手」の孤立点301を示す。さらに、明らかに異なる話者からの音声特徴302に対応する各部分に対して別個のクラスタがある。本発明では、これらのクラスタを、異常事象を検出する目的とは無関係なものとみなす。したがって、クラスタ302は、異なる話者から収集した訓練データを用いて音声ガウス混合モデル(GMM)を訓練することによって、単一のラベル下にグループ分けされるべきである。
このような解析により、異なる特徴クラスタ間の相互作用が引き出され、関連性のある、あるいは異常事象の検出に役立つ特徴の選択が可能になる。
標的とする特徴クラスを選択した後、本発明では、GMMを用いて、特徴の分布をパラメータ化することができる。本発明では、GMMの混合成分数を求める一方法である最小記述長ガウス混合モデル(MDL−GMM)の背景にある理論を記述する。
最小記述長(Minimum Descriptor Length)GMM
Rissanenの目的関数を最小化することによってMDL−GMMのパラメータを得る。この目的関数は、モデルの複雑度と、サンプルに対するモデルの適合度とのトレードオフである。オーディオ分類に基づく異常事象の検出の場合、MDL−GMMは、任意数の特徴、すなわちオーディオ混合成分を用いるGMMよりも性能的に優れている。したがって、本発明では、MDL−GMMを用いて異常オーディオクラスの特徴の分布をモデリングする。
Rissanenの目的関数を最小化することによってMDL−GMMのパラメータを得る。この目的関数は、モデルの複雑度と、サンプルに対するモデルの適合度とのトレードオフである。オーディオ分類に基づく異常事象の検出の場合、MDL−GMMは、任意数の特徴、すなわちオーディオ混合成分を用いるGMMよりも性能的に優れている。したがって、本発明では、MDL−GMMを用いて異常オーディオクラスの特徴の分布をモデリングする。
最適数の混合成分およびモデルパラメータを得るための目的関数は次のように導出される。Yは、ガウス混合分布を用いてモデリングすべきM次元のランダムベクトルとする。Kはガウス混合数を示すものとする。本発明では、π、μ、およびRという表記を用いて、混合の係数、平均および偏差のパラメータセット{πk}、{μk}、および{Rk}(k=1〜K)をそれぞれ示す。完全なパラメータセットはKによって与えられ、θ=(π,μ,R)である。シーケンスY={Yn}N n=1全体の確率の対数は次のように表される。
目的は、パラメータKおよびθ∈Ω(K)を推定することである。最尤(ML)推定値は次式によって与えられる。
最小化に基づくKの推定値は次のように表される。
ここで、Lは、パラメータθの指定に必要な連続値の実数の数である。この用途では次のように表される。
GMMモデルおよびHMMモデルの信頼度
無記憶バックグラウンドプロセスのサンプルが離散的なラベルではなく連続的なラベルである場合、連続的なラベルを用いるとともに、ガウス混合モデル(GMM)を用いてプロセスのPDFをモデリングすることができる。プロセスが一次記憶を有する場合、その一次PDFを隠れマルコフモデル(HMM)を用いてモデリングすることができる。
無記憶バックグラウンドプロセスのサンプルが離散的なラベルではなく連続的なラベルである場合、連続的なラベルを用いるとともに、ガウス混合モデル(GMM)を用いてプロセスのPDFをモデリングすることができる。プロセスが一次記憶を有する場合、その一次PDFを隠れマルコフモデル(HMM)を用いてモデリングすることができる。
λ=(A,B,π)は、HMMとGMMの両方のモデルパラメータを表すものとする。ここで、Aは状態遷移行列であり、Bはサンプルラベルの確率分布であり、πは初期状態分布である。GMMの場合、Aおよびπは1であり、Bは分布の混合モデルを表す。連続的なサンプルを有するHMMの場合、Bはそれぞれの状態における混合モデルである。観測値として離散的なラベルを有するHMMの場合、Bはそれぞれの状態における多項PDFである。
2つのコンテキストモデル121が異なるパラメータを有する場合でも、モデルは統計的に等価であることができる。したがって、以下の交換距離メトリックdを用いて、サンプルシーケンスまたはサンプルO1およびO2からそれぞれ作成した2つのコンテキストモデルλ1およびλ2を比較する。
距離メトリックの初めの2つの項は、推定モデルを与えられた場合の訓練データの尤度を測定する。後の2つの交差項は、λ1でOを観測する尤度とその逆の尤度を測定する。2つのモデルが異なる場合、交差項は初めの2つの項よりも実質的に小さい。定義された距離メトリックdは、そのPDFを求めるのに役立つことのできる2項および多項モデルの場合のようには、同様の解析に役立たない。したがって本発明では、ブートストラップを適用して距離メトリックのいくつかの観測値を得るとともに、カーネル密度推定を用いて定義された距離メトリックのPDFを得る。類似性グラフの図では、距離dを色強度として示す。すなわち、暗い色は大きな距離を示し、対角線沿い等における白は距離0を示す。
WLが例えば100フレームから600フレームに増加するにつれて、PDFの台は小さくなることに留意されたい。訓練データの量が増え、よって正規化された対数尤度差の分散が小さくなるにつれて、同一バックグラウンドプロセスの2つのコンテキストモデルの信頼度は増加する。したがって、別のプロセス、例えばフォアグラウンドプロセス(C2)からの観測値の破壊によって生じるあらゆる対数尤度差の値を定量化することが可能である。同様の解析により、同一の観測値が、HMMをコンテキストモデルとして用いる場合にも当てはまることが示される。
信頼度を用いた孤立点の格付け
上記では、本発明の方法によって用いられる、コンテキストモデル、例えば無記憶モデルおよびHMMの特定の距離メトリックのPDFの推定を説明している。次に、C1およびC2のサンプルの所与の時系列について、コンテキストモデルの選択されたウインドウ長WLの類似性行列を求める。
上記では、本発明の方法によって用いられる、コンテキストモデル、例えば無記憶モデルおよびHMMの特定の距離メトリックのPDFの推定を説明している。次に、C1およびC2のサンプルの所与の時系列について、コンテキストモデルの選択されたウインドウ長WLの類似性行列を求める。
本発明では、第2一般固有ベクトルz1を用いて通常点(inliers)および孤立点を検出する。次に、孤立点コンテキストモデルの信頼度メトリックMjを次のように求める。
ここで、Pd,iは通常点コンテキストiのサンプルを用いた距離メトリックの密度推定である。OおよびIの値はそれぞれ孤立点(異常事象)および通常点(通常事象)の集合を表す。記号#1は通常点の集合の濃度を表す。
ブートストラップおよびカーネル密度推定により、あるいは2項または多項の場合と同様の解析により得られた密度推定が有限台を有する場合、通常点とは全く異なり、Pd,i(d≦d(Mi,Mj))dとして格付けすることができない孤立点のいくつかは1である。このような場合、距離自体を用いて孤立点を格付けすることができる。
格付けの順序は、累積分布関数(CDF)が単調増加関数であるため、Pd(d≦d(Mi,Mj))の代わりにd(Mi,Mj)を使用することには影響されない。しかし、d(Mi,Mj)を使用した場合、d(Mi,Mj)の意味はバックグラウンドに依存するため、格付けリストを融合させることはより難しくなる可能性がある。
特徴の特定
異常事象の検出に有用な特徴を特定するために、本発明では、類似性行列に対して正規化されたカットを用いることによって階層的クラスタリングを行う。類似性行列は、グラフ中の各対のノード間の類似度の表現であり、各ノードはコンテキストモデルを表し、グラフ中の任意の2つのノードをつなぐ辺は、ノード間の類似度によって重み付けされる。正規化されたカットは、このグラフを区分化するための、クラスタ内の類似度を維持しながらクラスタの非類似度を強調する最適解を提供する。
異常事象の検出に有用な特徴を特定するために、本発明では、類似性行列に対して正規化されたカットを用いることによって階層的クラスタリングを行う。類似性行列は、グラフ中の各対のノード間の類似度の表現であり、各ノードはコンテキストモデルを表し、グラフ中の任意の2つのノードをつなぐ辺は、ノード間の類似度によって重み付けされる。正規化されたカットは、このグラフを区分化するための、クラスタ内の類似度を維持しながらクラスタの非類似度を強調する最適解を提供する。
図4に示すように、本発明では、類似性行列410を以下のように区分化する。先ず、正規化されたカットの解(第2一般固有ベクトル)を用いて類似性行列を2つの個々のクラスタ411および412に区分化する。最初の類似性行列(親類似性行列)は各対のノード間の類似度を表すため、親類似性行列から対応する要素を選ぶことによって、親類似性行列410の2つの特定したクラスタについて類似性行列421および422を作成することができる。例えば、特定の区分の類似性行列を作成するために、親類似性行列においてこの区分の各クラスタメンバに対応する行を選び、区分のこのメンバおよび他のクラスタメンバにより、このメンバの類似度のみを構成する類似性行列を作成する。
図4は、日本の野球の試合の15分間のビデオについて類似性行列を階層表現400で示す。この図において、ルートノード410はビデオ全体の類似性行列である。区分411および412におけるほぼ均一な明るい画素強度に注目する。2つの子ノード421および422は、これらの区分を用いてルートノード410から抽出した類似性行列である。これらのノードは、ほぼ一定のバックグラウンドプロセスを有するビデオ部分、例えば野球試合の対戦(playing)を表し、異常事象検出の対象となる。類似性行列の残りの部分における縞状の暗い強度はおそらく、イニング間の休憩中のコマーシャルに関連するため、異常事象を検出する目的では無視すべきである。
次に、結果として得られる各子ノードに関連する類似性グラフ421および422に上述のようなスペクトルクラスタリングを再び適用して、次世代の類似性行列431を得ることができる。
このプロセスにより、図5に示すような特徴が明らかになる。図5において、縦軸はクラスタインジケータ値であり、横軸は時間である。グラフ510は親類似性行列410を表し、グラフ520および530は、親類似性行列410からのクラスタ411および412それぞれの区分を表す。各グラフにおいて、事象は、通常事象のクラスタ(511、521、および531)と異常事象のクラスタ(512、522、および532)にグループ分けすることができる。
グラフ520中の異常事象のクラスタ522は、スポーツビデオの「ハイライト」を表すことが分かる。上述のように、これらの事象の顕著な特徴の特定により、特定のジャンルのマルチメディアにおいて異常事象を検出するための訓練データとして用いるのに十分な情報が得られる。本発明では、最小記述長原理を用いてガウス混合モデルを訓練し、「ハイライト」クラスの低レベルのケプストラル特徴の分布をモデリングする。次に、本発明では、上記のGMMを用いて、スポーツビデオを「ハイライト」部分と「非ハイライト」部分に分類することができる。
図6は、ここでは日本の野球の試合である第2の例について、ハイライトの瞬間を孤立点として引き出すことにおけるこの方式の成功を示す。グラフ610は親類似性行列を表し、グラフ620および630は親類似性行列からの2つのクラスタそれぞれの区分を表す。各グラフにおいて、事象は、通常事象のクラスタ(611、621、および631)と異常事象のクラスタ(612、622、および632)にグループ分けされる。グラフ620における異常事象のクラスタ622は野球試合の「ハイライト」を表し、グラフ630における事象のクラスタ632は解説者が無言である時系列を表すことが分かる。
図7は、サッカー試合のクリップである第3の例における孤立点検出の結果である。親類似性行列710はグラフ720によって表される。グラフ720において、事象は、通常事象のクラスタ721と異常事象のクラスタ722にグループ分けされる。グラフ720中の異常事象のクラスタ722は、サッカー試合の「ハイライト」を表すことが分かる。
図8に示すように、本発明では、12秒間のウインドウ(ステップ毎に1秒ずつ時間を前方スライドする)におけるこれらのオーディオ特徴の割合を用いて、入力スポーツビデオを1秒毎に格付けする。図8において、縦軸は、入力ビデオにおける1秒間の部分の「関心の高さ(interesting-ness)」の測定に用いられる重要なオーディオクラスの割合であり、横軸は時間である。
図8中の破線の曲線810は、「ハイライト」ラベルの割合を用いた入力ビデオの毎秒の格付けを示す。図8はまた、実線の曲線820により、歓声と拍手のラベルの割合を用いた入力ビデオの毎秒の格付けを示す。本発明では、これらの2つの格付け方式に対して同じハイライト選択閾値830を設定することによって、ビデオを要約化するための「関心のある」時間部分、すなわち、選択された閾値830よりも高い格付けを有する部分を得ることができる。
図9において、縦軸は精度(要約中のハイライト部分の数を要約中の部分の総数で割ったもの)であり、横軸は再現率(要約中のハイライト部分の数をビデオ全体のハイライト部分の数で割ったもの)である。図9に示すように、「ハイライト」クラスラベルの割合を格付けに用いた場合に得られる精度−再現率性能は、歓声と拍手の割合を格付けに用いた場合の精度−再現率性能よりも良好である。
ここで、より優れた精度−再現率性能を生じる「ハイライト」クラスが得られたので、GMMの各混合成分のどれが所与の訓練データセットをモデリングしているかを推測することによって、このクラスのMDL−GMMの意味を解釈することができる。この目的のために、「ハイライト」クラスの訓練データから学習したMDL−GMMを考察する。
「ハイライト」オーディオクラスのデータセットのGMMの成分数に対するMDL解は4である。これら4つの混合成分のそれぞれを解釈するために、訓練データセットの全てのオーディオフレームを混合成分のうちの1つに割り当てる必要がある。次に、特定の混合成分に属する全てのフレームを聴くことによって、その混合成分がどの音のクラスをモデリングしているかを解釈することができる。
本発明では、全てのオーディオフレームを混合成分に割り当てるために、GMMが学習した特徴(yn)を抽出する。入力特徴ベクトルyn、K成分GMM、および学習したパラメータμが与えられた状態で、ベイズの定理を用いることによって混合成分kが特徴ynを生成した確率を求める。
次に、本発明では、事後確率(p(k/yn,θ))が最大となる混合成分に特徴ynを割り当てる。混合成分のそれぞれに対応する全てのオーディオフレームを収集した後、各混合成分がモデリングしている音を聴くことによって全ての成分の意味を解釈する。
したがって、本発明では、MDL−GMMを用いて「ハイライト」オーディオクラスの混合成分を推測する。成分のうちの1つが主に解説者の興奮した声を表し、別の成分が観衆の歓声を表すことを発見する。これは、重要な「ハイライト」クラスが観衆の歓声と解説者の興奮した声の混合であることの証拠である。また、本発明の方法は、観衆からの歓声しかない場合、それが異常事象に起因するものである可能性は低いことを示す。言い換えれば、観衆と解説者の双方が興奮している場合にのみ、ビデオセグメントはハイライトとして分類される。このような結果は直感的に満足できるものである。
スポーツビデオへの応用
上述のように、スポーツビデオの「異常」事象は通常プロセスのバックグラウンドの中で時折起こる。ゴルフの試合では、通常プロセスは静かなバックグラウンドの中の解説者の音声である。サッカーの試合では、通常プロセスは比較的騒がしいバックグラウンドの中の解説者の音声である。しかし、ビデオ全体から異常な番組部分、例えばコマーシャルを抽出するためには、後述のように、コマーシャルが番組全体のバックグラウンドの中で「異常」であるという観察に基づいて、本発明の方法をより粗いスケールで用いる。
上述のように、スポーツビデオの「異常」事象は通常プロセスのバックグラウンドの中で時折起こる。ゴルフの試合では、通常プロセスは静かなバックグラウンドの中の解説者の音声である。サッカーの試合では、通常プロセスは比較的騒がしいバックグラウンドの中の解説者の音声である。しかし、ビデオ全体から異常な番組部分、例えばコマーシャルを抽出するためには、後述のように、コマーシャルが番組全体のバックグラウンドの中で「異常」であるという観察に基づいて、本発明の方法をより粗いスケールで用いる。
1つの第2レベルのラベルを用いた事象の検出
本発明の方法は、バックグラウンドプロセスが比較的静止しているものと仮定するため、第1のステップは、スポーツビデオ全体から時系列をクラスタリングして、同一のバックグラウンドを有する時系列の連続部分を特定することである。
本発明の方法は、バックグラウンドプロセスが比較的静止しているものと仮定するため、第1のステップは、スポーツビデオ全体から時系列をクラスタリングして、同一のバックグラウンドを有する時系列の連続部分を特定することである。
異常事象の検出
スポーツビデオ中の異常事象は、観客の反応とともに、通常数秒間だけ続く。これは、短い異常事象の抽出に第2レベルの分類ラベルを使用できないことを意味する。第2レベルの分類ラベルを用いた場合、その分解能で事象を検出するために、WLのサイズは十分に小さくなければならない。しかし、本発明における上記の信頼度の解析は、WLの値が小さいとコンテキストモデルの信頼性が低下することを示す。
スポーツビデオ中の異常事象は、観客の反応とともに、通常数秒間だけ続く。これは、短い異常事象の抽出に第2レベルの分類ラベルを使用できないことを意味する。第2レベルの分類ラベルを用いた場合、その分解能で事象を検出するために、WLのサイズは十分に小さくなければならない。しかし、本発明における上記の信頼度の解析は、WLの値が小さいとコンテキストモデルの信頼性が低下することを示す。
したがって、少なくとも以下の2つの選択肢、すなわち、中レベルのラベルではなくフレームレベルの分類ラベルを用いた時系列の処理、または低レベルのMFCC特徴を用いた時系列の処理がある。明らかに、フレームレベルの分類ラベルの使用は計算効率がより高い。また、上述のように、ラベルを処理することによって、異なる話者のような、バックグラウンドプロセスの無関係な変化を抑えることができる。
監視ビデオへの応用
スポーツビデオの場合、応用ドメインに関するいくらかの事前知識を用いて、拍手、歓声等の音クラスを訓練し、低レベルの特徴の時系列とは別にさらなる時系列を抽出することができる。
スポーツビデオの場合、応用ドメインに関するいくらかの事前知識を用いて、拍手、歓声等の音クラスを訓練し、低レベルの特徴の時系列とは別にさらなる時系列を抽出することができる。
監視ビデオでは、異常事象を特徴付けできる音の種類が常に予測できるとは限らない。しかし、本発明の方法は、ドメイン知識を取得して「区別可能な」音のクラスを特定するための体系的な方法論を提供する。いかなる事前知識もない状態で、本発明では、そのようなシナリオにおける低レベルの特徴を用いて、ドメインを効果的に特徴付けるとともに事象を検出する。
発明の総括
図10に示すように、本発明では、特定のジャンル、例えばスポーツビデオについて例示的なマルチメディア1011から特徴1001を抽出する1010。本発明では、特徴を時系列データとして処理する。最適には、特徴は、例えば窓掛けおよびモデリングを用いてさらに処理されて、抽出した特徴1001のより高レベルの特性および関係を示すことができる。
図10に示すように、本発明では、特定のジャンル、例えばスポーツビデオについて例示的なマルチメディア1011から特徴1001を抽出する1010。本発明では、特徴を時系列データとして処理する。最適には、特徴は、例えば窓掛けおよびモデリングを用いてさらに処理されて、抽出した特徴1001のより高レベルの特性および関係を示すことができる。
いずれの場合にも、時系列データを用いて類似性行列1002を作成する1020。類似性行列は、上述のような区分化プロセス1003を用いて階層状にクラスタリングされ1030、異常事象に関連する特徴1004が特定される1040。
本発明では、特定した特徴について訓練データ1005を収集し、この訓練データを用いてMDL−GMM1006のモデルを訓練する1050。MDL−GMMを用いて、例示的なマルチメディア1011中のハイライトの要約を作成する1060。
本発明では、学習したGMMの混合成分のそれぞれの意味を解釈して、「ハイライト」クラスが選択された特徴をモデリングすることを発見した。本発明では、選択された特徴を用いて、他の方法では偽陽性として分類されてしまう異常事象の数を減らす。
本発明を好適な実施形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適用および変更を行うことができることを理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入るこのような変形および変更をすべて網羅することである。
Claims (14)
- マルチメディア中の事象を検出する方法であって、
前記マルチメディアから特徴を抽出すること、
スライディングウインドウを用いて前記特徴をサンプリングして、複数のサンプルを得ること、
各サンプルのコンテキストモデルを作成すること、
前記モデルと、可能な各対のコンテキストモデル間の交換距離メトリックとから類似性行列を求めること、
前記類似性行列の第2一般固有ベクトルを求めること、
及び
前記第2一般固有ベクトルに応じて前記複数のサンプルを事象にクラスタリングすること
を含むマルチメディア中の事象を検出する方法。 - 前記特徴は、バックグラウンドプロセスの通常事象と、フォアグラウンドプロセスの異常事象とを表す
請求項1記載の方法。 - 前記特徴をラベルによりラベル付けすることをさらに含む
請求項1記載の方法。 - 前記ラベルは、離散的である
請求項3記載の方法。 - 前記ラベルは、連続的である
請求項3記載の方法。 - 前記マルチメディアは、オーディオ部分を含み、オーディオ特徴が、AC−3ストリーム、音声、及び音楽からのピッチ、振幅、メル周波数ケプストラム係数(MFCC)、変形離散コサイン変換(MDCT)係数からなる群から選択される
請求項1記載の方法。 - 前記マルチメディアは、ビデオ部分を含み、ビデオ特徴が、色、動き、テクスチャ、及びMPEG−7記述子からなる群から選択されたマルチメディアである
請求項1記載の方法。 - 前記スライディングウインドウは、長さWLおよびステップ幅WSを有し、前記長さWLは前記コンテキストモデルの信頼度を決め、前記ステップ幅WSは前記事象の分解能を決める
請求項1記載の方法。 - 前記第2一般固有ベクトルは、前記事象を格付けする
請求項1記載の方法。 - 前記格付けされた事象に応じて前記マルチメディアを要約化することをさらに含む
請求項9記載の方法。 - 前記バックグラウンドプロセスは、無記憶であり、前記コンテキストモデルは、無条件の確率分布関数である
請求項2記載の方法。 - 前記バックグラウンドプロセスは、記憶を有し、前記コンテキストモデルは、隠れマルコフモデルである
請求項2記載の方法。 - 前記コンテキストモデルは、ガウス混合モデルである
請求項1記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/922,781 US7302451B2 (en) | 2004-05-07 | 2004-08-20 | Feature identification of events in multimedia |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006058874A true JP2006058874A (ja) | 2006-03-02 |
Family
ID=36106341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005218930A Pending JP2006058874A (ja) | 2004-08-20 | 2005-07-28 | マルチメディア中の事象を検出する方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006058874A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007328311A (ja) * | 2006-06-07 | 2007-12-20 | Ind Technol Res Inst | マルチメディアデータ管理方法とその装置 |
JP2010134923A (ja) * | 2008-11-21 | 2010-06-17 | Yissum Research Development Co Of The Hebrew Univ Of Jerusalem | クラスタリングを使用したビデオ概要の生成方法とシステム |
US8949235B2 (en) | 2005-11-15 | 2015-02-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Methods and systems for producing a video synopsis using clustering |
KR101520572B1 (ko) * | 2014-01-09 | 2015-05-18 | 중앙대학교 산학협력단 | 음악에 대한 복합 의미 인식 방법 및 그 장치 |
JP6317000B1 (ja) * | 2017-02-20 | 2018-04-25 | 三菱電機インフォメーションシステムズ株式会社 | ラベリング装置およびプログラム |
CN111914926A (zh) * | 2020-07-29 | 2020-11-10 | 深圳神目信息技术有限公司 | 基于滑窗的视频抄袭检测方法、装置、设备和介质 |
CN113780094A (zh) * | 2021-08-17 | 2021-12-10 | 武汉理工大学 | 基于混合高斯模型和隐马尔可夫模型的周界入侵识别方法 |
JP2022521120A (ja) * | 2019-02-25 | 2022-04-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械学習のための動的視聴覚セグメント・パディング |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0293598A (ja) * | 1988-09-30 | 1990-04-04 | Mitsubishi Electric Corp | 音声認識装置及び学習方法 |
JP2000298498A (ja) * | 1999-03-11 | 2000-10-24 | Fuji Xerox Co Ltd | オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム |
JP2000311180A (ja) * | 1999-03-11 | 2000-11-07 | Fuji Xerox Co Ltd | 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム |
JP2000322450A (ja) * | 1999-03-11 | 2000-11-24 | Fuji Xerox Co Ltd | ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム |
JP2002207753A (ja) * | 2001-01-10 | 2002-07-26 | Teijin Seiki Co Ltd | マルチメディア情報記録作成提供システム |
JP2004517518A (ja) * | 2000-12-22 | 2004-06-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオカテゴリを用いて番組境界及びコマーシャル境界の位置を見つけるシステム及び方法 |
JP2005331940A (ja) * | 2004-05-07 | 2005-12-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
-
2005
- 2005-07-28 JP JP2005218930A patent/JP2006058874A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0293598A (ja) * | 1988-09-30 | 1990-04-04 | Mitsubishi Electric Corp | 音声認識装置及び学習方法 |
JP2000298498A (ja) * | 1999-03-11 | 2000-10-24 | Fuji Xerox Co Ltd | オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム |
JP2000311180A (ja) * | 1999-03-11 | 2000-11-07 | Fuji Xerox Co Ltd | 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム |
JP2000322450A (ja) * | 1999-03-11 | 2000-11-24 | Fuji Xerox Co Ltd | ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム |
JP2004517518A (ja) * | 2000-12-22 | 2004-06-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオカテゴリを用いて番組境界及びコマーシャル境界の位置を見つけるシステム及び方法 |
JP2002207753A (ja) * | 2001-01-10 | 2002-07-26 | Teijin Seiki Co Ltd | マルチメディア情報記録作成提供システム |
JP2005331940A (ja) * | 2004-05-07 | 2005-12-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949235B2 (en) | 2005-11-15 | 2015-02-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Methods and systems for producing a video synopsis using clustering |
JP2007328311A (ja) * | 2006-06-07 | 2007-12-20 | Ind Technol Res Inst | マルチメディアデータ管理方法とその装置 |
US7739110B2 (en) | 2006-06-07 | 2010-06-15 | Industrial Technology Research Institute | Multimedia data management by speech recognizer annotation |
JP4699954B2 (ja) * | 2006-06-07 | 2011-06-15 | 財団法人工業技術研究院 | マルチメディアデータ管理方法とその装置 |
JP2010134923A (ja) * | 2008-11-21 | 2010-06-17 | Yissum Research Development Co Of The Hebrew Univ Of Jerusalem | クラスタリングを使用したビデオ概要の生成方法とシステム |
KR101520572B1 (ko) * | 2014-01-09 | 2015-05-18 | 중앙대학교 산학협력단 | 음악에 대한 복합 의미 인식 방법 및 그 장치 |
JP6317000B1 (ja) * | 2017-02-20 | 2018-04-25 | 三菱電機インフォメーションシステムズ株式会社 | ラベリング装置およびプログラム |
JP2018136589A (ja) * | 2017-02-20 | 2018-08-30 | 三菱電機インフォメーションシステムズ株式会社 | ラベリング装置およびプログラム |
JP2022521120A (ja) * | 2019-02-25 | 2022-04-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械学習のための動的視聴覚セグメント・パディング |
JP7450623B2 (ja) | 2019-02-25 | 2024-03-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械学習のための動的視聴覚セグメント・パディング |
CN111914926A (zh) * | 2020-07-29 | 2020-11-10 | 深圳神目信息技术有限公司 | 基于滑窗的视频抄袭检测方法、装置、设备和介质 |
CN111914926B (zh) * | 2020-07-29 | 2023-11-21 | 深圳神目信息技术有限公司 | 基于滑窗的视频抄袭检测方法、装置、设备和介质 |
CN113780094A (zh) * | 2021-08-17 | 2021-12-10 | 武汉理工大学 | 基于混合高斯模型和隐马尔可夫模型的周界入侵识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7302451B2 (en) | Feature identification of events in multimedia | |
US7409407B2 (en) | Multimedia event detection and summarization | |
JP5174445B2 (ja) | コンピュータにより実施される映像のシーン境界の検出方法 | |
Rui et al. | Automatically extracting highlights for TV baseball programs | |
US20050125223A1 (en) | Audio-visual highlights detection using coupled hidden markov models | |
Sidiropoulos et al. | Temporal video segmentation to scenes using high-level audiovisual features | |
US7263485B2 (en) | Robust detection and classification of objects in audio using limited training data | |
US7558809B2 (en) | Task specific audio classification for identifying video highlights | |
US10134440B2 (en) | Video summarization using audio and visual cues | |
JP2006058874A (ja) | マルチメディア中の事象を検出する方法 | |
JP2004229283A (ja) | ニュースビデオにおいてニュース司会者の遷移を識別する方法 | |
JP2009544985A (ja) | コンピュータによって実施されるビデオをセグメント化する方法 | |
Wang et al. | Automatic sports video genre classification using pseudo-2d-hmm | |
Yahiaoui et al. | Generating Summaries Of Multi-Episode Video. | |
US7734096B2 (en) | Method and device for discriminating obscene video using time-based feature value | |
WO2006092765A2 (en) | Method of video indexing | |
JP5257356B2 (ja) | コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム | |
Radhakrishnan et al. | A time series clustering based framework for multimedia mining and summarization using audio features | |
Lu et al. | Towards a unified framework for content-based audio analysis | |
Ben et al. | Unsupervised mining of audiovisually consistent segments in videos with application to structure analysis | |
Radhakrishnan et al. | A content-adaptive analysis and representation framework for audio event discovery from" unscripted" multimedia | |
Xiong | Audio-visual sports highlights extraction using coupled hidden markov models | |
Divakaran et al. | Video mining using combinations of unsupervised and supervised learning techniques | |
Li et al. | Movie content analysis, indexing and skimming via multimodal information | |
Parshin et al. | Statistical audio-visual data fusion for video scene segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120131 |