JP2005331940A - マルチメディア中の事象を検出する方法 - Google Patents

マルチメディア中の事象を検出する方法 Download PDF

Info

Publication number
JP2005331940A
JP2005331940A JP2005127865A JP2005127865A JP2005331940A JP 2005331940 A JP2005331940 A JP 2005331940A JP 2005127865 A JP2005127865 A JP 2005127865A JP 2005127865 A JP2005127865 A JP 2005127865A JP 2005331940 A JP2005331940 A JP 2005331940A
Authority
JP
Japan
Prior art keywords
multimedia
event
model
events
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005127865A
Other languages
English (en)
Inventor
Regunathan Radhakrishnan
レギュナータン・ラドクリシュナン
Ajay Divakaran
アジェイ・ディヴァカラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2005331940A publication Critical patent/JP2005331940A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】本方法はマルチメディア中の事象を検出する。
【解決手段】マルチメディアから特徴を抽出する。スライディングウインドウを用いて特徴をサンプリングしてサンプルを得る。各サンプルのコンテキストモデルを作成する。モデルと、各対のコンテキストモデル間の交換距離メトリックとから類似性行列を求める。類似性行列の第2一般固有ベクトルを求め、次に、この第2一般固有ベクトルに応じてサンプルを事象にクラスタリングする。
【選択図】図1

Description

本発明は、包括的にはマルチメディアの解析に関し、特にコンテンツ中の事象パターンに応じたマルチメディアの要約化に関する。
ほとんどの従来技術のマルチメディアコンテンツの要約化方法は、コンテンツ中の既知の事象パターンを検出してコンテンツの要約を提供することに重点を置いてきた。結果として、要約化に役立つ事象パターンは特定の既知のジャンルのマルチメディアに限られている。教師あり統計学習ツールを用いてパターンを抽出する方法も良く知られている。
ニュースビデオの場合、クローズドキャプションの文字、原稿(speech transcript)の解析、および話者に基づく分割による「ストーリー」の境界の検出が有用であることが示されている(Rainer著「ビデオの索引付けのための自動文字認識(Automatic text recognition for video indexing)」(Proc. ACM Multimedia, 1996)、およびHsu等著「ニュースストーリーの分割における中レベルの知覚特徴を融合するための統計的枠組み(A statistical framework for fusing mid-level perceptual features in news story segmentation)」(Proc. of ICME, 2003))。
シチュエーションコメディーの場合、シーンのモザイク表現を用いた物理的設定の検出、および視聴覚キューを用いた主な登場人物の検出が有用であることが示されている(Aner等著「モザイクに基づくショットおよびシーンのクラスタリングによるビデオの要約(Video summaries through mosaic-based shot and scene clustering)」(Proc. European Conference on Computer Vision, 2002)、およびLi著「多角的情報を用いた、コンテンツに基づくビデオの解析、索引付けおよび表現(Content-based video analysis, indexing and representation using multimodal information)」(Ph. D Thesis, University of Southern California, 2003))。
スポーツビデオの要約化の場合、方法によっては、視聴覚キューを用いてハイライトに関連するドメイン固有の事象を検出するものもある(Pan等著「ハイライトの生成のための、スポーツビデオにおけるスローモーション再生部分の検出(Detection of slow-motion replay segments in sports video for highlights generation)」(Proc. IEEE International Conf. on Acoustics, Speech and Signal Processing, 2001)、およびXu等著「サッカービデオにおける事象検出のための聴覚キーワードの作成(Creating audio keywords for event detection in soccer video)」(Proc. of ICME, 2003))。別の方法は、教師なしの方法で試合休憩部分を抽出する(Xie等著「ビデオにおける統計的時間構造の教師なしマイニング(Unsupervised mining of statistical temporal structures in video)」(Video Mining, Rosenfeld et al. Eds, Kluwer Academic Publishers, 2003))。
映画コンテンツの場合、構文構造、例えば話者が二人だけのシーンの検出、および「異常」事象、例えば爆発の検出が有用であることが示されている(Sundaram等著「視聴覚記憶モデルを用いた、映画中の計算可能なシーンとその構造の判定(Determining computable scenes in films and their structures using audio-visual memory models)」(ACM Multimedia, 2000))。
監視コンテンツの場合、ビデオからのオブジェクトの分割と追跡を用いた「異常」事象の検出が有効であることが示されている(Wu等著「安全監視のためのマルチカメラによる時空間融合およびバイアスシーケンスデータの学習(Multi-camera spatio-temporal fusion and biased sequence data learning for security surveillance)」(ACM Multimedia, 2003))。
以下の米国特許および特許出願もまた、マルチメディアにおいて特徴を抽出し事象を検出するとともにマルチメディアを要約化する方法を記載している。Divakaran他により2000年3月6日付で出願された米国特許出願第09/518,937号「マルチメディア中のデータ構造を順序付ける方法(Method for Ordering Data Structures in Multimedia)」、Divakaran他により2000年7月6日付で出願された米国特許出願第09/610,763号「マルチメディアコンテンツの低レベルの特徴からの意味的な高レベルの特徴の抽出(Extraction of Semantic and Higher Level Features from Low-Level Features of Multimedia Content)」、Divakaranに対して2004年2月24日付で発行された米国特許第6,697,523号「動き記述子およびカラー記述子を用いたビデオの要約化(Video Summarization Using Motion and Color Descriptors)」、Divakaran他により2001年4月27日付で出願された米国特許出願第09/845,009号「動き記述子を用いたビデオの要約化方法(Method for Summarizing a Video Using Motion Descriptors)」、Divakaran他により2003年6月30日付で出願された米国特許出願第10/610,467号「ビデオ中の短期間の異常事象を検出する方法(Method for Detecting Short Term Unusual Events in Videos)」、およびDivakaran他により2003年12月5日付で出願された米国特許出願第10/729,164号「隠れマルコフモデルを用いた視聴覚ハイライトの検出(Audio-visual Highlights Detection Using Hidden Markov Models)」。上記は全て参照により本明細書中に援用される。
いくつかの特定のジャンルのマルチメディアについてパターンを検出する方法が知られているが、一般化された検出タスクは、異なるコンテンツ提供者によって用いられる異なるマルチメディア製作様式、および他の要因によるジャンル内の差異のために依然として課題となっている。例えば、監視ビデオ中のパターンは決して予測することができない。そうでなければ、監視ビデオは必要ないだろう。したがって、そのようなビデオにおいて事象検出のための教師ありモデルを作成することは不可能である。
明らかに、ジャンルに関係なくあらゆるマルチメディアにおいて事象パターンを検出することができる方法が必要とされている。
以下は、マルチメディアの要約化と事象パターンの認識に望まれる要件の一部である。
先ず最初に、方法は、コンテンツ適応的かつ教師なしであるべきである。第2に、方法は、事象パターンを発見するために、共通する特徴を抽出し統計的に解析する枠組みを有するべきである。次に、同一の特徴抽出プロセスを全てのジャンルのマルチメディアにフロントエンドとして用い、マルチメディアのジャンルに応じて異常の意味するものが異なる場合でも、発見したパターンに対して同一の後処理段階を実行して「異常」事象を特定することができる。方法はまた、検出事象の格付け方式を組み込み、適切な要約を判定できるようにすべきである。
本発明は、ジャンルに関係なく、マルチメディアコンテンツ中の事象の時間パターンを検出する。本発明は、異なるジャンルのマルチメディアからそのような時間パターンを取り出すために、統合的でコンテンツ適応的な教師なし学習の枠組みを用いる。
本方法は、パターン検出の問題を時系列のクラスタリング問題として定式化する。低レベルおよび中レベルの視聴覚特徴のシーケンスをマルチメディアから抽出する。特徴を時系列として処理する。この時系列を、時系列から推定される統計モデルから作成される類似性行列(affinity matrix)の固有ベクトル解析に基づいて時間的に分割する。
時間分割を用いて、抽出した特徴シーケンスから遷移点および「孤立点(outliers)」を検出することができる。検出された孤立点のそれぞれについて、確率に関して信頼度(confidence measure)を定める。ブートストラップおよびカーネル密度推定を用いて学習パラメータと信頼度の間の関係を確立する。それによって、本発明は、あらゆるマルチメディアジャンルの学習パラメータを選択するための体系的な方法を可能にする。さらに、信頼度を用いて、検出した遷移をそのバックグラウンドプロセス(background process)からの偏差(departure)に関して格付けすることができる。
本発明は、マルチメディア中の異常事象を検出する、統合的でコンテンツ適応的な教師なしデータ方法を提供する。本方法は、低レベルの特徴または中レベルの意味ラベルの時系列の統計的モデリングと、その後に行われる、グループ分けのグラフ理論的な定式化を用いた分割とに基づく。本発明はまた、検出事象の信頼度を提供する。
本発明は、マルチメディア中のフォアグラウンド(前景)の「異常」事象が「通常」事象のバックグラウンド(背景)の中で散発するという観察に基づく。異常事象のいくつかの例として次のものが挙げられる。スポーツ番組では、番組のオーディオ部分のほとんどを試合解説が占める。しかし、時として、比較的稀な得点事象に続いて圧倒された観客の反応、例えば、歓声、拍手、およびウェーブが沸き上がる。シチュエーションコメディー番組では、通常、対話のバックグラウンドの中でコミカルな事象に続いて笑いが沸き上がる。監視ビデオでは、ほとんどが無音のまたは静止したバックグラウンドの中で不審な事象に続いて動きまたは大きな音が突如として発生する。
このことから、本発明では、マルチメディア中の異常事象を検出するという問題を「孤立点」を検出する問題として定式化することにした。本発明では、ほとんどが静止したバックグラウンドプロセスを、バックグラウンドプロセスがわずかな期間しか静止しておらず、経時的に変化する可能性があっても、ビデオから抽出した低レベルおよび中レベルの視聴覚特徴に関して統計的にモデリングする。これは、バックグラウンドのモデリングがコンテンツ全体を通して適応的に行われることを意味する。これはまた、モデリングが1度に1つのバックグラウンドプロセスを処理すれば十分に孤立点を検出できることを意味する。
問題の定式化
マルチメディア中の支配的なすなわち「通常」クラスの事象はCで表すことができる。これらの通常事象は、マルチメディア中のバックグラウンドプロセスとして考えることができる。マルチメディア中の「異常」クラスの事象はCで表すことができる。これらの異常事象は、フォアグラウンドプロセスとして考えることができる。
マルチメディア中の2つのクラスの事象(CおよびC)ついて抽出した観測値(observations)または低レベルおよび中レベルの視聴覚特徴の時間シーケンスが
Figure 2005331940
に対応する場合、異常事象を検出する問題は、全ての通常のバックグラウンド事象Cの中から時折の異常なフォアグラウンド事象Cと、その実現の対応する発生時刻とを見つける問題となる。
初めに、クラスCの通常事象の統計値を、少なくとも稀な異常事象の期間に対して静止しているものと仮定する。しかし、クラスCの異常事象に関するそのような仮定はない。クラスCの事象は、様々なランダムプロセスの集合とすることさえできる。唯一の要件は、異常事象Cの発生回数が、支配的なクラスの通常事象Cの遥かに多い発生回数に比べて比較的少ないことである。
この定式化は、より一般的な問題、すなわち1つの極めて支配的なプロセスが必ずしも存在しない時系列のクラスタリングの特別な場合であることに留意されたい。
本発明では、ビデオから抽出した低レベルおよび中レベルの視聴覚特徴のシーケンスを時系列として扱い、時間分割を行って、観測値すなわち抽出した特徴のシーケンスから遷移点および孤立点を検出する。
類似性行列の固有ベクトル解析を用いた分割
固有ベクトル解析を用いた分割が画像について記載されている(Shi等著「正規化されたカットおよび画像分割(Normalized cuts and image segmentation)」(Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 1997))。この分割は、グループ分けのグラフ理論的な定式化に関する。
任意の特徴空間Vにおける点の集合を重み付き無向グラフとして表す。ここで、グラフの各ノードは特徴空間における1点であり、各対のノード間に辺が形成される。辺にかかる重みは、対のノードの類似度を表す。ノードiおよびj間の類似度は、辺にかかる重みw(i,j)で表すことができる。
グラフの分割基準を理解するために、グラフを2つのクラスタAおよびBに分割し、A∪B=Vとなるようにすることを考える。ここで、Vは全特徴空間である。すると、次式が成り立つ。
Figure 2005331940
Shi等は、Ncutを最小化することによって、クラスタ間の類似度がいかに最小化され、個々のクラスタ内の関連が最大化されるかを記載する。Shi等はまた、y∈{−1,b}という条件で、
Figure 2005331940
であると記載している。ここで、WはN×Nのサイズの対称類似性行列であり、この類似性行列は、ノードiおよびj間の類似度であるw(i,j)をエントリとして含み、Dはd(i,i)=Σw(i,j)である対角行列であり、yはベクトルyの転置を表す。パラメータxおよびyはクラスタ指示ベクトルである。すなわち、y(i)が−1である場合、特徴点「i」はクラスタAに属し、そうでない場合、この特徴点はクラスタBに属す。上の式の解は、yが実数値をとるように緩和される場合に、以下の一般固有値方程式の解と同じであることも知られている。
Figure 2005331940
ここで、λは固有ベクトルyの対応する固有値である。
この一般固有値方程式は、先ず、z=D1/2yを代入して次式を得ることにより、この方程式を標準固有値方程式に変換することによって解かれる。
Figure 2005331940
=D1/21(→)は、固有値が0である自明の(trivial)解であることが検証できる。この固有値方程式の最も小さな非自明の解である第2一般固有ベクトルzは、2つのクラスタについてNcutを最適化する分割を行う。なお、1(→)は、1の上に→があることを表す。
カーネル密度推定
何らかの未知の密度関数(f)およびカーネル(K)からd次元のベクトルの観測値のn個のランダムサンプルx、x,...,xが与えられると、真の密度の推定値を次のように得ることができる。
Figure 2005331940
ここで、hは、選択されたカーネル関数のスケールを決めるバンド幅パラメータである。平均二乗誤差(MSE)を密度推定効率の測度として用いる場合、推定値のバイアスと偏差のトレードオフは次のようになる。
Figure 2005331940
バイアスはhに比例し、偏差はn−1−dに比例する(Wand等著「カーネル平滑化(Kernel Smoothing)」(London, Chapman & Hall, 1995))。したがって、固定バンド幅の推定量について、最適なトレードオフを達成するバンド幅パラメータhの値を選択する。本発明では、Sheather等著「カーネル密度推定のための信頼性の高いデータに基づくバンド幅選択方法(A reliable data-based bandwidth selection method for kernel density estimation)」(J. R. Statist. Society, 1991)によって概説されるデータ駆動型のバンド幅選択プロセスを推定に用いる。
パターンの発見
図1に示すように、本発明は、観測値の時系列からバックグラウンドの通常事象Cの中でのフォアグラウンドの異常事象Cの発生回数を検出する方法100を提供する。
予備ステップにおいて、マルチメディア101から低レベルおよび中レベルの特徴(...A....Z...)102を抽出する105。抽出した特徴102を、別個のラベルの集合Sを用いてラベル付けする、すなわち、CおよびCのアルファベットは集合S={A,B,C,D,E,...,X,Y,Z}である。代替的に、ラベルは連続的であってもよい。特徴102は、本発明における事象検出の目的で、基礎となるマルチメディアコンテンツ101を定義する時系列として扱われる。複数の同期された時系列を用いることもでき、例えば、1つの低レベルの系列が音量のみを示し、別の系列が音声、音楽、無音、および非音声を区別することに留意すべきである。音声はさらに、女性または男性の音声に分類することができる。これらの時系列は、ビデオ部分の他の時系列とともに用いることができる。
マルチメディアのオーディオ部分に関して、オーディオ特徴は、ピッチ、振幅、メル周波数ケプストラム係数(MFCC)のような低レベルの特徴、ならびに音声および音楽のような中レベルの特徴を含むことができる。ビデオ部分の場合、低レベルのビデオ特徴は色、動き、テクスチャ等を含むことができる。ビデオが圧縮されている場合、中レベルの特徴はMPEG−7記述子を含むことができる。利点として、これらの特徴は、あらゆるジャンルのマルチメディアに存在する。
特徴102の時系列は、複数(N個)の「サンプル」113としてサンプリングされる110。サンプリングは、長さWのスライディングウインドウ111およびステップ幅W112を用いる。これらのパラメータは、ラベル、フレーム、または時間に関して指定することができる。本発明の好ましい実施形態において、サンプリングは均一である。各ステップに関して、ウインドウ中のサンプルは、マルチメディアの「コンテキスト」を定義する。
コンテキストモデル121が、N個のサンプル113すなわち「コンテキスト」のそれぞれに作成される120。モデリングは、離散的または連続的な統計関数を用いることができる。
コンテキストモデル121と、対のコンテキストモデル間で定められる交換(commutative)距離メトリックd122とを用いて時系列全体についてN×Nの対称類似性行列W131を求める130。
類似性行列の第2一般固有ベクトルz141を求める140。次に、この第2一般固有ベクトルを用いて、事象151をクラスタリングし、異常事象すなわち「孤立点」を検出し、事象を格付けする150。
格付けした事象151は、マルチメディア101のコンテンツを摘要または要約161として要約化する160ために用いることができる。
本発明による方法100には、3つの重要な問題、すなわちコンテキストの統計モデル121、ならびにWおよびWの2つのパラメータの選択がある。
無記憶バックグラウンドプロセスの場合のコンテキストモデルとしては単純な無条件の確率分布関数PDFで十分である。しかし、バックグラウンドプロセスがいくらかの記憶を有する場合、選択されたモデルは、バックグラウンドプロセスを説明しなければならないだろう。例えば、隠れマルコフモデルは、バックグラウンドプロセスの一次近似を与えることができる。
2つのパラメータ(WおよびW)の選択は、或る特定の事象が「異常」であるという信頼度によって判定することができる。サンプリングウインドウの長さWは、ウインドウ内のコンテキストについて統計モデルの信頼度を決める。ステップ幅Wは、異常事象が検出される分解能を決める。
検出された異常事象に対する信頼度
本発明の方法100では、先ず、長さWのウインドウ内のサンプルからバックグラウンドプロセスのパラメータを推定する。次に、或る特定のモデルと他のコンテキストモデルとの差がどれほどであるかを測定する。この差は、ウインドウW内のCからの観測値によって、あるいはバックグラウンドモデルの推定値の偏差によって生じる。2つのコンテキストモデル間の観測される差が、推定値自体の偏差だけ「許容差よりも実質的に大きい」場合、本発明ではその偏差が、異常事象Cからの観測値によるコンテキストのうちの1つの「破壊(corruption)」によるものであると「ほぼ確信(confident)」する。
以下では、「許容差よりも実質的に大きい」ものと、「ほぼ確信」するものとをウインドウ長Wに関して定量化する。
2項および多項PDFモデルの信頼度
2項または多項PDFによってモデリングされるバックグラウンドプロセスの場合に、特徴102は別個のラベルS={A,B,C,D,E,...}を有する。長さがWサンプルのウインドウにコンテキストが与えられると、相対度数による確率の定義を用いてS中のラベルのそれぞれの確率を推定することができる。
ラベルAの確率の不偏推定量は(^)pで表される。この値(^)pは、W≧30ラベルである場合に平均pおよび偏差√{p(1−p)/W}を有するガウスランダム変数によって近似値を求めることができる2項ランダム変数である。なお、(^)pは、pの上に^があることを表す。
上述のように、本発明は、コンテキストモデルの2つの推定値の差を測定するランダム変数dの信頼区間を知ることに関心がある。数学的に取り扱い易くするために、カルバック・ライブラー(Kullback-Leibler)距離のような厳密な測度の単調な近似でしかないが、2つのPDF間のユークリッド距離メトリックを考慮する。
Figure 2005331940
ここで、(^)pi,1および(^)pi,2は、長さWの2つの異なるコンテキストからのi番目のラベルの確率の推定値を表す。(^)pi,1および(^)pi,2はいずれもガウスランダム変数であるので、dは、自由度がnであるxランダム変数であり、nは集合Sの濃度である。
ここで、実質的な確率
Figure 2005331940
を用いて、((^)d)のあらゆる推定値が閉区間[L,U]にあると仮定する。言い換えれば、2つのコンテキストモデル推定値の、この区間外にある差が、コンテキストモデルのうちの1つにおける異常事象Cの発生により生じたものであるとN%確信することができる。また、dの確率密度関数を用いて全ての孤立点を格付けすることができる。
検証
上記の解析を検証するために、以下のシミュレーションを行うことができる。本発明では、既知の2項または多項PDFから、上記で定義したようなバックグラウンドプロセスであると仮定される長さWの2つのコンテキストを生成した。これらの2つのコンテキストから推定したモデルはそれぞれMおよびMで表される。本発明では次に、「ブートストラップ」およびカーネル密度推定を用いて、dのPDFの解析を下記のように検証する。
1.MおよびMからWのラベルを生成する。
2.生成されたデータに基づいてモデルパラメータ(^)pi,1および(^)pi,2を再推定し、2つのコンテキストモデルを比較するための交換距離メトリック(d)を求める。
3.ステップ1および2をN回繰り返す。
4.カーネル密度推定からdのPDF、(^)pi,1および(^)pi,2を得る。
GMMモデルおよびHMMモデルの信頼度
無記憶バックグラウンドプロセスの観測値が離散的なラベルではなく連続的なラベルである場合、連続的なラベルを用いて、ガウス混合モデル(GMM)を用いてプロセスのPDFをモデリングすることができる。プロセスが一次記憶を有する場合、その一次PDFを隠れマルコフモデル(HMM)を用いてモデリングすることができる。
λ=(A,B,π)は、HMMとGMMの両方のモデルパラメータを表すものとする。ここで、Aは状態遷移行列であり、Bはサンプルラベルの確率分布であり、πは初期状態分布である。GMMの場合、Aおよびπは1であり、Bは分布の混合モデルを表す。連続的なサンプルを有するHMMの場合、Bはそれぞれの状態における混合モデルである。観測値として離散的なラベルを有するHMMの場合、Bはそれぞれの状態における多項PDFである。
2つのコンテキストモデルが異なるパラメータを有する場合でも、モデルは統計的に等価である。したがって、以下の交換距離メトリックを用いて、観測値シーケンスまたはサンプルOおよびOからそれぞれ作成した2つのコンテキストモデルλおよびλを比較する。
Figure 2005331940
距離メトリックの初めの2つの項は、推定モデルを与えられた場合の訓練データの尤度を測定する。後の2つの交差項は、λでOを観測する尤度とその逆の尤度を測定する。2つのモデルが異なる場合、交差項は初めの2つの項よりも実質的に小さい。定義された距離メトリックdは、そのPDFを求めるのに役立つことのできる2項および多項モデルの場合のようには、同様の解析に役立たない。したがって本発明では、ブートストラップを適用して距離メトリックのいくつかの観測値を得るとともに、カーネル密度推定を用いて定義された距離メトリックのPDFを得る。
が100フレームから600フレームに増加するにつれて、PDFの台は小さくなることに留意されたい。訓練データの量が増え、よって正規化された対数尤度差の分散が小さくなるにつれて、同一バックグラウンドプロセスの2つのコンテキストモデルの信頼度は増加する。したがって、別のプロセス、例えばフォアグラウンドプロセス(C)からの観測値の破壊によって生じるあらゆる対数尤度差の値を定量化することが可能である。同様の解析により、同一の観測値が、HMMをコンテキストモデルとして用いる場合にも当てはまることが示される。
信頼度を用いた孤立点の格付け
上記では、本発明の方法によって用いられる、コンテキストモデル、例えば無記憶モデルおよびHMMの特定の距離メトリックのPDFの推定を説明している。次に、CおよびCからの観測値の所与の時系列について、コンテキストモデルの選択されたウインドウ長Wの類似性行列を求める。
第2一般固有ベクトルzを用いて通常点(inliers)および孤立点を検出する。次に、孤立点コンテキストモデルの信頼度メトリックMを次のように求める。
Figure 2005331940
ここで、Pd,iは通常点コンテキストiにおける観測値を用いた距離メトリックの密度推定である。OおよびIの値はそれぞれ孤立点および通常点の集合を表す。記号#Iは通常点の集合の濃度を表す。
ブートストラップおよびカーネル密度推定により、あるいは2項または多項の場合と同様の解析により得られた密度推定が有限台を有する場合、通常点とは全く異なり、Pd,i(d≦d(M,M))dとして格付けすることができない孤立点のいくつかは1である。このような場合、距離自体を用いて孤立点を格付けすることができる。
格付けの順序は、累積分布関数(CDF)が単調増加関数であるため、P(d≦d(M,M))の代わりにd(M,M)を使用することには影響されない。しかし、d(M,M)を使用した場合、d(M,M)の意味はバックグラウンドに依存するため、格付けリストを融合させることはより難しくなる可能性がある。
スポーツビデオへの応用
上述のように、スポーツビデオの「異常」事象は通常プロセスのバックグラウンドの中で時折起こる。ゴルフの試合では、通常プロセスは静かなバックグラウンドの中の解説者の音声である。サッカーの試合では、通常プロセスは比較的騒がしいバックグラウンドの中の解説者の音声である。しかし、ビデオ全体から異常な番組部分、例えばコマーシャルを抽出するためには、後述のように、コマーシャルが番組全体のバックグラウンドの中で「異常」であるという観察に基づいて、本発明の方法をより粗いスケールで用いる。
第2レベルのラベルを用いた事象の検出
本発明の方法は、バックグラウンドプロセスが比較的静止しているものと仮定するため、第1のステップは、スポーツビデオ全体から時系列をクラスタリングして、同一のバックグラウンドを有する時系列の連続部分を特定することである。
図2は、3時間のゴルフビデオの類似性行列を示す。本発明では、2状態HMMを用いて、120(W)の分類ラベルの各時系列を10のステップサイズ(W)でモデリングする。類似性行列は、上記で定義した対となる尤度距離メトリックを用いて作成される。類似性行列は、1つのバックグラウンドに対して暗い領域を示すことに留意されたい。暗い領域、すなわち孤立点は、コマーシャル201の発生時であることが検証される。
本発明では、ラベルの時系列を1秒の分解能で用いるため、検出される孤立点は、ビデオ全体を2つのクラスタ、すなわち番組を表す部分と、コマーシャルを表す部分とに粗く分割する。また、このような粗い分割は、本発明において低レベルの特徴ではなく中レベルの分類ラベル、例えば音声と非音声の時系列を用いたために可能である。この段階において低レベルのオーディオ特徴を使用した場合、番組部分を非番組部分と区別することに関係のない、いくらかの微小な変化を生じる。例えば、低レベルの特徴は、コンテンツ中の2人の異なる話者を区別することができ、より一般的な音声ラベルはこれらの話者を1つのものとして区別する。
異常事象の検出
スポーツビデオ中の異常事象は、観客の反応とともに、通常数秒間だけ続く。これは、短い異常事象の抽出に第2レベルの分類ラベルを使用できないことを意味する。第2レベルの分類ラベルを用いた場合、その分解能で事象を検出するために、Wのサイズは十分に小さくなければならない。しかし、本発明における上記の信頼度の解析は、Wの値が小さいとコンテキストモデルの信頼性が低下することを示す。
したがって、少なくとも以下の2つの選択肢、すなわち、中レベルのラベルではなくフレームレベルの分類ラベルを用いた時系列の処理、または低レベルのMFCC特徴を用いた時系列の処理がある。明らかに、フレームレベルの分類ラベルの使用は計算効率がより高い。また、上述のように、ラベルを処理することによって、異なる話者のような、バックグラウンドプロセスの無関係な変化を抑えることができる。
監視ビデオへの応用
スポーツビデオの場合、応用ドメインに関するいくらかの事前知識を用いて、拍手、歓声等の音クラスを訓練し、低レベルの特徴の時系列とは別にさらなる時系列を抽出することができる。
監視ビデオでは、異常事象を特徴付けできる音の種類が常に予測できるとは限らない。しかし、本発明の方法は、ドメイン知識を取得して「区別可能な」音のクラスを特定するための体系的な方法論を提供する。いかなる事前知識もない状態で、本発明では、そのようなシナリオにおける低レベルの特徴を用いて、ドメインを効果的に特徴付けるとともに事象を検出する。
本発明を好適な実施形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適用および変更を行うことができることを理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入るこのような変形および変更をすべて網羅することである。
本発明によるマルチメディアコンテンツ中の事象を検出する方法のフロー図である。 本発明による類似性行列の画像である。

Claims (13)

  1. マルチメディア中の事象を検出する方法であって、
    前記マルチメディアから特徴を抽出すること、
    スライディングウインドウを用いて前記特徴をサンプリングして、複数のサンプルを得ること、
    各サンプルのコンテキストモデルを作成すること、
    前記モデルと、各対のコンテキストモデル間の交換距離メトリックとから類似性行列を求めること、
    前記類似性行列の第2一般固有ベクトルを求めること、
    および
    前記第2一般固有ベクトルに応じて前記複数のサンプルを事象にクラスタリングすること
    を含むマルチメディア中の事象を検出する方法。
  2. 前記事象は、バックグラウンドプロセスの通常事象と、フォアグラウンドプロセスの異常事象とを含む
    請求項1記載の方法。
  3. 前記特徴のラベルは、離散的である
    請求項1記載の方法。
  4. 前記特徴のラベルは、連続的である
    請求項1記載の方法。
  5. 前記マルチメディアは、オーディオ部分を含み、オーディオ特徴が、ピッチ、振幅、メル周波数ケプストラム係数、音声および音楽からなる群から選択される
    請求項1記載の方法。
  6. 前記マルチメディアは、ビデオ部分を含み、ビデオ特徴が、色、動き、テクスチャおよびMPEG−7記述子からなる群から選択されたマルチメディアである
    請求項1記載の方法。
  7. 前記スライディングウインドウは、長さWおよびステップ幅Wを有し、前記長さは前記コンテキストモデルの信頼度を決め、前記ステップ幅は前記事象の分解能を決める
    請求項1記載の方法。
  8. 前記第2一般固有ベクトルは、前記事象を格付けする
    請求項1記載の方法。
  9. 前記格付けされた事象に応じて前記マルチメディアを要約化することをさらに含む
    請求項8記載の方法。
  10. 前記バックグラウンドプロセスは、無記憶であり、前記コンテキストモデルは、無条件の確率分布関数である
    請求項2記載の方法。
  11. 前記バックグラウンドプロセスは、記憶を有し、前記コンテキストモデルは、隠れマルコフモデルである
    請求項2記載の方法。
  12. 前記コンテキストモデルは、ガウス混合モデルである
    請求項1記載の方法。
  13. 前記スライディングウインドウは、長さWを有し、サンプルOおよびOからそれぞれ作成される各対のコンテキストモデルλおよびλの前記交換距離メトリックdは、
    D(λ,λ)=1/W(logP(O|λ)+logP(O|λ
    −logP(O|λ)−logP(O|λ))である
    請求項1記載の方法。
JP2005127865A 2004-05-07 2005-04-26 マルチメディア中の事象を検出する方法 Pending JP2005331940A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/840,824 US7409407B2 (en) 2004-05-07 2004-05-07 Multimedia event detection and summarization

Publications (1)

Publication Number Publication Date
JP2005331940A true JP2005331940A (ja) 2005-12-02

Family

ID=35239496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005127865A Pending JP2005331940A (ja) 2004-05-07 2005-04-26 マルチメディア中の事象を検出する方法

Country Status (2)

Country Link
US (1) US7409407B2 (ja)
JP (1) JP2005331940A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006058874A (ja) * 2004-08-20 2006-03-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2007328311A (ja) * 2006-06-07 2007-12-20 Ind Technol Res Inst マルチメディアデータ管理方法とその装置
JP2011137817A (ja) * 2009-12-29 2011-07-14 Mitsubishi Electric Research Laboratories Inc ストリーミング測定値からストリーミング信号を再構築するための方法
WO2012093430A1 (ja) * 2011-01-05 2012-07-12 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
WO2018160007A1 (ko) * 2017-02-28 2018-09-07 삼성전자 주식회사 멀티미디어 데이터를 처리하는 방법 및 장치

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308138B2 (en) * 2000-12-12 2007-12-11 Hewlett-Packard Development Company, L.P. Document segmentation method
WO2005122141A1 (en) * 2004-06-09 2005-12-22 Canon Kabushiki Kaisha Effective audio segmentation and classification
US20080138029A1 (en) * 2004-07-23 2008-06-12 Changsheng Xu System and Method For Replay Generation For Broadcast Video
US20080187231A1 (en) * 2005-03-10 2008-08-07 Koninklijke Philips Electronics, N.V. Summarization of Audio and/or Visual Data
US8005707B1 (en) 2005-05-09 2011-08-23 Sas Institute Inc. Computer-implemented systems and methods for defining events
US8949235B2 (en) * 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
BRPI0620497B1 (pt) 2005-11-15 2018-09-25 Yissum Research Development Company Of The Hebrew Univ Of Jerusalem método para a criação de uma sinopse de vídeo, e sistema para transformar uma sequência de origem de quadros de vídeo de uma primeira cena dinâmica em uma sequência de sinopse de pelo menos dois quadros de vídeo que ilustram uma segunda cena dinâmica.
US7711734B2 (en) * 2006-04-06 2010-05-04 Sas Institute Inc. Systems and methods for mining transactional and time series data
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
KR100785076B1 (ko) * 2006-06-15 2007-12-12 삼성전자주식회사 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치
US8112302B1 (en) 2006-11-03 2012-02-07 Sas Institute Inc. Computer-implemented systems and methods for forecast reconciliation
CA2676632C (en) 2007-02-01 2017-11-07 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for video indexing and video synopsis
US20090216611A1 (en) * 2008-02-25 2009-08-27 Leonard Michael J Computer-Implemented Systems And Methods Of Product Forecasting For New Products
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8631040B2 (en) 2010-02-23 2014-01-14 Sas Institute Inc. Computer-implemented systems and methods for flexible definition of time intervals
US8923607B1 (en) 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
EP2659480B1 (en) 2010-12-30 2016-07-27 Dolby Laboratories Licensing Corporation Repetition detection in media data
US8751414B2 (en) 2011-05-04 2014-06-10 International Business Machines Corporation Identifying abnormalities in resource usage
US9336493B2 (en) 2011-06-06 2016-05-10 Sas Institute Inc. Systems and methods for clustering time series data based on forecast distributions
US9047559B2 (en) 2011-07-22 2015-06-02 Sas Institute Inc. Computer-implemented systems and methods for testing large scale automatic forecast combinations
US9087306B2 (en) 2012-07-13 2015-07-21 Sas Institute Inc. Computer-implemented systems and methods for time series exploration
US9244887B2 (en) 2012-07-13 2016-01-26 Sas Institute Inc. Computer-implemented systems and methods for efficient structuring of time series data
CN103065158B (zh) * 2012-12-28 2016-05-18 电子科技大学 基于相对梯度的isa模型的行为识别方法
US9141866B2 (en) 2013-01-30 2015-09-22 International Business Machines Corporation Summarizing salient events in unmanned aerial videos
US9147218B2 (en) 2013-03-06 2015-09-29 Sas Institute Inc. Devices for forecasting ratios in hierarchies
US9934259B2 (en) 2013-08-15 2018-04-03 Sas Institute Inc. In-memory time series database and processing in a distributed environment
US10169720B2 (en) 2014-04-17 2019-01-01 Sas Institute Inc. Systems and methods for machine learning using classifying, clustering, and grouping time series data
US9892370B2 (en) 2014-06-12 2018-02-13 Sas Institute Inc. Systems and methods for resolving over multiple hierarchies
US9208209B1 (en) 2014-10-02 2015-12-08 Sas Institute Inc. Techniques for monitoring transformation techniques using control charts
US9418339B1 (en) 2015-01-26 2016-08-16 Sas Institute, Inc. Systems and methods for time series analysis techniques utilizing count data sets
US10983682B2 (en) 2015-08-27 2021-04-20 Sas Institute Inc. Interactive graphical user-interface for analyzing and manipulating time-series projections
CN105228033B (zh) * 2015-08-27 2018-11-09 联想(北京)有限公司 一种视频处理方法及电子设备
US9959872B2 (en) * 2015-12-14 2018-05-01 International Business Machines Corporation Multimodal speech recognition for real-time video audio-based display indicia application
US10331490B2 (en) 2017-11-16 2019-06-25 Sas Institute Inc. Scalable cloud-based time series analysis
US10338994B1 (en) 2018-02-22 2019-07-02 Sas Institute Inc. Predicting and adjusting computer functionality to avoid failures
US10255085B1 (en) 2018-03-13 2019-04-09 Sas Institute Inc. Interactive graphical user interface with override guidance
US10560313B2 (en) 2018-06-26 2020-02-11 Sas Institute Inc. Pipeline system for time-series data forecasting
US10685283B2 (en) 2018-06-26 2020-06-16 Sas Institute Inc. Demand classification based pipeline system for time-series data forecasting
CN110197665B (zh) * 2019-06-25 2021-07-09 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0293598A (ja) * 1988-09-30 1990-04-04 Mitsubishi Electric Corp 音声認識装置及び学習方法
JP2000298498A (ja) * 1999-03-11 2000-10-24 Fuji Xerox Co Ltd オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
JP2000311180A (ja) * 1999-03-11 2000-11-07 Fuji Xerox Co Ltd 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
JP2000322450A (ja) * 1999-03-11 2000-11-24 Fuji Xerox Co Ltd ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム
WO2002052440A1 (en) * 2000-12-22 2002-07-04 Koninklijke Philips Electronics N.V. System and method for locating boundaries between video programs and commercial using audio categories
JP2002207753A (ja) * 2001-01-10 2002-07-26 Teijin Seiki Co Ltd マルチメディア情報記録作成提供システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697523B1 (en) * 2000-08-09 2004-02-24 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion and color descriptors
US7302451B2 (en) * 2004-05-07 2007-11-27 Mitsubishi Electric Research Laboratories, Inc. Feature identification of events in multimedia

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0293598A (ja) * 1988-09-30 1990-04-04 Mitsubishi Electric Corp 音声認識装置及び学習方法
JP2000298498A (ja) * 1999-03-11 2000-10-24 Fuji Xerox Co Ltd オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
JP2000311180A (ja) * 1999-03-11 2000-11-07 Fuji Xerox Co Ltd 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
JP2000322450A (ja) * 1999-03-11 2000-11-24 Fuji Xerox Co Ltd ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム
WO2002052440A1 (en) * 2000-12-22 2002-07-04 Koninklijke Philips Electronics N.V. System and method for locating boundaries between video programs and commercial using audio categories
JP2004517518A (ja) * 2000-12-22 2004-06-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオカテゴリを用いて番組境界及びコマーシャル境界の位置を見つけるシステム及び方法
JP2002207753A (ja) * 2001-01-10 2002-07-26 Teijin Seiki Co Ltd マルチメディア情報記録作成提供システム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006058874A (ja) * 2004-08-20 2006-03-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2007328311A (ja) * 2006-06-07 2007-12-20 Ind Technol Res Inst マルチメディアデータ管理方法とその装置
JP4699954B2 (ja) * 2006-06-07 2011-06-15 財団法人工業技術研究院 マルチメディアデータ管理方法とその装置
JP2011137817A (ja) * 2009-12-29 2011-07-14 Mitsubishi Electric Research Laboratories Inc ストリーミング測定値からストリーミング信号を再構築するための方法
WO2012093430A1 (ja) * 2011-01-05 2012-07-12 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
JPWO2012093430A1 (ja) * 2011-01-05 2014-06-09 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
JP5658285B2 (ja) * 2011-01-05 2015-01-21 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 興味区間抽出装置、興味区間抽出方法
US8942540B2 (en) 2011-01-05 2015-01-27 Panasonic Intellectual Property Corporation Of America Interesting section extracting device, interesting section extracting method
WO2018160007A1 (ko) * 2017-02-28 2018-09-07 삼성전자 주식회사 멀티미디어 데이터를 처리하는 방법 및 장치
US10819884B2 (en) 2017-02-28 2020-10-27 Samsung Electronics Co., Ltd. Method and device for processing multimedia data

Also Published As

Publication number Publication date
US7409407B2 (en) 2008-08-05
US20050249412A1 (en) 2005-11-10

Similar Documents

Publication Publication Date Title
US7409407B2 (en) Multimedia event detection and summarization
US7302451B2 (en) Feature identification of events in multimedia
JP5174445B2 (ja) コンピュータにより実施される映像のシーン境界の検出方法
US20050125223A1 (en) Audio-visual highlights detection using coupled hidden markov models
Rui et al. Automatically extracting highlights for TV baseball programs
US7949050B2 (en) Method and system for semantically segmenting scenes of a video sequence
US10134440B2 (en) Video summarization using audio and visual cues
US20040143434A1 (en) Audio-Assisted segmentation and browsing of news videos
JP2006058874A (ja) マルチメディア中の事象を検出する方法
WO2007077965A1 (en) Method and system for classifying a video
JP2009544985A (ja) コンピュータによって実施されるビデオをセグメント化する方法
Wang et al. Automatic sports video genre classification using pseudo-2d-hmm
WO2005093752A1 (en) Method and system for detecting audio and video scene changes
Yahiaoui et al. Generating Summaries Of Multi-Episode Video.
JP5257356B2 (ja) コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム
US7734096B2 (en) Method and device for discriminating obscene video using time-based feature value
Radhakrishnan et al. A time series clustering based framework for multimedia mining and summarization using audio features
US20060074893A1 (en) Unit for and method of detection a content property in a sequence of video images
Radhakrishnan et al. A content-adaptive analysis and representation framework for audio event discovery from" unscripted" multimedia
Divakaran et al. Video mining using combinations of unsupervised and supervised learning techniques
Li et al. Movie content analysis, indexing and skimming via multimodal information
Parshin et al. Statistical audio-visual data fusion for video scene segmentation
Benini et al. Audio-Visual VQ Shot Clustering for Video Programs
Wilson et al. Broadcast video content segmentation by supervised learning
Parshyn et al. Video segmentation into scenes using stochastic modeling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110726