JP5174445B2 - コンピュータにより実施される映像のシーン境界の検出方法 - Google Patents

コンピュータにより実施される映像のシーン境界の検出方法 Download PDF

Info

Publication number
JP5174445B2
JP5174445B2 JP2007312248A JP2007312248A JP5174445B2 JP 5174445 B2 JP5174445 B2 JP 5174445B2 JP 2007312248 A JP2007312248 A JP 2007312248A JP 2007312248 A JP2007312248 A JP 2007312248A JP 5174445 B2 JP5174445 B2 JP 5174445B2
Authority
JP
Japan
Prior art keywords
video
scene
feature
speech
boundaries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007312248A
Other languages
English (en)
Other versions
JP2008199583A (ja
Inventor
ケヴィン・ダブリュ・ウィルソン
アジェイ・ディヴァカラン
フェング・ニウ
ナヴェーン・ゴエラ
功 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2008199583A publication Critical patent/JP2008199583A/ja
Application granted granted Critical
Publication of JP5174445B2 publication Critical patent/JP5174445B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的には映像のシーン境界の検出に関し、特に、音声特徴及び視覚特徴を用いるシーン境界の検出に関する。
映像(及び映画)では、ショット境界及びシーン境界が、映像の理解、編成及び閲覧に有用となり得る構造を与える。
シャッターが開くとショット境界が生じ、シャッターが閉じる時にもショット境界が生じる。したがって、ショットは、連続した途切れのないフレームシーケンスである。一般に、ドラマ、アクション、及びホームコメディーのショットはおよそ数秒間である。
本明細書中で定義されるように、シーンは意味的に有意な又はまとまりのあるフレームシーケンスである。シーンは一般に数分間にわたる。例えば、一般的なシーンは俳優同士の会話を含む。カメラ(複数可)は通常シーンを、聞き手又は話し手の各俳優が交互に映るいくつかのクローズアップショットとして見せ、時折、ショットがシーン中の全ての俳優を中距離又は遠距離で映す。
種々のジャンルのシーン境界には、そして1つのジャンルのシーン境界でさえ、明らかな類似性があるとは限らないため、シーン境界の検出は難しい。
台本のある又は台本のない映像のシーン境界は、画像差分及び動きベクトル等の低レベルの視覚特徴、並びに音声特徴の分布の差により検出することができる。通常、特徴抽出ステップの後、設定閾値との比較が必要となる(Jiang他著「音声の分割及び分類を利用する映像分割(Video segmentation with the support of audio segmentation and classification)」(Proc. IEEE ICME, 2000)、Lu他著「映像の構造解析及びグラフの最適化による映像の要約化(Video summarization by video structure analysis and graph optimization)」(Proc. IEEE ICME, 2004)、Sundaram他著「映像特徴及び音声特徴を用いる映像のシーン分割(Video scene segmentation using video and audio features)」(Proc. IEEE ICME, 2000)、及びSundaram他著「複数のモデル、特徴及び時間スケールを用いる音声によるシーン分割(Audio scene segmentation using multiple models, features and time scales)」(IEEE ICASSP, 2000)を参照のこと)。
上記技法は全てジャンル別のものである。これは、検出器が或る特定のジャンルの映像に関して訓練され、他のジャンルでは機能しないことを意味する。あらゆるジャンルの映像で機能するシーン検出器を提供することが望ましい。
セマンティック(意味論的な)シーン境界の検出は、以下を含むいくつかの要因のために難しい:訓練データがないこと、様々なジャンルにわたってシーン境界を定義する難しさ、種々の特徴の性能を特性化して比較する体系的な方法がないこと、及び手動調整システムにおいて閾値を決める難しさ。
本発明は、ジャンルに依存しない映像のシーン境界の検出方法を提供する。本方法は、映像のコンテンツのジャンルに関係なくシーン境界を検出するために用いることができる視覚特徴及び音声特徴を抽出する。
本発明は、ジャンルに依存しない、映像のシーン境界を検出するサポートベクターマシン(SVM)を提供する。SVMは、音声ストリーム及び映像ストリームの両方から抽出される特徴組を、明示的な閾値を使用せずに自動的に結合及び比較することを可能にすることによって、多岐にわたるジャンルのコンテンツに機能する。グラウンドトルースとして、広範な映像ジャンルのラベル付けしたシーン境界を用いて、SVMを訓練するための正のサンプル及び負のサンプルを生成する。
本発明は、ホームコメディー、ニュース番組、ドラマ、ハウツービデオ、音楽ビデオ、及びトークショー等の広範な映像のシーン境界を検出するSVMカーネルベースの分類器を提供する。言い換えれば、本発明のシーン検出はジャンルに依存しない。
シーン境界を検出することによって、家庭用電子機器の映像閲覧機能を改良し、ユーザが映像コンテンツをより迅速且つ効率的に管理することを可能にすることができる。したがって、「シーンの変化」とは、映像信号及び/又は音声信号に明確な徴候がある場合もあるし、ない場合もある、意味的に有意な変化を意味する。
さらに、本発明における定義では、「シーンの変化」は数分毎に起こり、これを映像コンテンツの閲覧に有用な粒度と考える。本発明の作業は手動でラベル付けされたグラウンドトルースに依存するため、シーンの変化の操作的定義は、訓練映像においてシーンの変化を位置特定した人の見解に依存する。ホームコメディー及びドラマでは、シーンの変化は通常、撮影場所の変化又は重要な新しい人物の登場に当たる。ニュースの場合、シーンの変化はニュースストーリー間の境界に当たる。トークショーの場合、シーンの変化はゲスト又はスキットの交替に当たる。他のジャンルの映像に関しても同様の決定がなされる。
シーン境界の検出
図1は、本発明の一実施の形態による、ジャンルに依存しない映像のシーン境界の検出方法を示す。本方法への入力は視聴覚ストリーム101である。視聴覚ストリーム101は、音声信号102と、フレーム103のシーケンスの形態の視覚信号とを含む。音声信号102から音声特徴111が抽出され(200)、映像101のフレーム103から視覚信号121が抽出される(300)。音声特徴及び視覚特徴は結合されて(130)特徴ベクトル131が構成される。特徴ベクトルはサポートベクターマシン(SVM)140により処理されて、シーン境界109が検出される。シーン境界は、映像の分割アプリケーション、索引付けアプリケーション及び閲覧アプリケーションにより用いることができる。受信者動作特性曲線(ROC)136の形態のフィードバック136を用いて、性能を測定すると共に、利用可能な特徴ストリームに基づいてより良い入力ベクトルを設計することができる。
サポートベクターマシン
特に、本発明では識別ガウスカーネルSVMを用いる(参照により本明細書中に援用されるHastie他著「統計的学習の要素:データマイニング、推測、及び予測(The Elements of Statistical Learning: Data Mining, Inference, and Prediction)」(Springer, August 2001)を参照のこと)。SVMはシーン境界を検出する2値分類器である。SVMは超平面を用いて、2つの異なるクラスに属するデータ間の分離を最大化する。
訓練
訓練段階145において、分類器140は訓練ベクトル135によりシーン境界及び非シーン境界に対して訓練される。すなわち、訓練ベクトルはラベル付けされている。一実施の形態において、ラベル付けは手動で行われる。訓練は、結合された特徴ベクトル131を分離する最適でおそらくは非線形の決定境界を決める。
1つの目的は、様々な映像コンテンツでシーン境界を非シーン境界と区別することができる特徴を求めることである。言い換えれば、本発明のシーン検出器はジャンルに依存しない。別の目的は、特徴ベクトル131が比較的低い次元数を有することである。さらに、本発明の特徴を容易に利用可能とすると共に計算効率を高めたい。
音声特徴
図2に示すように、音声信号102を44.1KHzでサンプリングし、20msの音声フレームから12個のメル周波数ケプストラム係数(MFCC)201を抽出する(210)。MFCC特徴201に基づいて、1秒毎の音声信号を4つのセマンティッククラス、すなわち、音楽、話し声、笑い声、無音のうちの1つに分類する(220)。なお、他のセマンティッククラスも用いることができる。話し声はさらに男性又は女性に分類することができる。音声の分類220には、ガウス混合モデル(GMM)に対して最尤(ML)推定を用いる(Divakaran他により2006年11月7日付で出願された米国特許出願第11/593,897号「映像分割の方法及びシステム(Method and System for Video Segmentation)」(参照により本明細書中に援用される)を参照のこと)。音声訓練データから各セマンティッククラスのGMMが推定される。これらのセマンティッククラスは、例えば、或るコンテンツのシーン境界に通常伴う音楽の短い一節、又はホームコメディーのシーンの終わりにしばしば起こる笑い声を検出するのに役立つ。
視覚特徴
図3に示すように、各フレームのフレーム番号301を記録し、どのフレーム番号がショット境界302に当たるかを判定する(Lienhart著「自動ショット境界検出アルゴリズムの比較(Comparison of automatic shot boundary detection algorithms)」(SPIE Vol. 3656, pp. 290-301, 1998)(参照により本明細書中に援用される)を参照のこと)。視覚特徴121には動きベクトル、画像差分及びカラーヒストグラムをピクセルレベルで用いることも可能である。
SVM140の特徴ベクトル131をシーン(+)境界及び非シーン(−)境界に関して次のように定義する。
Figure 0005174445
すなわち、本発明の特徴は12次元である。入力ベクトルXは、映像中の特定の時間位置t(秒単位)に関する局所情報を記述する。なお、フレームレート(例えば約30フレーム毎秒)が与えられれば、時間はフレーム番号から直接求めることができる。訓練145のために、手動でラベル付けされたシーン(+)及びランダムに生成される非シーン(−)の時間位置のベクトルXを求める。
ベクトルXの最初の9つの要素は意味ラベルのヒストグラムである。次の2つの成分は特定の時間tの前後の音声分布の差を表し、最後の成分は映像ショット境界302に基づく。各成分は次のように定義される。
前方のヒストグラム:変数x、x、x
前方のヒストグラムは、[t−W,t]の長さの時間窓内のクラスの組{音楽、話し声、笑い声、無音}の中の意味ラベルの数を示し、ここで、Wは選択された窓サイズである。ヒストグラムは合計で1になるように正規化される。4Dヒストグラムのうちの1次元は、残りの3つのヒストグラム値により完全に求められるため、破棄することができる。
中間のヒストグラム:変数x、x、x
中間のヒストグラム変数は、前方のヒストグラムと類似しており、[t−W/2,t+W/2]の長さの窓内の意味ラベルを示す。
後方のヒストグラム:変数x、x、x
後方のヒストグラムは、窓
Figure 0005174445
内のラベルを示す。
バッタチャリヤ形状(Bhattacharyya Shape)及び距離:変数x10、x11
窓[t−W,t]及び窓[t,t+W]に関して低レベルMFCCから推定される単一ガウスモデル間のバッタチャリヤ形状及びマハラノビス距離を求める。バッタチャリヤ形状は
Figure 0005174445
であり、マハラノビス距離は
Figure 0005174445
である。
共分散行列C及びC、並びに平均μ及びμは、時間位置tの前後のMFCCベクトルの対角共分散及び平均を表す。バッタチャリヤ形状及びマハラノビス距離はMFCCの分布の変化に対する感受性が高い。したがって、これらの特徴は、映像中の変化に関する非常に低レベルの手掛かりとなる。
例えば、男性の話し手から女性の話し手への変化を伴うシーン変化の場合、意味ヒストグラムは両シーンが主に話し声を含むことを示すが、大きなMFCCマハラノビス距離が生じる。
平均ショット数:変数x12
最後の要素は、窓[t−W,t+W]内の映像に存在するショット境界の平均数の2倍である。
本発明では、全ての次元に沿って等しい平滑化帯域幅を有するカーネルベースのSVMを用いるため、ベクトルX131の全ての変数がほぼ同じ分散を有することを保証する。W=14秒の最適な窓長は、バッタチャリヤ距離及び意味ヒストグラムを推定するのに十分なデータを提供する。
SVM分類器
SVMは、2つのクラスのデータ、すなわちシーンと非シーンとを分離する最大マージン超平面を見つけようとする教師あり学習手順である。データ点{X,X,...,X}及びクラスラベル{y,y,...,y},y∈{−1,1}が与えられると、SVMは、良好に一般化する2つのクラスの決定境界を構築する。このため、複雑でノイズの多い用途では通常、SVMが分類器として用いられる。本発明の場合、2つのクラスはシーン(+)境界及び非シーン(−)境界である。データ点Xは上述した12Dベクトルである。SVMベースの分類モデルを構築する方法はよく知られている。
SVMの1つの利点は、カーネル関数により入力ベクトルXをより高次元の特徴空間に変換できることである。データはこの空間において、実際には元の入力空間の非線形の境界である超平面により線形分離可能である。本発明の実施態様では、動径基底カーネル:
Figure 0005174445
を用いる。
本発明では、特徴ベクトルX131間のユークリッドL距離Dを用いるが、他の距離関数も可能である。本発明では、カーネル帯域幅の値をγ=2.0に固定するが、追加の訓練データが利用可能であれば、この値をより平滑度の低いものに調整することもできる。訓練サンプルの数は限られているため、ノイズに対処するには平滑な境界が好ましい。ノイズは、音声特徴又は視覚特徴の不正確さ、例えば、意味ラベルの誤分類、ショット境界の見逃し/誤り、ストリームの位置合わせ、及び手動でラベル付けされた境界の不正確さのような様々な形で導入される。
大量のシーン境界を収集する難しさのために、ほとんどの従来技術の技法は、シーン検出のための教師あり学習に焦点を当ててこなかった。しかし、シーン検出問題を分類問題とすることには、決定境界がSVM140によって調整されるため変数の明示的な閾値が必要なくなるという利点がある。さらに、本発明では、特徴の様々な組み合わせを訓練データに対するそれらの性能に基づいて迅速に比較することができる。SVMは、別個の特徴を統合的にモデル化するための統一的な枠組みを提供する。これにより、本発明では、様々なジャンルに依存しない映像コンテンツに対応するために、必要に応じて特徴を追加することができる。
本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び修正を全て網羅することである。
本発明の一実施の形態による映像のシーン境界の検出方法の流れ図である。 本発明の一実施の形態による音声特徴の抽出の概略図である。 本発明の一実施の形態による視覚特徴の抽出の概略図である。

Claims (11)

  1. コンピュータにより実施される映像のシーン境界の検出方法であって、
    種々のジャンルの映像から特徴ベクトルを抽出するステップと、
    前記映像の前記種々のジャンルに依存しないように訓練される、サポートベクターマシンを用いて、前記特徴ベクトルをシーン境界として分類するステップと
    を含み、
    前記映像の音声信号から音声特徴を抽出すること、
    前記映像のフレームから視覚特徴を抽出すること、
    前記音声特徴及び前記視覚特徴を前記特徴ベクトルに結合すること、
    前記音声信号からメル周波数ケプストラム係数(MFCC)を抽出すること、及び
    前記音声信号をセマンティック(意味論)クラスに分類すること
    をさらに含み、
    各特徴ベクトルは、[t−W ,t](ここで、W は約14秒である)の長さの時間窓内の前記音声クラスラベルの数を示す変数x 、x 、x と、[t−W /2,t+W /2]の長さの窓内の前記音声クラスの数を示す変数x 、x 、x と、窓
    Figure 0005174445
    内の音声クラスの数を示す変数x 、x 、x とを含み、変数x 10 、x 11 はそれぞれ、前記窓[t−W ,t]及び窓[t,t+W ]の前記MFCC係数間のバッタチャリヤ形状及びマハラノビス距離であり、変数x 12 は、窓[t−W ,t+W ]内の前記映像に存在するショット境界の平均数の2倍である
    コンピュータにより実施される映像のシーン境界の検出方法。
  2. 前記映像は圧縮されている、請求項1に記載の方法。
  3. 前記分類の結果をフィードバックすることによって、前記特徴の抽出を改善することをさらに含む、請求項1に記載の方法。
  4. 前記映像を前記シーン境界に従って分割することをさらに含む、請求項1に記載の方法。
  5. 訓練映像中の前記シーン境界をラベル付けすることによって、前記サポートベクターマシンを訓練することをさらに含む、請求項1に記載の方法。
  6. 前記セマンティッククラスは、音楽、話し声、笑い声、及び無音を含む、請求項に記載の方法。
  7. 前記話し声は、男性の話し声及び女性の話し声を含む、請求項に記載の方法。
  8. 前記視覚特徴はショット境界を含む、請求項に記載の方法。
  9. 前記バッタチャリヤ形状は、
    Figure 0005174445
    であり、前記マハラノビス距離は、
    Figure 0005174445
    であり、ここで、共分散行列C及びC、並びに平均μ及びμは、前記時間tの前後の前記MFCCベクトルの対角共分散及び平均を表す、請求項に記載の方法。
  10. カーネル関数を用いて前記特徴ベクトルをより高次元の特徴空間に変換することをさらに含む、請求項1に記載の方法。
  11. 前記カーネル関数は動径基底カーネルである、請求項10に記載の方法。
JP2007312248A 2007-02-14 2007-12-03 コンピュータにより実施される映像のシーン境界の検出方法 Expired - Fee Related JP5174445B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/674,750 2007-02-14
US11/674,750 US7756338B2 (en) 2007-02-14 2007-02-14 Method for detecting scene boundaries in genre independent videos

Publications (2)

Publication Number Publication Date
JP2008199583A JP2008199583A (ja) 2008-08-28
JP5174445B2 true JP5174445B2 (ja) 2013-04-03

Family

ID=39427578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007312248A Expired - Fee Related JP5174445B2 (ja) 2007-02-14 2007-12-03 コンピュータにより実施される映像のシーン境界の検出方法

Country Status (4)

Country Link
US (1) US7756338B2 (ja)
EP (1) EP1959393B1 (ja)
JP (1) JP5174445B2 (ja)
CN (1) CN101247470B (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
US7339992B2 (en) 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
US8379915B2 (en) * 2006-11-20 2013-02-19 Videosurf, Inc. Method of performing motion-based object extraction and tracking in video
US8059915B2 (en) * 2006-11-20 2011-11-15 Videosurf, Inc. Apparatus for and method of robust motion estimation using line averages
US8488839B2 (en) * 2006-11-20 2013-07-16 Videosurf, Inc. Computer program and apparatus for motion-based object extraction and tracking in video
US8073854B2 (en) * 2007-04-10 2011-12-06 The Echo Nest Corporation Determining the similarity of music using cultural and acoustic information
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8364660B2 (en) * 2008-07-11 2013-01-29 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8364698B2 (en) 2008-07-11 2013-01-29 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
EP2394246A1 (fr) * 2009-02-06 2011-12-14 France Telecom Procède de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant
US8135221B2 (en) * 2009-10-07 2012-03-13 Eastman Kodak Company Video concept classification using audio-visual atoms
US9508011B2 (en) 2010-05-10 2016-11-29 Videosurf, Inc. Video visual and audio query
CA2814401C (en) * 2010-11-11 2013-12-31 Google Inc. Vector transformation for indexing, similarity search and classification
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
CN102799633B (zh) * 2012-06-26 2015-07-15 天脉聚源(北京)传媒科技有限公司 一种广告视频检测方法
CN103065301B (zh) * 2012-12-25 2015-07-22 浙江大学 一种双向比对视频镜头分割方法
CN104505090B (zh) * 2014-12-15 2017-11-14 北京国双科技有限公司 敏感词的语音识别方法和装置
WO2016164874A1 (en) * 2015-04-10 2016-10-13 Videopura, Llc System and method for determinig and utilizing priority maps in video
US20170154273A1 (en) * 2015-11-30 2017-06-01 Seematics Systems Ltd System and method for automatically updating inference models
US11228817B2 (en) 2016-03-01 2022-01-18 Comcast Cable Communications, Llc Crowd-sourced program boundaries
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN109640100B (zh) * 2018-11-19 2021-04-06 南瑞集团有限公司 一种视频图像再压缩方法
CN116128043B (zh) * 2023-04-17 2023-07-18 中国科学技术大学 视频场景边界检测模型的训练方法和场景边界检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
JP3784289B2 (ja) * 2000-09-12 2006-06-07 松下電器産業株式会社 メディア編集方法及びその装置
CA2493105A1 (en) * 2002-07-19 2004-01-29 British Telecommunications Public Limited Company Method and system for classification of semantic content of audio/video data
US7382933B2 (en) * 2005-08-24 2008-06-03 International Business Machines Corporation System and method for semantic video segmentation based on joint audiovisual and text analysis
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis

Also Published As

Publication number Publication date
US20080193017A1 (en) 2008-08-14
CN101247470A (zh) 2008-08-20
EP1959393A3 (en) 2010-09-08
CN101247470B (zh) 2011-02-02
EP1959393B1 (en) 2011-09-21
EP1959393A2 (en) 2008-08-20
US7756338B2 (en) 2010-07-13
JP2008199583A (ja) 2008-08-28

Similar Documents

Publication Publication Date Title
JP5174445B2 (ja) コンピュータにより実施される映像のシーン境界の検出方法
US7302451B2 (en) Feature identification of events in multimedia
US7409407B2 (en) Multimedia event detection and summarization
US7296231B2 (en) Video structuring by probabilistic merging of video segments
US8200063B2 (en) System and method for video summarization
US20050125223A1 (en) Audio-visual highlights detection using coupled hidden markov models
Kolekar et al. Semantic concept mining based on hierarchical event detection for soccer video indexing
US20120148149A1 (en) Video key frame extraction using sparse representation
US20130251340A1 (en) Video concept classification using temporally-correlated grouplets
Giannakopoulos et al. A multimodal approach to violence detection in video sharing sites
JP2009544985A (ja) コンピュータによって実施されるビデオをセグメント化する方法
Wang et al. Automatic sports video genre classification using pseudo-2d-hmm
JP2006058874A (ja) マルチメディア中の事象を検出する方法
Chasanis et al. Simultaneous detection of abrupt cuts and dissolves in videos using support vector machines
Bae et al. Dual-dissimilarity measure-based statistical video cut detection
Panchal et al. Scene detection and retrieval of video using motion vector and occurrence rate of shot boundaries
Naphade On supervision and statistical learning for semantic multimedia analysis
Goela et al. An svm framework for genre-independent scene change detection
Duan et al. Semantic shot classification in sports video
Li Video shot segmentation and key frame extraction based on SIFT feature
KR101362768B1 (ko) 객체 검출 방법 및 장치
Mironică et al. Beyond bag-of-words: Fast video classification with fisher kernel vector of locally aggregated descriptors
Masneri et al. SVM-based video segmentation and annotation of lectures and conferences
Cricri et al. Multi-sensor fusion for sport genre classification of user generated mobile videos
Lan et al. Multi-level anchorperson detection using multimodal association

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121228

LAPS Cancellation because of no payment of annual fees