JP5174445B2 - コンピュータにより実施される映像のシーン境界の検出方法 - Google Patents
コンピュータにより実施される映像のシーン境界の検出方法 Download PDFInfo
- Publication number
- JP5174445B2 JP5174445B2 JP2007312248A JP2007312248A JP5174445B2 JP 5174445 B2 JP5174445 B2 JP 5174445B2 JP 2007312248 A JP2007312248 A JP 2007312248A JP 2007312248 A JP2007312248 A JP 2007312248A JP 5174445 B2 JP5174445 B2 JP 5174445B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- scene
- feature
- speech
- boundaries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
図1は、本発明の一実施の形態による、ジャンルに依存しない映像のシーン境界の検出方法を示す。本方法への入力は視聴覚ストリーム101である。視聴覚ストリーム101は、音声信号102と、フレーム103のシーケンスの形態の視覚信号とを含む。音声信号102から音声特徴111が抽出され(200)、映像101のフレーム103から視覚信号121が抽出される(300)。音声特徴及び視覚特徴は結合されて(130)特徴ベクトル131が構成される。特徴ベクトルはサポートベクターマシン(SVM)140により処理されて、シーン境界109が検出される。シーン境界は、映像の分割アプリケーション、索引付けアプリケーション及び閲覧アプリケーションにより用いることができる。受信者動作特性曲線(ROC)136の形態のフィードバック136を用いて、性能を測定すると共に、利用可能な特徴ストリームに基づいてより良い入力ベクトルを設計することができる。
特に、本発明では識別ガウスカーネルSVMを用いる(参照により本明細書中に援用されるHastie他著「統計的学習の要素:データマイニング、推測、及び予測(The Elements of Statistical Learning: Data Mining, Inference, and Prediction)」(Springer, August 2001)を参照のこと)。SVMはシーン境界を検出する2値分類器である。SVMは超平面を用いて、2つの異なるクラスに属するデータ間の分離を最大化する。
訓練段階145において、分類器140は訓練ベクトル135によりシーン境界及び非シーン境界に対して訓練される。すなわち、訓練ベクトルはラベル付けされている。一実施の形態において、ラベル付けは手動で行われる。訓練は、結合された特徴ベクトル131を分離する最適でおそらくは非線形の決定境界を決める。
図2に示すように、音声信号102を44.1KHzでサンプリングし、20msの音声フレームから12個のメル周波数ケプストラム係数(MFCC)201を抽出する(210)。MFCC特徴201に基づいて、1秒毎の音声信号を4つのセマンティッククラス、すなわち、音楽、話し声、笑い声、無音のうちの1つに分類する(220)。なお、他のセマンティッククラスも用いることができる。話し声はさらに男性又は女性に分類することができる。音声の分類220には、ガウス混合モデル(GMM)に対して最尤(ML)推定を用いる(Divakaran他により2006年11月7日付で出願された米国特許出願第11/593,897号「映像分割の方法及びシステム(Method and System for Video Segmentation)」(参照により本明細書中に援用される)を参照のこと)。音声訓練データから各セマンティッククラスのGMMが推定される。これらのセマンティッククラスは、例えば、或るコンテンツのシーン境界に通常伴う音楽の短い一節、又はホームコメディーのシーンの終わりにしばしば起こる笑い声を検出するのに役立つ。
図3に示すように、各フレームのフレーム番号301を記録し、どのフレーム番号がショット境界302に当たるかを判定する(Lienhart著「自動ショット境界検出アルゴリズムの比較(Comparison of automatic shot boundary detection algorithms)」(SPIE Vol. 3656, pp. 290-301, 1998)(参照により本明細書中に援用される)を参照のこと)。視覚特徴121には動きベクトル、画像差分及びカラーヒストグラムをピクセルレベルで用いることも可能である。
前方のヒストグラムは、[t−WL,t]の長さの時間窓内のクラスの組{音楽、話し声、笑い声、無音}の中の意味ラベルの数を示し、ここで、WLは選択された窓サイズである。ヒストグラムは合計で1になるように正規化される。4Dヒストグラムのうちの1次元は、残りの3つのヒストグラム値により完全に求められるため、破棄することができる。
中間のヒストグラム変数は、前方のヒストグラムと類似しており、[t−WL/2,t+WL/2]の長さの窓内の意味ラベルを示す。
後方のヒストグラムは、窓
窓[t−WL,t]及び窓[t,t+WL]に関して低レベルMFCCから推定される単一ガウスモデル間のバッタチャリヤ形状及びマハラノビス距離を求める。バッタチャリヤ形状は
最後の要素は、窓[t−WL,t+WL]内の映像に存在するショット境界の平均数の2倍である。
SVMは、2つのクラスのデータ、すなわちシーンと非シーンとを分離する最大マージン超平面を見つけようとする教師あり学習手順である。データ点{X0,X1,...,XN}及びクラスラベル{y0,y1,...,yN},yi∈{−1,1}が与えられると、SVMは、良好に一般化する2つのクラスの決定境界を構築する。このため、複雑でノイズの多い用途では通常、SVMが分類器として用いられる。本発明の場合、2つのクラスはシーン(+)境界及び非シーン(−)境界である。データ点Xiは上述した12Dベクトルである。SVMベースの分類モデルを構築する方法はよく知られている。
Claims (11)
- コンピュータにより実施される映像のシーン境界の検出方法であって、
種々のジャンルの映像から特徴ベクトルを抽出するステップと、
前記映像の前記種々のジャンルに依存しないように訓練される、サポートベクターマシンを用いて、前記特徴ベクトルをシーン境界として分類するステップと
を含み、
前記映像の音声信号から音声特徴を抽出すること、
前記映像のフレームから視覚特徴を抽出すること、
前記音声特徴及び前記視覚特徴を前記特徴ベクトルに結合すること、
前記音声信号からメル周波数ケプストラム係数(MFCC)を抽出すること、及び
前記音声信号をセマンティック(意味論)クラスに分類すること
をさらに含み、
各特徴ベクトルは、[t−W L ,t](ここで、W L は約14秒である)の長さの時間窓内の前記音声クラスラベルの数を示す変数x 1 、x 2 、x 3 と、[t−W L /2,t+W L /2]の長さの窓内の前記音声クラスの数を示す変数x 4 、x 5 、x 6 と、窓
コンピュータにより実施される映像のシーン境界の検出方法。 - 前記映像は圧縮されている、請求項1に記載の方法。
- 前記分類の結果をフィードバックすることによって、前記特徴の抽出を改善することをさらに含む、請求項1に記載の方法。
- 前記映像を前記シーン境界に従って分割することをさらに含む、請求項1に記載の方法。
- 訓練映像中の前記シーン境界をラベル付けすることによって、前記サポートベクターマシンを訓練することをさらに含む、請求項1に記載の方法。
- 前記セマンティッククラスは、音楽、話し声、笑い声、及び無音を含む、請求項1に記載の方法。
- 前記話し声は、男性の話し声及び女性の話し声を含む、請求項6に記載の方法。
- 前記視覚特徴はショット境界を含む、請求項1に記載の方法。
- カーネル関数を用いて前記特徴ベクトルをより高次元の特徴空間に変換することをさらに含む、請求項1に記載の方法。
- 前記カーネル関数は動径基底カーネルである、請求項10に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/674,750 | 2007-02-14 | ||
US11/674,750 US7756338B2 (en) | 2007-02-14 | 2007-02-14 | Method for detecting scene boundaries in genre independent videos |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008199583A JP2008199583A (ja) | 2008-08-28 |
JP5174445B2 true JP5174445B2 (ja) | 2013-04-03 |
Family
ID=39427578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007312248A Expired - Fee Related JP5174445B2 (ja) | 2007-02-14 | 2007-12-03 | コンピュータにより実施される映像のシーン境界の検出方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7756338B2 (ja) |
EP (1) | EP1959393B1 (ja) |
JP (1) | JP5174445B2 (ja) |
CN (1) | CN101247470B (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735253B1 (en) | 1997-05-16 | 2004-05-11 | The Trustees Of Columbia University In The City Of New York | Methods and architecture for indexing and editing compressed video over the world wide web |
US7143434B1 (en) | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
US7339992B2 (en) | 2001-12-06 | 2008-03-04 | The Trustees Of Columbia University In The City Of New York | System and method for extracting text captions from video and generating video summaries |
WO2006096612A2 (en) | 2005-03-04 | 2006-09-14 | The Trustees Of Columbia University In The City Of New York | System and method for motion estimation and mode decision for low-complexity h.264 decoder |
US8379915B2 (en) * | 2006-11-20 | 2013-02-19 | Videosurf, Inc. | Method of performing motion-based object extraction and tracking in video |
US8059915B2 (en) * | 2006-11-20 | 2011-11-15 | Videosurf, Inc. | Apparatus for and method of robust motion estimation using line averages |
US8488839B2 (en) * | 2006-11-20 | 2013-07-16 | Videosurf, Inc. | Computer program and apparatus for motion-based object extraction and tracking in video |
US8073854B2 (en) * | 2007-04-10 | 2011-12-06 | The Echo Nest Corporation | Determining the similarity of music using cultural and acoustic information |
WO2009126785A2 (en) | 2008-04-10 | 2009-10-15 | The Trustees Of Columbia University In The City Of New York | Systems and methods for image archaeology |
WO2009155281A1 (en) | 2008-06-17 | 2009-12-23 | The Trustees Of Columbia University In The City Of New York | System and method for dynamically and interactively searching media data |
US8364660B2 (en) * | 2008-07-11 | 2013-01-29 | Videosurf, Inc. | Apparatus and software system for and method of performing a visual-relevance-rank subsequent search |
US8364698B2 (en) | 2008-07-11 | 2013-01-29 | Videosurf, Inc. | Apparatus and software system for and method of performing a visual-relevance-rank subsequent search |
US8671069B2 (en) | 2008-12-22 | 2014-03-11 | The Trustees Of Columbia University, In The City Of New York | Rapid image annotation via brain state decoding and visual pattern mining |
EP2394246A1 (fr) * | 2009-02-06 | 2011-12-14 | France Telecom | Procède de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant |
US8135221B2 (en) * | 2009-10-07 | 2012-03-13 | Eastman Kodak Company | Video concept classification using audio-visual atoms |
US9508011B2 (en) | 2010-05-10 | 2016-11-29 | Videosurf, Inc. | Video visual and audio query |
CA2814401C (en) * | 2010-11-11 | 2013-12-31 | Google Inc. | Vector transformation for indexing, similarity search and classification |
US8923607B1 (en) * | 2010-12-08 | 2014-12-30 | Google Inc. | Learning sports highlights using event detection |
CN102799633B (zh) * | 2012-06-26 | 2015-07-15 | 天脉聚源(北京)传媒科技有限公司 | 一种广告视频检测方法 |
CN103065301B (zh) * | 2012-12-25 | 2015-07-22 | 浙江大学 | 一种双向比对视频镜头分割方法 |
CN104505090B (zh) * | 2014-12-15 | 2017-11-14 | 北京国双科技有限公司 | 敏感词的语音识别方法和装置 |
WO2016164874A1 (en) * | 2015-04-10 | 2016-10-13 | Videopura, Llc | System and method for determinig and utilizing priority maps in video |
US20170154273A1 (en) * | 2015-11-30 | 2017-06-01 | Seematics Systems Ltd | System and method for automatically updating inference models |
US11228817B2 (en) | 2016-03-01 | 2022-01-18 | Comcast Cable Communications, Llc | Crowd-sourced program boundaries |
US9934785B1 (en) | 2016-11-30 | 2018-04-03 | Spotify Ab | Identification of taste attributes from an audio signal |
CN109640100B (zh) * | 2018-11-19 | 2021-04-06 | 南瑞集团有限公司 | 一种视频图像再压缩方法 |
CN116128043B (zh) * | 2023-04-17 | 2023-07-18 | 中国科学技术大学 | 视频场景边界检测模型的训练方法和场景边界检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6714909B1 (en) * | 1998-08-13 | 2004-03-30 | At&T Corp. | System and method for automated multimedia content indexing and retrieval |
JP3784289B2 (ja) * | 2000-09-12 | 2006-06-07 | 松下電器産業株式会社 | メディア編集方法及びその装置 |
CA2493105A1 (en) * | 2002-07-19 | 2004-01-29 | British Telecommunications Public Limited Company | Method and system for classification of semantic content of audio/video data |
US7382933B2 (en) * | 2005-08-24 | 2008-06-03 | International Business Machines Corporation | System and method for semantic video segmentation based on joint audiovisual and text analysis |
US7773813B2 (en) * | 2005-10-31 | 2010-08-10 | Microsoft Corporation | Capture-intention detection for video content analysis |
-
2007
- 2007-02-14 US US11/674,750 patent/US7756338B2/en not_active Expired - Fee Related
- 2007-12-03 JP JP2007312248A patent/JP5174445B2/ja not_active Expired - Fee Related
-
2008
- 2008-01-04 EP EP08000122A patent/EP1959393B1/en not_active Expired - Fee Related
- 2008-01-16 CN CN2008100013754A patent/CN101247470B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080193017A1 (en) | 2008-08-14 |
CN101247470A (zh) | 2008-08-20 |
EP1959393A3 (en) | 2010-09-08 |
CN101247470B (zh) | 2011-02-02 |
EP1959393B1 (en) | 2011-09-21 |
EP1959393A2 (en) | 2008-08-20 |
US7756338B2 (en) | 2010-07-13 |
JP2008199583A (ja) | 2008-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5174445B2 (ja) | コンピュータにより実施される映像のシーン境界の検出方法 | |
US7302451B2 (en) | Feature identification of events in multimedia | |
US7409407B2 (en) | Multimedia event detection and summarization | |
US7296231B2 (en) | Video structuring by probabilistic merging of video segments | |
US8200063B2 (en) | System and method for video summarization | |
US20050125223A1 (en) | Audio-visual highlights detection using coupled hidden markov models | |
Kolekar et al. | Semantic concept mining based on hierarchical event detection for soccer video indexing | |
US20120148149A1 (en) | Video key frame extraction using sparse representation | |
US20130251340A1 (en) | Video concept classification using temporally-correlated grouplets | |
Giannakopoulos et al. | A multimodal approach to violence detection in video sharing sites | |
JP2009544985A (ja) | コンピュータによって実施されるビデオをセグメント化する方法 | |
Wang et al. | Automatic sports video genre classification using pseudo-2d-hmm | |
JP2006058874A (ja) | マルチメディア中の事象を検出する方法 | |
Chasanis et al. | Simultaneous detection of abrupt cuts and dissolves in videos using support vector machines | |
Bae et al. | Dual-dissimilarity measure-based statistical video cut detection | |
Panchal et al. | Scene detection and retrieval of video using motion vector and occurrence rate of shot boundaries | |
Naphade | On supervision and statistical learning for semantic multimedia analysis | |
Goela et al. | An svm framework for genre-independent scene change detection | |
Duan et al. | Semantic shot classification in sports video | |
Li | Video shot segmentation and key frame extraction based on SIFT feature | |
KR101362768B1 (ko) | 객체 검출 방법 및 장치 | |
Mironică et al. | Beyond bag-of-words: Fast video classification with fisher kernel vector of locally aggregated descriptors | |
Masneri et al. | SVM-based video segmentation and annotation of lectures and conferences | |
Cricri et al. | Multi-sensor fusion for sport genre classification of user generated mobile videos | |
Lan et al. | Multi-level anchorperson detection using multimodal association |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121009 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121105 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121228 |
|
LAPS | Cancellation because of no payment of annual fees |