JP2009544985A - コンピュータによって実施されるビデオをセグメント化する方法 - Google Patents
コンピュータによって実施されるビデオをセグメント化する方法 Download PDFInfo
- Publication number
- JP2009544985A JP2009544985A JP2009503358A JP2009503358A JP2009544985A JP 2009544985 A JP2009544985 A JP 2009544985A JP 2009503358 A JP2009503358 A JP 2009503358A JP 2009503358 A JP2009503358 A JP 2009503358A JP 2009544985 A JP2009544985 A JP 2009544985A
- Authority
- JP
- Japan
- Prior art keywords
- time
- video
- transition
- marker
- transition matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 title claims description 12
- 230000007704 transition Effects 0.000 claims abstract description 46
- 239000003550 marker Substances 0.000 claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
方法は、ビデオをセグメント化する。ビデオの音声フレームがラベルを用いて分類される。優位ラベルが連続する複数のラベルの継続的な時間間隔に割り当てられる。継続的な時間間隔のスライドする時間窓の意味記述が構築され、スライドする時間窓は時間的に重なり、各時間窓の意味記述は時間間隔の優位ラベルから求められる遷移行列である。遷移行列からマーカが求められ、マーカが出現する頻度は、低頻度閾値と高頻度閾値との間である。次いで、ビデオがマーカの位置においてセグメント化される。
Description
本発明は、包括的にはビデオをセグメント化することに関し、より詳細には、音声信号に従ってビデオをセグメント化することに関する。
ビデオをセグメント化することは、多くのビデオ要約アプリケーション、ビデオ検索アプリケーション、及びビデオブラウジングアプリケーションにおいて重要な課題である。本明細書において使用される場合、ビデオは、視覚情報(画素)を含む映像内容と、音声情報(音響信号)を含む音声内容とを含む。映像内容と音声内容とは同期される。内容は台本がないか、又は台本がある場合がある。
監視イベント及びスポーツイベントから取得される内容のような、台本がない内容は、ハイライトを特定することによってセグメント化することができる。ハイライトは、普通でないイベント又は興味深いイベントを含む、ビデオの任意の部分である。ハイライトはそのビデオの本質を捉えることができるため、ハイライトのみを含むビデオのセグメントはそのビデオの要約を提供することができる。たとえば、スポーツイベントのビデオでは、要約は得点のチャンスを含むことができる。
ニュース及びドラマのような、台本がある内容は通常、一連のシーンとして構造化されている。代表的なシーン又はその部分を見ることによって、その内容の本質を得ることができる。したがって、目次(ToC)ベースのビデオブラウジングによって、台本がある内容の要約が提供される。たとえば、一連のニュース情報から成るニュースビデオは、情報内の各部分のキーフレーム表現を使用して要約又はブラウジングすることができる。ToCの抽出には、セグメント化が使用されることが多い。
視覚内容に基づくビデオセグメント化が既知である。通常、色強度及び動きのような、下位の特徴が使用される。しかしながら、このようなセグメント化は、基礎を成すデータセット(画素)が大きく複雑であるため、複雑であると共に多大な時間を必要とし得る。正確な視覚セグメント化は通常、特定のジャンルに限定され、いかなるタイプの内容にも適用可能というわけではない。視覚セグメント化を成功させるためには、正しい特徴を選択することが重要であり得る。
ビデオは音声内容を使用してセグメント化することもできる。下位の音響特徴が音声内容から抽出される。この下位の特徴は通常、音声内容の周期性、ランダム性、及びスペクトル特性を表す。次いで、既知のデータとの相関によって、シーンセグメント化の最適な閾値を求めることができる。
ほとんどの音声内容は、たとえば発話、音楽、沈黙、拍手、及び歓声のような少数の音声クラスに分類することができる。
図1は、1つの一般的な従来技術の音声分類方法100を示す。音声内容101が方法100に対する入力である。音声内容101はビデオ103の一部とすることができる。音声内容を映像内容104と同期させることができる。音声特徴111が、音声内容101の比較的短いフレーム102から抽出される(110)。このフレームはたとえば約10ミリ秒である。音声特徴111は、たとえば変形離散コサイン変換(MDCT)又はメル周波数ケプストラム係数(MFCC)のような多数の異なる形態を有することができる。
また図2に示されているように、分類器200によって、各フレームの音声特徴111がラベルを用いて分類され、一連の連続するラベル121が生成される。各ラベルは、たとえば拍手、歓声、音楽、発話、及び沈黙のような音声クラスのうちの1つを表す。分類器200は、たとえば拍手、歓声、音楽、発話、及び沈黙のようなトレーニングされたクラスのセット210を有する。各クラスは、たとえばガウス混合モデル(GMM)によってモデル化される。GMMのパラメータは、トレーニングデータ211から抽出される下位の特徴から求められる。音声特徴111は、内容の中の音声特徴111のGMMがトレーニングされた各クラスのGMMに対応する尤度を求めること(220)によって分類することができる。したがって、ラベル121は、音声内容の意味解釈の、下下位の時間的な展開を表す時系列データとみなすことができる。
方法は、ビデオをセグメント化する。ビデオの音声フレームがラベルを用いて分類される。優位ラベルが連続する複数のラベルの継続的な時間間隔に割り当てられる。
継続的な時間間隔のスライドする時間窓の意味記述が構築され、スライドする時間窓は時間的に重なり、各時間窓の意味記述は、その時間間隔の優位ラベルから求められる遷移行列である。
遷移行列からマーカが求められ、マーカが出現する頻度は、低頻度閾値と高頻度閾値との間である。次いで、ビデオがマーカの位置においてセグメント化される。
図3A及び図3Bに示されるように、本発明の実施の形態は、音声内容301に基づいてビデオをセグメント化する方法300を提供する。音声内容の分類されるフレームの一連の連続するラベルl 321が、本方法に入力される。
最初に、フレームを上述のようにラベルl 311を用いて分類する。次いで、優位ラベルL321を時間間隔302内の連続する複数のラベルに割り当てる。この時間間隔はフレームよりも実質的に長い。優位ラベルは、1秒の時間間隔の間に連続するフレームにおいて最も頻繁に出現するラベルである。
優位ラベルL321が使用されてビデオの音声内容の意味記述401が構築される(400)。意味記述401は遷移行列440とヒストグラム430とを含むことができる。図3Bに示すように、意味記述は音声内容301全体、及び時間的に重なる各窓303に関して求めることができる。すなわち、各窓は連続する間隔302の優位ラベルL321を含む。窓は、この間隔よりも実質的に、たとえば30秒長く、互いに時間的に重なり、たとえば時間的に1秒前進する。ヒストグラム430を遷移行列から求めることができる。ラベルL321の総数は、音楽→音楽のような自己遷移が許容される場合に、遷移の回数に等しい。
意味記述401が使用されて、たとえばホームコメディビデオにおけるシーン遷移をマーキングする役割を果たす音楽のようなマーカ620が検出される(610)。典型的には、マーカ620は新たなシーン又は新たなセグメントの開始を示す。マーカは通常、台本があるビデオ内に存在する。台本がある内容の例は、ニュース、ドラマ、ホームコメディ、ハウツー番組、トーク番組等である。このような番組では、シーン遷移は、音楽の特徴的なフレーズを伴うゆるやかなディゾルブから成ることが多い。特別な遷移マーカ又はソースと呼ばれるものは、この非常に短い音楽の一部である。
マーカが発見されると、マーカ620を使用してそのマーカの遷移差640を求める(630)。後述するように、マーカが出現する各時点t0において遷移差640を求める。
遷移差640を求めた(630)後、遷移差640を第1の閾値Th1と比較する(650)。遷移差が閾値Th1よりも大きく、且つ極大でもある場合、対応する時点t0は、(セグメント化)境界350を示す。
マーカ620が発見されない場合(通常は台本がない内容の場合)、各時点t0において意味差530を求め(510)、この意味差530を第2の閾値Th2と比較する(520)。意味差530が閾値Th2よりも大きく、且つ極大でもある場合、時点t0は、境界350を示す。いずれの場合においても、境界350を使用してビデオをセグメント化することができる。
意味記述
本発明の実施の形態のための図4A及び図Bに示すように、2つのタイプの意味記述子を使用する。第1の意味記述子は、クラスi=1,...,MのヒストグラムH(i)430を含む。第2の意味記述子はクラスiからクラスjまでの遷移行列T(i,j)440である。自己遷移(i=j)が許容される。この行列及びヒストグラムを各時間窓303、及び音声内容301全体に関して求めることができる。
本発明の実施の形態のための図4A及び図Bに示すように、2つのタイプの意味記述子を使用する。第1の意味記述子は、クラスi=1,...,MのヒストグラムH(i)430を含む。第2の意味記述子はクラスiからクラスjまでの遷移行列T(i,j)440である。自己遷移(i=j)が許容される。この行列及びヒストグラムを各時間窓303、及び音声内容301全体に関して求めることができる。
好ましい実施の形態では、ヒストグラム及び行列内の値は正規化される。上述のように、ヒストグラムHを遷移行列Tから導出することができる。したがって、概して下記の式において、記号Hは記号Tに置換することができる。
シーンのセグメント化
ニュース、ドラマ、ホームコメディ、トーク番組、音楽テレビ番組等のような異なる内容を有する数時間のビデオの調査の結果、シーン変化は2つのタイプに一般化することができるものと判断する。
ニュース、ドラマ、ホームコメディ、トーク番組、音楽テレビ番組等のような異なる内容を有する数時間のビデオの調査の結果、シーン変化は2つのタイプに一般化することができるものと判断する。
第1のタイプは、意味記述子が大きく変化するときに発生する。このタイプの内容に関しては、意味差530を使用してシーン境界を検出する。第2のタイプはマーカ620によって示される。
意味差の検出
図5に示されるように、時点t0の前の窓tb、及び時点t0の後の窓taに関して意味差Diffsemantic530を以下のように求める(510)ことができる。
図5に示されるように、時点t0の前の窓tb、及び時点t0の後の窓taに関して意味差Diffsemantic530を以下のように求める(510)ことができる。
式中、Ta(i,j)は窓taの遷移行列であり、Tb(i,j)はtbの遷移行列である。Diffsemanticが閾値Th2550よりも大きく、且つ極大560でもある場合、時点t0は境界350を示す。
マーカの検出
マーカは、高すぎもせず低すぎもしない中間の頻度でビデオ全体を通じて出現する、そのクラスの単一のラベルmである。マーカは、内容全体の遷移行列又はヒストグラムのいずれかから求めることができる。したがって、マーカは頻度制約Frlow<T(m,j)<Frhighを満たす(式中、Frlowは低頻度閾値であり、Frhighは高頻度閾値である)。ラベルがかなり頻繁に出現する場合、対応するクラスはおそらく音声内容に欠くことのできない部分であり、マーカとして有効ではあり得ない。同様に、ラベルがかなり低頻度で出現する場合も、ラベルはマーカとして有効ではあり得ない。一実施の形態では、Frhighは約3分の1(one in three)であり、Frlowは約100分の1(one in a hundred)である。
マーカは、高すぎもせず低すぎもしない中間の頻度でビデオ全体を通じて出現する、そのクラスの単一のラベルmである。マーカは、内容全体の遷移行列又はヒストグラムのいずれかから求めることができる。したがって、マーカは頻度制約Frlow<T(m,j)<Frhighを満たす(式中、Frlowは低頻度閾値であり、Frhighは高頻度閾値である)。ラベルがかなり頻繁に出現する場合、対応するクラスはおそらく音声内容に欠くことのできない部分であり、マーカとして有効ではあり得ない。同様に、ラベルがかなり低頻度で出現する場合も、ラベルはマーカとして有効ではあり得ない。一実施の形態では、Frhighは約3分の1(one in three)であり、Frlowは約100分の1(one in a hundred)である。
追加の要件として、マーカに関連付けられるラベルmは、ビデオ全体を通じて適度に分散しているべきである。換言すれば、マーカは、すべてが非常に少数の時点の付近に集中しているべきではない。同様に、マーカは、多数の分離した時点において出現するほど分散しているべきでもない。この制約は、
として表すことができ、式中、
はすべての非自己遷移(すなわちi≠j)をカウントし、T(m,m)はマーカラベルの自己遷移をカウントし、α1は最大分散係数であり、α2は最小分散係数である。一実施の形態では、α1=5.0及びα2=1.5を選択する。
マーカmを求めた後、マーカに関連付けられる時間期間tmの遷移行列Tmを求めることができる。図6を参照されたい。一実施の形態では、tmは0.5秒である。
一実施の形態では、マーカは近似境界として使用することができる。期間tmに関して現在の時点t0の前の期間tb、及び時点t0の後の期間taの遷移差を測定することによって、境界のより正確な推定値を得ることができる。
式中、Taは時間期間taの遷移行列であり、Tbは時間期間tbの遷移行列であり、Tmは時間期間tmの遷移行列である。Difftransitionが閾値Th1よりも大きく、且つ極大でもある場合、対応する時点t0が境界である。本質的に、これは、実質的に時間的に隣接するマーカの集合の中心を位置特定しようと試みる。
本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内でさまざまな他の適応及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入るこのようなすべての変形及び変更を包含することである。
本発明のビデオをセグメント化する方法は、多くの種類のビデオに適用可能である。
Claims (13)
- コンピュータによって実施されるビデオをセグメント化する方法であって、該ビデオは映像内容と音声内容とを含み、該映像内容と該音声内容とは同期され、該方法は、
前記ビデオの前記音声内容の各フレームをラベルを用いて分類するステップであって、一連の連続するラベルを生成するものと、
優位ラベルを前記連続するラベルの各継続的な時間間隔に割り当てるステップであって、該時間間隔の長さは前記フレームの長さよりも実質的に長いものと、
前記継続的な時間間隔のスライドする時間窓の意味記述を構築するステップであって、該スライドする時間窓は時間的に重なり、各該時間窓の長さは前記時間間隔の長さよりも実質的に長く、各該時間窓の前記意味記述は、前記時間間隔の連続する前記優位ラベル間の遷移から求められる遷移行列であるものと、
前記遷移行列からマーカを求めるステップであって、該マーカが出現する頻度は低頻度閾値と高頻度閾値との間であるものと、
前記音声内容において前記マーカの位置にある前記ビデオをセグメント化するステップと、
を含む方法。 - ビデオ全体の音声内容の遷移行列を構築することをさらに含む請求項1に記載の方法。
- 各遷移行列からヒストグラムを構築することをさらに含む請求項1に記載の方法。
- ビデオ全体の音声内容のヒストグラムを構築することをさらに含む請求項3に記載の方法。
- ビデオ全体の遷移ヒストグラム内の遷移の回数は前記ビデオ全体の音声内容の中のラベルの数に等しい請求項1に記載の方法。
- 遷移は連続する優位ラベル間の自己遷移を含む請求項5に記載の方法。
- ビデオ内にマーカが出現する各時点における遷移差を求めることをさらに含む請求項1に記載の方法。
- 遷移差を第1の閾値Th1と比較し、ビデオ内のセグメント化境界を示すことをさらに含む請求項7に記載の方法。
- 遷移行列を正規化することをさらに含む請求項1に記載の方法。
- 低頻度閾値は約3分の1であり、高頻度閾値は約100分の1である請求項1に記載の方法。
- マーカはビデオ全体を通じて適度に分散される請求項1に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/593,897 US8107541B2 (en) | 2006-11-07 | 2006-11-07 | Method and system for video segmentation |
PCT/JP2007/071666 WO2008056720A2 (en) | 2006-11-07 | 2007-11-01 | Method for audio assisted segmenting of video |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009544985A true JP2009544985A (ja) | 2009-12-17 |
Family
ID=39201852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009503358A Withdrawn JP2009544985A (ja) | 2006-11-07 | 2007-11-01 | コンピュータによって実施されるビデオをセグメント化する方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8107541B2 (ja) |
JP (1) | JP2009544985A (ja) |
WO (1) | WO2008056720A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8280539B2 (en) * | 2007-04-06 | 2012-10-02 | The Echo Nest Corporation | Method and apparatus for automatically segueing between audio tracks |
US20100289959A1 (en) * | 2007-11-22 | 2010-11-18 | Koninklijke Philips Electronics N.V. | Method of generating a video summary |
WO2009093525A1 (ja) * | 2008-01-23 | 2009-07-30 | Niigata University | 識別装置、識別方法及び識別処理プログラム |
CN102044242B (zh) | 2009-10-15 | 2012-01-25 | 华为技术有限公司 | 语音激活检测方法、装置和电子设备 |
US8756233B2 (en) * | 2010-04-16 | 2014-06-17 | Video Semantics | Semantic segmentation and tagging engine |
US8699852B2 (en) * | 2011-10-10 | 2014-04-15 | Intellectual Ventures Fund 83 Llc | Video concept classification using video similarity scores |
US8867891B2 (en) * | 2011-10-10 | 2014-10-21 | Intellectual Ventures Fund 83 Llc | Video concept classification using audio-visual grouplets |
CN103500282A (zh) * | 2013-09-30 | 2014-01-08 | 北京智谷睿拓技术服务有限公司 | 辅助观察方法及辅助观察装置 |
US9934785B1 (en) | 2016-11-30 | 2018-04-03 | Spotify Ab | Identification of taste attributes from an audio signal |
EP3621021A1 (en) | 2018-09-07 | 2020-03-11 | Delta Electronics, Inc. | Data search method and data search system thereof |
US10810367B2 (en) * | 2018-11-13 | 2020-10-20 | Disney Enterprises, Inc. | Content processing automation |
CN113255438B (zh) * | 2021-04-12 | 2023-03-31 | 深圳市顺盟科技有限公司 | 一种结构化的录像文件标记方法、系统、主机及存储介质 |
CN115017961B (zh) * | 2022-08-05 | 2022-10-21 | 江苏江海润液设备有限公司 | 基于神经网络数据集增广的润滑设备的智能控制方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6819863B2 (en) | 1998-01-13 | 2004-11-16 | Koninklijke Philips Electronics N.V. | System and method for locating program boundaries and commercial boundaries using audio categories |
US6751354B2 (en) * | 1999-03-11 | 2004-06-15 | Fuji Xerox Co., Ltd | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
AUPS270902A0 (en) | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
US20040143434A1 (en) * | 2003-01-17 | 2004-07-22 | Ajay Divakaran | Audio-Assisted segmentation and browsing of news videos |
WO2005069172A1 (ja) * | 2004-01-14 | 2005-07-28 | Mitsubishi Denki Kabushiki Kaisha | 要約再生装置および要約再生方法 |
-
2006
- 2006-11-07 US US11/593,897 patent/US8107541B2/en not_active Expired - Fee Related
-
2007
- 2007-11-01 JP JP2009503358A patent/JP2009544985A/ja not_active Withdrawn
- 2007-11-01 WO PCT/JP2007/071666 patent/WO2008056720A2/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2008056720A2 (en) | 2008-05-15 |
US20080124042A1 (en) | 2008-05-29 |
WO2008056720A3 (en) | 2008-10-16 |
US8107541B2 (en) | 2012-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009544985A (ja) | コンピュータによって実施されるビデオをセグメント化する方法 | |
US10623829B2 (en) | Systems and methods for multimodal multilabel tagging of video | |
US10108709B1 (en) | Systems and methods for queryable graph representations of videos | |
US7336890B2 (en) | Automatic detection and segmentation of music videos in an audio/video stream | |
US7327885B2 (en) | Method for detecting short term unusual events in videos | |
JP5174445B2 (ja) | コンピュータにより実施される映像のシーン境界の検出方法 | |
JP4442081B2 (ja) | 音声抄録選択方法 | |
US20040143434A1 (en) | Audio-Assisted segmentation and browsing of news videos | |
US7302451B2 (en) | Feature identification of events in multimedia | |
US7555149B2 (en) | Method and system for segmenting videos using face detection | |
US7409407B2 (en) | Multimedia event detection and summarization | |
Bertini et al. | Content-based indexing and retrieval of TV news | |
CN1774717B (zh) | 利用内容分析来概括音乐视频的方法和设备 | |
KR100785076B1 (ko) | 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치 | |
JP2005173569A (ja) | オーディオ信号の分類装置及び方法 | |
JP5218766B2 (ja) | 権利情報抽出装置、権利情報抽出方法及びプログラム | |
JP2008533580A (ja) | オーディオ及び/又はビジュアルデータの要約 | |
JP2005243035A (ja) | アンカーショット決定方法及び決定装置 | |
Dumont et al. | Automatic story segmentation for tv news video using multiple modalities | |
JP2006058874A (ja) | マルチメディア中の事象を検出する方法 | |
US7734096B2 (en) | Method and device for discriminating obscene video using time-based feature value | |
Iwan et al. | Temporal video segmentation: detecting the end-of-act in circus performance videos | |
CN111063360B (zh) | 一种声纹库的生成方法和装置 | |
Bertini et al. | Content based annotation and retrieval of news videos | |
El-Khoury et al. | Unsupervised TV program boundaries detection based on audiovisual features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20110325 |