JP2007060606A - ビデオの自動構造抽出・提供方式からなるコンピュータプログラム - Google Patents

ビデオの自動構造抽出・提供方式からなるコンピュータプログラム Download PDF

Info

Publication number
JP2007060606A
JP2007060606A JP2005276683A JP2005276683A JP2007060606A JP 2007060606 A JP2007060606 A JP 2007060606A JP 2005276683 A JP2005276683 A JP 2005276683A JP 2005276683 A JP2005276683 A JP 2005276683A JP 2007060606 A JP2007060606 A JP 2007060606A
Authority
JP
Japan
Prior art keywords
video
similar
video signal
segment
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005276683A
Other languages
English (en)
Inventor
Yoshiaki Ito
慶明 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2005276683A priority Critical patent/JP2007060606A/ja
Publication of JP2007060606A publication Critical patent/JP2007060606A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】ビデオ信号(音響・映像信号)などの音響データ、映像データから、番組内の音楽部分、音声部分を自動的に判別し、ユーザの要求に応じたビデオ区間を提供するとともに、番組のハイライトシーンなどのダイジェストを作成するための装置および方法とその方法を実現するコンピュータプログラムを提供する。
【解決手段】ビデオ信号(音響・映像信号)を入力として、ビデオの自動構造抽出方式はまずビデオ信号の音響的および映像的特徴ベクトルをフレーム毎に抽出する。次に特徴ベクトルが一定のフレーム数入力されるとセグメントを生成し、生成されたセグメントと以降入力される特徴ベクトル列とをフレームと同期して類似性・非類似性の判定を行う。類似と判断された複数の類似区間のペアを用いて類似ビデオ区間を判定し、音楽・音声、ハイライトなどの類似構造および境界位置を抽出する。これらの分割されたビデオ区間を用いてユーザの要求に応じたビデオ区間の提供を行う。
【選択図】図1

Description

本発明はビデオ信号中の音響・映像信号の短時間特徴ベクトルおよび一定長の部分区間(セグメント)の類似性/同一性を手掛かりとしたビデオの自動的な境界抽出方法および構造抽出方式、ユーザへの適切なビデオ区間の提供方式およびその方式を実現するコンピュータプログラムに関するものである。
近年のパーソナルコンピュータ・インターネットの発展、ハードディスクビデオレコーダーの普及に伴って、一般のユーザがビデオ信号をビデオデータとして容易かつ大量に扱うようになった。このように蓄積され、利用可能なビデオデータは今後さらに増加すると考えられるが、一般にビデオデータにはテキストで与えられた付加的な情報は付与されていない。近年の電子的なテレビ番組が一部利用可能となり、番組単位の情報付与、ユーザへの提供が可能であるが、番組内のビデオ内容については電子的に扱える情報がない。番組内にキーワード付けを行うことも考えられるが、その作業コストは非常に大きく現実的ではない。
ビデオおける番組内の音楽や会話などの構造や、ある番組内の特定部分と他の番組内の特定部分との関連・構造が自動的に抽出することができれば、ユーザが蓄積されたビデオ中の見たい部分を検索し適切な部分から見ることができ、同時に関連するビデオ区間を抽出・鑑賞することもできる。
ビデオの検索に関しては、特許公開2005−63432号公報はウェブページ、XMLファイル、新聞といった構造化文書から検索を行う方法であるが、番組内の情報に関しては十分なテキスト記述が常に提供されていないため、これらの情報を利用することは困難である。特開平10−257436号公報では、動画像をショットに分割し、分割されたショットの類似度を用いて動画像の自動階層構造化方法が提供されている。この方法は画像の類似性により提供部分を判定しているため、同一の音楽部分であっても撮影方向が変化すれば異なるものと扱われる。さらに、内容的な類似性、重要性が看過され、ユーザの望ましい部分との対応判断が困難である。また、上記の様に画像の特徴を用いる手法以外にも、音声認識や字幕認識等によるビデオの解釈手法が研究されている。
発明が解決しようとする課題
ビデオにおける番組は音楽や会話などから構成されているが、現状の技術では番組内の音声部分だけの抽出、およびその音声の自動認識とテキスト化は容易ではない。また音楽部分や一曲のまとまりを特定すること、楽曲と音声部分の境界を検出することも実現されていない。
番組と他の番組との関連に関しては、電子的なテレビ番組を利用して情報を得ることができるが、番組間に同じあるいは類似する内容や映像・音響信号があったとしてもそれに関連する情報は得られない。例えば、あるスポーツ放送番組とその結果を放送するニュース番組との間では内容的に類似する/同一である部分構造があるにも関わらずその対応情報を得ることができない。また世間で話題になっているニュースは様々なニュース番組で放送され、番組間のビデオ構造が存在するが、話題となっている高頻度で放送されるニュースなどの構造を得ることは実現されていない。
上述のように、放送されているあるいは蓄積されたビデオ信号における番組内の音声、楽曲などの構造、および番組と番組におけるトピック/ビデオクリップ間の対応等の構造については、自動的に構造として抽出することは現状ではできていない。
本発明は、従来の装置が着目していなかった問題を解決しようとするものであり、放送されているあるいは蓄積されたビデオ信号における番組内の音声、楽曲の位置情報、および番組と番組におけるトピック/ビデオクリップ間の対応等のビデオの構造を、音響的あるいは映像的な類似部分区間あるいは同一部分区間を精査することにより、自動的に抽出、ユーザに提供することを目的とするものである。これにより、ユーザは音楽番組中の曲の出だしのみを見たり、スポーツ番組中のニュースでも取りあげられるダイジェスト部分のみを見ることを可能にするものである。
本発明は上記目的を達成するために、ビデオ信号(音響・映像信号)を入力として、ビデオ信号の音響的な特徴を音響フレーム毎に抽出する音響特徴抽出装置と、映像的な特徴を映像フレーム毎に抽出する映像特徴抽出装置と、前記フレーム毎の特徴データを一定のフレーム数毎のセグメントに分割するセグメント分割装置と、前記セグメントと他の特徴データ系列とをフレームと同期して類似性・非類似性(類似度)を計算するフレーム同期型セグメント照合装置と、前記フレーム同期型セグメント照合部によって得られた類似度から、類似する音響的な部分区間ペアおよび映像的な部分区間ペアを特定する局所的類似区間特定装置と、類似と判断された複数の類似区間ペアを用いて類似ビデオ区間を判定する大局的類似構造抽出装置と、前記大局的類似構造抽出装置によって決定されたビデオ境界について前記音響・映像特徴抽出装置で求めた特徴データを精査することによって、より精緻な境界位置を判定する類似構造精緻化装置と、類似ビデオ区間を用いてユーザに適切なビデオ区間を提供するビデオ構造提供装置とを備えることを特徴とする。
図1は本発明のビデオの自動構造抽出・提供方法の概念を示す構成図である。
本発明のビデオの自動構造抽出・提供装置における音響特徴抽出装置による作用は、入力されたビデオの音響・映像信号から、音響的な特徴が音響フレーム毎に抽出される。映像特徴抽出装置による作用は、映像的な特徴が映像フレーム毎に抽出される。音響・映像の特徴データは、複数次元の浮動小数点ベクトル列として出力される。
本発明のビデオの自動構造抽出・提供装置におけるセグメント分割装置およびフレーム同期型セグメント照合装置による作用は、フレーム毎に得られた音響特徴ベクトル列と映像特徴ベクトル列を、1秒程度の一定長のセグメント毎に分割していき、全てのセグメントと全ての入力特徴ベクトル列との類似性・非類似性(類似度)をフレームと同期して計算し、セグメント毎に類似度が各時刻で出力される。
本発明のビデオの自動構造抽出・提供装置における局所的類似区間特定装置による作用は、前記フレーム同期型セグメント照合部によって出力されるセグメント毎の各時刻での類似度から、音響的に類似する(あるいは同一の)部分区間ペアおよび映像的に類似する(あるいは同一の)部分区間ペアが特定され、音響的類似区間ペアおよび映像的類似区間ペアが出力される。
本発明のビデオの自動構造抽出・提供装置における大局的な類似構造抽出装置および類似構造精緻化装置による作用は、1つの番組内で前記類似する(あるいは同一の)複数の類似区間ペアの出現位置、出現頻度、連鎖情報を分析することで、音楽の出現位置情報や音楽と音楽および音楽と会話部分の自動的な境界抽出・分割が行われ、それらの境界位置などの番組内構造が出力される。また、番組間で前記類似する複数の類似区間ペアの出現位置、出現頻度、連鎖情報を分析することで、ビデオデータ中の重要部分、あるいは話題になっている部分などが判明し番組間構造が出力される。
本発明のビデオの自動構造抽出装置におけるビデオ構造提供装置による作用は、前記の番組内音楽の出現位置情報、音声部分の話題位置情報などの番組内ビデオ構造情報、およびビデオデータ中の重要部分などの番組間ビデオ構造情報を用い、ユーザの要求に応じてビデオ中の適切な部分区間がユーザに提供される。
本発明のビデオの自動構造抽出装置は、放送中の音響・映像信号およびハードディスクなどに記録されたほとんど全ての音響・映像信号(ビデオデータ)に適用可能である。番組内ビデオ構造を抽出することで、ユーザは音楽番組内の音楽部分の開始・終了位置、会話部分などの番組内構造を把握することができるようになり、音楽部分のみを見る、会話部分のみを見る、音楽のイントロ部分のみを次々に見るといった効率的なビデオの鑑賞が可能になる。
番組間のビデオ構造を抽出することで、繰り返される映像、言葉、音楽などが抽出され、ユーザは現在話題になっているトピック、ニュース、音楽を簡単に把握することができる。
さらに、実況放送されたスポーツ番組とスポーツニュース番組と間で構造を抽出することで、ニュース映像中の当該スポーツ部分を抽出することができ、ユーザは見たいスポーツ放送区間を簡単に選択することが可能となる。また、実況されたスポーツ番組中のハイライトシーンを特定することができ、ユーザに当該スポーツ番組のダイジェストの提供が可能となる。
本発明のビデオの自動構造抽出装置は、図面を参照しながら詳細に説明され、これらの図面では同様な要素あるいはステップは同様な参照符号によって示されている。
図1は本発明のビデオの自動構造抽出方法およびその方式を実現するコンピュータプログラムの構成図である。
本装置の入力は、放送中の音響・映像信号およびハードディスクなどに記録されたほとんど全ての音響・映像信号(ビデオデータ)001である。最初に音響特徴抽出装置002が、入力された音響信号を分析し音響フレーム毎の音響特徴ベクトル列003に変換し、映像特徴抽出装置004が、入力された映像信号を分析し映像フレーム毎の映像特徴ベクトル列005に変換する。
音響特徴ベクトルとしては、メルケプストラム係数およびその時間動的特徴量、音響パワー、音響パワーの動的特徴量などを用いる。映像特徴ベクトルとしては、映像信号中のRGB値を領域毎に平滑化したものや、フレーム間差分情報などを用いる。
セグメント分割装置006によって、1つの番組に関する前記音響特徴ベクトル列および映像特徴ベクトル列を1秒などの一定のフレーム数(NCDPフレーム)のセグメントに分割される。異なる番組と照合する場合は、異なる番組の特徴ベクトル列と各セグメントとをフレーム同期型セグメント照合装置009によって照合すればよい。同一番組内の類似部分区間を照合する方法を図2に示す。当該番組の特徴ベクトル列がNCDPフレーム入力されると、1つのセグメントが構成される。セグメントは入力フレームと同期して生成される。音響のフレーム周期と映像のフレーム周期は異なるため、それぞれについて異なるフレーム数の音響セグメント007と映像セグメント008となる。
フレーム同期型セグメント照合装置009によって、前記の音響セグメントおよび映像セグメントそれぞれに対し、入力される音響特徴ベクトル列および映像特徴ベクトル列を、入力フレームと同期して連続して照合し、各セグメントと、入力される部分区間との非類似性を累積距離として毎時刻出力される。
前記のフレーム同期型セグメント照合装置009における照合方法にはセグメント連続非線形照合法010を用いる。本方法は図2に示すように、各のセグメントがセグメント分割装置006によって構成された時点から連続動的計画法により,以降の入力データとの照合が開始される.
Figure 2007060606
られる。この動的計画法で用いる傾斜制限は計算を簡単にするため、図3で示す非対称傾斜制限とする。図3で示す傾斜制限のうち、(2)のパスのみに限定するとセグメント連続線形照合法が実現される。D(t,j)はセグメントPの第jフレームと入力フレームtとの局所距離として、2つのフレームの特徴ベクトル間のユークリッド距離等として計算される。
Figure 2007060606
このときの初期条件は次に示す式で与えられる。
Figure 2007060606
この一連の処理は入力フレームと同期して行うことができ、セグメント毎に各入力時刻で入力特徴ベクトル列との非類似性を表す累積距離が計算される.
局所的類似区間特定装置011で用いた具体的な実施例を示す。前記累積距離はセグメント毎に毎時刻得られ、これらの累積距離が図4のように局所最小となり、相対的に小さくなる時、類似区間ペアと判定する.本方式では距離の閾値を定めず、各セグメントの局所最小となる累積距離に基づいて,各セグメントに対し上位の一定の個数m個、全体としてm×N個の類似区間ペア候補が出力される。類似区間ペア候補m×N個の中から、累積距離が小さい順に上位m’×N個(m’≦m)を抽出し、類似区間ペアとみなす。音響的に類似する場合は音響類似区間ペア012が、映像的に類似する場合は映像類似区間ペア013がそれぞれ出力される。
大局的類似構造抽出装置014で用いた具体的な実施例を図5に示す。まず、局所的類似区間特定装置011により検出されたそれぞれの類似区間ペアを直線で結び、各セグメント上でこれらの直線の通過頻度を数え、図5に示したセグメント毎の通過頻度ヒストグラムを作成する。図5中の山の部分は,類似する部分がその前後に多く出現し、山内部には類似構造があると判断できる。音楽であれば同一曲内と、音声であれば同一の話題内と見ることができる。一方,谷部分はその前後において非類似構造が現れていると判断できる。音楽であれば曲の境界と、音声であればトピックの境界と、あるいは音楽と音声の境界と推定できる。音響的な山からは大まかな音響境界位置が、映像類似ペアで構成された山からは大まかな映像境界位置が出力される。
類似構造精緻化装置015によって前記大局的類似構造抽出装置によって抽出されたビデオ境界について前記音響・映像特徴抽出装置で求めた特徴ベクトルを精査することで、より精緻な音響境界位置016、映像境界位置017が出力される。
局所的類似区間特定装置011によって類似と判断された複数の音響類似区間ペア012および映像類似区間ペア013、および類似する部分の繰り返し構造を大局的類似構造抽出装置014によって分析した結果、番組内については、楽曲毎の音楽部分あるいは音声部分毎の音響境界位置・映像境界位置を含んだ番組内構造が得られる。また、番組間については、関連するトピック間の位置に関しての音響境界位置・映像境界位置を含んだ番組間構造が得られる。
ビデオ構造提供装置018によって、前記の実施方式によって得られたビデオ境界、ビデオ構造を利用し、ユーザに適切なビデオ区間が提供される。
本実施例を用いて、RWCポピュラー音楽の100曲のデータを繋げたデータで楽曲境界の検出を試みたところ、抽出した100箇所の境界中85%が正しい境界という性能が得られている。
1つの音楽番組に適用することにより、楽曲毎のビデオ区間、音声など楽曲以外のビデオ区間に分割することができ、音楽部分のみをユーザに提供することや、音楽以外の部分をユーザに提供すること、楽曲部分の出だしのみを順次提供することが可能となり、ユーザは容易に番組内の概観することができるようになる。
1つのスポーツ実況番組に適用することにより、繰り返し放送されたハイライトシーン(サッカーであればゴールシーンなど)が自動的に抽出され、ユーザはその区間だけを鑑賞することが可能となる。
複数のニュース番組間に適用することにより、現在話題となっている(繰り返し放送されたニュース、キーワード)が自動的に抽出され、そのニュースおよびキーワード部分をユーザに提供することが可能となる。同様に、複数の音楽番組間に適用することにより、現在流行している(繰り返し放送された楽曲)が自動的に抽出され、その楽曲部分をユーザに提供することができる。
スポーツの実況中継とスポーツニュース番組間に適用することにより、スポーツニュース番組で取り上げられたハイライトシーンと実況中継中のビデオ区間との対応関係が自動的に抽出され、ユーザは実況中継の中から、ハイライトに関する部分およびその前後の区間だけを鑑賞するなど、柔軟な鑑賞が可能となる。また、スポーツニュース内のスポーツの種類によるビデオ区間の分割およびユーザへの提供が可能となる。例えば、スポーツニュースとサッカー実況中継の類似構造を抽出することで、スポーツニュース内におけるサッカー部分が自動的に抽出でき、スポーツニュース内のサッカー部分のみの鑑賞などが可能となる。また、録画したスポーツ実況番組の中から、ニュースで取り挙げられたゴールシーンなどのハイライト部分のみの鑑賞も可能となる。
本発明の概念および一実施例を示す構成図である。 セグメント連続非線形照合法におけるセグメント構成方式と照合領域を示す図である。 セグメント連続非線形照合法における動的計画法で用いる傾斜制限を示す図である。 セグメント連続非線形照合法における類似区間ペア検出のためのセグメント毎の累積距離の局所最小位置判定方式を示す図である。 類似構造抽出装置における類似構造を表す山構成方式を示す図である。
符号の説明
001 音響・映像信号
002 音響特徴抽出装置
003 音響特徴ベクトル
004 映像特徴抽出装置
005 映像特徴ベクトル
006 セグメント分割装置
007 音響セグメント
008 映像セグメント
009 フレーム同期型セグメント照合装置
010 セグメント連続非線形照合法
011 局所的類似区間特定装置
012 音響類似区間ペア
013 映像類似区間ペア
014 類似構造抽出装置
015 類似構造精緻化装置
016 精緻な音響境界位置
017 精緻な映像境界位置
018 ビデオ構造提供装置

Claims (7)

  1. テレビ放送等によって得られるビデオ信号(音響・映像信号)を入力として、あるいはDVD・ハードディスク等の記録媒体に順次自動的に記録・蓄積されたビデオ信号を入力として、当該ビデオ信号を一定区間長のセグメントに分割しておくセグメント分割手段と、入力されている音声・映像信号と、前記の蓄積・記録された音響・映像信号における前記セグメントとの間において、動的計画法および線形照合法により、類似性を表す距離を逐次連続的に計算するセグメント照合手段と、前記セグメントの終端位置に対応する距離において類似性・対応区間の判断を行う局所的類似区間特定手段と、当該手段により得られる局所的類似区間同士から音響・映像信号中の大局的な類似構造を判定する大局的類似構造抽出手段と、構造の始まり部分および終了部分の精密な時間的始まり終了位置を短時間の音響的・映像的特徴ベクトルから判定する類似構造精緻化手段と、抽出された類似構造を適切にユーザに提供するビデオ構造提供手段を具えたことを特徴とする自動構造抽出・提供方法および各方式を実現するコンピュータプログラム。
  2. 前記セグメント分割手段は、入力とされた音響・映像信号をその信号を表す特徴ベクトルの時系列データに変換した後、1秒等の一定時間長のセグメントに分割する請求項1に記載の方法。
  3. 前記セグメント照合手段は、現在入力されている音声・映像信号もしくは既に記録・蓄積された音声・映像信号と、既に蓄積・記録された他の音響・映像信号における前記セグメントとの間において、動的計画法および線形照合法により、類似性/同一性を表す距離を逐次連続的に計算する請求項1に記載の方法。
  4. 前記局所的類似区間特定手段は、前記セグメント照合手段により各セグメントにおける現時刻を終端と仮定した場合に得られる類似性距離を相対的基準で、類似する区間あるいは同一の区間の複数の候補を用いて、類似する区間あるいは同一の区間ペアを特定する請求項1に記載の方法
  5. 前記大局的類似構造抽出手段は,前記局所的類似区間特定手段で得られた、音響・映像信号の類似/同一区間ペアの出現位置情報および頻度情報をヒストグラム化し、ビデオ中の纏まった大局的な情報構造として抽出する請求項1に記載の方法
  6. 前記類似構造精緻化手段は、前記大局的類似構造抽出手段により得られた、大局的情報構造における始まり部分および終了部分の精密な時間的始まり終了位置を短時間の音響的・映像的特徴ベクトルから判定し、境界の抽出および分割を精緻に行う請求項1に記載の方法。
  7. ビデオ中の音響的・映像的特徴における類似構造あるいは同一構造を大局的かつ局所的に捉えることで、記録・蓄積された番組内の楽曲単位の位置判定や、番組間の同一あるいは類似構造の位置判定を行い、ビデオの自動的な境界抽出分割および自動的な構造を抽出し、それをユーザの要求に応じて適切に提供する方法。
JP2005276683A 2005-08-25 2005-08-25 ビデオの自動構造抽出・提供方式からなるコンピュータプログラム Pending JP2007060606A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005276683A JP2007060606A (ja) 2005-08-25 2005-08-25 ビデオの自動構造抽出・提供方式からなるコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005276683A JP2007060606A (ja) 2005-08-25 2005-08-25 ビデオの自動構造抽出・提供方式からなるコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2007060606A true JP2007060606A (ja) 2007-03-08

Family

ID=37923628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005276683A Pending JP2007060606A (ja) 2005-08-25 2005-08-25 ビデオの自動構造抽出・提供方式からなるコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2007060606A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010028651A (ja) * 2008-07-23 2010-02-04 Sony Corp 識別モデル再構築装置、識別モデル再構築方法及び識別モデル再構築プログラム
JP2010157871A (ja) * 2008-12-26 2010-07-15 Toshiba Corp 映像再生装置および映像再生方法
CN109691124A (zh) * 2016-06-20 2019-04-26 皮克索洛特公司 用于自动生成视频亮点的方法和系统
CN114493172A (zh) * 2021-12-30 2022-05-13 北京航天智造科技发展有限公司 一种应急产能调配预案推演方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010028651A (ja) * 2008-07-23 2010-02-04 Sony Corp 識別モデル再構築装置、識別モデル再構築方法及び識別モデル再構築プログラム
JP2010157871A (ja) * 2008-12-26 2010-07-15 Toshiba Corp 映像再生装置および映像再生方法
CN109691124A (zh) * 2016-06-20 2019-04-26 皮克索洛特公司 用于自动生成视频亮点的方法和系统
US10970554B2 (en) 2016-06-20 2021-04-06 Pixellot Ltd. Method and system for automatically producing video highlights
CN109691124B (zh) * 2016-06-20 2021-07-27 皮克索洛特公司 用于自动生成视频亮点的方法和系统
CN114493172A (zh) * 2021-12-30 2022-05-13 北京航天智造科技发展有限公司 一种应急产能调配预案推演方法及系统
CN114493172B (zh) * 2021-12-30 2023-11-28 北京航天智造科技发展有限公司 一种应急产能调配预案推演方法及系统

Similar Documents

Publication Publication Date Title
US10733230B2 (en) Automatic creation of metadata for video contents by in cooperating video and script data
US11197036B2 (en) Multimedia stream analysis and retrieval
US9888279B2 (en) Content based video content segmentation
KR100707189B1 (ko) 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
US7336890B2 (en) Automatic detection and segmentation of music videos in an audio/video stream
US10134440B2 (en) Video summarization using audio and visual cues
US8204317B2 (en) Method and device for automatic generation of summary of a plurality of images
US7796860B2 (en) Method and system for playing back videos at speeds adapted to content
JP5145939B2 (ja) 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
US20150301718A1 (en) Methods, systems, and media for presenting music items relating to media content
EP2323046A1 (en) Method for detecting audio and video copy in multimedia streams
Jiang et al. Automatic consumer video summarization by audio and visual analysis
WO2007114796A1 (en) Apparatus and method for analysing a video broadcast
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
JP2010161722A (ja) データ処理装置、データ処理方法、及び、プログラム
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
JP2007097047A (ja) コンテンツの編集装置、コンテンツの編集方法及びコンテンツの編集プログラム
JP2011504034A (ja) オーディオビジュアル信号における意味的なまとまりの開始点を決定する方法
Brezeale et al. Using closed captions and visual features to classify movies by genre
JP2007060606A (ja) ビデオの自動構造抽出・提供方式からなるコンピュータプログラム
Duong et al. Movie synchronization by audio landmark matching
JP4270118B2 (ja) 映像シーンに対する意味ラベル付与方法及び装置及びプログラム
JP2009147775A (ja) 番組再生方法、装置、プログラム及び媒体
Bechet et al. Detecting person presence in tv shows with linguistic and structural features
Haller et al. Audiovisual anchorperson detection for topic-oriented navigation in broadcast news