JP2007264652A - ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体 - Google Patents
ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体 Download PDFInfo
- Publication number
- JP2007264652A JP2007264652A JP2007152568A JP2007152568A JP2007264652A JP 2007264652 A JP2007264652 A JP 2007264652A JP 2007152568 A JP2007152568 A JP 2007152568A JP 2007152568 A JP2007152568 A JP 2007152568A JP 2007264652 A JP2007264652 A JP 2007264652A
- Authority
- JP
- Japan
- Prior art keywords
- highlight
- audio
- classification
- segment
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title abstract description 7
- 230000005236 sound signal Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 241001417495 Serranidae Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101100072002 Arabidopsis thaliana ICME gene Proteins 0.000 description 1
- 241000288673 Chiroptera Species 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
【課題】スポーツイベントのオーディオ信号からハイライトを抽出する方法を提供する。オーディオ信号はスポーツビデオの一部でもよい。
【解決手段】まず、特徴のセットがオーディオ信号から抽出される。特徴のセットは、音声分類として音楽と音楽付き音声とを含み、この音声分類に従って分類される。全く同じように分類された特徴の隣接する特徴のセットがグループ化される。特徴のセットが音楽と音楽付き音声とのいずれかに分類された場合は、この音声分類に対応するセグメントを非ハイライトとしてフィルタにより除去する。
【選択図】図1
【解決手段】まず、特徴のセットがオーディオ信号から抽出される。特徴のセットは、音声分類として音楽と音楽付き音声とを含み、この音声分類に従って分類される。全く同じように分類された特徴の隣接する特徴のセットがグループ化される。特徴のセットが音楽と音楽付き音声とのいずれかに分類された場合は、この音声分類に対応するセグメントを非ハイライトとしてフィルタにより除去する。
【選択図】図1
Description
本発明は、包括的にはマルチメディアコンテンツ分析の分野に関し、特にオーディオ系のコンテンツ要約作成に関する。
ビデオ要約作成は、一般的にビデオの簡潔または抽象的な表現を生成するプロセスとして定義することができる。Hanjalic等の「An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis」, IEEE Trans. On Circuits and Systems for Video Technology, Vol.9, No.8, December 1999を参照されたい。ビデオ要約作成に関する従来の研究は、色特徴に基づくクラスタリングを主として重視している。なぜならば、色特徴は抽出が容易であり、雑音に強いからである。要約自体は、ビデオ全体の要約、またはビデオの面白いセグメントを連結したセットのいずれかからなる。
本発明にとって特に関心があるのは、サウンド認識を用いてマルチメディアコンテンツからスポーツハイライトを抽出することである。話し言葉を認識するという特定の問題を主として扱う音声認識とは異なり、サウンド認識は、オーディオ信号を識別し分類するというさらに一般的な問題を扱う。例えば、スポーツイベントのビデオにおいては、観客の拍手、喝采、バットによるボールの打撃、興奮した音声、背景雑音または音楽を識別することが望まれるであろう。サウンド認識は、オーディオコンテンツを解読することではなく、オーディオコンテンツを分類することに関係する。このようにオーディオコンテンツを分類することによって、スポーツイベントから面白いハイライトを見つけることができる。そうすれば、面白いハイライトが始まるところ以降の小部分を再生するだけで、ビデオに素早く目を通すことができるであろう。
ハイライト抽出のためにオーディオコンテンツ分類を使用する従来技術のシステムは、単一のスポーツに注目して分析をしている。野球では、Rui等が、オーディオ信号のみに基づく方向性テンプレートマッチングを用いて、アナウンサーの興奮した音声およびボールとバットの打撃音を検出している。「Automatically extracting highlights for TV baseball programs」, Eighth ACM International Conference on Multimedia, pp.105-115, 2000を参照されたい。ゴルフでは、Hsuが、ゴルフクラブによるボールの打撃を検出するために、オーディオ特徴としてメルスケール周波数ケプストラム係数(MFCC)を、そして分類器として多変量ガウス分布を使用している。「Speech audio project report」, Class Project Report, Columbia University, 2000を参照されたい。
オーディオ特徴
これまでに記述されてきたほとんどのオーディオ特徴は、エネルギー系、スペクトラム系、および知覚系の3つのカテゴリに分類されている。エネルギー系カテゴリの例としては、音声/音楽の分類について、Saunders著の「Real-time discrimination of broadcast speech/music」, Proceedings of ICASSP 96, Vol.II, pp.993-996, May 1996によって用いられた短時間エネルギー、およびScheirer等著の「Construction and evaluation of a robust multifeature speech/music discriminator」, Proc. ICASSP-97, April 1997によって用いられた4Hz変調エネルギーがある。
これまでに記述されてきたほとんどのオーディオ特徴は、エネルギー系、スペクトラム系、および知覚系の3つのカテゴリに分類されている。エネルギー系カテゴリの例としては、音声/音楽の分類について、Saunders著の「Real-time discrimination of broadcast speech/music」, Proceedings of ICASSP 96, Vol.II, pp.993-996, May 1996によって用いられた短時間エネルギー、およびScheirer等著の「Construction and evaluation of a robust multifeature speech/music discriminator」, Proc. ICASSP-97, April 1997によって用いられた4Hz変調エネルギーがある。
スペクトラム系カテゴリの例としては、スペクトラムのロールオフ、スペクトラムフラックス、Scheirer著(前掲)による上述のMFCC、線形スペクトラムペア、そしてLu等著の「Content-based audio segmentation using support vector machines」, Proceeding of ICME 2001, pp.956-959, 2001によるバンド周期性がある。
知覚系カテゴリの例としては、歌や、音楽に重なった音声(speech over music)のようなより多くのクラスを弁別するために、Zhang等著の「Content-based classification and retrieval of audio」, Proceeding of the SPIE 43rd Annual Conference on Advanced Signal Processing Algorithms, Architectures and Implementations, Vol.VIII, 1998によって推定された音程がある。さらに、ガンマトーンフィルタ特徴が人間の聴覚系をシミュレートする。例えば、Srinivasan等著の「Towards robust features for classifying audio in the cuevideo system」, Proceedings of the Seventh ACM Intl' Conf. on Multimedia '99, pp.393-400, 1999を参照されたい。
セットトップ装置およびパーソナルビデオ装置の計算制約から、複数の異なるスポーツイベントのそれぞれについて完全に別個のハイライト抽出方法をサポートすることはできない。したがって、多種類のスポーツビデオからハイライトを抽出する単一のシステムおよび方法が所望されている。
この発明に係るハイライト抽出装置は、スポーツイベントのコンテンツを構成する複数のセグメントからハイライトシーンを含むセグメントを判定抽出するハイライト抽出装置であって、音声信号の特徴に対応した複数の種類の音声分類が記録される記録部と、前記コンテンツを前記複数のセグメントに分割する分割器と、前記分割器で分割された各セグメントの音声信号から抽出された特徴のセットを、前記複数の種類の音声分類に基づいて分類する分類器と、同一の音声分類に分類された隣接する特徴のセットをグループ化するグループ化器と、グループ化されたセットに対して、所定の音声分類に基づいてハイライトシーンを判定し、判定された前記グループ化されたセットに対応するセグメントを前記複数のセグメントから抽出する判定抽出器とを備え、前記複数の種類の音声分類は、音楽と音楽付き音声とを含み、前記分類器は、前記各セグメントのそれぞれの音声信号から抽出された特徴のセットが前記複数の種類の音声分類のうちの音楽と音楽付き音声とのいずれかに分類された場合は、当該分類された音声分類に対応するセグメントを前記複数のセグメントから非ハイライトとしてフィルタにより除去することを特徴とする。
システム構成
図1は、本発明によるスポーツビデオのオーディオ信号からハイライトを抽出するシステムおよび方法100を示している。システム100は、背景雑音検出器110、特徴抽出器130、分類器140、グループ化器150およびハイライト選択器160を含む。分類器は6個のオーディオクラス135、すなわち拍手、喝采、打球、音声、音楽、音楽付き音声を使用する。本発明はスポーツビデオに関して説明されるが、本発明は単なるオーディオ信号、例えばスポーツイベントのラジオ放送にも適用可能であることは理解されよう。
図1は、本発明によるスポーツビデオのオーディオ信号からハイライトを抽出するシステムおよび方法100を示している。システム100は、背景雑音検出器110、特徴抽出器130、分類器140、グループ化器150およびハイライト選択器160を含む。分類器は6個のオーディオクラス135、すなわち拍手、喝采、打球、音声、音楽、音楽付き音声を使用する。本発明はスポーツビデオに関して説明されるが、本発明は単なるオーディオ信号、例えばスポーツイベントのラジオ放送にも適用可能であることは理解されよう。
システム動作
まず、背景雑音111が検出され(110)、入力オーディオ信号101から取り除かれる(120)。以下で説明するように、特徴のセット131が入力オーディオ101から抽出される(130)。特徴のセットは、6個のクラス135に従って分類される(140)。全く同じように分類された特徴の隣接するセット141がグループ化される(150)。
まず、背景雑音111が検出され(110)、入力オーディオ信号101から取り除かれる(120)。以下で説明するように、特徴のセット131が入力オーディオ101から抽出される(130)。特徴のセットは、6個のクラス135に従って分類される(140)。全く同じように分類された特徴の隣接するセット141がグループ化される(150)。
ハイライト161が、グループ化されたセット151から選択される(160)。
背景雑音検出
分類140の前に入力オーディオ信号101からできるだけ多くの背景雑音111を取り除く(120)ために、適応的背景雑音検出方式110を使用する。背景雑音111のレベルは、ハイライト抽出のためにどの種類のスポーツが提示されるかに応じてさまざまである。
分類140の前に入力オーディオ信号101からできるだけ多くの背景雑音111を取り除く(120)ために、適応的背景雑音検出方式110を使用する。背景雑音111のレベルは、ハイライト抽出のためにどの種類のスポーツが提示されるかに応じてさまざまである。
我々の複数スポーツハイライト検出器は、例えばゴルフ、野球、フットボール、サッカー等の異なるスポーツイベントのビデオに対して作用することができる。我々が観察したところでは、ゴルフの観客は通常静かであり、野球ファンは試合中に時折騒がしくなり、サッカーファンは試合中ほとんど最初から最後まで歌い続けている。したがって、単に無音を検出するだけでは不適切である。
我々のオーディオ信号セグメントは0.5秒の持続時間を有する。前処理ステップとして、試合のオーディオトラック内の全セグメントのうちの1/100を選択し、選択されたセグメントの平均エネルギーおよび平均マグニチュードをしきい値として使用して背景雑音セグメントを言明する。無音セグメントもまた、この手法を用いて検出することができる。
特徴抽出
我々の特徴抽出では、オーディオ信号101は、持続時間が30msで、連続するフレームの一対の重なり部分が10msの、重畳するフレームに分割される。各フレームに次のハミング窓関数を乗じる。ここでNは窓内のサンプル数である。
我々の特徴抽出では、オーディオ信号101は、持続時間が30msで、連続するフレームの一対の重なり部分が10msの、重畳するフレームに分割される。各フレームに次のハミング窓関数を乗じる。ここでNは窓内のサンプル数である。
MPEG−7特徴の周波数バンドの下限および上限は62.5Hzおよび8kHzであり7オクターブのスペクトラムにわたる。各サブバンドは1オクターブの4分の1にわたるので28個のサブバンドがある。62.5Hzより低い周波数は追加サブバンドにグループ化される。29個の対数サブバンドエネルギーの正規化の後、30成分のベクトルがフレームを表現する。そして、このベクトルを、あらゆるクラスのPCA空間の最初の10個の主成分上に射影する。
一般化サウンド認識のためのMPEG−7オーディオ特徴
最近、MPEG−7国際標準は、一般的なサウンド分類のための新たな低次元の無相関化スペクトラム特徴を採用した。MPEG−7特徴は、スペクトログラムの線形変換を用いて得られる低次元のスペクトラムベクトルである。それらの特徴は、主成分分析(PCA)および任意の独立成分分析(ICA)に基づく基底射影特徴である。各オーディオクラスについて、PCAが、クラス内の全トレーニング例からの全オーディオフレームの正規化対数サブバンドエネルギーに対して実行される。周波数バンドが、対数スケール、例えばオクターブスケールを用いて決定される。
最近、MPEG−7国際標準は、一般的なサウンド分類のための新たな低次元の無相関化スペクトラム特徴を採用した。MPEG−7特徴は、スペクトログラムの線形変換を用いて得られる低次元のスペクトラムベクトルである。それらの特徴は、主成分分析(PCA)および任意の独立成分分析(ICA)に基づく基底射影特徴である。各オーディオクラスについて、PCAが、クラス内の全トレーニング例からの全オーディオフレームの正規化対数サブバンドエネルギーに対して実行される。周波数バンドが、対数スケール、例えばオクターブスケールを用いて決定される。
メルスケール周波数ケプストラム係数(MFCC)
MFCCは、離散コサイン変換(DCT)に基づいている。MFCCは次のように定義される。
MFCCは、離散コサイン変換(DCT)に基づいている。MFCCは次のように定義される。
ここでKはサブバンドの数であり、Lはケプストラムの所望の長さである。通常は、次元低下の目的上、L≪Kである。
Sk(0≦k<K)は、k番目の三角バンドパスフィルタを通過後のフィルタバンクエネルギーである。周波数バンドは、メル周波数スケール、すなわち1kHzより下では線形スケール、1kHzより上では対数スケール、を用いて決定される。
オーディオ分類
分類140の基本単位は、0.125秒の重なりを有する0.5msのオーディオ信号セグメントである。セグメントは、6個のクラス135のうちの1つに従って分類される。
分類140の基本単位は、0.125秒の重なりを有する0.5msのオーディオ信号セグメントである。セグメントは、6個のクラス135のうちの1つに従って分類される。
オーディオ領域では、さまざまなスポーツにわたるハイライトに関係する共通のイベントがある。面白いイベント、例えばゴルフでのロングドライブ、野球でのヒット、あるいはエキサイティングなサッカーの攻撃の後には、観衆は拍手や大声の喝采によって賞賛を示す。
喝采または拍手が先行または後続する打球のセグメントは、面白いハイライトを示し得る。拍手または喝采の持続時間は、イベントがより面白い時(例えば野球ではホームラン)ほど長い。
また、スポーツビデオには、主として音楽、音声または音楽付き音声のセグメントからなる面白くないセグメントに関係する共通のイベント(例えばコマーシャル)もある。音楽、音声、および音声・音楽として分類されるセグメントは、非ハイライトとしてフィルタをかけて除去することが可能である。
好ましい実施の形態では、分類器としてエントロピー事前隠れマルコフモデル(EP−HMM)を使用する。
エントロピー事前隠れマルコフモデル
モデルパラメータをλで、観測量をOで表す。いかなる事前モデルλiへの偏りもない場合、すなわち
P(λi)=P(λj)、∀i、j
と仮定する場合、最大事後確率(MAP)検定は最尤(ML)検定と等価である。
P(O|λj)≧P(O|λi)、∀i
であれば、ベイズルール
P(λ|O)=(P(O|λ)P(λ))/P(O)
によりOはクラスjに属すると分類される。
モデルパラメータをλで、観測量をOで表す。いかなる事前モデルλiへの偏りもない場合、すなわち
P(λi)=P(λj)、∀i、j
と仮定する場合、最大事後確率(MAP)検定は最尤(ML)検定と等価である。
P(O|λj)≧P(O|λi)、∀i
であれば、ベイズルール
P(λ|O)=(P(O|λ)P(λ))/P(O)
によりOはクラスjに属すると分類される。
しかし、偏りのある確率モデルとして
P(λ|O)=(P(O|λ)Pe(λ))/P(O)、
Pe(λ)=e−H(P(λ))
(ここでHはエントロピーを表す、すなわちエントロピーが小さいほどパラメータの尤度が高い)を仮定する場合には、MAP検定を使用し、
(P(O|λi)e−H(P(λi)))/(P(O|λj)e−H(P(λj)))を式(1)と比較して、Oがクラスiまたはjのいずれに分類されるべきかを調べる。EP−HMMのための、ML−HMMのパラメータを更新するプロセスに対する修正は、期待値最大化(EM)アルゴリズムにおける最大化ステップである。追加的な複雑さはわずかである。その後、セグメントが、同一クラスセグメントの連続性に従ってグループ化される。
P(λ|O)=(P(O|λ)Pe(λ))/P(O)、
Pe(λ)=e−H(P(λ))
(ここでHはエントロピーを表す、すなわちエントロピーが小さいほどパラメータの尤度が高い)を仮定する場合には、MAP検定を使用し、
(P(O|λi)e−H(P(λi)))/(P(O|λj)e−H(P(λj)))を式(1)と比較して、Oがクラスiまたはjのいずれに分類されるべきかを調べる。EP−HMMのための、ML−HMMのパラメータを更新するプロセスに対する修正は、期待値最大化(EM)アルゴリズムにおける最大化ステップである。追加的な複雑さはわずかである。その後、セグメントが、同一クラスセグメントの連続性に従ってグループ化される。
グループ化
分類エラーおよびクラス135によって表現されない他のサウンドクラスの存在のゆえ、分類結果を整理するために後処理方式を提供してもよい。このために、次の観察、「拍手および喝采は通常、持続時間が長く、例えば数個の連続するセグメントにわたる」、を利用する。
分類エラーおよびクラス135によって表現されない他のサウンドクラスの存在のゆえ、分類結果を整理するために後処理方式を提供してもよい。このために、次の観察、「拍手および喝采は通常、持続時間が長く、例えば数個の連続するセグメントにわたる」、を利用する。
拍手または喝采としてそれぞれ分類される隣接するセグメントがそれに従ってグループ化される。最長のグループ化された拍手または喝采セグメントの所定割合より長いグループ化されたセグメントが、拍手または喝采であると言明される。この割合は、ユーザにより選択可能としてもよく、ビデオ中のすべてのハイライトの全長、例えば33%、に依存してもよい。
最終提示
拍手または喝采は通常、何らかの面白いプレー、すなわちゴルフにおけるうまいパット、野球のヒットまたはサッカーにおけるゴールのいずれかの後に起こる。これらのセグメントの正しい分類および識別が、この強い相関によるハイライトの抽出を可能にする。
拍手または喝采は通常、何らかの面白いプレー、すなわちゴルフにおけるうまいパット、野球のヒットまたはサッカーにおけるゴールのいずれかの後に起こる。これらのセグメントの正しい分類および識別が、この強い相関によるハイライトの抽出を可能にする。
拍手または喝采がいつ開始するかに基づいて、この開始点の前後のビデオフレームを識別する一対のタイムスタンプを出力する。これについても、ハイライトを含むフレームの全期間はユーザが選択可能である。そして、これらのタイムスタンプは、最新のビデオプレーヤーのランダムアクセス機能を用いてビデオのハイライトを表示するために使用することができる。
トレーニングおよびテストデータセット
本システムは、テレビ放送のゴルフ、野球およびサッカーイベントから収集したオーディオクリップから得られたトレーニングデータでトレーニングされる。クリップの持続時間は約0.5秒(例えば打球)から10秒超(例えば音楽セグメント)までさまざまである。トレーニングデータの全持続時間は約1.2時間である。
本システムは、テレビ放送のゴルフ、野球およびサッカーイベントから収集したオーディオクリップから得られたトレーニングデータでトレーニングされる。クリップの持続時間は約0.5秒(例えば打球)から10秒超(例えば音楽セグメント)までさまざまである。トレーニングデータの全持続時間は約1.2時間である。
テストデータは、約2時間のゴルフ試合が2つ、3時間の野球試合、そして2時間のサッカー試合を含む4試合のオーディオトラックを含む。テストデータの全持続時間は約9時間である。第1ゴルフ試合の背景雑音レベルは低いが、第2試合のほうは雨の日に行われたので高い。サッカー試合は高い背景雑音を有する。オーディオ信号はすべてモノラルチャネル、サンプルあたり16ビットで、サンプリングレートは16kHzである。
結果
野球、ゴルフまたはサッカーの試合において何が真のハイライトであるかは主観的である。その代わりに、より客観的な拍手および喝采の分類精度を見る。
野球、ゴルフまたはサッカーの試合において何が真のハイライトであるかは主観的である。その代わりに、より客観的な拍手および喝采の分類精度を見る。
これらのイベントとハイライトの間の強い相関を活用する。これらのイベントの高い分類精度は良好なハイライト抽出につながる。4つの試合の拍手または喝采部分を手作業でラベルする。これらのイベントのオンセットおよびオフセットの一対のタイムスタンプを識別する。それらは、分類結果と比較するためのグラウンドトゥルース(フィールドデータ)となる。
それぞれ拍手または喝采として連続的に分類される長さ0.5秒のセグメントがクラスタにグループ化される。そして、これらのクラスタは、それらが最長の拍手または喝采クラスタの選択された割合を超えているかどうかを判定することによって、真の拍手または喝采セグメントであるかどうかがチェックされる。その結果を表1および表2に要約する。
表1の各行は、4つの試合の後処理付きの分類結果を示している。[1]はゴルフ試合、[2]はゴルフ試合、[3]は野球試合、[4]はサッカー試合である。各列は、[A]はグラウンドトゥルースセット内の拍手および喝采クラスタの数、[B]は分類器による拍手および喝采クラスタの数、[C]は分類器による真の拍手および喝采クラスタの数、Dはプレシジョン[C]/[A]、[E]はリコール[C]/[B]である。
表2は、クラスタ化なしの分類結果を示している。
表1および表2では、「プレシジョン−リコール」を用いてパフォーマンスを評価した。プレシジョンは、イベント(例えば拍手または喝采)のうち正しく分類されたものの割合である。リコールは、分類されたイベントのうち本当に正しく分類されたものの割合である。
以上、本発明について、好ましい実施の形態を例として説明したが、種々の他の適応および変更も本発明の精神および範囲内でなされ得ることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内に入るすべてのこのような変形および変更を包含することである。
Claims (5)
- スポーツイベントのコンテンツを構成する複数のセグメントからハイライトシーンを含むセグメントを判定抽出するハイライト抽出装置であって、
音声信号の特徴に対応した複数の種類の音声分類が記録される記録部と、
前記コンテンツを前記複数のセグメントに分割する分割器と、
前記分割器で分割された各セグメントの音声信号から抽出された特徴のセットを、前記複数の種類の音声分類に基づいて分類する分類器と、
同一の音声分類に分類された隣接する特徴のセットをグループ化するグループ化器と、 グループ化されたセットに対して、所定の音声分類に基づいてハイライトシーンを判定し、判定された前記グループ化されたセットに対応するセグメントを前記複数のセグメントから抽出する判定抽出器と、
を備え、
前記複数の種類の音声分類は、音楽と音楽付き音声とを含み、
前記分類器は、前記各セグメントのそれぞれの音声信号から抽出された特徴のセットが前記複数の種類の音声分類のうちの音楽と音楽付き音声とのいずれかに分類された場合は、当該分類された音声分類に対応するセグメントを前記複数のセグメントから非ハイライトとしてフィルタにより除去すること
を特徴とするハイライト抽出装置。 - 分割器は、コンテンツが分割された複数のセグメントの各々の持続時間が0.5秒となるように分割すること
を特徴とする請求項1に記載のハイライト抽出装置。 - スポーツイベントのコンテンツを構成する複数のセグメントからハイライトシーンを含むセグメントを判定抽出するハイライト抽出方法であって、
前記コンテンツを前記複数のセグメントに分割する分割ステップと、
前記分割ステップにおいて分割された各セグメントの音声信号から抽出された特徴のセットと、記録部に記録される、音声信号の各特徴に対応した複数の種類の音声分類とに基づいて、前記各セグメントに対応して、いずれかの前記音声分類を出力する分類ステップと、
同一の音声分類に分類された隣接する特徴のセットをグループ化するグループ化ステップと、
グループ化されたセットに対して、所定の音声分類に基づいてハイライトシーンを判定し、判定された前記グループ化されたセットに対応するセグメントを前記複数のセグメントから抽出する判定抽出ステップと
を備え、
前記複数の種類の音声分類は、音楽と音楽付き音声とを含み、
前記分類ステップは、前記各セグメントのそれぞれの音声信号から抽出された特徴のセットが前記複数の種類の音声分類のうちの音声と音楽付き音声といずれかに分類された場合は、当該分類された音声分類に対応するセグメントを前記複数のセグメントから非ハイライトとしてフィルタにより除去すること
を特徴とするハイライト抽出方法。 - スポーツイベントのコンテンツを構成する複数のセグメントからハイライトシーンを含むセグメントを判定抽出するハイライト抽出プログラムであって、
前記コンテンツを前記複数のセグメントに分割する分割ステップと、
前記分割ステップにおいて分割された各セグメントの音声信号から抽出された特徴のセットと、記録部に記録される、音声信号の各特徴に対応した複数の種類の音声分類とに基づいて、前記各セグメントに対応して、いずれかの前記音声分類を出力する分類ステップと、
同一の音声分類に分類された隣接する特徴のセットをグループ化するグループ化ステップと、
グループ化されたセットに対して、所定の音声分類に基づいてハイライトシーンを判定し、判定された前記グループ化されたセットに対応するセグメントを前記複数のセグメントから抽出する判定抽出ステップと
を備え、
前記複数の種類の音声分類は、音楽と音楽付き音声とを含み、
前記分類ステップは、前記各セグメントのそれぞれの音声信号から抽出された特徴のセットが前記複数の種類の音声分類のうちの音楽と音楽付き音声とのいずれかに分類された場合は、当該分類された音声分類に対応するセグメントを前記複数のセグメントから非ハイライトとしてフィルタにより除去すること
を特徴とするハイライト抽出プログラム。 - 請求項4に記載のハイライト抽出プログラムが記憶された記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/374,017 US20040167767A1 (en) | 2003-02-25 | 2003-02-25 | Method and system for extracting sports highlights from audio signals |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004048403A Division JP2004258659A (ja) | 2003-02-25 | 2004-02-24 | スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007264652A true JP2007264652A (ja) | 2007-10-11 |
Family
ID=32868791
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004048403A Pending JP2004258659A (ja) | 2003-02-25 | 2004-02-24 | スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム |
JP2007152568A Pending JP2007264652A (ja) | 2003-02-25 | 2007-06-08 | ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004048403A Pending JP2004258659A (ja) | 2003-02-25 | 2004-02-24 | スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040167767A1 (ja) |
JP (2) | JP2004258659A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2150046A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
EP2150040A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4036328B2 (ja) * | 2002-09-30 | 2008-01-23 | 株式会社Kddi研究所 | 動画像データのシーン分類装置 |
SG140445A1 (en) * | 2003-07-28 | 2008-03-28 | Sony Corp | Method and apparatus for automatically recognizing audio data |
JP4424590B2 (ja) * | 2004-03-05 | 2010-03-03 | 株式会社Kddi研究所 | スポーツ映像の分類装置 |
JP2006340066A (ja) * | 2005-06-02 | 2006-12-14 | Mitsubishi Electric Corp | 動画像符号化装置、動画像符号化方法及び記録再生方法 |
CN100426847C (zh) * | 2005-08-02 | 2008-10-15 | 智辉研发股份有限公司 | 以语音特征为基础的精采片段检测电路及其相关方法 |
US20100005485A1 (en) * | 2005-12-19 | 2010-01-07 | Agency For Science, Technology And Research | Annotation of video footage and personalised video generation |
JP4321518B2 (ja) * | 2005-12-27 | 2009-08-26 | 三菱電機株式会社 | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 |
US7831112B2 (en) * | 2005-12-29 | 2010-11-09 | Mavs Lab, Inc. | Sports video retrieval method |
US7558809B2 (en) * | 2006-01-06 | 2009-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Task specific audio classification for identifying video highlights |
JP4442585B2 (ja) * | 2006-05-11 | 2010-03-31 | 三菱電機株式会社 | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 |
JP4665836B2 (ja) * | 2006-05-31 | 2011-04-06 | 日本ビクター株式会社 | 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム |
JP4884163B2 (ja) * | 2006-10-27 | 2012-02-29 | 三洋電機株式会社 | 音声分類装置 |
GB2447053A (en) * | 2007-02-27 | 2008-09-03 | Sony Uk Ltd | System for generating a highlight summary of a performance |
CN101636783B (zh) | 2007-03-16 | 2011-12-14 | 松下电器产业株式会社 | 声音分析装置、声音分析方法及系统集成电路 |
JP2008241850A (ja) | 2007-03-26 | 2008-10-09 | Sanyo Electric Co Ltd | 録音または再生装置 |
US9047374B2 (en) * | 2007-06-08 | 2015-06-02 | Apple Inc. | Assembling video content |
US20100257187A1 (en) * | 2007-12-11 | 2010-10-07 | Koninklijke Philips Electronics N.V. | Method of annotating a recording of at least one media signal |
JP2011523291A (ja) * | 2008-06-09 | 2011-08-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ/ビジュアルデータストリームのサマリを生成するための方法及び装置 |
WO2010140355A1 (ja) | 2009-06-04 | 2010-12-09 | パナソニック株式会社 | 音響信号処理装置および方法 |
JP2011015129A (ja) * | 2009-07-01 | 2011-01-20 | Mitsubishi Electric Corp | 画質調整装置 |
US9215538B2 (en) * | 2009-08-04 | 2015-12-15 | Nokia Technologies Oy | Method and apparatus for audio signal classification |
US9473813B2 (en) * | 2009-12-31 | 2016-10-18 | Infosys Limited | System and method for providing immersive surround environment for enhanced content experience |
CN102117304B (zh) * | 2009-12-31 | 2013-03-20 | 鸿富锦精密工业(深圳)有限公司 | 影像搜索装置、搜索系统及搜索方法 |
EP2573763B1 (en) | 2010-05-17 | 2018-06-20 | Panasonic Intellectual Property Corporation of America | Audio classification device, method, program |
US8798992B2 (en) * | 2010-05-19 | 2014-08-05 | Disney Enterprises, Inc. | Audio noise modification for event broadcasting |
US8923607B1 (en) * | 2010-12-08 | 2014-12-30 | Google Inc. | Learning sports highlights using event detection |
JP5132789B2 (ja) * | 2011-01-26 | 2013-01-30 | 三菱電機株式会社 | 動画像符号化装置及び方法 |
CN102427507B (zh) * | 2011-09-30 | 2014-03-05 | 北京航空航天大学 | 一种基于事件模型的足球视频集锦自动合成方法 |
CN103380457B (zh) * | 2011-12-02 | 2016-05-18 | 松下电器(美国)知识产权公司 | 声音处理装置、方法及集成电路 |
CN102547141B (zh) * | 2012-02-24 | 2014-12-24 | 央视国际网络有限公司 | 基于体育赛事视频的视频数据筛选方法及装置 |
US9693030B2 (en) | 2013-09-09 | 2017-06-27 | Arris Enterprises Llc | Generating alerts based upon detector outputs |
BR112016006860B8 (pt) | 2013-09-13 | 2023-01-10 | Arris Entpr Inc | Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente |
US9924148B2 (en) * | 2014-02-13 | 2018-03-20 | Echostar Technologies L.L.C. | Highlight program |
CN103915106B (zh) * | 2014-03-31 | 2017-01-11 | 宇龙计算机通信科技(深圳)有限公司 | 片头生成方法及生成系统 |
US10419830B2 (en) | 2014-10-09 | 2019-09-17 | Thuuz, Inc. | Generating a customized highlight sequence depicting an event |
US10433030B2 (en) | 2014-10-09 | 2019-10-01 | Thuuz, Inc. | Generating a customized highlight sequence depicting multiple events |
US10536758B2 (en) | 2014-10-09 | 2020-01-14 | Thuuz, Inc. | Customized generation of highlight show with narrative component |
US11863848B1 (en) | 2014-10-09 | 2024-01-02 | Stats Llc | User interface for interaction with customized highlight shows |
JP6413653B2 (ja) * | 2014-11-04 | 2018-10-31 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
US10129608B2 (en) * | 2015-02-24 | 2018-11-13 | Zepp Labs, Inc. | Detect sports video highlights based on voice recognition |
US10133538B2 (en) * | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
US10356456B2 (en) * | 2015-11-05 | 2019-07-16 | Adobe Inc. | Generating customized video previews |
CN106992012A (zh) * | 2017-03-24 | 2017-07-28 | 联想(北京)有限公司 | 语音处理方法及电子设备 |
US11138438B2 (en) | 2018-05-18 | 2021-10-05 | Stats Llc | Video processing for embedded information card localization and content extraction |
US11025985B2 (en) * | 2018-06-05 | 2021-06-01 | Stats Llc | Audio processing for detecting occurrences of crowd noise in sporting event television programming |
US11264048B1 (en) * | 2018-06-05 | 2022-03-01 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
US20200037022A1 (en) * | 2018-07-30 | 2020-01-30 | Thuuz, Inc. | Audio processing for extraction of variable length disjoint segments from audiovisual content |
CN109065071B (zh) * | 2018-08-31 | 2021-05-14 | 电子科技大学 | 一种基于迭代k-means算法的歌曲聚类方法 |
JP6683231B2 (ja) * | 2018-10-04 | 2020-04-15 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP6923033B2 (ja) * | 2018-10-04 | 2021-08-18 | ソニーグループ株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
US11024291B2 (en) | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07105235A (ja) * | 1993-10-08 | 1995-04-21 | Sharp Corp | 画像検索方法及び画像検索装置 |
JPH10187182A (ja) * | 1996-12-20 | 1998-07-14 | Nippon Telegr & Teleph Corp <Ntt> | 映像分類方法および装置 |
JPH1155613A (ja) * | 1997-07-30 | 1999-02-26 | Hitachi Ltd | 記録および/または再生装置およびこれに用いられる記録媒体 |
JP2002016873A (ja) * | 2000-04-24 | 2002-01-18 | Sony Corp | 信号処理装置及び方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832431A (en) * | 1990-09-26 | 1998-11-03 | Severson; Frederick E. | Non-looped continuous sound by random sequencing of digital sound records |
JPH09284704A (ja) * | 1996-04-15 | 1997-10-31 | Sony Corp | 映像信号選択装置及びダイジェスト記録装置 |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6360234B2 (en) * | 1997-08-14 | 2002-03-19 | Virage, Inc. | Video cataloger system with synchronized encoders |
US6463444B1 (en) * | 1997-08-14 | 2002-10-08 | Virage, Inc. | Video cataloger system with extensibility |
US6847980B1 (en) * | 1999-07-03 | 2005-01-25 | Ana B. Benitez | Fundamental entity-relationship models for the generic audio visual data signal description |
JP2001143451A (ja) * | 1999-11-17 | 2001-05-25 | Nippon Hoso Kyokai <Nhk> | 自動インデックス発生装置ならびにインデックス付与装置 |
US6973256B1 (en) * | 2000-10-30 | 2005-12-06 | Koninklijke Philips Electronics N.V. | System and method for detecting highlights in a video program using audio properties |
US7082394B2 (en) * | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
US7305133B2 (en) * | 2002-11-01 | 2007-12-04 | Mitsubishi Electric Research Laboratories, Inc. | Pattern discovery in video content using association rules on multiple sets of labels |
US7375731B2 (en) * | 2002-11-01 | 2008-05-20 | Mitsubishi Electric Research Laboratories, Inc. | Video mining using unsupervised clustering of video content |
JP3891111B2 (ja) * | 2002-12-12 | 2007-03-14 | ソニー株式会社 | 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム |
-
2003
- 2003-02-25 US US10/374,017 patent/US20040167767A1/en not_active Abandoned
-
2004
- 2004-02-24 JP JP2004048403A patent/JP2004258659A/ja active Pending
-
2007
- 2007-06-08 JP JP2007152568A patent/JP2007264652A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07105235A (ja) * | 1993-10-08 | 1995-04-21 | Sharp Corp | 画像検索方法及び画像検索装置 |
JPH10187182A (ja) * | 1996-12-20 | 1998-07-14 | Nippon Telegr & Teleph Corp <Ntt> | 映像分類方法および装置 |
JPH1155613A (ja) * | 1997-07-30 | 1999-02-26 | Hitachi Ltd | 記録および/または再生装置およびこれに用いられる記録媒体 |
JP2002016873A (ja) * | 2000-04-24 | 2002-01-18 | Sony Corp | 信号処理装置及び方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2150046A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
EP2150040A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
Also Published As
Publication number | Publication date |
---|---|
JP2004258659A (ja) | 2004-09-16 |
US20040167767A1 (en) | 2004-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007264652A (ja) | ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体 | |
Xiong et al. | Audio events detection based highlights extraction from baseball, golf and soccer games in a unified framework | |
Xiong et al. | Generation of sports highlights using motion activity in combination with a common audio feature extraction framework | |
Rui et al. | Automatically extracting highlights for TV baseball programs | |
US20100005485A1 (en) | Annotation of video footage and personalised video generation | |
Mitrovic et al. | Discrimination and retrieval of animal sounds | |
US20050131688A1 (en) | Apparatus and method for classifying an audio signal | |
EP1850321B1 (en) | Systems and methods for classifying sports video | |
US8532800B2 (en) | Uniform program indexing method with simple and robust audio feature enhancing methods | |
JP2005532582A (ja) | 音響信号に音響クラスを割り当てる方法及び装置 | |
JP2008511186A (ja) | フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法 | |
Baijal et al. | Sports highlights generation bas ed on acoustic events detection: A rugby case study | |
Dahyot et al. | Joint audio visual retrieval for tennis broadcasts | |
Jiang et al. | Video segmentation with the support of audio segmentation and classification | |
Seyerlehner et al. | Automatic music detection in television productions | |
Cotton et al. | Soundtrack classification by transient events | |
Coldefy et al. | Unsupervised soccer video abstraction based on pitch, dominant color and camera motion analysis | |
Zhang et al. | Video content parsing based on combined audio and visual information | |
Dinh et al. | Video genre categorization using audio wavelet coefficients | |
Nwe et al. | Broadcast news segmentation by audio type analysis | |
Harb et al. | Highlights detection in sports videos based on audio analysis | |
Kim et al. | Detection of goal events in soccer videos | |
Li et al. | Adaptive speaker identification with audiovisual cues for movie content analysis | |
Xiong | Audio-visual sports highlights extraction using coupled hidden markov models | |
Jiqing et al. | Sports audio classification based on MFCC and GMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091215 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100511 |