JP2004258659A - スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム - Google Patents

スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム Download PDF

Info

Publication number
JP2004258659A
JP2004258659A JP2004048403A JP2004048403A JP2004258659A JP 2004258659 A JP2004258659 A JP 2004258659A JP 2004048403 A JP2004048403 A JP 2004048403A JP 2004048403 A JP2004048403 A JP 2004048403A JP 2004258659 A JP2004258659 A JP 2004258659A
Authority
JP
Japan
Prior art keywords
applause
features
audio signal
music
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004048403A
Other languages
English (en)
Other versions
JP2004258659A5 (ja
Inventor
Ziyou Xiong
ジヨウ・ション
Regunathan Radhakrishnan
レギュナータン・ラドクリシュナン
Ajay Divakaran
アジェイ・ディヴァカラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2004258659A publication Critical patent/JP2004258659A/ja
Publication of JP2004258659A5 publication Critical patent/JP2004258659A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】スポーツイベントのオーディオ信号からハイライトを抽出する方法を提供する。オーディオ信号はスポーツビデオの一部でもよい。
【解決手段】まず、特徴のセットがオーディオ信号から抽出される。特徴のセットは、以下のクラス、拍手、喝采、打球、音楽、音声および音楽付き音声、に従って分類される。全く同じように分類された特徴の隣接するセットがグループ化される。拍手または喝采として分類された特徴のグループに対応し所定しきい値より大きい持続時間を有するオーディオ信号の部分がハイライトとして選択される。
【選択図】図1

Description

本発明は、包括的にはマルチメディアコンテンツ分析の分野に関し、特にオーディオ系のコンテンツ要約作成に関する。
ビデオ要約作成は、一般的にビデオの簡潔または抽象的な表現を生成するプロセスとして定義することができる。Hanjalic等の「An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis」, IEEE Trans. On Circuits and Systems for Video Technology, Vol.9, No.8, December 1999を参照されたい。ビデオ要約作成に関する従来の研究は、色特徴に基づくクラスタリングを主として重視している。なぜならば、色特徴は抽出が容易であり、雑音に強いからである。要約自体は、ビデオ全体の要約、またはビデオの面白いセグメントを連結したセットのいずれかからなる。
本発明にとって特に関心があるのは、サウンド認識を用いてマルチメディアコンテンツからスポーツハイライトを抽出することである。話し言葉を認識するという特定の問題を主として扱う音声認識とは異なり、サウンド認識は、オーディオ信号を識別し分類するというさらに一般的な問題を扱う。例えば、スポーツイベントのビデオにおいては、観客の拍手、喝采、バットによるボールの打撃、興奮した音声、背景雑音または音楽を識別することが望まれるであろう。サウンド認識は、オーディオコンテンツを解読することではなく、オーディオコンテンツを分類することに関係する。このようにオーディオコンテンツを分類することによって、スポーツイベントから面白いハイライトを見つけることができる。そうすれば、面白いハイライトが始まるところ以降の小部分を再生するだけで、ビデオに素早く目を通すことができるであろう。
ハイライト抽出のためにオーディオコンテンツ分類を使用する従来技術のシステムは、単一のスポーツに注目して分析をしている。野球では、Rui等が、オーディオ信号のみに基づく方向性テンプレートマッチングを用いて、アナウンサーの興奮した音声およびボールとバットの打撃音を検出している。「Automatically extracting highlights for TV baseball programs」, Eighth ACM International Conference on Multimedia, pp.105-115, 2000を参照されたい。ゴルフでは、Hsuが、ゴルフクラブによるボールの打撃を検出するために、オーディオ特徴としてメルスケール周波数ケプストラム係数(MFCC)を、そして分類器として多変量ガウス分布を使用している。「Speech audio project report」, Class Project Report, Columbia University, 2000を参照されたい。
オーディオ特徴
これまでに記述されてきたほとんどのオーディオ特徴は、エネルギー系、スペクトラム系、および知覚系の3つのカテゴリに分類されている。エネルギー系カテゴリの例としては、音声/音楽の分類について、Saunders著の「Real-time discrimination of broadcast speech/music」, Proceedings of ICASSP 96, Vol.II, pp.993-996, May 1996によって用いられた短時間エネルギー、およびScheirer等著の「Construction and evaluation of a robust multifeature speech/music discriminator」, Proc. ICASSP-97, April 1997によって用いられた4Hz変調エネルギーがある。
スペクトラム系カテゴリの例としては、スペクトラムのロールオフ、スペクトラムフラックス、Scheirer著(前掲)による上述のMFCC、線形スペクトラムペア、そしてLu等著の「Content-based audio segmentation using support vector machines」, Proceeding of ICME 2001, pp.956-959, 2001によるバンド周期性がある。
知覚系カテゴリの例としては、歌や、音楽に重なった音声(speech over music)のようなより多くのクラスを弁別するために、Zhang等著の「Content-based classification and retrieval of audio」, Proceeding of the SPIE 43rd Annual Conference on Advanced Signal Processing Algorithms, Architectures and Implementations, Vol.VIII, 1998によって推定された音程がある。さらに、ガンマトーンフィルタ特徴が人間の聴覚系をシミュレートする。例えば、Srinivasan等著の「Towards robust features for classifying audio in the cuevideo system」, Proceedings of the Seventh ACM Intl' Conf. on Multimedia '99, pp.393-400, 1999を参照されたい。
セットトップ装置およびパーソナルビデオ装置の計算制約から、複数の異なるスポーツイベントのそれぞれについて完全に別個のハイライト抽出方法をサポートすることはできない。したがって、多種類のスポーツビデオからハイライトを抽出する単一のシステムおよび方法が所望されている。
方法は、スポーツイベントのオーディオ信号からハイライトを抽出する。オーディオ信号はスポーツビデオの一部でもよい。
まず、特徴のセットがオーディオ信号から抽出される。特徴のセットは、以下のクラス、拍手、喝采、打球、音楽、音声および音楽付き音声、に従って分類される。
全く同じように分類された特徴の隣接するセットがグループ化される。
拍手または喝采として分類された特徴のグループに対応し所定しきい値より大きい持続時間を有するオーディオ信号の部分がハイライトとして選択される。
システム構成
図1は、本発明によるスポーツビデオのオーディオ信号からハイライトを抽出するシステムおよび方法100を示している。システム100は、背景雑音検出器110、特徴抽出器130、分類器140、グループ化器150およびハイライト選択器160を含む。分類器は6個のオーディオクラス135、すなわち拍手、喝采、打球、音声、音楽、音楽付き音声を使用する。本発明はスポーツビデオに関して説明されるが、本発明は単なるオーディオ信号、例えばスポーツイベントのラジオ放送にも適用可能であることは理解されよう。
システム動作
まず、背景雑音111が検出され(110)、入力オーディオ信号101から取り除かれる(120)。以下で説明するように、特徴のセット131が入力オーディオ101から抽出される(130)。特徴のセットは、6個のクラス135に従って分類される(140)。全く同じように分類された特徴の隣接するセット141がグループ化される(150)。
ハイライト161が、グループ化されたセット151から選択される(160)。
背景雑音検出
分類140の前に入力オーディオ信号101からできるだけ多くの背景雑音111を取り除く(120)ために、適応的背景雑音検出方式110を使用する。背景雑音111のレベルは、ハイライト抽出のためにどの種類のスポーツが提示されるかに応じてさまざまである。
我々の複数スポーツハイライト検出器は、例えばゴルフ、野球、フットボール、サッカー等の異なるスポーツイベントのビデオに対して作用することができる。我々が観察したところでは、ゴルフの観客は通常静かであり、野球ファンは試合中に時折騒がしくなり、サッカーファンは試合中ほとんど最初から最後まで歌い続けている。したがって、単に無音を検出するだけでは不適切である。
我々のオーディオ信号セグメントは0.5秒の持続時間を有する。前処理ステップとして、試合のオーディオトラック内の全セグメントのうちの1/100を選択し、選択されたセグメントの平均エネルギーおよび平均マグニチュードをしきい値として使用して背景雑音セグメントを言明する。無音セグメントもまた、この手法を用いて検出することができる。
特徴抽出
我々の特徴抽出では、オーディオ信号101は、持続時間が30msで、連続するフレームの一対の重なり部分が10msの、重畳するフレームに分割される。各フレームに次のハミング窓関数を乗じる。ここでNは窓内のサンプル数である。
Figure 2004258659
MPEG−7特徴の周波数バンドの下限および上限は62.5Hzおよび8kHzであり7オクターブのスペクトラムにわたる。各サブバンドは1オクターブの4分の1にわたるので28個のサブバンドがある。62.5Hzより低い周波数は追加サブバンドにグループ化される。29個の対数サブバンドエネルギーの正規化の後、30成分のベクトルがフレームを表現する。そして、このベクトルを、あらゆるクラスのPCA空間の最初の10個の主成分上に射影する。
一般化サウンド認識のためのMPEG−7オーディオ特徴
最近、MPEG−7国際標準は、一般的なサウンド分類のための新たな低次元の無相関化スペクトラム特徴を採用した。MPEG−7特徴は、スペクトログラムの線形変換を用いて得られる低次元のスペクトラムベクトルである。それらの特徴は、主成分分析(PCA)および任意の独立成分分析(ICA)に基づく基底射影特徴である。各オーディオクラスについて、PCAが、クラス内の全トレーニング例からの全オーディオフレームの正規化対数サブバンドエネルギーに対して実行される。周波数バンドが、対数スケール、例えばオクターブスケールを用いて決定される。
メルスケール周波数ケプストラム係数(MFCC)
MFCCは、離散コサイン変換(DCT)に基づいている。MFCCは次のように定義される。
Figure 2004258659
ここでKはサブバンドの数であり、Lはケプストラムの所望の長さである。通常は、次元低下の目的上、L≪Kである。
(0≦k<K)は、k番目の三角バンドパスフィルタを通過後のフィルタバンクエネルギーである。周波数バンドは、メル周波数スケール、すなわち1kHzより下では線形スケール、1kHzより上では対数スケール、を用いて決定される。
オーディオ分類
分類140の基本単位は、0.125秒の重なりを有する0.5msのオーディオ信号セグメントである。セグメントは、6個のクラス135のうちの1つに従って分類される。
オーディオ領域では、さまざまなスポーツにわたるハイライトに関係する共通のイベントがある。面白いイベント、例えばゴルフでのロングドライブ、野球でのヒット、あるいはエキサイティングなサッカーの攻撃の後には、観衆は拍手や大声の喝采によって賞賛を示す。
喝采または拍手が先行または後続する打球のセグメントは、面白いハイライトを示し得る。拍手または喝采の持続時間は、イベントがより面白い時(例えば野球ではホームラン)ほど長い。
また、スポーツビデオには、主として音楽、音声または音楽付き音声のセグメントからなる面白くないセグメントに関係する共通のイベント(例えばコマーシャル)もある。音楽、音声、および音声・音楽として分類されるセグメントは、非ハイライトとしてフィルタをかけて除去することが可能である。
好ましい実施の形態では、分類器としてエントロピー事前隠れマルコフモデル(EP−HMM)を使用する。
エントロピー事前隠れマルコフモデル
モデルパラメータをλで、観測量をOで表す。いかなる事前モデルλへの偏りもない場合、すなわち
P(λi)=P(λj)、∀i、j
と仮定する場合、最大事後確率(MAP)検定は最尤(ML)検定と等価である。
P(O|λj)≧P(O|λi)、∀i
であれば、ベイズルール
P(λ|O)=(P(O|λ)P(λ))/P(O)
によりOはクラスjに属すると分類される。
しかし、偏りのある確率モデルとして
P(λ|O)=(P(O|λ)Pe(λ))/P(O)、
Pe(λ)=e−H(P(λ))
(ここでHはエントロピーを表す、すなわちエントロピーが小さいほどパラメータの尤度が高い)を仮定する場合には、MAP検定を使用し、
(P(O|λi)e−H(P(λi)))/(P(O|λj)e−H(P(λj))
を式(1)と比較して、Oがクラスiまたはjのいずれに分類されるべきかを調べる。EP−HMMのための、ML−HMMのパラメータを更新するプロセスに対する修正は、期待値最大化(EM)アルゴリズムにおける最大化ステップである。追加的な複雑さはわずかである。その後、セグメントが、同一クラスセグメントの連続性に従ってグループ化される。
グループ化
分類エラーおよびクラス135によって表現されない他のサウンドクラスの存在のゆえ、分類結果を整理するために後処理方式を提供してもよい。このために、次の観察、「拍手および喝采は通常、持続時間が長く、例えば数個の連続するセグメントにわたる」、を利用する。
拍手または喝采としてそれぞれ分類される隣接するセグメントがそれに従ってグループ化される。最長のグループ化された拍手または喝采セグメントの所定割合より長いグループ化されたセグメントが、拍手または喝采であると言明される。この割合は、ユーザにより選択可能としてもよく、ビデオ中のすべてのハイライトの全長、例えば33%、に依存してもよい。
最終提示
拍手または喝采は通常、何らかの面白いプレー、すなわちゴルフにおけるうまいパット、野球のヒットまたはサッカーにおけるゴールのいずれかの後に起こる。これらのセグメントの正しい分類および識別が、この強い相関によるハイライトの抽出を可能にする。
拍手または喝采がいつ開始するかに基づいて、この開始点の前後のビデオフレームを識別する一対のタイムスタンプを出力する。これについても、ハイライトを含むフレームの全期間はユーザが選択可能である。そして、これらのタイムスタンプは、最新のビデオプレーヤーのランダムアクセス機能を用いてビデオのハイライトを表示するために使用することができる。
トレーニングおよびテストデータセット
本システムは、テレビ放送のゴルフ、野球およびサッカーイベントから収集したオーディオクリップから得られたトレーニングデータでトレーニングされる。クリップの持続時間は約0.5秒(例えば打球)から10秒超(例えば音楽セグメント)までさまざまである。トレーニングデータの全持続時間は約1.2時間である。
テストデータは、約2時間のゴルフ試合が2つ、3時間の野球試合、そして2時間のサッカー試合を含む4試合のオーディオトラックを含む。テストデータの全持続時間は約9時間である。第1ゴルフ試合の背景雑音レベルは低いが、第2試合のほうは雨の日に行われたので高い。サッカー試合は高い背景雑音を有する。オーディオ信号はすべてモノラルチャネル、サンプルあたり16ビットで、サンプリングレートは16kHzである。
結果
野球、ゴルフまたはサッカーの試合において何が真のハイライトであるかは主観的である。その代わりに、より客観的な拍手および喝采の分類精度を見る。
これらのイベントとハイライトの間の強い相関を活用する。これらのイベントの高い分類精度は良好なハイライト抽出につながる。4つの試合の拍手または喝采部分を手作業でラベルする。これらのイベントのオンセットおよびオフセットの一対のタイムスタンプを識別する。それらは、分類結果と比較するためのグラウンドトゥルース(フィールドデータ)となる。
それぞれ拍手または喝采として連続的に分類される長さ0.5秒のセグメントがクラスタにグループ化される。そして、これらのクラスタは、それらが最長の拍手または喝采クラスタの選択された割合を超えているかどうかを判定することによって、真の拍手または喝采セグメントであるかどうかがチェックされる。その結果を表1および表2に要約する。
Figure 2004258659
表1の各行は、4つの試合の後処理付きの分類結果を示している。[1]はゴルフ試合、[2]はゴルフ試合、[3]は野球試合、[4]はサッカー試合である。各列は、[A]はグラウンドトゥルースセット内の拍手および喝采クラスタの数、[B]は分類器による拍手および喝采クラスタの数、[C]は分類器による真の拍手および喝采クラスタの数、Dはプレシジョン[C]/[A]、[E]はリコール[C]/[B]である。
Figure 2004258659
表2は、クラスタ化なしの分類結果を示している。
表1および表2では、「プレシジョン−リコール」を用いてパフォーマンスを評価した。プレシジョンは、イベント(例えば拍手または喝采)のうち正しく分類されたものの割合である。リコールは、分類されたイベントのうち本当に正しく分類されたものの割合である。
以上、本発明について、好ましい実施の形態を例として説明したが、種々の他の適応および変更も本発明の精神および範囲内でなされ得ることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内に入るすべてのこのような変形および変更を包含することである。
本発明によるスポーツハイライト抽出システムおよび方法のブロック図である。

Claims (9)

  1. スポーツイベントのオーディオ信号からハイライトを抽出する方法であって、
    スポーツイベントのオーディオ信号から特徴のセットを抽出することと、
    拍手、喝采、打球、音楽、音声および音楽付き音声からなるグループから選択されるクラスに従って前記抽出された特徴のセットを分類することと、
    全く同じように分類された特徴の隣接するセットをグループ化することと、
    拍手または喝采として分類された特徴のグループに対応し所定しきい値より大きい持続時間を有する前記オーディオ信号の部分をハイライトとして選択することと
    を備える方法。
  2. 音楽、音声、または音楽付き音声として分類された特徴のセットをフィルタをかけて除去することをさらに備える請求項1に記載の方法。
  3. 選択されたハイライトの開始前の第1所定時刻に第1タイムスタンプを出力することと、
    選択されたハイライトの開始後の第2所定時刻に第2タイムスタンプを出力することと
    をさらに備える請求項1に記載の方法。
  4. 前記オーディオ信号はビデオの一部であり、
    前記ビデオのフレームを前記第1および第2タイムスタンプに関連づけること
    をさらに備える請求項3に記載の方法。
  5. 前記オーディオ信号から背景雑音を取り去ることをさらに備える請求項1に記載の方法。
  6. 前記特徴はMPEG−7オーディオ特徴である請求項1に記載の方法。
  7. 前記所定しきい値は、すべての前記選択されたハイライトの全長に依存する請求項1に記載の方法。
  8. 打球として分類された特徴のグループを拍手または喝采として分類された特徴のグループと相関づけることをさらに備える請求項1に記載の方法。
  9. スポーツイベントのオーディオ信号からハイライトを抽出するシステムであって、
    スポーツイベントのオーディオ信号から特徴のセットを抽出する手段と、
    拍手、喝采、打球、音楽、音声および音楽付き音声からなるグループから選択されるクラスに従って前記抽出された特徴のセットを分類する手段と、
    全く同じように分類された特徴の隣接するセットをグループ化する手段と、
    拍手または喝采として分類された特徴のグループに対応し所定しきい値より大きい持続時間を有する前記オーディオ信号の部分をハイライトとして選択する手段と
    を備えるシステム。
JP2004048403A 2003-02-25 2004-02-24 スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム Pending JP2004258659A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/374,017 US20040167767A1 (en) 2003-02-25 2003-02-25 Method and system for extracting sports highlights from audio signals

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007152568A Division JP2007264652A (ja) 2003-02-25 2007-06-08 ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体

Publications (2)

Publication Number Publication Date
JP2004258659A true JP2004258659A (ja) 2004-09-16
JP2004258659A5 JP2004258659A5 (ja) 2007-02-22

Family

ID=32868791

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2004048403A Pending JP2004258659A (ja) 2003-02-25 2004-02-24 スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム
JP2007152568A Pending JP2007264652A (ja) 2003-02-25 2007-06-08 ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2007152568A Pending JP2007264652A (ja) 2003-02-25 2007-06-08 ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体

Country Status (2)

Country Link
US (1) US20040167767A1 (ja)
JP (2) JP2004258659A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006340066A (ja) * 2005-06-02 2006-12-14 Mitsubishi Electric Corp 動画像符号化装置、動画像符号化方法及び記録再生方法
WO2007077965A1 (en) * 2006-01-06 2007-07-12 Mitsubishi Electric Corporation Method and system for classifying a video
JP2008111866A (ja) * 2006-10-27 2008-05-15 Sanyo Electric Co Ltd 音声分類装置及びコンピュータプログラム
CN100426847C (zh) * 2005-08-02 2008-10-15 智辉研发股份有限公司 以语音特征为基础的精采片段检测电路及其相关方法
WO2008126347A1 (ja) 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
US7745714B2 (en) 2007-03-26 2010-06-29 Sanyo Electric Co., Ltd. Recording or playback apparatus and musical piece detecting apparatus
JP2011015129A (ja) * 2009-07-01 2011-01-20 Mitsubishi Electric Corp 画質調整装置
JP2011109703A (ja) * 2011-01-26 2011-06-02 Mitsubishi Electric Corp 動画像符号化装置及び方法
WO2011145249A1 (ja) 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
CN102547141A (zh) * 2012-02-24 2012-07-04 央视国际网络有限公司 基于体育赛事视频的视频数据筛选方法及装置
CN103380457A (zh) * 2011-12-02 2013-10-30 松下电器产业株式会社 声音处理装置、方法、程序及集成电路
JP2016090774A (ja) * 2014-11-04 2016-05-23 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2019020743A (ja) * 2018-10-04 2019-02-07 ソニー株式会社 情報処理装置
JP2020126247A (ja) * 2018-10-04 2020-08-20 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2021533405A (ja) * 2018-07-30 2021-12-02 スーズ,インコーポレイテッド 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4036328B2 (ja) * 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
SG140445A1 (en) * 2003-07-28 2008-03-28 Sony Corp Method and apparatus for automatically recognizing audio data
JP4424590B2 (ja) * 2004-03-05 2010-03-03 株式会社Kddi研究所 スポーツ映像の分類装置
US20100005485A1 (en) * 2005-12-19 2010-01-07 Agency For Science, Technology And Research Annotation of video footage and personalised video generation
JP4321518B2 (ja) * 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US7831112B2 (en) * 2005-12-29 2010-11-09 Mavs Lab, Inc. Sports video retrieval method
JP4442585B2 (ja) * 2006-05-11 2010-03-31 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
GB2447053A (en) * 2007-02-27 2008-09-03 Sony Uk Ltd System for generating a highlight summary of a performance
US9047374B2 (en) * 2007-06-08 2015-06-02 Apple Inc. Assembling video content
US20100257187A1 (en) * 2007-12-11 2010-10-07 Koninklijke Philips Electronics N.V. Method of annotating a recording of at least one media signal
WO2009150567A2 (en) * 2008-06-09 2009-12-17 Koninklijke Philips Electronics N.V. Method and apparatus for generating a summary of an audio/visual data stream
JP5277780B2 (ja) 2008-07-31 2013-08-28 富士通株式会社 ビデオ再生装置、ビデオ再生プログラム及びビデオ再生方法
JP5277779B2 (ja) 2008-07-31 2013-08-28 富士通株式会社 ビデオ再生装置、ビデオ再生プログラム及びビデオ再生方法
WO2010140355A1 (ja) 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
US9473813B2 (en) * 2009-12-31 2016-10-18 Infosys Limited System and method for providing immersive surround environment for enhanced content experience
CN102117304B (zh) * 2009-12-31 2013-03-20 鸿富锦精密工业(深圳)有限公司 影像搜索装置、搜索系统及搜索方法
US8798992B2 (en) * 2010-05-19 2014-08-05 Disney Enterprises, Inc. Audio noise modification for event broadcasting
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
CN102427507B (zh) * 2011-09-30 2014-03-05 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
US9693030B2 (en) 2013-09-09 2017-06-27 Arris Enterprises Llc Generating alerts based upon detector outputs
BR112016006860B8 (pt) 2013-09-13 2023-01-10 Arris Entpr Inc Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
US9924148B2 (en) * 2014-02-13 2018-03-20 Echostar Technologies L.L.C. Highlight program
CN103915106B (zh) * 2014-03-31 2017-01-11 宇龙计算机通信科技(深圳)有限公司 片头生成方法及生成系统
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
US10129608B2 (en) * 2015-02-24 2018-11-13 Zepp Labs, Inc. Detect sports video highlights based on voice recognition
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US10356456B2 (en) * 2015-11-05 2019-07-16 Adobe Inc. Generating customized video previews
CN106992012A (zh) * 2017-03-24 2017-07-28 联想(北京)有限公司 语音处理方法及电子设备
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11025985B2 (en) * 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11264048B1 (en) * 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
CN109065071B (zh) * 2018-08-31 2021-05-14 电子科技大学 一种基于迭代k-means算法的歌曲聚类方法
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105235A (ja) * 1993-10-08 1995-04-21 Sharp Corp 画像検索方法及び画像検索装置
JPH09284704A (ja) * 1996-04-15 1997-10-31 Sony Corp 映像信号選択装置及びダイジェスト記録装置
JPH10187182A (ja) * 1996-12-20 1998-07-14 Nippon Telegr & Teleph Corp <Ntt> 映像分類方法および装置
JPH1155613A (ja) * 1997-07-30 1999-02-26 Hitachi Ltd 記録および/または再生装置およびこれに用いられる記録媒体
JP2001143451A (ja) * 1999-11-17 2001-05-25 Nippon Hoso Kyokai <Nhk> 自動インデックス発生装置ならびにインデックス付与装置
JP2004191780A (ja) * 2002-12-12 2004-07-08 Sony Corp 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832431A (en) * 1990-09-26 1998-11-03 Severson; Frederick E. Non-looped continuous sound by random sequencing of digital sound records
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6360234B2 (en) * 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US6463444B1 (en) * 1997-08-14 2002-10-08 Virage, Inc. Video cataloger system with extensibility
US6847980B1 (en) * 1999-07-03 2005-01-25 Ana B. Benitez Fundamental entity-relationship models for the generic audio visual data signal description
JP4300697B2 (ja) * 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
US6973256B1 (en) * 2000-10-30 2005-12-06 Koninklijke Philips Electronics N.V. System and method for detecting highlights in a video program using audio properties
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US7305133B2 (en) * 2002-11-01 2007-12-04 Mitsubishi Electric Research Laboratories, Inc. Pattern discovery in video content using association rules on multiple sets of labels
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105235A (ja) * 1993-10-08 1995-04-21 Sharp Corp 画像検索方法及び画像検索装置
JPH09284704A (ja) * 1996-04-15 1997-10-31 Sony Corp 映像信号選択装置及びダイジェスト記録装置
JPH10187182A (ja) * 1996-12-20 1998-07-14 Nippon Telegr & Teleph Corp <Ntt> 映像分類方法および装置
JPH1155613A (ja) * 1997-07-30 1999-02-26 Hitachi Ltd 記録および/または再生装置およびこれに用いられる記録媒体
JP2001143451A (ja) * 1999-11-17 2001-05-25 Nippon Hoso Kyokai <Nhk> 自動インデックス発生装置ならびにインデックス付与装置
JP2004191780A (ja) * 2002-12-12 2004-07-08 Sony Corp 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006340066A (ja) * 2005-06-02 2006-12-14 Mitsubishi Electric Corp 動画像符号化装置、動画像符号化方法及び記録再生方法
CN100426847C (zh) * 2005-08-02 2008-10-15 智辉研发股份有限公司 以语音特征为基础的精采片段检测电路及其相关方法
WO2007077965A1 (en) * 2006-01-06 2007-07-12 Mitsubishi Electric Corporation Method and system for classifying a video
JP2008111866A (ja) * 2006-10-27 2008-05-15 Sanyo Electric Co Ltd 音声分類装置及びコンピュータプログラム
US8478587B2 (en) 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
WO2008126347A1 (ja) 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
US7745714B2 (en) 2007-03-26 2010-06-29 Sanyo Electric Co., Ltd. Recording or playback apparatus and musical piece detecting apparatus
JP2011015129A (ja) * 2009-07-01 2011-01-20 Mitsubishi Electric Corp 画質調整装置
US8892497B2 (en) 2010-05-17 2014-11-18 Panasonic Intellectual Property Corporation Of America Audio classification by comparison of feature sections and integrated features to known references
CN102473411A (zh) * 2010-05-17 2012-05-23 松下电器产业株式会社 声音分类装置、方法、程序及集成电路
WO2011145249A1 (ja) 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
JP5578453B2 (ja) * 2010-05-17 2014-08-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声分類装置、方法、プログラム及び集積回路
CN102473411B (zh) * 2010-05-17 2014-11-05 松下电器(美国)知识产权公司 声音分类装置、方法及集成电路
JP2011109703A (ja) * 2011-01-26 2011-06-02 Mitsubishi Electric Corp 動画像符号化装置及び方法
CN103380457A (zh) * 2011-12-02 2013-10-30 松下电器产业株式会社 声音处理装置、方法、程序及集成电路
US9113269B2 (en) 2011-12-02 2015-08-18 Panasonic Intellectual Property Corporation Of America Audio processing device, audio processing method, audio processing program and audio processing integrated circuit
CN102547141A (zh) * 2012-02-24 2012-07-04 央视国际网络有限公司 基于体育赛事视频的视频数据筛选方法及装置
JP2016090774A (ja) * 2014-11-04 2016-05-23 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2021533405A (ja) * 2018-07-30 2021-12-02 スーズ,インコーポレイテッド 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理
JP2019020743A (ja) * 2018-10-04 2019-02-07 ソニー株式会社 情報処理装置
JP2020126247A (ja) * 2018-10-04 2020-08-20 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JP2007264652A (ja) 2007-10-11
US20040167767A1 (en) 2004-08-26

Similar Documents

Publication Publication Date Title
JP2004258659A (ja) スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム
Xiong et al. Audio events detection based highlights extraction from baseball, golf and soccer games in a unified framework
US11869261B2 (en) Robust audio identification with interference cancellation
Liu et al. Audio feature extraction and analysis for scene segmentation and classification
US20100005485A1 (en) Annotation of video footage and personalised video generation
Rui et al. Automatically extracting highlights for TV baseball programs
US8532800B2 (en) Uniform program indexing method with simple and robust audio feature enhancing methods
Mitrovic et al. Discrimination and retrieval of animal sounds
US20050131688A1 (en) Apparatus and method for classifying an audio signal
Baijal et al. Sports highlights generation bas ed on acoustic events detection: A rugby case study
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
CN102073635A (zh) 节目端点时间检测装置和方法以及节目信息检索系统
Dahyot et al. Joint audio visual retrieval for tennis broadcasts
Lu et al. A svm-based audio event detection system
Jiang et al. Video segmentation with the support of audio segmentation and classification
Cotton et al. Soundtrack classification by transient events
Seyerlehner et al. Automatic music detection in television productions
Jiang et al. Video segmentation with the assistance of audio content analysis
Zhang et al. Detecting sound events in basketball video archive
Baillie et al. An audio-based sports video segmentation and event detection algorithm
Zhang et al. Video content parsing based on combined audio and visual information
Nwe et al. Broadcast news segmentation by audio type analysis
Dinh et al. Video genre categorization using audio wavelet coefficients
Harb et al. Highlights detection in sports videos based on audio analysis
Kim et al. Detection of goal events in soccer videos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060828

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20060828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061227

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20061227

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20070111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070316

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070608

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070621

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070713