JP2007264652A

JP2007264652A - ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体

Info

Publication number: JP2007264652A
Application number: JP2007152568A
Authority: JP
Inventors: Ziyou Xiong; ジヨウ・ション; Regunathan Radhakrishnan; レギュナータン・ラドクリシュナン; Ajay Divakaran; アジェイ・ディヴァカラン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-02-25
Filing date: 2007-06-08
Publication date: 2007-10-11
Also published as: JP2004258659A; US20040167767A1

Abstract

【課題】スポーツイベントのオーディオ信号からハイライトを抽出する方法を提供する。オーディオ信号はスポーツビデオの一部でもよい。
【解決手段】まず、特徴のセットがオーディオ信号から抽出される。特徴のセットは、音声分類として音楽と音楽付き音声とを含み、この音声分類に従って分類される。全く同じように分類された特徴の隣接する特徴のセットがグループ化される。特徴のセットが音楽と音楽付き音声とのいずれかに分類された場合は、この音声分類に対応するセグメントを非ハイライトとしてフィルタにより除去する。
【選択図】図１

Description

本発明は、包括的にはマルチメディアコンテンツ分析の分野に関し、特にオーディオ系のコンテンツ要約作成に関する。

ビデオ要約作成は、一般的にビデオの簡潔または抽象的な表現を生成するプロセスとして定義することができる。Hanjalic等の「An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis」, IEEE Trans. On Circuits and Systems for Video Technology, Vol.9, No.8, December 1999を参照されたい。ビデオ要約作成に関する従来の研究は、色特徴に基づくクラスタリングを主として重視している。なぜならば、色特徴は抽出が容易であり、雑音に強いからである。要約自体は、ビデオ全体の要約、またはビデオの面白いセグメントを連結したセットのいずれかからなる。

本発明にとって特に関心があるのは、サウンド認識を用いてマルチメディアコンテンツからスポーツハイライトを抽出することである。話し言葉を認識するという特定の問題を主として扱う音声認識とは異なり、サウンド認識は、オーディオ信号を識別し分類するというさらに一般的な問題を扱う。例えば、スポーツイベントのビデオにおいては、観客の拍手、喝采、バットによるボールの打撃、興奮した音声、背景雑音または音楽を識別することが望まれるであろう。サウンド認識は、オーディオコンテンツを解読することではなく、オーディオコンテンツを分類することに関係する。このようにオーディオコンテンツを分類することによって、スポーツイベントから面白いハイライトを見つけることができる。そうすれば、面白いハイライトが始まるところ以降の小部分を再生するだけで、ビデオに素早く目を通すことができるであろう。

ハイライト抽出のためにオーディオコンテンツ分類を使用する従来技術のシステムは、単一のスポーツに注目して分析をしている。野球では、Rui等が、オーディオ信号のみに基づく方向性テンプレートマッチングを用いて、アナウンサーの興奮した音声およびボールとバットの打撃音を検出している。「Automatically extracting highlights for TV baseball programs」, Eighth ACM International Conference on Multimedia, pp.105-115, 2000を参照されたい。ゴルフでは、Hsuが、ゴルフクラブによるボールの打撃を検出するために、オーディオ特徴としてメルスケール周波数ケプストラム係数（ＭＦＣＣ）を、そして分類器として多変量ガウス分布を使用している。「Speech audio project report」, Class Project Report, Columbia University, 2000を参照されたい。

オーディオ特徴
これまでに記述されてきたほとんどのオーディオ特徴は、エネルギー系、スペクトラム系、および知覚系の３つのカテゴリに分類されている。エネルギー系カテゴリの例としては、音声／音楽の分類について、Saunders著の「Real-time discrimination of broadcast speech/music」, Proceedings of ICASSP 96, Vol.II, pp.993-996, May 1996によって用いられた短時間エネルギー、およびScheirer等著の「Construction and evaluation of a robust multifeature speech/music discriminator」, Proc. ICASSP-97, April 1997によって用いられた４Ｈｚ変調エネルギーがある。

スペクトラム系カテゴリの例としては、スペクトラムのロールオフ、スペクトラムフラックス、Scheirer著（前掲）による上述のＭＦＣＣ、線形スペクトラムペア、そしてLu等著の「Content-based audio segmentation using support vector machines」, Proceeding of ICME 2001, pp.956-959, 2001によるバンド周期性がある。

知覚系カテゴリの例としては、歌や、音楽に重なった音声(speech over music)のようなより多くのクラスを弁別するために、Zhang等著の「Content-based classification and retrieval of audio」, Proceeding of the SPIE 43^rd Annual Conference on Advanced Signal Processing Algorithms, Architectures and Implementations, Vol.VIII, 1998によって推定された音程がある。さらに、ガンマトーンフィルタ特徴が人間の聴覚系をシミュレートする。例えば、Srinivasan等著の「Towards robust features for classifying audio in the cuevideo system」, Proceedings of the Seventh ACM Intl' Conf. on Multimedia '99, pp.393-400, 1999を参照されたい。

セットトップ装置およびパーソナルビデオ装置の計算制約から、複数の異なるスポーツイベントのそれぞれについて完全に別個のハイライト抽出方法をサポートすることはできない。したがって、多種類のスポーツビデオからハイライトを抽出する単一のシステムおよび方法が所望されている。

この発明に係るハイライト抽出装置は、スポーツイベントのコンテンツを構成する複数のセグメントからハイライトシーンを含むセグメントを判定抽出するハイライト抽出装置であって、音声信号の特徴に対応した複数の種類の音声分類が記録される記録部と、前記コンテンツを前記複数のセグメントに分割する分割器と、前記分割器で分割された各セグメントの音声信号から抽出された特徴のセットを、前記複数の種類の音声分類に基づいて分類する分類器と、同一の音声分類に分類された隣接する特徴のセットをグループ化するグループ化器と、グループ化されたセットに対して、所定の音声分類に基づいてハイライトシーンを判定し、判定された前記グループ化されたセットに対応するセグメントを前記複数のセグメントから抽出する判定抽出器とを備え、前記複数の種類の音声分類は、音楽と音楽付き音声とを含み、前記分類器は、前記各セグメントのそれぞれの音声信号から抽出された特徴のセットが前記複数の種類の音声分類のうちの音楽と音楽付き音声とのいずれかに分類された場合は、当該分類された音声分類に対応するセグメントを前記複数のセグメントから非ハイライトとしてフィルタにより除去することを特徴とする。

システム構成
図１は、本発明によるスポーツビデオのオーディオ信号からハイライトを抽出するシステムおよび方法１００を示している。システム１００は、背景雑音検出器１１０、特徴抽出器１３０、分類器１４０、グループ化器１５０およびハイライト選択器１６０を含む。分類器は６個のオーディオクラス１３５、すなわち拍手、喝采、打球、音声、音楽、音楽付き音声を使用する。本発明はスポーツビデオに関して説明されるが、本発明は単なるオーディオ信号、例えばスポーツイベントのラジオ放送にも適用可能であることは理解されよう。

システム動作
まず、背景雑音１１１が検出され（１１０）、入力オーディオ信号１０１から取り除かれる（１２０）。以下で説明するように、特徴のセット１３１が入力オーディオ１０１から抽出される（１３０）。特徴のセットは、６個のクラス１３５に従って分類される（１４０）。全く同じように分類された特徴の隣接するセット１４１がグループ化される（１５０）。

ハイライト１６１が、グループ化されたセット１５１から選択される（１６０）。

背景雑音検出
分類１４０の前に入力オーディオ信号１０１からできるだけ多くの背景雑音１１１を取り除く（１２０）ために、適応的背景雑音検出方式１１０を使用する。背景雑音１１１のレベルは、ハイライト抽出のためにどの種類のスポーツが提示されるかに応じてさまざまである。

我々の複数スポーツハイライト検出器は、例えばゴルフ、野球、フットボール、サッカー等の異なるスポーツイベントのビデオに対して作用することができる。我々が観察したところでは、ゴルフの観客は通常静かであり、野球ファンは試合中に時折騒がしくなり、サッカーファンは試合中ほとんど最初から最後まで歌い続けている。したがって、単に無音を検出するだけでは不適切である。

我々のオーディオ信号セグメントは０．５秒の持続時間を有する。前処理ステップとして、試合のオーディオトラック内の全セグメントのうちの１／１００を選択し、選択されたセグメントの平均エネルギーおよび平均マグニチュードをしきい値として使用して背景雑音セグメントを言明する。無音セグメントもまた、この手法を用いて検出することができる。

特徴抽出
我々の特徴抽出では、オーディオ信号１０１は、持続時間が３０ｍｓで、連続するフレームの一対の重なり部分が１０ｍｓの、重畳するフレームに分割される。各フレームに次のハミング窓関数を乗じる。ここでＮは窓内のサンプル数である。

ＭＰＥＧ−７特徴の周波数バンドの下限および上限は６２．５Ｈｚおよび８ｋＨｚであり７オクターブのスペクトラムにわたる。各サブバンドは１オクターブの４分の１にわたるので２８個のサブバンドがある。６２．５Ｈｚより低い周波数は追加サブバンドにグループ化される。２９個の対数サブバンドエネルギーの正規化の後、３０成分のベクトルがフレームを表現する。そして、このベクトルを、あらゆるクラスのＰＣＡ空間の最初の１０個の主成分上に射影する。

一般化サウンド認識のためのＭＰＥＧ−７オーディオ特徴
最近、ＭＰＥＧ−７国際標準は、一般的なサウンド分類のための新たな低次元の無相関化スペクトラム特徴を採用した。ＭＰＥＧ−７特徴は、スペクトログラムの線形変換を用いて得られる低次元のスペクトラムベクトルである。それらの特徴は、主成分分析（ＰＣＡ）および任意の独立成分分析（ＩＣＡ）に基づく基底射影特徴である。各オーディオクラスについて、ＰＣＡが、クラス内の全トレーニング例からの全オーディオフレームの正規化対数サブバンドエネルギーに対して実行される。周波数バンドが、対数スケール、例えばオクターブスケールを用いて決定される。

メルスケール周波数ケプストラム係数（ＭＦＣＣ）
ＭＦＣＣは、離散コサイン変換（ＤＣＴ）に基づいている。ＭＦＣＣは次のように定義される。

ここでＫはサブバンドの数であり、Ｌはケプストラムの所望の長さである。通常は、次元低下の目的上、Ｌ≪Ｋである。

Ｓ_ｋ（０≦ｋ＜Ｋ）は、ｋ番目の三角バンドパスフィルタを通過後のフィルタバンクエネルギーである。周波数バンドは、メル周波数スケール、すなわち１ｋＨｚより下では線形スケール、１ｋＨｚより上では対数スケール、を用いて決定される。

オーディオ分類
分類１４０の基本単位は、０．１２５秒の重なりを有する０．５ｍｓのオーディオ信号セグメントである。セグメントは、６個のクラス１３５のうちの１つに従って分類される。

オーディオ領域では、さまざまなスポーツにわたるハイライトに関係する共通のイベントがある。面白いイベント、例えばゴルフでのロングドライブ、野球でのヒット、あるいはエキサイティングなサッカーの攻撃の後には、観衆は拍手や大声の喝采によって賞賛を示す。

喝采または拍手が先行または後続する打球のセグメントは、面白いハイライトを示し得る。拍手または喝采の持続時間は、イベントがより面白い時（例えば野球ではホームラン）ほど長い。

また、スポーツビデオには、主として音楽、音声または音楽付き音声のセグメントからなる面白くないセグメントに関係する共通のイベント（例えばコマーシャル）もある。音楽、音声、および音声・音楽として分類されるセグメントは、非ハイライトとしてフィルタをかけて除去することが可能である。

好ましい実施の形態では、分類器としてエントロピー事前隠れマルコフモデル（ＥＰ−ＨＭＭ）を使用する。

エントロピー事前隠れマルコフモデル
モデルパラメータをλで、観測量をＯで表す。いかなる事前モデルλ_ｉへの偏りもない場合、すなわち
Ｐ（λｉ）＝Ｐ（λｊ）、∀ｉ、ｊ
と仮定する場合、最大事後確率（ＭＡＰ）検定は最尤（ＭＬ）検定と等価である。
Ｐ（Ｏ｜λｊ）≧Ｐ（Ｏ｜λｉ）、∀ｉ
であれば、ベイズルール
Ｐ（λ｜Ｏ）＝（Ｐ（Ｏ｜λ）Ｐ（λ））／Ｐ（Ｏ）
によりＯはクラスｊに属すると分類される。

しかし、偏りのある確率モデルとして
Ｐ（λ｜Ｏ）＝（Ｐ（Ｏ｜λ）Ｐｅ（λ））／Ｐ（Ｏ）、
Ｐｅ（λ）＝ｅ^{−Ｈ（Ｐ（λ））}
（ここでＨはエントロピーを表す、すなわちエントロピーが小さいほどパラメータの尤度が高い）を仮定する場合には、ＭＡＰ検定を使用し、
（Ｐ（Ｏ｜λｉ）ｅ^{−Ｈ（Ｐ（λｉ））}）／（Ｐ（Ｏ｜λｊ）ｅ^{−Ｈ（Ｐ（λｊ））}）を式（１）と比較して、Ｏがクラスｉまたはｊのいずれに分類されるべきかを調べる。ＥＰ−ＨＭＭのための、ＭＬ−ＨＭＭのパラメータを更新するプロセスに対する修正は、期待値最大化（ＥＭ）アルゴリズムにおける最大化ステップである。追加的な複雑さはわずかである。その後、セグメントが、同一クラスセグメントの連続性に従ってグループ化される。

グループ化
分類エラーおよびクラス１３５によって表現されない他のサウンドクラスの存在のゆえ、分類結果を整理するために後処理方式を提供してもよい。このために、次の観察、「拍手および喝采は通常、持続時間が長く、例えば数個の連続するセグメントにわたる」、を利用する。

拍手または喝采としてそれぞれ分類される隣接するセグメントがそれに従ってグループ化される。最長のグループ化された拍手または喝采セグメントの所定割合より長いグループ化されたセグメントが、拍手または喝采であると言明される。この割合は、ユーザにより選択可能としてもよく、ビデオ中のすべてのハイライトの全長、例えば３３％、に依存してもよい。

最終提示
拍手または喝采は通常、何らかの面白いプレー、すなわちゴルフにおけるうまいパット、野球のヒットまたはサッカーにおけるゴールのいずれかの後に起こる。これらのセグメントの正しい分類および識別が、この強い相関によるハイライトの抽出を可能にする。

拍手または喝采がいつ開始するかに基づいて、この開始点の前後のビデオフレームを識別する一対のタイムスタンプを出力する。これについても、ハイライトを含むフレームの全期間はユーザが選択可能である。そして、これらのタイムスタンプは、最新のビデオプレーヤーのランダムアクセス機能を用いてビデオのハイライトを表示するために使用することができる。

トレーニングおよびテストデータセット
本システムは、テレビ放送のゴルフ、野球およびサッカーイベントから収集したオーディオクリップから得られたトレーニングデータでトレーニングされる。クリップの持続時間は約０．５秒（例えば打球）から１０秒超（例えば音楽セグメント）までさまざまである。トレーニングデータの全持続時間は約１．２時間である。

テストデータは、約２時間のゴルフ試合が２つ、３時間の野球試合、そして２時間のサッカー試合を含む４試合のオーディオトラックを含む。テストデータの全持続時間は約９時間である。第１ゴルフ試合の背景雑音レベルは低いが、第２試合のほうは雨の日に行われたので高い。サッカー試合は高い背景雑音を有する。オーディオ信号はすべてモノラルチャネル、サンプルあたり１６ビットで、サンプリングレートは１６ｋＨｚである。

結果
野球、ゴルフまたはサッカーの試合において何が真のハイライトであるかは主観的である。その代わりに、より客観的な拍手および喝采の分類精度を見る。

これらのイベントとハイライトの間の強い相関を活用する。これらのイベントの高い分類精度は良好なハイライト抽出につながる。４つの試合の拍手または喝采部分を手作業でラベルする。これらのイベントのオンセットおよびオフセットの一対のタイムスタンプを識別する。それらは、分類結果と比較するためのグラウンドトゥルース（フィールドデータ）となる。

それぞれ拍手または喝采として連続的に分類される長さ０．５秒のセグメントがクラスタにグループ化される。そして、これらのクラスタは、それらが最長の拍手または喝采クラスタの選択された割合を超えているかどうかを判定することによって、真の拍手または喝采セグメントであるかどうかがチェックされる。その結果を表１および表２に要約する。

表１の各行は、４つの試合の後処理付きの分類結果を示している。［１］はゴルフ試合、［２］はゴルフ試合、［３］は野球試合、［４］はサッカー試合である。各列は、［Ａ］はグラウンドトゥルースセット内の拍手および喝采クラスタの数、［Ｂ］は分類器による拍手および喝采クラスタの数、［Ｃ］は分類器による真の拍手および喝采クラスタの数、Ｄはプレシジョン［Ｃ］／［Ａ］、［Ｅ］はリコール［Ｃ］／［Ｂ］である。

表２は、クラスタ化なしの分類結果を示している。

表１および表２では、「プレシジョン−リコール」を用いてパフォーマンスを評価した。プレシジョンは、イベント（例えば拍手または喝采）のうち正しく分類されたものの割合である。リコールは、分類されたイベントのうち本当に正しく分類されたものの割合である。

以上、本発明について、好ましい実施の形態を例として説明したが、種々の他の適応および変更も本発明の精神および範囲内でなされ得ることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内に入るすべてのこのような変形および変更を包含することである。

本発明によるスポーツハイライト抽出システムおよび方法のブロック図である。

Claims

スポーツイベントのコンテンツを構成する複数のセグメントからハイライトシーンを含むセグメントを判定抽出するハイライト抽出装置であって、
音声信号の特徴に対応した複数の種類の音声分類が記録される記録部と、
前記コンテンツを前記複数のセグメントに分割する分割器と、
前記分割器で分割された各セグメントの音声信号から抽出された特徴のセットを、前記複数の種類の音声分類に基づいて分類する分類器と、
同一の音声分類に分類された隣接する特徴のセットをグループ化するグループ化器と、グループ化されたセットに対して、所定の音声分類に基づいてハイライトシーンを判定し、判定された前記グループ化されたセットに対応するセグメントを前記複数のセグメントから抽出する判定抽出器と、
を備え、
前記複数の種類の音声分類は、音楽と音楽付き音声とを含み、
前記分類器は、前記各セグメントのそれぞれの音声信号から抽出された特徴のセットが前記複数の種類の音声分類のうちの音楽と音楽付き音声とのいずれかに分類された場合は、当該分類された音声分類に対応するセグメントを前記複数のセグメントから非ハイライトとしてフィルタにより除去すること
を特徴とするハイライト抽出装置。
分割器は、コンテンツが分割された複数のセグメントの各々の持続時間が０．５秒となるように分割すること
を特徴とする請求項１に記載のハイライト抽出装置。
スポーツイベントのコンテンツを構成する複数のセグメントからハイライトシーンを含むセグメントを判定抽出するハイライト抽出方法であって、
前記コンテンツを前記複数のセグメントに分割する分割ステップと、
前記分割ステップにおいて分割された各セグメントの音声信号から抽出された特徴のセットと、記録部に記録される、音声信号の各特徴に対応した複数の種類の音声分類とに基づいて、前記各セグメントに対応して、いずれかの前記音声分類を出力する分類ステップと、
同一の音声分類に分類された隣接する特徴のセットをグループ化するグループ化ステップと、
グループ化されたセットに対して、所定の音声分類に基づいてハイライトシーンを判定し、判定された前記グループ化されたセットに対応するセグメントを前記複数のセグメントから抽出する判定抽出ステップと
を備え、
前記複数の種類の音声分類は、音楽と音楽付き音声とを含み、
前記分類ステップは、前記各セグメントのそれぞれの音声信号から抽出された特徴のセットが前記複数の種類の音声分類のうちの音声と音楽付き音声といずれかに分類された場合は、当該分類された音声分類に対応するセグメントを前記複数のセグメントから非ハイライトとしてフィルタにより除去すること
を特徴とするハイライト抽出方法。
スポーツイベントのコンテンツを構成する複数のセグメントからハイライトシーンを含むセグメントを判定抽出するハイライト抽出プログラムであって、
前記コンテンツを前記複数のセグメントに分割する分割ステップと、
前記分割ステップにおいて分割された各セグメントの音声信号から抽出された特徴のセットと、記録部に記録される、音声信号の各特徴に対応した複数の種類の音声分類とに基づいて、前記各セグメントに対応して、いずれかの前記音声分類を出力する分類ステップと、
同一の音声分類に分類された隣接する特徴のセットをグループ化するグループ化ステップと、
グループ化されたセットに対して、所定の音声分類に基づいてハイライトシーンを判定し、判定された前記グループ化されたセットに対応するセグメントを前記複数のセグメントから抽出する判定抽出ステップと
を備え、
前記複数の種類の音声分類は、音楽と音楽付き音声とを含み、
前記分類ステップは、前記各セグメントのそれぞれの音声信号から抽出された特徴のセットが前記複数の種類の音声分類のうちの音楽と音楽付き音声とのいずれかに分類された場合は、当該分類された音声分類に対応するセグメントを前記複数のセグメントから非ハイライトとしてフィルタにより除去すること
を特徴とするハイライト抽出プログラム。
請求項４に記載のハイライト抽出プログラムが記憶された記録媒体。