JP2008185626A - ハイライトシーン検出装置 - Google Patents

ハイライトシーン検出装置 Download PDF

Info

Publication number
JP2008185626A
JP2008185626A JP2007016636A JP2007016636A JP2008185626A JP 2008185626 A JP2008185626 A JP 2008185626A JP 2007016636 A JP2007016636 A JP 2007016636A JP 2007016636 A JP2007016636 A JP 2007016636A JP 2008185626 A JP2008185626 A JP 2008185626A
Authority
JP
Japan
Prior art keywords
cheering
section
determination
value
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007016636A
Other languages
English (en)
Other versions
JP5034516B2 (ja
Inventor
Chikashi Sugiura
千加志 杉浦
Kimio Miseki
公生 三関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007016636A priority Critical patent/JP5034516B2/ja
Publication of JP2008185626A publication Critical patent/JP2008185626A/ja
Application granted granted Critical
Publication of JP5034516B2 publication Critical patent/JP5034516B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】リファレンス情報を用いずかつ符号化歪みの影響を大きく受けることなくハイライトシーンを検出できるようにする。
【解決手段】マルチメディアコンテンツに含まれるオーディオデータを一定区間ごとに区切って、スペクトル算出モジュール22によりスペクトルを検出する。次に、歓声特徴量抽出モジュール23により、上記検出されたスペクトルのうち歓声の特徴が現れる特定の帯域内において最大値かつ極大値をとる周波数値(ピーク周波数)とそのパワー値とからなる歓声特徴量を検出する。そして、歓声区間判定モジュール24において、予め設定した時間長において上記検出された歓声特徴量がしきい値よりも高い状態が上記時間長に対して判定しきい値率以上存在する区間を歓声区間と判定し、出力制御モジュール25により上記歓声区間の判定結果を表す表示データを生成して出力する。
【選択図】 図1

Description

この発明は、例えばコンサートやスポーツ番組等のライブ番組のコンテンツからハイライトシーンを検出する装置に関する。
放送番組等のマルチメディアコンテンツを録画して再生することを目的とするレコーダにおいて、短時間に見どころのシーンだけを見るという視聴形態が求められている。特に、スポーツ番組ではコンテンツ全体に対する得点シーン等の見どころとなるシーンは短い時間であり、よって短時間視聴のニーズが高い。
解決策として、例えば家庭用のレコーダにおいて、映像信号を録画する際もしくは録画後に、見どころシーンとして歓声が大きく盛り上った区間(以後歓声区間と称する)を検出する技術が開発されている。このような技術を採用することで、ユーザはスポーツ番組のコンテンツ全体のうち見どころシーンだけを短時間に視聴することが可能となる。
歓声区間を検出する技術としては、歓声区間の特徴をリファレンス情報として予め用意しておき、入力信号ごとに上記リファレンス情報との類似度を算出して、この類似度がしきい値より大きい区間を歓声区間として検出する技術が知られている(例えば、特許文献1を参照。)。リファレンス情報としては、スペクトルそのものを用いるものや、複数のスペクトルの統計的な情報を用いるものがある。特許文献1では、歓声区間を検出するための技術としてベクトル量子化による類似度算出方法を用いており、これは統計的情報を用いるものに該当する。
特許第3475317号公報
ところが、前述したような予めリファレンス情報を用意しておき、このリファレンス情報を用いた類似度の算出によって歓声区間を検出する方法では、検出精度がリファレンス情報に依存してしまい、結果として歓声区間の検出性能が不安定になるという課題がある。例えば、リファレンス情報の作成に用いたオーディオ信号と検出対象の入力信号との収録環境が異なる場合には、期待する検出性能が得られないことがある。また、符号化されたオーディオ信号を復号してこの復号されたオーディオ信号を検出対象の入力信号とする場合には、リファレンス情報に対して符号化による歪みを含んでいるため検出性能が著しく劣化する可能性もある。これはビットレートが低い符号化の場合に特に顕著である。
この発明は上記事情に着目してなされたもので、その目的とするところは、リファレンス情報を用いずかつ符号化による歪みの影響を大きく受けることなくハイライトシーンを検出できるようにし、これにより検出精度の高いハイライトシーン検出装置を提供することにある。
上記目的を達成するためにこの発明の一観点は、オーディオ信号を含むコンテンツデータを受け取り、この受け取ったコンテンツデータに含まれるオーディオ信号を一定区間ごとに区切って、これらの区間ごとにそのスペクトルを検出する。そして、この検出されたスペクトルのうち予め設定された帯域内のスペクトルから、最大値かつ極大値をとる周波数をピーク周波数とし、このピーク周波数と当該ピーク周波数のパワー値とからなる歓声特徴量を検出し、この検出された歓声特徴量が判定しきい値よりも高い状態が予め設定された判定時間長に対して判定しきい値率以上存在する区間を歓声区間と判定するようにしたものである。
一般に、オーディオ信号のハイライトシーンの指標となる歓声を含む区間では、特定の周波数帯域において時間方向に安定した周波数ピークが存在する。この周波数ピークは、歓声が有する本質的な特徴であり、しかも比較的低域に存在するため、収録環境の影響や、オーディオ信号に対する符号化歪みの影響を受けにくい。したがって、上記したように入力オーディオ信号の周波数帯域のうち検出対象の帯域が先ず特定され、この特定の周波数帯域において歓声の特徴量を表す周波数ピークとそのパワー値が検出されて、この検出情報をもとに歓声区間が判定されることによって、収録環境の違いやオーディオ符号化による歪みに対して比較的安定かつ高い検出性能を得ることが可能となる。
すなわちこの発明によれば、リファレンス情報を用いずかつ符号化による歪みの影響を大きく受けることなくハイライトシーンを検出することができ、これにより検出精度の高いハイライトシーン検出装置を提供することができる。
以下、図面を参照してこの発明の実施形態を説明する。
(第1の実施形態)
図1は、この発明の第1の実施の形態に係るハイライトシーン検出装置の構成を示すブロック図である。
この実施形態のハイライトシーン検出装置1Aは、ビデオレコーダ、ビデオカメラ、テレビジョン録画再生機能付きパーソナル・コンピュータ、テレビジョン録画再生機能付き携帯端末などの各種放送録画再生装置に接続されるか、又は当該録画再生装置に内蔵された状態で使用される。
ハイライトシーン検出装置1Aは、例えば中央制御ユニット(CPU;Central Processing Unit)からなる制御ユニット2Aを備える。この制御ユニット2Aには、バス7を介して記憶ユニット6及びインタフェース群が接続されている。インタフェース群は、操作情報入力インタフェース(操作情報入力I/F)3と、コンテンツ入力インタフェース(コンテンツ入力I/F)4と、出力インタフェース(出力I/F)5とから構成される。
操作情報入力I/F3はキースイッチ群に接続され、ユーザによる上記キースイッチ群の操作を検出する。コンテンツ入力I/F4は、図示しない放送番組録画再生装置から出力されたマルチメディアコンテンツのデータを受信するもので、記録媒体I/Fやライン入力端子を備える。また、マルチメディアコンテンツがアナログ信号の場合に備え、受信したアナログ信号をディジタル信号に変換するA/D変換器も備える。出力I/F5は、制御ユニット2Aにより検出されたコンテンツ中の歓声区間を表す情報をコンテンツ再生装置等へ出力する。
なお、ハイライトシーン検出装置1Aが放送番組録画再生装置に組み込まれている場合には、上記コンテンツ入力I/F4は当該装置内でマルチメディアコンテンツ記録部から読み出されたデータを受け取る機能となる。
制御ユニット2Aは、この発明に係わる制御機能として、入力制御モジュール21と、スペクトル算出モジュール22と、歓声特徴量抽出モジュール23と、歓声区間判定モジュール24と、出力制御モジュール25を備えている。なお、これらのモジュール21〜25はいずれも、アプリケーション・プログラムをCPUに実行させることにより実現される。
入力制御モジュール21は、上記操作情報入力I/F3から操作入力信号を受け取ってその種類を判別する。例えば、ハイライトシーンの検出を要求する信号、検出モードを選択指定する信号、出力モードを選択指定する信号を判別する。
また入力制御モジュール21は、コンテンツ入力I/F4を介してマルチメディアコンテンツのデータを取り込む。そして、この取り込んだマルチメディアコンテンツデータからオーディオデータを抽出し、この抽出したオーディオデータを一定時間ごとに区切ってオーディオフレームデータとして記憶ユニット6に一旦記憶させる。なお、抽出されたオーディオデータがAAC(Adaptive Audio Coding)等のオーディオ符号化方式により符号化された圧縮データの場合には、当該圧縮データをデコードしたのち一定時間ごとに区切ってオーディオフレームデータとする。
さらに入力制御モジュール21は、上記オーディオフレームデータをスペクトル算出モジュール22に渡す際に、当該オーディオフレームデータを8kHzにダウンサンプリングして汎用のPCM(Pulse Code Modulation)信号に変換する。ここで、サンプリング周波数が比較的低い値の8kHzである理由は、後段の処理で利用する周波数帯域が0〜2kHzで十分である点、AACなどのオーディオ符号化でビットレートが低い場合でも4kHz程度までの周波数成分は圧縮によって情報が失われるケースが少ない点、ダウンサンプリング前のサンプリング周波数が8kHzの整数倍であることが多いのでダウンサンプリング処理が比較的簡便な処理で済む点、などの理由による。よって場合によっては、ダウンサンプリング周波数は6kHzや12kHzでもよく、8kHzという値は必須ではない。
スペクトル算出モジュール22は、上記入力制御モジュール21から渡されたオーディオフレームデータの対数パワースペクトルを算出する。このスペクトルの算出方法としては、DFT(Discrete Fourier Transform)やFFT(Fast Fourier Transform)などのフーリエ変換に基づく方法、LPC(Linear Predictive Coding)スペクトルなどの線形予測分析に基づく方法、バンドパスフィルタとパワー算出による信号処理ベースの方法が使用される。
歓声特徴量抽出モジュール23は、上記スペクトル算出モジュール22により算出されたスペクトルから、歓声の特徴が現れる特定の帯域内において最大値かつ極大値をとる周波数値(ピーク周波数)とそのパワー値を検出する。そして、この検出されたピーク周波数とそのパワー値を、歓声特徴量を表す情報として歓声区間判定モジュール24に渡す。
歓声区間判定モジュール24は、上記歓声特徴量抽出モジュール23から渡された歓声特徴量を表す情報をもとに、予め設定した時間長において歓声特徴量しきい値よりも高い状態が上記時間長に対して判定しきい値率以上存在する区間を検出する。そして、この検出された区間を歓声区間と判定する。
出力制御モジュール25は、上記歓声区間判定モジュール24により歓声区間と判定された区間をタイムバーにより表した出力データを生成し、この生成した出力データを上記出力I/F5へ出力する。上記タイムバーの形態は、上記操作情報入力I/F3を介して予め入力指定された出力モードに応じて決定される。
なお、記憶ユニット6は、コンテンツ入力I/F4を介して入力されたオーディオコンテンツデータを保存すると共に、上記制御ユニット2Aの各モジュールが歓声区間を判定する一連の処理を実行した際に算出される歓声特徴量を表す情報や歓声区間の判定結果を表す情報を一時保存するために用いられる。
次に、以上のように構成されたハイライトシーン検出装置1Aの動作を説明する。
なお、ここでは外部の放送番組記録装置からスポーツ番組のマルチメディアコンテンツのオーディオコンテンツデータを取り込み、当該オーディオコンテンツデータから歓声区間を検出してその結果を表す情報を上記放送番組記録装置へ出力する場合を例にとって説明する。
ハイライトシーン検出装置1Aでは、先ず歓声区間の検出モード及び検出結果の出力モードの設定が以下のように行われる。すなわち、ユーザが図示しない入力デバイスにおいて上記検出モード及び出力モードの選択操作を行うと、これらのモード選択指定信号が操作情報入力I/F3を介して制御ユニット2Aの入力制御モジュール21に取り込まれ、この入力制御モジュール21において識別されて保存される。なお、上記検出モード及び出力モードの選択指定方法の具体例については後述する。
上記検出モード及び出力モードの設定処理が終了すると、ハイライトシーン検出装置1Aは歓声区間検出モードに移行して、先ずオーディオデータのスペクトルを算出する処理と、歓声特徴量を抽出する処理を次のように実行する。図2は、制御ユニット2Aによるその処理手順及び処理内容を示すフローチャートである。
すなわち、制御ユニット2AはステップS21においてハイライトシーン検出要求の入力を監視している。この状態で、ユーザが入力デバイスにおいてハイライトシーンの検出要求操作を行ったとする。そうすると制御ユニット2Aは、上記要求操作を操作情報入力I/F3を介して入力制御モジュール21で検出する。続いて制御ユニット2Aは、入力制御モジュール21において図示しない放送番組録画再生装置からのマルチメディアコンテンツデータの入力をコンテンツ入力I/F40を介して監視する。
この状態で、放送番組録画再生装置から送られたマルチメディアコンテンツデータがコンテンツ入力I/F40で受信されると、制御ユニット2Aは入力制御モジュール21により、上記コンテンツ入力I/F4を介してマルチメディアコンテンツのデータを取り込む。そして、この取り込んだマルチメディアコンテンツデータからオーディオデータを抽出し、この抽出したオーディオデータを一定時間ごとに区切ってオーディオフレームデータとしたのち、さらに8kHzにダウンサンプリングしてスペクトル算出モジュール22に渡す。
スペクトル算出モジュール22は、上記ダウンサンプリングされたオーディオデータをステップS22によりフレームごとに取り込む。そして、ステップS23において、フーリエ変換に基づく方法或いは線形予測分析に基づく方法により対数パワースペクトルを算出する。なお、どのような算出方法を使用する場合でも、周波数分解能は少なくとも30Hz程度あることが好ましい。このように30Hz以上の周波数分解能によりスペクトルを算出することで、後段の歓声特徴量抽出モジュール23における歓声特徴量の抽出精度を高めることが可能となる。
続いて制御ユニット2Aは、歓声特徴量抽出モジュール23により歓声特徴量の抽出処理を以下のように実行する。
一般に、歓声とは非常に多くの数の叫び声の集合なので、歓声の周波数特性は、個々の叫び声の周波数特性が重ね合わさって平滑化されたものと考えることができる。男性の場合、叫び声特有の“ウァー”や“ウォー”など声のうち、長時間継続する母音部分“a”や“o”の第1フォルマント周波数は600〜800Hz、第2フォルマント周波数は1000Hz付近に存在するので、周波数のピークはおおよそ600〜1000Hz付近に現れる。また叫び声は、興奮の度合いが強ければピッチ周波数と音圧が上がり、興奮の度合いが弱ければピッチ周波数と音圧は下がる傾向にある。このため、600〜1000Hzの範囲におけるピーク周波数が高くかつ音圧が大きいほど興奮の度合いが強く、逆にピーク周波数が低くかつ音圧が低いほど興奮の度合いが弱いことになる。したがって、この叫び声の集合である歓声のスペクトルでは、600〜1000Hzの範囲にピーク周波数が存在することになる。
そこで、歓声特徴量抽出モジュール23は、先ずステップS24において、上記スペクトル算出モジュール22により算出されたスペクトルから、歓声の特徴が現れる特定の帯域600〜1000Hzの範囲において極大値をとる周波数値を検出する。続いてステップS25において、上記特定の帯域600〜1000Hzの範囲において最大値をとる周波数を検出する。そして、上記極大値の検出結果と最大値の検出結果をもとに、ステップS26により最大値かつ極大値をとる周波数値の有無を判定し、当該条件を満足する周波数値が検出された場合にこの周波数値をピーク周波数とする。
例えば、いま図4(a)に示すように、600〜1000Hzの範囲において最大値をとりかつ極大値をとる周波数値が検出できた場合には、この周波数値がピーク周波数となる。これに対し、図4(b)に示すように極大値が検出されてもこの極大値が最大値でない場合には、ピーク周波数は無し(=0)と判定される。また、ステップS24からステップS26までの一連の処理は、ピーク周波数を検出するための処理であり、ステップS24とステップS25は順不同でも構わない。
上記ピーク周波数が検出されると、歓声特徴量抽出モジュール23は続いてステップS27に移行し、ここで上記検出されたピーク周波数におけるパワー値を検出する。そして、この検出したパワー値と上記ピーク周波数値とにより表される歓声特徴量を表す情報を生成し、この情報をステップS28により記憶ユニット6に保存する。
例えば、下記数1に示すようにピーク周波数PeakFreqとそのパワー値PeakPowとの加重和を求めてこれを歓声特徴量Featとしたり、下記[数2]に示すようにパワー値PeakPowがあるしきい値ThPowA以上の場合にピーク周波数PeakFreqの値にボーナス項Bnsを付してこれを歓声特徴量Featとする。また、ピーク周波数PeakFreqのパワー値PeakPowをそのまま特徴量として用いずに、例えば[数3]に示すようにパワー値PeakPowがあるしきい値ThPowBよりも低い場合には600〜1000Hzの範囲にピーク周波数が存在したとしても歓声によるピークではないと判断して、歓声特徴量を0としてもよい。さらには、[数4]に示すようにピーク周波数PeakFreqが高いほどこのしきい値ThPowVの値を大きくしてもよい。なお、α、βはそれぞれピーク周波数PeakFreq及びそのパワー値PeakPowの加重和の重みを示し、γはしきい値ThPowVをピーク周波数PeakFreqに応じたしきい値とするための係数を示している。
Figure 2008185626
Figure 2008185626
Figure 2008185626
Figure 2008185626
以上述べた歓声特徴量の生成方法は、歓声において興奮の度合いが強いほどピーク周波数が高くかつパワーも大きいという特性を利用したものであり、この趣旨を逸脱しない範囲であれば[数1]〜[数4]に示した生成方法に限らずこれらを組み合わせるなどの種々変形が可能である。
このようにオーディオデータの一つのフレームについて歓声特徴量の抽出処理が終了すると、制御ユニット2Aはオーディオデータの次フレームの有無をステップS29により判定する。そして、次フレームがある場合にはステップS22に戻り、上記ステップS22〜ステップS28によるスペクトルの算出及び歓声特徴量の抽出処理を繰り返し実行する。
一方、オーディオデータのすべてのフレームについて上記した歓声特徴量の抽出処理が終了すると、制御ユニット2Aは次に歓声区間の判定処理及びその判定結果の出力処理を以下のように実行する。図3は、その処理手順及び処理内容を示すフローチャートである。
すなわち、制御ユニット2Aの歓声区間判定モジュール24は、先ずステップS31において、予め設定された判定時間長Lごとに、上記歓声特徴量抽出モジュール23により抽出された歓声特徴量のうち、しきい値を超える合計時間長を算出し、上記判定時間長に対する上記算出された合計時間長の割合を算出する。そして、この算出された割合をステップS32により判定しきい値率と比較し、割合が判定しきい値を超える場合に上記判定時間Lを歓声区間であるとステップS33にて判定する。これに対し、割合が判定しきい値以下の場合には、上記判定時間Lを非歓声区間であるとステップS34で判定する。そして、以上の判定結果を記憶ユニット6に保存する。
例えば、いまある判定時間長Lにおいて図5(a)に示すような歓声特徴量が得られたとする。この場合、歓声区間判定モジュール24は、しきい値を超える歓声特徴量の時間l1、l2、l3の合計時間長Σl(=l1+l2+l3)を算出する。そして、上記判定時間Lに対するこの算出された合計時間長Σl(=l1+l2+l3)の割合を算出し、この算出された割合の値を判定しきい値率と次式のように比較する。
Figure 2008185626
そして、この算出された合計時間長Σl(=l1+l2+l3)の判定時間Lに対する割合が判定しきい値率よりも大きければ、つまり[数5]の式を満たせばこの区間を歓声区間と判定する。例えば、判定しきい値率を0.7とした場合、図5(a)の例ではΣl/Lが判定しきい値率=0.7を上回っているので、この区間は歓声区間と判定される。これに対し図5(b)の例では、Σl/Lが判定しきい値率=0.7以下であるため歓声区間として判定されない。
ここで、判定時間長Lは、検出対象の歓声区間の長さを制御する値であり、この値Lを長くするほど短時間の歓声区間を検出対象から除外することができるが、長くしすぎると非常に長い歓声区間しか検出されなくなってしまう。また、短くするほど短時間の歓声区間を検出することが可能となるが、短くしすぎると分析誤差などで突発的に歓声特徴量のしきい値を超えるもの、つまり歓声でない区間も歓声として検出されてしまう。よって、判定時間長Lは予め数秒程度に設定しておくことが妥当である。また、この判定時間長Lの値は、入力デバイスにおいて入力されるユーザの設定要求に応じてユーザが希望する値に設定することも可能である。
判定しきい値率は、歓声区間として判定される歓声の確からしさを制御するための値であり、この値を高くするほど検出精度が向上するが検出漏れが生じる可能性が高くなる。一方、判定しきい値率を低くするほど検出精度は低下するが、検出漏れが生じる可能性は低くなる。このため、判定しきい値率は予め0.7〜0.9程度の適当な数値に設定しておくことが望ましい。なお、この判定しきい値についても、上記判定時間長Lと同様に、入力デバイスにより入力されるユーザの設定要求に応じて0.0より大きく1.0以下の範囲で任意の値に設定することが可能である。
歓声区間の判定に判定しきい値率を用いると、分析誤差などによって歓声区間に突発的な欠落が生じた場合でも安定した結果を得ることができる。しかし、必ずしもしきい値率を用いる必要はなく、同様の効果をもたらす方法としてほかに歓声特徴量の移動平均をとるものや、メディアンフィルタリングを用いるものなどがある。すなわち、しきい値判定率は必須ではなく、この趣旨を逸脱しない範囲であれば種々の改良又は変更が可能である。
歓声特徴量の検出しきい値は、歓声の大きさ(盛り上がり)の検出レベルを制御するための値であり、この値が高いほどより盛り上がり度の高い歓声のみを検出することができる。これに対し歓声特徴量の検出しきい値が低いと、それほど盛上っていない歓声でも検出してしまうことになる。したがって、歓声特徴量の検出しきい値も予め適当な数値に設定しておくことが望ましいが、上記判定時間長Lや判定しきい値率と同様に、入力デバイスにおいて入力されるユーザの設定要求に応じて0より大きい任意の値に設定できるようにしてもよい。
このように歓声区間判定モジュール24では、複数の判定条件を選択的に任意に設定することで歓声区間の判定結果を任意に制御することができるので、より細かいニーズに合わせて歓声検出を行うことが可能となる。ただし、これらの判定条件をユーザが適切に制御するには、経験が必要だったり面倒な操作が必要となる。
そこで、予め複数のハイライト検出モードを用意しておき、ユーザがこれらのモードのうち任意のモードを選択すると、それに応じて判定条件が適切な値に可変設定されるようにするとよい。例えば、図6に示すように3つのハイライト検出モードを用意しておき、ユーザがこれらのモードのうちの一つを選択した上で条件値を入力することにより、当該条件値に応じた判定条件が設定されるようにする。
図6において、上から1番目の検出モードは、ハイライトの盛り上がりの度合いに応じて上位X位までを検出するものである。上から2番目の検出モードは、検出された歓声区間の合計時間がX分になるようにハイライトの盛り上がりの度合いに応じて上位から検出するものである。上から3番目の検出モードは、検出された区間の合計時間がそのコンテンツ全体の時間長に対してX%になるように、ハイライトの度合いに応じて上位から検出するものである。このようなハイライト検出モードを予め用意することで、ユーザは歓声区間判定モジュール24が使用する判定条件の値を直接入力する必要がなく、これにより経験の有無にかかわらず常に簡単な操作で適切な判定条件を設定することが可能となる。
具体的には、まず歓声区間が多めに検出されるように判定時間長Lを短めの3秒程度に、判定しきい値率を小さめの0.7程度に、歓声特徴量の検出しきい値を低めにそれぞれ設定し、歓声区間を検出する。次にこれらの歓声区間に対し、ハイライトの度合いを歓声得点として算出する。ハイライトの度合いとは、いかに盛上っているか判断する指標である。このため、歓声得点は、歓声が長い時間持続し、歓声特徴量の値が大きく、さらに歓声区間中の欠落が少ないほど大きな値となる。
歓声得点の一例としては、図7に示すような歓声特徴量が描く図形の面積があげられる。これにより、歓声得点を比較的単純な方法で算出することができる。歓声区間判定モジュール24は、この歓声得点の高い順に、ユーザが所望したハイライト検出モードに応じて歓声区間を選出し、最終的な歓声区間として出力する。このように、一旦歓声区間が多めに検出されるような設定で歓声区間を検出しておき、ユーザが所望する要件に応じて歓声区間を選出して出力するという形態をとることで、ユーザが所望する条件が変更された場合でも再度歓声区間の検出処理を行わずに済む。このため、歓声区間の検出に要する処理量を大幅に削減することができる。
また、ユーザが所望する条件を満たさないほど歓声区間の数が少なかった場合、例えばユーザが上位60分までを検出と指定したにもかかわらず、検出した歓声区間の長さの合計が60分に満たなかった場合には、さらに多くの歓声区間が検出されるように判定時間長L、判定しきい値率、歓声特徴量の検出しきい値を調節することで対応することが可能となる。このような場合、判定時間長Lと判定しきい値率を下げすぎると、前述した理由により歓声ではない区間を検出してしまう可能性が高くなるので、歓声特徴量の検出しきい値を下げることが最も効果的である。
このように、歓声区間の検出方法として、複数のハイライト検出モードを予め用意し、ユーザがこれらの検出モードの中から所望のモードを選択指定した場合に、この指定されたモードに応じて判定時間長L、判定しきい値率、及び歓声特徴量の検出しきい値が自動調節されることにより、ユーザは面倒な操作をせずとも、ユーザが所望する条件でハイライトシーンの検出が可能となる。
以上のように歓声区間の判定結果が得られると、制御ユニット2Aは続いて出力制御モジュール25により上記歓声区間判定結果の出力処理を実行する。すなわち、出力制御モジュール25は、先ずステップS36において、事前に設定された出力形態を判定する。そして、この判定された出力形態に応じてステップS37〜ステップS40のいずれかにより出力データを生成し、この生成された出力データをステップS41により出力I/F5から図示しない録画再生装置等へ出力する。
例えば出力形態としては、ハイライトシーンの位置を表示する第1の形態と、ハイライトシーンのみを圧縮して表示する第2の形態と、ハイライトシーンを色分け表示する第3の形態と、ハイライトシーンを順位付けして表示する第4の形態とがある。
このうち、先ず第1の形態がユーザにより選択されている場合には、出力制御モジュール25はステップS37により、例えば図8(a)に示すようにコンテンツ中におけるハイライトシーンの時間位置T1〜Tnを表すタイムバーを生成し、このタイムバーの表示データをステップS41により出力I/F5から出力させる。
次に第2の形態がユーザにより選択されている場合には、出力制御モジュール25はステップS38により、例えば図8(b)に示すようにハイライトシーン以外の区間をスキップしてハイライトシーンのみを並べたタイムバーを生成し、このタイムバーの表示データをステップS41により出力I/F5から出力させる。
第3の形態が選択されている場合には、出力制御モジュール25はステップS39により、例えば図8(c)に示すようにコンテンツ中におけるハイライトシーンの時間位置を表し、さらに上記各ハイライトシーンをその歓声得点の高低に応じて色分けして表示したタイムバーを生成し、この生成したタイムバーの表示データをステップS41により出力I/F5から出力させる。
第4の形態が選択されている場合には、出力制御モジュール25はステップS40により、例えば図8(d)に示すようにコンテンツ中におけるハイライトシーンの時間位置を示すと共に、各ハイライトシーンにその歓声得点とその順位を表す情報をふかして表示したタイムバーを生成し、この生成したタイムバーの表示データをステップS41により出力I/F5から出力させる。
このようにユーザが選択指定した出力形態に応じて、歓声区間の判定結果を表すタイムバーを生成し出力することで、ユーザは検出されたハイライトシーンがどのような時間位置に存在し、どのような長さで、どの程度の盛り上がり具合かを自身が希望する形態で確認することができるようになる。このため、短時間で視聴する際に大変有用な情報を得ることができる。またマルチメディアコンテンツを編集する際にも、ハイライトシーンという編集に大変有用な情報を得ることができるので、編集作業を効率的に短時間で行うことができるようになる。
なお、上記出力されるタイムバーの表示データを使用したコンテンツの再生制御方法としては、次のようなものが考えられる。すなわち、マルチメディアコンテンツを再生中の録画再生装置に、当該マルチメディアコンテンツのハイライトシーンの位置を表すタイムバーを供給して表示器に表示させる。そして、録画再生装置においてユーザが上記タイムバーに表示されたハイライトシーンを選択すると、そのハイライトシーンのみを再生する。また、録画再生装置に自動スキップモードを設定しておき、上記タイムバーに従いハイライトシーン以外のシーンをスキップしてハイライトシーンのみを順次再生する。
また、上記タイムバーの情報は、録画再生装置におけるコンテンツの再生制御に用いる以外に、インターネット上に設けられたコンテンツ配信サーバによるコンテンツの配信制御に使用したり、コンテンツを記録媒体に記録する際にハイライトシーンに相当する区間のみを選択的に記録する制御に使用することができる。さらに、ハイライトシーンの区間の属性を表す情報をテキストデータにより表示するようにしてもよい。
以上述べたように第1の実施形態では、録画再生装置から入力されたマルチメディアコンテンツに含まれるオーディオデータを、入力制御モジュール21で一定区間ごとに区切ってこれらの区間ごとにスペクトル算出モジュール22によりスペクトルを検出する。次に、歓声特徴量抽出モジュール23により、上記検出されたスペクトルのうち歓声の特徴が現れる特定の帯域内において最大値かつ極大値をとる周波数値(ピーク周波数)とそのパワー値とからなる歓声特徴量を検出する。そして、歓声区間判定モジュール24において、予め設定した時間長において上記検出された歓声特徴量がしきい値よりも高い状態が上記時間長に対して判定しきい値率以上存在する区間を歓声区間と判定し、出力制御モジュール25により上記歓声区間の判定結果を表す表示データを生成して上記録画再生装置に出力するようにしている。
したがって、歓声区間の検出にリファレンス情報を用いないため収録環境の違いの影響を受けることなく常に安定な性能で歓声区間を検出することが可能となる。また、歓声特有の600〜1000Hzの帯域に存在するスペクトルのピークが、歓声の興奮が強いほどその周波数が高くてパワーが大きくなり、歓声の興奮が弱いほどその周波数が低くてパワーが小さくなるという特性を利用して、歓声区間を判定するための特徴量が検出される。このため、オーディオ信号の符号化歪みに対しても安定かつ高精度に歓声区間を判定することが可能となる。
また本実施形態では、複数のハイライト検出モードを予め用意して表示し、ユーザがこれらの検出モードの中から所望のモードを選択指定したときに、この指定された検出モードに応じて判定時間長L、判定しきい値率、及び歓声特徴量の検出しきい値が自動調節される。したがって、ユーザは面倒な入力設定操作を行わなくても、ユーザが所望する条件でハイライトシーンの検出が可能となる。
さらに、ユーザが選択指定した出力形態に応じて、歓声区間の判定結果を表すタイムバーが生成されて出力される。このため、ユーザは検出されたハイライトシーンがコンテンツ中のどの時間位置に存在し、かつどのような長さでどの程度の盛り上がり具合かを自身が希望する形態により確認することが可能となる。このため、短時間で視聴する際に大変有用な情報を得ることができる。またマルチメディアコンテンツを編集する際にも、ハイライトシーンという編集に大変有用な情報を得ることができるので、編集作業を効率的に短時間で行うことが可能となる。
(第2の実施形態)
図9は、この発明の第2の実施形態に係わるハイライトシーン検出装置1Bの構成を示すブロック図である。なお、同図において前記図1と同一部分には同一符号を付して詳しい説明は省略する。
制御ユニット2Bには、前記第1の実施形態で説明した入力制御モジュール21、スペクトル算出モジュール22、歓声特徴量抽出モジュール23、歓声区間判定モジュール24及び出力制御モジュール25に加え、歓声区間情報正規化モジュール26と、歓声パターン類似度算出モジュール27が新たに設けられている。
歓声区間情報正規化モジュール26は、歓声区間判定モジュール24により得られた歓声区間の判定結果を、同歓声区間を複数の小区間に分けて歓声特徴量のしきい値により正規化することにより、上記歓声区間の判定結果をパターン化する。
歓声パターン類似度算出モジュール27は、上記正規化処理によりパターン化された歓声区間と予め用意した基準歓声パターンとの類似度を算出し、この算出された類似度に応じて上記歓声区間を複数の歓声パターンに分類する。
次に、以上のように構成された装置による歓声区間の正規化処理及びパターン分類処理の動作を説明する。
先ず、歓声区間の正規化処理は以下のように行われる。図10はその処理手順と処理内容を示すフローチャートである。制御ユニット2Bの歓声区間情報正規化モジュール26は、先ずステップS101において、上記歓声区間判定モジュール24により検出された歓声区間の各歓声特徴量の平均値と標準偏差を算出する。次に、この算出された平均値及び標準偏差から歓声特徴量のしきい値を算出すると共に、上記正規化対象の歓声区間を前半部分と中間部分と後半部分とに3区分する。そして、先ず前半部分に上記しきい値以上の歓声特徴量が存在するか否かをステップS102で判定する。この判定の結果、しきい値以上の歓声特徴量が存在すると、続いて後半部分に上記しきい値以上の歓声特徴量が存在するか否かをステップS103で判定する。そして、この判定の結果しきい値以上の歓声特徴量が存在した場合には、中間部分に上記しきい値以上の歓声特徴量が存在するか否かをステップS104で判定する。
以上の各判定の結果、歓声区間の前半、後半及び中間のいずれの部分にもしきい値以上の歓声特徴量が存在した場合には、歓声区間情報正規化モジュール26はステップS105に6おいて上記歓声区間の正規化パターンをパターンAと判定する。また、歓声区間の前半部分及び後半部分にしきい値以上の歓声特徴量が存在するものの、中間部分にはしきい値以上の歓声特徴量が存在しなかった場合には、ステップS106において上記歓声区間の正規化パターンをパターンBと判定する。さらに、前半部分にしきい値以上の歓声特徴量が存在し、後半部分にしきい値以上の歓声特徴量が存在しなかった場合には、ステップS107において上記歓声区間の正規化パターンをパターンDと判定する。
一方、上記ステップS102において、前半部分にしきい値以上の歓声特徴量が存在しないと判定されると、歓声区間情報正規化モジュール26は後半部分にしきい値以上の歓声特徴量が存在するかどうかをステップS108で判定し、存在すればステップS109により上記歓声区間の正規化パターンをパターンCと判定する。これに対し、上記ステップS108においてしきい値以上の歓声特徴量が存在しないと判定された場合には、歓声区間情報正規化モジュール26は中間部分にしきい値以上の歓声特徴量が存在するかどうかをステップS110で判定する。そして、存在すればステップS111により上記歓声区間の正規化パターンをパターンEと判定し、一方存在しなかった場合にはステップS112により上記歓声区間の正規化パターンをパターンAと判定する。
図11(a)〜(e)は上記各正規化パターンA〜Eを模式的に示したもので、横軸は時間、縦軸は歓声特徴量をそれぞれ示す。パターンAは、歓声特徴量が平坦なパターンであり、例えば特に大盛り上がりもなく、ワーっと盛上ったような抑揚のない歓声に相当する。パターンBは、歓声特徴量が高い状態から一旦低くなりまた高くなるパターンである。野球を例にとると、得点圏にランナーがいる場合にヒットかどうかあいまいな当りの直後は盛り上がりが小さいが、ボールが落ちてヒットになり、得点が入ったときに大きく盛り上がる場合などに相当する。パターンCは、歓声特徴量が低い状態から高くなるパターンである。例えばサッカーにおいて、得点チャンスで盛上った状態から、シュートを決めて歓声が大きく盛上る場合に相当する。パターンDは、歓声特徴量が高い状態から低くなるパターンである。例えばサッカーにおいて、ロングシュートなどの突発的な歓声の盛り上がりの後に、歓声が小さい余韻が持続するような場合に相当する。パターンEは、歓声特徴量が低い状態から高い状態になり、また低くなるパターンである。例えば野球において、バッターがホームランを打ったときに、バッティングの直後に歓声が盛り上がって少々治まり、観客席にボールが入った瞬間にまた歓声が盛上るような場合に相当する。
このように、歓声区間として検出された区間内において、歓声の度合いが大きくなる箇所がパターンAのように存在しない場合、パターンBのように前半と後半にある場合、パターンCのように後半のみにある場合、パターンDのように前半のみにある場合、パターンEのように中央付近にある場合にそれぞれ分類することで、検出された歓声がどのような歓声なのかをある程度把握することができる。
なお、上記正規化処理に使用するしきい値は次のように算出される。図12はその算出方法を説明するための図である。すなわち、しきい値は、歓声区間における歓声特徴量の平均値と標準偏差とを加算することにより算出される。このように平均値や標準偏差などの統計量を用いてしきい値を算出することで、歓声特徴量のバラツキに対応することが可能となる。
また、下記[数6]に示すように、標準偏差を正の実数α倍したものと平均値との和をしきい値とし、この係数αを制御することによりしきい値を可変制御するようにしてもよい。
Figure 2008185626
このようにすると、係数αを大きくするほどしきい値を超える歓声特徴量が少なくなり、ほとんどパターンAに分類されてしまうことになるので、経験上係数αは1.0〜2.0の範囲に設定することが適当である。
さらに、標準偏差の算出は歓声区間ごとに算出するのではなく、複数の歓声区間の情報を使って算出してもよい。こうすることで、歓声区間内のバラツキのみならず、歓声区間外、つまり歓声区間ごとのバラツキの影響も考慮することができる。図12の例では、歓声区間の前半部分はしきい値以上の歓声特徴量が存在するので、ステップS102においてしきい値以上の歓声特徴量が存在すると判定され、また後半部分にはしきい値以上の歓声特徴量が存在しないので、ステップS103において存在しないと判定される。このため、歓声区間の正規化パターンはパターンDと判定される。
以上のように、歓声区間を正規化する際に、歓声区間を前半部分、中間部分及び後半部分に区分けして量子化することで、時間情報を正規化することができる。また、歓声特徴量がしきい値以上か否かにより二値化するので、これも歓声特徴量を正規化することができるが、歓声特徴量は歓声の盛り上がりを示す情報そのものなので、二値化せずに値を保持する方が好ましい。例えば、前半部分、中間部分及び後半部分のそれぞれにおいて、しきい値未満の場合の歓声特徴量は平均値を保持し、しきい値以上の場合には歓声特徴量がしきい値以上のもののみの平均値やその部分のみの歓声特徴量の平均を保持することなどが考えられる。このように歓声特徴量の値を保持することで、後段の歓声パターン分類モジュール27において、より詳細な分類が可能となる。
歓声区間情報正規化モジュール26により得られる正規化された歓声情報の表現の一例としては図13が挙げられる。同図において、131はコンテンツの開始位置から何番目の歓声区間かを示し、132は歓声区間の開始時間と終了時間を示す。また、133は歓声区間情報正規化モジュール26においてどの歓声パターンに正規化されたかを示し、134は歓声特徴量の正規化された値を示している。このような出力形態とすることで、歓声区間に関する時間、パターン、歓声の大きさ(程度)に関する情報が分かるので、後段の歓声パターン分類モジュール27において、より詳細な分類が可能となる。
以上説明したように歓声区間情報正規化モジュール26では、歓声区間判定モジュール24により歓声区間と判定された区間が、予め用意した歓声パターンと歓声特徴量に正規化される。この結果、歓声区間の判定情報は歓声区間の時間長や歓声特徴量のバラツキに対し頑健な情報となるので、より高精度に歓声区間を分類することが可能となる。
なお、上記説明では5つの歓声パターンを用意した場合を例にとって説明したが、歓声パターンの数はこれに限るものではなく、複数であれば如何なる数に設定してもよい。ただし、多くしすぎると正規化によるバラツキに対する頑健性が失われ、また少なすぎると歓声パターンを分類数が減ってしまうので、適切な数にすることが肝要である。
次に、歓声パターン分類モジュール27では、上記歓声区間情報正規化モジュール26により正規化された歓声区間の判定情報を分類する処理が行われる。分類の方法は、基本的には歓声区間情報正規化モジュール26により正規化された歓声パターンそのものである。例えば、歓声パターンが図11に示したパターンCのときには、先に述べたように歓声特徴量が低い状態から高くなるパターンであり、サッカーでは得点チャンスで盛上った状態からシュートを決めて歓声が大きく盛上る場合に相当する。
一方、さらに詳細に分類しようとする場合には、同じ歓声パターンでも歓声特徴量の値を用いて優劣をつけるようにしてもよい。例えば、図14に示すように同じ歓声パターンCにおいて、歓声特徴量の盛り上がり時の値を(a)よりも(b)の方が大きくなるように設定する。つまり、この例では(b)の方がより大きな歓声の盛り上がりであったことを示しているので、優劣をつけることができる。このように、同じ歓声パターン間で盛上っている方の歓声特徴量を比較したり、盛上っている方と盛上っていない方の線形和で比較することで、同じ歓声パターン同士の優劣をつけることができる。
このようにすると次のような作用効果が得られる。すなわち、前記第1の実施形態では、入力デバイスにおいて入力されるユーザの種々の要求に応じて合計再生時間などの制約が課される場合に、歓声区間の長さや特徴量の大きさに依存する歓声得点により優劣を付けて、この優劣をもとに歓声区間を上位から順に選択していた。しかし、第2の実施形態では、予め歓声パターンに優先順位を付け、さらにこの歓声パターン内で優劣をつけることで、歓声区間全部を順位付けすることができる。
なお、第2の実施形態は次のような各種変形が可能である。例えば、図15に示すようにハイライトパターンの選択メニューを表示し、ユーザに所望する歓声パターンを選択させるようにしてもよい。さらに、前記図8(c)に示したように歓声パターンを色や形により分類して表示することで、ユーザは歓声のパターンを位置情報、さらにはコンテンツ全体における歓声区間の構成などを瞬時に簡単に把握することができるようになり、ユーザは多種多様な視聴形態を実現することが可能となる。
以上述べたように第2の実施形態では、歓声パターン分類モジュール27により歓声区間情報正規化モジュール26により得られる正規化された歓声区間の判定情報を用いて歓声区間を分類することができ、これによってユーザは単に歓声区間の位置を知るだけでなく、その歓声がどのような歓声かを瞬時に簡単に把握することができるようになる。したがって、スポーツコンテンツ全体の流れを把握することが可能となったり、運動会などの歓声を伴うイベントを録画したコンテンツを編集する際の情報がより有益な情報になったりなどの効果が期待できる。
また第2の実施形態では、歓声区間情報正規化モジュール26及び歓声パターン分類モジュール27による正規化処理及びパターン分類処理により、パターンと値で表現した情報を使って歓声区間を複数の歓声パターンに分類しさらに優劣を付けた場合を例にとって説明した。しかし、それに限るものではなく、歓声区間のパターン分類処理方法についてはこの発明の要旨を逸脱しない範囲で種々の方法を採用することが可能である。例えば、ゴールシーンやホームランシーン等、目標となるシーンを予め統計的に学習し、このターゲットパターンに対する確率的距離に基づいて歓声区間の正規化及び類似度の算出を行うようにしてもよい。具体的には、ベクトル量子化やクラスタリング、GMMなどの各種統計的モデルを使って、ゴールシーンやホームランシーン等のシーンごとに予め統計的に学習しておく。そして、歓声区間を分類するときに、各歓声区間の判定情報が上記学習したものに対し確率的に起こりうる確率が最も高いパターンに属するとして歓声パターンの分類をする。また、このときの確率を類似度の大きさとすれば、優先順位を付けることもできる。
(第3の実施形態)
前記第2の実施形態では、歓声特徴量の時間遷移パターンを正規化して分類することで歓声区間の分類処理を行った。しかし、上記処理手法では、集団が同じ音程で歌を歌って応援するシーンや楽器を使った応援シーン等の組織的な応援シーンを正しく特定することが難しい。組織的応援は、スポーツコンテンツの盛り上がりにはあまり関係ないことが多く、むしろ観客が熱狂的に盛上ると組織的応援は崩れる。このため、組織的応援区間を積極的に歓声区間としないか、もしくは組織的応援区間として歓声区間から区別することで、歓声区間の検出精度の向上や歓声区間の分類精度の向上が期待できる。
第3の実施形態は、歓声特徴量を抽出する際に、歓声特徴量を抽出するとともに組織的応援かどうかを判定する。例えば、図1に示した歓声特徴量抽出モジュール23において、スペクトル算出モジュール22により算出されたスペクトルから、歓声の特徴が現れる一部の帯域内において最大値かつ極大値をとる周波数(ピーク周波数)とそのパワー値を検出すると共に、上記ピーク周波数の周辺の周波数のパワー値を算出する。そして、このピーク周波数のパワー値と周辺周波数のパワー値との差がしきい値よりも大きい場合に、組織的応援状態であることを示す組織応援フラグを出力する。
以下、この第3の実施形態による歓声区間及び組織的応援区間の判定処理動作を説明する。図16はその処理手順と処理内容を示すフローチャートである。なお、装置の構成については図1を援用して説明を行う。
歓声特徴量抽出モジュール23は、先ずステップS121において、スペクトル算出モジュール22により算出されたスペクトルからピーク周波数を検出する。次にステップS122において、上記検出したピーク周波数が0かどうかを判定し、0と判定された場合はステップS123により当該区間を非歓声区間と判定する。
これに対し、上記ステップS122においてピーク周波数が0以外と判定されたとする。この場合歓声特徴量抽出モジュール23は、ステップS124によりピーク周波数を含む歓声特徴量の帯域幅を算出する。例えば、図17に示すようにピーク周波数のパワー値から3dB低下した位置での周波数幅を帯域幅として算出する。そして、この算出された帯域幅が予め設定したしきい値より小さいか否かをステップS125により判定する。この判定の結果、帯域幅がしきい値以上と判定された場合には、ステップS126により当該区間を通常歓声区間と判定する。一方、上記ステップS125において帯域幅がしきい値より小さいと判定された場合には、歓声特徴量抽出モジュール23はステップS127により当該区間を組織的応援と判定する。
ここで、ピーク周波数の帯域幅がしきい値より狭い場合に、組織的応援と見なせる理由を以下に説明する。すなわち、組織的応援とは多くの人が同じ歌を歌ったり同じ楽器を鳴らしたりすることを指す。したがって、通常の歓声の場合にはバラバラだった各々のピッチ周波数は、同じ歌を歌っている場合にはピッチ周波数がほぼ同じになる。このため、ピッチによるハーモニクス構造、つまり周波数の山と谷が、例えば図17(a),(b)のようにスペクトル上に顕著に現れる。また、応援用の楽器が鳴っている場合も同様に、楽器の基本周波数によるハーモニクス構造により周波数の山と谷がスペクトル上に顕著に現れる。このため、組織的応援の場合には周波数ピークが鋭くなり、帯域幅が狭くなる。
以上述べたように第3の実施形態によれば、ピーク周波数の帯域幅の大小により歓声区間と組織的応援区間とを分けることができる。このため、歓声区間の検出ならびに歓声区間の分類の精度が向上し、ユーザが満足する多種多様な視聴形態が実現できる。また、組織的応援区間そのものがコンテンツの内容を把握する上で有益な情報となる。このため、ユーザはコンテンツをより一層短時間で視聴できるようになったり、また編集することができるようになる。
(その他の実施形態)
前記各実施形態では、ハイライトシーン検出装置を録画再生装置とは別に設けた場合を例にとって説明したが、ハイライトシーン検出装置を録画再生装置内に設けるようにしてもよい。また、ハイライトシーン検出装置は、録画再生装置以外に撮像装置やコンテンツ配信サーバに付加または内蔵させるようにしてもよい。
その他、ハイライトシーン検出装置の構成や制御ユニットによる処理手順と処理内容などについても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
要するにこの発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
この発明の第1の実施の形態に係るハイライトシーン検出装置の構成を示すブロック図である。 図1に示したハイライトシーン検出装置の制御ユニットによるスペクトル算出処理と歓声特徴量検出処理の手順及び処理内容を示すフローチャートである。 図1に示したハイライトシーン検出装置の制御ユニットによる歓声区間判定処理及びその出力処理の手順及び処理内容を示すフローチャートである。 図1に示したハイライトシーン検出装置の制御ユニットによるピーク周波数検出処理動作を説明するための図である。 図1に示したハイライトシーン検出装置の制御ユニットによる歓声区間判定処理動作を説明するための図である。 図1に示したハイライトシーン検出装置の制御ユニットにより表示されるハイライト検出モード入力メニューの一例を示す図である。 図1に示したハイライトシーン検出装置の制御ユニットにより得られる、歓声得点の一例を示す図である。 図1に示したハイライトシーン検出装置の制御ユニットにより生成されるタイムバーの複数の例を示す図である。 この発明の第2の実施形態に係わるハイライトシーン検出装置の構成を示すブロック図である。 図9に示したハイライトシーン検出装置の制御ユニットによる歓声区間正規化処理の手順と処理内容を示すフローチャートである。 図9に示したハイライトシーン検出装置の制御ユニットにより得られる正規化パターンを模式的に示した図である。 図9に示したハイライトシーン検出装置の制御ユニットにおいて使用される算出方法を説明するための図である。 図9に示したハイライトシーン検出装置の制御ユニットにより得られる正規化された歓声情報の表現の一例を示す図である。 図9に示したハイライトシーン検出装置の制御ユニットにおいて、歓声パターンに歓声特徴量の値を用いて優劣をつける場合の例を示す図である。 第2の実施形態の変形例である、ハイライトパターン選択メニューの表示例を示す図である。 この発明の第3の実施形態における歓声区間及び組織的応援区間の判定処理の手順と処理内容を示すフローチャートである。 この発明の第3の実施形態におけるピーク周波数を含む歓声特徴量の帯域幅算出手法を説明するための図である。
符号の説明
1A,1B…ハイライトシーン検出装置、2A,2B…制御ユニット、3…操作情報入力インタフェース(操作情報入力I/F)、4…コンテンツ入力インタフェース(コンテンツ入力I/F)、5…出力インタフェース(出力I/F)、6…記憶ユニット、7…バス、21…入力制御モジュール、22…スペクトル算出モジュール、23…歓声特徴量抽出モジュール、24…歓声区間判定モジュール、25…出力制御モジュール、26…歓声区間情報正規化モジュール、27…歓声区間判定モジュール。

Claims (4)

  1. オーディオ信号を含むコンテンツデータを受け取る手段と、
    前記受け取ったコンテンツデータに含まれるオーディオ信号を一定区間ごとに区切って、これらの区間ごとにそのスペクトルを検出するスペクトル検出手段と、
    前記検出されたスペクトルのうち予め設定された帯域内のスペクトルから、ピーク周波数と当該ピーク周波数のパワー値とからなる歓声特徴量を検出する特徴量検出手段と、
    前記検出された歓声特徴量が判定しきい値よりも高い状態が、予め設定された判定時間長に対して判定しきい値率以上存在する区間を歓声区間と判定する判定手段と
    を具備することを特徴とするハイライトシーン検出装置。
  2. 前記歓声区間の判定結果の出力形態をユーザが指定入力したとき、この指定情報を受け取る手段と、
    前記受け取った指定情報に応じて、前記判定時間長、判定しきい値及び判定しきい値率のうちの少なくとも1つを調節する手段と、
    前記調節後の判定時間長、判定しきい値又は判定しきい値率に基づいて前記判定手段により得られた歓声区間の判定結果を、前記指定情報により表される出力形態に編集して出力する手段と
    を、さらに具備することを特徴とする請求項1記載のハイライトシーン検出装置。
  3. 前記判定手段により得られた歓声区間の判定結果を、歓声の時間長と歓声の大きさを表す情報で正規化する正規化手段と、
    前記正規化された歓声区間の判定結果を、予め設定した複数の歓声パターンに分類する分類手段と
    を、さらに具備することを特徴とする請求項1または2に記載のハイライトシーン検出装置。
  4. 前記特徴量検出手段は、
    前記スペクトル検出手段により検出されたスペクトルのうち予め設定された帯域内のスペクトルから、ピーク周波数と当該ピーク周波数のパワー値とからなる歓声特徴量を検出する手段と、
    前記予め設定された帯域内のスペクトルから、前記ピーク周波数の周辺の周波数のパワー値を検出する手段と
    を備え、
    前記検出されたピーク周波数のパワー値と前記周辺周波数のパワー値との差を算出し、この算出されたパワー値の差が予め設定された値より大きい場合に、前記歓声特徴量が検出された歓声区間が組織的応援状態であることを示す組織応援フラグを出力する手段を、
    さらに具備することを特徴とする請求項1乃至3のいずれかに記載のハイライトシーン検出装置。
JP2007016636A 2007-01-26 2007-01-26 ハイライトシーン検出装置 Expired - Fee Related JP5034516B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007016636A JP5034516B2 (ja) 2007-01-26 2007-01-26 ハイライトシーン検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007016636A JP5034516B2 (ja) 2007-01-26 2007-01-26 ハイライトシーン検出装置

Publications (2)

Publication Number Publication Date
JP2008185626A true JP2008185626A (ja) 2008-08-14
JP5034516B2 JP5034516B2 (ja) 2012-09-26

Family

ID=39728749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007016636A Expired - Fee Related JP5034516B2 (ja) 2007-01-26 2007-01-26 ハイライトシーン検出装置

Country Status (1)

Country Link
JP (1) JP5034516B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2246807A1 (en) 2009-04-30 2010-11-03 Sony Corporation Information processing apparatus and method, and program
JP2011095510A (ja) * 2009-10-29 2011-05-12 Jvc Kenwood Holdings Inc 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
JP2011223327A (ja) * 2010-04-09 2011-11-04 Sony Corp コンテンツ検索装置および方法、並びにプログラム
WO2012070179A1 (ja) * 2010-11-24 2012-05-31 株式会社Jvcケンウッド 区間作成装置、区間作成方法、及び区間作成プログラム
WO2012093430A1 (ja) * 2011-01-05 2012-07-12 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
US8503770B2 (en) 2009-04-30 2013-08-06 Sony Corporation Information processing apparatus and method, and program
CN103544961A (zh) * 2012-07-10 2014-01-29 中兴通讯股份有限公司 语音信号处理方法及装置
JP2017517995A (ja) * 2014-04-11 2017-06-29 サムスン エレクトロニクス カンパニー リミテッド 要約コンテンツサービスのための放送受信装置及び方法
JP2019062357A (ja) * 2017-09-26 2019-04-18 株式会社日立国際電気 ビデオサーバシステム
CN111739542A (zh) * 2020-05-13 2020-10-02 深圳市微纳感知计算技术有限公司 一种特征声音检测的方法、装置及设备
JP2021526238A (ja) * 2018-06-05 2021-09-30 スーズ,インコーポレイテッド スポーツイベントテレビジョン番組において群衆ノイズの発生を検出するためのオーディオ処理
JP2021533405A (ja) * 2018-07-30 2021-12-02 スーズ,インコーポレイテッド 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004191780A (ja) * 2002-12-12 2004-07-08 Sony Corp 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP2006129363A (ja) * 2004-11-01 2006-05-18 Casio Comput Co Ltd 番組要約装置および番組要約処理プログラム
JP2006285275A (ja) * 2006-06-05 2006-10-19 Sony Corp 観客状況推定装置と観客状況推定方法および観客状況推定プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004191780A (ja) * 2002-12-12 2004-07-08 Sony Corp 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP2006129363A (ja) * 2004-11-01 2006-05-18 Casio Comput Co Ltd 番組要約装置および番組要約処理プログラム
JP2006285275A (ja) * 2006-06-05 2006-10-19 Sony Corp 観客状況推定装置と観客状況推定方法および観客状況推定プログラム

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457469B2 (en) 2009-04-30 2013-06-04 Sony Corporation Display control device, display control method, and program
WO2010125962A1 (ja) 2009-04-30 2010-11-04 ソニー株式会社 表示制御装置、表示制御方法、及び、プログラム
EP2246807A1 (en) 2009-04-30 2010-11-03 Sony Corporation Information processing apparatus and method, and program
US8503770B2 (en) 2009-04-30 2013-08-06 Sony Corporation Information processing apparatus and method, and program
JP2011095510A (ja) * 2009-10-29 2011-05-12 Jvc Kenwood Holdings Inc 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
JP2011223327A (ja) * 2010-04-09 2011-11-04 Sony Corp コンテンツ検索装置および方法、並びにプログラム
US8971633B2 (en) 2010-04-09 2015-03-03 Sony Corporation Content retrieval to facilitate recognizing content details of a moving image
US9191609B2 (en) 2010-11-24 2015-11-17 JVC Kenwood Corporation Segment creation device, segment creation method, and segment creation program
JP2012129979A (ja) * 2010-11-24 2012-07-05 Jvc Kenwood Corp 区間作成装置、区間作成方法、及び区間作成プログラム
WO2012070179A1 (ja) * 2010-11-24 2012-05-31 株式会社Jvcケンウッド 区間作成装置、区間作成方法、及び区間作成プログラム
JPWO2012093430A1 (ja) * 2011-01-05 2014-06-09 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
CN102782750A (zh) * 2011-01-05 2012-11-14 松下电器产业株式会社 兴趣区间抽取装置、兴趣区间抽取方法
JP5658285B2 (ja) * 2011-01-05 2015-01-21 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 興味区間抽出装置、興味区間抽出方法
US8942540B2 (en) 2011-01-05 2015-01-27 Panasonic Intellectual Property Corporation Of America Interesting section extracting device, interesting section extracting method
WO2012093430A1 (ja) * 2011-01-05 2012-07-12 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
CN103544961A (zh) * 2012-07-10 2014-01-29 中兴通讯股份有限公司 语音信号处理方法及装置
JP2017517995A (ja) * 2014-04-11 2017-06-29 サムスン エレクトロニクス カンパニー リミテッド 要約コンテンツサービスのための放送受信装置及び方法
JP2019062357A (ja) * 2017-09-26 2019-04-18 株式会社日立国際電気 ビデオサーバシステム
JP2021526238A (ja) * 2018-06-05 2021-09-30 スーズ,インコーポレイテッド スポーツイベントテレビジョン番組において群衆ノイズの発生を検出するためのオーディオ処理
JP7485864B2 (ja) 2018-06-05 2024-05-17 スタッツ エルエルシー スポーツイベントテレビジョン番組において群衆ノイズの発生を検出するためのオーディオ処理
JP2021533405A (ja) * 2018-07-30 2021-12-02 スーズ,インコーポレイテッド 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理
CN111739542A (zh) * 2020-05-13 2020-10-02 深圳市微纳感知计算技术有限公司 一种特征声音检测的方法、装置及设备
CN111739542B (zh) * 2020-05-13 2023-05-09 深圳市微纳感知计算技术有限公司 一种特征声音检测的方法、装置及设备

Also Published As

Publication number Publication date
JP5034516B2 (ja) 2012-09-26

Similar Documents

Publication Publication Date Title
JP5034516B2 (ja) ハイライトシーン検出装置
JP4795934B2 (ja) パラメータで表示された時間特性の分析
JP5460709B2 (ja) 音響信号処理装置および方法
US7593618B2 (en) Image processing for analyzing video content
US9594959B2 (en) Videolens media engine
EP1850321B1 (en) Systems and methods for classifying sports video
JP2005173569A (ja) オーディオ信号の分類装置及び方法
US20020061136A1 (en) AV signal processing apparatus and method as well as recording medium
JP2007264652A (ja) ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体
KR20010092767A (ko) 영상 정보의 편집 방법 및 편집 장치
JP2009139769A (ja) 信号処理装置、信号処理方法及びプログラム
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP2008283486A (ja) 情報処理装置、情報処理方法、およびプログラム
KR100612874B1 (ko) 스포츠 동영상의 요약 방법 및 장치
WO2015114216A2 (en) Audio signal analysis
US11922968B2 (en) Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US9031384B2 (en) Region of interest identification device, region of interest identification method, region of interest identification program, and region of interest identification integrated circuit
EP1850322B1 (en) Systems and methods for analyzing video content
JP3757719B2 (ja) 音響データ分析方法及びその装置
JP2000285243A (ja) 信号処理方法及び映像音声処理装置
CN113170228B (zh) 用于从视听内容中提取可变长度不相交片段的音频处理
US20140205102A1 (en) Audio processing device, audio processing method, audio processing program and audio processing integrated circuit
JP2008153920A (ja) 動画像一覧表示装置
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
US20230197114A1 (en) Storage apparatus, playback apparatus, storage method, playback method, and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091215

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20101028

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120618

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees