JP5034516B2 - Highlight scene detection device - Google Patents
Highlight scene detection device Download PDFInfo
- Publication number
- JP5034516B2 JP5034516B2 JP2007016636A JP2007016636A JP5034516B2 JP 5034516 B2 JP5034516 B2 JP 5034516B2 JP 2007016636 A JP2007016636 A JP 2007016636A JP 2007016636 A JP2007016636 A JP 2007016636A JP 5034516 B2 JP5034516 B2 JP 5034516B2
- Authority
- JP
- Japan
- Prior art keywords
- cheering
- section
- value
- determination
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
Description
この発明は、例えばコンサートやスポーツ番組等のライブ番組のコンテンツからハイライトシーンを検出する装置に関する。 The present invention relates to an apparatus for detecting a highlight scene from content of a live program such as a concert or a sports program.
放送番組等のマルチメディアコンテンツを録画して再生することを目的とするレコーダにおいて、短時間に見どころのシーンだけを見るという視聴形態が求められている。特に、スポーツ番組ではコンテンツ全体に対する得点シーン等の見どころとなるシーンは短い時間であり、よって短時間視聴のニーズが高い。 In a recorder that aims to record and reproduce multimedia contents such as broadcast programs, a viewing mode is required in which only the highlight scene is viewed in a short time. In particular, in sports programs, scenes that are highlights such as scoring scenes for the entire content are short in time, and thus there is a high need for short-time viewing.
解決策として、例えば家庭用のレコーダにおいて、映像信号を録画する際もしくは録画後に、見どころシーンとして歓声が大きく盛り上った区間(以後歓声区間と称する)を検出する技術が開発されている。このような技術を採用することで、ユーザはスポーツ番組のコンテンツ全体のうち見どころシーンだけを短時間に視聴することが可能となる。 As a solution, for example, in a home recorder, a technique has been developed for detecting a section where cheers are greatly raised as a highlight scene (hereinafter referred to as a cheer section) when a video signal is recorded or after recording. By adopting such a technique, the user can view only the highlight scene in the entire content of the sports program in a short time.
歓声区間を検出する技術としては、歓声区間の特徴をリファレンス情報として予め用意しておき、入力信号ごとに上記リファレンス情報との類似度を算出して、この類似度がしきい値より大きい区間を歓声区間として検出する技術が知られている(例えば、特許文献1を参照。)。リファレンス情報としては、スペクトルそのものを用いるものや、複数のスペクトルの統計的な情報を用いるものがある。特許文献1では、歓声区間を検出するための技術としてベクトル量子化による類似度算出方法を用いており、これは統計的情報を用いるものに該当する。
ところが、前述したような予めリファレンス情報を用意しておき、このリファレンス情報を用いた類似度の算出によって歓声区間を検出する方法では、検出精度がリファレンス情報に依存してしまい、結果として歓声区間の検出性能が不安定になるという課題がある。例えば、リファレンス情報の作成に用いたオーディオ信号と検出対象の入力信号との収録環境が異なる場合には、期待する検出性能が得られないことがある。また、符号化されたオーディオ信号を復号してこの復号されたオーディオ信号を検出対象の入力信号とする場合には、リファレンス情報に対して符号化による歪みを含んでいるため検出性能が著しく劣化する可能性もある。これはビットレートが低い符号化の場合に特に顕著である。 However, in the method of preparing the reference information as described above and detecting the cheering section by calculating the similarity using the reference information, the detection accuracy depends on the reference information, and as a result, the cheering section There is a problem that the detection performance becomes unstable. For example, if the recording environment of the audio signal used to create the reference information and the input signal to be detected are different, the expected detection performance may not be obtained. In addition, when the encoded audio signal is decoded and the decoded audio signal is used as an input signal to be detected, the detection performance is significantly deteriorated because the reference information includes distortion due to encoding. There is a possibility. This is particularly noticeable in the case of encoding with a low bit rate.
この発明は上記事情に着目してなされたもので、その目的とするところは、リファレンス情報を用いずかつ符号化による歪みの影響を大きく受けることなくハイライトシーンを検出できるようにし、これにより検出精度の高いハイライトシーン検出装置を提供することにある。 The present invention has been made paying attention to the above circumstances, and the object of the present invention is to enable detection of a highlight scene without using reference information and without being greatly affected by distortion caused by encoding. An object of the present invention is to provide a highlight scene detection apparatus with high accuracy.
上記目的を達成するためにこの発明の一観点は、オーディオ信号を含むコンテンツデータを受け取り、この受け取ったコンテンツデータに含まれるオーディオ信号を一定区間ごとに区切って、これらの区間ごとにそのスペクトルを検出する。そして、この検出されたスペクトルのうち予め設定された帯域内のスペクトルから、最大値かつ極大値をとる周波数をピーク周波数とし、このピーク周波数と当該ピーク周波数のパワー値とからなる歓声特徴量を検出し、この検出された歓声特徴量が判定しきい値よりも高い状態が予め設定された判定時間長に対して判定しきい値率以上存在する区間を歓声区間と判定するようにしたものである。 In order to achieve the above object, one aspect of the present invention receives content data including an audio signal, divides the audio signal included in the received content data into predetermined intervals, and detects the spectrum for each of these intervals. To do. And, from the spectrum in the preset band among the detected spectrum, the frequency that takes the maximum value and the maximum value is set as the peak frequency, and the cheering feature amount including the peak frequency and the power value of the peak frequency is detected. The section where the detected cheering feature amount is higher than the determination threshold is equal to or more than the determination threshold rate with respect to the predetermined determination time length is determined as the cheering section. .
一般に、オーディオ信号のハイライトシーンの指標となる歓声を含む区間では、特定の周波数帯域において時間方向に安定した周波数ピークが存在する。この周波数ピークは、歓声が有する本質的な特徴であり、しかも比較的低域に存在するため、収録環境の影響や、オーディオ信号に対する符号化歪みの影響を受けにくい。したがって、上記したように入力オーディオ信号の周波数帯域のうち検出対象の帯域が先ず特定され、この特定の周波数帯域において歓声の特徴量を表す周波数ピークとそのパワー値が検出されて、この検出情報をもとに歓声区間が判定されることによって、収録環境の違いやオーディオ符号化による歪みに対して比較的安定かつ高い検出性能を得ることが可能となる。 In general, there is a stable frequency peak in the time direction in a specific frequency band in a section including a cheer as an index of a highlight scene of an audio signal. This frequency peak is an essential feature of cheers, and since it exists in a relatively low frequency range, it is less susceptible to the effects of the recording environment and the encoding distortion on the audio signal. Therefore, as described above, the detection target band is first identified among the frequency bands of the input audio signal, and the frequency peak representing the cheering feature amount and its power value are detected in this specific frequency band, and this detection information is obtained. Based on the determination of the cheering section, it is possible to obtain relatively stable and high detection performance with respect to differences in recording environment and distortion due to audio encoding.
すなわちこの発明によれば、リファレンス情報を用いずかつ符号化による歪みの影響を大きく受けることなくハイライトシーンを検出することができ、これにより検出精度の高いハイライトシーン検出装置を提供することができる。 That is, according to the present invention, it is possible to detect a highlight scene without using reference information and without being greatly affected by the distortion caused by encoding, thereby providing a highlight scene detection device with high detection accuracy. it can.
以下、図面を参照してこの発明の実施形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
(第1の実施形態)
図1は、この発明の第1の実施の形態に係るハイライトシーン検出装置の構成を示すブロック図である。
この実施形態のハイライトシーン検出装置1Aは、ビデオレコーダ、ビデオカメラ、テレビジョン録画再生機能付きパーソナル・コンピュータ、テレビジョン録画再生機能付き携帯端末などの各種放送録画再生装置に接続されるか、又は当該録画再生装置に内蔵された状態で使用される。
(First embodiment)
FIG. 1 is a block diagram showing a configuration of a highlight scene detection apparatus according to the first embodiment of the present invention.
The highlight scene detection apparatus 1A of this embodiment is connected to various broadcast recording / playback apparatuses such as a video recorder, a video camera, a personal computer with a television recording / playback function, and a portable terminal with a television recording / playback function, or Used in a state of being built in the recording / playback apparatus.
ハイライトシーン検出装置1Aは、例えば中央制御ユニット(CPU;Central Processing Unit)からなる制御ユニット2Aを備える。この制御ユニット2Aには、バス7を介して記憶ユニット6及びインタフェース群が接続されている。インタフェース群は、操作情報入力インタフェース(操作情報入力I/F)3と、コンテンツ入力インタフェース(コンテンツ入力I/F)4と、出力インタフェース(出力I/F)5とから構成される。
The highlight scene detection apparatus 1A includes a
操作情報入力I/F3はキースイッチ群に接続され、ユーザによる上記キースイッチ群の操作を検出する。コンテンツ入力I/F4は、図示しない放送番組録画再生装置から出力されたマルチメディアコンテンツのデータを受信するもので、記録媒体I/Fやライン入力端子を備える。また、マルチメディアコンテンツがアナログ信号の場合に備え、受信したアナログ信号をディジタル信号に変換するA/D変換器も備える。出力I/F5は、制御ユニット2Aにより検出されたコンテンツ中の歓声区間を表す情報をコンテンツ再生装置等へ出力する。
なお、ハイライトシーン検出装置1Aが放送番組録画再生装置に組み込まれている場合には、上記コンテンツ入力I/F4は当該装置内でマルチメディアコンテンツ記録部から読み出されたデータを受け取る機能となる。
The operation information input I /
When the highlight scene detection device 1A is incorporated in a broadcast program recording / playback device, the content input I /
制御ユニット2Aは、この発明に係わる制御機能として、入力制御モジュール21と、スペクトル算出モジュール22と、歓声特徴量抽出モジュール23と、歓声区間判定モジュール24と、出力制御モジュール25を備えている。なお、これらのモジュール21〜25はいずれも、アプリケーション・プログラムをCPUに実行させることにより実現される。
The
入力制御モジュール21は、上記操作情報入力I/F3から操作入力信号を受け取ってその種類を判別する。例えば、ハイライトシーンの検出を要求する信号、検出モードを選択指定する信号、出力モードを選択指定する信号を判別する。
また入力制御モジュール21は、コンテンツ入力I/F4を介してマルチメディアコンテンツのデータを取り込む。そして、この取り込んだマルチメディアコンテンツデータからオーディオデータを抽出し、この抽出したオーディオデータを一定時間ごとに区切ってオーディオフレームデータとして記憶ユニット6に一旦記憶させる。なお、抽出されたオーディオデータがAAC(Adaptive Audio Coding)等のオーディオ符号化方式により符号化された圧縮データの場合には、当該圧縮データをデコードしたのち一定時間ごとに区切ってオーディオフレームデータとする。
The
Further, the
さらに入力制御モジュール21は、上記オーディオフレームデータをスペクトル算出モジュール22に渡す際に、当該オーディオフレームデータを8kHzにダウンサンプリングして汎用のPCM(Pulse Code Modulation)信号に変換する。ここで、サンプリング周波数が比較的低い値の8kHzである理由は、後段の処理で利用する周波数帯域が0〜2kHzで十分である点、AACなどのオーディオ符号化でビットレートが低い場合でも4kHz程度までの周波数成分は圧縮によって情報が失われるケースが少ない点、ダウンサンプリング前のサンプリング周波数が8kHzの整数倍であることが多いのでダウンサンプリング処理が比較的簡便な処理で済む点、などの理由による。よって場合によっては、ダウンサンプリング周波数は6kHzや12kHzでもよく、8kHzという値は必須ではない。
Furthermore, the
スペクトル算出モジュール22は、上記入力制御モジュール21から渡されたオーディオフレームデータの対数パワースペクトルを算出する。このスペクトルの算出方法としては、DFT(Discrete Fourier Transform)やFFT(Fast Fourier Transform)などのフーリエ変換に基づく方法、LPC(Linear Predictive Coding)スペクトルなどの線形予測分析に基づく方法、バンドパスフィルタとパワー算出による信号処理ベースの方法が使用される。
The
歓声特徴量抽出モジュール23は、上記スペクトル算出モジュール22により算出されたスペクトルから、歓声の特徴が現れる特定の帯域内において最大値かつ極大値をとる周波数値(ピーク周波数)とそのパワー値を検出する。そして、この検出されたピーク周波数とそのパワー値を、歓声特徴量を表す情報として歓声区間判定モジュール24に渡す。
The cheering feature
歓声区間判定モジュール24は、上記歓声特徴量抽出モジュール23から渡された歓声特徴量を表す情報をもとに、予め設定した時間長において歓声特徴量しきい値よりも高い状態が上記時間長に対して判定しきい値率以上存在する区間を検出する。そして、この検出された区間を歓声区間と判定する。
Based on the information indicating the cheering feature amount passed from the cheering feature
出力制御モジュール25は、上記歓声区間判定モジュール24により歓声区間と判定された区間をタイムバーにより表した出力データを生成し、この生成した出力データを上記出力I/F5へ出力する。上記タイムバーの形態は、上記操作情報入力I/F3を介して予め入力指定された出力モードに応じて決定される。
The
なお、記憶ユニット6は、コンテンツ入力I/F4を介して入力されたオーディオコンテンツデータを保存すると共に、上記制御ユニット2Aの各モジュールが歓声区間を判定する一連の処理を実行した際に算出される歓声特徴量を表す情報や歓声区間の判定結果を表す情報を一時保存するために用いられる。
The storage unit 6 stores the audio content data input via the content input I /
次に、以上のように構成されたハイライトシーン検出装置1Aの動作を説明する。
なお、ここでは外部の放送番組記録装置からスポーツ番組のマルチメディアコンテンツのオーディオコンテンツデータを取り込み、当該オーディオコンテンツデータから歓声区間を検出してその結果を表す情報を上記放送番組記録装置へ出力する場合を例にとって説明する。
Next, the operation of the highlight scene detection apparatus 1A configured as described above will be described.
In this case, audio content data of sports program multimedia content is taken from an external broadcast program recording device, a cheer section is detected from the audio content data, and information representing the result is output to the broadcast program recording device. Will be described as an example.
ハイライトシーン検出装置1Aでは、先ず歓声区間の検出モード及び検出結果の出力モードの設定が以下のように行われる。すなわち、ユーザが図示しない入力デバイスにおいて上記検出モード及び出力モードの選択操作を行うと、これらのモード選択指定信号が操作情報入力I/F3を介して制御ユニット2Aの入力制御モジュール21に取り込まれ、この入力制御モジュール21において識別されて保存される。なお、上記検出モード及び出力モードの選択指定方法の具体例については後述する。
In the highlight scene detection device 1A, first, the detection mode of the cheering section and the output mode of the detection result are set as follows. That is, when the user performs the selection operation of the detection mode and the output mode with an input device (not shown), these mode selection designation signals are taken into the
上記検出モード及び出力モードの設定処理が終了すると、ハイライトシーン検出装置1Aは歓声区間検出モードに移行して、先ずオーディオデータのスペクトルを算出する処理と、歓声特徴量を抽出する処理を次のように実行する。図2は、制御ユニット2Aによるその処理手順及び処理内容を示すフローチャートである。
When the setting process of the detection mode and the output mode is completed, the highlight scene detection device 1A shifts to the cheering section detection mode, and first performs a process of calculating a spectrum of audio data and a process of extracting cheering feature values. Run like so. FIG. 2 is a flowchart showing the processing procedure and processing contents of the
すなわち、制御ユニット2AはステップS21においてハイライトシーン検出要求の入力を監視している。この状態で、ユーザが入力デバイスにおいてハイライトシーンの検出要求操作を行ったとする。そうすると制御ユニット2Aは、上記要求操作を操作情報入力I/F3を介して入力制御モジュール21で検出する。続いて制御ユニット2Aは、入力制御モジュール21において図示しない放送番組録画再生装置からのマルチメディアコンテンツデータの入力をコンテンツ入力I/F40を介して監視する。
That is, the
この状態で、放送番組録画再生装置から送られたマルチメディアコンテンツデータがコンテンツ入力I/F40で受信されると、制御ユニット2Aは入力制御モジュール21により、上記コンテンツ入力I/F4を介してマルチメディアコンテンツのデータを取り込む。そして、この取り込んだマルチメディアコンテンツデータからオーディオデータを抽出し、この抽出したオーディオデータを一定時間ごとに区切ってオーディオフレームデータとしたのち、さらに8kHzにダウンサンプリングしてスペクトル算出モジュール22に渡す。
In this state, when the multimedia content data sent from the broadcast program recording / playback apparatus is received by the content input I / F 40, the
スペクトル算出モジュール22は、上記ダウンサンプリングされたオーディオデータをステップS22によりフレームごとに取り込む。そして、ステップS23において、フーリエ変換に基づく方法或いは線形予測分析に基づく方法により対数パワースペクトルを算出する。なお、どのような算出方法を使用する場合でも、周波数分解能は少なくとも30Hz程度あることが好ましい。このように30Hz以上の周波数分解能によりスペクトルを算出することで、後段の歓声特徴量抽出モジュール23における歓声特徴量の抽出精度を高めることが可能となる。
The
続いて制御ユニット2Aは、歓声特徴量抽出モジュール23により歓声特徴量の抽出処理を以下のように実行する。
一般に、歓声とは非常に多くの数の叫び声の集合なので、歓声の周波数特性は、個々の叫び声の周波数特性が重ね合わさって平滑化されたものと考えることができる。男性の場合、叫び声特有の“ウァー”や“ウォー”など声のうち、長時間継続する母音部分“a”や“o”の第1フォルマント周波数は600〜800Hz、第2フォルマント周波数は1000Hz付近に存在するので、周波数のピークはおおよそ600〜1000Hz付近に現れる。また叫び声は、興奮の度合いが強ければピッチ周波数と音圧が上がり、興奮の度合いが弱ければピッチ周波数と音圧は下がる傾向にある。このため、600〜1000Hzの範囲におけるピーク周波数が高くかつ音圧が大きいほど興奮の度合いが強く、逆にピーク周波数が低くかつ音圧が低いほど興奮の度合いが弱いことになる。したがって、この叫び声の集合である歓声のスペクトルでは、600〜1000Hzの範囲にピーク周波数が存在することになる。
Subsequently, the
In general, cheers are a collection of a very large number of screams, and therefore the frequency characteristics of cheers can be thought of as smoothed by superimposing the frequency characteristics of individual screams. In the case of males, the first formant frequency of the vowel parts “a” and “o” that last for a long time, such as “War” and “War”, which are peculiar to screams, is 600 to 800 Hz, and the second formant frequency is around 1000 Hz. Since it exists, the frequency peak appears around 600 to 1000 Hz. In addition, the screaming voice tends to increase the pitch frequency and the sound pressure if the degree of excitement is strong, and to decrease the pitch frequency and the sound pressure if the degree of excitement is weak. For this reason, the higher the peak frequency in the range of 600 to 1000 Hz and the higher the sound pressure, the stronger the degree of excitement. Conversely, the lower the peak frequency and the lower the sound pressure, the weaker the degree of excitement. Therefore, in the spectrum of cheers, which is a collection of screams, there is a peak frequency in the range of 600 to 1000 Hz.
そこで、歓声特徴量抽出モジュール23は、先ずステップS24において、上記スペクトル算出モジュール22により算出されたスペクトルから、歓声の特徴が現れる特定の帯域600〜1000Hzの範囲において極大値をとる周波数値を検出する。続いてステップS25において、上記特定の帯域600〜1000Hzの範囲において最大値をとる周波数を検出する。そして、上記極大値の検出結果と最大値の検出結果をもとに、ステップS26により最大値かつ極大値をとる周波数値の有無を判定し、当該条件を満足する周波数値が検出された場合にこの周波数値をピーク周波数とする。
Therefore, the cheering feature
例えば、いま図4(a)に示すように、600〜1000Hzの範囲において最大値をとりかつ極大値をとる周波数値が検出できた場合には、この周波数値がピーク周波数となる。これに対し、図4(b)に示すように極大値が検出されてもこの極大値が最大値でない場合には、ピーク周波数は無し(=0)と判定される。また、ステップS24からステップS26までの一連の処理は、ピーク周波数を検出するための処理であり、ステップS24とステップS25は順不同でも構わない。 For example, as shown in FIG. 4A, when a frequency value having a maximum value and a maximum value in the range of 600 to 1000 Hz can be detected, this frequency value becomes the peak frequency. On the other hand, as shown in FIG. 4B, if the maximum value is not the maximum value even if the maximum value is detected, it is determined that there is no peak frequency (= 0). A series of processing from step S24 to step S26 is processing for detecting a peak frequency, and step S24 and step S25 may be in any order.
上記ピーク周波数が検出されると、歓声特徴量抽出モジュール23は続いてステップS27に移行し、ここで上記検出されたピーク周波数におけるパワー値を検出する。そして、この検出したパワー値と上記ピーク周波数値とにより表される歓声特徴量を表す情報を生成し、この情報をステップS28により記憶ユニット6に保存する。
When the peak frequency is detected, the cheering feature
例えば、下記数1に示すようにピーク周波数PeakFreqとそのパワー値PeakPowとの加重和を求めてこれを歓声特徴量Featとしたり、下記[数2]に示すようにパワー値PeakPowがあるしきい値ThPowA以上の場合にピーク周波数PeakFreqの値にボーナス項Bnsを付してこれを歓声特徴量Featとする。また、ピーク周波数PeakFreqのパワー値PeakPowをそのまま特徴量として用いずに、例えば[数3]に示すようにパワー値PeakPowがあるしきい値ThPowBよりも低い場合には600〜1000Hzの範囲にピーク周波数が存在したとしても歓声によるピークではないと判断して、歓声特徴量を0としてもよい。さらには、[数4]に示すようにピーク周波数PeakFreqが高いほどこのしきい値ThPowVの値を大きくしてもよい。なお、α、βはそれぞれピーク周波数PeakFreq及びそのパワー値PeakPowの加重和の重みを示し、γはしきい値ThPowVをピーク周波数PeakFreqに応じたしきい値とするための係数を示している。
For example, the weighted sum of the peak frequency PeakFreq and its power value PeakPow is obtained as shown in the
以上述べた歓声特徴量の生成方法は、歓声において興奮の度合いが強いほどピーク周波数が高くかつパワーも大きいという特性を利用したものであり、この趣旨を逸脱しない範囲であれば[数1]〜[数4]に示した生成方法に限らずこれらを組み合わせるなどの種々変形が可能である。 The cheering feature value generation method described above uses the characteristic that the peak frequency is higher and the power is larger as the degree of excitement in cheering is stronger. Not only the generation method shown in [Equation 4] but also various modifications such as a combination thereof are possible.
このようにオーディオデータの一つのフレームについて歓声特徴量の抽出処理が終了すると、制御ユニット2Aはオーディオデータの次フレームの有無をステップS29により判定する。そして、次フレームがある場合にはステップS22に戻り、上記ステップS22〜ステップS28によるスペクトルの算出及び歓声特徴量の抽出処理を繰り返し実行する。
Thus, when the extraction process of the cheering feature amount is completed for one frame of the audio data, the
一方、オーディオデータのすべてのフレームについて上記した歓声特徴量の抽出処理が終了すると、制御ユニット2Aは次に歓声区間の判定処理及びその判定結果の出力処理を以下のように実行する。図3は、その処理手順及び処理内容を示すフローチャートである。
On the other hand, when the above-described extraction process of the cheering feature amount is completed for all the frames of the audio data, the
すなわち、制御ユニット2Aの歓声区間判定モジュール24は、先ずステップS31において、予め設定された判定時間長Lごとに、上記歓声特徴量抽出モジュール23により抽出された歓声特徴量のうち、しきい値を超える合計時間長を算出し、上記判定時間長に対する上記算出された合計時間長の割合を算出する。そして、この算出された割合をステップS32により判定しきい値率と比較し、割合が判定しきい値を超える場合に上記判定時間Lを歓声区間であるとステップS33にて判定する。これに対し、割合が判定しきい値以下の場合には、上記判定時間Lを非歓声区間であるとステップS34で判定する。そして、以上の判定結果を記憶ユニット6に保存する。
That is, the cheering
例えば、いまある判定時間長Lにおいて図5(a)に示すような歓声特徴量が得られたとする。この場合、歓声区間判定モジュール24は、しきい値を超える歓声特徴量の時間l1、l2、l3の合計時間長Σl(=l1+l2+l3)を算出する。そして、上記判定時間Lに対するこの算出された合計時間長Σl(=l1+l2+l3)の割合を算出し、この算出された割合の値を判定しきい値率と次式のように比較する。
For example, it is assumed that a cheering feature amount as shown in FIG. In this case, the cheering
そして、この算出された合計時間長Σl(=l1+l2+l3)の判定時間Lに対する割合が判定しきい値率よりも大きければ、つまり[数5]の式を満たせばこの区間を歓声区間と判定する。例えば、判定しきい値率を0.7とした場合、図5(a)の例ではΣl/Lが判定しきい値率=0.7を上回っているので、この区間は歓声区間と判定される。これに対し図5(b)の例では、Σl/Lが判定しきい値率=0.7以下であるため歓声区間として判定されない。 Then, if the ratio of the calculated total time length Σl (= l1 + l2 + l3) to the determination time L is larger than the determination threshold rate, that is, if the expression of [Equation 5] is satisfied, this interval is determined as a cheering interval. For example, when the determination threshold rate is 0.7, in the example of FIG. 5A, Σl / L exceeds the determination threshold rate = 0.7, so this interval is determined to be a cheering interval. The On the other hand, in the example of FIG. 5B, Σl / L is not determined as a cheering section because the determination threshold rate is 0.7 or less.
ここで、判定時間長Lは、検出対象の歓声区間の長さを制御する値であり、この値Lを長くするほど短時間の歓声区間を検出対象から除外することができるが、長くしすぎると非常に長い歓声区間しか検出されなくなってしまう。また、短くするほど短時間の歓声区間を検出することが可能となるが、短くしすぎると分析誤差などで突発的に歓声特徴量のしきい値を超えるもの、つまり歓声でない区間も歓声として検出されてしまう。よって、判定時間長Lは予め数秒程度に設定しておくことが妥当である。また、この判定時間長Lの値は、入力デバイスにおいて入力されるユーザの設定要求に応じてユーザが希望する値に設定することも可能である。 Here, the determination time length L is a value that controls the length of the cheering section to be detected. The longer the value L, the shorter the cheering section can be excluded from the detection target, but it is too long. Only a very long cheering section will be detected. In addition, the shorter the cheering interval, the shorter the cheering interval can be detected. However, if it is too short, the cheering feature threshold that suddenly exceeds the cheering feature value due to analysis errors, etc. It will be. Therefore, it is appropriate to set the determination time length L to about several seconds in advance. In addition, the value of the determination time length L can be set to a value desired by the user in response to the user's setting request input at the input device.
判定しきい値率は、歓声区間として判定される歓声の確からしさを制御するための値であり、この値を高くするほど検出精度が向上するが検出漏れが生じる可能性が高くなる。一方、判定しきい値率を低くするほど検出精度は低下するが、検出漏れが生じる可能性は低くなる。このため、判定しきい値率は予め0.7〜0.9程度の適当な数値に設定しておくことが望ましい。なお、この判定しきい値についても、上記判定時間長Lと同様に、入力デバイスにより入力されるユーザの設定要求に応じて0.0より大きく1.0以下の範囲で任意の値に設定することが可能である。 The determination threshold rate is a value for controlling the probability of cheering determined as a cheering section. Increasing this value improves detection accuracy but increases the possibility of detection omission. On the other hand, the lower the determination threshold rate, the lower the detection accuracy, but the lower the possibility of detection omission. For this reason, it is desirable to set the determination threshold rate to an appropriate value of about 0.7 to 0.9 in advance. As with the determination time length L, this determination threshold is also set to an arbitrary value in the range of greater than 0.0 and less than or equal to 1.0 according to the user's setting request input by the input device. It is possible.
歓声区間の判定に判定しきい値率を用いると、分析誤差などによって歓声区間に突発的な欠落が生じた場合でも安定した結果を得ることができる。しかし、必ずしもしきい値率を用いる必要はなく、同様の効果をもたらす方法としてほかに歓声特徴量の移動平均をとるものや、メディアンフィルタリングを用いるものなどがある。すなわち、しきい値判定率は必須ではなく、この趣旨を逸脱しない範囲であれば種々の改良又は変更が可能である。 If the determination threshold rate is used for the determination of the cheering section, a stable result can be obtained even when a sudden loss occurs in the cheering section due to an analysis error or the like. However, it is not always necessary to use the threshold rate, and there are other methods that bring about the same effect, such as taking a moving average of cheering feature values and using median filtering. That is, the threshold determination rate is not essential, and various improvements or changes can be made within a range that does not depart from this spirit.
歓声特徴量の検出しきい値は、歓声の大きさ(盛り上がり)の検出レベルを制御するための値であり、この値が高いほどより盛り上がり度の高い歓声のみを検出することができる。これに対し歓声特徴量の検出しきい値が低いと、それほど盛上っていない歓声でも検出してしまうことになる。したがって、歓声特徴量の検出しきい値も予め適当な数値に設定しておくことが望ましいが、上記判定時間長Lや判定しきい値率と同様に、入力デバイスにおいて入力されるユーザの設定要求に応じて0より大きい任意の値に設定できるようにしてもよい。 The detection threshold value of the cheering feature value is a value for controlling the detection level of the cheering magnitude (swelling), and the higher the value, the higher the cheering degree can be detected. On the other hand, if the detection threshold value of the cheering feature amount is low, even a cheering that is not so high will be detected. Therefore, it is desirable that the detection threshold value of the cheering feature amount is set to an appropriate value in advance. However, as with the determination time length L and the determination threshold rate, a user setting request input at the input device is required. Depending on, it may be set to an arbitrary value larger than 0.
このように歓声区間判定モジュール24では、複数の判定条件を選択的に任意に設定することで歓声区間の判定結果を任意に制御することができるので、より細かいニーズに合わせて歓声検出を行うことが可能となる。ただし、これらの判定条件をユーザが適切に制御するには、経験が必要だったり面倒な操作が必要となる。
As described above, the cheering
そこで、予め複数のハイライト検出モードを用意しておき、ユーザがこれらのモードのうち任意のモードを選択すると、それに応じて判定条件が適切な値に可変設定されるようにするとよい。例えば、図6に示すように3つのハイライト検出モードを用意しておき、ユーザがこれらのモードのうちの一つを選択した上で条件値を入力することにより、当該条件値に応じた判定条件が設定されるようにする。 Therefore, a plurality of highlight detection modes may be prepared in advance, and when the user selects an arbitrary mode from these modes, the determination condition may be variably set to an appropriate value accordingly. For example, as shown in FIG. 6, three highlight detection modes are prepared, and a user selects one of these modes and inputs a condition value, thereby determining according to the condition value. Make sure the condition is set.
図6において、上から1番目の検出モードは、ハイライトの盛り上がりの度合いに応じて上位X位までを検出するものである。上から2番目の検出モードは、検出された歓声区間の合計時間がX分になるようにハイライトの盛り上がりの度合いに応じて上位から検出するものである。上から3番目の検出モードは、検出された区間の合計時間がそのコンテンツ全体の時間長に対してX%になるように、ハイライトの度合いに応じて上位から検出するものである。このようなハイライト検出モードを予め用意することで、ユーザは歓声区間判定モジュール24が使用する判定条件の値を直接入力する必要がなく、これにより経験の有無にかかわらず常に簡単な操作で適切な判定条件を設定することが可能となる。
In FIG. 6, the first detection mode from the top is for detecting up to the upper X position according to the degree of highlight swell. In the second detection mode from the top, detection is performed from the top in accordance with the degree of the climax of the highlight so that the total time of the detected cheering section is X minutes. In the third detection mode from the top, detection is performed from the top in accordance with the degree of highlight so that the total time of the detected section is X% with respect to the time length of the entire content. By preparing such a highlight detection mode in advance, the user does not need to directly input the value of the determination condition used by the cheering
具体的には、まず歓声区間が多めに検出されるように判定時間長Lを短めの3秒程度に、判定しきい値率を小さめの0.7程度に、歓声特徴量の検出しきい値を低めにそれぞれ設定し、歓声区間を検出する。次にこれらの歓声区間に対し、ハイライトの度合いを歓声得点として算出する。ハイライトの度合いとは、いかに盛上っているか判断する指標である。このため、歓声得点は、歓声が長い時間持続し、歓声特徴量の値が大きく、さらに歓声区間中の欠落が少ないほど大きな値となる。 Specifically, the detection threshold value of the cheering feature amount is first set to about 3 seconds, which is a short determination time length, and to about 0.7, which is a small determination threshold value so that a large number of cheer sections are detected. Is set to a lower value and a cheering section is detected. Next, the degree of highlight is calculated as a cheer score for these cheer sections. The degree of highlight is an index for judging how successful the highlight is. For this reason, the cheering score becomes larger as the cheering lasts for a longer time, the cheering feature value is larger, and there are fewer omissions in the cheering section.
歓声得点の一例としては、図7に示すような歓声特徴量が描く図形の面積があげられる。これにより、歓声得点を比較的単純な方法で算出することができる。歓声区間判定モジュール24は、この歓声得点の高い順に、ユーザが所望したハイライト検出モードに応じて歓声区間を選出し、最終的な歓声区間として出力する。このように、一旦歓声区間が多めに検出されるような設定で歓声区間を検出しておき、ユーザが所望する要件に応じて歓声区間を選出して出力するという形態をとることで、ユーザが所望する条件が変更された場合でも再度歓声区間の検出処理を行わずに済む。このため、歓声区間の検出に要する処理量を大幅に削減することができる。
As an example of a cheer score, the area of a figure drawn by cheer feature values as shown in FIG. Thereby, a cheering score can be calculated by a relatively simple method. The cheering
また、ユーザが所望する条件を満たさないほど歓声区間の数が少なかった場合、例えばユーザが上位60分までを検出と指定したにもかかわらず、検出した歓声区間の長さの合計が60分に満たなかった場合には、さらに多くの歓声区間が検出されるように判定時間長L、判定しきい値率、歓声特徴量の検出しきい値を調節することで対応することが可能となる。このような場合、判定時間長Lと判定しきい値率を下げすぎると、前述した理由により歓声ではない区間を検出してしまう可能性が高くなるので、歓声特徴量の検出しきい値を下げることが最も効果的である。 In addition, when the number of cheering sections is so small that the user's desired condition is not satisfied, for example, the total of the lengths of the cheering sections detected is 60 minutes even though the user designates the top 60 minutes as detection. If not, it is possible to cope with the problem by adjusting the determination time length L, the determination threshold rate, and the detection threshold value of the cheering feature amount so that more cheering sections are detected. In such a case, if the determination time length L and the determination threshold rate are lowered too much, there is a high possibility that a section that is not cheering will be detected for the reason described above, so the detection threshold value of the cheer feature amount is lowered. Is most effective.
このように、歓声区間の検出方法として、複数のハイライト検出モードを予め用意し、ユーザがこれらの検出モードの中から所望のモードを選択指定した場合に、この指定されたモードに応じて判定時間長L、判定しきい値率、及び歓声特徴量の検出しきい値が自動調節されることにより、ユーザは面倒な操作をせずとも、ユーザが所望する条件でハイライトシーンの検出が可能となる。 As described above, when a plurality of highlight detection modes are prepared in advance as a method for detecting a cheering section, and a user selects and designates a desired mode from these detection modes, determination is made according to the designated mode. By automatically adjusting the detection threshold of time length L, judgment threshold rate, and cheering feature value, the user can detect highlight scenes under the conditions desired by the user without troublesome operations. It becomes.
以上のように歓声区間の判定結果が得られると、制御ユニット2Aは続いて出力制御モジュール25により上記歓声区間判定結果の出力処理を実行する。すなわち、出力制御モジュール25は、先ずステップS36において、事前に設定された出力形態を判定する。そして、この判定された出力形態に応じてステップS37〜ステップS40のいずれかにより出力データを生成し、この生成された出力データをステップS41により出力I/F5から図示しない録画再生装置等へ出力する。
When the determination result of the cheering section is obtained as described above, the
例えば出力形態としては、ハイライトシーンの位置を表示する第1の形態と、ハイライトシーンのみを圧縮して表示する第2の形態と、ハイライトシーンを色分け表示する第3の形態と、ハイライトシーンを順位付けして表示する第4の形態とがある。
このうち、先ず第1の形態がユーザにより選択されている場合には、出力制御モジュール25はステップS37により、例えば図8(a)に示すようにコンテンツ中におけるハイライトシーンの時間位置T1〜Tnを表すタイムバーを生成し、このタイムバーの表示データをステップS41により出力I/F5から出力させる。
For example, the output form includes a first form for displaying the position of the highlight scene, a second form for compressing and displaying only the highlight scene, a third form for displaying the highlight scene by color, and a highlight form. There is a fourth form in which light scenes are ranked and displayed.
Among these, first, when the first form is selected by the user, the
次に第2の形態がユーザにより選択されている場合には、出力制御モジュール25はステップS38により、例えば図8(b)に示すようにハイライトシーン以外の区間をスキップしてハイライトシーンのみを並べたタイムバーを生成し、このタイムバーの表示データをステップS41により出力I/F5から出力させる。
Next, when the second form is selected by the user, the
第3の形態が選択されている場合には、出力制御モジュール25はステップS39により、例えば図8(c)に示すようにコンテンツ中におけるハイライトシーンの時間位置を表し、さらに上記各ハイライトシーンをその歓声得点の高低に応じて色分けして表示したタイムバーを生成し、この生成したタイムバーの表示データをステップS41により出力I/F5から出力させる。
If the third form is selected, the
第4の形態が選択されている場合には、出力制御モジュール25はステップS40により、例えば図8(d)に示すようにコンテンツ中におけるハイライトシーンの時間位置を示すと共に、各ハイライトシーンにその歓声得点とその順位を表す情報をふかして表示したタイムバーを生成し、この生成したタイムバーの表示データをステップS41により出力I/F5から出力させる。
When the fourth form is selected, the
このようにユーザが選択指定した出力形態に応じて、歓声区間の判定結果を表すタイムバーを生成し出力することで、ユーザは検出されたハイライトシーンがどのような時間位置に存在し、どのような長さで、どの程度の盛り上がり具合かを自身が希望する形態で確認することができるようになる。このため、短時間で視聴する際に大変有用な情報を得ることができる。またマルチメディアコンテンツを編集する際にも、ハイライトシーンという編集に大変有用な情報を得ることができるので、編集作業を効率的に短時間で行うことができるようになる。 In this way, by generating and outputting a time bar representing the determination result of the cheering section according to the output form selected and specified by the user, the user can find out what time position the detected highlight scene exists and which With such a length, it becomes possible to confirm how much the climax is in the form that he desires. For this reason, very useful information can be obtained when viewing in a short time. In addition, when editing multimedia contents, information that is very useful for editing called a highlight scene can be obtained, so that editing work can be performed efficiently and in a short time.
なお、上記出力されるタイムバーの表示データを使用したコンテンツの再生制御方法としては、次のようなものが考えられる。すなわち、マルチメディアコンテンツを再生中の録画再生装置に、当該マルチメディアコンテンツのハイライトシーンの位置を表すタイムバーを供給して表示器に表示させる。そして、録画再生装置においてユーザが上記タイムバーに表示されたハイライトシーンを選択すると、そのハイライトシーンのみを再生する。また、録画再生装置に自動スキップモードを設定しておき、上記タイムバーに従いハイライトシーン以外のシーンをスキップしてハイライトシーンのみを順次再生する。 As a content reproduction control method using the output time bar display data, the following can be considered. That is, a time bar indicating the position of the highlight scene of the multimedia content is supplied to the recording / playback apparatus that is playing back the multimedia content and displayed on the display. When the user selects a highlight scene displayed on the time bar in the recording / playback apparatus, only the highlight scene is played back. Further, an automatic skip mode is set in the recording / playback apparatus, and only highlight scenes are sequentially played back by skipping scenes other than the highlight scene according to the time bar.
また、上記タイムバーの情報は、録画再生装置におけるコンテンツの再生制御に用いる以外に、インターネット上に設けられたコンテンツ配信サーバによるコンテンツの配信制御に使用したり、コンテンツを記録媒体に記録する際にハイライトシーンに相当する区間のみを選択的に記録する制御に使用することができる。さらに、ハイライトシーンの区間の属性を表す情報をテキストデータにより表示するようにしてもよい。 The time bar information is used for content distribution control by a content distribution server provided on the Internet, and is used for recording content on a recording medium, in addition to being used for content reproduction control in a recording / reproducing apparatus. It can be used for control to selectively record only the section corresponding to the highlight scene. Furthermore, information representing the attribute of the highlight scene section may be displayed as text data.
以上述べたように第1の実施形態では、録画再生装置から入力されたマルチメディアコンテンツに含まれるオーディオデータを、入力制御モジュール21で一定区間ごとに区切ってこれらの区間ごとにスペクトル算出モジュール22によりスペクトルを検出する。次に、歓声特徴量抽出モジュール23により、上記検出されたスペクトルのうち歓声の特徴が現れる特定の帯域内において最大値かつ極大値をとる周波数値(ピーク周波数)とそのパワー値とからなる歓声特徴量を検出する。そして、歓声区間判定モジュール24において、予め設定した時間長において上記検出された歓声特徴量がしきい値よりも高い状態が上記時間長に対して判定しきい値率以上存在する区間を歓声区間と判定し、出力制御モジュール25により上記歓声区間の判定結果を表す表示データを生成して上記録画再生装置に出力するようにしている。
As described above, in the first embodiment, the audio data included in the multimedia content input from the recording / playback apparatus is divided by the
したがって、歓声区間の検出にリファレンス情報を用いないため収録環境の違いの影響を受けることなく常に安定な性能で歓声区間を検出することが可能となる。また、歓声特有の600〜1000Hzの帯域に存在するスペクトルのピークが、歓声の興奮が強いほどその周波数が高くてパワーが大きくなり、歓声の興奮が弱いほどその周波数が低くてパワーが小さくなるという特性を利用して、歓声区間を判定するための特徴量が検出される。このため、オーディオ信号の符号化歪みに対しても安定かつ高精度に歓声区間を判定することが可能となる。 Therefore, since the reference information is not used for detecting the cheering section, it is possible to always detect the cheering section with stable performance without being affected by the difference in the recording environment. Moreover, the peak of the spectrum existing in the 600 to 1000 Hz band peculiar to cheers is that the higher the cheer excitement, the higher the frequency and the greater the power, and the weaker the cheer excitement, the lower the frequency and the lower the power. A characteristic amount for determining a cheering section is detected using the characteristic. For this reason, it becomes possible to determine a cheering section stably and with high accuracy even with respect to encoding distortion of an audio signal.
また本実施形態では、複数のハイライト検出モードを予め用意して表示し、ユーザがこれらの検出モードの中から所望のモードを選択指定したときに、この指定された検出モードに応じて判定時間長L、判定しきい値率、及び歓声特徴量の検出しきい値が自動調節される。したがって、ユーザは面倒な入力設定操作を行わなくても、ユーザが所望する条件でハイライトシーンの検出が可能となる。 In the present embodiment, a plurality of highlight detection modes are prepared and displayed in advance, and when the user selects and designates a desired mode from these detection modes, a determination time is determined according to the designated detection mode. The detection threshold of the length L, the judgment threshold rate, and the cheering feature amount is automatically adjusted. Therefore, the highlight scene can be detected under the conditions desired by the user without performing a troublesome input setting operation.
さらに、ユーザが選択指定した出力形態に応じて、歓声区間の判定結果を表すタイムバーが生成されて出力される。このため、ユーザは検出されたハイライトシーンがコンテンツ中のどの時間位置に存在し、かつどのような長さでどの程度の盛り上がり具合かを自身が希望する形態により確認することが可能となる。このため、短時間で視聴する際に大変有用な情報を得ることができる。またマルチメディアコンテンツを編集する際にも、ハイライトシーンという編集に大変有用な情報を得ることができるので、編集作業を効率的に短時間で行うことが可能となる。 Further, a time bar representing the determination result of the cheering section is generated and output according to the output form selected and designated by the user. Therefore, the user can confirm at which time position in the content the detected highlight scene exists, and at what length and how much it rises in the form he desires. For this reason, very useful information can be obtained when viewing in a short time. In addition, when editing multimedia content, information that is very useful for editing called a highlight scene can be obtained, so that editing work can be performed efficiently and in a short time.
(第2の実施形態)
図9は、この発明の第2の実施形態に係わるハイライトシーン検出装置1Bの構成を示すブロック図である。なお、同図において前記図1と同一部分には同一符号を付して詳しい説明は省略する。
制御ユニット2Bには、前記第1の実施形態で説明した入力制御モジュール21、スペクトル算出モジュール22、歓声特徴量抽出モジュール23、歓声区間判定モジュール24及び出力制御モジュール25に加え、歓声区間情報正規化モジュール26と、歓声パターン類似度算出モジュール27が新たに設けられている。
(Second Embodiment)
FIG. 9 is a block diagram showing a configuration of a highlight scene detection apparatus 1B according to the second embodiment of the present invention. In the figure, the same parts as those in FIG.
In the
歓声区間情報正規化モジュール26は、歓声区間判定モジュール24により得られた歓声区間の判定結果を、同歓声区間を複数の小区間に分けて歓声特徴量のしきい値により正規化することにより、上記歓声区間の判定結果をパターン化する。
歓声パターン類似度算出モジュール27は、上記正規化処理によりパターン化された歓声区間と予め用意した基準歓声パターンとの類似度を算出し、この算出された類似度に応じて上記歓声区間を複数の歓声パターンに分類する。
The cheering section
The cheering pattern
次に、以上のように構成された装置による歓声区間の正規化処理及びパターン分類処理の動作を説明する。
先ず、歓声区間の正規化処理は以下のように行われる。図10はその処理手順と処理内容を示すフローチャートである。制御ユニット2Bの歓声区間情報正規化モジュール26は、先ずステップS101において、上記歓声区間判定モジュール24により検出された歓声区間の各歓声特徴量の平均値と標準偏差を算出する。次に、この算出された平均値及び標準偏差から歓声特徴量のしきい値を算出すると共に、上記正規化対象の歓声区間を前半部分と中間部分と後半部分とに3区分する。そして、先ず前半部分に上記しきい値以上の歓声特徴量が存在するか否かをステップS102で判定する。この判定の結果、しきい値以上の歓声特徴量が存在すると、続いて後半部分に上記しきい値以上の歓声特徴量が存在するか否かをステップS103で判定する。そして、この判定の結果しきい値以上の歓声特徴量が存在した場合には、中間部分に上記しきい値以上の歓声特徴量が存在するか否かをステップS104で判定する。
Next, cheering section normalization processing and pattern classification processing operations performed by the apparatus configured as described above will be described.
First, normalization processing of the cheering section is performed as follows. FIG. 10 is a flowchart showing the processing procedure and processing contents. In step S101, the cheer section
以上の各判定の結果、歓声区間の前半、後半及び中間のいずれの部分にもしきい値以上の歓声特徴量が存在した場合には、歓声区間情報正規化モジュール26はステップS105に6おいて上記歓声区間の正規化パターンをパターンAと判定する。また、歓声区間の前半部分及び後半部分にしきい値以上の歓声特徴量が存在するものの、中間部分にはしきい値以上の歓声特徴量が存在しなかった場合には、ステップS106において上記歓声区間の正規化パターンをパターンBと判定する。さらに、前半部分にしきい値以上の歓声特徴量が存在し、後半部分にしきい値以上の歓声特徴量が存在しなかった場合には、ステップS107において上記歓声区間の正規化パターンをパターンDと判定する。
As a result of the above determinations, if there is a cheering feature amount greater than or equal to the threshold value in any of the first half, the second half, and the middle of the cheering section, the cheering section
一方、上記ステップS102において、前半部分にしきい値以上の歓声特徴量が存在しないと判定されると、歓声区間情報正規化モジュール26は後半部分にしきい値以上の歓声特徴量が存在するかどうかをステップS108で判定し、存在すればステップS109により上記歓声区間の正規化パターンをパターンCと判定する。これに対し、上記ステップS108においてしきい値以上の歓声特徴量が存在しないと判定された場合には、歓声区間情報正規化モジュール26は中間部分にしきい値以上の歓声特徴量が存在するかどうかをステップS110で判定する。そして、存在すればステップS111により上記歓声区間の正規化パターンをパターンEと判定し、一方存在しなかった場合にはステップS112により上記歓声区間の正規化パターンをパターンAと判定する。
On the other hand, if it is determined in step S102 that there is no cheering feature amount greater than or equal to the threshold value in the first half portion, the cheer section
図11(a)〜(e)は上記各正規化パターンA〜Eを模式的に示したもので、横軸は時間、縦軸は歓声特徴量をそれぞれ示す。パターンAは、歓声特徴量が平坦なパターンであり、例えば特に大盛り上がりもなく、ワーっと盛上ったような抑揚のない歓声に相当する。パターンBは、歓声特徴量が高い状態から一旦低くなりまた高くなるパターンである。野球を例にとると、得点圏にランナーがいる場合にヒットかどうかあいまいな当りの直後は盛り上がりが小さいが、ボールが落ちてヒットになり、得点が入ったときに大きく盛り上がる場合などに相当する。パターンCは、歓声特徴量が低い状態から高くなるパターンである。例えばサッカーにおいて、得点チャンスで盛上った状態から、シュートを決めて歓声が大きく盛上る場合に相当する。パターンDは、歓声特徴量が高い状態から低くなるパターンである。例えばサッカーにおいて、ロングシュートなどの突発的な歓声の盛り上がりの後に、歓声が小さい余韻が持続するような場合に相当する。パターンEは、歓声特徴量が低い状態から高い状態になり、また低くなるパターンである。例えば野球において、バッターがホームランを打ったときに、バッティングの直後に歓声が盛り上がって少々治まり、観客席にボールが入った瞬間にまた歓声が盛上るような場合に相当する。 11A to 11E schematically show the respective normalization patterns A to E. The horizontal axis indicates time, and the vertical axis indicates cheering feature amounts. The pattern A is a pattern having a flat cheering feature amount, and corresponds to, for example, a cheering without any inflection, such as no particular excitement. Pattern B is a pattern that once decreases and increases from a state where the cheering feature amount is high. Taking baseball as an example, if the runner is in the scoring area, the hit will be small immediately after the ambiguous hit, but it corresponds to the case where the ball falls and hits and gets big when the score enters . Pattern C is a pattern in which the cheering feature amount increases from a low state. For example, in soccer, it corresponds to a case where a cheer is greatly increased by deciding a shot from a state where the scoring chance is increased. The pattern D is a pattern that decreases from a state where the cheering feature amount is high. For example, in soccer, this corresponds to a case where a cheerful lingering sound persists after a sudden cheering such as a long shot. The pattern E is a pattern in which the cheering feature value is changed from a low state to a high state and becomes low. For example, in baseball, when a batter hits a home run, the cheering swells immediately after the batting and heals a little, and the cheering rises again at the moment the ball enters the spectator seat.
このように、歓声区間として検出された区間内において、歓声の度合いが大きくなる箇所がパターンAのように存在しない場合、パターンBのように前半と後半にある場合、パターンCのように後半のみにある場合、パターンDのように前半のみにある場合、パターンEのように中央付近にある場合にそれぞれ分類することで、検出された歓声がどのような歓声なのかをある程度把握することができる。 Thus, in the section detected as the cheering section, when there is no portion where the degree of cheering is large as in pattern A, when in the first half and the second half as in pattern B, only in the second half as in pattern C , It is possible to grasp to some extent what kind of cheer the detected cheers are by classifying them when they are only in the first half like pattern D and when they are near the center like pattern E. .
なお、上記正規化処理に使用するしきい値は次のように算出される。図12はその算出方法を説明するための図である。すなわち、しきい値は、歓声区間における歓声特徴量の平均値と標準偏差とを加算することにより算出される。このように平均値や標準偏差などの統計量を用いてしきい値を算出することで、歓声特徴量のバラツキに対応することが可能となる。 The threshold value used for the normalization process is calculated as follows. FIG. 12 is a diagram for explaining the calculation method. That is, the threshold value is calculated by adding the average value of the cheering feature amount in the cheering section and the standard deviation. Thus, by calculating a threshold value using a statistical quantity such as an average value or a standard deviation, it becomes possible to deal with variations in cheering feature quantities.
また、下記[数6]に示すように、標準偏差を正の実数α倍したものと平均値との和をしきい値とし、この係数αを制御することによりしきい値を可変制御するようにしてもよい。 Further, as shown in [Equation 6] below, the sum of the standard deviation multiplied by a positive real number α and the average value is used as a threshold value, and the threshold value is variably controlled by controlling this coefficient α. It may be.
このようにすると、係数αを大きくするほどしきい値を超える歓声特徴量が少なくなり、ほとんどパターンAに分類されてしまうことになるので、経験上係数αは1.0〜2.0の範囲に設定することが適当である。 In this way, as the coefficient α is increased, the cheering feature amount exceeding the threshold value is decreased and the pattern A is almost classified into the pattern A. Therefore, the coefficient α is in the range of 1.0 to 2.0 based on experience. It is appropriate to set to.
さらに、標準偏差の算出は歓声区間ごとに算出するのではなく、複数の歓声区間の情報を使って算出してもよい。こうすることで、歓声区間内のバラツキのみならず、歓声区間外、つまり歓声区間ごとのバラツキの影響も考慮することができる。図12の例では、歓声区間の前半部分はしきい値以上の歓声特徴量が存在するので、ステップS102においてしきい値以上の歓声特徴量が存在すると判定され、また後半部分にはしきい値以上の歓声特徴量が存在しないので、ステップS103において存在しないと判定される。このため、歓声区間の正規化パターンはパターンDと判定される。 Further, the standard deviation may be calculated using information of a plurality of cheering sections instead of calculating for each cheering section. By doing so, not only the variation in the cheering section but also the influence of the variation outside the cheering section, that is, for each cheering section, can be considered. In the example of FIG. 12, since the cheering feature amount equal to or greater than the threshold exists in the first half portion of the cheering section, it is determined in step S102 that the cheering feature amount equal to or greater than the threshold exists. Since the above cheer feature amount does not exist, it is determined in step S103 that it does not exist. For this reason, the normalization pattern of the cheering section is determined as the pattern D.
以上のように、歓声区間を正規化する際に、歓声区間を前半部分、中間部分及び後半部分に区分けして量子化することで、時間情報を正規化することができる。また、歓声特徴量がしきい値以上か否かにより二値化するので、これも歓声特徴量を正規化することができるが、歓声特徴量は歓声の盛り上がりを示す情報そのものなので、二値化せずに値を保持する方が好ましい。例えば、前半部分、中間部分及び後半部分のそれぞれにおいて、しきい値未満の場合の歓声特徴量は平均値を保持し、しきい値以上の場合には歓声特徴量がしきい値以上のもののみの平均値やその部分のみの歓声特徴量の平均を保持することなどが考えられる。このように歓声特徴量の値を保持することで、後段の歓声パターン分類モジュール27において、より詳細な分類が可能となる。
As described above, when normalizing the cheering interval, time information can be normalized by dividing the cheering interval into a first half part, an intermediate part, and a second half part and quantizing. In addition, since the binarization is performed depending on whether or not the cheering feature amount is equal to or greater than the threshold value, the cheering feature amount can also be normalized. However, since the cheering feature amount is the information itself indicating the excitement of the cheering, it is binarized. It is preferable to keep the value without. For example, in each of the first half part, the middle part, and the second half part, the cheering feature amount is less than the threshold value, and the cheering feature amount is not less than the threshold value. It is conceivable to maintain the average value of the voices and the average of the cheering feature values of only that part. By holding the value of the cheering feature amount in this way, more detailed classification is possible in the cheering
歓声区間情報正規化モジュール26により得られる正規化された歓声情報の表現の一例としては図13が挙げられる。同図において、131はコンテンツの開始位置から何番目の歓声区間かを示し、132は歓声区間の開始時間と終了時間を示す。また、133は歓声区間情報正規化モジュール26においてどの歓声パターンに正規化されたかを示し、134は歓声特徴量の正規化された値を示している。このような出力形態とすることで、歓声区間に関する時間、パターン、歓声の大きさ(程度)に関する情報が分かるので、後段の歓声パターン分類モジュール27において、より詳細な分類が可能となる。
An example of the expression of the normalized cheer information obtained by the cheer section
以上説明したように歓声区間情報正規化モジュール26では、歓声区間判定モジュール24により歓声区間と判定された区間が、予め用意した歓声パターンと歓声特徴量に正規化される。この結果、歓声区間の判定情報は歓声区間の時間長や歓声特徴量のバラツキに対し頑健な情報となるので、より高精度に歓声区間を分類することが可能となる。
As described above, in the cheer section
なお、上記説明では5つの歓声パターンを用意した場合を例にとって説明したが、歓声パターンの数はこれに限るものではなく、複数であれば如何なる数に設定してもよい。ただし、多くしすぎると正規化によるバラツキに対する頑健性が失われ、また少なすぎると歓声パターンを分類数が減ってしまうので、適切な数にすることが肝要である。 In the above description, the case where five cheer patterns are prepared has been described as an example. However, the number of cheer patterns is not limited to this, and any number may be set as long as it is plural. However, if the number is too large, the robustness against variations due to normalization is lost, and if the number is too small, the number of cheer patterns is reduced. Therefore, it is important to set the number appropriately.
次に、歓声パターン分類モジュール27では、上記歓声区間情報正規化モジュール26により正規化された歓声区間の判定情報を分類する処理が行われる。分類の方法は、基本的には歓声区間情報正規化モジュール26により正規化された歓声パターンそのものである。例えば、歓声パターンが図11に示したパターンCのときには、先に述べたように歓声特徴量が低い状態から高くなるパターンであり、サッカーでは得点チャンスで盛上った状態からシュートを決めて歓声が大きく盛上る場合に相当する。
Next, in the cheering
一方、さらに詳細に分類しようとする場合には、同じ歓声パターンでも歓声特徴量の値を用いて優劣をつけるようにしてもよい。例えば、図14に示すように同じ歓声パターンCにおいて、歓声特徴量の盛り上がり時の値を(a)よりも(b)の方が大きくなるように設定する。つまり、この例では(b)の方がより大きな歓声の盛り上がりであったことを示しているので、優劣をつけることができる。このように、同じ歓声パターン間で盛上っている方の歓声特徴量を比較したり、盛上っている方と盛上っていない方の線形和で比較することで、同じ歓声パターン同士の優劣をつけることができる。 On the other hand, when trying to classify in more detail, the same cheering pattern may be given superiority or inferiority using the value of the cheering feature value. For example, as shown in FIG. 14, in the same cheering pattern C, the value of the cheering feature value at the time of rising is set so that (b) is larger than (a). In other words, in this example, (b) indicates that the cheering was greater, so that superiority or inferiority can be given. In this way, by comparing the cheering features of those who are prospering between the same cheering patterns, or by comparing with the linear sum of those who are prospering and those who are not prominent, the same cheering patterns Can be better or worse.
このようにすると次のような作用効果が得られる。すなわち、前記第1の実施形態では、入力デバイスにおいて入力されるユーザの種々の要求に応じて合計再生時間などの制約が課される場合に、歓声区間の長さや特徴量の大きさに依存する歓声得点により優劣を付けて、この優劣をもとに歓声区間を上位から順に選択していた。しかし、第2の実施形態では、予め歓声パターンに優先順位を付け、さらにこの歓声パターン内で優劣をつけることで、歓声区間全部を順位付けすることができる。 In this way, the following effects can be obtained. That is, in the first embodiment, when restrictions such as the total playback time are imposed according to various requests of the user input at the input device, it depends on the length of the cheer section and the size of the feature amount. The superiority and inferiority were given by cheering scores, and cheering sections were selected in order from the top based on this superiority. However, in the second embodiment, it is possible to rank all cheering sections by prioritizing cheering patterns in advance and giving superiority or inferiority within the cheering patterns.
なお、第2の実施形態は次のような各種変形が可能である。例えば、図15に示すようにハイライトパターンの選択メニューを表示し、ユーザに所望する歓声パターンを選択させるようにしてもよい。さらに、前記図8(c)に示したように歓声パターンを色や形により分類して表示することで、ユーザは歓声のパターンを位置情報、さらにはコンテンツ全体における歓声区間の構成などを瞬時に簡単に把握することができるようになり、ユーザは多種多様な視聴形態を実現することが可能となる。 The second embodiment can be modified in various ways as follows. For example, as shown in FIG. 15, a highlight pattern selection menu may be displayed to allow the user to select a desired cheer pattern. Further, as shown in FIG. 8 (c), the cheer patterns are classified and displayed by color and shape, so that the user can instantly display the cheer patterns as positional information and the structure of cheer sections in the entire content. It becomes possible to easily grasp, and the user can realize various viewing modes.
以上述べたように第2の実施形態では、歓声パターン分類モジュール27により歓声区間情報正規化モジュール26により得られる正規化された歓声区間の判定情報を用いて歓声区間を分類することができ、これによってユーザは単に歓声区間の位置を知るだけでなく、その歓声がどのような歓声かを瞬時に簡単に把握することができるようになる。したがって、スポーツコンテンツ全体の流れを把握することが可能となったり、運動会などの歓声を伴うイベントを録画したコンテンツを編集する際の情報がより有益な情報になったりなどの効果が期待できる。
As described above, in the second embodiment, the cheering
また第2の実施形態では、歓声区間情報正規化モジュール26及び歓声パターン分類モジュール27による正規化処理及びパターン分類処理により、パターンと値で表現した情報を使って歓声区間を複数の歓声パターンに分類しさらに優劣を付けた場合を例にとって説明した。しかし、それに限るものではなく、歓声区間のパターン分類処理方法についてはこの発明の要旨を逸脱しない範囲で種々の方法を採用することが可能である。例えば、ゴールシーンやホームランシーン等、目標となるシーンを予め統計的に学習し、このターゲットパターンに対する確率的距離に基づいて歓声区間の正規化及び類似度の算出を行うようにしてもよい。具体的には、ベクトル量子化やクラスタリング、GMMなどの各種統計的モデルを使って、ゴールシーンやホームランシーン等のシーンごとに予め統計的に学習しておく。そして、歓声区間を分類するときに、各歓声区間の判定情報が上記学習したものに対し確率的に起こりうる確率が最も高いパターンに属するとして歓声パターンの分類をする。また、このときの確率を類似度の大きさとすれば、優先順位を付けることもできる。
In the second embodiment, the cheering section
(第3の実施形態)
前記第2の実施形態では、歓声特徴量の時間遷移パターンを正規化して分類することで歓声区間の分類処理を行った。しかし、上記処理手法では、集団が同じ音程で歌を歌って応援するシーンや楽器を使った応援シーン等の組織的な応援シーンを正しく特定することが難しい。組織的応援は、スポーツコンテンツの盛り上がりにはあまり関係ないことが多く、むしろ観客が熱狂的に盛上ると組織的応援は崩れる。このため、組織的応援区間を積極的に歓声区間としないか、もしくは組織的応援区間として歓声区間から区別することで、歓声区間の検出精度の向上や歓声区間の分類精度の向上が期待できる。
(Third embodiment)
In the second embodiment, the cheering segment classification processing is performed by normalizing and classifying the temporal transition pattern of the cheering feature value. However, with the above processing method, it is difficult to correctly specify a systematic support scene such as a scene where a group sings and supports a song with the same pitch or a support scene using a musical instrument. Organized support often has little to do with the excitement of sports content. Rather, organized support collapses when the audience enthusiastically swells. For this reason, the detection accuracy of the cheering section and the improvement of the classification accuracy of the cheering section can be expected by not actively setting the organized support section as the cheering section or by distinguishing from the cheering section as the organized cheering section.
第3の実施形態は、歓声特徴量を抽出する際に、歓声特徴量を抽出するとともに組織的応援かどうかを判定する。例えば、図1に示した歓声特徴量抽出モジュール23において、スペクトル算出モジュール22により算出されたスペクトルから、歓声の特徴が現れる一部の帯域内において最大値かつ極大値をとる周波数(ピーク周波数)とそのパワー値を検出すると共に、上記ピーク周波数の周辺の周波数のパワー値を算出する。そして、このピーク周波数のパワー値と周辺周波数のパワー値との差がしきい値よりも大きい場合に、組織的応援状態であることを示す組織応援フラグを出力する。
In the third embodiment, when the cheering feature value is extracted, the cheering feature value is extracted and it is determined whether or not it is systematic support. For example, in the cheer feature
以下、この第3の実施形態による歓声区間及び組織的応援区間の判定処理動作を説明する。図16はその処理手順と処理内容を示すフローチャートである。なお、装置の構成については図1を援用して説明を行う。 Hereinafter, the determination processing operation of the cheering section and the organized support section according to the third embodiment will be described. FIG. 16 is a flowchart showing the processing procedure and processing contents. In addition, about the structure of an apparatus, FIG. 1 is used and demonstrated.
歓声特徴量抽出モジュール23は、先ずステップS121において、スペクトル算出モジュール22により算出されたスペクトルからピーク周波数を検出する。次にステップS122において、上記検出したピーク周波数が0かどうかを判定し、0と判定された場合はステップS123により当該区間を非歓声区間と判定する。
The cheering feature
これに対し、上記ステップS122においてピーク周波数が0以外と判定されたとする。この場合歓声特徴量抽出モジュール23は、ステップS124によりピーク周波数を含む歓声特徴量の帯域幅を算出する。例えば、図17に示すようにピーク周波数のパワー値から3dB低下した位置での周波数幅を帯域幅として算出する。そして、この算出された帯域幅が予め設定したしきい値より小さいか否かをステップS125により判定する。この判定の結果、帯域幅がしきい値以上と判定された場合には、ステップS126により当該区間を通常歓声区間と判定する。一方、上記ステップS125において帯域幅がしきい値より小さいと判定された場合には、歓声特徴量抽出モジュール23はステップS127により当該区間を組織的応援と判定する。
In contrast, it is assumed that the peak frequency is determined to be other than 0 in step S122. In this case, the cheering feature
ここで、ピーク周波数の帯域幅がしきい値より狭い場合に、組織的応援と見なせる理由を以下に説明する。すなわち、組織的応援とは多くの人が同じ歌を歌ったり同じ楽器を鳴らしたりすることを指す。したがって、通常の歓声の場合にはバラバラだった各々のピッチ周波数は、同じ歌を歌っている場合にはピッチ周波数がほぼ同じになる。このため、ピッチによるハーモニクス構造、つまり周波数の山と谷が、例えば図17(a),(b)のようにスペクトル上に顕著に現れる。また、応援用の楽器が鳴っている場合も同様に、楽器の基本周波数によるハーモニクス構造により周波数の山と谷がスペクトル上に顕著に現れる。このため、組織的応援の場合には周波数ピークが鋭くなり、帯域幅が狭くなる。 Here, the reason why it can be regarded as systematic support when the bandwidth of the peak frequency is smaller than the threshold will be described below. In other words, organized support means that many people sing the same song or play the same instrument. Accordingly, the pitch frequencies that are different in the case of normal cheers are almost the same when the same song is sung. For this reason, the harmonics structure due to the pitch, that is, the peaks and valleys of the frequency, remarkably appear on the spectrum as shown in FIGS. 17 (a) and 17 (b), for example. Similarly, when a cheering instrument is ringing, the peaks and valleys of the frequency appear prominently in the spectrum due to the harmonic structure of the fundamental frequency of the instrument. For this reason, in the case of organized support, the frequency peak becomes sharp and the bandwidth becomes narrow.
以上述べたように第3の実施形態によれば、ピーク周波数の帯域幅の大小により歓声区間と組織的応援区間とを分けることができる。このため、歓声区間の検出ならびに歓声区間の分類の精度が向上し、ユーザが満足する多種多様な視聴形態が実現できる。また、組織的応援区間そのものがコンテンツの内容を把握する上で有益な情報となる。このため、ユーザはコンテンツをより一層短時間で視聴できるようになったり、また編集することができるようになる。 As described above, according to the third embodiment, the cheering section and the organized support section can be divided according to the bandwidth of the peak frequency. For this reason, the accuracy of the detection of the cheering section and the classification of the cheering section is improved, and various viewing modes satisfying the user can be realized. Further, the organized support section itself is useful information for grasping the content. As a result, the user can view and edit the content in a shorter time.
(その他の実施形態)
前記各実施形態では、ハイライトシーン検出装置を録画再生装置とは別に設けた場合を例にとって説明したが、ハイライトシーン検出装置を録画再生装置内に設けるようにしてもよい。また、ハイライトシーン検出装置は、録画再生装置以外に撮像装置やコンテンツ配信サーバに付加または内蔵させるようにしてもよい。
その他、ハイライトシーン検出装置の構成や制御ユニットによる処理手順と処理内容などについても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
(Other embodiments)
In each of the above-described embodiments, the case where the highlight scene detection device is provided separately from the recording / playback device has been described as an example. However, the highlight scene detection device may be provided in the recording / playback device. Further, the highlight scene detection device may be added to or incorporated in the imaging device or the content distribution server in addition to the recording / playback device.
In addition, the configuration of the highlight scene detection apparatus and the processing procedure and processing contents by the control unit can be variously modified and implemented without departing from the gist of the present invention.
要するにこの発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。 In short, the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the components without departing from the scope of the invention in the implementation stage. Moreover, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in each embodiment. Furthermore, you may combine suitably the component covering different embodiment.
1A,1B…ハイライトシーン検出装置、2A,2B…制御ユニット、3…操作情報入力インタフェース(操作情報入力I/F)、4…コンテンツ入力インタフェース(コンテンツ入力I/F)、5…出力インタフェース(出力I/F)、6…記憶ユニット、7…バス、21…入力制御モジュール、22…スペクトル算出モジュール、23…歓声特徴量抽出モジュール、24…歓声区間判定モジュール、25…出力制御モジュール、26…歓声区間情報正規化モジュール、27…歓声区間判定モジュール。 DESCRIPTION OF SYMBOLS 1A, 1B ... Highlight scene detection apparatus, 2A, 2B ... Control unit, 3 ... Operation information input interface (operation information input I / F), 4 ... Content input interface (content input I / F), 5 ... Output interface ( (Output I / F), 6 ... storage unit, 7 ... bus, 21 ... input control module, 22 ... spectrum calculation module, 23 ... cheer feature quantity extraction module, 24 ... cheer section determination module, 25 ... output control module, 26 ... Cheer section information normalization module, 27 .. cheer section determination module.
Claims (4)
前記受け取ったコンテンツデータに含まれるオーディオ信号を一定区間ごとに区切って、これらの区間ごとにそのスペクトルを検出するスペクトル検出手段と、
前記検出されたスペクトルのうち予め設定された帯域内のスペクトルから、最大値かつ極大値を示すピーク周波数と当該ピーク周波数のパワー値とを検出し、検出した前記ピーク周波数と前記パワー値とに基づいて所定の関係式から歓声特徴量を検出する特徴量検出手段と、
前記検出された歓声特徴量が判定しきい値よりも高い状態が、予め設定された判定時間長に対して判定しきい値率以上存在する区間を歓声区間と判定する判定手段と
を具備することを特徴とするハイライトシーン検出装置。 Means for receiving content data including an audio signal;
A spectrum detector for dividing the audio signal included in the received content data into predetermined intervals and detecting the spectrum for each of the intervals;
Based on the detected peak frequency and the power value , a peak frequency indicating a maximum value and a maximum value and a power value of the peak frequency are detected from a spectrum within a preset band among the detected spectra. Feature amount detecting means for detecting a cheer feature amount from a predetermined relational expression ;
Determining means for determining a section where the detected cheering feature amount is higher than a determination threshold value as a cheering section for a predetermined determination time length with respect to a predetermined determination time length; Highlight scene detection device characterized by the above.
前記受け取った指定情報に応じて、前記判定時間長、判定しきい値及び判定しきい値率のうちの少なくとも1つを調節する手段と、
前記調節後の判定時間長、判定しきい値又は判定しきい値率に基づいて前記判定手段により得られた歓声区間の判定結果を、前記指定情報により表される出力形態に編集して出力する手段と
を、さらに具備することを特徴とする請求項1記載のハイライトシーン検出装置。 Means for receiving the designation information when the user designates and inputs the output form of the determination result of the cheering section;
Means for adjusting at least one of the determination time length, a determination threshold value and a determination threshold rate according to the received designation information;
The determination result of the cheering section obtained by the determination unit based on the adjusted determination time length, determination threshold value or determination threshold rate is edited and output in the output form represented by the designation information. The highlight scene detection apparatus according to claim 1, further comprising: means.
前記正規化された歓声区間の判定結果を、予め設定した複数の歓声パターンに分類する分類手段と
を、さらに具備することを特徴とする請求項1または2に記載のハイライトシーン検出装置。 Normalization means for normalizing the determination result of the cheer section obtained by the determination means with information representing the length of cheer and the size of the cheer;
The highlight scene detection device according to claim 1, further comprising a classifying unit that classifies the determination result of the normalized cheer section into a plurality of preset cheer patterns.
前記スペクトル検出手段により検出されたスペクトルのうち予め設定された帯域内のスペクトルから、前記ピーク周波数と当該ピーク周波数のパワー値とを検出する手段と、
前記予め設定された帯域内のスペクトルから、前記ピーク周波数の周辺の周波数のパワー値を検出する手段と
を含み、
前記検出されたピーク周波数のパワー値と前記周辺周波数のパワー値との差を算出し、この算出されたパワー値の差が予め設定された値より大きい場合に、前記歓声特徴量が検出された歓声区間が組織的応援状態であることを示す組織応援フラグを出力する手段を、さらに具備することを特徴とする請求項1乃至3のいずれかに記載のハイライトシーン検出装置。 The feature amount detection means includes:
From the spectrum in a band that has been set in advance among the detected spectrum by the spectrum detecting means, and means for detecting a power value of the peak frequency and the peak frequency,
From the spectrum of the preset in-band, and means for detecting a power value of a frequency near the peak frequency,
The difference between the power value of the detected peak frequency and the power value of the surrounding frequency is calculated, and the cheering feature amount is detected when the difference of the calculated power value is larger than a preset value. 4. The highlight scene detection device according to claim 1, further comprising means for outputting an organization support flag indicating that the cheering section is in an organized support state.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007016636A JP5034516B2 (en) | 2007-01-26 | 2007-01-26 | Highlight scene detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007016636A JP5034516B2 (en) | 2007-01-26 | 2007-01-26 | Highlight scene detection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008185626A JP2008185626A (en) | 2008-08-14 |
JP5034516B2 true JP5034516B2 (en) | 2012-09-26 |
Family
ID=39728749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007016636A Expired - Fee Related JP5034516B2 (en) | 2007-01-26 | 2007-01-26 | Highlight scene detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5034516B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10419830B2 (en) | 2014-10-09 | 2019-09-17 | Thuuz, Inc. | Generating a customized highlight sequence depicting an event |
US10433030B2 (en) | 2014-10-09 | 2019-10-01 | Thuuz, Inc. | Generating a customized highlight sequence depicting multiple events |
US10536758B2 (en) | 2014-10-09 | 2020-01-14 | Thuuz, Inc. | Customized generation of highlight show with narrative component |
US11025985B2 (en) | 2018-06-05 | 2021-06-01 | Stats Llc | Audio processing for detecting occurrences of crowd noise in sporting event television programming |
US11138438B2 (en) | 2018-05-18 | 2021-10-05 | Stats Llc | Video processing for embedded information card localization and content extraction |
US11264048B1 (en) | 2018-06-05 | 2022-03-01 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
US11863848B1 (en) | 2014-10-09 | 2024-01-02 | Stats Llc | User interface for interaction with customized highlight shows |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8503770B2 (en) | 2009-04-30 | 2013-08-06 | Sony Corporation | Information processing apparatus and method, and program |
US8457469B2 (en) | 2009-04-30 | 2013-06-04 | Sony Corporation | Display control device, display control method, and program |
JP5540651B2 (en) * | 2009-10-29 | 2014-07-02 | 株式会社Jvcケンウッド | Acoustic signal analysis apparatus, acoustic signal analysis method, and acoustic signal analysis program |
JP5471749B2 (en) * | 2010-04-09 | 2014-04-16 | ソニー株式会社 | Content search apparatus and method, and program |
JP2012129979A (en) * | 2010-11-24 | 2012-07-05 | Jvc Kenwood Corp | Segment creation apparatus, segment creation method and segment creation program |
US8942540B2 (en) | 2011-01-05 | 2015-01-27 | Panasonic Intellectual Property Corporation Of America | Interesting section extracting device, interesting section extracting method |
CN103544961B (en) * | 2012-07-10 | 2017-12-19 | 中兴通讯股份有限公司 | Audio signal processing method and device |
KR102217186B1 (en) * | 2014-04-11 | 2021-02-19 | 삼성전자주식회사 | Broadcasting receiving apparatus and method for providing summary contents service |
JP6873878B2 (en) * | 2017-09-26 | 2021-05-19 | 株式会社日立国際電気 | Video server system |
US20200037022A1 (en) * | 2018-07-30 | 2020-01-30 | Thuuz, Inc. | Audio processing for extraction of variable length disjoint segments from audiovisual content |
CN111739542B (en) * | 2020-05-13 | 2023-05-09 | 深圳市微纳感知计算技术有限公司 | Method, device and equipment for detecting characteristic sound |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3891111B2 (en) * | 2002-12-12 | 2007-03-14 | ソニー株式会社 | Acoustic signal processing apparatus and method, signal recording apparatus and method, and program |
JP4310745B2 (en) * | 2004-11-01 | 2009-08-12 | カシオ計算機株式会社 | Program summary device and program summary processing program |
JP4483831B2 (en) * | 2006-06-05 | 2010-06-16 | ソニー株式会社 | Audience situation estimation device, audience situation estimation method, and audience situation estimation program |
-
2007
- 2007-01-26 JP JP2007016636A patent/JP5034516B2/en not_active Expired - Fee Related
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11863848B1 (en) | 2014-10-09 | 2024-01-02 | Stats Llc | User interface for interaction with customized highlight shows |
US11290791B2 (en) | 2014-10-09 | 2022-03-29 | Stats Llc | Generating a customized highlight sequence depicting multiple events |
US10536758B2 (en) | 2014-10-09 | 2020-01-14 | Thuuz, Inc. | Customized generation of highlight show with narrative component |
US11882345B2 (en) | 2014-10-09 | 2024-01-23 | Stats Llc | Customized generation of highlights show with narrative component |
US11582536B2 (en) | 2014-10-09 | 2023-02-14 | Stats Llc | Customized generation of highlight show with narrative component |
US10419830B2 (en) | 2014-10-09 | 2019-09-17 | Thuuz, Inc. | Generating a customized highlight sequence depicting an event |
US10433030B2 (en) | 2014-10-09 | 2019-10-01 | Thuuz, Inc. | Generating a customized highlight sequence depicting multiple events |
US11778287B2 (en) | 2014-10-09 | 2023-10-03 | Stats Llc | Generating a customized highlight sequence depicting multiple events |
US11138438B2 (en) | 2018-05-18 | 2021-10-05 | Stats Llc | Video processing for embedded information card localization and content extraction |
US11594028B2 (en) | 2018-05-18 | 2023-02-28 | Stats Llc | Video processing for enabling sports highlights generation |
US11615621B2 (en) | 2018-05-18 | 2023-03-28 | Stats Llc | Video processing for embedded information card localization and content extraction |
US11373404B2 (en) | 2018-05-18 | 2022-06-28 | Stats Llc | Machine learning for recognizing and interpreting embedded information card content |
US12046039B2 (en) | 2018-05-18 | 2024-07-23 | Stats Llc | Video processing for enabling sports highlights generation |
US11264048B1 (en) | 2018-06-05 | 2022-03-01 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
US11025985B2 (en) | 2018-06-05 | 2021-06-01 | Stats Llc | Audio processing for detecting occurrences of crowd noise in sporting event television programming |
US11922968B2 (en) | 2018-06-05 | 2024-03-05 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
Also Published As
Publication number | Publication date |
---|---|
JP2008185626A (en) | 2008-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5034516B2 (en) | Highlight scene detection device | |
JP4795934B2 (en) | Analysis of time characteristics displayed in parameters | |
JP5460709B2 (en) | Acoustic signal processing apparatus and method | |
US7593618B2 (en) | Image processing for analyzing video content | |
JP4449216B2 (en) | Video information editing method and editing apparatus | |
EP1850321B1 (en) | Systems and methods for classifying sports video | |
JP4699476B2 (en) | Video summarization device | |
US20050131688A1 (en) | Apparatus and method for classifying an audio signal | |
US20020061136A1 (en) | AV signal processing apparatus and method as well as recording medium | |
US11922968B2 (en) | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts | |
JP4253139B2 (en) | Frame information description method, frame information generation apparatus and method, video reproduction apparatus and method, and recording medium | |
JP2008022103A (en) | Apparatus and method for extracting highlight of moving picture of television program | |
JP2008283486A (en) | Information processor, information processing method, and program | |
KR100612874B1 (en) | Method and apparatus for summarizing sports video | |
WO2015114216A2 (en) | Audio signal analysis | |
JP2008252667A (en) | System for detecting event in moving image | |
EP1850322B1 (en) | Systems and methods for analyzing video content | |
JP3757719B2 (en) | Acoustic data analysis method and apparatus | |
US20130108244A1 (en) | Region of interest identification device, region of interest identification method, region of interest identification program, and region of interest identification integrated circuit | |
JP2000285243A (en) | Signal processing method and video sound processing device | |
AU2024203420A1 (en) | Audio Processing For Extraction Of Variable Length Disjoint Segments From Audiovisual Content | |
JP2000285242A (en) | Signal processing method and video sound processing device | |
US20140205102A1 (en) | Audio processing device, audio processing method, audio processing program and audio processing integrated circuit | |
JP2005167456A (en) | Method and device for extracting interesting features of av content | |
JP5254900B2 (en) | Video reconstruction method, video reconstruction device, and video reconstruction program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091215 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20101028 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120618 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150713 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |