JP4884163B2 - Voice classification device - Google Patents

Voice classification device Download PDF

Info

Publication number
JP4884163B2
JP4884163B2 JP2006293055A JP2006293055A JP4884163B2 JP 4884163 B2 JP4884163 B2 JP 4884163B2 JP 2006293055 A JP2006293055 A JP 2006293055A JP 2006293055 A JP2006293055 A JP 2006293055A JP 4884163 B2 JP4884163 B2 JP 4884163B2
Authority
JP
Japan
Prior art keywords
acoustic model
unit
filter
audio
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006293055A
Other languages
Japanese (ja)
Other versions
JP2008111866A (en
Inventor
悟 松本
友二 山本
達雄 古賀
良輔 大槻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2006293055A priority Critical patent/JP4884163B2/en
Publication of JP2008111866A publication Critical patent/JP2008111866A/en
Application granted granted Critical
Publication of JP4884163B2 publication Critical patent/JP4884163B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音声信号を解析し、分類する音声分類装置及びコンピュータシステムを用いて音声分類装置の機能を実現するためのコンピュータプログラムに関する。   The present invention relates to a speech classification device that analyzes and classifies speech signals, and a computer program for realizing the function of the speech classification device using a computer system.

従来から、サウンド認識を用いて音声信号を含むマルチメディアコンテンツからスポーツハイライトなどの番組要約を抽出する方法が知られている(例えば、特許文献1参照)。例えば、スポーツイベントのビデオにおいては、観客の拍手、喝采、バットによるボールの打撃、興奮した音声、背景雑音または音楽を識別して、オーディオコンテンツを分類する。これにより、スポーツイベントから面白いハイライトを見つけることができる。   2. Description of the Related Art Conventionally, a method for extracting a program summary such as a sports highlight from multimedia content including an audio signal using sound recognition is known (for example, see Patent Document 1). For example, in a sporting event video, audio content is categorized by identifying audience applause, spear, hitting a ball with a bat, excited speech, background noise or music. This makes it possible to find interesting highlights from sporting events.

オーディオコンテンツを分類する従来の方法では、入力されたオーディオ信号から、特徴のセットを抽出し、特徴のセットを、拍手、喝采、打球、音声、音楽、音楽付き音声などのオーディオクラスに従って分類する。そして、拍手または喝采として分類された特徴部分のグループをスポーツハイライトなどの番組要約として選択する。   In a conventional method for classifying audio content, a set of features is extracted from an input audio signal, and the set of features is classified according to an audio class such as applause, scissors, ball hitting, voice, music, and voice with music. Then, a group of feature parts classified as applause or jealousy is selected as a program summary such as a sports highlight.

特開2004−258659号公報JP 2004-258659 A

しかし、オーディオコンテンツを分類する従来の方法では、事前に学習データから作成した、拍手、喝采、打球、音声、音楽、音楽付き音声などのオーディオクラス(音響モデル)を継続的に記憶する記憶部を必要としている。オーディオ(音声)には様々な種類のものがあるが、この様々な種類の音声に対応した音響モデルのパラメータを記憶するためには多くの記憶容量を必要とする。   However, in the conventional method of classifying audio contents, a storage unit that continuously stores audio classes (acoustic models) such as applause, bat, ball hitting, voice, music, and voice with music created from learning data in advance is provided. In need of. There are various types of audio (speech), and a large amount of storage capacity is required to store parameters of the acoustic model corresponding to the various types of audio.

また、記憶容量を削減するために複数の音響モデルを一つにまとめた場合、個々の音響モデルに比べて音声の分類精度が低下してしまう。   In addition, when a plurality of acoustic models are combined into one in order to reduce the storage capacity, the voice classification accuracy is lowered as compared with individual acoustic models.

本発明は、上記問題点を解決するために成されたものであり、その目的は、個々の音響モデルを作成することにより音声の分類精度が向上する音声分類装置及びコンピュータプログラムを提供することである。   The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech classification device and a computer program that improve the speech classification accuracy by creating individual acoustic models. is there.

本発明の第1の特徴は、音声信号から当該音声信号に含まれる特定の音声の音響モデルを作成する音響モデル手段と、音響モデルを用いて音声信号を分類する音声分類手段とを備える音声分類装置であることを要旨とする。   A first feature of the present invention is an audio classification comprising: an acoustic model unit that creates an acoustic model of a specific audio included in the audio signal from the audio signal; and an audio classification unit that classifies the audio signal using the acoustic model. The gist is that it is a device.

第1の特徴によれば、音声信号から音響モデルを逐次作成し、作成された音響モデルを用いて音声信号を分類する。これにより、予め音響モデルを作成して継続的に保持する必要がなくなり、音響モデルのパラメータ分のデータ容量を削減することができる。また、音声信号の環境に適応した音響モデルを作成できるため、音声信号の分類精度が向上する。   According to the first feature, the acoustic model is sequentially created from the speech signal, and the speech signal is classified using the created acoustic model. This eliminates the need to create and continuously store an acoustic model in advance, and reduce the data capacity for the parameters of the acoustic model. In addition, since an acoustic model adapted to the environment of the audio signal can be created, the accuracy of classification of the audio signal is improved.

第1の特徴において、音響モデル手段は、音声信号の特定の周波数帯域を通過させるフィルタ手段と、特定の周波数帯域における音声信号のパワー値を求めるパワー値検出手段と、音声信号のパワー値が所定の閾値を超える時間帯を求めるピーク時間帯検出手段と、音声信号を周波数領域の信号へ変換する周波数変換手段と、閾値を超える時間帯における周波数領域の信号から音響モデルを作成する音響モデル作成手段とを備えていてもかまわない。   In the first feature, the acoustic model means includes a filter means for passing a specific frequency band of the audio signal, a power value detecting means for obtaining a power value of the audio signal in the specific frequency band, and a power value of the audio signal being predetermined. A peak time zone detecting means for obtaining a time zone exceeding a threshold value, a frequency converting means for converting an audio signal into a frequency domain signal, and an acoustic model creating means for creating an acoustic model from the frequency domain signal in a time zone exceeding the threshold value It does not matter if it is equipped with.

音響モデルのパラメータはデータ容量が大きいため、多くの音響モデルを継続的に保持することができない。そこで、音響モデルを予め用意するのではなく、音響モデルに対応する特定の周波数帯域を通過させるフィルタ手段を用意し、フィルタ手段を用いて音声信号から音響モデルを作成する。フィルタ手段のデータ容量は音響モデルのパラメータに比べて非常に小さいため、記憶容量の削減の効果が得られる。また、音声信号のパワー値のピークのうち閾値を超える時間帯を検出し、その時間帯における周波数領域の信号を用いて音響モデルを作成する。これにより、不必要なデータを減らして必要なデータからのみ音響モデルを作成でき、品質の高い音響モデルを作成することができる。   Since the parameters of the acoustic model have a large data capacity, many acoustic models cannot be retained continuously. Therefore, an acoustic model is not prepared in advance, but a filter unit that passes a specific frequency band corresponding to the acoustic model is prepared, and an acoustic model is created from the audio signal using the filter unit. Since the data capacity of the filter means is very small compared to the parameters of the acoustic model, the effect of reducing the storage capacity can be obtained. In addition, a time zone exceeding a threshold is detected from the power value peaks of the audio signal, and an acoustic model is created using a signal in the frequency domain in that time zone. Thereby, unnecessary data can be reduced, an acoustic model can be created only from necessary data, and a high-quality acoustic model can be created.

第1の特徴において、フィルタ手段は、各々異なる周波数帯域を通過させる2以上のフィルタを備え、音響モデル作成手段は、2以上のフィルタを用いて2以上の音響モデルを作成し、音声分類手段は、2以上の音響モデルを用いて音声信号を分類してもかまわない。   In the first feature, the filter means includes two or more filters that pass different frequency bands, the acoustic model creation means creates two or more acoustic models using the two or more filters, and the speech classification means includes The audio signal may be classified using two or more acoustic models.

フィルタ手段が2以上のフィルタを備えることにより、2以上の音響モデルが作成される。よって、この2以上の音響モデルを用いて音声信号の分類が可能となるため、従来のように音響モデルを継続的に保持する必要がなくなり、データ容量を削減することができる。   When the filter means includes two or more filters, two or more acoustic models are created. Therefore, since the audio signal can be classified using these two or more acoustic models, there is no need to continuously hold the acoustic model as in the conventional case, and the data capacity can be reduced.

第1の特徴において、2以上のフィルタには、特定の周波数帯域を通過させる帯域通過フィルタと、特定の周波数帯域以外を通過させる帯域除去フィルタとが含まれ、音響モデル作成手段は、帯域通過フィルタ及び帯域除去フィルタを用いて音響モデルを作成してもかまわない。   In the first feature, the two or more filters include a bandpass filter that passes a specific frequency band and a band elimination filter that passes a band other than the specific frequency band. In addition, an acoustic model may be created using a band elimination filter.

2以上のフィルタとして、特定の周波数帯域を通過させるフィルタと、特定の周波数帯域以外を通過させるフィルタとを備えることにより、特定の周波数帯域に対応する音響モデル及び特定の周波数帯域以外に対応する音響モデルを作成することができる。よって、この2つの音響モデルを用いて音声信号を分類することで、音声信号の分類精度が更に向上する。   The acoustic model corresponding to the specific frequency band and the sound corresponding to other than the specific frequency band are provided by including a filter that allows passage of the specific frequency band and a filter that passes other than the specific frequency band as the two or more filters. A model can be created. Therefore, the classification accuracy of the audio signal is further improved by classifying the audio signal using these two acoustic models.

第1の特徴において、音声分類装置は、予め作成された音響モデルを保持する音響モデル記憶手段を更に備えていてもかまわない。   In the first feature, the speech classification apparatus may further include an acoustic model storage unit that holds an acoustic model created in advance.

音響モデル記憶手段を備えることにより、予め作成された一般的な音響モデルを持つことができ、音響モデル手段における計算量を減らすことができる。   By providing the acoustic model storage means, it is possible to have a general acoustic model created in advance, and to reduce the amount of calculation in the acoustic model means.

第1の特徴において、音声分類装置は、音声信号を含むコンテンツから当該コンテンツのジャンルを決定するコンテンツジャンル抽出手段と、コンテンツのジャンルに基づいてフィルタ手段が用いるフィルタを決定するフィルタ決定手段とを更に備えていてもかまわない。   In the first feature, the audio classification device further includes a content genre extraction unit that determines a genre of the content from content including an audio signal, and a filter determination unit that determines a filter used by the filter unit based on the genre of the content. You may have it.

コンテンツのジャンルに基づいてフィルタを決定することにより、ジャンルに応じてフィルタを使い分けることができ、音響モデル手段における計算量を軽減し、音声信号の分類精度が更に向上する。   By determining the filter based on the genre of the content, the filter can be used properly according to the genre, the amount of calculation in the acoustic model means is reduced, and the classification accuracy of the audio signal is further improved.

ここで、コンテンツの「ジャンル」とは、コンテンツの様式・内容に関して類似するものをまとめたコンテンツの種類を示すものであり、例えば、ニュース、ドラマ、音楽、サッカー、野球などが挙げられる。   Here, the “genre” of the content indicates the type of content in which similar content and content are collected, and examples thereof include news, drama, music, soccer, baseball, and the like.

本発明の第2の特徴は、コンピュータを、音声信号から当該音声信号に含まれる特定の音声の音響モデルを作成する音響モデル手段、及び音響モデルを用いて音声信号を分類する音声分類手段として機能させるためのコンピュータプログラムであることを要旨とする。   According to a second aspect of the present invention, the computer functions as an acoustic model unit that creates an acoustic model of a specific voice included in the voice signal from the voice signal, and a voice classification unit that classifies the voice signal using the acoustic model. The gist of the invention is that it is a computer program.

第2の特徴において、音響モデル手段は、音声信号の特定の周波数帯域を通過させるフィルタ手段と、特定の周波数帯域における音声信号のパワー値を求めるパワー値検出手段と、音声信号のパワー値が所定の閾値を超える時間帯を求めるピーク時間帯検出手段と、音声信号を周波数領域の信号へ変換する周波数変換手段と、閾値を超える時間帯における周波数領域の信号から音響モデルを作成する音響モデル作成手段とを備えていてもかまわない。   In the second feature, the acoustic model means includes a filter means for passing a specific frequency band of the audio signal, a power value detecting means for obtaining a power value of the audio signal in the specific frequency band, and a power value of the audio signal being predetermined. A peak time zone detecting means for obtaining a time zone exceeding a threshold value, a frequency converting means for converting an audio signal into a frequency domain signal, and an acoustic model creating means for creating an acoustic model from the frequency domain signal in a time zone exceeding the threshold value It does not matter if it is equipped with.

本発明によれば、個々の音響モデルを作成することにより音声の分類精度が向上する音声分類装置及びコンピュータプログラムを提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the audio | voice classification | category apparatus and computer program which improve the audio | voice classification | category precision by producing each acoustic model can be provided.

以下図面を参照して、本発明の実施の形態を説明する。図面の記載において同一部分には同一符号を付している。   Embodiments of the present invention will be described below with reference to the drawings. In the description of the drawings, the same parts are denoted by the same reference numerals.

(第1の実施の形態)
図1を参照して、本発明の第1の実施の形態に係わる音声分類装置(DSP音解析部4)を含む映像記録再生装置20の全体構成を説明する。映像記録再生装置20は、デジタルチューナ1が受信したマルチメディアコンテンツに対応するストリームに含まれる映像データと音声データを各々分離する音声分離部2と、音声データを復号する音声デコーダ3と、複合された音声信号に含まれる音声の種類を識別して分類するDSP音解析部4と、DSP音解析部4が作成した音響モデルを一時的に記憶するRAM12と、予め学習された音響モデルを分類番号を付して継続的に記憶するROM13と、DSP音解析部4で得られた結果をHDD−IF(ハードディスクドライブ−インターフェース)7を通して読み出してプレイリストを作成するCPU(中央演算処理装置)5と、符号化された映像データと音声データを復号し、映像信号はモニタ9、音声信号はスピーカ10に出力するA/Vデコーダ6と、HDD−IF7を通して受信したマルチメディアコンテンツに対応するストリームを記憶するHDD(ハードディスクドライブ)8と、HDD−IF7とを備える。デジタルチューナ1は放送波を受信する。モニタ9は入力された映像信号を表示し、スピーカ10は入力された音声信号を再生する。
(First embodiment)
With reference to FIG. 1, an overall configuration of a video recording / reproducing apparatus 20 including an audio classification apparatus (DSP sound analysis unit 4) according to the first embodiment of the present invention will be described. The video recording / reproducing apparatus 20 is combined with an audio separation unit 2 that separates video data and audio data included in a stream corresponding to multimedia content received by the digital tuner 1 and an audio decoder 3 that decodes audio data. A DSP sound analysis unit 4 that identifies and classifies the type of sound included in the received sound signal, a RAM 12 that temporarily stores an acoustic model created by the DSP sound analysis unit 4, and a classification number for a previously learned acoustic model ROM 13 for storing continuously, CPU (Central Processing Unit) 5 for reading out the results obtained by DSP sound analysis unit 4 through HDD-IF (Hard Disk Drive Interface) 7 and creating a playlist, The encoded video data and audio data are decoded, and the video signal is output to the monitor 9 and the audio signal is output to the speaker 10. That includes an A / V decoder 6, a HDD (hard disk drive) 8 for storing a stream corresponding to multimedia content received through HDD-IF7, the HDD-IF7. The digital tuner 1 receives a broadcast wave. The monitor 9 displays the input video signal, and the speaker 10 reproduces the input audio signal.

音声分離部2と、音声デコーダ3と、DSP音解析部4と、RAM12と、ROM13と、CPU5と、A/Vデコーダ6と、HDD−IF7は、バス11を介して接続されている。   The sound separation unit 2, the sound decoder 3, the DSP sound analysis unit 4, the RAM 12, the ROM 13, the CPU 5, the A / V decoder 6, and the HDD-IF 7 are connected via a bus 11.

なお、本発明の第1の実施の形態に係わる音声分類装置は、DSP音解析部4に相当する。   Note that the speech classification apparatus according to the first embodiment of the present invention corresponds to the DSP sound analysis unit 4.

デジタルチューナ1は、放送波を受信しチャンネル毎の符号化されたストリームを出力する。出力されたストリームは音声分離部2へと転送される。また同時にHDD−IF7を通してHDD8に記録される。音声分離部2は、入力されたストリームを映像データと音声データに分離する。分離された音声データは音声デコーダ3へ転送される。音声デコーダ3は入力された音声データを復号し、復号された音声信号をDSP音解析部4に転送する。   The digital tuner 1 receives broadcast waves and outputs an encoded stream for each channel. The output stream is transferred to the audio separation unit 2. At the same time, it is recorded in the HDD 8 through the HDD-IF 7. The audio separation unit 2 separates the input stream into video data and audio data. The separated audio data is transferred to the audio decoder 3. The audio decoder 3 decodes the input audio data, and transfers the decoded audio signal to the DSP sound analysis unit 4.

図2を参照して、図1のDSP音解析部4(音声分類装置)の詳細な構成を説明する。DSP音解析部4は、音声信号から前記の音声信号に含まれる特定の音声の音響モデルを作成する音響モデル部(音響モデル手段)21と、作成された音響モデルを用いて上記の音声信号を分類する音声分類部(音声分類手段)22とを備える。   With reference to FIG. 2, the detailed configuration of the DSP sound analysis unit 4 (speech classification device) in FIG. 1 will be described. The DSP sound analysis unit 4 generates an acoustic model unit (acoustic model means) 21 that creates an acoustic model of a specific speech included in the speech signal from the speech signal, and the speech signal using the created acoustic model. A voice classification unit (voice classification means) 22 for classification is provided.

音響モデル部21は、音声信号の特定の周波数帯域を通過させるフィルタ部(フィルタ手段)26と、特定の周波数帯域における音声信号のパワー値を求めるパワー値検出部(パワー値検出手段)27と、音声信号のパワー値が所定の閾値を超える時間帯を求めるピーク時間帯検出部(ピーク時間帯検出手段)28と、音声信号を周波数領域の信号へ変換する周波数変換部(周波数変換手段)29と、閾値を超える時間帯における周波数領域の信号から音響モデルを作成する音響モデル作成部(音響モデル作成手段)30とを備える。   The acoustic model unit 21 includes a filter unit (filter unit) 26 that passes a specific frequency band of the audio signal, a power value detection unit (power value detection unit) 27 that obtains a power value of the audio signal in the specific frequency band, A peak time zone detector (peak time zone detector) 28 for obtaining a time zone in which the power value of the audio signal exceeds a predetermined threshold; a frequency converter (frequency converter) 29 for converting the audio signal into a frequency domain signal; And an acoustic model creation unit (acoustic model creation means) 30 for creating an acoustic model from a signal in a frequency domain in a time zone exceeding the threshold.

図4を参照して、音声信号からピーク時間帯を求めるまでの音声信号の変化の様子を説明する。フィルタ部26により処理された音声信号P1の時刻に対する音声信号の振幅値が、図4に示すようなプロファイルを取った場合を考える。パワー値検出部27が、(1)式に従って、音声信号P1のパワー値pを求める処理を実施することにより、図4に示す音声信号P2が得られる。   With reference to FIG. 4, the state of the change of the audio signal until the peak time zone is obtained from the audio signal will be described. Consider a case where the amplitude value of the audio signal with respect to the time of the audio signal P1 processed by the filter unit 26 has a profile as shown in FIG. The power value detection unit 27 performs processing for obtaining the power value p of the audio signal P1 according to the equation (1), so that the audio signal P2 shown in FIG. 4 is obtained.

(1)式に示すように、パワー値pは、ある期間における音声信号の振幅値の二乗平均値である。x[k]は音声信号の振幅値であり、kはサンプリング周波数を示す変数である。パワー値pは、k=0〜N−1の総ての整数について、音声信号の振幅値x[k]をそれぞれ二乗し、N個の二乗した音声信号の振幅値x[k]を総て足し合わせ、足し合わせた結果である合計値をNで除算することにより算出される。なお、Nは任意の自然数である。   As shown in the equation (1), the power value p is a mean square value of the amplitude values of the audio signal in a certain period. x [k] is the amplitude value of the audio signal, and k is a variable indicating the sampling frequency. The power value p is obtained by squaring the amplitude value x [k] of the audio signal for all integers k = 0 to N−1, and all the amplitude values x [k] of the N squared audio signals. It is calculated by adding and dividing the total value, which is the result of the addition, by N. N is an arbitrary natural number.

ピーク時間帯検出部28は、音声信号P2に対して所定の閾値を設定し、音声信号のパワー値が所定の閾値を超える時間帯を求める。時刻t1〜t2、t3〜t4、・・・までの時間帯は、ピーク時間帯35となる。   The peak time zone detection unit 28 sets a predetermined threshold for the audio signal P2, and obtains a time zone in which the power value of the audio signal exceeds the predetermined threshold. The time zone from time t1 to t2, t3 to t4,...

図3、図5〜図7及び図14を参照して、音響モデルを作成する時、音声信号を分類する時、及びコンテンツを再生する時の図1の映像記録再生装置20の動作を説明する。   The operation of the video recording / reproducing apparatus 20 of FIG. 1 when creating an acoustic model, classifying an audio signal, and reproducing content will be described with reference to FIGS. 3, 5 to 7, and 14. .

[音響モデル作成時の動作:図3、図5及び図14(a)]
デジタルチューナ1が受信した放送波から得られるコンテンツに対応するストリームは、音声分離部2により音声データと映像データに分類される(S101a)。音声デコーダ3が、音声データを復号して音声信号を生成する(S101b)。フィルタ部26は、特定の周波数帯域を通過させるバンドパスフィルタを用いて、特定の周波数帯域の音声信号だけを取り出し(S102)、パワー値検出部27が特定の周波数帯域の音声信号のパワー値を求める、つまり音声をパワー信号へ変換する(S103)。ピーク時間帯検出部28は音声のパワー信号の極大値のうち、ある閾値以上になる時間帯(開始時刻及び終了時刻)を検出する(S105)。一方、周波数変換部29が生の音声信号を周波数領域の信号へ変換し、特徴量抽出部31が、検出された時間帯における周波数領域の信号を抽出する(S106)。抽出された周波数領域の信号(特徴量)は、特徴量記憶部(RAM12)に一時的に記憶される(S107)。なお、特徴量としては、例えば音声認識でよく用いられるメル周波数スペクトラム係数(MFCC)を用いることができる。上記のS105〜S107を、コンテンツが終わるまで実施する。そして、コンテンツ終端検出部32がコンテンツの終わりを検出した場合(S104にてYES)、S108へ進み、特徴量読み出し部45が特徴量記憶部(RAM12)から特徴量を読み出し、音響モデル作成部30は、特徴量を学習データとして音響モデルを作成する(S108)。作成された音響モデルは音響モデル記憶部(RAM12)に記憶される(S109)。
[Operation when creating an acoustic model: FIG. 3, FIG. 5 and FIG. 14 (a)]
The stream corresponding to the content obtained from the broadcast wave received by the digital tuner 1 is classified into audio data and video data by the audio separation unit 2 (S101a). The audio decoder 3 decodes the audio data and generates an audio signal (S101b). The filter unit 26 extracts only the audio signal in the specific frequency band using a bandpass filter that passes the specific frequency band (S102), and the power value detection unit 27 determines the power value of the audio signal in the specific frequency band. In other words, the sound is converted into a power signal (S103). The peak time zone detection unit 28 detects a time zone (start time and end time) that exceeds a certain threshold among the maximum values of the audio power signal (S105). On the other hand, the frequency conversion unit 29 converts the raw audio signal into a frequency domain signal, and the feature amount extraction unit 31 extracts the frequency domain signal in the detected time zone (S106). The extracted frequency domain signal (feature amount) is temporarily stored in the feature amount storage unit (RAM 12) (S107). As the feature amount, for example, a mel frequency spectrum coefficient (MFCC) often used in speech recognition can be used. The above steps S105 to S107 are performed until the content ends. If the content end detection unit 32 detects the end of the content (YES in S104), the process proceeds to S108, where the feature amount reading unit 45 reads the feature amount from the feature amount storage unit (RAM 12), and the acoustic model creation unit 30. Creates an acoustic model using the feature value as learning data (S108). The created acoustic model is stored in the acoustic model storage unit (RAM 12) (S109).

図14(a)は、S102において、フィルタ部26が特定の周波数帯域の音声信号だけを取り出す際に使用するフィルタを例示するテーブルである。例えば、笛のフィルタは、笛の音に対応する特定の周波数帯域の音声信号だけを取り出す機能を有する。よって、笛の音に対応する特定の周波数帯域の音声信号だけを取り出すことにより、音響モデル作成部30は、取り出された音声信号に基づいて、笛の音響モデルを作成することができる。同様に、音楽、行司、・・・のフィルタを用いることにより、音楽、行司、・・・の音響モデルを作成することができる。第1の実施の形態において、音響モデル作成時に使用するフィルタは、予め設定されている。   FIG. 14A is a table illustrating a filter used when the filter unit 26 extracts only an audio signal in a specific frequency band in S102. For example, the whistle filter has a function of extracting only an audio signal of a specific frequency band corresponding to the sound of the whistle. Therefore, by extracting only the sound signal of a specific frequency band corresponding to the sound of the whistle, the acoustic model creating unit 30 can create the sound model of the whistle based on the extracted sound signal. Similarly, an acoustic model of music, manager,... Can be created by using a filter of music, manager,. In the first embodiment, the filter used when creating the acoustic model is set in advance.

[音声信号分類時の動作:図3、図6及び図14(b)]
コンテンツ読み出し部46がHDD(コンテンツ記憶部)8からコンテンツに対応するストリームを読み出し(S201)、音声分離部2が音声データを抽出する(S202a)。そして、音声デコーダ3が音声データを復号して音声信号を生成した(S202b)後、周波数変換部29が、音声信号を周波数領域の信号へ変換する(S203)。そして、音響モデル読み出し部47がROM13及びRAM12からそれぞれ音響モデルを読み出し、音声分類部22は、読み出された音響モデルと入力された周波数領域の信号(特徴量)との尤度を尤度関数から計算し、尤度が最大となるモデルのラベルと時刻を分類結果記憶部(HDD8)に記録する(S204)。なお、「ラベル」とは分類番号である。また、「時刻」は、入力された周波数領域の信号と音響モデルとの比較において、入力信号の開始位置を示す時刻とする。第2及び第3の実施の形態においても同様とする。
[Operation at the time of audio signal classification: FIG. 3, FIG. 6 and FIG. 14 (b)]
The content reading unit 46 reads a stream corresponding to the content from the HDD (content storage unit) 8 (S201), and the audio separation unit 2 extracts audio data (S202a). Then, after the audio decoder 3 decodes the audio data to generate an audio signal (S202b), the frequency converter 29 converts the audio signal into a frequency domain signal (S203). Then, the acoustic model reading unit 47 reads the acoustic model from the ROM 13 and the RAM 12, respectively, and the speech classification unit 22 calculates the likelihood between the read acoustic model and the input frequency domain signal (feature amount) as a likelihood function. And the label and time of the model with the maximum likelihood are recorded in the classification result storage unit (HDD 8) (S204). “Label” is a classification number. The “time” is a time indicating the start position of the input signal in the comparison between the input frequency domain signal and the acoustic model. The same applies to the second and third embodiments.

図14(b)は、S204において、音響モデル読み出し部47がROM13及びRAM12からそれぞれ読み出した音響モデルを例示するテーブルである。図14(b)中の「動的に作成される音響モデル」とは、本発明の実施の形態において、作成される音響モデルを指し、「静的な音響モデル」とは、予め作成された音響モデルを指す。音声分類部22は、例えば、RAM12から読み出された笛の音響モデルと、ROM13から読み出された歓声の音響モデルを用いて、音声信号を笛の部分と歓声の部分に分類する。第1の実施の形態において、音声信号分類時に使用する音響モデルは、予め設定されている。   FIG. 14B is a table illustrating the acoustic models read out from the ROM 13 and the RAM 12 by the acoustic model reading unit 47 in S204. The “dynamically created acoustic model” in FIG. 14B refers to the acoustic model created in the embodiment of the present invention, and the “static acoustic model” is created in advance. An acoustic model. The voice classification unit 22 classifies the voice signal into a whistle part and a cheer part using, for example, a whistle acoustic model read from the RAM 12 and a cheer acoustic model read from the ROM 13. In the first embodiment, the acoustic model used at the time of audio signal classification is set in advance.

[コンテンツ再生時の動作:図3及び図7]
ユーザ入力部48が、ユーザのコンテンツの再生を指示する入力を受けると、分類結果・時刻検出部33がHDD8から、再生指示を受けたコンテンツに対応するラベルと時刻を読み出し(S301)、プレイリスト作成部34が読み出されたラベルと時刻を用いて、所定のルールに基づいてダイジェスト再生用のプレイリストを作成する(S302)。そして、コンテンツ読み出し部46がコンテンツに対応するストリームを読み出し、再生制御部49が、作成されたプレイリストに基づいて、該当するデータ(ストリーム)を再生する(S303)。なお、上記の所定のルールとは、ダイジェスト再生にあたり、どの特徴を用いて再生するか、即ち、予めどのラベルを採用してダイジェスト再生の箇所とするか、など、決められたものをいう。
[Operation during content playback: FIGS. 3 and 7]
When the user input unit 48 receives an input for instructing reproduction of the user's content, the classification result / time detection unit 33 reads the label and time corresponding to the content for which the reproduction instruction has been received from the HDD 8 (S301), and the playlist. Using the read label and time, the creation unit 34 creates a playlist for digest reproduction based on a predetermined rule (S302). Then, the content reading unit 46 reads the stream corresponding to the content, and the reproduction control unit 49 reproduces the corresponding data (stream) based on the created playlist (S303). Note that the above-mentioned predetermined rule, when the digest playback, or playback using any features, i.e., whether the location of the digest reproduction adopted in advance which labels, etc., refers to one determined.

以上説明したように、本発明の第1の実施の形態によれば以下の作用効果が得られる。   As described above, according to the first embodiment of the present invention, the following operational effects can be obtained.

図2の音響モデル部21が音声信号から当該音声信号に含まれる特定の音声の音響モデルを作成し、音声分類部22がこの音響モデルを用いて音声信号を分類する。つまり、音声信号から音響モデルを逐次作成し、作成された音響モデルを用いて音声信号を分類する。これにより、予め音響モデルを作成して継続的に保持する必要がなくなり、音響モデルのパラメータ分のデータ容量を削減することができる。すなわち、事前に用意する音響モデルを減らすことにより、これを保持するために必要な記憶容量を軽減することができる。また、音声信号の環境に適応した音響モデルを作成できるため、音声信号の分類精度が向上する。   The acoustic model unit 21 in FIG. 2 creates an acoustic model of a specific voice included in the voice signal from the voice signal, and the voice classification unit 22 classifies the voice signal using the acoustic model. That is, an acoustic model is sequentially created from the speech signal, and the speech signal is classified using the created acoustic model. This eliminates the need to create and continuously store an acoustic model in advance, and reduce the data capacity for the parameters of the acoustic model. That is, by reducing the number of acoustic models prepared in advance, it is possible to reduce the storage capacity required to hold this model. In addition, since an acoustic model adapted to the environment of the audio signal can be created, the accuracy of classification of the audio signal is improved.

フィルタ部26が音声信号の特定の周波数帯域を通過させ、パワー値検出部27がフィルタ部26を通過した音声信号のパワー値を求め、ピーク時間帯検出部28が音声信号のパワー値が所定の閾値を超える時間帯を求め、周波数変換部29が音声信号を周波数領域の信号へ変換し、音響モデル作成部30が閾値を超える時間帯における周波数領域の信号(特徴量)から音響モデルを作成する。音響モデルのパラメータは記憶容量が大きいため、多くの音響モデルを継続的に保持することができない。そこで、音響モデルを予め用意するのではなく、音響モデルに対応する特定の周波数帯域を通過させるフィルタ部26を用意し、フィルタ部26を用いて音声信号から音響モデルを作成する。フィルタ部26の記憶容量は音響モデルのパラメータに比べて非常に小さいため、記憶容量の削減の効果が得られる。また、音声信号のパワー値のピークのうち閾値を超える時間帯を検出し、その時間帯における周波数領域の信号を用いて音響モデルを作成する。これにより、不必要なデータを減らして必要なデータからのみ音響モデルを作成でき、品質の高い音響モデルを作成することができる。   The filter unit 26 passes a specific frequency band of the audio signal, the power value detection unit 27 obtains the power value of the audio signal that has passed the filter unit 26, and the peak time zone detection unit 28 sets the power value of the audio signal to a predetermined value. A time zone exceeding the threshold is obtained, the frequency conversion unit 29 converts the audio signal into a frequency domain signal, and the acoustic model creation unit 30 creates an acoustic model from the frequency domain signal (feature) in the time zone exceeding the threshold. . Since the parameters of the acoustic model have a large storage capacity, many acoustic models cannot be continuously maintained. Therefore, an acoustic model is not prepared in advance, but a filter unit 26 that passes a specific frequency band corresponding to the acoustic model is prepared, and an acoustic model is created from an audio signal using the filter unit 26. Since the storage capacity of the filter unit 26 is very small compared to the parameters of the acoustic model, an effect of reducing the storage capacity can be obtained. In addition, a time zone exceeding a threshold is detected from the power value peaks of the audio signal, and an acoustic model is created using a signal in the frequency domain in that time zone. Thereby, unnecessary data can be reduced, an acoustic model can be created only from necessary data, and a high-quality acoustic model can be created.

通常、音声分類部22は、少なくとも2つの音響モデルを用いて音声信号を相対的に識別して分類する。よって、2以上の音響モデルを用意する必要がある。そこで、フィルタ部26が各々異なる周波数帯域を通過させる2以上のフィルタを備え、音響モデル作成部30が、この2以上のフィルタを用いて2以上の音響モデルを作成することにより、音声分類部22は、この2以上の音響モデルを用いて音声信号を分類することができる。よって、フィルタ部26が2以上のフィルタを備えることにより、2以上の音響モデルが作成され、この2以上の音響モデルを用いて音声信号の分類が可能となるため、従来のように音響モデルを継続的に保持する必要がなくなり、データ容量を削減することができる。   Usually, the voice classification unit 22 relatively identifies and classifies the voice signal using at least two acoustic models. Therefore, it is necessary to prepare two or more acoustic models. Therefore, the filter unit 26 includes two or more filters that allow different frequency bands to pass, and the acoustic model creation unit 30 creates two or more acoustic models using the two or more filters. Can classify an audio signal using the two or more acoustic models. Therefore, since the filter unit 26 includes two or more filters, two or more acoustic models are created, and the audio signal can be classified using the two or more acoustic models. There is no need to keep the data continuously, and the data capacity can be reduced.

周波数変換部29により変換された周波数領域の信号で音声の分類を行っているため、音声パワーに依存しないダイジェスト再生を作成することができ、より高品質なダイジェストが生成される。   Since audio classification is performed using the frequency domain signals converted by the frequency conversion unit 29, digest reproduction independent of audio power can be created, and a higher quality digest can be generated.

このように、従来の技術では、予め音響モデルを保持しておくが、音声信号が入力された際に人間が同じ種類の音だと認識していても、学習データとして似た音声信号が入っていなければ音声信号の認識率が悪くなっていた。また、音響モデルを増やすにつれパラメータを記録するための記録容量が必要となっていた。本発明の第1の実施の形態によれば、HDD8に蓄積されたコンテンツに対応するストリームにおいて、一つのコンテンツの音声信号から特定の音声を学習データとして利用して音響モデルを作成し、再度音響モデルを用いて音声信号を分類し主なシーンだけをとりだした(ダイジェストを作成した)動画や音声を作成する装置を実現できる。一つのコンテンツから特定の音の音響モデルを作成することで、従来より音声の分類の精度が向上し、音響モデルを使用する領域を減らすことが可能となる。   As described above, in the conventional technology, an acoustic model is stored in advance. However, even when a human recognizes that the sound is the same type when the audio signal is input, a similar audio signal is input as learning data. If not, the speech signal recognition rate was poor. Further, as the number of acoustic models increases, a recording capacity for recording parameters is required. According to the first embodiment of the present invention, in the stream corresponding to the content stored in the HDD 8, an acoustic model is created by using specific speech as learning data from the audio signal of one content, and the acoustic model is again generated. It is possible to realize an apparatus for creating a moving image or sound in which audio signals are classified using models and only main scenes are extracted (digest is created). By creating an acoustic model of a specific sound from one content, it is possible to improve the accuracy of speech classification than before and reduce the area where the acoustic model is used.

(第2の実施の形態)
図8に示すように、音声分類装置(DSP音解析部4)は、コンテンツから当該コンテンツのジャンルを決定するコンテンツジャンル抽出部36(コンテンツジャンル抽出手段)と、コンテンツのジャンルに基づいてフィルタ部26が用いるフィルタを決定するフィルタ決定部38と、予め作成された音響モデルを保持する音響モデル記憶部(音響モデル記憶手段)とを更に備える。コンテンツジャンル抽出部36は、EPGやユーザの手入力によって、コンテンツのジャンルを取得する。そして、コンテンツとジャンルは、対応づけられて記憶される。フィルタ決定部38は、その内部にジャンルとこれに対応するバンドパスフィルタとの関係を示す情報を有し、フィルタ部26が使用するフィルタ(バンドパスフィルタ)を決定する。
(Second Embodiment)
As shown in FIG. 8, the audio classification device (DSP sound analysis unit 4) includes a content genre extraction unit 36 (content genre extraction means) that determines the genre of the content from the content, and a filter unit 26 based on the genre of the content. Further includes a filter determination unit 38 that determines a filter used by and an acoustic model storage unit (acoustic model storage unit) that holds a previously created acoustic model. The content genre extraction unit 36 acquires the genre of the content by EPG or manual input by the user. The content and genre are stored in association with each other. The filter determination unit 38 has information indicating the relationship between the genre and the bandpass filter corresponding to the genre and determines a filter (bandpass filter) used by the filter unit 26.

図8〜図10及び図15を参照して、音響モデルを作成する時、及び音声信号を分類する時の図1の映像記録再生装置20の動作を説明する。なお、コンテンツを再生する時の動作は、図7と同じため、図示及び説明を省略する。   The operation of the video recording / reproducing apparatus 20 in FIG. 1 when creating an acoustic model and classifying an audio signal will be described with reference to FIGS. Since the operation when reproducing the content is the same as that in FIG. 7, illustration and description thereof are omitted.

[音響モデル作成時の動作:図8、図9及び図15]
コンテンツジャンル抽出部36がEPGなどからコンテンツのジャンル情報を取得し、フィルタ決定部38がジャンル情報に基づいてフィルタ部26が使用するバンドパスフィルタを決定する(S401)。例えば、コンテンツがサッカーの試合であれば、即ち、コンテンツのジャンルがサッカーの場合、笛のバンドパスフィルタが選ばれる。デジタルチューナ1が受信した放送波から得られるコンテンツに対応するストリームは、音声分離部2により音声データと映像データに分類される(S402a)。音声デコーダ3が音声データを復号して音声信号を生成した(S402b)後、フィルタ部26は、フィルタ決定部38により決定されたバンドパスフィルタを用いて、特定の周波数帯域の音声信号だけを取り出す(S403)。なお、使用されたバンドパスフィルタの情報はRAM12に記録される(S404)。また、コンテンツに対応するストリームがHDD8に記録される際にジャンル情報が、このストリームと対応づけられてHDD8に記録される。そして、パワー値検出部27が特定の周波数帯域の音声信号のパワー値を求める、つまり音声信号をパワー信号へ変換する(S405)。ピーク時間帯検出部28は音声のパワー信号の極大値のうち、ある閾値以上になる時間帯(開始時刻及び終了時刻)を検出する(S407)。一方、周波数変換部29が生の音声信号を周波数領域の信号へ変換し、特徴量抽出部31が、検出された時間帯における周波数領域の信号を抽出する(S408)。抽出された周波数領域の信号(特徴量)は、特徴量記憶部(RAM12)に一時的に記憶される(S409)。上記のS407〜S409を、コンテンツに対応するストリームが終わるまで実施する。そして、コンテンツ終端検出部32がコンテンツに対応するストリームの終わりを検出した場合(S406にてYES)、S410へ進み、特徴量読み出し部45は、特徴量記憶部(RAM12)から特徴量を読み出し、音響モデル作成部30は、特徴量から学習データとして音響モデルを作成する(S410)。作成された音響モデルは音響モデル記憶部(RAM12)に記憶される(S411)。
[Operation when creating acoustic model: FIGS. 8, 9 and 15]
The content genre extraction unit 36 acquires content genre information from EPG or the like, and the filter determination unit 38 determines a bandpass filter used by the filter unit 26 based on the genre information (S401). For example, if the content is a soccer game, that is, if the content genre is soccer, a whistle bandpass filter is selected. The stream corresponding to the content obtained from the broadcast wave received by the digital tuner 1 is classified into audio data and video data by the audio separation unit 2 (S402a). After the audio decoder 3 decodes the audio data and generates an audio signal (S402b), the filter unit 26 extracts only an audio signal in a specific frequency band using the bandpass filter determined by the filter determination unit 38. (S403). Information on the used bandpass filter is recorded in the RAM 12 (S404). Further, when a stream corresponding to the content is recorded on the HDD 8, genre information is recorded on the HDD 8 in association with this stream. Then, the power value detection unit 27 obtains the power value of the audio signal in the specific frequency band, that is, converts the audio signal into a power signal (S405). The peak time zone detection unit 28 detects a time zone (start time and end time) that exceeds a certain threshold among the maximum values of the audio power signal (S407). On the other hand, the frequency conversion unit 29 converts the raw audio signal into a frequency domain signal, and the feature amount extraction unit 31 extracts the frequency domain signal in the detected time zone (S408). The extracted frequency domain signal (feature amount) is temporarily stored in the feature amount storage unit (RAM 12) (S409). The above steps S407 to S409 are performed until the stream corresponding to the content ends. If the content end detection unit 32 detects the end of the stream corresponding to the content (YES in S406), the process proceeds to S410, and the feature amount reading unit 45 reads the feature amount from the feature amount storage unit (RAM 12), The acoustic model creation unit 30 creates an acoustic model as learning data from the feature amount (S410). The created acoustic model is stored in the acoustic model storage unit (RAM 12) (S411).

図15(a)のテーブルは、S401においてフィルタ決定部38が使用する、ジャンルと音響モデル作成時に使用するフィルタとの関係の一例を示すテーブルである。フィルタ決定部38は、コンテンツジャンル抽出部36が抽出したジャンル情報に基づいてフィルタ部26が使用するバンドパスフィルタを決定する。例えば、ジャンルがサッカーである場合、笛のフィルタを用いて笛の音響モデルを作成し、音楽、行司のフィルタは使用しない。同様に、ジャンルが相撲、音楽、・・・であれば、行司、音楽のフィルタを用いて行司、音楽の音響モデルをそれぞれ作成する。このように、第2の実施の形態において、音響モデル作成時に使用するフィルタは、ジャンルによって決定される。   The table in FIG. 15A is a table showing an example of the relationship between the genre and the filter used when creating the acoustic model, which is used by the filter determination unit 38 in S401. The filter determination unit 38 determines a band pass filter used by the filter unit 26 based on the genre information extracted by the content genre extraction unit 36. For example, when the genre is soccer, an acoustic model of a whistle is created using a whistle filter, and a music and an executive filter are not used. Similarly, if the genre is sumo, music,..., The boss and music acoustic models are created using the boss and music filters, respectively. Thus, in the second embodiment, the filter used when creating the acoustic model is determined by the genre.

[音声信号分類時の動作:図8、図10及び図15]
コンテンツ読み出し部46が、HDD(コンテンツ記憶部)8からコンテンツに対応するストリームを読み出し(S501)、音声分離部2が音声データを抽出する(S502a)、そして、音声デコーダ3が音声データを復号して音声信号を生成した(S502b)後、周波数変換部29が、音声信号を周波数領域の信号へ変換する(S503)。そして、コンテンツ読み出し部46がHDD8に記録されたジャンル情報を読み出す(S504)。ジャンル情報は、コンテンツ記録時に、コンテンツと対応付けられて記録される。そして、音響モデル読み出し部47は、ジャンルに応じた音響モデルを音響モデル記憶部(ROM13)及び音響モデル記憶部(RAM12)から選択する(S505)。例えば、ジャンルがサッカーの場合、サッカーの試合で必要となる音響モデル(歓声やアナウンサーなど)が選択される。音声分類部22は、読み出された音響モデルと入力された周波数領域の信号(特徴量)との尤度を尤度関数から計算し、尤度が最大となるモデルのラベルと時刻を分類結果記憶部(HDD8)に記録する(S506)。
[Operation at the time of audio signal classification: FIG. 8, FIG. 10 and FIG. 15]
The content reading unit 46 reads a stream corresponding to the content from the HDD (content storage unit) 8 (S501), the audio separation unit 2 extracts the audio data (S502a), and the audio decoder 3 decodes the audio data. After the voice signal is generated (S502b), the frequency converter 29 converts the voice signal into a frequency domain signal (S503). Then, the content reading unit 46 reads the genre information recorded in the HDD 8 (S504). Genre information is recorded in association with content during content recording. Then, the acoustic model reading unit 47 selects an acoustic model corresponding to the genre from the acoustic model storage unit (ROM 13) and the acoustic model storage unit (RAM 12) (S505). For example, when the genre is soccer, an acoustic model (such as a cheer or an announcer) required for a soccer game is selected. The speech classification unit 22 calculates the likelihood of the read acoustic model and the input frequency domain signal (feature amount) from a likelihood function, and classifies the label and time of the model with the maximum likelihood as a result of classification. The data is recorded in the storage unit (HDD 8) (S506).

図15(b)は、S505において音響モデル読み出し部47が使用する、ジャンルと音声信号分類時に使用する音響モデルとの関係の一例を示すテーブルである。図15(b)中の「動的に作成される音響モデル」とは、本発明の実施の形態において、作成される音響モデルを指し、「静的な音響モデル」とは、予め作成された音響モデルを指す。音声分類部22は、コンテンツジャンル抽出部36が抽出したジャンル情報に基づいて、使用する音響モデルを決定する。例えば、ジャンルがサッカーである場合、笛の音響モデル及び歓声の音響モデルを用いて音声信号を分類し、音楽、行司の音響モデルは使用しない。同様に、ジャンルが相撲であれば、行司の音響モデル及び歓声の音響モデルを用いて音声信号を分類し、ジャンルが音楽であれば、音楽の音響モデルを用いて音声信号を分類する。このように、第2の実施の形態において、音声信号分類時に使用する音響モデルは、ジャンルによって決定される。   FIG. 15B is a table showing an example of the relationship between the genre and the acoustic model used at the time of audio signal classification used by the acoustic model reading unit 47 in S505. The “dynamically created acoustic model” in FIG. 15B refers to the acoustic model created in the embodiment of the present invention, and the “static acoustic model” is created in advance. An acoustic model. The audio classification unit 22 determines an acoustic model to be used based on the genre information extracted by the content genre extraction unit 36. For example, when the genre is soccer, the sound signal is classified using the acoustic model of the whistle and the cheering acoustic model, and the acoustic model of music and the manager is not used. Similarly, if the genre is a sumo, the audio signal is classified using the Gyoji's acoustic model and the cheering acoustic model, and if the genre is music, the audio signal is classified using the musical acoustic model. Thus, in the second embodiment, the acoustic model used at the time of audio signal classification is determined by the genre.

以上説明したように、本発明の第2の実施の形態によれば以下の作用効果が得られる。   As described above, according to the second embodiment of the present invention, the following operational effects can be obtained.

コンテンツジャンル抽出部36がコンテンツのジャンルを決定し、フィルタ決定部38がコンテンツのジャンルに基づいてフィルタ部26が用いるフィルタを決定する。コンテンツのジャンルに基づいてフィルタを決定することにより、ジャンルに応じてフィルタを使い分けることができ、音響モデル部21における計算量を軽減し、音声信号の分類精度が更に向上する。   The content genre extraction unit 36 determines the genre of the content, and the filter determination unit 38 determines the filter used by the filter unit 26 based on the genre of the content. By determining the filter based on the genre of the content, the filter can be used properly according to the genre, the amount of calculation in the acoustic model unit 21 is reduced, and the classification accuracy of the audio signal is further improved.

予め作成された音響モデルを保持する音響モデル記憶部(ROM13)を備えることにより、予め作成された一般的な音響モデルを持つことができ、音響モデル部21における計算量を減らすことができる。   By providing the acoustic model storage unit (ROM 13) that holds the acoustic model created in advance, it is possible to have a general acoustic model created in advance, and the amount of calculation in the acoustic model unit 21 can be reduced.

(第3の実施の形態)
図11に示すように、フィルタ部26が備える2以上のフィルタに、特定の周波数帯域を通過させる帯域通過フィルタ(バンドパスフィルタ)42と、特定の周波数帯域以外を通過させる帯域除去フィルタ(バンドエリミネーションフィルタ)41とが含まれる場合について説明する。
(Third embodiment)
As shown in FIG. 11, two or more filters included in the filter unit 26 are passed through a bandpass filter (bandpass filter) 42 that passes a specific frequency band and a band elimination filter (band elimination filter) that passes a band other than the specific frequency band. (Nation filter) 41 will be described.

図11〜図13、図16を参照して、音響モデルを作成する時、及び音声信号を分類する時の図1の映像記録再生装置20の動作を説明する。なお、コンテンツを再生する時の動作は、図7と同じため、図示及び説明を省略する。   The operation of the video recording / reproducing apparatus 20 in FIG. 1 when creating an acoustic model and classifying an audio signal will be described with reference to FIGS. Since the operation when reproducing the content is the same as that in FIG. 7, illustration and description thereof are omitted.

[音響モデル作成時の動作:図11、図12及び図16]
デジタルチューナ1が受信した放送波から得られるコンテンツに対応するストリームは、音声分離部2により音声データと映像データに分類される(S601a)。音声デコーダ3が、音声データを復号して音声信号を生成する(S601b)。フィルタ部26は、バンドパスフィルタ42及びバンドエリミネーションフィルタ41を用いて、特定の周波数帯域の音声信号及び特定の周波数帯域以外の音声信号をそれぞれ取り出し(S602)、パワー値検出部27が特定の周波数帯域の音声信号及び特定の周波数帯域以外の音声信号のパワー値をそれぞれ求める、つまり音声信号をパワー信号へ変換する(S603)。ピーク時間帯検出部28は音声のパワー信号の極大値のうち、ある閾値以上になる時間帯(開始時刻及び終了時刻)を検出する(S605)。一方、周波数変換部29が生の音声信号を周波数領域の信号へ変換し、特徴量抽出部31が、検出された時間帯における周波数領域の信号を抽出する(S606)。抽出された周波数領域の信号(特徴量)は、特徴量記憶部(RAM12)に一時的に記憶される(S607)。上記のS605〜S607を、コンテンツに対応するストリームが終わるまで実施する。そして、コンテンツ終端検出部32がコンテンツに対応するストリームの終わりを検出した場合(S604にてYES)、S608へ進み、特徴量読み出し部45が、コンテンツ読み出し部46から特徴量を読み出し、音響モデル作成部30が、特徴量を学習データとして音響モデルを作成する(S608)。音響モデルは、バンドパスフィルタ42及びバンドエリミネーションフィルタ41にそれぞれ対応している。作成された音響モデルは共に音響モデル記憶部(RAM12)に記憶される(S609)。
[Operation when creating acoustic model: FIGS. 11, 12, and 16]
The stream corresponding to the content obtained from the broadcast wave received by the digital tuner 1 is classified into audio data and video data by the audio separation unit 2 (S601a). The audio decoder 3 decodes the audio data to generate an audio signal (S601b). The filter unit 26 uses the band-pass filter 42 and the band elimination filter 41 to extract an audio signal in a specific frequency band and an audio signal other than the specific frequency band, respectively (S602), and the power value detection unit 27 specifies a specific frequency band. The power values of the audio signal in the frequency band and the audio signal other than the specific frequency band are obtained, that is, the audio signal is converted into a power signal (S603). The peak time zone detection unit 28 detects a time zone (start time and end time) that exceeds a certain threshold among the maximum values of the audio power signal (S605). On the other hand, the frequency conversion unit 29 converts the raw audio signal into a frequency domain signal, and the feature amount extraction unit 31 extracts the frequency domain signal in the detected time zone (S606). The extracted frequency domain signal (feature amount) is temporarily stored in the feature amount storage unit (RAM 12) (S607). The above steps S605 to S607 are performed until the stream corresponding to the content ends. If the content end detection unit 32 detects the end of the stream corresponding to the content (YES in S604), the process proceeds to S608, where the feature amount reading unit 45 reads the feature amount from the content reading unit 46 and creates an acoustic model. The unit 30 creates an acoustic model using the feature quantity as learning data (S608). The acoustic model corresponds to the bandpass filter 42 and the band elimination filter 41, respectively. Both of the created acoustic models are stored in the acoustic model storage unit (RAM 12) (S609).

このように、図5のフローチャートにおける動作に加えて、バンドエリミネーションフィルタ41を用いて音響モデルを作成する。このバンドエリミネーションフィルタ41を通してバンドパスフィルタ42の場合と同様の動作を行う。例えば、バンドパスフィルタ42としてサッカーの笛を用いた場合、笛のバンドパスフィルタ42に対してバンドエリミネーションフィルタ41は笛の周波数帯域だけを除去するフィルタを用いる。これを用いて、サッカーの笛とそれ以外の音響モデルをそれぞれ作成することができる。   Thus, in addition to the operation in the flowchart of FIG. 5, an acoustic model is created using the band elimination filter 41. The same operation as that of the band-pass filter 42 is performed through the band elimination filter 41. For example, when a soccer whistle is used as the bandpass filter 42, the band elimination filter 41 uses a filter that removes only the frequency band of the whistle with respect to the bandpass filter 42 of the whistle. Using this, it is possible to create a soccer whistle and other acoustic models.

[音声信号分類時の動作:図11、図13及び図16]
コンテンツ読み出し部46がHDD(コンテンツ記憶部)8からコンテンツに対応するストリームを読み出し(S701)、音声分離部2が音声データを抽出する(S702a)。そして、音声デコーダ3が音声データを復号して音声信号を生成した(S702b)後、周波数変換部29が音声信号を周波数領域の信号へ変換する(S703)。そして、音響モデル読み出し部47が音響モデル記憶部(RAM12)からバンドパスフィルタ42及びバンドエリミネーションフィルタ41に対応する音響モデルを読み出し、音声分類部22は、読み出された音響モデルと入力された周波数領域の信号(特徴量)との尤度を尤度関数から計算し、尤度が最大となるモデルのラベルと時刻を分類結果記憶部(HDD8)に記録する(S704)。なお、「ラベル」とは分類番号である。
[Operation at the time of audio signal classification: FIG. 11, FIG. 13 and FIG. 16]
The content reading unit 46 reads a stream corresponding to the content from the HDD (content storage unit) 8 (S701), and the audio separation unit 2 extracts audio data (S702a). Then, after the audio decoder 3 decodes the audio data to generate an audio signal (S702b), the frequency converter 29 converts the audio signal into a frequency domain signal (S703). Then, the acoustic model reading unit 47 reads out acoustic models corresponding to the bandpass filter 42 and the band elimination filter 41 from the acoustic model storage unit (RAM 12), and the speech classification unit 22 is input with the read out acoustic model. The likelihood with the frequency domain signal (feature amount) is calculated from the likelihood function, and the label and time of the model with the maximum likelihood are recorded in the classification result storage unit (HDD 8) (S704). “Label” is a classification number.

このように、音響モデル読み出し部47が音響モデルを読み出す場所が音響モデル記憶部(RAM12)のみとなる点が図6のフローチャートと異なり、その他の点は同一である。   In this way, the point that the acoustic model reading unit 47 reads the acoustic model is only the acoustic model storage unit (RAM 12), and the other points are the same.

以上説明したように、本発明の第3の実施の形態によれば以下の作用効果が得られる。   As described above, according to the third embodiment of the present invention, the following operational effects can be obtained.

フィルタ部26が有する2以上のフィルタには、特定の周波数帯域を通過させるバンドパスフィルタ42と、特定の周波数帯域以外を通過させるバンドエリミネーションフィルタ41とが含まれ、音響モデル作成部30は、バンドパスフィルタ42及びバンドエリミネーションフィルタ41を用いて音響モデルをそれぞれ作成する。2以上のフィルタとして、特定の周波数帯域を通過させるフィルタと、特定の周波数帯域以外を通過させるフィルタとを備えることにより、特定の周波数帯域に対応する音響モデル及び特定の周波数帯域以外に対応する音響モデルを作成することができる。よって、この2つの音響モデルを用いて音声信号を分類することで、音声信号の分類精度が更に向上する。   The two or more filters included in the filter unit 26 include a band-pass filter 42 that passes a specific frequency band and a band elimination filter 41 that passes a band other than the specific frequency band. Acoustic models are created using the bandpass filter 42 and the band elimination filter 41, respectively. The acoustic model corresponding to the specific frequency band and the sound corresponding to other than the specific frequency band are provided by including a filter that allows passage of the specific frequency band and a filter that passes other than the specific frequency band as the two or more filters. A model can be created. Therefore, the classification accuracy of the audio signal is further improved by classifying the audio signal using these two acoustic models.

(その他の実施の形態)
上記のように、本発明は、第1乃至第3の実施の形態によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。
(Other embodiments)
As described above, the present invention has been described according to the first to third embodiments. However, it should not be understood that the description and drawings constituting a part of this disclosure limit the present invention. From this disclosure, various alternative embodiments, examples and operational techniques will be apparent to those skilled in the art.

第3の実施の形態では、第1の実施の形態と同様に、音響モデル作成時に使用する帯域通過フィルタ及び帯域除去フィルタ、及び音声信号分離時に使用する音響モデルは、予め設定される。しかし、本発明はこれに限定されることなく、第3の実施の形態でも、第2の実施の形態と同様にして、フィルタ及び音響モデルをジャンルによって決定しても構わない。以下に、図16(a)〜図16(c)を参照して、フィルタ及び音響モデルをジャンルによって決定する際に使用するテーブルについて説明する。   In the third embodiment, as in the first embodiment, the band-pass filter and the band elimination filter that are used when creating the acoustic model and the acoustic model that is used when the audio signal is separated are set in advance. However, the present invention is not limited to this, and in the third embodiment, the filter and the acoustic model may be determined according to the genre in the same manner as in the second embodiment. Hereinafter, with reference to FIGS. 16A to 16C, a table used when determining the filter and the acoustic model according to the genre will be described.

図16(b)に、ジャンルと音響モデル作成時に使用するフィルタとの関係の一例を示す。なお、図16(a)は、帯域通過フィルタ及び帯域除去フィルタの特性を示す図である。また、図16(a)は、帯域通過フィルタは、特定の周波数帯域の信号を通過させ、帯域除去フィルタは、特定の周波数帯域以外の信号を通過させることを示している。   FIG. 16B shows an example of the relationship between the genre and the filter used when creating the acoustic model. FIG. 16A is a diagram illustrating characteristics of the bandpass filter and the band removal filter. FIG. 16A shows that the band-pass filter passes a signal in a specific frequency band, and the band removal filter passes a signal other than the specific frequency band.

フィルタ決定部38は、コンテンツジャンル抽出部36が抽出したジャンル情報に基づいてフィルタ部26が使用する帯域通過フィルタ及び帯域除去フィルタを決定する。例えば、ジャンルがサッカーである場合、笛の帯域通過フィルタ及び笛の帯域除去フィルタを用いて音響モデルをそれぞれ作成し、音楽、行司の帯域通過フィルタ及び帯域除去フィルタは使用しない。同様に、ジャンルが相撲、音楽、・・・であれば、行司、音楽の帯域通過フィルタ及び帯域除去フィルタをそれぞれ用いて音響モデルを作成する。このように、第3の実施の形態において、音響モデル作成時に使用する帯域通過フィルタ及び帯域除去フィルタは、ジャンルによって決定しても構わない。この場合、帯域通過フィルタ及び帯域除去フィルタの2つのフィルタを用いて2つの音響モデルを作成するため、フィルタ決定時に必要となるテーブルも2つとなる。図16(b)において、「笛の帯域除去フィルタ」は、笛’と標記することで、「笛の帯域通過フィルタ」と区別している。   The filter determination unit 38 determines a band pass filter and a band removal filter used by the filter unit 26 based on the genre information extracted by the content genre extraction unit 36. For example, if the genre is soccer, an acoustic model is created using a whistle band-pass filter and a whistle band-reject filter, respectively, and the music and Gyoji band-pass filters and band-reject filters are not used. Similarly, if the genre is sumo, music,..., An acoustic model is created using the Goshi, music bandpass filter, and band elimination filter. As described above, in the third embodiment, the band-pass filter and the band elimination filter used when creating the acoustic model may be determined according to the genre. In this case, since two acoustic models are created using two filters, a band pass filter and a band elimination filter, two tables are required when determining the filter. In FIG. 16 (b), “the whistle band elimination filter” is distinguished from “the whistle band pass filter” by marking the whistle '.

図16(c)は、ジャンルと音声信号分類時に使用する音響モデルとの関係の一例を示す。図16(c)中の「動的に作成される音響モデル」とは、本発明の実施の形態において、作成される音響モデルを指す。音声分類部22は、コンテンツジャンル抽出部36が抽出したジャンル情報に基づいて、使用する音響モデルを決定する。例えば、ジャンルがサッカーである場合、笛の音響モデルと笛’の音響モデルを用いて音声信号を分類し、音楽、行司の音響モデルは使用しない。ここで、「笛’の音響モデル」は笛の帯域除去フィルタによって作成された音響モデルを示す。同様に、ジャンルが相撲であれば、行司の音響モデル及び行司’の音響モデルを用いて音声信号を分類し、ジャンルが音楽であれば、音楽の音響モデル及び音楽’の音響モデルを用いて音声信号を分類する。このように、第3の実施の形態において、音声信号分類時に使用する音響モデルは、ジャンルによって決定される。また、帯域通過フィルタと帯域除去フィルタを用いて音響モデルをそれぞれ作成しているので、音声信号分類時にも、帯域通過フィルタによって作成された音響モデルと、帯域除去フィルタによって作成された音響モデルの、2つのテーブルが必要となる。   FIG. 16C shows an example of the relationship between the genre and the acoustic model used for audio signal classification. The “dynamically created acoustic model” in FIG. 16C indicates an acoustic model created in the embodiment of the present invention. The audio classification unit 22 determines an acoustic model to be used based on the genre information extracted by the content genre extraction unit 36. For example, when the genre is soccer, the sound signals are classified using the acoustic model of the whistle and the acoustic model of the whistle ', and the acoustic model of music and the manager is not used. Here, the “acoustic model of the whistle” indicates an acoustic model created by the band elimination filter of the whistle. Similarly, if the genre is sumo, the audio signal is classified using Gyoji's acoustic model and Gyoji's acoustic model, and if the genre is music, the music acoustic model and music's acoustic model are used for audio. Classify signals. Thus, in the third embodiment, the acoustic model used at the time of audio signal classification is determined by the genre. Also, since the acoustic models are created using the band pass filter and the band elimination filter, respectively, the acoustic model created by the band pass filter and the acoustic model created by the band elimination filter are also used when classifying the audio signal. Two tables are required.

実施の形態では、DSP音解析部4が作成した音響モデルを記憶する記憶媒体は、RAMとあるが、音響モデルの記憶媒体は、電源をオフすると、記憶された情報がクリアされるものだけでなく、電源がオフされても記憶された情報が保持され続ける記憶媒体とすることができる。   In the embodiment, the storage medium for storing the acoustic model created by the DSP sound analysis unit 4 is a RAM. However, the storage medium for the acoustic model is only one in which stored information is cleared when the power is turned off. In other words, the storage medium can keep the stored information even when the power is turned off.

第1乃至第3の実施の形態で説明した音声分類装置の動作は、時系列的につながった一連の処理又は操作、即ち音声分類方法としても表現することができる。従って、この音声分類方法を、コンピュータシステムを用いて実行するために、コンピュータシステム内のプロセッサーなどが果たす複数の機能を特定するコンピュータプログラムとして構成することができる。また、このコンピュータプログラムは、コンピュータ読み取り可能な記録媒体に保存することができる。この記録媒体をコンピュータシステムによって読み込ませ、前記プログラムを実行してコンピュータを制御しながら上述した音声分類方法を実現することができる。ここで、前記記録媒体としては、メモリ装置、磁気ディスク装置、光ディスク装置、その他のプログラムを記録することができるような装置が含まれる。   The operation of the speech classification apparatus described in the first to third embodiments can be expressed as a series of processes or operations connected in time series, that is, a speech classification method. Therefore, in order to execute this speech classification method using a computer system, it can be configured as a computer program that specifies a plurality of functions performed by a processor or the like in the computer system. The computer program can be stored in a computer-readable recording medium. The above-described speech classification method can be realized by reading this recording medium by a computer system and executing the program to control the computer. Here, the recording medium includes a memory device, a magnetic disk device, an optical disk device, and other devices capable of recording a program.

このように、本発明はここでは記載していない様々な実施の形態等を包含するということを理解すべきである。したがって、本発明はこの開示から妥当な特許請求の範囲に係る発明特定事項によってのみ限定されるものである。   Thus, it should be understood that the present invention includes various embodiments and the like not described herein. Therefore, the present invention is limited only by the invention specifying matters according to the scope of claims reasonable from this disclosure.

本発明の第1の実施の形態に係わる音声分類装置を含む映像記録再生装置の全体構成を示すブロック図である。1 is a block diagram showing an overall configuration of a video recording / reproducing apparatus including an audio classification apparatus according to a first embodiment of the present invention. 図1のDSP音解析部4(音声分類装置)の詳細な構成を示すブロック図である。It is a block diagram which shows the detailed structure of the DSP sound-analysis part 4 (voice classification apparatus) of FIG. 図1の映像記録再生装置20の詳細な機能ブロックを示すブロック図である。It is a block diagram which shows the detailed functional block of the video recording / reproducing apparatus 20 of FIG. 音声信号からピーク時間帯を求めるまでの音声信号の変化の様子を示す模式図である。It is a schematic diagram which shows the mode of the change of an audio | voice signal until it calculates | requires a peak time slot | zone from an audio | voice signal. 音響モデルを作成する時における図1の映像記録再生装置20の動作の流れを示すフローチャートである。It is a flowchart which shows the flow of operation | movement of the video recording / reproducing apparatus 20 of FIG. 1 when producing an acoustic model. 音声信号を分類する時における図1の映像記録再生装置20の動作の流れを示すフローチャートである。It is a flowchart which shows the flow of operation | movement of the video recording / reproducing apparatus 20 of FIG. 1 when classifying an audio | voice signal. コンテンツを再生する時における図1の映像記録再生装置20の動作の流れを示すフローチャートである。It is a flowchart which shows the flow of operation | movement of the video recording / reproducing apparatus 20 of FIG. 1 at the time of reproducing | regenerating a content. 第2の実施の形態に係わる、図1の映像記録再生装置20の詳細な機能ブロックを示すブロック図である。It is a block diagram which shows the detailed functional block of the video recording / reproducing apparatus 20 of FIG. 1 concerning 2nd Embodiment. 音響モデルを作成する時における図8の映像記録再生装置20の動作の流れを示すフローチャートである。It is a flowchart which shows the flow of operation | movement of the video recording / reproducing apparatus 20 of FIG. 8 when producing an acoustic model. 音声信号を分類する時における図8の映像記録再生装置20の動作の流れを示すフローチャートである。It is a flowchart which shows the flow of operation | movement of the video recording / reproducing apparatus 20 of FIG. 8 when classifying an audio | voice signal. 第3の実施の形態に係わる、図1の映像記録再生装置20の詳細な機能ブロックを示すブロック図である。It is a block diagram which shows the detailed functional block of the video recording / reproducing apparatus 20 of FIG. 1 concerning 3rd Embodiment. 音響モデルを作成する時における図11の映像記録再生装置20の動作の流れを示すフローチャートである。12 is a flowchart showing a flow of operations of the video recording / reproducing apparatus 20 in FIG. 11 when creating an acoustic model. 音声信号を分類する時における図11の映像記録再生装置20の動作の流れを示すフローチャートである。12 is a flowchart showing a flow of operations of the video recording / reproducing apparatus 20 of FIG. 11 when classifying audio signals. 図14(a)は、S102において、フィルタ部26が特定の周波数帯域の音声信号だけを取り出す際に使用するフィルタを例示するテーブルであり、図14(b)は、S204において、音響モデル読み出し部47がROM13及びRAM12からそれぞれ読み出した音響モデルを例示するテーブルである。14A is a table illustrating a filter used when the filter unit 26 extracts only a specific frequency band audio signal in S102, and FIG. 14B is an acoustic model reading unit in S204. 47 is a table illustrating acoustic models read from the ROM 13 and the RAM 12, respectively. 図15(a)は、S401においてフィルタ決定部38が使用する、ジャンルとフィルタとの関係の一例を示すテーブルであり、図15(b)は、S505において音声分離部22が使用する、ジャンルと音響モデルとの関係の一例を示すテーブルである。FIG. 15A is a table showing an example of the relationship between the genre and the filter used by the filter determination unit 38 in S401, and FIG. 15B shows the genre used by the audio separation unit 22 in S505. It is a table which shows an example of a relationship with an acoustic model. 図16(a)は、帯域通過フィルタと帯域除去フィルタの周波数特性を示す図であり、図16(b)は、ジャンルと音響モデル作成時に使用する帯域通過フィルタ及び帯域除去フィルタとの関係の一例を示すテーブルであり、図16(c)は、ジャンルと音声信号分離時に使用する音響モデルとの関係の一例を示すテーブルである。FIG. 16A is a diagram illustrating the frequency characteristics of the band pass filter and the band elimination filter, and FIG. 16B is an example of the relationship between the genre and the band pass filter and the band elimination filter used when creating the acoustic model. FIG. 16C is a table showing an example of a relationship between a genre and an acoustic model used at the time of audio signal separation.

符号の説明Explanation of symbols

1 デジタルチューナ
2 音声分離部
3 音声デコーダ
4 DSP音解析部
5 CPU
6 A/Vデコーダ
7 ハードディスクドライブ−インターフェース
8 ハードディスクドライブ
9 モニタ
10 スピーカ
11 バス
12 RAM
13 ROM
21 音響モデル部(音響モデル手段)
22 音声分類部(音声分類手段)
26 フィルタ部(フィルタ手段)
27 パワー値検出部(パワー値検出手段)
28 ピーク時間帯検出部(ピーク時間帯手段)
29 周波数変換部(周波数変換手段)
30 音響モデル作成部(音響モデル作成手段)
31 特徴量抽出部
32 コンテンツ終端検出部
33 分類結果・時刻検出部
34 プレイリスト作成部
35 ピーク時間帯
36 コンテンツジャンル抽出部(コンテンツジャンル抽出手段)
37 使用モデル決定部
38 フィルタ決定部
41 バンドエリミネーションフィルタ(帯域除去フィルタ)
42 バンドパスフィルタ(帯域通過フィルタ)
45 特徴量読み出し部
46 コンテンツ読み出し部
47 音響モデル読み出し部
48 ユーザ入力部
49 再生制御部
1 Digital Tuner 2 Audio Separation Unit 3 Audio Decoder 4 DSP Sound Analysis Unit 5 CPU
6 A / V decoder 7 Hard disk drive-interface 8 Hard disk drive 9 Monitor 10 Speaker 11 Bus 12 RAM
13 ROM
21 Acoustic model part (acoustic model means)
22 Voice classification part (voice classification means)
26 Filter section (filter means)
27 Power value detection unit (power value detection means)
28 Peak time zone detector (peak time zone means)
29 Frequency converter (frequency converter)
30 Acoustic model creation unit (acoustic model creation means)
31 feature amount extraction unit 32 content end detection unit 33 classification result / time detection unit 34 playlist creation unit 35 peak time zone 36 content genre extraction unit (content genre extraction means)
37 Use model decision unit 38 Filter decision unit 41 Band elimination filter (band elimination filter)
42 Bandpass filter (bandpass filter)
45 feature reading unit 46 content reading unit 47 acoustic model reading unit 48 user input unit 49 playback control unit

Claims (5)

コンテンツを記録する機能を有する音声分類装置であって、
ンテンツに含まれる音声信号のうち、音響モデル作成時に使用するフィルタによって取り出される周波数帯域の音声に対応する音声信号から音響モデルを逐次作成し、作成された音響モデルを用いて音声信号を分類する動的音響モデルを作成する動的音響モデル作成部と、
前記動的音響モデル作成部によって作成された前記動的音響モデルを用いて、前記音声信号を分類する音声分類部とを備え、
前記音響モデル作成部は、
記コンテンツに含まれる音声信号のうち、前記音響モデル作成時に使用するフィルタによって取り出される周波数帯を有する特定音声信号成分を透過するフィルタ部と、
前記フィルタ部を透過する前記特定音声信号成分のパワー値を検出するパワー検出部と、
前記パワー検出部によって検出されたパワー値が所定閾値を超える時間帯を検出する時間検出部と、
前記時間検出部によって検出された時間帯において前記コンテンツに含まれる音声信号を時間領域から周波数領域に変換する周波数変換部とを有しており、
前記動的音響モデル作成部は、前記周波数変換部によって周波数領域に変換された音声信号を特徴量として、前記動的音響モデルを作成することを特徴とする音声分類装置。
An audio classification device having a function of recording content,
Of the audio signals contained in the content, sequentially creating an acoustic model from the speech signal corresponding to the audio frequency band to be extracted by the filter to be used when creating an acoustic model, classifying the audio signal using an acoustic model created A dynamic acoustic model creation unit for creating a dynamic acoustic model;
Using the dynamic acoustic model created by the dynamic acoustic model creation unit, and a speech classification unit for classifying the speech signal ,
The acoustic model creation unit
Of the audio signals contained in the prior Kiko content, and a filter portion that transmits particular audio signal component having the frequency band to be extracted by the filter to be used for the acoustic model creation,
A power detection unit that detects a power value of the specific audio signal component that passes through the filter unit;
A time detection unit for detecting a time zone in which the power value detected by the power detection unit exceeds a predetermined threshold; and
Has a frequency conversion section for converting an audio signal included in the prior logger content in the time period detected by said time detection unit from the time domain to the frequency domain,
The dynamic acoustic model creation unit creates the dynamic acoustic model by using the speech signal converted into the frequency domain by the frequency conversion unit as a feature amount.
前記動的音響モデル作成部は、前記フィルタ部として、バンドパスフィルタを用いて、複数種類の音響モデル作成時に使用するフィルタによって取り出される周波数帯域の音声のそれぞれに対応する周波数帯域の音声信号だけを取り出す機能を有する複数種類のフィルタを有しており、
前記動的音響モデル作成部は、前記複数種類の特定音声信号成分に基づいて、前記動的音響モデルとして、複数種類の音響モデル作成時に使用するフィルタによって取り出される周波数帯域の音声のそれぞれに対応する複数の動的音響モデルを作成し、
前記音声分類部は、前記複数の動的音響モデルを用いて、前記第2コンテンツに含まれる音声信号を分類することを特徴とする請求項1に記載の音声分類装置。
The dynamic acoustic model creating unit uses only a bandpass filter as the filter unit, and outputs only audio signals in frequency bands corresponding to each of frequency band sounds extracted by filters used when creating multiple types of acoustic models. It has multiple types of filters that have the function of taking out ,
The dynamic acoustic model creation unit corresponds to each of voices in a frequency band extracted by a filter used when creating multiple types of acoustic models as the dynamic acoustic model based on the multiple types of specific speech signal components. Create multiple dynamic acoustic models,
The speech classification apparatus according to claim 1, wherein the speech classification unit classifies speech signals included in the second content using the plurality of dynamic acoustic models.
前記フィルタ部は、前記音響モデル作成時に使用するフィルタによって取り出される周波数帯域を有する前記特定音声信号を通過させる帯域透過フィルタと、前記音響モデル作成時に使用するフィルタによって取り出される周波数帯域以外の帯域を有する信号を通過させる帯域除去フィルタとを含むことを特徴とする請求項1記載の音声分類装置。 The filter unit, said a band pass filter that passes a specific audio signal, band other than the frequency band to be extracted by the filter to be used for the acoustic model creation with frequency band extracted by the filter to be used for the acoustic model creation The speech classification apparatus according to claim 1, further comprising: a band elimination filter that allows a signal having a frequency to pass . 予め作成された音響モデルとなる静的音響モデルを保持する静的音響モデル記憶手段をさらに備え、
前記音声分類部は、前記動的音響モデル及び前記静的音響モデルを用いて、前記コンテンツに含まれる音声信号を分類することを特徴とする請求項1に記載の音声分類装置。
A static acoustic model storage means for holding a static acoustic model to be an acoustic model created in advance ;
The voice classifying unit, the dynamic acoustic model and using said static acoustic model, the speech classification apparatus according to claim 1, characterized in that for classifying the audio signal included in the prior logger content.
前記動的音響モデル作成部は、前記フィルタ部として、複数種類の音響モデル作成時に使用するフィルタによって取り出される周波数帯域の音声のそれぞれに対応する複数種類の特定音声信号成分のそれぞれを透過する複数種類のフィルタを有しており、
前記動的音響モデル作成部は、
記コンテンツからEPGやユーザの手入力によって決定されるジャンルを抽出するジャンル抽出部と、
前記ジャンル抽出部によって抽出されたジャンルに基づいて、前記複数種類のフィルタの中から、前記第1コンテンツに対応するフィルタを選択するフィルタ選択部とを有することを特徴とする請求項1に記載の音声分類装置。
The dynamic acoustic model creation unit, as the filter unit, transmits a plurality of types of specific sound signal components corresponding to each of sound in a frequency band extracted by a filter used when creating a plurality of types of acoustic models. Has a filter of
The dynamic acoustic model creation unit
A genre extraction unit that extracts a genre that is determined by the manual input of EPG and the user from the front Kiko content,
The filter selection unit according to claim 1, further comprising: a filter selection unit that selects a filter corresponding to the first content from the plurality of types of filters based on the genre extracted by the genre extraction unit. Voice classification device.
JP2006293055A 2006-10-27 2006-10-27 Voice classification device Expired - Fee Related JP4884163B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006293055A JP4884163B2 (en) 2006-10-27 2006-10-27 Voice classification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006293055A JP4884163B2 (en) 2006-10-27 2006-10-27 Voice classification device

Publications (2)

Publication Number Publication Date
JP2008111866A JP2008111866A (en) 2008-05-15
JP4884163B2 true JP4884163B2 (en) 2012-02-29

Family

ID=39444424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006293055A Expired - Fee Related JP4884163B2 (en) 2006-10-27 2006-10-27 Voice classification device

Country Status (1)

Country Link
JP (1) JP4884163B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101308425B1 (en) * 2010-11-05 2013-09-23 김상윤 Method and apparatus for classification of species by using frequency

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3664499B2 (en) * 1994-08-16 2005-06-29 富士通株式会社 Voice information processing method and apparatus
JP3065314B1 (en) * 1998-06-01 2000-07-17 日本電信電話株式会社 High-speed signal search method and apparatus and recording medium thereof
JP2001143451A (en) * 1999-11-17 2001-05-25 Nippon Hoso Kyokai <Nhk> Automatic index generating device and automatic index applying device
US7184955B2 (en) * 2002-03-25 2007-02-27 Hewlett-Packard Development Company, L.P. System and method for indexing videos based on speaker distinction
JP2004233541A (en) * 2003-01-29 2004-08-19 Riyuukoku Univ Highlight scene detection system
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
JP4220449B2 (en) * 2004-09-16 2009-02-04 株式会社東芝 Indexing device, indexing method, and indexing program
JP2006229293A (en) * 2005-02-15 2006-08-31 Konica Minolta Photo Imaging Inc Classification data generating program, digital camera, and recording apparatus

Also Published As

Publication number Publication date
JP2008111866A (en) 2008-05-15

Similar Documents

Publication Publication Date Title
JP5460709B2 (en) Acoustic signal processing apparatus and method
JP2005173569A (en) Apparatus and method for classifying audio signal
US8068719B2 (en) Systems and methods for detecting exciting scenes in sports video
US20180144194A1 (en) Method and apparatus for classifying videos based on audio signals
JP4491700B2 (en) Audio search processing method, audio information search device, audio information storage method, audio information storage device and audio video search processing method, audio video information search device, audio video information storage method, audio video information storage device
JP2006319980A (en) Dynamic image summarizing apparatus, method and program utilizing event
JP2008022103A (en) Apparatus and method for extracting highlight of moving picture of television program
KR101100191B1 (en) A multimedia player and the multimedia-data search way using the player
JP4405418B2 (en) Information processing apparatus and method
US9666211B2 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
EP1850322B1 (en) Systems and methods for analyzing video content
KR20060089922A (en) Data abstraction apparatus by using speech recognition and method thereof
JP4712812B2 (en) Recording / playback device
JP4513165B2 (en) Program recording method, program recording apparatus, program recording / reproducing apparatus, and program recording / reproducing method
JP4985134B2 (en) Scene classification device
CN101355673B (en) Information processing device, information processing method
JP4884163B2 (en) Voice classification device
JP4990375B2 (en) Recording / playback device
JP2006033811A (en) Electronic watermarking method and storage medium for storing electronic watermarking program
JP5166470B2 (en) Voice recognition device and content playback device
JP2008153920A (en) Motion picture list displaying apparatus
JP2008108166A (en) Musical piece selection device and musical piece selection method
JP2007183410A (en) Information reproduction apparatus and method
JP2005167456A (en) Method and device for extracting interesting features of av content
JP2006050045A (en) Moving picture data edit apparatus and moving picture edit method

Legal Events

Date Code Title Description
RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091009

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees