JP2004530153A6 - 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 - Google Patents

信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 Download PDF

Info

Publication number
JP2004530153A6
JP2004530153A6 JP2002572563A JP2002572563A JP2004530153A6 JP 2004530153 A6 JP2004530153 A6 JP 2004530153A6 JP 2002572563 A JP2002572563 A JP 2002572563A JP 2002572563 A JP2002572563 A JP 2002572563A JP 2004530153 A6 JP2004530153 A6 JP 2004530153A6
Authority
JP
Japan
Prior art keywords
signal
tonality
spectral
degree
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002572563A
Other languages
English (en)
Other versions
JP2004530153A (ja
JP4067969B2 (ja
Inventor
アルアマンヒェ,エリック
ヘレ,ユルゲン
ヘルムート,オーリヴァー
フレーバ,ベルンハルト
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE10109648A external-priority patent/DE10109648C2/de
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2004530153A publication Critical patent/JP2004530153A/ja
Publication of JP2004530153A6 publication Critical patent/JP2004530153A6/ja
Application granted granted Critical
Publication of JP4067969B2 publication Critical patent/JP4067969B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

音声内容を表す信号を特徴付ける方法において、信号の調性に関する測定が決定される(12)。ここで、信号の調性度を基礎とした、MP3符号化によるような、調べる信号の内容に高い相関を有する明細が作成される(16)。内容解析のための、信号の調性度は、MP3符号化によるような信号の歪みに対して頑健であり、調べた信号の内容に対して高い相関を有する。

Description

〔説明〕
本発明は、マルチメディアデータの照会可能性を実現するための、音声信号の内容に関する音声信号の特徴付けに関しており、特に、音声データの内容に関する音声データの分類および索引付けのための発想に関している。
【0001】
近年、例えば音声信号のような、マルチメディアデータ素材の利用可能性が、顕著に増加している。この発展は、一種の技術的要因によるものである。このような技術的要因としては、例えば、インターネットの広範な利用可能性、効率的なコンピュータの広範な利用可能性、および、音声データのデータ圧縮(例えば、ソースコード化)についての効率的な方法の広範な利用可能性を挙げることが出来る。この一例として、MPEG1/2レイヤー3(MPEG3とも呼ばれている)がある。
【0002】
インターネットを通じて全世界において入手可能な大量のオーディオビジュアルデータは、これらのデータを、データの内容の特徴に基づいて、評価し、カタログ化し、管理するための発想を必要としている。便利な基準の規格に基づいた計算方法によって、マルチメディアデータを検索し発見することが求められている。
【0003】
このためには、いわゆる、「内容を元にした」技術が必要になる。この技術では、オーディオビジュアルデータから、いわゆる特徴を抽出している。この特徴は、関心のある信号における、重要であり特徴的な内容の特性を表している。このような特徴、およびこのような特徴の組み合わせのそれぞれに基づいて、音声信号間における類似した関連性および共通の特性のそれぞれを導き出すことが出来る。このような処理は、一般には、異なる信号由来の抽出特性値を比較し、相互関連づけを行うことによって達成される。以下では、ここでは、上記の信号を「データ」として記載する。
【0004】
米国特許第5,918,223号には、音声情報の、内容を元にした分析、保存、検索、および断片化の方法が開示されている。音声データの分析により一組の数値が生成される。この数値は特性ベクトルとも呼ばれている。また、この数値は、音声データのそれぞれの間における類似性を分類してランク付けするために使用されうる。音声データは、通常、マルチメディアデータバンクまたはワールドワイドウェブに保存されている。
【0005】
これに加えて、上記の分析により、一組の音声データの解析を元にして、音声データをユーザー定義された分類で表示することが出来る。一組の音声データは、すべて、ユーザー定義された分類に含まれる。この方式により、より長い音声データ内にある、個別の音声データを検索することが出来る。このことにより、記録された音声を、自動的に一連の短い音声断片に分断することができる。
【0006】
内容に関する、音声データの特徴付けおよび分類化のための特性として、データの音量、低音内容、ピッチ、明るさ、帯域幅、および、いわゆるメル周波数セプストラム周波数(MCFF)が、音声データの周期的間隔に使用される。ブロックあるいはフレームごとの値は、保存され、最初の微分操作を受ける。その結果として、長期に渡る変位を表すために、平均値あるいは標準偏差などの特定の統計量が、最初の微分を含む特性のすべてから計算される。統計量のこの組は特性ベクトルを形成する。音声データの特性ベクトルは、データバンクに保存され、原ファイルに関連づけられる。この原ファイルにおいて、ユーザは、音声データのそれぞれを取得するために、データバンクにアクセスすることができる。
【0007】
このデータバンクシステムでは、二つのn次元ベクトル間における、n次元空間での距離を定量化することが出来る。さらに、ある部類に属する一連の音声データを特定することにより、音声データの部類を生成出来る。典型的な部類としては、鳥のさえずり、ロック音楽等が挙げられる。ユーザは特定の手法により、データバンクから音声データを検索出来る。検索の結果、特定のn次元ベクトルからの距離に基づく順序だった方式により一覧化される、音声ファイルの一覧ができる。ユーザは、類似特性、音響的特性、音響心理的な特性、主観的特性、またはハチの音などの特別な音声に関して、それぞれ、データバンクから検索することができる。
【0008】
専門的出版物「”Multimedia Content Analysis”、Yao Wang etc., IEEE Signal Processing Magazine, November 2000, pp. 12 to 36」には、マルチメディアデータを特徴付ける、類似の発想が開示されている。マルチメディアデータの内容を分類する特性として、時間領域特性あるいは周波数領域特性が挙げられている。これらには、音声信号波形の基本周波数としてのピッチ、例えば、総エネルギー含量に対する周波数帯域のエネルギー含量などのスペクトル特性、スペクトル曲線における遮断周波数などが含まれる。音声信号のサンプルのブロックごとの、命名された量に関する短期特性に加えて、音声データの長期間隔に関する長期特性についても提案されている。
【0009】
動物の音、ベルの音、群集の音、笑い声、機械音、楽器、男性の声、女性の声、電話の音、水の音などの音声データの特徴付けのため、異なる分類が提案されている。
【0010】
使い古しの特性を選択する際の問題点は、迅速な特徴付けを行うには特性を抽出する計算の労力は中程度であるが、それと同時に、その特性は音声データに対して特徴的であるため、二つの異なるデータも識別可能な特性を有するということである。
【0011】
もう1つの問題点は、特性の頑健性である。命名された発想は、頑健性の基準に関連しない。音声データが、音声スタジオで作成した直後に特徴付けられて、索引を付された場合、これは、データの特性ベクトルを表し、いわば、データの本質を形成するが、歪みの無い同じデータがが同じ方法で処理される際、これは、同じ特性が抽出され、かつ、特性ベクトルがデータバンクにある異なるデータが有する複数の特性ベクトルと比較されることを意味するが、このデータを認識する確率は非常に高い。
【0012】
しかしながら、音声データが特性化以前に歪められ、特徴付けられる信号が、もはや元信号と同一では無いが同一の内容を有する場合に、上記のことが問題になる。人は、例えば、歌がやかましくても、うるさくても、穏やかでも、あるいは、元録音とは異なるピッチで演奏されていても、その歌を知っていれば、その歌を認識出来る。例えば、他の歪みは、データ損失性のデータ圧縮(MP3またはAACといったMPEG基準に基づいた符号化)によっても引き起こされる。
【0013】
歪みおよびデータ圧縮のそれぞれが原因で、特性が、歪みおよびデータ圧縮のそれぞれにより、強度に影響を受ける場合、データの本質は失われるが、データ内容は人が認識可能である。
【0014】
米国特許第5,510,572には、旋律分析の結果を用いて、旋律を分析して調和する装置が開示されている。キーボードで演奏されているような、一列の音符の形態の旋律は、旋律断片に読み込まれて分離される。ここで、旋律断片すなわち楽句には、例えば4小節などがある。楽句におけるキーを決定するために、調性解析はあらゆる楽句で実行される。それゆえ、音符のピッチは楽句において決定され、その結果、ピッチの相違は、現在観察されている音符と前回の音符との間において決定される。さらに、間隔の相違は、現在の音符とそれ続く音符との間で決定される。このピッチの相違により、前回の音響結合係数およびそれに続く音響結合係数が決定される。前回の音響結合係数およびそれに続く音響結合係数ならびに音符の長さから、現在の音符の音響結合係数が得られる。旋律の調や、その候補をそれぞれ決定するため、この処理は、楽句における旋律のあらゆる音符で繰り返される。楽句の調は、楽句におけるあらゆる音符の意義を解釈する、音符型分類手段を制御するために用いられる。調情報は、調性分析により得られる。この調情報は、さらに転調モジュールを選択するために用いられる。このモジュールは、参照の調におけるデータバンクに保存された和音列を、考慮された旋律楽句の調性分析により決定された調に転置する。
【0015】
本発明は、音声内容を有する信号を、特徴付けして索引化するために、より改善された発想を提供することを目的としている。
【0016】
この目的は、請求項1による信号を特徴付ける方法、請求項16による索引信号生成方法、請求項20による信号を特徴付ける装置、または請求項21による索引信号生成装置により達成される。
【0017】
本発明は、信号をそれぞれ特徴付けして索引化するための特性を選択する間には、信号の歪みに対する頑健性を特に考慮しなければならないという知見に基づいている。特性および特性の組み合わせそれぞれの利便性は、これらの特性が、不適切な変更(例えば、MP3符号化)によりどれほど強く変更されるかに依存する。
【0018】
本発明によれば、信号の調性が、信号を特徴付けして索引化する特性として用いられる。信号の調性、すなわち、線が区別できるむしろ非平行なスペクトル、あるいは、線が同等に高いスペクトル、を有する信号の特性は、損失性の符号化方法(例えば、MP3)による歪みといった一般的な歪みに対して、頑健性を有することがわかっている。信号のスペクトル表示は、個々のスペクトル線およびスペクトル線のグループをそれぞれに参照にして、その必須要素として得られる。さらに、調性度を決定するために、調性は必要な計算労力に関して高い柔軟性を提供する。調性度は、データの全スペクトル成分の調性、またはスペクトル成分のグループの調性等に由来しうる。上述したように、調べる信号における連続的な短時間スペクトルの調性は、個別に、または偏って、あるいは統計的に評価することに使用されうる。
【0019】
言い換えると、本発明で言う調性は音声内容に依存する。音声内容およびこの音声内容の考慮された信号が、雑音を有するか、または雑音様の音である場合、この信号は、雑音をあまり有しない信号とは異なる調性を有する。一般的に、雑音を有する信号は、雑音をあまり有しない信号、すなわち、より調性のある信号に比べて、より低い調性度を有する。後者の信号は、より高い調性度を有する。
【0020】
調性すなわち信号の雑音および調性は、音声信号の内容に依存する量である。この音声信号は、異なる歪み型にほとんど影響を受けない。それゆえ、調性度に基づいて信号を特徴決定し索引にする発想は、頑健性のある認識を提供する。このことは、信号が歪んでいる場合、信号調性の本質が、認識を超えて変化しない事実から示されている。
【0021】
歪みとしては、例えば、空気伝送路を介した、スピーカーから受話器への信号の伝達が挙げられる。
【0022】
調性特性の頑健性は、損失性の圧縮方法に関して顕著である。
【0023】
信号の調性度は、例えばMPEG規格に関するような、損失性のデータ圧縮に影響を受けないか、あるいは、ほんの少しだけ影響を受けることが明らかにされている。上述したように、信号の調性に基づいた認識特性は、信号に関して顕著に良好な本質部分を提供する。そのため、二つの異なる音声信号もまた、顕著に異なる調性度を提供する。それゆえ、音声信号の内容と調性度とは、互いに強く関連している。
【0024】
そのため、本発明の主要な利点は、信号の調性度が、混信したすなわち歪んだ信号に対して頑健性を有することである。特に、この頑健性は、フィルタ処理すなわち平均化や、MPEG1/2レイヤー3などの損失性のデータ縮減を伴う動的圧縮や、アナログ伝達などに対して存在する。上述したように、信号の調性特性は信号内容と互いに強い関連性がある。
【0025】
本発明の好ましい形態は、添付図面を参照にして、より詳細に以下に議論される。これらの添付図面は、以下の通りである。
【0026】
図1は、本発明に係る、信号を特徴付ける装置の概略を示すブロック図である。
【0027】
図2は、本発明に係る、信号索引化する装置の概略を示すブロック図である。
【0028】
図3は、スペクトル成分ごとの調性から調性度を計算する装置の概略を示すブロック図である。
【0029】
図4は、スペクトル単調度(SFM)から調性度を決定する概略を示すブロック図である。
【0030】
図5は、調性度を特性として使用しうる構造認識システムの概略を示すブロック図である。
【0031】
図1は、音声内容を示す信号を特徴付ける、本発明に係る装置の概略を示すブロック図を示す。この装置は入力10を備えている。この入力10では、特徴付けられる信号が入力され、例えば、原信号に比べて損失性のある音声符号化を受ける。この特徴付けられる信号は、信号の調性値を決定する手段12に供給される。信号内容について明細を作成するために、信号の調性度は、連絡線14を介して手段16に供給される。手段16は、手段12により伝達された信号調性度に基づいて、この明細を作成するために形成されており、システムにおける出力18に、信号内容に関する明細を提供する。
【0032】
図2は、本発明に係る、音声内容を有する、索引化された信号を生成する装置を示す。音楽スタジオで生成されてCDに保存された音声データなど信号は、入力20を介して、図2に示す装置に供給される。手段22は、図12の手段12と一般的に同様に方法で構築されている。この手段22は、索引化される信号の調性度を決定し、この調性度を信号の索引として記録するために、連絡線24を介して調性度を手段26に提供している。図2に示す、索引化された信号を生成する装置の出力28と同時である、手段26の出力では、入力20に供給された信号は、調性索引と共に、同時に出力されうる。その代わりに、図2に示す装置は、表エントリが出力28で生成されるように形成されうる。この出力28は、調性索引を識別記号に関連付けている。また、出力28では、識別記号は、索引化される信号に特異的に関連している。一般に、図2に示す装置は、信号の索引を提供する。この索引は信号と関連し、信号の音声内容に言及する。
【0033】
図2に示す装置が複数の信号を処理する場合、音声データの索引のためのデータバンクは、段階的に生成される。この生成に、例えば、図5に示したパターン認識システムを用いてもよい。データバンクは、索引の他に、音声データ自体を任意に含む。それにより、図1に示す装置によって、データを特定し分類するために、データは調性特性に関して容易に検索されうる。調性特性や、他の要素の類似性や、および二つのデータ間の距離に関しても、それぞれ検索されうる。しかしながら、以上のように、図2に示す装置は、関連するメタ記述すなわち索引特性を有するデータを生成する可能性を提供している。それゆえ、所定の調性索引に基づくなどして、データ組を索引化し検索することが可能になる。したがって、本発明によれば、いわば、マルチメディアデータの効率的な検索および発見が可能になる。
【0034】
データの調性度を計算するために、異なった方法を用いることができる。図3に示すように、時間サンプルのブロックからスペクトル係数のブロックを生成するために、手段30により特徴付けられている時間信号を、スペクトル領域に変換することができる。後述するように、例えば、はい/いいえの決定によって、スペクトル成分が有調か否かを分類するために、あらゆるスペクトル係数、およびあらゆるスペクトル成分からそれぞれ、個々の調性度を決定することができる。調性値を、それぞれ、スペクトル成分や、エネルギーや、スペクトルのパワー成分に使用することで、信号の調性度は、複数の異なる方式によって、手段34で計算されうる。ここで、調性値は手段32によって決定される。
【0035】
例えば、図3に記載の発想によって、定量的な調性度が得られる事実により、調性が索引化された二つのデータの間に、それぞれ、距離と類似性を設定することが出来る。所定閾値に比べて距離が小さいのみで、調性度が異なる場合、データは類似していると分類されうる。一方、調性索引が、非類似性閾値に比べて大幅に大きいことによって異なる場合、他のデータは非類似と分類されうる。さらに、二つの調性度間の相違に加えて、二つの絶対値の相違や、その相違の2乗や、二つの調性測定値から1を引いたものの商や、二つの調性測定値間の相関や、n次元ベクトルである二つの調性度間の距離測定規準などの量を、二つのデータ間の調性距離を決定するために用いることができる。
【0036】
なお、特徴付けられる信号としては、必ずしも時間信号である必要が無く、例えば、ホフマンコード言語列からなるMP3符号化信号でもよい。このホフマンコード言語列は、定量スペクトル値から生成される。
【0037】
この定量スペクトル値は、原スペクトル値の定量化により生成される。この定量化により導入された定量ノイズが、音響心理的マスキング閾値を下回るように、定量化は選択される。このような場合、例えば、図4に関して示されているように、例えば、MP3デコーダー(図4の手段40)を介して、スペクトル値を計算するために、符号化されたMP3データ列を直接に用いる。調性決定前の時間領域の変換を実行すること、およびスペクトル領域の変換を実行することは必要ないが、MP3デコーダーで計算されるスペクトル値は、スペクトル成分、または図4に示すような手段42によるSFM(SFM=スペクトル単調度)ごとの調性を計算するために、直接的に得られる。それゆえ、調性を決定するためにスペクトル成分を用い、かつ、特徴付けられる信号が符号化されたMP3データ列である場合、手段40は、デコーダーのように構築されるが、反転フィルタバンクを備えない。
【0038】
スペクトル単調度(SFM)は、以下の等式により計算される。
【0039】
【数1】
Figure 2004530153
【0040】
この等式では、X(n)は索引nのスペクトル成分量の2乗を表わす。一方Nは、スペクトルのスペクトル係数の総数を意味する。この等式から、SFMは、スペクトル成分の幾何平均値を、スペクトル成分の相加平均値で割った商に等しいことがわかる。また、幾何平均値は、相加平均値とほとんど等しいことが知られている。これにより、SFMの値は、0と1との間の値である。上記において、0に近い値を調性信号とし、1に近い値を、単調なスペクトル曲線を有する雑音性信号とする。なお、すべてのX(n)が同一の場合にのみ、相加平均値と幾何平均値とは等しい。すべてのX(n)が同一の場合とは、ノイズまたは衝動信号などの完全無調性に対応する。しかしながら、極端な場合、すなわち、1つのスペクトル成分が非常に高い値である一方、他のスペクトル成分X(n)が非常に低い値である場合には、SFMは、非常に調性のある信号を示す0に近い値を取る。
【0041】
このSFMは、「””Digital Coding of Waveforms””, Englewood Cliffs, NJ, Prentice−Hall, N. Jayant, P. Noll, 1984」に記載されており、元々、余剰性減少からの最大達成符号化利得の度合いとして定義されていた。
【0042】
調性度を決定する手段44により、SFMから調性度を決定することができる。
【0043】
スペクトル値の調性を決定するためのもう1つの可能性としては、図3の手段32により実行すること、すなわち、音声信号のパワースペクトルのピークを決定することがある。これは、「MPEG−1 Audio ISO/IEC 11172−3, Annex D1 ”Psychoacoustic Model 1”」に記載されている。それによって、スペクトル成分の度合いが決定される。その結果、1つのスペクトル成分の周辺にある、二つのスペクトル成分の度合いが決定される。スペクトル成分の度合いが、所定係数を乗じた周辺スペクトル成分の度合いを超える場合、スペクトル成分は調性として分類される。この技術では、所定閾値を7dBと仮定しているが、本発明では、他の所定閾値を用いる。したがって、あらゆるスペクトル成分に対して、調性であるか否かを示すことが可能になる。また、スペクトル成分のエネルギーのみならず、個々の成分の調性度を用いることにより、図3の手段34では、調性度を示すことが可能になる。
【0044】
スペクトル成分の調性を決定するもう1つの可能性としては、スペクトル成分の、時間に関する予測可能性を評価することが挙げられる。ここでは、「MPEG−1 audio ISO/IEC 11172−3, Annex D2 ”Psychoacoustic Model 2”」を再び参照している。一般に、特徴付けられる信号のサンプルの現在のブロックは、スペクトル成分の現在のブロックを得るために、スペクトル表現に変換される。それによって、現在のブロック以前の特徴付けられた信号のサンプルからの情報を用いる、すなわち過去のブロックについての情報を用いることにより、現在のブロックのスペクトル成分を予測することができる。そして、予測エラーは決定され、この予測エラーから調性度を導き出せる。
【0045】
調性を決定するもう1つの可能性は、米国特許No.5,918,203に記載されている。再び、特徴付けられる信号のスペクトルの正の実数値表現が使用される。この表現は、スペクトル成分の合計や、合計の二乗などを含むことが出来る。実施形態の1つでは、微分フィルタ処理されたスペクトル成分のブロックを取得するため、スペクトル成分の合計や合計の二乗は、最初に対数に圧縮され、次に微分特性を有するフィルタによってフィルタ処理される。
【0046】
もう1つの実施形態では、スペクトル成分の合計は、最初に、微分特性を有するフィルタを使用してフィルタ処理され、次に、分母を得るために、積分特性を有するフィルタによってフィルタ処理される。スペクトル成分の微分フィルタ処理された合計からの商、および、同じスペクトル成分の微分フィルタ処理された合計は、このスペクトル成分のための調性度の結果となる。
【0047】
これら二つの処理により、スペクトル成分の隣り合う合計の間における緩やかな変化は抑制され、一方、スペクトルにおけるスペクトル成分の隣り合う合計の間における急激な変化は強調される。スペクトル成分の隣り合う合計の間における緩やかな変化は、無調性の信号成分を示し、急激な変化は、有調性の信号成分を示す。対数の形に圧縮され、微分フィルタ処理されたスペクトル成分および商は、それぞれ、考慮されたスペクトルのための調性度を計算するために使用されうる。
【0048】
調性度の1つはスペクトル成分ごとに計算されることが上述されたとはいえ、計算のための労力を低くすることに関して、例えば、二つの隣り合うスペクトル成分の合計の二乗を常に加え、次に、言及された測定の1つにつき、合計のあらゆる結果のための調性度を計算することが好ましい。スペクトル成分の合計と合計の二乗の、追加的な集合化のあらゆる型は、それぞれ、二つ以上のスペクトル成分のための調性度を計算するために使用されうる。
【0049】
スペクトル成分の調性を決定するもう一つの可能性として、スペクトル成分の度合いを、周波数帯域におけるスペクトル成分の平均値と比較することが挙げられる。スペクトル成分を含んでいる周波数帯域の幅は、例えば、スペクトル成分の合計の二乗の合計であり、必要に応じて選択されうる。この周波数帯域の幅の度合いは、例えば、平均値と比較される。可能性の1つは、例えば、帯域が狭くなるように選択することである。その代わりに、帯域はまた、広くなるように、あるいは、音響心理的な側面に応じて、選択されることも出来る。それによって、スペクトルにおける短期の電力障害は減少されうる。
【0050】
音声信号の調性は、スペクトル成分を基礎として決定されるとはいえ、これは、時間領域においても起こりうる。時間領域とは、音声信号のサンプルを使用することによることを意味する。それゆえ、信号のための予測利得を見積もるために、信号のLPC解析は実行されうる。一方、予測利得はSFMに反比例し、また、音声信号の調性度である。
【0051】
本発明の好ましい実施形態では、短期スペクトルにつき一つの値のみが示されるだけでなく、調性度もまた、調性度の複数次元ベクトルである。そのため、例えば、短期スペクトルは、四つの、隣接し、かつ、好ましくは重ならない領域と周波数帯域に、それぞれ分割されることができる。ここで、調性度は、例えば、図3の手段34によって、または、図4の手段44によって、あらゆる周波数帯域に対して決定される。それによって、特性化される信号の短期スペクトルに対して、4次元調性ベクトルが取得される。より良い特性化を行うために、例えば、四つの連続した短期スペクトルを、上述したように処理することがさらに好ましい。そのため、すべての調性度結果にあるすべては、16次元ベクトルまたは一般的にはn×m次元ベクトルである。ここで、nはサンプル値のフレームまたはブロックごとの調性成分の数を表し、mは考慮したブロックおよび短期間スペクトルの数を、それぞれ表す。調性度は、示されたように、16次元ベクトルである。特徴付けられる信号の波形をより良く収容するために、いくつかのそのような、例えば16次元ベクトルを計算し、次にそれらを統計的に処理し、決定された長さを有するデータのすべてのn×x次元の調性ベクトルの分散や、高次の平均値や、高次の中央値を計算し、それによって、このデータを索引化することはさらに好ましい。
【0052】
一般的に調性は、スペクトル全体の一部から計算される。それゆえ、下位スペクトルおよびいくつかの下位スペクトルの調性または雑音性をそれぞれ決定でき、かつ、スペクトルおよび音声信号の、より良好な特徴付けを得ることが出来る。さらに、短期統計結果は、調性度のように、平均値、高次の分散、高次の中央値のような調性度から計算できる。これらは、それぞれ、調性度と調性ベクトルの時間シーケンスを使用する統計的技術によって決定され、それゆえ、データのより長い部分に関する本質を提供する。
【0053】
上述のように、時間が連続する調性ベクトルまたは線形フィルタ処理された調性ベクトルの相違は、使用されうる。例えば、IIRフィルターまたはFIRフィルタが、線形フィルタとして使用されうる。
【0054】
時間を節約する理由を計算するため、例えば、SFM(図4のブロック42)を計算する際、周波数が隣り合う合計の二乗を加えるか平均化することや、この粗い正の実数値のスペクトル表現におけるSFM計算を実行することもまた好ましい。
【0055】
以下では、本発明が有利的に使用されうる、パターン認識システムの概略的な全体像を示す図5を参照する。原理的に、図5に示すパターン認識システムでは、二つの動作様式において相違が、すなわち訓練モード50と分類モード52が作成される。
【0056】
訓練モードでは、データは「訓練」され、すなわち、システムに供給され、最終的にはデータバンク54に収容される。
【0057】
分類モードでは、データバンク54に存在するエントリに、特徴付けられる信号を比較して命令することを試みる。図1に示す本発明に係る装置は、他のデータの調性索引が存在する場合、分類モード52で使用されうる。このデータの明細を作成するため、他のデータの調整索引に対して、現在のデータの調性索引が比較されうる。図2に示す装置は、データバンクを段階的に満たすために、図5の訓練モード50で有利的に使用される。
【0058】
パターン認識システムは、信号処理手段56と、下流の特性抽出手段58と、特性処理手段60と、クラスター生成手段62と、分類実行手段64とを備えており、例えば、分類手段52の結果として、特徴付けられる信号の内容に関する明細を作成する。そのため、この信号は、初期訓練モードで訓練される信号xyと等しい。
【0059】
以下では、図5の個別のブロックの機能に関して説明する。
【0060】
ブロック56は、ブロック58と協同して特性抽出部を形成する。一方、ブロック60は特性処理部を表す。ブロック56は、入力信号を、チャンネルの数、サンプリング速度、解像度(サンプルごとのビット)などの、一様な目的フォーマットに変換する。入力信号の由来元となる供給源を問わないため、これは有益かつ必要である。
【0061】
特性抽出手段58は、手段56の出口における通常は巨大な量の情報を、少量の情報に制限する役割を持つ。処理される信号は大部分が高いデータ比率を有し、このことは、一期間ごとに多数のサンプルがあること意味する。少量の情報への制限は、原信号の本質すなわち特性が失われない様に起こる必要がある。手段58では、例えば、一般には、音量や基本周波数などの所定の特性や、および/または、本発明によるところの、調性特性やSFMのそれぞれは、この信号から抽出される。それゆえ、抽出される調性特性は、いわば、調べる信号の本質を含むことになる。
【0062】
ブロック60では、前回計算された特性ベクトルが処理されうる。簡素な処理工程はベクトルの標準化を備える。電圧特性処理工程は、従来知られている、カルーネン・レーベ変換(KLT)や線形区分解析(LDA)などの線形変換を含む。よりいっそうの変換、特に、非線形変換もまた、特性処理のために使用されうる。
【0063】
部類生成部は、処理された特性ベクトルを、部類に統合する役割を持つ。これらの部類は、関連信号の簡潔な表現に対応する。さらに、分類部64は、生成された特性ベクトルを、それぞれ、定義済み部類と定義済み信号に関連づける役割を有する。
【0064】
次の表は、異なる状況下での認識率の概略を与える。
【0065】
【表1】
Figure 2004530153
【0066】
この表は、最初の180秒が参照データとして訓練された、全部で305編の音楽データについて、図5のデータバンク54を使用した認識率を示す。この認識率は、信号影響における依存度において適切に認識されたデータの数の割合を示す。二行目は、音量が特性として使用された際の認識率を示す。特に、4つのスペクトル帯域において音量が計算され、次に、音量値の対数化が行われ、そして次に、時間が連続したそれぞれのスペクトル帯域のための対数化された音量値の相違形成が実行された。得られた結果は、音量用の特性ベクトルとして使用された。
【0067】
最終行では、SFMが、四つの帯域用の特性ベクトルとして使用された。
【0068】
調性を分類特性として使用する本発明に係る方法は、30秒の部分が考慮される際、MP3に符号化されたデータの100%の認識率をもたらし、一方で、本発明に係る特性および音量の両方における認識率は、検査される信号の短い部分(15秒のような)が認識用に使用されるとき、特性として減少することがわかる。
【0069】
すでに述べたように、図2に示す装置は、図1に示す認識システムを訓練するために使用されうる。一般に、図2に示す装置は、どのようなマルチメディアデータ組に対しても、メタ記述、すなわち、索引を生成するので、それぞれ、その調性度に関連するデータ組を検索でき、かつ、データバンクからデータ組を出力できる。データ組は、それぞれ、特定の調性ベクトルを有し、所定の調性ベクトルに類似する。
【図面の簡単な説明】
【図1】
本発明に係る、信号を特徴付ける装置の概略を示すブロック図である。
【図2】
本発明に係る、信号索引化する装置の概略を示すブロック図である。
【図3】
スペクトル成分ごとの調性から調性度を計算する装置の概略を示すブロック図である。
【図4】
スペクトル単調度(SFM)から調性度を決定する概略を示すブロック図である。
【図5】
調性度を特性として使用しうる構造認識システムの概略を示すブロック図である。

Claims (21)

  1. 調性は音声内容に依存し、かつ、雑音声信号の調性は音声様信号の調性とは異なるような、信号の調性度を決定する工程(12)と
    上記信号の調性度に基づいて、上記信号の音声内容についての明細を作成する工程(16)とを備える音声内容を表す信号を特徴付ける方法。
  2. 上記明細を作成する工程(16)は、
    上記信号の調性度と、異なる音声内容を表す複数の既知信号のための複数の既知の調性度とを比較する工程(64)と、
    上記既知信号に関連する、上記特徴付けられる信号の調性度が、上記調性度への所定の偏差以下を有する場合、上記既知信号の内容に対応して、上記特徴付けられる信号の音声内容を決定する工程とを有する、請求項1に記載の音声内容を表す信号を特徴付ける方法。
  3. 相関性が決定される際、特徴付けられる信号の表題、著者または他のメタ情報を出力する、請求項2に記載の音声内容を表す信号を特徴付ける方法。
  4. 上記調性度は定量的な量であり、
    上記決定される信号の調性度と、既知信号の既知の調性度との間の調性距離を計算する工程と、
    上記調性距離に依存し、かつ、特徴付けられる信号内容と上記既知信号の内容との類似性を表すような、特徴付けられる信号の類似度を示す工程とをさらに備える、請求項1に記載の音声内容を表す信号を特徴付ける方法。
  5. 上記特徴付けられる信号は原信号からの符号化に由来し、
    上記符号化は、上記原信号の周波数領域へのブロック様式の変換と、音響心理的モデルによって制御される上記原信号のスペクトル値の定量化とを備える、請求項1に記載の音声内容を表す信号を特徴付ける方法。
  6. 原信号をスピーカに出力し、マイクロフォンで録音することによって、特徴付けられる信号が提供される、請求項1〜4に記載の音声内容を表す信号を特徴付ける方法。
  7. 上記特徴付けられる信号は、調性度を側面情報として備え、
    上記決定する工程(12)は、上記側面情報から上記調性度を読み出す、請求項1〜6に記載の音声内容を表す信号を特徴付ける方法。
  8. 調性度を決定する工程(12)は、
    スペクトル係数のブロックを取得するために、特徴付けられる信号の時間サンプルのブロックを、スペクトル表現に変換する工程と、
    上記スペクトル成分のブロックのスペクトル成分の度合いを決定する工程と、
    スペクトル成分の周辺の上記スペクトル成分の度合いを決定する工程と、
    スペクトル成分の度合いが、所定係数を乗じた周辺スペクトル成分の度合いを超過する場合、スペクトル成分の1つを有調として分類する工程と
    上記分類されたスペクトル成分を使用して上記調性度を計算する工程とを備える、請求項1〜6に記載の音声内容を表す信号を特徴付ける方法。
  9. 上記調性度を決定する工程(12)は、
    スペクトル係数を取得するために、上記特徴付けられる信号の時間サンプルの現在のブロックを、スペクトル表現に変換する工程と、
    上記現在のブロックに先立つ、上記特徴付けられる信号のサンプルの情報を用いて、上記スペクトル成分の現在のブロックの上記スペクトル成分を予測する工程と、
    スペクトル成分の1つにつき1つの予測エラーを取得するために、上記予測する工程によって取得した上記スペクトル成分から変換して取得したスペクトル成分を引き算することによって、上記予測エラーを決定する工程と、
    上記予測エラーを使用して調性度を計算する工程とを備える、請求項1〜6に記載の音声内容を表す信号を特徴付ける方法。
  10. 上記調性度を決定するため、上記スペクトル成分の度合いは、スペクトル成分の1つを有する周波数帯域におけるスペクトル成分の度合いの平均値に関係している、請求項1〜6に記載の音声内容を表す信号を特徴付ける方法。
  11. 上記調性度を決定する工程(12)は、
    スペクトル成分のブロックを取得するために、上記特徴付けられる信号のサンプルのブロックを、正の実数値スペクトル表現に変換する工程(30)と、
    前処理されたスペクトル成分のブロックを取得するために、上記正の実数値表現を任意に前処理する工程と、
    微分フィルタ処理されたスペクトル成分を取得するために、上記スペクトル成分のブロックまたは上記前処理されたスペクトル成分のブロックを、微分特性フィルタによってフィルタリングする工程と、
    上記微分フィルタ処理されたスペクトル成分を使用して、上記スペクトル成分の調性を決定する工程と、
    上記スペクトル成分の上記調性を使用して調性度を計算する工程(34)とを備える、請求項1〜6に記載の音声内容を表す信号を特徴付ける方法。
  12. 上記調性度を決定する工程(12)は、
    上記特徴付けられる信号のための、正の実数値スペクトル成分のブロックを計算する工程(40)と、
    分子としての、上記スペクトル成分のブロックの複数のスペクトル成分の幾何平均値の比率と、分母にある、上記複数のスペクトル成分の算術的平均値とで商を形成する工程(42)とを備えており、
    上記商は調性度として機能し、
    0に近い上記商は調性信号を示し、
    1に近い上記商は平坦なスペクトル曲線を示す、請求項1〜7に記載の音声内容を表す信号を特徴付ける方法。
  13. 周波数が近接した少なくとも二つのスペクトル成分が集合化され、個別のスペクトル成分ではなく集合化されたスペクトル成分がさらに処理される、請求項8,10,11または12に記載の音声内容を表す信号を特徴付ける方法。
  14. 上記特徴付けられる信号の短期スペクトルを決定する工程(12)は、n個の帯域に分割され、ここで、調性度はあらゆる帯域に対して決定され、
    上記特徴付けられる信号のm個の連続した短期間スペクトルに対して、それぞれn個の調性度が決定され、
    調性ベクトルはm×n個に等しい次元に対して生成され、
    mおよびnは1と等しいか1よりも大きい、請求項1〜13に記載の音声内容を表す信号を特徴付ける方法。
  15. 上記調性度は、上記調性ベクトルであるか、または上記特徴付けられる信号からの複数の時間的に連続した調性ベクトルの確率値であり、
    上記確率値は、平均値か、高次の偏差か、中央値か、または上述の確率値の組み合わせである、請求項14に記載の音声内容を表す信号を特徴付ける方法。
  16. 上記調性度は、複数の調性ベクトルの相違または線形フィルタ処理された複数の調性ベクトルの相違に由来する、請求項14に記載の音声内容を表す信号を特徴付ける方法。
  17. 調性は音声内容に依存し、かつ、雑音声信号の調性は音声様信号の調性とは異なるような、信号の調性度を決定する工程(22)と、
    上記信号に関連した、信号の音声内容を示す索引として、調性度を記録する工程(26)とを備える、音声内容を構成する索引信号を生成する方法。
  18. 上記調性度を決定する工程(22)は、
    上記信号の異なるスペクトル成分またはスペクトル成分の集合に関する調性値を計算する工程と、
    上記調性度を取得するために調性量を処理する工程(60)と
    上記信号を上記調性度に依存した信号部類に関連づける工程とを備える、請求項17に記載の音声内容を構成する索引信号を生成する方法。
  19. 複数の信号の調性特性に言及する関連索引と同時に、上記信号に対する参照のデータバンク(54)を取得するために、上記複数の信号に対して実行される、請求項17に記載の音声内容を構成する索引信号を生成する方法。
  20. 調性は音声内容に依存し、かつ、雑音声信号の調性は音声様信号の調性とは異なるような、信号の調性度を決定する手段(12)と、
    上記信号の調性度に基づいて、上記信号の音声内容についての明細を作成する手段(16)とを備える、音声内容を表す信号を特徴付ける装置。
  21. 調性は音声内容に依存し、かつ、雑音声信号の調性は音声様信号の調性とは異なるような、信号の調性度を決定する手段(22)と
    上記信号に関連した、信号の音声内容を示す索引として、調性度を記録する手段(26)とを備える、音声内容を構成する索引信号を生成する装置。
JP2002572563A 2001-02-28 2002-02-26 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 Expired - Fee Related JP4067969B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10109648.8 2001-02-28
DE10109648A DE10109648C2 (de) 2001-02-28 2001-02-28 Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
PCT/EP2002/002005 WO2002073592A2 (de) 2001-02-28 2002-02-26 Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals

Publications (3)

Publication Number Publication Date
JP2004530153A JP2004530153A (ja) 2004-09-30
JP2004530153A6 true JP2004530153A6 (ja) 2005-01-06
JP4067969B2 JP4067969B2 (ja) 2008-03-26

Family

ID=7675809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002572563A Expired - Fee Related JP4067969B2 (ja) 2001-02-28 2002-02-26 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置

Country Status (9)

Country Link
US (1) US7081581B2 (ja)
EP (1) EP1368805B1 (ja)
JP (1) JP4067969B2 (ja)
AT (1) ATE274225T1 (ja)
AU (1) AU2002249245A1 (ja)
DE (2) DE10109648C2 (ja)
DK (1) DK1368805T3 (ja)
ES (1) ES2227453T3 (ja)
WO (1) WO2002073592A2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7277766B1 (en) 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
US7890374B1 (en) 2000-10-24 2011-02-15 Rovi Technologies Corporation System and method for presenting music to consumers
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10157454B4 (de) * 2001-11-23 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
US7027983B2 (en) * 2001-12-31 2006-04-11 Nellymoser, Inc. System and method for generating an identification signal for electronic devices
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
AU2003281641A1 (en) * 2002-07-22 2004-02-09 Koninklijke Philips Electronics N.V. Determining type of signal encoder
US20040194612A1 (en) * 2003-04-04 2004-10-07 International Business Machines Corporation Method, system and program product for automatically categorizing computer audio files
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
JP2006018023A (ja) * 2004-07-01 2006-01-19 Fujitsu Ltd オーディオ信号符号化装置、および符号化プログラム
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
EP1816639B1 (en) * 2004-12-10 2013-09-25 Panasonic Corporation Musical composition processing device
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
US8068719B2 (en) 2006-04-21 2011-11-29 Cyberlink Corp. Systems and methods for detecting exciting scenes in sports video
JP4597919B2 (ja) * 2006-07-03 2010-12-15 日本電信電話株式会社 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
US8450592B2 (en) * 2006-09-18 2013-05-28 Circle Consult Aps Method and a system for providing sound generation instructions
US7873634B2 (en) * 2007-03-12 2011-01-18 Hitlab Ulc. Method and a system for automatic evaluation of digital files
US8990073B2 (en) 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
US8412340B2 (en) * 2007-07-13 2013-04-02 Advanced Bionics, Llc Tonality-based optimization of sound sensation for a cochlear implant patient
US8401845B2 (en) 2008-03-05 2013-03-19 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
US7923624B2 (en) * 2008-06-19 2011-04-12 Solar Age Technologies Solar concentrator system
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
US8620967B2 (en) * 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
US20110041154A1 (en) * 2009-08-14 2011-02-17 All Media Guide, Llc Content Recognition and Synchronization on a Television or Consumer Electronics Device
US20110078020A1 (en) * 2009-09-30 2011-03-31 Lajoie Dan Systems and methods for identifying popular audio assets
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8677400B2 (en) * 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US20110173185A1 (en) * 2010-01-13 2011-07-14 Rovi Technologies Corporation Multi-stage lookup for rolling audio recognition
US8812310B2 (en) * 2010-08-22 2014-08-19 King Saud University Environment recognition of audio input
JP5851455B2 (ja) * 2013-08-06 2016-02-03 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
KR102137537B1 (ko) 2015-06-30 2020-07-27 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 잡음을 연관시키기 위한 그리고 분석하기 위한 방법 및 장치
US9743138B2 (en) 2015-07-31 2017-08-22 Mutr Llc Method for sound recognition task trigger
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN109584904B (zh) * 2018-12-24 2022-10-28 厦门大学 应用于基础音乐视唱教育的视唱音频唱名识别建模方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
US5510572A (en) * 1992-01-12 1996-04-23 Casio Computer Co., Ltd. Apparatus for analyzing and harmonizing melody using results of melody analysis
JPH06110945A (ja) * 1992-09-29 1994-04-22 Fujitsu Ltd 音楽データベース作成装置及びその検索装置
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Similar Documents

Publication Publication Date Title
JP4067969B2 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP4184955B2 (ja) 識別パターンを生成するための方法及び装置、並びにオーディオ信号識別のための方法及び装置
US11087726B2 (en) Audio matching with semantic audio recognition and report generation
US7478045B2 (en) Method and device for characterizing a signal and method and device for producing an indexed signal
AU2016208377B2 (en) Audio decoding with supplemental semantic audio recognition and report generation
Herre et al. Robust matching of audio signals using spectral flatness features
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
KR100896737B1 (ko) 오디오 신호의 견고한 분류를 위한 장치 및 방법, 오디오신호 데이터베이스를 설정 및 운영하는 방법, 및 컴퓨터프로그램
Allamanche et al. Content-based Identification of Audio Material Using MPEG-7 Low Level Description.
US9313593B2 (en) Ranking representative segments in media data
US7035742B2 (en) Apparatus and method for characterizing an information signal
CN109493881B (zh) 一种音频的标签化处理方法、装置和计算设备
GB2403881A (en) Automatic classification/identification of similarly compressed audio files
WO2015114216A2 (en) Audio signal analysis
Panagiotou et al. PCA summarization for audio song identification using Gaussian mixture models
Deshmukh et al. North Indian classical music's singer identification by timbre recognition using MIR toolbox
Rizzi et al. Genre classification of compressed audio data
Kos et al. Online speech/music segmentation based on the variance mean of filter bank energy
Gruhne Robust audio identification for commercial applications