JP4797342B2

JP4797342B2 - オーディオデータを自動的に認識する方法及び装置

Info

Publication number: JP4797342B2
Application number: JP2004208915A
Authority: JP
Inventors: ジアンツアン，; ウエイルー，; シャオビングサン，
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-07-28
Filing date: 2004-07-15
Publication date: 2011-10-19
Anticipated expiration: 2024-07-15
Also published as: SG140445A1; JP2005049859A; US8140329B2; US20050027514A1

Description

本発明は、オーディオデータ、特に一般的なオーディオ機器によって再生される、及びマイクロホンによって録音された後のオーディオファイルから得られるオーディオデータ、又は既存のデジタルオーディオセグメントを自動的に認識する方法及び装置に関する。

最近、インターネット及びデジタルコンピュータの発展に伴い、デジタル音楽のようなデジタルオーディオデータが、広く使用されている。何千ものオーディオファイルが、記録され、デジタルの世界を介して伝送されている。これは、膨大な数のオーディオファイルの中から特定の１つを探したいユーザが単に聴いてそれを見付け出すことは、非常に困難であることを意味する。自動的にオーディオデータを認識できる自動オーディオ認識（Automatic Audio Recognition：ＡＡＲ）システムの開発が大いに期待されている。ＡＡＲシステムは、短い期間のオーディオファイルを記録することにより、騒がしい環境の中であってもそのオーディオファイルを認識できる必要がある。このＡＡＲシステムの代表的なアプリケーションは、自動音楽識別システムである。記録された音楽セグメント又は既存のデジタル音楽セグメントは、このＡＡＲシステムによって、更なるアプリケーションのために認識される。

オーディオデータのオーディオ特徴に基づいてオーディオデータを分析して、認識することができる幾つかのシステムが既に先行技術として存在する。そのようなシステムの一例が、米国特許第５，９１８，２２３号明細書（発明の名称：「オーディオ情報のコンテンツベースの分析、記憶、検索及びセグメンテーションのための製品及び方法」、発明者：Thomas L. Blum et al.）に開示されている。このシステムは、主として、振幅、ピーク、ピッチ、明瞭性、帯域幅、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients：ＭＦＣＣ）のようなオーディオデータの多くのオーディオ特徴を抽出することに依存する。これらのオーディオ特徴は、フレーム毎にオーディオデータから抽出される。その後、デシジョンツリーを用いて、オーディオデータを分類し、認識する。

そのようなシステムにおける１つの課題は、選択されたオーディオデータから、振幅、ピーク、ピッチ、明瞭性、帯域幅、ＭＦＣＣ及びそれらの一次導関数のような多数の特徴の抽出が必要であるが、これは複雑で且つ時間を要する計算である。例えば、ＭＦＣＣの主な目的は、人間の耳の機能を模倣することである。ＭＦＣＣを導く処理は、図４（ａ）に示す６つのステップに分割され、これらは以下の通りである。
１）プリエンファシス：オーディオ信号を、その信号対雑音比を改善するために処理する。
２）窓掛け（windowing）：連続的なオーディオデータを、２５ｍｓのフレームであって、互いに１０ｍｓの部分がオーバラップしたフレームに分割する。オーディオデータをフレームに分割した後、個々のフレームを、各フレームの端にある信号の不連続性を最小限にするために、ハミング窓を用いて処理する。
３）高速フーリエ変換（Fast Fourier Transform：ＦＦＴ）を用いて、オーディオデータの各フレームを、時間領域から周波数領域に変換する。
４）「メル尺度フィルタバンク（Mel Scale Filter Bank）」処理：メル尺度を用いて信号のスペクトルをメル伸縮スペクトル（Mel-warped spectrum）に変換する。これは、フーリエ変換した信号を、１組の帯域通過フィルタに通すことによって、データの著しい損失なしに実行される。フィルタバンクは、三角形状の帯域通過周波数特性を有する。これは、周波数領域においては不均一であるが、メル伸縮スペクトルの中では均一に分布する。
５）その後、各メルスペクトル係数の対数を取ることにより、周波数が１０００Ｈｚ以上の係数は縮小され、低い周波数の係数は強調される。
６）最後に、対数メルスペクトル係数を、離散コサイン変換（ＤＣＴ）を用いて時間領域へ変換して、メル周波数ケプストラム係数（ＭＦＣＣ）を得る。

このようなシステムに関する１つの課題は、オーディオデータ中の雑音についての影響である。このシステムで抽出されるオーディオ特徴は、雑音に敏感である。特にＭＦＣＣ特徴は、白色ガウス雑音に極めて敏感である。白色ガウス雑音は、広帯域の信号であり、全ての周波数において等しいエネルギを有する。メル尺度フィルタが、高い周波数で広い通過帯域を有するので、高い周波数でのＭＦＣＣ結果は、信号対雑音比（ＳＮＲ）が低くなる。この効果は、上述のステップ５、すなわち対数演算によって強調される。そして、ステップ６、すなわちＤＣＴ演算の後のＭＦＣＣ特徴は、時間領域の全体に亘って影響を受ける。ＡＡＲシステムの回路には、常に白色ガウス雑音が存在する。マイクロホンでオーディオデータを録音するときにも、白色ガウス雑音がオーディオデータに加えられる。更に実際の状況では、多くの環境雑音もある。これらの雑音は全て、ＡＡＲシステムが記録されたデータを処理するのを困難にしている。

既知のシステムに関する他の課題は、高い認識精度を達成するためには、オーディオデータファイルのより多くの部分を必要とする。しかしながら、実際の状況では、オーディオファイルのより多くの部分を記録して要求された特徴を抽出するには、長い時間を必要とするので、リアルタイム認識の達成が困難になっている。

オーディオ認識の概念は、音声認識と話者識別では頻繁に使用されている。音声認識と話者識別は、音声の比較により実行されるので、上述の技術についての研究は、音声特徴の抽出を中心に行われている。オーディオデータが音声（スピーチ）ではない場合、オーディオ認識タスクが全く異なるので、音（サウンド）の種類を全て比較し得る更に一般的な手法が必要である。音声認識システムで使用されるオーディオ特徴は、通常ＭＦＣＣ又は線形予測符号化（ＬＰＣ）である。また、オーディオトレーニングデータを使用して、音声認識システムがトレーニングされる場合、トレーニングデータはマイクロホンを使用して集められるので、既に白色ガウス雑音を含んでいる。したがって、トレーニングデータの適応的学習では、白色ガウス雑音の影響は克服される。しかしながら、音楽ファイルを認識するためのＡＡＲシステムとの関連では、トレーニングデータは、認識されるオーディオデータよりもはるかに低いレベルの白色ガウス雑音を有するデジタルデータであるので、白色ガウス雑音の影響は無視することができない。

米国特許明細書第５，９１８，２２３号 "Speech Feature Extraction Using Independent Component Analysis" by J. -H. Lee et al, at 3ｒｄ International Conference of Independent Component Analysis, 2001, San Diego, CA, USA

本発明の目的は、高い認識精度を達成することができ、白色ガウス雑音及び環境雑音を含む雑音に強健（robust）な、オーディオデータを自動的に認識する方法及び装置を提供することである。

本発明に係るオーディオファイル識別方法は、複数のオーディオファイル中で第１のオーディオファイルを識別し、該第１のオーディオファイルから導出されたオーディオデータのセグメントを用いるオーディオファイル識別方法において、（ａ）上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成するステップと、（ｂ）上記観察ベクトルを用いて、上記第１のオーディオファイルを認識するステップとを有し、上記オーディオ特徴は、上記オーディオデータのセグメントの独立成分分析（ＩＣＡ分析）によって得られたＩＣＡ特徴と、上記オーディオデータのセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、メル尺度フィルタバンクの出力にＩＣＡ分析を適用することによって得られたＩＣＡ−ＭＦＣＣ特徴との少なくとも１つを含んでいることを特徴とする。

本発明に係るオーディオファイル識別装置は、複数のオーディオファイル中から、第１のオーディオファイルから導出されたオーディオデータのセグメントに基づき、該第１のオーディオファイルを識別するオーディオファイル識別装置において、（ａ）上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成する手段と、（ｂ）上記観察ベクトルを用いて、上記第１のオーディオファイルを認識する識別手段とを備え、上記オーディオ特徴は、（ｉ）上記オーディオデータセグメントを独立成分分析手段（ＩＣＡ分析手段）へ渡すことにより得られたＩＣＡ特徴と、（ｉｉ）上記オーディオセグメントを高速フーリエ変換を用いて周波数領域に変換し、メル尺度フィルタバンクを適用し、該メル尺度フィルタバンクの出力をＩＣＡ分析方法へ渡すことによって得られたＩＣＡ-ＭＦＣＣ特徴との少なくとも１つを含むことを特徴とする。

本発明は、添付図面を参照して、好ましい実施形態の以下の詳細な説明により更によく理解される。全体を通じて、同一の要素には、同一の参照番号が参照される。

図１は、本発明の実施形態であるＡＡＲシステムの手順を概略的に示すフローチャートである。図１の左側部分に示すフローにおいて、テレビ、ＣＤプレーヤ又はカセットレコーダのような一般的なオーディオ装置で再生されるオーディオファイルは、マイクロホンによって記録され、次にＡＡＲシステムによって認識される。図１の右側部分に示すフローにおいて、デジタル形式の既存のオーディオセグメントも、ＡＡＲシステムによって認識することができる。認識結果は、オーディオファイル又はオーディオセグメントのオーディオラベルである。オーディオラベルは、他のアプリケーションで使用するのに適したフォーマットで生成することができる。

オーディオデータ認識を実行する本発明の実施形態を、図３に詳細に示し、また、実施形態、すなわち「オーディオデータモデル化」を生成する処理を、図２に示す。実施形態は、自動オーディオ認識の新たなスキームを用いるが、これには、特徴抽出の新たな処理、及び抽出された特徴からのオーディオファイル認識の新たな処理を含む。認識されるオーディオファイル、すなわち「目標オーディオファイル」の数はＷによって示される。

特徴抽出に当たり、改良したメル周波数ケプストラム係数（improved mel frequency cepstrum coefficients：ＩＭＦＣＣ）特徴及び独立成分分析（Independent Component Analysis：ＩＣＡ）特徴が、ＡＡＲシステムに導入される。上述のように、従来のＭＦＣＣ特徴は、白色ガウス雑音に極めて敏感である。ＭＦＣＣ特徴を改良することで、ＡＡＲシステムは白色ガウス雑音に対して強健になる。この実施形態では、ＭＦＣＣ特徴は２つの代替的な方法に改良される。すなわち、従来のＭＦＣＣアルゴリズムから対数演算を除去すること、及びＭＦＣＣアルゴリズムの対数演算及び離散コサイン変換（ＤＣＴ）をＩＣＡ処理に取り替えることである。これらの２つの方法の詳細については後述する。別の種類のオーディオ特徴は、ＩＣＡ特徴と呼ばれる。オーディオデータからオーディオ特徴を直接抽出する独立成分分析（ＩＣＡ）方法を使用することによって、ＡＡＲシステムの性能は飛躍的に改良される。

ＭＦＣＣ特徴を改良する２つの方法を、図４〜図６に示す。上述のように、従来のＭＦＣＣアルゴリズムによって得られたＭＦＣＣ特徴は、白色ガウス雑音に極めて敏感である。ＭＦＣＣ特徴は、ＭＦＣＣ特徴における白色ガウス雑音のマイナス面の効果を減少させることにより改良されるので、ＡＡＲシステムを雑音に対して強健にすることができる。この実施形態は、マシンによって生成されたオーディオデータの認識のためのものなので、人間の認識との厳密な類似点は必要ではない。図４（ａ）に示すような従来のＭＦＣＣアルゴリズムのステップ５における対数演算は、人間の耳の効果を模倣することであるので、機械認識には、全く必要ではない。更に、対数演算は、雑音となる傾向の低レベルの信号を増幅する。これを考慮して、図４（ｂ）に示すように、ＭＦＣＣ特徴を改良する第１の方法は、従来のＭＦＣＣアルゴリズムからステップ５を除去することである。その結果として改良されたＭＦＣＣ特徴（ＩＭＦＣＣ１と称する）は、実際の環境雑音及び白色ガウス雑音の双方に対して、より強健となる。

ＭＦＣＣ特徴を改良する第２の方法は、ＩＣＡ分析として知られる技術によって動機付けられるが、これは、オーディオデータから、より高い統計として、なるべく独立した１組の特徴を抽出することを目標としている。非特許文献１で示されるように、画像及び音声処理において特徴を抽出するために、例えば音声認識アプリケーション用に音声特徴を抽出するために、ＩＣＡは、広く使用されている。この分析は、単に２次統計量（2nd order statistic）に基づくＤＣＴ演算によって生成されたものよりも更に識別可能な音声特徴を生成する。図５（ｂ）に示すように、ＭＦＣＣ特徴を改良する第２の方法は、ＩＣＡ処理で従来のＭＦＣＣアルゴリズムでの対数とＤＣＴの演算に取って代わることであり、これは、ＩＭＦＣＣ２と称するＩＣＡベースのＭＦＣＣ特徴となる。

図６及び図７は、図５（ｂ）のＩＣＡ処理を示す。これは、第１のステップ及び第２のステップを含んでいる。図６に示す第１のステップは、ＭＦＣＣ処理のステップ４の結果を使用してＩＣＡ基底関数（Ａ）及び重み関数（Ｗ）を導出するものであり、図７に示す第２のステップは、ＩＣＡ変換としてＩＣＡ基底関数及び重み関数を使用してＩＣＡ係数、すなわちＩＭＦＣＣ２を生成するものである。

図６に示すように、図５（ｂ）のＩＣＡベースのＭＦＣＣアルゴリズムのステップ４の結果（すなわちメル尺度フィルタバンクの結果）は、メルスペクトル信号をセグメント化し、且つ信号の隣接セグメントの端部をオーバーラップさせるように区分されて、端部での信号の不連続を最小限にする。その後、信号は、主成分分析（Principle Component Analysis：ＰＣＡ）アルゴリズムで無相関化されるが、ここでは、観察された信号（すなわちメルスペクトル信号）の共分散行列（covariance matrix）の固有ベクトルＶを見つけるように、ＰＣＡアルゴリズムが適用されて、観察された信号中の２次の相関性は除去される。その後、無相関化信号は、ＩＣＡ学習に使用されるが、直交ＩＣＡ偏析（demixing）行列ｄｗを学習するために高速ＩＣＡアルゴリズムが使用され、無相関化信号は、統計的に独立した成分に分けられる。ＩＣＡ学習の結果は、基底関数Ａ及び重み関数Ｗであるが、ここで、基底関数Ａ＝Ｖ^＋×ｄｗ^Ｔ、重み関数Ｗ＝ｄＷ×Ｖであり、＋は、非正方行列に対する擬似逆行列（pseudo-inverse）又は正方行列に対する逆行列を示し、Ｔは、行列転置演算を示す。

図７に示すように、ＩＣＡ基底関数Ａ及び重み関数Ｗが計算された後、ＭＦＣＣ処理（すなわちメルスペクトル係数）のステップ４の結果は、ＩＣＡ係数（すなわちＩＣＡベースのＭＦＣＣ特徴、ＩＭＣＣ２）を得るために、ＩＣＡ基底関数及び重み関数の助けを借りて、ＩＣＡ変換される。

一方、図４（ｂ）及び図５（ｂ）では、特徴であるＩＭＦＣＣ１及びＩＭＦＣＣ２が、フーリエ解析及びメルスペクトル処理を含む処理によって得られる。図８及び図９は、時間領域においてオーディオデータからＩＣＡ特徴を抽出する処理を示す。得られる信号を、ここではＩＣＡ１と称する。

図８は、オーディオデータから無作為に選択されたオーディオセグメントを入力することによって、ＩＣＡ基底関数及び重み関数を計算する処理を示す。また、図９は、同じオーディオセグメント入力からのＩＣＡ係数ＩＣＡ１を計算する処理を示す。図８及び図９に示す手順が、ＩＣＡ係数ＩＣＡ１の計算のために、オーディオセグメントがプリエンファシスと窓掛けに供される以外は、図６及び図７とそれぞれほとんど同じであることが理解され得る。プリエンファシスは、雑音を減少させ、且つオーディオ信号のＳＮＲを改善するために、オーディオセグメントの前処理をする。また、信号を分割し、分割された信号の不連続を除去するように、窓掛けは、信号にフレームを付け且つ窓を掛けるために使用される。なお、図５（ｂ）のステップ４の結果が、ステップ１及び２において既にプリエンファシスされ且つ窓掛けされているので、この演算は、図７の中では必要ではない。

上述の２つのオーディオ特徴抽出方法によって、オーディオ特徴（ＩＭＦＣＣ１、ＩＭＦＣＣ２、ＩＣＡ１）のベクトルを得ることができる。

パターン認識のために、隠れマルコフモデル（Hidden Markov Model：ＨＭＭ）が本発明のＡＡＲシステムに導入される。各オーディオファイルについて、等しい長さ（例えば５秒）を有するセグメントが、目標オーディオファイルの各々から無作為に選択され、且つＨＭＭモデルをトレーニングするために使用される。オーディオデータからＨＭＭモデルをトレーニングするために十分なセグメントを選択することによって、オーディオデータはこれらのＨＭＭモデルによって表わすことができる。認識処理中は、目標オーディオデータファイルからの、又は既存のデジタルオーディオデータからの１つのセグメントだけが必要である。このセグメントにより、ＨＭＭ認識アルゴリズムは、ＨＭＭモデルの全てを含んでいるモデルデータベースを用いて、そのラベルを認識することができる。

図２は、オーディオ特徴抽出、オーディオデータモデルのトレーニング及びモデルデータベースの生成を含むオーディオデータモデル化処理のフローチャートを示す。多くのオーディオ特徴、例えば振幅、ピーク、ピッチ、明瞭性、帯域幅、ＭＦＣＣ及びそれらの一次導関数を用いる従来のシステムと異なり、この実施形態では、先行技術よりも特徴抽出をより速く且つ効率的にする改良されたＭＦＣＣ特徴ＩＭＦＣＣ１、ＩＭＦＣＣ２及びＩＣＡ特徴ＩＣＡ１だけを使用する。

図２のＨＭＭモデル化の処理について説明する。ステップ２０１において、予め定義された長さ（ｍ秒：これはトレーニング処理全体について変わらない）の所定数（Ｎ）のオーディオセグメントが、無作為に各目標オーディオファイル（すなわち認識されるＷ個のオーディオファイルの各々）から選択される。例えば、各目標オーディオファイルから、５秒の長さを有する９０個のオーディオセグメントを、選択するようにしてもよい。目標オーディオファイルは、予め記録されたオーディオデータ又は既存のデジタルオーディオデータである。次に、ステップ２０２において、オーディオセグメントは、オーディオセグメントをフレーム化し窓掛けする信号前処理が施される。ステップ３において、オーディオ特徴［ＩＭＦＣＣ１、ＩＭＦＣＣ２及びＩＣＡ１］のベクトルが、上述の方法によって、各セグメント毎に得られる。ステップ２０１〜２０３は、各目標オーディオファイル毎に繰り返される。各目標オーディオファイルの各セグメント毎のそれぞれのベクトルは、ＨＭＭへのデータ入力として用いられる。

この実施形態では、Ｗ個の目標オーディオファイル毎に、それぞれのＨＭＭモデルを使用する。また、各ＨＭＭは、左から右の構造（left-to-right structure）を有する。本発明は、左から右の構造を有するモデルに限定されないが、そのようなモデルが好ましい。その理由としては、これらの構造が、データ構造に似ている（すなわち、線形の時系列が、左から右へのＨＭＭ構造を表わす）からである。従来のように、各ＨＭＭの状態は、ここでは１組のモデルパラメータλ＝｛Ａ，Ｂ，π｝として示される。ステップ２０４において、目標オーディオファイル毎のＨＭＭモデルは、トレーニングデータに従って初期化される。このステップで、ＨＭＭは、トレーニングデータが、どの目標オーディオファイル（「分類」）から来るのか伝えられる。目標オーディオファイル毎に、モデルパラメータλ＝｛Ａ，Ｂ，π｝が、既知のＨＭＭ初期化アルゴリズムを使用して、トレーニングデータに基づいた初期値に設定される。

モデルトレーニングステップ２０５中に、Ｗ個の初期化したＨＭＭモデルは、ＨＭＭトレーニングアルゴリズムを用いて、モデルパラメータを最適化するようにトレーニングされる。トレーニング処理中に、トレーニングデータが最も良く表わされる最適モデルパラメータを見つけるために、反復方法が適用される。この手順中でモデルをＰ（Ｏ｜λ）と仮定すると（ここで、Ｏは、観察を表わす）、モデルパラメータλ＝｛Ａ，Ｂ，π｝は、観察の確率を最大にするために調節される。したがって、ＨＭＭパラメータの最適化は、確率論（すなわち期待値最大化技術）の適用である。

各モデルのモデルパラメータλ＝｛Ａ，Ｂ，π｝を見つけた後、ステップ２０６において、データＤ＝｛λ_１，λ_２，・・・，λ_Ｗ｝を含むデータベース２０７が、目標オーディオファイルについて全てのモデルを含んで生成される。例えば、ＡＡＲシステムが歌認識システムである場合、選択された歌毎にモデルを含むデータベースが準備されるので、歌認識システムは、このデータベース中の選択された歌を全て認識することができる。各モデルは、更なる認識のための所定の音声ラベルに関係している。

オーディオモデル化データベース２０７を準備した後、次のタスクは、オーディオ認識スキームを構築することである。オーディオ認識処理を図３に示す。ステップ３０１に示すように、第１のタスクは、観察データを得ることである。観察データは、マイクロホンで録音されたオーディオデータ又は既存のデジタルオーディオデータファイルから、ｍ秒の長さで１つのセグメントを切り取ることにより得られる。オーディオデータが、テレビ、ＣＤプレーヤ、カセットレコーダのような一般的なオーディオ装置で再生される場合、ｍ秒の長さで、マイクロホンはこのオーディオデータの１つのセグメントを録音するが、これはトレーニング処理と同じである。なお、ｍの値は、例えば５秒以上のように、調整可能である。その後、ステップ３０２において、上述したように、得られたセグメントは、雑音の低減と同様に、フレーム化及び窓掛けするために、信号の前処理が施される。ステップ３０３において、前処理が施されたセグメントについて、オーディオ特徴の観察ベクトルＯ＝［ＩＭＦＣＣ１；ＩＭＦＣＣ２；ＩＣＡ１］が、上述のオーディオ特徴抽出方法を用いて計算される。ステップ３０４において、一旦観察ベクトルＯが得られれば、前向き−後ろ向きアルゴリズムが、与えたモデルに対して、観察ベクトルＯの確率を計算するために用いられる。この確率に基づいて、モデルを、ｋ＝ｍａｘ_{ｉ＝１，２，・・・，Ｗ}｛Ｐ（Ｏ）｜λ_ｉ｝と仮定すると、オーディオ認識は、観察の最大の確率を有するデータベースＤ＝｛λ_１，λ_２，・・・，λ_Ｗ｝に格納されたモデル中のモデルλ_ｋを見つけることにより、実行される。モデルλ_ｋに対応するオーディオラベルは、ステップ３０５の認識結果として出力される。

本発明の上述した説明は、一例を示すことを意図するもので、これらに限定するものではない。上述の実施形態の様々な変更又は改変は、当業者には、思い浮かべ得るものであり、また、これらは本発明の範囲から逸脱することなくなし得るものである。例えば、本発明の上述の実施形態では、抽出された音声特徴は、ＩＭＦＣＣ１、ＩＭＦＣＣ２及びＩＣＡ１の組合せである。しかしながら、実験では、オーディオ特徴が、これらの３つから選択された唯一の特徴を含んでいる場合、オーディオ認識は、更に高精度を達成することができることを示している（例えば、１００の目標ファイルで、それぞれが２００秒の平均長さを有する場合に、９５%の精度が得られている。なお、本発明の他の実施形態では、目標ファイルの数がこれよりはるかに多い。）更に、（望ましくはないが、）これらの３つの新たな特徴よりも多くのもののうちの任意の１つを、先行技術における既知の他のオーディオ特徴と結合して使用することができる。

本発明の実施形態であるＡＡＲシステムの典型的な手順を示すフローチャートである。本発明の実施形態であるＡＡＲシステムで実行されるオーディオデータモデル化処理を示すフローチャートである。本発明の実施形態であるＡＡＲシステムで実行されるオーディオデータ認識処理を示すフローチャートである。図４（ａ）及び図４（ｂ）からなる図４は、図２及び３のＡＡＲシステムで使用される従来のＭＦＣＣアルゴリズム及び第１の改良ＭＦＣＣアルゴリズムをそれぞれ示すフローチャートである。図５（ａ）及び５（ｂ）からなる図５は、図２及び３のＡＡＲシステムで使用される従来のＭＦＣＣアルゴリズム（図４（ａ）のような）及び第２の改良されたＭＦＣＣアルゴリズムをそれぞれ示すフローチャートである。ＭＦＣＣ結果から独立成分分析（ＩＣＡ）基底関数／重み関数を計算する、図２及び３のＡＡＲシステムで使用される処理を示すフローチャートである。ＭＦＣＣ結果からＩＣＡ係数を計算する、図２及び３のＡＡＲシステムで使用される処理を示すフローチャートである。オーディオデータ入力より選択されたオーディオセグメントからの独立成分分析（ＩＣＡ）基底関数／重み関数を計算にする、図２及び３のＡＡＲシステムで使用される処理を示すフローチャートである。図８のオーディオセグメントによって独立成分分析（ＩＣＡ）係数を計算する、図２及び３のＡＡＲシステムで使用される処理を示すフローチャートである。

Claims

複数のオーディオファイル中で第１のオーディオファイルを識別し、該第１のオーディオファイルから導出されたオーディオデータのセグメントを用いるオーディオファイル識別方法において、
（ａ）上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成するステップと、
（ｂ）上記観察ベクトルを用いて、上記第１のオーディオファイルを認識するステップとを有し、
上記オーディオ特徴は、上記オーディオデータのセグメントの独立成分分析（ＩＣＡ分析）によって得られたＩＣＡ特徴と、上記オーディオデータのセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、メル尺度フィルタバンクの出力にＩＣＡ分析を適用することによって得られたＩＣＡ−ＭＦＣＣ特徴との少なくとも１つを含んでいることを特徴とするオーディオファイル識別方法。
上記ＩＣＡ分析は、
上記オーディオデータ又はメルスペクトルデータからＩＣＡ基底関数及び重み関数を計算するステップと、
上記基底関数と重み関数を用いて上記オーディオデータ又はメルスペクトルデータをＩＣＡ領域に変換して、ＩＣＡ係数を得るステップとを含むことを特徴とする請求項１記載のオーディオファイル識別方法。
上記オーディオ特徴は上記ＩＣＡ特徴を含み、上記ＩＣＡ特徴を計算するステップは、
上記オーディオデータをプリエンファシスして、該オーディオデータのＳＮＲを向上させるステップと、
上記プリエンファシスされたデータを窓掛けするステップと、
上記窓掛けされたデータを上記ＩＣＡ基底関数及び重み関数でＩＣＡ変換して、上記ＩＣＡ特徴を得るステップとを含むことを特徴とする請求項２記載のオーディオファイル識別方法。
上記オーディオ特徴は上記ＩＣＡ-ＭＦＣＣ特徴を含み、該ＩＣＡ-ＭＦＣＣ特徴は、
上記オーディオデータを前処理して、該オーディオデータをプリエンファシスし且つ窓掛けするステップと、
上記前処理されたオーディオデータを時間領域から周波数領域に変換するステップと、
上記変換されたオーディオデータを１組のメル尺度フィルタに通して、上記メルスペクトルデータを得るステップと、
上記メルスペクトルデータをＩＣＡ処理して第１のＭＦＣＣ特徴としてＩＣＡ係数を得るステップとによって得られることを特徴とする請求項２記載のオーディオファイル識別方法。
上記ＩＣＡ基底関数及び重み関数を計算するステップは、
上記オーディオデータ又はメルスペクトルデータを区分して、区分された信号を得るステップと、
上記区分された信号をＰＣＡアルゴリズムによって無相関にして、無相関信号を得るステップと、
上記無相関信号を高速ＩＣＡアルゴリズムによってＩＣＡ学習して、当該ＩＣＡ基底関数及び重み関数を得るステップとを含むことを特徴とする請求項４記載のオーディオファイル識別方法。
上記オーディオ特徴は、上記オーディオセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、対数処理を適用せずに、該メル尺度フィルタバンク信号の出力を時間領域に変換することによって得られたＭＦＣＣ特徴を更に含むことを特徴とする請求項１乃至５のいずれか１項記載のオーディオファイル識別方法。
上記第１のオーディオファイルを認識するステップは、目標オーディオファイル毎のＨＭＭモデルを含むデータベース内で、目標オーディオファイルが与えられると、得られる観察ベクトルの確率が最大であるＨＭＭを決定にすることにより行われることを特徴とする請求項１記載のオーディオファイル識別方法。
複数のオーディオファイルの中から、第１のオーディオファイルから導出されたオーディオデータのセグメントに基づき、該第１のオーディオファイルを識別するオーディオファイル識別装置において、
（ａ）上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成する手段と、
（ｂ）上記観察ベクトルを用いて、上記第１のオーディオファイルを認識する識別手段とを備え、
上記オーディオ特徴は、
（ｉ）上記オーディオデータセグメントを独立成分分析手段（ＩＣＡ分析手段）へ渡すことにより得られたＩＣＡ特徴と、
（ｉｉ）上記オーディオセグメントを高速フーリエ変換を用いて周波数領域に変換し、メル尺度フィルタバンクを適用し、該メル尺度フィルタバンクの出力をＩＣＡ分析方法へ渡すことによって得られたＩＣＡ-ＭＦＣＣ特徴との少なくとも１つを含むことを特徴とするオーディオファイル識別装置。
上記ＩＣＡ分析手段は、
上記オーディオデータ又はメルスペクトルデータからＩＣＡ基底関数及び重み関数を計算する手段と、
上記オーディオデータ又はメルスペクトルデータを、上記基底関数及び重み関数を用いてＩＣＡ領域に変換して、ＩＣＡ係数を得る手段とを備えることを特徴とする請求項８記載のオーディオファイル識別装置。
上記オーディオ特徴は、上記オーディオセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、対数のステップを適用せずに、該時間領域へメル尺度フィルタバンク信号の出力を変換することによって得られたＭＦＣＣ特徴を更に含むことを特徴とする請求項８又は請求項９記載のオーディオファイル識別装置。
上記識別手段は、
各目標オーディオファイル毎のＨＭＭモデルを含むデータベースと、
上記目標オーディオファイルが与えられると、上記データベース中で、得られる観察ベクトルの確率が最大であるＨＭＭを決定する手段とを備えることを特徴とする請求項８記載のオーディオファイル識別装置。