JP4797342B2 - オーディオデータを自動的に認識する方法及び装置 - Google Patents

オーディオデータを自動的に認識する方法及び装置 Download PDF

Info

Publication number
JP4797342B2
JP4797342B2 JP2004208915A JP2004208915A JP4797342B2 JP 4797342 B2 JP4797342 B2 JP 4797342B2 JP 2004208915 A JP2004208915 A JP 2004208915A JP 2004208915 A JP2004208915 A JP 2004208915A JP 4797342 B2 JP4797342 B2 JP 4797342B2
Authority
JP
Japan
Prior art keywords
audio
ica
audio file
data
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004208915A
Other languages
English (en)
Other versions
JP2005049859A (ja
Inventor
ジアン ツアン,
ウエイ ルー,
シャオビング サン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JP2005049859A publication Critical patent/JP2005049859A/ja
Application granted granted Critical
Publication of JP4797342B2 publication Critical patent/JP4797342B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)

Description

本発明は、オーディオデータ、特に一般的なオーディオ機器によって再生される、及びマイクロホンによって録音された後のオーディオファイルから得られるオーディオデータ、又は既存のデジタルオーディオセグメントを自動的に認識する方法及び装置に関する。
最近、インターネット及びデジタルコンピュータの発展に伴い、デジタル音楽のようなデジタルオーディオデータが、広く使用されている。何千ものオーディオファイルが、記録され、デジタルの世界を介して伝送されている。これは、膨大な数のオーディオファイルの中から特定の1つを探したいユーザが単に聴いてそれを見付け出すことは、非常に困難であることを意味する。自動的にオーディオデータを認識できる自動オーディオ認識(Automatic Audio Recognition:AAR)システムの開発が大いに期待されている。AARシステムは、短い期間のオーディオファイルを記録することにより、騒がしい環境の中であってもそのオーディオファイルを認識できる必要がある。このAARシステムの代表的なアプリケーションは、自動音楽識別システムである。記録された音楽セグメント又は既存のデジタル音楽セグメントは、このAARシステムによって、更なるアプリケーションのために認識される。
オーディオデータのオーディオ特徴に基づいてオーディオデータを分析して、認識することができる幾つかのシステムが既に先行技術として存在する。そのようなシステムの一例が、米国特許第5,918,223号明細書(発明の名称:「オーディオ情報のコンテンツベースの分析、記憶、検索及びセグメンテーションのための製品及び方法」、発明者:Thomas L. Blum et al.)に開示されている。このシステムは、主として、振幅、ピーク、ピッチ、明瞭性、帯域幅、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients:MFCC)のようなオーディオデータの多くのオーディオ特徴を抽出することに依存する。これらのオーディオ特徴は、フレーム毎にオーディオデータから抽出される。その後、デシジョンツリーを用いて、オーディオデータを分類し、認識する。
そのようなシステムにおける1つの課題は、選択されたオーディオデータから、振幅、ピーク、ピッチ、明瞭性、帯域幅、MFCC及びそれらの一次導関数のような多数の特徴の抽出が必要であるが、これは複雑で且つ時間を要する計算である。例えば、MFCCの主な目的は、人間の耳の機能を模倣することである。MFCCを導く処理は、図4(a)に示す6つのステップに分割され、これらは以下の通りである。
1)プリエンファシス:オーディオ信号を、その信号対雑音比を改善するために処理する。
2)窓掛け(windowing):連続的なオーディオデータを、25msのフレームであって、互いに10msの部分がオーバラップしたフレームに分割する。オーディオデータをフレームに分割した後、個々のフレームを、各フレームの端にある信号の不連続性を最小限にするために、ハミング窓を用いて処理する。
3)高速フーリエ変換(Fast Fourier Transform:FFT)を用いて、オーディオデータの各フレームを、時間領域から周波数領域に変換する。
4)「メル尺度フィルタバンク(Mel Scale Filter Bank)」処理:メル尺度を用いて信号のスペクトルをメル伸縮スペクトル(Mel-warped spectrum)に変換する。これは、フーリエ変換した信号を、1組の帯域通過フィルタに通すことによって、データの著しい損失なしに実行される。フィルタバンクは、三角形状の帯域通過周波数特性を有する。これは、周波数領域においては不均一であるが、メル伸縮スペクトルの中では均一に分布する。
5)その後、各メルスペクトル係数の対数を取ることにより、周波数が1000Hz以上の係数は縮小され、低い周波数の係数は強調される。
6)最後に、対数メルスペクトル係数を、離散コサイン変換(DCT)を用いて時間領域へ変換して、メル周波数ケプストラム係数(MFCC)を得る。
このようなシステムに関する1つの課題は、オーディオデータ中の雑音についての影響である。このシステムで抽出されるオーディオ特徴は、雑音に敏感である。特にMFCC特徴は、白色ガウス雑音に極めて敏感である。白色ガウス雑音は、広帯域の信号であり、全ての周波数において等しいエネルギを有する。メル尺度フィルタが、高い周波数で広い通過帯域を有するので、高い周波数でのMFCC結果は、信号対雑音比(SNR)が低くなる。この効果は、上述のステップ5、すなわち対数演算によって強調される。そして、ステップ6、すなわちDCT演算の後のMFCC特徴は、時間領域の全体に亘って影響を受ける。AARシステムの回路には、常に白色ガウス雑音が存在する。マイクロホンでオーディオデータを録音するときにも、白色ガウス雑音がオーディオデータに加えられる。更に実際の状況では、多くの環境雑音もある。これらの雑音は全て、AARシステムが記録されたデータを処理するのを困難にしている。
既知のシステムに関する他の課題は、高い認識精度を達成するためには、オーディオデータファイルのより多くの部分を必要とする。しかしながら、実際の状況では、オーディオファイルのより多くの部分を記録して要求された特徴を抽出するには、長い時間を必要とするので、リアルタイム認識の達成が困難になっている。
オーディオ認識の概念は、音声認識と話者識別では頻繁に使用されている。音声認識と話者識別は、音声の比較により実行されるので、上述の技術についての研究は、音声特徴の抽出を中心に行われている。オーディオデータが音声(スピーチ)ではない場合、オーディオ認識タスクが全く異なるので、音(サウンド)の種類を全て比較し得る更に一般的な手法が必要である。音声認識システムで使用されるオーディオ特徴は、通常MFCC又は線形予測符号化(LPC)である。また、オーディオトレーニングデータを使用して、音声認識システムがトレーニングされる場合、トレーニングデータはマイクロホンを使用して集められるので、既に白色ガウス雑音を含んでいる。したがって、トレーニングデータの適応的学習では、白色ガウス雑音の影響は克服される。しかしながら、音楽ファイルを認識するためのAARシステムとの関連では、トレーニングデータは、認識されるオーディオデータよりもはるかに低いレベルの白色ガウス雑音を有するデジタルデータであるので、白色ガウス雑音の影響は無視することができない。
米国特許明細書第5,918,223号 "Speech Feature Extraction Using Independent Component Analysis" by J. -H. Lee et al, at 3rd International Conference of Independent Component Analysis, 2001, San Diego, CA, USA
本発明の目的は、高い認識精度を達成することができ、白色ガウス雑音及び環境雑音を含む雑音に強健(robust)な、オーディオデータを自動的に認識する方法及び装置を提供することである。
本発明に係るオーディオファイル識別方法は、複数のオーディオファイル中で第1のオーディオファイルを識別し、該第1のオーディオファイルから導出されたオーディオデータのセグメントを用いるオーディオファイル識別方法において、(a)上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成するステップと、(b)上記観察ベクトルを用いて、上記第1のオーディオファイルを認識するステップとを有し、上記オーディオ特徴は、上記オーディオデータのセグメントの独立成分分析(ICA分析)によって得られたICA特徴と、上記オーディオデータのセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、メル尺度フィルタバンクの出力にICA分析を適用することによって得られたICA−MFCC特徴との少なくとも1つを含んでいることを特徴とする。
本発明に係るオーディオファイル識別装置は、複数のオーディオファイル中から、第1のオーディオファイルから導出されたオーディオデータのセグメントに基づき、該第1のオーディオファイルを識別するオーディオファイル識別装置において、(a)上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成する手段と、(b)上記観察ベクトルを用いて、上記第1のオーディオファイルを認識する識別手段とを備え、上記オーディオ特徴は、(i)上記オーディオデータセグメントを独立成分分析手段(ICA分析手段)へ渡すことにより得られたICA特徴と、(ii)上記オーディオセグメントを高速フーリエ変換を用いて周波数領域に変換し、メル尺度フィルタバンクを適用し、該メル尺度フィルタバンクの出力をICA分析方法へ渡すことによって得られたICA-MFCC特徴との少なくとも1つを含むことを特徴とする。
本発明は、添付図面を参照して、好ましい実施形態の以下の詳細な説明により更によく理解される。全体を通じて、同一の要素には、同一の参照番号が参照される。
図1は、本発明の実施形態であるAARシステムの手順を概略的に示すフローチャートである。図1の左側部分に示すフローにおいて、テレビ、CDプレーヤ又はカセットレコーダのような一般的なオーディオ装置で再生されるオーディオファイルは、マイクロホンによって記録され、次にAARシステムによって認識される。図1の右側部分に示すフローにおいて、デジタル形式の既存のオーディオセグメントも、AARシステムによって認識することができる。認識結果は、オーディオファイル又はオーディオセグメントのオーディオラベルである。オーディオラベルは、他のアプリケーションで使用するのに適したフォーマットで生成することができる。
オーディオデータ認識を実行する本発明の実施形態を、図3に詳細に示し、また、実施形態、すなわち「オーディオデータモデル化」を生成する処理を、図2に示す。実施形態は、自動オーディオ認識の新たなスキームを用いるが、これには、特徴抽出の新たな処理、及び抽出された特徴からのオーディオファイル認識の新たな処理を含む。認識されるオーディオファイル、すなわち「目標オーディオファイル」の数はWによって示される。
特徴抽出に当たり、改良したメル周波数ケプストラム係数(improved mel frequency cepstrum coefficients:IMFCC)特徴及び独立成分分析(Independent Component Analysis:ICA)特徴が、AARシステムに導入される。上述のように、従来のMFCC特徴は、白色ガウス雑音に極めて敏感である。MFCC特徴を改良することで、AARシステムは白色ガウス雑音に対して強健になる。この実施形態では、MFCC特徴は2つの代替的な方法に改良される。すなわち、従来のMFCCアルゴリズムから対数演算を除去すること、及びMFCCアルゴリズムの対数演算及び離散コサイン変換(DCT)をICA処理に取り替えることである。これらの2つの方法の詳細については後述する。別の種類のオーディオ特徴は、ICA特徴と呼ばれる。オーディオデータからオーディオ特徴を直接抽出する独立成分分析(ICA)方法を使用することによって、AARシステムの性能は飛躍的に改良される。
MFCC特徴を改良する2つの方法を、図4〜図6に示す。上述のように、従来のMFCCアルゴリズムによって得られたMFCC特徴は、白色ガウス雑音に極めて敏感である。MFCC特徴は、MFCC特徴における白色ガウス雑音のマイナス面の効果を減少させることにより改良されるので、AARシステムを雑音に対して強健にすることができる。この実施形態は、マシンによって生成されたオーディオデータの認識のためのものなので、人間の認識との厳密な類似点は必要ではない。図4(a)に示すような従来のMFCCアルゴリズムのステップ5における対数演算は、人間の耳の効果を模倣することであるので、機械認識には、全く必要ではない。更に、対数演算は、雑音となる傾向の低レベルの信号を増幅する。これを考慮して、図4(b)に示すように、MFCC特徴を改良する第1の方法は、従来のMFCCアルゴリズムからステップ5を除去することである。その結果として改良されたMFCC特徴(IMFCC1と称する)は、実際の環境雑音及び白色ガウス雑音の双方に対して、より強健となる。
MFCC特徴を改良する第2の方法は、ICA分析として知られる技術によって動機付けられるが、これは、オーディオデータから、より高い統計として、なるべく独立した1組の特徴を抽出することを目標としている。非特許文献1で示されるように、画像及び音声処理において特徴を抽出するために、例えば音声認識アプリケーション用に音声特徴を抽出するために、ICAは、広く使用されている。この分析は、単に2次統計量(2nd order statistic)に基づくDCT演算によって生成されたものよりも更に識別可能な音声特徴を生成する。図5(b)に示すように、MFCC特徴を改良する第2の方法は、ICA処理で従来のMFCCアルゴリズムでの対数とDCTの演算に取って代わることであり、これは、IMFCC2と称するICAベースのMFCC特徴となる。
図6及び図7は、図5(b)のICA処理を示す。これは、第1のステップ及び第2のステップを含んでいる。図6に示す第1のステップは、MFCC処理のステップ4の結果を使用してICA基底関数(A)及び重み関数(W)を導出するものであり、図7に示す第2のステップは、ICA変換としてICA基底関数及び重み関数を使用してICA係数、すなわちIMFCC2を生成するものである。
図6に示すように、図5(b)のICAベースのMFCCアルゴリズムのステップ4の結果(すなわちメル尺度フィルタバンクの結果)は、メルスペクトル信号をセグメント化し、且つ信号の隣接セグメントの端部をオーバーラップさせるように区分されて、端部での信号の不連続を最小限にする。その後、信号は、主成分分析(Principle Component Analysis:PCA)アルゴリズムで無相関化されるが、ここでは、観察された信号(すなわちメルスペクトル信号)の共分散行列(covariance matrix)の固有ベクトルVを見つけるように、PCAアルゴリズムが適用されて、観察された信号中の2次の相関性は除去される。その後、無相関化信号は、ICA学習に使用されるが、直交ICA偏析(demixing)行列dwを学習するために高速ICAアルゴリズムが使用され、無相関化信号は、統計的に独立した成分に分けられる。ICA学習の結果は、基底関数A及び重み関数Wであるが、ここで、基底関数A=V×dw、重み関数W=dW×Vであり、+は、非正方行列に対する擬似逆行列(pseudo-inverse)又は正方行列に対する逆行列を示し、Tは、行列転置演算を示す。
図7に示すように、ICA基底関数A及び重み関数Wが計算された後、MFCC処理(すなわちメルスペクトル係数)のステップ4の結果は、ICA係数(すなわちICAベースのMFCC特徴、IMCC2)を得るために、ICA基底関数及び重み関数の助けを借りて、ICA変換される。
一方、図4(b)及び図5(b)では、特徴であるIMFCC1及びIMFCC2が、フーリエ解析及びメルスペクトル処理を含む処理によって得られる。図8及び図9は、時間領域においてオーディオデータからICA特徴を抽出する処理を示す。得られる信号を、ここではICA1と称する。
図8は、オーディオデータから無作為に選択されたオーディオセグメントを入力することによって、ICA基底関数及び重み関数を計算する処理を示す。また、図9は、同じオーディオセグメント入力からのICA係数ICA1を計算する処理を示す。図8及び図9に示す手順が、ICA係数ICA1の計算のために、オーディオセグメントがプリエンファシスと窓掛けに供される以外は、図6及び図7とそれぞれほとんど同じであることが理解され得る。プリエンファシスは、雑音を減少させ、且つオーディオ信号のSNRを改善するために、オーディオセグメントの前処理をする。また、信号を分割し、分割された信号の不連続を除去するように、窓掛けは、信号にフレームを付け且つ窓を掛けるために使用される。なお、図5(b)のステップ4の結果が、ステップ1及び2において既にプリエンファシスされ且つ窓掛けされているので、この演算は、図7の中では必要ではない。
上述の2つのオーディオ特徴抽出方法によって、オーディオ特徴(IMFCC1、IMFCC2、ICA1)のベクトルを得ることができる。
パターン認識のために、隠れマルコフモデル(Hidden Markov Model:HMM)が本発明のAARシステムに導入される。各オーディオファイルについて、等しい長さ(例えば5秒)を有するセグメントが、目標オーディオファイルの各々から無作為に選択され、且つHMMモデルをトレーニングするために使用される。オーディオデータからHMMモデルをトレーニングするために十分なセグメントを選択することによって、オーディオデータはこれらのHMMモデルによって表わすことができる。認識処理中は、目標オーディオデータファイルからの、又は既存のデジタルオーディオデータからの1つのセグメントだけが必要である。このセグメントにより、HMM認識アルゴリズムは、HMMモデルの全てを含んでいるモデルデータベースを用いて、そのラベルを認識することができる。
図2は、オーディオ特徴抽出、オーディオデータモデルのトレーニング及びモデルデータベースの生成を含むオーディオデータモデル化処理のフローチャートを示す。多くのオーディオ特徴、例えば振幅、ピーク、ピッチ、明瞭性、帯域幅、MFCC及びそれらの一次導関数を用いる従来のシステムと異なり、この実施形態では、先行技術よりも特徴抽出をより速く且つ効率的にする改良されたMFCC特徴IMFCC1、IMFCC2及びICA特徴ICA1だけを使用する。
図2のHMMモデル化の処理について説明する。ステップ201において、予め定義された長さ(m秒:これはトレーニング処理全体について変わらない)の所定数(N)のオーディオセグメントが、無作為に各目標オーディオファイル(すなわち認識されるW個のオーディオファイルの各々)から選択される。例えば、各目標オーディオファイルから、5秒の長さを有する90個のオーディオセグメントを、選択するようにしてもよい。目標オーディオファイルは、予め記録されたオーディオデータ又は既存のデジタルオーディオデータである。次に、ステップ202において、オーディオセグメントは、オーディオセグメントをフレーム化し窓掛けする信号前処理が施される。ステップ3において、オーディオ特徴[IMFCC1、IMFCC2及びICA1]のベクトルが、上述の方法によって、各セグメント毎に得られる。ステップ201〜203は、各目標オーディオファイル毎に繰り返される。各目標オーディオファイルの各セグメント毎のそれぞれのベクトルは、HMMへのデータ入力として用いられる。
この実施形態では、W個の目標オーディオファイル毎に、それぞれのHMMモデルを使用する。また、各HMMは、左から右の構造(left-to-right structure)を有する。本発明は、左から右の構造を有するモデルに限定されないが、そのようなモデルが好ましい。その理由としては、これらの構造が、データ構造に似ている(すなわち、線形の時系列が、左から右へのHMM構造を表わす)からである。従来のように、各HMMの状態は、ここでは1組のモデルパラメータλ={A,B,π}として示される。ステップ204において、目標オーディオファイル毎のHMMモデルは、トレーニングデータに従って初期化される。このステップで、HMMは、トレーニングデータが、どの目標オーディオファイル(「分類」)から来るのか伝えられる。目標オーディオファイル毎に、モデルパラメータλ={A,B,π}が、既知のHMM初期化アルゴリズムを使用して、トレーニングデータに基づいた初期値に設定される。
モデルトレーニングステップ205中に、W個の初期化したHMMモデルは、HMMトレーニングアルゴリズムを用いて、モデルパラメータを最適化するようにトレーニングされる。トレーニング処理中に、トレーニングデータが最も良く表わされる最適モデルパラメータを見つけるために、反復方法が適用される。この手順中でモデルをP(O|λ)と仮定すると(ここで、Oは、観察を表わす)、モデルパラメータλ={A,B,π}は、観察の確率を最大にするために調節される。したがって、HMMパラメータの最適化は、確率論(すなわち期待値最大化技術)の適用である。
各モデルのモデルパラメータλ={A,B,π}を見つけた後、ステップ206において、データD={λ,λ,・・・,λ}を含むデータベース207が、目標オーディオファイルについて全てのモデルを含んで生成される。例えば、AARシステムが歌認識システムである場合、選択された歌毎にモデルを含むデータベースが準備されるので、歌認識システムは、このデータベース中の選択された歌を全て認識することができる。各モデルは、更なる認識のための所定の音声ラベルに関係している。
オーディオモデル化データベース207を準備した後、次のタスクは、オーディオ認識スキームを構築することである。オーディオ認識処理を図3に示す。ステップ301に示すように、第1のタスクは、観察データを得ることである。観察データは、マイクロホンで録音されたオーディオデータ又は既存のデジタルオーディオデータファイルから、m秒の長さで1つのセグメントを切り取ることにより得られる。オーディオデータが、テレビ、CDプレーヤ、カセットレコーダのような一般的なオーディオ装置で再生される場合、m秒の長さで、マイクロホンはこのオーディオデータの1つのセグメントを録音するが、これはトレーニング処理と同じである。なお、mの値は、例えば5秒以上のように、調整可能である。その後、ステップ302において、上述したように、得られたセグメントは、雑音の低減と同様に、フレーム化及び窓掛けするために、信号の前処理が施される。ステップ303において、前処理が施されたセグメントについて、オーディオ特徴の観察ベクトルO=[IMFCC1;IMFCC2;ICA1]が、上述のオーディオ特徴抽出方法を用いて計算される。ステップ304において、一旦観察ベクトルOが得られれば、前向き−後ろ向きアルゴリズムが、与えたモデルに対して、観察ベクトルOの確率を計算するために用いられる。この確率に基づいて、モデルを、k=maxi=1,2,・・・,W{P(O)|λ}と仮定すると、オーディオ認識は、観察の最大の確率を有するデータベースD={λ,λ,・・・,λ}に格納されたモデル中のモデルλを見つけることにより、実行される。モデルλに対応するオーディオラベルは、ステップ305の認識結果として出力される。
本発明の上述した説明は、一例を示すことを意図するもので、これらに限定するものではない。上述の実施形態の様々な変更又は改変は、当業者には、思い浮かべ得るものであり、また、これらは本発明の範囲から逸脱することなくなし得るものである。例えば、本発明の上述の実施形態では、抽出された音声特徴は、IMFCC1、IMFCC2及びICA1の組合せである。しかしながら、実験では、オーディオ特徴が、これらの3つから選択された唯一の特徴を含んでいる場合、オーディオ認識は、更に高精度を達成することができることを示している(例えば、100の目標ファイルで、それぞれが200秒の平均長さを有する場合に、95%の精度が得られている。なお、本発明の他の実施形態では、目標ファイルの数がこれよりはるかに多い。)更に、(望ましくはないが、)これらの3つの新たな特徴よりも多くのもののうちの任意の1つを、先行技術における既知の他のオーディオ特徴と結合して使用することができる。
本発明の実施形態であるAARシステムの典型的な手順を示すフローチャートである。 本発明の実施形態であるAARシステムで実行されるオーディオデータモデル化処理を示すフローチャートである。 本発明の実施形態であるAARシステムで実行されるオーディオデータ認識処理を示すフローチャートである。 図4(a)及び図4(b)からなる図4は、図2及び3のAARシステムで使用される従来のMFCCアルゴリズム及び第1の改良MFCCアルゴリズムをそれぞれ示すフローチャートである。 図5(a)及び5(b)からなる図5は、図2及び3のAARシステムで使用される従来のMFCCアルゴリズム(図4(a)のような)及び第2の改良されたMFCCアルゴリズムをそれぞれ示すフローチャートである。 MFCC結果から独立成分分析(ICA)基底関数/重み関数を計算する、図2及び3のAARシステムで使用される処理を示すフローチャートである。 MFCC結果からICA係数を計算する、図2及び3のAARシステムで使用される処理を示すフローチャートである。 オーディオデータ入力より選択されたオーディオセグメントからの独立成分分析(ICA)基底関数/重み関数を計算にする、図2及び3のAARシステムで使用される処理を示すフローチャートである。 図8のオーディオセグメントによって独立成分分析(ICA)係数を計算する、図2及び3のAARシステムで使用される処理を示すフローチャートである。

Claims (11)

  1. 複数のオーディオファイル中で第1のオーディオファイルを識別し、該第1のオーディオファイルから導出されたオーディオデータのセグメントを用いるオーディオファイル識別方法において、
    (a)上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成するステップと、
    (b)上記観察ベクトルを用いて、上記第1のオーディオファイルを認識するステップとを有し、
    上記オーディオ特徴は、上記オーディオデータのセグメントの独立成分分析(ICA分析)によって得られたICA特徴と、上記オーディオデータのセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、メル尺度フィルタバンクの出力にICA分析を適用することによって得られたICA−MFCC特徴との少なくとも1つを含んでいることを特徴とするオーディオファイル識別方法。
  2. 上記ICA分析は、
    上記オーディオデータ又はメルスペクトルデータからICA基底関数及び重み関数を計算するステップと、
    上記基底関数と重み関数を用いて上記オーディオデータ又はメルスペクトルデータをICA領域に変換して、ICA係数を得るステップとを含むことを特徴とする請求項1記載のオーディオファイル識別方法。
  3. 上記オーディオ特徴は上記ICA特徴を含み、上記ICA特徴を計算するステップは、
    上記オーディオデータをプリエンファシスして、該オーディオデータのSNRを向上させるステップと、
    上記プリエンファシスされたデータを窓掛けするステップと、
    上記窓掛けされたデータを上記ICA基底関数及び重み関数でICA変換して、上記ICA特徴を得るステップとを含むことを特徴とする請求項2記載のオーディオファイル識別方法。
  4. 上記オーディオ特徴は上記ICA-MFCC特徴を含み、該ICA-MFCC特徴は、
    上記オーディオデータを前処理して、該オーディオデータをプリエンファシスし且つ窓掛けするステップと、
    上記前処理されたオーディオデータを時間領域から周波数領域に変換するステップと、
    上記変換されたオーディオデータを1組のメル尺度フィルタに通して、上記メルスペクトルデータを得るステップと、
    上記メルスペクトルデータをICA処理して第1のMFCC特徴としてICA係数を得るステップとによって得られることを特徴とする請求項2記載のオーディオファイル識別方法。
  5. 上記ICA基底関数及び重み関数を計算するステップは、
    上記オーディオデータ又はメルスペクトルデータを区分して、区分された信号を得るステップと、
    上記区分された信号をPCAアルゴリズムによって無相関にして、無相関信号を得るステップと、
    上記無相関信号を高速ICAアルゴリズムによってICA学習して、当該ICA基底関数及び重み関数を得るステップとを含むことを特徴とする請求項4記載のオーディオファイル識別方法。
  6. 上記オーディオ特徴は、上記オーディオセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、対数処理を適用せずに、該メル尺度フィルタバンク信号の出力を時間領域に変換することによって得られたMFCC特徴を更に含むことを特徴とする請求項1乃至5のいずれか1項記載のオーディオファイル識別方法。
  7. 上記第1のオーディオファイルを認識するステップは、目標オーディオファイル毎のHMMモデルを含むデータベース内で、目標オーディオファイルが与えられると、得られる観察ベクトルの確率が最大であるHMMを決定にすることにより行われることを特徴とする請求項1記載のオーディオファイル識別方法。
  8. 複数のオーディオファイルの中から、第1のオーディオファイルから導出されたオーディオデータのセグメントに基づき、該第1のオーディオファイルを識別するオーディオファイル識別装置において、
    (a)上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成する手段と、
    (b)上記観察ベクトルを用いて、上記第1のオーディオファイルを認識する識別手段とを備え、
    上記オーディオ特徴は、
    (i)上記オーディオデータセグメントを独立成分分析手段(ICA分析手段)へ渡すことにより得られたICA特徴と、
    (ii)上記オーディオセグメントを高速フーリエ変換を用いて周波数領域に変換し、メル尺度フィルタバンクを適用し、該メル尺度フィルタバンクの出力をICA分析方法へ渡すことによって得られたICA-MFCC特徴との少なくとも1つを含むことを特徴とするオーディオファイル識別装置。
  9. 上記ICA分析手段は、
    上記オーディオデータ又はメルスペクトルデータからICA基底関数及び重み関数を計算する手段と、
    上記オーディオデータ又はメルスペクトルデータを、上記基底関数及び重み関数を用いてICA領域に変換して、ICA係数を得る手段とを備えることを特徴とする請求項8記載のオーディオファイル識別装置。
  10. 上記オーディオ特徴は、上記オーディオセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、対数のステップを適用せずに、該時間領域へメル尺度フィルタバンク信号の出力を変換することによって得られたMFCC特徴を更に含むことを特徴とする請求項8又は請求項9記載のオーディオファイル識別装置。
  11. 上記識別手段は、
    各目標オーディオファイル毎のHMMモデルを含むデータベースと、
    上記目標オーディオファイルが与えられると、上記データベース中で、得られる観察ベクトルの確率が最大であるHMMを決定する手段とを備えることを特徴とする請求項8記載のオーディオファイル識別装置。
JP2004208915A 2003-07-28 2004-07-15 オーディオデータを自動的に認識する方法及び装置 Expired - Fee Related JP4797342B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SG200304014-4A SG140445A1 (en) 2003-07-28 2003-07-28 Method and apparatus for automatically recognizing audio data
SG200304014-4 2003-07-28

Publications (2)

Publication Number Publication Date
JP2005049859A JP2005049859A (ja) 2005-02-24
JP4797342B2 true JP4797342B2 (ja) 2011-10-19

Family

ID=34102177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004208915A Expired - Fee Related JP4797342B2 (ja) 2003-07-28 2004-07-15 オーディオデータを自動的に認識する方法及び装置

Country Status (3)

Country Link
US (1) US8140329B2 (ja)
JP (1) JP4797342B2 (ja)
SG (1) SG140445A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101125753B1 (ko) * 2003-08-29 2012-03-27 소니 주식회사 송신 장치 및 송신 방법
KR100678770B1 (ko) * 2005-08-24 2007-02-02 한양대학교 산학협력단 궤환 신호 제거 기능을 구비한 보청기
US9123350B2 (en) * 2005-12-14 2015-09-01 Panasonic Intellectual Property Management Co., Ltd. Method and system for extracting audio features from an encoded bitstream for audio classification
US7565334B2 (en) * 2006-11-17 2009-07-21 Honda Motor Co., Ltd. Fully bayesian linear regression
US8340437B2 (en) * 2007-05-29 2012-12-25 University Of Iowa Research Foundation Methods and systems for determining optimal features for classifying patterns or objects in images
PA8847501A1 (es) * 2008-11-03 2010-06-28 Telefonica Sa Metodo y sistema de identificacion en tiempo real de un anuncio audiovisual en un flujo de datos
GB2466242B (en) * 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
WO2012078636A1 (en) 2010-12-07 2012-06-14 University Of Iowa Research Foundation Optimal, user-friendly, object background separation
WO2012100221A1 (en) 2011-01-20 2012-07-26 University Of Iowa Research Foundation Automated determination of arteriovenous ratio in images of blood vessels
EP2707872A2 (en) * 2011-05-12 2014-03-19 Johnson Controls Technology Company Adaptive voice recognition systems and methods
WO2013165614A1 (en) 2012-05-04 2013-11-07 University Of Iowa Research Foundation Automated assessment of glaucoma loss from optical coherence tomography
WO2014143891A1 (en) 2013-03-15 2014-09-18 University Of Iowa Research Foundation Automated separation of binary overlapping trees
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US20150220629A1 (en) * 2014-01-31 2015-08-06 Darren Nolf Sound Melody as Web Search Query
US10410355B2 (en) 2014-03-21 2019-09-10 U.S. Department Of Veterans Affairs Methods and systems for image analysis using non-euclidean deformed graphs
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息系统有限公司 一种演唱者音色相似的歌星推荐方法与装置
US10115194B2 (en) 2015-04-06 2018-10-30 IDx, LLC Systems and methods for feature detection in retinal images
CN106328152B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN106919662B (zh) * 2017-02-14 2021-08-31 复旦大学 一种音乐识别方法及系统
CN106992012A (zh) * 2017-03-24 2017-07-28 联想(北京)有限公司 语音处理方法及电子设备
CN110622155A (zh) 2017-10-03 2019-12-27 谷歌有限责任公司 将音乐识别为特定歌曲
US10249293B1 (en) 2018-06-11 2019-04-02 Capital One Services, Llc Listening devices for obtaining metrics from ambient noise
CN109584888A (zh) * 2019-01-16 2019-04-05 上海大学 基于机器学习的鸣笛识别方法
CN111061909B (zh) * 2019-11-22 2023-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏分类方法和装置
CN113223511B (zh) * 2020-01-21 2024-04-16 珠海市煊扬科技有限公司 用于语音识别的音频处理装置
CN111816205B (zh) * 2020-07-09 2023-06-20 中国人民解放军战略支援部队航天工程大学 一种基于飞机音频的机型智能识别方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3002204B2 (ja) * 1989-03-13 2000-01-24 株式会社東芝 時系列信号認識装置
JPH0743598B2 (ja) * 1992-06-25 1995-05-15 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識方法
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5918223A (en) 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
US6327343B1 (en) * 1998-01-16 2001-12-04 International Business Machines Corporation System and methods for automatic call and data transfer processing
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
EP1079615A3 (en) * 1999-08-26 2002-09-25 Matsushita Electric Industrial Co., Ltd. System for identifying and adapting a TV-user profile by means of speech technology
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
DE10047724A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
US20030046071A1 (en) * 2001-09-06 2003-03-06 International Business Machines Corporation Voice recognition apparatus and method
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals

Also Published As

Publication number Publication date
SG140445A1 (en) 2008-03-28
JP2005049859A (ja) 2005-02-24
US8140329B2 (en) 2012-03-20
US20050027514A1 (en) 2005-02-03

Similar Documents

Publication Publication Date Title
JP4797342B2 (ja) オーディオデータを自動的に認識する方法及び装置
Ittichaichareon et al. Speech recognition using MFCC
El-Moneim et al. Text-independent speaker recognition using LSTM-RNN and speech enhancement
Agrawal et al. Novel TEO-based Gammatone features for environmental sound classification
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN102486920A (zh) 音频事件检测方法和装置
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
Sharma et al. On the Importance of Audio-Source Separation for Singer Identification in Polyphonic Music.
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
JP7156084B2 (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置
Zhang et al. Deep scattering spectra with deep neural networks for acoustic scene classification tasks
KR102231369B1 (ko) 고래 소리 재생 방법 및 고래 소리 재생 장치
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
TW202226220A (zh) 聲音訊號處理評估方法及裝置
Kingsbury et al. Improving ASR performance for reverberant speech
JPWO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム
KR102669692B1 (ko) 생물학적 소리에 기반한 합성 음성 탐지 방법, 이를 수행하기 위한 기록 매체 및 장치
KR102300599B1 (ko) 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치
Nesar et al. Audio Event Recognition in Noisy Environments using Power Spectral Density and Dimensionality Reduction
Ismail et al. Kamrupi dialect identification using GMM
JP7159767B2 (ja) 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
Marupaka et al. Comparison of classification results obtained by using cyclostationary features, MFCC, proposed algorithm and development of an environmental sound classification system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101229

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees