JP2004341493A

JP2004341493A - 音声前処理方法

Info

Publication number: JP2004341493A
Application number: JP2004078939A
Authority: JP
Inventors: Raquel Tato; ラケルタト、; Thomas Kemp; トーマスケンプ、; Antoni Abella; アントニーアベラ、
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2003-03-28
Filing date: 2004-03-18
Publication date: 2004-12-02
Also published as: US7376559B2; EP1469457A1; US20040236570A1

Abstract

【課題】ノイズによって妨害される可能性のある音声信号に対し、音声認識のための前処理方法を提供する。
【解決手段】音声信号を受け取り、音声信号のスペクトルを所与数のサブバンドに分け、各サブバンド内の音声信号を解析し、各サブバンドに関して音声信号を少なくとも部分的に代表的する各帯域依存の音響特徴データを生成する。帯域依存の音響特徴データ及び／又はその派生物に基づいた音声信号内の音声要素の、又はその列の発生について、帯域依存の尤度を導き出す。スペクトル全体内の音声信号を解析し、スペクトル全体に関して音声信号を少なくとも部分的に代表する、フル帯域の音響特徴データを生成し、音声要素の、又はフル帯域の音響特徴データ及び／又はその派生物に基づいた音声信号の内の音声要素列の発生について、フル帯域の尤度を導き出す。帯域依存の尤度及びフル帯域の尤度に基づいた、音声信号内の音声要素列の発生について、総合的尤度を導き出す。
【選択図】図１

Description

本発明は、音声前処理方法に関し、特に音声認識方法に関する。

自動音声認識システムは、スペクトル特徴の観点から、広範囲の付加的なノイズにさらされる。実際の環境では、例えば電話、時計などの部分的な周波数帯劣化は、例えば自動車騒音、会議バックグラウンドノイズなどの未知の広帯域ノイズと、例えば音楽などの非定常（non-stationary）ノイズと共存する。一般に、次の種類のノイズ、すなわち広帯域の非定常ノイズ、広帯域の定常(stationary)ノイズ、狭帯域の非定常ノイズ及び狭帯域の定常ノイズが存在する。

ロバストな音声認識を鑑みれば、なるべく多くの種類のノイズに対処することができるシステムを準備することが望ましい。しかしながら、ノイズに対処するために、音声認識システム内に適用された、これまで知られている方法は、単に言及された種類のノイズのうちの１つに良く対処することができるだけであり、例えば、特定の方法では、非定常的な、部分的な周波数帯劣化（すなわち狭帯域ノイズ）だけが良く処理される。一方、広帯域のノイズは、この特定の方法では効果的に処理されないので、広帯域のノイズが生じる場合は、適切な認識結果が得られない。

"Union: A new approach for combining sub-band observations for noisy speech recognition" by J. Ming and F. J. Smith, Speech Communication, Vol. 34, Issue 1-2, April 2001, pp 41-45 "Time and frequency filtering of filter-bank energies for robust HMM speech recognition" by C. Nadeu, D. Macho, and J. Hernando, Speech Communication, Vol. 34, Issue 1-2, April 2001, pp 93-114

本発明の目的は、音声認識方法に関し、特に部分的な周波数帯劣化、非定常ノイズ及び／又は広帯域のノイズのうちのいずれかによって妨害される可能性のある音声信号に関する認識率を改善させる、音声前処理方法を提供することである。

本発明の目的を達成するためには、本発明は、特に音声認識方法において、音声前処理方法を提供する。さらに、本発明は、音声処理システム、コンピュータプログラム製品及びコンピュータで読出し可能な記憶媒体に適用された音声前処理システムを提供する。

ノイズがある状態での音声認識は、重要問題である。あるノイズ状態に対する音声認識ロバストさを改善させることを目指して、有用なアルゴリズムは存在するが、サブバンド組合せのための確率的ユニオンモデルが、部分的な未知の周波数帯劣化に関する音声認識のための答えとして注目されている。他方では、ここ数年、周波数フィルタリングから導き出されたフロントエンドが、純粋及び騒音双方のＨＭＭ音声認識で使用されてきた。本発明は、特定のノイズ状況（すなわち狭帯域ノイズ、広帯域のノイズ）のために調整されたストリームで、上記の技術を組み合わせるためのユニオンモデルの新しい使用を提案する。

本発明に係る音声前処理方法は、特に音声認識方法において、音声信号を受け取るステップと、音声信号のスペクトルを所与数の所定周波数サブバンドに分割するステップと、各々の周波数サブバンド（部分帯域）内の音声信号を解析するステップと、これによって、その帯域依存音響特徴データが、それぞれの周波数サブバンドに関して音声信号を少なくとも部分的に代表する各々のそれぞれの周波数サブバンドについてそれぞれの帯域依存音響特徴データを生成するステップと、帯域依存音響特徴データ及び／又はその派生物に基づいた音声信号内の音声要素の、又はその配列の発生についての帯域依存尤度を導き出すステップと、スペクトル全体内の音声信号を解析し、これによって、スペクトル全体に関して音声信号を少なくとも部分的に代表する、フル帯域の音響特徴データを生成するステップと、フル帯域の音響特徴データ及び／又はその派生物に基づいた音声信号内の音声要素の、又はその配列の発生についてのフル帯域の尤度を導き出すステップと、帯域依存尤度及びフル帯域の尤度に基づいた音声信号内の音声要素の又はその配列の発生についての総合的尤度を導き出すステップとを含む。音声要素とは、例えば単語、音素、副音素を含む。

本発明によれば、音声信号のスペクトルは、所与数の所定周波数サブバンドに分割された音響特徴データは、各周波数サブバンドで抽出される。そして、これらは各周波数帯域の帯域依存尤度を決定するために使用される。これと平行して、音声信号のスペクトルは全周波数帯域で解析される。これによって、追加の音響特徴データが生成され、そして、これは、全スペクトルに依存する尤度項を導き出すために使用される。そして、帯域依存尤度及び尤度項は、帯域依存尤度及び尤度項の異なる尤度寄与を加えることにより、総合的尤度を算出するために組み合わせられる。総合的尤度は、帯域依存尤度又はその結合のいずれかによって、又は音声信号のノイズの種類に依存する尤度項によって支配される。すなわち、モデルは、ノイズの種類に自動的に適応する。広帯域のノイズが音声信号に存在していれば、尤度項は総合的尤度を支配する。その理由として、広帯域のノイズに強いフロントエンドが使用され得るからである。広帯域のノイズに強いフロントエンドとしては、広帯域のノイズに対してロバストな、任意のフロントエンドを使用することができる。例えば、特徴抽出には周波数フィルタリングフロントエンドを使用することができるので、広帯域のノイズを効果的に扱うことができる。しかしながら、狭帯域ノイズが音声信号内に存在する場合、帯域依存尤度の総合的尤度に対する尤度寄与が支配する。この理由は、例えば、周波数サブバンドのうちの１つだけがゆがんでいるので、ゆがんでいない周波数サブバンドからの帯域依存尤度が支配的となるからである。

好ましくは、総合的尤度を導き出す場合、周波数サブバンドの劣化させていない周波数サブバンド数を決定し、それぞれの周波数サブバンドに対応し異なる帯域依存尤度の生成物のあり得る組合せを加えることにより、帯域依存尤度は、ユニオンモデル尤度（union model likelihood）にまとめられる。すなわち、幾つかの劣化した周波数サブバンドが想定されて、生成物は、想定した劣化周波数サブバンドのその数に依存する。各加数の因子数は、劣化する、すなわちゆがまされると想定されたサブバンド周波数の数を引いた所定周波数サブバンドの所与数に等しい。加数の数は、周波数サブバンドの数（次の方程式中、Ｎで示されている）を、周波数サブバンドの数マイナス歪まされると想定される周波数サブバンドの数（次の方程式中Ｍで表示されている）で割ったものに等しく、すなわち、加数の数量(number of addends)は、次の二項方程式で与えられる。

好ましくは、そして、異なる生成物が、ユニオンモデル尤度を生成するために付加される。ユニオンモデル尤度は、歪んでいないか又は少しだけゆがんでいる、帯域依存尤度を含んでいる生成物によって支配される。

さらに、好ましくは、帯域依存音響特徴データ（Ｏ_１，・・・，Ｏ_Ｎ）は、それぞれの帯域依存メル周波数ケプストラム係数特徴を含んでいるが、メル周波数のケプストラム係数及び／又はそのそれぞれの周波数サブバンド（Ｆ_１，・・・，Ｆ_Ｎ）から導き出された派生物に基づく。これは、メル周波数のケプストラム係数特徴抽出が、各々の周波数サブバンドで実行されるということをいう。

好ましくは、所定の耐広帯域ノイズ技術を、尤度項を導き出す前にしようしてもよい。これは、フル帯域の音響特徴データは、他の耐広帯域ノイズ技術も含めてもよいことを意味する。

耐広帯域ノイズ技術は、周波数フィルタリング技術に基づくことができる。

また、耐広帯域ノイズ技術は、スペクトル減算方法に基づくことができる。

フル帯域の音響特徴データは、スペクトル全体から導き出されたフィルタバンクエネルギに基づくフィルタバンクエネルギ特徴を含むことができる。項スペクトルは、フィルタバンクエネルギの導出、すなわち、メルスケールされたフィルタバンクの使用の前に、音声認識システムで典型的に使用されるようなパワー密度スペクトルを参照する。また、音声認識方法としては、フィルタバンクエネルギの対数は典型的に使用されるものとして考えられている。

さらに、フル帯域の音響特徴データが、スペクトル全体から導き出された濾波フィルタバンクエネルギに基づく濾波フィルタバンクエネルギ特徴を含むことは有利である。このようにして、広帯域のノイズの影響を効果的に減らすことができる。すなわち、周波数をフィルタリングするフロントエンドは、フル帯域の対数のフィルタバンクエネルギに適用される。なお、全てのフィルタバンクエネルギが、対数のフィルタバンクエネルギであることから、以下では、対数が得られるということが明記されない場合がある。

さらに、好ましくは、フル帯域の音響特徴データは、メル周波数ケプストラム係数及び／又はその派生物（スペクトル全体から導き出されたもの）に基づく、フル帯域のメル周波数ケプストラム係数特徴を含む。これらの特徴はさらに全体のスペクトルに関する情報を含んでいるので、音声信号にノイズが存在しない場合は、効果的に使用することができる。

フル帯域の音響特徴データ及び／又は帯域依存音響特徴データは、ＰＬＰ線形予測フィルタ係数に基づくＰＬＰ線形予測フィルタ特徴をさらに含むことができる。一般に、他の種類の特徴、例えば対数のフィルタバンクエネルギ特徴を直接に、又はその派生物、すなわちフィルタリングなしで適用することもできる。典型的な派生物は、ケプストラム特徴を含むことができる。

フル帯域の音響特徴データは、フル帯域のメル周波数のケプストラム係数特徴にスペクトル減算方法を適用することにより生成される、スペクトルで変更されたフル帯域のメル周波数ケプストラム係数特徴も含むことができる。したがって、ノイズ推定方法は、音声信号に存在するノイズを検知して実行される。この技術は、効果的に広帯域のノイズにも適用される。

全ての場合に、帯域依存尤度及び尤度項は、確率推定器を使用して求めることができる。確率推定器は、様々な種類のノイズによって劣化した音声を含んでいるデータでトレーニングすることが可能である。

好ましくは、濾波フィルタバンクエネルギは、第２のフィルタバンクエネルギから第１のフィルタバンクエネルギを減算させることにより、フィルタバンクエネルギから導き出される。ここで、第１のフィルタバンクエネルギは、第１の個別周波数に対応し、第２のフィルタバンクエネルギは、第２の個別周波数に対応し、前記第１のフィルタバンクエネルギの後に、２つの個別周波数ステップを展開させる。

特に音声処理システムに含まれた、本発明に係る音声前処理システムは、上に定義されるような音声前処理方法及び／又はそのステップを実行又は実現することができる。本発明に係るコンピュータプログラム製品は、コンピュータ上で実行される場合、音声前処理方法及び／又はそのステップを実行及び／又は実現するように適用されたコンピュータプログラム手段、ディジタル信号処理手段及び／又は同様なものを格納する。

本発明に係るコンピュータで読出し可能な記憶媒体に、上述されたようなコンピュータプログラム製品を格納することができる。

本発明は、音声認識方法に関し、特に部分的な周波数帯劣化、非定常ノイズ及び／又は広帯域のノイズのうちのいずれかによって妨害される可能性のある音声信号に関する認識率を改善させる音声前処理方法を提供することができる。

本発明及び利点の詳細は、以下の添付図面を参照して、その例示的な実施例により、説明する。

先ず、図１のステップＳＴ１において、対数のパワー密度スペクトルＰＤＳは、次の方程式によって導き出される。

ＰＤＳ＝log｜Ｅ｜^２（１）
次に、ステップＳＴ２において、フィルタバンクエネルギlogＦＢＥは、全帯域から、すなわち全スペクトルについて導き出される。そして、ステップＳＴ３において、全帯域からのフィルタバンクエネルギlogＦＢＥは、所定数の周波数サブバンドに分離される。なお、図１に示す実施例では、周波数サブバンドは、第１の周波数サブバンドＦ_１、第２の周波数サブバンドＦ_２及び第３の周波数サブバンドＦ_３である。また、これらは、一般に使用されるような対数のフィルタバンクエネルギlogＦＢＥであることに留意すべきである。

その結果、第１のサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_１、第２のサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_２及び第３のサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_３が得られる。ステップＳＴ４において、これらのサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_１〜ＦＢＥ−Ｆ_３から、メル周波数のケプストラム係数が導き出される。すなわち、ＭＦＣＣ特徴抽出は、周波数サブバンド（すなわち第１のサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_１、第２のサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_２及び第３のサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_３）の各々について実行される。

各周波数サブバンドのＭＦＣＣ特徴抽出の結果は、帯域依存音響特徴データである。すなわち、第１のサブバンド音響特徴データＯ_１は、第１のサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_１から導き出され、第２のサブバンド音響特徴データＯ_２は、第２のサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_２から導き出され、かつ、第３のサブバンド音響特徴データＯ_３は、第３のサブバンドフィルタバンクエネルギＦＢＥ−Ｆ_３から導き出される。

そして、ステップＳＴ５において、導き出されたサブバンド音響特徴データは、入力として、音声信号に対応する音声要素用の各サブバンド音響特徴データで帯域依存尤度を推定する確率推定器ＰＥに使用される。音声要素は、例えば、言葉、声音又は副音声単位である。これは、確率推定器ＰＥが、第１のサブバンド音響特徴データＯ_１からの第１の帯域依存尤度ｂ_１、第２のサブバンド音響特徴データＯ_２からの第２の帯域依存尤度ｂ_２及び第３のサブバンド音響特徴データＯ_３からの第３の帯域依存尤度ｂ_３を推定することをいう。そして、ステップＳＴ６において、これらの帯域依存尤度ｂ_１〜ｂ_３は、ユニオンモデル尤度Ｂ_{Ｕ，ＭＦＣＣ}に組み合わせられる。ユニオンモデル尤度Ｂ_{Ｕ，ＭＦＣＣ}を計算する定式は、歪まされると仮定された周波数サブバンドの数Ｍに依って異なる。

ユニオンモデル尤度Ｂ_{Ｕ，ＭＦＣＣ}の推定は、方程式（２）によって、以下に、ユニオンモデルとするが、これは、非特許文献１に、詳細に説明されている。ユニオンモデルに関する限り、この先行技術記録が参照され、その内容は、参照により本願に援用される。

ユニオンモデル尤度Ｂ_{Ｕ，ＭＦＣＣ}は、次のように書くことができる。

図１の実施例では、ユニオンモデル尤度Ｂ_{Ｕ，ＭＦＣＣ}は、上に説明されるような方程式（２）で与えられる。すなわち、方程式（３）は、方程式（２）に単純化される。

ユニオンモデル尤度Ｂ_{Ｕ，ＭＦＣＣ}の決定に関して、上記の説明は、全て、後で、部分Ａと称されるが、これは、図１中でそのように表示される。

図１の右側に、周波数フィルタ尤度項Ｂ_ＦＦを決定する第１の実施例が示されている。この第１の実施例では、ステップＳＴ７において、対数のフィルタバンクエネルギ特徴抽出logＦＢＥは、音声信号Ｓのスペクトル全体Ｆに関して実行される。その結果、スペクトル全体Ｆの、フル帯域のフィルタバンクエネルギ特徴ＦＢＥ−Ｆが得られる。

ところで、フル帯域のフィルタバンクエネルギ特徴ＦＢＥ−Ｆは、耐広帯域ノイズのフロントエンドに供される。なお、任意の耐広帯域ノイズのフロントエンド、すなわち広帯域のノイズに対してロバスト任意のフロントエンドを使用することができる。耐広帯域ノイズのフロントエンドを使用しないことも可能である。しかしながら、図１の実施例において、周波数フィルタリングフロントエンドが、使用されており、これは、非特許文献２で詳細に説明されている。周波数フィルタリングに関する限り、この非特許文献２を参照すればよく、その内容は、参照により本願に援用される。

また、図１に示すように、ステップＳＴ８において、広帯域のノイズに対処するために、フル帯域のフィルタバンクエネルギ特徴ＦＢＥ−Ｆは、次の方程式により、周波数フィルタリングされる。

ｆ’（ｉ）＝ｆ（ｉ＋１）・ｆ（ｉ−１）（４）
その結果、スペクトル全体Ｆの濾波フィルタバンクエネルギ特徴ＦＦＢＥが得られる。方程式（４）の意味は、次の通りである。ある個別周波数ｉにおける、前記濾波フィルタバンクエネルギ特徴ＦＦＢＥの濾波フィルタバンクエネルギ値を得るために、方程式（４）のｆ（ｉ−１）に対応する前のフィルタバンクエネルギＦＢＥ_ｉ−１の値は、方程式（４）中でｆ（ｉ＋１）に対応する次のフィルタバンクエネルギＦＢＥ_ｉ＋１から引かれる。方程式（４）の変数ｉの値は、図３の中で示されるような個別周波数に対応する。ｆ（ｉ＋１）及びｆ（ｉ−１）の値は、対応するフーリエ変換の係数に対応する。すなわち、これは、周波数フィルタリングが、周囲の特徴ベクトルとは無関係に各特徴ベクトルについて、なされたことをいう。特徴ベクトルは、これによって、音声信号Ｓから１０ミリ秒ごとに抽出される。

方程式（４）は、以下のように書くこともできる。

ＦＦＢＥ_ｉ＝ＦＢＥ_ｉ＋１・ＦＢＥ_ｉ−１（５）
上述のように、これは、次のことをいう。ある周波数ｉの濾波フィルタバンクエネルギ値ＦＦＢＥ_ｉは、次の周波数ｉ＋１に対応するフィルタバンクエネルギ値ＦＢＥ_ｉ＋１から、前の周波数ｉ−１に対応するフィルタバンクエネルギ値ＦＢＥ_ｉ−１を引くことにより計算することができる。

そして、ステップＳＴ９において、濾波フィルタバンクエネルギ特徴ＦＦＢＥは、そして、周波数フィルタリングされた尤度項Ｂ_ＦＦを推定する確率推定器ＰＥへの入力として使用される。

そして、ステップＳＴ１０において、ユニオンモデル尤度Ｂ_{Ｕ，ＭＦＣＣ}と周波数フィルタリングされた尤度項Ｂ_ＦＦは、次のように与えられる総合的尤度Ｂに組み合わせられる。

Ｂ∝Ｂ_{Ｕ，ＭＦＣＣ}＋Ｂ_ＦＦ（６）
図２の右側に、総合的尤度Ｂを決定する第２の実施例Ｂ２を示す。この第２の実施例では、スペクトルの差引尤度項Ｂ_ＳＳＵＢが、ユニオンモデル尤度Ｂ_{Ｕ，ＭＦＣＣ}と結合される。

このスペクトルの差引尤度項Ｂ_ＳＳＵＢの決定のために、最初に、ステップＳＴ１１において、パワー密度スペクトルＰＤＳ内のノイズが決定される。パワー密度スペクトルＰＤＳは、音声信号Ｓから導き出される。ノイズ推定の結果は、推定されたノイズＥＮである。

そして、ステップＳＴ１２において、入力として推定されたノイズＥＮ及びパワー密度スペクトルＰＤＳを使用する、スペクトル減算ＳＳＵＢの方法が適用される。スペクトル減算ＳＳＵＢの方法の出力は、パワー密度スペクトル−スペクトル減算特徴ＰＤＳ−ＳＳＵＢである。

ステップＳＴ１３において、これらのパワー密度スペクトル−スペクトル減算特徴ＰＤＳ−ＳＳＵＢは、対数のフィルタバンクエネルギ特徴抽出logＦＢＥに供せられる。これにより、フル帯域のスペクトルで引かれたフィルタバンクエネルギＦＢＥ−Ｆ−ＳＳＵＢが導き出される。これらのフル帯域のスペクトルで引かれたフィルタバンクエネルギＦＢＥ−Ｆ−ＳＳＵＢは、ステップＳＴ１４において、メル周波数のケプストラム係数ＭＦＣＣ特徴抽出に供されるが、ここではスペクトルで変更されたフル帯域のメル周波数ケプストラム係数特徴Ｏ_{Ｆ，ＳＳＵＢ}が生成される。そして、ステップＳＴ１５において、これら、スペクトルで変更されたフル帯域のメル周波数ケプストラム係数特徴Ｏ_{Ｆ，ＳＳＵＢ}は、スペクトルの差引尤度項Ｂ_ＳＳＵＢを推定するために確率推定器ＰＥによって使用される。

最後に、ステップＳＴ１６において、図１の部分Ａによって決定されるユニオンモデル尤度Ｂ_{Ｕ，ＭＦＣＣ}とスペクトルの差引尤度項Ｂ_ＳＳＵＢは、総合的尤度Ｂに以下のように組み合わせられる。

Ｂ∝Ｂ_{Ｕ，ＭＦＣＣ}＋Ｂ_ＳＳＵＢ（７）
図３は、フィルタバンクエネルギ特徴抽出logＦＢＥを示す。この底は、パワー密度スペクトルＰＤＳを形成する。パワー密度スペクトルＰＤＳの周波数範囲は、オーバラップ間隔（重み関数が各間隔に割り当てられる）に分離される。間隔は、人間の耳の分解能によって選択される。すなわち、高密度の間隔が、人間の耳の敏感な部位内に生じ、低密度の間隔が人間の耳のそれ程敏感でない部位内に生じる。

本発明は、ユニオンモデル方法へ広帯域ノイズ取消技術の統合を行う。ユニオンモデル方法は、非定常ノイズを含む狭帯域ノイズに対処するための強力な技術である。しかしながら、ユニオンモデル方法は、従来の技術がより良く行うように見えるところでも、定常広帯域ノイズに対しては、余り適していない。ユニオンモデル概念へのそのような技術の統合により、任意の環境で、どんな種類のノイズも対処が可能となる。

周波数フィルタリングフロントエンドとユニオンモデルの組合せの背景理論は、広帯域についてばかりでなくまた帯域依存のあるノイズについても、ユニオンモデル概念の強化として、周波数に集中したノイズが、近くの対数のメルフィルタバンクエネルギ（Ｈ（ｚ）＝ｚ−ｚ^−１）だけを劣化させると仮定する。しかしながら、５つのサブバンド（より多数のサブバンドが、スペクトル依存の多くを無視することができ、それにより、音声の識別が貧弱になることが、実験的にテストされた）を有するシステムを仮定した場合、ノイズのあるサブバンドが極めて少数であるので、これらが適切に位置している場合には、全体の帯域幅を劣化させることができる。したがって、技術のそのような組合せは広帯域ノイズに対するロバストさを改善させることができたが、それらは帯域制限されたノイズには極めて不安定で、予測不能になった。この時点では、広帯域で、帯域制限されたノイズに対処することができる技術を見つけるという課題は、まだ解決されていない。

フロントエンドとしてのＭＦＣＣ特徴抽出を備えたユニオンモデル方法は、帯域依存追加ノイズの推定によって、及び尤度計算において歪まされた信号帯域の寄与を効果的に無視することによって、信号の品質劣化を克服する。

Ｎ＝＝３とＭ＝＝１についての具体例

フル帯域に基づいた音声認識に適用された周波数フィルタリングフロントエンドは、様々な種類の広帯域の現実のノイズによって劣化した音声用のケプストラム係数よりもよい結果を得る。

両方の種類のノイズ（広帯域ノイズ及び帯域制限されたノイズ）に対処し得るようにする適切な方法で、両方の技術を組み合わせるために、周波数フィルタリングフロントエンドは、ユニオンモデルからの出力確率推定の定式で追加因子として統合される。この方法の主な目的は、出力確率推定から最も適切なものを自動的に選択して、広帯域のノイズについての周波数フィルタリング、及び狭帯域ノイズの場合にはＭＦＣＣ特徴抽出を使用するモデルを備えることである。

情報（同じ周波数帯からの特徴の異なる群）の二重抽出は、１つの相違技術と見なすことができ、結果的に、よりロバストシステムになる。

Ｎ＋１個のストリームを備えたユニオンモデルは、ＭＦＣＣフロントエンド（各サブバンドについて特徴ベクトルの計算）についてのＮ、及び周波数フィルタリング方法についての１であるが、フル帯域（全体の帯域について単一特徴ベクトルの計算）に適用される。

スペクトル減算と称する音声で音響追加ノイズを抑えるための追加技術があるが、これは、定常広帯域ノイズに対して極めて有効であることが分かった。この方法での主な限定としては、非定常ノイズに対処するには無力なことである。また、これがユニオンモデルの利点の１つであることから、これらの組合せは有用であると考えられる。上記のような同じ概念に続いて、Ｎ＋１個のストリームを備えたユニオンモデルが得られるが、ここで、Ｎは、ＭＦＣＣフロントエンド（各サブバンドについての特徴ベクトルの計算）のためであり、１は、フル帯域（全体の帯域について単一特徴ベクトルの計算）に適用されるＭＦＣＣ＋スペクトル減算のためである。

同様な概念は、次のような一般的な出力確率推定と共に、任意の耐広帯域ノイズ技術のために適用することができる。

ここで、ＢＮＲＦは、広帯域ノイズについてロバストフロントエンドを表す。

さらに、以下では、周波数フィルタリングのフル帯域のフロントエンドのための付加的なストリームと共に、広帯域ノイズについてのユニオンモデル方法の拡張として説明する。

本発明は、広帯域ノイズに対するロバストさが可能になるユニオンモデル方法の拡張を提案するものである。最近の多くの研究は、フロントエンドとして、メル周波数ケプストラム係数（ＭＦＣＣ）を備えたユニオンモデル方法が、ノイズに関する情報を必要とせずに、帯域制限劣化に対するロバストさを提供することを明らかにしている。他方では、フル帯域に基づいた音声認識に適用される周波数フィルタリングフロントエンドは、様々な種類の広帯域の現実のノイズによって劣化した音声についてのケプストラム係数よりも、良い結果を達成することが明示されている。両方の種類のノイズ（広帯域ノイズ及び帯域依存ノイズ）に対処できる適切な方法で、これらの技術を組み合わせるために、フル帯域用の周波数フィルタリングフロントエンドは、ユニオンモデルでの追加ストリームとして統合される。情報の二重抽出、すなわち、同じ周波数帯からの異なる特徴群は、一種の多様化方策と見なすことができるので、結果的に、よりロバストなシステムが得られる。

自動音声認識システムは、スペクトル特徴の観点からは広範囲のノイズにさらされる。実際の環境では、部分的な周波数帯劣化（例えば電話、時計など）は、未知の広帯域ノイズ（例えば自動車騒音、会議バックグラウンドノイズなど）と、非定常ノイズ（例えば音楽）と共存する。サブバンドに基づいた音声認識方法に関する限り、ユニオンモデルは、狭帯域ノイズ、特に非定常ノイズに対処するための強力な技術であることを示した。しかしながら、下記の実験で分かるように、ユニオンモデルは、従来の技術がより良く実行するように見えるところでも、定常広帯域ノイズに対しては、適していない。このような技術の主な欠点は、通常は、ノイズに関するある予備知識を必要とするということである。最近、フル帯域の方法のための周波数フィルタリングフロントエンドは、未知の広帯域ノイズがある状態で、音声認識用のケプストラム係数の明らかな代わりであることが分かった。

ロバストな音声認識の視点から見て、なるべく多くの種類のノイズに対処することができるシステムを備えていることが望ましい。確率的なユニオンモデルと周波数フィルタリング技術の組合せは、公知であり、周波数に集中したノイズ及び広帯域ノイズの両方に対処できるという利点があるが、これは、以下に説明されるように、特定の状況下のみに適用できる。

本発明は、ユニオンモデルの付加的なストリームとして、フル帯域に適用された周波数フィルタリングフロントエンドを統合することに基づいており、独立した項として出力確率計算の和として表れる。基本的には、狭帯域ノイズの場合にはサブバンド方法と結合したケプストラム係数を、広帯域ノイズについてフル帯域の方法でフィルタリングする周波数を使用するモデルを備え、出力確率計算から最も適切なものを自動的に選択することを狙う。両方の技術の新たなる組合せにより、システムは、異なる種類のノイズに対してロバストになる。また、下記結果から分かるように、特定の場合には、個々の対応する技術を使用するよりも組合せの方が良い結果を生み出す。

以下において、確率的ユニオンモデルを簡潔に説明する。

ユニオンモデルは、帯域制限された追加ノイズがある状態での尤度組合せで知られている。本質的に、信号は、Ｎ個の周波数帯に分割される。Ｍ（Ｍ＜Ｎ）個の帯域が歪まされるという推定の下では、Ｎ−Ｍ個全ての帯域組合せの尤度寄与の合計として、尤度（すなわち総出力確率）は計算することができる。主要な概念としては、組合せが劣化帯域を含んでいる場合、その尤度が極めて低いということである。したがって、個々の尤度寄与の合計は、ノイズの多い帯域が除外されている帯域の１つの組合せによって支配される。ユニオンモデルの特徴は、どの帯域が劣化するかを知る必要がないということである。

例えば、Ｎ＝５個の帯域と、そのうちＭ＝１個で騒々しい（ノイズを多く含めた）と仮定すれば、出力確率推定は次の通りとなる。

この概念を考慮に入れて、対角線の共分散及び２０の特徴ベクトル（すなわち、６つのＭＦＣＣ、７つのΔＭＦＣＣ及び７つのΔΔＭＦＣＣ）を備えた三声音（triphone）ＨＭＭに基づいた前のフル帯域のベースラインシステムが、各フレームについて、トレーニングされた。複数帯域システムは、各々８つの特徴ベクトル（すなわち４つのＭＦＣＣ、４つのΔＭＦＣＣ）を備えた５つのストリームに対応する５つのサブバンドを持っている。両方のシステムは純粋な音声でトレーニングされる。

評価に使用されたデータベースは、１５人の話者によって記録された１００のドイツの住所及び都市名を含んでいる。表１で示された実験結果は、他のデータベース、特に３５０の語彙サイズを備えた命令制御タスクについて、同様の実行結果を示している。

表１の最初の２列は、様々なノイズ状態下で、両方のシステムの評価からの結果を再生する。４つの帯域依存ノイズ（すなわち２つの人工、２つの実際のノイズ、３つの音楽及び２つの広帯域ノイズ）は、実験中に純粋な状態でテストされる。これらのノイズのスペクトルは、図４に図示されている。その結果から、認識率に関するバリエーションは極めて小さいが、帯域劣化がないので、より純粋な音声が、フル帯域の方法によって一層特徴づけられることを確認することができる。帯域制限されたノイズ全体については、フル帯域に関するユニオンモデル方法において、改善が確認できる。音楽は、あるサブバンドのノイズの集中度に依存する、異なる性質を示す。同時に、広帯域ノイズでの能力は、極端に減少する。

表１の実験は、最良の認識率から得られて、Ｍ（すなわち想定するノイズのある帯域の数）の異なる値に対応する。劣化するノイズに関する認識を与えられずに、観察中に劣化したサブバンドを受け入れる(accommodate)適切なオーダを選択するために、先行技術中で提案された自動的なオーダ選択アルゴリズムに頼ることができる。

以下において、周波数フィルタリングに関して、より詳細な説明をする。

周波数フィルタリングフロントエンドは、ケプストラム係数の代わりとして、ノイズのある音声認識について使用された。これは、非相関性の影響及び周波数領域にあるという利点を与え、対数フィルタバンクエネルギ（ＦＢＥ）のフィルタリングにより、１群の特徴パラメータを生成することを狙う。

本発明の実施例によれば、伝達関数ｚ−ｚ^−１を備えたＦＩＲフィルタは、１５の対数のＦＢＥに適用され、また、デルタパラメータが、計算されて、結果的に４５の特徴ベクトルとなる。

表１の３列目は、純粋な音声を含め、前述のノイズ状態について行われた実験を示す。純粋な状態では、その結果は、ＭＦＣＣを備えたフル帯域の方法に類似する。期待されていた通りに、音楽及び広帯域のノイズについて、著しい向上があったが、一方では、狭帯域ノイズについての結果は、従来システムのうち、どれと比較しても、低い。周波数フィルタリングの成功は、ある程度、フィルタバンク間のノイズ取消能力によるものであり、ノイズが周波数領域において定常という推定に基づいているが、狭帯域ノイズの場合は適用しない。

以下に、周波数フィルタリングフロントエンドを備えたユニオンモデルについて説明する。

周波数フィルタリングは、ＭＦＣＣの代わりに、確率的ユニオンモデルの５つのサブバンドの各々について、９つの特徴ベクトルを生成するために使用される。その目的は、狭帯域ノイズの場合には、対応するサブバンドのノイズが分離でき、他のサブバンドは影響されないという、この方法による良好なノイズ検出機能を活用する。同時に、広帯域ノイズに対するロバストさを与える。

周波数フィルタリングフロントエンドを備えたユニオンモデルの組合せは、ユニオンモデル概念に対する改善点として、広帯域のみならず、帯域依存ノイズについて、周波数に限定されたノイズが、近くの対数のメルフィルタバンクエネルギ（Ｈ（ｚ）＝ｚ−ｚ^−１）のみを劣化させると仮定する。しかしながら、５つのサブバンドを有するシステムを仮定した場合、ノイズのあるサブバンドが極めて少数であるので、これらが適切に位置している場合には、全体の帯域幅を劣化させることができる。実験による結果であるが、サブバンドが多ければ、スペクトルによる依存性が無視されることができ、これにより、音素の識別が貧弱になることが、実験的にテストされた。したがって、このような組合せは広帯域ノイズに対するロバストさを改善させることができたが、帯域制限されたノイズには極めて不安定で、予測不能となる。

表１の４列目は、上述のものと比較して、このスキームと同様の傾向を示し、狭帯域ノイズに対処できないことが明らかになっている。主な理由は、周波数フィルタリング技術が、対象のサブバンド以外に、近接するサブバンドに影響し、ノイズを広げるからである。１つのサブバンドの影響を減少させるためにシステムのサブバンドの数を増加させることができれば、それ程問題はないが、モデルによる音素識別能力に悪影響をおよぼす。

上述のように、本発明は、周波数フィルタリング全帯域フロントエンドのために、追加ストリームを使用し、これは、以下において、より詳細に説明する。

上記実験から、次の見解を推察することができる。

フロントエンドとしてのＭＦＣＣを備えたユニオンモデル方法は、帯域依存の追加ノイズの推定、及び尤度計算への歪まされた信号帯域の寄与を効果的に無視させることによって、信号の品質劣化を克服させる。

フル帯域に基づいた音声認識に適用された周波数フィルタリングフロントエンドによれば、様々な種類の広帯域ノイズによって劣化された音声についてのケプストラム係数よりも良い結果が得られる。

ノイズ状態の両方の可能性（広帯域ノイズ及び帯域依存ノイズ）に対処するのに適切な方法にこれらの２つのスキームを併合させる試みとして、周波数フィルタリングフロントエンドは、ユニオンモデルからの出力確率推定の定式の追加因子として統合される、すなわちユニオンモデルの独立ストリームとして統合される。

式（Ｉ）を参照に、新しい出力確率は、次のようである。

広帯域のノイズについては、最後の項の大きさと比較して帯域分割項の寄与を微少化させることが期待される。狭帯域ノイズについても同じ考え方が適用され、周波数フィルタリングフロントエンドを有するフル帯域に対応する項は、出力確率計算にほとんど影響がない。

上記のモデルは、ＭＦＣＣフロントエンドの観点からフル帯域の観察で、周波数フィルタリングフロントエンドの観点からフレームレベルで６つのストリーム構造で、５つのサブバンド観察を組み合わせて、三声音に基づいたＨＭＭ音声認識システムに組み込まれる。これは、時間ｔの各観察ベクトルを、６つの独立したデータストリームに分割することができることを意味し、パラメータ推定課題用のボーム＝ウェルチ再推定アルゴリズム（Baum-Welch Re-estimation algorithm）の出力分布を計算する定式を、以下の通り書くことができる。

ここで、各ストリームに２つの混合成分があり、ｃ_ｓｍはｍ番目の成分の重みであり、また、Ｎ（．；μ，Σ）は、平均ベクトルμ及び分散行列Σを有する多変数ガウスである。６つのストリームの各々の重みは、１に設定される。５つのサブバンドストリームの各々についての特徴ベクトルは、４つのＭＦＣＣ及び４つのΔＭＦＣＣ（すなわち、各々について８つの特徴）からなる。全帯域ストリームは、１５の対数のＦＢＥへの伝達関数ｚ−ｚ^−１を備えたＦＩＲフィルタの適用に起因する４５特徴ベクトル及びデルタパラメータの推定を含んでいる。

表１の５列目の結果から、検討の目的である全てのノイズに対する、この方法による評価を示している。図及び表の２列目及び３列目の比較から観察できるように、全てのノイズ状態において、予測通りの結果が得られた。実際に、これらの一部については、個々のシステムのどれよりも、認識率がさらに良かった。例えば、帯域依存ノイズのうちの１つ（例えば時計）をとれば、周波数フィルタリングフロントエンド及びフル帯域の精度は、極めて低く、２０．７％であり、一方、ユニオンモデル及びＭＦＣＣフロントエンドでは、極めて高く、９２．２％である。同じノイズについては、本発明によるモデルは、９４．９％の認識率という最良の結果をもたらした。同じ挙動は、さらに音楽及び広帯域ノイズに適用できる。

以下に示される実験結果は、スペクトル特徴の観点から、実際の環境で見つけることができる種々のノイズに対処する効率的な方法として提案される本発明による実施形態の一例である。

研究中に、特定の狭帯域ノイズにおいては、好ましい結果を示すユニオンモデルのオーダ、すなわちノイズの含む帯域の数Ｍは、周波数フィルタリング全帯域ストリームに融合させた場合にそのＭが増加することが観察された。例えば、人工の狭帯域ノイズ「チャイム」については、古典的ユニオンモデルの最良の認識率が、Ｍ＝１で与えられる。しかしながら、新システム（すなわち、５つのＭＦＣＣサブバンドストリーム＋１つの周波数フィルタリングストリーム）は、Ｍ＝２で最良に実行される。その理由は、後者の場合には、システムが６番目のストリームのある広帯域情報、特に複合確率分布と関係する情報を既に持っていると考えられるので、なるべく多くの騒々しいサブバンドを回避することが好ましい。これらの観察結果によれば、観察範囲内の劣化したサブバンドを受け入れる（accommodate）ための適切なオーダを選択する利点を示している。最適規準に基づいたオーダ、すなわち純粋な発声から得られたパターンにより近い状態パターンを生成するオーダを自動的に選択するためのアルゴリズムによって、好ましい結果が得られた。

表１：異なるノイズ状態についてのＷＥＲでの認識率

本発明に係る音声前処理方法の実施例における主要なステップを示すフローチャートである。本発明に係る音声前処理方法の第２の実施例における主要なステップを示すフローチャートである。パワー密度スペクトル及びメルスケールされたフィルタバンクを示すグラフ図である。異なるノイズ状態についてのスペクトルを示すグラフ図である。

符号の説明

Ｓ音声信号、Ｆスペクトル、Ｂ_Ｕ，_ＭＦＣＣユニオンモデル尤度、ＦＢＥ―ＦＦ帯域のフル帯域のフィルタバンクエネルギ、Ｂ_ＳＳＵＢスペクトルの差引尤度項、Ｏ_１〜Ｏ_Ｎ帯域依存の音響特徴データ、ＭＦＣＣメル周波数ケプストラム係数

Claims

音声信号を受け取るステップと、
前記音声信号のスペクトルを所与数の所定周波数サブバンドに分割するステップと、
各々の前記周波数サブバンド内の前記音声信号を解析するステップと、
それぞれの周波数サブバンドにおいては、前記音声信号の少なくとも一部を代表する、それぞれの帯域依存の音響特徴データを生成するステップと、
前記帯域依存の音響特徴データ及び／又はその派生物に基づいて、前記音声信号内の音声の要素又は前記音声信号内の音声の要素の配列が発生する頻度に関する、帯域依存の尤度を導き出すステップと、
前記スペクトル全体内の前記音声信号を解析するステップと、
前記スペクトル全体に関して、前記音声信号の少なくとも一部を代表する、フル帯域の音響特徴データを生成するステップと、
前記フル帯域の音響特徴データ及び／又はその派生物に基づいて、前記音声信号内の音声の要素又は前記音声信号内の音声の要素の配列が発生する頻度に関する、フル帯域の尤度を導き出すステップと、
前記帯域依存の尤度及び前記フル帯域の尤度に基づいた前記音声信号内の音声要素又は前記音声信号内の音声の要素の配列が発生する頻度に関する、総合的尤度を導き出すステップとを有することを特徴とする音声前処理方法。
前記総合的尤度を導き出すときに、前記帯域依存尤度は、前記周波数サブバンドの劣化していない周波数サブバンド数の決定、及びそれぞれの周波数サブバンドに対応する異なった帯域依存尤度の生成物の全ての組合せを加えることによって、ユニオンモデル尤度に組み合わせられることを特徴とする請求項１に記載の音声前処理方法。
前記帯域依存の音響特徴データは、メル周波数のケプストラム係数及び／又はそれぞれの周波数サブバンドより導き出された派生物に基づいた、それぞれの帯域依存メル周波数ケプストラム係数特徴を有することを特徴とする請求項１乃至２のいずれか１項に記載の音声前処理方法。
前記フル帯域の尤度を導き出す前に、所定の耐広帯域ノイズ手法が使用されることを特徴とする請求項１乃至３のいずれか１項に記載の音声前処理方法。
前記耐広帯域ノイズ手法は、周波数フィルタリング手法に基づくことを特徴とする請求項４に記載の音声前処理方法。
前記耐広帯域ノイズ手法は、スペクトル減算方法に基づくことを特徴とする請求項４に記載の音声前処理方法。
前記フル帯域の音響特徴データは、前記スペクトル全体から導き出されたフィルタバンクエネルギに基づくフィルタバンクエネルギ特徴を有することを特徴とする請求項１乃至６のいずれか１項に記載の音声前処理方法。
前記フル帯域の音響特徴データは、前記スペクトル全体から導き出された濾波フィルタバンクエネルギに基づく濾波フィルタバンクエネルギ特徴を有することを特徴とする請求項１乃至７のいずれか１項に記載の音声前処理方法。
前記フル帯域の音響特徴データは、メル周波数のケプストラム係数及び／又は前記スペクトル全体から導き出された派生物に基づく、フル帯域のメル周波数ケプストラム係数特徴を有することを特徴とする請求項１乃至８のいずれか１項に記載の音声前処理方法。
前記フル帯域の音響特徴データ及び／又は前記帯域依存音響特徴データは、ＰＬＰ線形予測フィルタ係数に基づくＰＬＰ線形予測フィルタ特徴を有することを特徴とする請求項１乃至９のいずれか１項に記載の音声前処理方法。
前記フル帯域の音響特徴データは、前記フル帯域のメル周波数ケプストラム係数特徴にスペクトル減算方法を使用することにより生成される、スペクトルで変更されたフル帯域のメル周波数ケプストラム係数特徴を有することを特徴とする請求項１乃至１０のいずれか１項に記載の音声前処理方法。
前記帯域依存の尤度及び前記尤度項は、確率推定器を使用して決定されることを特徴とする請求項１乃至１１のいずれか１項に記載の音声前処理方法。
前記濾波フィルタバンクエネルギは、第２のフィルタバンクエネルギから第１のフィルタバンクエネルギを差し引くことによって、前記第１のフィルタバンクエネルギに次ぐ２つの個別周波数ステップが展開され、
前記第１のフィルタバンクエネルギは、第１の個別周波数に対応し、前記第２のフィルタバンクエネルギは、第２の個別周波数に対応することを特徴とする請求項１乃至１２のいずれか１項に記載の音声前処理方法。
請求項１乃至１３のいずれか１項に記載の音声前処理方法又はそのステップを実行又は実現するための音声前処理システム。
コンピュータ上で実行されるとき、請求項１乃至１３のいずれか１項に記載の音声前処理方法又はそのステップを実行又は実現するためのコンピュータプログラム製品。
請求項１５に記載のコンピュータプログラム製品を格納したコンピュータで読出し可能な記憶媒体。