JP3810608B2

JP3810608B2 - 音声レコグナイザーのためのトレーニング方法

Info

Publication number: JP3810608B2
Application number: JP2000067094A
Authority: JP
Inventors: チェンガルバラヤンラシナベル
Original assignee: ルーセントテクノロジーズインコーポレーテッド
Priority date: 1999-03-12
Filing date: 2000-03-10
Publication date: 2006-08-16
Anticipated expiration: 2020-03-10
Also published as: EP1041540A1; DE60000074T2; CA2299051A1; DE60000074D1; JP2000267692A; EP1041540B1; US6292776B1; CA2299051C

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識に関し、特に、隠れマルコフモデル（ＨＭＭ）ベースの音声認識の方法および装置に関する。
【０００２】
【従来の技術】
典型的な連続音声認識は、フロントエンド特徴解析ステージからなり、その後で特徴（フィーチャー）パターン分類を行う。これら２つの間のインターフェースである特徴ベクトル（feature vector）は、その後の分類に関連する音声信号の全ての情報を理想的には含み、音響環境における変化による関連しないバリエーションの影響を受けず、同時に、分類に関する演算上要求を最小化するために低いディメンションとなっている。
【０００３】
理想的な音声認識の近似として幾つかの種類の特徴ベクトルが提案されてきた。これは、文献、J. W. Picone, "Signal Modeling Techniques in Speech recognition", Proceedings of the IEEE, Vol. 81, No. 9, 1993, pp. 1215-1247に記載されている。多くの音声認識において、線形予測（ＬＰ:linear predictive）解析によって得たケプストラル（cepstral）パラメータを伝統的に用いている。これは、ＬＰ解析がスムースなスペクトル、ピッチハーモニックスがないこと、スペクトルピークをよくモデル化できることによる。
【０００４】
他方、Ｍｅｌベースのケプストラルパラメータはスペクトルをメルの間隔でサンプリングすることによって人間の聴覚系の認知特性の利点を享受する。論理的に、ＬＰ解析とメルフィルタバンク解析の両方の利点を組み合わせると、理論的には、多くのケプストラル特徴が改善するはずである。
【０００５】
この事は幾つかの方法により行うことができる。例えば、ＬＰパラメータの対数量スペクトルを計算し、周波数がメルスケールに対応するように周波数をワープさせる。ケプストラムを計算する前に双一次変換（bilinear transformation:メービウス変換）によってＬＰスペクトルをワープすることによって興味深い音声認識結果が報告された。これは、文献、M. Rahim and B. H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 1, 1996, pp. 19-30のようにワープを用いないのとは対照的である。他の周波数ワープ技術が幾つか提案されている。例えば、H. W. Strube, "Linear Prediction on a Warped Frequency Scale", Journal of Acoustical Society of America, Vol. 68, No. 41980, pp. 1071-1076では、時間領域においてオールパスフィルタリングを用いるメルに似たスペクトルワーク方法が提案されている。
【０００６】
別のアプローチにおいて、ＬＰ解析の後に、信号にメルフィルターバンク解析を適用して、メル線形予測ケプストラル（mel-lpc）特徴として呼ばれるものを与える（文献、M. Rahim and B. H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 1, 1996, pp. 19-30を参照）。メル-lpc特徴の計算は文献、H. Hermansky, "Perceptual Linear Prediction (PLP) analysis of Speech", Journal of Acoustical Society of America, Vol. 87, No.4, 1990, pp.1738-1752 により説明されている聴覚線形予測（ＰＬＰ:Perceptual Linear Predictive）係数にある意味で似ている。これら両方の技術は、ＬＰ解析の前にメルフィルタバンクを適用する。しかし、メル-lpcは聴覚重み付け(perceptual weighting)ないし振幅圧縮を用いない高次ＬＰ解析を用いる。上の全ての技術は、音声品質を改善するために音声信号のスペクトルを「認知的(perceptual)（聴覚）」にモデル化し、全バンド（whole band）アプローチにて音声解析、合成、認識をより有効に表現することを試みている。
【０００７】
近年に、サブバンドベースの特徴抽出技術の研究がなされている。例えば、文献、H. Bourlard and S. Dupont, "Subband-Based Speech Recognition", Proc. ICASSP, 1997, pp. 1251-1254 のものである。文献、P. McCourt, S. Vaseghi and N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, pp. 557-560 、S. Okawa, E. Bocchieri and A. Potamianos, "Multi-Band Speech Recognition in Noisy Environments", Proc. ICASSP, 1998, pp. 641-644 、S. Tibrewala and H.Hermansky, "Subband Based Recognition of Noisy Speech", Proc. ICASSP, 1997, pp. 1255-1258 のものである。文献、P. McCourt, S. Vaseghi and N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, pp. 557-560は、複数の分解能（multiple resolution）レベルを用いても更に有利にならないことを示している。また、サブバンドからの自己後退スペクトル（auto-regressive spectral）評価がフルバンド自己後退スペクトル評価よりも堅牢で効率的であることを最近の理論的および実験的な結果が示している。すなわち、文献、S. Rao and W. A. Pearlman, "Analysis of Linear Prediction, Coding and Spectral Estimation from Subbands", IEEE Transactions on Information Theory, Vol. 42, 1996, pp. 1160-1178である。
【０００８】
【発明が解決しようとする課題】
上記各文献に記載されているように、音声認識において更に改善する必要がある。本発明は、線形予測解析とサブバンド解析の両方の利点を有する音声認識を提供することを目的とする。
【０００９】
【課題を解決するための手段】
手短に言うと、本発明により、入力音声の周波数スペクトルから得たメルワープしたサブバンドベースの自己相関関数の数からプレディクターが計算されるような予測解析のアプローチを提供することによって音声リコグナイザーを改善する。また、サブバンドデコンポジションとその後のケプストラル解析のレベルを、ピラミット状の分解能レベルから特徴が選択されるように増やされる。統計的パラメータが評価される大きなディメンション空間を定めて、各マルチ分解能サブバンドからＬＰケプストラル特徴の連結に基づいて特徴ベクトルを拡張するように形成する。
【００１０】
好ましい実施態様において、隠れマルコフモデル（ＨＭＭ:hidden Markov model）の状態を特徴づけるために連続的密度ミクスチャを用いるＨＭＭに基づくレコクナイザの方法および装置を提供する。サブバンドデコンポジションの異なる分解能を用いて、単一の固定音声バンドデコンポジションを用いることによる制限を有効に緩和し、ストリングエラーの数の減らすことができるようなマルチ分解能特徴を用いて更に利点を発揮することができる。
【００１１】
別の実施態様において、マルチ分解能メル-lpc特徴を用いて音声レコグナイザーを提供して改善することができる。
【００１２】
図１は、サブバンドのレベルを２つ有する階層的サブバンド線形予測音声レコグナイザー１００のブロック図である。第１レベルは標準的な音声バンド幅であり、例えば、０〜４０００Ｈｚである。第２レベルは２つのサイドバンドを有し０〜２０００Ｈｚと２０００〜４０００Ｈｚである。これらバンド幅は、階層的サブバンドベースの線形予測ケプストラル（ＨＳＬＰＣ）特徴の抽出プロセス１０２にて適用される。本発明に従うプロセス１０２により抽出した幾つかのＨＳＬＰＣ特徴によって音声認識を改善することができる。音声レコグナイザーにとって通常のように、まず音声モデルを構築するようにレコグナイザーがトレーニングされそのトレーニングの後に音声モデルが入力音声を認識するために用いられる。まず音声レコグナイザー１００が信号コンディショニング（整形）した最小ストリングエラーレートトレーニング（signal conditioned minimum string error rate training）によってトレーニングされる。
【００１３】
本発明は、分類のためのより分別可能な特徴を提供するために相関を用いることの調査をすることがその創造の要因の一部となった。一般的に特徴が分別可能であるほど良いレコグナイザーを提供するという認識があるが、一般的な認識が相関を用いて特徴を分別できることを特に指摘したりせず相関を用いてより分別可能な特徴を得るような特定の態様を提供したりしていない。
【００１４】
図１は、音声のフレームに対して階層的メル-lpc特徴を計算するプロセス全体を示す。ＨＳＬＰＣ特徴抽出プロセス１０２を信号コンディショニング１６０と分別トレーニングプロセス１７０と共に用いて、音声レコグナイザー１００に対してトレーニングをし、音声レコグナイザー１００によって音声入力を認識させる。このトレーニングプロセスをまず以下に説明する。
【００１５】
音声レコグナイザー１００は、米国特許出願第０９／３２９０２（１９９８年３月２日出願、発明者：Chengalvarayan、"Speaker Adaptation Using Discriminative Linear Regression On Time-Varying Mean Parameters In Trended HMM"）の図１に示したようなデジタルプロセッサプラットフォームで動作するプロセスである。このデジタルプロセッサプラットフォームは、本発明の音声レコグナイザー１００が必要とするプロセスを提供するためにリプログラムできる。
【００１６】
まず、ＨＳＬＰＣ特徴抽出プロセス１０２は、破線ブロックで示した。ＨＳＬＰＣ特徴抽出プロセス１０２は入力の時変音声を処理する。この処理は、プレエンファシス、音声のフレームへのブロッキング、フレームウィンドーイング、フーリエ変換を含む。これら特定の機能は、高速フーリエ変換（ＦＦＴ:fast Fourier transform）１０４により提供される。高速フーリエ変換１０４は入力音声時間関数を周波数（パワー）スペクトルに変換する。
【００１７】
次は、メルフィルタバンク１１０、１２０である。フィルタ１１０、１２０の中央周波数は音声レコグナイザー１００から１０００Ｈｚまで線形スケールで等しく離間し、１０００Ｈｚより上では対数スケーリングで等しく離間する。１０００Ｈｚより上では各中央周波数では前のフィルタの中央周波数よりも１．１倍である。各フィルタの大きさ対周波数応答（magnitude frequency response）は、中央周波数における単位元（unity）に等しい周波数領域における三角形型を有し、２つの隣接フィルタの中央周波数にて０へと線形的に減る。各フレームの周波数領域スペクトルはＭの三角形メルフィルタバンクの集合を通って処理される。このＭは、音声レコグナイザー１００に対しては２４にセットされる。
【００１８】
第２に、逆離散的フーリエ変換（ＩＤＦＴ:inverse discrete Fourier transforms）１１２、１２２、１２３を用いて自己相関解析を行う。これらＩＤＦＴは、Ｑの自己相関係数を得るために平滑化パワースペクトルに（対数操作無しで）与えられる。ここで、Ｑはレベル１では１０にセットされる。レベル２では、低い方の半分と高い方の半分のサブバンド（０〜２ｋＨｚと２〜４ｋＨｚ）に対して８にセットされる。図１は、分解能レベル１、２に対する各サブバンドにおける動作の流れを示す。２より大きい分解能レベルは、２と３を考えることができる。（図１、２は、便利な例として選択したのみであり、本発明の範囲を制限するように意図したものではない。）
【００１９】
第３に、線形予測ケプストラル解析プロセス１１６、１２６、１２７によりケプストラル解析を行う。各自己相関セットをまずＬＰ係数に変換する。これは、文献、L. R. Rabiner and Biing-Hwang Juang, "Fundamentals of Speech Recognition", Prentice Hall, New Jersey, 1993, pp. 115-117 により知られるDurbinの回帰アルゴリズムを用いることができる。そして、標準的なＬＰからケプストラムへの回帰アルゴリズムを用いてケプストラムパラメータへと変換する。このｌｐｃ解析プロセスはユニット１１６、１２６、１２７により各レベルに対して繰り返す。例えば、レベル１および２に対して、各サブバンドに対して繰り返す。
【００２０】
このｌｐｃプロセスは全てのレベルからの所定の必要とされるケプストラル特徴の数が得られるまで繰り返される。全ての利用からケプストラル特徴の数を得ると、マルチレベルサブバンド特徴がユニット１５０にて単一の拡張特徴ベクトルを形成するように連結される。この連結したケプストラルベクトルの最終的なディメンションは、好ましい態様にて１２にセットされる。
【００２１】
好ましい態様において、以下の３つの種類の特徴セットを調べる。
（１２、０、０）は、レベル１から１２の特徴、より低いサブバンドから０、より高いサブバンドから０を意味する。
（０、６、６）は、レベル２から１２の特徴（より低いサブバンドから６の特徴、より低い特徴およびより高いサブバンドから６の特徴レベル１から０の特徴を意味する）
（６、３、３）は、レベル１から６の特徴、レベル２から６の特徴（より低いサブバンドから３の特徴、より高いサブバンドから３の特徴）を意味する。
【００２２】
音声の各フレームに対して、プロセス１０２により与えられる１２のＨＳＬＰＣ特徴に加えて、各入力特徴ベクトルは１２のＨＳＬＰＣ特徴（エネルギー）を越えて拡張し、１次および２次導関数を含む。全体ではこれにより文献、B. H.Juang, W. Chou and C. H. Lee, "Minimum classification error rate methodsfor speech recognition," IEEE Transactionson Speechand AudioProcessing,Vol. 5, No.3, pp.257-265,1997、米国特許出願第０９／０３２９０２におけるものと似たような３９ディメンションの特徴ベクトルを得る。しかし、本発明は３９の特徴ベクトルのうち１２にてサブバンド情報を用いるという観点においてこれらの文献とは異なる。
【００２３】
レコグナイザーをトレーニングしテストするために、従来知られている音声認識と同様に、好ましい態様において大規模で複雑なコネクテッドディジット（ＣＤ:connected digit）データベースを用いる。このＣＤデータベースべースは、多様な発声者に対応するために音声レコグナイザーとしては優れている。用いたＣＤデータベースは、幾つかの独立なデータ収集努力、現場トライヤル、生サービス導入の際に集めたデータベースの集積である。このＣＤデータベースは、英語のデジット、１〜９、０、Ｏを含む。このＣＤデータベースの範囲は、用意したデジットストリングのリストを発呼者が読むものから顧客がクレジットカード口座に関して実際に情報にアクセスするために認識システムを用いるものにまで及ぶ。
【００２４】
これらデータは、多様な電話ハンドセットを用いて有線ネットワークチャネルを介して集められる。デジットストリングの長さの範囲は１〜１６デジットである。一般的なようにＣＤデータベースを２つのセットトレーニングセットとテストセットとに分けた。このトレーニングセットには、多様なネットワークチャネル、マイクロホン、方言地域（dialect region）からの読み取り（read）および自然的（spontaneous）両方のデジット入力を含む。
【００２５】
トレーニングにおいて、階層的信号バイアス除去（ＨＳＢＲ）プロセス１６２は異なる入力状態を有する信号からバイアスを除去する。ＨＳＢＲプロセス１６２の結果は最小ストリングエラー／一般化確率的ディセント（ＭＳＥ／ＧＰＤ:minimum string error/generalized probabalistic decent）トレーニングおよび認識プロセス１７２へと転送される。トレーニングの間プロセス１６２、プロセス１７２はメモリー１７４内にＨＭＭを構築する。メモリー１７４におけるＨＭＭはトレーニング中メモリー１６４におけるＨＭＭコードブックを構築するのに用いられる。
【００２６】
続くテストセットは、マッチした環境状態とマッチしない環境状態からデータストリングを含むように設計された。トレーニングおよびテストセットにおける全ての記録は、有効デジットのストリングであり、トレーニングおよびテストに対してそれぞれ合計で７４６１ストリングと１３１１４ストリングあった。このトレーニングおよびテストは、上記米国特許出願第０９／０７１２１４に記載されたものと同様なものであった。
【００２７】
特徴解析に続いて、各特徴ベクトルがＨＭＭレコグナイザーへとわたされる。これは、コンテキスト依存ヘッドボディテールモデル（context-dependent head-body-tail model）を用いてレフトトゥライト連続的混合密度（left-to-right continuous mixture density）ＨＭＭのセットによりボキャブラリーにおける各ワードをモデル化する。各信号は多くの電話条件および異なるトランスデュサー装置の下で記録される。その後に作られた各ＨＳＬＰＣ特徴ベクトルをバイアス除去プロセスを用いてチャネル歪みの影響を減らす。好ましくは、ケプストラル平均減算バイアス除去（ＣＭＳＢＲ）プロセスを用いる。代わりに、階層的信号バイアス除去（ＨＳＢＲ）プロセスを用いることができる。ＨＳＢＲに類似するプロセスは、文献、M. Rahim and B. H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 1, 1996, pp. 19-30に記載されている。本発明の別の態様においては、バイアスリムーバー１６２はグランド特徴ベクトルの一部（例えば、特定の１もしくは複数のレベルに対応する特徴）に対応してＨＳＢＲを用い、そのグランド特徴ベクトルの残りの部分（例えば、残りのレベルに対応する特徴）に対してＣＭＳＢＲを用いる。
【００２８】
ボキャブラリーにおける各ワードは、ヘッドセグメント、ボディセグメント、テールセグメントへと分けられる。ワードをまたがる同時調音（inter-word co-articulation）をモデル化するため前および後のコンテキストに従って各ワードは複数のヘッドおよび複数のテールを有する１つのボディからなる。本発明の好ましい態様において、全体で２７６のコンテキスト依存サブワードモデルを全ての可能性のあるワードをまたがる同時調音をモデル化される。
【００２９】
ヘッドとテープのモデルの両方は３つの状態で表されるが、ボディのモデルは４つの状態で表され、それぞれが４つの混合成分を有する。沈黙（silence）は３２の混合成分を有する１つの状態モデルでモデル化される。この構成により、全体で、２７６のモデル化で、８３７状態、３３７６混合成分となる。トレーニングには、モデルの全てのパラメーターを全て更新することを含む。これには、平均、分散（variance）、混合原因からなり、最尤評価（ＭＬＥ:maximum-likelihood estimation）、その後に最小ストリングエラーの３つのエポックを用い、更に、一般化確率的ディセント（ＭＳＥ:minimum string error／ＧＰＤ:generalized probabilistic decent）の３つのエポックのトレーニングを用いて、パラメーターの評価を更に改良する。
【００３０】
このトレーニングは、上記米国特許出願第０９／０７１２１４に記載されているものと類似している。異なる点は、ＨＳＬＰＣ特徴ベクトルがＨＳＬＰＣ特徴抽出プロセス１０２により作られることである。大きさが４のＢＲコードブックがＨＭＭの平均ベクトルから抽出され、各トレーニング発声（utterance）は、ＭＳＥ／ＧＰＤトレーニングで用いられる前にＨＳＢＲを適用することにより信号調整される。音声レコグナイザー開発のトレーニング部分において、競争ストリングモデルの数は４にセットされステップの長さは１にセットされる。入力デジット（digit）ストリングの長さはトレーニング時とテスト時の両方で知らないものと想定した。
【００３１】
トレーニングの後に、３つの種類のＨＭＭ（ＨＳＬＰＣ_｛12、0、0｝、ＨＳＬＰＣ_｛0、6、6｝ＨＳＬＰＣ_｛6、3、3｝）と２つの種類トレーニング（ＭＬとＭＳＥ）を用いてコネクテッドデジットレコグナイザー１００を評価するために幾つかのグループのテストを実行した。これらのテストは実際の動作とほぼ同様に行った。テストと実際の動作において、ＨＳＬＰＣ特徴抽出ユニット１０２による処理はトレーニングにおけるものと同じであった。バイアス除去プロセス１６２は、トレーニングが終了することとＨＭＭとＢＲコードブックとステージにおいてトレーニングと変わるべきでないことを除いて、トレーニングと基本的には同様であった。実際のテストと実際の音声認識のために、バイアス除去プロセス１６２の出力はデコーダプロセス１８０に送られる。また、デコーダプロセス１８０はＨＭＭをＨＭＭ記憶装置１７４からグランド特徴ベクトルと、いずれのバイアスをも除去された後のトレーニング時に構築されたレコグナイザーボキャブラリーのＨＭＭとを比較する。このデコーダプロセスは、上記米国特許出願第０９／０７１２１４に記載されたものと非常に類似している。
【００３２】
したの第１表にはレコグナイザー１００の全体の性能を６つの異なる構成で特徴種類の関数としてのストリングの正確性と共にまとめて示した。例えば、第１表、セットＨＳＬＰＣ_｛6、3、3｝は６メル-lpc特徴が第１分解能から取られ、３メル-lpc特徴がより低い分解能からと取られ、３つを第２の分解能レベルの上側バンドから取られることを示している。正規化したフレームエネルギーがマルチ分解能と共に含まれ、全てのケースにおいて供給された特徴をデルタおよびデルターデルタトラジェクトリー特徴と共に結果が示す。
【００３３】
第１表は４つの重要な結果を示している。第１に、ＭＳＥトレーニングはＭＬＥトレーニングよりも優れ、ＭＳＥベースのレコグナイザーはＭＬＥベースのレコグナイザーに対して全ての種類の音声モデルにわたって全般的に平均して５５％のストリングエラーレート削減を達成している。第２に、フルバンド幅ケプストラルＨＳＬＰＣ_｛12、0、0｝に比べて、サブバンドケプストラル特徴を単独で用いた性能（ＨＳＬＰＣ_｛6、3、3｝）に何らかの改善を観測することができた。第３に、第１の第３行で示したようにマルチ分解能特徴セットが用いられた場合に認識性能が更に改善したことを観測することができた。最後に、第１票で得られた最良の結果は、第１の分解能特徴セットを単独の場合（ＨＳＬＰＣ_｛12、0、0｝）と比べてエラーレートを１５％削減して両方の分解能レベル（ＨＳＬＰＣ_｛6、3、3｝）からの特徴を用いて得られた。
【００３４】
第１表から本発明に従ってマルチ分解能メル-lpc特徴が単一分解能メル-lpc特徴と比べて電話コネクテッドデジットデータベースの認識を改善することを署名することができたことは重要である。第１表の結果は、文献、P. McCourt, S. Vaseghi and N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, pp. 557-560により報告された以前の結果と比較すると対照的である。この文献では、両方の分解能レベルを用いても更に利益を得ることができないことと見ている。
【００３５】

【００３６】
この第１表は、上で説明したように、ＨＳＬＰＣ特徴種類の関数としてＭＬおよびＭＳＥトレーニング方法を用いた未知の長さのグラマーに基づいたコネクテッドデジット認識タスクに対するストリング精度レートを表している。
【００３７】
本発明に従うトレーニングされた音声レコグナイザーに対して行ったテストが実際に使用される音声入力と非常に近いことは重要である。従って、音声レコグナイザー１００のテスト結果に類似する結果が合理的に期待される。
【００３８】
図２において、音声レコグナイザー２００を示してあり、これはレベル３の音声レコグナイザーを有する図１に示したレコグナイザーと類似している。音声レコグナイザー２００は、音声レコグナイザー１００と比べ、メルフィルタ２３０、ＩＤＦＴ２３２、２３３、２３４、２３５、クォードlpcアナライザー（quad lpc analyzer）２３６、２３７、２３８、２３９サブバンドを更に有する。ＩＤＦＴ２３２−２３５に対しては、各サブバンドクォードランド（quadrant）（0-1 kHz、 1-2 kHz、 2-3 kHz、 3-4 kHz）に対してＱは６にセットされる。より高いレベルが加えられたならば同様にセットされる。ユニット２５０はマルチレベルサブバンド特徴を連結し、ユニット１５０と同様に単一の拡張特徴ベクトルを形成する。連結したケプストラルベクトルの最終的なディメンションは少なくとも１２である。ただし、テストがより高い数がよいことを示すことはある。
【００３９】
このように、認識を改善するためにサブバンドからケプストラル特徴を抽出する音声レコグナイザーについて説明した。多くの変更が可能であり、より広い音声入力バンド４０００Ｈｚよりも大きいものや異なる大きさのサブバンドベースのレコグナイザーの１つの変数として、バンドの数や抽出サブバンド境界でコンポジッションを用いることができる。
【図面の簡単な説明】
【図１】本発明に従って第１および第２のサブバンドに対する音声レコグナイサの方法および装置のブロック図。
【図２】本発明に従って第１、第２、第３のサブバンドに対する音声レコグナイサの方法および装置のブロック図。
【符号の説明】
１００音声レコグナイザー
１０２ＨＳＬＰＣ特徴抽出プロセス
１０４高速フーリエ変換
１５０、２５０グランド特徴ベクトルを形成するように個々の特徴が追加される
１６０信号コンディショニング
１６２バイアス除去プロセス
１７０区別的トレーニング

Claims

音声レコグナイザーにおいて使用される方法であって、
（Ａ）時間変動するバンド制限された音声入力発声を受信するステップ、
（Ｂ）高速フーリエ変換プロセスを用いて前記発声を周波数領域スペクトルに変換するステップ、
（Ｃ）前記周波数領域スペクトルを複数のメルフィルタバンクに転送するステップであって、該複数のメルフィルタバンクの少なくとも１つが、前記周波数スペクトルをフィルタリングする複数のサブバンドを有している、ステップ
（Ｄ）逆離散的フーリエ変換プロセスを用いて前記複数のメルフィルタバンクの各出力を変換するステップであって、該変換によって、該メルフィルタバンク各々からの時間変動する音声出力、及びそれに加えて各メルフィルタバンクの各サブバンドに対する時間変動する音声出力を得る、ステップ
（Ｅ）対応する線形予測ケプストラル解析を用いて各逆離散的フーリエ変換プロセスの時間変動する出力それぞれの各出力を解析するステップであって、これにより、各逆離散的フーリエ変換出力に対応する個々の特徴ベクトル出力を作るステップ、
（Ｆ）グランド特徴ベクトルを形成するように前記個々の特徴ベクトルを追加するステップ、及び
（Ｇ）前記グランド特徴ベクトルを整えバイアスリムーバを用いて前記グランド特徴ベクトルのいずれのバイアスをも除去するステップ、
からなる方法。
前記ステップ（Ｄ）がプリエンファサイズするステップ、音声をフレームへとブロック分割するステップ、フレームウィンドウするステップ、及びフーリエ変換するステップを含む請求項１記載の方法。
前記メルフィルタバンクは、１００〜１０００Ｈｚでは線形スケーリングで１０００Ｈｚより上では対数スケーリングで等しく離間するようにフィルタ中央周波数を有することを特徴とする請求項１記載の方法。
１０００Ｈｚより上では各中央周波数は前のフィルタの中央周波数よりも１．１倍であることを特徴とする請求項３記載の方法。
各フィルタの大きさ周波数応答は中央周波数における単位元と等しく、いずれの隣接フィルタの周波数にて線形に０へと減るように周波数領域にて形状を有することを特徴とする請求項４記載の方法。
各フレームに対する周波数領域スペクトルは、Ｍの三角形メルフィルタバンクのセットを通してわたされることを特徴とする請求項５記載の方法。
前記逆離散的フーリエ変換は、前記周波数スペクトルを平滑化し複数の自己相関係数を得るように適用されることを特徴とする請求項１記載の方法。
前記複数の自己相関係数は第１の分解能レベル（レベル１）では１０であり第２の分解能レベル（レベル２）では８であることを特徴とする請求項７記載の方法。
前記グランド特徴ベクトルの最終的なディメンションは、１２個のケプストラル特徴にセットされることを特徴とする請求項１記載の方法。
前記１２個のケプストラル特徴のうちの６個の特徴が低い方のサブバンドから取られ、６個の特徴が高い方のサブバンドから取られるものである請求項９記載の方法。
前記１２個のケプストラル特徴のうちの６個の特徴がレベル１から取られ、３個の特徴がレベル２の低い方のサブバンドから取られ、３個の特徴がレベル２の高い方のサブバンドから取られるものである請求項９記載の方法。
前記グランド特徴ベクトルは、レベル１のサブバンドから少なくとも１個の特徴を有し、レベル２のサブバンドから少なくとも１個の特徴を有し、レベル３のサブバンドから少なくとも１個の特徴を有することを特徴とする請求項１記載の方法。
音声レコグナイザーであって、
（Ａ）時間変動するバンド制限された音声入力発声を受信する手段、
（Ｂ）高速フーリエ変換プロセスを用いて前記発声を周波数領域スペクトルに変換する手段、
（Ｃ）前記周波数領域スペクトルを複数のメルフィルタバンクに転送する手段であって、該複数のメルフィルタバンクの少なくとも１つは、前記周波数スペクトルをフィルタリングする複数のサブバンドを有する、手段
（Ｄ）逆離散的フーリエ変換プロセスを用いて前記複数のメルフィルタバンクの各出力を変換して、該メルフィルタバンク各々からの時間変動する音声出力、及びそれに加えて各メルフィルタバンクの各サブバンドに対する時間変動する音声出力を得る手段
（Ｅ）対応する線形予測ケプストラル解析を用いて各逆離散的フーリエ変換プロセスの時間変動する出力それぞれの各出力を解析して、各逆離散的フーリエ変換出力に対応する個々の特徴ベクトル出力を作る手段、
（Ｆ）グランド特徴ベクトルを形成するように前記個々の特徴ベクトルを追加する手段、
（Ｇ）前記グランド特徴ベクトルを整えバイアスリムーバを用いて前記グランド特徴ベクトルのいずれのバイアスをも除去する手段、及び
（Ｈ）バイアスを除去した後に前記グランド特徴ベクトルをデコードする手段
からなる音声レコグナイザー。
音声認識方法であって、
（Ａ）時間変動するバンド制限された音声入力発声を受信するステップ、
（Ｂ）高速フーリエ変換プロセスを用いて前記発声を周波数領域スペクトルに変換するステップ、
（Ｃ）前記周波数領域スペクトルを複数のメルフィルタバンクに転送するステップであって、該複数のメルフィルタバンクの少なくとも１つが、前記周波数スペクトルをフィルタリングする複数のサブバンドを有している、ステップ
（Ｄ）逆離散的フーリエ変換プロセスを用いて前記複数のメルフィルタバンクの各出力を変換するステップであって、該変換によって、該メルフィルタバンク各々からの時間変動する音声出力、及びそれに加えて各メルフィルタバンクの各サブバンドに対する時間変動する音声出力を得る、ステップ
（Ｅ）対応する線形予測ケプストラル解析を用いて各逆離散的フーリエ変換プロセスの時間変動する出力それぞれの各出力を解析するステップであって、これにより、各逆離散的フーリエ変換出力に対応する個々の特徴ベクトル出力を作るステップ、
（Ｆ）グランド特徴ベクトルを形成するように前記個々の特徴ベクトルを追加するステップ、
（Ｇ）前記グランド特徴ベクトルを整えバイアスリムーバを用いて前記グランド特徴ベクトルのいずれのバイアスをも除去するステップ、及び
（Ｈ）バイアスを除去した後に前記グランド特徴ベクトルをデコードするステップ
からなる音声認識方法。