JP4427530B2

JP4427530B2 - 音声認識装置、プログラムおよび音声認識方法

Info

Publication number: JP4427530B2
Application number: JP2006255549A
Authority: JP
Inventors: 政巳赤嶺; トーネンレムコ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-21
Filing date: 2006-09-21
Publication date: 2010-03-10
Anticipated expiration: 2026-09-21
Also published as: CN101149922A; JP2008076730A; US20080077404A1

Description

本発明は、音声認識装置、プログラムおよび音声認識方法に関する。

従来の音声認識方法は、特徴量がどのような音素で構成されているかを推定するための確率統計モデルである音響モデルとして、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を一般的に用いている。このようなＨＭＭの各状態の特徴量は、ガウス混合モデル（ＧＭＭ： Gaussian Mixture Model）で表現される。一般的に、ＨＭＭは音素に対応し、ＨＭＭの各状態のＧＭＭは入力された音声信号から抽出された特徴量を統計的にモデル化している。従来のＨＭＭに基づく音声認識方法では、全てのＧＭＭは同じ特徴量を用いており、また、特徴量は音声認識の状態に関わらず常に同じである。

ところが、上述したようなＨＭＭの各状態の特徴量をＧＭＭで表現した従来の音響モデルは、音声認識の状態に応じてモデルを変化させることができず、十分な性能を達成することができなかった。より詳細には、音響モデルのパラメータ（コンテキスト依存構造、モデル数、ガウス分布数、モデル及び状態の共有構造など）は、音響モデル作成時に予め設計され、音声認識実行時に音声認識の状態に応じて変更することはできなかった。

例えば、音声認識を自動車などの雑音環境下で用いる場合、雑音のレベルは常に変化しているため、各々の雑音レベルに応じて音響モデルを動的に変化させることができれば、高い認識性能を得ることができると考えられる。ところが、従来の音響モデルでは予め学習したモデルを静的に用いるため、雑音レベルの変動に対応できず性能が劣化してしまう。

また、従来の音響モデルでは、認識に用いる特徴量は認識の状況や状態に関わらず常に同じである。そのため、例えば同じ音素でも単語中の位置によって識別に有効な特徴量が異なるような場合でも、特徴量を異ならせることができないため、認識性能が劣化してしまう。

さらに、雑音環境下での音声認識で有効な特徴量や音響モデルのパラメータは、摩擦音と母音では異なることが容易に推察されるが、従来の音響モデルでは動的に特徴量や音響モデルのパラメータを変化させることができず、十分な認識性能を達成することができない。

一方、音響モデルおよび言語モデルから認識単語を確定する演算を行うデコード処理は、１パス、または複数パス（一般には２パス）で実行される。すなわち、２パス構成の場合は、２パス目で１パス目と異なる音響モデルを用いることができ、話者の性別や雑音レベルに応じてより適切な音響モデルを選択することが可能である（非特許文献１，２参照）。

Schwartz R., Austin S., Kubala F., Makhoul J., Nguyen L., Placeway P., Zavaglios G., "New Uses for the N-best Sentence Hypotheses within the Byblos Speech Recognition System", Proc. ICASSP 92, pp. 1-4, San Francisco, USA, 1992. Rayner M., Carter D., Digalakis V., and Price P., "Combining Knowledge Sources to Reorder N-best Speech Hypothesis Lists, " In Proceedings ARPA Human Language Technology Workshop, pages 212--217. ARPA, March 1994.

上述したように、複数パス構成の音声認識方法である２パス法は、音響モデルのパラメータを変化させることができないという問題を２パス目で異なる音響モデルを用いることである程度緩和することができる。

しかしながら、２パス法によれば、特徴量を音声認識の状態に応じて最適化することはできないし、音響モデルの選択は発声単位となることから音響モデルのパラメータはフレーム単位で最適化することはできないなど、制約が大きく、十分な認識性能を達成することはできない。

本発明は、上記に鑑みてなされたものであって、高い認識性能を得ることができる音声認識装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の音声区間検出装置は、入力信号から音声認識に用いる特徴量を抽出する特徴抽出手段と、前記特徴量がどのような音素で構成されているかを推定するために前記音素にそれぞれ対応する複数の状態で構成された音響モデルと、前記複数の状態のうちの少なくとも１つに対応する決定木と、から前記音響モデルの尤度を計算し、前記尤度を用いて認識単語を確定する演算を行う認識手段と、を備え、前記決定木は、前記音響モデルに対する前記特徴量の尤度を格納した複数のリーフを有し、前記特徴量が前記複数のリーフのいずれかに分類された場合に、分類された前記リーフに格納された尤度を前記各状態における前記特徴量の尤度として前記認識手段に出力する。

本発明によれば、入力信号や音声認識の状態に応じて特徴量や音響モデルのパラメータを動的に自己最適化する音響モデルを構築することができるため、音響特徴だけではないより高位の特徴量など特徴量の種類や数、共有化構造や共有の数、状態数、コンテキスト依存モデルの数などの音響モデルのパラメータを入力音声の環境や音韻、音声認識の状態に応じて最適化することにより高い認識性能を得ることができる、という効果を奏する。

以下に添付図面を参照して、この発明にかかる音声認識装置の最良な実施の形態を詳細に説明する。

本発明の実施の一形態を図１ないし図８に基づいて説明する。図１は、本発明の実施の一形態にかかる音声認識装置１のハードウェア構成を示すブロック図である。本実施の形態の音声認識装置１は、概略的には、自己最適化音響モデル１００を用いて音声認識処理を行なうものである。

図１に示すように、音声認識装置１は、例えばパーソナルコンピュータであり、コンピュータの主要部であって各部を集中的に制御するＣＰＵ（Central Processing Unit）２を備えている。このＣＰＵ２には、ＢＩＯＳなどを記憶した読出し専用メモリであるＲＯＭ（Read Only Memory）３と、各種データを書換え可能に記憶するＲＡＭ（Random Access Memory）４とがバス５で接続されている。

さらにバス５には、各種のプログラム等を格納するＨＤＤ（Hard Disk Drive）６と、配布されたプログラムであるコンピュータソフトウェアを読み取るための機構としてＣＤ（Compact Disc）−ＲＯＭ７を読み取るＣＤ−ＲＯＭドライブ８と、音声認識装置１とネットワーク９との通信を司る通信制御装置１０と、各種操作指示を行うキーボードやマウスなどの入力装置１１と、各種情報を表示するＣＲＴ（Cathode Ray Tube）、ＬＣＤ（Liquid Crystal Display）などの表示装置１２とが、図示しないＩ／Ｏを介して接続されている。

ＲＡＭ４は、各種データを書換え可能に記憶する性質を有していることから、ＣＰＵ２の作業エリアとして機能してバッファ等の役割を果たす。

図１に示すＣＤ−ＲＯＭ７は、この発明の記憶媒体を実施するものであり、ＯＳ（Operating System）や各種のプログラムが記憶されている。ＣＰＵ２は、ＣＤ−ＲＯＭ７に記憶されているプログラムをＣＤ−ＲＯＭドライブ８で読み取り、ＨＤＤ６にインストールする。

なお、記憶媒体としては、ＣＤ−ＲＯＭ７のみならず、ＤＶＤなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式のメディアを用いることができる。また、通信制御装置１０を介してインターネットなどのネットワーク９からプログラムをダウンロードし、ＨＤＤ６にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のＯＳ（Operating System）上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をＯＳに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやＯＳなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。

このシステム全体の動作を制御するＣＰＵ２は、このシステムの主記憶として使用されるＨＤＤ６上にロードされたプログラムに基づいて各種処理を実行する。

次に、音声認識装置１のＨＤＤ６にインストールされている各種のプログラムがＣＰＵ２に実行させる機能のうち、本実施の形態の音声認識装置１が備える特長的な機能について説明する。

図２は、音声認識装置１の機能構成を示すブロック図である。図２に示すように、音声認識装置１は、音声認識プログラムに従うことにより、自己最適化音響モデル１００と、特徴抽出手段である特徴量抽出部１０３と、認識手段であるデコーダ１０４と、言語モデル１０５とを備えている。

特徴量抽出部１０３は、入力信号から音声認識に用いる特徴量を分析・抽出し、自己最適化音響モデル１００に出力する。特徴量としては、種々の音響特徴量の他に性別、話者、音素コンテキストなどのより高位の種々の特徴量を用いることができる。例えば、従来の音声認識で広く用いられているＭＦＣＣ（Mel Frequency Cepstrum Coefficient）またはＰＬＰ（Perceptual Linear Predictive）のスタティック及びΔ（一次微分），ΔΔ（二次微分）パラメータとエネルギーパラメータを合わせた３９次元の音響特徴量、性別のクラス、入力信号のＳＮＲ（Signal to Noise Ratio：信号対雑音比）クラスの高位特徴量などを、特徴量として用いることができる。

自己最適化音響モデル１００は、一般的な音響モデルである隠れマルコフモデル（ＨＭＭ: Hidden Markov Model）１０１と、分岐の繰り返しを階層化して樹形図に描き表した決定木１０２との組で構成されている。ＨＭＭ１０１は、従来の音声認識で用いられるＨＭＭと同様であるが、従来のＨＭＭの各状態の特徴量であるガウス混合モデル（ＧＭＭ： Gaussian Mixture Model）が１または複数の決定木１０２で置き換えられている。この決定木１０２は、最適化手段を構成するものである。このような自己最適化音響モデル１００は、特徴量抽出部１０３から入力された音声特徴量に対するＨＭＭ１０１の当該状態における尤度２０２を計算するために用いられる。尤度２０２とは、あるモデルがどれだけ事象を説明しているかの「尤もらしさ」のことであり、そのモデルによりその事象が起こる確率で表されたものである。

言語モデル１０５は、各単語がどのような文脈で出現するかを推定するための確率統計モデルである。この言語モデル１０５は、従来のＨＭＭ方式の音声認識処理で用いられるモデルと同様である。

デコーダ１０４は、自己最適化音響モデル１００および言語モデル１０５から尤度２０２（図４参照）が最大になる認識単語を確定する演算を行う。より詳細には、デコーダ１０４は、自己最適化音響モデル１００から尤度２０２を受け取ると共に、自己最適化音響モデル１００に対してＨＭＭ１０１の状態の音素コンテキストなどの認識対象フレーム及びデコーダ１０４における音声認識の状態の情報を与える。音素コンテキストは、単語を構成する一連の音素のつながりの一部を取り出したものである。

次いで、自己最適化音響モデル１００を構成するＨＭＭ１０１および決定木１０２について詳述する。

ＨＭＭ１０１は、特徴量抽出部１０３が出力する特徴量時系列データと各音素ラベルとを対応付けて登録されている。図３は、ＨＭＭ１０１のデータ構造の一例を示す説明図である。図３に示すように、ＨＭＭ１０１は、ノードと有向リンクからなる有限オートマトンで特徴量時系列データを表現する。ノードは、照合の状態を表現しており、例えば、音素ｉに対応する各ノードの値ｉ１，ｉ２，ｉ３は、それぞれ異なる状態であることを表している。また、有向リンクには状態間の遷移確率（図示せず）が対応付けられて記憶されている。

図４は、ＨＭＭ１０１と決定木１０２の関係を示す説明図である。図４に示すように、各ＨＭＭ１０１は、複数の状態２０１を持ち、各状態２０１に対して１つの決定木１０２が対応している。

次に、決定木１０２の動作について図５を用いて詳しく説明する。図５に示すように、決定木１０２は、複数のノード３００，３０１と複数の葉（リーフ）３０２から構成されている。なお、ノード３００は、木構造で最上位のノードであるルートノードである。各々のノード３００，３０１は、ＹｅｓとＮｏの２つの子供をもつ。この子供は、ノード３０１またはリーフ３０２となるものである。各ノード３００，３０１には特徴量に関する質問が予め設定されており、質問に対する答えに応じてＹｅｓまたはＮｏのノードまたはリーフに分岐する。ただし、リーフ３０２は質問をもたず、分岐する子供もない。その代わり、入力されたデータの与えられたモデルに対する尤度２０２（図４参照）を出力する。尤度２０２は、後述する学習プロセスにより予め計算されてリーフ３０２に格納されている。

図６は、決定木１０２の具体例を示す説明図である。図６に示す決定木１０２では、本実施の形態の音響モデルが入力音声の性別やＳＮＲ、音声認識の状態、コンテキストに応じて異なる尤度２０２を出力できることを示している。図６に示す例では、決定木１０２はＨＭＭ１０１の状態１（２０１Ａ）と状態２（２０１Ｂ）の２つの状態に関係付けられており、これら２つの状態２０１Ａ，２０１Ｂに対応する学習データを用いて後述の学習プロセスにより学習される。図６中、特徴量Ｃ１とＣ５はＰＬＰケプストラムの１番目と５番目の係数である。図６に示すように、ルートノード３００、ノード３０１Ａ〜ノード３０１Ｂは状態１（２０１Ａ）と状態２（２０１Ｂ）に共通に適用され、２つの状態で共有される。しかしながら、ノード３０１Ｃで状態に関する質問があり、ノード３０１Ｃ以下のノード３０１Ｄ〜３０１Ｇは状態依存である。したがって、ある特徴量は状態１（２０１Ａ）と状態２（２０１Ｂ）で共通に用いられ、ある特徴量は状態に依存して異なるものが用いられることになる。また、状態によって用いられる特徴量の数も異なる。なお、図６の例においては、状態２（２０１Ｂ）の方が状態１（２０１Ａ）より多くの特徴量を用いており、ＳＮＲが５ｄＢ未満か否か、すなわち周囲雑音のレベルが高いか否かに応じて、また、当該音素の直前の音素が“／ａｈ／”か否かに応じて、異なる尤度２０２を出力する構成となっている。さらに、ノード３０１Ｂでは入力音声の性別が女性か否かを質問しており、性別によって異なる尤度２０２が出力できるようになっている。

決定木１０２のノードの数やリーフの数、各ノードで用いられる特徴量や質問、リーフで出力する尤度などのパラメータは後述の学習プロセスにより学習データから学習され、学習データに対して尤度または認識率が最大となるよう最適化される。また、学習データが十分に大きく、音声認識が実際に用いられる環境での音声信号を代表しているとみなせる場合、決定木１０２は実際の環境でも最適であると考えることができる。

次に、自己最適化音響モデル１００において、入力された特徴量に対するモデルの尤度２０２がＨＭＭ１０１の状態毎に如何にして計算されるかについて、図７のフローチャートを参照しつつ説明する。

まず、ステップＳ１において、尤度を計算しようとしている対象音素モデルのＨＭＭ１０１の特定の状態に対応する決定木１０２を選択する。

次に、ルートノード３００を質問が可能となるアクティブノードに設定すると共に、他の全てのノード３０１及びリーフ３０２を非アクティブノードに設定し（ステップＳ２）、特徴量を特徴量抽出部１０３から取り出す（ステップＳ３）。

続くステップＳ４においては、ステップＳ３で取り出された特徴量をアクティブノードに設定されたルートノード３００に入力し、予め設定された質問に対する答えを計算する。そして、ステップＳ５ではステップＳ４で計算された質問に対する答えを評価する。ステップＳ４で計算された質問に対する答えが“Ｙｅｓ”の場合は（ステップＳ５のＹｅｓ）、“Ｙｅｓ”の子ノードを次のアクティブノードに設定し（ステップＳ６）、答えが“Ｎｏ”の場合は（ステップＳ５のＮｏ）、“Ｎｏ”の子ノードをアクティブノードに設定する（ステップＳ７）。

次に、アクティブノードがリーフ３０２か否かを評価する（ステップＳ８）。アクティブノードがリーフ３０２である場合には（ステップＳ８のＹｅｓ）、これ以上の分岐はないので、リーフ３０２に格納されている尤度２０２を出力する（ステップＳ９）。一方、アクティブノードがリーフ３０２でない場合には（ステップＳ８のＮｏ）、ステップＳ３に戻って、次のアクティブノードの評価を行う。

以上説明したように、決定木１０２を用いた音響モデルは、特徴量と特徴量に対する質問、尤度２０２によって記述され、これらは全て入力に依存する。決定木１０２は、音響的特徴量やより高位の特徴量に関して対応する質問と尤度２０２を入力信号や認識の状態に依存して効果的に最適化することができ、最適化のステップは、以下で説明する学習の過程によって達成される。

図８は、決定木１０２の学習プロセスを示すフローチャートである。決定木１０２の学習は、基本的に、学習しようとしている決定木１０２に対応しているＨＭＭ１０１のある状態に入力サンプルが属しているか否かを識別するために必要な質問と尤度２０２とを、予め対応する状態に属しているか否かがクラス分けされた学習サンプルを用いて決定する過程である。学習サンプルは、予め、一般的に用いられている音声認識法を用いて、入力サンプルがどのＨＭＭ１０１のどの状態に対応するかフォース・アライメントし、状態に属するサンプルを正解クラス、属さないサンプルをその他クラスとラベル化しておく。なお、ＨＭＭ１０１は、従来と同様の方法で学習することができる。

まず、ステップＳ１１において、学習する決定木１０２に対応する当該状態の学習サンプルを入力するとともに、１つのリーフからなる決定木１０２を作成する。決定木１０２は１つのリーフ３０２から始まり、リーフ３０２の分岐によりノードと子ノードを作成、さらにノードの分岐で子ノードを繰り返し成長させることで作成される。

続くステップＳ１２においては、分岐の対象とするリーフを選択する。なお、選択されるリーフ３０２は、学習サンプルの数がある程度以上であること（例えば、１００以上）と、学習サンプルが特定のクラスだけから構成されないという条件を満たす必要がある。

ステップＳ１３においては、上述した条件を対象のリーフが満足するか否かを判定する。判定結果が“Ｎｏ”の場合は（ステップＳ１３のＮｏ）、ステップＳ１８に進む。一方、判定結果が“Ｙｅｓ”の場合は（ステップＳ１３のＹｅｓ）、ステップＳ１４に進み、対象のリーフ３０２に入力される全ての特徴量（学習サンプル）に対して可能な全ての質問を実施し、その結果として得られる全ての分岐（子ノードへの分岐）を評価する。ステップＳ１４における評価は、分岐による尤度の増加率に基づいて行う。ここで、学習サンプルである特徴量に対する質問は、音響特徴量のように大小関係があるものと、性別や雑音の種類のように大小関係が無くクラスで表現されるもののように、特徴量に応じて異なる。大小関係がある特徴量に対しては、ある閾値より大か否かという質問であり、大小関係がない特徴量に対しては、あるクラスに属するか否かという質問である。

続くステップＳ１５では、評価を最大化する最適な質問を選択する。言い換えると、全ての学習サンプルに対して可能な全ての質問を評価し、尤度の増加率を最大化する質問を選択する。

次に、ステップＳ１５で選択された質問に従って、学習サンプルを“Ｙｅｓ”の子リーフと“Ｎｏ”の子リーフに分岐し、各々のリーフに属する学習サンプルからリーフ毎に尤度２０２を計算する（ステップＳ１６）。あるリーフＬにおける尤度は、次式に基づいて計算され、リーフ毎に格納される。
Likelihood stored at leaf Ｌ＝Ｐ（true class | Ｌ）／Ｐ（true class）
ここで、Ｐ（true class | Ｌ）は、当該リーフにおける正解クラスの事後確率、Ｐ（true class）は正解クラスの事前確率である。

決定木１０２の学習はステップＳ１２に戻って、新たなリーフに対してステップＳ１２〜ステップＳ１６を繰り返し、決定木１０２を成長させる。そして、ステップＳ１３の判定で成長させる条件を満たすリーフがなくなった時（ステップＳ１３のＮｏ）、ステップＳ１７〜１８に進み、枝刈りを行う。枝刈りは木の成長とは逆に最下位のリーフからボトムアップに上に向かってノードを削除しながら行われる。より詳細には、２つの子リーフをもつ全てのノードについて、そのノードの分割を削除してリーフにした場合に尤度がどの程度減少するかを評価し、尤度の減少が最小となるノードを見つけ、そのノードを枝刈りする（ステップＳ１８）。このような手順を予め設定したノード数になるまで繰り返し行い（ステップＳ１７のＮｏ）、決定木１０２の１回目の学習を終了する。

上述した決定木１０２の学習が一旦終了すると、学習に用いる音声サンプルを学習された音響モデルを用いてフォース・アライメントし、学習サンプルを更新する。更新された学習サンプルに対して、決定木１０２のリーフの尤度を再学習し、更新する。このような処理を予め設定した回数、または、全体の尤度の増加率がある閾値以下になるまで繰り返し、学習を完了する。

このように本実施の形態によれば、入力信号や音声認識の状態に応じて特徴量や音響モデルのパラメータを動的に自己最適化する音響モデルを構築することができるため、音響特徴だけではないより高位の特徴量など特徴量の種類や数、共有化構造や共有の数、状態数、コンテキスト依存モデルの数などの音響モデルのパラメータを入力音声の環境や音韻、音声認識の状態に応じて最適化することにより高い認識性能を得ることができる。

本発明の実施の一形態にかかる音声認識装置のハードウェア構成を示すブロック図である。音声認識装置の機能構成を示すブロック図である。ＨＭＭのデータ構造の一例を示す説明図である。ＨＭＭと決定木の関係を示す説明図である。決定木の構成を示す説明図である。決定木の具体例を示す説明図である。自己最適化音響モデルにおける特徴量に対するモデルの尤度算出処理の流れを示すフローチャートである。決定木の学習プロセスを示すフローチャートである。

符号の説明

１音声認識装置
１０１音響モデル、ＨＭＭ
１０２最適化手段、決定木
１０３特徴抽出手段
１０５認識手段

Claims

入力信号から音声認識に用いる特徴量を抽出する特徴抽出手段と、
前記特徴量がどのような音素で構成されているかを推定するために前記音素にそれぞれ対応する複数の状態で構成された音響モデルと、前記複数の状態のうちの少なくとも１つに対応する決定木と、から前記音響モデルの尤度を計算し、前記尤度を用いて認識単語を確定する演算を行う認識手段と、
を備え、
前記決定木は、前記音響モデルに対する前記特徴量の尤度を格納した複数のリーフを有し、前記特徴量が前記複数のリーフのいずれかに分類された場合に、分類された前記リーフに格納された尤度を前記各状態における前記特徴量の尤度として前記認識手段に出力することを特徴とする音声認識装置。
前記決定木は、前記複数の状態のうちの第１の状態と第２の状態とに関連付けられ、前記第１の状態と前記第２の状態とで異なる前記特徴量が用いられていることを特徴とする請求項１に記載の音声認識装置。
前記決定木は、前記複数の状態のうちの第１の状態と第２の状態とに関連付けられ、前記第１の状態と前記第２の状態とで異なる数の前記特徴量が用いられていることを特徴とする請求項１又は請求項２に記載の音声認識装置。
前記決定木の各パラメータは、前記入力信号及び前記音声認識の状態に応じて、前記音響モデルの尤度が最大になるように最適化されることを特徴とする請求項１乃至請求項３のいずれか１項に記載の音声認識装置。
前記音響モデルは、隠れマルコフモデルであることを特徴とする請求項１乃至請求項４のいずれか１項に記載の音声認識装置。
入力信号から音声認識に用いる特徴量を抽出する特徴抽出機能と、
前記特徴量がどのような音素で構成されているかを推定するために前記音素にそれぞれ対応する複数の状態で構成された音響モデルと、前記複数の状態のうちの少なくとも１つに対応し、前記音響モデルに対する前記特徴量の尤度を格納した複数のリーフを有し、前記特徴量が前記複数のリーフのいずれかに分類された場合に、分類された前記リーフに格納された尤度を前記各状態における前記特徴量の尤度として前記認識手段に出力する決定木と、から前記音響モデルの尤度を計算し、前記尤度を用いて認識単語を確定する演算を行う認識機能と、
をコンピュータに実行させるためのプログラム。
入力信号から音声認識に用いる特徴量を抽出する特徴抽出工程と、
前記特徴量がどのような音素で構成されているかを推定するために前記音素にそれぞれ対応する複数の状態で構成された音響モデル、前記複数の状態のうちの少なくとも１つに対応する決定木と、から前記音響モデルの尤度を計算し、前記尤度を用いて認識単語を確定する演算を行う認識工程と、
を含み、
前記決定木は、前記音響モデルに対する前記特徴量の尤度を格納した複数のリーフを有し、前記特徴量が前記複数のリーフのいずれかに分類された場合に、分類された前記リーフに格納された尤度を前記各状態における前記特徴量の尤度として前記認識手段に出力することを特徴とする音声認識方法。