JPH10509526A

JPH10509526A - ヒドンマルコフモデルを使用して設計された決定木分類子

Info

Publication number: JPH10509526A
Application number: JP8514641A
Authority: JP
Inventors: ジェフリーエスソレンセン
Original assignee: ディクタフォーンコーポレイション（ユーエス）
Priority date: 1994-10-26
Filing date: 1995-10-19
Publication date: 1998-09-14
Also published as: CA2203649A1; EP0789902A1; AU3960895A; WO1996013830A1; EP0789902A4

Abstract

(57)【要約】決定木分類子（２０）は、数学的オペレーションを使用せずに実施されうるような最終分類子を与えるように、ヒドンマルコフモデルを使用して設計される。本発明の装置は、数学的計算のすべてを決定木の構造へと移し変える。これが完了するとき、その決定木は、メモリアドレッシングおよび二進比較オペレーションの如き論理オペレーションのみを使用して、実施されうる。このような簡単化により、決定木は、通常のゲートを使用した簡単なハードウエア構成にて実施されうる。

Description

【発明の詳細な説明】ヒドンマルコフモデルを使用して設計された決定木分類子発明の分野本発明は、パターン分類に関するものであり、特に、未知の音声発話を特定のワードカテゴリへと分類するための方法および装置に関するものである。発明の背景音声認識は、ある音響的音声信号を分析して、意図されたその言語的メッセージまたは発話を識別して、マシンが話されたコマンドに対して正しく応答しうるようにするプロセスである。マシンと流暢に会話することは難しい。何故ならば、音声は、本質的に変動性を有し複雑なものであるからである。音声認識の難しさは、用語範囲、ワードの混同性、信号帯域幅、ノイズ、周波数歪み、理解すべき話し手の数および処理すべき音声の形によってもいる。音声認識装置は、連続する信号を、適切な意味へと割り当てることができ且つ理解されたときに、応答言動をするのに使用されうるような分離した表現へと変換することを必要としている。２つの相続く機会において同じ人によって話された同じワードでも、異なる特性を有することがありうる。どのワードが発話されたのかを決定するためのパターン分類が開発されている。音声認識の分野においては、パターン分類のいくつかの方法が利用されている。現在では、ヒドン（Hidden）マルコフモデルが、最も普及している統計的モデルである。ヒドンマルコフモデルは、音声信号を、音声信号の異なる特性分布を各状態に関連付けた推計学的状態またはランダム分布マシンとして特徴付けるものである。したがって、音声信号は、一連の音響音として見られうるものである。この場合において、各音は、調和的特徴の特定のパターンを有するものである。しかしながら、調和的パターンと音声ユニットとの間には１対１の関係はない。むしろ、特定の音声音と特定の調和的パターンとの間の関係は、ランダムな統計学的な関係である。その上、音声における音の持続時間は、全体のワードの認識にはそれほど影響を与えない。ヒドンマルコフモデルは、音声のこれらの両面を捉えており、ここでは、各状態は、調和的パターンの特性分布を有しており、状態から状態への遷移は、各音声音の持続時間的な面を記述している。ワードおよび音の標本発話の収集体からヒドンマルコフモデルを設計するためのアルゴリズムは、広く知られており、「Fundamentals of Speech Recognition 」と題するLawrence R．Rabiner およびBiing Hwang Juang 氏による書籍（Pren tice-Hall，Inc．Englewood Cliffs，1993）に開示されており、これらの開示は、ここに、この引用により組み入れられている。普通、ボーム−ウエルチ再推定と称される方法により、話されたワードのモデルを連続的に洗練していくことができる。モデルの統計学的パラメータが推定されたときには、その訓練されたモデルによって所定の発話が発生される確率を計算するための簡単な公式が存在する。この後者のアルゴリズムは、分離されたワード音声認識システムを設計するのに使用される。各ワード毎に１つのモデルの収集体を設計することにより、その発生された確率推定を、所定の発話に一致する最も可能性の高いワードモデルを決定する基礎として使用することができる。決定木分類子は、もう一つ別の分類技術である。決定木分類子は、どの類を特定の観測結果に割り当てるかを決定する逐次的方法を意味している。決定木分類子は、医学的診断のための人工知能の分野において最も普通に使用され、また、植物学において分類ガイドを設計するために最も普通に使用されている。決定木は、一連の問合せをするためのガイドとして記述されうる。ここでは、前の問合せに対する答えにしたがって、後の問合せがなされる。例えば、鳥の種を識別するガイドを作成するには、早期の適切な問合せは、鳥の色である。決定木設計は、複雑な問題であると分かっている。特定の分類タスクのための最適な決定木分類子は、すべてのありうる適切な問合せを考慮し且つそれら問合せをするためのすべてのありうる順番を考慮することによって、初めて見つけ出されるうるものである。これは、存在するカテゴリおよび特徴の数が少ないような状況でさえも、計算不可能なタスクである。これに代えて、情報理論の分野によって定められる測定値を使用して最適に近い決定木を設計する方法が提案されている。従来の方法を使用して音声認識のための決定木を設計する以前の試みは、上手くいかないものであった。これは、音声信号を正確に特徴付けるためには、非現実的に膨大な量のトレーニング発話が必要とされるためである。これは、決定木が前の問合せに対する応答に基づく問合せを条件付けている事実によるものである。どの有限なトレーニングセットにおいても、各問合せについて、前の問合せによって課せられる必要基準のすべてを満たす特定の発話の例の数は、急速に減少する。したがって、決定木のより深いノードに行くにしたがって観測結果が累積するにつれて、その決定木を設計するのに使用される推定の不正確さは増していく。分離ワード認識のアプリケーションのために、ヒドンマルコフモデルの特定の類が使用され、これら、普通、分離出力のヒドンマルコフモデルと称されている。分離出力のヒドンマルコフモデルの場合には、話されたワードは、記号の適当に定義されたアルファベットからの記号のシーケンスによって表される。一組の音響パターンを１組の分離記号へ変換するのに使用される方法は、当業分野においてはベクトル量子化として知られている。ヒドンマルコフモデルを使用した音声認識システムの従来の実施例では、発話のすべての部分が同時に寄与するものとしている。この従来の技術では、特徴抽出およびベクトル量子化のステップを全発話に対して行ってからでないと、分類を開始できなかった。その上、ヒドンマルコフモデル計算は、特定の発話パターンの確率を推定するために、複雑な数学的オペレーションを必要としている。これらのオペレーションには、大量の乗算、除算および加算並びに浮動小数点数の複雑な表示の使用が含まれる。発明の概要本発明は、複雑な数学的オペレーションを使用せず且つ発話をワードカテゴリに分類するのにそれほど時間を掛けないような音声認識システムを提供することにより、従来の問題点を解決する。ヒドンマルコフモデルを使用して設計された決定木分類子は、どのような数学的オペレーションも使用せずに実施されうるような最終的分類子を与えている。本発明は、数学的計算のすべてを決定木の構造または設計へと移し変える。このような移し変えが完了するとき、その決定木は、メモリアドレッシングおよび二進比較オペレーションの如き論理演算のみを使用して実施されうる。このような簡単化により、決定木は、通常の論理ゲートを使用した簡単なハードウエアまたは非常に少ないコンピュータ命令のセットによるソフトウエアにて、直接的に実施されうるのである。これは、分類子に確率の数学的計算手段を設けることを必要としている従来のアルゴリズムとは、全く異なるものである。本発明は、トレーニングデータの中間表示としてヒドンマルコフモデル技法を導入することにより、従来の決定木分類子法の問題点を克服している。最初のステップは、音声発話の例の収集体を得ることである。これらの例から、各ワードに対応するヒドンマルコフモデルは、ボーム−ウエルチ法を使用してトレーニングされる。音声発話のモデルがトレーニングされたとき、トレーニング音声は棄てられる各ワードに対応する統計学的モデルのみが、決定木を設計するのに使用される。統計学的モデルは、トレーニングデータの平滑化バージョンとして見なされる。この平滑化表示によれば、決定木設計が特殊化し過ぎるのを防止することができる。ヒドンマルコフモデルは、リジッドパラメトリック構造を確率空間に課してトレーニングデータの変動性により木設計プロセスが破滅に至らないようにしている。観測されない発話に対する推定は、トレーニングデータセットにおける他の例との類似性に基づいて、行われる。決定木を設計するための情報理論的方法を使用するためには、音響的に分類された音の特定のシーケンスに対する確率値を推定するための新しい方法を使用する必要がある。これらの新しい方法は、従来のヒドンマルコフモデルアルゴリズムとは、それらが、部分的にのみ特定されている音のシーケンスに対する確率値を与えねばならないという点で異なる。確率論的予測によれば、この解決法は、特定されていないすべての音に対する音のすべてのありうるシーケンスの確率を合計することである。しかしながら、このような方法は、計算上できないことである。その代わりに、フォーワードアルゴリズムとして知られているヒドンマルコフモデルアルゴリズムの変形を、妥当な時間内にて確率を計算するのに使用することができる。前述したような技法を使用して、厄介な分類タスクの前に決定木を設計することが可能である。これは、分類タスクからすべての計算を（事実上）排除できるので、望ましいことである。図面の簡単な説明第１図は、従来技術によって使用されていた音声認識システムのブロック図である。第２図は、本発明の装置のブロック図である。第３図は、決定木を示す図である。第４図は、標本発話に対する時間インデックスおよび対応するベクトル量子化記号のテーブルを示す図である。第５図は、決定木設計アルゴリズムのブロック図である。好ましい実施例の説明添付図面、特に、第１図を詳細に参照するに、参照符号１１は、ワード「イエス」、「ノー」および「ヘルプ」のための従来の音声認識システムを示している。これらワード「イエス」、「ノー」および「ヘルプ」は、例示のために選択されたものである。任意のワードまたは任意数のワードを選択してもよい。音声認識システム１１は、特徴抽出器１２と、ベクトル量子化器１３と、ワード「イエス」のためのヒドンマルコフモデル（ＨＭＭ）１４と、ワード「ノー」のためのヒドンマルコフモデル（ＨＭＭ）１５と、ワード「ヘルプ」のためのヒドンマルコフモデル（ＨＭＭ）１６と、最大選択器１７とを備えている。ワード「イエス」、「ノー」および「ヘルプ」は、音声入力装置１８に対して話されるうる。典型的な音声入力装置は、マイクロフォン、増幅器およびＡ／Ｄ変換器（図示していない）からなる。装置１８の出力は、約１２ｋＨｚの割合で且つ１６ビット解像度でもってデジタル的にサンプリングされた音声である。装置１８の出力は、特徴抽出器１２へ結合される。特徴抽出器１２は、フレームバッファと、典型的な音声認識前処理部とからなる。抽出器１２は、「Fundamentals of Speech Recognition」と題するLawrence R．Rabiner およびBiing Hwang Juang 氏による書籍（Prentice-Hall，Inc.Eng lewood Cliffs，1993）に開示されており、これらの開示は、ここに、この引用により組み入れられている。実施するには、フレーム間に３０ｍｓの重なりを持った４５ｍｓのフレームバッファを使用する必要がある。各フレームは、プリエンファシスフィルタ、ハミングウインドウイングオペレーション、オーダー１０の自動相関測定、線型予想係数（ＬＰＣ）の計算およびこれに続くＬＰＣケプストラルパラメータの計算を使用して、処理される。ケプストラルパラメータにより、その音声の完全なソース−フィルタ特性が与えられる。ケプストラルパラメータは、話された発話のスペクトル内容の表示であり、話し手の声道のフォルマントの位置および帯域幅等の情報を含んでいる。エネルギー項により、信号振幅についての付加的情報が与えられる。抽出器１２の出力は、ベクトル量子化器１３の入力に結合されるオーダー１０の前述したＬＰＣケプストラルパラメータおよび単一フレームエネルギー項である。ベクトル量子化器１３は、抽出器１２から受信した１１の特徴の各収集体を単一の整数へとマッピングするために、前述の「Fundamentals of Speech Recogni tion」と題するLawrence R．Rabiner およびBiing Hwang Juang 氏による書籍に開示されたアルゴリズムを使用している。前述のベクトル量子化器１３は、大量のトレーニング音声データを使用して開発される。それから、音声スペクトルの分離バージョンを構成する整数シーケンスは、ワード「イエス」のＨＭＭ１４、ワード「ノー」のＨＭＭ１５およびワード「ヘルプ」のＨＭＭ１６の入力に結合される。ＨＭＭ１４、ＨＭＭ１５およびＨＭＭ１６の各々は、個々に、１組のヒドンマルコフモデルパラメータを含む。単一の話されたワードを表す整数のシーケンスが与えられたとき、観測結果シーケンス確率を計算するのに必要な数学的オペレーションが行われる。音声認識の記号法において、このアルゴリズムは、フォーワードアルゴリズムとして知られている。ＨＭＭ１４、ＨＭＭ１５およびＨＭＭ１６は、それら自身の計算を行なう。これらの計算は、時間の掛かるものである。ＨＭＭ１４、ＨＭＭ１５およびＨＭＭ１６の出力は、最大選択器１７の入力に結合される。最大選択器１７は、コンピュータプログラムを使用して、最高確率推定を有するのが、ＨＭＭ１４であるか、または、ＨＭＭ１５であるか、または、ＨＭＭ１６であるかを判定する通常の認識装置である。もし、ＨＭＭ１４が最高確率推定を有していた場合には、システムは、装置１８に対してワード「イエス」が話されていたと結論し、もし、ＨＭＭ１５が最高確率推定を有していた場合には、システムは、装置１８に対してワード「ノー」が話されていたと結論する。最大選択器１７の出力は、他のシステムへあるコマンドを入力して、それら他のシステムの機能を音声制御の下におくのに使用される。第２図は、本発明の装置のブロック図である。音声入力装置１８の出力は、特徴抽出器１２の入力に結合され、特徴抽出器１２の出力は、ベクトル量子化器１３の入力へ結合される。ベクトル量子化器１３の出力は、決定木分類子２０の入力に結合される。決定木分類子２０は、話された全発話、すなわち、「イエス」、「ノー」、「ヘルプ」のベクトル量子化値を含むバッファを有する。決定木分類子２０は、第３図に示されたテーブルに含まれたデータおよび前述のテーブルにアクセスするための関連手順によって表すこともできる。第３図に示したテーブルは、用語におけるワード、すなわち、「イエス」、「ノー」および「ヘルプ」の各々に対するヒドンマルコフモデルにて収集された統計学的情報を使用して発生される。第４図は、例示のための話された発話のいくつかの例を含み、以下の説明において使用される。決定木分類子２０で発話を分類するのに使用される方法は、第３図における情報によってガイドされるような、特定時間での記号の一連の検査を含む。各分類タスクについてステップＳ０から開始する。このテーブルは、時間インデックス３を検査し且つ時間インデックス３で見出された記号に基づいて他のステップに進むか、または、さらに検査を必要としないときに最終分類を告知するように命じている。次に、第４図から選択された３つの特定の発話についての手順を説明する。第３図に示した決定木を常にステップＳ０で開始する。決定木のこのラインは、どの話されたワードについても時間インデックス３（第４図）で含まれたベクトル量子化記号を見よとしている。今、ワード「ノー」が話されたと仮定する。最初のワード「ノー」に対する時間インデックス３での記号は、７である。時間３での記号７（第３図）のためのコラムは、ステップＳ３へ進めとしている。このステップは、時間インデックス６（第４図）を見よとしている。ワード「ノー」は、時間インデックス６で記号７を有する。ステップＳ３（第３図）のこの記号７のコラムは、ステップＳ８へ進めとしている。ワード「ノー」について時間インデックス９で、８の記号値を見出し、この記号値は、ステップ８（第３図）のコラム８へ進めとしている。そして、これにより、その正しい答えを、「ノー」として分類せよとしている。もし、ワード「イエス」が第３図のステップＳ０で選ばれた場合には、テーブルのこのラインは、その選ばれたワードのための時間インデックス３（第４図）を見よとしている。ワード「イエス」に対する最初の標本発話のための時間インデックス３での記号は、７である。時間３での記号７（第３図）のためのコラムは、ステップＳ３へ進めとしている。このステップは、時間インデックス６（第４図）を見よとしている。ワード「イエス」は、時間インデックス６で記号３を有する。ステップＳ３（第３図）の記号３のコラムは、この入力を、正しく、ワード「イエス」として分類せよとしている。もし、ワード「ヘルプ」が第３図のステップＳ０で話された場合には、テーブルのこのラインは、その選ばれたワードに対する時間インデックス３（第４図）を見よとしている。ワード「ヘルプ」に対する時間インデックス３での記号は、６である。時間３での記号６（第３図）のためのコラムは、ステップＳ２へ進めとしている。このステップは、時間インデックス４（第４図）を見よとしている。ワード「ヘルプ」は、時間インデックス４で記号６を有する。ステップＳ２（第３図）の記号６のコラムは、ワード「ヘルプ」が選択されるべきであるとしている。第３図の「ＥＯＷ」コラムは、あるワードの端部が観測結果について要求された時間インデックスで来たときに進むべき場所を指示している。その発話が短過ぎてトレーニングセットにおけるどのワードとしても分類できない場合として、ラベル「ｎ／ａ」が含まれている。第３図に示された決定テーブルは、第４図に与えられた例のすべてを正しく分類するのに使用されうる。しかしながら、前述した決定木および例は、少な過ぎて種々な可能性のある発話を捉えることができないので、大量のデータセットに対しては十分に働かないであろう。後述するようなアルゴリズムの実際の実施によれば、数千ラインを有し且つ少なくとも数ダースのコラムでのテーブルが発生される。前述の例は、決定木アルゴリズムへのヒドンマルコフモデル変換の出力およびその結果得られたデータテーブルを使用する決定木分類子２０にて実施される手順を例示している。第５図は、決定木設計アルゴリズムのフローチャートを示している。一般的な決定木設計原理は、Rodney M．Goodman 氏およびPadhraic Smyth氏による「Deci sion tree design from a communications theory standpoint」と題する論文(I EEE Transactions on Information Theory，Vol.，34，No.5，pp.979-997Sept． 1988)に開示されており、この引用により、ここに組み入れられている。決定木は、反復プロセスを使用して設計される。決定木の各枝の拡張のために適用される詳細ルールが特定される。所望の終端条件は、主として、アプリケーションの特定のニーズに依存しており、より広いタームにて論じられる。好ましい実施においては、終端条件がその結果生じた木におけるノードの総数であるようなグリーディー（greedy）アルゴリズムが特定される。これは、分類子データ構造の記憶に利用しうるメモリの量に直接的に関連付けられている。したがって、終端条件は、最も実際的な実施に十分に適したものとされる。木を設計するためには、観測結果の任意のセットとワードカテゴリとの間の相互情報の測定が必要である。相互情報を見つけ出すためには、ベクトル量子化ラベルの部分的に特定されたシーケンスを観測する確率を計算する必要がある。これは、ワード「イエス」のためのブロック２１、ワード「ノー」のためのブロック２２およびワード「ヘルプ」のためのブロック２３に含まれた、通常、フォーワードアルゴリズムと称されるヒドンマルコフモデル式の変形バージョンを使用して、達成されうる。この変形は、特定されていないベクトル量子化出力に関連したフォーワードアルゴリズムにおける項を除去して、通常のヒドンマルコフモデルアルゴリズムにおいてそれらの確率値を１で置き換えることを含む。このアルゴリズムは、ボックス２４に含まれており、一時に一つずつ、決定木のターミナル、またはリーフ、ノードを内部ノードへと変換し、ベクトル量子化装置におけるエントリの数に比例して新しいリーフノードを加えるようにして、反復される。これは、木ノードの予め特定された最大数に達するまで、続けられる。その結果生じたデータ構造は、第３図に示され決定木分類子２０に記憶されたような決定木へと組織化されうる。次の決定木設計アルゴリズムが、ブロック２４において使用されうる。決定木アルゴリズムを開始する前に、分離出力のヒドンマルコフモデルの収集体が、適当なトレーニングデータセットを使用して、認識用語における各ワードについてトレーニングされねばならない。サイズＷの用語に対するヒドンマルコフモデルパラメータは、次のように表される。Ａ_iワードｉのための状態遷移マトリクスＢ_iワードｉのための状態出力分布マトリクスｉ＝｛１，２，．．，Ｗ π_iワードｉのための初期状態分布さらに、ベクトル量子化装置からの異なる出力の数がベクトルコードブックサイズとして知られたＱによって表されると仮定する。さらに、異なる時間インデックスでのベクトル量子化出力のセットに対する記号法を次のように定義する。Ｘ＝｛（ｔ₁，Ｓ₁），（ｔ₂，Ｓ₂），．．．，（ｔ_n，Ｓ_n）｝ここで、セットＸは、観測された記号の対およびそれらに関連した時間インデックスからなる。木設計アルゴリズムは、次のように進められる。セットの２つの組が定義される。第１の組Ｔは、内部木ノードに関連した観測セットの収集体である。第２の組Ｌは、その木のリーフノードに関連した観測セットの収集体である。初期的に、組Ｔは、空のセットに設定され、組Ｌは、１つのエレメントを含むセットであり、そのエレメントは、空のセットである。アルゴリズムの主ループは、組Ｔにおける基数、すなわち、エレメントの数が予め特定された最大数に達するまで、一時に一つずつ組からのエレメントを組Ｔへと移す。任意の反復プロセスにおいてＬに含まれたどのセットを組Ｔへと移すべきかの決定は、情報理論的基準を使用して行われる。ここで、その目的は、Ｌにおけるリーフノードの収集体によって特定される木の総エントロピーを減少させることである。観測セットの収集体のための最適グリーディー選択は、次によって与えられる。ここで、ワードｗに関して条件付けられたベクトル量子化出力の収集体を観測する確率は、ヒドンマルコフモデル式を使用して、計算される。この計算の一つの表現は、次によって与えられる。これは、通常、フォーワードアルゴリズムと称される見えないマルコフモデル式のわずかに変形されたバージョンを使用して効率的に計算されうる。各反復プロセスにおいて、Ｌに含まれた最適セットＸは、組Ｔへと移される。さらに、最適セットＸは、さらに別のノード表現のための最適時間インデックスを計算するのに使用される。これは、次によって特定される情報理論的基準を使用して行われる。この関係によって特定された時間インデックスは、セットＸに関連したありうるすべてのリーフノードを含むようにリーフノードの収集体を拡張するのに使用される。次のように指定されるこれらの新しいセットの各々は、組Ｌへ加えられ、セットＸは、組Ｌから除去される。このオペレーションが完了するとき、そのアルゴリズムは、Ｌのベストエレメントを選択してＴへ転送する等して、繰り返される。このアルゴリズムは、第６図において擬似コードにて表現される。以上、発話をワードカテゴリへと分類する新しい改良された装置および方法について説明した。本発明の原理は、本発明の精神から逸脱することなく、別の種々な仕方で使用しうるものであることは、当業者には理解しうるところであろう。したがって、本発明は、本請求の範囲の記載によってのみ限定されているものとする。

【手続補正書】【提出日】１９９７年８月４日【補正内容】請求の範囲１．音声発話の分類子を発生する方法において、音声発話の例の収集体を得て、前記音声発話の例を使用して、前記音声発話の個々の例を特徴付ける統計学的モデルを得て、前記統計学的モデルを、音声発話を表す部分的に特定された記号セットに適用することにより音声発話の分類子を発生する、ことを特徴とする方法。２．前記統計学的モデルは、ワードを特徴付ける請求項１記載の方法。３．前記統計学的モデルは、ヒドンマルコフモデルである請求項１記載の方法。４．前記分類子は、決定木分類子である請求項１記載の方法。５．前記決定木分類子は、音声発話のワード分類に対応するリーフノードを有するように発生される請求項４記載の方法。６．前記決定木分類子は、グリーディー反復形式にて発生される請求項４記載の方法。７．前記決定木分類子を発生する前記反復形式は、観察された発話およびワード分類を表す記号の間の相互情報の尺度を使用して前記決定木分類子のノードを繰り返し拡張し、ノードの最大数に達したときに決定木テーブルを終端させることを含む請求項６記載の方法。８．前記記号は、前記観察された発話の時間インデックスに対応しており、最大予想情報ゲインを使用して、前記決定木分類子の各ノードを拡張する最適時間インデックスを決定することを含む請求項７記載の方法。９．前記決定木分類子は、データテーブルを備える請求項４記載の方法。 10．前記部分的に特定された記号セットは、ベクトル量子化装置によって出力される音声発話を表すベクトルのサブセットを備え、前記サブセットの各々は、対応するベクトルのすべてのエレメントよりも少ないエレメントを含む請求項１記載の方法。 11．発話を分類するシステムにおいて、音声を入力する手段と、前記音声を、音響パターンを表す記号のセットへと変換する変換手段と、音声発話を表す部分的に特定された記号セットへ統計学的モデルを適用することによって設計された分類子を使用することにより前記記号セットを音声発話カテゴリへと分類する分類手段と、を備えることを特徴とするシステム。 12．前記音響パターンは、ワードである請求項１１記載のシステム。 13．前記統計学的モデルは、ヒドンマルコフモデルである請求項１１記載のシステム。 14．前記分類手段は、前記記号セットをワードカテゴリへと分類する請求項１１記載のシステム。 15．前記分類子は、決定木分類子を備える請求項１１記載のシステム。 16．前記決定木分類子は、前記記号セットを音響パターンに関連付けるデータテーブルを備える請求項１５記載のシステム。 17．前記音響パターンは、ワードである請求項１５記載のシステム。 18．前記部分的に特定された記号セットは、ベクトル量子化装置によって出力された音声発話を表すベクトルのサブセットを備え、前記サブセットの各々は、対応するベクトルのすべてのエレメントよりも少ないエレメントを含む請求項１１記載のシステム。 19．前記分類手段は、分類命令を含むメモリバッファと、該メモリバッファに結合され、前記音響パターンに基づいて前記メモリバッファにアクセスするアクセス手段と、該アクセス手段に結合され、終端分類決定を出力する出力手段とを備える請求項１１記載のシステム。 20．発話を分類する方法において、発話を分類するシステムへ音声を入力し、前記システムを用いて音響パターンを表す記号のセットへ前記音声を変換し、音声発話を表す部分的に特定された記号セットに統計学的モデルを適用することによって設計された前記システムの分類子を使用することにより前記記号のセットを音声発話カテゴリへと分類する、ことを特徴とする方法。 21．前記音響パターンは、ワードである請求項２０記載の方法。 22．前記統計学的モデルは、ヒドンマルコフモデルである請求項２０記載の方法。 23．前記記号のセットを分類する段階は、前記記号のセットをワードカテゴリへと分類することを含む請求項２０記載の方法。 24．前記分類子は、決定木分類子を備える請求項２０記載の方法。 25．前記記号のセットを分類する段階は、前記記号のセットを音響パターンに関連付ける決定木分類子のデータテーブルを使用することを含む請求項２４記載の方法。 26．前記音響パターンは、ワードである請求項２５記載の方法。 27．前記部分的に特定された記号セットは、ベクトル量子化装置によって出力された音声発話を表すベクトルのサブセットを備え、前記サブセットの各々は、対応するベクトルのすべてのエレメントよりも少ないエレメントを含む請求項２０記載の方法。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＡＭ，ＡＴ，ＡＵ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＫ，ＬＲ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＭ，ＴＴ，ＵＡ，ＵＺ，ＶＮ

Claims

【特許請求の範囲】１．発話を分類する方法において、音声発話の例の収集体を得て、前記音声発話を分類するための個々のワードに対応する統計学的モデルを得るようにヒドンマルコフモデルをトレーニングし、前記統計学的モデルを使用して、前記音声発話の分類子を表す決定木を設計し、前記ヒドンマルコフモデルを使用して、発話されない音の確率を計算し、前記決定木で音声発話を決定する、ことを特徴とする方法。２．決定木を設計するのに使用される統計学的モデルは、グリーディー反復形式にて実施される請求項１記載の方法。３．決定木設計を実施する前記グリーディー反復形式は、観察された記号とワード分類との間の相互情報を使用して決定木テーブルのエントリーを繰り返し拡張し、エントリーの最大数に達したときに決定木テーブルを終端させることを含む請求項２記載の方法。４．前記相互情報は、次の式にしたがって得られる請求項３記載の方法。５．最大予想情報ゲインを使用して、決定木テーブルにおける各エントリーを拡張する最適時間インデックスを決定することを含む請求項３記載の方法。６．発話を分類するシステムにおいて、音声を入力する入力手段と、該入力手段に結合され前記音声を音響パターンのアルファベットへと変換する変換手段と、該変換手段に結合され、ヒドンマルコフモデルを使用して設計された決定木分類子を利用することにより、前記音響パターンをワードカテゴリへと分類する分類手段と、を備えることを特徴とするシステム。７．前記分類手段は、分類命令を含むメモリと、該メモリに結合され、前記音響パターンに基づいて前記メモリに逐次アクセスするアクセス手段と、該アクセス手段に結合され、終端分類決定を出力する出力手段とを備える請求項６記載のシステム。８．前記変換手段は、前記入力された音声信号をフレームベース音響パターンへと変換する特徴抽出器と、該特徴抽出器に結合され、前記音響パターンを記号の所定のアルファベットへとマッピングするベクトル量子化装置とを備える請求項６記載のシステム。