JPH10509526A - ヒドンマルコフモデルを使用して設計された決定木分類子 - Google Patents

ヒドンマルコフモデルを使用して設計された決定木分類子

Info

Publication number
JPH10509526A
JPH10509526A JP8514641A JP51464196A JPH10509526A JP H10509526 A JPH10509526 A JP H10509526A JP 8514641 A JP8514641 A JP 8514641A JP 51464196 A JP51464196 A JP 51464196A JP H10509526 A JPH10509526 A JP H10509526A
Authority
JP
Japan
Prior art keywords
decision tree
word
speech
hidden markov
classifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8514641A
Other languages
English (en)
Inventor
ジェフリー エス ソレンセン
Original Assignee
ディクタフォーン コーポレイション (ユー エス)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディクタフォーン コーポレイション (ユー エス) filed Critical ディクタフォーン コーポレイション (ユー エス)
Publication of JPH10509526A publication Critical patent/JPH10509526A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 決定木分類子(20)は、数学的オペレーションを使用せずに実施されうるような最終分類子を与えるように、ヒドンマルコフモデルを使用して設計される。本発明の装置は、数学的計算のすべてを決定木の構造へと移し変える。これが完了するとき、その決定木は、メモリアドレッシングおよび二進比較オペレーションの如き論理オペレーションのみを使用して、実施されうる。このような簡単化により、決定木は、通常のゲートを使用した簡単なハードウエア構成にて実施されうる。

Description

【発明の詳細な説明】 ヒドンマルコフモデルを使用して設計された決定木分類子 発明の分野 本発明は、パターン分類に関するものであり、特に、未知の音声発話を特定の ワードカテゴリへと分類するための方法および装置に関するものである。 発明の背景 音声認識は、ある音響的音声信号を分析して、意図されたその言語的メッセー ジまたは発話を識別して、マシンが話されたコマンドに対して正しく応答しうる ようにするプロセスである。マシンと流暢に会話することは難しい。何故ならば 、音声は、本質的に変動性を有し複雑なものであるからである。音声認識の難し さは、用語範囲、ワードの混同性、信号帯域幅、ノイズ、周波数歪み、理解すべ き話し手の数および処理すべき音声の形によってもいる。 音声認識装置は、連続する信号を、適切な意味へと割り当てることができ且つ 理解されたときに、応答言動をするのに使用されうるような分離した表現へと変 換することを必要としている。2つの相続く機会において同じ人によって話され た同じワードでも、異なる特性を有することがありうる。どのワードが発話され たのかを決定するためのパターン分類が開発されている。 音声認識の分野においては、パターン分類のいくつかの方法が利用されている 。現在では、ヒドン(Hidden)マルコフモデルが、最も普及している統計的モデ ルである。ヒドンマルコフモデルは、音声信号を、音声信号の異なる特性分布を 各状態に関連付けた推計学的状態またはランダム分布マシンとして特徴付けるも のである。したがって、音声信号は、一連の音響音として見られうるものである 。この場合において、各音は、調和的特徴の特定のパターンを有するものである 。しかしながら、調和的パターンと音声ユニットとの間には1対1の関係はない 。むしろ、特定の音声音と特定の調和的パターンとの間の関係は、ランダムな統 計学的な関係である。その上、音声における音の持続時間は、全体のワードの認 識にはそれほど影響を与えない。ヒドンマルコフモデルは、音声のこれらの両面 を 捉えており、ここでは、各状態は、調和的パターンの特性分布を有しており、状 態から状態への遷移は、各音声音の持続時間的な面を記述している。 ワードおよび音の標本発話の収集体からヒドンマルコフモデルを設計するため のアルゴリズムは、広く知られており、「Fundamentals of Speech Recognition 」と題するLawrence R.Rabiner およびBiing Hwang Juang 氏による書籍(Pren tice-Hall,Inc.Englewood Cliffs,1993)に開示されており、これらの開示は 、ここに、この引用により組み入れられている。普通、ボーム−ウエルチ再推定 と称される方法により、話されたワードのモデルを連続的に洗練していくことが できる。モデルの統計学的パラメータが推定されたときには、その訓練されたモ デルによって所定の発話が発生される確率を計算するための簡単な公式が存在す る。この後者のアルゴリズムは、分離されたワード音声認識システムを設計する のに使用される。各ワード毎に1つのモデルの収集体を設計することにより、そ の発生された確率推定を、所定の発話に一致する最も可能性の高いワードモデル を決定する基礎として使用することができる。 決定木分類子は、もう一つ別の分類技術である。決定木分類子は、どの類を特 定の観測結果に割り当てるかを決定する逐次的方法を意味している。決定木分類 子は、医学的診断のための人工知能の分野において最も普通に使用され、また、 植物学において分類ガイドを設計するために最も普通に使用されている。決定木 は、一連の問合せをするためのガイドとして記述されうる。ここでは、前の問合 せに対する答えにしたがって、後の問合せがなされる。例えば、鳥の種を識別す るガイドを作成するには、早期の適切な問合せは、鳥の色である。 決定木設計は、複雑な問題であると分かっている。特定の分類タスクのための 最適な決定木分類子は、すべてのありうる適切な問合せを考慮し且つそれら問合 せをするためのすべてのありうる順番を考慮することによって、初めて見つけ出 されるうるものである。これは、存在するカテゴリおよび特徴の数が少ないよう な状況でさえも、計算不可能なタスクである。これに代えて、情報理論の分野に よって定められる測定値を使用して最適に近い決定木を設計する方法が提案され ている。 従来の方法を使用して音声認識のための決定木を設計する以前の試みは、上手 くいかないものであった。これは、音声信号を正確に特徴付けるためには、非現 実的に膨大な量のトレーニング発話が必要とされるためである。これは、決定木 が前の問合せに対する応答に基づく問合せを条件付けている事実によるものであ る。どの有限なトレーニングセットにおいても、各問合せについて、前の問合せ によって課せられる必要基準のすべてを満たす特定の発話の例の数は、急速に減 少する。したがって、決定木のより深いノードに行くにしたがって観測結果が累 積するにつれて、その決定木を設計するのに使用される推定の不正確さは増して いく。 分離ワード認識のアプリケーションのために、ヒドンマルコフモデルの特定の 類が使用され、これら、普通、分離出力のヒドンマルコフモデルと称されている 。分離出力のヒドンマルコフモデルの場合には、話されたワードは、記号の適当 に定義されたアルファベットからの記号のシーケンスによって表される。一組の 音響パターンを1組の分離記号へ変換するのに使用される方法は、当業分野にお いてはベクトル量子化として知られている。 ヒドンマルコフモデルを使用した音声認識システムの従来の実施例では、発話 のすべての部分が同時に寄与するものとしている。この従来の技術では、特徴抽 出およびベクトル量子化のステップを全発話に対して行ってからでないと、分類 を開始できなかった。その上、ヒドンマルコフモデル計算は、特定の発話パター ンの確率を推定するために、複雑な数学的オペレーションを必要としている。こ れらのオペレーションには、大量の乗算、除算および加算並びに浮動小数点数の 複雑な表示の使用が含まれる。 発明の概要 本発明は、複雑な数学的オペレーションを使用せず且つ発話をワードカテゴリ に分類するのにそれほど時間を掛けないような音声認識システムを提供すること により、従来の問題点を解決する。 ヒドンマルコフモデルを使用して設計された決定木分類子は、どのような数学 的オペレーションも使用せずに実施されうるような最終的分類子を与えている。 本発明は、数学的計算のすべてを決定木の構造または設計へと移し変える。この ような移し変えが完了するとき、その決定木は、メモリアドレッシングおよび二 進比較オペレーションの如き論理演算のみを使用して実施されうる。このような 簡単化により、決定木は、通常の論理ゲートを使用した簡単なハードウエアまた は非常に少ないコンピュータ命令のセットによるソフトウエアにて、直接的に実 施されうるのである。これは、分類子に確率の数学的計算手段を設けることを必 要としている従来のアルゴリズムとは、全く異なるものである。 本発明は、トレーニングデータの中間表示としてヒドンマルコフモデル技法を 導入することにより、従来の決定木分類子法の問題点を克服している。最初のス テップは、音声発話の例の収集体を得ることである。これらの例から、各ワード に対応するヒドンマルコフモデルは、ボーム−ウエルチ法を使用してトレーニン グされる。 音声発話のモデルがトレーニングされたとき、トレーニング音声は棄てられる 各ワードに対応する統計学的モデルのみが、決定木を設計するのに使用される。 統計学的モデルは、トレーニングデータの平滑化バージョンとして見なされる。 この平滑化表示によれば、決定木設計が特殊化し過ぎるのを防止することができ る。ヒドンマルコフモデルは、リジッドパラメトリック構造を確率空間に課して トレーニングデータの変動性により木設計プロセスが破滅に至らないようにして いる。観測されない発話に対する推定は、トレーニングデータセットにおける他 の例との類似性に基づいて、行われる。 決定木を設計するための情報理論的方法を使用するためには、音響的に分類さ れた音の特定のシーケンスに対する確率値を推定するための新しい方法を使用す る必要がある。これらの新しい方法は、従来のヒドンマルコフモデルアルゴリズ ムとは、それらが、部分的にのみ特定されている音のシーケンスに対する確率値 を与えねばならないという点で異なる。確率論的予測によれば、この解決法は、 特定されていないすべての音に対する音のすべてのありうるシーケンスの確率を 合計することである。しかしながら、このような方法は、計算上できないことで ある。その代わりに、フォーワードアルゴリズムとして知られているヒドンマル コフモデルアルゴリズムの変形を、妥当な時間内にて確率を計算するのに使用す ることができる。 前述したような技法を使用して、厄介な分類タスクの前に決定木を設計するこ とが可能である。これは、分類タスクからすべての計算を(事実上)排除できる ので、望ましいことである。 図面の簡単な説明 第1図は、従来技術によって使用されていた音声認識システムのブロック図で ある。 第2図は、本発明の装置のブロック図である。 第3図は、決定木を示す図である。 第4図は、標本発話に対する時間インデックスおよび対応するベクトル量子化 記号のテーブルを示す図である。 第5図は、決定木設計アルゴリズムのブロック図である。 好ましい実施例の説明 添付図面、特に、第1図を詳細に参照するに、参照符号11は、ワード「イエ ス」、「ノー」および「ヘルプ」のための従来の音声認識システムを示している 。これらワード「イエス」、「ノー」および「ヘルプ」は、例示のために選択さ れたものである。任意のワードまたは任意数のワードを選択してもよい。音声認 識システム11は、特徴抽出器12と、ベクトル量子化器13と、ワード「イエ ス」のためのヒドンマルコフモデル(HMM)14と、ワード「ノー」のための ヒドンマルコフモデル(HMM)15と、ワード「ヘルプ」のためのヒドンマル コフモデル(HMM)16と、最大選択器17とを備えている。 ワード「イエス」、「ノー」および「ヘルプ」は、音声入力装置18に対して 話されるうる。典型的な音声入力装置は、マイクロフォン、増幅器およびA/D 変換器(図示していない)からなる。装置18の出力は、約12kHzの割合で 且つ16ビット解像度でもってデジタル的にサンプリングされた音声である。装 置18の出力は、特徴抽出器12へ結合される。 特徴抽出器12は、フレームバッファと、典型的な音声認識前処理部とからな る。抽出器12は、「Fundamentals of Speech Recognition」と題するLawrence R.Rabiner およびBiing Hwang Juang 氏による書籍(Prentice-Hall,Inc.Eng lewood Cliffs,1993)に開示されており、これらの開示は、ここに、この引用 により組み入れられている。実施するには、フレーム間に30msの重なりを 持った45msのフレームバッファを使用する必要がある。各フレームは、プリ エンファシスフィルタ、ハミングウインドウイングオペレーション、オーダー1 0の自動相関測定、線型予想係数(LPC)の計算およびこれに続くLPCケプ ストラルパラメータの計算を使用して、処理される。ケプストラルパラメータに より、その音声の完全なソース−フィルタ特性が与えられる。ケプストラルパラ メータは、話された発話のスペクトル内容の表示であり、話し手の声道のフォル マントの位置および帯域幅等の情報を含んでいる。エネルギー項により、信号振 幅についての付加的情報が与えられる。抽出器12の出力は、ベクトル量子化器 13の入力に結合されるオーダー10の前述したLPCケプストラルパラメータ および単一フレームエネルギー項である。 ベクトル量子化器13は、抽出器12から受信した11の特徴の各収集体を単 一の整数へとマッピングするために、前述の「Fundamentals of Speech Recogni tion」と題するLawrence R.Rabiner およびBiing Hwang Juang 氏による書籍に 開示されたアルゴリズムを使用している。前述のベクトル量子化器13は、大量 のトレーニング音声データを使用して開発される。それから、音声スペクトルの 分離バージョンを構成する整数シーケンスは、ワード「イエス」のHMM14、 ワード「ノー」のHMM15およびワード「ヘルプ」のHMM16の入力に結合 される。HMM14、HMM15およびHMM16の各々は、個々に、1組のヒ ドンマルコフモデルパラメータを含む。単一の話されたワードを表す整数のシー ケンスが与えられたとき、観測結果シーケンス確率を計算するのに必要な数学的 オペレーションが行われる。音声認識の記号法において、このアルゴリズムは、 フォーワードアルゴリズムとして知られている。HMM14、HMM15および HMM16は、それら自身の計算を行なう。これらの計算は、時間の掛かるもの である。 HMM14、HMM15およびHMM16の出力は、最大選択器17の入力に 結合される。最大選択器17は、コンピュータプログラムを使用して、最高確率 推定を有するのが、HMM14であるか、または、HMM15であるか、または 、HMM16であるかを判定する通常の認識装置である。もし、HMM14が最 高確率推定を有していた場合には、システムは、装置18に対してワード「イエ ス」 が話されていたと結論し、もし、HMM15が最高確率推定を有していた場合に は、システムは、装置18に対してワード「ノー」が話されていたと結論する。 最大選択器17の出力は、他のシステムへあるコマンドを入力して、それら他の システムの機能を音声制御の下におくのに使用される。 第2図は、本発明の装置のブロック図である。音声入力装置18の出力は、特 徴抽出器12の入力に結合され、特徴抽出器12の出力は、ベクトル量子化器1 3の入力へ結合される。ベクトル量子化器13の出力は、決定木分類子20の入 力に結合される。 決定木分類子20は、話された全発話、すなわち、「イエス」、「ノー」、「 ヘルプ」のベクトル量子化値を含むバッファを有する。決定木分類子20は、第 3図に示されたテーブルに含まれたデータおよび前述のテーブルにアクセスする ための関連手順によって表すこともできる。第3図に示したテーブルは、用語に おけるワード、すなわち、「イエス」、「ノー」および「ヘルプ」の各々に対す るヒドンマルコフモデルにて収集された統計学的情報を使用して発生される。第 4図は、例示のための話された発話のいくつかの例を含み、以下の説明において 使用される。 決定木分類子20で発話を分類するのに使用される方法は、第3図における情 報によってガイドされるような、特定時間での記号の一連の検査を含む。各分類 タスクについてステップS0から開始する。このテーブルは、時間インデックス 3を検査し且つ時間インデックス3で見出された記号に基づいて他のステップに 進むか、または、さらに検査を必要としないときに最終分類を告知するように命 じている。次に、第4図から選択された3つの特定の発話についての手順を説明 する。 第3図に示した決定木を常にステップS0で開始する。決定木のこのラインは 、どの話されたワードについても時間インデックス3(第4図)で含まれたベク トル量子化記号を見よとしている。今、ワード「ノー」が話されたと仮定する。 最初のワード「ノー」に対する時間インデックス3での記号は、7である。時間 3での記号7(第3図)のためのコラムは、ステップS3へ進めとしている。こ のステップは、時間インデックス6(第4図)を見よとしている。ワード「ノー 」 は、時間インデックス6で記号7を有する。ステップS3(第3図)のこの記号 7のコラムは、ステップS8へ進めとしている。ワード「ノー」について時間イ ンデックス9で、8の記号値を見出し、この記号値は、ステップ8(第3図)の コラム8へ進めとしている。そして、これにより、その正しい答えを、「ノー」 として分類せよとしている。 もし、ワード「イエス」が第3図のステップS0で選ばれた場合には、テーブ ルのこのラインは、その選ばれたワードのための時間インデックス3(第4図) を見よとしている。ワード「イエス」に対する最初の標本発話のための時間イン デックス3での記号は、7である。時間3での記号7(第3図)のためのコラム は、ステップS3へ進めとしている。このステップは、時間インデックス6(第 4図)を見よとしている。ワード「イエス」は、時間インデックス6で記号3を 有する。ステップS3(第3図)の記号3のコラムは、この入力を、正しく、ワ ード「イエス」として分類せよとしている。 もし、ワード「ヘルプ」が第3図のステップS0で話された場合には、テーブ ルのこのラインは、その選ばれたワードに対する時間インデックス3(第4図) を見よとしている。ワード「ヘルプ」に対する時間インデックス3での記号は、 6である。時間3での記号6(第3図)のためのコラムは、ステップS2へ進め としている。このステップは、時間インデックス4(第4図)を見よとしている 。ワード「ヘルプ」は、時間インデックス4で記号6を有する。ステップS2( 第3図)の記号6のコラムは、ワード「ヘルプ」が選択されるべきであるとして いる。 第3図の「EOW」コラムは、あるワードの端部が観測結果について要求され た時間インデックスで来たときに進むべき場所を指示している。その発話が短過 ぎてトレーニングセットにおけるどのワードとしても分類できない場合として、 ラベル「n/a」が含まれている。 第3図に示された決定テーブルは、第4図に与えられた例のすべてを正しく分 類するのに使用されうる。しかしながら、前述した決定木および例は、少な過ぎ て種々な可能性のある発話を捉えることができないので、大量のデータセットに 対しては十分に働かないであろう。後述するようなアルゴリズムの実際の実施に よれば、数千ラインを有し且つ少なくとも数ダースのコラムでのテーブルが発生 される。前述の例は、決定木アルゴリズムへのヒドンマルコフモデル変換の出力 およびその結果得られたデータテーブルを使用する決定木分類子20にて実施さ れる手順を例示している。 第5図は、決定木設計アルゴリズムのフローチャートを示している。一般的な 決定木設計原理は、Rodney M.Goodman 氏およびPadhraic Smyth氏による「Deci sion tree design from a communications theory standpoint」と題する論文(I EEE Transactions on Information Theory,Vol.,34,No.5,pp.979-997Sept. 1988)に開示されており、この引用により、ここに組み入れられている。決定木 は、反復プロセスを使用して設計される。決定木の各枝の拡張のために適用され る詳細ルールが特定される。所望の終端条件は、主として、アプリケーションの 特定のニーズに依存しており、より広いタームにて論じられる。 好ましい実施においては、終端条件がその結果生じた木におけるノードの総数 であるようなグリーディー(greedy)アルゴリズムが特定される。これは、分類 子データ構造の記憶に利用しうるメモリの量に直接的に関連付けられている。し たがって、終端条件は、最も実際的な実施に十分に適したものとされる。 木を設計するためには、観測結果の任意のセットとワードカテゴリとの間の相 互情報の測定が必要である。相互情報を見つけ出すためには、ベクトル量子化ラ ベルの部分的に特定されたシーケンスを観測する確率を計算する必要がある。こ れは、ワード「イエス」のためのブロック21、ワード「ノー」のためのブロッ ク22およびワード「ヘルプ」のためのブロック23に含まれた、通常、フォー ワードアルゴリズムと称されるヒドンマルコフモデル式の変形バージョンを使用 して、達成されうる。この変形は、特定されていないベクトル量子化出力に関連 したフォーワードアルゴリズムにおける項を除去して、通常のヒドンマルコフモ デルアルゴリズムにおいてそれらの確率値を1で置き換えることを含む。 このアルゴリズムは、ボックス24に含まれており、一時に一つずつ、決定木 のターミナル、またはリーフ、ノードを内部ノードへと変換し、ベクトル量子化 装置におけるエントリの数に比例して新しいリーフノードを加えるようにして、 反復される。これは、木ノードの予め特定された最大数に達するまで、続けられ る。その結果生じたデータ構造は、第3図に示され決定木分類子20に記憶され たような決定木へと組織化されうる。 次の決定木設計アルゴリズムが、ブロック24において使用されうる。決定木 アルゴリズムを開始する前に、分離出力のヒドンマルコフモデルの収集体が、適 当なトレーニングデータセットを使用して、認識用語における各ワードについて トレーニングされねばならない。サイズWの用語に対するヒドンマルコフモデル パラメータは、次のように表される。 Aiワードiのための状態遷移マトリクス Biワードiのための状態出力分布マトリクス i={1,2,..,W πiワードiのための初期状態分布 さらに、ベクトル量子化装置からの異なる出力の数がベクトルコードブックサ イズとして知られたQによって表されると仮定する。さらに、異なる時間インデ ックスでのベクトル量子化出力のセットに対する記号法を次のように定義する。 X={(t1,S1),(t2,S2),...,(tn,Sn)} ここで、セットXは、観測された記号の対およびそれらに関連した時間インデッ クスからなる。 木設計アルゴリズムは、次のように進められる。セットの2つの組が定義され る。第1の組Tは、内部木ノードに関連した観測セットの収集体である。第2の 組Lは、その木のリーフノードに関連した観測セットの収集体である。初期的に 、組Tは、空のセットに設定され、組Lは、1つのエレメントを含むセットであ り、そのエレメントは、空のセットである。アルゴリズムの主ループは、組Tに おける基数、すなわち、エレメントの数が予め特定された最大数に達するまで、 一時に一つずつ組からのエレメントを組Tへと移す。 任意の反復プロセスにおいてLに含まれたどのセットを組Tへと移すべきかの 決定は、情報理論的基準を使用して行われる。ここで、その目的は、Lにおける リーフノードの収集体によって特定される木の総エントロピーを減少させること である。観測セットの収集体のための最適グリーディー選択は、次によって与え られる。 ここで、 ワードwに関して条件付けられたベクトル量子化出力の収集体を観測する確率 は、ヒドンマルコフモデル式を使用して、計算される。この計算の一つの表現は 、次によって与えられる。 これは、通常、フォーワードアルゴリズムと称される見えないマルコフモデル式 のわずかに変形されたバージョンを使用して効率的に計算されうる。 各反復プロセスにおいて、Lに含まれた最適セットXは、組Tへと移される。 さらに、最適セットXは、さらに別のノード表現のための最適時間インデックス を計算するのに使用される。これは、次によって特定される情報理論的基準を使 用して行われる。 この関係によって特定された時間インデックスは、セットXに関連したありう るすべてのリーフノードを含むようにリーフノードの収集体を拡張するのに使用 される。次のように指定されるこれらの新しいセットの各々は、組Lへ加えられ 、セットXは、組Lから除去される。 このオペレーションが完了するとき、そのアルゴリズムは、Lのベストエレメン トを選択してTへ転送する等して、繰り返される。このアルゴリズムは、第6図 において擬似コードにて表現される。 以上、発話をワードカテゴリへと分類する新しい改良された装置および方法に ついて説明した。本発明の原理は、本発明の精神から逸脱することなく、別の種 々な仕方で使用しうるものであることは、当業者には理解しうるところであろう 。したがって、本発明は、本請求の範囲の記載によってのみ限定されているもの とする。
【手続補正書】 【提出日】1997年8月4日 【補正内容】 請求の範囲 1.音声発話の分類子を発生する方法において、 音声発話の例の収集体を得て、 前記音声発話の例を使用して、前記音声発話の個々の例を特徴付ける統計学 的モデルを得て、 前記統計学的モデルを、音声発話を表す部分的に特定された記号セットに適 用することにより音声発話の分類子を発生する、 ことを特徴とする方法。 2.前記統計学的モデルは、ワードを特徴付ける請求項1記載の方法。 3.前記統計学的モデルは、ヒドンマルコフモデルである請求項1記載の方法。 4.前記分類子は、決定木分類子である請求項1記載の方法。 5.前記決定木分類子は、音声発話のワード分類に対応するリーフノードを有す るように発生される請求項4記載の方法。 6.前記決定木分類子は、グリーディー反復形式にて発生される請求項4記載の 方法。 7.前記決定木分類子を発生する前記反復形式は、観察された発話およびワード 分類を表す記号の間の相互情報の尺度を使用して前記決定木分類子のノードを繰 り返し拡張し、ノードの最大数に達したときに決定木テーブルを終端させること を含む請求項6記載の方法。 8.前記記号は、前記観察された発話の時間インデックスに対応しており、最大 予想情報ゲインを使用して、前記決定木分類子の各ノードを拡張する最適時間イ ンデックスを決定することを含む請求項7記載の方法。 9.前記決定木分類子は、データテーブルを備える請求項4記載の方法。 10.前記部分的に特定された記号セットは、ベクトル量子化装置によって出力さ れる音声発話を表すベクトルのサブセットを備え、前記サブセットの各々は、対 応するベクトルのすべてのエレメントよりも少ないエレメントを含む請求項1記 載の方法。 11.発話を分類するシステムにおいて、 音声を入力する手段と、 前記音声を、音響パターンを表す記号のセットへと変換する変換手段と、 音声発話を表す部分的に特定された記号セットへ統計学的モデルを適用する ことによって設計された分類子を使用することにより前記記号セットを音声発話 カテゴリへと分類する分類手段と、 を備えることを特徴とするシステム。 12.前記音響パターンは、ワードである請求項11記載のシステム。 13.前記統計学的モデルは、ヒドンマルコフモデルである請求項11記載のシス テム。 14.前記分類手段は、前記記号セットをワードカテゴリへと分類する請求項11 記載のシステム。 15.前記分類子は、決定木分類子を備える請求項11記載のシステム。 16.前記決定木分類子は、前記記号セットを音響パターンに関連付けるデータテ ーブルを備える請求項15記載のシステム。 17.前記音響パターンは、ワードである請求項15記載のシステム。 18.前記部分的に特定された記号セットは、ベクトル量子化装置によって出力さ れた音声発話を表すベクトルのサブセットを備え、前記サブセットの各々は、対 応するベクトルのすべてのエレメントよりも少ないエレメントを含む請求項11 記載のシステム。 19.前記分類手段は、分類命令を含むメモリバッファと、該メモリバッファに結 合され、前記音響パターンに基づいて前記メモリバッファにアクセスするアクセ ス手段と、該アクセス手段に結合され、終端分類決定を出力する出力手段とを備 える請求項11記載のシステム。 20.発話を分類する方法において、 発話を分類するシステムへ音声を入力し、 前記システムを用いて音響パターンを表す記号のセットへ前記音声を変換し 、 音声発話を表す部分的に特定された記号セットに統計学的モデルを適用する ことによって設計された前記システムの分類子を使用することにより前記記号の セットを音声発話カテゴリへと分類する、 ことを特徴とする方法。 21.前記音響パターンは、ワードである請求項20記載の方法。 22.前記統計学的モデルは、ヒドンマルコフモデルである請求項20記載の方法 。 23.前記記号のセットを分類する段階は、前記記号のセットをワードカテゴリへ と分類することを含む請求項20記載の方法。 24.前記分類子は、決定木分類子を備える請求項20記載の方法。 25.前記記号のセットを分類する段階は、前記記号のセットを音響パターンに関 連付ける決定木分類子のデータテーブルを使用することを含む請求項24記載の 方法。 26.前記音響パターンは、ワードである請求項25記載の方法。 27.前記部分的に特定された記号セットは、ベクトル量子化装置によって出力さ れた音声発話を表すベクトルのサブセットを備え、前記サブセットの各々は、対 応するベクトルのすべてのエレメントよりも少ないエレメントを含む請求項20 記載の方法。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FR,GB,GR,IE,IT,LU,M C,NL,PT,SE),OA(BF,BJ,CF,CG ,CI,CM,GA,GN,ML,MR,NE,SN, TD,TG),AP(KE,MW,SD,SZ,UG), AM,AT,AU,BB,BG,BR,BY,CA,C H,CN,CZ,DE,DK,EE,ES,FI,GB ,GE,HU,IS,JP,KE,KG,KP,KR, KZ,LK,LR,LT,LU,LV,MD,MG,M N,MW,MX,NO,NZ,PL,PT,RO,RU ,SD,SE,SG,SI,SK,TJ,TM,TT, UA,UZ,VN

Claims (1)

  1. 【特許請求の範囲】 1.発話を分類する方法において、 音声発話の例の収集体を得て、 前記音声発話を分類するための個々のワードに対応する統計学的モデルを得 るようにヒドンマルコフモデルをトレーニングし、 前記統計学的モデルを使用して、前記音声発話の分類子を表す決定木を設計 し、 前記ヒドンマルコフモデルを使用して、発話されない音の確率を計算し、 前記決定木で音声発話を決定する、 ことを特徴とする方法。 2.決定木を設計するのに使用される統計学的モデルは、グリーディー反復形式 にて実施される請求項1記載の方法。 3.決定木設計を実施する前記グリーディー反復形式は、観察された記号とワー ド分類との間の相互情報を使用して決定木テーブルのエントリーを繰り返し拡張 し、エントリーの最大数に達したときに決定木テーブルを終端させることを含む 請求項2記載の方法。 4.前記相互情報は、次の式にしたがって得られる請求項3記載の方法。 5.最大予想情報ゲインを使用して、決定木テーブルにおける各エントリーを拡 張する最適時間インデックスを決定することを含む請求項3記載の方法。 6.発話を分類するシステムにおいて、 音声を入力する入力手段と、 該入力手段に結合され前記音声を音響パターンのアルファベットへと変換す る変換手段と、 該変換手段に結合され、ヒドンマルコフモデルを使用して設計された決定木 分類子を利用することにより、前記音響パターンをワードカテゴリへと分類する 分類手段と、 を備えることを特徴とするシステム。 7.前記分類手段は、分類命令を含むメモリと、該メモリに結合され、前記音響 パターンに基づいて前記メモリに逐次アクセスするアクセス手段と、該アクセス 手段に結合され、終端分類決定を出力する出力手段とを備える請求項6記載のシ ステム。 8.前記変換手段は、前記入力された音声信号をフレームベース音響パターンへ と変換する特徴抽出器と、該特徴抽出器に結合され、前記音響パターンを記号の 所定のアルファベットへとマッピングするベクトル量子化装置とを備える請求項 6記載のシステム。
JP8514641A 1994-10-26 1995-10-19 ヒドンマルコフモデルを使用して設計された決定木分類子 Pending JPH10509526A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32939394A 1994-10-26 1994-10-26
US329,393 1994-10-26
PCT/US1995/013416 WO1996013830A1 (en) 1994-10-26 1995-10-19 Decision tree classifier designed using hidden markov models

Publications (1)

Publication Number Publication Date
JPH10509526A true JPH10509526A (ja) 1998-09-14

Family

ID=23285181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8514641A Pending JPH10509526A (ja) 1994-10-26 1995-10-19 ヒドンマルコフモデルを使用して設計された決定木分類子

Country Status (5)

Country Link
EP (1) EP0789902A4 (ja)
JP (1) JPH10509526A (ja)
AU (1) AU3960895A (ja)
CA (1) CA2203649A1 (ja)
WO (1) WO1996013830A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008686A2 (en) * 1995-08-28 1997-03-06 Philips Electronics N.V. Method and system for pattern recognition based on tree organised probability densities
EP0849723A3 (en) * 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
AU2000276397A1 (en) 2000-09-30 2002-04-15 Intel Corporation Method and system to scale down a decision tree-based hidden markov model (hmm) for speech recognition
AU2000276394A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition
US8694304B2 (en) * 2010-03-26 2014-04-08 Virtuoz Sa Semantic clustering and user interfaces
US9378202B2 (en) 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
US8676565B2 (en) 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US9524291B2 (en) 2010-10-06 2016-12-20 Virtuoz Sa Visual display of semantic information
CN113589191B (zh) * 2021-07-07 2024-03-01 郴州雅晶源电子有限公司 一种电源故障诊断系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5455889A (en) * 1993-02-08 1995-10-03 International Business Machines Corporation Labelling speech using context-dependent acoustic prototypes

Also Published As

Publication number Publication date
CA2203649A1 (en) 1996-05-09
EP0789902A1 (en) 1997-08-20
AU3960895A (en) 1996-05-23
WO1996013830A1 (en) 1996-05-09
EP0789902A4 (en) 1998-12-02

Similar Documents

Publication Publication Date Title
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US4837831A (en) Method for creating and using multiple-word sound models in speech recognition
JP3114975B2 (ja) 音素推定を用いた音声認識回路
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
EP0755046B1 (en) Speech recogniser using a hierarchically structured dictionary
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
JPH0636156B2 (ja) 音声認識装置
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
Iwamida et al. A hybrid speech recognition system using HMMs with an LVQ-trained codebook
JPH06274200A (ja) 音声コード化装置及び方法
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
Ghezaiel et al. Hybrid network for end-to-end text-independent speaker identification
JPH10509526A (ja) ヒドンマルコフモデルを使用して設計された決定木分類子
JP3014177B2 (ja) 話者適応音声認識装置
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
GB2335064A (en) Linear trajectory models incorporating preprocessing parameters for speech recognition
US20020133343A1 (en) Method for speech recognition, apparatus for the same, and voice controller
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Li Speech recognition of mandarin monosyllables
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP2734828B2 (ja) 確率演算装置及び確率演算方法