JP2004094257A

JP2004094257A - 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置

Info

Publication number: JP2004094257A
Application number: JP2003310666A
Authority: JP
Inventors: Ciprian I Chelba; チプリアン　アイ．チェルバ; Rachel I Morton; レイチェル　アイ．モートン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-09-03
Filing date: 2003-09-02
Publication date: 2004-03-25
Anticipated expiration: 2023-09-02
Also published as: DE60327400D1; EP1398758A2; ATE430358T1; JP4499389B2; EP1398758A3; US7788096B2; US20040044528A1; EP1398758B1

Abstract

【課題】　デシジョン・ツリーのための質問セットを自動的に構築すること。
【解決手段】　本発明では、相互情報量が使用されて、音または文字を表すトークンがクラスタ化される。各クラスタが、クラスタの形成によって引き起こされるトレーニング・データのセットにおける相互情報量の損失を制限するように形成される。結果として生じるクラスタのセットは、デシジョン・ツリーのノードで使用することができる質問を表す。
【選択図】　図５

Description

　本発明はデシジョン・ツリーに関する。より詳細には、本発明は、音声処理（speech processing）で使用されるデシジョン・ツリーにおいて見いだされる質問を自動的に生成することに関する。

　デシジョン・ツリーは、ルート・ノードで開始し、１つまたは複数のリーフ・ノードで終了する、接続されたノードのセットである。リーフ・ノードを除いて、ツリーの各ノードは関連付けられた質問、および、そのノードの下に広がる子ノードのセットを有する。デシジョン・ツリーは、ノードの質問に応答することおよびその応答に基づいて子ノードの１つを選択することによって、トラバース（通過）される。この質問応答は、ツリーがルート・ノードからリーフ・ノードの１つにトラバースされるまで継続する。

　音声認識（speech recognition）では、音声（speech）を復号化するために必要とされる音響モデルの数を減らすために、このようなデシジョン・ツリーが使用されてきた。詳細には、デシジョン・ツリーは、ツリーのリーフ・ノードにおいてトライフォン状態をまとめてグループ化するために使用されてきた。その結果、各トライフォン状態について別々のモデルを設けるのではなく、リーフ・ノードにおけるすべてのトライフォン（triphones）について単一の音声モデル（phonetic model）を設けることができる。

　デシジョン・ツリーはまた、言葉の発音（pronunciations）を識別するためにも使用されてきた。このようなデシジョン・ツリーでは、リーフ・ノードは所与の文脈における文字の代替発音を含み、ツリーにおける質問は、入力文字の所与の組み合わせについてどのリーフ・ノードがアクセスされるべきであるかを決定する。

　従来、音声処理のデシジョン・ツリーで使用される質問の開発には、詳細な言語的知識(linguistic knowledge)が必要とされた。いくつかの言語では、この知識は言語の研究から得られた音声特性（phonetic characteristics）に基づいて質問を精密に作る言語の専門家から入手可能である。

Malcolm A. Gleser and Morris F. Collen, "Towards Automated Medical Decisions," Computers and Biomedical Research, 5(2):180-189(April 1972). Ishwar Krishnan Sethi and G.P.R. Sarvarayudu, "Heirarchical Classifier Design Using Mutual Information, "IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-4(4):441-445(July 1982) Jan L. Talmon, "A Multiclass Nonparametric Partitioning Algorithm, "Pattern Recognition Letters, 4:31-38(1986).

　しかし、このような専門的知識はすべての言語について入手可能ではなく、開発には高い費用を要するであろう。その結果として、デシジョン・ツリーの質問を生成することは、多数の言語用のデシジョン・ツリーを開発する上での障害になっていた。

　本発明は、デシジョン・ツリーのための質問セットを自動的に構築する。本発明では、相互情報量が、音または文字を表すトークンをクラスタ化するために使用される。各クラスタは、クラスタを形成することによって引き起こされるトレーニング・データのセットにおける相互情報量の損失を制限するように形成される。結果として生じるクラスタのセットは、デシジョン・ツリーのノードで使用することができる質問を表している。

　以下の図１の考察は、他の環境でも適切に使用することができるけれども、本発明を使用することができる１つの例示的環境を、単に設定するためのものである。

　図１は、本発明を実装することができる適切なコンピューティング・システム環境１００の一実施例を例示する。コンピューティング・システム環境１００は、適切なコンピューティング環境の一実施例でしかなく、本発明の用途または機能性の範囲についてのいかなる限定も示唆するように意図されてはいない。コンピューティング環境１００はまた、例示的オペレーティング環境１００に例示したコンポーネントのいずれか１つまたはその組み合わせに関係するいかなる依存性または要件も有するように解釈されるべきではない。

　本発明は、多数の他の汎用または専用コンピューティング・システム環境または構成により動作可能である。本発明に使用するために適切である可能性のある周知のコンピューティング・システム、環境および／または構成の例には、それだけに限定されないが、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルドまたはラップトップ・デバイス、マルチ・プロセッサ・システム、マイクロ・プロセッサ・ベースのシステム、セットトップボックス、プログラマブル・コンシューマ・エレクトロニクス、ネットワークＰＣ、ミニ・コンピュータ、メインフレーム・コンピュータ、上のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。

　本発明を一般に、プログラム・モジュールなど、コンピュータによって実行されるコンピュータ実行可能命令に関連して説明することができる。一般に、プログラム・モジュールには、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれ、これらは特定のタスクを実行するか、あるいは特定の抽象データ型を実装する。本発明はまた分散コンピューティング環境において実行することもでき、この環境ではタスクが、通信ネットワークを通じてリンクされるリモート処理デバイスによって実行される。分散コンピューティング環境では、プログラム・モジュールが、記憶デバイスを含むローカルおよびリモートのコンピュータ記憶媒体に置かれることができる。

　図１を参照すると、本発明を実施するための例示的システムは、コンピュータ１１０の形式における汎用コンピューティング・デバイスを含む。コンピュータ１１０のコンポーネントには、それだけに限定されないが、処理装置１２０、システム・メモリ１３０、および、システム・メモリを含む様々なシステム・コンポーネントを処理装置１２０に結合するシステム・バス１２１を含むことができる。システム・バス１２１は、いくつかのタイプのバス構造のいずれかにすることができ、これには、様々なバス・アーキテクチャのいずれかを使用するメモリ・バスまたはメモリ・コントローラ、周辺バスおよびローカル・バスが含まれる。例として、限定ではなく、このようなアーキテクチャには、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネル・アーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、Ｖｉｄｅｏ　Ｅｌｅｃｔｒｏｎｉｃｓ　Ｓｔａｎｄａｒｄｓ　Ａｓｓｏｃｉａｔｉｏｎ（ＶＥＳＡ）ローカル・バス、およびメザニン・バスとしても知られる周辺装置相互接続（ＰＣＩ）バスが含まれる。

　コンピュータ１１０は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセスすることができるいかなる使用可能な媒体にすることもでき、これには、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体が含まれる。例として、限定ではなく、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、揮発性および不揮発性、リムーバブルおよび非リムーバブルの媒体を含み、これらはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータなど、情報の格納のためのいずれかの方法または技術において実施される。コンピュータ記憶媒体には、それだけに限定されないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイス、または、所望の情報を格納するために使用することができ、コンピュータ１１０によってアクセスすることができる他のいずれかの媒体が含まれる。

　通信媒体は通常、コンピュータ可読命令、データ構造、プログラム・モジュール、または、搬送波または他の移送メカニズムなどの変調データ信号における他のデータを具現化し、いずれかの情報配信媒体を含む。「変調データ信号」という用語は、信号における情報を符号化するような方法でその特性の１つまたは複数が設定または変更されている信号を意味する。例として、限定ではなく、通信媒体には、ワイヤード・ネットワークまたはダイレクト・ワイヤード接続などのワイヤード（有線）媒体、および、音響、ＲＦ、赤外線および他のワイヤレス媒体などのワイヤレス媒体が含まれる。上記のいずれの組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。

　システム・メモリ１３０は、揮発性および／または不揮発性メモリの形式におけるコンピュータ可読媒体を含み、これは読取り専用メモリ（ＲＯＭ）１３１およびランダム・アクセス・メモリ（ＲＡＭ）１３２などである。基本入出力システム１３３（ＢＩＯＳ）は、起動中など、コンピュータ１１０内の複数の要素の間で情報を転送する助けとなる基本ルーチンを含み、通常はＲＯＭ１３１に格納される。ＲＡＭ１３２は通常、処理装置１２０によって即時アクセス可能および／または現在動作中であるデータおよび／またはプログラム・モジュールを含む。例として、限定ではなく、図１は、オペレーティング・システム１３４、アプリケーション・プログラム１３５、他のプログラム・モジュール１３６およびプログラム・データ１３７を例示する。

　コンピュータ１１０はまた、他のリムーバブル／非リムーバブル、揮発性／不揮発性のコンピュータ記憶媒体も含むことができる。例としてのみ、図１は、非リムーバブル、不揮発性の磁気媒体に対する読み書きを行うハードディスク・ドライブ１４１、リムーバブル、不揮発性磁気ディスク１５２に対する読み書きを行う磁気ディスク・ドライブ１５１、および、ＣＤ−ＲＯＭまたは他の光媒体など、リムーバブル、不揮発性の光ディスク１５６に対する読み書きを行う光ディスク・ドライブ１５５を例示する。例示的オペレーティング環境で使用することができる他のリムーバブル／非リムーバブル、揮発性／不揮発性のコンピュータ記憶媒体には、それだけに限定されないが、磁気テープカセット、フラッシュ・メモリカード、デジタル多用途ディスク、デジタル・ビデオ・テープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが含まれる。ハードディスク・ドライブ１４１は通常システム・バス１２１に、インターフェース１４０などの非リムーバブル・メモリ・インターフェースを通じて接続され、磁気ディスク・ドライブ１５１および光ディスク・ドライブ１５５は通常システム・バス１２１に、インターフェース１５０などのリムーバブル・メモリ・インターフェースによって接続される。

　上述し、図１に例示したドライブおよびそれらの関連付けられたコンピュータ記憶媒体は、コンピュータ１１０用のコンピュータ可読命令、データ構造、プログラム・モジュールおよび他のデータの記憶装置を提供する。図１では、たとえば、ハードディスク・ドライブ１４１が、オペレーティング・システム１４４、アプリケーション・プログラム１４５、他のプログラム・モジュール１４６およびプログラム・データ１４７を格納するものとして例示される。これらのコンポーネントを、オペレーティング・システム１３４、アプリケーション・プログラム１３５、他のプログラム・モジュール１３６およびプログラム・データ１３７と同じものにも異なるものにもすることができることに留意されたい。オペレーティング・システム１４４、アプリケーション・プログラム１４５、他のプログラム・モジュール１４６およびプログラム・データ１４７は、ここで異なる番号が与えられており、最少限のものであって、それらは異なるコピーである。

　ユーザはコマンドおよび情報をコンピュータ１１０へ、キーボード１６２、マイクロフォン１６３、および、マウス、トラックボールまたはタッチパッドなどのポインティング・デバイス１６１などの入力デバイスを通じて入力することができる。他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどが含まれる可能性がある。これらおよび他の入力デバイスがしばしば処理装置１２０へ、システム・バスに結合されるユーザ入力インターフェース１６０を通じて接続されるが、これを、パラレル・ポート、ゲーム・ポートまたはユニバーサル・シリアル・バス（ＵＳＢ）など、他のインターフェースおよびバス構造によって接続することができる。モニタ１９１または他のタイプの表示デバイスも、システム・バス１２１へ、ビデオ・インターフェース１９０などのインターフェースを介して接続される。モニタに加えて、コンピュータはまた、スピーカ１９７およびプリンタ１９６など、出力周辺インターフェース１９５を通じて接続することができる他の周辺出力デバイスも含むこともできる。

　コンピュータ１１０はネットワーク環境において、リモート・コンピュータ１８０など、１つまたは複数のリモート・コンピュータへの論理接続を使用して動作することができる。リモート・コンピュータ１８０は、パーソナル・コンピュータ、ハンドヘルド・デバイス、サーバ、ルータ、ネットワークＰＣ、ピア・デバイスまたは他の共通ネットワーク・ノードにすることができ、通常は、コンピュータ１１０に関連して上述した要素の多数またはすべてを含む。図１に示す論理接続は、ローカルエリア・ネットワーク（ＬＡＮ）１７１および広域ネットワーク（ＷＡＮ）１７３を含むが、他のネットワークも含むことができる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータ・ネットワーク、イントラネットおよびインターネットにおいて一般的である。

　ＬＡＮネットワーキング環境において使用するとき、コンピュータ１１０がＬＡＮ１７１へ、ネットワーク・インターフェースまたはアダプタ１７０を通じて接続される。ＷＡＮネットワーキング環境において使用するとき、コンピュータ１１０は通常、モデム１７２、またはインターネットなどのＷＡＮ１７３を介して通信を確立するための他の手段を含む。モデム１７２を内部または外部にすることができ、システム・バス１２１へ、ユーザ入力インターフェース１６０または他の適切なメカニズムを介して接続することができる。ネットワーク環境では、コンピュータ１１０に関連して示したプログラム・モジュールまたはその一部を、リモート記憶デバイスに格納することができる。例として、限定ではなく、図１はリモート・アプリケーション・プログラム１８５を、リモート・コンピュータ１８０上に存在するものとして例示する。図示のネットワーク接続は例示的であり、通信リンクを複数のコンピュータの間で確立する他の手段を使用できることは理解されよう。

　本発明は、音声処理をするデシジョン・ツリーで使用される質問を形成するための方法を提供する。図２は、本発明で作成されたデシジョン・ツリーを使用して形成されたクラスタ・ベースの音響モデルを含む、音声認識システムのブロック図を提供する。

　図２では、トレーナまたはユーザである話者２００はマイクロフォン２０４に向かって話す。マイクロフォン２０４はまた、付加ノイズを１つまたは複数のノイズ源２０２から受信する。マイクロフォン２０４によって検出されたオーディオ信号が電気信号に変換され、これがアナログ−デジタル・コンバータ２０６に提供される。

　Ａ−Ｄコンバータ２０６はマイクロフォン２０４からのアナログ信号を、一連のデジタル値に変換する。いくつかの実施形態では、Ａ−Ｄコンバータ２０６はアナログ信号を、１６ｋＨｚおよび１つのサンプル当たり１６ビットで、サンプリングし、それにより１秒につき３２キロバイトの音声データ（speech data）を作成する。これらのデジタル値はフレーム・コンストラクタ２０７に提供され、これは一実施形態では、これらの値を、それぞれのスタート点が１０ミリ秒離れている複数の２５ミリ秒のフレームにグループ化する。

　フレーム・コンストラクタ２０７によって作成されたデータのフレームは、特徴抽出器２０８に提供され、これは各フレームから特徴（feature）を抽出する。特徴抽出器の例は当技術分野で周知である。

　特徴抽出（feature extraction）モジュールは、それぞれ音声信号（speech signal）のフレームに関連付けられる特徴ベクトルのストリームを生成する。この特徴ベクトルのストリームがノイズ低減モジュール２１０に提供され、これは入力音声信号のノイズを低減する。

　ノイズ低減モジュール２１０の出力は、一連の「クリーン」な特徴ベクトルである。入力信号がトレーニング信号であった場合、この一連の「クリーン」な特徴ベクトルがトレーナ２２４に提供され、これは「クリーン」な特徴ベクトルおよびトレーニング・テキスト２２６を使用して音響モデル２１８をトレーニングする。音響モデル２１８は、クラスタ化された文脈依存音（context-dependent phones）を含み、これらはデシジョン・ツリーを使用してグループ化されている。詳細には、声音（phones）をクラスタ化するために使用されるデシジョン・ツリーは、本発明を通じて形成された質問を含む。したがって、いくつかの異なる文脈依存音についての特徴ベクトルが使用されて、その中でその声音が見いだされるクラスタについての単一のモデルがトレーニングされる。

　入力信号がテスト信号であった場合、「クリーン」な特徴ベクトルは、デコーダ（復号器）２１２に提供され、これは最も尤もらしい言葉のシーケンスを、特徴ベクトルのストリーム、レキシコン（語彙辞書）２１４、言語モデル２１６および音響モデル２１８に基づいて識別する。

　仮説語（hyposesis words）の最も確からしいシーケンスが、信頼性測定モジュール２２０に提供される。信頼性測定モジュール２２０は、どの言葉が音声認識器によって不適当に識別されている可能性が最も高いかを、部分的には２次音響モデル（図示せず）に基づいて識別する。次いで、信頼性測定モジュール２２０は、どの言葉が不適当に識別されている可能性があるかを指示する識別子と共に、仮説語のシーケンスを出力モジュール２２２に、提供する。

　図３は、文字−サウンド・システムのブロック図を提供し、ここでは本発明で形成された質問を有するデシジョン・ツリーが使用され、文字の組み合わせに対する音声単位（phonetic units）を識別する。図３では、テキスト３００がデシジョン・ツリー３０２に適用される。デシジョン・ツリー３０２で見いだされる質問に応答することによって、ツリーにおいて、テキスト３００によって表される声音３０４を含むリーフ・ノードが識別される。

　図４は、本発明の方法を使用して形成された質問を含むデシジョン・ツリー４００の一実施例を示す。デシジョン・ツリー４００はルート・ノード４０２およびリーフ・ノード４０４、４０６、４０８、４１０、４１２および４１４を含む。デシジョン・ツリー４００は、また、中間ノード４１６、４１８、４２０および４２２も含む。ルート・ノード４０２および中間ノード４１６、４１８、４２０および４２２は、それぞれ関連付けられた質問を有し、この質問は、ツリー中で辿られるであろう経路を決定する。たとえば、このツリーがトライフォン状態をクラスタ化する目的で構築された場合、ルート・ノード４０２に関連付けられた質問を、入力トライフォンにおいて中心の声音の左側に母音があるかどうか、にすることができる。左側に母音がある場合、ノード４１８への経路が取られる。しかし、左側に母音がない場合、ノード４２０への経路が取られる。

　図５は、音声処理をするデシジョン・ツリーで使用される質問セットを生成する方法のフローチャートを提供する。この方法を使用して、文脈依存音構造をクラスタ化するための質問を形成することができ、あるいは別法として、この方法を使用して、文字の組み合わせに対する発音を識別するための質問を形成することができる。この方法では、質問はトークンのクラスタとして定義される。文脈依存音の質問では、トークンは声音である。発音の質問では、トークンは文字である。

　図５のステップ５００で、最初のクラスタのセットが形成され、これは各トークンをそれ自体のクラスタに入れることによって行われる。文脈依存音の質問では、言語内で見いだされた各モノフォン（monophone）（文脈非依存音）はそれ自体のクラスタに置かれる。発音の質問では、アルファベットの各文字はそれ自体のクラスタに入れられる。このステップは図６に示され、この図は本発明によってクラスタ化されるトークンの一実施例を示す。したがって、図６では、６００、６０２、６０４および６０６などのトークンが、クラスタ６０８、６１０、６１２および６１４などの最初のクラスタに入れられる。

　次いで、本発明の方法は、クラスタを組み合わせて新しいクラスタを形成しようと試みる。この方法では、クラスタが、この組み合わせによって引き起こされる複数の近接したクラスタの間の相互情報量の損失を最小限にするように組み合わされ、そこで相互情報量が、隣接するクラスタを使用してトレーニング・データから測定される。声音のクラスタでは、トレーニング・データはテキストの音声翻訳からなる。文字のクラスタでは、トレーニング・データは、個々の文字に区分化されたトレーニング・テキストからなる。

　相互情報量クラスタ化（mutual information clustering）は周知であり、以前に他の状況において使用されていた。しかし、これは、デシジョン・ツリーのための質問セットを形成するためには使用されていなかった。一実施形態では、相互情報量スコアは以下のように決定される。

　ただし、ＭＩは相互情報量スコアであり、Ｓ_ｉおよびＳ_ｊは、ｎ個の異なるクラスタを有するトレーニング・データ内で隣接するクラスタであり、ｆ（Ｓ_ｉ，Ｓ_ｊ）は、クラスタＳ_ｉおよびＳ_ｊがトレーニング・データ内で互いの次に現れる（共起（co-occurrence）としても知られる）回数を表し、ｆ（Ｓ_ｉ）およびｆ（Ｓ_ｊ）は、クラスタＳ_ｉおよびＳ_ｊがトレーニング・データ内で個別に現れる回数を表す。したがって、式１の合計は、すべての可能なクラスタのペア（all possible pairs of clusters）に渡って取られる。

　ステップ５０２で、最初にトレーニング・データにおいて発見されたトークンは、ステップ５００でトークンが置かれたクラスタを表すクラスタ・トークンに置き換えられる。次いで、この方法は、単一の新しいクラスタへの既存の２つのクラスタの各可能なマージング（each possible merging）について生じるであろう相互情報量における変化を決定する一連のステップを通じて、ループする。

　したがって、ステップ５０４で、可能な新しいクラスタ（possible new cluster）が、２つの既存のクラスタを組み合わせることによって識別される。次いで、トレーニング・データにおける２つの既存のクラスタについてのトークンの各発生（occurrence）が、提案された新しいクラスタ（proposed new cluster）についてのクラスタ・トークンで置き換えられる。次いでステップ５０６で、クラスタ共起頻度数およびクラスタ頻度数が決定される。クラスタ共起頻度数は、２つのクラスタ・トークンがトレーニング・データ内で互いの次に現れる回数を示す。これらの頻度数および上の式１を使用して、ステップ５０８で、相互情報量スコアが決定される。

　次いでステップ５１０でトレーニング・データがリセットされ、これは、提案された新しいクラスタについてのクラスタ・トークンが２つの既存のクラスタについてのトークンの代わりに使用される前に、それがあった状態にトレーニング・データを戻すことによって行われる。

　ステップ５１２で、可能な新しいクラスタを形成するために組み合わせることが可能な他のクラスタのペアがあるかどうかについての決定が行われる。あった場合、プロセスはステップ５０４に戻り、別の提案されたクラスタを識別し、ステップ５０６、５０８および５１０がこの新しい提案されたクラスタについて繰り返される。

　ステップ５０４、５０６、５０８、５１０および５１２は、クラスタのペアのすべての可能な組み合わせが相互情報量スコアを形成するために使用されるまで、繰り返される。ステップ５１４で、これらのスコアが互いに比較されて、どのクラスタの組み合わせが最高の相互情報量スコアを提供するか、およびしたがって相互情報量において最低の少量を提供するかが決定される。次いで、最高の相互情報量スコアを提供する、提案された新しいクラスタが質問セットとして格納され、新しいクラスタを形成する２つのクラスタのトークンの各発生を、新しいクラスタを表すトークンで置き換えるように、トレーニング・データが永続的に変更される。したがって、図６で、クラスタ６１０および６１２を組み合わせることによって形成される新しいクラスタ６１６が最高の相互情報量スコアを提供する場合、トレーニング・データにおけるクラスタ６１０についてのクラスタ・トークンの各発生が、クラスタ６１６を表すトークンによって置き換えられ、トレーニング・データにおけるクラスタ６１２についてのクラスタ・トークンの各発生が、クラスタ６１６を表すトークンによって置き換えられる。

　この方法が複数のクラスタを組み合わせるにつれて、ますます少なくなる数の異なるクラスタ・トークンがトレーニング・データにおいて見いだされるようになる。最終的に、単一のタイプのクラスタ・トークンがトレーニング・データにおいて見いだされるようになり、このクラスタ・トークンがデータ内の各トークン位置を満たすようになる。この単一クラスタを、図６でトップ・クラスタ６２０として示す。

　ステップ５１６で、この方法は、修正されたトレーニング・データ内に２つ以上のタイプのクラスタ・トークンが残っているかどうかを決定する。残っていた場合、プロセスがステップ５０４に戻り、新しい可能なクラスタの組み合わせをテストする。

　ステップ５１６で、すべてのクラスタが単一のクラスタに組み合わされた後、ステップ５１８で、請求項５の方法の間に識別されたクラスタが使用されて、デシジョン・ツリーが構築される。詳細には、各クラスタを使用してデシジョン・ツリーにおける質問を構築することができ、これは、入力におけるトークン（声音または文字）が特定のクラスタ内で発見されるかどうかを尋ねることによって行われる。したがって、図５の方法の期間に識別されたクラスタのセット（たとえば、図６のクラスタ６０８、６１０、６１２、６１４、６１６、６１８および６２０）は、デシジョン・ツリーを構築するために使用可能な質問のセットを表す。

　デシジョン・ツリーを、使用可能な質問のセットから構築するための技術は、当技術分野で周知であり、これには、ツリーにおけるノードについての使用可能な質問のセットから、尤度関数など、ある関数を最大にするように、質問を選択することが含まれる。

　一実施形態では、異なるツリーが、言語における各声音の各隠れマルコフ・モデル（ＨＭＭ）状態について形成される。このような実施形態では、デシジョン・ツリーが使用されて、トライフォン状態がツリーのリーフ・ノードにグループ化またはクラスタ化される。次いで、リーフ・ノードにおけるトライフォン状態が使用されて、リーフ・ノードにおけるトライフォン状態のいずれかについて使用することができるＨＭＭ状態についてのモデルが形成される。次いで、モデルと入力特徴ベクトルの間の合致が、トライフォン状態の１つが入力特徴ベクトルによって表されることを示すようになる。したがって、リーフ・ノードはクラスタ・ベースの音響モデルを表している。

　もう１つの実施形態では、別々のツリーがアルファベットの各文字について形成され、それを囲む文字の組み合わせ（文脈）がリーフ・ノードにグループ化される。次いで、異なる文脈における文字の発音が各リーフ・ノードに関連付けられる。新しい文字の組み合わせ（文脈）における文字が受信されると、その組み合わせを対応するデシジョン・ツリーに適用してリーフ・ノードを位置付け、次いでそのリーフ・ノードに関連付けられたその文字の発音を検索することによって、その発音が見つけられる。

　相互情報量を使用することによって、本発明は、音声処理のためのデシジョン・ツリーを構築するために使用することができる質問のセットを、言語学者が質問セットを開発する必要なしに、識別することができる。これは、従来技術を克服する上で大幅なコストおよび時間が節約されることを意味する。

　本発明を、特定の実施形態を参照して説明してきたが、本発明の精神および範囲から逸脱することなく、形式および詳細において変更を行うことができることは当業者には理解されよう。

本発明を実施することができる汎用コンピューティング環境のブロック図である。部分的に本発明に基づいて形成されたクラスタ・ベースの音響モデルを利用する音声認識システムのブロック図である。本発明を使用して形成されたデシジョン・ツリーを利用する発音識別システムのブロック図である。デシジョン・ツリーの一実施例を示す図である。本発明でデシジョン・ツリーを形成するための流れを示す図である。本発明でのトークンのクラスタ化の一実施例を示す図である。

符号の説明

　２００　話者
　２０２　付加的ノイズ
　２０４　マイクロフォン
　２０６　アナログ−デジタル・コンバータ
　２０７　フレーム・コンストラクタ
　２０８　特徴抽出器
　２１０　ノイズ低減モジュール
　２１２　復号器
　２１４　レキシコン
　２１６　言語モデル
　２１８　音響モデル
　２２０　信頼性測定モジュール
　２２２　出力モジュール
　２２４　トレーナ
　２２６　トレーニング・テキスト
　３００　テキスト
　３０２、４００　デシジョン・ツリー
　３０４　音
　４０２　ルート・ノード
　４０４、４０６、４０８、４１０、４１２、４１４　リーフ・ノード
　４１６、４１８、４２０、４２２　中間ノード
　６０８、６１０、６１２、６１４、６１６、６１８　クラスタ
　６００、６０２、６０４、６０６　トークン
　６２０　トップ・クラスタ

Claims

　音声処理で使用されるデシジョン・ツリーを形成する方法であって、
　少なくとも２つのトークンをグループ化して、第１の可能なクラスタを形成すること、
　相互情報量スコアを前記第１の可能なクラスタに基づいて決定すること、
　少なくとも２つのトークンをグループ化して、第２の可能なクラスタを形成すること、
　相互情報量スコアを前記第２の可能なクラスタに基づいて決定すること、
　前記第１のクラスタおよび前記第２のクラスタのうちの１つを、前記第１のクラスタおよび前記第２のクラスタに関連付けられた前記相互情報量スコアに基づいて選択すること、および
　前記選択されたクラスタを使用して、前記デシジョン・ツリーにおける質問を形成すること
　を備えることを特徴とする方法。
　前記各トークンは言語音（linguistic phone）であることを特徴とする請求項１に記載の方法。
　前記デシジョン・ツリーは（context-dependent phones）のクラスタを定義することを特徴とする請求項２に記載の方法。
　前記文脈依存音はトライフォン（triphones）であることを特徴とする請求項３に記載の方法。
　前記各トークンはアルファベットの文字であることを特徴とする請求項１に記載の方法。
　前記第１のクラスタおよび前記第２のクラスタのうちの１つを選択することは、より高い相互情報量スコアを提供する前記クラスタを選択することを備えることを特徴とする請求項１に記載の方法。
　相互情報量スコアを前記第１の可能なクラスタに基づいて決定することは、
　前記第１の可能なクラスタを表すクラスタ・トークンを、前記少なくとも２つの各トークンの代わりにトレーニング・データのセットに入れて、修正されたトレーニング・データのセットを形成すること、および
　前記修正されたトレーニング・データのセットの前記相互情報量スコアを決定すること
　を備えることを特徴とする請求項１に記載の方法。
　コンピュータ実行可能命令を有するコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
　相互情報量を使用して、トレーニング・データにおいて発見されたトークンのクラスタを形成すること、
　前記トークンのクラスタの少なくとも１つを利用して前記デシジョン・ツリーにおけるノードについての質問を形成することによって、デシジョン・ツリーを構築すること、および
　前記デシジョン・ツリーを使用して、入力に基づいて前記ツリーのリーフ・ノードを識別すること
　を備える各ステップを実行することを特徴とするコンピュータ可読媒体。
　相互情報量を使用してトークンのクラスタを形成することは、声音（phones）のクラスタを形成することを備えることを特徴とする請求項８に記載のコンピュータ可読媒体。
　前記デシジョン・ツリーを使用して、入力に基づいてリーフ・ノードを識別することは、文脈依存音についてのリーフ・ノードを識別することを備えることを特徴とする請求項９に記載のコンピュータ可読媒体。
　前記文脈依存音はトライフォンを備えることを特徴とする請求項１０に記載のコンピュータ可読媒体。
　相互情報量を使用してトークンのクラスタを形成することは、文字のクラスタを形成することを備えることを特徴とする請求項８に記載のコンピュータ可読媒体。
　前記デシジョン・ツリーを使用してリーフ・ノードを識別することは、前記デシジョン・ツリーを使用して、文字の組み合わせを備える入力についての発音（pronunciation）を識別することを備えることを特徴とする請求項１２に記載のコンピュータ可読媒体。
　相互情報量を使用してトークンのクラスタを形成することは、
　第１の可能なクラスタおよび第２の可能なクラスタを識別すること、
　前記トレーニング・データについての相互情報量スコアを、前記第１の可能なクラスタを使用して決定すること、
　前記トレーニング・データについての相互情報量スコアを、前記第２の可能なクラスタを使用して決定すること、および
　前記第１の可能なクラスタと前記第２の可能なクラスタの間で、前記第１の可能なクラスタおよび前記第２の可能なクラスタについての前記相互情報量スコアに基づいて、選択すること
　を備えることを特徴とする請求項８に記載のコンピュータ可読媒体。