JP2002511609A

JP2002511609A - 音声認識システムのための動的にコンフィギュレーション可能な音響モデル

Info

Publication number: JP2002511609A
Application number: JP2000543956A
Authority: JP
Inventors: ホアン，メイ−ユー; フワン，シュードン・ディー
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1998-04-15
Filing date: 1999-03-29
Publication date: 2002-04-16
Anticipated expiration: 2019-03-29
Also published as: CN1139911C; US6141641A; JP4913204B2; DE69925479T2; CN1301379A; WO1999053478A1; DE69925479D1; JP2010049291A; EP1070314B1; JP4450991B2; EP1070314A1

Abstract

(57)【要約】本発明は、発話を、入力データ・ストリームに基づいて認識するためのシステムを含む。このシステムは、モデル・サイズを有する音響モデルを含む。このモデルは、この認識システムがランするコンピュータ・システムの特性に基づく所望のサイズに調節可能である。この調節は、セノン・ツリーのパラメータをクラスタ化することによって得られる。

Description

【発明の詳細な説明】

【０００１】（技術分野）本発明は、コンピュータ音声認識に関するものである。詳細には、本発明は、
音声認識システムにおいて動的にコンフィギュレーション可能な音響モデルを使
用するコンピュータ音声認識に関している。

【０００２】（発明の背景）現在最も成功を収めている音声認識システムは、隠蔽マルコフ・モデル（ＨＭ
Ｍ）として知られた確率式モデルを用いている。隠蔽マルコフ・モデルは、複数
の状態を有していて、これにおいて、遷移確率を、各状態からあらゆる状態への
各遷移に対し定めるようになっており、それには、同じ状態への遷移も含まれて
いる。ある観測は、各固有の状態に確率的に関連付けている。状態間の遷移確率
（ある観測が１つの状態から次のものへの遷移の確率）は、全て同じではない。
したがって、ビタビ・アルゴリズムにような探索技術を用いて、状態の間の遷移
確率と観測確率とが与えられたときに、全体の確率が最大となるような最尤の状
態シーケンスを判定するようにしている。

【０００３】状態遷移の１つのシーケンスは、既知の方法において、トレリス図を通る１つ
の経路として表すことができ、そしてこれは、観測時間の１つのシーケンスに渡
るＨＭＭの状態の全てを表す。したがって、ある観測シーケンスが与えられたと
きに、トレリス図を通る最尤の経路（すなわち、ＨＭＭが表す最尤の状態シーケ
ンス）は、ビタビ・アルゴリズムを使用して判定することができる。

【０００４】現行の音声認識システムにおいては、発話は、隠蔽マルコフ・プロセスによっ
て生成されているとしてみなされる。その結果、ＨＭＭを用いることによって、
観測した発話スペクトルのシーケンスをモデル化し、そしてこれにおいて、特定
のスペクトルが、ＨＭＭ内の１つの状態と確率的に関連付けられている。言い換
えれば、所与の観測された発話スペクトル・シーケンスに対して、対応するＨＭ
Ｍ内に最尤の状態シーケンスがあることになる。

【０００５】したがって、この対応するＨＭＭは、観測されたシーケンスに関連付けられる
。この技術は拡張することができ、これによって、ＨＭＭ内の各々の区別できる
状態シーケンスが音素のようなサブ・ワード・ユニットに関連付けられた場合に
、サブ・ワード・ユニットの最尤シーケンスを見つけることができる。さらには
、サブ・ワード・ユニットをどのように組み合わせてワードを形成するかのモデ
ルを使用し、次にシーケンスを形成するためのワードをどのように組み合わせる
かの言語モデルを使用すると、完全な音声認識を実現することができる。

【０００６】音響信号を実際に処理するとき、この信号は、代表的には、フレームと呼ぶシ
ーケンシャルな時間インターバルでサンプルする。これらフレームは、通常、複
数のサンプルを含み、そして互いにオーバーラップしたりあるいは近接したりす
ることがある。各フレームは、発話信号の固有の１部分と関連している。各フレ
ームが表す発話信号のこの部分を解析することにより、それに対応する音響ベク
トルを提供する。音声認識の間、その音響ベクトル・シーケンスに最尤に関連さ
せるべき状態シーケンスを求めて、探索を実行する。

【０００７】音響ベクトル・シーケンスに対応する最尤の状態シーケンスを見つけるため、
音響モデルにアクセスしそしてビタビ・アルゴリズムを用いる。ビタビ・アルゴ
リズムは、計算を実行し、この計算は、最初のフレームから開始しそして時間同
期方法で１時に１フレーム進む。考慮中の状態シーケンス内の各状態（ＨＭＭ）
に対し、確率スコアを計算する。したがって、ビタビ・アルゴリズムが音響モデ
ルに基づいて音響信号をフレーム毎に解析するにつれ、累積的な確率スコアを可
能性のある状態シーケンスの各々に対しうまく計算できる。発声の終わりまでに
、ビタビ・アルゴリズムが計算した最も高い確率スコアを有する状態シーケンス
（またはＨＭＭまたは一連のＨＭＭ）は、その発声全体に対する最尤状態シーケ
ンスを提供する。この最尤状態シーケンスは、次にそれに対応する話されたサブ
・ワード・ユニット、ワード、ワード・シーケンスに変換する。

【０００８】ビタビ・アルゴリズムは、指数関数的計算を、モデル内の状態および遷移の数
、並びに発声の長さに比例したものに低減させる。しかし、大きな語彙に対して
は、状態および遷移の数は大きくなり、したがって全ての可能性のある状態シー
ケンスに対し各フレーム内の各状態における確率スコアを更新するのに必要な計
算は、１フレームの持続期間よりも数倍長くかかり、そしてこれは、通常はおよ
そ持続期間が１０ミリ秒である。

【０００９】このため、剪定（pruning）と呼ぶ技術、あるいはビーム探索法（beam search
ing）が開発されていて、最尤状態シーケンスを判定するのに必要な計算を大幅
に低減させるようにしている。このタイプの技術は、非常にありそうでない状態
シーケンスに対する確率スコアを計算する必要を取り除く。これは、代表的には
、各フレームにおいて、このフレームと関連する最大のスコアの考慮の下で、各
々の残りの状態シーケンス（あるいは可能性のあるシーケンス）に対する確率ス
コアを計算することにより達成される。もし、ある特定の可能性のあるシーケン
スに対する１つの状態の確率スコアが、（その時点での他の可能性のあるシーケ
ンスに対する計算した最大の確率スコアと比較したときに）十分に低い場合、剪
定アルゴリズムは、そのような低いスコアの状態シーケンスが完了時の最尤状態
シーケンスの１部分となることはありそうにない、とみなす。この比較は、代表
的には、最小しきい値を使用して達成される。その最小しきい値を下回るところ
の可能性のある状態シーケンスは、探索プロセスから除去する。そのしきい値は
、任意の所望のレベルにセットすることができ、これは、所望のメモリおよび計
算上の節約、並びにこのメモリおよび計算上の節約に起因して生じる所望のエラ
ー・レート上昇とに主として基づく。

【００１０】音声認識に必要な計算量をさらに減少させるための別の在来の技法は、接頭辞
（prefix）ツリーの使用がある。接頭辞ツリーは、音声認識システムの語彙（le
xicon）をツリー構造として表し、これにおいて、このシステムが遭遇する可能
性のあるワード全てが、このツリー構造内において表される。

【００１１】このような接頭辞ツリーにおいては、各サブ・ワード・ユニット（例えば、音
素）は、代表的には、ある特定の音素モデル（例えば、ＨＭＭ）と関連したブラ
ンチが表す。この音素ブランチは、ノードにおいて、後続の音素ブランチに接続
する。同じ第１の音素を共有する語彙内の全てのワードは、同じ第１のブランチ
を共有する。同じ第１および第２の音素を有する全てのワードは、同じ第１およ
び第２のブランチを共有する。対照的に、共有の第１の音素を有するが異なった
第２音素を有するワードは、接頭辞ツリー内の同じ第１ブランチを共有するが、
接頭辞ツリー内の第１ノードで分かれる第２ブランチを有する等する。このツリ
ー構造は、本システムが遭遇する可能性のある全てのワードがこのツリーの終端
ノード（ツリー上のリーフ（leaf））により表されるような様式で続く。

【００１２】分かるように、上述の技法のいくつかは、音声認識システムにおける計算を簡
単化しストリームライン化しようとする試みである。しかし、計算的に強力なコ
ンピュータ・システムは、音声認識タスクの実行において妥当な程高い確度およ
びリアルタイム応答を実現するためには、依然として必要である。

【００１３】高度の計算資源を必要とする音声認識システムの１つの部分は、音響モデルと
、そしてこの音響モデルにアクセスして入力発声に対応する可能性のある出力を
判定するプロセスである。

【００１４】過去に使用されてきた１つの音響モデルは、複数のセノン（senone）を含む。
セノンの開発は、ホワングおよびフアングの“マルコフ状態セノンでの副音素モ
デル化（Hwang, M. and Huang, X.,“SUBPHONETIC MODELING WITH MARKOVSTATES
SENONE”, IEEE International Conference on Acoustics, Speech, and Signa
l Processing, Vol.I, 1992, pp. 33-36）、およびホワング、フアングおよびア
レヴァの“セノンによる三重音予測（Hwang, M., Huang, X. and Alleva, F.,“
PREDICTING TRIPHONES WITH SENONES”, IEEE International Conference on Ac
oustics, Speech, and Signal Processing, Vol. II, 1993, pp. 311314）に詳
細に記述されている。

【００１５】簡潔には、セノン・ツリーは、発話ユニットをモデル化するの使用する各隠蔽
マルコフ・モデル内の各マルコフ状態に対し成長させる。各マルコフ状態に関連
した音響モデル内のパラメータは、ツリー・フォーマットに配列した階層構造で
の複数の言語質問に対する回答に基づき、グループ化させるかあるいはクラスタ
化させる。その結果のツリーは、リーフで終わり、そしてこのリーフは、セノン
と呼ぶグループ化あるいはクラスタ化したパラメータを含む。代表的には、どの
各音素（または他の音素各サブ・ワード・ユニット）におけるどの隠蔽マルコフ
・モデルに対しても、音声認識システム内の１つのセノン・ツリーがあることに
なる。これは、代表的には、およそ１２０のセノン・ツリーを生じることになる
。

【００１６】離散的な隠蔽マルコフ・モデルあるいは半連続の隠蔽マルコフ・モデルを使用
する場合、セノン・ツリー内の各リーフは、ｎ個のエントリを有する単一の離散
的な出力分布が表す。複数のガウス密度関数の混合したものを有する連続式隠蔽
マルコフ・モデルに対しては、セノン・ツリー上の各リーフは、ｍ個の重み付け
したガウス密度関数が表す。各ガウス密度関数は、さらに、その平均ベクトルお
よびその共分散マトリックス（covariance matrix）によりパラメータ化する。
音響モデルは、代表的には、訓練用データの言語資料（corpus）を利用するバウ
ム−ウェルチ技術（Baum-Welch technique）のような最尤訓練技術を使用して訓
練する。

【００１７】比較的大きく、高い正確さのリサーチ音声認識システムにおいては、音響モデ
ル内のセノンは、およそ１２０ｋのガウシャン（平均および共分散を含む）を含
み、これは、およそ３０メガバイトのメモリを消費する。

【００１８】しかし、このような音響モデルは、代表的には、多くの在来のデスクトップ・
コンピュータ上で実際に実現するには遙かに大き過ぎる。メモリおよび速度の点
から実際的な計算資源を要求する実際的なサイズの音声認識システムを提供する
ため、より小形でかつより単純な音響モデルが提供されてきている。このより小
形でより単純な音響モデルは、これまでは、未洗練（raw）の訓練言語資料から
再訓練しそしてユーザに供給している。これは、通常は、音声認識システムの開
発者により行い、そして上記のより単純で小形の音響モデルを、その究極の形態
で最終的なユーザに提供している。これを通常開発者が行ってきている理由は、
未洗練の訓練用言語資料が非常に大きいデータ言語資料であるからである。また
、音響モデルをそのような言語資料に基づいて訓練することは、計算的に非常に
厳しいものとなり得る。このため、代表的なユーザのシステムは、このような大
きな未洗練の訓練用言語資料を取り扱うかあるいはこの言語資料に基づく音響モ
デルの完全な再訓練を取り扱うようコンフィギュレーションがされていない。

【００１９】しかし、開発者により小形の音響モデルを訓練させそしてこれを最終的なユー
ザに提供することは、フレキシビリティを減少させることになる。例えば、多く
のユーザは、彼らの利用可能な計算資源のより高い割合を音声認識タスクに割り
当てたいことがある。さらに、最終的なユーザは、通常は、利用可能なメモリ容
量およびプロセッサ速度に関して、同じシステム・コンフィギュレーションを有
しているとは限らないか、あるいは類似のシステム・コンフィギュレーションす
らも有しているとは限らない。したがって、多くの計算資源を有ししたがってこ
れらを音声認識確度の向上とトレードしたいユーザは、そうすることができない
。この述べたことと同じことにより、極めて限られた計算資源しか有しておらず
したがって確度をトレードオフして利用可能な計算資源を温存したいユーザは、
そのようにすることができない。

【００２０】（発明の摘要）本発明は、発話を入力データ・ストリームに基づいて認識するシステムを含む
。このシステムは、モデル・サイズを有する音響モデルを含む。前記モデル・サ
イズは、前記認識システムがランするコンピュータの特性に基づき所望のサイズ
に調節する。

【００２１】１実施形態においては、前記音響モデルは、複数のセノンを含み、前記モデル
・サイズは、子孫セノンにおけるパラメータを組み合わせて前記音響モデル内の
パラメータの数を減少させることによって、調節可能である。前記音響モデルは
、連続式隠蔽マルコフ・モデルに基づき、かつ前記セノンは、ガウス密度関数に
よって表した、さらに別の実施形態においては、ガウス密度関数に対する平均と
共分散の両方を組み合わせる。別の実施形態では、共分散のみを組み合わせ、こ
れによって、確度をかなり犠牲にすることなくパラメータの数を減少させること
ができる。

【００２２】（好ましい実施形態の詳細な説明）本発明は、動的に再コンフィギュレーション可能な音響モデルを備えた音声認
識システムを提供する。この音響モデルは、音声認識システムがランするコンピ
ュータに関連する計算資源に基づき、再コンフィギュレーションすることができ
る。さらに、この音響モデルは、ユーザが行うか、オペレーティング・システム
が行うかあるいはこれらの双方が行うところの音声認識タスクへの計算資源の割
り当てを示すユーザ入力に基づいて、動的に再コンフィギュレーションすること
ができる。

【００２３】（概観）図１およびこれに関連する記載は、本発明を実施できる１つの適当な計算環境
の簡潔で一般的な説明を提供することを意図したものである。尚必要ではないが
、本発明について、少なくとも部分的には、パーソナル・コンピュータあるいは
その他の計算デバイスで実行されるプログラム・モジュールのようなコンピュー
タ実行可能の命令の一般的なコンテキストで説明をする。一般に、プログラム・
モジュールは、ルーチン・プログラム、オブジェクト、コンポーネント、データ
構造等の特定のタスクを実行しあるいは特定の抽象的なデータ・タイプを具体化
するものを含む。さらに、当業者には分かるように、本発明は、他のコンピュー
タ・システム・コンフィギュレーション（ハンドヘルド・デバイス、マルチプロ
セッサ・システム、マイクロプロセッサ・ベースまたはプログラマブルな民生用
電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレーム・コンピュー
タ等を含む）で実施することもできる。本発明はまた、通信ネットワークを介し
てリンクしたリモートの処理デバイスによりタスクを実行するようになった、分
散型計算環境において適用可能である。分散型計算環境においては、プログラム
・モジュールは、ローカルおよびリモートのメモリ・ストレージ・デバイスに配
置することもできる。

【００２４】図１を参照すると、本発明のための１つの例示的環境は、従来のパーソナル・
コンピュータ２０の形態の汎用計算デバイスを含み、処理ユニット２１、システ
ム・メモリ２２、およびシステム・メモリを含む種々のシステム・コンポーネン
トを処理ユニット２１に結合するシステム・バス２３を含む。システム・バス２
３は、種々のバス・アーキテクチャのいずれかを用いたメモリ・バスまたはメモ
リ・コントローラ、周辺バス、およびローカル・バスを含む、数種類のバス構造
のいずれでもよい。システム・メモリは、リード・オンリ・メモリ（ＲＯＭ）２
４、およびランダム・アクセス・メモリ（ＲＡＭ）２５を含む。起動中等におい
てパーソナル・コンピュータ２０内のエレメント間の情報転送に供する基本ルー
チンを収容する基本入出力システム（ＢＩＯＳ）２６は、ＲＯＭ２４に格納する
。また、パーソナル・コンピュータ２０は、ハード・ディスク（図示せず）の読
み取りおよび書き込みを行うハード・ディスク・ドライブ２７、リムーバブル磁
気ディスク２９の読み取りおよび書き込みを行う磁気ディスク・ドライブ２８、
並びにＣＤ−ＲＯＭまたはその他の光媒体のようなリムーバブル光ディスク３１
の読み取りおよび書き込みを行う光ディスク・ドライブ３０も含むことができる
。ハード・ディスク・ドライブ２７、磁気ディスク・ドライブ２８、および光デ
ィスク・ドライブ３０は、ハード・ディスク・ドライブ・インターフェース３２
、磁気ディスク・ドライブ・インターフェース３３、および光ディスク・ドライ
ブ・インターフェース３４によって、それぞれシステム・バス２３に接続する。
これらのドライブおよびそれに関連するコンピュータ読み取り可能媒体は、コン
ピュータ読み取り可能命令、データ構造、プログラム・モジュール、およびパー
ソナル・コンピュータ２０用のその他のデータの不揮発性格納を提供する。

【００２５】ここに記載した例示的環境は、ハード・ディスク、リムーバブル磁気ディスク
２９およびリムーバブル光ディスク３１を採用しているが、当業者には分かるよ
うに、磁気カセット、フラッシュ・メモリ・カード、デジタル・ビデオ・ディス
ク、ベルヌーイ・カートリッジ、ランダム・アクセス・メモリ（ＲＡＭ）、リー
ド・オンリ・メモリ（ＲＯＭ）のような、コンピュータによるアクセス可能なデ
ータを格納することができる、他の種類のコンピュータ読み取り可能媒体も、こ
の例示的動作環境において使用可能である。

【００２６】多数のプログラム・モジュールは、ハード・ディスク、磁気ディスク２９、光
ディスク３１、ＲＯＭ２４またはＲＡＭ２５上に格納することができ、これらは
、オペレーティング・システム３５、１つ以上のアプリケーション・プログラム
３６、その他のプログラム・モジュール３７、およびプログラム・データ３８を
含む。ユーザは、キーボード４０、ポインティング・デバイス４２およびマイク
ロホン６２のような入力デバイスによって、コマンドおよび情報をパーソナル・
コンピュータ２０に入力することができる。他の入力デバイス（図示せず）とし
て、マイクロホン、ジョイスティック、ゲーム・パッド、衛星パラボラアンテナ
、スキャナ等を含むことができる。これらおよびその他の入力デバイスは、多く
の場合、システム・バス２３に結合したシリアル・ポート・インターフェース４
６を介して、処理ユニット置２１に接続するが、サウンド・カード、パラレル・
ポート、ゲーム・ポートまたはユニバーサル・シリアル・バス（ＵＳＢ：univer
sal serial bus）のようなその他のインターフェースによって接続することも可
能である。モニタ４７または別の種類のディスプレイ・デバイスも、ビデオ・ア
ダプタ４８のようなインターフェースを介して、システム・バス２３に接続する
。このモニタ４７に加えて、パーソナル・コンピュータは、通常、スピーカ４５
やプリンタ（図示せず）のような、その他の周辺出力デバイスを含む。

【００２７】パーソナル・コンピュータ２０は、リモート・コンピュータ４９のような１つ
以上のリモート・コンピュータへの論理接続を用いて、ネットワーク環境で動作
させることも可能である。リモート・コンピュータ４９は、別のパーソナル・コ
ンピュータ、サーバ、ルータ、ネットワークＰＣ、ピア・デバイス、またはその
他の一般的なネットワーク・ノードとすることができ、これは通常、パーソナル
・コンピュータ２０に関して先に記載したエレメントの多くまたは全てを含むが
、メモリ・ストレージ・デバイス５０だけを図１に示す。図１に示す論理接続は
、ローカル・エリア・ネットワーク（ＬＡＮ）５１およびワイド・エリア・ネッ
トワーク（ＷＡＮ）５２を含む。このようなネットワーク環境は、オフィスの企
業規模のコンピュータ・ネットワーク、イントラネットおよびインターネットで
は一般的である。

【００２８】ＬＡＮネットワーク環境で用いる場合、パーソナル・コンピュータ２０は、ネ
ットワーク・インターフェースまたはアダプタ５３を介して、ローカル・エリア
・ネットワーク５１に接続する。ＷＡＮネットワーク環境で用いる場合、パーソ
ナル・コンピュータ２０は通常モデム５４またはインターネットのようなワイド
・エリア・ネットワーク５２を通じて通信を確立するその他の手段を含む。モデ
ム５４は、内蔵型でも外付け型でもよく、シリアル・ポート・インターフェース
４６を介してシステム・バス２３に接続する。ネットワーク環境では、パーソナ
ル・コンピュータ２０に関連して図示したプログラム・モジュールまたはその一
部を、リモート・メモリ・ストレージ・デバイスに格納することも可能である。
理解されるように、図示したこのネットワーク接続は一例であり、これらコンピ
ュータ間に通信リンクを確立するその他の手段も使用することは可能である。

【００２９】図２は、本発明の１つの形態による音声認識システム６０のブロック図を示し
ている。音声認識システム６０は、マイクロホン６２と、アナログ−デジタル（
Ａ／Ｄ）変換器６４と、訓練モジュール６５と、特徴抽出モジュール６６と、語
彙記憶モジュール７０と、音響モデル（例えば、セノン・ツリー）７２と、ツリ
ー探索エンジン７４と、言語モデル７５と、出力デバイス７６と、クラスタ化モ
ジュール８０と、Ｉ／Ｏデバイス８２（これは、図１に記述したＩ／Ｏデバイス
の１つまたはそれ以上を含むようにしたり、あるいはデバイス７６またはキーボ
ード４０で実現することもできる）とを備えている。

【００３０】理解されるべきであるが、システム６０全体あるいはシステム６０の１部分は
、図１に示した環境において実現することができる。例えば、マイクロホン６２
は、好ましくは、適当なインターフェースを通してまたＡ／Ｄ変換器６４を通し
てパーソナル・コンピュータ２０への入力デバイスとして提供することもできる
。訓練モジュール６５と特徴抽出モジュール６６は、コンピュータ２０内のハー
ドウェア・モジュールとしたり、あるいは図１に開示した情報記憶デバイスの任
意のものに格納しそしてＣＰＵ２１によりあるいは別の適当なプロセッサにより
アクセス可能なソフトウェア・モジュールとしたりすることができる。加えて、
語彙記憶モジュール７０と、音響モデル７２と、そして言語モデル７５もまた、
好ましくは、図１に示した任意の適当なメモリ・デバイスに格納する。さらに、
ツリー探索エンジン７４は、好ましくは、ＣＰＵ２１（これは、１つ以上のプロ
セッサを含むことができる）において実現するか、あるいはパーソナル・コンピ
ュータ２０が用いる専用の音声認識プロセッサにより実行するようにできる。加
えて、出力デバイス７６および８２は、１つの例示的実施形態においては、キー
ボード４０、モニタ４７として、あるいはプリンタとして、もしくは任意の他の
適当な入出力デバイスとして実施することもできる。

【００３１】いずれにしても、音声認識の間、発話は、システム６０に対し、ユーザがマイ
クロホン６２に対し可聴のボイス信号の形態で入力する。マイクロホン６２は、
この可聴発話信号をアナログの電子信号に変換し、そしてこれは、Ａ／Ｄ変換器
６４に供給する。Ａ／Ｄ変換器６４は、このアナログ発話信号をデジタル信号の
シーケンスに変換し、そしてこのシーケンスは、特徴抽出モジュール６６に供給
する。好ましい実施形態においては、特徴抽出モジュール６６は、在来のアレイ
・プロセッサであり、これは、そのデジタル信号に対しスペクトル解析を実行し
、そして周波数スペクトルの各周波数バンドに対する強度値を計算する。それら
信号は、１つの例示的実施形態においては、Ａ／Ｄ変換器６４により、およそ１
６ＫＨｚのサンプル・レートで特徴抽出モジュール６６に供給する。Ａ／Ｄ変換
器６４は、市販された周知のＡ／Ｄ変換器とすることもできる。

【００３２】特徴抽出モジュール６６は、Ａ／Ｄ変換器６４から受けたデジタル信号をフレ
ームに分割し、これらフレームは、複数のデジタル・サンプルを含む。各フレー
ムは、持続時間がおよそ１０ミリ秒である。これらフレームは、次に、好ましく
は特徴抽出モジュール６６によって、複数の周波数バンドに対するスペクトル特
性を反映する特徴ベクトルにエンコードする。離散的で半連続の隠蔽マルコフ・
モデル化の場合においては、特徴抽出モジュール６６はまた、好ましくは、特徴
ベクトルを、ベクトル量子化技術および訓練データから得たコードブックを使用
して、１つ以上のコードワードにエンコードする。このため、特徴抽出モジュー
ル６６は、その出力に、各話された発声に対し特徴ベクトル（またはコードワー
ド）を供給する。特徴抽出モジュール６６は、好ましくは、それら特徴ベクトル
（またはコードワード）を、１特徴ベクトルまたは（コードワード）のレートで
、およそ１０ミリ秒毎に供給する。

【００３３】次に、出力確率分布は、好ましくは、解析中の特定のフレームの特徴ベクトル
（またはコードワード）を使用して、隠蔽マルコフ・モデルに対し計算する。こ
れら確率分布は、ビタビまたは類似のタイプの技術を実行する際に後で使用する
。

【００３４】特徴抽出モジュール６６からコードワードを受けたとき、ツリー探索エンジン
７４は、音響モデル７２の格納された情報にアクセスする。モデル７２は、隠蔽
マルコフ・モデルのような音響モデルを格納し、そしてこれは、システム６０が
検出すべき発話ユニットを表す。１実施形態においては、音響モデル７２は、隠
蔽マルコフ・モデル内の各マルコフ状態と関連したセノン・ツリーを含む。隠蔽
マルコフ・モデルは、１つの例示的実施形態においては、音素を表す。音響モデ
ル７２内のこれらセノンに基づき、ツリー探索エンジン７４は、特徴抽出モジュ
ール６６から受けた特徴ベクトル（またはコードワード）を表ししたがって本シ
ステムのユーザから受けた発声を表す最尤の音素を判定する。

【００３５】また、ツリー探索エンジン７４は、モジュール７０に格納された語彙にアクセ
スする。音響モデル７２のそのアクセスに基づきツリー探索エンジン７４が受け
たこの情報は、語彙記憶モジュール７０を探索する際に使用することによって、
特徴抽出モジュール６６から受けたコードワードまたは特徴ベクトルを最尤に表
すワードを判定する。また、ツリー探索エンジン７４は、好ましくは、言語モデ
ル７５にアクセスし、そしてこれは、例示的には、北米ビジネス・ニュース言語
資料（North American Business Corpus）から得た６０，０００ワードのトリグ
ラム言語モデルであり、これは、CSRIII Text Language Modelと題する刊行物（
a publication entitled CSRIII Text Language Model, University of Penn. 1
994）により詳細に記載されている。言語モデル７５は、入力データが表す最尤
のワードまたはワード・シーケンスを識別する際に使用する。したがって、この
判定したワードまたはワード・シーケンスは、ユーザが受けた発声を最尤に表す
ものである。このワードまたはワード・シーケンスは、次に、ツリー探索エンジ
ン７４が出力デバイス７６に対し出力する。

【００３６】音響モデル７２の動的コンフィギュレーション音声認識を実行する前に、音響モデル７２は、好ましくは、これがランしてい
るコンピュータの制約を満たすサイズを有するように動的にコンフィギュレーシ
ョンを行う。例示的な１つの例においては、非常に詳細で高度に正確な音響モデ
ルは、最初にコンピュータ・システムに供給する。この音響モデルのサイズは、
次に、この音響モデル内のパラメータを組み合わせることによって調節（あるい
は減少）して、この音響モデルのサイズが希望のレベルとなるまでにする。

【００３７】図３は、音響モデル７２の１部分を表すセノン・ツリーの１つの簡略化した実
施形態を示している。セノン・ツリー内の丸は、このセノン・ツリー内のノード
を表している。四角は、セノン・ツリー内の深いセノンを表す。三角は、浅いセ
ノンを表し、そして陰影をつけた三角は、セノン・ツリー内の深いセノンと浅い
セノンの双方を表している。１つの例示的実施形態においては、セノン・ツリー
は、最初はその最も深いレベルまで成長させてその深いセノンまで達するように
する。言い換えれば、セノン・ツリーは、訓練用言語資料が与えられたときにこ
れがこれ以上良く訓練することができなくなるまで成長させる。これは、通常は
、いくつかの実験を行って、開発テスト・セット上のパラメータ・サイズに対す
るエラー・レートのヒストグラムをプロットすることになる。このようなセノン
・ツリーは、発話ユニット（例えば音素）を表す隠蔽マルコフ・モデル内の各状
態に対し成長させる。

【００３８】次に、本音声認識システムをランさせるべきコンピュータの制約に基づき、セ
ノン・ツリー内の深いセノン内のパラメータを、何等かの予め選んだ祖先ノード
（浅いセノン）の下で組み合わせるかあるいはクラスタ化することによって、音
響モデル内のパラメータの総数を減少させる。本明細書の後で説明するように、
パラメータのこの併合は、統計的情報のみがセノン・ツリーにおいて提供されそ
して未洗練の訓練用言語資料への参照なしとしたときに達成することができる。

【００３９】隠蔽マルコフ・モデルが離散的隠蔽マルコフ・モデルまたは半連続の隠蔽マル
コフ・モデルである場合、各々の深いセノンは、ｎ個のエントリをもつ単一の離
散的な出力分布で表す。ある共通の祖先の浅いセノンの子孫である、２つの選択
された深いセノンに対する出力分布は、互いに組み合わせることによって、その
浅いセノンに対応する１つの出力分布にする。

【００４０】隠蔽マルコフ・モデルが、連続密度関数の混合したものを有する連続式隠蔽マ
ルコフ・モデルである場合、このような密度関数は、例示的にはガウス密度関数
である。この場合、各々の深いセノンは、ｍ個の重み付けしたガウス密度関数に
より表す。各ガウス密度関数は、さらに、その平均ベクトルおよび共分散マトリ
ックスによりパラメータ化する。したがって、各々の選択した浅いセノンに対し
ては、各々の子孫セノンにおいてｍ個のガウシャンがある。各子孫セノンにおけ
るｍ個のガウシャンは、互いに組み合わせることによって、より少数のガウシャ
ンにし、これによって、パラメータの総数を減少させるようにする。１つの例示
的実施形態においては、その平均と共分散とは、併合あるいはクラスタ化させる
一方で、別の例示的実施形態においては、共分散のみをクラスタ化させる。

【００４１】クラスタ化モジュール８０図４は、クラスタ化モジュール８０の動作全体を示すフロー図である。最初に
、高度に正確でかつ詳細な音響モデルは、これを使用するコンピュータに対し供
給する。これは、ブロック８２で示している。

【００４２】クラスタ化モジュール８０は、次に、この音声認識システムをランさせるコン
ピュータに対する制約を示すシステム情報を得る。１実施形態においては、クラ
スタ化モジュール８０は、単に、このコンピュータのオペレーティング・システ
ム内の関連する情報にアクセスすることによって、どれほど多くのメモリがこの
コンピュータ内で利用可能であるか判定し、また音声認識タスクを実行すること
になるコンピュータ内で使用されているプロセッサの動作速度を判定する。別の
好ましい実施形態においては、クラスタ化モジュール８０は、入出力（Ｉ／Ｏ）
デバイス８２を介してユーザと対話する。こうする際に、クラスタ化モジュール
８０は、ユーザに対し、このコンピュータ上で利用可能な資源を表す情報、ある
いはユーザが音声認識タスクに対し割り当てを希望する資源を表す情報、あるい
はこれらの両方を入力するように求める。例えば、クラスタ化モジュール８０は
、ユーザに対し、このコンピュータ内のメモリ量、プロセッサの速度、ユーザが
任意の一時にランさせたいプログラムの数、このコンピュータ内で利用可能なメ
モリ量、ユーザがこの音声認識器に割り当てを希望するメモリ量、等を入力する
よう要求することができる。いずれにしても、クラスタ化モジュール８０は、こ
のシステム情報を受け、そしてこの情報は、音声認識タスクに割り当て可能な資
源に対し課されるそのような制約を示している。

【００４３】この情報に基づき、クラスタ化モジュール８０は、適当な音響モデル・サイズ
を決定する。１つの例示的実施形態においては、クラスタ化モジュール８０は、
このサイズを、音響モデルにおいて実施すべきパラメータの数で決定する。これ
は、ブロック８６で示している。

【００４４】クラスタ化モジュール８０は次に進行して、それらパラメータを選択しクラス
タ化させて、所望の数を実現する。これを行う際、クラスタ化モジュール８０は
、最初に、図３に示した浅いセノンの内の１つのような浅いセノンＳを選択する
。これは、ブロック８８で示している。次に、クラスタ化モジュール８０は、浅
いセノンＳの子孫となる深いセノンＤｅｓ（Ｓ）を見つける。これは、ブロック
９０で示している。次に、クラスタ化モジュール８０は、これら深いセノンＤｅ
ｓ（Ｓ）からのパラメータをクラスタ化あるいは併合させる。これを行うため、
クラスタ化モジュール８０は、最初に、深いセノンＤｅｓ（Ｓ）内の全てのパラ
メータの中で最も近いものである１対のパラメータを見つける。最も近いとは、
２つのパラメータを組み合わせることが、それらパラメータと整列（align）し
た訓練用データ集合を生成する尤度（likelifood）における最少の減少をもたら
すこと、を意味する。これは、図５を参照してより詳細に説明するが、これはブ
ロック９２で示している。

【００４５】この最も近いパラメータ対を一旦識別したなら、これらパラメータをクラスタ
化または併合させる。これは、ブロック９４で示している。このとき、音響モデ
ル内のパラメータの数は、１つ減少する。これは、ブロック９６で示している。

【００４６】次に、クラスタ化モジュール８０は、このパラメータ数が、この音響モデルの
所望のサイズ未満かあるいはこれに等しいかどうか判定する。もしそれ未満ある
いは等しい場合、クラスタ化が完了する。もしそうでない場合、クラスタ化モジ
ュール８０は、別の浅いセノンを選択し、そしてこのプロセスを繰り返して別の
パラメータをクラスタ化あるいは併合させる。これは、ブロック９８で示してい
る。

【００４７】最も近いパラメータ対の見つけ出し図５は、どのようにしてクラスタ化モジュール８０が、図４のブロック９２で
概して示したように、クラスタ化または併合のために最も近いパラメータ対を見
つけるかを示すフロー図である。子孫セノンＤｅｓ（Ｓ）を識別した後、クラス
タ化モジュール８０は、この子孫セノンＤｅｓ（Ｓ）から２つのパラメータを選
択する。これは、ブロック１００で示している。次に、クラスタ化モジュール８
０は、これら２つのパラメータを併合する前に、この２つのパラメータと整列し
た訓練用データのセットを生成する尤度を判定する。これは、ブロック１０２で
示している。次に、クラスタ化モジュール８０は、これらパラメータの併合から
生ずる訓練用データの集合を生成する際の減少を判定する。これは、ブロック１
０４で示している。ブロック１０２と１０４で示すステップは、この例示的実施
形態においては、使用する隠蔽マルコフ・モデルが離散的なものあるいは半連続
隠蔽マルコフ・モデルであるかどうか、あるいはそれらが連続式隠蔽マルコフ・
モデルであるかどうかに依存して変化することがある。

【００４８】離散的隠蔽マルコフ・モデルおよび半連続式隠蔽マルコフ・モデルに対しては
、各々の深いセノンは、ｎ個のエントリをもつ１つの離散的な出力分布で表す。
２つの離散的出力分布間の距離を決定するため、最初に、１つの出力分布内の占
有カウント・エントリ（occupancy count entry）は、式１によって｛ａ_i｝と仮
定する。

【００４９】

【数１】

【００５０】同様に、第２のパラメータに対して、占有カウント・エントリは、式２によっ
て｛ｂ_i｝と仮定する。

【００５１】

【数２】

【００５２】次に、第１出力分布に整列した全てのデータを生成する尤度は、以下の通りで
ある。

【００５３】

【数３】

【００５４】ここで、Ｈ（Ａ）は、分布Ａのエントロピーである。同様に、出力分布Ｂに整列した全てのデータを生成する尤度は、以下の通りで
ある。

【００５５】

【数４】

【００５６】分布ＡとＢを併合させた後、その結果の分布は、総合カウントＡ＋Ｂをもつカ
ウント・エントリ｛ａ_i＋ｂ_i｝を有する。このため、深いセノンＡと整列した全
てのデータ、および深いセノンＢと整列した全てのデータを生成する尤度におけ
る損失または減少は、ＡとＢを併合させた場合には、以下となる。

【００５７】

【数５】

【００５８】 ΔＬが小さくなると、尤度の減少が小さくなり、そして２つの分布が近くなる
。ガウス密度関数をもつ連続式隠蔽マルコフ・モデルに対しては、２つの異なっ
た併合技術を使用することができる。第１のものは、ガウス密度関数の平均およ
び共分散の両方を併合させることであり、そして第２のものは、共分散のみを併
合させること、あるいはいくらかの平均をしかし共分散をより多く併合させるこ
とである。例えば、共分散が小さ過ぎるとき、このモデルは、訓練用データに対
してあまりも適合させすぎ、したがって新たなテスト・データの導入に対しロバ
ストでなくなる。さらに分かったことは、音声認識確度は、平均の併合よりも共
分散の併合によっては、はるかに少ない影響しか受けないことである。

【００５９】第１の例示的実施形態においては、平均および共分散の両方を併合させるべき
である。このため、Ｘを、パラメータを有する第１のガウス密度関数（ガウシャ
ン１）に整列した発話データの集合とすると、

【００６０】

【数６】

【００６１】これは、占有（occupancy）γ（ｘ）をもち、ここで、μ₁＝ガウシャン１の平均 Σ₁＝ガウシャン１の共分散である。ここで、以下の仮定をする。

【００６２】

【数７】

【００６３】これは、訓練用データ内のガウシャン１の総合占有である。さらに、ガウシャン・パラメータが、バウム−ウェルチ（Baum-Welch）アルゴ
リズム最尤様式で訓練されると仮定する。このとき、ガウシャン１をもつデータ
Ｘを生成する尤度は、以下となる。

【００６４】

【数８】

【００６５】ここで、ｄは、特徴ベクトルｘの次元の数（dimensionality）である。同様に、ガウシャン２に対し、データ集合Ｙでは、ガウシャン２をもつデータ
Ｙを生成する尤度は、以下となる。

【００６６】

【数９】

【００６７】これら２つのガウシャンを併合させるとき、再び最尤訓練技術を使用する場合
には、データＸ＋Ｙを、データ占有カウントＡ＋Ｂをもつ以下のガウシャンでモ
デル化する。

【００６８】

【数１０】

【００６９】および

【００７０】

【数１１】

【００７１】ここで、Ｔはマトリックス・トランスポートである。したがって、これら２つのガウシャンを併合させたときの尤度における損失は
、以下となる。

【００７２】

【数１２】

【００７３】尚、Σは式１１で計算し、そしてμ₁およびμ₂により影響されることに注意さ
れたい。ΔＬが小さくなると、そのデータを生成する尤度の減少も小さくなり、
したがって２つのガウシャンがより近くなる。

【００７４】別の例示的実施形態においては、平均の組合せに加えて、共分散をさらに組み
合わせる。さらに別の例示的実施形態においては、共分散のみを併合させる。こ
れら例示的実施形態の各々は、音響モデルのサイズを減少させることができると
いう利点が、平均の数を減少させることに付随しての確度の損失なしで、（共分
散パラメータを併合させることにより）得られる。

【００７５】２つの共分散を併合させるが、平均を併合させないとき（すなわち、データＸ
をＮ（μ₁，Σ）によりモデル化しそしてデータＹをＮ（μ₂，Σ）によりモデル
化するとき）、その結果として生ずる最尤共分散は、以下の通り計算される。

【００７６】

【数１３】

【００７７】ここで、Ａ＋Ｂは、周波数重みである。注意されるべきであるが、式１３で計算した共分散は、平均によっては影響さ
れないが、それは、平均は、独立して完全（intact）であるからである。したが
って、併合した共分散を有するガウス密度関数に対応したデータ集合を生成する
尤度における減少は、依然として式１２におけるようにして計算される。これは
、本質的には、共分散を併合あるいは共有するとき、データの中心がどこにある
かに拘わらず（すなわち、その平均に拘わらず）、最も近い共分散対のみを見い
出す必要がある、ということを示している。

【００７８】再び図５を参照すると、データ集合を生成する尤度における減少を、パラメー
タの併合に基づいて一旦決定し、そして併合させるべき２つの最も近いパラメー
タを見つけるため、クラスタ化モジュール８０は、ブロック１０４で計算した減
少が、既に調べた先行の最も近い対を併合させることにより得られたものよりも
下回るかどうか判定する。これは、ブロック１０６により示している。もし下回
る場合、調べている最中のこの現行のパラメータ対が、前の最も近い対よりも実
際に近いことの判定を行い、そしてこの現行の対（すなわち、その２つの選択し
たパラメータ）を最も近いパラメータとして格納する。これは、ブロック１０８
で示している。

【００７９】もし、ブロック１０６において、２つの現行の選択したパラメータの併合から
生ずる尤度の減少が、先行の最も近い対の併合に基づくものを下回らない場合、
この現行の選択したパラメータは、先行の最も近い対よりも近くはなく、したが
って現行の対は、この時点では単にその併合を行わない。

【００８０】次に、クラスタ化モジュール８０は、併合のためにテストすべき追加のパラメ
ータがあるかどうか判定を行う。もしある場合、クラスタ化モジュール８０は、
２つの追加のパラメータを選択し、そして図５に示したステップを繰り返す。テ
ストのためにパラメータがこれ以上ない場合、クラスタ化モジュール８０は、単
に、最も近いパラメータ対をクラスタ化させることにより進行する。これは、図
５のブロック１１０により示している。

【００８１】テスト結果から、未洗練の訓練用データを参照せずかつより小さな音響モデル
を再訓練せずに、システム制約に基づき音響モデル内のパラメータ数を動的に減
少させる本発明は、再訓練式システムよりも向上した確度を提供する。例えば、
セノン当たり１２のガウシャンをもつ、６４００のコンテキスト依存のセノンを
含む最尤訓練した音響モデルを具備させて、ベースラインのシステムを構築した
。第２のシステムは、未洗練の訓練用データに基づき簡略化した音響モデルを訓
練することによって開発した。この簡略化した音響モデルは、３０００のコンテ
キスト依存のセノン（セノン当たり８のガウシャン）を有する最尤訓練した音響
モデルを含んでいた。この簡略化したシステムでは、ベースライン・システムと
同じテスト・データを受けさせたとき、エラー・レートがベースライン・システ
ムよりも１６％の向上を示した。

【００８２】対照的に、本発明に従い、ベースラインの音響モデルから、再訓練なしで、元
の未洗練の訓練用データへのアクセスなしで、より小さな音響モデルを生成する
ようにしたシステムも開発した。このより小さな音響モデルは、再訓練した音響
モデルと同じように、３，０００のセノン（セノン当たり８ガウシャン）をもた
せた。しかし、本発明により開発したこの音響モデルは、ベースライン・システ
ムに対し、再訓練した音響モデルが示した１６％のエラー上昇と比べ、わずか１
１％のエラー上昇しか示さなかった。

【００８３】したがって、本発明は、音声認識システムの音響モデルを動的にダウンサイジ
ングしてユーザの資源要求に適合するための、効率的で正確なシステムを提供す
る。また、本発明は、共有式の共分散モデルを提供し、これは、認識エラー・レ
ートの上昇なしでメモリ要求を減少させることができるか、あるいはより多くの
ガウシャン平均および混合重みに対し空間を再割り当てすることによりその性能
を強化することができる。本発明は、尤度損失並びにセノン判断ツリー階層構造
を使用してクラスタ化を案内することにより、パラメータをクラスタ化あるいは
併合させる。このより小さい再コンフィギュレーションを行った音響モデルは、
再訓練なしで、しかも未洗練の訓練用データへのアクセスを提供することなしで
提供される。

【００８４】以上、本発明について好ましい実施形態を参照して説明したが、当業者には認
識されるように、その形態および細部において、例えば、ＣＨＭＭ出力分布に対
し他のタイプの密度関数を使用すること等により、本発明の範囲および要旨から
逸脱せずに変更を行うことができる。

【図面の簡単な説明】

【図１】図１は、本発明による音声認識システムを実施するための例示的な環境のブロ
ック図。

【図２】図２は、図１に示したシステムの１部分のより詳細なブロック図。

【図３】図３は、セノン・ツリーを示す簡略化した図。

【図４】図４は、本発明の１つの形態による音声認識システムの動作を示すフロー図。

【図５】図５は、本発明の１つの形態にしたがいどのようにして音響モデル内の最も近
いパラメータ対を選択するかを示すフロー図。

【手続補正書】

【提出日】平成１２年１０月２７日（２０００．１０．２７）

【手続補正１】

【補正対象書類名】図面

【補正対象項目名】図１

【補正方法】変更

【補正内容】

【図１】

【手続補正２】

【補正対象書類名】図面

【補正対象項目名】図２

【補正方法】変更

【補正内容】

【図２】

【手続補正３】

【補正対象書類名】図面

【補正対象項目名】図４

【補正方法】変更

【補正内容】

【図４】

【手続補正４】

【補正対象書類名】図面

【補正対象項目名】図５

【補正方法】変更

【補正内容】

【図５】

───────────────────────────────────────────────────── フロントページの続き (72)発明者フワン，シュードン・ディーアメリカ合衆国ワシントン州98072，ウッディンヴィル，ノース・イースト・ワンハンドレッドアンドトゥエンティファースト・ストリート 20020 Ｆターム(参考） 5D015 FF05 GG04

Claims

【特許請求の範囲】

【請求項１】発話を入力データ・ストリームに基づいて認識する方法であって、モデル・サイズを有する音響モデルを含む認識システムを提供するステップと
、前記モデル・サイズを、前記認識システムがランするコンピュータ・システム
の特性に基づき所望のサイズに調節するステップと、前記入力データ・ストリームを受けるステップと、前記所望のサイズを有する前記音響モデルに基づき音声認識を実行するステッ
プと、から成る音声認識方法。
【請求項２】請求項１記載の方法において、前記音響モデルは、訓練用データ言語資料に基
づき訓練し、前記のモデル・サイズを調節するステップは、前記訓練用データ言
語資料へのアクセスなしで前記モデル・サイズを減少させることを含むこと、を
特徴とする音声認識方法。
【請求項３】請求項１記載の方法において、前記音響モデルは、祖先セノンを有しかつ少な
くとも１つのパラメータを特徴とする複数の深いセノンを含み、前記のモデル・
サイズを調節するステップは、１つの祖先セノンを選択するステップと、該選択した祖先セノンの子孫である複数の深いセノンを識別するステップと、前記複数の深いセノンにおけるパラメータをクラスタ化するステップと、から成ること、を特徴とする音声認識方法。
【請求項４】請求項３記載の方法において、前記の複数の深いセノンを識別するステップは
、前記複数の深いセノンに対応する併合させるべき１対のパラメータを識別する
ステップ、を含むことを特徴とする音声認識方法。
【請求項５】請求項４記載の方法において、前記深いセノンの各々は、単一の離散的な出力
分布によって表し、前記の併合させるべき１対のパラメータを識別するステップ
は、併合させるべき１対の出力分布を、該１対の出力分布を併合させることから生
ずる前記１対の出力分布と整列したデータ集合を生成する尤度における減少量に
基づき、識別するステップ、を含むことを特徴とする音声認識方法。
【請求項６】請求項５記載の方法において、併合させるべき１対の出力分布を識別するステ
ップは、第１と第２の出力分布を選択するステップと、前記第１および第２の選択した出力分布を併合させる前に、第１のデータ集合
と第２のデータ集合を生成する尤度を判定するステップであって、前記第１デー
タ集合は、前記第１の選択した出力分布と整列し、前記第２データ集合は、前記
第２の選択した出力分布と整列した、前記のステップと、前記第１と第２の選択した出力分布を併合させた後において、前記第１と第２
のデータ集合を生成する尤度における減少を判定するステップと、前記第１および第２のデータ集合を生成する前記尤度における前記減少に基づ
き、併合させるべき前記１対の出力分布を識別するステップと、から成ること、を特徴とする音声認識方法。
【請求項７】請求項４記載の方法において、各深いセノンは、少なくとも１つの連続密度関
数によって表し、前記パラメータは、前記連続密度関数の特性を構成し、前記の
併合させるべき１対のパラメータを識別するステップは、併合させるべき１対の特性を、該１対の特性を併合させることから生じる前記
１対の特性に対応するデータ集合を生成する尤度における減少に基づき識別する
ステップ、から成ること、を特徴とする音声認識方法。
【請求項８】請求項７記載の方法において、前記連続密度関数は、ガウス密度関数から成り
、前記ガウス密度関数の前記特性は、前記ガウス密度関数に対応する平均と共分
散とから成り、前記の尤度における減少に基づき併合させるべき１対のパラメー
タを識別するステップは、第１のガウス密度関数と第２のガウス密度関数を選択するステップと、前記第１および第２のガウス密度関数の前記平均および共分散を併合する前に
、前記第１ガウス密度関数に対応する第１のデータ集合と、前記第２ガウス密度
関数に対応する第２のデータ集合とを生成する尤度を判定するステップと、前記第１および第２のガウス密度関数の前記平均および共分散を併合させた後
において、前記第１および第２のデータ集合を生成する尤度における減少を判定
するステップと、前記第１および第２のデータ集合を生成する前記尤度における前記減少に基づ
き、併合させるべき平均および共分散の内の少なくとも１つのものの１対を識別
するステップと、から成ること、を特徴とする音声認識方法。
【請求項９】請求項８記載の方法において、前記の平均および共分散のうちの１つのものの
１対を識別するステップは、併合させるべき平均および共分散を最初に識別するステップと、次に、併合させるべき追加の共分散を識別するステップと、から成ること、を特徴とする音声認識方法。
【請求項１０】請求項９記載の方法であって、さらに、未併合の平均中に拡張すべきであってしかも依然として尚前記音響モデルを前
記所望のサイズに維持する併合した平均を識別するステップ、を含むことを特徴とする音声認識方法。
【請求項１１】請求項１記載の方法において、前記のモデル・サイズを調節するステップは、前記コンピュータ・システム上の予め選択した計算資源に基づき前記モデル・
サイズを調節するステップ、から成ること、を特徴とする音声認識方法。
【請求項１２】請求項１１記載の方法において、前記の予め選択した計算資源に基づきモデル
・サイズを調節するステップは、前記コンピュータ・システムのメモリ容量および速度に基づき、前記モデル・
サイズを調節するステップ、から成ること、を特徴とする音声認識方法。
【請求項１３】請求項１１記載の方法において、前記の予め選択した計算資源に基づきモデル
・サイズを調節するステップは、前記予め選択した計算資源を示すシステム情報を要求するユーザ要求を供給す
るステップと、前記システム情報を含むユーザ入力を受けるステップと、前記システム情報に基づき前記モデル・サイズを調節するステップと、から成ること、を特徴とする音声認識方法。
【請求項１４】請求項１３記載の方法において、前記システム情報は、ユーザが前記認識シス
テムに割り当てを希望するコンピュータ割り当てのレベルから成ること、を特徴
とする音声認識方法。
【請求項１５】音声認識システムを、該音声認識システムをランさせるのに使用する第１のコ
ンピュータのコンフィギュレーションを行う方法であって、前記音声認識システ
ムが第２のコンピュータ上で作成したものであり、前記の方法が、複数のパラメータを含む音響モデルであって、該音響モデル内に含まれる前記
パラメータの数に基づくモデル・サイズを有する前記の音響モデルを提供するス
テップと、モデル・サイズ規準を得るステップと、前記サイズ規準に基づき前記モデル・サイズを調節するステップと、から成るコンフィギュレーション方法。
【請求項１６】請求項１５記載の方法において、前記のモデル・サイズ規準を得るステップは
、前記第１コンピュータの動作特性を示すシステム情報を得るステップと、から成り、前記のモデル・サイズを調節するステップは、前記システム情報に基づき、前記音響モデルにおける前記パラメータ数を所望
の数に減少させるステップ、から成ること、を特徴とするコンフィギュレーション方法。
【請求項１７】請求項１６記載の方法において、前記のシステム情報を得るステップは、前記第１コンピュータのメモリ容量および動作速度を得るステップ、から成ること、を特徴とするコンフィギュレーション方法。
【請求項１８】請求項１６記載の方法において、前記のシステム情報を得るステップは、ユーザが音声認識に割り当てを希望する前記第１コンピュータの計算資源の一
部を示すユーザ入力を得るステップと、から成ること、を特徴とするコンフィギュレーション方法。
【請求項１９】請求項１５記載の方法において、前記音響モデルは、祖先セノンを有する複数
の深いセノンを含み、各深いセノンは、少なくとも１つの対応するパラメータを
有し、前記のモデル・サイズを調節するステップは、深いセノンからのパラメータを併合して、前記音響モデル内のパラメータの前
記数を減少させるステップ、から成ること、を特徴とするコンフィギュレーション方法。
【請求項２０】請求項１９記載の方法において、前記のパラメータを併合するステップは、１つの共通の子孫セノンを有する深いセノンのみからのパラメータを併合する
ステップ、から成ること、を特徴とするコンフィギュレーション方法。
【請求項２１】請求項１９記載の方法において、各々の深いセノンは、複数の連続密度関数に
より表し、各連続密度関数は、複数の異なったパラメータによりパラメータ化し
、前記のパラメータを併合させるステップは、併合させるべき２つの連続密度関数を選択するステップと、前記２つの選択した連続密度関数と関連した前記パラメータの全てを併合させ
るステップと、から成ること、を特徴とするコンフィギュレーション方法。
【請求項２２】請求項１９記載の方法において、各深いセノンは、複数の連続密度関数により
表し、各連続密度関数は、複数の異なったパラメータによりパラメータ化し、前
記のパラメータを併合させるステップは、併合させるべき２つの連続密度関数を選択するステップと、前記選択した連続密度関数と関連した前記複数のパラメータの部分集合のみを
併合させるステップと、から成ること、を特徴とするコンフィギュレーション方法。
【請求項２３】請求項２２記載の方法において、前記選択した連続密度関数は、ガウス密度関
数から成り、前記の部分集合のみを併合させるステップは、前記選択したガウス密度関数の共分散を併合させるステップ、から成ること、を特徴とするコンフィギュレーション方法。
【請求項２４】請求項２３記載の方法において、前記の部分集合のみを併合させるステップは
、前記選択したガウス密度関数の平均を併合するステップ、から成ること、を特徴とするコンフィギュレーション方法。
【請求項２５】請求項１９記載の方法において、前記パラメータの各々は、関連するデータ集
合を有し、前記の併合するステップは、前記パラメータの併合から生じる前記第１および第２のデータ集合を生成する
尤度における減少に基づき前記パラメータの内の一定のものを併合するステップ
、から成ること、を特徴とするコンフィギュレーション方法。
【請求項２６】入力発話を認識するための音声認識システムであって、前記入力発話から特徴を抽出するように構成した特徴抽出器と、モデル・サイズを有し、かつ発話ユニットのモデルを含む音響モデルと、抽出した前記特徴に基づき、かつ前記音響モデルに基づきありそうな出力を判
定する探索エンジンと、前記音声認識システムをランさせるコンピュータ・システムに対応するシステ
ム情報の基づき、前記モデル・サイズを調節するように構成したコンフィギュレ
ーション・モジュールと、から成る音声認識システム。
【請求項２７】請求項２６記載のシステムにおいて、前記音響モデルは、訓練用言語資料に基
づき訓練し、前記コンフィギュレーション・モジュールは、前記訓練用言語資料
へのアクセスなしで前記モデル・サイズを調節するように構成したこと、を特徴
とする音声認識システム。
【請求項２８】請求項２６記載のシステムにおいて、前記音響モデル内の前記モデルは各々、
複数のパラメータを含み、前記コンフィギュレーション・モジュールは、前記コ
ンピュータ・システムの動作特性を得ることによって前記システム情報を得、そ
して前記動作特性に基づき前記音響モデル内の前記パラメータ数を所望の数に減
少させるように構成したこと、を特徴とする音声認識システム。
【請求項２９】請求項２６記載のシステムにおいて、発話ユニットの前記モデルは、子孫セノ
ンを有する複数の深いセノンを含み、各深いセノンは、少なくとも１つの対応す
るパラメータを有し、前記コンフィギュレーション・モジュールは、前記深いセ
ノン内のパラメータを併合して、前記音響モデル内の前記パラメータ数を所望の
数に減少させるように構成したこと、を特徴とする音声認識システム。
【請求項３０】請求項２９記載のシステムにおいて、前記コンフィギュレーション・モジュー
ルは、１つの共通の子孫セノンを有する深いセノンのみからのパラメータを併合
させるように構成したこと、を特徴とする音声認識システム。
【請求項３１】請求項２９記載のシステムにおいて、前記コンフィギュレーション・モジュー
ルは、併合させるべき前記パラメータと整列したデータ集合を生成する尤度にお
ける減少に基づき前記パラメータを選択的に併合させるように構成したこと、を
特徴とする音声認識システム。