JPH10116092A

JPH10116092A - 発音プレフィックスツリーのエンコード方法及びシステム

Info

Publication number: JPH10116092A
Application number: JP9168914A
Authority: JP
Inventors: Fileno A Alleva; エイアレヴァフィレノ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-06-25
Filing date: 1997-06-25
Publication date: 1998-05-06
Anticipated expiration: 2017-06-25
Also published as: EP0817169B1; CN1107915C; US5758024A; DE69726499D1; CN1180202A; DE69726499T2; EP0817169A2; EP0817169A3; JP3601751B2

Abstract

(57)【要約】（修正有）【課題】発音プレフィックスツリーを直線的にエンコ
ードする。【解決手段】発音プレフィックスツリーは、各非ルー
ト及び非リーフノードが音素を表すノードを有し、各リ
ーフノードは、ルートノードからリーフノードへの経路
で非リーフノードによる音素でワードを表し、そのワー
ドに関連した確率を有する。コンピュータシステムは、
各ワードを構成する音素の指示を含むツリーノード辞書
を形成し、子ノードの子孫リーフノードの最も高い確率
で各非リーフノードの子ノードを順序付けする。各非リ
ーフノードに対し、その確率をその子ノードの確率にセ
ットすると共に、各ノードのファクタを、ノードの確率
をその親ノードの確率で除算したものにセットする。コ
ンピュータシステムは、発音プレフィックスツリーの各
リーフノードに対してエンコードされた発音エントリー
を発生し、リーフノードのワードを指示し、１．０以外
のファクタの最も近い祖先のファクタを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータスピ
ーチ認識のためのコンピュータシステムに係り、より詳
細には、発音のプレフィックスツリーをコンパクトにエ
ンコードするための方法及びシステムに係る。

【０００２】

【従来の技術】コンピュータシステムにより人間のスピ
ーチを迅速且つ正確に認識することはコンピュータシス
テムの開発者が長年追求している目標である。このよう
なコンピュータスピーチ認識（ＣＳＲ）システムから得
られる利益は絶大である。例えば、文書をコンピュータ
システムに打ち込むのではなく、人間は文書のワードを
単に話すだけでよく、ＣＳＲシステムがワードを認識
し、そしてワードがタイプされたかのように各ワードの
文字を記憶する。人間は一般にタイプするより速く話す
ことができるので、効率が改善される。又、人間は、も
はやタイプの仕方を学習する必要がなくなる。又、コン
ピュータを使用できる多くの用途では、人間の手がタイ
プ以外の作業で占有されるために、その使用が現在非実
際的となっている。

【０００３】スピーチを処理するために、典型的なＣＳ
Ｒシステムは、音素と称するスピーチの基本単位を定義
する。各音素は異なる音に対応する。例えば、ワード
「ｃｏｔｔｏｎ」は、通常、４つの音素「ｋ」、「ａ
ｗ」、「ｔ」及び「ｅｎ」で話される。ＣＳＲシステム
は、音声辞書を使用して、各ワードの音素を辞書に記憶
する。図１は、５ワードの語彙サンプルに対する音声辞
書を示している。この音声辞書は、語彙の各ワードを、
そのワードを構成する音素と共に含む。例えば、ワード
「ｃｏｔｔｏｎ」の辞書入力は、「ｃｏｔｔｏｎｋ
ａｗｔｅｎ」である。ＣＳＲシステムは、スピーチ
の一部分を受け取ると、どの音素が話されたか識別す
る。音素が識別されると、ＣＳＲシステムは、辞書を走
査して、どのワードがそれらの音素を構成するか決定す
ることができる。ＣＳＲシステムが各音素を正しく識別
できる場合には、スピーチの認識が比較的単純な作業と
なる。しかしながら、音素の正しい識別は、困難な作業
であると分かっている。

【０００４】音素認識において遭遇する難題は、人間の
スピーチパターンがほとんど無限に変化することにより
生じる。この変化は、話し手のアクセント、話す速度及
び調子、話し手の現在の健康状態（例えば、風邪をひい
た）、話し手の年齢及び性別等により生じる。従って、
ＣＳＲシステムは、スピーチの一部分を処理するとき
に、各音素に対し、スピーチのその部分がその音素に対
応する見込みを示す確率を指定する。例えば、「ｗｅｒ
ｅ」又は「ｗｅａｒ」のワードが話される場合には、Ｃ
ＳＲシステムは、スピーチが２つの部分を構成すると考
える。第１の部分に対して、ＣＳＲシステムは、音素
「ｗ」に０．９の確率を指定し、音素「ａｘｒ」に０．
１の確率を指定し、そして他の全ての音素に０の確率を
指定する。第２の部分に対して、ＣＳＲシステムは、音
素「ｅｒ」に０．６の確率を指定し、音素「ａｘｒ」に
０．３の確率を指定し、音素「ｗ」に０．１の確率を指
定し、そして他の全ての音素に０の確率を指定する。次
いで、ＣＳＲシステムは、ワードを話されたワードと最
も厳密に一致する最も高い確率で一連の音素を認識する
ことができる。この例では、話されたワードが「ｗｅｒ
ｅ」である確率が０．５４（即ち０．９ｘ０．６）であ
り、そして話されたワードが「ｗｅａｒ」である確率が
０．３６（即ち０．９ｘ０．４）である。従って、ＣＳ
Ｒシステムは、ワードを「ｗｅｒｅ」と認識する。

【０００５】スピーチパターンのこれらの変化を更に加
味するために、ＣＳＲシステムは、話されたワードの識
別を助けるために、典型的なスピーチパターンから累積
される種々の確率を使用する。特に、ＣＳＲシステム
は、特定のワードが日常のスピーチで話される確率を使
用する。図１の音声辞書は、語彙のワードに対する例示
的な確率を示している。これらの確率は、前後関係とは
独立したもので、即ちそのワードの前後に話されるワー
ドに関わりなくワードが話される確率を表す。例えば、
この例示的な語彙においては、ワード「ｗｅ」は、０．
３の確率を有し、そしてワード「ｃｏｔｔｏｎ」は、
０．１の確率を有する。これらの確率は、ワード「ｗ
ｅ」が典型的にワード「ｃｏｔｔｏｎ」よりも３倍は頻
繁に話されることを示す。前後関係とは独立した確率
は、単一のワードに基づくので、それらをユニグラム確
率と称する。上記例を続けると、前後関係とは独立した
確率も考慮する場合は、話されたワードが「ｗｅｒｅ」
である確率は、０．０８１であり、そして話されたワー
ドが「ｗｅａｒ」である確率は、０．０９である。従っ
て、前後関係とは独立した確率が考慮された場合には、
ＣＲＳシステムは、ワードを「ｗｅｒｅ」ではなく、
「ｗｅａｒ」と認識する。

【０００６】認識を更に改善するために、ＣＳＲシステ
ムは、前後関係に従属する確率も用いている。前後関係
に従属する確率は、各ワードが一連の他のワードに続く
確率である。例えば、ワード「ｔｏｂｅｏｒｎｏ
ｔｔｏ」の後にワード「ｂｅ」が続く確率は、極めて
高い。しかしながら、記憶する必要のある確率の数はシ
ーケンスの長さと共に指数関数的に増加する。特に、ｌ
個のワードの全ての考えられるシーケンスを表すために
記憶する必要のある確率の数は、辞書におけるワードの
数をｎとすれば、ｎのｌ乗となる。通常の辞書は、６
０，０００語を含むことができるので、前後関係に従属
する確率を表すには膨大な量の記憶が必要になる。従っ
て、ＣＳＲシステムは、一般に、確率を記憶するシーケ
ンスの長さを２に制限している（即ち、ｌ＝２）。例え
ば、ＣＳＲシステムは、ワード「ｂｅ」がワード「ｔ
ｏ」に続く確率と、ワード「ｏｒ」がワード「ｂｅ」に
続く確率を記憶するが、ワード「ｏｒ」がワード「ｔｏ
ｂｅ」に続く確率は記憶しない。図２は、長さ２の例
示的な語彙のシーケンスに対する前後関係に従属する確
率を示す。例えば、ワード「ｗｅａｒ」の後にワード
「ｃｏｔｔｏｎ」が続く確率は、０．９であり、そして
ワード「ｗｅａｒ」の後にワード「ｗｅ」が続く確率
は、０．１である。これらの前後関係に従属する確率
は、２つのワードのシーケンスに基づいているので、バ
イグラム確率と称する。上記例を続けると、ワード「ｗ
ｅ」が次に話されそして前後関係に従属する確率を考慮
する場合に、最初に話されたワードが「ｗｅｒｅ」であ
る確率は、０．０４０５であるが、最初に話されたワー
ドが「ｗｅａｒ」である確率は、０．００９である。従
って、ＣＲＳシステムは、最初に話されたワードをワー
ド「ｗｅｒｅ」として認識する。

【０００７】

【発明が解決しようとする課題】大きな語彙システムに
おいてスピーチを認識するには膨大な量の計算が必要と
なるので、システム語彙のワードの始めに見られる二重
の発音プレフィックスとの一致に関連した冗長な計算を
排除するために、発音プレフィックスツリーに基づくデ
ータ編成が使用される。

【０００８】図３は、例示的な音声辞書のプレフィック
スツリーデータ構造体を示す。このプレフィックスツリ
ーデータ構造体は、音声辞書と同じ情報を、スペースを
節約し且つ容易にサーチできるフォーマットで含んでい
る。発音プレフィックスツリー（ＰＰＴ）と称するこの
プレフィックスツリーデータ構造体は、共通のプレフィ
ックスを共用するワードに対する冗長な音素の記憶を排
除することによりスペースを節約する。例えば、ワード
「ｃａｕｇｈｔ」及び「ｃｏｔｔｏｎ」の発音は、ノー
ド２０１ないし２０６により表される。最初の３つの音
素「ｋ」、「ａｗ」及び「ｔ」は、両方のワードに共用
されるので、ＰＰＴは、これら音素の各々に対し１つの
ノードしか含まない。ＣＳＲシステムは、ルートノード
から、話されたワードを表すリーフノードへ、認識され
た音素の経路をたどることによりＰＰＴを迅速にサーチ
することができる。例えば、音素「ｋａｗｔｅ
ｎ」が受け取られた場合には、ＣＳＲシステムは、ルー
トノード２００でスタートして、ワード「ｃｏｔｔｏ
ｎ」を表すリーフノード２０６で終わるプレフィックス
ツリーを進むことになる。各リーフノードは、辞書のワ
ードを表し、そのワードのユニグラム確率を含んでい
る。例えば、リーフノード２０６は、ワード「ｃｏｔｔ
ｏｎ」に対するユニグラム確率である０．１の確率を含
む。ＰＰＴの各ノードは、ルートからノードへの分岐の
数を表すプレフィックスツリー内の深さにある。例え
ば、ノード２０６の深さは５である。図３のＰＰＴは、
ユニグラム確率を含むので、ユニグラムＰＰＴとして知
られている。

【０００９】図４は、ワード「ｗｅｒｅ」に続く辞書の
ワードに対するバイグラム確率を表すバイグラムＰＰＴ
である。各リーフノードは、ワード「ｗｅｒｅ」に続く
ことのできるワードに対応し、このようなワードがワー
ド「ｗｅｒｅ」に続く確率を含む。従って、全てのバイ
グラム確率を表すために、辞書の各ワードは、そのワー
ドに続くワードの対応確率を含むバイグラムＰＰＴを有
する。このようなバイグラムＰＰＴの表示は、大量の記
憶を必要とする。例えば、典型的な辞書は、バイグラム
ＰＰＴで表された５．０２百万のバイグラム確率を有
し、全部で１８．２百万のノードをもつ。各ノードが４
バイトのメモリを使用すると仮定すれば、全てのバイグ
ラム確率を記憶するのに７２．８百万のバイトが必要に
なる。このような大量のデータは、このような情報を従
来のメモリ装置に記憶するのを不可能にするだけではな
く、確率を迅速に探索するのも不可能にする。

【００１０】

【課題を解決するための手段】本発明は、バイグラム発
音プレフィックスツリーを表すのに必要な記憶量を著し
く低減しそしてスピーチ認識中に子ノードを迅速に決定
できるようにバイグラム発音プレフィックスツリーを直
線的にエンコードする方法及びシステムを提供する。コ
ンピュータシステムは、１つのツリーノード辞書を伴う
各バイグラム発音プレフィックスツリーに対し、バイグ
ラム発音プレフィックスツリーを直線的エンコードで表
す。コンピュータシステムは、語彙の各ワードを構成す
る音素のリストを含むツリーノード辞書を発生する。次
いで、コンピュータシステムは、各バイグラム発音プレ
フィックスツリーに対して次の動作を繰り返す。コンピ
ュータシステムは、各非リーフノードの確率を、その子
ノードの確率に基づく確率にセットする（即ち、スミア
リング(smearing)）。次いで、コンピュータシステム
は、各ノードのファクタを、そのノードの確率をそのノ
ードの親ノードの確率で除算したものにセットする（即
ち、ファクトリング(factoring) ）。最後に、コンピュ
ータシステムは、バイグラム発音プレフィックスツリー
の各リーフノードに対してエンコードされた発音エント
リーを形成する。このエンコードされた発音エントリー
は、リーフノードで表されたワードを指示し、そして所
定のファクタ以外のファクタをもつ最も近い祖先のファ
クタを含む。

【００１１】次いで、この直線的にエンコードされたバ
イグラム発音プレフィックスツリーをスピーチ認識中に
使用して、バイグラムコンテクストをインスタンス生成
することができる。バイグラムコンテクストは、対応す
る音素が話された見込みを示す各ノードの確率をもつバ
イグラム発音プレフィックスツリーのインスタンスであ
る。各音素が話されるたびに、コンピュータシステム
は、直線的エンコードを使用して、バイグラムコンテク
ストに追加されるべき次の子ノードを識別する。次い
で、コンピュータシステムは、ツリーノード辞書を使用
して、バイグラムコンテクストに追加されるべき子ノー
ドを迅速に識別する。

【００１２】バイグラム発音プレフィックスツリーをエ
ンコードするのに加えて、コンピュータシステムは、ト
リグラム及び一般的には任意の長さのｎグラムに対して
発音ツリーをエンコードすることができる。各発音プレ
フィックスツリーは、ｎグラムの長さに関わりなく、同
じ形式の情報を含み、即ちワード及び確率に対応するリ
ーフノードを含む。スピーチを認識すると、ｎグラムコ
ンテクストは、ｎグラムのワード数から１を引いたもの
にセットされる。例えば、トリグラムコンテクストは、
直線的にエンコードされたトリグラム発音プレフィック
スツリーに関連した２つのワードにセットされる。

【００１３】

【発明の実施の形態】好ましい実施形態において、本発
明は、バイグラム発音プレフィックスツリーを直線的に
エンコードしそしてこの直線的エンコードの発音プレフ
ィックスツリーを用いてスピーチを認識するための方法
及びシステムを提供する。バイグラム発音プレフィック
スツリーは、認識中に祖先ノードのみに基づいて「スミ
アリング」された確率を決定できるようにエンコードさ
れる。スミアリングされた確率とは、そのノードの子孫
ノードの確率に基づいて各非リーフノードに記憶された
確率を意味する。スミアリングされた確率を使用する
と、ワードの識別が分かる前に、認識中に確率の計算を
行うことができる。

【００１４】本発明のシステムは、スミアリングされた
確率をもつバイグラム発音プレフィックスツリーを、各
バイグラム発音プレフィックスに対し１つのツリーノー
ド辞書と直線的エンコードとの組み合わせとしてエンコ
ードする。ツリーノード辞書は、語彙の各ワードを構成
する音素のリストを含む。各バイグラム発音プレフィッ
クスツリーの直線的エンコードは、各リーフノードのエ
ントリーを含む。このエントリーは、１．０以外のファ
クタをもつ最も近い祖先ノードのファクタと共にリーフ
ノードのワードを識別する。バイグラム発音プレフィッ
クスツリーの各ノードは、そのノードのスミアリングさ
れた確率を親ノードの確率で除算したものに等しいファ
クタが指定される。このファクタは、兄弟ノードをもた
ない各ノードのファクタが１．０であるという特徴を有
する。バイグラム発音プレフィックスツリーにおける大
半のノードは、通常、兄弟をもたないので、１．０のフ
ァクタをエンコードから除去することができる。

【００１５】直線的にエンコードされたバイグラム発音
プレフィックスツリーは、スピーチ認識中に、バイグラ
ムコンテクストをインスタンス生成するのに使用でき
る。バイグラムコンテクストは、対応する音素が話され
た見込みを示す各ノードの確率をもつバイグラム発音プ
レフィックスツリーのインスタンスである。各音素が話
されたときには、コンピュータシステムは、直線的エン
コードを使用して、バイグラムコンテクストに追加され
るべき次の子ノードを識別する。次いで、コンピュータ
システムは、ツリーノード辞書を使用して、バイグラム
コンテクストに追加されるべき子ノードを速やかに識別
する。

【００１６】図３は、本発明の要素を示すコンピュータ
システムのブロック図である。このコンピュータシステ
ムは、中央処理ユニット、メモリ及び種々の記憶装置を
備えた標準的なコンピュータである。このコンピュータ
システムは、バイグラムＰＰＴ３０１、直線的ＰＰＴエ
ンコーダ３０２、直線的にエンコードされたバイグラム
ＰＰＴ３０３、音素認識装置３０４、コンピュータスピ
ーチ認識装置３０５、及びユニグラムＰＰＴ３０６を備
えている。直線的ＰＰＴエンコーダ及びコンピュータス
ピーチ認識装置を実施するコンピュータプログラムは、
通常は、コンピュータメモリ又はディスクドライブのよ
うなコンピュータ読み取り可能な媒体に記憶される。直
線的ＰＰＴエンコーダ３０２は、バイグラムＰＰＴ３０
１が直線的にエンコードされたバイグラムＰＰＴ３０３
を発生できるようにする。直線的にエンコードされたバ
イグラムＰＰＴは、バイグラムＰＰＴのコンパクトエン
コードである。スピーチ認識中に、ＣＳＲシステム３０
５は、音素認識装置３０４から一連の音素を受け取り、
そして直線的にエンコードされたバイグラムＰＰＴ３０
３及びユニグラムＰＰＴ３０６を用いて、一連の受け取
った音素をワードとして認識する。

【００１７】図６は、例示的な辞書に対する拡張ユニグ
ラムＰＰＴを示す。拡張ユニグラムＰＰＴは、各ノード
のファクタを含むように拡張されると共にそのノードが
ユニグラム確率により順序付けされたユニグラムＰＰＴ
である。各親ノードの子ノードは、その子ノードの子孫
リーフノードの最大の確率に基づいて左から右へと順序
付けされる。例えば、ノード〔１〕の子孫リーフノード
の最大の確率は０．３であり、ノード〔２〕の子孫リー
フノードの最大の確率は０．２であるから、ノード
〔１〕は、ノード〔２〕の左にある。同様に、ノード
〔３〕、ノード〔４〕及びノード〔５〕の子孫リーフノ
ードの最大確率は、０．３、０．２５及び０．１５であ
るから、ノード〔３〕は最も左にあり、そしてノード
〔５〕は最も右にある。ユニグラムＰＰＴの各ノードに
は、順次ノード識別が指定される。これらのノード識別
は、ユニグラムＰＰＴの巾優先の左−右の横断において
ノードが訪問されるときに指定される。従って、同じ深
さにあるノードは、順次の独特の識別子を有する。例え
ば、深さ３のノードは、識別子〔３〕、〔４〕、〔５〕
及び〔６〕を含む。

【００１８】拡張ユニグラムＰＰＴのファクタは、式
（１）及び（２）に基づく確率から形成される。先ず、
各非リーフノードの確率が、リーフノードの確率に基づ
いてセットされる。各非リーフノードの確率は、次の式
で発生される。Ｐ’（ｎ）＝ｍａｘ（Ｐ（ｘ）） (1) ｛x ｜x ε child(n) ｝即ち、ユニグラムＰＰＴの各非リーフノードの確率は、
その子ノードの確率の最大値である。例えば、ノード
〔１〕は、０．３の確率を有し、これは、その子ノード
〔３〕、〔４〕及び〔５〕の確率である０．３、０．２
５及び０．１５のうちの最大確率である。各ノードのフ
ァクタは、次の式により発生される。ｆ（ｎ）＝Ｐ’（ｎ）／Ｐ’（parent(n) ） (2) 即ち、ノードのファクタは、そのノードの確率をその親
ノードの確率で除算したものである。例えば、ノード
〔５〕の確率は、０．１５であり、そしてその親ノード
〔１〕の確率は、０．３であり、従って、ノード〔５〕
のファクタは、０．１５を０．３で除算した０．５であ
る。拡張ユニグラムＰＰＴは、ノードのファクタのみを
記憶する。というのは、ファクタから確率を発生できる
からである。ノードに関連した確率は、その親ノードの
確率にノードのファクタを乗算したものである。例え
ば、ノード〔１〕の確率は０．３であり、そして子ノー
ド〔５〕のファクタは０．５である。従って、ノード
〔５〕の確率は、０．３に０．５を乗算した０．１５と
なる。確率ではなく、このようなファクタを使用するの
は、大半のファクタが一般的に１．０であり、コンパク
トな表示に適しているからである。即ち、除去されるい
かなるファクタも、１．０であると仮定することができ
る。

【００１９】拡張ユニグラムＰＰＴが発生されると、直
線的ＰＰＴエンコーダは、ツリーノード辞書（ＴＮＤ）
を発生する。図７は、図６の拡張ユニグラムＰＰＴに対
するツリーノード辞書を示している。ＴＮＤは、辞書内
の各ワードに対するエントリーを、そのワードを認識す
るときに拡張ユニグラムＰＰＴに訪問される各ノードの
ノード識別子と共に含んでいる。例えば、ワード「ｃｏ
ｔｔｏｎ」を認識するために、ノード

〔０〕、〔２〕、
〔６〕、〔１０〕、〔１２〕及び〔１３〕が横断され
る。横断は常にノード

〔０〕でスタートするので、その
ノード識別子をＴＮＤから除去することができる。ＴＮ
Ｄ及び直線的にエンコードされたバイグラムＰＰＴは、
バイグラムＰＰＴのエンコードを表す。

【００２０】又、直線的ＰＰＴエンコーダは、各バイグ
ラムＰＰＴをユニグラムＰＰＴの拡張と同様に拡張す
る。特に、各非リーフノードに対してファクタが発生さ
れる。図８は、ワードバイグラムコンテクスト「ｗｅｒ
ｅ」に対する拡張バイグラムＰＰＴを表し、そして図９
は、ワードバイグラムコンテクスト「ｗｅａｒ」に対す
る拡張バイグラムＰＰＴを表している。直線的ＰＰＴエ
ンコーダは、拡張バイグラムＰＰＴ６０１及び７０１に
対し各々直線的エンコード６０２及び７０２を発生す
る。直線的にエンコードされたバイグラムＰＰＴは、各
リーフノードごとにエントリーを含む。直線的にエンコ
ードされたバイグラムＰＰＴ及びＴＮＤからバイグラム
ＰＰＴを再生することができる。従って、直線的にエン
コードされたバイグラムＰＰＴは、バイグラムＰＰＴの
コンパクトエンコードを表す。直線的にエンコードされ
たバイグラムＰＰＴ（ＬＥＢＰＰＴ）の各エントリー
は、拡張バイグラムＰＰＴ内のワード、ファクタ及び深
さを識別する。例えば、ＬＥＢＰＰＴ６０２の第２エン
トリーは、ワード「ｃａｕｇｈｔ」、ファクタ０．８及
び深さ１を識別する。この第２エントリーは、ワード
「ｃａｕｇｈｔ」のリーフノードが０．８の確率を有す
ることを示す。即ち、ノード〔１１〕の確率は、ＬＥＢ
ＰＰＴ６０２の第１エントリーのファクタ０．５の０．
８倍である。更に、この第２エントリーは、０．８のフ
ァクタが拡張バイグラムＰＰＴ内の深さ１のノードに記
憶されることを示す。

【００２１】直線的ＰＰＴエンコーダは、拡張バイグラ
ムＰＰＴの左−右の深さ優先横断を実行することにより
ＬＥＢＰＰＴを発生する。訪問した各リーフノードごと
に、直線的ＰＰＴエンコーダは、リーフノード内のワー
ド並びに１．０以外のファクタ有する最後に訪問したノ
ードのファクタ及び深さを識別するエントリーをＬＥＢ
ＰＰＴに加える。例えば、図８のリーフノード〔７〕が
訪問されたときには、１．０以外のファクタをもつ最後
に訪問したノードがノード

〔０〕である。それ故、ＬＥ
ＢＰＰＴの最初のエントリーは、「ｗｅ０．５０」
であり、これは０．５のファクタと０の深さを示す。第
２のエントリーは、ノード〔１１〕に対応する。ノード
〔１１〕を訪問する前に最後に訪問した１．０以外のフ
ァクタをもつノードはノード〔２〕であり、これはファ
クタ０．８及び深さ１を有する。従って、ＬＥＢＰＰＴ
の第２のエントリーは、「ｃａｕｇｈｔ０．８１」
である。最後に、ノード〔１３〕が訪問されたときに
は、１．０以外の確率をもつ最後に訪問したノードはノ
ード〔１２〕であり、これは、ファクタ０．２５及び深
さ４を有する。従って、ＬＥＢＰＰＴの第３エントリー
は、「ｃｏｔｔｏｎ０．２５４」である。

【００２２】バイグラムＰＰＴは、ツリーノード辞書
（ＴＮＤ）を用いてＬＥＢＰＰＴをデコードすることに
よりＬＥＢＰＰＴから再生することができる。ＬＥＢＰ
ＰＴの各エントリーごとに、デコーダは、ＬＥＢＰＰＴ
エントリーに記憶されたワードに対してＴＮＤからエン
トリーを検索する。（好ましいＣＳＲシステムは、認識
を開始する前にこのようなデコードを実際に行わず、デ
コードは認識と一体化される。）ＴＮＤエントリーは、
そのワードのバイグラムＰＰＴの一部分であるノードを
識別する。即ち、エントリーは、そのワードに対するル
ートノードからリーフノードへ至る経路上でバイグラム
ＰＰＴを識別する。デコーダは、各識別されたノードに
対しバイグラムＰＰＴにノードを追加する。例えば、デ
コーダは、ＬＥＢＰＰＴ６０１の第１エントリーに遭遇
すると、バイグラムＰＰＴにルートを追加し、そしてワ
ード「ｗｅ」に対してＴＮＤエントリーにおいて識別さ
れた各ノードごとにノードを追加する。次いで、デコー
ダは、ＬＥＢＰＰＴエントリーに記憶された深さにある
ノードを除いて、各追加ノードのファクタを１．０にセ
ットする。デコーダは、そのノードのファクタをＬＥＢ
ＰＰＴエントリーのファクタにセットする。同様に、デ
コーダは、第２のエントリーに遭遇すると、その第２エ
ントリーに記憶されたワードに対しＴＮＤからエントリ
ーを検索する。デコーダは、各識別されたノードに対し
てバイグラムＰＰＴにノードを追加する（まだ追加され
ていない場合）。デコーダは、ワード「ｃａｕｇｈｔ」
に対するノードの識別子をＴＮＤから検索し、そして各
識別されたノードに対しノードを追加する。次いで、デ
コーダは、深さ１に形成されたノードのファクタを０．
８にセットし、そして他の全てのファクタを１．０にセ
ットする。最後に、デコーダは、第３のエントリーに遭
遇すると、ワード「ｃｏｔｔｏｎ」に対してＴＮＤエン
トリーを検索し、そしてまだ追加されていない各識別さ
れたノード、即ちノード〔１２〕及びノード〔１３〕に
対してノードを追加する。次いで、デコーダは、ＬＥＢ
ＰＰＴエントリーの深さにあるノードのファクタをＬＥ
ＢＰＰＴエントリーのファクタ０．２５にセットし、そ
して他の全てのファクタを１．０にセットする。この点
において発生されるＰＰＴは、拡張バイグラムＰＰＴで
ある。次いで、デコーダは、拡張バイグラムＰＰＴを横
断して、リーフノードに対する確率を発生する。バイグ
ラムＰＰＴをコンパクトに表すために、直線的にエンコ
ードされたバイグラムツリーのカラムの深さが不要であ
ることが当業者に明らかであろう。しかしながら、以下
で明らかなように、深さを含ませると、スピーチ認識中
にバイグラムコンテクストを迅速に形成することができ
る。

【００２３】図１０は、エンコードバイグラムＰＰＴル
ーチンのフローチャートである。エンコードバイグラム
ＰＰＴルーチンは、直線的ＰＰＴエンコーダにより実行
される。このルーチンは、ルーチンに通された拡張バイ
グラムＰＰＴの深さ優先の左−右横断を実行しそして直
線的にエンコードされたバイグラムＰＰＴを形成する反
復ルーチンである。このルーチンは、最初に呼び出され
ると、拡張バイグラムＰＰＴのルートノードを通す。ル
ーチンがそれ自身を繰り返し呼び出すたびに、拡張バイ
グラムＰＰＴのサブツリーを通す。ステップ８０１にお
いて、通されたサブツリーのルートノードがリーフノー
ドである場合には、ルーチンはステップ８０５に続く
が、さもなくば、ルーチンはステップ８０２に続く。ス
テップ８０２ないし８０４において、ルーチンはループ
して、通されたサブツリーのルートノードの各子ノード
を選択し、そしてこのルーチンを繰り返し呼び出して、
選択された子ノードをサブツリーのルートノードとして
通す。ステップ８０２において、ルーチンは、第１の子
ノードで始めて、通されたサブツリーの次の子ノードを
選択する。ステップ８０３において、通されたサブツリ
ーのルートノードの全ての子ノードが既に選択された場
合には、ルーチンは復帰するが、さもなくば、ルーチン
は、このルーチンを繰り返し呼び出して、選択されたノ
ードをサブツリーのルートノードとして通し、そしてス
テップ８０２へループして、次の子ノードを選択する。
ステップ８０５において、ルーチンは、ルートノードの
ワードに対しＬＥＢＰＰＴにエントリーを追加すると共
に、１．０のファクタをもたない最後の訪問したノード
の深さ及びファクタを追加し、そして復帰する。このル
ーチンは、バイグラムＰＰＴをエンコードするものとし
て説明しないが、対応するｎグラムの長さに関わりな
く、この同じルーチンを変更せずに使用して、ＰＰＴを
エンコードすることができる。

【００２４】図１１は、デコードＬＥＢＰＰＴルーチン
のフローチャートである。デコードＬＥＢＰＰＴルーチ
ンには、ＬＥＢＰＰＴ及びＴＮＤが通され、拡張バイグ
ラムＰＰＴを再生する。上記のように、好ましいＣＳＲ
システムは、拡張バイグラムＰＰＴを再生する必要はな
い。むしろ、ＣＳＲシステムは、以下に述べるように必
要な情報をＬＥＢＰＰＴから直接検索する。ステップ９
０１ないし９０９において、ルーチンはループして、各
ＬＥＢＰＰＴエントリーを選択し、そしてそのエントリ
ーにより表された拡張バイグラムＰＰＴにノードを追加
する。ステップ９０１において、ルーチンは、最初から
始めて次のＬＥＢＰＰＴを選択する。ステップ９０２に
おいて、全てのＬＥＢＰＰＴエントリーが既に選択され
た場合には、ルーチンは復帰し、さもなくば、ルーチン
はステップ９０３に続く。ステップ９０３において、ル
ーチンは、選択されたＬＥＢＰＰＴエントリーのワード
に対応するＴＮＤエントリーを選択する。ステップ９０
４ないし９０９において、ルーチンはループして、選択
されたＴＮＤエントリーで識別された各ノードを処理
し、そしてまだ追加されていない場合にはそれを拡張バ
イグラムＰＰＴに追加する。ステップ９０４において、
ルーチンは、選択されたＬＥＢＰＰＴエントリーの深さ
で始めて次の深さを選択する。選択された深さが、選択
されたＴＮＤエントリーの最大深さより大きい場合に
は、ルーチンはステップ９０１へループして、次のＬＥ
ＢＰＰＴエントリーを選択するが、さもなくば、ルーチ
ンはステップ９０６に続く。ステップ９０６では、ルー
チンは、選択されたＴＮＤエントリーで識別されたノー
ドに対応するノードを拡張バイグラムＰＰＴに追加す
る。ステップ９０７において、選択された深さが、選択
されたＬＥＢＰＰＴエントリーの深さに等しい場合に
は、ルーチンはステップ９０８に続き、さもなくば、ル
ーチンはステップ９０９に続く。ステップ９０８におい
ては、ルーチンは、追加されたノードのファクタを、選
択されたＬＥＢＰＰＴエントリーのファクタにセットす
る。ステップ９０９において、ルーチンは、追加された
ノードのファクタを１．０にセットする。次いで、ルー
チンは、ステップ９０４にループし、次の深さを選択す
る。

【００２５】図１２は、ＬＥＢＰＰＴを使用するＣＳＲ
システムのフローチャートである。ＣＳＲシステムは、
一連の音素を検索し、そしてそれらの音素に最もマッチ
する一連のワードを選択する。認識システムは、各音素
が処理されるときに一連の音素が表す一連のワードに関
して新たな仮定を繰り返し発生する。例えば、ＣＳＲシ
ステムは、次の仮定を確立する。Ｈ１（ｔ）＝「ｗｅｗｅａｒ」Ｐ（Ｈ１（ｔ））＝０．６Ｈ２（ｔ）＝「ｗｅｗｅｒｅ」Ｐ（Ｈ２（ｔ））＝０．４ＣＳＲシステムは、ＴＮＤに関連してユニグラム及びバ
イグラムＰＰＴを参照することによりこれらの仮定を拡
張する。

【００２６】図１３ないし１５は、ＣＳＲシステムによ
り発生されたＰＰＴを示す。ＣＳＲシステムは、最良の
仮定（即ち、最も高い確率をもつ仮定）に対してユニグ
ラムＰＰＴを発生し、そして各々の仮定（バイグラムコ
ンテクストと称する）に対してバイグラムＰＰＴを発生
する。ユニグラムＰＰＴのノードは、最良の仮定の確率
に、そのノードに対するユニグラム確率を乗算したもの
を含む。例えば、図１３のノード〔５〕の確率は、図６
のノード〔５〕からのユニグラム確率０．１５に最良の
仮定の確率０．６を乗算した０．０９である。バイグラ
ムＰＰＴのノードは、対応する仮定の確率にそのノード
の確率を乗算したものを含む。例えば、図１４のノード
〔１０〕の確率は、図８のノード〔１０〕からのバイグ
ラム確率０．４に、対応する仮定の確率０．６を乗算し
た０．２４である。ＣＳＲシステムは、各音素が受け取
られるときに、ユニグラムＰＰＴ及びバイグラムＰＰＴ
を並列に構成する。バイグラムＰＰＴを発生するため
に、ＣＳＲシステムは、ＬＥＢＰＰＴ及びＴＮＤを使用
して、どんなノードを追加すべきか及びそれらノードに
対する確率を識別する。

【００２７】最後の音素が処理された後に、ＣＳＲシス
テムは、音素に最良にマッチする一連のワードとして最
良の仮定を選択する。最後の音素がまだ処理されない場
合には、ＣＳＲシステムは、最初から始めて、次の未処
理の仮定を次の仮定として選択する。

【００２８】図１２を参照すれば、ステップ１００１に
おいて、システムは、次の音素を検索する。ステップ１
００２において、全ての音素が既に処理された場合に
は、システムは、ステップ１０１０に続き、さもなく
ば、ステップ１００３に続く。ステップ１００３におい
て、システムは、検索された音素に対し新たな仮定を確
立する。ステップ１００４において、新たな仮定が確立
されない場合には、システムは、ステップ１００５に続
き、さもなくば、システムは、ステップ１００７にスキ
ップして、バイグラムＰＰＴを更新する。ステップ１０
０５−１００９において、システムは、最良の仮定に対
してユニグラムＰＰＴをそして各仮定に対してバイグラ
ムＰＰＴをインスタンス生成する。次いで、システム
は、仮定の確率とユニグラム及びバイグラムの確率とに
基づいて、ＰＰＴのノードの確率をセットし、システム
はループして、仮定の状態を反映するようにＰＰＴを更
新する。ステップ１００５において、システムは、初期
化ワード間バイグラムＰＰＴルーチンを呼び出し、これ
は１つのワードから次のワードへの移行に対してバイグ
ラムＰＰＴを初期化する。ステップ１００６において、
システムは、初期化ワード間ユニグラムＰＰＴルーチン
を呼び出し、これは１つのワードから次のワードへの移
行に対してユニグラムＰＰＴを初期化する。ステップ１
００７ないし１００９において、ルーチンはループし、
バイグラムＰＰＴのユニグラムを音素に基づいて更新す
る。ステップ１００７において、システムは、更新バイ
グラムＰＰＴを呼び出し、音素に基づいてバイグラムＰ
ＰＴを更新する。ステップ１００８において、システム
は、更新ユニグラムＰＰＴルーチンを呼び出す。ステッ
プ１００９において、新たに確立された各仮定のバイグ
ラムＰＰＴが完了した場合に、ルーチンはステップ１０
０１へループし、次の音素を選択するが、さもなくば、
ステップ１００７へループして、ＰＰＴの更新を完了す
る。ステップ１０１０において、システムは、検索され
た一連の音素に対する認識されたワードとして最良の仮
定を選択し、そして完了する。

【００２９】図１６は、初期化ワード間バイグラムＰＰ
Ｔルーチンを示すフローチャートである。このルーチン
は、新たに確立された各仮定の最後のワードに対しバイ
グラムコンテクスト（即ち、新たなバイグラムＰＰＴ）
を確立する。このルーチンは各バイグラムコンテクスト
に対しルートノードを初期化する。ステップ１４０１な
いし１４０９において、ルーチンはループして各仮定の
選択及び処理を行う。ステップ１４０１において、ルー
チンは、最初から始めて次の仮定を選択する。ステップ
１４０２において、全ての仮定が既に選択された場合に
は、ルーチンは復帰し、さもなくば、ルーチンはステッ
プ１４０３へ続く。ステップ１４０３において、ルーチ
ンは、バイグラムコンテクストを、選択された仮定の最
後のワードにセットする。ステップ１４０４ないし１４
０９において、ルーチンはループして、指定のバイグラ
ムコンテクストに対し各ＬＥＢＰＰＴを処理する。ステ
ップ１４０４において、ルーチンは、最初のＬＥＢＰＰ
Ｔエントリーでスタートして選択されたバイグラムコン
テクストに対し、ＬＥＢＰＰＴの次のエントリーを選択
する。ステップ１４０５において、バイグラムコンテク
ストの全てのＬＥＢＰＰＴエントリーが既に選択された
場合には、ルーチンはステップ１４０１へループして次
の仮定を選択するが、さもなくば、ルーチンは、ステッ
プ１４０６に続く。ステップ１４０６において、選択さ
れたエントリーの深さが０又は１である場合には、ルー
チンはステップ１４０７に続くが、さもなくば、ルーチ
ンは、ステップ１４０４へループして、次のＬＥＢＰＰ
Ｔエントリーを選択する。ステップ１４０７において、
ルーチンは、ＴＮＤから選択されたＬＥＢＰＰＴエント
リーのワードの第１の音素を識別する。ステップ１４０
８において、ステップ１４０８において、ルーチンは、
選択されたＬＥＢＰＰＴエントリーのワードの第１の音
素に対しこのバイグラムコンテクストのノードをインス
タンス生成する。ステップ１４０９において、ルーチン
は、ノードの確率を、ＬＥＢＰＰＴエントリーのファク
タに選択された仮定の確率を乗算したものにセットし、
そしてステップ１４０４へループして、次のＬＥＢＰＰ
Ｔエントリーを選択する。

【００３０】図１７は、初期化ワード間ユニグラムＰＰ
Ｔルーチンを示すフローチャートである。このルーチン
は、最も高い確率をもつ仮定に対しユニグラムＰＰＴを
インスタンス生成する。このルーチンは、ユニグラムＰ
ＰＴのルートノードの各子ノードに対しノードを初期化
する。ステップ１５０１において、ルーチンは、最も高
い確率をもつ仮定を選択する。ステップ１５０２ないし
１５０５において、ルーチンは、ユニグラムＰＰＴのル
ートノードの各子ノードに対しユニグラムコンテクスト
をインスタンス生成する。ステップ１５０２において、
ルーチンは、最初からスタートして、ユニグラムＰＰＴ
のルートノードの次の子ノードを選択する。ステップ１
５０３において、全ての子ノードが既に選択された場合
には、ルーチンは復帰し、さもなくば、ルーチンは、ス
テップ１５０４に続く。ステップ１５０４において、ル
ーチンは、選択された子ノードに対し選択された仮定の
ためのノードをインスタンス生成する。ステップ１５０
５において、ルーチンは、インスタンス生成されたノー
ドの確率を、子ノードのファクタに選択された仮定の確
率を乗算したものにセットし、そしてステップ１５０２
へループし、ルートノードの次の子ノードを選択する。

【００３１】図１８は、更新バイグラムＰＰＴルーチン
のフローチャートである。ステップ１６０１において、
ルーチンは、最初からスタートして、次のバイグラムコ
ンテクストを選択する。ステップ１６０２において、全
てのバイグラムコンテクストが既に選択された場合に
は、ルーチンは復帰し、さもなくば、ルーチンはステッ
プ１６０３へ続く。ステップ１６０３ないし１６０８で
は、ルーチンがループして、選択されたバイグラムコン
テクストに対しバイグラムＰＰＴの各リーフノードに子
ノードを追加する。ステップ１６０３において、ルーチ
ンは、最初からスタートしてバイグラムＰＰＴに対し次
のリーフノードを選択する。ステップ１６０４におい
て、全てのリーフノードが既に選択された場合には、ル
ーチンはステップ１６０１へループし、次のバイグラム
コンテクストを選択するが、さもなくば、ルーチンはス
テップ１６０５へ続く。ステップ１６０５において、ル
ーチンは、ＴＮＤにおける選択されたノードのワードの
次の音素を識別する。ステップ１６０６において、ルー
チンは、次の音素に対し、選択されたバイグラムコンテ
クストのバイグラムＰＰＴのためのノードをインスタン
ス生成する。ステップ１６０７において、ルーチンは、
インスタンス生成されたノードの確率を選択されたリー
フノードの確率にセットする。ステップ１６０８におい
て、ルーチンは、インスタンス生成されたノードの兄弟
に対するノードを追加するルーチンを呼び出し、そして
ステップ１６０３へループして、次のリーフノードを選
択する。

【００３２】図１９は、インスタンス生成されたノード
の兄弟のノードを追加するルーチンのフローチャートで
ある。ステップ１７０１において、ルーチンは、インス
タンス生成されたノードのエントリーで始めて、ＬＥＢ
ＰＰＴの次のエントリーを選択する。ステップ１７０２
において、ＬＥＢＰＰＴの全てのエントリーが既に選択
された場合には、ルーチンは復帰し、さもなくば、ルー
チンはステップ１７０３へ続く。ステップ１７０３にお
いて、選択されたＬＥＢＰＰＴエントリーの深さが、イ
ンスタンス生成されたノードの深さに１を加えたものよ
り大きい場合には、ルーチンはステップ１７０１へルー
プして、次のＬＥＢＰＰＴエントリーを選択するが、さ
もなくば、ルーチンはステップ１７０４に続く。ステッ
プ１７０４において、選択されたエントリーの深さが、
インスタンス生成されたノードの深さ以下である場合に
は、ルーチンは復帰し、さもなくば、ルーチンはステッ
プ１７０５へ進む。ステップ１７０５において、ルーチ
ンは、ＴＮＤから選択されたＬＥＢＰＰＴエントリーの
ワードの次の音素を識別する。ステップ１７０６におい
て、ルーチンは、次の音素に対し、選択されたバイグラ
ムコンテクストのバイグラムＰＰＴのノードをインスタ
ンス生成する。ステップ１７０７において、ルーチン
は、ノードの確率を、親ノードの確率に選択されたＬＥ
ＢＰＰＴエントリーのファクタを乗算したものにセット
し、そしてステップ１７０１へループして、次のＬＥＢ
ＰＰＴエントリーを選択する。

【００３３】図２０は、更新ユニグラムＰＰＴルーチン
のフローチャートである。ステップ１８０１において、
ルーチンは、最良の仮定の次のリーフノードを選択す
る。ステップ１８０２において、最良の仮定の全てのリ
ーフノードが既に選択された場合には、ルーチンは復帰
し、さもなくば、ルーチンはステップ１８０３に続く。
ステップ１８０３において、ルーチンは、選択されたリ
ーフノードの各子ノードに対してノードをインスタンス
生成する。ステップ１８０３において、ルーチンは、拡
張ユニグラムＰＰＴから選択されたリーフノードの次の
子ノードを選択する。ステップ１８０４において、全て
の子ノードが既に選択された場合には、ルーチンはステ
ップ１８０１へループして、次のリーフノードを選択す
るか、さもなくば、ルーチンはステップ１８０５に続
く。ステップ１８０５において、ルーチンは、選択され
た子ノードに対してノードをインスタンス生成する。ス
テップ１８０６において、ルーチンは、インスタンス生
成されたノードの確率を、親ノードの確率に拡張ユニグ
ラムＰＰＴからのファクタを乗算したものにセットし、
そしてステップ１８０３へループして、次の子ノードを
選択する。

【００３４】好ましい実施形態について本発明を以上に
説明したが、本発明は、この実施形態に限定されるもの
ではない。当業者にとっては、本発明の精神から逸脱せ
ず、種々の変更がなされ得ることが明らかであろう。本
発明の範囲は、特許請求の範囲に規定する。特に、本発
明の直線的なエンコード技術は、スピーチ認識に関連し
ない種々の用途に対してツリーデータ構造をエンコード
するのにも使用することができる。一般に、エンコード
技術は、ツリーデータ構造をコンパクトに表すための一
般的な機構として使用することができる。

【図面の簡単な説明】

【図１】励磁的な５ワード語彙に対する音声辞書を示す
図である。

【図２】長さ２の例示的な語彙のシーケンスに対する前
後関係に従属する確率を示す図である。

【図３】例示的な音声辞書に対するユニグラムＰＰＴを
示す図である。

【図４】ワード「ｗｅｒｅ」に続く辞書のワードのバイ
グラムＰＰＴを示す図である。

【図５】本発明の要素を示すコンピュータシステムのブ
ロック図である。

【図６】例示的な辞書の拡張ユニグラムＰＰＴを示す図
である。

【図７】図６のユニグラムＰＰＴに対するツリーノード
辞書を示す図である。

【図８】ワード「ｗｅｒｅ」に対する拡張バイグラムＰ
ＰＴを示す図である。

【図９】ワード「ｗｅａｒ」に対するバイグラムＰＰＴ
を示す図である。

【図１０】エンコードバイグラムＰＰＴルーチンのフロ
ーチャートである。

【図１１】デコードＬＥＢＰＰＴルーチンのフローチャ
ートである。

【図１２】ＬＥＢＰＰＴを使用するＣＳＲシステムのフ
ローチャートである。

【図１３】ＣＳＲシステムにより発生されたＰＰＴを示
す図である。

【図１４】ＣＳＲシステムにより発生されたＰＰＴを示
す図である。

【図１５】ＣＳＲシステムにより発生されたＰＰＴを示
す図である。

【図１６】初期化ワード間バイグラムＰＰＴルーチンの
フローチャートである。

【図１７】初期化ワード間ユニグラムＰＰＴルーチンの
フローチャートである。

【図１８】更新バイグラムＰＰＴルーチンのフローチャ
ートである。

【図１９】インスタンス生成されたノードの兄弟のノー
ドを追加するためのルーチンのフローチャートである。

【図２０】更新ユニグラムＰＰＴルーチンのフローチャ
ートである。

【符号の説明】

２００ルートノード３０１バイグラムＰＰＴ３０２直線的ＰＰＴエンコーダ３０３直線的にエンコードされたバイグラムＰＰＴ３０４音素認識装置３０５コンピュータスピーチ認識装置３０６拡張ユニグラムＰＰＴ

Claims

【特許請求の範囲】

【請求項１】コンピュータシステムにおいて発音プレ
フィックスツリーを直線的にエンコードする方法であっ
て、発音プレフィックスツリーは複数のノードを有し、
各非ルート及び非リーフノードは音素を表し、各リーフ
ノードはルートノードからリーフノードへの経路におい
て非リーフノードにより表された音素で形成されたワー
ドを表し、各リーフノードは確率を有し、上記方法は、各非リーフノードの確率を、その子ノードの確率に基づ
く確率にセットし、各ノードのファクタを、そのノードの確率をそのノード
の親ノードの確率で除算したものにセットし、そして発
音プレフィックスツリーの各リーフノードに対しエンコ
ードされた発音エントリーを発生し、このエンコードさ
れた発音エントリーは、リーフノードにより表されたワ
ードを指示すると共に、所定のファクタ以外のファクタ
をもつ最も近い祖先ノードのファクタを含み、上記発音プレフィックスツリーは、上記エンコードされ
た発音エントリー及び各ワードを構成する音素のリスト
から発生できることを特徴とする方法。
【請求項２】ノードの子ノードは、最も高い確率をも
つ子孫リーフノードを有する子ノードが他の子ノードの
左側となるように順序付けされ、そして発音プレフィッ
クスツリーの各リーフノードに対してエンコードされた
発音エントリーを発生する上記段階は、発音プレフィッ
クスツリーの深さ優先の左−右の横断を実行することを
含む請求項１に記載の方法。
【請求項３】ユニグラム発音プレフィックスツリーを
発生し、発生されたユニグラム発音プレフィックスツリーの各ノ
ードに独特な識別子を指定し、そして各ワードごとに、
ユニグラム発音プレフィックスツリーのルートノードか
ら、そのワードを表すリーフノードへの経路において各
ノードに対する独特の識別子を記憶する、ことによりツ
リーノード辞書を形成することを含む請求項１に記載の
方法。
【請求項４】独特の識別子の指定は、ユニグラム発音
プレフィックスツリーの巾優先の左−右横断において訪
問するノードに順次の識別子を指定する請求項３に記載
の方法。
【請求項５】各ノードは、発音プレフィックスツリー
内に深さを有し、そしてエンコードされた発音エントリ
ーは、１．０以外のファクタをもつ最も近い祖先ノード
の深さを含む請求項１に記載の方法。
【請求項６】各ワードを構成する音素の指示を含むツ
リーノード辞書を形成し、子ノードの子孫リーフノードの最も高い確率に基づいて
発音プレフィックスツリーの各非リーフノードの子ノー
ドを順序付けし、発音プレフィックスツリーの各非リーフノードに対し、
非リーフノードの確率をその子ノードの確率に基づく確
率にセットし、発音プレフィックスツリーの各ノードに対し、ノードの
ファクタを、そのノードの確率をそのノードの親ノード
の確率で除算したものにセットし、そして発音プレフィ
ックスツリーの各リーフノードに対し、エンコードされ
た発音エントリーを発生し、このエンコードされた発音
エントリーは、リーフノードにより表されたワードを指
示すると共に、１．０以外のファクタをもつ最も近い祖
先ノードのファクタを含む請求項１に記載の方法。
【請求項７】ノードの子ノードは、最も高い確率をも
つ子孫リーフノードを有する子ノードが最も左側となる
ように確率により順序付けされ、そして発音プレフィッ
クスツリーの各リーフノードに対してエンコードされた
発音エントリーを発生する上記段階は、発音プレフィッ
クスツリーの深さ優先の左−右の横断を実行することを
含む請求項６に記載の方法。
【請求項８】ツリーノード辞書の形成は、ユニグラム発音プレフィックスツリーを発生し、発生されたユニグラム発音プレフィックスツリーの各ノ
ードに独特な識別子を指定し、そして各ワードごとに、
ルートノードから、そのワードを表すリーフノードへの
経路において各ノードに対する独特の識別子を記憶す
る、ことを含む請求項６に記載の方法。
【請求項９】独特の識別子の指定は、ユニグラム発音
プレフィックスツリーの巾優先の左−右横断において訪
問するノードに順次の識別子を指定する請求項８に記載
の方法。
【請求項１０】スピーチを認識するコンピュータシス
テムにおいて、発音プレフィックスツリーを直線的にエンコードするた
めの直線的エンコーダと、認識されるべきスピーチを受け取りそしてその受け取っ
たスピーチを構成する音素を識別するための音素認識装
置と、識別された音素に対応するワードを、直線的にエンコー
ドされた発音プレフィックスツリーでエンコードされた
確率を用いて識別するための認識装置と、を備えたこと
を特徴とするコンピュータシステム。
【請求項１１】発音プレフィックスツリーは複数のノ
ードを有し、各非ルート及び非リーフノードは音素を表
し、各リーフノードはルートノードからリーフノードへ
の経路において非リーフノードにより表された音素で形
成されたワードを表し、各リーフノードは確率を有し、各非リーフノードの確率を、その子ノードの確率に基づ
く確率にセットし、各ノードのファクタを、そのノードの確率をそのノード
の親ノードの確率で除算したものにセットし、そして発
音プレフィックスツリーの各リーフノードに対しエンコ
ードされた発音エントリーを発生し、このエンコードさ
れた発音エントリーは、リーフノードにより表されたワ
ードを指示すると共に、所定のファクタ以外のファクタ
をもつ最も近い祖先ノードのファクタを含む請求項１０
に記載のコンピュータシステム。
【請求項１２】ノードの子ノードは、最も高い確率を
もつ子孫リーフノードを有する子ノードが他の子ノード
の左側となるように順序付けされ、そして発音プレフィ
ックスツリーの各リーフノードに対してエンコードされ
た発音エントリーを発生する上記段階は、発音プレフィ
ックスツリーの深さ優先の左−右の横断を実行すること
を含む請求項１１に記載のコンピュータシステム。
【請求項１３】上記直線的エンコーダは、ユニグラム発音プレフィックスツリーを発生し、発生されたユニグラム発音プレフィックスツリーの各ノ
ードに独特な識別子を指定し、そして各ワードごとに、
ユニグラム発音プレフィックスツリーのルートノードか
ら、そのワードを表すリーフノードへの経路において各
ノードに対する独特の識別子を記憶する、ことによりツ
リーノード辞書を形成する請求項１１に記載のコンピュ
ータシステム。
【請求項１４】独特の識別子の指定は、ユニグラム発
音プレフィックスツリーの巾優先の左−右横断において
訪問するノードに順次の識別子を指定する請求項１３に
記載のコンピュータシステム。
【請求項１５】発音プレフィックスツリーは、バイグ
ラム発音プレフィックスツリーである請求項１１に記載
のコンピュータシステム。
【請求項１６】発音プレフィックスツリーは、トリグ
ラム発音プレフィックスツリーである請求項１１に記載
のコンピュータシステム。
【請求項１７】上記ツリーは複数のノードを有し、上
記ツリーは、ルートノード及びリーフノードを有し、各
リーフノードは、ある値を有し、リニアエンコーダは、ルートノードからリーフノードへ至る各経路のノードの
識別を伴う経路リストと、各ノードのファクタを、ノードの値をそのノードの親ノ
ードの値で除算したものにセットする手段と、ツリーの各リーフノードに対しエンコードされたエント
リーを発生する手段とを備え、上記エンコードされたエ
ントリーは、リーフノードを識別すると共に、所定のフ
ァクタ以外のファクタをもつ最も近い祖先ノードのファ
クタを含む請求項１０に記載のコンピュータシステム。
【請求項１８】上記ツリーは、上記エンコードされた
エントリー及び経路リストから発生することができる請
求項１７に記載のコンピュータシステム。
【請求項１９】各ノードは、ツリー内の深さを有し、
上記エンコードされたエントリーは、１．０以外のファ
クタをもつ最も近い祖先ノードの深さを含む請求項１７
に記載のコンピュータシステム。
【請求項２０】エンコードされたエントリーを発生し
た後に、各エンコードされたエントリーごとに、そのエ
ンコードされたエントリーにより識別されたリーフノー
ドのリストにおいてある深さのノードの識別を選択する
ことにより、ツリー内のある深さのノードを識別する手
段を備えた請求項１９に記載のコンピュータシステム。
【請求項２１】上記ある深さは、リストのインデック
スとして使用される請求項２０に記載のコンピュータシ
ステム。
【請求項２２】上記ツリーは、バイグラム発音プレフ
ィックスツリーであり、そしてある深さのノードの識別
は、一連の音素の認識中に実行される請求項２０に記載
のコンピュータシステム。