JPH1063291A

JPH1063291A - 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置

Info

Publication number: JPH1063291A
Application number: JP9148385A
Authority: JP
Inventors: Xuedong D Huang; ディーヒューアンシェードン; Milind V Mahajan; ヴィーマハジャンミリンド
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-05-01
Filing date: 1997-05-01
Publication date: 1998-03-06
Anticipated expiration: 2017-05-01
Also published as: DE69719236T2; EP0805434A2; EP0805434A3; CN1112669C; CN1171592A; JP3933750B2; US5937384A; EP0805434B1; DE69719236D1

Abstract

(57)【要約】【課題】連続密度ヒドンマルコフモデルを使用して、
話されたスピーチ発声に存在するスピーチの発音ユニッ
トを表すスピーチ認識システムにおいて認識精度を改善
する方法及び装置がを提供する。【解決手段】スピーチ発声が、モデリングされた言語
表現に一致する見込みを表すアコースティックスコア
は、ヒドンマルコフモデルの状態に関連した出力確率に
依存する。コンテクストとは独立した及びコンテクスト
に従属する連続密度ヒドンマルコフモデルが各発音ユニ
ットに対し形成される。状態に関連した出力確率は、コ
ンテクストとは独立した及びコンテクストに従属する状
態の出力確率を重み付けファクタに基づいて重み付けす
ることにより決定される。重み付けファクタは、特に未
知のスピーチ発声を予想する際に各モデルの各状態に関
連した出力確率の健全さを指示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ音声
認識に係り、より詳細には、連続ヒドンマルコフモデル
を用いたコンピュータ音声認識システムに係る。

【０００２】

【従来の技術】音声認識の分野への挑戦は、最小のエラ
ー率を有する話し手とは独立した連続スピーチ認識シス
テムを形成する必要性により生じている。この目標を実
現する際の焦点は、スピーチ認識システムにより使用さ
れる認識アルゴリズムにある。認識アルゴリズムは、本
質的に、スピーチ信号即ち連続時間信号を、トレーニン
グデータから予め得られたスピーチの発音的及び音韻的
記述を表す１組の基準パターンへとマッピングすること
である。このマッピングを実行するために、高速フーリ
エ変換（ＦＦＴ）、直線的予想コード化（ＬＰＣ）又は
フィルタバンクのような信号処理技術がデジタル形態の
スピーチ信号に適用されて、スピーチ信号の適切なパラ
メータ表示が抽出される。一般に使用される表示は、ス
ピーチ信号に含まれた周波数及び／又はエネルギーバン
ドを表すＦＦＴ又はＬＰＣ係数を各時間インターバルご
とに含む特徴ベクトルである。これら特徴ベクトルのシ
ーケンスが、スピーチ信号に含まれた言語ユニット、ワ
ード及び／又はセンテンスを識別する１組の基準パター
ンへとマッピングされる。

【０００３】スピーチ信号は、記憶された基準パターン
に厳密に一致しないことがしばしばある。スピーチ信号
特性は著しく変化し、記憶された基準パターンでは完全
且つ正確に捕らえられないために、厳密な一致を見つけ
ることが困難になる。意図されたメッセージを予想する
場合には、厳密な一致を追求する技術よりも、確率モデ
ル及び統計学的技術の方が成功裡に使用されている。１
つのこのような技術がヒドンマルコフモデル(Hidden Ma
rkov Model) （ＨＭＭ）である。これらの技術は、厳密
な一致を見つけるのではなく、スピーチ信号に一致しそ
うな基準パターンを決定するので、スピーチ認識にいっ
そう適している。

【０００４】ＨＭＭは、遷移により接続された状態のシ
ーケンスより成る。ＨＭＭは、音素又はワードのような
スピーチの特定の発音ユニットを表すことができる。各
状態には、その状態が特徴ベクトルに一致する見込みを
指示する出力確率が関連される。各遷移ごとに、その遷
移に続く見込みを指示する関連遷移確率がある。遷移及
び出力確率は、「トレーニングデータ」と称する既に話
されたスピーチパターンから統計学的に推定される。認
識の問題は、入力スピーチ信号を表す特徴ベクトルに一
致する確率が最も高い状態シーケンスを見出すことであ
る。主として、このサーチプロセスは、モデリングされ
た各々の考えられる状態シーケンスを列挙し、そしてそ
の状態シーケンスが入力スピーチ信号に一致する確率を
決定することを含む。最も高い確率をもつ状態シーケン
スに対応する発声が、認識されたスピーチ発声として選
択される。

【０００５】ＨＭＭをベースとするほとんどのスピーチ
認識システムは、ベクトル量子化を使用する離散的ＨＭ
Ｍをベースとしている。離散的ＨＭＭは、限定された１
組の出力記号を有し、遷移及び出力確率は、離散的確率
分布関数（ｐｄｆｓ）をベースとするものである。ベク
トル量子化は、コードワードと称する個別表示により連
続スピーチ信号を特徴付けるのに使用される。特徴ベク
トルは、歪の尺度を用いてコードワードに一致される。
特徴ベクトルは、最小の歪尺度を有するコードワードの
インデックスと置き換えられる。認識の問題は、観察さ
れるスピーチ信号の個別の出力確率をテーブルルックア
ップ動作として計算することに簡素化され、これは、最
小限の計算しか必要としない。

【０００６】

【発明が解決しようとする課題】しかしながら、スピー
チ信号は、連続的な信号である。コードワードによって
連続的な信号を量子化することはできるが、このような
量子化に関連して著しい質低下があり、認識精度を悪化
させる。連続密度ＨＭＭを使用する認識システムは、量
子化歪に関連した不正確さの問題がない。連続密度ＨＭ
Ｍは、推定される連続密度確率分布関数を用いて連続的
なスピーチ信号を直接モデリングすることができ、従っ
て、高い認識精度を得ることができる。しかしながら、
連続密度のＨＭＭは、著しい量のトレーニングデータを
必要とすると共に、長い認識計算を必要とし、これがほ
とんどの商業的スピーチ認識システムへの使用の妨げと
なっている。従って、連続スピーチ認識システムの重大
な問題は、高い認識精度を得るために連続密度ＨＭＭを
使用することである。

【０００７】

【課題を解決するための手段】本発明は、言語表現に対
応する連続密度ＨＭＭへのスピーチ信号のモデリングを
改善するスピーチ認識システムに関する。好ましい実施
形態においては、認識システムは、コンテクストとは独
立したＨＭＭ及び多数のコンテクスト従属のＨＭＭを用
いて、音素のスピーチユニットを異なるコンテクストパ
ターンで表す。これらＨＭＭの各々に対する出力及び遷
移確率は、トレーニングデータから推定される。同じモ
デリングされた音素に対応する同様の状態に関連した出
力確率がクラスター化されてセノン(senone)を形成す
る。未知のデータを予想する際の出力確率の健全さを指
示する各コンテクスト従属のセノンのための重み付けフ
ァクタも発生される。好ましい実施形態においては、重
み付けファクタは、トレーニングデータの全てのデータ
点の削除補間により推定される。或いは又、重み付けフ
ァクタは、データ点のパラメータ表示から推定すること
もできるし、又はデータ点のパラメータ表示により形成
されたランダムに発生されたデータ点から推定すること
もできる。

【０００８】認識エンジンは、入力スピーチ発声を受け
取り、そしてその入力スピーチ発声の特徴ベクトルに最
も一致しそうなワードシーケンス候補を発生する。ワー
ドシーケンスは、ＨＭＭの状態シーケンスに対応する種
々のセノン整列体で構成することができる。認識エンジ
ンは、アコースティック及び言語確率スコアを使用する
ことにより、どのセノン／状態整列体が特徴ベクトルに
最も良く一致するかを決定する。アコースティック確率
スコアは、セノン整列体が特徴ベクトルに対応する見込
みを表し、そして言語確率スコアは、セノン整列体に対
応する発声が言語に生じる見込みを指示する。アコース
ティック確率スコアは、出力及び遷移確率の分析に基づ
く。出力確率分析は、各出力確率を重み付けファクタの
関数として重み付けすることによりコンテクスト従属の
セノン及びコンテクストとは独立したセノンの両方の出
力確率を使用する。より健全な推定値を有する出力確率
が分析を左右し、これにより、出力確率分析を改善す
る。出力確率分析の改善は、アコースティックスコアを
改善し、ひいては、全認識精度を改善する。

【０００９】

【発明の実施の形態】本発明の上記及び他の特徴並びに
効果は、同じ要素が同じ参照番号で示された添付図面を
参照した好ましい実施形態の以下の詳細な説明から明ら
かとなろう。添付図面は、必ずしも正しいスケールでは
なく、本発明の原理を示す際に強調がなされている。

【００１０】本発明の好ましい実施形態は、同じ発音ユ
ニットを表す異なる出力確率を、各出力確率が未知のデ
ータを予想できる程度に対して重み付けすることによ
り、連続密度ヒドンマルコフモデルを用いるスピーチ認
識システムにおいて改良された認識精度が得られること
を確認するものである。本発明のスピーチ認識システム
は、連続信号の形態の入力スピーチ発声を受け取り、そ
してその発声に対応する最もあり得る言語表現を発生す
る。好ましい実施形態は、スピーチ信号のパラメータ表
示を形成する特徴ベクトルのセットを、考えられる言語
表現を識別するヒドンマルコフモデル（ＨＭＭ）のシー
ケンスに一致させることにより、言語表現を認識する。
ＨＭＭは、音素を表し、そしてＨＭＭのシーケンスは、
音素より成るワード又はセンテンスを表す。

【００１１】ガウスの確率分布関数の混合であるような
連続密度確率分布関数は、スピーチ信号をモデリングす
るのに非常に正確であるから、状態の出力確率を表すの
に使用できる。出力確率関数は、トレーニングデータか
ら統計学的に推定される。出力確率関数を正確に推定す
るのに充分な量のトレーニングデータがないことがしば
しばある。この問題を考慮するために、コンテクストと
は独立したモデル及びコンテクストに従属するモデルが
音素の所定のセットに対して構成される。コンテクスト
とは独立したモデルの出力確率は、次いで、コンテクス
トに従属するモデルの出力確率で補間される。これは、
コンテクストに従属するＨＭＭの出力確率関数が、トレ
ーニングデータにおいてそれまで遭遇していないデータ
を予想できる程度を推定する重み付けファクタ又は補間
ファクタによって行われる。従って、コンテクストに従
属する状態の新たな変更された出力確率関数は、推定値
の健全さに基づき重み付けされた両モデルの出力確率関
数の組み合わせとなる。そこで、好ましい実施形態で
は、削除補間を用いて、パラメータスペースではなく確
率スペースを平滑化する。

【００１２】図１は、本発明の好ましい実施形態により
認識及びトレーニングプロセスを実施するのに使用でき
るスピーチ認識システム１０を示している。このスピー
チ認識システム１０は、マイクロホンのような（これに
限定されない）入力装置１２を含み、これは、入力スピ
ーチ発声を受け取り、そしてそれに対応するアナログ電
気信号を発生する。或いは又、記憶装置に記憶されたス
ピーチ発声を、入力スピーチ発声として使用することも
できる。スピーチ発声に対応するアナログ電気信号は、
アナログ／デジタル（Ａ／Ｄ）コンバータ１４へ送ら
れ、これは、アナログ信号を一連のデジタルサンプルに
変換する。デジタルサンプルは、次いで、特徴抽出器１
６に送られ、これは、デジタル化された入力スピーチ信
号からパラメータ表示を抽出する。このパラメータ表示
は、入力スピーチ発声のアコースティック特性を捕らえ
る。好ましくは、特徴抽出器１６は、スペクトル分析を
行って、入力スピーチ信号のスペクトルを表す係数を各
々含む一連の特徴ベクトルを発生する。スペクトル分析
を行う方法は、信号処理の分野で良く知られており、そ
して高速フーリエ変換（ＦＦＴ）、直線的予想コード化
（ＬＰＣ）及びセプストラル(cepstral)係数を含み、こ
れらは全て特徴抽出器１６に使用することができる。特
徴抽出器１６は、スペクトル分析を行う何らかの従来型
のプロセッサでよい。スペクトル分析は、１０ミリ秒ご
とに行われ、入力スピーチ信号を、２５ミリ秒の発声を
表す特徴ベクトルへと分割する。しかしながら、本発明
は、２５ミリ秒の発声を表す特徴ベクトルの使用に限定
されるものではない。異なる時間長さのスピーチ発声を
表す特徴ベクトルも使用できる。このプロセスは、全入
力スピーチ信号に対して繰り返されて、一連の特徴ベク
トルを発生し、これらは、データプロセッサ３８へ送ら
れる。データプロセッサ３８は、デスクトップパーソナ
ルコンピュータのような何らかの従来型コンピュータで
よい。データプロセッサは、特徴ベクトルのシーケンス
をルート指定するスイッチングブロック１８を備えてい
る。このスイッチングブロック１８は、ハードウェアで
実施されてもよいし、ソフトウェアで実施されてもよ
い。しかしながら、スピーチ認識システムは、データプ
ロセッサでの実行に限定されるものではない。メモリ装
置、コンパクトディスク又はフロッピーディスクである
コンピュータ読み取り可能な記憶媒体のような（これら
に限定されない）他の形式の実行可能な媒体を使用する
こともできる。

【００１３】初期のトレーニング段階中に、スイッチン
グブロック１８は、特徴ベクトルをトレーニングエンジ
ン２０に向けるように投入される。トレーニングエンジ
ン２０は、特徴ベクトルを使用して、トレーニングデー
タに存在する音素を表すＨＭＭのパラメータを推定する
と共に、認識エンジン３４により使用するための１組の
重み付けファクタを計算する。トレーニングエンジン２
０に使用される方法については、図２ないし６を参照し
て以下に説明する。簡単に述べると、トレーニングエン
ジン２０は、コンテクストとは独立した及びコンテクス
トに従属する音素に基づくヒドンマルコフモデルを、ト
レーニングデータからこれらモデルのパラメータを推定
することにより、発生する。コンテクストに従属する各
状態に対する出力分布がクラスター化されて、セノンを
形成し、これらセノンは、セノンテーブル記憶装置３０
に記憶される。セノンテーブル記憶装置３０は、一般
に、コンテクストに従属するＨＭＭ及びコンテクストと
は独立したＨＭＭの両方に対するセノンを保持する。各
ＨＭＭのセノン識別子がＨＭＭ記憶装置２８に記憶され
る。更に、認識エンジン３４により使用するために、コ
ンテクストに従属する各セノンの重み付けファクタが計
算されてラムダテーブル記憶装置２６に記憶される。ラ
ムダテーブル記憶装置２６は、コンテクストに従属する
ＨＭＭによりインデックスされるラムダ値を保持する。
又、トレーニングエンジン２０は、トレーニングデータ
の翻訳を保持するテキスト転記２２と、各ワードが正し
くモデリングされるよう確保するために各ワードの音素
記述を含む辞書２４を使用する。トレーニングエンジン
２０の動作については、以下に詳細に述べる。辞書２４
は音素に関して各ワードの発音を含む。例えば、「ａｄ
ｄ」の辞書入力は、「／ＡＥＤＤ／」となる。

【００１４】初期のトレーニング段階の後に、スイッチ
ングブロック１８は、特徴ベクトルを認識エンジン３４
に送信するように切り換えられる。認識エンジン３４
は、ワード、ひいては、センテンスを形成する音素より
成る言語表現として特徴ベクトルのシーケンスを認識す
る。認識エンジン３４に使用される方法については、図
９を参照して以下に詳細に述べる。認識エンジン３４
は、ＨＭＭ記憶装置２８に記憶されたコンテクストとは
独立した及びコンテクストに従属するヒドンマルコフモ
デルと、セノンテーブル記憶装置３０に記憶されたコン
テクストに従属する及びコンテクストとは独立したセノ
ンと、ラムダテーブル２６に記憶された重み付けファク
タと、言語モデル記憶装置３２及び辞書２４に記憶され
た言語モデルとを使用する。言語モデル記憶装置３２
は、文法を指定する。好ましい実施形態においては、認
識エンジン３４から発生される言語表現は、従来のプリ
ン多、コンピュータモニタ等の出力装置３６に表示され
る。しかしながら、本発明は、言語表現を出力装置に表
示することに限定されるものではない。例えば、言語表
現は、更に処理するために別のプログラム又はプロセッ
サへの入力として使用することもできるし、或いは記憶
されてもよい。

【００１５】図２ないし６は、ＨＭＭのパラメータ及び
セノンを推定しそして重み付けファクタを計算するシス
テムのトレーニング段階で実行されるステップを示すフ
ローチャートである。簡単に述べると、トレーニング方
法は、ワード、センテンス、パラグラフ等の形態の入力
スピーチ発声を受け取ることによってスタートし、そし
てそれらを特徴ベクトルとして知られたパラメータ表示
に変換する。ヒドンマルコフモデル及びセノンの構造体
が形成され、そしてこれらデータ構造体のパラメータの
推定値がトレーニングデータから計算される。次いで、
削除補間の技術により重み付けファクタが決定される。

【００１６】図２を参照すれば、トレーニング方法は、
一連のスピーチ発声を受け取ることにより開始され（ス
テップ４２）、これは、図１を参照して上記したように
一連の特徴ベクトルへと変換される（ステップ４４）。
完全な１組の特徴ベクトルを「トレーニングベクトル」
と称する。好ましい実施形態では、ＬＰＣセプストラル
分析を使用して、スピーチ信号がモデリングされ、信号
に含まれた周波数及びエネルギースペクトルを表す次の
３９のセプストラル及びエネルギー係数を含む特徴ベク
トルが形成される。即ち、（１）１２のＬＰＣメル周波
数セプストラル係数ｘ_k（ｔ）、但し、１≦Ｋ≦１２；
（２）１２のＬＰＣデルタメル周波数セプストラル係数
Δｘ_k（ｔ）、但し、１≦Ｋ≦１２；（３）１２のＬＰ
Ｃデルタ−デルタメル周波数セプストラル係数ΔΔｘ_k
（ｔ）、但し、１≦Ｋ≦１２；そして（４）エネルギ
ー、デルタエネルギー及びデルタ−デルタエネルギー係
数。ＬＰＣセプストラル分析を用いてスピーチ信号をモ
デリングすることは、スピーチ認識システムの分野で良
く知られている。

【００１７】ステップ４６において、セノン及びＨＭＭ
データ構造体が形成される。セノンは、スピーチ認識シ
ステムにおいて良く知られたデータ構造体であり、そし
てセノン及びそれらを構成するのに使用する方法は、
Ｍ．ヒューン氏等の「セノンをもつ未知のトリホーンの
予想(Predicting Unseen Triphones with Senones)」、
Ｐｒｏｃ．ＩＣＡＳＳＰ '９３、第ＩＩ巻、第３１１−
３１４ページ、１９９３年に詳細に説明されている。好
ましい実施形態では、ＨＭＭは、音素のスピーチユニッ
トをモデリングするのに使用できる。又、ＨＭＭは、ア
コースティックモデルも称される。このスピーチユニッ
トは、多数の語彙の認識を受け入れるように選択され
る。個々のワードをモデリングするには、長いトレーニ
ング周期と、関連パラメータを記憶するための付加的な
記憶装置とが必要になる。これは、少数の語彙のシステ
ムについては実現できるが、多数の語彙を用いる場合に
は不可能である。しかしながら、本発明は、音素をベー
スとするＨＭＭに限定されるものではない。ワード、ジ
ホーン(diphone) 及びシラブルのような他のスピーチユ
ニットをＨＭＭの基礎として使用することができる。

【００１８】２つの形式のＨＭＭを使用することができ
る。コンテクストに従属するＨＭＭは、左右の音素コン
テクストを伴う音素をモデリングするのに使用すること
ができる。この形式のモデルは、ワードモデリングに通
常存在するコンテクスト依存性を捕らえる。コンテクス
トとは独立したＨＭＭは、トレーニングデータに現れる
いかなるコンテクストの音素をモデリングするのにも使
用でき、従って、特定のコンテクストとは独立したもの
にする。１組の音素及びそれに関連した左右の音素コン
テクストより成る所定のパターンが、コンテクストに従
属するＨＭＭによりモデリングされるべく選択される。
これらの選択されたパターンは、最も頻繁に発生する音
素と、これら音素の最も頻繁に発生するコンテクストを
与える。トレーニングデータは、これらモデルのパラメ
ータの推定値を与える。コンテクストとは独立したモデ
ルは、選択された音素をベースとし、トレーニングデー
タに現れる音素コンテクスト内でモデリングされる。同
様に、トレーニングデータは、コンテクストとは独立し
たモデルのパラメータに対する推定値を与える。

【００１９】コンテクストとは独立したモデル及びコン
テクストに従属するモデルの両方を使用することは、改
良された認識精度を達成する上で有効である。各モデル
の健全さは、そのパラメータを推定するのに使用される
トレーニングデータの量、ひいては、トレーニングデー
タに存在しないデータを予想できるようにすることに関
連している。例えば、コンテクストに従属するモデル
は、同時調音効果をモデリングするのに有効であるが、
トレーニングデータが制限されるためにトレーニングが
不充分となる。（話し手は、音の連結シーケンスとして
ワードを発音しようと試みるが、話し手の調音器官は、
影響のない音を発生するように同時に動くことができな
い。その結果、ある音は、ワード内でそれに先行する音
及びそれに続く音によって強く反転される。その効果が
「同時調音効果」である。）これに対して、コンテクス
トとは独立したモデルは、トレーニング性が高く、従っ
て、あまり詳細でない粗野な推定を与える。これらの２
つのモデルを適当に重み付けして組み合わせたものを認
識エンジンに使用して、更に正確なアコースティック確
率スコアを発生することができる。

【００２０】更に、話し手ごとの相違、例えば、男と女
の声道に存在するフォルマント周波数（即ち、声道の共
振周波数）を考慮するために、ＨＭＭは、出力確率分布
関数（ここでは「出力ｐｄｆ」と称する）に対する単一
モード分布の混合を使用することができる。ガウスの確
率密度関数の混合体を使用できるのが好ましい。しかし
ながら、本発明は、この特定の限定に制約されない。ラ
プラス及びＫ_O型密度関数のような他の公知の連続密度
関数の混合体も使用できる。

【００２１】更に、コンテクストに従属する異なる音素
の状態間の類似性を捕らえ、そして各セノンに使用でき
るトレーニングデータの量を増加するために、コンテク
ストとは独立した同じ音に対してコンテクストに従属す
る異なる発音ＨＭＭモデルの類似状態の出力分布を一緒
にクラスター化して、セノンが形成される。

【００２２】図７は、音素／ａａ／１１４に対するコン
テクストとは独立したＨＭＭ構造体を例示している。コ
ンテクストとは独立したＨＭＭは、状態１（１１１）、
状態２（１１２）及び状態３（１１３）と示された３つ
の状態を含む。図７に示したＨＭＭは、図７に表示
（＊，＊）で示されたようにトレーニングデータに現れ
る左右の音素を伴う音素／ａａ／をモデリングする。か
っこ内の第１の位置は、所与の音素に先行する音素を示
し、そして第２の位置は、所与の音素に続く音素を示
す。セノンは、同じ音素に対応する各形式のモデル（例
えば、コンテクストに従属する・対・コンテクストとは
独立した）に対し類似状態（例えば、状態１）内で分類
される。この例では、コンテクストとは独立したＨＭＭ
は、状態１、２及び３に各々対応するセノン１０、５５
及び１２５を有する。

【００２３】図８は、上記に対応して、音素／ａａ／に
対するコンテクストに従属するＨＭＭを例示している。
図８には、５つの異なる音素コンテクスト（１１５ない
し１１９）において音素／ａａ／をモデリングする５つ
のコンテクスト従属のモデルがある。例えば、コンテク
ストに従属するモデル／ａａ／（／ｄｈ／，／ｂ／）１
１５は、コンテクストにおいて音素／ａａ／をモデリン
グし、ここでは、左の即ち先行する音素が／ｄｈ／であ
り、そして音素／ｂ／がそれに続き、即ちその右側にあ
る。セノンは、異なるＨＭＭにおいて類似状態内で分類
される。状態１において、コンテクストに従属する２つ
のセノンがあって、セノン１４及び２５で示されてい
る。全体として、音素／ａａ／に対し、状態１では、コ
ンテクストに従属する２つのセノン１４及び３５と、コ
ンテクストとは独立した１つのセノン１０があり、状態
２では、コンテクストに従属する２つのセノン２５及び
８５と、コンテクストとは独立した１つのセノン５５が
あり、そして状態３では、コンテクストに従属する１つ
のセノン９９と、コンテクストとは独立した１つのセノ
ン１２５がある。

【００２４】従って、好ましい実施形態に使用される音
素ベースの連続密度ＨＭＭは、次の数学的定義によって
特徴付けることができる。（１）Ｎは、モデルにおける状態の数であり、好ましく
は、３つの状態が使用される。しかしながら、本発明
は、３に限定されるものではなく、５のような数も使用
できる。（２）Ｍは、出力ｐｄｆにおける混合体の数である。（３）Ａ＝｛ａ_ij｝は、状態ｉから状態ｊまでの状態遷
移確率分布である。（４）Ｂ＝｛ｂ_i（ｘ）｝は、出力確率分布、即ち状態
ｉにあるときに特徴ベクトルｘを放射する確率であり、
但し、次の数１に示す通りであり、

【数１】ここで、Ｎ（ｘ，μ_k，Ｖ_k）は、平均ベクトルμ_k及
び共変マトリクスＶ_kにより定められる多次元のガウス
密度関数を表す。混合成分の数Ｍは、通常、１から５０
までのいずれかであり、そしてｃ_kは、状態ｉにおける
ｋ番目の混合成分の重みである。各状態ｉに関連した出
力確率分布は、セノンｓｄ_iによって表され、そしてｐ
（ｘ_i，ｓｄ_i）として表すことができる。（５）π＝｛π_I｝は、初期状態分布である。便宜上、ＨＭＭのパラメータスペースとして知られたモ
デルの完全なパラメータセットを示すのに簡略表示∝＝
（Ａ，Ｂ，π）が使用される。

【００２５】図２のステップ４８において、セノン、コ
ンテクスト従属のＨＭＭ及びコンテクストとは独立した
ＨＭＭに対するパラメータが推定される。ＨＭＭのトレ
ーニング段階は、トレーニングデータ、スピーチのテキ
スト２２及びワードの発音スペルの辞書２４を用いてこ
れらパラメータを推定することより成る。出力及び遷移
の確率は、良く知られたバウム−ウェルチ(Baum-Welch)
又は順方向−逆方向アルゴリズムによって推定すること
ができる。バウム−ウェルチアルゴリズムは、トレーニ
ングデータを良好に使用できるので好ましい。これは、
ヒューン氏等の「スピーチ認識のためのヒドンマルコフ
モデル(Hidden Markov Models For Speech Recognitio
n) 」、エジンバラ・ユニバーシティ・プレス、１９９
０年に説明されている。しかしながら、本発明は、この
特定のトレーニングアルゴリズムに限定されず、他のも
のを使用してもよい。通常、トレーニングデータにより
約５回の繰り返しを行って、パラメータの良好な推定値
を得ることができる。

【００２６】図２のステップ５０において、各コンテク
スト従属セノンの重み付け即ち補間ファクタが発生さ
れ、数学記号λにより表される。この重み付けファクタ
は、コンテクストとは独立したＨＭＭの出力確率をコン
テクスト従属のＨＭＭの出力確率で補間するように使用
される。これら重み付けファクタは、道のデータを予想
する際にコンテクスト従属出力ｐｄｆの適切さを示すも
のである。出力ｐｄｆはトレーニングデータで推定さ
れ、トレーニングデータに類似するデータを厳密に予想
する。しかしながら、各々の考えられる入力スピーチ発
声を表すトレーニングデータ又は全ての未知のデータを
正しく予想するに充分なトレーニングデータで出力ＰＤ
Ｆを推定することは不可能である。重み付けファクタの
役割は、コンテクスト従属のモデル及びコンテクストと
は独立したモデルを推定するのに使用されるトレーニン
グデータの関数であるところの未知のデータを予想する
ための出力ｐｄｆの適切さを指示することである。コン
テクスト従属のモデルに対するトレーニングデータの量
が多くなると、λは１．０に近づき、出力ｐｄｆは大き
な重みにされる。コンテクスト従属のモデルに対するト
レーニングデータの量が少ない場合には、λが０．０に
近づき、出力ｐｄｆはあまり重みが置かれない。各コン
テクスト従属のセノンに対するλの最適値は、削除補間
によって決定される。

【００２７】簡単に述べると、削除補間の技術は、トレ
ーニングデータを２つの別々のセットに仕切る。その一
方は、モデルのパラメータを推定するのに使用され、そ
して第２のセットは、出力ｐｄｆが未知のトレーニング
データをいかに良好に予想できるかを指示するための重
み付けファクタを決定するのに使用される。このプロセ
スは反復的であり、各繰り返すにおいて、異なるセット
が回転され、そして新たなモデル及び重み付けファクタ
が形成される。全ての繰り返しの終わりに、重み付けフ
ァクタの平均値が計算され、認識段階に使用される。

【００２８】図３ないし６は、重み付けファクタを計算
するのに使用されるステップを示している。図３を参照
すれば、ステップ６０において、トレーニングデータ
は、Ｋ個のブロックに仕切られる。好ましくは、データ
のブロックは２つである。しかしながら、本発明は、こ
のブロック数に限定されず、トレーニングデータの記憶
量及びトレーニング時間の制約に基づいて他のブロック
数も使用できる。

【００２９】重み付けファクタは、各コンテクスト従属
のセノンに対して計算され（ステップ６２）、これは、
先ず、セノンテーブルを用いてｓｅｎ_SD（即ちコンテク
スト従属セノン）に対応するコンテクストとは独立した
セノンであるｓｅｎ_SIを見出すことにより行われる（ス
テップ６３）。計算は、反復プロセスであるステップ６
４により導出され、このプロセスは、λ_newで示された
λの新たな値の間の差が、あるスレッシュホールドに合
致するときに収斂する。好ましくは、このプロセスは、
｜λ−λ_new｜＜０．０００１のときに収斂し即ち終了
する。このプロセスは、λの初期値を選択することによ
り開始する（ステップ６６）。最初に、セノンの第１の
繰り返しの場合は、初期値はユーザにより予め選択され
る。好ましくは、初期値は、０．８の推定値である。他
の全ての繰り返しに対し、初期値は、その前に計算され
た新たな値λ＝λ_newである。ステップ６８において、
プロセスはＫ回繰り返される。各繰り返しにおいて、１
つのデータブロックが削除ブロックとして選択され、そ
の選択される削除ブロックは、その前に選択されなかっ
たものである（ステップ７０）。

【００３０】次いで、プロセスは、削除ブロック以外の
全てのブロックからのトレーニングデータを用いて、各
々のコンテクスト従属（ｂ₁で示す）及びコンテクスト
独立（ｂ₂で示す）セノンに対する出力確率を推定する
ように進められる（ステップ７２）。これらのパラメー
タは、トレーニング段階におけるＨＭＭのパラメータの
推定値を参照して上記と同じ技術を用いて推定される
（即ちバウム−ウェルチアルゴリズム）。

【００３１】次いで、ステップ７４において、新たな値
λ_newが計算される。この計算は、「強制整列」に依存
すると仮定する。トレーニング中に、ビタビアルゴリズ
ムが使用される場合には、トレーニングデータの各特徴
ベクトルを、特定のセノンで識別することができる。こ
のマッピング、即ちセノンを伴うベクトルは、「強制整
列」として知られている。λ_newは、次の数２の数学的
定義に基づいて計算される。

【数２】但し、Ｎは、強制整列を用いたセノンｓｅｎ_SDに対応す
る削除ブロックにおけるデータ点又は特徴ベクトルの
数；ｘ_iは、特徴ベクトルｉ、１≦ｉ≦Ｎ；ｂ
₁（ｘ_i）は、上記数１の式で定められたコンテクスト
従属の出力ｐｄｆ；ｂ₂（ｘ_i）は、上記数１の式で定
められたコンテクストとは独立した出力ｐｄｆ；そして
λ＊ｂ₁（ｘ_i）＋（１−λ）＊ｂ₂（ｘ_i）は、全確
率と称される。

【００３２】λ_newの値は、Ｋ回の繰り返しの各々に対
して決定される。Ｋ回の全ての繰り返しの完了時に、ス
テップ７６において、平均値が計算され、これは、次の
数３の式で表される。

【数３】但し、ｊは、削除ブロックのインデックス；Ｋは、ブロ
ックの数；λ^j _newは、削除ブロックを用いたλの推定
値；そしてＮ_jは、強制整列を用いたｓｅｎ_SDに対応す
る削除ブロックｊにおける点の数である。

【００３３】ステップ６６ないし７６は、λ_newの値が
規定のスレッシュホールドに合致しない場合には再び実
行される。特定のコンテクスト従属のセノンに対してプ
ロセスが収斂すると、λ_newの現在値が特定のコンテク
スト従属のセノンに対してラムダテーブル２６に記憶さ
れる。

【００３４】図４は、上記数２及び数３の式に基づき重
み付けファクタも新たな値λ_newを計算するのに使用さ
れるステップのフローチャートである。新たな値は、削
除ブロックの各データ点の全確率に対するコンテクスト
従属出力ｐｄｆの作用を加算することにより計算され
る。従って、ステップ７９において、ｓｅｎ_SDに対応す
る削除ブロックの全ての点が、ステップ４８で形成され
たモデル及び強制整列を用いて見出される。ステップ８
０において、ｓｅｎ_SDと整列された削除ブロックにおけ
る各データ点ｘ_iに対してプロセスが繰り返される。全
確率に対するデータ点ｘ_iのコンテクスト従属出力ｐｄ
ｆの作用は、次の数４の式に基づいてステップ８２にお
いて決定される。

【数４】

【００３５】このようにして計算された全てのデータ点
の作用の和がステップ８４において合計される。繰り返
しの完了時に、ｓｅｎ_SDと整列された削除ブロックの全
てのデータ点が処理されたときに、上記数２の式に基づ
いて作用の平均値λ_newが計算される（ステップ８
６）。

【００３６】重み付けファクタの上記計算は、削除ブロ
ックのデータ点を使用するものである。これは、より正
確な計算をもたらすが、計算を行うためにトレーニング
エンジンに必要とされる記憶量及びトレーニング時間を
増大する。ある場合には、対応する削除ブロックのデー
タ点のパラメータ表示を発生しそして適当なパラメータ
を使用するのが更に効果的となる。更に別のやり方とし
ては、ｓｅｎ_SDに対するデータ点のパラメータ表示から
再構成されたデータ点を使用することである。これらの
別のやり方は、データ点のおおまかな近似を与えるが、
計算効率という点で利点がある。

【００３７】図５及び６は、重み付けファクタを計算す
るためのこれらの別の実施形態を示している。図５は、
第１の別の実施形態を示す。図５を参照すれば、削除ブ
ロックのデータ点に対するパラメータ表示がステップ９
０に示すように発生される。この場合に、パラメータ表
示は、ガウスの混合体となる。この表示は、上記のバウ
ム−ウェルチアルゴリズムを用いて形成することができ
る。発生されるパラメータは、各々の混合成分ｊに対
し、平均値、μ_j及び重みｃ_jを含む。ラムダの新たな
値λ_newの計算は、削除ブロックμ_jに対し、次の数５
の式に基づいて行うことができる。

【数５】但し、Ｍは、通常の混合成分の数；ｃ_jは、ｊ番目の通
常混合成分の重み；ここで、数６であることに注意され
たい。

【数６】 μ_jは、ｊ番目の通常混合成分の平均値である。

【００３８】ステップ９２ないし９８は、この計算を次
のように行う。ステップ９２は、各混合に対して繰り返
され、対応する平均及び重み付けパラメータを有する混
合に対し、全確率に対するコンテクスト従属出力確率の
作用を決定する。混合成分に対して、これは、次の数７
の式で表される。

【数７】

【００３９】ステップ９６において、全ての混合成分に
対しこれら作用の和が形成される。ステップ９８におい
て、ステップ９６から生じる最終的な和が、現在ｓｅｎ
_SD及び削除ブロックに対してλ_newの値として記憶され
る。

【００４０】図３を参照すれば、Ｋ回の繰り返しの完了
時に、プロセスは、ステップ７６において、上記数３の
式に基づきλ_newの平均値を計算するように進められ
る。このプロセスは、図３について述べたように、プロ
セスが収斂し、そして現在平均値λ_newが特定のコンテ
クスト従属セノンに対してラムダテーブル２６に記憶さ
れるまで、続けられる。

【００４１】重み付けファクタを計算する第２の別の実
施形態においては、セノンのパラメータ表示からランダ
ムに発生される選択数のデータ点が使用される。図６
は、この第２の別の実施形態を示し、これは、上記数２
の式に基づき削除ブロックに対して数学的に表すことが
できるが、｛ｘ_i｝は発生されたデータ点でありそして
Ｎは発生されたデータ点の数である。

【００４２】この別の実施形態は、図３に示す好ましい
実施形態とは、新たな値λ_newの決定（ステップ７４）
について異なる。流れシーケンスは、図３に示すように
保たれる。図６を参照すれば、ステップ１００におい
て、削除ブロックのデータ点に対しパラメータ表示が発
生される。パラメータ表示は、ガウスの混合体で構成す
ることができる。このパラメータ表示は、削除ブロック
のトレーニングデータに対しバウム−ウェルチアルゴリ
ズムを用いて導出することができる。このパラメータ表
示から、ステップ１０２に示すように、平均及び重み付
けパラメータと共にランダム数発生器を用いて規定数の
データ点が再構成される。再構成されるデータ点の数
は、λ_newの所望の精度と計算要件との間で妥協され
る。データ点の数が多いと、λ_newの精度は改善される
が、必要な計算量が多くなる。混合体当たりの再構成デ
ータ点の適当な数は、１００である。

【００４３】ステップ１０４においては、セットの各デ
ータ点に対してステップ１０６及び１０８が実行され
る。ステップ１０６において、データ点の全確率に対す
るコンテクスト従属出力確率の作用が決定される。これ
は、次の数８の式で表すことができる。

【数８】ステップ１０８においては、これら作用の和が、セット
の全てのデータ点に対して形成される。セットの全ての
データ点を経て繰り返すが完了すると、全ての作用の平
均値がλ_newの値として返送される（ステップ１１
０）。図３を参照すれば、Ｋ回の繰り返しの完了時に、
プロセスは、ステップ７６において、上記数３の式に基
づきλ_newの平均値を計算するように進められる。この
プロセスは、図３について上記したように、プロセスが
収斂し、そして現在平均値λ_newが特定のコンテクスト
従属セノンに対してラムダテーブル２６に記憶されるま
で、続けられる。

【００４４】トレーニングデータが発生されて適当な記
憶位置に記憶されると、認識システムは、実行の準備が
できる。スピーチ認識システムの主たるタスクは、入力
スピーチ信号に含まれた言語メッセージを検出すること
である。このタスクは、特徴ベクトルのシーケンスを音
素のシーケンスに一致させ、音素のシーケンスをワード
のシーケンスに一致させ、そしてワードのシーケンスを
センテンスに一致させることを必要とするので、多レベ
ルデコードの問題である。これは、モデリングされた全
ての考えられる言語表現を形成し、そしてその表現が特
徴ベクトルのシーケンスに一致する確率を計算すること
により行われる。言語表現は、音素のシーケンスで構成
されるので、その表現を形成する音素が特徴ベクトルに
一致しそしてその表現がおそらく生じる（即ち文法的に
正しい）であろう見込みを計算することが決定に含まれ
る。表現を形成する音素が特徴ベクトルに一致する確率
はアコースティックスコアと称され、そしてその表現が
生じ得る確率は言語スコアと称される。言語スコアは、
言語の文法のような言語の構文及び意味を考慮し、音素
のシーケンスに対応するワードのシーケンスが文法的に
正しい言語表現を形成するかどうか指示する。

【００４５】好ましい実施形態では、音素がＨＭＭによ
り表され、この場合に、同様の状態の出力ｐｄｆがクラ
スター化されてセノンを形成する。従って、特徴ベクト
ルを音素に一致させるプロセスは、音素を表すＨＭＭの
状態に関連したセノンに特徴ベクトルを一致させること
を含む。従って、言語表現は、一連のＨＭＭの状態に対
応するセノンで構成することができる。

【００４６】本発明の好ましい実施形態では、認識エン
ジンのタスクは、確率Ｐ（Ｗ／Ｘ）を最大にするワード
シーケンスＷを見つけることである。確率Ｐ（Ｗ／Ｘ）
は、入力スピーチ信号Ｘが与えられた場合に言語表現Ｗ
が生じる確率を表す。Ｗは、Ｗ＝ｗ₁、ｗ₂・・・ｗ_n
として示されたワードストリングであり、但し、ｗ_iは
個々のワードを表し、各ワードは一連の音素により表さ
れ、ｗ_i＝ｐ₁、ｐ₂・・・ｐ_q、そしてＸは一連の特
徴ベクトルにより表された入力スピーチ信号であり、Ｘ
＝ｘ₁、ｘ₂・・・ｘ_nとして示される。この最大化の
問題は、次の数９の式で表される良く知られたベイズの
式の変形を用いて解決できる。

【数９】Ｐ（Ｗ／Ｘ）＝（Ｐ（Ｘ／Ｗ）Ｐ（Ｗ）／Ｐ（Ｘ）Ｐ（Ｘ／Ｗ）は、入力スピーチ信号Ｘがワードストリン
グＷに一致する確率であり、アコースティックスコアと
称される。Ｐ（Ｗ）は、ワードストリングＷが生じる確
率であり、言語スコアと称される。Ｐ（Ｘ）は、Ｗとは
独立であるから、Ｐ（Ｗ／Ｘ）を最大にすることは、全
てのワードシーケンスＷに対して分子即ちＰ（Ｘ／Ｗ）
Ｐ（Ｗ）を最大にすることに等しい。

【００４７】認識タスクは、最良の一致を決定する試み
において種々のワードシーケンスを考慮する。認識タス
クにより考慮される各ワードシーケンスに対して、アコ
ースティックスコア及び言語スコアが計算される。言語
スコアは、ワードシーケンスが言語においてどれほど生
じるかを示すもので、上記数９の式のＰ（Ｗ）項により
指示される。アコースティックスコアは、一連のアコー
スティックベクトル特徴がワードシーケンスＷに対する
アコースティックモデルにいかに良好に一致するかを指
示する。アコースティックスコアは、上記式のＰ（Ｘ／
Ｗ）項により指示される。

【００４８】所与のワードシーケンスに対してアコース
ティックスコアを計算する際に、認識タスクは、種々の
セノン整列を考慮する。セノン整列は、アコースティッ
ク特徴ベクトルのシーケンスからセノンへのマッピング
であって、各アコースティック特徴ベクトルに独特のセ
ノンを指定するものである。当該ワードシーケンスを生
じるセノン整列のみが認識タスクによって考慮される。
各セノン整列の制約のもとにあるワードシーケンスに対
するアコースティックスコアが計算される。ワードシー
ケンスのアコースティックスコアは、全ての考えられる
セノン整列にわたる最良のアコースティックスコアであ
る。

【００４９】これは、数学的には、ｉ＝１ないしｑに対
して、次の数１０の式で表すことができる。

【数１０】Ｐ（Ｘ／Ｗ）＝Ｍａｘ〔Ｐ（Ｘ／（Ｗ，Ａ_i））〕但し、Ａ₁・・・Ａ_qは、ワードシーケンスＷに対して
考えられる全てのセノン整列である。

【００５０】所与のセノン整列Ａの制約のもとにあるワ
ードシーケンスＷに対するアコースティックスコアの計
算は、更に、次の数１１の式で表される。

【数１１】但し、セノン整列Ａは、コンテクスト従属のセノンｓｄ
_iに対してｉ番目のアコースティック特徴ベクトルｘ_i
を整列し即ちマップする。Ｐ（Ａ）は、セノンシーケン
スｓｄ_i・・・ｓｄ_nの状態遷移確率を表す。Ｐ（ｘ_i
／ｓｄ_i）は、特徴ベクトルｘ_iがコンテクスト従属の
セノンｓｄ_iに一致する確率を表す。

【００５１】アコースティックスコアの重要性は、出力
確率ｐ（ｘ｜ｓｄ）の計算にある。これは、特徴ベクト
ルｘが、コンテクスト従属のＨＭＭ状態に対応するセノ
ンｓｄに一致する見込みを表す。しかしながら、充分に
推定されない出力ｐｄｆは、アコースティックスコアの
計算に不正確さを招く。これは、通常は、トレーニング
データの不充分さによって生じる。分布の健全さは、出
力ｐｄｆを推定するためにより多くのトレーニングデー
タを使用するのに伴って増大する。

【００５２】この問題を緩和する１つの方法は、同じ音
素を多数の詳細さレベルでモデリングする多数のＨＭＭ
を使用することである。従って、種々の詳細さレベルの
出力ｐｄｆを使用しそしてそれらを合成することにより
特定の状態に対する出力ｐｄｆを構成することができ
る。この合成は、トレーニング中に見られなかったデー
タを予想する能力に基づいて行われる。そのような未知
のデータの予想に適した健全な出力ｐｄｆは、大きな重
みを受け取るが、充分に推定されない出力ｐｄｆは、合
成された出力ｐｄｆにおいて小さな重みを受け取る。好
ましい実施形態では、多数のコンテクスト従属のＨＭＭ
及びコンテクストとは独立したＨＭＭを用いて、音素が
モデリングされる。トレーニング段階において既に計算
されたコンテクスト従属状態に対応する各セノンの重み
付けファクタλを用いて、各セノンに与えられる重みが
指示される。λが大きい（１．０に近い）ほど、コンテ
クスト従属のセノンが優勢となり、コンテクストとは独
立したセノンの重みは小さくなる。λが小さい（０．０
に近い）ときには、コンテクストとは独立したセノンが
優勢となる。従って、出力確率ｐ（ｘ｜ｓｄ）の計算
は、次の数１２の式で表すことができる。

【数１２】ｐ（ｘ｜ｓｄ）＝λ＊ｐ（ｘ｜ｓｄ_d）＋
（１−λ）＊ｐ（ｘ｜ｓｄ_i）但し、λは、セノンｓｄに対する重み付けファクタで、
０ないし１であり；ｘは、特徴ベクトルであり、ｓｄ_d
は、コンテクスト従属のＨＭＭの状態に関連したセノン
であり、ｓｄ_iは、コンテクストとは独立したＨＭＭの
対応状態に関連したセノンであり、ｐ（ｘ｜ｓｄ_d）
は、特徴ベクトルｘがセノンｓｄ_dに一致する確率であ
り、そしてｐ（ｘ｜ｓｄ_i）は、特徴ベクトルｘがセノ
ンｓｄ_iに一致する確率である。

【００５３】従って、出力確率ｐ（ｘ｜ｓｄ）は、コン
テクスト従属のセノン及びコンテクストとは独立したセ
ノンの出力確率の関数として直線的に補間される。重み
付けファクタ即ち補間ファクタλは、各セノンが補間さ
れる程度を示す。

【００５４】図９はスピーチ認識方法の動作を示す。図
９を参照すれば、この方法は、入力スピーチ発声を受け
取ることにより開始され（ステップ１２２）、これは、
図１を参照して既に述べたように、特徴ベクトルに変換
される（ステップ１２４）。ステップ１２６において、
この方法は、入力スピーチ発声を表すことのできる各ワ
ードシーケンスに対しステップ１２８ないし１３６を実
行する。ワードシーケンスは、種々の異なるセノンシー
ケンスで構成することができ、この場合に、各セノン整
列は、ＨＭＭ状態のシーケンスに対応する。ステップ１
２８ないし１３４において、ワードシーケンスを表すこ
とのできる各考えられるセノン整列に対する合成認識ス
コアが決定される。合成認識スコアは、上記数９の変形
ベイズ式に基づいて決定することができる。合成認識ス
コアは、アコースティックスコア及び言語スコアで構成
される。アコースティックスコアは、ステップ１３０で
決定され、言語スコアは、ステップ１３２で決定され、
そして合成スコアは、ステップ１３４で計算される。最
も高い合成認識スコアを有するセノン整列が、ワードシ
ーケンスを表すように選択される（ステップ１３６）。
ステップ１３８において、この方法は、入力スピーチ発
声を、最も高い合成認識スコアを有するワードシーケン
スとして認識する。

【００５５】ステップ１３０において、アコースティッ
クスコアは、数１１の式に基づいて上記のように決定す
ることができ、この場合に、出力確率は、数１２の式で
上記のように計算される。

【００５６】ステップ１３２において、この方法は、言
語モデル記憶装置３２に記憶された言語表現を表す言語
モデルに基づいて言語スコアを計算する。言語モデル
は、言語の構造及び意味の知識を利用し、既に発声され
たワードを考慮してワードの発生する見込みを予想す
る。言語モデルは、言語スコアが、あるワードの後に特
定の第２のワードが続く確率に基づくというバイグラム
言語モデルである。或いは又、言語モデルは、バイグラ
ム以外のＮグラムに基づいてもよいし、サブワード言語
確率に各々基づいてもよい。更に、構文及び文法ルール
のような他の語彙知識を用いて、言語モデルを形成する
こともできる。言語モデルを形成及び使用する方法は、
公知であり、上記したヒューン氏等の文献に詳細に説明
されている。

【００５７】以上に説明したように、本発明は、異なる
コンテクストにおける同じスピーチ事象に対応する多数
の連続密度出力確率を用いることによりスピーチ認識シ
ステムの認識能力を改善する。これは、モデルがトレー
ニングされなかったスピーチ事象を予想するモデルの性
能を改善するので、ヒドンマルコフモデルへの特徴ベク
トルのマッピングを改善する。このレベルの改善は、こ
のレベルのマッピングが、認識プロセスを更に構築する
基礎であるから、非常に有効である。

【００５８】しかしながら、本発明は、スピーチ認識シ
ステムに限定されるものではない。スピーチ発声を言語
表現へとマッピングする必要のあるいかなる用途も、本
発明を利用することができる。スピーチ発声は、いかな
る形式のアコースティックデータでもよく、例えば、サ
ウンド、スピーチ波形等でよいが、これに限定されるも
のではない。このような用途の例は、確率モデルを使用
して、言語表現を表すテキストストリングからスピーチ
波形を発生するスピーチ合成システムである。

【００５９】本発明の好ましい実施形態を以上に詳細に
述べたが、これは、単に本発明を例示するものに過ぎ
ず、当業者であれば、上記装置に変更を必要とする種々
の異なる用途に本発明を応用できるであろうことを強調
しておく。

【図面の簡単な説明】

【図１】好ましい実施形態に使用されるスピーチ認識シ
ステムのブロック図である。

【図２】図１のシステムに使用されるトレーニング方法
のフローチャートである。

【図３】図１のシステムに使用される重み付けファクタ
を計算する方法のフローチャートである。

【図４】図３のシステムに使用されるラムダの新しい値
を計算するための好ましい実施形態のフローチャートで
ある。

【図５】図３のシステムに使用されるラムダの新しい値
を計算するための第１の別の実施形態を示すフローチャ
ートである。

【図６】図３のシステムに使用されるラムダの新しい値
を計算するための第２の別の実施形態を示すフローチャ
ートである。

【図７】音素に関連したヒドンマルコフモデル及びセノ
ン構造体を例示する図である。

【図８】音素に関連したヒドンマルコフモデル及びセノ
ン構造体を例示する図である。

【図９】図１のシステムに使用されるスピーチ認識方法
のフローチャートである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ミリンドヴィーマハジャンアメリカ合衆国ワシントン州 98052 レッドモンドエスエス302 ノースイーストサーティフォースコート 16624

Claims

【特許請求の範囲】

【請求項１】入力スピーチ発声を言語表現と一致させ
るためのコンピュータシステムにおける方法であって、スピーチの複数の発音ユニットの各々に対し、その発音
ユニットを表す複数のより詳細なアコースティックモデ
ル及びあまり詳細でないアコースティックモデルを用意
し、各々のアコースティックモデルは、複数の状態と、
それに続く複数の遷移とを有し、各々の状態は、ある時
点で発音ユニットに生じるスピーチ発声の一部分を表
し、そして入力スピーチ発声の一部分がある時点で発音
ユニットに生じる見込みを指示する出力確率を有し、より詳細なアコースティックモデルの選択シーケンスの
各々に対し、入力スピーチ発生がそのシーケンスにいか
に密接に一致するかを決定し、その一致は、更に、より
詳細なアコースティックモデルの選択シーケンスの各状
態に対し、その状態と、同じ発音ユニットを表すあまり
詳細でないアコースティックモデルの同じ状態との出力
確率の組み合わせとして累積出力確率を決定する段階を
含み、そして入力スピーチ発声に最も良く一致するシー
ケンスであって言語表現を表すシーケンスを決定する、
という段階を備えたことを特徴とする方法。
【請求項２】各々のアコースティックモデルは、連続
密度ヒドンマルコフモデルである請求項１に記載の方
法。
【請求項３】出力確率を決定する上記段階は、更に、
あまり詳細でないモデル及びより詳細なモデルの出力確
率をその組み合わせ時に個別の重み付けファクタで重み
付けする段階を備えた請求項１に記載の方法。
【請求項４】複数のより詳細なアコースティックモデ
ルを用意する上記段階は、更に、スピーチ発生のある量
のトレーニングデータを用いて各アコースティックモデ
ルをトレーニングする段階を含み、そして出力確率を決
定する上記段階は、更に、あまり詳細でないモデル及び
より詳細なモデルの出力確率を、各アコースティックモ
デルのトレーニングに用いたトレーニングデータの量に
対して重み付けする段階を含む請求項１に記載の方法。
【請求項５】入力スピーチ発声が言語表現に一致する
見込みを決定するためのコンピュータシステムにおける
方法であって、入力スピーチ発声は、所与の時間インタ
ーバル中の発声のアコースティック特性を指示する複数
の特徴ベクトルより成り、そして言語表現は、アコース
ティック特性がその言語表現内の位置に生じる出力確率
を指示する複数のセノンより成り、上記方法は、コンテクストに従属する複数のセノンを用意し、上記コンテクストに従属する複数のセノンに関連され、
言語表現の同じ位置を表すコンテクストとは独立したセ
ノンを用意し、入力スピーチ発生におそらく一致する言語表現を用意
し、入力スピーチ発生の各特徴ベクトルに対し、その特徴ベ
クトルが、その特徴ベクトルと同じ時間インターバルに
生じる言語表現の上記コンテクストに従属するセノンに
一致する出力確率を決定し、この出力確率の決定は、上
記コンテクストに従属するセノンに関連したコンテクス
トとは独立したセノンを使用し、そして上記出力確率を
使用して、入力スピーチ発生が言語表現に一致する見込
みを決定する、という段階を備えたことを特徴とする方
法。
【請求項６】上記出力確率は、連続確率密度関数より
成る請求項５に記載の方法。
【請求項７】コンテクストに従属する複数のセノンを
用意する上記の段階は、更に、スピーチ発声を表すある
量のトレーニングデータから上記コンテクストに従属す
るセノンをトレーニングする段階を含み、コンテクストとは独立したセノンを用意する上記段階
は、更に、コンテクストとは独立したセノンをある量の
トレーニングデータからトレーニングする段階を含み、
そして出力確率を決定する上記段階は、更に、コンテク
ストとは独立したセノン及びコンテクスト従属するセノ
ンを、これらのセノンをトレーニングするのに用いた上
記量のトレーニングデータに基づいて組み合わせる段階
を含む請求項５に記載の方法。
【請求項８】コンテクストに従属する複数のセノンを
用意する上記の段階は、更に、スピーチ発声を表すある量のトレーニングデータからコ
ンテクストに従属するセノンをトレーニングし、そして
セノンを推定するのに使用される上記量のトレーニング
データを表す各々のコンテクストに従属するセノンに対
して重み付けファクタを用意する段階を備え、そして出
力確率を決定する上記段階は、更に、コンテクストに従
属するセノン及びコンテクストとは独立したセノンを上
記重み付けファクタに基づいて組み合わせる段階を含む
請求項５に記載の方法。
【請求項９】重み付けファクタを用意する上記段階
は、更に、上記量のトレーニングデータに対して削除補
間技術を使用することにより重み付けファクタを発生す
る段階を含む請求項８に記載の方法。
【請求項１０】重み付けファクタを用意する上記段階
は、更に、トレーニングデータのパラメータ表示を発生し、そして
上記量のトレーニングデータのパラメータ表示に削除補
間技術を適用することにより重み付けファクタを発生す
る段階を含む請求項８に記載の方法。
【請求項１１】重み付けファクタを用意する上記段階
は、更に、トレーニングデータのパラメータ表示を発生し、トレーニングデータのパラメータ表示から、トレーニン
グデータを表す１組のデータ点を形成し、そして上記デ
ータ点に削除補間を適用することにより重み付けファク
タを発生するという段階を含む請求項８に記載の方法。
【請求項１２】入力スピーチ発声を認識するためのコ
ンピュータ読み取り可能な記憶媒体における方法であっ
て、スピーチの複数の発音ユニットを表すように複数のコン
テクスト従属の連続密度ヒドンマルコフモードをトレー
ニングし、このトレーニングは、所与の時間インターバ
ル中に発声のアコースティック特性を表すスピーチ発生
のある量のトレーニングデータを使用し、各モデルは、
遷移によって接続された状態を有し、各状態は、発音ユ
ニットの一部分を表すと共に、スピーチ発声のアコース
ティック特性が発音ユニットの一部分内に生じる確率を
指示する出力確率を有し、スピーチの同じ発音ユニットを表す複数のコンテクスト
従属の連続密度ヒドンマルコフモデルに対してコンテク
ストとは独立した連続密度ヒドンマルコフモデルを形成
し、コンテクスト従属のモデルの複数のシーケンスを形成
し、各シーケンスは言語表現を表し、コンテクスト従属モデルの各シーケンスに対して、入力
スピーチ発声のアコースティック特性がコンテクスト従
属モデルのシーケンスにおける状態に一致するアコース
ティック確率を決定し、このアコースティック確率は、
シーケンスにおける各コンテクスト従属モデルの各状態
の出力確率と、同じ発音ユニットに対応するコンテクス
トとは独立したモデルの出力確率とを含み、そして上記
アコースティック確率を用いて、入力スピーチ発生に厳
密に一致する言語表現を認識する、という段階を備えた
ことを特徴とする方法。
【請求項１３】コンテクスト従属モデルの各状態に対
して重み付けファクタを形成する段階を更に備え、重み
付けファクタは、各状態に関連した出力確率をトレーニ
ングするのに使用されるある量のトレーニングデータを
指示し、アコースティック確率を決定する上記段階は、更に、コ
ンテクスト従属モデルの状態と、コンテクストとは独立
したモデルの状態の出力確率を重み付けファクタに基づ
いて重み付けする段階を含む請求項１２に記載の方法。
【請求項１４】重み付けファクタを形成する上記段階
は、更に、ある量のトレーニングデータに削除補間を適
用することにより重み付けファクタを導出する段階を備
えた請求項１３に記載の方法。
【請求項１５】重み付けファクタを形成する上記段階
は、更に、トレーニングデータのパラメータ表示を発生し、そして
トレーニングデータのパラメータ表示に削除補間を適用
することにより重み付けファクタを導出する段階を備え
た請求項１３に記載の方法。
【請求項１６】重み付けファクタを形成する上記段階
は、更に、トレーニングデータのパラメータ表示を発生し、トレーニングデータのパラメータ表示から１組のデータ
点を発生し、そしてトレーニングデータのパラメータ表
示に削除補間を適用することにより重み付けファクタを
導出する段階を備えた請求項１３に記載の方法。
【請求項１７】入力スピーチ発声を言語表現に一致さ
せるコンピュータシステムにおいて、スピーチの発音ユニットを各々表す複数のコンテクスト
従属の及びコンテクスト独立のアコースティックモデル
を記憶するための記憶装置を備え、各発音ユニットを表
す複数のコンテクスト従属のアコースティックモデル
は、スピーチの発音ユニットを表す少なくとも１つの関
連するコンテクスト独立のアコースティックモデルを有
し、各アコースティックモデルは、遷移を有する状態を
含み、各々の状態は、ある時点における発音ユニットの
一部分を表すと共に、入力スピーチ発声の一部分がある
時点に発音ユニットに生じる見込みを指示する出力確率
を有し、入力スピーチ発声におそらく一致する複数の言語表現を
表すコンテクスト従属のアコースティックモデルの選択
シーケンスを与えるモデルシーケンス発生器を更に備
え、上記モデルの各シーケンスが入力スピーチ発声にいかに
良好に一致するかを決定するためのプロセッサを更に備
え、このプロセッサは、シーケンスの各状態に対して累
積出力確率を用いることにより入力スピーチ発声の一部
分をシーケンスの状態に一致させ、累積出力確率は、コ
ンテクスト従属のアコースティックモデルの各状態の出
力確率をそれに関連したコンテクスト独立のアコーステ
ィックモデルの同じ状態の出力確率と合成したものを含
み、そして入力スピーチ発声に最も良く一致するシーケ
ンスであって言語表現を表すシーケンスを決定するため
の比較器を更に備えたことを特徴とするコンピュータシ
ステム。
【請求項１８】各アコースティックモデルは、連続密
度ヒドンマルコフモデルである請求項１７に記載のシス
テム。
【請求項１９】スピーチ発声のある量のトレーニング
データを受け取り、そしてその量のトレーニングデータ
で各アコースティックモデルの各状態に対する出力確率
を推定するためのトレーニング装置を更に備え、上記プロセッサは、更に、各状態の累積出力確率を決定
するための合成要素を備え、この合成要素は、各出力確
率を推定するのに使用される上記量のトレーニングデー
タに対し、シーケンスの各状態の出力確率をそれに関連
したコンテクスト独立のアコースティックモデルの同じ
状態の出力確率と合成する請求項１７に記載のシステ
ム。
【請求項２０】スピーチ発声のある量のトレーニング
データを受け取り、上記量のトレーニングデータで各ア
コースティックモデルの各状態に対する出力確率を推定
するためのトレーニング装置を更に備え、このトレーニ
ング装置は、各コンテクスト従属のアコースティックモ
デルの各状態に対する重み付けファクタを発生し、これ
は、出力確率がトレーニングデータに存在しないスピー
チ発声を予想できる程度を示すものであり、そして上記
プロセッサは、更に、状態の累積出力確率を決定するた
めの合成要素を備え、この合成要素は、各状態の重み付
けファクタに対し、シーケンスの各状態の出力確率を、
それに関連したコンテクスト独立のアコースティックモ
デルの同じ状態の出力確率と合成する請求項１７に記載
のシステム。
【請求項２１】上記重み付けファクタは、上記量のト
レーニングデータに削除補間技術を適用することにより
導出される請求項２０に記載のシステム。
【請求項２２】上記トレーニング装置は、更に、トレ
ーニングデータのパラメータ表示を発生するためのパラ
メータ発生器を備え、そして上記重み付けファクタは、
上記量のトレーニングデータのパラメータ表示に削除補
間技術を適用することにより導出される請求項２０に記
載のシステム。
【請求項２３】上記トレーニング装置は、更に、トレーニングデータのパラメータ表示を発生するための
パラメータ発生器と、パラメータ表示から１組のデータ点を発生するためのデ
ータ発生器とを備え、そして上記重み付けファクタは、
上記１組のデータ点に削除補間技術を適用することによ
り導出される請求項２０に記載のシステム。