JP2000099083A

JP2000099083A - 音声語彙要素の発生の確率を推定する方法

Info

Publication number: JP2000099083A
Application number: JP11260949A
Authority: JP
Inventors: Dietrich Klakow; クラコウディートリヒ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1998-09-16
Filing date: 1999-09-14
Publication date: 2000-04-07
Also published as: EP0987684B1; EP0987684A3; EP0987684A2; US6314400B1; DE19842404A1; DE59912920D1

Abstract

(57)【要約】【課題】誤り率及び問題が減少されるよう音声認識シ
ステムにおいて音声語彙要素の発生の確率を推定する方
法を提供することを目的とする。【解決手段】言語音声モデリングの変更によって、音
声認識システムの誤り率及び問題が減少されるような更
なる代替方法が提供される。本発明による方法は、音声
語彙要素の発生の確率の推定において、この要素の幾つ
かのＭ−グラム確率はＭ−グラム特定の最適化されたパ
ラメータ値によってより高次に累乗され、このようにし
て獲得された結果は相互に乗算され、上記音声語彙要素
の発生の確率の推定は、音声語彙要素に対する第１の学
習語彙コーパスによって推定されるＭ＞１のＭ−グラム
確率が最適化されたパラメータ値によって累乗された商
によって乗算され、該最適化されたパラメータ値はＧＩ
Ｓアルゴリズムによって決定され、第２の学習語彙コー
パスによって推定された要素の１−グラム確率が商の被
除数として用いられ、第１の学習語彙コーパスによって
推定された要素の１−グラム確率が商の除数として用い
られる場合を含まないことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識システムに
おいて音声語彙要素の発生の確率を推定する方法に関す
る。統計モデルに基づく音声認識システムでは、音響音
声モデリング及び言語音声モデリングが使用される。本
発明は言語音声モデリングの分野に関する。

【０００２】

【従来の技術】音声語彙の要素の発生の確率をこれらの
要素の異なるＭ−グラム（Ｍ−ｇｒａｍ）確率の線形の
組合せによって決定することが知られている。１９９３
年のR.Kneser, V.Steinbiss,"On the dynamic adaptati
on of stochastic language models", Proc. ICASSP, p
p. 586-589より、２−グラム（ｂｉｇｒａｍ）語彙要素
の発生の確率を形成するために、これらの２−グラム語
彙関数の異なる学習語彙コーパスについて決定される複
数の発生の確率は、これらの要素の発生の確率を形成す
るよう線形に組み合わされる。

【０００３】また、１９９７年のR.Kneser, J.Peters a
nd D.Klakow, "Language Model Adaptation using Dyna
mic Marginals",EUROSPEECH, pp.1971-1974 の式（８）
及び（９）より、音声語彙要素の発生の確率の推定にお
いて、音声語彙要素に対する第１の学習語彙コーパスに
よって推定されるＭ＞１のＭ−グラム確率が、最適化さ
れたパラメータ値によって累乗された商によって乗算さ
れ、この最適化されたパラメータ値はＧＩＳ（Generali
zed Iterative Scaling ）アルゴリズムによって決定さ
れ、第２の学習語彙コーパスによって推定された要素の
１−グラム（ｕｎｉｇｒａｍ）確率が商の被除数として
用いられ、第１の学習語彙コーパスによって推定された
要素の１−グラム確率が商の除数として用いられること
が知られている。この構成では音声認識システムの誤り
率及び問題は減少される。

【０００４】

【発明が解決しようとする課題】本発明は、言語音声モ
デリングの変更によって、音声認識システムの誤り率及
び問題が減少されるような更なる代替方法を提供するこ
とを目的とする。

【０００５】

【課題を解決するための手段】この目的は、音声語彙要
素の発生の確率の推定において、この要素の幾つかのＭ
−グラム確率はＭ−グラム特定の最適化されたパラメー
タ値によってより高次に累乗され、このようにして獲得
された結果は相互に乗算されることによって解決され
る。

【０００６】適当なＭ−グラムとしては、例えば、当該
の音声語彙要素を含む１−グラム（ｕｎｉｇｒａｍ），
２−グラム（ｂｉｇｒａｍ），ギャップ２−グラム、又
はギャップ３−グラムがある。本発明による解法は、異
なるＭ−グラム確率及びＭ−グラムの記述された組合せ
による結果としての発生の確率に関してＫｕｌｌｂａｃ
ｋ−Ｌｅｉｂｌｅｒ距離を最小化する構成に基づく。本
発明は対応する語彙要素の（発生の）確率によって決定
される既知の言語音声モデルの効果的な組合せを提供す
る。これは、選択された適用分野によりよく適応された
音声語彙要素の確率、及び音声認識システムのための改
善された言語音声モデルを与える。

【０００７】以下の例は、本発明の保護範囲に含まれな
い（”ｄｉｓｃｌａｉｍｅｒ”）。その例とは、音声語
彙要素の発生の確率の推定において、音声語彙要素に対
する第１の学習語彙コーパスによって推定されるＭ＞１
のＭ−グラム確率が最適化されたパラメータ値によって
累乗された商によって乗算され、上記最適化されたパラ
メータ値はＧＩＳアルゴリズムによって決定され、第２
の学習語彙コーパスによって推定された要素の１−グラ
ム確率が商の被除数として用いられ、第１の学習語彙コ
ーパスによって推定された要素の１−グラム確率が商の
除数として用いられる例である。

【０００８】本発明の保護範囲に含まれないこの例は、
R.Kneser, J.Peters and D.Klakowによる文献"Language
Model Adaptation using Dynamic Marginals, EUROSPE
ECH, pp1971-1974,1997より既に知られており、この構
成は、既知のＧＩＳアルゴリズムの使用に基づき、この
１つの特別な解のみに達するが、本発明の保護範囲に含
まれる他の場合には達しない。

【０００９】本発明の１つの実施例では、第１の学習語
彙コーパスはＭ−グラム確率の第１の部分を推定するた
めに使用され、第２の学習語彙コーパスの第１の部分は
Ｍ−グラム確率の第２の部分を推定するために使用さ
れ、第２の学習語彙コーパスの第２の部分はＭ−グラム
確率に割り当てられた最適化されたパラメータ値を決定
するために使用される。

【００１０】このようにして、異なる大きさの語彙が、
異なる程度で特殊適用に適応されるモデル形式化の中に
統合されうる。例えば、第１の学習語彙コーパスは例え
ば、ＮＡＢコーパス（North American Business News）
といった不特定な適用のための語彙コーパスであること
が望ましい。第２の学習語彙コーパスは例えば司法の分
野といった所与の特殊分野の適用に関する１つ以上の例
テキストからの語彙要素からなることが望ましい。第２
の学習語彙コーパスが第１の学習語彙コーパスと比較し
てかなり小さいコーパスであるよう選択された場合、言
語音声モデルはわずかな努力で特殊適用に適応されう
る。また、モデル適応のために使用されるパラメータ値
は、処理努力を最小化するよう第２の学習語彙コーパス
によって決定される。

【００１１】最適化されたパラメータ値を決定するた
め、最適化関数、

【００１２】

【数２】

【００１３】が最小化され、式中、λ_iは最適化される
べきパラメータ値を表わし、ｈｗは先行する語彙要素の
履歴ｈを伴う語彙要素ｗに対するＭ−グラムを表わし、
ｆ（ｈｗ）は、第２の語彙の第２の部分の学習段階で生
ずる計数されたＭ−グラムの数を被除数とし、第２の語
彙の語彙要素の数を除数としたときの商を表わし、

【００１４】

【外２】

【００１５】はスケーリングファクタを表わし、ｐ_iは
履歴ｈが所与であるときの語彙要素ｗの発生の確率の推
定された確率を表わす。変数としてパラメータλ_iを有
する確率関数を表わすこの最適化関数は凸であり、従来
の近似方法によって決定されうるパラメータ値λ_iの所
与の組に対して単一の最大を有する。このようにして、
Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒ距離の明示的な決定
が回避される。

【００１６】本発明による改善された言語音声モデルの
形成において、Ｍ＜３のＭ−グラム確率のみが使用され
る場合、音声認識を行なうコンピュータ用の所要のメモ
リ空間は小さいままでありうる。モデル形成のため、こ
の場合は１−グラム、２−グラム、及び特にギャップ２
−グラムが使用される。本発明はまた、発生の確率が割
り当てられ上述のような方法によって推定される言語要
素を有する音声語彙を使用する音声認識システムに関す
る。

【００１７】

【発明の実施の形態】本発明の上述及び他の面は、以下
説明される実施例を参照して明らかとなろう。図１は、
入力２において電気形式の音声信号を受信する音声認識
システム１を示す図である。機能ブロック３において音
響分析が行われ、それにより出力４は音声信号を定義す
る連続する特徴ベクトルを供給する。音響分析では、電
気形式で存在する音声信号がサンプリングされ、量子化
され、続いてフレームの中に組み合わされる。連続する
フレームは部分的に相互に重なり合ってもよい。特徴ベ
クトルは各単一のフレームに対して形成される。機能ブ
ロック５では、一連の音声語彙要素に対する探索が行わ
れ、これは一連の特徴ベクトルの所与の入力に対しては
存在する可能性が最も高い。

【００１８】音声認識システムにおいて慣習的であるよ
うに、認識結果の確率はいわゆるベイズの公式によって
最大化される。この場合、音声信号の音響モデル（機能
ブロック６）及び言語音声モデル（機能ブロック７）の
両方が機能ブロック５によって表わされる処理動作に含
まれる。機能ブロック６による音響モデルは、別個の語
彙要素、又は複数の語彙要素の組合せをモデリングする
ためにいわゆるＨＭＭモデル（隠れマルコフモデル）の
通常の適用を含む。音声モデル（機能ブロック７）は、
音声認識システム１が基礎とする音声語彙の単一の要素
の発生の推定された確率を含む。以下に説明される本発
明はそれに基づいており、出力８から供給される認識結
果の誤り率の減少をもたらす。更に、システムの問題が
減少される。

【００１９】以下、使用される音声語彙の要素ｗに対し
て発生の条件付き確率ｐ_i（ｗ｜ｈ _i）が既にあるもの
と仮定し、但し、要素ｗは単語、単語の一部、若しく
は、単語又は単語の一部の連続でありうるものとする。
ｈ_iは要素ｗに関する履歴、即ち所与の先行する語彙要
素、を表わすものとする。履歴ｈ_iに依存して、ｐ
_iは、１−グラム（ｕｎｉｇｒａｍ），２−グラム（ｂ
ｉｇｒａｍ），３−グラム（ｔｒｉｇｒａｍ）等の確率
でありうる。しかしながら、モデリングには、ギャップ
２−グラム、ギャップ３−グラム、又はより高次のＭの
ギャップＭ−グラムが含まれうる。かかるモデルでは、
履歴ｈ_iはギャップを有し、即ち履歴ｈ_iは直接連続す
る語彙要素に基づくものではない。かかる発生の確率ｐ
_iの存在が仮定されうる。これらは概して適当なテキス
トコーパスから決定される。

【００２０】本発明はこれらの所与のＭグラム確率ｐ_i
を使用し、それらの適当な組合せの後、推定された新し
い発生の確率ｐ（ｗ｜ｈ）、即ち先行する語彙要素の履
歴ｈが与えられている場合の音声語彙要素ｗの確率を供
給する。この発生の確率ｐに対する最適値を決定するた
め、初期の開始点はＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒ
距離、即ち、

【００２１】

【数３】

【００２２】となる。Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅ
ｒ距離は数学的な表現である。その定義は、例えばT.M
.Cover, J.A. Thomas によるWiley-Interscience Publ
icationより出版の文献"Elements of Information Theo
ry"の第２．３章の中に読むことができる。

【００２３】この距離から開始して、以下の式、

【００２４】

【数４】

【００２５】に従う全体距離Ｄが定義される。ここで、
ｐ₀は対応する音声語彙要素の均等分布が仮定された場
合の確率値である。ｐ’は決定されるべき発生の確率ｐ
に対する変数である。最適なｐ’は計算されるべき発生
の確率ｐから獲得される。μ_iはいわゆるラグランジュ
乗数であり、近似法によるその決定もまた定義され既知
である。これに関して、上述のT.M .Cover, J.A. Thoma
s による文献が参照される。

【００２６】ここで、かかる問題に対する従来の近似法
のうちの１つによって全体距離Ｄが決定される（やはり
上述のT.M .Cover, J.A. Thomas による文献を参照のこ
と）。この問題は閉じた解を有する。解の表現を簡単化
するため、最適化されたパラメータ値λ_iが定義される
一方で、以下の式、

【００２７】

【数５】

【００２８】に従ってラグランジュ乗数μ_iを使用す
る。この演繹から開始して、探索された発生の確率ｐに
ついて以下の式、

【００２９】

【数６】

【００３０】が獲得され、その中で

【００３１】

【外３】

【００３２】は、

【００３３】

【数７】

【００３４】によって決定されるスケーリングファクタ
であり、その中で加算は最適化されたパラメータ値λ_i
を決定するために使用される学習語彙コーパスの全ての
要素ｗに亘る。対応する音声言語の要素ｗの発生の確率
ｐを推定するため、異なるＭ−グラム確率ｐ_i（ｗ｜ｈ
_i）は相互に組み合わされる。履歴ｈ_iに依存して、ｐ
_iは１−グラム，２−グラム，３−グラム等の確率を表
わす。ギャップ２−グラム，３−グラム等もまたｐ_iに
適している。確率値ｐ_iは最初に、当該のＭ−グラムの
ために最適化された特定のパラメータ値λ_iによってよ
り高次に累乗される。このようにして獲得されたＮのべ
き乗は、続いて相互に乗算され、続いて

【００３５】

【外４】

【００３６】による除算によるスケーリング演算が行わ
れる。最適化されたパラメータ値λ_iは以下の最適化式
Ｆ、

【００３７】

【数８】

【００３８】に従って音声認識システムの学習段階にお
いて決定され、但し式中、λ_iは最適化されるべきパラ
メータ値を表わし、ｈｗは先行する語彙要素の履歴ｈを
伴う語彙要素ｗに対するＭ−グラムを表わし、ｆ（ｈ
ｗ）は、第２の語彙の第２の部分の学習段階で生ずる計
数されたＭ−グラムの数を被除数とし、第２の語彙の語
彙要素の数を除数としたときの商を表わし、

【００３９】

【外５】

【００４０】はスケーリングファクタを表わし、ｐ_iは
履歴ｈが所与であるときの語彙要素ｗの発生の確率の推
定された確率を表わす。この関数Ｆは音声認識システム
の当該の学習段階において最大化されるべきである。音
声認識システムのために使用されるべき言語音声モデル
を構築するとき、一般的な性質の第１の学習コーパス及
び特殊な性質の第２の学習コーパスの両方が使用され
る。第１の学習コーパスは例えば、一般的に使用可能で
あり、このコーパスの中の音声語彙要素の発生の確率か
ら形成されるＮＡＢコーパスである。特殊な性質の学習
語彙コーパスは、例えば、司法の分野又は所与の技術分
野におけるテキストの音声語彙要素を含む。本発明によ
る音声語彙要素の発生の確率を改善するための追加的な
努力は、特殊な学習語彙コーパスのためにだけ必要であ
ることが望ましい。この学習コーパスの第１の部分は、
従って確率ｐ_iを決定するために使用され、特殊な学習
語彙コーパスの第２の部分は最適化されたパラメータ値
λ_iを決定するために使用される。

【００４１】関数Ｆは特殊な学習語彙コーパスの第２の
部分に関連する最適化関数であり、上述のように最大化
されるべきである。関数Ｆは凸であり、単一の明瞭な最
大を有する。その計算のために、幾つかの多次元最適化
又は近似方法が可能であり、例えばCambridge Universi
ty Press, 1989, 第10.4章のW.H.Press 外による"Numer
ical Recipes" に記載されるいわゆるシンプレックス
（Ｓｉｍｐｌｅｘ）アルゴリズムがある。本発明におけ
る第１の望ましい用途は、所与の適用に適応される音声
モデルの構築である。例えば、３−グラムｕｖｗの発生
の確率の改善された推定は、以下の式、

【００４２】

【数９】

【００４３】に従って決定される。１−グラム確率ｐ
_allg（ｗ），２−グラム確率ｐ_allg（ｗ｜ｖ），及び３
−グラム確率ｐ_allg（ｗ｜ｕｖ）は、上述の一般的な学
習語彙コーパスの評価に基づいて決定される。特殊な学
習語彙コーパスは２つの部分へ分割される。第１の部分
は、１−グラム確率ｐ_spez（ｗ）及び２−グラム確率ｐ
_sp _ez（ｗ｜ｖ）を決定するために使用される。特殊な学
習語彙コーパスの他の第２の部分は上述のように最適化
されたパラメータ値λを決定するために使用される。

【００４４】本発明における第２の望ましい用途は、音
声語彙要素の発生の確率の改善された推定のために、１
つ以上の学習語彙コーパスの異なるＭ−グラムの確率を
組み合わせることである。かかる用途の一例は、３−グ
ラムｕｖｗに対する発生の確率ｐ（ｗ｜ｕｖ）を、

【００４５】

【数１０】

【００４６】に従って決定することであり、式中、ｐ
（ｗ）は音声語彙要素ｗに対する１−グラム確率であ
り、ｐ_dlは２−グラムｖｗの確率であり、ｐ_d2（ｗ｜
ｕ）はギャップ２−グラムｕｗに対するギャップ２−グ
ラム確率である。λ_uni、λ_dl及びλ _d2は、対応する最
適化されたパラメータ値を表わす。Ｍ＜３のＭ−グラム
確率のみ、即ち２−グラムのみが使用されれば、所望の
メモリ空間は減少されうる。その場合、２−グラムとし
て「通常の」２−グラム及び／又はギャップ２−グラム
が使用される。音声認識システムの誤り率及び問題に関
して達成されるべき減少は、多くの適用のために十分で
ある。

【図面の簡単な説明】

【図１】本発明の音声認識システムを示す図である。

【符号の説明】

１音声認識システム２入力３音響分析４出力５音声語彙要素列の探索６音響音声モデル７言語音声モデル８出力

───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Ｇｒｏｅｎｅｗｏｕｄｓｅｗｅｇ１, 5621 ＢＡＥｉｎｄｈｏｖｅｎ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ

Claims

【特許請求の範囲】

【請求項１】音声認識システムにおいて音声語彙要素
の発生の確率を推定する方法であって、音声語彙要素の発生の確率の推定において、この要素の
幾つかのＭ−グラム確率はＭ−グラム特定の最適化され
たパラメータ値によってより高次に累乗され、このよう
にして獲得された結果は相互に乗算され、上記音声語彙要素の発生の確率の推定は、音声語彙要素
に対する第１の学習語彙コーパスによって推定されるＭ
＞１のＭ−グラム確率が最適化されたパラメータ値によ
って累乗された商によって乗算され、該最適化されたパ
ラメータ値はＧＩＳアルゴリズムによって決定され、第
２の学習語彙コーパスによって推定された要素の１−グ
ラム確率が商の被除数として用いられ、第１の学習語彙
コーパスによって推定された要素の１−グラム確率が商
の除数として用いられる場合を含まないことを特徴とす
る方法。
【請求項２】第１の学習語彙コーパスはＭ−グラム確
率の第１の部分を推定するために使用され、第２の学習
語彙コーパスの第１の部分はＭ−グラム確率の第２の部
分を推定するために使用され、第２の学習語彙コーパス
の第２の部分はＭ−グラム確率に割り当てられた最適化
されたパラメータ値を決定するために使用されることを
特徴とする、請求項１記載の方法。
【請求項３】上記最適化されたパラメータ値を決定す
るために、最適化関数、【数１】が最小化され、式中、 λ_iは最適化されるべきパラメータ値を表わし、ｈｗは先行する語彙要素の履歴ｈを伴う語彙要素ｗに対
するＭ−グラムを表わし、ｆ（ｈｗ）は、第２の語彙の第２の部分の学習段階で生
ずる計数されたＭ−グラムの数を被除数とし、第２の語
彙の語彙要素の数を除数としたときの商を表わし、【外１】はスケーリングファクタを表わし、ｐ_iは履歴ｈが所与であるときの語彙要素ｗの発生の確
率の推定された確率を表わすことを特徴とする、請求項
２記載の方法。
【請求項４】Ｍ＜３のＭ−グラム確率のみが使用され
ることを特徴とする、請求項１乃至３のうちいずれか１
項記載の方法。
【請求項５】ギャップ２−グラム確率が使用される特
徴とする、請求項４記載の方法。
【請求項６】請求項１乃至５のうちいずれか１項記載
の方法によって推定される発生の確率が割り当てられる
語彙要素を有する音声語彙を用いる音声認識システム。