JPH10254490A

JPH10254490A - 言語モデルの適応化方法

Info

Publication number: JPH10254490A
Application number: JP10043530A
Authority: JP
Inventors: Stefan Besling; ベスリングステファン; Hans-Guenter Meier; マイアーハンス−ギュンター
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-02-28
Filing date: 1998-02-25
Publication date: 1998-09-25
Also published as: EP0862160A3; DE59801560D1; EP0862160B1; EP0862160A2; DE19708184A1; US6081779A

Abstract

(57)【要約】（修正有）【課題】短い音声信号に基づいても、音声信号の特
徴、例えばテーマ又はスタイルに対する言語モデル値の
適切な適応化を可能にする言語モデル値適応化方法。【解決手段】音声認識、特に大語彙の口語音声の認識
のために、単語系列の発生確率を考慮した言語モデルを
用いて認識信頼度を向上させる。これらの言語モデルは
かなり多量のテキストから決定され、短いテキスト内に
発生する単語系列のカウントから信頼区間を決定するこ
とを提案する。この決定は統計学から既知の計算方法を
用いることにより可能である。次に、各先行単語系列に
対し、全単語に対する言語モデル値をできるだけ多数の
言語モデル値が信頼区間内に位置するように適応化させ
るスケーリングファクタを決定する。スケーリング処理
された言語モデル値が適応化後に関連する信頼区間外に
位置する場合には、信頼区間の最も近い境界値を適応化
された言語モデル値として使用する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、比較的長いトレー
ニングテキストから決定された言語モデル値を有する言
語モデルを用いる自動音声認識であって、言語モデルの
適応化処理が所定の場合に、特に所定のタイプのテキス
トに対し、特に短いテキストセグメントに基づいて行わ
れるものに関するものである。

【０００２】

【従来の技術】自動音声認識においては、音声信号から
一連の試験値を取り出し、これらの試験値を予め決めら
れた語彙の単語を表す一連の格納基準値と比較する。比
較は単語境界において言語モデル値に関連するスコアを
発生する。これらの言語モデル値は限定された長さの所
定の単語系列の確率を表し、多量のトレーニング音声信
号から予め決定される。従って、用法、例えば演説のテ
ーマ又はスタイルの長時間変化をこれらの言語モデル値
により考慮することはできない。適切に適応化した言語
モデル値は音声認識の信頼度に大きな影響を与えるた
め、言語モデル値を少量の現テキストに基づいてできる
だけ良好に適応化するのが望ましい。この適応化処理
は、特別なテキストの認識中に又はこのテキストの一部
分の認識に続いて、認識誤りの手動補正後に、行うこと
ができる。

【０００３】適応言語モデルを形成する方法はIEEE Tra
nsactions on Pattern Analysis and Machine Intellig
ence, Vol.12, June 1990, pp.570-583 に開示され、Ｃ
ＡＣＨＥ言語モデルとして知られている。この方法で
は、相対頻度Ｎ_a(w) ／Ｎ_aを計算する。ここでＮ
_a(w) は適応化資料内の単語ｗの頻度を表し、Ｎ_aは適
応化資料内の単語の総数を表す。次に適応ＣＡＣＨＥ言
語モデルＰ_a(w｜h)を基本言語モデルＰ_s(w｜h)から次
のように計算する。Ｐ_a(w｜h)＝λＰ_s(w｜h)＋（１−λ）・Ｎ_a(w) ／Ｎ
_a ここで、補間パラメータλは固定値か、Proc. ICASS, M
inneapolis, USA, Vol.II, April 1993, pp.585-593 か
ら既知のように、各適応化ごとに適応化資料ができるだ
け良好に記述されるように決定される。しかし、瞬時テ
キストに対し得られる言語モデル値の適応化は依然とし
て最適でない。

【０００４】

【発明が解決しようとする課題】本発明の目的は、短い
音声信号に基づいても、音声信号の特徴、例えばテーマ
又はスタイルに対する言語モデル値の適切な適応化を可
能にする言語モデル値の適応化方法を提供することにあ
る。

【０００５】

【課題を解決するための手段】本発明では、この目的を
達成するために、語彙の単語に対する信頼区間を、種々
の先行単語に依存して、音声信号がこれに適応化される
べき比較的短いテキストから形成する。この処理は、例
えば「 Einfuhrung in die Wahrscheinlichkeitsrechun
g und Statistik fur Ingenieure」,H. Weber 著, B.G.
Teubner, Stuttgart 1992, p.279 に記載されているよ
うな既知の統計学及び確率計算法により実行することが
できる。次のステップ中に、広範なトレーニング音声信
号に基づいて決定された言語モデルの言語モデル値を各
々異なる先行単語系列に対し選択されるスケーリングフ
ァクタを乗算して、この先行単語系列に対し言語モデル
値、即ちこの先行単語系列の後にこの単語が発生する確
率が信頼区間内にできるだけ良好に入るようにする。関
連する信頼区間外に位置するスケーリング処理された各
言語モデル値に対しては信頼区間の最も近い境界値を使
用する。発生されてない所定の先行単語系列の単語の組
合せに対し、先行単語系列が発生した場合に限り信頼区
間を計算することができる。しかし、先行単語系列が語
彙の任意の単語との組合せで発生しなかった場合には、
信頼区間を決定することができず、原言語モデル値が適
応化なしで使用される。１単語のみ又は２単語の長さを
有する先行単語系列が多くの実際の用途に使用されるた
め、言語モデル値を少量の口語テキストデータに基づい
て適応化させることができる。

【０００６】スケーリングファクタは、確率値の和、即
ち所定の先行単語系列の全単語の言語モデル値の和が値
１に鳴るように選択する必要がある。しかし、スケーリ
ングファクタに従って適応化されるのではなく、関連す
る信頼区間の最も近い境界にセットされる言語モデル値
もこの条件に対し考量に入れる必要があるため、スケー
リングファクタはこのような場合に対し知られている演
算方法により決定される。

【０００７】広範なトレーニング資料に基づいて決定さ
れた基本言語モデル値Ｐ(w｜h)から特別テキストに対し
適応化された言語モデル値Ｐ_a(w｜h)を決定する処理は
次のように行う。

【数１】ここで、Ａ_hは下側境界値α_hより下の確率範囲であ
り、Ｂ_hは上側境界値β_hより上の確率範囲であり、γ
_hは既知の最適化方法に従って実際のテキストから得ら
れるスケーリングファクタである。

【０００８】この適応化の原理を図１を参照してもっと
詳しく説明する。この図は、複数の単語ｗ１．．．ｗ５
に対し、これらの単語が先行単語系列ｈ₁又はｈ₂の後
に発生する確率を示す。ばつ印”×”は、トレーニング
テキストから決定された、単語ｗ１．．．ｗ５が先行単
語系列ｈ₁又はｈ₂の次ぎに来る原確率値又は言語モデ
ル値を示し、”［］”で示す垂直方向の区間は現在のテ
キストから決定された対応する信頼区間を示す。矢印は
スケーリングファクタγ_hによる原言語モデル値のシフ
トを示し、小さな丸”。”は適応化された言語モデル値
を示す。先行単語系列ｈ₁に対する上側のグラフにおい
ては、単語ｗ１に対する原言語モデル値は既に信頼区間
内に位置し、スケーリングにもかかわらずこの区間内に
とどまる。単語ｗ２も同様である。単語ｗ３及びｗ５に
対しては、原言語モデル値が信頼区間外に位置し、スケ
ーリングによりこの区間内にシフトされる。単語ｗ４に
対しては、原言語モデル値が信頼区間内に位置するが、
スケーリングによりこの区間外にシフトされるため、こ
の場合には小さな丸で示すように信頼区間の上側境界値
を単語ｗ４に対し使用する。

【０００９】先行単語系列ｈ₂に対する下側のグラフで
は、単語ｗ１，ｗ２及びｗ５に対する原言語モデル値が
スケーリングにより信頼区間内に移動するが、単語ｗ４
に対するスケーリングされた言語モデル値は信頼区間外
に位置し、従ってこの区間の上側境界値にセットされ
る。しかし、単語ｗ３に対する原言語モデル値は信頼区
間より下に遠く離れて位置し、スケーリングによりこの
区間内に移動しないため、この場合にはこの信頼区間の
下側境界値を適応化言語モデル値として使用する。

【００１０】このように適応化した言語モデル値を使用
すると、特に認識すべきテキストの性質が原トレーニン
グ資料から、特にスタイルやテーマに関し、大きく相違
する場合に、認識結果の大きな向上を達成することがで
きる。

【図面の簡単な説明】

【図１】本発明適応化方法の原理を説明するための図で
ある。

【符号の説明】

ｗ１，・・ｗ５単語Ｐ (ｗ／ｈ₁) 先行単語系列ｈ₁の後に単語ｗ１，・・
ｗ５が発生する確率Ｐ (ｗ／ｈ₂) 先行単語系列ｈ₂の後に単語ｗ１，・・
ｗ５が発生する確率

Claims

【特許請求の範囲】

【請求項１】自動音声認識用の言語モデル値を有する
言語モデルを適応化する方法であって、音声信号から試
験値を取り出し、これらの試験値を所定の語彙を決定す
る基準値と比較し、単語境界において言語モデル値に関
連するスコアを取り出し、前記言語モデル値が少なくと
も一つの先行単語に依存して語彙の所定の単語が発生す
る確率に依存するものにおいて、トレーニング音声信号に基づいて基本言語モデル値を有
する基本言語モデルを決定するステップと、統計的計算方法を用いて、トレーニング音声信号から相
違する異なる音声信号に基づいて、言語モデル値に対す
る上側及び下側境界値を有する信頼区間を決定するステ
ップと、スケーリングファクタを、これでスケーリング処理され
た基本言語モデル値が関連する信頼区間に対する該言語
モデル値の位置に関する最適化基準を満足するように決
定するステップと、信頼区間内に位置するスケーリング処理された言語モデ
ル値の場合にはこのスケーリング処理された言語モデル
値を、信頼区間の上側及び下側境界値を越えるスケーリ
ング処理された言語モデル値の場合には、最も近い境界
値を適応化された言語モデル値として、前記異なる音声
信号から決定されたものでない信頼区間に対しては基本
言語モデル値を前記異なる音声信号の以後の認識に使用
するステップと、を具えることを特徴とする言語モデル
の適応化方法。
【請求項２】予め決められた先行単語系列の後にある
単語が発生する確率に対する信頼区間を、この単語及び
予め決められた系列の発生数と、前記異なる音声信号内
に予め決められた系列が発生する数とから決定すること
を特徴とする請求項１記載の方法。