JP2001188557A

JP2001188557A - 最大エントロピ音声モデルの生成方法

Info

Publication number: JP2001188557A
Application number: JP2000364135A
Authority: JP
Inventors: Jochen Peters; ペータースヨヘン
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-11-30
Filing date: 2000-11-30
Publication date: 2001-07-10
Also published as: EP1107228A9; DE19957430A1; EP1107228A2; US20010003174A1; EP1107228A3

Abstract

(57)【要約】（修正有）【課題】音声認識システム用の最大エントロピ音声モ
デルを生成する方法において、生成された音声モデルの
統計的性質を改善する。【解決手段】音声モデルの統計的性質を改善するため
に、次のステップを実行する。 −学習言語音声資料を評価することによって、Ｎ≧０な
るｎ−グラムに対する第１確率値ｐ_ind(w|h)を求める； −第１確率値に応じて、最大エントロピ音声モデルの音
声モデル値を表現する第２確率値ｐ_λ(w|h)の推定を行
う； −次式に従って境界値ｍ_αを決定し、ここでＮ(h)は、学習言語音声資料内でのそれぞれの履
歴ｈの発生率であり、ｆ _α(h,w)は、先験的に予め規定
され、かつ指標αによって特徴づけられた所定のＮ−グ
ラムに対してのみ０と異なる値を有し、他の場合には値
０を有するフィルタ関数であり； −次式に従って最大エントロピ音声モデルの音声モデル
値の反復計算を行い、所定の収束基準に従い、ｎ回目の反復ステップで決定さ
れる値ｍ_α ⁽ⁿ⁾が境界値ｍ_αに十分な精度で接近するま
で、この反復計算を継続する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
用の最大エントロピ音声モデルを生成する方法に関する
ものである。

【０００２】

【従来の技術】音声認識システム用に音声モデルを生成
する際には、学習言語音声資料が限られた量の学習材料
しか含んでいないという問題がある。従って学習言語音
声資料内でのそれぞれの発生率のみから導出した音声発
声の確率には、例えばバッキングオフ技法による平滑化
手続きを施していた。しかし、Ｎ−グラムの未知の履歴
は、考慮しているそれぞれのＮ−グラムを、学習言語音
声資料内で０でない発生率が得られるまで短縮すること
によってのみ補われるので、バッキングオフ音声モデル
は一般に、利用可能な学習データを最適に利用していな
い。この問題には、最大エントロピ音声モデルで対処す
ることができる（R.Rosenfeld,"A maximumentropy appr
oach to adaptive statistical language modeling", C
omputer,Speech and Language, 1996年の187〜228ペー
ジを参照）。こうした音声モデルによって、バッキング
オフ音声モデルの場合を除いて、学習言語音声資料内で
のＮ−グラム及びギャップＮ−グラムの発生率を共に音
声モデル確率の推定に用いることができる。しかし最大
エントロピ音声モデルの生成中に適切な境界値を推定す
べきであり、最大エントロピ音声モデルの反復計算され
る音声モデル値は、これらの境界値の選択に依存すると
いう問題が発生する。学習中に、こうした音声モデルの
音声モデル確率ｐ_λ(w|h)（ｗ：語彙要素、ｈ：ｗに関
する語彙要素の履歴）を、次の形式の境界値式をできる
限り良好に満足するように決定することができる。

【数３】ここでｍ_αは先験的に設定されるべき条件αに対する境
界値を表わし、フィルタ関数ｆ_α(h,w)が値１をとるか
値０をとるかは、この式の満足度に依存する。そこで条
件αは、考慮している語彙要素の列(h,w)が所定のＮ−
グラム（Ｎ−グラムとは、ギャップＮ−グラムも含む）
であるか、あるいは所定のＮ−グラム（Ｎ≧１）で終わ
るかということであり、Ｎ−グラム要素も、相互に特定
の関係を有する語彙要素を含む複数のクラスでありう
る。Ｎ(h)は学習言語音声資料内での履歴ｈの発生率を
表わす。

【０００３】前記境界値式を満足するすべての確率分布
から、最大エントロピモデル化のために、特定のエント
ロピを最大化する分布

【数４】を選択することができる。この特定の分布は、適切なパ
ラメータλ_αに対して次の形式を有する。

【数５】

【０００４】

【発明が解決しようとする課題】最大エントロピ音声モ
デルの反復計算用には、特にいわゆるＧＩＳ（Generali
zed Iterative Scaling）アルゴリズムが用いられ、そ
の基本構造は、J.N.Darroch, D.Ratcliff: "Generalize
d iterative scaling for log-linear models", The An
nals of Mathematical Statistics, 43(5)、1972年の14
70〜1480ページに記載されている。前記境界値ｍ_αの決
定における試みは、例えば使用する学習言語音声資料の
確率の最大化にもとづくものであり、これにより境界値
ｍ_α＝Ｎ(α)が導かれ、即ち学習言語音声資料内で条件
αが満足される頻度が決定される。このことは例えば、
S.A.Della Pietra, V.J.Della Pietra J.Lafferty, "In
ducing Features of random fields", Technical repor
t, CMU-CS-95-114, 1995年に記載されている。しかし境
界値ｍ_αが、前記境界値式によって制限されるモデルの
いくつかの確率値ｐ_λ(w|h)を強制的に消滅させ（即ち
０にし）、より詳しくは列(h,w)が学習言語音声資料内
で見られなくなる。しかし、音声モデル確率値ｐ_λ(w|
h)が消滅することは、次の２つの理由から回避すべきこ
とであり：第１の理由は、もっともらしい認識結果では
あるが、その単語列が学習言語音声資料内で見られない
という理由だけで、音声認識システムが単語列(h|w)を
有する行を認識できないことである。他の理由は、パラ
メータλ_αが有限値に限定される限りにおいては、値ｐ
_λ(w|h)＝０が、上記のｐ_λ(w|h)についての式から得ら
れる解の関数型と矛盾するということである。このいわ
ゆる非一貫性（上述のJ.N.Darroch, D.Ratcliffを参
照）は、今のところ既知の学習方法でありながら、境界
値式を解くことの妨げになる。

【０００５】本発明の目的は、最大エントロピ音声モデ
ルを生成する方法を提供して、生成された音声モデルの
統計的性質を改善することにある。

【０００６】

【課題を解決するための手段】この目的は： −学習言語音声資料を評価することによって、Ｎ≧０な
るＮ−グラムに対する第１確率値ｐ_ind(w|h)を求めるス
テップと； −この第１確率値に応じて、最大エントロピ音声モデル
の音声モデル値を表現する第２確率値ｐ_λ(w|h)の推定
を行うステップと； −次式に相当する境界値ｍ_αを決定するステップを実行
し、

【数６】ここでＮ(h)は、学習言語音声資料内でのそれぞれの履
歴ｈの発生率であり、ｆ _α(h|w)は先験的に予め規定さ
れ、かつ指標αによって特徴づけられた特定のＮ−グラ
ムに対しては０と異なる値を有し、他の場合には値０を
有するフィルタ関数であり； −さらに、次式に従って最大エントロピ音声モデルの音
声モデル値の反復計算を行い、

【数７】所定の収束基準に従い、ｎ回目の反復ステップで決定さ
れる値ｍ_α ⁽ⁿ⁾が境界値ｍ_αに十分な精度で接近するま
で、この反復計算を継続するステップとを実行すること
によって達成される。

【０００７】この方法で音声モデルを形成することによ
って、未知の単語遷移(h,w)用の学習言語音声資料の異
なる統計量を確率ｐ_λ(w|h)の推定に用いる点で、学習
言語音声資料の統計量を認識すべき音声の統計量に近づ
けてより一般化した音声モデルが得られ：より短いレン
ジ（バッキングオフ音声モデルが有するような）を有す
るＮ−グラムに加えて、値ｐ_λ(w|h)を推定する際に、
ギャップＮ−グラム統計量、及び単語クラス間の相関を
考慮に入れることも可能である。

【０００８】特に、最大エントロピ音声モデルの音声モ
デル値の反復計算用に、即ち反復学習用にＧＩＳアルゴ
リズムを用いる。確率値ｐ_ind(w|h)は、バッキングオフ
音声モデル確率値であることが好ましい。

【０００９】また本発明は、以上に従って構築した音声
認識システムにも関するものである。

【００１０】

【発明の実施の形態】以下、本発明の実施例について図
面を参照して説明する。図１に音声認識システム１を示
し、その入力２には、音声信号が電気的形態で供給され
る。関数ブロック３は音響分析をまとめて表わしたもの
であり、音響分析によって、音声信号を記述する属性ベ
クトルが出力４上に連続的に生成されることになる。音
響分析中には、電気的形態で発生する音声信号をサンプ
リング及び量子化して、その後に複数のフレームに組合
わせる。そして連続するフレームが部分的に重複してい
ることが好ましい。各フレーム毎に属性ベクトルを求め
る。関数ブロック５は、属性ベクトルの入力列に対して
最も確からしい音声語彙要素の列の探索をまとめて表わ
したものである。音声認識システムでは慣例のように、
いわゆるベイズ公式を利用して認識結果の確率を最大化
する。関数ブロック５に従った処理では、音声信号の音
響モデル（関数ブロック６）及び言語音声モデル（関数
ブロック７）を共に用いる。関数ブロック６による音響
モデルは、個々の語彙要素をモデル化するために、ある
いはまた複数の語彙要素を組合わせるために、いわゆる
ＨＭＭモデル（隠れマルコフモデル）の慣例的な使用を
含む。音声モデル（関数ブロック７）は、語彙要素また
は語彙要素の列に対する推定確率値を含む。以下の説明
ではこのことを参照し、これにより出力８に出力される
認識結果のエラー率が低減されることになる。さらに、
システムの複雑性が低減される。

【００１１】本発明による音声認識システム１では、確
率値ｐ_λ(w|h)を有する音声モデル、即ちＮ≧０なる所
定のＮ−グラム確率を、Ｎ−グラム(h,w)（ｈは語彙要
素ｗに関するＮ−１要素の履歴）用に用い、このことは
最大エントロピ推定にもとづいている。そして探索され
る分布は、所定の周辺分布によって限定され、これらの
周辺条件の下で最大エントロピモデルを選定する。周辺
条件は、種々の長さのＮ−グラム（Ｎ＝１、２、
３、...）及び例えば(u,^*,w)の形式のギャップバイグラ
ムのようなギャップＮ−グラムに共に関連しうるもので
あり、ここで^＊は、要素ｕとｗの間の少なくとも１つの
任意のＮ−グラム要素用の位置保持子である。同様に、
Ｎ−グラム要素はクラスＣの要素でありうるものであ
り、これらは例えば、文法的関係あるいは意味的関係の
ような特定の関係を相互に有する語彙要素をまとめたも
のである。

【００１２】確率ｐ_λ(w|h)は学習中に、学習言語音声
資料（例えばＮＡＢ(North AmericanBusiness News)言
語音声資料）にもとづいて、次式に従って推定される。

【数８】

【００１３】このようにして形成した音声モデルの品質
要素は、境界値ｍ_αの選択によって決定され、音声モデ
ルに対する確率値ｐ_λ(w|h)はこの境界値に依存し、こ
の境界値は次式で表現される。

【数９】

【００１４】境界値ｍ_αは、予め計算され、かつ利用可
能な、音声モデル確率ｐ_ind(w|h)を有する音声モデルに
よって推定される。この目的のために式(2)を使用し、
この式ではｐ_λ(w|h)のみがｐ_ind(w|h)で置き換えら
れ、次式に従ってｍ_αの推定を行う。

【数１０】

【００１５】値ｐ_ind(w|h)は特に、学習言語音声資料
（例えばR.Kneser, H.Ney, "Improvedbacking-off for
M-gram language modeling", ICASSP 1995、181〜185ペ
ージ）にもとづいて決定されるいわゆるバッキングオフ
音声モデルの確率値である。しかし値ｐ_ind(w|h)はま
た、規定されているものとみなされる他の（既に計算さ
れた）音声モデルからも採用することができ、これらは
例えば、A.Nadas："Estimation of Probabilities in t
he Language Model of the IBM Speech Recognition Sy
stem", IEEE Trans. on Acoustics, Speech and Signal
Proc., Vol.ASSP-32、859〜861ページ、1984年８月、
及びS.M.Katz："Estimation of Probabilities from Sp
arse Data for the Language Model Component of a Sp
eech Recognizer", IEEE Trans. on Acoustics, Speech
and Signal Proc., Vol.ASSP-35、400〜401ページ、19
87年３月に記載されている。

【００１６】Ｎ(h)は、学習言語音声資料内でのそれぞ
れの履歴ｈの率を示すものである。ｆ_α(h,w)は条件α
に対応するフィルタ関数であり、このフィルタ関数は、
条件αが満足される場合にはゼロと異なる値（ここでは
値１）を有し、他の場合には０に等しい。条件α及びこ
れに関連するフィルタ関数ｆ_αは、それぞれの学習言語
音声資料に対して自ずと決定される。より詳細には、こ
こではどの単語またはどのクラスＮ−グラムまたはどの
ギャップＮ−グラムに対して境界値を固定するかの選定
を行う。

【００１７】ｆ_α(h,w)が値１を有するための条件αは
次のようであることが好ましい。 −考慮しているＮ−グラムが、所定の語彙要素ｗで終了
する； −考慮しているＮ−グラム(h,w)が所定のクラスＣに属
する語彙要素ｗで終了し、このクラスが相互に特定の関
係を有する語彙要素をまとめたものである（上述のこと
を参照）； −考慮しているＮ−グラム(h,w)が、所定のバイグラム
(v,w)またはギャップバイグラム(u,^*,w)、あるいは所定
のトリグラム(u,v,w)等で終了する； −考慮しているＮ−グラム(h,w)が、バイグラム(v,w)ま
たはギャップバイグラム(u,^*,w)等で終了し、語彙要素
ｕ、ｖ及びｗが所定の単語クラスＣ、Ｄ及びＥ内に存在
する。

【００１８】式(3)に従って、確率値ｐ_ind(w|h)を有す
る所定の先験的音声モデルすべての境界値ｍ_αを導出す
ることに加えて、条件αの所定のグループ毎にそれぞ
れ、確率値ｐ_ind(w|h)を有する各グループ自身の先験的
音声モデルを予め規定することができ、そしてこの場合
には、式(3)に従って各グループ毎に別個に、関連する
先験的音声モデルから境界値を計算することができる。
可能なグループは例えば、詳しくは次のものによって形
成することができる： −単語ユニグラム、単語バイグラム、単語トリグラム； −単語ギャップ−１バイグラム（１単語に相当するギャ
ップを有する）； −単語ギャップ−２バイグラム（２単語に相当するギャ
ップを有する）； −クラスユニグラム、クラスバイグラム、クラストリグ
ラム； −クラスギャップ−１バイグラム； −クラスギャップ−２バイグラム。

【００１９】音声モデルパラメータλ_αはここでは、Ｇ
ＩＳアルゴリズムを利用して決定することができ、この
アルゴリズムの基本構造は例えば、J.N.Darroch、D.Rat
cliffよって記述されている。そして値Ｍを次式のよう
に推定することができる。

【数１１】さらに、Ｎは使用する学習言語音声資料の大きさ、即ち
学習言語音声資料が含んでいる語彙要素の数を表わすも
のである。これにより、使用するＧＩＳアルゴリズムを
次のように記述することができる：ステップ１：任意の開始値ｐ_λ ⁽⁰⁾(w|h)から開始する；ステップ２：反復ループのｎ回目の周回において、境界
値を次式のように更新する：

【数１２】ここでｐ_λ ⁽ⁿ⁾(w|h)は、ステップ３で式(1)に値を代入
することによって決定されるパラメータλ_α ⁽ⁿ⁾から計
算する；ステップ３：パラメータλ_αを次式のように更新する：

【数１３】ここで最後の減算項は脱落する。またＭは次式を満た
す。

【数１４】ｍ_αまたはｍ_β（βは他の動的変数に過ぎない）は、確
率値ｐ_ind(w|h)にもとづいて式(3)に従って推定される
境界値である。ステップ４：アルゴリズムが収束するまで、アルゴリズ
ムをステップ２から繰り返し継続する。

【００２０】アルゴリズムの収束は、式(3)で推定した
ｍ_αと反復計算値ｍ_α ⁽ⁿ⁾との差の値が、十分小さい所
定の限界値εより小さくなることとして考えることがで
きる。

【００２１】ＧＩＳアルゴリズムを使用することの代わ
りとして、例えばS.A.Della Pietra、V.J.Della Pietr
a、J.Lafferty（上記を参照）によって記述された改良
反復スケーリング法のような、所定の境界条件に対する
最大エントロピ解を計算するいずれの方法を使用するこ
ともできる。

【図面の簡単な説明】

【図１】電気的音声信号が入力に供給される音声認識
システムを示すブロック図である。

【符号の説明】

１音声認識システム２入力３関数ブロック４出力５関数ブロック６音声信号の音響モデル７言語音声モデル８出力

───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Ｇｒｏｅｎｅｗｏｕｄｓｅｗｅｇ１, 5621 ＢＡＥｉｎｄｈｏｖｅｎ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ

Claims

【特許請求の範囲】

【請求項１】学習言語音声資料を評価することによっ
て、Ｎ≧０なるＮ−グラムに対する第１確率値ｐ_ind(w|
h)を求めるステップと；前記第１確率値に応じて、前記
最大エントロピ音声モデルの音声モデル値を表現する第
２確率値ｐ_λ(w|h)の推定を行うステップと；次式に相
当する境界値ｍ_αを決定するステップとを具え、【数１】ここでＮ(h)は、学習言語音声資料内でのそれぞれの履
歴ｈの発生率であり、ｆ _α(h,w)は先験的に予め規定さ
れ、かつ指標αによって特徴づけられた特定のＮ−グラ
ムに対しては０と異なる値を有し、他の場合には値０を
有するフィルタ関数であり；さらに、次式に従って最大
エントロピ音声モデルの音声モデル値の反復計算を行
い、【数２】所定の収束基準に従い、ｎ回目の反復ステップで決定さ
れる値ｍ_α ⁽ⁿ⁾が境界値ｍ_αに十分な精度で接近するま
で、この反復計算を継続するステップを具えた音声認識
システム用の最大エントロピ音声モデルの生成方法。
【請求項２】前記最大エントロピ音声モデルの音声モ
デル値の前記反復計算に、ＧＩＳアルゴリズムを使用す
ることを特徴とする請求項１に記載の方法。
【請求項３】前記第１確率値を生成するために、バッ
キングオフ音声モデルを用意することを特徴とする請求
項１または請求項２に記載の方法。
【請求項４】特定のαのグループをまとめた種々のサ
ブグループに対する境界値ｍ_αを計算するために、種々
の第１確率値ｐ_ind(w|h)を使用することを特徴とする請
求項１に記載の方法。
【請求項５】請求項１から請求項４までのいずれかに
記載の方法により生成した音声モデルを有する音声認識
システム。