JP2000099086A

JP2000099086A - 確率言語モデル学習方法、確率言語適応方法及び音声認識装置

Info

Publication number: JP2000099086A
Application number: JP10267490A
Authority: JP
Inventors: Koichi Shinoda; 浩一篠田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-09-22
Filing date: 1998-09-22
Publication date: 2000-04-07

Abstract

(57)【要約】【課題】音声認識で用いられる言語モデル、特にＮ単
語連鎖（Ｎグラム）を用いた確率言語モデルにおける従
来のスムージング手法は、コーパス中に出現しているが
頻度が小さいｎグラム確率の推定が不安定になる。【解決手段】頻度積算手段５０１においてコーパス中
のｎグラム出現頻度を求めたのち、事後確率最大化条件
付確率計算手段において、ｎ−１グラムの条件付確率も
用いて、ｎグラムの条件付確率を求める。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は確率言語モデルの学
習方法に関し、特に音声認識に用いられる、自然言語を
対象とした、単語連鎖確率を用いる確率言語モデルの学
習方法に関する。

【０００２】

【従来の技術】現在、音声認識においては連続音声の音
声認識技術の開発が盛んである。連続音声とは単語ごと
の発声ではない、文、文節などの単語列の発声のことで
ある。単語ごとの発声の音声認識では、入力音声と、音
素、音節、単語などの単位ごとに用意された標準パター
ンとのパターンマッチングが主であった。このようなパ
ターンマッチングに用いられるもでるは、音響モデルと
呼ばれる。連続音声の認識の場合には、音響もでるのみ
では認識性能があがらない。例えば、「開発が盛んであ
る」と「開発が左官である」では、音響情報では区別が
つかないが、言語のつながりとして前者が明らかにもっ
ともらしい。この例以外にも、音響的に似通った認識結
果の候補に対し、言語情報を用いて順位づけをすること
の意義は容易に理解できるであろう。

【０００３】このように、連続音声の認識においては続
きやすい単語列についての情報が必要である。音声認識
における言語モデルはそのような単語の連鎖に対する制
約を記述したものである。一般に、音響モデル、言語モ
デルとも確率モデルが用いられており、連続音声の音声
認識においては、音響モデルによる確率と言語モデルに
よる確率の和が入力音声の出現確率となる。図１は、連
続音声を認識する装置の概略ブロック図を示したもので
ある。

【０００４】ここでは、単語ごとに区切った単語列を入
力とし、入力ごとに単語候補(W1、、、WK、、、WN)から一つを
選び認識結果とする場合について説明する。まず、音響
確率計算手段１０２では、入ってきた音声Ｘに対し、単
語ごとに予め記憶媒体に格納されている音響モデル１０
１を用いてパターンマッチングが行われる。そして単語
ごとに、入力音声Ｘがある単語ＷＫから発生した確率P
(X|WK) が、すべての単語について計算される。つぎ
に、言語確率計算手段１０４では、予め記憶媒体に格納
されている言語モデル１０３を用いて単語ＷＫが発生す
る言語確率P{WK} がすべての単語ＷＫについて計算され
る。このP(WK) は上述のように単語の連鎖に関する情報
を用いて決定される。そして、P(X|WK)P(WK)が計算され、
その値がもっとも大きい単語が認識結果として出力され
る。ここでは単語ごとに入力を区切った場合について説
明したが、単語ごとに区切らない場合についても基本的
には同様に説明できる。より詳しい説明は例えば、「音
声言語処理コーパスに基づくアプローチ」北、中村、
永田、森北出版、１９９６（以下文献１とする）の第３
章にある。

【０００５】さて上述したように、言語モデルは、一般
には単語の連鎖に対する制約を記述したものである。従
来、言語モデルとしてはＮグラムモデルと呼ばれる、単
語Ｎ個の連鎖の出現する確率を記述するモデルが一般に
用いられてきている。Ｎとして大きな値をとると、組み
合わせの数が膨大となるので、通常、Ｎとしては２、３
などの値が用いられる。Ｎ＝２の場合をバイグラム、Ｎ
＝３の場合はトライグラムと呼ばれる。ここではトライ
グラムを例にとって説明する。直前の出現単語列がＵ、
Ｖだったとき、次の単語がＷである確率 P(W|U、V) を３
グラムの条件付確率と呼ぶ。この条件付確率をすべての
出現可能な単語列(U、V、W) について保持したものがトラ
イグラム言語モデルである。この条件付確率は、通常、
ある大きなデータベースにおいて、実際に起きる事象を
カウントすることによって得られる。

【０００６】言語モデル用のデータベースはコーパスと
呼ばれる。しばしば新聞などがその用途に用いられ、近
年は数百万文から構成される大規模コーパスがしばしば
利用されている。例えばトライグラムの場合、P(W|U、V)
は単語列(U、V、W) が出現するカウント数C(U、V、W)を単語
列(U、V) が出現するカウント数C(U、V)で割ることにより
得られる。しかし、このようなＮグラムモデルの実用化
においては、組み合わせの数が膨大となり、一回もデー
タベースに出現しないトライグラムが現れたり、ほんの
数回しか現れないトライグラムが多数ある、という場合
に問題がある。前者では単語列の出現確率が０になる。
後者では非常に小さい確率になり、しかも推定精度は低
くなる。これらは認識性能の劣化をもたらす。

【０００７】この問題を解決するために、すべての単語
連鎖の条件付確率が等しくなる方向へ、確率値を操作す
るスムージングと呼ばれる操作が従来しばしば行われて
きた。多くの場合、Ｎグラムの条件付確率のスムージン
グはＮ−１グラムの条件付確率を用いて行われることが
多い。例ば、トライグラムの条件付確率P(W|U、V)のスム
ージングはバイグラムの条件付確率P(W|V)を用いて行わ
れる。以下、Ｎグラム条件付確率のスムージング方法に
ついて説明する。

【０００８】まず、図２にそってＮグラム条件付確率の
スムージング手法の構成について説明する。言語コーパ
ス２０１は多くの文章から構成されるテキストデータベ
ースである。さらに、０グラム確率モデル（２０４−
０）、１グラム確率モデル（２０４−１）、Ｎ−１グラ
ム確率モデル（２０４−Ｎ−１）を格納する記憶媒体が
用意される。これらはＮグラム推定手段におけるＮグラ
ム推定の途中段階で推定されたｎグラム（０≦ｎ≦Ｎ−
１）を一時的に保存するために用いられる。

【０００９】Ｎグラム推定手段２０２では、これらのコ
ーパス、モデルを用いてＮグラム条件付確率のスムージ
ングを行い、Ｎグラム言語モデル２０３を出力する。

【００１０】つぎに、図３にそってＮグラム条件付確率
スムージング手法のアルゴリズムを説明する。

【００１１】まず、ゼログラム確率設定手段３０１にお
いて、ゼログラム確率をセットする。これはサンプルを
観測する前に仮定される確率である。多くの場合、ゼロ
グラム確率はすべての単語について等しい。例えば、最
大単語種類数を仮定し、その逆数をおのおのの単語のゼ
ログラム確率と定義する。このゼログラム確率は０グラ
ム確率モデル（２０４−０）として格納される。

【００１２】つぎに、Ｎグラムの条件付き確率のスムー
ジングを行うためにはｎ＝１からＮまで、ｎグラム推定
手段３０３によるｎグラムのスムージングを順に行う。
ｎグラム推定には、２０４−ｎ−１に格納された（ｎ−
１）グラムが利用され、ｎ＜Ｎの間は、推定されたｎグ
ラム条件付確率はｎグラム確率モデル２０４−ｎに格納
される。ｎ＝Ｎとなったところで、このループを抜け
る。出力されたＮグラム条件付確率は言語モデルとして
用いられる。

【００１３】さて、図３のｎグラム推定手段３０３にお
いては、従来、バックオフ手法と呼ばれる手法が一般に
用いられてきた。バックオフ手法については文献１の
２．４節の説明が詳しい。ここでは一例として、１９８
７年にＩＥＥＥから発行されたTransaction on Speech
and Signal Processing の第３５巻Ｎｏ．３の第４００
頁ないし第４０１頁に掲載されたEstimation of probab
ilities from sparse data for the language model co
mponent of speech recognizerと題するS.Katzによる論
文（以下文献２）に記載されている方法の概要について
説明する。

【００１４】図４にその手法のアルゴリズムを示す。こ
の方法は、頻度積算手段４０１と、頻度減算手段４０２
と、未出現単語連鎖頻度算出手段４０３と、条件付確率
算出手段４０４とから構成されている。このような構成
を有する従来の確率言語モデルの学習方法はつぎのよう
に動作する。ここでは、バックオフ手法を３連鎖（トラ
イグラム）の条件付き確率を推定する場合を例にとって
図４にそって説明する。

【００１５】言語コーパス中の単語の種類数がＮのとき
Ｗ、Ｕ、Ｖのすべての組み合わせについて単語Ｕ、Ｖを
観測した後、続けて単語Ｗが出現する条件付き確率P(W|
U、V)を以下の手続きにより計算する。

【００１６】まず、頻度積算手段４０１において、単語
Ｕ、Ｖ、Ｗがこの順番で言語コーパス中に観測される回
数（頻度）C(U、V、W)を求める。

【００１７】次の頻度減算手段４０２では、すべての３
連鎖において、頻度が１以上のものについて以下の減算
を行う。

【００１８】CD(U,V、W) = F(C(U,V,W))、 C(U、V、W) > 0 ここで、Ｆ（ｘ）はｘに関する単調増加関数で、F(x)≦
x である。Ｆ（ｘ）としてさまざまな関数が用いられ
る。

【００１９】文献２では特に、グット・チューリング推
定値という先験知識に基づいた関数が用いられている。

【００２０】次の未出現連鎖頻度算出手段４０３におい
ては、まず、以下の式に従い、未出現の３連鎖全体を合
計した頻度が以下の式で計算される。 CN = CD(U、V) - ΣCD(U,V,W) ここで和はC(U、V、W)>0を満たすすべてのＷについてと
る。ＣＤ（Ｕ，Ｖ）は単語列Ｕ、Ｖを観測した頻度であ
り、すでに図３におけるｎグラム推定手段３０３で１ル
ープ前、すなわち、２−グラム（バイグラム）のスムー
ジングにより求められている。そしてこのＣＮを２連鎖
（バイグラム）の条件付き確率に比例するようにおのお
のの未出現３連鎖に分配する。 CD(U,V、W) = CN × P(W|V) / ΣP(W|V)、 C(U,V,W) =0 ここで分母の輪はC(U,V,W)=0となるすべてのＷについて
とる。この CD(U、V、W)が未出現連鎖頻度である。

【００２１】次の条件付確率算出手段４０４では、条件
付き確率が以下のように求められる。 P(W|U、V) = CD(U,V,W) / CD(U、V) 以上、文献２に記載のバックオフに基づくｎグラム推定
手段３０３について説明した。

【００２２】図３に示すようにこのｎグラム推定手段３
０３をｎ＝１からＮまで繰り返し行うことにより、Ｎグ
ラムの確率言語モデルを得ることができる。以上、バッ
クオフに基づくＮグラム条件付確率のスムージングにつ
いて説明した。

【００２３】さて、言語モデルは用いられる状況によっ
て別々なモデルを用いると認識性能が向上すると考えら
れる。例えば、チケット予約などの状況における音声を
認識しようとする場合、その状況に頻繁に現れる単語列
に対し高い確率を与えることで、その単語列を認識しや
すくさせるといった操作が可能である。

【００２４】ここでの問題は、状況を限定した場合、そ
のような状況で用いることのできるコーパスのサイズ
が、かなり少なくなり、確率の推定が不安定になるとい
うことである。従来この問題に対しては、状況を限定し
ない大規模データベースと、状況を限定した用途限定コ
ーパスを用意し、前者を用いて推定された言語モデル
を、後者に対して適応させる、言語適応というアプロー
チが開発されてきた。

【００２５】図６に基づいて従来の言語適応手法につい
て説明する。この手法は例えば日本音響学会平成１０年
度春季研究発表会講演論文集第１巻、ｐ４３−４４に
「Ｎ−ｇｒａｍタスク適応の認識実験による評価」伊
藤、好田（以下、文献３）にある。ここではトライグラ
ムの適応を例にとって説明する。

【００２６】今、基準となる大語彙コーパスを基準コー
パスとよびＡの添え字であらわす。また、適応の対象と
なるコーパスを適応コーパスとよびＢの添え字であらわ
す。このとき、適応コーパスのＮグラム確率PB‘(W|U、
V)はコーパスＡのＮグラム確率モデル６０１中に記憶さ
れている条件付確率PA(W|U、V)と、適応コーパスのみか
ら求められたＮグラム確率PB(W|U、V)を用いて以下のよ
うに計算される。

【００２７】 PB‘(W|U、V) = (1-γ)PB(U|V、W)+ γPA(W|U、V) ここでγは０から１の間の実数である。

【００２８】

【発明が解決しようとする課題】第１の問題点は、従来
のスムージング方法は、頻度が０のＮグラムの種類数
が、頻度が小さい（１回、２回）Ｎグラムの種類数に比
して充分大きいときには有効であるが、同じ数程度の場
合には、出現しているが頻度が小さいｎグラム確率の推
定が不安定になるという点である。これは従来のスムー
ジング手法は、出現頻度が０のＮグラムについてのみＮ
−１グラムの確率を利用して求める手法であり、出現頻
度が１回、２回など頻度が小さいＮグラムの確率のスム
ージングにおいては単に頻度を減算しているのみでＮ−
１グラムの確率は利用していないためである。

【００２９】第２の問題点は、従来の言語適応方法で
は、適応コーパス中のｎグラムの出現頻度数が小さいと
き推定が不安定になる点である。これもやはり、適応コ
ーパスにおいて出現頻度の小さいＮグラム確率の推定
に、適応コーパスにおけるＮ−１グラムを利用していな
いためである。

【００３０】本発明の目的は、コーパス中の出現頻度が
小さいＮグラムの推定を安定に行うことができる確率言
語モデル学習方法を提供することにある

【００３１】

【課題を解決するための手段】本発明の確率言語モデル
学習方法は、言語コーパスを用いた確率言語モデルの学
習方法において、Ｎグラム出現頻度とＮ−１グラムの条
件付確率とを用いて出現頻度が０でないＮグラムの条件
付確率を求め、当該条件付確率を用いて前記確率言語モ
デルを生成することを特徴とする。

【００３２】本発明の音声認識装置は、入力音声と標準
パターンとのパターンマッチングに用いられる確率音響
モデルと、単語の連鎖に関する制約を記述した確率言語
モデルとを備え、単語列からなる音声を確率に基づき認
識する音声認識装置において、Ｎグラム出現頻度とＮ−
１グラムの条件付確率とを用いて出現頻度が０でないＮ
グラムの条件付確率を求め、当該条件付確率を用いて前
記確率言語モデルを生成することを特徴とする。

【００３３】本発明の確率言語適応方法は、基準言語コ
ーパスから適応言語コーパスへの言語適応方法におい
て、基準コーパスＮグラム確率モデルと適応コーパスＮ
−１グラム確率モデルとを用いて出現頻度が０でないＮ
グラム条件付確率の適応を行い、当該条件付確率を用い
て確率言語モデルを生成することを特徴とする。

【００３４】本発明の音声認識装置は、入力音声と標準
パターンとのパターンマッチングに用いられる確率音響
モデルと、単語の連鎖に関する制約を記述した確率言語
モデルとを備え、単語列からなる音声を確率に基づき認
識する音声認識装置において、基準コーパスＮグラム確
率モデルと適応コーパスＮ−１グラム確率モデルとを用
いて出現頻度が０でないＮグラム条件付確率の適応を行
い、当該条件付確率を用いて確率言語モデルを生成する
ことを特徴とする。

【００３５】

【発明の実施の形態】本発明におけるスムージング方法
について図５を参照して詳細に説明する。本発明におけ
るスムージング方法は、図１に示すような構成の連続音
声認識における言語確率推定手段において用いられ、言
語確率推定手段としては、図２、３に示すような構成お
よび動作を行うＮグラム推定手段を用いる。本発明のス
ムージング方法は、図３におけるｎグラム推定手段で用
いられる手法である。すなわち本発明のスムージング方
法は、図４に示された文献２のバックオフを用いたｎグ
ラム推定手段に代わるものである。文献２の説明の場合
と同様、トライグラムについて、特に、単語列Ｕ、Ｖ、
Ｗに対する条件付確率P（W｜U、V）を求める場合につい
て説明する。

【００３６】図５を参照すると、本発明におけるスムー
ジング方法は、特に、頻度積算手段５０１と、事後確率
最大化条件付確率計算手段５０２とから構成されてい
る。これらの手段はそれぞれ次のように動作する。

【００３７】頻度積算手段５０１は、頻度積算手段４０
１と同様に、単語列Ｕ、Ｖ、Ｗの出現頻度C（U、V、W）
を求める。

【００３８】事後確率最大化条件付確率計算手段５０２
は、条件付確率P（W|U、V）を次のように求める。本発
明ではｎグラムの条件付き確率に対し、ｎ−１グラムを
その事前分布として用いる。今、ｎグラムの条件付き確
率を多値分布、その事前分布はディレクレ分布であると
仮定する。そのとき、事後確率を最大にするｎグラムの
条件付確率は、ｎ−１グラムの条件付き確率を用いて以
下のように計算される。

【００３９】 P(W|U、V) = (C(U,V、W) + β P(W|V))/(C(U、V)+β) これは任意のｎをもつｎグラムについて計算できる。β
は制御変数であり、事前に与えられる必要がある。この
手法は、文献２の手法に比べると、条件付き確率の事前
分布をある特定の分布（ここではディレクレ分布）に仮
定することにより、より現実の事象に近い条件付確率を
求める手法とみなすことが可能である。また、上の式か
ら容易にわかるように、文献２の手法のような、単語列
Ｕ、Ｖ、Ｗの出現頻度C(U、V、W)が０かどうかによって
推定方法を変える手法ではない。出現頻度が０の場合の
みならず、極めて小さい場合にも、ｎ−１グラムの条件
付確率を出現頻度と重みつけて用いる手法となってお
り、出現確率が極めて小さいときの条件付確率の推定が
安定して行える。

【００４０】図６は本発明の言語適応方法の動作および
構成を示した図である。今、基準となるコーパスをＡ、
適応の対象となるコーパスをＢとする。このとき、コー
パスＢの適応ｎグラム確率はPB(W|U、V)はコーパスＡの
ｎグラム確率PA(W|U、V)、コーパスＢのｎ−１グラム確
率PB(W|V)を用いて以下のように計算する。

【００４１】PB(W|U、V) = (CB(U、V、W)+β PB(W|V) + γ
PA(W|U、V)) / (CB(U、V) + β + γ) ここで、β、γは制御変数である。

【００４２】この式から容易にわかるように、本発明は
文献３の言語適応の手法と異なり、コーパスＢのｎ−１
グラムの条件付確率も用いて、適応後のｎグラム確率を
求めている。したがって、適応コーパス中の出現確率が
極めて小さいときでも適応条件付確率の推定が安定して
行える。任意のｎに対して拡張可能である。

【００４３】

【発明の効果】第１の効果は、確率言語モデルのスムー
ジングにおいて、言語コーパス中の出現頻度の小さいＮ
グラムに対する条件付確率の推定が安定になる。これ
は、出現頻度が０でないＮグラム条件付確率の推定にお
いて、Ｎ−１グラムの条件付確率を利用しているためで
ある。

【００４４】第２の効果は、確率言語モデルの言語適応
において、適応コーパス中の出現頻度の小さいＮグラム
に対する条件付確率の推定が安定になる。これは、出現
頻度が０でないＮグラム条件付確率の適応において、適
応コーパスにおけるＮ−１グラムの条件付確率を利用し
ているためである。

【図面の簡単な説明】

【図１】図１は連続音声認識装置の実施の形態を示すブ
ロック図である。

【図２】図２はＮグラム確率言語モデル学習の実施の形
態を示すブロック図である。

【図３】図３はＮグラム確率言語モデル学習の実施の形
態の動作を示す流れ図である。

【図４】図４は文献２のバックオフＮグラム条件付確率
スムージング手法の実施の形態の動作を示す流れ図であ
る。

【図５】図５は本発明におけるＮグラム条件付確率確率
スムージング手法の実施の形態の動作を示す流れ図であ
る。

【図６】図６は文献３のＮグラム確率言語モデル適応の
実施の形態を示すブロック図である。

【図７】図７は本発明におけるＮグラム確率言語モデル
適応の実施の形態を示すブロック図である。

【符号の説明】

１０１音響モデル１０２音響確率計算手段１０３言語モデル１０４言語確率計算手段２０１言語コーパス２０２Ｎグラム推定手段２０３Ｎグラム言語モデル２０４−ｎｎグラム確率モデル３０１ゼログラム確率設定手段３０３ｎグラム推定手段４０１頻度積算手段４０２頻度減算手段４０３未出現連鎖頻度算出手段４０４条件付確率算出手段５０１頻度積算手段５０２事後確率最大化条件付確率計算手段６０１基準コーパスＮグラム確率モデル６０２Ｎグラム確率適応手段６０３適応コーパスＮグラム確率モデル６０４適応Ｎグラム確率モデル７０１基準コーパスＮグラム確率モデル７０２Ｎグラム確率適応手段７０３適応Ｎグラム確率モデル７０４−ｎ適応コーパスｎグラム確率モデル

Claims

【特許請求の範囲】

【請求項１】言語コーパスを用いた確率言語モデルの学
習方法において、Ｎグラム出現頻度とＮ−１グラムの条
件付確率とを用いて出現頻度が０でないＮグラムの条件
付確率を求め、当該条件付確率を用いて前記確率言語モ
デルを生成することを特徴とする確率言語モデル学習方
法。
【請求項２】入力音声と標準パターンとのパターンマッ
チングに用いられる確率音響モデルと、単語の連鎖に関
する制約を記述した確率言語モデルとを備え、単語列か
らなる音声を確率に基づき認識する音声認識装置におい
て、Ｎグラム出現頻度とＮ−１グラムの条件付確率とを
用いて出現頻度が０でないＮグラムの条件付確率を求
め、当該条件付確率を用いて前記確率言語モデルを生成
することを特徴とする音声認識装置。
【請求項３】基準言語コーパスから適応言語コーパスへ
の言語適応方法において、基準コーパスＮグラム確率モ
デルと適応コーパスＮ−１グラム確率モデルとを用いて
出現頻度が０でないＮグラム条件付確率の適応を行い、
当該条件付確率を用いて確率言語モデルを生成すること
を特徴とする確率言語適応方法。
【請求項４】入力音声と標準パターンとのパターンマッ
チングに用いられる確率音響モデルと、単語の連鎖に関
する制約を記述した確率言語モデルとを備え、単語列か
らなる音声を確率に基づき認識する音声認識装置におい
て、基準コーパスＮグラム確率モデルと適応コーパスＮ
−１グラム確率モデルとを用いて出現頻度が０でないＮ
グラム条件付確率の適応を行い、当該条件付確率を用い
て確率言語モデルを生成することを特徴とする音声認識
装置。