JP2005084179A

JP2005084179A - 言語モデル作成方法およびその装置

Info

Publication number: JP2005084179A
Application number: JP2003313754A
Authority: JP
Inventors: Shinji Watabe; 晋治渡部; Takaaki Hori; 貴明堀
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-09-05
Filing date: 2003-09-05
Publication date: 2005-03-31
Anticipated expiration: 2023-09-05
Also published as: JP4263060B2

Abstract

【課題】線形和補間法をベイズ学習法で定式化し、解析的（反復計算無し）に計算することができ、過学習の起こらない一般化されたｎグラム言語モデリングを実現した言語モデルの作成方法を提供する。
【解決手段】ｎグラム言語モデルを線形和補間法により補間して言語モデルを作成する方法において、ｎグラム言語モデルの線形和補間法に対し、線形補間係数をモデル構造変数の事後確率値とみなし、ベイズ学習法によってｎグラム言語モデル全体を定式化することにより言語モデルを作成する。
【選択図】図２

Description

本発明は、言語モデル作成方法及びその作成方法が適用された言語モデル作成装置に関し、特に音声認識用言語モデル作成方法及びその作成方法が適用された言語モデル作成装置に関する。

図１を参照して従来の確率統計的音声認識装置、及び方法について説明する。
入力音声データは、特徴量変換部において特徴パラメータのベクトルデータ時系列Oに変換され、さらに探索処理部において言語データＤＢを用いて言語モデル作成部で作成された言語モデルで許容する単語列の仮説ｗ（＝｛ｗ₁，ｗ₂，・・・，ｗ_R｝≡｛ｗ｝₁ ^R）と対応した音声データＤＢを用いて音響モデル作成部で作成された音響モデルと特徴パラメータのベクトルデータ時系列とが照合される。この仮説の照合結果の評価値であるスコアは、入力音声と仮説との音響的な近さを示す音響スコアと仮説の存在する確率を言語スコアからなり、最も高いスコアを持つ仮説が認識結果（単語列ｗ＾）として出力される。

特徴量変換部における信号処理としてよく用いられるのは、ケプストラム分析であり、特徴パラメータOとしては、ＭＦＣＣ(Mel Frequency Cepstrum Coefficient)，対数パワーなどがある。
音響モデルとしては、確率統計理論に基づいてモデル化された隠れマルコフモデル（ＨＭＭ）が用いられる。
言語モデルは、認識対象とする文章を定義するための単語の連結関係を規定したものであり、単語を枝とした単語ネットワークや言語の確率モデル等が用いられる。連続音声認識の場合、任意の単語が任意の単語に接続可能な単語ネットワークの形式をとることが多い。このような形式をとることで単語ネットワークに登録されている単語の範囲内で任意の単語列の仮説の生成が可能となる。言語の確率モデルは、単語単体の存在確率、２つ以上の単語の連鎖する確率が用いられる。単語単体の存在確率を表すモデルは単語１グラム、単語の２連鎖確率、３連鎖確率、・・・、ｎ連鎖確率をそれぞれ表すモデルはそれぞれ、単語２グラム、単語３グラム、・・・ｎグラム確率と呼ばれる。この言語の確率モデルを用いることで、言語として存在し得ない仮説の生成を抑制することができる。

探索処理部では、文法で規定された単語の接続関係を示す単語ネットワーク上の仮説に対応した音響モデルと特徴パラメータのベクトルデータ時系列（時系列特徴量）を照合し、音響的な尤もらしさを示す音響スコアを求めると同時に、その仮説に対応した言語モデルから言語スコアをもとめ、音響スコアと言語スコアからなる仮説のスコアを、入力連続音声の始端から終端まで各仮説について求め、最も大きいスコアの仮説、つまり、入力音声に最も近い仮説を認識結果として出力する。
大語彙連続音声認識においては入力音声データの時系列特徴量Oに対しベイズ決定則により次のように出力単語列ｗ＾を求める。

ここで、p(O|w)（単語列ｗが与えられた時の時系列特徴量Oに対する確率）は音響モデル作成部において作られた音響モデルにより求められる。p(w)は単語列ｗの生起確率（出現確率）であり言語モデルと呼ばれ、言語モデル作成部において作られる。また、ｐ（O）はOが出現する確率（事前確率）である。
一般に言語モデルは、言語モデル作成部において、先行ｎ−１単語列の条件付確率によって表現され、新聞記事等の大量コーパスにより事前に学習して求められる。例えばコーパス（言語データＤＢ）Ｗから最尤学習により

によって推定することができる。

しかし、大語彙連続音声認識で必要とされる数万語規模の語彙サイズでｎグラムモデルの学習を行う場合、学習データが十分ではないため、従来の最尤学習では過学習および０頻度問題による性能低下に直面する。このような問題は、ｎ’グラム確率（ｎ’＜ｎ）によってｎグラム確率を補間することにより解決することが可能である。つまり単語列｛ｗ｝_R-(n'-1) ^R）は単語列単語列｛ｗ｝_R-(n-1) ^R）に比べて先行単語による拘束がゆるくコーパス中の頻度が多いため、ｎ’グラム確率の学習はｎグラム確率の学習に比べて統計的信頼性が高いからである。

補間法については、バックオフ補間法（非特許文献１参照）、階層ベイズ補間法（非特許文献２，３参照）等数多くの提案がある（非特許文献４にはこれらの従来法がまとめて記述されている。）が、ここでは一般的でありかつ後述する本発明と関係の深い線形和補間法（非特許文献４，５参照）について図２を参照して説明を行う。
ｎグラム言語モデルを次のように、ｎグラム，ｎ−１グラム，・・・，１グラム確率の線形和で表現するのが線形和補間法である。

トライグラムの場合について、補間係数λを求める手順を説明する。
まず、最初に学習データからｎグラムの確率値を求め、次にｎグラムの学習に用いたものとは別の評価用データを用いて補間係数を推定する。補間係数は、上記式による評価データの生成確率が最大となるように決める。もし評価データ中の３つ組ｗ_R-2，ｗ_R-1,ｗ_R
の出現頻度が小さいならば式のλ₃としては小さな値が推定される。この場合において、ｎグラムを求めるのに用いたデータと同一のデータを用いて補間係数を求めることはできない。なぜならば、学習データと評価用データが同じ場合には、ｎの値が大きいほど推定精度がよいため、必然的にλ₃＝１，λ₂＝０，λ₁＝０となってしまうからである。したがって、ｎグラム確率の推定と補間係数の推定は、異なったデータを使って行う必要がある。
線形補間係数も最尤学習により求まるが、ＥＭ(expectation-maximization)アルゴリズムによる反復計算が必要なため、計算量が多くなる。また、過学習を引き起こす可能性がある。
I. Witten and T.Bell,"The zero-frequency problem: Estimating the probability of novel events in adaptive text compression, " IEEE Trans. on IT , vol.37(4), pp.1085-1094 ,(1991) D. MacKay and L. Peto, "A Hierarchical Dirichlet Language Model,"Natural Languate Engineering, vol. 1(3), pp. 1-19 (1995). 川端豪田本真司，"二項事後分布に基づくＮ−グラム言語モデルのBack-off平滑化，"信学技報，SP95-93，pp.1-6，(1995)．北研二，"確率的言語モデル，"東京大学出版会，pp.57-72，(1999)。 S. Chen, "Building Probabilistic Models for Natural Language,"Ph. D Thesis, Harvard University, (1996).

従来のｎグラム言語モデルにおける適切な推定値を得るための確率値のスムージングを行う線形和補間法は、（１）線形和補間法は補間係数をＥＭアルゴリズムによる反復計算で求める必要があるため、計算量が多くなる、（２）ｎグラム確率及び補間係数は最尤学習により求められるため、少量データの場合、過学習による性能低下を生じる、問題があった。

本発明は、線形和補間法をベイズ学習法で定式化し、過学習の起こらない一般化されたｎグラム言語モデリングを実現する。

線形補間係数をベイズ学習法により解析的且つ反復計算無しで求めることができる。
ベイズ学習の効果により線形補間係数学習時に過学習が起こらない。
バックオフ補間法及び階層ベイズ補間法を内包する一般化された枠組であるため、他のタスクやモデルに対して拡張性が高い。
以上の３点は本発明の機能的効果である。本発明はベイズ学習法により定式化された手法であるため、少量学習データで過学習を緩和し、性能において従来法を上回ることが期待される。性能的効果を具体的な実験によって、示す。本報告では提案手法を、標準的バックオフ補間法であるWitten-Bell法（非特許文献１参照。以下「ＷＢ法」という。）と２種類の評価セット（毎日新聞及びＣＳＪ）を用いて、Perplexityによる比較を行った（表１参照）。
毎日新聞タスクでは学習データを９５年の新聞記事とし、評価データは９６年の新聞記事２００文を用いた。ＣＳＪ(corpus of spontaneous Japanese)タスクでは、ＣＳＪ学習データに対し、男性話者学術講演評価用データ５０２文を用いて実験を行った。ベイズ学習による少量データでの効果を見るため、本実験では学習データをそれぞれ通常より少ない１０，０００文に設定した。表１から分かるように提案手法は両データに対してＷＢ法を凌ぐ性能を示した。

図３を参照して本発明のベイズ学習による線形和補間方法を説明する。
はじめに、形態素解析され電子化された学習コーパス（言語データＤＢ）Ｗにより学習される単語ｗ_Rの生起確率ｐ（ｗ_R｜Ｗ）をｎグラムで表現する。

ここで、ｍはモデル構造変数（確率変数）であり、ｍ＝ｎ（確率変数値）であればｎグラムモデル構造を表す。このモデル構造変数を確率変数とみなし、その事後確率を解析的に計算してそれを線形補間係数とするところが本発明の根幹となるアイデアである。

以下に説明の簡略化のため３グラムに対して定式化を行うが一般のｎグラムに対しても同様の定式化は可能である。
ｎグラム確率ｐ（ｗ_R｜ｍ＝１，Ｗ），ｐ（ｗ_R｜ｍ＝２，ｗ_Rー1，Ｗ），及びｐ（ｗ_R｜ｍ＝３，ｗ_Rー2，ｗ_Rー1，Ｗ）は事前確率分布を設定することにより、ベイズの定理によって求めることができる。簡単のためｗ_Rー2＝ｉ，ｗ_Rー1＝ｊ，ｗ_R＝ｋとし、またＵ：ｍ＝１，Ｂ：ｍ＝２，Ｔ：ｍ＝３と表すと、ｐ（ｋ｜Ｕ，Ｗ），ｐ（ｋ｜ｊ，Ｂ，Ｗ），及びｐ（ｋ｜ｉ，ｊ，Ｔ，Ｗ）の具体形は、Dirichlet分布関数型の共役事前確率分布を用いることにより次のように導出することができる。

ここで、ψ_k，ψ_jk，ψ_ijkは事後確率パラメータであり、学習コーパスＷ中に出現する頻度Ｃ_k，Ｃ_jk、Ｃ_ijk及び事前確率分布パラメータψ_k ⁰，ψ_jk ⁰，ψ_ijk ⁰を用いて次のように表される。

（５）式に示すように、ｐ（ｋ｜Ｕ，Ｗ），ｐ（ｋ｜ｊ，Ｂ，Ｗ），及びｐ（ｋ｜ｉ，ｊ，Ｔ，Ｗ）は事後確率分布パラメータψ_k，ψ_jk，ψ_ijkで表現されており、（６）式に示すように頻度Ｃ_k，Ｃ_jk、Ｃ_ijkが事前確率分布パラメータψ_k ⁰、ψ_jk ⁰，ψ_ijk ⁰によって補正されているため過学習（すなわち、コーパス中に出現する頻度が小さい場合において単語列を０にしてしまう問題）が緩和される。

ｐ（Ｕ｜ｉ，ｊ，Ｗ），ｐ（Ｂ｜ｉ，ｊ，Ｗ），ｐ（Ｔ｜ｉ，ｊ，Ｗ）はｎグラムモデル構造に対する事後確率であり、事前確率分布及び事後確率分布パラメータを用いて次のように解析的に求まる。

ここで、Γ（・）はΓ関数である。またＣ_k（ｉ，ｊ）≡Ｃ_kΣ_k（Ｃ_ijk）／Σ_k（Ｃ_k），（Ｃ_jk（ｉ））≡Ｃ_jkΣ_k（Ｃ_ijk）／Σ_k（Ｃ_jk）はｋについての和を取った場合にΣ_k（Ｃ_ijk）になるように規格化された頻度である。また、φ_k ⁰，φ_jk ⁰，φ_ijk ⁰はモデル構造事後確率導出時に与えれらる事前確率分布パラメータである。ψ_k ⁰，ψ_jk ⁰，ψ_ijk ⁰とは区別して用いられる。したがって、ｐ（Ｕ｜ｉ，ｊ，Ｗ），ｐ（Ｂ｜ｉ，ｊ，Ｗ），ｐ（Ｔ｜ｉ，ｊ，Ｗ）は、エビデンス(evidence)ｆ_ij（Ｕ），ｆ_ij（Ｂ），ｆ_ij（Ｔ）を用いて次のように求めることができる。

このように本手法は式（７）及び式（８）を用いて解析的に（反復計算を行わずに）線形和補間係数を計算することができる。また線形和補間係数、ｎグラム確率は共に頻度が事前確率分布パラメータによって補正されているため、過学習が緩和されている。また、式（６）における事前確率分布パラメータの設定は一般性が高く、バックオフ補間法及び階層ベイズ補間法を内包した枠組みになっている。つまり本発明は従来法を内包する拡張性の高い枠組である。そのため、学習データやテストデータを変えた場合に対応しやすく、またｎグラムモデルをクラスｎグラムに拡張した場合も本手法をそのまま適応することができる。

確率統計的音声認識装置の概要構成を示す図。従来のｎグラム言語モデリングにおける最尤学習による線形和補間法を説明する図。本発明のｎグラム言語モデリングにおけるベイズ学習による線形和補間法を説明する図。

Claims

ｎグラム言語モデルを線形和補間法により補間して言語モデルを作成する言語モデル作成方法において、
ｎグラム言語モデルの線形和補間法に対し、線形補間係数をモデル構造変数の事後確率値とみなし、ベイズ学習法によってｎグラム言語モデル全体を定式化することにより言語モデルを作成する言語モデル作成方法。
ｎグラム言語モデルを線形和補間法により補間した言語モデルを作成する言語モデル作成装置において、
ｎグラム言語モデルの線形和補間法に対し、線形補間係数をモデル構造変数の事後確率値とみなし、ベイズ学習法によってｎグラム言語モデル全体を定式化することにより言語モデルを作成する言語モデル作成装置。