JP2005084179A - 言語モデル作成方法およびその装置 - Google Patents

言語モデル作成方法およびその装置 Download PDF

Info

Publication number
JP2005084179A
JP2005084179A JP2003313754A JP2003313754A JP2005084179A JP 2005084179 A JP2005084179 A JP 2005084179A JP 2003313754 A JP2003313754 A JP 2003313754A JP 2003313754 A JP2003313754 A JP 2003313754A JP 2005084179 A JP2005084179 A JP 2005084179A
Authority
JP
Japan
Prior art keywords
language model
gram
model
probability
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003313754A
Other languages
English (en)
Other versions
JP4263060B2 (ja
Inventor
Shinji Watabe
晋治 渡部
Takaaki Hori
貴明 堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003313754A priority Critical patent/JP4263060B2/ja
Publication of JP2005084179A publication Critical patent/JP2005084179A/ja
Application granted granted Critical
Publication of JP4263060B2 publication Critical patent/JP4263060B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】線形和補間法をベイズ学習法で定式化し、解析的(反復計算無し)に計算することができ、過学習の起こらない一般化されたnグラム言語モデリングを実現した言語モデルの作成方法を提供する。
【解決手段】nグラム言語モデルを線形和補間法により補間して言語モデルを作成する方法において、nグラム言語モデルの線形和補間法に対し、線形補間係数をモデル構造変数の事後確率値とみなし、ベイズ学習法によってnグラム言語モデル全体を定式化することにより言語モデルを作成する。
【選択図】図2

Description

本発明は、言語モデル作成方法及びその作成方法が適用された言語モデル作成装置に関し、特に音声認識用言語モデル作成方法及びその作成方法が適用された言語モデル作成装置に関する。
図1を参照して従来の確率統計的音声認識装置、及び方法について説明する。
入力音声データは、特徴量変換部において特徴パラメータのベクトルデータ時系列Oに変換され、さらに探索処理部において言語データDBを用いて言語モデル作成部で作成された言語モデルで許容する単語列の仮説w(={w1,w2,・・・,wR}≡{w}1 R)と対応した音声データDBを用いて音響モデル作成部で作成された音響モデルと特徴パラメータのベクトルデータ時系列とが照合される。この仮説の照合結果の評価値であるスコアは、入力音声と仮説との音響的な近さを示す音響スコアと仮説の存在する確率を言語スコアからなり、最も高いスコアを持つ仮説が認識結果(単語列w^)として出力される。
特徴量変換部における信号処理としてよく用いられるのは、ケプストラム分析であり、特徴パラメータOとしては、MFCC(Mel Frequency Cepstrum Coefficient),対数パワーなどがある。
音響モデルとしては、確率統計理論に基づいてモデル化された隠れマルコフモデル(HMM)が用いられる。
言語モデルは、認識対象とする文章を定義するための単語の連結関係を規定したものであり、単語を枝とした単語ネットワークや言語の確率モデル等が用いられる。連続音声認識の場合、任意の単語が任意の単語に接続可能な単語ネットワークの形式をとることが多い。このような形式をとることで単語ネットワークに登録されている単語の範囲内で任意の単語列の仮説の生成が可能となる。言語の確率モデルは、単語単体の存在確率、2つ以上の単語の連鎖する確率が用いられる。単語単体の存在確率を表すモデルは単語1グラム、単語の2連鎖確率、3連鎖確率、・・・、n連鎖確率をそれぞれ表すモデルはそれぞれ、単語2グラム、単語3グラム、・・・nグラム確率と呼ばれる。この言語の確率モデルを用いることで、言語として存在し得ない仮説の生成を抑制することができる。
探索処理部では、文法で規定された単語の接続関係を示す単語ネットワーク上の仮説に対応した音響モデルと特徴パラメータのベクトルデータ時系列(時系列特徴量)を照合し、音響的な尤もらしさを示す音響スコアを求めると同時に、その仮説に対応した言語モデルから言語スコアをもとめ、音響スコアと言語スコアからなる仮説のスコアを、入力連続音声の始端から終端まで各仮説について求め、最も大きいスコアの仮説、つまり、入力音声に最も近い仮説を認識結果として出力する。
大語彙連続音声認識においては入力音声データの時系列特徴量Oに対しベイズ決定則により次のように出力単語列w^を求める。
Figure 2005084179
ここで、p(O|w)(単語列wが与えられた時の時系列特徴量Oに対する確率)は音響モデル作成部において作られた音響モデルにより求められる。p(w)は単語列wの生起確率(出現確率)であり言語モデルと呼ばれ、言語モデル作成部において作られる。また、p(O)はOが出現する確率(事前確率)である。
一般に言語モデルは、言語モデル作成部において、先行n−1単語列の条件付確率によって表現され、新聞記事等の大量コーパスにより事前に学習して求められる。例えばコーパス(言語データDB)Wから最尤学習により
Figure 2005084179
によって推定することができる。
しかし、大語彙連続音声認識で必要とされる数万語規模の語彙サイズでnグラムモデルの学習を行う場合、学習データが十分ではないため、従来の最尤学習では過学習および0頻度問題による性能低下に直面する。このような問題は、n’グラム確率(n’<n)によってnグラム確率を補間することにより解決することが可能である。つまり単語列{w}R-(n'-1) R)は単語列単語列{w}R-(n-1) R)に比べて先行単語による拘束がゆるくコーパス中の頻度が多いため、n’グラム確率の学習はnグラム確率の学習に比べて統計的信頼性が高いからである。
補間法については、バックオフ補間法(非特許文献1 参照)、階層ベイズ補間法(非特許文献2,3 参照)等数多くの提案がある(非特許文献4にはこれらの従来法がまとめて記述されている。)が、ここでは一般的でありかつ後述する本発明と関係の深い線形和補間法(非特許文献4,5 参照)について図2を参照して説明を行う。
nグラム言語モデルを次のように、nグラム,n−1グラム,・・・,1グラム確率の線形和で表現するのが線形和補間法である。
Figure 2005084179
トライグラムの場合について、補間係数λを求める手順を説明する。
まず、最初に学習データからnグラムの確率値を求め、次にnグラムの学習に用いたものとは別の評価用データを用いて補間係数を推定する。補間係数は、上記式による評価データの生成確率が最大となるように決める。もし評価データ中の3つ組wR-2,wR-1,R
の出現頻度が小さいならば式のλ3としては小さな値が推定される。この場合において、nグラムを求めるのに用いたデータと同一のデータを用いて補間係数を求めることはできない。なぜならば、学習データと評価用データが同じ場合には、nの値が大きいほど推定精度がよいため、必然的にλ3=1,λ2=0,λ1=0となってしまうからである。したがって、nグラム確率の推定と補間係数の推定は、異なったデータを使って行う必要がある。
線形補間係数も最尤学習により求まるが、EM(expectation-maximization)アルゴリズムによる反復計算が必要なため、計算量が多くなる。また、過学習を引き起こす可能性がある。
I. Witten and T.Bell,"The zero-frequency problem: Estimating the probability of novel events in adaptive text compression, " IEEE Trans. on IT , vol.37(4), pp.1085-1094 ,(1991) D. MacKay and L. Peto, "A Hierarchical Dirichlet Language Model,"Natural Languate Engineering, vol. 1(3), pp. 1-19 (1995). 川端 豪 田本 真司,"二項事後分布に基づくN−グラム言語モデルのBack-off平滑化,"信学技報,SP95-93,pp.1-6,(1995). 北 研二,"確率的言語モデル,"東京大学出版会,pp.57-72,(1999)。 S. Chen, "Building Probabilistic Models for Natural Language,"Ph. D Thesis, Harvard University, (1996).
従来のnグラム言語モデルにおける適切な推定値を得るための確率値のスムージングを行う線形和補間法は、(1)線形和補間法は補間係数をEMアルゴリズムによる反復計算で求める必要があるため、計算量が多くなる、(2)nグラム確率及び補間係数は最尤学習により求められるため、少量データの場合、過学習による性能低下を生じる、問題があった。
本発明は、線形和補間法をベイズ学習法で定式化し、過学習の起こらない一般化されたnグラム言語モデリングを実現する。
線形補間係数をベイズ学習法により解析的且つ反復計算無しで求めることができる。
ベイズ学習の効果により線形補間係数学習時に過学習が起こらない。
バックオフ補間法及び階層ベイズ補間法を内包する一般化された枠組であるため、他のタスクやモデルに対して拡張性が高い。
以上の3点は本発明の機能的効果である。本発明はベイズ学習法により定式化された手法であるため、少量学習データで過学習を緩和し、性能において従来法を上回ることが期待される。性能的効果を具体的な実験によって、示す。本報告では提案手法を、標準的バックオフ補間法であるWitten-Bell法(非特許文献1 参照。以下「WB法」という。)と2種類の評価セット(毎日新聞及びCSJ)を用いて、Perplexityによる比較を行った(表1参照)。
毎日新聞タスクでは学習データを95年の新聞記事とし、評価データは96年の新聞記事200文を用いた。CSJ(corpus of spontaneous Japanese)タスクでは、CSJ学習データに対し、男性話者学術講演評価用データ502文を用いて実験を行った。ベイズ学習による少量データでの効果を見るため、本実験では学習データをそれぞれ通常より少ない10,000文に設定した。表1から分かるように提案手法は両データに対してWB法を凌ぐ性能を示した。
Figure 2005084179
図3を参照して本発明のベイズ学習による線形和補間方法を説明する。
はじめに、形態素解析され電子化された学習コーパス(言語データDB)Wにより学習される単語wRの生起確率p(wR|W)をnグラムで表現する。
Figure 2005084179
ここで、mはモデル構造変数(確率変数)であり、m=n(確率変数値)であればnグラムモデル構造を表す。このモデル構造変数を確率変数とみなし、その事後確率を解析的に計算してそれを線形補間係数とするところが本発明の根幹となるアイデアである。
以下に説明の簡略化のため3グラムに対して定式化を行うが一般のnグラムに対しても同様の定式化は可能である。
nグラム確率p(wR|m=1,W),p(wR|m=2,wRー1,W),及びp(wR|m=3,wRー2,wRー1,W)は事前確率分布を設定することにより、ベイズの定理によって求めることができる。簡単のためwRー2=i,wRー1=j,wR=kとし、またU:m=1,B:m=2,T:m=3と表すと、p(k|U,W),p(k|j,B,W),及びp(k|i,j,T,W)の具体形は、Dirichlet分布関数型の共役事前確率分布を用いることにより次のように導出することができる。
Figure 2005084179
ここで、ψk,ψjk,ψijkは事後確率パラメータであり、学習コーパスW中に出現する頻度Ck,Cjk、Cijk及び事前確率分布パラメータψk 0,ψjk 0,ψijk 0を用いて次のように表される。
Figure 2005084179
(5)式に示すように、p(k|U,W),p(k|j,B,W),及びp(k|i,j,T,W)は事後確率分布パラメータψk,ψjk,ψijkで表現されており、(6)式に示すように頻度Ck,Cjk、Cijkが事前確率分布パラメータψk 0、ψjk 0,ψijk 0によって補正されているため過学習(すなわち、コーパス中に出現する頻度が小さい場合において単語列を0にしてしまう問題)が緩和される。
p(U|i,j,W),p(B|i,j,W),p(T|i,j,W)はnグラムモデル構造に対する事後確率であり、事前確率分布及び事後確率分布パラメータを用いて次のように解析的に求まる。
Figure 2005084179
ここで、Γ(・)はΓ関数である。またCk(i,j)≡CkΣk(Cijk)/Σk(Ck),(Cjk(i))≡CjkΣk(Cijk)/Σk(Cjk)はkについての和を取った場合にΣk(Cijk)になるように規格化された頻度である。また、φk 0,φjk 0,φijk 0はモデル構造事後確率導出時に与えれらる事前確率分布パラメータである。ψk 0,ψjk 0,ψijk 0とは区別して用いられる。したがって、p(U|i,j,W),p(B|i,j,W),p(T|i,j,W)は、エビデンス(evidence)fij(U),fij(B),fij(T)を用いて次のように求めることができる。
Figure 2005084179
このように本手法は式(7)及び式(8)を用いて解析的に(反復計算を行わずに)線形和補間係数を計算することができる。また線形和補間係数、nグラム確率は共に頻度が事前確率分布パラメータによって補正されているため、過学習が緩和されている。また、式(6)における事前確率分布パラメータの設定は一般性が高く、バックオフ補間法及び階層ベイズ補間法を内包した枠組みになっている。つまり本発明は従来法を内包する拡張性の高い枠組である。そのため、学習データやテストデータを変えた場合に対応しやすく、またnグラムモデルをクラスnグラムに拡張した場合も本手法をそのまま適応することができる。
確率統計的音声認識装置の概要構成を示す図。 従来のnグラム言語モデリングにおける最尤学習による線形和補間法を説明する図。 本発明のnグラム言語モデリングにおけるベイズ学習による線形和補間法を説明する図。

Claims (2)

  1. nグラム言語モデルを線形和補間法により補間して言語モデルを作成する言語モデル作成方法において、
    nグラム言語モデルの線形和補間法に対し、線形補間係数をモデル構造変数の事後確率値とみなし、ベイズ学習法によってnグラム言語モデル全体を定式化することにより言語モデルを作成する言語モデル作成方法。
  2. nグラム言語モデルを線形和補間法により補間した言語モデルを作成する言語モデル作成装置において、
    nグラム言語モデルの線形和補間法に対し、線形補間係数をモデル構造変数の事後確率値とみなし、ベイズ学習法によってnグラム言語モデル全体を定式化することにより言語モデルを作成する言語モデル作成装置。



JP2003313754A 2003-09-05 2003-09-05 言語モデル作成方法およびその装置 Expired - Fee Related JP4263060B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003313754A JP4263060B2 (ja) 2003-09-05 2003-09-05 言語モデル作成方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003313754A JP4263060B2 (ja) 2003-09-05 2003-09-05 言語モデル作成方法およびその装置

Publications (2)

Publication Number Publication Date
JP2005084179A true JP2005084179A (ja) 2005-03-31
JP4263060B2 JP4263060B2 (ja) 2009-05-13

Family

ID=34414588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003313754A Expired - Fee Related JP4263060B2 (ja) 2003-09-05 2003-09-05 言語モデル作成方法およびその装置

Country Status (1)

Country Link
JP (1) JP4263060B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017009691A (ja) * 2015-06-18 2017-01-12 日本放送協会 言語モデル生成装置およびそのプログラム
CN113780418A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 一种数据的筛选方法、系统、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017009691A (ja) * 2015-06-18 2017-01-12 日本放送協会 言語モデル生成装置およびそのプログラム
CN113780418A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 一种数据的筛选方法、系统、设备和存储介质

Also Published As

Publication number Publication date
JP4263060B2 (ja) 2009-05-13

Similar Documents

Publication Publication Date Title
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US8788266B2 (en) Language model creation device, language model creation method, and computer-readable storage medium
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
EP1580667B1 (en) Representation of a deleted interpolation N-gram language model in ARPA standard format
CN109584865B (zh) 一种应用程序控制方法、装置、可读存储介质及终端设备
US20060015321A1 (en) Method and apparatus for improving statistical word alignment models
US6990447B2 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
US20060031069A1 (en) System and method for performing a grapheme-to-phoneme conversion
CA2737142C (en) Method for creating a speech model
JPH11338491A (ja) 固有声に基いた最尤法を含む話者と環境適合化
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
Shahnawazuddin et al. Sparse coding over redundant dictionaries for fast adaptation of speech recognition system
JP4263060B2 (ja) 言語モデル作成方法およびその装置
JP2020095732A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP2004509364A (ja) 音声認識システム
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置
JP6603610B2 (ja) 情報処理システム、情報処理方法及びプログラム
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP2008139747A (ja) 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP2005091518A (ja) 音声認識装置及び音声認識プログラム
Hammami et al. Tree distributions approximation model for robust discrete speech recognition
JP2001109491A (ja) 連続音声認識装置および方法
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
JP2011059830A (ja) 言語学習装置、言語学習プログラム及び言語学習方法
JP2738508B2 (ja) 統計的言語モデル作成装置及び音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070525

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070815

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070827

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees