JP2005084179A - 言語モデル作成方法およびその装置 - Google Patents
言語モデル作成方法およびその装置 Download PDFInfo
- Publication number
- JP2005084179A JP2005084179A JP2003313754A JP2003313754A JP2005084179A JP 2005084179 A JP2005084179 A JP 2005084179A JP 2003313754 A JP2003313754 A JP 2003313754A JP 2003313754 A JP2003313754 A JP 2003313754A JP 2005084179 A JP2005084179 A JP 2005084179A
- Authority
- JP
- Japan
- Prior art keywords
- language model
- gram
- model
- probability
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】nグラム言語モデルを線形和補間法により補間して言語モデルを作成する方法において、nグラム言語モデルの線形和補間法に対し、線形補間係数をモデル構造変数の事後確率値とみなし、ベイズ学習法によってnグラム言語モデル全体を定式化することにより言語モデルを作成する。
【選択図】図2
Description
入力音声データは、特徴量変換部において特徴パラメータのベクトルデータ時系列Oに変換され、さらに探索処理部において言語データDBを用いて言語モデル作成部で作成された言語モデルで許容する単語列の仮説w(={w1,w2,・・・,wR}≡{w}1 R)と対応した音声データDBを用いて音響モデル作成部で作成された音響モデルと特徴パラメータのベクトルデータ時系列とが照合される。この仮説の照合結果の評価値であるスコアは、入力音声と仮説との音響的な近さを示す音響スコアと仮説の存在する確率を言語スコアからなり、最も高いスコアを持つ仮説が認識結果(単語列w^)として出力される。
音響モデルとしては、確率統計理論に基づいてモデル化された隠れマルコフモデル(HMM)が用いられる。
言語モデルは、認識対象とする文章を定義するための単語の連結関係を規定したものであり、単語を枝とした単語ネットワークや言語の確率モデル等が用いられる。連続音声認識の場合、任意の単語が任意の単語に接続可能な単語ネットワークの形式をとることが多い。このような形式をとることで単語ネットワークに登録されている単語の範囲内で任意の単語列の仮説の生成が可能となる。言語の確率モデルは、単語単体の存在確率、2つ以上の単語の連鎖する確率が用いられる。単語単体の存在確率を表すモデルは単語1グラム、単語の2連鎖確率、3連鎖確率、・・・、n連鎖確率をそれぞれ表すモデルはそれぞれ、単語2グラム、単語3グラム、・・・nグラム確率と呼ばれる。この言語の確率モデルを用いることで、言語として存在し得ない仮説の生成を抑制することができる。
大語彙連続音声認識においては入力音声データの時系列特徴量Oに対しベイズ決定則により次のように出力単語列w^を求める。
一般に言語モデルは、言語モデル作成部において、先行n−1単語列の条件付確率によって表現され、新聞記事等の大量コーパスにより事前に学習して求められる。例えばコーパス(言語データDB)Wから最尤学習により
nグラム言語モデルを次のように、nグラム,n−1グラム,・・・,1グラム確率の線形和で表現するのが線形和補間法である。
まず、最初に学習データからnグラムの確率値を求め、次にnグラムの学習に用いたものとは別の評価用データを用いて補間係数を推定する。補間係数は、上記式による評価データの生成確率が最大となるように決める。もし評価データ中の3つ組wR-2,wR-1,wR
の出現頻度が小さいならば式のλ3としては小さな値が推定される。この場合において、nグラムを求めるのに用いたデータと同一のデータを用いて補間係数を求めることはできない。なぜならば、学習データと評価用データが同じ場合には、nの値が大きいほど推定精度がよいため、必然的にλ3=1,λ2=0,λ1=0となってしまうからである。したがって、nグラム確率の推定と補間係数の推定は、異なったデータを使って行う必要がある。
線形補間係数も最尤学習により求まるが、EM(expectation-maximization)アルゴリズムによる反復計算が必要なため、計算量が多くなる。また、過学習を引き起こす可能性がある。
I. Witten and T.Bell,"The zero-frequency problem: Estimating the probability of novel events in adaptive text compression, " IEEE Trans. on IT , vol.37(4), pp.1085-1094 ,(1991) D. MacKay and L. Peto, "A Hierarchical Dirichlet Language Model,"Natural Languate Engineering, vol. 1(3), pp. 1-19 (1995). 川端 豪 田本 真司,"二項事後分布に基づくN−グラム言語モデルのBack-off平滑化,"信学技報,SP95-93,pp.1-6,(1995). 北 研二,"確率的言語モデル,"東京大学出版会,pp.57-72,(1999)。 S. Chen, "Building Probabilistic Models for Natural Language,"Ph. D Thesis, Harvard University, (1996).
ベイズ学習の効果により線形補間係数学習時に過学習が起こらない。
バックオフ補間法及び階層ベイズ補間法を内包する一般化された枠組であるため、他のタスクやモデルに対して拡張性が高い。
以上の3点は本発明の機能的効果である。本発明はベイズ学習法により定式化された手法であるため、少量学習データで過学習を緩和し、性能において従来法を上回ることが期待される。性能的効果を具体的な実験によって、示す。本報告では提案手法を、標準的バックオフ補間法であるWitten-Bell法(非特許文献1 参照。以下「WB法」という。)と2種類の評価セット(毎日新聞及びCSJ)を用いて、Perplexityによる比較を行った(表1参照)。
毎日新聞タスクでは学習データを95年の新聞記事とし、評価データは96年の新聞記事200文を用いた。CSJ(corpus of spontaneous Japanese)タスクでは、CSJ学習データに対し、男性話者学術講演評価用データ502文を用いて実験を行った。ベイズ学習による少量データでの効果を見るため、本実験では学習データをそれぞれ通常より少ない10,000文に設定した。表1から分かるように提案手法は両データに対してWB法を凌ぐ性能を示した。
はじめに、形態素解析され電子化された学習コーパス(言語データDB)Wにより学習される単語wRの生起確率p(wR|W)をnグラムで表現する。
nグラム確率p(wR|m=1,W),p(wR|m=2,wRー1,W),及びp(wR|m=3,wRー2,wRー1,W)は事前確率分布を設定することにより、ベイズの定理によって求めることができる。簡単のためwRー2=i,wRー1=j,wR=kとし、またU:m=1,B:m=2,T:m=3と表すと、p(k|U,W),p(k|j,B,W),及びp(k|i,j,T,W)の具体形は、Dirichlet分布関数型の共役事前確率分布を用いることにより次のように導出することができる。
Claims (2)
- nグラム言語モデルを線形和補間法により補間して言語モデルを作成する言語モデル作成方法において、
nグラム言語モデルの線形和補間法に対し、線形補間係数をモデル構造変数の事後確率値とみなし、ベイズ学習法によってnグラム言語モデル全体を定式化することにより言語モデルを作成する言語モデル作成方法。 - nグラム言語モデルを線形和補間法により補間した言語モデルを作成する言語モデル作成装置において、
nグラム言語モデルの線形和補間法に対し、線形補間係数をモデル構造変数の事後確率値とみなし、ベイズ学習法によってnグラム言語モデル全体を定式化することにより言語モデルを作成する言語モデル作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003313754A JP4263060B2 (ja) | 2003-09-05 | 2003-09-05 | 言語モデル作成方法およびその装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003313754A JP4263060B2 (ja) | 2003-09-05 | 2003-09-05 | 言語モデル作成方法およびその装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005084179A true JP2005084179A (ja) | 2005-03-31 |
JP4263060B2 JP4263060B2 (ja) | 2009-05-13 |
Family
ID=34414588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003313754A Expired - Fee Related JP4263060B2 (ja) | 2003-09-05 | 2003-09-05 | 言語モデル作成方法およびその装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4263060B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017009691A (ja) * | 2015-06-18 | 2017-01-12 | 日本放送協会 | 言語モデル生成装置およびそのプログラム |
CN113780418A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 一种数据的筛选方法、系统、设备和存储介质 |
-
2003
- 2003-09-05 JP JP2003313754A patent/JP4263060B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017009691A (ja) * | 2015-06-18 | 2017-01-12 | 日本放送協会 | 言語モデル生成装置およびそのプログラム |
CN113780418A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 一种数据的筛选方法、系统、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4263060B2 (ja) | 2009-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US8788266B2 (en) | Language model creation device, language model creation method, and computer-readable storage medium | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
EP1580667B1 (en) | Representation of a deleted interpolation N-gram language model in ARPA standard format | |
CN109584865B (zh) | 一种应用程序控制方法、装置、可读存储介质及终端设备 | |
US20060015321A1 (en) | Method and apparatus for improving statistical word alignment models | |
US6990447B2 (en) | Method and apparatus for denoising and deverberation using variational inference and strong speech models | |
US20060031069A1 (en) | System and method for performing a grapheme-to-phoneme conversion | |
CA2737142C (en) | Method for creating a speech model | |
JPH11338491A (ja) | 固有声に基いた最尤法を含む話者と環境適合化 | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
Shahnawazuddin et al. | Sparse coding over redundant dictionaries for fast adaptation of speech recognition system | |
JP4263060B2 (ja) | 言語モデル作成方法およびその装置 | |
JP2020095732A (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP2004509364A (ja) | 音声認識システム | |
JP3836607B2 (ja) | 音声認識のための統計的言語モデル作成装置 | |
JP6603610B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
JP5860439B2 (ja) | 言語モデル作成装置とその方法、そのプログラムと記録媒体 | |
JP2008139747A (ja) | 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体 | |
JP2005091518A (ja) | 音声認識装置及び音声認識プログラム | |
Hammami et al. | Tree distributions approximation model for robust discrete speech recognition | |
JP2001109491A (ja) | 連続音声認識装置および方法 | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
JP2011059830A (ja) | 言語学習装置、言語学習プログラム及び言語学習方法 | |
JP2738508B2 (ja) | 統計的言語モデル作成装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070525 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070815 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070827 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |