JP5199901B2 - 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム - Google Patents
言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム Download PDFInfo
- Publication number
- JP5199901B2 JP5199901B2 JP2009010931A JP2009010931A JP5199901B2 JP 5199901 B2 JP5199901 B2 JP 5199901B2 JP 2009010931 A JP2009010931 A JP 2009010931A JP 2009010931 A JP2009010931 A JP 2009010931A JP 5199901 B2 JP5199901 B2 JP 5199901B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- language model
- sentence
- word
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
また、このように言語モデル作成装置が、Forwardパスにより作成しておいた確率テーブルを用いて、確率的Backwardパスを実行することで、前後複数の単語同士の関係を考慮して単語分割を推定できる。つまり、より精度の高い単語分割の推定を行うことができる。また、言語モデル作成装置がBackwardパスを実行し、文字数k(k´)の単語候補に続く単語候補の文字数を、確率テーブルを用いて、確率的に選択するので、単語分割が局所解に陥ることを防止できる。
次に、第1の実施の形態の言語モデル作成装置10を説明する。第1の実施の形態の言語モデル作成装置10は、前記した図2のS102において、隠れマルコフモデルのForward Fitering-Backward Sampling法(Steven L. Scott .Bayesian Methods for Hidden Markov Models Journal of the American Statistical Association,97:337-351,2007参照)を用いたサンプリングを行うことを特徴とする。ここで、言語モデル作成装置10は、Backward Sampling(Backwardパス)を確率的に行うことで、サンプリングの結果が局所解に陥らないようしている。
wo=EOS、p=N、i=0とする。但し、p:ポインタ、i:インデクスである。
以下の式(3)に従って、文末からの文字列kをサンプリングする。
P(k)∝P(wi|sp-k+1:p,Θ)・α[p][k]…式(3)
但し、1≦k≦pとする。
次に、wi=sp-k+1:p、p=p−k、i=i+1に更新する。ここで、p>0ならば、再度、文末側から文字列kをサンプリングする。そうでなければ終了する。つまり、pが文Sの文頭に来た段階で、W=wiwi−2…w1が得られている。この後、図2のS103へ進み、言語モデル更新部125は、言語モデル132を更新する。
次に、第2の実施の形態の言語モデル作成装置10Aを説明する。言語モデル作成装置10Aは、図2のS102における文字列分割サンプリング処理において、Particle MCMC法(Arnaud Doucet, Christophe Andrieu,and Roman Holenstein .Particle Markov Chain Monte Carlo,in submission,2008参照)を用いて文字列分割のサンプリングを行うことを特徴とする。
(2)次に、文Sにおいて、wiに続くべき文字列の長さkを、言語モデル132の予測確率に従ってサンプリングする。すなわち、wiに続くべき文字列の長さkをP(sp:p+k−1|w0 (j),…,wi (j))に従ってサンプリングする(S303)。ここで、wiに続くべき文字列の長さkは、これまでに予測が確定した単語文脈(w0 (j),…,wi (j))すべてに依存し、着目している単語の1単語までまたは2単語までという制約は必要ない。
(3)そして、P(W(j)|S)=P(W(j)|S)・P(Sp:p+k−1|w0 (j),…,wi (j))、wi (j)=sp:p+k−1、p=p+k、i=i+1に更新する。
(4)ここで、p<N(N=文Sの文字列の長さ)ならば、(2)へ戻る。p=Nならば、文字列分割パターンが1つ完成したことになるので、j=j+1に更新する(S304)。
(5)ここで、j=Jならば文字列分割パターン(粒子)をJ通り作成したことになるので(S305のYes)、(6)へ進む。一方、j=Jでなければ(S305のNo)、つまり、文字列分割パターンをJ通り作成していなければ、(2)へ戻る。
(6)文字列分割パターン群の確率P(W(j)|S)の平均値Z(S)について、二値変数aを、ベルヌーイ試行Bernoulli(min(1,Z(S)/Z^(S)))によりサンプリングする。なお、Z^(S)は、前記したとおり、MCMC法で前回作成した文字列分割パターン群の確率P(W(j)|S)の平均値Z(S)であり、MCMC法の最初の繰り返しでは、この値を1とする。ここで、min(1,Z(S)/Z^(S))であるので、Z(S)<Z^(S)であれば、Z(S)/Z^(S)が選択されることになる。そして、ベルヌーイ試行の結果、得られた二値変数a=0ならば、ここで処理を終了する。つまり、文字列分割パターン作成部122Aによる文字列分割パターン郡の作成は行わず、分割受理判定部129は、記憶部13に記憶された、前回の文字列分割パターン群から選択した文字列分割パターン(単語分割W)を、言語モデル更新部125へ出力する。そして、言語モデル更新部125は、この文字列分割パターン(単語分割W)により言語モデル132を更新する(図2のS103)。一方、得られた二値変数a=1ならば、今回作成した文字列分割パターン群のW(1)W(2)…W(J)の中から、確率P(W(1)|S)P(W(2)|S)…P(W(J)|S)に比例して、文字列分割パターン(単語分割W)を選択し、出力する。そして、Z^(S)=Z(S)に置き換える。
11 入出力部
12 処理部
13 記憶部
120 パラメータ読み込み部
121 文選択部
122,122A 文字列分割パターン作成部
123 確率計算部
124 文字列分割パターン選択部
125 言語モデル更新部
126 収束判定部
127 最尤単語分割計算部
128 出力処理部
129 分割受理判定部
131 文字列データ
132 言語モデル
133,133A 確率テーブル
Claims (5)
- 文を構成する文字列を単語ごとに分割し、単語列データに対し単語列確率を与えるための単語nグラムモデルと、前記単語nグラムモデルを構成する単語の文字列データそれぞれに文字列確率を与えるための文字nグラムモデルとを含む言語モデルを作成する、前記単語nグラムモデルにおける文全体を1つの単語とみなした初期状態の前記言語モデルが記憶部に記憶された言語モデル作成装置が、
学習データである複数の文の入力を受け付けるステップと、
前記入力された複数の文から処理対象の文を選択する処理対象文選択ステップと、
前記言語モデルを参照して、以下の式(1)により、前記選択した文における1番目からt番目までの文字列S 1:t において、t文字の文字列の末尾k文字が1単語として生成される確率α[t][k]をt=1〜Nについて実行した結果を示した確率テーブルを作成し、前記記憶部に記憶するForwardパス実行ステップ、および、
前記記憶部に記憶されている前記言語モデルから前記選択した文に対する文字列分割パターンを削除し、前記選択した文字列分割パターンを新たにその言語モデルに与えることにより前記言語モデルを更新するステップとを実行し、
前記選択した文字列分割パターンを用いて、前記言語モデルを更新するステップを前記入力された複数の文すべてについて実行することを繰り返した後、
前記文字列分割パターン選択ステップで得られた前記選択した文に対する前記選択した文字列分割パターンでの分割結果の尤度が所定の値を超えてない場合、もしくは、前記言語モデルを更新するステップを前記入力された複数の文すべてについて実行した回数が所定回数よりも少ない場合には、前記処理対象文選択ステップからの処理を繰り返し、
前記分割結果の尤度が所定の値を超えていた場合、もしくは、前記言語モデルを更新するステップを前記入力された複数の文すべてについて実行した回数が所定回数以上の場合には、最終的に更新した言語モデルを出力することを特徴とする言語モデル作成方法。 - 前記言語モデル作成装置が、最終的に更新した言語モデルを用いて、前記学習データとして入力された文それぞれについて、ビタビアルゴリズムにより、その文字列分割の確率を最大にする単語分割を計算し、出力することを特徴とする請求項1に記載の言語モデル作成方法。
- 前記言語モデル作成装置が、前記文字列分割パターン選択ステップの替わりに、
Particle MCMC(Markov Chain Monte Carlo)法により、前記言語モデルを参照して、前記選択した文の文頭から順に文末まで、単語候補wiの後に続く単語候補の文字数kを確率的に選択する処理を、当該選択した文それぞれについて所定数ずつ実行することにより、当該選択した文1つあたり、所定数の文字列分割パターン群を作成する文字列分割パターン作成ステップと、
前記作成した文字列分割パターン群の文字列分割パターンそれぞれの確率の平均値Z(S)を計算するステップと、
今回作成した文字列分割パターン群の文字列分割パターンそれぞれの確率の平均値Z(S)と、過去に作成した文字列分割パターン群の文字列分割パターンそれぞれの確率の平均値Z^(S)とを比較して、前記Z(S)の値が前記Z^(S)の値よりも大きかったとき、
今回作成した文字列パターン群の文字列分割パターンそれぞれの確率に従い、この文字列分割パターン群の中から文字列分割パターンを選択し、前記Z(S)の値を、前記Z^(S)として置き換えて前記記憶部に記憶した後、前記文字列分割パターン作成ステップに戻るステップと、
前記Z(S)と前記Z^(S)とを比較して、前記Z(S)の値が前記Z^(S)の値以下だったとき、ベルヌーイ試行によりZ(S)/Z^(S)の確率で、今回作成した文字列分割パターン群を選択するか否かを決定し、(1)今回作成した文字列パターン群を選択すると決定した場合、この文字列分割パターン群の文字列分割パターンそれぞれの確率に従い、この文字列分割パターン群の中から文字列分割パターンを選択し、(2)前記ベルヌーイ試行の結果、今回作成した文字列分割パターン群を選択しないと決定した場合、そのまま処理を終了するステップと、を実行することにより、前記選択した文の文字列分割パターンを選択する第2の文字列分割パターン選択ステップを実行することを特徴とする請求項1または請求項2の言語モデル作成方法。 - 文を構成する文字列を単語ごとに分割し、単語列データに対し単語列確率を与えるための単語nグラムモデルと、前記単語nグラムモデルを構成する単語の文字列データそれぞれに文字列確率を与えるための文字nグラムモデルとを含む言語モデルを作成する、前記単語nグラムモデルにおける文全体を1つの単語とみなした初期状態の前記言語モデルが記憶部に記憶された言語モデル作成装置であって、
学習データである複数の文の入力を受け付ける入力部と、
前記入力された複数の文から処理対象の文を選択する文選択部と、
前記言語モデルを参照して、以下の式(1)により、前記選択した文における1番目からt番目までの文字列S 1:t において、t文字の文字列の末尾k文字が1単語として生成される確率α[t][k]をt=1〜Nについて実行した結果を示した確率テーブルを作成し、前記記憶部に記憶する確率計算部と、
前記記憶部に記憶されている前記言語モデルから前記選択した文に対する文字列分割パターンを削除し、前記選択した文字列分割パターンを新たにその言語モデルに与えることにより前記言語モデルを更新する言語モデル更新部と、
前記言語モデル更新部が、前記選択した文字列分割パターンを用いて、前記言語モデルを更新する処理を前記入力された複数の文すべてについて実行することを繰り返した後、前記選択した文に対する前記選択した文字列分割パターンでの分割結果の尤度が所定の値を超えているか否か、もしくは、前記言語モデルを更新する処理が前記入力された複数の文すべてについて実行した回数が所定回数以上であるか否かを判定する収束判定部と、
前記更新した言語モデルを出力する出力処理部とを備え、
前記収束判定部が、前記分割結果の尤度が所定の値を超えてない、もしくは、前記言語モデルを更新する処理を前記入力された複数の文すべてについて実行した回数が所定回数よりも少ないと判定した場合に、前記分割結果が収束していないとして、前記文選択部、前記確率計算部および前記文字列分割パターン選択部が各処理を再度実行した上で、前記収束判定部による判定を実行し、
前記収束判定部が、前記分割結果の尤度が所定の値を超えている、もしくは、前記言語モデルを更新する処理を前記入力された複数の文すべてについて実行した回数が所定回数以上であると判定した場合に、前記分割結果が収束したとして、前記出力処理部が、前記言語モデル更新部により最終的に更新された言語モデルを出力することを特徴とする言語モデル作成装置。 - コンピュータを請求項4に記載の言語モデル作成装置として機能させるための言語モデル作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009010931A JP5199901B2 (ja) | 2009-01-21 | 2009-01-21 | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009010931A JP5199901B2 (ja) | 2009-01-21 | 2009-01-21 | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010170252A JP2010170252A (ja) | 2010-08-05 |
JP5199901B2 true JP5199901B2 (ja) | 2013-05-15 |
Family
ID=42702363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009010931A Expired - Fee Related JP5199901B2 (ja) | 2009-01-21 | 2009-01-21 | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5199901B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6093542A (ja) * | 1983-10-27 | 1985-05-25 | Tokyo Electric Co Ltd | キ−ボ−ド装置 |
JP6312467B2 (ja) * | 2014-03-04 | 2018-04-18 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
CN109359274B (zh) * | 2018-09-14 | 2023-05-02 | 蚂蚁金服(杭州)网络技术有限公司 | 一种对批量生成的字符串进行识别的方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263427A (ja) * | 2002-03-07 | 2003-09-19 | Advanced Telecommunication Research Institute International | 単語分割モデルの生成方法 |
JP3998668B2 (ja) * | 2004-07-14 | 2007-10-31 | 沖電気工業株式会社 | 形態素解析装置、方法及びプログラム |
-
2009
- 2009-01-21 JP JP2009010931A patent/JP5199901B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010170252A (ja) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US7957953B2 (en) | Weighted linear bilingual word alignment model | |
JP4532863B2 (ja) | 2言語コーパスを整列させるための方法および装置 | |
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
US7480612B2 (en) | Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
US20060277028A1 (en) | Training a statistical parser on noisy data by filtering | |
JP6312467B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113574545A (zh) | 用于训练模型的训练数据修改 | |
JP5319141B2 (ja) | 言語モデルの枝刈り方法及び装置 | |
JP5199901B2 (ja) | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
US20140214397A1 (en) | Sampling and optimization in phrase-based machine translation using an enriched language model representation | |
JP5565827B2 (ja) | 統計的機械翻訳のための言語独立な単語セグメント化のための文分離器トレーニング装置、そのためのコンピュータプログラム及びコンピュータ可読媒体。 | |
JP5885210B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
US20130110491A1 (en) | Discriminative learning of feature functions of generative type in speech translation | |
JP2005092682A (ja) | 翻字装置、及び翻字プログラム | |
JP4976789B2 (ja) | トークン列中の境界検出方法、装置、プログラム、記録媒体 | |
JP2016133956A (ja) | 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム | |
JP3953772B2 (ja) | 読みがな付与装置およびプログラム | |
WO2014030258A1 (ja) | 形態素解析装置、テキスト分析方法、及びそのプログラム | |
JP2007004446A (ja) | 機械翻訳装置、その方法およびプログラム | |
JP4769286B2 (ja) | かな漢字変換装置およびかな漢字変換プログラム | |
Virpioja et al. | Unsupervised Morpheme Discovery with Allomorfessor. | |
JP7327523B2 (ja) | 生成装置、生成方法及び生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101215 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130208 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160215 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5199901 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130201 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |