JP2010170252A - 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム - Google Patents
言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム Download PDFInfo
- Publication number
- JP2010170252A JP2010170252A JP2009010931A JP2009010931A JP2010170252A JP 2010170252 A JP2010170252 A JP 2010170252A JP 2009010931 A JP2009010931 A JP 2009010931A JP 2009010931 A JP2009010931 A JP 2009010931A JP 2010170252 A JP2010170252 A JP 2010170252A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- language model
- division pattern
- sentence
- string division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】言語モデル作成装置は、文字列データ131に格納された複数の文をランダムな順に選択し、言語モデル132を用いて、この選択した文における単語の区切り目の候補となる文字列を示した文字列分割パターン群を作成する。また、その文がその文字列分割パターン群の文字列分割パターンに該当する確率を記憶部に記録しておき、この確率に従って、文字列分割パターン群の中から、文字列分割パターンを選択する。そして、この選択した文字列分割パターンを用いて言語モデル132を更新する。このような処理を、文字列データ131に格納された複数の文すべてについて実行し、言語モデル132を最適化する。そして、このようにして最適化された言語モデル132を用いて、文の最尤単語分割を実行する。
【選択図】図2
Description
次に、第1の実施の形態の言語モデル作成装置10を説明する。第1の実施の形態の言語モデル作成装置10は、前記した図2のS102において、隠れマルコフモデルのForward Fitering-Backward Sampling法(Steven L. Scott .Bayesian Methods for Hidden Markov Models Journal of the American Statistical Association,97:337-351,2007参照)を用いたサンプリングを行うことを特徴とする。ここで、言語モデル作成装置10は、Backward Sampling(Backwardパス)を確率的に行うことで、サンプリングの結果が局所解に陥らないようしている。
wo=EOS、p=N、i=0とする。但し、p:ポインタ、i:インデクスである。
以下の式(3)に従って、文末からの文字列kをサンプリングする。
P(k)∝P(wi|sp-k+1:p,Θ)・α[p][k]…式(3)
但し、1≦k≦pとする。
次に、wi=sp-k+1:p、p=p−k、i=i+1に更新する。ここで、p>0ならば、再度、文末側から文字列kをサンプリングする。そうでなければ終了する。つまり、pが文Sの文頭に来た段階で、W=wiwi−2…w1が得られている。この後、図2のS103へ進み、言語モデル更新部125は、言語モデル132を更新する。
次に、第2の実施の形態の言語モデル作成装置10Aを説明する。言語モデル作成装置10Aは、図2のS102における文字列分割サンプリング処理において、Particle MCMC法(Arnaud Doucet, Christophe Andrieu,and Roman Holenstein .Particle Markov Chain Monte Carlo,in submission,2008参照)を用いて文字列分割のサンプリングを行うことを特徴とする。
(2)次に、文Sにおいて、wiに続くべき文字列の長さkを、言語モデル132の予測確率に従ってサンプリングする。すなわち、wiに続くべき文字列の長さkをP(sp:p+k−1|w0 (j),…,wi (j))に従ってサンプリングする(S303)。ここで、wiに続くべき文字列の長さkは、これまでに予測が確定した単語文脈(w0 (j),…,wi (j))すべてに依存し、着目している単語の1単語までまたは2単語までという制約は必要ない。
(3)そして、P(W(j)|S)=P(W(j)|S)・P(Sp:p+k−1|w0 (j),…,wi (j))、wi (j)=sp:p+k−1、p=p+k、i=i+1に更新する。
(4)ここで、p<N(N=文Sの文字列の長さ)ならば、(2)へ戻る。p=Nならば、文字列分割パターンが1つ完成したことになるので、j=j+1に更新する(S304)。
(5)ここで、j=Jならば文字列分割パターン(粒子)をJ通り作成したことになるので(S305のYes)、(6)へ進む。一方、j=Jでなければ(S305のNo)、つまり、文字列分割パターンをJ通り作成していなければ、(2)へ戻る。
(6)文字列分割パターン群の確率P(W(j)|S)の平均値Z(S)について、二値変数aを、ベルヌーイ試行Bernoulli(min(1,Z(S)/Z^(S)))によりサンプリングする。なお、Z^(S)は、前記したとおり、MCMC法で前回作成した文字列分割パターン群の確率P(W(j)|S)の平均値Z(S)であり、MCMC法の最初の繰り返しでは、この値を1とする。ここで、min(1,Z(S)/Z^(S))であるので、Z(S)<Z^(S)であれば、Z(S)/Z^(S)が選択されることになる。そして、ベルヌーイ試行の結果、得られた二値変数a=0ならば、ここで処理を終了する。つまり、文字列分割パターン作成部122Aによる文字列分割パターン郡の作成は行わず、分割受理判定部129は、記憶部13に記憶された、前回の文字列分割パターン群から選択した文字列分割パターン(単語分割W)を、言語モデル更新部125へ出力する。そして、言語モデル更新部125は、この文字列分割パターン(単語分割W)により言語モデル132を更新する(図2のS103)。一方、得られた二値変数a=1ならば、今回作成した文字列分割パターン群のW(1)W(2)…W(J)の中から、確率P(W(1)|S)P(W(2)|S)…P(W(J)|S)に比例して、文字列分割パターン(単語分割W)を選択し、出力する。そして、Z^(S)=Z(S)に置き換える。
11 入出力部
12 処理部
13 記憶部
120 パラメータ読み込み部
121 文選択部
122,122A 文字列分割パターン作成部
123 確率計算部
124 文字列分割パターン選択部
125 言語モデル更新部
126 収束判定部
127 最尤単語分割計算部
128 出力処理部
129 分割受理判定部
131 文字列データ
132 言語モデル
133,133A 確率テーブル
Claims (6)
- 文を構成する文字列を単語ごとに分割し、その分割結果を用いて文字nグラムモデルおよび単語nグラムモデルからなる言語モデルを作成する言語モデル作成装置が、
学習データである複数の文の入力を受け付けるステップと、
前記入力された複数の文から処理対象の文を選択するステップと、
前記選択した文について、前記文における単語の区切り目の候補となる文字列を示した文字列分割パターンを所定数作成し、前記作成した文字列分割パターンそれぞれについて、前記選択した文が、その文字列分割パターンに該当する確率を記録し、その記録された確率に従い、前記作成した文字列分割パターンの中から、文字列分割パターンを選択するステップと、
前記文字列分割パターンの選択結果を用いて、前記言語モデルを更新するステップとを実行した後、
前記入力された複数の文から、他の別の文を選択するステップと、
前記選択した文について、前記更新した言語モデルを参照して、前記選択した文における単語の区切り目の候補を示した文字列分割パターンを所定数作成し、前記作成した文字列分割パターンそれぞれについて、前記更新した言語モデルを参照して、前記選択した文が、その文字列分割パターンに該当する確率を記録し、その記録された確率に従い、前記作成した文字列分割パターンの中から文字列分割パターンを選択するステップと、
前記選択した文字列分割パターンを用いて、前記言語モデルを更新するステップとを前記入力された複数の文すべてについて実行することを繰り返した後、最終的に更新した言語モデルを出力することを特徴とする言語モデル作成方法。 - 前記言語モデル作成装置が、最終的に更新した言語モデルを用いて、前記学習データとして入力された文それぞれについて、ビタビアルゴリズムにより、その文字列分割の確率を最大にする単語分割を計算し、出力することを特徴とする請求項1に記載の言語モデル作成方法。
- 前記言語モデル作成装置が、前記選択した文について、その文字列分割パターンに該当する確率を計算し、前記計算した確率に従い、前記文字列分割パターン群の中から、文字列分割パターンを選択するステップは、
以下の式(1)により、前記選択した文における1番目からt番目までの文字列S1:tにおいて、t文字の文字列の末尾k文字が1単語として生成される確率α[t][k]をt=1〜Nについて実行した結果を示した確率テーブルを作成し、記憶部に記憶するForwardパス実行ステップと、
- 前記言語モデル作成装置が、前記選択した文について、その文字列分割パターンに該当する確率を計算し、前記計算した確率に従い、前記文字列分割パターン群の中から、文字列分割パターンを選択するステップは、
Particle MCMC(Markov Chain Monte Carlo)法により、前記言語モデルを参照して、前記選択した文の文頭から順に文末まで、単語候補wiの後に続く単語候補の文字数kを確率的に選択する処理を、当該選択した文それぞれについて所定数ずつ実行することにより、当該選択した文1つあたり、所定数の文字列分割パターン群を作成する文字列分割パターン作成ステップと、
前記作成した文字列分割パターン群の文字列分割パターンそれぞれの確率の平均値Z(S)を計算するステップと、
今回作成した文字列分割パターン群の文字列分割パターンそれぞれの確率の平均値Z(S)と、過去に作成した文字列分割パターン群の文字列分割パターンそれぞれの確率の平均値Z^(S)とを比較して、前記Z(S)の値がZ^(S)の値よりも大きかったとき、
今回作成した文字列パターン群の文字列分割パターンそれぞれの確率に従い、この文字列分割パターン群の中から文字列分割パターンを選択し、前記Z(S)の値を、前記Z^(S)として置き換えて記憶部に記憶した後、前記文字列分割パターン作成ステップに戻るステップと、
前記Z(S)とZ^(S)とを比較して、前記Z(S)の値がZ^(S)の値以下だったとき、ベルヌーイ試行によりZ(S)/Z^(S)の確率で、今回作成した文字列分割パターン群を選択するか否かを決定し、(1)今回作成した文字列パターン群を選択すると決定した場合、この文字列分割パターン群の文字列分割パターンそれぞれの確率に従い、この文字列分割パターン群の中から文字列分割パターンを選択し、(2)前記ベルヌーイ試行の結果、今回作成した文字列分割パターン群を選択しないと決定した場合、そのまま処理を終了するステップとを含むことを特徴とする請求項1または請求項2の言語モデル作成方法。 - 文を構成する文字列を単語ごとに分割し、その分割結果を用いて文字nグラムモデルおよび単語nグラムモデルからなる言語モデルを作成する言語モデル作成装置であって、
学習データである複数の文の入力を受け付ける入力部と、
前記入力された複数の文から処理対象の文を選択する文選択部と、
前記選択した文について、前記文における単語の区切り目の候補となる文字列を示した文字列分割パターンを所定数作成する文字列分割パターン作成部と、
前記作成した文字列分割パターンそれぞれについて、現在の前記言語モデルを参照して、前記選択した文が、その文字列分割パターンに該当する確率を記録し、その記録された確率に従い、前記作成した文字列分割パターンの中から文字列分割パターンを選択する文字列分割パターン選択部と、
前記文字列分割パターンの選択結果を用いて、前記言語モデルを更新する言語モデル更新部と、
前記更新した言語モデルを出力する出力処理部とを備え、
前記言語モデル更新部が、
前記選択した文字列分割パターンを用いて、前記言語モデルを更新する処理を前記入力された複数の文すべてについて実行することを繰り返した後、
前記出力処理部は、
前記言語モデル更新部が最終的に更新した言語モデルを出力することを特徴とする言語モデル作成装置。 - コンピュータを請求項5に記載の言語モデル作成装置として機能させるための言語モデル作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009010931A JP5199901B2 (ja) | 2009-01-21 | 2009-01-21 | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009010931A JP5199901B2 (ja) | 2009-01-21 | 2009-01-21 | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010170252A true JP2010170252A (ja) | 2010-08-05 |
JP5199901B2 JP5199901B2 (ja) | 2013-05-15 |
Family
ID=42702363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009010931A Expired - Fee Related JP5199901B2 (ja) | 2009-01-21 | 2009-01-21 | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5199901B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6093542A (ja) * | 1983-10-27 | 1985-05-25 | Tokyo Electric Co Ltd | キ−ボ−ド装置 |
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
CN109359274A (zh) * | 2018-09-14 | 2019-02-19 | 阿里巴巴集团控股有限公司 | 一种对批量生成的字符串进行识别的方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263427A (ja) * | 2002-03-07 | 2003-09-19 | Advanced Telecommunication Research Institute International | 単語分割モデルの生成方法 |
JP2006031228A (ja) * | 2004-07-14 | 2006-02-02 | Oki Electric Ind Co Ltd | 形態素解析装置、方法及びプログラム |
-
2009
- 2009-01-21 JP JP2009010931A patent/JP5199901B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263427A (ja) * | 2002-03-07 | 2003-09-19 | Advanced Telecommunication Research Institute International | 単語分割モデルの生成方法 |
JP2006031228A (ja) * | 2004-07-14 | 2006-02-02 | Oki Electric Ind Co Ltd | 形態素解析装置、方法及びプログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200000925001; 小田裕樹 他2名: '文字クラスモデルに基づく日本語単語分割' 情報処理学会研究報告 Vol99,NO.22(99-NL-130), 19990304, 1-8頁, 社団法人情報処理学会 * |
CSNG200400243002; 森大毅 他2名: '単語知識を必要としない高精度な言語モデル' 自然言語処理 第6巻第2号, 19990110, 29-40頁, 言語処理学会 * |
JPN6012058471; 森大毅 他2名: '単語知識を必要としない高精度な言語モデル' 自然言語処理 第6巻第2号, 19990110, 29-40頁, 言語処理学会 * |
JPN6012058473; 小田裕樹 他2名: '文字クラスモデルに基づく日本語単語分割' 情報処理学会研究報告 Vol99,NO.22(99-NL-130), 19990304, 1-8頁, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6093542A (ja) * | 1983-10-27 | 1985-05-25 | Tokyo Electric Co Ltd | キ−ボ−ド装置 |
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
CN109359274A (zh) * | 2018-09-14 | 2019-02-19 | 阿里巴巴集团控股有限公司 | 一种对批量生成的字符串进行识别的方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5199901B2 (ja) | 2013-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
US7480612B2 (en) | Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
US20090326916A1 (en) | Unsupervised chinese word segmentation for statistical machine translation | |
JP6312467B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113574545A (zh) | 用于训练模型的训练数据修改 | |
JP5319141B2 (ja) | 言語モデルの枝刈り方法及び装置 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
US8972244B2 (en) | Sampling and optimization in phrase-based machine translation using an enriched language model representation | |
JP5199901B2 (ja) | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム | |
JP5565827B2 (ja) | 統計的機械翻訳のための言語独立な単語セグメント化のための文分離器トレーニング装置、そのためのコンピュータプログラム及びコンピュータ可読媒体。 | |
JP2016133956A (ja) | 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 | |
JP4976789B2 (ja) | トークン列中の境界検出方法、装置、プログラム、記録媒体 | |
JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
JP2005092682A (ja) | 翻字装置、及び翻字プログラム | |
WO2014030258A1 (ja) | 形態素解析装置、テキスト分析方法、及びそのプログラム | |
JP3953772B2 (ja) | 読みがな付与装置およびプログラム | |
JP7327523B2 (ja) | 生成装置、生成方法及び生成プログラム | |
JP2003122749A (ja) | 単語分割装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101215 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130208 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160215 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5199901 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130201 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |