JP5961586B2 - 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム - Google Patents

読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム Download PDF

Info

Publication number
JP5961586B2
JP5961586B2 JP2013114254A JP2013114254A JP5961586B2 JP 5961586 B2 JP5961586 B2 JP 5961586B2 JP 2013114254 A JP2013114254 A JP 2013114254A JP 2013114254 A JP2013114254 A JP 2013114254A JP 5961586 B2 JP5961586 B2 JP 5961586B2
Authority
JP
Japan
Prior art keywords
kana
reading
kanji
correction
gram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013114254A
Other languages
English (en)
Other versions
JP2014232510A (ja
Inventor
博子 村上
博子 村上
水野 秀之
秀之 水野
勇祐 井島
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013114254A priority Critical patent/JP5961586B2/ja
Publication of JP2014232510A publication Critical patent/JP2014232510A/ja
Application granted granted Critical
Publication of JP5961586B2 publication Critical patent/JP5961586B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、読み仮名誤りの自動修正に用いる読み仮名修正モデルを生成する読み仮名修正モデル学習装置と、そのモデルを用いた読み仮名修正装置と、それらの方法とプログラムに関する。
従来、漢字に対する読み仮名付与では、単語辞書から(単語表記・品詞・読み仮名)の組から成る単語の候補を取得し、単語間の品詞接続に基づき、日本語の文として最も適切な単語系列を選択し、選択された単語系列の読み仮名に基づいて、漢字に読み仮名を付与するという手法が一般的に用いられてきた(例えば非特許文献1)。
Twitter・ブログ等、個人が書いた崩れた表記を含んだテキストでは、例えば、「嬉しい」→「嬉しぃ」などの小文字化、「知らない」→「知ラナイ」などのカタカナ化、等の表記ゆれが発生する。読み仮名付与対象のテキストに、このような表記ゆれを含んだテキストが含まれると、単語系列選択の際に正しく辞書照合できず、読み仮名誤りが発生することが問題であった。表記ゆれに起因する読み仮名誤りを改善するため、従来は、単語系列選択を行う前に規則によるテキストの書き換えを行い、表記ゆれを含んだテキストを辞書照合可能な表記に修正してから単語系列選択を行うことで解決していた。
松本裕治,et al.″日本語形態素解析システム「茶筌」Version 2.0 使用説明書~″NAIST-IS-TR99012(1999).
崩れた表記のテキストに含まれる表記ゆれパターンは多岐にわたるので、従来の規則によるテキストの書き換えでは網羅しきれない表記ゆれが多く存在する。また、規則の設計は人手で行う必要があるため、新たな表記ゆれパターンが出現する度に規則を設計するのは高コストである。
本発明は、この課題に鑑みてなされたものであり、読み仮名誤りを自動的に修正するための統計モデルである読み仮名修正モデルを学習する読み仮名修正モデル学習装置と、そのモデルを用いた読み仮名修正装置と、それらの方法とプログラムを提供することを目的とする。
本発明の読み仮名修正モデル学習装置は、N−1系列抽出部と、N-gramモデル学習部と、を具備する。N−1系列抽出部は、読み仮名を付与した漢字かな混じりの学習テキストを入力として、当該学習テキスト内の漢字1文字にN−1個のひらがなが連接する出現に対して、当該漢字とその読み仮名と、当該漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出する。N-gramモデル学習部は、N-gramの出現頻度に応じて確率を付与した漢字かなN-gramモデルを学習し、当該漢字かなN-gramモデルを読み仮名修正モデルとして外部に出力する。
また、本発明の読み仮名修正装置は、読み仮名修正モデルと、読み仮名修正部と、を具備する。読み仮名修正モデルは上記した読み仮名修正モデル学習装置で学習した読み仮名修正モデルである。読み仮名修正部は、読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字(以下、当該漢字を該当漢字という)1文字にN−1個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する。
本発明の読み仮名修正モデル学習装置は、学習テキスト内の漢字1文字とその読み仮名と当該漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramの確率モデルであり、テキストに含まれる読み仮名誤りを修正する目的で用いることが可能な読み仮名修正モデルを提供する。また、この発明の読み仮名修正装置は、テキストに含まれる読み仮名誤りを、上記読み修正モデルを用いて自動的に修正することができる。よって、新たな表記ゆれパターンが出現する度に規則を設計するのに必要なコストを、削減する効果を奏する。
本発明の読み仮名修正モデル学習装置100の機能構成例を示す図。 読み仮名修正モデル学習装置100の動作フローを示す図。 本発明の読み仮名修正装置200の機能構成例を示す図。 読み仮名修正部210のより具体的な機能構成例を示す図。 本発明の読み仮名修正装置300の機能構成例を示す図。 読み仮名候補抽出部310のより具体的な機能構成例を示す図。 本発明の読み仮名修正装置400の機能構成例を示す図。 本発明の読み仮名修正装置500の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔読み仮名修正モデル学習装置〕
図1に、この発明の読み仮名修正モデル学習装置100の機能構成例を示す。その動作フローを図2に示す。読み仮名修正モデル学習装置100は、N−1系列抽出部110と、N-gramモデル学習部120と、制御部130と、を具備する。読み仮名修正モデル学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。
N−1系列抽出部110は、漢字仮名混じりの学習テキストを入力として、当該学習テキスト内の漢字1文字にひらがなN−1個の文字が連接して出現するN-gramを抽出する(ステップS110)。学習テキストにおいて、漢字1文字にひらがなN−1個の文字が連接したN-gramのみを学習の対象とする。漢字が連続して出現するものや、漢字の後に出現するN−1個の文字にひらがな以外の文字(カタカナ・漢字・記号等)が含まれるものは、学習の対象外とする。
例えばN=3の例を挙げると、「今日は外で遊びましょうね(キョウワソトデアソビマショウネ)」という学習テキストにおいて、漢字1文字に対してひらがな2文字が連接している3-gramは「遊びま」の部分のみである。この例では、1文字目の漢字とその読み仮名のセットである(遊,アソ)と、漢字に連接するひらがな2文字「びま」の読みである「ビマ」の3個組の組み合わせである([遊,アソ],ビ,マ)がN-gramとしてカウントされる。このN-gramの抽出は、学習テキストの全ての単語を対象に行われ、学習テキスト内の漢字1文字に対してひらがな2文字が連接しているN-gramの全てが抽出されるまで繰り返される(ステップS130のNo)。この繰り返し動作の制御は制御部130で行う。制御部130は、読み仮名修正モデル学習装置100の各部の時系列動作を制御する一般的なものであり、特別な処理を行うものではない。他の実施例についても同様である。
N-gramモデル学習部120は、N−1系列抽出部110で抽出された全てのN-gramのそれぞれの頻度を数え、その頻度に応じて確率を付与した確率モデルである漢字かなN-gramモデルを学習し、その漢字かなN-gramモデルを読み仮名修正モデル140として外部に出力する(ステップS120)。N-gramモデルの学習方法は、例えば参考文献1(北健二著、「言語と計算-4 確率的言語モデル」、東京大学出版会、pp.57-62)に記載されているように周知である。
従来の一般的なN-gramモデルは、隣接する単語の組み合わせを学習し、音声認識や形態素解析用の言語モデルに用いられることが多い。この発明ではN-gramモデルを、漢字とその読み仮名と、その漢字に連接する読みの組み合わせとを学習し、読み仮名誤りの修正用モデルとして用いる点で新しい。
N-gramのNは2以上であればいくつであっても良い。例えば、N=2として、漢字と漢字に連接する読みを1文字しか考慮しない漢字かなN-gramモデルも有り得る。但し、N=2とした場合、「楽しい(タノシイ)」、「楽して(ラクシテ)」のように、漢字に連接する読みを2個まで考慮することで読み仮名をほぼ一意に決定できるような例においても、「楽し」までしか考慮できないため、読み仮名「タノ」と「ラク」の間に確率的に大きな差が表れないモデルになる課題がある。
そのようなモデルにしない為には、統計的に十分な学習量を得ることのできる出現頻度の高い漢字に関しては、N-gramのN数を長めに設定した漢字かなN-gramモデルを用いる事が望ましい。但し、この場合も、出現頻度が低い漢字においては、N数を長(大)めに設定すると、学習データが不足してデータスパースの問題が発生する課題がある。
従って、N-gramのN数は、学習テキストに対応させた最適なN数に固定しても良いし、複数のN数の漢字かなN-gramモデルを併用するようにしても良い。
〔読み仮名修正装置〕
図3に、この発明の読み仮名修正装置200の機能構成例を示す。読み仮名修正装置200は、読み仮名修正モデル140と、読み仮名修正部210と、制御部230と、を具備する。
読み仮名修正モデル140は、上記した読み仮名修正モデル学習装置100で学習した漢字かなN-gramモデルである。漢字かなN-gramモデルは、例えば3-gramモデルである。
読み仮名修正部210は、入力テキストに含まれる漢字1文字にひらがながN−1個の文字が連接して出現するN-gramを抽出し、該当漢字のN-gramを読み仮名修正モデル140に入力してN-gramの生起確率を求め、該当漢字の読み仮名を、生起確率が所定値以上の読み仮名に修正して出力する。読み仮名修正部210は、入力テキストに含まれる例えば([楽,ガク],シ,イ)の3-gramを、生起確率の高い([楽,タノ],シ,イ)に修正した読み仮名が修正されたテキストを外部に出力する。ここで該当漢字とは、読み仮名修正装置200が、修正の対象にする入力テキスト内の任意の漢字1文字のことである。
読み仮名修正部210では、入力テキストに対する読み仮名誤り修正の指標として、読み仮名修正モデル学習装置100で学習した漢字かなN-gramモデルから算出される生起確率を用いる。漢字かなN-gramモデルは、([漢字,読み仮名],漢字に連接する読みN-1個)の組み合わせを入力すると、学習テキスト中の該当組み合わせの出現頻度に応じて、その生起確率を算出することができる。学習テキストに高頻度で出現する組み合わせに対しては、高い確率が算出され、逆に低頻度で出現する組み合わせに対しては、低い確率が算出される。この実施例では、漢字かなN-gramモデルから算出される生起確率が高いものは読み仮名誤りが発生している可能性が低い、逆に生起確率が低いものは読み仮名誤りが発生している可能性が高いと仮定し、漢字かなN-gramモデルから算出される生起確率が低い読み仮名を生起確率が高い読み仮名に修正する事で、読み仮名誤りを修正する。
図4に、読み仮名修正部210のより具体的な機能構成例を示して更に詳しくその動作を説明する。読み仮名修正部210は、単漢字辞書211と、入力テキスト読み仮名生起確率算出手段212と、単漢字読み仮名生起確率算出手段213と、読み仮名決定手段214と、を備える。
単漢字辞書211は、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている辞書である。例えば、楽(ラク)、楽しい(タノシイ)、楽して(ラクシテ)、楽しく(タノシク)、…、等の情報を記憶している。
入力テキスト読み仮名生起確率算出手段212は、入力テキストに含まれる漢字1文字にひらがながN−1個の文字が連接して出現するN-gramを抽出し、該当漢字のN-gramを読み仮名修正モデル学習装置100で学習した読み仮名修正モデル140に入力して当該N-gramの生起確率P0を求める。例えば、対象にしている入力テキストのN-gramが([楽,ガク],シ,イ)であったとして、その生起確率P0を求める。そして、該当漢字の情報を単漢字読み仮名生起確率算出手段213に出力する。
単漢字読み仮名生起確率算出手段213は、該当漢字に対する1個以上のその他の読み仮名候補を単漢字辞書から取得し、該当漢字のその他の読み仮名候補を読み仮名修正モデル140に入力してその他の読み仮名候補の生起確率Pkを求める。該当漢字を([楽,ガク])とした場合、その他の読み仮名候補であるk=1の楽しい(タノシイ)、k=2の楽して(ラクシテ)、k=3の楽しく(タノシク)の、それぞれの生起確率P1,P2,P3を求める。
読み仮名決定手段214は、生起確率Pk(k=1,…,n)と上記生起確率P0との尤度比Rk(=Pk/P0)を求め、当該尤度比Rkが所定値T以上で且つ最大の読み仮名候補を、上記該当漢字の修正された読み仮名として決定し、当該尤度比Rkが上記所定値T以下の場合は、生起確率P0の読み仮名を該当漢字の読み仮名として決定する。該当漢字を([楽,ガク])とした例では、(タノシイ)と(ガクシイ)の尤度比R1の値が、所定値T以上で最大になったとすると、入力テキストの([楽,ガク],シ,イ)の3-gramは、([楽,タノ],シ,イ)に修正されて、出力される。ここで所定値Tは、尤度最大となる読み仮名候補の生起確率のおよそ2〜3倍程度となるよう(T=2〜3程度)に設定しておく。尤度比Rkは1.0以上であればより生起確率の高い読みが在ることを意味するが、1.0に近すぎると誤変換の可能性も高くなる。よって所定値の値は、入力テキストに応じて試行した結果で決めても良い。
図5に、この発明の読み仮名修正装置300の機能構成例を示す。読み仮名修正装置300は、読み仮名修正モデル140と、読み仮名候補抽出部310と、読み仮名修正部320と、読みN-gramモデル340と、制御部330と、を具備する。読み仮名候補抽出部310は、複数の読み仮名候補を出力する点で読み仮名修正装置200(図3)と異なる。読み仮名修正モデル140は、実施例1の読み仮名修正装置200(図3)と同じものである。
読み仮名候補抽出部310は、入力テキストに含まれる漢字1文字にひらがながN−1個の文字が連接して出現するN-gramを抽出し、該当漢字のN-gramを読み仮名修正モデル学習装置で学習した読み仮名修正モデルに入力して当該N-gramの生起確率を求め、当該生起確率が所定値以上の複数の読み仮名を、上記該当漢字の読み仮名候補として出力する。
図6に、読み仮名候補抽出部310のより具体的な機能構成例を示す。読み仮名候補抽出部310は、読み仮名修正部210(図4)に対して読み仮名候補選択手段311を備える点でのみ異なる。読み仮名候補選択手段311は、入力テキスト読み仮名生起確率算出手段212の出力する該当漢字のN-gramの生起確率P0と、単漢字読み仮名生起確率算出手段213の出力する他の読み仮名候補の生起確率Pk(k=1,…,n)と、を入力として尤度比Rk(=Pk/P0)を求め、当該尤度比Rkが所定値T以上の複数の読み仮名候補を出力する。
読みN-gramモデル340は、学習テキスト内のN個連接して出現する読みの出現頻度を学習したモデルである。N=3の場合の例を挙げると、「今日は外で遊びましょうね(キョウワソトデアソビマショウネ)」という学習テキストにおいて、「キョウ」、「ョウワ」、「ウワソ」等の3個連接して出現する読みが全てカウントされ、その頻度に応じて確率が付与される。読みN-gramモデル340に読みの系列を入力すると、その読みの生起確率を算出することができる。読みN-gramモデル340の構築方法は、読み仮名修正モデル140と同じで周知である。
読み仮名修正部320は、上記複数の読み仮名候補を含む一文の生起確率を、読みN-gramモデル340を参照して求め、生起確率の最も高い読み仮名候補を含む一文を出力する。例を挙げて説明すると、入力テキストの「今日は楽しいな(キョウワガクシイナ)」の「楽」という漢字に対して、読み仮名候補抽出部310で、「楽(ラク)」、「楽(タノ)」という2つの読み仮名候補が出力されていたと仮定する。
その場合、入力テキスト全体の読みの系列である「キョウワラクシイナ」と「キョウワタノシイナ」のそれぞれの系列に対して読みN-gramモデルを用いて生起確率を算出する。そして、この例の場合、生起確率の高い読み系列である「キョウワタノシイナ」を、読み仮名が修正されたテキストとして出力される。
図7に、この発明の読み仮名修正装置400の機能構成例を示す。読み仮名修正装置400は、漢字かな2-gramモデル142と、漢字かな3-gramモデル143と、漢字かな4-gramモデル144と、読み仮名修正部410と、制御部430と、を具備する。読み仮名修正装置400は、読み仮名修正装置200に対して複数の漢字かなN-gramモデル142〜144を備える点で異なる。
漢字かなN-gramモデル142〜144は、読み仮名修正モデル学習装置100で学習した確率モデルである。読み仮名修正部410は、入力テキストに含まれる漢字1文字にひらがなが連接して出現する2-gramと3-gramと4-gramを抽出し、該当漢字のN-gramを、対応するN-gramの漢字かな2-gramモデル142と漢字かな3-gramモデル143と漢字かな4-gramモデル144のそれぞれに入力して各N-gramの生起確率を求め、該当漢字の読み仮名を、生起確率が所定値以上の読み仮名に修正して出力する。
上記したように、統計的に十分な学習量を得ることのできる出現頻度の高い漢字に関しては、N-gramのN数を長めに設定した漢字かなN-gramモデルを用いる事が望ましい。しかし、出現頻度が低い漢字においてはN-gramの数を長めに設定すると、学習データが足りず、データスパースの問題が発生する。読み仮名修正装置400は、この問題を解決することができる。
読み仮名修正装置400は、複数の漢字かなN-gramモデルを併用し、各漢字かなN-gramモデルから別々に算出された尤度比Rk_n-gram(=Pk_n-gram/P0_n-gram)の和が、一定値以上で且つ最大の読み仮名に、該当漢字の読み仮名を修正して出力する。読み仮名修正装置400によれば、出現頻度の高い漢字に関しては、N-gramの数を大きく設定したモデルの確率を利用できるため、より高精度に読み仮名修正を行うことができる。また、出現頻度の低い漢字に関しては、N-gramの数を小さくしたモデルの確率を利用できるため、データスパースの問題が軽減される。
図8に、この発明の読み仮名修正装置500の機能構成例を示す。読み仮名修正装置500は、漢字かな2-gramモデル142と、漢字かな3-gramモデル143と、漢字かな4-gramモデル144と、読み仮名候補抽出部510と、読み仮名修正部320と、読みN-gramモデル340と、制御部530と、を具備する。読み仮名修正装置500は、実施例2(読み仮名修正装置300(図5))と3(読み仮名修正装置400(図7))の考えを組み合わせたものである。
読み仮名候補抽出部510は、入力テキストに含まれる漢字1文字にひらがなが連接して出現する2-gramと3-gramと4-gramを抽出し、該当漢字の上記N-gramを、対応するN-gramの漢字かな2-gramモデル142と漢字かな3-gramモデル143と漢字かな4-gramモデル144のそれぞれに入力して各N-gramの生起確率を求め、生起確率が所定値以上の上記該当漢字の複数の読み仮名候補を出力する。読み仮名修正部320と読みN-gramモデル340は、参照符号から明らかなように読み仮名修正装置300と同じものである。
読み仮名修正装置300と読み仮名修正装置400の考えを組み合わせた読み仮名修正装置500によれば、学習テキストにおける漢字の出現頻度の差に依存し難く、且つ文全体として最適になる読み仮名修正を行うことができ、より高精度に読み仮名修正を行うことが可能になる。
以上説明したようにこの発明の読み仮名修正モデル学習装置100は、学習テキストの漢字とその読み仮名と、その漢字に連接する読みの組み合わせとを学習し、読み仮名誤りの修正用モデルとして用いることが可能な新しい統計モデルを提供することができる。また、この発明の読み仮名修正装置200,300,400,500は、その新しい統計モデルを用いることで、Twitter・ブログ等、個人が書いた崩れた表記を含んだテキストに含まれる多種多様な表記ゆれを、自動的に正しい読み仮名に修正することができる。この発明の読み仮名修正装置200,300,400,500は、従来必要であった新たな表記ゆれパターンが出現する度に規則を設計するコストを、削減する効果を奏する。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 読み仮名を付与した漢字かな混じりの学習テキストを入力として、当該学習テキスト内の漢字1文字にN−1個のひらがなが連接する出現に対して、当該漢字とその読み仮名と、当該漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出するN−1系列抽出部と、
    上記N-gramの出現頻度に応じて確率を付与した漢字かなN-gramモデルを学習し、当該漢字かなN-gramモデルを読み仮名修正モデルとして外部に出力するN-gramモデル学習部と、
    を具備する読み仮名修正モデル学習装置。
  2. 請求項1に記載した読み仮名修正モデル学習装置で学習した読み仮名修正モデルと、
    読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字(以下、当該漢字を該当漢字という)1文字にN−1個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する読み仮名修正部と、
    を具備する読み仮名修正装置。
  3. 請求項2に記載した読み仮名修正装置において、
    上記読み仮名修正部は、
    上記入力テキストから上記該当漢字のN-gramを抽出し、上記該当漢字のN-gramを上記読み仮名修正モデルに入力して当該N-gramの生起確率P0を求める入力テキスト読み仮名生起確率算出手段と、
    上記該当漢字に対する1個以上のその他の読み仮名候補を上記単漢字辞書から取得し、当該その他の読み仮名候補を上記読み仮名修正モデルに入力してその他の読み仮名候補の生起確率Pkを求める単漢字読み仮名生起確率算出手段と、
    上記生起確率Pkと上記生起確率P0との尤度比Rkを求め、当該尤度比Rkが所定値以上で且つ最大の読み仮名候補を、上記該当漢字の修正された読み仮名として決定し、当該尤度比Rkが上記所定値以下の場合は、上記生起確率P0の読み仮名を上記該当漢字の読み仮名として決定する読み仮名決定手段と、
    を備えることを特徴とする読み仮名修正装置。
  4. 請求項1に記載した読み仮名修正モデル学習装置で学習した読み仮名修正モデルと、
    読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字(以下、当該漢字を該当漢字という)1文字にN−1個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、複数の上記該当漢字の読み仮名を、上記該当漢字の読み仮名候補として出力する読み仮名候補抽出部と、
    学習テキスト内のN個連接して出現する読みの出現頻度を学習した読みN-gramモデルと、
    上記読み仮名候補を含む一文の生起確率を、上記読みN-gramモデルを参照して求め、生起確率の最も高い上記読み仮名を含む一文を出力する読み仮名修正部と、
    を具備する読み仮名修正装置。
  5. 請求項1に記載した読み仮名修正モデル学習装置で学習した漢字かな2-gramモデルと漢字かな3-gramモデルと漢字かな4-gramモデルの読み仮名修正モデルと、
    読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字(以下、当該漢字を該当漢字という)1文字にひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するひらがなの読みの組み合わせである2-gramと3-gramと4-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する読み仮名修正部と、
    を具備する読み仮名修正装置。
  6. N−1系列抽出部と、N-gramモデル学習部とを具備する読み仮名修正モデル学習装置が実行する読み仮名修正モデル学習方法であって、
    上記N−1系列抽出部が、読み仮名を付与した漢字かな混じりの学習テキストを入力として、当該学習テキスト内の漢字1文字にN−1個のひらがなが連接する出現に対して、当該漢字とその読み仮名と、当該漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出するN−1系列抽出過程と、
    上記N-gramモデル学習部が、上記N-gramの出現頻度に応じて確率を付与した漢字かなN-gramモデルを学習し、当該漢字かなN-gramモデルを読み仮名修正モデルとして外部に出力するN-gramモデル学習過程と、
    を備える読み仮名修正モデル学習方法。
  7. 請求項6に記載した読み仮名修正モデル学習方法で学習した読み仮名修正モデルと、読み仮名修正部とを具備する読み仮名修正装置が実行する読み仮名修正方法であって、
    上記読み仮名修正部が、読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字(以下、当該漢字を該当漢字という)1文字にN−1個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するN−1個のひらがなの読みの組み合わせであるN-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する読み仮名修正過程と、
    を備える読み仮名修正方法。
  8. 請求項1に記載した読み仮名修正モデル学習装置としてコンピュータを機能させるためのプログラム。
  9. 請求項2乃至5の何れかに記載した読み仮名修正装置としてコンピュータを機能させるためのプログラム。
JP2013114254A 2013-05-30 2013-05-30 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム Expired - Fee Related JP5961586B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013114254A JP5961586B2 (ja) 2013-05-30 2013-05-30 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013114254A JP5961586B2 (ja) 2013-05-30 2013-05-30 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム

Publications (2)

Publication Number Publication Date
JP2014232510A JP2014232510A (ja) 2014-12-11
JP5961586B2 true JP5961586B2 (ja) 2016-08-02

Family

ID=52125826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013114254A Expired - Fee Related JP5961586B2 (ja) 2013-05-30 2013-05-30 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム

Country Status (1)

Country Link
JP (1) JP5961586B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7228083B2 (ja) 2019-01-31 2023-02-24 日本電信電話株式会社 データ検索装置、方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353159A (ja) * 1999-06-11 2000-12-19 Nippon Telegr & Teleph Corp <Ntt> 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体
JP3953772B2 (ja) * 2001-10-19 2007-08-08 日本放送協会 読みがな付与装置およびプログラム
JP2007226359A (ja) * 2006-02-21 2007-09-06 Nec Corp 読み評価方法、読み評価装置および読み評価用プログラム
JP5377889B2 (ja) * 2008-06-05 2013-12-25 日本放送協会 言語処理装置およびプログラム

Also Published As

Publication number Publication date
JP2014232510A (ja) 2014-12-11

Similar Documents

Publication Publication Date Title
US11024287B2 (en) Method, device, and storage medium for correcting error in speech recognition result
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
Yu et al. Chinese spelling error detection and correction based on language model, pronunciation, and shape
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
CN102063508A (zh) 基于广义后缀树的中文搜索引擎模糊自动补全方法
US20140380169A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
US11809820B2 (en) Language characteristic extraction device, named entity extraction device, extraction method, and program
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
van Esch et al. Writing across the world's languages: Deep internationalization for Gboard, the Google keyboard
US20150058011A1 (en) Information processing apparatus, information updating method and computer-readable storage medium
US20160062965A1 (en) Generation of parsable data for deep parsing
JP5961586B2 (ja) 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム
CN109670040B (zh) 写作辅助方法、装置及存储介质、计算机设备
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10789410B1 (en) Identification of source languages for terms
CN109960812B (zh) 语言处理方法及设备
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
CN111079489A (zh) 一种内容识别方法及电子设备
JP2010257021A (ja) 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム
Hladek et al. Unsupervised spelling correction for Slovak
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160627

R150 Certificate of patent or registration of utility model

Ref document number: 5961586

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees