JP5961586B2

JP5961586B2 - 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム

Info

Publication number: JP5961586B2
Application number: JP2013114254A
Authority: JP
Inventors: 博子村上; 水野　秀之; 秀之水野; 勇祐井島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-05-30
Filing date: 2013-05-30
Publication date: 2016-08-02
Anticipated expiration: 2033-05-30
Also published as: JP2014232510A

Description

本発明は、読み仮名誤りの自動修正に用いる読み仮名修正モデルを生成する読み仮名修正モデル学習装置と、そのモデルを用いた読み仮名修正装置と、それらの方法とプログラムに関する。

従来、漢字に対する読み仮名付与では、単語辞書から（単語表記・品詞・読み仮名）の組から成る単語の候補を取得し、単語間の品詞接続に基づき、日本語の文として最も適切な単語系列を選択し、選択された単語系列の読み仮名に基づいて、漢字に読み仮名を付与するという手法が一般的に用いられてきた（例えば非特許文献１）。

Twitter・ブログ等、個人が書いた崩れた表記を含んだテキストでは、例えば、「嬉しい」→「嬉しぃ」などの小文字化、「知らない」→「知ラナイ」などのカタカナ化、等の表記ゆれが発生する。読み仮名付与対象のテキストに、このような表記ゆれを含んだテキストが含まれると、単語系列選択の際に正しく辞書照合できず、読み仮名誤りが発生することが問題であった。表記ゆれに起因する読み仮名誤りを改善するため、従来は、単語系列選択を行う前に規則によるテキストの書き換えを行い、表記ゆれを含んだテキストを辞書照合可能な表記に修正してから単語系列選択を行うことで解決していた。

松本裕治,et al.″日本語形態素解析システム「茶筌」Version 2.0 使用説明書~″NAIST-IS-TR99012(1999).

崩れた表記のテキストに含まれる表記ゆれパターンは多岐にわたるので、従来の規則によるテキストの書き換えでは網羅しきれない表記ゆれが多く存在する。また、規則の設計は人手で行う必要があるため、新たな表記ゆれパターンが出現する度に規則を設計するのは高コストである。

本発明は、この課題に鑑みてなされたものであり、読み仮名誤りを自動的に修正するための統計モデルである読み仮名修正モデルを学習する読み仮名修正モデル学習装置と、そのモデルを用いた読み仮名修正装置と、それらの方法とプログラムを提供することを目的とする。

本発明の読み仮名修正モデル学習装置は、Ｎ−１系列抽出部と、Ｎ-gramモデル学習部と、を具備する。Ｎ−１系列抽出部は、読み仮名を付与した漢字かな混じりの学習テキストを入力として、当該学習テキスト内の漢字１文字にＮ−１個のひらがなが連接する出現に対して、当該漢字とその読み仮名と、当該漢字に連接するＮ−１個のひらがなの読みの組み合わせであるＮ-gramを抽出する。Ｎ-gramモデル学習部は、Ｎ-gramの出現頻度に応じて確率を付与した漢字かなＮ-gramモデルを学習し、当該漢字かなＮ-gramモデルを読み仮名修正モデルとして外部に出力する。

また、本発明の読み仮名修正装置は、読み仮名修正モデルと、読み仮名修正部と、を具備する。読み仮名修正モデルは上記した読み仮名修正モデル学習装置で学習した読み仮名修正モデルである。読み仮名修正部は、読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字（以下、当該漢字を該当漢字という）１文字にＮ−１個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するＮ−１個のひらがなの読みの組み合わせであるＮ-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する。

本発明の読み仮名修正モデル学習装置は、学習テキスト内の漢字１文字とその読み仮名と当該漢字に連接するＮ−１個のひらがなの読みの組み合わせであるＮ-gramの確率モデルであり、テキストに含まれる読み仮名誤りを修正する目的で用いることが可能な読み仮名修正モデルを提供する。また、この発明の読み仮名修正装置は、テキストに含まれる読み仮名誤りを、上記読み修正モデルを用いて自動的に修正することができる。よって、新たな表記ゆれパターンが出現する度に規則を設計するのに必要なコストを、削減する効果を奏する。

本発明の読み仮名修正モデル学習装置１００の機能構成例を示す図。読み仮名修正モデル学習装置１００の動作フローを示す図。本発明の読み仮名修正装置２００の機能構成例を示す図。読み仮名修正部２１０のより具体的な機能構成例を示す図。本発明の読み仮名修正装置３００の機能構成例を示す図。読み仮名候補抽出部３１０のより具体的な機能構成例を示す図。本発明の読み仮名修正装置４００の機能構成例を示す図。本発明の読み仮名修正装置５００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔読み仮名修正モデル学習装置〕
図１に、この発明の読み仮名修正モデル学習装置１００の機能構成例を示す。その動作フローを図２に示す。読み仮名修正モデル学習装置１００は、Ｎ−１系列抽出部１１０と、Ｎ-gramモデル学習部１２０と、制御部１３０と、を具備する。読み仮名修正モデル学習装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。

Ｎ−１系列抽出部１１０は、漢字仮名混じりの学習テキストを入力として、当該学習テキスト内の漢字１文字にひらがなＮ−１個の文字が連接して出現するＮ-gramを抽出する（ステップＳ１１０）。学習テキストにおいて、漢字１文字にひらがなＮ−１個の文字が連接したＮ-gramのみを学習の対象とする。漢字が連続して出現するものや、漢字の後に出現するＮ−１個の文字にひらがな以外の文字（カタカナ・漢字・記号等）が含まれるものは、学習の対象外とする。

例えばＮ＝３の例を挙げると、「今日は外で遊びましょうね（キョウワソトデアソビマショウネ）」という学習テキストにおいて、漢字１文字に対してひらがな２文字が連接している３-gramは「遊びま」の部分のみである。この例では、１文字目の漢字とその読み仮名のセットである（遊，アソ）と、漢字に連接するひらがな２文字「びま」の読みである「ビマ」の３個組の組み合わせである（[遊，アソ]，ビ，マ）がＮ-gramとしてカウントされる。このＮ-gramの抽出は、学習テキストの全ての単語を対象に行われ、学習テキスト内の漢字１文字に対してひらがな２文字が連接しているＮ-gramの全てが抽出されるまで繰り返される（ステップＳ１３０のＮｏ）。この繰り返し動作の制御は制御部１３０で行う。制御部１３０は、読み仮名修正モデル学習装置１００の各部の時系列動作を制御する一般的なものであり、特別な処理を行うものではない。他の実施例についても同様である。

Ｎ-gramモデル学習部１２０は、Ｎ−１系列抽出部１１０で抽出された全てのＮ-gramのそれぞれの頻度を数え、その頻度に応じて確率を付与した確率モデルである漢字かなＮ-gramモデルを学習し、その漢字かなＮ-gramモデルを読み仮名修正モデル１４０として外部に出力する（ステップＳ１２０）。Ｎ-gramモデルの学習方法は、例えば参考文献１（北健二著、「言語と計算-4 確率的言語モデル」、東京大学出版会、pp.57-62）に記載されているように周知である。

従来の一般的なＮ-gramモデルは、隣接する単語の組み合わせを学習し、音声認識や形態素解析用の言語モデルに用いられることが多い。この発明ではＮ-gramモデルを、漢字とその読み仮名と、その漢字に連接する読みの組み合わせとを学習し、読み仮名誤りの修正用モデルとして用いる点で新しい。

Ｎ-gramのＮは２以上であればいくつであっても良い。例えば、Ｎ＝２として、漢字と漢字に連接する読みを１文字しか考慮しない漢字かなＮ-gramモデルも有り得る。但し、Ｎ＝２とした場合、「楽しい（タノシイ）」、「楽して（ラクシテ）」のように、漢字に連接する読みを２個まで考慮することで読み仮名をほぼ一意に決定できるような例においても、「楽し」までしか考慮できないため、読み仮名「タノ」と「ラク」の間に確率的に大きな差が表れないモデルになる課題がある。

そのようなモデルにしない為には、統計的に十分な学習量を得ることのできる出現頻度の高い漢字に関しては、Ｎ-gramのＮ数を長めに設定した漢字かなＮ-gramモデルを用いる事が望ましい。但し、この場合も、出現頻度が低い漢字においては、Ｎ数を長（大）めに設定すると、学習データが不足してデータスパースの問題が発生する課題がある。

従って、Ｎ-gramのＮ数は、学習テキストに対応させた最適なＮ数に固定しても良いし、複数のＮ数の漢字かなＮ-gramモデルを併用するようにしても良い。
〔読み仮名修正装置〕
図３に、この発明の読み仮名修正装置２００の機能構成例を示す。読み仮名修正装置２００は、読み仮名修正モデル１４０と、読み仮名修正部２１０と、制御部２３０と、を具備する。

読み仮名修正モデル１４０は、上記した読み仮名修正モデル学習装置１００で学習した漢字かなＮ-gramモデルである。漢字かなＮ-gramモデルは、例えば３-gramモデルである。

読み仮名修正部２１０は、入力テキストに含まれる漢字１文字にひらがながＮ−１個の文字が連接して出現するＮ-gramを抽出し、該当漢字のＮ-gramを読み仮名修正モデル１４０に入力してＮ-gramの生起確率を求め、該当漢字の読み仮名を、生起確率が所定値以上の読み仮名に修正して出力する。読み仮名修正部２１０は、入力テキストに含まれる例えば（[楽，ガク]，シ，イ）の３-gramを、生起確率の高い（[楽，タノ]，シ，イ）に修正した読み仮名が修正されたテキストを外部に出力する。ここで該当漢字とは、読み仮名修正装置２００が、修正の対象にする入力テキスト内の任意の漢字１文字のことである。

読み仮名修正部２１０では、入力テキストに対する読み仮名誤り修正の指標として、読み仮名修正モデル学習装置１００で学習した漢字かなＮ-gramモデルから算出される生起確率を用いる。漢字かなＮ-gramモデルは、（[漢字，読み仮名]，漢字に連接する読みＮ-１個）の組み合わせを入力すると、学習テキスト中の該当組み合わせの出現頻度に応じて、その生起確率を算出することができる。学習テキストに高頻度で出現する組み合わせに対しては、高い確率が算出され、逆に低頻度で出現する組み合わせに対しては、低い確率が算出される。この実施例では、漢字かなＮ-gramモデルから算出される生起確率が高いものは読み仮名誤りが発生している可能性が低い、逆に生起確率が低いものは読み仮名誤りが発生している可能性が高いと仮定し、漢字かなＮ-gramモデルから算出される生起確率が低い読み仮名を生起確率が高い読み仮名に修正する事で、読み仮名誤りを修正する。

図４に、読み仮名修正部２１０のより具体的な機能構成例を示して更に詳しくその動作を説明する。読み仮名修正部２１０は、単漢字辞書２１１と、入力テキスト読み仮名生起確率算出手段２１２と、単漢字読み仮名生起確率算出手段２１３と、読み仮名決定手段２１４と、を備える。

単漢字辞書２１１は、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている辞書である。例えば、楽（ラク）、楽しい（タノシイ）、楽して（ラクシテ）、楽しく（タノシク）、…、等の情報を記憶している。

入力テキスト読み仮名生起確率算出手段２１２は、入力テキストに含まれる漢字１文字にひらがながＮ−１個の文字が連接して出現するＮ-gramを抽出し、該当漢字のＮ-gramを読み仮名修正モデル学習装置１００で学習した読み仮名修正モデル１４０に入力して当該Ｎ-gramの生起確率Ｐ０を求める。例えば、対象にしている入力テキストのＮ-gramが（[楽，ガク]，シ，イ）であったとして、その生起確率Ｐ０を求める。そして、該当漢字の情報を単漢字読み仮名生起確率算出手段２１３に出力する。

単漢字読み仮名生起確率算出手段２１３は、該当漢字に対する１個以上のその他の読み仮名候補を単漢字辞書から取得し、該当漢字のその他の読み仮名候補を読み仮名修正モデル１４０に入力してその他の読み仮名候補の生起確率Ｐｋを求める。該当漢字を（[楽，ガク]）とした場合、その他の読み仮名候補であるｋ＝１の楽しい（タノシイ）、ｋ＝２の楽して（ラクシテ）、ｋ＝３の楽しく（タノシク）の、それぞれの生起確率Ｐ１，Ｐ２，Ｐ３を求める。

読み仮名決定手段２１４は、生起確率Ｐｋ（ｋ＝１，…，ｎ）と上記生起確率Ｐ０との尤度比Ｒｋ（＝Ｐｋ/Ｐ０）を求め、当該尤度比Ｒｋが所定値Ｔ以上で且つ最大の読み仮名候補を、上記該当漢字の修正された読み仮名として決定し、当該尤度比Ｒｋが上記所定値Ｔ以下の場合は、生起確率Ｐ０の読み仮名を該当漢字の読み仮名として決定する。該当漢字を（[楽，ガク]）とした例では、（タノシイ）と（ガクシイ）の尤度比Ｒ１の値が、所定値Ｔ以上で最大になったとすると、入力テキストの（[楽，ガク]，シ，イ）の３-gramは、（[楽，タノ]，シ，イ）に修正されて、出力される。ここで所定値Ｔは、尤度最大となる読み仮名候補の生起確率のおよそ２〜３倍程度となるよう（Ｔ＝２〜３程度）に設定しておく。尤度比Ｒｋは１．０以上であればより生起確率の高い読みが在ることを意味するが、１．０に近すぎると誤変換の可能性も高くなる。よって所定値の値は、入力テキストに応じて試行した結果で決めても良い。

図５に、この発明の読み仮名修正装置３００の機能構成例を示す。読み仮名修正装置３００は、読み仮名修正モデル１４０と、読み仮名候補抽出部３１０と、読み仮名修正部３２０と、読みＮ-gramモデル３４０と、制御部３３０と、を具備する。読み仮名候補抽出部３１０は、複数の読み仮名候補を出力する点で読み仮名修正装置２００（図３）と異なる。読み仮名修正モデル１４０は、実施例１の読み仮名修正装置２００（図３）と同じものである。

読み仮名候補抽出部３１０は、入力テキストに含まれる漢字１文字にひらがながＮ−１個の文字が連接して出現するＮ-gramを抽出し、該当漢字のＮ-gramを読み仮名修正モデル学習装置で学習した読み仮名修正モデルに入力して当該Ｎ-gramの生起確率を求め、当該生起確率が所定値以上の複数の読み仮名を、上記該当漢字の読み仮名候補として出力する。

図６に、読み仮名候補抽出部３１０のより具体的な機能構成例を示す。読み仮名候補抽出部３１０は、読み仮名修正部２１０（図４）に対して読み仮名候補選択手段３１１を備える点でのみ異なる。読み仮名候補選択手段３１１は、入力テキスト読み仮名生起確率算出手段２１２の出力する該当漢字のＮ-gramの生起確率Ｐ０と、単漢字読み仮名生起確率算出手段２１３の出力する他の読み仮名候補の生起確率Ｐｋ（ｋ＝１，…，ｎ）と、を入力として尤度比Ｒｋ（＝Ｐｋ/Ｐ０）を求め、当該尤度比Ｒｋが所定値Ｔ以上の複数の読み仮名候補を出力する。

読みＮ-gramモデル３４０は、学習テキスト内のＮ個連接して出現する読みの出現頻度を学習したモデルである。Ｎ＝３の場合の例を挙げると、「今日は外で遊びましょうね（キョウワソトデアソビマショウネ）」という学習テキストにおいて、「キョウ」、「ョウワ」、「ウワソ」等の３個連接して出現する読みが全てカウントされ、その頻度に応じて確率が付与される。読みＮ-gramモデル３４０に読みの系列を入力すると、その読みの生起確率を算出することができる。読みＮ-gramモデル３４０の構築方法は、読み仮名修正モデル１４０と同じで周知である。

読み仮名修正部３２０は、上記複数の読み仮名候補を含む一文の生起確率を、読みＮ-gramモデル３４０を参照して求め、生起確率の最も高い読み仮名候補を含む一文を出力する。例を挙げて説明すると、入力テキストの「今日は楽しいな（キョウワガクシイナ）」の「楽」という漢字に対して、読み仮名候補抽出部３１０で、「楽（ラク）」、「楽（タノ）」という２つの読み仮名候補が出力されていたと仮定する。

その場合、入力テキスト全体の読みの系列である「キョウワラクシイナ」と「キョウワタノシイナ」のそれぞれの系列に対して読みＮ-gramモデルを用いて生起確率を算出する。そして、この例の場合、生起確率の高い読み系列である「キョウワタノシイナ」を、読み仮名が修正されたテキストとして出力される。

図７に、この発明の読み仮名修正装置４００の機能構成例を示す。読み仮名修正装置４００は、漢字かな２-gramモデル１４２と、漢字かな３-gramモデル１４３と、漢字かな４-gramモデル１４４と、読み仮名修正部４１０と、制御部４３０と、を具備する。読み仮名修正装置４００は、読み仮名修正装置２００に対して複数の漢字かなＮ-gramモデル１４２〜１４４を備える点で異なる。

漢字かなＮ-gramモデル１４２〜１４４は、読み仮名修正モデル学習装置１００で学習した確率モデルである。読み仮名修正部４１０は、入力テキストに含まれる漢字１文字にひらがなが連接して出現する２-gramと３-gramと４-gramを抽出し、該当漢字のＮ-gramを、対応するＮ-gramの漢字かな２-gramモデル１４２と漢字かな３-gramモデル１４３と漢字かな４-gramモデル１４４のそれぞれに入力して各Ｎ-gramの生起確率を求め、該当漢字の読み仮名を、生起確率が所定値以上の読み仮名に修正して出力する。

上記したように、統計的に十分な学習量を得ることのできる出現頻度の高い漢字に関しては、Ｎ-gramのＮ数を長めに設定した漢字かなＮ-gramモデルを用いる事が望ましい。しかし、出現頻度が低い漢字においてはＮ-gramの数を長めに設定すると、学習データが足りず、データスパースの問題が発生する。読み仮名修正装置４００は、この問題を解決することができる。

読み仮名修正装置４００は、複数の漢字かなＮ-gramモデルを併用し、各漢字かなＮ-gramモデルから別々に算出された尤度比Ｒｋ＿ｎ-gram（＝Ｐｋ＿ｎ-gram/Ｐ０＿ｎ-gram）の和が、一定値以上で且つ最大の読み仮名に、該当漢字の読み仮名を修正して出力する。読み仮名修正装置４００によれば、出現頻度の高い漢字に関しては、Ｎ-gramの数を大きく設定したモデルの確率を利用できるため、より高精度に読み仮名修正を行うことができる。また、出現頻度の低い漢字に関しては、Ｎ-gramの数を小さくしたモデルの確率を利用できるため、データスパースの問題が軽減される。

図８に、この発明の読み仮名修正装置５００の機能構成例を示す。読み仮名修正装置５００は、漢字かな２-gramモデル１４２と、漢字かな３-gramモデル１４３と、漢字かな４-gramモデル１４４と、読み仮名候補抽出部５１０と、読み仮名修正部３２０と、読みＮ-gramモデル３４０と、制御部５３０と、を具備する。読み仮名修正装置５００は、実施例２（読み仮名修正装置３００（図５））と３（読み仮名修正装置４００（図７））の考えを組み合わせたものである。

読み仮名候補抽出部５１０は、入力テキストに含まれる漢字１文字にひらがなが連接して出現する２-gramと３-gramと４-gramを抽出し、該当漢字の上記Ｎ-gramを、対応するＮ-gramの漢字かな２-gramモデル１４２と漢字かな３-gramモデル１４３と漢字かな４-gramモデル１４４のそれぞれに入力して各Ｎ-gramの生起確率を求め、生起確率が所定値以上の上記該当漢字の複数の読み仮名候補を出力する。読み仮名修正部３２０と読みＮ-gramモデル３４０は、参照符号から明らかなように読み仮名修正装置３００と同じものである。

読み仮名修正装置３００と読み仮名修正装置４００の考えを組み合わせた読み仮名修正装置５００によれば、学習テキストにおける漢字の出現頻度の差に依存し難く、且つ文全体として最適になる読み仮名修正を行うことができ、より高精度に読み仮名修正を行うことが可能になる。

以上説明したようにこの発明の読み仮名修正モデル学習装置１００は、学習テキストの漢字とその読み仮名と、その漢字に連接する読みの組み合わせとを学習し、読み仮名誤りの修正用モデルとして用いることが可能な新しい統計モデルを提供することができる。また、この発明の読み仮名修正装置２００，３００，４００，５００は、その新しい統計モデルを用いることで、Twitter・ブログ等、個人が書いた崩れた表記を含んだテキストに含まれる多種多様な表記ゆれを、自動的に正しい読み仮名に修正することができる。この発明の読み仮名修正装置２００，３００，４００，５００は、従来必要であった新たな表記ゆれパターンが出現する度に規則を設計するコストを、削減する効果を奏する。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

読み仮名を付与した漢字かな混じりの学習テキストを入力として、当該学習テキスト内の漢字１文字にＮ−１個のひらがなが連接する出現に対して、当該漢字とその読み仮名と、当該漢字に連接するＮ−１個のひらがなの読みの組み合わせであるＮ-gramを抽出するＮ−１系列抽出部と、
上記Ｎ-gramの出現頻度に応じて確率を付与した漢字かなＮ-gramモデルを学習し、当該漢字かなＮ-gramモデルを読み仮名修正モデルとして外部に出力するＮ-gramモデル学習部と、
を具備する読み仮名修正モデル学習装置。
請求項１に記載した読み仮名修正モデル学習装置で学習した読み仮名修正モデルと、
読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字（以下、当該漢字を該当漢字という）１文字にＮ−１個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するＮ−１個のひらがなの読みの組み合わせであるＮ-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する読み仮名修正部と、
を具備する読み仮名修正装置。
請求項２に記載した読み仮名修正装置において、
上記読み仮名修正部は、
上記入力テキストから上記該当漢字のＮ-gramを抽出し、上記該当漢字のＮ-gramを上記読み仮名修正モデルに入力して当該Ｎ-gramの生起確率Ｐ０を求める入力テキスト読み仮名生起確率算出手段と、
上記該当漢字に対する１個以上のその他の読み仮名候補を上記単漢字辞書から取得し、当該その他の読み仮名候補を上記読み仮名修正モデルに入力してその他の読み仮名候補の生起確率Ｐｋを求める単漢字読み仮名生起確率算出手段と、
上記生起確率Ｐｋと上記生起確率Ｐ０との尤度比Ｒｋを求め、当該尤度比Ｒｋが所定値以上で且つ最大の読み仮名候補を、上記該当漢字の修正された読み仮名として決定し、当該尤度比Ｒｋが上記所定値以下の場合は、上記生起確率Ｐ０の読み仮名を上記該当漢字の読み仮名として決定する読み仮名決定手段と、
を備えることを特徴とする読み仮名修正装置。
請求項１に記載した読み仮名修正モデル学習装置で学習した読み仮名修正モデルと、
読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字（以下、当該漢字を該当漢字という）１文字にＮ−１個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するＮ−１個のひらがなの読みの組み合わせであるＮ-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、複数の上記該当漢字の読み仮名を、上記該当漢字の読み仮名候補として出力する読み仮名候補抽出部と、
学習テキスト内のＮ個連接して出現する読みの出現頻度を学習した読みＮ-gramモデルと、
上記読み仮名候補を含む一文の生起確率を、上記読みＮ-gramモデルを参照して求め、生起確率の最も高い上記読み仮名を含む一文を出力する読み仮名修正部と、
を具備する読み仮名修正装置。
請求項１に記載した読み仮名修正モデル学習装置で学習した漢字かな２-gramモデルと漢字かな３-gramモデルと漢字かな４-gramモデルの読み仮名修正モデルと、
読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字（以下、当該漢字を該当漢字という）１文字にひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するひらがなの読みの組み合わせである２-gramと３-gramと４-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する読み仮名修正部と、
を具備する読み仮名修正装置。
Ｎ−１系列抽出部と、Ｎ-gramモデル学習部とを具備する読み仮名修正モデル学習装置が実行する読み仮名修正モデル学習方法であって、
上記Ｎ−１系列抽出部が、読み仮名を付与した漢字かな混じりの学習テキストを入力として、当該学習テキスト内の漢字１文字にＮ−１個のひらがなが連接する出現に対して、当該漢字とその読み仮名と、当該漢字に連接するＮ−１個のひらがなの読みの組み合わせであるＮ-gramを抽出するＮ−１系列抽出過程と、
上記Ｎ-gramモデル学習部が、上記Ｎ-gramの出現頻度に応じて確率を付与した漢字かなＮ-gramモデルを学習し、当該漢字かなＮ-gramモデルを読み仮名修正モデルとして外部に出力するＮ-gramモデル学習過程と、
を備える読み仮名修正モデル学習方法。
請求項６に記載した読み仮名修正モデル学習方法で学習した読み仮名修正モデルと、読み仮名修正部とを具備する読み仮名修正装置が実行する読み仮名修正方法であって、
上記読み仮名修正部が、読み仮名を付与した漢字かな混じりの入力テキストに含まれる漢字（以下、当該漢字を該当漢字という）１文字にＮ−１個のひらがなが連接する出現に対して、上記該当漢字とその読み仮名と、上記該当漢字に連接するＮ−１個のひらがなの読みの組み合わせであるＮ-gramを抽出し、日本語のテキストに出現する漢字と漢字に対して取り得る読み仮名の候補が列挙されている単漢字辞書と上記読み仮名修正モデルを用いて、上記該当漢字の読み仮名を修正して出力する読み仮名修正過程と、
を備える読み仮名修正方法。
請求項１に記載した読み仮名修正モデル学習装置としてコンピュータを機能させるためのプログラム。
請求項２乃至５の何れかに記載した読み仮名修正装置としてコンピュータを機能させるためのプログラム。