JP5937496B2

JP5937496B2 - 読み仮名誤り検出装置、方法並びにプログラム

Info

Publication number: JP5937496B2
Application number: JP2012257452A
Authority: JP
Inventors: 博子村上; 水野　秀之; 秀之水野; 勇祐井島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-26
Filing date: 2012-11-26
Publication date: 2016-06-22
Anticipated expiration: 2032-11-26
Also published as: JP2014106607A

Description

本発明は、漢字に対する読み仮名付与技術に関し、特に誤って付与した読み仮名の検出技術に関する。

従来から漢字に対する読み仮名付与では、単語辞書から（単語表記、品詞及び読み仮名）の組から成る単語の候補を取得し、単語間の品詞接続に基づき、日本語の文として最も適切な単語系列を選択し、選択された単語系列の読み仮名に基づいて、漢字に読み仮名を付与するという手法が一般的に用いられている（非特許文献１参照）。

しかし、読み仮名付与対象のテキストに、辞書に読み仮名や品詞等が未登録の単語（以下「未知語」という）が出現すると、正しい単語系列が選択できず、読み仮名誤りが発生する場合がある。このような原因で発生する読み仮名誤りを改善するために、読み仮名を付与したテキストの中から読み仮名誤りが発生したテキストを人手で同定し、さらにそのテキストに含まれる未知語を人手で同定し、単語辞書に必要な情報（未知語の単語表記、品詞及び読み仮名）を追加する。

K. Saito and M. Nagata, "Multi-Language Named-Entity Recognition System based on HMM", ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition, 2003, Volume 15, Pages 41-48

しかしながら、従来技術は、読み仮名誤りの改善のために、読み仮名誤りが発生したテキスト、及びそのテキストに含まれる未知語を人手で同定する必要があったため、高いコストがかかる。

本発明は、読み仮名の接続、漢字とひらがなの接続の両方の観点から日本語としての不自然さを評価して、読み仮名誤りが発生した可能性の高い箇所を自動的に検出する技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、読み仮名誤り検出装置は、日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を入力テキストから検出する不自然読み仮名接続検出部と、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を入力テキストから検出する不自然漢字かな接続検出部と、を含む。

上記の課題を解決するために、本発明の第二の態様によれば、読み仮名誤り検出方法は、不自然読み仮名接続検出部と不自然漢字かな接続検出部とを含む装置を用いる。読み仮名誤り検出方法は、不自然読み仮名接続検出部が、日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を入力テキストから検出する不自然読み仮名接続検出ステップと、不自然漢字かな接続検出部が、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を入力テキストから検出する不自然漢字かな接続検出ステップと、を含む。

本発明によれば、読み仮名誤りが発生した可能性の高い箇所を人手によらず自動的に検出することができるという効果を奏する。人手による同定作業を省くことで、読み仮名誤りを改善するためにかかるコストを低減することができる。

第一実施形態に係る読み仮名誤り検出装置の全体構成図。第一実施形態に係る読み仮名誤り検出装置の処理フローを示す図。読み仮名付与装置の出力例を示す図。不自然読み仮名接続検出部の処理フローを示す図。不自然読み仮名接続検出部の処理を説明するための図。接続読み頻度付き単漢字辞書記憶部のデータ例を示す図。第一実施形態に係る不自然漢字かな接続検出部の処理フローを示す図。第二実施形態に係る読み仮名誤り検出装置の全体構成図。第二実施形態に係る読み仮名誤り検出装置の処理フローを示す図。誤り頻度付き単漢字辞書記憶部のデータ例を示す図。第二実施形態に係る不自然漢字かな接続検出部の処理フローを示す図。接続読み頻度付き単漢字辞書と誤り頻度付き単漢字辞書とを同じ記憶部に格納した場合のデータ例を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態のポイント＞
本実施形態では、入力テキストに対して、従来手法による読み仮名付与を行い、単語区切りと読み仮名系列を取得し、取得した単語区切りと読み仮名系列から読み仮名誤りの発生している可能性の高い箇所を自動的に検出する。人手によらずに検出することで、低コストで読み仮名誤りを誘発する未知語を同定することができる。

本実施形態では、まず、日本語として自然な読み仮名系列を統計的に学習した読みN-gramモデルを用いて、入力されたテキストの読み仮名付与結果から、日本語として不自然な読み仮名系列となる箇所を検出する。そして、漢字とひらがなの接続の頻度を集計した接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然なテキストを検出する。以上のように、読み仮名の接続、漢字とひらがなの接続の両方の観点から日本語としての不自然さを評価することで、読み仮名誤りの発生している可能性の高い箇所を検出する。

なお、新聞記事等の整った日本語のテキストから日本語として自然な読み仮名系列を統計的に学習した読みN-gramモデルを用いて、入力されたテキストから、日本語として不自然な読み仮名系列となる（読み仮名誤りが発生している可能性が高い）箇所を検出する。

また、正解読み仮名が付与された学習テキストから、漢字とひらがなの接続頻度を集計した接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然なテキストを検出する。

＜第一実施形態に係る読み仮名誤り検出装置１００＞
図１及び図２は、それぞれ読み仮名誤り検出装置１００の全体構成図と処理フローを示す。読み仮名誤り検出装置１００は、不自然読み仮名接続検出部１１０と、読みN-gramモデル記憶部１２０と、不自然漢字かな接続検出部１３０と、接続読み頻度付き単漢字辞書記憶部１４０とを含む。

読み仮名誤り検出装置１００は、入力テキストの単語区切りと入力テキストの読み仮名系列とを受け取り、読み仮名誤りが発生している可能性の高い箇所（本実施形態では「漢字ひらがな接続不自然箇所」ともいう）を出力する。

本実施形態では、読み仮名誤り検出装置１００を読み仮名付与装置１０の一部としている。

読み仮名付与装置１０は、読み仮名付与部９１と読み仮名誤り検出装置１００と合成部９２とを含む。読み仮名付与装置１０は、入力テキストを受け取り、読み仮名を付与し、かつ、読み仮名誤りの可能性が高い箇所を識別可能にした入力テキストと読み仮名系列とを出力する。

まず、読み仮名付与部９１は、入力テキストを受け取り、従来手法（非特許文献１等参照）による読み仮名付与を行い、単語区切りと読み仮名系列を取得し（ｓ１）、不自然読み仮名接続検出部１１０に出力する。例えば、入力テキストとして、「別ニ楽しィわけジャァないンダカラね」というテキストが入力された場合、「別/ニ/楽/しィ/わけ/ジャァ/な/い/ンダカラ/ね」という単語区切りと、「ベツニガクシイワケジャアナインダカラネ」という読み仮名系列を取得する。

合成部９２は、入力テキストとその読み仮名系列と漢字ひらがな接続不自然箇所とを受け取り、入力テキスト及びその読み仮名系列の漢字ひらがな接続不自然箇所に対応する部分を他の部分から識別可能にし（ｓ４）、出力する。例えば、他の部分と異なる色で漢字ひらがな接続不自然箇所を表示したり、漢字ひらがな接続不自然箇所に下線を付したり（図３参照）、コンピュータ上で識別可能なラベルを付与する方法等が考えられる。以下、読み仮名誤り検出装置１００の各部の処理内容を説明する。

＜読みN-gramモデル記憶部１２０＞
読みN-gramモデル記憶部１２０には、読みN-gramモデルが格納されている。読みN-gramモデルは、日本語として自然な読み仮名の並びを統計的に学習したものであり、読みN-gramの生起確率を求めるためのモデルである。以下に、読みN-gramモデルの構築方法を示す。

読みN-gramモデル構築のための学習データとして、新聞記事等の整った日本語テキストを用いる。まず、学習データに対して、従来手法(特許文献１等参照)による読み仮名付与を行い、読み仮名系列を得る。抽出した読み仮名系列に対し、全ての連続したN個組の読みの組み合わせの頻度を数え、N-gramモデルを作成する。N-gramモデルの学習方法は、公知の技術（参考文献１等参照）であるため、省略する。
［参考文献１］北研二，辻井潤一，“言語と計算-4 確率的言語モデル”,東京大学出版会,1999，pp.57-62.

読みN-gramモデル構築に用いる読み仮名系列は、本来ならば、誤りの含まれている可能性が高い自動読み仮名付与結果ではなく、人手で整備された読み仮名付与結果を用いることが望ましい。しかし、統計的に信頼度が高い読みN-gramモデルを構築するためには、大量（10〜20万文程度）の読み仮名系列を用意する必要があり、これらの読み仮名系列を人手で整備するのは高いコストがかかる。そのため、自動読み仮名付与結果の読み仮名系列を用いて読みN-gramモデルを構築することで、低コストで信頼度の高い読みN-gramモデルを構築することが可能である。自動読み仮名付与結果は、高精度(95%以上)で正しい読みが付与されていることが望ましいため、読み仮名付与誤りを誘発しにくい、整った日本語のテキストを学習データとして用いる。

＜不自然読み仮名接続検出部１１０＞
不自然読み仮名接続検出部１１０は、入力テキストの単語区切りとその読み仮名系列とを受け取り、読みN-gramモデルを用いて、読み仮名接続不自然箇所を入力テキストから検出し（ｓ２）、不自然漢字かな接続検出部１３０に出力する。なお、読み仮名接続不自然箇所とは、読み仮名の接続が不自然である箇所である。

例えば、不自然読み仮名接続検出部１１０は、図４の処理フローに従って、読み仮名接続不自然箇所を検出する。

不自然読み仮名接続検出部１１０は、読みN-gramモデルを用いて、入力テキストの読み仮名系列に対する読みN-gramの生起確率を求める（ｓ１１１）。例えば、読み仮名系列の先頭から１文字ずつずらしながら読みN-gramの生起確率を求める。5-gramの場合は、「ベツニガクシイワケジャアナインダカラネ」の、「ベツニガク」「ツニガクシ」…「インダカラ」「ンダカラネ」の生起確率をそれぞれ読みN-gramモデル記憶部１２０から取り出す。

求めた生起確率が一定値以下となる箇所を検出する（ｓ１１２）。例えば、連続する3つの5-gram「ニガクシイ」「ガクシイワ」「クシイワケ」の生起確率か一定値以下だった場合は、「ニガクシイワケ」という読み仮名系列を検出する。

検出した箇所（読み仮名系列）に対応する単語系列を取得する（ｓ１１３）。例えば、「ニガクシイワケ」という読み仮名系列が検出されていた場合は、図５の下線部分の単語系列「ニ/楽/しィ/わけ」を取得する。

取得した単語系列から漢字が含まれるものを検出し、検出した単語系列とその単語系列に対応する読み仮名系列との組み合わせを読み仮名接続不自然箇所として出力する（ｓ１１４）。例えば、｛「ニ/楽/しィ/わけ」「ニガクシイワケ」｝を読み仮名接続不自然箇所として出力する。

＜接続読み頻度付き単漢字辞書記憶部１４０＞
接続読み頻度付き単漢字辞書記憶部１４０には、接続読み頻度付き単漢字辞書が格納されている。接続読み頻度付き単漢字辞書は、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築されたものである（図６参照）。以下に、接続読み頻度付き単漢字辞書の構築方法を示す。

正解の読み仮名が付与された学習テキストを用意し、学習テキスト内で漢字とひらがなが連続して出現した箇所に対して、（漢字、漢字に接続するひらがな１文字、漢字に対する読み仮名）を抽出する。例えば、「こんな楽しくて嬉しくて」というテキストに対しては、（楽、し、タノ）、（嬉、し、ウレ）というような組み合わせが取得される。学習テキストから取得された、全ての（漢字、漢字に接続するひらがな１文字、漢字に対する読み仮名）の組み合わせの頻度を集計し、図６のような、接続読み頻度付き単漢字辞書を構築する。

＜不自然漢字かな接続検出部１３０＞
不自然漢字かな接続検出部１３０は、読み仮名接続不自然箇所を受け取り、接続読み頻度付き単漢字辞書を用いて、漢字ひらがな接続不自然箇所を読み仮名接続不自然箇所から検出し（ｓ３）、合成部９２に出力する。なお、漢字ひらがな接続不自然箇所は、漢字とひらがなの接続が不自然である箇所である。

例えば、不自然漢字かな接続検出部１３０は、図７の処理フローに従って、漢字ひらがな接続不自然箇所を検出する。

不自然漢字かな接続検出部１３０は、読み仮名接続不自然箇所から漢字の次にひらがなが連続して出現した箇所を検出し（ｓ１３１）、（漢字、漢字に接続するひらがな１文字、漢字に対する読み仮名）の組み合わせを取得する。例えば、｛「ニ/楽/しィ/わけ」「ニガクシイワケ」｝という読み仮名接続不自然箇所を受け取った場合、（楽,し,ガク）という組み合わせが抽出される。

接続読み頻度付き単漢字辞書記憶部１４０から、（漢字、漢字に接続するひらがな１文字）に対応する頻度を、その漢字の読み仮名毎に全て取得する（ｓ１３２）。例えば、先の（楽,し,ガク）の例で説明すると、接続読み頻度付き単漢字辞書記憶部１４０から、（楽、し）に該当する、読み仮名とその頻度の候補である（タノ、2816）（ラク,312）（ガク、3）等が取得される。

取得した頻度の総数に対する、入力テキストに対して付与された読み仮名の頻度（言い換えると、（漢字、漢字に接続するひらがな１文字、漢字に対する読み仮名）の組み合わせに対応する頻度）の割合S1を算出し（ｓ１３３）、その割合S1に基づき、漢字ひらがな接続不自然箇所を検出する。割合S1が小さいということは、（漢字、漢字に接続するひらがな１文字）に対して、付与された読み仮名が一般的ではないことを意味し、読み仮名誤りである可能性が高いことを意味する。例えば、割合S1と閾値とを比較し（ｓ１３４）、割合S1が閾値以下の場合には、漢字とひらがなの接続が不自然であると判断し、（漢字、漢字に接続するひらがな１文字、漢字に対する読み仮名）の組み合わせに対応する箇所を漢字ひらがな接続不自然箇所として出力する（ｓ１３５）。先の例で説明すると、接続読み頻度付き単漢字辞書中の（楽、し）という組み合わせの出現頻度の総数をN_all、そのうち、「ガク」という読み仮名が付与された数をN＿ガクとすると、割合S1は、S1=(N_ガク)/(N_all)=3/(2816+312+3)≒0.001のように算出される。この値が閾値以下の場合には、（楽,し,ガク）に対応する箇所、例えば、入力テキストの「楽し」とその読み仮名系列の「ガクシ」の組み合わせ｛「楽し」「ガクシ」｝を漢字ひらがな接続不自然箇所としてする。

なお、閾値は、漢字とひらがなの接続が不自然と判断する基準であり、学習データ等を用いて事前に設定しておく。例えば、検出対象となる漢字全体のうち、5%程度が該当するように設計する。

＜効果＞
このような構成により、読み仮名の接続、漢字とひらがなの接続の両方の観点から日本語としての不自然さを評価し、読み仮名誤りが発生した可能性の高い箇所を人手によらず自動的に検出することができる。本実施形態によれば、読み仮名誤りが発生したテキスト、及びそのテキストに含まれる未知語を人手で同定する必要がないため、読み仮名誤りを改善するためにかかるコストを低減することができる。本実施形態の場合には、読み仮名誤りを改善するために、読み仮名誤りの可能性が高い箇所を識別可能にした入力テキストと読み仮名系列（図３参照）を人手により確認し、単語辞書に必要な情報（未知語の単語表記、品詞及び読み仮名）を追加すればよい。

＜変形例＞
不自然読み仮名接続検出部１１０と不自然漢字かな接続検出部１３０とは処理の順番が逆でもよい。つまり、不自然漢字かな接続検出部１３０は、接続読み頻度付き単漢字辞書を用いて、漢字ひらがな接続不自然箇所を入力テキスト（より詳しくいうと、入力テキストの単語区切りとその読み仮名系列）から検出する。その処理内容は単純に読み仮名接続不自然箇所を入力テキストに置き換えればよい。一方、不自然読み仮名接続検出部１１０は、N-gramモデルを用いて、読み仮名接続不自然箇所を漢字ひらがな接続不自然箇所から検出する。例えば、漢字ひらがな接続不自然箇所の読み仮名系列（例えば「ガクシ」）を受け取り、入力テキストの読み仮名系列のうち、漢字ひらがな接続不自然箇所の読み仮名系列を含む部分の読みN-gramの生起確率を求める。5-gramの場合は、「ベツニガクシイワケジャアナインダカラネ」の、「ツニガクシ」「ニガクシイ」「ガクシイワ」の生起確率をそれぞれ読みN-gramモデル記憶部１２０から取り出す。そして、何れかの生起確率が一定値以下となるか否かを判定する。一定値以下となる場合には、その漢字ひらがな接続不自然箇所を読み仮名接続不自然箇所でもあると判断し、読み仮名誤りが発生している可能性の高い箇所として出力する。

つまり、不自然読み仮名接続検出部１１０は入力テキスト（より詳しくいうと、入力テキストの単語区切りとその読み仮名系列、またはその一部である漢字ひらがな接続不自然箇所）から読み仮名接続不自然箇所を検出し、不自然漢字かな接続検出部１３０は入力テキスト（より詳しくいうと、入力テキストの単語区切りとその読み仮名系列、またはその一部である読み仮名接続不自然箇所）から漢字ひらがな接続不自然箇所を検出する。

また、不自然読み仮名接続検出部１１０及び不自然漢字かな接続検出部１３０が、それぞれ入力テキストを受け取り、並列に処理を行い、漢字ひらがな接続不自然箇所及び読み仮名接続不自然箇所を求め、漢字ひらがな接続不自然箇所及び読み仮名接続不自然箇所の一致部分を読み仮名誤りが発生している可能性の高い箇所として出力してもよい。ただし、第一実施形態や上述の変形例と比較すると、絞込み処理が行われていないため、処理量が大きくなる。

本実施形態では、読み仮名誤り検出装置１００を読み仮名付与装置１０の一部としているが、別装置により構成してもよい。例えば、入力テキスト、その単語区切り及びその読み仮名系列が予めデータベース等に登録されている場合には、読み仮名付与装置１０は、そのデータベースから単語区切り及びその読み仮名系列を取り出し、漢字ひらがな接続不自然箇所を出力する構成としてもよい。

＜第二実施形態のポイント＞
本実施形態では、正解読み仮名が付与された学習テキストに対して、自動読み仮名付与を行い、読み仮名誤りが発生した箇所の漢字とひらがなの接続頻度を集計した、誤り頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然なテキストを検出する。

不自然漢字かな接続検出部１３０の処理において、第一実施形態では、正しく読み仮名が付与された漢字の頻度情報のみを用いた。本実施形態では、これに加えて、第一実施形態で用いた学習テキストに対して、自動で読み仮名付与を行い、読み仮名付与誤りが発生した箇所の（漢字、漢字に接続するひらがな１文字、漢字に対する読み仮名）の組み合わせの頻度を集計しておき、これを利用する。これらに該当する組み合わせが入力された場合は、読み仮名誤りが発生している可能性が高い漢字として検出する。

＜第二実施形態に係る読み仮名誤り検出装置２００＞
第一実施形態と異なる部分についてのみ説明する。

図８及び図９は、それぞれ読み仮名誤り検出装置２００の全体構成図と処理フローを示す。読み仮名誤り検出装置２００は、不自然読み仮名接続検出部１１０と、読みN-gramモデル記憶部１２０と、不自然漢字かな接続検出部２３０と、接続読み頻度付き単漢字辞書記憶部１４０と、誤り頻度付き単漢字辞書記憶部２５０とを含む。

＜誤り頻度付き単漢字辞書記憶部２５０＞
誤り頻度付き単漢字辞書記憶部２５０には、誤り頻度付き単漢字辞書が格納されている。誤り頻度付き単漢字辞書は、学習テキストに対して、読み仮名付与が行われ、その結果、読み仮名誤りが発生した誤り頻度が、読み仮名誤りが発生した漢字と、その漢字に誤って付与された読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築されたものである（図１０参照）。以下に、誤り頻度付き単漢字辞書の構築方法を示す。

まず、正解の読み仮名が付与された学習テキスト（例えば、接続読み頻度付き単漢字辞書構築時に用いた学習テキスト）に対して、従来手法（非特許文献１等参照）による読み仮名付与を行い、読み仮名系列を取得する。取得した読み仮名系列と正解の読み仮名とを比較し、読み仮名誤りが発生した箇所の（漢字、漢字に接続するひらがな１文字、誤って付与された読み仮名）の組み合わせの頻度を集計し、図１０のような、誤り頻度付き単漢字辞書を作成する。

＜不自然漢字かな接続検出部２３０＞
不自然漢字かな接続検出部２３０は、読み仮名接続不自然箇所を受け取り、誤り頻度付き単漢字辞書と接続読み頻度付き単漢字辞書とを用いて、読み仮名接続不自然箇所から漢字ひらがな接続不自然箇所を検出し（ｓ２３）、合成部９２に出力する。

例えば、不自然漢字かな接続検出部２３０は、図１１の処理フローに従って、漢字ひらがな接続不自然箇所を検出する。

なお、ｓ１３１〜ｓ１３３までは不自然漢字かな接続検出部１３０と同様の処理を行うため、説明を省略する。

不自然漢字かな接続検出部２３０は、読み仮名接続不自然箇所の、漢字の次にひらがなが連続して出現した箇所の（漢字、漢字に接続するひらがな１文字、漢字に対する読み仮名）の組み合わせGに対応する誤り頻度を誤り頻度付き単漢字辞書記憶部２５０から取り出し、取得する（ｓ２３１）。先の例で説明すると、（楽,し,ガク）という組み合わせGに対して、誤り頻度が５という情報が取得される。

組み合わせGの漢字に対応する誤り頻度を、（その漢字に誤って付与された読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に）全て取得する（ｓ２３２）。先の例で説明すると、組み合わせGの漢字「楽」について発生した読み仮名誤りの頻度を全て取得する。図１０の例であれば、（楽,し,ラク）の誤り頻度１、（楽,が,ガク）の誤り頻度３、（楽,し,ガク）の誤り頻度５を取得する。

取得した誤り頻度の総数に対する、組み合わせGに対応する誤り頻度の割合S2を算出する（ｓ２３３）。割合S2が大きいということは、ある（漢字）に対してなされる読み仮名誤りの中で、（漢字、漢字に接続するひらがな１文字、漢字に対する読み仮名）の組み合わせが特に発生しやすい読み仮名誤りであることを意味する。先の例で説明すると、対象とする漢字「楽」において、発生した読み仮名誤りの総数をN_error_楽、組み合わせGに対応する誤り頻度をN_error_(楽,し,ガク)とすると、S2=(N_error_(楽,し,ガク))/(N_error_楽)=5/(1+3+5)≒0.56のように算出される。

割合S1と割合S2との差(S1-S2)を算出し、この差(S1-S2)が閾値以下か、否かを判定する（ｓ２３４）。閾値以下である場合、組み合わせGに対応する箇所を漢字とひらがなの接続が不自然であると判断し、漢字ひらがな接続不自然箇所として出力する（ｓ２３５）。なお、閾値は、前述の通り、漢字とひらがなの接続が不自然と判断する基準であり、学習データ等を用いて事前に設定しておけばよい。

＜効果＞
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、ある漢字に対して発生し得る読み仮名誤りの中で、特に、発生しやすい読み仮名誤りを考慮することで、読み仮名誤りが発生した可能性の高い箇所をより高精度で検出することができる。

＜変形例＞
本実施形態では、接続読み頻度付き単漢字辞書と誤り頻度付き単漢字辞書とを別々に記憶部に格納しているが、合体して、記憶部に格納してもよい（図１２参照）。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述した読み仮名誤り検出装置及び読み仮名付与装置は、コンピュータにより機能させることもできる。この場合、コンピュータを目的とする装置（各種実施形態で図に示した機能構成を持つ装置）として機能させるためのプログラム、またはコンピュータにその処理手順（各実施形態で示したもの）の各過程を実行させるためのプログラムを、そのコンピュータに実行させればよい。なお、そのプログラムは、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等のコンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータにプログラムを実行させる際には、そのプログラムを記録媒体から読み込んでもよいし、または、そのプログラムを記録したサーバ等から通信回線を介してダウンロードしてもよい。

１００，２００検出装置
１１０仮名接続検出部
１２０モデル記憶部
１３０，２３０接続検出部
１４０単漢字辞書記憶部
２５０単漢字辞書記憶部

Claims

日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を検出する不自然読み仮名接続検出部と、
正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を検出する不自然漢字かな接続検出部と、を含み、
(i)前記不自然読み仮名接続検出部は入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出部は前記読み仮名接続不自然箇所から前記漢字ひらがな接続不自然箇所を検出し、その漢字ひらがな接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
(ii)前記不自然漢字かな接続検出部は入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記不自然読み仮名接続検出部は前記漢字ひらがな接続不自然箇所から前記読み仮名接続不自然箇所を検出し、その読み仮名接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
または、
(iii)前記不自然読み仮名接続検出部は入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出部は入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記読み仮名接続不自然箇所及び前記漢字ひらがな接続不自然箇所の一致部分を読み仮名誤りが発生している可能性の高い箇所とする、
読み仮名誤り検出装置。
請求項１記載の読み仮名誤り検出装置であって、
前記不自然読み仮名接続検出部は、前記読みN-gramモデルを用いて、前記入力テキストまたは前記漢字ひらがな接続不自然箇所の読み仮名系列に対する読みN-gramの生起確率を求め、その生起確率が一定値以下となる箇所を前記読み仮名接続不自然箇所として検出する、
読み仮名誤り検出装置。
請求項１または請求項２記載の読み仮名誤り検出装置であって、
前記不自然漢字かな接続検出部は、前記入力テキストまたは前記読み仮名接続不自然箇所から漢字の次にひらがなが連続して出現した箇所を検出し、前記接続読み頻度付き単漢字辞書から、その漢字と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度を全て取得し、取得した頻度の総数に対する、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度の割合を算出し、その割合に基づき、前記漢字ひらがな接続不自然箇所を検出する、
読み仮名誤り検出装置。
請求項１から請求項３の何れかに記載の読み仮名誤り検出装置であって、
前記不自然漢字かな接続検出部は、正解の読み仮名が付与された学習テキストに対して、読み仮名付与が行われ、その結果、読み仮名誤りが発生した誤り頻度が、読み仮名誤りが発生した漢字と、その漢字に誤って付与された読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された誤り頻度付き単漢字辞書と前記接続読み頻度付き単漢字辞書とを用いて、前記入力テキストまたは前記読み仮名接続不自然箇所から前記漢字ひらがな接続不自然箇所を検出する、
読み仮名誤り検出装置。
請求項４記載の読み仮名誤り検出装置であって、
前記不自然漢字かな接続検出部は、前記入力テキストまたは前記読み仮名接続不自然箇所から漢字の次にひらがなが連続して出現した箇所を検出し、前記接続読み頻度付き単漢字辞書から、その漢字と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度を全て取得し、取得した頻度の総数に対する、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度の割合S1を算出し、前記誤り頻度付き単漢字辞書から、その漢字に対応する誤り頻度を全て取得し、取得した誤り頻度の総数に対する、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する誤り頻度の割合S2を算出し、前記割合S1と前記割合S2との差が閾値以下である場合、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する箇所を前記漢字ひらがな接続不自然箇所として検出する、
読み仮名誤り検出装置。
不自然読み仮名接続検出部と不自然漢字かな接続検出部とを含む装置を用いる読み仮名誤り検出方法であって、
前記不自然読み仮名接続検出部が、日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を検出する不自然読み仮名接続検出ステップと、
前記不自然漢字かな接続検出部が、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を検出する不自然漢字かな接続検出ステップと、を含み、
(i)前記不自然読み仮名接続検出ステップにおいて入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出ステップにおいて前記読み仮名接続不自然箇所から前記漢字ひらがな接続不自然箇所を検出し、その漢字ひらがな接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
(ii)前記不自然漢字かな接続検出ステップにおいて入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記不自然読み仮名接続検出ステップにおいて前記漢字ひらがな接続不自然箇所から前記読み仮名接続不自然箇所を検出し、その読み仮名接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
または、
(iii)前記不自然読み仮名接続検出ステップにおいて入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出ステップにおいて入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記読み仮名接続不自然箇所及び前記漢字ひらがな接続不自然箇所の一致部分を読み仮名誤りが発生している可能性の高い箇所とする、
読み仮名誤り検出方法。
請求項１から請求項５の何れかに記載の読み仮名誤り検出装置の各部として、コンピュータを機能させるためのプログラム。