JP5937496B2 - 読み仮名誤り検出装置、方法並びにプログラム - Google Patents

読み仮名誤り検出装置、方法並びにプログラム Download PDF

Info

Publication number
JP5937496B2
JP5937496B2 JP2012257452A JP2012257452A JP5937496B2 JP 5937496 B2 JP5937496 B2 JP 5937496B2 JP 2012257452 A JP2012257452 A JP 2012257452A JP 2012257452 A JP2012257452 A JP 2012257452A JP 5937496 B2 JP5937496 B2 JP 5937496B2
Authority
JP
Japan
Prior art keywords
kana
kanji
unnatural
connection
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012257452A
Other languages
English (en)
Other versions
JP2014106607A (ja
Inventor
博子 村上
博子 村上
水野 秀之
秀之 水野
勇祐 井島
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012257452A priority Critical patent/JP5937496B2/ja
Publication of JP2014106607A publication Critical patent/JP2014106607A/ja
Application granted granted Critical
Publication of JP5937496B2 publication Critical patent/JP5937496B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、漢字に対する読み仮名付与技術に関し、特に誤って付与した読み仮名の検出技術に関する。
従来から漢字に対する読み仮名付与では、単語辞書から(単語表記、品詞及び読み仮名)の組から成る単語の候補を取得し、単語間の品詞接続に基づき、日本語の文として最も適切な単語系列を選択し、選択された単語系列の読み仮名に基づいて、漢字に読み仮名を付与するという手法が一般的に用いられている(非特許文献1参照)。
しかし、読み仮名付与対象のテキストに、辞書に読み仮名や品詞等が未登録の単語(以下「未知語」という)が出現すると、正しい単語系列が選択できず、読み仮名誤りが発生する場合がある。このような原因で発生する読み仮名誤りを改善するために、読み仮名を付与したテキストの中から読み仮名誤りが発生したテキストを人手で同定し、さらにそのテキストに含まれる未知語を人手で同定し、単語辞書に必要な情報(未知語の単語表記、品詞及び読み仮名)を追加する。
K. Saito and M. Nagata, "Multi-Language Named-Entity Recognition System based on HMM", ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition, 2003, Volume 15, Pages 41-48
しかしながら、従来技術は、読み仮名誤りの改善のために、読み仮名誤りが発生したテキスト、及びそのテキストに含まれる未知語を人手で同定する必要があったため、高いコストがかかる。
本発明は、読み仮名の接続、漢字とひらがなの接続の両方の観点から日本語としての不自然さを評価して、読み仮名誤りが発生した可能性の高い箇所を自動的に検出する技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、読み仮名誤り検出装置は、日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を入力テキストから検出する不自然読み仮名接続検出部と、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を入力テキストから検出する不自然漢字かな接続検出部と、を含む。
上記の課題を解決するために、本発明の第二の態様によれば、読み仮名誤り検出方法は、不自然読み仮名接続検出部と不自然漢字かな接続検出部とを含む装置を用いる。読み仮名誤り検出方法は、不自然読み仮名接続検出部が、日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を入力テキストから検出する不自然読み仮名接続検出ステップと、不自然漢字かな接続検出部が、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を入力テキストから検出する不自然漢字かな接続検出ステップと、を含む。
本発明によれば、読み仮名誤りが発生した可能性の高い箇所を人手によらず自動的に検出することができるという効果を奏する。人手による同定作業を省くことで、読み仮名誤りを改善するためにかかるコストを低減することができる。
第一実施形態に係る読み仮名誤り検出装置の全体構成図。 第一実施形態に係る読み仮名誤り検出装置の処理フローを示す図。 読み仮名付与装置の出力例を示す図。 不自然読み仮名接続検出部の処理フローを示す図。 不自然読み仮名接続検出部の処理を説明するための図。 接続読み頻度付き単漢字辞書記憶部のデータ例を示す図。 第一実施形態に係る不自然漢字かな接続検出部の処理フローを示す図。 第二実施形態に係る読み仮名誤り検出装置の全体構成図。 第二実施形態に係る読み仮名誤り検出装置の処理フローを示す図。 誤り頻度付き単漢字辞書記憶部のデータ例を示す図。 第二実施形態に係る不自然漢字かな接続検出部の処理フローを示す図。 接続読み頻度付き単漢字辞書と誤り頻度付き単漢字辞書とを同じ記憶部に格納した場合のデータ例を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態のポイント>
本実施形態では、入力テキストに対して、従来手法による読み仮名付与を行い、単語区切りと読み仮名系列を取得し、取得した単語区切りと読み仮名系列から読み仮名誤りの発生している可能性の高い箇所を自動的に検出する。人手によらずに検出することで、低コストで読み仮名誤りを誘発する未知語を同定することができる。
本実施形態では、まず、日本語として自然な読み仮名系列を統計的に学習した読みN-gramモデルを用いて、入力されたテキストの読み仮名付与結果から、日本語として不自然な読み仮名系列となる箇所を検出する。そして、漢字とひらがなの接続の頻度を集計した接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然なテキストを検出する。以上のように、読み仮名の接続、漢字とひらがなの接続の両方の観点から日本語としての不自然さを評価することで、読み仮名誤りの発生している可能性の高い箇所を検出する。
なお、新聞記事等の整った日本語のテキストから日本語として自然な読み仮名系列を統計的に学習した読みN-gramモデルを用いて、入力されたテキストから、日本語として不自然な読み仮名系列となる(読み仮名誤りが発生している可能性が高い)箇所を検出する。
また、正解読み仮名が付与された学習テキストから、漢字とひらがなの接続頻度を集計した接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然なテキストを検出する。
<第一実施形態に係る読み仮名誤り検出装置100>
図1及び図2は、それぞれ読み仮名誤り検出装置100の全体構成図と処理フローを示す。読み仮名誤り検出装置100は、不自然読み仮名接続検出部110と、読みN-gramモデル記憶部120と、不自然漢字かな接続検出部130と、接続読み頻度付き単漢字辞書記憶部140とを含む。
読み仮名誤り検出装置100は、入力テキストの単語区切りと入力テキストの読み仮名系列とを受け取り、読み仮名誤りが発生している可能性の高い箇所(本実施形態では「漢字ひらがな接続不自然箇所」ともいう)を出力する。
本実施形態では、読み仮名誤り検出装置100を読み仮名付与装置10の一部としている。
読み仮名付与装置10は、読み仮名付与部91と読み仮名誤り検出装置100と合成部92とを含む。読み仮名付与装置10は、入力テキストを受け取り、読み仮名を付与し、かつ、読み仮名誤りの可能性が高い箇所を識別可能にした入力テキストと読み仮名系列とを出力する。
まず、読み仮名付与部91は、入力テキストを受け取り、従来手法(非特許文献1等参照)による読み仮名付与を行い、単語区切りと読み仮名系列を取得し(s1)、不自然読み仮名接続検出部110に出力する。例えば、入力テキストとして、「別ニ楽しィわけジャァないンダカラね」というテキストが入力された場合、「別/ニ/楽/しィ/わけ/ジャァ/な/い/ンダカラ/ね」という単語区切りと、「ベツニガクシイワケジャアナインダカラネ」という読み仮名系列を取得する。
合成部92は、入力テキストとその読み仮名系列と漢字ひらがな接続不自然箇所とを受け取り、入力テキスト及びその読み仮名系列の漢字ひらがな接続不自然箇所に対応する部分を他の部分から識別可能にし(s4)、出力する。例えば、他の部分と異なる色で漢字ひらがな接続不自然箇所を表示したり、漢字ひらがな接続不自然箇所に下線を付したり(図3参照)、コンピュータ上で識別可能なラベルを付与する方法等が考えられる。以下、読み仮名誤り検出装置100の各部の処理内容を説明する。
<読みN-gramモデル記憶部120>
読みN-gramモデル記憶部120には、読みN-gramモデルが格納されている。読みN-gramモデルは、日本語として自然な読み仮名の並びを統計的に学習したものであり、読みN-gramの生起確率を求めるためのモデルである。以下に、読みN-gramモデルの構築方法を示す。
読みN-gramモデル構築のための学習データとして、新聞記事等の整った日本語テキストを用いる。まず、学習データに対して、従来手法(特許文献1等参照)による読み仮名付与を行い、読み仮名系列を得る。抽出した読み仮名系列に対し、全ての連続したN個組の読みの組み合わせの頻度を数え、N-gramモデルを作成する。N-gramモデルの学習方法は、公知の技術(参考文献1等参照)であるため、省略する。
[参考文献1]北 研二,辻井 潤一,“言語と計算-4 確率的言語モデル”,東京大学出版会,1999,pp.57-62.
読みN-gramモデル構築に用いる読み仮名系列は、本来ならば、誤りの含まれている可能性が高い自動読み仮名付与結果ではなく、人手で整備された読み仮名付与結果を用いることが望ましい。しかし、統計的に信頼度が高い読みN-gramモデルを構築するためには、大量(10〜20万文程度)の読み仮名系列を用意する必要があり、これらの読み仮名系列を人手で整備するのは高いコストがかかる。そのため、自動読み仮名付与結果の読み仮名系列を用いて読みN-gramモデルを構築することで、低コストで信頼度の高い読みN-gramモデルを構築することが可能である。自動読み仮名付与結果は、高精度(95%以上)で正しい読みが付与されていることが望ましいため、読み仮名付与誤りを誘発しにくい、整った日本語のテキストを学習データとして用いる。
<不自然読み仮名接続検出部110>
不自然読み仮名接続検出部110は、入力テキストの単語区切りとその読み仮名系列とを受け取り、読みN-gramモデルを用いて、読み仮名接続不自然箇所を入力テキストから検出し(s2)、不自然漢字かな接続検出部130に出力する。なお、読み仮名接続不自然箇所とは、読み仮名の接続が不自然である箇所である。
例えば、不自然読み仮名接続検出部110は、図4の処理フローに従って、読み仮名接続不自然箇所を検出する。
不自然読み仮名接続検出部110は、読みN-gramモデルを用いて、入力テキストの読み仮名系列に対する読みN-gramの生起確率を求める(s111)。例えば、読み仮名系列の先頭から1文字ずつずらしながら読みN-gramの生起確率を求める。5-gramの場合は、「ベツニガクシイワケジャアナインダカラネ」の、「ベツニガク」「ツニガクシ」…「インダカラ」「ンダカラネ」の生起確率をそれぞれ読みN-gramモデル記憶部120から取り出す。
求めた生起確率が一定値以下となる箇所を検出する(s112)。例えば、連続する3つの5-gram「ニガクシイ」「ガクシイワ」「クシイワケ」の生起確率か一定値以下だった場合は、「ニガクシイワケ」という読み仮名系列を検出する。
検出した箇所(読み仮名系列)に対応する単語系列を取得する(s113)。例えば、「ニガクシイワケ」という読み仮名系列が検出されていた場合は、図5の下線部分の単語系列「ニ/楽/しィ/わけ」を取得する。
取得した単語系列から漢字が含まれるものを検出し、検出した単語系列とその単語系列に対応する読み仮名系列との組み合わせを読み仮名接続不自然箇所として出力する(s114)。例えば、{「ニ/楽/しィ/わけ」「ニガクシイワケ」}を読み仮名接続不自然箇所として出力する。
<接続読み頻度付き単漢字辞書記憶部140>
接続読み頻度付き単漢字辞書記憶部140には、接続読み頻度付き単漢字辞書が格納されている。接続読み頻度付き単漢字辞書は、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築されたものである(図6参照)。以下に、接続読み頻度付き単漢字辞書の構築方法を示す。
正解の読み仮名が付与された学習テキストを用意し、学習テキスト内で漢字とひらがなが連続して出現した箇所に対して、(漢字、漢字に接続するひらがな1文字、漢字に対する読み仮名)を抽出する。例えば、「こんな楽しくて嬉しくて」というテキストに対しては、(楽、し、タノ)、(嬉、し、ウレ)というような組み合わせが取得される。学習テキストから取得された、全ての(漢字、漢字に接続するひらがな1文字、漢字に対する読み仮名)の組み合わせの頻度を集計し、図6のような、接続読み頻度付き単漢字辞書を構築する。
<不自然漢字かな接続検出部130>
不自然漢字かな接続検出部130は、読み仮名接続不自然箇所を受け取り、接続読み頻度付き単漢字辞書を用いて、漢字ひらがな接続不自然箇所を読み仮名接続不自然箇所から検出し(s3)、合成部92に出力する。なお、漢字ひらがな接続不自然箇所は、漢字とひらがなの接続が不自然である箇所である。
例えば、不自然漢字かな接続検出部130は、図7の処理フローに従って、漢字ひらがな接続不自然箇所を検出する。
不自然漢字かな接続検出部130は、読み仮名接続不自然箇所から漢字の次にひらがなが連続して出現した箇所を検出し(s131)、(漢字、漢字に接続するひらがな1文字、漢字に対する読み仮名)の組み合わせを取得する。例えば、{「ニ/楽/しィ/わけ」「ニガクシイワケ」}という読み仮名接続不自然箇所を受け取った場合、(楽,し,ガク)という組み合わせが抽出される。
接続読み頻度付き単漢字辞書記憶部140から、(漢字、漢字に接続するひらがな1文字)に対応する頻度を、その漢字の読み仮名毎に全て取得する(s132)。例えば、先の(楽,し,ガク)の例で説明すると、接続読み頻度付き単漢字辞書記憶部140から、(楽、し)に該当する、読み仮名とその頻度の候補である(タノ、2816)(ラク,312)(ガク、3)等が取得される。
取得した頻度の総数に対する、入力テキストに対して付与された読み仮名の頻度(言い換えると、(漢字、漢字に接続するひらがな1文字、漢字に対する読み仮名)の組み合わせに対応する頻度)の割合S1を算出し(s133)、その割合S1に基づき、漢字ひらがな接続不自然箇所を検出する。割合S1が小さいということは、(漢字、漢字に接続するひらがな1文字)に対して、付与された読み仮名が一般的ではないことを意味し、読み仮名誤りである可能性が高いことを意味する。例えば、割合S1と閾値とを比較し(s134)、割合S1が閾値以下の場合には、漢字とひらがなの接続が不自然であると判断し、(漢字、漢字に接続するひらがな1文字、漢字に対する読み仮名)の組み合わせに対応する箇所を漢字ひらがな接続不自然箇所として出力する(s135)。先の例で説明すると、接続読み頻度付き単漢字辞書中の(楽、し)という組み合わせの出現頻度の総数をN_all、そのうち、「ガク」という読み仮名が付与された数をN_ガクとすると、割合S1は、S1=(N_ガク)/(N_all)=3/(2816+312+3)≒0.001のように算出される。この値が閾値以下の場合には、(楽,し,ガク)に対応する箇所、例えば、入力テキストの「楽し」とその読み仮名系列の「ガクシ」の組み合わせ{「楽し」「ガクシ」}を漢字ひらがな接続不自然箇所としてする。
なお、閾値は、漢字とひらがなの接続が不自然と判断する基準であり、学習データ等を用いて事前に設定しておく。例えば、検出対象となる漢字全体のうち、5%程度が該当するように設計する。
<効果>
このような構成により、読み仮名の接続、漢字とひらがなの接続の両方の観点から日本語としての不自然さを評価し、読み仮名誤りが発生した可能性の高い箇所を人手によらず自動的に検出することができる。本実施形態によれば、読み仮名誤りが発生したテキスト、及びそのテキストに含まれる未知語を人手で同定する必要がないため、読み仮名誤りを改善するためにかかるコストを低減することができる。本実施形態の場合には、読み仮名誤りを改善するために、読み仮名誤りの可能性が高い箇所を識別可能にした入力テキストと読み仮名系列(図3参照)を人手により確認し、単語辞書に必要な情報(未知語の単語表記、品詞及び読み仮名)を追加すればよい。
<変形例>
不自然読み仮名接続検出部110と不自然漢字かな接続検出部130とは処理の順番が逆でもよい。つまり、不自然漢字かな接続検出部130は、接続読み頻度付き単漢字辞書を用いて、漢字ひらがな接続不自然箇所を入力テキスト(より詳しくいうと、入力テキストの単語区切りとその読み仮名系列)から検出する。その処理内容は単純に読み仮名接続不自然箇所を入力テキストに置き換えればよい。一方、不自然読み仮名接続検出部110は、N-gramモデルを用いて、読み仮名接続不自然箇所を漢字ひらがな接続不自然箇所から検出する。例えば、漢字ひらがな接続不自然箇所の読み仮名系列(例えば「ガクシ」)を受け取り、入力テキストの読み仮名系列のうち、漢字ひらがな接続不自然箇所の読み仮名系列を含む部分の読みN-gramの生起確率を求める。5-gramの場合は、「ベツニガクシイワケジャアナインダカラネ」の、「ツニガクシ」「ニガクシイ」「ガクシイワ」の生起確率をそれぞれ読みN-gramモデル記憶部120から取り出す。そして、何れかの生起確率が一定値以下となるか否かを判定する。一定値以下となる場合には、その漢字ひらがな接続不自然箇所を読み仮名接続不自然箇所でもあると判断し、読み仮名誤りが発生している可能性の高い箇所として出力する。
つまり、不自然読み仮名接続検出部110は入力テキスト(より詳しくいうと、入力テキストの単語区切りとその読み仮名系列、またはその一部である漢字ひらがな接続不自然箇所)から読み仮名接続不自然箇所を検出し、不自然漢字かな接続検出部130は入力テキスト(より詳しくいうと、入力テキストの単語区切りとその読み仮名系列、またはその一部である読み仮名接続不自然箇所)から漢字ひらがな接続不自然箇所を検出する。
また、不自然読み仮名接続検出部110及び不自然漢字かな接続検出部130が、それぞれ入力テキストを受け取り、並列に処理を行い、漢字ひらがな接続不自然箇所及び読み仮名接続不自然箇所を求め、漢字ひらがな接続不自然箇所及び読み仮名接続不自然箇所の一致部分を読み仮名誤りが発生している可能性の高い箇所として出力してもよい。ただし、第一実施形態や上述の変形例と比較すると、絞込み処理が行われていないため、処理量が大きくなる。
本実施形態では、読み仮名誤り検出装置100を読み仮名付与装置10の一部としているが、別装置により構成してもよい。例えば、入力テキスト、その単語区切り及びその読み仮名系列が予めデータベース等に登録されている場合には、読み仮名付与装置10は、そのデータベースから単語区切り及びその読み仮名系列を取り出し、漢字ひらがな接続不自然箇所を出力する構成としてもよい。
<第二実施形態のポイント>
本実施形態では、正解読み仮名が付与された学習テキストに対して、自動読み仮名付与を行い、読み仮名誤りが発生した箇所の漢字とひらがなの接続頻度を集計した、誤り頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然なテキストを検出する。
不自然漢字かな接続検出部130の処理において、第一実施形態では、正しく読み仮名が付与された漢字の頻度情報のみを用いた。本実施形態では、これに加えて、第一実施形態で用いた学習テキストに対して、自動で読み仮名付与を行い、読み仮名付与誤りが発生した箇所の(漢字、漢字に接続するひらがな1文字、漢字に対する読み仮名)の組み合わせの頻度を集計しておき、これを利用する。これらに該当する組み合わせが入力された場合は、読み仮名誤りが発生している可能性が高い漢字として検出する。
<第二実施形態に係る読み仮名誤り検出装置200>
第一実施形態と異なる部分についてのみ説明する。
図8及び図9は、それぞれ読み仮名誤り検出装置200の全体構成図と処理フローを示す。読み仮名誤り検出装置200は、不自然読み仮名接続検出部110と、読みN-gramモデル記憶部120と、不自然漢字かな接続検出部230と、接続読み頻度付き単漢字辞書記憶部140と、誤り頻度付き単漢字辞書記憶部250とを含む。
<誤り頻度付き単漢字辞書記憶部250>
誤り頻度付き単漢字辞書記憶部250には、誤り頻度付き単漢字辞書が格納されている。誤り頻度付き単漢字辞書は、学習テキストに対して、読み仮名付与が行われ、その結果、読み仮名誤りが発生した誤り頻度が、読み仮名誤りが発生した漢字と、その漢字に誤って付与された読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築されたものである(図10参照)。以下に、誤り頻度付き単漢字辞書の構築方法を示す。
まず、正解の読み仮名が付与された学習テキスト(例えば、接続読み頻度付き単漢字辞書構築時に用いた学習テキスト)に対して、従来手法(非特許文献1等参照)による読み仮名付与を行い、読み仮名系列を取得する。取得した読み仮名系列と正解の読み仮名とを比較し、読み仮名誤りが発生した箇所の(漢字、漢字に接続するひらがな1文字、誤って付与された読み仮名)の組み合わせの頻度を集計し、図10のような、誤り頻度付き単漢字辞書を作成する。
<不自然漢字かな接続検出部230>
不自然漢字かな接続検出部230は、読み仮名接続不自然箇所を受け取り、誤り頻度付き単漢字辞書と接続読み頻度付き単漢字辞書とを用いて、読み仮名接続不自然箇所から漢字ひらがな接続不自然箇所を検出し(s23)、合成部92に出力する。
例えば、不自然漢字かな接続検出部230は、図11の処理フローに従って、漢字ひらがな接続不自然箇所を検出する。
なお、s131〜s133までは不自然漢字かな接続検出部130と同様の処理を行うため、説明を省略する。
不自然漢字かな接続検出部230は、読み仮名接続不自然箇所の、漢字の次にひらがなが連続して出現した箇所の(漢字、漢字に接続するひらがな1文字、漢字に対する読み仮名)の組み合わせGに対応する誤り頻度を誤り頻度付き単漢字辞書記憶部250から取り出し、取得する(s231)。先の例で説明すると、(楽,し,ガク)という組み合わせGに対して、誤り頻度が5という情報が取得される。
組み合わせGの漢字に対応する誤り頻度を、(その漢字に誤って付与された読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に)全て取得する(s232)。先の例で説明すると、組み合わせGの漢字「楽」について発生した読み仮名誤りの頻度を全て取得する。図10の例であれば、(楽,し,ラク)の誤り頻度1、(楽,が,ガク)の誤り頻度3、(楽,し,ガク)の誤り頻度5を取得する。
取得した誤り頻度の総数に対する、組み合わせGに対応する誤り頻度の割合S2を算出する(s233)。割合S2が大きいということは、ある(漢字)に対してなされる読み仮名誤りの中で、(漢字、漢字に接続するひらがな1文字、漢字に対する読み仮名)の組み合わせが特に発生しやすい読み仮名誤りであることを意味する。先の例で説明すると、対象とする漢字「楽」において、発生した読み仮名誤りの総数をN_error_楽、組み合わせGに対応する誤り頻度をN_error_(楽,し,ガク)とすると、S2=(N_error_(楽,し,ガク))/(N_error_楽)=5/(1+3+5)≒0.56のように算出される。
割合S1と割合S2との差(S1-S2)を算出し、この差(S1-S2)が閾値以下か、否かを判定する(s234)。閾値以下である場合、組み合わせGに対応する箇所を漢字とひらがなの接続が不自然であると判断し、漢字ひらがな接続不自然箇所として出力する(s235)。なお、閾値は、前述の通り、漢字とひらがなの接続が不自然と判断する基準であり、学習データ等を用いて事前に設定しておけばよい。
<効果>
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、ある漢字に対して発生し得る読み仮名誤りの中で、特に、発生しやすい読み仮名誤りを考慮することで、読み仮名誤りが発生した可能性の高い箇所をより高精度で検出することができる。
<変形例>
本実施形態では、接続読み頻度付き単漢字辞書と誤り頻度付き単漢字辞書とを別々に記憶部に格納しているが、合体して、記憶部に格納してもよい(図12参照)。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した読み仮名誤り検出装置及び読み仮名付与装置は、コンピュータにより機能させることもできる。この場合、コンピュータを目的とする装置(各種実施形態で図に示した機能構成を持つ装置)として機能させるためのプログラム、またはコンピュータにその処理手順(各実施形態で示したもの)の各過程を実行させるためのプログラムを、そのコンピュータに実行させればよい。なお、そのプログラムは、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等のコンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータにプログラムを実行させる際には、そのプログラムを記録媒体から読み込んでもよいし、または、そのプログラムを記録したサーバ等から通信回線を介してダウンロードしてもよい。
100,200 検出装置
110 仮名接続検出部
120 モデル記憶部
130,230 接続検出部
140 単漢字辞書記憶部
250 単漢字辞書記憶部

Claims (7)

  1. 日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を検出する不自然読み仮名接続検出部と、
    正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を検出する不自然漢字かな接続検出部と、を含み、
    (i)前記不自然読み仮名接続検出部は入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出部は前記読み仮名接続不自然箇所から前記漢字ひらがな接続不自然箇所を検出し、その漢字ひらがな接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
    (ii)前記不自然漢字かな接続検出部は入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記不自然読み仮名接続検出部は前記漢字ひらがな接続不自然箇所から前記読み仮名接続不自然箇所を検出し、その読み仮名接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
    または、
    (iii)前記不自然読み仮名接続検出部は入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出部は入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記読み仮名接続不自然箇所及び前記漢字ひらがな接続不自然箇所の一致部分を読み仮名誤りが発生している可能性の高い箇所とする、
    読み仮名誤り検出装置。
  2. 請求項1記載の読み仮名誤り検出装置であって、
    前記不自然読み仮名接続検出部は、前記読みN-gramモデルを用いて、前記入力テキストまたは前記漢字ひらがな接続不自然箇所の読み仮名系列に対する読みN-gramの生起確率を求め、その生起確率が一定値以下となる箇所を前記読み仮名接続不自然箇所として検出する、
    読み仮名誤り検出装置。
  3. 請求項1または請求項2記載の読み仮名誤り検出装置であって、
    前記不自然漢字かな接続検出部は、前記入力テキストまたは前記読み仮名接続不自然箇所から漢字の次にひらがなが連続して出現した箇所を検出し、前記接続読み頻度付き単漢字辞書から、その漢字と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度を全て取得し、取得した頻度の総数に対する、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度の割合を算出し、その割合に基づき、前記漢字ひらがな接続不自然箇所を検出する、
    読み仮名誤り検出装置。
  4. 請求項1から請求項3の何れかに記載の読み仮名誤り検出装置であって、
    前記不自然漢字かな接続検出部は、正解の読み仮名が付与された学習テキストに対して、読み仮名付与が行われ、その結果、読み仮名誤りが発生した誤り頻度が、読み仮名誤りが発生した漢字と、その漢字に誤って付与された読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された誤り頻度付き単漢字辞書と前記接続読み頻度付き単漢字辞書とを用いて、前記入力テキストまたは前記読み仮名接続不自然箇所から前記漢字ひらがな接続不自然箇所を検出する、
    読み仮名誤り検出装置。
  5. 請求項4記載の読み仮名誤り検出装置であって、
    前記不自然漢字かな接続検出部は、前記入力テキストまたは前記読み仮名接続不自然箇所から漢字の次にひらがなが連続して出現した箇所を検出し、前記接続読み頻度付き単漢字辞書から、その漢字と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度を全て取得し、取得した頻度の総数に対する、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度の割合S1を算出し、前記誤り頻度付き単漢字辞書から、その漢字に対応する誤り頻度を全て取得し、取得した誤り頻度の総数に対する、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する誤り頻度の割合S2を算出し、前記割合S1と前記割合S2との差が閾値以下である場合、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する箇所を前記漢字ひらがな接続不自然箇所として検出する、
    読み仮名誤り検出装置。
  6. 不自然読み仮名接続検出部と不自然漢字かな接続検出部とを含む装置を用いる読み仮名誤り検出方法であって、
    前記不自然読み仮名接続検出部が、日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を検出する不自然読み仮名接続検出ステップと、
    前記不自然漢字かな接続検出部が、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を検出する不自然漢字かな接続検出ステップと、を含み、
    (i)前記不自然読み仮名接続検出ステップにおいて入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出ステップにおいて前記読み仮名接続不自然箇所から前記漢字ひらがな接続不自然箇所を検出し、その漢字ひらがな接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
    (ii)前記不自然漢字かな接続検出ステップにおいて入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記不自然読み仮名接続検出ステップにおいて前記漢字ひらがな接続不自然箇所から前記読み仮名接続不自然箇所を検出し、その読み仮名接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
    または、
    (iii)前記不自然読み仮名接続検出ステップにおいて入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出ステップにおいて入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記読み仮名接続不自然箇所及び前記漢字ひらがな接続不自然箇所の一致部分を読み仮名誤りが発生している可能性の高い箇所とする、
    読み仮名誤り検出方法。
  7. 請求項1から請求項5の何れかに記載の読み仮名誤り検出装置の各部として、コンピュータを機能させるためのプログラム。
JP2012257452A 2012-11-26 2012-11-26 読み仮名誤り検出装置、方法並びにプログラム Expired - Fee Related JP5937496B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012257452A JP5937496B2 (ja) 2012-11-26 2012-11-26 読み仮名誤り検出装置、方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012257452A JP5937496B2 (ja) 2012-11-26 2012-11-26 読み仮名誤り検出装置、方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2014106607A JP2014106607A (ja) 2014-06-09
JP5937496B2 true JP5937496B2 (ja) 2016-06-22

Family

ID=51028066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012257452A Expired - Fee Related JP5937496B2 (ja) 2012-11-26 2012-11-26 読み仮名誤り検出装置、方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP5937496B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3470927B2 (ja) * 1995-05-11 2003-11-25 日本電信電話株式会社 自然語解析方法及び装置
JP4760043B2 (ja) * 2005-02-14 2011-08-31 日本電気株式会社 言語解析方法およびプログラム
JP2007226359A (ja) * 2006-02-21 2007-09-06 Nec Corp 読み評価方法、読み評価装置および読み評価用プログラム
JP5377889B2 (ja) * 2008-06-05 2013-12-25 日本放送協会 言語処理装置およびプログラム

Also Published As

Publication number Publication date
JP2014106607A (ja) 2014-06-09

Similar Documents

Publication Publication Date Title
Zhang et al. Chinese segmentation with a word-based perceptron algorithm
EP2653982A1 (en) Method and system for statistical misspelling correction
US20100070261A1 (en) Method and apparatus for detecting errors in machine translation using parallel corpus
US8639496B2 (en) System and method for identifying phrases in text
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
KR100911834B1 (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
Lyu et al. Neural OCR post-hoc correction of historical corpora
US11568150B2 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space
JP7155625B2 (ja) 検査装置、検査方法、プログラム及び学習装置
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
KR100892004B1 (ko) 영어 작문 학습 시스템에서, 동사 중심의 자동 문법오류검출 및 교정정보 제공 장치 및 그 방법
Kumar et al. Design and implementation of nlp-based spell checker for the tamil language
US11907656B2 (en) Machine based expansion of contractions in text in digital media
JP5937496B2 (ja) 読み仮名誤り検出装置、方法並びにプログラム
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质
Sharma et al. Improving existing punjabi grammar checker
JP6640618B2 (ja) 言語処理装置、方法、およびプログラム
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
Sumanathilaka et al. Romanized Sinhala to Sinhala Transliteration using a Hybrid Approach
WO2022123716A1 (ja) 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置
KR101743289B1 (ko) 자동 주소 번역 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160506

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160512

R150 Certificate of patent or registration of utility model

Ref document number: 5937496

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees