JP5937496B2 - 読み仮名誤り検出装置、方法並びにプログラム - Google Patents
読み仮名誤り検出装置、方法並びにプログラム Download PDFInfo
- Publication number
- JP5937496B2 JP5937496B2 JP2012257452A JP2012257452A JP5937496B2 JP 5937496 B2 JP5937496 B2 JP 5937496B2 JP 2012257452 A JP2012257452 A JP 2012257452A JP 2012257452 A JP2012257452 A JP 2012257452A JP 5937496 B2 JP5937496 B2 JP 5937496B2
- Authority
- JP
- Japan
- Prior art keywords
- kana
- kanji
- unnatural
- connection
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本実施形態では、入力テキストに対して、従来手法による読み仮名付与を行い、単語区切りと読み仮名系列を取得し、取得した単語区切りと読み仮名系列から読み仮名誤りの発生している可能性の高い箇所を自動的に検出する。人手によらずに検出することで、低コストで読み仮名誤りを誘発する未知語を同定することができる。
図1及び図2は、それぞれ読み仮名誤り検出装置100の全体構成図と処理フローを示す。読み仮名誤り検出装置100は、不自然読み仮名接続検出部110と、読みN-gramモデル記憶部120と、不自然漢字かな接続検出部130と、接続読み頻度付き単漢字辞書記憶部140とを含む。
読みN-gramモデル記憶部120には、読みN-gramモデルが格納されている。読みN-gramモデルは、日本語として自然な読み仮名の並びを統計的に学習したものであり、読みN-gramの生起確率を求めるためのモデルである。以下に、読みN-gramモデルの構築方法を示す。
[参考文献1]北 研二,辻井 潤一,“言語と計算-4 確率的言語モデル”,東京大学出版会,1999,pp.57-62.
不自然読み仮名接続検出部110は、入力テキストの単語区切りとその読み仮名系列とを受け取り、読みN-gramモデルを用いて、読み仮名接続不自然箇所を入力テキストから検出し(s2)、不自然漢字かな接続検出部130に出力する。なお、読み仮名接続不自然箇所とは、読み仮名の接続が不自然である箇所である。
接続読み頻度付き単漢字辞書記憶部140には、接続読み頻度付き単漢字辞書が格納されている。接続読み頻度付き単漢字辞書は、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築されたものである(図6参照)。以下に、接続読み頻度付き単漢字辞書の構築方法を示す。
不自然漢字かな接続検出部130は、読み仮名接続不自然箇所を受け取り、接続読み頻度付き単漢字辞書を用いて、漢字ひらがな接続不自然箇所を読み仮名接続不自然箇所から検出し(s3)、合成部92に出力する。なお、漢字ひらがな接続不自然箇所は、漢字とひらがなの接続が不自然である箇所である。
このような構成により、読み仮名の接続、漢字とひらがなの接続の両方の観点から日本語としての不自然さを評価し、読み仮名誤りが発生した可能性の高い箇所を人手によらず自動的に検出することができる。本実施形態によれば、読み仮名誤りが発生したテキスト、及びそのテキストに含まれる未知語を人手で同定する必要がないため、読み仮名誤りを改善するためにかかるコストを低減することができる。本実施形態の場合には、読み仮名誤りを改善するために、読み仮名誤りの可能性が高い箇所を識別可能にした入力テキストと読み仮名系列(図3参照)を人手により確認し、単語辞書に必要な情報(未知語の単語表記、品詞及び読み仮名)を追加すればよい。
不自然読み仮名接続検出部110と不自然漢字かな接続検出部130とは処理の順番が逆でもよい。つまり、不自然漢字かな接続検出部130は、接続読み頻度付き単漢字辞書を用いて、漢字ひらがな接続不自然箇所を入力テキスト(より詳しくいうと、入力テキストの単語区切りとその読み仮名系列)から検出する。その処理内容は単純に読み仮名接続不自然箇所を入力テキストに置き換えればよい。一方、不自然読み仮名接続検出部110は、N-gramモデルを用いて、読み仮名接続不自然箇所を漢字ひらがな接続不自然箇所から検出する。例えば、漢字ひらがな接続不自然箇所の読み仮名系列(例えば「ガクシ」)を受け取り、入力テキストの読み仮名系列のうち、漢字ひらがな接続不自然箇所の読み仮名系列を含む部分の読みN-gramの生起確率を求める。5-gramの場合は、「ベツニガクシイワケジャアナインダカラネ」の、「ツニガクシ」「ニガクシイ」「ガクシイワ」の生起確率をそれぞれ読みN-gramモデル記憶部120から取り出す。そして、何れかの生起確率が一定値以下となるか否かを判定する。一定値以下となる場合には、その漢字ひらがな接続不自然箇所を読み仮名接続不自然箇所でもあると判断し、読み仮名誤りが発生している可能性の高い箇所として出力する。
本実施形態では、正解読み仮名が付与された学習テキストに対して、自動読み仮名付与を行い、読み仮名誤りが発生した箇所の漢字とひらがなの接続頻度を集計した、誤り頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然なテキストを検出する。
第一実施形態と異なる部分についてのみ説明する。
誤り頻度付き単漢字辞書記憶部250には、誤り頻度付き単漢字辞書が格納されている。誤り頻度付き単漢字辞書は、学習テキストに対して、読み仮名付与が行われ、その結果、読み仮名誤りが発生した誤り頻度が、読み仮名誤りが発生した漢字と、その漢字に誤って付与された読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築されたものである(図10参照)。以下に、誤り頻度付き単漢字辞書の構築方法を示す。
不自然漢字かな接続検出部230は、読み仮名接続不自然箇所を受け取り、誤り頻度付き単漢字辞書と接続読み頻度付き単漢字辞書とを用いて、読み仮名接続不自然箇所から漢字ひらがな接続不自然箇所を検出し(s23)、合成部92に出力する。
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、ある漢字に対して発生し得る読み仮名誤りの中で、特に、発生しやすい読み仮名誤りを考慮することで、読み仮名誤りが発生した可能性の高い箇所をより高精度で検出することができる。
本実施形態では、接続読み頻度付き単漢字辞書と誤り頻度付き単漢字辞書とを別々に記憶部に格納しているが、合体して、記憶部に格納してもよい(図12参照)。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
上述した読み仮名誤り検出装置及び読み仮名付与装置は、コンピュータにより機能させることもできる。この場合、コンピュータを目的とする装置(各種実施形態で図に示した機能構成を持つ装置)として機能させるためのプログラム、またはコンピュータにその処理手順(各実施形態で示したもの)の各過程を実行させるためのプログラムを、そのコンピュータに実行させればよい。なお、そのプログラムは、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等のコンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータにプログラムを実行させる際には、そのプログラムを記録媒体から読み込んでもよいし、または、そのプログラムを記録したサーバ等から通信回線を介してダウンロードしてもよい。
110 仮名接続検出部
120 モデル記憶部
130,230 接続検出部
140 単漢字辞書記憶部
250 単漢字辞書記憶部
Claims (7)
- 日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を検出する不自然読み仮名接続検出部と、
正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を検出する不自然漢字かな接続検出部と、を含み、
(i)前記不自然読み仮名接続検出部は入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出部は前記読み仮名接続不自然箇所から前記漢字ひらがな接続不自然箇所を検出し、その漢字ひらがな接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
(ii)前記不自然漢字かな接続検出部は入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記不自然読み仮名接続検出部は前記漢字ひらがな接続不自然箇所から前記読み仮名接続不自然箇所を検出し、その読み仮名接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
または、
(iii)前記不自然読み仮名接続検出部は入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出部は入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記読み仮名接続不自然箇所及び前記漢字ひらがな接続不自然箇所の一致部分を読み仮名誤りが発生している可能性の高い箇所とする、
読み仮名誤り検出装置。 - 請求項1記載の読み仮名誤り検出装置であって、
前記不自然読み仮名接続検出部は、前記読みN-gramモデルを用いて、前記入力テキストまたは前記漢字ひらがな接続不自然箇所の読み仮名系列に対する読みN-gramの生起確率を求め、その生起確率が一定値以下となる箇所を前記読み仮名接続不自然箇所として検出する、
読み仮名誤り検出装置。 - 請求項1または請求項2記載の読み仮名誤り検出装置であって、
前記不自然漢字かな接続検出部は、前記入力テキストまたは前記読み仮名接続不自然箇所から漢字の次にひらがなが連続して出現した箇所を検出し、前記接続読み頻度付き単漢字辞書から、その漢字と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度を全て取得し、取得した頻度の総数に対する、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度の割合を算出し、その割合に基づき、前記漢字ひらがな接続不自然箇所を検出する、
読み仮名誤り検出装置。 - 請求項1から請求項3の何れかに記載の読み仮名誤り検出装置であって、
前記不自然漢字かな接続検出部は、正解の読み仮名が付与された学習テキストに対して、読み仮名付与が行われ、その結果、読み仮名誤りが発生した誤り頻度が、読み仮名誤りが発生した漢字と、その漢字に誤って付与された読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された誤り頻度付き単漢字辞書と前記接続読み頻度付き単漢字辞書とを用いて、前記入力テキストまたは前記読み仮名接続不自然箇所から前記漢字ひらがな接続不自然箇所を検出する、
読み仮名誤り検出装置。 - 請求項4記載の読み仮名誤り検出装置であって、
前記不自然漢字かな接続検出部は、前記入力テキストまたは前記読み仮名接続不自然箇所から漢字の次にひらがなが連続して出現した箇所を検出し、前記接続読み頻度付き単漢字辞書から、その漢字と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度を全て取得し、取得した頻度の総数に対する、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する頻度の割合S1を算出し、前記誤り頻度付き単漢字辞書から、その漢字に対応する誤り頻度を全て取得し、取得した誤り頻度の総数に対する、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する誤り頻度の割合S2を算出し、前記割合S1と前記割合S2との差が閾値以下である場合、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせに対応する箇所を前記漢字ひらがな接続不自然箇所として検出する、
読み仮名誤り検出装置。 - 不自然読み仮名接続検出部と不自然漢字かな接続検出部とを含む装置を用いる読み仮名誤り検出方法であって、
前記不自然読み仮名接続検出部が、日本語として自然な読み仮名の並びを統計的に学習した読みN-gramモデルを用いて、読み仮名の接続が不自然である読み仮名接続不自然箇所を検出する不自然読み仮名接続検出ステップと、
前記不自然漢字かな接続検出部が、正解の読み仮名が付与された学習テキスト内における漢字の次にひらがなが連続して出現する頻度が、その漢字と、その漢字の読み仮名と、その漢字の次に出現するひらがなとの組み合わせ毎に集計され構築された接続読み頻度付き単漢字辞書を用いて、漢字とひらがなの接続が不自然である漢字ひらがな接続不自然箇所を検出する不自然漢字かな接続検出ステップと、を含み、
(i)前記不自然読み仮名接続検出ステップにおいて入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出ステップにおいて前記読み仮名接続不自然箇所から前記漢字ひらがな接続不自然箇所を検出し、その漢字ひらがな接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
(ii)前記不自然漢字かな接続検出ステップにおいて入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記不自然読み仮名接続検出ステップにおいて前記漢字ひらがな接続不自然箇所から前記読み仮名接続不自然箇所を検出し、その読み仮名接続不自然箇所を読み仮名誤りが発生している可能性の高い箇所とする、
または、
(iii)前記不自然読み仮名接続検出ステップにおいて入力テキストから前記読み仮名接続不自然箇所を検出し、前記不自然漢字かな接続検出ステップにおいて入力テキストから前記漢字ひらがな接続不自然箇所を検出し、前記読み仮名接続不自然箇所及び前記漢字ひらがな接続不自然箇所の一致部分を読み仮名誤りが発生している可能性の高い箇所とする、
読み仮名誤り検出方法。 - 請求項1から請求項5の何れかに記載の読み仮名誤り検出装置の各部として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012257452A JP5937496B2 (ja) | 2012-11-26 | 2012-11-26 | 読み仮名誤り検出装置、方法並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012257452A JP5937496B2 (ja) | 2012-11-26 | 2012-11-26 | 読み仮名誤り検出装置、方法並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014106607A JP2014106607A (ja) | 2014-06-09 |
JP5937496B2 true JP5937496B2 (ja) | 2016-06-22 |
Family
ID=51028066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012257452A Expired - Fee Related JP5937496B2 (ja) | 2012-11-26 | 2012-11-26 | 読み仮名誤り検出装置、方法並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5937496B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3470927B2 (ja) * | 1995-05-11 | 2003-11-25 | 日本電信電話株式会社 | 自然語解析方法及び装置 |
JP4760043B2 (ja) * | 2005-02-14 | 2011-08-31 | 日本電気株式会社 | 言語解析方法およびプログラム |
JP2007226359A (ja) * | 2006-02-21 | 2007-09-06 | Nec Corp | 読み評価方法、読み評価装置および読み評価用プログラム |
JP5377889B2 (ja) * | 2008-06-05 | 2013-12-25 | 日本放送協会 | 言語処理装置およびプログラム |
-
2012
- 2012-11-26 JP JP2012257452A patent/JP5937496B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014106607A (ja) | 2014-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Chinese segmentation with a word-based perceptron algorithm | |
EP2653982A1 (en) | Method and system for statistical misspelling correction | |
US20100070261A1 (en) | Method and apparatus for detecting errors in machine translation using parallel corpus | |
US8639496B2 (en) | System and method for identifying phrases in text | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
KR100911834B1 (ko) | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치 | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
Lyu et al. | Neural OCR post-hoc correction of historical corpora | |
US11568150B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
JP2020190970A (ja) | 文書処理装置およびその方法、プログラム | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
CN107870900B (zh) | 提供翻译文的方法、装置以及记录介质 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
KR100892004B1 (ko) | 영어 작문 학습 시스템에서, 동사 중심의 자동 문법오류검출 및 교정정보 제공 장치 및 그 방법 | |
Kumar et al. | Design and implementation of nlp-based spell checker for the tamil language | |
US11907656B2 (en) | Machine based expansion of contractions in text in digital media | |
JP5937496B2 (ja) | 読み仮名誤り検出装置、方法並びにプログラム | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
Sharma et al. | Improving existing punjabi grammar checker | |
JP6640618B2 (ja) | 言語処理装置、方法、およびプログラム | |
JP2014215970A (ja) | 誤り検出装置、方法、及びプログラム | |
Sumanathilaka et al. | Romanized Sinhala to Sinhala Transliteration using a Hybrid Approach | |
WO2022123716A1 (ja) | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 | |
KR101743289B1 (ko) | 자동 주소 번역 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160506 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5937496 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |