JPH077414B2 - 日本文誤字自動修正装置 - Google Patents

日本文誤字自動修正装置

Info

Publication number
JPH077414B2
JPH077414B2 JP61238059A JP23805986A JPH077414B2 JP H077414 B2 JPH077414 B2 JP H077414B2 JP 61238059 A JP61238059 A JP 61238059A JP 23805986 A JP23805986 A JP 23805986A JP H077414 B2 JPH077414 B2 JP H077414B2
Authority
JP
Japan
Prior art keywords
character
correction
dictionary
candidate
correction candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61238059A
Other languages
English (en)
Other versions
JPS6394364A (ja
Inventor
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP61238059A priority Critical patent/JPH077414B2/ja
Publication of JPS6394364A publication Critical patent/JPS6394364A/ja
Publication of JPH077414B2 publication Critical patent/JPH077414B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 (発明の属する技術分野) 本発明は、日本語文書データベース作成のため、入力装
置から読み込まれた漢字かな混じりの日本文文字列に含
まれる誤字の自動訂正を行うために、抽出された候補文
字群から正解候補を選択し、自動修正を行う日本文誤字
自動修正装置に関するものである。
(従来の技術) 新聞記事、出版用原稿、科学技術論文等の多量の日本文
文書を電子ファイル化して日本文文書データベースを作
成する場合、これらの読み取り結果に混入する棄却文字
や誤読文字、誤字は単語辞書および文法辞書を用いた形
態素解析や修正者によるチェックによって検出される
が、その修正や自動訂正を実施するためには、正解候補
の含有率の高い候補抽出と、形態素解析に基づいた厳格
な日本文チェックが必要である。
従来の候補抽出および自動修正の例としては、英語にお
けるスペルチェック及びその補正を論じた、J.L.Peters
on 「“Lecture Notes computer Science Vol.96 Computer
Programs For Spelling Correction"、Springer-Verlo
g 社刊1980年発行」 に述べられるように、 正しいスペルと誤り易いスペルを対で辞書に保持
し、誤りスペルを検出した際に正しいスペルに置換する
方法。
英語単語に対して予め正しいスペルから統計的に2
文字置換、1文字挿入、1文字欠如、1文字誤りのルー
ルを適用した誤りスペルリストを生成し、この誤りスペ
ルで検出された場合に、正しいスペルを抽出、修正する
方法がある。
このような正誤両パターンを辞書化して誤字を検出自動
修正を行う方法は特開昭61−1787号公報に示されている
“文章の異常検査修正装置”で述べられている。しか
し、これらの従来の方法では次の問題点がある。
字種数が多く、分かち書きされない日本文文書で
は、誤字を検出するために用いる誤り文字列パターンが
膨大となるうえ、文節境界に発生する誤字に対して単
語、文節境界を越えた候補抽出が困難である。
入力装置の誤り特性が不明の場合、候補抽出、修正
が困難である。
形態素解析による訂正候補選択を行う際、多数の訂
正候補が抽出されると処理負荷が大となる。また人手修
正であっても文法的に明らかに誤りである修正候補が多
数含まれるため処理負荷となる。
(発明の目的) 本発明の目的は、予め誤字を含まない同種の大量の文書
を用いて日本文訂正候補文字辞書と文字連接確率辞書を
作成して誤字が検出された場合、日本文訂正候補文字辞
書を用いた候補抽出およびこれらの各訂正候補によって
作られる仮文字列の正字列確率を文字連接確率辞書を用
いて算出して候補を絞り込むことによって、字種数、文
節境界、誤字数、入力装置の誤り特性に依存しない候補
抽出及び処理性能の高い自動修正を行う日本文誤字自動
修正装置を提供することにある。
(発明の構成) (発明の特徴と従来の技術との差異) 本発明は、誤字自動修正の対象となる文書と同種の誤字
を含まない大量の文書を用いて抽出されるN文字の文字
列あるいはこれらから選択した特定のN文字,N−1文
字,…,2文字の文字列パターンを抽出し、これらの各文
字列における第i番目(i=1…N)の文字以外の文字
列パターンが等しい場合に第i番目の文字を訂正候補文
字として収集した日本文訂正候補文字辞書と、同じく抽
出されるN文字の文字列パターンの出現頻度情報に基づ
いて、予め算定した各N文字の文字連接確率辞書をそれ
ぞれ予め作成しておき、入力装置から入力された入力日
本文データベースに含まれる誤字を、単語辞書および文
法辞書を用いた形態素解析によって検出した場合、誤字
の前後の周辺の文字列パターンをキーとして日本文訂正
候補文字辞書を索引して訂正候補文字を抽出し、各訂正
候補文字を原文中の誤字位置に挿入した仮文字列の正字
列確率を文字連接確率辞書により算定して訂正候補文字
の順位付け、足切りによる絞り込みを行い、絞り込まれ
た訂正候補を上位から形態素解析による誤字検出処理に
よって正しい候補を選択し、自動修正することを特徴と
する。
従来の技術とは、 日本文訂正候補文字辞書による候補抽出を行うの
で、文書の字種数、分かち書きの有無、入力装置の誤り
特性に依存しない候補抽出が可能。
抽出された候補を文字連接確率辞書の適用により絞
り込むので、精度の高い候補抽出が可能。
絞り込まれた候補の文法的チェックを施すことによ
り誤字の自動修正が可能。
明らかな文法的誤りの訂正候補を自動的に排除する
ので、人手修正による負荷が小さくて済む。という点が
異なる。
(実施例) 第1図は本発明の基本構成例であり、1は漢字OCR,ペン
タッチ,タブレット,キーボード等の入力装置、2は入
力あるいは読み込みを行う入力処理部、3は入力装置1
によって読み込まれ、磁気装置に文字コードの形式で記
録されている読取り結果の入力日本文データベース、4
は単語辞書、5は文法辞書、6は単語辞書4および文法
辞書5を用いた形態素解析によって誤字が含まれる文節
レベルの誤字含有域を抽出する誤字検出部、7は誤字検
出部6で抽出した誤字含有域内から誤字と見なす文字位
置を検出する誤字位置検出部、8は文字連接確率辞書、
9は辞書10を索引し誤字に対する訂正候補文字を抽出す
る訂正候補文字抽出部、10は日本文訂正候補文字辞書、
11は辞書10を索引して各訂正候補の順位付けおよび候補
の足切りを行う訂正候補絞り込み部、12は訂正候補を上
位より順に誤字位置に挿入した仮文字列を形態素解析を
行ってチェックする訂正候補チェック部、13は訂正候補
チェック部12の文法的なチェックで認定された訂正候補
を修正者によって選択する訂正候補選択部、14は修正用
端末、15は誤字救済された日本文文書データベース、16
はCPU/メモリから成る処理装置である。
この方式では、入力装置1で読み込んだ読み取り結果で
ある入力日本文データベース3に対して、単語候補抽
出、品詞接続検定等の形態素解析を行う誤字検出部6に
よって誤字含有域を検出し、さらに文字連接確率辞書8
を用いて誤字位置を検出した後、誤字位置以外の周辺の
文字をキーとして日本文訂正候補辞書10を索引すること
によって訂正候補文字を抽出する。
さらに、文字連接確率辞書8を用いて、誤字位置に訂正
候補を順に挿入した仮文字列の正字列確率を求め、順位
付け並びに足切りを行って訂正候補を絞り込んだ後で、
各訂正候補について原文に挿入した文節レベルの仮文字
列を再度形態素解析を行って、文法的なチェックを実施
し、文法的に正しい訂正候補を選択する。
この時点で訂正候補が1つに絞り込まれると、候補を誤
字と置換して自動修正に成功する。しかし、依然複数の
時は修正用端末14から修正者が候補を選択する。
第2図は、第1図の基本構成例において誤字を検出した
後の訂正候補抽出および自動訂正において、誤字が2個
ある場合の実施例である。
本例で、17は誤字が検出された誤字含有域、18は誤字、
19は正解文字、20は誤字位置検出部7で文字連接確率を
用いて検出した誤字位置、21は誤字位置候補に対する
訂正候補、22は訂正候補21から文字連接確率により絞り
込んだ訂正候補、23,24は誤字位置候補に対する訂正
候補および絞り込んだ訂正候補、25は訂正候補絞り込み
部11で順位付けした訂正候補列、26は候補順番、27は訂
正候補列25のうち候補順番上位2候補、28は訂正候補チ
ェック後に自動修正した文字列である。
本例では、誤字含有域17を文字連接確率辞書8を用いた
誤字位置を検出して複数の誤字候補を抽出した後、各誤
字に対し訂正候補抽出を行う。
次に、各誤字位置の各訂正候補を順に原文文字列に挿入
し、文字列の文字連接確率を算出して低確率の候補の足
切りを行い、訂正候補22,24を得る。さらに順位付けを
行い訂正候補列25を作成する。
これらの訂正候補について再度、形態素解析を行って各
訂正候補の文法的チェックを行った後、候補数1のとき
は自動訂正する。
しかし、候補数が2個以上の場合でそのうち候補順番の
上位2個が1つの誤字位置のときはその位置に上位1位
の訂正候補を埋め込み、また候補順番の上位2個が別々
の誤字位置のときは2文字誤りとして仮定し、各誤字位
置に両候補を埋め込む。
ただし、訂正候補列25を文法チェックした時点で3個以
上の複数が残る場合、候補順番の上位1位の訂正候補を
選択せずに、訂正候補選択部において制定用端末14かこ
れらの訂正候補を修正者が選択する手段および訂正候補
自動抽出に失敗した場合に修正者が修正を行う手段を備
えている。
このような構成および作用となっているから、従来の技
術に比べて、字種数、分かち書きの有無、誤字数、入力
装置の誤り特性に依存しない候補抽出が可能であるほ
か、抽出した訂正候補を文字連接確率により絞り込み、
これらを対象に文法チェックを行うので候補の正解率が
高く、自動訂正可能となり、また処理に要する時間を削
減できる。
さらに文法チェックにより訂正候補を絞り込むので、人
手による候補選択を行う場合でも負荷の軽減を図ること
ができるという改善があった。
(発明の効果) 以上説明したように、誤字自動訂正の対象とする日本文
文書と同種の誤字を含まない大量の文書を用いて、抽出
されるN文字の文字列あるいはこれらから選択した特定
のN文字,N−1文字,…,2文字の文字列を抽出し、これ
を用いて訂正候補文字を抽出する日本文訂正候補文字辞
書および、そのN文字の出現頻度に基づいて算定したN
文字の文字連接確率辞書をそれぞれ予め作成して、入力
装置に読み込まれた入力日本文データベース内の誤字を
形態素解析によって検出した場合、前記訂正候補文字辞
書による訂正候補抽出および文字連接確率辞書による候
補の順位付けと足切りによる絞り込みを行い、これに対
して、形態素解析による文法チェックを施して自動修正
を行うのであるから、 字種数、分かち書きの有無、誤字数、入力装置の誤
り特性に依存しない候補抽出、絞り込みによる精度の高
い候補抽出が可能。
絞り込まれた少数の候補に対する文法的チェックを
施すことにより、誤字の自動修正が可能。
文法的誤りの訂正候補を自動的に排除するので、人
手修正においても処理負荷を削減できる。
という利点がある。
【図面の簡単な説明】
第1図は本発明の基本構成例、第2図は誤字における訂
正候補抽出および自動訂正実施例である。 1……入力装置、2……入力処理部、 3……入力日本文データベース、 4……単語辞書、5……文法辞書、 6……誤字検出部、 7……誤字位置検出部、 8……文字連接確率辞書、 9……訂正候補文字抽出部、 10……日本文訂正候補文字辞書、 11……訂正候補絞り込み部、 12……訂正候補チェック部、 13……訂正候補選択部、 14……修正用端末、 15……誤字救済された日本文文書データベース、 16……処理装置、17……誤字含有域、 18……誤字、19……正解文字、 20……誤字位置、 21……誤字位置候補に対する訂正候補、 22……21から絞り込んだ訂正候補、 23……誤字位置候補に対する訂正候補、 24……23から絞り込んだ訂正候補、 25……順位付けした訂正候補列、 26……候補順番、 27……25における上位2候補、 28……訂正候補チェック後自動修正した文字列。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文字入力装置から入力された日本文書デー
    タベースにおける日本文の入力誤りまたは文字認識誤り
    によって生じた読み取り棄却文字あるいは誤字につい
    て、単語辞書および文法辞書を用いた形態素解析によっ
    て誤字が含まれる文節レベルの誤字含有域を抽出する誤
    字検出部と、 この誤字含有域から文字間の連節確率によって誤字と見
    なす文字位置を抽出する誤字位置検出部と、 予めこれらの日本文文書と同種で誤字を含まない文書を
    用いて抽出されるN文字の文字列あるいはこれらから選
    択した特定のN文字,N−1文字,…,2文字の文字列にお
    ける第i番目(i=1…N)の文字以外のパターンが等
    しい場合の第i番目の文字を訂正候補文字として収集し
    た日本文訂正候補文字辞書と、 誤字位置検出部により抽出された誤字位置以外の周辺の
    文字をキーとして日本文訂正候補文字辞書を索引し、誤
    字に対する訂正候補文字を抽出する訂正候補文字抽出部
    と、 予め抽出したN文字のパターンに関する出現頻度情報に
    基づいて、予め算定された各N文字の文字連接確率情報
    を各N文字をキーとして保持する文字連節確率辞書と、 その文字連接確率辞書を用いて訂正候補文字抽出部で抽
    出した訂正候補の順位付けおよび絞り込みを行う訂正候
    補絞り込み部と、 絞り込まれた訂正候補を原文文字列に挿入して形態素解
    析による文法的チェックを行う訂正候補チェック部と、 文法的チェックを受けた訂正候補から訂正者が正字を選
    択する訂正候補選択部とを有する日本文誤字自動修正装
    置であって、 検出した誤字に対する訂正候補を前記候補辞書により抽
    出し、前記確率辞書により絞り込んでさらに形態素解析
    による文法チェックを行って訂正候補を自動的に修正す
    る手段を備えることを特徴とする日本文誤字自動修正装
    置。
JP61238059A 1986-10-08 1986-10-08 日本文誤字自動修正装置 Expired - Lifetime JPH077414B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61238059A JPH077414B2 (ja) 1986-10-08 1986-10-08 日本文誤字自動修正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61238059A JPH077414B2 (ja) 1986-10-08 1986-10-08 日本文誤字自動修正装置

Publications (2)

Publication Number Publication Date
JPS6394364A JPS6394364A (ja) 1988-04-25
JPH077414B2 true JPH077414B2 (ja) 1995-01-30

Family

ID=17024546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61238059A Expired - Lifetime JPH077414B2 (ja) 1986-10-08 1986-10-08 日本文誤字自動修正装置

Country Status (1)

Country Link
JP (1) JPH077414B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5203324B2 (ja) * 2009-09-16 2013-06-05 日本電信電話株式会社 誤字脱字対応テキスト解析装置及び方法及びプログラム
CN111259654B (zh) * 2018-11-30 2023-09-15 北京嘀嘀无限科技发展有限公司 一种文本检错方法及装置
CN111368918B (zh) * 2020-03-04 2024-01-05 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JPS6394364A (ja) 1988-04-25

Similar Documents

Publication Publication Date Title
US7983903B2 (en) Mining bilingual dictionaries from monolingual web pages
Piotrowski Natural language processing for historical texts
JP2693780B2 (ja) テキストプロセシングシステム、及び単位又は化学式が正確且つ一貫して使用されているかどうかをテキストプロセシングシステムでチェックするための方法
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
Volk et al. Strategies for reducing and correcting OCR errors
Baron Dealing with spelling variation in Early Modern English texts
Chaudhuri Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text
Kashefi et al. A novel string distance metric for ranking Persian respelling suggestions
JPH077414B2 (ja) 日本文誤字自動修正装置
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
Baird et al. A family of European page readers
JPH077412B2 (ja) 日本文訂正候補文字抽出装置
JP3274014B2 (ja) 文字認識装置および文字認識方法
Chaudhuri Towards Indian language spell-checker design
Syarafina et al. Designing a word recommendation application using the Levenshtein Distance algorithm
Debnath et al. A Hybrid Approach to Design Automatic Spelling Corrector and Converter for Transliterated Bangla Words
JPH0362260A (ja) 片仮名単語誤り検出訂正装置
Widiarti et al. A proposed model for Javanese manuscript images transliteration
JP3856515B2 (ja) 文書校正装置
JP2595047B2 (ja) 日本文誤り自動検定・訂正装置
Habeeb Hybrid model of post-processing techniques for Arabic optical character recognition
Shrivastava et al. A Quantitative Study of the Voynich Manuscript through the Kolmogorov-Smirnov Test
JPH01281561A (ja) 日本文訂正候補文字抽出方法
JP2592993B2 (ja) 文節切り出し装置
JPH05225183A (ja) 日本文単語誤り自動検出装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term