JPH077412B2 - 日本文訂正候補文字抽出装置 - Google Patents

日本文訂正候補文字抽出装置

Info

Publication number
JPH077412B2
JPH077412B2 JP61226288A JP22628886A JPH077412B2 JP H077412 B2 JPH077412 B2 JP H077412B2 JP 61226288 A JP61226288 A JP 61226288A JP 22628886 A JP22628886 A JP 22628886A JP H077412 B2 JPH077412 B2 JP H077412B2
Authority
JP
Japan
Prior art keywords
character
correction candidate
characters
dictionary
typographical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61226288A
Other languages
English (en)
Other versions
JPS6382542A (ja
Inventor
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP61226288A priority Critical patent/JPH077412B2/ja
Publication of JPS6382542A publication Critical patent/JPS6382542A/ja
Publication of JPH077412B2 publication Critical patent/JPH077412B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 (発明の属する技術分野) 本発明は、日本文文書データベース作成のため、入力装
置から読み込まれた漢字かな混じりの日本文文字列に含
まれる誤字の自動訂正を行なうための候補文字を抽出す
る日本文訂正候補文字抽出装置に関するものである。
(従来の技術) 新聞記事、出版用原稿、科学技術論文等の多量の日本文
文書を電子ファイル化して日本文文書データベースを作
成する場合、読み取り結果に混入する棄却文字や誤読文
字、誤字は単語辞書および、文法辞書を用いた形態素解
析や修正者によるチェックによって検出されるが、その
修正や自動訂正を実施するためには、正解候補の含有率
の高い候補抽出を行う必要がある。
従来の訂正候補抽出の手段は種々あった。英語における
スペルチェック手法としては、 J.L.Peterson「“Lecture Notes Computer Science Vo
l.96 Computer Programs for Spelling Correction",Sp
ringer-Verlag社刊1980年発行」に述べられているよう
に、 誤り易いスペルと正しいスペルを対で保持して誤り
スペル検出時に正しいスペルに置換する。
英単語に対して正しいスペルから(i)2文字置
換、(ii)1文字挿入、(iii)1文字欠如、(iv)1
文字誤りの各ルールを適用した誤りスペルリストを生成
し正しいスペルを推定する。
の手法があるが、この手法は英文字の字種数が少なく、
かつ候補抽出範囲が単語に閉じている場合に有効な方法
と言える。
また入力装置の誤り属性に応じた訂正候補抽出手法とし
ては漢字OCRでは認識距離に応じた候補、ワープロ入力
では同音異義語の候補、ペンタッチタブレット入力では
拾った文字の周辺文字の候補を抽出するという種々の手
法がある。
しかし日本文文書のような字種数が膨大で分かち書きが
なせれていない文字列での候補抽出には次の問題点があ
る。
字種数が大のため、誤りスペルリスト及び訂正候補
リストのパターンが膨大となるので実際上、候補抽出は
不可能である。
誤字が文節境界に発生して分かち書きが失敗した場
合、単語、文節を超えた候補抽出は困難である。
入力装置の誤り特性が十分解析されていない。また
既に何らかの入力装置によって読み込まれた原文に対す
る汎用的な候補抽出法がない。
(発明の目的) 本発明の目的は、誤字を含まない文書を用いて抽出され
るN文字の文字列あるいは、これらから選択した特定の
N文字,N−1文字,…,2文字の文字列における第i番目
(i=1…n)の文字以外の文字列パターンが等しい場
合の第i番目の文字を訂正候補文字として収集した日本
文訂正候補文字辞書を備え、検出された誤字位置以外の
N−1文字をキーとしてその辞書を索引して訂正候補を
抽出することによって、字種数、文節境界、誤字数、入
力装置の各誤り特性に依存しない日本文訂正候補文字抽
出装置を提供することにある。
(発明の構成) (発明の特徴と従来の技術との差異) 本発明は、訂正候補文字抽出の対象となる文書と同種の
誤字を含まない大量の文書を用いて抽出されるN文字の
文字列あるいはこれらから選択した特定のN文字,N−1
文字,…,2文字の文字列パターンを抽出し、これらの各
文字列における第i番目(i=1…N)の文字以外の文
字列パターンが等しい場合に第i番目の文字を訂正候補
文字として収集した日本文訂正候補文字辞書を予め作成
しておいて、入力装置から入力されて入力日本文データ
ベースの入力誤り、読み取り誤りに基因する誤字を、単
語辞書、文法辞書を用いた形態素解析によって文節レベ
ルの誤字含有域として抽出し、さらに、この誤字含有域
内から文字連接確率辞書を用いて誤字位置を検出した場
合、この誤字位置の文字以外の周辺の文字列パターンを
キーとしてその日本文訂正候補文字辞書を索引し各辞書
から複数の訂正候補文字を抽出することを最も主要な特
徴とする。
従来の技術とは、 候補抽出対象の文書と同種の誤字を含まない大量の
文書を用いて日本文訂正候補文字辞書を予め作成するの
で、文書の字種の多さに依存しない。
分かち書きを実施しない日本文文書に対して候補文
字を収集するので、単語、文節を超えた任意の位置での
候補抽出が可能。
入力装置の誤り特性に困らない汎用的な候補抽出が
可能。
の点で異なる。
(実施例) 第1図は本発明の基本構成例で、1は漢字OCR、ペンタ
ッチタブレット、キーボード等の入力装置、2は入力あ
るいは読み込みを行う入力処理部、3は入力装置1によ
って読み込まれ、磁気装置に文字コードの形式で記録さ
れている読み取り結果の入力日本文データベース、4は
単語辞書、5は文法辞書、6は単語辞書4および文法辞
書5を用いた形態素解析によって誤字が含まれる文節レ
ベルの誤字含有域を抽出する誤字検出部、7は誤字検出
部6で抽出した誤字含有域内から誤字と見なす文字位置
を検出する位置検出部、8は文字連接確率辞書、9は辞
書10を索引し誤字に対する訂正候補文字を抽出する訂正
候補文字抽出部、10は日本文訂正候補文字辞書、11は訂
正候補文字群から修正者が正字(正解文字)を選択する
訂正候補選択部、12は修正者が操作する修正用端末、13
は修正者により選択されて誤字が救済された日本文文書
データベース、14はCPU/メモリから成る処理装置であ
る。
この方式では入力装置1で読み込んだ読み取り結果であ
る入力日本文データベース3に対して、単語候補抽出、
品詞接続検査等の形態素解析を行う誤字検出部6によっ
て誤字含有域を検出し、さらに文字連接確率辞書8を用
いて誤字位置を検出した後、この誤字位置以外のN−1
文字の文字パターンをキーとする日本文訂正候補文字辞
書10を索引することによって訂正候補文字を抽出し、こ
れらの訂正候補文字から修正者が正字を修正用端末12に
よって選択し、誤字の救済を行っている。
日本文訂正候補文字辞書10は、1文字からN−1文字の
文字列パターンをキーとしてその訂正候補文字を索引す
る辞書である。以下、N=3の場合について説明する
が、それ以上の場合も同様である。
その訂正候補文字辞書は次のように作成される。
予め、処理対象の原文文書と同様で、誤字を含まない大
量の標準文書に対して、先頭から連続する3文字を順に
読み出し、前方2文字あるいは中央を除く前後各1文字
の計2文字あるいは後方2文字が等しいパターンの文字
列についてその他の1文字を訂正候補文字とするよう連
続する3文字の収集を行い、候補を出現頻度の高い順に
並べて日本文訂正候補文字辞書とする。
N=3場合、それぞれ前方2文字訂正候補文字辞書、挟
み込み訂正候補文字辞書、後方2文字訂正候補文字辞書
とする。あるいは、収集の際、ある文字を候補とする文
字列やある字種に関する文字列としてN,N−1,N−2,…と
それぞれの長さの文字列に応じた特定の文字列を選択し
て辞書化する。
第2図は訂正候補文字辞書の構成図である。
15は誤字を含まない文書中で訂正候補抽出を行う対象と
なる訂正候補抽出対象文字5文字、16は前記辞書で訂正
候補文字となる文字、17,18,19はそれぞれ前方2文字、
挟み込み、後方2文字訂正候補文字辞書に収録する場合
対象となる3文字f1,f2,f3、20は候補抽出の際に前記辞
書を索引するため用いるキー部2文字、21は訂正候補文
字列、21aは候補文字列の第1位である。
すなわち、対象となる文字列15から前記辞書の対象とす
る3文字のパターン17,18,19をそれぞれ抽出し、辞書毎
にキー部20の等しいグループに訂正候補文字列となる文
字16を候補文字列21として登録する。この候補文字列の
順位は出現頻度に応じて設定する。
第3図は、漢字OCRにおける棄却文字(読み取れなかっ
た文字)に対する候補抽出の実施例である。
22は漢字OCRが読み込んだ文字列、23は棄却文字、24は
原文上の正解文字、25,26,27はそれぞれ前方2文字、挟
み込み、後方2文字訂正候補文字辞書レコード、28,29,
30はその辞書レコード25,26,27のそれぞれのキー部、31
は辞書の索引の結果抽出された訂正候補文字群である。
本例では、棄却文字位置に対して前方2文字28、挟み込
みの2文字29、後方2文字30をそれぞれキーとしてその
辞書レコード25,26,27を索引して、訂正候補文字群31を
抽出する。
この後、修正者は原文を参考に端末等でこれらの候補文
字の中から正字を選択して修正を行う。
第4図は、第1図の構成例での誤字検出部6、誤字位置
検出部7により誤字位置が検出された場合における訂正
候補文字抽出の実施例である。
本例で、32は誤字含有域、33は誤字位置、34は原文上の
正解文字、35は誤字位置検出部7により抽出した誤字位
置候補(本例では2個所)、36,37は誤字位置候補35そ
れぞれに対する候補文字列、38は修正者により選択され
た文字である。
本例では、誤字検出部により検出された誤字含有域32に
対して、文字間の接続確率によって誤字位置候補35を抽
出し、それぞれの位置に対して日本文訂正候補文字辞書
を索引し訂正候補文字36,37を抽出する。
この後、修正者が原文を参考に端末からこれらの訂正候
補文字列より正字38を選択する。
また本実施例では誤字含有域32に複数の誤字が含まれて
いる場合、誤字位置検出部の誤字位置候補に含まれてい
れば、それぞれの誤字位置候補に対する修正候補文字を
抽出することによって複数誤字の修正が可能となる。
このような構造および作用となっていることから、従来
の技術に比べて辞書への収集量を増やすことによって字
種数が大なる日本文文書に適用可能であるほか、2文字
のキーの辞書索引による候補抽出であるから、誤字が文
節境界に発生し分かち書きが正しく行われない場合でも
適用可能である。また1つの誤字含有域に複数の誤字が
混入しても誤字位置候補を複数とり、それぞれについて
候補抽出を行うことによって複数の誤字の救済が可能で
あり、また、入力装置の誤り特性の不明である文書につ
いても適用可能であるとい改善があった。
(発明の効果) 以上説明したように、訂正候補文字抽出の対象となる文
書と同種の誤字を含まない大量の文書を用いて抽出され
るN文字の文字列、あるいはこれらから選択した特定の
N文字,N−1文字,…,2文字の文字列における第i番目
(i=1…N)の文字以外の文字列パターンが等しく第
i番目の文字を収集した日本文訂正候補文字辞書を予め
作成しておき、入力装置から入力された入力日本文デー
タベースに含まれる誤字を単語辞書、文法辞書を用いた
形態素解析によって誤字含有域として抽出し、さらに文
字連接確率辞書を用いて誤字位置候補を抽出した場合、
誤字候補位置以外の周辺の文字列パターンをキーとして
前記辞書から訂正候補文字を抽出して修正者が端末等で
正字を選択するのであるから、 辞書への収集量を増やすことによって字種数が大の
日本文文書の候補抽出が可能。
候補抽出は単語や文節を意識しないのであるから、
誤字が文節境界に発生し、分かち書きが正しく行われな
い場合でも候補抽出が可能。
入力装置の誤り特性が得られない場合でも本装置は
誤字を含まない同種の原文に基づいて作成した辞書を用
いているので、汎用的な候補抽出法である。
という利点がある。
【図面の簡単な説明】
第1図は本発明の基本構成例、第2図は日本文訂正候補
文字辞書、第3図は棄却文字における訂正候補抽出例、
第4図は誤字における訂正候補抽出例をそれぞれ示して
いる。 1……入力装置、2……入力処理部、 3……入力日本文データベース、 4……単語辞書、5……文法辞書、 6……誤字検出部、 7……誤字位置検出部、 8……文字連接確率辞書、 9……訂正候補文字抽出部、 10……日本文訂正候補文字辞書、 11……訂正候補選択部、12……訂正用端末、 13……日本文文書データベース、 14……処理装置、 15……訂正候補抽出対象文字、 16……辞書へ収録される訂正候補文字、 17,18,19……前方2文字、挟み込み、後方2文字訂正候
補文字辞書に収録対象となる3文字、 20……辞書のキー部、21……訂正候補文字列、 21a……候補文字列第1位、 22……漢字OCRからの読み取り文字列、 23……棄却文字、24……原文上の正解文字、 25,26,27……訂正候補文字辞書、 28,29,30……キー部、 31……訂正文字候補群、32……誤字含有域、 33……誤字位置、 34……原文上の正解文字、 35……誤字位置候補、 36,37……候補文字列、 38……修正者により選択された文字。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文書入力装置から入力された日本文文書デ
    ータベースにおけるその日本文の入力誤りまたは文字認
    識誤りによって生じた読み取り棄却文字あるいは誤字に
    ついて、単語辞書および文法辞書を用いた形態素解析に
    よって誤字が含まれる文節レベルの誤字含有域を抽出す
    る誤字検出部と、 この誤字含有域から文字間の連接確率によって誤字とみ
    なす文字位置を抽出する誤字位置検出部と、 予めこれらの日本文文書と同種で誤字を含まない文書を
    用いて抽出されるN文字の文字列あるいはこれらから選
    択した特定のN文字,N−1文字,…2文字の文字列にお
    ける第i番目(i=1…N)の文字以外のパターンが等
    しい場合の第i番目の文字を訂正候補文字として収集し
    た日本文訂正候補文字辞書と、 誤字位置検出部により抽出された誤字位置以外のN−1
    文字をキーとして日本文訂正候補文字辞書を索引し、誤
    字に対する訂正候補文字を抽出する訂正候補文字抽出部
    と、 抽出された訂正候補文字群から訂正者により正字を選択
    する訂正候補選択部とを有する日本文訂正候補文字抽出
    装置であって、 誤字を含む日本文文書から文節レベルの誤字含有域を抽
    出し、この含有域内の誤字位置に対して前後のN−1文
    字をキーとして日本文訂正候補文字辞書を索引し複数の
    訂正候補文字を自動的に抽出する手段を備えることを特
    徴とする日本文訂正候補文字抽出装置。
JP61226288A 1986-09-26 1986-09-26 日本文訂正候補文字抽出装置 Expired - Fee Related JPH077412B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61226288A JPH077412B2 (ja) 1986-09-26 1986-09-26 日本文訂正候補文字抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61226288A JPH077412B2 (ja) 1986-09-26 1986-09-26 日本文訂正候補文字抽出装置

Publications (2)

Publication Number Publication Date
JPS6382542A JPS6382542A (ja) 1988-04-13
JPH077412B2 true JPH077412B2 (ja) 1995-01-30

Family

ID=16842865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61226288A Expired - Fee Related JPH077412B2 (ja) 1986-09-26 1986-09-26 日本文訂正候補文字抽出装置

Country Status (1)

Country Link
JP (1) JPH077412B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4946760B2 (ja) * 2007-09-28 2012-06-06 大日本印刷株式会社 発泡壁紙の製造方法
CN110852074B (zh) * 2019-11-07 2023-05-16 腾讯科技(深圳)有限公司 生成修正语句的方法和装置、存储介质和电子设备

Also Published As

Publication number Publication date
JPS6382542A (ja) 1988-04-13

Similar Documents

Publication Publication Date Title
Kissos et al. OCR error correction using character correction and feature-based word classification
Piotrowski Natural language processing for historical texts
US4813010A (en) Document processing using heading rules storage and retrieval system for generating documents with hierarchical logical architectures
JP3427692B2 (ja) 文字認識方法および文字認識装置
US7983903B2 (en) Mining bilingual dictionaries from monolingual web pages
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
JP3452774B2 (ja) 文字認識方法
JP2001034623A (ja) 情報検索方法と情報検索装置
Doush et al. A novel Arabic OCR post-processing using rule-based and word context techniques
Dölek et al. A deep learning model for Ottoman OCR
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
Chaudhuri et al. OCR error detection and correction of an inflectional indian language script
JPH077412B2 (ja) 日本文訂正候補文字抽出装置
Bataineh A Printed PAW Image Database of Arabic Language for Document Analysis and Recognition.
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
Nguyen et al. An in-depth analysis of OCR errors for unconstrained Vietnamese handwriting
JPH077414B2 (ja) 日本文誤字自動修正装置
Ren et al. A hybrid approach to automatic Chinese text checking and error correction
JP4283898B2 (ja) 文章校正装置
Chaudhuri Towards Indian language spell-checker design
Baird et al. A family of European page readers
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
Prinsloo et al. Optical Character Recognition and text cleaning in the indigenous South African languages
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
Rathnasena et al. Summarization based approach for old sinhala text archival search and preservation

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees