JPH077412B2

JPH077412B2 - 日本文訂正候補文字抽出装置

Info

Publication number: JPH077412B2
Application number: JP61226288A
Authority: JP
Inventors: 伸一郎高木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1986-09-26
Filing date: 1986-09-26
Publication date: 1995-01-30
Anticipated expiration: 2010-01-30
Also published as: JPS6382542A

Description

【発明の詳細な説明】（発明の属する技術分野）本発明は、日本文文書データベース作成のため、入力装
置から読み込まれた漢字かな混じりの日本文文字列に含
まれる誤字の自動訂正を行なうための候補文字を抽出す
る日本文訂正候補文字抽出装置に関するものである。

（従来の技術）新聞記事、出版用原稿、科学技術論文等の多量の日本文
文書を電子ファイル化して日本文文書データベースを作
成する場合、読み取り結果に混入する棄却文字や誤読文
字、誤字は単語辞書および、文法辞書を用いた形態素解
析や修正者によるチェックによって検出されるが、その
修正や自動訂正を実施するためには、正解候補の含有率
の高い候補抽出を行う必要がある。

従来の訂正候補抽出の手段は種々あった。英語における
スペルチェック手法としては、 J.L.Peterson「“Lecture Notes Computer Science Vo
l.96 Computer Programs for Spelling Correction",Sp
ringer-Verlag社刊1980年発行」に述べられているよう
に、誤り易いスペルと正しいスペルを対で保持して誤り
スペル検出時に正しいスペルに置換する。

英単語に対して正しいスペルから（ｉ）２文字置
換、（ii）１文字挿入、（iii）１文字欠如、（iv）１
文字誤りの各ルールを適用した誤りスペルリストを生成
し正しいスペルを推定する。

の手法があるが、この手法は英文字の字種数が少なく、
かつ候補抽出範囲が単語に閉じている場合に有効な方法
と言える。

また入力装置の誤り属性に応じた訂正候補抽出手法とし
ては漢字OCRでは認識距離に応じた候補、ワープロ入力
では同音異義語の候補、ペンタッチタブレット入力では
拾った文字の周辺文字の候補を抽出するという種々の手
法がある。

しかし日本文文書のような字種数が膨大で分かち書きが
なせれていない文字列での候補抽出には次の問題点があ
る。

字種数が大のため、誤りスペルリスト及び訂正候補
リストのパターンが膨大となるので実際上、候補抽出は
不可能である。

誤字が文節境界に発生して分かち書きが失敗した場
合、単語、文節を超えた候補抽出は困難である。

入力装置の誤り特性が十分解析されていない。また
既に何らかの入力装置によって読み込まれた原文に対す
る汎用的な候補抽出法がない。

（発明の目的）本発明の目的は、誤字を含まない文書を用いて抽出され
るＮ文字の文字列あるいは、これらから選択した特定の
Ｎ文字,N−１文字，…,2文字の文字列における第ｉ番目
（ｉ＝１…ｎ）の文字以外の文字列パターンが等しい場
合の第ｉ番目の文字を訂正候補文字として収集した日本
文訂正候補文字辞書を備え、検出された誤字位置以外の
Ｎ−１文字をキーとしてその辞書を索引して訂正候補を
抽出することによって、字種数、文節境界、誤字数、入
力装置の各誤り特性に依存しない日本文訂正候補文字抽
出装置を提供することにある。

（発明の構成）（発明の特徴と従来の技術との差異）本発明は、訂正候補文字抽出の対象となる文書と同種の
誤字を含まない大量の文書を用いて抽出されるＮ文字の
文字列あるいはこれらから選択した特定のＮ文字,N−１
文字，…,2文字の文字列パターンを抽出し、これらの各
文字列における第ｉ番目（ｉ＝１…Ｎ）の文字以外の文
字列パターンが等しい場合に第ｉ番目の文字を訂正候補
文字として収集した日本文訂正候補文字辞書を予め作成
しておいて、入力装置から入力されて入力日本文データ
ベースの入力誤り、読み取り誤りに基因する誤字を、単
語辞書、文法辞書を用いた形態素解析によって文節レベ
ルの誤字含有域として抽出し、さらに、この誤字含有域
内から文字連接確率辞書を用いて誤字位置を検出した場
合、この誤字位置の文字以外の周辺の文字列パターンを
キーとしてその日本文訂正候補文字辞書を索引し各辞書
から複数の訂正候補文字を抽出することを最も主要な特
徴とする。

従来の技術とは、候補抽出対象の文書と同種の誤字を含まない大量の
文書を用いて日本文訂正候補文字辞書を予め作成するの
で、文書の字種の多さに依存しない。

分かち書きを実施しない日本文文書に対して候補文
字を収集するので、単語、文節を超えた任意の位置での
候補抽出が可能。

入力装置の誤り特性に困らない汎用的な候補抽出が
可能。

の点で異なる。

（実施例）第１図は本発明の基本構成例で、１は漢字OCR、ペンタ
ッチタブレット、キーボード等の入力装置、２は入力あ
るいは読み込みを行う入力処理部、３は入力装置１によ
って読み込まれ、磁気装置に文字コードの形式で記録さ
れている読み取り結果の入力日本文データベース、４は
単語辞書、５は文法辞書、６は単語辞書４および文法辞
書５を用いた形態素解析によって誤字が含まれる文節レ
ベルの誤字含有域を抽出する誤字検出部、７は誤字検出
部６で抽出した誤字含有域内から誤字と見なす文字位置
を検出する位置検出部、８は文字連接確率辞書、９は辞
書10を索引し誤字に対する訂正候補文字を抽出する訂正
候補文字抽出部、10は日本文訂正候補文字辞書、11は訂
正候補文字群から修正者が正字（正解文字）を選択する
訂正候補選択部、12は修正者が操作する修正用端末、13
は修正者により選択されて誤字が救済された日本文文書
データベース、14はCPU/メモリから成る処理装置であ
る。

この方式では入力装置１で読み込んだ読み取り結果であ
る入力日本文データベース３に対して、単語候補抽出、
品詞接続検査等の形態素解析を行う誤字検出部６によっ
て誤字含有域を検出し、さらに文字連接確率辞書８を用
いて誤字位置を検出した後、この誤字位置以外のＮ−１
文字の文字パターンをキーとする日本文訂正候補文字辞
書10を索引することによって訂正候補文字を抽出し、こ
れらの訂正候補文字から修正者が正字を修正用端末12に
よって選択し、誤字の救済を行っている。

日本文訂正候補文字辞書10は、１文字からＮ−１文字の
文字列パターンをキーとしてその訂正候補文字を索引す
る辞書である。以下、Ｎ＝３の場合について説明する
が、それ以上の場合も同様である。

その訂正候補文字辞書は次のように作成される。

予め、処理対象の原文文書と同様で、誤字を含まない大
量の標準文書に対して、先頭から連続する３文字を順に
読み出し、前方２文字あるいは中央を除く前後各１文字
の計２文字あるいは後方２文字が等しいパターンの文字
列についてその他の１文字を訂正候補文字とするよう連
続する３文字の収集を行い、候補を出現頻度の高い順に
並べて日本文訂正候補文字辞書とする。

Ｎ＝３場合、それぞれ前方２文字訂正候補文字辞書、挟
み込み訂正候補文字辞書、後方２文字訂正候補文字辞書
とする。あるいは、収集の際、ある文字を候補とする文
字列やある字種に関する文字列としてN,N−1,N−2,…と
それぞれの長さの文字列に応じた特定の文字列を選択し
て辞書化する。

第２図は訂正候補文字辞書の構成図である。

15は誤字を含まない文書中で訂正候補抽出を行う対象と
なる訂正候補抽出対象文字５文字、16は前記辞書で訂正
候補文字となる文字、17,18,19はそれぞれ前方２文字、
挟み込み、後方２文字訂正候補文字辞書に収録する場合
対象となる３文字f₁,f₂,f₃、20は候補抽出の際に前記辞
書を索引するため用いるキー部２文字、21は訂正候補文
字列、21aは候補文字列の第１位である。

すなわち、対象となる文字列15から前記辞書の対象とす
る３文字のパターン17,18,19をそれぞれ抽出し、辞書毎
にキー部20の等しいグループに訂正候補文字列となる文
字16を候補文字列21として登録する。この候補文字列の
順位は出現頻度に応じて設定する。

第３図は、漢字OCRにおける棄却文字（読み取れなかっ
た文字）に対する候補抽出の実施例である。

22は漢字OCRが読み込んだ文字列、23は棄却文字、24は
原文上の正解文字、25,26,27はそれぞれ前方２文字、挟
み込み、後方２文字訂正候補文字辞書レコード、28,29,
30はその辞書レコード25,26,27のそれぞれのキー部、31
は辞書の索引の結果抽出された訂正候補文字群である。

本例では、棄却文字位置に対して前方２文字28、挟み込
みの２文字29、後方２文字30をそれぞれキーとしてその
辞書レコード25,26,27を索引して、訂正候補文字群31を
抽出する。

この後、修正者は原文を参考に端末等でこれらの候補文
字の中から正字を選択して修正を行う。

第４図は、第１図の構成例での誤字検出部６、誤字位置
検出部７により誤字位置が検出された場合における訂正
候補文字抽出の実施例である。

本例で、32は誤字含有域、33は誤字位置、34は原文上の
正解文字、35は誤字位置検出部７により抽出した誤字位
置候補（本例では２個所）、36,37は誤字位置候補35そ
れぞれに対する候補文字列、38は修正者により選択され
た文字である。

本例では、誤字検出部により検出された誤字含有域32に
対して、文字間の接続確率によって誤字位置候補35を抽
出し、それぞれの位置に対して日本文訂正候補文字辞書
を索引し訂正候補文字36,37を抽出する。

この後、修正者が原文を参考に端末からこれらの訂正候
補文字列より正字38を選択する。

また本実施例では誤字含有域32に複数の誤字が含まれて
いる場合、誤字位置検出部の誤字位置候補に含まれてい
れば、それぞれの誤字位置候補に対する修正候補文字を
抽出することによって複数誤字の修正が可能となる。

このような構造および作用となっていることから、従来
の技術に比べて辞書への収集量を増やすことによって字
種数が大なる日本文文書に適用可能であるほか、２文字
のキーの辞書索引による候補抽出であるから、誤字が文
節境界に発生し分かち書きが正しく行われない場合でも
適用可能である。また１つの誤字含有域に複数の誤字が
混入しても誤字位置候補を複数とり、それぞれについて
候補抽出を行うことによって複数の誤字の救済が可能で
あり、また、入力装置の誤り特性の不明である文書につ
いても適用可能であるとい改善があった。

（発明の効果）以上説明したように、訂正候補文字抽出の対象となる文
書と同種の誤字を含まない大量の文書を用いて抽出され
るＮ文字の文字列、あるいはこれらから選択した特定の
Ｎ文字,N−１文字，…,2文字の文字列における第ｉ番目
（ｉ＝１…Ｎ）の文字以外の文字列パターンが等しく第
ｉ番目の文字を収集した日本文訂正候補文字辞書を予め
作成しておき、入力装置から入力された入力日本文デー
タベースに含まれる誤字を単語辞書、文法辞書を用いた
形態素解析によって誤字含有域として抽出し、さらに文
字連接確率辞書を用いて誤字位置候補を抽出した場合、
誤字候補位置以外の周辺の文字列パターンをキーとして
前記辞書から訂正候補文字を抽出して修正者が端末等で
正字を選択するのであるから、辞書への収集量を増やすことによって字種数が大の
日本文文書の候補抽出が可能。

候補抽出は単語や文節を意識しないのであるから、
誤字が文節境界に発生し、分かち書きが正しく行われな
い場合でも候補抽出が可能。

入力装置の誤り特性が得られない場合でも本装置は
誤字を含まない同種の原文に基づいて作成した辞書を用
いているので、汎用的な候補抽出法である。

という利点がある。

【図面の簡単な説明】

第１図は本発明の基本構成例、第２図は日本文訂正候補
文字辞書、第３図は棄却文字における訂正候補抽出例、
第４図は誤字における訂正候補抽出例をそれぞれ示して
いる。１……入力装置、２……入力処理部、３……入力日本文データベース、４……単語辞書、５……文法辞書、６……誤字検出部、７……誤字位置検出部、８……文字連接確率辞書、９……訂正候補文字抽出部、 10……日本文訂正候補文字辞書、 11……訂正候補選択部、12……訂正用端末、 13……日本文文書データベース、 14……処理装置、 15……訂正候補抽出対象文字、 16……辞書へ収録される訂正候補文字、 17,18,19……前方２文字、挟み込み、後方２文字訂正候
補文字辞書に収録対象となる３文字、 20……辞書のキー部、21……訂正候補文字列、 21a……候補文字列第１位、 22……漢字OCRからの読み取り文字列、 23……棄却文字、24……原文上の正解文字、 25,26,27……訂正候補文字辞書、 28,29,30……キー部、 31……訂正文字候補群、32……誤字含有域、 33……誤字位置、 34……原文上の正解文字、 35……誤字位置候補、 36,37……候補文字列、 38……修正者により選択された文字。

Claims

【特許請求の範囲】

【請求項１】文書入力装置から入力された日本文文書デ
ータベースにおけるその日本文の入力誤りまたは文字認
識誤りによって生じた読み取り棄却文字あるいは誤字に
ついて、単語辞書および文法辞書を用いた形態素解析に
よって誤字が含まれる文節レベルの誤字含有域を抽出す
る誤字検出部と、この誤字含有域から文字間の連接確率によって誤字とみ
なす文字位置を抽出する誤字位置検出部と、予めこれらの日本文文書と同種で誤字を含まない文書を
用いて抽出されるＮ文字の文字列あるいはこれらから選
択した特定のＮ文字,N−１文字，…２文字の文字列にお
ける第ｉ番目（ｉ＝１…Ｎ）の文字以外のパターンが等
しい場合の第ｉ番目の文字を訂正候補文字として収集し
た日本文訂正候補文字辞書と、誤字位置検出部により抽出された誤字位置以外のＮ−１
文字をキーとして日本文訂正候補文字辞書を索引し、誤
字に対する訂正候補文字を抽出する訂正候補文字抽出部
と、抽出された訂正候補文字群から訂正者により正字を選択
する訂正候補選択部とを有する日本文訂正候補文字抽出
装置であって、誤字を含む日本文文書から文節レベルの誤字含有域を抽
出し、この含有域内の誤字位置に対して前後のＮ−１文
字をキーとして日本文訂正候補文字辞書を索引し複数の
訂正候補文字を自動的に抽出する手段を備えることを特
徴とする日本文訂正候補文字抽出装置。