JPH0614376B2 - 日本文誤字自動検出装置 - Google Patents

日本文誤字自動検出装置

Info

Publication number
JPH0614376B2
JPH0614376B2 JP62197936A JP19793687A JPH0614376B2 JP H0614376 B2 JPH0614376 B2 JP H0614376B2 JP 62197936 A JP62197936 A JP 62197936A JP 19793687 A JP19793687 A JP 19793687A JP H0614376 B2 JPH0614376 B2 JP H0614376B2
Authority
JP
Japan
Prior art keywords
character
kanji
word
typographical
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62197936A
Other languages
English (en)
Other versions
JPS6441965A (en
Inventor
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP62197936A priority Critical patent/JPH0614376B2/ja
Publication of JPS6441965A publication Critical patent/JPS6441965A/ja
Publication of JPH0614376B2 publication Critical patent/JPH0614376B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 (1)発明の属する技術分野 本発明は,日本文文書データベース作成のため,入力装
置から読み込まれた漢字かな混じりの日本文文字列に含
まれる誤字の検出を行う日本文誤字自動検出装置に関す
るものである。
(2)従来の技術 新聞記事,出版用原稿,科学技術論文等の多量の日本文
文書を電子ファイル化して日本文文書データベースを作
成する場合,これらの読み取り結果に混入する誤読文字
や誤字を検出する手段としては,単語間の文法的な接続
関係を検定する手法あるいは予め誤り易い誤りパターン
を単語または文字列として登録しておき,パターンのマ
ッチングにより誤字を検出する方法が取られてきた。し
かし漢字複合語に含まれる誤字は前後の文字とは単語を
形成しにくく,1文字の一般名詞や固有名詞等の自立語
となり易く,このためにこれらの誤字を品詞等の文法的
な接続関係を用いた方式で検出することは非常に困難で
あった。また漢字列内のこれらの誤字は前後の文字列と
は結合性が低いため予め誤りのパターンの多くを単語あ
るいは文字列の形で用意することは困難であり,従って
文字列のマッチングによる誤り検出も非常に効率が悪か
った。
(3)発明の目的 本発明の目的は,漢字複合語内に,漢字1文字自立語あ
るいは漢字1文字固有名詞が抽出され,前後文字との文
字連接確率がある足切り値より小さい場合に該当の漢字
1文字を誤字として認定することによって,漢字複合語
に含まれる誤字を自動的に検出する日本文誤字自動検出
装置を提供することにある。
(4)発明の構成 (4−1)発明の特徴と従来の技術との差異 本発明は,単語辞書および文法辞書を用いた形態素解析
によって認定された漢字複合語であって,該漢字複合語
内に漢字1文字自立語あるいは漢字1文字固有名詞が抽
出された場合であって,さらに前後文字との文字連接確
率を文字連接確率辞書より求めて,これがある足切り値
より小さいものである場合に,該当の漢字1文字を誤字
として認定することによって,漢字複合語に含まれる誤
字を自動的に検出することを特徴とする。
従来の技術とは,以下の点で異なる。
(i)誤りのパターンを用いず(併用することを禁止して
はいないが),漢字複合語内の誤字が漢字1文字の自立
語あるいは漢字1文字固有名詞と成り易い特性を使用し
誤字を検出するという非常に簡易な方法を用い処理が容
易である点。
(ii)抽出された漢字1文字の前後の文字との文字連接確
率を調べ,ある足切り値より小さいことを誤字の条件と
して誤検出を削減し誤字の検出精度を高めている点。
(iii)抽出が漢字1文字自立語あるいは漢字1文字固有
名詞の抽出を契機としているので,誤字のほか誤挿,脱
字,置換等の他の種の誤りの検出が可能である点。
において異なる。
(4−2)実施例 第1図は,本発明の基本構成図であり,1は漢字OC
R,ペンタッチタブレツト,キーボード等の入力装置,
2は入力あるいは読み込みを行う入力処理部,3は入力
装置1によって読み込まれ磁気装置に文字コードの形式
で記憶されている読み取り結果の入力日本文データベー
ス,4は単語辞書,5は文法辞書,6は単語辞書4およ
び文法辞書5を用いて単語認定を行う形態素解析部,7
は単語認定結果から複数の漢字列単語の複合語を抽出す
る漢字複合語抽出部,8は漢字複合語抽出部7から漢字
1文字自立語もしくは固有名詞を抽出する誤字侯補抽出
部,9は辞書10を牽引した文字連接触確率を用いて誤
字を認定する誤字認定部,10は文字連接確率辞書,1
1は誤字として認定された文字を修正する修正処理部,
12は人手で修正するための修正用端末,13は誤字救
済された日本文文書データベース,14はCPU/メモ
リから成る処理装置である。
この方式では,入力装置1で読み込み漢字変換を行った
読み取り結果である入力日本文データベース3に対し
て,単語辞書4や文法辞書5を用いた単語候補抽出や品
詞接続検定等の形態素解析を行って(形態素解析部
6),この単語認定結果で複数の漢字列単語から成る複
合語を抽出し(漢字複合語抽出部7),さらにこの中に
漢字1文字自立語もしくは漢字1文字固有名詞が含まれ
る場合には該漢字1文字を誤字侯補とし(誤字侯補抽出
部8),前後の文字列との文字連接確率が予め設定した
ある足切り値(文字連接確率辞書10)より小さいこと
が認定されたく誤字認定部9)時,これを誤字として認
定し人手等の修正手段で修正する(修正処理部11)。
第2図は,第1図の基本構成例において誤字を抽出し認
定した実施例である。ここで,第2図(A),第2図
(B),第2図(C),第2図(D)はそれぞれ誤りが
誤字,誤挿,脱字,置換の各場合に対応した実施例であ
る。本例で,15は誤りを含んだ原文文字列,16は形
態素解析部6において認定された本発明の処理対象とな
る漢字複合語,17は誤字,18は正解文字,20は形
態素解析部6で認定された単語の品詞,19は読み,2
1は漢字1文字自立語となった誤字侯補,22は誤字侯
補21と前後の文字との2文字連接確率値,23は足切
り値10-10以下となった2文字連接確率値,24は誤挿
のため漢字1文字となった文字,25は脱字のため漢字
1文字となった文字,26は置換のため漢字1文字とな
った文字である。第2図(A)では,「壌」に対して誤
字「譲」となっているが,「譲」は単語認定の結果漢字
1文字の一般名詞となり,本処理の対象となる。ここで
は,「土」も同様に処理され誤字認定の対象となる。各
々前後の文字との2文字連接確率の積を求めてみると
「は土」「土譲」「譲な」の2文字連接確率値はそれぞ
れ3.5*10-4,10-7,10-7であるから,「土」「譲」に
ついて3.5*10-11,10-14となり両者とも10-10より小
さいので誤字認定される。この後,修正処理で誤字
「譲」が「壌」に訂正される。
第2図(B)では,「情」が誤挿となっており,単語認
定では漢字1文字自立語となり,さらに「情」の前後の
文字との文字連接確率値の積は1.2*10-11となり10-10
より小さいので誤字認定され,この後,修正処理で誤挿
「情」が削除,訂正される。
第2図(C)では,「整備」の「整」が脱字となってお
り,単語認定では「備」が漢字1文字自立語となり,さ
らに「備」の前後の文字との文字連接確率値の積は10
-14となり10-10より小さいので誤字認定され,この後,
修正処理で脱字「整」が挿入,訂正される。
第2図(D)では,「二回目」で「目回」と置換となっ
ており,単語認定では「二」,「目」,「回」が漢字1
文字自立語となり,前後の文字との文字連接確率値の積
はそれぞれ7.6*10-10,10-14,1.9*10-8となり10
-10より小さい「目」が誤字認定され,この後,修正処
理で置換「目回」が訂正される。
第3図は,第1図の基本構成例において誤字を漢字1文
字固有名詞として抽出し認定した実施例である。ここ
で,27は漢字1文字固有名詞となった誤字である。本
例では,同様に,「民」「律」が,漢字1文字自立語お
よび漢字1文字固有名詞として単語認定され,さらに前
後の文字との文字連接確率値の積は4.9*10-11,10-14
となり10-10より小さいため「民」「律」が誤字認定さ
れ,この後,修正処理で誤字「律」が訂正される。
このような構造および作用となっているから,従来の技
術に比べて,誤りのパターンを用いずとも,漢字1文字
の自立語あるいは漢字1文字固有名詞契機に誤字を検出
するという非常に簡易な方法を用いているために処理が
容易であり、また前後の文字との文字連接確率を調べ,
ある足切り値より小さいことを誤字の条件としているの
で誤検出を削減でき,さらに誤字のほか誤挿,脱字,置
換等の他の種の誤りの検出が可能であり誤りの検出精度
を高めることができるという改善があった。
(5)発明の効果 以上示したように,本発明によれば,単語辞書および文
法辞書を用いた形態素解析によって認定された漢字複合
語であって、該漢字複合語内に漢字1文字自立語あるい
は漢字1文字固有名詞が抽出された場合であって、さら
に前後文字との文字連接確率を文字連接確率辞書より求
めて,これがある足切り値より小さいものである場合
に,該当の漢字1文字を誤字として認定することによっ
て,漢字複合語に含まれる誤字を自動的に検出すること
ができる。このために,誤りのパターンを用いずとも,
漢字1文字の自立語あるいは漢字1文字固有名詞契機に
誤字を検出するという非常に簡易な方法を用いているた
め処理が容易であり,前後の文字との文字連接確率を調
べ,ある足切り値より小さいことを誤字の条件としてい
るので誤検出を削減でき,さらに誤字のほか誤挿,脱
字,置換等の他の種の誤りの検出が可能であり誤りの検
出精度を高めることができるという利点がある。
【図面の簡単な説明】
第1図は本発明の基本構成図,第2図は誤字を抽出し認
定した実施例を示し,第2図(A),第2図(B),第
2図(C),第2図(D)はそれぞれ誤りが誤字,誤
挿,脱字,置換の場合の実施例,第3図は誤字を漢字1
文字固有名詞として抽出し認定した実施例である。 図中1は入力装置,2は入力処理部,3は入力日本文デ
ータベース,4は単語辞書,5は文法辞書,6は形態素
解析部,7は漢字複合語抽出部,8は誤字侯補抽出部,
9は誤字認定部,10は文字連接確率辞書,11は修正
処理部,12は修正用端末,13は誤字救済された日本
文文書データベース,14は処理装置,15は原文文字
列,16は漢字複合語,17は誤字,18は正解文字,
19は読み,20は品詞,21は誤字候補,22は2文
字連接確率値,23は足切り値10-10以下となった2文
字連接確率値,24は誤挿のため漢字1文字となった文
字,25は脱字のため漢字1文字となった文字,26は
置換のため漢字1文字となった文字,27は漢字1文字
固有名詞となった誤字。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文字入力装置から入力された日本文データ
    ベースにおける日本文の誤読文字あるいは誤字について
    誤りを検出する日本文誤字自動検出装置において, 単語辞書と文法辞書とを用いて形態素解析によって単語
    認定を行う形態素解析部と, 単語認定された結果から複数の漢字列単語から成る複合
    語を抽出する漢字複合語抽出部と, 該漢字複合語の単語認定結果から漢字1文字の漢字自立
    語もしくは漢字1文字固有名詞を抽出する誤字候補抽出
    部と, 予め抽出したN文字のパターンに関する出現頻度情報に
    基づいて,予め算定された各N文字の文字連接確率情報
    を各N文字をキーとして保持する文字連接確率辞書と, その文字連接確率辞書を用いて誤字検出部で抽出した漢
    字1文字漢字を誤字として認定する誤字認定部と, 検出された誤字に対して訂正者が修正を行う修正処理部
    とをそなえ, 入力文の形態素解析の結果,複数の漢字列単語より成る
    複合語内で上記誤字検出部により漢字1文字の自立語あ
    るいは固有名詞が抽出された場合に,該当の漢字1文字
    の前後の文字との文字連接確率を文字連接確率辞書を用
    いて求め,ある足切り値より小さい時に当該漢字1文字
    を誤字として自動的に検出するようにしたことを特徴と
    する日本文誤字自動検出装置。
JP62197936A 1987-08-07 1987-08-07 日本文誤字自動検出装置 Expired - Lifetime JPH0614376B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62197936A JPH0614376B2 (ja) 1987-08-07 1987-08-07 日本文誤字自動検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62197936A JPH0614376B2 (ja) 1987-08-07 1987-08-07 日本文誤字自動検出装置

Publications (2)

Publication Number Publication Date
JPS6441965A JPS6441965A (en) 1989-02-14
JPH0614376B2 true JPH0614376B2 (ja) 1994-02-23

Family

ID=16382757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62197936A Expired - Lifetime JPH0614376B2 (ja) 1987-08-07 1987-08-07 日本文誤字自動検出装置

Country Status (1)

Country Link
JP (1) JPH0614376B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193356A (ja) * 2008-02-14 2009-08-27 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体

Also Published As

Publication number Publication date
JPS6441965A (en) 1989-02-14

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
Chaudhuri et al. OCR error detection and correction of an inflectional indian language script
JPH0614376B2 (ja) 日本文誤字自動検出装置
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
JP3274014B2 (ja) 文字認識装置および文字認識方法
JP3470927B2 (ja) 自然語解析方法及び装置
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JPS6394365A (ja) 日本文文書誤り検定装置
JPH03156589A (ja) 誤読文字の検出,修正方法
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JPS6394364A (ja) 日本文誤字自動修正装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2939945B2 (ja) ローマ字住所認識装置
JPS6382542A (ja) 日本文訂正候補文字抽出装置
JPS6160189A (ja) 光学的文字読取装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
JP2592993B2 (ja) 文節切り出し装置
JPH0589281A (ja) 誤読修正・検出方法
JPH0752445B2 (ja) 日本文誤り自動検出装置
JPH06149872A (ja) 文章入力装置
JPH01281561A (ja) 日本文訂正候補文字抽出方法
JPH02118785A (ja) 誤認識修正方法及び装置
Oo N Gram Based Spelling Checker for Myanmar Noun Words
JPH0869467A (ja) 日本語文書処理装置
JPS6358570A (ja) 日本文誤字自動検出方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080223

Year of fee payment: 14