JPH0634253B2 - 誤読文字訂正処理装置 - Google Patents

誤読文字訂正処理装置

Info

Publication number
JPH0634253B2
JPH0634253B2 JP61094624A JP9462486A JPH0634253B2 JP H0634253 B2 JPH0634253 B2 JP H0634253B2 JP 61094624 A JP61094624 A JP 61094624A JP 9462486 A JP9462486 A JP 9462486A JP H0634253 B2 JPH0634253 B2 JP H0634253B2
Authority
JP
Japan
Prior art keywords
character
candidate
similar
characters
candidate character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61094624A
Other languages
English (en)
Other versions
JPS62251986A (ja
Inventor
利明 杉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ENU TEI TEI DEETA TSUSHIN KK
Nippon Telegraph and Telephone Corp
Original Assignee
ENU TEI TEI DEETA TSUSHIN KK
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ENU TEI TEI DEETA TSUSHIN KK, Nippon Telegraph and Telephone Corp filed Critical ENU TEI TEI DEETA TSUSHIN KK
Priority to JP61094624A priority Critical patent/JPH0634253B2/ja
Publication of JPS62251986A publication Critical patent/JPS62251986A/ja
Publication of JPH0634253B2 publication Critical patent/JPH0634253B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、漢字のように字形が複雑な文字を光学的ま
たは音響的に認識する文字認識装置において、あらかじ
め用意した類似文字テーブルと単語辞書,文法辞書等の
言語情報を用いて、認識結果の中の誤読文字(認識結果
の第1位の候補文字が正解でない場合)を訂正する誤読
文字訂正処理装置に関するものである。
〔従来の技術〕
漢字認識(以下、光学的な漢字読み取りについて述べ
る)においては、膨大な字種と筆記者や字体によって様
々に変形する文字を認識対象とするため、高い精度で文
字を読み取ることが困難である。そこで、高い読み取り
精度を実現する方法として、入力文字列に対応する候補
文字集合の列から組み合わせて作られる文字列と、単語
辞書とを比較して、一致する単語を入力文字列の答えと
する、リジエクト文字・誤読文字の訂正の手法が提案さ
れている。
〔発明が解決しようとする問題点〕
しかし、従来の手法では、候補文字数が適当に限定され
た認識部からの候補文字集合について、単語辞書との照
合を行うために、この候補文字集合に正解が含まれてい
ない場合は、誤読文字が正しく訂正できないという欠点
を持っていた。
この発明は、認識部から出力された候補文字集合に正解
が含まれない場合においても誤読文字の訂正を可能と
し、訂正能力を向上させた誤読文字訂正処理装置を提供
することを目的とするものである。
〔問題点を解決するための手段〕
この発明にかかる誤読文字訂正処理装置は、入力文字を
光学的または音響的に認識して得られた候補文字をもと
に候補文字の組み合せについて日本語知識を利用して入
力文字を特定する誤読文字訂正処理装置において、 1つの入力文字毎に入力文字パターンと字形が類似した
1つまたは複数の候補文字と、該候補文字と入力文字パ
ターンとの距離値とを組にした候補文字集合を出力する
認識部と、 検索対象文字毎に1つまたは複数の類似文字と、検索対
象文字に対応する個々の該類似文字について検索対象文
字との混同のされやすさを示す指標値とを組にして保持
する類似文字テーブルと、 前記認識部から出力された候補文字集合の各々の候補文
字について前記類似テーブルを検索し、対応する類似文
字を求めて、該求めた類似文字の中で混同のされやすさ
を示す指標値がしきい値条件を満足するものを前記候補
文字集合に追加し前記候補文字として出力する候補文字
選択部と、 からなるものである。
〔作用〕
この発明は、漢字読取り装置の認識部から出力された候
補文字集合に、候補文字選択部で類似文字テーブルで求
めた正解の可能性のある類似文字を追加し、以後は公知
の単語,文節,構文等の日本語知識を利用して入力文字
を特定する。
〔実施例〕
第1図はこの発明の一実施例の構成を示すブロック図で
あり、10は制御部、11は前記制御部10と各部との
結線、20は走査部、30は認識部、40は候補文字選
択部、50は類似文字テーブル、41は前記認識部30
と候補文字選択部40との結線、42は前記候補文字選
択部40と類似文字テーブル50との結線、60は文節
抽出部、70は単語辞書、80は文法辞書、61は前記
候補文字選択部40と文節抽出部60との結線、62は
前記文節抽出部60と単語辞書70との結線、63は前
記文節抽出部60と文法辞書80との結線、90は最尤
候補選択部、91は前記文節抽出部60と最尤候補選択
部90との結線、92は出力線である。
はじめに、全体の動作について説明する。まず、制御部
10の指令により、走査部20は帳票上の文字を走査
し、光電変換して得られる画像信号を認識部30に転送
する。認識部30は、制御部10の指令により、入力文
字の字形と各文字の標準字形との距離を計算し、距離の
小さい順に(字形の似ている順に)並んだ候補文字と距
離値からなる集合を候補文字選択部40に出力する。
候補文字選択部40は、制御部10の指令により、候補
文字と距離値の集合について、各候補文字の距離値がし
きい値内にあるかを判定し、条件を満足する候補文字と
距離値の部分集合を求める。次に、この部分集合の各候
補文字について、対応する類似文字を類似文字テーブル
50(後述する第3図参照)を検索して求め、これを上
記の部分集合に追加して候補文字と距離値の新しい集合
を作り文節抽出部60に出力する。
文節抽出部60は、1行分の候補文字と距離値の集合の
列が送出されてきた時点で、制御部10の指令により、
この候補文字の集合の列から組み合わせて作られる文字
列について、単語辞書70(後述する第4図参照)を検
索して単語辞書70に存在するものを、自立語・付属語
として抽出する。次に、この抽出された各自立語・付属
語について文法辞書80(後述する第5図参照)を検索
して、それぞれが接続可能かを調べ、接続可能な自立語
と付属語の列を文節候補として抽出する。さらにこの文
節候補を構成する候補文字の距離値の和を求めて文節候
補の距離値とし、以上で求めた文節候補と文節候補の距
離値の集合(後述する第7図参照)を最尤候補選択部9
0に出力する。
最尤候補選択部90は、1行分の文節候補と文節候補の
距離値の集合が送出されてきた時点で、制御部10の指
令により、文節候補の集合の各文節候補の組み合わせか
ら作られる文節候補列の中から、文節候補が文頭から文
末(句読点等の区切り記号が存在するところまで)まで
連続している文節候補列を、文構成可能な文節候補列と
して求める。
次に、この文構成可能な各文節候補列について、これに
含まれる文節候補の数と文節候補の距離値の総和を求
め、この文節候補の数と文節候補の距離値の総和から求
めた評価値(例えば、第1の定数×文節候補の数+第2
の定数×文節候補の距離値の総和)の小さい順に、文節
候補列(後述する第8図参照)を出力線92に出力す
る。
第2図は認識部30から出力される認識結果としての候
補文字と距離値の集合の例を説明した図である。C
はi番目の候補の候補文字と距離値をそれぞれ示し
ている。nは認識部から出力される候補文字の個数であ
る。
第3図は類似文字テーブル50の例を説明した図であ
る。類似文字テーブル50は認識部30の統計的な認識
の性質を示したもので、どの文字がどの文字にどれくら
いの確からしさで混同されるかを表しており、認識結果
を類似文字について統計的に集計して得ることができ
る。図において、対応する類似文字の欄の記載を一般式
で示すと、P(C′|C)となり、Cが認識部30から
出力された候補文字である時に、C′が正解である確率
を示す条件付確率を示している。例えばキー文字が
「し」のとき対応する類似文字は「し」,「レ」,
「L」の順となる。たゞし、「し」はキー文字そのもの
である。
第4図は単語辞書70の例を説明した図である。単語の
表記と品詞、頻度、分野等の単語に関する情報が収容さ
れている。
第5図は文法辞書80の例を説明した図である。文法辞
書80は、文節を構成する単語列を認定するのに必要な
文法規則として、どの付属部がどの自立語に接続可能
か、どの付属語がどの付属語に接続可能か、どの付属語
かどの自立語のどの活用形に接続可能か等の文節内の単
語間の接続規則を収容している。
第6図は候補文字選択部40から出力された候補文字と
距離値の集合の列の例を示したものである。〇で囲まれ
たものが、追加された類似文字である。
第7図は文節抽出部60から出力された文節候補の集合
の例である。第5図で示した文法辞書80の接続規則を
満足する文節候補が抽出されている。
第8図は最尤候補選択部90から出力された文構成可能
な文節候補列の例を説明した図であり、誤読文字が訂正
された様子が示されている。
第9図は候補文字選択部40の構成を示したもので、1
1は前記制御部10との結線、400は候補文字選択制
御部、410は候補文字格納Aレジスタ、420は比較
回路、430は候補文字格納Bレジスタ、440は検索
回路、450は類似文字格納レジスタ、460はマージ
回路、470は比較回路、41は前記認識部30と候補
文字格納Aレジスタ410との結線、42は前記検索回
路440と類似文字テーブル50との結線、61は前記
マージ回路460と文節抽出部60との結線である。
次に、第9図の候補文字選択部40の動作について説明
する。入力文字に対する候補文字と距離値の集合が、認
識部30から候補文字格納Aレジスタ410に送出され
てくる。候補文字選択制御部400は、制御部10の指
令により、候補文字格納Aレジスタ410に格納されて
いる各候補文字について、その距離値がしきい値内にあ
るかを比較回路420で調べて、条件を満足する候補文
字と距離値を候補文字格納Bレジスタ430に送る。こ
の時、各候補文字の距離値の条件判定は、例えば次のよ
うに行われる。候補文字と距離値の集合S0を S0={(C,D),(C,D),…,
(C,D)} とする。Dは第1位の候補文字Cの距離値であり、
は第位の候補文字Cの距離値である。
条件判定は、各候補文字について D−D<しきい値1 (D−D)÷D<しきい値2 を満足するかを調べることで行われる。これを満足する
部分として S1={(C,D),(C,D),…,
(C,D)} (ただし、m≦nとする) が候補文字格納Bレジスタ430に送られる。
次に、候補文字選択制御部400は、候補文字格納Bレ
ジスタ430の候補文字集合を検索回路440に送る。
検索回路440は各候補文字をキーとして類似文字テー
ブル50を検索し、求まった類似文字を比較回路470
に送る。比較回路470は、各類似文字に対して、類似
文字に付随している条件付確率があるしきい値内にある
かを調べて、条件を満たすものを候補文字格納レジスタ
450へ送る。この時、類似文字の条件付確率がしきい
値内にあるかの条件判定は、例えば次のように行われ
る。
P(C′|C)を、類似文字テーブル50において、C
がキー文字である時にC′が正解である確率を示す条件
付確率とすれば、条件判定は、各類似文字C′につい
て、 P(C′|C)>しきい値3 を満足するかを調べることで行われる。これを満足する
類似文字の集合として S2={(C′,D′),(C′,
′),…(C′,D′)} が類似文字格納レジスタ450に送られる。
次に、マージ回路460は、候補文字選択制御部400
の指令により、類似文字格納レジスタ450の類似文字
集合の中で候補文字格納Bレジスタ430の候補文字集
合に含まれていない類似文字を、候補文字格納Bレジス
タ430の候補文字集合に追加し、文節抽出部60へ出
力する。
なお、この発明は、音声認識による日本語入力装置にも
適用でき、またこの発明の文節抽出部60を単語照合に
変えれば、単語単位に書かれた帳票の入力についても適
用できることは言うまでもない。
〔発明の効果〕
以上説明したように、この発明によれば、類似文字テー
ブルが類似文字と、類似文字毎に検索キー文字との混合
されやすさの指標値とが組にして保持されており、認識
部から出力された認識結果の候補文字集合に類似文字テ
ーブルで求めた正解の可能性のある類似文字を追加し
て、累積正解率を向上させてから、その結果について、
単語,文節,構文等の日本語知識を利用して入力文字を
特定する公知の手段により文節抽出、最尤候補選択を行
うようにしたので、認識部からの候補文字集合に正解が
含まれていない場合においても、誤読文字の訂正を可能
とし訂正能力を向上できる利点がある。
【図面の簡単な説明】
第1図はこの発明の一実施例の構成を示すブロック図、
第2図は候補文字と距離値の集合を説明する図、第3図
は類似文字テーブルの例を示す図、第4図は単語辞書の
例を示す図、第5図は文法辞書の例を示す図、第6図は
候補文字選択部から出力された候補文字集合の列の例を
示す図、第7図は文節抽出部から出力された文節候補の
集合の例を示す図、第8図は最尤候補選択部から出力さ
れた文構成可能な文節候補の列の例を示す図、第9図は
候補文字選択部の一実施例の構成を示すブロック図であ
る。 図中、10は制御部、11は制御部と各部との結線、2
0は走査部、30は認識部、40は候補文字選択部、5
0は類似文字テーブル、41は認識部と候補文字選択部
との結線、42は候補文字選択部と類似文字テーブルと
の結線、60は文節抽出部、61は候補文字選択部と文
節抽出部との結線、62は文節抽出部と単語辞書との結
線、63は文節抽出部と文法辞書との結線、70は単語
辞書、80は文法辞書、90は最尤候補選択部、91は
文節抽出部と最尤候補選択部との結線である。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】入力文字を光学的または音響的に認識して
    得られた候補文字をもとに候補文字の組み合せについて
    日本語知識を利用して入力文字を特定する誤読文字訂正
    処理装置において、 1つの入力文字毎に入力文字パターンと字形が類似した
    1つまたは複数の候補文字と、該候補文字と入力文字パ
    ターンとの距離値とを組にした候補文字集合を出力する
    認識部と、 検索対象文字毎に1つまたは複数の類似文字と、検索対
    象文字に対応する個々の該類似文字について検索対象文
    字との混同のされやすさを示す指標値とを組にして保持
    する類似文字テーブルと、 前記認識部から出力された候補文字集合の各々の候補文
    字について前記類似テーブルを検索し、対応する類似文
    字を求めて、該求めた類似文字の中で混同のされやすさ
    を示す指標値がしきい値条件を満足するものを前記候補
    文字集合に追加し前記候補文字として出力する候補文字
    選択部と、 を有することを特徴とする誤読文字訂正処理装置。
  2. 【請求項2】候補文字選択部は、認識部から出力された
    候補文字集合の各々の候補文字について、各候補文字に
    対応する距離値が、(D−D)/D<T(ただし、D
    :候補文字iと入力文字パターンとの距離値、D:候
    補文字と入力文字パターンとの距離の最小値、T:しき
    い値)の条件を満足する候補文字からなる部分候補文字
    集合を求め、この部分候補文字集合の候補文字について
    類似文字テーブルを検索し、対応する類似文字を求め、
    該求めた類似文字の中で混同のされやすさを示す指標値
    がしきい値条件を満足するものを前記部分候補文字集合
    に追加して候補文字集合とし、この候補文字集合の文字
    を前記候補文字として出力するものであることを特徴と
    する特許請求の範囲第(1)項記載の誤読文字訂正処理装
    置。
JP61094624A 1986-04-25 1986-04-25 誤読文字訂正処理装置 Expired - Lifetime JPH0634253B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61094624A JPH0634253B2 (ja) 1986-04-25 1986-04-25 誤読文字訂正処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61094624A JPH0634253B2 (ja) 1986-04-25 1986-04-25 誤読文字訂正処理装置

Publications (2)

Publication Number Publication Date
JPS62251986A JPS62251986A (ja) 1987-11-02
JPH0634253B2 true JPH0634253B2 (ja) 1994-05-02

Family

ID=14115412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61094624A Expired - Lifetime JPH0634253B2 (ja) 1986-04-25 1986-04-25 誤読文字訂正処理装置

Country Status (1)

Country Link
JP (1) JPH0634253B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07122890B2 (ja) * 1987-11-19 1995-12-25 富士通株式会社 分離文字処理機能を持つ文書リーダ装置
JP2529421B2 (ja) * 1989-11-21 1996-08-28 株式会社日立製作所 文字認識装置
JPH06251204A (ja) * 1993-02-26 1994-09-09 Nec Corp 文字認識装置
JP2734386B2 (ja) * 1994-12-20 1998-03-30 日本電気株式会社 文字列読み取り装置
JPH0962794A (ja) * 1995-08-24 1997-03-07 Fujitsu Ltd 文書認識装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5932080A (ja) * 1982-08-16 1984-02-21 Nippon Telegr & Teleph Corp <Ntt> 文字パタ−ンの認識処理方式
JPS59201181A (ja) * 1983-04-28 1984-11-14 Toshiba Corp 後処理装置

Also Published As

Publication number Publication date
JPS62251986A (ja) 1987-11-02

Similar Documents

Publication Publication Date Title
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
US7142716B2 (en) Apparatus for searching document images using a result of character recognition
EP0844583A2 (en) Method and apparatus for character recognition
US5270927A (en) Method for conversion of phonetic Chinese to character Chinese
CN112489626B (zh) 一种信息识别方法、装置及存储介质
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Lehal et al. A shape based post processor for Gurmukhi OCR
Lehal et al. A post-processor for Gurmukhi OCR
JPH0634253B2 (ja) 誤読文字訂正処理装置
JP3309174B2 (ja) 文字認識方法及び装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH10269204A (ja) 中国語文書自動校正方法及びその装置
JP2939945B2 (ja) ローマ字住所認識装置
JP2008249761A (ja) 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
JPH09185674A (ja) 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
JPH0614375B2 (ja) 文字入力装置
JP2003178260A (ja) データ処理方法
JP2997151B2 (ja) 漢字変換装置
KR100564742B1 (ko) 문자의 음성변환장치 및 방법
JPS62180462A (ja) 音声入力かな漢字変換装置
JP2004272396A (ja) 文字認識装置、文字認識方法、文字認識プログラム、及び記録媒体
JPH0589281A (ja) 誤読修正・検出方法