JPH06282680A - 文字認識処理装置 - Google Patents

文字認識処理装置

Info

Publication number
JPH06282680A
JPH06282680A JP5090815A JP9081593A JPH06282680A JP H06282680 A JPH06282680 A JP H06282680A JP 5090815 A JP5090815 A JP 5090815A JP 9081593 A JP9081593 A JP 9081593A JP H06282680 A JPH06282680 A JP H06282680A
Authority
JP
Japan
Prior art keywords
character
recognition
characters
same
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5090815A
Other languages
English (en)
Inventor
Yoshitaka Hamaguchi
佳孝 濱口
Sadamasa Hirogaki
節正 広垣
Naohiro Amamoto
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP5090815A priority Critical patent/JPH06282680A/ja
Publication of JPH06282680A publication Critical patent/JPH06282680A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文字認識結果の中から、認識誤りの発生する
率の高い文字を適切に選び出し、オペレータの注意を促
すために特殊表示を行うようにした。 【構成】 文書イメージ1を読み取り、その各文字パタ
ーンを認識処理すると共に、認識結果が同一な文字につ
いて、相互に文字パターンの比較、例えばこれらの特徴
量をそのまま比較する。同一文書では各文字は同一の字
体を採用し、同一文字は特徴量がよく一致する。従っ
て、認識結果が同じであるにも関わらず文字パターンが
異なる文字を認識誤りの可能性が大きいものとして特殊
表示する。特殊表示は、オペレータが容易に見分けられ
るような、文字の着色や高輝度表示等とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書イメージを読み取
り、その文書を構成する文字の認識を行うと共に認識結
果をオペレータに表示して、認識誤りの修正処理等を促
す機能を持つ文字認識処理装置に関する。
【0002】
【従来の技術】情報処理装置に、文書等に記載された大
量の情報を入力するために、文字認識処理装置が使用さ
れる。この文字認識処理装置は、文書イメージを光学的
に読み取り、文書を構成する各文字を認識して文字コー
ドに変換する。この認識処理結果として得られた文字コ
ードは、メモリ等に格納され各種の処理に利用される。
【0003】図2に、従来の文字認識処理フローチャー
トを示す。文字認識処理は、具体的には、この図に示す
ような手順により行われる。まずステップS1におい
て、文書イメージの読み取りが行われる。こうして読み
取られたイメージデータから、ステップS2において文
字パターンの切り出しが行われる。即ち、これにより1
文字分ずつの文字パターンを装置で取り込み、その認識
処理を実行する。ステップS3において、この文字パタ
ーンの特徴量が抽出される。次にステップS4におい
て、予めメモリ等に保存してある標準パターンの特徴量
と実際に切り出された文字パターンの特徴量とを比較す
る。ステップS5において、この比較の結果、特徴量の
距離が最小の文字コードを選択する。このようにして文
字認識が実行されるが、実際にはこのような文字認識処
理においてある程度の割合で認識誤りが発生する。従っ
て、その認識結果はディスプレイ等に表示され、オペレ
ータが文書イメージとの照合を行って、認識誤り文字を
正しい文字に変換するような作業も実行される。
【0004】しかしながら、このような処理は比較的煩
雑でオペレータに対する負担も大きい、そこでこの作業
を容易にするために次のような処理が実行される。まず
ステップS6において、標準パターンと認識対象となる
文字パターンとの特徴量の比較により、その距離が一定
値以下かどうかが判断される。即ち、標準パターンと特
徴量が非常によく一致する場合には文字認識誤りの確率
が低いものとし、それ以外の場合、文字認識誤りの確率
が高いと判断する。そして、認識誤りの確率が低いもの
についてはステップS7に移り、ディスプレイに対し通
常の認識結果がそのまま表示される。一方、文字認識誤
りの確率の高いものと判断された場合には、ステップS
8に移り、その文字について特殊表示が行われる。即
ち、例えばその文字については、ブリンク表示、異色表
示あるいは高輝度表示等によって他の文字と区別できる
ような表示を行う。上記のような表示を行った後、オペ
レータは認識誤りの発生した文字の修正などの後処理
(ステップS9)を実行する。
【0005】図3に、従来の特殊表示方法の説明図を示
す。例えば、文書イメージ1に図に示すような文字2が
記載されていたとする。そして、この文字「littl
e」を認識した結果はディスプレイ3に表示される。こ
の認識結果表示4によれば、上記文字「little」
は「tittle」という状態に認識されている。ここ
で、上記特徴量の比較結果を考慮すると、この文字の第
1番目の文字は「t」と認識したものの、その特徴量の
距離が大きいことから、ここでは例えば、この部分を白
黒反転させるような特殊表示5によって他の文字と区別
し、オペレータの注意を促すようにしている。これによ
って、オペレータは認識誤りのおそれの高い部分を容易
に見つけ、修正処理などを迅速に行うことができる。な
お、上記のような技術は、例えば特公平3−40429
号公報に記載されている。
【0006】
【発明が解決しようとする課題】ところで、文書イメー
ジを構成する入力文字の文字パターンは、必ずしもその
文字を認識するための辞書に登録された文字パターンと
同じ字体であるとは限らない。例えば、辞書に登録され
た文字パターンはゴシック体であるのに対し、認識対象
となる文書が明朝体で記載されているような場合もあ
る。このような場合、文字認識の際に標準パターンと読
み取り文字との特徴量を比較すると、比較的両者の距離
が大きくなる場合がある。従って、極端な場合には、認
識結果が正しいにも関わらず非常に多くの文字が特徴量
の差が大きいと判断され、図3に示すような特殊表示が
行われてしまう。この場合には、認識誤りが無いものも
認識誤りのおそれがあるものも特殊表示が行われる結
果、本来の認識誤り修正作業を困難にし、作業効率の低
下を招く原因となっていた。
【0007】本発明は以上の点に着目してなされたもの
で、認識結果の中から認識誤りである確率の高い文字を
適切に選び出し、オペレータの注意を促すために特殊表
示を行うようにした文字認識処理装置を提供することを
目的とするものである。
【0008】
【課題を解決するための手段】本発明の文字認識処理装
置は、文書イメージを読み取り、前記文書を構成する各
文字パターンを切り出して文字を認識し処理する認識部
と、前記認識結果が同一となった各文字の前記文字パタ
ーンを比較して、類否判断をする文字パターン比較部
と、前記文字パターン比較部の類否判断結果より、認識
誤りの可能性の高い文字の認識結果を他の文字の認識結
果と区別して表示する認識結果表示部とを備えたことを
特徴とするものである。
【0009】
【作用】この装置は、文書イメージを読み取り、その各
文字パターンを認識処理すると共に、認識結果が同一な
文字について、今度は相互に文字パターンの比較、例え
ばこれらの特徴量をそのまま比較する。同一文書では各
文字は同一の字体を採用し、同一文字は特徴量がよく一
致する。従って、認識結果が同じであるにも関わらず文
字パターンが異なる文字を認識誤りの可能性が大きいと
して特殊表示する。
【0010】
【実施例】以下、本発明を図の実施例を用いて詳細に説
明する。図1は、本発明の文字認識処理装置実施例を示
すブロック図である。この装置は、文書イメージ1を構
成する各文字パターンを切り出して文字を認識処理する
ために、認識部11、認識結果格納部12、文字パター
ン格納部13、文字パターン比較部14及び認識結果表
示部15を備えている。認識部11は、文書イメージ1
から各文字パターンを切り出して図示しない辞書と照合
し、文字を認識して文字コードに変換する部分である。
認識結果格納部12は、認識部11の認識結果を格納し
ておくメモリ等から構成される。
【0011】文字パターン格納部13は、認識部11で
認識処理に使用した各文字の特徴量を格納しておくメモ
リ等から構成される。文字パターン比較部14は、認識
結果格納部12において認識結果が同一となった文字の
文字番号22とその文字パターン21とを文字パターン
格納部13から読出し、認識された文字相互の文字パタ
ーンを比較する部分である。なお、文字番号とは認識し
た順番に各文字に付した一連番号である。ここでは、認
識結果23が「t」と認識された文字についてその文字
パターン比較を行う例が示してある。認識結果表示部1
5は、上記の文字パターン比較部14により類否判断が
行われた結果、認識誤りの可能性の高い文字について、
その文字を他の文字と区別する特殊表示5を行って表示
するためのディスプレイ等から構成される。
【0012】以下、本発明を更に具体的に説明する。ま
ず、認識部11は文書イメージ1から、予め1文字毎の
文字パターンを切り出す。そして、文字認識を効率よく
行えるように文字パターンを整える。これは雑音を除去
したり、文字サイズを標準パターンのサイズに揃えたり
する処理から成る。更に、認識部11は、各文字の文字
パターンから特徴量を抽出し、予め用意された辞書にあ
る標準文字パターンの特徴量と比較する。そして、両者
の距離を計算し距離の近い、即ち類似度の高い順に候補
文字を列挙する。こうして認識された結果は、図示しな
い単語辞書等と単語単位に比較され、部分的な文字認識
の誤り等が自動的に後処理され修正される。また、この
ような単語照合によっても認識結果を確定できないよう
な場合には、候補文字の優先順位を適当に変更したり、
あるいは新たな候補文字を追加するといった処理が実行
され、オペレータの修正に委ねる。本発明の装置はこの
ような後処理の前段でも、後処理の途中でも、また後処
理の後でも任意の段階で使用できる。
【0013】図4に、文字認識処理例説明図を示す。例
えば、文字パターンが図に示すように「little」
や「better」であるとする。この場合に、各文字
パターンにはそれぞれ認識された順番に文字番号がつけ
られる。例えば、この図の例では1番から12番まで文
字番号が付けられている。なお、この図には各文字パタ
ーンの下に、それぞれその認識結果が表示されている。
この認識結果は、図1に示す認識結果格納部12に格納
され、文字パターンの特徴量は文字パターン格納部13
に格納される。また、それぞれ文字パターンや認識結果
は文字番号と対応させて格納されている。文字パターン
比較部14においては、このような文字をその認識結果
に着目して類否判断を行う。
【0014】図5に、文字パターン比較例説明図を示
す。例えば、図に示すように、図4の認識結果を同一認
識結果が得られたものごとに整理してまとめると、b、
e、i、l、r、tのようになる。例えば認識結果がb
となった文字パターンは文字番号が7番目の文字となっ
ている。また、認識結果がeとなった文字は、文字番号
が6番、8番、11番の3文字となる。ここで、例えば
この文字番号が6番、8番、11番の各文字パターンの
特徴量を相互に比較する。同一文書内では、通常同一の
字体が採用されるため、この3個の文字の特徴量を比較
した場合非常によく一致するはずである。従って、この
ような時には、たとえ標準特徴量との差が比較的大きい
場合であっても、文字の認識結果が正しいものと判断す
る。
【0015】一方、例えば図5の認識結果が「t」とさ
れた5個の文字について考える。この5個の文字はそれ
ぞれ文字番号が1、3、4、9、10番のものとなって
いる。ここで、これらの文字の文字パターンの特徴量を
比較した場合、この例では1番目の文字番号の文字パタ
ーンは他の文字パターンと相違する。従って、文字パタ
ーン比較部14は、そのような結果に基づき認識結果表
示部15への認識結果の表示方法を、該当する文字が他
の文字と区別できるように特殊表示する。即ち、文字番
号1番の文字「1」を異色表示やブリンク表示させる。
なお、上記のような文字パターンの比較処理を行う場合
には、各文字パターンは大きさや縦横比等を調整し、あ
るいは不要なノイズ等を除去する処理を予め行うように
する。これは通常の文字認識処理で行うのと同様であ
る。
【0016】また、認識結果が同一の文字パターンを比
較した場合、予め設定した距離とこの比較結果により得
られた距離とを比べて、一定以上距離が離れている場合
に上記のような特殊表示を行うものとする。従って、図
1に示すように、認識結果「tittle」の中で文字
番号が1番の「t」という文字のみがブリンク表示、異
色表示、あるいは高輝度表示等で他の文字から区別でき
るような表示に切り替えられる。なお、このような特殊
表示は、実際には認識結果が得られた後、文字パターン
比較部の処理が終了した後で実行されるようにしてもよ
い。
【0017】本発明は以上の実施例に限定されない。同
一の認識結果が得られた文字の比較方法や、比較対象文
字パターンが相互に類似しているかどうかの判断方法
は、従来よく知られた各種の方法に置き換えて差し支え
ない。なお、本発明はこの類否判断を、標準文字パター
ンと読み取られた文字パターンとの間で行うのではな
く、同一文書中に記載された文字相互間で行う点に特徴
がある。これによって、標準辞書と認識対象となる文書
イメージに用いられている文字との字体が異なったよう
な場合においても、容易に確実に誤認識の対象となる文
字を選択し、特殊表示を行うことができる。また、上記
実施例は英語を用いて説明したが、他の日本語等の言語
においても同様の処理が可能である。
【0018】
【発明の効果】以上説明した本発明の文字認識処理装置
は、文書を構成する文字パターンを辞書と照合し文字認
識を行うと共に、その認識結果が同一となった各文字パ
ターンを相互に直接比較して類否判断し、その結果他の
文字と類似しておらず認識誤りの可能性の高い文字につ
いて認識結果表示部へ特殊表示を行うようにしたので、
認識対象となる文書イメージの字体と認識部の有する標
準文字パターンの字体とが異なるような場合において
も、安定な認識誤りの修正作業等を実行することができ
る。従って、オペレータによる認識文字誤りの修正作業
をより簡便にし効率化することが可能となる。
【図面の簡単な説明】
【図1】本発明の文字認識処理装置実施例を示すブロッ
ク図である。
【図2】従来の文字認識処理フローチャートである。
【図3】従来の特殊表示方法説明図である。
【図4】文字認識処理例説明図である。
【図5】文字パターン比較例説明図である。
【符号の説明】
1 文書イメージ 11 認識部 12 認識結果格納部 13 文字パターン格納部 14 文字パターン比較部 15 認識結果表示部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文書イメージを読み取り、前記文書を構
    成する各文字パターンを切り出して文字を認識し処理す
    る認識部と、 前記認識結果が同一となった各文字の前記文字パターン
    を比較して、類否判断をする文字パターン比較部と、 前記文字パターン比較部の類否判断結果より、認識誤り
    の可能性の高い文字の認識結果を他の文字の認識結果と
    区別して表示する認識結果表示部とを備えたことを特徴
    とする文字認識処理装置。
JP5090815A 1993-03-25 1993-03-25 文字認識処理装置 Pending JPH06282680A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5090815A JPH06282680A (ja) 1993-03-25 1993-03-25 文字認識処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5090815A JPH06282680A (ja) 1993-03-25 1993-03-25 文字認識処理装置

Publications (1)

Publication Number Publication Date
JPH06282680A true JPH06282680A (ja) 1994-10-07

Family

ID=14009099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5090815A Pending JPH06282680A (ja) 1993-03-25 1993-03-25 文字認識処理装置

Country Status (1)

Country Link
JP (1) JPH06282680A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133850A (ja) * 2005-10-12 2007-05-31 Matsushita Electric Ind Co Ltd 文字認識装置、その文字認識方法及び文字認識プログラムならびに集積回路
JP2010231440A (ja) * 2009-03-26 2010-10-14 Fuji Xerox Co Ltd 情報処理装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133850A (ja) * 2005-10-12 2007-05-31 Matsushita Electric Ind Co Ltd 文字認識装置、その文字認識方法及び文字認識プログラムならびに集積回路
JP2010231440A (ja) * 2009-03-26 2010-10-14 Fuji Xerox Co Ltd 情報処理装置およびプログラム

Similar Documents

Publication Publication Date Title
US5197107A (en) Character recognition apparatus
JP2997508B2 (ja) パターン認識装置
JPH06282680A (ja) 文字認識処理装置
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
JPH0785221A (ja) 図面自動認識装置の文字とシンボルの分離・認識方法
JPH05282493A (ja) 英文字認識装置
JP3595081B2 (ja) 文字認識方法
JPH07271921A (ja) 文字認識装置および文字認識方法
JPH03172982A (ja) 文字認識装置
JPH0944604A (ja) 文字認識処理方法
JP2001147988A (ja) 文字認識方法及び文字認識装置
JPH02230484A (ja) 文字認識装置
JP2875678B2 (ja) 文字認識結果の後処理方法
JPH0290384A (ja) 文字認識装置の後処理方式
JP3717971B2 (ja) 認識文字とイメージデータの対応的表示方法及び文字認識装置
JPH07254048A (ja) 文字認識方法
JPH0436885A (ja) 光学式文字読取装置
JPH08315077A (ja) 単語認識方法
JPS63143684A (ja) 文字認識装置における認識結果修正方法
JPH0414193A (ja) 斜体文字認識方法
JPH04315278A (ja) 文字認識装置
JPH03218567A (ja) 電子辞書
JPH0371380A (ja) 文字認識装置
JPH05189615A (ja) 英文字認識装置
JPH02292691A (ja) 文字認識装置