JP2506142B2 - 文字読取り装置 - Google Patents

文字読取り装置

Info

Publication number
JP2506142B2
JP2506142B2 JP63038994A JP3899488A JP2506142B2 JP 2506142 B2 JP2506142 B2 JP 2506142B2 JP 63038994 A JP63038994 A JP 63038994A JP 3899488 A JP3899488 A JP 3899488A JP 2506142 B2 JP2506142 B2 JP 2506142B2
Authority
JP
Japan
Prior art keywords
character
read
reading area
format information
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63038994A
Other languages
English (en)
Other versions
JPH01213767A (ja
Inventor
純 佐藤
重穂 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63038994A priority Critical patent/JP2506142B2/ja
Publication of JPH01213767A publication Critical patent/JPH01213767A/ja
Application granted granted Critical
Publication of JP2506142B2 publication Critical patent/JP2506142B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔概要〕 指定された読取りフォーマットに従って文字を光学的
に読取る文字読取り装置に関し、 文字が本来読取るべき読取り領域に対してずれて存在
したり、走査される原稿などに汚れがあっても、正常に
文字を読取って認識可能とすることを目的とし、 画像データ及びフォーマット情報に基づいて、読取っ
た画像データ中最も読取り領域の始端側に位置し1文字
に対応する大きさを持つ黒部分である始端側塊の中心の
該読取り領域の始端位置に対するずれと、最も該読取り
領域の終端側に位置し1文字に対応する大きさを持つ黒
部分である終端側塊の中心の該読取り領域の終端位置に
対するずれとを、夫々ずれが大きくなるにつれて値が増
大する第1及び第2の関数値として評価する第1の評価
手段と、該画像データ及び該フォーマット情報に基づい
て、該始端側塊と該終端側塊とを文字認識した結果の状
態を、夫々正常な状態から異常な状態及び空白な状態に
なるにつれて値が増大する第3及び第4の関数値として
評価する第2の評価手段と、該フォーマット情報及び該
第1から第4の関数値に基づいて、第1及び第3の関数
値の和である第1の評価値と第2及び第4の関数値の和
である第2の評価値とを比較して大なる方の評価値を有
する塊を読取った塊から除く編集動作を行なうと共に、
この結果得られる始端側塊と終端側塊とに対する編集動
作を文字認識された文字の数が該フォーマット情報に含
まれる最大文字数以下となるまで繰返す編集手段とを備
えるように構成する。
〔産業上の利用分野〕
本発明は文字読取り装置、特に指定された読取りフォ
ーマットに従って文字を光学的に読取る文字読取り装置
に関する。
〔従来の技術〕
一般に光学的に文字を読取り認識する光学的文字読取
り装置(OCR)は、予め指定された読取りフォーマット
に従って文字を読取り、文字の認識を行なう。つまり、
読取られた文字の認識は、読取りフォーマットで定めら
れる読取り領域内の文字についてのみ行なわれる。しか
し、例えば読取る文字がプリンタにより印字された活字
文字の場合、プリンタの調整不良等に起因する印字ずれ
によって読取るべき活字文字が読取り領域からはみ出し
てしまうことがある。この様な場合、読取り領域からは
み出している活字文字の認識は行なわれないため、認識
出力結果に桁ずれが生じてしまう。
そこで、従来のOCRとしては、第6図(a)に示す如
く読取り領域100の始端側及び終端側に夫々破線で示す
拡張認識領域101を設ける装置がある。この従来装置に
よれば、例えば第6図(b)に示す説く活字文字「A」
が読取り領域100からはみ出していても、拡張認識領域1
01内であれば読取り領域100内の他の活字文字と同様に
認識できる。ところが、拡張認識領域101内に第6図
(c)に示す如く汚れ102が存在すると、この汚れ102は
活字文字として認識されてしまうため、活字文字「A」
〜「E」が読取領域100内に存在しているにもかかわら
ず、認識出力結果に桁ずれが生じてしまう。汚れ102と
しては、ドラム式プリンタに発生しがちなシャドウ汚れ
やレーザープリンタのトナー汚れ等がある。
〔発明が解決しようとする課題〕
従って、文字が本来読取るべき読取り領域からはみ出
していたり、走査される原稿などに汚れがあると、正常
に文字を読取って認識できないという問題が生じてい
た。
本発明は、文字が本来読取るべき読取領域に対してず
れて存在したり、走査される原稿などに汚れがあって
も、正常に文字を読取って認識可能とすることのできる
文字読取り装置を提供することを目的とする。
〔課題を解決するための手段〕
第1図は本発明の原理説明図である。同図中、1は文
字を光学的に走査して読取った文字に関する画像データ
を出力する走査手段、2は少なくとも読取るべき読取り
領域及び最大文字数に関する情報を含むフォーマット情
報を出力するフォーマット情報出力手段である。3は画
像データ及びフォーマット情報に基づいて、読取った画
像データ中最も読取り領域の始端側に位置し1文字に対
応する大きさを持つ黒部分である始端側塊の中心の読取
り領域の始端位置に対するずれと、最も読取り領域の終
端側に位置し1文字に対応する大きさを持つ黒部分であ
る終端側塊の中心の読取り領域の終端位置に対するずれ
とを、夫々ずれが大きくなるにつれて値が増大する第1
及び第2の関数値として評価する第1の評価手段、4は
画像データ及びフォーマット情報に基づいて、始端側塊
と終端側塊とを文字認識した結果の状態を、夫々正常な
状態から異常な状態及び空白な状態になるにつれて値が
増大する第3及び第4の関数値として評価する第2の評
価手段、5は編集手段である。
〔作用〕
編集手段5は、フォーマット情報及び第1から第4の
関数値に基づいて、第1及び第3の関数値の和である第
1の評価値と第2及び第4の関数値の和である第2の評
価値とを比較して大なる方の評価値を有する塊を読取っ
た塊から除く編集動作を行なうと共に、この結果得られ
る始端側塊と終端側塊とに対する編集動作を文字認識さ
れた文字の数が最大文字数以下となるまで繰返す。
従って、文字が本来読取るべき読取り領域に対してず
れて存在したり、走査される原稿などに汚れがあって
も、正常に文字を読取って認識することができる。
〔実施例〕
第2図は、本発明の一実施例を示す、同図中、10はCC
Dイメージセンサからなる走査装置、11は二値化回路、1
2は画像メモリ、13は位置決め部、14は読取りフォーマ
ット出力部、15は認識制御部、16は文字認識部、17編集
部である。本実施例では、走査装置10は原稿等に印字さ
れた活字文字を光学的に読取り、走査装置10の出力画像
データが二値化回路11で二値化された後に画像メモリ12
に記憶される。画像メモリ12に記憶された画像データ
は、位置決め部13及び文字認識部16に供給される。
読取りフォーマット出力部14は、予め指定されたフォ
ーマット情報を出力して認識制御部15に供給する。この
フォーマット情報は、少なくとも読取るべき読取り領域
及び最大文字数に関する情報を含む。本実施例では、便
宜上フォーマット情報により指定される読取領域20が第
3図(a)に破線で示す領域であり、読取るべき最大文
字数Nは5文字である。通常、読取り領域20の幅WはW
=N×P(ただし、Pは文字ピッチ)で求められる。原
稿上に、プリンタの調整不良等に起因する印字ずれが存
在しない場合、例えば「A」〜「E」の5文字が全て読
取り領域20内に入る。
他方、プリンタの調整不良等に起因する不良の例を第
3図(b)〜(d)に示す。第3図(b)は、印字ずれ
によって印字文字が読取り領域20に対して右側にずれた
例である。第3図(c)は、ドラム式プリンタのシャド
ウ汚れやレーザープリンタのトナー汚れ等の印字汚れ21
が読取り領域20の左右に存在する例である。又、第3図
(d)は、印字ずれと印字汚れとが同時に起きた例であ
る。第3図(b)〜(d)の如き不良が発生しても、所
定の範囲内での不良であれば読取りを許容されるべきで
ある。この所定範囲の一例として、印字ずれは1文字ピ
ッチP以内であり、印字汚れは正常印字部分に接触しな
い程度である。
位置決め部13は、画像メモリ12からの画像データ中、
1文字に対応する大きさを持つ黒部分の塊の読取り領域
20に対する位置を認識制御部15を介して得られるフォー
マット情報に基づいて関数値として評価する。最も読取
り領域20の左端(始端)側に位置する塊は、その塊の中
心位置が読取り領域20内に存在する場合は「0」、読取
り領域20の左端から1文字ピッチ(P)以内に存在する
場合は「K1」、左端から1.5文字ピッチ(1.5P)以内に
存在する場合は「K2」なる関数値で評価する。最も読取
り領域20の右端(終端)側に位置する塊は、その塊の中
心位置が読取り領域20内に存在する場合は「0」、読取
り領域20の右端から1文字ピッチ(P)以内に存在する
場合は「K1」、右端から1.5文字ピッチ(1.5P)以内に
存在する場合は「K2」なる関数値で評価する。又、位置
決め部13は、1文字に対応する大きさを持つ黒部分の塊
の位置及び大きさに関する位置決め情報も生成出力す
る。
第4図は上記印字ずれの関数値評価を示す。ここで、
K2>K1であり、関数値は塊の読取り領域20に対するずれ
が大きくなるにつれて増大する。
文字認識部16は、認識制御部15を介して得られるフォ
ーマット情報及び位置決め部13からの位置決め情報に基
づいて最も読取り領域20の左端側及び右端側に位置する
塊の文字認識を行ない、この文字認識の結果の状態を次
の表に従って正常な状態から異常な状態及び空白な状態
になるにつれて値が増大する関数値で評価する。
ここで、K4>K3であり、異常な状態とは、文字読取り
不能(リジェクト)である場合を表わす。
編集部17は、最も読取り領域20の左端側及び右端側に
位置する塊に対する位置決め部13からの関数値F1L,F1R
と文字認識部16からの関数値F2L,F2Rとの和を夫々評価
値EL=F1L+F2L,ER=F1R+F2Rとして求め、評価値の大
きい方の塊を読取った塊から除く編集動作を行なう。こ
の編集動作は、認識制御部15を介して得られるフォーマ
ット情報に基づいて、文字認識された文字の数が最大文
字数(本実施例では「5」)以下となるまで繰返され
る。
従って、例えばK3>K1であれば、第3図(b)の場
合、読取り領域20内の空白の評価値(読取り領域20内)
∩(空白)=0+K4は、読取り領域20外の文字「E」の
評価値(±P)∩(正常読取り)=K1+0より大きいた
め、読取り領域20内の空白は文字認識された文字より除
かれる。第3図(c)の場合、読取り領域20外の汚れ21
は異常状態として認識されるので、文字認識された文字
より除かれる。第3図(d)の場合、読取り領域20内の
汚れ21の評価値(読取り領域20内)∩(異常)=0+K3
は、読取り領域20外の文字「E」の評価値(±P)∩
(正常読取り)=K1+0より大きいため、読取り領域20
内の汚れ21は文字認識された文字より除かれる。つま
り、第3図(b)〜(d)の如き不良の場合であって
も、第3図(a)の正常な場合と同様に文字「A」〜
「E」が認識される。
次に、本発明の他の実施例について説明する。本実施
例では、第2図中位置決め部13と文字認識部16と編集部
17との機能をマイクロプロセッサ(図示せず)を用いて
実現しており、第5図はマイクロプロセッサの動作を示
すフローチャートである。
第5図中、ステップS1は、1文字に対応する大きさを
持つ黒部分である塊の読取り領域20に対するずれを印字
ずれの関数値(F1L,F1R)として評価する。本実施例で
は、K1=8及びK2=24に設定する。ステップS2は、各塊
の文字認識を行ない、ステップS3は文字認識結果の状態
を関数値(F2L,F2R)として評価する。本実施例では、K
3=10,K4=16に設定する。ステップS4は、最左端側及び
最右端側の塊の評価値(EL,ER)を算出し、ステップS5
はEL≦ERか否かの判別を行なう。EL>ERの場合、ステッ
プS6で左端の塊を削除し、EL≦ERの場合、ステップS7で
右端の塊を削除する。ステップS8は、文字認識された文
字の数Mが最大文字数N以下であるか否かを判別し、M
≦NでなければステップS4からの動作が繰返される。
なお、上記実施例では活字文字の読取りについて説明
したが、予め定められた大きさで書かれた手書き文字に
ついても本発明を適用し得ることは言うまでない。
以上本発明を実施例により説明したが、本発明は本発
明の主旨に従い種々の変形が可能であり、本発明からこ
れらを排除するものではない。
〔発明の効果〕
本発明によれば、読取られた1文字に対応する大きさ
の黒部分である塊の読取り領域に対する印字ずれ及び文
字認識された塊の状態夫々を関数値で表わし、これら関
数値を用いて各塊の読取られた文字としての有効性の評
価を行なっているので、文字が読取り領域に対してずれ
て存在したり、走査される原稿などに汚れがあっても、
正常に文字を読取って認識することができ、実用的には
極めて有用である。
【図面の簡単な説明】
第1図は本発明の原理説明図、 第2図は本発明の一実施例を示すブロック図、 第3図は読取り領域に対する印字文字の状態を説明する
ための図、 第4図は印字ずれの関数値評価を説明するための図、 第5図は本発明の他の実施例の動作を説明するためのフ
ローチャート、 第6図は従来装置を説明するための図である。 第1図〜第5図において、 1は走査手段、 2はフォーマット情報出力手段、 3は第1の評価手段、 4は第2の評価手段、 5は編集手段、 10は走査装置、 11は二値化回路、 12は画像メモリ、 13は位置決め部、 14は読取りフォーマット出力部、 15は認識制御部、 16は文字認識部、 17は編集部、 S1〜S8はステップ を示す。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文字を光学的に走査して読取った文字に関
    する画像データを出力する走査手段(1)と、少なくと
    も読取るべき読取り領域及び最大文字数に関する情報を
    含むフォーマット情報を出力するフォーマット情報出力
    手段(2)とを有する文字読取り装置において、 該画像データ及び該フォーマット情報に基づいて、読取
    った画像データ中最も該読取り領域の始端側に位置し1
    文字に対応する大きさを持つ黒部分である始端側塊の中
    心の該読取り領域の始端位置に対するずれと、最も該読
    取り領域の終端側に位置し1文字に対応する大きさを持
    つ黒部分である終端側塊の中心の該読取り領域の終端位
    置に対するずれとを、夫々ずれが大きくなるにつれて値
    が増大する第1及び第2の関数値として評価する第1の
    評価手段(3)と、 該画像データ及び該フォーマット情報に基づいて、該始
    端側塊と該終端側塊とを文字認識した結果の状態を、夫
    々正常な状態から異常な状態及び空白な状態になるにつ
    れて値が増大する第3及び第4の関数値として評価する
    第2の評価手段(4)と、 該フォーマット情報及び該第1から第4の関数値に基づ
    いて、第1及び第3の関数値の和である第1の評価値と
    第2及び第4の関数値の和である第2の評価値とを比較
    して大なる方の評価値を有する塊を読取った塊から除く
    編集動作を行なうと共に、この結果得られる始端側塊と
    終端側塊とに対する編集動作を文字認識された文字の数
    が該最大文字数以下となるまで繰返す編集手段(5)と
    を備えたことを特徴とする文字読取り装置。
JP63038994A 1988-02-22 1988-02-22 文字読取り装置 Expired - Fee Related JP2506142B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63038994A JP2506142B2 (ja) 1988-02-22 1988-02-22 文字読取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63038994A JP2506142B2 (ja) 1988-02-22 1988-02-22 文字読取り装置

Publications (2)

Publication Number Publication Date
JPH01213767A JPH01213767A (ja) 1989-08-28
JP2506142B2 true JP2506142B2 (ja) 1996-06-12

Family

ID=12540684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63038994A Expired - Fee Related JP2506142B2 (ja) 1988-02-22 1988-02-22 文字読取り装置

Country Status (1)

Country Link
JP (1) JP2506142B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6544124B2 (ja) * 2015-08-05 2019-07-17 コニカミノルタ株式会社 帳票識別装置、帳票識別方法及びプログラム

Also Published As

Publication number Publication date
JPH01213767A (ja) 1989-08-28

Similar Documents

Publication Publication Date Title
US7949187B2 (en) Character string recognition method and device
GB2203014A (en) Region recognizing device
JPH0844827A (ja) デジタル複写機
EP0576220A2 (en) Bar-code reader device
JP3936436B2 (ja) 表認識方法
JP2506142B2 (ja) 文字読取り装置
JPH02293989A (ja) 文字認識装置
EP1239409A2 (en) Data recording medium and code reader
JP4905767B2 (ja) 二次元コード検出システムおよび二次元コード検出プログラム
JPH0373916B2 (ja)
JPS639270B2 (ja)
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JP3932201B2 (ja) 帳票種識別装置および記録媒体
JP3128056B2 (ja) マーク読取り装置
JPH05128308A (ja) 文字認識装置
JPH0973505A (ja) マーク読取り装置
JPS59180783A (ja) 光学的文字読取装置
JP3009325B2 (ja) カルラコードの解析方法
JP2570571B2 (ja) 光学文字読取装置
JPH06274691A (ja) 文字認識装置
JP3381803B2 (ja) 傾き角検出装置
JPH1097588A (ja) 罫線認識方法、表処理方法および記録媒体
JPH01144181A (ja) 光学的文字読取装置
JPH039506B2 (ja)
JPH01141464A (ja) 画像処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees