JP2674475B2 - 文字読取装置 - Google Patents

文字読取装置

Info

Publication number
JP2674475B2
JP2674475B2 JP5189790A JP18979093A JP2674475B2 JP 2674475 B2 JP2674475 B2 JP 2674475B2 JP 5189790 A JP5189790 A JP 5189790A JP 18979093 A JP18979093 A JP 18979093A JP 2674475 B2 JP2674475 B2 JP 2674475B2
Authority
JP
Japan
Prior art keywords
character
end point
binary data
pattern
blurred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5189790A
Other languages
English (en)
Other versions
JPH0744649A (ja
Inventor
和仁 中西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5189790A priority Critical patent/JP2674475B2/ja
Publication of JPH0744649A publication Critical patent/JPH0744649A/ja
Application granted granted Critical
Publication of JP2674475B2 publication Critical patent/JP2674475B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、紙面上の文字を読み取
る光学的文字読取装置に関し、特に、手書き文字にかす
れ部分があっても読み取ることができる読取装置に関す
る。
【0002】
【従来の技術】光学的文字読取装置(以下OCRと略
す)において、紙面上の文字を構造解析的読取方式で読
み取る場合、誤判定を最小にすることが課題である。こ
れに関して、従来は、OCRの初期判定の結果をフィー
ドバックして文字パターンを太く修正したり(太め処
理)、2値化のときのスライスレベル(しきい値)を変
更して文字を補正した後再度判定させるようにしている
(例えば森健一著「パターン認識」コロナ社(昭和63
年))。
【0003】
【発明が解決しようとする課題】上記従来技術において
は文字全体のスライスレベルの変更や太め処理による補
正を行うため、図7に示すEのような一部かすれた部分
1を有する文字の補正を行なう場合、かすれている部分
1とは無関係のデータまで変化し、その結果文字がひず
み、たとえば図7のEの小さなループ2が図7のFの3
に示すように潰れてしまう。あるいは図示していないが
文字輪郭線に凹凸がある場合にはその凹凸が潰れてしま
う。その結果、かすれ部分を含む文字を正確に読み取れ
ないという欠点があった。
【0004】本発明は上記の問題を解決すべくなされた
もので、文字を歪ませることなく、かすれた文字を正し
く読み取ることができるようにすることを課題とする。
【0005】
【課題を解決するための手段】上記課題を解決するた
め、本発明においては、スキャナ手段、前処理手段、認
識判定手段、端点検出手段、パターン合成手段、認識制
御手段によって文字読取装置を構成した。スキャナ手段
は紙面上の文字パターンを電気信号に変換して多値デー
タとして読取る。前処理手段は、この多値データを第1
のスライスレベルによって第1の2値データに変換す
る。認識判定手段は第1の2値データを認識判定する
が、それが認識できないときには、前処理手段は、第1
のスライスレベルより低い第2のスライスレベルによっ
て前記多値データを第2の2値データに変換する。ま
た、認識判定手段が第1の2値データを認識できないと
きには、端点検出手段が第1の2値データの端点を検出
し、その検出した端点に基づいて認識制御手段が、第1
の2値データのかすれ領域を決定する。パターン合成制
御手段は、第1の2値データのかすれ領域以外の部分と
第2の2値データのかすれ領域部分とを合成し、認識判
定手段は合成されたデータを再度認識判定する。
【0006】また、上記パターン合成手段の代りに、辞
書手段と、文字類推手段とを設け、辞書手段に、かすれ
領域の位置と文字との相関関係を記憶しておき、この辞
書手段を参照して文字類推手段によってかすれ領域の位
置から文字を類推するようにした。
【0007】
【実施例】次に本発明の一実施例を図を参照して説明す
る。図1は本発明による文字読取装置の一実施例の構成
を示すブロック図である。図において、100は紙面上
の文字パターンを電気信号に変換して多値データとして
読取るスキャナ部、200は多値データを2値データに
変換する前処理部、300は2値データの表わす文字パ
ターンを認識判定する認識判定部である。前処理部20
0から出力される2値データは、たとえば図4のHに示
す通りである。図4のHに示すように2値データには端
点(たとえばA,B,C,D)が含まれている。端点検
出部400は文字パターン輪郭情報をもとに端点を検出
し、その端点間相関関係によりかすれによって生じたで
あろう端点を検出する。これらの端点の検出は公知の手
段を用いて行うことができる。さらに、500はスライ
スレベルの異なる2つの2値データを合成するパターン
合成制御部、600は前処理部、端点検出部、パターン
制御部、認識判定部の制御を行うとともに端点検出部4
00が検出した端点に基づいて2値データのかすれ領域
を決定する認識制御部である。
【0008】次に図2および3のフローチャートを用い
て動作を説明する。まず、スキャナ部100からのデー
タは前処理部200において前処理されて第1の2値デ
ータに変換される(図2のS1)。認識判定部300は
第1の2値データを認識判定する(S2)。ここで読取
が可能であれば(S3)、ステップS10へとんで判定
結果を出力(たとえばCRT表示)して終了する。ステ
ップS3において、読取不能の場合、認識制御部600
が端点検出部400に端点検出を指示する(S4)。一
般的に線分にかすれによる切れが生じた場合、そのかす
れ部分に2つの端点が生じ、しかもその端点は各々の近
傍に発生する。したがって端点検出部は次の2つ条件を
満たす端点をかすれ原因の端点(かすれ端点)とする。
【0009】イ)1認識単位中に端点を2箇所以上所有
していること。
【0010】ロ)各々の端点を中心にn×n画素(n=
2,3,4,…)内に別の端点が一箇所以上有している
こと。図4のGにおいて、451は端点Aを中心にした
n×nの画素領域を示し、452は端点Bを中心にした
n×nの画素領域を示している。端点AおよびBは共に
上記2条件を満足している。
【0011】さて、図3はかすれ原因によると考えられ
る端点検出サブルーチンのフローチャートであり、まず
ステップS11において端点検出部400は第1の2値
データで作られるパターンの輪郭情報をストアし、その
情報から例えば輪郭の曲率が所定以下のものを端点とす
る。次に端点が2以上あるかどうか確認する(S1
2)。2以上あれば、ある端点の周りn×n画素内(n
=2,3,4,…)に別の端点があるかどうかをチェッ
クし(S13)、あれば前者の端点と後者の端点および
各々の位置座標データを補正候補点として保存する(S
14)。この補正候補点の端点は上記イ)およびロ)の
条件を満す端点でかすれによる切れによって生じた端点
すなわちかすれ端点と考えられる。前端点について検索
を終了したら(S15)、検索結果としてかすれ端点の
有無、その個数などが端点検出部400に保存される
(S16)。
【0012】再び図2のメインルーチンに戻り、上記端
点検出サブルーチンでかすれ端点検出が可能であったと
きは(S5)、認識制御部600は前処理部200にス
ライスレベルを下げて(文字パターンが濃くなる)前処
理を再度行わせ、第2の2値データを得る(S6)。図
4のIは第2の2値データのパターンを示している。図
4のIにおいて44は文字の記入枠を示し、スライスレ
ベルを下げたために記入枠44まで読取られてしまって
いる。次に認識制御部600は端点検出部400が検出
した端点に基づいてかすれ領域を決定する。かすれ領域
とはかすれ端点2以上を含む領域をいう。これら領域は
本来つながるべきストロークが2値化時や筆記具の特性
等により切れ(かすれ)によって生じたものである。図
4のGで言えばこのかすれ領域は、かすれ端点であって
それら端点を中心にn×n画素で構成される2つ以上の
領域を含むm×m画素(m=2,3,4,…但し、m≧
n)で構成される画像領域45である(S7)。認識制
御部の指示に基づきパターン合成制御部500は、端点
検出部400からの情報すなわちかすれ端点とその座標
データを参照して、予め第1の2値データのうち上記か
すれ領域に相当するm×m画素領域45を除く部分と、
第2の2値データのm×m画像領域45の部分とを合成
する(S8)。合成は前処理部が第1の2値データおよ
び第2の2値データを出力するときに各々パターン合成
制御部のメモリ領域に保存されたものを用いて行う。図
4のJは合成後の文字パターンを示し、ここには図4の
Iに示す枠44のようなノイズは入ってこない。その
後、認識制御部600は認識判定部300に対して合成
文字パターンで再度認識処理を実行するように指示する
(S9)。判定結果はたとえばCRTなどの表示装置に
出力される(S10)。なお、2回目の認識判定におい
ても読取れなかったときは、その旨表示してもよいが、
スライスレベルをさらに下げて前処理し、再々度の判定
を行うようにしてもよい。
【0013】以上のように、上記文字読取装置を用いれ
ば、スライスレベルを下げて合成パターンを作り、その
中のかすれ領域のみを合成するので、文字を何ら変形さ
せることなく、かすれた文字を正確に読取ることができ
る。また上記実施例においては、実際に端点を検出した
領域(n×n)より少し広い領域(m×m)でパターン
合成しているから、かすれ部分をより確実に修正するこ
とができる。なお合成に用いるべき第2の2値データの
領域は正方形である必要はない。要するに2つのかすれ
端点のまわりの領域を含むものであればよい。
【0014】次に本発明の第2の実施例を図5および図
6を用いて説明する。第2の実施例の装置は、図5の
K,Mに示すような、かすれ領域23,32,33の位
置を図5のL,Nで示すような座標(X,Y),(X1
,Y1 ),(X2 ,Y2 )で記憶しておき、所定の文
字においてかすれが発生し易い領域の位置の座標と当該
所定の文字とを対応させて辞書登録しておいてかすれ領
域の位置の座標が対応する文字を決定しようとするもの
である。図6は第2の実施例の文字読取装置の構成を示
すブロック図であり、図中、図1と同じ構成部分につい
ては同じ番号を付してある。図において、700は端点
検出部400で検出されたかすれ領域の位置の座標から
当該位置にかすれが発生し易い文字を決定する文字類推
部、800は文字を決定するときに使用する辞書部であ
る。辞書部800には所定の文字においてかすれが発生
し易い領域の位置の座標と当該所定の文字とが対応させ
て登録されている。たとえば、かすれ領域が図5のLの
ような位置であれば文字は「2」、図5のNのような位
置であれば文字は「8」という具合である。もちろん、
1つのかすれ領域の位置に対して複数の候補文字が対応
することも考えられる。
【0015】さて、第2の実施例の装置の動作は、図2
のステップS1からS5までは第1の実施例と同様であ
る。しかし、その後は、かすれ部分についてパターン合
成を行わずに、文字はかすれが発生し易い領域が文字毎
にそれぞれ異なるという一般的な性質に着目し、検出さ
れたかすれ領域の位置に対して辞書部800に登録され
たかすれ領域の位置が該当する文字を決定し、その結果
を出力する。出力結果として複数の候補文字を出力して
もよい。その場合は、その候補のうち正しいものをオペ
レータが選択するようにしてもよいし、さらにかすれ領
域の形状分析を行って認識制御部600において最も可
能性の高い文字を1つ選択するようにしてもよい。
【0016】なお、上記説明において、かすれ領域の形
状を45,23,33のように正方形にしたが、この形
状はそれに限らず、読み取るべき文字に応じて、たとえ
ば、菱形、平行四辺形、その他の多角形、円などにして
もよい。
【0017】
【発明の効果】以上説明したように、本発明によれば、
かすれ領域のみのスライスレベルを下げて2値データを
作成するようにしたので、画像データを歪ませることな
く、かすれた文字を正確に読取ることができる。
【図面の簡単な説明】
【図1】本発明による文字読取装置の一実施例の構成を
示すブロック図である。
【図2】図1の文字読取装置のメインルーチンを示すフ
ローチャートである。
【図3】図1の文字読取装置の端点検出サブルーチンを
示すフローチャートである。
【図4】文字パターン合成を説明する図である。
【図5】本発明の第2の実施例を説明する図である。
【図6】本発明の第2の実施例の構成を示すブロック図
である。
【図7】従来の装置の問題点を説明する図である。
【符号の説明】
100 スキャナ部 200 前処理部 300 認識判定部 400 端点検出部 500 パターン合成制御部 600 認識制御部 700 文字類推部 800 辞書部

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字パターンを電気信号に変換して多値
    データとして読取るスキャナ手段と、前記多値データを
    所定のスライスレベルによって2値データに変換する前
    処理手段と、前記2値データから所定文字パターンを認
    識判定する認識判定手段と、前記2値データのパターン
    の端点を検出する端点検出手段と、前記端点検出手段が
    検出した端点に基づいて前記2値データパターンのかす
    れ領域を決定する認識制御手段と、かすれ領域の位置の
    座標と文字とが対応させて記憶させられた辞書手段と、
    前記辞書手段を参照して前記かすれ領域の位置の座標が
    対応する文字を決定する文字類推手段とを有することを
    特徴とする文字読取装置。
JP5189790A 1993-07-30 1993-07-30 文字読取装置 Expired - Lifetime JP2674475B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5189790A JP2674475B2 (ja) 1993-07-30 1993-07-30 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5189790A JP2674475B2 (ja) 1993-07-30 1993-07-30 文字読取装置

Publications (2)

Publication Number Publication Date
JPH0744649A JPH0744649A (ja) 1995-02-14
JP2674475B2 true JP2674475B2 (ja) 1997-11-12

Family

ID=16247254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5189790A Expired - Lifetime JP2674475B2 (ja) 1993-07-30 1993-07-30 文字読取装置

Country Status (1)

Country Link
JP (1) JP2674475B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6244755B2 (ja) * 2013-09-03 2017-12-13 日本電気株式会社 文字補正装置及び文字補正方法とプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59211175A (ja) * 1983-05-17 1984-11-29 Ricoh Co Ltd 文字認識装置
JPS6097478A (ja) * 1983-11-01 1985-05-31 Ricoh Co Ltd 文字認識方法
JPS61255486A (ja) * 1985-05-09 1986-11-13 Nec Corp 図形処理装置
JP2720588B2 (ja) * 1990-08-31 1998-03-04 日本電気株式会社 文字認識装置

Also Published As

Publication number Publication date
JPH0744649A (ja) 1995-02-14

Similar Documents

Publication Publication Date Title
US7636483B2 (en) Code type determining method and code boundary detecting method
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US5410611A (en) Method for identifying word bounding boxes in text
EP2569930B1 (en) Segmentation of a word bitmap into individual characters or glyphs during an ocr process
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
JP2001043310A (ja) 文書画像補正装置および補正方法
US5815595A (en) Method and apparatus for identifying text fields and checkboxes in digitized images
US4891750A (en) Optical character recognition by forming and detecting matrices of geo features
US5164996A (en) Optical character recognition by detecting geo features
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
JP2674475B2 (ja) 文字読取装置
US5535287A (en) Method of and apparatus for separating image
JP2871590B2 (ja) 画像抽出方式
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP2020119291A (ja) 情報処理装置及びプログラム
JP7532124B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2785747B2 (ja) 文字読取装置
US11710331B2 (en) Systems and methods for separating ligature characters in digitized document images
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式
KR940011699B1 (ko) 2진 영상의 윤곽선 추출방법
JPH11250256A (ja) 図形認識処理方法及びそのプログラムを記録した記録媒体
JPH04276888A (ja) 文字読取装置
KR940009749B1 (ko) 글자 분할 방법
JPH11161739A (ja) 文字認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19970617