JPH051510B2 - - Google Patents

Info

Publication number
JPH051510B2
JPH051510B2 JP59157605A JP15760584A JPH051510B2 JP H051510 B2 JPH051510 B2 JP H051510B2 JP 59157605 A JP59157605 A JP 59157605A JP 15760584 A JP15760584 A JP 15760584A JP H051510 B2 JPH051510 B2 JP H051510B2
Authority
JP
Japan
Prior art keywords
character
pattern
line
corrected
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59157605A
Other languages
English (en)
Other versions
JPS6136874A (ja
Inventor
Masao Michino
Kyomichi Kurino
Kenichi Takagi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP15760584A priority Critical patent/JPS6136874A/ja
Publication of JPS6136874A publication Critical patent/JPS6136874A/ja
Publication of JPH051510B2 publication Critical patent/JPH051510B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、光学文字読取装置(以下OCRとい
う)に関し、特に、訂正部分の読取りに関する。
〔発明の背景〕
一般に、帳票等に記入された文字を訂正する場
合、旧記載を消去することが困難であれば、第2
図に示すように、訂正すべき文字C1〜C4上に重
ねて文字行方向の線分b1とb2(以下抹消線とい
う)を記入して、文字C1〜C4を一括して抹消す
る趣旨を表示するとともに、その上方の余白に訂
正後の文字n1〜n4を記入するという方法が、最
も普通である。ところが、OCRにおいては、第
2図のような形式で訂正された文字を正しく読取
ることは、従来困難であつた。その原因の一つ
は、文字切出し方式にある。すなわち、従来の文
字切出し方式の下では、抹消線b1及びb2の検出
が困難なため、それらを検出してそれらとそれら
によつて抹消された文字のパターンを除去するこ
とができないのである。
第3図は、従来のOCRにおける文字切出し処
理のフローチヤートを示す。第3図を参照して、
まずステツプS10において、読取るべき領域Fの
位置を算出し、領域F内に存在するパターンを第
4図aのように切出す。次にステツプS11におい
て、文字パターンと文字枠の対応を取るため、領
域Fに対し縦投影処理を行ない、第4図bの投影
成分V1〜V4を求め、得られた投影成分V1〜V4
に対し、予め決められた文字枠G1〜G7の対応付
けを行なう。つまり、V1に対し枠G1〜G4が、
V2に対しG5が、V3に対しG6が、V4に対しG7が
それぞれ対応付けされる。続いてステツプS12に
て、複数の文字枠にまたつがつて対応付けられた
投影成分の有無をチエツクし、もしあれば、ステ
ツプS13で、その投影成分をおのおのの文字枠に
強制分割する処理を行なう。したがつて、投影成
分V1は、第4図cに示すように、V11,V12,
V13,V14に分割され、それぞれ文字枠G1,G2,
G3,G4に対応付けがなされる。
このように拡文字枠に対する投影成分の割付け
が終了すると、ステツプS14にて各投影成分の位
置情報をもとに、文字枠ごとに文字パターンが抽
出されて、切出し処理を終了する。第5図は、各
文字枠に対応して切出された文字パターンを示
す。第5図において、文字枠G1,G3,G4に対応
する文字パターンには、除去されるべき文字パタ
ーンと抹消線b1,b2が除去されずに残るため、
読取り結果は不読文字(?)として出力され、文
字枠G2に対応する文字パターンは、カナ文字の
“二”あるいはEQUAL記号として読取られて、
誤読となる。
前記のような事情により、従来におけるOCR
用帳票では、正規の文字記入領域と、訂正の有無
を表示する領域と、訂正後の文字を記入する領域
とを、それぞれ別個に設けており、そのため、帳
票上で余分な領域を必要とし、また、訂正方法と
しても、面倒で、一般になじみ難いものとなつて
いた。
〔発明の目的〕
本発明の目的は、第2図に例示したような、訂
正すべき文字をその上に引いた抹消線で抹消する
とともに、余白に正しい文字を記入するという形
式で訂正された文字を、OCRで確実に読取れる
ようにすることにある。
〔発明の概要〕
本発明は、従来のように縦投影成分の文字枠分
割をせずに、又はそれを行なう前に、読取られた
パターンの各部の輪郭を調べて、輪郭が互いに離
間する各分離パターンを抽出し、抽出された諸分
離パターンから所定本数の抹消線を含む分離パタ
ーンを探し出し、探し出された抹消線を含む分離
パターンを削除することを特徴とする。
この手順によれば、抹消された部分の線とそれ
に隣接する文字の線とが垂直方向に重なつている
場合でも、抹消された部分と隣接文字とはそれぞ
れ別の分離パターンとして抽出されるから、隣接
文字までも抹消された部分と誤認することはな
い。また、余白に記入された正しい文字も分離パ
ターンとして抽出されるので、その位置が不正確
であつても、確実に抽出される。こうして、抹消
線及びそれにより抹消された文字のパターンが誤
りなく除去され、余白に記入された正しい文字の
パターンは残るから、第2図のような形式で訂正
された文字を正しく読取ることができる。
〔発明の実施例〕
第1図は、本発明が適用されたOCRの一例を
示す。文字記録媒体、例えば帳票101上のパタ
ーンは、光電変換部103により読取られ、2値
パターンとして記憶部104に格納される。な
お、記憶部104には多値パターンとして格納し
ておき、以下の処理の開始にあたつて二値パター
ンに量子化してもよい。読取領域切出し部105
は、記憶部104に格納されているパターンから
読取領域102を切出して、文字パターン振分け
部106に送る。この切出し処理は、例えば、予
め与えられた読取領域102の媒体101上にお
ける位置情報に基づいて行なわれる。文字パター
ン振分け部106は、受取つた読取領域102の
パターンを輪郭追跡部107に送り、輪郭追跡部
107は、読取領域102内のパターンの輪郭追
跡を行なうことにより、各パターンについて、輪
郭コードを生成するとともに、幅、高さ、輪郭周
囲長などの寸法データを算出して、これらを訂正
文字判定部108に送る。輪郭コードは、例え
ば、輪郭を形成する各線分の長さと方向を表わす
コードの集合である。
訂正文字判定部108は、輪郭追跡部107か
ら送られた前記輪郭情報に基づいて、訂正文字候
補、すなわち、抹消線で抹消された文字である可
能性のあるパターンを探索し、発見されなければ
輪郭情報をそのまま文字パターン振分け部106
に回送するが、もし発見されれば、その輪郭情報
を直線検出部109に渡す。直線検出部109
は、訂正文字候補のパターンが文字行方向の2本
の直線、すなわち抹消線を含むか否かを判定し
て、その判定結果を訂正文字判定部108に返
す。訂正文字判定部108は、抹消線が存在しな
いことが判明すれば輪郭情報を文字パターン振分
け部108に送るが、抹消線の存在することが判
明すれば、訂正文字削除部110に、訂正文字パ
ターンを含む全パターンの輪郭情報を、前記判定
結果と共に送る。訂正文字削除部110は、前記
判定結果に基づいて、全パターンから訂正文字パ
ターンを削除して、残つたパターンの輪郭情報を
文字パターン振分け部106に送る。文字パター
ン振分け部106は、公知の適当な方法により、
1文字ずつ文字パターンを切出して、認識部11
1に送り、認識部111は、切出された各文字パ
ターンを公知の適当な方法により認識して、該当
する文字コードを出力する。
第6図は、第1図の装置による文字切出し処理
のフローチヤートである。以下、第4図aのパタ
ーンを読取る場合を例にして説明する。まずステ
ツプS50において、読取るべき領域Fの位置を算
出して、記憶部104中のデータから第4図aの
ような領域Fのパターンを抽出する。ステツプ
S51では、領域F内で各文字パターンの輪郭を第
7図に示すように追跡して、第8図に示す各文字
パターンP1〜P7(すなわち、輪郭が互いに離間す
る分離パターン)を抽出する。第7図は例として
数字“2”の輪郭を示す。領域Fの左上端からス
キヤンを開始して、最初に検出した白黒変化点を
開始点Sとし、そこから白黒変化点を矢印のよう
に再びSに戻るまで追跡する。この時、同時に各
パターンの幅、高さ等の寸法データも算出する。
全パターンの抽出が終ると、P1〜P7のそれぞれ
について、訂正文字候補たりうるか否かをチエツ
クする。このチエツクは、例えば、 パターン幅>1.5×〔文字枠幅〕 の条件を満たすか否かを調べればよい(ステツプ
S52)。判定(ステツプS53)の結果、P4が訂正文
字候補に挙げられ、抹消線検出処理の対象とな
る。まず、ステツプS54において、直線(抹消
線)パターンb1,b2と抹消された文字のパター
ンd1〜d3を分離するため、第9図に示すように、
各位置における文字行方向のランレングス値を求
める。この処理は、輪郭コードから2値パターン
を再生するか、あるいは記憶部104から改めて
2値パターンを読出して、それに対して行なうの
が簡明である。次に、ステツプS55において、ラ
ンレングス値の分布を調べる。まず、ランレング
ス値lrが予め決められた閾値Klよりも小さい成分
を消去することにより、第10図aのように、抹
消された文字のパターンd1〜d3を消去する。閾
値Klは、例えば文字線の太さの数倍程度に選ぶ。
次に、残つた各ランレングス成分を各文字行方向
に集計して、その値の分布を第10図bのように
求める。次のステツプS56では、前記のようにし
て求めたランレングス値の分布を調べて、直線か
否かを判定するとともに、その本数を調べて、抹
消線であるか否かを決定する。直線か否かの判定
は、例えば、ランレングス値分布のピーク値hr
びその前後一定幅内の面積SPが、それぞれ予め決
められた閾値KP及びKSよりも大きいという条件
による。直線の本数は、前記条件を満たすピーク
の個数によつて決まるが、ピーク間の距離dPが所
定値よりも小さい場合は1本の線とみなす。な
お、この例では、抹消線は2本の直線とすること
が予め規定されているものとするが、他の本数を
採用してもよい。
以上のようにして抹消線と判定されると、ステ
ツプS57において、抹消線を含むパターンすなわ
ち抹消線及びそれによつて抹消された文字とみな
されるパターンを、読取り対象から除外する。そ
の結果、第8図のパターンP4が削除され、P1〜
P3及びP5〜P7が有効文字パターンとして残る。
そこで、ステツプS58において、これら有効文字
パターンと文字枠G1〜G7の対応付けを行ない、
各文字枠に文字パターンを第11図のように振分
ける。このように振分けられた文字パターンは、
順次認識部(第1図111)に送られて、判読さ
れる。
〔発明の効果〕
本発明によれば、訂正すべき文字を抹消線で消
して余白に正しい文字を記入するという、一般に
なじみやすい形式で訂正された文字を、隣合う文
字の線の垂直方向における重なりや、正しい文字
の記入位置の不正確さの影響を受けずに、OCR
て確実に読取ることができる。その結果、帳票設
計上の制約は緩和され、また、記入者の負担も軽
減する。
【図面の簡単な説明】
第1図は本発明が適用されたOCRの一例のブ
ロツクダイヤグラム、第2図は文字訂正形式を例
示する文字群の図、第3図は従来の文字切出し処
理のフローチヤート、第4図は第3図の処理内容
の模式図、第5図は第3図の処理結果の模式図、
第6図は本発明による処理の一例のフローチヤー
ト、第7図は輪郭追跡の模式図、第8図は第6図
の処理における輪郭追跡の結果の模式図、第9図
は同じくランレングス値測定処理の模式図、第1
0図は同じくランレングス分布調査処理の模式
図、第11図は第6図の処理結果の模式図であ
る。 106……文字パターン振分け部、107……
輪郭追跡部、108……訂正文字判定部、109
……直線検出部、110……訂正文字削除部。

Claims (1)

    【特許請求の範囲】
  1. 1 光学文字読取装置において、記入された1又
    は複数の文字をその上に重ねて記入した文字行方
    向の所定数の線分で抹消して余白に新たに文字を
    記入することにより訂正が行なわれる記録媒体の
    読取りのために、読取られたパターンの各部の輪
    郭を調べて輪郭が互いに離間する各分離パターン
    を抽出する過程と、抽出された前記分離パターン
    から前記文字行方向の所定数の線分を含む分離パ
    ターンを探し出す過程と、探し出された前記文字
    行方向の所定数の線分を含む分離パターンを削除
    する過程とを有することを特徴とする訂正文字処
    理方法。
JP15760584A 1984-07-30 1984-07-30 光学文字読取装置における訂正文字処理方法 Granted JPS6136874A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15760584A JPS6136874A (ja) 1984-07-30 1984-07-30 光学文字読取装置における訂正文字処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15760584A JPS6136874A (ja) 1984-07-30 1984-07-30 光学文字読取装置における訂正文字処理方法

Publications (2)

Publication Number Publication Date
JPS6136874A JPS6136874A (ja) 1986-02-21
JPH051510B2 true JPH051510B2 (ja) 1993-01-08

Family

ID=15653375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15760584A Granted JPS6136874A (ja) 1984-07-30 1984-07-30 光学文字読取装置における訂正文字処理方法

Country Status (1)

Country Link
JP (1) JPS6136874A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6364183A (ja) * 1986-09-04 1988-03-22 Hitachi Ltd 光学文字読取装置
JPH01310494A (ja) * 1988-06-08 1989-12-14 Nec Corp 光学式文字読取装置
JP4693825B2 (ja) * 2007-09-12 2011-06-01 株式会社東芝 情報処理装置およびプログラム
JP7098808B1 (ja) * 2021-09-17 2022-07-11 株式会社東芝 文字認識装置、文字認識方法、および文字認識プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5616277A (en) * 1979-07-17 1981-02-17 Mitsubishi Electric Corp Character reader
JPS56101272A (en) * 1980-01-16 1981-08-13 Mitsubishi Electric Corp Character reader
JPS6027083A (ja) * 1983-07-22 1985-02-12 Toshiba Corp 光学的文字読取装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5616277A (en) * 1979-07-17 1981-02-17 Mitsubishi Electric Corp Character reader
JPS56101272A (en) * 1980-01-16 1981-08-13 Mitsubishi Electric Corp Character reader
JPS6027083A (ja) * 1983-07-22 1985-02-12 Toshiba Corp 光学的文字読取装置

Also Published As

Publication number Publication date
JPS6136874A (ja) 1986-02-21

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US4481665A (en) Character segmentation method
JPH0772905B2 (ja) 記号列の認識方法
JPS6077279A (ja) 文字イメ−ジ切出し方法
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
JPH051510B2 (ja)
JP2002279434A (ja) ドキュメントにおける自動的テーブル位置決め
JP3558493B2 (ja) 用紙位置合わせ装置、用紙位置合わせ方法及び用紙位置合わせプログラムを記録したコンピュータ読み取り可能な記録媒体
CN115984859A (zh) 一种图像文字识别的方法、装置及存储介质
JP3090070B2 (ja) 帳票識別方法及び装置
JP2998054B2 (ja) 文字認識方法及び文字認識装置
JPS63196990A (ja) バ−コ−ド読取装置
JP3157530B2 (ja) 文字切り出し方法
JPH07120390B2 (ja) 文字切出し方法
JP4132234B2 (ja) 文字認識方法および装置および文字認識プログラムを記録した記録媒体
JP2975720B2 (ja) 光学的文字読取装置
JP4544691B2 (ja) 文字読取装置
JP3160458B2 (ja) 文字読取装置及び文字読取方法
JP3456390B2 (ja) 文字認識方法及び装置及び文字認識プログラムを格納した記憶媒体
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPS6111886A (ja) 文字認識方式
JP2570703B2 (ja) 文字読取装置
JP2778436B2 (ja) 文字切り出し装置
JPH0737032A (ja) 手書き記号記入用紙と手書き記号認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term