JPH07104909B2 - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPH07104909B2
JPH07104909B2 JP62049172A JP4917287A JPH07104909B2 JP H07104909 B2 JPH07104909 B2 JP H07104909B2 JP 62049172 A JP62049172 A JP 62049172A JP 4917287 A JP4917287 A JP 4917287A JP H07104909 B2 JPH07104909 B2 JP H07104909B2
Authority
JP
Japan
Prior art keywords
character
label
characters
image
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62049172A
Other languages
English (en)
Other versions
JPS63216189A (ja
Inventor
秀明 田中
守啓 桂田
峰弘 紺矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP62049172A priority Critical patent/JPH07104909B2/ja
Priority to US07/164,347 priority patent/US4860376A/en
Publication of JPS63216189A publication Critical patent/JPS63216189A/ja
Publication of JPH07104909B2 publication Critical patent/JPH07104909B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、英数字用の光学的文字読取装置(以下OCRと
略する)の文字認識における相似形・同形の大小文字や
記号の判定方式に関する。
(従来の技術及び発明が解決しようとする問題点) 英文中には、相似形の大小文字(Cとc,Sとs等)や、
同形の記号(,'.・)、または切れが発生し2つに誤認
識されるもの(”→,')などが存在する。
英数字用OCRにおいて、このような文字・記号の認識
は、辞書パターンとのマッチングだけでの判別は困難で
ある。
従来は、第12図のように、抽出した行の水平方向のヒス
トグラムから、検出ラインを求める方法や、行幅からし
きい値を求める方法などが行われている。しかし、第13
図のように、行の水平方向ヒストグラムに明確な谷が現
れない場合がある。第14図(a),(b),(c)のよ
うに、行幅から最適なしきい値を設定できない場合が発
生する。すなわち、英数字では、同一フォントで印字さ
れた文書行でも、行を構成する文字種により行幅が変動
し、hなどのように上部に突き出した文字を含む場合
や、yのように下部に突き出した文字を含む場合や、j
のように上部にも下部にも突き出した文字を含む場合が
発生する。したがって、h,y,jのような文字を含むか否
かにより抽出された行の幅が変動し、また、大文字と小
文字とによっても行幅が変動する。そこで、検出された
行幅は、必ずしも上部にも下部にも突き出した文字を含
む場合の行幅と一致せず、最適なしきい値を設定できな
い場合が発生する。実際には上記文字・記号の判別は困
難な問題である。
本発明の目的は、英数字用OCRの文字認識において、相
似形・同形の大小文字や記号などを判定する方法を提供
することである。
(問題点を解決するための手段) 本発明に係る文字認識方法は、画像イメージを読み取
り、行イメージを抽出し、行イメージより個別文字のイ
メージを抽出し、辞書パターンとのマッチングをとるこ
とにより英数字・記号を認識し、上述の英数字・記号の
認識において切り出した文字列において、抽出した個別
文字の上端位置と下端位置の文字列における相対的な位
置を判別し、それぞれに上部ラベルと下部ラベルを付与
し、上部ラベル・下部ラベルと各英数字・記号との対応
が予め定められたテーブルを参照して、上記文字列のす
べての文字の上部ラベルまたは下部ラベルがテーブルに
おける対応する文字の上部ラベルまたは下部ラベルと矛
盾する場合は、上記文字列のすべての文字の最初に付与
された上部ラベルまたは下部ラベルを修正し、上記文字
列において存在する相似形・同形の所定の各文字・記号
について、以上で設定された上部ラベルと下部ラベルの
組と文字認識による最初の文字認識結果の上部ラベルと
下部ラベルの組が矛盾する場合は、当該文字・記号の上
部ラベルと下部ラベルの組に対応して文字認識結果を修
正することを特徴とする。
(作 用) 文字の認識において、マッチングにより判別の困難な相
似形・同形の文字・記号に対して、各文字の相対的な位
置関係や大きさと認識結果を用いて、認識結果を修正す
る。
(実施例) 以下、添付の図面を参照して本発明の実施例を説明す
る。第1図に、文字認識のフローを示す。第2図に、本
実施例に係るOCRのブロック図を示す。スキャナ1は、
原稿ガラス上の原稿をラインセンサで読み取り、A/D変
換を行い、次に、2値データに変換する。ラインセンサ
を副走査方向に駆動して全原稿を読みとる(ステップS
1)。
スキャナ1で読み取られた画像の2値データは、イメー
ジバッファに一旦格納される。認識制御部(マイクロプ
ロセッサを含む)3は、イメージバッファ2に格納され
た2値パターンからラインを抽出し、ラインバッファ4
に格納する(ステップS2)。次に、認識制御部3は、ラ
インバッファ4に格納された2値パターンから個別文字
を切り出し、1文字バッファ5に格納する。さらに、そ
の文字の位置と大きさを検出する(ステップS3)。認識
制御部3はその文字の特徴を抽出し、1文字特徴バッフ
ァ6に格納する。認識部7は、その特徴と辞書メモリ8
の辞書パターンとマッチングを行い、文字を認識する
(ステップS4)。認識制御部3は、この文字認識におい
て、後で説明するように、相似形・同形の大小文字や記
号を判定するため、切り出された各文字の相対的な位置
関係、大きさ、さらに認識結果も用いて、各文字に対し
切り出し位置ラベルを設定し、それにより上記の文字・
記号の判定を行う。
次に、判定の手法の手順を説明する。
a)認識制御部3は、切り出してきた単語について、切
り出された各文字の相対的な位置関係や大きさ、さらに
認識結果も用いて、認識制御部3の上部ラベルバッファ
と下部ラベルバッファにおいて、各文字に対し上部と下
部の切り出し位置ラベルを設定する(ステップS11)。
切り出してきた単語(第3図)で、各文字の垂直方
向の上部切り出し位置列U={u1,u2,…,un}から最小
値(min)を、下部切り出し位置列D={d1,d2,…,dn
から最大値(max)を求める。
しきい値T=(max−min)/7とし、次の条件 |ui−min|<T |di−max|<T (i=1,2,…,n) を満たす文字(i番目)の上部・下部ラベルバッファに
2を設定する(第4図)。
によってラベルを設定出来なかった残りの上部・
下部切り出し位置列から、それぞれ上部・下部平均
(hu,hd)を求め、と同じしきい値Tを用い、次の条
件を満たす文字(i番目)の上部・ |ui−hu|<T |di−hu|<T (i=1,2,…,n) 下部ラベルバッファに1を設定する(第5図)。
上部・下部ラベルのテーブルと認識部7の第一位認
識結果より、からまでで設定されたラベルに矛盾が
生じた場合、第一位認識結果に対応してラベルを設定し
直す(第6図,ステップS13)。第6図に示された例で
は、切り出された単語を構成する4文字とも下部に突き
出ていないため、下部ラベルは、左側に示すように、い
ずれも誤って「2」と設定されてしまう。一方、これら
の文字は下部に突き出る文字ではないと文字認識結果か
ら分かるので、右側のように、この単語の各文字の下部
ラベルを「1」と設定し直す。
b)以上でラベルの設定が終了し、次から認識結果の判
定・修正に入る。
i)大小文字の修正 誤認識しやすい相似形の大小文字(例えば、Oとo、V
とvなど)には常に次の関係がある。
小文字のラベル (1,1) 大文字のラベル (2,1) ただし、(上部切り出しラベル,下部切り出しラベル) この関係を用いてラベルの組に対応して認識結果の修正
を行う(第7図,ステップS14)。第7図に示された例
では、2番目の文字のラベルの組(1,1)が認識結果で
ある大文字のOのラベルの組と矛盾するので、ラベルの
組(1,1)に対応して小文字のoに認識結果を修正す
る。
ii),と.の判定 ラベルが(0,1)または(0,2)の文字のうち上部切り出
し位置がラベル(1,1)の文字(e,a等)の中心線に対し
て第8図(a),(b)のように下にある場合、その文
字を,または.であると判定する(ステップS15)。
iii)’と”と,の判定 ラベルが(2,0)の文字で下部切り出し位置がラベル
(1,1)の文字の中心線に対して第9図(a),(b)
のように上にある場合、その文字を’とみなし、2個連
続する場合”に修正する。また、認識結果が,でもラベ
ルが(2,0)の文字(第10図(a))と、認識結果が’
でもラベルが(0,2)の文字(第10図(b))は、それ
ぞれ、’と,に認識結果を修正する(ステップS16)。
iv)‐と・の判定 ラベルが(0,0)の文字で上部・下部切り出し位置が第1
1図の場合でかつ縦横比が1:3以上の場合、‐と判定し、
1:3以下の場合、・と判定する(ステップS17)。
以上の判定の後、文字認識結果をJISコードに変換する
(ステップS18) (発明の効果) 英数字OCRにおいて、相似形・同形の大小文字・記号の
識字率が向上する。
【図面の簡単な説明】
第1図は、文字判定のフローチャートである。 第2図は、OCRのブロック図である。 第3図は、単語の一例の2値イメージの図である。 第4図と第5図は、それぞれ、第3図の2値イメージの
各文字に対する上部ラベルと下部ラベルの初期値と設定
値を示す図である。 第6図は、第1位認識結果に対応してラベルを設定し直
す例を示す図である。 第7図は、大小文字の修正を示す図である。 第8図(a),(b)は、それぞれ、ピリオドの判定を
示す図である。 第9図(a),(b)は、それぞれ、’の判定を示す図
である。 第10(a),(b)図は、それぞれ、,の判定を示す図
である。 第11図は、‐の判定を示す図である。 第12図は、行の水平方向のヒストグラムから検出ライン
を求める方法を示す図である。 第13図は、行の水平方向のヒストグラムに明確な谷が現
われない例を示す図である。 第14図(a),(b),(c)は、それぞれ、行幅から
最適なしきい値が設定できる例を示す図である。 3……認識制御部、7……認識部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭57−59288(JP,A) 特開 昭56−38684(JP,A) 特開 昭62−187988(JP,A)

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】画像イメージを読み取り、行イメージを抽
    出し、行イメージより個別文字のイメージを抽出し、辞
    書パターンとのマッチングをとることにより英数字・記
    号を認識し、 上述の英数字・記号の認識において切り出した文字列に
    おいて、抽出した個別文字の上端位置と下端位置の文字
    列における相対的な位置を判別し、それぞれに上部ラベ
    ルと下部ラベルを付与し、上部ラベル・下部ラベルと各
    英数字・記号との対応が予め定められたテーブルを参照
    して、上記文字列のすべての文字の上部ラベルまたは下
    部ラベルがテーブルにおける対応する文字の上部ラベル
    または下部ラベルと矛盾する場合は、上記文字列のすべ
    ての文字の最初に付与された上部ラベルまたは下部ラベ
    ルを修正し、 上記文字列において存在する相似形・同形の所定の各文
    字・記号について、以上で設定された上部ラベルと下部
    ラベルの組と文字認識による最初の文字認識結果の上部
    ラベルと下部ラベルの組が矛盾する場合は、当該文字・
    記号の上部ラベルと下部ラベルの組に対応して文字認識
    結果を修正することを特徴とする文字認識方法。
JP62049172A 1987-03-04 1987-03-04 文字認識方法 Expired - Lifetime JPH07104909B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP62049172A JPH07104909B2 (ja) 1987-03-04 1987-03-04 文字認識方法
US07/164,347 US4860376A (en) 1987-03-04 1988-03-04 Character recognition system for optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62049172A JPH07104909B2 (ja) 1987-03-04 1987-03-04 文字認識方法

Publications (2)

Publication Number Publication Date
JPS63216189A JPS63216189A (ja) 1988-09-08
JPH07104909B2 true JPH07104909B2 (ja) 1995-11-13

Family

ID=12823648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62049172A Expired - Lifetime JPH07104909B2 (ja) 1987-03-04 1987-03-04 文字認識方法

Country Status (2)

Country Link
US (1) US4860376A (ja)
JP (1) JPH07104909B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US5048113A (en) * 1989-02-23 1991-09-10 Ricoh Company, Ltd. Character recognition post-processing method
JP2529421B2 (ja) * 1989-11-21 1996-08-28 株式会社日立製作所 文字認識装置
CA2027253C (en) * 1989-12-29 1997-12-16 Steven C. Bagley Editing text in an image
JP2554187B2 (ja) * 1990-04-27 1996-11-13 シャープ株式会社 基本ライン抽出方法
EP0457534B1 (en) * 1990-05-14 2001-10-31 Canon Kabushiki Kaisha Image processing method and apparatus
US5212739A (en) * 1990-10-17 1993-05-18 Hewlett-Packard Company Noise tolerant optical character recognition system
JP2835178B2 (ja) * 1990-11-28 1998-12-14 株式会社東芝 文書読取装置
JPH05346970A (ja) * 1991-04-04 1993-12-27 Fuji Xerox Co Ltd 文書認識装置
US5237627A (en) * 1991-06-27 1993-08-17 Hewlett-Packard Company Noise tolerant optical character recognition system
JP3516269B2 (ja) * 1991-11-19 2004-04-05 ゼロックス コーポレイション 文書イメージの処理装置
CA2087500A1 (en) * 1992-04-07 1993-10-08 Tetsunosuke Fujisaki Resolution of case confusions by majority voting rule in on-line handwriting recognition
US5657403A (en) * 1992-06-01 1997-08-12 Cognex Corporation Vision coprocessing
JPH06274680A (ja) * 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
US6256408B1 (en) 1994-04-28 2001-07-03 International Business Machines Corporation Speed and recognition enhancement for OCR using normalized height/width position
US5734761A (en) * 1994-06-30 1998-03-31 Xerox Corporation Editing scanned document images using simple interpretations
US5940583A (en) * 1994-11-15 1999-08-17 Canon Kabushiki Kaisha Image forming apparatus
US20170004410A1 (en) * 2015-07-03 2017-01-05 Christopher William Paran Standardized process to quantify the value of research manuscripts

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2905927A (en) * 1956-11-14 1959-09-22 Stanley F Reed Method and apparatus for recognizing words
US3295105A (en) * 1964-08-27 1966-12-27 Sylvania Electric Prod Scan control and normalization for a character recognition system
US3651459A (en) * 1970-05-15 1972-03-21 Philco Ford Corp Character distance coding
US4075605A (en) * 1974-09-13 1978-02-21 Recognition Equipment Incorporated Character recognition unit
US4024500A (en) * 1975-12-31 1977-05-17 International Business Machines Corporation Segmentation mechanism for cursive script character recognition systems
JPS58103075A (ja) * 1981-12-16 1983-06-18 Toshiba Corp 文字読取装置
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US4558461A (en) * 1983-06-17 1985-12-10 Litton Systems, Inc. Text line bounding system
JPS6180478A (ja) * 1984-09-27 1986-04-24 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション デ−タ入力・表示システム

Also Published As

Publication number Publication date
JPS63216189A (ja) 1988-09-08
US4860376A (en) 1989-08-22

Similar Documents

Publication Publication Date Title
JPH07104909B2 (ja) 文字認識方法
US5212739A (en) Noise tolerant optical character recognition system
US5844991A (en) Script identification from images using cluster-based templates
KR100412317B1 (ko) 문자인식/수정방법및장치
US5197107A (en) Character recognition apparatus
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
JP2000315247A (ja) 文字認識装置
JP2554187B2 (ja) 基本ライン抽出方法
JP2915175B2 (ja) 単語間スペース検出方法
JP2917427B2 (ja) 図面読取装置
Airphaiboon et al. Recognition of handprinted Thai characters using loop structures
JP3304512B2 (ja) 表認識装置
JP2903779B2 (ja) 文字列認識方法及びその装置
JPH06348911A (ja) 英文字認識装置
JP3710164B2 (ja) 画像処理装置及び方法
JP2877380B2 (ja) 光学的文字読取装置
JP3111522B2 (ja) 認識文字修正方法
JPH0877293A (ja) 文字認識装置および文字認識用辞書作成方法
JP2578767B2 (ja) 画像処理方法
JP3595081B2 (ja) 文字認識方法
JPH10162103A (ja) 文字認識装置
JPH01277989A (ja) 文字列パターン読み取り装置
JPH02132577A (ja) 文字認識結果の修正方法
JP2931485B2 (ja) 文字切出し装置及び方法
JPH0576674B2 (ja)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term