JP3031579B2 - 帳票の文字認識領域指定方法 - Google Patents
帳票の文字認識領域指定方法Info
- Publication number
- JP3031579B2 JP3031579B2 JP3321895A JP32189591A JP3031579B2 JP 3031579 B2 JP3031579 B2 JP 3031579B2 JP 3321895 A JP3321895 A JP 3321895A JP 32189591 A JP32189591 A JP 32189591A JP 3031579 B2 JP3031579 B2 JP 3031579B2
- Authority
- JP
- Japan
- Prior art keywords
- character recognition
- format information
- reference print
- coordinates
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Description
おける帳票の認識対象領域指定方法に係り、特に認識対
象領域を帳票の外辺やコーナから正確に印刷する必要性
をなくし、帳票の印刷条件を緩和し、電子複写による簡
易印刷によって帳票を作成することができる帳票の認識
対象領域指定方法に関する。
ト情報で指定する認識対象文字領域は、印刷された文字
枠を帳票の上端または下端からの垂直位置と、帳票の右
端または左端からの水平位置で指定する方法が一般的で
ある。このため、帳票への文字枠の印刷は、高い印刷精
度が必要であった。
/横長さ補正値の検出についても、帳票のエッジを検出
し、エッジによる傾き検出、エッジ間距離とフォーマッ
ト情報出設定された帳票長さ、帳票幅との比較によっ
て、縦/横長さ補正値を決定する方法が一般的である。
の基準マークを用いて位置検出、傾き検出、縦/横長さ
を補正を行う方法として、特開平2−12479号公報
や特開平2−39387号公報に開示された発明が提案
されている。
字領域指定方法では、印刷された文字枠の位置を帳票の
上端または下端からの距離および右端または左端からの
距離として測定し、フォーマット情報により設定してい
た。この方式によれば、帳票への文字枠列の印刷精度が
そのまま文字列の抽出(切り出し)精度に影響するた
め、通常±0.5mm程度の印刷精度が必要になる。
で印刷されているが、近年、非ドロップアウトカラー
(黒線等)の文字枠に対する文字認識も可能になってい
る。しかし、この場合においても、帳票の印刷精度は上
記精度を守る必要がり、電子複写等の簡易印刷により帳
票を作成することは不可能であった。
み成されたもので、認識対象となる文字領域の指定方式
を帳票の外辺からの位置(距離)ではなく、また新たに
基準マークを印刷することなく、あらかじめ帳票の非ド
ロップアウトカラーで印刷済みの基準印刷と認識文字領
域との相対位置を指定することにより、帳票作成の際
に、認識対象文字枠等の印刷精度を緩和し、電子複写等
の簡易印刷で帳票を作成可能にすることを目的とするも
のである。
によることなく、傾き角度、縦/横方向長さ補正値を検
出し、精度の良い文字切り出しを行うことを目的として
いる。
装置における文字認識領域指定方法は、帳票に非ドロッ
プアウトカラーで印刷された基準印刷を設け、帳票上に
印刷された基準印刷の形状を特定する情報と該基準印刷
と文字認識領域との相対位置を示す情報をフォーマット
情報として設定する。そして、帳票の入力画像データと
基準印刷の形状を特定する情報とから基準帳票の画像デ
ータを検出し、検出された基準印刷の画像データと上記
基準印刷と文字認識領域との相対位置を示す情報とに基
づいて、認識対象領域を指定するものである。
として、帳票上に印刷された基準印刷の形状を特定する
情報と、上記基準印刷と文字認識領域との相対位置を示
す情報とが与えられ、上記フォーマット情報に基づいて
帳票上の文字認識領域を指定する光学式文字認識装置に
用いられるものであり、特に上記基準印刷が非ドロップ
アウトカラーで印刷されていることを特徴としている。
領域指定方法及び帳票は、電子複写等の簡易印刷の場
合、各帳票において帳票外辺から文字認識領域までのズ
レは大きいが、印刷相互間のズレ、ずなわち印刷の相対
的なズレは少ないことに着目したものである。
られた基準印刷からの相対位置により文字認識領域を指
定するため、帳票の上端または下端からの距離および右
端または左端からの距離を正確に取る必要が無く、電子
複写等の簡易印刷によって帳票を作成することが可能に
なる。
詳細に本発明について説明する。図1は本発明にかかる
光学式文字認識装置の一実施例を示すブロック図であ
る。図1において、10は文字認識装置、11はフォー
マット情報、12はスキャナ部、13は画像メモリ、1
4は認識プロセッサ、15は認識辞書、16は制御プロ
セッサ、17はワークメモリである。
を行うため、最初にフォーマット情報11をダウンロー
ドする。フォーマット情報11のダウンロードは、例え
ばフレキシブルディスクに記録されたフォーマット情報
11をフレキシブルディスク駆動装置(図示せず)によ
って読み出し、読み出したフォーマット情報11をワー
クメモリ17に格納することによって行われる。
報11について、図2を用いて説明する。図2は認識対
象となる帳票の一例を示す図であり、この帳票には文字
認識領域22の上線21aと右線21bとから構成され
る基準印刷21が設けられている。一般に、基準印刷2
1としては、非ドロップアウトカラーで印刷された切れ
やかすれの無い、ある程度の長さを持った直線が望まし
い。この基準印刷21を示す情報が、フォーマット情報
11としてワークメモリ17に格納される。すなわち、
基準印刷21をフォーマット情報11として設定する際
の原点を例えば帳票左上のコーナとし、上線21aの左
端の座標(X,Y)と上線21aの幅Mと右線21bの
高さHがフォーマット情報11として設定される。な
お、図2に示す例では、基準印刷21は文字認識領域の
一部に含まれているが、本発明はこれに限定されるもの
ではなく、例えば基準印刷21は、文字認識領域22に
含まれていなくてもよい。また、図2に示す例では、基
準印刷21をフォーマット情報11として設定する際の
原点を帳票左上のコーナとしたが、本発明はこれに限定
されるものではなく、基準印刷21をフォーマット情報
11に設定する際の原点と文字認識領域22の位置を設
定する際の原点が一致いていれば、どこを原点としても
良い。
スキャナ部12によって光電変換して読み取り、読み取
った帳票画像のデータを画像メモリ13に格納する。図
3は、図2に示す帳票を読み取った場合の入力画像の一
例を示す説明図である。図3において、座標(0,0)
は入力画像30の原点を示し、θは基準印刷21の傾き
を示し、W′は帳票画像上の上線21aの幅を示し、
H′は帳票画像上の右線21bの高さを示し、座標
(A,B)は上記の各値に基づいて仮想された帳票画像
の原点を示し、同じく27は仮想された帳票画像の外辺
を示している。
13に格納された帳票イメージデータからフォーマット
情報11により設定された基準印刷21を検出し、基準
印刷の位置(座標(X′,Y′))、基準印刷の傾き角
度θ、基準印刷に基づく幅に対する長さ補正値KW=W
/W′と高さに対する長さ補正値KH=H/H′を求め
る。
1の位置(X′,Y′)と傾き角度θと幅と高さの長さ
補正値KW,KHとフォーマット情報11で設定された
(X,Y)とを用いて、帳票の仮想原点(A,B)と帳
票の外辺27を想定する。続いて、認識プロセッサ14
は、フォーマット情報11に設定されている認識対象と
なる文字領域22を上記仮想外辺27の相対位置に基づ
いて抽出し、文字切り出し処理を行う。その後、認識辞
書15により文字認識処理を行い、認識結果をワークメ
モリ17に格納する。
文字認識領域抽出処理について、図3および図4を用い
てさらに詳細に説明する。図4は、基準印刷の検出処理
および文字認識領域抽出処理を示すフローチャートであ
る。認識プロセッサ14は、ワークメモリ17に格納さ
れたフォーマット情報11の基準印刷21の位置情報に
基づいて、基準印刷検出処理(ステップ41)を行う。
ここで、前記したように、図3に示す例の場合、フォー
マット情報11によって設定した基準印刷21の位置情
報(X,Y)の原点は帳票の左上コーナであり、入力画
像30の原点(0,0)とは異なっている。このよう
に、一般に、入力画像30の原点(0,0)と帳票画像
の原点(A,B)とは異なることがあるため、ステップ
41において実行される基準印刷の検出範囲は、フォー
マット情報11で指定された位置よりもかなり大きい範
囲とすることが望ましい。
て、黒ドットを追跡し、いわゆるラベリング処理を行う
(ステップ42)。ラベリング処理とは、検出範囲内に
おいて得られた多数の黒ドットを、黒ドットの集合に分
けることを言い、分けられた黒ドットの集合をラベルと
称する。
(上線21a)と基準縦線(横線21b)を検出する。
基準横線を検出する場合には、Y方向幅の小さな黒ドッ
ト列を縦線と見なして除去する。また、基準縦線検出を
検出する場合には、X方向幅の小さな黒ドット列を横線
と見なして除去する(ステップ43)。
線分に接触いている不必要な線分要素を除去した後、こ
のラベル群の中からフォーマット情報11の基準印刷を
示す情報に最も近似しているラベル図形(X′,Y′,
W′,H′)を基準印刷として検出する(ステップ4
4)。
(X′,Y′)により基準印刷の位置を求め、さらに基
準印刷の幅W′と基準印刷の高さH′とフォーマット情
報11によって与えられる基準印刷の幅Wと基準印刷の
高さHとのそれぞれの比較により、帳票画像の縦/横方
向の長さ補正値KW,KHを求める。次に、求めた上線
21aについて、近似式y=ax+bにおける値a,b
を例えばハフ変換(Hough変換:直線上の各点に対
する直線位置をパラメータ平面上で二次元ヒストグラム
として集積していくと、交点位置にピークが現れ、その
位置がa,bとなる。)により求め、上線21aの傾き
角θを求める(ステップ45)。
(X′,Y′)とステップ45で求めた縦/横方向の長
さ補正値KW,KHと傾き角θとフォーマット情報11
で設定された座標(X,Y)とに基づいて、図3に示す
仮想の原点(A,B)の検出と外辺27の仮想を行う
(ステップ46)。
点(A,B)に基づいて認識対象領域22を抽出する処
理を行い(ステップ47)、文字切り出し、文字認識処
理を行う(ステップ48)。
表の外枠を想定したが、基準印刷は特に表である必要は
なく、フォーマット情報において設定された位置情報
(X,Y)の原点(上記実施例では、帳票の左上コー
ナ)を正確に想定できるものであればよい。すなわち、
基準印刷の位置、傾き角度、長さ補正値が正確に得られ
る印刷であればどのようなものでもよい。
一般的に用いられている四角形であるとして説明した
が、本発明においては必ずしも帳票の外辺から認識対象
領域を抽出する必要がないため、すなわち基準印刷の検
出範囲を入力画像データの全面に対して行うことにより
基準印刷を検出することが可能なため、三角や円形等の
特殊な形状の帳票であっても認識処理が可能になる。
って設定された文字認識領域の抽出が、基準印刷からの
相対位置に基づいて行われる。したがって、帳票のエッ
ジや外辺から文字認識領域までの距離を正確に印刷する
必要が無くなり、帳票の印刷精度を緩和することが可能
になる。したがって、従来、印刷でしか作成不可能であ
った文字認識装置用の帳票が、ワープロや電子複写等の
簡易印刷によって作成することが可能になり、光学式文
字認識装置のランニングコストを低減することができ
る。
を示すブロック図。
図。
るためのフローチャート。
スキャナ部、13…画像メモリ、14…認識プロセッ
サ、15…認識辞書、16…制御プロセッサ、17…ワ
ークメモリ、21…基準印刷、21a…上線、21b…
右線、22…文字認識領域、27…外辺、30…入力画
像。
Claims (1)
- 【請求項1】 光学式文字認識装置内のメモリに格納さ
れ、帳票上に印刷された基準印刷の形状を示す情報と、
上記帳票の文字認識領域を示す情報とを有するフォーマ
ット情報に基づいて、前記帳票の文字認識を行う帳票の
文字認識領域指定方法において、帳票内の黒ドットの集合であるラベル群の中から、ラベ
ル図形を基準印刷として検出する第1ステップと、 前記ラベル図形により前記基準印刷の座標を求め、さら
に該基準印刷の幅と高さと、前記フォーマット情報によ
って与えられる基準印刷の幅Wと高さHとのそれぞれの
比較による帳票画像の縦及び横方向の長さ補正値を求
め、前記第1ステップによって検出された前記基準印刷
の傾き角を求める第2ステップと、 前記第2ステップで求めた前記座標及び補正値及び傾き
角とフォーマット情報で設定によって与えられた座標に
基づいて、帳票の原点と外辺との仮想を行う第3ステッ
プと、 前記第3ステップで仮想された帳票の原点に基づいて、
前記フォーマット情報に含まれる認識対象領域を抽出し
て、該認識対象領域に記載された文字の認識を行う第4
ステップとを含むことを特徴とする 帳票の文字認識領域
指定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3321895A JP3031579B2 (ja) | 1991-12-05 | 1991-12-05 | 帳票の文字認識領域指定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3321895A JP3031579B2 (ja) | 1991-12-05 | 1991-12-05 | 帳票の文字認識領域指定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05159099A JPH05159099A (ja) | 1993-06-25 |
JP3031579B2 true JP3031579B2 (ja) | 2000-04-10 |
Family
ID=18137603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3321895A Expired - Lifetime JP3031579B2 (ja) | 1991-12-05 | 1991-12-05 | 帳票の文字認識領域指定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3031579B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101970842B (zh) * | 2008-03-14 | 2013-03-27 | 创想科学技术工程株式会社 | 内燃机的垫圈以及内燃机 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008083846A (ja) * | 2006-09-26 | 2008-04-10 | Oki Electric Ind Co Ltd | 認識対象領域決定方法及び装置 |
JP5844698B2 (ja) * | 2012-07-30 | 2016-01-20 | 富士通フロンテック株式会社 | 文字認識装置 |
JP6222541B2 (ja) * | 2013-03-05 | 2017-11-01 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP6208094B2 (ja) | 2014-08-26 | 2017-10-04 | 株式会社東芝 | 情報処理装置、情報処理システム、情報処理方法及びそのプログラム |
JP6548920B2 (ja) | 2015-03-09 | 2019-07-24 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
JP2017021695A (ja) | 2015-07-14 | 2017-01-26 | 株式会社東芝 | 情報処理装置および情報処理方法 |
JP2019159633A (ja) * | 2018-03-12 | 2019-09-19 | セイコーエプソン株式会社 | 画像処理装置、画像処理方法および画像処理プログラム |
-
1991
- 1991-12-05 JP JP3321895A patent/JP3031579B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101970842B (zh) * | 2008-03-14 | 2013-03-27 | 创想科学技术工程株式会社 | 内燃机的垫圈以及内燃机 |
Also Published As
Publication number | Publication date |
---|---|
JPH05159099A (ja) | 1993-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH08287184A (ja) | 画像切り出し装置及び文字認識装置 | |
JP3031579B2 (ja) | 帳票の文字認識領域指定方法 | |
CN115984859B (zh) | 一种图像文字识别的方法、装置及存储介质 | |
JPH0410087A (ja) | 基本ライン抽出方法 | |
JPS6325391B2 (ja) | ||
JPH03263282A (ja) | 文字読取装置の文字切出し方法 | |
JP2909132B2 (ja) | 光学的文字読取装置 | |
JP3356819B2 (ja) | マーク認識装置 | |
JP2786044B2 (ja) | 光学的文字読み取り装置 | |
JP2925270B2 (ja) | 文字読取装置 | |
JP3190794B2 (ja) | 文字切り出し装置 | |
JP3954247B2 (ja) | 文書入力方法、文書入力プログラムを記録した記録媒体及び文書入力装置 | |
JPH06111057A (ja) | 光学的文字読取装置 | |
JPH07210628A (ja) | 免許証読み取り装置 | |
JP3381803B2 (ja) | 傾き角検出装置 | |
JPS63101983A (ja) | 文字列抽出方式 | |
JP2859307B2 (ja) | 文字切出し装置 | |
JP3022655B2 (ja) | 文字認識装置 | |
JP3334369B2 (ja) | 選択項目認識装置 | |
CN114119349A (zh) | 一种图像信息提取方法、装置及介质 | |
JP3239965B2 (ja) | 文字認識装置 | |
JPH0652350A (ja) | 文字認識装置 | |
JPH03250387A (ja) | 文字切出し方式 | |
JPH05151396A (ja) | 下線付文字の切出方法 | |
JPS62169286A (ja) | 文字切出方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080210 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090210 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090210 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100210 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100210 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110210 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120210 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120210 Year of fee payment: 12 |