JP3524339B2 - 光学式文字読取装置用帳票のフォーマット情報生成方法 - Google Patents

光学式文字読取装置用帳票のフォーマット情報生成方法

Info

Publication number
JP3524339B2
JP3524339B2 JP22771797A JP22771797A JP3524339B2 JP 3524339 B2 JP3524339 B2 JP 3524339B2 JP 22771797 A JP22771797 A JP 22771797A JP 22771797 A JP22771797 A JP 22771797A JP 3524339 B2 JP3524339 B2 JP 3524339B2
Authority
JP
Japan
Prior art keywords
frame
line
range
entry
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22771797A
Other languages
English (en)
Other versions
JPH1166228A (ja
Inventor
克己 福地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP22771797A priority Critical patent/JP3524339B2/ja
Publication of JPH1166228A publication Critical patent/JPH1166228A/ja
Application granted granted Critical
Publication of JP3524339B2 publication Critical patent/JP3524339B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、光学式文字読取装
置(以下、「OCR」という)用帳票における認識対象
文字の記入位置に関する情報を生成するOCR用帳票の
フォーマット情報生成方法に関するものである。 【0002】 【従来の技術】図2は、OCR用の帳票の一例を示す図
である。この帳票10上には、認識対象となる文字を記
入するための記入枠11,12,…が印刷されている。
例えば、記入枠11は、手書き文字を1文字ずつ区切っ
て記入するために上枠a、下枠b、左枠c、及び右枠d
の4本の囲み線で形成された文字枠が一定の間隔で複数
個配列された普通枠である。記入枠12は、プリンタ等
によって印字を行うためのフリーピッチのものであり、
長方形の各辺を形成する上枠a、下枠b、左枠c、及び
右枠dの4本の囲み線で構成されている。記入枠13
は、複数の数字等を手書きで記入するための表形式のも
のであり、4本の囲み線の他に各桁を区切るための複数
の区切り線eが設けられている。また、記入枠14のよ
うに、枠内に文字が印字されている場合もある。このよ
うな、上枠a、下枠b、左枠c、及び右枠dの囲み線
や、区切り線eは、実線で印刷されているもののほか、
記入枠15のように点線で印刷されたものや、ドロップ
アウト・カラーで印刷されたものがある。このような帳
票10がOCRによって読取られると、この帳票10の
全体が複数の画素に分解され、その各画素毎に白または
黒に区分されたイメージデータがOCR内のイメージメ
モリに格納される。そして、イメージメモリに格納され
たイメージデータの中から、帳票10の記入枠11,1
2,…に対応する記憶領域に格納されたイメージデータ
が切出されて、文字認識が行われる。このイメージデー
タの切出し及び文字認識の際に、帳票10における認識
対象となる文字の記入位置や記入枠等に関する情報、即
ち帳票10のフォーマット情報に基づいて、イメージメ
モリの該当する記憶領域に格納されたイメージデータが
読出され、文字認識が行われるようになっている。 【0003】従来、このような帳票10のフォーマット
情報は、次のような方法で作成されていた。即ち、帳票
10における各記入枠11,12,…の四隅の座標を物
差し等ではかり、その座標の値と、記入枠11,12,
…のそれぞれの形態(普通枠、表形式、フリーピッチ、
枠線の印刷色等)を登録するとともに、該記入枠11等
の中に記入される文字の種別(漢字、英数字、かな文
字、単語照合等)の情報を、キーボード等からの指示に
よって予めフォーマット情報として登録するようにして
いた。 【0004】 【発明が解決しようとする課題】しかしながら、従来の
OCR用帳票のフォーマット情報の作成方法では、人手
作業によって帳票10の各記入枠11,12,…の四隅
の座標を測定して入力する必要があり、その測定と入力
作業に長時間を要するとともに、測定誤差や入力誤りが
発生する等の課題があった。本発明は、前記従来技術が
持っていた課題を解決し、未記入の帳票をイメージ読取
装置で読取り、その読取ったデータからフォーマット情
報を生成することができるOCR用帳票のフォーマット
情報生成方法を提供するものである。 【0005】 【課題を解決するための手段】前記課題を解決するた
め、発明は、OCRで読取られる帳票上に予め印刷さ
れた文字記入用の記入枠の位置及び該記入枠の枠線の種
を登録するフォーマット情報の生成方法において、次
のような処理を順次行っている。まず、認識対象となる
文字が記入されていない前記帳票のイメージデータを読
取るイメージ読取り処理と、前記イメージ読取り処理で
読取られた前記帳票のイメージデータを表示するイメー
ジ表示処理と、前記イメージ表示処理で表示された前記
帳票のイメージデータに基づいて、前記認識対象となる
文字が記入されるべき指定範囲を指定する範囲指定処理
と、前記範囲指定処理で指定された指定範囲に基づい
て、該指定範囲に対応する記入枠の位置を検出するため
の枠線検出範囲を算出する検出範囲算出処理とを行う。
そして、前記検出範囲算出処理で算出された前記枠線検
出範囲に存在する前記記入枠の枠線を検出する枠線検出
処理と、前記枠線検出処理で検出された枠線を構成する
複数の図形の中から、その寸法が所定の範囲内にあるも
のを点の図形として抽出し、抽出した点の図形の長さの
合計が判定基準を満たしている場合に、各点の図形の中
心座標に基づいてこれらの点の図形で構成される近似直
線を求め、該各点の図形の中心が該近似直線から一定の
距離内に入っているときに、該枠線が点線であると判定
する線種判定処理と、前記枠線検出処理で検出された枠
線の位置と前記線種判定処理で判定された前記枠線の線
を含む前記帳票のフォーマット情報を表示するフォー
マット情報表示処理と、前記フォーマット情報表示処理
で表示されたフォーマット情報を登録するフォーマット
情報登録処理とを行う。 【0006】 【0007】 【0008】発明によれば、次のような作用が行われ
る。イメージ読取り処理及びイメージ表示処理によっ
て、認識対象となる文字が記入されていない帳票のイメ
ージデータが読取られて表示される。範囲指定処理によ
って、該表示されたイメージデータに対して文字が記入
されるべき指定範囲が指定されると、検出範囲算出処理
によって、その指定された指定範囲に基づいて記入枠の
位置を検出するための枠線検出範囲が算出される。枠線
検出処理によって、該算出された枠線検出範囲内に存在
する記入枠の枠線が検出され、更に、線種判定処理によ
って、前記枠線検出処理で検出された枠線を構成する複
数の図形の中から、その寸法が所定の範囲内にあるもの
を点の図形として抽出し、抽出した点の図形の長さの合
計が判定基準を満たしている場合に、各点の図形の中心
座標に基づいてこれらの点の図形で構成される近似直線
を求め、該各点の図形の中心が該近似直線から一定の距
離内に入っているときに、該枠線が点線であると判定さ
れる。検出された枠線の位置と枠線の線種の情報は、フ
ォーマット情報として表示されるとともに、フォーマッ
ト情報登録処理によってOCR用帳票のフォーマット情
報として登録される。 【0009】 【0010】 【発明の実施の形態】図1は、本発明の実施形態のOC
R用帳票のフォーマット情報生成方法で用いられるフォ
ーマット情報生成装置の構成図である。このフォーマッ
ト情報生成装置は、フォーマット情報登録の対象となる
OCR用帳票10のイメージを入力するために、例え
ば、イメージスキャナ等によるイメージ入力部21を有
している。イメージ入力部21は、イメージ読取部22
に接続されている。イメージ読取部22は、イメージ入
力部21から入力された帳票10のイメージをイメージ
データとしてイメージデータ記憶部23に書込む機能を
有している。イメージ読取部22及びイメージデータ記
憶部23には、イメージ表示部24が接続されている。
イメージ表示部24は、イメージデータ記憶部23に記
憶された帳票10のイメージデータを読出して、その帳
票10のイメージを表示部25に表示するものである。 【0011】イメージ表示部24には記入範囲指定部2
6が接続され、更に記入範囲指定部26には範囲入力部
27が接続されている。範囲入力部27は、表示部25
に表示された帳票10のイメージ上の記入枠11等の位
置をこの表示部25に連動して指定するため入力装置で
あり、例えば、マウス等の座標入力装置によって構成さ
れている。記入範囲指定部26には、更に、検出範囲算
出部28が接続されている。検出範囲算出部28は、記
入範囲指定部26で指定された記入枠11等の範囲に基
づいて、帳票10の読取時の傾斜等の誤差範囲を考慮し
て、一定の余裕を含む記入枠検出範囲を算出するもので
ある。検出範囲算出部28には、枠線検出部29が接続
されている。枠線検出部29は、検出範囲算出部28で
算出された記入枠検出範囲に存在する記入枠11等の枠
線、即ち、上枠a、下枠b、左枠c、及び右枠dの囲み
線をすべて検出する機能を有している。枠線検出部29
には、線種判定部30が接続されている。線種判定部3
0は、枠線検出部29で検出された枠線の線種が、実線
であるか点線であるかを判定するものであり、この線種
判定部30に、フォーマット表示部31が接続されてい
る。フォーマット表示部31は、枠線検出部29で検出
された枠線の位置、及び線種判定部30で判定されたそ
の枠線の線種等のフォーマット情報を生成して、表示部
25に表示する機能を有している。更に、フォーマット
表示部31には、登録部32が接続されている。登録部
32は、フォーマット表示部31で生成されたフォーマ
ット情報をフォーマット情報記憶部33に登録するもの
である。 【0012】次に、図1の各部の動作(1)〜(5)
を、図3〜図13を参照しつつ説明する。 (1) イメージ入力部21〜範囲入力部27の動作 図3は、表示部25に表示された帳票10のイメージデ
ータの表示例を示す図である。まず、フォーマット情報
を登録しようとする帳票10で、まだ文字が記入されて
いないものを用意し、イメージ入力部21から入力す
る。これにより、イメージ入力部21から入力された帳
票10のイメージ情報がイメージ読取部22に与えられ
る。イメージ読取部22に与えられた帳票10のイメー
ジ情報は、逐次、所定の形式のイメージデータに変換さ
れてイメージデータ記憶部23に格納される。帳票10
のイメージ入力が終了し、この帳票10のイメージデー
タがすべてイメージデータ記憶部23に格納されると、
イメージ読取部22からイメージ表示部24が起動され
る。イメージ表示部24によって、イメージデータ記憶
部23中の帳票10のイメージデータが読出され、図3
に示すように表示部25に表示される。表示部25にイ
メージデータが表示された後、記入範囲指定部26が起
動される。これにより、オペレータは、マウス等の範囲
入力部27を用いて、表示部25に表示された画面上
で、記入枠11等の存在範囲の指定を行う。例えば、オ
ペレータは、図3において帳票10の記入枠13の存在
範囲を指定するために、矩形状の指定範囲13Xの左上
の点13aと右下の点13bを指定する。これにより、
記入範囲指定部26によって画面上の指定範囲13X
に、例えばハッチが付けられ、記入枠13が指定範囲1
3Xによって指定されたことが表示される。 【0013】(2) 検出範囲算出部28の動作 指定範囲13Xが指定された後、具体的方法は図示して
いないが、オペレータによってキーボートまたはマウス
から「確認」の入力が行われると、検出範囲算出部28
が起動される。検出範囲算出部28によって、指定範囲
13Xの範囲が上側、下側、左側、及び右側にそれぞれ
一定寸法(例えば、10mm)だけ拡張されて、枠線検
出範囲13Yの位置が算出される。これは、図3に示す
ように、帳票10を読取った時に傾斜等によって読取位
置がずれることを考慮して、指定範囲13Xよりも若干
広い範囲の中から枠線を検出するために、枠線検出範囲
13Yを設定する処理である。 【0014】(3) 枠線検出部29の動作 図4は、ヒストグラム法による枠線検出方法の説明図で
ある。枠線検出部29では、例えば、図4に示すような
方法で枠線検出が行われる。検出範囲算出部28で算出
された枠線検出範囲13Yのイメージを構成する画素の
黒点数が、検出しようとする枠線と同一方向(例えば、
図4におけるx方向及びy方向)に集計されて、ヒスト
グラムHG1,HG2がそれぞれ作成される。例えば、
ヒストグラムHG1におけるHxは度数、即ちx方向に
集計された黒点数を示す座標軸であり、yは上下位置を
示す座標軸である。x方向のヒストグラムHG1には、
記入枠13の上枠aに対応する棒状の黒点数分布Hxa
と、下枠bに対応する棒状の黒点数分布Hxbが出来
る。また、y方向のヒストグラムHG2には、記入枠1
3の左枠cに対応する棒状の黒点数分布Hycと、右枠
dに対応する棒状の黒点数分布Hydの他、複数の区切
り線eに対応する複数の棒状の黒点数分布Hyeが出来
る。これらの黒点数分布Hxa等は、枠線の無い部分の
黒点数に比べて大きな値となっているので、適切な閾値
でヒストグラムHG1,HG2を2値化することによ
り、記入枠13を構成する上枠a、下枠b、右枠c、左
枠d、及び区切り線eの枠線の位置を検出することがで
きる。このようにして検出された複数の枠線に基づい
て、記入枠の形態が表形式であるか、記入枠内に既に文
字が印刷されている特殊枠であるかの判定処理が行われ
る。次に、(3−1)表形式の判定方法と、(3−2)
特殊枠の判定方法に分けて説明する。 【0015】(3−1) 表形式の判定方法 図5は、記入枠の形態が表形式であるか否かの判定方法
を説明するための図であり、記入範囲指定部26の処理
において指定した帳票10の記入枠13に対する指定範
囲13Xと、枠線検出部29で検出された縦方向の枠線
FLi(但し、i=1〜m)の位置関係が示されてい
る。図5のxy平面において、指定範囲13Xの上端U
Sのy座標をya、下端DSのy座標をybとする。ま
た、指定範囲13Xの左端LSのx座標をxa、右端R
Sのx座標をxbとする。更に、枠線FLiの一端FL
iaの座標を(xia,yia)、他端FLibの座標
を(xib,yib)とする。まず、枠線FLiが次の
条件を満たしているか否かが判定される。 条件1: xa<xia<xb 条件2: xa<xib<xb 条件3: yia<(ya+K1) 条件4: yib>(yb−K1) 但し、K1:枠線検出処理の誤差の許容値(例えば、K
1=1mm) 複数の縦方向の枠線FLiに対して、それぞれ前記条件
1〜4が満たされているか否かが判定され、すべての条
件1〜4が満たされていない枠線は、記入枠13を構成
する枠線ではないと見なされて廃棄される。 【0016】次に、前記条件1〜4をすべて満たしてい
る枠線FLiについて、各枠線FLiのx座標の平均値
xaviが次式により計算される。 xavi=(xia+xib)/2 ・・・(1) そして、計算された各枠線FLiの平均値xaviは、
昇順に並べられて、数列xav1,xav2,xav
3,…が作成される。次に、この数列xav1,xav
2,xav3,…の隣合う要素同志の差分数列xd1,
xd2,xd3,…が作成される。この差分数列数列x
d1,xd2,xd3,…の各要素の値の偏差(各要素
の値とその平均値との差)がすべて、表形式の判定基準
値K2(例えば、K2=1mm)以下であれば、複数の
縦方向の枠線FLiが等間隔に並んでいると見なされ
て、この記入枠13の形態は表形式であると判定され
る。 【0017】(3−2) 特殊枠の判定方法 例えば、帳票10の記入枠14のように、枠内に文字
「金額」が予め印刷されている場合、この記入枠14の
中の印刷文字の部分を読取範囲から除外しておかなけれ
ならない。このために、文字枠14が内部に文字が印刷
された特殊枠であるか否かが判定され、特殊枠であれ
ば、その読取範囲を特定するための処理が行われる。図
6は、この特殊枠の判定処理の手順を示すフローチャー
トであり、図7(a)〜(c)及び図8は、特殊枠判定
処理の各段階における説明図(その1),(その2)で
ある。まず、図6のステップS11において、囲み線の
除去処理が行われる。即ち、表示部25に表示された帳
票10の表示画面上で、オペレータから指定された指定
範囲14Xに基づいて検出範囲14Yが算出され、この
検出範囲14Yの範囲内の記入枠14等の枠線が消去さ
れる。枠線の検出は、例えば、図4に示したようなヒス
トグラム法によって行われる。ステップS11の結果、
図7(a)に示される指定範囲14Xが得られる。この
指定範囲14Xには、印刷文字14aの他、汚れ14
b,14c等の不純物が含まれることがある。ステップ
S11の後、ステップS12へ進む。 【0018】ステップS12において、指定範囲14X
のイメージを構成する画素の黒点数が縦方向(即ち、y
方向)に集計されて、ヒストグラムHG3が作成され
る。図7(b)は、ステップS12で作成されたヒスト
グラムHG3である。ヒストグラムHG3におけるHy
は黒点数を示す座標軸であり、xは横方向の位置を示す
座標軸である。図7(b)に示すように、ヒストグラム
HG3上には、印刷文字14aの「金」「額」、及び汚
れ14b,14cのx座標に対応した黒点数が示されて
いる。ステップS12の後、ステップS13へ進む。ス
テップS13において、2値化処理が行われる。この2
値化処理では、ヒストグラムHG3上の黒点数が、次の
(2)式によって定められる閾値TH1によって、論理
値“0”,“1”のいずれかに分類される。 TH1=K3/(イメージ1画素の寸法) ・・・(2) ここで、(イメージ1画素の寸法)は、イメージ入力部
21の分解能から算出される値であり、例えば、分解能
が8ドット/mmであれば、(イメージ1画素の寸法)
=1mm/8=0.125mmとなる。また、K3は、
指定範囲14X内に存在する汚れ14b等の不純物の大
きさ(高さ)の許容値であり、例えば、K3=1mmに
設定される。この2値化処理によって、大きさがK3
(=1mm)以下の不純物が除去され、図7(c)に示
す2値化された画素レベルによって、分割された複数の
横方向ブロックbl1,bl2,bl3が得られる。ス
テップS13の後、ステップS14へ進む。 【0019】ステップS14において、不純物除去処理
が行われる。この不純物除去処理は、ステップS13で
除去されなかった大きさK3以上の汚れ14c等の不純
物を除去する処理である。このステップS14では、ス
テップS13で得られた複数の横方向ブロックbl1,
bl2,bl3の中から、横幅がK3以下の横方向ブロ
ックと、2値化する以前の黒画素数の合計が次の(3)
式で定められる一定数K4以下の横方向ブロックが不純
物と見なされて除去される。 K4=K5/(イメージ1画素の寸法) ・・・(3) 但し、K5:不純物の面積の許容値(例えば、K5=2
mm) このステップS14の不純物除去処理によって、汚れ1
4cによる横方向ブロックbl3が除去され、ステップ
S15へ進む。ステップS15において、横方向のブロ
ック統合処理が行われる。このブロック統合処理は、隣
合うブロックとの間隔が一定値K6以下である場合、そ
の両隣のブロックを連結して1つの大きなブロックに統
合する処理である。ここで、一定値K6は、記入枠の横
幅として必要な最小限度の寸法であり、例えば、K6=
10mmに設定される。 【0020】このようにして統合されて出来た単数また
は複数のブロックの内の最左端のブロックと、指定範囲
14Xの左端との間でもブロック統合処理が行われる。
即ち、最左端のブロックと指定範囲14Xの左端の間隔
が一定値K6以下であれば、この間隔は最左端のブロッ
クの範囲に統合される。また、最右端のブロックと指定
範囲14Xの右端の間隔が一定値K6以下であれば、こ
の間隔は最右端のブロックの範囲に統合される。図7
(d)は、ステップS15のブロック統合処理によって
生成された横ブロックBL1,BL2を示している。ス
テップS15の後、ステップS16へ進む。ステップS
16では、ステップS15で生成された横ブロックBL
1,BL2に対して、その横ブロックBL1,BL2の
イメージを構成する画素の黒点数が、横方向(即ち、x
方向)に集計されてヒストグラムHG4が作成される。
図8は、ステップS16で作成されたヒストグラムHG
4である。ヒストグラムHG4におけるHxは黒点数を
示す座標軸であり、yは縦方向の位置を示す座標軸であ
る。図8に示すように、ヒストグラムHG4上には、印
刷文字14aの「金額」のy座標に対応する黒点数が示
されている。ステップS16の後、ステップS17へ進
む。 【0021】ステップS17において、2値化処理が行
われる。この2値化処理では、ヒストグラムHG4上の
黒点数が、次の(4)式によって定められる閾値TH2
によって、論理値“0”,“1”のいずれかに分類され
る。 TH2=K7/(イメージ1画素の寸法) ・・・(4) ここで、(イメージ1画素の寸法)は、前記ステップS
13における(イメージ1画素の寸法)と同じである。
また、K7は、横方向ブロック内に存在する汚れ等の不
純物の大きさ(横幅)の許容値であり、例えば、K7=
1mmに設定される。この2値化処理によって、大きさ
がK7(=1mm)以下の不純物が除去され、図8に示
す2値化された画素レベルによって、分割された単数ま
たは複数の縦ブロックが得られる。ステップS17の
後、ステップS18へ進む。ステップS18において、
ステップS17で分割された単数または複数の縦ブロッ
クの内の各白領域のy方向の距離(即ち、高さ)が算出
され、ステップS19へ進む。ステップS19におい
て、ステップS18で算出された1つの白領域について
の判定処理が行われる。即ち、白領域の高さHW(例え
ば、l1)が一定値K8よりも大きいか否かが判定され
る。ここで、一定値K8は、文字を記入する記入枠とし
ての最小限度の高さであり、例えば、K8=3mmが設
定される。ステップS19の判定処理により、HW(=
l1)≧K8と判定されれば、ステップS20へ進み、
HW(=l1)<K8と判定されれば、ステップS21
へ進む。 【0022】ステップS20では、ステップS19で判
定された白領域が記入枠と判定されて、分割記入枠とし
て登録される。一方、ステップS21では、ステップS
19で判定された白領域は非記入枠と判定されて除去さ
れる。ステップS20,S21の後、ステップS22へ
進む。ステップS22では、横ブロックBL1,BL2
に対するすべての白領域の処理が終了したか否かが判定
され、もし未処理のものが残っていれば、ステップS1
9へ戻る。すべての白領域に対する処理が終了していれ
ば、ステップS23へ進む。ステップS23では、すべ
ての横ブロックBL1,BL2に対するステップS16
〜S22の処理が終了したか否かが判定され、もし未処
理のものが残っていれば、ステップS16へ戻る。すべ
ての横ブロックBL1,BL2に対する処理が終了して
いれば、特殊枠の判定処理は終了する。この特殊枠の判
定処理により、印刷文字を含む記入枠は、複数の矩形状
の分割記入枠に分割され、これらの分割されて出来た分
割記入枠がフォーマット情報として生成される。 【0023】(4) 線種判定部30の動作 線種判定部30では、前記枠線検出部29で検出された
各枠線について、その枠線が実線であるか、点線である
かの線種判定が行われる。次に、(4−1)直線の判定
方法と、(4−2)点線の判定方法に分けて説明する。 (4−1) 直線の判定方法 図9は、直線の判定方法を説明するための図であり、記
入範囲指定部26の処理において指定された帳票10の
記入枠13に対する指定範囲13Xと、枠線検出部29
で検出された枠線の位置関係を示している。図9におい
て、水平方向の上端USまたは下端DSの長さL1と、
この上端USまたは下端DSと枠線aとが水平方向軸
(x座標)上で重なり合う部分の長さL2とが求められ
る。また、上端USまたは下端DSと枠線aとが水平方
向軸上で重なり合う部分の面積Sが求められる。このよ
うにして求められた長さL1,L2、及び面積Sについ
て、次の条件5,6が成立するか否かが調べられる。 条件5: L2>(L1×K9) 条件6: S<(L2×K10) 但し、K9:重なり程度の判定基準値(例えば、K9=
0.8) K10:線間平均距離の判定基準値(例えば、K10=
2mm) ここで、条件5,6が同時に成立していれば、枠線aは
直線であると判定される。 【0024】(4−2) 点線の判定方法 図10は、点線の判定方法を説明するための図であり、
記入範囲指定部26の処理において指定された帳票10
の記入枠15に対する指定範囲15Xと、指定範囲15
Xの下側の指定範囲枠15DSに沿って印刷された点線
15DLが示されている。また、図11は点線の判定方
法の処理手順を示すフローチャートであり、図12は点
線を構成する「点」の図形の一例を示す図である。図1
1のステップS31において、オペレータによって指定
された指定範囲枠15DSに基づいて点線検出領域15
Yが設定される。即ち、この点線検出領域15Yの左端
及び右端は、指定範囲15Xの左端及び右端に等しく設
定される。また、点線検出領域15Yの上端及び下端
は、指定範囲枠15DSを検出位置の誤差の許容値とし
てK11(例えば、K11=2mm)だけ、上側及び下
側に移動した位置にそれぞれ設定される。ステップS3
1の後、ステップS32へ進む。ステップS32におい
て、設定された点線検出領域15Yの中にあるすべての
図形の輪郭が抽出され、ステップS33へ進む。 【0025】ステップS33において、図12に示すよ
うに、抽出された各図形の上端、下端、左端、及び右端
の位置が求められ、抽出された各図形の中から、点線を
構成する「点」の図形15Dと推定されるものが取出さ
れる。即ち、抽出された図形15Dの上端のy座標をy
u、下端のy座標をyd、右端のx座標をxr、及び左
端のx座標をxlとして、次の条件7,8が成立するか
否かが調べられる。 条件7:(yd−yu)<K12 条件8:K13<(xr−xl)<K14 但し、K12:「点」の最大の太さ(例えば、K12=
0.75mm) K13:「点」の最小の長さ(例えば、K13=0.5
mm) K14:「点」の最大の長さ(例えば、K14=2m
m) そして、条件7,8が同時に成立していれば、その抽出
された図形15Dは、点線を構成する「点」であると見
なされる。すべての抽出された図形について「点」であ
るか否かが調べられた後、ステップS34へ進む。 【0026】ステップS34において、「点」と見なさ
れた図形15Dのすべてについて、次の(5)式により
横幅の合計値SWが計算される。 SW=Σ(xr−xl) ・・・(5) ステップS35において、(5)式で算出された横幅の
合計値SWが、次の条件9を満たしているか否かが調べ
られる。 条件9:SW>W0×K15 但し、W0:指定範囲15Xの横幅 K15:点線判定基準値(例えば、K15=0.25) 条件9が満たされていれば、次のステップS36へ進
み、条件9が満たされていなければ、点線でないと判断
されて処理は終了する。ステップS36において、
「点」と見なされた各図形15Dの中心座標(xi,y
i)が求められ、ステップS37へ進む。 【0027】ステップS37において、各図形15Dの
中心座標(xi,yi)を通る直線の近似式が、最小2
乗法を用いて算出される。即ち、直線の近似式は次の
(6)式のように仮定される。 y=(1/α)×x+β ・・・(6) そして、(6)式中の係数α,βは、次の(7)〜(1
2)式に従って求められる。 Sx=Σxi ・・・(7) Sxx=Σ(xi×xi) ・・・(8) Sxy=Σ(xi×yi) ・・・(9) Sy=Σyi ・・・(10) α=(n×Sxx−Sx×Sx)/(n×Sxy−Sx×Sy) ・・・(11) β=(Sxx×Sy−Sxy×Sx) /(n×Sxx−Sx×Sx) ・・・(12) 但し、n:図形15Dの個数 ステップS38において、(6)式の直線の近似式の算
出に使用された図形15Dの中心座標(xi,yi)
が、この近似式(6)にそれぞれ代入されて、次の(1
3)式によって、この直線からの距離eiが計算され
る。 ei=yi−{(1/α)×xi+β} ・・・(13) ステップS39において、各図形15Dが点線15DL
を構成する「点」であるか、否かの判定が行われる。即
ち、(13)式で求められた距離eiの絶対値が、判定
基準値K16(例えば、K16=0.5mm)より大き
ければ、点線15DL上の「点」ではないと判定され
て、次のステップS40へ進み、判定基準値K16より
も小さければ、ステップS41へ進む。 【0028】ステップS40において、図形15Dは、
点線を構成する「点」ではないと見なされて除外され、
ステップS41へ進む。ステップS31において、すべ
ての「点」を構成すると見なされる図形15Dに対して
判定基準値K16による判定が終了したか否かがチェッ
クされ、判定されていない図形15Dが残っていれば、
ステップS38へ戻る。すべての図形15Dの判定処理
が終了していれば、ステップS42へ進む。ステップS
42では、前記ステップS40において除外された図形
15Dがあるか否かが判断される。もし、除外された図
形15Dがあれば、ステップS37へ戻る。除外された
図形15Dがなければ、枠線は点線であると判定されて
処理は終了する。 【0029】(5) フォーマット表示部31〜登録部
32の動作 フォーマット表示部31では、前記枠線検出部29で検
出された枠線の位置や、線種判定部30で判定された枠
線の種別が、表示部25に表示される。図13は、フォ
ーマット情報生成処理によって得られた帳票10のフォ
ーマット情報の一例(一部)を示す図である。この図1
3に示すように、枠線の四隅座標(左端座標、上端座
標、右端座標、及び下端座標)や囲み線形状として実線
や点線の線種等が表示され、オペレータによって確認ま
たは訂正等の処置をとることが出来るようになってい
る。フォーマット表示部31での表示結果が、正しけれ
ば、オペレータの操作に基づいて、登録部32が起動さ
れ、帳票10のフォーマット情報はフォーマット情報記
憶部33に登録され、フォーマット情報生成処理が終了
する。 【0030】以上のように、この実施形態では、次の
(i)〜(iv)のような利点がある。 (i) 検出範囲算出部28では、記入範囲指定部26
でオペレータが指定した記入枠11の指定範囲11X等
に基づいて、これより若干広い記入枠の検出範囲11Y
が算出されるので、オペレータは指定作業を厳密に行う
必要がなくなり、作業が楽になる。 (ii) 枠線検出部29では、未記入の帳票10のイメ
ージデータから記入枠11等の枠線が検出されるので、
記入枠11等の位置の座標を測定して入力する作業がな
くなり、迅速かつ正確なフォーマット情報の生成が可能
になる。 (iii) 線種判定部30では、イメージデータに基づい
て記入枠11等の枠線の種別が直線か点線かが判定され
るので、線種を入力する作業がなくなり、迅速なフォー
マット情報の生成が可能になる。 (iv) フォーマット表示部31では、検出結果や判定
結果が表示されるので、オペレータはその表示内容を確
認して、もしも誤った結果が表示されているときには、
再処理や訂正等の処置を行うことが可能になる。 【0031】なお、本発明は、上記実施形態に限定され
ず、種々の変形が可能である。この変形例としては、例
えば、次の(a)〜(e)のようなものがある。 (a) 枠線の線種を判定する必要がない場合には、線
種判定部30を省略しても良い。 (b) 各種の判定基準用の値K1〜K16は一例であ
り、実際の帳票10にあわせて任意に設定することがで
きる。 (c) 枠線検出方法は図4の方法に限定されず、例え
ば、記入枠13等が傾斜して入力されたときでも、その
傾斜を補正して枠線を検出する方法を採用することもで
きる。 (d) 特殊枠の判定処理の手順は図6の手順に限定さ
れず、予め文字が印刷された部分を記入枠から除去する
ことができるものであれば、どのような方法でも適用可
能である。 (e) 点線の判定方法の処理手順は図11の手順に限
定されず、記入枠の形態が点線であることを判定できる
ものであれば、どのような方法でも適用可能である。 【0032】以上詳細に説明したように、発明によれ
ば、検出範囲算出処理によって、範囲指定処理で指定さ
れた指定範囲に基づいて、これより若干広い記入枠の枠
線検出範囲が算出されるので、オペレータは指定作業を
厳密に行う必要がなくなり、作業が楽になる。更に、
種判定処理によって、その検出された枠線が点線である
か否かの判定が行われるので、オペレータ線種の情報
を入力する必要がなくなり、迅速なフォーマット情報の
生成が可能になる。
【図面の簡単な説明】 【図1】本発明の実施形態のOCR用帳票のフォーマッ
ト情報生成方法で用いられるフォーマット情報生成装置
の構成図である。 【図2】OCR用帳票の一例を示す図である。 【図3】表示部25に表示された帳票10のイメージデ
ータの表示例を示す図である。 【図4】ヒストグラム法による枠線検出方法の説明図で
ある。 【図5】記入枠の形態が表形式であるか否かの判定方法
を説明するための図である。 【図6】特殊枠の判定処理の手順を示すフローチャート
である。 【図7】特殊枠判定処理の各段階における説明図(その
1)である。 【図8】特殊枠判定処理の各段階における説明図(その
2)である。 【図9】直線の判定方法を説明するための図である。 【図10】点線の判定方法を説明するための図である。 【図11】点線の判定方法の処理手順を示すフローチャ
ートである。 【図12】点線を構成する「点」の図形の一例を示す図
である。 【図13】フォーマット情報生成処理によって得られた
帳票10のフォーマット情報の一例(一部)を示す図で
ある。 【符号の説明】 10 帳票 11,12,13,14,15 記入枠 13X 指定範囲 13Y 枠線検出範囲 21 イメージ入力部 22 イメージ読取部 23 イメージデータ記憶
部 24 イメージ表示部 25 表示部 26 記入範囲指定部 27 範囲入力部 28 検出範囲算出部 29 枠線検出部 30 線種判定部 31 フォーマット表示部 32 登録部 33 フォーマット情報記
憶部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平9−6869(JP,A) 特開 平7−230525(JP,A) 特開 平3−179570(JP,A) 特開 平9−6903(JP,A) 特開 平9−62781(JP,A) 特開 平6−111057(JP,A) 特開 平8−123879(JP,A) 特開 平7−282193(JP,A) 国際公開96/027166(WO,A1) (58)調査した分野(Int.Cl.7,DB名) G06K 9/20

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 光学式文字読取装置で読取られる帳票上
    に予め印刷された文字記入用の記入枠の位置及び該記入
    枠の枠線の種別を登録するフォーマット情報の生成方法
    において、 認識対象となる文字が記入されていない前記帳票のイメ
    ージデータを読取るイメージ読取り処理と、 前記イメージ読取り処理で読取られた前記帳票のイメー
    ジデータを表示するイメージ表示処理と、 前記イメージ表示処理で表示された前記帳票のイメージ
    データに基づいて、前記認識対象となる文字が記入され
    るべき指定範囲を指定する範囲指定処理と、 前記範囲指定処理で指定された指定範囲に基づいて、該
    指定範囲に対応する記入枠の位置を検出するための枠線
    検出範囲を算出する検出範囲算出処理と、 前記検出範囲算出処理で算出された前記枠線検出範囲に
    存在する前記記入枠の枠線を検出する枠線検出処理と、 前記枠線検出処理で検出された枠線を構成する複数の図
    形の中から、その寸法が所定の範囲内にあるものを点の
    図形として抽出し、抽出した点の図形の長さの合計が判
    定基準を満たしている場合に、各点の図形の中心座標に
    基づいてこれらの点の図形で構成される近似直線を求
    め、該各点の図形の中心が該近似直線から一定の距離内
    に入っているときに、該枠線が点線であると判定する線
    種判定処理と、 前記枠線検出処理で検出された枠線の位置と前記線種判
    定処理で判定された前記枠線の線種を含む前記帳票のフ
    ォーマット情報を表示するフォーマット情報表示処理
    と、 前記フォーマット情報表示処理で表示されたフォーマッ
    ト情報を登録するフォーマット情報登録処理とを、 順次行うことを特徴とする光学式文字読取装置用帳票の
    フォーマット情報生成方法。
JP22771797A 1997-08-25 1997-08-25 光学式文字読取装置用帳票のフォーマット情報生成方法 Expired - Fee Related JP3524339B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22771797A JP3524339B2 (ja) 1997-08-25 1997-08-25 光学式文字読取装置用帳票のフォーマット情報生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22771797A JP3524339B2 (ja) 1997-08-25 1997-08-25 光学式文字読取装置用帳票のフォーマット情報生成方法

Publications (2)

Publication Number Publication Date
JPH1166228A JPH1166228A (ja) 1999-03-09
JP3524339B2 true JP3524339B2 (ja) 2004-05-10

Family

ID=16865258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22771797A Expired - Fee Related JP3524339B2 (ja) 1997-08-25 1997-08-25 光学式文字読取装置用帳票のフォーマット情報生成方法

Country Status (1)

Country Link
JP (1) JP3524339B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002324236A (ja) 2001-04-25 2002-11-08 Hitachi Ltd 帳票識別方法及び帳票登録方法
JP4731748B2 (ja) * 2001-07-12 2011-07-27 キヤノン株式会社 画像処理装置、方法、プログラム及び記憶媒体
JP4983464B2 (ja) * 2007-07-25 2012-07-25 富士ゼロックス株式会社 帳票画像処理装置及び帳票画像処理プログラム
JP4909311B2 (ja) * 2008-03-31 2012-04-04 富士通フロンテック株式会社 文字認識装置
JP6374079B1 (ja) * 2017-12-27 2018-08-15 AI inside株式会社 文字認識装置、方法およびプログラム

Also Published As

Publication number Publication date
JPH1166228A (ja) 1999-03-09

Similar Documents

Publication Publication Date Title
US7684646B2 (en) System and method of determining image skew using connected components
EP0063454B1 (en) Method for recognizing machine encoded characters
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JPS6159568A (ja) 文書処理装置
JP4395188B2 (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP3525997B2 (ja) 文字認識方法
JP3524339B2 (ja) 光学式文字読取装置用帳票のフォーマット情報生成方法
US5228095A (en) Apparatus for recognizing printed characters
JPH0410087A (ja) 基本ライン抽出方法
JPH08329187A (ja) 文書読取装置
JP3223878B2 (ja) 文字列照合装置、方法及び記録媒体
JPH0916713A (ja) 画像領域分割方法
JP3196291B2 (ja) 文字認識方法および装置
JP3195405B2 (ja) 文字認識装置
JPS6316392A (ja) 文字認識装置
JP5619111B2 (ja) 画像判定装置およびプログラム
JPH117493A (ja) 文字認識処理装置
JP2749946B2 (ja) 文字認識方法
JP2001126025A (ja) Ocr用フォーマットパラメータ作成方法
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
JPH05274472A (ja) 画像認識装置
JPH05303661A (ja) イメージデータ部分取得表示装置
JPH09185675A (ja) 様式解析方法
JP2980636B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040212

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees