JPH1049602A - 帳票認識方法 - Google Patents

帳票認識方法

Info

Publication number
JPH1049602A
JPH1049602A JP8206814A JP20681496A JPH1049602A JP H1049602 A JPH1049602 A JP H1049602A JP 8206814 A JP8206814 A JP 8206814A JP 20681496 A JP20681496 A JP 20681496A JP H1049602 A JPH1049602 A JP H1049602A
Authority
JP
Japan
Prior art keywords
ruled line
rectangle
binary image
predetermined value
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8206814A
Other languages
English (en)
Other versions
JP3391987B2 (ja
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP20681496A priority Critical patent/JP3391987B2/ja
Publication of JPH1049602A publication Critical patent/JPH1049602A/ja
Application granted granted Critical
Publication of JP3391987B2 publication Critical patent/JP3391987B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 罫線に切れやかすれなどが生じる低品質の画
像が入力される場合でも、正確な罫線の認識を行う。 【解決手段】 ラン抽出部3は、2値画像から所定長さ
のランを抽出し、矩形抽出部5は、連結する黒ランを統
合して矩形を抽出する。また、辞書6を参照して所定未
満の長さの黒ランでも、罫線として存在する範囲内にあ
れば連結する黒ランを統合して矩形を抽出する。罫線抽
出部8は、近接する矩形同士を統合して罫線を抽出し、
枠認識部10は4辺の罫線からなる枠を認識し、該枠内
の文字が抽出され、認識される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、罫線を含む帳票の
認識方法に関する。
【0002】
【従来の技術】一般に、文書認識装置で帳票を処理する
場合、罫線情報を抽出してから、内部の文字を認識する
場合が多い。従来、帳票認識の処理に関しては、例え
ば、黒画素が所定値以上連続するとき有効画素と判定
し、副走査方向に一定値以内のもの同士を統合して罫線
として認識する方法(特開昭58−84373号公報を
参照)が提案されている。
【0003】
【発明が解決しようとする課題】しかし、上記した方法
では、連続した黒画素が出現することを前提としている
ので、実際に認識対象となる文書においては、罫線に切
れやかすれなどが生じる場合があり、このため罫線が正
しく認識できないという問題点があった。
【0004】本発明の目的は、罫線に切れやかすれなど
が生じる低品質の画像が入力される場合でも、正確な罫
線の認識を行うことができる帳票認識方法と提供するこ
とにある。
【0005】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、2値画像中の線分情報を
予め辞書に登録し、該登録された線分情報を参照しなが
ら、入力された2値画像中の線分を認識し、該線分で囲
まれた枠内の文字を切り出し、該文字を認識することを
特徴としている。
【0006】請求項2記載の発明では、前記登録される
線分情報は、所定の長さ以上の黒ランについて、連結し
ている黒ランを統合して矩形を抽出し、該矩形同士が所
定値以内にあるものを統合することにより抽出される実
線罫線であることを特徴としている。
【0007】請求項3記載の発明では、2値画像中の実
線罫線の位置情報を予め辞書に登録し、入力された2値
画像中から所定の長さ以上の黒ランを抽出し、該黒ラン
同士の間隔が所定値以内にあるとき統合して矩形として
抽出し、該矩形を統合して実線罫線として認識すると共
に、前記辞書を参照し、該所定の長さに満たない黒ラン
が前記実線罫線として存在する範囲内にあり、該黒ラン
同士の間隔が所定値以内にあるとき統合して矩形として
抽出し、該矩形を統合して実線罫線として認識すること
を特徴としている。
【0008】請求項4記載の発明では、前記登録される
線分情報は、黒画素連結矩形の幅および高さが所定値以
内にあり、該矩形同士の間隔が所定値以内にあるものを
統合することにより抽出される点線罫線であることを特
徴としている。
【0009】請求項5記載の発明では、2値画像中の点
線罫線の位置情報を予め辞書に登録し、入力された2値
画像中から、黒画素連結矩形の幅および高さが所定値以
内にあり、該矩形同士の間隔が所定値以内にあるものを
統合して点線罫線として認識すると共に、前記辞書を参
照し、前記矩形同士の間隔が所定値以内でない場合でも
前記点線罫線として存在する範囲内にあるとき、該矩形
を統合して点線罫線として認識することを特徴としてい
る。
【0010】請求項6記載の発明では、前記辞書に登録
する線分情報は、ディスプレイ画面に表示させた画像上
でマウスなどを用いて指定することを特徴としている。
【0011】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。 〈実施例1〉図1は、本発明の実施例1の構成を示す。
図において、1はスキャナなどの2値画像入力部、2は
2値画像を格納する2値イメージメモリ、3は2値画像
から黒ランを抽出するラン抽出部、4は抽出したランを
格納するランメモリ、5は所定長のランを統合して矩形
を抽出する矩形抽出部、6は罫線の位置情報などが予め
登録されている罫線情報辞書、7は矩形メモリ、8は矩
形を統合して罫線を抽出する罫線抽出部、9は罫線メモ
リ、10は罫線の枠を認識する枠認識部、11は枠座標
メモリ、12は枠内の文字を切り出す枠内文字抽出部、
13は文字座標メモリ、14は文字認識部である。
【0012】図7は、実施例1の処理フローチャートで
ある。以下、本実施例1の動作を説明する。スキャナ等
の2値画像入力部1によって、原稿を読み取り、2値イ
メージメモリ2に格納する(ステップ101)。ラン抽
出部3は、2値イメージメモリ2に格納されている2値
画像中から黒ランを抽出し、ランメモリ4に格納する
(ステップ102)。
【0013】矩形抽出部5は、ランメモリ4を参照し、
まず所定値以上の長さを持つランを抽出し、ラン同士の
間隔が所定値以内であれば統合し、矩形として抽出し、
矩形メモリ7に格納する(ステップ103)。次に、罫
線情報辞書6と照合し、所定値に満たないランでも罫線
として存在する範囲内にあり、ラン同士の間隔が所定値
以内であれば統合し、矩形として抽出し、矩形メモリ7
に格納する。図2は、罫線存在範囲内の処理を説明する
図である。
【0014】罫線抽出部8は、矩形メモリ7を参照し、
矩形同士が所定値以内にあるものどうしを統合して罫線
として抽出し、罫線メモリ9に格納する(ステップ10
4)。また、罫線情報辞書6と照合し、罫線として存在
する範囲内にあれば、所定のしきい値を大きくして統合
を行う。この結果、罫線として存在する範囲内であれ
ば、入力画像の罫線に切れやかすれがあっても統合され
るようになり、罫線抽出率の精度が向上される。
【0015】枠認識部10は、罫線メモリ9を参照し、
4辺の罫線に囲まれたものを枠と認識し、その座標を枠
座標メモリ11に格納する(ステップ105)。枠内文
字抽出部12は、枠内の画像に対して再び矩形抽出処理
などを行って、文字を抽出する(ステップ106)。抽
出された文字の座標値を文字座標メモリ13に格納す
る。文字認識部14は、文字座標メモリ13と2値イメ
ージメモリ2を参照して文字の認識を行う(ステップ1
07)。
【0016】〈実施例2〉本実施例は、実施例1に用い
る罫線情報辞書の登録方法に係る実施例である。図3
は、実施例2の構成を示し、図8は、実施例2の処理フ
ローチャートである。
【0017】スキャナ等の2値画像入力部21によっ
て、原稿を読み取り、2値イメージメモリ22に格納す
る(ステップ201)。このときの原稿は、実際に文字
認識の対象となるものでなくてもよい。例えば、データ
が全く書かれていない空の伝票などを用い、画像の読み
取りには、罫線に切れやかすれがないように、2値化の
しきい値を調整するなどして、奇麗な画像を生成する必
要がある。
【0018】ラン抽出部23では、2値イメージメモリ
22に格納されている2値画像中から黒ランを抽出し、
ランメモリ24に格納する(ステップ202)。この
際、ランとしては罫線に成り得る程度に長いランのみを
抽出する。矩形抽出部25では、ランメモリ24を参照
し、ラン同士が所定値以内の間隔にあるものを統合し、
矩形メモリ26に格納する(ステップ203)。
【0019】罫線抽出部27では、矩形メモリ26を参
照し、矩形同士が所定値以内にあるものどうしを統合し
て罫線として抽出する(ステップ204)。このときの
ラン、矩形、罫線の位置の情報を罫線情報辞書28に格
納する。
【0020】〈実施例3〉本実施例は、実線罫線と点線
罫線を認識する場合の実施例である。図4は、実施例3
の構成を示し、実施例1の罫線抽出部8を、実線罫線抽
出部81と点線罫線抽出部82で構成し、実施例1の矩
形メモリ7を、矩形メモリ71と72で構成し、実施例
1の罫線メモリ9を、罫線メモリ91と92で構成した
ものである。他の構成要素は実施例1のものと同様であ
る。また、図9は、実施例3の処理フローチャートであ
る。
【0021】スキャナ等の2値画像入力部1によって、
原稿を読み取り、2値イメージメモリ2に格納する(ス
テップ301)。ラン抽出部3では、2値イメージメモ
リ2に格納されている2値画像中から黒ランを抽出し、
ランメモリ4に格納する(ステップ302)。
【0022】矩形抽出部5は、ランメモリ4を参照し、
まず所定値以上の長さを持つランを抽出し、ラン同士の
間隔が所定値以内であれば統合し、矩形として抽出し、
矩形メモリ71に格納する(ステップ303)。次に、
罫線情報辞書6と照合し、所定値に満たないランでも罫
線として存在する範囲内にあり、ラン同士の間隔が所定
値以内であれば統合し、矩形として抽出し、矩形メモリ
71に格納する。また、矩形抽出部5では、黒画素連結
矩形の幅および高さが所定値以内のものを抽出し、これ
を矩形メモリ72に格納する。
【0023】実線罫線抽出部81では、矩形メモリ71
を参照し、矩形どうしが所定値以内にあるものどうしを
統合して実線罫線として抽出する(ステップ304)。
また、罫線情報辞書6と照合し、罫線として存在する範
囲内にあれば、所定のしきい値を大きくして統合を行
う。これにより、罫線として存在する範囲内であれば、
入力画像の罫線に切れやかすれがあっても統合されるよ
うになり、罫線抽出率の精度が向上される。この結果を
罫線メモリ91に格納する。
【0024】点線罫線抽出部82では、矩形メモリ72
を参照し、矩形どうしが所定値以内にあるものどうしを
統合して点線罫線として抽出する(ステップ305)。
また、罫線情報辞書6と照合し、点線罫線として存在す
る範囲内にあれば、所定のしきい値を大きくして統合を
行う。これにより、点線罫線として存在する範囲内であ
れば、入力画像の罫線に切れやかすれがあっても統合さ
れるようになり、罫線抽出率の精度が向上される。この
結果を罫線メモリ92に格納する。
【0025】枠認識部10では、罫線メモリ91および
罫線メモリ92を参照し、4辺の罫線に囲まれたものを
枠と認識し、その座標を枠座標メモリ11に格納する。
以下、実施例1と同様に処理するので、その説明を省略
する。
【0026】〈実施例4〉本実施例は、実施例3に用い
る罫線情報辞書の登録方法に係る実施例である。図5
は、実施例4の構成を示し、図10は、実施例4の処理
フローチャートである。
【0027】スキャナ等の2値画像入力部21によっ
て、原稿を読み取り、2値イメージメモリ22に格納す
る(ステップ401)。このときの原稿は、実施例2と
同様に、実際に文字認識の対象となるものでなくてもよ
い。ただし、原稿として実線と点線の罫線を含むものを
用いる。
【0028】ラン抽出部23では、2値イメージメモリ
22に格納されている2値画像中から黒ランを抽出し、
ランメモリ24に格納する(ステップ402)。矩形抽
出部25では、ランメモリ24を参照し、ランとしては
実線罫線に成り得る程度に長いランのみを統合し、矩形
メモリ26aに格納する。同様に、黒画素連結矩形の幅
および高さが点線の要素と見なせる大きさのものを抽出
し、矩形メモリ26bに格納する(ステップ403)。
【0029】実線罫線抽出部27aでは、矩形メモリ2
6aを参照し、矩形どうしが所定値以内にあるものどう
しを統合して実線罫線として抽出する(ステップ40
4)。このときのラン、矩形、罫線の位置の情報を罫線
情報辞書28に格納する。
【0030】点線罫線抽出部27bでは、矩形メモリ2
6bを参照し、矩形どうしが所定値以内にあるものどう
しを統合して点線罫線として抽出する(ステップ40
5)。このときの矩形、罫線の位置の情報を罫線情報辞
書28に格納する。
【0031】〈実施例5〉本実施例は、罫線情報辞書に
線分情報を登録する際に、ディスプレイ画面に表示させ
た画像上でマウスなどを用いて登録する情報を指定でき
るようにした実施例である。図6は、実施例5の構成を
示し、実施例2の構成にさらに、罫線メモリ29と罫線
確認部30を付加して構成されている。また、図11
は、実施例5の処理フローチャートである。
【0032】矩形抽出までの処理は実施例2と同様であ
る。罫線抽出部27は、矩形メモリ26を参照し、矩形
同士が所定値以内にあるもの同士を統合して罫線として
抽出し、その座標値を罫線メモリ29に格納する(ステ
ップ504)。ディスプレイ画面などの罫線確認部30
において、罫線メモリ29、2値イメージメモリ22を
参照し、2値画像上に罫線抽出の結果を重ねて表示す
る。そして、実際の罫線が正しく抽出されているか否
か、すなわち、文字部分や図形部分など罫線でない箇所
を、誤って罫線として抽出していないかを確認し、誤っ
て抽出されているものはマウスなどで指示して削除す
る。この処理によって、罫線データのみが選択され、そ
のラン、矩形、罫線の位置の情報が罫線情報辞書28に
格納される(ステップ505)。
【0033】なお、本発明は上記したものに限定され
ず、ソフトウェアによっても実現することができる。本
発明をソフトウェアによって実現する場合には、CP
U、ROM、RAM、ハードディスク、キーボード、C
D−ROMドライブなどからなる汎用の処理装置を用意
する。そして、CD−ROMなどの記録媒体には、本発
明の帳票認識方法の処理機能を実現するプログラムが記
録されている。本発明の帳票認識の処理を行うときは、
CD−ROMドライブにセットされた該記録媒体から、
上記した処理機能を実現するプログラムが読み出され、
RAM上にロードされて、CPUによって逐一実行され
る。また、帳票認識の処理対象となるデータは、スキャ
ナなどの2値画像入力部から入力される原稿画像データ
である。
【0034】
【発明の効果】以上、説明したように、本発明によれ
ば、従来のように画像の品質が悪く罫線に切れやかすれ
がある文書においても精度よく罫線を抽出することがで
き、この結果、罫線内部の文字を高精度に認識すること
が可能となる。
【図面の簡単な説明】
【図1】本発明の実施例1の構成を示す。
【図2】罫線存在範囲内の処理を説明する図である。
【図3】本発明の実施例2の構成を示す。
【図4】本発明の実施例3の構成を示す。
【図5】本発明の実施例4の構成を示す。
【図6】本発明の実施例5の構成を示す。
【図7】実施例1の処理フローチャートである。
【図8】実施例2の処理フローチャートである。
【図9】実施例3の処理フローチャートである。
【図10】実施例4の処理フローチャートである。
【図11】実施例5の処理フローチャートである。
【符号の説明】
1 2値画像入力部 2 2値イメージメモリ 3 ラン抽出部 4 ランメモリ 5 矩形抽出部 6 罫線情報辞書 7 矩形メモリ 8 罫線抽出部 9 罫線メモリ 10 枠認識部 11 枠座標メモリ 12 枠内文字抽出部 13 文字座標メモリ 14 文字認識部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 2値画像中の線分情報を予め辞書に登録
    し、該登録された線分情報を参照しながら、入力された
    2値画像中の線分を認識し、該線分で囲まれた枠内の文
    字を切り出し、該文字を認識することを特徴とする帳票
    認識方法。
  2. 【請求項2】 前記登録される線分情報は、所定の長さ
    以上の黒ランについて、連結している黒ランを統合して
    矩形を抽出し、該矩形同士が所定値以内にあるものを統
    合することにより抽出される実線罫線であることを特徴
    とする請求項1記載の帳票認識方法。
  3. 【請求項3】 2値画像中の実線罫線の位置情報を予め
    辞書に登録し、入力された2値画像中から所定の長さ以
    上の黒ランを抽出し、該黒ラン同士の間隔が所定値以内
    にあるとき統合して矩形として抽出し、該矩形を統合し
    て実線罫線として認識すると共に、前記辞書を参照し、
    該所定の長さに満たない黒ランが前記実線罫線として存
    在する範囲内にあり、該黒ラン同士の間隔が所定値以内
    にあるとき統合して矩形として抽出し、該矩形を統合し
    て実線罫線として認識することを特徴とする帳票認識方
    法。
  4. 【請求項4】 前記登録される線分情報は、黒画素連結
    矩形の幅および高さが所定値以内にあり、該矩形同士の
    間隔が所定値以内にあるものを統合することにより抽出
    される点線罫線であることを特徴とする請求項1記載の
    帳票認識方法。
  5. 【請求項5】 2値画像中の点線罫線の位置情報を予め
    辞書に登録し、入力された2値画像中から、黒画素連結
    矩形の幅および高さが所定値以内にあり、該矩形同士の
    間隔が所定値以内にあるものを統合して点線罫線として
    認識すると共に、前記辞書を参照し、前記矩形同士の間
    隔が所定値以内でない場合でも前記点線罫線として存在
    する範囲内にあるとき、該矩形を統合して点線罫線とし
    て認識することを特徴とする帳票認識方法。
  6. 【請求項6】 前記辞書に登録する線分情報は、ディス
    プレイ画面に表示させた画像上でマウスなどを用いて指
    定することを特徴とする請求項1、2、3、4または5
    記載の帳票認識方法。
JP20681496A 1996-08-06 1996-08-06 帳票認識装置 Expired - Lifetime JP3391987B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20681496A JP3391987B2 (ja) 1996-08-06 1996-08-06 帳票認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20681496A JP3391987B2 (ja) 1996-08-06 1996-08-06 帳票認識装置

Publications (2)

Publication Number Publication Date
JPH1049602A true JPH1049602A (ja) 1998-02-20
JP3391987B2 JP3391987B2 (ja) 2003-03-31

Family

ID=16529539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20681496A Expired - Lifetime JP3391987B2 (ja) 1996-08-06 1996-08-06 帳票認識装置

Country Status (1)

Country Link
JP (1) JP3391987B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567545B1 (en) 1999-05-28 2003-05-20 Fujitsu Limited Format recognition method, apparatus and storage medium
JP2011065204A (ja) * 2009-09-15 2011-03-31 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567545B1 (en) 1999-05-28 2003-05-20 Fujitsu Limited Format recognition method, apparatus and storage medium
JP2011065204A (ja) * 2009-09-15 2011-03-31 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
JP3391987B2 (ja) 2003-03-31

Similar Documents

Publication Publication Date Title
US20020085243A1 (en) Document processing apparatus and method
JP2001358925A (ja) 画像処理のための装置、方法及び記録媒体
US6785420B2 (en) Method and apparatus for table recognition, apparatus for character recognition, and computer product
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP3062382B2 (ja) 画像処理装置及び方法
JP2000067164A (ja) パターン認識方法及び装置並びにテンプレート作成プログラムを記録した記録媒体
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
JP3215163B2 (ja) 罫線識別方法及び領域識別方法
JP3391987B2 (ja) 帳票認識装置
JP4040231B2 (ja) 文字抽出方法及び装置並びに記憶媒体
JP2000082110A (ja) 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体
JPH07230525A (ja) 罫線認識方法及び表処理方法
JPH1049676A (ja) 罫線認識方法
JPS63158676A (ja) 領域抽出装置
JPH08237404A (ja) 光学文字認識モードの選択方法
JPH1196296A (ja) 帳票イメージ処理方法および装置
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体
JP2931041B2 (ja) 表内文字認識方法
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP3269889B2 (ja) 光学式文字読取システム
JPH05159062A (ja) 文書認識装置
JPH10334184A (ja) 罫線消去方法、装置、表処理方法、装置、文字認識方法、装置および記録媒体
JP3157534B2 (ja) 表認識方法
JPH10177621A (ja) 文書処理方法、罫線認識方法及び記録媒体
JPS6327990A (ja) 文字認識方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080124

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090124

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100124

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110124

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120124

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130124

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140124

Year of fee payment: 11

EXPY Cancellation because of completion of term