JP3140079B2 - 罫線認識方法及び表処理方法 - Google Patents

罫線認識方法及び表処理方法

Info

Publication number
JP3140079B2
JP3140079B2 JP03080939A JP8093991A JP3140079B2 JP 3140079 B2 JP3140079 B2 JP 3140079B2 JP 03080939 A JP03080939 A JP 03080939A JP 8093991 A JP8093991 A JP 8093991A JP 3140079 B2 JP3140079 B2 JP 3140079B2
Authority
JP
Japan
Prior art keywords
ruled line
line
run
ruled
black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03080939A
Other languages
English (en)
Other versions
JPH04291479A (ja
Inventor
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP03080939A priority Critical patent/JP3140079B2/ja
Publication of JPH04291479A publication Critical patent/JPH04291479A/ja
Application granted granted Critical
Publication of JP3140079B2 publication Critical patent/JP3140079B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書や帳票の2値画像
における罫線の認識方法と表の処理方法に関する。
【0002】
【従来の技術】一般に文字認識装置において文書あるい
は帳票を処理する場合、その画像を文字領域、イメージ
領域(写真、図等)、表領域に分割し、それぞれの領域
に別の処理を行なうことが多い。
【0003】従来、表領域の処理に関しては、表領域の
2値画像より黒画素の連結する矩形を求め、一定以上の
長さの矩形を罫線として認識している。そして、認識し
た罫線で囲まれた領域を表の一つの枠として認識し、枠
内の画像を切り出し、この画像より文字を切り出し認識
している。このような処理方法の例は、本願出願人によ
る特願平1−314519号、特願平1−312868
号、特願平2−134876号及び特願平2−1348
78号等の特許願に添付の明細書及び図面に述べられて
いる。
【0004】
【発明が解決しようとする課題】従来の方法によれば、
一定以上の長さの矩形でないと罫線として認識されない
ため、点線のような実線でない罫線が一本でも表に含ま
れていると、表の枠の認識を正常に行なうことができ
ず、その結果、表内文字認識のエラーが起こるという問
題があった。しかし近年、非実線の罫線を含む表が頻繁
に用いられるため、その正常な処理に対する要求が高ま
っている。
【0005】したがって本発明の目的は、点線のような
非実線の罫線を含んだ表に対しても正確な処理を可能に
するための罫線認識方法及び表処理方法を提供すること
にある。
【0006】
【課題を解決するための手段】請求項1の発明では、2
値画像について、主走査方向及び副走査方向の各ライン
の黒ランと白ランを抽出し、該黒ランと白ランのそれぞ
れのランの長さについてのヒストグラムを求める。そし
て、このヒストグラムのピーク部分の値が一定値を越え
るときは、そのピーク部分に対応した長さを持つ黒ラン
及び白ランの連続範囲を罫線候補として抽出し、該罫線
候補にライン間で連結したものを統合する処理を施すこ
とによって、罫線を認識する。
【0007】さらに、黒ランの長さの閾値処理によって
一定長以上の長さの黒ランも罫線候補として抽出し、同
様に、該罫線候補にライン間で連結したものを統合する
ことによって、罫線を認識する。
【0008】また、請求項2の発明では、文書もしくは
帳票の表領域の2値画像において、請求項1記載の方法
によって認識された主走査方向及び副走査方向の罫線の
情報より表の枠領域を認識して、枠領域内の文字を切り
出し文字認識する。
【0009】
【作用】点線もしくは破線、あるいは鎖線の罫線の場
合、ほぼ一定の長さの黒ランと白ランが連続するので、
それぞれの長さでランのヒストグラムはピークを示す。
また有効な一定長以上の罫線であれば、そのヒストグラ
ムのピーク値は一定値を越える。したがって、請求項1
の発明によれば、点線もしくは破線あるいは鎖線のよう
な非実線の罫線を正しく認識することができる。また、
黒ランの閾値処理により、実線の罫線も認識することが
できる。
【0010】また、請求項2の発明によれば、実線の罫
線のみからなる表、非実線の罫線のみからなる表、実線
と非実線の罫線が混在した表のいずれについても、罫線
によって囲まれた枠領域の認識、枠領域の文字切り出し
と文字認識を正常に行なうことができる。
【0011】
【実施例】図1は本発明の一実施例に係る処理装置のブ
ロック図、図2は処理の一実施例のフローチャート、図
3から図6は罫線認識の説明のための図である。
【0012】2値画像入力部1において、スキャナ等に
より文書画像の2値データを入力し2値イメージメモリ
2に格納する(処理ステップ100)。表領域認識部3
において、2値イメージメモリ2内のイメージデータに
対して表領域を自動的に認識するか、あるいはマウス等
を用いて人手により領域指定をすることによって表領域
を認識し、表領域のイメージデータを切り出して表領域
イメージメモリ4に格納する(処理ステップ102)。
【0013】次に、表領域イメージデータに対し、罫線
の候補を抽出するための処理(処理ステップ104〜処
理ステップ111)を、主走査方向及び副走査方向のそ
れぞれについて予め定められた固定ライン数(数ライ
ン)単位に実行する。この処理ステップ104〜111
の詳細は次の通りである。
【0014】ラン抽出部5において、表領域イメージデ
ータの注目する1ラインより黒ランと白ランを抽出し、
抽出したランの情報(例えば始点及び終点の座標、始点
の座標と長さ等)を黒ランメモリ6bと白ランメモリ6
wに格納する(処理ステップ104)。
【0015】ヒストグラム計算部7において、黒ランメ
モリ6b及び白ランメモリ6wより注目ラインのラン情
報を読み込み、黒ランと白ランそれぞれについての長さ
(ランレングス)のヒストグラムの計算を行ない、その
結果をヒストグラムメモリ8に格納する(処理ステップ
106)。
【0016】罫線候補抽出部9において、ヒストグラム
メモリ8内の黒ランと白ランのヒストグラムデータとラ
ンメモリ6b,6w内の情報を参照し、注目ライン上の
ランより罫線(非実線の罫線)を構成する可能性のある
ランを選び、選択したランの連続範囲を罫線候補(非実
線の罫線候補)として抽出し、その情報(例えば始点と
終点の座標、始点と長さ等)を罫線候補メモリ10に格
納する(処理ステップ108)。すなわち、図3に示す
ような黒ランのヒストグラムと図4に示すような白ラン
のヒストグラムが得られた場合、それぞれのピーク部分
で一定値を越えたヒストグラム値を持つ長さ(斜線部
分)のランを選択し、その連続範囲を罫線候補とする。
【0017】このような罫線候補の抽出アルゴリズムの
根拠は、点線もしくは破線、あるいは鎖線の罫線(非実
線の罫線)では、特定の長さの黒ランと白ランが連続
し、それぞれの長さでランヒストグラムがピークを示
し、また有効な一定長以上の罫線であれば、そのピーク
値が一定値を越えるということである。したがって、図
6に示した罫線Aの場合、連続した数ラインの各ライン
上の黒ランと白ランの連続した範囲Bが罫線候補として
それぞれ抽出される。
【0018】次にラン閾値処理部11において、黒ラン
メモリ6bを参照し、注目ライン上の一定の閾値以上の
長さの黒ランを罫線候補として抽出し、その情報を罫線
候補メモリ10に格納する(処理ステップ110)。こ
の処理で実線の罫線を構成する黒ラン(実線の罫線候
補)を抽出することができる。図5の例では、長さが閾
値を越える黒ランは実線の罫線候補として抽出される
が、短い黒ランDは候補とはならない。
【0019】以上の罫線候補抽出の処理ループ(処理ス
テップ104〜110)が固定ライン数単位分について
終わると、この処理ループを処理ステップ111で抜け
出る。そして、罫線抽出部12において、罫線候補メモ
リ10内の情報を参照し、固定ライン数単位内の罫線候
補について、ライン間の連結性をチェックし、連結した
罫線候補を統合する処理を行ない、この処理後の統合さ
れた罫線候補または統合させないままの罫線候補を罫線
として認識し、その情報(罫線の矩形の対角頂点の座標
など)を罫線メモリ13に格納する(処理ステップ11
2)。図6の例では、固定ライン数単位内の連続する3
ラインより抽出された罫線候補は連結しているので、そ
れを統合した矩形が一本の罫線Aとして認識されること
になる。
【0020】以上説明した固定ライン数単位の罫線認識
処理ループ(処理ステップ104〜114)を主走査方
向及び副走査方向について繰り返し、これを表領域全体
について終了すると、このループを抜け出て表内の文字
認識のための処理に進む。
【0021】まず枠認識部14において、罫線メモリ1
3内の罫線情報を参照し、認識された罫線により囲まれ
た枠を認識し、各枠の座標(対角2頂点の座標など)を
枠座標メモリ15に格納する(処理ステップ116)。
次に枠領域抽出部16において、枠座標メモリ15内の
情報を参照することにより、各枠領域のイメージデータ
を表領域イメージメモリ4内の表領域イメージデータよ
り切り出して枠イメージメモリ17に格納する(処理ス
テップ118)。行切り出し部18において、枠領域イ
メージメモリ17内のデータより、例えば主走査方向の
射影を利用する方法によって行(文字列)のイメージデ
ータを切り出し、それを行イメージメモリ19に格納す
る(処理ステップ120)。次に文字切り出し部20に
おいて、この行イメージデータより、例えば副走査方向
の射影を利用する方法によって文字のイメージデータを
切り出して文字認識部21に渡す(処理ステップ12
2)。文字認識部21においては、この文字イメージデ
ータに対して、例えば特徴抽出と認識辞書とのマッチン
グによって文字認識を行ない、その結果を出力する(処
理ステップ124,126)。
【0022】
【発明の効果】以上説明した如く、本発明によれば、黒
ラン及び白ランを抽出して、その長さのヒストグラムを
計算し、このヒストグラムに基づいて選択した罫線を構
成する可能性の高いランの連続範囲を罫線候補として抽
出し、その連結したものを統合する処理を行なって罫線
を認識する方法によって、点線や破線あるいは鎖線のよ
うな非実線の罫線を認識することが可能であり、また黒
ランの長さの閾値処理によって一定長以上の黒線を罫線
候補として抽出し、その連結したものを統合して罫線と
して認識する方法を組み合わせることにより、実線の罫
線と非実線の罫線の両方を認識することが可能である。
また、このような方法により実線と非実線の罫線が混在
した表についても、その枠領域を正常に抽出して文字認
識を行なうことが可能であり、処理可能な表の範囲が大
幅に拡張される。
【図面の簡単な説明】
【図1】本発明の一実施例に係る処理装置のブロック図
である。
【図2】処理の概略フローチャートである。
【図3】黒ランの長さのヒストグラムの一例を示すグラ
フである。
【図4】白ランの長さのヒストグラムの一例を示すグラ
フである。
【図5】閾値処理による罫線候補抽出の説明図である。
【図6】ヒストグラムによる罫線候補の抽出とその統合
による罫線認識の説明図である。
【符号の説明】
1 2値画像入力部 2 2値イメ
ージメモリ 3 表領域認識部 4 表領域イ
メージメモリ 5 ラン抽出部 6b 黒ランメ
モリ 6w 白ランメモリ 7 ヒストグ
ラム計算部 8 ヒストグラムメモリ 9 罫線候補
抽出部 10 罫線候補メモリ 11 ラン閾
値処理部 12 罫線抽出部 13 罫線メ
モリ 14 枠認識部 15 枠座標
メモリ 16 枠領域抽出部 17 枠イメ
ージメモリ 18 行切り出し部 19 行イメ
ージメモリ 20 文字切り出し部 21 文字認
識部

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 2値画像について、主走査方向及び副走
    査方向の各ラインの黒ランと白ランを抽出し、 前記抽出した黒ランと白ランそれぞれのランの長さにつ
    いてのヒストグラムを求め、このヒストグラムのピーク
    部分の値が一定値を越えるときは、そのピーク部分に対
    応した長さを持つ黒ラン及び白ランの連続範囲を非実線
    の罫線候補として抽出し、 前記抽出した黒ランの長さの閾値処理を行い、一定長以
    上の長さの黒ランを実線の罫線候補として抽出し、 前記抽出した非実線、実線の罫線候補について、それぞ
    れライン間で連結したものを統合し、罫線と認識するこ
    とを特徴とする罫線認識方法。
  2. 【請求項2】 文書もしくは帳票の表領域の2値画像に
    おいて、請求項1記載の罫線認識方法によって認識され
    た主走査方向及び副走査方向の罫線の情報より表の枠領
    域を認識して、該枠領域内の文字を切り出し文字認識す
    ることを特徴とする表処理方法。
JP03080939A 1991-03-19 1991-03-19 罫線認識方法及び表処理方法 Expired - Fee Related JP3140079B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03080939A JP3140079B2 (ja) 1991-03-19 1991-03-19 罫線認識方法及び表処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03080939A JP3140079B2 (ja) 1991-03-19 1991-03-19 罫線認識方法及び表処理方法

Publications (2)

Publication Number Publication Date
JPH04291479A JPH04291479A (ja) 1992-10-15
JP3140079B2 true JP3140079B2 (ja) 2001-03-05

Family

ID=13732444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03080939A Expired - Fee Related JP3140079B2 (ja) 1991-03-19 1991-03-19 罫線認識方法及び表処理方法

Country Status (1)

Country Link
JP (1) JP3140079B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8503774B2 (en) 2009-09-15 2013-08-06 Fuji Xerox Co., Ltd. Apparatus, method and computer readable medium for performing solid-line conversion from lines having breaks

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4706764B2 (ja) 2009-01-29 2011-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8503774B2 (en) 2009-09-15 2013-08-06 Fuji Xerox Co., Ltd. Apparatus, method and computer readable medium for performing solid-line conversion from lines having breaks

Also Published As

Publication number Publication date
JPH04291479A (ja) 1992-10-15

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
JP3338537B2 (ja) 画像傾き検出装置
JP2001358925A (ja) 画像処理のための装置、方法及び記録媒体
JP2542947B2 (ja) 画像処理装置
JP3140079B2 (ja) 罫線認識方法及び表処理方法
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JPH0785221A (ja) 図面自動認識装置の文字とシンボルの分離・認識方法
JPH05159062A (ja) 文書認識装置
JP3197441B2 (ja) 文字認識装置
JP2851087B2 (ja) 表処理方法
JP2612383B2 (ja) 文字認識処理方式
JP3193573B2 (ja) かぎかっこ付文字認識装置
JPH0528260A (ja) 輪郭ベクトル抽出方式
JP2023034823A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
JP2931041B2 (ja) 表内文字認識方法
JPH02166583A (ja) 文字認識装置
JP2000082113A (ja) 文字認識装置および辞書作成方法および記録媒体
JPH0436432B2 (ja)
JP2562067B2 (ja) 文字画像の単語切出し装置
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
JPH08185475A (ja) 画像認識装置
JPH02253386A (ja) 文字認識装置
JPH05174178A (ja) 文字認識方法
JPH05242294A (ja) 図面読取装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071215

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees