JPH08235308A - 表認識装置 - Google Patents

表認識装置

Info

Publication number
JPH08235308A
JPH08235308A JP7039941A JP3994195A JPH08235308A JP H08235308 A JPH08235308 A JP H08235308A JP 7039941 A JP7039941 A JP 7039941A JP 3994195 A JP3994195 A JP 3994195A JP H08235308 A JPH08235308 A JP H08235308A
Authority
JP
Japan
Prior art keywords
area
column
extracted
ruled line
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7039941A
Other languages
English (en)
Inventor
Yoshiji Maeno
芳史 前野
Yoshitaka Hamaguchi
佳孝 濱口
Makoto Torigoe
真 鳥越
Masashi Ito
昌史 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7039941A priority Critical patent/JPH08235308A/ja
Publication of JPH08235308A publication Critical patent/JPH08235308A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 斜めの罫線と、矩形以外の欄を抽出すること
ができるようにする。 【構成】 ラベル付与部11は、表の2値画像から白画
素連結領域を抽出し、各白画素連結領域に識別用のラベ
ルを付与する。欄候補抽出部12は、ラベル付与部11
により抽出された白画素連結領域の中から、欄を示す白
画素連結領域以外の白画素連結領域を除去することによ
り、欄の候補領域を抽出する。欄領域抽出部13は、欄
候補領域抽出部12により抽出された欄の候補領域に完
全に包含される領域をこの候補領域に統合することによ
り、欄領域を抽出する。斜め罫線領域抽出部14は、欄
領域抽出部13により抽出された欄領域の形状的特徴に
基づいて、斜め罫線領域を抽出する。水平・垂直罫線抽
出部15は、水平方法と垂直方向の黒画素の周辺分布に
基づいて、水平方向と垂直方向の罫線領域を抽出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、表の2値画像に基づ
いて、表の構造を認識する表認識装置に関する。
【0002】
【従来の技術】近年、一般文書のデータベース化等に伴
い、この文書をイメージで読み取り、コード化するイメ
ージリーダの需要が高まっている。
【0003】一般文書が表を含む場合、この表をコード
化するためには、一般文書から外接矩形によって表を切
り出し、その構造を認識する必要がある。表の構造を認
識するためには、表の2値画像から表の罫線(罫線領
域)と欄(欄領域)を抽出する必要がある。
【0004】表の2値画像から表の罫線と欄を抽出する
技術としては、従来、次の文献1,2,3に記載された
技術が知られている。
【0005】文献1:佐藤、井上、鳥生:文書入力のた
めの表構造の認識 昭和63年、電子情報通信学会春季全国大会予稿集,D
−232(1988) 文献2:児島、清末、秋山:複雑な構造を持つ表の認識
に関する基礎検討 情報処理学会第37回全国大会予稿集,6W−8(19
88) 文献3:田畑、鶴岡、木村、三宅:表の構造理解のため
の罫線抽出と領域分け電子情報通信学会技術研究報告,
Vol190,No253(PRU90 68−80)
(1990) 文献1では、以下の手順により、表の罫線と欄の抽出が
行われる。
【0006】(a) まず、表の2値画像に基づいて、
水平方向と垂直方向の黒画素数のヒストグラムを求め
る。 (b) 次に、このヒストグラムに基づいて、水平方向
と垂直方向の罫線候補の領域を抽出する。 (c) 次に、この領域を水平方向あるいは垂直方向に
走査することにより、罫線を抽出する。 (d) 次に、罫線どうしの交点をすべて求めることに
より、罫線で囲まれた矩形を求め、この矩形を欄として
抽出する。
【0007】文献2では、「罫線の両端は、直角方向の
罫線と接する」という知見をもとに、以下の手順によ
り、表の罫線と欄の抽出が行われる。
【0008】(a) 表の2値画像に基づいて、水平方
向と垂直方向の黒画素数のヒストグラムを求め、このヒ
ストグラムに基づいて、罫線候補を抽出する。 (b) 外枠罫線を決定する。外枠罫線がない場合、便
宜的に外枠罫線を追加する。 (c) 罫線候補のうち、両端が外枠罫線と接するもの
を罫線として抽出する。 (d) 抽出された罫線で構
成されるブロックを求め、各ブロックごとに、水平方向
と垂直方向の黒画素数のヒストグラムを求め、このヒス
トグラムに基づいて、各ブロックごとに、罫線候補を抽
出する。 (e) 抽出された罫線候補のうち、両端が該ブロック
の辺と接するものを罫線として抽出する。 (f) 抽出された罫線で構成されるブロックを求め、
各ブロックごとに、水平方向と垂直方向の黒画素数のヒ
ストグラムを求め、このヒストグラムに基づいて、各ブ
ロックごとに、罫線候補を抽出する。 (g) あらたに、罫線候補が抽出された場合、(e)
に戻り、罫線候補がなくなるまで、再帰的処理を行う。
【0009】文献3では、以下の手順により、表の罫線
と欄の抽出が行われる。
【0010】(a) まず、表の2値画像を水平方向に
走査することにより、黒画素が表の垂直方向のサイズの
1/10より長く続く線分を抽出し、かつ、隣り合う線
分を統合し、水平方向の罫線領域とする。 (b) 垂直方向にも同様の処理を行い、垂直方向の罫
線領域を抽出する。 (c) 次に、水平方向の罫線のうち、垂直方向の罫線
と交わっていないものを交わるまで延ばすことにより、
水平方向の罫線を確定する。 (d) 同様に、垂直方向の罫線のうち、水平方向の罫
線と交わっていないものを交わるまで延ばすことによ
り、垂直方向の罫線を確定する。 (e) 罫線で囲まれた矩形を求めることにより、欄を
抽出する。
【0011】
【発明が解決しようとする課題】文献1の技術では、罫
線を水平方向と垂直方向の黒画素数のヒストグラムによ
ってのみ抽出しているので、斜め方向の罫線を抽出する
ことができないという問題があった。また、この技術で
は、欄を罫線で囲まれた矩形と定義しているので、矩形
以外の欄を抽出することができないという問題があっ
た。
【0012】例えば、図2に示すような斜め方向の罫線
(罫線1)と矩形でない欄(欄1,欄2、欄3)を含む
表が与えられた場合、文献1の技術では、罫線1と欄
1、欄2、欄3を抽出することができないという問題が
あった。
【0013】文献2の技術でも、罫線を水平方向と垂直
方向の黒画素数のヒストグラムによってのみ検出してい
るので、図8に示すような斜めの罫線1を抽出すること
ができないという問題があった。また、この技術では、
罫線を両端が矩形のブロックの辺と接する線と定義して
いるため、図8に示すような罫線2,3も抽出するでき
ないという問題があった。さらに、この技術では、欄を
抽出された罫線で分割された領域として定義しているた
め、図8に示すような欄1、欄2、欄3、欄4を抽出す
ることができないという問題があった。
【0014】文献3の技術では、黒画素が表の水平方向
あるいは垂直方向に、表の垂直方向あるいは水平方向の
サイズの1/10より長く続く部分を罫線として抽出し
ているため、図8に示すような斜めの罫線1を抽出する
ことができないという問題があった。また、この技術で
は、欄を罫線の交点を頂点とする矩形として定義してい
るため、図8に示すような欄1、欄2、欄3を抽出する
ことができないという問題があった。
【0015】以上まとめると、文献2の技術では、図8
に示すような表が与えられた場合、斜め罫線1と、矩形
以外の欄1、欄2、欄3と、矩形の欄4を抽出すること
ができないという問題があった。これに対し、文献1,
3の技術では、矩形の欄4は検出することができるが、
斜めの罫線1と矩形以外の欄1、欄2、欄3を抽出する
ことができないという問題があった。
【0016】この発明は、上記の事情に鑑みてなされた
もので、斜めの罫線と、矩形以外の欄を抽出することが
できる表認識装置を提供することを課題とする。
【0017】
【課題を解決するための手段】請求項1に係る発明は、
表の2値画像から欄の余白領域表示用の値を持つ第1の
画素の連結領域を抽出し、各連結領域に識別用のラベル
を付与するラベル付与手段と、このラベル付与手段によ
りラベルを付与された連結領域の中から、欄の余白領域
を示す連結領域以外の連結領域を除去することにより、
欄の候補領域を抽出する欄候補領域抽出手段と、この欄
候補領域抽出手段により抽出された欄候補領域に包含さ
れる領域をこの欄候補領域に統合することにより、欄領
域を抽出する欄領域抽出手段と、この欄領域抽出手段に
より抽出された欄領域の形状的特徴に基づいて、斜め方
向の罫線領域を抽出する斜め罫線領域抽出手段と、罫線
表示用の値を持つ第2の画素の周辺分布に基づいて、水
平方向と垂直方向の罫線領域を抽出する水平・垂直罫線
領域抽出手段とを設けるようにしたものである。
【0018】請求項2に係る発明は、請求項1に係る発
明において、欄候補領域抽出手段を、ラベル付与手段に
より抽出された連結領域の面積が予め定めた値より小さ
い場合、当該連結領域を除去する第1の連結領域除去手
段と、ラベル付与手段により抽出された連結領域の縦横
比が予め定めた値より大きい場合、当該連結領域を除去
する第2の連結領域除去手段を有するように構成したも
のである。
【0019】請求項3に係る発明は、請求項1に係る発
明において、斜め罫線領域抽出手段を、欄領域抽出手段
により抽出された欄領域の中から、面積が外接矩形の面
積のほぼ半分である欄領域を抽出する第1の領域抽出手
段と、この第1の領域抽出手段により抽出された欄領域
の中から、形状がほぼ三角形の欄領域を抽出する第2の
領域抽出手段を有するように構成したものである。
【0020】
【作用】請求項1に係る発明においては、表の2値画像
が与えられると、ラベル付与手段により、この2値画像
から欄の余白領域表示用の値を持つ第1の画素の連結領
域が抽出され、各連結領域に識別用のラベルが付与され
る。次に、欄候補抽出手段により、ラベル付与手段によ
り抽出された連結領域の中から欄を示す連結領域以外の
連結領域を除去することにより、欄の候補領域が抽出さ
れる。
【0021】次に、欄領域抽出手段により、欄候補領域
抽出手段により抽出された欄候補領域に包含される領域
をこの欄候補領域に統合することにより、欄領域が抽出
される。これにより、各欄領域ごとに異なるラベルが付
与された画像が得られる。その結果、矩形の欄以外の欄
も認識することができる。
【0022】次に、各欄領域の形状的特徴に基づいて、
斜め方向の罫線領域が抽出される。また、罫線表示用の
値を持つ第2の画素、すなわち、罫線や欄に記述された
文字等を表示する画素の周辺分布に基づいて、水平方向
と垂直方向の罫線領域が抽出される。
【0023】請求項2に係る発明においては、まず、第
1の連結領域抽出手段により、ラベル付与手段によって
抽出された各連結領域の面積と予め定めた値との大小が
比較される。この比較の結果、前者が後者より小さけれ
ば、当該連結領域が除去される。すなわち、当該連結領
域は第2の画素領域に統合される。これにより、例え
ば、ごみ付着領域等が欄の余白領域とみなされるのを防
止することができる。
【0024】また、この請求項2に係る発明において
は、第2の連結領域除去手段により、ラベル付与手段に
よって抽出された各連結領域の縦横比と予め定めた値と
の大小が比較される。この比較の結果、前者が後者より
大きければ、当該連結領域が除去される。これにより、
表とこの表の外接矩形との間に位置する領域が欄の余白
領域と見なされるのを防止することができる。
【0025】請求項3に係る発明においては、欄領域抽
出手段により抽出された欄領域の中から、第1の領域抽
出手段により面積が当該欄領域の外接矩形のほぼ半分で
ある欄領域が抽出される。次に、第2の領域抽出手段に
より、第1の領域抽出手段により抽出された欄領域のう
ち、形状がほぼ三角形である欄領域が抽出される。斜め
の罫線領域は、この欄領域の斜辺領域となる。
【0026】
【実施例】以下、図面を参照しながら、この発明の実施
例を詳細に説明する。
【0027】なお、以下の説明では、表は、例えば、白
と黒の2値画像で表わされるものとする。また、表の欄
の余白領域は、例えば、白の画素で表わされ、罫線や欄
に記述された文字等は黒の画素で表わされるものとす
る。
【0028】図1は、この発明の一実施例の構成を示す
ブロック図である。
【0029】図1において、11は、表の2値画像から
白画素の連結領域を抽出し、各白画素連結領域に識別用
のラベルを付与するラベル付与部である。ここで、白画
素連結領域とは、複数の白画素が黒画素を介することな
く繋がっている領域をいう。12は、ラベル付与部11
により抽出された白画素連結領域の中から、欄の余白領
域を示す白画素連結領域以外の白画素連結領域を除去す
ることにより、欄の候補領域を抽出する欄候補領域抽出
部である。ここで、白画素連結領域を除去するとは、白
画素連結領域を黒画素領域に変更することをいう。
【0030】13は、欄候補抽出部12により抽出され
た欄候補領域に完全に包含される領域をこの欄候補領域
に統合することにより、欄領域を抽出する欄領域抽出部
である。
【0031】ここで、欄の候補領域に完全に包含される
領域には、欄に記述された文字等を表す黒画素領域やこ
の文字等の内部領域(白画素連結領域)がある。また、
欄候補領域に完全に包含される領域をこの欄候補領域に
統合するとは、当該領域に当該欄候補領域に付与された
ラベルと同じラベルを付与することをいう。
【0032】なお、この実施例では、文字等の内部領域
の統合は、実際には、上述した欄候補領域抽出部12で
実行される。
【0033】14は、欄領域抽出部13により抽出され
た欄領域の形状的特徴に基づいて、斜めの罫線領域を抽
出する斜め罫線領域抽出部である。
【0034】15は、水平方向と垂直方向の黒画素の周
辺分布に基づいて、水平方向と垂直方向の罫線領域を抽
出する水平・垂直罫線領域抽出部である。
【0035】上記構成において、動作を説明する。
【0036】表の2値画像は、ラベル付与部11に供給
される。ラベル付与部11は、この2値画像を受け取る
と、これに含まれる白画素連結領域を抽出し、各白画素
連結領域に識別用のラベルを付与する。これにより、主
に、各欄の余白領域に異なるラベルが付与されたラベル
画像が得られる。
【0037】図3は、このラベル付与処理の概略を示す
図である。ここで、図3(a)は、ある表の2値画像を
示し、同図(b)は、この表のラベル画像を示す。図に
おいて、21,22,23,24は、表画像上の白画素
連結領域(主に、欄の余白領域)であり、25は、黒画
素領域(主に、罫線領域や文字等の領域)である。
【0038】ラベル付与部11は、図3(a)に示すよ
うな2値画像が入力されると、この2値画像に含まれる
白画素連結領域21,22,23,24を抽出し、各白
画素連結領域21,22,23,24に識別用のラベル
を付与する。これにより、図3(b)に示すようなラベ
ル画像が得られる。
【0039】図3(b)には、ラベルとして、1以上の
数字を用いる場合を示す。また、図3(b)には、黒画
素領域25にも、例えば、0のラベルを付与する場合を
示す。これは、白画素連結領域21,22,23,24
と黒画素領域25を統一的に扱うためである。
【0040】なお、ラベル付与処理は、例えば、白画素
に着目した8近傍ラベル付与処理に基づいて行われる。
【0041】図4は、ラベル画像における画素データの
構造の一例を示す図である。図示の画素データは、16
ビットで表わされる。ここで、最上位ビットは、白画素
と黒画素を区別するための画素識別ビットとして使用さ
れる。白画素の場合は、例えば、このビットに0が挿入
され、黒画素の場合は、1が挿入される。下位15ビッ
トは、自分が属する白画素連結領域に付与されたラベル
値を表すためのラベル表示ビットとして使用される。
【0042】なお、画素識別ビットを設けるのは、本来
の黒画素領域と後述する欄候補領域抽出部12の白画素
連結領域除去処理により白画素連結領域から変更された
黒画素領域とを区別するためである。
【0043】ラベル付与部11の処理結果は、欄候補領
域抽出部12に供給される。欄候補領域抽出部12は、
この処理結果を受け取ると、ラベル付与部11により抽
出された白画素連結領域の中から、欄の余白領域を示す
白画素連結領域以外の白画素連結領域を除去することに
より、欄の候補領域を抽出する。
【0044】ここで、欄の余白領域を示す白画素連結領
域以外の白画素連結領域としては、例えば、微小なごみ
が付着した領域と、表とこの表を切り出すための外接矩
形との間に位置する外枠領域がある。
【0045】図5は、外枠領域の一例を示す図である。
図において、31は表であり、32は、文書画像からこ
の表31を切り出すための外接矩形である。図には、外
接矩形32に対して、表31が少し傾いている場合を示
す。33〜36は、表31と外接矩形32との間に位置
する外枠領域である。図示の如く、外枠領域33〜36
は、通常、表31の欄領域37に比べ、かなり細長い。
【0046】欄候補領域抽出部12は、ラベル画像から
ごみ付着領域や外枠領域を抽出し、そのラベル値(1以
上の整数)を黒画素領域のラベル値0に変更する。これ
により、ごみ付着領域等が除去される。すなわち、ごみ
付着領域等が黒画素領域に統合される。但し、この場
合、画素識別ビット(図4参照)の値は白画素を示す0
に保たれる。これは、上記の如く、この領域と本来の黒
画素領域とを区別するためである。
【0047】ごみ付着領域の抽出は、各白画素連結領域
の面積と予め定めた所定の閾値とを比較することにより
行われる。これは、微小なごみが付着した領域は、通
常、欄領域よりかなり小さいからである。
【0048】この場合、欄候補領域抽出部12は、ま
ず、ラベル付与部11により抽出された各白画素連結領
域ごとに、その面積を求める。この場合、面積は、例え
ば、画素数として求められる。次に、求めた面積と予め
定めた所定の閾値TH1とを比較する。この比較の結
果、前者が後者より小さければ、当該白画素連結領域を
ごみ付着領域として抽出する。
【0049】なお、上記閾値TH1は、画像の解像度が
50DPIである場合の面積が3であるような白画素連
結領域をごみ付着領域と見なしても差し支えない値に設
定されている。
【0050】外枠領域の抽出は、各白画素連結領域の縦
横比(垂直方向の高さと水平方向の幅との比)と予め定
めた所定の閾値とを比較することにより行われる。これ
は、外枠領域は、上記の如く、通常、欄領域より細長い
ため、その縦横比も、通常、欄領域の縦横比より大きい
からである。
【0051】この場合、欄候補領域抽出部12は、ま
ず、ラベル付与部11により抽出された各白画素連結領
域ごとに、その縦横比を求める。次に、この縦横比と所
定の閾値とを比較する。この比較の結果、前者が後者よ
り大きければ、当該白画素連結領域を外枠領域として抽
出する。
【0052】次の式(1),(2)は、外枠領域を抽出
するための判定式である。
【0053】 w/h>TH2 … (1) h/w>TH2 … (2) ここで、wは、白画素連結領域の水平方向の幅(図5参
照)であり、hは、同じく垂直方向の高さ(図5参照)
である。TH2は、閾値である。
【0054】欄候補領域抽出部12は、白画素連結領域
の縦横比w/hあるいはh/wが、式(1)あるいは
(2)を満足すれば、当該白画素連結領域を外枠領域と
見なす。なお、閾値TH2は、例えば、20のような大
きな値に設定される。これは、外枠領域として、到底欄
領域とは見なすことができないような領域を抽出するた
めである。
【0055】欄候補領域抽出部12は、また、欄に記述
された文字等の内部領域を、当該文字等の黒画素領域を
包含する白画素連結領域に統合する。これを図6を参照
しながら説明する。
【0056】図6(a)は、数字の8が記述された四角
形の欄を示す。ここで、41,42,43は、白画素連
結領域であり、44は、黒画素領域である。白画素連結
領域42,43は、数字8の内部領域に相当する。白画
素連結領域41,42,43には、異なるラベル値が付
与されている。図では、これを異なる模様で表す。
【0057】この場合、欄候補領域抽出部12は、ま
ず、ラベル付与部11により抽出され白画素連結領域4
1に包含される黒画素領域42を抽出する。次に、この
黒画素領域42に包含される白画素連結領域42,43
を抽出する。次に、図6(b)に示すように、この白画
素連結領域42,43のラベル値を白画素連結領域41
のラベル値に変更する。これにより、白画素連結領域4
2,43は、白画素連結領域41に統合されたことにな
る。
【0058】欄候補領域抽出部12の処理結果は、欄領
域抽出部13に供給される。欄領域抽出部13は、この
処理結果を受け取ると、欄候補領域抽出部12により抽
出された欄候補領域に完全に包含される黒画素領域を抽
出し、この黒画素領域を当該欄候補領域に統合すること
により、欄領域を抽出する。これを図7を参照しながら
説明する。
【0059】図7(a)は、数字12が記述された四角
形の欄を示す。ここで、51は、欄候補領域(白画素連
結領域)であり、52,53は黒画素領域である。な
お、図には、欄候補領域51を黒で示し、黒画素領域5
2,53を白で示す。
【0060】この場合、欄領域抽出部13は、まず、欄
候補領域抽出部12により抽出された欄候補領域51に
包含される黒画素領域52,53を抽出する。次に、こ
の黒画素領域52,53のラベル値0を欄候補領域51
のラベル値に変更する。これにより、黒画素領域52,
53は、図7(b)に示すように、欄候補領域51に統
合される。この統合により得られた領域が欄領域とな
る。
【0061】欄領域抽出部13の処理結果は、斜め罫線
抽出部14に供給される。斜め罫線抽出部14は、この
処理結果を受け取ると、欄領域抽出部13により抽出さ
れた欄領域の形状的特徴に基づいて、斜め方向の罫線領
域を抽出する。
【0062】この抽出は、欄領域抽出部13により抽出
された欄領域の中から、斜め罫線で区切られたと考えら
れる欄領域を探すことにより行われる。この探索は、
「このような欄領域は、面積がこれに外接する矩形の面
積の半分で、形状がほぼ三角形(直角三角形)であると
いう性質を有する。」ということを利用して行われる。
【0063】すなわち、斜め罫線領域抽出部14は、欄
領域抽出部13の処理結果を受けると、まず、欄領域抽
出部13により抽出された各欄領域ごとに、その面積を
求める。次に、この欄領域の外接矩形の面積を求める。
次に、両者の比を求め、この比が次式(3)を満たすか
否かを判定する。
【0064】 0.5−TH3<s/S<0.5+TH3 … (3) ここで、sは、欄領域の面積であり、Sは外接矩形の面
積である。これらは、例えば、画素数で表される。ま
た、TH3は閾値である。この閾値TH3は、外接矩形
の対角線である罫線領域の面積を考慮して設けられるも
ので、例えば、0.1程度の値に設定される。
【0065】斜め罫線領域抽出部14は、比s/Sが式
(3)を満たす場合、当該欄領域を斜め罫線で区切られ
た欄領域の候補とする。
【0066】次に、斜め罫線抽出部14は、この候補の
形状が三角形か否かを判定する。この形状が三角形であ
れば、当該候補を斜め罫線で区切られた欄領域と見な
す。斜め罫線領域は、この欄領域の斜辺領域として抽出
される。
【0067】斜め罫線で区切られた欄領域の候補の形状
が三角形か否かの判定は、例えば、外接矩形の上端およ
び下端の各画素位置と当該候補に付与されたラベル値を
持つ画素が最初に現れる画素位置との垂直方向の距離の
分布を求めることによりなされる。以下、これを図8を
参照しながら説明する。
【0068】図8(b)において、61は、斜め罫線で
区切られた欄領域の候補であり、62は、この候補62
の外接矩形である。
【0069】この場合、斜め罫線領域抽出部14は、ま
ず、外接矩形62の上辺ABの各画素ごとに、その画素
位置と候補61に付与されたラベル値を持つ画素が最初
に現れる画素位置との垂直方向の距離を求める。この距
離は、例えば、画素数で表される。これにより、画素数
の分布曲線が得られる。
【0070】次に、斜め罫線領域部14は、検出した画
素数分布曲線の傾きが(BD/AB)あるいは(−AC
/AB)の直線で近似することができるか否かを判定す
る。近似することができれば、当該候補61の形状を三
角形と判定する。この場合、斜めの罫線は、この三角形
の斜辺、すなわち、外接矩形62の対角線ADあるいは
BCとなる。
【0071】これに対し、近似することができなけれ
ば、斜め罫線領域抽出部14は、下辺CDについて、同
様の処理を行う。
【0072】図8の例の場合、候補61は、矩形の欄領
域を右下がりの罫線で区切ることにより得られた2つの
欄領域のうち、下方の欄領域である。したがって、この
場合、上辺ABについては、図8(a)に示すように、
右上がりの画素数分布曲線が得られる。これに対して、
下辺CDについては、図8(c)に示すように、y切片
がほぼ0で、傾きもほぼ0の分布曲線が得られる。
【0073】これにより、この場合、上辺ABについ
て、画素数の分布を求めた時点で、候補61の形状は三
角形と判定される。そして、斜め罫線は、外接矩形62
の対角線ADとされる。
【0074】水平・垂直罫線領域抽出部15は、図9に
示すように、ラベル値が0の黒画素の水平方向と垂直方
向の周辺分布を生成する。この生成は、例えば、欄領域
抽出部13の欄領域抽出処理が済んだラベル画像に基づ
いて行われる。
【0075】次に、水平・垂直罫線領域抽出部15は、
この周辺分布に基づいて、度数が予め定めた所定の閾値
TH4以上で、幅が予め定めた所定の閾値TH5以下の
区間を求め、これを罫線走査区間として抽出する。ここ
で、閾値TH4は、ひとつのセルの幅または高さの最小
値程度の値に設定されている。また、閾値TH5は、画
像の傾きを考慮に入れて、罫線の幅より若干大きい値に
設定されている。
【0076】次に、水平・垂直罫線領域抽出部15は、
各罫線走査区間を走査し、黒画素が連続する区間を求め
る。この区間が水平方向あるいは垂直方向の罫線領域と
なる。この場合、罫線の端点(始点および終点)Tは、
図10に示すように、罫線走査区間において、白画素が
予め定めた閾値TH6以上連続して存在するする区間W
を求めることにより決定される。
【0077】なお、閾値TH6は、明らかに、罫線が途
切れていると考えられる値に設定される。例えば、画像
の解像度が50DPIのときは、この閾値TH6は、1
0程度に設定される。
【0078】以上詳述したこの実施例によれば、次のよ
うな効果を得ることができる。
【0079】(1) まず、この実施例によれば、白画
素連結領域に注目し、欄領域を矩形と仮定せず、同じラ
ベルを持つ領域として表すようにしたので、従来技術で
は抽出することができなかった矩形でない欄領域を抽出
することができる。
【0080】(2) また、この実施例によれば、ラベ
ルにより表された欄領域の形状的特徴に基づいて、斜め
方向の罫線抽出処理を実行するようにしたので、従来技
術では、抽出することができなかった斜め罫線領域を抽
出することができる。
【0081】(3) また、この実施例によれば、ラベ
ル付与部11により抽出された白画素連結領域から、面
積が所定の閾値TH1より小さい白画素連結領域や縦横
比が所定の閾値TH2より大きい白画素連結領域連結領
域を除去するようにしたので、この白画素連結領域から
ごみ付着領域や外枠領域等の不要領域を除去することが
できる。これにより、欄領域の抽出精度を高めることが
できる。
【0082】(4) また、この実施例によれば、欄領
域抽出部13により抽出された欄領域の中から、面積が
外接矩形の面積の半分で、形状がほぼ三角形である欄領
域を探すことにより、斜め罫線領域を抽出するようにし
たので、この斜め罫線領域を正確に抽出することができ
る。
【0083】以上、この発明の一実施例を詳細に説明し
たが、この発明は、上述したような実施例に限定される
ものではない。
【0084】(1) 例えば、先の実施例では、外接矩
形の上辺および下辺についての画素数分布を求めること
により、欄領域が三角形か否かを判定する場合を説明し
た。しかし、この発明は、外接矩形の左辺および右辺に
ついての画素数分布を求めることにより、欄領域が三角
形か否かを判定するようにしてもよい。
【0085】(2) また、先の実施例では、欄候補領
域(図6の41)に包含される文字等の領域(図6の4
4)とこの文字等の内部領域(図6の42,43)を別
々に欄候補領域(図6の41)に統合する場合を説明し
た。しかし、この発明は、これらをいっしょに欄候補領
域(図6の41)に統合するようにしてもよい。
【0086】(3) このほかにも、この発明は、その
要旨を逸脱しない範囲で種々変形実施可能なことは勿論
である。
【0087】
【発明の効果】請求項1に係る発明によれば、欄表示用
の値を持つ第1の画素の連結領域に注目し、欄領域を矩
形と仮定せず、同じラベルを持つ領域として表すように
したので、従来技術では抽出することができなかった矩
形でない欄領域を抽出することができる。また、この発
明によれば、ラベルにより表された欄領域の形状的特徴
に基づいて、斜め方向の罫線抽出処理を実行するように
したので、従来技術では、抽出することができなかった
斜め罫線領域を抽出することができる。
【0088】請求項2に係る発明によれば、ラベル付与
処理により抽出された第1画素連結領域から、面積が予
め定めた値より小さい第1画素連結領域や縦横比が予め
定めた値より大きい第1画素連結領域を除去するように
したので、この第1画素連結領域からごみ付着領域等の
不要領域を除去することができ、欄領域の抽出精度を高
めることができる。
【0089】請求項3に係る発明によれば、抽出された
欄領域の中から、面積が外接矩形の面積の半分で、形状
がほぼ三角形である欄領域を探すことにより、斜め罫線
領域を抽出するようにしたので、この斜め罫線領域を正
確に抽出することができる。
【図面の簡単な説明】
【図1】この発明の一実施例の構成を示すブロック図で
ある。
【図2】従来の問題を説明するための図である。
【図3】一実施例のラベル付与処理を説明するための図
である。
【図4】一実施例のラベル画像における画素データを示
す図である。
【図5】一実施例の外枠領域除去処理を説明するための
図である。
【図6】一実施例の領域統合処理を説明するための図で
ある。
【図7】一実施例の領域統合処理を説明するための図で
ある。
【図8】一実施例の斜め罫線領域抽出処理を説明するた
めの図である。
【図9】一実施例の水平・垂直罫線領域抽出処理を説明
するための図である。
【図10】一実施例の水平・垂直罫線領域抽出処理を説
明するための図である。
【符号の説明】
11…ラベル付与部 12…欄候補領域抽出部12 13…欄領域抽出部 14…斜め罫線領域抽出部 15…水平・垂直罫線領域抽出部 21,22,23,24,41,42,43…白画素連
結領域 25,44…黒画素領域 31…表 32,62…外接矩形 33,34,35,36…外枠領域 51…欄領域候補 52,53…黒画素領域 61…三角形の欄領域候補
───────────────────────────────────────────────────── フロントページの続き (72)発明者 伊藤 昌史 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 表の2値画像に基づいて、表の構造を認
    識する表認識装置において、 前記2値画像から欄の余白領域表示用の値を持つ第1の
    画素の連結領域を抽出し、各連結領域に識別用のラベル
    を付与するラベル付与手段と、 このラベル付与手段により抽出された連結領域の中か
    ら、欄の余白領域を示す連結領域以外の連結領域を除去
    することにより、欄の候補領域を抽出する蘭候補領域抽
    出手段と、 この蘭候補領域抽出手段により抽出された蘭候補領域に
    包含される領域をこの蘭候補領域に統合することによ
    り、欄領域を抽出する欄領域抽出手段と、 この欄領域抽出手段により抽出された欄領域の形状的特
    徴に基づいて、斜め方向の罫線領域を抽出する斜め罫線
    領域抽出手段と、 罫線表示用の値を持つ第2の画素の周辺分布に基づい
    て、水平方向と垂直方向の罫線領域を抽出する水平・垂
    直罫線領域抽出手段とを具備したことを特徴とする表認
    識装置。
  2. 【請求項2】 前記蘭候補領域抽出手段は、 前記ラベル付与手段により抽出された連結領域の面積が
    予め定めた値より小さい場合、当該連結領域を除去する
    第1の連結領域除去手段と、 前記ラベル付与手段により抽出された連結領域の縦横比
    が予め定めた値より大きい場合、当該連結領域を除去す
    る第2の連結領域除去手段とを具備したことを特徴とす
    る請求項1記載の表認識装置。
  3. 【請求項3】 前記斜め罫線領域抽出手段は、 前記欄領域抽出手段により抽出された欄領域の中から、
    面積が外接矩形の面積のほぼ半分である欄領域を抽出す
    る第1の領域抽出手段と、 この第1の領域抽出手段により抽出された欄領域の中か
    ら、形状がほぼ三角形の欄領域を抽出する第2の領域抽
    出手段とを具備したことを特徴とする請求項1記載の表
    認識装置。
JP7039941A 1995-02-28 1995-02-28 表認識装置 Pending JPH08235308A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7039941A JPH08235308A (ja) 1995-02-28 1995-02-28 表認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7039941A JPH08235308A (ja) 1995-02-28 1995-02-28 表認識装置

Publications (1)

Publication Number Publication Date
JPH08235308A true JPH08235308A (ja) 1996-09-13

Family

ID=12566987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7039941A Pending JPH08235308A (ja) 1995-02-28 1995-02-28 表認識装置

Country Status (1)

Country Link
JP (1) JPH08235308A (ja)

Similar Documents

Publication Publication Date Title
Gllavata et al. A robust algorithm for text detection in images
JP2951814B2 (ja) 画像抽出方式
JP3452774B2 (ja) 文字認識方法
JP3411472B2 (ja) パターン抽出装置
JPH07105312A (ja) 光学式文字読取装置における文字イメージのごみ除去方法及び装置
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JPH08235308A (ja) 表認識装置
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JPH02116987A (ja) 文字認識装置
JP2917427B2 (ja) 図面読取装置
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JP2796561B2 (ja) 表形式文書認識方式
Bourbakis A methodology of separating images from text using an OCR approach
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
Mechi et al. Combining deep and ad-hoc solutions to localize text lines in ancient Arabic Document Images
Lehal et al. A complete OCR system for Gurmukhi script
US20030002062A1 (en) Image processing apparatus, method and program, and storage medium
JP3163698B2 (ja) 文字認識方法
KR100309679B1 (ko) 문자열추출방법
JPH0713994A (ja) 文字認識装置
JPH08297718A (ja) 文字切り出し装置及び文字認識装置
JP2797523B2 (ja) 図面続取装置
JP3193573B2 (ja) かぎかっこ付文字認識装置
JPS58165178A (ja) 文字読取り装置