JP3606500B2 - 矩形分類方法 - Google Patents

矩形分類方法 Download PDF

Info

Publication number
JP3606500B2
JP3606500B2 JP01841697A JP1841697A JP3606500B2 JP 3606500 B2 JP3606500 B2 JP 3606500B2 JP 01841697 A JP01841697 A JP 01841697A JP 1841697 A JP1841697 A JP 1841697A JP 3606500 B2 JP3606500 B2 JP 3606500B2
Authority
JP
Japan
Prior art keywords
rectangle
area
character
rectangular
polygon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP01841697A
Other languages
English (en)
Other versions
JPH10214340A (ja
Inventor
敏文 山合
高志 齋藤
昌寛 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP01841697A priority Critical patent/JP3606500B2/ja
Priority to US09/017,212 priority patent/US6289120B1/en
Publication of JPH10214340A publication Critical patent/JPH10214340A/ja
Application granted granted Critical
Publication of JP3606500B2 publication Critical patent/JP3606500B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書等の画像の処理の分野に係り、特に、文書等の2値画像上の黒画素連結成分に外接する矩形の領域の属性を分類する方法に関する。
【0002】
【従来の技術】
文字、表、図、グラフ、セパレータ等の属性の異なる領域が混在した文書の文字認識においては、前処理段階で文書の領域分割を行う必要がある。同様の領域分割は、文書の伝送、画像データベースへの文書入力、その他様々な文書画像処理の分野においても必要とされる。
【0003】
文書画像上の黒画素連結成分の外接矩形を抽出し、それらを統合するボトムアップ的手法によって、そのような領域分割を行う場合、抽出した矩形領域の属性を分類する必要がある。このような矩形分類を、矩形の外形的特徴のみに基づいて行う方法が知られているが、これによっては精密な分類を期待し得ない。特開平7−37036号の矩形分類方法のように、矩形の外形的特徴に加え、矩形内部の架空罫線の個数及び相対的位置を分類のための情報として利用する方法が知られており、これによれば矩形の外形的特徴のみを利用する方法に比べ、より詳細な高い精度の矩形分類を期待できる。
【0004】
【発明が解決しようとする課題】
しかし、従来の技術の中には、矩形分類に際し、表が複雑な形状を持つ場合を考慮したものは見あたらない。
本発明の主たる目的は、文書等画像中の複雑な形状を持つ表に関連した矩形分類能力を向上させることにある。
【0005】
【課題を解決するための手段】
請求項1記載の発明は、文書等の2値画像上の黒画素連結成分に外接する矩形の領域の属性を分類する矩形分類方法において、
(a)表領域の候補となった矩形領域の内部の水平方向の所定値以上の長さの黒ランの接続したものを囲む外接矩形である水平方向の架空罫線及び垂直方向の所定値以上の長さの黒ランの接続したものを囲む外接矩形である垂直方向の架空罫線の相対的位置関係に関する条件判定により、当該矩形領域を四角形表より角数の多い多角形表の領域の候補であるか判断する工程と、
(b)上記(a)工程で多角形表の領域の候補と判断された矩形領域(以下、元矩形領域)の内部の水平方向の架空罫線及び垂直方向の架空罫線を最も外側のものから内側へ向かって順次統合することにより、多角形表の飛び出している部分を除いた四角形部分に相当する表の核の四辺を求める工程と、
(c)上記(b)工程で表の核の四辺が求められたときに、その四辺で囲まれた領域内の水平方向の架空罫線及び垂直方向の架空罫線の相対的位置関係に関する条件判定により表の特徴の有無を判断する工程と、
(d)上記(c)工程で表の特徴があると判断されたときに元矩形領域を多角形表の領域に分類する工程と、を有することを特徴とする矩形分類方法である。請求項2記載の発明によれば、前記(b)工程で、表の核の上下の辺を求めてから左右の辺を求める第1の方法、及び、表の核の左右の辺を求めてから上下の辺を求める第2の方法が用いられ、前記(b)工程で第1の方法及び第2の方法の両方で表の核の四辺が求められた場合、そのいずれかの方法で求められた四辺で囲まれた領域について前記(c)工程で表の特徴があると判断されたときに前記(d)工程で元矩形領域を多角形表の領域に分類される。
【0006】
請求項3記載の発明は、請求項1又は2記載の発明の矩形分類方法であって、多角形表の位置情報として、その多角形表を構成する2個以上の矩形の位置情報の組を保存する工程を有することを特徴とする矩形分類方法である。
【0007】
請求項4記載の発明は、請求項1又は2記載の矩形分類方法であって、多角形表の位置情報として、多角形表の領域に分類された元矩形領域の位置情報と、その多角形表のへこみ部分に相当する1個以上の矩形の位置情報の組を保存する工程を有することを特徴とする矩形分類方法である。
【0008】
請求項5記載の発明は、請求項1又は2記載の矩形分類方法であって、多角形表の領域に分類された元矩形領域の内部に存在する文字に分類された矩形(以下、文字矩形)を、元矩形領域の外側より上から下へ及び下から上へ見た時に、多角形表を構成する架空罫線により視線が遮られるか否かを調べることにより、文字矩形を多角形表の内部にあるものと外部にあるものとに分類する工程を有することを特徴とする矩形分類方法である。また、請求項6記載の発明は、請求項1又は2記載の矩形分類方法であって、多角形表の領域に分類された元矩形領域の内部に存在する文字に分類された矩形(以下、文字矩形)を、元矩形領域の外側より上から下へ、下から上へ、左から右へ、及び、右から左へ見た時に、多角形表を構成する架空罫線により視線が遮られるか否かを調べることにより、文字矩形を多角形表の内部にあるものと外部にあるものとに分類する工程を有することを特徴とする矩形分類方法である。
【0009】
【発明の実施の形態】
以下、図面を用い本発明の実施の形態について説明する。
【0010】
領域識別部106は、前記画像圧縮部107と、外接矩形検出部108、矩形分類部109、文字領域統合部110からなる。外接矩形検出部108は、画像メモリ103内の圧縮画像データより黒画素連結成分に外接する矩形を抽出する部分である。ここで抽出された矩形には、文字(1文字又は2文字以上の文字列)の矩形のほかに罫線、表、図、グラフその他、様々な属性の矩形が含まれる。矩形分類部109は、このような様々な矩形の属性を分類するものである。文字領域統合部110は、文字矩形に分類された矩形を統合して文字領域を生成する部分である。
【0011】
本実施例においては、領域識別部106による領域識別の結果は、文字認識部111による文字認識処理に利用される。つまり、領域識別部106は、光学的文字認識の前処理として利用される。ただし、これは一例にすぎない。データメモリ112は、領域識別部106及び文字認識部111による処理の中間データや結果データの記憶域として利用される。データメモリ112の記憶内容、例えば領域識別の結果や文字認識の結果といったデータも必要に応じて画像表示部104によってディスプレー105に表示させることができる。
【0012】
以下、矩形分類部109による矩形分類処理の内容について詳細に説明する。図2に、矩形分類処理の全体的フローを示す。まず、矩形の大きさ及び形状的特徴によって矩形の種類を大雑把に分類する(処理200)。本実施例では、文字候補(文字候補、大文字候補)、水平罫線候補、垂直罫線候補、表領域候補に大分類される。この大分類処理200には、文書の標準文字サイズと矩形との大小関係や、矩形の大きさの縦横比を利用することができるが、具体的な分類方法の一例を図3により説明する。
【0013】
図3の(a)に示すように、矩形の高さ(height)を標準文字サイズ(size)との大小関係によりクラス分けし、同様に、矩形の幅(width)も標準文字サイ
ズとの大小関係によりクラス分けする。ここで、標準文字サイズは、予め分かっているときには、その値を用いればよいし、予め分かっていないときには文書画像より抽出された矩形の高さの分布から適応的に決定するような公知の方法を採用すればよい。そして、矩形高さのクラスと矩形幅のクラスの組合せを図3の
(b)に示す大分類テーブルに当てはめることによって矩形の種類を大分類する。例えば、矩形幅がクラス1又は2で、矩形高さがクラス1又は2ならば、その矩形は文字候補又は大文字候補となる。
【0014】
図2に戻る。大分類処理200により表領域候補に分類された矩形、水平罫線候補に分類された矩形、及び垂直罫線候補に分類された矩形はそれぞれの詳細分類処理500,600,700により細分類される。文字に分類された矩形は、分類処理800により表の内部にある矩形と外部にある矩形とに分類される。
【0015】
まず、表領域候補に対する詳細分類処理500について説明する。図4は、詳細分類処理500のフローチャートである。まず、表領域候補になった矩形(元矩形と呼ぶ)の領域内をスキャンして、水平方向の所定閾値以上の長さを持つ長い黒ランだけを抽出し、その接続したものを囲む外接矩形を水平方向の架空罫線として抽出する(ステップ501)。図6は、この架空罫線抽出の説明図である。(a)に示す例では、長い黒ラン121,122の外接矩形123が架空罫線として抽出される。(b)に示す例では、黒ラン126〜130は短いので無視され、長い黒ラン124,125の外接矩形131が架空罫線として抽出される。(c)に示す例では、長い黒ラン143,144と長い黒ラン145,146は短い黒ラン149〜156を介し接続しているが、これら短い黒ランは無視されるので、黒ラン143,144の外接矩形147と、黒ラン145,146の外接矩形148の二つがそれぞれ架空罫線として抽出される。
【0016】
ステップ501の次に、元矩形の領域内をスキャンし、垂直方向の長い黒ランだけを抽出し、その接続したものを囲む外接矩形を垂直方向の架空罫線として抽出する(ステップ502)。
【0017】
次に、抽出された架空罫線の中で、縦横比が罫線として不適当な架空罫線を除外し(ステップ503)、さらに、元矩形の幅又は高さに対して、短すぎる架空罫線を除外する(ステップ504)。
【0018】
除外されずに残った架空罫線について、条件判定を行う。まず、条件(1)[元矩形の領域の上及び下に水平方向架空罫線がそれぞれ存在し、かつ、中央寄りに1本以上の垂直方向架空罫線が存在する]が成立するか調べる(ステップ505)。条件(1)が成立するときには、当該元矩形を「表」に分類する。このように分類される例を図7の(a)に示す。なお、図7に示した各例の外側の枠線は元矩形の境界線を意味し、内部の網掛けされた長方形は架空罫線を表す。
【0019】
条件(1)が不成立のときには、条件(2)[元矩形の領域の上及び下に水平方向の架空罫線がそれぞれ存在し、かつ、左及び右に垂直方向架空罫線がそれぞれ存在する]が成立するか調べる(ステップ506)。この条件(2)が成立するならば、条件(3)[元矩形の境界部より内側に水平方向又は垂直方向の長い架空罫線が1本以上存在するか]が成立するか調べる(ステップ507)。条件(2)と条件(3)の両方が成立するときには、元矩形を表に分類する(例えば図7の(b)に示す表)。条件(2)は成立するが、条件(3)が成立しないときには、元矩形を「囲み枠」に分類する。囲み枠の例を図7の(c)に示す。
【0020】
ここまでに分類できなかった場合、つまり条件(1)も条件(2)も不成立の場合には、多角形表領域の候補とされ、多角形表判定処理(ステップ508)に進む。そのフローチャートを図5に示す。以下、多角形判定処理の内容を説明する。
【0021】
処理対象の矩形(元矩形)より、方法(1)によって「核」を生成する(ステップ510)。この「核」とは、図8に示す各多角形表の網掛けした部分、つまり表の飛び出している部分を除いた四角形部分のことである。この方法(1)の内容については後述するが、方法(1)により生成された核を核(1)と呼ぶ。生成された核(1)の幅及び高さを元矩形の幅及び高さと比較し(ステップ511)、核(1)の幅又は高さが元矩形の幅又は高さの1/3の値より小さい場合には核(1)の生成に失敗したことを記録する(ステップ512)。
【0022】
次に、方法(2)によって、元矩形の核を生成する(ステップ513)。この方法(2)の内容については後述するが、生成された核を核(2)と呼ぶ。生成された核(2)の幅又は高さを元矩形の幅又は高さと比較し(ステップ514)、核(2)の幅又は高さが元矩形の幅又は高さの1/3の値より小さい場合には、核(2)の生成に失敗したことを記録する(ステップ515)。
【0023】
次に、ステップ512,515による記録を参照し、核(1)と核(2)の両方の生成に失敗したか調べ(ステップ516)、そうであれば元矩形は表以外であると判断され、ステップ523に進む。
【0024】
そうでなければ、核(1)及び核(2)の両方の生成に成功したか調べ(ステップ517)、核(1)又は核(2)の一方だけの生成に成功したときには、その核に表の特徴が認められるか調べる(ステップ518)。この表の特徴の有無の判断方法は後述する。表の特徴が認められないときには、元矩形は表以外であると判断され、ステップ523に進むが、表の特徴が認められるときには元矩形を多角形表に分類し(ステップ519)処理を終わる。
【0025】
ステップ517で核(1)及び核(2)の両方の生成に成功したと判断した場合には、その二つの核の大きい方の核に表の特徴が認められるから調べ(ステップ520)、表の特徴が認められたときには元矩形を多角形の表に分類し(ステップ519)、処理を終わる。大きい方の核に表の特徴が認められない場合には、二つの核の面積がほぼ同じであるか調べ(ステップ521)、面積の差が大きいときには元矩形は表でないと判断し、ステップ523に進む。ほぼ同じ面積であるときには、小さい方の核に表の特徴が認められるか調べ(ステップ522)、表の特徴が認められるときには元矩形を多角形の表に分類し(ステップ519)処理を終わるが、表の特徴が認められないときには元矩形を表以外であると判断し、ステップ523に進む。
【0026】
ステップ523では、条件(4)[元矩形の領域の左に垂直方向架空罫線、下に水平方向架空罫線がそれぞれ存在するか、又は、元矩形領域の上に水平方向架空罫線、左に垂直方向架空罫線がそれぞれ存在するか、そのいずれか一方である]が成立するか調べる。この条件が成立するときには、元矩形をグラフ候補に分類し(ステップ524)処理を終わる。このように分類されるグラフ候補の例を図7の(d)に示す。条件(4)が不成立のときには、元矩形を<図その他>に分類し(ステップ526)処理を終わる。<図その他>の例を図7の(e)及び(f)に示す。(f)の例は架空罫線が全く存在しない場合である。
【0027】
次に、ステップ510,513における核の生成方法について説明する。表の核の生成とは、元矩形より抽出された架空罫線を用いて、核の上下左右の辺を求めることである。核の生成の失敗とは、核の4辺を求めることに失敗したということである。図9は核の生成の説明図である。そして、方法(1)は、図9の(b)に示すような多角形表について、(c)に示すように核の上辺160と下辺161をまず求め、次に(d)に示すように核の左辺162と右辺163を求める方法であり、一方、方法(2)とは、(e)のような多角形表について、(f)に示すように核の左辺164と右辺165を求め、次に(g)に示すように核の上辺166と下辺167を求める方法である。このように二つの方法を用いるのは、(d)と(g)に見られるように、同じ形状の多角形表であっても、方法(1)と方法(2)とでは得られる核の形状及び面積が異なってくるからである。
【0028】
核の上辺の求め方を図10によって具体的に説明する。表の元矩形より抽出された水平方向の架空罫線を上にあるものから順にサーチする。最も上の架空罫線aを仮の上辺dに登録する(S1)。その下にある架空罫線bと仮の上辺dを統合して新たな仮の上辺e(架空罫線)を生成する(S2)。その下の架空罫線cと仮の上辺eを統合して仮の上辺fを生成する(S3)。この手順を仮の上辺の長さが元矩形の幅とほぼ等しくなるまで繰り返す。ここに示す例では、仮の上辺fの長さは元矩形の幅とほぼ等しいので、仮の上辺fを最終的な上辺とする。
【0029】
なお、架空罫線と統合して生成される仮の上辺の左端座標Xsは、統合された架空罫線の中で最小のx座標であり、右端座標Xeは統合された架空罫線の最大のx座標であり、y座標は統合された架空罫線のy座標である。また、統合は、仮上辺との水平方向の隙間がある閾値以内の架空罫線について行う。表のある横罫線がカスレ等で途切れた場合、図10の例における架空罫線a,b,cが同じ高さに小さな隙間を介して並んだ形になり、それらは一つに統合されるので、上辺の生成に支障はない。
【0030】
核の下辺、左辺、右辺を求める方法も同様である。ただし、下辺の場合には水平方向の架空罫線を下のものから順にサーチして統合し、左辺の場合には垂直方向の架空罫線を左のものから順にサーチして統合し、右辺の場合には垂直方向の架空罫線を右のものから順にサーチして統合することによって求める。左辺と右辺の場合、仮の左辺又は右辺の長さが元矩形の高さとほぼ等しくなった段階で統合を終了する。
【0031】
次に、図5のステップ518,520,522における表の特徴の有無の判定の方法について説明する。これらのステップにおいては、注目した核の領域を元矩形の領域として扱い、図4のステップ501,502,503,504,505,506,507と同様の処理を行う。つまり、核領域から水平方向、垂直方向の架空罫線を抽出し、罫線らしくない縦横比を持つ架空罫線を除外し(ステップ501〜504)、残った架空罫線に関して条件(1)、条件(2)、条件(3)の成立を調べる(ステップ505〜507)。条件(1)が成立した核、並びに、条件(1)が不成立で条件(2)及び条件(3)が成立する核を、表の特徴が認められると判断する。
【0032】
なお、前記多角形表判定処理508において多角形表と認識された表、すなわち、図5のステップ518,520又はステップ522の判定結果がyesとなった表は、2個以上の矩形の組合せとして表現し、その位置情報を保存することができる。これを図19に示す例によって説明する。
【0033】
図19の(a)に示す多角形表の場合、その外接矩形170の位置情報(例えば対向する2頂点の座標)と、表のへこみ部分(表領域と表の差分)に相当する矩形171の位置情報(例えば対向する2頂点の座標)の組を、多角形表の位置情報として保存することが可能である(第1の方法)。また、当該多角形表は、(b)に示すように、核の部分と出っ張り部分とから構成されると見ることも可能であるので、その核の矩形172の位置情報と出っ張り部分の矩形173の位置情報の組を多角形表の位置情報を保存することもできる(第2の方法)。
【0034】
第1の方法によって位置情報を保存した場合、表の外接矩形領域と、表のへこみ部分に相当する1個以上の矩形領域との排他的論理和をとることによって、表の領域を求めることができる。第2の方法によって位置情報を保存した場合には、表の核に相当する矩形領域と1個以上の出っ張り部分に相当する矩形領域との論理和をとることにより、表の領域を求めることができる。第1の方法、第2の方法のいずれによっても、様々な形状の多角形表を、その境界の凹凸を考慮することなく処理の簡単な矩形の集まりとして扱うことができるため、多角形表に対する文字認識等の処理のためのプログラムを単純なものにできる(多角形表をポリゴンデータとして保存することも可能であるが、形状によってデータ量が増減するなど、様々な形状に対応するには処理のためのプログラムの複雑化は避けられない)。
【0035】
次に、図2の水平罫線候補に大分類された矩形に対する詳細分類処理600について説明する。図11はそのフローチャートである。この処理により、矩形を文字、又は上下に並んだ文字領域を区切る水平セパレータに分類する。
【0036】
まず、矩形の幅(width)/高さ(height)の比が所定の閾値未満であるか調べる(ステップ601)。この閾値は例えば20に選ばれる。幅/高さの比が閾値未満のときは、矩形を文字に分類する。この判定は、1文字又は数文字の矩形と水平セパレータの矩形との幅/高さ比の違いに着目したものである。
【0037】
矩形の幅/高さの比が閾値以上の場合には、矩形の領域をスキャンして水平方向の一定値以上の長さを持つ長い黒ランだけを抽出し、それら黒ランの接続したものを囲む外接矩形を水平方向の架空罫線として抽出する(ステップ602)。そして、抽出された水平方向架空罫線の本数が所定値(例えば6)以上であるか調べ(ステップ603)、所定値以上ならぱ矩形を文字に分類し、所定値未満ならば矩形領域のほぼ真ん中に長くて細い架空罫線があるか調べる(ステップ604)。それがあるならば矩形を水平セパレータに分類し、ないならば文字に分類する。
【0038】
次に、垂直罫線に大分類された矩形に対する詳細分類処理700について説明する。図12はそのフローチャートである。この処理により、矩形を、左右に並んだ文字領域を区切る垂直セパレータ又は<図その他>に分類する。
【0039】
まず、矩形の高さ(height)/幅(width)の比が閾値(例えば20)未満であるか調べ(ステップ701)、閾値未満ならば矩形を<図その他>に分類する。この判定は、垂直セパレータの矩形と<図その他>の矩形の高さ/幅の比の違いに着目したものである。
【0040】
高さ/幅比が閾値以上ならば、矩形の領域をスキャンして垂直方向のある閾値を超える長さを持つ長い黒ランだけを抽出し、抽出した黒ランの接続したものを囲む外接矩形を垂直方向の架空罫線として抽出する(ステップ702)。そして、架空罫線が4本以上であるか調べ(ステップ703)、4本以上ならば矩形を<図その他>に分類する。4本未満ならば、長くて細い架空罫線があるか調べ(ステップ704)、それが存在するときは矩形を垂直セパレータに分類し、存在しないときには矩形を<図その他>に分類する。
【0041】
次に、文字とされた矩形に対する表内/外分類処理800について説明する。この処理は、図13に示すような多角形表領域内に存在する文字矩形を、表の内部にある文字矩形(白抜き丸印)と、表の外部(表のへこみ部分にある)にある文字矩形(網掛け丸印)とに分類する。この処理のフローチャートを図14に示し、処理の具体的内容を説明する。
【0042】
まず、表領域の内部の架空罫線より、表を構成している架空罫線だけを選び出す(ステップ801)。図15に示す例のように、注目した(カレントの)表領域の内部の架空罫線より、カレント表領域内にある他の(カレントでない)表領域あるいは囲み枠領域の架空罫線を除外し、カレントの表を構成する架空罫線だけを選択する。
【0043】
次に、表領域内部の各文字矩形の[見えない方向]値を0に設定する(ステップ802)。次に、表領域内部の各文字矩形を表の上方から見たときに、見えない文字矩形については、その[見えない方向]値を1つインクリメントする(ステップ803)。図16に網掛け丸印で示すような文字矩形は、上方からの視線が表の罫線に遮られるため「見えない」文字矩形である。白抜き丸印で示すような表のへこみ部分にある文字矩形は、視線が遮られないから「見える」文字矩形である。次に、表領域内部にある文字矩形を表の下方から見たときに、見えない文字矩形については、その[見えない方向]値を1つインクリメントする(ステップ804)。
【0044】
図17は、ステップ803,804の説明図である。この表領域の例では、その内部の文字矩形(丸印)の[見えない方向]値(文字矩形の内部に示された数字)は、最初はすべて0であるが、上方からの視線によるステップ803の実行後は(a)のようになり、さらに下方からの視線によるステップ804が実行された後は(b)のようになる。(b)に見られるように、表の内部の文字矩形の[見えない方向]値は2まで増加するが、表の外部の文字矩形の[見えない方向]値は1までしか増えない。したがって、各文字矩形の[見えない方向]値を調べ、その値が2の文字矩形を表内部の文字矩形に分類し、その値が1の文字矩形を表外部の文字矩形に分類する(ステップ805,806)。
【0045】
なお、内外分類のさらなる正確を期すため、左方及び右方からの視線により「見えない」「見える」の判断も行い、それぞれの視線で見えないときに[見えない方向]値を1つインクリメントし、最終的な[見えない方向]値が4のときには表内部の文字矩形に分類し、その値が4未満のときに表外部の文字矩形に分類するようにしてもよい。
【0046】
文字矩形の見える/見えない判定の具体的な方法を、上方から見た場合について図18により説明する。視線方向が上方の場合、表を構成する水平方向架空罫線を上のものから順にスキャンする。図18に示す表の例では、まず架空罫線aを表の飛び出し部分として登録する(S1)。次の架空罫線bを飛び出し部分として登録する(S2)。表の核の上辺が現れるまで、同様の手順を繰り返す。図18の例では、架空罫線bまで飛び出し部分に登録する(S4)。そして、これまでに飛び出し部分として登録された各架空罫線と核の上辺により上下に挟まれた範囲内の文字矩形、及び、核の上辺より下方にある文字矩形を、上方より「見えない」文字矩形と判定する。表の下方からの視線の場合も同様であり、表を構成する水平方向架空罫線を下のものから順にスキャンし、表の核の下辺が現れるまで飛び出し部分として登録し、飛び出し部分として登録された各架空罫線と核の下辺とによって上下に挟まれた範囲内の文字矩形、及び、核の下辺より上方にある文字矩形を、下方より「見えない」文字矩形と判定する。
【0047】
このように表領域内の文字矩形については、表内部の文字矩形と表外部の文字矩形とに分類されるため、文字領域統合部110(図1)において、表内部の文字矩形と表外部の文字矩形とを区別して文字領域の統合をすることができ。
【0048】
【発明の効果】
本発明によれば、表領域を四角形表の領域と多角形表の領域に精度良く細分類することができる(請求項1,2)。様々な形状の多角形表を、その境界の凹凸を考慮することなく処理の簡単な矩形の集まりとして扱うことができるため、多角形表に対する文字認識等の処理のためのプログラムを単純なものにでき、また、簡単な論理和操作又は排他的論理和操作によって容易に表領域を求めることができる(請求項3,4)。多角形表のへこみ部分に文字矩形がある場合に、そのような文字矩形と表の内部の文字矩形とを区別して文字領域統合や文字認識を行うことができる(請求項5,6)、等々の効果を得られる。
【図面の簡単な説明】
【図1】本発明の一実施例に係るシステムの概略ブロック図である。
【図2】矩形分類処理全体の概略フローチャートである。
【図3】矩形の大分類の説明のための図である。
【図4】表領域候補に大分類された矩形の詳細分類処理のフローチャートである。
【図5】図4中の多角形表判定処理の内容を示すフローチャートである。
【図6】水平方向の架空罫線の抽出を説明するための図である。
【図7】表、囲み枠、グラフ、及び、図その他の例を示す図である。
【図8】多角形表の例とその核の部分を示す図である。
【図9】多角形表の核の求め方を説明するための図である。
【図10】多角形表の核の上辺の求め方を説明するための図である。
【図11】水平罫線候補に大分類された矩形の詳細分類処理のフローチャートである。
【図12】垂直罫線候補に大分類された矩形の詳細分類処理のフローチャートである。
【図13】表の内部の文字矩形と表の外部の文字矩形を説明するための図である。
【図14】表領域内文字矩形の表内/外分類処理のフローチャートである。
【図15】表構成罫線の抽出の説明のための図である。
【図16】上から見える文字矩形と見えない文字矩形の説明図である。
【図17】表領域内の文字矩形の[見えない方向]の値がインクリメントされる様子を表した図である。
【図18】表の情報から見えない文字矩形を求める具体的方法を説明するための図である。
【図19】多角形表を複数の矩形の集まりとして、その位置情報を保存する方法を説明するための図である。
【符号の説明】
101 スキャナ
102 画像入力部
103 画像メモリ
104 画像表示部
105 ディスプレー
106 領域識別部
107 画像圧縮部
108 外接矩形検出部
109 矩形分類部
110 文字領域統合部
111 文字認識部
112 データメモリ

Claims (6)

  1. 文書等の2値画像上の黒画素連結成分に外接する矩形の領域の属性を分類する矩形分類方法において、
    (a)表領域の候補となった矩形領域の内部の水平方向の所定値以上の長さの黒ランの接続したものを囲む外接矩形である水平方向の架空罫線及び垂直方向の所定値以上の長さの黒ランの接続したものを囲む外接矩形である垂直方向の架空罫線の相対的位置関係に関する条件判定により、当該矩形領域を四角形表より角数の多い多角形表の領域の候補であるか判断する工程と、
    (b)上記(a)工程で多角形表の領域の候補と判断された矩形領域(以下、元矩形領域)の内部の水平方向の架空罫線及び垂直方向の架空罫線を最も外側のものから内側へ向かって順次統合することにより、多角形表の飛び出している部分を除いた四角形部分に相当する表の核の四辺を求める工程と、
    (c)上記(b)工程で表の核の四辺が求められたときに、その四辺で囲まれた領域内の水平方向の架空罫線及び垂直方向の架空罫線の相対的位置関係に関する条件判定により表の特徴の有無を判断する工程と、
    (d)上記(c)工程で表の特徴があると判断されたときに元矩形領域を多角形表の領域に分類する工程と、
    を有することを特徴とする矩形分類方法。
  2. 前記(b)工程では、表の核の上下の辺を求めてから左右の辺を求める第1の方法、及び、表の核の左右の辺を求めてから上下の辺を求める第2の方法が用いられ、
    前記(b)工程で第1の方法及び第2の方法の両方で表の核の四辺が求められた場合、そのいずれかの方法で求められた四辺で囲まれた領域について前記(c)工程で表の特徴があると判断されたときに前記(d)工程で元矩形領域を多角形表の領域に分類することを特徴とする請求項1記載の矩形分類方法。
  3. 多角形表の位置情報として、その多角形表を構成する2個以上の矩形の位置情報の組を保存する工程を有することを特徴とする請求項1又は2記載の矩形分類方法。
  4. 多角形表の位置情報として、多角形表の領域に分類された元矩形領域の位置情報と、その多角形表のへこみ部分に相当する1個以上の矩形の位置情報の組を保存する工程を有することを特徴とする請求項1又は2記載の矩形分類方法。
  5. 多角形表の領域に分類された元矩形領域の内部に存在する文字に分類された矩形(以下、文字矩形)を、元矩形領域の外側より上から下へ及び下から上へ見た時に、多角形表を構成する架空罫線により視線が遮られるか否かを調べることにより、文字矩形を多角形表の内部にあるものと外部にあるものとに分類する工程を有することを特徴とする請求項1又は2記載の矩形分類方法。
  6. 多角形表の領域に分類された元矩形領域の内部に存在する文字に分類された矩形(以下、文字矩形)を、元矩形領域の外側より上から下へ、下から上へ、左から右へ、及び、右から左へ見た時に、多角形表を構成する架空罫線により視線が遮られるか否かを調べることにより、文字矩形を多角形表の内部にあるものと外部にあるものとに分類する工程を有することを特徴とする請求項1又は2記載の矩形分類方法。
JP01841697A 1997-01-31 1997-01-31 矩形分類方法 Expired - Lifetime JP3606500B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP01841697A JP3606500B2 (ja) 1997-01-31 1997-01-31 矩形分類方法
US09/017,212 US6289120B1 (en) 1997-01-31 1998-02-02 Method and system for processing images of forms which have irregular construction and/or determining whether characters are interior to a form

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01841697A JP3606500B2 (ja) 1997-01-31 1997-01-31 矩形分類方法

Publications (2)

Publication Number Publication Date
JPH10214340A JPH10214340A (ja) 1998-08-11
JP3606500B2 true JP3606500B2 (ja) 2005-01-05

Family

ID=11971064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01841697A Expired - Lifetime JP3606500B2 (ja) 1997-01-31 1997-01-31 矩形分類方法

Country Status (2)

Country Link
US (1) US6289120B1 (ja)
JP (1) JP3606500B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4450888B2 (ja) * 1999-05-28 2010-04-14 富士通株式会社 帳票認識方法
JP3995185B2 (ja) * 2000-07-28 2007-10-24 株式会社リコー 枠認識装置及び記録媒体
JP2004201069A (ja) * 2002-12-19 2004-07-15 Ricoh Co Ltd 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理プログラムを記憶した記録媒体
JP2004304424A (ja) * 2003-03-31 2004-10-28 Fujitsu Ltd 画像圧縮方法、プログラム、記憶媒体及び装置
JP4200106B2 (ja) 2003-07-15 2008-12-24 株式会社リコー 画像処理装置、画像処理方法、コンピュータプログラム、及びコンピュータプログラムを記憶する記憶媒体
JP4598426B2 (ja) * 2004-03-30 2010-12-15 富士通株式会社 境界抽出方法、プログラムおよびこれを用いた装置
US7487438B1 (en) * 2005-03-08 2009-02-03 Pegasus Imaging Corporation Method and apparatus for recognizing a digitized form, extracting information from a filled-in form, and generating a corrected filled-in form
JP4869841B2 (ja) * 2006-03-14 2012-02-08 株式会社リコー 画像処理装置、画像方向判別方法、および画像方向判別プログラム
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
JP5505182B2 (ja) * 2010-08-09 2014-05-28 富士ゼロックス株式会社 画像判定装置及びプログラム
JP5556504B2 (ja) * 2010-08-24 2014-07-23 富士ゼロックス株式会社 画像処理装置及びプログラム
US20160110599A1 (en) * 2014-10-20 2016-04-21 Lexmark International Technology, SA Document Classification with Prominent Objects
JP7484198B2 (ja) * 2020-02-03 2024-05-16 富士フイルムビジネスイノベーション株式会社 文書処理装置およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPS6274181A (ja) * 1985-09-27 1987-04-04 Sony Corp 文字認識装置
US5101448A (en) * 1988-08-24 1992-03-31 Hitachi, Ltd. Method and apparatus for processing a document by utilizing an image
KR930009639B1 (ko) * 1989-07-09 1993-10-08 가부시끼가이샤 히다찌세이사꾸쇼 화상데이타를 이용하는 문서데이타 처리방법 및 장치
US5191612A (en) * 1990-03-13 1993-03-02 Fujitsu Limited Character recognition system
US5335290A (en) 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
JP3344774B2 (ja) 1993-06-25 2002-11-18 株式会社リコー 矩形分類方法

Also Published As

Publication number Publication date
US6289120B1 (en) 2001-09-11
JPH10214340A (ja) 1998-08-11

Similar Documents

Publication Publication Date Title
US6614930B1 (en) Video stream classifiable symbol isolation method and system
US6731788B1 (en) Symbol Classification with shape features applied to neural network
US6865290B2 (en) Method and apparatus for recognizing document image by use of color information
KR100525692B1 (ko) 컬러 화상 처리 장치 및 패턴 추출 장치
Parker et al. An approach to license plate recognition
EP1146478B1 (en) A method for extracting titles from digital images
US6512848B2 (en) Page analysis system
US6839466B2 (en) Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
JP3606500B2 (ja) 矩形分類方法
EP1081648B1 (en) Method for processing a digital image
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
JP4558232B2 (ja) 画像処理方法、画像処理装置および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3851742B2 (ja) 帳票処理方法及び装置
JP3490482B2 (ja) エッジ及び輪郭抽出装置
US8472078B2 (en) Image processing apparatus for determining whether a region based on a combined internal region is a table region
US20050271260A1 (en) Device, method and program for removing pores
JP3344774B2 (ja) 矩形分類方法
US8787660B1 (en) System and method for performing automatic font definition
US20030210818A1 (en) Knowledge-based hierarchical method for detecting regions of interest
JP3544324B2 (ja) 文字列情報抽出装置及び方法及びその方法を記録した記録媒体
JP3607753B2 (ja) 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
JPH064704A (ja) 罫線識別方法及び領域識別方法
Randriamasy et al. Automatic benchmarking scheme for page segmentation
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
Mitchell et al. Document page segmentation based on pattern spread analysis

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041001

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 9

EXPY Cancellation because of completion of term