JP2567001B2 - 表を含む文書の読取装置 - Google Patents

表を含む文書の読取装置

Info

Publication number
JP2567001B2
JP2567001B2 JP62305680A JP30568087A JP2567001B2 JP 2567001 B2 JP2567001 B2 JP 2567001B2 JP 62305680 A JP62305680 A JP 62305680A JP 30568087 A JP30568087 A JP 30568087A JP 2567001 B2 JP2567001 B2 JP 2567001B2
Authority
JP
Japan
Prior art keywords
ruled lines
extracted
vector
ruled
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62305680A
Other languages
English (en)
Other versions
JPH01147786A (ja
Inventor
保夫 本郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP62305680A priority Critical patent/JP2567001B2/ja
Publication of JPH01147786A publication Critical patent/JPH01147786A/ja
Application granted granted Critical
Publication of JP2567001B2 publication Critical patent/JP2567001B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、表を含む文書を読取ることが可能な読取
装置に関する。
〔従来の技術〕
従来、表を含む文書を読取るものとしては、表中のデ
ータ部分のみを指定してOCR(光学式読取装置)で読取
るものが知られている。
〔発明が解決しようとする問題点〕
しかしながら、このような読取装置ではデータ部分の
みを指示する等の面倒な処理が必要となるだけでなく、
或る定まったフォーマットの表の場合した適用できず、
任意の表のデータ(表データ)を読取ることができない
と云う問題がある。
したがって、この発明は任意の構造の表を含む文書を
読取り可能にすることを目的とする。
〔問題点を解決するための手段〕
表を含む文書を入力する入力手段と、文書画像をベク
トル化するベクトル化手段と、ベクトルデータから全て
の罫線を抽出し、最大クラスの横罫線,縦罫線にて形成
される欄領域をそれよりも短かい罫線によって順次領域
を分割しつゝその各々にラベル付けをして個々の欄領域
を抽出する表構造解析手段と、該各欄領域の画像から文
字切出しをして個々の文字を読取る表データ読取手段と
を設ける。
〔作用〕
表を含む文書をイメージスキャナ等を介して入力し、
その2値画像を輪郭追跡等の手法によりベクトル化して
得られるベクトルデータから罫線を抽出し、最大クラス
の横罫線,縦罫線にて形成される欄領域をそれよりも短
かい罫線によって順次領域を分割しつゝその各々にラベ
ル付けをして個々の欄領域を抽出することにより、種々
の構造の表を読取り得るようにする。また、個々の欄領
域について文字の切出しをし、文字を読取ることによ
り、表の各欄の内容を解析し得るようにする。
〔実施例〕
第1図はこの発明の一実施例を示すブロック図であ
る。なお、こゝで用いられる読取プロセッサ1は、イメ
ージメモリ11、ベクトル化演算部12、表構造解析部13、
表データ読取部14、メインプロセッサ15おろび入出力イ
ンタフェイス16等より成り、例えば第2図の如くイメー
ジスキャナ2およびCRTディスプレイ3とゝもに文書情
報処理システムを構成する。
イメージスキャナ2からの画像データPDは、イメージ
メモリ11に直接書き込まれる。ベクトル化演算部12は文
書画像PD′に対し、例えば輪郭追跡をしてその追跡方向
別に所定コードを付す等して公知のベクトル化を行な
い、ベクトルデータVDを表構造解析部13へ与える。表構
造解析部13はこのベクトルデータVDから罫線を抽出し、
表領域を逐次分割して表構造記述データDsを演算する。
表データ読取部14は、この表構造記述データDsとイメー
ジメモリ11から与えられる文書画像PD″とから、個々の
欄領域毎に文字切出しをしてこれを読取り、表構造を含
む表データDdとしてメインプロセッサ15に送る。メイン
プロセッサ15は、表データDdを入出力インタフェイス16
を介して第2図のCRTディスプレイ2へ表示したり、キ
ーボードから必要なデータを入力して編集したりする。
また、この表データはフロッピィディスクに保存した
り、他のOA(Office Automation)プロセッサへ伝送す
ることもできる。
第3図に表を含む文書の例を示す。こゝでは、文書4
の中に罫線をもつ表4Aが含まているが、文字パターン等
は表の2値化画像のベクトルよりも一般に短かいので、
これを利用して文字パターンを分離することができる。
第4図に表(文字パターンを分離した後の表)の画像
例を示す。同図の太線が罫線で、その輪郭を追跡するベ
クトルによって表されるデータが表構造ベクトルデータ
である。こゝで、或る1つのベクトルViに対し、太線を
挟む反対側のベクトルVo1,Vo2を共役ベクトル、またベ
クトルViの始点または終点の近傍に始点または終点をも
つベクトルVn1,Vn2を隣接ベクトルと定義することゝす
る。
或る1つのベクトルViに対し、太線を挟む反対側のベ
クトルVo1,Vo2を共役ベクトルであると上述したが、こ
れについて説明を補足する。今ベクトルAとベクトルB
が存在するものとする。両ベクトル(ベクトルAとベク
トルB)が互いに平行で、ベクトルAの二つの端点(ベ
クトルの始点と終点を各々端点という)のうちの何れか
一つの端点からベクトルBに対して下ろした垂線の長さ
が短いとき、ベクトルAとベクトルBは互いに共役な関
係にあるベクトル(共役ベクトル)であるというのであ
る。この見地から第4図では、ベクトルViとベクトルV
o1が共役ベクトルであり、またベクトルViとベクトルV
o2が共役ベクトルであることが理解されるであろう。そ
のほか、ベクトルVo5とVo4も共役ベクトルであり、ベク
トルVn1とVo3も共役ベクトルである。
また第4図の太線は、表を構成する罫線(横罫線と縦
罫線)を示すものであるが、罫線を構成する線分をサブ
罫線と呼ぶ。第4図の表を構成する一番上の横罫線と一
番下の横罫線は、各々1本の線分(1本のサブ罫線)で
構成され、一番左の縦罫線と一番右の縦罫線も、各々1
本の線分(1本のサブ罫線)で構成されている。これに
対し上から二番目の横罫線は、真ん中で二分される2本
の線分(2本のサブ罫線)で構成されており、真ん中の
縦罫線は、四分割される4本の線分(4本のサブ罫線)
で構成されていることが分かる。
ここでサブ罫線は、共役ベクトルを使って表される。
第4図の表の一番上の横罫線を構成する1本のサブ罫線
は、共役ベクトルViとVo1,ViとVo2(まとめてVi,Vo1,V
o2)によって表され、第4図の表の上から二番目の横罫
線の左半分に当たるサブ罫線は、その上を走る左向きの
ベクトルVo7と下を走る右向きのベクトルVo9(互いに共
役な関係にある共役ベクトル)よって表されている。こ
のようにして第4図に示す表は、36本のベクトルで構成
され、また14本のサブ罫線で構成されている。
第5図にベクトルViの記述情報の例を示す。同図から
明らかなように、ベクトルViは始点PAi,終点PBi,長さl
i、傾きθiおよび隣接ベクトルVj,Vk等により記述され
る。
表を文書画像として読取り、該文書画像の輪郭を示す
ベクトルデータを第1図のベクトル化演算部12により得
て表構造解析部13中のベクトル情報メモリに取り込んだ
ときの、該ベクトル情報メモリの内容配列の例を第6A図
に示す。
同図において、ベクトル情報メモリには、ベクトル番
号i(i=1,……,NV)の順にベクトルの始点(位置ベ
クトル)xSi,終点(位置ベクトル)xEi,長さli,傾きθ
i,ベクトル値Vi,前隣接ベクトルNSi(当該ベクトルの始
点なら始点に隣接するベクトルのNo.),後隣接ベクト
ル番号NEi(当該ベクトルの終点なら終点に隣接するベ
クトルのNo.),が先ず格納される。サブ罫線本数Fi,サ
ブ罫線番号NAi j(j=1,……,Fi)の欄は、最初は空欄
としておき、後述の操作により罫線を抽出した後に、当
該ベクトルが構成要素となって属する罫線の、該罫線を
構成するサブ罫線の本数と、それらサブ罫線に付された
番号(サブ罫線番号)を求めて格納する。なお、ベクト
ルViは、Vi=xEi−xSiで表される。
次に第6A図に示すベクトル情報メモリの内容から第6B
図に示す罫線情報メモリの内容を作成するわけである
が、そのためには、その中間段階として、第6B図のそれ
と同様なフォーマットをもつサブ罫線情報メモリ(図示
せず)の内容を作成するのが好都合である。即ち第6A図
に示すベクトル情報から、共役ベクトルを抽出すること
により、それら共役ベクトルにより構成されるサブ罫線
を抽出することができる。抽出されたサブ罫線のサフ罫
線番号、該サブ罫線を構成するベクトルの本数、および
ベクトル番号(例えば一番上の横罫線であるサブ罫線
は、ベクトルの本数が3で、ベクトル番号はVi,Vo1,Vo2
である)、当該サブ罫線の始点、終点の座標、および傾
きを、第6B図と同様な形式のサブ罫線情報メモリ(図示
せず)に記録し、それにより罫線を求めるわけである。
即ち、サブ罫線情報メモリの内容であるサブ罫線の始
点、終点の座標、および傾きから「互いに共役な関係に
ある共役ベクトル」(第8図の)の集合である罫線を
求めて、その始点、終点座標、長さL、傾きΘ、罫線ベ
クトルKを求めて第6B図に示す如く記録することによ
り、罫線情報メモリ(第6B図)が作成される。
この第6B図の記録および前述のサブ罫線情報メモリ
(図示せず)から、或るベクトル(ベクトル番号1なら
1のベクトル)の属する罫線の、該罫線を構成するサブ
罫線の本数およびそれらサブ罫線の番号を求めて第6A図
のサブ罫線の本数の欄とサブ罫線の番号の欄を格納す
る。これらのデータ(サブ罫線の本数とサブ罫線の番
号)は、統合して1本の罫線としてまとめるのに役立つ
データである。第4図の表の縦罫線の場合、1本のサブ
罫線で構成される罫線は、左側の1本と右側の1本の合
計2本、4本のサブ罫線で構成される罫線は中央の1本
である。
既に述べたように、第6B図は、罫線抽出後の罫線情報
メモリの内容を示す図である。これは、要するに、第6A
図に示す如きベクトル情報から、ベクトルが重なり合っ
たりまた延長線でつながるもの(換言すれば、重なり合
うというのは、互いに共役な関係にあることを意味し、
また延長線でつながるというのは、互いに隣接した関係
にあることを意味する)を含め、組み合わせることが可
能なすべてのベクトルを、共役ベクトル及び隣接ベクト
ルとして抽出して作成するものであると云える。例えば
第4図の表の例では、先にも述べたようにベクトルVi,V
o1,Vo2(共役ベクトル)が1つの罫線となる。なお、複
数の罫線に重複して同一のベクトルが含まれることがあ
る。こうして、各罫線はその番号(j=1,……,Nk)順
に、当該罫線を構成するベクトルの本数NHj,それらのベ
クトルのベクトル番号NBi k(k=1〜NHi),始点ySj,
終点yEj,長さLj,傾きΘおよび罫線ベクトルKjが求め
られ、第6B図の如く記憶されるわけである。なお、罫線
ベクトルKjは、Kj=yEj−ySjで表されるものである。
第7図に、表を構成する罫線と表内の欄領域との関係
を示す。同図において、T1〜T2が欄領域であり、肩部の
添字にて行番号、下部の添字にて列番号を示している。
また、図中のKiは始点ySi、終点をyEi、長さをLiとする
罫線である。第7図は、最も長い5本の横罫線と、最も
長い3本の縦罫線を抽出した場合に、これらの罫線によ
り、1回の操作で記述できる表構造の例を示したもので
ある。また、この欄領域の各々について、その欄内にあ
る文字の文字切出しをして文字を読取ることにより、表
の内容を知ることができる。
第8図は、第1図における表構造解析部13の処理動作
(即ち表を構成する罫線の輪郭を追跡して得たベクトル
情報を操作して、表を構成する罫線を抽出し、抽出した
罫線により表構造(欄領域)を記述する動作)、を示す
フローチャートである。以下、その動作について、第9
図に示す構造の表を例に採って説明する。
まず、第9図に示す表を構成する罫線を追跡すること
により得た第6A図に示す如きベクトル情報を、長さli
大きい順番に並べ換える(第8図参照)。次に、長い
ベクトルから順番に、これと共役なベクトルを集めて、
すべてのサブ罫線ひいては罫線を抽出し、罫線情報メモ
リ(第6B図)を作成する(同参照)。そして、罫線情
報についても、長さLiの大きい順番に並べ換える(同
参照)。こゝまでで、第9図に示す表4Bの縦罫線と横罫
線のすべてが抽出される。
次いで、最も長い縦罫線(1本又は複数本)および最
も長い横罫線(1本又は複数本)を存在する限りの本数
だけ抽出することにより、欄領域を抽出し、ラベル付け
を行なう(同,参照)。その結果、第9図の表から
は第9A図のように長い罫線Lx1,Lx2,Ly1〜Ly6のみが抽出
され、それらの罫線にて囲まれる各領域にTiなる欄ラベ
ルが付される。なお、一般に表の中には両サイドの縦罫
線がないものがあるが、その場合は両サイドの縦罫線を
推定して補なうようにする。こうすれば、その後の欄分
割が容易になる。
以後、各欄ごとにさらに、長い罫線がないかどうかを
探し、欄領域を細かく分割して行く(同参照)。この
処理を、欄領域を分割できなくなるまで繰り返す(同
参照)。第2回目の処理により第9B図の如く罫線Lx3〜L
x8が抽出されて欄領域が分割され、その各々に図示の如
きラベルが付される。このとき、各欄領域を囲む罫線に
対し、両端が近接する罫線を抽出するので、第2回目の
処理では、例えば欄領域T2からはLX5,Lx6の方が先に抽
出される。さらに、第3回目の処理では第9C図の如く、
罫線Ly7〜Ly9が抽出されて欄領域が分割され、第4回目
の処理では第9D図の如く、罫線Lx9,Lx10が抽出されて欄
領域が分割される。
以上の説明を、言葉を変えて説明し直せば次のように
なる。即ち、第9図に示す表を構成する罫線を追跡する
ことによりベクトル化演算部12より得たベクトルデータ
から、該ベクトルデータ中の、互いに共約な関係にある
ベクトルデータの集合に着目することにより、罫線を抽
出し、それら抽出された罫線から、長さが縦方向におい
て最大クラスの縦罫線および長さが横方向において最大
クラスの横罫線を、存在している本数だけ全て抽出し、
それら最大クラスの縦罫線および最大クラスの横罫線か
ら、罫線により構成される表の存在する全体領域を抽出
すると共に、それら最大クラスの縦罫線および最大クラ
スの横罫線の中で、表の存在する全体領域を分割する罫
線があれば、それにより分割して得られる領域を一次の
欄領域として抽出し、該一次の欄領域に一次の列番号と
行番号をつけてラベル付けを行ない(第9A図)、抽出さ
れた前記罫線から、前記最大クラスの縦罫線を除いた残
りの縦罫線の内で、前記一次の欄領域を分割する縦罫線
であれば、これを抽出することにより、該縦罫線により
前記一次の欄領域を分割して得られる二次の欄領域を抽
出して、二次の列番号をつけてラベル付けし(第9B
図)、抽出された前記罫線から、前記最大クラスの横罫
線を除いた残りの横罫線の内で、前記二次の欄領域を分
割する横罫線であれば、これを抽出することにより、該
横罫線により前記二次の欄領域を分割して得られる三次
の欄領域を抽出して、二次の行番号をつけてラベル付け
し(第9C図)、このようにして次の次元の欄領域を分割
する縦罫線および横罫線がなくなるまで欄領域分割およ
びラベル付けを繰り返し、かくして表に含まれるすべて
の欄をラベル付けした構造情報を抽出する。
そして最終的には、第9図の表構造は第10図のような
トリー形式で記述することができる。
第11図は、第1図における表データ読取部14の処理動
作を示すフローチャートである。第1図に示す表データ
読取部14は、以下のようにして得られた表構造記述デー
タと、イメージメモリを介して得られる画像データか
ら、まず各欄領域毎の、そこに含まれている文字デー
タ、即ち表データDi jを第12図の如く抽出する。抽出さ
れた表データから、水平方向の投影値を求めることによ
り行切出しを行ない(第11図,参照)、しかる後垂
直方向の投影値を求めることにより個々の文字を切出し
(同,参照)、パターンマッチング法等の公知の手
法により文字を識別する(同参照)。かゝる処理をす
べての欄の文字データにつき行ない、表内の各欄領域の
データを読取る。
以上のように、表構造解析部により表を解析して構造
記述を行ない、表データ読取部により各欄領域毎に、そ
こに記述されている文字を読取って表データとして抽出
することにより、種々の構造をもつ表を、その表内デー
タとゝもに読取ることができ、データベースを作成する
ことができる。
なお、この発明は罫線が斜めの場合にも適用すること
ができるだけでなく、表と同じく水平,垂直の線分で記
述される図形を読取る場合にも適用することができる。
〔発明の効果〕
この発明によれば、表を含む文書画像をベクトル化
し、すべての罫線を抽出してその長いものから順に表領
域を分割し、欄領域を抽出して表を階層的に記述するよ
うにしたので、表全体の効率的な読取りが可能になる。
すなわち、固定フォーマットではない、自由な構造の表
を入力することができ、しかも表構造を一義的に記述で
きるので、読取結果をデータベースとして再利用し得る
形にして表データを得ることができる。
その結果 (1)フリーフォーマットの表の読取りが可能になる。
(2)同じフォーマットの表は、同じトリー構造で記述
することができる(一義的表現形式)。
(3)表データの入力および統計処理を統一的に行なう
ことができる。
などの効果が得られる。
【図面の簡単な説明】
第1図はこの発明の実施例を示すブロック図、第2図は
この発明による読取装置を含む文書情報処理システムを
示す概要図、第3図は表を含む文書の一例を説明するた
めの説明図、第4図は表の画像例を説明するための説明
図、第5図はベクトルの記述情報を説明するための説明
図、第6A図はベクトル情報メモリの内容を説明するため
の説明図、第6B図は罫線情報メモリの内容を説明するた
めの説明図、第7図は罫線と欄領域の関係を説明するた
めの説明図、第8図は表構造解析部の処理動作を示すフ
ローチャート、第9図はやゝ複雑な表の例を説明するた
めの説明図、第9A図ないし9D図は欄領域の分割処理とラ
ベル付け処理の過程を説明するための説明図、第10図は
第9図の表構造を示すトリー図、第11図は表データ読取
部の処理動作を示すフローチャート、第12図は表構造と
表データを示すトリー図である。 符号説明 1……読取プロセッサ、2……イメージスキャナ、3…
…CRTディスプレイ、4……表を含む文書、4A,4B……
表、11……イメージメモリ、12……ベクトル化演算部、
13……表構造解析部、14……表データ読取部、15……メ
インプロセッサ、16……入出力インタフェイス。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】表を含む文書の読取装置であって、 (イ)文書を入力する入力手段と、 (ロ)前記入力手段により入力された文書画像である2
    値画像の輪郭を追跡してベクトル化することにより、前
    記文書画像の輪郭を示すベクトルデータを得るベクトル
    化手段と、 (ハ)前記ベクトル化手段により得た文書画像の輪郭を
    示すベクトルデータから、該ベクトルデータ中の、互い
    に共役な関係にあるベクトルデータの集合に着目するこ
    とにより、罫線を抽出し、それら抽出された罫線から、
    長さが縦方向において最大クラスの縦罫線および長さが
    横方向において最大クラスの横罫線を、存在している本
    数だけ全て抽出し、それら最大クラスの縦罫線および最
    大クラスの横罫線から、罫線により構成される表の存在
    する全体領域を抽出すると共に、それら最大クラスの縦
    罫線および最大クラスの横罫線の中で、表の存在する全
    体領域を分割する罫線があれば、それにより分割して得
    られる領域を一次の欄領域として抽出し、 該一次の欄領域に一次の列番号と行番号をつけてラベル
    付けを行ない、 抽出された前記罫線から、前記最大クラスの縦罫線を除
    いた残りの縦罫線の内で、前記一次の欄領域を分割する
    縦罫線があれば、これを抽出することにより、該縦罫線
    により前記一次の欄領域を分割して得られる二次の欄領
    域を抽出して、二次の列番号をつけてラベル付けし、 抽出された前記罫線から、前記最大クラスの横罫線を除
    いた残りの横罫線の内で、前記二次の欄領域を分割する
    横罫線があれば、これを抽出することにより、該横罫線
    により前記二次の欄領域を分割して得られる三次の欄領
    域を抽出して、二次の行番号をつけてラベル付けし、 このようにして次の次元の欄領域を分割する縦罫線およ
    び横罫線がなくなるまで欄領域分割およびラベル付けを
    繰り返し、かくして表に含まれるすべての欄をラベル付
    けした構造情報を抽出する表構造解析手段と、 (ニ)前記表構造解析手段により抽出した各欄領域に存
    在する文字画像から、文字を切り出し、個々の文字を読
    み取る表データ読取手段と、 を有して成ることを特徴とする表を含む文書の読取装
    置。
JP62305680A 1987-12-04 1987-12-04 表を含む文書の読取装置 Expired - Lifetime JP2567001B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62305680A JP2567001B2 (ja) 1987-12-04 1987-12-04 表を含む文書の読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62305680A JP2567001B2 (ja) 1987-12-04 1987-12-04 表を含む文書の読取装置

Publications (2)

Publication Number Publication Date
JPH01147786A JPH01147786A (ja) 1989-06-09
JP2567001B2 true JP2567001B2 (ja) 1996-12-25

Family

ID=17948062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62305680A Expired - Lifetime JP2567001B2 (ja) 1987-12-04 1987-12-04 表を含む文書の読取装置

Country Status (1)

Country Link
JP (1) JP2567001B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2713622B2 (ja) * 1989-11-20 1998-02-16 富士通株式会社 表形式文書読取装置
JP2813600B2 (ja) * 1990-02-28 1998-10-22 富士ファコム制御株式会社 表形式文書読取装置
JP4853891B2 (ja) * 2004-12-27 2012-01-11 公立大学法人広島市立大学 文書構造情報の作成方法
CN107622233A (zh) * 2017-09-11 2018-01-23 畅捷通信息技术股份有限公司 一种表格识别方法、识别系统及计算机装置

Also Published As

Publication number Publication date
JPH01147786A (ja) 1989-06-09

Similar Documents

Publication Publication Date Title
JP3832879B2 (ja) 文書画像分割装置
CN101127081A (zh) 表格数据处理方法和装置
JP2890482B2 (ja) 文書画像再配置ファイリング装置
Khuong et al. Generating synthetic handwritten mathematical expressions from a LaTeX sequence or a MathML script
JP2567001B2 (ja) 表を含む文書の読取装置
EP1439486B1 (en) Segmenting an image via a graph
JP2926066B2 (ja) 表認識装置
JP2008108114A (ja) 文書処理装置および文書処理方法
JPH08320914A (ja) 表認識方法および装置
JP4390523B2 (ja) 最小領域による合成画像の分割
Wu et al. A machine-learning approach for analyzing document layout structures with two reading orders
JPH0689365A (ja) 文書画像処理装置
KR102542174B1 (ko) 디지털 참고서 제공 시스템 및 그 방법
CN110727820B (zh) 一种为图片获得标签的方法和系统
JPH1166230A (ja) 文書認識装置、文書認識方法及び媒体
JP3013442B2 (ja) 図面自動入力装置
JPH1027237A (ja) 文書ファイリング装置
EP1439485B1 (en) Segmenting a composite image via basic rectangles
Balasubramanian et al. Information extraction from tabular drawings
JPH03142691A (ja) 表形式文書認識方式
JPH0567189A (ja) 帳票書式定義方法および装置
JPS61193276A (ja) 文字列抽出方式
JP2000029986A (ja) 帳票データ読取方法、記録媒体、及び、帳票データ読取装置
JP2023036833A (ja) 情報処理装置、及びプログラム
JPH01130293A (ja) 文書画像解析方式