JP2575480B2 - 表構造化方式 - Google Patents

表構造化方式

Info

Publication number
JP2575480B2
JP2575480B2 JP63300689A JP30068988A JP2575480B2 JP 2575480 B2 JP2575480 B2 JP 2575480B2 JP 63300689 A JP63300689 A JP 63300689A JP 30068988 A JP30068988 A JP 30068988A JP 2575480 B2 JP2575480 B2 JP 2575480B2
Authority
JP
Japan
Prior art keywords
frames
frame
data
line
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63300689A
Other languages
English (en)
Other versions
JPH02148170A (ja
Inventor
康之 白水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP63300689A priority Critical patent/JP2575480B2/ja
Publication of JPH02148170A publication Critical patent/JPH02148170A/ja
Application granted granted Critical
Publication of JP2575480B2 publication Critical patent/JP2575480B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、表図形を構成する罫線データ(罫線の始
点、終点及び線種を含む)を与えられて、それからその
表構造を規定する表構造化データを作成する表構造化方
式に関するものである。
画像処理の分野では、認識の対象が表である場合、ス
キャナにより表を読み取って得た2値画像データから、
表を切り出して、表を構成する罫線データ(罫線の始
点、終点及び線種)を得ること、そして次に該罫線デー
タからその表構造を規定する表構造化データを作成する
こと、が行われ、それによって表を含む文字、図形デー
タの自由な取り扱いが可能になる。本発明では、表を構
成する罫線データ(罫線の始点、終点及び線種)が既に
得られたものとして、該罫線データから表構造を規定す
る所の表構造化データを作成する表構造化方式に関する
ものである。
〔従来の技術〕
第5図は表を含む文字、図形データを扱う文字、図形
データ処理システムの構造例を示すブロック図である。
同図において、10は表を含む文字、図形データを読み取
るスキャナ、11は画像メモリ、12はCPUコアブロック(C
PUとROM、RAM、周辺I/O等を含みデータの処理、転送を
行う)、13はOCR(オプト キャラクタ リーダ)、14
は文書編集装置、である。
スキャナ10は表を含む文字、図形データを読み取り2
値化して画像データとして画像メモリ11に取り込む。CP
Uコアブロック12は、画像メモリ11から画像データを取
り出し、表の切り出し、表構造データの作成を行うと共
に、OCR13を使って文字、図形の認識を行い、それらの
結果を文書編集装置14に送る。
〔発明が解決しようとする課題〕
かかる文字、図形データ処理システムにおいて、従来
扱い得た表は定形型の表であることが発表されている。
第6図は定形型の表を示す説明図である。同図に示す
表は、所謂碁盤の目状に仕切られた枠をもち、縦列方向
ならどの縦列をとっても枠の数は同じく4個であり、横
方向ならどの行方向をとっても枠の数は同じく5個であ
り、各枠毎の面積の大小はあるにしても、整然とした枠
配列を備えた定形型の表である。
これに対し第7図は、非定形型の表を示す説明図であ
る。一見して明らかなように、同じ横方向でも、最下行
では横方向に枠が5個存在するのに、一番上の行では、
4個しか枠が存在しない。また一番左の縦列では枠が4
個存在するが、一番右の縦列では枠が3個存在しない。
また第8図も非定形型の表を示す説明図である。
文字、図形データ処理システムにおいて、従来扱い得
た表は、第6図に示す如き定形型の表であることが発表
されているが、第7図に示す如き非定形型の表を扱った
例は発表されていない(非定形型の表は、ディスプレイ
面に描くことは出来るが、縦横の位置関係に意味をもつ
表としては扱えなかったため、表における行や列方向の
サーチ、表計算等は行えなかった)。
本発明の目的は、文字、図形データ処理システムにお
いて、第7図に示す如き非定形型の表をも、定形型の表
の場合と同じように扱うことを可能ならしめるための表
構造方式を提供することにある。
〔課題を解決するための手段〕
上記目的達成のため本発明では、その表の中で行同士
及び列同士で異なる個数の枠をもつ非定形型の表構造に
おいて、仮想線を想定することにより、行同士及び列同
士で、それぞれ互いに同じ個数の枠をもつ定形型の表構
造を仮定し、仮想線によって仕切られた複数の仮想枠で
本来、同一の枠に属するものには同じ枠番号を付与し、
それと共に、枠が実際に存在する枠か、仮想線のみによ
って作り出された実際には存在しない枠であるかを示す
枠の有無情報、及び枠同士の連結具合を示す連結情報を
登録する段階を含むことにより、定形型の表構造を採る
場合と同じ手法で表構造化データを作成することを可能
にした。
第1図は、本来第7図に見られる如き非定形型の表で
あったものを、破線で示す如き仮想線を想定することに
より、定形型の表と化してた説明図である。第2図も同
様に、本来第8図に見られる如き非定形型の表であった
ものを、破線で示す如き仮想線を想定することにより、
定形型の表と化した説明図である。
このように本発明では、仮想線を想定して、行同士列
同士で、それぞれ同じ個数の枠をもつ定形型の表構造を
仮定する。
〔作用〕
仮想線によって仕切られた複数の仮想枠で本来、同一
の枠に属するものには同じ枠番号を付与し、それと共
に、枠が実際に存在する枠か、仮想線のみによって作り
出された実際には存在しない枠であるかを示す枠の有無
情報、及び枠同士の連結具合を示す連結情報を各枠毎に
もたせる。こうして非定形型の表を単純な枠配列をもつ
定形型の表データとして構造化することができ、定形型
の表の場合と同じように、容易に表における行や列方向
のサーチ、表計算等が行えるようになる。
〔実施例〕
以下、本発明の実施例を説明する。
第3図が、これから表構造化データを作成しようとす
る、その対象としての表構造の一例を示す説明図であ
る。
同表の基準点を左上角のA点とすると、基準点Aは、
原点(0,0)より若干ずれた位置にあり(このずれ量を
X軸方向とY軸方向に分けて考え、X軸方向オフセッ
ト、Y軸方向オフセットという)、また表全体がX軸方
向、Y軸方向に対して傾いており、枠番号は1〜16まで
で非定形型の表であることが認められるであろう(この
ような表を表構造化データの作成対象に選んだわけであ
る)。
更に、作成した表構造化データを記入するフォーマッ
トを第4図に示す。
第4図(a)に示すフォーマットは、基本データを記
入するフォーマットで、その名称をHNO(*)と云い、
(*)の所には1〜8の数字が入る。即ちHNO(1)は
表番号(一つのディスプレイ面において表示される表は
一つとは限らず、複数ある場合もあるのでその場合、番
号を付す)、HNO(2)は表の傾き、HNO(3)は基準点
AのX軸方向オフセット、HNO(4)は基準点AのY軸
方向オフセット、HNO(5)はX軸方向における表全体
の幅、HNO(6)はY軸方向における表全体の幅、HNO
(7)はXZ軸方向における枠の数、HNO(8)はY軸方
向における枠の数、を表わすデータで、フォーマットを
構成する各欄1〜8にそれぞれ記入する。
第4図(b)に示すフォーマットは、X方向罫線デー
タを記入するフォーマットで、その名称をDOY(*,
*)と云い、(*,*)の所の最初の*には左右の欄を
識別する数字が入り、次の*には上下方向の番号が入
る。そして罫線の線種が左の欄に、Y軸方向の幅が右の
欄に記入される。
なお罫線の線種は5ビット構成で表現され、0桁目に
ビットを立てて実線を表わし、1桁目にビットを立てて
破線を表わし、2桁目にビットを立てて点線を表わし、
3桁目にビットを立てて一点鎖線を表わし、4桁目にビ
ットを立てて二点鎖線を表わすようにしている。
第4図(c)に示すフォーマットは、Y方向罫線デー
タを記入するフォーマットで、その名称をDOX(*,
*)と云い、同様に罫線の線種とX軸方向の幅が記入さ
れる。
第4図(d)に示すフォーマットは、枠番号データを
記入するフォーマットで、その名称をDOB(2,*,*)
と云い、第4図(e)に示すフォーマットは、枠毎の連
結データを記入するフォーマットで、その名称をDOB
(1,*,*)と云い、(*,*)の所は各枠の配列に対
応した数字が入る。
以上、表構造化データを記入するフォーマットを説明
したので、次に実際に表構造化データを作成する手順を
説明する。
第5図に示すスキャナ10で、第3図に示す如き表図形
を世に取り画像データとしてメモリ11に取り込み、該画
像データから表を構成する罫線の始点、終点、軽種(罫
線データ)を求める(この表切り出しの手法は、本発明
では問題にせず、既存の手法で行うものとしている)。
得られた罫線データから各線分の傾きを算出し、±45
゜以内のものを水平線、それ以外のものを垂直線とした
後、それぞれの線分の角度が、或るしきい値以内にある
か否かを調べる。例えばしきい値±5゜とした場合、水
平線0゜±5゜以内、垂直線は90゜±5゜以内、としそ
れ以外の線分は、表を構成する罫線ではないものと判断
して除去する。
そしてそれぞれの線分の傾きの統計をとり、最も多い
傾きの値を、第4図(a)に示すフォーマットの2の欄
に、データHNO(2)として登録する。
上記で求めた傾きにより、線分の始点、終点の座標
を次の式で傾き補正し、X座標が最小の位置にある垂直
線とY座標が最小の位置にある水平線との交点Aを求
め、該交点Aの座標をX軸オフセット、Y軸オフセット
として第4図(a)に示すフォーマットの3と4の欄
に、それぞれデータHNO(3)及びHNO(4)として登録
する。
X′=Xsinθ+Ycosθ Y′=Xcosθ−Ysinθ 但し、X,Yは補正前の座標、X′,Y′は補正後の座
標、θは傾きである。
各線分(罫線)間の間隔を求め、垂直線分をDOX(2,
*)として第4図(c)に示すフォーマットの右欄に登
録し、水平線分をDOY(2,*)として第4図(b)に示
すフォーマットの右欄に登録する。
但し第3図における線分BCと線分DEのように、Y′座
標値が同じ値を示すような水平線分、或いはX′座標値
が同じ値を示すような垂直線分については1本の線分と
してまとめる。
ここで求めた水平線、垂直線の数からそれぞれ1を引
いた残りをX方向の枠数、Y方向の枠数として、第4図
(a)に示すフォーマットの7と8の欄に、それぞれデ
ータHNO(7)及びHNO(8)として登録する。
上記で求めた補正座標より、全ての線分の交点を求
め、枠を算出し、枠番号を順番に1から付ける。これを
第4図(d)に示すフォーマットに、DOB(2,*,*)
として登録する。ここで第3図に見られる枠9のような
変形枠に対しては、CD間に仮想線を想定して複数の枠に
分け、それぞれに同一番号を付ける。更に、その複数の
枠間では、連結して一つの枠を構成しているということ
を表わす連結情報を連結フラグとして第4図(e)に示
すフォーマットに登録する。
ここで連結情報は、4ビット構成で、0桁目にビット
を立てて右方向連結枠有り、1桁目にビットを立てて左
方向連結枠有り、2桁目にビットを立てて下方向連結枠
有り、3桁目にビットを立てて上方向連結枠有り、を表
わす。
第3図の枠9では、CD間を結ぶ仮想線によって仕切ら
れた上の枠に対しては、下方向連結枠有りを示す連結フ
ラグを立て、下の枠に対しては、上方向連結枠有りを示
す連結フラグを立てるわけである。
以上をまとめると、第3図に見られる如き表に対する
表構造化データとして次の如きデータが作成されたこと
になる。
X方向枠数 HNO(7)=4 Y方向枠数 HNO(8)=5 ここで1Hとは、ヘキサ(16進法)の1(2進法で表わ
すと、0001)に相当し、「右方向連結枠有り」を意味
し、2Hは同様にヘキサ(16進法)の2(2進法で表わす
と、0010)に相当し、「左方向連結枠有り」を意味し
る。4Hは2進法では、0100に相当して「下方向連結枠有
り」を意味し、8Hは2進法では、1000に相当して「上方
向連結枠有り」を意味する。
次に、交点座標と表の傾きデータとにより、各枠内の
画像データを求めてOCR13に転送し、その認識結果に枠
番号を付加して表構造化データと共に文書編集装置14に
転送する。
表構造化データを作成せんとする対象の表が、第2図
に見られるような表であるとき、つまり仮想線だけで囲
まれた実在しない枠を含むときは、枠が実際に存在する
枠か、仮想線のみによって作り出された実際には存在し
ない枠であるかを示す枠の有無情報も登録する。
〔発明の効果〕
以上説明したように、本発明によれば、非定形型の表
も、定形型の表の場合と同じように管理可能になるた
め、行、列のサーチ、マウス等で指定された枠のサー
チ、表計算等が容易に行えるようになるという利点があ
る。
【図面の簡単な説明】
第1図、第2図はそれぞれ本来非定形型の表であったも
のを本発明により破線で示す如き仮想線を想定して定形
型の表と化した説明図、第3図は表構造化データを作成
しようとする、その対象としての表構造の一例を示す説
明図、第4図は作成した表構造化データを記入するフォ
ーマットを示す説明図、第5図は表を含む文字、図形デ
ータを扱う文字、図形データ処理システムの構成例を示
すブロック図、第6図は定形型の表を示す説明図、第7
図、第8図はそれぞれ非定形型の表を示す説明図、であ
る。 符号の説明 10……表を含む文字、図形データを読み取るスキャナ、
11……画像メモリ、12……CPUコアブロック、13……OCR
(オプト キャラクタ リーダ)、14……文書編集装
置。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】表図形を構成する罫線データ(罫線の始
    点、終点及び線種を含む)を与えられて、それからその
    表構造を規定する所の表構造化データを作成する表構造
    化方式において、 前記表図形が、その表の中で行同士及び列同士で、それ
    ぞれ互いに同じ個数の枠をもつ定形型の表構造を採ら
    ず、行同士、列同士で異なる個数の枠をもつ非定形型の
    表構造を採るとき、その表の中で仮想線を想定すること
    により、行同士及び列同士で、それぞれ互いに同じ個数
    の枠をもつ定形型の表構造を仮定し、仮想線によって仕
    切られた複数の仮想枠であって本来、同一の枠に属する
    ものには同じ枠番号を付与し、それと共に、枠が実際に
    存在するか、仮想線のみによって作り出された実際には
    存在しない枠であるかを示す枠の有無情報、及び枠同士
    の連結具合を示す連結情報を登録する段階を含むことに
    より、定形型の表構造を採る場合と同じ手法で表構造化
    データを作成することを可能にしたことを特徴とする表
    構造化方式。
JP63300689A 1988-11-30 1988-11-30 表構造化方式 Expired - Lifetime JP2575480B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63300689A JP2575480B2 (ja) 1988-11-30 1988-11-30 表構造化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63300689A JP2575480B2 (ja) 1988-11-30 1988-11-30 表構造化方式

Publications (2)

Publication Number Publication Date
JPH02148170A JPH02148170A (ja) 1990-06-07
JP2575480B2 true JP2575480B2 (ja) 1997-01-22

Family

ID=17887892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63300689A Expired - Lifetime JP2575480B2 (ja) 1988-11-30 1988-11-30 表構造化方式

Country Status (1)

Country Link
JP (1) JP2575480B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0887495A (ja) * 1994-09-16 1996-04-02 Ibm Japan Ltd 表データのカット・アンド・ペースト方法及びデータ処理システム
JP2008108187A (ja) * 2006-10-27 2008-05-08 Fukui Computer Kk Cadデータ変換装置、cadデータ変換方法、及びcadデータ変換プログラム
JP5574272B2 (ja) * 2010-02-16 2014-08-20 富士ゼロックス株式会社 画像読取装置、画像処理装置およびプログラム

Also Published As

Publication number Publication date
JPH02148170A (ja) 1990-06-07

Similar Documents

Publication Publication Date Title
JP2588491B2 (ja) 画像切り出し装置及びその方法
EP0654751B1 (en) Method of analyzing data defining an image
JPH09128455A (ja) 表データ構造及び表計算方法
JPH11161736A (ja) 文字認識方法
JP2575480B2 (ja) 表構造化方式
JP3396404B2 (ja) 文字列自動編集システム
JP2008108114A (ja) 文書処理装置および文書処理方法
US5018883A (en) Vector font processing in a printing device
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
US5307424A (en) Character recognition system
JPS6132187A (ja) 文字認識方式
JPH0697470B2 (ja) 文字列抽出装置
JPS6245581B2 (ja)
JPH06187489A (ja) 文字認識装置
JP2615091B2 (ja) 回路ブロックパターン入力装置
JPS62290984A (ja) パタ−ン情報入力用紙、及び、該用紙を用いたパタ−ン情報認識方法
JP2682873B2 (ja) 表形式文書の認識装置
JP3118310B2 (ja) ページプリンタの印字処理方法
JP3018471U (ja) 数字表示用コードパターンを有するプリペイドカード
JPS62134767A (ja) 記号名・線分名の自動抽出装置
JPH0719251B2 (ja) 数式記号の入力表示方式
JP2586117B2 (ja) 文字認識装置
JP2001056857A (ja) 図形の電子化方法
JP2834130B2 (ja) 認識データの確認方法
JPH0610447Y2 (ja) 画像処理装置