JPH06131497A - 表認識方式 - Google Patents

表認識方式

Info

Publication number
JPH06131497A
JPH06131497A JP4303301A JP30330192A JPH06131497A JP H06131497 A JPH06131497 A JP H06131497A JP 4303301 A JP4303301 A JP 4303301A JP 30330192 A JP30330192 A JP 30330192A JP H06131497 A JPH06131497 A JP H06131497A
Authority
JP
Japan
Prior art keywords
frame
unit
normalizing
normalization
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4303301A
Other languages
English (en)
Inventor
Katsuhiko Itonori
勝彦 糸乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP4303301A priority Critical patent/JPH06131497A/ja
Publication of JPH06131497A publication Critical patent/JPH06131497A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 いかなる複雑な表に関しても単純な配列とし
て表現することができるようにすること。 【構成】 表画像からその表を構成する枠を抽出する枠
抽出手段11と、前記枠抽出手段によって抽出された枠
の大きさを、罫線の位置情報を用いて正規化する枠正規
化手段12と、前記枠正規化手段によって大きさを正規
化された各枠を記憶する表記憶手段13とを有する。ま
た、枠正規化手段により得られた枠正規化情報に基づい
て、表構造に対応した記憶領域を決定し、各枠をその記
憶領域に割当てる処理を行う表記憶処理手段を設け、そ
の表記憶処理手段の割当て処理に従って各枠を表記憶手
段に記憶する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、表画像から表を構成す
るすべての枠を抽出し、その結果を表形式文書のデータ
表現とするための表認識方式に関するものである。
【0002】
【従来の技術】従来の表認識の方式としては、表領域の
周辺分布や表を構成する罫線をベクトル線分に変換し
て、罫線で囲まれた矩形枠を抽出している。周辺分布を
使用する方式として例えば特開平2−61775号公報
記載の方式、ベクトル線分を使用する方式として特開平
1−129358号公報記載の方式がある。前者の方式
は、周辺分布により表の最も外側にある外枠の罫線を取
り出し、この外枠に両端を接する罫線により複数の矩形
枠に分割する。さらに、分割された各矩形枠内に対して
同様の処理を再帰的に施すことにより、罫線で囲まれた
矩形枠を抽出する。後者の方式は、ベクトル線分を追跡
して取り出した各矩形枠の位置関係を調べることで表の
認識を行なう。これらの方式は、表を構成する罫線に省
略が無いことを前提としているが、表の両脇の罫線が省
略されている場合でも、例えば特開平2−264386
号公報に示されているように、正しく矩形枠を取り出す
ことのできる方式もある。これは、表画像から取り出し
た縦罫線、横罫線から表の両脇に罫線があるかを判別
し、無い場合に表の両脇に縦罫線を仮想的に生成する方
式である。また、これらの他に特開平1−129358
号公報では表の行、列を取り出し表計算を行う技術が開
示されている。
【0003】また、文書作成装置の分野においていくつ
かの表現方式が提案されている(例えば、特開平3−1
29557号公報、特開平3−139559号公報、特
開平3−130866号公報、特開平3−130867
号公報等で開示されている編集方式)。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
表認識方式は表画像中の文字をOCR(文字認識装置)
が正確に認識できるように各文字が存在する部分を切り
出すことが主な目的であり、表それ自体の構造を保存す
るものではなかった。特開平1−129358号公報で
開示されている技術では、前述のように表の行、列を取
り出し表計算を行っているが、行あるいは列が分割して
いるような複雑な表には対処できるものではなかった。
【0005】また、前記文書作成装置の分野において提
案されている表の表現方式は、いづれもその構造が複雑
であったり、文書作成装置ごとに表現形式が微妙に違っ
ていたりしていた。さらに、これらの表現方式は文書作
成を主目的として考案されているので、必ずしも認識結
果を表現するのに適しているとはいえなかった。
【0006】一般的に、表の表現は各行と列を構成する
枠をリスト構造によって表現することが考えられる。し
かし、この方式では各行あるいは列が途中で分割してい
るかどうかを知るために、いちいちリストを追跡する必
要があり、特定の行要素あるいは列要素だけを取り出し
たいときには、処理が複雑になる傾向があった。
【0007】本発明は、これらの問題点を解決すること
を目的とするものである。すなわち、本発明はいかなる
複雑な表に関しても単純な配列として表現することので
きる表認識方式を提供するものである。
【0008】
【課題を解決するための手段】本発明(請求項1)の表
認識方式は、表画像からその表を構成する枠を抽出する
枠抽出手段(11、21)と、前記枠抽出手段によって
抽出された枠の大きさを、罫線の位置情報を用いて正規
化する枠正規化手段(12、22)と、前記枠正規化手
段によって大きさを正規化された各枠を記憶する表記憶
手段(13、24)とを有する。
【0009】また、本発明(請求項2)は、上記表認識
方式において、枠正規化手段(22)により得られた枠
正規化情報に基づいて、表構造に対応した記憶領域を決
定し、各枠をその記憶領域に割当てる処理を行う表記憶
処理手段(23)を設け、その表記憶処理手段の割当て
処理に従って各枠を表記憶手段に記憶するようにしたこ
とを特徴とする。
【0010】
【作用】本発明(請求項1)は、枠抽出手段によって表
の各欄を構成する枠を抽出し、枠正規化手段において各
枠を、構成する罫線の位置情報から各枠を正規化し、こ
の枠正規化手段によって正規化された枠を表記憶手段に
よって記憶する。このように本発明は、表を各欄に対応
する枠の集合として把握し、さらに各枠を正規化するの
で、表の表現形式が単純になり、認識結果の特定の行あ
るいは列を抽出したり加工したりするさまざまなアプリ
ケーションの構築を容易にすることが可能である。
【0011】また、本発明(請求項2)においては、表
記憶処理手段は、枠正規化手段により正規化された枠の
情報に従って表記憶手段の記憶領域の枠への割当てを行
うので、記憶の形式に表の構造が対応しており、記憶さ
れた表の表現形式がより単純となる。即ち、本発明によ
れば、正規化された枠の形式により表記憶媒体上に配置
することにより、表の表現形式がより単純になり、認識
結果の特定の行あるいは列を抽出したり加工したりする
さまざまなアプリケーションの構築を一層容易にするこ
とが可能である。
【0012】
【実施例】図2は、本発明の一実施例の構成を示すもの
で、表画像から文字と罫線を分離する文字・罫線分離部
20と、分離された罫線を基にその表を構成する枠を抽
出する枠抽出部21と、枠抽出部21によって抽出され
た枠の大きさを、罫線の位置情報を用いて正規化し枠正
規化表を生成する枠正規化部22と、枠正規化部22に
より得られた枠正規化表に基づいて、表構造に対応した
記憶領域を決定し、各枠をその記憶領域に割当てる処理
を行う表記憶処理部23と、表記憶処理部23により処
理された表情報を記憶する表記憶部24を備えている。
【0013】文字・罫線分離部20は、あらかじめ文字
と表罫線を分離する処理を行うものであるが、この処理
については、一般的な技術例えば特開平3−29029
9号公報記載の技術を用いることができる。
【0014】枠抽出部21は、図3に示すような表につ
いて表の各欄を構成する枠を抽出する処理を行うもの
で、表の罫線をベクトル化する罫線ベクトル化部211
と閉ループを抽出する閉ループ抽出部212からなる。
罫線ベクトル化部211のベクトル化の手法は公知技術
(例えば特開平1−142880号公報、特開平2−1
05265号公報)であるので、ここでは特に述べな
い。閉ループ抽出部212における閉ループを抽出する
手法も任意の公知の技術を用いることができる。例え
ば、罫線で囲われている枠は、1つの水平ベクトル・デ
ータの左右に垂直ベクトル・データが接続し、さらにそ
の下に水平ベクトル・データが接続していることから、
各水平ベクトル・データを調べて、条件を満たすベクト
ル・データを枠として登録する方法があり、本実施例で
はこの方法を用いる。
【0015】これを図4のフローチャートを用いて説明
する。まず、表を構成する全てのベクトル・データの数
を計数し変数Nに設定するとともに、変数iおよびkを
初期化する(ステップ401)。そして、以下のステッ
プ402からステップ412の処理を全てのベクトル・
データに対して適用する。矩形枠の上罫線となる水平ベ
クトル・データViを捜す(ステップ403)。これ
は、ベクトル・データと水平線とのなす角度がある閾値
以下であることから水平なベクトル・データを見つける
ことができる。ここでみつけた水平ベクトル・データV
iは、k番目の矩形枠の上罫線となる可能性があるの
で、矩形枠構成表51のk番目の矩形枠の上罫線の欄に
このベクトル・データViを登録する(ステップ40
4)。
【0016】次に矩形枠Wkの右側の辺を構成するベク
トル・データを捜す(ステップ405)。すなわち、ベ
クトル・データViの右端の端点に接し、かつベクトル
・データViに接していないほうの端点がベクトル・デ
ータViより下にあるような垂直ベクトル・データをみ
つける処理を行なう。垂直ベクトル・データは、垂線と
のなす角度がある閾値以下であることから容易に求める
ことができる。このステップで見つけたベクトル・デー
タは矩形枠Wkの右罫線を構成する可能性があるので、
矩形枠構成表51のk番目の矩形枠の右罫線の欄に登録
する(ステップ406)。このとき、右罫線として見つ
けたベクトル・データの下に、このベクトル・データよ
りに左側に伸びるベクトル・データが接続していないか
調べる。このようなベクトル・データが存在していない
場合、その下に接する垂直なベクトル・データも矩形枠
Wkの右罫線を構成する可能性があるので、矩形枠構成
表51のk番目の矩形枠の右罫線の欄に登録する。
【0017】同様に矩形枠Wkの左罫線を捜し(ステッ
プ407)、もしあれば矩形枠構成表51のk番目の矩
形枠の左罫線の欄に登録する(ステップ408)。さら
に、いま求めた右罫線、左罫線を結ぶような水平なベク
トル・データを捜し(ステップ409)、見つかれば、
矩形枠構成表51のk番目の矩形枠の下罫線の欄に登録
する(ステップ410)。以上の処理のうち、1つでも
罫線が見つからない場合は、矩形枠構成表51のk番目
の矩形枠のすべての登録を破棄して、他のベクトル・デ
ータで構成される矩形枠を登録できるようにリセットす
る。以上の処理を図5(a)の表に適用した時の矩形枠
構成表51は図5(b)のようになる。
【0018】枠正規化部22は、枠幅正規化部221と
枠高正規化部222とから構成され、上記の枠抽出部2
1で抽出された枠をその枠を構成する上下左右の枠線の
位置情報から、すべての枠の位置、幅、高さを正規化す
る。ここでは、図6を用いて枠幅正規化部221の処理
について説明する。まず、すべての枠を調べ、左右端の
X座標を求め配列BXに記憶する(ステップ601)。
このとき、重複するX座標は配列BXに記憶しない。次
に、この配列BXを昇順にソートする(ステップ60
2)。再度すべての枠の左端のX座標を調べ、その値が
対応する配列BXの要素番号を枠正規化表71のXの欄
に登録する(ステップ603)。例えば、枠構成表51
において、枠No.W1の左罫線は配列BXの2番めの
要素に対応するので、枠正規化表71の枠No.W1の
Xの欄に2を登録する。次に、すべての枠の右端のX座
標を調べ、その値の対応する配列BXの要素番号から、
先に登録した枠正規化表71の対応する枠のXの欄の値
を引いた値を枠正規化表71のWの欄に登録する(ステ
ップ604)。例えば、枠構成表51において、枠N
o.W1の右罫線は配列BXの3番めの要素に対応する
ので、枠正規化表71の枠No.W1のWの欄に1を登
録する。
【0019】枠高正規化部222は、枠幅正規化部22
1がX座標について行っていることをY座標について同
様に行うことで実現することができる。図4についての
枠正規化表を図7に、図8(a)のように途中で行、列
に分割のある表についての枠正規化表を図8(b)に示
す。
【0020】表記憶処理部23では、枠正規化部22で
正規化された枠を一定の記憶領域に割り当てていく処理
を行う。この処理の過程を図9のフローを用いて説明す
る。まず、枠正規化表71を調べ、記憶領域の大きさを
決定する(ステップ91)。枠正規化表に登録されてい
るすべての枠について、そのXとWの欄の合計が最大と
なる値MAXXを求め、さらにそのYとHの合計が最大
となる値MAXYを求める。この(MAXX−1)×
(MAXY−1)で決定できる2次元の記憶領域を表記
憶部24の記憶媒体上に確保する。
【0021】次に、枠正規化表71を基に、この2次元
の記憶領域上に枠を割り当てていく(ステップ92)。
すなわち、枠正規化表71の各枠に登録されているX,
Y,W,Hの各値によって決定される領域に、対応する
枠が登録されている枠構成表51における各枠へのポイ
ンタを記憶する。例えば、図10(a)に示す表につい
て説明すると、その枠構成表51は図10(b)、枠正
規化表71は図10(c)のようになる。図10(c)
の枠正規化表71から図11に示すような4×4の2次
元の記憶領域を確保すれば良いことが分る。
【0022】つぎに枠正規化表71にもとづいて、記憶
領域111に枠構成表51における各枠へのポインタを
割当てていく。例えば、枠No.W1については、枠構
成表51で枠No.W1の欄を調べ、この2次元の記憶
領域131の(2,1)、(3,1)に対応する部分
に、枠構成表51の枠No.W1へのポインタを記憶す
る。また、記憶領域111の(4,1)、(4,2)に
対応する部分には枠構成表51の枠No.W4へのポイ
ンタが、記憶領域111の(4,4)に対応する部分に
は枠構成表51の枠No.W12へのポインタが記憶さ
れる。当然これらは、メモリ上のアドレスとして一意に
決定することができ、例えばこの記憶領域の先頭要素
(1,1)のメモリアドレスがmであるとき、枠No.
W1は(m+1)と(m+2)のメモリアドレスに、枠
No.W4は((m+3)と(m+3)+(4×1))
に、枠No.W12は((m+3)+(4×3))のメ
モリアドレスにそれぞれの枠へのポインタが記憶され
る。
【0023】本実施例は、このように処理を行なうこと
によって、表を各欄に対応する枠の集合として把握し、
さらに各枠を正規化するので、表の表現形式が単純とな
る。また、本実施例は、表の構造に対応する記憶領域上
に各枠を記憶しているので、いかなる複雑な構造を持っ
ている表であっても、各要素を2つの値の組として表現
でき、あたかも単純な2次元の表と同様に扱うことが可
能となる。
【0024】なお、本実施例では罫線で構成される矩形
を用いて説明しているが、表に書かれている文字で構成
される文字ブロックを用いても同様の効果を得ることが
できる。
【0025】
【発明の効果】このように本発明(請求項1)は、表を
各欄に対応する枠の集合として把握し、さらに各枠を正
規化するので、表の表現形式が単純になり、認識結果の
特定の行あるいは列を抽出したり加工したりするさまざ
まなアプリケーションの構築を容易にすることが可能で
ある。
【0026】また、本発明(請求項2)においては、表
記憶処理手段は、枠正規化手段により正規化された枠の
情報に従って表記憶手段の記憶領域の枠への割当てを行
うので、記憶の形式に表の構造が対応しており、記憶さ
れた表の表現形式がより単純となる。即ち、本発明によ
れば、正規化された枠の形式により表記憶媒体上に配置
することにより、表の表現形式がより単純になり、認識
結果の特定の行あるいは列を抽出したり加工したりする
さまざまなアプリケーションの構築を一層容易にするこ
とが可能である。
【図面の簡単な説明】
【図1】本発明の基本構成図
【図2】本発明の一実施例の構成を示す図
【図3】表の例を示す図
【図4】枠抽出部のフローを示す図
【図5】(a)は表を構成するベクトルデータの例を示
す図、(b)は枠構成表を示す図
【図6】枠幅正規化部の処理フローを示す図
【図7】枠正規化表の一例を示す図
【図8】(a)は行、列分割のある表の例を示す図、
(b)は(a)の表に対する枠構成表を示す図
【図9】表記憶処理部のフローを示す図
【図10】表記憶処理部を説明するための図
【図11】2次元の記憶領域を説明するめの図
【符号の説明】
11…枠抽出手段、12…枠正規化手段、13…表記憶
手段、20…文字・罫線分離部、21…枠抽出部、21
1…罫線ベクトル化部、212…閉ループ抽出部、22
…枠正規化部、221…枠幅正規化部、222…枠高正
規化部、23…表記憶処理部、24…表記憶部、51
枠構成表、71 枠正規化表、111 2次元の記憶領
域。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 表画像からその表を構成する枠を抽出す
    る枠抽出手段と、 前記枠抽出手段によって抽出された枠の大きさを、罫線
    の位置情報を用いて正規化する枠正規化手段と、 前記枠正規化手段によって大きさを正規化された各枠を
    記憶する記憶手段とを有することを特徴とする表認識方
    式。
  2. 【請求項2】 表画像からその表を構成する枠を抽出す
    る枠抽出手段と、 前記枠抽出手段によって抽出された枠の大きさを、罫線
    の位置情報を用いて正規化する枠正規化手段と、 枠正規化手段により得られた枠正規化情報に基づいて、
    表構造に対応した記憶領域を決定し、各枠をその記憶領
    域に割当てる処理を行う表記憶処理手段と、 その表記憶処理手段の割当て処理に従って各枠を記憶す
    る表記憶手段とを有することを特徴とする表認識方式。
JP4303301A 1992-10-16 1992-10-16 表認識方式 Pending JPH06131497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4303301A JPH06131497A (ja) 1992-10-16 1992-10-16 表認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4303301A JPH06131497A (ja) 1992-10-16 1992-10-16 表認識方式

Publications (1)

Publication Number Publication Date
JPH06131497A true JPH06131497A (ja) 1994-05-13

Family

ID=17919314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4303301A Pending JPH06131497A (ja) 1992-10-16 1992-10-16 表認識方式

Country Status (1)

Country Link
JP (1) JPH06131497A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
LT3047B (en) 1992-07-02 1994-10-25 Stockhausen Chem Fab Gmbh Graft copolymers of unsaturated monomers and sugar, a process for the production and the use thereof
JP2011013897A (ja) * 2009-07-01 2011-01-20 Canon Inc 画像処理装置、画像処理方法、及びプログラム
US8841246B2 (en) 2011-08-05 2014-09-23 Ecolab Usa Inc. Cleaning composition containing a polysaccharide hybrid polymer composition and methods of improving drainage
US8853144B2 (en) 2011-08-05 2014-10-07 Ecolab Usa Inc. Cleaning composition containing a polysaccharide graft polymer composition and methods of improving drainage
WO2022182104A1 (ko) * 2021-02-23 2022-09-01 네이버 주식회사 테이블 생성 방법 및 시스템, 그리고 테이블이 포함된 이미지 보정 방법 및 시스템

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
LT3047B (en) 1992-07-02 1994-10-25 Stockhausen Chem Fab Gmbh Graft copolymers of unsaturated monomers and sugar, a process for the production and the use thereof
JP2011013897A (ja) * 2009-07-01 2011-01-20 Canon Inc 画像処理装置、画像処理方法、及びプログラム
US8841246B2 (en) 2011-08-05 2014-09-23 Ecolab Usa Inc. Cleaning composition containing a polysaccharide hybrid polymer composition and methods of improving drainage
US8853144B2 (en) 2011-08-05 2014-10-07 Ecolab Usa Inc. Cleaning composition containing a polysaccharide graft polymer composition and methods of improving drainage
WO2022182104A1 (ko) * 2021-02-23 2022-09-01 네이버 주식회사 테이블 생성 방법 및 시스템, 그리고 테이블이 포함된 이미지 보정 방법 및 시스템

Similar Documents

Publication Publication Date Title
US6175844B1 (en) Ordering groups of text in an image
US5048107A (en) Table region identification method
JP2789971B2 (ja) 表認識装置
JP3576570B2 (ja) 比較方法
JPH05242292A (ja) 分離方法
JP2926066B2 (ja) 表認識装置
JPH06131497A (ja) 表認識方式
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
JP2788506B2 (ja) 文字認識装置
JPS615383A (ja) 文字パタ−ン分離装置
JPH0697470B2 (ja) 文字列抽出装置
JP3668026B2 (ja) 出版物電子化処理装置
JP2618468B2 (ja) 文書処理装置
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP3009237B2 (ja) 特徴抽出方法
JPH09128478A (ja) 画像処理装置
JPH1040401A (ja) 戸籍データ作成における書式解析方法
JPH10116314A (ja) 表処理方法及び表処理装置
JPH1021332A (ja) 非線形正規化方法
JPH0567189A (ja) 帳票書式定義方法および装置
CN115830607A (zh) 基于人工智能的文本识别方法、装置、计算机设备及介质
JP2963474B2 (ja) 類似文字識別方法
JPS6344269A (ja) 文書認識処理装置
JPH04156694A (ja) 文字認識方式
JPH01201789A (ja) 文字読取装置