JPH06150056A - 表認識装置 - Google Patents

表認識装置

Info

Publication number
JPH06150056A
JPH06150056A JP4298320A JP29832092A JPH06150056A JP H06150056 A JPH06150056 A JP H06150056A JP 4298320 A JP4298320 A JP 4298320A JP 29832092 A JP29832092 A JP 29832092A JP H06150056 A JPH06150056 A JP H06150056A
Authority
JP
Japan
Prior art keywords
ruled line
ruled
run
extracting
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4298320A
Other languages
English (en)
Inventor
Yujiro Kamimura
裕二郎 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4298320A priority Critical patent/JPH06150056A/ja
Publication of JPH06150056A publication Critical patent/JPH06150056A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 本発明は「1」等の文字が罫線に近接するほ
ど大きく書かれていたり、罫線の一部が途切れている原
画像を表認識する場合であっても、表構造を正しく認識
し、正しい表情報を得ることのできる認識率が高く信頼
性に優れた表認識装置の提供を目的とする。 【構成】 与えられた入力図形を走査して得られた画像
データに基づいて表の構造を認識する表認識装置であっ
て、画像データを走査して特定パターンのランを抽出し
抽出されたランの連結性を調べて罫線を抽出する罫線抽
出部と、前記罫線抽出部で抽出された罫線の位置関係を
調べて不完全な部分を検索する不完全部分検索部と、前
記不完全部分検索部で検索された不完全部分の画像デー
タから再び特定パターンのランを抽出し罫線がないか調
べる罫線再抽出部とを備えた構成からなる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は印刷・手書き等により作
成された表を読み取り、表構造及び罫線で囲まれたセル
内の文字を認識する表認識装置に関するものである。
【0002】
【従来の技術】近年、情報機器の発展により、作業性の
向上のため文書の電子化が広く行われるようになり、そ
れとともに表認識装置がコンピュータなどの入力装置と
して利用されるようになってきた。文書の清書システム
として表認識装置の利用を考慮すると、罫線位置・線種
・線幅及びセル内の文字を認識する必要がある。
【0003】以下に従来の表認識装置について説明す
る。図6は従来の表認識装置の機能ブロック図である。
【0004】1はキーボード・マウス等の指示により表
認識を行う指令を発する認識指令部、2は入力された画
像データを格納する画像メモリ、3は画像メモリ2に格
納されている画像データを走査して実線ラン長さしきい
値以上の長さの黒画素の並び(以下ランという)を抽出
する実線ラン抽出部、4は画像メモリ2に格納されてい
る画像データを走査して特定パターンのランの並びを抽
出する破線ラン抽出部、5は実線ラン抽出部3及び破線
ラン抽出部4で抽出されたランの連結性を調べて罫線を
抽出し抽出された罫線位置の相互関係を見ることにより
罫線に囲まれたセルを抽出する表構造抽出部、6は文字
認識の際に用いられるサンプル文字を記憶する文字パタ
ーン辞書、7は各セル内の各々の文字を文字パターン辞
書6内のサンプル文字と比較しその類似度が文字認識し
きい値より大きいならばその文字であると認識してそれ
に対応する文字コードを出力する文字認識部、8は表構
造抽出部5で抽出された表構造と文字認識部7で認識さ
れた文字コードからなる表情報を出力する表情報出力部
である。
【0005】
【発明が解決しようとする課題】しかしながら上記従来
の構成では、図7(a)に示す様な「1」等の文字が罫
線に近接するほど大きく書かれている原画像を表認識す
る場合に、この文字部分aを罫線と誤認識し、表構造抽
出部によって図7(b)に示すような誤った表構造認識
結果が得られ、認識率が低下し、信頼性に欠けるという
問題点があった。
【0006】又、図7(a)に示す様な罫線の一部が途
切れている原画像を表認識する場合に、この罫線部分A
を文字と誤認識し、表構造抽出部によって図7(c)に
示すような誤った表構造認識結果が得られ、認識率が低
下し、信頼性に欠けるという問題点があった。
【0007】本発明は上記従来の問題点を解決するもの
で、「1」等の文字が罫線に近接するほど大きく書かれ
ていたり、罫線の一部が途切れている原画像を表認識す
る場合であっても、表構造を正しく認識し、正しい表情
報を得ることのできる認識率が高く信頼性に優れた表認
識装置を提供する事を目的とする。
【0008】
【課題を解決するための手段】この目的を達成するため
に本発明の表認識装置は、与えられた入力図形を走査し
て得られた画像データに基づいて表の構造を認識する表
認識装置であって、画像データを走査して特定パターン
のランを抽出し抽出されたランの連結性を調べて罫線を
抽出する罫線抽出部と、前記罫線抽出部で抽出された罫
線の位置関係を調べて不完全な部分を検索する不完全部
分検索部と、前記不完全部分検索部で検索された不完全
部分の画像データから再び特定パターンのランを抽出し
罫線がないか調べる罫線再抽出部とを備えた構成を有し
ている。
【0009】
【作用】この構成によって、不完全部分検索部で不完全
部分を検索し、罫線再抽出部で不完全部分に罫線がない
か調べることにより、表構造を正しく認識し、正しい表
情報を得ることができる。
【0010】
【実施例】以下本発明の一実施例について、図面を参照
しながら説明する。
【0011】図1は本発明の一実施例における表認識装
置の機能ブロック図であり、図2は表認識装置の構成を
示すブロック図である。
【0012】1は認識指令部、2は画像メモリ、6は文
字パターン辞書、7は文字認識部、8は表情報出力部で
あり、これらは従来例と同様なもので同一の番号を付し
説明を省略する。
【0013】9は画像メモリ2に格納されている画像デ
ータ中の特定パターンの黒画素の並びを抽出するラン抽
出部、10はラン抽出部9で抽出されたランの連結性を
調べて罫線を抽出する罫線抽出部、11は罫線抽出部1
0で抽出された罫線の位置関係を調べ罫線が表画像を貫
通していない部分を不完全部分として検索する不完全部
分検索部、12は不完全部分検索部11で検索された不
完全部分に罫線がないか再度調べる罫線再抽出部、13
は罫線抽出部10及び罫線再抽出部12で抽出された罫
線で囲まれた矩形をセルとして抽出するセル抽出部であ
る。
【0014】図2において、14は原画像を読み取り画
像データに変換して出力するスキャナ、15はスキャナ
14からの画像データを記憶する画像メモリ領域16
と、画像メモリ領域の縦・横2方向の黒画素の並びを格
納するラン領域17と、表認識の結果得られる表構造及
びセル内の文字の文字コードを格納する表情報領域18
とを備えたRAM、19は文字認識に使用する文字パタ
ーンよりなる辞書を記憶した文字パターン辞書領域20
と、すべての処理手順が表記されたプログラムを記憶す
るプログラム記憶領域21とを備えたROM、22はプ
ログラム記憶領域21に記憶された制御プログラムに従
って処理を行う制御部、23は認識開始指令等を入力す
るキーボード、24は表情報領域18に記憶された表情
報より認識結果である表を表示する表示部である。
【0015】以上のように構成された本実施例の表認識
装置について、以下その動作を説明する。
【0016】図3は本発明の一実施例における表認識装
置の表認識処理のフローチャートである。
【0017】始めに、スキャナ14から原画像を入力
し、原画像データに変換して画像メモリ2に格納する
(S1)。
【0018】次に、入力された原画像データの傾きを補
正し、画像データを得る(S2)。次に、S2で得られ
た画像データから縦・横方向ランを抽出する(S3)。
次に、S3で抽出されたランの内、途切れが第一ラン途
切れしきい値以内で、長さが最小ラン長さしきい値以上
のものを罫線要素として選ぶ(S4)。次に、S4で選
ばれたランを連結し、罫線とする(S5)。次に、S5
で抽出された罫線の構造を調べ、不完全部分を検索する
(このステップの詳細は後述する)(S6)。次に、S
6で検索された不完全部分のランの途切れが第二ラン途
切れしきい値(S4の第一ラン途切れしきい値よりも大
きい)以内かどうかを調べる(S7)。
【0019】noである場合は、S9にjumpする。
yesである場合は、その不完全部分に罫線を追加する
(S8)。次に、全ての不完全部分に対して罫線再抽出
処理が終了したかどうか調べる(S9)。
【0020】noである場合は、S7にjumpし、次
の不完全部分に対して処理を行う。yesである場合
は、S5及びS8で抽出された罫線で囲まれた部分をセ
ルとして抽出する(S10)。
【0021】次に、セル内の文字を文字パターン辞書6
と比較することにより文字認識を行い、表認識処理を終
了する(S11)。
【0022】次に、S6の不完全部分検索部の詳細につ
いて説明する。図4は表認識装置の不完全部分検索部の
詳細なフローチャートである。
【0023】まず、縦方向罫線は水平方向の位置が同じ
もの、横方向罫線は垂直方向の位置が同じものでグルー
プ化する(S61)。
【0024】この時、画像データ中の表画像の位置およ
び大きさを算出する。次に、一つのグループに含まれる
全ての罫線をつなぎ合わせる(S62)。次に、S62
でつなぎ合わせた罫線が表画像を貫通するか否かをS6
1で算出された表画像の位置および大きさから調べる
(S63)。
【0025】yesである場合は、S65にjumpす
る。noである場合は、貫通していない部分を不完全部
分として出力する(S64)。
【0026】次に、全てのグループの処理が終了したか
どうか調べる(S65)。noである場合は、S62に
jumpし、次のグループに対する処理を行う。yes
である場合は、不完全部分抽出部の処理を終了する。
【0027】ここで、図7(a)に示す原画像に対する
表認識処理の具体例を以下に示す。まず、認識指令部1
からの指令により、スキャナ14によって図7(a)に
示す原画像を読み取り画像データを得る。次に、ラン抽
出部9により罫線要素となるランを抽出する。次に、罫
線抽出部10により罫線要素となるランを接続し、罫線
を抽出する。この時の罫線抽出部10の出力を図5
(a)に示す。
【0028】図7(a)の罫線部分Aは、その途切れが
第一ラン途切れしきい値よりも大きいために、罫線とし
て抽出されていない。
【0029】図7(a)の文字部分aは、その途切れが
第一ラン途切れしきい値よりも大きいために、罫線とし
て抽出されていない。
【0030】次に、不完全部分検索部11によって、不
完全部分を検索する。図5(a)に示す罫線抽出部10
の出力は、横方向4本・縦方向3本の罫線から構成され
ている。その中で、縦方向の中央の罫線だけが表画像を
貫通していない。そこで、その部分を不完全部分Bとす
る。この時の不完全部分検索部11での検索結果を図5
(b)に示す。
【0031】次に、罫線再抽出部12により不完全部分
に罫線がないか調べる。画像データの不完全部分Bの位
置には罫線部分Aが存在し、その途切れが第二ラン途切
れしきい値よりも小さいために、罫線が存在すると判断
し、その部分に罫線を追加する。この時の表構造認識結
果を図5(c)に示す。
【0032】図5(c)より判るように、原画像図7
(a)の表構造を正しく認識することができる。
【0033】
【発明の効果】以上のように本発明によれば、画像デー
タを走査して特定パターンのランを抽出する罫線抽出部
と、抽出された罫線の位置関係を調べることにより不完
全な部分を探す不完全部分検索部と、不完全部分の画像
から再び特定パターンのランを抽出し罫線があるか確か
める罫線再抽出部とを備えることにより、罫線抽出部で
抽出できなかった部分の罫線を罫線再抽出部で抽出する
ことができ、「1」等の文字が罫線に近接するほど大き
く書かれていたり、罫線の一部が途切れているような場
合でも、表の構造を正確に認識することができる。
【図面の簡単な説明】
【図1】本発明の一実施例における表認識装置の機能ブ
ロック図
【図2】本発明の一実施例における表認識装置の構成を
示すブロック図
【図3】本発明の一実施例における表認識装置の表認識
処理のフローチャート
【図4】本発明の一実施例における表認識装置の不完全
部分検索部の詳細なフローチャート
【図5】(a)本発明の表認識装置の罫線抽出部の出力
を示す図 (b)本発明の表認識装置の不完全部分検索部の検索結
果を示す図 (c)本発明の表認識装置の表構造認識結果を示す図
【図6】従来の表認識装置の機能ブロック図
【図7】(a)表認識される原画像を示す図 (b)従来の表認識装置の認識結果の一例を示す図 (c)従来の表認識装置の認識結果の一例を示す図
【符号の説明】
1 認識指令部 2 画像メモリ 3 実線ラン抽出部 4 破線ラン抽出部 5 表構造抽出部 6 文字パターン辞書 7 文字認識部 8 表情報出力部 9 ラン抽出部 10 罫線抽出部 11 不完全部分検索部 12 罫線再抽出部 13 セル抽出部 14 スキャナ 15 RAM 16 画像メモリ領域 17 ラン領域 18 表情報領域 19 ROM 20 文字パターン辞書領域 21 プログラム記憶領域 22 制御部 23 キーボード 24 表示部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】与えられた入力図形を走査して得られた画
    像データに基づいて表の構造を認識する表認識装置であ
    って、画像データを走査して特定パターンのランを抽出
    し抽出されたランの連結性を調べて罫線を抽出する罫線
    抽出部と、前記罫線抽出部で抽出された罫線の位置関係
    を調べて不完全な部分を検索する不完全部分検索部と、
    前記不完全部分検索部で検索された不完全部分の画像デ
    ータから再び特定パターンのランを抽出し罫線がないか
    調べる罫線再抽出部とを備えたことを特徴とする表認識
    装置。
JP4298320A 1992-11-09 1992-11-09 表認識装置 Pending JPH06150056A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4298320A JPH06150056A (ja) 1992-11-09 1992-11-09 表認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4298320A JPH06150056A (ja) 1992-11-09 1992-11-09 表認識装置

Publications (1)

Publication Number Publication Date
JPH06150056A true JPH06150056A (ja) 1994-05-31

Family

ID=17858128

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4298320A Pending JPH06150056A (ja) 1992-11-09 1992-11-09 表認識装置

Country Status (1)

Country Link
JP (1) JPH06150056A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7769234B2 (en) * 2006-08-31 2010-08-03 Fujitsu Limited Ruled line extracting program, ruled line extracting apparatus and ruled line extracting method
JP2017033438A (ja) * 2015-08-05 2017-02-09 コニカミノルタ株式会社 帳票識別装置、帳票識別方法及びプログラム
CN111079756A (zh) * 2018-10-19 2020-04-28 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7769234B2 (en) * 2006-08-31 2010-08-03 Fujitsu Limited Ruled line extracting program, ruled line extracting apparatus and ruled line extracting method
JP2017033438A (ja) * 2015-08-05 2017-02-09 コニカミノルタ株式会社 帳票識別装置、帳票識別方法及びプログラム
CN111079756A (zh) * 2018-10-19 2020-04-28 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN111079756B (zh) * 2018-10-19 2023-09-19 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备

Similar Documents

Publication Publication Date Title
US5774580A (en) Document image processing method and system having function of determining body text region reading order
JP2973944B2 (ja) 文書処理装置および文書処理方法
US5265171A (en) Optical character reading apparatus for performing spelling check
JPH06150056A (ja) 表認識装置
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
Saitoh et al. Document image segmentation and layout analysis
JPH08180068A (ja) 電子ファイリング装置
JPH08329187A (ja) 文書読取装置
JP2917427B2 (ja) 図面読取装置
JP2559356B2 (ja) 文書画像処理方法
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
JP3060248B2 (ja) 表認識装置
JP3052438B2 (ja) 表認識装置
JP3502130B2 (ja) 表認識装置および表認識方法
JPH0728935A (ja) 文書画像処理装置
JP3083609B2 (ja) 情報処理装置及びそれを用いた文字認識装置
JPH05159100A (ja) 表認識装置
JPH03142691A (ja) 表形式文書認識方式
JPH08185475A (ja) 画像認識装置
JPH05120471A (ja) 文字認識装置
JPH06139277A (ja) 電子辞書装置
JPH06195505A (ja) 表認識装置
JPH0514952B2 (ja)
JP2931485B2 (ja) 文字切出し装置及び方法
JP2578767B2 (ja) 画像処理方法