JP3052438B2 - 表認識装置 - Google Patents

表認識装置

Info

Publication number
JP3052438B2
JP3052438B2 JP3162720A JP16272091A JP3052438B2 JP 3052438 B2 JP3052438 B2 JP 3052438B2 JP 3162720 A JP3162720 A JP 3162720A JP 16272091 A JP16272091 A JP 16272091A JP 3052438 B2 JP3052438 B2 JP 3052438B2
Authority
JP
Japan
Prior art keywords
character
unit
rectangle
reduced image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3162720A
Other languages
English (en)
Other versions
JPH0512489A (ja
Inventor
裕二郎 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP3162720A priority Critical patent/JP3052438B2/ja
Publication of JPH0512489A publication Critical patent/JPH0512489A/ja
Application granted granted Critical
Publication of JP3052438B2 publication Critical patent/JP3052438B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、印刷された表を読み取
り、表構造及び、セル内の文字を認識する表認識装置に
関するものである。
【0002】
【従来の技術】近年、表認識装置がコンピュータなどの
入力装置として利用されるようになってきた。文書の清
書システムとして表認識装置の利用を考慮すると、罫線
位置、線種、線幅、及びセル内の文字を認識する必要が
ある。
【0003】以下に従来の表認識装置について説明す
る。図1は従来の表認識装置の機能ブロック図であり、
11はキーボード、マウス等の指示により、表認識を行
う命令を発行する認識指令部である。12は入力された
画像データを格納する画像メモリ、13は画像メモリの
縦、横2方向の黒画素のヒストグラムをとるヒストグラ
ム抽出部、14は抽出されたヒストグラムにおいて、し
きい値よりも高い部分の画像データを局所的に見ること
により罫線を抽出し、セルに分解する表構造抽出部、1
5はサンプル文字を記憶する文字パターン辞書、16は
各セル内の文字をサンプル文字と比較し、前もって決め
た値よりも近い類似度ならば、その文字として出力する
文字認識部、17は認識した表の情報を出力する表出力
部である。
【0004】
【発明が解決しようとする課題】しかしながら上記従来
の構成では、ヒストグラムの特徴を用いるため、文字部
分と、破線や点線部分の区別が明確にできない。従っ
て、表の構造を認識する場合、文字を構成する線分を誤
って罫線と認識してしまうという問題点があった。
【0005】
【課題を解決するための手段】本発明は上記問題点を解
決するため、連結黒画素の外接矩形リストを作成する黒
画素ラベリング部、外接矩形の辺の長さから矩形内が文
字であると推定する文字矩形推定部、文字矩形内の黒画
素を除いて縮小画像を作成する縮小画像作成部、及び縮
小画像における縦、横2方向の黒画素ランを抽出するラ
ン抽出部を備える。
【0006】
【作用】本発明は上記した構成により、表が波線や点線
で構成されている場合や、線に途切れがある場合でも、
縮小率を適当に決めることにより、縮小画像では線の途
切れがなくなる。また、縮小画像を作成する段階で、文
字部分の消去を行う。この縮小画像における、縦、横2
方向の一定長さ以上の黒画素ランを抽出し、抽出したラ
ンを連結して罫線とすることにより、表を構成する罫線
が抽出でき、正確な構造認識が可能となる。
【0007】
【実施例】図2は本発明の一実施例における表認識装置
の機能ブロック図を示すものである。
【0008】図2において、21はキーボード、マウス
等の指示により、表認識を行う命令を発行する認識指令
部である。22は入力された画像データを格納する画像
メモリ、23は連結黒画素の外接矩形リストを作成する
黒画素ラベリング部、24は外接矩形の辺の長さから矩
形内が文字であると推定する文字矩形推定部、25は文
字矩形内の黒画素を除いて縮小画像を作成する縮小画像
作成部、26は縮小画像における縦、横2方向の一定長
さ以上のランを抽出するラン抽出部、27は26で抽出
されたランの連結性を調べて罫線を抽出する罫線抽出
部、28は抽出された罫線で囲まれた矩形を検索し、表
のセルとして抽出する表構造抽出部、29はセル内の文
字を切り出す文字切り出し部、30はサンプル文字を記
憶する文字パターン辞書、31は各セル内の文字をサン
プル文字と比較し前もって決めた値よりも近い類似度な
らば、その文字として出力する文字認識部、32は認識
した表の情報を出力する表出力部である。
【0009】図3は本実施例の表認識装置の構成を示す
ブロック図である。図3において、41は表画像を読み
取るスキャナで、読み取った表画像をイメージデータと
して出力する。42はRAMでスキャナ41からのイメ
ージデータを記憶する画像領域43、連結画素の外接矩
形リストを格納する外接矩形リスト領域44、イメージ
データの縮小画像を格納する縮小画像領域45、縮小画
像の縦・横2方向の黒画素の並びを格納するラン領域4
6、表認識の結果得られる表の構造・セル内の文字を格
納する表データ領域47を有する。
【0010】48はROMで文字認識に使用する辞書を
記憶した特徴辞書領域49及びプログラム記憶領域50
を有する。51はプログラム記憶領域50に記憶された
制御プログラムに従って処理を行う処理回路である。5
2は認識指令を行うキーボードであり、53は表データ
領域47に記憶された表を表示する表示部である。
【0011】以上のように構成された本実施例の表認識
装置について以下その動作を図4のフローチャートを用
いて説明する。
【0012】ステップs1では、スキャナから画像を入
力し、メモリに格納する(図6)。ステップs2では、
入力した画像の傾きを補正する。ステップs3では、傾
きを補正した画像の連結黒画素の外接矩形を作成する。
ステップs4では、外接矩形の面積の最頻値を求める。
但し、この時、波線、点線等の要素を除くために、矩形
の短辺がしきい値以下のものは、計算に入れない。ステ
ップs5では、ステップs4で求めた最頻値との比が、
しきい値の範囲に入っている外接矩形を検索する(図
7)。ステップs6では、縮小画像を作成する(図
8)。このステップの詳細は後述する。
【0013】ステップs7では、ステップs6で得られ
た縮小画像の縦、横2方向のランのうち、しきい値より
大きいものを抽出する。ステップs8では、ステップs
7で得られたランを連結して、罫線とする。ステップs
9では、ステップs8で得られた罫線に囲まれた矩形を
抽出し、表のセルとする。ステップs10では、ステッ
プs9で抽出された全てのセル内の文字認識が終了した
かどうかを調べ、終了するまでステップs11のセル内
文字認識を繰り返す。ステップ12では、得られた表構
造を出力する。
【0014】次に図5のフローチャートを用いてステッ
プs6の詳細について説明する。ステップs61では、
縮小画像の1ドットラインに相当するイメージデータの
領域(例えば1/5に縮小する場合は、イメージデータ
5ライン)をワーク領域にコピーする。ステップs62
では、ステップs61でコピーした領域とステップs5
で抽出された矩形とが重なっている部分を探し、その内
部を白画素で満たす。
【0015】ステップs63では、縮小画像の1ドット
に相当するイメージの中(例えば1/5に縮小する場合
は、5*5の正方形の内部)が全て白画素ならば0、そ
れ以外は1として、縮小画像領域に書き込む。ステップ
s64では、全てのラインに対して、処理が終了したか
どうかを調べ、終了していなければステップs61以下
の処理を繰り返す。
【0016】以上のように本実施例によれば、黒画素ラ
ベリング部、文字矩形推定部、縮小画像作成部、及びラ
ン抽出部を設けることにより、正確に表の構造を認識す
ることができる。
【0017】
【発明の効果】本発明は、連結黒画素の外接矩形リスト
を作成する黒画素ラベリング部、外接矩形の辺の長さか
ら矩形内が文字であると推定する文字矩形推定部、文字
矩形内の黒画素を除いて縮小画像を作成する縮小画像作
成部、及び縮小画像における縦、横2方向のランを抽出
するラン抽出部を設けることにより、表の構造を正確に
認識することができる。
【図面の簡単な説明】
【図1】従来の文字認識装置における表認識装置の機能
ブロック図
【図2】本発明の一実施例における表認識装置の機能ブ
ロック図
【図3】本実施例の表認識装置の構成を示す構造ブロッ
ク図
【図4】本実施例における制御手順を示すフローチャー
【図5】本実施例における縮小画像作成の制御手順を示
すフローチャート
【図6】スキャナで読み込まれた原画像を示す説明図
【図7】ステップs5の結果の推定文字矩形を示す説明
【図8】ステップs6の結果の縮小画像を示す説明図
【符号の説明】
21 認識指令部 22 画像メモリ 23 黒画素ラベリング部 24 文字矩形推定部 25 縮小画像作成部 26 ラン抽出部 27 罫線抽出部 28 表構造抽出部 29 文字切り出し部 30 文字パターン辞書 31 文字認識部 32 表出力部 41 スキャナ 42 RAM 43 画像領域 44 外接矩形リスト領域 45 縮小画像領域 46 ラン領域 47 表データ領域 48 ROM 49 特徴辞書領域 50 プログラム記憶領域 51 処理回路 52 キーボード 53 表示部

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】図形データを取り込む認識指令部と、取り
    込んだ図形データを記憶する画像メモリと、図形データ
    の連結黒画素の外接矩形リストを作成する黒画素ラベリ
    ング部と、外接矩形の辺の長さから矩形内が文字である
    か否かを判断する文字矩形推定部と、文字であると推定
    された矩形内の黒画素を除いた部分の縮小画像を作成す
    る縮小画像作成部と、縮小画像の縦・横2方向の黒画素
    のランのうち一定長さ以上のものを抽出するラン抽出部
    と、抽出されたランを連結することにより罫線を抽出す
    る罫線抽出部と、抽出された罫線で囲まれた矩形を検索
    し表のセルとして抽出する表構造抽出部とを有し、図形
    データから線の途切れや線種によらず正確に表の構造を
    認識することを特徴とする表認識装置。
JP3162720A 1991-07-03 1991-07-03 表認識装置 Expired - Fee Related JP3052438B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3162720A JP3052438B2 (ja) 1991-07-03 1991-07-03 表認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3162720A JP3052438B2 (ja) 1991-07-03 1991-07-03 表認識装置

Publications (2)

Publication Number Publication Date
JPH0512489A JPH0512489A (ja) 1993-01-22
JP3052438B2 true JP3052438B2 (ja) 2000-06-12

Family

ID=15760001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3162720A Expired - Fee Related JP3052438B2 (ja) 1991-07-03 1991-07-03 表認識装置

Country Status (1)

Country Link
JP (1) JP3052438B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4706764B2 (ja) 2009-01-29 2011-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5365440B2 (ja) 2009-09-15 2013-12-11 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
JPH0512489A (ja) 1993-01-22

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JP3052438B2 (ja) 表認識装置
JP3060248B2 (ja) 表認識装置
JPH0573721A (ja) 表認識装置
JP2788506B2 (ja) 文字認識装置
JP2957729B2 (ja) 行方向判定装置
JPH04360294A (ja) 表認識装置および表認識方法
JP3502130B2 (ja) 表認識装置および表認識方法
JP3304512B2 (ja) 表認識装置
JPH0830725A (ja) 画像処理装置及び方法
JP3379663B2 (ja) 文字認識装置
JPH0573725A (ja) 手書き文字・図形認識装置
JPH04158487A (ja) 表認識装置
JP2887823B2 (ja) 文書認識装置
JPH06195505A (ja) 表認識装置
JPH06337960A (ja) 表認識装置
JPH08185475A (ja) 画像認識装置
JPH0728934A (ja) 文書画像処理装置
JP3045086B2 (ja) 光学式文字読取方法および装置
JPH06150056A (ja) 表認識装置
JPH01292586A (ja) 文字認識支援装置
JP3064508B2 (ja) 文書認識装置
JPH07168911A (ja) 文書認識装置
JP2931041B2 (ja) 表内文字認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees