JP3304512B2 - 表認識装置 - Google Patents

表認識装置

Info

Publication number
JP3304512B2
JP3304512B2 JP15476393A JP15476393A JP3304512B2 JP 3304512 B2 JP3304512 B2 JP 3304512B2 JP 15476393 A JP15476393 A JP 15476393A JP 15476393 A JP15476393 A JP 15476393A JP 3304512 B2 JP3304512 B2 JP 3304512B2
Authority
JP
Japan
Prior art keywords
line
ruled line
corner
extracted
ruled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15476393A
Other languages
English (en)
Other versions
JPH0714000A (ja
Inventor
裕二郎 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP15476393A priority Critical patent/JP3304512B2/ja
Publication of JPH0714000A publication Critical patent/JPH0714000A/ja
Application granted granted Critical
Publication of JP3304512B2 publication Critical patent/JP3304512B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は印刷・手書きされた表を
読み取り、その表の表構造と、表の各セル内に記入され
た文字を認識する表認識装置に関するものである。
【0002】
【従来の技術】近年、コンピュータの普及に伴い、省力
化のために、コンピュータ等の入力装置として、キーボ
ードの代わりに、伝票等の表をその表構造を含めて認識
することができる表認識装置が用いられるようになっ
た。
【0003】以下に従来の表認識装置について説明す
る。図6は従来の表認識装置の機能ブロック図である。
1はスキャナ等からなり認識対象文書を画像として入力
し2値画像データを出力する画像入力部、2は画像入力
部1より出力される2値画像データを記憶する画像記憶
部、3は画像記憶部2中の2値画像データから縦・横方
向の黒画素の並び(以下ランと呼ぶ)を抽出しその長さ
が実線しきい値以上のランを実線罫線要素として抽出し
てこの実線罫線要素を連結することで実線罫線を抽出す
る実線罫線抽出部、4は画像記憶部2中の2値画像デー
タから縦・横方向のランを抽出し特定パターンのランが
破線しきい値以上の長さより続くものを破線罫線要素と
して抽出してこの破線罫線要素を連結することで破線罫
線を抽出する破線罫線抽出部、5は実線罫線抽出部3で
抽出された実線罫線と破線罫線抽出部4で抽出された破
線罫線とからなる罫線の相互関係から表構造を認識して
表内の文字等が記入されたセルを抽出する表構造抽出
部、6は表構造抽出部5で抽出されたセル内の文字を切
り出す文字切り出し部、7は文字切り出し部6で切り出
されたセル内の文字と全ての文字の文字特徴を記憶して
いる文字特徴辞書8とを比較してその類似度が文字認識
しきい値より高い場合にその文字を認識文字としてそれ
に対応するJISコード等の文字コードを出力する文字
認識部、9は表構造抽出部5から出力されたセル等の表
構造と文字認識部7より出力される文字コードとを統合
して得られる表認識結果を出力する表出力部である。
【0004】以上のように構成された従来の表認識装置
について、以下その動作を説明する。図7(a)は認識
対象文書の一例を示す図であり、図7(b)は罫線抽出
結果の一例を示す図である。aは縦方向の実線罫線と横
方向の実線罫線とで区切られた定形セル、bは円弧状罫
線からなる角部を有する非定形セルである。
【0005】初めに、図7(a)に示すような認識対象
文書を画像入力部1から入力し、得られた2値画像デー
タを画像記憶部2に記憶する。次に、実線罫線抽出部3
によって縦方向及び横方向の実線罫線を抽出する。次
に、破線罫線抽出部4によって縦方向及び横方向の破線
罫線を抽出する。この時抽出される実線・破線罫線を図
7(b)に示す。
【0006】ここで、図7(b)より明らかなように、
非定形セルbの角部が円弧状罫線よりなるために、縦・
横方向罫線のみを抽出する実線罫線抽出部3,破線罫線
抽出部4によっては、この部分が抽出されない。そのた
め、非定形セルbをセルとして認識することができず、
表構造を誤認識することがあった。
【0007】
【発明が解決しようとする課題】しかしながら上記従来
の構成では、実線罫線抽出部及び破線罫線抽出部が縦・
横方向罫線のみしか抽出することができず、角部に円弧
状・斜方向罫線等を含む表では、これらの罫線を抽出す
ることができず汎用性に欠けるという問題点を有してい
た。また、角部にこれらの罫線を有する非定形セルをセ
ルとして認識することができず、表構造を誤認識してし
まい非定形セル中に記入された文字等を認識することが
できず信頼性に欠けるという問題点を有していた。
【0008】本発明は上記従来の問題点を解決するもの
で、角部が円弧状・斜方向罫線等からなる場合であって
もこれらの罫線を認識することができ汎用性に優れ、角
部にこれらの罫線を有する非定形セルであっても認識す
ることができ、表構造を正しく認識することができると
ともに、この非定形セル内の文字等を正確に認識するこ
とができる信頼性に優れた表認識装置を提供することを
目的とする。
【0009】
【課題を解決するための手段】この目的を達成するため
に本発明の表認識装置は、認識対象文書から得られる2
値画像データから縦・横方向のランを抽出するラン抽出
部と、前記ラン抽出部で抽出されたランの内長さが実線
しきい値以上のランを実線罫線要素として抽出しこの実
線罫線要素を連結して実線罫線を抽出する実線罫線抽出
部と、前記ラン抽出部で抽出されたランの内特定パター
ンのランが破線しきい値以上の長さより続くものを破線
罫線要素として抽出しこの破線罫線要素を連結して破線
罫線を抽出する破線罫線抽出部と、を備えた表認識装置
であって、前記実線罫線抽出部で抽出された実線罫線及
び前記破線罫線抽出部で抽出された破線罫線からなる罫
線の内縦方向罫線の端点と横方向罫線の端点とが近い部
分を角部候補として抽出する角部候補抽出部と、前記角
部候補抽出部で抽出された角部候補の部分を予め用意さ
れた角部パターンとマッチングさせて角部の認識を行う
角部認識部と、を備えた構成を有している。
【0010】ここで、角部パターンの形状としては、略
円弧状,略楕円弧状,略多角形状等が好適に用いられ
る。
【0011】
【作用】この構成によって、角部候補抽出部が抽出され
ている実線罫線と破線罫線のうち縦方向罫線の端点と横
方向罫線の端点とが近い部分を角部候補として抽出し、
角部認識部が予め用意された角部パターンとこの角部候
補とをマッチングさせて角部を認識するために、表の角
部が円弧状・斜方向罫線等からなる場合であっても、こ
れらの罫線を認識することができる。また、角部にこれ
らの罫線を有する非定形セルでも認識することができ、
表構造を正しく認識することができるとともに、この非
定形セル内の文字を正確に認識することができる。
【0012】
【実施例】以下本発明の一実施例における表認識装置に
ついて、図面を参照しながら説明する。図1は本発明の
一実施例における表認識装置の機能ブロック図であり、
図2は本発明の一実施例における表認識装置の装置ブロ
ック図である。1は画像入力部、2は画像記憶部、3は
実線罫線抽出部、4は破線罫線抽出部、6は文字切り出
し部、7は文字認識部、8は文字特徴辞書、9は表出力
部であり、これは従来例と同様なものなので同一の符号
を付し説明を省略する。10は実線罫線抽出部3で抽出
された実線罫線及び破線罫線抽出部4で抽出された破線
罫線からなる罫線の内縦方向罫線の端点と横方向罫線の
端点とが近い部分を角部候補として抽出する角部候補抽
出部、11は角部候補抽出部10で抽出された角部候補
の部分を予め用意された略円弧状,略多角形状等の角部
パターンとマッチングさせて角部の認識を行う角部認識
部、12は実線罫線抽出部3で抽出された実線罫線及び
破線罫線抽出部4で抽出された破線罫線並びに角部認識
部11で認識された角部から認識対象文書の表構造を抽
出するとともに定形セル及び非定形セルを抽出する表構
造抽出部である。図2において、13は表認識装置全体
を制御するCPU、14は画像記憶部2を構成する画像
データ領域15と2値画像データ中のランを記憶するラ
ン領域16と表認識の結果が得られる表構造,抽出され
た定形・非定形セル内に記入された文字に対応するJI
Sコード等のコード情報からなる表データを記憶する表
データ領域17とを有するRAM、18は文字特徴辞書
8が記憶された文字特徴辞書領域19と角部認識部11
で用いられる角部パターンが記憶された角部パターン領
域20とCPU13への指示が記載されたプログラムが
記憶されているプログラム領域21とを有するROM、
22は画像入力部1を構成するスキャナ、23は利用者
が表認識装置へ認識開始の指示等を与えるためのキーボ
ード、24は表データ領域17中の表データに基づいて
認識された表等を表示するための表示装置、25は上記
のデバイス間を接続するバスである。
【0013】以上のように構成された本発明の一実施例
における表認識装置について、以下その動作を説明す
る。図3は本発明の一実施例における表認識装置の全体
フローチャートであり、図4は本発明の一実施例におけ
る表認識装置の角部抽出処理の詳細なフローチャートで
あり、図5(a)は認識対象文書の一例を示す図であ
り、図5(b)は罫線抽出結果の一例を示す図であり、
図5(c)は角部認識処理結果を示す図であり、図5
(d)は認識対象文書の他の例を示す図である。aは定
形セル、bは非定形セルであり、これらは従来例と同様
なものなので同一の符号を付し説明を省略する。図5
(d)において、cは斜め方向罫線からなる角部を有す
る非定形セルである。
【0014】初めに、画像入力部1によって、図5
(a)に示すような認識対象文書を読み込み、画像記憶
部2に2値画像データとして記憶する(S1)。次に、
画像記憶部2中に記憶されている2値画像データの傾き
を補正する(S2)。次に、画像記憶部2中に記憶され
ている2値画像データから、縦方向及び横方向のランを
抽出する(S3)。次に、実線罫線抽出部3によって、
S3で抽出された縦方向及び横方向のランの内、長さが
実線しきい値以上のランを実線罫線要素として抽出する
(S4)。次に、実線罫線抽出部3によって、S4で抽
出された実線罫線要素を連結して実線罫線を抽出する
(S5)。次に、破線罫線抽出部4によって、S3で抽
出された縦方向及び横方向のランの内、特定パターンの
ランが破線しきい値以上続くものを破線罫線要素として
抽出する(S6)。次に、破線罫線抽出部4によって、
S6で抽出された破線罫線要素を連結して破線罫線を抽
出する(S7)。ここで、上記の処理によって、図5
(b)に示すような罫線が抽出される。次に、角部候補
抽出部10及び角部認識部11によって、円弧状罫線等
からなる角部を抽出する(S8)。このstepの詳細
は後述する。ここで、この処理によって、図5(c)に
示すように角部を含む全ての罫線を抽出することができ
る。次に、表構造抽出部12によって、S5,S7で抽
出された実線・破線の罫線及びS8で抽出された角部を
基にして、表構造を抽出し、個々のセルを抽出する(S
9)。この処理によって、図5(c)に示すように、縦
方向,横方向罫線のみからなる定形セルaだけでなく、
円弧状罫線からなる角部を有する非定形セルbも正しく
抽出することができる。次に、セル内の文字認識が全て
終了したか調べる(S10)。Noである場合は、文字
切り出し部6,文字認識部7によって、個々の定形セル
a,非定形セルb内に記入された文字を認識してそれに
対応するJISコード等の文字コードを出力して、次の
セルを認識するためにS10へjumpし(S11)、
Yesである場合は、表出力部9によって、S9で抽出
された表構造及びS11で認識された文字コード等の表
認識結果に基づいて認識された表を表示装置24に表示
する(S12)。ここで、上記の処理によって、図5
(a)に示すような表を正確に認識することができる。
【0015】次に、S8における角部抽出処理について
説明する。まず、図4において、角部候補抽出部10に
よって、S5,S7で抽出された罫線から、端点が近い
縦方向罫線と横方向罫線とのペアを抽出する(S1
3)。次に、S13で抽出されたペアの内、処理が済ん
でないものがあるか調べる(S14)。Noである場合
は、角部抽出処理を終了し、Yesである場合は、角部
認識部11によって、S13で抽出された縦方向罫線と
横方向罫線のペアの交差点の2値画像データを切り出
し、予め用意された角部パターンとマッチングする(S
15)。次に、S15でのマッチングの結果得られる類
似度が角部しきい値よりも大きいか調べる(S16)。
Noである場合はS14へjumpし、Yesである場
合は、角部認識部11によってその部分を角部として出
力する(S17)。次に、この角部を有する非定形セル
b内に記入された文字の認識を容易にするため、角部の
部分の画像を消去し、次の角部を認識するために、S1
4へとjumpする(S18)。
【0016】尚、本実施例においては、図5(a)に示
すような角部に円弧状罫線を有する非定形セルbを含む
表を認識する場合について説明したが、角部パターンを
変更することによって、図5(d)に示すような角部に
斜方向罫線を有する非定形セルcを含む表等であって
も、同様に正しく認識することができる。
【0017】
【発明の効果】以上のように本発明は、角部候補抽出部
が、抽出されている実線罫線と破線罫線のうち縦方向罫
線の端点と横方向罫線の端点とが近い部分を角部候補と
して抽出し、角部認識部が、予め用意された角部パター
ンとこの角部候補とをマッチングさせて角部を認識する
ために、表の角部が円弧状・斜方向罫線等からなる場合
であっても、これらの罫線を認識することができ汎用性
に優れ、角部にこれらの罫線を有する非定形セルでも認
識することができ、表構造を正しく認識することができ
るとともに、この非定形セル内の文字等を正確に認識す
ることができる信頼性に優れた表認識装置を実現できる
ものである。
【図面の簡単な説明】
【図1】本発明の一実施例における表認識装置の機能ブ
ロック図
【図2】本発明の一実施例における表認識装置の装置ブ
ロック図
【図3】本発明の一実施例における表認識装置の全体フ
ローチャート
【図4】本発明の一実施例における表認識装置の角部抽
出処理の詳細なフローチャート
【図5】(a)は本実施例における認識対象文書の一例
を示す図 (b)は本実施例における罫線抽出結果の一例を示す図
(c)は本実施例における角部認識処理結果を示す図 (d)は本実施例における認識対象文書の他の例を示す
【図6】従来の表認識装置の機能ブロック図
【図7】(a)は従来技術における認識対象文書の一例
を示す図 (b)は従来技術における罫線抽出結果の一例を示す図
【符号の説明】
1 画像入力部 2 画像記憶部 3 実線罫線抽出部 4 破線罫線抽出部 5 表構造抽出部 6 文字切り出し部 7 文字認識部 8 文字特徴辞書 9 表出力部 10 角部候補抽出部 11 角部認識部 12 表構造抽出部 13 CPU 14 RAM 15 画像データ領域 16 ラン領域 17 表データ領域 18 ROM 19 文字特徴辞書領域 20 角部パターン領域 21 プログラム領域 22 スキャナ 23 キーボード 24 表示装置 25 バス a 定形セル b,c 非定形セル

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】認識対象文書から得られる2値画像データ
    中の縦・横方向のランを抽出するラン抽出部と、前記ラ
    ン抽出部で抽出されたランの内長さが実線しきい値以上
    のランを実線罫線要素として抽出しこの実線罫線要素を
    連結して実線罫線を抽出する実線罫線抽出部と、前記ラ
    ン抽出部で抽出されたランの内特定パターンのランが破
    線しきい値以上の長さより続くものを破線罫線要素とし
    て抽出しこの破線罫線要素を連結して破線罫線を抽出す
    る破線罫線抽出部と、を備えた表認識装置であって、前
    記実線罫線抽出部で抽出された実線罫線及び前記破線罫
    線抽出部で抽出された破線罫線からなる罫線の内縦方向
    罫線の端点と横方向罫線の端点とが近い部分を角部候補
    として抽出する角部候補抽出部と、前記角部候補抽出部
    で抽出された角部候補の部分を予め用意された角部パタ
    ーンとマッチングさせて角部の認識を行う角部認識部
    と、を備えたことを特徴とする表認識装置。
JP15476393A 1993-06-25 1993-06-25 表認識装置 Expired - Fee Related JP3304512B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15476393A JP3304512B2 (ja) 1993-06-25 1993-06-25 表認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15476393A JP3304512B2 (ja) 1993-06-25 1993-06-25 表認識装置

Publications (2)

Publication Number Publication Date
JPH0714000A JPH0714000A (ja) 1995-01-17
JP3304512B2 true JP3304512B2 (ja) 2002-07-22

Family

ID=15591366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15476393A Expired - Fee Related JP3304512B2 (ja) 1993-06-25 1993-06-25 表認識装置

Country Status (1)

Country Link
JP (1) JP3304512B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3574584B2 (ja) 1998-12-16 2004-10-06 富士通株式会社 表画像処理装置及びそのプログラム記憶媒体
JP4078045B2 (ja) 2001-07-02 2008-04-23 キヤノン株式会社 画像処理装置、方法、プログラム、及び記憶媒体
JP4835459B2 (ja) * 2007-02-16 2011-12-14 富士通株式会社 表認識プログラム、表認識方法および表認識装置

Also Published As

Publication number Publication date
JPH0714000A (ja) 1995-01-17

Similar Documents

Publication Publication Date Title
US8571270B2 (en) Segmentation of a word bitmap into individual characters or glyphs during an OCR process
JPH10334185A (ja) パターン抽出装置
JP3304512B2 (ja) 表認識装置
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JPH06348911A (ja) 英文字認識装置
JP2917427B2 (ja) 図面読取装置
JP2703559B2 (ja) 文字認識支援装置
JP3052438B2 (ja) 表認識装置
JPH0713999A (ja) 表認識装置
JP3060248B2 (ja) 表認識装置
JPH11126236A (ja) オンライン手書き文字認識装置およびオンライン手書き文字認識方法ならびにその方法を記録した記録媒体
JPH08190603A (ja) 文字認識装置及びその候補文字表示方法
JP3045086B2 (ja) 光学式文字読取方法および装置
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
KR100286709B1 (ko) 영문자열에서의 개별문자 분리 방법
JP3022790B2 (ja) 手書き文字入力装置
JPH0728930A (ja) 文字認識装置
JPS62281082A (ja) 文字認識装置
JPH06195505A (ja) 表認識装置
JPH0573721A (ja) 表認識装置
JPS6383887A (ja) 文字認識装置
JPH08185475A (ja) 画像認識装置
JPH06150062A (ja) 文字認識装置
JPH06139277A (ja) 電子辞書装置
JPH06337960A (ja) 表認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees