JPH1153466A - 表認識方法 - Google Patents

表認識方法

Info

Publication number
JPH1153466A
JPH1153466A JP9205772A JP20577297A JPH1153466A JP H1153466 A JPH1153466 A JP H1153466A JP 9205772 A JP9205772 A JP 9205772A JP 20577297 A JP20577297 A JP 20577297A JP H1153466 A JPH1153466 A JP H1153466A
Authority
JP
Japan
Prior art keywords
frame
intersection
ruled line
ruled
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9205772A
Other languages
English (en)
Other versions
JP3936436B2 (ja
Inventor
Hiroshi Shinjo
広 新庄
Kazuki Nakajima
和樹 中島
Katsumi Marukawa
勝美 丸川
Yoshihiro Shima
好博 嶋
Hidekazu Hatano
英一 羽田野
Takeyuki Sugimoto
建行 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP20577297A priority Critical patent/JP3936436B2/ja
Publication of JPH1153466A publication Critical patent/JPH1153466A/ja
Application granted granted Critical
Publication of JP3936436B2 publication Critical patent/JP3936436B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 表形式の帳票画像に対して、罫線にかすれが
やノイズが存在する場合でも、高精度に表を認識する。 【解決手段】 表形式帳票の表面画像を入力し、帳票画
像から罫線を抽出し、罫線の交点と端点を抽出し、罫線
の交点と端点の形状を符号化し、表の構成要素である矩
形枠の四隅に相当する右上角、左上角、右下角、左下角
に相当する交点形状符号を検出することにより、枠の位
置を検出し、更に、枠の位置を検出した後に、枠の抽出
結果を用いて罫線のかすれ判定し、検出した罫線のかす
れを補正して、枠の位置を再検出する。 【効果】 罫線の交点を基に枠を検出するため、罫線の
一部分がかすれていても正しく表を認識できる。また、
枠抽出結果を利用して罫線のかすれを補正するため、罫
線の交点がかすれていても正しく表を認識できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、表が記載されてい
る文書および帳票から枠の位置を認識する表認識装置お
よび光学式文字読取装置に関する。
【0002】
【従来の技術】まず、以下の説明で用いる語句を定義す
る。「枠」とは、帳票上において、縦罫線と横罫線で囲
まれた矩形領域であり、その領域内に他の罫線を含まな
い領域であると定義する。「表」とは、連結した枠の集
合体であると定義する。「表認識」とは、表を含む画像
から枠の位置を認識することと定義する。
【0003】従来のOCR(光学式文字読取装置)で
は、表形式の文書を認識する際には、あらかじめ読み取
りたい枠の座標を正確に定義しておく必要があった。
【0004】これに対し、表の座標を定義せず、自動的
に表を認識する従来手法の例としては特開平6―523
56号公報がある。この方法では、罫線の並び順に着目
して表を認識している。縦罫線を左から右方、横罫線を
上から下方向に出現順に番号付けし、この罫線符号の組
み合わせにより枠の位置を検出している。
【0005】一方、2本の罫線の交点に着目して表を認
識する従来手法もある。ICDAR95、301頁から304
頁(Antonie Ting他、"A Syntactic Business Form Cla
ssifier、" ICDAR95(Third Inernational Conference o
n Document Analysis and Recognition)、 1995
年)に論じられている方法では、罫線の交点を符号化す
ることにより表を認識している。この方法では、罫線の
交点の形状を、向きの異なる4種類のL型と、4種類の
T型、および1種類の十字型に分類し、矩形の四隅とな
るべき4つの交点の組み合わせを検出することにより枠
を抽出している。
【0006】罫線のかすれの補正に関する従来技術とし
ては、特公平4―18351公報に記載された技術があ
る。これは、2本の罫線の端点間の距離と方向の連続性
を評価して、距離と方向の連続性の値が基準値以内であ
れば、2本の罫線を接続して1本の罫線とするものであ
る。
【0007】また、表認識における交点のかすれ補正に
ついては、MVA96、139頁から142頁(Hiroshi Shi
njo 他、"A Connecting Method for Disappeared Corne
r Patterns in Form Documents、" MVA96(IAPR Worksho
p on Machine Vision Applications)、1996年)に
論じられている。この方法では、表の最も外側の罫線の
交点のかすれを補正している。
【0008】帳票上の文字を読取るには、枠内の文字行
の位置を抽出する必要がある。文字行抽出の従来例とし
ては、MIV89、282頁から287頁("A New Method o
f Document Structure Extraction using Generic Layo
ut Knowledge、" MIV89 ( International Workshop on
Industrical Application of Machine Intelligenceand
Vision )、 1989年)において連結成分融合法とし
て論じられている。ここで連結成分とは、画像中におい
て連結した黒画素塊である。この方法では、連結成分の
位置関係から、文字らしいと判断される大きさの連結成
分同士を次々と融合して文字行領域を抽出する。位置関
係の判定には、融合対象の連結成分同士のX座標やY座
標の差などの特徴量を、あらかじめ指定してあるしきい
値と比較する。
【0009】
【発明が解決しようとする課題】上記特開平6―523
56号公報に記載の表認識方法では、罫線にかすれやノ
イズが存在すれば、正しく表認識できない。これは、罫
線の出現順が変わるために罫線の符号付けを誤るためで
ある。また、上記ICDAR95、301頁から304頁に
記載の表認識方法では、枠の四隅の交点にかすれがない
ことが前提となっているので、罫線の交点がかすれてい
る場合には正しく表認識できない。
【0010】したがって、本発明の第1の課題は、罫線
にかすれがやノイズが存在する場合でも、高精度に表を
認識することである。
【0011】また、上記特公平4―18351公報に記
載の罫線かすれ補正方法では、罫線と罫線以外の直線成
分とを区別することができないので、誤って罫線以外の
直線成分を接続する場合がある。
【0012】したがって、本発明の第2の課題は、罫線
と罫線以外の直線成分を区別することにより、罫線のか
すれのみを正しく補正することである。
【0013】また、上記特公平4―18351公報に記
載の罫線かすれ補正方法では、直線性のある罫線のかす
れのみしか扱えないため、交点のかすれを補正すること
はできない。また、上記MVA96、139頁から142頁
に論じられている交点かすれ補正方法では、表の最も外
側の罫線の交点のかすれしか補正していないため、表の
内部の交点のかすれは補正できない。
【0014】したがって、本発明の第3の課題は、表の
内部に罫線の交点のかすれが発生しても正しくかすれを
補正することである。
【0015】また、上記MIV89、282頁から287頁
に記載の文字行抽出方法では、罫線と文字が接触した場
合に、正しく文字行の位置を認識できない。これは、文
字と罫線が接触しているために、罫線と文字を含む連結
成分を生成することになり、文字領域のみの連結成分が
生成されないからである。
【0016】したがって、本発明の第4の課題は、文字
と罫線が接触している帳票に対しても、正しく文字行の
位置を認識することである。
【0017】また、本発明の第5の課題は、表認識機能
により、あらかじめ枠の位置が指定されていない表形式
の帳票から文字位置を検出して、文字を認識する文字認
識装置を実現することである。
【0018】
【課題を解決するための手段】本発明の第1の課題は、
罫線にかすれがやノイズが存在する場合でも、高精度に
表の枠構造を認識することである。この課題に対する解
決手段は、表形式帳票の表面画像を入力し、帳票画像か
ら罫線を抽出し、罫線の交点と端点を抽出し、罫線の交
点と端点の形状を符号化し、表の構成要素である矩形枠
の四隅に相当する右上角、左上角、右下角、左下角に相
当する交点形状符号を検出することにより、枠の位置を
検出する表認識方法を提供することである。この表認識
方法では、枠の四隅の角に着目して枠を抽出する。した
がって、枠の四隅の以外であれば罫線がかすれていても
正しく表を認識できる。また、この表認識方法では、交
点だけでなく端点も符号化している。通常、枠を構成す
る罫線は必ず他の罫線と交わっているので、端点は罫線
のかすれであるとみなすことができる。したがって、交
点だけでなくかすれも合わせて符号化していることにな
り、かすれの補正が容易になる。
【0019】本発明の第2の課題は、罫線と罫線以外の
直線成分を区別することにより、罫線のかすれのみを正
しく補正することである。また、本発明の第3の課題
は、表の内部に罫線の交点のかすれが発生しても正しく
かすれを補正することである。これらの課題に対する解
決手段は、枠の位置を検出した後に、枠の抽出結果を用
いて罫線のかすれを判定し、かすれた罫線を近傍の罫線
と接続することによりかすれを補正し、罫線の接続によ
り生成された交点と既存の交点を用いて、枠の位置を再
検出することにより、罫線のかすれによる表認識の誤り
を防ぐ表認識方法を提供することである。この表認識方
法では、枠の構成に寄与する罫線だけがかすれ補正の対
象となるため、誤ってノイズ成分に対してかすれ補正処
理をすることがない。また、この表認識方法では、表内
部の交点のかすれも補正することができる。
【0020】本発明の第4の課題は、表認識の後、文字
と罫線が接触している帳票に対しても正しく文字行の位
置を認識することである。この課題に対する解決手段
は、表を認識することにより個々の枠領域を特定し、入
力画像から枠領域の画像を切り出し、罫線を除去し、枠
内の文字行の領域を認識し、文字行領域の画像から1文
字ごとの画像を切出し、文字を認識する光学式文字読取
方法を提供することである。この光学式文字読取方法で
は、文字行の領域を認識する前に罫線を除去するため、
枠と罫線が接触していても正しく文字行の領域を認識で
きる。
【0021】本発明の第5の課題は、表認識機能によ
り、あらかじめ枠の位置が指定されていない表形式の帳
票から文字位置を検出して読取る文字認識装置を実現す
ることである。この課題に対する解決手段は、表を認識
することにより個々の枠領域を特定し、入力画像から枠
領域の画像を切り出し、枠内の文字行の領域を認識し、
文字行内の文字を認識することを特徴とする光学式文字
読取方法を提供することである。
【0022】
【発明の実施の形態】以下、本発明の一実施例を詳細に
説明する。なお、これにより本発明が限定されるもので
はない。
【0023】図1は、本発明の一実施例である表認識シ
ステムの構成図である。スキャナ101により帳票10
0の画像(帳票画像)を入力する。入力された画像デー
タは、認識/修正用計算機102のメモリや二次記憶装
置等に記録される。次に、認識/修正用計算機102に
おいて、画像上の罫線を抽出し、表を認識する。認識
は、計算機102の有するプロセッサが、メモリや二次
記憶装置に事前に記録されている後述する処理フロー
(プログラム)を実行することで行われる。認識結果や
途中結果は、必要に応じて認識/修正用計算機102の
画面上に表示される。認識結果に誤りがある場合には、
認識/修正用計算機102上で認識結果を修正する。認
識結果は、データベース103に格納される。
【0024】図2は、表認識の処理フローを示す図であ
る。ステップ200(画像入力)において帳票画像を入
力する。ステップ201(罫線抽出)において帳票画像
から縦罫線と横罫線を抽出する。ステップ202(交点
/端点検出)において、ステップ201で抽出した罫線
の交点と端点の形状と位置を検出する。ステップ203
(枠抽出)において、ステップ202で検出した交点か
ら枠の四隅である左上角、右上角、左下角、右下角に相
当する交点を検出して、枠を抽出する。なお、この処理
フローにおいて、情報量を減らすために、画像の縮小処
理をステップ200とステップ201の間に入れてもよ
い。また、帳票画像の傾きの補正処理をステップ200
とステップ201の間に入れてもよい。もしくは、画像
全体ではなく罫線の傾きのみを補正する処理をステップ
201とステップ202の間に入れてもよい。
【0025】図3は、認識対象である表形式の帳票画像
を、説明のために簡略的に示した図である。帳票画像上
には、横罫線(300から304)、縦罫線(305か
ら309)、文字行(310から313)、下線(31
4から316)がある。横罫線300と301は本来1
本の罫線であるが、317でかすれのために2本になっ
ている。以下、図3の帳票画像を入力例として、処理の
過程を説明する。
【0026】図4は、図3の帳票画像に対する、図2の
ステップ201の罫線抽出処理の結果を示す図である。
図4(a)が横罫線の抽出結果、図4(b)が縦罫線の
抽出結果である。罫線抽出方法の例としては、画像上で
長いランを抽出し、長いランを輪郭追跡することにより
実現できる。ここで、ランとは、同じスキャンライン上
で連続する黒画素の集合体である。以下に、横罫線を例
として罫線抽出処理を説明する。スキャン方向がY方向
(上から下)のランを生成し、長いランを抽出する。こ
の処理により、縦罫線や文字を構成する短いランは除去
される。次に、抽出された長いランを輪郭追跡する。得
られた輪郭のうち、横方向に細長い輪郭を罫線とする。
縦罫線の場合は、スキャン方向がX方向(左から右)の
ランを生成した後に、横罫線抽出と同様の処理をすれば
よい。図4の(a)では、下線(314から316)も
罫線として抽出されている。この下線はノイズ成分とみ
なされる(これについて後述する)。
【0027】図46は、図2のステップ202で罫線の
端点と交点の形状に対応して付加する符号(交点符号)
の例である。交点符号0は、罫線がないことを表す。交
点符号1から4は、罫線の端点を表す。これらは、他の
罫線と交差していない端点である。したがって、表認識
時にはかすれと判定される。交点符号5と6は、罫線の
一部分であることを表す。交点符号7から10は、2本
の罫線がL字型に交差した交点を表す。交点符号11か
ら14は、2本の罫線がT字型に交差した交点を表す。
交点符号15は、2本の罫線が十字型に交差した交点を
表す。なお、処理の必要性に応じて、交点符号0と5と
6は省略してもよい。図46の右から2番目の列(枠の
四隅)は、交点の形状に応じて、枠の左上角、右上角、
左下角、右下角のうち、どの角になりうるかを示してい
る。
【0028】図5は、図3の帳票画像に対する、図2の
ステップ202の端点/交点検出処理の結果を示す図で
ある。図5において、本来は交点符号の番号を示すべき
であるが、交点形状を示す方が理解しやすいため、交点
符号の代わりに交点形状を表示する。図5では、交点符
号0から15のうち、0と5と6は使用していない。
【0029】図6は、図3の帳票画像に対する、図2の
ステップ202の端点/交点検出処理の結果を示す図で
ある。図6では、交点符号0から15の全てを使用して
表の構造を表現している。図6では、罫線の端点や交点
を基準として、仮想的に格子状に表を分割し、各格子点
ごとに交点符号を付けている。各格子点は、x方向y方
向に付けられた番号によって位置を特定できる。例えば
交点600は、格子点(0、0)として表現できる。以
降、(x、y)の位置の格子点を格子点(x、y)と表
現する。
【0030】図7は、図3の帳票画像に対して、図2の
ステップ203の枠抽出処理の結果と検出した交点形状
を示す図である。点線の四角形700から707は、抽
出された枠を表している。この処理では、枠の左上角、
右上角、左下角、右下角の4つを検出することにより枠
を抽出する。したがって、下線314から316や罫線
のかすれ317は交点を生成しないため、これらの悪影
響を受けずに、正しく枠を抽出できる。
【0031】図8と図9は、図2のステップ203の枠
抽出処理フローの一例を示す図である。図9は図8のス
テップ802の処理の詳細を示した図である。以下、図
6を例として図8と図9の処理を説明する。
【0032】図8において、まずステップ800で格子
点のy方向の位置を上から下へ走査する。ステップ80
0で設定したyの値について、ステップ801において
格子点のx方向の位置を左から右へ走査する。ステップ
802において、格子点(x、y)を基準として枠検出
処理をする。ただし、枠検出の順序はこの処理例と同じ
でなくてもよい。
【0033】図6を例として図8の処理を説明する。ま
ず格子点(0、0)に対して枠検出し、次に格子点
(1、0)に対して枠検出する。格子点(8、0)の枠
検出処理が終われば、次に格子点(0、1)に対して枠
検出する。このようにして格子点(8、6)まで枠検出
処理を続ける。
【0034】図9では、格子点(x、y)を左上角に持
つ枠を検出する。まず、図9で用いる記号について説明
する。ステップ901のXlは枠の左端の格子位置を表
す。ステップ908のXrは枠の右端の格子位置を表
す。ステップ902のYtは枠の上端の格子位置を表
す。ステップ905のYbは枠の下端の格子位置を表
す。以下、フローに添って説明する。ステップ900で
は、格子点(x、y)の交点形状が左上角になりうるか
否かを判定する。ここでは、図46の交点符号7、1
1、13、15のいずれかであれあばよい。交点符号が
それ以外であれば、格子点(x、y)を左上角に持つ枠
はないと判定して図9の処理を終了する(911)。格
子点が左上角であれば、ステップ901とステップ90
2で左端の格子位置(Xl)と上端の格子位置(Yt)
を格納する。ステップ903では、Yt以上のyの値に
対して以下の処理を繰り返す。ステップ904におい
て、格子点(Xl、y)の交点形状が左下角になりうる
か否かを判定する。ここでは、図46の交点符号9、1
1、14、15のいずれかであれあばよい。交点符号が
それ以外であれば格子点(Xl、y+1)について同じ
処理を行う。格子点が左下角であれば、ステップ905
で下端の格子位置(Yb)を格納する。ステップ906
では、Xl以上のxの値に対して以下の処理を繰り返
す。ステップ907において、格子点(x、Yb)の交
点形状が右下角になりうるか否かを判定する。ここで
は、図46の交点符号10、12、14、15のいずれ
かであれあばよい。交点符号がそれ以外であれば格子点
(x+1、Yb)について同じ処理を行う。格子点が右
下角であれば、ステップ908で右端の格子位置(X
r)を格納する。ステップ908において、格子点(X
r、Yt)の交点形状が右上角になりうるか否かを判定
する。ここでは、図46の交点符号8、12、13、1
5のいずれかであれあばよい。格子点が右上角であれ
ば、枠検出成功として図9の処理を終了する(90
9)。ステップ910まで処理が進めば、格子点(x、
y)を左上角に持つ枠はないとして図9の処理を終了す
る。なお、角の検出の順序はこの処理例と同じでなくて
もよい。また、枠検出成功の条件は、4つの枠が全て検
出する代わりに、3つの角や対角線上の2つの角を検出
することにしてもよい。
【0035】図6を例として図9の処理を説明する。ま
ず、格子点(1、0)について説明する。格子点(1、
0)の交点形状を判定する(900)と、図46の交点
符号13なので左上角になりうる。したがって、左端と
上端の格子点位置を格納する(901と902)。次
に、格子点(1、1)の交点形状を判定する(904)
と、図46の交点符号6なので左下角になりえない。そ
こで、格子点(2、1)の交点形状を判定する(90
4)と、図46の交点符号11なので左下角になりう
る。したがって、下端の格子点位置を格納する(90
5)。以下同様にして、格子点(4、2)を右下角、格
子点(4、0)を右上角として検出する。4つの角が揃
ったので、図7の701に相当する枠を検出する。次
に、格子点(2、0)について説明する。ステップ90
0において、格子点(2、0)が左上角か否かを判定す
る。格子点(2、0)の交点形状は図46の交点符号5
なので、左上角にはならないしたがって、ステップ91
1でこの処理を終了する。
【0036】本発明による表認識方法は、下線などのノ
イズ線分の影響を受けない。これは、枠の検出におい
て、線分ではなく角に着目しているため、角を作らない
ノイズ線分は無視されるためである。枠701の例で
は、枠内に図3の下線314が罫線として抽出されてい
る。しかし、下線314の端点である格子点(2、1)
の交点符号は1であり、格子点(3、1)の交点符号は
2である。これらの格子点は角ではないので、下線は枠
検出では無視される。
【0037】次に、罫線のかすれを補正する機能を持つ
表認識方法について説明する。この処理により、罫線の
かすれやノイズによる表認識の誤りを防ぐことができ
る。
【0038】図10は、表認識の処理フローを示す図で
ある。ステップ200の画像入力とステップ201の罫
線抽出、ステップ202の交点/端点検出、ステップ2
03の枠抽出は図2と同じである。図10の処理では、
一度枠抽出を行った結果を用いて罫線のかすれを検出
し、補正する。以下、処理フローについて説明する。ス
テップ203で枠抽出した後、ステップ1001で罫線
のかすれを検出する。罫線のかすれが検出されなければ
(1002)、処理を終了する(1003)。かすれが
検出されれば、かすれを補正し(1004)、枠抽出処
理(203)に戻る。あらかじめ設定した繰り返しの最
大数まで、もしくはかすれが無くなるまで、203から
1004までの処理を繰り返す(1000)。なお、情
報量を減らすために、ステップ200とステップ201
の間に、画像の縮小処理を入れてもよい。また、帳票画
像の傾きの補正処理をステップ200とステップ201
の間に入れてもよい。もしくは、画像全体ではなく罫線
の傾きのみを補正する処理をステップ201とステップ
202の間に入れてもよい。
【0039】以下、5種類の罫線かすれパターンについ
て、図10の罫線かすれ検出(1001)と罫線かすれ
補正(1004)の詳細な処理方法を説明する。なお、
以降のかすれ補正方法では、かすれ部分の長さ等、距離
の情報を利用していない。しかし、補正するかすれの最
大長さを制限する等の距離の情報を併用してもよい。
【0040】第1のパターンのかすれとして、枠の上下
左右の辺となる罫線(以下、枠罫線と記述)の端点のか
すれについて説明する。このパターンのかすれ検出で
は、枠罫線の端点は必ず他の罫線と交わるということを
条件(前提条件)とする。したがって、枠罫線の端点が
他の罫線と交わっていなければ、この罫線はかすれてい
ると判定することができる。かすれの検出対象を枠罫線
に限定することにより、誤って文字の下線などを他の罫
線と接続することを防ぐ。
【0041】以下、第1パターンのかすれについて、図
11から図13を用いてかすれ検出とかすれ補正方法の
概要を説明した後、図12と図14と図15を用いてか
すれ検出方法を説明し、図16から図20を用いてかす
れ補正方法を説明する。
【0042】まず、第1パターンのかすれ検出と補正処
理の概要を説明する。
【0043】図11は、枠罫線の端点がかすれている帳
票画像の例である。帳票画像上には、横罫線(1100
から1103)、縦罫線(1104から1108)、文
字行(1109から1112)、下線(1113から1
115)がある。罫線1101は、左端点側がかすれて
いるため、罫線1105と交わっていない。
【0044】図12は、図11の帳票画像に対して、図
10のステップ203までの枠抽出処理の結果と検出し
た交点形状を示す図である。点線の四角形1200から
1206は、抽出された枠を表している。罫線1101
は、左側端点において縦罫線1105罫線と交わってい
ないため、本来2つとして抽出されるべき枠が1つの枠
1201として誤抽出されている。以下、図12を例と
して図10の処理を説明する。ステップ1001のかす
れ検出処理では、罫線1101の左端点である格子点
(2、2)がかすれた端点であると判定する。この理由
は、罫線1101が枠1202の下側の枠罫線であり、
枠1203の上側の枠罫線であるにもかかわらず、枠罫
線の両端点は必ず他の罫線と交わるという前提条件に反
するためである。かすれが検出されたので、ステップ1
004のかすれ補正処理を行う。ここでは、罫線110
1を左側延長線上で最も近い罫線1105と接続する。
その結果、格子点(2、2)の交点符号は図46におけ
る1から5になり、格子点(1、2)の交点符号は図4
6における6から11になる。一方、下線1113から
1115は枠罫線ではないので、左右の端点とも他の罫
線と交わっていないにもかかわらず、かすれ補正の対象
にしない。
【0045】かすれ補正後の枠抽出処理の結果を図13
に示す。図12で1つの枠(1201)として抽出され
た領域は、格子点(1、2)の交点を補正することによ
り、1300と1301の2つの枠として抽出されてい
る。
【0046】次に、第1パターンのかすれ検出方法につ
いて説明する。
【0047】図14と図15は、図10のステップ10
01の罫線かすれ検出処理の詳細なフローの例である。
図15は図14のステップ1401と1402の詳細処
理の詳細なフローの例である。ステップ1403と14
04は縦罫線に対して図15と同様の処理を行う。
【0048】図14では、全ての枠に対して(140
0)、ステップ1401から1404において上下左右
の枠罫線の端点がかすれていないか検査する。
【0049】図15では、上下の枠罫線である横罫線の
端点のかすれを検査する。まず、枠罫線の左側の端点を
検出する(1500)。左側端点が検査済みか否かを判
定し(1501)、検出済みでなければ、左側端点で縦
罫線と交わっているか否かを判定する(1502)。縦
罫線と交わっていなければ、左側端点をかすれ端点とし
てリストに登録する(1503)。次に、枠罫線の右側
の端点を検出する(1504)。右側端点が検査済みか
否かを判定し(1505)、検出済みでなければ、右側
端点で縦罫線と交わっているか否かを判定する(150
6)。縦罫線と交わっていなければ、右側端点をかすれ
端点としてリストに登録する(1507)。
【0050】図12を例として図14と図15の処理を
説明する。枠1200と1201の枠罫線は、全て端点
で他の罫線と交わっているのでかすれ端点はない。枠1
202では、下側の枠罫線1101が左側端点で縦罫線
と交わっていないので、格子点(2、2)をかすれ端点
として登録する。枠1203では、上枠罫線1101は
枠1202の下枠罫線として既に検査済みなので、かす
れ検出は行わない。以下、同様の処理を繰り返す。
【0051】次に、第1パターンのかすれ補正方法につ
いて説明する。このパターンのかすれ補正では、補正可
能なかすれを限定する。限定内容は、「かすれ補正対象
の2点間を結ぶ線分に直交する罫線は1本以下」であ
る。したがって、2本以上の罫線と交差するような広い
範囲のかすれは補正の対象としない。かすれの範囲を限
定することにより、補正の誤りを防ぐことができる。な
お、上記の限定条件の他に、かすれ部分の長さの最大値
を決め、この値以上であれば補正しないという条件を用
いることもできる。
【0052】図16から図18は、図10のステップ1
004の罫線かすれ補正処理の詳細なフローの例であ
る。図17は図16のステップ1600の詳細を示して
おり、図18はステップ1601の詳細を示している。
【0053】図16の処理では、かすれ補正を2段階に
分ける。まず、同一直線上にある罫線と接続する(16
00)。この時、接続対象の罫線がなければそのままに
しておく。次に、1600で接続されなかったかすれ罫
線の端点を、直交関係にある罫線と接続する(160
1)。接続対象を同一直線上の罫線と直交する罫線を分
けるのは、同一直線上の罫線を補正対象とする場合に、
「かすれ補正対象の2点間を結ぶ線分に直交する罫線は
1本以下」という限定条件を利用するためである。この
条件により、図19のような帳票画像が図20のように
かすれた場合に、罫線2000と罫線2001を誤接続
することを避けることができる。図20では、かすれの
ため、罫線1908が2002と2003に、罫線19
09が2004と2005に分れており、罫線1903
と1904が2000と2001のように短くなってい
る。図16から図18の処理を行うことにより、誤って
罫線2001と2001を接続せず、2002と200
3、2004と2005を接続した後に、それらの罫線
に2000と2001を接続する。詳細については、図
17と図18を用いて後述する。
【0054】図17は、図16のステップ1600の詳
細な処理の例を示す図である。以下、図20を例として
この処理を説明する。この処理では、かすれていると検
出された端点の数だけ、以下の処理を繰り返す(170
0)。まず、かすれた端点側の同一線上に他の罫線があ
るか否かを判定する(1701)。罫線があれば、同一
線上にある罫線の端点とかすれた端点との間に、直交す
る罫線の本数が1本以下であるかを判定する(170
2)。1本以下であれば、この2本の罫線を接続する
(1703)。このとき、図20の2002と2003
は、かすれによって2本に分れているために、実際には
罫線2000の延長線と直交しない。しかし、このよう
な罫線も、1本の直交する罫線とみなすことにする。2
000の端点2006と罫線2001の端点2007の
間に直交する罫線は、2002と2003を1本とみな
した罫線と2004と2005を1本とみなした罫線の
2本である。したがって、直交する罫線の数が1本以下
でないため、罫線2000と2001は接続対象としな
い。一方、端点2008と2009の間には直交する罫
線は1本だけなので、罫線2002と2003は接続対
象となる。端点2011と2012も同様である。罫線
を接続すれば、接続した端点をかすれ端点のリストから
削除する(1704)。図20では、端点2006、2
007、2008、2011をかすれ端点のリストから
削除する。次に、罫線を接続した場合に、接続後の罫線
の端点が他の罫線と交わっているか否かを判定する(1
705)。接続後の罫線の端点が他の罫線と交わってい
なければ、新しいかすれ端点とみなしてかすれ端点リス
トに追加登録する(1706)。ただし、既にこの端点
がリストに登録されていれば登録しない。図20では、
罫線2002と2003を接続した後、端点2010が
他の罫線と交わっているか否かを判定する。端点201
0はどの罫線とも交わっていないので、2010をかす
れ端点として追加登録する。一方、罫線2004と20
05を接続した場合は、端点2013が罫線1905と
交わっているので、かすれ端点のリストには登録しな
い。
【0055】図18は、図16のステップ1601の詳
細な処理を示している。この処理は、ステップ1600
で補正されずに残ったかすれ端点について行う。この処
理では、かすれていると検出された端点の数だけ、以下
の処理を繰り返す(1800)。まず、かすれ端点側に
罫線を延長した線と直交関係にある罫線が存在するか否
かを判定する(1801)。直交する罫線があれば、そ
の中で最もかすれ端点に近い罫線まで、かすれた罫線を
延長する(1802)。罫線が延長されれば、評価対象
のかすれ端点をかすれ端点のリストから削除する(18
03)。図20では、罫線2003を端点2010から
罫線1905に延長し、端点2010をかすれ端点のリ
ストから削除する。
【0056】第2のパターンのかすれとして、孤立交点
について説明する。孤立交点とは、枠の四隅以外の交点
と定義する。孤立交点が検出されれば、帳票上の他の交
点がかすれていると判定する。孤立交点の検出によりか
すれを判定する理由は、他の交点がかすれているため
に、孤立交点が枠の四隅として選択されなかったとみな
すからである。
【0057】以下、第2パターンのかすれ検出と補正に
ついて、図21と図22を用いて処理の概要を説明し、
図22から図24を用いてかすれ検出方法の詳細を説明
し、図22と図25を用いてかすれ補正方法の詳細を説
明する。
【0058】まず、第2パターンのかすれ検出と補正処
理の概要を説明する。
【0059】図21は、かすれた帳票画像の例を示す図
である。帳票画像上には、横罫線(2100から210
2)と縦罫線(2103から2106)がある。縦罫線
2104と2105は本来1本の罫線であるが、かすれ
のために2本になっている。
【0060】図22は、図21の帳票画像に対して、図
10のステップ203までの枠抽出処理の結果と検出し
た交点形状を示す図である。点線の四角形2200から
2202は、抽出された枠を表している。以下、図22
を用いて処理の概要を説明する。格子点(1、0)は2
200から2202のどの枠の四隅にもなっていない。
したがって、格子点(1、0)を孤立交点と判定する。
かすれの補正では、格子点(1、0)の交点形状が下向
きのT字型なので、罫線2104を下向きに延長して罫
線2101に接続する。交点(1、2)は、交点符号が
図46の13から15に変更される。その結果、枠22
00は2つに分割される。
【0061】次に、第2パターンのかすれ検出方法につ
いて説明する。
【0062】図23と図24は、孤立交点の検出に基づ
く、図10のステップ1001の罫線かすれ検出処理の
詳細なフローの例である。図24は図23のステップ2
301の詳細処理の例を示した図である。ステップ23
02から2304も図24と同様の処理を行う。
【0063】図23では、全ての枠に対して(230
0)、ステップ2301から2304において上下左右
の枠罫線上に存在する孤立交点を検出する。
【0064】図24では、枠の上側の枠罫線上の孤立交
点を検出する。まず、上側の枠形線上で、枠の左端から
右端までの間に(2400)、孤立交点がないか検査す
る(2401)。孤立交点があれば、孤立交点のリスト
に登録する(2402)。
【0065】図22を例として図23と図24の処理を
説明する。まず、枠2200の上側の枠罫線2100に
ついて孤立交点を検出する(2301)。格子点(1、
0)は孤立交点なので(2401)、孤立交点リストに
登録する(2402)。枠2200の下、左、右側の枠
罫線については、孤立交点は存在しない。枠2201と
2202の枠罫線上にも孤立交点は存在しない。なお、
この処理例では枠罫線上の孤立格子点のみを検出した
が、枠罫線以外の孤立交点を検出してもよい。
【0066】次に、第2パターンのかすれ補正方法につ
いて説明する。
【0067】図25は、図10のステップ1004の罫
線かすれ補正処理の詳細なフローの例である。この処理
では、孤立交点の数だけ、以下の処理を繰り返す(25
00)。まず、孤立交点を構成する罫線のうち、枠罫線
以外の罫線を延長し(2501)、最初に交差する罫線
に接続する(2502)。
【0068】図22を例として図25の処理を説明す
る。まず、孤立交点である格子点(1、0)を構成する
罫線のうち、枠罫線でない罫線2104を下側に延長し
(2501)、罫線2101に接続する(2502)。
この結果、格子点(1、1)の交点符号は図46におけ
る4から6になり、格子点(1、2)の交点符号は図4
6における13から15になる。
【0069】第3のパターンのかすれとして、外枠罫線
のかすれについて説明する。ここで、外枠罫線とは表の
最も外側の枠罫線であると定義する。
【0070】第3のパターンのかすれに対する、図10
のステップ1001の罫線かすれ検出処理は、外枠罫線
にかすれがないかどうかを判定することである。外枠罫
線のの検出方法としては、表の最も外側の罫線を選択す
るなどの方法をとればよい。この時に、表は連続する枠
の集合体であるので、連続する枠の領域を表の領域とし
て検出した後に、表の最も外側の罫線を選択すれば、表
の外側のノイズ成分を外枠罫線として検出することはな
い。
【0071】第3のパターンのかすれに対する、図10
のステップ1004の罫線かすれ補正処理は、かすれた
外枠罫線同士を接続することである。
【0072】図26は、表の外枠の罫線がかすれた帳票
画像の例である。帳票画像上には、横罫線(2600か
ら2602)、縦罫線(2603から2605)があ
る。罫線2602は、罫線2605と交わっているはず
であるが、かすれのために交わっていない。以下、図2
6の帳票画像を入力例として、外枠罫線のかすれ補正処
理の過程を説明する。6本の罫線のうち、外枠罫線とし
て選択されるのは、2600、2602、2603、2
605の4本である。このうち、罫線2602は端点2
606がかすれており、罫線2605は端点2607が
かすれている。そこで、罫線2602と2607を延長
してかすれを補正する。
【0073】第4のパターンのかすれとして、枠領域の
重複について説明する。このパターンでは、複数の枠の
間に重複した領域があれば、罫線がかすれていると判定
する。枠領域の重複の検出によりかすれを判定する理由
は、枠の四隅を検出して枠を抽出する場合、交点のかす
れにより、枠を重複して抽出する場合があるからであ
る。
【0074】図27は、重複した枠が検出される帳票画
像の例である。帳票画像上には、横罫線(2700から
2702)、縦罫線(2703から2706)がある。
罫線2704は、罫線2705と交わっているはずであ
るが、かすれのために交わっていない。
【0075】図28は、図22の帳票画像に対して、図
10のステップ203までの枠抽出処理の結果と検出し
た交点形状を示す図である。点線の四角形2800から
2803は、抽出された枠を表している。縦罫線のかす
れのために、格子点(1、2)の形状が十字型ではなく
T字型になっている。このために、枠2800と枠28
01、枠2801と枠2803がそれぞれ重複した領域
をもつ。以下、図28を例として、処理の例を説明す
る。
【0076】第4のパターンのかすれに対する、図10
のステップ1001の罫線かすれ検出処理は、重複する
枠の存在を検出することである。重複する枠があれば、
リストに登録する。図28では、枠2800と枠280
1、枠2801と枠2803重複しているとして登録さ
れる。
【0077】第4のパターンのかすれに対する、図10
のステップ1004の罫線かすれ補正処理の1つの例
は、重複すると判定された枠の枠罫線のかすれを補正す
ることである。枠2800と枠2801の例では、枠2
801の左側枠罫線2704と罫線2705を接続する
ことにより、かすれを補正する。罫線の接続により、格
子点(1、1)の交点符号は図46における4から6に
なり、格子点(1、2)の交点符号は図46における1
3から15になる。この結果、枠2800と枠2801
が分割されて4つの枠が検出される。
【0078】第4のパターンのかすれに対する、図10
のステップ1004の罫線かすれ補正処理のもう1つの
例は、重複すると判定された枠の枠罫線を延長して直交
する罫線に接続することである。図29は、枠領域が重
複した帳票画像の例である。帳票画像上には、横罫線
(2900から2902)、縦罫線(2903から29
05)がある。図30は、図29の帳票画像に対して、
図10のステップ203までの枠抽出処理の結果と検出
した交点形状を示す図である。点線の四角形3000と
3001は、抽出された枠を表している。枠3000と
枠3001は重複している。しかし、図27と図28で
説明したかすれ補正方法では重複を救済することはでき
ない。そこで、罫線2901と罫線2904の両方もし
くは一方を延長して直交する罫線と接続する。この結
果、枠3000と枠3001の重複が解消されて、4つ
もしくは3つの枠が抽出される。
【0079】第5のパターンのかすれとして、枠として
抽出されない領域について説明する。このパターンで
は、表の領域内に枠として抽出されない領域があれば、
罫線がかすれていると判定する。枠として抽出されてい
ない領域の検出によりかすれを判定する理由は、枠の四
隅を検出して枠を抽出する場合、交点のかすれにより、
枠が抽出されない場合があるからである。
【0080】図31は、枠として抽出されない領域が発
生する帳票画像の例である。帳票画像上には、横罫線
(3100から3103)、縦罫線(3104から31
07)がある。罫線3105は、罫線3106と交わっ
ているはずであるが、かすれのために交わっていない。
【0081】図32は、図31の帳票画像に対して、図
10のステップ203までの枠抽出処理の結果と検出し
た交点形状を示す図である。点線の四角形3200から
3202は、抽出された枠を表している。縦罫線のかす
れのために、罫線3101、3102、3106、31
07に囲まれた領域が枠として抽出されていない。以
下、図32を例として、処理の例を説明する。
【0082】第5のパターンのかすれに対する、図10
のステップ1001の罫線かすれ検出処理の例は、枠と
して抽出されない領域を検出することである。
【0083】第5のパターンのかすれに対する、図10
のステップ1004の罫線かすれ補正処理の例は、枠と
して抽出されない領域を囲む罫線のかすれを補正するこ
とである。図32では、罫線3106を3105と接続
する。この結果、格子点(1、1)の交点符号は図46
における9から11になり、格子点(1、2)の交点符
号は図46における3から6になる。この結果、枠32
01と枠3202の間にもう一つ枠が検出されて、枠と
して抽出されない領域が無くなる。
【0084】図33は図10のステップ1001の罫線
かすれ検出処理のもう一つのフローの例である。ステッ
プ3300からステップ3304において、これまでに
説明した5種類のかすれパターンを検出する。なお、図
33では、5種類のかすれパターンを検出しているが、
4種類以下でもよい。
【0085】図34は図10のステップ1004の罫線
かすれ補正処理のもう一つのフローの例である。これま
でに説明した5種類のかすれパターンのそれぞれについ
て、検出されたかすれを補正する。なお、図34では、
5種類のかすれパターンを補正しているが、4種類以下
でもよい。
【0086】図35は、本発明による表認識方法を用い
た光学式文字認識装置の処理フローの例である。ステッ
プ3500から3503の処理は、図2や図10の処理
を用いることができる。以下、図35の処理を、図3に
示す帳票画像の例と図7に示す図3の帳票画像に対する
枠抽出結果を用いて説明する。ステップ3500から3
503を実行することにより、図3の帳票画像から、図
7の700から707の8個の枠が抽出される。ステッ
プ3504の枠内画像切出しでは、700から707の
枠について、枠内の画像のみを切り出す。枠700内の
画像を切り出した例を図36に示す。なお、図36の点
線による四角形3600は、枠の領域を示すものであ
り、帳票上に記載されているものではない。ステップ3
505の文字行抽出では、ステップ3504で切出され
た画像から文字行の領域を抽出する。図36の例では、
「12」と記載された部分が行として抽出される。文字
行抽出方法の例としては、従来の技術に記載の連結成分
融合法などがある。ステップ3506の文字行領域画像
切出しでは、ステップ3504で切り出された画像から
文字行の領域の画像のみを切り出す。ステップ3507
の文字切出しでは、ステップ3506で切り出された文
字行領域の画像から、1文字ごとの領域を特定して切出
す。図36の例では、「1」と「2」の領域が切出され
る。ステップ3508の文字認識では、ステップ350
7で切り出された1文字ごとの画像から、文字を特定す
る。
【0087】図37は、本発明による表認識方法を用い
た光学式文字認識装置の処理フローのもう一つの例であ
る。図37の処理は、図35の処理のステップ3504
と3505の間にステップ3700を追加したものであ
る。以下、図37の処理を、図38に示す帳票画像の例
を用いて説明する。
【0088】図38では、「123」と記載された文字
行3806上に罫線3801が交差している。この画像
に対して、ステップ3504で文字行3806を含む枠
内画像を切出した結果が図39である。この例では、文
字行が枠からはみ出しているので、枠の領域より少し広
い領域(3900)を切り出している。図39の画像に
対して、ステップ3505で連結成分融合法を用いて文
字行抽出をしても、文字行3806は抽出されない。こ
の理由は、文字と罫線が交差しているため、文字単独の
連結成分が生成されないためである。そこで、ステップ
3700で、図39の画像から罫線3901から390
4を除去する。罫線を除去した画像を図40に示す。こ
の結果、文字領域のみの連結成分を生成することができ
るため、正しく文字行を抽出することができる。
【0089】図41は、図3の帳票画像に対する表認識
結果を表示する方法の例である。表示領域4108上
に、帳票画像と枠抽出結果4100から4107を表示
する。枠抽出結果は、罫線上に重ねて表示してもよい
し、図41のように実際の枠の領域より少し内側に表示
してもよい。
【0090】図42は、図3の帳票画像に対する表認識
結果を表示する方法の例である。表示領域4208上
に、帳票画像と枠抽出結果4200から4207を表示
する。枠抽出結果は、枠領域の色もしくは模様を変えて
表示することにより、個々の枠領域をわかりやすく表示
する。枠抽出結果は、罫線上に重ねて表示してもよい
し、図41のように実際の枠の領域より少し内側に表示
してもよい。
【0091】図43と図44は、図3の帳票画像に対す
る表認識結果を表示する方法の例である。表示領域(4
300、4400)上に、帳票画像と枠抽出結果、およ
び検出した交点の形状を表示する。
【0092】図45は、図3の帳票画像に対する表認識
結果を表示する方法の例である。表示領域4500上
に、検出した交点や端点の形状を表示する。
【0093】
【発明の効果】本発明によれば、罫線にかすれやノイズ
が存在する場合でも、高精度に表を認識することができ
る。また、本発明による表認識機能付きOCRでは、枠
の位置をあらかじめ指定しなくても枠内の文字を認識す
ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例である表認識システムの構成
図である。
【図2】表認識の処理フローを説明する図である。
【図3】認識対象である帳票画像の説明図である。
【図4】図3で示した帳票画像に対する罫線抽出処理の
結果を示す図である。
【図5】図3で示した帳票画像に対する交点/端点検出
処理の結果を示す図である。
【図6】図3で示した帳票画像に対する交点/端点検出
処理の結果を示す図である。
【図7】図3で示した帳票画像に対する交点/端点検出
処理の結果と枠抽出処理の結果を示す図である。
【図8】図2のステップ203の処理フローの例であ
る。
【図9】図8のステップ802の処理フローの例であ
る。
【図10】罫線のかすれ補正機能をもつ表認識の処理フ
ローを説明する図である。
【図11】認識対象である帳票画像の説明図である。
【図12】図11で示した帳票画像に対する交点/端点
検出処理の結果と枠抽出処理の結果を示す図である。
【図13】図11で示した帳票画像に対する罫線かすれ
補正処理の結果を示す図である。
【図14】図10のステップ1001の処理フローの例
である。
【図15】図14のステップ1401と1402の処理
フローの例である。
【図16】図10のステップ1004の処理フローの例
である。
【図17】図16のステップ1600の処理フローの例
である。
【図18】図16のステップ1601の処理フローの例
である。
【図19】認識対象である帳票画像の説明図である。
【図20】かすれのある帳票画像の説明図である。
【図21】認識対象である帳票画像の説明図である。
【図22】図22で示した帳票画像に対する交点/端点
検出処理の結果と枠抽出処理の結果を示す図である。
【図23】図10のステップ1001の処理フローの例
である。
【図24】図23のステップ2301の処理フローの例
である。
【図25】図10のステップ1004の処理フローの例
である。
【図26】認識対象である帳票画像の説明図である。
【図27】認識対象である帳票画像の説明図である。
【図28】図27で示した帳票画像に対する交点/端点
検出処理の結果と枠抽出処理の結果を示す図である。
【図29】認識対象である帳票画像の説明図である。
【図30】図29で示した帳票画像に対する交点/端点
検出処理の結果と枠抽出処理の結果を示す図である。
【図31】認識対象である帳票画像の説明図である。
【図32】図31で示した帳票画像に対する交点/端点
検出処理の結果と枠抽出処理の結果を示す図である。
【図33】図10のステップ1001の処理フローの例
である。
【図34】図10のステップ1004の処理フローの例
である。
【図35】本発明の表認識方法を用いた文字認識装置の
処理フローの例である。
【図36】図3で示した帳票画像に対する枠内画像切出
し処理の結果を示す図である。
【図37】本発明の表認識方法を用いた文字認識装置の
処理フローの例である。
【図38】認識対象である帳票画像の説明図である。
【図39】図38で示した帳票画像に対する枠内画像切
出し処理の結果を示す図である。
【図40】図39で示した枠内画像に対する罫線除去処
理の結果を示す図である。
【図41】本発明の表認識方法の結果を表示する例であ
る。
【図42】本発明の表認識方法の結果を表示する例であ
る。
【図43】本発明の表認識方法の結果を表示する例であ
る。
【図44】本発明の表認識方法の結果を表示する例であ
る。
【図45】本発明の表認識方法の結果を表示する例であ
る。
【図46】表の罫線の交点や端点に付加する符号の例で
ある。
【符号の説明】
100 帳票、 101 スキャナ、 102 認識/修正用計算機、 103データベース、 300〜304、314〜317 横罫線、 305〜309 横罫線。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 嶋 好博 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 羽田野 英一 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレージシステム事業部内 (72)発明者 杉本 建行 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレージシステム事業部内

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】表形式帳票の表面画像を入力し、表の枠構
    造を認識する表認識方法において、帳票画像から罫線を
    抽出し、罫線の交点と端点を抽出し、罫線の交点と端点
    の形状を符号化し、表の構成要素である矩形枠の四隅に
    相当する右上角、左上角、右下角、左下角に相当する交
    点形状符号を検出することにより、枠の位置を検出する
    ことを特徴とする表認識方法。
  2. 【請求項2】表形式帳票の表面画像を入力し、表の枠構
    造を認識する表認識方法において、帳票画像から罫線を
    抽出し、罫線の交点と端点とを抽出し、罫線の交点と端
    点との形状を符号化し、罫線の交点と端点以外の部分は
    罫線の一部分であると符号化し、罫線以外の領域は罫線
    なしであると符号化し、表の構成要素である矩形枠の四
    隅に相当する右上角、左上角、右下角、左下角に相当す
    る交点形状符号を検出することにより、枠の位置を検出
    することを特徴とする表認識方法。
  3. 【請求項3】請求項1または請求項2に記載の表認識方
    法において、 枠の位置を検出した後に、枠の抽出結果を用いて罫線の
    かすれを判定し、かすれた罫線を近傍の罫線と接続する
    ことによりかすれを補正し、罫線の接続により生成され
    た交点と既存の交点を用いて枠の位置を再検出すること
    を特徴とする表認識方法。
  4. 【請求項4】請求項3に記載の表認識方法において、枠
    の位置を検出した後に、1個以上の枠の辺となる罫線の
    端点が他の罫線と交差していない場合に、この端点はか
    すれていると判定し、当該罫線を近傍の罫線と接続し、 罫線の接続により生成された交点と既存の交点を用いて
    枠の位置を再検出することを特徴とする表認識方法。
  5. 【請求項5】請求項3に記載の表認識方法において、枠
    の位置を検出した後に、枠の四隅以外にT字型の交点や
    L字型の交点が存在する場合に、当該交点と対になる交
    点がかすれているために当該交点が枠抽出に利用されな
    かったと判定し、 対となる交点のかすれを補正し、 罫線の接続により生成された交点と既存の交点を用いて
    枠の位置を再検出することを特徴とする表認識方法。
  6. 【請求項6】請求項3に記載の表認識方法において、枠
    の位置を検出した後に、検出した複数の枠の領域が互い
    に重複する場合に、重複した枠の四辺の罫線の一部がか
    すれているために枠領域の重複が発生していると判定
    し、 重複した枠の四辺の罫線のかすれを補正し、 罫線のかすれ補正により生成された交点と既存の交点を
    用いて枠の位置を再検出することを特徴とする表認識方
    法。
  7. 【請求項7】請求項3に記載の表認識方法において、 枠の位置を検出した後に、表の外枠の罫線を検出し、 外枠の罫線にかすれがあれば、この罫線のかすれを補正
    し、 罫線のかすれ補正により生成された交点と既存の交点を
    用いて枠の位置を再検出することを特徴とする表認識方
    法。
  8. 【請求項8】請求項3に記載の表認識方法において、 枠の位置を検出した後に、表の領域内に枠として抽出さ
    れない領域がある場合に、枠として抽出されなかった領
    域を囲む罫線の一部がかすれているために、枠として抽
    出されなかったと判定し、 枠として抽出されなかった領域を囲む罫線のかすれを補
    正し、 罫線のかすれ補正により生成された交点と既存の交点を
    用いて枠の位置を再検出することを特徴とする表認識方
    法。
  9. 【請求項9】請求項1から請求項8のいずれかに記載の
    表認識方法において、 表を認識することにより個々の枠領域を特定し、入力画
    像から枠領域の画像を切り出し、枠内の文字行の領域を
    認識し、文字行領域の画像から1文字ごとの画像を切出
    し、文字を認識することを特徴とする光学式文字読取方
    法。
  10. 【請求項10】請求項1から請求項8のいずれかに記載
    の表認識方法において、 表を認識することにより個々の枠領域を特定し、入力画
    像から枠領域の画像を切り出し、罫線を除去し、枠内の
    文字行の領域を認識し、文字行領域の画像から1文字ご
    との画像を切出し、文字を認識することを特徴とする光
    学式文字読取方法。
  11. 【請求項11】請求項1から請求項8のいずれかに記載
    の表認識方法において、 帳票画像上に枠の抽出結果を重ねて表示することによ
    り、表認識結果を示すことを特徴とする表認識結果表示
    方法。
  12. 【請求項12】請求項1から請求項8のいずれかに記載
    の表認識方法において、 帳票画像上に枠の抽出結果と、罫線の交点や端点の形状
    と位置を重ねて表示することにより、表認識結果を示す
    ことを特徴とする表認識結果表示方法。
  13. 【請求項13】請求項1から請求項8のいずれかに記載
    の表認識方法において、 罫線の交点や端点の形状と位置を表示することにより、
    表認識結果を示すことを特徴とする表認識結果表示方
    法。
JP20577297A 1997-07-31 1997-07-31 表認識方法 Expired - Fee Related JP3936436B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20577297A JP3936436B2 (ja) 1997-07-31 1997-07-31 表認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20577297A JP3936436B2 (ja) 1997-07-31 1997-07-31 表認識方法

Publications (2)

Publication Number Publication Date
JPH1153466A true JPH1153466A (ja) 1999-02-26
JP3936436B2 JP3936436B2 (ja) 2007-06-27

Family

ID=16512422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20577297A Expired - Fee Related JP3936436B2 (ja) 1997-07-31 1997-07-31 表認識方法

Country Status (1)

Country Link
JP (1) JP3936436B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139484A (ja) * 2002-10-21 2004-05-13 Hitachi Ltd 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP2007213255A (ja) * 2006-02-08 2007-08-23 Fujitsu Ltd 表認識装置、及びコンピュータプログラム
JP2008152719A (ja) * 2006-12-20 2008-07-03 Oki Electric Ind Co Ltd 帳票辞書作成装置
JP2009087378A (ja) * 2009-01-16 2009-04-23 Hitachi Omron Terminal Solutions Corp 帳票処理装置
JP2011139315A (ja) * 2009-12-28 2011-07-14 Kyocera Mita Corp 画像表示装置及び画像形成装置
JP2015172979A (ja) * 2015-07-08 2015-10-01 株式会社東芝 手書き文書処理装置、方法およびプログラム
CN103870823B (zh) * 2012-12-07 2017-04-12 株式会社日立信息通信工程 字符识别装置及方法
CN109934160A (zh) * 2019-03-12 2019-06-25 天津瑟威兰斯科技有限公司 基于表格识别的表格文字信息提取的方法及系统
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
JP2021096543A (ja) * 2019-12-16 2021-06-24 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
CN113449620A (zh) * 2021-06-17 2021-09-28 深圳思谋信息科技有限公司 基于语义分割的表格检测方法、装置、设备和介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139484A (ja) * 2002-10-21 2004-05-13 Hitachi Ltd 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP2007213255A (ja) * 2006-02-08 2007-08-23 Fujitsu Ltd 表認識装置、及びコンピュータプログラム
JP2008152719A (ja) * 2006-12-20 2008-07-03 Oki Electric Ind Co Ltd 帳票辞書作成装置
JP2009087378A (ja) * 2009-01-16 2009-04-23 Hitachi Omron Terminal Solutions Corp 帳票処理装置
JP4521466B2 (ja) * 2009-01-16 2010-08-11 日立オムロンターミナルソリューションズ株式会社 帳票処理装置
JP2011139315A (ja) * 2009-12-28 2011-07-14 Kyocera Mita Corp 画像表示装置及び画像形成装置
CN103870823B (zh) * 2012-12-07 2017-04-12 株式会社日立信息通信工程 字符识别装置及方法
JP2015172979A (ja) * 2015-07-08 2015-10-01 株式会社東芝 手書き文書処理装置、方法およびプログラム
CN109934160A (zh) * 2019-03-12 2019-06-25 天津瑟威兰斯科技有限公司 基于表格识别的表格文字信息提取的方法及系统
JP2021096543A (ja) * 2019-12-16 2021-06-24 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN112712014B (zh) * 2020-12-29 2024-04-30 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN113449620A (zh) * 2021-06-17 2021-09-28 深圳思谋信息科技有限公司 基于语义分割的表格检测方法、装置、设备和介质

Also Published As

Publication number Publication date
JP3936436B2 (ja) 2007-06-27

Similar Documents

Publication Publication Date Title
JP3996579B2 (ja) 機械可読フォームのアクティブ領域を識別するためのフォーム処理システム
CA2797363C (en) Segmentation of a word bitmap into individual characters or glyphs during an ocr process
US4926492A (en) Optical character reading apparatus and method
GB2244886A (en) Apparatus for extracting a text region in a document image
JPH08305796A (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JP3936436B2 (ja) 表認識方法
US6920247B1 (en) Method for optical recognition of a multi-language set of letters with diacritics
JP3574584B2 (ja) 表画像処理装置及びそのプログラム記憶媒体
JP3411472B2 (ja) パターン抽出装置
JP3794285B2 (ja) 光学式文字読取装置
JP2005182660A (ja) 文字・図形の認識方法
CN109409370B (zh) 一种远程桌面字符识别方法和装置
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
JPH07182459A (ja) 表構造抽出装置
JP3177138B2 (ja) 図面閉領域の抽出方法
JP2917427B2 (ja) 図面読取装置
JPH11232382A (ja) 罫線抽出方法及び罫線除去方法
JPH117493A (ja) 文字認識処理装置
Amano et al. Character string detection algorithm using horizontal boundaries, and its application to a part number entry system
JP2002366893A (ja) 帳票認識方法
JPH0535250A (ja) 連結連なり(ラン)を使用して小さなサイズの文字ビツトマツプを編集する方法
JPH09185675A (ja) 様式解析方法
JPH07141462A (ja) 文書システム
JP2004334913A (ja) 帳票認識装置及び帳票認識方法
JPH02138674A (ja) 文書処理方法及び装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041112

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050107

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050304

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120330

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140330

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees