JP2723075B2 - 表認識装置及び表枠線の途切れ補間方法 - Google Patents

表認識装置及び表枠線の途切れ補間方法

Info

Publication number
JP2723075B2
JP2723075B2 JP7108228A JP10822895A JP2723075B2 JP 2723075 B2 JP2723075 B2 JP 2723075B2 JP 7108228 A JP7108228 A JP 7108228A JP 10822895 A JP10822895 A JP 10822895A JP 2723075 B2 JP2723075 B2 JP 2723075B2
Authority
JP
Japan
Prior art keywords
table frame
line
width
frame width
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7108228A
Other languages
English (en)
Other versions
JPH08287275A (ja
Inventor
勝彦 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP7108228A priority Critical patent/JP2723075B2/ja
Publication of JPH08287275A publication Critical patent/JPH08287275A/ja
Application granted granted Critical
Publication of JP2723075B2 publication Critical patent/JP2723075B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は表認識装置及び方法に関
し、特に表形式を含む文書を読み取り表構造を認識する
表認識装置及び方法に関する。
【0002】
【従来の技術】近時、文書を光学的装置で読み取って文
字情報を電子化したいというニーズは多く、且つそうし
た文書には表形式を含むものが少なくない。
【0003】表文書を電子化する場合、従来、例えば東
芝製エキスプレスリーダ(ExpressReader)マニュアル
やメディアドライブ社製ウインリーダ(Win Reader)マ
ニュアル等に記載されているように、罫線を除去して文
字だけを認識する方法がある。
【0004】しかし、表文書では各項目枠(「セル」と
いう)の位置も大切な情報の一つであり、このため各セ
ルを正しく抽出し、セル内に記されている文字を読み取
ることが重要である。
【0005】一般的にセルを抽出するには、ハフ変換等
を用いて直線を検出したり、表枠線に対応する黒画素を
トレースして閉領域をみつければよい。
【0006】しかし、前者の方法は多くの処理時間を要
するという問題がある。一方、後者の方法は計算量は前
者に比べて少ないが、原稿中の表枠線の一部がもともと
途切れていたり、うすく描かれている場合には、光学的
に読み取られた画像中で表枠線の途切れが発生し、表構
造を正しく抽出することが難しい。そこで、画像中の途
切れた表枠線を補間する技術が必要となる。
【0007】途切れ表枠線を含む表形式を認識する従来
の装置として、例えば特開平5-73721号公報には、文字
や表を構成する黒画素の中からまず表枠線に対応する画
素だけを選出した画像を生成し、この画像を縦方向にM
分割、横方向にN分割してM×Nの領域とし、各領域に
おいて1画素でも黒画素があったら1ドットの黒画素と
するサイズM×Nの縮小画像を作り、縮小画像における
黒画素の並びから表枠線を抽出し、縮小画像を作成する
ことにより破線やかすれによる線の途切れがなくなり、
正確に表構造を認識できるようにした表認識装置が提案
されている。
【0008】
【発明が解決しようとする課題】しかしながら、前記特
開平5-73721号公報に記載された装置においては、途切
れ表枠線が縮小画像では途切れなくなることを利用して
いるため、縮小率の決め方が問題となる。
【0009】なぜなら、縮小率の最適値は原画像におけ
る表の高さ/幅、及び枠線の途切れ長に依存し、これを
自動的に設定することは困難だからである。
【0010】また、前記特開平5-73721号公報に記載さ
れた装置では、表枠の途切れが大きい場合正しくセルを
抽出できない可能性が高い。
【0011】従って、本発明は上記問題点を解消し、表
項目の幅を計測し、その頻度を調べることによって表内
部に存在する表枠線の途切れを補間し、大きな途切れの
補間を可能とする表認識装置及び方法を提供することを
目的とする。
【0012】
【課題を解決するための手段】前記目的を達成するた
め、本発明は、表形式を含んで記載された原稿を走査し
て得られた画像より、表の構造を認識する表認識方式に
おいて、表枠線の外側輪郭を検出する表外側輪郭線抽出
手段と、前記表外側輪郭線抽出手段によって抽出された
閉曲線内に存在する1又は複数の表内側輪郭を抽出する
表内側輪郭線抽出手段と、抽出された前記表内側輪郭線
のそれぞれについて、同一の表内側輪郭線に属し、且つ
同一行又は同一列に存在する2画素間の距離を表枠幅と
して計測する表枠幅計測手段と、前記表枠幅のヒストグ
ラムを求めるヒストグラム計測手段と、前記ヒストグラ
ム計測手段によって得られたヒストグラムにおいて、そ
の頻度が高い値を標準の表枠幅とし、頻度が低い値に対
応する箇所を表枠線途切れが生じたものとする表枠線途
切れ推定手段と、推定された途切れ表枠線を補間する表
枠線補間手段と、を備えたことを特徴とする表認識装置
を提供する。
【0013】本発明においては、前記表枠幅抽出手段
が、同一列に存在する2つの表枠線間の距離を計測する
垂直方向表枠幅計測手段と、同一行に存在する2つの表
枠線間の距離を計測する水平方向表枠幅計測手段と、を
備え、垂直方向の表枠幅を計測して得たヒストグラムか
ら水平方向の表枠線途切れを推定して補間し、次に水平
方向の表枠幅を計測して得たヒストグラムから垂直方向
の表枠線途切れを推定して補間するように構成してもよ
い。
【0014】また、本発明は、(a)表を含む文書を走査
して得られた画像信号について表枠線の外側輪郭を抽出
する工程と、(b)抽出された前記外側輪郭内に存在する
1又は複数の表内側輪郭を抽出する工程と、(c)抽出さ
れた前記表内側輪郭線のそれぞれについて前記表内側輪
郭線上の端部に属し且つ表内部を介して互いに対向する
2画素間の距離を表枠幅として表枠線が存在する範囲で
所定方向に計測する工程と、(d)前記表枠幅のヒストグ
ラムを求める工程と、(e)前記ヒストグラムにおいて、
その頻度が最も高い枠幅を標準の表枠幅とし、頻度が低
い値の枠幅に対応する箇所を表枠線途切れが生じたもの
と推定する工程と、(f)途切れた表枠線を補間する工程
と、を含むことを特徴とする表枠線の途切れ補間方法を
提供する。
【0015】
【作用】以下に本発明の原理・作用を説明する。本発明
においては、表枠線で囲まれた1つの閉領域について表
枠幅を計測し、そのヒストグラムをとり、一閉領域に占
める表枠幅とその頻度の関係を求める。認識対象とする
表形式が長方形をした項目の集合体ならば、一項目(セ
ル)中の表枠幅は場所によらず等しい。このため、ヒス
トグラム中には1カ所のピークが現れる。
【0016】しかし、表枠線が途切れ、複数のセルが1
つの閉領域中をなしていたならば、複数のピークを持つ
ヒストグラムが得られる。例えば、表枠線の途切れ長は
セルの辺の長さの半分より短いものと仮定すれば、計測
したヒストグラム中、高い頻度の値が本来の表枠幅であ
り、低い頻度の値が枠線の途切れによって計測された表
枠幅であると判定することができ、途切れ箇所を抽出す
ることができる。
【0017】
【実施例】図面を参照して、本発明の実施例を以下に説
明する。
【0018】
【実施例1】図1は本発明の一実施例の構成を説明する
図である。
【0019】図1を参照して、表外側輪郭線抽出手段1
は、表枠線の外側輪郭線を検出する。表外側輪郭線抽出
手段1が扱う表形式は、水平/垂直もしくはこれに近い
方向の表枠線のみから形成され、最外郭の表枠線には途
切れはないものとする。また、セル中に別のセルが含ま
れたり、セルとセル内の文字が接触することはないもの
とする。
【0020】図2、図3を参照して、表外側輪郭線抽出
手段1を詳細に説明する。
【0021】表形式21のような表を含む原稿をスキャ
ナ等で読み込んで形成した画像データに対し、図中左上
の画素を開始点としてラスタ走査し、白画素と黒画素が
隣り合う箇所を探す。
【0022】白画素から黒画素に変化する場所が見つか
ったならば、その黒画素の位置とその画素が表枠線の左
端に位置することを記憶する。
【0023】そして、この点を始点として、表枠線の外
側輪郭をトレースし、その位置座標とその画素の表枠線
に対する相対位置を順次記憶していく。但し、ここで記
憶する位置情報はその画素が表枠線の端部例えば右端も
しくは左端に位置する場合のみでよい。
【0024】図3を参照して、説明の便宜上、表枠線3
2の図中左端に位置する画素31群には‘L’フラグ
を、右端に位置する画素群には‘R’フラグ(不図示)
をそれぞれ相対位置情報として記憶することとする。
【0025】トレースの結果、始点の位置に戻ってきた
らトレースを終了し、その領域の高さ及び幅を調べ、認
識対象とする最大文字サイズよりも十分に大きければ表
であると判断して次の処理に進む。
【0026】もし、最大文字サイズよりも小さければ表
ではないと判断し、まだ走査されていない画素に対して
走査を行う。
【0027】さて、表外側輪郭線抽出手段1によって表
外側輪郭線が検出されたならば、その内部には表枠線の
内側輪郭が必ず1つ以上存在することになる。
【0028】表内側輪郭線抽出手段2は、この表内側輪
郭を形成する黒画素位置とその画素の表枠線に対する相
対位置を表外側輪郭をトレースしたのと同様の方法で記
憶する。すなわち、表内側輪郭の端部を形成する画素群
に対して所定の識別フラグを設定する。
【0029】次に、図4を参照して、表枠幅計測手段3
について説明する。本処理以降の処理は、抽出された各
表内側輪郭毎に適用される。
【0030】表枠幅計測手段3では、表内側輪郭の水平
方向距離、すなわち「表枠幅」を求める。各水平方向画
素列において、‘R’フラグが付加された表内側輪郭の
画素のうち最も右に位置する画素41と、画素41と同
一水平画素上に位置し、且つ最も左側に位置する‘L’
フラグが付加された表内側輪郭の画素42(画素41と
対向する位置に来る)との距離を表枠幅43とし、この
表枠幅43を表枠線が存在する範囲の各水平画素列に対
して求める。即ち、表枠幅43を表輪郭の図注水直方向
に順次求める。
【0031】ヒストグラム計測手段4は、表枠幅計測手
段3によって抽出された表枠幅についてヒストグラム
(頻度分布)をとる。
【0032】図5に、図4に示した表形式に対応する表
枠幅のヒストグラムの一例を示す。
【0033】図5を参照して、表枠線途切れ推定手段5
は、抽出されたヒストグラムからその頻度の高い部分5
1が標準の表枠幅であり、標準の表枠幅よりも枠幅が大
きな、頻度の低い部分52が枠線途切れによって発生す
る枠幅であると判定する。
【0034】また、図5に示したように、頻度の高い部
分51が頻度の低い部分52の左側に現れた場合は、表
枠幅計測方向(図4では水平方向)と直交する方向の表
枠線途切れであると推定する。
【0035】図6に、横方向の表枠線が途切れた表形式
の例を示す。表形式61の表枠幅を水平方向に計測する
と、そのヒストグラムは図7に示すように、最高頻度7
1である標準の表枠幅より小さい値72が途切れ位置か
ら検出される。そして、図7において、頻度の高い部分
71が頻度の低い部分72の右側に現れた場合は、表枠
幅計測方向(図6では水平方向)と並行な方向の表枠線
途切れであると推定する。
【0036】そこで、表枠線補間手段6は、表枠幅計測
方向に直交する方向の表枠線途切れの場合は、頻度の少
ない枠幅に対応する水平画素列において表枠幅が他の部
分と等しくなるように黒画素を原画像に書き込む。
【0037】また、表枠幅計測方向の表枠線途切れの場
合は、頻度の低い表枠幅となっている水平画素列におい
て、‘R’フラグの付加されている画素から‘L’フラ
グの付加されている画素までを黒画素で埋めることによ
って表枠線を補間することができる。
【0038】本実施例では、表枠幅を水平方向に計測す
る方法を説明したが、表枠線の上下方向に位置する表内
側輪郭にフラグ(すなわち上端、下端を識別するための
フラグ)をたて、垂直方向に表枠幅を計測しても同様の
方法で表枠線途切れを補間することができる。
【0039】また、本実施例は表が傾いていないことを
前提して計算量を低く抑えているが、原稿中の表が傾い
ている場合には、まず表形式の所定の傾き補正を行い、
その後本実施例が適用される。
【0040】
【実施例2】図8を参照して、本発明の別の実施例を説
明する。
【0041】表枠幅を水平方向に計測するとき、これと
同方向の表枠線途切れがあり、且つ微妙に傾いている表
形式81に対するヒストグラムは明らかなピークを示さ
ない可能性がある。
【0042】このような場合、表枠幅を水平方向に計測
し垂直方向の表枠線途切れを補間し、次に表枠幅を垂直
方向に計測して水平方向の表枠線途切れを抽出する。
【0043】垂直補間、水平補間を途切れがなくなるま
で繰り返すことにより、表枠線の交点等の途切れにも対
応できる。
【0044】以上、本発明を上記実施例に即して説明し
たが、本発明は上記態様にのみ限定されず、本発明の原
理に準ずる各種態様を含むことは勿論である。
【0045】
【発明の効果】以上説明したように、本発明によれば、
表項目の幅を計測しその頻度を調べることによって、表
内部に存在する表枠線の途切れを検出し、表内部に存在
する枠線の途切れを補間することができる。
【0046】特に、わずかな長さの途切れであれば、前
記従来例のように縮小画像をつくるといった局所的な処
理でも途切れをうめることは可能であるが、表枠の途切
れが大きい場合正しくセルを抽出できない可能性が高
い。これに対して、本発明によれば、表項目は基本的に
矩形であるという特徴を用いることによって、より大き
な途切れを補間することが可能である。
【0047】また、本発明(請求項2)によれば、垂直
補間、水平補間を途切れがなくなるまで繰り返すことに
より、表枠線の交点等における途切れも補間することが
できる。
【0048】更に、本発明は、表形式が微妙に傾いてい
ても途切れを補間することができるという効果を有す
る。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示す図である。
【図2】表枠線に途切れがある表の例を説明する図であ
る。
【図3】図2に示す表の左上角部を拡大した図である。
【図4】本発明の一実施例における表枠幅の測定方法を
説明するための図である。
【図5】本発明の一実施例において図4に示す表を処理
して得られる表枠線と表枠幅の関係を示すヒストグラム
である。
【図6】横方向の表枠線が途切れている表の一例を示す
図である。
【図7】本発明の一実施例において図6に示す表を処理
して得られる表枠線と表枠幅との関係を示すヒストグラ
ムである。
【図8】表形式が微妙に傾いた場合の一例を示す図であ
る。
【符号の説明】
21 表枠線 31 表枠線の左側に位置する画素 32 表枠線 33 表内部 41 表内側輪郭線のうち輪郭線の右側にある画素 42 表内側輪郭線のうち輪郭線の左側にある画素 43 表枠幅 51 ヒストグラムの頻度が高い部分 52 ヒストグラムの頻度が低い部分 61 表枠線 81 表枠線

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】表形式を含んで記載された原稿を走査して
    得られた画像より表の構造を認識する表認識方式におい
    て、 表枠線の外側輪郭を検出する表外側輪郭線抽出手段と、 前記表外側輪郭線抽出手段によって抽出された閉曲線内
    に存在する1又は複数の表内側輪郭を抽出する表内側輪
    郭線抽出手段と、 抽出された前記表内側輪郭線のそれぞれについて、同一
    の表内側輪郭線に属し、且つ同一行又は同一列に存在す
    る2画素間の距離を表枠幅として計測する表枠幅計測手
    段と、 前記表枠幅のヒストグラムを求めるヒストグラム計測手
    段と、 前記ヒストグラム計測手段によって得られたヒストグラ
    ムにおいて、その頻度が高い値を標準の表枠幅とし、頻
    度が低い値に対応する箇所を表枠線途切れが生じたもの
    とする表枠線途切れ推定手段と、 推定された途切れ表枠線を補間する表枠線補間手段と、 を備えたことを特徴とする表認識装置。
  2. 【請求項2】前記表枠幅抽出手段が、同一列に存在する
    2つの表枠線間の距離を計測する垂直方向表枠幅計測手
    段と、 同一行に存在する2つの表枠線間の距離を計測する水平
    方向表枠幅計測手段と、 を備え、 垂直方向の表枠幅を計測して得たヒストグラムから水平
    方向の表枠線途切れを推定して補間し、 次に水平方向の表枠幅を計測して得たヒストグラムから
    垂直方向の表枠線途切れを推定して補間することを特徴
    とする請求項1に記載の表認識装置。
  3. 【請求項3】(a)表を含む文書を走査して得られた画像
    信号について表枠線の外側輪郭を抽出する工程と、 (b)抽出された前記外側輪郭内に存在する1又は複数の
    表内側輪郭を抽出する工程と、 (c)抽出された前記表内側輪郭線のそれぞれについて前
    記表内側輪郭線上の端部に属し且つ表内部を介して互い
    に対向する2画素間の距離を表枠幅として表枠線が存在
    する範囲で所定方向に計測する工程と、 (d)前記表枠幅のヒストグラムを求める工程と、 (e)前記ヒストグラムにおいて、その頻度が最も高い枠
    幅を標準の表枠幅とし、頻度が低い値の枠幅に対応する
    箇所を表枠線途切れが生じたものと推定する工程と、 (f)途切れた表枠線を補間する工程と、 を含むことを特徴とする表枠線の途切れ補間方法。
  4. 【請求項4】前記抽出された表枠線の端部を構成する画
    素に端部であることを識別するための所定のフラグを設
    けたことを特徴とする請求項3記載の表枠線の途切れ補
    間方法。
JP7108228A 1995-04-07 1995-04-07 表認識装置及び表枠線の途切れ補間方法 Expired - Fee Related JP2723075B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7108228A JP2723075B2 (ja) 1995-04-07 1995-04-07 表認識装置及び表枠線の途切れ補間方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7108228A JP2723075B2 (ja) 1995-04-07 1995-04-07 表認識装置及び表枠線の途切れ補間方法

Publications (2)

Publication Number Publication Date
JPH08287275A JPH08287275A (ja) 1996-11-01
JP2723075B2 true JP2723075B2 (ja) 1998-03-09

Family

ID=14479308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7108228A Expired - Fee Related JP2723075B2 (ja) 1995-04-07 1995-04-07 表認識装置及び表枠線の途切れ補間方法

Country Status (1)

Country Link
JP (1) JP2723075B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6468463B2 (ja) * 2015-07-30 2019-02-13 京セラドキュメントソリューションズ株式会社 画像処理装置

Also Published As

Publication number Publication date
JPH08287275A (ja) 1996-11-01

Similar Documents

Publication Publication Date Title
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
EP1091320A2 (en) Processing multiple digital images
JP3278471B2 (ja) 領域分割方法
EP1081648B1 (en) Method for processing a digital image
US5892854A (en) Automatic image registration using binary moments
JPH07234915A (ja) 画像認識装置
JP3411472B2 (ja) パターン抽出装置
US6141444A (en) Method for deleting ruled lines and a recording medium storing programs for performing the method
JP2723075B2 (ja) 表認識装置及び表枠線の途切れ補間方法
JP4322041B2 (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録したコンピュータ読取可能な記録媒体
JP2868134B2 (ja) 画像処理方法及び装置
JP4129898B2 (ja) 文字サイズ推定方法および装置
JP4242962B2 (ja) 文字切出装置
JP3019897B2 (ja) 行切出し方法
JP3095470B2 (ja) 文字認識装置
JP5418057B2 (ja) 画像処理装置及びコンピュータプログラム
JP4738645B2 (ja) 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP2008234223A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP4439054B2 (ja) 文字認識装置及び文字枠線の検出方法
JP2963508B2 (ja) 文字切出し装置
US6142374A (en) Optical character reader
JP2859307B2 (ja) 文字切出し装置
JP2003069807A (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971028

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071128

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081128

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081128

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091128

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091128

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101128

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 16

LAPS Cancellation because of no payment of annual fees