JP2723075B2 - 表認識装置及び表枠線の途切れ補間方法 - Google Patents
表認識装置及び表枠線の途切れ補間方法Info
- Publication number
- JP2723075B2 JP2723075B2 JP7108228A JP10822895A JP2723075B2 JP 2723075 B2 JP2723075 B2 JP 2723075B2 JP 7108228 A JP7108228 A JP 7108228A JP 10822895 A JP10822895 A JP 10822895A JP 2723075 B2 JP2723075 B2 JP 2723075B2
- Authority
- JP
- Japan
- Prior art keywords
- table frame
- line
- width
- frame width
- histogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Description
し、特に表形式を含む文書を読み取り表構造を認識する
表認識装置及び方法に関する。
字情報を電子化したいというニーズは多く、且つそうし
た文書には表形式を含むものが少なくない。
芝製エキスプレスリーダ(ExpressReader)マニュアル
やメディアドライブ社製ウインリーダ(Win Reader)マ
ニュアル等に記載されているように、罫線を除去して文
字だけを認識する方法がある。
いう)の位置も大切な情報の一つであり、このため各セ
ルを正しく抽出し、セル内に記されている文字を読み取
ることが重要である。
を用いて直線を検出したり、表枠線に対応する黒画素を
トレースして閉領域をみつければよい。
するという問題がある。一方、後者の方法は計算量は前
者に比べて少ないが、原稿中の表枠線の一部がもともと
途切れていたり、うすく描かれている場合には、光学的
に読み取られた画像中で表枠線の途切れが発生し、表構
造を正しく抽出することが難しい。そこで、画像中の途
切れた表枠線を補間する技術が必要となる。
の装置として、例えば特開平5-73721号公報には、文字
や表を構成する黒画素の中からまず表枠線に対応する画
素だけを選出した画像を生成し、この画像を縦方向にM
分割、横方向にN分割してM×Nの領域とし、各領域に
おいて1画素でも黒画素があったら1ドットの黒画素と
するサイズM×Nの縮小画像を作り、縮小画像における
黒画素の並びから表枠線を抽出し、縮小画像を作成する
ことにより破線やかすれによる線の途切れがなくなり、
正確に表構造を認識できるようにした表認識装置が提案
されている。
開平5-73721号公報に記載された装置においては、途切
れ表枠線が縮小画像では途切れなくなることを利用して
いるため、縮小率の決め方が問題となる。
る表の高さ/幅、及び枠線の途切れ長に依存し、これを
自動的に設定することは困難だからである。
れた装置では、表枠の途切れが大きい場合正しくセルを
抽出できない可能性が高い。
項目の幅を計測し、その頻度を調べることによって表内
部に存在する表枠線の途切れを補間し、大きな途切れの
補間を可能とする表認識装置及び方法を提供することを
目的とする。
め、本発明は、表形式を含んで記載された原稿を走査し
て得られた画像より、表の構造を認識する表認識方式に
おいて、表枠線の外側輪郭を検出する表外側輪郭線抽出
手段と、前記表外側輪郭線抽出手段によって抽出された
閉曲線内に存在する1又は複数の表内側輪郭を抽出する
表内側輪郭線抽出手段と、抽出された前記表内側輪郭線
のそれぞれについて、同一の表内側輪郭線に属し、且つ
同一行又は同一列に存在する2画素間の距離を表枠幅と
して計測する表枠幅計測手段と、前記表枠幅のヒストグ
ラムを求めるヒストグラム計測手段と、前記ヒストグラ
ム計測手段によって得られたヒストグラムにおいて、そ
の頻度が高い値を標準の表枠幅とし、頻度が低い値に対
応する箇所を表枠線途切れが生じたものとする表枠線途
切れ推定手段と、推定された途切れ表枠線を補間する表
枠線補間手段と、を備えたことを特徴とする表認識装置
を提供する。
が、同一列に存在する2つの表枠線間の距離を計測する
垂直方向表枠幅計測手段と、同一行に存在する2つの表
枠線間の距離を計測する水平方向表枠幅計測手段と、を
備え、垂直方向の表枠幅を計測して得たヒストグラムか
ら水平方向の表枠線途切れを推定して補間し、次に水平
方向の表枠幅を計測して得たヒストグラムから垂直方向
の表枠線途切れを推定して補間するように構成してもよ
い。
して得られた画像信号について表枠線の外側輪郭を抽出
する工程と、(b)抽出された前記外側輪郭内に存在する
1又は複数の表内側輪郭を抽出する工程と、(c)抽出さ
れた前記表内側輪郭線のそれぞれについて前記表内側輪
郭線上の端部に属し且つ表内部を介して互いに対向する
2画素間の距離を表枠幅として表枠線が存在する範囲で
所定方向に計測する工程と、(d)前記表枠幅のヒストグ
ラムを求める工程と、(e)前記ヒストグラムにおいて、
その頻度が最も高い枠幅を標準の表枠幅とし、頻度が低
い値の枠幅に対応する箇所を表枠線途切れが生じたもの
と推定する工程と、(f)途切れた表枠線を補間する工程
と、を含むことを特徴とする表枠線の途切れ補間方法を
提供する。
においては、表枠線で囲まれた1つの閉領域について表
枠幅を計測し、そのヒストグラムをとり、一閉領域に占
める表枠幅とその頻度の関係を求める。認識対象とする
表形式が長方形をした項目の集合体ならば、一項目(セ
ル)中の表枠幅は場所によらず等しい。このため、ヒス
トグラム中には1カ所のピークが現れる。
つの閉領域中をなしていたならば、複数のピークを持つ
ヒストグラムが得られる。例えば、表枠線の途切れ長は
セルの辺の長さの半分より短いものと仮定すれば、計測
したヒストグラム中、高い頻度の値が本来の表枠幅であ
り、低い頻度の値が枠線の途切れによって計測された表
枠幅であると判定することができ、途切れ箇所を抽出す
ることができる。
明する。
図である。
は、表枠線の外側輪郭線を検出する。表外側輪郭線抽出
手段1が扱う表形式は、水平/垂直もしくはこれに近い
方向の表枠線のみから形成され、最外郭の表枠線には途
切れはないものとする。また、セル中に別のセルが含ま
れたり、セルとセル内の文字が接触することはないもの
とする。
手段1を詳細に説明する。
ナ等で読み込んで形成した画像データに対し、図中左上
の画素を開始点としてラスタ走査し、白画素と黒画素が
隣り合う箇所を探す。
ったならば、その黒画素の位置とその画素が表枠線の左
端に位置することを記憶する。
側輪郭をトレースし、その位置座標とその画素の表枠線
に対する相対位置を順次記憶していく。但し、ここで記
憶する位置情報はその画素が表枠線の端部例えば右端も
しくは左端に位置する場合のみでよい。
2の図中左端に位置する画素31群には‘L’フラグ
を、右端に位置する画素群には‘R’フラグ(不図示)
をそれぞれ相対位置情報として記憶することとする。
らトレースを終了し、その領域の高さ及び幅を調べ、認
識対象とする最大文字サイズよりも十分に大きければ表
であると判断して次の処理に進む。
ではないと判断し、まだ走査されていない画素に対して
走査を行う。
外側輪郭線が検出されたならば、その内部には表枠線の
内側輪郭が必ず1つ以上存在することになる。
郭を形成する黒画素位置とその画素の表枠線に対する相
対位置を表外側輪郭をトレースしたのと同様の方法で記
憶する。すなわち、表内側輪郭の端部を形成する画素群
に対して所定の識別フラグを設定する。
について説明する。本処理以降の処理は、抽出された各
表内側輪郭毎に適用される。
方向距離、すなわち「表枠幅」を求める。各水平方向画
素列において、‘R’フラグが付加された表内側輪郭の
画素のうち最も右に位置する画素41と、画素41と同
一水平画素上に位置し、且つ最も左側に位置する‘L’
フラグが付加された表内側輪郭の画素42(画素41と
対向する位置に来る)との距離を表枠幅43とし、この
表枠幅43を表枠線が存在する範囲の各水平画素列に対
して求める。即ち、表枠幅43を表輪郭の図注水直方向
に順次求める。
段3によって抽出された表枠幅についてヒストグラム
(頻度分布)をとる。
枠幅のヒストグラムの一例を示す。
は、抽出されたヒストグラムからその頻度の高い部分5
1が標準の表枠幅であり、標準の表枠幅よりも枠幅が大
きな、頻度の低い部分52が枠線途切れによって発生す
る枠幅であると判定する。
分51が頻度の低い部分52の左側に現れた場合は、表
枠幅計測方向(図4では水平方向)と直交する方向の表
枠線途切れであると推定する。
の例を示す。表形式61の表枠幅を水平方向に計測する
と、そのヒストグラムは図7に示すように、最高頻度7
1である標準の表枠幅より小さい値72が途切れ位置か
ら検出される。そして、図7において、頻度の高い部分
71が頻度の低い部分72の右側に現れた場合は、表枠
幅計測方向(図6では水平方向)と並行な方向の表枠線
途切れであると推定する。
方向に直交する方向の表枠線途切れの場合は、頻度の少
ない枠幅に対応する水平画素列において表枠幅が他の部
分と等しくなるように黒画素を原画像に書き込む。
合は、頻度の低い表枠幅となっている水平画素列におい
て、‘R’フラグの付加されている画素から‘L’フラ
グの付加されている画素までを黒画素で埋めることによ
って表枠線を補間することができる。
る方法を説明したが、表枠線の上下方向に位置する表内
側輪郭にフラグ(すなわち上端、下端を識別するための
フラグ)をたて、垂直方向に表枠幅を計測しても同様の
方法で表枠線途切れを補間することができる。
前提して計算量を低く抑えているが、原稿中の表が傾い
ている場合には、まず表形式の所定の傾き補正を行い、
その後本実施例が適用される。
明する。
同方向の表枠線途切れがあり、且つ微妙に傾いている表
形式81に対するヒストグラムは明らかなピークを示さ
ない可能性がある。
し垂直方向の表枠線途切れを補間し、次に表枠幅を垂直
方向に計測して水平方向の表枠線途切れを抽出する。
で繰り返すことにより、表枠線の交点等の途切れにも対
応できる。
たが、本発明は上記態様にのみ限定されず、本発明の原
理に準ずる各種態様を含むことは勿論である。
表項目の幅を計測しその頻度を調べることによって、表
内部に存在する表枠線の途切れを検出し、表内部に存在
する枠線の途切れを補間することができる。
記従来例のように縮小画像をつくるといった局所的な処
理でも途切れをうめることは可能であるが、表枠の途切
れが大きい場合正しくセルを抽出できない可能性が高
い。これに対して、本発明によれば、表項目は基本的に
矩形であるという特徴を用いることによって、より大き
な途切れを補間することが可能である。
補間、水平補間を途切れがなくなるまで繰り返すことに
より、表枠線の交点等における途切れも補間することが
できる。
ても途切れを補間することができるという効果を有す
る。
る。
説明するための図である。
して得られる表枠線と表枠幅の関係を示すヒストグラム
である。
図である。
して得られる表枠線と表枠幅との関係を示すヒストグラ
ムである。
る。
Claims (4)
- 【請求項1】表形式を含んで記載された原稿を走査して
得られた画像より表の構造を認識する表認識方式におい
て、 表枠線の外側輪郭を検出する表外側輪郭線抽出手段と、 前記表外側輪郭線抽出手段によって抽出された閉曲線内
に存在する1又は複数の表内側輪郭を抽出する表内側輪
郭線抽出手段と、 抽出された前記表内側輪郭線のそれぞれについて、同一
の表内側輪郭線に属し、且つ同一行又は同一列に存在す
る2画素間の距離を表枠幅として計測する表枠幅計測手
段と、 前記表枠幅のヒストグラムを求めるヒストグラム計測手
段と、 前記ヒストグラム計測手段によって得られたヒストグラ
ムにおいて、その頻度が高い値を標準の表枠幅とし、頻
度が低い値に対応する箇所を表枠線途切れが生じたもの
とする表枠線途切れ推定手段と、 推定された途切れ表枠線を補間する表枠線補間手段と、 を備えたことを特徴とする表認識装置。 - 【請求項2】前記表枠幅抽出手段が、同一列に存在する
2つの表枠線間の距離を計測する垂直方向表枠幅計測手
段と、 同一行に存在する2つの表枠線間の距離を計測する水平
方向表枠幅計測手段と、 を備え、 垂直方向の表枠幅を計測して得たヒストグラムから水平
方向の表枠線途切れを推定して補間し、 次に水平方向の表枠幅を計測して得たヒストグラムから
垂直方向の表枠線途切れを推定して補間することを特徴
とする請求項1に記載の表認識装置。 - 【請求項3】(a)表を含む文書を走査して得られた画像
信号について表枠線の外側輪郭を抽出する工程と、 (b)抽出された前記外側輪郭内に存在する1又は複数の
表内側輪郭を抽出する工程と、 (c)抽出された前記表内側輪郭線のそれぞれについて前
記表内側輪郭線上の端部に属し且つ表内部を介して互い
に対向する2画素間の距離を表枠幅として表枠線が存在
する範囲で所定方向に計測する工程と、 (d)前記表枠幅のヒストグラムを求める工程と、 (e)前記ヒストグラムにおいて、その頻度が最も高い枠
幅を標準の表枠幅とし、頻度が低い値の枠幅に対応する
箇所を表枠線途切れが生じたものと推定する工程と、 (f)途切れた表枠線を補間する工程と、 を含むことを特徴とする表枠線の途切れ補間方法。 - 【請求項4】前記抽出された表枠線の端部を構成する画
素に端部であることを識別するための所定のフラグを設
けたことを特徴とする請求項3記載の表枠線の途切れ補
間方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7108228A JP2723075B2 (ja) | 1995-04-07 | 1995-04-07 | 表認識装置及び表枠線の途切れ補間方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7108228A JP2723075B2 (ja) | 1995-04-07 | 1995-04-07 | 表認識装置及び表枠線の途切れ補間方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08287275A JPH08287275A (ja) | 1996-11-01 |
JP2723075B2 true JP2723075B2 (ja) | 1998-03-09 |
Family
ID=14479308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7108228A Expired - Fee Related JP2723075B2 (ja) | 1995-04-07 | 1995-04-07 | 表認識装置及び表枠線の途切れ補間方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2723075B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6468463B2 (ja) * | 2015-07-30 | 2019-02-13 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
-
1995
- 1995-04-07 JP JP7108228A patent/JP2723075B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08287275A (ja) | 1996-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3904840B2 (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
EP1091320A2 (en) | Processing multiple digital images | |
JP3278471B2 (ja) | 領域分割方法 | |
EP1081648B1 (en) | Method for processing a digital image | |
US5892854A (en) | Automatic image registration using binary moments | |
JPH07234915A (ja) | 画像認識装置 | |
JP3411472B2 (ja) | パターン抽出装置 | |
US6141444A (en) | Method for deleting ruled lines and a recording medium storing programs for performing the method | |
JP2723075B2 (ja) | 表認識装置及び表枠線の途切れ補間方法 | |
JP4322041B2 (ja) | 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録したコンピュータ読取可能な記録媒体 | |
JP2868134B2 (ja) | 画像処理方法及び装置 | |
JP4129898B2 (ja) | 文字サイズ推定方法および装置 | |
JP4242962B2 (ja) | 文字切出装置 | |
JP3019897B2 (ja) | 行切出し方法 | |
JP3095470B2 (ja) | 文字認識装置 | |
JP5418057B2 (ja) | 画像処理装置及びコンピュータプログラム | |
JP4738645B2 (ja) | 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体 | |
JPH07230525A (ja) | 罫線認識方法及び表処理方法 | |
JP2008234223A (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
JP4439054B2 (ja) | 文字認識装置及び文字枠線の検出方法 | |
JP2963508B2 (ja) | 文字切出し装置 | |
US6142374A (en) | Optical character reader | |
JP2859307B2 (ja) | 文字切出し装置 | |
JP2003069807A (ja) | 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム | |
JP2001236464A (ja) | 文字抽出方法、文字抽出装置及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19971028 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071128 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081128 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081128 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091128 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091128 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101128 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121128 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121128 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131128 Year of fee payment: 16 |
|
LAPS | Cancellation because of no payment of annual fees |