JPH04287156A - 文書画像の罫線抽出装置 - Google Patents

文書画像の罫線抽出装置

Info

Publication number
JPH04287156A
JPH04287156A JP3051847A JP5184791A JPH04287156A JP H04287156 A JPH04287156 A JP H04287156A JP 3051847 A JP3051847 A JP 3051847A JP 5184791 A JP5184791 A JP 5184791A JP H04287156 A JPH04287156 A JP H04287156A
Authority
JP
Japan
Prior art keywords
ruled line
ruled
line
search
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3051847A
Other languages
English (en)
Other versions
JP3024234B2 (ja
Inventor
Toshiyuki Yoshitake
敏幸 吉武
Koichi Egawa
宏一 江川
Yoshiharu Arai
荒井 美晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3051847A priority Critical patent/JP3024234B2/ja
Publication of JPH04287156A publication Critical patent/JPH04287156A/ja
Application granted granted Critical
Publication of JP3024234B2 publication Critical patent/JP3024234B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像の罫線を検出
する罫線抽出装置に関する。
【0002】近年、各種データのコンピュータでの処理
や蓄積が進んでいる。特にワードプロセッサ、パーソナ
ルコンピュータの普及により文書をコンピュータ上で作
成、保管することが多くなっている。これは、コンピュ
ータ上では文書の編集が容易であり、また、他の文書の
参照や、他の文書の一部切り貼りを簡単に行うことが可
能なためである。しかし、現在でも、刊行物のほとんど
は紙に記載されたものであり、しかも、これまでには膨
大な量の紙の書類が作成、保存されている。これらの紙
の書類をコンピュータに保管された文書と同様に有効に
活用するためには何らかの手段によって書類をコンピュ
ータに入力する必要がある。これらの書類を改めて人手
で入力するには膨大な労力を必要とするので、入力を自
動的に行う文書入力装置が望まれている。
【0003】このような文書入力装置では、書類をイメ
ージスキャナ等でコンピュータに入力し、入力された画
素単位の画像情報(文書画像)の処理を行う。そして、
この文書画像から画像上の文字などを認識したり、その
レイアウト構成を解析したりすることによって、コンピ
ュータ上の他の文書と同様に扱うことが可能となる。こ
こで、文書画像のレイアウト解析を行うためには、文章
の構成を分割する罫線の抽出が重要なものとなってくる
【0004】
【従来の技術】従来、文書画像における罫線の抽出は画
像中の一定領域を切り出して、その領域内の黒画素を水
平もしくは垂直方向へ投影することによって行っていた
。投影とは、ある方向の黒画素の数を調べて、その数に
よってグラフを作成することである。図10に文字列と
実罫線の水平方向への黒画素の投影の例を示す。図中、
文字列のあいだの細線が罫線を表す。図10(a)が原
文書画像であり、(b)がその投影像を表す。投影像で
は縦軸に垂直方向の座標を、横軸に画像を水平に走査し
たときに、その走査線に沿って現れた黒画像の数を示す
【0005】横書きの文章の場合、文字列では、文字分
の幅を持つ投影像ができ、罫線部分では、罫線の幅の投
影像ができる。また、文字列と文字列の間である行間や
、文字列と罫線の間は、黒画素が存在しない領域となる
。一般に、罫線の幅は文字列の幅に比較して狭いので、
投影した黒画素の幅を調べることによって罫線を求める
ことができる。具体的には、投影像を縦軸に沿って調べ
、一定以上の黒画素数を持っているところを求め、その
幅が一定以上であれば文字列、一定以下であれば罫線と
する。
【0006】
【発明が解決しようとする課題】従来の投影による罫線
抽出方式では、一定領域を特定の方向に投影するため、
その領域内では文章と罫線が明確に分離している必要が
ある。図11は1頁の文書を摸式的に表したもので、斜
線部は写真、絵や表を示し、空白部に文章が表示されて
いる。図11に示すように領域内に、文章と罫線が混在
するような複雑なレイアウト構成の文書画像を処理する
ことは困難であった。また、図12にあるように、文書
画像に傾きがある場合、垂直、水平への投影結果がうま
く出ない場合があった。
【0007】本発明は、上述の問題点に鑑みてなされた
もので、直線の追跡によって罫線を抽出することにより
、複雑なレイアウトに対しても罫線の抽出を可能にする
とともに、ある程度の傾きがあっても罫線の抽出を行う
ことのできる罫線抽出装置を提供することを目的とする
【0008】
【課題を解決するための手段】図1は本発明の原理図で
ある。図中1は罫線探索部であり、探索範囲とその探索
順序を示すマスクを用いて入力画像の罫線を構成するあ
る画素から罫線を構成する次の画素を探索する。2は罫
線追跡部で、罫線探索部1で探索した罫線を構成する次
の画素の位置を格納してゆくことにより、罫線の追跡を
行うとともに、この次の画素に処理を移す。3は罫線判
定部であり、追跡によって得られた結果からそれが罫線
か否かを判定する。
【0009】前記罫線判定部3の判定結果に応じて前記
マスクを交換するようにする。
【0010】また、前記罫線判定部3が判定した罫線の
長さと、白黒画素の変化回数および白画素黒画素それぞ
れの連続数の周期に基づき実線と点線の判定を行う。
【0011】また、前記白画素黒画素それぞれの連続数
の周期から点線の種類を判定する。
【0012】
【作用】上記構成により、罫線を構成する画素をマスク
を用いてマスクに定められた範囲を定められた順序で探
索し追跡してゆくので、探索範囲をもれなく探索し罫線
を抽出することができる。
【0013】また、罫線判定部3の判定結果に応じて、
罫線探索対象の文書に適したマスクを選択することによ
り、罫線抽出精度が向上する。
【0014】また、判定した罫線の長さと、白画素から
黒画素へ、または黒画素から白画素への変化回数、およ
び白画素の連続する数と黒画素の連続する数の周期を計
数して実線と点線の識別が行える。
【0015】また、この白画素、黒画素それぞれの連続
数の周期から点線、一点鎖線、二点鎖線などの識別も行
える。
【0016】以下、本発明の実施例を図面を参照して説
明する。図2は本発明の実施例の構成を示すブロック図
である。図中、1,2,3は図1で説明した装置と同一
のものである。11は画像入力部であり、イメージスキ
ャナ等で文書を読み取り、白黒2値の2値文書画像とし
て出力する。12は始点探索部で入力した2値文書画像
を走査して水平方向または垂直方向の罫線の始点を探索
する。13はデータ格納部で始点探索部12および罫線
追跡部2のデータを格納する。
【0017】罫線判定部3は罫線の傾きを判定する傾き
判定部31と、所定の長さに達しないものは罫線でない
と判定する罫線長判定部32と、罫線と判定されたもの
が点線か否か、点線とした場合その点線の種類の判定を
行う点線判定部33を有している。14は結果格納部で
罫線判定部3で罫線として抽出された罫線を格納する。 15はマスク更新部で罫線判定部3の判定部結果に基づ
き対象文書に対して最適マスクに交換する。
【0018】図3〜図5はマスクの例を示した図である
。各格子は探索範囲の画素を示し、格子の番号は探索順
番を示す。図3は罫線が水平にある場合に用い、図4は
罫線が右下がりの場合に適する。図5は文書が縦書きの
場合のマスクで(a)は罫線が垂直の場合、(b)は罫
線が左側に倒れている場合に適する。
【0019】図3を用いて探索を行う場合を説明する。 探索方向は水平方向とする。図中、各格子が画素を表し
、網部分が黒画素を表し、Xより左の黒画素を追跡済と
する。また、画素Xがこれまでに追跡した最後の画素と
する。画素Xから次の黒画素を探索する際に、図3で数
字の振られた範囲内を振られた数字の順に探索し、最初
に見つけた画素を追跡する。図3の例では、横方向の探
索を優先するために1〜8まで横方向に探索し、以降は
その上下1画素を探索するような順序付けを行う。そう
すると、6番目の位置に黒画素を見つけ、それを追跡す
る。もし、6,7,8が白画素であれば、17の位置の
黒画素を追跡する。このようにすると、罫線がかすれな
どの原因により切れを生じていても追跡が可能となる。 ここで、探索のマスクの形や探索順序は変更することが
可能であり画像に合わせた探索、追跡を行うことができ
る。
【0020】次に動作について説明する。始点探索部1
2は入力した画像データに対し、まず水平方向の罫線抽
出を行う。図6に示すように画像を左上から水平右方向
に順に走査し、始めに見つかった黒画素を始点とする。 しかし、右上がりの傾きを持つ画像の場合(このような
ことは、文書を斜めにセットしてスキャナで文書を読み
込んだ場合などに生じる)、このままでは罫線の途中を
見つけて始点とする可能性がある。例えば、図7に示す
ように矢印の方向から探索した場合、点■で斜線で示す
黒画素をみつけた場合、そのまま点■の方向に追跡して
しまうと罫線の途中から追跡を始めることになるので、
点■を発見した時に、追跡する矢印の方向とは逆の方向
を探索し、点■を発見したときは、点■は罫線の途中と
判断し、点■を始点としない。
【0021】また、右下がりの画像を探索し図8に示す
ように■で黒点を発見した場合で、図4に示すマスクを
用いて追跡する場合、点■を点対称して図4のマスクを
設定し、このマスク内を探索する。点6のようなような
画素が見つかると、点6に図4のマスクのX点を設定し
て図4のマスクを用いることにより点■と点6は同一罫
線上にあると判断し点■は罫線の途中であると判断する
。この場合6に示すような黒点を発見しなかったときは
この■点を始点としてデータ格納部13に格納する。
【0022】つまり始点探索部12で発見した■点に対
して、探索方向と反対方向にマスクを設定し、このマス
ク範囲を見て黒画素がなければ点■が始点となり、黒画
素があれば、点■は罫線の途中となる。
【0023】罫線探索部1では、定められたマスクと探
索順序に従って、罫線を構成する次の黒画素を探索する
。次の黒画素が見つかれば、罫線追跡部2に処理を移す
。罫線追跡部2では探索された黒画素の座標と、切れが
あれば間の白画素数をデータ格納部13に格納する。罫
線追跡部2で次の黒画素が見つからなければ、最後の黒
画素を終点として、罫線判定部3に処理を移す。罫線判
定部3では得られた罫線の判定を行う。傾き判定部31
では、始点と終点の座標から罫線の傾きを求め、傾きが
しきい値より大きいものは罫線ではないとする。罫線長
判定部32では、始点、終点間の長さに対して黒画素数
がしきい値より少ないものを罫線ではないとする。また
、始点、終点間の黒画素の上下( 罫線と垂直方向) 
への散らばりがしきい値より大きいものも罫線ではない
とする。 点線判定部33では、罫線とされたものに対し、罫線の
長さに対する白画素/黒画素の変化の回数がしきい値よ
り多く、連続する黒画素と連続する白画素の対から罫線
切れの周期が一定の範囲内にあるものを点線とする。ま
た、点線としたものに対しては、連続する白画素と連続
黒画素の対に対して、その割合を求め、点線の種類を判
定する。
【0024】こうして抽出された罫線は、結果格納部1
4に格納される。そして、始点探索部12に処理を移し
、次の罫線を探索する。また、このとき数本の罫線の探
索を行った後、各罫線の傾きが一定以上あれば、探索を
効率化するために、マスク更新部15において傾きに応
じたマスクに更新する。更新はあらかじめ定められたパ
ターンに従い、例えば右下がりであれば、図4に示すよ
うなマスクに更新する。水平方向の探索が終了したら、
同様にして次の垂直方向の探索を行う。
【0025】上記実施例では、画像入力部11において
、画像の2値化を行い、2値像に対して処理を行ったが
、画像入力部11で濃淡のある濃淡画像として入力し、
濃淡画像に対して処理を行ってもよい。その場合、罫線
探索部1における探索で、マスクの順序に従ってある画
素を探索する際に、黒画素を捜して罫線とする代わりに
、図9に示す様に探索画素とその上下1画素の近傍領域
を見て、探索画素がその上下の画素よりも濃度レベルが
大きく、尾根点になっており、上下の画素との濃度レベ
ルの差が一定以上あればそれを罫線を構成する画素とす
ることによって罫線の探索を行う。この時、濃度レベル
の差が一定以上である画素が隣接領域にないときは、罫
線切れとなり、マスクの探索範囲にないときは、終点と
なる。
【0026】
【発明の効果】以上の説明から明らかなように、本発明
は、マスクで定められた範囲を定めた順に探索して罫線
を見つけてゆくので複雑なレイアウトを持つ文書や、入
力の際傾いた文書に対しても罫線を抽出することができ
る。また、かすれによる罫線の切れをまたいで1本の罫
線として抽出することもできる。また抽出した罫線の線
種の判別も可能である。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】本発明の実施例の構成を示すブロック図である
【図3】水平方向トレース用マスクの1例を示す図であ
る。
【図4】水平右下がりトレース用マスクの1例を示す図
である。
【図5】垂直方向トレース用マスクの例を示し、(a)
は垂直用(b)は左側へ傾いた罫線のトレース用マスク
を示す。
【図6】画像の走査例を示す図である。
【図7】右上がり罫線の始点探索を説明する図である。
【図8】右下がり罫線の始点探索を説明する図である。
【図9】濃度の尾根点を検出する説明図である。
【図10】水平に引かれた罫線を探索する説明図である
【図11】複雑なレイアウトの例を示した図である。
【図12】傾いた文書の例を示した図である。
【符号の説明】
1  罫線探索部 2  罫線追跡部 3  罫線判定部 11  画像入力部 12  始点探索部 13  データ格納部 14  結果格納部 15  マスク更新部 31  傾き判定部 32  罫線長判定部 33  点線判定部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】  探索範囲とその探索順序を示すマスク
    を用いて入力画像の罫線構成画素を探索する罫線探索部
    (1)と、探索された罫線構成画素を追跡する罫線追跡
    部(2)と、追跡によって得られた結果が罫線であるか
    を判定する罫線判定部(3)とを備えたことを特徴とす
    る文書画像の罫線抽出装置。
  2. 【請求項2】  前記罫線判定部(3)の判定結果に応
    じて前記マスクを交換するようにしたことを特徴とする
    請求項1記載の文書画像の罫線抽出装置。
  3. 【請求項3】  前記罫線判定部(3)が判定した罫線
    の長さと、白黒画素の変化回数および白画素黒画素それ
    ぞれの連続数の周期に基づき実線と点線の判定を行うこ
    とを特徴とする請求項1または2に記載の文書画像の罫
    線抽出装置。
  4. 【請求項4】  前記白画素黒画素それぞれの連続数の
    周期から点線の種類を判定することを特徴とする請求項
    3記載の文書画像の罫線抽出装置。
JP3051847A 1991-03-18 1991-03-18 文書画像の罫線抽出装置 Expired - Fee Related JP3024234B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3051847A JP3024234B2 (ja) 1991-03-18 1991-03-18 文書画像の罫線抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3051847A JP3024234B2 (ja) 1991-03-18 1991-03-18 文書画像の罫線抽出装置

Publications (2)

Publication Number Publication Date
JPH04287156A true JPH04287156A (ja) 1992-10-12
JP3024234B2 JP3024234B2 (ja) 2000-03-21

Family

ID=12898246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3051847A Expired - Fee Related JP3024234B2 (ja) 1991-03-18 1991-03-18 文書画像の罫線抽出装置

Country Status (1)

Country Link
JP (1) JP3024234B2 (ja)

Also Published As

Publication number Publication date
JP3024234B2 (ja) 2000-03-21

Similar Documents

Publication Publication Date Title
US7016536B1 (en) Method and apparatus for automatic cleaning and enhancing of scanned documents
EP0434930B1 (en) Editing text in an image
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
JP3950777B2 (ja) 画像処理方法、画像処理装置および画像処理プログラム
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JPH03122773A (ja) 画像形成装置
US6711292B2 (en) Block selection of table features
JPH09179937A (ja) 文書画像のセンテンスの境界の自動識別方法
JP3411472B2 (ja) パターン抽出装置
US6947596B2 (en) Character recognition method, program and recording medium
JP3615333B2 (ja) 罫線消去装置
JPH05166002A (ja) ソース画像を分析する方法
JPH07105312A (ja) 光学式文字読取装置における文字イメージのごみ除去方法及び装置
JP2008108114A (ja) 文書処理装置および文書処理方法
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
JPH04287156A (ja) 文書画像の罫線抽出装置
JP2796561B2 (ja) 表形式文書認識方式
JP3187895B2 (ja) 文字領域抽出方法
JP4409678B2 (ja) 罫線抽出方式
JP2003317107A (ja) 罫線抽出方法及び装置
JP3077929B2 (ja) 文字切出し方式
JP2003216958A (ja) 多角形検出装置、多角形検出方法及び多角形検出プログラム
JP3190794B2 (ja) 文字切り出し装置
JP2003016385A (ja) 画像処理装置、方法、プログラム、及び記憶媒体
JP3147281B2 (ja) アンダライン抽出方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080121

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090121

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees