JPH0264781A - 表領域抽出方式 - Google Patents

表領域抽出方式

Info

Publication number
JPH0264781A
JPH0264781A JP63216174A JP21617488A JPH0264781A JP H0264781 A JPH0264781 A JP H0264781A JP 63216174 A JP63216174 A JP 63216174A JP 21617488 A JP21617488 A JP 21617488A JP H0264781 A JPH0264781 A JP H0264781A
Authority
JP
Japan
Prior art keywords
line segment
line
group
extracted
chart area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63216174A
Other languages
English (en)
Inventor
Nobuyuki Sato
信幸 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63216174A priority Critical patent/JPH0264781A/ja
Publication of JPH0264781A publication Critical patent/JPH0264781A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (概要) 文字や図、表、写真などが混在する文書画像から表領域
を抽出する表領域抽出方式に関し、文書画像の中の表領
域を簡単に見つけ出すことが出来ると共に、表領域を構
成する線分をも同時に得ることが出来る表領域抽出方式
を提供することを目的とし、 文書画像の画像データを記憶する画像データ記憶手段と
、画像データ記憶手段の文書画像中の線分を抽出する線
分抽出手段と、線分抽出手段によって抽出された線分を
接続している線分群毎にグループ化する線分グループ化
手段と、線分グループ化手段によって得られた線分グル
ープ毎に表領域とみなせるか否かを判定し表領域を決定
する表領域決定手段とを具備することを構成としている
〔産業上の利用分野〕
本発明は、文字や図、表、写真などが混在する文書画像
から表領域を抽出する表領域抽出方式に関する。文字や
図、表、写真等が混在する文書画像を自動的に確認する
ためには、それぞれの領域を抽出することが必要であり
、そのための技術の一つとして表領域の抽出技術が必要
とされる。
〔従来の技術] 従来の表領域抽出方式においては、黒画素の連結成分の
外接矩形を求め、外接矩形毎にその大きさや外接矩形内
の画像の特徴を用いて表領域とみなせるか否かを判定し
て、表領域を抽出していた。
〔発明が解決しようとする課題〕
従来技術においては、黒画素の連結成分毎に処理を行っ
ているが、1文字につき1個或いはそれ以上の連結成分
ができるため、文書画像では連結成分の数が非常に多く
なり、処理時間がかかると言う問題があった。また、表
領域の確認を行うためには表を形作っている線分を抽出
する必要があるが、従来技術を利用した場合には、抽出
した表領域から改めて線分を抽出する必要があった。
本発明は、この点に濡みて創作されたものであって、文
書画像の中の表領域を簡単に見つけ出すことが出来ると
共に、表領域を構成する線分をも同時に得ることが出来
る表領域抽出方式を提供することを目的としている。
〔課題を解決するための手段] 第1図は本発明の原理ブロック図を示す。同図において
、1は画像記憶手段、2は線分抽出手段、3は線分グル
ープ化手段、4は表領域決定手段をそれぞれ示している
。画像データ記憶手段1は、文書画像の画像データを記
憶する。線分抽出手段2は、文書画像データの中の線分
を抽出する。線分グループ化手段3は、抽出した線分同
士が接続しているかどうかを調べ、接続している線分群
を1つのグループにする。表領域決定手段4は、線分グ
ループ毎に表領域とみなせるかどうかを判定して表領域
を決定する。線分抽出手段2によって、文書画像中の水
平線分と垂直線分だけを抽出するようにし、これらの線
分に基づいて表領域を抽出するようにすると、より効率
的に表領域の抽出を行うことが出来る。
〔作用〕
本発明では、線分抽出手段2で抽出した線分を、線分グ
ループ化手段3でグループ化して、表領域決定手段4で
線分グループ毎に判定を行っている。
文書画像では一般に線分グループ数は連結成分数より少
ない。従って、判定処理に要する時間が短縮される。ま
た、線分抽出手段2で抽出した線分はそのまま表領域の
確認で利用できる。
(実施例] 線分抽出手段2は、線分抽出に係わる公知技術の何れで
もよいが、例えば本発明者等が以前に出願した「線分抽
出装置」 (特願昭63−046658号)を用いる。
線分抽出手段2は、文書画像中の線分を抽出し、線分の
始点の座標(X座標とX座標)と、終点の座標(X座標
とX座標)と、線分が属する線分グループを識別するた
めのグループ番号と、線分のグループ化の際に5咳線分
が処理済か否かを識別するためのフラグとから成る線分
テーブル(第2図参照)を作成する。但し、グループ番
号とフラグは、初期値としてゼロを格納する。
線分グループ化手段3は、線分テーブルに基づき後述す
る手順に従って線分をグループ化し、各線分グループの
領域の座標(X座標の最小値と最大値並びにX座標の最
小値と最大値)を格納する線分グループ・テーブル(第
3図参照)を作成する。
表領域決定手段4は、線分グループ・テーブルに基づき
線分グループ毎にその領域が表領域と見做せるかどうか
を判定し、表領域と判定されたものを出力する。ここで
、線分グループの領域が表領域と見做せるか否かの判定
は、例えば、その領域が予め設定された大きさよりも大
きいかどうかで判定する。
線分グループ化手段3による線分のグループ化の手順を
次に示す。
■ 最大グループ番号Gmを1にする。
■ 線分の中からグループ番号がOのものを選び、これ
をt4と呼ぶ。0のものがなければグループ化処理を終
了する。
■ t、gのグループ番号をGmにし、線分グループ・
テーブルのGm番目にLgの領域(LgのX座標の最小
値と最大値およびY座標の最小値と最大値)を格納する
■ 線分テーブルの中でグループ番号0の線分の全てに
ついて、Lgと接続しているか否かを調べ、もし接続し
ていれば、その線分のグループ番号をGmにし、その線
分の領域に従って線分グループテーブルの領域を更新す
る。
■ Lgのフラグを1にする。
■ 線分テーブルの中でグループ番号がGmでフラグが
Oの線分を選択し、これを新たにLgとし■へ戻る。該
当する線分がなければ、Gmに1を加算し■へ戻る。
第4図は本発明で使用される線分抽出手段の例を示す図
である。同図において、11はヒストグラム算出部、1
2はヒストグラム記憶部、13はピーク位置検出部、1
4はピーク幅算出部、15はピーク幅判定部、16はO
R画像作成部、17は線分区間決定部をそれぞれ示して
いる。
ヒストグラム算出部11は、画像データ記憶手段1に記
憶されている各画素の画像データから、抽出しようとす
る線分の方向に沿うラインの各画素の画像データを順番
に読み出し、各ライン毎に黒画素の数を計測して得た値
をヒストグラム記憶部12に格納する。
ピーク位置検出部13は、ヒストグラム記憶部12に格
納された各ラインの黒画素数を順次検出し、黒画素数が
増加から減少に転じるラインをピーク位置のラインとす
る。
ピーク幅算出部14は、上記のピーク位置のラインを中
心としてその前方及び後方のラインの黒画素数を順次調
べ、黒画素数が所定値以下のラインが現れるまでのライ
ンの数を数え、それをピーク幅として算出する。ここで
、上記の所定値は、例えばピーク位置のラインの黒画素
数の1/2とする。
ピーク幅判定部15は、ピーク幅算出部14で算出され
たピーク幅が所定値(例えば、実際の画像上で1 mm
に相当するライン数)以下であるかどうかを判定し、所
定値以下であれば、そのピーク幅に対応する先頭のライ
ンから末尾のラインまでを線分候補領域とする。
OR画像作成部16は、上記線分候補領域の先頭のライ
ンから末尾のラインまでのすべてのラインの画像データ
の論理和を算出して得たOR画像を作成する。
線分区間決定部17は、このOR画像データを線分方向
に走査し、所定値以上白画素が連続する区間をすべて求
め、それらの区間に挟まれた部分に対応する線分候補領
域中の部分領域を線分領域として決定する。ここで、連
続する白画素数の所定値は、例えば実際の画像上で2m
に相当する画素数である。
第4図の線分抽出手段によれば、実際の画像上で1鵬以
下の幅で、且つ2Mの長さ以上の白画素領域で挟まれた
実線、点線、鎖線等の線分を統一的に抽出することがで
きる。
本発明を実施するためのハードウェア構成は、例えば文
書画像を記憶するためのディスク記憶装置、線分抽出処
理と線分グループ化処理と表領域決定処理を行うマイク
ロプロセッサ及びプログラム記憶並びに線分テーブルや
線分グループ・テーブルを格納するメモリ等から構成さ
れる。
〔発明の効果] 以上の説明から明らかなように、本発明によれば、文書
画像から線分を抽出し、それらの線分のグループ化を行
い、線分グループ毎に領域の判定を行うようにしたので
、判定すべき領域数を減少させることが出来、処理時間
を短縮することができる。また、抽出した線分はその後
の表領域の認識にそのまま利用できるため、表領域の認
識時にあらためて線分を抽出する必要がない。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、第2図は本発明の1
実施例で使用される線分テーブルを示す図、第3図は本
発明の1実施例で使用される線分グループ・テーブルを
示す図、第4図は本発明で使用される線分抽出手段の例
を示す図である。 1・・・画像データ記憶手段、2・・・線分抽出手段、
3・・・線分グループ化手段、4・・・表領域決定手段
。 11・・・ヒストグラム算出部、12・・・ヒストグラ
ム記憶部、13・・・ピーク位置検出部、14・・・ピ
ーク幅算出部、15・・・ピーク幅判定部、16・・・
OR画像作成部、17・・・線分区間決定部。 特許出願人   富士通株式会社 代理人弁理士  京 谷 四 部 募金テーブル 莞2図 稗介り゛ループ・テーブル 第3図 本発明f)屑(珊しブロックル] 第1図 31審しく)・油出(デ・ト邊リシン]12シリ第4図

Claims (2)

    【特許請求の範囲】
  1. (1)文字や図、表、写真等が混在する文書画像から表
    領域を抽出する表領域抽出方式において、文書画像の画
    像データを記憶する画像データ記憶手段(1)と、 画像データ記憶手段(1)の文書画像中の線分を抽出す
    る線分抽出手段(2)と、 線分抽出手段(2)によって抽出された線分を、接続し
    ている線分群毎にグループ化する線分グループ化手段(
    3)と、 線分グループ化手段(3)によって得られた線分グルー
    プ毎に表領域とみなせるか否かを判定し、表領域を決定
    する表領域決定手段(4)と を備えたことを特徴とする表領域抽出方式。
  2. (2)前記線分抽出手段(2)は、文書画像中の水平線
    分および垂直線分だけを抽出するようにしたことを特徴
    とする請求項(1)記載の表領域抽出方式。
JP63216174A 1988-08-30 1988-08-30 表領域抽出方式 Pending JPH0264781A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63216174A JPH0264781A (ja) 1988-08-30 1988-08-30 表領域抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63216174A JPH0264781A (ja) 1988-08-30 1988-08-30 表領域抽出方式

Publications (1)

Publication Number Publication Date
JPH0264781A true JPH0264781A (ja) 1990-03-05

Family

ID=16684448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63216174A Pending JPH0264781A (ja) 1988-08-30 1988-08-30 表領域抽出方式

Country Status (1)

Country Link
JP (1) JPH0264781A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012005117A (ja) * 2010-06-21 2012-01-05 Toshiba Corp 画像処理システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012005117A (ja) * 2010-06-21 2012-01-05 Toshiba Corp 画像処理システム

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JP2002024836A (ja) ディジタルイメージから表題を抽出する方法
JP2006067585A (ja) デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置
CN111695550A (zh) 一种文字提取方法、图像处理设备和计算机可读存储介质
JPH0264781A (ja) 表領域抽出方式
CN114267035A (zh) 一种文档图像处理方法、系统、电子设备及可读介质
JP3585143B2 (ja) 文字列抽出方法および装置
CN107680046A (zh) 影像矫正方法、装置、存储介质和计算机设备
JP2803735B2 (ja) 罫線を含んだ文字認識装置
CN115908854A (zh) 一种图像匹配方法及装置
CN115049837A (zh) 特征图干扰去除方法和包含该方法的屏摄水印识别方法
JPH0528260A (ja) 輪郭ベクトル抽出方式
JPH0261775A (ja) 表画像認識方式
JP2002074265A (ja) テロップパターン認識装置
JPH06215181A (ja) 文字・文字列切り出し方法および文字認識装置
CN116912849A (zh) 文档恢复方法、装置、电子设备及存储介质
CN117854090A (zh) 一种通用表格的识别方法及装置
JPH02166583A (ja) 文字認識装置
JPH03219384A (ja) 文字認識装置
JPH04154368A (ja) 文書画像の領域分割方式
JPH0628523A (ja) 特徴抽出方法
JPH05128305A (ja) 領域分割方法
JPH05189604A (ja) 光学的文字読取装置
JPS63226791A (ja) 文字の特徴抽出装置