JPH0660220A - 文書画像の領域抽出方法 - Google Patents

文書画像の領域抽出方法

Info

Publication number
JPH0660220A
JPH0660220A JP4211659A JP21165992A JPH0660220A JP H0660220 A JPH0660220 A JP H0660220A JP 4211659 A JP4211659 A JP 4211659A JP 21165992 A JP21165992 A JP 21165992A JP H0660220 A JPH0660220 A JP H0660220A
Authority
JP
Japan
Prior art keywords
area
cell
region
processing
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4211659A
Other languages
English (en)
Inventor
Naohiro Amamoto
直弘 天本
Akitoshi Tsukamoto
明利 塚本
Sadamasa Hirogaki
節正 広垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP4211659A priority Critical patent/JPH0660220A/ja
Publication of JPH0660220A publication Critical patent/JPH0660220A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 特定の閾値を用いることなく、罫線で区切ら
れた表内部の領域を正しく抽出する。 【構成】 領域抽出処理10により、文書画像から文字
領域や表領域といった領域を抽出する。抽出され表領域
について、ラベル付け処理20によって原画像を走査
し、白画素領域にラベル付けを行う。外接矩形抽出処理
30では、ラベル付け処理20によってラベル付けされ
た領域の外接矩形の座標を求める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ファクシミリ等の通信
機器や文書画像データベース入力装置、光学的文字読取
り装置(OCR)等において、文書画像をその構成要素
の領域に抽出する文書画像の領域抽出方法に関するもの
である。
【0002】
【従来の技術】従来、この種の文書画像の領域抽出方法
には、例えば、特開昭62−71379号公報に記載さ
れるものがあった。この文献に記載された文書画像の領
域抽出方法では、文書画像データを入力し、走査方向
(例えば、横方向)に黒画素を計数して閾値を超えるラ
インを検出し、該計数値が閾値以下の白ラインが所定個
数連続する状態を判定して第1の領域切り出しを行う。
この第1の領域切り出し内で、副走査方向(例えば、縦
方向)に黒画素を計数して該計数値が閾値を超える列を
検出し、該計数値が閾値以下の白列が所定個数連続する
状態を判定して第2の領域切り出しを行う。
【0003】さらに、第2の領域切り出し内で、第1の
領域切り出しと同様な処理により、第3の領域切り出し
を行い、この第3の領域切り出し内で、第2の領域切り
出しと同様な処理により、第4の領域切り出しを行う。
そこで、この第4の領域切り出しで検出された領域につ
いて、その領域のランレングス情報、及び黒画素率情報
により、文字領域、写真領域、及び表領域等の領域の属
性を判別している。
【0004】
【発明が解決しようとする課題】しかしながら、上記構
成の文書画像の領域抽出方法では、次のような課題があ
った。 (a)従来の方法では、領域を分割して抽出する際に、
その分割対象に応じて様々な閾値を任意に設定する必要
があった。例えば、個々の論文誌に対して領域分割処理
を施す場合、それらの閾値を各論文誌に応じた適切な値
に設定し直さなければならず、その値の選定に手間がか
かるという問題があった。 (b)前記(a)の問題を解決するため、本願出願人
は、先に特願平3−52846号明細書(提案1)、及
び特願平3−195437号明細書(提案2)におい
て、領域抽出方法の提案を行った。 提案1では、先ず、入力された白黒2値画像データと同
サイズの全面黒の多値の領域画像を作成する。次に、原
画像を横及び縦方向に走査し、各々の方向で閾値T1,
T2以上の白ランが存在すれば領域画像においてその白
ランに対応する部分を白にして、文書画像の構成要素を
黒画素連結領域として表現する。この領域画像の各黒連
結領域に対してラベル付けを行い、領域画像の各黒連結
領域に一意に番号を与えてラベル画像を作成し、このラ
ベル画像を用いて領域分割を行うというものであった。
【0005】ところが、この方法では、文字領域が行単
位もしくは文字単位といった小さな領域でしか表現する
ことができず、文字認識を行う際に文書の構成や、文章
のつながり等を知ることが困難である。そこで、この欠
点を除去するため、提案2では、前記領域分割後に、さ
らに、文字領域について白ラン幅ヒストグラムにより統
合閾値を求め、その統合閾値を用いて統合を行うように
している。しかし、この方法では図2(a),(b)の
ような問題が生じる。図2(a),(b)は、先の提案
2の問題点を説明する図である。先の提案2の方法で
は、閾値T1,T2以上の白ランが存在しない領域、つ
まり図2(a)の表領域Aのように、罫線で細かく区切
られ文字の周囲に十分な白領域が存在しない領域につい
ては、その領域画像Bが図2(b)に示すように黒画素
で塗り潰された画像になり、正しく領域を抽出すること
ができず、未だ技術的に十分満足のゆく領域抽出方法が
得られなかった。本発明は、前記従来技術が持っていた
課題として、読取り時の解像度や表の構成によっては、
表領域内の罫線で区切られた個々の領域(これをセルと
いう)内の要素を正確に抽出することができないという
点について解決し、特定の閾値を用いることなく、罫線
で区切られた表内部の領域を正しく抽出できる文書画像
の領域抽出方法を提供するものである。
【0006】
【課題を解決するための手段】第1の発明は、前記課題
を解決するために、領域抽出処理によって文書画像から
文字領域や表領域といった領域を抽出する文書画像の領
域抽出方法において、ラベル付け処理により、前記表領
域について原画像を走査し、白画素領域にラベル付けを
行い、外接矩形抽出処理により、前記ラベル付け処理に
よってラベル付けされた領域の外接矩形の座標を求める
ようにしている。第2の発明では、第1の発明のラベル
付け処理において、前記表領域内の罫線で区切られた領
域であるセルに対して、同一の該セル内に複数のラベル
が付けられた場合、該ラベルの包含関係によって該セル
内の全ての白画素に同じラベルを付するようにしてい
る。第3の発明では、第1の発明の外接矩形抽出処理に
おいて、前記表領域内の罫線で区切られた領域であるセ
ルに対して、各々の該セルの外接矩形内部を走査し、該
セルの中の要素を囲む最小の外接矩形の座標を求めるよ
うにしている。
【0007】
【作用】第1の発明によれば、以上のように文書画像の
領域抽出方法を構成したので、領域抽出処理によって文
書画像から文字領域や表領域等が抽出される。ラベル付
け処理では、抽出された表領域(表全体の外接矩形内部
領域)について原画像を走査し、白画素領域にラベル付
けを行い、表領域内の罫線で区切られた個々の領域(セ
ル)に一意に番号を与えることにより、外接矩形抽出処
理によって領域分割を行う 第2の発明によれば、ラベル付け処理において、同一の
セル内に複数のラベルが付けられた場合、ラベルの包含
関係からそのセル内の全ての白画素に同一のラベルを付
け、ラベル付けの修正を行う。第3の発明によれば、外
接矩形抽出処理において、ラベル付けされた各々のセル
の外接矩形内部を走査し、そのセルの中の要素を囲む最
小の外接矩形を求める。これにより、表を構成するセル
内の構成要素の抽出が行える。従って、前記課題を解決
できるのである。
【0008】
【実施例】本発明の実施例を示す領域抽出方法の処理全
体説明(I)と、その各処理内容(II)とを、図1、図
3、及び図4を参照しつつ、以下説明する。
【0009】 (I) 領域抽出方法の処理全体説明(図1) 図1は、領域抽出方法の全体の処理内容を示す図であ
る。本実施例の領域抽出方法では、例えば先の提案2に
記載された領域抽出処理10により、抽出対象となる文
書画像から文字領域や表領域といった領域の外接矩形を
求める。次に、ラベル付け処理20により、領域抽出処
理10で抽出された表領域の外接矩形内部を原画像につ
いて走査し、白画素領域にラベル付けを行う。その後、
外接矩形抽出処理30により、ラベル付け処理20でラ
ベル付けされたセル内部の要素の外接矩形の座標を求
め、処理を終了する。
【0010】(II) 前記(I)の各処理内容 (II)(1)領域抽出処理10(図1) 図1の領域抽出処理10では、先ず、領域画像作成処理
11により、全面黒の領域画像と原画像から文書画像の
構成要素を黒画素連結領域として表現した領域画像を作
成し、ラベル画像作成処理12により、該領域画像の構
成要素に一意に番号を与えたラベル画像を作成する。次
に、このラベル画像から文字画像作成処理13で、文字
領域以外の領域を全て白にした文字画像を作成し、この
文字画像を走査して統合閾値設定処理14により、統合
閾値を設定する。この統合閾値を使用して領域抽出処理
15により、文字領域や表領域等といった領域の抽出を
行う。
【0011】 (II)(2)ラベル付け処理20(図3、図4) 図3は図1のラベル付け処理20を行った処理結果の例
を示す図、及び図4(a),(b)は図1のラベル付け
の例を示す図である。図1のラベル付け処理20では、
図1の領域抽出処理10の領域分割方法で抽出された表
領域について原画像を走査し、白領域に番号付けを行
う。このラベル付け処理20は、ラベル画像作成処理1
2で黒画素に対して行っていた処理を、白画素に対して
行うように変更するだけで、容易に実現できる。なお、
セル内部に例えば「口」のような文字が存在する場合、
ラベル付け処理20により、図4(a)のように、
「口」の中の白画素には外の白画素とは違ったラベルが
付けられるが、ラベルの包含関係により、図4(b)の
ように、セル内部の全ての白画素に対して同一のラベル
を付けて修正することにより、図3のような処理結果を
得ることができる。
【0012】 (II)(3)外接矩形抽出処理30(図5) 図5(a)〜(c)は、図1の外接矩形抽出処理30を
説明する図である。図1の外接矩形抽出処理30では、
先ず、図5(a)のようにラベル付けされたセルの各々
の外接矩形の座標を、図5(b)のように求める。次
に、得られた外接矩形内部を走査し、図5(c)のよう
に、セル内にある要素(黒画素)を囲む最小の外接矩形
の座標を求め、処理を終了する。このような処理を行う
ことにより、表を構成するセル内の構成要素の抽出が行
える。以上のように、本実施例では、領域抽出処理10
で抽出された表領域に対してラベル付け処理20でラベ
ル付けを行い、その後、外接矩形抽出処理30で、ラベ
ル付けされたセル内部の要素の外接矩形を求めるように
している。この際、閾値を全く用いないため、読取り時
の解像度や、表の構成に影響されることなく、その表を
構成するセル内部の要素を正確に抽出することができ
る。また、ラベル付け処理20において、同一のセル内
に複数のラベルが付けられた場合、ラベルの包含関係に
より、該セル内の全ての白画素に同一のラベルを付ける
ことにより、精度の良い、ラベル付け処理結果が得られ
る。さらに、外接矩形抽出処理30において、各々のセ
ルの外接矩形内部を走査し、そのセルの中の要素を囲む
最小の外接矩形の座標を求めることにより、表領域を構
成するセル内の要素を正確に抽出することができる。な
お、本発明は上記実施例に限定されず、例えば、領域抽
出処理10を先の提案2を用いずに、従来の他の領域分
割方法を用いて表領域を抽出する等、種々の変形が可能
である。
【0013】
【発明の効果】以上詳細に説明したように、第1の発明
によれば、領域抽出処理で抽出された表領域について、
ラベル付け処理によって白画素領域にラベル付けを行
い、外接矩形抽出処理により、ラベル付けされた領域の
外接矩形の座標を求めるようにしている。この際、閾値
を全く用いないため、読取り時の解像度や、表の構成に
影響されることなく、その表を構成するセル内の要素を
正確に抽出することができる。第2の発明では、ラベル
付け処理において、同一のセル内に複数のラベルが付け
られた場合、そのラベルの包含関係によってセル内の全
ての白画素に同一のラベルを付すようにしたので、ラベ
ル付けの誤りが修正されて精度の良い、ラベル付け処理
結果が得られる。第3の発明によれば、外接矩形抽出処
理において、各々のセルの外接矩形内部を走査し、その
セルの中の要素を囲む最小の外接矩形の座標を求めるよ
うにしたので、表を構成するセル内の要素をより正確に
抽出ことができる。
【図面の簡単な説明】
【図1】本発明の実施例を示す文書画像の領域抽出方法
の処理内容図である。
【図2】先の提案2の問題点を説明する図である。
【図3】図1のラベル付け処理結果例を示す図である。
【図4】図1のラベル付け例を示す図である。
【図5】図1の外接矩形抽出処理の説明図である。
【符号の説明】
10 領域抽出処理 11 領域画像作成処理 12 ラベル画像作成処理 13 文字画像作成処理 14 統合閾値設定処理 15 領域抽出処理 20 ラベル付け処理 30 外接矩形抽出処理

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 領域抽出処理によって文書画像から文字
    領域や表領域といった領域を抽出する文書画像の領域抽
    出方法において、 ラベル付け処理により、前記表領域について原画像を走
    査し、白画素領域にラベル付けを行い、 外接矩形抽出処理により、前記ラベル付け処理によって
    ラベル付けされた領域の外接矩形の座標を求めることを
    特徴とする文書画像の領域抽出方法。
  2. 【請求項2】 前記ラベル付け処理では、前記表領域内
    の罫線で区切られた領域であるセルに対して、同一の該
    セル内に複数のラベルが付けられた場合、該ラベルの包
    含関係によって該セル内の全ての白画素に同じラベルを
    付することを特徴とする請求項1記載の文書画像の領域
    抽出方法。
  3. 【請求項3】 前記外接矩形抽出処理では、前記表領域
    内の罫線で区切られた領域であるセルに対して、各々の
    該セルの外接矩形内部を走査し、該セルの中の要素を囲
    む最小の外接矩形の座標を求めることを特徴とする請求
    項1記載の文書画像の領域抽出方法。
JP4211659A 1992-08-07 1992-08-07 文書画像の領域抽出方法 Withdrawn JPH0660220A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4211659A JPH0660220A (ja) 1992-08-07 1992-08-07 文書画像の領域抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4211659A JPH0660220A (ja) 1992-08-07 1992-08-07 文書画像の領域抽出方法

Publications (1)

Publication Number Publication Date
JPH0660220A true JPH0660220A (ja) 1994-03-04

Family

ID=16609466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4211659A Withdrawn JPH0660220A (ja) 1992-08-07 1992-08-07 文書画像の領域抽出方法

Country Status (1)

Country Link
JP (1) JPH0660220A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148719A (ja) * 2005-11-28 2007-06-14 Fuji Xerox Co Ltd 画像処理装置、方法及びプログラム
CN110309746A (zh) * 2019-06-21 2019-10-08 国网辽宁省电力有限公司鞍山供电公司 无通信互联的高等级信息安全区表格数据信息提取方法
US10550211B2 (en) 2014-01-28 2020-02-04 Japan Polyethylene Corporation Process for producing ethylene/unsaturated carboxylic acid copolymer, and said copolymer

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148719A (ja) * 2005-11-28 2007-06-14 Fuji Xerox Co Ltd 画像処理装置、方法及びプログラム
US10550211B2 (en) 2014-01-28 2020-02-04 Japan Polyethylene Corporation Process for producing ethylene/unsaturated carboxylic acid copolymer, and said copolymer
CN110309746A (zh) * 2019-06-21 2019-10-08 国网辽宁省电力有限公司鞍山供电公司 无通信互联的高等级信息安全区表格数据信息提取方法

Similar Documents

Publication Publication Date Title
US7170647B2 (en) Document processing apparatus and method
US7965892B2 (en) Image processing apparatus, control method thereof, and program
US8306325B2 (en) Text character identification system and method thereof
US6393150B1 (en) Region-based image binarization system
US7321688B2 (en) Image processor for character recognition
JPH05233873A (ja) 領域分割方法
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
US7327881B2 (en) Image reading apparatus
US6269186B1 (en) Image processing apparatus and method
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
JPH0660220A (ja) 文書画像の領域抽出方法
US6983077B2 (en) Image processor
US8295602B2 (en) Image processing apparatus and image processing method
JPH1040312A (ja) 帳票画像作成装置
JP4116377B2 (ja) 画像処理方法および画像処理装置
JP2993007B2 (ja) 画像領域識別装置
JP2771045B2 (ja) 文書画像の領域分割方法
JP2789622B2 (ja) 文字/図形領域判定装置
JPH05128306A (ja) 文章画像の属性判別方法
JP3020293B2 (ja) 属性判別方法
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JPH0660221A (ja) 文書画像の領域抽出方法
JPH0520455A (ja) 画像処理方法
JP2789647B2 (ja) 線画像認識方法
JPH0535914A (ja) 画像傾き検出方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19991102