JPH04288693A - 文書画像の領域分割方法 - Google Patents

文書画像の領域分割方法

Info

Publication number
JPH04288693A
JPH04288693A JP3052846A JP5284691A JPH04288693A JP H04288693 A JPH04288693 A JP H04288693A JP 3052846 A JP3052846 A JP 3052846A JP 5284691 A JP5284691 A JP 5284691A JP H04288693 A JPH04288693 A JP H04288693A
Authority
JP
Japan
Prior art keywords
image
area
document image
region
black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3052846A
Other languages
English (en)
Other versions
JP2771045B2 (ja
Inventor
Akitoshi Tsukamoto
明利 塚本
Sadamasa Hirogaki
広垣 節正
Naohiro Amamoto
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3052846A priority Critical patent/JP2771045B2/ja
Publication of JPH04288693A publication Critical patent/JPH04288693A/ja
Application granted granted Critical
Publication of JP2771045B2 publication Critical patent/JP2771045B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ファクシミリ等の通信
機器や文書画像データベース入力装置、光学的文字読取
り装置(OCR)等において、文書画像をその構成要素
の領域に分割する文書画像の領域分割方法に関するもの
である。
【0002】
【従来の技術】従来、この種の文書画像の領域分割方法
には、例えば、特開昭62−71379号公報に記載さ
れるものがあった。
【0003】この文献に記載された文書画像の領域分割
方法では、文書画像データを入力し、走査方向(例えば
、横方向)に黒画素を計数して閾値を超えるラインを検
出し、該計数値が閾値以下の白ラインが所定個数連続す
る状態を判定して第1の領域切り出しを行う。この第1
の領域切り出し内で、副走査方向(例えば、縦方向)に
黒画素を計数して該計数値が閾値を超える列を検出し、
該計数値が閾値以下の白列が所定個数連続する状態を判
定して第2の領域切り出しを行う。
【0004】さらに、第2の領域切り出し内で、第1の
領域切り出しと同様な処理により、第3の領域切り出し
を行い、この第3の領域切り出し内で、第2の領域切り
出しと同様な処理により、第4の領域切り出しを行う。 そこで、この第4の領域切り出しで検出された領域につ
いて、その領域のランレングス情報、及び黒画素率情報
により、文字部、写真部、及び図表部の領域の属性を判
別している。
【0005】
【発明が解決しようとする課題】しかしながら、上記構
成の文書画像の領域分割方法では、次のような課題があ
った。
【0006】(a)従来の方法では、領域を分割する際
に、その分割対象に応じて様々な閾値を任意に設定する
必要があった。例えば、個々の論文誌に対して領域分割
処理を施す場合、それらの閾値を各論文誌に応じた適切
な値に設定し直さなければならず、その値の選定に手間
がかかるという問題があった。
【0007】(b)前記(a)の問題を解決するため、
本願出願人は、先に特開平1−264649号明細書に
おいて、領域分割方法の提案を行った。
【0008】図2は、文書画像の一例を示す図であり、
文字列1、図・写真・表2等が記載されている。本願出
願人が先に行った提案では、図2のような文書画像デー
タを入力して横方向及び縦方向の走査を2回繰り返して
行い、「黒」画素の存在しない行及び列で画像を分割す
る。そして、文字領域のものに対しては、それらを統合
するより、構成要素の領域を得るようにしている。
【0009】しかし、このような領域の分割方法では、
画像を行方向及び列方向に走査し、「黒」画素の存在し
ない行及び列で画像を分割してゆく。そのため、例えば
図2の上半部のように複雑なレイアウトの文書や、図2
の下半部のように枠3に囲まれた部分では、全ての行及
び列に「黒」画素が存在するので、「黒」画素の存在し
ない行や列で分割を行うことができず、技術的に未だ充
分満足のゆくものが得られなかった。
【0010】本発明は、前記従来技術が持っていた課題
として、閾値設定を煩雑化することなく、複雑なレイア
ウトの文書等を精度良く領域分割することが困難である
点について解決した文書画像の領域分割方法を提供する
ものである。
【0011】
【課題を解決するための手段】本発明は、前記課題を解
決するために、文書画像を文字列、図、写真、フィール
ドセパレータ、表等の構成要素に領域分割する文書画像
の領域分割方法において、前処理、領域画像作成処理、
及びラベル付け処理を行うようにしている。
【0012】即ち、前処理では、前記文書画像を2値化
して2値文書画像を作成すると共に、前記文書画像に基
づき全面「黒」の多値領域画像を作成する。領域画像作
成処理では、前記2値文書画像を横方向及び縦方向に走
査して閾値以上の長さの白ランを検出し、その白ランに
対応する前記多値領域画像の部分を「白」にすることに
より、前記構成要素の領域を「黒」連結領域として表現
した領域画像を作成する。ラベル付け処理では、前記領
域画像の「黒」の部分に対してラベル付けを行い、前記
各構成要素に対して一意に番号を与えたラベル画像を作
成する。
【0013】
【作用】本発明によれば、以上のように文書画像の領域
分割方法を構成したので、前処理において、入力文書画
像から2値文書画像及び多値領域画像が作成される。そ
して、領域画像作成処理において、2値文書画像に含ま
れる横方向及び縦方向の長い白ランを検出し、その白ラ
ンに対応する多値領域画像の部分を「白」にすることに
より、文字列、図、写真、フィールドセパレータ、表等
の構成要素の領域を「黒」連結領域として表現した領域
画像が作成される。次に、ラベル付け処理において、領
域画像に対しラベル付け処理が行われ、各構成要素に対
して一意に番号を与えたラベル画像が作成される。その
ため、同一構成要素の領域は、前記ラベル画像における
同一ラベル値を持つ画素の集合として表現される。従っ
て、前記課題を解決できるのである。
【0014】
【実施例】図1は、本発明の実施例を示す文書画像の領
域分割方法の処理内容図である。この文書画像の領域分
割方法は、前処理10と、領域画像作成処理20と、ラ
ベル付け処理30とで、構成されている。
【0015】前処理10では、文書画像を適当な閾値で
2値化して2値文書画像11を作成すると共に、該文書
画像に基づき全面が「黒」である多値領域画像12を作
成しておく。この前処理10では、原文書画像を適当な
倍率で縮小しておくことも可能である。
【0016】このような前処理10が行われると、領域
画像作成処理20では、2値文書画像11に対して横方
向及び縦方向に走査し、構成要素が存在する領域を連結
「黒」領域として表現する領域画像22の作成を行う。 ラベル付け処理30では、領域画像22の「黒」の部分
に対してラベル付け31を行い、ラベル画像32を作成
する。
【0017】次に、図1の領域画像作成処理20、及び
ラベル付け処理30を、図3〜図6を参照しつつ説明す
る。
【0018】なお、図3は図1の領域画像作成処理20
のフローチャート、図4(a)〜(d)は図1の領域画
像作成処理例を示す図、図5(a)〜(f)は図1のラ
ベル付け処理例を示す図、及び図6(1)〜(4)は図
5(b)〜(d)の説明図である。
【0019】図3に示すように、領域画像作成処理20
では、ステップS11において、図4(a)に示すよう
な文書画像を横方向に走査し、閾値T1以上の長さの白
ランが存在するか否かを判定する。閾値T1以上の長さ
の白ランが存在すれば、ステップS12では、多値領域
画像12においてその白ランに対応する部分を「白」に
する。図4(b)は、同図(a)の文書画像の一部につ
いてステップS12の処理を行った時の領域画像である
。このようなステップS11,S12の処理を全ての行
について行った時、領域画像が図4(c)のようになる
【0020】さらに、ステップS11において、図4(
a)に示す文書画像の列について縦方向に走査し、閾値
T2以上の長さの白ランが存在するか否かの判定を行う
。閾値T2以上の長さの白ランが存在すれば、ステップ
S12では、多値領域画像12においてその白ランに対
応する部分を「白」にする。
【0021】以上のような処理を、ステップS10にお
いて各行及び各列について繰り返し、それらの処理がス
テップS20で終了すれば、図4(d)に示す領域画像
のように、文書画像の構成要素が存在する領域が、「黒
」画素連結領域として表現される。
【0022】この領域画像作成処理20において、閾値
T1,T2の値は、文書画像のレイアウトの複雑さによ
って変動するが、実際の文書について行った本実施例の
実験結果によると、縦書き文書の場合は閾値T1,T2
共に20mm、横書き文書の場合は閾値T1,T2共に
10mmが適当であることが得られている。
【0023】次に、ラベル付け処理30を説明する。
【0024】このラベル付け処理30では、図5(a)
に示すような構成要素の領域画像を2回走査する。1回
目の走査時には、図5(b)に示すように、各「黒」画
素に仮ラベル値を与える。この仮ラベル値は、その「黒
」画素の直上、左隣の画素の値によって次の(1)〜(
4)のように決められる。
【0025】(1)  直上の画素だけが「黒」のとき
:その画素の仮ラベル値と同じ値 (2)  左隣の画素だけが「黒」のとき:その画素の
仮ラベル値と同じ値 (3)  直上の画素も左隣の画素も「白」のとき:新
しい値 (4)  直上の画素も左隣の画素も「黒」のとき:直
上の画素の仮ラベル値と同じ値 また、この(4)の場合で、直上の画素と左隣の画素と
で与えられている仮ラベル値が異なる場合には、同一「
黒」連結領域に異なった仮ラベル値が与えられているの
で、図5(c)に示すように、ラベル値変換テーブルに
登録を行う。
【0026】1回目の走査終了後、各「黒」画素連結領
域に対して一意に番号が与えられるように、ラベル値変
換テーブルに対して図5(c)〜(d)に示すような操
作を行う。
【0027】即ち、図5(b)のように、画素に仮ラベ
ル値を与えるとき、例えば図(6)(1)のような状態
の注目画素Zに対しては、領域Aと同じラベル値を与え
ると同時に、領域Bが領域Aと接していることを示すた
め、図6(2)に示すテーブルの領域Bの同一ラベル値
としてAを登録する。ところが、領域AとCが接してい
る場合、Bの同一ラベル値はCである必要がある。この
ことは、テーブルのAの同一ラベル値にCが登録されて
いることにより得られるので、図(6)(3)に示すよ
うに、このCの値をBの同一ラベル値に与える処理を行
う。この書き換えが終了すると、連続する黒領域は全て
同一ラベル値を持つようになるが、仮ラベル値がとびと
びの値をもつことになるため、図6(4)に示すように
、同一ラベル値ごとに通し番号をつける。このような処
理により、図5(d)に示すラベル値変換テーブルを得
る。
【0028】次に、領域画像に対して2回目の走査を行
いながら、各「黒」画素に与えられた仮ラベル値とラベ
ル値変換テーブル(図5(d))の値に基づき、図5(
e)に示すように、各画素にラベル値の付け直しを行う
。つまり、ラベル値変換テーブル(図5(d))は、連
続する黒領域に対して同じラベル値を与えており、また
ラベル値が通し番号として与えられているので、この変
換テーブルに従ってラベル値を付けてゆくと、図5(e
)のようなラベル値になる。このようなラベル値の付け
直しを行うことにより、図5(f)に示すようなラベル
画像32が作成される。
【0029】このラベル付け処理30により、領域画素
の各「黒」連結領域に一意に番号が与えられ、構成要素
の領域がラベル画像32において同一ラベル値を持つ画
素の集合として表現される。このラベル画像32を参照
することにより、所望する構成要素の領域を得ることが
できる。
【0030】以上のように、本実施例では、文書画像の
構成要素の領域をラベル画像32によって表現すること
により、文書画像のレイアウトが複雑であっても、構成
要素の存在する領域を正確に表現できる。しかも、文書
画像の構成要素の領域を領域画像22を用いて表現し、
さらにそれに対してラベル付け処理30を行っているの
で、複雑なレイアウトの文書でも的確な領域分割が行わ
れ、所望する構成要素の領域を精度良く得ることができ
る。
【0031】なお、本発明は上記実施例に限定されず、
種々の変形が可能である。その変形例としては、例えば
次のようなものがある。
【0032】(i)図1の各処理10,20,30は、
集積回路等の個別回路で構成した装置で実行したり、あ
るいはコンピュータを用いたプログラム制御等により実
行するようにしてもよい。
【0033】(ii)図1のラベル付け処理30は、上
記実施例に限定されず、例えば、電子情報通信学会技術
研究報告IE78−10(1978)未永著「連結領域
のぬりつぶし及び番号づけに関する一考察」P.39−
40の文献に記載された等価テーブル法等といった種々
のラベル付け方法を用いることができる。
【0034】
【発明の効果】以上詳細に説明したように、本発明によ
れば、ラベル付け処理により、文書画像の構成要素の領
域をラベル画像によって表現するようにしたので、レイ
アウトが複雑であっても、構成要素の存在する領域を正
確に表現できる。しかも、領域画像作成処理において、
文書画像の構成要素の領域を領域画像を用いて表現し、
さらにラベル付け処理を行うようにしているので、複雑
なレイアウト等の文書でも、的確に領域分割を行い、所
望する構成要素の領域を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施例を示す文書画像の領域分割方法
の処理内容図である。
【図2】文書画像の例を示す図である。
【図3】図1における領域画像作成処理のフローチャー
トである。
【図4】図1における領域画像作成処理の例を示す図で
ある。
【図5】図1におけるラベル付け処理の例を示す図であ
る。
【図6】図5の(b)〜(d)の説明図である。
【符号の説明】
10    前処理 11    2値文書画像 12    多値領域画像 20    領域画像作成処理 21    横方向及び縦方向走査 22    領域画像 30    ラベル付け処理 31    ラベル付け 32    ラベル画像

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  文書画像をその構成要素の領域に分割
    する文書画像の領域分割方法において、前記文書画像を
    2値化して2値文書画像を作成すると共に、前記文書画
    像に基づき全面「黒」の多値領域画像を作成する前処理
    と、前記2値文書画像を横方向及び縦方向に走査して閾
    値以上の長さの白ランを検出し、その白ランに対応する
    前記多値領域画像の部分を「白」にすることにより、前
    記構成要素の領域を「黒」連結領域として表現した領域
    画像を作成する領域画像作成処理と、前記領域画像の「
    黒」の部分に対してラベル付けを行い、前記各構成要素
    に対して一意に番号を与えたラベル画像を作成するラベ
    ル付け処理とを、実行することを特徴とする文書画像の
    領域分割方法。
JP3052846A 1991-03-18 1991-03-18 文書画像の領域分割方法 Expired - Lifetime JP2771045B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3052846A JP2771045B2 (ja) 1991-03-18 1991-03-18 文書画像の領域分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3052846A JP2771045B2 (ja) 1991-03-18 1991-03-18 文書画像の領域分割方法

Publications (2)

Publication Number Publication Date
JPH04288693A true JPH04288693A (ja) 1992-10-13
JP2771045B2 JP2771045B2 (ja) 1998-07-02

Family

ID=12926210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3052846A Expired - Lifetime JP2771045B2 (ja) 1991-03-18 1991-03-18 文書画像の領域分割方法

Country Status (1)

Country Link
JP (1) JP2771045B2 (ja)

Also Published As

Publication number Publication date
JP2771045B2 (ja) 1998-07-02

Similar Documents

Publication Publication Date Title
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JP2000175038A (ja) 領域ベ―スのイメ―ジ2値化システム
KR0167616B1 (ko) 화상 처리 장치 및 방법
EP0600613A2 (en) Improvements in image processing
US8295602B2 (en) Image processing apparatus and image processing method
JPH04288693A (ja) 文書画像の領域分割方法
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
JPH1040312A (ja) 帳票画像作成装置
JP2786355B2 (ja) 文章画像の属性判別方法
JP2993007B2 (ja) 画像領域識別装置
JPH0362177A (ja) 画像処理装置
JPH08221512A (ja) 画像処理装置及びその方法
JP2002236921A (ja) 文書画像認識方法、文書画像認識装置及び記録媒体
JP2881066B2 (ja) 文章画像の属性判別方法
JP3783815B2 (ja) 画像処理装置
JPH0660220A (ja) 文書画像の領域抽出方法
JP2800192B2 (ja) 高速文字図形分離装置
KR940010474B1 (ko) 화질 개선 방법
JP4409678B2 (ja) 罫線抽出方式
KR100334624B1 (ko) 클러스터링기반문서영상분할방법
JP2800205B2 (ja) 画像処理装置
JP2003317107A (ja) 罫線抽出方法及び装置
JP6442846B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JPH0522598A (ja) 画像入力装置
JP3086277B2 (ja) 文書画像処理装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980407