JPH01269184A - 文書中の領域境界抽出方式 - Google Patents

文書中の領域境界抽出方式

Info

Publication number
JPH01269184A
JPH01269184A JP63097750A JP9775088A JPH01269184A JP H01269184 A JPH01269184 A JP H01269184A JP 63097750 A JP63097750 A JP 63097750A JP 9775088 A JP9775088 A JP 9775088A JP H01269184 A JPH01269184 A JP H01269184A
Authority
JP
Japan
Prior art keywords
area
histogram
document
black pixels
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63097750A
Other languages
English (en)
Other versions
JPH07111738B2 (ja
Inventor
Jun Sato
純 佐藤
Satoshi Sei
清 里至
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63097750A priority Critical patent/JPH07111738B2/ja
Publication of JPH01269184A publication Critical patent/JPH01269184A/ja
Publication of JPH07111738B2 publication Critical patent/JPH07111738B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 文書中の文字、図形、表及び写真等の記vi領域を自動
的に抽出する文書読取装置において、該記’R’pH域
の境界を確実に検出する文書中の領域境界抽出方式に関
し、 各領域の境界を正確に抽出することを目的とし、文書を
読取って二値化したデータとして画像メモリに格納し、
画像メモリに格納したデータから、文書上における縦及
び横方向の黒画素の分布状態を示すヒストグラムを作成
して、各文字、図形、表及び写真等の各記載領域を夫々
区分して抽出する文書読取装置であって、ヒストグラム
が示す黒画素の分布量が少ない部分を検出するための最
小値から最大値までの複数の比較値を持つ第1の閾値と
、黒画素の分布量が少ない部分の広さを検出するための
最大値から最小値までの複数の比較値を持つ第2の閾値
を設定したパラメータテーブルと、この設定した第1と
第2の閾値を用いて、ヒストグラムが示す黒画素の分布
量が少ない部分の文書上の位置を検出して記載領域間の
境界と判定する手段とを設け、パラメータテーブルに設
定された第1の閾値と第2の閾値とを組合わせ、ヒスト
グラムが示す黒画素の分布量が少ない部分を抽出する動
作を繰り返し、抽出された部分の文書上における位置を
記載領域の境界とするように構成する。
〔産業上の利用分野〕
本発明は文書中の文字、図形、表及び写真等の記載領域
を自動的に抽出する文書読取装置に係り、特に該記!!
領域の境界を確実に検出することを可能とする文書中の
領域境界抽出方式に関する。
印刷文書の中には、文字列の外に図形、表及び写真等が
混在しているが、印刷文書読取装置は、この文字列が記
載されている領域、図形の記載されている領域、表の記
載されている領域、写真の記載されている領域等を夫々
区分して読取っている。
このように各領域を区分して読取るのは、文字列であれ
ば文字を文字コードに変換するとか、図形や写真はイメ
ージデータに変換するとか、表からは統計値を収集する
とか、夫々文書を読取った後で処理する内容が異なるた
めである。
ところで、このような領域を区分するためには、各領域
の境界が確実に検出出来ることが必要である。
〔従来の技術〕
文書中の文字列、図表、写真等の記載された領域を自動
的に抽出するため、従来から種々の方法が試みられてき
た。その代表的な方法に、文書を読取って二値化して画
像メモリに格納し、この画像メモリから二値化したデー
タを読出し、文書上における縦及び横方向の黒画素の分
布状態を示すヒストグラムを作成して、黒画素の分布が
OかOに近い部分を探索する方法がある。
第6図は従来の技術を説明するブロック図で、第7図は
第6図の動作を説明する図である。
スキャナ1は図示省略した文書上を走査して文字列、図
形、表及び写真等を読取り、これを二値化して、例えば
第7図に示す如きイメージデータを画像メモリ2に格納
する。黒画素計数部3は画像メモリ2を走査して、横方
向の各画素列毎の黒画素の総計を求め、文字領域■、写
真領域■、文字領域■、■及び■に対するヒストグラム
■と、縦方向の各画素列毎の黒画素の総計を求め、文字
領域■、写真領域■、文字領域■、■及び■に対するヒ
ストグラム■とを作成し、ヒストグラムメモリ4に格納
する。
そして、ヒストグラム■と■の黒画素の分布がOか0に
近い部分を探索して、この探索で得られた部分の文書上
における位置を領域間の境界と判定する。
〔発明が解決しようとする課題〕
ヒストグラムメモリ4に格納されたヒストグラム■と■
から、文書中の文字領域■と写真領域■と文字領域■と
文字領域■と文字領域■とを夫々区分するためには、ヒ
ストグラム■と■において、黒画素の分布がOかOに近
い部分を検出する必要がある。
ヒストグラム■から文字領域■と■との境界及び文字領
域■と■との境界を示す空白部分に対応する黒画素数の
少ない部分■を検出する場合、写真領域■の黒画素数が
多いと、黒画素数の少ない空白部分に、写真領域の黒画
素数が付加されるため、本来黒画素数がOか殆どOに近
い数である筈の空白部分の検出が困難となる。
即ち、黒画素数の少ない部分■を検出することが困難と
なり、正確に文字領域■と0間の境界と、文字領域■と
0間の境界を区分することが出来ない。
又、ヒストグラム■から文字領域■■■■と写真領域0
間の境界を示す空白部分に対応する黒画素数の少ない部
分■は、比較的明確に検出出来るが、文書の地が汚れて
いる場合は、前記同様に検出が困難となり、且つ、この
境界の幅が狭い場合、文字列の行間隔との区別が困難と
なり、正確に領域間の境界を検出することが出来ないと
いう問題がある。
本発明はこのような問題点に鑑み、各領域間の境界の抽
出を行う際に、領域間の空白部分の広/狭にかかわらず
、又空白部分に地汚れ等がある場合にも、各領域の境界
を正確に抽出することを目的としている。
〔課題を解決するための手段〕
第1図は本発明の原理ブロック図で、第2図は第1図の
動作を説明する図である。
第1図は第6図に判定手段5とパラメータテーブル6を
追加したものである。第6図で説明した如く、ヒストグ
ラムメモリ4には、第7図に示す如きヒストグラム■と
■が格納されている。
判定手段5はパラメータテーブル6から、例えば第7図
に示す文字領域■、写真頭載■、文字領域■、■及び■
の各領域間の空白部分を検出するための比較値として、
黒画素数の少ない部分から、比較的黒画素の多い部分ま
で抽出する値を持つ第1の閾値と、該第1の閾値で抽出
された該空白部分の広さを検出する第2の閾値を読取り
、ヒストグラムメモリ4に格納されているヒストグラム
■■の空白部分に対応する黒画素数の少ない部分■と■
の抽出を開始する。
パラメータテーブル6から最初に読出された第1の閾値
T、は最も小さい値であり、第2の閾値W、は最も大き
な値である。従って、第2図+8)に示す如く、各領域
間の空白部分の幅が広く、文書の地汚れ又は写真のよう
な黒画素が多量に展開するような部分と重なることが無
い場合、黒画素の分布量が少なく幅の広い範囲[相]が
抽出される。そして、黒画素の分布は少ないが幅の狭い
■に示す如き部分は抽出されない。
次に判定手段5は第1の閾値をT、のままとし、パラメ
ータテーブル6から第2の閾値Wアを読出し、再び、ヒ
ストグラム■■の空白部分に対応する黒画素数の少ない
部分■■の抽出を行う。この場合閾値W2<W、である
。続いて、判定手段5は第1の閾値をT、のままとし、
第2の閾値W。
をパラメータテーブル6から8売出し、ヒストグラム■
■の空白部分に対応する黒画素数の少ない部分■■の抽
出を行う。この場合閾値W、<W、である。
このようにして、パラメータテーブル6に用意されてい
る第2の閾値W1まで実行すると、例えば、第2図(b
)に示す如く、領域間の空白部分の幅の狭い範囲0が検
出される。この場合第2の閾値W、は、文字列の行間隔
又は文字間隔を検出する程小さい値では無いことが必要
である。
判定手段5は続いて、第1の閾値をT2とし、第2の閾
値をWIからW7まで変化させて、黒画素数の少ない部
分■■を抽出する動作を実行する。
この場合閾値T z > T Iである。そして、更に
第1の閾値をT3として上記動作を繰り返す。この場合
閾値T 3 > T zである。
このようにして、パラメータテーブル6に用意されてい
る第1の閾値がT1となるまで実行すると、例えば、第
2図(C)に示す如き、地汚れが有り、且つ空白部分の
幅が狭い範囲0が検出される。
判定手段5は上記と異なる他の方法として、第1と第2
の閾値を同時に変化させる。即ち、パラメータテーブル
6から第1の閾値T、と第2の閾値WIとを読出して、
ヒストグラム■■の黒画素数の少ない部分■■の抽出動
作を行うと、第1の閾値T、と、第2の閾値W2を読出
し、再び、黒画素数の少ない部分■■の抽出動作を行い
、続いて、第1の閾値T、と、第2の閾値W、を続出し
、黒画素数の少ない部分■■の抽出を行う動作を繰り返
し、第1の閾値がT、で第2の閾値がW、となるまで実
行する。
〔作用〕
上記の如く構成することにより、判定手段5はパラメー
タテーブル6に予め設定された第1と第2の閾値を用い
て、ヒストグラムメモリ4に格納されたヒストグラムよ
り、地汚れが無いか、又は、写真の如き黒画素の多い部
分と重ならなず、且つ幅の広い空白部分から、地汚れが
あるか、又は、黒画素の多い部分と重なり、且つ幅の狭
い空白部分までを抽出することが出来る。
〔実施例〕
第3図は本発明の一実施例を示す回路のブロック図で、
第4図は第3図の動作を説明するフローチャートで、第
5図はパラメータテーブルの一例を示す図である。
第6図と同一符号は同一機能のものを示す。スキャナ1
は図示省略した文書上を走査して文字列、図形、表及び
写真等を読取り、これを二硫化した後画像間引き処理を
行って画素数を減らし、A4の大きさの文書を、例えば
縦方向が300ドツトで、横方向が210ドツトの大き
さの画像メモリ2に格納する。
黒画素計数部3は画像メモリ2を走査して、例えば第7
図に示す如きイメージデータの横方向の黒画素の総計を
求め、文字領域■、写真領域■、文字領域■、■及び■
に対するヒストグラム■と、縦方向の黒画素の総計を求
め、文字領域■、写真領域■、文字領域■、■及び■に
対するヒストグラム■を作成し、ヒストグラムメモリ4
に格納する。
プロセッサ7は第5図に示す如き内容のパラメータテー
ブル6から、mを第1の閾値T、及び第2の閾値W7に
対する変数として読出す。即ち、第1の閾値T、とじて
、2ドツトを続出し、第2の閾イ直W1として3ドツト
を読出す。
そして、ヒストグラムメモリ4に格納されているヒスト
グラム■と■の領域間の空白部分に対応する黒画素数の
少ない部分■と■の抽出を開始する。
即ち、第4図に示す如く、第1の閾値(2ドツト)以下
の黒画素数の部分がヒストグラム■、■にあるか探し、
あればその幅をドツト数で測定する。そして、この幅が
第2の閾値(3ドツト)以上であるか調べる。そして、
第2の閾値以上であれば、領域間の境界と判定する。
第1の閾値(2ドツト)以下の黒画素数の部分がヒスト
グラム■、■に無いか、あっても、その幅が第2の閾値
(3ドツト)以下であった場合、プロセッサ7は領域間
の境界では無(、非境界であると判定する。
そして、プロセッサ7は第1と第2の閾値を変更する。
即ち、パラメータテーブル6から、第1の閾値T2とし
て、6ドツトを読出し、第2の閾値W2として3ドツト
を読出す。
そして、パラメータテーブル6の設定値が終了か調べる
。この場合は新たな設定値であるため、再び、ヒストグ
ラム■、■に第1の閾値(6ドツト)以下の黒画素数の
部分があるか探し、あればその幅を測定するルーチンに
戻り、この幅が第2の閾値(3ドツト)以上であるか調
べる。
この幅が第2の閾値以上であれば、領域間の境界である
と判定し、第1の閾値以下の黒画素数の部分がヒストグ
ラム■、■に無いか、あっても、第2の閾値以上の幅を
持つ部分が無い場合、非境界と判定した後、プロセッサ
7は更に第1と第2の閾値を変更するため、パラメータ
テーブル6から、第1の閾値T、として、11ドツトを
読出し、第2の閾値W3として3ドツトを読出す。
そして、パラメータテーブル6の設定値が終了か調べ、
新たな設定値であるため、再び、ヒストグラム■、■に
第1の閾値(11ドツト)以下の黒画素数の部分がある
か探し、あればその幅を測定するルーチンに戻り、この
幅が第2の閾値(3ドツト)以上であるか調べる。
前記同様空白部分に該当する部分が有れば、境界と判定
し、無ければ非境界と判定した後、プロセッサ7は更に
パラメータテーブル6から、第1の閾値T4として、1
8ドツトを読出し、第2の閾値W4として3ドツトを読
出し、パラメータテーブル6の設定値が終了か調べ、新
たな設定値であるため、再び、ヒストグラム■、■に第
1の閾値(18ドツト)以下の黒画素数の部分があるか
探し、あればその幅を測定するルーチンに戻り、この幅
が第2の閾値(3ドツト)以上であるか調べる。
前記同様空白部分に該当する部分が有れば、境界と判定
し、無ければ非境界と判定した後、プロセッサ7は更に
パラメータテーブル6から、第1の閾値T、として、1
8ドツトを読出し、第2の閾値W、として2ドツトを読
出し、パラメータテーブル6の設定値が終了か調べ、新
たな設定値であるため、再び、ヒストグラム■、■に第
1の閾値(18ドツト)以下の黒画素数の部分があるか
探し、あればその幅を測定するルーチンに戻り、この幅
が第2の閾値(2ドツト)以上であるか調べる。
前記同様空白部分に該当する部分が有れば、境界と判定
し、無ければ非境界と判定した後、プロセッサ7は更に
第1と第2の閾値を変更するため、パラメータテーブル
6から、第1の閾値T6と第2の閾値W6を読出さうと
するが、パラメータテーブル6には新たな設定値が存在
しないため、設定値終了と認識しヒストグラム■、■か
ら空白部分に対応する黒画素の分布量の少ない部分■と
■を抽出する動作を終了する。
〔発明の効果〕
以上説明した如く、本発明は文書中の記載領域間の境界
を示す空白部分の幅が種々混在していている場合にも正
確に領域分割が可能となると共に、該記載領域間の空白
部分に地汚れがあったり、写真の如き黒画素の分布する
領域とヒストグラムを作成する持重なる空白部分であっ
ても、正確に領域を分割することが出来る。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、 第2図は第1図の動作を説明する図、 第3図は本発明の一実施例を示す回路のブロック図、 第4図は第3図の動作を説明するフローチャート、第5
図はパラメータテーブルの一例を示す図、第6図は従来
の技術を説明するブロック図、第7図は第6図の動作を
説明する図である。 図において、 1はスキャナ、    2は画像メモリ、3は黒画素計
数部、 4はヒストグラムメモリ、5は判定手段、  
 6はパラメータテーブル、7はプロセッサである。 米全四シ沈扛プロ、ソノ図 第 1f!1 第 I Eつ/)市カ イT を 宮l θ肘う 図第
 2 図 木金萌n−実方巳伊イ示す回語刀ブロック図第3図の転
作と言え明するフローテX−トノでラメ−タテ−グルシ
ークVΣ示T図第 5 図 呼廷釆の妓勃す1言免口月するフ゛ロツ2図昂  6 
 図

Claims (1)

  1. 【特許請求の範囲】 文書中から文字、図形、表及び写真等を読取って、二値
    化したデータとして画像メモリ(2)に格納し、該画像
    メモリ(2)に格納したデータから、該文書上における
    縦及び横方向の黒画素の分布状態を示すヒストグラムを
    作成した後、該ヒストグラムに基づき、各文字、図形、
    表及び写真等の各記載領域を夫々区分して抽出する文書
    読取装置であって、 前記ヒストグラムが示す黒画素の分布量が少ない部分を
    検出するための最小値から最大値までの複数の比較値を
    持つ第1の閾値と、該黒画素の分布量が少ない部分の広
    さを検出するための最大値から最小値までの複数の比較
    値を持つ第2の閾値が予め設定されたパラメータテーブ
    ル(6)と、該パラメータテーブル(6)に設定された
    第1と第2の閾値を用いて、前記ヒストグラムが示す黒
    画素の分布量が少ない部分の前記文書上における位置を
    検出し、該検出位置を前記記載領域間の境界と判定する
    手段(5)とを設け、 前記パラメータテーブル(6)に設定された第1の閾値
    と第2の閾値とを組合わせ、前記ヒストグラムが示す黒
    画素の分布量が少ない部分を抽出する動作を繰り返し、
    該抽出された部分の前記文書上における位置を前記記載
    領域の境界とすることを特徴とする文書中の領域境界抽
    出方式。
JP63097750A 1988-04-20 1988-04-20 文書中の領域境界抽出方式 Expired - Lifetime JPH07111738B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63097750A JPH07111738B2 (ja) 1988-04-20 1988-04-20 文書中の領域境界抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63097750A JPH07111738B2 (ja) 1988-04-20 1988-04-20 文書中の領域境界抽出方式

Publications (2)

Publication Number Publication Date
JPH01269184A true JPH01269184A (ja) 1989-10-26
JPH07111738B2 JPH07111738B2 (ja) 1995-11-29

Family

ID=14200560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63097750A Expired - Lifetime JPH07111738B2 (ja) 1988-04-20 1988-04-20 文書中の領域境界抽出方式

Country Status (1)

Country Link
JP (1) JPH07111738B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214309A (ja) * 1997-01-29 1998-08-11 Ricoh Co Ltd 文書画像領域抽出方法
JP2005250816A (ja) * 2004-03-04 2005-09-15 Fujitsu Ltd 文書画像レイアウト解析プログラム
JP2012119859A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 画像処理装置、画像処理方法及び画像処理用コンピュータプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214309A (ja) * 1997-01-29 1998-08-11 Ricoh Co Ltd 文書画像領域抽出方法
JP2005250816A (ja) * 2004-03-04 2005-09-15 Fujitsu Ltd 文書画像レイアウト解析プログラム
JP4480421B2 (ja) * 2004-03-04 2010-06-16 富士通株式会社 文書画像レイアウト解析プログラム
JP2012119859A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 画像処理装置、画像処理方法及び画像処理用コンピュータプログラム

Also Published As

Publication number Publication date
JPH07111738B2 (ja) 1995-11-29

Similar Documents

Publication Publication Date Title
Antonacopoulos Page segmentation using the description of the background
US4949392A (en) Document recognition and automatic indexing for optical character recognition
US8712188B2 (en) System and method for document orientation detection
EP0669593B1 (en) Two-dimensional code recognition method
US9324001B2 (en) Character recognition device and character segmentation method
JP2000194850A (ja) ユ―ザ囲み領域の抽出装置及び抽出方法
JPS63158678A (ja) 単語間スペ−ス検出方法
CN114121179B (zh) 化学结构式的提取方法及提取装置
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
EP0375352B1 (en) Method of searching a matrix of binary data
JPH01269184A (ja) 文書中の領域境界抽出方式
EP0042968B1 (en) Multi-registration in optical character recognition
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP2861860B2 (ja) 宛名行抽出装置
JPH0548510B2 (ja)
Okun et al. Robust text detection from binarized document images
JP2590099B2 (ja) 文字読取方式
JPH0822507A (ja) 文書認識装置
JPS63101983A (ja) 文字列抽出方式
JP3220226B2 (ja) 文字列方向判別方法
Graf et al. Address block location with a neural net system
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JPH04309191A (ja) 領域属性識別装置
JPH02294791A (ja) 文字パターン切り出し装置
JPS59180783A (ja) 光学的文字読取装置