JPH04316178A

JPH04316178A - 文書画像の属性判別方法

Info

Publication number: JPH04316178A
Application number: JP3082704A
Authority: JP
Inventors: Akitoshi Tsukamoto; 明利塚本; Sadamasa Hirogaki; 広垣　節正; Naohiro Amamoto; 直弘天本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1991-04-15
Filing date: 1991-04-15
Publication date: 1992-11-06
Anticipated expiration: 2014-03-31
Also published as: JP2877548B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ファクシミリ等の通信
機器や文書画像データベース入力装置、光学的文字読取
り装置（ＯＣＲ）等において、文書画像中の文字領域、
図形領域、写真領域及び表領域等といった構成要素の属
性を判別する文書画像の属性判別方法に関するものであ
る。

【０００２】

【従来の技術】従来、この種の属性判別方法としては、
例えば特開昭６２−７１３７９号公報に記載されるもの
があった。

【０００３】この文書画像の属性判別方法では、文書画
像データを入力し、主走査方向（例えば、横方向）に黒
画素を計数（カウント）して閾値を超えるラインを検出
し、該カウント値が閾値以下の白ラインが所定個数連続
する状態を判定して第１の領域切り出しを行う。この第
１の領域切り出し内で、副走査方向（例えば、縦方向）
に黒画素をカウントしてカウント値が閾値を超える列を
検出し、カウント値が閾値以下の白列が所定個数連続す
る状態を判定して第２の領域切り出しを行う。

【０００４】さらに、第２の領域切り出し内で、第１の
領域切り出しと同様な処理により、第３の領域切り出し
を行い、この第３の領域切り出し内で、第２の領域切り
出しと同様な処理により、第４の領域切り出しを行う。そこで、この第４の領域切り出しで検出された領域につ
いて、その領域のランレングス情報、及び黒画素率情報
により、文字領域、写真領域、図表領域等の属性を判別
している。

【０００５】

【発明が解決しようとする課題】しかしながら、従来の
属性判別方法では、次のような課題があった。

【０００６】（ａ）従来の属性判別方法では、領域切り
出し処理において、対象に応じて様々な閾値を任意に設
定する必要がある。例えば、個々の論文誌に対して領域
切り出しを行う場合、それらの閾値を各論文誌に応じた
適切な値に設定し直さなければならず、その値の選定に
手間がかかる。そのため、領域切り出し処理後に行う属
性の判別処理の効率が低いという問題があった。

【０００７】（ｂ）前記（ａ）の問題を解決するため、
本願出願人は、先に特願平１−２６４６４９号明細書に
おいて属性判別方法を提案した。この提案では、イメー
ジセンサにより、入力文書画像を走査して多値画像デー
タを読取る。読取られた多値画像データは、最適２値化
処理により、該多値画像データをその特徴及び性質を損
なうことなく２値画像データに変換される。即ち、この
最適２値化処理では、多値画像データを入力し、文字・
フィールドセパレータ領域は領域分離、図表・写真領域
はディザ処理（網点処理）を施し、それら両者の画像を
合成する。

【０００８】この最適２値化処理により２値化された画
像は、領域分割によって複数のブロックに分割された後
、属性判別処理が行われる。属性判別処理では、領域分
割によって得られた各ブロックに対し、その特徴量とし
て縦横比、面積、及び黒白反転密度（ブロック中での黒
白反転回数／面積）を算出し、これに基づいて領域をフ
ィールドセパレータ、写真、図形、及びその他の文字の
各領域に分類する。

【０００９】ところが、この属性判別方法では、最適２
値化処理画像を属性判別の処理対象としているため、前
処理として複雑な最適２値化処理を行うことが必要であ
る。しかも、図と表の判別を行っていないため、文書画
像中の図と表を分離することができなかった。

【００１０】本発明は、前記従来技術が持っていた課題
として、前処理を複雑化することなく、しかもレイアウ
トの複雑さにかかわらず、文字（列）、図形、写真、表
、及びフィールドセパレータという５種類の領域に判別
することが困難な点について解決した文書画像の属性判
別方法を提供するものである。

【００１１】

【課題を解決するための手段】本発明は前期課題を解決
するために、所定の閾値で単純２値化した文書画像をそ
の構成要素に領域分割した後、該分割された領域に対し
て属性の判別を行う文書画像の属性判別方法において、
第１，第２，第３の処理を実行して前記領域を文字（列
）、図形、写真、表、及びフィールドセパレータの各領
域に判別するようにしている。

【００１２】ここで、第１の処理では、前記領域内の黒
画素数、領域外接矩形の縦横比、領域の厚さ、及び領域
の矩形度をそれぞれ求めてそれらに対する閾値と比較す
る。第２の処理では、傾き補正処理により、前記領域外
接矩形の大きさに対する前記領域内での最長黒ランの長
さの比率を求め、それに対応する閾値と比較する。そし
て、第３の処理において、前記領域内の黒白反転密度を
求め、それに対応する閾値と比較する。

【００１３】

【作用】本発明によれば、以上のように文書画像の属性
判別方法を構成したので、単純２値化された文書画像は
領域分割された後、その分割された領域が第１の処理へ
送られる。第１の処理では、領域内の黒画素数、領域外
接矩形の縦横比等をそれぞれ求め、さらに対応する閾値
と比較してフィールドセパレータ領域、文字領域（文字
列）、及び写真領域を判別する。第２の処理では、傾き
補正処理を行い、領域外接矩形の大きさに対する領域内
での最長黒ランの長さの比率を求め、それに対応する閾
値と比較して表領域を判別する。

【００１４】そして、第３の処理では、領域内の黒白反
転密度を求めてそれに対応する閾値と比較することによ
り、図形領域等を判別する。これにより、前処理の簡単
化と、レイアウトの複雑さにかかわらず、構成要素の的
確な分類が行える。したがって、前記課題を解決できる
のである。

【００１５】

【実施例】図２は、本発明の実施例を示すもので、画像
処理の全体の処理内容を示す図である。

【００１６】まず、前処理として、単純２値化処理１で
は、イメージセンサ等によって入力文書画像が走査され
、それが適当な閾値で単純２値化されて２値画像が領域
分割処理２へ送られる。領域分割処理２では、２値画像
を入力し、それを文字（列）、図、表、写真、及びフィ
ールドセパレータ等の構成要素に分割して分割領域３を
生成する。この構成要素に領域分割された分割領域３の
データは、本実施例の特徴である属性判別処理４へ送ら
れる。

【００１７】前処理の領域分割処理２では、本願出願人
が先に提案した前記分割方法（文献１）や、或いは電子
情報通信学会技術研究報告ＰＲＬ８５−１７（１９８５
−６）辻・浅井著「スプリット検出法に基づく頁画像の
構造解析」Ｐ．６３−７０（文献２）等に記載された種
々の分割方法を用いることができる。

【００１８】例えば、文献１の分割方法では、文書画像
データを入力して横方向及び縦方向の操作を２回繰り返
して行い、黒画素の存在しない行及び列で画像を分割し
、文字領域のものに対してはそれらを統合することによ
って構成要素の分割領域３を得るようにしている。

【００１９】また、前記文献２に記載された方法では、
文書画像の垂直／水平投影分布を用い、該文書画像を縦
方向及び横方向へブロック分割することを繰り返すこと
により、領域分割を行っている。

【００２０】このような分割処理が終わると、属性判別
処理４が行われる。この属性判別処理４では、前処理で
得られた分割領域３に対し、属性の判別を行い、各領域
の属性情報５を出力する。この属性判別処理４の処理内
容を図１に示す。

【００２１】図１は、本発明の実施例の属性判別方法を
用いた属性判別処理のフローチャートである。なお、図
中のＳ１０〜Ｓ２５は、各処理ステップを示す。

【００２２】この属性判別処理では、分割領域３のデ―
タを入力すると、領域内の黒画素数を数え、この黒画素
数が閾値Ｔ１以下であるか否かを判定する（Ｓ１０）。黒画素数が閾値Ｔ１以下であれば、この領域を「ゴミ」
領域と判定する（Ｓ１１）。ここでいう「ゴミ」とは、
実際の文書に付着した汚れや、文書画像入力時にスキャ
ナ面に付着していた汚れによる影等の、文書内容ではな
い黒画素塊である。このような黒画素塊が存在すると、
誤判定を引き起こすおそれがあるので、この「ゴミ」領
域を判別しておく。

【００２３】ステップＳ１０において、黒画素数が閾値
Ｔ１よりも大きければ、ステップＳ１２において、領域
外接矩形の縦横比を求め、この縦横比が閾値Ｔ２よりも
大きいか否か、さらに該領域外接矩形の厚さ（即ち、領
域の高さと幅の内の小さい方をいう）が閾値Ｔ３以下で
あるか否かを判定する。縦横比が閾値Ｔ２以上で、かつ
厚さが閾値Ｔ３以下であれば、この領域をフィールドセ
パレータ領域と判定する（Ｓ１３）。

【００２４】ステップＳ１２において判定結果がノーの
場合、領域の厚さが閾値Ｔ４以下であるか否かを判定し
、閾値Ｔ４以下であれば、文字領域（文字列）と判定す
る（Ｓ１５）。ステップＳ１４でノーの場合、領域の矩
形度を次式より求め、その矩形度が閾値Ｔ５以上か否か
、さらに該領域の厚さが閾値Ｔ６以上か否かを判定する
（Ｓ１６）。

【００２５】矩形度＝領域内の黒画素数／領域の外接矩
形の面積（縦画素数×横画素数）ステップＳ１６において、領域の矩形度が閾値Ｔ５以上
で、かつ厚さが閾値Ｔ６以上であれば、この領域を写真
領域と判定し（Ｓ１７）、ノーの時にはステップＳ１８
へ進む。

【００２６】このような第１の処理が終わると、第２の
処理であるステップＳ１８の傾き補正処理が行われる。この傾き補正処理では、行方向最長黒ランの長さと列方
向最長黒ランの長さを求め、得られた行方向最長黒ラン
の長さと外接矩形の幅との比が閾値Ｔ７以上か否かを判
定する（Ｓ１９）。閾値Ｔ７以上の時には、列方向最長
黒ランの長さと外接矩形の高さとの比が閾値Ｔ８以上で
あるか否かを判定し（Ｓ２０）、閾値Ｔ８以上であれば
、この領域を表領域と判定する（Ｓ２１）。ステップＳ
１９及びＳ２０でノーの場合、第３の処理であるステッ
プＳ２２へ進む。

【００２７】ステップＳ２２では、領域内での黒白反転
回数（縦方向及び横方向の黒白反転回数の和）の外接矩
形面積に対する比を求め、その面積比が閾値Ｔ９よりも
小さいか否かを判定し、閾値Ｔ９未満であれば図形領域
と判定する（Ｓ２３）。また、ステップＳ２２がノーの
場合、ステップＳ２４において、領域の矩形度が閾値Ｔ
１０未満か否かを判定し、閾値Ｔ１０未満であれば、図
形領域と判定し（Ｓ２３）、閾値Ｔ１０以上であれば、
ステップＳ２５において、その他の領域の文字領域（独
立文字）と判定する。

【００２８】図１の属性判別処理における閾値Ｔ１〜Ｔ
１０は、次のようにして設定される。

【００２９】例えば、４００ｄｐｉの原文書画像の８×
８画素の論理和（ＯＲ）演算の結果を１画素に縮小した
５０ｄｐｉの文書画像を領域分割して得られた各領域に
ついて、属性を判別する際の閾値Ｔ１〜Ｔ１０としては
、「ゴミ」の大きさを４画素以下（Ｔ１＝４）、フィー
ルドセパレータの縦横比を４０以上（Ｔ２＝４０）、厚
さ４ｍｍ以下（Ｔ３＝４）と定義する。さらに、文字列
の厚さは、一般的な文書の本文で用いられている文字の
大きさを考えて５ｍｍ以下（Ｔ４＝５）とするのが適当
である。

【００３０】また、その他の閾値の値を求めるため、実
際の前記縮小文書画像において独立文字、図形、写真、
及び表の領域における矩形度、縦横最長黒ランの外接矩
形の高さ、幅に対する比、及び黒白反転密度の分布を調
査した結果を図３〜図５に示す。

【００３１】図３は、領域の矩形度の分布を各属性毎に
表した図であるが、写真はほとんど矩形度０．６以上で
あるため、Ｔ５＝０．６とするのが適当である。

【００３２】図４は、各領域において、後述する傾き補
正処理によって得られたｘ方向（横方向）、及びｙ方向
（縦方向）に最も長い黒ランの長さの、その領域の外接
矩形の大きさに対する比の分布を各属性毎に表した図で
ある。Ｘ座標は行方向最長黒ランの長さの外接矩形の幅
に対する比、Ｙ座標は列方向最長黒ランの長さの外接矩
形の高さに対する比である。図中、ｔは表領域、ｃは文
字領域、ｆは図形領域である。この図４より、表領域に
おいては行方向及び列方向共に大きな値になっており、
閾値Ｔ７＝０．９５、Ｔ８＝０．９５とするのが適当で
ある。

【００３３】図５は、独立文字領域と図形領域における
矩形度と黒白反転密度の値の分布図である。Ｘ座標は領
域の矩形度、Ｙ座標は黒白反転密度である。図中、ｆは
図形領域、ｃは文字領域である。この図５より、閾値Ｔ
９＝０．２、Ｔ１０＝０．３とするのが適当である。

【００３４】図６の（ａ），（ｂ）は、図１における傾
き補正処理（Ｓ１８）の概念を説明する図である。

【００３５】水平な状態で読込んだ文書画像では、文書
中の水平線を表す黒画素数は同一行上に並ぶが、傾いた
状態で読込んだ文書画像では、傾き具合に応じて水平線
の黒画素数が隣接する行へ移行してゆく。そこで、傾き
補正処理では、このように移行している黒画素数を同一
行上に並べるため、画像の領域内部分における幾つかの
連続する行を、列毎にＯＲを取ることにより得られる１
行に置き換える縮小操作を行う。この処理で１行に置き
換えられる行数は、補正を行う傾き角と領域の大きさに
よって異なるが、例えば傾き許容角を１度程度とすると
、次式で算出されるものとするのが適当である。

【００３６】１行に置き換える行数＝（領域外接矩形の
幅）×ｓｉｎ１° この処理によって得られる画像において、最も長い行方
向及び列方向の黒ランの長さを、この領域における行方
向の最長黒ランの長さとする。

【００３７】列方向にも同様の処理を行う。この時の１
列に置き換えられる列数は、前記同様、次式で算出され
るとするのが適当である。

【００３８】１列に置き換える列数＝（領域外接矩形の
高さ）×ｓｉｎ１° この処理によって得られる画像において、最も長い列方
向の黒ランの長さを、個の領域における列方向の最長黒
ランの長さとする。

【００３９】これらの行方向及び列方向の縮小操作は、
同時に行うこともできる。

【００４０】このように、本実施例の属性判別方法では
、単純２値化した文書画像の構成要素を、傾き補正処理
を併用して黒画素数等の特徴量から属性判別を行ってい
るので、該属性判別の前処理が簡単になるばかりか、レ
イアウトの複雑さにかかわらず、該構成要素を５種類（
文字（列）、図形、写真、表、フィールドセパレータ）
に精度よく分類することができる。

【００４１】なお、本発明は上記実施例に限定されず、
例えば図１の属性判別処理において、ステップＳ１０，
Ｓ１１を省略したり、或いは傾き補正処理Ｓ１８を他の
位置で実行する等、種々の変形が可能である。

【００４２】

【発明の効果】以上詳細に説明したように、本発明によ
れば、単純２値化した文書画像の構成要素を用いて属性
判別を行っているので、属性判別処理の前処理が簡単に
なる。しかも、文書画像中の各構成要素を、傾き補正処
理を併用し、領域内黒画素数、領域内黒白反転密度、領
域外接矩形の縦横比、厚さ、領域の矩形度、及び領域外
接矩形の大きさに対する領域内での最長黒ランの長さの
比率を用いて文字（列）、図形、写真、表、及びフィー
ルドセパレータの各領域に判別している。そのため、レ
イアウトの複雑さにかかわらず、文書画像の構成要素を
５種類（文字（列）、図形、写真、表、フィールドセパ
レータ）に簡単かつ精度よく分類することができる。

【図面の簡単な説明】

【図１】本発明の実施例の属性判別方法を示す属性判別
処理の内容図である。

【図２】本発明の実施例を示す画像処理の全体の処理内
容図である。

【図３】矩形度分布図である。

【図４】外接矩形比分布図である。

【図５】矩形度、黒白反転密度分布図である。

【図６】図１中の傾き補正処理の説明図である。

【符号の説明】

１　　単純２値化処理２　　領域分割処理３　　分割領域４　　属性判別処理５　　各領域の属性情報

Claims

【特許請求の範囲】

【請求項１】所定の閾値で単純２値化した文書画像をそ
の構成要素に領域分割した後、該分割された領域に対し
て属性の判別を行う文書画像の属性判別方法において、
前記領域内の黒画素数、領域外接矩形の縦横比、領域の
厚さ、及び領域の矩形度をそれぞれ求めてそれらに対す
る閾値と比較する第１の処理と、傾き補正処理により、
前記領域外接矩形の大きさに対する前記領域内での最長
黒ランの長さの比率を求め、それに対応する閾値と比較
する第２の処理と、前記領域内の黒白反転密度を求め、
それに対応する閾値と比較する第３の処理とを、実行し
て前記領域を文字（列）、図形、写真、表、及びフィー
ルドセパレータの各領域に判別することを特徴とする文
書画像の属性判別方法。