JP2005236800A

JP2005236800A - 画像領域判定方法、画像処理装置およびプログラム

Info

Publication number: JP2005236800A
Application number: JP2004045227A
Authority: JP
Inventors: Hiroki Yoshida; 宏樹吉田
Original assignee: Konica Minolta Business Technologies Inc
Current assignee: Konica Minolta Business Technologies Inc
Priority date: 2004-02-20
Filing date: 2004-02-20
Publication date: 2005-09-02
Anticipated expiration: 2024-02-20
Also published as: JP4135656B2

Abstract

【課題】制御手段への負担が少なくて済み、処理時間の短縮を図りながら、画像領域の誤判定をできるだけ少なくすることが可能な画像領域判定方法を提供すること。
【解決手段】受信した画像データに基づいて被判定領域について写真領域を検出する（ステップＳ１２）。次に、当該被判定領域について文字領域を検出する（ステップＳ１４）。検出された文字領域が、検出された写真領域と重なっている場合には（ステップＳ１８で「ＹＥＳ」）、当該重なっている部分について、ステップＳ１４で文字領域を検出するために用いた方法よりも文字判定精度が高い第２の方法を用いて、本当に文字領域であるか否かを再判定する領域再判定処理を実行する（ステップＳ１９）。
【選択図】図３

Description

本発明は、文字領域と写真領域を判定する画像領域判定方法、画像処理装置およびプログラムに関する。

近年、スキャナの普及に伴い、スキャナを用いてカラー原稿を読み取り、読み取って得られた画像データを圧縮して保存することが頻繁に行われている。この圧縮方式としては、例えばＪＰＥＧが知られており、写真画像等を圧縮するのに圧縮率が高く、画質も良好である。ところが、文字画像のような高周波部分については圧縮率が低下し、画質も劣化することがある。そこで、１頁分の原稿画像について文字、写真等の領域分割を行い、文字領域の画像データをＭＭＲ圧縮、写真領域の画像データをＪＰＥＧ圧縮等することにより、画質をできるだけ劣化させることなく高圧縮率を得る方法が提案されている。
特開２００３−３３８９３４号公報特開平５−３４２４０８号公報

しかしながら、従来の方法では、例えば写真領域内に小さな文字画像が存在している場合、その文字が判別されずに単なる写真領域と誤判定されたり、その逆に写真画像の一部なのに文字と誤判定されてしまうといった問題がある。特に、実際には写真画像の一部であるのに文字であると誤判定された部分のデータがＭＭＲにより２値化圧縮されてしまうと、復元画像の画質が劣化、例えば隣接する画素間の微妙な色変化を再現できないといった問題が生じる。

文字の誤判定を少なくするには、文字の判定精度ができるだけ高くなる方法を用いれば良い。しかしながら、文字の判定精度が高いということは、その分、文字であるか否かの判定のための処理が増大することになるから、例えば大量の原稿について、１頁ごとに原稿画像の全画素を対象に当該方法を用いて領域判別を行うとすると、その処理のためにＣＰＵ等の制御手段の負担が膨大になり、また処理時間も長くなるという問題がある。

本発明は、上記の問題点に鑑みてなされたものであって、制御手段への負担が少なくて済み、処理時間の短縮を図りながら、画像領域の誤判定をできるだけ少なくすることが可能な画像処理装置、画像領域判定方法およびそのプログラムを提供することを目的としている。

上記目的を達成するため、本発明に係る画像領域判定方法は、被判定領域内の文字領域と写真領域を判定する画像領域判定方法であって、前記被判定領域内に存在する写真領域を検出する第１のステップと、前記被判定領域内に存在する文字領域を検出する第２のステップと、検出された文字領域と写真領域の位置情報に基づいて、文字領域と写真領域の重複部分を検出する第３のステップと、重複部分について、前記第２のステップで文字領域を検出するために用いた第１の方法とは異なる第２の方法を用いて文字領域であるか否かを判定する第４のステップと、を含むことを特徴とする。

また、前記第２の方法は、前記第１の方法よりも文字領域判定の精度が高い方法であることを特徴とする。
さらに、前記第４のステップは、重複領域に属する各画素データから画像の明度分布を示すヒストグラムを作成し、作成されたヒストグラムのピーク数、幅、度数の増減量の少なくとも一つを検出して、その検出結果に基づいて文字領域の判定を行うことを特徴とする。

また、前記第４のステップは、重複領域を所定量だけ拡張する第５のステップを含み、拡張された領域に属する各画素データに基づいて、文字領域であるか否かの判定を行うことを特徴とする。
さらに、前記第５のステップは、拡張後の領域の一部が前記検出された写真領域内からはみ出る場合には、そのはみ出る部分については拡張を行わないことを特徴とする。

また、前記第５のステップは、拡張後の領域の一部が前記検出された写真領域内からはみ出る場合には、拡張すべき領域を当該写真領域内に収まる方向にシフトさせて所定量だけ拡張させることを特徴とする。
本発明に係る画像処理装置は、被判定領域内の文字領域と写真領域を判定する画像処理装置であって、前記被判定領域内に存在する写真領域を検出する第１の検出手段と、前記被判定領域内に存在する文字領域を検出する第２の検出手段と、検出された文字領域と写真領域の位置情報に基づいて、文字領域と写真領域の重複部分を検出する第３の検出手段と、重複部分について、前記第２の手段が文字領域を検出するために用いた第１の方法とは異なる第２の方法を用いて文字領域であるか否かを判定する判定手段と、を備えることを特徴とする。

本発明に係るプログラムは、被判定領域内の文字領域と写真領域を判定する画像領域判定処理を実行するコンピュータで動作するプログラムであって、前記被判定領域内に存在する写真領域を検出する第１の処理と、前記被判定領域内に存在する文字領域を検出する第２の処理と、検出された文字領域と写真領域の位置情報に基づいて、文字領域と写真領域の重複部分を検出する第３の処理と、重複部分について、前記第２の処理で文字領域を検出するために用いた第１の方法とは異なる第２の方法を用いて文字領域であるか否かを判定する第４の処理と、を含む処理をコンピュータに実行させることを特徴とする。

ここで、上記写真領域とは、写真だけでなく絵画、図表等、階調性を有する画像領域を示す意味で用いられる。

これより、例えば第２の方法を第１の方法よりも判定精度が高い（その分ＣＰＵ等の制御手段への負担が大きくなる）方法とすれば、まず第１の方法を用いて文字領域を判定し、次に誤判定され易い文字と写真の重複部分についてのみ判定精度が高い第２の方法を用いて判定することが可能になる。したがって、原稿１頁分の画像の全画素について第２の方法を用いる構成に比べて、制御手段への処理負担の軽減、処理時間の低減が可能になり、かつ第１の方法だけを用いて判定する構成に比べて、判定精度を向上させることができるという効果を奏する。

以下、本発明の実施の形態について図面を参照しながら説明する。
（１）画像処理システムの構成
図１は、本発明に係る画像処理装置を含む画像処理システム（以下、「システム」と略する。）の全体構成を示す図である。
同図に示すように、本システムは、画像処理装置１と、スキャナ２と、ファイルサーバ３とが、ネットワーク、ここではＬＡＮ（Local Area Network）４を介して接続されてなり、互いに各種データのやりとりが可能になっている。

スキャナ２は、原稿画像を１頁単位で読み取って画像データを得る公知の画像読取装置であり、読み取って得られた画像データを画像処理装置１に送る。
画像処理装置１は、スキャナ２から画像データを受信すると、原稿１頁ごとにその原稿に含まれる文字領域、写真領域、その他の領域をそれぞれ判定する領域判定処理と、文字画像の各画素のデータをＭＭＲ（ＭｏｄｉｆｉｅｄＭｏｄｉｆｉｅｄＲＥＡＤ）を用いて圧縮し、写真画像およびその他の領域の画像の各画素のデータをＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）を用いて圧縮する画像圧縮処理と、圧縮データに個別のファイル名を付けて、ＬＡＮ４を介してファイルサーバ３に送る送信処理を実行する。

ファイルサーバ３は、ハードディスクドライブを有し、画像処理装置１から送信されて来るデータを受信すると、それらをハードディスクドライブに格納する。また、画像処理装置１からのファイルの送信要求があると、それらを読み出して送信する。
本実施の形態の画像処理装置１は、上記領域判定処理において、領域判定結果を再判定する処理を実行するようにしており、この点に特徴がある。以下、画像処理装置１の構成および領域判定処理と画像圧縮処理の内容を詳述する。

図２は、画像処理装置１の機能構成を示すブロック図である。
同図に示すように、画像処理装置１は、パーソナルコンピュータからなり、主な構成要素として本体部１０、ディスプレイ１１、キーボード１２およびマウス１３を備えている。
本体部１０は、インターフェース（Ｉ／Ｆ）部１０１、制御部１０２および記憶部１０３を備えており、これらはバス１０４を介して接続されている。

Ｉ／Ｆ部１０１は、ＬＡＮカード、ＬＡＮボードといったＬＡＮ４に接続するためのインターフェースである。
記憶部１０３は、ハードディスクドライブ等からなり、ＯＳ（オペレーティングシステム）、文書作成等のための各種アプリケーションソフト等が格納されている。
制御部１０２は、主な構成要素としてＣＰＵ１０５、ＲＯＭ１０６、ＲＡＭ１０７を備えている。

ＣＰＵ１０５は、記憶部１０３からＯＳ、アプリケーションソフト等を読み出して、その機能をユーザに提供する等、画像処理装置１の全体の動作を統一的に制御する。また、ＲＯＭ１０６に格納されている領域判定処理、画像圧縮処理および送信処理のためのプログラムを読み出して、これらを実行する。
ＲＡＭ１０７には、画像データ格納部１０８、領域情報格納部１０９および圧縮データ格納部１１０が設けられ、順に、画像データ、領域情報、圧縮データが格納される。

図３は、制御部１０２による領域判定処理の内容を示すフローチャートである。
同図に示すように、制御部１０２は、スキャナ２から原稿の画像データを受信すると（ステップＳ１１）、受信した画像データを一旦ＲＡＭ１０７内の画像データ格納部１０８に格納させた後、その画像データに基づいて原稿画像に含まれる写真領域を検出する処理を行う（ステップＳ１２）。

この写真領域の検出は、公知の方法により行うことができる。例えば、カラーの画像データの場合、原稿１頁分の画像（被判定領域）の各画素について、そのｒ（赤）、ｇ（緑）、ｂ（青）色の画素データ（２５６階調）を公知の変換式を用いて明度データに変換し２値化を行う。
２値化画像に対し４連結ラベリングを行い、ラベリングされた画像それぞれについて、その大きさが所定の大きさ（文字相当程度の大きさ）よりも大きいものについては、その領域を写真領域とする。一方、小さいものについては、文字または文字の一部とみなして矩形領域の設定を解除する。

例えば、図４に示すような入力画像に対し、２値化処理、写真領域の設定が行われると、写真の全体が写真領域として設定されるが、文字列の部分は写真領域としては設定されないことになる。なお、ここで写真領域として判定される領域には、写真の他、絵画、図表など階調性を有する画像の領域が含まれるものである。
検出された写真領域の座標、ここでは対角の２点のＸ−Ｙ座標、およびラベリングされた画像を構成する各画素の座標（ラベリングされたラベル値を含む。以下「写真マップ」という。）のデータを写真領域情報としてＲＡＭ１０７内の領域情報格納部１０９に格納させる（ステップＳ１３）。

図４の例では、写真領域の座標としてＡ点（Ｘ１、Ｙ１）、Ｂ点（Ｘ２、Ｙ２）のデータが保存され、写真マップとして写真画像の各画素の座標データが保存されることになる。
図３に戻って、ステップＳ１４では、文字領域を検出する処理を行う。
この文字領域の検出は、公知の方法により行うことができる。ここでは、原稿１頁分の画像（被判定領域）の各画素について、その画素の明度データに公知のエッジフィルタをかけ２値のエッジ画像を生成する。生成された２値のエッジ画像について、当該エッジ画像を取り囲む矩形領域を設定する。そして、各矩形領域について、その領域内のエッジ画像の局所的な形状をそのエッジ画像の特徴量として抽出し、抽出した特徴量からそのエッジ画像が文字によるものであるか否かを判定する。具体的には、画像の局所的な形状として、カーブ量や傾斜方向、閉ループ数、十字交差数、Ｔ字交差数等を抽出し、抽出された特徴点が、予め保持している文字判定のためのパターンの特徴点と一致している数が所定値（閾値）以上であれば、文字として判定し、所定値よりも少なければ文字ではないと判定する（第１の判定方法）。

文字と判定された矩形領域についてのみ、その領域（文字矩形領域）の座標、ここでは対角の２点のＸ−Ｙ座標、およびその領域内において実際に文字画像（エッジ画像により現される画像）を構成する各画素の座標（以下、「文字マップ」という。）のデータを文字領域情報として領域情報格納部１０９に格納させる（ステップＳ１５）。
例えば、図５において領域Ｐが文字矩形領域として検出された場合には、領域Ｐの座標としてＣ点（Ｘ３、Ｙ３）、Ｄ点（Ｘ４、Ｙ４）のデータと領域Ｐ内の文字画像の各画素の座標を示すデータが保存される。

また、領域Ｑが文字矩形領域として検出された場合（実際に図４の写真画像内に文字が入っている場合と、生成された２値のエッジ画像に山の稜線等が複雑な細線になって現れそれを文字と誤判定した場合のいずれかになる。）には、Ｅ点（Ｘ５、Ｙ５）、Ｆ点（Ｘ６、Ｙ６）のデータと領域Ｑ内の文字画像の各画素の座標を示すデータが保存されることになる。なお、写真、文字領域の検出方法については、上記のものに限られることはなく、他の公知の方法を用いることができる。

そして、写真および文字領域以外のその他の領域（下地部分等）の画素の座標のデータをその他の領域情報として領域情報格納部１０９に格納させる（ステップＳ１６）。
次に、一の文字矩形領域の座標を領域情報格納部１０９から読み出す（ステップＳ１７）。そして、当該一の文字矩形領域が、いずれかの写真領域と重なっているか否かを判断する（ステップＳ１８）。この判断は、次のようにして行われる。すなわち、領域情報格納部１０９から各写真領域の座標を読み出し、読み出した写真領域の座標位置のデータと、当該一の文字矩形領域との座標位置のデータ（位置情報）に基づいて、両者間の重複部分を検出するものである。例えば、図５の領域Ｑの場合であれば、写真領域Ｒと重複していることが検出されることになる。

当該一の文字矩形領域がいずれかの写真領域と重なっていることを判断すると（ステップＳ１８で「ＹＥＳ」）、領域再判定処理を行う（ステップＳ１９）。
図６は、領域再判定処理のサブルーチンの内容を示すフローチャートである。
この領域再判定処理は、写真領域に存在していると判定された文字画像が本当に文字画像であるのかを再判定する処理である。すなわち、本実施の形態では、上記したように文字判定の方法として、エッジ画像からカーブ量等を画像の特徴量として抽出し、抽出された特徴量に基づいて文字であるか否かを判定する方法をとっている。この方法によれば比較的ＣＰＵ１０５の負担が少なく済ませられるのであるが、例えば実際には写真の一部であるがエッジ画像で見るとたまたま文字の特徴量と一致したため文字と誤判定されることが生じる場合がある。そこで、文字と誤判定され易い写真領域内に文字が重なっていると判断された部分について、第１の判定方法よりも判定精度が高い第２の方法を用いて文字か否かを再判定するものである。

同図に示すように、写真領域と重なっている文字矩形領域の大きさを所定の範囲だけ拡張する文字拡張領域の設定を行う（ステップＳ２１）。
図７は、図５に示す文字矩形領域Ｑの大きさを所定の範囲（斜線部）だけ拡張した場合の例を示す図である。図７（ａ）の例は、文字矩形領域Ｑを、その主、副走査（図では上下左右）方向に、ここでは１０画素分の範囲だけ拡張したものになっている。文字矩形領域と拡張部とを合わせた領域が文字拡張領域になる。

このように拡張部を設定するのは、次の理由による。すなわち、本実施の形態では、再判定の方法として、文字拡張領域を構成する各画素についての明度ヒストグラムを作成し、その明度ヒストグラムの形状、ピーク数等の特徴量から、一度文字であると判定された画像が本当に文字であるのか、逆に写真画像の一部であるのかを再判定する方法（第２の判定方法）をとっており、この方法の場合、文字矩形領域だけでなく、写真画像の一部分を加えた領域（文字拡張領域）について明度ヒストグラムを作成したほうが、その形状等の特徴量から、文字と写真をより区別し易いからである。

なお、領域を拡張しようとした際に、その一部が写真領域からはみ出る場合には、図７（ｂ）のように、はみ出る方向への拡張を行わないようにして、文字拡張領域が写真領域内に含まれるように拡張を行う。
そして、設定された文字拡張領域の各画素の明度データから明度ヒストグラムを作成する（ステップＳ２２）。ここでは、２５６階調の明度データを１６階調に変換し、変換後のデータを用いて明度ヒストグラムを作成する。

図８（ａ）は、ある文字拡張領域の１６階調明度データに基づく明度の度数分布表の例を示す図であり、図８（ｂ）は、当該明度の度数分布表を基に作成したヒストグラム（ここでは、折れ線グラフで表している。）の例を示す図である。なお、図８（ａ）に示す度数分布表の「勾配」欄の数値は、ヒストグラム（折れ線グラフ）の勾配の様子を表すための値であり、領域再判定に用いるものである。具体的には、階調数が一つ増えたときに、度数が増加していると「１」としている。例えば階調数が６の場合、５の場合よりも度数が増えているから「１」になる。また、度数が減少していると「−１」、勾配が正から負へ転じる場合に「２」、負から正へ転じる場合に「−２」としている。

図６に戻って、ステップＳ２３では、ヒストグラム解析処理を実行する。このヒストグラム解析処理は、ステップＳ２２で作成されたヒストグラムに基づいて文字の再判定を行う処理である。
図９は、ヒストグラム解析処理のサブルーチンの内容を示すフローチャートである。
同図に示すように、制御部１０２は、まず文字フラグＡと写真フラグＢを共に「０」に設定する（ステップＳ３１）。

そして、作成された明度ヒストグラムからピーク数を計数して、その数が「１」または「６」以上であるか否かを判断する（ステップＳ３２）。このピーク数の判断は、図８（ａ）の勾配欄を参照し、その数値が「２」を示す階調数がいくつあるのかを検出することにより行われる。図８（ａ）の例では、ピーク数が「３」ということになる。
ピーク数が「１」または「６」以上であることを判断すると（ステップＳ３２で「ＹＥＳ」）、文字として判定された領域は、実際には写真である蓋然性が高いとして、写真フラグＢの値を「１」に設定し（ステップＳ３３）、その逆に「２」〜「５」の範囲内であることを判断すると（ステップＳ３２で「ＮＯ」）、判定通り文字である蓋然性が高いとして、文字フラグＡの値を「１」に設定する（ステップＳ３４）。

このように処理するのは、文字として判定された部分が実際には写真画像の一部である場合には、文字拡張領域の明度ヒストグラムをとると、階調がなだらかであれば、その形状が一つの大きな山型になったり（ピーク数が「１」）、逆に階調変化が多ければピークが多数、ここでは６以上になる蓋然性が高くなる。その一方で、実際に文字である場合には、文字自体は１色で構成されることがほとんどであり、文字矩形領域のほとんどが当該文字を構成する画素で占められると考えられ、そうすると文字と写真の各部分についてピーク数が２〜５の範囲内に収まる蓋然性が高くなるからと考えられるからである。

再判定に用いられる閾値（ここでは、１と６）は、予め実験等により写真に文字が含まれる各種画像、含まれない各種画像それぞれについて作成された明度ヒストグラムの形状が実際に文字が含まれる場合と含まれない場合でどのような傾向になるのかが参照され、その結果から写真である蓋然性が高くなると想定されるピーク数として求められたものであり、そのデータはＲＯＭ１０６に格納されており、当該処理時に読み出される。

次に、ヒストグラムの幅条件解析処理を実行する（ステップＳ３５）。
図１０は、ヒストグラムの幅条件解析処理のサブルーチンの内容を示すフローチャートである。
同図に示すように、まず閾値を文字拡張領域の全画素数の０．３（％）にした場合のヒストグラムの幅Ｗ１が所定値ＴＷ１よりも大きいか否かを判断する（ステップＳ５１）。

ここで、閾値を全画素数の０．３（％）にした場合とは、例えば全画素数が１００００の場合であれば、閾値が３０ということになり、閾値を３０にした場合のヒストグラムの幅Ｗ１とは、ヒストグラムにその縦軸上の３０の位置を直交する水平線を引いたときに切断されるヒストグラムの水平方向の幅を示すものである。図８（ｂ）の例では、ＴＨ１が０．３（％）の場合の閾値を示し、Ｗ１がヒストグラムの幅を示している。

ヒストグラムの幅Ｗ１が広いということは、それだけ階調に幅があることを意味し、その画像は写真である蓋然性が高いといえる。そこで、本実施の形態では、ヒストグラムをどの位置（上記閾値に相当）で切断したときの幅Ｗ１がどの値（所定値ＴＷ１）を越えれば写真とできる確度が高くなるのかを各種画像を用いた実験から求め、そのデータをＲＯＭ１０６に予め格納しておき、本解析処理において読み出して、幅Ｗ１＞所定値ＴＷ１の場合には（ステップＳ５１で「ＹＥＳ」）、実際には写真である蓋然性が高いとして、現在の写真フラグＢの値に「１」をインクリメントし（ステップＳ５２）、逆にＷ１≦ＴＷ１の場合には（ステップＳ５１で「ＮＯ」）、判定通り文字である蓋然性が高いとして、現在の文字フラグＡの値に「１」をインクリメントして（ステップＳ５３）、ステップＳ５４に移る。

次に、閾値を文字拡張領域の全画素数の１．６（％）にした場合のヒストグラムの幅Ｗ２が所定値ＴＷ２よりも大きいか否かを判断する（ステップＳ５４）。この幅Ｗ２と所定値ＴＷ２は、上記Ｗ１とＴＷ１と同様に写真である確からしさを判断するために予め求められてＲＯＭ１０６に格納されているものである。図８（ｂ）の例では、ＴＨ２が１．６（％）の場合の閾値を示し、Ｗ２がヒストグラムの幅を示している。

制御部１０２は、幅Ｗ２＞所定値ＴＷ２の場合には（ステップＳ５４で「ＹＥＳ」）、写真の蓋然性が高いとして、現在の写真フラグＢの値に「１」をインクリメントし（ステップＳ５５）、Ｗ２≦ＴＷ２の場合には（ステップＳ５４で「ＮＯ」）、文字である蓋然性が高いとして、現在の文字フラグＡの値に「１」をインクリメントして（ステップＳ５６）、ステップＳ５７に移る。

同様に、閾値を文字拡張領域の全画素数の２．１（％）にした場合のヒストグラムの幅Ｗ３が所定値ＴＷ３よりも大きいか否かを判断する（ステップＳ５７）。この幅Ｗ３と所定値ＴＷ３も、上記Ｗ１とＴＷ１等と同様に写真画像である確からしさを判断するために予め求められてＲＯＭ１０６に格納されているものである。図８（ｂ）の例では、ＴＨ３が２．１（％）の場合の閾値を示し、Ｗ３がヒストグラムの幅を示している。

幅Ｗ３＞所定値ＴＷ３の場合には（ステップＳ５７で「ＹＥＳ」）、写真の蓋然性が高いとして、現在の写真フラグＢの値に「１」をインクリメントし（ステップＳ５８）、Ｗ３≦ＴＷ３の場合には（ステップＳ５７で「ＮＯ」）、文字である蓋然性が高いとして、現在の文字フラグＡの値に「１」をインクリメントして（ステップＳ５９）、ステップＳ６０に移る。

さらに、閾値を文字拡張領域の全画素数の６．５（％）にした場合のヒストグラムの幅Ｗ４が所定値ＴＷ４よりも大きいか否かを判断する（ステップＳ６０）。この幅Ｗ４と所定値ＴＷ４も、上記Ｗ１とＴＷ１等と同様に写真画像である確からしさを判断するために予め求められてＲＯＭ１０６に格納されているものである。図８（ｂ）の例では、ＴＨ４が６．５（％）の場合の閾値を示し、Ｗ４がヒストグラムの幅を示している。

幅Ｗ４＞所定値ＴＷ４の場合には（ステップＳ６０で「ＹＥＳ」）、写真の蓋然性が高いとして、現在の写真フラグＢの値に「１」をインクリメントし（ステップＳ６１）、Ｗ４≦ＴＷ４の場合には（ステップＳ６０で「ＮＯ」）、文字である蓋然性が高いとして、現在の文字フラグＡの値に「１」をインクリメントして（ステップＳ６２）、ヒストグラム解析処理のサブルーチンにリターンする。

なお、閾値を全画素数の何パーセントにし、そのときのヒストグラムの幅がどの値よりも小さければ写真と判定すべきであるのかについては、上記した各条件に限られることはなく、最適と考えられる条件を適用することが可能である。
図９に戻って、ステップＳ３６では、ヒストグラムの各ピーク（勾配が正から負に転じる部分）の内、その値（度数）が最大のものと、２番目のものとの間隔が閾値ＴＨ５よりも小さいか否かを判断する。図８（ｂ）の例では、Ｗ５が当該間隔を示している。

このようにするのは、判定通り文字である場合、通常、文字は１色で構成され、かつ見易いように下地との明度の差（コントラスト）が大きいことがほとんどであり、そうであればヒストグラムに出現するピークの内、文字画像に対応するピークと、背景画像に対応するピークが１、２番目に大きくなり、かつこれらピークは、水平方向に離れた位置に現れることが多いと考えられ、幅Ｗ５の大きさを写真であるか否かの再判定の一条件として用いることができるからである。

このＴＨ５の値は、文字である蓋然性が高くなると想定されるピーク間隔として予め実験等から求められたものであり、そのデータはＲＯＭ１０６に格納されており、当該処理時に読み出されることになる。
幅Ｗ５＜ＴＨ５であることを判断すると（ステップＳ３６で「ＹＥＳ」）、写真である蓋然性が高いとして、現在の写真フラグＢの値に「１」をインクリメントし（ステップＳ３７）、その逆に幅Ｗ５≧ＴＨ５と判断すると（ステップＳ３６で「ＮＯ」）、判定通り文字である蓋然性が高いとして、現在の文字フラグＡの値に「１」をインクリメントして（ステップＳ３８）、ステップＳ３９に移る。

ステップＳ３９では、ヒストグラムの勾配数が閾値ＴＨ６よりも大きいか否かを判断する。このヒストグラムの勾配数とは、図８（ａ）に示す「勾配」欄の「１」と「−１」の数を計数した値のことである。図８（ａ）の例では、「６」になる。
勾配数が多いということは、階調変化が大きい画像であることを意味するから、勾配数の大きさも写真であるか否かを再判定する一の条件とすることができる。

このＴＨ６の値は、写真である蓋然性が高くなると想定される勾配数として予め実験等から求められたものであり、そのデータはＲＯＭ１０６に格納されており、当該処理時に読み出される。
勾配数＞ＴＨ６であることを判断すると（ステップＳ３９で「ＹＥＳ」）、写真である蓋然性が高いとして、現在の写真フラグＢの値に「１」をインクリメントし（ステップＳ４０）、その逆に勾配数≦ＴＨ６と判断すると（ステップＳ３９で「ＮＯ」）、判定通り文字である蓋然性が高いとして、現在の文字フラグの値に「１」をインクリメントして（ステップＳ４１）、ステップＳ４２に移る。

図１１（ａ）は、写真領域に実際に存在する文字画像について文字拡張領域を設定した場合の明度ヒストグラムの例を示す図であり、図１１（ｂ）は、写真領域に文字が存在すると誤判定された画像（実際には写真の一部）について文字拡張領域を設定した場合の明度ヒストグラムの例を示す図である。
図１１（ａ）を見ると、ピークが３つあり、最大と２番目のピークの間隔が広く、かつ勾配数も少なく（中間部分がほぼ平坦になっているため）、ヒストグラムの幅がどの閾値をとっても大変狭くなっていることが解る。したがって、上記した各判定条件（Ｓ３２、Ｓ３６、Ｓ３９、Ｓ５１、Ｓ５４、Ｓ５７、Ｓ６０）に当てはめるとそのほとんどにおいて文字の蓋然性が高いと判断され、その結果、文字フラグの数値が増えることになる。

一方で、図１１（ｂ）を見ると、ピークが１つであり、勾配数が多く（ピークが少ない分、勾配数が多くなっている）、ヒストグラムの幅条件における閾値を小さくとった場合（０．３％、１．６％、２．１％等）にヒストグラムの幅が大変広くなっていることが解る。したがって、各判定条件に当てはめるとそのほとんどにおいて写真の蓋然性が高いと判断され、写真フラグの数値が増えることになる。

図９に戻って、ステップＳ４２では、フラグＡとＢの値の大小関係を判断する。
そして、Ｂ＞Ａの場合には（ステップＳ４２で「ＹＥＳ」）、各判定条件の内、写真と判断された数が多いということになるから、実際には写真画像の蓋然性が極めて高く、文字の判定は誤判定であると判断し（ステップＳ４３）、メインルーチンにリターンする。
一方、Ｂ≦Ａの場合には（ステップＳ４２で「ＮＯ」）、逆に文字と判断された数が多いことになるから、文字の蓋然性が依然高い、すなわち誤判定ではないと判断し（ステップＳ４４）、領域再判定処理のサブルーチンにリターンする。

図６に戻って、ステップＳ２４では、ステップＳ４３またはＳ４４における判断結果を参照する。
誤判定であると判断すると（ステップＳ２４で「ＹＥＳ」）、ステップＳ１７で読み出した当該文字矩形領域は、１度、文字として判定されたが、実際には写真画像の一部である蓋然性が極めて高いと考えられるから、当該文字矩形領域を写真領域に変更して（ステップＳ２５）、メインルーチンにリターンする。写真領域への変更とは、具体的には、領域情報格納部１０９に格納されている当該文字矩形領域に対する文字領域情報（ステップＳ１５において保存されたもの。）を領域情報格納部１０９から削除するものである。

一方、誤判定でないと判断すると（ステップＳ２４で「ＮＯ」）、文字領域である蓋然性が極めて高いと考えられるが、本実施の形態ではもう１回だけ再判定（２回目の再判定）を行う（ステップＳ２６）。この２回目の再判定の方法（第３の判定方法）としては、第２の判定方法よりもさらに判定精度が高い方法であれば良く、例えばステップＳ１９の領域再判定処理における判定条件に、さらに別の判定条件を加えて再判定する方法や、ステップＳ１４の文字判定と同じ方法ではあるが、その判定基準を高くする、すなわち抽出すべき画像の特徴量の数を増やし、特徴点の一致数がステップＳ１４の処理における閾値よりも大きな値を越える場合に文字として判定する方法も考えられる。さらに、別の方法、例えば公知の文字認識の手法（文字として認識するための辞書データを予め格納しておき、被判定画像の形状がその辞書に格納されているパターンの形状と完全または所定部位が一致した場合にのみ文字と認識する方法）を用いて、文字判定を行うこともできる。

文字と判定されなければ（ステップＳ２７で「ＮＯ」）、ステップＳ２５に移り、文字と判定されると（ステップＳ２７で「ＹＥＳ」）、そのままメインルーチンにリターンする。この場合、当該文字矩形領域は、最初の判定通り、文字領域であると最終決定されることになる。
図３に戻って、ステップＳ２０では、領域再判定処理をまだ行っていない文字矩形領域があるか否かを判断する。

領域再判定処理を実行すべき文字矩形領域がある場合には（ステップＳ２０で「ＹＥＳ」）、ステップＳ１７に戻って、ステップＳ１７〜Ｓ２０の処理を行う。領域再判定処理を実行すべき文字矩形領域がないと判断されるまで、ステップＳ１７〜Ｓ２０の処理を繰り返し実行し、領域再判定処理を実行すべき文字矩形領域がないと判断すると（ステップＳ２０で「ＮＯ」）、当該領域判定処理を終了する。

図１２は、画像圧縮処理の内容を示すフローチャートである。
同図に示すように、制御部１０２は、文字領域、写真領域、その他の領域について、各領域の文字画像、写真画像、その他の領域の画像の各画素データを読み出す（ステップＳ７１）。
具体的には、文字領域については、領域情報格納部１０９から、文字領域情報として現に格納されている文字マップ（文字画像のみを構成する画素の座標）を読み出し、読み出した座標位置に位置する各画素のデータ（文字画像データ）を、画像データ格納部１０８に格納されている画像データから読み出すことにより行う。

写真領域については、写真領域情報として領域情報格納部１０９に格納されている写真マップ（文字画像を構成する画素の座標）を読み出して、読み出した座標位置に位置する各画素のデータ（写真画像データ）を、画像データ格納部１０８に格納されている画像データから読み出す。また、その他の領域については、その他の領域情報として領域情報格納部１０９に格納されている画素の座標を読み出して、読み出した座標位置に位置する各画素のデータ（その他の領域の画像データ）を当該画像データから読み出すものである。

そして、文字画像データをＭＭＲ圧縮し、写真画像データおよびその他の領域の画像データをＪＰＥＧ圧縮して（ステップＳ７２）、これら圧縮データを別ファイルとして圧縮データ格納部１１０に格納し（ステップＳ７３）、当該画像圧縮処理を終了する。格納された圧縮データは、上記の送信処理においてサーバ３に送信されることになる。
以上説明したように、本実施の形態では、文字領域と写真領域の領域判別を行った後、写真領域に文字領域が重なっている部分について、その文字領域と判定された領域が本当に文字であるのかを、領域判別の際に用いた第１の方法とは異なる第２の方法を用いて再判定するようにしている。

通常、文字と写真領域の判別では、文字と写真が重なっていない部分については文字領域と写真領域を判別し易い（すなわち、判定精度があまり高くない方法を用いても誤判定され難い）が、文字と写真の重複部分については誤判定され易い傾向がある。
これより、例えば第２の方法を第１の方法よりも判定精度が高い（その分ＣＰＵへの負担が大きくなる）方法とすれば、まず第１の方法を用いて文字領域を判定し、次に誤判定され易い文字と写真の重複部分についてのみ判定精度が高い第２の方法を用いて判定することができる。したがって、例えばスキャナ２で大量の原稿を１頁ごとに順次読み取ってその画像データを圧縮する処理を実行する場合であっても、原稿１頁分の画像の全画素について第２の方法を用いる構成に比べて、ＣＰＵへの処理負担の軽減および処理時間の低減が可能になり、かつ第１の方法だけを用いて判定する構成に比べて判定精度を向上させることができるという効果を奏する。

なお、上記第１〜第３の判定方法は、上記したものに限られることはいうまでもなく、判定精度が第１、第２、第３の順に高くなるものであれば良い。また、第１、第２の方法としては、判定精度がほぼ同じものでも異なる方法であれば一定の効果を得ることも出来る。
また、文字拡張領域を生成する際の拡張部の大きさも上記１０画素分に限られることはなく、明度ヒストグラムに基づいて文字、写真の判定を行う場合の判定精度がより高くなると想定される値が実験等により予め決められることになる。また、拡張部の大きさを固定とする必要もなく、例えば文字領域の大きさに応じて可変させる構成にすること等が考えられる。

また、本実施の形態では、文字画像を取り囲む文字矩形領域を文字領域として設定し、設定された文字矩形領域と写真領域との重複部分を検出するとしたが、矩形領域を設定せずに文字画像の部分だけを文字領域として設定し、設定された文字領域と写真領域との重複部分（写真領域内に入っている部分）を検出する方法をとることも可能である。
さらに、文字矩形領域全体が写真領域内に入っている場合だけでなく、その一部が写真領域と重なっている場合に、当該重なっている部分について領域再判定を行うとしても良い。

また、原稿１頁分の画像の範囲を被判定領域としたが、例えば原稿を複数のブロックに分けてブロック単位で被判定領域を設定し、ブロックごとに領域判定処理を実行するとしても良い。
なお、本発明は、画像処理装置に限られず、上記した文字、写真領域を判定する画像領域判定方法にも適用することができる。また、その方法をコンピュータが実行するプログラムであるとしてもよい。

また、本発明に係るプログラムは、例えば磁気テープ、フレキシブルディスク等の磁気ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＭＯ、ＰＤなどの光記録媒体、Smart Media（登録商標）などのフラッシュメモリ系記録媒体等、コンピュータ読み取り可能な各種記録媒体に記録することが可能であり、当該記録媒体の形態で生産、譲渡等がなされる場合もあるし、プログラムの形態でインターネットを含む有線、無線の各種ネットワーク、放送、電気通信回線、衛星通信等を介して伝送、供給される場合もある。

（変形例）
以上、本発明を実施の形態に基づいて説明してきたが、本発明は、上述の実施の形態に限定されないのは勿論であり、以下のような変形例が考えられる。
（１）上記実施の形態では、文字拡張領域を設定しようとする際に、拡張領域の一部が写真領域をはみ出る場合には、そのはみ出る方向への拡張をしないようにしたが、そのようにすると拡張すべき領域の面積が本来の拡張面積よりも減少することになる。そこで、例えば図１３に示すようにはみ出る部分の拡張領域（破線部分）を写真領域内に収まる方向にシフトさせて（はみ出る部分を網点部分で示す範囲に振り分けて）、拡張領域を設定することで、いずれの場合でも拡張領域の面積をほぼ一定にして同一条件で再判定を行う構成をとることもできる。

（２）上記実施の形態では、第２の方法において文字拡張領域を設定するとしたが、例えば文字矩形領域だけから明度ヒストグラムを作成した場合に、第１の方法よりも判定精度を高くできる場合には必ずしも拡張することを要せず、その分処理負担を軽減することも可能である。
（３）上記実施の形態では、画像処理装置としてパーソナルコンピュータを用いる場合の例を説明したが、本発明は、上記した領域判定処理を実行できるものであれば、例えば複写機、スキャナ、プリンタ、ＦＡＸ、ＭＦＰ（Multiple Function Peripheral）等の画像処理装置に適用できる。

本発明に係る画像領域判定方法は、文字領域と写真領域をＣＰＵ等にかかる処理負担を軽減しながらより早く精度良く判定する方法に利用できる。

本発明に係る画像処理装置を含む画像処理システムの全体構成を示す図である。画像処理装置１の機能構成を示すブロック図である。領域判定処理の内容を示すフローチャートである。被判定領域における入力画像の例を示す図である。文字矩形領域の設定例を示す図である。領域再判定処理のサブルーチンの内容を示すフローチャートである。（ａ）（ｂ）は、図５に示す文字矩形領域Ｑの大きさを所定の範囲だけ拡張した場合の例を示す図である。（ａ）は、ある文字拡張領域の１６階調明度データに基づく明度の度数分布表の例を示す図であり、（ｂ）は、当該明度の度数分布表を基に作成したヒストグラムの例を示す図である。ヒストグラム解析処理のサブルーチンの内容を示すフローチャートである。ヒストグラムの幅条件解析処理のサブルーチンの内容を示すフローチャートである。（ａ）は、写真領域に実際に存在する文字画像について文字拡張領域を設定した場合の明度ヒストグラムの例を示す図であり、（ｂ）は、写真領域に文字が存在すると誤判定された画像（実際には写真の一部）について文字拡張領域を設定した場合の明度ヒストグラムの例を示す図である。画像圧縮処理の内容を示すフローチャートである。文字矩形領域の大きさを拡張した場合の別の例を示す図である。

符号の説明

１画像処理装置
１０２制御部
１０５ＣＰＵ
１０６ＲＯＭ
１０７ＲＡＭ
１０９領域情報格納部

Claims

被判定領域内の文字領域と写真領域を判定する画像領域判定方法であって、
前記被判定領域内に存在する写真領域を検出する第１のステップと、
前記被判定領域内に存在する文字領域を検出する第２のステップと、
検出された文字領域と写真領域の位置情報に基づいて、文字領域と写真領域の重複部分を検出する第３のステップと、
重複部分について、前記第２のステップで文字領域を検出するために用いた第１の方法とは異なる第２の方法を用いて文字領域であるか否かを判定する第４のステップと、
を含むことを特徴とする画像領域判定方法。
前記第２の方法は、
前記第１の方法よりも文字領域判定の精度が高い方法であることを特徴とする請求項１に記載の画像領域判定方法。
前記第４のステップは、
重複領域に属する各画素データから画像の明度分布を示すヒストグラムを作成し、作成されたヒストグラムのピーク数、幅、度数の増減量の少なくとも一つを検出して、その検出結果に基づいて文字領域の判定を行うことを特徴とする請求項１または２に記載の画像領域判定方法。
前記第４のステップは、
重複領域を所定量だけ拡張する第５のステップを含み、
拡張された領域に属する各画素データに基づいて、文字領域であるか否かの判定を行うことを特徴とする請求項１乃至３のいずれか１項に記載の画像領域判定方法。
前記第５のステップは、
拡張後の領域の一部が前記検出された写真領域内からはみ出る場合には、そのはみ出る部分については拡張を行わないことを特徴とする請求項４に記載の画像領域判定方法。
前記第５のステップは、
拡張後の領域の一部が前記検出された写真領域内からはみ出る場合には、拡張すべき領域を当該写真領域内に収まる方向にシフトさせて所定量だけ拡張させることを特徴とする請求項４に記載の画像領域判定方法。
被判定領域内の文字領域と写真領域を判定する画像処理装置であって、
前記被判定領域内に存在する写真領域を検出する第１の検出手段と、
前記被判定領域内に存在する文字領域を検出する第２の検出手段と、
検出された文字領域と写真領域の位置情報に基づいて、文字領域と写真領域の重複部分を検出する第３の検出手段と、
重複部分について、前記第２の手段が文字領域を検出するために用いた第１の方法とは異なる第２の方法を用いて文字領域であるか否かを判定する判定手段と、
を備えることを特徴とする画像処理装置。
被判定領域内の文字領域と写真領域を判定する画像領域判定処理を実行するコンピュータで動作するプログラムであって、
前記被判定領域内に存在する写真領域を検出する第１の処理と、
前記被判定領域内に存在する文字領域を検出する第２の処理と、
検出された文字領域と写真領域の位置情報に基づいて、文字領域と写真領域の重複部分を検出する第３の処理と、
重複部分について、前記第２の処理で文字領域を検出するために用いた第１の方法とは異なる第２の方法を用いて文字領域であるか否かを判定する第４の処理と、
を含む処理をコンピュータに実行させることを特徴とするプログラム。