JP2007235953A

JP2007235953A - デジタル画像の領域を検知する方法およびシステム

Info

Publication number: JP2007235953A
Application number: JP2007044490A
Authority: JP
Inventors: Richard J Campbell; ジョンキャンベルリチャード; Ahmet Mufit Ferman; マフィットファーマンアーメット; Toyohisa Matsuda; 豊久松田; Lawrence Shao-Hsien Chen; シャオーシェンチェンローレンス
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-03-02
Filing date: 2007-02-23
Publication date: 2007-09-13
Anticipated expiration: 2027-02-23
Also published as: US8630498B2; JP4266030B2; US20070206857A1

Abstract

【課題】スキャナ等で読み込んだ画像データであっても、効率的かつ精度よく領域の種別を検知することが可能なデジタル画像の領域検知方法およびシステムを実現する。
【解決手段】本発明の方法は、デジタル画像の写真領域を検知する方法であって、ａ）デジタル画像の複数の画素の各々について、所定のマスキング条件に基づいて、エントロピー量を計算する第１ステップと、ｂ）上記エントロピー量に基づいて、上記複数の画素毎に信頼度レベルを決定する第２ステップと、ｃ）上記エントロピー量に基づいて、上記複数の画素のシード領域画素からなるシード領域を決定する第３ステップ（１９０）と、ｄ）上記信頼度レベルに基づいて上記シード領域を成長させ、上記複数の画素のうちの写真領域画素からなる写真領域を生成する第４ステップ（１９２）と、を含む
【選択図】図１９

Description

本発明は、デジタル画像の領域を検知する方法およびシステムに関するものである。

デジタル画像の内容は、当該デジタル画像の圧縮に対して、圧縮率及び圧縮による副作用（compression artifacts）の点で大きな影響を与えるものである。画像の写真領域は、文字領域用に設計された圧縮アルゴリズムを用いて圧縮された場合、効率的に圧縮されない。同様に、文字画像は、写真領域用に設計され最適化された圧縮アルゴリズムを用いて圧縮された場合、効率的に圧縮されない。画像の特定の種別用に設計された圧縮アルゴリズムを他の種別の画像に用いた場合、圧縮率に悪影響があるだけでなく、伸張後の画像に圧縮による副作用が視認可能な状態で表れることがある。

さらに、文字をくっきりさせるために設計された画像強調アルゴリズムを写真画像に適用した場合、写真画像の中に、視認を悪化させるような作用を生じさせることもある。特に、はっきりとしたエッジを含む写真領域に悪影響がある。スムージング処理は、自然画像を強調するものであり、文字領域に対して行われることはほとんどないない。

デジタル画像において特定の種別の領域を検知し、当該特定の種別の領域に適した圧縮アルゴリズムや画像強調アルゴリズムを適宜組み合わせて用いることにより、圧縮率の改善、圧縮による副作用の低減、画像品質の向上を図ることができる。

画像データの内容に基づいた画像領域の意味ラベリング（a semantic labeling）は、ドキュメント管理システムや画像データベースにおいても役に立つ。

デジタル画像において、写真領域および他の領域を確実かつ効率的に検知できることが望まれている。

特許文献１には、処理対象画像のエントロピーを求め、これに基づいて処理対象画像の種類を識別する技術が開示されている。詳細には、入力画像を２値化し、２値画像に対してラベリング処理（矩形化処理）を行う。サイズが所定の大きさよりも大きい矩形領域について、各矩形領域ごとにエントロピーを算出し、各矩形領域が写真領域であるか図形領域であるかを判定する。

また、特許文献２には、画像データから得られた階調数についてのヒストグラムのエントロピーを求め、当該エントロピーの値に基づいて自然画像であるかテキスト画像であるかを識別する技術が開示されている。
特開２００４−１１０６０６（２００４年４月８日公開）特開２００３−１２３０７２（２００３年４月２５日公開）

しかしながら、特許文献１に記載された構成では、ラベリング処理および矩形領域のサイズの判定を行った後に矩形領域のエントロピーを求めている。そのため、ラベリング処理や矩形領域のサイズの判定に誤りが生じた場合に、エントロピーによる領域の種類の判定精度が低下する。

また、画像全体に対するラベリング処理を行った後にエントロピーを求めているため、画像データ全体がなければ処理を開始することができない。そのため、スキャン等で画像データを順次読み込む場合、処理時間が長くなってしまう。

また、特許文献２に記載された構成は、ワープロソフトが表計算などのソフトウェアで作成されたデジタル画像データ、あるいは、デジタルカメラやＤＶＤなどのデジタル画像データの全体についてエントロピーを求めている。しかしながら、スキャナ等で読み込んだ画像では、スキャナの光学上の特性によりテキストのエッジ部分が鈍り、テキストであってもエントロピーが大きくなることにより、写真領域とテキスト領域との識別が困難になるという問題が生じる。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、スキャナ等で読み込んだ画像データであっても、効率的かつ精度よく領域の種別を検知することが可能なデジタル画像の領域検知方法およびシステムを実現することにある。

本発明に係る方法は、上記の課題を解決するために、デジタル画像の写真領域を検知する方法であって、ａ）デジタル画像の複数の画素の各々について、所定のマスキング条件に基づいてエントロピー量を計算する第１ステップと、ｂ）上記エントロピー量に基づいて、上記複数の画素毎に信頼度レベルを決定する第２ステップと、ｃ）上記エントロピー量に基づいて、上記複数の画素のシード領域画素からなるシード領域を決定する第３ステップと、ｄ）上記信頼度レベルに基づいて上記シード領域を成長させ、上記複数の画素のうちの写真領域画素からなる写真領域を生成する第４ステップと、を含むことを特徴とする。

また、本発明に係るシステムは、デジタル画像の写真領域を検知するシステムであって、ａ）デジタル画像の複数の画素の各々について、所定のマスキング条件に基づいてエントロピー量を計算する計算処理部と、ｂ）上記エントロピー量に基づいて、上記複数の画素毎に信頼度レベルを決定する第１決定処理部と、ｃ）上記エントロピー量に基づいて、上記複数の画素のうちのシード領域画素からなるシード領域を決定する第３決定処理部と、ｄ）上記信頼度レベルに基づいて上記シード領域を成長させ、上記複数の画素のうちの写真領域画素からなる写真領域を生成する領域成長処理部と、を備えることを特徴とする。

ここで、「マスキング条件」とは、各画素に対する１以上の画像条件であり、予め設定されているものである。例えば、マスキング条件には、エッジ強度が含まれている。具体的には、エッジ強度が所定範囲内である、等の条件である。

また、「信頼度レベル」とは、画素が写真領域である信頼性を示すレベルである。一般に、エントロピー量が高いほど写真領域である確率が高くなる。そこで、例えば、エントロピー量の値の大きさに応じて信頼度レベルが決定される。

また、「シード領域画素」とは、写真領域としての信頼度が一定レベル以上である画素のことである。エントロピー量が高いほど写真領域である信頼性が高くなる。そこで、例えば、エントロピー量の高い方から１０％の画素がシード領域画素として決定される。

上記構成によれば、デジタル画像の複数の画素の各々について、マスキング条件に基づいて、エントロピー量を計算する。そして、当該エントロピー量に基づいて、信頼度レベルおよびシード領域が決定される。そして、信頼度レベルに基づいてシード領域を成長させ、写真領域を生成する。これにより、デジタル画像の中の写真領域を検出することができる。

まず最初にデジタル画像に対してマスキング条件によりマスク画素と、それ以外（非マスク画素）とに識別される。その後、マスク画素の寄与が非マスク画素の寄与よりも小さくなるようにして、デジタル画像のエントロピー量を計算し、当該エントロピー量に基づいて、デジタル画像の近傍画素、つまり、注目画素を中心とする所定のサイズのブロックの種別（例えば、写真領域など）が分類される。

画像データによっては、エントロピーによる領域分類を行う際に、当該分類を誤らせる要因となる画素（誤判定の要因となる画素）が含まれる場合がある。例えば、上述したように、スキャナ等で読み込んだ画像では、スキャナの光学上の特性により文字のエッジ部分が鈍り、文字であってもエントロピーが大きくなることにより、写真領域と文字領域との識別が困難になる。

そこで、このような誤判定の要因となる画素が満たす条件を上記マスキング条件として設定することにより、当該画素の寄与をなくした状態でエントロピー量を計算することができる。その結果、デジタル画像の写真領域の検出を精度よく行うことができる。

当該誤判定の要因となる画素が満たす条件は、予め様々な解析により求められている。例えば、上記のように、文字のエッジ部分が鈍り、文字であってもエントロピーが大きくなることにより、写真領域と文字領域との識別が困難になるような場合には、マスキング条件にエッジ強度を含めればよい。これにより、誤判定の要因となるエッジ強度の高い文字領域の寄与を低くした状態でエントロピー量が計算される。その結果、写真領域の検知を精度よく行うことができる。

また、マスキング条件を満たすか否かの判定は、スキャンされた画像データから順次行うことができる。その結果、処理を効率的に実行することができる。

また、デジタル画像の近傍画素、つまり、注目画素を中心とする所定のサイズのブロックごとに分類を行うことにより、スキャンされた画像データから順次処理を行うことができる。その結果、処理を効率的に実行することができる。なお、ブロックには、注目画素のみを含む場合と、注目画素とその周辺画素とを含む場合とがある。

なお、上記マスク画素の寄与が上記マスキング条件によって識別されない画素の寄与よりも小さくなるようにしてエントロピー量を計算する際、上記マスク画素を除外して上記エントロピー量を計算してもよい。これにより、マスク画素の影響を完全に排除した状態で領域の分類を行うことができる。

また、上記マスキング条件には、信頼度が含まれていてもよい。ここで、信頼度とは、マスキング条件を満たすレベル（程度）を示すものである。上述したように、マスキング条件は、誤判定の要因となる画素が満たす条件が設定される。しかしながら、誤判定の要因となる画素と、そうでない画素とを完全に分離可能がマスキング条件を設定することは困難である。そのため、ある画素が当該マスキング条件を満たしたとしても、当該画素が誤判定の要因となる画素である確率は１００％ではない。そこで、上記信頼度を用いる。信頼度は、マスキング条件を満たすものの、誤判定の要因となる画素であるかどうかの信頼性を示すものであるともいえる。

そして、上記マスク画素の寄与の程度は、上記信頼度に基づいている。例えば、信頼度の高い画素については、エントロピーに対する寄与を低くし、信頼度の高い画素については、エントロピーに対する寄与を高くする。その結果、エントロピー量による領域の検知の精度を一層高くすることができる。

さらに、本発明の方法は、上記の構成に加えて、上記写真領域を補正し、補正写真領域を生成する第５ステップを含んでいてもよい。また、本発明のシステムは、上記の構成に加えて、写真領域を補正し、補正写真領域を生成する補正処理部を備えていてもよい。

ここで、「補正」とは、例えば、領域成長によって生成された写真領域の内部の穴を埋める、あるいは、写真領域の形状を矩形等の形状に補正することを言う。

上記の構成によれば、写真領域が補正されるので、より精度良く写真領域を検出することができる。当該補正としては、例えば、上記写真領域の内部の穴および凹状の矩形領域のうち少なくとも１つを写真領域として補正することが挙げられる。

さらに、本発明の方法は、上記の構成に加えて、上記写真領域を検証し、検証された写真領域を生成する第６ステップを含んでいてもよい。また、本発明のシステムは、上記の構成に加えて、上記写真領域を検証し、検証された写真領域を生成する検証処理部を備えていてもよい。

エントロピーに基づいて生成された写真領域には誤認識が存在する。そこで、写真であるのに写真として検知されない画素（False negative）については補正処理にて補正を行うこと誤認識を正すことができる。一方、写真ではないのに写真として検知された画素（False positive）については上記検証処理で除去する。ここで、検証処理は、一般的な原稿にみられる写真領域の傾向に基づいて行われる。例えば、原稿内の写真領域はある程度のサイズを有している。従って、写真領域のサイズは検証処理にための有効な特徴の１つとなる。また、原稿内の写真領域は四角、楕円、円などまとまった形状をしている。従って、写真領域の形状も検証処理にための有効な特徴の１つである。

なお、検証において、上記写真領域のサイズ、上記写真領域の形状、第１矩形形状内の上記写真領域の面積、および第２矩形形状内の上記写真領域の分布の少なくとも１つを測定してもよい。

さらに、本発明の方法の上記第３ステップは、第１信頼度レベル閾値を設定するステップと、上記複数の画素の１つである対象画素の信頼度レベルが上記第１信頼度レベルよりも大きい場合に、当該対象画素を上記シード領域画素として決定するステップと、を含んでいてもよい。また、本発明のシステムにおいて、上記第２決定処理部は、第１信頼度レベル閾値を設定する第１信頼度レベル閾値設定部と、上記第１信頼度レベルよりも大きい信頼度レベルを有する画素を上記シード領域画素として決定するシード領域画素決定処理部と、を備えていてもよい。

ここで、「第１信頼度レベル閾値」とは、シード領域画素を決定するための信頼度レベルの閾値である。

なお、上記第１信頼度レベル閾値は、上記信頼度レベルの範囲に基づいて設定されてもよい。信頼度レベル閾値を入力画像に応じて設定するステップを設けることにより、例えば線数の異なる網点原稿などについても適応的に処理することができる。新聞など低線数原稿内写真領域のエントロピーは、雑誌など高線数原稿内写真領域のエントロピーに比べ低い傾向がある。また、入力画像に応じて信頼度レベルを変る。そのため、信頼度レベルの範囲に応じて第１信頼度レベル閾値を設定することにより、入力画像に適したシード領域画素を確実に抽出することができる。

また、本発明の方法において、上記第４ステップは、第２信頼度レベル閾値を設定するステップと、上記シード領域に連結しており、かつ、上記第２信頼度レベル閾値より大きい信頼度レベルを有する画素を、写真領域画素として決定することで、写真領域を成長させるステップと、を含んでいてもよい。また、本発明のシステムにおいて、上記領域成長処理部は、第２信頼度レベル閾値を設定する第２信頼度レベル閾値設定部と、上記シード領域に連結しており、かつ、上記第２信頼度レベル閾値より大きい信頼度レベルを有する画素を、写真領域画素として決定することで、写真領域を成長させる第１写真領域設定部とを備えていてもよい。

ここで、「第２信頼度レベル閾値」とは、写真領域を成長させる際に用いられる信頼度レベルの閾値である。上記と同様に、信頼度レベル閾値を入力画像に応じて設定することにより、例えば線数の異なる網点原稿などについても適応的に処理することができる。実際に、新聞など低線数原稿内写真領域のエントロピーは、雑誌など高線数原稿内写真領域のエントロピーに比べ低い傾向がある。

また、本発明の方法は、上記の構成に加えて、上記デジタル画像のラベル付けされた背景マップを取得するステップと、上記第２信頼度レベル閾値より小さい信頼度レベルを有し、かつ、上記ラベル付けされた背景マップにおいて写真としてラベル付けされた画素を、写真領域画素として決定することで、写真領域を成長させるステップと、を含んでいてもよい。また、本発明のシステムは、上記の構成に加えて、上記デジタル画像のラベル付けされた背景マップを取得する取得部と、上記第２信頼度レベル閾値より小さい信頼度レベルを有し、かつ、上記ラベル付けされた背景マップにおいて写真としてラベル付けされた画素を、写真領域画素として決定することで、写真領域を成長させる第２写真領域設定部とを備えていてもよい。

ここで、「背景マップ」とは、デジタル画像の各画素について、背景領域に属することを示すマップラベルが付けられた情報のことである。なお、背景マップには、写真領域に属することを示す写真ラベルや、どの領域に属するか不明であることを示す不定ラベルが含まれていても良い。

上記の構成によれば、エントロピー以外の特徴である色分布情報を用いることにより、写真領域の検知精度を向上させることができる。

また、本発明の方法は、デジタル画像の写真領域を検知する方法であって、ａ）デジタル画像の複数の画素の各々について、所定のマスキング条件に基づいてエントロピー量を計算する第１ステップと、ｂ）上記エントロピー量に基づいて、上記複数の画素毎に信頼度レベルを決定する第２ステップと、ｃ）上記エントロピー量に基づいて、上記複数の画素のシード領域画素からなるシード領域を決定する第３ステップと、ｄ）写真に対応するラベルを含む上記デジタル画像の背景マップを取得する第４ステップと、ｅ）上記信頼度レベルおよび上記背景マップに基づいて上記シード領域を成長させ、上記複数の画素のうちの写真領域画素からなる写真領域を生成する第５ステップと、ｆ）上記写真領域を補正し、補正写真領域を生成する第６ステップと、ｇ）上記補正写真領域を検証し、検証された写真領域を生成する第７ステップと、を含むことを特徴とする。

さらに、本発明の方法は、上記の構成に加えて、ｈ）第１信頼度レベル閾値を設定する第８ステップと、ｉ）上記複数の画素の１つである対象画素の信頼度レベルが上記第１信頼度レベルよりも大きい場合に、当該対象画素を上記シード領域画素として決定する第９ステップと、ｊ）第２信頼度レベル閾値を設定する第１０ステップと、ｋ）上記シード領域に連結しており、かつ、上記第２信頼度レベル閾値より大きい信頼度レベルを有する画素を写真領域画素として決定するとともに、上記第２信頼度レベル閾値より小さい信頼度レベルを有し、かつ、上記ラベル付けされた背景マップにおいて写真としてラベル付けされた画素を写真領域画素として決定することで、写真領域を成長させる第１１ステップと、を含んでいてもよい。

本発明に係る方法は、デジタル画像の写真領域を検知する方法であって、ａ）デジタル画像の複数の画素の各々について、所定のマスキング条件に基づいてエントロピー量を計算する第１ステップと、ｂ）上記エントロピー量に基づいて、上記複数の画素毎に信頼度レベルを決定する第２ステップと、ｃ）上記エントロピー量に基づいて、上記複数の画素のシード領域画素からなるシード領域を決定する第３ステップと、ｄ）上記信頼度レベルに基づいて上記シード領域を成長させ、上記複数の画素のうちの写真領域画素からなる写真領域を生成する第４ステップと、を含む。これにより、スキャナ等で読み込んだ画像データであっても、効率的かつ精度よく領域の種別を検知することができるという効果を奏する。

本発明の実施形態は、図面を参照することにより、より理解が深まるであろう。図面において、同じ構成については、同じ符号を付けている。

図面に開示されているような本発明の構成要素は、様々な変形形態で変形可能であることは容易に理解できるであろう。このように、本発明の方法及びシステムに係る実施形態のさらなる詳細な説明は、本発明の目的を限定するものではなく、本発明の好ましい形態を示しているにすぎない。

本発明の実施形態の構成要素は、ハードウェア、ファームウェアおよび／またはソフトウェアにより実現されてもよい。ここで明示する具体的な実施形態は、これらの形式の一例を述べるものであり、当業者であれば、本発明の目的の範囲内でこれらの形式のいずれかにおいて構成要素を実現することができる。

図１は、写真領域１２、文字領域１４およびグラフ領域１６の３つの領域を含む画像１０を示している。多くの画像処理、圧縮、ドキュメント管理および他のアプリケーションにとって、画像の様々な領域を検知することが望まれている。このような領域としては、写真領域、文字領域、グラフ領域、網点領域、連続階調領域、カラー領域、白黒領域、ＪＰＥＧ（Joint Photographic Experts Group）形式により最も効率的に圧縮可能な領域（ＪＰＥＧによる圧縮が適した領域）、ＪＢＩＧ（Joint Bi-level Image Experts Group）形式により最も効率的に圧縮可能な領域（ＪＢＩＧによる圧縮が適した領域）、背景領域、前景領域などが含まれる。

図２は、具体的な領域検知システム２０を示している。領域検知システム２０は、特徴抽出部２２および分類処理部２４を含んでいる。特徴抽出部２２は、デジタル画像２１から特徴量を、測定、算出またはある種の方法を用いて抽出する。分類処理部２４は、抽出された特徴量２３に基づいて、画像２１の各部分を分類する。分類処理部２４により生成された分類２５は、画像領域の検知およびデジタル画像２１の領域分離のために用いられる。

領域検知システムの効率性および信頼性は、分類処理に用いられる特徴量に依存する。図３は、異なる２つの画像領域における、特徴量の度数を標準化したプロットの一例を示している。実線３２は、ある特定の領域に属するサンプル画像から抽出された特徴量の度数を示している。破線３４は、別の領域に属するサンプル画像から抽出された特徴量の度数を示している。これら２つの曲線が重なり度合いが大きいことは、当該特徴量が、サンプル画像をこれら２つの領域に分離するために有効ではないことを示している。

図４は、異なる２つの画像領域における、特徴量の度数を標準化したプロットの他の例を示している。実線４２は、ある特定の領域に属するサンプル画像から抽出された特徴量の度数を示している。破線４４は、別の領域に属するサンプル画像から抽出された特徴量の度数を示している。これら２つの曲線が大きく分離されていることは、当該特徴量が、サンプル画像をこれら２つの領域に分離するために有効であることを示している。

本発明の目的のために、「ヒストグラム」は、フォーマットの出現頻度情報を参照するために使用される。ここで、フォーマットとは、例えば、配列、プロット、関連表、および、値（または値の集合）と当該値の度数（または、当該値の集合）とを対応付けた他のデータ構造などである。当該値または値の集合は、例えば、色（輝度または色度）、エッジ強度、エッジ方向、テキスチャ（周波数情報）、その他の全ての画像特徴に関連するものであってもよい。

本発明の実施形態は、デジタル画像における領域識別の方法またはシステムを含むものである。その中の１つの実施形態では、特徴量抽出の前に、マスキング条件を満たす画像の画素をマスキングすることにより、画像領域に対応する特徴量間の分離を行われる。マスキング条件を満たすマスク画素の値は、画像から特徴量を抽出する際に使用されない。

図５に示した本発明の一実施形態では、マスクされた画像５１は、入力画像５０から形成される（Ｓ５２）。マスクされた画像５１は、入力画像５０の各画素に対してマスキング条件を確認することにより形成される。図６は、マスクされた画像の形成手順を示している。入力画像の画素６０がマスキング条件を満たす場合（６２）、マスクされた画像における対応する位置の画素の値として、マスキング条件が入力画像における画素位置で満足することを示すマスク画素値が割り当てられる（６６）。入力画像の画素６０がマスキング条件を満たさない場合（６４）、マスクされた画像における対応する位置の画像の値として、入力画像における入力画素の値が割り当てられる（６８）。このようにして、マスクされた画像は、マスキング条件を満たす入力画像の画素をマスクすることとなる。すなわち、本発明のシステムは、デジタル画像に対してマスキング条件を適用して、上記マスキング条件を満たすマスク画素を識別する識別処理部を備えている。

図５に示した本発明の実施形態では、マスクされた画像５１を形成した後（５２）、ヒストグラム５３がマスクされた画像のブロックに対して生成される（５４）。このヒストグラム５３は、マスクされた画像の区分、セクション、その他の分割ともみなされる。なお、ヒストグラム５３が必ずしも長方形でなくてもよい。本発明の目的のために、「ブロック」は、画像データの一部を示すために使用されるものであり、当該画像データの一部の形状としては、正方形、長方形、円、楕円、ほぼ円形などの様々な形状がある。

図７は、ヒストグラムの形成手順の一例（５４）を示すフローチャートである。マスクされた画像が取り得る画素値に対応する複数のビン（区分）を持つヒストグラムが、図７に従って形成される。本実施形態では、全てのビンが、初期値として「０」が設定される。マスクされた画像のブロックにおける画素７０の値は、マスク画素値と比較される（７１）。画素７０の値がマスク画素値と等しい場合（７２）、当該画素は、ヒストグラムに累積されない。つまり、どのヒストグラムのビンも加算されないことを意味する。ブロック内に調査すべき画素が残っている場合、ブロック内の次の画素が調査される（７１）。画素７０の値がマスク画素値と同じではない場合（７３）、当該画素は、ヒストグラムに累積される（７４）。つまり、画素値に対応するヒストグラムのビンが加算されることを意味する。ブロックに調査すべき画素が残っている場合（７７）、ブロックの次の画素が調査される（７１）。

画素がヒストグラム７４に累積される場合（Ｓ７４）、マスクされた画像のブロックにおける非マスク画素のカウント数が増やされる（Ｓ７５）。ブロックの全ての画素が調査されると（７８，７９）、ヒストグラムの標準化が実行される（Ｓ６９）。マスクされた画像のブロックにおける非マスク画素のカウント数によって、各ビンの総計を分離することにより、当該ヒストグラムは標準化される。また、ヒストグラムが標準化されず、非マスク画素のカウント数をカウントするカウンターが存在しない形態も考えられる。このように、本実施形態のシステムは、注目画素の周辺領域の複数の画素について、上記マスク画素を累積しないようにして、各画素の値のヒストグラムを生成するヒストグラム生成部を備える。

マスクされた画像は、２つの成分で表現される。第１の成分は、マスクされた画素がビット値の一方で表現され、マスクされていない画素が他方のビット値で表現される２値画像であり、マスクとも考えられる。第２の成分は、デジタル画像である。マスクとデジタル画像との論理的組み合わせは、マスクされた画像を形成する。ヒストグラムの形成は、マスクされた画像の上記２つの成分を組み合わせて使用することで、実行される。

エントロピー量５５（図５参照）は、マスクされた画像のブロックのヒストグラム５３に対して計算される。エントロピー量５５は、入力画像の画像特徴としてみなされる。エントロピー量５５は、以下の形式の値としてみなされてもよい。本実施形態のシステムは、ヒストグラムのエントロピー量を計算し、注目画素のエントロピー量を求めるエントロピー量計算部を備える。

数１において、Ｎはヒストグラムのビンの数であり、h(i)はビンｉの累積数またはカウント数であり、f(・)は対数関数に似た数学的指標を持つ関数である。ビンにカウントされる画素、つまり、マスクされたものを除く画素の割合によって、エントロピー量５５は重み付けされる。エントロピー量は、次の形式である。

数２において、w(i)は、重み付け関数である。本発明のいくつかの実施形態では、関数f(h(i))はlog_２(h(i))である。

図５に示された本発明の実施形態では、注目画素を中心とする画像のブロックに対応するヒストグラム５３に対してエントロピー量５５を算出した後（Ｓ５６）、当該注目画素は、エントロピー量（エントロピー特徴）５５に従って分類される（５７）。分類処理（Ｓ５７）は、閾値に基づいて行われる。閾値は、予め適切に決められている、もしくは、多くの方法によって決められている。注目画素は、エントロピー量５５と閾値との比較によって、２つの領域のうちの一方に属するものとして分類される。

図８に示した本発明の実施形態では、デジタル画像８０および対応するマスク画像８１が、マスクされたデータ８３を形成するために結合される。マスクされたデータ８３は、量子化される（８４）。そして、マスクされた量子化データ８５となる。マスクされた量子化データ８５のヒストグラム８７が生成され（８６）、そして、エントロピー量８９が、当該ヒストグラム８７を用いて計算される（８８）。ヒストグラムの生成（８６）およびエントロピー量の計算（８８）に要する手間は、マスクされたデータの量子化レベルまたは度合いに依存する。ヒストグラムのビンの数は、量子化レベルの数に依存する。すなわち、ヒストグラムのビンの数は、ヒストグラムの生成（８６）およびエントロピー量の算出（８８）に要する手間に影響を与える。スキャンする際のノイズや他の要因のために、ドキュメントにおける平坦エリア（均一なエリア）は、当該ドキュメントのデジタル画像において単一の色の値に対応していない。図８に示した実施形態では、量子化の度合いは、ドキュメントにおける均一の色のエリアに対して予期されるノイズ量に関連している。量子化幅は固定であっても、非固定であってもよい。また、量子化は、２の累乗で示されてもよい。この場合、量子化は、シフト演算（shifting）を用いて実行される。このように、本実施形態のシステムは、注目画素の周辺領域の複数の画素の値を量子化する量子化部を備えている。

また、マスクされたデータは、量子化されなくてもよい。しかしながら、ヒストグラムのビンの数は、マスクされたデータ値の数よりも小さい方がよい。これらの実施形態では、ヒストグラムのビンは、マスクされたデータ値の範囲を示している。

図９に示される実施形態のように、量子化９０・９１、ヒストグラムの生成９２、およびエントロピー計算９４は、デジタル画像８０および対応するマスク画像８１の組み合わせ８２により生成された、マスクされたデータ８３に対して、複数回実施されてもよい。マスクされたデータは、異なる量子化方法９０、９１を用いて量子化される。異なる量子化方法は、例えば、量子化のレベルが異なっている。もしくは、異なる量子化方法は、量子化レベルが同じであるが、ヒストグラムのビンの境界が変化するものであってもよい。例えば、ヒストグラムのビンの境界は、ビンの幅の１／２ごとに変化していてもよい。ヒストグラムは、各量子化方法９０、９１によって生成されたデータから作成される。そして、エントロピー計算９４は、各ヒストグラムに対して行われる。生成された複数のエントロピー量は、組み合わせされて、一つのエントロピー量に変換される。一つのエントロピー量とは、平均値、最大値、最小値、分散値など、複数のエントロピー量の結合により導出可能なものである。

また、図１０に示される形態であってもよい。すなわち、デジタル画像８０と対応するマスク画像８１との組み合わせによって形成されたデータ８３が、異なる量子化方法９０・９１を用いて量子化される。そして、複数のヒストグラム１００・１０１が複数のマスクされた量子化データ１０２・１０３に基づいて作成される。複数のヒストグラム１００・１０１の中から、エントロピー計算１０５のために１つのヒストグラム１０６が選択される。例えば、最大のビンの度数をもつヒストグラムを用いて、エントロピー計算が行われる。もしくは、最大の度数和となる極大部分をもつヒストグラムが用いられてもよい。

また、画像の各画素を順に中心としていく、画素値の移動ウィンドウ（a moving window）が、中心画素（注目画素）を含むブロックのためのエントロピー量を計算するために使用されてもよい。エントロピー量は、マスクされた画像の対応するブロックから算出される。エントロピー値は、上記移動ウィンドウの中心の位置の画素を分類するために使用される。図１１に示される実施形態のように、画素のブロックが、エントロピー量の算出のために使用される。エントロピー量は、ブロックにおける単一の画素を分類するために使用される。図１１において、ブロック１１１が画像１１０のために示されている。ブロック１１１におけるマスクされた画像の画素が、エントロピー量を計算するために使用される。当該エントロピー量は、画素１１２におけるエントロピー量としてみなされる。ブロックの中心画素１１２は、エントロピー量に従って分類される。

エントロピー量は、画像のブロックに対して算出されてもよい。当該ブロックの中の全ての画素は、当該エントロピー量に従って同じ種別に分類される。図１２は、ブロックが、当該ブロックの全ての画素を分類するために使用されるエントロピー量を計算するために使用される実施形態を示している。図１２において、ブロック１２１は、画像１２０に対して示されている。当該ブロックのマスクされた画像の画素が、エントロピー量を計算するために使用される。ブロック１２１の全ての画素１２２は、エントロピー量に従って分類される。

図１３に示される実施形態のように、エントロピー量は、ヒストグラムの選択された極大部分を考慮して計算されてもよい。もしくは、エントロピー量は、ヒストグラムのピークに基づいて計算されてもよい。デジタル画像８０および対応するマスク画像８１は、マスクされたデータ８３を形成するために組み合わされる（８２）。マスクされたデータ８３は、量子化される。これにより、マスクされた量子化データ８５が生成される。そして、マスクされた量子化データ８５のヒストグラム８７が生成される（８６）。次に、ヒストグラム８７の選択された極大部分を考慮するために、変更されたヒストグラム１３１が生成される（１３０）。その後、マスクされた量子化データの変更されたヒストグラム１３１を用いて、エントロピー量１３３が計算される（１３２）。なお、ヒストグラム８７の単一の極大部分が考慮されてもよい。当該単一の極大部分は、ヒストグラムが形成される画像データのウィンドウの中心画素の画像値を含む極大部分であってもよい。

また、図１４に示される実施形態のように、デジタル画像１４０が画素選択モジュール１４１の出力１４２と結合することにより、エントロピー計算で考慮されるデータ１４４が生成されてもよい。データ１４４は、量子化される（１４５）。ヒストグラム１４８は、量子化されたデータ１４６から作成される（１４７）。そして、エントロピー量１３９がヒストグラム１４８から計算される（１４９）。画素選択モジュール１４１は、入力として複数のマスク１３７・１３８を用いる画素選択ロジックを備えている。マスク１３７・１３８は、画像構造に対応している。画像構造には、例えば、文字、網点、下地、およびエッジが含まれる。画素選択ロジック１４１は、デジタル画像１４０と結合される選択マスク１４２を生成する。当該選択マスクは、エントロピー計算においてマスクされる画像画素を選択するためのものである。

なお、マスキング条件は、画素のエッジ強度に基づいていてもよい。例えば、マスキング条件：エッジ強度が所定値以上である、などが予め設定されている。一般に、文字領域ではエッジ強度が大きい。そこで、文字領域を抽出可能な程度に当該所定値を設定しておく。これにより、文字領域の画素をマスク画素としてマスクすることが可能となる。

また、マスキング条件が満たされる程度の信頼度が計算されてもよい。当該信頼度は、画素をヒストグラムに累積させるときに使用される。図１５は、信頼度が使用される形態の一例を示している。

図１５に示される実施形態では、マスクされた画像１５１が入力画像１５０から形成される（１５２）。マスクされた画像１５１は、入力画像１５０の各画素でのマスキング条件を確認することにより形成される。図１６に示される形態のように、マスクされた画像１５１の形成が行われてもよい。すなわち、入力画像の画素１６０がマスキング条件を満足するとき（１６２）、マスクされた画像の対応する画素に、当該画素においてマスキング条件が満たされることを示す値（マスク画素値）が割り当てられる（１６６）。入力画像の画素１６０がマスキング条件を満足しないとき（１６４）、マスクされた画像の対応する画素に、入力画像１６８における対応する画素の値が割り当てられる。マスキング条件が満たされる画素では、さらに、マスク特性信号（a mask signature signal）での信頼性を反映した信頼度が割り当てられる（１６５）。信頼度の割り当ては、マスク画素に対する分離値であってもよい。また、マスク画素値が、信頼性を示すレベルを持ったマルチレベルであってもよい。マスクされた画像は、入力画像における、マスキング条件を満たす画素をマスクし、さらに、マスキング条件を満足するレベルを識別する。

図１５に示した実施形態では、マスクされた画像１５１を形成した（１５２）後、ヒストグラム１５３が当該マスクされた画像１５１のブロックに対して生成される（１５４）。図１７は、ヒストグラム形成（１５４）の手順の一例（１０４）を示すフローチャートである。マスクされた画像の取りうる画素値に対応するビンを有するヒストグラムが、図１７に従って生成される。この例では、全てのビンにおいて、初期値０が設定される。まず、マスクされた画像のブロックにおける画素の値１７０が、マスク画素値と対比される（１７１）。画素の値１７０がマスク画素値と同じである場合（１７２）、当該画素は、信頼度に基づいたわずかな（fractional）カウント数でヒストグラムに累積される。そして、調査すべき画素がブロックに残っている場合（１７６）、当該ブロックの次の画素が調査される（１７１）。画素の値１７０がマスク画素値と同じではない場合（１７４）、当該画素は、ヒストグラムに累積される（１７５）。すなわち、画素値に対応するヒストグラムのビンが加算される。そして、調査すべき画素がブロックに残っている場合（１７６）、当該ブロックの次の画素が調査される（１７１）。

画素がヒストグラム１７５に累積されるとき、マスクされた画像のブロックにおける非マスク画素のカウント数が増大される（１７８）。ブロックの全ての画素が調査されると（１８０，１７９）、ヒストグラムは標準化される（１６９）。ヒストグラムの標準化は、各ビンのカウント数を、マスクされた画像のブロックにおける非マスク画素の数で割ることにより行われてもよい。なお、ヒストグラムは、必ずしも標準化されなくてもよく、マスクされた画像のブロックにおける非マスク画素のカウント数をカウントするカウンターが存在しなくてもよい。

そして、上記実施形態でも述べたように、マスクされた画像の近傍画素のヒストグラムの対して、エントロピー量１５５が計算される（１５６）。図１５に示す実施形態では、画素を中心とする画像のブロックに対応するヒストグラム１５３に対してエントロピー量１５５を計算した（１５６）後、当該画素は、エントロピー量１５５に従って、分類される（１５７）。図１５に示される分類処理（１５７）は、閾値に基づいて行われる。閾値は、予め適切に定められていてもよく、多くの方法によって定められていてもよい。画素は、エントロピー量と閾値との大小関係に従って、２つの領域のいずれかに属するものとして分類される。

マスキング条件は、単一の画像条件のみを備えていても良い。また、マスキング条件は、マスキング条件を形成するために結合される複数の画像条件を備えていても良い。

エントロピー量は、画像を２つの領域に分離するために使用される。または、エントロピー特徴は、画像を２つ以上の領域に分離するために使用されてもよい。

さらに、データのダイナミックレンジ全体が使用されなくてもよい。ヒストグラムは、ダイナミックレンジの上下限の間の値を持つ画素のみを考慮して生成されてもよい。もちろん、ダイナミックレンジヒストグラムを用いても良い。

また、統計上のエントロピー量は、次式によって求められる。

数３において、Ｎはビンの数を示している。また、h(i)は、ビンｉに対して下記の数４のように標準化されたヒストグラムにおけるカウント数を示している。また、log_２(0)=1は、空（empty）のビンを示している。

最大エントロピーは、均一のヒストグラム分布に対して得られる。例えば、各ビンに対して、h(i)＝１／N である場合には、最大エントロピーは以下の数５のようになる。

エントロピー計算は、固定少数点演算に変換され、符号なし８ビット、UNIT8の評価値を導出してもよい。この評価値では、０がエントロピーなしを示し、２５５が最大エントロピーを示している。固定小数点演算は、２つのテーブルを使用する。第１のテーブルは、対数計算に取って代わるものであり、以下のlog_tableで示される。第２のテーブルは、ヒストグラム標準化ステップにおける割算を実行するためのものであり、rev_tableとして示される。９つのビンを有するヒストグラムの場合、次のような手順により、整数（integer）エントロピー計算が実現される。

数６において、log_shift,rev_shift,accum_shiftは、それぞれ、対数、割算、累算処理の精度に対応している。

ハードウェアにより実現する場合には、標準化されたヒストグラムのビンの値であるｎを算出するための整数除算回路を使用してもよい。

この例では、ビンの数が９（Ｎ＝９）であり、標準化乗数が２５５／Ｅｍａｘ＝８１である。

各算出ステップの固定小数点の精度は、アプリケーションや分析対象のデータの性質に依存して調整される。同様に、ビンの数も調整される。

画像を最初に解析する段階的な補正処理（a staged refinement process）、および、写真領域と見込まれる領域を決定するために引出された画像特徴、を用いながら、画像から写真領域が検知される。検証（verification）および補正（refinement）の段階は、写真領域と見込まれる領域の初期の決定の後に行われる。マスクされたエントロピーは、まず第一に、非写真領域から写真領域を分離するために使用される。デジタル画像の下地領域および局所背景領域の均一（平坦）な性質のために、このような領域は低いエントロピー量となる。均一な背景領域に比べると、写真領域では、輝度および色度の情報が変化するため、より大きなエントロピー量となる。しかしながら、文字領域も文字のエッジ構造のために大きなエントロピー量を有する。画像における写真領域を識別するためのエントロピー量を決定するときには、文字画素をマスクすることが好ましい。その代わり、全ての強いエッジ構造をマスクすると、当該構造には、文字に加えて、写真領域における建物、看板、および他の人工物が含まれるため、文字領域を写真領域として識別することが低減されるとともに、写真領域の識別があまり低減されない。写真領域が概してより大きなエントロピー量を有しているとしても、例えば空（sky）の領域のように均一な写真領域は低いエントロピー量を有する。このような領域は、エントロピーまたはマスクされたエントロピーに基づいた写真領域の検知において間違った検知がされてしまう。

図１８に示した実施形態では、デジタル画像１８１におけるマスクされたエントロピー量に基づいて最初の段階で検知された（１８２）写真マップ１８３の補正処理１８４が行われる。また、検証処理１８６が、補正処理１８４の後に行われる。

最初の段階の写真マップ１８３は、図１９に示されるように生成される。最初の段階の写真マップ１８３は、領域成長処理（a region growing process）１９２によって生成される。

例えば、エントロピー量が２５６で表される場合、エントロピー量が２００以上の範囲（信頼度レベル３）、８０以上２００未満の範囲（信頼度レベル２）、８０未満の範囲（信頼度レベル１）の３つの信頼度レベルを生成する。この範囲は、種々の画像サンプルを用いて適切な値が設定される。

また、領域成長プロセス１９２は、画像のマスクされたエントロピー量１９１に基づいた写真検知処理１９０の出力である写真領域のシード（seeds）１９３を用いている。写真領域のシード１９３は、マスクされたエントロピー量１９１が信頼できるものとみなされる、デジタル画像の画素であり、マスクされたエントロピーが高い画素は、マスクされたエントロピー量が最も信頼できる画素としてみなされる。このような画素は、図１９に示される実施形態の領域成長処理１９２で使用されるシード１９３となる。閾値が、写真領域のシードを決定するために使用されてもよい。領域の知識が、当該閾値を決定するために使用される。一例としては、画像においてマスクされたエントロピー量の高い方から１０％のエントロピー量を有する画素が、写真領域のシード１９３として使用される。

なお、本実施形態のシステムは、第１信頼度レベル閾値を設定する第１信頼度レベル閾値設定部と、上記第１信頼度レベルよりも大きい信頼度レベルを有する画素を上記シード領域画素として決定するシード領域画素決定処理部と、を備えていてもよい。例えば、上記の信頼度レベル１〜３の例では、第１信頼度レベル閾値設定部は、信頼度レベル３と信頼度レベル２の間の信頼度レベルを第１信頼度レベル閾値として設定する。これにより、シード領域画素決定処理部は、信頼度レベル３の画素（エントロピー量が２００以上の画素）をシード領域画素として決定する。

なお、このとき、第１信頼度レベル閾値を、上記信頼度レベルの範囲に基づいて設定すればよい。例えば、画像においてマスクされたエントロピー量の高い方から１０％のエントロピー量を有する画素を、写真領域のシード１９３として使用する。

写真領域のシード１９３からの領域成長処理１９２は、矩形化条件（bounding condition）によって制御される。ここでは、写真領域を、信頼性の高い写真領域のシードから、それよりも低い信頼性の写真特徴応答エリアに成長させる。写真領域は、低い信頼度の画素に直面するまで、成長される。このようにして、写真領域を、強い写真特徴応答を持つ画素との連結性に基づいた画素を含むように成長させる。

具体的には、本実施形態のシステムは、所定の第２信頼度レベル閾値を設定する第２信頼度レベル閾値設定部を備えていてもよい。そして、シード領域に連結しており、かつ、第２信頼度レベル閾値より大きい信頼度レベルを有する画素を、写真領域画素として決定し、写真領域を成長させる第１写真領域設定部を備えていてもよい。例えば、上記の信頼度レベル１〜３の例では、第２信頼度レベル閾値設定部は、信頼度レベル２と信頼度レベル１の間の信頼度レベルを第２信頼度レベル閾値として設定する。これにより、第１写真領域設定部は、シード領域画素（ここでは、エントロピー量が２００以上の画素）連結しており、信頼度レベル２の画素（ここでは、エントロピー量が８０以上２００未満）を写真領域画素として領域成長させる。

また、追加情報が、領域成長プロセスにおいて使用されてもよい。追加情報は、背景領域の識別に関連している。背景領域であることを示す、ラベル付けされた背景マップは、領域成長において使用される。ラベル付けされた背景マップは、背景領域に属することを示すとともに、背景色のパレットを示すインデックスに加えて、２つの予備のラベルを含んでいても良い。この２つの予備ラベルの１つは、背景色の解析（background color analysis）および検知によって識別されるような写真候補画素を示している。他の予備ラベルは、信頼度の低い背景色の解析およびラベリングをもつ画素を示している。マップラベル「１」は、画素が写真候補領域に属していることを示している。マップラベル「２」〜「２５４」は、背景領域を示しており、マップラベル「２５５」は、不定または信頼度の低い領域を示している。

領域成長は、背景色解析およびラベリングにより写真候補領域としてラベルされた場合、低い信頼度の領域に向かう。写真領域は、背景としてラベルされた領域には成長しない。不定または信頼度の低い領域としてラベル付けされた画素に直面するとき、成長プロセスは、不定または信頼度の低い画素への成長するために、より保守的な矩形化条件、または、より強固な連結可能な制限を使用する。より保守的な矩形化条件は、より高い信頼度の閾値に対応する。画素が背景色解析によって写真候補としてラベルされた場合、１つの近傍画素だけが写真領域に属するように要求され、写真領域が当該画素まで成長する。すなわち、画素が背景色解析によって写真候補としてラベルされた場合、比較的ゆるい条件で領域を成長させる。一方、背景色解析によって、画素が不定または信頼度の低い領域としてラベル付けされると、少なくとも２つの近傍画素が写真領域に属するように要求され、写真領域が当該画素まで成長する。すなわち、画素が背景色解析によって不定としてラベルされた場合、比較的保守的な条件で領域を成長させる。近傍画素は、特定の走査方向に隣接するものであり、例えば、４または８の最も近い近傍画素、もしくは、他に定義付けされた近傍画素である。連結制限は適宜変更可能である。

そして、本発明のシステムは、上記第２信頼度レベル閾値より小さい信頼度レベルを有し、かつ、上記ラベル付けされた背景マップにおいて写真を示すマップラベルがラベル付けされた画素を、写真領域画素として決定することで、写真領域を成長させる第２写真領域設定部とを備えていてもよい。

ここで、上記背景色解析の一例について説明する。なお、本実施形態のシステムは、背景色解析部を備えている。図２１は、背景色解析処理の流れを示すフローチャートである。

図２１に示されるように、まず、背景色解析部は、入力画像についてヒストグラムを生成する（２１１）。図２２は、生成されたヒストグラムの一例であり、画素の輝度値を用いた一次元ヒストグラムを示している。図２２において、横軸は入力画像の各画素の輝度値であり、縦軸は各輝度値における画素の度数を示している。

次に、背景色解析部は、生成したヒストグラムを解析し、ピークを抽出する（２１２）。図２３は、当該ヒストグラムの解析処理の一例を示す図である。図２３に示されるように、背景色解析部は、度数が所定閾値以上の輝度値をピーク候補とし、連続して度数が所定閾値以上となる輝度値の範囲を１つのピークとして抽出する。その後、背景色解析部は、抽出した各ピークにラベルを割り当てる。

その後、背景色解析部は、抽出したピークの輝度値を有する各画素に、当該ピークに割り当てたラベルと同じラベルを割り当てるラベル割り当て処理を行う（２１３）。図２４は、ラベル割り当て処理が行われた画像の一例を示す図である。ここで、図２３のラベルと図２４のラベルとは相互に対応している。すなわち、図２３において「ラベル１」と記されたピークの輝度値を有する画素は、図２４における「ラベル１」と表記された領域に属している。

そして、ラベルの割り当てがされた領域を背景領域として設定し、ラベルの割り当てが行われていない領域を非背景領域として設定する。このようにして、背景色解析部は、ローカル背景マップを生成する。

なお、例えば、背景色解析において、非背景領域を写真画素として、文字と判定された画素を不定画素として扱ってもよい。

補正処理は、上述したような、最初の段階の領域成長処理の後に実行される。図２０は、領域成長２０２の結果である写真領域２００の一例を示している。２つの領域２０４、２０６は、最初の段階の領域成長では誤って判定される。そのこ、最初の段階の写真マップを補正することで、このような誤った領域を検知することができる。図２０に示される写真領域の一例の２０６のように、写真領域の内部の穴は、ホールフィリング（穴埋め）方法（例えば、フラッディング・アルゴリズムや、連結成分アルゴリズム）を用いて、写真領域として検知され、ラベル付けされる。凹状の領域２０４は、写真領域に対して計算された矩形に基づいて、穴埋めされる。均一な色又はほぼ均一な色が写真領域に対して測定されたバウンディング形状（矩形化形状）を囲んでいる場合、写真領域の境界上の凹状の領域は、写真領域に属するものとしてラベル付けされる。バウンディング形状は、各領域に対して計算される。バウンディング形状は、領域に対するバウンディングボックスを形成する矩形であってもよい。

次に、補正された写真マップの検証が行われる。写真マップの検証は、写真領域のサイズに基づいて行われてもよい。写真領域として識別された小領域は、取り除かれ（removed）、再ラベリングされてもよい。写真領域として識別された領域は、領域の形状、バウンディング形状の中の領域の面積、バウンディング形状の中の領域の分布、または、ドキュメントレイアウト尺度（ドキュメントレイアウトの複雑度）に基づいた検証プロセスにより、写真領域分類から除去される。検証プロセスは、補正プロセスなしに実行されてもよい。ホールフィリング方法による補正プロセスは、凹状領域のフィリング処理の後に処理される小領域検証の後に実行されてもよい。

エントロピーに基づいて生成された写真領域には誤認識が存在する。写真であるのに写真として検知されない画素（False negative）については補正処理にて補正を行うことにより、誤認識を正すことができる。一方、写真ではないのに写真として検知された画素（False positive）については検証処理で除去する。検証処理は、一般的な原稿にみられる写真領域の傾向に基づいて行われる。例えば、原稿内の写真領域がある程度のサイズを有しているため、写真領域のサイズは検証処理にための有効な特徴の１つである。また、原稿内の写真領域は四角、楕円、円など大抵まとまった形状をしている。従って、写真領域の形状も検証処理にための有効な特徴の１つである。

サイズに関しては、単純に１つのラベルに属する画素数（サイズ）と所定閾値を比較することにより、写真領域を除去するか否かの判定を行う。

形状に関しては、例えば、１つのラベルに属する（同じラベルが付けられた）領域の周囲長と矩形形状周囲長の比率、あるいは、円形度（4π×Ｓ/Ｌ２:但し、Ｓは上記画素数、Ｌは周囲長）、オイラー数（領域に穴があいているか否かを示す数値）などにより、写真領域を除去するか否かの判定を行う。

矩形形状内の写真領域の面積・分布に関しては、単純に１つのラベルに属する画素数と矩形形状面積との比率により、写真領域を除去するか否かの判定を行う。

発明の詳細な説明の項においてなされた具体的な実施形態または実施例は、あくまでも、本発明の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本発明の精神と次に記載する特許請求事項の範囲内で、いろいろと変更して実施することができるものである。

最後に、領域検知システム２０の各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、領域検知システム２０は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである領域検知システム２０の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記領域検知システム２０に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、領域検知システム２０を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明は、複合機などの画像形成装置に適用できる。

異なる複数の種別の領域を含む画像の一例を示す図である。領域検知システムを示すブロック図である。特徴量の分離度を示すヒストグラムの一例である。特徴量の分離度を示すヒストグラムの他の例である。本発明の一実施形態を示すものであり、マスクされた画像のヒストグラムからエントロピー量を計算する処理の流れを示す図である。マスクされた画像の生成処理を示す図である。ヒストグラムの生成処理の一例を示す図である。本発明の他の実施形態を示すものであり、マスキング、量子化、ヒストグラム生成およびエントロピー計算を含む処理の流れを示す図である。本発明の他の実施形態を示すものであり、選択データに対して複数の量子化を行い、複数のエントロピー計算を行う場合の処理の流れを示す図である。本発明の他の実施形態を示すものであり、選択データに対して複数の量子化を行う場合の処理の流れを示す図である。画像ウィンドウにおける画素の分類を示す図である。画像ウィンドウにおけるブロックの分類を示す図である。極大部分に基づいたヒストグラムの変形処理を含む実施形態の処理の流れを示す図である。複数のマスク入力を用いた画素選択ロジックを含む実施形態の処理の流れを示す図である。信頼度を用いたヒストグラムからのマスクエントロピー量計算を含む実施形態の処理の流れを示す図である。信頼度を用いたときのマスクされた画像の生成処理の一例を示す図である。信頼度を用いたヒストグラム生成処理の一例を示す図である。補正および検証を含む実施形態の処理の流れを示す図である。写真領域の種からの領域成長の処理を含む実施形態の処理の流れを示す図である。写真領域の一例を示す図である。背景色解析処理の流れを示すフローチャートである。入力画像に対して生成されたヒストグラムの一例であり、画素の輝度値を用いた一次元ヒストグラムを示している。ヒストグラムの解析処理の一例を示す図である。ラベル割り当て処理が行われた画像の一例を示す図である。

符号の説明

２０領域検知システム
２２特徴抽出部
２４分類処理部

Claims

デジタル画像の写真領域を検知する方法であって、
ａ）デジタル画像の複数の画素の各々について、所定のマスキング条件に基づいてエントロピー量を計算する第１ステップと、
ｂ）上記エントロピー量に基づいて、上記複数の画素毎に信頼度レベルを決定する第２ステップと、
ｃ）上記エントロピー量に基づいて、上記複数の画素のシード領域画素からなるシード領域を決定する第３ステップと、
ｄ）上記信頼度レベルに基づいて上記シード領域を成長させ、上記複数の画素のうちの写真領域画素からなる写真領域を生成する第４ステップと、
を含むことを特徴とする方法。
さらに、上記写真領域を補正し、補正写真領域を生成する第５ステップを含むことを特徴とする請求項１に記載の方法。
上記第５ステップにおいて、上記写真領域の内部の穴および凹状の矩形領域のうち少なくとも１つを写真領域として補正することを特徴とする請求項２に記載の方法。
さらに、上記写真領域を検証し、検証された写真領域を生成する第６ステップを含むことを特徴とする請求項１に記載の方法。
上記第６ステップにおいて、上記写真領域のサイズ、上記写真領域の形状、第１矩形形状内の上記写真領域の面積、および第２矩形形状内の上記写真領域の分布の少なくとも１つを測定することを特徴とする請求項４に記載の方法。
上記第３ステップは、
第１信頼度レベル閾値を設定するステップと、
上記複数の画素の１つである対象画素の信頼度レベルが上記第１信頼度レベルよりも大きい場合に、当該対象画素を上記シード領域画素として決定するステップと、
を含むことを特徴とする請求項１に記載の方法。
上記第４ステップは、
第２信頼度レベル閾値を設定するステップと、
上記シード領域に連結しており、かつ、上記第２信頼度レベル閾値より大きい信頼度レベルを有する画素を、写真領域画素として決定することで、写真領域を成長させるステップと、
を含むことを特徴とする請求項１に記載の方法。
上記第１信頼度レベル閾値は、上記信頼度レベルの範囲に基づいて設定されることを特徴とする請求項６に記載の方法。
上記デジタル画像のラベル付けされた背景マップを取得するステップと、
上記第２信頼度レベル閾値より小さい信頼度レベルを有し、かつ、上記ラベル付けされた背景マップにおいて写真としてラベル付けされた画素を、写真領域画素として決定することで、写真領域を成長させるステップと、
を含むことを特徴とする請求項７に記載の方法。
デジタル画像の写真領域を検知するシステムであって、
ａ）デジタル画像の複数の画素の各々について、所定のマスキング条件に基づいてエントロピー量を計算する計算処理部と、
ｂ）上記エントロピー量に基づいて、上記複数の画素毎に信頼度レベルを決定する第１決定処理部と、
ｃ）上記エントロピー量に基づいて、上記複数の画素のうちのシード領域画素からなるシード領域を決定する第３決定処理部と、
ｄ）上記信頼度レベルに基づいて上記シード領域を成長させ、上記複数の画素のうちの写真領域画素からなる写真領域を生成する領域成長処理部と、
を備えることを特徴とするシステム。
上記写真領域を補正し、補正写真領域を生成する補正処理部を備えることを特徴とする請求項１０に記載のシステム。
上記補正処理部は、上記写真領域の内部の穴および凹状の矩形領域のうち少なくとも１つを写真領域として補正することを特徴とする請求項１１に記載のシステム。
上記写真領域を検証し、検証された写真領域を生成する検証処理部を備えることを特徴とする請求項１０に記載のシステム。
上記検証処理部は、上記写真領域のサイズ、上記写真領域の形状、第１矩形形状内の上記写真領域の面積、および第２矩形形状内の上記写真領域の分布の少なくとも１つを測定する測定処理部を備えることを特徴とする請求項１３に記載のシステム。
上記第２決定処理部は、
第１信頼度レベル閾値を設定する第１信頼度レベル閾値設定部と、
上記第１信頼度レベルよりも大きい信頼度レベルを有する画素を上記シード領域画素として決定するシード領域画素決定処理部と、
を備えることを特徴とする請求項１０に記載のシステム。
上記領域成長処理部は、
第２信頼度レベル閾値を設定する第２信頼度レベル閾値設定部と、
上記シード領域に連結しており、かつ、上記第２信頼度レベル閾値より大きい信頼度レベルを有する画素を、写真領域画素として決定することで、写真領域を成長させる第１写真領域設定部とを備えることを特徴とする請求項１０に記載のシステム。
上記第１信頼度レベル閾値設定部は、上記第１信頼度レベル閾値を、上記信頼度レベルの範囲に基づいて設定することを特徴とする請求項１５に記載のシステム。
上記デジタル画像のラベル付けされた背景マップを取得する取得部と、
上記第２信頼度レベル閾値より小さい信頼度レベルを有し、かつ、上記ラベル付けされた背景マップにおいて写真としてラベル付けされた画素を、写真領域画素として決定することで、写真領域を成長させる第２写真領域設定部とを備えることを特徴とする請求項１６に記載のシステム。
デジタル画像の写真領域を検知する方法であって、
ａ）デジタル画像の複数の画素の各々について、所定のマスキング条件に基づいてエントロピー量を計算する第１ステップと、
ｂ）上記エントロピー量に基づいて、上記複数の画素毎に信頼度レベルを決定する第２ステップと、
ｃ）上記エントロピー量に基づいて、上記複数の画素のシード領域画素からなるシード領域を決定する第３ステップと、
ｄ）写真に対応するラベルを含む上記デジタル画像の背景マップを取得する第４ステップと、
ｅ）上記信頼度レベルおよび上記背景マップに基づいて上記シード領域を成長させ、上記複数の画素のうちの写真領域画素からなる写真領域を生成する第５ステップと、
ｆ）上記写真領域を補正し、補正写真領域を生成する第６ステップと、
ｇ）上記補正写真領域を検証し、検証された写真領域を生成する第７ステップと、
を含むことを特徴とする方法。
ｈ）第１信頼度レベル閾値を設定する第８ステップと、
ｉ）上記複数の画素の１つである対象画素の信頼度レベルが上記第１信頼度レベルよりも大きい場合に、当該対象画素を上記シード領域画素として決定する第９ステップと、
ｊ）第２信頼度レベル閾値を設定する第１０ステップと、
ｋ）上記シード領域に連結しており、かつ、上記第２信頼度レベル閾値より大きい信頼度レベルを有する画素を写真領域画素として決定するとともに、上記第２信頼度レベル閾値より小さい信頼度レベルを有し、かつ、上記ラベル付けされた背景マップにおいて写真としてラベル付けされた画素を写真領域画素として決定することで、写真領域を成長させる第１１ステップと、
を含むことを特徴とする請求項１９に記載の方法。