JP4340701B2

JP4340701B2 - デジタル画像のテキストを識別する方法およびシステム

Info

Publication number: JP4340701B2
Application number: JP2007229562A
Authority: JP
Inventors: 豊久松田; ジョンキャンベルリチャード; シャオ−シェンチェンローレンス
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-09-06
Filing date: 2007-09-04
Publication date: 2009-10-07
Anticipated expiration: 2027-09-04
Also published as: US20110110596A1; US7876959B2; US8150166B2; JP2008067387A; US20080056573A1

Description

本発明は、デジタル画像のテキスト画素を検知する方法およびシステムに関するものである。

文字をくっきりさせるために設計された画像強調アルゴリズムを写真画像に適用した場合、写真画像の中に、視認を悪化させるような作用を生じさせることもある。特に、はっきりとしたエッジを含む写真領域に悪影響がある。スムージング処理は、自然画像を強調するものであり、テキスト領域に対して行われることはほとんどない。デジタル画像においてテキストを確実かつ効率的に検知することは好都合であり、領域種別専用の画像強調方法を、デジタル画像の適切な領域に適用することができる。

特許文献１では、画像の種類毎に表示される画質の調整を行う方法が開示されている。具体的には、画像のヒストグラムを作成してエントロピーを算出し、画像の種類の判別を行っている。ヒストグラムの頻度が一箇所に集中するとエントロピーの値が小さくなり、頻度が各階調値に広がって分布するとエントロピーの値が大きくなるという特性を用い、前者の場合をテキスト画像、後者の場合を自然画像であると判別している。
特開２００３−１２３０７２（２００３年４月２５日公開）

しかしながら、スキャナ等で読み込んだ画像では、スキャナの光学上の特性によりテキストのエッジ部分が鈍り、テキストであってもエントロピーが大きくなることにより、写真領域とテキスト領域との識別が困難になるという問題が生じる。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、スキャナ等で読み込んだ画像データであっても、効率的かつ精度よく領域の種別を検知することが可能なデジタル画像の領域検知方法およびシステムを実現することにある。

本発明に係る方法は、上記の課題を解決するために、デジタル画像の中のテキストを識別する方法であって、ａ）デジタル画像の第１特徴量を示す第１特徴データを取得する第１ステップと、ｂ）上記第１特徴データの第１特徴量の信頼性を示す信頼性データを取得する第２ステップと、ｃ）上記デジタル画像に対応するデジタル画像データを取得する第３ステップと、ｄ）上記第１特徴データ及び信頼性データを用いて上記デジタル画像データに対する写真領域の特徴量を算出する第４ステップと、ｅ）上記写真領域の特徴量と第１特徴データとを用いて、信頼性の高い写真領域を求める第５ステップと、ｆ）上記信頼性の高い写真領域に基づいてテキスト領域を示すテキストマップを生成する第６ステップとを含むことを特徴とする。

ここで、第１特徴量は、例えば、エッジ強度を示す特徴量である。また、信頼性データとは、例えば、エッジ強度を示す特徴量の信頼性を示すデータであり、エッジ強度がある閾値以上であれば、エッジである信頼性が高いことを示すものである。

上記構成によれば、第１特徴データ及び信頼性データを用いて上記デジタル画像データに対する写真領域の特徴量を算出する。すなわち、信頼性データを用いて第１特徴データのうち第１特徴量として信頼性の高い画素を抽出することができる。そして、抽出した画素に基づいて写真領域の特徴量を求めることができる。

ここで、写真領域の特徴量としては、例えば、マスキング条件を満足するマスク画素の寄与が当該マスキング条件を満足しない非マスク画素の寄与よりも小さくなるようにして計算されたエントロピー量である。エントロピー量は、テキストにおいて小さくなり、写真領域において高くなる。また、マスキング条件としては、第１特徴量がエッジ強度を示すものである場合、例えば、エッジ強度が所定閾値以上であることを示すものである。当該マスキング条件は、信頼性データ（この例では、閾値を示すデータである）から得られるものである。この場合、エッジとしての信頼性の高い画素がマスク画素となり、当該マスク画素の寄与が小さくなるようにエントロピー量が求められる。すなわち、エッジ部分の影響が小さくなるようにしてエントロピー量を求めることができる。

このように、第１特徴量で示される画像特徴の信頼性が高い画素の影響が小さくなるようにして写真領域の特徴量を求めることができる。

画像データによっては、エントロピーなど特徴量による領域分類を行う際に、当該分類を誤らせる要因となる画素（誤判定の要因となる画素）が含まれる場合がある。例えば、上述したように、スキャナ等で読み込んだ画像では、スキャナの光学上の特性により文字のエッジ部分が鈍り、文字であってもエントロピーが大きくなることにより、写真領域と文字領域との識別が困難になる。

そこで、このような誤判定の要因となる画素が満たす条件を上記マスキング条件として設定することにより、当該画素の寄与をなくした状態で特徴量を計算することができる。その結果、デジタル画像の写真領域の検出を精度よく行うことができる。

当該誤判定の要因となる画素が満たす条件は、予め様々な解析により求められている。例えば、上記のように、文字のエッジ部分が鈍り、文字であってもエントロピーが大きくなることにより、写真領域と文字領域との識別が困難になるような場合には、マスキング条件にエッジ強度を含めればよい。これにより、誤判定の要因となるエッジ強度の高い文字領域の寄与を低くした状態でエントロピー量が計算される。その結果、写真領域の検知を精度よく行うことができる。

そして、写真領域の特徴量と第１特徴データとを用いて、信頼性の高い写真領域を求める。さらに、信頼性の高い写真領域に基づいてテキスト領域を求めるため、テキスト領域を精度よく求めることができる。

本発明の方法において、上記デジタル画像データは、輝度を示すデータであってもよい。

また、本発明の方法において、上記デジタル画像データの解像度は、上記第１特徴データの解像度よりも小さくてもよい。

また、本発明の方法において、上記第１特徴データと上記信頼性データとから上記マスキング条件を生成してもよい。例えば、マスキング条件としては、第１特徴量であるエッジ強度と、信頼性データである所定閾値とを比較し、エッジ強度が所定閾値以上であることを示すものである。なお、信頼性データは、例えばエッジ強度の平均値であってもよい。また、閾値以外でも、所定閾値以上となるエッジ強度の最大値、最小値を算出し、エッジ強度と（最大値−最小値）の比率を信頼性データとして用いてもよい。この場合、上記比率に応じて、上記比率が大きいほどエントロピー量への寄与率を低く、小さいほど寄与率を高くするようマスキングする（単純には、比率の逆数を乗算するなど）。

また、本発明の方法の上記第５ステップにおいて、上記写真領域の特徴量に対してヒステリシスな閾値処理を行うことにより、信頼性の高い写真領域を求めてもよい。

また、本発明の方法の上記第５ステップにおいて、複数回のスキャンを行うことで、上記写真領域の特徴量および第１の特徴量に基づく別の特徴量のカウント値の累積をスキャンごとに行い、当該累積結果に基づいて、信頼性の高い写真領域を求めることが好ましい。上記スキャンの回数は例えば４回である。

また、本発明の方法において、上記信頼性の高い写真領域と第１特徴データとは、同じ解像度であってもよい。

また、本発明の方法は、デジタル画像のテキストを識別する方法であって、ａ）テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する第１ステップと、ｂ）修正テキスト候補マップを用いてマスキングを行い、エントロピー量を算出し、当該エントロピー量に基づいて上記デジタル画像の写真領域を識別する第２ステップと、ｃ）上記写真領域に基づいて修正テキスト候補マップの補正を行う第３ステップとを含む。

これにより、エントロピー量に基づいて識別された写真領域に基づいて、写真領域に属する可能性の高い画素をテキスト候補マップから削除する補正を行うことができる。その結果、補正されたテキスト候補マップの精度を向上させることができる。

なお、上記第２ステップにおいて、上記エントロピー量の平均を求め、当該平均エントロピー量に基づいて写真領域を識別してもよい。平均エントロピーが高いものは写真領域である可能性が高いため、写真領域を精度良く識別することができる。

また、上記第２ステップにおいて、ヒステリシス閾値処理を行うことにより写真領域を識別してもよい。

また、上記第１ステップは、上記デジタル画像のエッジを識別するエッジマップの入力を受け付けるステップと、入力されたエッジマップにおいて、所定サイズのブロックごとにエッジ画素の数をカウントし、当該ブロックの各々とカウントしたエッジ画素の数とを対応付けたエッジカウントマップを生成するステップと、上記デジタル画像におけるテキスト候補画素を示すテキスト候補マップの入力を受け付けるステップと、入力されたテキスト候補マップにおいて、所定サイズのブロックごとにテキスト候補画素の数をカウントし、当該ブロックの各々とカウントしたテキスト候補画素の数とを対応付けたテキストカウントマップを生成するステップと、を含み、テキスト候補マップ、エッジマップ、テキストカウントマップ、エッジカウントマップの各画素の値について閾値処理を行うことにより、修正テキスト候補マップを生成してもよい。

そして、上記テキスト候補マップは、デジタル画像におけるテキステャー特徴に基づいて生成されたものである。

また、本発明のシステムは、デジタル画像のテキストを識別するシステムであって、ａ）テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する拡張部と、ｂ）修正テキスト候補マップを用いてマスキングを行い、エントロピー量を算出し、当該エントロピー量に基づいて上記デジタル画像の写真領域を識別する識別部と、ｃ）上記写真領域に基づいて修正テキスト候補マップの補正を行う補正部と
を備えることを特徴とする。

なお、上記識別部は、上記エントロピー量の平均を求めてもよい。また、上記識別部は、ヒステリシス閾値処理を行ってもよい。

また、上記拡張部は、上記デジタル画像のエッジを識別するエッジマップの入力を受け付けるエッジマップ入力受付部と、入力されたエッジマップにおいて、所定サイズのブロックごとにエッジ画素の数をカウントし、当該ブロックの各々とカウントしたエッジ画素の数とを対応付けたエッジカウントマップを生成するエッジカウントマップ生成部と、
上記デジタル画像におけるテキスト候補画素を示すテキスト候補マップの入力を受け付けるテキスト候補マップ入力受付部と、入力されたテキスト候補マップにおいて、所定サイズのブロックごとにテキスト候補画素の数をカウントし、当該ブロックの各々とカウントしたテキスト候補画素の数とを対応付けたテキストカウントマップを生成するテキストカウントマップ生成部と、を備え、テキスト候補マップ、エッジマップ、テキストカウントマップ、エッジカウントマップの各画素の値について閾値処理を行うことにより、修正テキスト候補マップを生成してもよい。

上記テキスト候補マップは、デジタル画像におけるテキステャー特徴に基づいて生成されたものであることを特徴とする請求項１９に記載のシステム。

また、上記識別部は、複数回のスキャンを行うことで、上記エントロピー量の累積をスキャンごとに行い、当該累積結果に基づいて写真領域を求めてもよい。

本発明に係る方法は、デジタル画像の中のテキストを識別する方法であって、ａ）デジタル画像の第１特徴量を示す第１特徴データを取得する第１ステップと、ｂ）上記第１特徴データの第１特徴量の信頼性を示す信頼性データを取得する第２ステップと、ｃ）上記デジタル画像に対応するデジタル画像データを取得する第３ステップと、ｄ）上記第１特徴データ及び信頼性データを用いて上記デジタル画像データに対する写真領域の特徴量を算出する第４ステップと、ｅ）上記写真領域の特徴量と第１特徴データとを用いて、信頼性の高い写真領域を求める第５ステップと、ｆ）上記信頼性の高い写真領域に基づいてテキスト領域を示すテキストマップを生成する第６ステップとを含む。

これにより、テキスト領域を精度よく求めることができる。

本発明の実施形態は、図面を参照することにより、より理解が深まるであろう。図面において、同じ構成については、同じ符号を付けている。

図面に開示されているような本発明の構成要素は、様々な形態で変形可能であることは容易に理解できるであろう。このように、本発明の方法及びシステムに係る実施形態のさらなる詳細な説明は、本発明の目的を限定するものではなく、本発明の好ましい形態を示しているにすぎない。

本発明の実施形態の構成要素は、ハードウェア、ファームウェアおよび／またはソフトウェアにより実現されてもよい。ここで明示する具体的な実施形態は、これらの形式の一例を述べるものであり、当業者であれば、本発明の目的の範囲内でこれらの形式のいずれかにおいて構成要素を実現することができる。

図１は、写真領域１２、文字領域１４およびグラフ領域１６の３つの領域を含む画像１０を示している。多くの画像処理、圧縮、ドキュメント管理および他のアプリケーションにとって、画像の様々な領域を検知することが望まれている。このような領域としては、写真領域、文字領域、グラフ領域、網点領域、連続階調領域、カラー領域、白黒領域、ＪＰＥＧ（Joint Photographic Experts Group）形式により最も効率的に圧縮可能な領域（ＪＰＥＧによる圧縮が適した領域）、ＪＢＩＧ（Joint Bi-level Image Experts Group）形式により最も効率的に圧縮可能な領域（ＪＢＩＧによる圧縮が適した領域）、背景領域、前景領域などが含まれる。デジタル画像において、テキストの一部の画素、テキスト画素であると考えられる画素を識別することが望まれている。強度の強いエッジ又は高周波特性を有する画素の近く及びその上の写真領域（絵柄領域）の画素は、テキストの強いエッジ特性と間違えられ、誤ってテキスト画素として分類される可能性がある。また、網点画素もまた、その網点パターンの高周波特性のために、テキスト画素として誤って分類される可能性がある。

間違った画素（テキスト画素ではないのにテキスト候補画素として識別された画素）の量を見積もるため、及び、テキスト画素であるのにテキスト候補画素としてラベル付けされていないテキスト画素を解決するために、テキスト候補画素の検証（verification）が行われる。当該検証は、エッジ情報及び画像区分に基づいた検証処理である。

図２に示される本発明に係る実施形態では、テキスト画素候補のサポートを拡張させる拡張部２０と、写真領域を識別し、テキストマップの補正を行う識別補正部２２とクリーンアップ部２４とを含む。なお、本実施形態のシステムにおいて、識別補正部は、写真領域の識別を行う識別部と、テキストマップ（修正テキスト候補マップ）の補正を行う補正部とを備えている。これにより、従来のテキスト検知処理によって識別されたテキスト候補画素の検証及び補正（refinement）を行うことができる。デジタル画像における従来のテキスト検知処理は、当業者に知られた多数の方法のうちのいずれかによって実現される。これにより、デジタル画像の画素のテキストエッジ候補としてのラベル付けや、生エッジ情報（単純なエッジ検知結果を示す情報）を生成することとなる。テキストエッジ候補のラベル情報や、生エッジ情報は、テキスト画素候補のサポートを拡張させるために使用される。

画素は、その周囲の領域の煩雑度（busyness measure）に基づいてテキスト候補画素としてラベル付けされてもよい。このラベル付けにより特定されるテキストマップ２６は、１ビット画像により示される。例えば、ビット値「１」の画素がテキスト候補を示し、ビット値「０」の画素がテキスト候補ではないことを示す。図３に示される本発明の実施形態では、生エッジ情報２８は、デジタル画像の各画素についてマルチビットのラベルを有する。そして、エッジとしての可能性が高いことを示すラベルが１ビット画像にマップされる（２７）。当該１ビット画像のマップは、エッジマップ２９として特定され、画素がいずれかのタイプのエッジに属することを示す。１ビットマップである、テキストマップ２６及びエッジマップ２９の解像度は、入力画像として同じ解像度であってもよい。

エッジマップ２９は、有意の閾値をエッジカーネルの応答に適用することから抽出される。多くのエッジカーネル及びエッジ検知技術は従来技術として存在する。

テキストマップ２６は、煩雑性（busyness）として知られているテキスチャー特徴（texture feature）から引出される。この特徴量は、網点と線とを区別し、鋭いエッジとぼやけたエッジとを区別する。また、エッジマップにそった値がテキストマップ２６を生成するために使用されてもよい。この場合、網点の変遷と一致するエッジと、テキストであるとの見込みの少ないぼやけたエッジとが見積もられることにより使用される。

テキストマップ２６は、近接標準（proximity criteria）に一致する画像曲率特性の度合いを有するエッジを特定することにより抽出されてもよい。

また、テキストマップ２６は、強いエッジと弱いエッジの割合、および、エッジとサポートの局所領域のための画素との割合、を示すエッジ割合量から引出される。

なお、テキストマップ２６は、他の公知の技術から抽出されても良い。

図３に示されるように、本発明の実施形態では、１ビットマップであるテキストマップ２６及びエッジマップ２９を処理対象として、それぞれ、計算処理３０及び３１において解像度の低減化が行われる。この解像度の低減化処理は、高解像度情報を保護するような方法で行われる。そして、サポートの領域を増やし、より低い解像度処理の計算効果を上げることができる。テキストマップ２６に対応する低解像度マップは、textCnt３２として特定され、エッジマップ２９に対応する低解像度マップは、edgeCnt３３として特定される。そして、解像度の低減化は次のようにして行われる。まず、各マップについて、互いに重ならないｎ×ｎのブロックに分ける。そして、当該ｎ×ｎのブロックを、当該ｎ×ｎブロックに含まれる画素のビット値の合計で置き換える。これにより解像度の低減化が行われる。これにより、テキストマップ２６及びエッジマップ２９をtextCnt３２及びedgeCnt３３のマップに変換する際に、Ｎ×ＮのマップからＮ／ｎ×Ｎ／ｎのマップに解像度が低減化される。例えば、入力された６００dpi（dots-per-inch）の１ビットマップについて、８×８の低減化処理（合計操作）を行うことにより、各合計値を示すための、６ビットを要求する０〜６４の範囲のエントリーが可能な７５dpiのマップを作り出す。また、０と１との合計値が同じエントリーによって示される場合には、５ビットマップのみが必要となる。

textCnt３２及びedgeCnt３３のマップ上の画素は、画素ごとに閾値と比較され、その結果が論理的に結合され（３４，３５）、テキスト候補マップであるtextCandidate３６及び写真候補マップであるpictCandidate３７が生成される。例えば、ある画素について、（edgeCnt＞THh1）及び（textCnt＞TH2）を満たす場合、textCandidate３６のマップにおいて、当該画素がテキスト候補であることを示すように設定される。また、ある画素について、（edgeCnt＞TH3）及び（TextCnt＜TH4）を満たす場合、pictCandidate３７のマップにおいて、当該画素が写真候補であることを示すように設定される。TH1とTH3とは同じであってもよい。

textCandidate３６、pictCnadidate３７、edgeCnt３３及びtextCnt３２のマップは、近傍情報がtextCandidate３６及びpictCandidate３７に組み入れられた後に、結合される。これにより、これらのラベルのサポート領域が拡張される。ラベルのサポート領域が拡大される実施形態を図４に示した。新たなマップである、textCandidateCnt４２及びpictCandidateCnt４３は、それぞれ、textCandidate３６及びpictCandidate３７のn'×n'の移動ウィンドウにおける画素値４０、４１を合計することにより形成される。n'×ｎ'ウィンドウ全体がマップの中に含まれない画素は、境界拡張（boundary extention）およびゼロ見做し（zero padding：端画素を０と見なす）を含む公知の方法の１つによって処理されればよい。textCandidate３６、pictCnadidate３７、edgeCnt３３及びtextCnt３２のマップは、次の数１に従って画素ごとに結合される（４４）。そして、修正テキスト候補マップであるtextCandidateMapが形成される。

修正テキスト候補マップ４６であるtextCandidateMap、エッジ情報であるedgeCnt３３及びオリジナル画像（入力画像）の輝度信号が与えられると、マスクされたエントロピー量がテキスト領域と写真領域とを区別するために使用される。当該区別は、デジタル画像の識別されたテキストの更なる補正を実現する。すなわち、修正テキスト候補マップを用いてマスキングを行い、マスクされたエントロピーを算出して写真領域を分離する。具体的には、修正テキスト候補マップを参照して、テキスト（文字）画素の寄与が非テキスト画素の寄与よりも小さくなるようにマスキングを行う。

領域検知システムの効率性および信頼性は、分類処理に用いられる特徴量に依存する。図５は、異なる２つの画像領域における、特徴量の度数を標準化したプロットの一例を示している。実線５２は、ある特定の領域に属するサンプル画像から抽出された特徴量の度数を示している。破線５４は、別の領域に属するサンプル画像から抽出された特徴量の度数を示している。これら２つの曲線が重なり度合いが大きいことは、当該特徴量が、サンプル画像をこれら２つの領域に分離するために有効ではないことを示している。

図６は、異なる２つの画像領域における、特徴量の度数を標準化したプロットの他の例を示している。実線６２は、ある特定の領域に属するサンプル画像から抽出された特徴量の度数を示している。破線６４は、別の領域に属するサンプル画像から抽出された特徴量の度数を示している。これら２つの曲線が大きく分離されていることは、当該特徴量が、サンプル画像をこれら２つの領域に分離するために有効であることを示している。

本発明の目的のために、「ヒストグラム」は、フォーマットの出現頻度情報を参照するために使用される。ここで、フォーマットとは、例えば、配列、プロット、関連表、および、値（または値の集合）と当該値の度数（または、当該値の集合）とを対応付けた他のデータ構造などである。当該値または値の集合は、例えば、色（輝度または色度）、エッジ強度、エッジ方向、テキスチャ（周波数情報）、その他の全ての画像特徴に関連するものであってもよい。

本発明の実施形態は、デジタル画像における領域識別の方法またはシステムを含むものである。その中の１つの実施形態では、特徴量抽出の前に、マスキング条件を満たす画像の画素をマスキングすることにより、画像領域に対応する特徴量間の分離が行われる。マスキング条件を満たすマスク画素の値は、画像から特徴量を抽出する際に使用されない。

図７に示した本発明の一実施形態では、マスクされた画像５１は、入力画像５０から形成される（Ｓ５２）。マスクされた画像５１は、入力画像５０の各画素に対してマスキング条件を確認することにより形成される。図８は、マスクされた画像の形成手順を示している。入力画像の画素６０がマスキング条件を満たす場合（８２）、マスクされた画像における対応する位置の画素の値として、マスキング条件が入力画像における画素位置で満足することを示すマスク画素値が割り当てられる（８６）。入力画像の画素６０がマスキング条件を満たさない場合（８４）、マスクされた画像における対応する位置の画像の値として、入力画像における入力画素の値が割り当てられる（８８）。このようにして、マスクされた画像は、マスキング条件を満たす入力画像の画素をマスクすることとなる。すなわち、本発明のシステムは、デジタル画像に対してマスキング条件を適用して、上記マスキング条件を満たすマスク画素を識別する識別処理部を備えている。

図７に示した本発明の実施形態では、マスクされた画像７１を形成した後（７２）、ヒストグラム７３がマスクされた画像のブロックに対して生成される（７４）。このヒストグラム７３は、マスクされた画像の区分、セクション、その他の分割ともみなされる。なお、ヒストグラム７３は必ずしも長方形でなくてもよい。本発明の目的のために、「ブロック」は、画像データの一部を示すために使用されるものであり、当該画像データの一部の形状としては、正方形、長方形、円、楕円、ほぼ円形などの様々な形状がある。

図９は、ヒストグラムの形成手順の一例（７４）を示すフローチャートである。マスクされた画像が取り得る画素値に対応する複数のビン（区分）を持つヒストグラムが、図９に従って形成される。本実施形態では、全てのビンが、初期値として「０」が設定される。マスクされた画像のブロックにおける画素９０の値は、マスク画素値と比較される（９１）。画素９０の値がマスク画素値と等しい場合（９２）、当該画素は、ヒストグラムに累積されない。つまり、どのヒストグラムのビンも加算されないことを意味する。ブロック内に調査すべき画素が残っている場合、ブロック内の次の画素が調査される（９１）。画素９０の値がマスク画素値と同じではない場合（９３）、当該画素は、ヒストグラムに累積される（９４）。つまり、画素値に対応するヒストグラムのビンが加算されることを意味する。ブロックに調査すべき画素が残っている場合（９７）、ブロックの次の画素が調査される（９１）。

画素がヒストグラムに累積される場合（Ｓ９４）、マスクされた画像のブロックにおける非マスク画素のカウント数が増やされる（Ｓ９５）。ブロックの全ての画素が調査されると（９８，９９）、ヒストグラムの標準化が実行される（Ｓ８９）。マスクされた画像のブロックにおける非マスク画素のカウント数によって、各ビンの総計を割り算することにより、当該ヒストグラムは標準化される。また、ヒストグラムが標準化されず、非マスク画素のカウント数をカウントするカウンターが存在しない形態も考えられる。このように、本実施形態のシステムは、注目画素の周辺領域の複数の画素について、上記マスク画素を累積しないようにして、各画素の値のヒストグラムを生成するヒストグラム生成部を備える。

マスクされた画像は、２つの成分で表現される。第１の成分は、マスクされた画素がビット値の一方で表現され、マスクされていない画素が他方のビット値で表現される２値画像であり、マスクとも考えられる。第２の成分は、デジタル画像である。マスクとデジタル画像との論理的組み合わせは、マスクされた画像を形成する。ヒストグラムの形成は、マスクされた画像の上記２つの成分を組み合わせて使用することで、実行される。

エントロピー量７５（図７参照）は、マスクされた画像のブロックのヒストグラム７３に対して計算される（Ｓ７６）。エントロピー量７５は、入力画像の画像特徴としてみなされる。エントロピー量７５は、以下の形式の値としてみなされてもよい。本実施形態のシステムは、ヒストグラムのエントロピー量を計算し、注目画素のエントロピー量を求めるエントロピー量計算部を備える。

数２において、Ｎはヒストグラムのビンの数であり、h(i)はビンｉの累積数またはカウント数であり、f(・)は対数関数に似た数学的指標を持つ関数である。ビンにカウントされる画素、つまり、マスクされたものを除く画素の割合によって、エントロピー量７５は重み付けされる。エントロピー量は、次の形式である。

数３において、w(i)は、重み付け関数である。本発明のいくつかの実施形態では、関数f(h(i))はlog_２(h(i))である。

図７に示された本発明の実施形態では、注目画素を中心とする画像のブロックに対応するヒストグラム７３に対してエントロピー量７５を算出した後（Ｓ７６）、当該注目画素は、エントロピー量（エントロピー特徴）７５に従って分類される（Ｓ７７）。分類処理（Ｓ７７）は、閾値に基づいて行われる。閾値は、予め適切に決められている、もしくは、多くの方法によって決められている。注目画素は、エントロピー量７５と閾値との比較によって、２つの領域のうちの一方に属するものとして分類される。

図１０に示した本発明の実施形態では、デジタル画像１００および対応するマスク画像１０１が、マスクされたデータ１０３を形成するために結合される（Ｓ１０２）。マスクされたデータ１０３は、量子化される（Ｓ１０４）。そして、マスクされた量子化データ１０５となる。マスクされた量子化データ１０５のヒストグラム１０７が生成され（Ｓ１０６）、そして、エントロピー量１０９が、当該ヒストグラム１０７を用いて計算される（Ｓ１０８）。ヒストグラムの生成（Ｓ１０６）およびエントロピー量の計算（Ｓ１０８）に要する手間は、マスクされたデータの量子化レベルまたは度合いに依存する。ヒストグラムのビンの数は、量子化レベルの数に依存する。すなわち、ヒストグラムのビンの数は、ヒストグラムの生成（Ｓ１０６）およびエントロピー量の算出（Ｓ１０８）に要する手間に影響を与える。スキャンする際のノイズや他の要因のために、ドキュメントにおける平坦エリア（均一なエリア）は、当該ドキュメントのデジタル画像において単一の色の値に対応していない。図１０に示した実施形態では、量子化の度合いは、ドキュメントにおける均一の色のエリアに対して予期されるノイズ量に関連している。量子化幅は固定であっても、非固定であってもよい。また、量子化は、２の累乗で示されてもよい。この場合、量子化は、シフティング（shifting）を用いて実行される。このように、本実施形態のシステムは、注目画素の周辺領域の複数の画素の値を量子化する量子化部を備えている。

また、マスクされたデータは、量子化されなくてもよい。しかしながら、ヒストグラムのビンの数は、マスクされたデータ値の数よりも小さい方がよい。これらの実施形態では、ヒストグラムのビンは、マスクされたデータ値の範囲を示している。

図１１に示される実施形態のように、量子化Ｓ１１０・Ｓ１１１、ヒストグラムの生成Ｓ１１２、およびエントロピー計算Ｓ１１４は、デジタル画像１００および対応するマスク画像１０１の組み合わせ１０２により生成された、マスクされたデータ１０３に対して、複数回実施されてもよい。マスクされたデータは、異なる量子化方法Ｓ１１０、Ｓ１１１を用いて量子化される。異なる量子化方法は、例えば、量子化のレベルが異なっている。もしくは、異なる量子化方法は、量子化レベルが同じであるが、ヒストグラムのビンの境界が変化するものであってもよい。例えば、ヒストグラムのビンの境界は、ビンの幅の１／２ごとに変化していてもよい。ヒストグラムは、各量子化方法Ｓ１１０、Ｓ１１１によって生成されたデータから作成される。そして、エントロピー計算Ｓ１１４は、各ヒストグラムに対して行われる。生成された複数のエントロピー量は、組み合わせされて（Ｓ１１６）、一つのエントロピー量１１７に変換される。一つのエントロピー量とは、平均値、最大値、最小値、分散値など、複数のエントロピー量の結合により導出可能なものである。

また、図１２に示される形態であってもよい。すなわち、デジタル画像１００と対応するマスク画像１０１との組み合わせによって形成されたデータ１０３が、異なる量子化方法Ｓ１１０・１１１を用いて量子化される。そして、複数のヒストグラム１２０・１２１が複数のマスクされた量子化データ１２２・１２３に基づいて作成される。複数のヒストグラム１２０・１２１の中から、エントロピー計算Ｓ１２５のために１つのヒストグラム１２６が選択される。例えば、最大のビンの度数をもつヒストグラムを用いて、エントロピー計算が行われる。もしくは、最大の度数和となる極大部分をもつヒストグラムが用いられてもよい。

また、画像の各画素を順に中心としていく、画素値の移動ウィンドウ（a moving window）が、中心画素（注目画素）を含むブロックのためのエントロピー量を計算するために使用されてもよい。エントロピー量は、マスクされた画像の対応するブロックから算出される。エントロピー量は、上記移動ウィンドウの中心の位置の画素を分類するために使用される。図１３に示される実施形態のように、画素のブロックが、エントロピー量の算出のために使用される。エントロピー量は、ブロックにおける単一の画素を分類するために使用される。図１３において、ブロック１３１が画像１３０のために示されている。ブロック１３１におけるマスクされた画像の画素が、エントロピー量を計算するために使用される。当該エントロピー量は、画素１３２におけるエントロピー量としてみなされる。ブロックの中心画素１３２は、エントロピー量に従って分類される。

エントロピー量は、画像のブロックに対して算出されてもよい。当該ブロックの中の全ての画素は、当該エントロピー量に従って同じ種別に分類される。図１４は、ブロックが、当該ブロックの全ての画素を分類するために使用されるエントロピー量を計算するために使用される実施形態を示している。図１４において、ブロック１４１は、画像１４０に対して示されている。当該ブロックのマスクされた画像の画素が、エントロピー量を計算するために使用される。ブロック１４１の全ての画素１４２は、エントロピー量に従って分類される。

図１５に示される実施形態のように、エントロピー量は、ヒストグラムの選択された極大部分を考慮して計算されてもよい。もしくは、エントロピー量は、ヒストグラムのピークに基づいて計算されてもよい。デジタル画像１００および対応するマスク画像１０１は、マスクされたデータ１０３を形成するために組み合わされる（Ｓ１０２）。マスクされたデータ１０３は、量子化される（Ｓ１０４）。これにより、マスクされた量子化データ１０５が生成される。そして、マスクされた量子化データ１０５のヒストグラム１０７が生成される（Ｓ１０６）。次に、ヒストグラム１０７の選択された極大部分を考慮するために、変更されたヒストグラム１５１が生成される（１５０）。その後、マスクされた量子化データの変更されたヒストグラム１５１を用いて、エントロピー量１５３が計算される（Ｓ１５２）。なお、ヒストグラム１０７の単一の極大部分が考慮されてもよい。当該単一の極大部分は、ヒストグラムが形成される画像データのウィンドウの中心画素の画像値を含む極大部分であってもよい。

また、図１６に示される実施形態のように、デジタル画像１６０が画素選択モジュール１６１の出力１６２と結合することにより（Ｓ１６３）、エントロピー計算で考慮されるデータ１６４が生成されてもよい。データ１６４は、量子化される（Ｓ１６５）。ヒストグラム１６８は、量子化されたデータ１６６から作成される（Ｓ１６７）。そして、エントロピー量１５９がヒストグラム１６８から計算される（Ｓ１６９）。画素選択モジュール１６１は、入力として複数のマスク１５７・１５８を用いる画素選択ロジックを備えている。マスク１５７・１５８は、画像構造に対応している。画像構造には、例えば、文字、網点、下地、およびエッジが含まれる。画素選択ロジック１６１は、デジタル画像１６０と結合される選択マスク１６２を生成する。当該選択マスクは、エントロピー計算においてマスクされる画像画素を選択するためのものである。

なお、マスキング条件は、画素のエッジ強度に基づいていてもよい。例えば、マスキング条件：エッジ強度が所定値以上である、などが予め設定されている。一般に、文字領域ではエッジ強度が大きい。そこで、文字領域を抽出可能な程度に当該所定値を設定しておく。これにより、文字領域の画素をマスク画素としてマスクすることが可能となる。すなわち、マスキング条件は、エッジ強度（第１特徴量）と、所定値（信頼性データ）とに基づいて生成される。

なお、信頼性データは、例えばエッジ強度の平均値であってもよい。また、閾値以外でも、所定閾値以上となるエッジ強度の最大値、最小値を算出し、エッジ強度と（最大値−最小値）の比率を信頼性データとして用いてもよい。この場合、上記比率に応じて、上記比率が大きいほどエントロピー量への寄与率を低く、小さいほど寄与率を高くするようマスキングする（単純には、比率の逆数を乗算するなど）。

また、マスキング条件が満たされる程度の信頼度が計算されてもよい。当該信頼度は、画素をヒストグラムに累積させるときに使用される。図１７は、信頼度が使用される形態の一例を示している。

図１７に示される実施形態では、マスクされた画像１７１が入力画像１７０から形成される（Ｓ１７２）。マスクされた画像１７１は、入力画像１７０の各画素でのマスキング条件を確認することにより形成される。図１８に示される形態のように、マスクされた画像１７１の形成が行われてもよい。すなわち、入力画像の画素１８０がマスキング条件を満足するとき（１８２）、マスクされた画像の対応する画素に、当該画素においてマスキング条件が満たされることを示す値（マスク画素値）が割り当てられる（Ｓ１８６）。入力画像の画素１８０がマスキング条件を満足しないとき（１８４）、マスクされた画像の対応する画素に、入力画像１８８における対応する画素の値が割り当てられる。マスキング条件が満たされる画素では、さらに、マスク特性信号（a mask signature signal）での信頼性を反映した信頼度が割り当てられる（Ｓ１８５）。信頼度の割り当ては、マスク画素に対する分離値であってもよい。また、マスク画素値が、信頼性を示すレベルを持ったマルチレベルであってもよい。マスクされた画像は、入力画像における、マスキング条件を満たす画素をマスクし、さらに、マスキング条件を満足するレベルを識別する。

図１７に示した実施形態では、マスクされた画像１７１を形成した（Ｓ１７２）後、ヒストグラム１７３が当該マスクされた画像１７１のブロックに対して生成される（Ｓ１７４）。図１９は、ヒストグラム形成（Ｓ１７４）の手順の一例を示すフローチャートである。マスクされた画像の取りうる画素値に対応するビンを有するヒストグラムが、図１９に従って生成される。この例では、全てのビンにおいて、初期値０が設定される。まず、マスクされた画像のブロックにおける画素の値１９０が、マスク画素値と対比される（Ｓ１９１）。画素の値１９０がマスク画素値と同じである場合（１９２）、当該画素は、信頼度に基づいたわずかな（fractional）カウント数でヒストグラムに累積される。そして、調査すべき画素がブロックに残っている場合（１９６）、当該ブロックの次の画素が調査される（Ｓ１９１）。画素の値１９０がマスク画素値と同じではない場合（１９４）、当該画素は、ヒストグラムに累積される（Ｓ１９５）。すなわち、画素値に対応するヒストグラムのビンが加算される。そして、調査すべき画素がブロックに残っている場合（１９７）、当該ブロックの次の画素が調査される（Ｓ１９１）。

画素がヒストグラム１９５に累積されるとき、マスクされた画像のブロックにおける非マスク画素のカウント数が増大される（Ｓ１９８）。ブロックの全ての画素が調査されると（Ｓ２００，Ｓ１９９）、ヒストグラムは標準化される（Ｓ２０１）。ヒストグラムの標準化（Ｓ２０１）は、各ビンのカウント数を、マスクされた画像のブロックにおける非マスク画素の数で割ることにより行われてもよい。なお、ヒストグラムは、必ずしも標準化されなくてもよく、マスクされた画像のブロックにおける非マスク画素のカウント数をカウントするカウンターが存在しなくてもよい。

そして、上記実施形態でも述べたように、マスクされた画像の近傍画素のヒストグラムに対して、エントロピー量１７５が計算される（Ｓ１７６）。図１７に示す実施形態では、画素を中心とする画像のブロックに対応するヒストグラム１７３に対してエントロピー量１７５を計算した（Ｓ１７６）後、当該画素は、エントロピー量１７５に従って、分類される（Ｓ１７７）。図１７に示される分類処理（Ｓ１７７）は、閾値に基づいて行われる。閾値は、予め適切に定められていてもよく、多くの方法によって定められていてもよい。画素は、エントロピー量１７５と閾値との大小関係に従って、２つの領域のいずれかに属するものとして分類されてもよい。

マスキング条件は、単一の画像条件のみを備えていても良い。また、マスキング条件は、マスキング条件を形成するために結合される複数の画像条件を備えていても良い。

エントロピー量は、画像を２つの領域に分離するために使用される。または、エントロピー特徴は、画像を２つ以上の領域に分離するために使用されてもよい。

さらに、データのダイナミックレンジ全体が使用されなくてもよい。ヒストグラムは、ダイナミックレンジの上下限の間の値を持つ画素のみを考慮して生成されてもよい。もちろん、ダイナミックレンジヒストグラムを用いても良い。

また、統計上のエントロピー量は、次式によって求められる。

数４において、Ｎはビンの数を示している。また、h(i)は、ビンｉに対して下記の数５のように標準化されたヒストグラムにおけるカウント数を示している。また、log_２(0)=1は、空（empty）のビンを示している。

最大エントロピーは、均一のヒストグラム分布に対して得られる。例えば、各ビンに対して、h(i)＝１／N である場合には、最大エントロピーは以下の数６のようになる。

エントロピー計算は、固定少数点演算に変換され、符号なし８ビット、UNIT8の評価値を導出してもよい。この評価値では、０がエントロピーなしを示し、２５５が最大エントロピーを示している。固定小数点演算は、２つのテーブルを使用する。第１のテーブルは、対数計算に取って代わるものであり、以下のlog_tableで示される。第２のテーブルは、ヒストグラム標準化ステップにおける割算を実行するためのものであり、rev_tableとして示される。９つのビンを有するヒストグラムの場合、次のような手順により、整数（integer）エントロピー計算が実現される。

数７において、log_shift,rev_shift,accum_shiftは、それぞれ、対数、割算、累算処理の精度に対応している。

ハードウェアにより実現する場合には、標準化されたヒストグラムのビンの値であるｎを算出するための整数除算回路を使用してもよい。

この例では、ビンの数が９（Ｎ＝９）であり、標準化乗数が２５５／Ｅｍａｘ＝８１である。各算出ステップの固定小数点の精度は、アプリケーションや分析対象のデータの性質に依存して調整される。同様に、ビンの数も調整される。

図２０に示される実施形態では、マスクされたエントロピー特徴２１３が、マスクとしてtextCandidateMap２１０を使用した入力画像の輝度信号２１１について生成される（Ｓ２２０）。マスクされたエントロピー特徴の計算処理（Ｓ２２０）で使用される輝度信号２１１は、デジタル画像と同じ解像であってもよい。もしくは、マスクされたエントロピー特徴の計算処理（Ｓ２２０）で使用される輝度信号２１１の解像度は、デジタル画像よりも低いものであってもよい。本実施形態では、マスクされたエントロピー特徴は、サポート２１４のより大きな領域についてのエントロピー量を生成するため、ローパスフィルタによってフィルタ処理される（Ｓ２２１）。そして、このエントロピー量は、平均エントロピーとして参照される。

また、本発明の一実施形態では、６００dpiの画像の輝度信号が７５dpiに標本化され、７５dpiのtextCandidateMapと結合される。そして、画像としてみなされる７５dpiのマスクされたエントロピー特徴列を、11×11の移動ウィンドウを用いて生成し、上述した公知の方法の何れかを用いてマスクされたエントロピーを計算する。その後、マスクされたエントロピー特徴列は、3×3の平均化フィルタを用いてフィルタ処理されてもよい。

写真領域２１５は、二重またはヒステリシスの閾値処理２２３を用いて平均エントロピー２１４から成長される。例えば、上閾値が２００であり、下閾値が１６０である。注目画素におけるエントロピー平均値が上閾値２００以上のとき、あるいは、近傍画素に写真画素が存在し、かつ、注目画素（既に写真領域抽出が行われた画素）におけるエントロピー平均値が下閾値１６０以上のとき、注目画素を写真画素と判定する。平均エントロピー２１４から成長された（Ｓ２２３）写真領域２１５は、pictEntとして参照される１ビットマップで示される。

平均エントロピー２１４及びマスクされたエントロピー計算（Ｓ２２０）に使用されるマップ（textCandidateMap）２１０は、結合され、画素が不確定エッジ画素であることを示す１ビットマップを形成する（Ｓ２２２）。画素の平均エントロピーが高く、その画素がテキスト候補である場合、当該画素がテキスト画素であるか、当該画素は写真領域のエッジに属するものとされる。inTextとして参照される１ビットマップ２１６は、ロジック「textCandidateMap&(aveEnt≧TH8)」によって生成される。ここで、TH8は例えば８０である。また、aveEntは平均エントロピーを示している。すなわち、１ビットマップ２１６（inText）は、textCandidateMapにおいてテキスト候補であると示され、かつ、平均エントロピーがTH6以上である画素を示すものである。

平均エントロピー２１４、マップ（textCandidateMap）２１０及びedgeCntを閾値処理したバージョンのマップ２１２が結合され、inPictで参照される１ビットマップ２１７を形成する（Ｓ２２４）。当該１ビットマップ２１７は、テキストエッジ画素ではない画素が写真領域に属する見込みが高いことを示している。当該１ビットマップ２１７は、ロジック「(edgeCntTH&〜textCandidateMap)|(aveEnt＞TH9)」に従って生成される。TH9は例えば２００である。すなわち、エッジ画素であるがテキスト画素でない、あるいは、エントロピー平均値が所定閾値TH9より大きいとき真となり、画素が写真領域に属する可能性が高いことを示す。

上記の３つの結果である、pictEnt２１５、inText２１６及びinPict２１７は、写真領域成長プロセス２２５において結合される。これによって、多値画像であるPictCnt２１８を生成する。

具体的には、まず、４近傍画素を参照し、多値画像pictCnt２１８の最大値maxCntを算出する。
maxCnt = MAX(PictCnt(i, j-1), 5 PictCnt(i-1, j));
maxCnt = MAX(maxCnt, PictCnt(i-1, j-1));
maxCnt = MAX(maxCnt, PictCnt(i-1, j+1));

次に、注目画素について、pictEnt２１５、inText２１６及びinPict２１７に基づいて注目画素のpictCnt２１８を算出する。inPict２１７が真であり、かつ、pictEnt２１５が真であるとき、注目画素が写真領域に属する可能性が高いと判定し、近傍最大値maxCntに１を加算した値を注目画素のpictCnt２１８として出力する。
pictCnt(i, j) = maxCnt + 1;

inPict２１７が真である、あるいは、pictEnt２１５が真であるとき、注目画素が写真に属するか否か判定不可能であるため、近傍最大値maxCntをそのまま注目画素のpictCnt２１８として出力する。
pictCnt(i, j) = maxCnt;

inTextが真であるとき、近傍最大値maxCntから所定値(16 − cnt×4)を減算した値を注目画素のpictCnt２１８として出力する。
PictCnt(i, j) = maxCnt − (16 − cnt×4);

但し、概所定値(16 − cnt×4)は近傍のpictCnt２１８値に基づいて算出されるものであり、近傍画素においてPictCnt＞THを満たす画素数をカウントする。PictCnt＞THを満たす画素が多いほど所定値(16−cnt×4)は小さくなり、PictCnt＞THを満たす画素が少ないほど所定値(16-cnt×4)は大きくなり、その結果減算値が大きくなる。例えば、全ての近傍画素がPictCnt＞THを満たすとき、所定値は(16−4×4)＝０となるため、近傍最大値maxCntをそのまま注目画素のpictCnt２１８として出力する。一方、全ての近傍画素がPictCnt＞THを満たさないとき、所定値は(16−4×0)＝１６となるため、近傍最大値maxCntから１６を減算した値を注目画素のpictCnt２１８として出力する。

上記何れの条件式をも満たさない場合、pictCnt２１８を０に初期化する。
PictCnt(i, j) = 0;

但し、上記処理において、PictCnt２１８が０より小さくなる場合０に、２５５より大きくなるとき２５５に飽和処理することにより、８ビット信号を生成している。
PictCnt(i, j) = PictCnt(i, j) > 255 ? 255 : PictCnt(i, j);
PictCnt(i, j) = PictCnt(i, j) < 0 ? 0 : PictCnt(i, j);

上記式は、注目画素が写真領域である可能性が高いほどpictCnt２１８を増加させ、文字信号である可能性が高いほどpictCnt２１８を減少させる履歴処理である。従って、多値画像PictCnt２１８では、より高い値が写真領域に属する見込みが高いことを示している。本発明の実施形態では、各画素における写真領域成長プロセス２２５は、４つの近傍画素を用いたカウンティングプロセスであってもよい。ここで、４つの近傍画素は、スキャン方向によって変るものである。図２１Ａは、スキャン方向が左上から右下のときの画素２３０に対する４つの近傍画素２３１−２３４を示すものである。図２１Ｂは、スキャン方向が右上から左下のときの画素２４０に対する４つの近傍画素２４１−２４４を示すものである。図２１Ｃは、スキャン方向が左下から右上のときの画素２５０に対する４つの近傍画素２５１−２５４を示すものである。図２１Ｄは、スキャン方向が右下から左上のときの画素２６０に対する４つの近傍画素２６１−２６４を示すものである。カウンティングプロセスは、複数のスキャン回数に対して実行されてもより。この場合、各スキャンで得られるカウント値を累積させる。

４回のスキャンが連続して実行されてもよい。スキャンの順番は、例えば、左上から右下方向、右上から左下方向、左下から右上方向、右下から左上方向の順で行われる。PictCntの画素位置（i,j）における値PictCnt(i,j)は、上述したスキャンの順番に対して、下記の式によって与えられる。結果は、次のスキャンへと伝達される。なお、数９〜数１２は、それぞれ、左上から右下方向、右上から左下方向、左下から右上方向、右下から左上方向の処理に対応している。

写真領域である見込みを示すPictCntと、修正テキスト候補マップであるtextCandidateMapとが結合され、補正テキストマップ２１９であるrTextが形成される。当該結合は、ロジック「(PictCnt＜Th10)&textCandidateMap」に従って、画素ごとに行われる。ここで、TH10は例えば４８である。詳細には、より高い値が写真領域に属する可能性の高いことを示すPictCntが所定閾値Th10より小さく、かつ、textCandidateMapが真となる画素を文字画素と判定することにより、補正テキストマップ２１９であるrTextが形成される。

図２に示される実施形態では、エントロピーに基づいた写真領域の識別処理及びテキスト候補マップの補正処理を行う識別補正部２２の処理の後に、クリーンアップ部２４によってクリーンアップ処理が行われる。当該クリーンアップ処理は、構成要素を制御するためのサポート情報としてPictCntを用いた、補正テキストマップであるrTextに対する形態学的な操作を含む。

テキストクリーンアップ処理からの低い解像度の結果は、より高い解像度のエッジマップと結合され、高解像度の変形テキストマップが生成される。

以上のように、本発明の方法及びシステムでは、第１の特徴量であるエッジと、エッジ抽出の信頼性を表す信頼性データに基づいて画像の写真領域（絵柄領域；pictorial）の特徴量を算出する。上記の実施形態では、写真領域の特徴量として、マスクされた画像のエントロピーを求める。

マスクされたエントロピーとは、次のようにして求める。つまり、マスキング条件（マスク条件）を充たすマスク画素についてはマスク画素値を与え、マスキング条件を充たさない非マスク画素については入力画像の画素値を与え、マスキング条件を充たさない画素について、ブロック毎にヒストグラムを作成し、ヒストグラムの階級値をブロックのマスキング条件を充たさない画素数で割る。この際、マスク画素についてわずかな値を与えても良い。そして、マスキング条件を充たさない画素のヒストグラムのエントロピーを求める。その後、エントロピーの値を閾値処理し、注目画素（あるいは、ブロック）の分類を行う。

次に、写真領域の特徴量とエッジの情報を用いて、信頼性の高い写真領域を求める。ここで、信頼性の高い写真領域を求める方法とは次のようなものである。まず、マスク条件を充たす画素について、信頼性を表す信頼度（マスク条件を充たすレベル）が与えられる。そして、マスク条件を充たす画素についてヒストグラムを作成するとともに、マスク条件を充たさない画素についてもヒストグラムを作成する。その後、マスクされた画像の周辺領域についてのエントロピーを求め、閾値処理を行って、注目画素（あるいは、ブロック）の分類を行う。

そして、信頼性の高い写真領域に基づいてテキスト領域を求める。

また、本発明の方法及びシステムは、テキスト候補マップのテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する。

次に、修正テキスト候補マップを用いてマスキングを行い、エントロピーを算出して写真領域を分離する。具体的には、テキスト候補マップと入力画像の輝度信号を用いてマスクされたエントロピーを計算する。計算結果にローパスフィルタ処理を行い、平均化されたエントロピーを求める。そして、平均化されたエントロピーについて２つの閾値、あるいは、ヒステリシス閾値処理により、写真領域の核となる領域を求める。ここで、平均化されたエントロピーが高く、テキスト候補である画素については、写真領域のエッジであると判定する。また、平均化されたエントロピー、テキスト候補マップおよびエッジマップを閾値処理した結果を参照し、写真領域に属する可能性が高い画素は、写真領域の非エッジ画素であると判定する。これらの結果を用いて、写真領域の補正（拡張）を行う。なお、注目画素に隣接する４つの画素を、スキャンを行う方向について、カウントする。

その後、上記算出した写真領域の結果を用いて修正テキスト候補マップの補正を行う。

発明の詳細な説明の項においてなされた具体的な実施形態または実施例は、あくまでも、本発明の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本発明の精神と次に記載する特許請求事項の範囲内で、いろいろと変更して実施することができるものである。

最後に、本発明のシステムの各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、本発明のシステムは、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである領域検知システム２０の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記領域検知システム２０に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、本発明のシステムを通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明は、複合機などの画像形成装置に適用できる。

異なる複数の種別の領域を含む画像の一例を示す図である。後にエントロピーに基づいた写真領域の識別が実行される、初期領域が拡張されたテキスト候補マップを生成する処理の流れを示す図である。画像特徴のサポートを拡張するためにしようされるカウンティングプロセスを示す図である。修正テキストマップの生成処理を示す図である。特徴量の分離度を示すヒストグラムの一例である。特徴量の分離度を示すヒストグラムの他の例である。本発明の一実施形態を示すものであり、マスクされた画像のヒストグラムからエントロピー量を計算する処理の流れを示す図である。マスクされた画像の生成処理を示す図である。ヒストグラムの生成処理の一例を示す図である。本発明の他の実施形態を示すものであり、マスキング、量子化、ヒストグラム生成およびエントロピー計算を含む処理の流れを示す図である。本発明の他の実施形態を示すものであり、選択データに対して複数の量子化を行い、複数のエントロピー計算を行う場合の処理の流れを示す図である。本発明の他の実施形態を示すものであり、選択データに対して複数の量子化を行う場合の処理の流れを示す図である。画像ウィンドウにおける画素の分類を示す図である。画像ウィンドウにおけるブロックの分類を示す図である。極大部分に基づいたヒストグラムの変形処理を含む実施形態の処理の流れを示す図である。複数のマスク入力を用いた画素選択ロジックを含む実施形態の処理の流れを示す図である。信頼度を用いたヒストグラムからのマスクエントロピー量計算を含む実施形態の処理の流れを示す図である。信頼度を用いたときのマスクされた画像の生成処理の一例を示す図である。信頼度を用いたヒストグラム生成処理の一例を示す図である。テキスト補正で使用される、エントロピーに基づいた写真領域の識別処理を示す図である。左上から右下方向のスキャンにおける４つの近傍画素を示す図である。右上から左下方向のスキャンにおける４つの近傍画素を示す図である。左下から右上方向のスキャンにおける４つの近傍画素を示す図である。右下から左上方向のスキャンにおける４つの近傍画素を示す図である。

符号の説明

２０拡張部
２２識別部
２４クリーンアップ部

Claims

スキャナで読み取ることにより得られたデジタル画像の中のテキストを識別する方法であって、
テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する第１ステップと、
デジタル画像の各画素におけるエッジ強度である第１特徴量を示す第１特徴データを取得する第２ステップと、
上記デジタル画像に対応するデジタル画像データを取得する第３ステップと、
上記第１特徴量が第１の所定閾値以上である画素をマスク画素とし、上記第１特徴量が当該第１の所定閾値未満である画素を非マスク画素として画素を分類する第４ステップと、
上記デジタル画像データの注目画素毎に、当該注目画素を含む所定サイズのブロック内の複数の画素の画素値について、上記第１特徴量により分類されたマスク画素と非マスク画素とを用いて、度数に対するマスク画素の寄与が非マスク画素の寄与よりも小さくなるようにヒストグラムを作成し、当該ヒストグラムに対するエントロピー量を第２特徴量として計算する第５ステップと、
上記第２特徴量が第２の所定閾値以上である注目画素を写真領域の画素として求める第６ステップと、
上記修正テキスト候補マップから、上記写真領域の画素を削除することで、補正後のテキストマップを生成する第７ステップと、
を含むことを特徴とするテキストを識別する方法。
上記デジタル画像データは、輝度を示すデータであることを特徴とする請求項１に記載の方法。
上記デジタル画像データの解像度は、上記第１特徴データの解像度よりも小さいことを特徴とする請求項１に記載の方法。
上記第６ステップにおいて、上記第２特徴量に対してヒステリシスな閾値処理を行うことにより、写真領域を求めることを特徴とする請求項１に記載の方法。
スキャナで読み取ることにより得られたデジタル画像のテキストを識別する方法であって、
テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する第１ステップと、
上記デジタル画像に対応するデジタル画像データを取得する第２ステップと、
上記修正テキスト候補マップにおいてテキスト画素としてラベル付けされている画素をマスク画素とし、上記修正テキスト候補マップにおいて非テキスト画素としてラベル付けされている画素を非マスク画素とし、上記デジタル画像データの注目画素毎に、当該注目画素を含む所定サイズのブロック内の複数の画素の画素値について、度数に対するマスク画素の寄与が非マスク画素の寄与よりも小さくなるようにヒストグラムを作成し、当該ヒストグラムに対してエントロピー量を計算する第３ステップと、
上記エントロピー量が所定閾値以上である注目画素を写真領域の画素として求める第４ステップと、
上記修正テキスト候補マップから、上記写真領域の画素を削除することで、補正後のテキストマップを生成する第５ステップと、
を含むことを特徴とする方法。
上記第４ステップにおいて、ヒステリシス閾値処理を行うことにより写真領域を識別することを特徴とする請求項５に記載の方法。
上記第１ステップは、
上記デジタル画像のエッジを識別するエッジマップの入力を受け付けるステップと、
入力されたエッジマップにおいて、所定サイズのブロックごとにエッジ画素の数をカウントし、当該ブロックの各々とカウントしたエッジ画素の数とを対応付けたエッジカウントマップを生成するステップと、
上記デジタル画像におけるテキスト候補画素を示すテキスト候補マップの入力を受け付けるステップと、
入力されたテキスト候補マップにおいて、所定サイズのブロックごとにテキスト候補画素の数をカウントし、当該ブロックの各々とカウントしたテキスト候補画素の数とを対応付けたテキストカウントマップを生成するステップと、
を含み、
テキスト候補マップ、エッジマップ、テキストカウントマップ、エッジカウントマップの各画素の値について閾値処理を行うことにより、修正テキスト候補マップを生成することを特徴とする請求項５に記載の方法。
上記テキスト候補マップは、デジタル画像におけるテキステャー特徴に基づいて生成されたものであることを特徴とする請求項７に記載の方法。
スキャナで読み取ることにより得られたデジタル画像のテキストを識別するシステムであって、
テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する拡張部と、
上記修正テキスト候補マップにおいてテキスト画素としてラベル付けされている画素をマスク画素とし、上記修正テキスト候補マップにおいて非テキスト画素としてラベル付けされている画素を非マスク画素とし、上記デジタル画像に対応するデジタル画像データにおいて、当該デジタル画像データの注目画素毎に、当該注目画素を含む所定サイズのブロック内の複数の画素の画素値について、度数に対するマスク画素の寄与が非マスク画素の寄与よりも小さくなるようにヒストグラムを作成し、当該ヒストグラムに対してエントロピー量を計算し、当該エントロピー量が所定閾値以上である注目画素を写真領域の画素として求める識別部と、
上記修正テキスト候補マップから、上記写真領域の画素を削除することで、補正後のテキストマップを生成する補正部と、
を備えることを特徴とするシステム。
上記識別部は、ヒステリシス閾値処理を行うことにより写真領域を識別することを特徴とする請求項９に記載のシステム。
上記拡張部は、
上記デジタル画像のエッジを識別するエッジマップの入力を受け付けるエッジマップ入力受付部と、
入力されたエッジマップにおいて、所定サイズのブロックごとにエッジ画素の数をカウントし、当該ブロックの各々とカウントしたエッジ画素の数とを対応付けたエッジカウントマップを生成するエッジカウントマップ生成部と、
上記デジタル画像におけるテキスト候補画素を示すテキスト候補マップの入力を受け付けるテキスト候補マップ入力受付部と、
入力されたテキスト候補マップにおいて、所定サイズのブロックごとにテキスト候補画
素の数をカウントし、当該ブロックの各々とカウントしたテキスト候補画素の数とを対応付けたテキストカウントマップを生成するテキストカウントマップ生成部と、
を備え、
テキスト候補マップ、エッジマップ、テキストカウントマップ、エッジカウントマップの各画素の値について閾値処理を行うことにより、修正テキスト候補マップを生成することを特徴とする請求項９に記載のシステム。
上記テキスト候補マップは、デジタル画像におけるテキステャー特徴に基づいて生成されたものであることを特徴とする請求項１１に記載のシステム。