JP4498422B2

JP4498422B2 - 画素の分類方法および画像処理装置

Info

Publication number: JP4498422B2
Application number: JP2008010940A
Authority: JP
Inventors: マフィットファーマンアーメット; ジョンキャンベルリチャード; マシュースピーグルジョン
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2007-01-26
Filing date: 2008-01-21
Publication date: 2010-07-07
Anticipated expiration: 2028-01-21
Also published as: JP2008187709A; US7856142B2; US20080181496A1

Description

本発明は、デジタル画像上のグリフ（字体）画素を抽出する方法およびシステムに関するものである。

デジタル画像の内容は、当該デジタル画像の圧縮に対して、圧縮率及び圧縮による副作用（compression artifacts：アーチファクト）の点で大きな影響を与えるものである。画像の写真領域は、文字領域用に設計された圧縮アルゴリズムを用いて圧縮された場合、効率的に圧縮されない。同様に、文字画像は、写真領域用に設計され最適化された圧縮アルゴリズムを用いて圧縮された場合、効率的に圧縮されない。画像の特定の種別用に設計された圧縮アルゴリズムを他の種別の画像に用いた場合、圧縮率に悪影響があるだけでなく、伸張後の画像に圧縮による副作用（アーチファクト）が視認可能な状態で表れることがある。

さらに、文字をくっきりさせるために設計された画像強調アルゴリズムを写真画像に適用した場合、写真画像の中に、視認を悪化させるような作用を生じさせることもある。特に、はっきりとしたエッジを含む写真領域に悪影響がある。スムージング処理は、自然画像を強調するものであり、文字領域に対して行われることはほとんどない。

デジタル画像において特定の種別の領域を検知し、当該特定の種別の領域に適した圧縮アルゴリズムや画像強調アルゴリズムを適宜組み合わせて用いることにより、圧縮率の改善、圧縮による副作用の低減、画像品質の向上を図ることができる。

画像データの内容に基づいた画像領域の意味ラベリング（a semantic labeling）は、ドキュメント管理システムや画像データベースにおいても役に立つ。

特許文献１には、領域判定の技術が開示されている。特許文献１では、カラー画像が混在した原稿に対して、輪郭部分に存在する中間色をエッジ補正フィルタにより補正（削除）した後、ＲＧＢデータをＬ＊・ａ＊・ｂ＊データに変換し、Ｌ＊信号より等濃度領域データ、分散データ、エッジ検出データを、ａ＊・ｂ＊信号より等色相領域データ、分散データ、エッジ検出データを求める。そして、等濃度領域における分散データ、エッジ検出データに基づき濃度情報での文字写真領域の判定を行い、また、等色相領域における分散データ、エッジ検出データに基づき色相情報による文字領域及び写真領域の判定を行う。これらの領域判定結果に基づいて、画像処理が施された画像データを、領域毎に異なる方法で圧縮する。
特開２００１−６１０６２（２００１年３月６日公開）

しかしながら、上記特許文献１に記載の技術では、前処理として、エッジ補正フィルタによる中間色の削除を行う必要がある。また、網点領域について考慮されておらず、網点領域が存在した場合には、ウィンドウ内エッジ検出で急峻なエッジが検出されて網点が字体として検出される可能性があり、正しく字体領域（文字領域）が検出できないおそれがある。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、エッジ補正フィルタのような前処理を行うことなく、精度良く字体画素を抽出することができる画素の分類方法および画像処理装置を実現することにある。

本発明に係る画素の分類方法は、上記課題を解決するために、デジタル画像における画素の分類方法であって、ａ）デジタル画像における注目画素を選択する第１ステップと、ｂ）注目画素、および、注目画素に隣接し、第１の局所背景の推定色を有する第１の複数の画素よりなる第１の領域が、画素及びその隣接領域がラージテキストに含まれるときに当該画素および当該隣接領域が充足する条件を示すラージテキスト要件を満たすか否かを評価する第２ステップと、ｃ）注目画素が上記ラージテキスト要件を満たす場合、当該注目画素を字体画素として分類する第３ステップと、ｄ）注目画素が上記ラージテキスト要件を満たさない場合、注目画素に隣接し、第２の局所背景の推定色を有する第２の複数の画素よりなる第２の領域の色に基づいて、動的閾値を算出する第４ステップと、ｅ）上記第２の局所背景の推定色と注目画素の色との差の大きさを示す第１の類似度を求める第５ステップと、ｆ）上記第１の類似度が上記動的閾値よりも大きい場合、注目画素を字体画素として分類する第６ステップと、ｇ）上記第１の類似度が上記動的閾値以下である場合、注目画素を非字体画素として分類する第７ステップと、を含むことを特徴とする。

また、本発明に係る画像処理装置は、デジタル画像における画素の分類を行う画像処理装置であって、ａ）デジタル画像の中から注目画素を選択する画素選択部と、ｂ）注目画素、および、注目画素に隣接し、第１の局所背景の推定色を有する第１の複数の画素よりなる第１の領域が、画素及びその隣接領域がラージテキストに含まれるときに当該画素および当該隣接領域が充足する条件を示すラージテキスト要件を満たすか否かを評価するラージテキスト評価部と、ｃ）注目画素が上記ラージテキスト要件を満たす場合、当該注目画素を字体画素として分類する第１分類部と、ｄ）注目画素が上記ラージテキスト要件を満たさない場合、注目画素に隣接し、第２の局所背景の推定色を有する第２の複数の画素よりなる第２の領域の色に基づいて、動的閾値を算出する動的閾値算出部と、ｅ）上記第２の局所背景の推定色と注目画素の色との差の大きさを示す第１の類似度を求める第１類似度算出部と、ｆ）上記第１の類似度が上記動的閾値よりも大きい場合、注目画素を字体画素として分類する第２分類部と、ｇ）上記第１の類似度が上記動的閾値以下である場合、注目画素を非字体画素として分類する第３分類部と、を備えることを特徴とする。

上記の構成によれば、注目画素および第１の領域がラージテキスト要件を満たす場合、注目画素が字体画素として分類される。字体の中には、線幅が比較的大きいものもある（ここではラージテキストという）。そのような場合、注目画素および第１の領域のほぼ全体がラージテキストの中に含まれることがある。ラージテキスト要件は、画素およびその隣接領域がラージテキストに含まれない場合には画素およびその隣接領域が有するものではなく、画素およびその隣接領域がラージテキストに含まれる場合に、当該画素および隣接領域が有する特徴を示すものである。具体例については後述する。そして、ラージテキスト要件を満たすか否かを判断し、ラージテキスト要件を満たす場合、当該注目画素を字体画素として分類される。これにより、注目画素および第１の領域のほぼ全体がラージテキストに含まれる場合であっても、精度よく、注目画素を字体画素として分類することができる。

また、ラージテキストに含まれなくても、字体のエッジ部分において注目画素が字体画素である場合がある。このような画素は、上述したラージテキスト要件では判定できない。なぜなら、注目画素に隣接する領域には、ラージテキストに含まれないものがあるからである。

しかしながら、上記の構成によれば、第２の局所背景の推定色と注目画素の色との差の大きさを示す第１の類似度と動的閾値との大小関係により、字体画素／非字体画素の分類を行う。注目画素が字体のエッジ部分に近い場合、注目画素に隣接する領域の中には、字体の中に含まれる画素、第２の領域に含まれる画素、両者が混在する画素が含まれる。注目画素が局所背景の領域に含まれる場合、第２の局所背景の推定色と注目画素の色との差の大きさを示す第１の類似度が小さくなる。一方、注目画素が字体に含まれる場合、第２の局所背景の推定色と注目画素の色との差の大きさを示す第１の類似度が大きくなる。そして、両者が混在する画素の場合、第１の類似度はこれらの中間の値を取る。そのため、動的閾値を字体の色および第２の局所背景の推定色との間に設定することにより、注目画素の字体画素／非字体画素の分類を適切に行うことができる。上述したように、第２の領域には、字体の中に含まれる画素、第２の領域に含まれる画素、両者が混在する画素が含まれる。そのため、第２の領域の色に基づいて、字体の色および第２の局所背景の推定色との間の適切な値に動的閾値を容易に設定することができる。これにより、字体画素／非字体画素の分類を精度よく行うことができる。

また、局所背景の推定色は、各局所領域に対して予め求められた色であり、当該領域を代表する一つの色である。そのため、網点領域であっても、網点周期に従った変動の影響をなくしたもの、つまり、平均的な代表色で表される。そのため、網点領域においても網点を誤って文字として検出する可能性が少なくなる。

以上のように、上記の構成によれば、局所背景の色と注目画素の色との差、および、ラージテキスト要件に基づいて字体画素を精度よく抽出することができる。すなわち、エッジ補正フィルタのような前処理を行うことなく、精度良く字体画素を抽出することができる。

さらに、本発明の画素の分類方法において、上記第４ステップは、ａ）色空間における、上記第２の複数の画素の各画素の色と上記第２の局所背景の推定色との距離である複数の第２カラーディスタンスを求めるステップと、ｂ）上記複数の第２カラーディスタンスのレンジを求めるステップと、ｃ）上記複数の第２カラーディスタンスの最小値を決定するステップと、ｄ）上記複数の第２カラーディスタンスのレンジを定数によって調整するステップと、ｅ）調整したレンジを上記第２カラーディスタンスの最小値に加算した値を動的閾値とするステップと、を含むことが好ましい。

また、本発明の画像処理装置において、上記動的閾値算出部は、色空間における、上記第２の複数の画素における各画素の色と上記第２の局所背景の推定色との距離である複数の第２カラーディスタンスを求める距離算出部と、上記複数の第２カラーディスタンスのレンジを求めるレンジ算出部と、上記複数の第２カラーディスタンスの最小値を決定する最小値決定部と、上記複数の第２カラーディスタンスのレンジを定数によって調整する調整部と、調整部により調整されたレンジを上記第２カラーディスタンスの最小値に加算した値を動的閾値とする加算部と、を備えることが好ましい。

ここで、レンジは、複数の第２カラーディスタンスの範囲であり、例えば最大値と最小値との差である。

上記の構成によれば、動的閾値は、第２カラーディスタンスの最小値に、調整されたレンジが加算される。これにより、第２の領域が字体のエッジ部分を含む場合、容易に動的閾値を、字体の色と局所背景の色との間に設定することができる。その結果、字体画素の抽出を精度よく行うことができる。

さらに、本発明の画素の分類方法において、上記第２ステップは、ａ）色空間における、上記第１の複数の画素の各画素の色と上記第１の局所背景の推定色との距離である複数の第１カラーディスタンスを求め、当該複数の第１カラーディスタンスの平均値である第１平均カラーディスタンスを求めるステップと、ｂ）上記複数の第１カラーディスタンスのレンジを求めるステップと、ｃ）上記第１平均カラーディスタンスと平均距離の閾値とを比較するステップと、ｄ）上記第１カラーディスタンスのレンジとカラーレンジ閾値とを比較するステップと、ｅ）上記第１平均カラーディスタンスが上記平均距離の閾値よりも大きく、かつ、上記第１カラーディスタンスのレンジが上記カラーレンジ閾値よりも小さい場合に、注目画素が上記ラージテキスト要件を満たすと評価するステップと、を含むことが好ましい。

また、本発明の画像処理装置において、上記ラージテキスト評価部は、色空間における、上記第１の複数の画素における各画素の色と上記第１の局所背景の推定色との距離である複数の第１カラーディスタンスを求め、当該複数の第１カラーディスタンスの平均値である第１平均カラーディスタンスを求める平均算出部と、上記複数の第１カラーディスタンスのレンジを求めるレンジ算出部と、上記第１平均カラーディスタンスと平均距離の閾値とを比較する第１比較部と、上記第１カラーディスタンスのレンジとカラーレンジ閾値とを比較する第２比較部と、上記第１平均カラーディスタンスが上記平均距離の閾値よりも大きく、かつ、上記第１カラーディスタンスのレンジが上記カラーレンジ閾値よりも小さい場合に、注目画素が上記ラージテキスト要件を満たすと評価する判定部と、を備えることが好ましい。

画素及びその隣接する領域がラージテキストに含まれる場合、当該領域の各画素と局所背景の推定色との距離は全体的に大きくなり、その平均値も大きくなる。一方、各画素のカラー値は字体の色に近くなるため、当該距離のレンジ（例えば、最大値と最小値との差）は、小さくなる。よって、上記の構成によれば、注目画素がラージテキスト要件を満たすか否かを精度よく判定することができる。

なお、上記の第１の類似度としては、例えば、色空間における、上記第２の局所背景の推定色と注目画素の色との距離が挙げられる。当該距離は、３次元市街地距離により表すことができる。

また、上記第１の領域と上記第２の領域とが同じ領域であってもよい。

さたに、本発明の画素の分類方法は、色空間における、注目画素に隣接する第３の領域を構成する第３の複数の画素の各画素の色と、当該第３の領域の第３の局所背景の推定色との距離である複数の第３カラーディスタンスを求め、当該複数の第３カラーディスタンスの平均値である第３平均カラーディスタンスを求めるステップを含み、上記第３平均カラーディスタンスがコントラスト閾値以上である場合に、上記第２ステップを行い、上記第３平均カラーディスタンスがコントラスト閾値よりも小さい場合に、注目画素を非字体画素として分類してもよい。

もしくは、本発明の画素の分類方法は、注目画素に隣接する第３の領域の第３の局所背景の推定色と注目画素の色との差の大きさを示す第２の類似度を求めるステップを含み、上記第２の類似度が類似度閾値以上の場合に、上記第２ステップを行い、上記第２の類似度が類似度閾値よりも小さい場合に、注目画素を非字体画素として分類してもよい。

また、本発明の画像処理装置は、色空間における、注目画素に隣接する第３の領域を構成する第３の複数の画素の各画素の色と、当該第３の領域の第３の局所背景の推定色との距離である複数の第３カラーディスタンスを求め、当該複数の第３カラーディスタンスの平均値である第３平均カラーディスタンスを求める平均算出部と、上記第３平均カラーディスタンスがコントラスト閾値よりも小さい場合に、注目画素を非字体画素として分類する第４分類部とを備え、上記ラージテキスト評価部は、上記第３平均カラーディスタンスがコントラスト閾値以上である場合に、上記ラージテキスト要件の評価を行ってもよい。

もしくは、本発明の画像処理装置は、注目画素に隣接する第３の領域の第３の局所背景の推定色と注目画素の色との差の大きさを示す第２の類似度を求める第２類似度算出部と、上記第２の類似度が類似度閾値よりも小さい場合に、注目画素を非字体画素として分類する第４分類部とを備え、上記ラージテキスト評価部は、上記第２の類似度が類似度閾値以上の場合に、上記ラージテキスト要件の評価を行ってもよい。

上記の構成によれば、局所背景の推定色に近い色を有する注目画素を非字体画素として分類することができ、それ以外の画素について、ラージテキスト要件の判断を行うことができる。

さらに、本発明の画素の分類方法は、色空間における、注目画素に隣接する第３の領域を構成する第３の複数の画素の各画素の色と、当該第３の領域の第３の局所背景の推定色との距離である複数の第３カラーディスタンスを求め、当該複数の第３カラーディスタンスの平均値である第３平均カラーディスタンスを求めるステップを含み、上記第３平均カラーディスタンスがコントラスト閾値以上である場合、あるいは、上記第３の局所背景の推定色が原稿下地の推定色と等しい場合に、上記第２ステップを行い、上記第３平均カラーディスタンスがコントラスト閾値よりも小さく、かつ、上記第３の局所背景の推定色が原稿下地の推定色と等しくない場合に、注目画素を非字体画素として分類してもよい。

もしくは、本発明の画素の分類方法は、注目画素に隣接する第３の領域の第３の局所背景の推定色と注目画素の色との類似度である第２の類似度を求めるステップを含み、上記第２の類似度が類似度閾値以上の場合、あるいは、上記第３の局所背景の推定色が原稿下地の推定色と等しい場合に、上記第２のステップを行い、上記第２の類似度が類似度閾値よりも小さく、かつ、上記第３の局所背景の推定色が原稿下地の推定色と等しくない場合に、注目画素を非字体画素として分類してもよい。

また、本発明の画像処理装置は、色空間における、注目画素に隣接する第３の領域を構成する第３の複数の画素の各画素の色と、当該第３の領域の第３の局所背景の推定色との距離である複数の第３カラーディスタンスを求め、当該複数の第３カラーディスタンスの平均値である第３平均カラーディスタンスを求める平均算出部と、上記第３平均カラーディスタンスがコントラスト閾値よりも小さく、かつ、上記第３の局所背景の推定色が原稿下地の推定色と等しくない場合に、注目画素を非字体画素として分類する第４分類部とを備え、上記ラージテキスト評価部は、上記第３平均カラーディスタンスがコントラスト閾値以上である場合、あるいは、上記第３の局所背景の推定色が原稿下地の推定色と等しい場合に、上記ラージテキスト要件の評価を行ってもよい。

もしくは、本発明の画像処理装置は、注目画素に隣接する第３の領域の第３の局所背景の推定色と注目画素の色との差の大きさを示す第２の類似度を求める第２類似度算出部と、上記第２の類似度が類似度閾値よりも小さく、かつ、上記第３の局所背景の推定色が原稿下地の推定色と等しくない場合に、注目画素を非字体画素として分類する第４分類部とを備え、上記ラージテキスト評価部は、上記第２の類似度が類似度閾値以上の場合、あるいは、上記第３の局所背景の推定色が原稿下地の推定色と等しい場合に、上記ラージテキスト要件の評価を行ってもよい。

上記の構成によれば、局所背景の推定色および原稿下地の推定色に近い色を有する注目画素を非字体画素として分類することができ、それ以外の画素について、ラージテキスト要件の判断を行うことができる。

また、本発明の画素の分類方法は、デジタル画像における画素の分類方法であって、ａ）デジタル画像の中の注目画素を選択するステップと、ｂ）注目画素に隣接し、複数の画素からなる領域の局所背景の推定色を取得するステップと、ｃ）上記デジタル画像の原稿下地の推定色を取得するステップと、ｄ）上記局所背景の推定色と注目画素の色との距離を示す、上記局所背景の推定色と注目画素の色との差の大きさを示す類似度を求め、ｅ）上記類似度が類似度閾値以下であり、かつ、上記局所背景の推定色が上記原稿下地の推定色と等しくない場合に、注目画素を字体画素として分類するステップと、ｆ）上記類似度が類似度閾値よりも大きい場合、あるいは、上記局所背景の推定色が上記原稿下地の推定色と等しい場合に、上記領域の中の複数の画素と上記局所背景の色との間のコントラストを算出するステップと、ｇ）上記コントラストがコントラスト閾値よりも小さく、かつ、上記局所背景の推定色が原稿下地の推定色と等しくない場合に、注目画素を字体画素として分類するステップと、ｈ）上記コントラストがコントラスト閾値以上である場合、あるいは、上記局所背景の推定色が原稿下地の推定色と等しい場合に、画素がラージテキストに含まれるときに当該画素が充足する条件を示すラージテキスト要件を注目画素が満たすか否か判断するステップと、ｉ）注目画素が上記ラージテキスト要件を満たす場合に、注目画素を非字体画素として分類するステップと、ｊ）注目画素が上記ラージテキスト要件を満たさない場合に、色空間における上記領域の中の複数の画素の各画素の色と上記局所背景の推定色との距離である複数のカラーディスタンスを求め、当該複数のカラーディスタンスのレンジを固定値により調整し、調整したレンジと上記複数のカラーディスタンスの最小値とを加算することで動的閾値を求めるステップと、ｋ）上記類似度が上記動的閾値よりも大きい場合に、注目画素を非字体画素として分類するステップと、ｌ）上記類似度が上記動的閾値以下である場合に、注目画素を字体画素として分類するステップと、を含む。

上記の構成によれば、局所背景の色と注目画素の色との差、および、ラージテキスト要件に基づいて字体画素を精度よく抽出することができる。すなわち、エッジ補正フィルタのような前処理を行うことなく、精度良く字体画素を抽出することができる。

本発明に係る画素の分類方法は、デジタル画像における画素の分類方法であって、ａ）デジタル画像における注目画素を選択する第１ステップと、ｂ）注目画素、および、注目画素に隣接し、第１の局所背景の推定色を有する第１の複数の画素よりなる第１の領域が、画素及びその隣接領域がラージテキストに含まれるときに当該画素および当該隣接領域が充足する条件を示すラージテキスト要件を満たすか否かを評価する第２ステップと、ｃ）注目画素が上記ラージテキスト要件を満たす場合、当該注目画素を字体画素として分類する第３ステップと、ｄ）注目画素が上記ラージテキスト要件を満たさない場合、注目画素に隣接し、第２の局所背景の推定色を有する第２の複数の画素よりなる第２の領域の色に基づいて、動的閾値を算出する第４ステップと、ｅ）上記第２の局所背景の推定色と注目画素の色との差の大きさを示す第１の類似度を求める第５ステップと、ｆ）上記第１の類似度が上記動的閾値よりも大きい場合、注目画素を字体画素として分類する第６ステップと、ｇ）上記第１の類似度が上記動的閾値以下である場合、注目画素を非字体画素として分類する第７ステップと、を含む。

また、本発明に係る画像処理装置は、デジタル画像における画素の分類を行う画像処理装置であって、ａ）デジタル画像の中から注目画素を選択する画素選択部と、ｂ）注目画素、および、注目画素に隣接し、第１の局所背景の推定色を有する第１の複数の画素よりなる第１の領域が、画素及びその隣接領域がラージテキストに含まれるときに当該画素および当該隣接領域が充足する条件を示すラージテキスト要件を満たすか否かを評価するラージテキスト評価部と、ｃ）注目画素が上記ラージテキスト要件を満たす場合、当該注目画素を字体画素として分類する第１分類部と、ｄ）注目画素が上記ラージテキスト要件を満たさない場合、注目画素に隣接し、第２の局所背景の推定色を有する第２の複数の画素よりなる第２の領域の色に基づいて、動的閾値を算出する動的閾値算出部と、ｅ）上記第２の局所背景の推定色と注目画素の色との差の大きさを示す第１の類似度を求める第１類似度算出部と、ｆ）上記第１の類似度が上記動的閾値よりも大きい場合、注目画素を字体画素として分類する第２分類部と、ｇ）上記第１の類似度が上記動的閾値以下である場合、注目画素を非字体画素として分類する第３分類部と、を備える。

本発明の実施形態は、図面を参照することでより理解されるであろう。図面では、同じ部材については同じ符号をつけている。

ここで、図に示されるように、本発明の構成は、様々な異なる形態に変形および設計されることができることが容易にわかるであろう。このように、以下に述べる、本発明の方法およびシステムの実施形態についてのより詳細な説明は、本発明の範囲を限定するものではなく、本発明の最良の形態を示したものにすぎない。

本発明の実施形態の構成は、ハードウェア、ファームウェアおよび／またはソフトウェアによって実現されてもよい。ここで述べる一実施形態はこれらの形態の１つについてのみ説明するものであり、本発明の範囲内において、各構成をこれらの形態の何れかで実現可能であることは、当業者にとって自明である。

（実施形態１）
本発明の実施形態１について説明する。本実施形態は、スキャンされた文書画像における文字または記号の部分である画素を抽出するための方法およびシステムに関するものである。本明細書、図面および特許請求の範囲において、これらの画素を「グリフ（字体）画素」と称することとする。スキャンされた文書画像は、一般的に、様々な種類の領域（例えば、網点領域、写真領域、図形領域、文字領域など）を含むとともに、スキャンプロセスにおいて生じたアーチファクト（例えば、ノイズ、光学的なぼやけ（optical blur）、色の干渉による縞模様（color fringing）など）を含む複雑な性質を有する。その結果、グリフ抽出が困難になっている。

本実施形態について、典型的な画像１０を示す図１を参照しながら説明する。画像１０は、文書が印刷される紙の色である第１の均一色の下地領域１２と、第２の均一色を有する第１局所背景領域１４と、第３の均一色を有する第２局所背景領域１６と、第４の均一色を有する第３局所背景領域１８とを含むいくつかの領域を備えた文書画像である。印刷およびスキャン処理の不完全さのために、均一色の画像領域（例えば、局所背景領域）を構成する画素の各々は、同一の画素値（カラー値）（color value）を有していない場合がある。均一色の画像領域では、画素のカラー値は、中央又はピークのカラー値を中心とした狭い分布（つまり、分散値が小さい）を形成する傾向にある。本発明の実施形態では、狭い分布のカラー値を有する画素を、画像領域において均一色を示しているカラークラスに属するものと設定する。局所背景領域におけるカラークラスを、局所背景の推定色という。原稿下地領域（原稿背景領域）におけるカラークラスを原稿下地の推定色という。

本発明の実施形態において、２つのカラー値の比較を行う場合がある。この場合、比較処理の前に、対象となる２つのカラー値のうちの少なくとも一方について、他の色空間から、比較が実施される共通の色空間への変換処理が行われてもよい。また、使用するカラー値の算出処理が実施されてもよい。カラー値は、当該算出処理の前に、一つの色空間から別の色空間へと変換されてもよい。典型的な色空間の例としては、ＲＧＢ、Ｙｕｖ、Ｌ＊ａ＊ｂ＊、ＹＣｂＣｒ、Ｌａｂ、ＸＹＺ、ＹＩＱ、いずれかのluma-chroma-chroma（luminance-chrominance-chrominance、輝度−色度−色度）色空間、ならびに、輝度および他の単チャンネルの色空間を含む公知の色空間などが挙げられる。

上述した２つのカラー値の比較処理は、全ての色成分について比較を行うものであってもよい。あるいは、２つのカラー値の比較処理は、一部の色成分について比較を行うものであってもよい。例えば、luma-chroma-chroma色空間において輝度成分のみ比較を行う場合や、ＲＧＢ色空間においてＧ（green）成分のみ比較を行う場合である。同様に、カラー値を用いた算出処理は、全ての色成分を用いた算出処理であってもよいし、一部の色成分を用いた算出処理であってもよい。一部の色成分を用いた算出処理の例としては、例えば、luma-chroma-chroma色空間において輝度成分のみを用いる場合や、ＲＧＢ色空間においてＧ（green）成分のみを用いる場合である。

また、本発明の実施形態において、注目画素を取り囲む局所区域（領域）の画素のカラーデータを調査する調査処理を行う場合がある。図２は、注目画素２９を取り囲む画素２１〜２８を含む局所区域２０の一例を示す図である。局所区域（領域）は、任意のサイズまたは形状を有する。図２で例示される局所区域（local neighborhood）２０は、注目画素２９を取り囲む３×３の区域である。局所区域の他の例としては、Ｎ×Ｎ（Ｎは整数）の区域、Ｎ×Ｍ（Ｎ，Ｍは整数）の区域、円形領域、ｎ個の最隣接画素を含む領域（n-nearest neighbors region）、事前に分類またはよく考えられたラベル付けが行われた画素の異形領域、および、注目画素を取り囲む所定のサイズまたは形状を有する他の局所区域が挙げられる。局所区域２０の画素データから算出された統計量は、注目画素２９を「グリフ」画素または「非グリフ」画素として分類またはラベル付けするために使用されてもよい。もしくは、注目画素２９は、「グリフ」画素、「非グリフ」画素および「不明」画素のいずれかに分類またはラベル付けされてもよい。また、本実施形態において、局所区域２０に含まれる全ての画素は、注目画素に割り当てられたラベルに従って、分類またはラベル付けがされてもよい。

また、本実施形態において、デジタル画像の各画素は、グリフ画素としての状態を決定するために調査されてもよい。もしくは、デジタル画像のうちの選択された一部の画素について調査されてもよい。さらに、調査対象となる画素の選択グループは、以前にテキスト候補画素として識別された画素を含むものであってもよい。

本発明の一実施形態に係る画像処理装置３０の構成について、図１１を参照しながら説明する。図１１は、グリフ画素の検出を行う画像処理装置３０の構成を示すブロック図である。図１１に示されるように、画像処理装置３０は、画素選択部３１と、推定色取得部３２と、ラージテキスト評価部３３と、類似度算出部３４と、動的閾値算出部３５と、分類部３６とを備えている。

画素選択部３１は、デジタル画像の中から、グリフ画素か非グリフ画素かを判断する判断対象となる注目画素を選択するものである。画素選択部３１は、デジタル画像の全ての画素を順に注目画素として選択してもよいが、テキスト候補画素として抽出された画素を注目画素として選択することが好ましい。テキスト候補画素の抽出方法は、公知の技術を用いればよい。例えば、特開平９−１８６８６１に記載のように、画像データをＤＣＴ変換して、特定のＤＣＴ係数について絶対値の和を求め、文字らしさを表す点数とする。そして、この点数が所定の閾値より大きいブロックを文字画像候補ブロックと判定し、当該ブロックに含まれる画素をテキスト候補画素として抽出すればよい。また、他の例として、ソベルなどのエッジ検出フィルタと閾値を用いて閾値以上の輝度差（濃度差）のあるものを初期テキスト候補画素として検出することで、画素単位での初期テキスト候補画素検出を行い、その後、上記のようなブロック単位で初期テキスト候補画素の存在するブロックを最終文字画像候補ブロックと判定し、当該ブロックに含まれる画素をテキスト候補画素として抽出してもよい。

推定色取得部３２は、局所背景および原稿下地の推定色を取得するものである。推定色取得部３２は、外部から推定色を受け取ってもよいし、推定色を決定してもよい。局所背景の推定色を決定する典型的な方法としては、米国特許出願１１／３６５，０６７（出願日２００６年２月２８日）（特開２００７−２３５９４８のファミリーパテント）に記載の方法や、米国特許出願１１／４２４，２９０（出願日２００６年６月１５日）に記載の方法、その他の公知の方法を用いることができる。

具体的には、推定色取得部３２は、画像を分割した複数の区分について、階調値と階調値に含まれる画素数との関係を示す区分ヒストグラムを作成し、各々の区分ヒストグラムから特定された特徴量（例えばピークを表す階調値の範囲）を抽出する。そして、推定色取得部３２は、各々の区分ヒストグラムより抽出された特徴量（ピークを表している階調値の範囲）をカウントする。すなわち、特徴量を表している階調値について「１」を加算していき、ピークヒストグラムを作成する。さらに、推定色取得部３２は、階調値に対する上記カウント値を、階調値に含まれる画素数（全画素数に対する割合）で正規化し、この正規化された結果を基に、入力画像に含まれるページ全体の下地（原稿下地領域）や複数の比較的広い局所的な背景（局所背景領域）の識別を行うとともに、各領域の階調値から推定色を決定する。

また、推定色取得部３２は、次のようにして、推定色を決定してもよい。すなわち、推定色取得部３２は、デジタル画像における選択画素のカラー値の頻度（出現度数）を求め、さらに、カラー値の頻度におけるピーク領域、および、各ピーク領域に対応するカラー値を特定する。そして、各ピーク領域に対応するカラー値と画像ラベルとを関連付ける。ここで、画像ラベルは、例えば、原稿下地領域または局所背景領域を示す。なお、精度良くラベル付けする場合には、画像全体、あるいは、画像全体から、網点画素、エッジ画素を取り除いた画素についてヒストグラムを生成し、このヒストグラムの最大度数ピークを下地領域と判定すればよい。そして、この原稿下地領域と各クラスのラベルの代表色（例えば平均値）を比較し、最も近い代表色を有するクラスを下地領域として、それ以外の領域を局所背景として扱うことが出来る。そして、推定色取得部３２は、原稿下地領域および局所背景領域の代表色を各領域の推定色として決定する。

上記のようにして推定色を決定する場合、当該推定色は、網点の影響をなくした局所背景の色をクラスタリングすることにより求められる。この結果、後述する推定色を用いた処理を行うことにより網点領域における網点を文字として検出することがなくなる。

なお、ここで挙げた具体例は推定色の決定方法の一例であり、これに限定されるものではない。推定色取得部３２は、公知の方法を用いて、原稿下地領域および局所背景領域の推定色を決定すればよい。

ラージテキスト評価部３３は、注目画素がラージテキスト要件を満たすか否かを判断するものである。ラージテキスト要件とは、図１２に示されるように注目画素に隣接する局所区域がサイズの大きい字体（ラージテキスト）に含まれる場合に、当該局所区域の画素のカラー値が満たす条件を示すものである。ラージテキスト評価部３３は、平均算出部３３１と、レンジ算出部３３２と、比較部３３３と、判定部３３４とを備える。

平均算出部３３１は、注目画素に隣接する局所区域の推定色のカラー値ｃ_ＬＢＧと、当該局所区域内の複数の画素の色のカラー値ｃ_ｊとの距離である複数のカラーディスタンスｄ（ｃ_ｊ，ｃ_ＬＢＧ）を求め、その平均値である平均カラーディスタンスμ_ｄを求めるものである。

レンジ算出部３３２は、上記の複数のカラーディスタンスｄ（ｃ_ｊ，ｃ_ＬＢＧ）のうちの最大値と最小値との差分であるレンジｒ_ｄを求めるものである。

比較部３３３は、平均算出部３３１が算出した平均カラーディスタンスμ_ｄと所定の平均距離閾値Ｔ_μとを比較するとともに、レンジ算出部３３２が算出したレンジｒ_ｄと所定のカラーレンジ閾値Ｔ_ｒとを比較するものである。

判定部３３４は、μ_ｄがＴ_μよりも大きく、かつ、ｒ_ｄがＴ_ｒよりも小さい場合に、注目画素がラージテキストに属するものであることを示す条件であるラージテキスト要件を満たすものと判定するものである。

図１３は、ラージテキストに局所区域が含まれる場合の、当該局所区域内の画素に対応するカラーディスタンスを示す図である。図１３に示されるように、局所区域がラージテキストに含まれる場合、レンジが小さく、平均カラーディスタンスは大きくなる。そこで、局所区域がラージテキストに含まれる場合にμ_ｄおよびｒ_ｄが取り得る範囲と、局所区域がラージテキストに含まれない場合にμ_ｄおよびｒ_ｄが取り得る範囲とを予め行う実験で求め、局所区域がラージテキストに含まれるか否かを識別できるように、上記平均距離閾値Ｔ_μとカラーレンジ閾値Ｔ_ｒとが設定されている。これにより、判定部３３４は、注目画素がラージテキストに属するか否か、すなわち、ラージテキスト要件を満たすか否かを精度よく判定することができる。

類似度算出部３４は、注目画素に隣接する局所区域の局所背景の推定色と注目画素の色との類似度を算出するものである。本実施形態では、類似度として、局所背景の推定色と注目画素の色との距離（カラーディスタンス：色差）を求める。

動的閾値算出部３５は、ラージテキスト評価部３３により注目画素がラージテキスト要件を満たさないと判定した場合に、注目画素に隣接し、局所背景の推定色を有する複数の画素よりなる局所区域における色に基づいて、動的閾値を算出するものである。

動的閾値算出部３５は、距離算出部３５１と、レンジ算出部３５２と、最小値決定部３５３と、調整部３５４と、加算部３５５とを備える。

距離算出部３５１は、注目画素に隣接する局所区域の推定色のカラー値ｃ_ＬＢＧと、当該局所区域内の複数の画素の色のカラー値ｃ_ｊとの距離である複数のカラーディスタンスｄ（ｃ_ｊ，ｃ_ＬＢＧ）を求めるものである。

レンジ算出部３５２は、上記の複数のカラーディスタンスｄ（ｃ_ｊ，ｃ_ＬＢＧ）のうちの最大値と最小値との差分であるレンジｒ_ｄを求めるものである。

最小値決定部３５３は、上記の複数のカラーディスタンスｄ（ｃ_ｊ，ｃ_ＬＢＧ）のうちの最小値ｄ_ｍｉｎを抽出するものである。

調整部３５４は、レンジｒ_ｄを定数Ｒによって調整するものである。具体的には、ｒ_ｄをＲで割る。

加算部３５５は、調整部３５４により調整されたレンジｒ_ｄ／Ｒをカラーディスタンスの最小値ｄ_ｍｉｎに加算した値を動的閾値Ｔ_ｄとするものである。

図１４（ａ）（ｂ）は、局所区域が字体のエッジ部と重なるときの、当該局所区域内の画素に対応するカラーディスタンスの一例を示す図である。この場合、図１４（ａ）（ｂ）に示されるように、局所区域には、局所背景の色を示す画素と、グリフ（字体）の色またはそれに近い色を示す画素とが含まれる。そのため、レンジｒ_ｄは比較的大きくなる。そして、動的閾値Ｔ_ｄとして、ｄ_ｍｉｎ＋ｒ_ｄ／Ｒが設定されるため、注目画素がグリフに近い色を示す場合（図１４（ｂ）の場合）と、注目画素が局所背景に近い色を示す場合（図１４（ａ）の場合）とを区別することができる。その結果、注目画素のグリフ／非グリフを精度よく判定することができる。

また、図１５は、局所区域が網点領域上の字体のエッジ部と重なるときの、当該局所区域内の画素に対応するカラーディスタンスの一例を示す図である。図１５に示されるように、網点変調によるカラー値の変動幅が、動的閾値以下の範囲に含まれるように、Ｒが設定されている。そのため、注目画素のカラー値が網点変動によって変動したとしても、当該注目画素を誤ってグリフ画素として検出されることがない。このように、動的閾値を用いることにより、網点領域であっても、注目画素のグリフ／非グリフを精度よく判定することができる。

分類部３６は、ラージテキスト評価部３３の評価結果、類似度算出部３４により算出された類似度および動的閾値算出部３５により算出された動的閾値に基づいて、注目画素を「グリフ」画素か「非グリフ」画素かのいずれかに分類するものである。

本発明の一実施形態に係る画像処理の流れの概要について図３を参照しながら説明する。まず、類似度算出部３４は、注目画素の色と、当該注目画素に隣接する第１の区域（領域）の局所背景の推定色との類似度を決定する。そして、当該類似度に基づいて類似しているか否かが判定される（Ｓ３０）。

注目画素の色と第１の区域の局所背景の推定色とが類似している場合（Ｓ３０でＹｅｓ）、注目画素は、分類部３６により「非グリフ」画素としてラベル付けされる（Ｓ３２）。一方、注目画素の色と第１の区域の局所背景の推定色とが類似していない場合（Ｓ３０でＮｏ）、当該注目画素に隣接する第２の区域（領域）におけるコントラストの算出が類似度算出部３４により実施される。そして、コントラストが閾値と比較して低いかどうかが判断される（Ｓ３４）。ここで、第１の区域と第２の区域とは同じであってもよいし、第１の区域が第２の区域と異なるものであってもよい。

第２の区域のコントラストが相対的に低いものと判断されると（Ｓ３４でＹｅｓ）、注目画素は、「非グリフ」画素としてラベル付けされる（Ｓ３２）。一方、コントラストが相対的に高いものとして判断されると（Ｓ３４でＮｏ）、注目画素がラージテキスト（記号文字も含む）の一部であるかどうかの判定がラージテキスト評価部３３により行われる（Ｓ３７）。注目画素がラージテキスト（記号文字も含む）の一部であるかどうかの判定処理は、注目画素に隣接する第３の区域に属する画素のカラー値の比較処理を含む。

注目画素がラージテキスト（記号文字も含む）の一部であると判定された場合（Ｓ３７でＹｅｓ）、注目画素は「グリフ」画素として分類部３６によりラベル付けされる（Ｓ４３）。注目画素がラージテキスト（記号文字も含む）の一部ではないと判定された場合（Ｓ３７でＮｏ）、注目画素と当該注目画素に隣接する第４の区域の局所背景とのコントラストが動的閾値よりも大きいか否かが判断される（Ｓ４０）。コントラストが動的閾値よりも大きい場合（Ｓ４０でＹｅｓ）、注目画素は「グリフ」画素としてラベル付けされる（Ｓ４３）。コントラストが動的閾値以下である場合（Ｓ４０でＮｏ）、注目画素は「非グリフ」画素としてラベル付けされる（Ｓ３２）。なお、本実施形態において、第１、第２、第３および第４の区域は、同じ区域であってもよいし、異なる区域であってもよい。

次に、図３で示した画像処理の流れを、図４を参照しながら、より詳細に説明する。図４は、本発明の一実施形態の画像処理の詳細を示すフローチャートである。

まず、類似度算出部３４は、デジタル画像の注目画素について、当該注目画素の色（カラー値：ｃ_ＰＯＩ）と当該注目画素に隣接する第１の区域の局所背景の推定色（カラー値：ｃ_ＬＧＢ１）との類似度を求める（Ｓ５０）。ここでは、当該類似度は、注目画素の色ｃ_ＰＯＩと当該注目画素に隣接する第１の区域の局所背景の推定色ｃ_ＬＧＢ１との間の距離Ｄ^１として算出される。ここで、この２つのカラー値間の距離を、ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）とする。本実施形態では、第１の区域全体に対して、単一のカラー値ｃ_ＬＧＢ１が局所区域の推定色として得られる。あるいは、局所背景の推定色は、第１の区域の各画素の値から取得してもよい。すなわち、第１の区域の局所背景の推定色は、当該区域の各画素について求められる局所背景の色推定値の組合せにより算出される。ここでは、局所背景の色推定値として、注目画素の直前の局所背景の１つの色推定値を代表色推定値として用いる方法や、複数の局所背景の色推定値から、次に述べている「典型的な組み合わせ」を用いて代表色推定値を求める方法などがある。典型的な組合せは、平均値、中間値、重み付け係数を用いて得られる平均値、および個々の局所背景の推定値の他の組合せを含む。

従来知られている距離が、注目画素の色ｃ_ＰＯＩと当該注目画素に隣接する第１の区域の局所背景の推定色ｃ_ＬＧＢ１との間の距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）の決定に用いることができる。典型的な距離としては、luma-chroma-chroma色空間のchroma成分間の２次元の市街地距離、３次元の色空間の成分間の３次元の市街地距離、ユークリッド距離、luma-chroma-chroma色空間のchroma成分間の重み付け係数を用いて得られる２次元の市街地距離、３次元の色空間の成分間の重み付け係数を用いて得られる３次元の市街地距離、および他の良く知られた距離が挙げられる。距離Ｄ^１は、共通色空間におけるｃ_ＰＯＩに対応する点とｃ_ＬＢＧ１に対応する点との距離であるとも表現できる。なお、市街地距離（city block distance）とは、注目画素に隣接する４近傍の画素をベースに画素間の距離を表すものであり、注目画素の第１近傍にある画素は１単位、第２近傍にある画素（対角の位置の画素）は２単位離れていると表すものである。類似度算出部３４は、例えば、３次元の市街地距離に基づいて、２つのカラー値間の距離を算出し、当該距離を類似度とする。

次に、距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）は、注目画素の色が背景の色と実質的に類似しているかどうかを判断するために、類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}と比較される（Ｓ５１）。類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}は、固定値であってもよいし、可変値（adaptive threshold）であってもよい。例えば、色味重視で判定するならば、Ｌ値（輝度値）の差に応じて可変値とする方法が考えられる。すなわち、Ｌ値の差が小さいときは、小さめの閾値で判定し、Ｌ値の差が大きいときは、大きめの閾値で判定することで、Ｌ値の差による違いを吸収し、色の差を重視するように制御することができる。

距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）が類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}以下である場合（Ｓ５１でＮｏ）、すなわち、注目画素の色と当該注目画素に隣接する区域の局所背景の色とが近いことを示している場合、注目画素は「非グリフ」画素として分類部３６によりラベル付けされる（Ｓ６９）。一方、距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）が類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}よりも小さくない場合、すなわち、Ｄ^１＞Ｔ_{ＬＧＢ＿ＳＩＭ}の場合（Ｓ５１でＹｅｓ）、さらなる処理が実行される。

なお、上記比較処理（Ｓ５１）は、さらに、原稿下地の色に関する追加条件を含んでいてもよい。すなわち、距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）が類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}以下である場合、あるいは、局所背景の推定色ｃ_ＬＧＢ１が原稿下地の色ｃ_ＰＢＧと等しくない場合、注目画素は、「非グリフ」画素として分類部３６によりラベル付けされる。この追加条件により、局所背景の推定色が不確定または誤りを含む場合であっても、より精度の高いグリフ画素の検出を行うことができる。また、距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）が類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}よりも大きい場合（つまり、Ｄ^１＞Ｔ_{ＬＧＢ＿ＳＩＭ}の場合）、もしくは、ｃ_ＬＧＢ１＝ｃ_ＰＢＧの場合に、さらなる処理が実行されてもよい。

次に、注目画素に実質的に隣接する第２の区域におけるコントラストの算出が類似度算出部３４により実施される。コントラストの算出において、類似度算出部３４は、第２の区域における局所背景の推定色ｃ_ＬＧＢ２から、第２の区域における画素のカラーディスタンス（色差）を計算する（Ｓ５４）。本実施形態では、第２の区域全体に対して、単一のカラー値ｃ_ＬＧＢ２が局所区域の推定色として得られる。あるいは、局所背景の推定色は、第２の区域の各画素の値から取得してもよい。すなわち、第２の区域の局所背景の推定色は、当該区域の各画素について求められる局所背景の色推定値の組合せにより算出される。典型的な組合せは、平均値、中間値、重み付け係数を用いて得られる平均値、および個々の局所背景の推定値の他の組合せを含む。

続いて、第２の区域における画素の平均カラーディスタンスμ_ｄ ^（２）が、以下の式に従って、類似度算出部３４により算出される（Ｓ５５）。

数１において、ＮＨ２は第２の区域を示しており、ｃ_ｊは区域ＮＨ２に含まれる画素ｊのカラー値を示しており、ｄ（・，・）は距離を示している。典型的な測定としては、luma-chroma-chroma色空間のchroma成分間の２次元の市街地距離の測定、３次元の色空間の成分間の３次元の市街地距離の測定、ユークリッド距離測定、luma-chroma-chroma色空間のchroma成分間の加重値が与えられた２次元の市街地距離の測定や、３次元の色空間の成分間の加重値が与えられた３次元の市街地距離の測定、および他の良く知られた距離測定が挙げられる。

Ｎ×Ｍの矩形区域に対しては、平均カラーディスタンスは、以下の式に従って算出される。

算出された平均カラーディスタンスμ_ｄ ^（２）は、注目画素の周りの第２の区域が局所背景の推定色と比較して低いコントラストであるか否かを判定するために、コントラスト閾値Ｔ_ＣＯＮと分類部３６により比較される（Ｓ５６）。コントラスト閾値Ｔ_ＣＯＮは、固定値であっても可変値（adaptive threshold）であってもよい。コントラストの見た目の差は、明るさによって異なるので、例えば、見た目を重視した制御を行うとするならば、暗い場合は閾値を大きめにして十分な差がないとコントラストがないとみなし、明るい場合は閾値を小さめにして少しの差でもコントラストがあるように判断するといった方法が挙げられる。

平均カラーディスタンスμ_ｄ ^（２）がコントラスト閾値Ｔ_ＣＯＮよりも小さい場合（Ｓ５６でＹｅｓ）、すなわち、注目画素の色が背景（局所背景および原稿下地以外の背景）と比較して低コントラストを有する場合、注目画素は「非グリフ」画素として分類部３６によりラベル付けされる（Ｓ６９）。平均カラーディスタンスμ_ｄ ^（２）がコントラスト閾値Ｔ_ＣＯＮよりも小さくない場合（Ｓ５６でＮｏ）、さらなる処理が必要とされる。

なお、次のような変形形態であってもよい。すなわち、平均カラーディスタンスμ_ｄ ^（２）がコントラスト閾値Ｔ_ＣＯＮよりも小さく、かつ、原稿下地の色ｃ_ＰＢＧが局所背景推定色ｃ_ＬＢＧ２と等しくない場合、すなわち、注目画素の色が局所背景と比較して低コントラストを有し、かつ、注目画素が網点領域上である場合、注目画素は「非グリフ」画素としてラベル付けされる。この変形形態の場合、平均カラーディスタンスμ_ｄ ^（２）がコントラスト閾値Ｔ_ＣＯＮよりも小さくない場合、もしくは、原稿下地の色ｃ_ＰＢＧが局所背景の推定色ｃ_ＬＢＧ２と等しい場合、さらなる処理が必要とされる。

続いて、更なる処理が必要となる場合（Ｓ５６でＮｏ）、注目画素がラージテキスト（記号文字を含む）の一部であるかどうかの判定がラージテキスト評価部３３により行われる。注目画素がラージテキスト（記号文字を含む）の一部であるかどうかの判定処理は、上述したように、平均算出部３３１が平均カラーディスタンμ_ｄを算出する処理（Ｓ５９）を含む。ここでは、平均カラーディスタンμ_ｄは、注目画素に隣接する第３の区域において算出されるので、μ_ｄ ^（３）と表すこととする。注目画素がラージテキスト（または記号文字も含む）の一部であるかどうかの判定処理は、さらに、第３の区域に対する局所背景の推定色から、当該第３の区域の画素の色のカラーディスタンスのレンジ（範囲）をレンジ算出部３３２が求める処理（Ｓ６０）を含む。カラーディスタンスのレンジは、以下の式に従って決定される。

数３において、ｃ_ＬＢＧ３は第３の区域における局所背景の推定色を示す。

次に、ｒ_ｄ ^（３）がカラーレンジ閾値Ｔｒ以下であるか、および、μ_ｄ ^（３）が平均ディスタンス閾値Ｔ_μ以上であるかが比較部３３３により確認される（Ｓ６１）。

本実施形態では、カラーディスタンスのレンジｒ_ｄ ^（３）が小さく、かつ、平均カラーディスタンスμ_ｄ ^（３）が大きい場合（Ｓ６１でＹｅｓ）、判定部３３４は、注目画素がラージテキスト（記号文字を含む）の一部であると判定する。そして、カラーディスタンスのレンジｒ_ｄ ^（３）が小さく、かつ、平均カラーディスタンスμ_ｄ ^（３）が大きい場合、すなわち、注目画素がラージテキスト（記号文字を含む）の一部であると判定部３３４により判定された場合、分類部３６は、注目画素を「グリフ」画素としてラベル付けする（Ｓ７０）。一方、そうでない場合は、更なる処理が必要とされる。

次に、注目画素がラージテキスト（記号文字を含む）の一部ではないと判定部３３４により判定された場合（Ｓ６１でＮｏ）、類似度算出部３４は、注目画素と当該注目画素に隣接する第４の区域の局所背景との間のコントラストとして、カラーディスタンスＤ^４＝ｄ（ｃ_ＰＯＴ，ｃ_ＬＢＧ４）を求める（Ｓ６４）。また、動的閾値算出部３５は、動的閾値Ｔ_ｄを、以下の式に従って算出する（Ｓ６５）。

数４において、ｒ_ｄ ^（４）およびｄ_ｍｉｎ ^（４）は、上述したようにレンジ算出部３５２および最小値決定部３５３により求められるものであり、Ｒは予め定められた一定値である。その後、分類部３６は、注目画素と第４の区域の局所背景の色との間のコントラストであるカラーディスタンスＤ^４＝ｄ（ｃ_ＰＯＴ，ｃ_ＬＢＧ４）が動的閾値Ｔ_ｄよりも大きいか否かを判断する（Ｓ６６）。そして、Ｄ^４＞Ｔ_ｄである場合（Ｓ６６でＹｅｓ）、注目画素は「グリフ」画素として分類部３６によりラベル付けされる（Ｓ７０）。一方、Ｄ^４≦Ｔ_ｄである場合（Ｓ６６でＮｏ）、注目画素は「非グリフ」画素として分類部３６によりラベル付けされる（Ｓ６９）。

以上、本発明の一実施形態について説明した。なお、本発明の実施形態は上記説明のものに限定されない。以下で述べるような別の実施形態であってもよい。以下、別の実施形態の例をいくつか説明する。なお、以下の実施形態において、画像処理装置３０の構成は、図１１に示したものと同様であるが、各部の処理の流れが異なる。そのため、以下の各実施形態については、画像処理の流れについてのみ説明する。

（実施形態２）
本発明の実施形態２における画像処理の流れの概要について図５を参照しながら説明する。

本実施形態では、まず、注目画素がラージテキスト（記号文字を含む）の一部であるか否かの判定がラージテキスト評価部３３により実行される（Ｓ８０）。注目画素がラージテキスト（または記号文字を含む）の一部であるか否かの判定処理には、注目画素に隣接する第１の区域内の複数の画素のカラー値の比較処理が含まれる。注目画素がラージテキスト（記号文字を含む）の一部であると判定された場合（Ｓ８０でＹｅｓ）、注目画素は「グリフ」画素として分類部３６によりラベル付けされる（Ｓ８２）。一方、注目画素がラージテキスト（記号文字を含む）の一部ではないと判定された場合（Ｓ８０でＮｏ）、注目画素と当該注目画素に隣接する第２の区域の局所背景との間のコントラストが動的閾値よりも大きいか否かが判断される（Ｓ８４）。コントラストが動的閾値よりも大きい場合（Ｓ８４でＹｅｓ）、注目画素は「グリフ」画素としてラベル付けされる（Ｓ８２）。コントラストが動的閾値以下である場合（Ｓ８４でＮｏ）、注目画素は「非グリフ」画素としてラベル付けされる（Ｓ８７）。もしくは、コントラストが動的閾値以上である場合に、注目画素が「グリフ」画素としてラベル付けされ、コントラストが動的閾値未満である場合、注目画素が「非グリフ」画素としてラベル付けされてもよい。また、第１の区域と第２の区域とは同じであってもよいし、異なるものであってもよい。

次に、図５で示した画像処理の流れを、図８を参照しながら、より詳細に説明する。図８は、本実施形態の画像処理の詳細を示すフローチャートである。

図８に示されるように、まずは、注目画素がラージテキスト（記号文字も含む）の一部であるか否かの判定処理として、上記実施形態１と同様に、平均カラーディスタンスμ_ｄを算出する処理が行われる。すなわち、まず、注目画素に隣接する第１の区域内の各画素の色ｃ_ｊと当該第１の区域に対する局所背景の推定色ｃ_ＬＢＧ１との距離Ｄ_ｊ ^１を算出する処理が平均算出部３３１により行われる（Ｓ１３０）。そして、平均算出部３３１は、Ｄ_ｊ ^１の平均値である、平均カラーディスタンスμ_ｄを求める（Ｓ１３１）。ここでの平均カラーディスタンスμ_ｄは、第１の区域に対して算出されるため、μ_ｄ ^（１）と記載する。

次に、注目画素がラージテキスト（記号文字を含む）の一部であるか否かの判定処理として、注目画素に隣接する第１の区域内の各画素の色と当該第１の区域に対する局所背景の推定色とのカラーディスタンスのレンジｒ_ｄ ^（１）を算出する処理（Ｓ１３２）がレンジ算出部３３２により行われる。カラーディスタンスのレンジｒ_ｄ ^（１）は、以下の式に従って算出される。

数５において、ｃ_ＬＢＧ１は、第１の区域における局所背景の推定色を示している。

次に、ｒ_ｄ ^（１）がカラーレンジ閾値Ｔｒ以下であるか、および、μ_ｄ ^（１）が平均ディスタンス閾値Ｔ_μ以上であるかが比較部３３３により確認される（Ｓ１３３）。

本実施形態では、カラーディスタンスのレンジｒ_ｄ ^（１）が小さく、かつ、平均カラーディスタンスμ_ｄ ^（１）が大きい場合（Ｓ１３３でＹｅｓ）、判定部３３４は、注目画素がラージテキスト（記号文字を含む）の一部であると判定する。そして、カラーディスタンスのレンジｒ_ｄ ^（１）が小さく、かつ、平均カラーディスタンスμ_ｄ ^（１）が大きい場合、、すなわち、注目画素がラージテキスト（記号文字を含む）の一部であると判定部３３４により判定された場合、分類部３６は、注目画素を「グリフ」画素としてラベル付けする（Ｓ１３５）。一方、そうでない場合は、更なる処理が必要とされる。

次に、注目画素がラージテキスト（記号文字を含む）の一部ではないと判定部３３４により判定された場合（Ｓ１３３でＮｏ）、類似度算出部３４は、注目画素と当該注目画素に隣接する第２の区域の局所背景の色ｃ_ＬＢＧ２との間のコントラストとして、カラーディスタンスＤ^２＝ｄ（ｃ_ＰＯＴ，ｃ_ＬＢＧ２）を求める（Ｓ１３７）。また、動的閾値算出部３５は、動的閾値Ｔ_ｄを、以下の式に従って算出する（Ｓ１３８）。

数６において、ｒ_ｄ ^（２）およびｄ_ｍｉｎ ^（２）は上述したようにレンジ算出部３５２および最小値決定部３５３により求められるものであり、Ｒは予め定められた一定値である。その後、分類部３６は、注目画素と第２の区域の局所背景の色との間のコントラストであるカラーディスタンスＤ^２＝ｄ（ｃ_ＰＯＴ，ｃ_ＬＢＧ２）が動的閾値Ｔ_ｄよりも大きいか否かを判断する（Ｓ１３９）。そして、Ｄ^２＞Ｔ_ｄである場合（Ｓ１３９でＹｅｓ）、注目画素は「グリフ」画素として分類部３６によりラベル付けされる（Ｓ１３５）。一方、Ｄ^２≦Ｔ_ｄである場合（Ｓ１３９でＮｏ）、注目画素は「非グリフ」画素として分類部３６によりラベル付けされる（Ｓ１４２）。

なお、本実施形態において、注目画素がラージテキスト（記号文字を含む）の一部であるか否かの判定処理の前に、注目画素の予備分類を実行してもよい。予備分類処理において、字体とは全く関係のないものと推定される注目画素を「非グリフ」画素として分類してもよい。これにより、注目画素に対するさらなる調査の必要性を消去することができる。典型的な予備分類処理は、コンテンツに基づく先験的な注目画素のラベリングによる処理や、「グリフ」の領域と全く一致しない特徴量に基づいた処理などが含まれる。

（実施形態３）
本発明の実施形態３における画像処理の流れの概要について図６を参照しながら説明する。

本実施形態では、まず、注目画素に隣接する第１の区域のコントラストの算出が類似度算出部３４により実行される。そして、コントラストが閾値と比較して低いかどうかが判断される（Ｓ９０）。

第１の区域におけるコントラストが相対的に低いと判断された場合（Ｓ９０でＹｅｓ）、注目画素は「非グリフ」画素としてラベル付けされる（Ｓ９２）。一方、コントラストが相対的に高いものとして判断された場合（Ｓ９０でＮｏ）、注目画素がラージテキスト（記号文字を含む）の一部であるか否かの判定がラージテキスト評価部３３により実行される（Ｓ９４）。注目画素がラージテキスト（記号文字を含む）の一部であるか否かの判定処理には、注目画素に隣接する第２の区域内の複数の画素のカラー値の比較処理が含まれる。

注目画素がラージテキスト（記号文字を含む）の一部であると判定された場合（Ｓ９４でＹｅｓ）、注目画素は「グリフ」画素として分類部３６によりラベル付けされる（Ｓ９６）。一方、注目画素がラージテキスト（記号文字を含む）の一部ではないと判定された場合（Ｓ９４でＮｏ）、注目画素と当該注目画素に隣接する第３の区域の局所背景との間のコントラストが動的閾値よりも大きいか否かが判断される（Ｓ９８）。コントラストが動的閾値よりも大きい場合（Ｓ９８でＹｅｓ）、注目画素は「グリフ」画素としてラベル付けされる（Ｓ９６）。コントラストが動的閾値以下である場合（Ｓ９８でＮｏ）、注目画素は「非グリフ」画素としてラベル付けされる（Ｓ９２）。なお、第１、第２および第３の区域は、同じであってもよいし、何れかが異なるものであってもよい。

次に、図６で示した画像処理の流れを、図９を参照しながら、より詳細に説明する。図９は、本実施形態の画像処理の詳細を示すフローチャートである。

まず、注目画素に隣接する第１の区域のコントラストの算出が類似度算出部３４により実行される。当該コントラストの算出において、類似度算出部３４は、まず、第１の区域における局所背景の推定色ｃ_ＬＢＧ１からの、当該第１の区域内の各画素との距離である複数のカラーディスタンスＤ_ｊ ^１を算出する。本実施形態では、第１の区域全体に対して、単一のカラー値ｃ_ＬＧＢ１が局所区域の推定色として得られる。あるいは、局所背景の推定色は、第１の区域の各画素の値から取得してもよい。すなわち、第１の区域の局所背景の推定色は、当該区域の各画素について求められる局所背景の色推定値の組合せにより算出される。典型的な組合せは、平均値、中間値、重み付け係数を用いて得られる平均値、および個々の局所背景の推定値の他の組合せを含む。

第１の区域における画素の平均カラーディスタンスμ_ｄ ^（１）は、以下の式に従って、類似度算出部３４により算出される（Ｓ１５１）。

数７において、ＮＨ１は第２の区域を示しており、ｃ_ｊは区域ＮＨ１に含まれる画素ｊのカラー値を示しており、ｄ（・，・）は距離を示している。典型的な測定としては、luma-chroma-chroma色空間のchroma成分間の２次元の市街地距離の測定、３次元の色空間の成分間の３次元の市街地距離の測定、ユークリッド距離測定、luma-chroma-chroma色空間のchroma成分間の加重値が与えられた２次元の市街地距離の測定や、３次元の色空間の成分間の加重値が与えられた３次元の市街地距離の測定、および他の良く知られた距離測定が挙げられる。

算出された平均カラーディスタンスμ_ｄ ^（１）は、注目画素の周りの第１の区域が局所背景の推定色と比較して低いコントラストであるか否かを判定するために、コントラスト閾値Ｔ_ＣＯＮと分類部３６により比較される（Ｓ１５２）。コントラスト閾値Ｔ_ＣＯＮは、固定値であっても可変値であってもよい。

平均カラーディスタンスμ_ｄ ^（１）がコントラスト閾値Ｔ_ＣＯＮよりも小さい場合（Ｓ１５２でＹｅｓ）、すなわち、注目画素の色が背景（局所背景および原稿下地以外の背景）と比較して低コントラストを有する場合、注目画素は「非グリフ」画素として分類部３６によりラベル付けされる（Ｓ１５４）。平均カラーディスタンスμ_ｄ ^（１）がコントラスト閾値Ｔ_ＣＯＮよりも小さくない場合（Ｓ１５２でＮｏ）、さらなる処理が必要とされる。

なお、次のような変形形態であってもよい。すなわち、平均カラーディスタンスμ_ｄ ^（１）がコントラスト閾値Ｔ_ＣＯＮよりも小さく、かつ、原稿下地の色ｃ_ＰＢＧが局所背景推定色ｃ_ＬＢＧ１と等しくない場合、すなわち、注目画素の色が局所背景と比較して低コントラストを有し、かつ、注目画素が網点領域上である場合、注目画素は「非グリフ」画素としてラベル付けされる。この変形形態の場合、平均カラーディスタンスμ_ｄ ^（１）がコントラスト閾値Ｔ_ＣＯＮよりも小さくない場合、もしくは、原稿下地の色ｃ_ＰＢＧが局所背景の推定色ｃ_ＬＢＧ１と等しい場合、さらなる処理が必要とされる。

続いて、更なる処理が必要となる場合（Ｓ１５２でＮｏ）、注目画素がラージテキスト（記号文字を含む）の一部であるかどうかの判定がラージテキスト評価部３３により行われる。注目画素がラージテキスト（記号文字を含む）の一部であるかどうかの判定処理は、上述したように、第２の区域における局所背景の推定色ｃ_ＬＧＢ２と第２の区域における画素の色ｃ_ｊとの距離であるカラーディスタンス（色差）Ｄ_ｊ ^２を類似度算出部３４が計算する処理（Ｓ１５６）と、平均算出部３３１が平均カラーディスタンμ_ｄを算出する処理（Ｓ１５７）を含む。ここでの平均カラーディスタンμ_ｄは、注目画素に隣接する第２の区域において算出されるので、μ_ｄ ^（２）と表すこととする。

注目画素がラージテキスト（記号文字を含む）の一部であるかどうかの判定処理は、さらに、第２の区域に対する局所背景の推定色と当該第２の区域の画素の色とのカラーディスタンスのレンジｒ_ｄ ^（２）を求める処理（Ｓ１５８）を含む。カラーディスタンスのレンジｒ_ｄ ^（２）は、以下の式に従って決定される。

数９において、ｃ_ＬＢＧ２は第２の区域における局所背景の推定色を示す。

次に、ｒ_ｄ ^（２）がカラーレンジ閾値Ｔｒ以下であるか、および、μ_ｄ ^（２）が平均ディスタンス閾値Ｔ_μ以上であるかが比較部３３３により確認される（Ｓ１５９）。

本実施形態では、カラーディスタンスの範囲ｒ_ｄ ^（２）が小さく、かつ、平均カラーディスタンスμ_ｄ ^（２）が大きい場合（Ｓ１５９でＹｅｓ）、判定部３３４は、注目画素がラージテキスト（記号文字を含む）の一部であると判定する。そして、カラーディスタンスの範囲ｒ_ｄ ^（２）が小さく、かつ、平均カラーディスタンスμ_ｄ ^（２）が大きい場合、すなわち、注目画素がラージテキスト（記号文字を含む）の一部であると判定部３３４により判定された場合、分類部３６は、注目画素を「グリフ」画素としてラベル付けする（Ｓ１６１）。一方、そうでない場合は、更なる処理が必要とされる。

次に、注目画素がラージテキスト（記号文字を含む）の一部ではないと判定部３３４により判定された場合（Ｓ１５９でＮｏ）、類似度算出部３４は、注目画素と当該注目画素に隣接する第３の区域の局所背景の色ｃ_ＬＢＧ３との間のコントラストとして、カラーディスタンスＤ^３＝ｄ（ｃ_ＰＯＴ，ｃ_ＬＢＧ３）を求める（Ｓ１６３）。また、動的閾値算出部３５は、動的閾値Ｔ_ｄを、以下の式に従って算出する（Ｓ１６４）。

数１０において、ｒ_ｄ ^（３）およびｄ_ｍｉｎ ^（３）は上述したようにレンジ算出部３５２および最小値決定部３５３により求められるものであり、Ｒは予め定められた一定値である。その後、分類部３６は、注目画素と第３の区域の局所背景の色との間のコントラストであるカラーディスタンスＤ^３＝ｄ（ｃ_ＰＯＴ，ｃ_ＬＢＧ３）が動的閾値Ｔ_ｄよりも大きいか否かを判断する（Ｓ１６５）。そして、Ｄ^３＞Ｔ_ｄである場合（Ｓ１６５でＹｅｓ）、注目画素は「グリフ」画素として分類部３６によりラベル付けされる（Ｓ１６１）。一方、Ｄ^３≦Ｔ_ｄである場合（Ｓ１６５でＮｏ）、注目画素は「非グリフ」画素として分類部３６によりラベル付けされる（Ｓ１５４）。

（実施形態４）
本発明の実施形態４における画像処理の流れの概要について図７を参照しながら説明する。

本実施形態では、まず、類似度算出部３４は、注目画素の色と、当該注目画素に隣接する第１の区域の局所背景の推定色との類似度を決定する。そして、当該類似度に基づいて類似しているか否かが判定される（Ｓ１１０）。

注目画素の色と第１の区域の局所背景の推定色とが類似している場合（Ｓ１１０でＹｅｓ）、注目画素は、分類部３６により「非グリフ」画素としてラベル付けされる（Ｓ１１２）。一方、注目画素の色と第１の区域の局所背景の推定色とが類似していない場合（Ｓ１１０でＮｏ）、注目画素がラージテキスト（記号文字を含む）の一部であるかどうかの判定がラージテキスト評価部３３により行われる。注目画素がラージテキスト（記号文字を含む）の一部であるか否かの判定処理には、注目画素に隣接する第２の区域内の複数の画素のカラー値の比較処理が含まれる。

注目画素がラージテキスト（記号文字も含む）の一部であると判定された場合（Ｓ１１４でＹｅｓ）、注目画素は「グリフ」画素として分類部３６によりラベル付けされる（Ｓ１１６）。一方、注目画素がラージテキスト（記号文字も含む）の一部ではないと判定された場合（Ｓ１１４でＮｏ）、注目画素と当該注目画素に隣接する第３の区域の局所背景との間のコントラストが動的閾値よりも大きいか否かが判断される（Ｓ１１８）。コントラストが動的閾値よりも大きい場合（Ｓ１１８でＹｅｓ）、注目画素は「グリフ」画素としてラベル付けされる（Ｓ１１６）。コントラストが動的閾値以下である場合（Ｓ１１８でＮｏ）、注目画素は「非グリフ」画素としてラベル付けされる（Ｓ１１２）。もしくは、コントラストが動的閾値以上である場合に、注目画素が「グリフ」画素としてラベル付けされ、コントラストが動的閾値未満である場合、注目画素が「非グリフ」画素としてラベル付けされてもよい。また、第１、第２および第３の区域は、同じであってもよいし、いずれかが異なるものであってもよい。

次に、図７で示した画像処理の流れを、図１０を参照しながら、より詳細に説明する。図１０は、本実施形態の画像処理の詳細を示すフローチャートである。

まず、類似度算出部３４は、デジタル画像の注目画素について、当該注目画素の色ｃ_ＰＯＩと当該注目画素に隣接する第１の区域の局所背景の推定色ｃ_ＬＧＢ１との類似度を求める（Ｓ１８０）。ここでは、当該類似度は、注目画素の色ｃ_ＰＯＩと当該注目画素に隣接する第１の区域の局所背景の推定色ｃ_ＬＧＢ１との間の距離Ｄ^１として算出される。ここで、この２つのカラー値の間の距離を、ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）とする。本実施形態では、第１の区域全体に対して、単一のカラー値ｃ_ＬＧＢ１が局所区域の推定色として得られる。あるいは、局所背景の推定色は、第１の区域の各画素の値から取得してもよい。すなわち、第１の区域の局所背景の推定色は、当該区域の各画素について求められる局所背景の色推定値の組合せにより算出される。典型的な組合せは、平均値、中間値、重み付け係数を用いて得られる平均値、および個々の局所背景の推定値の他の組合せを含む。

従来知られている距離測定方法が、注目画素の色ｃ_ＰＯＩと当該注目画素に隣接する第１の区域の局所背景の推定色ｃ_ＬＧＢ１との間の距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）の決定に用いることができる。典型的な測定としては、luma-chroma-chroma色空間のchroma成分間の２次元の市街地距離の測定、３次元の色空間の成分間の３次元の市街地距離の測定、ユークリッド距離測定、luma-chroma-chroma色空間のchroma成分間の加重値が与えられた２次元の市街地距離の測定や、３次元の色空間の成分間の加重値が与えられた３次元の市街地距離の測定、および他の良く知られた距離測定が挙げられる。

次に、距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）は、注目画素の色が背景の色とが実質的に類似しているかどうかを判断するために、類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}と比較される（Ｓ１８１）。類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}は、固定値であってもよいし、可変値であってもよい。距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）が類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}以下である場合（Ｓ１８１でＮｏ）、すなわち、注目画素の色と当該注目画素に隣接する区域の局所背景の色とが近いことを示している場合、注目画素は「非グリフ」画素として分類部３６によりラベル付けされる（Ｓ１８３）。一方、距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）が類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}よりも小さくない場合（Ｓ１８１でＹｅｓ）、さらなる処理が必要となる。

なお、次のような変形形態でもよい。すなわち、距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）が類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}よりも小さい場合、すなわち、注目画素の色と当該注目画素に隣接する区域の局所背景の色とが近いことを示している場合であり、かつ、局所背景の推定色ｃ_ＬＧＢ１が原稿下地の色ｃ_ＰＢＧと等しくない場合、注目画素は、「非グリフ」画素としてラベル付けされる。この変形形態では、距離Ｄ^１＝ｄ（ｃ_ＰＯＩ，ｃ_ＬＧＢ１）が類似度閾値Ｔ_{ＬＧＢ＿ＳＩＭ}よりも小さくない場合（例えば、Ｄ^１＞Ｔ_{ＬＧＢ＿ＳＩＭ}の場合）、もしくは、ｃ_ＬＧＢ１＝ｃ_ＰＢＧの場合、さらなる処理が必要となる。

また、区域Ｋにおける画素の平均カラーディスタンスμ_ｄ ^（Ｋ）が、以下の式に従って算出される。

数１１において、ＮＨＫは区域Ｋを示しており、ｃ_ｊは区域ＮＨＫに含まれる画素ｊのカラー値を示しており、ｄ（・，・）は距離を示している。典型的な測定としては、luma-chroma-chroma色空間のchroma成分間の２次元の市街地距離の測定、３次元の色空間の成分間の３次元の市街地距離の測定、ユークリッド距離測定、luma-chroma-chroma色空間のchroma成分間の加重値が与えられた２次元の市街地距離の測定や、３次元の色空間の成分間の加重値が与えられた３次元の市街地距離の測定、および他の良く知られた距離測定が挙げられる。

次に、更なる処理が必要となる場合（Ｓ１８１でＹｅｓ）、注目画素がラージテキスト（記号文字も含む）の一部であるかどうかの判定がラージテキスト評価部３３により行われる。注目画素がラージテキスト（記号文字も含む）の一部であるかどうかの判定処理は、上述したように、第２の区域における局所背景の推定色ｃ_ＬＧＢ２と第２の区域における画素の色ｃ_ｊとの距離であるカラーディスタンス（色差）Ｄ_ｊ ^２を類似度算出部３４が計算する処理（Ｓ１８５）と、平均算出部３３１が平均カラーディスタンμ_ｄを算出する処理（Ｓ１８６）を含む。ここでの平均カラーディスタンμ_ｄは、注目画素に隣接する第２の区域において算出されるので、μ_ｄ ^（２）と表すこととする。

注目画素がラージテキスト（記号文字も含む）の一部であるかどうかの判定処理は、さらに、第２の区域に対する局所背景の推定色と当該第２の区域の画素の色とのカラーディスタンスのレンジｒ_ｄ ^（２）を求める処理（Ｓ１８７）を含む。カラーディスタンスのレンジｒ_ｄ ^（２）は、以下の式に従って決定される。

数１３において、ｃ_ＬＢＧ２は第２の区域における局所背景の推定色を示す。

次に、ｒ_ｄ ^（２）がカラーレンジ閾値Ｔｒ以下であるか、および、μ_ｄ ^（２）が平均ディスタンス閾値Ｔ_μ以上であるかが比較部３３３により確認される（Ｓ１８８）。

本実施形態では、カラーディスタンスの範囲ｒ_ｄ ^（２）が小さく、かつ、平均カラーディスタンスμ_ｄ ^（２）が大きい場合（Ｓ１８８でＹｅｓ）、判定部３３４は、注目画素がラージテキスト（記号文字も含む）の一部であると判定する。そして、カラーディスタンスの範囲ｒ_ｄ ^（２）が小さく、かつ、平均カラーディスタンスμ_ｄ ^（２）が大きい場合、すなわち、注目画素がラージテキスト（記号文字を含む）の一部であると判定部３３４により判定された場合、分類部３６は、注目画素を「グリフ」画素としてラベル付けする（Ｓ１９０）。一方、そうでない場合は、更なる処理が必要とされる。

次に、注目画素がラージテキスト（記号文字を含む）の一部ではないと判定部３３４により判定された場合（Ｓ１８８でＮｏ）、類似度算出部３４は、注目画素と当該注目画素に隣接する第３の区域の局所背景の色ｃ_ＬＢＧ３との間のコントラストとして、カラーディスタンスＤ^３＝ｄ（ｃ_ＰＯＴ，ｃ_ＬＢＧ３）を求める（Ｓ１９２）。また、動的閾値算出部３５は、動的閾値Ｔ_ｄを、以下の式に従って算出する（Ｓ１９３）。

数１４において、ｒ_ｄ ^（３）およびｄ_ｍｉｎ ^（３）は上述したようにレンジ算出部３５２および最小値決定部３５３により求められるものであり、Ｒは予め定められた一定値である。その後、分類部３６は、注目画素と第３の区域の局所背景の色との間のコントラストであるカラーディスタンスＤ^３＝ｄ（ｃ_ＰＯＴ，ｃ_ＬＢＧ３）が動的閾値Ｔ_ｄよりも大きいか否かを判断する（Ｓ１９４）。そして、Ｄ^３＞Ｔ_ｄである場合（Ｓ１９４でＹｅｓ）、注目画素は「グリフ」画素として分類部３６によりラベル付けされる（Ｓ１９０）。一方、Ｄ^３≦Ｔ_ｄである場合（Ｓ１９４でＮｏ）、注目画素は「非グリフ」画素として分類部３６によりラベル付けされる（Ｓ１８３）。

本発明では、局所背景の推定色を受け取る実施形態であってもよいし、当該推定色を決定する実施形態であってもよい。局所背景の推定色を決定する典型的な方法としては、米国特許出願１１／３６５，０６７（出願日２００６年２月２８日）に記載の方法や、米国特許出願１１／４２４，２９０（出願日２００６年６月１５日）に記載の方法、その他の公知の方法を用いることができる。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

最後に、画像処理装置３０の各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、画像処理装置３０は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像処理装置３０の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記画像処理装置３０に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、画像処理装置３０を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明は、デジタル画像の画素の分類を行う画像処理装置および当該装置を含む画像形成装置、例えば、複写機などの用途に適用できる。

原稿下地領域と複数の局所背景領域とを含むドキュメント画像の一例を示す図である。注目画素と当該注目画素に隣接する領域との一例を示す図である。本発明の実施形態１に係る画素の分類処理の流れの概要を示すフローチャートである。本発明の実施形態１に係る画素の分類処理の流れの詳細を示すフローチャートである。本発明の実施形態２に係る画素の分類処理の流れの概要を示すフローチャートである。本発明の実施形態３に係る画素の分類処理の流れの概要を示すフローチャートである。本発明の実施形態４に係る画素の分類処理の流れの概要を示すフローチャートである。本発明の実施形態２に係る画素の分類処理の流れの詳細を示すフローチャートである。本発明の実施形態３に係る画素の分類処理の流れの詳細を示すフローチャートである。本発明の実施形態４に係る画素の分類処理の流れの詳細を示すフローチャートである。本発明の一実施形態に係る画像処理装置の構成を示すブロック図である。ラージテキストの一例を示す図である。ラージテキストに局所区域が含まれる場合の、当該局所区域内の画素に対応するカラーディスタンスを示す図である。局所区域が字体のエッジ部と重なるときの、当該局所区域内の画素に対応するカラーディスタンスの一例を示す図であり、（ａ）は注目画素が局所背景に近い色を示す場合であり、（ｂ）は注目画素がグリフに近い色を示す場合である。局所区域が網点領域上の字体のエッジ部と重なるときの、当該局所区域内の画素に対応するカラーディスタンスの一例を示す図である。

符号の説明

２０局所区域（第１〜第３の領域）
２１−２８画素（第１−第３の複数の画素）
２９注目画素
３０画像処理装置
３１画素選択部
３２推定色取得部
３３ラージテキスト評価部
３３１平均算出部
３３２レンジ算出部
３３３比較部
３３４判定部
３４類似度算出部
３５動的閾値算出部
３５１距離算出部
３５２レンジ算出部
３５３最小値決定部
３５４調整部
３５５加算部
３６分類部（第１−第４分類部）

Claims

デジタル画像における画素の分類方法であって、
ａ）デジタル画像における注目画素を選択する第１ステップと、
ｂ）注目画素に隣接する第１の複数の画素の各画素の色と、上記第１の複数の画素に対する局所背景を代表する色である第１の局所背景の代表色との色空間における距離である複数の第１カラーディスタンスを求め、当該複数の第１カラーディスタンスの平均値である第１平均カラーディスタンスを求め、上記第１平均カラーディスタンスが平均距離の閾値よりも大きく、かつ、上記複数の第１カラーディスタンスの最大値と最小値との差分が差分閾値よりも小さい場合に、当該注目画素が字体要件を満たすと評価する第２ステップと、
ｃ）注目画素が上記字体要件を満たす場合、当該注目画素を字体画素として分類する第３ステップと、
ｄ）注目画素が上記字体要件を満たさない場合、当該注目画素に隣接する第２の複数の画素の各画素の色と、上記第２の複数の画素に対する局所背景を代表する色である第２の局所背景の代表色との色空間における距離である複数の第２カラーディスタンスを求め、上記複数の第２カラーディスタンスの最大値と最小値との差分を定数によって調整して調整差分値を求め、上記調整差分値を上記複数の第２カラーディスタンスの最小値に加算した値を動的閾値として算出する第４ステップと、
ｅ）上記第２の局所背景の代表色と注目画素の色との差の大きさを示す第１の類似度を求める第５ステップと、
ｆ）上記第１の類似度が上記動的閾値よりも大きい場合、注目画素を字体画素として分類する第６ステップと、
ｇ）上記第１の類似度が上記動的閾値以下である場合、注目画素を非字体画素として分類する第７ステップと、
を含むことを特徴とする画素の分類方法。
上記第５ステップにおいて、色空間における、上記第２の局所背景の代表色と注目画素の色との距離を上記第１の類似度として求めることを特徴とする請求項１に記載の画素の分類方法。
３次元市街地距離により、上記第２の局所背景の代表色と注目画素の色との距離を求めることを特徴とする請求項２に記載の画素の分類方法。
上記第１の複数の画素よりなる第１の領域と上記第２の複数の画素よりなる第２の領域とが同じ領域であることを特徴とする請求項１から３の何れか１項に記載の画素の分類方法。
色空間における、注目画素に隣接する第３の領域を構成する第３の複数の画素の各画素の色と、当該第３の領域に対する局所背景を代表する色である第３の局所背景の代表色との距離である複数の第３カラーディスタンスを求め、当該複数の第３カラーディスタンスの平均値である第３平均カラーディスタンスを求めるステップを含み、
上記第３平均カラーディスタンスがコントラスト閾値以上である場合に、上記第２ステップを行い、上記第３平均カラーディスタンスがコントラスト閾値よりも小さい場合に、注目画素を非字体画素として分類することを特徴とする請求項１から４の何れか１項に記載の画素の分類方法。
注目画素に隣接する第３の領域に対する局所背景を代表する色である第３の局所背景の代表色と注目画素の色との差の大きさを示す第２の類似度を求めるステップを含み、
上記第２の類似度が類似度閾値以上の場合に、上記第２ステップを行い、上記第２の類似度が類似度閾値よりも小さい場合に、注目画素を非字体画素として分類することを特徴とする請求項１から４の何れか１項に記載の画素の分類方法。
色空間における、注目画素に隣接する第３の領域を構成する第３の複数の画素の各画素の色と、当該第３の領域に対する局所背景を代表する色である第３の局所背景の代表色との距離である複数の第３カラーディスタンスを求め、当該複数の第３カラーディスタンスの平均値である第３平均カラーディスタンスを求めるステップを含み、
上記第３平均カラーディスタンスがコントラスト閾値以上である場合、あるいは、上記第３の局所背景の代表色が原稿下地を代表する色である原稿下地の代表色と等しい場合に、上記第２ステップを行い、上記第３平均カラーディスタンスがコントラスト閾値よりも小さく、かつ、上記第３の局所背景の代表色が原稿下地の代表色と等しくない場合に、注目画素を非字体画素として分類することを特徴とする請求項１から４の何れか１項に記載の画素の分類方法。
注目画素に隣接する第３の領域に対する局所背景を代表する色である第３の局所背景の代表色と注目画素の色との類似度である第２の類似度を求めるステップを含み、
上記第２の類似度が類似度閾値以上の場合、あるいは、上記第３の局所背景の代表色が原稿下地を代表する色である原稿下地の代表色と等しい場合に、上記第２ステップを行い、上記第２の類似度が類似度閾値よりも小さく、かつ、上記第３の局所背景の代表色が原稿下地の代表色と等しくない場合に、注目画素を非字体画素として分類することを特徴とする請求項１から４の何れか１項に記載の画素の分類方法。
デジタル画像における画素の分類を行う画像処理装置であって、
ａ）デジタル画像の中から注目画素を選択する画素選択部と、
ｂ）注目画素に隣接する第１の複数の画素の各画素の色と、上記第１の複数の画素に対する局所背景を代表する色である第１の局所背景の代表色との色空間における距離である複数の第１カラーディスタンスを求め、当該複数の第１カラーディスタンスの平均値である第１平均カラーディスタンスを求め、上記第１平均カラーディスタンスが平均距離の閾値よりも大きく、かつ、上記複数の第１カラーディスタンスの最大値と最小値との差分が差分閾値よりも小さい場合に、当該注目画素が字体要件を満たすと評価する字体評価部と、
ｃ）注目画素が上記字体要件を満たす場合、当該注目画素を字体画素として分類する第１分類部と、
ｄ）注目画素が上記字体要件を満たさない場合、当該注目画素に隣接する第２の複数の画素の各画素の色と、上記第２の複数の画素に対する局所背景を代表する色である第２の局所背景の代表色との色空間における距離である複数の第２カラーディスタンスを求め、上記複数の第２カラーディスタンスの最大値と最小値との差分を定数によって調整して調整差分値を求め、上記調整差分値を上記複数の第２カラーディスタンスの最小値に加算した値を動的閾値として算出する動的閾値算出部と、
ｅ）上記第２の局所背景の代表色と注目画素の色との差の大きさを示す第１の類似度を求める第１類似度算出部と、
ｆ）上記第１の類似度が上記動的閾値よりも大きい場合、注目画素を字体画素として分類する第２分類部と、
ｇ）上記第１の類似度が上記動的閾値以下である場合、注目画素を非字体画素として分類する第３分類部と、
を備えることを特徴とする画像処理装置。
上記第１類似度算出部は、色空間における、上記第２の局所背景の代表色と注目画素の色との距離を上記第１の類似度として求めることを特徴とする請求項９に記載の画像処理装置。
上記第１類似度算出部は、３次元市街地距離により、上記第２の局所背景の代表色と注目画素の色との距離を求めることを特徴とする請求項１０に記載の画像処理装置。
上記第１の複数の画素よりなる第１の領域と上記第２の複数の画素よりなる第２の領域とが同じ領域であることを特徴とする請求項９から１１の何れか１項に記載の画像処理装置。
色空間における、注目画素に隣接する第３の領域を構成する第３の複数の画素の各画素の色と、当該第３の領域に対する局所背景を代表する色である第３の局所背景の代表色との距離である複数の第３カラーディスタンスを求め、当該複数の第３カラーディスタンスの平均値である第３平均カラーディスタンスを求める平均算出部と、
上記第３平均カラーディスタンスがコントラスト閾値よりも小さい場合に、注目画素を非字体画素として分類する第４分類部とを備え、
上記字体評価部は、上記第３平均カラーディスタンスがコントラスト閾値以上である場合に、上記字体要件の評価を行うことを特徴とする請求項９から１２の何れか１項に記載の画像処理装置。
注目画素に隣接する第３の領域に対する局所背景を代表する色である第３の局所背景の代表色と注目画素の色との差の大きさを示す第２の類似度を求める第２類似度算出部と、
上記第２の類似度が類似度閾値よりも小さい場合に、注目画素を非字体画素として分類する第４分類部とを備え、
上記字体評価部は、上記第２の類似度が類似度閾値以上の場合に、上記字体要件の評価を行うことを特徴とする請求項９から１２の何れか１項に記載の画像処理装置。
色空間における、注目画素に隣接する第３の領域を構成する第３の複数の画素の各画素の色と、当該第３の領域に対する局所背景を代表する色である第３の局所背景の代表色との距離である複数の第３カラーディスタンスを求め、当該複数の第３カラーディスタンスの平均値である第３平均カラーディスタンスを求める平均算出部と、
上記第３平均カラーディスタンスがコントラスト閾値よりも小さく、かつ、上記第３の局所背景の代表色が原稿下地を代表する色である原稿下地の代表色と等しくない場合に、注目画素を非字体画素として分類する第４分類部とを備え、
上記字体評価部は、上記第３平均カラーディスタンスがコントラスト閾値以上である場合、あるいは、上記第３の局所背景の代表色が原稿下地の代表色と等しい場合に、上記字体要件の評価を行うことを特徴とする請求項９から１２の何れか１項に記載の画像処理装置。
注目画素に隣接する第３の領域に対する局所背景を代表する色である第３の局所背景の代表色と注目画素の色との差の大きさを示す第２の類似度を求める第２類似度算出部と、
上記第２の類似度が類似度閾値よりも小さく、かつ、上記第３の局所背景の代表色が原稿下地を代表する色である原稿下地の代表色と等しくない場合に、注目画素を非字体画素として分類する第４分類部とを備え、
上記字体評価部は、上記第２の類似度が類似度閾値以上の場合、あるいは、上記第３の局所背景の代表色が原稿下地の代表色と等しい場合に、上記字体要件の評価を行うことを特徴とする請求項９から１２の何れか１項に記載の画像処理装置。
デジタル画像における画素の分類方法であって、
ａ）デジタル画像の中の注目画素を選択するステップと、
ｂ）注目画素に隣接する複数の画素からなる領域に対する局所背景を代表する色である局所背景の代表色を取得するステップと、
ｃ）上記デジタル画像の原稿下地を代表する色である原稿下地の代表色を取得するステップと、
ｄ）上記局所背景の代表色と注目画素の色との差の大きさを示す類似度を求めるステップと、
ｅ）上記類似度が類似度閾値以下であり、かつ、上記局所背景の代表色が上記原稿下地の代表色と等しくない場合に、注目画素を非字体画素として分類するステップと、
ｆ）上記類似度が類似度閾値よりも大きい場合、あるいは、上記局所背景の代表色が上記原稿下地の代表色と等しい場合に、上記領域の中の複数の画素と上記局所背景の代表色との間のコントラストを算出するステップと、
ｇ）上記コントラストが第１コントラスト閾値よりも小さく、かつ、上記局所背景の代表色が原稿下地の代表色と等しくない場合に、注目画素を非字体画素として分類するステップと、
ｈ）上記コントラストが第１コントラスト閾値以上である場合、あるいは、上記局所背景の代表色が原稿下地の代表色と等しい場合に、上記領域の中の複数の画素の各画素の色と、上記局所背景の代表色との色空間における距離である複数のカラーディスタンスを求め、上記コントラストが第２コントラスト閾値よりも大きく、かつ、上記複数のカラーディスタンスの最大値と最小値との差分が差分閾値よりも小さい場合に、注目画素が字体要件を満たすと評価するステップと、
ｉ）注目画素が上記字体要件を満たす場合に、注目画素を字体画素として分類するステップと、
ｊ）注目画素が上記字体要件を満たさない場合に、上記複数のカラーディスタンスの最大値と最小値との差分を固定値により調整して調整差分値を求め、上記調整差分値と上記複数のカラーディスタンスの最小値とを加算することで動的閾値を求めるステップと、
ｋ）上記類似度が上記動的閾値よりも大きい場合に、注目画素を字体画素として分類するステップと、
ｌ）上記類似度が上記動的閾値以下である場合に、注目画素を非字体画素として分類するステップと、
を含むことを特徴とする画素の分類方法。