JP4340701B2 - デジタル画像のテキストを識別する方法およびシステム - Google Patents

デジタル画像のテキストを識別する方法およびシステム Download PDF

Info

Publication number
JP4340701B2
JP4340701B2 JP2007229562A JP2007229562A JP4340701B2 JP 4340701 B2 JP4340701 B2 JP 4340701B2 JP 2007229562 A JP2007229562 A JP 2007229562A JP 2007229562 A JP2007229562 A JP 2007229562A JP 4340701 B2 JP4340701 B2 JP 4340701B2
Authority
JP
Japan
Prior art keywords
pixel
map
text
pixels
text candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007229562A
Other languages
English (en)
Other versions
JP2008067387A (ja
Inventor
豊久 松田
ジョン キャンベル リチャード
シャオ−シェン チェン ローレンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2008067387A publication Critical patent/JP2008067387A/ja
Application granted granted Critical
Publication of JP4340701B2 publication Critical patent/JP4340701B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Description

本発明は、デジタル画像のテキスト画素を検知する方法およびシステムに関するものである。
文字をくっきりさせるために設計された画像強調アルゴリズムを写真画像に適用した場合、写真画像の中に、視認を悪化させるような作用を生じさせることもある。特に、はっきりとしたエッジを含む写真領域に悪影響がある。スムージング処理は、自然画像を強調するものであり、テキスト領域に対して行われることはほとんどない。デジタル画像においてテキストを確実かつ効率的に検知することは好都合であり、領域種別専用の画像強調方法を、デジタル画像の適切な領域に適用することができる。
特許文献1では、画像の種類毎に表示される画質の調整を行う方法が開示されている。具体的には、画像のヒストグラムを作成してエントロピーを算出し、画像の種類の判別を行っている。ヒストグラムの頻度が一箇所に集中するとエントロピーの値が小さくなり、頻度が各階調値に広がって分布するとエントロピーの値が大きくなるという特性を用い、前者の場合をテキスト画像、後者の場合を自然画像であると判別している。
特開2003−123072(2003年4月25日公開)
しかしながら、スキャナ等で読み込んだ画像では、スキャナの光学上の特性によりテキストのエッジ部分が鈍り、テキストであってもエントロピーが大きくなることにより、写真領域とテキスト領域との識別が困難になるという問題が生じる。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、スキャナ等で読み込んだ画像データであっても、効率的かつ精度よく領域の種別を検知することが可能なデジタル画像の領域検知方法およびシステムを実現することにある。
本発明に係る方法は、上記の課題を解決するために、デジタル画像の中のテキストを識別する方法であって、a)デジタル画像の第1特徴量を示す第1特徴データを取得する第1ステップと、b)上記第1特徴データの第1特徴量の信頼性を示す信頼性データを取得する第2ステップと、c)上記デジタル画像に対応するデジタル画像データを取得する第3ステップと、d)上記第1特徴データ及び信頼性データを用いて上記デジタル画像データに対する写真領域の特徴量を算出する第4ステップと、e)上記写真領域の特徴量と第1特徴データとを用いて、信頼性の高い写真領域を求める第5ステップと、f)上記信頼性の高い写真領域に基づいてテキスト領域を示すテキストマップを生成する第6ステップとを含むことを特徴とする。
ここで、第1特徴量は、例えば、エッジ強度を示す特徴量である。また、信頼性データとは、例えば、エッジ強度を示す特徴量の信頼性を示すデータであり、エッジ強度がある閾値以上であれば、エッジである信頼性が高いことを示すものである。
上記構成によれば、第1特徴データ及び信頼性データを用いて上記デジタル画像データに対する写真領域の特徴量を算出する。すなわち、信頼性データを用いて第1特徴データのうち第1特徴量として信頼性の高い画素を抽出することができる。そして、抽出した画素に基づいて写真領域の特徴量を求めることができる。
ここで、写真領域の特徴量としては、例えば、マスキング条件を満足するマスク画素の寄与が当該マスキング条件を満足しない非マスク画素の寄与よりも小さくなるようにして計算されたエントロピー量である。エントロピー量は、テキストにおいて小さくなり、写真領域において高くなる。また、マスキング条件としては、第1特徴量がエッジ強度を示すものである場合、例えば、エッジ強度が所定閾値以上であることを示すものである。当該マスキング条件は、信頼性データ(この例では、閾値を示すデータである)から得られるものである。この場合、エッジとしての信頼性の高い画素がマスク画素となり、当該マスク画素の寄与が小さくなるようにエントロピー量が求められる。すなわち、エッジ部分の影響が小さくなるようにしてエントロピー量を求めることができる。
このように、第1特徴量で示される画像特徴の信頼性が高い画素の影響が小さくなるようにして写真領域の特徴量を求めることができる。
画像データによっては、エントロピーなど特徴量による領域分類を行う際に、当該分類を誤らせる要因となる画素(誤判定の要因となる画素)が含まれる場合がある。例えば、上述したように、スキャナ等で読み込んだ画像では、スキャナの光学上の特性により文字のエッジ部分が鈍り、文字であってもエントロピーが大きくなることにより、写真領域と文字領域との識別が困難になる。
そこで、このような誤判定の要因となる画素が満たす条件を上記マスキング条件として設定することにより、当該画素の寄与をなくした状態で特徴量を計算することができる。その結果、デジタル画像の写真領域の検出を精度よく行うことができる。
当該誤判定の要因となる画素が満たす条件は、予め様々な解析により求められている。例えば、上記のように、文字のエッジ部分が鈍り、文字であってもエントロピーが大きくなることにより、写真領域と文字領域との識別が困難になるような場合には、マスキング条件にエッジ強度を含めればよい。これにより、誤判定の要因となるエッジ強度の高い文字領域の寄与を低くした状態でエントロピー量が計算される。その結果、写真領域の検知を精度よく行うことができる。
そして、写真領域の特徴量と第1特徴データとを用いて、信頼性の高い写真領域を求める。さらに、信頼性の高い写真領域に基づいてテキスト領域を求めるため、テキスト領域を精度よく求めることができる。
本発明の方法において、上記デジタル画像データは、輝度を示すデータであってもよい。
また、本発明の方法において、上記デジタル画像データの解像度は、上記第1特徴データの解像度よりも小さくてもよい。
また、本発明の方法において、上記第1特徴データと上記信頼性データとから上記マスキング条件を生成してもよい。例えば、マスキング条件としては、第1特徴量であるエッジ強度と、信頼性データである所定閾値とを比較し、エッジ強度が所定閾値以上であることを示すものである。なお、信頼性データは、例えばエッジ強度の平均値であってもよい。また、閾値以外でも、所定閾値以上となるエッジ強度の最大値、最小値を算出し、エッジ強度と(最大値−最小値)の比率を信頼性データとして用いてもよい。この場合、上記比率に応じて、上記比率が大きいほどエントロピー量への寄与率を低く、小さいほど寄与率を高くするようマスキングする(単純には、比率の逆数を乗算するなど)。
また、本発明の方法の上記第5ステップにおいて、上記写真領域の特徴量に対してヒステリシスな閾値処理を行うことにより、信頼性の高い写真領域を求めてもよい。
また、本発明の方法の上記第5ステップにおいて、複数回のスキャンを行うことで、上記写真領域の特徴量および第1の特徴量に基づく別の特徴量のカウント値の累積をスキャンごとに行い、当該累積結果に基づいて、信頼性の高い写真領域を求めることが好ましい。上記スキャンの回数は例えば4回である。
また、本発明の方法において、上記信頼性の高い写真領域と第1特徴データとは、同じ解像度であってもよい。
また、本発明の方法は、デジタル画像のテキストを識別する方法であって、a)テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する第1ステップと、b)修正テキスト候補マップを用いてマスキングを行い、エントロピー量を算出し、当該エントロピー量に基づいて上記デジタル画像の写真領域を識別する第2ステップと、c)上記写真領域に基づいて修正テキスト候補マップの補正を行う第3ステップとを含む。
これにより、エントロピー量に基づいて識別された写真領域に基づいて、写真領域に属する可能性の高い画素をテキスト候補マップから削除する補正を行うことができる。その結果、補正されたテキスト候補マップの精度を向上させることができる。
なお、上記第2ステップにおいて、上記エントロピー量の平均を求め、当該平均エントロピー量に基づいて写真領域を識別してもよい。平均エントロピーが高いものは写真領域である可能性が高いため、写真領域を精度良く識別することができる。
また、上記第2ステップにおいて、ヒステリシス閾値処理を行うことにより写真領域を識別してもよい。
また、上記第1ステップは、上記デジタル画像のエッジを識別するエッジマップの入力を受け付けるステップと、入力されたエッジマップにおいて、所定サイズのブロックごとにエッジ画素の数をカウントし、当該ブロックの各々とカウントしたエッジ画素の数とを対応付けたエッジカウントマップを生成するステップと、上記デジタル画像におけるテキスト候補画素を示すテキスト候補マップの入力を受け付けるステップと、入力されたテキスト候補マップにおいて、所定サイズのブロックごとにテキスト候補画素の数をカウントし、当該ブロックの各々とカウントしたテキスト候補画素の数とを対応付けたテキストカウントマップを生成するステップと、を含み、テキスト候補マップ、エッジマップ、テキストカウントマップ、エッジカウントマップの各画素の値について閾値処理を行うことにより、修正テキスト候補マップを生成してもよい。
そして、上記テキスト候補マップは、デジタル画像におけるテキステャー特徴に基づいて生成されたものである。
また、本発明のシステムは、デジタル画像のテキストを識別するシステムであって、a)テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する拡張部と、b)修正テキスト候補マップを用いてマスキングを行い、エントロピー量を算出し、当該エントロピー量に基づいて上記デジタル画像の写真領域を識別する識別部と、c)上記写真領域に基づいて修正テキスト候補マップの補正を行う補正部と
を備えることを特徴とする。
これにより、エントロピー量に基づいて識別された写真領域に基づいて、写真領域に属する可能性の高い画素をテキスト候補マップから削除する補正を行うことができる。その結果、補正されたテキスト候補マップの精度を向上させることができる。
なお、上記識別部は、上記エントロピー量の平均を求めてもよい。また、上記識別部は、ヒステリシス閾値処理を行ってもよい。
また、上記拡張部は、上記デジタル画像のエッジを識別するエッジマップの入力を受け付けるエッジマップ入力受付部と、入力されたエッジマップにおいて、所定サイズのブロックごとにエッジ画素の数をカウントし、当該ブロックの各々とカウントしたエッジ画素の数とを対応付けたエッジカウントマップを生成するエッジカウントマップ生成部と、
上記デジタル画像におけるテキスト候補画素を示すテキスト候補マップの入力を受け付けるテキスト候補マップ入力受付部と、入力されたテキスト候補マップにおいて、所定サイズのブロックごとにテキスト候補画素の数をカウントし、当該ブロックの各々とカウントしたテキスト候補画素の数とを対応付けたテキストカウントマップを生成するテキストカウントマップ生成部と、を備え、テキスト候補マップ、エッジマップ、テキストカウントマップ、エッジカウントマップの各画素の値について閾値処理を行うことにより、修正テキスト候補マップを生成してもよい。
上記テキスト候補マップは、デジタル画像におけるテキステャー特徴に基づいて生成されたものであることを特徴とする請求項19に記載のシステム。
また、上記識別部は、複数回のスキャンを行うことで、上記エントロピー量の累積をスキャンごとに行い、当該累積結果に基づいて写真領域を求めてもよい。
本発明に係る方法は、デジタル画像の中のテキストを識別する方法であって、a)デジタル画像の第1特徴量を示す第1特徴データを取得する第1ステップと、b)上記第1特徴データの第1特徴量の信頼性を示す信頼性データを取得する第2ステップと、c)上記デジタル画像に対応するデジタル画像データを取得する第3ステップと、d)上記第1特徴データ及び信頼性データを用いて上記デジタル画像データに対する写真領域の特徴量を算出する第4ステップと、e)上記写真領域の特徴量と第1特徴データとを用いて、信頼性の高い写真領域を求める第5ステップと、f)上記信頼性の高い写真領域に基づいてテキスト領域を示すテキストマップを生成する第6ステップとを含む。
また、本発明の方法は、デジタル画像のテキストを識別する方法であって、a)テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する第1ステップと、b)修正テキスト候補マップを用いてマスキングを行い、エントロピー量を算出し、当該エントロピー量に基づいて上記デジタル画像の写真領域を識別する第2ステップと、c)上記写真領域に基づいて修正テキスト候補マップの補正を行う第3ステップとを含む。
これにより、テキスト領域を精度よく求めることができる。
本発明の実施形態は、図面を参照することにより、より理解が深まるであろう。図面において、同じ構成については、同じ符号を付けている。
図面に開示されているような本発明の構成要素は、様々な形態で変形可能であることは容易に理解できるであろう。このように、本発明の方法及びシステムに係る実施形態のさらなる詳細な説明は、本発明の目的を限定するものではなく、本発明の好ましい形態を示しているにすぎない。
本発明の実施形態の構成要素は、ハードウェア、ファームウェアおよび/またはソフトウェアにより実現されてもよい。ここで明示する具体的な実施形態は、これらの形式の一例を述べるものであり、当業者であれば、本発明の目的の範囲内でこれらの形式のいずれかにおいて構成要素を実現することができる。
図1は、写真領域12、文字領域14およびグラフ領域16の3つの領域を含む画像10を示している。多くの画像処理、圧縮、ドキュメント管理および他のアプリケーションにとって、画像の様々な領域を検知することが望まれている。このような領域としては、写真領域、文字領域、グラフ領域、網点領域、連続階調領域、カラー領域、白黒領域、JPEG(Joint Photographic Experts Group)形式により最も効率的に圧縮可能な領域(JPEGによる圧縮が適した領域)、JBIG(Joint Bi-level Image Experts Group)形式により最も効率的に圧縮可能な領域(JBIGによる圧縮が適した領域)、背景領域、前景領域などが含まれる。デジタル画像において、テキストの一部の画素、テキスト画素であると考えられる画素を識別することが望まれている。強度の強いエッジ又は高周波特性を有する画素の近く及びその上の写真領域(絵柄領域)の画素は、テキストの強いエッジ特性と間違えられ、誤ってテキスト画素として分類される可能性がある。また、網点画素もまた、その網点パターンの高周波特性のために、テキスト画素として誤って分類される可能性がある。
間違った画素(テキスト画素ではないのにテキスト候補画素として識別された画素)の量を見積もるため、及び、テキスト画素であるのにテキスト候補画素としてラベル付けされていないテキスト画素を解決するために、テキスト候補画素の検証(verification)が行われる。当該検証は、エッジ情報及び画像区分に基づいた検証処理である。
図2に示される本発明に係る実施形態では、テキスト画素候補のサポートを拡張させる拡張部20と、写真領域を識別し、テキストマップの補正を行う識別補正部22とクリーンアップ部24とを含む。なお、本実施形態のシステムにおいて、識別補正部は、写真領域の識別を行う識別部と、テキストマップ(修正テキスト候補マップ)の補正を行う補正部とを備えている。これにより、従来のテキスト検知処理によって識別されたテキスト候補画素の検証及び補正(refinement)を行うことができる。デジタル画像における従来のテキスト検知処理は、当業者に知られた多数の方法のうちのいずれかによって実現される。これにより、デジタル画像の画素のテキストエッジ候補としてのラベル付けや、生エッジ情報(単純なエッジ検知結果を示す情報)を生成することとなる。テキストエッジ候補のラベル情報や、生エッジ情報は、テキスト画素候補のサポートを拡張させるために使用される。
画素は、その周囲の領域の煩雑度(busyness measure)に基づいてテキスト候補画素としてラベル付けされてもよい。このラベル付けにより特定されるテキストマップ26は、1ビット画像により示される。例えば、ビット値「1」の画素がテキスト候補を示し、ビット値「0」の画素がテキスト候補ではないことを示す。図3に示される本発明の実施形態では、生エッジ情報28は、デジタル画像の各画素についてマルチビットのラベルを有する。そして、エッジとしての可能性が高いことを示すラベルが1ビット画像にマップされる(27)。当該1ビット画像のマップは、エッジマップ29として特定され、画素がいずれかのタイプのエッジに属することを示す。1ビットマップである、テキストマップ26及びエッジマップ29の解像度は、入力画像として同じ解像度であってもよい。
エッジマップ29は、有意の閾値をエッジカーネルの応答に適用することから抽出される。多くのエッジカーネル及びエッジ検知技術は従来技術として存在する。
テキストマップ26は、煩雑性(busyness)として知られているテキスチャー特徴(texture feature)から引出される。この特徴量は、網点と線とを区別し、鋭いエッジとぼやけたエッジとを区別する。また、エッジマップにそった値がテキストマップ26を生成するために使用されてもよい。この場合、網点の変遷と一致するエッジと、テキストであるとの見込みの少ないぼやけたエッジとが見積もられることにより使用される。
テキストマップ26は、近接標準(proximity criteria)に一致する画像曲率特性の度合いを有するエッジを特定することにより抽出されてもよい。
また、テキストマップ26は、強いエッジと弱いエッジの割合、および、エッジとサポートの局所領域のための画素との割合、を示すエッジ割合量から引出される。
なお、テキストマップ26は、他の公知の技術から抽出されても良い。
図3に示されるように、本発明の実施形態では、1ビットマップであるテキストマップ26及びエッジマップ29を処理対象として、それぞれ、計算処理30及び31において解像度の低減化が行われる。この解像度の低減化処理は、高解像度情報を保護するような方法で行われる。そして、サポートの領域を増やし、より低い解像度処理の計算効果を上げることができる。テキストマップ26に対応する低解像度マップは、textCnt32として特定され、エッジマップ29に対応する低解像度マップは、edgeCnt33として特定される。そして、解像度の低減化は次のようにして行われる。まず、各マップについて、互いに重ならないn×nのブロックに分ける。そして、当該n×nのブロックを、当該n×nブロックに含まれる画素のビット値の合計で置き換える。これにより解像度の低減化が行われる。これにより、テキストマップ26及びエッジマップ29をtextCnt32及びedgeCnt33のマップに変換する際に、N×NのマップからN/n×N/nのマップに解像度が低減化される。例えば、入力された600dpi(dots-per-inch)の1ビットマップについて、8×8の低減化処理(合計操作)を行うことにより、各合計値を示すための、6ビットを要求する0〜64の範囲のエントリーが可能な75dpiのマップを作り出す。また、0と1との合計値が同じエントリーによって示される場合には、5ビットマップのみが必要となる。
textCnt32及びedgeCnt33のマップ上の画素は、画素ごとに閾値と比較され、その結果が論理的に結合され(34,35)、テキスト候補マップであるtextCandidate36及び写真候補マップであるpictCandidate37が生成される。例えば、ある画素について、(edgeCnt>THh1)及び(textCnt>TH2)を満たす場合、textCandidate36のマップにおいて、当該画素がテキスト候補であることを示すように設定される。また、ある画素について、(edgeCnt>TH3)及び(TextCnt<TH4)を満たす場合、pictCandidate37のマップにおいて、当該画素が写真候補であることを示すように設定される。TH1とTH3とは同じであってもよい。
textCandidate36、pictCnadidate37、edgeCnt33及びtextCnt32のマップは、近傍情報がtextCandidate36及びpictCandidate37に組み入れられた後に、結合される。これにより、これらのラベルのサポート領域が拡張される。ラベルのサポート領域が拡大される実施形態を図4に示した。新たなマップである、textCandidateCnt42及びpictCandidateCnt43は、それぞれ、textCandidate36及びpictCandidate37のn'×n'の移動ウィンドウにおける画素値40、41を合計することにより形成される。n'×n'ウィンドウ全体がマップの中に含まれない画素は、境界拡張(boundary extention)およびゼロ見做し(zero padding:端画素を0と見なす)を含む公知の方法の1つによって処理されればよい。textCandidate36、pictCnadidate37、edgeCnt33及びtextCnt32のマップは、次の数1に従って画素ごとに結合される(44)。そして、修正テキスト候補マップであるtextCandidateMapが形成される。
Figure 0004340701
修正テキスト候補マップ46であるtextCandidateMap、エッジ情報であるedgeCnt33及びオリジナル画像(入力画像)の輝度信号が与えられると、マスクされたエントロピー量がテキスト領域と写真領域とを区別するために使用される。当該区別は、デジタル画像の識別されたテキストの更なる補正を実現する。すなわち、修正テキスト候補マップを用いてマスキングを行い、マスクされたエントロピーを算出して写真領域を分離する。具体的には、修正テキスト候補マップを参照して、テキスト(文字)画素の寄与が非テキスト画素の寄与よりも小さくなるようにマスキングを行う。
領域検知システムの効率性および信頼性は、分類処理に用いられる特徴量に依存する。図5は、異なる2つの画像領域における、特徴量の度数を標準化したプロットの一例を示している。実線52は、ある特定の領域に属するサンプル画像から抽出された特徴量の度数を示している。破線54は、別の領域に属するサンプル画像から抽出された特徴量の度数を示している。これら2つの曲線が重なり度合いが大きいことは、当該特徴量が、サンプル画像をこれら2つの領域に分離するために有効ではないことを示している。
図6は、異なる2つの画像領域における、特徴量の度数を標準化したプロットの他の例を示している。実線62は、ある特定の領域に属するサンプル画像から抽出された特徴量の度数を示している。破線64は、別の領域に属するサンプル画像から抽出された特徴量の度数を示している。これら2つの曲線が大きく分離されていることは、当該特徴量が、サンプル画像をこれら2つの領域に分離するために有効であることを示している。
本発明の目的のために、「ヒストグラム」は、フォーマットの出現頻度情報を参照するために使用される。ここで、フォーマットとは、例えば、配列、プロット、関連表、および、値(または値の集合)と当該値の度数(または、当該値の集合)とを対応付けた他のデータ構造などである。当該値または値の集合は、例えば、色(輝度または色度)、エッジ強度、エッジ方向、テキスチャ(周波数情報)、その他の全ての画像特徴に関連するものであってもよい。
本発明の実施形態は、デジタル画像における領域識別の方法またはシステムを含むものである。その中の1つの実施形態では、特徴量抽出の前に、マスキング条件を満たす画像の画素をマスキングすることにより、画像領域に対応する特徴量間の分離が行われる。マスキング条件を満たすマスク画素の値は、画像から特徴量を抽出する際に使用されない。
図7に示した本発明の一実施形態では、マスクされた画像51は、入力画像50から形成される(S52)。マスクされた画像51は、入力画像50の各画素に対してマスキング条件を確認することにより形成される。図8は、マスクされた画像の形成手順を示している。入力画像の画素60がマスキング条件を満たす場合(82)、マスクされた画像における対応する位置の画素の値として、マスキング条件が入力画像における画素位置で満足することを示すマスク画素値が割り当てられる(86)。入力画像の画素60がマスキング条件を満たさない場合(84)、マスクされた画像における対応する位置の画像の値として、入力画像における入力画素の値が割り当てられる(88)。このようにして、マスクされた画像は、マスキング条件を満たす入力画像の画素をマスクすることとなる。すなわち、本発明のシステムは、デジタル画像に対してマスキング条件を適用して、上記マスキング条件を満たすマスク画素を識別する識別処理部を備えている。
図7に示した本発明の実施形態では、マスクされた画像71を形成した後(72)、ヒストグラム73がマスクされた画像のブロックに対して生成される(74)。このヒストグラム73は、マスクされた画像の区分、セクション、その他の分割ともみなされる。なお、ヒストグラム73は必ずしも長方形でなくてもよい。本発明の目的のために、「ブロック」は、画像データの一部を示すために使用されるものであり、当該画像データの一部の形状としては、正方形、長方形、円、楕円、ほぼ円形などの様々な形状がある。
図9は、ヒストグラムの形成手順の一例(74)を示すフローチャートである。マスクされた画像が取り得る画素値に対応する複数のビン(区分)を持つヒストグラムが、図9に従って形成される。本実施形態では、全てのビンが、初期値として「0」が設定される。マスクされた画像のブロックにおける画素90の値は、マスク画素値と比較される(91)。画素90の値がマスク画素値と等しい場合(92)、当該画素は、ヒストグラムに累積されない。つまり、どのヒストグラムのビンも加算されないことを意味する。ブロック内に調査すべき画素が残っている場合、ブロック内の次の画素が調査される(91)。画素90の値がマスク画素値と同じではない場合(93)、当該画素は、ヒストグラムに累積される(94)。つまり、画素値に対応するヒストグラムのビンが加算されることを意味する。ブロックに調査すべき画素が残っている場合(97)、ブロックの次の画素が調査される(91)。
画素がヒストグラムに累積される場合(S94)、マスクされた画像のブロックにおける非マスク画素のカウント数が増やされる(S95)。ブロックの全ての画素が調査されると(98,99)、ヒストグラムの標準化が実行される(S89)。マスクされた画像のブロックにおける非マスク画素のカウント数によって、各ビンの総計を割り算することにより、当該ヒストグラムは標準化される。また、ヒストグラムが標準化されず、非マスク画素のカウント数をカウントするカウンターが存在しない形態も考えられる。このように、本実施形態のシステムは、注目画素の周辺領域の複数の画素について、上記マスク画素を累積しないようにして、各画素の値のヒストグラムを生成するヒストグラム生成部を備える。
マスクされた画像は、2つの成分で表現される。第1の成分は、マスクされた画素がビット値の一方で表現され、マスクされていない画素が他方のビット値で表現される2値画像であり、マスクとも考えられる。第2の成分は、デジタル画像である。マスクとデジタル画像との論理的組み合わせは、マスクされた画像を形成する。ヒストグラムの形成は、マスクされた画像の上記2つの成分を組み合わせて使用することで、実行される。
エントロピー量75(図7参照)は、マスクされた画像のブロックのヒストグラム73に対して計算される(S76)。エントロピー量75は、入力画像の画像特徴としてみなされる。エントロピー量75は、以下の形式の値としてみなされてもよい。本実施形態のシステムは、ヒストグラムのエントロピー量を計算し、注目画素のエントロピー量を求めるエントロピー量計算部を備える。
Figure 0004340701
数2において、Nはヒストグラムのビンの数であり、h(i)はビンiの累積数またはカウント数であり、f(・)は対数関数に似た数学的指標を持つ関数である。ビンにカウントされる画素、つまり、マスクされたものを除く画素の割合によって、エントロピー量75は重み付けされる。エントロピー量は、次の形式である。
Figure 0004340701
数3において、w(i)は、重み付け関数である。本発明のいくつかの実施形態では、関数f(h(i))はlog(h(i))である。
図7に示された本発明の実施形態では、注目画素を中心とする画像のブロックに対応するヒストグラム73に対してエントロピー量75を算出した後(S76)、当該注目画素は、エントロピー量(エントロピー特徴)75に従って分類される(S77)。分類処理(S77)は、閾値に基づいて行われる。閾値は、予め適切に決められている、もしくは、多くの方法によって決められている。注目画素は、エントロピー量75と閾値との比較によって、2つの領域のうちの一方に属するものとして分類される。
図10に示した本発明の実施形態では、デジタル画像100および対応するマスク画像101が、マスクされたデータ103を形成するために結合される(S102)。マスクされたデータ103は、量子化される(S104)。そして、マスクされた量子化データ105となる。マスクされた量子化データ105のヒストグラム107が生成され(S106)、そして、エントロピー量109が、当該ヒストグラム107を用いて計算される(S108)。ヒストグラムの生成(S106)およびエントロピー量の計算(S108)に要する手間は、マスクされたデータの量子化レベルまたは度合いに依存する。ヒストグラムのビンの数は、量子化レベルの数に依存する。すなわち、ヒストグラムのビンの数は、ヒストグラムの生成(S106)およびエントロピー量の算出(S108)に要する手間に影響を与える。スキャンする際のノイズや他の要因のために、ドキュメントにおける平坦エリア(均一なエリア)は、当該ドキュメントのデジタル画像において単一の色の値に対応していない。図10に示した実施形態では、量子化の度合いは、ドキュメントにおける均一の色のエリアに対して予期されるノイズ量に関連している。量子化幅は固定であっても、非固定であってもよい。また、量子化は、2の累乗で示されてもよい。この場合、量子化は、シフティング(shifting)を用いて実行される。このように、本実施形態のシステムは、注目画素の周辺領域の複数の画素の値を量子化する量子化部を備えている。
また、マスクされたデータは、量子化されなくてもよい。しかしながら、ヒストグラムのビンの数は、マスクされたデータ値の数よりも小さい方がよい。これらの実施形態では、ヒストグラムのビンは、マスクされたデータ値の範囲を示している。
図11に示される実施形態のように、量子化S110・S111、ヒストグラムの生成S112、およびエントロピー計算S114は、デジタル画像100および対応するマスク画像101の組み合わせ102により生成された、マスクされたデータ103に対して、複数回実施されてもよい。マスクされたデータは、異なる量子化方法S110、S111を用いて量子化される。異なる量子化方法は、例えば、量子化のレベルが異なっている。もしくは、異なる量子化方法は、量子化レベルが同じであるが、ヒストグラムのビンの境界が変化するものであってもよい。例えば、ヒストグラムのビンの境界は、ビンの幅の1/2ごとに変化していてもよい。ヒストグラムは、各量子化方法S110、S111によって生成されたデータから作成される。そして、エントロピー計算S114は、各ヒストグラムに対して行われる。生成された複数のエントロピー量は、組み合わせされて(S116)、一つのエントロピー量117に変換される。一つのエントロピー量とは、平均値、最大値、最小値、分散値など、複数のエントロピー量の結合により導出可能なものである。
また、図12に示される形態であってもよい。すなわち、デジタル画像100と対応するマスク画像101との組み合わせによって形成されたデータ103が、異なる量子化方法S110・111を用いて量子化される。そして、複数のヒストグラム120・121が複数のマスクされた量子化データ122・123に基づいて作成される。複数のヒストグラム120・121の中から、エントロピー計算S125のために1つのヒストグラム126が選択される。例えば、最大のビンの度数をもつヒストグラムを用いて、エントロピー計算が行われる。もしくは、最大の度数和となる極大部分をもつヒストグラムが用いられてもよい。
また、画像の各画素を順に中心としていく、画素値の移動ウィンドウ(a moving window)が、中心画素(注目画素)を含むブロックのためのエントロピー量を計算するために使用されてもよい。エントロピー量は、マスクされた画像の対応するブロックから算出される。エントロピー量は、上記移動ウィンドウの中心の位置の画素を分類するために使用される。図13に示される実施形態のように、画素のブロックが、エントロピー量の算出のために使用される。エントロピー量は、ブロックにおける単一の画素を分類するために使用される。図13において、ブロック131が画像130のために示されている。ブロック131におけるマスクされた画像の画素が、エントロピー量を計算するために使用される。当該エントロピー量は、画素132におけるエントロピー量としてみなされる。ブロックの中心画素132は、エントロピー量に従って分類される。
エントロピー量は、画像のブロックに対して算出されてもよい。当該ブロックの中の全ての画素は、当該エントロピー量に従って同じ種別に分類される。図14は、ブロックが、当該ブロックの全ての画素を分類するために使用されるエントロピー量を計算するために使用される実施形態を示している。図14において、ブロック141は、画像140に対して示されている。当該ブロックのマスクされた画像の画素が、エントロピー量を計算するために使用される。ブロック141の全ての画素142は、エントロピー量に従って分類される。
図15に示される実施形態のように、エントロピー量は、ヒストグラムの選択された極大部分を考慮して計算されてもよい。もしくは、エントロピー量は、ヒストグラムのピークに基づいて計算されてもよい。デジタル画像100および対応するマスク画像101は、マスクされたデータ103を形成するために組み合わされる(S102)。マスクされたデータ103は、量子化される(S104)。これにより、マスクされた量子化データ105が生成される。そして、マスクされた量子化データ105のヒストグラム107が生成される(S106)。次に、ヒストグラム107の選択された極大部分を考慮するために、変更されたヒストグラム151が生成される(150)。その後、マスクされた量子化データの変更されたヒストグラム151を用いて、エントロピー量153が計算される(S152)。なお、ヒストグラム107の単一の極大部分が考慮されてもよい。当該単一の極大部分は、ヒストグラムが形成される画像データのウィンドウの中心画素の画像値を含む極大部分であってもよい。
また、図16に示される実施形態のように、デジタル画像160が画素選択モジュール161の出力162と結合することにより(S163)、エントロピー計算で考慮されるデータ164が生成されてもよい。データ164は、量子化される(S165)。ヒストグラム168は、量子化されたデータ166から作成される(S167)。そして、エントロピー量159がヒストグラム168から計算される(S169)。画素選択モジュール161は、入力として複数のマスク157・158を用いる画素選択ロジックを備えている。マスク157・158は、画像構造に対応している。画像構造には、例えば、文字、網点、下地、およびエッジが含まれる。画素選択ロジック161は、デジタル画像160と結合される選択マスク162を生成する。当該選択マスクは、エントロピー計算においてマスクされる画像画素を選択するためのものである。
なお、マスキング条件は、画素のエッジ強度に基づいていてもよい。例えば、マスキング条件:エッジ強度が所定値以上である、などが予め設定されている。一般に、文字領域ではエッジ強度が大きい。そこで、文字領域を抽出可能な程度に当該所定値を設定しておく。これにより、文字領域の画素をマスク画素としてマスクすることが可能となる。すなわち、マスキング条件は、エッジ強度(第1特徴量)と、所定値(信頼性データ)とに基づいて生成される。
なお、信頼性データは、例えばエッジ強度の平均値であってもよい。また、閾値以外でも、所定閾値以上となるエッジ強度の最大値、最小値を算出し、エッジ強度と(最大値−最小値)の比率を信頼性データとして用いてもよい。この場合、上記比率に応じて、上記比率が大きいほどエントロピー量への寄与率を低く、小さいほど寄与率を高くするようマスキングする(単純には、比率の逆数を乗算するなど)。
また、マスキング条件が満たされる程度の信頼度が計算されてもよい。当該信頼度は、画素をヒストグラムに累積させるときに使用される。図17は、信頼度が使用される形態の一例を示している。
図17に示される実施形態では、マスクされた画像171が入力画像170から形成される(S172)。マスクされた画像171は、入力画像170の各画素でのマスキング条件を確認することにより形成される。図18に示される形態のように、マスクされた画像171の形成が行われてもよい。すなわち、入力画像の画素180がマスキング条件を満足するとき(182)、マスクされた画像の対応する画素に、当該画素においてマスキング条件が満たされることを示す値(マスク画素値)が割り当てられる(S186)。入力画像の画素180がマスキング条件を満足しないとき(184)、マスクされた画像の対応する画素に、入力画像188における対応する画素の値が割り当てられる。マスキング条件が満たされる画素では、さらに、マスク特性信号(a mask signature signal)での信頼性を反映した信頼度が割り当てられる(S185)。信頼度の割り当ては、マスク画素に対する分離値であってもよい。また、マスク画素値が、信頼性を示すレベルを持ったマルチレベルであってもよい。マスクされた画像は、入力画像における、マスキング条件を満たす画素をマスクし、さらに、マスキング条件を満足するレベルを識別する。
図17に示した実施形態では、マスクされた画像171を形成した(S172)後、ヒストグラム173が当該マスクされた画像171のブロックに対して生成される(S174)。図19は、ヒストグラム形成(S174)の手順の一例を示すフローチャートである。マスクされた画像の取りうる画素値に対応するビンを有するヒストグラムが、図19に従って生成される。この例では、全てのビンにおいて、初期値0が設定される。まず、マスクされた画像のブロックにおける画素の値190が、マスク画素値と対比される(S191)。画素の値190がマスク画素値と同じである場合(192)、当該画素は、信頼度に基づいたわずかな(fractional)カウント数でヒストグラムに累積される。そして、調査すべき画素がブロックに残っている場合(196)、当該ブロックの次の画素が調査される(S191)。画素の値190がマスク画素値と同じではない場合(194)、当該画素は、ヒストグラムに累積される(S195)。すなわち、画素値に対応するヒストグラムのビンが加算される。そして、調査すべき画素がブロックに残っている場合(197)、当該ブロックの次の画素が調査される(S191)。
画素がヒストグラム195に累積されるとき、マスクされた画像のブロックにおける非マスク画素のカウント数が増大される(S198)。ブロックの全ての画素が調査されると(S200,S199)、ヒストグラムは標準化される(S201)。ヒストグラムの標準化(S201)は、各ビンのカウント数を、マスクされた画像のブロックにおける非マスク画素の数で割ることにより行われてもよい。なお、ヒストグラムは、必ずしも標準化されなくてもよく、マスクされた画像のブロックにおける非マスク画素のカウント数をカウントするカウンターが存在しなくてもよい。
そして、上記実施形態でも述べたように、マスクされた画像の近傍画素のヒストグラムに対して、エントロピー量175が計算される(S176)。図17に示す実施形態では、画素を中心とする画像のブロックに対応するヒストグラム173に対してエントロピー量175を計算した(S176)後、当該画素は、エントロピー量175に従って、分類される(S177)。図17に示される分類処理(S177)は、閾値に基づいて行われる。閾値は、予め適切に定められていてもよく、多くの方法によって定められていてもよい。画素は、エントロピー量175と閾値との大小関係に従って、2つの領域のいずれかに属するものとして分類されてもよい。
マスキング条件は、単一の画像条件のみを備えていても良い。また、マスキング条件は、マスキング条件を形成するために結合される複数の画像条件を備えていても良い。
エントロピー量は、画像を2つの領域に分離するために使用される。または、エントロピー特徴は、画像を2つ以上の領域に分離するために使用されてもよい。
さらに、データのダイナミックレンジ全体が使用されなくてもよい。ヒストグラムは、ダイナミックレンジの上下限の間の値を持つ画素のみを考慮して生成されてもよい。もちろん、ダイナミックレンジヒストグラムを用いても良い。
また、統計上のエントロピー量は、次式によって求められる。
Figure 0004340701
数4において、Nはビンの数を示している。また、h(i)は、ビンiに対して下記の数5のように標準化されたヒストグラムにおけるカウント数を示している。また、log(0)=1は、空(empty)のビンを示している。
Figure 0004340701
最大エントロピーは、均一のヒストグラム分布に対して得られる。例えば、各ビンに対して、h(i)=1/N である場合には、最大エントロピーは以下の数6のようになる。
Figure 0004340701
エントロピー計算は、固定少数点演算に変換され、符号なし8ビット、UNIT8の評価値を導出してもよい。この評価値では、0がエントロピーなしを示し、255が最大エントロピーを示している。固定小数点演算は、2つのテーブルを使用する。第1のテーブルは、対数計算に取って代わるものであり、以下のlog_tableで示される。第2のテーブルは、ヒストグラム標準化ステップにおける割算を実行するためのものであり、rev_tableとして示される。9つのビンを有するヒストグラムの場合、次のような手順により、整数(integer)エントロピー計算が実現される。
Figure 0004340701
数7において、log_shift,rev_shift,accum_shiftは、それぞれ、対数、割算、累算処理の精度に対応している。
ハードウェアにより実現する場合には、標準化されたヒストグラムのビンの値であるnを算出するための整数除算回路を使用してもよい。
Figure 0004340701
この例では、ビンの数が9(N=9)であり、標準化乗数が255/Emax=81である。各算出ステップの固定小数点の精度は、アプリケーションや分析対象のデータの性質に依存して調整される。同様に、ビンの数も調整される。
図20に示される実施形態では、マスクされたエントロピー特徴213が、マスクとしてtextCandidateMap210を使用した入力画像の輝度信号211について生成される(S220)。マスクされたエントロピー特徴の計算処理(S220)で使用される輝度信号211は、デジタル画像と同じ解像であってもよい。もしくは、マスクされたエントロピー特徴の計算処理(S220)で使用される輝度信号211の解像度は、デジタル画像よりも低いものであってもよい。本実施形態では、マスクされたエントロピー特徴は、サポート214のより大きな領域についてのエントロピー量を生成するため、ローパスフィルタによってフィルタ処理される(S221)。そして、このエントロピー量は、平均エントロピーとして参照される。
また、本発明の一実施形態では、600dpiの画像の輝度信号が75dpiに標本化され、75dpiのtextCandidateMapと結合される。そして、画像としてみなされる75dpiのマスクされたエントロピー特徴列を、11×11の移動ウィンドウを用いて生成し、上述した公知の方法の何れかを用いてマスクされたエントロピーを計算する。その後、マスクされたエントロピー特徴列は、3×3の平均化フィルタを用いてフィルタ処理されてもよい。
写真領域215は、二重またはヒステリシスの閾値処理223を用いて平均エントロピー214から成長される。例えば、上閾値が200であり、下閾値が160である。注目画素におけるエントロピー平均値が上閾値200以上のとき、あるいは、近傍画素に写真画素が存在し、かつ、注目画素(既に写真領域抽出が行われた画素)におけるエントロピー平均値が下閾値160以上のとき、注目画素を写真画素と判定する。平均エントロピー214から成長された(S223)写真領域215は、pictEntとして参照される1ビットマップで示される。
平均エントロピー214及びマスクされたエントロピー計算(S220)に使用されるマップ(textCandidateMap)210は、結合され、画素が不確定エッジ画素であることを示す1ビットマップを形成する(S222)。画素の平均エントロピーが高く、その画素がテキスト候補である場合、当該画素がテキスト画素であるか、当該画素は写真領域のエッジに属するものとされる。inTextとして参照される1ビットマップ216は、ロジック「textCandidateMap&(aveEnt≧TH8)」によって生成される。ここで、TH8は例えば80である。また、aveEntは平均エントロピーを示している。すなわち、1ビットマップ216(inText)は、textCandidateMapにおいてテキスト候補であると示され、かつ、平均エントロピーがTH6以上である画素を示すものである。
平均エントロピー214、マップ(textCandidateMap)210及びedgeCntを閾値処理したバージョンのマップ212が結合され、inPictで参照される1ビットマップ217を形成する(S224)。当該1ビットマップ217は、テキストエッジ画素ではない画素が写真領域に属する見込みが高いことを示している。当該1ビットマップ217は、ロジック「(edgeCntTH&〜textCandidateMap)|(aveEnt>TH9)」に従って生成される。TH9は例えば200である。すなわち、エッジ画素であるがテキスト画素でない、あるいは、エントロピー平均値が所定閾値TH9より大きいとき真となり、画素が写真領域に属する可能性が高いことを示す。
上記の3つの結果である、pictEnt215、inText216及びinPict217は、写真領域成長プロセス225において結合される。これによって、多値画像であるPictCnt218を生成する。
具体的には、まず、4近傍画素を参照し、多値画像pictCnt218の最大値maxCntを算出する。
maxCnt = MAX(PictCnt(i, j-1), 5 PictCnt(i-1, j));
maxCnt = MAX(maxCnt, PictCnt(i-1, j-1));
maxCnt = MAX(maxCnt, PictCnt(i-1, j+1));
次に、注目画素について、pictEnt215、inText216及びinPict217に基づいて注目画素のpictCnt218を算出する。inPict217が真であり、かつ、pictEnt215が真であるとき、注目画素が写真領域に属する可能性が高いと判定し、近傍最大値maxCntに1を加算した値を注目画素のpictCnt218として出力する。
pictCnt(i, j) = maxCnt + 1;
inPict217が真である、あるいは、pictEnt215が真であるとき、注目画素が写真に属するか否か判定不可能であるため、近傍最大値maxCntをそのまま注目画素のpictCnt218として出力する。
pictCnt(i, j) = maxCnt;
inTextが真であるとき、近傍最大値maxCntから所定値(16 − cnt×4)を減算した値を注目画素のpictCnt218として出力する。
PictCnt(i, j) = maxCnt − (16 − cnt×4);
但し、概所定値(16 − cnt×4)は近傍のpictCnt218値に基づいて算出されるものであり、近傍画素においてPictCnt>THを満たす画素数をカウントする。PictCnt>THを満たす画素が多いほど所定値(16−cnt×4)は小さくなり、PictCnt>THを満たす画素が少ないほど所定値(16-cnt×4)は大きくなり、その結果減算値が大きくなる。例えば、全ての近傍画素がPictCnt>THを満たすとき、所定値は(16−4×4)=0となるため、近傍最大値maxCntをそのまま注目画素のpictCnt218として出力する。一方、全ての近傍画素がPictCnt>THを満たさないとき、所定値は(16−4×0)=16となるため、近傍最大値maxCntから16を減算した値を注目画素のpictCnt218として出力する。
上記何れの条件式をも満たさない場合、pictCnt218を0に初期化する。
PictCnt(i, j) = 0;
但し、上記処理において、PictCnt218が0より小さくなる場合0に、255より大きくなるとき255に飽和処理することにより、8ビット信号を生成している。
PictCnt(i, j) = PictCnt(i, j) > 255 ? 255 : PictCnt(i, j);
PictCnt(i, j) = PictCnt(i, j) < 0 ? 0 : PictCnt(i, j);
上記式は、注目画素が写真領域である可能性が高いほどpictCnt218を増加させ、文字信号である可能性が高いほどpictCnt218を減少させる履歴処理である。従って、多値画像PictCnt218では、より高い値が写真領域に属する見込みが高いことを示している。本発明の実施形態では、各画素における写真領域成長プロセス225は、4つの近傍画素を用いたカウンティングプロセスであってもよい。ここで、4つの近傍画素は、スキャン方向によって変るものである。図21Aは、スキャン方向が左上から右下のときの画素230に対する4つの近傍画素231−234を示すものである。図21Bは、スキャン方向が右上から左下のときの画素240に対する4つの近傍画素241−244を示すものである。図21Cは、スキャン方向が左下から右上のときの画素250に対する4つの近傍画素251−254を示すものである。図21Dは、スキャン方向が右下から左上のときの画素260に対する4つの近傍画素261−264を示すものである。カウンティングプロセスは、複数のスキャン回数に対して実行されてもより。この場合、各スキャンで得られるカウント値を累積させる。
4回のスキャンが連続して実行されてもよい。スキャンの順番は、例えば、左上から右下方向、右上から左下方向、左下から右上方向、右下から左上方向の順で行われる。PictCntの画素位置(i,j)における値PictCnt(i,j)は、上述したスキャンの順番に対して、下記の式によって与えられる。結果は、次のスキャンへと伝達される。なお、数9〜数12は、それぞれ、左上から右下方向、右上から左下方向、左下から右上方向、右下から左上方向の処理に対応している。
Figure 0004340701
Figure 0004340701
Figure 0004340701
Figure 0004340701
写真領域である見込みを示すPictCntと、修正テキスト候補マップであるtextCandidateMapとが結合され、補正テキストマップ219であるrTextが形成される。当該結合は、ロジック「(PictCnt<Th10)&textCandidateMap」に従って、画素ごとに行われる。ここで、TH10は例えば48である。詳細には、より高い値が写真領域に属する可能性の高いことを示すPictCntが所定閾値Th10より小さく、かつ、textCandidateMapが真となる画素を文字画素と判定することにより、補正テキストマップ219であるrTextが形成される。
図2に示される実施形態では、エントロピーに基づいた写真領域の識別処理及びテキスト候補マップの補正処理を行う識別補正部22の処理の後に、クリーンアップ部24によってクリーンアップ処理が行われる。当該クリーンアップ処理は、構成要素を制御するためのサポート情報としてPictCntを用いた、補正テキストマップであるrTextに対する形態学的な操作を含む。
テキストクリーンアップ処理からの低い解像度の結果は、より高い解像度のエッジマップと結合され、高解像度の変形テキストマップが生成される。
以上のように、本発明の方法及びシステムでは、第1の特徴量であるエッジと、エッジ抽出の信頼性を表す信頼性データに基づいて画像の写真領域(絵柄領域;pictorial)の特徴量を算出する。上記の実施形態では、写真領域の特徴量として、マスクされた画像のエントロピーを求める。
マスクされたエントロピーとは、次のようにして求める。つまり、マスキング条件(マスク条件)を充たすマスク画素についてはマスク画素値を与え、マスキング条件を充たさない非マスク画素については入力画像の画素値を与え、マスキング条件を充たさない画素について、ブロック毎にヒストグラムを作成し、ヒストグラムの階級値をブロックのマスキング条件を充たさない画素数で割る。この際、マスク画素についてわずかな値を与えても良い。そして、マスキング条件を充たさない画素のヒストグラムのエントロピーを求める。その後、エントロピーの値を閾値処理し、注目画素(あるいは、ブロック)の分類を行う。
次に、写真領域の特徴量とエッジの情報を用いて、信頼性の高い写真領域を求める。ここで、信頼性の高い写真領域を求める方法とは次のようなものである。まず、マスク条件を充たす画素について、信頼性を表す信頼度(マスク条件を充たすレベル)が与えられる。そして、マスク条件を充たす画素についてヒストグラムを作成するとともに、マスク条件を充たさない画素についてもヒストグラムを作成する。その後、マスクされた画像の周辺領域についてのエントロピーを求め、閾値処理を行って、注目画素(あるいは、ブロック)の分類を行う。
そして、信頼性の高い写真領域に基づいてテキスト領域を求める。
また、本発明の方法及びシステムは、テキスト候補マップのテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する。
次に、修正テキスト候補マップを用いてマスキングを行い、エントロピーを算出して写真領域を分離する。具体的には、テキスト候補マップと入力画像の輝度信号を用いてマスクされたエントロピーを計算する。計算結果にローパスフィルタ処理を行い、平均化されたエントロピーを求める。そして、平均化されたエントロピーについて2つの閾値、あるいは、ヒステリシス閾値処理により、写真領域の核となる領域を求める。ここで、平均化されたエントロピーが高く、テキスト候補である画素については、写真領域のエッジであると判定する。また、平均化されたエントロピー、テキスト候補マップおよびエッジマップを閾値処理した結果を参照し、写真領域に属する可能性が高い画素は、写真領域の非エッジ画素であると判定する。これらの結果を用いて、写真領域の補正(拡張)を行う。なお、注目画素に隣接する4つの画素を、スキャンを行う方向について、カウントする。
その後、上記算出した写真領域の結果を用いて修正テキスト候補マップの補正を行う。
発明の詳細な説明の項においてなされた具体的な実施形態または実施例は、あくまでも、本発明の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本発明の精神と次に記載する特許請求事項の範囲内で、いろいろと変更して実施することができるものである。
最後に、本発明のシステムの各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、本発明のシステムは、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである領域検知システム20の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記領域検知システム20に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、本発明のシステムを通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明は、複合機などの画像形成装置に適用できる。
異なる複数の種別の領域を含む画像の一例を示す図である。 後にエントロピーに基づいた写真領域の識別が実行される、初期領域が拡張されたテキスト候補マップを生成する処理の流れを示す図である。 画像特徴のサポートを拡張するためにしようされるカウンティングプロセスを示す図である。 修正テキストマップの生成処理を示す図である。 特徴量の分離度を示すヒストグラムの一例である。 特徴量の分離度を示すヒストグラムの他の例である。 本発明の一実施形態を示すものであり、マスクされた画像のヒストグラムからエントロピー量を計算する処理の流れを示す図である。 マスクされた画像の生成処理を示す図である。 ヒストグラムの生成処理の一例を示す図である。 本発明の他の実施形態を示すものであり、マスキング、量子化、ヒストグラム生成およびエントロピー計算を含む処理の流れを示す図である。 本発明の他の実施形態を示すものであり、選択データに対して複数の量子化を行い、複数のエントロピー計算を行う場合の処理の流れを示す図である。 本発明の他の実施形態を示すものであり、選択データに対して複数の量子化を行う場合の処理の流れを示す図である。 画像ウィンドウにおける画素の分類を示す図である。 画像ウィンドウにおけるブロックの分類を示す図である。 極大部分に基づいたヒストグラムの変形処理を含む実施形態の処理の流れを示す図である。 複数のマスク入力を用いた画素選択ロジックを含む実施形態の処理の流れを示す図である。 信頼度を用いたヒストグラムからのマスクエントロピー量計算を含む実施形態の処理の流れを示す図である。 信頼度を用いたときのマスクされた画像の生成処理の一例を示す図である。 信頼度を用いたヒストグラム生成処理の一例を示す図である。 テキスト補正で使用される、エントロピーに基づいた写真領域の識別処理を示す図である。 左上から右下方向のスキャンにおける4つの近傍画素を示す図である。 右上から左下方向のスキャンにおける4つの近傍画素を示す図である。 左下から右上方向のスキャンにおける4つの近傍画素を示す図である。 右下から左上方向のスキャンにおける4つの近傍画素を示す図である。
符号の説明
20 拡張部
22 識別部
24 クリーンアップ部

Claims (12)

  1. スキャナで読み取ることにより得られたデジタル画像の中のテキストを識別する方法であって、
    テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する第1ステップと、
    デジタル画像の各画素におけるエッジ強度である第1特徴量を示す第1特徴データを取得する第2ステップと、
    上記デジタル画像に対応するデジタル画像データを取得する第3ステップと、
    上記第1特徴量が第1の所定閾値以上である画素をマスク画素とし、上記第1特徴量が当該第1の所定閾値未満である画素を非マスク画素として画素を分類する第4ステップと、
    上記デジタル画像データの注目画素毎に、当該注目画素を含む所定サイズのブロック内の複数の画素の画素値について、上記第1特徴量により分類されたマスク画素と非マスク画素とを用いて、度数に対するマスク画素の寄与が非マスク画素の寄与よりも小さくなるようにヒストグラムを作成し、当該ヒストグラムに対するエントロピー量を第2特徴量として計算する第5ステップと、
    上記第2特徴量が第2の所定閾値以上である注目画素を写真領域の画素として求める第6ステップと、
    上記修正テキスト候補マップから、上記写真領域の画素を削除することで、補正後のテキストマップを生成する第7ステップと
    を含むことを特徴とするテキストを識別する方法。
  2. 上記デジタル画像データは、輝度を示すデータであることを特徴とする請求項1に記載の方法。
  3. 上記デジタル画像データの解像度は、上記第1特徴データの解像度よりも小さいことを特徴とする請求項1に記載の方法。
  4. 上記第ステップにおいて、上記第2特徴量に対してヒステリシスな閾値処理を行うことにより、写真領域を求めることを特徴とする請求項1に記載の方法。
  5. スキャナで読み取ることにより得られたデジタル画像のテキストを識別する方法であって、
    テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する第1ステップと、
    上記デジタル画像に対応するデジタル画像データを取得する第2ステップと、
    上記修正テキスト候補マップにおいてテキスト画素としてラベル付けされている画素をマスク画素とし、上記修正テキスト候補マップにおいて非テキスト画素としてラベル付けされている画素を非マスク画素とし、上記デジタル画像データの注目画素毎に、当該注目画素を含む所定サイズのブロック内の複数の画素の画素値について、度数に対するマスク画素の寄与が非マスク画素の寄与よりも小さくなるようにヒストグラムを作成し、当該ヒストグラムに対してエントロピー量を計算する第3ステップと、
    上記エントロピー量が所定閾値以上である注目画素を写真領域の画素として求める第4ステップと、
    上記修正テキスト候補マップから、上記写真領域の画素を削除することで、補正後のテキストマップを生成する第5ステップと
    を含むことを特徴とする方法。
  6. 上記第ステップにおいて、ヒステリシス閾値処理を行うことにより写真領域を識別することを特徴とする請求項に記載の方法。
  7. 上記第1ステップは、
    上記デジタル画像のエッジを識別するエッジマップの入力を受け付けるステップと、
    入力されたエッジマップにおいて、所定サイズのブロックごとにエッジ画素の数をカウントし、当該ブロックの各々とカウントしたエッジ画素の数とを対応付けたエッジカウントマップを生成するステップと、
    上記デジタル画像におけるテキスト候補画素を示すテキスト候補マップの入力を受け付けるステップと、
    入力されたテキスト候補マップにおいて、所定サイズのブロックごとにテキスト候補画素の数をカウントし、当該ブロックの各々とカウントしたテキスト候補画素の数とを対応付けたテキストカウントマップを生成するステップと、
    を含み、
    テキスト候補マップ、エッジマップ、テキストカウントマップ、エッジカウントマップの各画素の値について閾値処理を行うことにより、修正テキスト候補マップを生成することを特徴とする請求項に記載の方法。
  8. 上記テキスト候補マップは、デジタル画像におけるテキステャー特徴に基づいて生成されたものであることを特徴とする請求項に記載の方法。
  9. スキャナで読み取ることにより得られたデジタル画像のテキストを識別するシステムであって、
    テキスト候補マップの中のテキスト候補画素の領域を拡張し、修正テキスト候補マップを生成する拡張部と、
    上記修正テキスト候補マップにおいてテキスト画素としてラベル付けされている画素をマスク画素とし、上記修正テキスト候補マップにおいて非テキスト画素としてラベル付けされている画素を非マスク画素とし、上記デジタル画像に対応するデジタル画像データにおいて、当該デジタル画像データの注目画素毎に、当該注目画素を含む所定サイズのブロック内の複数の画素の画素値について、度数に対するマスク画素の寄与が非マスク画素の寄与よりも小さくなるようにヒストグラムを作成し、当該ヒストグラムに対してエントロピー量を計算し、当該エントロピー量が所定閾値以上である注目画素を写真領域の画素として求める識別部と、
    上記修正テキスト候補マップから、上記写真領域の画素を削除することで、補正後のテキストマップを生成する補正部と、
    を備えることを特徴とするシステム。
  10. 上記識別部は、ヒステリシス閾値処理を行うことにより写真領域を識別することを特徴とする請求項に記載のシステム。
  11. 上記拡張部は、
    上記デジタル画像のエッジを識別するエッジマップの入力を受け付けるエッジマップ入力受付部と、
    入力されたエッジマップにおいて、所定サイズのブロックごとにエッジ画素の数をカウントし、当該ブロックの各々とカウントしたエッジ画素の数とを対応付けたエッジカウントマップを生成するエッジカウントマップ生成部と、
    上記デジタル画像におけるテキスト候補画素を示すテキスト候補マップの入力を受け付けるテキスト候補マップ入力受付部と、
    入力されたテキスト候補マップにおいて、所定サイズのブロックごとにテキスト候補画
    素の数をカウントし、当該ブロックの各々とカウントしたテキスト候補画素の数とを対応付けたテキストカウントマップを生成するテキストカウントマップ生成部と、
    を備え、
    テキスト候補マップ、エッジマップ、テキストカウントマップ、エッジカウントマップの各画素の値について閾値処理を行うことにより、修正テキスト候補マップを生成することを特徴とする請求項に記載のシステム。
  12. 上記テキスト候補マップは、デジタル画像におけるテキステャー特徴に基づいて生成されたものであることを特徴とする請求項11に記載のシステム。
JP2007229562A 2006-09-06 2007-09-04 デジタル画像のテキストを識別する方法およびシステム Active JP4340701B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/470,519 US7876959B2 (en) 2006-09-06 2006-09-06 Methods and systems for identifying text in digital images

Publications (2)

Publication Number Publication Date
JP2008067387A JP2008067387A (ja) 2008-03-21
JP4340701B2 true JP4340701B2 (ja) 2009-10-07

Family

ID=39151601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007229562A Active JP4340701B2 (ja) 2006-09-06 2007-09-04 デジタル画像のテキストを識別する方法およびシステム

Country Status (2)

Country Link
US (2) US7876959B2 (ja)
JP (1) JP4340701B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4732250B2 (ja) * 2006-06-14 2011-07-27 キヤノン株式会社 情報処理装置、制御方法、およびコンピュータプログラム
JP4902569B2 (ja) * 2008-02-19 2012-03-21 キヤノン株式会社 画像符号化装置及びその制御方法
US20110026816A1 (en) * 2009-07-29 2011-02-03 Vaughn Robert L Rapid image categorization
US8675060B2 (en) * 2009-08-28 2014-03-18 Indian Institute Of Science Machine vision based obstacle avoidance system
JP5500996B2 (ja) * 2010-01-06 2014-05-21 キヤノン株式会社 画像処理装置及び画像処理方法
US8571343B2 (en) * 2011-03-01 2013-10-29 Sharp Laboratories Of America, Inc. Methods and systems for document-image correction
US8571306B2 (en) 2011-08-10 2013-10-29 Qualcomm Incorporated Coding of feature location information
US9223769B2 (en) 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
EP2761421B1 (en) * 2011-09-29 2016-08-10 Hewlett-Packard Development Company, L.P. Determining new color values of an image based on an activity map
US9589184B1 (en) * 2012-08-16 2017-03-07 Groupon, Inc. Method, apparatus, and computer program product for classification of documents
US9355435B2 (en) * 2013-03-14 2016-05-31 Drs Network & Imaging Systems, Llc Method and system for adaptive pixel replacement
US9058539B2 (en) 2013-04-16 2015-06-16 Canon Kabushiki Kaisha Systems and methods for quantifying graphics or text in an image
CN103971134B (zh) * 2014-04-25 2017-07-07 华为技术有限公司 图像分类、检索和校正方法,以及相应装置
US10678848B2 (en) 2018-02-12 2020-06-09 Wipro Limited Method and a system for recognition of data in one or more images
CN109684980B (zh) * 2018-09-19 2022-12-13 腾讯科技(深圳)有限公司 自动阅卷方法及装置
US20210034907A1 (en) * 2019-07-29 2021-02-04 Walmart Apollo, Llc System and method for textual analysis of images
CN110610166B (zh) * 2019-09-18 2022-06-07 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质

Family Cites Families (152)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH646788A5 (de) * 1978-11-28 1984-12-14 Hell Rudolf Dr Ing Gmbh Verfahren und schaltungsanordnung zum erkennen von farben.
US4741046A (en) * 1984-07-27 1988-04-26 Konishiroku Photo Industry Co., Ltd. Method of discriminating pictures
US5001767A (en) * 1987-11-30 1991-03-19 Kabushiki Kaisha Toshiba Image processing device
JPH02100583A (ja) * 1988-10-07 1990-04-12 Toshiba Corp 画像処理方法およびその装置
US5353132A (en) * 1989-02-06 1994-10-04 Canon Kabushiki Kaisha Image processing device
JP3223512B2 (ja) * 1990-12-19 2001-10-29 ソニー株式会社 画像表示方法及び装置
US5157740A (en) * 1991-02-07 1992-10-20 Unisys Corporation Method for background suppression in an image data processing system
JP2852390B2 (ja) * 1991-02-16 1999-02-03 株式会社半導体エネルギー研究所 表示装置
US5265173A (en) * 1991-03-20 1993-11-23 Hughes Aircraft Company Rectilinear object image matcher
JPH06121161A (ja) * 1991-05-14 1994-04-28 Fuji Xerox Co Ltd カラー画像処理装置の文字処理方式
US5280367A (en) * 1991-05-28 1994-01-18 Hewlett-Packard Company Automatic separation of text from background in scanned images of complex documents
JP3276985B2 (ja) * 1991-06-27 2002-04-22 ゼロックス・コーポレーション イメージピクセル処理方法
US5696842A (en) 1991-07-04 1997-12-09 Ricoh Company, Ltd. Image processing system for adaptive coding of color document images
US5436981A (en) * 1992-06-24 1995-07-25 Canon Kabushiki Kaisha Image processing method, and apparatus therefor
JP3337723B2 (ja) 1992-11-06 2002-10-21 キヤノン株式会社 画像処理装置及び画像処理方法
US5379130A (en) * 1992-12-02 1995-01-03 Industrial Technology Research Institute Text/image separation method
US5339172A (en) * 1993-06-11 1994-08-16 Xerox Corporation Apparatus and method for segmenting an input image in one of a plurality of modes
US5362796A (en) * 1993-08-09 1994-11-08 Isp Investments Inc. Molded crosslinked vinyl lactam polymer gel and method of preparation
JPH07107275A (ja) 1993-10-06 1995-04-21 Konica Corp 画像領域判別装置
US5689575A (en) * 1993-11-22 1997-11-18 Hitachi, Ltd. Method and apparatus for processing images of facial expressions
US5546474A (en) * 1993-12-21 1996-08-13 Hewlett-Packard Company Detection of photo regions in digital images
US5588072A (en) 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
JPH07220091A (ja) * 1994-02-04 1995-08-18 Canon Inc 画像処理装置及び方法
US5481622A (en) * 1994-03-01 1996-01-02 Rensselaer Polytechnic Institute Eye tracking apparatus and method employing grayscale threshold values
EP0677812B1 (en) * 1994-04-15 2001-11-21 Canon Kabushiki Kaisha Document storage and retrieval system
EP0677817B1 (en) * 1994-04-15 2000-11-08 Canon Kabushiki Kaisha Page segmentation and character recognition system
JPH07322252A (ja) * 1994-05-23 1995-12-08 Canon Inc 画像符号化装置
US5917945A (en) * 1994-06-15 1999-06-29 Metanetics Corporation Recognizing dataforms in image areas
US5903363A (en) 1994-08-04 1999-05-11 Canon Kabushiki Kaisha Image processing apparatus and method
US5694228A (en) 1994-08-09 1997-12-02 Ricoh Company,Ltd. Document image processor with defect detection
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
US6215904B1 (en) * 1994-11-30 2001-04-10 Xerox Corporation Apparatus and method for selecting encoding schemes based upon image content
US5581667A (en) 1994-12-23 1996-12-03 Xerox Corporation Electronic trapping system for digitized text and images
EP0724229B1 (en) 1994-12-28 2001-10-10 Canon Kabushiki Kaisha Image processing apparatus and method
US5649025A (en) * 1995-02-03 1997-07-15 Xerox Corporation Multithresholding for document image segmentation
JPH08305846A (ja) * 1995-03-07 1996-11-22 Matsushita Electric Ind Co Ltd ニューロフィルターと像域分割方法とフィルター装置
US5682249A (en) * 1995-05-11 1997-10-28 Xerox Corporation Method of encoding an image at full resolution for storing in a reduced image buffer
US5995665A (en) * 1995-05-31 1999-11-30 Canon Kabushiki Kaisha Image processing apparatus and method
JP3774498B2 (ja) 1996-01-08 2006-05-17 キヤノン株式会社 画像処理方法とその装置
JPH09204525A (ja) 1996-01-29 1997-08-05 Canon Inc 画像像域分離装置及びその方法
JPH09251533A (ja) 1996-03-18 1997-09-22 Babcock Hitachi Kk 画像領域の抽出方法
US5923775A (en) * 1996-04-04 1999-07-13 Eastman Kodak Company Apparatus and method for signal dependent noise estimation and reduction in digital images
US5946420A (en) * 1996-05-10 1999-08-31 Hewlett-Packard Company Printing with text enhancement: recognition by sensing paired edges, or by disqualification in pictorial regions
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US5960104A (en) * 1996-08-16 1999-09-28 Virginia Polytechnic & State University Defect detection system for lumber
US5778092A (en) * 1996-12-20 1998-07-07 Xerox Corporation Method and apparatus for compressing color or gray scale documents
US5767978A (en) * 1997-01-21 1998-06-16 Xerox Corporation Image segmentation system
US5900953A (en) * 1997-06-17 1999-05-04 At&T Corp Method and apparatus for extracting a foreground image and a background image from a color document image
US6222932B1 (en) * 1997-06-27 2001-04-24 International Business Machines Corporation Automatic adjustment of image watermark strength based on computed image texture
US6298173B1 (en) 1997-10-03 2001-10-02 Matsushita Electric Corporation Of America Storage management system for document image database
US6014464A (en) * 1997-10-21 2000-01-11 Kurzweil Educational Systems, Inc. Compression/ decompression algorithm for image documents having text graphical and color content
US6347153B1 (en) * 1998-01-21 2002-02-12 Xerox Corporation Method and system for classifying and processing of pixels of image data
US6252994B1 (en) * 1998-01-26 2001-06-26 Xerox Corporation Adaptive quantization compatible with the JPEG baseline sequential mode
US6175650B1 (en) * 1998-01-26 2001-01-16 Xerox Corporation Adaptive quantization compatible with the JPEG baseline sequential mode
JP4662584B2 (ja) * 1998-01-27 2011-03-30 イーストマン コダック カンパニー 画像センサのライン毎ノイズ除去装置及び方法
JPH11213090A (ja) 1998-01-29 1999-08-06 Nippon Telegr & Teleph Corp <Ntt> 文字図形と背景領域の識別方法およびその装置およびその方法を記録した記録媒体
US6020979A (en) * 1998-03-23 2000-02-01 Xerox Corporation Method of encoding high resolution edge position information in continuous tone image information
US6175427B1 (en) * 1998-04-20 2001-01-16 Xerox Corporation System and method of tonal correction of independent regions on a compound document
AUPP400998A0 (en) 1998-06-10 1998-07-02 Canon Kabushiki Kaisha Face detection in digital images
US6233353B1 (en) * 1998-06-29 2001-05-15 Xerox Corporation System for segmenting line drawings from text within a binary digital image
JP3453085B2 (ja) * 1998-07-23 2003-10-06 ジーイー横河メディカルシステム株式会社 X線ct装置
US6308179B1 (en) * 1998-08-31 2001-10-23 Xerox Corporation User level controlled mechanism inter-positioned in a read/write path of a property-based document management system
US6782129B1 (en) * 1998-09-23 2004-08-24 Xerox Corporation Image segmentation apparatus and method
US6178260B1 (en) * 1998-09-23 2001-01-23 Xerox Corporation Image segmentation apparatus and method
US6272240B1 (en) * 1998-09-23 2001-08-07 Xerox Corporation Image segmentation apparatus and method
US6360009B2 (en) 1998-09-23 2002-03-19 Xerox Corporation Image segmentation apparatus and method
US6389164B2 (en) * 1998-09-23 2002-05-14 Xerox Corporation Image segmentation apparatus and method
US6373981B1 (en) * 1998-12-21 2002-04-16 Xerox Corporation Method and apparatus for segmenting data to create mixed raster content planes
US6400844B1 (en) * 1998-12-02 2002-06-04 Xerox Corporation Method and apparatus for segmenting data to create mixed raster content planes
US6360007B1 (en) * 1998-12-22 2002-03-19 Xerox Corporation Dynamic optimized color lut transformations based upon image requirements
US6731789B1 (en) * 1999-01-29 2004-05-04 Canon Kabushiki Kaisha Image processing apparatus and method, and storage medium
US6260009B1 (en) * 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
IL131282A (en) * 1999-08-05 2009-02-11 Orbotech Ltd Apparatus and methods for inspection of objects
EP1221256A1 (en) * 1999-09-16 2002-07-10 Applied Science Fiction, Inc. Method and system for altering defects in a digital image
US6668080B1 (en) * 1999-09-21 2003-12-23 Microsoft Corporation Automated layer extraction and pixel assignment from image sequences
US6535633B1 (en) * 1999-09-24 2003-03-18 Bank One Method and apparatus for re-classifying color image pixels classified by single channel segmentation
US6594401B1 (en) * 1999-10-20 2003-07-15 Xerox Corporation Detection and elimination of scanning artifacts
US6577762B1 (en) * 1999-10-26 2003-06-10 Xerox Corporation Background surface thresholding
US6728391B1 (en) * 1999-12-03 2004-04-27 United Parcel Service Of America, Inc. Multi-resolution label locator
DE19958553A1 (de) * 1999-12-04 2001-06-07 Luratech Ges Fuer Luft Und Rau Verfahren zur Kompression von gescannten Farb- und/oder Graustufendokumenten
US6718059B1 (en) * 1999-12-10 2004-04-06 Canon Kabushiki Kaisha Block selection-based image processing
US7015978B2 (en) * 1999-12-13 2006-03-21 Princeton Video Image, Inc. System and method for real time insertion into video with occlusion on areas containing multiple colors
GB2357649A (en) * 1999-12-22 2001-06-27 Nokia Mobile Phones Ltd Image enhancement using inverse histogram based pixel mapping
EP1119186A3 (en) * 2000-01-19 2002-07-31 Xerox Corporation Method for generating anti-aliased text and line graphics in compressed document images
JP3814456B2 (ja) * 2000-02-07 2006-08-30 キヤノン株式会社 画像処理装置及びその方法
US6473522B1 (en) * 2000-03-14 2002-10-29 Intel Corporation Estimating text color and segmentation of images
US6901164B2 (en) * 2000-04-14 2005-05-31 Trusight Ltd. Method for automated high speed improvement of digital color images
JP4496602B2 (ja) 2000-05-17 2010-07-07 コニカミノルタビジネステクノロジーズ株式会社 画像処理方法および画像処理装置
US6778291B1 (en) 2000-06-12 2004-08-17 Hewlett-Packard Development Company, L.P. Fast page analyzer for proper selection of compression engine for rendered data
JP3986732B2 (ja) * 2000-06-21 2007-10-03 パイオニア株式会社 映像信号の輝度レベル補正装置
JP3715905B2 (ja) 2001-06-26 2005-11-16 キヤノン株式会社 画像処理装置、画像処理方法、プログラム並びに記憶媒体
US7133565B2 (en) * 2000-08-25 2006-11-07 Canon Kabushiki Kaisha Image processing apparatus and method
US6941014B2 (en) * 2000-12-15 2005-09-06 Xerox Corporation Method and apparatus for segmenting an image using a combination of image segmentation techniques
US6766053B2 (en) * 2000-12-15 2004-07-20 Xerox Corporation Method and apparatus for classifying images and/or image regions based on texture information
US6522791B2 (en) * 2001-01-23 2003-02-18 Xerox Corporation Dynamic user interface with scanned image improvement assist
US6853755B2 (en) 2001-03-28 2005-02-08 Sharp Laboratories Of America, Inc. Method and apparatus for adaptive compression of scanned documents
JP2002325182A (ja) 2001-04-25 2002-11-08 Sharp Corp 画像処理方法および画像処理装置並びにそれを備えた画像形成装置
GB2375908B (en) 2001-05-23 2003-10-29 Motorola Inc Image transmission system image transmission unit and method for describing texture or a texture-like region
CN1213592C (zh) * 2001-07-31 2005-08-03 佳能株式会社 采用自适应二值化的图象处理方法和设备
US6983068B2 (en) * 2001-09-28 2006-01-03 Xerox Corporation Picture/graphics classification system and method
JP4029316B2 (ja) 2001-10-18 2008-01-09 日本電気株式会社 画像種別識別方法および装置と画像処理プログラム
US7194140B2 (en) * 2001-11-05 2007-03-20 Canon Kabushiki Kaisha Image processing apparatus and method which compresses image data of each region using a selected encoding method
JPWO2003043306A1 (ja) * 2001-11-13 2005-03-10 セイコーエプソン株式会社 色変換プログラムを記録した媒体、色変換テーブルデータを記録した媒体、色変換装置、色変換方法、色変換プログラム、色変換テーブル、色変換テーブル作成プログラムを記録した媒体、補間演算プログラムを記録した媒体、色変換テーブル作成プログラム、補間演算プログラム、色変換テーブル作成装置、補間演算装置、色変換テーブル作成方法、補間演算方法、部分色変換テーブル、印刷装置および印刷方法
US7424129B2 (en) * 2001-11-19 2008-09-09 Ricoh Company, Ltd Printing system with embedded audio/video content recognition and processing
EP1318665B1 (en) * 2001-12-06 2015-02-25 Canon Kabushiki Kaisha Image processing apparatus and method, program, and storage medium
US7221805B1 (en) 2001-12-21 2007-05-22 Cognex Technology And Investment Corporation Method for generating a focused image of an object
US7027647B2 (en) * 2001-12-31 2006-04-11 Hewlett-Packard Development Company, L.P. Coder matched layer separation for compression of compound documents
US8103104B2 (en) * 2002-01-11 2012-01-24 Hewlett-Packard Development Company, L.P. Text extraction and its application to compound document image compression
US6941024B2 (en) * 2002-01-14 2005-09-06 Hewlett-Packard Development Company, L.P. Coder matched layer separation and interpolation for compression of compound documents
US7085422B2 (en) * 2002-02-20 2006-08-01 International Business Machines Corporation Layer based compression of digital images
US20040205568A1 (en) * 2002-03-01 2004-10-14 Breuel Thomas M. Method and system for document image layout deconstruction and redisplay system
JP2003303346A (ja) 2002-04-09 2003-10-24 Nippon Telegr & Teleph Corp <Ntt> 目標追跡方法、目標追跡装置、目標追跡プログラム、並びにこのプログラムを記録した記録媒体
US7085420B2 (en) 2002-06-28 2006-08-01 Microsoft Corporation Text detection in continuous tone image segments
US6987882B2 (en) * 2002-07-01 2006-01-17 Xerox Corporation Separation system for Multiple Raster Content (MRC) representation of documents
JP4194336B2 (ja) * 2002-07-25 2008-12-10 富士通マイクロエレクトロニクス株式会社 半導体集積回路、欠陥画素補正方法、及び画像プロセッサ
US6993185B2 (en) * 2002-08-30 2006-01-31 Matsushita Electric Industrial Co., Ltd. Method of texture-based color document segmentation
JP2004110606A (ja) 2002-09-20 2004-04-08 Pfu Ltd 画像処理装置及び方法並びにプログラム
US6918706B2 (en) * 2002-10-31 2005-07-19 Canon Kabushiki Kaisha Reducing a difference in picture quality between deteriorated and non-deteriorated images using a printing apparatus
US7400770B2 (en) 2002-11-06 2008-07-15 Hrl Laboratories Method and apparatus for automatically extracting geospatial features from multispectral imagery suitable for fast and robust extraction of landmarks
US20040096102A1 (en) * 2002-11-18 2004-05-20 Xerox Corporation Methodology for scanned color document segmentation
US7079687B2 (en) * 2003-03-06 2006-07-18 Seiko Epson Corporation Method and apparatus for segmentation of compound documents
US7139433B2 (en) * 2003-03-13 2006-11-21 Sharp Laboratories Of America, Inc. Compound image compression method and apparatus
US20040190028A1 (en) * 2003-03-31 2004-09-30 Foster Thomas J. Post RIP image rendering in an electrographic printer in order to minimize electrophotographic process nonuniformities
US7330288B2 (en) * 2003-03-31 2008-02-12 Eastman Kodak Company Post RIP image rendering in a MICR electrographic printer to improve readability
US7483484B2 (en) * 2003-10-09 2009-01-27 Samsung Electronics Co., Ltd. Apparatus and method for detecting opaque logos within digital video signals
JP3775409B2 (ja) 2003-10-29 2006-05-17 ブラザー工業株式会社 画像読取装置
US7912291B2 (en) * 2003-11-10 2011-03-22 Ricoh Co., Ltd Features for retrieval and similarity matching of documents from the JPEG 2000-compressed domain
JP4050220B2 (ja) 2003-11-21 2008-02-20 シャープ株式会社 画像処理方法及び画像処理装置並びに画像形成装置、プログラム、記録媒体
US7317829B2 (en) * 2003-12-12 2008-01-08 Microsoft Corporation Background color estimation for scanned images
EP1709525A4 (en) 2004-01-06 2016-10-12 Thomson Licensing PERFECTED TECHNIQUES FOR DETECTING, ANALYZING AND OPERATING VISIBLE AUTHENTICATION CONFIGURATIONS
JP4182891B2 (ja) 2004-01-26 2008-11-19 富士ゼロックス株式会社 画像処理装置
US7379594B2 (en) * 2004-01-28 2008-05-27 Sharp Laboratories Of America, Inc. Methods and systems for automatic detection of continuous-tone regions in document images
US7343046B2 (en) * 2004-02-12 2008-03-11 Xerox Corporation Systems and methods for organizing image data into regions
SE0400325D0 (sv) * 2004-02-13 2004-02-13 Mamea Imaging Ab Method and arrangement relating to x-ray imaging
US7324711B2 (en) * 2004-02-26 2008-01-29 Xerox Corporation Method for automated image indexing and retrieval
US7542082B2 (en) 2004-03-30 2009-06-02 Canon Kabushiki Kaisha Method and apparatus for correcting a defective pixel
EP1594308A1 (en) 2004-05-07 2005-11-09 Dialog Semiconductor GmbH Single line Bayer filter RGB bad pixel correction
EP1605403A1 (en) 2004-06-08 2005-12-14 STMicroelectronics S.r.l. Filtering of noisy images
JP2005354278A (ja) 2004-06-09 2005-12-22 Seiko Epson Corp 撮像手段の撮像した画像の画像データを処理する画像データ処理
US7376265B2 (en) 2004-06-17 2008-05-20 Seiko Epson Corporation Segmentation-based hybrid compression scheme for scanned documents
US7324687B2 (en) 2004-06-28 2008-01-29 Microsoft Corporation Color segmentation-based stereo 3D reconstruction system and process
JP4166744B2 (ja) 2004-10-18 2008-10-15 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体
KR100926193B1 (ko) 2004-12-21 2009-11-09 캐논 가부시끼가이샤 디지털 화상 분할 및 콤팩트한 표현 생성
US7433513B2 (en) * 2005-01-07 2008-10-07 Hewlett-Packard Development Company, L.P. Scaling an array of luminace values
JP2006260401A (ja) * 2005-03-18 2006-09-28 Toshiba Corp 画像処理装置、方法、およびプログラム
US7233867B2 (en) 2005-04-06 2007-06-19 General Electric Company Eddy current inspection method and system
KR101108435B1 (ko) 2005-05-31 2012-02-16 서강대학교산학협력단 의사윤곽 제거 방법 및 이 방법이 적용되는 디스플레이장치
JP2005353101A (ja) 2005-08-25 2005-12-22 Ricoh Co Ltd 画像特徴抽出方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US8630498B2 (en) 2006-03-02 2014-01-14 Sharp Laboratories Of America, Inc. Methods and systems for detecting pictorial regions in digital images
US8437054B2 (en) 2006-06-15 2013-05-07 Sharp Laboratories Of America, Inc. Methods and systems for identifying regions of substantially uniform color in a digital image
US20080310721A1 (en) 2007-06-14 2008-12-18 John Jinhwan Yang Method And Apparatus For Recognizing Characters In A Document Image

Also Published As

Publication number Publication date
US20080056573A1 (en) 2008-03-06
US8150166B2 (en) 2012-04-03
US20110110596A1 (en) 2011-05-12
JP2008067387A (ja) 2008-03-21
US7876959B2 (en) 2011-01-25

Similar Documents

Publication Publication Date Title
JP4340701B2 (ja) デジタル画像のテキストを識別する方法およびシステム
JP4745296B2 (ja) デジタル画像の領域分離方法および領域分離システム
JP4745297B2 (ja) デジタル画像における均一な色の領域を特定する方法およびシステム
JP4498422B2 (ja) 画素の分類方法および画像処理装置
US7379594B2 (en) Methods and systems for automatic detection of continuous-tone regions in document images
JP4266030B2 (ja) デジタル画像の領域を検知する方法およびシステム
JP4745430B2 (ja) デジタル画像のテキストの位置決定を行う方法およびシステム
JP4590471B2 (ja) 背景色を推定する方法およびシステム
JPH07231388A (ja) デジタル・イメージのフォト領域検出システム、及び方法
US7567709B2 (en) Segmentation, including classification and binarization of character regions
JP4098021B2 (ja) シーン識別方法および装置ならびにプログラム
JP4527127B2 (ja) デジタル画像の領域を検知するシステム
CN113688838B (zh) 红色笔迹提取方法、系统、可读存储介质及计算机设备
JP4498425B2 (ja) デジタル画像の画素を分類する方法およびシステム
JP4649498B2 (ja) 画像データの色補正方法及びシステム
Boiangiu et al. Local thresholding algorithm based on variable window size statistics
Valizadeh et al. A novel hybrid algorithm for binarization of badly illuminated document images
Sakila et al. A hybrid approach for document image binarization
Boiangiu et al. Bitonal image creation for automatic content conversion
CN111739014B (zh) 基于图像处理的图像质量检测方法及相关装置
CN117671496A (zh) 一种无人机应用成果自动比对方法
Kim et al. Soft decision histogram-based image binarization for enhanced ID recognition
Fazeli et al. An overview of different binary methods for documents based on their features
Wei et al. A two-stage binarization method for the Mongolian Kanjur images

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090609

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090706

R150 Certificate of patent or registration of utility model

Ref document number: 4340701

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130710

Year of fee payment: 4