JP2007174654A

JP2007174654A - 文書画像を示す走査データを処理するための方法

Info

Publication number: JP2007174654A
Application number: JP2006339320A
Authority: JP
Inventors: Zhigang Fan; ファンジガン; Stuart A Schweid; エー．シュウェイドスチュアート; Martin E Banton; イー．バントンマーティン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2005-12-21
Filing date: 2006-12-18
Publication date: 2007-07-05
Anticipated expiration: 2026-12-18
Also published as: JP4994017B2; US20070140571A1; US7379593B2

Abstract

【課題】背景をより正確に識別することができる走査画像データ、及びこの走査画像データ内のテキストデータをより好ましくセグメント化する。
【解決手段】文書画像を示す走査データを処理するための方法において、走査データを背景及びフォアグラウンドの各レイヤにセグメント化し、フォアグラウンドレイヤ候補のデータを含む走査データを複数のウインドウに表示し、該複数のウインドウのそれぞれが背景レイヤデータに隣接するように識別され得る選択された領域を含み、テキスト、図形、及び画像のそれぞれのオブジェクトを含むオブジェクトを、これら複数のウインドウから抽出し、オブジェクトがオブジェクト周辺との間に所定のコントラスト・レベルを有することに基づいてオブジェクトを分類し、これにより改良された再生画像品質で高圧縮比を達成するためのデータをセグメント化する。
【選択図】図５

Description

本発明は、画像セグメント化（セグメンテーション）に関し、詳細には、文書画像を示す走査されたデータを処理する方法であって、高い再生画質を得るためにより好適に画像の背景及びテキスト部分を検出する方法に関する。

本発明の例示的な実施の形態は、多数の抽出された一定の色領域（「ＭＥＣＣＡ」）を備えた混合ラスターコンテント（「ＭＲＣ」）画像を生成するための画像セグメント化方法を対象とする。ＭＲＣモデリングは、高い圧縮比を達成し、一方で良質に構成された画質を維持可能な強力な画像表示方法である。ＭＥＣＣＡモデリングは、比較的分解能を必要としないこと、内在するテキスト強調できること、ならびにノイズ低減を特徴とする利点を有する。ＭＥＣＣＡモデルは、１つの背景レイヤ（層）、Ｎ個のフォアグラウンドレイヤ、及びＮ個のマスクレイヤ（ここでＮは非負整数である）を含んでいる。背景レイヤは連続階調ビットマップであってもよいが、フォアグラウンドレイヤは一定色に制限される。

１つの画像のＭＲＣ／ＭＥＣＣＡ表示を生成するためには、セグメント化が必要である。セグメント化アルゴリズムは一般に、４つのステップ、即ち、オブジェクト抽出、オブジェクト選択、カラー・クラスタリング、及び結果生成から構成される。第１のステップでは、テキスト及び他のオブジェクトが画像から抽出される。次に、抽出されたオブジェクトは、フォアグラウンドレイヤに表示されるべきかどうかを判断するために、色の一定性及びその他の特徴に対して検査される。第３のステップでは、選択されたオブジェクトが、色空間内でクラスタ化される。最終的に画像は、それぞれのフォアグラウンドレイヤが同一色のクラスタからのオブジェクトをコード化するようにセグメント化される。

ウインドウ処理は、文書画像セグメント化における別の概念である。ウインドウ処理は、ページを背景境界によって分離される異なる領域に仕切る。ウインドウ処理は、最初に、異なるテキスト・オブジェクト及びウインドウを分離するページ背景を識別する。ウインドウは、画像及び図形（「合成画像」と称される）のようなものとして分類される。グラフィック・ウインドウは、更に再帰的に処理される。グラフィック・ウインドウの局所背景が検出される。テキスト及び（１つのウインドウ内の）ウインドウは局所背景によって分離される。これら（１つのウインドウ内部の）ウインドウは分類される。すべてのオブジェクトが分離されるまで、このプロセスは繰り返される。

ＭＲＣ／ＭＥＣＣＡセグメント化の一部として適用可能なウインドウ処理が必要である。これは、オブジェクトとしてテキスト及びその他の詳細を抽出し、これらオブジェクトは、フォアグラウンドレイヤにおいてコード化されることになる候補である。

ページ背景検出は一般に、走査済み文書画像セグメント化のための最初のステップである。検出された背景は、さらに、テキスト文字、画像、及び図形を含むページにおいて異なるオブジェクトを分離するために適用されることができる。ページ背景検出は、また、背景強調のような用途に対しても有用である。既存のページ背景検出方法の多くは、全体的（全域的）なしきい値処理に基づく。具体的には、しきい値はまず、画素強度の全体的なヒストグラムから抽出される一部の統計値を使用して決定される。しきい値は、そのページ上のすべての画素に適用される。上記のアプローチは一般に妥当な結果を生成するが、テキスト領域、及び背景が黒っぽい対象と近接するその他の領域で失敗することがある。テキスト（及びより黒っぽい）領域における背景は、空いた白色領域のそれとは異なる統計的分布を有していることが多い。多くの理由で、例えばＩＣＥ（統合的キャビティ効果）や、ＪＰＥＧ（ジェイペグ）リンギング(ringing)アーチファクト（一部の走査画像は軽くＪＰＥＧで圧縮されてファイルサイズ及び／又はバンド幅を低減させ、圧縮が軽いと導入されるリンギングは目に見えないこともあるが、ページ背景検出結果を変化させるのに十分に強いことがある）などの利用で黒っぽくなる傾向がある。背景検出中におけるエラーは、背景強調のような用途に対しては有効である可能性があるが、ＭＲＣ／ＭＥＣＣＡモデルをセグメント化するような他の用途に対しては不適当な結果を導くことがある。しきい値を全体的に低下させて（更なる領域が背景として検出される）問題を回避することができる。しかしながら、画像領域のような明るく背景でない部分を背景として誤って判別する危険がある。局所しきい値処理方法が、テキスト及び背景を分離するために存在する。こうした方法は、しきい値を確立するために局所統計値に依拠する（を用いる）。これらの方法は、テキスト及び他の小さな細部を効果的に抽出することができ、したがってＯＣＲなどの用途に適している。しかしながら、これら方法は、画像用ウインドウなどの大きなオブジェクト見出すことができず、ページ背景検出に対しては一般に不適当である。たとえば、「非ページ背景」として分類すべきところ、一般的には、色背景上のテキストは、「テキスト」及び「背景」として分類する。さらに、局所しきい値処理法は、一般に多くの計算を必要とする。

データを背景又はテキストの一方にセグメント化することが重要であることは、異なる画像の種類に応じて、対応する圧縮アルゴリズムを使用することがはるかに効率的であるという理由からである。たとえば、ＪＰＥＧが画像のための効率的な圧縮アルゴリズムである一方、他のアルゴリズムは特にテキストなどの二値画像向けに設計される。走査画像データの異なる部分に対して異なる圧縮アルゴリズムを使用することは、再生された高画質のデータに対する高圧縮比という利点を提供する。

したがって、背景をより正確に識別することができる走査画像データ、及びこの走査画像データ内のテキストデータをより好ましくセグメント化する必要がある。

より広範囲にウインドウ表示情報を利用するＭＲＣ／ＭＥＣＣＡセグメント化方法を提供する。より詳しくは、画像は、背景及び異なる複数のウインドウに分割される。各ウインドウは、画像又は図形のいずれかとして分類される。このようなウインドウ表示分類は、セグメント化方法内での意思決定及びパラメータ選択を最適化する。

本実施の形態に従って、ページ背景検出方法はまた、２つのしきい値構成に基づいて開示される。２つのヒストグラムが作成され、テキスト・ヒストグラムはテキスト（及びより黒っぽい）領域から、白色領域ヒストグラムは非テキスト（及びより明るい）領域から作成される。近傍に黒っぽい画素が存在する画素はテキスト・ヒストグラムに寄与し、そうでない画素は、白色領域ヒストグラムに寄与する。２つのしきい値は、２つのヒストグラムから生成され、テキスト領域及び非テキスト領域に別々に適用される。このような検出方法は、明るい画像領域を犠牲にすることなく、テキスト及び背景をきれいに分離することができる。

したがって、再生画像品質を改良し圧縮比を高めるためのセグメント化データを含む文書画像を表わす走査データを処理するための方法が提供される。この方法は、走査データを背景レイヤ及びフォアグラウンドレイヤにセグメント化することを含む。走査データのフォアグラウンドレイヤは、複数のウインドウで表示され、各ウインドウは背景レイヤデータと隣接するように識別され得る選択領域を有する。オブジェクトは複数のウインドウからオブジェクトが抽出され、ここでオブジェクトはテキスト、図形及び画像オブジェクトから構成され、それぞれが背景レイヤデータに対するコントラストの特殊性によって識別可能である。テキストオブジェクトは、比較的低いレベルのコントラストによって識別され、図形オブジェクトは次のレベルのコントラストで、画像オブジェクトは、比較的高いレベルのコントラストによって識別される。さらに個々のレベルのコントラストは予め選択されたしきい値によって定義される。

背景レイヤのセグメント化は、画素強度を表わす複数のヒストグラムを作成し、該テキスト・ヒストグラムの１つが走査画像の黒っぽい領域におけるテキストを表わし、白色領域ヒストグラムは走査画像の非テキスト（より明るい）領域を表わす。異なるしきい値は、ページ背景レイヤを識別するためのヒストグラムに適用される。

本発明は、改良された高圧縮比及び良好な再構築画像品質を実現するために走査データをセグメント化することに関する。上述のように、異なるタイプの走査データは、異なるタイプの圧縮アルゴリズムに従ってより効率的に圧縮されることができる。画像が緩慢に変化する走査画像データ部分（ピクチャ）は、ＪＰＥＧのような画像圧縮アルゴリズムによって良好に圧縮される。遷移領域は、バイナリ圧縮器によって良好に圧縮される。したがって、セグメント化プロセスは、基本的には画像を幾つかのレイヤにセグメント化し、緩慢に変化する情報を伝送するレイヤが画像圧縮器で圧縮され、急激な遷移を伝送するレイヤはバイナリ圧縮器によって圧縮される。

本発明は、主として、走査画像データの「ウインドウ処理」、及びページ背景レイヤ検出の識別に対する２つのしきい値処理技法に関する。このウインドウ処理は、ページ背景、一般に用紙の白い部分を使用することに関し、ページ上のオブジェクトを分離することである。オブジェクトによって、一部のテキストや文字、図形表示、又は画像表示が示される。ウインドウ内のオブジェクトデータを識別し、それを背景データからウインドウ内のフォアグラウンド・レイヤデータをより正確な方法で処理することによって、データ・セグメント化はより効率的に実行され、データはより効率的に圧縮されてより正確に再生される。主な目的は、テキスト材料を他のオブジェクトデータから区別しフォアグラウンドレイヤとして正確に分離することである。たとえば、画像データが一部のテキストを含む画像から構成される場合、画像内の非テキストの小さなオブジェクトとテキストは画素の強度により基づくため、テキストと非常に類似して見えるので、混同されないことが重要である。

特に図１を参照すると、画像１は、テキストデータ２、画像データ４、及び図形データ６から構成される。画像のこれらの部分のすべてが白色背景によって隣接されていることが理解できる。図２は、従来の背景検出方法とともに発生する可能性がある問題を示し、ここで、単一のしきい値は、画素データのヒストグラムの全体的しきい値処理に基づいて適用される。この場合、テキスト及び白色ページ背景間の領域の分離は、テキストの領域内の隣接する黒っぽい画素によってあまりきれいではない。その適用されたしきい値が高すぎると、このような部分のページ背景領域をはっきりと区別することはできない。あるいはまた、全体的しきい値処理が低下されてページ背景検出を向上させる場合、画像データのより白い領域８は背景レイヤとして混同される可能性がある。しかしながら、図４の再生された画像を図２及び図３と対照させることは、本件の方法が白色背景レイヤ、及びこれによるクリアで鮮明なテキスト部分をより高品質で再生を行なうことを立証する。

図５を参照すると、本発明は、ウインドウ処理情報をより広範囲に利用するＭＲＣ／ＭＥＣＣＡセグメント化方法から構成される。図５を参照すると、ウインドウ処理１０は、オブジェクト抽出２０、オブジェクト選択３０、カラー・クラスタリング４０、及びコーディング５０と組み合わされる。

ウインドウ処理１０は、画像を複数のブロックに分けることを含んでいる。上述したように、各ウインドウは、背景によって分離される異なる領域にページを区分することを含む。したがって、画像は、ウインドウを画像及び図形のいずれかとして分類するために、背景ウインドウおよび異なるウインドウに区分される。以下に述べられるように、分類されたウインドウはオブジェクト抽出２０、オブジェクト選択３０、カラー・クラスタリング４０、及び結果生成（コーディング）５０のそれぞれにステップにおいて、意思決定及びパラメータ選択プロセスを最適化するために利用することができる。

図６を参照すると、オブジェクト抽出２０のステップにおいて、抽出されるオブジェクトに対して、（オブジェクトとその環境との間に）強いコントラストが必要とされる。画像ウインドウには、背景及び図形のそれぞれのウインドウよりも、もっと厳しい条件（より強いコントラスト）が課せられる。これは、ノイズは画像ウインドウ内にある傾向が強いという事実による。より強いコントラスト要件は、これを演繹的知識として示す。したがって、潜在的オブジェクトから成る候補データは、抽出される（６０）。オブジェクトが図形データ又は画像データを含むウインドウ内にない場合、テキスト・オブジェクトとして識別のために考慮され、第１のパラメータ・セットＥ１（６４）がそのテキストオブジェクトを背景レイヤデータと区別するために適用される。そのパラメータ・セットＥ１（６４）は、比較的低いレベルのコントラスト表示を含んでいる。そのオブジェクトが図形又は画像ウインドウ６２のいずれかにある場合、該オブジェクトが図形ウインドウ６６内にあると判断されることになり、第２のパラメータ・セットＥ２（６８）が、背景レイヤデータとは対照的にウインドウ内で図形オブジェクトを識別するために適用される。パラメータ・セットＥ２（６８）は、パラメータ・セットＥ１よりも高い次のレベル・コントラストによって識別される。オブジェクトが画像ウインドウにある場合、パラメータ・セットＥ３（７０）は比較的高いレベルのコントラストを含むように適用される。パラメータ・セット値Ｅ１、Ｅ２、Ｅ３は、実験的データに基づいて予め定められている。適用されたパラメータ・セットの用途によって抽出され得る（７２）オブジェクトは、これらは適切に分類されたオブジェクトリストに送信される（７４）。すべてのコントラスト測定値は、特定の対象となるオブジェクトの環境に左右される。「環境」によって、隣接する画素を意味することを意図する。

オブジェクト選択ステップにおいて、オブジェクトは、色均一性に関して検査される。均一なオブジェクトのみがフォアグラウンドレイヤの候補としてさらに考慮される。また一方、異なる評価基準が、テキスト、図形、及び画像データに適用される。選択の基準となるためのしきい値は、画像ウインドウのオブジェクトに対して高く（より困難に）設定される。さらに詳しくは、選択パラメータＳ１は、ウインドウにないデータ、即ち、候補テキストデータに対して適用され（８０）、パラメータ・セットＳ１が、比較的低いレベルの色均一性を表示する。第２のパラメータ・セットＳ２の適用は、ウインドウ内の図形オブジェクトに対して行なわれる（８２）。第３のパラメータ・セットＳ３は、画像ウインドウ・データに適用される（８４）。色均一性図形パラメータ・セットＳ３はパラメータ・セットＳ２より高く、このパラメータセットは低いパラメータ・セットＳ１よりも高い。さらに、パラメータ・セットは、実験的データに基づいて予め定められている。パラメータ・セットを適用して、候補オブジェクトに色均一性が不足していると決定されると、フォアグラウンドレイヤとしてのオブジェクト選択から削除される（８６）。

図８のカラークラスタリング・ステップにおいて、オブジェクトは、各グループ内でオブジェクトが同じ色となるようにグループ化される。このクラスタリングは、最初に同じウインドウ内で実行され、そして同じタイプのウインドウ内で実行される。異なる種類のウインドウからのオブジェクトは、異なるクラスタに残存する。画像ウインドウにおける小さなクラスタ（オブジェクトを有するクラスタ）は、ノイズを表すことがよくあるので（背景として符号化され）廃棄される。より詳しくは、３つの区別可能なクラスタリング・パラメータ・セットはまた、候補オブジェクトに適用される。ウインドウの外側にある候補オブジェクト、即ち、テキスト・オブジェクトでは、第１のクラスタ・パラメータ読み取りセットＣ１の使用が加えられ（９０）、同色のオブジェクトが比較的低いレベルにあることを判断する。図形オブジェクトでは、第２のパラメータ・セットＣ２が、ウインドウ内の図形オブジェクトを識別するために加えられる９２。最後に、第３のパラメータ・セットＣ３は、候補画像オブジェクトに適用され、色均一性に対するしきい値が高いレベルに設定される。同一色を有するようにクラスタ化可能なオブジェクトは適切にクラスタ化される。

図９及び図１０に関して、本実施の形態の別の特徴は、２つのしきい値処理を使用するページ背景検出方法に関して説明される。２つのヒストグラムは、一方がテキスト（及びより黒っぽい）領域から、さらに他方が非テキスト（及びより明るい）領域から作成される。その付近に（即ち、所定の周辺領域内に）黒っぽい画素があると、画素はテキスト・ヒストグラムに寄与する。そうでなければ、白色領域ヒストグラムに寄与する。２つのしきい値は、２つのヒストグラムから生成され、テキスト（より黒っぽい）領域と、非テキスト（より明るい）領域に別個に適用される。ヒストグラムは、それぞれ、背景領域、ブロック、テキスト領域、又はブロックから（１００）の統計値を収集するために作成される。その統計値派分析され（１０２）、ヒストグラムからしきい値を導き出す（１０４）。

図１０に関して、一実施の形態において、本発明の方法は、画像を分離ブロックにセグメント化することを含んでいる。すべての画素強度が所定値より大きい場合、ブロックは「背景」ブロックであると考えられる。そうでなければ、ブロックは、「テキストブロック」として分類される。候補ブロックが識別されると（１０６）、これらブロックは、黒色画素を含むか否かを判断するために検査される（１０８）。肯定判断の場合、第１のしきい値はテキスト・ヒストグラムを更新する（１１０）ために適用されて、テキストしきい値によって識別されるテキストデータを含む。否定判断の場合、ブロックは、第２のしきい値の適用に基づいて背景ヒストグラムを更新する（１１２）ために使用される。

図１は、セグメント識別、特にページ背景検出のために処理されるべきオリジナル画像の表示を示す図である。図２は、従来方法の処理結果を示す図である。図３は、代替的セグメント化方法の結果を示す図である。図４は、本発明の方法によるページ背景再生のための高品質再生画像結果を示す図である。図５は、ウインドウ情報に基づく本発明の画像セグメント化のための処理工程を示しているフローチャートである。図６は、図５のオブジェクト抽出ステップの処理工程をより詳細に示すフローチャートである。図７は、図５のオブジェクト選択ステップの処理工程をより詳細に示すフローチャートである。図８は、図５のカラークラスタ化ステップの処理工程をより詳細に示すフローチャートである。図９は、２つのしきい値処理を使用するページ背景検出方法のための処理工程を一般に示すフローチャートである。図１０は、図９の統計値収集ステップの処理工程をより詳細に示すフローチャートである。

Claims

改良された再生画像品質で高圧縮比を達成するためにデータをセグメント化することを含む、文書画像を示す走査データを処理するための方法であって、
走査データを背景及びフォアグラウンドの各レイヤにセグメント化するステップと、
フォアグラウンドレイヤ候補のデータを含む走査データを複数のウインドウに表示することであって、該複数のウインドウのそれぞれが背景レイヤデータに隣接するように識別され得る選択された領域を含む、前記ウインドウに表示するステップと、
テキスト、図形、及び画像のそれぞれのオブジェクトを含むオブジェクトを、前記複数のウインドウから抽出するステップと、
オブジェクトがオブジェクト周辺との間に所定のコントラスト・レベルを有することに基づいてオブジェクトを分類するステップと、
を含む、文書画像を示す走査データを処理するための方法。
前記背景レイヤのセグメント化するステップが、画素強度を表す複数のヒストグラムを作成し、これらヒストグラムの１つがテキスト及び走査データの黒っぽい領域を示し、他のヒストグラムが走査データの非テキスト領域及びより明るい領域を示す、請求項１に記載の方法。
前記分類するステップは、背景レイヤデータに対するコントラスト識別性によってテキスト、図形、及び画像のそれぞれのオブジェクトを識別し、テキスト・オブジェクトが比較的最も低いレベルのコントラストで、図形オブジェクトが次のレベルのコントラストで、画像オブジェクトが比較的最も高いレベルのコントラストでそれぞれ表示され、個々のレベル・コントラストが予め選択されたしきい値によって定義される、請求項１に記載の方法。
前記オブジェクトを抽出するステップは、背景レイヤに対してテキスト・オブジェクトを識別するための第１のテキスト・セットと、背景レイヤに対して図形オブジェクトを識別するための第２の図形セットと、背景レイヤに対して画像オブジェクトを識別するための第３の画像セットと、を含む、抽出パラメータ・セットに基づく、請求項１に記載の方法。