JP4573706B2

JP4573706B2 - ディジタル画像セグメンテーション方法

Info

Publication number: JP4573706B2
Application number: JP2005170241A
Authority: JP
Inventors: ファンジガン; ダブリュ．ジェイコブズティモシー
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2004-06-14
Filing date: 2005-06-10
Publication date: 2010-11-04
Anticipated expiration: 2025-06-10
Also published as: BRPI0502019A; JP2006004425A; US7376272B2; US20050275897A1

Description

本発明は、一般に、画像セグメンテーション（線分化）に係り、より詳細には、一貫した前景層を有する混合ラスタコンテンツ（ＭＲＣ）画像を生成する方法に関する。

本発明は、一貫した前景層を有する混合ラスタコンテンツ（ＭＲＣ）画像を生成する画像セグメンテーションのための方法に関する。この方法は、詳細情報を持つ均一なテキストと他の均一なカラーオブジェクトを抽出する。この方法は、四つの基本ステップを有する。最初に、画像からオブジェクトが抽出される。次に、これらのオブジェクトのカラーコンシステンシー(一貫性）及び他の特性がテストされ、ＭＲＣ前景層へコード化するために該オブジェクトを選択すべきかが決定される。次に、選択されたオブジェクトは、カラースペースにおいてクラスタリングされる。画像は、各前景層が、同一カラークラスタからのオブジェクトをコード化するように最終的にセグメント化される。

Ｓ．Ｒｅｖａｎｋａｒ（レヴァンカール）とＺ．Ｆａｎ（ファン）による、１９９８年６月１６日付で発行された「画像セグメンテーションシステム（ＩＭＡＧＥＳＥＧＭＥＮＴＡＴＩＯＮＳＹＳＴＥＭ）」と題された特許文献１は、ドキュメント処理システムおいてのデータのストリームを処理する画像レンダリングシステムを開示し、データのストリームは、出力画像をレンダリングするためのセグメンタブル画像形成データを含み、出力画像は、複数の画像クラスに応じて、差動的にレンダリング処理することが可能である。画像レンダリングシステムは、画像データを複数の画像領域に分割するセグメンタと、各画像クラスへこれらの領域を割当てるセレクタと、該セレクタに応答して複数の画像クラスの少なくとも一つに応じて出力画像を差動的にレンダリングするプロセッサと、を含む。

ＭＲＣ（混合ラスタコンテンツ）とは、再構築された高画質を維持しつつ高圧縮比率を達成する際に役立つ画像表示概念である。また、ＭＲＣは、圧縮基準として設定されている。ＭＲＣ内で、基本的な３層モデル（コントーン前景、コントーン背景、及びバイナリマスク）は最も一般的な表示形式である。このモデルは、背景層、マスク、及び前景層ペアを用いたカラーラスター画像を表す。前景層および背景層は、通常、コントーンビットマップであるが、マスクは、通常、バイナリである。マスク層は、他の二つの層から最終画像をどのようにして再構築するかを記述する。マスク層のピクセル値が１のとき、最終画像への対応画素が前景層から選択されるが、マスク層のピクセル値が０のとき、対応画素は、背景層から選択される。
米国特許第5,767,978号

しかしながら、ＭＲＣには、得られたファイルが、ＰＤＦでコード化された場合、ある層のポストスクリプト及びＰＤＦプリンタ上ではプリントできない可能性があるという欠点がある。前景層がコントーン形式で表示されなければ、この問題は、回避可能である。結果的に、この問題を処理するために、一貫した前景層を有するＭＲＣが導入された。このモデルは、一つの背景層、Ｎ個の前景層、及びＮ個のマスク層を含む。ここで、Ｎは、負でない整数を表す。背景層は、コントーンビットマップであるが、前景層は、一貫してカラーに限定される。このモデルを構築することは、演算的に、３層モデルを構築するよりも困難であるが、得られたＰＤＦファイルは、すべてのポストスクリプトプリンタでプリント可能であると思われる。

本発明によれば、一貫した前景を有する混合ラスタコンテンツ形式で表示すべく、ディジタル画像のセグメンテーションを行う方法であって、画像から均一なカラーオブジェクトを抽出するステップと、抽出されたオブジェクトのうちの少なくともいくつかのオブジェクトのカラー一貫性をテストして、該抽出されたオブジェクトが混合ラスタコンテンツ形式で前景層へコード化されるべきかを決定するステップと、該前景層を表示するために選択されたオブジェクトをカラースペース内でクラスタリングし、少なくとも一つの共通のカラークラスタに該オブジェクトを対応付けるステップと、各前景層が該共通のカラークラスタからのオブジェクトを表すように、画像をセグメントするステップと、を有する方法が提供される。

本発明の一つの態様は、従来の３層ＭＲＣフォーマットでなく、一貫したまたは共通の前景カラーでのみ画像が識別されるように、ＭＲＣ画像形式の画像を使用可能であるという発見に基づく。この発見によって、上記フォーマットを処理することができないプリンタで３レベルＭＲＣフォーマッットを用いる際に生じていた問題が解決される。本明細書中に記載されている技術を用いれば、本発明は、より広範囲のプリンタでプリント可能な、改良された（即ち、一貫した前景を有する）フォーマットによる画像の表示を行うことができる。したがって、本発明は、ＭＲＣフォーマットの使用を可能とし、しかも、既存のプリンタを使用して画像をレンダリングすることが可能である。本発明に基き使用される技術により、結果的に、ＭＲＣフォーマットの画像ファイルをレンダリングするために既存のポストスクリトプト及びＰＤＦプリンタをそのまま使用することができる。

本発明の第１の態様は、一貫した前景を有する混合ラスタコンテンツ形式で表示すべく、ディジタル画像のセグメンテーションを行う方法であって、画像から均一なカラーオブジェクトを抽出するステップと、抽出されたオブジェクトのうちの少なくともいくつかのオブジェクトのカラー一貫性をテストして、抽出されたオブジェクトが混合ラスタコンテンツ形式で前景層へコード化されるべきかを決定するステップと、前景層を表示するために選択されたオブジェクトをカラースペース内でクラスタリングし、少なくとも一つの共通のカラークラスタにオブジェクトを対応付けるステップと、各前景層が該共通のカラークラスタからのオブジェクトを表すように画像をセグメントするステップと、を有する方法である。

本発明の第２の態様は、第１の態様に記載の方法であって、オブジェクトをクラスタリングするステップが、第１の抽出されたオブジェクトが、第２の抽出されたオブジェクトと共にクラスタリングされるべきかを判断するためにオブジェクトの内部のみのカラーをテストするステップを更に有する。

本発明の第３の態様は、第２の態様に記載の方法であって、テストするステップが、抽出されたオブジェクトの位置を、該オブジェクトがクラスタ対象として考慮されている該クラスタ内の他のオブジェクトの位置と比較するステップを更に有する。

「画像」は、物理的な光のパターンである。画像は、文字、単語及びテキストのみならず、図形などの他の特性を含むことができる。テキストは、ドキュメントの頁の画像におけるように、一つ以上の画像のセットに含まれてもよい。「画像セット」は、一つ以上の画像のセットである。画像は、各々がそれ自体画像である「セグメント」へ分割可能である。画像のセグメントは、任意のサイズであってよく、画像全体もしくはその一部であってよい。画像における各ロケーションは、「ピクセル（画素）」と称される。

「画像の特性」または「特性」は、測定可能な画像の属性である。オペレーションは、画像を定義付けるデータを用いて、特性を示すデータを生成することによって、特性を「測定」することができる。測定毎に略同じ結果を容易に生じる可能性が高いように特性が測定された場合に、「画像」の特性が測定される。

「文字」は、言語の書かれた形態すなわち印刷された形態において現れる別個の要素を意味する。従って、英語における文字は、アルファベット要素および数字的要素のみならず、書かれた形態すなわち印刷された形態の英語において使用される句読点、発音区別符号、数学記号、論理記号、及び他の要素を含むことが可能である。より一般的には、文字は、英数字的要素以外に、音声要素、表意文字、または絵画的要素を含むことができる。

「単語」は、言語の意味論的単位として扱われる一つ以上の文字のセットである。

「テキスト」は、文字の一つ以上の行の配列である。テキストの文字は、単語を形成してよい。

「オブジェクト」は、関連画素の集合であり、オブジェクトにおいて、画素は、隣接する境界すなわち枠（ボーダ）内で互いに連結または対応付けられる。オブジェクトは、文字、単語、テキスト、または、コントーン画像、あるいは、これらの組み合わせ又は集合であってもよい。

「画像入力端末」（ＩＩＴ）は、画像を受け取るとともに画像のバージョンを定義付けるデータのアイテムを提供可能なデバイスである。「スキャナー」は、ドキュメントのスキャニングなどのスキャニング動作によって画像を受け取る、画像入力デバイスである。「ディジタルカメラ」もまた、画像入力デバイスである。

「画像出力端末」（ＩＯＴ）は、画像を定義付けるデータのアイテムを受け取るとともに該画像を出力として提供可能なデバイスである。「プリンタ」は、画像出力端末である。「ディスプレイ」は、人間が目視可能な形式で出力画像を提供する画像出力端末である。ディスプレイによって提供される可視パターンは、「ディスプレイされた画像」または単なる「画像」である。

本発明の一つの実施の形態に記載の方法は、コンピュータソフトウェア駆動システムとして動作することが意図されている。従って、以下に詳細に説明される一つ以上の処理ステップは、画像データを受け取り、処理し、出力することが可能な、専用ディジタル画像処理システムなどのコンピュータのプラットホーム、プリント・プリプロセッサ、または、任意の好適なコンピュータやワークステーション上で動作することができる。このようなソフトウェアは、対応するＩＩＴ、ＩＯＴ、あるいは、同様のデバイスや周辺デバイスに他の機能性を提供すべく作用する埋め込み式のプロセッサ上で動作する、プログラムデータであってもよいことが理解されよう。

図１を参照すると、（３層ＭＲＣフォーマットでなく）一貫した前景レベルを有しながらも混合ラスタコンテンツ形式で画像を表示するのに好適な方法で、ディジタル画像をセグメントするプロセスの、種々のステップを示すデータフロー図が示されている。上記したように、ＭＲＣフォーマットにおける一貫した前景への限定によって、ＭＲＣファイルの共通のプラットフォームプリントが可能となる。画素の連続的なトーン（コントーン）またはカラービットマップでも画像は提供可能であるが、方法１００では、従来の．ＪＰＧまたは．ＴＩＦフォーマット等におけるカラー画像と同様に、入力ディジタル画像からスタートする。

図示される方法において、所望される出力は、一定した前景層を有するＭＲＣフォーマットされた画像ファイルである。従って、プロセスは、ステップ１１０で開始され、ステップ１１２においてシステムは均一なカラーオブジェクトを抽出する。図示されているように、抽出ステップ１１２は、テキストを抽出するサブステップ１１４と、詳細な情報を有する他のオブジェクトを抽出するサブステップ１１６と、を含む。例えば、図２を参照すると、図の例中に、テキストオブジェクト２１０と、他の要素として、画像オブジェクト２１２、２１４及び２１６を含む、いくつかの「オブジェクト」が示されている。

ステップ１１２で抽出されると、出力は、ステップ１２０へパスされ、抽出されたオブジェクトの少なくともいくつかに対してカラー一貫性テストが行われる。ステップ１２０の目的は、抽出されたオブジェクトを制約された混合ラスタコンテンツ形式で前景層へコード化すべきかを決定することである。前景層へコード化されない場合、抽出されたオブジェクトは、ＭＲＣフォーマットのカラー又はコントーン画像成分（例えば、ＪＰＥＧコントーン）として残される可能性が高い。ステップ１２０でテストされた後、次に、ステップ１２４によって反映されるように、オブジェクトは、類似カラーが着色されたオブジェクトにクラスタリングまたはグルーピングされる。特に、ステップ１２４は、前景層を表示するために選択されたオブジェクトをカラースペースにおいてクラスタリングし、少なくとも一つの共通のカラークラスタにオブジェクトを対応付ける。抽出されたオブジェクトをカラーによってクラスタリングした後、ステップ１２８によって表されるように、画像をセグメントすることが可能であり、これによって、各前景層は、共通のカラークラスタからオブジェクトを表すことができる。画像がセグメントされると、次に、このセグメントされた画像をＭＲＣ互換性フォーマットへ再結合又は翻訳可能であり、この際、セグメントは、指定されたカラーによって前景領域を表すか、あるいは、背景画像領域を表す。

以上、本発明の一般的な性質について説明したが、次に、上述の種々のステップの具体的な詳細に注目されたい。ステップ１１２のオブジェクトの抽出ステップに関連して、このステップでは、詳細情報を持ったテキスト及び他のオブジェクトが抽出される。３層ＭＲＣセグメンタは、それらの結果又は中間結果としてのオブジェクトも生成することが知られている。本発明は、これらのオブジェクトについても、セグメンテーションが、上述のように、または、特許文献１などの他の画像セグメンテーション特許に開示されているように発生する可能性があると仮定する。本発明は、ほとんど、修正せずに、このような出力を直接利用可能である。

テスト後にオブジェクトの選択が行われるステップ１２０に関して、ステップ１１２で抽出されたオブジェクトを更に調べる必要がある。これは、３層ＭＲＣモデルと本発明の一貫した前景モデルと基本的な違いによるものである。前者は、オブジェクトカラーを制約しないが、後者は、オブジェクトが一貫したカラーでコード化されることを必要とする。画質を確実とするために、このステップのテストは、視覚的に顕著なアーチファクトを導入せずに、一貫したカラーで表すことができるオブジェクトのみを選択する。

このステップを実行するために、例えば、オブジェクトのカラー均一性と幾何学的特性を測定するなどして、オブジェクト毎にいくつかの特徴が演算される。カラー均一性は、多くの既知の方法によって測定可能である。しかしながら、大部分のオブジェクトのサイズが小さく細いストロークで構成されることから（例えば、図２の領域２１２及び２１４におけるテキスト）、従来の方法は、このアプリケーションに対して最高の結果を得ることができない。小さく細いオブジェクトは、より多くのエッジ画素を含みがちであり、オブジェクトのエッジ画素はノイズが大きい場合が多く、これらのエッジ画素のカラーは、オブジェクトカラーとオブジェクト背景カラーの混合である場合が多いことが観察できる。結果として、提示されるカラー均一性テストは、オブジェクトの内部画素又はオブジェクトの一部のみを測定しようとし、エッジ画素を無視する傾向がある。さらに、該テストは、サイズが小さくストロークが細いオブジェクト、及びオブジェクトと背景カラーとのコントラストが大きいオブジェクトとに対して、あまり厳密なカラー均一性を要求しない。該テストにおけるこうした調整又は変更は、これらのオブジェクトに対して非均一性があまり見られないという観察結果によるものである。より具体的にいえば、ｋで表されるオブジェクトに対する均一性の測定値は、各カラー成分に対して演算される分散（ｖａｒｉａｎｃｅｓ）の重み付けされた合計として形成される。分散の評価には、オブジェクトの内部のみが関与する。ｃ番目のカラー成分に対する重み付けは、

で表され、ここで、ｂ（ｋ，ｃ）とｏ（ｋ，ｃ）は、それぞれ、周囲背景カラーと平均オブジェクトカラーである。測定値が、しきい値（サイズが小さくストロークが細いオブジェクトに対しては、より高く設定される）を超えない場合、このオブジェクトは取り去られる。

ステップ１２４のクラスタリングに関連して、類似カラーを有するオブジェクトをグルーピングして、クラスタを形成する。このステップで基本的な特徴は、１）カラー類似性を測定する方法、２）演算効率を上げながら、クラスタリングする方法である。カラー類似性に関しては、オブジェクト選択に用いられたのと同じ理由付けが当てはまる。即ち、カラー類似性の測定は、大部分のオブジェクトのサイズが小さくストロークが細いことを考慮に入れる必要がある。これによって、オブジェクトのカラーは、その内部の平均カラーによって表される。また、カラー類似性における二つのクラスタｋ１とｋ２間の距離（Ｄｉｓ（ｋ１，ｋ２））は、各カラー成分の重み付けされたノルム（基準）である。例えば、

であり、同式においては、カラー成分インデックスｃについて和演算がなされる。Ｗｃは、

として付与される重みであり、同式において、関数ｄ（）は上記の等式（１）で定義されている。

得られた画像のセグメンテーションは、前景を覆うカラーまたは連続トーン画像のいずれかを用いて、画像セグメントが識別され且つレンダリングされることを可能とする。図２に示されている例が図３にさらに示されており、類似カラーオブジェクトとして、少なくとも以下のセグメント “Ｘ”３１０、テキスト３２０、３２４、３２６、３２８、３３０、３３２、及び３３４が識別されている。例示的なドキュメントが他のセグメンテーションを含むことができること、例えば、単語“Strategies”の全部が単一セグメント３２０であってよいことが理解されよう。

一般的なドキュメント画像のオブジェクトの数は、非常に大きくなる可能性がある。テキストで一杯に詰まったページにおいて、オブジェクトの数は容易に数万個に達する。従って、演算効率は非常に重要である。提示された方法は、複雑さがほとんど線形レベルに到達する可能性のある、２段階のクラスタリングアルゴリズムを適用する。多くのオブジェクトがあって多くのクラスタが得られるにもかかわらず、大部分のオブジェクトはほんの一握りの比較的大きなクラスタに属することが観察される。これは、多数のオブジェクトがテキストであるという事実に起因する。これらテキストとしてのオブジェクトの大部分は、黒もしくは限定された数のカラーでプリントされる。この観察に基づいて、２段階の演算上効率的なアルゴリズムの第１の段階が、カラー量子化によってクラスタリングされる。具体的には、オブジェクトのカラーが同一カラーの「箱」に量子化される場合、オブジェクトは、同一の初期クラスタに分類される。第２の段階において、初期クラスタは、等式(３）で与えられた距離測定値を用いて、さらにグルーピングされる。第１の段階は、クラスタリングすべきオブジェクトの数を、保存的量子化の場合でも、数万から一般的に数百に減らす。これによって、２段階のアルゴリズムに対する結合された複雑さは、線形である第１の段階によって主に決定される。クラスタリングにおいて、第１の段階はあまり正確でないが、量子化の「箱」のサイズが十分に小さければ、エラーは制限される。同様に、画像当たりのクラスタ数を削減するための限定を課すべく、クラスタリングの対象として考慮されるカラーの数を所定数に限定することができる。第２段階のクラスタリングに対して特別な条件はなく、多くの既知のアルゴリズムがこの目的のために使用可能である。

オブジェクトをクラスタリングするステップは、第１の抽出されたオブジェクトを第２の抽出されたオブジェクトと共にクラスタリングすべきか否かを決定すべく、オブジェクトの内部のカラーをテストするステップをさらに含むことも理解されよう。注記されたように、これによって、オブジェクトのエッジからの干渉が防止できる。また、テストする上記ステップが、カラー差に用いられ且つオブジェクトのサイズの関数であるしきい値を、大きな方のオブジェクトよりも小さな方のオブジェクトがクラスタに対してより大きなあるいは小さなカラー差受容可能性を有するように、含んでよい。また、カラー差に用いられるしきい値を、対象となるクラスタ間のカラーの差の関数とし、クラスタのカラー差が大きいほど、カラー内の抽出されたオブジェクトに対するカラー差のしきい値が大きくなるようにしてもよい。

クラスタへの包含に関するテストは、抽出されたオブジェクトの位置をクラスタ内の他のオブジェクトと比較することを含むこともある。さらに、オブジェクトとクラスタの位置の比較において、テキスト行内部と他の行上のテキスト文字の関係を考慮に入れ、行内の文字がカラー差に対して第１のしきい値を有し、他の行上の文字が、カラー差に対して、第１のしきい値よりも低い第２のしきい値を有するようにしてもよい。

図１のステップ１３２が示すように、オブジェクトがクラスタリングされると、ＭＲＣマスク層の生成は通常の通り行われる。各マスク層は、クラスタ毎にオブジェクトを含む。クラスタを表すカラーは、該クラスタ内のオブジェクトの平均的なカラー又はオブジェクトの平均的な内部のカラーとなるように選択される。前者は、カラーに対する忠実さに優れており、後者は細部に向上がみられ、見た目にもより美しい。両方を混合することによって最高の折衷がもたらされる。背景層は、３層モデルに用いられるアルゴリズムを用いて生成され得る。

本明細書中に記述されるように、本発明は、更なる処理のための画像のセグメントを識別するために使用可能である。上述の方法は、特定された選択に応じて、画像のセグメントに関して少なくとも一つのカラーを変更することを更に含む。例えば、少なくとも一つのカラーが黒に近いカラーであるなら、他の黒に近い文字は、少なくとも一つのカラーが同様の黒に変更されるように単純に再定義される。セグメントは、テキストセグメントとなり得、セグメント内のすべてのテキストに対するカラーは、黒にセットされる。

本発明に基く方法を示すデータフロー図である。図１の方法の応用例を示す図である。図１の方法の応用例を示す図である。

Claims

少なくとも一つの前景層を有する混合ラスタコンテンツ形式で表示すべく、ディジタル画像のセグメンテーションを行う方法であって、
画像から、連結された枠内において、互いに関連している画素の集合からなるオブジェクトを抽出するステップと、
抽出されたオブジェクトのうちの少なくとも一つを選択し、前記選択されたオブジェクトの内部画素の色の分散値に基づいて前記オブジェクトのカラー一貫性を示す値を計算し、前記カラー一貫性を示す値と、前記オブジェクトの特徴の関数である閾値と、を比較することによって、前記オブジェクトを前景層に含めるために選択するか否か決定するステップと、
前記選択された複数のオブジェクトにおいて、オブジェクト同士の画素の色差を計算し、前記色差と、前記色差の計算対象であるオブジェクトの特徴の関数である閾値と、を比較することによって、前記複数のオブジェクトを、各オブジェクトが少なくとも一つのカラークラスタに対応付けられるよう色空間においてクラスタリングするステップと、
前記前景層の各々が共通のカラークラスタに対応付けられたオブジェクトを表すように画像をセグメントするステップと、
を有する方法。
前記複数のオブジェクトをクラスタリングするステップが、
前記色差の計算対象となる第1のオブジェクトと、第２のオブジェクトと、を共通のカラークラスタに対応付けるか否かを、前記第１のオブジェクトと前記第２のオブジェクトの内部画素のみの色差に基づいて決定する、ことを含む、
請求項１に記載の方法。
前記複数のオブジェクトをクラスタリングするステップが、
クラスタリングの対象となる前記複数のオブジェクトの位置関係に基づいて、前記複数のオブジェクトの各オブジェクトを共通のカラークラスタに対応付けるか否かを決定する、ことを含む、
請求項１に記載の方法。
前記色差の計算における前記閾値は、前記色差の計算対象であるオブジェクトのサイズの関数であって、
サイズの小さなオブジェクトに対しては、サイズの大きなオブジェクトに対してよりも、より大きい色差を許容するように設定されている、
請求項１に記載の方法。
前記カラー一貫性を示す値の計算における前記閾値は、前記カラー一貫性を示す値の計算対象であるオブジェクトのサイズの関数であって、
サイズの小さなオブジェクトに対しては、サイズの大きなオブジェクトに対してよりも、より大きい色の分散値を許容するように設定されている、
請求項１に記載の方法。
前記オブジェクトは、文字の画像、単語の画像、テキストの画像、コントーン画像の少なくとも一つを含む、
請求項１に記載の方法。