JP3848403B2

JP3848403B2 - 画像分割システム

Info

Publication number: JP3848403B2
Application number: JP15887296A
Authority: JP
Inventors: ジュリアンブラックマイケル; ダグラスジェプソンアラン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-06-07
Filing date: 1996-05-30
Publication date: 2006-11-22
Anticipated expiration: 2016-05-30
Also published as: EP0748110A3; EP0748110B1; DE69624758D1; JPH0934990A; EP0748110A2; DE69624758T2; US5802203A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキスト、グラフィック、又は背景要素のような画像構成要素に画像を分割することに関し、特に、層を使用する画像分割(segmentation)に関する。各層は画像輝度のパラメータ関数としてモデル化される。各層内の各ピクセルに重みが割当られ、この重みに従って各層が結合されて再結合画像が形成される。
【０００２】
【従来の技術および発明が解決しようとする課題】
従来より、図１の１０１に示すような原画像を画像構成要素に分割する処理方法が数多く知られている。画像構成要素は、テキスト、グラフィック、背景などのアイテムを含む。画像分割処理は、通常、その画像をさらに処理してゆくための最初の工程として行われる。例えば、テキストを画像中のその他の構成要素から分割することによって、光学的文字認識（ＯＣＲ）処理が容易になる。画像からテキストを分割することによって、テキストを含む画像部分に対してのみＯＣＲ処理が施される。ＯＣＲ処理は、画像中のグラフィック領域や背景領域などの通常はテキストが含まれない領域内のテキストを識別しない傾向にあるため、画像からテキストを分割しておくことによって処理時間が短縮できる。画像分割はまた、画像圧縮や画像識別といった別の種類の画像処理にも有効である。画像識別では、画像は、そこに含まれる構成要素の配置構成（コンフィギュレーション）を判定することによって、特定の種類のドキュメントとして識別される。
【０００３】
画像分割の一般的な方法として、画像内の画素を調べ、その画素が、テキスト、グラフィック、背景といった特定のタイプであるかどうかを統計的に検出する方法がある。例えば、画像分割方法は、画像の局所領域内のコントラスト変化を検出する。コントラスト変化のない画像領域は、背景領域である確率が最も高い。コントラストが急激に変化する領域は、テキスト領域である確率が最も高い。コントラストが漸次変化する領域は、ハーフトーンまたは連続トーンのグラフィック領域として識別される。
【０００４】
別の画像分割方法として、画像の構成要素をその形状を調べることによって識別する方法がある。このような画像分割方法、すなわち形態分割（morphological segmentation）方法の例を図２に示す。図２において、グレーで示される領域が、形態分割システムでグラフィック要素として認識される領域である。図２の下部左コーナーにある「ｏｌｄ」という単語がグラフィック要素の一部に含められる。また、上部右コーナーにある「ＩＮＴ」という文字もグラフィック要素の一部に含められる。さらに、図２の左側のボックス内のテキストもグラフィック要素の一部として認識される。
【０００５】
これらの従来の画像分割方法は、画像内部のコントラスト変化とオブジェクトの形状を調べて特定の要素を抽出するので、例えば図３の画像２０１のように、ノイズで乱れた画像からテキストだけを取り出すことは通常できない。図３の画像２０１からテキストを分割しようとすると、上述の画像分割処理方法では、テキストをグラフィック要素の一部として認識するか、あるいは実際のテキストとノイズをともにテキストとして認識し、ＯＣＲ処理は個々のテキスト文字をノイズの中から認識しなければならない。テキストがノイズから分離されていない場合、非常に高度なＯＣＲ方法を用いないと、図３の個々のテキスト文字のすべてを認識することができない。図３のようなノイズは、テキスト中の各文字を標準テキスト文字と異なる形状に変えてしまうので、文字認識処理の深刻な妨げとなる。
【０００６】
ドキュメント作成ツールのが強力になる程、画像はより複雑なもになる。図５は、色変化のある背景上、連続トーンまたはハーフトーンのグラフィック上にテキストを配置した画像である。図５のような複雑な画像は、上述のような画像分割方法において、特に画像からテキストだけを取り出す際に、困難が生じる。
【０００７】
このため、複雑な背景やノイズで乱れたテキストからテキストを抽出する際は特に、改善された分割機能を持つ画像分割プロセスが必要となる。
【０００８】
【課題を解決するための手段】
本発明は、画像を複数の層と複数の重み集合に分割する画像分割システムであって、重み集合の各々は複数の層の内の１つに対応し、複数の層の各々は複数の層ピクセルを含み、複数の層ピクセルの各々は画像内の画像ピクセルに対応し、前記画像分割システムは、画像内の各ピクセルに対する実際の画像ピクセル輝度を決定する画像輝度決定手段を備え、複数の層の各々に対する層ピクセル輝度モデルを生成するパラメータモデル手段を備え、層ピクセル輝度モデルの各々は、対応する層内の各層ピクセルに対する層ピクセル輝度値を記述し、層ピクセル輝度モデルの各々は、対応する重み集合と画像内の画像ピクセルの実際の画像ピクセル輝度とに基づいて生成され、複数の残差値集合を決定する残差決定手段を備え、残差集合の各々は１つの層に対応し、対応する残差値集合内の残差値の各々は対応する層内の１つの層ピクセルに対応し、残差値の各々は、パラメータモデル手段によって決定された対応する層に対する対応する層ピクセル輝度値と、対応する画像ピクセルの対応する実際の画像ピクセル輝度とに基づいて決定され、複数の重み集合を決定する重み決定手段を備え、各重み集合内の重みの各々は対応する層内の１つの層ピクセルに対応し、各重みは対応する層内の対応する層ピクセルに対する残差値に基づいて決定され、画像輝度決定手段、パラメータモデル手段、残差決定手段、および重み決定手段を制御する制御手段を備える。
【０００９】
本発明は、画像を一連の層の組み合わせとしてモデル化することによって画像を構成要素に分割するシステムを提供する。各層におけるピクセルの各々は、分割される画像中の各ピクセルに対応する。各層内のピクセルの輝度はピクセル位置のパラメータ関数としてモデル化される。本発明のシステムはまた、各層内の各ピクセルに重みを与える。重みは、層内のピクセルとそれに対応する画像内のピクセルとの間の輝度の類似度を表わす。この重みはまた、各層が再結合される際に、層内のピクセルが回復画像内でどの程度表されるかを示す。各々がピクセル輝度のパラメータ関数で表わされる層を使用し、各層内の各ピクセルに対応する重みを使用して、回復画像が構成される
本発明のシステムはまた、画像がノイズによって損なわれている場合、テキストを含む画像内の構成要素を分割する。本発明のシステムは、画像内のノイズを識別して、それをひとつの層として形成し、テキスト、グラフィック、背景、その他の構成要素などの層と区別する。
【００１０】
本発明のシステムはまた、グラフィック、色調変化のあるカラー背景、又は他の連続トーン画像などを含む複合的な背景にテキストが配置される場合、テキストを画像から分割する。本発明のシステムは、背景、グラフィック、その他の構成要素を含む層とは異なる層に属するものとしてテキストを識別することによってテキストを分割する。
【００１１】
本発明はまた、標準的な画像圧縮方法で生の画像データを圧縮した時の圧縮サイズに比べて、画像圧縮サイズを低減するシステムを提供する。画像を層によってモデル化することで、標準的な画像表現方法において必要とされる情報よりも少ない情報量で画像を表わすことが可能になる。
【００１２】
本発明のシステムは、画像を複数の層のコンパイル（編集物）としてモデル化する分割プロセスを使用している。各層は、それぞれの層に関連する特定の輝度関数を有する。層内のピクセルの輝度は、好ましくはリニアモデルとしてモデル化される。層内の輝度はまた、定数としての二次モデルにモデル化することもできる。その場合、層内の各ピクセルは、定数、あるいはその他任意の関数に等しい輝度を有する。
【００１３】
各層における各ピクセルに重みが割り当てられ、重みは、層内のピクセルと原画像内の対応するピクセルとの間の輝度の類似度を表す。一般に、高い重みのピクセルは「ターンオン」され、低い重みのピクセルは「ターンオフ」される。従って、層が再結合されて回復画像が形成される際に、原画像内の対応するピクセルに最も近い層ピクセルがより完全に回復画像内で表される。
【００１４】
例えば、画像を２層にモデル化し、各層の層ピクセルに「０」（ロー）から「１」（ハイ）の範囲で重みを与える場合、重み「０」の層ピクセルは、回復画像内で表されず、重み「１」の層ピクセルは回復画像内で表される。
【００１５】
各層におけるピクセルが、０と１の間の重みを有することも可能である。画像を２層にモデル化し、ある層ピクセルが重み０．５を有する場合、そのピクセルは回復画像中に５０％の輝度として表現され、もう一方の層の同じ位置にある層ピクセルが０．５の重みを有することが可能であり、この場合、回復画像中で５０％の輝度として表される。
【００１６】
【発明の実施の形態】
以下、本発明の好ましい実施形態を図面に基づいて説明する。
【００１７】
図６は、原画像３０１を２層、すなわち第１の層６−１と第２の層６−２によってモデル化した図である。第１層６−１は、均一なダークトーンのテキスト層、第２層６−２は、下から上に向けて徐々に明るさを増す背景層である。図６に示す第１、第２の層６−１、６−２は画像ではなく、それぞれの層に関連するピクセル輝度のパラメータ関数を図形的に表現したものである。図６はまた、第１の層６−１、第２の層６−２に含まれる個々のピクセルに割り当てられた重みを図形的に表わした重みマスク５−１、５−２を示す。重みマスク５−１、５−２の白（ホワイト）領域は、層６−１、６−２に含まれるピクセルのうち、重みが高い（「１」に近い）ピクセルを表わす。一方、重みマスク５−１、５−２の黒（ブラック）領域は、層６−１、６−２において重みの低い（「０」に近い）ピクセルを表わす。
【００１８】
重みマスク５−１、５−２を使用して第１および第２の層６−１、６−２を結合することによって回復画像３１０が生成される。第１、第２の層６−１、６−２に含まれるピクセルのうち、より高い重みのピクセルがより完全に回復画像３１０内に表される。換言すると、第１および第２の層６−１、６−２において、高い重み（１に近い値）を有するピクセルは回復画像３１０内に表されるが、低い重み（０に近い値）のピクセルは回復画像３１０に表されない。
【００１９】
テキスト層６−１において、重みマスク５−１で高い重み（ホワイト）を有するクセルは、原画像３０１のテキストピクセルと同位置にあるピクセルである。テキスト層６−１のその他のピクセルは、原画像３０１の対応ピクセル位置にテキストがないので、低い重みを有する（ブラック）。同様に、背景層６−２のうち、原画像３０１の背景ピクセルと同位置にあるピクセルは、重みマスク５−２で高い重み（ホワイト）を有し、原画像３０１のテキストと同位置にあるピクセルは、重みが低い（ブラック）。第１層と第２層を組み合わせ、重みマスク５−１、５−２内で高い重みのピクセルをＯＮし、重みの低いピクセルをＯＦＦにすることによって、回復画像３１０が得られる。
【００２０】
第１および第２の層６−１、６−２における各ピクセルの輝度は、その層のピクセル位置のパラメータ関数としてモデル化される。原画像３０１は明らかに２つの層６−１、６−２から構成されるが、理解しやすいように、以下では単一の一般的層６を使用してモデル化するものとして詳細に説明する。また、複数の層を使用したモデル化については後述する。単一層６の各ピクセル輝度のモデル化に使用する関数のタイプは、アフィン関数、二次関数など、任意の関数モデルを使用できるが、好ましくは、次式（１）で示すように、アフィンモデルでモデル化する。
【００２１】
ｕ（ｘ，ｙ；ａ_i）＝ａ₀＋ａ₁＋ａ₂ｙ（１）
ここで、ｕは層６のピクセル位置（ｘ，ｙ）におけるピクセルのモデル化輝度であり、ａ_iは、パラメータである。
【００２２】
一方、原画像３０１の位置（ｘ，ｙ）におけるピクセルの実際の輝度を、ｄ（ｘ，ｙ）で表わす。原画像３０１の位置（ｘ，ｙ）での実際のピクセル輝度ｄ（ｘ，ｙ）は、当分野で周知の手段によって求めることができる。例えば、原画像３０１で各ピクセルを８ビットワード、すなわち１バイトで表わす場合、そのピクセルの実際の輝度ｄ（Ｘ，Ｙ）は、０から２５５までの数で表わされる。０〜２５５というスケールにおいて、値の低い数は相対的に低い輝度ｄ（Ｘ，Ｙ）のピクセルを現わし、相対的に高い数で表わされるピクセルは、高い輝度を有する。この輝度モデルを逆に設定してもよい。すなわち、低い数のピクセルが高い輝度を表わし、高い数のピクセルが低い輝度を表わすように設定することもできる。原画像３０１の個々のピクセルを表現するために使用するビット数によって、ひとつのピクセルが有することのできる可能な輝度値ｄ（Ｘ，Ｙ）の総数が決まる。２４ビットの画像は、０から約１６００万までの範囲の輝度値を有する。
【００２３】
原画像３０１のピクセル輝度を表わす層６の理想的なパラメータモデルとは、層６の各ピクセル位置（ｘ，ｙ）において、原画像３０１の対応位置（ｘ，ｙ）での実際のピクセル輝度ｄに非常に近い値の層ピクセル輝度ｕを表わすモデルである。すなわち、実際の輝度値ｄと、層ピクセルの輝度モデル値との差は、原画像３０１と層６における全てのピクセル位置（Ｘ，Ｙ）で、できるだけ小さいほうがよい。実際の輝度値ｄと、モデル化された輝度値ｕとの差を、残差値ｒと呼ぶ。
【００２４】
このように、層６のモデル化ピクセル輝度ｕの理想のパラメータモデルは、全てのピクセル位置（ｘ，ｙ）における残差値ｒの総和を最小にするモデルである。別の角度からみると、次式（２）に基づいて残差値の総和を最小にすることによって、原画像３０１に最も近い、層６のモデル化ピクセル輝度値ｕを決定するパラメータモデルを求めることができる。
【００２５】
【数１】

【００２６】
ここで、ｄは原画像３０１の実際のピクセル輝度、ｕはピクセル輝度のパラメータモデル、ρは粗誤差ノルムである。
【００２７】
粗誤差ノルムρは、最小化のための式（２）において、原画像３０１のピクセルのうち、パラメトリック輝度モデルｕで推定されるピクセル輝度値と非常に異なる輝度値ｄのピクセルを受け入れないようにするために使用する。粗誤差ノルムとして多くの形式があるが、好ましくは次式（３）に示す、ジャーマン／マックルア（Geman/McClure)ノルムを用いる。
【００２８】
ρ（ｒ，σ）＝ｒ2 ／（σ＋ｒ2 ）（３）
ここで、ｒは残差、σはスケールパラメータである。
【００２９】
図７は、いろいろな値のスケールパラメータσにおけるジャーマン／マックルア誤差ノルムを示すグラフである。スケールパラメータσが小さいほど、粗誤差ノルムρは、深い落ち込みを形成し、｜ｒ｜が増大する方向では水平に延びる曲線を形成する。図８は、粗誤差ノルムρの導関数のグラフである。この導関数は、影響関数ψ（ｒ，σ）と呼ばれる。スケールパラメータσが小さいほど、｜ｒ｜が０に近い地点で影響関数のピークが増大する。これは、原画像３０１のピクセルのうち、実際の輝度値ｄがパラメータモデルｕで決定されるモデル化輝度に近い（すなわちｒ→０）ピクセルが、輝度誤差の大きなピクセルに比べて、方程式（２）の最小化に、より大きく影響することを示す。実際の輝度値がパラメータモデルｕで決定されるモデル化輝度と差がある（ｒ＞＞０）原画像ピクセルは、方程式（２）の最小化にほとんど影響しない。
【００３０】
方程式（２）の最小化は、当業者にとって周知の多様な傾斜減少法で行うことができるが、好ましくは、反復再重み付け最小２乗（ＩＲＬＳ）法を使用して最小化する。ＩＲＬＳ法を使用すると、次式（４）に示すように、ｍｒ²の最小化と粗誤差ノルムρの最小化とが等しくなるような重みｍを求めることによって、式（２）を最小にする。
【００３１】
２ｍｒ＝（∂／∂ｒ）×ρ（ｒ，σ）（４）
ここで、ｍは重み、ｒは残差、ρは粗誤差ノルムである。粗誤差ノルムがジャーマン／マックルアノルムであるとき、上記重みｍは、次式（５）で与えられる。
【００３２】
ｍ＝σ／（σ＋ｒ2 ）2 （５）
したがって、ＩＲＬＳ法を用いると、ｍｒ2 は、次式（６）によって最小化される。
【００３３】
【数２】

【００３４】
ここで、ｍ（ｘ，ｙ）は、位置（ｘ，ｙ）でのパラメータモデルｕのピクセルの重み、ｄ（ｘ，ｙ）は、位置（ｘ，ｙ）での原画像３０１のピクセルの実際の輝度、ｕは、パラメータａｉのときの位置（ｘ，ｙ）での層ピクセル輝度のためのパラメータモデルである。
【００３５】
方程式（６）は、重み付け最小２乗法や傾斜減少法など、周知の多様な手法で最小化できるが、傾斜減少法を連続法と組み合わせて最小化するのが好ましい。
【００３６】
傾斜減少法と連続法を用いた式（６）の最小化は、まず、パラメータモデルｕのパラメータａ_iの初期値を推定する。最初に推定したパラメータａ_iを使用して、層６の各ピクセル位置（ｘ，ｙ）ごとに、かなり高いスケールパラメータ値σで、式（５）から重みｍを計算する。こうして求めた重みｍを式（６）の最小化に使用して、パラメータａ_iの値を更新する。次いで、更新したパラメータａ_iと、比較的低いスケールパラメータσを使用して、再度、式（５）から重みｍを計算する。このプロセスを、収束基準が満たされるまで繰り返す。収束基準の設定としては、反復回数を特定するか、またはパラメータａ_iの変化率が特定の値まで減少したときに反復を停止するようにする。
【００３７】
原画像３０１において、相対的に低い重みｍを与えられたピクセルを、アウトライヤーピクセルと呼ぶ。アウトライヤーとは、基準値から大きく外れた値を意味し、アウトライヤーピクセルは、パラメータモデルｕで予測されるモデル化輝度値との差が大きい画像ピクセルである。したがって、単一の層６を重みｍとともに用いて回復画像を生成するとき、アウトライヤーピクセルは、その低い重みｍのために、回復画像中には表されない。
【００３８】
例えば、原画像３０１を第１の層６−１だけでモデル化するなら、原画像中、背景を表わすピクセルがアウトライヤーピクセルとなる。背景ピクセルの輝度値は、第１の層６−１で表わされるテキストピクセルのモデル化輝度値と非常に異なるからである。このため、第１の層６−１と、対応の重みマスク５−１だけを使用して回復した画像は、重みマスク５−1 の反転像として、おおざっぱに表現される。背景画素はアウトライヤーピクセルなので、回復画像中に背景が形成されないからである。
【００３９】
以上、画像（例えば原画像３０１）のモデル化方法を、パラメータモデルｕで表現される単一の層６だけを使用するものとして述べてきた。しかし実際には、原画像３０１を含め、ほとんどの画像が、最低２つの層６で構成されるので（背景層、およびテキストや図形などの非背景層）、上述の画像分割プロセスを２つ以上の層６を用いる場合にも適用する。複数の層６を使用する場合、各層ごとに上述の反復法を使用して、次式（７）によって各ピクセルの残差ｒを最小化する。
【００４０】
【数３】

【００４１】
ここで、ｍ_n（ｘ，ｙ）は第ｎ番目の層６−ｎのピクセル位置（ｘ，ｙ）での正規化された重み、ａ_i ⁿは第ｎ層６−ｎにおけるパラメータモデルｕのパラメータａ_iである。ｍ_n（ｘ，ｙ）は、次式（８）で表わされる。
【００４２】
【数４】

【００４３】
ここで、ｗ_n（ｘ，ｙ）はピクセル位置（ｘ，ｙ）での正規化されない重みである。正規化されない重みｗ_n（ｘ，ｙ）は、さらに次式（９）で表わされる。
【００４４】
ｗ_n（ｘ，ｙ）＝
σ／（σ＋（ｄ（ｘ，ｙ）−ｕ（ｘ，ｙ；ａ_i ⁿ））2 ）2 （９）
重みｗ_n（ｘ，ｙ）を、式（８）で示すように正規化することによって、パラメータａ_i ⁿの値を更新する前段階の各反復処理で、次式（１０）に示す合成制約（mixture constraint）を効果的に実践できる。
【００４５】
【数５】

【００４６】
すなわち、重みｗ_n（ｘ，ｙ）を正規化し、各ピクセル位置（ｘ，ｙ）におけるｎ個の層６−ｎの合成制約を行って、各ピクセル位置（ｘ，ｙ）でのｎ個の層６すべての重みの総和ｍ_nの値を１とする。これは、原画像３０１内のピクセルを２層以上の層ピクセルで表わしたとしても、全ｎ層の重みの総和ｍ_nが１を越えないように制御することを意味する。換言すれば、複数の層６からの各ピクセルが回復画像の中に部分的に寄与して、原画像３０１の対応のピクセルを表わすことになる。
【００４７】
さらに、画像（原画像３０１）をモデル化するときに、アウトライヤー層と呼ばれる特殊な層６−ｚを使用することも可能である。アウトライヤー層６−ｚは、任意の層６−ｎにおいて任意のパラメータモデルｕでモデル化されたどのピクセル輝度にも対応しないピクセルの層である。アウトライヤー層のピクセル輝度はモデル化されず、重みｍも式（９）を使って更新されない。アウトライヤー層６−ｚは、最初は空から開始する。すなわち、アウトライヤー層での各ピクセル位置（ｘ、ｙ）での重みｍは、最初はほとんど０である。全ｎ個の層６において、低い重みｍを生成したピクセルは、正規化の過程で、その重みｍをアウトライヤー層６−ｚで増大させる。原画像３０１の分割には、このアウトライヤー層６−ｚを使用しないのが好ましい。
【００４８】
図９は、本発明の画像分割システム１００である。画像分割システム１００は、汎用コンピュータのソフトウェアモジュールなど、一般的な汎用コンピュータの一部として構成されるが、もちろん、専用コンピューター、ＡＳＩＣ、その他の集積回路、ディスクリート要素ハードウエア回路、プログラマブルロジックデバイス、マイクロプロセッサなどでも実行され得る。画像データは、メモリ２１に入力され、メモリ２１はコントローラ２０によって制御される。画像データは、原画像（たとえば第１の原画像１０１）の実際のピクセル輝度ｄを表わす一連の信号である。原画像１０１の特定のピクセルの輝度ｄを表わす信号は、例えば８ビットデジタル信号である。画像データは、スキャナ、ＣＣＤアレイ、あるいは本発明の分割システム１００に直接またはＬＡＮやＷＡＮを介して接続したホストコンピュータに記憶された画像などから入力される。
【００４９】
輝度決定手段２２は、原画像１０１の全てのピクセル位置（Ｘ，Ｙ）での画像ピクセル輝度ｄを決定する。コントローラ２０は、ｎ層の層６のｎの初期値と、各層６でピクセル輝度をモデル化するためのパラメータモデルｕのパラメータａ_iの値を算出する。コントローラ２０は、平均的な画像に通常含まれる層の数よりも高い値を「ｎ」に選択する。好ましくは、コントローラ２０によるｎの選択値は６である。別の方法として、コントローラ２０は、まずひとつの層６で画像をモデル化し、必要に応じて追加の層を増やす方法でも本発明を実行できる。
【００５０】
コントローラ２０は、こうして求めた層６のｎの初期値と、各パラメータモデルｕのパラメータａ_iの値を、パラメータモデル手段２５に出力する。パラメータモデル手段２５は、次いで、各層６におけるパラメータａ_iの初期設定値に基づいて、各層ごとに、各ピクセル位置（Ｘ，Ｙ）での予測ピクセル輝度値を決定する。この値は、残差決定手段２３に供給される。残差決定手段２３は、パラメータモデル手段２５で決定された各層ごとの予測輝度値ｕ（ｘ，ｙ；ａ_i）と、輝度決定手段２２に記憶された実際のピクセル輝度値ｄ（ｘ，ｙ）とに基づいて、各層ごとに各ピクセル位置（Ｘ，Ｙ）での残差ｒ（ｘ，ｙ）を決定する。上述したように、残差値ｒは、原画像１０１のピクセル位置（ｘ，ｙ）での実際のピクセル輝度値ｄと、推定パラメータ値ａ_iに基づいてモデル化されパラメータモデルｕで表わされる層ピクセルの予測輝度値との差である。残差値ｒ（ｘ，ｙ）は重み決定手段２４に供給される。
【００５１】
重み決定手段２４は、各層ごとに、各ピクセル位置（ｘ，ｙ）の重みｍを決定する。重み決定手段２４は、コントローラ２０から送られるスケールパラメータσと、残差決定手２３から供給された残差値ｒ（ｘ，ｙ）を使用して、重みｍ（ｘ，ｙ）を決定する。重み決定手段２４はまた、各ピクセル位置（ｘ，ｙ）で各層の重みｍ（ｘ，ｙ）を正規化し、すべての層６の重みｍの総和が１を超えないようにする。こうして求めた重みｍ（ｘ，ｙ）を、パラメータモデル手段２５に出力する。
【００５２】
重み決定手段２４から供給される重みｍ（ｘ，ｙ）に基づいて、パラメータモデル手段２５は、各層６の各パラメータモデルｕのパラメータａ_iの値を更新する。次いで、コントローラ２０は、収束基準が満たされたかどうかを決定する。例として、特定の数の反復が行われたかたかどうかを決定するか、または、各パラメータモデルｕのパラメータａ_iの値が、ひとつ前の反復から特定の値以上変化していないかどうかを決定する。収束基準が満たされていれば、コントローラ２０は画像分割処理を停止する。
【００５３】
収束基準が満たされていない場合は、パラメータモデル手段２５は、更新されたパラメータａ_iの値に基づいて、各パラメータモデルｕの各ピクセル位置（ｘ，ｙ）の予測ピクセル輝度の更新値を決定する。この各層６のパラメータモデルｕからの更新予測輝度値を、残差決定手段２３に出力する。残差決定手段２３は、実際のピクセル輝度値ｄ（ｘ，ｙ）と、更新された予想ピクセル輝度値ｕ（Ｘ，Ｙ；ａ_i）から、新たな残差値ｒ（ｘ，ｙ）を決定し、それを重み決定手段２４に出力する。コントローラから供給されるスケールパラメータσを用いて、重み決定手段２４は、新たな重みｍ（Ｘ，Ｙ）の集合を決定し、正規化し、これをパラメータモデル手段２５に出力する。パラメータモデル手段２５は、再度、パラメータａ_iの値を更新し、コントローラ２０は、再度、収束基準が満たされたかどうかを決定する。収束基準が満たされるまで、この基準サイクルを繰り返す。
【００５４】
次に、図１０を参照して、本発明の画像分割システムの作用について説明する。図１０は、本発明の画像分割プロセスの概略を示すフローチャートである。ステップＳ１０で、画像分割システム１００に画像データを入力する。ステップＳ２０で、コントローラ２０は、原画像（第１原画像１０１など）をモデル化するためのｎ層６のｎの値を選択する。好ましくは、コントローラ２０は、標準画像での実際の層の数より多い値をｎに選択する。あるいは、最初に標準画像の実際の層の数よりも低い値をｎに選択し、その後必要に応じて、追加層６を追加し、原画像１０１を適切にモデル化してもよい。ステップＳ３０で、コントローラ２０は、まず各層ごとのパラメータモデルｕのパラメータａ_iの値を推定する。パラメータａ_iの推定方法は任意であるが、好ましくは、パラメータモデルが標準画像での実際の層にほぼ近くなるような推定値を求める。パラメータａ_iの値を最初に求めることによって、パラメータモデル手段２５が各層での予測輝度値ｕ（ｘ，ｙ；ａ_i）を決定できるようにする。
【００５５】
ステップＳ４０で、輝度決定手段２２は、原画像１０１の各ピクセル位置（ｘ、ｙ）での実際の輝度値ｄ（ｘ，ｙ）を決定する。ステップＳ５０で、残差決定手段２３は、Ｓ４０で求めた実際の輝度値ｄ（ｘ，ｙ）と、予測輝度値ｕ（ｘ，ｙ；ａ_i）とに基づいて、各層６ごとに各ピクセル位置（ｘ，ｙ）の残差値ｒ（ｘ，ｙ）を決定する。ステップＳ６０で、重み決定手段２４は、Ｓ５０で求めた残差値ｒ（ｘ，ｙ）と、コントローラ２０から供給されるスケールパラメータσに基づいて、各層６の各ピクセル位置（ｘ，ｙ）での重みｍ（ｘ，ｙ）を決定する。
【００５６】
ステップＳ７０で、パラメータモデル手段２５は、各層６の各パラメータモデルｕのパラメータａ_iの値を更新する。ステップＳ８０で、コントローラ２０は、収束基準が満たされたかどうかを決定する。満たされていない場合は、ステップＳ５０に戻る。収束基準が満たされていた場合は、コントローラ２０は、ステップＳ９０に進み、画像分割プロセスを終了する。
【００５７】
原画像１０１を、それぞれが対応の重み集合ｍ（ｘ，ｙ）を有する複数の層６の合成としてモデル化することによって、生の画像データを直接圧縮するよりも、ずっと効果的に原画像１０１の圧縮を行うことができる。例えば、各層６で各パラメータモデルｕを表わすのに３バイトしか必要としない。重みｍ（ｘ，ｙ）を、「０」か「１」に分ける場合、ｍの値を１ビットの信号で表わせばよい。この場合、０．５より小さい重みｍ（ｘ，ｙ）は「０」とし、０．５〜１の重みｍ（ｘ，ｙ）を「１」に繰り上げる。このように、重みｍ（ｘ，ｙ）をグラフ表現する重みマスク５は、ビットマップを形成する。さらに、合成制限処理で、各ピクセル位置（ｘ，ｙ）において、すべての重みマスク５の重みｍ（ｘ，ｙ）を加算して１とするので、ｎ／２個の層６に対応するｎ／２個の重みマスクが必要とされるだけである。これは、原画像１０１の各ピクセル位置（ｘ，ｙ）ごとに少なくとも１バイトを使用する完全なバイトマップに比べ、原画像１０１を表わす情報量を著しく低減することができる。
【００５８】
図１のバイトマップ原画像１０１のサイズは、４８６×４８６ピクセルであり、これをこのまま圧縮方法「ｇｚｉｐ」を使用して圧縮した場合、結果としての圧縮率は２．７６：１であった。同じバイトマップ原画像１０１を、まず３層にモデル化してから「ｇｚｉｐ」法で圧縮した場合、その圧縮率は１４．９５：１であり、生のバイトマップ画像データを圧縮した場合に比べ、ほぼ５倍の圧縮比を達成できた。
【００５９】
上述したように、図１は、３層（図示せず）に分割した原画像１０１を示す。図１２は、図１の画像のうち、背景層のためのマスク５−１を示している。重みマスク５−１のうち、白（ホワイト）で示される領域のピクセルは、重みが高く（ほぼ１に近い値）、黒（ブラック）で示される領域のピクセルは、重みが非常に低い（ほぼ０に近い値）。この場合、背景層は基本的にホワイト層であり、画像分割システム１００は、背景層を、テキスト層やグラフィック層から明確に分離したことになる。
【００６０】
図１３は、原画像１０１のグレー層のための重みマスク５ｐ−２であり、図１４は、テキスト層のための重みマスク５−３である。これらの図から明らかなように、本発明の画像分割システム１００は、原画像１０１のテキスト部分を、背景およびグラフィック部分からはっきりと分離している。図１３のグラフィック層重みマスクにおいて、画像中の左側のボックス内の文章も、テキストとして分離されていることに注目されたい。この場合、テキスト層はブラック層で示される。これら３つの層を、重みに従って組み合わせると、図１１に示す回復画像１１０は、第１の原画像１０１に非常に近いものとして生成できる、ただし、原画像１０１の右上のグラフィック部分のこまかい部分は、回復画像中では多少失われる。
【００６１】
図３は、さらに別の第２の原画像２０１を示す。この原画像２０１も、画像分割システム１００によって３層（テキスト層、背景層、およびノイズ層）に分割される。図１５は、図３の第２原画像２０１のうち、テキスト層のためのテキストマスク５−４を示す。図から明らかなように、画像分割システム１００は、ノイズと背景の双方から、テキストを正確に分割する。図１５の重みマスク５−４のような画像は、図３の原画像２０１に比べ、ＯＣＲシステムによる処理がずっと簡単である。
【００６２】
図１６は、図３の原画像２０１のうち、ノイズ層の重みマスク５−５を示す。本発明の画像分割システムでは、テキストはほとんどノイズ層に現われず、効果的に分割されていることがわかる。図１７は、原画像２０１の背景層のための重みマスク５−６である。これら重みマスク５−４、５−５、５−６を組み合わせると、図４に示す回復画像２１０を得ることができる。この回復された画像２１０は、原画像２０１に非常に近いものである。図４のように３層すべてを組み合わせた回復画像２１０は一例に過ぎず、ノイズ層を排除して、テキスト層と背景層のみを組み合わすこともできる。しかし、この組み合わせでは、回復される画像２１０は、図１５の重みマスク５−４を反転させた状態で、いくぶん粗い出来上がりとなる。利点として、ノイズ層６−５を回復画像から除去すると、回復画像２１０に含まれるテキストのＯＣＲ処理が容易になる。
【００６３】
図１８は、さらに別の第４の原画像４０１である。この原画像４０１を、本発明の画像分割システム１００で、４層に分割する。図２０は、原画像４０１の背景層のための重みマスク５−７、図２１は、ライトグレー層のための重みマスク５−８、図２２は、ダークグレー層のための重みマスク５−９、図２３は、テキスト層のための重みマスク５−１０である。
【００６４】
これらの重みマスクを合成して回復した画像４１０を、図１９に示す。回復された画像４１０は、図１８の原画像４０１に非常に近いものとなる。図２３からも明らかなように、テキスト層は、グラフィック層および背景層の双方から明確に分離されている。このように、本発明の画像分割システム１００は、従来の分割処理方法ではグラフィックしか識別できないような原画像の領域からも、テキストを効果的に分割することができる。
【００６５】
図２４は、さらに別の原画像５０１を示す。図２６は、シャドウ層（図示せず）の重みマスク５−１１を、図２７は、背景層（図示せず）の重みマスク５−１２を、図２８は、テキスト層（図示せず）の重みマスク５−１３を示している。これらの重みマスク５−１１、５−１２、５−１３を組み合わせて回復した画像５１０を図２５に示す。原画像５０１中のテキストに見られる湾曲部も、回復画像５１０中にきちんと再生されている。図２８のテキスト層マスクからも明らかなように、原画像５０１からテキストが明確に分割される。
【００６６】
以上、本発明を良好な実施形態に基づいて詳細に述べてきたが、本発明はこれらの例に限定されず、本発明の原理および範囲内のすべての代替、変形、均等物を含むものである。
【００６７】
【発明の効果】
本発明の画像分割システムによれば、原画像を原画像中の構成要素に対応する複数の層に分け、それぞれの層のピクセルの重み集合を求めることによって、きわめて正確に画像構成要素を分割できる。したがって、複雑な背景や、ノイズの混ざった原画像からも、テキスト成分を効果的に分離することができ、以降のＯＣＲ処理が容易になる。また、画像を分割することによって、生の画像データを圧縮する場合よりも、より効率的に画像圧縮が行える。
【図面の簡単な説明】
【図１】第１の原画像の例を示す写真である。
【図２】図１の原画像から、形態分割方法でグラフィック要素を分割した例を示す写真である。
【図３】ノイズによって画質が損なわれた第２の原画像の例を示す写真である。
【図４】図３の第２の原画像を、本発明のシステムを使用して、３層にモデル化して回復した画像を示す写真である。
【図５】異なる複数の画像を編集した編集画像の例を示す写真である。
【図６】第３の原画像を２層にモデル化し、各層の層ピクセルに割り当てる重みを表わす重みマスクを示す写真である。
【図７】ジャーマン／マックルア誤差ノルムを示すグラフである。
【図８】ジャーマン／マックルア誤差ノルムの影響関数のグラフである。
【図９】本発明の好適な実施形態による画像分割システムの概略ブロック図である。
【図１０】本発明の画像分割処理の概略を示すフローチャートである。
【図１１】図１の原画像を本発明のシステムを用いて回復した例を示す写真である。
【図１２】図１の原画像における背景層の重みマスクの写真である。
【図１３】図１の原画像におけるグレー層の重みマスクの写真である。
【図１４】図１の原画像におけるテキスト層の重みマスクの写真である。
【図１５】図３に示した第２の原画像のテキスト層の重みマスクの写真である。
【図１６】図３に示した第２の原画像のノイズ層の重みマスクを示す写真である。
【図１７】図３図に示した第２の原画像の背景層の重みマスクを示す写真である。
【図１８】第４の原画像の例を示す写真である。
【図１９】本発明のシステムを使用して図１８の原画像を回復した写真である。
【図２０】図１８に示した第４の原画像の背景層の重みマスクの写真である。
【図２１】図１８に示した第４の原画像のライトグレー層の重みマスクを示す写真である。
【図２２】図１８に示した第４の原画像のダークグレー層の重みマスクを示す写真である。
【図２３】図１８に示した第４の原画像のテキスト層の重みマスクを示す写真である。
【図２４】第５の原画像の例を示す写真である。
【図２５】図２４の原画像を本発明のシステムを用いて回復した画像の写真である。
【図２６】図２４に示した原画像のシャドウ層の重みマスクを示す写真である。
【図２７】図２４に示した原画像の背景層の重みマスクの写真である。
【図２８】図２４に示した原画像のテキスト層の重みマスクを示す写真である。
【符号の説明】
５重みマスク
６層
２０コントローラ
２１メモリ
２２画像輝度検出手段
２３残差検出手段
２４重み検出手段
２５パラメータモデル手段
１００画像分割システム

Claims

画像を複数の層と複数の重み集合に分割する画像分割システムであって、重み集合の各々は複数の層の内の１つに対応し、複数の層の各々は複数の層ピクセルを含み、複数の層ピクセルの各々は画像内の画像ピクセルに対応し、前記画像分割システムは、
画像内の各ピクセルに対する実際の画像ピクセル輝度を決定する画像輝度決定手段を備え、
複数の層の各々に対する層ピクセル輝度モデルを生成するパラメータモデル手段を備え、層ピクセル輝度モデルの各々は、対応する層内の各層ピクセルに対する層ピクセル輝度値を記述し、層ピクセル輝度モデルの各々は、対応する重み集合と画像内の画像ピクセルの実際の画像ピクセル輝度とに基づいて生成され、
複数の残差値集合を決定する残差決定手段を備え、残差集合の各々は１つの層に対応し、対応する残差値集合内の残差値の各々は対応する層内の１つの層ピクセルに対応し、残差値の各々は、パラメータモデル手段によって決定された対応する層に対する対応する層ピクセル輝度値と、対応する画像ピクセルの対応する実際の画像ピクセル輝度とに基づいて決定され、
複数の重み集合を決定する重み決定手段を備え、各重み集合内の重みの各々は対応する層内の１つの層ピクセルに対応し、各重みは対応する層内の対応する層ピクセルに対する残差値に基づいて決定され、
画像輝度決定手段、パラメータモデル手段、残差決定手段、および重み決定手段を制御する制御手段を備える、画像分割システム。