JP3848403B2 - 画像分割システム - Google Patents
画像分割システム Download PDFInfo
- Publication number
- JP3848403B2 JP3848403B2 JP15887296A JP15887296A JP3848403B2 JP 3848403 B2 JP3848403 B2 JP 3848403B2 JP 15887296 A JP15887296 A JP 15887296A JP 15887296 A JP15887296 A JP 15887296A JP 3848403 B2 JP3848403 B2 JP 3848403B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- layer
- pixel
- weight
- luminance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/40062—Discrimination between different image types, e.g. two-tone, continuous tone
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Image Processing (AREA)
Description
【発明の属する技術分野】
本発明は、テキスト、グラフィック、又は背景要素のような画像構成要素に画像を分割することに関し、特に、層を使用する画像分割(segmentation)に関する。各層は画像輝度のパラメータ関数としてモデル化される。各層内の各ピクセルに重みが割当られ、この重みに従って各層が結合されて再結合画像が形成される。
【0002】
【従来の技術および発明が解決しようとする課題】
従来より、図1の101に示すような原画像を画像構成要素に分割する処理方法が数多く知られている。画像構成要素は、テキスト、グラフィック、背景などのアイテムを含む。画像分割処理は、通常、その画像をさらに処理してゆくための最初の工程として行われる。例えば、テキストを画像中のその他の構成要素から分割することによって、光学的文字認識(OCR)処理が容易になる。画像からテキストを分割することによって、テキストを含む画像部分に対してのみOCR処理が施される。OCR処理は、画像中のグラフィック領域や背景領域などの通常はテキストが含まれない領域内のテキストを識別しない傾向にあるため、画像からテキストを分割しておくことによって処理時間が短縮できる。画像分割はまた、画像圧縮や画像識別といった別の種類の画像処理にも有効である。画像識別では、画像は、そこに含まれる構成要素の配置構成(コンフィギュレーション)を判定することによって、特定の種類のドキュメントとして識別される。
【0003】
画像分割の一般的な方法として、画像内の画素を調べ、その画素が、テキスト、グラフィック、背景といった特定のタイプであるかどうかを統計的に検出する方法がある。例えば、画像分割方法は、画像の局所領域内のコントラスト変化を検出する。コントラスト変化のない画像領域は、背景領域である確率が最も高い。コントラストが急激に変化する領域は、テキスト領域である確率が最も高い。コントラストが漸次変化する領域は、ハーフトーンまたは連続トーンのグラフィック領域として識別される。
【0004】
別の画像分割方法として、画像の構成要素をその形状を調べることによって識別する方法がある。このような画像分割方法、すなわち形態分割(morphological segmentation)方法の例を図2に示す。図2において、グレーで示される領域が、形態分割システムでグラフィック要素として認識される領域である。図2の下部左コーナーにある「old」という単語がグラフィック要素の一部に含められる。また、上部右コーナーにある「IN T」という文字もグラフィック要素の一部に含められる。さらに、図2の左側のボックス内のテキストもグラフィック要素の一部として認識される。
【0005】
これらの従来の画像分割方法は、画像内部のコントラスト変化とオブジェクトの形状を調べて特定の要素を抽出するので、例えば図3の画像201のように、ノイズで乱れた画像からテキストだけを取り出すことは通常できない。図3の画像201からテキストを分割しようとすると、上述の画像分割処理方法では、テキストをグラフィック要素の一部として認識するか、あるいは実際のテキストとノイズをともにテキストとして認識し、OCR処理は個々のテキスト文字をノイズの中から認識しなければならない。テキストがノイズから分離されていない場合、非常に高度なOCR方法を用いないと、図3の個々のテキスト文字のすべてを認識することができない。図3のようなノイズは、テキスト中の各文字を標準テキスト文字と異なる形状に変えてしまうので、文字認識処理の深刻な妨げとなる。
【0006】
ドキュメント作成ツールのが強力になる程、画像はより複雑なもになる。図5は、色変化のある背景上、連続トーンまたはハーフトーンのグラフィック上にテキストを配置した画像である。図5のような複雑な画像は、上述のような画像分割方法において、特に画像からテキストだけを取り出す際に、困難が生じる。
【0007】
このため、複雑な背景やノイズで乱れたテキストからテキストを抽出する際は特に、改善された分割機能を持つ画像分割プロセスが必要となる。
【0008】
【課題を解決するための手段】
本発明は、画像を複数の層と複数の重み集合に分割する画像分割システムであって、重み集合の各々は複数の層の内の1つに対応し、複数の層の各々は複数の層ピクセルを含み、複数の層ピクセルの各々は画像内の画像ピクセルに対応し、前記画像分割システムは、画像内の各ピクセルに対する実際の画像ピクセル輝度を決定する画像輝度決定手段を備え、複数の層の各々に対する層ピクセル輝度モデルを生成するパラメータモデル手段を備え、層ピクセル輝度モデルの各々は、対応する層内の各層ピクセルに対する層ピクセル輝度値を記述し、層ピクセル輝度モデルの各々は、対応する重み集合と画像内の画像ピクセルの実際の画像ピクセル輝度とに基づいて生成され、複数の残差値集合を決定する残差決定手段を備え、残差集合の各々は1つの層に対応し、対応する残差値集合内の残差値の各々は対応する層内の1つの層ピクセルに対応し、残差値の各々は、パラメータモデル手段によって決定された対応する層に対する対応する層ピクセル輝度値と、対応する画像ピクセルの対応する実際の画像ピクセル輝度とに基づいて決定され、複数の重み集合を決定する重み決定手段を備え、各重み集合内の重みの各々は対応する層内の1つの層ピクセルに対応し、各重みは対応する層内の対応する層ピクセルに対する残差値に基づいて決定され、画像輝度決定手段、パラメータモデル手段、残差決定手段、および重み決定手段を制御する制御手段を備える。
【0009】
本発明は、画像を一連の層の組み合わせとしてモデル化することによって画像を構成要素に分割するシステムを提供する。各層におけるピクセルの各々は、分割される画像中の各ピクセルに対応する。各層内のピクセルの輝度はピクセル位置のパラメータ関数としてモデル化される。本発明のシステムはまた、各層内の各ピクセルに重みを与える。重みは、層内のピクセルとそれに対応する画像内のピクセルとの間の輝度の類似度を表わす。この重みはまた、各層が再結合される際に、層内のピクセルが回復画像内でどの程度表されるかを示す。各々がピクセル輝度のパラメータ関数で表わされる層を使用し、各層内の各ピクセルに対応する重みを使用して、回復画像が構成される
本発明のシステムはまた、画像がノイズによって損なわれている場合、テキストを含む画像内の構成要素を分割する。本発明のシステムは、画像内のノイズを識別して、それをひとつの層として形成し、テキスト、グラフィック、背景、その他の構成要素などの層と区別する。
【0010】
本発明のシステムはまた、グラフィック、色調変化のあるカラー背景、又は他の連続トーン画像などを含む複合的な背景にテキストが配置される場合、テキストを画像から分割する。本発明のシステムは、背景、グラフィック、その他の構成要素を含む層とは異なる層に属するものとしてテキストを識別することによってテキストを分割する。
【0011】
本発明はまた、標準的な画像圧縮方法で生の画像データを圧縮した時の圧縮サイズに比べて、画像圧縮サイズを低減するシステムを提供する。画像を層によってモデル化することで、標準的な画像表現方法において必要とされる情報よりも少ない情報量で画像を表わすことが可能になる。
【0012】
本発明のシステムは、画像を複数の層のコンパイル(編集物)としてモデル化する分割プロセスを使用している。各層は、それぞれの層に関連する特定の輝度関数を有する。層内のピクセルの輝度は、好ましくはリニアモデルとしてモデル化される。層内の輝度はまた、定数としての二次モデルにモデル化することもできる。その場合、層内の各ピクセルは、定数、あるいはその他任意の関数に等しい輝度を有する。
【0013】
各層における各ピクセルに重みが割り当てられ、重みは、層内のピクセルと原画像内の対応するピクセルとの間の輝度の類似度を表す。一般に、高い重みのピクセルは「ターンオン」され、低い重みのピクセルは「ターンオフ」される。従って、層が再結合されて回復画像が形成される際に、原画像内の対応するピクセルに最も近い層ピクセルがより完全に回復画像内で表される。
【0014】
例えば、画像を2層にモデル化し、各層の層ピクセルに「0」(ロー)から「1」(ハイ)の範囲で重みを与える場合、重み「0」の層ピクセルは、回復画像内で表されず、重み「1」の層ピクセルは回復画像内で表される。
【0015】
各層におけるピクセルが、0と1の間の重みを有することも可能である。画像を2層にモデル化し、ある層ピクセルが重み0.5を有する場合、そのピクセルは回復画像中に50%の輝度として表現され、もう一方の層の同じ位置にある層ピクセルが0.5の重みを有することが可能であり、この場合、回復画像中で50%の輝度として表される。
【0016】
【発明の実施の形態】
以下、本発明の好ましい実施形態を図面に基づいて説明する。
【0017】
図6は、原画像301を2層、すなわち第1の層6−1と第2の層6−2によってモデル化した図である。第1層6−1は、均一なダークトーンのテキスト層、第2層6−2は、下から上に向けて徐々に明るさを増す背景層である。図6に示す第1、第2の層6−1、6−2は画像ではなく、それぞれの層に関連するピクセル輝度のパラメータ関数を図形的に表現したものである。図6はまた、第1の層6−1、第2の層6−2に含まれる個々のピクセルに割り当てられた重みを図形的に表わした重みマスク5−1、5−2を示す。重みマスク5−1、5−2の白(ホワイト)領域は、層6−1、6−2に含まれるピクセルのうち、重みが高い(「1」に近い)ピクセルを表わす。一方、重みマスク5−1、5−2の黒(ブラック)領域は、層6−1、6−2において重みの低い(「0」に近い)ピクセルを表わす。
【0018】
重みマスク5−1、5−2を使用して第1および第2の層6−1、6−2を結合することによって回復画像310が生成される。第1、第2の層6−1、6−2に含まれるピクセルのうち、より高い重みのピクセルがより完全に回復画像310内に表される。換言すると、第1および第2の層6−1、6−2において、高い重み(1に近い値)を有するピクセルは回復画像310内に表されるが、低い重み(0に近い値)のピクセルは回復画像310に表されない。
【0019】
テキスト層6−1において、重みマスク5−1で高い重み(ホワイト)を有するクセルは、原画像301のテキストピクセルと同位置にあるピクセルである。テキスト層6−1のその他のピクセルは、原画像301の対応ピクセル位置にテキストがないので、低い重みを有する(ブラック)。同様に、背景層6−2のうち、原画像301の背景ピクセルと同位置にあるピクセルは、重みマスク5−2で高い重み(ホワイト)を有し、原画像301のテキストと同位置にあるピクセルは、重みが低い(ブラック)。第1層と第2層を組み合わせ、重みマスク5−1、5−2内で高い重みのピクセルをONし、重みの低いピクセルをOFFにすることによって、回復画像310が得られる。
【0020】
第1および第2の層6−1、6−2における各ピクセルの輝度は、その層のピクセル位置のパラメータ関数としてモデル化される。原画像301は明らかに2つの層6−1、6−2から構成されるが、理解しやすいように、以下では単一の一般的層6を使用してモデル化するものとして詳細に説明する。また、複数の層を使用したモデル化については後述する。単一層6の各ピクセル輝度のモデル化に使用する関数のタイプは、アフィン関数、二次関数など、任意の関数モデルを使用できるが、好ましくは、次式(1)で示すように、アフィンモデルでモデル化する。
【0021】
u(x,y;ai )=a0 +a1 +a2 y (1)
ここで、uは層6のピクセル位置(x,y)におけるピクセルのモデル化輝度であり、ai は、パラメータである。
【0022】
一方、原画像301の位置(x,y)におけるピクセルの実際の輝度を、d(x,y)で表わす。原画像301の位置(x,y)での実際のピクセル輝度d(x,y)は、当分野で周知の手段によって求めることができる。例えば、原画像301で各ピクセルを8ビットワード、すなわち1バイトで表わす場合、そのピクセルの実際の輝度d(X,Y)は、0から255までの数で表わされる。0〜255というスケールにおいて、値の低い数は相対的に低い輝度d(X,Y)のピクセルを現わし、相対的に高い数で表わされるピクセルは、高い輝度を有する。この輝度モデルを逆に設定してもよい。すなわち、低い数のピクセルが高い輝度を表わし、高い数のピクセルが低い輝度を表わすように設定することもできる。原画像301の個々のピクセルを表現するために使用するビット数によって、ひとつのピクセルが有することのできる可能な輝度値d(X,Y)の総数が決まる。24ビットの画像は、0から約1600万までの範囲の輝度値を有する。
【0023】
原画像301のピクセル輝度を表わす層6の理想的なパラメータモデルとは、層6の各ピクセル位置(x,y)において、原画像301の対応位置(x,y)での実際のピクセル輝度dに非常に近い値の層ピクセル輝度uを表わすモデルである。すなわち、実際の輝度値dと、層ピクセルの輝度モデル値との差は、原画像301と層6における全てのピクセル位置(X,Y)で、できるだけ小さいほうがよい。実際の輝度値dと、モデル化された輝度値uとの差を、残差値rと呼ぶ。
【0024】
このように、層6のモデル化ピクセル輝度uの理想のパラメータモデルは、全てのピクセル位置(x,y)における残差値rの総和を最小にするモデルである。別の角度からみると、次式(2)に基づいて残差値の総和を最小にすることによって、原画像301に最も近い、層6のモデル化ピクセル輝度値uを決定するパラメータモデルを求めることができる。
【0025】
【数1】
【0026】
ここで、dは原画像301の実際のピクセル輝度、uはピクセル輝度のパラメータモデル、ρは粗誤差ノルムである。
【0027】
粗誤差ノルムρは、最小化のための式(2)において、原画像301のピクセルのうち、パラメトリック輝度モデルuで推定されるピクセル輝度値と非常に異なる輝度値dのピクセルを受け入れないようにするために使用する。粗誤差ノルムとして多くの形式があるが、好ましくは次式(3)に示す、ジャーマン/マックルア(Geman/McClure)ノルムを用いる。
【0028】
ρ(r,σ)=r2 /(σ+r2 ) (3)
ここで、rは残差、σはスケールパラメータである。
【0029】
図7は、いろいろな値のスケールパラメータσにおけるジャーマン/マックルア誤差ノルムを示すグラフである。スケールパラメータσが小さいほど、粗誤差ノルムρは、深い落ち込みを形成し、|r|が増大する方向では水平に延びる曲線を形成する。図8は、粗誤差ノルムρの導関数のグラフである。この導関数は、影響関数ψ(r,σ)と呼ばれる。スケールパラメータσが小さいほど、|r|が0に近い地点で影響関数のピークが増大する。これは、原画像301のピクセルのうち、実際の輝度値dがパラメータモデルuで決定されるモデル化輝度に近い(すなわちr→0)ピクセルが、輝度誤差の大きなピクセルに比べて、方程式(2)の最小化に、より大きく影響することを示す。実際の輝度値がパラメータモデルuで決定されるモデル化輝度と差がある(r>>0)原画像ピクセルは、方程式(2)の最小化にほとんど影響しない。
【0030】
方程式(2)の最小化は、当業者にとって周知の多様な傾斜減少法で行うことができるが、好ましくは、反復再重み付け最小2乗(IRLS)法を使用して最小化する。IRLS法を使用すると、次式(4)に示すように、mr2 の最小化と粗誤差ノルムρの最小化とが等しくなるような重みmを求めることによって、式(2)を最小にする。
【0031】
2mr=(∂/∂r)×ρ(r,σ) (4)
ここで、mは重み、rは残差、ρは粗誤差ノルムである。粗誤差ノルムがジャーマン/マックルアノルムであるとき、上記重みmは、次式(5)で与えられる。
【0032】
m=σ/(σ+r2 )2 (5)
したがって、IRLS法を用いると、mr2 は、次式(6)によって最小化される。
【0033】
【数2】
【0034】
ここで、m(x,y)は、位置(x,y)でのパラメータモデルuのピクセルの重み、d(x,y)は、位置(x,y)での原画像301のピクセルの実際の輝度、uは、パラメータaiのときの位置(x,y)での層ピクセル輝度のためのパラメータモデルである。
【0035】
方程式(6)は、重み付け最小2乗法や傾斜減少法など、周知の多様な手法で最小化できるが、傾斜減少法を連続法と組み合わせて最小化するのが好ましい。
【0036】
傾斜減少法と連続法を用いた式(6)の最小化は、まず、パラメータモデルuのパラメータai の初期値を推定する。最初に推定したパラメータai を使用して、層6の各ピクセル位置(x,y)ごとに、かなり高いスケールパラメータ値σで、式(5)から重みmを計算する。こうして求めた重みmを式(6)の最小化に使用して、パラメータai の値を更新する。次いで、更新したパラメータai と、比較的低いスケールパラメータσを使用して、再度、式(5)から重みmを計算する。このプロセスを、収束基準が満たされるまで繰り返す。収束基準の設定としては、反復回数を特定するか、またはパラメータai の変化率が特定の値まで減少したときに反復を停止するようにする。
【0037】
原画像301において、相対的に低い重みmを与えられたピクセルを、アウトライヤーピクセルと呼ぶ。アウトライヤーとは、基準値から大きく外れた値を意味し、アウトライヤーピクセルは、パラメータモデルuで予測されるモデル化輝度値との差が大きい画像ピクセルである。したがって、単一の層6を重みmとともに用いて回復画像を生成するとき、アウトライヤーピクセルは、その低い重みmのために、回復画像中には表されない。
【0038】
例えば、原画像301を第1の層6−1だけでモデル化するなら、原画像中、背景を表わすピクセルがアウトライヤーピクセルとなる。背景ピクセルの輝度値は、第1の層6−1で表わされるテキストピクセルのモデル化輝度値と非常に異なるからである。このため、第1の層6−1と、対応の重みマスク5−1だけを使用して回復した画像は、重みマスク5−1 の反転像として、おおざっぱに表現される。背景画素はアウトライヤーピクセルなので、回復画像中に背景が形成されないからである。
【0039】
以上、画像(例えば原画像301)のモデル化方法を、パラメータモデルuで表現される単一の層6だけを使用するものとして述べてきた。しかし実際には、原画像301を含め、ほとんどの画像が、最低2つの層6で構成されるので(背景層、およびテキストや図形などの非背景層)、上述の画像分割プロセスを2つ以上の層6を用いる場合にも適用する。複数の層6を使用する場合、各層ごとに上述の反復法を使用して、次式(7)によって各ピクセルの残差rを最小化する。
【0040】
【数3】
【0041】
ここで、mn (x,y)は第n番目の層6−nのピクセル位置(x,y)での正規化された重み、ai n は第n層6−nにおけるパラメータモデルuのパラメータ ai である。mn (x,y)は、次式(8)で表わされる。
【0042】
【数4】
【0043】
ここで、wn (x,y)はピクセル位置(x,y)での正規化されない重みである。正規化されない重みwn (x,y)は、さらに次式(9)で表わされる。
【0044】
wn (x,y)=
σ/(σ+(d(x,y)−u(x,y;ai n ))2 )2 (9)
重みwn (x,y)を、式(8)で示すように正規化することによって、パラメータai n の値を更新する前段階の各反復処理で、次式(10)に示す合成制約(mixture constraint)を効果的に実践できる。
【0045】
【数5】
【0046】
すなわち、重みwn (x,y)を正規化し、各ピクセル位置(x,y)におけるn個の層6−nの合成制約を行って、各ピクセル位置(x,y)でのn個の層6すべての重みの総和mn の値を1とする。これは、原画像301内のピクセルを2層以上の層ピクセルで表わしたとしても、全n層の重みの総和mn が1を越えないように制御することを意味する。換言すれば、複数の層6からの各ピクセルが回復画像の中に部分的に寄与して、原画像301の対応のピクセルを表わすことになる。
【0047】
さらに、画像(原画像301)をモデル化するときに、アウトライヤー層と呼ばれる特殊な層6−zを使用することも可能である。アウトライヤー層6−zは、任意の層6−nにおいて任意のパラメータモデルuでモデル化されたどのピクセル輝度にも対応しないピクセルの層である。アウトライヤー層のピクセル輝度はモデル化されず、重みmも式(9)を使って更新されない。アウトライヤー層6−zは、最初は空から開始する。すなわち、アウトライヤー層での各ピクセル位置(x、y)での重みmは、最初はほとんど0である。全n個の層6において、低い重みmを生成したピクセルは、正規化の過程で、その重みmをアウトライヤー層6−zで増大させる。原画像301の分割には、このアウトライヤー層6−zを使用しないのが好ましい。
【0048】
図9は、本発明の画像分割システム100である。画像分割システム100は、汎用コンピュータのソフトウェアモジュールなど、一般的な汎用コンピュータの一部として構成されるが、もちろん、専用コンピューター、ASIC、その他の集積回路、ディスクリート要素ハードウエア回路、プログラマブルロジックデバイス、マイクロプロセッサなどでも実行され得る。画像データは、メモリ21に入力され、メモリ21はコントローラ20によって制御される。画像データは、原画像(たとえば第1の原画像101)の実際のピクセル輝度dを表わす一連の信号である。原画像101の特定のピクセルの輝度dを表わす信号は、例えば8ビットデジタル信号である。画像データは、スキャナ、CCDアレイ、あるいは本発明の分割システム100に直接またはLANやWANを介して接続したホストコンピュータに記憶された画像などから入力される。
【0049】
輝度決定手段22は、原画像101の全てのピクセル位置(X,Y)での画像ピクセル輝度dを決定する。コントローラ20は、n層の層6のnの初期値と、各層6でピクセル輝度をモデル化するためのパラメータモデルuのパラメータai の値を算出する。コントローラ20は、平均的な画像に通常含まれる層の数よりも高い値を「n」に選択する。好ましくは、コントローラ20によるnの選択値は6である。別の方法として、コントローラ20は、まずひとつの層6で画像をモデル化し、必要に応じて追加の層を増やす方法でも本発明を実行できる。
【0050】
コントローラ20は、こうして求めた層6のnの初期値と、各パラメータモデルuのパラメータai の値を、パラメータモデル手段25に出力する。パラメータモデル手段25は、次いで、各層6におけるパラメータai の初期設定値に基づいて、各層ごとに、各ピクセル位置(X,Y)での予測ピクセル輝度値を決定する。この値は、残差決定手段23に供給される。残差決定手段23は、パラメータモデル手段25で決定された各層ごとの予測輝度値u(x,y;ai )と、輝度決定手段22に記憶された実際のピクセル輝度値d(x,y)とに基づいて、各層ごとに各ピクセル位置(X,Y)での残差r(x,y)を決定する。上述したように、残差値rは、原画像101のピクセル位置(x,y)での実際のピクセル輝度値dと、推定パラメータ値ai に基づいてモデル化されパラメータモデルuで表わされる層ピクセルの予測輝度値との差である。残差値r(x,y)は重み決定手段24に供給される。
【0051】
重み決定手段24は、各層ごとに、各ピクセル位置(x,y)の重みmを決定する。重み決定手段24は、コントローラ20から送られるスケールパラメータσと、残差決定手23から供給された残差値r(x,y)を使用して、重みm(x,y)を決定する。重み決定手段24はまた、各ピクセル位置(x,y)で各層の重みm(x,y)を正規化し、すべての層6の重みmの総和が1を超えないようにする。こうして求めた重みm(x,y)を、パラメータモデル手段25に出力する。
【0052】
重み決定手段24から供給される重みm(x,y)に基づいて、パラメータモデル手段25は、各層6の各パラメータモデルuのパラメータai の値を更新する。次いで、コントローラ20は、収束基準が満たされたかどうかを決定する。例として、特定の数の反復が行われたかたかどうかを決定するか、または、各パラメータモデルuのパラメータai の値が、ひとつ前の反復から特定の値以上変化していないかどうかを決定する。収束基準が満たされていれば、コントローラ20は画像分割処理を停止する。
【0053】
収束基準が満たされていない場合は、パラメータモデル手段25は、更新されたパラメータai の値に基づいて、各パラメータモデルuの各ピクセル位置(x,y)の予測ピクセル輝度の更新値を決定する。この各層6のパラメータモデルuからの更新予測輝度値を、残差決定手段23に出力する。残差決定手段23は、実際のピクセル輝度値d(x,y)と、更新された予想ピクセル輝度値u(X,Y;ai )から、新たな残差値r(x,y)を決定し、それを重み決定手段24に出力する。コントローラから供給されるスケールパラメータσを用いて、重み決定手段24は、新たな重みm(X,Y)の集合を決定し、正規化し、これをパラメータモデル手段25に出力する。パラメータモデル手段25は、再度、パラメータai の値を更新し、コントローラ20は、再度、収束基準が満たされたかどうかを決定する。収束基準が満たされるまで、この基準サイクルを繰り返す。
【0054】
次に、図10を参照して、本発明の画像分割システムの作用について説明する。図10は、本発明の画像分割プロセスの概略を示すフローチャートである。ステップS10で、画像分割システム100に画像データを入力する。ステップS20で、コントローラ20は、原画像(第1原画像101など)をモデル化するためのn層6のnの値を選択する。好ましくは、コントローラ20は、標準画像での実際の層の数より多い値をnに選択する。あるいは、最初に標準画像の実際の層の数よりも低い値をnに選択し、その後必要に応じて、追加層6を追加し、原画像101を適切にモデル化してもよい。ステップS30で、コントローラ20は、まず各層ごとのパラメータモデルuのパラメータai の値を推定する。パラメータai の推定方法は任意であるが、好ましくは、パラメータモデルが標準画像での実際の層にほぼ近くなるような推定値を求める。パラメータai の値を最初に求めることによって、パラメータモデル手段25が各層での予測輝度値u(x,y;ai )を決定できるようにする。
【0055】
ステップS40で 、輝度決定手段22は、原画像101の各ピクセル位置(x、y)での実際の輝度値d(x,y)を決定する。ステップS50で、残差決定手段23は、S40で求めた実際の輝度値d(x,y)と、予測輝度値u(x,y;ai )とに基づいて、各層6ごとに各ピクセル位置(x,y)の残差値r(x,y)を決定する。ステップS60で、重み決定手段24は、S50で求めた残差値r(x,y)と、コントローラ20から供給されるスケールパラメータσに基づいて、各層6の各ピクセル位置(x,y)での重みm(x,y)を決定する。
【0056】
ステップS70で、パラメータモデル手段25は、各層6の各パラメータモデルuのパラメータai の値を更新する。ステップS80で、コントローラ20は、収束基準が満たされたかどうかを決定する。満たされていない場合は、ステップS50に戻る。収束基準が満たされていた場合は、コントローラ20は、ステップS90に進み、画像分割プロセスを終了する。
【0057】
原画像101を、それぞれが対応の重み集合m(x,y)を有する複数の層6の合成としてモデル化することによって、生の画像データを直接圧縮するよりも、ずっと効果的に原画像101の圧縮を行うことができる。例えば、各層6で各パラメータモデルuを表わすのに3バイトしか必要としない。重みm(x,y)を、「0」か「1」に分ける場合、mの値を1ビットの信号で表わせばよい。この場合、0.5より小さい重みm(x,y)は「0」とし、0.5〜1の重みm(x,y)を「1」に繰り上げる。このように、重みm(x,y)をグラフ表現する重みマスク5は、ビットマップを形成する。さらに、合成制限処理で、各ピクセル位置(x,y)において、すべての重みマスク5の重みm(x,y)を加算して1とするので、n/2個の層6に対応するn/2個の重みマスクが必要とされるだけである。これは、原画像101の各ピクセル位置(x,y)ごとに少なくとも1バイトを使用する完全なバイトマップに比べ、原画像101を表わす情報量を著しく低減することができる。
【0058】
図1のバイトマップ原画像101のサイズは、486×486ピクセルであり、これをこのまま圧縮方法「gzip」を使用して圧縮した場合、結果としての圧縮率は2.76:1であった。同じバイトマップ原画像101を、まず3層にモデル化してから「gzip」法で圧縮した場合、その圧縮率は14.95:1であり、生のバイトマップ画像データを圧縮した場合に比べ、ほぼ5倍の圧縮比を達成できた。
【0059】
上述したように、図1は、3層(図示せず)に分割した原画像101を示す。図12は、図1の画像のうち、背景層のためのマスク5−1を示している。重みマスク5−1のうち、白(ホワイト)で示される領域のピクセルは、重みが高く(ほぼ1に近い値)、黒(ブラック)で示される領域のピクセルは、重みが非常に低い(ほぼ0に近い値)。この場合、背景層は基本的にホワイト層であり、画像分割システム100は、背景層を、テキスト層やグラフィック層から明確に分離したことになる。
【0060】
図13は、原画像101のグレー層のための重みマスク5p−2であり、図14は、テキスト層のための重みマスク5−3である。これらの図から明らかなように、本発明の画像分割システム100は、原画像101のテキスト部分を、背景およびグラフィック部分からはっきりと分離している。図13のグラフィック層重みマスクにおいて、画像中の左側のボックス内の文章も、テキストとして分離されていることに注目されたい。この場合、テキスト層はブラック層で示される。これら3つの層を、重みに従って組み合わせると、図11に示す回復画像110は、第1の原画像101に非常に近いものとして生成できる、ただし、原画像101の右上のグラフィック部分のこまかい部分は、回復画像中では多少失われる。
【0061】
図3は、さらに別の第2の原画像201を示す。この原画像201も、画像分割システム100によって3層(テキスト層、背景層、およびノイズ層)に分割される。図15は、図3の第2原画像201のうち、テキスト層のためのテキストマスク5−4を示す。図から明らかなように、画像分割システム100は、ノイズと背景の双方から、テキストを正確に分割する。図15の重みマスク5−4のような画像は、図3の原画像201に比べ、OCRシステムによる処理がずっと簡単である。
【0062】
図16は、図3の原画像201のうち、ノイズ層の重みマスク5−5を示す。本発明の画像分割システムでは、テキストはほとんどノイズ層に現われず、効果的に分割されていることがわかる。図17は、原画像201の背景層のための重みマスク5−6である。これら重みマスク5−4、5−5、5−6を組み合わせると、図4に示す回復画像210を得ることができる。この回復された画像210は、原画像201に非常に近いものである。図4のように3層すべてを組み合わせた回復画像210は一例に過ぎず、ノイズ層を排除して、テキスト層と背景層のみを組み合わすこともできる。しかし、この組み合わせでは、回復される画像210は、図15の重みマスク5−4を反転させた状態で、いくぶん粗い出来上がりとなる。利点として、ノイズ層6−5を回復画像から除去すると、回復画像210に含まれるテキストのOCR処理が容易になる。
【0063】
図18は、さらに別の第4の原画像401である。この原画像401を、本発明の画像分割システム100で、4層に分割する。図20は、原画像401の背景層のための重みマスク5−7、図21は、ライトグレー層のための重みマスク5−8、図22は、ダークグレー層のための重みマスク5−9、図23は、テキスト層のための重みマスク5−10である。
【0064】
これらの重みマスクを合成して回復した画像410を、図19に示す。回復された画像410は、図18の原画像401に非常に近いものとなる。図23からも明らかなように、テキスト層は、グラフィック層および背景層の双方から明確に分離されている。このように、本発明の画像分割システム100は、従来の分割 処理方法ではグラフィックしか識別できないような原画像の領域からも、テキストを効果的に分割することができる。
【0065】
図24は、さらに別の原画像501を示す。図26は、シャドウ層(図示せず)の重みマスク5−11を、図27は、背景層(図示せず)の重みマスク5−12を、図28は、テキスト層(図示せず)の重みマスク5−13を示している。これらの重みマスク5−11、5−12、5−13を組み合わせて回復した画像510を図25に示す。原画像501中のテキストに見られる湾曲部も、回復画像510中にきちんと再生されている。図28のテキスト層マスクからも明らかなように、原画像501からテキストが明確に分割される。
【0066】
以上、本発明を良好な実施形態に基づいて詳細に述べてきたが、本発明はこれらの例に限定されず、本発明の原理および範囲内のすべての代替、変形、均等物を含むものである。
【0067】
【発明の効果】
本発明の画像分割システムによれば、原画像を原画像中の構成要素に対応する複数の層に分け、それぞれの層のピクセルの重み集合を求めることによって、きわめて正確に画像構成要素を分割できる。したがって、複雑な背景や、ノイズの混ざった原画像からも、テキスト成分を効果的に分離することができ、以降のOCR処理が容易になる。また、画像を分割することによって、生の画像データを圧縮する場合よりも、より効率的に画像圧縮が行える。
【図面の簡単な説明】
【図1】第1の原画像の例を示す写真である。
【図2】図1の原画像から、形態分割方法でグラフィック要素を分割した例を示す写真である。
【図3】ノイズによって画質が損なわれた第2の原画像の例を示す写真である。
【図4】図3の第2の原画像を、本発明のシステムを使用して、3層にモデル化して回復した画像を示す写真である。
【図5】異なる複数の画像を編集した編集画像の例を示す写真である。
【図6】第3の原画像を2層にモデル化し、各層の層ピクセルに割り当てる重みを表わす重みマスクを示す写真である。
【図7】ジャーマン/マックルア誤差ノルムを示すグラフである。
【図8】ジャーマン/マックルア誤差ノルムの影響関数のグラフである。
【図9】本発明の好適な実施形態による画像分割システムの概略ブロック図である。
【図10】本発明の画像分割処理の概略を示すフローチャートである。
【図11】図1の原画像を本発明のシステムを用いて回復した例を示す写真である。
【図12】図1の原画像における背景層の重みマスクの写真である。
【図13】図1の原画像におけるグレー層の重みマスクの写真である。
【図14】図1の原画像におけるテキスト層の重みマスクの写真である。
【図15】図3に示した第2の原画像のテキスト層の重みマスクの写真である。
【図16】図3に示した第2の原画像のノイズ層の重みマスクを示す写真である。
【図17】図3図に示した第2の原画像の背景層の重みマスクを示す写真である。
【図18】第4の原画像の例を示す写真である。
【図19】本発明のシステムを使用して図18の原画像を回復した写真である。
【図20】図18に示した第4の原画像の背景層の重みマスクの写真である。
【図21】図18に示した第4の原画像のライトグレー層の重みマスクを示す写真である。
【図22】図18に示した第4の原画像のダークグレー層の重みマスクを示す写真である。
【図23】図18に示した第4の原画像のテキスト層の重みマスクを示す写真である。
【図24】第5の原画像の例を示す写真である。
【図25】図24の原画像を本発明のシステムを用いて回復した画像の写真である。
【図26】図24に示した原画像のシャドウ層の重みマスクを示す写真である。
【図27】図24に示した原画像の背景層の重みマスクの写真である。
【図28】図24に示した原画像のテキスト層の重みマスクを示す写真である。
【符号の説明】
5 重みマスク
6 層
20 コントローラ
21 メモリ
22 画像輝度検出手段
23 残差検出手段
24 重み検出手段
25 パラメータモデル手段
100 画像分割システム
Claims (1)
- 画像を複数の層と複数の重み集合に分割する画像分割システムであって、重み集合の各々は複数の層の内の1つに対応し、複数の層の各々は複数の層ピクセルを含み、複数の層ピクセルの各々は画像内の画像ピクセルに対応し、前記画像分割システムは、
画像内の各ピクセルに対する実際の画像ピクセル輝度を決定する画像輝度決定手段を備え、
複数の層の各々に対する層ピクセル輝度モデルを生成するパラメータモデル手段を備え、層ピクセル輝度モデルの各々は、対応する層内の各層ピクセルに対する層ピクセル輝度値を記述し、層ピクセル輝度モデルの各々は、対応する重み集合と画像内の画像ピクセルの実際の画像ピクセル輝度とに基づいて生成され、
複数の残差値集合を決定する残差決定手段を備え、残差集合の各々は1つの層に対応し、対応する残差値集合内の残差値の各々は対応する層内の1つの層ピクセルに対応し、残差値の各々は、パラメータモデル手段によって決定された対応する層に対する対応する層ピクセル輝度値と、対応する画像ピクセルの対応する実際の画像ピクセル輝度とに基づいて決定され、
複数の重み集合を決定する重み決定手段を備え、各重み集合内の重みの各々は対応する層内の1つの層ピクセルに対応し、各重みは対応する層内の対応する層ピクセルに対する残差値に基づいて決定され、
画像輝度決定手段、パラメータモデル手段、残差決定手段、および重み決定手段を制御する制御手段を備える、画像分割システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US488002 | 1995-06-07 | ||
US08/488,002 US5802203A (en) | 1995-06-07 | 1995-06-07 | Image segmentation using robust mixture models |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0934990A JPH0934990A (ja) | 1997-02-07 |
JP3848403B2 true JP3848403B2 (ja) | 2006-11-22 |
Family
ID=23937968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15887296A Expired - Fee Related JP3848403B2 (ja) | 1995-06-07 | 1996-05-30 | 画像分割システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US5802203A (ja) |
EP (1) | EP0748110B1 (ja) |
JP (1) | JP3848403B2 (ja) |
DE (1) | DE69624758T2 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0796003B1 (en) * | 1996-03-15 | 2003-01-02 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for encoding and decoding images |
US6722054B2 (en) * | 1998-11-12 | 2004-04-20 | Atrix Laboratories, Inc. | Process and delivery container for lyophilizing active agent |
US7136525B1 (en) * | 1999-09-20 | 2006-11-14 | Microsoft Corporation | System and method for background maintenance of an image sequence |
US6449389B1 (en) | 1999-09-24 | 2002-09-10 | Xerox Corporation | Method and apparatus for single channel color image segmentation using local context based adaptive weighting |
US6535633B1 (en) | 1999-09-24 | 2003-03-18 | Bank One | Method and apparatus for re-classifying color image pixels classified by single channel segmentation |
US6976223B1 (en) * | 1999-10-04 | 2005-12-13 | Xerox Corporation | Method and system to establish dedicated interfaces for the manipulation of segmented images |
US6519362B1 (en) | 2000-02-15 | 2003-02-11 | The United States Of America As Represented By The National Security Agency | Method of extracting text present in a color image |
US6633670B1 (en) | 2000-03-31 | 2003-10-14 | Sharp Laboratories Of America, Inc. | Mask generation for multi-layer image decomposition |
US7218784B1 (en) | 2000-05-01 | 2007-05-15 | Xerox Corporation | Method and apparatus for controlling image quality and compression ratios |
US7289154B2 (en) * | 2000-05-10 | 2007-10-30 | Eastman Kodak Company | Digital image processing method and apparatus for brightness adjustment of digital images |
US8564661B2 (en) | 2000-10-24 | 2013-10-22 | Objectvideo, Inc. | Video analytic rule detection system and method |
US8711217B2 (en) | 2000-10-24 | 2014-04-29 | Objectvideo, Inc. | Video surveillance system employing video primitives |
US9892606B2 (en) | 2001-11-15 | 2018-02-13 | Avigilon Fortress Corporation | Video surveillance system employing video primitives |
US7424175B2 (en) | 2001-03-23 | 2008-09-09 | Objectvideo, Inc. | Video segmentation using statistical pixel modeling |
US6625310B2 (en) * | 2001-03-23 | 2003-09-23 | Diamondback Vision, Inc. | Video segmentation using statistical pixel modeling |
EP1271403B1 (en) * | 2001-06-26 | 2005-03-09 | Nokia Corporation | Method and device for character location in images from digital camera |
US7085692B2 (en) * | 2001-10-11 | 2006-08-01 | Xerox Corporation | Learning systems and methods for market-based control of smart matter |
US20030090453A1 (en) * | 2001-11-13 | 2003-05-15 | Olivier Fischer | Method and apparatus for localizing graphics |
US20030185431A1 (en) * | 2002-03-29 | 2003-10-02 | Hong Dezhong | Method and system for golden template image extraction |
US7079686B2 (en) * | 2002-08-20 | 2006-07-18 | Lexmark International, Inc. | Systems and methods for content-based document image enhancement |
US20040096102A1 (en) * | 2002-11-18 | 2004-05-20 | Xerox Corporation | Methodology for scanned color document segmentation |
US7783117B2 (en) * | 2005-08-12 | 2010-08-24 | Seiko Epson Corporation | Systems and methods for generating background and foreground images for document compression |
US7899258B2 (en) * | 2005-08-12 | 2011-03-01 | Seiko Epson Corporation | Systems and methods to convert images into high-quality compressed documents |
KR101392294B1 (ko) | 2006-04-17 | 2014-05-27 | 오브젝트비디오 인코퍼레이티드 | 통계적인 픽셀 모델링을 이용한 비디오 분할 |
US7899265B1 (en) * | 2006-05-02 | 2011-03-01 | Sylvia Tatevosian Rostami | Generating an image by averaging the colors of text with its background |
AU2008245542B2 (en) | 2007-04-27 | 2012-04-05 | Coupons.Com Incorporated | Coupon copy protection |
US7894689B2 (en) * | 2007-05-31 | 2011-02-22 | Seiko Epson Corporation | Image stitching |
US8649555B1 (en) * | 2009-02-18 | 2014-02-11 | Lucasfilm Entertainment Company Ltd. | Visual tracking framework |
US9195908B2 (en) | 2013-05-22 | 2015-11-24 | Xerox Corporation | Snow classifier context window reduction using class t-scores and mean differences |
KR102372014B1 (ko) * | 2015-08-31 | 2022-03-11 | 엘지디스플레이 주식회사 | 표시장치의 휘도 저하 예측 방법 및 시스템 |
CN111832585B (zh) * | 2019-04-16 | 2023-04-18 | 杭州海康威视数字技术股份有限公司 | 图像处理的方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3828319A (en) * | 1969-06-23 | 1974-08-06 | Ipc Service Ltd | Composition system |
DE2516332A1 (de) * | 1975-04-15 | 1976-10-28 | Siemens Ag | Verfahren zur codierung von elektrischen signalen, die bei der abtastung eines graphischen musters mit aus text und bild gemischtem inhalt gewonnen werden |
US4194221A (en) * | 1978-12-26 | 1980-03-18 | Xerox Corporation | Automatic multimode continuous halftone line copy reproduction |
JPS58211168A (ja) * | 1982-06-03 | 1983-12-08 | Canon Inc | カラ−画像処理方法 |
JP2865697B2 (ja) * | 1989-03-20 | 1999-03-08 | 株式会社日立製作所 | エクスチャ分離方法 |
-
1995
- 1995-06-07 US US08/488,002 patent/US5802203A/en not_active Expired - Lifetime
-
1996
- 1996-05-30 JP JP15887296A patent/JP3848403B2/ja not_active Expired - Fee Related
- 1996-06-05 EP EP96304091A patent/EP0748110B1/en not_active Expired - Lifetime
- 1996-06-05 DE DE69624758T patent/DE69624758T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0748110A3 (en) | 1998-01-07 |
EP0748110B1 (en) | 2002-11-13 |
DE69624758D1 (de) | 2002-12-19 |
JPH0934990A (ja) | 1997-02-07 |
EP0748110A2 (en) | 1996-12-11 |
DE69624758T2 (de) | 2003-03-20 |
US5802203A (en) | 1998-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3848403B2 (ja) | 画像分割システム | |
US6944341B2 (en) | Loose gray-scale template matching for image processing of anti-aliased lines | |
US5912992A (en) | Binary image forming device with shading correction means using interpolation of shade densities determined by using sample points | |
US6195467B1 (en) | Method and apparatus for sharpening a grayscale image | |
JP3078844B2 (ja) | 文書中の前景情報を背景情報から分離する方法 | |
JPH06105160A (ja) | イメージコントローラ | |
US6324300B1 (en) | Defining color borders in a raster image | |
JP2001144962A (ja) | 画像処理装置 | |
JPH10283470A (ja) | 画像処理装置、画像処理方法および記録媒体 | |
JPH03146996A (ja) | 画像処理装置 | |
JPH09270005A (ja) | エッジ画像処理装置およびエッジ画像処理方法 | |
JP3506848B2 (ja) | 画像処理装置 | |
JP3564216B2 (ja) | 画像処理装置 | |
JP3723666B2 (ja) | 画像処理装置 | |
JP2729278B2 (ja) | 画像の2値化表現方法 | |
JPH09139839A (ja) | 画像処理装置 | |
JP2804299B2 (ja) | 切抜きマスク作成システム | |
JPH0520455A (ja) | 画像処理方法 | |
JP3454626B2 (ja) | 大分類方法 | |
JP2003204430A (ja) | 画像縮小変換方法、画像処理装置及び画像縮小変換プログラム | |
JP2005018465A (ja) | 画像処理装置及び方法並びにプログラム | |
JPH07273996A (ja) | 画像形成装置 | |
JPH08102858A (ja) | デジタル画像の画像輪郭部の鮮鋭化方法 | |
JPH1023251A (ja) | 画像処理装置 | |
JPH06164929A (ja) | 階調変換処理方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060825 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100901 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110901 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120901 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130901 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |