JP2005129065A - 色及び視覚的テクスチャに基づいたオブジェクト抽出 - Google Patents
色及び視覚的テクスチャに基づいたオブジェクト抽出 Download PDFInfo
- Publication number
- JP2005129065A JP2005129065A JP2004309880A JP2004309880A JP2005129065A JP 2005129065 A JP2005129065 A JP 2005129065A JP 2004309880 A JP2004309880 A JP 2004309880A JP 2004309880 A JP2004309880 A JP 2004309880A JP 2005129065 A JP2005129065 A JP 2005129065A
- Authority
- JP
- Japan
- Prior art keywords
- region
- pixels
- pixel
- color
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/24—Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
【課題】 色及び視覚的テクスチャに基づいてオブジェクトを抽出する方法及び装置を提供する。
【解決手段】 本発明によれば、第一領域と第二領域とをセグメント化する方法及び装置が提供される。デジタル画像の第一領域と第二領域とを分離する境界を画定する方法は、学習マシンを使用して、色配置の1つ又はそれ以上に基づいて、画像のどのピクセルが第一領域と関連するものとしての分類のための基準を満足し且つ画像のどのピクセルが第二領域と関連するものとしての分類のための基準を満足するかを決定する。デジタル画像は第一領域の特性である1つ又はそれ以上の色配置と第二領域の特性である1つ又はそれ以上の色配置とを包含している。本方法は、第一領域又は第二領域のいずれかと関連するものとして分類するための基準を満足するものでないと決定された画像のピクセルを識別することを包含している。本方法は、識別されたピクセルを浄化させて第一領域と第二領域との間の境界を画定することを包含している。
【選択図】 図1
【解決手段】 本発明によれば、第一領域と第二領域とをセグメント化する方法及び装置が提供される。デジタル画像の第一領域と第二領域とを分離する境界を画定する方法は、学習マシンを使用して、色配置の1つ又はそれ以上に基づいて、画像のどのピクセルが第一領域と関連するものとしての分類のための基準を満足し且つ画像のどのピクセルが第二領域と関連するものとしての分類のための基準を満足するかを決定する。デジタル画像は第一領域の特性である1つ又はそれ以上の色配置と第二領域の特性である1つ又はそれ以上の色配置とを包含している。本方法は、第一領域又は第二領域のいずれかと関連するものとして分類するための基準を満足するものでないと決定された画像のピクセルを識別することを包含している。本方法は、識別されたピクセルを浄化させて第一領域と第二領域との間の境界を画定することを包含している。
【選択図】 図1
Description
本発明はデジタル画像合成に関するものである。
デジタル画像は1つ又はそれ以上の領域を包含することが可能である。本明細書において使用されるように、デジタル画像の1つの領域は、その関連性が任意的なものであるかまたはそうでないものとすることが可能な1つのグループのピクセルのことを意味する。ピクセルは、例えば、それらが画定する領域が紙、草、空又は木等の実世界物質を表わすようにグループ化することが可能である。1つの領域は1つ又はそれ以上の実世界物質を表わすことが可能であり且つ異なる領域は異なる実世界物質を表わすことが可能である。1つの領域は連続的なものとすることが可能であるがそうすることが必要なものではなく且つ2個又はそれ以上の不連続な部分から構成することが可能である。1つの領域はその他の領域と関連するピクセルを包含することが可能である。
実世界物質を表わす領域は1つの色のみから構成されるものではない。そうではなく、その領域は、典型的に、複数の色を包含しており、それらはその物質の有様を表わす態様で空間的に配置されている。例えば、草を表わす領域は緑と多分その他の色の種々のシェードを包含することが可能である。葉の領域は緑と茶色の種々のシェードを包含することが可能である。1つ又はそれ以上のピクセルにわたっての色の空間的配置は、本明細書においては、色配置と呼称する。ある物質の様相を特性付けることが可能な色配置は、本明細書においては、視覚的テクスチャと呼称する。
カリフォルニア、サンノゼのアドビシステムズから入手可能なアドビフォトショップ(商標)等のデジタル画像を編集するコンピュータアプリケーションにおいては、単一の実世界物質に対応する1つの領域を選択し且つその周囲のピクセル又は領域とは分離してその選択した領域を修正することが可能であることが極めて有用である場合がある。このような能力を有することは、例えば、デジタル画像内に描写されている人の髪の色のみを変化させ、その髪の周りのピクセルの同一の色又は複数個の色を維持したままとすることを可能とする。実世界物質即ちオブジェクトを表わす領域の選択及び分離は、本明細書においては、オブジェクト抽出と呼称とする。デジタル画像からのオブジェクト抽出は、典型的に、画像を、各々が単一の実世界物質を表わす複数の領域へセグメント化することを包含している。セグメント化は、通常、2つの領域の間の境界を探知することを包含している。セグメント化は、通常、どのピクセルがどの領域に属するかを決定することを包含している。
本発明は、以上の点に鑑みなされたものであって、上述した如き従来技術の欠点を解消し、色及び視覚的テクスチャに基づくオブジェクト抽出のための方法及び装置及びコンピュータプログラムプロダクトを提供することを目的とする。
一般的に、1つの側面においては、本発明は、デジタル画像の第一領域と第二領域とを分離する境界を画定する方法を提供しており、該デジタル画像は該第一領域の特性である1つ又はそれ以上の色配置と該第二領域の特性である1つ又はそれ以上の色配置とを包含している。本方法は、学習マシンを使用して、色配置の1つ又はそれ以上に基づいて、画像のどのピクセルが第一領域と関連するものとしての分類に対する基準を満足するかを決定することを包含している。本方法は、学習マシンを使用して、色配置のうちの1つ又はそれ以上に基づいて、画像のどのピクセルが第二領域と関連するものとしての分類のための基準を満足するかを決定することを包含している。本方法は、第一領域又は第二領域のいずれかと関連するものとしての分類のための基準を満足するものでないことが決定された画像のピクセルを識別することを包含している。本方法は、第一領域と第二領域との間の境界を画定するために該識別されたピクセルを浄化することを包含している。
一般的に、別の側面においては、本発明は、デジタル画像の第一領域と第二領域とを分離する境界を画定する方法を提供する。本方法は、ニューラルネットワークの出力に基づいて、画像のどのピクセルが第一領域と関連するものとしての分類に対する基準を満足するかを決定することを包含している。本方法は、ニューラルネットワークの出力に基づいて、画像のどのピクセルが第二領域と関連するものとして分類するための基準を満足するかを決定することを包含しており、該ニューラルネットワークは、対応する隠れノードと関連するゲーティングノードを包含しており、該ゲーティングノードは、考慮中のピクセルの位置に基づいて、対応する隠れノードがニューラルネットワークの出力に与える寄与を決定する形態とされている。
一般的に、別の側面においては、本発明は、各領域がその領域の特性である1つまたはそれ以上の色配置を包含している第一領域と第二領域とにセグメント化するための機械読取可能な媒体上にタンジブルに格納されているコンピュータプログラムプロダクトを提供する。本プロダクトは、プロセッサをして、色配置の1つ又はそれ以上に基づいて、画像のどのピクセルが第一領域と関連するものとして分類するための基準を満足するかを決定させるべく動作可能な命令を包含している。本プロダクトは、色配置の1つ又はそれ以上に基づいて、画像のどのピクセルが第二領域として関連するものと分類するための基準を満足するかを決定する命令を包含している。本プロダクトは第一領域又は第二領域のいずれかに位置しているものとして分類するための基準を満足するものではないとして決定された画像のピクセルを識別するための命令を包含している。本プロダクトは、境界を画定するためにその識別されたピクセルを浄化させるための命令を包含している。
一般的に、別の側面においては、本発明は、各領域がその領域の特性である1つ又はそれ以上の色配置を包含している第一領域と第二領域とにセグメント化するための機械読取可能な媒体上にタンジブルに格納されているコンピュータプログラムプロダクトを提供する。本プロダクトは、第一領域の一部を選択する入力と第二領域の一部を選択する入力とをプロセッサをして受取らせるべく動作可能な命令を包含している。本プロダクトは、該入力及び第一及び第二領域の色配置に基づいて、第一領域内に位置しているピクセルを識別するための命令を包含している。本プロダクトは、該入力及び第一及び第二領域の色配置に基づいて、第二領域に位置しているピクセルを識別するための命令を包含している。
本発明に基づくシステムは、あるパラメータに基づいて領域間の境界を画定する。これらのパラメータは、各々が類似した色を包含している第一領域と第二領域との間の境界を探知するために色を包含することが可能であるが、色差のみに依存することを必要とするものではない。従って、本発明システムは、2つの領域内に包含される色が類似したものである場合であっても境界を効果的に探知することが可能である。本システムは、又、境界を探知するためにエッジ検知技術のみに依存することを必要とするものではない。本システムは、ピクセル毎にどのピクセルがどの領域に属するかを手作業により決定することをユーザに要求することがないという点において効率的なものである。本システムはユーザ入力に基づいて一貫性を持ってオブジェクトを抽出することが可能である。例えば、本システムはデジタル画像をユーザにより特定された2つ又はそれ以上の領域へセグメント化させ、その結果、適宜のオブジェクト又は複数のオブジェクトを抽出することが可能である。
本発明に基づく学習マシン(機械)は異なる色配置及び異なる視覚的テクスチャを区別することが可能である。ニューラルネットワーク型の学習マシンは、その隠れノードのうちのどれがその出力の決定に寄与するかを決定することが可能である。このようなシステムに対するトレーニングは、色とテクスチャの両方を使用する結合したトレーニングセッションで達成することが可能である。どの隠れセルがその出力の決定に寄与するかを決定するために別個に学習マシンをトレーニングすることは必要ではない。
図1はデジタル画像の2つの領域の間の境界を探知する方法100を示している。図示したように、方法100を実施するシステムは第一領域と第二領域とを包含するデジタル画像を受取る(ステップ110)。第一領域は第一視覚的テクスチャの特性である1つ又はそれ以上の色配置を示す。例えば、第一領域は第一実世界物質を表わすことが可能である。第二領域は第二視覚的テクスチャの特性である1つ又はそれ以上の色配置を示す。第二領域は第二実世界物質を表わすことが可能である。デジタル画像は、例えば、その他の視覚的テクスチャの特性である色配置を示すような付加的な領域を包含することが可能である。
ここで、第一領域のことを「注目領域」と呼ぶこととする。例えば、その領域はユーザがデジタル画像から抽出せんとするオブジェクトの少なくとも一部を表わすことが可能である。本明細書においては、1つの注目領域はフォアグラウンド即ち前景と呼称し、且つ注目領域ではない第二領域をバックグラウンド即ち背景と呼称する。
本システムは、デジタル画像の第三領域を選択する、例えばユーザからの入力である入力を受取る(ステップ120)。この第三領域はデジタル画像の一部である。一方、この第三領域は全体的なデジタル画像である。この第三領域は第一領域と第二領域とにセグメント化されるピクセルのグループである。境界が探知されるのはこの第三領域のピクセルの間においてである。この第三領域は第一領域の少なくとも一部と第二領域の少なくとも一部とを包含している。第三領域の選択は、単に2つの比較的テクスチャの特性である色配置のみを包含すべく構成することが可能である。このタイプの選択は境界探知プロセスを容易なものとさせることが可能である。
本システムは、第一及び第二領域の各々の1つ又はそれ以上の色配置に基づいて、第三領域内のどのピクセルが第一領域内に位置されているものとして分類するために基準を満足するかを決定する(ステップ130)。この決定は、第一及び第二領域の色配置、考慮中のピクセルの位置、又は色配置と考慮中のピクセルの位置の両方に基づくものとすることが可能である。この決定を行うために、本システムは、典型的に、境界の近似的な位置を特定するユーザ入力を必要とする。ユーザ入力は、更に、その境界のどちら側に第一領域が位置しているかを特定することを必要とする。1つの実現例においては、境界の近似的な位置は、40ピクセル幅であるブラシストロークにより特定することが可能である。境界の近似的位置を特定する代わりに、ユーザ入力は第一及び第二入力の位置配置のサンプルを供給することが可能である。1つの実現例においては、該サンプルは、第一領域内に位置されている高い確率を有するピクセル(例えば、第一領域の中心近くに位置しているピクセル)及び第二領域内に位置している高い確率を有するピクセル(例えば、第二領域の中心近くに位置しているピクセル)のユーザ選択により特定することが可能である。
本システムはステップ130の決定を実施することが可能な学習マシンを包含することが可能である。一般的に、学習マシンは入力パターンを受取ることが可能であり且つそのパターンをNが2又はそれ以上としてN個のクラスへ分類する出力を供給する。該入力パターンは、例えば、色配置を記述するものである種々のドメインから引き出すことが可能であり且つ通常数のリストとして高度化されている。該リストは、本明細書においては、入力ベクトルと呼称する。学習マシンの出力は、入力パターンが最も高い蓋然性で属する可能性のあるクラスを特定する単一の数とすることが可能である。一方、該出力は各クラスに対して1つづつN個の数とすることが可能である。この場合には、各数はその入力パターンが対応するクラスに属する確率を特定する。2つのクラスが存在しており且つ1つのクラスにおけるメンバーシップが他方のクラスのメンバーシップに対して排他的なものである実現例においては、その出力は1つのクラスにおけるメンバーシップの確率を表わす第一数とすることが可能であり且つ他方のクラスにおけるメンバーシップの確率は1−第一数として計算される。
色配置を表わす入力パターンは、典型的に、その色配置を示す1組のピクセルから派生される。この組のピクセルは、通常、互いに近くに位置されている。それから入力パターンが派生される1組のピクセルは、本明細書においては、学習マシン入力組と呼称する。注意すべきことであるが、学習マシン入力組は1個のピクセルのみを包含することが可能であり、更に、連続的なものであることは必要ではない。更に、学習マシン入力組は他の学習マシン入力組に属するピクセルを包含する場合があり、且つ、多分、包含している。即ち、学習マシン入力組はオーバーラップする場合がある。
1つの実現例においては、学習マシンが注目ピクセル及びその近傍のピクセルによって示される色配置に基づいて第一又は第二領域内に位置されているものとして分類する。近傍のピクセルは注目ピクセルの次又は近くに位置しているピクセルである。この場合には、学習マシン入力組は注目ピクセル及びその近傍ピクセル(集約的に、本明細書においては、ピクセルの近傍として言及する)である。ピクセルの近傍は、例えば、複数のピクセルからなる3×3正方形、複数のピクセルからなる5×5正方形、又は複数のピクセルからなる7×7正方形とすることが可能である。その近傍は必ずしも正方形である必要性はない。注目ピクセルは、通常、中央のピクセルであるがそうである必要性はない。一方、ピクセルの近傍の組は第一又は第二領域の特性である色配置を示すピクセルのその他の配置を包含することが可能である。
学習マシンの一般的な特徴は、パターンを分類するために使用される前に、トレーニング組として本明細において呼称される複数のピクセルからなるトレーニング組から派生される1組のサンプル入力パターンに関してトレーニングされることである。該トレーニング組は、通常、N個のクラスの各々からのサンプルパターンを示す。トレーニング組は、例えば、第一領域に位置していることが知られているピクセル及び第二領域に位置していることが知られているピクセルを包含する。通常、トレーニング組は第一領域の一部と第二領域の一部とを包含している。トレーニング組は、通常、複数の学習マシン入力組を包含している。トレーニング期間中に、学習マシンはトレーニング組の入力パターンをできるだけ多く正確に分類するために、1つ又はそれ以上の分類関数F1,F2,...,Fnに対して内部調節を行うことが可能である。トレーニングされた後に、学習マシンは、通常、そのトレーニング組により示されることのない新たな入力パターンを正しく分類するために該トレーニング組から一般化することが可能である。ステップ130に関して上述したユーザ入力を使用してトレーニング組を特定することが可能である。
1つの実現例においては、分類関数F1,F2,...,Fnの各々は、入力として、パターンを記述するベクトルを取り且つ、出力として、その入力パターンが属するカテゴリを表わす単一数を出力する。各分類関数はその関数がどのようにしてその出力を計算するかを決定する内部パラメータを包含している。学習マシンはトレーニング組に基づいて分類関数の内部パラメータを調節する手順を包含している。トレーニング組は入力パターン及び分類関数F1,F2,...,Fnの各々からの所望の出力を包含することが可能である。
学習マシンはサポートベクトルマシン(SVM)とすることが可能であり、それは入力パターンを、例えば、第一クラスと第二クラスとの2つのクラスへ分類するためにトレーニングすることが可能である。SVMの入力パターンは数のリストにより特定することが可能である。該リストは同一の長さ、即ち同一の量の数を包含するものである。該リストは入力ベクトルとすることが可能である。
SVMが基礎とする原理は、入力ベクトルが特徴ベクトルへマッピングされると言うことである。特徴ベクトルも入力ベクトルと同様に数のリストとすることが可能であるが、特徴ベクトルにおける数は入力ベクトルのある特徴の測度に対応する。例えば、特徴ベクトル数は入力ピクセルの色チャンネル値のプロパティ即ち特性に対応する場合がある。例えば、各ピクセルが3個の色チャンネル(例えば、(r,g,b))を有している複数のピクセルからなる3×3配置の場合に、その3×3配置を特定するために使用される入力ベクトルは入力ピクセルの各々に対し3個の数、即ち27個の数を必要とする。このシステムは、このような入力ベクトルから以下のことを計算することが可能であり、即ち、配置の平均色、配置内の色の偏差、1つのチャンネルにおける高周波数変化の量(即ち、赤、緑又は青の成分)、1つのチャンネルにおける低周波数変化の量(即ち、赤、緑又は青の成分)、及び実質的に同一の色を有する要素の最大のグループ、である。記述したリストは全てではなく且つ本システムはその他の計算を実施することが可能である。注意すべきことであるが、各特徴は入力ベクトルにおけるある数の要素から計算される。
上述した特徴ベクトルはn次元空間における点として考えることが可能であり、尚nは特徴の数である。このn次元空間は特徴空間と呼ばれる。特徴が良好に選択される場合には、第一クラスの要素を第二クラスの要素から分離する特徴空間内に超平面が存在する。第一クラスの全ての要素は超平面の片側に存在し且つ第二クラスの全ての要素は反対側に存在する。SVMのトレーニングは超平面を見つけ出すプロセスを包含することが可能である。
SVMをトレーニングするために使用される入力ベクトルの全ての要素から最大に遠いものであるように位置させることが可能な最適な超平面が存在する場合がある。トレーニング組は不完全なものである場合があるので、2つのトレーニングクラスを分離するものは実際には超平面ではない場合がある。この場合には、エラーバジェット(error budget)が存在する場合があり、その場合には、トレーニング組の幾つかの入力ベクトルは、これらのベクトルからのこれらのエラーの大きさの和がエラーバジェット以下である限り、超平面の誤った側に存在することが許容される。入力ベクトルの超平面の正しい側にある場合にはベクトルに対するエラーの大きさは0であり、且つ、例えば、それが間違った側にある場合には超平面への距離とすることが可能である。上述したように、SVMをトレーニングするために使用される入力ベクトルのトレーニング組はステップ130に関して上述したユーザ入力により特定することが可能である。
SVMである代わりに、学習マシンはニューラルネットワーク、例えば分類ニューラルネットワークとすることが可能である。一般的に、ニューラルネットワークは、多数の入力、例えば100個の入力を取り、且つ数個の出力、例えば1個の出力のみを発生する1つ又はそれ以上の関数を包含している。入力は特定の色配置及びその色配置の特定の位置を特定する情報を包含することが可能である。色配置は複数のピクセルからなる学習マシン入力組により示される。出力は考慮中のピクセルが関連している領域を表わす浮動小数点数とすることが可能である。この浮動小数点数は、そのピクセルがその領域と関連する確率を表わす。
ニューラルネットワークは種々の入力に対してその出力を決定する多数の関連するパラメータを包含することが可能である。ニューラルネットワークは、例えば、トレーニング組の入力に対しより正確な出力を与えるためにパラメータを調節することによりトレーニングすることが可能である。その他の学習マシンのトレーニング組の場合のように、ニューラルネットワーク用のトレーニング組はステップ130に関して上述したユーザ入力により特定することが可能である。トレーニングは、通常、反復プロセスであり、その場合に、ニューラルネットワークがそのトレーニング入力に対して正しい出力を発生するようにパラメータが収束する。トレーニングした後に、ニューラルネットワークは、通常、一般化し且つそのトレーニング組の外側の入力に対し正しい結果を発生するものと期待される。ニューラルネットワークの1つの実現例を図3を参照して以下に説明する。
ある領域内に位置しているものとして1つのピクセルを分類するための基準は、学習マシンが、そのピクセルがその領域内に維持していることの特定のスレッシュホールド確率を超えることを決定した場合の条件を包含することが可能である。一方、その基準はその他の条件を包含することが可能である。
本システムは、第一及び第二領域の1つ又はそれ以上の色配置に基づいて、第三領域内のどのピクセルが第二領域内に位置されているものとして分類するための基準を満足するかを決定する(図1のステップ140)。このステップにおいてなされる決定は学習マシンによって行うことも可能であり且つステップ130に対して説明した決定と類似している。学習マシンは、第三領域における各ピクセルに対して、そのピクセルが第二領域に属する確率を決定する形態とすることが可能である。ステップ130の場合のように、本システムは、典型的に、ステップ140の決定を実施するためにユーザ入力を必要とする。ユーザ入力は境界の近似的な位置を特定するか、又は代替として、第一及び第二領域の色配置のサンプルを提供することが可能である。
第二領域内に位置しているとして分類する基準は、ピクセルが第二領域内に位置していることの特定のスレッシュホールド確率を超えることを学習マシンが決定したという条件を包含することが可能である。一方、その基準はその他の条件を包含することが可能である。
上述した如く、決定ステップ130及び140の各々はトレーニングセッションを包含することが可能であり、その期間中に、学習マシンがトレーニングされる。一方、その期間中にステップ130及び140の決定を実施するために学習マシンがトレーニングされる1つのトレーニングセッションが存在する場合がある。
決定ステップ130及び140は1つの決定ステップとして結合することが可能である。この場合には、学習マシンは、出力として、各注目ピクセル(例えば、考慮中のピクセル)に対して第一数と第二数との間の浮動小数点数を供給することが可能である。第一浮動小数点数は、そのピクセルが第二領域内に位置している100%の確率及びそのピクセルが第一領域内に位置している0%の確率を表わす。第二数はそのピクセルが第一領域内に位置している100%の確率及びそのピクセルが第二領域内に位置している0%の確率を表わす。第一数と第二数との間の値は、100%と0%との間の確率値を表わすために補間することが可能である。
本システムは第一領域内に位置しているとして分類するための基準も第二領域内に位置しているとして分類するための基準も満足することのない第三領域におけるピクセルを識別する(ステップ150)。即ち、本システムは第一領域内に位置しているか又は第二領域内に位置しているとしても分類のための基準を満足することのないピクセルを識別する。本システムはマスク、例えば不透明マスクを使用してこれらのピクセルを識別することが可能である。一般的に、マスクは、例えばステップ110において受取った画像である考慮中の画像と同一の横方向範囲を有する画像である。マスク内の1個のピクセルに割当てられた不透明値は選択されているピクセルの確率を決定することが可能である。不透明マスク、即ちアルファマスクチャンネルの場合には、本システムは、特定の領域に位置しているとして分類する基準を満足するピクセルを透明なものとさせ且つこの基準を満足することのないピクセルを不透明なものとさせるために不透明値を割当てることが可能である。
オプションとして本システムは第一領域内に位置しているとして分類するための基準及び第二領域内に位置しているとして分類する基準のいずれも満足することのないピクセルの数を減少させるステップ110乃至150を繰り返すことが可能である。各繰り返しの場合に、トレーニング組は前の繰り返しにおいて使用したものと異なるものとすべきである。
本システムは第三領域のピクセルを浄化する(ステップ160)。一般的に、1組のピクセルの浄化は、その組のピクセルを3つのグループへ分割することを包含している。第一グループは前景に位置しているピクセルを包含している。第二グループは背景に位置しているピクセルを包含している。第三グループは前景領域と背景領域との間の境界に位置しているピクセルである境界ピクセルを包含している。本システムは、第一領域に位置しているとして分類するための基準を満足することがステップ130において決定されたピクセルを前景グループへ割当てる。本システムは、第二領域に位置しているとして分類するための基準を満足するとしてステップ140において決定されたピクセルを背景グループへ割当てる。本システムは、ステップ150において識別されたピクセルを境界グループへ割当てる。
浄化プロセスは、第一及び第二領域と相対的なピクセルの位置に基づいて境界グループの1つ又はそれ以上のピクセルの色を変化させることを包含している。浄化プロセスは、例えば、その境界へピクセルが前景に位置しているものと決定される場合には境界ピクセルから背景色を除去することが可能である。
浄化プロセスは、第一及び第二領域と相対的なピクセルの位置に基づいて境界グループの1つ又はそれ以上のピクセルに対する不透明値を決定することを包含している。例えば、第一領域近くに位置している境界ピクセルは、第一領域からより離れて位置している境界ピクセルよりもより大きい不透明値が割当てられる。より大きな不透明値はより大きな不透明な程度を表わす。
浄化プロセスは、通常、画像と不透明マスクとを発生する。その画像は、通常、浄化プロセスが境界ピクセルに対して行った色変化を反映する。不透明マスクは、通常、浄化プロセスにより決定される不透明値を包含している。画像及び不透明マスクの各々は、通常、ピクセルの入力組と同一の横方向範囲を有している。浄化プロセスの1つの実現例を図6を参照して以下に説明する。
本システムは、抽出すべきオブジェクトのその他の部分を背景からセグメント化するために適宜ステップ120乃至160を繰り返すことが可能である(図1のステップ170)。本システムが背景から注目オブジェクトの全ての部分をセグメント化すると、本システムはそれらを結合し且つそのオブジェクトを抽出することが可能である。本システムは浄化により発生した不透明マスクに基づいてセグメント化した部分を結合することが可能である。
本システムは背景とは独立して注目オブジェクトを修正することが可能である(ステップ180)。本システムはユーザ入力を受取り且つそれに従ってオブジェクトを修正することが可能である。例えば、本システムは、該オブジェクトの周りのピクセルの色を変化させること無しに抽出したオブジェクトの色を変化させることが可能である。本システムは該オブジェクトを別のデジタル画像内へカットアンドペーストすることが可能である。例えばアドビ(商標)社のフォトショップ(商標)であるデジタル画像を編集するためのアプリケーションは、不透明マスクを画像選択へ変換することが可能である。この画像選択は、例えば、その対応する不透明値があるスレッシュホールド(例えば、0から255の範囲における127)を超えるピクセルのリストである。選択が画定されると、その選択におけるピクセルはデジタル画像の新たな部分へ又は別のデジタル画像内へ、ピクセル座標の変換及びピクセル色の変換した位置へのコピーにより移動させることが可能である。
図2はデジタル画像から注目オブジェクトを抽出する方法200を示している。方法200を実施するシステムは、第一領域と第二領域とを包含するデジタル画像を受取る(ステップ210)。本システムは、例えばアドビ(商標)社のフォトショップ(商標)であるデジタル画像を編集するコンピュータアプリケーションを包含することが可能である。第一領域は注目オブジェクトの少なくとも一部を表わすことが可能である。即ち、第一領域は前景を包含することが可能である。第一領域は第一視覚的テクスチャの特性である1つ又はそれ以上の色配置を示す。第一領域は第一実世界物質を表わすことが可能である。第二領域は実世界物質を表わす第二の又は付加的な視覚テクスチャの特性である1つ又はそれ以上の色配置を示す。注意すべきことであるが、この点において、どのピクセルが第一領域に位置しており且つどのピクセルが第二領域に位置しているかを特定する入力リストは存在していない。デジタル画像は、例えば、その他の視覚的テクスチャの特性である色配置を示す付加的な領域を包含することが可能である。
本システムはデジタル画像の第三領域を選択する第一入力を受取る(ステップ220)。この第一入力はユーザ入力とすることが可能である。第三領域はセグメント化すべき複数のピクセルからなるグループとすることが可能である。それは境界を探知すべき第三領域のピクセルの中からのものである。第三領域は第一領域の少なくとも一部と第二領域の少なくとも一部とを包含している。第三領域の選択は、単に2つの視覚的テクスチャのみの特性の色配置のみが存在するように行うことが可能である。このような選択の場合には、本システムは例えば前景領域である第一領域の特性である色配置を1つの前景ではない視覚的テクスチャのみの特性の色配置に対して比較することが必要である。このタイプの選択は境界探知プロセスを容易化させることが可能である。
セグメント化及び境界探知はニューラルネットワークの使用を包含することが可能である。本システムは、1つのピクセルが第一領域内に位置していることの確率及びそのピクセルが第二領域内に位置していることの確率を決定する形態とされているニューラルネットワークを包含することが可能である。1つの実現例において、該ニューラルネットワークはゲーティングノードが存在するか否かに依存して、3個又は4個のレイヤーを包含している。ゲーティングノードが存在する場合には、ニューラルネットワークは4つのレイヤーを有している。第一レイヤーは入力ノードを包含している。第二レイヤーは隠れノードとゲーティングノードとを包含している。第三レイヤーは乗算ノードを包含している。第四レイヤーは出力ノードを包含している。ゲーティングノードが存在しない場合には、ニューラルネットワークは3つのレイヤーを有している。その第一レイヤーは入力ノードを包含している。その第二レイヤーは隠れノードを包含しており、且つその第三レイヤーは出力ノードを包含している。
ニューラルネットワークの入力ノードは、入力を受取り且つ入力情報を隠れノードへ、且つ、存在する場合には、ゲーティングノードへ伝達することが可能である。ゲーティングノードは、通常、対応する隠れノードと関連している。隠れノードは入力を区別し且つ出力を発生することが可能である。ゲーティングノードは、それにわたって対応する隠れノードがアクティブである、第三領域全体の場合を包含する第三領域から1つの領域を選択することが可能である。ゲーティングノードは初期的には第三領域全体を選択するが、そうすることがニューラルネットワーク出力の精度を改善する場合には、より小さな領域を選択すべくトレーニングすることが可能である。ゲーティングノードは、入力位置情報に基づいて、対応する隠れノードがニューラルネットワークの出力に与える寄与を決定することが可能である。隠れノードの出力は出力ノードへ送ることが可能である。
ニューラルネットワークへの入力はピクセルの学習マシン入力組の色配置を特定する情報を包含することが可能である。その色配置は、ピクセルの学習マシン入力組と関連する1つ又はそれ以上の色値により特定することが可能である。その1つ又はそれ以上の色値は入力ベクトルにより特定することが可能である。ニューラルネットワークへの入力は、又、そのニューラルネットワークにより考慮中のピクセルの対応する位置を特定する情報を包含することが可能である。その位置は、カーテシアン又はその他の任意の座標系により特定することが可能である。入力ノードの数は、学習マシン入力組内に包含されているピクセルの数により決定することが可能である。即ち、入力ノードの数は、通常、学習マシン入力組の各ピクセルの色チャンネルと関連している色値の数に基づいている。
更に、入力ノードの数も考慮中のピクセルの位置を特定するために必要な座標の数に基づくことが可能である。ピクセルの学習マシン入力組の1つの例はピクセルの3×3組であり、その各々は3つの色チャンネルを包含している(赤色強度に対して1つ、緑色強度に対して1つ、青色強度に対して1つ)。従って、合計で9個の入力ピクセルが考慮される。これら9個の各々は3個の色値を包含している。従って、入力色配置を受取るために、合計で9×3、即ち27個の入力ノードが存在する。更に、考慮中のピクセルの位置を特定するために入力座標が2つの値を必要とするに過ぎない場合には、入力位置情報を受取るために2つの付加的な入力ノードが存在すべきである。従って、この例においては、ニューラルネットワークは合計で29個の入力ノードを包含する。
図3はニューラルネットワークの1つの実現例を示している。このニューラルネットワークは、ピクセルの3×3正方形に対して情報を受取る形態とされている。各ピクセルは3個の色チャンネルを有している。注目ピクセルの位置は2パラメータ座標系により特定することが可能である。従って、このネットワークは27個の入力ノード301−327(色配置情報を受取る形態とされている)及び2個の入力ノード328及び329(位置情報を受取る形態とされている)を包含している。隠れノードの各々は入力ノード301−327から入力を受取る形態とされている。各ゲーティングノードは入力ノード328及び329から入力を受取る形態とされている。説明したように、ゲーティングノードはそれにわたってそれの対応する隠れノードがアクティブである領域を選択することが可能である。
例えば、ゲーティングノード330は、入力ノード328及び329から受取った入力位置情報に基づいて、それにわたり隠れノード331がアクティブである領域を選択する。この選択は、ゲーティングノード及び隠れノードの対応する対から入力を受取る形態とされている乗算ノード332−358により行われる。例えば、ゲーティングノード330はニューラルネットワークの決定に対して出力が与える寄与を減少させる重み係数により乗算ノード358をして隠れノード331の出力を乗算させることが可能である。
出力ノード359は乗算ノードからの出力を受取り且つ第一数と第二数との間、例えば−1と1との間の浮動小数点数を出力する形態とされている。
本システムはトレーニング組を特定する第二入力を受取る(図2のステップ230)。第二入力はユーザ選択を包含することが可能である。その入力は第4領域及び第5領域を特定することが可能である。第4領域は、典型的に、前景内に位置していることが位置していることが知られているか又は位置している高い確率を有しているピクセルを包含している。これらのピクセルは前景の特性である色配置のサンプルを与える。第5領域は、典型的に、背景内に位置していることが知られているか又は位置している高い確率を有しているピクセルを包含している。これらのピクセルは背景の特性である色配置のサンプルを与える。一方、入力は境界の近似的な位置、更に、その境界のどちら側に前景が位置しているかを特定することが可能である。
本システムはニューラルネットワークをトレーニングする(ステップ240)。本システムはステップ230において受取ったトレーニング組を使用してニューラルネットワークをトレーニングする。ニューラルネットワークは後方伝播を介してそのパラメータを自己調節することによって応答し与えられたトレーニング入力に対して正しい出力を発生する。
後方伝播を使用するトレーニング方法400について以下に説明する。図4に示したように、トレーニング方法400を実施するシステムは2つのトレーニング組の要素のうちの1つから1つのトレーニング要素をランダムに選択する(ステップ410)。本システムは選択したトレーニング要素をその現在の状態でニューラルネットワークへ入力し且つこの入力に対する各ノードの応答を受取る(ステップ420)。本システムは後方伝播プロセスを実行する(ステップ430)。本システムは、最大繰り返し数に到達するまで、又はニューラルネットワークがトレーニング組に関する充分に正確な応答を与えるまで、ステップ410−430を繰り返し行う(ステップ440)。何が充分に正確であるかを構成するかは任意的に定義することが可能であり且つ、通常、手元のタスクに依存する。1つの実現例においては、本システムは、ニューラルネットワークがトレーニング組からの入力の3%未満の不正確な出力を発生するに過ぎなくなるまで、又は120,000回の繰り返しが実施されるまで、のうちのいずれか一方が最初に発生する場合に繰り返しを停止する。
ニューラルネットワークのノードは、典型的に、その計算において使用される種々の内部パラメータを包含している。これらの内部パラメータは、通常、ニューラルネットワークが正しい応答を発生する方向に向かって移動するようにトレーニングプロセスにおいて調節することが可能である。例えば、1組の内部パラメータは、1つのノードが先行するレイヤー内のノードからその入力の各々に対して与える重みである。これらの重みは、典型的に、更なる処理の前に入っている入力により乗算されるスケーリングファクタである。
後方伝播プロセスは、(1)ニューラルネットへの入力、(2)その入力に対するニューラルネット内の各ノードの実際の応答、(3)ニューラルネットの所望の出力が与えられる場合に、ノードの内部パラメータを調節することが可能である。後方伝播プロセスは、通常、例えば、1,000乃至1,000,000回ニューラルネットに対して多数回繰り返して適用されることを必要とする。
後方伝播プロセスは、通常、ノードが入力を評価する順番と反対の順番でノードに対して適用される。本システムは、最初に、後方伝播プロセスを出力ノード、例えば、最後のレイヤーL内のものへ適用し、次いで該プロセスを出力ノードへ供給するノード、例えば、レイヤーL−1内のものへ適用し、更に同じく本システムがニューラルネットワークの第一レイヤー内のノードに到達するまで行われる。
図5は出力Nから開始する後方伝播プロセス500の1例を示している。後方伝播プロセス500はトレーニング方法400のステップ430内に包含させることが可能である。各ノードの出力は、既に、計算されており且つ各ノードで格納されているものと仮定する。
本システムは変数Dを計算し、それはノードNの所望の出力と実際の出力との間の差である(ステップ510)。1つの実現例においては、
D=<所望出力>−<実際の出力>
である。ノードNの内部パラメータpに対して、本システムはpに関して出力の偏微分を計算し、他の変数はノードへの現在の入力により設定される(ステップ520)。出力をXとすると、その偏微分はdX/Dpである。本システムはpに対する増分的変化を計算する(ステップ530)。1つの実現例において、その増分的変化は以下の如くに計算される。
D=<所望出力>−<実際の出力>
である。ノードNの内部パラメータpに対して、本システムはpに関して出力の偏微分を計算し、他の変数はノードへの現在の入力により設定される(ステップ520)。出力をXとすると、その偏微分はdX/Dpである。本システムはpに対する増分的変化を計算する(ステップ530)。1つの実現例において、その増分的変化は以下の如くに計算される。
inc(p)=ga・(dX/dp)・D
尚、gaは利得パラメータである。利得gaは全てのノードに対して同じであり且つトレーニングプロセスの収束割合を決定する。その利得は、典型的に、初期的には0.1に設定される。余り高く設定されると、トレーニングは収束しない場合がある。余りに低く設定されると、トレーニングは収束するのに付加的な繰り返しを必要とする場合がある。
尚、gaは利得パラメータである。利得gaは全てのノードに対して同じであり且つトレーニングプロセスの収束割合を決定する。その利得は、典型的に、初期的には0.1に設定される。余り高く設定されると、トレーニングは収束しない場合がある。余りに低く設定されると、トレーニングは収束するのに付加的な繰り返しを必要とする場合がある。
本システムは計算された増分的変化をノードの各内部パラメータへ適用する(ステップ540)。本システムは差Dを次の上のレイヤーにおけるノードへ伝播させる(ステップ550)。ノードMに対する差がD(M)と指定すると、次式が得られる。
D(M)=D(N)・(dX/dM)
尚、D(N)は出力ノードNに対して計算された差Dであり、且つdX/dMはノードMからの入力に関してのノードNの出力の偏微分である。本システムが所望の計算ステップを実施すると、本システムはレイヤーL−1上のノードの各々に対する差値を有している。本システムは、ニューラルネットワーク内の全てのノードが処理されるまで、レイヤーLの上の次のレイヤー上の各ノードに対してステップ510−550を繰り返し行うことが可能である(ステップ560)。例えば、本システムは、レイヤーL−1上の各ノードに対してステップ510−550を繰り返し行うことが可能である。そうする場合に、本システムはレイヤーL−2上のノードに対する差値を計算することが可能であり、従って次にこれらのL−2ノードを処理することが可能である。本システムは、レイヤー1上のノードを包含するものではないがそれに至るまでの全てのノードを処理するまでこのプロセスを継続する。注意すべきことであるが、偏微分を計算することが可能である限り、ノードが実施する計算に関して何等制限は存在していない。
尚、D(N)は出力ノードNに対して計算された差Dであり、且つdX/dMはノードMからの入力に関してのノードNの出力の偏微分である。本システムが所望の計算ステップを実施すると、本システムはレイヤーL−1上のノードの各々に対する差値を有している。本システムは、ニューラルネットワーク内の全てのノードが処理されるまで、レイヤーLの上の次のレイヤー上の各ノードに対してステップ510−550を繰り返し行うことが可能である(ステップ560)。例えば、本システムは、レイヤーL−1上の各ノードに対してステップ510−550を繰り返し行うことが可能である。そうする場合に、本システムはレイヤーL−2上のノードに対する差値を計算することが可能であり、従って次にこれらのL−2ノードを処理することが可能である。本システムは、レイヤー1上のノードを包含するものではないがそれに至るまでの全てのノードを処理するまでこのプロセスを継続する。注意すべきことであるが、偏微分を計算することが可能である限り、ノードが実施する計算に関して何等制限は存在していない。
図3に示した実現例におけるように、ニューラルネットワークが4つのレイヤーを有しており且つゲーティングノードを包含している実現例においては、本システムはゲーティングノードと隠れノードの両方をレイヤー2上のノードと考えることが可能である。上述したように、ゲーティングノードが存在している場合には、ニューラルネットワークは、出力を発生するために、2つの入力、即ち対応する隠れノードからの1つと対応するゲーティングノードからの1つを乗算させる乗算ノードを包含している。ニューラルネットワークは乗算ノードを第3レイヤー上のノードと考えることが可能である。乗算ノードの出力はレイヤー4上である出力ノードへ供給される。
本システムは第一領域に位置しているか又は第二領域に位置しているかのいずれかとして第三領域のピクセルを分類するためにニューラルネットワークを使用する(図2のステップ250)。本システムはニューラルネットワークへ入力情報を供給する。その入力情報は、ピクセルの学習マシン入力組の色配置及び注目ピクセルの位置を特定する。ニューラルネットワークはその入力情報を取り且つ注目ピクセルが第一領域に位置していることの確率及び注目ピクセルが第二領域に位置していることの確率を特定する出力を発生する。その出力は第一数と第二数との間、例えば−1と1との間の浮動小数点数とすることが可能である。
本システムはニューラルネットワークにより与えられる分類をマッピングし且つ確率マスクを発生する(ステップ260)。マッピングはオフセッティングとスケーリングとを包含することが可能である。−1と1との間の数である出力が与えられると、本システムはその数へ1を加算することによりその数をオフセットさせることが可能である。本システムは、そのオフセットの結果を127.5によりスケーリングすることにより0と255との間の数を発生する。本システムはニューラルネットワークのマッピングした出力をマスクの対応するピクセルに割当てることにより確率マスクを発生する。
本システムはこの確率マスクから1つ又はそれ以上の境界マスクを画定する(ステップ270)。1つの境界マスクは第一領域又は第二領域のいずれかに位置していることのスレッシュホールド確率を満足することのないピクセルを識別する不透明度マスクとすることが可能である。例えば1/3・255と2/3・255との間の確率値を有するピクセルを識別することが可能である。第二境界マスクは、例えば、第二領域内に位置しているものとして分類することが可能なピクセル、即ち0と1/3・255との間の確率値を有するピクセルを識別する不透明度マスクとすることが可能である。第三境界マスクは、例えば第一領域内に位置しているとして分類することが可能なピクセル、即ち2/3・255と255との間の確率値を有しているピクセルを識別する不透明度マスクとすることが可能である。
本システムは第三領域のピクセルを浄化し且つ第一領域と第二領域との間の境界を鮮明なものとさせる(ステップ280)。この浄化手順の1つの実現例について以下に説明する。
浄化プロセスへの入力は、(1)通常浄化されるべきピクセルのグループにより画定される色画像、(2)前景、背景、境界への該色画像におけるピクセルの分類、を包含している。浄化されるピクセルは、ピクセルの二次元格子とすることが可能であるがそうすることが必要なものではなく、尚、各ピクセルはその位置を特定する(x,y)座標を有している。その分類は、ステップ270において画定された1つ又はそれ以上の境界マスクにより与えることが可能である。
浄化プロセスの出力は、(1)修正された色画像、(2)不透明度マスクを包含している。この不透明度マスクは、色画像と同一の寸法を有しているが、その代わりに、各位置に格納した色値を有する画像とすることが可能であり、その色画像における対応するピクセルの不透明度として解釈される単一のスカラー値が存在している。不透明度値が可及的に最大値、この場合には255である場合には、対応する色ピクセルは全く不透明であると考えられる。その不透明値が可及的に最小、この場合には0である場合には、対応する色ピクセルは全く透明であると考えられる。中間の値は中間の不透明度に対応する。
図6は例示的な浄化プロセス600を示しており、それはステップ280内に包含させることが可能である(図2)。色画像における各位置Pに対して、Pが前景、背景、境界のどこにあるかに関しての分類を検討する(ステップ610)。Pが前景内にある場合には、不透明度マスク内の対応するピクセルを可及的に最大の値、例えば255へ初期化させる(ステップ620)。Pが背景内にある場合には、不透明度マスク内の対応するピクセルを可及的に最小の値、例えば0へ初期化させる(ステップ630)。その位置が境界内にある場合には、以下のステップを実行する。即ち、(1)背景内にあるPに最も近い位置を見つけ出し且つこの位置をBと呼ぶ(ステップ640)。(2)前景内にあるPに最も近い位置を見つけ出しこの位置をFと呼ぶ(ステップ650)。
浄化プロセス期間中、本システムは、以下に説明する色計算を包含する色計算を実施することが可能である。位置Xにおける色を示すためにC(X)を使用する。典型的に、C(X)は1乃至4個の数を包含することが可能であり、これらの数はその色に対する種々の色チャンネルの値である。例えば、典型的な色は3個のチャンネル{r,g,b}から構成されており、それは、夫々、赤色成分、緑色成分、青色成分の強度を与える。以下の例において、色はこれらの3個{r,g,b}のチャンネルから構成されているものと仮定する。
本プロセスは任意の数の成分を有する色に対して一般化することが可能である。本システムが実施することが必要となる可能性のある1つの操作は、2つの色、即ちC1={r1,g1,b1}及びC2={r2,g2,b2}の間の差を測定することである。この差は(r1−r2)2+(g1−g2)2+(b1−b2)2として計算することが可能であり、それはD(C1,C2)として示される。本システムが実施することが必要となる場合のある別の操作は、補間定数aを使用して2つの色C1及びC2の間を線形補間することである。この色補間操作は、以下の入力から3番目の色C3={r3,g3,b3}を返すものである。
r3=a・r1+(1−a)・r2
g3=a・g1+(1−a)・g2
b3=a・b1+(1−a)・b2
その結果得られる色はLRB(C1,C2,a)として示される。
g3=a・g1+(1−a)・g2
b3=a・b1+(1−a)・b2
その結果得られる色はLRB(C1,C2,a)として示される。
本システムは、差D(C(P),LRB(C(F),C(B),a))を最小とする0と1との間のスカラー値Aを計算することが可能である(図6のステップ660)。
上述した計算は、色をベクトル空間内の点として考え(ベクトル空間座標として色チャンネル値を使用し)且つC(P)に最も近いC(B)からC(F)へのこの色ベクトル空間内の線上の点を見つけ出すことにより直接的に実施することが可能である。このプロセスは、以下の如くにして解析幾何学により説明することが可能である。
(i)C(F)とC(B)を介しての無限の線上に垂直にC(P)を投影し且つこの投影した点(色)をKと呼ぶ。
(ii)KがC(F)からC(B)への線セグメントの端点の間に存在する場合には、aはC(F)からC(B)へのユークリッド距離に対するKからC(B)へのユークリッド距離の比である。
(iii)KがC(F)の側部上のこの線セグメントの外側に存在する場合にはaは1である。KがC(B)により近いセグメントの外側にある場合には、aは0である。注意すべきことであるが、ユークリッド距離は差Dの平方根と同じである。
ステップ640,650,660の計算が完了すると、本システムは以下の如くにして位置Pに対する浄化計算を終了することが可能である。新たな色C(F)が位置Pにおける色画像へ割当てられる(ステップ670)。a・255の値が位置Pにおける不透明度マスクへ割当てられる(ステップ680)。aを255へ乗算する。何故ならば、説明した実現例においては、マスク内の可能な値の範囲は0から255の範囲だからである。上述したものと同様の浄化プロセスは1999年4月26に出願された「不確実なピクセルの領域内の本来的ピクセル色の識別(Identifying Intrinsic Pixel Colors in a Region of Uncertain Pixels)」という名称の本願出願人に譲渡されている米国特許出願第09/298,872号に記載されており、尚その特許出願を引用により本明細書に取込む。
説明した浄化方法を改善することが可能である。オリジナルの色画像のコピーを作ることが可能である。このコピーにおいて、前景位置及び背景位置における色を平滑化させる。前景内の各位置Pに対し、本システムは色C(P)を前景内にあるPのある固定した距離内の全ての色の平均で置換させることが可能である。この平均は加重平均とすることが可能であり、その場合に、重みはPにより近い位置に対してより大きい。例えば、加重平均を決定するためにガウス関数を使用することが可能である。本システムは、背景内の各位置Pに対して同様の操作を実施することが可能である。C(b)は背景内にありPに対してある距離内にある色の加重平均で置換される。上に使用した最大平均距離は、2から100の範囲内とすることが可能であるが、典型的に、約20ピクセルである。その結果得られる画像コピーはオリジナル画像の平滑化したものである。
上述した浄化方法を修正することが可能である。境界内の1つの位置を浄化する場合に、本システムは上述したように位置F及びBを見つけ出すことが可能である。然しながら、aを計算する場合に、本システムは、オリジナルの画像からではなく平滑化したコピーからC(F)及びC(B)を取ることが可能である。その結果得られるカラーC(F)は未だにオリジナルの色画像内に格納される。
本システムは浄化から発生されたマスクをステップ260において発生された確率マスクと乗算させる(図2のステップ290)。この積は、浄化方法の修正した画像に適用された場合に、第一領域の孤立されたものを発生するマスクを発生する。本システムは、注目オブジェクトを抽出するために適宜その他の領域をセグメント化するためにステップ220−290を繰り返すことが可能である。抽出されると、本システムは、ユーザ入力を受取り且つそのオブジェクトをこれらのユーザ入力に従って修正することが可能である。一方、本システムは、確率マスクを浄化から発生したマスクと乗算させることが可能である。
図7A及び7Bは上述した如くに実施される抽出プロセスの1例を例示している。図7Aは背景に対しての人の色画像を示している。ユーザは上述したシステムを使用して背景からその人を抽出することを所望する。図7Bに示したように、ユーザはサンプル領域702及び704をハイライトさせるために青色ハイライトブラシを使用して前景の色配置のサンプルを与える。2つの前景色配置が存在しており、即ちその人の洋服の豹パターンにより示されるものとその人の皮膚により示される2番目のものである。ユーザはサンプル領域706をハイライトさせるために赤色のハイライトブラシを使用することにより背景の色配置のサンプルを与える。この背景の色配置は、図示したシマウマパターンにより示されている。次いで、本システムは前景と背景との間の境界を探知し且つ前景を抽出する。図7Cはその抽出結果を示している。
図7D及び7Eは、同一の入力色画像が与えられた場合の別の抽出プロセスを示している(即ち、図7Aに示したもの)。図7Dに示したように、ユーザは境界を包含する領域708をハイライトさせるために緑色のハイライトブラシを使用することにより分離されるべき領域の間の境界を粗く表示することが可能である。次いで、ユーザはその境界の一方の側をクリックし、クリックした側が前景であることを表わす。図7Eに示したように、クリックされた側は青色のハイライトで充填される。その抽出プロセスの結果を図7Cに示してある。
図8及び9はニューラルネットワークの出力を発生する計算プロセスの例を示している。ピクセルの学習マシン入力組はピクセルのs×s配置であり、尚sは奇数である。画像内のピクセルはRGB色空間内にあるものと仮定され、従って、各ピクセルは3個の色値を包含している。R(x,y)は位置(x,y)における画像の赤色成分の値を示している。同様に、G(x,y)及びB(x,y)は、夫々、緑色成分及び青色成分を示している。その画像がより多くの又はより少ない色成分を有している場合には、以下のステップ1を修正して入力ベクトルから値を付加又は除去することが可能である。
図8は、ニューラルネットワークがゲーティングノードを包含するものではない場合に使用される第一計算プロセス800を示している。この第一計算プロセス800は4つのステップを包含している。位置(u,v)におけるピクセルに対するニューラルネットワークへの入力は以下の如くである。
x=u−(s−1)/2乃至x=u+(s−1)/2に対して及びy=v−(s−1)・2乃至y=v+(s−1)/2に対して、R(x,y)、G(x,y)、B(x,y)である。これらの3・s2個の数はAとして示される入力ベクトル内に集められる。入力ベクトルにおいて3・s2個の数が現れる順番は重要ではない。然しながら、一度確立されると、その順番はその後の計算プロセスに対して維持されるべきである。
入力ベクトルAにおける値は0乃至1の範囲でスケーリングされる(ステップ802)。1つの実現例においては、画像から直接取られた値は0から255の範囲にあり、従ってスケーリングステップはAにおける各値を1.0/255.0と乗算する。即ち以下の如くである。
A(i)=(1/255)・A(j) 尚、j=1乃至3・s2
入力ベクトルAに対して超球面マッピング変換を適用する(ステップ804)。この変換は、長さmの任意のベクトルVに対して適用することが可能なサブルーチンとして実現することが可能である(何故ならば、このシステムは以下の如く変換を別意に使用することを必要とするからである)。
入力ベクトルAに対して超球面マッピング変換を適用する(ステップ804)。この変換は、長さmの任意のベクトルVに対して適用することが可能なサブルーチンとして実現することが可能である(何故ならば、このシステムは以下の如く変換を別意に使用することを必要とするからである)。
超球面マッピング変換は以下の如くに実施される。ベクトルVを端部において更にこの要素を包含するように拡張し、且つこの付加した要素に1.0の値を与える。次いで、次式に従ってこの新たに増やしたベクトルのユークリッド長さを計算する。
次いで、その長さの逆数によりベクトルVの全ての要素をスケーリングする。
V(j)=(1/L)・V(j) 尚j=1乃至m+1
ベクトルAに対して超球面マッピングステップを適用した結果、ベクトルAは3・S2+1の長さを有している。
ベクトルAに対して超球面マッピングステップを適用した結果、ベクトルAは3・S2+1の長さを有している。
各隠れノードに対する出力値を計算する(ステップ806)、全ての隠れノードは、それらの内部パラメータの状態を除いて、同一なものであるから、典型的な隠れノードの計算のみについて説明する。隠れノードは1からHへ番号が付けられており、尚Hは隠れノードの総数である。隠れノード番号kが与えられる。隠れノードKはベクトルWkに包含している3・s2+1個の内部パラメータ(入力に対応している)及び更にもう1個の内部パラメータbkを有している。ノード番号kの出力は次式のとおりである。
尚、Tanhは双曲線正接関数であり且つQは全ての隠れノードの出力を表わすベクトルである。
出力ノードの出力を計算する(ステップ808)。出力ノードは、それが各隠れノードからの入力を取ることを除いて、隠れノードに類似している。従って、最終的な計算は以下の如くである。
尚、W0及びb0は出力ノードに対する内部パラメータであり且つRは最終出力である。
図9は、ニューラルネットワークがゲーティングノードを使用している場合に使用される第二計算プロセス900を示している。第二計算プロセス900は6つのステップを包含している。
入力ベクトルAにおける値は0から1の範囲にスケーリングされる(ステップ902)。ステップ902は、それが考慮中のピクセルの位置を特定する2つの新しい値を入力ベクトルへ付加することにより修正される点を除いて、ステップ802と類似している。これらの値は以下の如くに計算される。
Sx=x/MaxX
Sy=y/MaxY
尚、Sx及びSyは2つの新たな位置成分であり且つMaxXは画像内の任意のピクセルの最大x座標であり且つMaxYは入力画像内の任意のピクセルの最大y座標である。この計算はピクセル座標を0から1の範囲へスケーリングさせる。その後のステップに対して、Sx及びSyが入力ベクトルの終わりに付加されることが重要である。
Sy=y/MaxY
尚、Sx及びSyは2つの新たな位置成分であり且つMaxXは画像内の任意のピクセルの最大x座標であり且つMaxYは入力画像内の任意のピクセルの最大y座標である。この計算はピクセル座標を0から1の範囲へスケーリングさせる。その後のステップに対して、Sx及びSyが入力ベクトルの終わりに付加されることが重要である。
超球面マッピング変換を入力ベクトルAに対して適用する(ステップ904)。ステップ904は、以下の点を除いてステップ804に類似している。入力ベクトルAを2つのベクトルへ分解する、即ち、s2個の色値からなるBで示されるもの及び2個の位置の値からなるCで示される2番目のものである。次いで、上述した超球面マッピング変換をB及びCの各々へ適用し、夫々に別々に長さs2+1及び3の新たなベクトルを発生する。
各隠れノードに対する出力値を計算する(ステップ906)。ステップ906は、入力がAベクトルからではなくBベクトルから来る点を除いて、ステップ806と類似している。その出力値は以下の如くに定義される。
ゲーティングノードの出力を計算する(ステップ908)。ゲーティングノードは、内部Wパラメータが長さ3のものである点を除いて、隠れノードに類似している。k番目の隠れノードの内部パラメータと区別するために、ゲーティングノードにおけるW及びbに対してk+Hの添え字を使用する。更に、ゲーティングノードはCベクトルから入力を取る。k番目のゲーティングノードの出力をS(k)と呼ぶ。ゲーティングノードの出力に対する計算は以下の如くである。
乗算ノードの出力を計算する(ステップ910)。各隠れノード/ゲーティングノードの対に対して1個の乗算ノードが存在している。k番目の乗算ノードの出力をT(k)として示すと、
T(k)=Q(k)・S(k)
である。
T(k)=Q(k)・S(k)
である。
出力ノードの出力を計算する(ステップ912)。ステップ912はステップ808に類似している。唯一の差は、その出力ノードが乗算ノードから入力を取ることである。
本発明の方法ステップは、入力データを操作し且つ出力を発生することにより本発明の機能を実施するコンピュータプログラムを実行する1つ又はそれ以上のプログラム可能なプロセッサにより実施することが可能である。方法ステップは、又、特別目的論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)、ASIC(応用特定集積回路)、又はグラフィックス処理ユニットにより実施することが可能であり、且つ本発明装置はそれらのものと実現することが可能である。
コンピュータプログラムの実行にとって適切なプロセッサは例示として、汎用及び特別目的マイクロプロセッサの両方、及び任意の種類のデジタルコンピュータの1つ又はそれ以上のプロセッサを包含する。通常、プロセッサはリードオンリメモリ又はランダムアクセスメモリ又は両方から命令及びデータを受取る。コンピュータの基本的な要素は、命令を実行するためのプロセッサと、命令及びデータを格納するための1個又はそれ以上のメモリ装置である。通常、コンピュータは、又、例えば磁気的、磁気光学的ディスク、又は光学的ディスク等のデータを格納するための1個又はそれ以上の大量記録装置を包含しているか、またはそれからデータを受取るため又はそれへデータを転送するため、又はその両方のために動作結合される。コンピュータプログラム命令及びデータを実現するのに適した情報担体は、例示として、例えばEPROM、EEPROM、フラッシュメモリ装置等の半導体メモリ装置、例えば内部ハードディスク又は着脱自在ディスク等の磁気ディスク、磁気光学的ディスク、CD−ROM及びDVD−ROMディスクを包含する全ての形態の非揮発性記録装置を包含する。プロセッサ及びメモリは特別目的論理回路により補充されるか又はその中に組込むことが可能である。
ユーザとの相互作用を与えるために、本発明は、ユーザに対する情報を表示するための例えばCRT(陰極線管)又はLCD(液晶ディスクプレイ)モニタ等のディスプレイ装置、及びそれによりユーザがコンピュータへ入力を供給することが可能なキーボード及び例えばマウス又はトラックボール等のポインティング装置を具備するコンピュータ上で実現することが可能である。その種類の装置をユーザとの相互作用を与えるために使用することも可能であり、例えば、ユーザへ与えられるフィードバックは例えば視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバックの任意の形態とすることが可能であり、且つユーザからの入力は音響的、会話的、又は触覚的入力を包含する任意の形態で受取ることが可能である。
本発明は、例えばデータサーバーとしてバックエンドコンポーネントを包含するか、又は例えばアプリケーションサーバー等のミドルウエアコンポーネントを包含するか、又は例えばグラフィカルユーザインターフェースを具備するクライエントコンピュータ又はそれを介してユーザが本発明の実現例と相互作用することが可能なウエブブラウザ等のフロントエンドコンポーネントを包含するか、又はこのようなバックエンド、ミドルウエア、フロントエンドコンポーネントの任意の組合わせを包含する計算システムにおいて実現することが可能である。本システムのコンポーネントは、例えば通信ネットワーク等のデジタルデータ通信の任意の形態又は媒体により相互接続することが可能である。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)及びインターネット等のワイドエリアネットワーク(WAN)等がある。
該計算システムはクライエントとサーバーとを包含することが可能である。クライエント及びサーバーは、通常、互いに離れており且つ典型的に通信ネットワークを介して相互作用を行う。クライエント及びサーバーの関係は夫々のコンピュータ上で稼動するコンピュータプログラム及び互いにクライエント・サーバー関係を有することにより表われる。
以上、本発明の具体的実施の態様について詳細に説明したが、本発明は、これら具体例にのみ制限されるべきものではなく、本発明の技術的範囲を逸脱することなしに種々の変形が可能であることは勿論である。
301−329 入力ノード
330 ゲーティングノード
331 隠れノード
358 乗算ノード
330 ゲーティングノード
331 隠れノード
358 乗算ノード
Claims (32)
- デジタル画像の第一領域と第二領域とを分離する境界を画定する方法において、前記デジタル画像は前記第一領域の特性である1つ又はそれ以上の色配置及び前記第二領域の1つ又はそれ以上の色配置を包含しており、
前記色配置の1つ又はそれ以上に基づいて、前記画像のどのピクセルが前記第一領域と関連するものとして分類するための基準を満足するか否かを学習マシンを使用して決定し、
前記色配置の1つ又はそれ以上に基づいて、前記画像のどのピクセルが前記第二領域と関連するものとして分類するための基準を満足するかを学習マシンを使用して決定し、
前記第一領域か又は前記第二領域のいずれかと関連するものとして分類するための基準を満足するものではないとして決定される前記画像のピクセルを識別し、
前記第一及び第二領域の間の境界を画定するために前記識別したピクセルを浄化する、
ことを特徴とする方法。 - 請求項1において、前記学習マシンにより考慮中のピクセルが複数のピクセルの対応する近傍と関連しており、本方法が、更に、
ピクセルの対応する近傍の色配置を特定する入力情報を前記学習マシンへ供給する、
ことを包含しており、前記学習マシンが、前記第一領域か又は前記第二領域のいずれかと関連するものとして、ピクセルの対応する近傍の色配置に基づいて、前記考慮中のピクセルを分類すべく形態とされている方法。 - 請求項2において、色配置が視覚的テクスチャを表わす方法。
- 請求項2において、前記学習マシンがサポートベクトルマシンである方法。
- 請求項2において、前記学習マシンがニューラルネットワークである方法。
- 請求項2において、前記学習マシンが、前記考慮中のピクセルを分類する出力を供給すべく形態とされており、前記出力が、前記ピクセルが前記第一領域と関連している確率及び前記ピクセルが前記第二領域と関連している確率を表わす方法。
- 請求項6において、前記出力が低い数と高い数との間の浮動小数点数であり、前記低い数は前記ピクセルが前記第二領域と関連している100%の確率を表わし、且つ前記高い数は前記ピクセルが前記第一領域と関連している100%の確率を表わす方法。
- 請求項7において、前記低い数が−1であり且つ前記高い数が1である方法。
- 請求項7において、更に、
前記浮動小数点数を第一整数と第二整数との間の整数へ変換し、前記第一整数は前記ピクセルが前記第二領域と関連している100%の確率を表わし、且つ前記第二整数は前記ピクセルが前記第一領域と関連している100%の確率を表わす方法。 - 請求項9において、前記第一整数が0であり且つ前記第二整数が255である方法。
- 請求項9において、
前記第一領域と関連しているものとして分類するための基準が第一スレッシュホールドを超える整数を有することを包含しており、
前記第二領域と関連するものとして分類するための基準が第二スレッシュホールド未満を整数を有することを包含している、
方法。 - 請求項11において、前記第一スレッシュホールドが170であり且つ前記第二スレッシュホールドが85である方法。
- 請求項1において、更に、ピクセルを分類するために前記学習マシンをトレーニングすることを包含している方法。
- 請求項13において、トレーニングが、ユーザ入力に基づいて、前記ニューラルネットワークを訓練するために使用されるトレーニング用の組のピクセルを選択することを包含している方法。
- 請求項14において、前記選択されたトレーニング用の組のピクセルが、前記境界の特定の範囲内に位置しているピクセルを包含している方法。
- 請求項15において、前記特定の範囲が前記境界のいずれかの側から20個のピクセルである方法。
- 請求項1において、前記ピクセルの近傍が、ピクセルの3×3正方形、ピクセルの5×5正方形、ピクセルの7×7正方形のうちの1つである方法。
- 請求項17において、前記考慮中のピクセルが前記ピクセルの近傍の中心に位置している方法。
- 請求項1において、前記学習マシンがニューラルネットワークであり、
前記ニューラルネットワークが隠れノードとゲーティングノードとを包含しており、
ゲーティングノードは対応する隠れノードと関連しており、前記ゲーティングノードは、考慮中のピクセルの位置に基づいて、対応する隠れノードが前記ニューラルネットワークの出力に与える寄与を決定すべく形態とされている、
方法。 - 請求項1において、更に、
前記デジタル画像のどのピクセルが前記識別されたピクセルであるかを表わす境界マスクを前記識別されたピクセルから構築する、
ことを包含している方法。 - 請求項1において、浄化を行うことにより不透明マスクを発生し、本方法が、更に、
前記識別されたピクセルから確率マスクを構築し、
前記不透明マスクと前記確率マスクとを結合させる、
ことを包含している方法。 - 前記不透明マスクと前記確率マスクとを結合することが、前記不透明マスクを前記確率マスクと乗算させることを包含している方法。
- 請求項1において、前記第一領域が前記画像の前景であり且つ前記第二領域が前記画像の背景であり、且つ浄化を行うことが、
前記識別されたピクセルから前景色を有することのないピクセルを排除し、
前記識別されたピクセルが変化された後に前景色のみを包含するように前景色と背景色の両方を包含するピクセルの色を変化させる、
ことを包含している方法。 - デジタル画像の第一領域と第二領域とを分離する境界を画定する方法において、
ニューラルネットワークの出力に基づいて、前記画像のどのピクセルが前記第一領域と関連するものとして分類するための基準を満足するかを決定し、
前記ニューラルネットワークの出力に基づいて、前記画像のどのピクセルが前記第二領域と関連するものとして分類するための基準を満足するかを決定する、
ことを包含しており、前記ニューラルネットワークが対応する隠れノードと関連するゲーティングノードを包含しており、前記ゲーティングノードが、考慮中のピクセルの位置に基づいて、前記対応する隠れノードが前記ニューラルネットワークの出力に与える寄与を決定すべく形態とされている方法。 - 請求項24において、前記考慮中のピクセルが色配置を示すピクセルの対応する近傍と関連しており、本方法が、更に、
前記考慮中のピクセルの位置及びピクセルの対応する近傍の色配置を特定する情報を前記ニューラルネットワークへ供給する、
ことを包含しており、前記ニューラルネットワークは、前記考慮中のピクセルが前記第一領域と関連していることの確率及び前記考慮中のピクセルが前記第二領域と関連していることの確率を表わす出力を供給する形態とされている方法。 - 請求項25において、
前記ピクセルの近傍がピクセルの3×3正方形、ピクセルの5×5正方形、ピクセルの7×7正方形のうちの1つであり、
前記考慮中のピクセルが前記ピクセルの正方形の中心に位置している、
方法。 - 請求項24において、更に、
前記考慮中のピクセルの位置に基づいて、前記隠れノードが前記ニューラルネットワークの出力へ与える寄与を決定するために前記ゲーティングノードをトレーニングする、
ことを包含している方法。 - 請求項27において、更に、
ピクセルを前記第一領域と関連しているか又は前記第二領域と関連しているかのいずれかとしてピクセルを分類するために前記隠れノードをトレーニングし、前記隠れノードのトレーニングが前記ゲーティングノードのトレーニング期間中に発生する方法。 - 請求項24において、前記ニューラルネットワークが、
前記考慮中のピクセルの位置を特定する入力情報を受取り且つ前記入力情報を前記ゲーティングノードへ供給すべく形態とされている入力ノード、
を包含している方法。 - 請求項24において、前記ニューラルネットワークが、
ピクセルの対応する近傍の色配置を特定する入力情報を受取り且つ前記対応する隠れノードへ前記入力情報を供給すべく形態とされている入力ノード、
を包含している方法。 - 各領域がその領域の特性である1つ又はそれ以上の色配置を包含している第一領域及び第二領域をセグメント化するための機械読取可能な媒体上にタンジブルに格納されているコンピュータプログラムプロダクトにおいて、プロセッサをして、
前記色配置の1つ又はそれ以上に基づいて、前記画像のどのピクセルが前記第一領域と関連するものとしての分類のための基準を満足するかを決定し、
前記色配置の1つ又はそれ以上に基づいて、前記画像のどのピクセルが前記第二領域と関連するものとしての分類のための基準を満足するかを決定し、
前記第一領域又は前記第二領域のいずかに位置しているものとして分類するための基準を満足することのないものと決定された前記画像のピクセルを識別し、
前記境界を画定するために前記識別されたピクセルを浄化させる、
べく動作可能な命令を包含しているコンピュータプログラムプロダクト。 - 各領域が前記領域の特性である1つ又はそれ以上の色配置を包含している第一領域及び第二領域をセグメント化するために機械読取可能な媒体上にタンジブルに格納されているコンピュータプログラムプロダクトにおいて、プロセッサをして、
前記第一領域の一部を選択する入力及び前記第二入力の一部を選択する入力を受取り、
前記入力及び前記第一及び第二領域の色配置に基づいて、前記第一領域内に位置されているピクセルを識別し、
前記入力及び前記第一及び第二領域の色配置に基づいて、前記第二領域内に位置されているピクセルを識別する、
べく動作可能な命令を包含しているコンピュータプログラムプロダクト。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/693,295 US7295700B2 (en) | 2003-10-24 | 2003-10-24 | Object extraction based on color and visual texture |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005129065A true JP2005129065A (ja) | 2005-05-19 |
Family
ID=34394587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004309880A Pending JP2005129065A (ja) | 2003-10-24 | 2004-10-25 | 色及び視覚的テクスチャに基づいたオブジェクト抽出 |
Country Status (3)
Country | Link |
---|---|
US (2) | US7295700B2 (ja) |
EP (1) | EP1526481A3 (ja) |
JP (1) | JP2005129065A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017524404A (ja) * | 2014-06-12 | 2017-08-31 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 画像をセグメント化するためのパラメータの最適化 |
JP2020025780A (ja) * | 2018-08-14 | 2020-02-20 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
KR20200046487A (ko) * | 2018-10-24 | 2020-05-07 | 아주대학교산학협력단 | 사용자 단말, 서버 및 이를 포함하는 클라이언트 서버 시스템 |
JP2022008868A (ja) * | 2018-08-14 | 2022-01-14 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
WO2022187079A1 (en) * | 2021-03-04 | 2022-09-09 | Applied Materials, Inc. | Pixel and region classification of film non-uniformity based on processing of substrate images |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805003B1 (en) | 2003-11-18 | 2010-09-28 | Adobe Systems Incorporated | Identifying one or more objects within an image |
US7609894B2 (en) * | 2004-02-17 | 2009-10-27 | Corel Corporation | Adaptive sampling region for a region editing tool |
US7697785B2 (en) * | 2004-03-31 | 2010-04-13 | Fuji Xerox Co., Ltd. | Generating a highly condensed visual summary |
US7724959B2 (en) | 2004-09-23 | 2010-05-25 | Fuji Xerox Co., Ltd. | Determining regions of interest in photographs and images |
US7848567B2 (en) * | 2004-09-23 | 2010-12-07 | Fuji Xerox Co., Ltd. | Determining regions of interest in synthetic images |
US7519220B2 (en) * | 2004-11-15 | 2009-04-14 | Siemens Medical Solutions Usa, Inc. | GPU accelerated isoperimetric algorithm for image segmentation, digital photo and video editing |
GB0510793D0 (en) * | 2005-05-26 | 2005-06-29 | Bourbay Ltd | Segmentation of digital images |
JP2007221182A (ja) * | 2006-02-14 | 2007-08-30 | Fuji Xerox Co Ltd | 画像処理装置、画像処理プログラムおよび画像処理方法 |
US8625885B2 (en) | 2006-03-23 | 2014-01-07 | Intelliscience Corporation | Methods and systems for data analysis and feature recognition |
US20070244844A1 (en) * | 2006-03-23 | 2007-10-18 | Intelliscience Corporation | Methods and systems for data analysis and feature recognition |
US8549022B1 (en) | 2007-07-02 | 2013-10-01 | Datascout, Inc. | Fingerprint generation of multimedia content based on a trigger point with the multimedia content |
US9020964B1 (en) | 2006-04-20 | 2015-04-28 | Pinehill Technology, Llc | Generation of fingerprints for multimedia content based on vectors and histograms |
US7991206B1 (en) | 2007-07-02 | 2011-08-02 | Datascout, Inc. | Surrogate heuristic identification |
US8463000B1 (en) | 2007-07-02 | 2013-06-11 | Pinehill Technology, Llc | Content identification based on a search of a fingerprint database |
US8156132B1 (en) * | 2007-07-02 | 2012-04-10 | Pinehill Technology, Llc | Systems for comparing image fingerprints |
US7840540B2 (en) * | 2006-04-20 | 2010-11-23 | Datascout, Inc. | Surrogate hashing |
US7916924B2 (en) * | 2006-09-19 | 2011-03-29 | Primax Electronics Ltd. | Color processing method for identification of areas within an image corresponding to monetary banknotes |
US8175992B2 (en) | 2008-03-17 | 2012-05-08 | Intelliscience Corporation | Methods and systems for compound feature creation, processing, and identification in conjunction with a data analysis and feature recognition system wherein hit weights are summed |
US8175384B1 (en) * | 2008-03-17 | 2012-05-08 | Adobe Systems Incorporated | Method and apparatus for discriminative alpha matting |
US20090315910A1 (en) * | 2008-06-20 | 2009-12-24 | University Of Delaware | Systems and methods for obtaining an image alpha matte |
US8428348B2 (en) | 2009-04-15 | 2013-04-23 | Microsoft Corporation | Image analysis through neural network using image average color |
JP2011034178A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 画像処理装置および画像処理方法、並びにプログラム |
JP5089713B2 (ja) * | 2010-01-18 | 2012-12-05 | シャープ株式会社 | 画像圧縮装置、圧縮画像出力装置、画像圧縮方法、コンピュータプログラム及び記録媒体 |
US9070011B2 (en) | 2010-06-18 | 2015-06-30 | Csr Imaging Us, Lp | Automated segmentation tuner |
WO2012012555A1 (en) * | 2010-07-20 | 2012-01-26 | SET Corporation | Methods and systems for audience digital monitoring |
US8884980B2 (en) * | 2010-09-24 | 2014-11-11 | Taaz, Inc. | System and method for changing hair color in digital images |
EP2463821A1 (en) * | 2010-12-08 | 2012-06-13 | Alcatel Lucent | Method and system for segmenting an image |
KR20140031201A (ko) | 2011-02-24 | 2014-03-12 | 쓰리엠 이노베이티브 프로퍼티즈 캄파니 | 웨브 기반 재료 내의 불균일성의 검출 시스템 |
US8903167B2 (en) | 2011-05-12 | 2014-12-02 | Microsoft Corporation | Synthesizing training samples for object recognition |
WO2013040673A1 (en) | 2011-09-19 | 2013-03-28 | The University Of British Columbia | Method and systems for interactive 3d image segmentation |
US9123174B2 (en) * | 2012-04-03 | 2015-09-01 | Ppg Industries Ohio, Inc. | Method and apparatus for displaying a simulated application of at least one coating to a digital image |
JP6188400B2 (ja) * | 2013-04-26 | 2017-08-30 | オリンパス株式会社 | 画像処理装置、プログラム及び画像処理方法 |
US9288462B2 (en) * | 2013-09-06 | 2016-03-15 | Imatte, Inc. | Conversion of an image to a transparency retaining readability and clarity of detail while automatically maintaining color information of broad areas |
US9514558B2 (en) * | 2013-09-06 | 2016-12-06 | Imatte, Inc. | Method for preventing selected pixels in a background image from showing through corresponding pixels in a transparency layer |
US20150089446A1 (en) * | 2013-09-24 | 2015-03-26 | Google Inc. | Providing control points in images |
WO2015186341A1 (ja) * | 2014-06-03 | 2015-12-10 | 日本電気株式会社 | 画像処理システム、画像処理方法及びプログラム記憶媒体 |
US11151630B2 (en) * | 2014-07-07 | 2021-10-19 | Verizon Media Inc. | On-line product related recommendations |
CN105095911B (zh) * | 2015-07-31 | 2019-02-12 | 小米科技有限责任公司 | 敏感图片识别方法、装置以及服务器 |
CN105138963A (zh) * | 2015-07-31 | 2015-12-09 | 小米科技有限责任公司 | 图片场景判定方法、装置以及服务器 |
US11568627B2 (en) | 2015-11-18 | 2023-01-31 | Adobe Inc. | Utilizing interactive deep learning to select objects in digital visual media |
US10192129B2 (en) * | 2015-11-18 | 2019-01-29 | Adobe Systems Incorporated | Utilizing interactive deep learning to select objects in digital visual media |
LU92941B1 (en) * | 2016-01-11 | 2017-08-04 | Tarkett Gdl Sa | Surface covering production method using digital printing |
US10613727B2 (en) | 2016-02-19 | 2020-04-07 | Ppg Industries Ohio, Inc. | Color and texture match ratings for optimal match selection |
US9818205B2 (en) | 2016-02-19 | 2017-11-14 | Ppg Industries Ohio, Inc. | Simplified texture comparison engine |
US10839573B2 (en) * | 2016-03-22 | 2020-11-17 | Adobe Inc. | Apparatus, systems, and methods for integrating digital media content into other digital media content |
KR102399535B1 (ko) | 2017-03-23 | 2022-05-19 | 삼성전자주식회사 | 음성 인식을 위한 학습 방법 및 장치 |
US10572988B1 (en) | 2017-06-19 | 2020-02-25 | A9.Com, Inc. | Capturing color information from a physical environment |
JP6956533B2 (ja) * | 2017-06-22 | 2021-11-02 | 任天堂株式会社 | 情報処理プログラム、情報処理装置、情報処理装置の制御方法および情報処理システム |
US11244195B2 (en) | 2018-05-01 | 2022-02-08 | Adobe Inc. | Iteratively applying neural networks to automatically identify pixels of salient objects portrayed in digital images |
US11282208B2 (en) * | 2018-12-24 | 2022-03-22 | Adobe Inc. | Identifying target objects using scale-diverse segmentation neural networks |
US11200678B2 (en) | 2019-09-17 | 2021-12-14 | Sony Corporation | Image-based mask frame interpolation |
RU2726185C1 (ru) * | 2020-01-21 | 2020-07-09 | Общество с ограниченной ответстсвенностью «Аби Продакшн» | Детектирование и идентификация объектов на изображениях |
US11335004B2 (en) | 2020-08-07 | 2022-05-17 | Adobe Inc. | Generating refined segmentation masks based on uncertain pixels |
US11676279B2 (en) | 2020-12-18 | 2023-06-13 | Adobe Inc. | Utilizing a segmentation neural network to process initial object segmentations and object user indicators within a digital image to generate improved object segmentations |
CN112766199B (zh) * | 2021-01-26 | 2022-04-29 | 武汉大学 | 基于自适应多尺度特征提取模型的高光谱图像分类方法 |
US11875510B2 (en) | 2021-03-12 | 2024-01-16 | Adobe Inc. | Generating refined segmentations masks via meticulous object segmentation |
US12020400B2 (en) | 2021-10-23 | 2024-06-25 | Adobe Inc. | Upsampling and refining segmentation masks |
WO2023133416A1 (en) * | 2022-01-04 | 2023-07-13 | Ohio State Innovation Foundation | Detecting 3d model clones in mobile games |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003157438A (ja) * | 2001-09-13 | 2003-05-30 | Eastman Kodak Co | 画像中で素材の領域を検出する方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5724487A (en) * | 1995-07-07 | 1998-03-03 | Streit; Roy L. | Neural network for maximum likelihood classification with supervised and unsupervised training capability |
IL114839A0 (en) * | 1995-08-04 | 1997-02-18 | Spiegel Ehud | Apparatus and method for object tracking |
US5825929A (en) * | 1995-10-05 | 1998-10-20 | Microsoft Corporation | Transformation block optimization method |
US5912994A (en) * | 1995-10-27 | 1999-06-15 | Cerulean Colorization Llc | Methods for defining mask of substantially color-homogeneous regions of digitized picture stock |
US5960111A (en) * | 1997-02-10 | 1999-09-28 | At&T Corp | Method and apparatus for segmenting images prior to coding |
US6381363B1 (en) * | 1999-03-15 | 2002-04-30 | Grass Valley (U.S.), Inc. | Histogram-based segmentation of images and video via color moments |
EP1049047B1 (en) * | 1999-04-26 | 2006-09-20 | Adobe Systems, Inc. | Identifying intrinsic pixel colors in a region of uncertain pixels |
KR100294924B1 (ko) * | 1999-06-24 | 2001-07-12 | 윤종용 | 영상분할 장치 및 방법 |
JP3480563B2 (ja) * | 1999-10-04 | 2003-12-22 | 日本電気株式会社 | パターン識別のための特徴抽出装置 |
US6504951B1 (en) * | 1999-11-29 | 2003-01-07 | Eastman Kodak Company | Method for detecting sky in images |
KR100374791B1 (ko) * | 2000-11-22 | 2003-03-04 | 삼성전자주식회사 | 영상의 영역 구분 방법 및 장치 |
US7298903B2 (en) * | 2001-06-28 | 2007-11-20 | Microsoft Corporation | Method and system for separating text and drawings in digital ink |
US20030043172A1 (en) * | 2001-08-24 | 2003-03-06 | Huiping Li | Extraction of textual and graphic overlays from video |
US7054482B2 (en) * | 2001-09-28 | 2006-05-30 | Arcsoft, Inc. | Smart masking tool for image processing |
US7039222B2 (en) * | 2003-02-28 | 2006-05-02 | Eastman Kodak Company | Method and system for enhancing portrait images that are processed in a batch mode |
-
2003
- 2003-10-24 US US10/693,295 patent/US7295700B2/en active Active
-
2004
- 2004-10-25 EP EP04025353A patent/EP1526481A3/en not_active Withdrawn
- 2004-10-25 JP JP2004309880A patent/JP2005129065A/ja active Pending
-
2007
- 2007-10-16 US US11/873,159 patent/US7869648B2/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003157438A (ja) * | 2001-09-13 | 2003-05-30 | Eastman Kodak Co | 画像中で素材の領域を検出する方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017524404A (ja) * | 2014-06-12 | 2017-08-31 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 画像をセグメント化するためのパラメータの最適化 |
JP2020025780A (ja) * | 2018-08-14 | 2020-02-20 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP2022008868A (ja) * | 2018-08-14 | 2022-01-14 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
US11295158B2 (en) | 2018-08-14 | 2022-04-05 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium for extracting an irradiation field of a radiograph |
JP7134017B2 (ja) | 2018-08-14 | 2022-09-09 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP7277536B2 (ja) | 2018-08-14 | 2023-05-19 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
KR20200046487A (ko) * | 2018-10-24 | 2020-05-07 | 아주대학교산학협력단 | 사용자 단말, 서버 및 이를 포함하는 클라이언트 서버 시스템 |
KR102161758B1 (ko) * | 2018-10-24 | 2020-10-05 | 아주대학교 산학협력단 | 사용자 단말, 서버 및 이를 포함하는 클라이언트 서버 시스템 |
WO2022187079A1 (en) * | 2021-03-04 | 2022-09-09 | Applied Materials, Inc. | Pixel and region classification of film non-uniformity based on processing of substrate images |
Also Published As
Publication number | Publication date |
---|---|
EP1526481A3 (en) | 2008-06-18 |
US20050089216A1 (en) | 2005-04-28 |
US7295700B2 (en) | 2007-11-13 |
EP1526481A2 (en) | 2005-04-27 |
US7869648B2 (en) | 2011-01-11 |
US20080056563A1 (en) | 2008-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005129065A (ja) | 色及び視覚的テクスチャに基づいたオブジェクト抽出 | |
CN111402268B (zh) | 一种医学图像中肝脏及其病灶分割的方法 | |
Panjwani et al. | Markov random field models for unsupervised segmentation of textured color images | |
CN109086773B (zh) | 基于全卷积神经网络的断层面识别方法 | |
CN110598610B (zh) | 一种基于神经选择注意的目标显著性检测方法 | |
Wang et al. | Salient object detection based on multi-scale contrast | |
Meyer et al. | Multiscale morphological segmentations based on watershed, flooding, and eikonal PDE | |
Jourabloo et al. | New algorithms for recovering highly corrupted images with impulse noise | |
Wang et al. | Variational-based mixed noise removal with CNN deep learning regularization | |
Gauch et al. | The intensity axis of symmetry and its application to image segmentation | |
CN108960404B (zh) | 一种基于图像的人群计数方法及设备 | |
CN106991686B (zh) | 一种基于超像素光流场的水平集轮廓跟踪方法 | |
CN107507146B (zh) | 一种自然图像软阴影消除方法 | |
Guo et al. | Deep line drawing vectorization via line subdivision and topology reconstruction | |
Li et al. | A salt & pepper noise filter based on local and global image information | |
CN115641583B (zh) | 一种基于自监督和主动学习的点云检测方法、系统及介质 | |
CN116645592A (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
US11367206B2 (en) | Edge-guided ranking loss for monocular depth prediction | |
Cui et al. | TPET: two-stage perceptual enhancement transformer network for low-light image enhancement | |
CN105913451B (zh) | 一种基于图模型的自然图像超像素分割方法 | |
CN111460966A (zh) | 基于度量学习和近邻增强的高光谱遥感图像分类方法 | |
Yu et al. | An efficient edge-based bilateral filter for restoring real noisy image | |
Keren et al. | Denoising color images using regularization and “correlation terms” | |
Yap et al. | A computational reinforced learning scheme to blind image deconvolution | |
Abkenar et al. | Graph-based salient object detection using background and foreground connectivity cues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100615 |