JP2016009488A - 時間的に整合性のあるスーパーピクセルを生成するための方法および装置 - Google Patents
時間的に整合性のあるスーパーピクセルを生成するための方法および装置 Download PDFInfo
- Publication number
- JP2016009488A JP2016009488A JP2015117412A JP2015117412A JP2016009488A JP 2016009488 A JP2016009488 A JP 2016009488A JP 2015117412 A JP2015117412 A JP 2015117412A JP 2015117412 A JP2015117412 A JP 2015117412A JP 2016009488 A JP2016009488 A JP 2016009488A
- Authority
- JP
- Japan
- Prior art keywords
- images
- image
- sequence
- superpixels
- pixels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000003287 optical effect Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 13
- 239000012634 fragment Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013467 fragmentation Methods 0.000 claims 1
- 238000006062 fragmentation reaction Methods 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 description 17
- 230000011218 segmentation Effects 0.000 description 14
- 238000005457 optimization Methods 0.000 description 11
- 238000013507 mapping Methods 0.000 description 7
- 230000001427 coherent effect Effects 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011067 equilibration Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Studio Devices (AREA)
Abstract
【課題】時間的に整合性のあるスーパーピクセルを生成するための方法及び装置を提供する。【解決手段】クラスタ割当て生成部が、第1の画像のピクセルをスーパーピクセルにクラスタリングすることにより又は第1の画像についての初期のクラスタ割当てを検索し、第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理することにより、画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成する10。ラベル伝搬部が、後方へのオプティカルフローを用いたラベル伝搬に基づいて後続の画像を初期化する11。その後、輪郭ピクセルプロセッサが、画像のシーケンスのうちの後続の画像についての後続のクラスタ割当てに関して輪郭ピクセルのみを処理する12。【選択図】図5
Description
本発明は、ビデオシーケンス用の時間的に整合性のあるスーパーピクセルを生成するための方法および装置に関する。より詳細には、輪郭展開(evolution)を利用する、時間的に整合性のあるスーパーピクセルを生成するための方法および装置が記載される。
スーパーピクセルアルゴリズムは、ビデオセグメンテーション、トラッキング、多眼式オブジェクトセグメンテーション、シーンフロー、屋内シーンの3Dレイアウト推定、対話式シーンモデリング、画像構文解析、および意味セグメンテーション等の広範囲のコンピュータ視覚アプリケーションのための、非常に有用で、ますます普及している前処理ステップを表す。類似のピクセルをいわゆるスーパーピクセルにグループ化することは、画像プリミティブの大きな削減をもたらす。この結果、後続の処理ステップに対する計算効率が向上し、ピクセルレベルでは計算上実現不可能なより複雑なアルゴリズムが可能となり、領域ベースの特徴に対する空間サポートを生み出す。
スーパーピクセルアルゴリズムは、ピクセルをスーパーピクセルにグループ化する。X. Ren et al.:”Learning a classification model for segmentation”,2003 IEEE International Conference on Computer Vision(ICCV),pp.10-17に示すように、スーパーピクセルはローカル、コヒーレントであり、注目のスケールでのセグメンテーションに必要な構造の大部分を保持する。スーパーピクセルは、サイズおよび形状において略均質であるべきである。多くのスーパーピクセル方法が、主に静止画像を対象としており、したがってビデオシーケンスに適用されたときに、制限された時間的整合性を提供するだけであるか、または全く整合性を提供しないが、一部の方法はビデオシーケンスを対象とする(O. Veksler et al.:”Superpixels and Supervoxels in an Energy Optimization Framework”,Proceedings of the 11th European conference on Computer vision:Part V(ECCV’10)(2010),pp.211-224、及びA. Levinshtein et al.:”Spatiotemporal Closure”,Proceedings of the 10th Asian conference on Computer vision,Part I(ACCV’10)(2010),pp.369-382)。これらの方法は、時間的整合性の問題に対処し始める。
スーパーピクセルの生成は、それ自体、必ずしも空間的にコヒーレントなスーパーピクセルをもたらすわけではない。したがって、クラスタに含まれるピクセル、したがってスーパーピクセルの空間接続性を確保するための後処理ステップが必要とされる。加えて、A. Schick et al.:”Measuring and Evaluating the Compactness of Superpixels”,21st International Conference on Pattern Recognition (ICPR)(2012),pp.930-934では、R. Achanta et al.:”SLIC superpixels compared to state-of-the-art superpixel methods”,IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.34(2012),pp.2274-2282で提案された後処理方法が、断片と、断片が割り当てられるスーパーピクセルとの間の類似性測度を考慮することなく、孤立したスーパーピクセル断片を任意の近傍スーパーピクセルに割り当てることが述べられた。A. Schick et al.:”Measuring and Evaluating the Compactness of Superpixels”,21st International Conference on Pattern Recognition (ICPR)(2012),pp.930-934で提案された輪郭展開方法は、反復回数の多さという犠牲を払って、この欠点を克服することができる。加えて、これらは静止画像に着目することが多いため、時間的整合性の問題は未解決のままとなる。
本発明の目的は、画像のシーケンスのうちの画像に関連する、時間的に整合性のあるスーパーピクセルを生成するための改良された解決法を提案することである。
本発明によれば、画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための方法が、
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成するステップと、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するステップと、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む。
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成するステップと、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するステップと、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む。
したがって、画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するように構成された装置は、
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成するように構成されたクラスタ割当て生成部と、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するように構成されたラベル伝搬部と、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するように構成された輪郭ピクセルプロセッサとを備える。
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成するように構成されたクラスタ割当て生成部と、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するように構成されたラベル伝搬部と、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するように構成された輪郭ピクセルプロセッサとを備える。
また、コンピュータ可読記憶媒体が、画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令をその中に格納し、
上記命令は、コンピュータによって実行されるとき、上記コンピュータに、
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる。
上記命令は、コンピュータによって実行されるとき、上記コンピュータに、
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる。
さらに、コンピュータプログラムは、画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令を含み、上記命令は、コンピュータによって実行されるとき、上記コンピュータに、
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる。
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる。
提案された解決法は、M. Reso et al.:”Temporally Consistent Superpixels”,2013 IEEE International Conference on Computer Vision(ICCV),pp.385-392に記載のクラスタリングベースのスーパーピクセルの方法のための輪郭展開ベースの戦略を導入する。クラスタリング中にビデオボリュームの全てのピクセルを処理する代わりに、輪郭ピクセルのみが処理される。したがって、各反復において、輪郭ピクセルのみを変化でき、すなわち、異なるクラスタに割り当てられ得る。他のピクセルは、上記他のピクセルの前の割当てを維持する。ビデオボリュームに入る新しい画像が、後方へのフロー情報を用いた最新の画像の輪郭を伝搬することによって初期化される。
一実施形態では、上記画像のシーケンスのうちの上記第1の画像についての上記クラスタ割当てを生成するステップが、上記第1の画像のピクセルをスーパーピクセルにクラスタリングするステップを含む。
別の実施形態では上記画像のシーケンスのうちの上記第1の画像についての上記クラスタ割当てを生成するステップが、上記第1の画像についての初期のクラスタ割当てを検索するステップと、第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む。上記第1の画像についての上記初期のクラスタ割当ては、例えば、正方形、矩形、または六角形であり得る幾何学形状を使用した上記画像のモザイク加工によって形成される。同一の形状で覆われた全てのピクセルが、同一のクラスタに割り当てられる。これにより、最終的に上記初期のクラスタ割当てが生じる。
ビデオシーケンスのスーパーピクセルのための完全に輪郭ベースの方法が提案され、これは期待値最大化(EM)フレームワークで表され、空間的にコヒーレントで時間的に整合性のあるスーパーピクセルを生成する。後方へのオプティカルフローを用いた効率的なラベル伝搬は、適切な場合にスーパーピクセル形状の保持を促す。
提案された方法では、一般に、クラスタリング後の空間コヒーレンスを確保するために後処理ステップは必要とされない。同時に、生成されたスーパーピクセルは、高い境界/輪郭精度および高い時間的整合性を示す。加えて、方法は、選択的処理によって、かなり高速で作用する。生成されたスーパーピクセルは、セグメンテーション、画像構文解析から分類等にわたる広範囲のコンピュータ視覚アプリケーションに有利である。
より良い理解のために、次に図面を参照しながら以下の説明において本発明がより詳細に説明される。本発明がこの例示的な実施形態に限定されないこと、および添付の特許請求の範囲で定義される本発明の範囲から逸脱することなく、特定の特徴が適宜組み合わされ、かつ/または修正され得ることを理解されたい。
図1は、時間的整合性を有するスーパーピクセルの例を示す。図1(a)はオリジナル画像を示すが、図1(b)では、ビデオの完全なセグメンテーションが実施され、スーパーピクセルのサブセットが1つの画像内において手動で選択され、視覚化のために濃淡値が提供される。図1(c)は、いくつかの画像の後の同一のサブセットを示す。同一の濃淡値は、時間的なつながりを意味する。
主なアイデアのより良い理解のために、以下で、輪郭展開ベースの方法が、最初に静止画像に関して簡単に説明され、その後、わずかに異なる説明的方法を用いてビデオにまで拡大される。
静止画像に関する簡単な説明
クラスタリングベースの方法の場合、画像のピクセルは、各次元がピクセルの色チャネルまたは画像座標に対応する多次元特徴空間内のデータ点として見られる。スーパーピクセルは、この多次元特徴空間内のクラスタによって表され、各データ点は1つのクラスタのみに割り当てられ得る。この割当ては、オーバーセグメンテーション、およびしたがってスーパーピクセルの生成を最終的に決定する。
クラスタリングベースの方法の場合、画像のピクセルは、各次元がピクセルの色チャネルまたは画像座標に対応する多次元特徴空間内のデータ点として見られる。スーパーピクセルは、この多次元特徴空間内のクラスタによって表され、各データ点は1つのクラスタのみに割り当てられ得る。この割当ては、オーバーセグメンテーション、およびしたがってスーパーピクセルの生成を最終的に決定する。
完全に輪郭展開ベースの方法を用いるこの割当ての問題の最適な解決法を見つけるために、輪郭ピクセルn∈Ncをクラスタk∈Knに割り当てるのに必要とされるエネルギーE(n,k)を合計する、エネルギー関数Etotalが定義される。
ここで、Ncは画像内の輪郭ピクセルのセットであり、Knは、輪郭ピクセルnおよび輪郭ピクセルnが割り当てられるクラスタに隣接するクラスタのセットである。エネルギーE(n,k)は、色差関連エネルギーEc(n,k)および空間距離関連エネルギーEs(n,k)の重み付け合計としてさらに絞り込まれ得る。
E(n,k)=(1−α)Ec(n,k)+αEs(n,k)
エネルギーEc(n,k)は、輪郭ピクセルnと選択された色空間内のクラスタkの色中心との間のユークリッド距離に正比例する。同様に、Es(n,k)は、nの空間位置とクラスタkの中心の空間位置とのユークリッド距離に比例する。結果を画像サイズから独立させるために、空間距離が係数
エネルギーEc(n,k)は、輪郭ピクセルnと選択された色空間内のクラスタkの色中心との間のユークリッド距離に正比例する。同様に、Es(n,k)は、nの空間位置とクラスタkの中心の空間位置とのユークリッド距離に比例する。結果を画像サイズから独立させるために、空間距離が係数
でスケール化され、ここで、|・|はセット内の要素の数、Nは画像内の全てのピクセルのセット、Kは画像内の全クラスタのセットである。パラメータαを用いて、ユーザは、セグメンテーション結果をよりコンパクトにすることができ、または非常に細かい画像構造に対する感度をより良くすることができる。所与の数のクラスタ|K|およびユーザ定義されたαについて、エネルギーに関する最適なオーバーセグメンテーションは、Etotalを最小限に抑えるクラスタのコンステレーションを見つけることにより決定され得る。
割当ての問題は、局所的に最適な解に収束する反復的なロイドのアルゴリズムを適用することによって解決される。クラスタは、例えば、空間的部分空間で均一に分散された重なりのない矩形または正方形として初期化される。エネルギー項Etotalを最小限に抑えるために、アルゴリズムが、割当てステップおよび更新ステップの2つの交互のステップを反復する。割当てステップでは、セットKnの場合にエネルギー項E(n,k)がその最小値を有するクラスタk∈Knに、各輪郭ピクセルnが割り当てられる。輪郭ピクセルでない他のピクセルが、他のピクセルの割当てを維持する。割当てに基づいて、割り当てられたピクセルの中間色および中間位置を計算することによって、クラスタ中心のパラメータが更新ステップで再推定される。割当てステップで変化が検出されないとき、または最大反復回数が実施されたときに、反復が停止する。
輪郭ピクセルnは、異なるクラスタに割り当てられた少なくとも1つの隣接ピクセルを有するピクセルである。全ての輪郭ピクセルNcのセットは、セットNの(小さい)サブセットである。輪郭ピクセルnが割り当てられるクラスタ及び隣接するすべてのクラスタは、nとは異なるクラスタに割り当てられ、セットKnを形成する。
割当てステップで画像を横切るために使用される一定の走査順序によるバイアスを最小限に抑えるために、走査順序は各反復と共に変化されるべきである。考えられる走査順序は、例えば、左から右および上から下、右から左および上から下、左から右および下から上、右から左および下から上である。
NcおよびKn(NおよびKではない)が考慮されてEtotalを決定し、処理負荷が大きく減少される。
ビデオに関する方法
最初に示したように、スーパーピクセルアルゴリズムは、例えば色またはテクスチャと同一の低レベル特徴を共有する空間的にコヒーレントなピクセルを、略同一のサイズおよび形状の小セグメントにグループ化する。したがって、1つの重要な固有の制約は、スーパーピクセルの境界が、画像内にある主なオブジェクト境界に一致すべきであることである。この主なオブジェクト境界の捕捉は、初期のスーパーピクセルセグメンテーション時に構築された画像またはビデオセグメンテーションに関してかなり重要である。さらに、ビデオコンテンツのスーパーピクセルセグメンテーションについては、トラッキングまたはビデオセグメンテーションのようなアプリケーションに対して利用され得る整合性のあるラベリングを達成するために、連続画像のスーパーピクセル間の時間的接続を捕捉する必要がある。
最初に示したように、スーパーピクセルアルゴリズムは、例えば色またはテクスチャと同一の低レベル特徴を共有する空間的にコヒーレントなピクセルを、略同一のサイズおよび形状の小セグメントにグループ化する。したがって、1つの重要な固有の制約は、スーパーピクセルの境界が、画像内にある主なオブジェクト境界に一致すべきであることである。この主なオブジェクト境界の捕捉は、初期のスーパーピクセルセグメンテーション時に構築された画像またはビデオセグメンテーションに関してかなり重要である。さらに、ビデオコンテンツのスーパーピクセルセグメンテーションについては、トラッキングまたはビデオセグメンテーションのようなアプリケーションに対して利用され得る整合性のあるラベリングを達成するために、連続画像のスーパーピクセル間の時間的接続を捕捉する必要がある。
前述したように、本明細書に記載の方法は、M. Reso et al.:”Temporally Consistent Superpixels”,2013 IEEE International Conference on Computer Vision(ICCV),pp.385-392に記載の方法を拡大したものである。より良い理解のために、TCSの主なアイデアが、以下で簡単に要約される。
一般に、TCSは、グローバル色部分空間と複数のローカル空間部分空間とに分離される多次元特徴空間用のハイブリッドクラスタリング戦略を使用して、ビデオボリュームでエネルギー最小化クラスタリングを実施する。
より詳細には、エネルギー最小化フレームワークが、CIE−Lab色空間の3つの色値[lab]とピクセル座標[xy]とを含む、5次元特徴ベクトル[labxy]に基づいて、TCSクラスタピクセルで使用される。連続画像内のスーパーピクセル間の時間的接続を捕捉するために、K画像にわたる観察窓を通してクラスタリングが実施される。分離された特徴空間は以下のように実現される。1つの時間的スーパーピクセルを表す各クラスタ中心は、完全な観察窓の1つの色中心、および観察窓内の各画像に1つずつある複数の空間中心からなる。根底にある仮定は、時間的スーパーピクセルが、連続画像で同一の色を共有すべきであるが、同一の位置を必ずしも共有すべきではないことである。
タイムラインに沿ってシフトされる観察窓について、クラスタ中心Θoptの最適なセット、およびこれらのクラスタ中心への観察窓内側のピクセルのマッピングσoptが得られる。したがって、画像k内の位置x,yでピクセルをクラスタ中心θ∈Θoptに割り当てる必要のあるエネルギーを合計するエネルギー関数が定義される。この割当てまたはマッピングは、ここではσx,y,kで示される。
割当てに必要なエネルギーは、色依存エネルギーEc(x,y,k,σx,y,k)および空間エネルギーEs(x,y,k,σx,y,k)の重み付け合計である。両エネルギー項は、色空間および画像面のそれぞれのユークリッド距離に比例する。色感度と空間のコンパクト性との兼ね合いが、0(完全に色感度が良い)と1(完全にコンパクト)との間の範囲を有する重み付け係数αによって制御される。エネルギー関数は、期待値最大化(EM)方法と考えられ得る反復最適化方式を用いて最小化される。
反復l+1のEステップ(期待値ステップ)では、
としてここで示される最適なマッピングの新しい推定が決定され、これは、反復lのMステップ(最大化ステップ)で計算されたクラスタ中心
の最適なセットの推定に基づいて、Etotalを最小化する。
その後、割り当てられたピクセルの中間色および中間空間値を計算することによる更新マッピングの場合、最適なクラスタセット
の推定が反復l+1のMステップで更新される。交互の2つのステップは、エネルギーEtotalが特定の境界未満に低下するまで、または一定の反復回数が実施されるまで継続する。TCSのために提案されたハイブリッドクラスタリングでは、観察窓内のKF<Kの最も将来の画像のみが、最適化中に再び割り当てられる。残りのK−KF画像については、見つけられた色クラスタリングを保持するために、決定されたマッピングが維持される。
観察窓は、ビデオボリュームに沿ってシフトされ、観察窓に入る新しい画像が、以下でより詳細に説明されるように初期化される。生成された時間的に整合性のあるスーパーピクセルの空間コヒーレンスを確保するために、輪郭ベースの後処理ステップが適用される。
TCSのアイデアを再検討すると、以下の2つの所見が述べられる。(a)より高いランタイム性能を得るために、初期のエネルギー最小化クラスタおよび輪郭ベースの後処理が別のステップとなる。(b)観察窓に加えられた新しい画像は、先の画像の空間中心のみを新しい画像に投射することによって初期化される。結果として、前に画像内で得られた形状情報は、少なくとも部分的に廃棄される。
TCSとは対照的に、提案された方法のエネルギー関数Etotalは、スーパーピクセルの輪郭(または境界)のピクセル、いわゆる輪郭ピクセルについてのみ最適化される。位置x,yの輪郭ピクセルは、少なくとも1つのピクセルをその4接続近傍
に有し、これは、異なるクラスタ、すなわち時間的スーパーピクセルに割り当てられるか、または割り当てられない。割り当てられないピクセルの発生およびその対処について、以下で詳細に説明する。さらに、輪郭ピクセルの割当ては、
におけるピクセルのクラスタの1つに変化され得るに過ぎない。最適化のEステップは、
と表され、ここで
は、フレームk内の反復ステップl後の輪郭ピクセルのセットである。最適化は、観察窓内のKFの最も将来の画像について行われる。Mステップは修正されないままである。輪郭ピクセルのさらなる割当て変化がない場合、または最大反復回数に達した場合、最適化を終了できる。
上記の説明に加えて、2つの制約がある。第1に、割当て変化は、スーパーピクセルの空間コヒーレンスが保証される場合にのみ行われる。この制約は、図2に示されるように、時間的スーパーピクセルの断片が最適化中に分離されることを妨げる。3つのサブ図面は、2つのスーパーピクセル(ライトグレーおよびダークグレー)間の5×5ピクセル近傍を示す。中心にあるピクセル((b)のミディアムグレー)がその割当てを変化させ、その右の2つのピクセルが、ライトグレーのスーパーピクセルと接続しなくなるため、主要部から分離されることになる((c)で例示的に示す)。したがって、このような状況で、割当て変化は実施されない。
第2に、輪郭ピクセルが割り当てられない場合、輪郭ピクセルは、
に基づいて、その隣接ピクセルの1つのクラスタに割り当てられる。結果として、空間コヒーレンスを確保するためにTCSで必要とされる追加の後処理ステップは、必要とされなくなり省略され得る。特に第1の制約は、時間的スーパーピクセルがビデオコンテンツに適応し得る方法の柔軟性をある程度制限するが、実験は、時間的スーパーピクセルがセグメンテーション精度に悪影響を与えないことを証明している。
前述したように、TCSは、空間中心を観察窓に入る新しい画像に投射することのみによって新しい画像を初期化する。したがって、クラスタに割り当てられた全てのピクセル上で決定された密なオプティカルフローの重み付け平均が、投射に使用される。特に均質な色または構造を有する画像エリアについて、これが、画像から画像へのスーパーピクセルの不安定な位置決めをもたらすおそれがある。スーパーピクセルセグメンテーションに依拠するアプリケーションによっては、これは望ましくない結果となり得る。この問題を克服するために、1つの解決法は、スーパーピクセルの形状を、初期化される新しい画像に転写することである。このことは、それが少なくともEMフレームワークの次の最適化の開始となるため、前の画像で得られた形状情報およびスーパーピクセルコンステレーションの保持を助ける。
このような新しい画像の初期化を実現するいくつかの方法がある。1つは、図3(a)に示すように、中間オプティカルフローを用いた完全なスーパーピクセルラベルのシフトである。別の方法は、スーパーピクセルの各ピクセルについて予測された密なオプティカルフローの使用である。したがって、図3(b)に示されるように、スーパーピクセルラベルが、新しい画像に投射される。これら2つの選択肢は以下の欠点を有する。すなわち、新しい画像に投射された2つのスーパーピクセルが重なる場合、少なくともこの衝突を検出する必要がある。加えて、例えば隣接するスーパーピクセルが互いから離れて投射される場合、初期化されなければならない画像内に割り当てられない部分があることが可能である。両方のケースが、引き裂かれたスーパーピクセルラベル(ライトグレーのストライプ)および重なりエリア(黒)を示す図4に示され、同様の方法で、密なオプティカルフローによるピクセルのシフトに当てはまる。
これらの問題を回避するために、観察窓k+1に入る画像から窓内の前の画像kまで計算された、密な後方へのオプティカルフローを使用することが提案される。この方法は図3(c)に示される。水平方向および垂直方向および有効な画像エリアの外側を指すクリッピングコンポーネントについて、後方へのオプティカルフローコンポーネントuおよびvを最も近い整数に丸め、
として示される新しい画像k+1のクラスタ中心へのピクセルの初期のマッピングが、画像kのL反復後に前のマッピングから、以下の通り導かれ得る。
この方法は、上記の問題を解決し、各ピクセルの明白なラベルをもたらす。前方へのオプティカルフローについても存在する残された唯一の問題は、投射されたスーパーピクセルが断片化され得、すなわち、投射されたスーパーピクセルが空間的にコヒーレントでないことである。スーパーピクセルが断片化される場合には、最大の断片が決定され、他の断片は割当てなしに設定され、それらの断片は輪郭ピクセルの部分であるため最適化のEステップにおいて対処される。
M. Reso et al.:”Temporally Consistent Superpixels”,2013 IEEE International Conference on Computer Vision(ICCV),pp.385-392では、例えば隠蔽、非隠蔽(disocclusion)、オブジェクトのカメラへの接近、およびズームである発見的方法が、ビデオボリュームの構造変化を受けるように導入された。時間的スーパーピクセルを分離または終了する決定は、スーパーピクセルサイズの線形成長の仮定に基づいて行われた。加えて、別の平衡ステップが実施されて、フレーム当たりのスーパーピクセル数を一定に維持した。スーパーピクセルの処理を簡単にするために、スーパーピクセルサイズ用の上部境界および下部境界を導入することにより、これら2つのステップが1つのステップに置き換えられる。最適化後の上部境界よりも大きいスーパーピクセルは分離され、最適化後の下部境界よりも小さいスーパーピクセルは終了される。したがって、これらの境界は、ユーザにより初期に特定されたスーパーピクセル数に結びつけられる。したがって、ユーザは、画像NminおよびNmaxのそれぞれについてのスーパーピクセルの最小数および最大数を定義する。定義されたスーパーピクセルの最小数および最大数に基づいて、上部境界および下部境界AlowおよびAupが以下から導き出される。
および
ここで|P|は画像当たりのピクセル数である。本実現では、スーパーピクセル数がNとして特定され、NminおよびNmaxが
および2Nにそれぞれ設定される。
提案された方法を要約すると、ハイブリッドクラスタリング方式が、割当てステップにおいて、スライディング窓の可変画像内の輪郭ピクセルのみを処理するように拡大される。スライディング窓の可変画像は、現在画像および将来画像である。
スライディング窓に入る新しい画像は、以下の方法で初期化される。スライディング窓に入る新しい画像とスライディング窓内の最新の画像との間で、後方へのフローが計算される。新しい画像内の各ピクセルについてのこの後方へのフローに基づいて、最新の画像の対応するピクセルが定義される。その後、新しい画像内の各ピクセルが、最新の画像内の対応するピクセルが割り当てられるのと同一のクラスタに割り当てられる。残された唯一の問題は、投射されたスーパーピクセルが断片化され得、すなわち、投射されたスーパーピクセルが空間的にコヒーレントでないことである。断片化されたスーパーピクセルの場合、最大の断片が決定され、他の断片に属するピクセルは割当てなしに設定される。割り当てられないピクセルは、最適化のEステップにおいて対処される。
スーパーピクセルの空間コヒーレンスが保証される場合にのみ割当て変化が行われ、これは時間的スーパーピクセルの断片が最適化中に分離されることを妨げる。加えて、任意の割り当てられない輪郭ピクセルは、その隣接するピクセルの1つのクラスタに割り当てられる。結果として、空間コヒーレンスを確保するために、追加の後処理ステップは必要とされない。
初期化のための輪郭伝搬を含むビデオボリュームの輪郭展開ベースのクラスタリングは、異なる種類のカメラ運動、非剛体の動き、および動きぼけを伴うデータセットにおいても、高い時間的整合性および高い境界/輪郭精度をもたらす。さらに、選択的処理(割当てステップ中に輪郭ピクセルのみが処理される)により、競争力のあるランタイム性能が達成される。
画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための本発明による方法が、図5に概略的に示される。第1のステップでは、例えば、第1の画像のピクセルをスーパーピクセルにクラスタリングすることにより、または第1の画像についての初期のクラスタ割当てを検索し、第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理することにより、画像のシーケンスのうちの第1の画像についてクラスタ割当てが生成される(10)。後続の画像は、後方へのオプティカルフローを用いたラベル伝搬に基づいて初期化される(11)。その後、画像のシーケンスの後続の画像について、輪郭ピクセルのみが後続の画像のクラスタ割当てに関して処理される(12)。
図6は、画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための本発明による装置20を概略的に示す。装置20は、画像のシーケンスを受けるための入力部21を備える。クラスタ割当て生成部22は、例えば、第1の画像のピクセルをスーパーピクセルにクラスタリングすることにより、または第1の画像の初期のクラスタ割当てを検索し、第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理することにより、画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成する(10)。ラベル伝搬部23は、後方へのオプティカルフローを用いたラベル伝搬に基づいて後続の画像を初期化する(11)。その後、輪郭ピクセルプロセッサ24は、画像のシーケンスのうちの後続の画像についての後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理する(12)。結果として生じるスーパーピクセルは、好ましくは、出力部25で使用可能とされる。当然、装置20の異なるユニット22、23、24は、同様に、単一のユニットに完全にまたは部分的に組み合わせされ、またはプロセッサで動作するソフトウェアとして実現され得る。また、入力部21および出力部25は、同様に、単一の双方向インタフェースを形成することができる。
Claims (11)
- 画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための方法であって、
前記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成するステップ(10)と、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するステップ(11)と、
前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップ(12)と、
を含む、前記方法。 - 前記画像のシーケンスのうちの前記第1の画像についての前記クラスタ割当てを生成するステップ(10)が、前記第1の画像のピクセルをスーパーピクセルにクラスタリングするステップを含む、請求項1に記載の方法。
- 前記画像のシーケンスのうちの前記第1の画像についての前記クラスタ割当てを生成するステップ(10)が、前記第1の画像についての初期のクラスタ割当てを検索するステップと、前記第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む、請求項1に記載の方法。
- ピクセルの割当て変化が、前記スーパーピクセルの空間コヒーレンスが保証される場合にのみ行われる、請求項1乃至3のいずれか一項に記載の方法。
- スーパーピクセルの断片化の場合、前記スーパーピクセルの最大の断片が決定され、前記スーパーピクセルの残りの断片に属するピクセルが割当てなしに設定される、請求項1乃至4のいずれか一項に記載の方法。
- 任意の割り当てられないピクセルが、その隣接するピクセルの1つのクラスタに割り当てられる、請求項5に記載の方法。
- 上部境界よりも大きいスーパーピクセルを分離するステップと、下部境界よりも小さいスーパーピクセルを終了させるステップとをさらに含む、請求項1乃至6のいずれか一項に記載の方法。
- 前記上部境界および前記下部境界は、画像当たりのピクセル数、ならびに画像当たりのスーパーピクセルの最小数および最大数のそれぞれから決定される、請求項7に記載の方法。
- 画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するように構成された装置(20)であって、
前記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成する(10)ように構成されたクラスタ割当て生成部(22)と、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化する(11)ように構成されたラベル伝搬部(23)と、
前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理する(12)ように構成された輪郭ピクセルプロセッサ(24)と、
を備える、前記装置。 - 画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令をその中に格納するコンピュータ可読記憶媒体であって、
前記命令が、コンピュータによって実行されるとき、前記コンピュータに、
前記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ(10)、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ(11)、
前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる(12)、
前記コンピュータ可読記憶媒体。 - 画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令を含むコンピュータプログラムであって、
前記命令が、コンピュータによって実行されるとき、前記コンピュータに、
前記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ(10)、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ(11)、
前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる(12)、
前記コンピュータプログラム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14305959.0 | 2014-06-20 | ||
EP14305959 | 2014-06-20 | ||
EP14306209.9 | 2014-07-28 | ||
EP14306209.9A EP2980754A1 (en) | 2014-07-28 | 2014-07-28 | Method and apparatus for generating temporally consistent superpixels |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016009488A true JP2016009488A (ja) | 2016-01-18 |
Family
ID=53540578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015117412A Pending JP2016009488A (ja) | 2014-06-20 | 2015-06-10 | 時間的に整合性のあるスーパーピクセルを生成するための方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10176401B2 (ja) |
EP (1) | EP2958077B1 (ja) |
JP (1) | JP2016009488A (ja) |
KR (1) | KR20150146419A (ja) |
CN (1) | CN105303519A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018049559A (ja) * | 2016-09-23 | 2018-03-29 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
WO2019225322A1 (ja) * | 2018-05-22 | 2019-11-28 | ソニー株式会社 | 画像処理装置、画像処理方法、およびプログラム |
CN110622214A (zh) * | 2017-07-11 | 2019-12-27 | 索尼公司 | 基于超体素的时空视频分割的快速渐进式方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038221B (zh) * | 2017-03-22 | 2020-11-17 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN109767388B (zh) * | 2018-12-28 | 2023-03-24 | 西安电子科技大学 | 基于超像素提升图像拼接质量的方法、移动终端、相机 |
CN109903334A (zh) * | 2019-02-25 | 2019-06-18 | 北京工业大学 | 一种基于时间一致性的双目视频运动物体检测方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050141614A1 (en) * | 2002-04-11 | 2005-06-30 | Braspenning Ralph Antonius C. | Motion estimation unit and method of estimating a motion vector |
US7515766B2 (en) | 2004-09-22 | 2009-04-07 | Intel Corporation | Apparatus and method for edge handling in image processing |
US7760911B2 (en) * | 2005-09-15 | 2010-07-20 | Sarnoff Corporation | Method and system for segment-based optical flow estimation |
US8472718B2 (en) * | 2011-04-27 | 2013-06-25 | Sony Corporation | Superpixel segmentation methods and systems |
US9042648B2 (en) | 2012-02-23 | 2015-05-26 | Microsoft Technology Licensing, Llc | Salient object segmentation |
US9025880B2 (en) * | 2012-08-29 | 2015-05-05 | Disney Enterprises, Inc. | Visual saliency estimation for images and video |
CN102903128B (zh) | 2012-09-07 | 2016-12-21 | 北京航空航天大学 | 基于局部特征结构保持的视频图像内容编辑传播方法 |
WO2014071060A2 (en) * | 2012-10-31 | 2014-05-08 | Environmental Systems Research Institute | Scale-invariant superpixel region edges |
CN103067705B (zh) | 2012-12-19 | 2016-06-08 | 宁波大学 | 一种多视点深度视频预处理方法 |
US9129399B2 (en) * | 2013-03-11 | 2015-09-08 | Adobe Systems Incorporated | Optical flow with nearest neighbor field fusion |
US10121254B2 (en) * | 2013-08-29 | 2018-11-06 | Disney Enterprises, Inc. | Methods and systems of detecting object boundaries |
US9247129B1 (en) * | 2013-08-30 | 2016-01-26 | A9.Com, Inc. | Self-portrait enhancement techniques |
US9430499B2 (en) * | 2014-02-18 | 2016-08-30 | Environmental Systems Research Institute, Inc. | Automated feature extraction from imagery |
-
2015
- 2015-05-27 CN CN201510276382.5A patent/CN105303519A/zh active Pending
- 2015-06-10 JP JP2015117412A patent/JP2016009488A/ja active Pending
- 2015-06-15 EP EP15172032.3A patent/EP2958077B1/en not_active Not-in-force
- 2015-06-17 KR KR1020150086034A patent/KR20150146419A/ko unknown
- 2015-06-20 US US14/745,424 patent/US10176401B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018049559A (ja) * | 2016-09-23 | 2018-03-29 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
CN110622214A (zh) * | 2017-07-11 | 2019-12-27 | 索尼公司 | 基于超体素的时空视频分割的快速渐进式方法 |
JP2020518081A (ja) * | 2017-07-11 | 2020-06-18 | ソニー株式会社 | 高速で漸進的なスーパーボクセルベースの時空間ビデオセグメンテーション法 |
CN110622214B (zh) * | 2017-07-11 | 2023-05-30 | 索尼公司 | 基于超体素的时空视频分割的快速渐进式方法 |
WO2019225322A1 (ja) * | 2018-05-22 | 2019-11-28 | ソニー株式会社 | 画像処理装置、画像処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20150146419A (ko) | 2015-12-31 |
EP2958077B1 (en) | 2017-05-31 |
US20150371113A1 (en) | 2015-12-24 |
US10176401B2 (en) | 2019-01-08 |
EP2958077A1 (en) | 2015-12-23 |
CN105303519A (zh) | 2016-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016009488A (ja) | 時間的に整合性のあるスーパーピクセルを生成するための方法および装置 | |
US11455712B2 (en) | Method and apparatus for enhancing stereo vision | |
US8213726B2 (en) | Image labeling using multi-scale processing | |
Zitnick et al. | Consistent segmentation for optical flow estimation | |
US10102450B2 (en) | Superpixel generation with improved spatial coherency | |
EP2980754A1 (en) | Method and apparatus for generating temporally consistent superpixels | |
US8594434B2 (en) | Device, method, and computer-readable storage medium for segmentation of an image | |
US20150339828A1 (en) | Segmentation of a foreground object in a 3d scene | |
US7522749B2 (en) | Simultaneous optical flow estimation and image segmentation | |
US20130071028A1 (en) | System and Method for Estimating Spatially Varying Defocus Blur in a Digital Image | |
US9025876B2 (en) | Method and apparatus for multi-label segmentation | |
EP2622574A1 (en) | Method and system for images foreground segmentation in real-time | |
US9153203B2 (en) | Temporally consistent superpixels | |
EP2622575A1 (en) | Method and system for real-time images foreground segmentation | |
KR20140063440A (ko) | 수퍼픽셀 라이프 사이클 관리 방법 | |
Mascaro et al. | Diffuser: Multi-view 2d-to-3d label diffusion for semantic scene segmentation | |
Wehrwein et al. | Video segmentation with background motion models. | |
KR101316848B1 (ko) | 배경 합성을 위한 자동 객체 분할 장치 및 방법 | |
KR101845174B1 (ko) | 슈퍼픽셀 생성 방법 및 장치 | |
WO2017154045A1 (en) | 3d motion estimation device, 3d motion estimation method, and program | |
Reso et al. | Superpixels for video content using a contour-based em optimization | |
Zhan et al. | Supervoxel Segmentation using Spatio-Temporal Lazy Random Walks | |
CN114972517A (zh) | 一种基于raft的自监督深度估计方法 | |
JP2007066041A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
Nawaf et al. | Color and flow based superpixels for 3D geometry respecting meshing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20161202 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20161202 |