JP2016009488A

JP2016009488A - 時間的に整合性のあるスーパーピクセルを生成するための方法および装置

Info

Publication number: JP2016009488A
Application number: JP2015117412A
Authority: JP
Inventors: レゾマティアス; Matthias Reso; ジャカルスキーヨエルン; Jachalsky Joern; ローゼンハンボーデ; Rosenhahn Bodo
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2014-06-20
Filing date: 2015-06-10
Publication date: 2016-01-18
Also published as: KR20150146419A; EP2958077B1; US20150371113A1; US10176401B2; EP2958077A1; CN105303519A

Abstract

【課題】時間的に整合性のあるスーパーピクセルを生成するための方法及び装置を提供する。【解決手段】クラスタ割当て生成部が、第１の画像のピクセルをスーパーピクセルにクラスタリングすることにより又は第１の画像についての初期のクラスタ割当てを検索し、第１の画像のクラスタ割当てに関して輪郭ピクセルのみを処理することにより、画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成する１０。ラベル伝搬部が、後方へのオプティカルフローを用いたラベル伝搬に基づいて後続の画像を初期化する１１。その後、輪郭ピクセルプロセッサが、画像のシーケンスのうちの後続の画像についての後続のクラスタ割当てに関して輪郭ピクセルのみを処理する１２。【選択図】図５

Description

本発明は、ビデオシーケンス用の時間的に整合性のあるスーパーピクセルを生成するための方法および装置に関する。より詳細には、輪郭展開（ｅｖｏｌｕｔｉｏｎ）を利用する、時間的に整合性のあるスーパーピクセルを生成するための方法および装置が記載される。

スーパーピクセルアルゴリズムは、ビデオセグメンテーション、トラッキング、多眼式オブジェクトセグメンテーション、シーンフロー、屋内シーンの３Ｄレイアウト推定、対話式シーンモデリング、画像構文解析、および意味セグメンテーション等の広範囲のコンピュータ視覚アプリケーションのための、非常に有用で、ますます普及している前処理ステップを表す。類似のピクセルをいわゆるスーパーピクセルにグループ化することは、画像プリミティブの大きな削減をもたらす。この結果、後続の処理ステップに対する計算効率が向上し、ピクセルレベルでは計算上実現不可能なより複雑なアルゴリズムが可能となり、領域ベースの特徴に対する空間サポートを生み出す。

スーパーピクセルアルゴリズムは、ピクセルをスーパーピクセルにグループ化する。X. Ren et al.:”Learning a classification model for segmentation”,2003 IEEE International Conference on Computer Vision(ICCV),pp.10-17に示すように、スーパーピクセルはローカル、コヒーレントであり、注目のスケールでのセグメンテーションに必要な構造の大部分を保持する。スーパーピクセルは、サイズおよび形状において略均質であるべきである。多くのスーパーピクセル方法が、主に静止画像を対象としており、したがってビデオシーケンスに適用されたときに、制限された時間的整合性を提供するだけであるか、または全く整合性を提供しないが、一部の方法はビデオシーケンスを対象とする（O. Veksler et al.:”Superpixels and Supervoxels in an Energy Optimization Framework”,Proceedings of the 11^th European conference on Computer vision:Part V(ECCV’10)(2010)，pp.211-224、及びA. Levinshtein et al.:”Spatiotemporal Closure”,Proceedings of the 10^th Asian conference on Computer vision,Part I(ACCV’10)(2010)，pp.369-382）。これらの方法は、時間的整合性の問題に対処し始める。

スーパーピクセルの生成は、それ自体、必ずしも空間的にコヒーレントなスーパーピクセルをもたらすわけではない。したがって、クラスタに含まれるピクセル、したがってスーパーピクセルの空間接続性を確保するための後処理ステップが必要とされる。加えて、A. Schick et al.:”Measuring and Evaluating the Compactness of Superpixels”,21^st International Conference on Pattern Recognition (ICPR)(2012)，pp.930-934では、R. Achanta et al.:”SLIC superpixels compared to state-of-the-art superpixel methods”,IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.34(2012)，pp.2274-2282で提案された後処理方法が、断片と、断片が割り当てられるスーパーピクセルとの間の類似性測度を考慮することなく、孤立したスーパーピクセル断片を任意の近傍スーパーピクセルに割り当てることが述べられた。A. Schick et al.:”Measuring and Evaluating the Compactness of Superpixels”,21^st International Conference on Pattern Recognition (ICPR)(2012)，pp.930-934で提案された輪郭展開方法は、反復回数の多さという犠牲を払って、この欠点を克服することができる。加えて、これらは静止画像に着目することが多いため、時間的整合性の問題は未解決のままとなる。

本発明の目的は、画像のシーケンスのうちの画像に関連する、時間的に整合性のあるスーパーピクセルを生成するための改良された解決法を提案することである。

本発明によれば、画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための方法が、
上記画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成するステップと、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するステップと、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む。

したがって、画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するように構成された装置は、
上記画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成するように構成されたクラスタ割当て生成部と、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するように構成されたラベル伝搬部と、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するように構成された輪郭ピクセルプロセッサとを備える。

また、コンピュータ可読記憶媒体が、画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令をその中に格納し、
上記命令は、コンピュータによって実行されるとき、上記コンピュータに、
上記画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成させ、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる。

さらに、コンピュータプログラムは、画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令を含み、上記命令は、コンピュータによって実行されるとき、上記コンピュータに、
上記画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成させ、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる。

提案された解決法は、M. Reso et al.:”Temporally Consistent Superpixels”,2013 IEEE International Conference on Computer Vision(ICCV),pp.385-392に記載のクラスタリングベースのスーパーピクセルの方法のための輪郭展開ベースの戦略を導入する。クラスタリング中にビデオボリュームの全てのピクセルを処理する代わりに、輪郭ピクセルのみが処理される。したがって、各反復において、輪郭ピクセルのみを変化でき、すなわち、異なるクラスタに割り当てられ得る。他のピクセルは、上記他のピクセルの前の割当てを維持する。ビデオボリュームに入る新しい画像が、後方へのフロー情報を用いた最新の画像の輪郭を伝搬することによって初期化される。

一実施形態では、上記画像のシーケンスのうちの上記第１の画像についての上記クラスタ割当てを生成するステップが、上記第１の画像のピクセルをスーパーピクセルにクラスタリングするステップを含む。

別の実施形態では上記画像のシーケンスのうちの上記第１の画像についての上記クラスタ割当てを生成するステップが、上記第１の画像についての初期のクラスタ割当てを検索するステップと、第１の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む。上記第１の画像についての上記初期のクラスタ割当ては、例えば、正方形、矩形、または六角形であり得る幾何学形状を使用した上記画像のモザイク加工によって形成される。同一の形状で覆われた全てのピクセルが、同一のクラスタに割り当てられる。これにより、最終的に上記初期のクラスタ割当てが生じる。

ビデオシーケンスのスーパーピクセルのための完全に輪郭ベースの方法が提案され、これは期待値最大化（ＥＭ）フレームワークで表され、空間的にコヒーレントで時間的に整合性のあるスーパーピクセルを生成する。後方へのオプティカルフローを用いた効率的なラベル伝搬は、適切な場合にスーパーピクセル形状の保持を促す。

提案された方法では、一般に、クラスタリング後の空間コヒーレンスを確保するために後処理ステップは必要とされない。同時に、生成されたスーパーピクセルは、高い境界／輪郭精度および高い時間的整合性を示す。加えて、方法は、選択的処理によって、かなり高速で作用する。生成されたスーパーピクセルは、セグメンテーション、画像構文解析から分類等にわたる広範囲のコンピュータ視覚アプリケーションに有利である。

より良い理解のために、次に図面を参照しながら以下の説明において本発明がより詳細に説明される。本発明がこの例示的な実施形態に限定されないこと、および添付の特許請求の範囲で定義される本発明の範囲から逸脱することなく、特定の特徴が適宜組み合わされ、かつ／または修正され得ることを理解されたい。

時間的整合性を有するスーパーピクセルの例を示す図である。２つのスーパーピクセル間の５×５ピクセル近傍を示す図である。新しいフレームへのスーパーピクセルのラベル伝搬の可能な変形例を示す図である。中間オプティカルフローにより全スーパーピクセルを伝搬するときに生じる問題を説明する図である。本発明による方法を概略的に示す図である。本発明による方法を実施するように構成された装置を概略的に示す図である。

図１は、時間的整合性を有するスーパーピクセルの例を示す。図１（ａ）はオリジナル画像を示すが、図１（ｂ）では、ビデオの完全なセグメンテーションが実施され、スーパーピクセルのサブセットが１つの画像内において手動で選択され、視覚化のために濃淡値が提供される。図１（ｃ）は、いくつかの画像の後の同一のサブセットを示す。同一の濃淡値は、時間的なつながりを意味する。

主なアイデアのより良い理解のために、以下で、輪郭展開ベースの方法が、最初に静止画像に関して簡単に説明され、その後、わずかに異なる説明的方法を用いてビデオにまで拡大される。

静止画像に関する簡単な説明
クラスタリングベースの方法の場合、画像のピクセルは、各次元がピクセルの色チャネルまたは画像座標に対応する多次元特徴空間内のデータ点として見られる。スーパーピクセルは、この多次元特徴空間内のクラスタによって表され、各データ点は１つのクラスタのみに割り当てられ得る。この割当ては、オーバーセグメンテーション、およびしたがってスーパーピクセルの生成を最終的に決定する。

完全に輪郭展開ベースの方法を用いるこの割当ての問題の最適な解決法を見つけるために、輪郭ピクセルｎ∈Ｎ_cをクラスタｋ∈Ｋ_nに割り当てるのに必要とされるエネルギーＥ（ｎ，ｋ）を合計する、エネルギー関数Ｅ_totalが定義される。

ここで、Ｎ_cは画像内の輪郭ピクセルのセットであり、Ｋ_nは、輪郭ピクセルｎおよび輪郭ピクセルｎが割り当てられるクラスタに隣接するクラスタのセットである。エネルギーＥ（ｎ，ｋ）は、色差関連エネルギーＥ_c（ｎ，ｋ）および空間距離関連エネルギーＥ_s（ｎ，ｋ）の重み付け合計としてさらに絞り込まれ得る。

Ｅ（ｎ，ｋ）＝（１−α）Ｅ_c（ｎ，ｋ）＋αＥ_s（ｎ，ｋ）
エネルギーＥ_c（ｎ，ｋ）は、輪郭ピクセルｎと選択された色空間内のクラスタｋの色中心との間のユークリッド距離に正比例する。同様に、Ｅ_s（ｎ，ｋ）は、ｎの空間位置とクラスタｋの中心の空間位置とのユークリッド距離に比例する。結果を画像サイズから独立させるために、空間距離が係数

でスケール化され、ここで、｜・｜はセット内の要素の数、Ｎは画像内の全てのピクセルのセット、Ｋは画像内の全クラスタのセットである。パラメータαを用いて、ユーザは、セグメンテーション結果をよりコンパクトにすることができ、または非常に細かい画像構造に対する感度をより良くすることができる。所与の数のクラスタ｜Ｋ｜およびユーザ定義されたαについて、エネルギーに関する最適なオーバーセグメンテーションは、Ｅ_totalを最小限に抑えるクラスタのコンステレーションを見つけることにより決定され得る。

割当ての問題は、局所的に最適な解に収束する反復的なロイドのアルゴリズムを適用することによって解決される。クラスタは、例えば、空間的部分空間で均一に分散された重なりのない矩形または正方形として初期化される。エネルギー項Ｅ_totalを最小限に抑えるために、アルゴリズムが、割当てステップおよび更新ステップの２つの交互のステップを反復する。割当てステップでは、セットＫ_nの場合にエネルギー項Ｅ（ｎ，ｋ）がその最小値を有するクラスタｋ∈Ｋ_nに、各輪郭ピクセルｎが割り当てられる。輪郭ピクセルでない他のピクセルが、他のピクセルの割当てを維持する。割当てに基づいて、割り当てられたピクセルの中間色および中間位置を計算することによって、クラスタ中心のパラメータが更新ステップで再推定される。割当てステップで変化が検出されないとき、または最大反復回数が実施されたときに、反復が停止する。

輪郭ピクセルｎは、異なるクラスタに割り当てられた少なくとも１つの隣接ピクセルを有するピクセルである。全ての輪郭ピクセルＮ_cのセットは、セットＮの（小さい）サブセットである。輪郭ピクセルｎが割り当てられるクラスタ及び隣接するすべてのクラスタは、ｎとは異なるクラスタに割り当てられ、セットＫ_nを形成する。

割当てステップで画像を横切るために使用される一定の走査順序によるバイアスを最小限に抑えるために、走査順序は各反復と共に変化されるべきである。考えられる走査順序は、例えば、左から右および上から下、右から左および上から下、左から右および下から上、右から左および下から上である。

Ｎ_cおよびＫ_n（ＮおよびＫではない）が考慮されてＥ_totalを決定し、処理負荷が大きく減少される。

ビデオに関する方法
最初に示したように、スーパーピクセルアルゴリズムは、例えば色またはテクスチャと同一の低レベル特徴を共有する空間的にコヒーレントなピクセルを、略同一のサイズおよび形状の小セグメントにグループ化する。したがって、１つの重要な固有の制約は、スーパーピクセルの境界が、画像内にある主なオブジェクト境界に一致すべきであることである。この主なオブジェクト境界の捕捉は、初期のスーパーピクセルセグメンテーション時に構築された画像またはビデオセグメンテーションに関してかなり重要である。さらに、ビデオコンテンツのスーパーピクセルセグメンテーションについては、トラッキングまたはビデオセグメンテーションのようなアプリケーションに対して利用され得る整合性のあるラベリングを達成するために、連続画像のスーパーピクセル間の時間的接続を捕捉する必要がある。

前述したように、本明細書に記載の方法は、M. Reso et al.:”Temporally Consistent Superpixels”,2013 IEEE International Conference on Computer Vision(ICCV),pp.385-392に記載の方法を拡大したものである。より良い理解のために、ＴＣＳの主なアイデアが、以下で簡単に要約される。

一般に、ＴＣＳは、グローバル色部分空間と複数のローカル空間部分空間とに分離される多次元特徴空間用のハイブリッドクラスタリング戦略を使用して、ビデオボリュームでエネルギー最小化クラスタリングを実施する。

より詳細には、エネルギー最小化フレームワークが、ＣＩＥ−Ｌａｂ色空間の３つの色値［ｌａｂ］とピクセル座標［ｘｙ］とを含む、５次元特徴ベクトル［ｌａｂｘｙ］に基づいて、ＴＣＳクラスタピクセルで使用される。連続画像内のスーパーピクセル間の時間的接続を捕捉するために、Ｋ画像にわたる観察窓を通してクラスタリングが実施される。分離された特徴空間は以下のように実現される。１つの時間的スーパーピクセルを表す各クラスタ中心は、完全な観察窓の１つの色中心、および観察窓内の各画像に１つずつある複数の空間中心からなる。根底にある仮定は、時間的スーパーピクセルが、連続画像で同一の色を共有すべきであるが、同一の位置を必ずしも共有すべきではないことである。

タイムラインに沿ってシフトされる観察窓について、クラスタ中心Θ_optの最適なセット、およびこれらのクラスタ中心への観察窓内側のピクセルのマッピングσ_optが得られる。したがって、画像ｋ内の位置ｘ，ｙでピクセルをクラスタ中心θ∈Θ_optに割り当てる必要のあるエネルギーを合計するエネルギー関数が定義される。この割当てまたはマッピングは、ここではσ_x,y,kで示される。

割当てに必要なエネルギーは、色依存エネルギーＥ_c（ｘ，ｙ，ｋ，σ_x,y,k）および空間エネルギーＥ_s（ｘ，ｙ，ｋ，σ_x,y,k）の重み付け合計である。両エネルギー項は、色空間および画像面のそれぞれのユークリッド距離に比例する。色感度と空間のコンパクト性との兼ね合いが、０（完全に色感度が良い）と１（完全にコンパクト）との間の範囲を有する重み付け係数αによって制御される。エネルギー関数は、期待値最大化（ＥＭ）方法と考えられ得る反復最適化方式を用いて最小化される。

反復ｌ＋１のＥステップ（期待値ステップ）では、

としてここで示される最適なマッピングの新しい推定が決定され、これは、反復ｌのＭステップ（最大化ステップ）で計算されたクラスタ中心

の最適なセットの推定に基づいて、Ｅ_totalを最小化する。

その後、割り当てられたピクセルの中間色および中間空間値を計算することによる更新マッピングの場合、最適なクラスタセット

の推定が反復ｌ＋１のＭステップで更新される。交互の２つのステップは、エネルギーＥ_totalが特定の境界未満に低下するまで、または一定の反復回数が実施されるまで継続する。ＴＣＳのために提案されたハイブリッドクラスタリングでは、観察窓内のＫ_F＜Ｋの最も将来の画像のみが、最適化中に再び割り当てられる。残りのＫ−Ｋ_F画像については、見つけられた色クラスタリングを保持するために、決定されたマッピングが維持される。

観察窓は、ビデオボリュームに沿ってシフトされ、観察窓に入る新しい画像が、以下でより詳細に説明されるように初期化される。生成された時間的に整合性のあるスーパーピクセルの空間コヒーレンスを確保するために、輪郭ベースの後処理ステップが適用される。

ＴＣＳのアイデアを再検討すると、以下の２つの所見が述べられる。（ａ）より高いランタイム性能を得るために、初期のエネルギー最小化クラスタおよび輪郭ベースの後処理が別のステップとなる。（ｂ）観察窓に加えられた新しい画像は、先の画像の空間中心のみを新しい画像に投射することによって初期化される。結果として、前に画像内で得られた形状情報は、少なくとも部分的に廃棄される。

ＴＣＳとは対照的に、提案された方法のエネルギー関数Ｅ_totalは、スーパーピクセルの輪郭（または境界）のピクセル、いわゆる輪郭ピクセルについてのみ最適化される。位置ｘ，ｙの輪郭ピクセルは、少なくとも１つのピクセルをその４接続近傍

に有し、これは、異なるクラスタ、すなわち時間的スーパーピクセルに割り当てられるか、または割り当てられない。割り当てられないピクセルの発生およびその対処について、以下で詳細に説明する。さらに、輪郭ピクセルの割当ては、

におけるピクセルのクラスタの１つに変化され得るに過ぎない。最適化のＥステップは、

と表され、ここで

は、フレームｋ内の反復ステップｌ後の輪郭ピクセルのセットである。最適化は、観察窓内のＫ_Fの最も将来の画像について行われる。Ｍステップは修正されないままである。輪郭ピクセルのさらなる割当て変化がない場合、または最大反復回数に達した場合、最適化を終了できる。

上記の説明に加えて、２つの制約がある。第１に、割当て変化は、スーパーピクセルの空間コヒーレンスが保証される場合にのみ行われる。この制約は、図２に示されるように、時間的スーパーピクセルの断片が最適化中に分離されることを妨げる。３つのサブ図面は、２つのスーパーピクセル（ライトグレーおよびダークグレー）間の５×５ピクセル近傍を示す。中心にあるピクセル（（ｂ）のミディアムグレー）がその割当てを変化させ、その右の２つのピクセルが、ライトグレーのスーパーピクセルと接続しなくなるため、主要部から分離されることになる（（ｃ）で例示的に示す）。したがって、このような状況で、割当て変化は実施されない。

第２に、輪郭ピクセルが割り当てられない場合、輪郭ピクセルは、

に基づいて、その隣接ピクセルの１つのクラスタに割り当てられる。結果として、空間コヒーレンスを確保するためにＴＣＳで必要とされる追加の後処理ステップは、必要とされなくなり省略され得る。特に第１の制約は、時間的スーパーピクセルがビデオコンテンツに適応し得る方法の柔軟性をある程度制限するが、実験は、時間的スーパーピクセルがセグメンテーション精度に悪影響を与えないことを証明している。

前述したように、ＴＣＳは、空間中心を観察窓に入る新しい画像に投射することのみによって新しい画像を初期化する。したがって、クラスタに割り当てられた全てのピクセル上で決定された密なオプティカルフローの重み付け平均が、投射に使用される。特に均質な色または構造を有する画像エリアについて、これが、画像から画像へのスーパーピクセルの不安定な位置決めをもたらすおそれがある。スーパーピクセルセグメンテーションに依拠するアプリケーションによっては、これは望ましくない結果となり得る。この問題を克服するために、１つの解決法は、スーパーピクセルの形状を、初期化される新しい画像に転写することである。このことは、それが少なくともＥＭフレームワークの次の最適化の開始となるため、前の画像で得られた形状情報およびスーパーピクセルコンステレーションの保持を助ける。

このような新しい画像の初期化を実現するいくつかの方法がある。１つは、図３（ａ）に示すように、中間オプティカルフローを用いた完全なスーパーピクセルラベルのシフトである。別の方法は、スーパーピクセルの各ピクセルについて予測された密なオプティカルフローの使用である。したがって、図３（ｂ）に示されるように、スーパーピクセルラベルが、新しい画像に投射される。これら２つの選択肢は以下の欠点を有する。すなわち、新しい画像に投射された２つのスーパーピクセルが重なる場合、少なくともこの衝突を検出する必要がある。加えて、例えば隣接するスーパーピクセルが互いから離れて投射される場合、初期化されなければならない画像内に割り当てられない部分があることが可能である。両方のケースが、引き裂かれたスーパーピクセルラベル（ライトグレーのストライプ）および重なりエリア（黒）を示す図４に示され、同様の方法で、密なオプティカルフローによるピクセルのシフトに当てはまる。

これらの問題を回避するために、観察窓ｋ＋１に入る画像から窓内の前の画像ｋまで計算された、密な後方へのオプティカルフローを使用することが提案される。この方法は図３（ｃ）に示される。水平方向および垂直方向および有効な画像エリアの外側を指すクリッピングコンポーネントについて、後方へのオプティカルフローコンポーネントｕおよびｖを最も近い整数に丸め、

として示される新しい画像ｋ＋１のクラスタ中心へのピクセルの初期のマッピングが、画像ｋのＬ反復後に前のマッピングから、以下の通り導かれ得る。

この方法は、上記の問題を解決し、各ピクセルの明白なラベルをもたらす。前方へのオプティカルフローについても存在する残された唯一の問題は、投射されたスーパーピクセルが断片化され得、すなわち、投射されたスーパーピクセルが空間的にコヒーレントでないことである。スーパーピクセルが断片化される場合には、最大の断片が決定され、他の断片は割当てなしに設定され、それらの断片は輪郭ピクセルの部分であるため最適化のＥステップにおいて対処される。

M. Reso et al.:”Temporally Consistent Superpixels”,2013 IEEE International Conference on Computer Vision(ICCV),pp.385-392では、例えば隠蔽、非隠蔽（ｄｉｓｏｃｃｌｕｓｉｏｎ）、オブジェクトのカメラへの接近、およびズームである発見的方法が、ビデオボリュームの構造変化を受けるように導入された。時間的スーパーピクセルを分離または終了する決定は、スーパーピクセルサイズの線形成長の仮定に基づいて行われた。加えて、別の平衡ステップが実施されて、フレーム当たりのスーパーピクセル数を一定に維持した。スーパーピクセルの処理を簡単にするために、スーパーピクセルサイズ用の上部境界および下部境界を導入することにより、これら２つのステップが１つのステップに置き換えられる。最適化後の上部境界よりも大きいスーパーピクセルは分離され、最適化後の下部境界よりも小さいスーパーピクセルは終了される。したがって、これらの境界は、ユーザにより初期に特定されたスーパーピクセル数に結びつけられる。したがって、ユーザは、画像Ｎ_minおよびＮ_maxのそれぞれについてのスーパーピクセルの最小数および最大数を定義する。定義されたスーパーピクセルの最小数および最大数に基づいて、上部境界および下部境界Ａ_lowおよびＡ_upが以下から導き出される。

および

ここで｜Ｐ｜は画像当たりのピクセル数である。本実現では、スーパーピクセル数がＮとして特定され、Ｎ_minおよびＮ_maxが

および２Ｎにそれぞれ設定される。

提案された方法を要約すると、ハイブリッドクラスタリング方式が、割当てステップにおいて、スライディング窓の可変画像内の輪郭ピクセルのみを処理するように拡大される。スライディング窓の可変画像は、現在画像および将来画像である。

スライディング窓に入る新しい画像は、以下の方法で初期化される。スライディング窓に入る新しい画像とスライディング窓内の最新の画像との間で、後方へのフローが計算される。新しい画像内の各ピクセルについてのこの後方へのフローに基づいて、最新の画像の対応するピクセルが定義される。その後、新しい画像内の各ピクセルが、最新の画像内の対応するピクセルが割り当てられるのと同一のクラスタに割り当てられる。残された唯一の問題は、投射されたスーパーピクセルが断片化され得、すなわち、投射されたスーパーピクセルが空間的にコヒーレントでないことである。断片化されたスーパーピクセルの場合、最大の断片が決定され、他の断片に属するピクセルは割当てなしに設定される。割り当てられないピクセルは、最適化のＥステップにおいて対処される。

スーパーピクセルの空間コヒーレンスが保証される場合にのみ割当て変化が行われ、これは時間的スーパーピクセルの断片が最適化中に分離されることを妨げる。加えて、任意の割り当てられない輪郭ピクセルは、その隣接するピクセルの１つのクラスタに割り当てられる。結果として、空間コヒーレンスを確保するために、追加の後処理ステップは必要とされない。

初期化のための輪郭伝搬を含むビデオボリュームの輪郭展開ベースのクラスタリングは、異なる種類のカメラ運動、非剛体の動き、および動きぼけを伴うデータセットにおいても、高い時間的整合性および高い境界／輪郭精度をもたらす。さらに、選択的処理（割当てステップ中に輪郭ピクセルのみが処理される）により、競争力のあるランタイム性能が達成される。

画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための本発明による方法が、図５に概略的に示される。第１のステップでは、例えば、第１の画像のピクセルをスーパーピクセルにクラスタリングすることにより、または第１の画像についての初期のクラスタ割当てを検索し、第１の画像のクラスタ割当てに関して輪郭ピクセルのみを処理することにより、画像のシーケンスのうちの第１の画像についてクラスタ割当てが生成される（１０）。後続の画像は、後方へのオプティカルフローを用いたラベル伝搬に基づいて初期化される（１１）。その後、画像のシーケンスの後続の画像について、輪郭ピクセルのみが後続の画像のクラスタ割当てに関して処理される（１２）。

図６は、画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための本発明による装置２０を概略的に示す。装置２０は、画像のシーケンスを受けるための入力部２１を備える。クラスタ割当て生成部２２は、例えば、第１の画像のピクセルをスーパーピクセルにクラスタリングすることにより、または第１の画像の初期のクラスタ割当てを検索し、第１の画像のクラスタ割当てに関して輪郭ピクセルのみを処理することにより、画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成する（１０）。ラベル伝搬部２３は、後方へのオプティカルフローを用いたラベル伝搬に基づいて後続の画像を初期化する（１１）。その後、輪郭ピクセルプロセッサ２４は、画像のシーケンスのうちの後続の画像についての後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理する（１２）。結果として生じるスーパーピクセルは、好ましくは、出力部２５で使用可能とされる。当然、装置２０の異なるユニット２２、２３、２４は、同様に、単一のユニットに完全にまたは部分的に組み合わせされ、またはプロセッサで動作するソフトウェアとして実現され得る。また、入力部２１および出力部２５は、同様に、単一の双方向インタフェースを形成することができる。

Claims

画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための方法であって、
前記画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成するステップ（１０）と、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するステップ（１１）と、
前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップ（１２）と、
を含む、前記方法。
前記画像のシーケンスのうちの前記第１の画像についての前記クラスタ割当てを生成するステップ（１０）が、前記第１の画像のピクセルをスーパーピクセルにクラスタリングするステップを含む、請求項１に記載の方法。
前記画像のシーケンスのうちの前記第１の画像についての前記クラスタ割当てを生成するステップ（１０）が、前記第１の画像についての初期のクラスタ割当てを検索するステップと、前記第１の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む、請求項１に記載の方法。
ピクセルの割当て変化が、前記スーパーピクセルの空間コヒーレンスが保証される場合にのみ行われる、請求項１乃至３のいずれか一項に記載の方法。
スーパーピクセルの断片化の場合、前記スーパーピクセルの最大の断片が決定され、前記スーパーピクセルの残りの断片に属するピクセルが割当てなしに設定される、請求項１乃至４のいずれか一項に記載の方法。
任意の割り当てられないピクセルが、その隣接するピクセルの１つのクラスタに割り当てられる、請求項５に記載の方法。
上部境界よりも大きいスーパーピクセルを分離するステップと、下部境界よりも小さいスーパーピクセルを終了させるステップとをさらに含む、請求項１乃至６のいずれか一項に記載の方法。
前記上部境界および前記下部境界は、画像当たりのピクセル数、ならびに画像当たりのスーパーピクセルの最小数および最大数のそれぞれから決定される、請求項７に記載の方法。
画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するように構成された装置（２０）であって、
前記画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成する（１０）ように構成されたクラスタ割当て生成部（２２）と、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化する（１１）ように構成されたラベル伝搬部（２３）と、
前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理する（１２）ように構成された輪郭ピクセルプロセッサ（２４）と、
を備える、前記装置。
画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令をその中に格納するコンピュータ可読記憶媒体であって、
前記命令が、コンピュータによって実行されるとき、前記コンピュータに、
前記画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成させ（１０）、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ（１１）、
前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる（１２）、
前記コンピュータ可読記憶媒体。
画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令を含むコンピュータプログラムであって、
前記命令が、コンピュータによって実行されるとき、前記コンピュータに、
前記画像のシーケンスのうちの第１の画像についてのクラスタ割当てを生成させ（１０）、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ（１１）、
前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる（１２）、
前記コンピュータプログラム。