JP2016009488A - 時間的に整合性のあるスーパーピクセルを生成するための方法および装置 - Google Patents

時間的に整合性のあるスーパーピクセルを生成するための方法および装置 Download PDF

Info

Publication number
JP2016009488A
JP2016009488A JP2015117412A JP2015117412A JP2016009488A JP 2016009488 A JP2016009488 A JP 2016009488A JP 2015117412 A JP2015117412 A JP 2015117412A JP 2015117412 A JP2015117412 A JP 2015117412A JP 2016009488 A JP2016009488 A JP 2016009488A
Authority
JP
Japan
Prior art keywords
images
image
sequence
superpixels
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015117412A
Other languages
English (en)
Inventor
レゾ マティアス
Matthias Reso
レゾ マティアス
ジャカルスキー ヨエルン
Jachalsky Joern
ジャカルスキー ヨエルン
ローゼンハン ボーデ
Rosenhahn Bodo
ローゼンハン ボーデ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP14306209.9A external-priority patent/EP2980754A1/en
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2016009488A publication Critical patent/JP2016009488A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

【課題】時間的に整合性のあるスーパーピクセルを生成するための方法及び装置を提供する。【解決手段】クラスタ割当て生成部が、第1の画像のピクセルをスーパーピクセルにクラスタリングすることにより又は第1の画像についての初期のクラスタ割当てを検索し、第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理することにより、画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成する10。ラベル伝搬部が、後方へのオプティカルフローを用いたラベル伝搬に基づいて後続の画像を初期化する11。その後、輪郭ピクセルプロセッサが、画像のシーケンスのうちの後続の画像についての後続のクラスタ割当てに関して輪郭ピクセルのみを処理する12。【選択図】図5

Description

本発明は、ビデオシーケンス用の時間的に整合性のあるスーパーピクセルを生成するための方法および装置に関する。より詳細には、輪郭展開(evolution)を利用する、時間的に整合性のあるスーパーピクセルを生成するための方法および装置が記載される。
スーパーピクセルアルゴリズムは、ビデオセグメンテーション、トラッキング、多眼式オブジェクトセグメンテーション、シーンフロー、屋内シーンの3Dレイアウト推定、対話式シーンモデリング、画像構文解析、および意味セグメンテーション等の広範囲のコンピュータ視覚アプリケーションのための、非常に有用で、ますます普及している前処理ステップを表す。類似のピクセルをいわゆるスーパーピクセルにグループ化することは、画像プリミティブの大きな削減をもたらす。この結果、後続の処理ステップに対する計算効率が向上し、ピクセルレベルでは計算上実現不可能なより複雑なアルゴリズムが可能となり、領域ベースの特徴に対する空間サポートを生み出す。
スーパーピクセルアルゴリズムは、ピクセルをスーパーピクセルにグループ化する。X. Ren et al.:”Learning a classification model for segmentation”,2003 IEEE International Conference on Computer Vision(ICCV),pp.10-17に示すように、スーパーピクセルはローカル、コヒーレントであり、注目のスケールでのセグメンテーションに必要な構造の大部分を保持する。スーパーピクセルは、サイズおよび形状において略均質であるべきである。多くのスーパーピクセル方法が、主に静止画像を対象としており、したがってビデオシーケンスに適用されたときに、制限された時間的整合性を提供するだけであるか、または全く整合性を提供しないが、一部の方法はビデオシーケンスを対象とする(O. Veksler et al.:”Superpixels and Supervoxels in an Energy Optimization Framework”,Proceedings of the 11th European conference on Computer vision:Part V(ECCV’10)(2010),pp.211-224、及びA. Levinshtein et al.:”Spatiotemporal Closure”,Proceedings of the 10th Asian conference on Computer vision,Part I(ACCV’10)(2010),pp.369-382)。これらの方法は、時間的整合性の問題に対処し始める。
スーパーピクセルの生成は、それ自体、必ずしも空間的にコヒーレントなスーパーピクセルをもたらすわけではない。したがって、クラスタに含まれるピクセル、したがってスーパーピクセルの空間接続性を確保するための後処理ステップが必要とされる。加えて、A. Schick et al.:”Measuring and Evaluating the Compactness of Superpixels”,21st International Conference on Pattern Recognition (ICPR)(2012),pp.930-934では、R. Achanta et al.:”SLIC superpixels compared to state-of-the-art superpixel methods”,IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.34(2012),pp.2274-2282で提案された後処理方法が、断片と、断片が割り当てられるスーパーピクセルとの間の類似性測度を考慮することなく、孤立したスーパーピクセル断片を任意の近傍スーパーピクセルに割り当てることが述べられた。A. Schick et al.:”Measuring and Evaluating the Compactness of Superpixels”,21st International Conference on Pattern Recognition (ICPR)(2012),pp.930-934で提案された輪郭展開方法は、反復回数の多さという犠牲を払って、この欠点を克服することができる。加えて、これらは静止画像に着目することが多いため、時間的整合性の問題は未解決のままとなる。
本発明の目的は、画像のシーケンスのうちの画像に関連する、時間的に整合性のあるスーパーピクセルを生成するための改良された解決法を提案することである。
本発明によれば、画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための方法が、
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成するステップと、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するステップと、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む。
したがって、画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するように構成された装置は、
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成するように構成されたクラスタ割当て生成部と、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するように構成されたラベル伝搬部と、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するように構成された輪郭ピクセルプロセッサとを備える。
また、コンピュータ可読記憶媒体が、画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令をその中に格納し、
上記命令は、コンピュータによって実行されるとき、上記コンピュータに、
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる。
さらに、コンピュータプログラムは、画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令を含み、上記命令は、コンピュータによって実行されるとき、上記コンピュータに、
上記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ、
後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ、
上記画像のシーケンスのうちの後続の画像について、上記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる。
提案された解決法は、M. Reso et al.:”Temporally Consistent Superpixels”,2013 IEEE International Conference on Computer Vision(ICCV),pp.385-392に記載のクラスタリングベースのスーパーピクセルの方法のための輪郭展開ベースの戦略を導入する。クラスタリング中にビデオボリュームの全てのピクセルを処理する代わりに、輪郭ピクセルのみが処理される。したがって、各反復において、輪郭ピクセルのみを変化でき、すなわち、異なるクラスタに割り当てられ得る。他のピクセルは、上記他のピクセルの前の割当てを維持する。ビデオボリュームに入る新しい画像が、後方へのフロー情報を用いた最新の画像の輪郭を伝搬することによって初期化される。
一実施形態では、上記画像のシーケンスのうちの上記第1の画像についての上記クラスタ割当てを生成するステップが、上記第1の画像のピクセルをスーパーピクセルにクラスタリングするステップを含む。
別の実施形態では上記画像のシーケンスのうちの上記第1の画像についての上記クラスタ割当てを生成するステップが、上記第1の画像についての初期のクラスタ割当てを検索するステップと、第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む。上記第1の画像についての上記初期のクラスタ割当ては、例えば、正方形、矩形、または六角形であり得る幾何学形状を使用した上記画像のモザイク加工によって形成される。同一の形状で覆われた全てのピクセルが、同一のクラスタに割り当てられる。これにより、最終的に上記初期のクラスタ割当てが生じる。
ビデオシーケンスのスーパーピクセルのための完全に輪郭ベースの方法が提案され、これは期待値最大化(EM)フレームワークで表され、空間的にコヒーレントで時間的に整合性のあるスーパーピクセルを生成する。後方へのオプティカルフローを用いた効率的なラベル伝搬は、適切な場合にスーパーピクセル形状の保持を促す。
提案された方法では、一般に、クラスタリング後の空間コヒーレンスを確保するために後処理ステップは必要とされない。同時に、生成されたスーパーピクセルは、高い境界/輪郭精度および高い時間的整合性を示す。加えて、方法は、選択的処理によって、かなり高速で作用する。生成されたスーパーピクセルは、セグメンテーション、画像構文解析から分類等にわたる広範囲のコンピュータ視覚アプリケーションに有利である。
より良い理解のために、次に図面を参照しながら以下の説明において本発明がより詳細に説明される。本発明がこの例示的な実施形態に限定されないこと、および添付の特許請求の範囲で定義される本発明の範囲から逸脱することなく、特定の特徴が適宜組み合わされ、かつ/または修正され得ることを理解されたい。
時間的整合性を有するスーパーピクセルの例を示す図である。 2つのスーパーピクセル間の5×5ピクセル近傍を示す図である。 新しいフレームへのスーパーピクセルのラベル伝搬の可能な変形例を示す図である。 中間オプティカルフローにより全スーパーピクセルを伝搬するときに生じる問題を説明する図である。 本発明による方法を概略的に示す図である。 本発明による方法を実施するように構成された装置を概略的に示す図である。
図1は、時間的整合性を有するスーパーピクセルの例を示す。図1(a)はオリジナル画像を示すが、図1(b)では、ビデオの完全なセグメンテーションが実施され、スーパーピクセルのサブセットが1つの画像内において手動で選択され、視覚化のために濃淡値が提供される。図1(c)は、いくつかの画像の後の同一のサブセットを示す。同一の濃淡値は、時間的なつながりを意味する。
主なアイデアのより良い理解のために、以下で、輪郭展開ベースの方法が、最初に静止画像に関して簡単に説明され、その後、わずかに異なる説明的方法を用いてビデオにまで拡大される。
静止画像に関する簡単な説明
クラスタリングベースの方法の場合、画像のピクセルは、各次元がピクセルの色チャネルまたは画像座標に対応する多次元特徴空間内のデータ点として見られる。スーパーピクセルは、この多次元特徴空間内のクラスタによって表され、各データ点は1つのクラスタのみに割り当てられ得る。この割当ては、オーバーセグメンテーション、およびしたがってスーパーピクセルの生成を最終的に決定する。
完全に輪郭展開ベースの方法を用いるこの割当ての問題の最適な解決法を見つけるために、輪郭ピクセルn∈Ncをクラスタk∈Knに割り当てるのに必要とされるエネルギーE(n,k)を合計する、エネルギー関数Etotalが定義される。
ここで、Ncは画像内の輪郭ピクセルのセットであり、Knは、輪郭ピクセルnおよび輪郭ピクセルnが割り当てられるクラスタに隣接するクラスタのセットである。エネルギーE(n,k)は、色差関連エネルギーEc(n,k)および空間距離関連エネルギーEs(n,k)の重み付け合計としてさらに絞り込まれ得る。
E(n,k)=(1−α)Ec(n,k)+αEs(n,k)
エネルギーEc(n,k)は、輪郭ピクセルnと選択された色空間内のクラスタkの色中心との間のユークリッド距離に正比例する。同様に、Es(n,k)は、nの空間位置とクラスタkの中心の空間位置とのユークリッド距離に比例する。結果を画像サイズから独立させるために、空間距離が係数
でスケール化され、ここで、|・|はセット内の要素の数、Nは画像内の全てのピクセルのセット、Kは画像内の全クラスタのセットである。パラメータαを用いて、ユーザは、セグメンテーション結果をよりコンパクトにすることができ、または非常に細かい画像構造に対する感度をより良くすることができる。所与の数のクラスタ|K|およびユーザ定義されたαについて、エネルギーに関する最適なオーバーセグメンテーションは、Etotalを最小限に抑えるクラスタのコンステレーションを見つけることにより決定され得る。
割当ての問題は、局所的に最適な解に収束する反復的なロイドのアルゴリズムを適用することによって解決される。クラスタは、例えば、空間的部分空間で均一に分散された重なりのない矩形または正方形として初期化される。エネルギー項Etotalを最小限に抑えるために、アルゴリズムが、割当てステップおよび更新ステップの2つの交互のステップを反復する。割当てステップでは、セットKnの場合にエネルギー項E(n,k)がその最小値を有するクラスタk∈Knに、各輪郭ピクセルnが割り当てられる。輪郭ピクセルでない他のピクセルが、他のピクセルの割当てを維持する。割当てに基づいて、割り当てられたピクセルの中間色および中間位置を計算することによって、クラスタ中心のパラメータが更新ステップで再推定される。割当てステップで変化が検出されないとき、または最大反復回数が実施されたときに、反復が停止する。
輪郭ピクセルnは、異なるクラスタに割り当てられた少なくとも1つの隣接ピクセルを有するピクセルである。全ての輪郭ピクセルNcのセットは、セットNの(小さい)サブセットである。輪郭ピクセルnが割り当てられるクラスタ及び隣接するすべてのクラスタは、nとは異なるクラスタに割り当てられ、セットKnを形成する。
割当てステップで画像を横切るために使用される一定の走査順序によるバイアスを最小限に抑えるために、走査順序は各反復と共に変化されるべきである。考えられる走査順序は、例えば、左から右および上から下、右から左および上から下、左から右および下から上、右から左および下から上である。
cおよびKn(NおよびKではない)が考慮されてEtotalを決定し、処理負荷が大きく減少される。
ビデオに関する方法
最初に示したように、スーパーピクセルアルゴリズムは、例えば色またはテクスチャと同一の低レベル特徴を共有する空間的にコヒーレントなピクセルを、略同一のサイズおよび形状の小セグメントにグループ化する。したがって、1つの重要な固有の制約は、スーパーピクセルの境界が、画像内にある主なオブジェクト境界に一致すべきであることである。この主なオブジェクト境界の捕捉は、初期のスーパーピクセルセグメンテーション時に構築された画像またはビデオセグメンテーションに関してかなり重要である。さらに、ビデオコンテンツのスーパーピクセルセグメンテーションについては、トラッキングまたはビデオセグメンテーションのようなアプリケーションに対して利用され得る整合性のあるラベリングを達成するために、連続画像のスーパーピクセル間の時間的接続を捕捉する必要がある。
前述したように、本明細書に記載の方法は、M. Reso et al.:”Temporally Consistent Superpixels”,2013 IEEE International Conference on Computer Vision(ICCV),pp.385-392に記載の方法を拡大したものである。より良い理解のために、TCSの主なアイデアが、以下で簡単に要約される。
一般に、TCSは、グローバル色部分空間と複数のローカル空間部分空間とに分離される多次元特徴空間用のハイブリッドクラスタリング戦略を使用して、ビデオボリュームでエネルギー最小化クラスタリングを実施する。
より詳細には、エネルギー最小化フレームワークが、CIE−Lab色空間の3つの色値[lab]とピクセル座標[xy]とを含む、5次元特徴ベクトル[labxy]に基づいて、TCSクラスタピクセルで使用される。連続画像内のスーパーピクセル間の時間的接続を捕捉するために、K画像にわたる観察窓を通してクラスタリングが実施される。分離された特徴空間は以下のように実現される。1つの時間的スーパーピクセルを表す各クラスタ中心は、完全な観察窓の1つの色中心、および観察窓内の各画像に1つずつある複数の空間中心からなる。根底にある仮定は、時間的スーパーピクセルが、連続画像で同一の色を共有すべきであるが、同一の位置を必ずしも共有すべきではないことである。
タイムラインに沿ってシフトされる観察窓について、クラスタ中心Θoptの最適なセット、およびこれらのクラスタ中心への観察窓内側のピクセルのマッピングσoptが得られる。したがって、画像k内の位置x,yでピクセルをクラスタ中心θ∈Θoptに割り当てる必要のあるエネルギーを合計するエネルギー関数が定義される。この割当てまたはマッピングは、ここではσx,y,kで示される。
割当てに必要なエネルギーは、色依存エネルギーEc(x,y,k,σx,y,k)および空間エネルギーEs(x,y,k,σx,y,k)の重み付け合計である。両エネルギー項は、色空間および画像面のそれぞれのユークリッド距離に比例する。色感度と空間のコンパクト性との兼ね合いが、0(完全に色感度が良い)と1(完全にコンパクト)との間の範囲を有する重み付け係数αによって制御される。エネルギー関数は、期待値最大化(EM)方法と考えられ得る反復最適化方式を用いて最小化される。
反復l+1のEステップ(期待値ステップ)では、
としてここで示される最適なマッピングの新しい推定が決定され、これは、反復lのMステップ(最大化ステップ)で計算されたクラスタ中心
の最適なセットの推定に基づいて、Etotalを最小化する。
その後、割り当てられたピクセルの中間色および中間空間値を計算することによる更新マッピングの場合、最適なクラスタセット
の推定が反復l+1のMステップで更新される。交互の2つのステップは、エネルギーEtotalが特定の境界未満に低下するまで、または一定の反復回数が実施されるまで継続する。TCSのために提案されたハイブリッドクラスタリングでは、観察窓内のKF<Kの最も将来の画像のみが、最適化中に再び割り当てられる。残りのK−KF画像については、見つけられた色クラスタリングを保持するために、決定されたマッピングが維持される。
観察窓は、ビデオボリュームに沿ってシフトされ、観察窓に入る新しい画像が、以下でより詳細に説明されるように初期化される。生成された時間的に整合性のあるスーパーピクセルの空間コヒーレンスを確保するために、輪郭ベースの後処理ステップが適用される。
TCSのアイデアを再検討すると、以下の2つの所見が述べられる。(a)より高いランタイム性能を得るために、初期のエネルギー最小化クラスタおよび輪郭ベースの後処理が別のステップとなる。(b)観察窓に加えられた新しい画像は、先の画像の空間中心のみを新しい画像に投射することによって初期化される。結果として、前に画像内で得られた形状情報は、少なくとも部分的に廃棄される。
TCSとは対照的に、提案された方法のエネルギー関数Etotalは、スーパーピクセルの輪郭(または境界)のピクセル、いわゆる輪郭ピクセルについてのみ最適化される。位置x,yの輪郭ピクセルは、少なくとも1つのピクセルをその4接続近傍
に有し、これは、異なるクラスタ、すなわち時間的スーパーピクセルに割り当てられるか、または割り当てられない。割り当てられないピクセルの発生およびその対処について、以下で詳細に説明する。さらに、輪郭ピクセルの割当ては、
におけるピクセルのクラスタの1つに変化され得るに過ぎない。最適化のEステップは、
と表され、ここで
は、フレームk内の反復ステップl後の輪郭ピクセルのセットである。最適化は、観察窓内のKFの最も将来の画像について行われる。Mステップは修正されないままである。輪郭ピクセルのさらなる割当て変化がない場合、または最大反復回数に達した場合、最適化を終了できる。
上記の説明に加えて、2つの制約がある。第1に、割当て変化は、スーパーピクセルの空間コヒーレンスが保証される場合にのみ行われる。この制約は、図2に示されるように、時間的スーパーピクセルの断片が最適化中に分離されることを妨げる。3つのサブ図面は、2つのスーパーピクセル(ライトグレーおよびダークグレー)間の5×5ピクセル近傍を示す。中心にあるピクセル((b)のミディアムグレー)がその割当てを変化させ、その右の2つのピクセルが、ライトグレーのスーパーピクセルと接続しなくなるため、主要部から分離されることになる((c)で例示的に示す)。したがって、このような状況で、割当て変化は実施されない。
第2に、輪郭ピクセルが割り当てられない場合、輪郭ピクセルは、
に基づいて、その隣接ピクセルの1つのクラスタに割り当てられる。結果として、空間コヒーレンスを確保するためにTCSで必要とされる追加の後処理ステップは、必要とされなくなり省略され得る。特に第1の制約は、時間的スーパーピクセルがビデオコンテンツに適応し得る方法の柔軟性をある程度制限するが、実験は、時間的スーパーピクセルがセグメンテーション精度に悪影響を与えないことを証明している。
前述したように、TCSは、空間中心を観察窓に入る新しい画像に投射することのみによって新しい画像を初期化する。したがって、クラスタに割り当てられた全てのピクセル上で決定された密なオプティカルフローの重み付け平均が、投射に使用される。特に均質な色または構造を有する画像エリアについて、これが、画像から画像へのスーパーピクセルの不安定な位置決めをもたらすおそれがある。スーパーピクセルセグメンテーションに依拠するアプリケーションによっては、これは望ましくない結果となり得る。この問題を克服するために、1つの解決法は、スーパーピクセルの形状を、初期化される新しい画像に転写することである。このことは、それが少なくともEMフレームワークの次の最適化の開始となるため、前の画像で得られた形状情報およびスーパーピクセルコンステレーションの保持を助ける。
このような新しい画像の初期化を実現するいくつかの方法がある。1つは、図3(a)に示すように、中間オプティカルフローを用いた完全なスーパーピクセルラベルのシフトである。別の方法は、スーパーピクセルの各ピクセルについて予測された密なオプティカルフローの使用である。したがって、図3(b)に示されるように、スーパーピクセルラベルが、新しい画像に投射される。これら2つの選択肢は以下の欠点を有する。すなわち、新しい画像に投射された2つのスーパーピクセルが重なる場合、少なくともこの衝突を検出する必要がある。加えて、例えば隣接するスーパーピクセルが互いから離れて投射される場合、初期化されなければならない画像内に割り当てられない部分があることが可能である。両方のケースが、引き裂かれたスーパーピクセルラベル(ライトグレーのストライプ)および重なりエリア(黒)を示す図4に示され、同様の方法で、密なオプティカルフローによるピクセルのシフトに当てはまる。
これらの問題を回避するために、観察窓k+1に入る画像から窓内の前の画像kまで計算された、密な後方へのオプティカルフローを使用することが提案される。この方法は図3(c)に示される。水平方向および垂直方向および有効な画像エリアの外側を指すクリッピングコンポーネントについて、後方へのオプティカルフローコンポーネントuおよびvを最も近い整数に丸め、
として示される新しい画像k+1のクラスタ中心へのピクセルの初期のマッピングが、画像kのL反復後に前のマッピングから、以下の通り導かれ得る。
この方法は、上記の問題を解決し、各ピクセルの明白なラベルをもたらす。前方へのオプティカルフローについても存在する残された唯一の問題は、投射されたスーパーピクセルが断片化され得、すなわち、投射されたスーパーピクセルが空間的にコヒーレントでないことである。スーパーピクセルが断片化される場合には、最大の断片が決定され、他の断片は割当てなしに設定され、それらの断片は輪郭ピクセルの部分であるため最適化のEステップにおいて対処される。
M. Reso et al.:”Temporally Consistent Superpixels”,2013 IEEE International Conference on Computer Vision(ICCV),pp.385-392では、例えば隠蔽、非隠蔽(disocclusion)、オブジェクトのカメラへの接近、およびズームである発見的方法が、ビデオボリュームの構造変化を受けるように導入された。時間的スーパーピクセルを分離または終了する決定は、スーパーピクセルサイズの線形成長の仮定に基づいて行われた。加えて、別の平衡ステップが実施されて、フレーム当たりのスーパーピクセル数を一定に維持した。スーパーピクセルの処理を簡単にするために、スーパーピクセルサイズ用の上部境界および下部境界を導入することにより、これら2つのステップが1つのステップに置き換えられる。最適化後の上部境界よりも大きいスーパーピクセルは分離され、最適化後の下部境界よりも小さいスーパーピクセルは終了される。したがって、これらの境界は、ユーザにより初期に特定されたスーパーピクセル数に結びつけられる。したがって、ユーザは、画像NminおよびNmaxのそれぞれについてのスーパーピクセルの最小数および最大数を定義する。定義されたスーパーピクセルの最小数および最大数に基づいて、上部境界および下部境界AlowおよびAupが以下から導き出される。
および
ここで|P|は画像当たりのピクセル数である。本実現では、スーパーピクセル数がNとして特定され、NminおよびNmax
および2Nにそれぞれ設定される。
提案された方法を要約すると、ハイブリッドクラスタリング方式が、割当てステップにおいて、スライディング窓の可変画像内の輪郭ピクセルのみを処理するように拡大される。スライディング窓の可変画像は、現在画像および将来画像である。
スライディング窓に入る新しい画像は、以下の方法で初期化される。スライディング窓に入る新しい画像とスライディング窓内の最新の画像との間で、後方へのフローが計算される。新しい画像内の各ピクセルについてのこの後方へのフローに基づいて、最新の画像の対応するピクセルが定義される。その後、新しい画像内の各ピクセルが、最新の画像内の対応するピクセルが割り当てられるのと同一のクラスタに割り当てられる。残された唯一の問題は、投射されたスーパーピクセルが断片化され得、すなわち、投射されたスーパーピクセルが空間的にコヒーレントでないことである。断片化されたスーパーピクセルの場合、最大の断片が決定され、他の断片に属するピクセルは割当てなしに設定される。割り当てられないピクセルは、最適化のEステップにおいて対処される。
スーパーピクセルの空間コヒーレンスが保証される場合にのみ割当て変化が行われ、これは時間的スーパーピクセルの断片が最適化中に分離されることを妨げる。加えて、任意の割り当てられない輪郭ピクセルは、その隣接するピクセルの1つのクラスタに割り当てられる。結果として、空間コヒーレンスを確保するために、追加の後処理ステップは必要とされない。
初期化のための輪郭伝搬を含むビデオボリュームの輪郭展開ベースのクラスタリングは、異なる種類のカメラ運動、非剛体の動き、および動きぼけを伴うデータセットにおいても、高い時間的整合性および高い境界/輪郭精度をもたらす。さらに、選択的処理(割当てステップ中に輪郭ピクセルのみが処理される)により、競争力のあるランタイム性能が達成される。
画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための本発明による方法が、図5に概略的に示される。第1のステップでは、例えば、第1の画像のピクセルをスーパーピクセルにクラスタリングすることにより、または第1の画像についての初期のクラスタ割当てを検索し、第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理することにより、画像のシーケンスのうちの第1の画像についてクラスタ割当てが生成される(10)。後続の画像は、後方へのオプティカルフローを用いたラベル伝搬に基づいて初期化される(11)。その後、画像のシーケンスの後続の画像について、輪郭ピクセルのみが後続の画像のクラスタ割当てに関して処理される(12)。
図6は、画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための本発明による装置20を概略的に示す。装置20は、画像のシーケンスを受けるための入力部21を備える。クラスタ割当て生成部22は、例えば、第1の画像のピクセルをスーパーピクセルにクラスタリングすることにより、または第1の画像の初期のクラスタ割当てを検索し、第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理することにより、画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成する(10)。ラベル伝搬部23は、後方へのオプティカルフローを用いたラベル伝搬に基づいて後続の画像を初期化する(11)。その後、輪郭ピクセルプロセッサ24は、画像のシーケンスのうちの後続の画像についての後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理する(12)。結果として生じるスーパーピクセルは、好ましくは、出力部25で使用可能とされる。当然、装置20の異なるユニット22、23、24は、同様に、単一のユニットに完全にまたは部分的に組み合わせされ、またはプロセッサで動作するソフトウェアとして実現され得る。また、入力部21および出力部25は、同様に、単一の双方向インタフェースを形成することができる。

Claims (11)

  1. 画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するための方法であって、
    前記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成するステップ(10)と、
    後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化するステップ(11)と、
    前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップ(12)と、
    を含む、前記方法。
  2. 前記画像のシーケンスのうちの前記第1の画像についての前記クラスタ割当てを生成するステップ(10)が、前記第1の画像のピクセルをスーパーピクセルにクラスタリングするステップを含む、請求項1に記載の方法。
  3. 前記画像のシーケンスのうちの前記第1の画像についての前記クラスタ割当てを生成するステップ(10)が、前記第1の画像についての初期のクラスタ割当てを検索するステップと、前記第1の画像のクラスタ割当てに関して輪郭ピクセルのみを処理するステップとを含む、請求項1に記載の方法。
  4. ピクセルの割当て変化が、前記スーパーピクセルの空間コヒーレンスが保証される場合にのみ行われる、請求項1乃至3のいずれか一項に記載の方法。
  5. スーパーピクセルの断片化の場合、前記スーパーピクセルの最大の断片が決定され、前記スーパーピクセルの残りの断片に属するピクセルが割当てなしに設定される、請求項1乃至4のいずれか一項に記載の方法。
  6. 任意の割り当てられないピクセルが、その隣接するピクセルの1つのクラスタに割り当てられる、請求項5に記載の方法。
  7. 上部境界よりも大きいスーパーピクセルを分離するステップと、下部境界よりも小さいスーパーピクセルを終了させるステップとをさらに含む、請求項1乃至6のいずれか一項に記載の方法。
  8. 前記上部境界および前記下部境界は、画像当たりのピクセル数、ならびに画像当たりのスーパーピクセルの最小数および最大数のそれぞれから決定される、請求項7に記載の方法。
  9. 画像のシーケンスについての時間的に整合性のあるスーパーピクセルを生成するように構成された装置(20)であって、
    前記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成する(10)ように構成されたクラスタ割当て生成部(22)と、
    後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化する(11)ように構成されたラベル伝搬部(23)と、
    前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理する(12)ように構成された輪郭ピクセルプロセッサ(24)と、
    を備える、前記装置。
  10. 画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令をその中に格納するコンピュータ可読記憶媒体であって、
    前記命令が、コンピュータによって実行されるとき、前記コンピュータに、
    前記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ(10)、
    後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ(11)、
    前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる(12)、
    前記コンピュータ可読記憶媒体。
  11. 画像のシーケンスについての時間的に整合性のあるスーパーピクセルの生成を可能にする命令を含むコンピュータプログラムであって、
    前記命令が、コンピュータによって実行されるとき、前記コンピュータに、
    前記画像のシーケンスのうちの第1の画像についてのクラスタ割当てを生成させ(10)、
    後方へのオプティカルフローを用いたラベル伝搬に基づいて、後続の画像を初期化させ(11)、
    前記画像のシーケンスのうちの後続の画像について、前記後続の画像のクラスタ割当てに関して輪郭ピクセルのみを処理させる(12)、
    前記コンピュータプログラム。
JP2015117412A 2014-06-20 2015-06-10 時間的に整合性のあるスーパーピクセルを生成するための方法および装置 Pending JP2016009488A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP14305959.0 2014-06-20
EP14305959 2014-06-20
EP14306209.9 2014-07-28
EP14306209.9A EP2980754A1 (en) 2014-07-28 2014-07-28 Method and apparatus for generating temporally consistent superpixels

Publications (1)

Publication Number Publication Date
JP2016009488A true JP2016009488A (ja) 2016-01-18

Family

ID=53540578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015117412A Pending JP2016009488A (ja) 2014-06-20 2015-06-10 時間的に整合性のあるスーパーピクセルを生成するための方法および装置

Country Status (5)

Country Link
US (1) US10176401B2 (ja)
EP (1) EP2958077B1 (ja)
JP (1) JP2016009488A (ja)
KR (1) KR20150146419A (ja)
CN (1) CN105303519A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018049559A (ja) * 2016-09-23 2018-03-29 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
WO2019225322A1 (ja) * 2018-05-22 2019-11-28 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
CN110622214A (zh) * 2017-07-11 2019-12-27 索尼公司 基于超体素的时空视频分割的快速渐进式方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221B (zh) * 2017-03-22 2020-11-17 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN109767388B (zh) * 2018-12-28 2023-03-24 西安电子科技大学 基于超像素提升图像拼接质量的方法、移动终端、相机
CN109903334A (zh) * 2019-02-25 2019-06-18 北京工业大学 一种基于时间一致性的双目视频运动物体检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050141614A1 (en) * 2002-04-11 2005-06-30 Braspenning Ralph Antonius C. Motion estimation unit and method of estimating a motion vector
US7515766B2 (en) 2004-09-22 2009-04-07 Intel Corporation Apparatus and method for edge handling in image processing
US7760911B2 (en) * 2005-09-15 2010-07-20 Sarnoff Corporation Method and system for segment-based optical flow estimation
US8472718B2 (en) * 2011-04-27 2013-06-25 Sony Corporation Superpixel segmentation methods and systems
US9042648B2 (en) 2012-02-23 2015-05-26 Microsoft Technology Licensing, Llc Salient object segmentation
US9025880B2 (en) * 2012-08-29 2015-05-05 Disney Enterprises, Inc. Visual saliency estimation for images and video
CN102903128B (zh) 2012-09-07 2016-12-21 北京航空航天大学 基于局部特征结构保持的视频图像内容编辑传播方法
WO2014071060A2 (en) * 2012-10-31 2014-05-08 Environmental Systems Research Institute Scale-invariant superpixel region edges
CN103067705B (zh) 2012-12-19 2016-06-08 宁波大学 一种多视点深度视频预处理方法
US9129399B2 (en) * 2013-03-11 2015-09-08 Adobe Systems Incorporated Optical flow with nearest neighbor field fusion
US10121254B2 (en) * 2013-08-29 2018-11-06 Disney Enterprises, Inc. Methods and systems of detecting object boundaries
US9247129B1 (en) * 2013-08-30 2016-01-26 A9.Com, Inc. Self-portrait enhancement techniques
US9430499B2 (en) * 2014-02-18 2016-08-30 Environmental Systems Research Institute, Inc. Automated feature extraction from imagery

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018049559A (ja) * 2016-09-23 2018-03-29 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN110622214A (zh) * 2017-07-11 2019-12-27 索尼公司 基于超体素的时空视频分割的快速渐进式方法
JP2020518081A (ja) * 2017-07-11 2020-06-18 ソニー株式会社 高速で漸進的なスーパーボクセルベースの時空間ビデオセグメンテーション法
CN110622214B (zh) * 2017-07-11 2023-05-30 索尼公司 基于超体素的时空视频分割的快速渐进式方法
WO2019225322A1 (ja) * 2018-05-22 2019-11-28 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム

Also Published As

Publication number Publication date
KR20150146419A (ko) 2015-12-31
EP2958077B1 (en) 2017-05-31
US20150371113A1 (en) 2015-12-24
US10176401B2 (en) 2019-01-08
EP2958077A1 (en) 2015-12-23
CN105303519A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
JP2016009488A (ja) 時間的に整合性のあるスーパーピクセルを生成するための方法および装置
US11455712B2 (en) Method and apparatus for enhancing stereo vision
US8213726B2 (en) Image labeling using multi-scale processing
Zitnick et al. Consistent segmentation for optical flow estimation
US10102450B2 (en) Superpixel generation with improved spatial coherency
EP2980754A1 (en) Method and apparatus for generating temporally consistent superpixels
US8594434B2 (en) Device, method, and computer-readable storage medium for segmentation of an image
US20150339828A1 (en) Segmentation of a foreground object in a 3d scene
US7522749B2 (en) Simultaneous optical flow estimation and image segmentation
US20130071028A1 (en) System and Method for Estimating Spatially Varying Defocus Blur in a Digital Image
US9025876B2 (en) Method and apparatus for multi-label segmentation
EP2622574A1 (en) Method and system for images foreground segmentation in real-time
US9153203B2 (en) Temporally consistent superpixels
EP2622575A1 (en) Method and system for real-time images foreground segmentation
KR20140063440A (ko) 수퍼픽셀 라이프 사이클 관리 방법
Mascaro et al. Diffuser: Multi-view 2d-to-3d label diffusion for semantic scene segmentation
Wehrwein et al. Video segmentation with background motion models.
KR101316848B1 (ko) 배경 합성을 위한 자동 객체 분할 장치 및 방법
KR101845174B1 (ko) 슈퍼픽셀 생성 방법 및 장치
WO2017154045A1 (en) 3d motion estimation device, 3d motion estimation method, and program
Reso et al. Superpixels for video content using a contour-based em optimization
Zhan et al. Supervoxel Segmentation using Spatio-Temporal Lazy Random Walks
CN114972517A (zh) 一种基于raft的自监督深度估计方法
JP2007066041A (ja) 画像処理装置、画像処理方法、及びプログラム
Nawaf et al. Color and flow based superpixels for 3D geometry respecting meshing

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161202

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161202