JP6849101B2

JP6849101B2 - 高速で漸進的なスーパーボクセルベースの時空間ビデオセグメンテーション法

Info

Publication number: JP6849101B2
Application number: JP2019558618A
Authority: JP
Inventors: シュンシュー; 章中村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-07-11
Filing date: 2018-06-29
Publication date: 2021-03-24
Anticipated expiration: 2038-06-29
Also published as: CN110622214B; WO2019012365A1; KR102300522B1; JP2020518081A; US20190019292A1; US10304192B2; KR20190129984A; CN110622214A

Description

本発明は、ビデオセグメンテーションに関する。具体的には、本発明は、スーパーボクセルベースのビデオセグメンテーションに関する。

ビデオセグメンテーションは、特に解像度が高く時間が長いビデオを処理する際には非常に困難なタスクである。ビデオセグメンテーションは、ビデオ処理における重要なタスクであり、ノイズ除去及び超解像などの他の多くのタスクの前処理段階としての役割を果たす。解像度が高く時間が長いビデオの場合、高品質ビデオセグメンテーションは、大量の計算を伴うため依然として困難なタスクである。

スーパーボクセルベースの時空間ビデオセグメンテーション法の２段階アーキテクチャが、速度及び拡張性を保証する。計算集約的な第１段階は、高効率のスーパーボクセルセグメンテーション法を使用する。第２段階は、予めグループ化されたスーパーボクセルにわたって実行され、従って時間的及び空間的複雑性が大幅に低い。第１段階で展開される漸進的セグメンテーションスキームでは、実行不可能な場合がある全てのデータのメモリへのロードを伴わずに莫大な入力量を一部ずつセグメント化することができる。同時に、漸進的セグメンテーションがシームアーチファクト（ｓｅａｍａｒｔｉｆａｃｔｓ）を効果的に防ぎ、全量処理の結果と事実上同一のセグメンテーション結果をもたらすことができる。

１つの態様では、装置の非一時的メモリにプログラムされる方法が、ビデオコンテンツを取得するステップと、ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップと、一群のスーパーボクセルをセグメントにグループ化するステップと、を含む。一群のスーパーボクセルの各群内のボクセルは、色、テクスチャ又はこれらの両方が視覚的に類似する。色、テクスチャ又はこれらの両方を比較照合することによって、ボクセルが色において視覚的に類似すると判断するステップが実行される。ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップは、オーバーセグメンテーションを含む。スーパーボクセル間の境界が保持される。ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップは、単純線形反復クラスタリングによって実行される。ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップは、ビデオコンテンツを時空間要素に分割することによる部分毎のセグメンテーションである漸進的セグメンテーションを使用し、時空間要素は、走査線順に逐次処理される。漸進的セグメンテーションは前線再処理戦略を使用し、この前線再処理戦略は、各要素を処理すると、処理済みのボクセルをマークするマスクアレイが保持され、セグメンテーション前にどのボクセルもマークされておらず、セグメンテーション後に、要素の前線境界上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされ、次の要素がセグメント化される前に、全ての処理済みの隣接要素のマークされていないボクセルが現在の要素に追加され、選択されたセグメンテーション法を使用してボクセルが全てスーパーボクセルにセグメント化されることを含む。スーパーボクセルをさらに大きなセグメントにグループ化するステップは、個々のボクセルの代わりにスーパーボクセルをグループ化するグラフベースのセグメンテーションアルゴリズムを修正することに基づく。一群のスーパーボクセルをセグメントにグループ化するステップは、スーパーボクセルの色ヒストグラム間のＸ²距離を測定することを含む、２つのスーパーボクセル間の相違点を測定するステップを含む。

別の態様では、システムが、レンズと、ビデオコンテンツを取得するように構成されたセンサと、ビデオコンテンツを一群のスーパーボクセルにセグメント化し、一群のスーパーボクセルをセグメントにグループ化するように構成された処理コンポーネントと、を備える。一群のスーパーボクセルの各群内のボクセルは、色、テクスチャ又はこれらの両方が視覚的に類似する。色が視覚的に類似するボクセルは、色、テクスチャ又はこれらの両方を比較照合することによって実行される。ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、オーバーセグメンテーションを含む。スーパーボクセル間の境界が保持される。ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、単純線形反復クラスタリングによって実行される。ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、ビデオコンテンツを時空間要素に分割することによる部分毎のセグメンテーションである漸進的セグメンテーションを使用し、時空間要素は、走査線順に逐次処理される。漸進的セグメンテーションは前線再処理戦略を使用し、この前線再処理戦略は、各要素を処理すると、処理済みのボクセルをマークするマスクアレイが保持され、セグメンテーション前にどのボクセルもマークされておらず、セグメンテーション後に、要素の前線境界上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされ、次の要素がセグメント化される前に、全ての処理済みの隣接要素のマークされていないボクセルが現在の要素に追加され、選択されたセグメンテーション法を使用してボクセルが全てスーパーボクセルにセグメント化されることを含む。スーパーボクセルをさらに大きなセグメントにグループ化することは、個々のボクセルの代わりにスーパーボクセルをグループ化するグラフベースのセグメンテーションアルゴリズムを修正することに基づく。一群のスーパーボクセルをセグメントにグループ化することは、スーパーボクセルの色ヒストグラム間のＸ²距離を測定することを含む、２つのスーパーボクセル間の相違点を測定することを含む。

別の態様では、カメラ装置が、レンズと、ビデオコンテンツを取得するように構成されたセンサと、ビデオコンテンツを一群のスーパーボクセルにセグメント化し、一群のスーパーボクセルをセグメントにグループ化する、アプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントと、備える。一群のスーパーボクセルの各群内のボクセルは、色、テクスチャ又はこれらの両方が視覚的に類似する。色、テクスチャ又はこれらの両方を比較照合することによって、ボクセルが色において視覚的に類似すると判断するステップが実行される。ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、オーバーセグメンテーションを含む。スーパーボクセル間の境界が保持される。ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、単純線形反復クラスタリングによって実行される。ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、ビデオコンテンツを時空間要素に分割することによる部分毎のセグメンテーションである漸進的セグメンテーションを使用し、時空間要素は、走査線順に逐次処理される。漸進的セグメンテーションは前線再処理戦略を使用し、この前線再処理戦略は、各要素を処理すると、処理済みのボクセルをマークするマスクアレイが保持され、セグメンテーション前にどのボクセルもマークされておらず、セグメンテーション後に、要素の前線境界上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされ、次の要素がセグメント化される前に、全ての処理済みの隣接要素のマークされていないボクセルが現在の要素に追加され、選択されたセグメンテーション法を使用してボクセルが全てスーパーボクセルにセグメント化されることを含む。スーパーボクセルをさらに大きなセグメントにグループ化することは、個々のボクセルの代わりにスーパーボクセルをグループ化するグラフベースのセグメンテーションアルゴリズムを修正することに基づく。一群のスーパーボクセルをセグメントにグループ化することは、スーパーボクセルの色ヒストグラム間のＸ²距離を測定することを含む、２つのスーパーボクセル間の相違点を測定することを含む。

いくつかの実施形態によるセグメンテーションフレームワークの全体的ワークフロー図である。いくつかの実施形態による漸進的セグメンテーションフレームワークのワークフロー図である。いくつかの実施形態によるスーパーボクセルベースの時空間ビデオセグメンテーション法のフローチャートである。いくつかの実施形態によるスーパーボクセルベースの時空間ビデオセグメンテーション法を実行するように構成された例示的なコンピュータ装置のブロック図である。

高速かつ拡張可能なビデオセグメンテーション法について説明する。この方法は、高速であるとともに２段階方式で機能する。最も計算コストが高い第１段階は、極めて効率的な方法によって行われる。この方法は、１つには非常に大きなビデオシーケンスを効果的に取り扱うことができる新規の漸進的処理スキームを使用する効率的なセグメンテーション法に起因して拡張性が高い。

このビデオセグメンテーション法は、２つの段階を含む。第１段階では、時空間量としてのビデオをスーパーボクセルにセグメント化する。この段階は最も計算コストが高い段階であり、従って高効率アルゴリズムを利用する。さらに、漸進的スキームが、大規模ビデオ入力を処理してフレームワーク全体に高い拡張性もたらすように設計される。第２段階では、スーパーボクセルを、視覚的に一貫した意味的に重要なさらに大きなセグメントにさらにグループ化する。図１に、セグメンテーションフレームワークの全体的ワークフローを示しており、本明細書ではこれらのステップの詳細について説明する。

時空間スーパーボクセルセグメンテーション
２段階フレームワークの第１段階では、ピクセル、特にビデオ入力のボクセルを、スーパーボクセルと呼ばれるグループにセグメント化する。１つのスーパーボクセルにグループ化されたボクセルは、色及び／又はテクスチャの点で視覚的に類似する。色及び／又はテクスチャの点での視覚的類似性は、色値及び／又はテクスチャ値の比較照合などのあらゆる方法で判定することができる。通常、原ビデオでは、１つの視覚的に一貫した領域（例えば、物体の一部）が複数のスーパーボクセルにセグメント化され、従ってこのようなセグメンテーションは、しばしばオーバーセグメンテーションと呼ばれる。入力ビデオをスーパーボクセルにオーバーセグメント化する目的は、後の段階で処理すべき視覚単位の量を劇的に減少させることである。通常、１つのスーパーボクセルは１０²〜１０³個のボクセルを含むので、その後のモジュールの処理の複雑性を２又は３段階（２ｏｒ３ｍａｇｎｉｔｕｄｅｓ）低下させることができる。オーバーセグメンテーションは、原入力における（例えば、前景オブジェクトと背景との間の）顕著な境界を維持すべきである。換言すれば、スーパーボクセル間の境界は、原入力における全ての重要な境界を含むべきである。

このステップでは、あらゆる適度に良好なスーパーボクセルセグメンテーション法を使用することができる。しかしながら、このステップは、全ての入力ボクセルにわたって動作するという理由で最も計算コストが高いので、フレームワーク全体の総合的な速度及び拡張性をもたらすために効率性の高い方法が好ましい。いくつかの実施形態では、適度に良好なセグメンテーション品質をもたらすことができる（ボクセルの数に関する線形複雑度を有する）非常に効率的な方法である単純線形反復クラスタリング（ＳｉｍｐｌｅＬｉｎｅａｒＩｔｅｒａｔｉｖｅＣｌｕｓｔｅｒｉｎｇ：ＳＬＩＣ）と呼ばれる方法を利用する。

大規模ビデオ入力のための漸進的セグメンテーションスキーム
ビデオシーケンス、特に解像度が高く時間が長いビデオシーケンスは、全体をメモリにロードして処理するのが困難である。ビデオセグメンテーションのためのスケーラブルフレームワークは、大規模入力を全体として処理する必要なく操作するためのスキームを伴うべきである。第１段階は一部ずつ行われ、漸進的セグメンテーションと呼ばれる。図２は、いくつかの実施形態による漸進的セグメンテーションフレームワークのワークフロー図である。

漸進的セグメンテーションスキームでは、最初に原ビデオの容量をさらに小さな時空間チャンク（ｓｐａｔｉａｌ−ｔｅｍｐｏｒａｌｃｈｕｎｋｓ）に分割する。その後、これらのチャンクを走査線順に逐次処理する。

これらのチャンクをそのまま単純に処理すると、あらゆる隣接チャンクの対間の境界上に人工的な継ぎ目が生じるようになる。漸進的セグメンテーションスキームでは、この問題を解決するために前線再処理戦略（ｆｒｏｎｔ−ｌｉｎｅｒｅｔｒｅａｔｉｎｇｓｔｒａｔｅｇｙ）を使用する。前線再処理戦略は、本明細書で説明するように機能する。

各チャンクを処理すると、処理済みのボクセルをマークするマスクアレイ（ｍａｓｋａｒｒａｙ）が保持される。セグメンテーション前には、どのボクセルもマークされていないことが明らかである。セグメンテーション後には、このチャンクの前線境界（例えば、このチャンクといずれかの処理済みのチャンクとの間の境界）上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされる。次のチャンクの処理前に、全ての処理済みの隣接チャンクのマークされていないボクセルを現在のチャンクに追加し、選択されたセグメンテーション法を使用して、これらのボクセルを全てスーパーボクセルにセグメント化する。

スーパーボクセル上におけるグラフベースのセグメンテーション
グラフベースのセグメンテーションは、視覚的に一貫した意味的に重要なセグメンテーションをもたらすことができる方法である。元々の方法は、画像セグメンテーションのために設計されたものであり、ピクセルに対して作用する（例えば、ピクセルをセグメントにグループ化する）。本明細書で説明する方法は、時空間スーパーボクセルに作用するように適合されたものである。主な相違点は、処理すべき基本要素（ノード）としてボクセルをスーパーボクセルに置き換える点である。従って、本来のボクセルの距離測度は、２つのスーパーボクセル間の相違点を測定する距離に置き換わる。スーパーボクセルは、空間的に接続されたボクセルの集合（ｅｎｓｅｍｂｌｅ）であるため、さらに高度なメトリックを使用することができる。１つの可能性は、スーパーボクセルの色ヒストグラム間のＸ²距離を使用することである。特定の用途に応じて、他の側面（例えば、テクスチャ又は動き）に関する相違点を測定する他のメトリックを含めることもできる。

図３に、いくつかの実施形態によるスーパーボクセルベースの時空間ビデオセグメンテーション法のフローチャートを示す。ステップ３００において、ビデオコンテンツを取得又は送信する。例えば、デジタルカムコーダを使用してビデオを撮影する。別の例では、１つの装置から別の装置にビデオコンテンツを送信する。ステップ３０２において、ビデオコンテンツをスーパーボクセルにセグメント化する。ステップ３０４において、スーパーボクセルをさらに大きなセグメントにグループ化する。いくつかの実施形態では、さらに少ない又はさらに多くのステップを実行することができる。いくつかの実施形態では、ステップの順序を変更することができる。

図４は、いくつかの実施形態によるスーパーボクセルベースの時空間ビデオセグメンテーション法を実行するように構成された例示的なコンピュータ装置のブロック図である。コンピュータ装置４００は、画像及びビデオなどの情報の取得、記憶、計算、処理、通信及び／又は表示のために使用することができる。一般に、コンピュータ装置４００を実装するのに適したハードウェア構造は、ネットワークインターフェイス４０２、メモリ４０４、プロセッサ４０６、（単複の）Ｉ／Ｏ装置４０８、バス４１０及び記憶装置４１２を含む。プロセッサの選択は、十分な速度の好適なプロセッサを選択する限り重要ではない。メモリ４０４は、当業で周知のいずれかの従来のコンピュータメモリとすることができる。記憶装置４１２は、ハードドライブ、ＣＤＲＯＭ、ＣＤＲＷ、ＤＶＤ、ＤＶＤＲＷ、高精細ディスク／ドライブ、ウルトラＨＤドライブ、フラッシュメモリカード、又はその他のいずれかの記憶装置を含むことができる。コンピュータ装置４００は、１又は２以上のネットワークインターフェイス４０２を含むことができる。ネットワークインターフェイスの例としては、イーサネット又は他のタイプのＬＡＮに接続されたネットワークカードが挙げられる。（単複の）Ｉ／Ｏ装置４０８は、キーボード、マウス、モニタ、画面、プリンタ、モデム、タッチ画面、ボタンインターフェイス及びその他の装置のうちの１つ又は２つ以上を含むことができる。記憶装置４１２及びメモリ４０４には、スーパーボクセルベースの時空間ビデオセグメンテーション法を実行するために使用されるスーパーボクセルベースの時空間ビデオセグメンテーションアプリケーション４３０が記憶されて、アプリケーションが通常処理されるように処理される可能性が高い。コンピュータ装置４００には、図４に示すものよりも多くの又は少ないコンポーネントを含めることもできる。いくつかの実施形態では、スーパーボクセルベースの時空間ビデオセグメンテーションハードウェア４２０が含まれる。図４のコンピュータ装置４００は、スーパーボクセルベースの時空間ビデオセグメンテーション法のためのアプリケーション４３０及びハードウェア４２０を含むが、スーパーボクセルベースの時空間ビデオセグメンテーション法は、ハードウェア、ファームウェア、ソフトウェア、又はこれらのあらゆる組み合わせでコンピュータ装置上に実装することもできる。例えば、いくつかの実施形態では、スーパーボクセルベースの時空間ビデオセグメンテーションアプリケーション４３０がメモリにプログラムされ、プロセッサを用いて実行される。別の例として、いくつかの実施形態では、スーパーボクセルベースの時空間ビデオセグメンテーションハードウェア４２０が、スーパーボクセルベースの時空間ビデオセグメンテーション法を実行するように特別に設計されたゲートを含むプログラムされたハードウェアロジックである。

いくつかの実施形態では、スーパーボクセルベースの時空間ビデオセグメンテーション４３０が、複数のアプリケーション及び／又はモジュールを含む。いくつかの実施形態では、モジュールが、１又は２以上のサブモジュールをさらに含む。いくつかの実施形態では、これよりも少ない又はさらなるモジュールを含めることもできる。

好適なコンピュータ装置の例としては、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ／携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートホン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイル装置、ビデオプレーヤ、ビデオディスクライタ／プレーヤ（ＤＶＤライタ／プレーヤ、高精細ディスクライタ／プレーヤ、超高精細ディスクライタ／プレーヤなど）、テレビ、家庭用エンターテイメントシステム、スマートジュエリ（例えば、スマートウォッチ）、又はその他のあらゆる好適なコンピュータ装置が挙げられる。

本明細書で説明したスーパーボクセルベースの時空間ビデオセグメンテーション法を利用するには、デジタルカムコーダなどの装置を使用してビデオを取得する。スーパーボクセルベースの時空間ビデオセグメンテーション法は、この取得データを処理するために自動的に使用される。スーパーボクセルベースの時空間ビデオセグメンテーション法は、ユーザの関与を伴わずに自動的に実行することができる。

動作時には、スーパーボクセルベースの時空間ビデオセグメンテーション法の２段階アーキテクチャが、速度及び拡張性を保証する。計算集約的な第１段階は、高効率のスーパーボクセルセグメンテーション法を使用する。第２段階は、予めグループ化されたスーパーボクセルにわたって実行され、従って時空間的複雑度が大幅に低い。第１段階で展開される漸進的セグメンテーションスキームでは、実行不可能な場合がある全てのデータのメモリへのロードを伴わずに莫大な入力量を一部ずつセグメント化することができる。同時に、漸進的セグメンテーションがシームアーチファクトを効果的に防ぎ、全量処理の結果と事実上同一のセグメンテーション結果をもたらすことができる。

高速で漸進的なスーパーボクセルベースの時空間ビデオセグメンテーション法のいくつかの実施形態
１．装置の非一時的メモリにプログラムされる方法であって、
ａ．ビデオコンテンツを取得するステップと、
ｂ．ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップと、
ｃ．一群のスーパーボクセルをセグメントにグループ化するステップと、を含む方法。

２．一群のスーパーボクセルの各群内のボクセルは、色、テクスチャ又はこれらの両方が視覚的に類似する、条項１の方法。

３．色、テクスチャ又はこれらの両方を比較照合することによって、ボクセルが色において視覚的に類似すると判断するステップを実行する、条項２の方法。

４．ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップは、オーバーセグメンテーションを含む、条項１の方法。

５．スーパーボクセル間の境界が保持される、条項４の方法。

６．ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップは、単純線形反復クラスタリングによって実行される、条項１の方法。

７．ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップは、ビデオコンテンツを時空間要素に分割することによる部分毎のセグメンテーションである漸進的セグメンテーションを使用し、時空間要素は、走査線順に逐次処理される、条項１の方法。

８．漸進的セグメンテーションは前線再処理戦略を使用し、この前線再処理戦略は、各要素を処理すると、処理済みのボクセルをマークするマスクアレイが保持され、セグメンテーション前にどのボクセルもマークされておらず、セグメンテーション後に、要素の前線境界上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされ、次の要素がセグメント化される前に、全ての処理済みの隣接要素のマークされていないボクセルが現在の要素に追加され、選択されたセグメンテーション法を使用してボクセルが全てスーパーボクセルにセグメント化されることを含む、条項７の方法。

９．スーパーボクセルをさらに大きなセグメントにグループ化するステップは、個々のボクセルの代わりにスーパーボクセルをグループ化するグラフベースのセグメンテーションアルゴリズムを修正することに基づく、条項１の方法。

１０．一群のスーパーボクセルをセグメントにグループ化するステップは、スーパーボクセルの色ヒストグラム間のＸ²距離を測定することを含む、２つのスーパーボクセル間の相違点を測定するステップを含む、条項１の方法。

１１．システムであって、
ａ．レンズと、
ｂ．ビデオコンテンツを取得するように構成されたセンサと、
ｃ．ビデオコンテンツを一群のスーパーボクセルにセグメント化し、一群のスーパーボクセルをセグメントにグループ化するように構成された処理コンポーネントと、を備えるシステム。

１２．一群のスーパーボクセルの各群内のボクセルは、色、テクスチャ又はこれらの両方が視覚的に類似する、条項１１のシステム。

１３．色、テクスチャ又はこれらの両方を比較照合することによって、ボクセルが色において視覚的に類似すると判断することを実行する、条項１２のシステム。

１４．ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、オーバーセグメンテーションを含む、条項１１のシステム。

１５．スーパーボクセル間の境界が保持される、条項１４のシステム。

１６．ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、単純線形反復クラスタリングによって実行される、条項１１のシステム。

１７．ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、ビデオコンテンツを時空間要素に分割することによる部分毎のセグメンテーションである漸進的セグメンテーションを使用し、時空間要素は、走査線順に逐次処理される、条項１１のシステム。

１８．漸進的セグメンテーションは前線再処理戦略を使用し、この前線再処理戦略は、各要素を処理すると、処理済みのボクセルをマークするマスクアレイが保持され、セグメンテーション前にどのボクセルもマークされておらず、セグメンテーション後に、要素の前線境界上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされ、次の要素がセグメント化される前に、全ての処理済みの隣接要素のマークされていないボクセルが現在の要素に追加され、選択されたセグメンテーション法を使用してボクセルが全てスーパーボクセルにセグメント化されることを含む、条項１７のシステム。

１９．スーパーボクセルをさらに大きなセグメントにグループ化することは、個々のボクセルの代わりにスーパーボクセルをグループ化するグラフベースのセグメンテーションアルゴリズムを修正することに基づく、条項１１のシステム。

２０．一群のスーパーボクセルをセグメントにグループ化することは、スーパーボクセルの色ヒストグラム間のＸ²距離を測定することを含む、２つのスーパーボクセル間の相違点を測定することを含む、条項１１のシステム。

２１．カメラ装置であって、
ａ．レンズと、
ｂ．ビデオコンテンツを取得するように構成されたセンサと、
ｃ．
ｉ．ビデオコンテンツを一群のスーパーボクセルにセグメント化し、
ｉｉ．一群のスーパーボクセルをセグメントにグループ化する、
アプリケーションを記憶する非一時的メモリと、
ｄ．メモリに結合されて、アプリケーションを処理するように構成された処理コンポーネントと、備えるカメラ装置。

２２．一群のスーパーボクセルの各群内のボクセルは、色、テクスチャ又はこれらの両方が視覚的に類似する、条項２１のカメラ装置。

２３．色、テクスチャ又はこれらの両方を比較照合することによって、ボクセルが色において視覚的に類似すると判断することを実行する、条項２２のカメラ装置。

２４．ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、オーバーセグメンテーションを含む、条項２１のカメラ装置。

２５．スーパーボクセル間の境界が保持される、条項２４のカメラ装置。

２６．ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、単純線形反復クラスタリングによって実行される、条項２１のカメラ装置。

２７．ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、ビデオコンテンツを時空間要素に分割することによる部分毎のセグメンテーションである漸進的セグメンテーションを使用し、時空間要素は、走査線順に逐次処理される、条項２１のカメラ装置。

２８．漸進的セグメンテーションは前線再処理戦略を使用し、この前線再処理戦略は、各要素を処理すると、処理済みのボクセルをマークするマスクアレイが保持され、セグメンテーション前にどのボクセルもマークされておらず、セグメンテーション後に、要素の前線境界上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされ、次の要素がセグメント化される前に、全ての処理済みの隣接要素のマークされていないボクセルが現在の要素に追加され、選択されたセグメンテーション法を使用してボクセルが全てスーパーボクセルにセグメント化されることを含む、条項２７のカメラ装置。

２９．スーパーボクセルをさらに大きなセグメントにグループ化することは、個々のボクセルの代わりにスーパーボクセルをグループ化するグラフベースのセグメンテーションアルゴリズムを修正することに基づく、条項２１のカメラ装置。

３０．一群のスーパーボクセルをセグメントにグループ化することは、スーパーボクセルの色ヒストグラム間のＸ²距離を測定することを含む、２つのスーパーボクセル間の相違点を測定することを含む、条項２１のカメラ装置。

本発明の構成及び動作の原理を容易に理解できるように、詳細を含む特定の実施形態に関して本発明を説明した。本明細書におけるこのような特定の実施形態及びこれらの実施形態の詳細についての言及は、本明細書に添付する特許請求の範囲を限定することを意図したものではない。当業者には、特許請求の範囲によって定められる本発明の趣旨及び範囲から逸脱することなく、例示のために選択した実施形態において他の様々な修正を行えることが容易に明らかになるであろう。

３００ビデオコンテンツを取得
３０２ビデオコンテンツをスーパーボクセルにセグメント化
３０４スーパーボクセルをさらに大きなセグメントにグループ化

Claims

装置の非一時的メモリにプログラムされる方法であって、
ａ．ビデオコンテンツを取得するステップと、
ｂ．前記ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップと、
ｃ．前記一群のスーパーボクセルをセグメントにグループ化するステップと、
を含み、
前記ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップは、前記ビデオコンテンツを時空間要素に分割することによる部分毎のセグメンテーションである漸進的セグメンテーションを使用し、前記時空間要素は、走査線順に逐次処理され、
前記漸進的セグメンテーションは前線再処理戦略を使用し、該前線再処理戦略は、各要素を処理すると、処理済みのボクセルをマークするマスクアレイが保持され、セグメンテーション前にどのボクセルもマークされておらず、セグメンテーション後に、要素の前線境界上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされ、次の要素がセグメント化される前に、全ての処理済みの隣接要素のマークされていないボクセルが現在の要素に追加され、選択されたセグメンテーション法を使用して前記ボクセルが全てスーパーボクセルにセグメント化されることを含む、
ことを特徴とする方法。
前記一群のスーパーボクセルの各群内の前記ボクセルは、色、テクスチャ又はこれらの両方が視覚的に類似する、
請求項１に記載の方法。
前記色、前記テクスチャ又はこれらの両方を比較照合することによって、前記ボクセルが色において視覚的に類似すると判断するステップを実行する、
請求項２に記載の方法。
前記ビデオコンテンツを前記一群のスーパーボクセルにセグメント化するステップは、オーバーセグメンテーションを含む、
請求項１に記載の方法。
スーパーボクセル間の境界が保持される、
請求項４に記載の方法。
前記ビデオコンテンツを一群のスーパーボクセルにセグメント化するステップは、単純線形反復クラスタリングによって実行される、
請求項１に記載の方法。
スーパーボクセルをさらに大きなセグメントにグループ化するステップは、個々のボクセルの代わりにスーパーボクセルをグループ化するグラフベースのセグメンテーションアルゴリズムを修正することに基づく、
請求項１に記載の方法。
前記一群のスーパーボクセルを前記セグメントにグループ化するステップは、前記スーパーボクセルの色ヒストグラム間の距離を測定することを含む、２つのスーパーボクセル間の相違点を測定するステップを含む、
請求項１に記載の方法。
ａ．レンズと、
ｂ．ビデオコンテンツを取得するように構成されたセンサと、
ｃ．前記ビデオコンテンツを一群のスーパーボクセルにセグメント化し、該一群のスーパーボクセルをセグメントにグループ化するように構成された処理コンポーネントと、
を備え、
前記ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、前記ビデオコンテンツを時空間要素に分割することによる部分毎のセグメンテーションである漸進的セグメンテーションを使用し、前記時空間要素は、走査線順に逐次処理され、
前記漸進的セグメンテーションは前線再処理戦略を使用し、該前線再処理戦略は、各要素を処理すると、処理済みのボクセルをマークするマスクアレイが保持され、セグメンテーション前にどのボクセルもマークされておらず、セグメンテーション後に、要素の前線境界上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされ、次の要素がセグメント化される前に、全ての処理済みの隣接要素のマークされていないボクセルが現在の要素に追加され、選択されたセグメンテーション法を使用して前記ボクセルが全てスーパーボクセルにセグメント化されることを含む、
ことを特徴とするシステム。
前記一群のスーパーボクセルの各群内の前記ボクセルは、色、テクスチャ又はこれらの両方が視覚的に類似する、
請求項９に記載のシステム。
前記色、前記テクスチャ又はこれらの両方を比較照合することによって、前記ボクセルが色において視覚的に類似すると判断することを実行する、
請求項１０に記載のシステム。
前記ビデオコンテンツを前記一群のスーパーボクセルにセグメント化することは、オーバーセグメンテーションを含む、
請求項９に記載のシステム。
スーパーボクセル間の境界が保持される、
請求項１２に記載のシステム。
前記ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、単純線形反復クラスタリングによって実行される、
請求項９に記載のシステム。
スーパーボクセルをさらに大きなセグメントにグループ化することは、個々のボクセルの代わりにスーパーボクセルをグループ化するグラフベースのセグメンテーションアルゴリズムを修正することに基づく、
請求項９に記載のシステム。
前記一群のスーパーボクセルを前記セグメントにグループ化することは、前記スーパーボクセルの色ヒストグラム間の距離を測定することを含む、２つのスーパーボクセル間の相違点を測定することを含む、
請求項９に記載のシステム。
ａ．レンズと、
ｂ．ビデオコンテンツを取得するように構成されたセンサと、
ｃ．
ｉ．前記ビデオコンテンツを一群のスーパーボクセルにセグメント化し、
ｉｉ．前記一群のスーパーボクセルをセグメントにグループ化する、
アプリケーションを記憶する非一時的メモリと、
ｄ．前記メモリに結合されて、前記アプリケーションを処理するように構成された処理コンポーネントと、
を備え、
前記ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、前記ビデオコンテンツを時空間要素に分割することによる部分毎のセグメンテーションである漸進的セグメンテーションを使用し、前記時空間要素は、走査線順に逐次処理され、
前記漸進的セグメンテーションは前線再処理戦略を使用し、該前線再処理戦略は、各要素を処理すると、処理済みのボクセルをマークするマスクアレイが保持され、セグメンテーション前にどのボクセルもマークされておらず、セグメンテーション後に、要素の前線境界上のスーパーボクセルに属するボクセルを除く全てのボクセルがマークされ、次の要素がセグメント化される前に、全ての処理済みの隣接要素のマークされていないボクセルが現在の要素に追加され、選択されたセグメンテーション法を使用して前記ボクセルが全てスーパーボクセルにセグメント化されることを含む、
ことを特徴とするカメラ装置。
前記一群のスーパーボクセルの各群内の前記ボクセルは、色、テクスチャ又はこれらの両方が視覚的に類似する、
請求項１７に記載のカメラ装置。
前記色、前記テクスチャ又はこれらの両方を比較照合することによって、前記ボクセルが色において視覚的に類似すると判断することを実行する、
請求項１８に記載のカメラ装置。
前記ビデオコンテンツを前記一群のスーパーボクセルにセグメント化することは、オーバーセグメンテーションを含む、
請求項１７に記載のカメラ装置。
スーパーボクセル間の境界が保持される、
請求項２０に記載のカメラ装置。
前記ビデオコンテンツを一群のスーパーボクセルにセグメント化することは、単純線形反復クラスタリングによって実行される、
請求項１７に記載のカメラ装置。
スーパーボクセルをさらに大きなセグメントにグループ化することは、個々のボクセルの代わりにスーパーボクセルをグループ化するグラフベースのセグメンテーションアルゴリズムを修正することに基づく、
請求項１７に記載のカメラ装置。
前記一群のスーパーボクセルを前記セグメントにグループ化することは、前記スーパーボクセルの色ヒストグラム間の距離を測定することを含む、２つのスーパーボクセル間の相違点を測定することを含む、
請求項１７に記載のカメラ装置。