JP7282216B2

JP7282216B2 - 単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出

Info

Publication number: JP7282216B2
Application number: JP2021574232A
Authority: JP
Inventors: グイヴァシレ; ペスカルダン; セルナザヌ－グラヴァンコスミン
Original assignee: Everseen Ltd
Current assignee: Everseen Ltd
Priority date: 2019-07-01
Filing date: 2020-05-18
Publication date: 2023-05-26
Anticipated expiration: 2040-05-18
Also published as: CO2021016291A2; AU2020300067A1; CA3141956A1; KR20220007882A; AU2020300067B2; BR112021024268A2; JP2022536524A; CN114072839A; EP3994664A1; WO2021001703A1; US10803604B1; MX2021015583A

Description

本開示は、画像における動き検出に関し、より具体的には、単眼スチルカメラでキャプチャされたビデオシーケンスにおける動きのセグメント化およびレイヤリング順序の推測に関する。

移動オブジェクト検出は、コンピュータビジョンおよび画像処理で使用される技術である。ビデオの複数の連続するフレームが様々な方法で比較され、任意の移動オブジェクトが検出されたかどうかが判断される。移動オブジェクト検出は、ビデオ監視、人間活動分析、道路状態監視、空港の安全性、および海の境界に沿った保護の監視など、幅広いアプリケーションに使用されてきた。オブジェクト検出システムでは、オブジェクトが事前定義されていない場合がある。オブジェクトのセグメンテーションを行った後、オブジェクトの動きを測定することは、ビデオシーンの理解にも役立つ。

画像フレームでは、レイヤの順序によって、何が何の上にあるかが定義される。これは、（３Ｄ）オブジェクトの深度順序を定義するモデルである。一例では、典型的な絵画では、最初のレイヤは空であり、これは最も遠いレイヤである。次のレイヤには、建物と飛行機が含まれる場合がある。さらに次のレイヤは、建物の前の車であり得る。車のレイヤが建物を部分的に隠す場合がある。車の前に人がいて、車の一部を隠している場合がある。人は最後のレイヤであり、何も人を覆っていないので、人は遮蔽されないままである。典型的な動き検出システムは、動き検出を実行し、行動認識を実行するために、局所的な深度順序の知識を必要とする。

しかしながら、既知の最先端の動き推定およびセグメンテーション方法は、高価なオプティカルフロー機能、動的カメラを使用し、全てのピクセルを同等に処理するため、計算コストが高くなる。既存の方法は、並列画像処理と機械学習に特化した電子回路であり、計算コストが高いグラフィックスプロセッシングユニット（ＧＰＵ）を使用して実装可能である。フレームのキャプチャに単眼スチルカメラを使用すると、計算の複雑さが軽減される可能性があるが、動き検出の精度が低下する可能性がある。

上記を考慮すると、計算コストが低く、単眼スチルカメラでキャプチャされたビデオシーケンスの動きを正確にセグメント化し、レイヤリング順序を推測できるオブジェクト検出システムが必要である。

本開示の実施形態に従って、ビデオの動きデータをセグメント化し、レイヤリング順序を推測する方法が提供される。この方法は、フレーム内モード推定を使用してビデオの第１の画像フレームをセグメント化することと、フレーム間モードマッチングを使用してビデオの１または複数のさらなる画像フレームをセグメント化することと、現在のセグメント化された画像フレームのバイナリマップを生成することによって、現在のセグメント化された画像フレームのラベル変更マップを生成することと、前のセグメント化された画像フレームに対してラベルが変更された１または複数のピクセルをマークすることと、ラベル変更マップに基づいて現在のセグメント化された画像フレームの１または複数の非静止画像セグメントを検出することと、１または複数の非静止画像セグメント内の１または複数の移動画像セグメントを検出することと、１または複数の移動画像セグメントの動きを推定することと、各移動セグメントを７つのパラメータのベクトルとして表すことと、対応する１または複数のパラメータに基づいて、１または複数の類似の移動セグメントベクトルをクラスタ化することとを備える。

本開示のさらなる実施形態に従って、ビデオの動きデータをセグメント化し、レイヤリング順序を推測するシステムが提供される。このシステムは、１または複数の命令を格納するメモリと、メモリに通信可能なように結合され、メモリに格納されている１または複数の命令を実行するように構成されているプロセッサとを備える。このプロセッサは、フレーム内モード推定を使用してビデオの第１の画像フレームをセグメント化し、フレーム間モードマッチングを使用してビデオの１または複数のさらなる画像フレームをセグメント化するビデオセグメンテーションモジュールと、現在のセグメント化された画像フレームのバイナリマップを生成することによって、現在のセグメント化された画像フレームのラベル変更マップを生成し、前のセグメント化された画像フレームに対してラベルが変更された１または複数のピクセルをマークするラベルフレーム差生成モジュールと、ラベル変更マップに基づいて現在のセグメント化された画像フレームの１または複数の非静止画像セグメントを検出する非静止セグメント検出モジュールと、１または複数の非静止画像セグメント内の１または複数の移動画像セグメントを検出する移動セグメント検出モジュールと、１または複数の移動画像セグメントの動きを推定する動き推定モジュールと、各移動セグメントを７つのパラメータのベクトルとして表し、対応する１または複数のパラメータに基づいて、１または複数の類似の移動セグメントベクトルをクラスタ化するモーションセグメンテーションモジュールを備える。

本開示のさらなる実施形態に従って、ビデオの動きデータをセグメント化し、レイヤリング順序を推測するコンピュータプログラム可能製品が提供される。このコンピュータプログラム可能製品は、命令のセットを含む。命令のセットは、プロセッサによって実行されると、プロセッサに、フレーム内モード推定を使用してビデオの第１の画像フレームをセグメント化することと、フレーム間モードマッチングを使用してビデオの１または複数のさらなる画像フレームをセグメント化することと、現在のセグメント化された画像フレームのバイナリマップを生成することによって、現在のセグメント化された画像フレームのラベル変更マップを生成することと、前のセグメント化された画像フレームに対してラベルが変更された１または複数のピクセルをマークすることと、ラベル変更マップに基づいて現在のセグメント化された画像フレームの１または複数の非静止画像セグメントを検出することと、１または複数の非静止画像セグメント内の１または複数の移動画像セグメントを検出することと、１または複数の移動画像セグメントの動きを推定することと、各移動セグメントを７つのパラメータのベクトルとして表すことと、対応する１または複数のパラメータに基づいて、１または複数の類似の移動セグメントベクトルをクラスタ化することとを実行させる。

本開示の別のさらなる実施形態に従って、ビデオをキャプチャする単眼スチルカメラと、１または複数の命令を格納するメモリと、メモリに結合され、メモリに格納されている１または複数の命令を実行して、フレーム内モード推定を使用してビデオの第１の画像フレームをセグメント化し、フレーム間モードマッチングを使用してビデオの１または複数のさらなる画像フレームをセグメント化し、現在のセグメント化された画像フレームのバイナリマップを生成することによって、現在のセグメント化された画像フレームのラベル変更マップを生成し、前のセグメント化された画像フレームに対してラベルが変更された１または複数のピクセルをマークし、ラベル変更マップに基づいて現在のセグメント化された画像フレームの１または複数の非静止画像セグメントを検出し、１または複数の非静止画像セグメント内の１または複数の移動画像セグメントを検出し、１または複数の移動画像セグメントの動きを推定し、各移動セグメントを７つのパラメータのベクトルとして表し、対応する１または複数のパラメータに基づいて、１または複数の類似の移動セグメントベクトルをクラスタ化し、１または複数のクラスタに基づいて動き検出および動き認識を行うように構成されているプロセッサを備えた単眼スチルカメラ監視システムが提供される。

本開示の特徴は、添付の特許請求の範囲によって定義される通りの本開示の範囲から外れることなく、様々な組合せで組み合わせられる余地があることが認められるであろう。

以上の発明の概要および例証的な実施形態の以下の詳細な説明は、添付図面と併せて読まれた場合によりよく理解される。本開示を例証する目的のために、本開示の例示的な構造が、図面において示されている。しかしながら、本開示は、本明細書で開示される特定の方法および手段には限定されない。また、当業者は、図面が縮尺通りではないことを理解するであろう。可能であれば常に、同様の要素は、同一の番号によって示されている。添付図面において、下線のある番号は、下線のある番号が位置付けられるアイテム、または下線のある番号が隣接しているアイテムを表すために採用される。下線のない番号は、下線のない番号をアイテムにリンクする線によって識別されるアイテムに関する。番号に下線がなく、関連付けられる矢印に添えられている場合に、下線のない番号は、矢印が向いている一般的なアイテムを識別するために使用される。
本開示の様々な実施形態を実施することができる環境を示す。本開示の一実施形態による、カメラによってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションのための動き検出システムを示す。本開示の一実施形態による、第１から第６の連続するビデオフレームおよびそれらの対応するミーンシフトセグメント化画像を示す。本開示の一実施形態による、第１から第６の連続するビデオフレームおよびそれらの対応するミーンシフトセグメント化画像を示す。本開示の一実施形態による、静止画像セグメントおよび非静止画像セグメントを描写する例示的なビデオシーケンスを示す。本開示の一実施形態による、様々なタイプの非静止画像セグメントを描写する例示的なビデオシーケンスを示す。本開示の実施形態による、ビデオシーケンスのための移動セグメント検出モジュールによって生成された三元セグメンテーションマップ（trinary segmentation map）を示す。本開示の一実施形態による、カメラによってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションの方法を示すフローチャートである。

添付図面の詳細な説明は、本開示の現在好ましい実施形態の説明として意図されており、本開示が実施され得る唯一の形態を表すことを意図されていない。同じまたは同等の機能が、本開示の精神および範囲内に包含されることを意図された異なる実施形態によって達成され得ることが理解されるべきである。

本明細書および特許請求の範囲に使用される、単数形「１つの（ａ）」、「１つの（ａｎ）」、および「その（ｔｈｅ）」は、文脈によりそうでないことが明確に示されない限り、複数形の指示対象を含む。例えば、「項目（article）」という用語は、文脈が明らかに他のことを指示しない限り、複数の項目を含み得る。

当業者は、図中の要素が単純さと明快さのために示されており、必ずしも一定の縮尺で描かれているわけではないことを理解するであろう。例えば、本開示の理解を向上させるため、図中のいくつかの要素の寸法は、他の要素と比較して誇張されている場合がある。

図面の１つに示されていない、前述の出願に記載された追加の構成要素があり得る。そのような構成要素が説明されているが、図面に描かれていない場合、そのような図面がないことは、そのような設計が明細書から欠落していると見なされるべきではない。

必要に応じて、本開示の詳細な実施形態が本明細書に開示される。しかしながら、開示された実施形態は、様々な形態で具体化することができる開示の単なる例示であることが理解されるべきである。従って、本明細書に開示される特定の構造的および機能的詳細は、限定的であると解釈されるべきではなく、単に特許請求の範囲の基礎として、および事実上任意の適切に詳細な構造で本開示を様々に使用することを当業者に教えるための代表的な基礎として解釈されるべきである。さらに、本明細書で使用される用語および句は、限定することを意図するのではなく、むしろ、本開示の理解可能な説明を提供することを意図している。

以下の詳細な説明は、本開示の実施形態およびそれらが実装され得る方法を例証する。本開示を実行するベストモードが開示されているものの、当業者は、本開示を実行する、または実践するための他の実施形態もまた可能であることを認識するであろう。

図１は、本開示の様々な実施形態を実施することができる環境１００を示す。環境１００は、カメラ１０１、動き検出システム１０２、およびコンピューティングデバイス１０３を含む。

カメラ１０１は、１または複数のオブジェクトのビデオをリアルタイムでキャプチャして保存するように構成されている。カメラ１０１の例には、主に監視目的で使用される単眼スチルカメラが含まれるが、これに限定されない。

動き検出システム１０２は、カメラ１０１によってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションを実行するように構成される。

動き検出システム１０２は、中央処理装置（ＣＰＵ）１０６、操作パネル１０８、およびメモリ１１０を含む。ＣＰＵ１０６は、プロセッサ、コンピュータ、マイクロコントローラ、または操作パネル１０８およびメモリ１１０などの様々な構成要素の動作を制御する他の回路である。ＣＰＵ１０６は、例えば、メモリ１１０などの揮発性または不揮発性メモリに格納されているか、または他の方法でＣＰＵ１０６に提供されるソフトウェア、ファームウェア、および／または他の命令を実行することができる。ＣＰＵ１０６は、１または複数のシステムバス、ケーブル、または他のインターフェースなどの有線または無線接続を介して、操作パネル１０８およびメモリ１１０に接続することができる。本開示の一実施形態では、ＣＰＵ１０６は、ローカルネットワーク上の全てのカメラに対して、リアルタイムのオブジェクト検出および予測を提供するためのカスタムグラフィックスプロセッシングユニット（ＧＰＵ）サーバソフトウェアを含み得る。

操作パネル１０８は、画像形成装置１００のユーザインターフェースであり得、物理的なキーパッドまたはタッチスクリーンの形態をとることができる。操作パネル１０８は、選択された機能、プリファレンス、および／または認証に関連する１または複数のユーザからの入力を受信することができ、視覚的および／または聴覚的に入力を提供および／または受信することができる。

メモリ１１０は、画像形成装置１００の動作を管理する際にＣＰＵ１０６によって使用される命令および／またはデータを格納することに加えて、画像形成装置１００の１または複数のユーザに関連するユーザ情報も含み得る。例えば、ユーザ情報は、認証情報（例えば、ユーザ名／パスワードのペア）、ユーザ設定、および他のユーザ固有の情報を含み得る。ＣＰＵ１０６は、このデータにアクセスして、操作パネル１０８およびメモリ１１０の動作に関連する制御機能（例えば、１または複数の制御信号の送信および／または受信）を提供するのを支援することができる。

カメラ１０１および動き検出システム１０２は、コンピューティングデバイス１０３によって制御／操作され得る。コンピューティングデバイス１０３の例には、スマートフォン、パーソナルコンピュータ、ラップトップなどが含まれる。コンピューティングデバイス１０３は、ユーザ／オペレータが、カメラ１０１によってキャプチャされたビデオを表示および保存し、動き検出システム１０２によって処理されたビデオ／画像にアクセスすることを可能にする。コンピューティングデバイス１０３は、ユーザがカメラ１０１によってキャプチャされたビデオストリームにアクセスして処理できるようにするため、動き検出システム１０２のモバイルアプリケーションを実行することができる。

カメラ１０１、動き検出システム１０２、およびコンピューティングデバイス１０３は、有線接続を介して、または無線通信ネットワーク１０４を介して、互いに接続することができる。通信ネットワーク１０４は、本開示の範囲を限定することなく、任意の好適な有線ネットワーク、無線ネットワーク、これらの組合せ、または任意の他の従来のネットワークであってよい。少数の例は、ローカルエリアネットワーク（ＬＡＮ）、無線ＬＡＮ接続、インターネット接続、ポイントツーポイント接続、または他のネットワーク接続、およびそれらの組合せを含むことができる。

一実施形態では、カメラ１０１、動き検出システム１０２、およびコンピューティングデバイス１０３は、単一のデバイスに統合することができ、単一のデバイスは、内蔵カメラおよびディスプレイを有する携帯型スマートフォンである。

図２は、本開示の一実施形態による、カメラ１０１によってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションのための動き検出システム１０２を示す。

動き検出システム１０２は、セグメンテーションモジュール２０１、ラベルフレーム差生成モジュール２０２、非静止セグメント検出モジュール２０３、移動セグメント検出モジュール２０４、第１の動き推定モジュール２０５、第２の動き推定モジュール２０６、およびモーションセグメンテーションモジュール２０７を含むＣＰＵ１０６を含む。

本開示の一実施形態では、７つの構成要素２０１～２０７のそれぞれは、単一の物理的コンピュータ上、または２つ以上のコンピュータ上に存在し、メッセージングプロトコルを介して通信することができる。７つのコンポーネントが単一のコンピュータで実行される場合、それらは通信プロトコルによって通信する別々のプロセスで実行される可能性がある。それらが単一のプロセス内で実行される場合、それらはスレッドとして実行される可能性がある。スレッドは、オペレーティングシステムで実行できる処理の最小単位である。多くの最新のオペレーティングシステムでは、スレッドはプロセス内に存在する。つまり、単一のプロセスは複数のスレッドを含む場合がある。単一のプロセスで実行する場合は、リアクティブデザインを使用して、コンポーネントが１つ以上のスレッドを共有できるようにすることもできる。コンポーネント２０１～２０７は、プログラミング言語で実装することができる。

セグメンテーションモジュール２０１は、ジョイント時空間適応ミーンシフトを使用することによって、カメラ１０１によってキャプチャされたビデオのビデオセグメンテーションを実行するように構成される。ビデオセグメンテーションは、時間方向に沿ってオブジェクトと背景をセグメント化（移動）することを目的としている。画像のモーションエリアは、前景の人物、背景の木、または道路など、一部の前景／背景のオブジェクト／領域の動きに関連付けられている。本開示の一実施形態では、ミーンシフトベースのビデオセグメンテーションは、ビデオセグメンテーションに基づいて実行され、動的／静的なオブジェクト／背景のセグメンテーションは、連続フレームにおけるフレーム間モードマッチングおよび動きベクトルモード推定を通じて得られる。モードマッチングによるビデオセグメンテーションは、現在のフレーム内のピクセルのモードが、同じオブジェクトまたは領域を表すデータ（または領域）のサブセットのモードと一致する必要があるという考えに基づいている。

新しい前景オブジェクトまたは覆われていない背景領域のために現在のフレームに新しく表示されるオブジェクト／領域は、フレーム内モード推定によってセグメント化される。高速処理のために、セグメンテーションモジュール２０１は、長方形の６次元放射状対称カーネル（Ｘ、Ｙ、Ｔ、Ｒ、Ｇ、Ｂ時空間マルチチャネル空間における半径ｈの超球）を使用して、ミーンシフトベースのビデオセグメンテーションを実行する。データ空間は、様々な物理的重要性と変数の範囲を説明するために、適切に正規化されている必要がある。

図３Ａおよび図３Ｂは、第１から第６の連続するビデオフレーム３０２ａから３１２ａまで、およびそれらの対応するミーンシフトセグメント化された画像３０２ｂから３１２ｂまでを示す。セグメント化された画像の各セグメントは、ミーンシフト収束モードカラーの色（加重平均の種類）によってエンコードされ、セグメントの境界が強調表示されている。

本開示の一実施形態では、シーケンスの第１のフレーム３０２ａは、フレーム内モード推定によってセグメント化される。フレーム内モード推定は、主に、現在のフレームに導入された新しい領域、つまり新しい前景オブジェクト、または以前に遮られていた背景を明らかにするものを扱うために設計されている。対応するセグメント化された画像３０２ｂの各ピクセルは、その収束モード（convergence mode）によって表される。同じモードに収束するピクセルは、高速伝播を使用してリンクされ、同じラベルが割り当てられ、ラベルマップも第１のフレーム３０２ａに対して生成される。

第２のフレーム３０４ａ以降、セグメンテーションは、フレーム間モードマッチングを使用して実行される。フレーム間モードマッチングは、現在のフレームのピクセルと前のフレームのピクセルの間で同様のモードを見つけるために使用される。これは、画像フレームを介して対応するモーション／静的領域を追跡するために使用できる。本開示の一実施形態では、第２のセグメント化されたフレーム３０４ｂの各ピクセルは、セグメント化された前のフレーム３０２ｂで検索されたそのミーンシフトモードに割り当てられる。提案されたセグメンテーションアルゴリズムのこの微妙な詳細は、滑らかな時空間ラベルチューブで非常に安定した結果をもたらすため、本アプリケーションにとって非常に重要である。より良い安定性は、現在のフレーム３０４ａが、セグメント化された前のフレーム３０２ｂにおける密度モード発見（density mode finding）によってセグメント化されるためである。

本開示の一実施形態では、ミーンシフトセグメンテーション方法はまた、セグメンテーションラベルを伝播することを含む。現在のフレーム３０４ａのピクセルには、以前にセグメント化されたフレーム３０２ｂのカーネル距離内で見られる最も頻繁なラベルが割り当てられる。アルゴリズムのさらに高速なバージョンとして、前のフレーム３０２ｂの同じ空間座標を持つピクセルが、６Ｄ空間のカーネル半径距離内で検出され、テストが真の場合にそのラベルが割り当てられるかどうかがチェックされる。前のフレーム３０２ｂ内にカーネル距離内のピクセルが見つからない場合、カーネル半径距離内にある現在のフレーム３０４ａ内にすでにラベル付けされたピクセルがない限り、ピクセルには新しいラベルが割り当てられる。従って、領域の対応が解決され、カバーされていない背景またはシーンに入るオブジェクトによって生成された新しいラベルが新しい領域に割り当てられる。画像サポートの境界に接するセグメントを除いて、対応するセグメントの動きはゼロに設定される。

図２に戻って参照すると、ラベルフレーム差生成モジュール２０２は、現在のセグメント化された画像フレームごとにラベル変更マップを生成するように構成される。本開示の一実施形態では、ラベル変更マップは、現在のセグメント化された画像フレームのバイナリマップを生成し、次に、前のセグメント化された画像フレームからラベルを変更したピクセルをマーキングすることによって形成される。前のセグメント化された画像フレームから変更されたラベルの付いたピクセルは、次のカテゴリ、すなわち、古いオブジェクトの遮蔽された部分または遮蔽されていない部分、またはシーンに入る新しいオブジェクトの部分、のいずれかに属する可能性がある。

非静止セグメント検出モジュール２０３は、現在のセグメント化された画像フレームから各静止画像セグメントを検出して破棄するように構成される。静止画像セグメントは動きがなく、それ以上の処理は必要ないが、非静止セグメントは静止セグメントまたは移動セグメントとしてさらに分類する必要がある。静止セグメントの動きベクトルは、覆われた静的オブジェクトまたは覆われていない静的オブジェクトに対応するためゼロである。

通常、スチルカメラでキャプチャされた画像には、動きのない広い領域が含まれている。従って、動きのない領域に属する前の画像フレームで生成されたセグメントは、対応する現在の画像フレームの形状または内容を変更しない。ただし、連続するフレーム間で低いと思われるノイズと照明の変化の存在は、小さな変化を引き起こす可能性がある。例えば、テーブル上のセグメントの実際の境界（図３Ａおよび図３Ｂ参照、第１から第６のセグメント化された画像３０２ｂから３１２ｂ）は、ミーンシフトクラスタリングによって人工的に作成され、オブジェクトの境界に対応しないことが分かり得る。わずかなシャドウイングとハイライト、およびテーブルの照明勾配は全て、テーブル上のセグメントの形成に寄与する可能性がある。これは、セグメント境界の勾配をチェックすることで解決できる。ただし、これにより、エッジが拡散しているオブジェクト（雲など）や、背景とのコントラストが低いオブジェクトをセグメント化する際に問題が発生する可能性がある。

本開示の一実施形態では、非静止セグメント検出モジュール２０３は、セグメントおよび前のフレームのその対応物から計算された、しきい値、ユニオンセット上の共通部分のカーディナリティをチェックすることによって、現在の画像フレームの各静止画像セグメントを検出し、および破棄する。

図４は、本開示の一実施形態による、静止画像セグメントおよび非静止画像セグメントを描写する例示的なビデオシーケンス４００を示す。

例示的なビデオシーケンス４００は、３つのセグメント、すなわち、黒色の背景セグメント４０８上の第１および第２の正方形セグメント４０４および４０６を含む第１のセグメント化された画像フレーム４０２を含む。第２のセグメント化された画像フレーム４１０は、ビデオシーケンス４００の次のセグメント化された画像フレームである。第２のセグメント化された画像フレーム４１０において、第１の正方形のセグメント４０４は、第２の正方形のセグメント４０６に向かって移動し、一方、第２の正方形のセグメント４０６は静止している。第３の画像４１２は、第１のセグメント化された画像フレーム４０２から第２のセグメント化された画像フレーム４０４への移行中に変化した白いピクセルを強調している。従って、第２の正方形のセグメント４０６は、静止セグメントとして検出され、そこから廃棄され得る。

図２に戻って参照すると、移動セグメント検出モジュール２０４は、現在のセグメント化された画像フレーム内の静的および移動する非静止セグメントを識別するように構成される。移動セグメント検出モジュール２０４は、最初に、形状を変化させない、すなわち、カーディナリティを変化させないセグメントを識別する。このようなセグメントは最上位のローカルレイヤを表し、それらの動きは、アフィンモデルを使用したロバスト回帰によって正確に推定できる。残りのセグメントは、静的または動的のいずれかである。静的セグメントは、上位レイヤを移動するオブジェクトに属するセグメントで覆われている、または覆われていない場合に形状が変化する。動的セグメントは、別の移動セグメントによって遮られたり、遠近法が変更されたりするなど、様々な理由で形状が変化する場合がある。静的セグメントでは、境界ピクセルのかなりの割合が固定されている。移動する非静止セグメントには、遮蔽されていない移動セグメントと遮蔽された移動セグメントの２つのタイプがあり得る。

図５Ａは、本開示の一実施形態による、様々なタイプの非静止画像セグメントを描写する例示的なビデオシーケンス５００を示す。

ビデオシーケンス５００は、４つのセグメント、すなわち、第１、第２、および第３の正方形セグメント５０４、５０６、および５０８、並びに黒色の背景セグメント５１０を含む第１の画像フレーム５０２を含む。黒色の背景セグメント５１０は静的であり、他の３つのセグメント５０４、５０６、および５０８全てによって遮られている。

第２の画像フレーム５１２に見られるように、第１の正方形セグメント５０４は、１ピクセル下および３ピクセル右に移動し、遮蔽されていない。第１の正方形セグメント５０４が移動すると、それは第２の正方形セグメント５０６を部分的に遮蔽する。第２の正方形セグメント５０６もまた、１ピクセル上および１ピクセル右に移動するが、それは第１の正方形セグメント５０４によって遮蔽される。第３の正方形セグメント５０８は静止しており、遮蔽されていない。

第３の画像５１４は、第１のフレーム５０２から第２のフレーム５１２への遷移中に変化したピクセルを強調している。

図５Ｂは、本開示の実施形態による、ビデオシーケンス５００のための移動セグメント検出モジュール２０４によって生成された三元セグメンテーションマップ５１６を示す。三元セグメンテーションマップ５１６は、移動する非静止セグメント５１８および静的な非静止セグメント５２０を含む。第３の正方形のセグメント５０８は静止しているので、静的な非静止セグメント５２０の一部である。静的な非静止セグメント５２０は、動きがゼロであり、さらなる処理を必要としない。移動セグメント５１８は、遮蔽されていない移動セグメントおよび遮蔽された移動セグメントから形成され得る。

図２に戻って参照すると、第１の動き推定モジュール２０５は、第１の正方形セグメント５０４などの遮蔽されていない移動セグメントの動きを推定するように構成される（図５Ａの第２の画像フレーム５１２参照）。第１の正方形セグメント５０４は、そのサイズおよび形状を保持しているので、それは遮蔽されず、第１および第２の画像フレーム５０２および５１２におけるその位置が知られている。本開示の一実施形態では、第１の正方形セグメント５０４の動きは、２Ｄアフィンモデルなどの一般的な動きモデルによって正確に表すことができる。モデルパラメータは、堅固な登録方法を介して推定され得る。

図２に戻って参照すると、第２の動き推定モジュール２０６は、第２の正方形セグメント５０６などの遮蔽された移動セグメントの動きを推定するように構成される（図５Ａの第２の画像フレーム５１２参照）。遮蔽した移動セグメントでは、動き推定精度の低下が予想される場合がある。遮蔽セグメントが１つだけであり、遮蔽セグメント自体が遮蔽されていない場合、その境界ピクセルが遮蔽セグメントと共有されていなければ、遮蔽セグメントの動きは、動きを推定することによって解決され得る。ほとんどのセグメントは小さいため、この仮定は正しいと見なすことができる。繰り返しになるが、選択した境界ピクセルの動きを推定するために、アフィンモデルを使用したロバスト回帰は、大量の外れ値データを許容できるので、使用されるツールである。ロバスト回帰は、従来のパラメトリック法と非パラメトリック法のいくつかの制限を克服するために設計された回帰分析の形式であり、回帰分析は１つ以上の独立変数と従属変数の間の関係を見つけようとする。

アフィンモデルは次のように定義できる。これは、ｓ、α、ｔｘ、ｔｙの４つのパラメータによって定義される。これらのパラメータは、ロバストな登録を使用して隣接フレームのセグメントのペアから推定されることになる。

図２に戻って参照すると、モーションセグメンテーションモジュール２０７は、最初に各セグメントを７つのパラメータのベクトルとして表すように構成される。本開示の一実施形態では、７つのパラメータは、対応するセグメントの重心の２つの空間座標、類似性変換に対応する並進および回転パラメータを含む４つのアフィンパラメータ、およびそのピクセルの総数によって定義されるセグメントの重みを含む。一例では、典型的なセグメントベクトルｖは、ｖ＝［ｓ，α，ｔｘ，ｔｙ，ｘｃ，ｙｃ］および重みｎｐの形式であり、ここで、ｓ、α、ｔｘ、およびｔｙは４つのアフィンパラメータであり、ｘｃおよびｙｃは、対応するセグメントの重心の空間座標である。

各セグメントのセグメントベクトルが決定されると、モーションセグメンテーションモジュール２０７は、対応する第１から第６のパラメータに基づいて、１または複数のセグメントベクトルの１または複数のクラスタを形成するように構成される。クラスタリングは、類似したエンティティをグループ化する方法である。２つのベクトルの場合、類似性は距離関数であり得る。クラスタリングに必要な類似度は、セグメントの重みを除いて、セグメントベクトルの最初の６つのパラメータを使用する。これは、任意のセグメントのベクトルにそのピクセル数（そのカーディナリティ）を掛けたものを複製するように機能する。一例では、２つのセグメントのみがクラスタにグループ化されている場合、クラスタの中心はセグメントベクトルの加重平均として更新されうる：ｖｃ＝（ｎｐ１＊ｖ１＋ｎｐ２＊ｖ２）／（ｎｐ１＋ｎｐ２）、ここでｎｐ１とｎｐ２は、２つのセグメントの個々の重みである。

クラスタリングプロセスにより、セグメントのグループ化が容易になり、移動するオブジェクトや、同様の動きを持つ人体（脚、前腕、頭など）などの関節オブジェクトの一部を見つけることができる。移動するオブジェクトの全てのセグメントが同様の（同一ではない）動きをしていると想定される。類似性は、表現の粒度を定義する。人は平均時速５ｋｍで歩くことができるが、脚と腕は独立して動ける。活動認識アプリケーションでは、各手足の動きを特徴づける必要がある。

本開示の一実施形態では、異なる色またはテクスチャを有するオブジェクトの部分は、オブジェクトが３次元であり、任意の軸を中心に回転することができるとしても、いくつかのフレーム間で同様の動きをし得る。同様の動きを持つセグメントをグループ化するために、６Ｄ空間ー並進ー回転ースケール空間でのミーンシフトクラスタリングを再び使用することができる。セグメントサイズを説明するために、セグメントの重心がそのピクセルごとに複製されているかのように、アルゴリズムの加重和を計算できる。ミーンシフトアルゴリズムでは、クラスタの数を事前に知る必要はなく、代わりに、密度推定カーネルのスケール行列を指定する必要がある。各クラスタは別個の動きを有し、クラスタリング後、モーションセグメンテーションモジュール２０７は、画像の動きセグメンテーションを実行してその中の動きを検出および追跡し、動作認識を実行するように構成される。

本開示の実施形態は、複数の処理段階のカスケードアーキテクチャ内に構築された、レイヤードモーションセグメンテーション問題のための計算上効果的な解決策を提供する。各処理段階は、画像の一部を以降の処理から安全に破棄する。初期段階はより多くのデータを処理するが、複雑さは低く、後の段階はより複雑になる傾向があるが、処理するデータは少なくなる。正確な動きの推定のために、ロバストな推定方法が使用され、スチルカメラシナリオの利点が活用される。通常、スチルカメラでは、ほとんどのピクセルは静的であり（例えば、通常は７５％）、動き検出システム１０２のラベルフレーム差生成モジュール２０２によって早期に検出される。全ピクセルの２５％のみが、残りの構成要素２０３～２０５によるさらなる処理を必要とする。全ピクセルの２５％のうち、一部のオブジェクトは非遮蔽オブジェクトであり、処理が簡単である。動き検出システム１０２は、安定で高速なビデオセグメンテーションアルゴリズムを採用することにより、ほとんどの人間の行動モデリングアプリケーションに関連する局所的な深度順序情報のみを提供することを容易にする。

図６は、本開示の一実施形態による、カメラによってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションのための方法６００を示すフローチャートである。いくつかのステップは、図２に示されるようなシステムに関して議論され得る。

ステップ６０２で、フレーム内モード推定を使用してビデオの第１の画像フレームがセグメント化され、ビデオの１または複数のさらなる画像フレームが、フレーム間モードマッチングを使用してセグメント化される。フレーム内モード推定は、主に現在のフレームに導入された新しい領域、つまり新しい前景オブジェクトまたは以前に遮られた背景を明らかにするように設計されており、フレーム間モードマッチングは、現在のフレームのピクセルおよび前のフレームのピクセル間の類似のモードを発見するために使用される。本開示の一実施形態では、ビデオは、単眼スチルカメラによってキャプチャされる。本開示の別の実施形態では、ビデオの１または複数の画像フレームは、Ｘ、Ｙ、Ｔ、Ｒ、Ｇ、Ｂ時空間マルチチャネル空間の半径ｈの超球を使用するジョイント時空間適応ミーンシフトアルゴリズムに基づいてセグメント化される。また、フレーム間モードマッチングを使用してビデオの１または複数のさらなる画像フレームをセグメント化することは、セグメント化された前の画像フレームにおける密度モード（density mode）発見に基づいて現在の画像フレームをセグメント化することを含む。

ステップ６０４において、現在のセグメント化された画像フレームのバイナリマップを生成し、次に、前のセグメント化された画像フレームに対してラベルが変更された１または複数のピクセルをマークすることによって、現在のセグメント化された画像フレームのラベル変更マップが生成される。前のセグメント化された画像フレームから変更されたラベルの付いたピクセルは、次のカテゴリ、すなわち、古いオブジェクトの遮蔽された部分または遮蔽されていない部分、またはシーンに入る新しいオブジェクトの部分、のいずれかに属する可能性がある。

ステップ６０６で、現在のセグメント化された画像フレームの１または複数の非静止画像セグメントが、ラベル変更マップに基づいて検出される。本開示の一実施形態では、静止画像セグメントは動きがなく、それ以上の処理は必要ないが、非静止セグメントは静止セグメントまたは移動セグメントとしてさらに分類する必要がある。静止セグメントの動きベクトルは、覆われた静的オブジェクトまたは覆われていない静的オブジェクトに対応するため、ゼロである。

ステップ６０８で、１または複数の非静止画像セグメント内の１または複数の移動画像セグメントが検出される。本開示の一実施形態では、１または複数の移動セグメントは、１または複数の非遮蔽移動セグメントおよび１または複数の遮蔽移動セグメントを含む。

ステップ６１０で、１または複数の移動画像セグメントの動きが推定される。本開示の一実施形態では、１または複数の移動セグメントの動きは、２次元アフィンモデルを使用して推定される。本開示の一実施形態では、遮蔽された第１の正方形セグメントの動きは、２Ｄアフィンモデルなどの一般的な動きモデルによって正確に表すことができる。モデルパラメータは、堅固な登録方法を介して推定され得る。本開示の別の実施形態では、アフィンモデルを用いたロバスト回帰を使用して、遮蔽されていない移動セグメントの動きを推定する。

ステップ６１２において、各移動セグメントは、７つのパラメータのベクトルとして表される。本開示の一実施形態では、７つのパラメータは、対応するセグメントの重心の２つの空間座標、類似性変換に対応する並進および回転パラメータを含む４つのアフィンパラメータ、および対応するピクセルの総数によって定義されるセグメントの重みを含む。

ステップ６１４で、１または複数の同様の移動セグメントベクトルが、対応する１または複数のパラメータに基づいてクラスタ化される。本開示の一実施形態では、各セグメントのセグメントベクトルが決定されると、１または複数のセグメントベクトルの１または複数のクラスタが、対応する第１から第６のパラメータに基づいて形成される。クラスタリングは、類似したエンティティをグループ化する方法である。２つのベクトルの場合、類似性は距離関数であり得る。クラスタリングに必要な類似度は、セグメントの重みを除いて、セグメントベクトルの最初の６つのパラメータを使用する。クラスタリングプロセスにより、セグメントのグループ化が容易になり、移動するオブジェクトや、同様の動きを持つ人体（脚、前腕、頭など）などの関節オブジェクトの一部を見つけることができる。

本開示の一実施形態では、１または複数の動き認識結果をユーザコンピューティングデバイスに送信することができる。いくつかの実施形態では、ユーザコンピューティングデバイスは、そのような認識結果を格納または表示するように構成され得る。

上記で説明された本開示の実施形態に対する修正は、付随する特許請求の範囲によって定義される通りの本開示の範囲から外れることなく可能である。本開示を説明し、特許請求するために使用される「～を含む」、「～を備える」、「～を組み込む」、「～からなる」、「～を有する」、「～である」などの言い回しは、非排他式に解釈されることが意図されており、すなわち、明示的に説明されていないアイテム、コンポーネント、または要素もまた存在するように考慮する。単数形への言及もまた、複数形に関するように解釈されることになる。

Claims

ビデオの動きデータをセグメント化し、レイヤリング順序を推測する方法であって、
フレーム内モード推定を使用して前記ビデオの第１の画像フレームをセグメント化することと、
フレーム間モードマッチングを使用して前記ビデオの１または複数のさらなる画像フレームをセグメント化することと、
現在のセグメント化された画像フレームのバイナリマップを生成することによって、前記現在のセグメント化された画像フレームのラベル変更マップを生成することと、
前のセグメント化された画像フレームに対してラベルが変更された１または複数のピクセルをマークすることと、
前記ラベル変更マップに基づいて前記現在のセグメント化された画像フレームの１または複数の非静止画像セグメントを検出することと、
前記１または複数の非静止画像セグメント内の１または複数の移動画像セグメントを検出することと、
前記１または複数の移動画像セグメントの動きを推定することと、
各移動セグメントを７つのパラメータのベクトルとして表すことであって、前記７つのパラメータは、対応するセグメントの重心の２つの空間座標、類似性変換に対応する並進および回転パラメータを含む４つのアフィンパラメータ、および対応するピクセルの総数によって定義される重みを含む、ことと、
対応する１または複数のパラメータに基づいて、１または複数の類似の移動セグメントベクトルをクラスタ化することと
を備える方法。
前記ビデオは、単眼スチルカメラによってキャプチャされる、請求項１の方法。
前記１または複数の移動セグメントは、１または複数の非遮蔽移動セグメントおよび１または複数の遮蔽移動セグメントを含む、請求項１の方法。
前記１または複数の移動セグメントの動きは、２次元アフィンモデルを使用して推定される、請求項１の方法。
前記ビデオの１または複数の画像フレームは、Ｘ、Ｙ、Ｔ、Ｒ、Ｇ、Ｂ時空間マルチチャネル空間の半径ｈの超球を使用するジョイント時空間適応ミーンシフトアルゴリズムに基づいてセグメント化される、請求項１の方法。
フレーム間モードマッチングを使用して前記ビデオの１または複数のさらなる画像フレームをセグメント化することは、セグメント化された前の画像フレームにおける密度モード発見に基づいて現在の画像フレームをセグメント化することを含む、請求項１の方法。
ビデオの動きデータをセグメント化し、レイヤリング順序を推測するシステムであって、
１または複数の命令を格納するメモリと、
前記メモリに通信可能なように結合され、前記メモリに格納されている前記１または複数の命令を実行するように構成されているプロセッサと
を備え、前記プロセッサは、
フレーム内モード推定を使用して前記ビデオの第１の画像フレームをセグメント化し、フレーム間モードマッチングを使用して前記ビデオの１または複数のさらなる画像フレームをセグメント化するビデオセグメンテーションモジュールと、
現在のセグメント化された画像フレームのバイナリマップを生成することによって、前記現在のセグメント化された画像フレームのラベル変更マップを生成し、前のセグメント化された画像フレームに対してラベルが変更された１または複数のピクセルをマークするラベルフレーム差生成モジュールと、
前記ラベル変更マップに基づいて前記現在のセグメント化された画像フレームの１または複数の非静止画像セグメントを検出する非静止セグメント検出モジュールと、
前記１または複数の非静止画像セグメント内の１または複数の移動画像セグメントを検出する移動セグメント検出モジュールと、
前記１または複数の移動画像セグメントの動きを推定する動き推定モジュールと、
各移動セグメントを７つのパラメータのベクトルとして表し、対応する１または複数のパラメータに基づいて、１または複数の類似の移動セグメントベクトルをクラスタ化するモーションセグメンテーションモジュールであって、前記７つのパラメータは、対応するセグメントの重心の２つの空間座標、類似性変換に対応する並進および回転パラメータを含む４つのアフィンパラメータ、および対応するピクセルの総数によって定義される重みを含む、モーションセグメンテーションモジュールと
を備えたシステム。
前記ビデオは、単眼スチルカメラによってキャプチャされる、請求項７のシステム。
前記１または複数の移動セグメントは、１または複数の非遮蔽移動セグメントおよび１または複数の遮蔽移動セグメントを含む、請求項７のシステム。
前記１または複数の移動セグメントの動きは、２次元アフィンモデルを使用して推定される、請求項７のシステム。
前記ビデオの１または複数の画像フレームは、Ｘ、Ｙ、Ｔ、Ｒ、Ｇ、Ｂ時空間マルチチャネル空間の半径ｈの超球を使用するジョイント時空間適応ミーンシフトアルゴリズムに基づいてセグメント化される、請求項７のシステム。
フレーム間モードマッチングを使用して前記ビデオの１または複数のさらなる画像フレームをセグメント化することは、セグメント化された前の画像フレームにおける密度モード発見に基づいて現在の画像フレームをセグメント化することを含む、請求項７のシステム。
ビデオの動きデータをセグメント化し、レイヤリング順序を推測する、コンピュータのメモリに格納されているコンピュータプログラムであって、前記コンピュータプログラムは、前記コンピュータに、
フレーム内モード推定を使用して前記ビデオの第１の画像フレームをセグメント化することと、
フレーム間モードマッチングを使用して前記ビデオの１または複数のさらなる画像フレームをセグメント化することと、
現在のセグメント化された画像フレームのバイナリマップを生成することによって、前記現在のセグメント化された画像フレームのラベル変更マップを生成することと、
前のセグメント化された画像フレームに対してラベルが変更された１または複数のピクセルをマークすることと、
前記ラベル変更マップに基づいて前記現在のセグメント化された画像フレームの１または複数の非静止画像セグメントを検出することと、
前記１または複数の非静止画像セグメント内の１または複数の移動画像セグメントを検出することと、
前記１または複数の移動画像セグメントの動きを推定することと、
各移動セグメントを７つのパラメータのベクトルとして表すことであって、前記７つのパラメータは、対応するセグメントの重心の２つの空間座標、類似性変換に対応する並進および回転パラメータを含む４つのアフィンパラメータ、および対応するピクセルの総数によって定義される重みを含む、ことと、
対応する１または複数のパラメータに基づいて、１または複数の類似の移動セグメントベクトルをクラスタ化することと
を実行させる、コンピュータプログラム。
前記ビデオは、単眼スチルカメラによってキャプチャされる、請求項１３のコンピュータプログラム。
前記１または複数の移動セグメントは、１または複数の非遮蔽移動セグメントおよび１または複数の遮蔽移動セグメントを含む、請求項１３のコンピュータプログラム。
前記１または複数の移動セグメントの動きは、２次元アフィンモデルを使用して推定される、請求項１３のコンピュータプログラム。
単眼スチルカメラ監視システムであって、
ビデオをキャプチャする単眼スチルカメラと、
１または複数の命令を格納するメモリと、
前記メモリに結合され、前記メモリに格納されている前記１または複数の命令を実行して、
フレーム内モード推定を使用して前記ビデオの第１の画像フレームをセグメント化し、
フレーム間モードマッチングを使用して前記ビデオの１または複数のさらなる画像フレームをセグメント化し、
現在のセグメント化された画像フレームのバイナリマップを生成することによって、前記現在のセグメント化された画像フレームのラベル変更マップを生成し、前のセグメント化された画像フレームに対してラベルが変更された１または複数のピクセルをマークし、
前記ラベル変更マップに基づいて前記現在のセグメント化された画像フレームの１または複数の非静止画像セグメントを検出し、
前記１または複数の非静止画像セグメント内の１または複数の移動画像セグメントを検出し、
前記１または複数の移動画像セグメントの動きを推定し、
各移動セグメントを７つのパラメータのベクトルとして表し、前記７つのパラメータは、対応するセグメントの重心の２つの空間座標、類似性変換に対応する並進および回転パラメータを含む４つのアフィンパラメータ、および対応するピクセルの総数によって定義される重みを含み、
対応する１または複数のパラメータに基づいて、１または複数の類似の移動セグメントベクトルをクラスタ化し、
１または複数のクラスタに基づいて動き検出および動き認識を行う
ように構成されているプロセッサと
を備えたシステム。