JP2024503344A

JP2024503344A - 画像または映像内のオブジェクト識別

Info

Publication number: JP2024503344A
Application number: JP2023540525A
Authority: JP
Inventors: ルイスハーバー，; マイバン，バハレバファンデ; コリンジョゼフブラウン，; ジェフリーレイニー，
Original assignee: ヒンジヘルス，インコーポレイテッド
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2024-01-25
Also published as: US20230351615A1; EP4272156A1; EP4272156A4; KR20230128332A; AU2021411776A1; CA3206872A1; WO2022144594A1

Abstract

装置が、提供される。本装置は、外部ソースから未加工データを受信するための通信インターフェースを含む。未加工データは、第１のオブジェクトおよび第２のオブジェクトの表現を含む。本装置はさらに、未加工データを記憶させるためのメモリ記憶ユニットを含む。加えて、本装置は、未加工データを受信するためのニューラルネットワークエンジンも含む。ニューラルネットワークエンジンは、セグメント化マップおよび境界マップを生成するためのものである。本装置はまた、セグメント化マップおよび境界マップに基づいて、第１のオブジェクトおよび第２のオブジェクトを識別するための後処理エンジンも含む。

Description

画像内のオブジェクト識別は、複数の目的のために使用され得る。例えば、オブジェクトは、他の下流アプリケーションにおける使用のために、画像内で識別され得る。特に、オブジェクトの識別は、後続の再生または分析のために、競技場上のプレーヤ等のオブジェクトを追跡し、プレーヤの運動を追従し、その運動を捕捉するために使用され得る。

画像および映像内のオブジェクトの識別は、エッジベースのセグメント化検出および他のコンピュータビジョン方法等の方法を用いて遂行され得る。そのような方法は、３次元再構成、オブジェクト中心場面理解、偵察、およびアクション認識における用途のために、画像内のオブジェクト、特に、人々を分離するために使用され得る。

ここで、単に一例として、付随の図面が、参照されるであろう。

図１は、断片のクラスタ化および再発見に基づいて、オブジェクトのインスタンスのセグメント化を生成するための例示的装置の構成要素の概略描写である。

図２は、図１の装置において受信される画像を表す、未加工データの実施例である。

図３は、図２の画像内のオブジェクトのセグメント化マップである。

図４は、図２の画像内のオブジェクトの境界マップである。

図５は、識別された断片を処理する方法の実施例のフローチャートである。

図６は、図２の画像内のオブジェクトの境界マップであり、着目領域を示す。

図７は、着目領域のマップであり、セグメント化されたオブジェクトを示す。

図８は、断片のクラスタ化および再発見に基づいて、オブジェクトのインスタンスのセグメント化を生成するための別の例示的装置の構成要素の概略描写である。

図９は、断片のクラスタ化および再発見に基づいて、オブジェクトのインスタンスのセグメント化を生成する方法の実施例のフローチャートである。

詳細な説明
本明細書で使用されるように、絶対配向を示唆する用語（例えば、「上部」、「底部」、「上方」、「下方」、「左」、「右」、「低い」、「高い」等）のいずれの使用も、例証的利便性のためであり、特定の図に示される配向を指し得る。しかしながら、そのような用語は、種々の構成要素が、実践では、説明または示されるものと同一である、またはそれと異なる配向において利用されるであろうことが想定されるため、限定的な意味で解釈されるべきではない。

エッジベースのセグメント化検出および他のコンピュータビジョン方法が、画像内のオブジェクトを識別するために使用され得る。しかしながら、これらの方法は、概して、これらの方法が、断片化されたパーツから、意味のあるオブジェクトおよびインスタンスを作成することが困難であるため、断片化されたパーツが、可視であるとき、オブジェクトを識別することを十分に実施しない。故に、実世界環境内の分離された図地構成の人間のインスタンスのセグメント化の検出は、複合化されたオクルージョンパターン、変動する身体比率、および被服に起因して、困難であり得る。

複数のオブジェクトを伴う複合化された画像内で、セグメント化を予測する装置および方法が、画像内の標的オブジェクトを識別するために提供される。本装置は、ニューラルネットワークを使用し、境界マップを予測し、次いで、後処理エンジンが、エンコードされたマップを組み合わせ、インスタンスのセグメント化を提供する。本装置および方法は、著しいオクルージョン面積を伴う複合画像内で、正確なオブジェクトのインスタンスのセグメント化フレームワークを提供することができる。例えば、本装置は、入力画像上に境界マップを適用した後、人間（限定ではないが、手、脚部、胴部、頭部を含む）等のオブジェクトの関連パーツの全てを自動的にクラスタ化し得る。さらに、本装置および方法は、入力画像の特性に基づいて、動的に適応し、検出の数および品質の両方の観点において、複合場面内で、改良されたオブジェクトのインスタンスのセグメント化を提供することが可能である。

本説明では、下記に議論されるモデルおよび技法は、概して、人物に適用される。下記に説明される実施例が、動物および機械等の他のオブジェクトにも同様に適用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。

図１を参照すると、断片のクラスタ化および再発見に基づいて、複合画像内で、オブジェクトのインスタンスのセグメント化を生成するための装置の概略描写が、概して、５０に示される。装置５０は、装置５０のユーザと相互作用するためのインジケータ等の種々の付加的なインターフェースおよび／または入力／出力デバイス等の付加的な構成要素を含んでもよい。相互作用は、装置５０またはその中で装置５０が動作するシステムの動作ステータスを視認すること、装置５０のパラメータを更新すること、または装置５０をリセットすることを含み得る。本実施例では、装置５０は、標準的なＲＧＢ画像等の未加工データを受信し、未加工データを処理し、人物等のオブジェクトを識別する出力を生成するためのものである。出力は、特に、限定されず、セグメント化マップまたは骨格を含んでもよい。本実施例では、装置５０は、通信インターフェース５５と、メモリ記憶ユニット６０と、ニューラルネットワークエンジン６５と、後処理エンジン７０とを含む。

通信インターフェース５５は、複合画像内のオブジェクトを表す未加工データを受信するために、外部ソースと通信するためのものである。通信インターフェース５５によって受信される未加工データは、いくつかの事例では、複合画像を表さない場合があるが、装置５０は、概して、画像内のオブジェクトのオクルージョンに起因して、典型的には、取り扱うことが困難である複合画像を取り扱うように構成されることを理解されたい。オクルージョンは、限定されず、ある場合には、画像は、多くのオブジェクトを含み、したがって、オブジェクトが、相互にオクルードし得る。他の実施例では、オブジェクトは、セグメント化または識別されることのない他の特徴を引き起こす、オクルージョンを伴い得る。

本実施例では、未加工データは、オブジェクトの２次元画像であってもよい。オブジェクトが表される様式および２次元画像の厳密なフォーマットは、特に限定されない。本実施例では、２次元画像は、ＲＧＢフォーマットにおいて受信され得る。２次元画像が、カメラによって捕捉および処理された、ラスタグラフィックファイルまたは圧縮された画像ファイル等の異なるフォーマットにおけるものであることが、本説明から利益を享受する当業者によって理解されるはずである。

通信インターフェース５５が、未加工データを受信する様式は、限定されない。本実施例では、通信インターフェース５５は、ネットワークを経由して、外部ソースと通信し、これは、ＷｉＦｉネットワークまたはセルラーネットワーク等の多数の接続されたデバイスと共有される、パブリックネットワークであってもよい。他の実施例では、通信インターフェース５５は、イントラネットまたは他のデバイスとの有線接続等のプライベートネットワークを介して、外部ソースからデータを受信してもよい。加えて、そこから通信インターフェース５５が未加工データを受信する、外部ソースは、いかなるタイプのソースにも限定されない。例えば、通信インターフェース５５は、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続、無線信号、または赤外線信号を介して、未加工データを捕捉する、別の近接可搬型電子デバイスに接続されてもよい。別の実施例として、通信インターフェース５５は、カメラシステム、またはクラウド等の外部データソースから未加工データを受信するためのものである。通信インターフェース５５を介して受信される未加工データは、概して、メモリ記憶ユニット６０上に記憶される。

別の実施例では、装置５０は、未加工データを捕捉するためのカメラシステム（図示せず）を含む、スマートフォン等の可搬型電子デバイスの一部であってもよい。故に、本実施例では、通信インターフェース５５は、可搬型電子デバイスの装置５０部分をカメラシステムと接続するために、可搬型電子デバイス内に電気的接続を含んでもよい。本電気的接続は、可搬型電子デバイス内に、種々の内部バスを含んでもよい。

さらに、通信インターフェース５５は、元の画像内のオブジェクトをセグメント化するために生成され得る、セグメント化マップおよび／または複数の骨格等の結果を伝送するために使用され得る。例えば、通信インターフェース５５は、装置５０の一部である、または別個のデバイス上に存在し得る、アニメーションエンジン（図示せず）と通信してもよい。故に、装置５０は、外部ソースから、セグメント化されることになる複合オクルージョンを伴う複数のオブジェクトを表す、未加工データを受信するように動作し得る。

メモリ記憶ユニット６０は、通信インターフェース５５を介して受信される、未加工データを記憶させるためのものである。特に、メモリ記憶ユニット６０は、セグメント化および／または追跡されることになる複合オクルージョンを伴うオブジェクトを表す、２次元画像を含む、未加工データを記憶してもよい。本実施例では、メモリ記憶ユニット６０は、映像のフレーム内に、異なるオブジェクトを表す、複数の２次元画像を記憶してもよい。故に、未加工データは、画像内の種々のオブジェクトの移動を表す、映像データであってもよい。具体的な実施例として、オブジェクトは、異なるサイズを有する人々の画像であってもよく、異なる関節を示し、身体のいくつかの部分が、身体の他の関節および部分をオクルードしている異なる姿勢にある人々を含んでもよい。例えば、画像は、通常の競技試合において動き回っている、複数のプレーヤが、捕捉される、スポーツ場面であってもよい。そのような場面では、各プレーヤが、別のプレーヤをオクルードし得ることが、当業者によって理解されるはずである。加えて、試合上の備品またはアリーナの付属設備等の他のオブジェクトがさらに、プレーヤをオクルードし得る。本実施例は、１人またはそれを上回る人間の２次元画像に関連するが、本実施例がまた、動物または機械等の異なるタイプのオブジェクトを表す画像も含み得ることを、本説明の利益とともに理解されるはずである。例えば、画像は、複数の動物が動き回っている草原場面、または複数の車がトラックの周囲を走行しているレーストラックを捕捉する画像を表してもよい。

メモリ記憶ユニット６０はまた、装置５０によって使用されることになる、付加的データを記憶させるために使用されてもよい。例えば、メモリ記憶ユニット６０は、ニューラルネットワークエンジンによって使用されることになる、テンプレートおよびモデルデータ等の種々の参照データソースを記憶してもよい。メモリ記憶ユニット６０が、複数のデータベースを維持するために使用される、物理的なコンピュータ可読媒体であり得る、または中央サーバまたはクラウドサーバ等の１つまたはそれを上回る外部サーバを横断して分散され得る、複数の媒体を含み得ることを理解されたい。

本実施例では、メモリ記憶ユニット６０は、特に限定されず、任意の電子、磁気、光学、または他の物理的記憶デバイスであり得る、非一過性機械可読記憶媒体を含む。上記に述べられるように、メモリ記憶ユニット６０は、通信インターフェース５５を介して外部ソースから受信されたデータ、テンプレートデータ、訓練データ、ニューラルネットワークエンジン６５からの結果、および／または後処理エンジン７０からの結果等の情報を記憶させるために使用されてもよい。加えて、メモリ記憶ユニット６０は、装置５０の一般的な動作に関する命令を記憶させるために使用されてもよい。メモリ記憶ユニット６０はまた、プロセッサによって実行可能である、オペレーティングシステムを記憶し、装置５０に、種々のアプリケーションをサポートするための機能性等の一般的な機能性を提供し得る。メモリ記憶ユニット６０は、加えて、ニューラルネットワークエンジン６５および後処理エンジン７０を動作させるための命令を記憶してもよい。さらに、メモリ記憶ユニット６０はまた、他の構成要素、およびカメラおよびにユーザインターフェース等の装置５０とともに配設され得る任意の周辺デバイスを動作させるための制御命令を記憶してもよい。

メモリ記憶ユニット６０は、データまたは装置５０の構成要素を動作させるための命令とともに、事前にロードされてもよい。他の実施例では、命令は、通信インターフェース５５を介して、またはメモリフラッシュドライブ等の装置５０に接続される可搬型メモリ記憶デバイスからの命令を直接転送することによって、ロードされてもよい。他の実施例では、メモリ記憶ユニット６０は、外部ハードドライブ、またはコンテンツを提供するクラウドサービス等の外部ユニットであってもよい。

ニューラルネットワークエンジン６５は、メモリ記憶ユニット６０内に記憶される未加工データを受信する、または読み出すためのものである。本実施例では、ニューラルネットワークエンジン６５は、画像を表す未加工データ（図２）を使用し、出力データを生成し、これは、セグメント化マップ、境界マップ、骨ヒートマップ、および関節ヒートマップを含んでもよい。ニューラルネットワークエンジン６５が、関節のタイプ毎に１つ等、複数の関節ヒートマップを生成し得ることを理解されたい。同様に、ニューラルネットワークエンジン６５は、複数の骨ヒートマップを生成し得、本場合では、各マップは、関節を接続する骨タイプを表す。用語「関節」および「骨」が、人物上の基準点の近似値を表すために、運動の範囲内でモデル化され得る、人物における種々の基準点を指すことが、本説明から利益を享受する当業者によって理解されるはずである。例えば、関節は、眼等の生理学的関節ではなく、人物上の基準点を指し得る。他の実施例では、関節は、手首または足関節等の複数の生理学的骨関節を伴う基準点を指し得る。同様に、骨は、本明細書に説明されるような関節間の接続も指し得る。

図２に示される画像は、識別されることになるオブジェクトが、レースに参加している人々である、レースからの場面を表す。本場面が、人々の種々の部分が他の人々の部分をオクルードしている状態を伴って、複合化されることが、本説明から利益を享受する当業者によって理解されるはずである。

ニューラルネットワークエンジン６５が、未加工データを処理し、セグメント化マップおよび境界マップを生成する様式は、特に限定されない。本実施例では、未加工データは、複数のオブジェクトの画像を含んでもよい。ニューラルネットワークエンジン６５の動作を図示するために、未加工データは、図２に示される画像を提供するようにレンダリングされ得る。図２は、カラーであってもよいことを理解されたい。本具体的な実施例では、未加工データの複数のオブジェクトは、レースの参加者の写真を表す。未加工データは、ＲＧＢ画像であり、これは、赤色、緑色、および青色の強度に関する３つの重畳されたマップとして表され得る。他の実施例では、未加工データは、ＲＧＢ画像フォーマットではない場合があることを理解されたい。例えば、未加工データは、ニューラルネットワークエンジン６５によって受信されることに先立って、捕捉され、ＲＧＢフォーマットに変換されるように前処理される、ラスタグラフィックファイルまたは圧縮された画像ファイル等のフォーマットであってもよい。代替として、ニューラルネットワークエンジン６５は、付加的なタイプの画像フォーマットを受信し、取り扱うように構成されてもよい。

図３を参照すると、ニューラルネットワークエンジンによって生成される、図２の画像のセグメント化マップの実施例が、示される。セグメント化マップは、ピクセルが、オブジェクトの一部であるかどうかを示すために、ピクセル毎のバイナリ値を有する、２次元マップである。本実施例では、未加工データ内のオブジェクトは、レースに参加している人間である。ニューラルネットワークエンジン６５が、セグメント化マップを生成する様式は、特に限定されず、ｗｒｎｃｈＡＩエンジン等のコンピュータビジョンベースの人間姿勢およびセグメント化システムを適用することを含んでもよい。他の実施例では、ＯｐｅｎＰｏｓｅ、Ｍａｓｋ－ＲＣＮＮ、または他の深度センサ、立体カメラ、またはＭｉｃｒｏｓｏｆｔＫｉｎｅｃｔまたはＩｎｔｅｌＲｅａｌＳｅｎｓｅ等のＬＩＤＡＲベースの人間セグメント化システム等の他のタイプのコンピュータビジョンベースの人間セグメント化システムも、使用され得る。加えて、セグメント化マップは、ＣＶＡＴ等の適切なソフトウェアを用いて手動で、またはＡｄｏｂｅＰｈｏｔｏｓｈｏｐ（登録商標）またはＧＩＭＰにおけるもの等のセグメント化補助ツールを用いた半自動方法において注釈を付けられ得る。

図２に示される未加工データが、ニューラルネットワークエンジンによって処理される、本実施例では、ニューラルネットワークエンジン６５は、レースの参加者の緑色画面投影を示す、セグメント化マップを生成する。緑色画面投影は、場面内の参加者等の２つまたはそれを上回るオクルードされたオブジェクト間で区別することが不可能であることが、本説明から利益を享受する当業者によって理解されるはずである。代わりに、セグメント化マップは、本具体的な実施例では、レースの人間の参加者である、オブジェクトの存在を示す、またはピクセル毎のオブジェクトの不在を示す。オブジェクトの存在は、０または１のバイナリ値によって表される。ニューラルネットワークエンジン６５は、所定の閾値確率値を使用し、セグメント化マップ内のピクセルに関する値が、１または０であるかどうかを決定し得る。

さらに、セグメント化マップおよび関節ヒートマップは、未加工データ内のオブジェクトのオクルードされた部分に対処するために、統計値を提供し得る。図３に示されるように、人々の種々の身体パーツが、オーバーラップされ、他の身体パーツをオクルードし得る。オーバーラップの領域は、境界マップの生成を補助するために、オーバーラップを特性評価するための情報を提供し得る。特に、オーバーラップされた部分は、画像内の別の人間とオーバーラップしている人間を決定するために使用され得る、統計値を提供し得る。例えば、統計値は、オーバーラップしている領域内に存在する関節の数および種類等の情報を含んでもよい。特に、上半身の可視関節は、その人物が、顔の関節のみが可視である別の人物と比較して、前面に存在していることを示し得る。未加工データからの統計値の抽出は、特に限定されない。本実施例では、ニューラルネットワークエンジン６５は、セグメント化マップ内で識別されるような人間が存在する領域等の複数のオブジェクトが存在する場所等の着目領域を識別してもよい。着目領域を識別することによって、未加工データから統計値を取得するために使用される算出リソースが、低減され得る。

複数の着目領域が、ニューラルネットワークエンジン６５によって識別され得ることが、本説明から利益を享受する当業者によって理解されるはずである。着目領域は、単一オブジェクトの領域または複数オブジェクトの領域として分類され得る。単一オブジェクトとして分類される領域に関して、オブジェクトが、着目領域内で完全に識別されるため、さらなる処理は、遂行されない。複数のオブジェクトとして分類される領域に関して、複数のオブジェクトの領域内のインスタンスのセグメント化を分離するために、さらなる処理が、遂行され得る。本実施例では、ニューラルネットワークエンジン６５が、人物上の着目領域を分類する様式は、セグメント化マップに適用されるような関節ヒートマップからの情報を使用することを伴う。オブジェクトが人間ではない場合がある、他の実施例では、ニューラルネットワークエンジン６５は、適切な代用ヒートマップを使用してもよい。

図４を参照すると、図２の画像の境界マップの実施例が、示される。境界マップは、未加工データ内のオブジェクトを分割するために、ニューラルネットワークエンジン６５によって生成される、２次元マップである。本具体的な実施例では、境界マップは、レース内の異なる人々を分割する。境界マップが生成される様式は、特に限定されない。本実施例では、後処理エンジン７０は、セグメント化マップを使用し、適切なパラメータを自動的に選択し、ニューラルネットワーク６５によって生成される境界マップを精緻化し得る。例えば、セグメント化マップは、未加工データが、精緻化された境界マップ内で検出されない場合がある、より大きなまたはより小さなオブジェクト等の異なるサイズのオブジェクトの画像を含むことを示唆し得る。オブジェクトが、２次元未加工データの背景および前景内に存在するという知識を用いて、境界マップを精緻化するために後処理エンジン７０によって使用される、パラメータは、より大きなおよびより小さなオブジェクトが、除外されないように選択され得る。

ニューラルネットワークエンジン６５によって生成される、境界マップは、境界であるという尤度と関連付けられる、ピクセル毎の確率マップを含んでもよい。したがって、ニューラルネットワークエンジン６５によって生成される境界マップは、明確ではない場合がある、および／またはニューラルネットワークエンジン６５が明確な境界を決定することが不可能である、未加工データの部分に関する鮮明なオブジェクト境界を提供しない場合がある。本実施例では、ニューラルネットワークエンジン６５はまた、図４に示されるようなバイナリ境界マップを生成し得、本場合では、各ピクセルは、０または１のバイナリ値を割り当てられる。バイナリ境界マップの生成は、所定の閾値をピクセルに適用することによって遂行され得、したがって、ピクセルに関する閾値を上回る値を伴う各ピクセルが、１の値を割り当てられ、ピクセルに関する閾値を下回る値を伴う各ピクセルが、０の値を割り当てられることになる。境界マップはまた、カーネルサイズを調節することによって、後処理エンジン７０によってさらに精緻化され得る。故に、後処理エンジン７０は、閾値およびカーネルサイズを調節し、細く画定された線を伴って、閉鎖された境界を生成し得る。

後処理エンジン７０は、ニューラルネットワークエンジン６５によって生成される、セグメント化マップ、境界マップ、関節ヒートマップ、および骨ヒートマップに基づいて、未加工データ内のオブジェクトを識別するためのものである。特に、後処理エンジン７０は、未加工データによって表される画像内の異なる人間等の異なるオブジェクトのインスタンスを分離し、識別データを生成するためのものである。後処理エンジン７０によって生成される識別データは、限定されず、一意の識別子を伴う複数の骨格を含んでもよい。

本実施例では、後処理エンジン７０は、未加工データ内のオブジェクトの断片を識別する。未加工データの断片は、ある部分を切離し得る、オブジェクト間のオクルージョンから生じる。図２に示されるように、オブジェクトがレースに参加している人間である、上記の実施例では、オクルージョンは、ある身体のパーツが、別の脚部の前にある脚部等、別のパーツの一部を被覆するときに生じる。本実施例では、背景内の脚部は、前景内の脚部の両側で断片に分離されてもよい。オブジェクトが人間である場合では、胴部、上腿、足、手、腕等の断片がそれぞれ、次いで、識別され得る。

オブジェクトの全ての断片が、後処理エンジン７０によって識別され得るわけではないことが、本説明から利益を享受する当業者によって理解されるはずである。オブジェクトとしての人間の本実施例を続けると、後処理エンジン７０は、人間の既知の欠落している断片に関して検出し得る。特に、主要な断片のマップが、いずれかの断片が欠落しているかどうかを決定するために、後続のマップと比較されてもよい。断片が、欠落している場合、これは、オブジェクトが、検出されなかった可能性があるというインジケーションであり得る。故に、後処理エンジン７０は、ニューラルネットワークエンジン６５からのセグメント化マップおよび境界マップに適用させるために、パラメータを調節し得る。

断片の識別後、後処理エンジン７０は、同一のオブジェクトに属するものとして、ともにクラスタ化されることになる断片の群を選択する。本実施例では、後処理エンジン７０は、セグメント化マップ上の境界マップを適用し、胴部、上腿、足、手、腕等の人間のインスタンスのセグメントである断片を識別し得る。断片は、次いで、クラスタ化プロセスを使用する後処理エンジン７０によって、同一のオブジェクトからの他の断片と関連付けられる。後処理エンジン７０が、断片をクラスタ化し、断片を単一のインスタンスと関連付ける様式は、特に限定されない。本実施例では、後処理エンジン７０は、骨ヒートマップ、関節ヒートマップ、または骨および関節ヒートマップの組み合わせを使用し、断片をクラスタ化し、断片を画像内のオブジェクトと関連付けてもよい。後処理エンジン７０が、骨ヒートマップおよび関節ヒートマップを使用する厳密な様式は、特に限定されない。例えば、骨ヒートマップは、画像内の断片間の接続を識別するために使用されてもよい。加えて、断片はまた、手、足、足関節、股関節等の１つまたはそれを上回る関節タイプを割り当てられてもよい。人間のオブジェクトに関して、各オブジェクトが、左手等、各タイプの単一の関節よりも多くのものを有しないことになることが、本説明から利益を享受する当業者によって理解されるはずである。故に、骨ヒートマップの適用後、残りの断片は、各クラスタ内に共通の関節タイプが存在しないように、ともにクラスタ化され得る。

図５を参照すると、後処理エンジン７０によって遂行される、断片をクラスタ化する例示的方法のフローチャートが、２００において示される。方法２００が、実施例であり、他のクラスタ化プロセスも、後処理エンジン７０によって実装され得ることを理解されたい。以下の議論および例示的方法２００は、装置５０内の後処理エンジン７０およびその機能のさらなる理解を提供し得る。加えて、方法２００が、示されるような厳密なシーケンスで実施されない場合があること、および種々のブロックが、順にではなく、並行して、または全く異なるシーケンスで実施され得ることが強調されるべきである。さらに、方法２００の反復的性質に起因して、全てのブロックが、同時に実行している場合もある。

ブロック２０５から開始し、２つの断片間の接続が、選択される。未加工データ内で識別された断片の各対が、順に選択されるが、それらが選択される順序は、特に限定されない。本実施例では、順序は、関節ヒートマップおよび骨ヒートマップからの情報に基づいて選択されてもよい。他の実施例では、全ての可能性として考えられる断片の組み合わせが、画像の片側から反対側まで順に選択されてもよい。本実施例では、各断片は、生成された断片に対する一意の識別子（マスクＩＤ）を割り当てられる。さらに、接続された断片は、同一のマスクＩＤを割り当てられ、独立した断片は、一意のマスクＩＤを割り当てられる。断片はまた、一意の識別子（背景ＩＤ）を用いて分類され、それが、セグメント化マップの外側のピクセル（すなわち、セグメント化マップ内のゼロ値ピクセル）上にあるとき等、前景の代わりに、背景の一部であることを示し得る。本実施例では、背景の一部である断片は、考慮されないであろう。いったん対の断片が、選択されると、本プロセスは、ブロック２１０に移動し、ここで、各断片のマスクＩＤが、それらが同一であるかどうかを決定するために比較される。断片毎のマスクＩＤが異なる場合では、方法２００は、ブロック２０５に戻り、異なる断片間の別の接続を選択する。ブロック２０５において選択された２つの断片のマスクＩＤが、同一である場合、方法２００は、ブロック２１５に進み、ここで、マスクＩＤが、背景ＩＤと比較される。マスクＩＤが背景ＩＤである場合では、方法２００は、ブロック２０５に戻り、異なる断片間の別の接続を選択する。ブロック２０５において選択された２つの断片のマスクＩＤが、背景ＩＤではない場合、方法２００は、ブロック２２０に進み、ここで、断片は、後処理エンジン７０によって分析され、それらが、同一の関節タイプを有するかどうかを決定する。後処理エンジン７０が、断片が同一の関節を含むことを決定する場合では、断片は、異なる人間のインスタンスであると見なされ、方法２００は、ブロック２０５に戻り、別の対の断片を選択する。代替として、断片が、異なる関節タイプを有することを決定される場合、方法２００は、ブロック２２５に移動し、ここで、断片が融合される。本実施例では、ブロック２２５は、より小さな断片をより大きな断片に融合させるが、他の実施例では、よい小さな断片が、より大きな断片よりも重要であると見なされる関節を表す場合、逆のことが、生じ得る。断片を融合した後、方法２００は、ブロック２３０に進み、ここで、後処理エンジン７０は、全ての断片対が処理されたかどうかを決定する。処理されることになる断片対がより多く存在する場合では、方法２００は、ブロック２０５に戻り、反復し続ける。

クラスタを生成させるための関節の接続の処理の完了に応じて、方法２００は、ブロック２３５に進み、ここで、２つのクラスタ化されていない断片が、選択される。方法２００は、ブロック２４０に進み、ブロック２３５において選択された断片が、同一の関節タイプを有するかどうかを決定する。後処理エンジン７０が、断片が、同一の関節を含むことを決定する場合では、断片は、異なる人間のインスタンスであると見なされ、方法２００は、ブロック２３５に戻り、別の対のクラスタ化されていない断片を選択する。代替として、断片が、異なる関節タイプを有することを決定される場合、方法２００は、ブロック２４５に移動する。ブロック２４５では、後処理エンジン７０は、ブロック２３５によって選択された断片が接続され得るかどうか、または接続経路内にいかなる他のクラスタ化されていない断片も存在しないかどうかを決定する。ブロック２３５において選択された２つのものの間の経路上に別のクラスタ化されていない断片を伴わず、断片が接続されることができない場合では、方法２００は、ブロック２３５に戻り、ここで、２つの他のクラスタ化されていない断片が、選択される。経路上に別の断片を伴わず、ブロック２３５において選択された断片が、接続されることができる場合、方法２００は、ブロック２５０に移動し、ここで、後処理エンジン７０は、本実施例では、より小さな断片をより大きな断片の中に融合させる。クラスタ化されていない断片を融合した後、方法２００は、ブロック２５５に進み、ここで、後処理エンジン７０は、全てのクラスタ化されていない断片対が処理されたかどうかを決定する。処理されることになる断片対がより多く存在する場合では、方法２００は、ブロック２３５に戻り、反復し続ける。

オブジェクトの断片をクラスタ化した後、図２に示されるように、未加工データで表される画像内のオブジェクトは、別個のインスタンスに分離されてもよい。分離されたオブジェクトは、次いで、下流サービスに関する出力データを生成するために使用され得る。本実施例では、オブジェクトは、人間であり、いったん人間のインスタンスが、分離されると、出力データは、各人間のインスタンスを識別するために、異なる陰影付けを使用する、インスタンスのセグメント化マップを含んでもよい。他の実施例では、骨格、メッシュ、または輪郭が、異なる人間のインスタンスを表すためにレンダリングされてもよい。

いくつかの実施例では、後処理エンジン７０は、ニューラルネットワークエンジン６５によって識別されるようなセグメント化マップおよび境界マップ内の着目領域のみを処理することによって、算出効率を改良し得ることが理解されるはずである。図６を参照すると、単一オブジェクトの境界を有する領域３００および複数オブジェクトの境界を有する領域３０５が、示される。本実施例では、後処理エンジン７０は、算出リソースを節約するために、複数オブジェクトの境界を有する領域３０５に焦点を当てるように構成されてもよい。

さらに、未加工データ内のオブジェクトのインスタンスを予測した後、後処理エンジン７０はさらに、いくつかの実施例では、出力データを生成することに先立って、結果を強化してもよい。例えば、後処理エンジン７０は、オブジェクトと関連付けられていないピクセルを埋めるために、セグメント化マップをマスクとして使用して、測地的膨張を適用してもよい。故に、領域３０５上でのみ動作するとき、後処理エンジン７０は、図７に示されるように、領域３０５内の異なるオブジェクトのインスタンスを識別するマップを生成し得る。

図８を参照すると、断片のクラスタ化および再発見に基づいて、複合画像内で、オブジェクトのインスタンスのセグメント化を生成するための装置５０ａの別の概略描写が、概して、示される。添字「ａ」が続くことを除いて、装置５０ａの同様の構成要素が、装置５０内のそれらの対応物を参照して、同様に描かれている。本実施例では、装置５０ａは、通信インターフェース５５ａと、メモリ記憶ユニット６０ａと、プロセッサ８０ａとを含む。プロセッサ８０ａは、ニューラルネットワークエンジン６５ａと、後処理エンジン７０ａと、追跡エンジン７５ａとを動作させる。

本実施例では、メモリ記憶ユニット６０ａはまた、装置５０ａによって使用される種々のデータを記憶させるために、データベースを維持し得る。例えば、メモリ記憶ユニット６０ａは、通信インターフェース５５ａから受信されるような未加工データ画像を記憶させるためのデータベース３００ａと、ニューラルネットワークエンジン６５ａによって生成されるセグメント化マップを記憶させるためのデータベース３１０ａと、ニューラルネットワークエンジン６５ａによって生成される境界マップを記憶させるためのデータベース３１５ａと、ニューラルネットワークエンジン６５ａによって生成される関節ヒートマップを記憶させるためのデータベース３２０ａと、ニューラルネットワークエンジン６５ａによって生成される骨ヒートマップを記憶させるためのデータベース３２５ａと、未加工データ内のオブジェクトを識別する、後処理エンジン７０ａによって生成される識別データを記憶させるためのデータベース３３０ａとを含んでもよい。加えて、メモリ記憶ユニットは、装置５０ａに一般的な機能性を提供するために、プロセッサ８０ａによって実行可能であるオペレーティングシステム３４０ａを含んでもよい。さらに、メモリ記憶ユニット６０ａは、プロセッサ８０ａに、具体的なステップを遂行し、下記により詳細に説明される方法を実施するように指示するためのコードを用いてエンコードされてもよい。メモリ記憶ユニット６０ａはまた、入力を受信する、または出力を提供するための種々のユーザインターフェース等の装置５０ａの他の構成要素および周辺デバイスと通信するために、ドライバレベルおよび他のハードウェアドライブにおいて動作を遂行するための命令を記憶してもよい。

メモリ記憶ユニット６０ａはまた、ニューラルネットワークエンジン６５ａを訓練するための訓練データを記憶させるための合成訓練データベース３５０ａを含んでもよい。本実施例が、ローカルで、訓練データベース３５０ａを記憶するが、他の実施例が、通信インターフェース５５ａを介して、ニューラルネットワークの訓練の間、アクセスされ得る、ファイルサーバまたはクラウド内等、外部に訓練データを記憶し得ることを理解されたい。

本実施例では、プロセッサはさらに、追跡エンジン７５ａを動作させ、未加工データ内で識別されるオブジェクトを追跡する。未加工データが、複数の画像を含み得、各画像が、映像のフレームを表すことが、当業者によって理解されるはずである。故に、オブジェクトは、画像内の他のオブジェクトおよび位置に対して、画像内を移動し得る。加えて、追跡エンジン７５ａは、オブジェクトが、映像のフレームから離れ、映像のフレームに再進入するにつれて、それらを追跡し得る。本実施例では、追跡エンジン７５ａは、後処理エンジン７０ａからの出力データに基づいて、外観モデルを適用する、別のニューラルネットワークを動作させてもよい。

図９を参照すると、断片のクラスタ化および再発見に基づいて、複合画像内で、オブジェクトのインスタンスのセグメント化を生成する例示的方法のフローチャートが、概して、４００に示される。方法４００の解説を補助するために、方法４００が、装置５０によって実施され得ることが仮定されるであろう。実際に、方法４００は、装置５０が構成され得る、１つの方法であり得る。さらに、方法４００の以下の議論は、装置５０およびその構成要素のさらなる理解につながり得る。加えて、方法４００が、示されるような厳密なシーケンスで実施されない場合があること、および種々のブロックが、順にではなく、並行して、または全く異なるシーケンスで実施され得ることが強調されるべきである。

ブロック４１０から開始し、装置５０は、通信インターフェース５５を介して外部ソースから未加工データを受信する。本実施例では、未加工データは、画像内に、複数のオブジェクトの表現を含む。特に、未加工データは、種々のオクルージョンパターンを伴う複数の人間を表す。オブジェクトが表される様式および２次元画像の厳密なフォーマットは、特に限定されない。例えば、２次元画像は、ＲＧＢフォーマットにおいて受信される。他の実施例では、２次元画像は、カメラによって捕捉および処理された、ラスタグラフィックファイルまたは圧縮された画像ファイル等の異なるフォーマットにおけるものであり得る。いったん装置５０において受信されると、未加工データは、ブロック４２０においてメモリ記憶ユニット６０内に記憶されることになる。

ブロック４３０は、ニューラルネットワークエンジン６５を用いてマップを生成することを伴う。本実施例では、ニューラルネットワークエンジン６５は、画像内のオブジェクトのセグメント化マップおよび境界マップを生成する。セグメント化マップが生成される様式は、特に限定されず、ｗｒｎｃｈＡＩエンジン等のコンピュータビジョンベースの人間姿勢およびセグメント化システムを適用することを含んでもよい。他の実施例では、ＯｐｅｎＰｏｓｅ、Ｍａｓｋ－ＲＣＮＮ、または他の深度センサ、立体カメラ、またはＭｉｃｒｏｓｏｆｔＫｉｎｅｃｔまたはＩｎｔｅｌＲｅａｌＳｅｎｓｅ等のＬＩＤＡＲベースの人間セグメント化システム等の他のタイプのコンピュータビジョンベースの人間セグメント化システムも、使用され得る。加えて、セグメント化マップは、ＣＶＡＴ等の適切なソフトウェアを用いて手動で、またはＡｄｏｂｅＰｈｏｔｏｓｈｏｐ（登録商標）またはＧＩＭＰにおけるもの等のセグメント化補助ツールを用いた半自動方法において注釈を付けられ得る。

境界マップが生成される様式もまた、特に限定されず、種々の画像処理技法を使用してもよい。本実施例では、セグメント化マップもまた、境界マップを精緻化するために後処理エンジン７０によって使用されることになる、パラメータを選択するための入力も提供し得る。特に、パラメータは、細線を用いて閉鎖された境界を提供するように選択される。

次に、ブロック４４０は、ブロック４１０において受信された画像内で、オブジェクトを識別することを含む。本実施例では、後処理エンジン７０は、ブロック４３０においてニューラルネットワークエンジン６５によって生成されたマップからの入力を使用する。オブジェクトの識別は、映像内のオブジェクトを追跡すること等のさらなる処理のために、下流デバイスに伝送され得る、出力データに変換されてもよい。

種々の利点が、当業者に明白な状態にはならないであろう。特に、装置５０または装置５０ａは、人物毎の識別を遂行する代わりに、画像全体を分析することによって、ボトムアップアプローチを使用して、著しいオクルージョン面積を伴う断片のクラスタ化および再発見画像に基づいて、複合画像内で、オブジェクトのインスタンスのセグメント化を生成するために使用され得る。装置５０は、それに応じて、後処理エンジンのパラメータを変更することによって、異なる特徴および複合性を伴う多くの異なるタイプの未加工データのために使用されてもよい。加えて、装置５０は、オブジェクトの種々の断片を検出することが可能であり、具体的には、欠落している断片を検出し、それらをオブジェクトと再接続することができる。

上記に提供される種々の実施例の特徴および側面が、本開示の範囲内にもまた該当する、さらなる実施例の中に組み合わせられ得ることが認識されるべきである。

本発明は、例えば、以下の項目を提供する。
（項目１）
装置であって、
外部ソースから未加工データを受信するための通信インターフェースであって、上記未加工データは、第１のオブジェクトおよび第２のオブジェクトの表現を含む、通信インターフェースと、
上記未加工データを記憶させるためのメモリ記憶ユニットと、
上記未加工データを受信するためのニューラルネットワークエンジンであって、上記ニューラルネットワークエンジンは、セグメント化マップおよび境界マップを生成するためのものである、ニューラルネットワークエンジンと、
上記セグメント化マップおよび上記境界マップに基づいて、上記第１のオブジェクトおよび上記第２のオブジェクトを識別するための後処理エンジンと
を備える、装置。
（項目２）
上記後処理エンジンは、上記第１のオブジェクトの第１の骨格および上記第２のオブジェクトの第２の骨格を生成する、項目１に記載の装置。
（項目３）
上記未加工データは、映像データであり、上記映像データは、上記第１のオブジェクトおよび第２のオブジェクトの移動を表す、項目１または２に記載の装置。
（項目４）
上記第１のオブジェクトおよび上記第２のオブジェクトを追跡するための追跡エンジンをさらに備える、項目３に記載の装置。
（項目５）
上記追跡エンジンは、フレームから離れて再進入する上記第１のオブジェクトを追跡する、項目４に記載の装置。
（項目６）
上記後処理エンジンは、上記第１のオブジェクトおよび上記第２のオブジェクトの断片を識別する、項目１－５のいずれか１項に記載の装置。
（項目７）
上記後処理エンジンは、上記断片の中から第１の群を選択し、上記第１の群は、上記第１のオブジェクトと関連付けられ、上記後処理エンジンは、上記断片の中から、第２の群を選択し、上記第２の群は、上記第２のオブジェクトと関連付けられる、項目６に記載の装置。
（項目８）
上記後処理エンジンは、骨ヒートマップを使用し、上記第１の群および上記第２の群を選択する、項目７に記載の装置。
（項目９）
上記後処理エンジンは、関節ヒートマップを使用し、上記第１の群および上記第２の群を選択する、項目７または８に記載の装置。
（項目１０）
上記第１のオブジェクトは、第１の人間であり、上記第２のオブジェクトは、第２の人間である、項目１－９のいずれか１項に記載の装置。
（項目１１）
方法であって、
通信インターフェースを介して、画像ソースから未加工データを受信することであって、上記未加工データは、第１のオブジェクトおよび第２のオブジェクトの表現を含む、ことと、
上記未加工データをメモリ記憶ユニット内に記憶させることと、
ニューラルネットワークエンジンを用いて、上記未加工データからセグメント化マップおよび境界マップを生成することと、
後処理エンジンを用いて、上記セグメント化マップおよび上記境界マップに基づいて、上記第１のオブジェクトおよび上記第２のオブジェクトを識別することと、
上記通信インターフェースを介して、識別情報を外部ソースに伝送することであって、上記識別情報は、上記未加工データ内の上記第１のオブジェクトおよび上記第２のオブジェクトを識別するためのものである、ことと
を含む、方法。
（項目１２）
上記第１のオブジェクトおよび上記第２のオブジェクトを識別することは、上記第１のオブジェクトの第１の骨格を生成することと、上記第２のオブジェクトの第２の骨格を生成することとを含む、項目１１に記載の方法。
（項目１３）
上記未加工データは、映像データであり、上記映像データは、上記第１のオブジェクトおよび第２のオブジェクトの移動を表す、項目１１または１２に記載の方法。
（項目１４）
追跡エンジンを用いて、上記第１のオブジェクトおよび上記第２のオブジェクトを追跡することをさらに含む、項目１３に記載の方法。
（項目１５）
上記第１のオブジェクトを追跡することは、フレームから離れて再進入する上記第１のオブジェクトを追跡することを含む、項目１４に記載の方法。
（項目１６）
上記後処理エンジンを用いて、上記第１のオブジェクトおよび上記第２のオブジェクトの断片を識別することをさらに含む、項目１１－１５のいずれか１項に記載の方法。
（項目１７）
上記断片の中から第１の群を選択することと、上記断片の中から、第２の群を選択することとをさらに含み、上記第１の群は、上記第１のオブジェクトと関連付けられ、上記第２の群は、上記第２のオブジェクトと関連付けられる、項目１６に記載の方法。
（項目１８）
上記第１の群および上記第２の群を選択することは、上記断片に骨ヒートマップを適用することを含む、項目１７に記載の方法。
（項目１９）
上記第１の群および上記第２の群を選択することは、上記断片に関節ヒートマップを適用することを含む、項目１７または１８に記載の方法。
（項目２０）
上記第１のオブジェクトは、第１の人間であり、上記第２のオブジェクトは、第２の人間である、項目１１－１９のいずれか１項に記載の方法。
（項目２１）
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、上記コードは、プロセッサに、
通信インターフェースを介して、画像ソースから未加工データを受信することであって、上記未加工データは、第１のオブジェクトおよび第２のオブジェクトの表現を含む、ことと、
上記未加工データをメモリ記憶ユニット内に記憶させることと、
上記未加工データからセグメント化マップおよび境界マップを生成することと、
上記セグメント化マップおよび上記境界マップに基づいて、上記第１のオブジェクトおよび上記第２のオブジェクトを識別することと、
上記通信インターフェースを介して、識別情報を外部ソースに伝送することであって、上記識別情報は、上記セグメント化マップ内の上記第１のオブジェクトおよび上記第２のオブジェクトを識別するためのものである、ことと
を行うように指示するためのものである、非一過性コンピュータ可読媒体。
（項目２２）
上記コードは、上記プロセッサに、上記第１のオブジェクトおよび上記第２のオブジェクトを識別するように指示し、上記プロセッサに、上記第１のオブジェクトの第１の骨格を生成し、上記第２のオブジェクトの第２の骨格を生成するように指示するためのものである、項目２１に記載の非一過性コンピュータ可読媒体。
（項目２３）
上記コードは、上記プロセッサに、上記未加工データを受信するように指示し、上記プロセッサに、映像データを受信するように指示するためのものであり、上記映像データは、上記第１のオブジェクトおよび第２のオブジェクトの移動を表す、項目２１または２２に記載の非一過性コンピュータ可読媒体。
（項目２４）
上記コードは、上記プロセッサに、上記第１のオブジェクトおよび上記第２のオブジェクトを追跡するように指示するためのものである、項目２３に記載の非一過性コンピュータ可読媒体。
（項目２５）
上記コードは、上記プロセッサに、フレームから離れて再進入する上記第１のオブジェクトを追跡するように指示するためのものである、項目２４に記載の非一過性コンピュータ可読媒体。
（項目２６）
上記コードは、上記プロセッサに、上記後処理エンジンを用いて、上記第１のオブジェクトおよび上記第２のオブジェクトの断片を識別するように指示するためのものである、項目２１－２５のいずれか１項に記載の非一過性コンピュータ可読媒体。
（項目２７）
上記コードは、上記プロセッサに、上記断片の中から第１の群を選択し、上記断片の中から、第２の群を選択するように指示するためのものであり、上記第１の群は、上記第１のオブジェクトと関連付けられ、上記第２の群は、上記第２のオブジェクトと関連付けられる、項目２６に記載の非一過性コンピュータ可読媒体。
（項目２８）
上記コードは、上記プロセッサに、上記第１の群を選択し、上記第２の群を選択するために、上記断片に骨ヒートマップを適用するように指示するためのものである、項目２７に記載の非一過性コンピュータ可読媒体。
（項目２９）
上記コードは、上記プロセッサに、上記第１の群を選択し、上記第２の群を選択するために、上記断片に関節ヒートマップを適用するように指示するためのものである、項目２７または２８に記載の非一過性コンピュータ可読媒体。
（項目３０）
上記コードは、上記プロセッサに、未加工データを受信するように指示し、上記プロセッサに、上記第１のオブジェクトとしての第１の人間および上記第２のオブジェクトとしての第２の人間の表現を受信するように指示するためのものである、項目２１－２９のいずれか１項に記載の非一過性コンピュータ可読媒体。
ここで、単に一例として、付随の図面が、参照されるであろう。

Claims

装置であって、
外部ソースから未加工データを受信するための通信インターフェースであって、前記未加工データは、第１のオブジェクトおよび第２のオブジェクトの表現を含む、通信インターフェースと、
前記未加工データを記憶させるためのメモリ記憶ユニットと、
前記未加工データを受信するためのニューラルネットワークエンジンであって、前記ニューラルネットワークエンジンは、セグメント化マップおよび境界マップを生成するためのものである、ニューラルネットワークエンジンと、
前記セグメント化マップおよび前記境界マップに基づいて、前記第１のオブジェクトおよび前記第２のオブジェクトを識別するための後処理エンジンと
を備える、装置。
前記後処理エンジンは、前記第１のオブジェクトの第１の骨格および前記第２のオブジェクトの第２の骨格を生成する、請求項１に記載の装置。
前記未加工データは、映像データであり、前記映像データは、前記第１のオブジェクトおよび第２のオブジェクトの移動を表す、請求項１または２に記載の装置。
前記第１のオブジェクトおよび前記第２のオブジェクトを追跡するための追跡エンジンをさらに備える、請求項３に記載の装置。
前記追跡エンジンは、フレームから離れて再進入する前記第１のオブジェクトを追跡する、請求項４に記載の装置。
前記後処理エンジンは、前記第１のオブジェクトおよび前記第２のオブジェクトの断片を識別する、請求項１－５のいずれか１項に記載の装置。
前記後処理エンジンは、前記断片の中から第１の群を選択し、前記第１の群は、前記第１のオブジェクトと関連付けられ、前記後処理エンジンは、前記断片の中から、第２の群を選択し、前記第２の群は、前記第２のオブジェクトと関連付けられる、請求項６に記載の装置。
前記後処理エンジンは、骨ヒートマップを使用し、前記第１の群および前記第２の群を選択する、請求項７に記載の装置。
前記後処理エンジンは、関節ヒートマップを使用し、前記第１の群および前記第２の群を選択する、請求項７または８に記載の装置。
前記第１のオブジェクトは、第１の人間であり、前記第２のオブジェクトは、第２の人間である、請求項１－９のいずれか１項に記載の装置。
方法であって、
通信インターフェースを介して、画像ソースから未加工データを受信することであって、前記未加工データは、第１のオブジェクトおよび第２のオブジェクトの表現を含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶させることと、
ニューラルネットワークエンジンを用いて、前記未加工データからセグメント化マップおよび境界マップを生成することと、
後処理エンジンを用いて、前記セグメント化マップおよび前記境界マップに基づいて、前記第１のオブジェクトおよび前記第２のオブジェクトを識別することと、
前記通信インターフェースを介して、識別情報を外部ソースに伝送することであって、前記識別情報は、前記未加工データ内の前記第１のオブジェクトおよび前記第２のオブジェクトを識別するためのものである、ことと
を含む、方法。
前記第１のオブジェクトおよび前記第２のオブジェクトを識別することは、前記第１のオブジェクトの第１の骨格を生成することと、前記第２のオブジェクトの第２の骨格を生成することとを含む、請求項１１に記載の方法。
前記未加工データは、映像データであり、前記映像データは、前記第１のオブジェクトおよび第２のオブジェクトの移動を表す、請求項１１または１２に記載の方法。
追跡エンジンを用いて、前記第１のオブジェクトおよび前記第２のオブジェクトを追跡することをさらに含む、請求項１３に記載の方法。
前記第１のオブジェクトを追跡することは、フレームから離れて再進入する前記第１のオブジェクトを追跡することを含む、請求項１４に記載の方法。
前記後処理エンジンを用いて、前記第１のオブジェクトおよび前記第２のオブジェクトの断片を識別することをさらに含む、請求項１１－１５のいずれか１項に記載の方法。
前記断片の中から第１の群を選択することと、前記断片の中から、第２の群を選択することとをさらに含み、前記第１の群は、前記第１のオブジェクトと関連付けられ、前記第２の群は、前記第２のオブジェクトと関連付けられる、請求項１６に記載の方法。
前記第１の群および前記第２の群を選択することは、前記断片に骨ヒートマップを適用することを含む、請求項１７に記載の方法。
前記第１の群および前記第２の群を選択することは、前記断片に関節ヒートマップを適用することを含む、請求項１７または１８に記載の方法。
前記第１のオブジェクトは、第１の人間であり、前記第２のオブジェクトは、第２の人間である、請求項１１－１９のいずれか１項に記載の方法。
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、プロセッサに、
通信インターフェースを介して、画像ソースから未加工データを受信することであって、前記未加工データは、第１のオブジェクトおよび第２のオブジェクトの表現を含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶させることと、
前記未加工データからセグメント化マップおよび境界マップを生成することと、
前記セグメント化マップおよび前記境界マップに基づいて、前記第１のオブジェクトおよび前記第２のオブジェクトを識別することと、
前記通信インターフェースを介して、識別情報を外部ソースに伝送することであって、前記識別情報は、前記セグメント化マップ内の前記第１のオブジェクトおよび前記第２のオブジェクトを識別するためのものである、ことと
を行うように指示するためのものである、非一過性コンピュータ可読媒体。
前記コードは、前記プロセッサに、前記第１のオブジェクトおよび前記第２のオブジェクトを識別するように指示し、前記プロセッサに、前記第１のオブジェクトの第１の骨格を生成し、前記第２のオブジェクトの第２の骨格を生成するように指示するためのものである、請求項２１に記載の非一過性コンピュータ可読媒体。
前記コードは、前記プロセッサに、前記未加工データを受信するように指示し、前記プロセッサに、映像データを受信するように指示するためのものであり、前記映像データは、前記第１のオブジェクトおよび第２のオブジェクトの移動を表す、請求項２１または２２に記載の非一過性コンピュータ可読媒体。
前記コードは、前記プロセッサに、前記第１のオブジェクトおよび前記第２のオブジェクトを追跡するように指示するためのものである、請求項２３に記載の非一過性コンピュータ可読媒体。
前記コードは、前記プロセッサに、フレームから離れて再進入する前記第１のオブジェクトを追跡するように指示するためのものである、請求項２４に記載の非一過性コンピュータ可読媒体。
前記コードは、前記プロセッサに、前記後処理エンジンを用いて、前記第１のオブジェクトおよび前記第２のオブジェクトの断片を識別するように指示するためのものである、請求項２１－２５のいずれか１項に記載の非一過性コンピュータ可読媒体。
前記コードは、前記プロセッサに、前記断片の中から第１の群を選択し、前記断片の中から、第２の群を選択するように指示するためのものであり、前記第１の群は、前記第１のオブジェクトと関連付けられ、前記第２の群は、前記第２のオブジェクトと関連付けられる、請求項２６に記載の非一過性コンピュータ可読媒体。
前記コードは、前記プロセッサに、前記第１の群を選択し、前記第２の群を選択するために、前記断片に骨ヒートマップを適用するように指示するためのものである、請求項２７に記載の非一過性コンピュータ可読媒体。
前記コードは、前記プロセッサに、前記第１の群を選択し、前記第２の群を選択するために、前記断片に関節ヒートマップを適用するように指示するためのものである、請求項２７または２８に記載の非一過性コンピュータ可読媒体。
前記コードは、前記プロセッサに、未加工データを受信するように指示し、前記プロセッサに、前記第１のオブジェクトとしての第１の人間および前記第２のオブジェクトとしての第２の人間の表現を受信するように指示するためのものである、請求項２１－２９のいずれか１項に記載の非一過性コンピュータ可読媒体。