JP7213916B2

JP7213916B2 - 全身ポーズを生成するためのシステム

Info

Publication number: JP7213916B2
Application number: JP2021092479A
Authority: JP
Inventors: バインザエペルフィリップ; コンバルジエハドリエン; ロジェスグレゴリー; ブレジエロマン; レロイヴィンセント
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-06-02
Filing date: 2021-06-01
Publication date: 2023-01-27
Anticipated expiration: 2041-06-01
Also published as: US11494932B2; US20230015984A1; US11651608B2; US20210374989A1; JP2021190128A; KR20210149597A

Description

本開示は、イメージプロセッシングに関し、より詳細には、イメージ内の人間の全身（ｗｈｏｌｅｂｏｄｙ）の２次元および３次元ポーズの推定に関する。

ここで提供する背景技術の説明は、本開示の背景を一般的に提示することを目的とする。この背景技術で説明される範囲において、発明者の研究だけでなく、出願時点に従来技術として認められない説明の態様は、本開示に対する従来技術として明示上にも暗示的にも認められない。

カメラからのイメージ（デジタルイメージ）は、多様な方式に使用される。例えば、イメージから物体を識別することができ、走行する車両（ｎａｖｉｇａｔｉｎｇｖｅｈｉｃｌｅ）が物体を避けながら移動できるようにする。例えば、イメージ内でキャプチャされる人間を識別するために、イメージが他のイメージとマッチされることがある。カメラで撮影されるイメージは、他にも多様な用途がある。

モバイルデバイスは、１つ以上のカメラを含むことがある。例えば、モバイルデバイスは、モバイルデバイスのディスプレイ（例えば、タッチスクリーンディスプレイ）を見るときに、ユーザが存在する領域をカバーする視野を有するカメラを含むことがある。このようなカメラは、フロントフェーシング（ｆｒｏｎｔｆａｃｉｎｇ）（または、前面）カメラと呼ばれる。フロントフェーシングカメラは、ディスプレイが情報を表示しているときに、同じ方向のイメージをキャプチャすることができる。また、モバイルデバイスは、上述したカメラの反対方向の視野を有するカメラを含むこともある。このようなカメラは、リアフェーシング（ｒｅａｒｆａｃｉｎｇ）（または、背面）カメラと呼ばれる。モバイルデバイスの大体は、多数のフロントフェーシングカメラおよび／または多数のリアフェーシング（ｒｅａｒｆａｃｉｎｇ）カメラを含む。

全身ポーズを生成するためのシステムは、記録された身体アンカーポーズから回帰推定する（ｒｅｇｒｅｓｓｉｎｇ）ことによって入力イメージ内の動物の身体の第１ポーズを生成するように構成される身体回帰モジュール（ｂｏｄｙｒｅｇｒｅｓｓｉｏｎｍｏｄｕｌｅ）、記録された顔アンカーポーズから回帰推定することによって入力イメージ内の動物の顔の第２ポーズを生成するように構成される顔回帰モジュール、記録された四肢（ｅｘｔｒｅｍｉｔｙ）アンカーポーズから回帰推定することによって入力イメージ内の動物の四肢の第３ポーズを生成するように構成される四肢回帰モジュール（ｅｘｔｒｅｍｉｔｙｒｅｇｒｅｓｓｉｏｎｍｏｄｕｌｅ）、および第１ポーズ、第２ポーズ、および第３ポーズに基づいて入力イメージ内の動物の全身ポーズを生成するように構成されるポーズモジュールを含むことを特徴とする。

ポーズモジュールは、身体の第１ポーズの第１キーポイントと顔の第２ポーズの第２キーポイントを連結すること、および身体の第１ポーズの第３キーポイントと四肢の第３ポーズの第４キーポイントを連結することにより、全身ポーズを生成するように構成されることを追加の特徴とする。

全身ポーズは２次元であることを追加の特徴とする。

全身ポーズは３次元であることを追加の特徴とする。

イメージ分類モジュールは、入力イメージを受信するように、さらに入力イメージ内のピクセルのボックスに対する分類を生成するように構成され、領域提案ネットワーク（ｒｅｇｉｏｎａｌｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ：ＲＰＮ）モジュールは、イメージ分類モジュールからの入力に基づいてボックスを生成するように構成されることを追加の特徴とする。

イメージ分類モジュールは、ＲｅｓＮｅｔ－５０モデルを含むことを追加の特徴とする。

入力は、ＲｅｓＮｅｔ－５０モデルの第３ブロックの出力であることを追加の特徴とする。

分類は、身体分類、顔分類、および手分類で構成されるグループから選択されることを追加の特徴とする。

身体回帰モジュールは、ボックスのうちで身体分類を有する第１ボックスに基づいて人間の身体の第１ポーズを生成するように構成され、顔回帰モジュールは、ボックスのうちで身体分類を有する第２ボックスに基づいて人間の顔の第２ポーズを生成するように構成され、四肢回帰モジュールは、ボックスのうちで手分類を有する第３ボックスに基づいて人間の手の第３ポーズを生成するように構成されることを追加の特徴とする。

ＲＰＮモジュールは、関心領域（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ：ＲＯＩ）整列アルゴリズムを使用してボックスを生成するように構成されることを追加の特徴とする。

身体ポーズは、人間の胴体（ｔｏｒｓｏ）、人間の脚、および人間の腕のポーズを含むことを追加の特徴とする。

アニメーションモジュールは、入力イメージ内の人間の全身ポーズに基づいてアニメーション化されたアバタ（ａｎｉｍａｔｅｄａｖａｔａｒ）を含むイメージを生成するように構成されることを追加の特徴とする。

ディスプレイ制御モジュールは、アニメーション化されたアバタを含むイメージをディスプレイ上に表示するように構成されることを追加の特徴とする。

カメラは、入力イメージをキャプチャするように構成されることを追加の特徴とする。

身体分類モジュールは、複数の記録された身体アンカーポーズと入力イメージ内の人間の身体との比較に基づいて身体点数を決定するように構成されるが、身体回帰モジュールは、身体点数に基づき、複数の記録された身体アンカーポーズから記録された身体アンカーポーズを選択するように構成され、顔分類モジュールは、複数の記録された顔アンカーポーズと入力イメージ内の人間の顔との比較に基づいて顔点数を決定するように構成されるが、顔回帰モジュールは、顔点数に基づき、複数の格納された顔アンカーポーズから記録された顔アンカーポーズを選択するように構成され、手四肢（ｈａｎｄｅｘｔｒｅｍｉｔｙ）分類モジュールは、複数の記録された手アンカーポーズと入力イメージ内の人間の手との比較に基づいて手四肢点数を決定するように構成されるが、四肢回帰モジュールは、手点数に基づき、手アンカーポーズである複数の記録された四肢アンカーポーズから記録された手アンカーポーズを選択するように構成される手四肢回帰モジュールであることを追加の特徴とする。

身体回帰モジュールは、記録された身体アンカーポーズの身体点数が記録された身体アンカーポーズのうちの他のすべての記録された身体アンカーポーズの身体点数よりも高いことに基づき、複数の記録された身体アンカーポーズから記録された身体アンカーポーズを選択するように構成され、顔回帰モジュールは、記録された顔アンカーポーズの顔点数が記録された顔アンカーポーズの他のすべての記録された顔アンカーポーズの顔点数よりも高いことに基づき、複数の顔アンカーポーズから記録された顔アンカーポーズを選択するように構成され、手四肢回帰モジュールは、記録された手アンカーポーズの手点数が記録された手アンカーポーズの他のすべての記録された手アンカーポーズの手点数よりも高いことに基づき、複数の手アンカーポーズから記録された手アンカーポーズを選択するように構成されることを追加の特徴とする。

トレーニングシステムは、人間の身体を含むイメージを含む第１データセットに基づいて身体分類モジュールおよび回帰モジュールを含む身体専門家（ｅｘｐｅｒｔ）をトレーニングさせるように構成され、人間の顔を含むイメージを含む第２データセットに基づいて顔分類モジュールおよび回帰モジュールを含む顔専門家をトレーニングさせるように構成され、人間の手を含むイメージを含む第３データセットに基づいて手四肢分類モジュールおよび回帰モジュールを含む手四肢専門家をトレーニングさせるように構成される、トレーニングモジュールを含むことを追加の特徴とする。

また、トレーニングモジュールは、身体専門家、顔専門家、および手四肢専門家からのデータを蒸留する（ｄｉｓｔｉｌｌｉｎｇ）ことによってポーズモジュールをトレーニングさせるように構成されることを追加の特徴とする。

全身ポーズを生成するためのシステムは、記録された身体アンカーポーズと入力イメージ内の人間の身体との比較に基づいて身体点数を決定するように構成される身体分類モジュール、身体点数に基づいて記録された身体アンカーポーズのうちからつを選択するように、そして記録された身体アンカーポーズのうちから選択された１つを回帰推定することによって入力イメージ内の身体の第１ポーズを生成するように構成される身体回帰モジュール、記録された顔アンカーポーズと入力イメージ内の人間の顔との比較に基づいて顔点数を決定するように構成される顔分類モジュール、顔点数に基づいて記録された顔アンカーポーズのうちから１つを選択するように、そして記録された顔アンカーポーズのうちから選択された１つを回帰推定することによって入力イメージ内の顔の第２ポーズを生成するように構成される顔回帰モジュール、記録された手アンカーポーズと入力イメージ内の人間の手との比較に基づいて手点数を決定するように構成される手分類モジュール、手点数に基づいて記録された手アンカーポーズのうちから１つを選択するように、そして記録された手アンカーポーズのうちから選択された１つを回帰推定することによって入力イメージ内の手の第３ポーズを生成するように構成される手回帰モジュール、および身体の第１ポーズ、顔の第２ポーズ、および手の第３ポーズに基づいて入力イメージ内の人間の全身ポーズを生成するように構成されるポーズモジュールを含むことを特徴とする。

全身ポーズを生成する方法は、１つ以上のプロセッサにより、記録された身体アンカーポーズから回帰推定することによって入力イメージ内の動物身体の第１ポーズを生成すること、１つ以上のプロセッサにより、記録された顔アンカーポーズから回帰推定することによって入力イメージ内の動物の顔の第２ポーズを生成すること、１つ以上のプロセッサにより、記録された四肢アンカーポーズから回帰推定することによって入力イメージ内の動物の四肢の第３ポーズを生成すること、および１つ以上のプロセッサにより、第１ポーズ、第２ポーズ、および第３ポーズに基づいて入力イメージ内の動物の全身ポーズを生成することを含むことを特徴とする。

動物は人間であり、第１ポーズは人間の身体のポーズであり、第２ポーズは人間の顔のポーズであり、第３ポーズは人間の手ポーズであることを追加の特徴とする。

全身ポーズを生成するためのシステムは、記録された身体アンカーポーズから回帰推定することによって入力イメージ内の動物の身体の第１ポーズを生成するための手段、記録された顔アンカーポーズから回帰推定することによって入力イメージ内の動物の顔の第２ポーズを生成するための手段、記録された四肢アンカーポーズから回帰推定することによって入力イメージ内の動物の四肢の第３ポーズを生成するための手段、および第１ポーズ、第２ポーズ、および第３ポーズに基づいて入力イメージ内の動物の全身ポーズを生成するための手段を含むことを特徴とする。

本開示の適用可能性のさらに他の領域は、詳細な説明、特許請求の範囲、および図面によって明らかになるであろう。詳細な説明および特定の例は、例示の目的のためのものであり、本開示の範囲を制限するためのものではない。

特許または出願ファイルは、カラーで作成される少なくとも１つの図面を含む。カラー図面（複数可）を含む特許または特許出願公開公報のコピーは、要請および必要な費用の支払いにより、特許庁から提供されるであろう。本開示は、詳細な説明および添付の図面によってより完全に理解されるはずである。
例示的なコンピューティングデバイスを示した機能ブロック図である。入力イメージに基づいて生成される２Ｄポーズおよび３Ｄ全身ポーズの例を示した図である。ポーズ推定モジュールの例示的な実現例を示した機能ブロック図である。図３のポーズ推定モジュールの例示的な実現例の一部を示した機能ブロック図である。例示的なトレーニングシステムを示した機能ブロック図である。例示的なトレーニングモジュールを示した機能ブロック図である。例示的なトレーニングモジュールを示した機能ブロック図である。例示的なトレーニングモジュールを示した機能ブロック図である。図６のトレーニングモジュールの例示的な一部を示した機能ブロック図である。入力イメージに基づいて生成される２Ｄおよび３Ｄポーズの例示した図である。全身ポーズを生成する例示的な方法を示したフローチャートである。（全身）ポーズ推定モジュールをトレーニングさせる例示的な方法を示したフローチャートである。図面において、参照番号は、類似および／または同一のエレメントを識別するために繰り返し使用されることがある。

本出願は、イメージからキャプチャされた人間の２次元（ｔｗｏ－ｄｉｍｅｎｓｉｏｎａｌ：２Ｄ）および３次元（ｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌ：３Ｄ）全身ポーズを生成することに関する。全身ポーズは、身体ポーズ、顔ポーズ、および手ポーズを含む。身体ポーズは、胴体、腕、脚を含む。２Ｄポーズの推定は、人間の関節に対応するそれぞれのキーポイントをどのピクセルが含んでいるかを推定する。３Ｄポーズの推定は、身体に対して異なることのある原点中心と関連して中心を置く３Ｄ世界の座標を決定する。身体の中心はその殆どが胴体の中央であってよい。手首はその殆どが手の中心であってよく、顔の中心はその殆どが顔の中心であってよい。

手、顔、および身体のポーズに対してトレーニングデータセットが利用されてよい。しかし、これらのトレーニングデータセットに基づいて全身ポーズを推定するためのモデルをトレーニングさせることは、トレーニングデータセットが特定の身体部分に対するものであるし、注釈のない（ｕｎａｎｎｏｔａｔｅｄ）部分が否定的なものと見なされることに起因して不良な性能を提供することがある。

本出願は、それぞれの身体部分に対する独立的な専門家、すなわち身体専門家、手専門家、および顔専門家をトレーニングさせること、および専門家の知識を蒸留して全身ポーズを共同で生成するように構成されるモデルを生成する。部分的な注釈があるか注釈がないトレーニングイメージが与えられれば、それぞれの部分専門家は、そのキーポイントのサブセットを２Ｄおよび／または３Ｄで検出および推定し、結果的に現われる推定値を結合して全身ポーズを共同で生成するモデルに対する全身疑似地上検証ポーズ（ｗｈｏｌｅ－ｂｏｄｙｐｓｅｕｄｏｇｒｏｕｎｄ－ｔｒｕｔｈｐｏｓｅ）を取得する。モデル出力を専門家の予測に近づけて維持するために、モデル出力に対して蒸留損失（ｄｉｓｔｉｌｌａｔｉｏｎｌｏｓｓ）が適用される。

図１は、コンピューティングデバイス１００の例示的な実現例を示した機能ブロック図である。コンピューティングデバイス１００は、例えば、スマートフォン、タブレットデバイス、ラップトップコンピュータ、デスクトップコンピュータ、または他の適切なタイプのコンピューティングデバイスであってよい。

カメラ１０４は、イメージをキャプチャするように構成される。例えば、ディスプレイ１０８上に表示するためのビデオを生成するために一連のイメージが使用されてよい。多様なタイプのコンピューティングデバイスの場合、カメラ１０４、ディスプレイ１０８、またはこれらの両方は、コンピューティングデバイス１００に含まれないこともある。カメラ１０４は、フロントフェーシングカメラまたはリアフェーシングカメラであってよい。図面では１つのカメラだけを示しているが、コンピューティングデバイス１００は、多数のカメラ、例えば、少なくとも１つのリアフェーシングカメラおよび少なくとも１つのフロントフェーシングカメラを含んでもよい。

ポーズ推定モジュール１１２は、イメージ内の人間の２次元（２Ｄ）および３次元（３Ｄ）ポーズのうちの少なくとも１つを生成する。イメージは、例えば、カメラ１０４からのイメージ、コンピューティングデバイス１００のメモリに記録されたイメージ、または、例えば、ネットワーク（例えば、インターネット）を介して他のコンピューティングデバイスから受信したイメージであってよい。カメラ１０４は、例えば、ビデオを生成するために予め決定されたレート（例えば、６０Ｈｚ、１２０Ｈｚなどに対応する）でイメージをキャプチャしてよい。カメラ１０４からのイメージの一例として、ポーズ推定モジュール１１２は、受信されるそれぞれの新たなイメージに対するポーズをアップデートしてもよい。

ポーズ推定モジュール１１２によって生成されるそれぞれのポーズは、ポーズを生成するために使用されるイメージに顔、身体、および１つまたは２つの手が存在する場合、身体ポーズ、顔ポーズ、および１つまたは２つの手ポーズを含む。手ポーズ、身体ポーズ、および顔ポーズは、ポーズ推定モジュール１１２によって生成されるポーズで（例えば、キーポイントによるワイヤフレームで）連結される。ポーズ推定モジュール１１２およびポーズ推定モジュール１１２のトレーニングについては、以下でより詳しく説明する。

アニメーションモジュール１１６は、ポーズにそれぞれ基づくアバタイメージ（アバタを含むイメージ）のようなアニメーション化されたイメージ、およびアバタデータ１２０のようなアニメーションデータを生成してよい。アバタは、高い忠実度と高いディテールを有してよい。アバタデータ１２０はメモリに記録されてよく、ポーズと同じ方式によってアバタを生成するかアバタのポーズを取るためのデータを含む。例えば、アバタは、イメージまたはビデオにおいて人間のアニメーション化された表現を含む。

アニメーションモジュール１１６は、例えば、アバタを含むアニメーション化されたビデオを生成するために、生成されるそれぞれの新たなポーズに対するアニメーション化されたイメージをアップデートしてよい。手および顔ポーズの詳細事項は、これらが感情または優れたボディーランゲージ（ｆｉｎｅｂｏｄｙｌａｎｇｕａｇｅ）に関する情報を伝達するときに、アバタの増加された表現度（ｅｘｐｒｅｓｓｉｖｉｔｙ）を提供してよい。

ディスプレイ制御モジュール１２４（例えば、ディスプレイドライバを含む）は、ディスプレイ１０８上にアニメーション化されたイメージを表示する。ディスプレイ制御モジュール１２４は、ディスプレイ１０８上にビデオを表示するために予め決定されたレートで表示されるものをアップデートしてよい。多様な実施形態において、ディスプレイ１０８は、タッチスクリーンディスプレイであってもよいし、非タッチスクリーンディスプレイであってもよい。

アニメーション化されたイメージを生成するためのポーズの使用例が提供されるが、本出願は、他の用途にも適用可能である。例えば、人間のポーズは、ロボットのモーションとグリップエレメント（ｇｒｉｐｐｉｎｇｅｌｅｍｅｎｔ）の作動をトレーニングさせるために追跡および使用されてもよい。例えば、全身ポーズは腕と指の両方に関する情報を有するが、これは微細にチューニングされたジェスチャ制御をデバイスに許容する。全域的姿勢および手ポーズの両方を検出することは、ロボットが人間、例えば、場面内で移動する方法、物体を掴む方法などからトレーニングされることを許容する。

顔ポーズを検出することは、人間が眺めている方向、場面で発言する人間、感情認識などの決定を可能にする。ポーズには多様な用途がある。例えば、全身ポーズは、例えば、ビデオインデキシングのため使用されるアクションをビデオから検出するために、イメージングおよびビデオインデキシングの脈絡で適用されて使用されてよい。他の例として、全身ポーズは、衣類のバーチャル着用を許容するために使用されてもよい。他の例として、人間の位置および動きが識別され、回避しなければならない物体として車両のために使用されてもよい。

入力イメージに基づいてポーズ推定モジュール１１２が生成する２Ｄポーズ（イメージ上に提示される）および３Ｄポーズ（イメージの前面に投影される）の例を図２に示した。

図３は、ポーズ推定モジュール１１２の例示的な実現例を示した機能ブロック図である。イメージはイメージ分類モジュール３０４に入力される。イメージ分類モジュール３０４は、入力イメージに基づき、畳み込み特徴（例えば、ベクトル表現）を生成する畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：ＣＮＮ）を含む。イメージ分類モジュール３０４は、例えば、ＲｅｓＮｅｔ５０イメージ分類アルゴリズム、または他の適切なタイプのイメージ分類アルゴリズムを含んでよい。畳み込み特徴を生成するために、ＲｅｓＮｅｔ５０アルゴリズムのブロック３（または、第３ステージ）まで使用されてもよい。

畳み込み特徴は、領域提案ネットワーク（ＲＰＮ）モジュール３０８に提供される。畳み込み特徴に基づき、ＲＰＮモジュール３０８は、候補ボックスのリストを生成する。それぞれの候補ボックスは、人間の身体の可能なインスタンス、人間の手の可能なインスタンス、および人間の顔の可能なインスタンスのうちの少なくとも１つを含む。手、身体、顔が同一人間に属することもあるが、その部分は、イメージにおいて、顔だけが、手だけが、身体だけが、または顔、手、および身体のうちの２つだけが存在する場合のインスタンスにも適合するように個別のオブジェクトとして取り扱われる。しかし、イメージは、１人よりも多くの人間を含むこともあり、１人よりも多くの人間に対する候補ボックスが識別されることもある。言い換えれば、イメージ内に多数の人間が含まれる場合、多数の人間に対するポーズが生成されてよい。

ＲＰＮモジュール３０８によって生成される候補ボックスは、関心領域（ＲＯＩ）整列アルゴリズム、例えば、ＲｏＩＡｌｉｇｎ（ＲｏＩアライン）を使用して畳み込み特徴をプーリング（ｐｏｏｌ）するため、イメージ分類モジュール３０４によって使用される。ＲｅｓＮｅｔ５０アルゴリズムの残りのブロック（または、ステージ）は、最終的な畳み込み出力を生成する。最終的な畳み込み出力は、それぞれの分類分岐（ｃｌａｓｓｉｆｉｃａｔｉｏｎｂｒａｎｃｈ）に供給される。

最終的な畳み込み出力は、身体分類モジュール３１２、身体回帰モジュール３１６、手分類モジュール３２０、手回帰モジュール３２４、顔分類モジュール３２８、および顔回帰モジュール３３２に入力される。分類は、３つの異なる下位作業、すなわち、身体、手、および顔を分類するために実行される。ポーズ分類は、３Ｄポーズ空間でクラスタリングによって定義される。クラスタリングは、３つの部分（身体、手、顔）に対応する３つのポーズ空間で独立的に適用され、身体、手、および顔に対するＫ_Ｂ、Ｋ_Ｈ、およびＫ_Ｆ個のクラスのセットを取得する。同じ検出器を使用して左手と右手をハンドリングするために、それぞれの手に対してＫ_Ｈ個である２×Ｋ_Ｈ個の手クラスが考慮されてもよい。

それぞれの分類分岐（および、モジュール）に対し、分類器を検出器として使用するために追加的な背景クラスが考慮されてもよい。それぞれの候補ボックスは、身体クラスの場合はＫ_Ｂ＋１個のラベル、手の場合は２Ｋ_Ｈ＋１個のラベル、顔の場合はＫ_Ｆ＋１個のラベルに分類される。

身体分類モジュール３１２は、最終的な畳み込み出力に基づいて分類を生成する。ポーズクラスは、３Ｄポーズ空間でポーズのトレーニングセットをクラスタリングすることによって定義される。これは、身体に対するＫ_Ｂ個のクラスのセットに帰結する。身体回帰モジュール３１６は、２Ｄおよび３Ｄで身体ポーズを推定するためにクラス固有の回帰を適用する。先ず、身体のそれぞれのクラスに対して身体アンカーポーズ３３６が定義されて記録される。身体アンカーポーズ３３６は、対応するクラスタ内のすべてのエレメントの２Ｄおよび３Ｄポーズの平均として決定されてよい。身体回帰モジュール３１６は、すべての２Ｄ身体アンカーポーズ３３６を候補ボックスのそれぞれに適合させる。身体回帰モジュール３１６は、それぞれのボックスで（イメージの）実際の２Ｄおよび３Ｄポーズをマッチさせるように身体アンカーポーズ３３６を変形するためにクラス固有の回帰を実行する。身体回帰モジュール３１６は、イメージ内の身体に対して５×Ｊ_Ｂ×Ｋ_Ｂ個の出力を生成する。数字５は次元（２Ｄ＋３Ｄ）の数に対応する。Ｊ_Ｂは、身体ポーズに対するキーポイントの数である。

身体回帰モジュール３１６は、１つ以上のポスト（事後）プロセッシング機能（ｐｏｓｔｐｒｏｃｅｓｓｉｎｇｆｕｎｃｔｉｏｎ）を実行してよい。身体に対して多数の提案（例えば、身体アンカーポーズ３３６）を重ねることにより、有効な（ポーズ）予測を生成することができる。身体回帰モジュール３１６は、これらの２Ｄ重畳、３Ｄ類似性、および分類点数のうちの少なくとも１つに基づいてこれらのポーズを結合してよい。

手分類モジュール３２０は、最終的な畳み込み出力に基づいて分類を生成する。ポーズクラスは、３Ｄポーズ空間でポーズのトレーニングセットをクラスタリングすることによって定義される。これは、手に対するＫ_Ｈ個のクラスのセットに帰結する。手回帰モジュール３２４は、２Ｄおよび３Ｄで手ポーズを推定するためにクラス固有の回帰を適用する。先ず、手のそれぞれのクラスに対して手アンカーポーズ３４０が定義されて記録される。手アンカーポーズ３４０は、対応するクラスタ内のすべてのエレメントの２Ｄおよび３Ｄポーズの平均として決定されてよい。手回帰モジュール３２４は、すべての２Ｄ手アンカーポーズ３４０を候補ボックスのそれぞれに適合させる。手回帰モジュール３２４は、それぞれのボックスで（イメージの）実際の２Ｄおよび３Ｄポーズをマッチさせるように手アンカーポーズ３３６を変形するためにクラス固有の回帰を実行する。手回帰モジュール３２４は、イメージ内の手に対して５×２×Ｊ_Ｈ×Ｋ_Ｈ個の出力を生成する。数字５は次元（２Ｄ＋３Ｄ）の数に対応する。数字２は両手（左手および右手）に対するものである。Ｊ_Ｈは、１つの手ポーズに対するキーポイントの数である。

手回帰モジュール３２４は、１つ以上のポストプロセッシング機能を実行してよい。手に対して多数の提案（例えば、手アンカーポーズ３４０）を重ねることにより、有効な（ポーズ）予測を生成することができる。手回帰モジュール３２４は、これらの２Ｄ重畳、３Ｄ類似性、および分類点数のうちの少なくとも１つに基づいてこれらのポーズを結合してよい。

顔分類モジュール３２８は、最終的な畳み込み出力に基づいて分類を生成する。ポーズクラスは、３Ｄポーズ空間でポーズのトレーニングセットをクラスタリングすることによって定義される。これは、顔に対するＫ_Ｆ個のクラスのセットに帰結づる。顔回帰モジュール３３２は、２Ｄおよび３Ｄで顔ポーズを推定するためにクラス固有の回帰を適用する。先ず、顔のそれぞれのクラスに対して顔アンカーポーズ３４０が定義されて記録される。顔アンカーポーズ３４４は、対応するクラスタ内のすべてのエレメントの２Ｄおよび３Ｄポーズの平均として決定されてよい。顔回帰モジュール３３２は、すべての２Ｄ顔アンカーポーズ３４４を候補ボックスのそれぞれに適合させる。顔回帰モジュール３３２は、それぞれのボックスで（イメージの）実際の２Ｄおよび３Ｄポーズをマッチさせるように顔アンカーポーズ３４４を変形するためにクラス固有の回帰を実行する。顔回帰モジュール３３２は、イメージ内の顔に対して５×Ｊ_Ｆ×Ｋ_Ｆ個の出力を生成する。数字５は次元（２Ｄ＋３Ｄ）の数に対応する。Ｊ_Ｆは、顔ポーズのキーポイントの数である。

顔回帰モジュール３３２は、１つ以上のポストプロセッシング機能を実行してよい。顔に対して多数の提案（例えば、顔アンカーポーズ３４４）を重ねることにより、有効な（ポーズ）予測を生成することができる。顔回帰モジュール３３２は、これらの２Ｄ重畳、３Ｄ類似性、および分類点数のうちの少なくとも１つに基づいてこれらのポーズを結合してよい。

一般的に言えば、分類モジュールは、それぞれの入力をアンカーポーズと比較する。分類モジュールは、それぞれのアンカーポーズとそれぞれの入力との比較に基づいて点数を生成してもよい。アンカーポーズに対する点数は、それぞれの入力とそのアンカーポーズとの類似性が増加することによって増加してよく、その反対も可能である。例示的な点数は、図４の棒グラフに示した。回帰モジュール３１６は、それぞれのアンカーポーズのうちで最も高い点数の１つを選択してよく、選択されたアンカーポーズに基づいてそれぞれの入力を回帰推定してよい。回帰の結果は、それぞれの身体、手、および顔ポーズを生成する。

ポーズモジュール３４８は、イメージに対する全身ポーズを生成するために身体、手、および顔ポーズを連結する。身体ポーズは、胴体、１つ以上の腕、および１つ以上の脚のポーズを含む。身体ポーズは、人間の頭に対応する身体ポーズが人間の身体に連結する頭キーポイントを含む。身体ポーズは、人間の腕が人間の手に連結する腕キーポイントも含む。頭ポーズは、人間の頭が人間の身体に連結する頭キーポイントも含む。手ポーズは、人間の手が人間の腕に連結する手キーポイントを含む。

ポーズモジュール３４８は、例えば、２Ｄまたは３Ｄ空間で直線を使用しながら、身体ポーズの頭キーポイントと頭ポーズの頭キーポイントを連結する。ポーズモジュール３４８は、例えば、２Ｄまたは３Ｄ空間で直線を使用しながら、身体ポーズの腕キーポイントと手ポーズの腕キーポイントを連結する。例示的な２Ｄおよび３Ｄ全身ポーズは、図２に示すとおりである。ポーズ推定モジュール１１２は、検出される物体が２Ｄおよび３Ｄで推定されるそれぞれのＪ_Ｂ、Ｊ_Ｈ、およびＪ_Ｆ個のキーポイントをもつ身体、手、および顔である局所化－分類－回帰ネットワーク（ｌｏｃａｌｉｚａｔｉｏｎ－ｃｌａｓｓｉｆｉｃａｔｉｏｎ－ｒｅｇｒｅｓｓｉｏｎｎｅｔｗｏｒｋ）を利用する。身体ポーズは、少なくとも８点のキーポイントを含んでよい。顔ポーズは、少なくとも８点のキーポイントを含んでよい。手ポーズは、少なくとも６点のキーポイントを含んでよい。

図４は、ポーズモジュール１１２の例示的な実現例を示した機能ブロック図である。図４は、例示的な候補ボックス、例示的な身体、手、および顔アンカーポーズ、および選択された身体アンカーポーズから回帰推定される例示的な身体、手、および顔ポーズを示している。

図５は、例示的なトレーニングシステムを示した機能ブロック図である。トレーニングモジュール５０４は、トレーニングデータセット５０８を利用してポーズ推定モジュール１１２をトレーニングさせる。トレーニングモジュール５０４は、それぞれの部分に対して独立的にトレーニングされる身体、手、および顔の専門家、すなわち、身体専門家、手専門家、および顔専門家を含む。専門家の知識は、上述したように、全身ポーズを共同で決定するようにポーズ推定モジュール１１２をトレーニングさせるために蒸留される。

トレーニングデータセット５０８は、手のトレーニングデータセット、身体のトレーニングデータセット、および顔のトレーニングデータセットを含む。トレーニングデータセットは、これらそれぞれの部分に対する注釈を含んでもよいし、含まなくてもよい。言い換えれば、手のトレーニングデータセットは手ポーズに関する注釈を含んでよく、身体のトレーニングデータセットは身体ポーズに関する注釈を含んでよく、および／または顔トレーニングデータセットは顔ポーズに関する注釈を含んでよい。多様な実施形態において、注釈は省略されてもよい。しかし、トレーニングデータセットは、他の部分のポーズに関する注釈は含まない。例えば、手のトレーニングデータセットは、身体ポーズまたは顔ポーズに関する注釈は含まない。身体のトレーニングデータセットは、手ポーズまたは顔ポーズに関する注釈は含まない。顔のトレーニングデータセットは、手ポーズまたは身体ポーズに関する注釈は含まない。注釈がついていない部分は、これらの実際のクラスに対してネガティブとして見なされる。

図６ａ～６ｃは、トレーニングモジュール５０４の例示的な実施例を示した機能ブロック図である。トレーニングモジュール５０４は、事後推定モジュール１１２と同じ基本構造を含む。トレーニングモジュール５０４は、身体専門家６０４（図６ａ）、手専門家６０８（図６ｂ）、および顔専門家６１２（図６ｃ）を含む。イメージ分類モジュール６１６－Ａ、６１６－Ｂ、６１６－Ｃ、およびＲＰＮモジュール６２０－Ａ、６２０－Ｂ、６２０－Ｃは、上述したイメージ分類モジュール３０４およびＲＰＮモジュール３０８と同じ方式で機能する。トレーニングデータセット５０８からのトレーニングイメージは、トレーニングモジュール５０４に入力される。

身体専門家６０４は、トレーニングイメージ内の身体のポーズを生成するように構成される。身体専門家６０４は、身体データセット６３０を利用しながら、身体分類モジュール３１２および身体回帰モジュール３１６と同じ方式で機能する身体分類モジュール６２４および身体回帰モジュール６２８を含んでよい。

手専門家６０８は、トレーニングイメージ内の片手または両手のポーズを生成するように構成される。手専門家６０８は、手データセット６４０を利用しながら、身体分類モジュール３１２および身体回帰モジュール３１６と同じ方式で機能する手分類モジュール６３２および身体回帰モジュール６３６を含んでよい。

顔専門家６１２は、トレーニングイメージ内の顔のポーズを生成するように構成される。顔専門家６１２は、顔データセット６５２を利用しながら、顔分類モジュール３２８および顔回帰モジュール３３２と同じ方式で機能する顔分類モジュール６４４および顔回帰モジュール６４８を含んでよい。身体専門家６０４、手専門家６０８、および顔専門家６１２は、アップデート／調整されず、凍結するものとして指称されてよい。

ポーズモジュール６５６は、身体ポーズ、手ポーズ、および顔ポーズからトレーニングイメージに対する全身ポーズを生成するように構成される。ポーズモジュール６５６は、ポーズモジュール３４８と同じ方式で機能する。

図７は、身体専門家６０４、手専門家６０８、および顔専門家６１２を示した機能ブロック図であり、例示的なトレーニングイメージを示している。図７は、トレーニングイメージが与えられると身体専門家６０４、手専門家６０８、および顔専門家６１２によって生成される例示的な身体、手、および顔ポーズ（トレーニングイメージ上に示される）も示している。図７は、ポーズモジュール６５６によって生成される例示的な全身ポーズも示している。

部分的に固有のデータセット６３０、６４０、６５２を活用するために、トレーニングモジュール５０４は、ポーズ推定モジュール１１２の専門家（それぞれの専門家は、分類モジュールおよび回帰モジュールを含む）を独立的にトレーニングさせ、専門家の知識を蒸留して全身ポーズを共同で生成するようにポーズモジュール１１２をトレーニングさせる。同じ数のクラスおよび関節がトレーニングのために使用されてよい。例えば、身体に対してはＪ_Ｂ＝１３個の身体関節が使用されてよく、Ｋ_Ｂ＝１０個のクラスが使用されてよい。顔に対してはＫ_Ｆ＝１０個のクラスが使用されてよい。顔に対しては、３Ｄ顔追跡用Ｍｅｎｐｏベンチマークから８４個のランドマーク（例えば、目、眉毛、鼻、唇、および輪郭）が使用されてよい。手に対しては、手首に対する１点のキーポイントと、それぞれの指に対する４点のキーポイントに対応するＪ_Ｈ＝２１個の手関節が使用されてよい。手に対しては、Ｋ_Ｈ＝５個のクラス（アンカーポーズ）が使用されてよい。

トレーニングモジュール５０４は、専門家６０４、６０８、６１２の知識をポーズ推定モジュール６５６（または、究極的にはポーズモジュール３１２）によって蒸留する。

および

を、３つそれぞれの作業である身体、手、および顔ポーズの検出のために利用されるトレーニングデータセット６３０、６４０、６５２とする。これらはそれぞれ、身体ｂ、手ｈ、および顔ｆに対する地上検証２Ｄおよび３Ｄポーズの注釈と関連する。言い換えれば、身体専門家６０４は、

すなわち、地上検証注釈ｂ_ｉを有するイメージＩ^ｉのセットに対してトレーニングされる。手専門家６０８および顔専門家６１２も同じようにトレーニングされる。

ポーズ推定モジュール１１２をトレーニングさせるために、トレーニングモジュール５０４は、全身に対する地上検証注釈ｗを使用する。トレーニングの間、専門家６０４、６０８、６１２によって検出されるポーズは、部分的に固有のデータセット６３０、６４０、６５２の注釈を増大させるために使用される。

および

はそれぞれ、身体、手、および顔専門家６０４、６０８、６１２とともに、イメージＩ_ｉに基づいて決定されるポーズである。トレーニングモジュール５０４は、以下の数式（１）を利用してポーズモジュール６５６（および、ポーズモジュール３４８）をトレーニングさせる。

ここで、

専門家６０４、６０８、６１２によって決定されるポーズ

は、２Ｄおよび３Ｄに存在しない、キーポイントに対する疑似地上検証として見なされる。例えば、いくつかの注釈が間違ってラベリングされるかラベリングされていない場合、地上検証注釈はポーズを使用して完成となる。注釈のないトレーニングイメージは、疑似地上検証注釈である

だけを用いることにより、ネットワークをトレーニングさせるために使用されてよい。

ポーズ推定モジュール１１２のトレーニングに使用される損失

は、損失

をそれぞれの部分

｛身体、手、顔｝に対する３つの項、すなわち、（ａ）分類分岐（モジュール）に対する損失

、（ｂ）回帰分岐（モジュール）に対する損失

および（ｃ）蒸留損失

の和と結合する。これは、次のような数式（２）によって作成されてよい。

ＲＰＮモジュール３０８の損失

は、標準の予め決定された損失である。それぞれの部分ｐに対する分類損失

は、すべてのボックスに対して平均化されるソフトマックス（ｓｏｆｔｍａｘ）である。ボックスが地上検証ボックスと十分に重なる場合、その地上検証ラベルは地上検証ポーズから最も近いアンカーポーズを探索することによって得られる。そうでなければ、それには０のような背景ラベルが割り当てられてもよい。それぞれの部分に対する回帰損失

は、すべてのボックスに平均される、それぞれのボックスに対する地上検証２Ｄ－３Ｄポーズと回帰推定された２Ｄ－３Ｄポーズとの差に対するＬ１損失である。トレーニングモジュール５０４は、アンカーポーズから回帰推定された２Ｄ－３Ｄポーズと地上検証ポーズとの距離を最小化するようにトレーニングしてよい。回帰はクラスに固有し、損失は、それぞれのポジティブボックスに対する地上検証クラスに固有の回帰変数（ｒｅｇｒｅｓｓｏｒ）の出力だけに適用される。

蒸留損失

は、２つの損失成分、すなわち、分類点数の蒸留に対する損失成分

および回帰に対する損失成分

を含み、次のように表現されてよい。

ボックスが与えられれば、蒸留損失は、ポーズモジュール６５６（および、究極的にはポーズモジュール３４８）の出力を、部分専門家ｐの出力に可能な限り近づけてよい。分類成分

は、対応する部分専門家によって生成される予測と部分ｐに対してポーズモジュール６５６によって推定されるものの間の蒸留損失であってよい。言い換えれば、

というハードラベル損失

のソフトバージョンである。回帰成分

は、部分に対して専門家によって推定されるポーズと地上検証クラスに対し、その部分に対するポーズモジュール６５６によって推定されるポーズの間のＬ１損失である。疑似地上検証ポーズは、部分専門家によって生成されるすべての重複推定値を平均することによって得られる。

が疑似地上検証ポーズの回帰を実施する反面、

は、与えられたボックスに対して部分専門家によって予測される、正確に同じポーズの回帰を選好する。

ＲＰＮモジュールとポーズモジュール６５６によって提案されるボックス（候補ボックス）が異なることもある。ボックスは、ポーズ推定モジュール１１２によって生成されるものを含まなければならない。トレーニングの間、トレーニングモジュール５０４は、部分専門家６０４、６０８、６１２からのポジティブボックスを使用することでポーズモジュール６５６の提案を増大させ、これらのボックスだけに基づいて減を決定する。

まとめると、トレーニングイメージが与えられれば、トレーニングモジュール５０４は、（ａ）それぞれの部分専門家を実行させ、そのポーズ検出だけでなく分類確率および回帰出力をもつポジティブボックスのリストを維持し、（ｂ）ポーズモジュール６５６を実行させ、部分専門家の出力が与えられれば全身ポーズを決定し、部分専門家からのポジティブボックスを提案のリストに追加する。疑似地上検証に基づく損失はすべてのボックスに平均される反面、蒸留損失は部分専門家からのポジティブボックスだけに平均される。トレーニングは、それぞれの部分専門家を先に独立的にトレーニングさせることを含むが、これは、身体データセットを使用して身体データセットに対するイメージ分類＋ＲＰＮ＋身体分類＋身体回帰で構成される身体専門家をトレーニングさせること、顔データセットを使用して顔データセットに対するイメージ分類＋ＲＰＮ＋顔分類＋顔回帰で構成される顔専門家をトレーニングさせること、および手データセットを使用して手データセットに対するイメージ分類＋ＲＰＮ＋手分類＋手回帰で構成される手専門家をトレーニングさせることを意味する。全身ネットワークをトレーニングさせるために専門家は凍結されるため、損失を使用して調整されず、全身ネットワークだけをトレーニングさせる。

トレーニングモジュール５０４は、損失を最小化するために１つ以上の特性を調整する。特性は、例えば、身体専門家６０４の少なくとも１つの特性、手専門家６０８の少なくとも１つの特性、顔専門家６１２の少なくとも１つの特性、およびポーズモジュール６５６の少なくとも１つの特性であってもよい。トレーニングが完了すれば、分類モジュール６２４、６３２、６４４、回帰モジュール６２８、６３６、６４８、およびポーズモジュール６５６の特性は、（例えば、野生イメージ（ｗｉｌｄｉｍａｇｅ）における）入力イメージに基づいて全身ポーズを推定するためのポーズ推定モジュール１１２に記録される。

身体専門家６０４は、ＭＰＩＩ、ＣＯＣＯ、ＬＳＰ、ＬＳＰＥ、Ｈｕｍａｎ３．６Ｍ、およびＳｕｒｒｅａｌデータセットの組み合わせを利用してトレーニングモジュール５０４によってトレーニングされてよい。マッチングにより、２Ｄデータセットに対して疑似３Ｄ地上検証が得られる。トレーニングモジュール５０４は、身体専門家６０４のトレーニングの間、例えば、５０回のエポック（ｅｐｏｃｈ）の間、トレーニングイメージに対して水平フリップ（または、他の幾何学的変換）をランダムに実行してよい。トレーニングモジュール５０４は、１００回のエポックの間、ＲＨデータセットを利用して手専門家６０８をトレーニングさせてよい。トレーニングモジュール５０４は、手専門家６０８のトレーニングの間、データ増強、例えば、カラージッタリング（ｃｏｌｏｒｊｉｔｔｅｒｉｎｇ）、ランダム水平フリッピング（ｒａｎｄｏｍｈｏｒｉｚｏｎｔａｌｆｌｉｐｐｉｎｇ）、およびランダム遠近変換（ｒａｎｄｏｍｐｅｒｓｐｅｃｔｉｖｅｔｒａｎｓｆｏｒｍａｔｉｏｎ）を実行してよい。トレーニングモジュール５０４は、トレーニングデータセットから右手および裏返った左手の３ＤポーズをクラスタリングすることによってＫ_Ｈ＝５個のアンカーポーズを生成してよい。トレーニングモジュール５０４は、トレーニングの間、ランダム水平フリップおよびカラージッタリングを使用しながら、３Ｄ顔追跡Ｍｅｎｐｏデータセットに対して５０回のエポックの間に顔専門家６１２をトレーニングしてよい。

トレーニングモジュール５０４は、ＲｅｓＮｅｔ５０バックボーンを含んでよい。トレーニングは、それぞれの部分専門家のデータセット（データセット６３０、６４０、６５２）の統合を使用する５０回のエポックであってよい。部分専門家のそれぞれのトレーニングのために、同じデータ増強戦略が利用されてよい。トレーニングモジュール５０４は、例えば、０．９の運動量、０．０００１の加重値減衰、および０．０２の初期学習率を有する確率的勾配下降法（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ：ＳＧＤ）を利用してよい。学習率は、３０回のエポックおよび４５回のエポックの後に１０で割られてよい。トレーニングおよびテストの間の最も小さいイメージ値が８００ピクセルであり、１０００個の提案がテストで維持されるように、イメージサイズが再調整されてよい。

ポーズ推定モジュール１１２は、（トレーニング後）ＮｖｉｄｉａによるＴ４ＧＰＵ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：グラフィックプロセッシングユニット）を使用して実行されてよい。イメージは４００ピクセルに減少されてよく、ボックス提案の数が５０個に制限されてよい。これは、ポーズ推定モジュール１１２が、リアルタイムで１秒あたり２５フレームに対応する、イメージあたり４０ｍｓで実行されることを許容してよい。

ポーズ推定モジュール１１２は、それぞれの部分ポーズ推定器（ｅｓｔｉｍａｔｏｒ）よりも優れるかこれに匹敵するポーズ推定を提供するだけでなく、それぞれの部分ポーズ推定器が達成できなかった全身ポーズの推定も生成する。全身ポーズ推定は、例えば、全身（または、より大きな身体セクション）アバタを生成するために、または他の適切な用途のために利用されてよい。図８は、ポーズ推定モジュール１１２に入力されるイメージの一例を示している。上の３行は、ポーズ推定モジュール１１２によって推定される身体、手、および顔ポーズの一例を示している。下の２行は、ポーズ推定モジュール１１２によって推定される２Ｄおよび３Ｄ全身ポーズを示している。

図９は、イメージ内の人間の全身ポーズを生成する例示的な方法を示したフローチャートである。制御は、イメージが受信されたかどうかをポーズ推定モジュール１１２が決定するための段階９０４から始まる。段階９０４が真であれば、制御は段階９０８に続く。段階９０４が偽であれば、制御は段階９０４を維持する。

段階９０８で、ＲＰＮモジュール３０８は候補ボックスを決定し、イメージ分類モジュール３０４は候補ボックスに対する分類を決定する。分類モジュール３０４は、ＲｅｓＮｅｔ－５０モデルまたは他の適切なイメージ分類モデルのようなイメージ分類モデルによって分類を決定する。分類は、身体、手、および顔で構成されるグループから選択される。

段階９１２で、身体分類モジュール３１２および回帰モジュール３１６は、身体データセットに対するイメージ分類＋ＲＰＮ＋身体分類＋身体回帰で構成される身体専門家をトレーニングさせるために、身体データセットを利用しながら、候補ボックスに基づいてイメージに対する身体ポーズ（複数可）を生成する。頭分類モジュール３２０および回帰モジュール３２４は、候補ボックスに基づいてイメージに対する頭ポーズ（複数可）を生成する。顔分類モジュール３２８および回帰モジュール３３２は、候補ボックスに基づいてイメージに対する顔ポーズ（複数可）を生成する。

段階９１６で、ポーズモジュール３４８は、身体、顔、および手ポーズ（複数可）に基づいて全身ポーズ（複数可）を生成する。ポーズモジュール３４８は、身体、顔、および手ポーズのキーポイントを連結して全身ポーズ（複数可）を生成する。例えば、ポーズモジュール３４８は、身体ポーズの頭キーポイントと顔ポーズの頭キーポイントを連結する。ポーズモジュール３４８は、手ポーズ（複数可）と身体ポーズの腕キーポイントを連結する。

全身ポーズに基づいて１つ以上のアクションが採択される。例えば、段階９２０で、アニメーションモジュール１１６は、ポーズ推定モジュール１１２によって決定された全身ポーズと同じポーズの身体を有するアバタを含むイメージを生成してよい。ディスプレイ制御モジュール１２４は、ディスプレイ１０８上にアバタイメージを表示してよい。ここではアバタを表示する例を提供したが、全身ポーズは、追加的にまたは代案的に、１つ以上の他の方式で使用されてもよい。また、図９に示した例において、制御は段階９０４に戻ってもよい。イメージは、１秒あたり２５フレーム（イメージ）のような予め決定されたレートで受信されてもよく、他の適切なレートで受信されてもよい。

図１０は、ポーズ推定モジュール１１２をトレーニングさせる例示的な方法を示したフローチャートである。制御は、トレーニングモジュール５０４が身体イメージ（または、身体データセット６３０）を利用して身体専門家６０４をトレーニングさせるための段階１００４から始まる。段階１００８で、トレーニングモジュール５０４は、手イメージ（または、手データセット６４０）を利用して手専門家６０８をトレーニングさせる。段階１０１２で、トレーニングモジュール５０４は、顔イメージ（または、顔データセット６５２）を利用して顔専門家６１２をトレーニングさせる。段階１００４～１０１２に対する例示的な順序が提供されているが、他の適切な順序が適用されてもよいし、専門家が同時に（並列で）トレーニングされてもよい。

段階１０１６で、トレーニングモジュール５０４は、ポーズモジュール１１２をトレーニングさせるために専門家からの情報を蒸留する。トレーニングが完了すれば（例えば、予め定められた数のトレーニングイメージの完了、あるいは予め定められた数のエポックの完了を意味する。ここで、それぞれのエポックは、予め定められた数のトレーニングイメージに基づくトレーニングを含む）、ポーズ推定モジュール１１２は、入力イメージに基づいて全身ポーズを決定するように構成される。

上述した説明は、本質的に例示的なものに過ぎず、本開示、この応用、または用途を制限することを意図するものではない。本開示の広範囲な教示は、多様な形態で実現可能である。例えば、開示される実施形態では、人間に対する全身ポーズを生成するためのシステムおよび方法について説明しているが、当技術分野において通常の知識を有する者であれば、適切なトレーニングによって他のタイプの動物に対する全身ポーズを生成することにも使用可能であることが理解できるであろう。また、当技術分野において通常の知識を有する者であれば、アプリケーションにより、追加的な専門家モジュールが人間に対する全身ポーズを生成するための開示された実施形態に追加可能であるということが理解できるであろう。例えば、専門家足分類モジュールおよび回帰モジュールが、人間の足のポーズを推定することを目的とするポーズ推定モジュール１１２に追加されてもよい。代案的な実施形態において、所望するアプリケーション（例えば、身体＋手＋顔、身体＋手＋足、または身体＋手＋足＋顔）により、専門家モジュールの異なる組み合わせがポーズ推定モジュール１１２に追加されてもよいし、ポーズ推定モジュール１１２から除去されてもよい。例えば、顔よりも手および足のポーズの関節運動（ａｒｔｉｃｕｌａｔｉｏｎ）とより多くの関連があるスポーツアプリケーションに対し、アニメーションモジュール１１６は、アニメーション化されたイメージを生成してもよい。他の実施形態において、アニメーションモジュール１１６は、四肢として足（ｆｏｏｔ）（または、足（ｐａｗ））だけがあり、人間にあるような手のない動物（例えば、犬や猫など）に対するアニメーション化されたイメージを生成してもよい。

したがって、本開示は特定の例を含んでいるが、本開示の真正な範囲は、図面、明細書、および添付する特許請求の範囲の研究に基づくことによって他の修正が明らかになるはずであるため、このように制限されてはならない。方法における１つ以上の段階は、本開示の原理を変更しない範囲内で異なる順序で（または、同時に）実行されてもよいということが理解されなければならない。また、実施形態のそれぞれは所定の特徴を有するものと上述したが、本開示の任意の実施形態と関連して説明した特徴のうちの任意の１つ以上は、他の実施形態の任意の特徴で、および／または組み合わせが明らかに説明されていなくても、他の実施形態の任意の特徴と組み合わされて実現されてもよい。言い換えれば、上述した実施形態は相互排他的なものでなく、１つ以上の実施形態との相互置換（ｐｅｒｍｕｔａｔｉｏｎ）は本開示の範囲内で維持される。

エレメント同士の（例えば、モジュール、回路エレメント、半導体層など）空間的および機能的関係は、「連結する（ｃｏｎｎｅｃｔｅｄ）」、「結合する（ｅｎｇａｇｅｄ）」、「カップルリングする（ｃｏｕｐｌｅｄ）」、「隣接する（ａｄｊａｃｅｎｔ）」、「横の（ｎｅｘｔｔｏ）」、「上の（ｏｎｔｏｐｏｆ）」、「上の（ａｂｏｖｅ）」、「下の（ｂｅｌｏｗ）」、および「配置される（ｄｉｓｐｏｓｅｄ）」を含んだ多様な用語によって説明される。「直接的な（ｄｉｒｅｃｔ）」ものであるという明らかな説明がない限り、第１エレメントと第２エレメントのとの関係が上述した開示で説明されるときには、その関係が、第１エレメントと第２エレメントとの間に介在するいかなる他のエレメントも存在しない直接的な関係であってもよいが、第１エレメントと第２エレメントとの間に１つ以上のエレメントが（空間的にまたは機能的に）介在する間接的な関係であってもよい。本願で使用されるとき、語句Ａ、Ｂ、およびＣのうちの少なくとも１つは、非排他的論理的和によって論理（ＡＯＲＢＯＲＣ）を意味するものと解釈されなければならず、「Ａのうちの少なくとも１つ、Ｂのうちの少なくとも１つ、およびＣのうちの少なくとも１つ」を意味するように解釈されてはならない。

図面において、矢頭（ａｒｒｏｗｈｅａｄ）によって示される矢印の方向は、一般的には、例示において重要な情報（例えば、データまたは命令語）の流れを示すものである。例えば、エレメントＡとエレメントＢが多様な情報を交換するとき、エレメントＡからエレメントＢに送信される情報が例示に関連する場合には矢印がエレメントＡからエレメントＢを指すことがある。この単方向矢印は、エレメントＢからはエレメントＡに他の情報が一切送信されないということを暗示するものでない。エレメントＡからエレメントＢに情報が送信される場合、エレメントＢは、エレメントＡの情報に対する要請、またはその情報の受信確認の応答（ｒｅｃｅｉｐｔａｃｋｎｏｗｌｅｄｇｅｍｅｎｔ）を送信することもある。

本出願において、後述する定義を含み、用語「モジュール」または用語「コントローラ」は用語「回路」に置き換えられてもよい。用語「モジュール」は、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、デジタル、アナログ、または混合されたアナログ／デジタル離散回路、デジタル、アナログ、または混合アナログ／デジタル集積回路、組み合わせ論理回路、フィールドプログラマブルゲートアレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ：ＦＰＧＡ）、コードを実行するプロセッサ回路（共有される、専用される、またはグループ）、プロセッサ回路によって実行されるコードを記録するメモリ回路（共有される、専用される、またはグループ）、上述した機能性（ｆｕｎｃｔｉｏｎａｌｉｔｙ）を提供する他の適切なハードウェアコンポーネント、または、例えば、システムオンチップにおける上述したものの一部またはすべての組み合わせを示してもよいが、これらの一部であってもよいし、これらを含んでもよい。

モジュールは、１つ以上のインタフェース回路を含んでよい。いくつかの例において、インタフェース回路は、ローカル・エリア・ネットワーク（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ：ＬＡＮ）、インターネット、ワイド・エリア・ネットワーク（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ：ＷＡＮ）、またはこれらの組み合わせによって接続される有線または無線インタフェースを含んでよい。本開示の任意の与えられたモジュールの機能性は、インタフェース回路によって接続される多数のモジュールに分散されてよい。例えば、多数のモジュールが負荷分散を許容してもよい。また他の例において、サーバ（遠隔またはクラウド、または周知の）モジュールは、クライアントモジュールの代わりに複数の機能を実行してもよい。

上述したような用語「コード」は、ソフトウェア、ファームウェア、および／またはマイクロコードを含んでよく、プログラム、ルーチン、関数、クラス、データ構造、および／またはオブジェクトを指称してよい。用語が共有されたプロセッサ回路は、多数のモジュールからのいくつかのまたはすべてのコードを実行する単一のプロセッサ回路を包括する。用語「グループプロセッサ回路」は、追加のプロセッサ回路と結合し、１つ以上のモジュールからのコードのうちの一部またはすべてを実行するプロセッサ回路を包括する。多数のプロセッサ回路に対する言及は、個別ダイ上の多数のプロセッサ回路、単一ダイ上の多数のプロセッサ回路、単一プロセッサ回路の多数のコア、単一プロセッサ回路の多数のスレッド、または上述したものの組み合わせを包括する。用語「共有されたメモリ回路」は、多数のモジュールからのいくつかのまたはすべてのコードを記録する単一のメモリ回路を包括する。用語「グループメモリ回路」は、追加のメモリと結合し、１つ以上のモジュールからのいくつかのまたはすべてのコードを記録するメモリ回路を包括する。

用語「メモリ回路」は、用語「コンピュータ読み取り可能な媒体」のサブセットである。用語「コンピュータ読み取り可能な媒体」は、本願で使用されるときには、媒体を介して（例えば、搬送波（ｃａｒｒｉｅｒｗａｖｅ）上で）伝達される一時的な電気または電磁気信号は含まず、したがって、用語「コンピュータ読み取り可能な媒体」は、類型であって非一時的なものとして見なされてもよい。非一時的な類型のコンピュータ読み取り可能な媒体の非制限的な例としては、揮発性メモリ回路（例えば、フラッシュメモリ回路、消去可能プログラミング可能なＲＯＭ回路、またはマスクＲＯＭ回路）、揮発性メモリ回路（例えば、スタックＲＡＭ回路またはダイナミックＲＡＭ回路）、磁気記録媒体（例えば、アナログまたはデジタル磁気テープ、またはハードディスクドライブ）、および光学記録媒体（例えば、ＣＤ、ＤＶＤ、またはブルーレイディスク）などが挙げられる。

本出願で説明される装置および方法は、コンピュータプログラムによって具体化される１つ以上の特定の機能を実行するように汎用コンピュータを構成することによって生成される特殊目的コンピュータにより、部分的にまたは完全に実現されてよい。上述した機能ブロック、フローチャートコンポーネント、および他のエレメントは、当技術分野において通常の知識を有する者やプログラマの日常的な作業により、コンピュータプログラムに変換可能なソフトウェアとしての役割をする。

コンピュータプログラムは、少なくとも１つの非一時的な類型のコンピュータ読み取り可能な媒体上に記録されるプロセッサ実行可能な命令語を含む。コンピュータプログラムも、記録されたデータを含んでもよいし、依存してもよい。コンピュータプログラムは、特殊目的コンピュータのハードウェアと相互作用する基本入力／出力システム（ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ：ＢＩＯＳ）、特殊目的コンピュータの特定のデバイスと相互作用するデバイスドライバ、１つ以上のオペレーティングシステム、ユーザアプリケーション、バックグラウンドサービス、バックグラウンドアプリケーションなどを含んでよい。

コンピュータプログラムは、（ｉ）ＨＴＭＬ（ｈｙｐｅｒｔｅｘｔｍａｒｋｕｐｌａｎｇｕａｇｅ）、ＸＭＬ（ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ）、またはＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）のようなパーシングされる技術テキスト（ｄｅｓｃｒｉｐｔｉｖｅｔｅｘｔ）、（ｉｉ）アセンブリコード、（ｉｉｉ）コンパイラによってソースコードで生成されるオブジェクトコード、（ｉｖ）インタプリタによる実行のためのソースコード、（ｖ）適時の（ｊｕｓｔ－ｉｎ－ｔｉｍｅ）コンパイラによるコンパイルおよび実行のためのソースコードなどを含んでよい。一例として、ソースコードは、Ｃ、Ｃ＋＋、Ｃ＃、ＯｂｊｅｃｔｉｖｅＣ、Ｓｗｉｆｔ、Ｈａｓｋｅｌｌ、Ｇｏ、ＳＱＬ、Ｒ、Ｌｉｓｐ、ＪａｖａＲ、Ｆｏｒｔｒａｎ、Ｐｅｒｌ、Ｐａｓｃａｌ、Ｃｕｒｌ、ＯＣａｍｌ、ＪａｖａｓｃｒｉｐｔＲ、ＨＴＭＬ５（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ５ｔｈｒｅｖｉｓｉｏｎ）、Ａｄａ、ＡＳＰ（ＡｃｔｉｖｅＳｅｒｖｅｒＰａｇｅｓ）、ＰＨＰ（ＨｙｐｅｒｔｅｘｔＰｒｅｐｒｏｃｅｓｓｏｒ）、Ｓｃａｌａ、Ｅｉｆｆｅｌ、Ｓｍａｌｌｔａｌｋ、Ｅｒｌａｎｇ、Ｒｕｂｙ、ＦｌａｓｈＲ、ＶｉｓｕａｌＢａｓｉｃＲ、Ｌｕａ、ＭＡＴＬＡＢ、ＳＩＭＵＬＩＮＫ、およびＰｙｔｈｏｎＲを含む言語からの構文を使用して作成されてもよい。

Claims

全身ポーズを生成するためのシステムであって、
記録された身体アンカーポーズから回帰推定することにより、入力イメージ内の動物の身体の第１ポーズを生成するように構成される身体回帰モジュール、
記録された顔アンカーポーズから回帰推定することにより、前記入力イメージ内の前記動物の顔の第２ポーズを生成するように構成される顔回帰モジュール、
記録された四肢アンカーポーズから回帰推定することにより、前記入力イメージ内の前記動物の四肢の第３ポーズを生成するように構成される四肢回帰モジュール、
前記第１ポーズ、前記第２ポーズ、および前記第３ポーズに基づき、前記入力イメージ内の前記動物の全身ポーズを生成するように構成されるポーズモジュール、
前記入力イメージを受信するように、そして前記入力イメージ内のピクセルのボックスに対する分類を生成するように構成されるイメージ分類モジュール、および
前記イメージ分類モジュールからの入力に基づいて前記ボックスを生成するように構成される領域提案ネットワーク（ＲＰＮ）モジュールを含み、
前記分類は、身体分類、顔分類、および手分類で構成されるグループから選択され、
前記身体回帰モジュールは、前記ボックスのうちで前記身体分類を有する第１ボックスに基づいて人間の前記身体の前記第１ポーズを生成するように構成され、
前記顔回帰モジュールは、前記ボックスのうちで前記顔分類を有する第２ボックスに基づいて前記人間の前記顔の前記第２ポーズを生成するように構成され、そして
前記四肢回帰モジュールは、前記ボックスのうちで前記手分類を有する第３ボックスに基づいて前記人間の手の前記第３ポーズを生成するように構成される、
全身ポーズを生成するためのシステム。
前記ポーズモジュールは、
前記身体の前記第１ポーズの第１キーポイントを前記顔の前記第２ポーズの第２キーポイントと連結すること、および
前記身体の前記第１ポーズの第３キーポイントを前記四肢の前記第３ポーズの第４キーポイントと連結すること
により、前記全身ポーズを生成するように構成される、
請求項１に記載の全身ポーズを生成するためのシステム。
前記全身ポーズは２次元である、
請求項１に記載の全身ポーズを生成するためのシステム。
前記全身ポーズは３次元である、
請求項１に記載の全身ポーズを生成するためのシステム。
前記イメージ分類モジュールは、ＲｅｓＮｅｔ－５０モデルを含む、
請求項１乃至４のいずれか１項に記載の全身ポーズを生成するためのシステム。
前記入力は、前記ＲｅｓＮｅｔ－５０モデルの第３ブロックの出力である、
請求項５に記載の全身ポーズを生成するためのシステム。
前記ＲＰＮモジュールは、関心領域（ＲＯＩ）整列アルゴリズムを利用して前記ボックスを生成するように構成される、
請求項１乃至４のいずれか１項に記載の全身ポーズを生成するためのシステム。
前記全身ポーズは、前記人間の胴体、前記人間の脚、および前記人間の腕のポーズを含む、
請求項１に記載の全身ポーズを生成するためのシステム。
前記入力イメージ内の前記人間の前記全身ポーズに基づいてアニメーション化されたアバタを含むイメージを生成するように構成されるアニメーションモジュールをさらに含む、
請求項１に記載の全身ポーズを生成するためのシステム。
ディスプレイ上に前記アニメーション化されたアバタを含む前記イメージを表示するように構成されるディスプレイ制御モジュールをさらに含む、
請求項９に記載の全身ポーズを生成するためのシステム。
前記入力イメージをキャプチャするように構成されるカメラをさらに含む、
請求項１に記載の全身ポーズを生成するためのシステム。
複数の記録された身体アンカーポーズと前記入力イメージ内の前記人間の前記身体との比較に基づき、身体点数（前記身体回帰モジュールは、前記身体点数に基づいて前記複数の記録された身体アンカーポーズから前記記録された身体アンカーポーズを選択するように構成される）を決定するように構成される身体分類モジュール、
複数の記録された顔アンカーポーズと前記入力イメージ内の前記人間の前記顔との比較に基づき、顔点数（前記顔回帰モジュールは、前記顔点数に基づいて前記複数の記録された顔アンカーポーズから前記記録された顔アンカーポーズを選択するように構成される）を決定するように構成される顔分類モジュール、および
複数の記録された手アンカーポーズと前記入力イメージ内の前記人間の手との比較に基づき、手四肢点数（前記四肢回帰モジュールは、前記手四肢点数に基づいて手アンカーポーズである前記複数の記録された四肢アンカーポーズから前記記録された手アンカーポーズを選択するように構成される手四肢回帰モジュール）を決定するように構成される手四肢分類モジュールをさらに含む、
請求項１に記載の全身ポーズを生成するためのシステム。
前記身体回帰モジュールは、前記記録された身体アンカーポーズの前記身体点数が前記記録された身体アンカーポーズのうちの他のすべての記録された身体アンカーポーズの前記身体点数よりも高いことに基づき、前記複数の記録された身体アンカーポーズから前記記録された身体アンカーポーズを選択するように構成され、
前記顔回帰モジュールは、前記記録された顔アンカーポーズの前記顔点数が前記記録された顔アンカーポーズの他のすべての記録された顔アンカーポーズの前記顔点数よりも高いことに基づき、前記複数の顔アンカーポーズから前記記録された顔アンカーポーズを選択するように構成され、そして
前記手四肢回帰モジュールは、前記記録された手アンカーポーズの前記手四肢点数が前記記録された手アンカーポーズの他のすべての記録された手アンカーポーズの前記手四肢点数よりも高いことに基づき、前記複数の手アンカーポーズから前記記録された手アンカーポーズを選択するように構成される、
請求項１２に記載の全身ポーズを生成するためのシステム。
トレーニングシステムであって、
請求項１２に記載の前記システム、および
トレーニングモジュールを含み、
前記トレーニングモジュールは、
人間の身体を含むイメージを含む第１データセットに基づいて前記身体分類モジュールおよび回帰モジュールを含む身体専門家をトレーニングさせるように、
人間の顔を含むイメージを含む第２データセットに基づいて前記顔分類モジュールおよび回帰モジュールを含む顔専門家をトレーニングさせるように、そして
人間の手を含むイメージを含む第３データセットに基づいて前記手四肢分類モジュールおよび回帰モジュールを含む手四肢専門家をトレーニングさせるように
構成される、トレーニングシステム。
前記トレーニングモジュールも、前記身体専門家、前記顔専門家、および前記手四肢専門家からのデータを蒸留することによって前記ポーズモジュールをトレーニングさせるように構成される、
請求項１４に記載のトレーニングシステム。
全身ポーズを生成するためのシステムであって、
記録された身体アンカーポーズと入力イメージ内の人間の身体との比較に基づいて身体点数を決定するように構成される身体分類モジュール、
身体回帰モジュール（前記身体回帰モジュールは、前記身体点数に基づいて前記記録された身体アンカーポーズのうちから１つを選択するように、そして前記記録された身体アンカーポーズのうちから前記選択された１つを回帰推定することによって前記入力イメージ内の前記身体の第１ポーズを生成するように構成される）、
記録された顔アンカーポーズと前記入力イメージ内の前記人間の顔との比較に基づいて顔点数を決定するように構成される顔分類モジュール、
顔回帰モジュール（前記顔回帰モジュールは、前記顔点数に基づいて前記記録された顔アンカーポーズのうちから１つを選択するように、そして前記記録された顔アンカーポーズのうちから前記選択された１つを回帰推定することによって前記入力イメージ内の前記顔の第２ポーズを生成するように構成される）、
記録された手アンカーポーズと前記入力イメージ内の前記人間の手との比較に基づいて手点数を決定するように構成される手分類モジュール、
手回帰モジュール（前記手回帰モジュールは、前記手点数に基づいて前記記録された手アンカーポーズのうちから１つを選択するように、そして前記記録された手アンカーポーズのうちから前記選択された１つを回帰推定することによって前記入力イメージ内の前記手の第３ポーズを生成するように構成される）、
前記身体の前記第１ポーズ、前記顔の前記第２ポーズ、および前記手の前記第３ポーズに基づいて前記入力イメージ内の前記人間の全身ポーズを生成するように構成されるポーズモジュール、
前記入力イメージを受信するように、そして前記入力イメージ内のピクセルのボックスに対する分類を生成するように構成されるイメージ分類モジュール、および
前記イメージ分類モジュールからの入力に基づいて前記ボックスを生成するように構成される領域提案ネットワーク（ＲＰＮ）モジュールを含み、
前記分類は、身体分類、顔分類、および手分類で構成されるグループから選択され、
前記身体回帰モジュールは、前記ボックスのうちで前記身体分類を有する第１ボックスに基づいて前記人間の前記身体の前記第１ポーズを生成するように構成され、
前記顔回帰モジュールは、前記ボックスのうちで前記顔分類を有する第２ボックスに基づいて前記人間の前記顔の前記第２ポーズを生成するように構成され、そして
前記手回帰モジュールは、前記ボックスのうちで前記手分類を有する第３ボックスに基づいて前記人間の手の前記第３ポーズを生成するように構成される、
全身ポーズを生成するためのシステム。
全身ポーズを生成する方法であって、
１つ以上のプロセッサにより、記録された身体アンカーポーズから回帰推定することによって入力イメージ内の動物の身体の第１ポーズを生成する段階、
前記１つ以上のプロセッサにより、記録された顔アンカーポーズから回帰推定することによって前記入力イメージ内の前記動物の顔の第２ポーズを生成する段階、
前記１つ以上のプロセッサにより、記録された四肢アンカーポーズから回帰推定することによって前記入力イメージ内の前記動物の四肢の第３ポーズを生成する段階、
前記１つ以上のプロセッサにより、前記第１ポーズ、前記第２ポーズ、および前記第３ポーズに基づいて前記入力イメージ内の前記動物の全身ポーズを生成する段階、
前記１つ以上のプロセッサにより、前記入力イメージを受信し、そして前記入力イメージ内のピクセルのボックスに対する分類を生成する段階、および
前記１つ以上のプロセッサにより、前記分類に関する入力に基づいて前記ボックスを生成する段階を含み、
前記分類は、身体分類、顔分類、および手分類で構成されるグループから選択され、
前記第１ポーズを生成する段階は、前記ボックスのうちで前記身体分類を有する第１ボックスに基づいて人間の前記身体の前記第１ポーズを生成する段階を含み、
前記第２ポーズを生成する段階は、前記ボックスのうちで前記顔分類を有する第２ボックスに基づいて前記人間の前記顔の前記第２ポーズを生成する段階を含み、
前記第３ポーズを生成する段階は、前記ボックスのうちで前記手分類を有する第３ボックスに基づいて前記人間の手の前記第３ポーズを生成する段階を含む、
全身ポーズを生成する方法。
前記動物は人間であり、
前記第１ポーズは前記人間の身体のポーズであり、
前記第２ポーズは前記人間の顔のポーズであり、
前記第３ポーズは前記人間の手のポーズである、
請求項１７に記載の全身ポーズを生成する方法。
全身ポーズを生成するためのシステムであって、
記録された身体アンカーポーズから回帰推定することによって入力イメージ内の動物の身体の第１ポーズを生成するための手段、
記録された顔アンカーポーズから回帰推定することによって前記入力イメージ内の前記動物の顔の第２ポーズを生成するための手段、
記録された四肢アンカーポーズから回帰推定することによって前記入力イメージ内の前記動物の四肢の第３ポーズを生成するための手段、
前記第１ポーズ、前記第２ポーズ、および前記第３ポーズに基づいて前記入力イメージ内の前記動物の全身ポーズを生成するための手段、
前記入力イメージを受信し、そして前記入力イメージ内のピクセルのボックスに対する分類を生成する手段、および
前記分類を生成する手段からの入力に基づいて前記ボックスを生成する手段を含み、
前記分類は、身体分類、顔分類、および手分類で構成されるグループから選択され、
前記第１ポーズを生成する手段は、前記ボックスのうちで前記身体分類を有する第１ボックスに基づいて人間の前記身体の前記第１ポーズを生成するように構成され、
前記第２ポーズを生成する手段は、前記ボックスのうちで前記顔分類を有する第２ボックスに基づいて前記人間の前記顔の前記第２ポーズを生成するように構成され、
前記第３ポーズを生成する手段は、前記ボックスのうちで前記手分類を有する第３ボックスに基づいて前記人間の手の前記第３ポーズを生成するように構成される、
全身ポーズを生成するためのシステム。