JP2023536074A

JP2023536074A - 単眼カメラからのフル骨格３ｄ姿勢復元

Info

Publication number: JP2023536074A
Application number: JP2023504073A
Authority: JP
Inventors: タマキコジマ
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2020-08-25
Filing date: 2021-08-18
Publication date: 2023-08-23
Also published as: US20220067357A1; CN115151944A; WO2022043834A1; EP4176409A1; KR20220149717A; CA3172140A1; US11380121B2

Abstract

ニューラルネットワークの最近の進歩は、人物姿勢推定タスクにわたって著しい進歩を示してきた。姿勢推定は、単眼2D姿勢推定、マルチビュー3D姿勢推定、及び単一ビュー3D姿勢推定に分類することができ、最近、3D姿勢は、ますます注目されて、AR/VR、ゲーム及び人間コンピュータインタラクションアプリケーションに適用されるようになってきている。しかしながら、人物3D姿勢推定に関する現在の学術的ベンチマークは、それらの相対姿勢に関する性能を尊重するのみである。時間にわたるルート位置決め、換言すれば、3D空間内の全身の「軌道」が、十分によく考慮されない。モーションキャプチャなどのアプリケーションは、身体の正確な相対姿勢を必要とするだけでなく、3D空間内の全身のルート位置も必要とする。したがって、本明細書では、2D姿勢入力からの効率的な単眼フル3D姿勢復元モデルを説明し、これは、上記のアプリケーションに適用することができる。【選択図】図９

Description

本発明は、コンテンツ推定に関する。具体的には、本発明は、３Ｄ姿勢推定に関する。

人物２Ｄ姿勢推定の大成功の後に、そのアプリケーションをムービー、監視、及び人間－コンピュータインタラクションなどにおいて拡大するために、人物３Ｄ姿勢推定が、多くの注意をひいてきた。マルチビュー方法、時間的方法、骨格のための単眼３Ｄ姿勢方法、及び３Ｄメッシュを含む単眼３Ｄ姿勢方法を含む多くの方法が提案された。

ニューラルネットワークの最近の進歩は、人物姿勢推定タスクにわたって著しい進歩を示してきた。姿勢推定は、単眼２Ｄ姿勢推定、マルチビュー３Ｄ姿勢推定、及び単一ビュー３Ｄ姿勢推定に分類することができ、最近、３Ｄ姿勢は、ますます注目されて、ＡＲ／ＶＲ、ゲーム及び人間コンピュータインタラクションアプリケーションに適用されるようになってきている。しかしながら、人物３Ｄ姿勢推定に関する現在の学術的ベンチマークは、それらの相対姿勢に関する性能を尊重するのみである。時間にわたるルート位置決め（ｒｏｏｔｐｏｓｉｔｉｏｎｉｎｇ）、換言すれば、３Ｄ空間内の全身の「軌道」が、十分によく考慮されない。モーションキャプチャなどのアプリケーションは、身体の正確な相対姿勢を必要とするだけでなく、３Ｄ空間内の全身のルート位置も必要とする。したがって、本明細書では、２Ｄ姿勢入力からの効率的な単眼フル３Ｄ姿勢復元モデルを説明し、これは、上記のアプリケーションに適用することができる。本明細書では、ルート位置推定のために時間的１Ｄ畳み込みと長・短期記憶（ＬＳＴＭ）とを組み合わせるネットワークアーキテクチャ、出力を定式化する方法、損失関数の設計、及び最新技術のモデルとの比較を説明して、アプリケーション使用のための手法の効果を示す。本明細書で説明するように、１５個及び１７個のキーポイントにおける３Ｄ姿勢推定を実行するが、これは、任意のキーポイント定義に拡張することができる。

一態様では、方法は、カメラ情報を受け取るステップであって、前記カメラ情報は、２次元姿勢と、焦点距離を含むカメラパラメータとを含む、ステップと、前記カメラ情報に特徴抽出を適用するステップであって、前記特徴抽出は、１次元畳み込みを含む残差決定を含む、ステップと、前記特徴抽出に基づいて、ボーン長を推定するステップと、前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定するステップと、前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置（ｒｏｏｔｐｏｓｉｔｉｏｎｓ）を導出するステップと、を含む。前記方法は、入力として１又は２以上のフレームを受け取るステップを更に含む。どのボーン長も、長さが１メートルを超えないと仮定される。長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる。前記方法は、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするステップを更に含む。前記方法は、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するステップを更に含む。前記方法は、２次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップ（ｒａｎｄｏｍｋｅｙｐｏｉｎｔｄｒｏｐ）を用いて、２次元姿勢の摂動（ｐｅｒｔｕｒｂａｔｉｏｎ）を実行して、２次元姿勢予測のノイズ及び遮蔽（ｏｃｃｌｕｓｉｏｎ）状況をシミュレートするステップを更に含む。

別の態様では、装置は、カメラ情報を受け取ることであって、前記カメラ情報は、２次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、１次元畳み込みを含む残差決定を含む、ことと、前記特徴抽出に基づいて、ボーン長を推定することと、前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、を行うためのアプリケーションを記憶するための非一時的メモリと、前記メモリに結合され、前記アプリケーションを処理するように構成されるプロセッサと、を備える。前記アプリケーションは、入力として１又は２以上のフレームを受け取るように構成される。どのボーン長も、長さが１メートルを超えないと仮定される。長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる。前記アプリケーションは、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように構成される。前記アプリケーションは、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように構成される。前記アプリケーションは、２次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、２次元姿勢の摂動を実行して、２次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように構成される。

別の態様では、システムは、コンテンツを取得するように構成されるカメラと、コンピュータ装置と、を備え、前記コンピュータ装置は、前記カメラからカメラ情報を受け取ることであって、前記カメラ情報は、２次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、１次元畳み込みを含む残差決定を含む、ことと、前記特徴抽出に基づいて、ボーン長を推定することと、前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、を行うように構成される。前記コンピュータ装置は、入力として１又は２以上のフレームを受け取るように更に構成される。どのボーン長も、長さが１メートルを超えないと仮定される。長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる。前記コンピュータ装置は、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成される。前記コンピュータ装置は、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成される。前記コンピュータ装置は、２次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、２次元姿勢の摂動を実行して、２次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成される。

いくつかの実施形態による、実際の（ｉｎｔｈｅｗｉｌｄ）（例えば、制御されていない変数／環境を含む）ビデオ上のモデル出力の可視化を示す図である。いくつかの実施形態による、本明細書で説明するモデルがデプスの曖昧さを克服することを示す図である。いくつかの実施形態による、異なるＦＯＶでＵＶに再投影される同じ３Ｄ姿勢を示す図である。いくつかの実施形態による、キーポイント定義の変化を示す図である。いくつかの実施形態による、本明細書で説明する設計の３Ｄカメラ座標を示す図である。いくつかの実施形態による、正規化された空間においてどのように値を符号化するかを示す図である。いくつかの実施形態による、カメラ座標におけるＸ－Ｚ及びＺ－Ｙ平面内のルート位置の分布を示す図である。いくつかの実施形態による、入力に対する摂動及びキーポイントドロップを示す図である。いくつかの実施形態による、本明細書で説明するようなネットワークの簡略化されたブロック図である。いくつかの実施形態による、対象に対するルート位置予測の可視化を示す図である。いくつかの実施形態による、Ｈｕｍａｎ３．６Ｍに本明細書で説明するデータ拡張スキームを加えた結果の表を示す図である。いくつかの実施形態による、ＬＳＴＭ及び１Ｄ畳み込みのルート位置推定の比較の表を示す図である。いくつかの実施形態による、ＬＳＴＭ及び１Ｄ畳み込みを使用してモデルを比較するためのサンプルシーケンスにおけるＺ軸ルート位置トレースの可視化を示す図である。ＹｏｕＴｕｂｅからの後ろ宙返りビデオ及び２Ｄ姿勢検出器として適用されたＡｌｐｈａＰｏｓｅ、いくつかの実施形態による本明細書で説明する方法を使用して実行されることを示す図である。ＹｏｕＴｕｂｅからの後ろ宙返りビデオ及び２Ｄ姿勢検出器として適用されたＡｌｐｈａＰｏｓｅ、いくつかの実施形態による本明細書で説明する方法を使用して実行されることを示す図である。いくつかの実施形態による、フル骨格３Ｄ姿勢復元方法を実装するように構成される例示的なコンピュータ装置のブロック図である。

ニューラルネットワークの最近の進歩は、人物姿勢推定タスクにわたって著しい進歩を示してきた。姿勢推定は、単眼２Ｄ姿勢推定、マルチビュー３Ｄ姿勢推定、及び単一ビュー３Ｄ姿勢推定に分類することができ、最近、３Ｄ姿勢は、ますます注目されて、ＡＲ／ＶＲ、ゲーム及び人間コンピュータインタラクションアプリケーションに適用されるようになってきている。しかしながら、人物３Ｄ姿勢推定に関する現在の学術的ベンチマークは、それらの相対姿勢に関する性能を尊重するのみである。時間にわたるルート位置決め、換言すれば、３Ｄ空間内の全身の「軌道」が、十分によく考慮されない。モーションキャプチャなどのアプリケーションは、身体の正確な相対姿勢を必要とするだけでなく、３Ｄ空間内の全身のルート位置も必要とする。したがって、本明細書では、２Ｄ姿勢入力からの効率的な単眼フル３Ｄ姿勢復元モデルを説明し、これは、上記のアプリケーションに適用することができる。本明細書では、ルート位置推定のために時間的１Ｄ畳み込みと長・短期記憶（ＬＳＴＭ）とを組み合わせるネットワークアーキテクチャ、出力を定式化する方法、損失関数の設計、及び最新技術のモデルとの比較を説明して、アプリケーション使用のための手法の効果を示す。本明細書で説明するように、１５個及び１７個のキーポイントにおける３Ｄ姿勢推定を実行するが、これは、任意のキーポイント定義に拡張することができる。

単眼人物３Ｄ姿勢推定は、消費者生成ビデオとしてインターネットを通じて利用可能である実際の（ｉｎｔｈｅｗｉｌｄ）（例えば、制御されていない環境）ビデオに適用することができるので、研究コミュニティにおいて注目される話題として現れてきた。また、単眼設定において姿勢推定を可能にすることによって、複数のカメラの設置、及び三角測量を解決できるようにカメラを位置合わせすることをなくすことができる。単眼人物３Ｄ姿勢推定に関する最近の研究は、時間と共に著しい改善を示してきたが、複数の３Ｄ姿勢を同じ２Ｄ姿勢にマッピングすることができるので、グローバル軌道と相対姿勢とを組み合わせることは、曖昧さの性質に起因して極めて困難な問題である。また、ビデオ結果からこれらの方法を定性的に評価することは、非常に困難であり、時には性能において誤解を招くようなこともある。というのは、結果が入力画像平面上に重ねられるだけの場合、デプスの曖昧さ及びその軌道のドリフトを十分に観察できないからである。第２に、背景技術の節で述べた方法は、相対３Ｄ姿勢を評価するのみであり、この場合、相対姿勢は、固定（例えばゼロ）位置に存在すべきルートボーン（ｒｏｏｔｂｏｎｅ）として定義され、モーションにおける軌道の復元が十分に研究されなかった。最後に、上記の人物３Ｄ姿勢推定評価で使用される主なデータセットであるＨｕｍａｎ３．６Ｍは、実際の（ｉｎｔｈｅｗｉｌｄ）ビデオに適用された時に起こり得る状況をカバーするための現実世界設定が欠けている。データセットは、３×４メートルの領域内で実験室設定において取り込まれるほとんど同じカメラパラメータを含む８つのカメラを有する。したがって、通常、追加の２Ｄ姿勢データが、敵対的損失を含む半教師付き方法で使用される。

モーションキャプチャの目的で単眼人物３Ｄ姿勢推定を適用するために重要である上記の問題を解決するために、相対姿勢のための１Ｄ畳み込み及び軌道のためのＬＳＴＭと組み合わされる２Ｄ姿勢入力からの統一人物３Ｄ相対姿勢及び軌道復元ネットワークについて説明する。このモデルは、従来の最新技術の方法と比較して、パラメータサイズに関して効率的であり、また、畳み込みにわたってＬＳＴＭを使用してより安定した軌道復元が観察される。

モデルは、利用可能である場合、複数のフレームを撮影するが、ＶＰ３Ｄにおける方法のように、設計によって複数のフレームを使用することに限定されるものではない。ＶＰ３Ｄは、ＶｉｄｅｏＰｏｓｅ３Ｄを表し、「時間的畳み込み及び半教師付きトレーニングを用いたビデオにおける３Ｄ人物姿勢推定（３ＤＨｕｍａｎＰｏｓｅＥｓｔｉｍａｔｉｏｎｉｎＶｉｄｅｏｗｉｔｈＴｅｍｐｏｒａｌＣｏｎｖｏｌｕｔｉｏｎｓａｎｄＳｅｍｉ－ＳｕｐｅｒｖｉｓｅｄＴｒａｉｎｉｎｇ）」（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｆａｃｅｂｏｏｋｒｅｓｅａｒｃｈ／ＶｉｄｅｏＰｏｓｅ３Ｄ）からのものである。ＶＰ３Ｄ方法は、２４３フレームの入力でその最良の性能を達成するが、本明細書で説明するモデルは、１フレーム入力でも作動する。これは、処理するために入力すべき任意の数のフレームを適用したいと望む時に重要である。数ミリメートルの差の相対姿勢の精度にするのではなく、有用性により多くの価値を置く。

統一ネットワークにおいて同時にルート位置及び相対姿勢を回帰するために、正則化の目的のために、キネマティックチェーン空間（ＫＣＳ）を使用する。正則化を使用する代わりに、ボーン単位ベクトル及びボーン長を直接推定し、各損失を別個に適用して、入力フレームにわたってボーン長の一貫性を実施する。どのボーン長も、｛０，１｝範囲内であると仮定され、人間の骨は、長さが１メートルを超えないと仮定される。更に、ルート位置に符号化／復号スキームなどのｔａｎｈを適用して、ネットワークパラメータを同じダイナミックレンジ内にすることができるようにする。

Ｈｕｍａｎ３．６Ｍデータセットは、３Ｄ空間及びアクションにおけるカバレッジに関して小さいので、グローバル位置及び回転に自動拡張を適用して、後ろ宙返り又は腕立て側転などの動的モーションをシミュレートする。各バッチサンプルに対してカメラ視野をランダムに変更して、予測に対して所与のカメラパラメータを条件とするべきである場合に、異なるカメラパラメータを含む任意のビデオを推定できるようにする。２Ｄ姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、２Ｄ姿勢の摂動を実行して、２Ｄ姿勢予測のノイズ及び遮蔽状況をシミュレートする。これは、モーションキャプチャデータのみを使用することを可能にし、この場合、敵対的モジュール又は損失が発生せず、したがって、準備及びトレーニング時間がより短い。Ｈｕｍａｎ３．６Ｍデータは、本明細書で説明する方法及びシステムと共に使用すべき例示的なデータセットにすぎず、任意の方法で限定的であることを意図するものではない。任意の３Ｄ人物モーションキャプチャデータセットを、本明細書で説明する方法及びシステムと共に使用することができる。

図１に、いくつかの実施形態による、実際の（ｉｎｔｈｅｗｉｌｄ）（例えば、制御されていない変数／環境を含む）ビデオ上のモデル出力の可視化を示す。図１において、列（ａ）は、２Ｄ姿勢推定を含むビデオフレームを示し、列（ｂ）は、Ｘ－Ｙ平面３Ｄ姿勢を示し、列（ｃ）は、Ｘ－Ｚ平面３Ｄ姿勢を示す。３Ｄプロット上の赤い線（概して人物の背中及び頭部を通る線）は、グローバル軌道を示す。モデルは、動的モーションにおいて安定したｚ位置を含む軌道を出力することができる。カメラ座標の詳細な定義については、図５を参照。

本明細書で説明するモデルは、図２に示すように、デプスの曖昧さを克服する。図２の上の行は、人物３Ｄ姿勢予測のカメラ平面投影を示す。下の行は、再構成の側面図を示す。人物がカメラに平行に移動しているだけでも、特にデプス方向の全身がよく推定されない。

単眼人物３Ｄ姿勢推定方法は、２つのカテゴリ、すなわち、メッシュベースの方法及び２Ｄリフティング方法に大別することができる。

メッシュベースの方法
メッシュベースの手法は、人物メッシュなどの従来のモデルを使用して、姿勢だけでなくスキンも復元して、画像平面にフィッティングする。具体的には、メッシュベースの方法は、結果が画像平面に重ねられる場合、ある程度良好な結果を示すが、図２の側面図などの異なる観点から見ると、不安定な軌道トレースが見える。これは、単眼方法が欠点としてもつ非常に曖昧な問題の性質から生じるものである。人物の従来のモデルを使用することによって問題空間をより小さくするようにしても、問題はまだよく解決されない。

２Ｄリフティング方法
他のカテゴリは、単眼人物３Ｄ骨格姿勢であり、この場合、モデルへの入力は、よく確立された人物２Ｄ姿勢検出器によって予測される２Ｄ姿勢である。時間的次元に沿って安定させるために、いくつかの実装は、ＬＳＴＭシーケンス間の手法を使用した。しかしながら、それらの手法は、全てのフレームを固定長に符号化することを含む。ＶＰ３Ｄは、時間次元にわたって１Ｄ畳み込みを実行することによって時間情報を活用する。ＶＰ３Ｄもネットワークを２つに分割し、この場合、相対姿勢及び軌道推定ネットワークを分離して、共同でトレーニングする。しかしながら、相対姿勢及び軌道のためのネットワークは、１６Ｍパラメータずつ使用し、フル姿勢推定のためには３２Ｍパラメータである。また、２４３フレームの入力も使用して、最良の性能を得るが、Ｈｕｍａｎ３．６Ｍの限定されたカメラ構成に起因して、トレーニングデータとは異なるカメラパラメータを有するビデオ上でよく作動しない。

キネマティックチェーン空間
キネマティックチェーン空間（ＫＣＳ）を使用して、姿勢をボーンベクトル及びその長さに分解することができる。直交座標において相対姿勢を推定する代わりに、ＫＣＳを使用する考えに従った。本明細書で説明するモデルは、最適化においてＫＣＳを利用する方法に関して異なる。ＫＣＳを使用して、相対姿勢をＫＣＳにマッピングし、敵対的損失を正則化項として使用して半教師付き方法でモデルをトレーニングするようにした。上記とは異なり、本明細書で説明する方法は、正規化された空間内に存在するボーンベクトル及びボーン長を直接回帰する。

本明細書では、入力及び出力の定義、データセット、及び拡張、ネットワーク設計及び損失定式化をどのように実行するかについて説明する。

入力
本明細書で説明する２Ｄ姿勢リフティング方法と同様のスキームに従い、この場合、任意の２Ｄ姿勢検出器から２Ｄ姿勢を推定することができる。例えば、ＡｌｐｈａＰｏｓｅを使用することができる。図４に示すように、２Ｄ姿勢検出器は、例えば、１７から２５の種々様々なキーポイントを出力し、Ｈｕｍａｎ３．６Ｍは、１７個のキーポイントを使用する（３２の定義の中から１７個が移動可能）。本明細書で説明するモデルを任意の２Ｄ姿勢検出器上で作動させるために、最も多く交差する１５個のキーポイントが定義されて、これらは、評価のためにＨｕｍａｎ３．６Ｍデータ（又は他のデータ）を使用することができる。入力として、ＵＶ正規化２Ｄ座標を使用し、ここで、ｕ ∈ ｛０，１｝である。また、２Ｄ姿勢検出器は、遮蔽に起因して、特定のキーポイントを検出することができない場合も多い。それらのために、値をゼロに設定する。入力として、カメラ焦点距離も使用する。単眼人物３Ｄ姿勢推定方法は、Ｈｕｍａｎ３．６Ｍ及びＨｕｍａｎ－Ｅｖａを使用するが、これらのデータセットのうちのいずれも、種々様々なカメラ設定を有さず、モデルを適用して、２Ｄアノテーションを使用して半教師付きトレーニングを適用することによって、実際の（ｉｎｔｈｅｗｉｌｄ）ビデオ及び画像上で作動する試みがある。カメラパラメータを推定して再投影誤差を計算することが可能であるが、カメラパラメータは、依然として、姿勢発生ネットワークを通じて暗黙的にモデル化される。代わりに、本明細書で説明するネットワークは、２Ｄ姿勢入力及びカメラ焦点距離を条件としてモデル化される。焦点距離は、任意のカメラをサポートするために非常に重要なキュー（ｑｕｅｕｅ）である。図３に示すように、カメラの異なる視野（ＦＯＶ）は、３Ｄ空間において同じ相対姿勢及びルート位置でも、２Ｄ姿勢外観をかなり異ならせる。本明細書で説明するように、主点を含む透視投影カメラが画像の中心に存在し、レンズ歪みは考慮されないと仮定する。

図３に、異なるＦＯＶでＵＶに再投影される同じ３Ｄ姿勢を示す。図（ａ）は６０°のＦＯＶであり、図（ｂ）は９０°のＦＯＶであり、図（ｃ）は１２０°のＦＯＶである。カメラパラメータは、実際の（ｉｎｔｈｅｗｉｌｄ）撮影されるクリップの各々において異なることができる。

図４に、キーポイント定義の変化を示す。画像（ａ）は、１７個のポイントを含むＭＳＣＯＣＯである。画像（ｂ）は、１８個のポイントを含むＯｐｅｎＰｏｓｅである。画像（ｃ）は、２５個のポイントを含むＯｐｅｎＰｏｓｅである。画像（ｄ）は、１７個のポイントを含むＨｕｍａｎ３．６である（３２個の中から１７個が移動可能）。画像（ｅ）は、１５個のポイントの定義を含む、本明細書で説明する方法である。線は、各定義における標準骨格ペアである。

出力及びキネマティックチェーン空間
ネットワーク出力は、身体のルート位置と相対姿勢との組み合わせとして定義される。ルート位置は、通常、骨盤のキーポイントにおいて定義される。相対姿勢は、ルート位置に対する他のボーンの３Ｄ位置として定義される。図４の画像（ｅ）は、１５個のキーポイントの定義を示し、ここで、０は骨盤であり、ルート位置として使用され、その他は、ルートに対する相対位置として推定される。図５は、本明細書で説明するような３Ｄ空間の定義を示す。図５に、いくつかの実施形態による、本明細書で説明する設計の３Ｄカメラ座標を示す。図３は、異なるＦＯＶでのこの姿勢の２Ｄ投影を示す。相対姿勢及びルート位置は、カメラ座標において推定される。更に、ＫＣＳを利用して、相対姿勢をボーンベクトル及びその長さに分解する。キネマティックチェーンのｉ番目の関節は、この関節の位置のｘ，ｙ，ｚ座標を含むベクトル

によって定義される。ｊ個の関節ベクトルを連結することによって、次式のように、キネマティックチェーンの相対姿勢Ｐ_rを表す行列を構築することができる。
Ｐ_r ＝（ｐ₁，ｐ₂，．．．，ｐ_j）（１）
全身姿勢Ｐは、次式として表される。
Ｐ＝（ｐ₀，ｐ₀，．．．，ｐ_r）（２）
ここで、ｐ₀はルート位置であり、相対姿勢は、ルート姿勢を減算することによって導出される。ｋ番目のボーンｂ_kは、次式のように、ｒ番目及びｔ番目の関節の間のベクトルとして定義される。
ｂ_k ＝ｐ_r －ｐ_t ＝Ｐ_rj ｄ_k，（３）
ここで、

位置ｒにおいて１及び位置ｔにおいて－１である。ｄは、ｒ番目及びｔ番目の関節のためのマッピングベクトルであり、全関節にわたって連結することによって、全体のマッピング行列Ｄは、

として表される。式（１）と同様に、行列

は、次式のように、全てのｂ個のボーンを含む行列として定義することができる。
Ｂ＝（ｂ₁，ｂ₂，．．．，ｂ_b）；（５）
ここで、行列Ｂは、次式によってＰから計算される。
Ｂ＝Ｐ_rＤ．（６）
Ｄと類似して、次式のように、ＢをＰ_rにマッピングする行列

を定義することができる。
Ｐ_r ＝ＢＥ．（７）
次に、ネットワークは、マッピング関数を学習することができる。

ここで、２Ｄ姿勢ｕ及びカメラパラメータｃは入力であり、出力は、ルート位置

ボーン長

及びその単位ベクトル

を推定するためのものである。θはネットワークパラメータを含む。ボーンベクトルｂを直接推定しない理由は、出力を正規化された空間に存在させるためである。各ボーン長は、｜｜ｂ_k｜｜ ∈ ｛０，１｝に従い、いくつかの実施形態では、決して１ｍを超えないと仮定される。＾記号を含む任意の記号は予測であり、＾記号を含まない記号はｇｒｏｕｎｄｔｒｕｔｈｓ（例えばラベル）であり、予測がトゥルース（ｔｒｕｔｈ）からどのくらい離れているか損失を定義する。

ｔａｎｈ形式を使用して、正規化された空間において、ルート位置

を符号化及び復号する。次いで後に、それを実際の値に復号する。符号化公式は、次式の通りである。

復号は次式として形成される。

ここで、β及びεは一定値である。

を使用する。図６に、正規化された空間においてどのように値を符号化するかを示す。図６は、ルート位置の符号化及び復号を示す。それは、カメラの近くの距離に対してより大きい粒度を与え、２０ｍで飽和する。ｚ軸の値は非負である。

この正規化は非常に重要である。というのは、多くの姿勢回帰モデルは、出力空間及びパラメータ空間をどのようにモデル化すべきかをよく考慮していないからである。ＶＰ３Ｄは、ルート位置における重み付き損失を含む２つの離散ネットワークを用いて、ルート位置及び相対姿勢を同時に推定することを提案しており、この場合、遠く離れたルート位置における損失は、より小さい重みを有する。本明細書で説明する方法は、符号化された空間において粒度を形成することを含み、パラメータ空間をその内部に入れる。これは、エンドツーエンドトレーニング方法で、ルート位置のためだけでなく、同時にボーンベクトルのためにも、勾配を伝搬してパラメータを更新するために重要である。

データセット及び拡張
多くの方法が実際の（ｉｎｔｈｅｗｉｌｄ）ビデオ及び画像上でよく一般化するために採用する半教師付き方法で２Ｄ姿勢アノテーションを使用する代わりに、本明細書で説明するモデルは、単にモーションキャプチャデータからトレーニングされる。純粋な学術的態様では、初期実験のためにＨｕｍａｎ３．６Ｍを使用し、商業目的のためには、ソニー・インタラクティブエンタテインメント・インコーポレイテッド（ＳＩＥ）によって提供されるモーションキャプチャデータを使用する。しかしながら、モーションキャプチャデータは、小さすぎて、現実世界シナリオをカバーできない場合がある。この問題を解決するために、トレーニングデータにおいて、いくつかの拡張及び摂動を自動的に使用する。

アルゴリズム１は、拡張のための簡略化された擬似コードである。全体のデータセットＰが与えられると、各バッチサンプルｐ ⊂ Ｐは、Ｔの長さを有する時間フレームを含み、これは、ｐ_t ∈ ｐ，ｔ＝（０，１，．．．，Ｔ）である。ＦＯＶをランダムに選び、ビューポート内に姿勢軌道をフィッティングして、カメラビューから見えない姿勢がないようにする。また、軌道分散を解析することによって、シーケンスｐにおける宙返りモーションをランダムに行って、後ろ宙返り又は腕立て側転タイプのモーションをシミュレートする。図７に、元のＨｕｍａｎ３．６Ｍのルート位置の分布と、本明細書で説明するようなデータ拡張の後の分布とを示し、本明細書で説明する実装は、もっと広い位置分布を有し、データセットを現実世界シナリオにより適したものにする。

図７に、いくつかの実施形態による、カメラ座標におけるＸ－Ｚ及びＺ－Ｙ平面内のルート位置の分布を示す。画像（ａ）は、元のＨｕｍａｎ３．６Ｍであり、画像（ｂ）は、本明細書で説明する拡張である。

更に、トレーニングフェーズにおいて、入力に対して、２Ｄキーポイントドロップ及び摂動を使用する。データサンプリング中に、透視投影を使用して、３Ｄ姿勢を２Ｄに投影する。しかしながら、２Ｄ姿勢検出器は、ノイズを有し、遮蔽に起因して検出しそこなう傾向がある。ＶＰ３Ｄなどの方法は、ノイズを含む２Ｄ入力として、２Ｄ検出器の結果を使用して、ノイズプルーフになるようにモデルをトレーニングする。代わりに、本明細書で説明するように、ガウスノイズを使用して、かつキーポイントをランダムにドロップして、２Ｄ投影されたキーポイントを摂動させて、遮蔽シナリオをシミュレートする。ガウス半径は、ＵＶ空間内の身体のサイズに応じて適応的である。「ドロップ」としてマーク付けされる全てのキーポイントは、ゼロに設定される。図８に、入力に対する摂動及びキーポイントドロップを示す。図（ａ）は、元のクリーンな２Ｄ姿勢であり、図（ｂ）～（ｄ）は、ランダムドロップ及び摂動が適用されたノイズの多い２Ｄ姿勢である。

ネットワークの詳細
式（８）に示すように、入力２Ｄ姿勢ｕ及びカメラパラメータｃが与えられたマッピング関数を学習して、ルート位置

ボーン長

及びその単位ベクトル

を出力することが目標である。そのために、１Ｄ畳み込み及びＬＳＴＭを一緒に使用して、シーケンスの安定した予測を達成する。図９に、いくつかの実施形態による、本明細書で説明するようなネットワークの簡略化されたブロック図を示す。ルート位置のためにＬＳＴＭを使用する理由は、ＫＣＳ空間の相対姿勢推定と同様に、３のカーネルサイズを有する１Ｄ畳み込みが実験されたからである。しかしながら、それは、特にｚ軸上の安定性が悪く、これは、単眼３Ｄ姿勢推定の共通の問題である。この理由は、たとえ時間損失関数が適用されても、１Ｄ畳み込みは、直前の時間ｔ－１を条件として、時間ｔにおいて出力を推定する保証がないからであると仮定される。しかしながら、ＬＳＴＭは、直前の時間の特徴を現在の特徴に渡すことができ、これにより、全体のルート位置推定を安定させる。

５１２及び１０２４の特徴マップを含む入力ｕに対して、１のカーネルサイズを有する１Ｄ畳み込みを含む４つのスタック残差接続を含む２つの特徴抽出ブロックが存在する。ここで、カーネルサイズ１の１Ｄ畳み込みは、全ての時間フレームが離散的な方法で取り扱われることを含み、したがって、各時間フレームにおいて特徴空間をマッピングする。次に、畳み込みに対するエッジパディングを用いて、３のカーネルサイズを有する１Ｄ畳み込みと各ブロックの出力をカスケード接続する。３のカーネルサイズを有する１Ｄ畳み込みを使用して、隣接するフレームを集約する。３のカーネルサイズを有する全ての畳み込みのために適用されるエッジパディングは、Ｎ個のフレームから１つのフレームしか出力されないＶＰ３Ｄ（１つのフレーム出力に対して２４３フレームが、ＶＰ３Ｄの最良モデルである）とは異なり、フレームの出力数を入力フレームと同等にする。カスケード順序は、最初にボーン長を予測し、次にそれを条件として、ボーン単位ベクトルを予測し、最後にルート位置を予測するように設計された。再び、１のカーネルサイズを有する畳み込みを用いて、各出力を特徴空間にマッピングし、次に、より早い段階で抽出された特徴と連結して、次に続く予測を推定する。これは、人物が、まず被験者の周囲のコンテキストを用いて全体の被験者サイズを推定することによって、どのように被験者の距離を直観的に推定するかということに起因する。ボーン単位ベクトル及びルート位置を用いてボーン長のための最初の特徴抽出ブロックを分離することによって、より良好な精度が得られることが分かった。ＬＳＴＭブロックは、１２８の隠しユニット（ｈｉｄｄｅｎｕｎｉｔｓ）を含む２つの繰り返される層を有し、１方向である。いくつかの実施形態では、全ての活性化関数は、ＰａｒａｍｅｔｒｉｃＲｅＬＵを使用する。

損失定式化
本明細書では、損失定式化を説明する。まず、大抵は、次式のように、出力の各々にＬ２ロスを適用する。

ここで、Ｂは、ボーン長｜｜Ｂ｜｜とその単位ベクトル

との組み合わせである。更に、相対姿勢Ｐ_rのために項が追加され、これは、式（７）によって導出することができ、ボーン長及びベクトルに対してより大きい重みを追加することを含む。ｐ₀項は、ｚ軸上にｘ２振幅を含むｓｍｏｏｔｈＬ１ｌｏｓｓを含む符号化された空間及び復号された空間の両方におけるルート位置のためのものである。ルート位置のためにｓｍｏｏｔｈＬ１を適用する理由は、復号された空間上の損失は大きく、大きい誤差を有することによって、他の損失範囲に影響を及ぼす場合があるからである。符号化された空間のみに損失を適用することは行わず、符号化された空間及び復号された空間の両方に対して損失を実行する。更に、次式のように、ボーンＢ及びルート位置ｐ₀に対して、時間項を追加する。

ここで、ボーン長が時間と共に変化しないことに起因して、Δ｜｜Ｂ｜｜上の第１項はゼロである。これにより、ボーン長が時間フレームにわたって一貫するようにする。ルート位置のために、隣接するフレームのデルタだけでなく、最大３番目の隣接順序及び最大２番目の時間導関数も使用する。時間差分を使用して、フレーム間の相対モーションを正則化するので、ルート位置が依然としてオフセット誤差を有する場合があっても、小さい損失に収束することができる。しかしながら、これは、特にモーションキャプチャシナリオにとって、軌道トレースに関して重要である。次式のように、２Ｄ再投影誤差を適用する。

留意点として、このｕは、上記の摂動の後の２Ｄ姿勢入力ではなく、ｇｒｏｕｎｄｔｒｕｔｈの３Ｄ姿勢のクリーンな２Ｄ投影である。予測

は、予測された３Ｄ姿勢

から導出される。最後に、次式のように、全損失が与えられる。

ここで、各損失を等しく加算する。

実験評価
データセット及び評価
Ｈｕｍａｎ３．６Ｍは、１１人の被験者の３６０万のビデオフレームを含み、７人の被験者は、３Ｄ姿勢でアノテートされる。他の方法として同じルールに従い、トレーニングのための５人の被験者（Ｓ１、Ｓ５、Ｓ６、Ｓ７、Ｓ８）と、評価のための２人の被験者（Ｓ９及びＳ１１）とに分割する。各被験者は１５のモーションを行い、５０Ｈｚで同期させた４つのカメラを使用して記録する。予測された関節位置とｇｒｏｕｎｄ－ｔｒｕｔｈの関節位置との間の平均ユークリッド距離であるＭｅａｎｐｅｒ－ｊｏｉｎｔｐｏｓｉｔｉｏｎｅｒｒｏｒ（ＭＰＪＰＥ）（単位：ミリメートル）を使用する。しかし、ＭＰＪＰＥを集約する方法にわずかな変更が行われ、全てのアクションが平均化されず、一度に全てのアクションを取り扱う。ルート位置のために、平均位置誤差（ＭＰＥ）を評価し、これも、評価データ全体にわたる平均ユークリッド距離である。本明細書で説明する拡張を含む１５個のキーポイント及び１７個のキーポイントの定義を用いて、Ｈｕｍａｎ３．６Ｍを評価する。トレーニングデータに対してノイズ及びキーポイントドロップを追加するために、及び評価セットのためにカメラ及び位置拡張と共に使用するために、摂動を適用するにすぎない。図４に、キーポイントの差を示す。

図９に、いくつかの実施形態による、本明細書で説明するモデルの簡略化されたブロック図を示す。本明細書で述べるように、ＫＣＳを含まないアブレーションモデルの変形例は、ｘＢ１及びｘＢ２のブロックを１つに結合して、ユークリッド空間内の相対姿勢を直接推定し、ｘＰをＬＳＴＭから１Ｄ畳み込みに置き換えるＬＳＴＭモデルはない。

ステップ９００において、カメラパラメータ（例えば、２Ｄ空間内のｘ及びｙを含む焦点距離）をネットワークに供給して、ネットワークがカメラの状態を出力できるようにする。ネットワークは、２Ｄ姿勢も受け取る。２Ｄ姿勢は、任意の画像又はビデオからのものとすることができる。

ステップ９０２において、フレーム毎に、本明細書で説明するような特徴抽出を適用する。特徴抽出は、任意の方法で実装することができる。特徴抽出は、１Ｄ畳み込みを含む残差決定を含む。更に、いくつかの実施形態では、連結の後に、パディングされた１Ｄ畳み込みを実装する。ステップ９０４において、本明細書で説明するように、ボーン長を推定する。ステップ９０６において、ボーン長を条件とする特徴抽出に基づいて、ボーン単位ベクトルを推定することができる。ステップ９０８において、ボーン長及びボーン単位ベクトルから相対姿勢を推定し、ボーン長及びボーン単位ベクトルを条件とする特徴抽出に基づいて、ルート位置を導出する。いくつかの実施形態では、ルート姿勢の推定において、カメラパラメータを利用する。ＬＳＴＭを利用して、ルート位置を推定してルート位置を安定させることを助けることができる。

いくつかの実施形態では、より少ない又は追加のステップを実装することができる。いくつかの実施形態では、ステップの順序が変更される。

ネットワークの変形例
アブレーション研究のためのルート姿勢のために、ＫＣＳを含むモデル及び含まないモデルと、ＬＳＴＭを含むモデル及び含まないモデルとに対して、実験を行った。ＫＣＳを含まないモデルは、３のカーネルサイズを有する１Ｄ畳み込みブロックを使用して、ユークリッド空間において相対姿勢を直接回帰し、その後に最後に１のカーネルサイズを有する１Ｄ畳み込みで、出力寸法がキーポイントの数×３になるようにする。同様に、ＬＳＴＭを含まないモデルは、１Ｄ畳み込みを使用して、ルート姿勢を回帰する。同じトレーニング手順の下で、全てのモデルをトレーニングする。他の方法との比較のために、本明細書で説明する方法を、現在の最新技術の方法ＶＰ３Ｄと比較する。

トレーニング
オプティマイザのために、重み減衰がゼロに設定されたＡｄａｍを、１００エポックにわたって使用してトレーニングする。第１のエポックの学習率ウォームアップを含む１ｅ^-3から開始して、係数が１０エポック毎に０．５である学習率に、指数関数的減衰を適用する。１２１のフレーム入力を含む１９２のバッチサイズを使用し、バッチサンプリング時のＨｕｍａｎ３．６Ｍの５０Ｈｚのサンプリングされたフレームの１（スキップなし）から５に、フレームをランダムにスキップする。これは、実際の（ｉｎｔｈｅｗｉｌｄ）ビデオのフレームレートの変動に対してモデルをロバストにするためである。ＶＰ３Ｄが２４３フレームの入力のみを受け入れることを除いて、本明細書で説明するモデルと同じストラテジでＶＰ３Ｄを再トレーニングし、したがって、ＶＰ３Ｄのために、１２１フレームの代わりに、２４３フレームの入力を使用した。バッチ正規化に対して減衰を有することも、ＶＰ３Ｄで提案されるように０．９５の減衰を有するＡｍｓｇｒａｄを使用することも、全てのモデルについて、上記のトレーニング手順よりも悪い性能を示さなかった。

図１０に、いくつかの実施形態による、対象に対するルート位置予測の可視化を示す図である。軸Ｚは、他の軸と比較してより大きい誤差を有し、また、遠く離れた人物についてもより大きい誤差を有する。

評価及びアブレーション研究
図１１に、Ｈｕｍａｎ３．６Ｍに本明細書で説明するデータ拡張スキームを加えた結果の表を示し、この場合、カメラＦＯＶは変化し、ルート位置においてもっと広い分布を有する。代替方法のいずれもルート位置推定を提供しないので、相対姿勢ＭＰＪＰＥの正確な比較が存在する。また、ＶＰ３Ｄは、２４３フレームを使用して１フレームを推定し、一方、本明細書で説明するモデルは、１２１フレームを用いてトレーニングされる。本明細書で説明するモデルは任意のフレームサイズをとることができるが、等しい条件の下で比較を行うために、２４３フレームの入力において評価を実行し、中間のフレーム（１２１番目のフレーム）について評価する。２つの変形例が存在し、１つはＫＣＳが適用されたもの、１つは直接相対姿勢推定を含むものである。ＫＣＳを含む本明細書で説明するモデルは、はるかに少ないパラメータを含むＭＰＪＰＥよりも良好に実行する。これは、キューを有することなく、カメラパラメータ差分を暗黙的に推論することが可能ではない場合があることを示す。また、変形例を調べることによって、ＫＣＳ方法は、相対姿勢の直接推定に対して著しい利点を示す。ルート位置決めブロックも両方の方法において同等であることに留意することも興味深い。ＭＰＥ性能は、差を示した。トレーニング曲線及び検証誤差を調べることによって、現在の仮定は、ルート位置決め性能の変動が依然としてあることである。

ルート位置誤差であるＭＰＥは、約２０ｃｍの大きい誤差を有するように依然として思われる。これは、単眼からの、特に２Ｄ姿勢入力のみからの不確定なデプスを解決するための困難が依然としてあることを示す。図１０は、１５個のキーポイントの姿勢モデルにおける全体の投影誤差を示す。Ｘ及びＹは、対象への非常に良好なフィットを示すが、Ｚは、対象が遠くなるにつれて誤差を示し、また、近い距離における何らかの大きい誤差も示す。近い距離の大きい誤差は、主に、被験者がカメラに近すぎるために、全身が見えない（例えば、身体が部分的に見える）ことによるものであるが、それらの場合は、現実世界シナリオにおいて起こる。実験は、ＭＰＥを改善する余地がたくさんあることを示すが、全体の軌道トレースを観察し、これは、モーションキャプチャシナリオのために重要である。

ＬＳＴＭを含まないモデルは、ＬＳＴＭモデルと同等な又はより良好なＭＰＥを示す。モーショントレースを比較するために、別の評価を実行し、ＶＰ３Ｄと位置合わせするための１つの中間フレームの入力を撮影する代わりに、全ての出力フレームを使用する。これを用いて、式（１２）の第２項として定義される平均軌道誤差を調べると、ＬＳＴＭバージョンは、図１２に示すように、より良好な軌道性能を示す。モデルパラメータをダウンサイジングしようと試みる時に、差がより著しくなり得る。図１３は、ルート姿勢推定のために１Ｄ畳み込みに対してＬＳＴＭを含む、本明細書で説明するモデルのコンパクトバージョンに適用される後ろ宙返りシーケンスを示す。１Ｄ畳み込みは、特にＺ軸上の大きいドリフトを推定し、これは、モーション復元のために重要である。図１３に、ＬＳＴＭ及び１Ｄ畳み込みを使用してモデルを比較するためのサンプルシーケンスにおけるＺ軸ルート位置トレースの可視化を示す。１Ｄ畳み込みは、特に動的モーションにおいて大きいトレース誤差を有する傾向がある。

図１４Ａ及び図１４Ｂに、ＹｏｕＴｕｂｅからの後ろ宙返りビデオ及び２Ｄ姿勢検出器として適用されたＡｌｐｈａＰｏｓｅ、本明細書で説明する方法を使用して実行されることを示す。Ｘ－Ｚ平面再投影上に示すように、モーション自体が非常に動的であり、２Ｄ姿勢検出器において多くの遮蔽及び誤差を有するにもかかわらず、Ｚ軸上の全体のルート位置は、非常に安定している。図１４Ａ及び図１４Ｂは、実際の（ｉｎｔｈｅｗｉｌｄ）ビデオ上の本明細書で説明するモデルの出力の可視化を示し、これらは、各グループが４つのフレームを示すグループ化された２列に配置される。左から、２Ｄ姿勢推定を含むビデオフレーム、Ｘ－Ｙ平面３Ｄ姿勢、Ｘ－Ｚ平面３Ｄ姿勢である。３Ｄプロット上の赤い線は、グローバル軌道を示す。本明細書で説明するモデルは、動的モーションにおいて安定したｚ位置を含む軌道を出力することができる。上記の６番目のフレームは、２Ｄ姿勢検出結果において大きい誤差を有する。

結論
本明細書で説明する方法は、単眼カメラからのフル骨格３Ｄ姿勢復元を可能にし、フル骨格は、３Ｄにおけるルート位置及び相対姿勢の両方を含む。モデルは、学術的世界における現在の最新技術に対する著しい利点を観察して、様々なＦＯＶ、及びモーションキャプチャデータのみを用いてトレーニングされる後ろ宙返りなどの動的モーションをカバーした。大きいネットワークを粗暴に（ｂｒｕｔａｌｌｙ）モデル化して値を回帰する代わりに、モデルを人間の知覚に基づかせて、本明細書で説明するＫＣＳの利用及び正規化された空間においてモデルを形成することは、より良好な性能をもたらす。

本明細書で説明する方法は、ＵＶ空間において正規化される２Ｄ姿勢入力及び基本カメラパラメータのみを、入力とする。非常に小さい分布を用いて、ボーン長推定をトレーニングし、ＲＧＢ画像などの他のキュー（例えば外観特徴）のサポートなしで、真のボーン長を推定することは非常に困難である。２Ｄボーン長の割合からボーン長を導出することができ、子供は、腕の骨よりも長い胴体を有する傾向があるという仮説を立てた。周囲ののコンテキストに基づいて、人物の身長を大まかに推定することが可能である。ゲームエンジン（例えばＵｎｒｅａｌＥｎｇｉｎｅ）を利用して、関連する３Ｄジオメトリを含む画像をレンダリングし、画像からの人物３Ｄ姿勢のエンドツーエンド推定を実行することができる。２Ｄアノテーションを用いて半教師付きトレーニングを行うことを可能にする元の敵対的モジュールを構築した。

図１５に、いくつかの実施形態によるフル骨格３Ｄ姿勢復元方法を実装するように構成される例示的なコンピュータ装置のブロック図を示す。コンピュータ装置１５００を使用して、画像及びビデオなどの情報を、取得、記憶、計算、処理、通信及び／又は表示することができる。コンピュータ装置１５００は、フル骨格３Ｄ姿勢復元の態様のいずれかを実装することができる。一般に、コンピュータ装置１５００を実装するのに適したハードウェア構造は、ネットワークインターフェイス１５０２、メモリ１５０４、プロセッサ１５０６、Ｉ／Ｏデバイス１５０８、バス１５１０、及び記憶装置１５１２を含む。プロセッサの選択は、十分な速度を有する好適なプロセッサが選ばれる限り重要ではない。メモリ１５０４は、当該技術分野で公知の任意の従来のコンピュータメモリとすることができる。記憶装置１５１２は、ハードドライブ、ＣＤＲＯＭ、ＣＤＲＷ、ＤＶＤ、ＤＶＤＲＷ、高精細ディスク／ドライブ、超高精細ドライブ、フラッシュメモリカード又は他の任意の記憶装置を含むことができる。コンピュータ装置１５００は、１又は２以上のネットワークインターフェイス１５０２を含むことができる。ネットワークインターフェイスの一例は、イーサネット又は他のタイプのＬＡＮに接続されるネットワークカードを含む。Ｉ／Ｏデバイス１５０８は、以下のもの、すなわち、キーボード、マウス、モニタ、スクリーン、プリンタ、モデム、タッチスクリーン、ボタンインターフェイス及び他のデバイスのうちの１又は２以上を含むことができる。フル骨格３Ｄ姿勢復元方法を実装するのに使用されるフル骨格３Ｄ姿勢復元アプリケーション１５３０は、記憶装置１５１２及びメモリ１５０４に記憶されて、アプリケーションが通常処理されるように処理される可能性が高い。コンピュータ装置１５００は、図１５に示すより多い又は少ない構成要素を含むことができる。いくつかの実施形態では、フル骨格３Ｄ姿勢復元ハードウェア１５２０が含まれる。図１５のコンピュータ装置１５００は、フル骨格３Ｄ姿勢復元方法のためのアプリケーション１５３０及びハードウェア１５２０を含むが、フル骨格３Ｄ姿勢復元方法は、コンピュータ装置に、ハードウェア、ファームウェア、ソフトウェア又はそれらの任意の組み合わせとして実装することができる。例えば、いくつかの実施形態では、フル骨格３Ｄ姿勢復元アプリケーション１５３０は、メモリにプログラムされて、プロセッサを使用して実行される。別の例では、いくつかの実施形態では、フル骨格３Ｄ姿勢復元ハードウェア１５２０は、フル骨格３Ｄ姿勢復元方法を実装するように専用に設計されるゲートを含む、プログラムされたハードウェアロジックである。

いくつかの実施形態では、フル骨格３Ｄ姿勢復元アプリケーション１５３０は、いくつかのアプリケーション及び／又はモジュールを含む。いくつかの実施形態では、モジュールは、１又は２以上のサブモジュールも含む。いくつかの実施形態では、より少ない又は追加のモジュールを含むことができる。

好適なコンピュータ装置の例は、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ電話／携帯電話、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き携帯電話、スマートフォン、携帯音楽プレーヤー、タブレットコンピュータ、移動体デバイス、ビデオプレーヤー、ビデオディスクライター／プレーヤー（例えば、ＤＶＤライター／プレーヤー、高精細ディスクライター／プレーヤー、超高精細ディスクライター／プレーヤー）、テレビジョン、家庭用娯楽システム、拡張現実デバイス、仮想現実デバイス、スマートジュエリー（例えば、スマートウォッチ）、車両（例えば、自動運転車両）又は他の任意の好適なコンピュータ装置を含む。

本明細書で説明するフル骨格３Ｄ姿勢復元方法を利用するために、デジタルカメラ／カムコーダなどの装置を使用して、コンテンツを取得する。フル骨格３Ｄ姿勢復元方法は、ユーザの援助によって又はユーザが関与することなく自動的に実装されて、姿勢推定を実行することができる。

動作時、フル骨格３Ｄ姿勢復元方法は、より正確で効率的な姿勢推定実装を提供する。結果は、従来の実装と比較して、はるかに良好な姿勢推定が行われることを示す。

単眼カメラからのフル骨格３Ｄ姿勢復元のいくつかの実施形態
１．方法であって、
カメラ情報を受け取るステップであって、前記カメラ情報は、２次元姿勢と、焦点距離を含むカメラパラメータとを含む、ステップと、
前記カメラ情報に特徴抽出を適用するステップであって、前記特徴抽出は、１次元畳み込みを含む残差決定を含む、ステップと、
前記特徴抽出に基づいて、ボーン長を推定するステップと、
前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定するステップと、
前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置（ｒｏｏｔｐｏｓｉｔｉｏｎｓ）を導出するステップと、
を含む方法。

２．入力として１又は２以上のフレームを受け取るステップを更に含む、第１項に記載の方法。

３．どのボーン長も、長さが１メートルを超えないと仮定される、第１項に記載の方法。

４．長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる、第１項に記載の方法。

５．グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするステップを更に含む、第１項に記載の方法。

６．各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するステップを更に含む、第１項に記載の方法。

７．２次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップ（ｒａｎｄｏｍｋｅｙｐｏｉｎｔｄｒｏｐ）を用いて、２次元姿勢の摂動（ｐｅｒｔｕｒｂａｔｉｏｎ）を実行して、２次元姿勢予測のノイズ及び遮蔽（ｏｃｃｌｕｓｉｏｎ）状況をシミュレートするステップを更に含む、第１項に記載の方法。

８．装置であって、
カメラ情報を受け取ることであって、前記カメラ情報は、２次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、
前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、１次元畳み込みを含む残差決定を含む、ことと、
前記特徴抽出に基づいて、ボーン長を推定することと、
前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、
前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、
を行うためのアプリケーションを記憶するための非一時的メモリと、
前記メモリに結合され、前記アプリケーションを処理するように構成されるプロセッサと、
を備える装置。

９．前記アプリケーションは、入力として１又は２以上のフレームを受け取るように更に構成される、第８項に記載の装置。

１０．どのボーン長も、長さが１メートルを超えないと仮定される、第８項に記載の装置。

１１．長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる、第８項に記載の装置。

１２．前記アプリケーションは、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成される、第８項に記載の装置。

１３．前記アプリケーションは、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成される、第８項に記載の装置。

１４．前記アプリケーションは、２次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、２次元姿勢の摂動を実行して、２次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成される、第８項に記載の装置。

１５．システムであって、
コンテンツを取得するように構成されるカメラと、
コンピュータ装置と、
を備え、
前記コンピュータ装置は、
前記カメラからカメラ情報を受け取ることであって、前記カメラ情報は、２次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、
前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、１次元畳み込みを含む残差決定を含む、ことと、
前記特徴抽出に基づいて、ボーン長を推定することと、
前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、
前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、
を行うように構成される、
システム。

１６．前記コンピュータ装置は、入力として１又は２以上のフレームを受け取るように更に構成される、第１５項に記載のシステム。

１７．どのボーン長も、長さが１メートルを超えないと仮定される、第１５項に記載のシステム。

１８．長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる、第１５項に記載のシステム。

１９．前記コンピュータ装置は、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成される、第１５項に記載のシステム。

２０．前記コンピュータ装置は、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成される、第１５項に記載のシステム。

２１．前記コンピュータ装置は、２次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、２次元姿勢の摂動を実行して、２次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成される、第１５項に記載のシステム。

本発明の構成及び動作の原理の理解を容易にするために、詳細内容を組み込んだ特定の実施形態に関して本発明を説明してきた。このような本明細書における特定の実施形態及びその詳細内容への言及は、本明細書に添付される特許請求の範囲を限定することを意図するものではない。特許請求の範囲によって規定される本発明の精神及び範囲から逸脱することなく、例示のために選択された実施形態に、他の様々な修正を行うことができることは、当業者に容易に理解されるであろう。

９００カメラパラメータをネットワークに供給
９０２フレーム毎に特徴抽出を適用
９０４ボーン長を推定
９０６ボーン単位ベクトルを推定
１５００コンピュータ装置
１５０２ネットワークインターフェイス
１５０４メモリ
１５０６プロセッサ
１５０８Ｉ／Ｏデバイス
１５１０バス
１５１２記憶装置
１５２０フル骨格３Ｄ姿勢復元ハードウェア
１５３０フル骨格３Ｄ姿勢復元アプリケーション

Claims

方法であって、
カメラ情報を受け取るステップであって、前記カメラ情報は、２次元姿勢と、焦点距離を含むカメラパラメータとを含む、ステップと、
前記カメラ情報に特徴抽出を適用するステップであって、前記特徴抽出は、１次元畳み込みを含む残差決定を含む、ステップと、
前記特徴抽出に基づいて、ボーン長を推定するステップと、
前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定するステップと、
前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置（ｒｏｏｔｐｏｓｉｔｉｏｎｓ）を導出するステップと、
を含むことを特徴とする方法。
入力として１又は２以上のフレームを受け取るステップを更に含むことを特徴とする、請求項１に記載の方法。
どのボーン長も、長さが１メートルを超えないと仮定されることを特徴とする、請求項１に記載の方法。
長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させることを特徴とする、請求項１に記載の方法。
グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするステップを更に含むことを特徴とする、請求項１に記載の方法。
各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するステップを更に含むことを特徴とする、請求項１に記載の方法。
２次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップ（ｒａｎｄｏｍｋｅｙｐｏｉｎｔｄｒｏｐ）を用いて、２次元姿勢の摂動（ｐｅｒｔｕｒｂａｔｉｏｎ）を実行して、２次元姿勢予測のノイズ及び遮蔽（ｏｃｃｌｕｓｉｏｎ）状況をシミュレートするステップを更に含むことを特徴とする、請求項１に記載の方法。
装置であって、
カメラ情報を受け取ることであって、前記カメラ情報は、２次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、
前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、１次元畳み込みを含む残差決定を含む、ことと、
前記特徴抽出に基づいて、ボーン長を推定することと、
前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、
前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、
を行うためのアプリケーションを記憶するための非一時的メモリと、
前記メモリに結合され、前記アプリケーションを処理するように構成されるプロセッサと、
を備えることを特徴とする装置。
前記アプリケーションは、入力として１又は２以上のフレームを受け取るように更に構成されることを特徴とする、請求項８に記載の装置。
どのボーン長も、長さが１メートルを超えないと仮定されることを特徴とする、請求項８に記載の装置。
長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させることを特徴とする、請求項８に記載の装置。
前記アプリケーションは、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成されることを特徴とする、請求項８に記載の装置。
前記アプリケーションは、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成されることを特徴とする、請求項８に記載の装置。
前記アプリケーションは、２次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、２次元姿勢の摂動を実行して、２次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成されることを特徴とする、請求項８に記載の装置。
システムであって、
コンテンツを取得するように構成されるカメラと、
コンピュータ装置と、
を備え、
前記コンピュータ装置は、
前記カメラからカメラ情報を受け取ることであって、前記カメラ情報は、２次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、
前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、１次元畳み込みを含む残差決定を含む、ことと、
前記特徴抽出に基づいて、ボーン長を推定することと、
前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、
前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、
を行うように構成される、
ことを特徴とするシステム。
前記コンピュータ装置は、入力として１又は２以上のフレームを受け取るように更に構成されることを特徴とする、請求項１５に記載のシステム。
どのボーン長も、長さが１メートルを超えないと仮定されることを特徴とする、請求項１５に記載のシステム。
長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させることを特徴とする、請求項１５に記載のシステム。
前記コンピュータ装置は、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成されることを特徴とする、請求項１５に記載のシステム。
前記コンピュータ装置は、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成されることを特徴とする、請求項１５に記載のシステム。
前記コンピュータ装置は、２次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、２次元姿勢の摂動を実行して、２次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成されることを特徴とする、請求項１５に記載のシステム。