JP2023536074A - 単眼カメラからのフル骨格3d姿勢復元 - Google Patents

単眼カメラからのフル骨格3d姿勢復元 Download PDF

Info

Publication number
JP2023536074A
JP2023536074A JP2023504073A JP2023504073A JP2023536074A JP 2023536074 A JP2023536074 A JP 2023536074A JP 2023504073 A JP2023504073 A JP 2023504073A JP 2023504073 A JP2023504073 A JP 2023504073A JP 2023536074 A JP2023536074 A JP 2023536074A
Authority
JP
Japan
Prior art keywords
pose
bone
feature extraction
camera
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023504073A
Other languages
English (en)
Inventor
タマキ コジマ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2023536074A publication Critical patent/JP2023536074A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

ニューラルネットワークの最近の進歩は、人物姿勢推定タスクにわたって著しい進歩を示してきた。姿勢推定は、単眼2D姿勢推定、マルチビュー3D姿勢推定、及び単一ビュー3D姿勢推定に分類することができ、最近、3D姿勢は、ますます注目されて、AR/VR、ゲーム及び人間コンピュータインタラクションアプリケーションに適用されるようになってきている。しかしながら、人物3D姿勢推定に関する現在の学術的ベンチマークは、それらの相対姿勢に関する性能を尊重するのみである。時間にわたるルート位置決め、換言すれば、3D空間内の全身の「軌道」が、十分によく考慮されない。モーションキャプチャなどのアプリケーションは、身体の正確な相対姿勢を必要とするだけでなく、3D空間内の全身のルート位置も必要とする。したがって、本明細書では、2D姿勢入力からの効率的な単眼フル3D姿勢復元モデルを説明し、これは、上記のアプリケーションに適用することができる。【選択図】図9

Description

本発明は、コンテンツ推定に関する。具体的には、本発明は、3D姿勢推定に関する。
人物2D姿勢推定の大成功の後に、そのアプリケーションをムービー、監視、及び人間-コンピュータインタラクションなどにおいて拡大するために、人物3D姿勢推定が、多くの注意をひいてきた。マルチビュー方法、時間的方法、骨格のための単眼3D姿勢方法、及び3Dメッシュを含む単眼3D姿勢方法を含む多くの方法が提案された。
ニューラルネットワークの最近の進歩は、人物姿勢推定タスクにわたって著しい進歩を示してきた。姿勢推定は、単眼2D姿勢推定、マルチビュー3D姿勢推定、及び単一ビュー3D姿勢推定に分類することができ、最近、3D姿勢は、ますます注目されて、AR/VR、ゲーム及び人間コンピュータインタラクションアプリケーションに適用されるようになってきている。しかしながら、人物3D姿勢推定に関する現在の学術的ベンチマークは、それらの相対姿勢に関する性能を尊重するのみである。時間にわたるルート位置決め(root positioning)、換言すれば、3D空間内の全身の「軌道」が、十分によく考慮されない。モーションキャプチャなどのアプリケーションは、身体の正確な相対姿勢を必要とするだけでなく、3D空間内の全身のルート位置も必要とする。したがって、本明細書では、2D姿勢入力からの効率的な単眼フル3D姿勢復元モデルを説明し、これは、上記のアプリケーションに適用することができる。本明細書では、ルート位置推定のために時間的1D畳み込みと長・短期記憶(LSTM)とを組み合わせるネットワークアーキテクチャ、出力を定式化する方法、損失関数の設計、及び最新技術のモデルとの比較を説明して、アプリケーション使用のための手法の効果を示す。本明細書で説明するように、15個及び17個のキーポイントにおける3D姿勢推定を実行するが、これは、任意のキーポイント定義に拡張することができる。
一態様では、方法は、カメラ情報を受け取るステップであって、前記カメラ情報は、2次元姿勢と、焦点距離を含むカメラパラメータとを含む、ステップと、前記カメラ情報に特徴抽出を適用するステップであって、前記特徴抽出は、1次元畳み込みを含む残差決定を含む、ステップと、前記特徴抽出に基づいて、ボーン長を推定するステップと、前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定するステップと、前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置(root positions)を導出するステップと、を含む。前記方法は、入力として1又は2以上のフレームを受け取るステップを更に含む。どのボーン長も、長さが1メートルを超えないと仮定される。長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる。前記方法は、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするステップを更に含む。前記方法は、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するステップを更に含む。前記方法は、2次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップ(random keypoint drop)を用いて、2次元姿勢の摂動(perturbation)を実行して、2次元姿勢予測のノイズ及び遮蔽(occlusion)状況をシミュレートするステップを更に含む。
別の態様では、装置は、カメラ情報を受け取ることであって、前記カメラ情報は、2次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、1次元畳み込みを含む残差決定を含む、ことと、前記特徴抽出に基づいて、ボーン長を推定することと、前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、を行うためのアプリケーションを記憶するための非一時的メモリと、前記メモリに結合され、前記アプリケーションを処理するように構成されるプロセッサと、を備える。前記アプリケーションは、入力として1又は2以上のフレームを受け取るように構成される。どのボーン長も、長さが1メートルを超えないと仮定される。長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる。前記アプリケーションは、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように構成される。前記アプリケーションは、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように構成される。前記アプリケーションは、2次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、2次元姿勢の摂動を実行して、2次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように構成される。
別の態様では、システムは、コンテンツを取得するように構成されるカメラと、コンピュータ装置と、を備え、前記コンピュータ装置は、前記カメラからカメラ情報を受け取ることであって、前記カメラ情報は、2次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、1次元畳み込みを含む残差決定を含む、ことと、前記特徴抽出に基づいて、ボーン長を推定することと、前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、を行うように構成される。前記コンピュータ装置は、入力として1又は2以上のフレームを受け取るように更に構成される。どのボーン長も、長さが1メートルを超えないと仮定される。長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる。前記コンピュータ装置は、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成される。前記コンピュータ装置は、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成される。前記コンピュータ装置は、2次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、2次元姿勢の摂動を実行して、2次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成される。
いくつかの実施形態による、実際の(in the wild)(例えば、制御されていない変数/環境を含む)ビデオ上のモデル出力の可視化を示す図である。 いくつかの実施形態による、本明細書で説明するモデルがデプスの曖昧さを克服することを示す図である。 いくつかの実施形態による、異なるFOVでUVに再投影される同じ3D姿勢を示す図である。 いくつかの実施形態による、キーポイント定義の変化を示す図である。 いくつかの実施形態による、本明細書で説明する設計の3Dカメラ座標を示す図である。 いくつかの実施形態による、正規化された空間においてどのように値を符号化するかを示す図である。 いくつかの実施形態による、カメラ座標におけるX-Z及びZ-Y平面内のルート位置の分布を示す図である。 いくつかの実施形態による、入力に対する摂動及びキーポイントドロップを示す図である。 いくつかの実施形態による、本明細書で説明するようなネットワークの簡略化されたブロック図である。 いくつかの実施形態による、対象に対するルート位置予測の可視化を示す図である。 いくつかの実施形態による、Human3.6Mに本明細書で説明するデータ拡張スキームを加えた結果の表を示す図である。 いくつかの実施形態による、LSTM及び1D畳み込みのルート位置推定の比較の表を示す図である。 いくつかの実施形態による、LSTM及び1D畳み込みを使用してモデルを比較するためのサンプルシーケンスにおけるZ軸ルート位置トレースの可視化を示す図である。 YouTubeからの後ろ宙返りビデオ及び2D姿勢検出器として適用されたAlphaPose、いくつかの実施形態による本明細書で説明する方法を使用して実行されることを示す図である。 YouTubeからの後ろ宙返りビデオ及び2D姿勢検出器として適用されたAlphaPose、いくつかの実施形態による本明細書で説明する方法を使用して実行されることを示す図である。 いくつかの実施形態による、フル骨格3D姿勢復元方法を実装するように構成される例示的なコンピュータ装置のブロック図である。
ニューラルネットワークの最近の進歩は、人物姿勢推定タスクにわたって著しい進歩を示してきた。姿勢推定は、単眼2D姿勢推定、マルチビュー3D姿勢推定、及び単一ビュー3D姿勢推定に分類することができ、最近、3D姿勢は、ますます注目されて、AR/VR、ゲーム及び人間コンピュータインタラクションアプリケーションに適用されるようになってきている。しかしながら、人物3D姿勢推定に関する現在の学術的ベンチマークは、それらの相対姿勢に関する性能を尊重するのみである。時間にわたるルート位置決め、換言すれば、3D空間内の全身の「軌道」が、十分によく考慮されない。モーションキャプチャなどのアプリケーションは、身体の正確な相対姿勢を必要とするだけでなく、3D空間内の全身のルート位置も必要とする。したがって、本明細書では、2D姿勢入力からの効率的な単眼フル3D姿勢復元モデルを説明し、これは、上記のアプリケーションに適用することができる。本明細書では、ルート位置推定のために時間的1D畳み込みと長・短期記憶(LSTM)とを組み合わせるネットワークアーキテクチャ、出力を定式化する方法、損失関数の設計、及び最新技術のモデルとの比較を説明して、アプリケーション使用のための手法の効果を示す。本明細書で説明するように、15個及び17個のキーポイントにおける3D姿勢推定を実行するが、これは、任意のキーポイント定義に拡張することができる。
単眼人物3D姿勢推定は、消費者生成ビデオとしてインターネットを通じて利用可能である実際の(in the wild)(例えば、制御されていない環境)ビデオに適用することができるので、研究コミュニティにおいて注目される話題として現れてきた。また、単眼設定において姿勢推定を可能にすることによって、複数のカメラの設置、及び三角測量を解決できるようにカメラを位置合わせすることをなくすことができる。単眼人物3D姿勢推定に関する最近の研究は、時間と共に著しい改善を示してきたが、複数の3D姿勢を同じ2D姿勢にマッピングすることができるので、グローバル軌道と相対姿勢とを組み合わせることは、曖昧さの性質に起因して極めて困難な問題である。また、ビデオ結果からこれらの方法を定性的に評価することは、非常に困難であり、時には性能において誤解を招くようなこともある。というのは、結果が入力画像平面上に重ねられるだけの場合、デプスの曖昧さ及びその軌道のドリフトを十分に観察できないからである。第2に、背景技術の節で述べた方法は、相対3D姿勢を評価するのみであり、この場合、相対姿勢は、固定(例えばゼロ)位置に存在すべきルートボーン(root bone)として定義され、モーションにおける軌道の復元が十分に研究されなかった。最後に、上記の人物3D姿勢推定評価で使用される主なデータセットであるHuman3.6Mは、実際の(in the wild)ビデオに適用された時に起こり得る状況をカバーするための現実世界設定が欠けている。データセットは、3×4メートルの領域内で実験室設定において取り込まれるほとんど同じカメラパラメータを含む8つのカメラを有する。したがって、通常、追加の2D姿勢データが、敵対的損失を含む半教師付き方法で使用される。
モーションキャプチャの目的で単眼人物3D姿勢推定を適用するために重要である上記の問題を解決するために、相対姿勢のための1D畳み込み及び軌道のためのLSTMと組み合わされる2D姿勢入力からの統一人物3D相対姿勢及び軌道復元ネットワークについて説明する。このモデルは、従来の最新技術の方法と比較して、パラメータサイズに関して効率的であり、また、畳み込みにわたってLSTMを使用してより安定した軌道復元が観察される。
モデルは、利用可能である場合、複数のフレームを撮影するが、VP3Dにおける方法のように、設計によって複数のフレームを使用することに限定されるものではない。VP3Dは、VideoPose3Dを表し、「時間的畳み込み及び半教師付きトレーニングを用いたビデオにおける3D人物姿勢推定(3D Human Pose Estimation in Video with Temporal Convolutions and Semi-Supervised Training)」(https://github.com/facebookresearch/VideoPose3D)からのものである。VP3D方法は、243フレームの入力でその最良の性能を達成するが、本明細書で説明するモデルは、1フレーム入力でも作動する。これは、処理するために入力すべき任意の数のフレームを適用したいと望む時に重要である。数ミリメートルの差の相対姿勢の精度にするのではなく、有用性により多くの価値を置く。
統一ネットワークにおいて同時にルート位置及び相対姿勢を回帰するために、正則化の目的のために、キネマティックチェーン空間(KCS)を使用する。正則化を使用する代わりに、ボーン単位ベクトル及びボーン長を直接推定し、各損失を別個に適用して、入力フレームにわたってボーン長の一貫性を実施する。どのボーン長も、{0,1}範囲内であると仮定され、人間の骨は、長さが1メートルを超えないと仮定される。更に、ルート位置に符号化/復号スキームなどのtanhを適用して、ネットワークパラメータを同じダイナミックレンジ内にすることができるようにする。
Human3.6Mデータセットは、3D空間及びアクションにおけるカバレッジに関して小さいので、グローバル位置及び回転に自動拡張を適用して、後ろ宙返り又は腕立て側転などの動的モーションをシミュレートする。各バッチサンプルに対してカメラ視野をランダムに変更して、予測に対して所与のカメラパラメータを条件とするべきである場合に、異なるカメラパラメータを含む任意のビデオを推定できるようにする。2D姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、2D姿勢の摂動を実行して、2D姿勢予測のノイズ及び遮蔽状況をシミュレートする。これは、モーションキャプチャデータのみを使用することを可能にし、この場合、敵対的モジュール又は損失が発生せず、したがって、準備及びトレーニング時間がより短い。Human3.6Mデータは、本明細書で説明する方法及びシステムと共に使用すべき例示的なデータセットにすぎず、任意の方法で限定的であることを意図するものではない。任意の3D人物モーションキャプチャデータセットを、本明細書で説明する方法及びシステムと共に使用することができる。
図1に、いくつかの実施形態による、実際の(in the wild)(例えば、制御されていない変数/環境を含む)ビデオ上のモデル出力の可視化を示す。図1において、列(a)は、2D姿勢推定を含むビデオフレームを示し、列(b)は、X-Y平面3D姿勢を示し、列(c)は、X-Z平面3D姿勢を示す。3Dプロット上の赤い線(概して人物の背中及び頭部を通る線)は、グローバル軌道を示す。モデルは、動的モーションにおいて安定したz位置を含む軌道を出力することができる。カメラ座標の詳細な定義については、図5を参照。
本明細書で説明するモデルは、図2に示すように、デプスの曖昧さを克服する。図2の上の行は、人物3D姿勢予測のカメラ平面投影を示す。下の行は、再構成の側面図を示す。人物がカメラに平行に移動しているだけでも、特にデプス方向の全身がよく推定されない。
単眼人物3D姿勢推定方法は、2つのカテゴリ、すなわち、メッシュベースの方法及び2Dリフティング方法に大別することができる。
メッシュベースの方法
メッシュベースの手法は、人物メッシュなどの従来のモデルを使用して、姿勢だけでなくスキンも復元して、画像平面にフィッティングする。具体的には、メッシュベースの方法は、結果が画像平面に重ねられる場合、ある程度良好な結果を示すが、図2の側面図などの異なる観点から見ると、不安定な軌道トレースが見える。これは、単眼方法が欠点としてもつ非常に曖昧な問題の性質から生じるものである。人物の従来のモデルを使用することによって問題空間をより小さくするようにしても、問題はまだよく解決されない。
2Dリフティング方法
他のカテゴリは、単眼人物3D骨格姿勢であり、この場合、モデルへの入力は、よく確立された人物2D姿勢検出器によって予測される2D姿勢である。時間的次元に沿って安定させるために、いくつかの実装は、LSTMシーケンス間の手法を使用した。しかしながら、それらの手法は、全てのフレームを固定長に符号化することを含む。VP3Dは、時間次元にわたって1D畳み込みを実行することによって時間情報を活用する。VP3Dもネットワークを2つに分割し、この場合、相対姿勢及び軌道推定ネットワークを分離して、共同でトレーニングする。しかしながら、相対姿勢及び軌道のためのネットワークは、16Mパラメータずつ使用し、フル姿勢推定のためには32Mパラメータである。また、243フレームの入力も使用して、最良の性能を得るが、Human3.6Mの限定されたカメラ構成に起因して、トレーニングデータとは異なるカメラパラメータを有するビデオ上でよく作動しない。
キネマティックチェーン空間
キネマティックチェーン空間(KCS)を使用して、姿勢をボーンベクトル及びその長さに分解することができる。直交座標において相対姿勢を推定する代わりに、KCSを使用する考えに従った。本明細書で説明するモデルは、最適化においてKCSを利用する方法に関して異なる。KCSを使用して、相対姿勢をKCSにマッピングし、敵対的損失を正則化項として使用して半教師付き方法でモデルをトレーニングするようにした。上記とは異なり、本明細書で説明する方法は、正規化された空間内に存在するボーンベクトル及びボーン長を直接回帰する。
本明細書では、入力及び出力の定義、データセット、及び拡張、ネットワーク設計及び損失定式化をどのように実行するかについて説明する。
入力
本明細書で説明する2D姿勢リフティング方法と同様のスキームに従い、この場合、任意の2D姿勢検出器から2D姿勢を推定することができる。例えば、AlphaPoseを使用することができる。図4に示すように、2D姿勢検出器は、例えば、17から25の種々様々なキーポイントを出力し、Human3.6Mは、17個のキーポイントを使用する(32の定義の中から17個が移動可能)。本明細書で説明するモデルを任意の2D姿勢検出器上で作動させるために、最も多く交差する15個のキーポイントが定義されて、これらは、評価のためにHuman3.6Mデータ(又は他のデータ)を使用することができる。入力として、UV正規化2D座標を使用し、ここで、u ∈ {0,1}である。また、2D姿勢検出器は、遮蔽に起因して、特定のキーポイントを検出することができない場合も多い。それらのために、値をゼロに設定する。入力として、カメラ焦点距離も使用する。単眼人物3D姿勢推定方法は、Human3.6M及びHuman-Evaを使用するが、これらのデータセットのうちのいずれも、種々様々なカメラ設定を有さず、モデルを適用して、2Dアノテーションを使用して半教師付きトレーニングを適用することによって、実際の(in the wild)ビデオ及び画像上で作動する試みがある。カメラパラメータを推定して再投影誤差を計算することが可能であるが、カメラパラメータは、依然として、姿勢発生ネットワークを通じて暗黙的にモデル化される。代わりに、本明細書で説明するネットワークは、2D姿勢入力及びカメラ焦点距離を条件としてモデル化される。焦点距離は、任意のカメラをサポートするために非常に重要なキュー(queue)である。図3に示すように、カメラの異なる視野(FOV)は、3D空間において同じ相対姿勢及びルート位置でも、2D姿勢外観をかなり異ならせる。本明細書で説明するように、主点を含む透視投影カメラが画像の中心に存在し、レンズ歪みは考慮されないと仮定する。
図3に、異なるFOVでUVに再投影される同じ3D姿勢を示す。図(a)は60°のFOVであり、図(b)は90°のFOVであり、図(c)は120°のFOVである。カメラパラメータは、実際の(in the wild)撮影されるクリップの各々において異なることができる。
図4に、キーポイント定義の変化を示す。画像(a)は、17個のポイントを含むMSCOCOである。画像(b)は、18個のポイントを含むOpenPoseである。画像(c)は、25個のポイントを含むOpenPoseである。画像(d)は、17個のポイントを含むHuman3.6である(32個の中から17個が移動可能)。画像(e)は、15個のポイントの定義を含む、本明細書で説明する方法である。線は、各定義における標準骨格ペアである。
出力及びキネマティックチェーン空間
ネットワーク出力は、身体のルート位置と相対姿勢との組み合わせとして定義される。ルート位置は、通常、骨盤のキーポイントにおいて定義される。相対姿勢は、ルート位置に対する他のボーンの3D位置として定義される。図4の画像(e)は、15個のキーポイントの定義を示し、ここで、0は骨盤であり、ルート位置として使用され、その他は、ルートに対する相対位置として推定される。図5は、本明細書で説明するような3D空間の定義を示す。図5に、いくつかの実施形態による、本明細書で説明する設計の3Dカメラ座標を示す。図3は、異なるFOVでのこの姿勢の2D投影を示す。相対姿勢及びルート位置は、カメラ座標において推定される。更に、KCSを利用して、相対姿勢をボーンベクトル及びその長さに分解する。キネマティックチェーンのi番目の関節は、この関節の位置のx,y,z座標を含むベクトル

Figure 2023536074000002
によって定義される。j個の関節ベクトルを連結することによって、次式のように、キネマティックチェーンの相対姿勢Prを表す行列を構築することができる。
r = (p1, p2,..., pj) (1)
全身姿勢Pは、次式として表される。
P = (p0, p0,..., pr) (2)
ここで、p0はルート位置であり、相対姿勢は、ルート姿勢を減算することによって導出される。k番目のボーンbkは、次式のように、r番目及びt番目の関節の間のベクトルとして定義される。
k = pr - pt = Prjk, (3)
ここで、
Figure 2023536074000003
位置rにおいて1及び位置tにおいて-1である。dは、r番目及びt番目の関節のためのマッピングベクトルであり、全関節にわたって連結することによって、全体のマッピング行列Dは、
Figure 2023536074000004
として表される。式(1)と同様に、行列
Figure 2023536074000005
は、次式のように、全てのb個のボーンを含む行列として定義することができる。
B = (b1, b2, ..., bb); (5)
ここで、行列Bは、次式によってPから計算される。
B = PrD. (6)
Dと類似して、次式のように、BをPrにマッピングする行列
Figure 2023536074000006
を定義することができる。
r = BE. (7)
次に、ネットワークは、マッピング関数を学習することができる。
Figure 2023536074000007
ここで、2D姿勢u及びカメラパラメータcは入力であり、出力は、ルート位置
Figure 2023536074000008
ボーン長
Figure 2023536074000009
及びその単位ベクトル
Figure 2023536074000010

を推定するためのものである。θはネットワークパラメータを含む。ボーンベクトルbを直接推定しない理由は、出力を正規化された空間に存在させるためである。各ボーン長は、||bk|| ∈ {0,1}に従い、いくつかの実施形態では、決して1mを超えないと仮定される。^記号を含む任意の記号は予測であり、^記号を含まない記号はground truths(例えばラベル)であり、予測がトゥルース(truth)からどのくらい離れているか損失を定義する。
tanh形式を使用して、正規化された空間において、ルート位置
Figure 2023536074000011
を符号化及び復号する。次いで後に、それを実際の値に復号する。符号化公式は、次式の通りである。
Figure 2023536074000012

復号は次式として形成される。
Figure 2023536074000013
ここで、β及びεは一定値である。
Figure 2023536074000014
を使用する。図6に、正規化された空間においてどのように値を符号化するかを示す。図6は、ルート位置の符号化及び復号を示す。それは、カメラの近くの距離に対してより大きい粒度を与え、20mで飽和する。z軸の値は非負である。
この正規化は非常に重要である。というのは、多くの姿勢回帰モデルは、出力空間及びパラメータ空間をどのようにモデル化すべきかをよく考慮していないからである。VP3Dは、ルート位置における重み付き損失を含む2つの離散ネットワークを用いて、ルート位置及び相対姿勢を同時に推定することを提案しており、この場合、遠く離れたルート位置における損失は、より小さい重みを有する。本明細書で説明する方法は、符号化された空間において粒度を形成することを含み、パラメータ空間をその内部に入れる。これは、エンドツーエンドトレーニング方法で、ルート位置のためだけでなく、同時にボーンベクトルのためにも、勾配を伝搬してパラメータを更新するために重要である。
データセット及び拡張
多くの方法が実際の(in the wild)ビデオ及び画像上でよく一般化するために採用する半教師付き方法で2D姿勢アノテーションを使用する代わりに、本明細書で説明するモデルは、単にモーションキャプチャデータからトレーニングされる。純粋な学術的態様では、初期実験のためにHuman3.6Mを使用し、商業目的のためには、ソニー・インタラクティブエンタテインメント・インコーポレイテッド(SIE)によって提供されるモーションキャプチャデータを使用する。しかしながら、モーションキャプチャデータは、小さすぎて、現実世界シナリオをカバーできない場合がある。この問題を解決するために、トレーニングデータにおいて、いくつかの拡張及び摂動を自動的に使用する。

Figure 2023536074000015

Figure 2023536074000016
アルゴリズム1は、拡張のための簡略化された擬似コードである。全体のデータセットPが与えられると、各バッチサンプルp ⊂ Pは、Tの長さを有する時間フレームを含み、これは、pt ∈ p, t = (0, 1, ..., T)である。FOVをランダムに選び、ビューポート内に姿勢軌道をフィッティングして、カメラビューから見えない姿勢がないようにする。また、軌道分散を解析することによって、シーケンスpにおける宙返りモーションをランダムに行って、後ろ宙返り又は腕立て側転タイプのモーションをシミュレートする。図7に、元のHuman3.6Mのルート位置の分布と、本明細書で説明するようなデータ拡張の後の分布とを示し、本明細書で説明する実装は、もっと広い位置分布を有し、データセットを現実世界シナリオにより適したものにする。
図7に、いくつかの実施形態による、カメラ座標におけるX-Z及びZ-Y平面内のルート位置の分布を示す。画像(a)は、元のHuman3.6Mであり、画像(b)は、本明細書で説明する拡張である。
更に、トレーニングフェーズにおいて、入力に対して、2Dキーポイントドロップ及び摂動を使用する。データサンプリング中に、透視投影を使用して、3D姿勢を2Dに投影する。しかしながら、2D姿勢検出器は、ノイズを有し、遮蔽に起因して検出しそこなう傾向がある。VP3Dなどの方法は、ノイズを含む2D入力として、2D検出器の結果を使用して、ノイズプルーフになるようにモデルをトレーニングする。代わりに、本明細書で説明するように、ガウスノイズを使用して、かつキーポイントをランダムにドロップして、2D投影されたキーポイントを摂動させて、遮蔽シナリオをシミュレートする。ガウス半径は、UV空間内の身体のサイズに応じて適応的である。「ドロップ」としてマーク付けされる全てのキーポイントは、ゼロに設定される。図8に、入力に対する摂動及びキーポイントドロップを示す。図(a)は、元のクリーンな2D姿勢であり、図(b)~(d)は、ランダムドロップ及び摂動が適用されたノイズの多い2D姿勢である。
ネットワークの詳細
式(8)に示すように、入力2D姿勢u及びカメラパラメータcが与えられたマッピング関数を学習して、ルート位置
Figure 2023536074000017
ボーン長
Figure 2023536074000018
及びその単位ベクトル
Figure 2023536074000019

を出力することが目標である。そのために、1D畳み込み及びLSTMを一緒に使用して、シーケンスの安定した予測を達成する。図9に、いくつかの実施形態による、本明細書で説明するようなネットワークの簡略化されたブロック図を示す。ルート位置のためにLSTMを使用する理由は、KCS空間の相対姿勢推定と同様に、3のカーネルサイズを有する1D畳み込みが実験されたからである。しかしながら、それは、特にz軸上の安定性が悪く、これは、単眼3D姿勢推定の共通の問題である。この理由は、たとえ時間損失関数が適用されても、1D畳み込みは、直前の時間t-1を条件として、時間tにおいて出力を推定する保証がないからであると仮定される。しかしながら、LSTMは、直前の時間の特徴を現在の特徴に渡すことができ、これにより、全体のルート位置推定を安定させる。
512及び1024の特徴マップを含む入力uに対して、1のカーネルサイズを有する1D畳み込みを含む4つのスタック残差接続を含む2つの特徴抽出ブロックが存在する。ここで、カーネルサイズ1の1D畳み込みは、全ての時間フレームが離散的な方法で取り扱われることを含み、したがって、各時間フレームにおいて特徴空間をマッピングする。次に、畳み込みに対するエッジパディングを用いて、3のカーネルサイズを有する1D畳み込みと各ブロックの出力をカスケード接続する。3のカーネルサイズを有する1D畳み込みを使用して、隣接するフレームを集約する。3のカーネルサイズを有する全ての畳み込みのために適用されるエッジパディングは、N個のフレームから1つのフレームしか出力されないVP3D(1つのフレーム出力に対して243フレームが、VP3Dの最良モデルである)とは異なり、フレームの出力数を入力フレームと同等にする。カスケード順序は、最初にボーン長を予測し、次にそれを条件として、ボーン単位ベクトルを予測し、最後にルート位置を予測するように設計された。再び、1のカーネルサイズを有する畳み込みを用いて、各出力を特徴空間にマッピングし、次に、より早い段階で抽出された特徴と連結して、次に続く予測を推定する。これは、人物が、まず被験者の周囲のコンテキストを用いて全体の被験者サイズを推定することによって、どのように被験者の距離を直観的に推定するかということに起因する。ボーン単位ベクトル及びルート位置を用いてボーン長のための最初の特徴抽出ブロックを分離することによって、より良好な精度が得られることが分かった。LSTMブロックは、128の隠しユニット(hidden units)を含む2つの繰り返される層を有し、1方向である。いくつかの実施形態では、全ての活性化関数は、Parametric ReLUを使用する。
損失定式化
本明細書では、損失定式化を説明する。まず、大抵は、次式のように、出力の各々にL2ロスを適用する。
Figure 2023536074000020
ここで、Bは、ボーン長||B||とその単位ベクトル

Figure 2023536074000021

との組み合わせである。更に、相対姿勢Prのために項が追加され、これは、式(7)によって導出することができ、ボーン長及びベクトルに対してより大きい重みを追加することを含む。p0項は、z軸上にx2振幅を含むsmooth L1 lossを含む符号化された空間及び復号された空間の両方におけるルート位置のためのものである。ルート位置のためにsmooth L1を適用する理由は、復号された空間上の損失は大きく、大きい誤差を有することによって、他の損失範囲に影響を及ぼす場合があるからである。符号化された空間のみに損失を適用することは行わず、符号化された空間及び復号された空間の両方に対して損失を実行する。更に、次式のように、ボーンB及びルート位置p0に対して、時間項を追加する。
Figure 2023536074000022
ここで、ボーン長が時間と共に変化しないことに起因して、Δ||B||上の第1項はゼロである。これにより、ボーン長が時間フレームにわたって一貫するようにする。ルート位置のために、隣接するフレームのデルタだけでなく、最大3番目の隣接順序及び最大2番目の時間導関数も使用する。時間差分を使用して、フレーム間の相対モーションを正則化するので、ルート位置が依然としてオフセット誤差を有する場合があっても、小さい損失に収束することができる。しかしながら、これは、特にモーションキャプチャシナリオにとって、軌道トレースに関して重要である。次式のように、2D再投影誤差を適用する。
Figure 2023536074000023
留意点として、このuは、上記の摂動の後の2D姿勢入力ではなく、ground truthの3D姿勢のクリーンな2D投影である。予測
Figure 2023536074000024
は、予測された3D姿勢
Figure 2023536074000025
から導出される。最後に、次式のように、全損失が与えられる。
Figure 2023536074000026
ここで、各損失を等しく加算する。
実験評価
データセット及び評価
Human3.6Mは、11人の被験者の360万のビデオフレームを含み、7人の被験者は、3D姿勢でアノテートされる。他の方法として同じルールに従い、トレーニングのための5人の被験者(S1、S5、S6、S7、S8)と、評価のための2人の被験者(S9及びS11)とに分割する。各被験者は15のモーションを行い、50Hzで同期させた4つのカメラを使用して記録する。予測された関節位置とground-truthの関節位置との間の平均ユークリッド距離であるMean per-joint position error (MPJPE)(単位:ミリメートル)を使用する。しかし、MPJPEを集約する方法にわずかな変更が行われ、全てのアクションが平均化されず、一度に全てのアクションを取り扱う。ルート位置のために、平均位置誤差(MPE)を評価し、これも、評価データ全体にわたる平均ユークリッド距離である。本明細書で説明する拡張を含む15個のキーポイント及び17個のキーポイントの定義を用いて、Human3.6Mを評価する。トレーニングデータに対してノイズ及びキーポイントドロップを追加するために、及び評価セットのためにカメラ及び位置拡張と共に使用するために、摂動を適用するにすぎない。図4に、キーポイントの差を示す。
図9に、いくつかの実施形態による、本明細書で説明するモデルの簡略化されたブロック図を示す。本明細書で述べるように、KCSを含まないアブレーションモデルの変形例は、xB1及びxB2のブロックを1つに結合して、ユークリッド空間内の相対姿勢を直接推定し、xPをLSTMから1D畳み込みに置き換えるLSTMモデルはない。
ステップ900において、カメラパラメータ(例えば、2D空間内のx及びyを含む焦点距離)をネットワークに供給して、ネットワークがカメラの状態を出力できるようにする。ネットワークは、2D姿勢も受け取る。2D姿勢は、任意の画像又はビデオからのものとすることができる。
ステップ902において、フレーム毎に、本明細書で説明するような特徴抽出を適用する。特徴抽出は、任意の方法で実装することができる。特徴抽出は、1D畳み込みを含む残差決定を含む。更に、いくつかの実施形態では、連結の後に、パディングされた1D畳み込みを実装する。ステップ904において、本明細書で説明するように、ボーン長を推定する。ステップ906において、ボーン長を条件とする特徴抽出に基づいて、ボーン単位ベクトルを推定することができる。ステップ908において、ボーン長及びボーン単位ベクトルから相対姿勢を推定し、ボーン長及びボーン単位ベクトルを条件とする特徴抽出に基づいて、ルート位置を導出する。いくつかの実施形態では、ルート姿勢の推定において、カメラパラメータを利用する。LSTMを利用して、ルート位置を推定してルート位置を安定させることを助けることができる。
いくつかの実施形態では、より少ない又は追加のステップを実装することができる。いくつかの実施形態では、ステップの順序が変更される。
ネットワークの変形例
アブレーション研究のためのルート姿勢のために、KCSを含むモデル及び含まないモデルと、LSTMを含むモデル及び含まないモデルとに対して、実験を行った。KCSを含まないモデルは、3のカーネルサイズを有する1D畳み込みブロックを使用して、ユークリッド空間において相対姿勢を直接回帰し、その後に最後に1のカーネルサイズを有する1D畳み込みで、出力寸法がキーポイントの数×3になるようにする。同様に、LSTMを含まないモデルは、1D畳み込みを使用して、ルート姿勢を回帰する。同じトレーニング手順の下で、全てのモデルをトレーニングする。他の方法との比較のために、本明細書で説明する方法を、現在の最新技術の方法VP3Dと比較する。
トレーニング
オプティマイザのために、重み減衰がゼロに設定されたAdamを、100エポックにわたって使用してトレーニングする。第1のエポックの学習率ウォームアップを含む1e-3から開始して、係数が10エポック毎に0.5である学習率に、指数関数的減衰を適用する。121のフレーム入力を含む192のバッチサイズを使用し、バッチサンプリング時のHuman3.6Mの50Hzのサンプリングされたフレームの1(スキップなし)から5に、フレームをランダムにスキップする。これは、実際の(in the wild)ビデオのフレームレートの変動に対してモデルをロバストにするためである。VP3Dが243フレームの入力のみを受け入れることを除いて、本明細書で説明するモデルと同じストラテジでVP3Dを再トレーニングし、したがって、VP3Dのために、121フレームの代わりに、243フレームの入力を使用した。バッチ正規化に対して減衰を有することも、VP3Dで提案されるように0.95の減衰を有するAmsgradを使用することも、全てのモデルについて、上記のトレーニング手順よりも悪い性能を示さなかった。
図10に、いくつかの実施形態による、対象に対するルート位置予測の可視化を示す図である。軸Zは、他の軸と比較してより大きい誤差を有し、また、遠く離れた人物についてもより大きい誤差を有する。
評価及びアブレーション研究
図11に、Human3.6Mに本明細書で説明するデータ拡張スキームを加えた結果の表を示し、この場合、カメラFOVは変化し、ルート位置においてもっと広い分布を有する。代替方法のいずれもルート位置推定を提供しないので、相対姿勢MPJPEの正確な比較が存在する。また、VP3Dは、243フレームを使用して1フレームを推定し、一方、本明細書で説明するモデルは、121フレームを用いてトレーニングされる。本明細書で説明するモデルは任意のフレームサイズをとることができるが、等しい条件の下で比較を行うために、243フレームの入力において評価を実行し、中間のフレーム(121番目のフレーム)について評価する。2つの変形例が存在し、1つはKCSが適用されたもの、1つは直接相対姿勢推定を含むものである。KCSを含む本明細書で説明するモデルは、はるかに少ないパラメータを含むMPJPEよりも良好に実行する。これは、キューを有することなく、カメラパラメータ差分を暗黙的に推論することが可能ではない場合があることを示す。また、変形例を調べることによって、KCS方法は、相対姿勢の直接推定に対して著しい利点を示す。ルート位置決めブロックも両方の方法において同等であることに留意することも興味深い。MPE性能は、差を示した。トレーニング曲線及び検証誤差を調べることによって、現在の仮定は、ルート位置決め性能の変動が依然としてあることである。
ルート位置誤差であるMPEは、約20cmの大きい誤差を有するように依然として思われる。これは、単眼からの、特に2D姿勢入力のみからの不確定なデプスを解決するための困難が依然としてあることを示す。図10は、15個のキーポイントの姿勢モデルにおける全体の投影誤差を示す。X及びYは、対象への非常に良好なフィットを示すが、Zは、対象が遠くなるにつれて誤差を示し、また、近い距離における何らかの大きい誤差も示す。近い距離の大きい誤差は、主に、被験者がカメラに近すぎるために、全身が見えない(例えば、身体が部分的に見える)ことによるものであるが、それらの場合は、現実世界シナリオにおいて起こる。実験は、MPEを改善する余地がたくさんあることを示すが、全体の軌道トレースを観察し、これは、モーションキャプチャシナリオのために重要である。
LSTMを含まないモデルは、LSTMモデルと同等な又はより良好なMPEを示す。モーショントレースを比較するために、別の評価を実行し、VP3Dと位置合わせするための1つの中間フレームの入力を撮影する代わりに、全ての出力フレームを使用する。これを用いて、式(12)の第2項として定義される平均軌道誤差を調べると、LSTMバージョンは、図12に示すように、より良好な軌道性能を示す。モデルパラメータをダウンサイジングしようと試みる時に、差がより著しくなり得る。図13は、ルート姿勢推定のために1D畳み込みに対してLSTMを含む、本明細書で説明するモデルのコンパクトバージョンに適用される後ろ宙返りシーケンスを示す。1D畳み込みは、特にZ軸上の大きいドリフトを推定し、これは、モーション復元のために重要である。図13に、LSTM及び1D畳み込みを使用してモデルを比較するためのサンプルシーケンスにおけるZ軸ルート位置トレースの可視化を示す。1D畳み込みは、特に動的モーションにおいて大きいトレース誤差を有する傾向がある。
図14A及び図14Bに、YouTubeからの後ろ宙返りビデオ及び2D姿勢検出器として適用されたAlphaPose、本明細書で説明する方法を使用して実行されることを示す。X-Z平面再投影上に示すように、モーション自体が非常に動的であり、2D姿勢検出器において多くの遮蔽及び誤差を有するにもかかわらず、Z軸上の全体のルート位置は、非常に安定している。図14A及び図14Bは、実際の(in the wild)ビデオ上の本明細書で説明するモデルの出力の可視化を示し、これらは、各グループが4つのフレームを示すグループ化された2列に配置される。左から、2D姿勢推定を含むビデオフレーム、X-Y平面3D姿勢、X-Z平面3D姿勢である。3Dプロット上の赤い線は、グローバル軌道を示す。本明細書で説明するモデルは、動的モーションにおいて安定したz位置を含む軌道を出力することができる。上記の6番目のフレームは、2D姿勢検出結果において大きい誤差を有する。
結論
本明細書で説明する方法は、単眼カメラからのフル骨格3D姿勢復元を可能にし、フル骨格は、3Dにおけるルート位置及び相対姿勢の両方を含む。モデルは、学術的世界における現在の最新技術に対する著しい利点を観察して、様々なFOV、及びモーションキャプチャデータのみを用いてトレーニングされる後ろ宙返りなどの動的モーションをカバーした。大きいネットワークを粗暴に(brutally)モデル化して値を回帰する代わりに、モデルを人間の知覚に基づかせて、本明細書で説明するKCSの利用及び正規化された空間においてモデルを形成することは、より良好な性能をもたらす。
本明細書で説明する方法は、UV空間において正規化される2D姿勢入力及び基本カメラパラメータのみを、入力とする。非常に小さい分布を用いて、ボーン長推定をトレーニングし、RGB画像などの他のキュー(例えば外観特徴)のサポートなしで、真のボーン長を推定することは非常に困難である。2Dボーン長の割合からボーン長を導出することができ、子供は、腕の骨よりも長い胴体を有する傾向があるという仮説を立てた。周囲ののコンテキストに基づいて、人物の身長を大まかに推定することが可能である。ゲームエンジン(例えばUnreal Engine)を利用して、関連する3Dジオメトリを含む画像をレンダリングし、画像からの人物3D姿勢のエンドツーエンド推定を実行することができる。2Dアノテーションを用いて半教師付きトレーニングを行うことを可能にする元の敵対的モジュールを構築した。
図15に、いくつかの実施形態によるフル骨格3D姿勢復元方法を実装するように構成される例示的なコンピュータ装置のブロック図を示す。コンピュータ装置1500を使用して、画像及びビデオなどの情報を、取得、記憶、計算、処理、通信及び/又は表示することができる。コンピュータ装置1500は、フル骨格3D姿勢復元の態様のいずれかを実装することができる。一般に、コンピュータ装置1500を実装するのに適したハードウェア構造は、ネットワークインターフェイス1502、メモリ1504、プロセッサ1506、I/Oデバイス1508、バス1510、及び記憶装置1512を含む。プロセッサの選択は、十分な速度を有する好適なプロセッサが選ばれる限り重要ではない。メモリ1504は、当該技術分野で公知の任意の従来のコンピュータメモリとすることができる。記憶装置1512は、ハードドライブ、CDROM、CDRW、DVD、DVDRW、高精細ディスク/ドライブ、超高精細ドライブ、フラッシュメモリカード又は他の任意の記憶装置を含むことができる。コンピュータ装置1500は、1又は2以上のネットワークインターフェイス1502を含むことができる。ネットワークインターフェイスの一例は、イーサネット又は他のタイプのLANに接続されるネットワークカードを含む。I/Oデバイス1508は、以下のもの、すなわち、キーボード、マウス、モニタ、スクリーン、プリンタ、モデム、タッチスクリーン、ボタンインターフェイス及び他のデバイスのうちの1又は2以上を含むことができる。フル骨格3D姿勢復元方法を実装するのに使用されるフル骨格3D姿勢復元アプリケーション1530は、記憶装置1512及びメモリ1504に記憶されて、アプリケーションが通常処理されるように処理される可能性が高い。コンピュータ装置1500は、図15に示すより多い又は少ない構成要素を含むことができる。いくつかの実施形態では、フル骨格3D姿勢復元ハードウェア1520が含まれる。図15のコンピュータ装置1500は、フル骨格3D姿勢復元方法のためのアプリケーション1530及びハードウェア1520を含むが、フル骨格3D姿勢復元方法は、コンピュータ装置に、ハードウェア、ファームウェア、ソフトウェア又はそれらの任意の組み合わせとして実装することができる。例えば、いくつかの実施形態では、フル骨格3D姿勢復元アプリケーション1530は、メモリにプログラムされて、プロセッサを使用して実行される。別の例では、いくつかの実施形態では、フル骨格3D姿勢復元ハードウェア1520は、フル骨格3D姿勢復元方法を実装するように専用に設計されるゲートを含む、プログラムされたハードウェアロジックである。
いくつかの実施形態では、フル骨格3D姿勢復元アプリケーション1530は、いくつかのアプリケーション及び/又はモジュールを含む。いくつかの実施形態では、モジュールは、1又は2以上のサブモジュールも含む。いくつかの実施形態では、より少ない又は追加のモジュールを含むことができる。
好適なコンピュータ装置の例は、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ電話/携帯電話、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き携帯電話、スマートフォン、携帯音楽プレーヤー、タブレットコンピュータ、移動体デバイス、ビデオプレーヤー、ビデオディスクライター/プレーヤー(例えば、DVDライター/プレーヤー、高精細ディスクライター/プレーヤー、超高精細ディスクライター/プレーヤー)、テレビジョン、家庭用娯楽システム、拡張現実デバイス、仮想現実デバイス、スマートジュエリー(例えば、スマートウォッチ)、車両(例えば、自動運転車両)又は他の任意の好適なコンピュータ装置を含む。
本明細書で説明するフル骨格3D姿勢復元方法を利用するために、デジタルカメラ/カムコーダなどの装置を使用して、コンテンツを取得する。フル骨格3D姿勢復元方法は、ユーザの援助によって又はユーザが関与することなく自動的に実装されて、姿勢推定を実行することができる。
動作時、フル骨格3D姿勢復元方法は、より正確で効率的な姿勢推定実装を提供する。結果は、従来の実装と比較して、はるかに良好な姿勢推定が行われることを示す。
単眼カメラからのフル骨格3D姿勢復元のいくつかの実施形態
1.方法であって、
カメラ情報を受け取るステップであって、前記カメラ情報は、2次元姿勢と、焦点距離を含むカメラパラメータとを含む、ステップと、
前記カメラ情報に特徴抽出を適用するステップであって、前記特徴抽出は、1次元畳み込みを含む残差決定を含む、ステップと、
前記特徴抽出に基づいて、ボーン長を推定するステップと、
前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定するステップと、
前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置(root positions)を導出するステップと、
を含む方法。
2.入力として1又は2以上のフレームを受け取るステップを更に含む、第1項に記載の方法。
3.どのボーン長も、長さが1メートルを超えないと仮定される、第1項に記載の方法。
4.長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる、第1項に記載の方法。
5.グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするステップを更に含む、第1項に記載の方法。
6.各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するステップを更に含む、第1項に記載の方法。
7.2次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップ(random keypoint drop)を用いて、2次元姿勢の摂動(perturbation)を実行して、2次元姿勢予測のノイズ及び遮蔽(occlusion)状況をシミュレートするステップを更に含む、第1項に記載の方法。
8.装置であって、
カメラ情報を受け取ることであって、前記カメラ情報は、2次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、
前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、1次元畳み込みを含む残差決定を含む、ことと、
前記特徴抽出に基づいて、ボーン長を推定することと、
前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、
前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、
を行うためのアプリケーションを記憶するための非一時的メモリと、
前記メモリに結合され、前記アプリケーションを処理するように構成されるプロセッサと、
を備える装置。
9.前記アプリケーションは、入力として1又は2以上のフレームを受け取るように更に構成される、第8項に記載の装置。
10.どのボーン長も、長さが1メートルを超えないと仮定される、第8項に記載の装置。
11.長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる、第8項に記載の装置。
12.前記アプリケーションは、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成される、第8項に記載の装置。
13.前記アプリケーションは、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成される、第8項に記載の装置。
14.前記アプリケーションは、2次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、2次元姿勢の摂動を実行して、2次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成される、第8項に記載の装置。
15.システムであって、
コンテンツを取得するように構成されるカメラと、
コンピュータ装置と、
を備え、
前記コンピュータ装置は、
前記カメラからカメラ情報を受け取ることであって、前記カメラ情報は、2次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、
前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、1次元畳み込みを含む残差決定を含む、ことと、
前記特徴抽出に基づいて、ボーン長を推定することと、
前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、
前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、
を行うように構成される、
システム。
16.前記コンピュータ装置は、入力として1又は2以上のフレームを受け取るように更に構成される、第15項に記載のシステム。
17.どのボーン長も、長さが1メートルを超えないと仮定される、第15項に記載のシステム。
18.長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させる、第15項に記載のシステム。
19.前記コンピュータ装置は、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成される、第15項に記載のシステム。
20.前記コンピュータ装置は、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成される、第15項に記載のシステム。
21.前記コンピュータ装置は、2次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、2次元姿勢の摂動を実行して、2次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成される、第15項に記載のシステム。
本発明の構成及び動作の原理の理解を容易にするために、詳細内容を組み込んだ特定の実施形態に関して本発明を説明してきた。このような本明細書における特定の実施形態及びその詳細内容への言及は、本明細書に添付される特許請求の範囲を限定することを意図するものではない。特許請求の範囲によって規定される本発明の精神及び範囲から逸脱することなく、例示のために選択された実施形態に、他の様々な修正を行うことができることは、当業者に容易に理解されるであろう。
900 カメラパラメータをネットワークに供給
902 フレーム毎に特徴抽出を適用
904 ボーン長を推定
906 ボーン単位ベクトルを推定
1500 コンピュータ装置
1502 ネットワークインターフェイス
1504 メモリ
1506 プロセッサ
1508 I/Oデバイス
1510 バス
1512 記憶装置
1520 フル骨格3D姿勢復元ハードウェア
1530 フル骨格3D姿勢復元アプリケーション

Claims (21)

  1. 方法であって、
    カメラ情報を受け取るステップであって、前記カメラ情報は、2次元姿勢と、焦点距離を含むカメラパラメータとを含む、ステップと、
    前記カメラ情報に特徴抽出を適用するステップであって、前記特徴抽出は、1次元畳み込みを含む残差決定を含む、ステップと、
    前記特徴抽出に基づいて、ボーン長を推定するステップと、
    前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定するステップと、
    前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置(root positions)を導出するステップと、
    を含むことを特徴とする方法。
  2. 入力として1又は2以上のフレームを受け取るステップを更に含むことを特徴とする、請求項1に記載の方法。
  3. どのボーン長も、長さが1メートルを超えないと仮定されることを特徴とする、請求項1に記載の方法。
  4. 長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させることを特徴とする、請求項1に記載の方法。
  5. グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするステップを更に含むことを特徴とする、請求項1に記載の方法。
  6. 各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するステップを更に含むことを特徴とする、請求項1に記載の方法。
  7. 2次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップ(random keypoint drop)を用いて、2次元姿勢の摂動(perturbation)を実行して、2次元姿勢予測のノイズ及び遮蔽(occlusion)状況をシミュレートするステップを更に含むことを特徴とする、請求項1に記載の方法。
  8. 装置であって、
    カメラ情報を受け取ることであって、前記カメラ情報は、2次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、
    前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、1次元畳み込みを含む残差決定を含む、ことと、
    前記特徴抽出に基づいて、ボーン長を推定することと、
    前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、
    前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、
    を行うためのアプリケーションを記憶するための非一時的メモリと、
    前記メモリに結合され、前記アプリケーションを処理するように構成されるプロセッサと、
    を備えることを特徴とする装置。
  9. 前記アプリケーションは、入力として1又は2以上のフレームを受け取るように更に構成されることを特徴とする、請求項8に記載の装置。
  10. どのボーン長も、長さが1メートルを超えないと仮定されることを特徴とする、請求項8に記載の装置。
  11. 長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させることを特徴とする、請求項8に記載の装置。
  12. 前記アプリケーションは、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成されることを特徴とする、請求項8に記載の装置。
  13. 前記アプリケーションは、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成されることを特徴とする、請求項8に記載の装置。
  14. 前記アプリケーションは、2次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、2次元姿勢の摂動を実行して、2次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成されることを特徴とする、請求項8に記載の装置。
  15. システムであって、
    コンテンツを取得するように構成されるカメラと、
    コンピュータ装置と、
    を備え、
    前記コンピュータ装置は、
    前記カメラからカメラ情報を受け取ることであって、前記カメラ情報は、2次元姿勢と、焦点距離を含むカメラパラメータとを含む、ことと、
    前記カメラ情報に特徴抽出を適用することであって、前記特徴抽出は、1次元畳み込みを含む残差決定を含む、ことと、
    前記特徴抽出に基づいて、ボーン長を推定することと、
    前記ボーン長を条件とする前記特徴抽出に基づいて、ボーン単位ベクトルを推定することと、
    前記ボーン長及び前記ボーン単位ベクトルから相対姿勢を推定し、前記ボーン長及び前記ボーン単位ベクトルを条件とする前記特徴抽出に基づいて、ルート位置を導出することと、
    を行うように構成される、
    ことを特徴とするシステム。
  16. 前記コンピュータ装置は、入力として1又は2以上のフレームを受け取るように更に構成されることを特徴とする、請求項15に記載のシステム。
  17. どのボーン長も、長さが1メートルを超えないと仮定されることを特徴とする、請求項15に記載のシステム。
  18. 長・短期記憶を使用して、前記ルート位置を推定して、前記ルート位置を安定させることを特徴とする、請求項15に記載のシステム。
  19. 前記コンピュータ装置は、グローバル位置及び回転に自動拡張を適用して、動的モーションをシミュレートするように更に構成されることを特徴とする、請求項15に記載のシステム。
  20. 前記コンピュータ装置は、各バッチサンプルに対してカメラ視野をランダムに変更して、異なるカメラパラメータを含む任意のビデオを推定するように更に構成されることを特徴とする、請求項15に記載のシステム。
  21. 前記コンピュータ装置は、2次元姿勢入力に対して、ガウスノイズ及びランダムキーポイントドロップを用いて、2次元姿勢の摂動を実行して、2次元姿勢予測のノイズ及び遮蔽状況をシミュレートするように更に構成されることを特徴とする、請求項15に記載のシステム。
JP2023504073A 2020-08-25 2021-08-18 単眼カメラからのフル骨格3d姿勢復元 Pending JP2023536074A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/002,015 2020-08-25
US17/002,015 US11380121B2 (en) 2020-08-25 2020-08-25 Full skeletal 3D pose recovery from monocular camera
PCT/IB2021/057611 WO2022043834A1 (en) 2020-08-25 2021-08-18 Full skeletal 3d pose recovery from monocular camera

Publications (1)

Publication Number Publication Date
JP2023536074A true JP2023536074A (ja) 2023-08-23

Family

ID=77520783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023504073A Pending JP2023536074A (ja) 2020-08-25 2021-08-18 単眼カメラからのフル骨格3d姿勢復元

Country Status (7)

Country Link
US (1) US11380121B2 (ja)
EP (1) EP4176409A1 (ja)
JP (1) JP2023536074A (ja)
KR (1) KR20220149717A (ja)
CN (1) CN115151944A (ja)
CA (1) CA3172140A1 (ja)
WO (1) WO2022043834A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581613B (zh) * 2022-04-29 2022-08-19 杭州倚澜科技有限公司 一种基于轨迹约束的人体模型姿态和形状优化方法和系统
CN117911632B (zh) * 2024-03-19 2024-05-28 电子科技大学 一种人体节点三维虚拟角色动作重构方法、设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10431000B2 (en) * 2017-07-18 2019-10-01 Sony Corporation Robust mesh tracking and fusion by using part-based key frames and priori model
CN109271933B (zh) 2018-09-17 2021-11-16 北京航空航天大学青岛研究院 基于视频流进行三维人体姿态估计的方法
US11902705B2 (en) * 2019-09-03 2024-02-13 Nvidia Corporation Video prediction using one or more neural networks
CN110751039B (zh) 2019-09-18 2023-07-25 平安科技(深圳)有限公司 多视图3d人体姿态估计方法及相关装置

Also Published As

Publication number Publication date
US20220067357A1 (en) 2022-03-03
CN115151944A (zh) 2022-10-04
WO2022043834A1 (en) 2022-03-03
EP4176409A1 (en) 2023-05-10
KR20220149717A (ko) 2022-11-08
CA3172140A1 (en) 2022-03-03
US11380121B2 (en) 2022-07-05

Similar Documents

Publication Publication Date Title
EP3602494B1 (en) Robust mesh tracking and fusion by using part-based key frames and priori model
Whelan et al. Real-time large-scale dense RGB-D SLAM with volumetric fusion
Oikonomidis et al. Full dof tracking of a hand interacting with an object by modeling occlusions and physical constraints
Yi et al. MIME: Human-aware 3D scene generation
CN110660017A (zh) 一种基于三维姿态识别的舞谱记录与演示方法
Saini et al. A review on particle swarm optimization algorithm and its variants to human motion tracking
WO2023015409A1 (zh) 物体姿态的检测方法、装置、计算机设备和存储介质
JP2023536074A (ja) 単眼カメラからのフル骨格3d姿勢復元
CN109272577A (zh) 一种基于Kinect的视觉SLAM方法
Hu et al. We know where they are looking at from the rgb-d camera: Gaze following in 3d
Huang et al. A review of 3D human body pose estimation and mesh recovery
US10791321B2 (en) Constructing a user's face model using particle filters
Liu et al. Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model
Zhu et al. Mvp-human dataset for 3d human avatar reconstruction from unconstrained frames
Otberdout et al. Hand pose estimation based on deep learning depth map for hand gesture recognition
Sharifi et al. Marker-based human pose tracking using adaptive annealed particle swarm optimization with search space partitioning
CN113705379A (zh) 一种手势估计方法、装置、存储介质及设备
Chang et al. Using line consistency to estimate 3D indoor Manhattan scene layout from a single image
Yang et al. Synthetic hands generator for RGB hand tracking
CN113191462A (zh) 信息获取方法、图像处理方法、装置及电子设备
Jiang [Retracted] Application of Rotationally Symmetrical Triangulation Stereo Vision Sensor in National Dance Movement Detection and Recognition
Jin et al. Prema: Part-based recurrent multi-view aggregation network for 3d shape retrieval
Yasin et al. Motion tracking, retrieval and 3d reconstruction from video
Shi et al. Robustness of the Coarse-grained Yoga Datasets verified in Contrastive Learning classification and Yoga Pose Estimation
Reza Scene Understanding for Robotic Applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240401

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240531