JP2021105887A - 3dポーズ取得方法及び装置 - Google Patents
3dポーズ取得方法及び装置 Download PDFInfo
- Publication number
- JP2021105887A JP2021105887A JP2019237546A JP2019237546A JP2021105887A JP 2021105887 A JP2021105887 A JP 2021105887A JP 2019237546 A JP2019237546 A JP 2019237546A JP 2019237546 A JP2019237546 A JP 2019237546A JP 2021105887 A JP2021105887 A JP 2021105887A
- Authority
- JP
- Japan
- Prior art keywords
- pose
- frame
- target
- bounding box
- feature point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 85
- 238000004364 calculation method Methods 0.000 claims description 80
- 238000005457 optimization Methods 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 description 29
- 238000009499 grossing Methods 0.000 description 28
- 230000003287 optical effect Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000005259 measurement Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 9
- 210000000707 wrist Anatomy 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 210000005069 ears Anatomy 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 210000003423 ankle Anatomy 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 210000001624 hip Anatomy 0.000 description 4
- 210000003371 toe Anatomy 0.000 description 4
- 238000009966 trimming Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000003109 clavicle Anatomy 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 210000004197 pelvis Anatomy 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 239000012782 phase change material Substances 0.000 description 1
- 238000002135 phase contrast microscopy Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
対象は、複数の関節を含む身体上の複数の特徴点を備え、対象の3Dポーズは、前記複数の特徴点の位置によって特定されており、
フレームt、および/あるいは、フレームtよりも前の1つあるいは複数のフレームにおける対象の1つあるいは複数の3Dポーズを用いて、フレームt+1における各カメラ画像上で前記対象を囲むバウンディングボックスを決定し、
フレームt+1の各カメラ画像において、前記バウンディングボックス内の画像情報を用いて、各特徴点の位置の確からしさの尤度の空間分布を取得し、前記尤度の空間分布に基づいて、フレームt+1における各特徴点の位置を取得する。
選択された1対象についてバウンディングボックスを決定し、
前記バウンディングボックス内の画像情報を用いて、フレームt+1における前記1対象の各特徴点の位置を取得する。
1つの態様では、各フレームにおいて各対象の3Dポーズを並列で取得する。
画像に複数の対象が含まれることは、1つの態様であって、本発明を限定するものではない。本発明は、1対象のみを含む画像を用いたポーズ取得にも適用される。
前記1つあるいは複数の3Dポーズを用いて、フレームt+1における3Dポーズを予測し、
予測した3Dポーズを各カメラ画像へ投影して、フレームt+1の各カメラ画像における2Dポーズを予測し、
予測した2Dポーズを特定する複数の特徴点の位置情報を用いて、各カメラ画像におけるバウンディングボックスの位置及び大きさを決定する。
1つの態様では、前記バウンディングボックスの位置は、前記バウンディングボックスの中心によって決定される。
1つの態様では、各カメラ画像に対する前記バウンディングボックスの傾きを決定することを含む。
バウンディングボックスの傾きは、例えば、入力画像よりも以前のフレームにおける対象のポーズの正立ポーズに対する傾きを取得すること、あるいは、入力画像において予測される対象のポーズの正立ポーズに対する傾きを取得すること、によって決定することができる。
前記尤度の空間分布を用いて、各特徴点に対応する1つあるいは複数の特徴点の位置候補を取得し、
前記特徴点の位置候補と前記対象の多関節構造を用いた逆運動学に基づく最適化計算を行うことで、前記対象の各関節角を取得し、
前記関節角を用いて順運動学計算を行うことで、前記対象の関節を含む特徴点の位置を取得する。
フレームt+1で取得された尤度の空間分布を用いて、フレームt+1における各関節位置の1つあるいは複数の特徴点位置候補を取得するものである。
1つの態様では、前記探索範囲は、フレームt+1での各特徴点の予測位置の近傍空間である。
1つの態様では、前記探索範囲は、フレームtで取得されている各特徴点の位置の近傍空間である。
1つの態様では、前記特徴点の位置候補の取得における特徴点位置候補の探索範囲は、フレームtで取得されている各特徴点の位置に加えて、あるいは、代えて、フレームtよりも前の1つあるいは複数のフレーム、あるいは/および、フレームt+2以降の1つあるいは複数のフレームで取得されている特徴点の位置の近傍空間である。
1つの態様では、前記探索範囲は、前記特徴点の位置を中心として所定間隔で3次元状に分布する所定数の点群である。
1つの態様では、前記逆運動学に基づく最適化計算において、前記尤度の空間分布が用いられる。
平滑化された特徴点の位置と前記対象の多関節構造を用いた逆運動学に基づく最適化計算を行うことで、前記対象の各関節角を取得する。
1つの態様では、前記関節角を用いて順運動学計算を行うことで、前記対象の関節を含む特徴点の位置を取得する。
対象は、複数の関節を含む身体上の複数の特徴点を備え、各対象の3Dポーズは、前記複数の特徴点の位置によって特定されており、
前記装置は記憶部と処理部を備え、
前記記憶部には、計算された各対象の3Dポーズの時系列データが記憶されており、
前記処理部は、
フレームt、および/あるいは、フレームtよりも前の1つあるいは複数のフレームにおける1対象の1つあるいは複数の3Dポーズを用いて、フレームt+1における各カメラ画像において、前記1対象を囲むバウンディングボックスを決定し、
フレームt+1の各カメラ画像において、前記バウンディングボックス内の画像情報を用いて、各特徴点の位置の確からしさの尤度の空間分布を取得し、前記尤度の空間分布に基づいて、フレームt+1における各特徴点の3D位置を取得する、ように構成されている。
3Dポーズ取得方法における上記の幾つかの態様は、3Dポーズ取得装置に適用される。
1つあるいは複数の取得されている3Dポーズを用いて、次フレームの対象の3Dポーズを予測し、
予測した3Dポーズをカメラの画像平面へ投影して、次フレームのカメラの画像平面における対象の2Dポーズを予測し、
予測した2Dポーズを特定する複数の特徴点の位置情報を用いて、次フレームのカメラの画像におけるバウンディングボックスの位置及び大きさを決定する、
トップダウン型ポーズ推定におけるバウンディングボックスの決定方法、を開示するものである。
複数のカメラと、
バウンディングボックス決定部と、
3Dポーズ取得部と、
を備えたモーションキャプチャシステムであって、
前記3Dポーズ取得部は、各カメラ画像において、バウンディングボックス内の画像情報を用いて、各特徴点の位置の確からしさの尤度の空間分布を取得し、前記尤度の空間分布に基づいて、3Dポーズを取得し、
前記バウンディングボックス決定部は、
1つあるいは複数の取得されている3Dポーズを用いて、次フレームの対象の3Dポーズを予測し、
予測した3Dポーズをカメラの画像平面へ投影して、次フレームのカメラの画像平面における対象の2Dポーズを予測し、
予測した2Dポーズを特定する複数の特徴点の位置情報を用いて、次フレームのカメラの画像におけるバウンディングボックスの位置及び大きさを決定する、
モーションキャプチャシステム、を開示するものである。
1つの態様では、前記モーションキャプチャシステムは、さらに、前記3Dポーズ取得部とは異なる3D位置取得部を備え、前記3D位置取得部は、バウンディングボックスを用いずに対象の3D位置を取得するものである。
1つの態様では、前記3D位置取得部は、3Dポーズ推定器である。
[I]モーションキャプチャシステム
[II]複数対象のモーションキャプチャ
チャプタIでは、ビデオモーションキャプチャシステムについて詳述し、チャプタIIでは、チャプタIに係る手法を複数対象のモーションキャプチャに適用した実施形態について説明する。チャプタIとチャプタIIの開示事項は互いに密接に関連しており、いずれか一方のチャプタに記載された事項を、他方のチャプタに適宜援用し得ることが当業者に理解される。なお、数式の番号は、チャプタIとチャプタIIで独立して付されている。
[A]モーションキャプチャシステムの全体構成
モーションキャプチャシステムは、いわゆるビデオモーションキャプチャシステム(非特許文献16参照)であり、対象の複数のカメラの映像から深層学習を用いて推定した関節位置から3次元再構成を行うものであり、対象は、いかなるマーカやセンサを装着する必要がなく、計測空間も限定されない。複数台のRGBカメラの映像から完全非拘束でモーションキャプチャを行うもので、屋内空間から、屋外でのスポーツフィールドの広い空間まで、原理的には映像が取得できれば、動作計測が可能となる技術である。
ヒートマップは、身体上の特徴点の位置の確からしさの尤度の空間分布を表す。生成されたヒートマップ情報は関節位置取得部に送信され、関節位置取得部によって関節位置が取得される。取得された関節位置データは、関節位置の時系列データとして記憶部に格納される。取得された関節位置データは、平滑化処理部に送信され、平滑化関節位置、関節角が取得される。平滑化された関節位置ないし関節角、及び、対象の身体の骨格構造によって対象のポーズが決定され、ポーズの時系列データからなる対象の動作をディスプレイに表示する。
ヒートマップ取得部は、入力画像に基づいて、各関節位置を含む身体上の特徴点(keypoints)の位置の確からしさの尤度の2次元あるいは3次元の空間分布を生成し、前記尤度の空間分布をヒートマップ形式で表示する。ヒートマップは、空間に広がって変化する値を温度分布のように色強度で空間上に表示すものであり、尤度の可視化を可能とする。尤度の値は例えば0〜1であるが、尤度の値のスケールは任意である。本実施形態において、ヒートマップ取得部は、各関節を含む身体上の特徴点の位置の確からしさの尤度の空間分布、すなわち、ヒートマップ情報(画像の各ピクセルが尤度を表す値を保持している)が取得されていればよく、必ずしも、ヒートマップを表示することを要しない。
図3を参照しつつ、本実施形態に係るモーションキャプチャシステムにおける、カメラのキャリブレーション、骨格モデルの初期姿勢の取得、対象の関節間距離の取得について説明する。
複数のカメラを用いたモーションキャプチャにおいては、複数のカメラ画像を3次元再構成するためのカメラパラメータを取得する必要がある。3次元空間上の任意の点をカメラiの画像面に投影するための行列Miは、以下のように表される。
ここで、Kiは焦点距離や光学的中心等の内部パラメータであり、Ri、tiは、それぞれ、カメラの姿勢・位置を表す外部パラメータである。カメラキャリブレーションは、既知の形状や寸法のキャリブレーション器具(チェッカーボードやキャリブレーションワンド等)を複数台のカメラで撮影することで行うことが可能である。歪みパラメータは、内部パラメータと同時に取得され得る。カメラの撮影空間が広域空間の場合には、上記キャリブレーション器具に代えて、例えば、計測領域全体に亘って球体を移動させながら複数台のカメラで撮影し、各カメラ画像中の球体の中心座標を検出するようにしてもよい。各カメラ画像中の球体の中心座標を用いて、バンドル調整によって、カメラの姿勢及び位置を最適化することで外部パラメータを取得する。なお、内部パラメータは、キャリブレーション器具等を用いることで事前に取得できるが、内部パラメータの一部あるいは全部を、最適化計算によって、外部パラメータと同時に取得してもよい。
3次元状の任意の点をカメラiの撮影面のピクセル位置に変換する関数(行列)μi は記憶部に格納される。
骨格モデルの各関節(図4左図)と、ヒートマップ取得部における身体の特徴点(図4右図、a,o,p,q,rを除く)とを対応させる。対応関係を表1に示す。
対象の動作計測の始点となる初期姿勢を取得する。本実施形態では、関節間距離・初期姿勢の推定を、歪曲収差補正後画像に対し、OpenPoseを適用することで算出された特徴点のピクセル位置から求める。先ず、各カメラで取得された初期画像に基づいて、初期ヒートマップが取得される。本実施形態では、カメラの光学中心と、OpenPoseから算出した各特徴点の初期ヒートマップの重心のピクセル位置とを結ぶ光線を各カメラから考え、2台のカメラの光線の共通垂線の長さが最小になる2台を決定し、その共通垂線の長さが所定の閾値(例えば20mm)以下のとき、その共通垂線の2つの足の中点を3次元上の特徴点の位置とするよう求め、これを用いて骨格モデルの関節間距離・初期姿勢の取得を行う。
関節位置取得部は、ヒートマップ取得部から取得されたヒートマップ情報(各特徴点の位置の確からしさの尤度の空間分布)を用いて関節位置候補を推定し、当該関節位置候補を用いて逆運動学に基づく最適化計算を実行することで骨格モデルの関節角、関節位置を更新する点に特徴を備えている。関節位置取得部は、ヒートマップデータに基づいて関節位置候補を推定する関節位置候補取得部と、関節位置候補を用いて逆運動学に基づく最適化計算を実行して関節角を算出する逆運動学計算部と、算出された関節角を用いて順運動学計算を実行して関節位置を算出する順運動学計算部と、を備えている。
と表す。例えば、t P nを中心とした図6のような間隔sの11×11×11(k=5)の格子状の点を考える。格子点の距離sは画像ピクセルの大きさとは無関係である。
によって求められる。この計算をnj個(OpenPoseの場合は18個)の関節全てにおいて実行する。
なお、逆運動学に基づく最適化計算における各関節の重みt+1Wnには
と規定されるように、各関節の予測位置におけるPCM値の和を用いる。
関節位置取得部でリアルタイムあるいは非リアルタイムで取得された各関節位置は、関節位置の時系列データとして記憶部に格納される。本実施形態では、関節位置取得部でリアルタイムあるいは非リアルタイムで取得された各関節位置は平滑化処理部によって平滑化処理されて、平滑化関節位置が生成される。
関節位置取得部で用いたPCMの取得、逆運動学に基づく最適化計算は時系列的な関係を考慮していないため、出力される関節位置が時間的に滑らかである保証は無い。平滑化処理部の平滑化関節位置取得部では、関節の時系列情報を用いて、時間的な連続性を考慮した平滑化処理を行う。例えば、フレームt+1で取得された関節位置を平滑化する場合には、典型的には、フレームt+1で取得された関節位置、フレームtで取得された関節位置、フレームt-1で取得された関節位置が用いられる。フレームtで取得された関節位置、フレームt-1で取得された関節位置については、平滑化前の関節位置が用いられるが、平滑化後の関節位置を用いることもできる。非リアルタイムで平滑化処理を実行する場合には、後の時刻で取得された関節位置、例えば、フレームt+2以降のフレームの関節位置を用いてもよい。また、平滑化関節位置取得部では、必ずしも連続するフレームを用いなくてもよい。計算を単純にするために、先ず、身体構造情報を用いずに平滑化を行う。このため隣接する関節の距離であるリンク長は保存されない。次いで、平滑化後の関節位置を用いて、再度、対象の骨格構造を使った逆運動学に基づく最適化計算を行って、前記対象の各関節角を取得することで、リンク長を保存した平滑化を行う。
[F−1]入力画像の回転
ヒートマップの計算では、画像の中で人が正立する画像に対して、人が横臥の姿勢や倒立に近い姿勢でいる画像に対して精度が下がることがある。これは、ヒートマップ取得部で用いる学習データの中に正立に近い画像が多いというデータの偏りによって、対象の逆立ちや側転といった倒立運動では下半身の推定誤差が大きくなるためである。この場合、前フレームでの対象の体の傾きに応じて画像を回転させ、できるだけ対象が正立に近い姿勢で画像に現れるようにする。本実施形態では下半身のPCMを回転画像から取得した。
前処理は、対象の身体の傾きに応じて入力画像を回転させる処理に限定されない。前フレームにおける1人あるいは複数人の対象の3次元位置情報を用いて実行される前処理としては、トリミングあるいは/および縮小、マスク処理、カメラ選択、スティッチングを例示することができる。
本実施形態に係る入力画像から関節角度、特徴点の位置を取得するまでの工程を、図2を参照しつつ説明する。複数の同期したカメラによって対象者の動作が撮影され、各カメラから所定のフレームレートでRGB画像が出力される。処理部は、入力画像を受信すると、前処理の要否を判定する。前処理は、例えば、画像の回転の要否である。所定の判定基準によって画像の回転が必要だと判定された場合には、入力画像を回転した状態でヒートマップが取得される。画像の回転が不要だと判定された場合には、入力画像に基づいてヒートマップが取得される。
[A]モーションキャプチャシステムの概要
本実施形態に係る複数人ビデオモーションキャプチャは、トップダウン型のポーズ推定を用いるものである。図9に、本実施形態に係る複数人ビデオモーションキャプチャのフローチャートを示す。複数のカメラで撮影された複数視点画像が入力画像として用いられる。入力画像には、複数人が含まれているが、各人をバウンディングボックスで囲むことで、各人について独立してビデオモーションキャプチャが実行される。各視点において複数のカメラが配置されている場合には、各視点において1つのカメラが選択され、選択されたカメラ画像において、対象となる人物を囲むバウンディングボックスが決定される。バウンディングボックス内の画像情報に基づいて特徴点(keypoint)のヒットマップ情報が取得される。本実施形態では、各特徴点のヒートマップは、トップダウンポーズ推定器の1つであるHRNet(https://github.com/HRNet)を用いて推定される。初期設定において、各人に特有の骨格モデルが設定されており、各カメラ画像から得られた各特徴点のヒートマップ情報と骨格パラメータを用いて特徴点の3次元再構成が実行される。各人に特有の骨格パラメータについては、チャプタIの記載を参照することができる。各時刻において特徴点の3D位置及び関節角を取得することで、特徴点の3D位置及び関節角の時系列情報(3Dポーズの時系列情報)から、当該対象のモーションキャプチャが行われる。各時刻における特徴点の3D位置及び関節角の取得は、複数人について並列で実行され、複数人のモーションキャプチャが行われる。1つの態様では、各人の特徴点の3D位置及び関節角の時系列情報(3Dポーズの時系列情報)に対応する骨格構造を同時にディスプレイに表示される。
となる。各視点vにおいて、nCv台のカメラから1つのカメラを選択して、選択したカメラの画像を用いて特徴点の2D位置の推定を行う。より具体的には、選択したカメラの画像上に所定のバウンディングボックスを設定し、バウンディングボックス内のピクセル情報を用いて特徴点のヒートマップを取得する。上記カメラシステムは例示であって、複数視点のそれぞれに1台のカメラを配置してカメラシステムを構成してもよい。
複数台のカメラで対象を撮影する。各画像内における対象人物の領域を探索し、バウンディングボックスを作成する。初期設定時の人物領域の探索には、Yolov3に代表される人検出器や、OpenPoseのような複数人対応の姿勢推定器、カメラパラメータを利用したエピポーラ拘束、顔認識や服装認識等を用いた個人特定器等を利用して求めることができる。あるいは、各人の領域を人手で与えてもよい。バウンディングボックス内には複数人数が含まれていてもよい。
本実施形態に係るモーションキャプチャシステムは、トップダウン型のポーズ推定を用いるものであり、各特徴点のヒートマップの計算に先立って、バウンディングボックスを決定する。本実施形態では、他フレームで取得されている特徴点の3D位置情報を用いて、適切なバウンディングボックスの寸法・位置を予測する。本実施形態に係るビデオモーションキャプチャは、光学式モーションキャプチャと同等の高精度のモーションキャプチャを実行することができる。フレームレートが十分に高ければ、対象の現在の3Dポーズは、計算された直前の3Dポーズ、あるいは、直前の複数の3Dポーズ(過去の3D動作)から予測することができる。適切なバウンディングボックスの寸法・位置は、対象の3Dポーズの予測位置に基づいて、透視投影変換(行列μiを用いる)を用いて計算可能である。
ここで、t+1 lBiは、時刻t+1における人lのカメラiの画像上で予測された中心位置及び寸法を表している。t lP、t-1 lP、t-2 lPは、時刻t、t-1、t-2における人lの全ての関節の3D位置である。mは、対象の全身がちょうど含まれると想定されるバウンディングボックスの寸法を決定するための正の定数値である。
[D−1]特徴点のヒートマップの取得
本実施形態では、COCOデータセットで学習したHRNetのモデルを用いて、特徴点のヒートマップを取得する。本実施形態では、入力画像は、用いるトップダウン型のポーズ推定器に応じて、所定の寸法W´×H´×3(RGB)にリサイズされ得る。例えば、HRNetのポーズ推定器では、W´×H´=288×384である。特徴点の数は、nk=17であり、12個の関節(肩、肘、手首、腰、ひざ、足首)と5個の特徴点(目、耳、鼻)からなる。特徴点に対応するヒートマップを生成するトップダウン型のポーズ推定器自体は公知であり、本実施形態に用い得るポーズ推定器は、HRNetのモデルに限定されない。
本実施形態で用いたHRNetは、身体が過度に傾いていないことを前提として学習されている。したがって、垂直方向に対して身体が大きく傾いている場合(例えば、倒立や側転)には、ポーズ推定が失敗するおそれがある。本実施形態では、バウンディングボックスを回転させることで、特徴点のヒートマップをより正確に推定する。バウンディングボックスの回転角は、胴と首を結ぶ予測ベクトルの傾きから導出する。
この式において、nは人体骨格モデルの関節位置を表している。数字は、図4左図で数字で示す位置に対応している。1つの態様では、11個の特徴点(肩、肘、手首、目、耳、鼻)のヒートマップが、回転されたバウンディングボックスに囲まれた領域の画像情報を用いて計算される。バウンディングボックスの回転は、画像に対する相対的な回転でもよく、回転させた入力画像上にバウンディングボックスを設定してもよい。入力画像の回転については、前チャプタの入力画像の回転を参照することができる。
本実施形態では、1つの視点において、視野の異なる複数のカメラを備えているので、対象となる人物が最も適切に撮影されているカメラを、特徴点の2D位置推定を用いて選択する。カメラの選択は、例えば、予測された各関節位置を用いて以下の式で実行される。
Iは、カメラ画像の解像度を表している。
3Dポーズ推定では、一般に、各カメラから検出された特徴点の2D位置を3次元再構成することで特徴点(keypoint)の3D位置を取得している。より具体的には、例えば、各カメラ画像において、特徴点のヒートマップの中心座標を当該特徴点の2D位置と推定して、これらの2D位置を用いて特徴点の3D位置を取得する。しかしながら、このようなシンプルな手法では、例えば、シビアなオクルージョン環境では、特徴点の誤検出によって、3Dポーズ推定に失敗するであろう(図13参照)。ここで着目すべき点は、ヒートマップから検出した特徴点の2D位置(ヒートマップの中心座標)が誤検出であった場合であっても、ヒートマップは、特徴点の位置の確からしさの尤度の空間分布であり、特徴点の正しい位置についての尤度を示しているであろうということである。
透視投影変換を用いることで、任意の3D座標の点のカメラiの画像上の座標に投影することができ、該座標に対応する尤度(PCMスコア)を取得することができる。t+1 lPn predが正確に予測されていると仮定すると、最も可能性の高い特徴点の3D位置は、尤度(PCMスコア)の合計が最大となる格子上の点となる。関節位置候補取得部の処理工程を図12に示す。
ここで、t+1 lSn i(X)は、時刻t+1でカメラiにおいて、人物lの関節nの尤度(PCMスコア)を取得するための関数である。gは、0〜1の間の定数であり、当業者により適宜設定される。なお、gの最適な値は、例えば、オクルージョンの状況や、関節の部位、視点の数等によって変わり得る。
ここで、t+1 lQは、時刻t+1における人物lの関節角を表し、lJはヤコビアン行列を表す。
しかしながら、平滑化処理が実行されると、骨格モデルが壊れて、空間連続性が失われる。さらに、上記逆運動学計算では、リング長のみが考慮されているので、各関節角は可動域を考慮していない。そこで、目標位置として滑らかにされた関節位置を用いて、再度、逆運動学計算によって骨格モデルを最適化する。
ここで、Q−、Q+は、RoM(Range of Motion)の最小値及び最大値を表す。この計算により、より適切な関節位置及び角度(3Dポーズ)が取得される。
本実施形態に係る3Dポーズ推定器は、バウンディングボックスを用いた対象の判別に性能を依存している。したがって、例えば、
(i)対象の3Dポーズの過度の誤推定が生じた場合(典型的には、複数の対象が極度に密接した場合)、
(ii)対象がキャプチャボリューム外に移動した場合、
(iii)新たな対象がキャプチャボリューム内に登場した場合、
に如何に対処するかも重要である。本セクションでは、上述の事象の生起を検知することで、モーションキャプチャフローを補完する機構について説明する。
Claims (20)
- 複数カメラを用いたモーションキャプチャにおける対象の3Dポーズ取得方法であって、
対象は、複数の関節を含む身体上の複数の特徴点を備え、対象の3Dポーズは、前記複数の特徴点の位置によって特定されており、
フレームt、および/あるいは、フレームtよりも前の1つあるいは複数のフレームにおける対象の1つあるいは複数の3Dポーズを用いて、フレームt+1における各カメラ画像上で前記対象を囲むバウンディングボックスを決定し、
フレームt+1の各カメラ画像において、前記バウンディングボックス内の画像情報を用いて、各特徴点の位置の確からしさの尤度の空間分布を取得し、前記尤度の空間分布に基づいて、フレームt+1における各特徴点の3D位置を取得する、
3Dポーズ取得方法。 - 前記画像には複数の対象が含まれており、
選択された1対象についてバウンディングボックスを決定し、
前記バウンディングボックス内の画像情報を用いて、フレームt+1における前記1対象の各特徴点の3D位置を取得する、
請求項1に記載の3Dポーズ取得方法。 - 各フレームにおいて各対象の3Dポーズを並列で取得する、
請求項2に記載の3Dポーズ取得方法。 - 前記バウンディングボックスの決定は、
前記1つあるいは複数の3Dポーズを用いて、フレームt+1における3Dポーズを予測し、
予測した3Dポーズを各カメラ画像へ投影して、フレームt+1の各カメラ画像における2Dポーズを予測し、
予測した2Dポーズを特定する複数の特徴点の位置情報を用いて、各カメラ画像におけるバウンディングボックスの位置及び大きさを決定する、
請求項1〜3いずれか1項に記載の3Dポーズ取得方法。 - 前記バウンディングボックスの位置は、前記バウンディングボックスの中心によって決定される、
請求項4に記載の3Dポーズ取得方法。 - 各カメラ画像に対する前記バウンディングボックスの傾きを決定することを含む、
請求項4、5いずれか1項に記載の3Dポーズ取得方法。 - 前記対象において、隣接する関節間の距離が定数として得られており、
前記尤度の空間分布を用いて、各特徴点に対応する1つあるいは複数の特徴点の位置候補を取得し、
前記特徴点の位置候補と前記対象の多関節構造を用いた逆運動学に基づく最適化計算を行うことで、前記対象の各関節角を取得し、
前記関節角を用いて順運動学計算を行うことで、前記対象の関節を含む特徴点の位置を取得する、
請求項1〜4いずれか1項に記載の3Dポーズ取得方法。 - 前記特徴点の位置候補の取得は、1つあるいは複数のフレームで取得されている各特徴点の3D位置を用いて特徴点位置候補の探索範囲を設定し、
前記探索範囲内の点の全部あるいは一部を各カメラ画像平面のピクセル位置へ変換し、
フレームt+1で取得された尤度の空間分布を用いて、フレームt+1における各関節位置の1つあるいは複数の特徴点位置候補を取得するものである、請求項7に記載の3Dポーズ取得方法。 - 前記探索範囲は、フレームt+1での各特徴点の予測3D位置の近傍空間である、請求項8に記載の3Dポーズ取得方法。
- 前記探索範囲は、フレームtで取得されている各特徴点の3D位置の近傍空間である、請求項8に記載の3Dポーズ取得方法。
- 前記逆運動学に基づく最適化計算において、前記尤度の空間分布が用いられる、請求項7〜10いずれか1項に記載の3Dポーズ取得方法。
- 前記特徴点の位置を、他の複数のフレームで取得された複数の特徴点の位置を用いて時間方向に平滑化し、
平滑化された特徴点の位置と前記対象の多関節構造を用いた逆運動学に基づく最適化計算を行うことで、前記対象の各関節角を取得する、
請求項7〜11いずれか1項に記載の3Dポーズ取得方法。 - 複数カメラを用いたモーションキャプチャにおける対象の3Dポーズ取得装置であって、
対象は、複数の関節を含む身体上の複数の特徴点を備え、各対象の3Dポーズは、前記複数の特徴点の位置によって特定されており、
前記装置は記憶部と処理部を備え、
前記記憶部には、計算された各対象の3Dポーズの時系列データが記憶されており、
前記処理部は、
フレームt、および/あるいは、フレームtよりも前の1つあるいは複数のフレームにおける1対象の1つあるいは複数の3Dポーズを用いて、フレームt+1における各カメラ画像において、前記1対象を囲むバウンディングボックスを決定し、
フレームt+1の各カメラ画像において、前記バウンディングボックス内の画像情報を用いて、各特徴点の位置の確からしさの尤度の空間分布を取得し、前記尤度の空間分布に基づいて、フレームt+1における各特徴点の3D位置を取得する、
ように構成されている、3Dポーズ取得装置。 - 前記バウンディングボックスの決定は、
前記1つあるいは複数の3Dポーズを用いて、フレームt+1における3Dポーズを予測し、
予測した3Dポーズを各カメラ画像へ投影して、フレームt+1の各カメラ画像における2Dポーズを予測し、
予測した2Dポーズを特定する複数の特徴点の位置情報を用いて、各カメラ画像におけるバウンディングボックスの位置及び大きさを決定する、
請求項13に記載の3Dポーズ取得装置。 - 前記記憶部には、前記1対象について、隣接する関節間の距離が定数として格納されており、
前記処理部は、
前記尤度の空間分布を用いて、各特徴点に対応する1つあるいは複数の特徴点の位置候補を取得し、
前記特徴点の位置候補と前記対象の多関節構造を用いた逆運動学に基づく最適化計算を行うことで、前記対象の各関節角を取得し、
前記関節角を用いて順運動学計算を行うことで、前記対象の関節を含む特徴点の位置を取得する、
請求項13、14いずれか1項に記載の3Dポーズ取得装置。 - 前記処理部は、1つあるいは複数のフレームで取得されている各特徴点を用いて特徴点位置候補の探索範囲を設定し、フレームt+1で取得された尤度の空間分布を用いて、フレームt+1における各関節位置の1つあるいは複数の特徴点位置候補を取得する、請求項15に記載の3Dポーズ取得方法。
- 前記処理部は、
前記特徴点の位置を、他の複数のフレームで取得された複数の特徴点の位置を用いて時間方向に平滑化し、
平滑化された特徴点の位置と前記対象の多関節構造を用いた逆運動学に基づく最適化計算を行うことで、前記対象の各関節角を取得する、
ように構成されている、
請求項15、16いずれか1項に記載の3Dポーズ取得装置。 - 1つあるいは複数の取得されている3Dポーズを用いて、次フレームの対象の3Dポーズを予測し、
予測した3Dポーズをカメラの画像平面へ投影して、次フレームのカメラの画像平面における対象の2Dポーズを予測し、
予測した2Dポーズを特定する複数の特徴点の位置情報を用いて、次フレームのカメラの画像におけるバウンディングボックスの位置及び大きさを決定する、
トップダウン型ポーズ推定におけるバウンディングボックスの決定方法。 - 複数のカメラと、
バウンディングボックス決定部と、
3Dポーズ取得部と、
を備えたモーションキャプチャシステムであって、
前記3Dポーズ取得部は、各カメラ画像において、バウンディングボックス内の画像情報を用いて、各特徴点の位置の確からしさの尤度の空間分布を取得し、前記尤度の空間分布に基づいて、3Dポーズを取得し、
前記バウンディングボックス決定部は、
1つあるいは複数の取得されている3Dポーズを用いて、次フレームの対象の3Dポーズを予測し、
予測した3Dポーズをカメラの画像平面へ投影して、次フレームのカメラの画像平面における対象の2Dポーズを予測し、
予測した2Dポーズを特定する複数の特徴点の位置情報を用いて、次フレームのカメラの画像におけるバウンディングボックスの位置及び大きさを決定する、
モーションキャプチャシステム。 - さらに、前記3Dポーズ取得部とは異なる3D位置取得部を備え、前記3D位置取得部は、バウンディングボックスを用いずに対象の3D位置を取得するものである、
請求項19に記載のモーションキャプチャシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019237546A JP7427188B2 (ja) | 2019-12-26 | 2019-12-26 | 3dポーズ取得方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019237546A JP7427188B2 (ja) | 2019-12-26 | 2019-12-26 | 3dポーズ取得方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021105887A true JP2021105887A (ja) | 2021-07-26 |
JP7427188B2 JP7427188B2 (ja) | 2024-02-05 |
Family
ID=76918857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019237546A Active JP7427188B2 (ja) | 2019-12-26 | 2019-12-26 | 3dポーズ取得方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7427188B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869217A (zh) * | 2021-09-29 | 2021-12-31 | 北京复数健康科技有限公司 | 一种用于获取图像识别数据的方法和系统 |
CN114419842A (zh) * | 2021-12-31 | 2022-04-29 | 浙江大学台州研究院 | 一种基于人工智能的辅助用户至智能马桶的跌倒报警方法及装置 |
CN115019338A (zh) * | 2022-04-27 | 2022-09-06 | 淮阴工学院 | 一种基于GAMHR-Net的多人姿态估计方法及系统 |
CN115578513A (zh) * | 2022-09-30 | 2023-01-06 | 中国科学院半导体研究所 | 三维人体重建方法、装置、电子设备及存储介质 |
WO2022265575A3 (en) * | 2021-06-14 | 2023-03-02 | Nanyang Technological University | Method and system for generating a training dataset for keypoint detection, and method and system for predicting 3d locations of virtual markers on a marker-less subject |
WO2023188216A1 (ja) * | 2022-03-30 | 2023-10-05 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
WO2023188217A1 (ja) * | 2022-03-30 | 2023-10-05 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
JP7491878B2 (ja) | 2021-08-12 | 2024-05-28 | Kddi株式会社 | 骨格推定装置及びプログラム |
WO2024118233A1 (en) * | 2022-11-30 | 2024-06-06 | Qualcomm Incorporated | Dynamic camera selection and switching for multi-camera pose estimation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005209148A (ja) * | 2003-12-26 | 2005-08-04 | Nippon Hoso Kyokai <Nhk> | オフサイドライン検出装置及びそのプログラム、並びに、選手位置検出装置 |
JP2006285569A (ja) * | 2005-03-31 | 2006-10-19 | Victor Co Of Japan Ltd | 人物検出装置 |
JP2014211404A (ja) * | 2013-04-22 | 2014-11-13 | 株式会社ノビテック | モーションキャプチャー方法 |
JP2017158169A (ja) * | 2016-02-29 | 2017-09-07 | 株式会社リコー | 画像表示システム、表示装置、プログラム |
-
2019
- 2019-12-26 JP JP2019237546A patent/JP7427188B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005209148A (ja) * | 2003-12-26 | 2005-08-04 | Nippon Hoso Kyokai <Nhk> | オフサイドライン検出装置及びそのプログラム、並びに、選手位置検出装置 |
JP2006285569A (ja) * | 2005-03-31 | 2006-10-19 | Victor Co Of Japan Ltd | 人物検出装置 |
JP2014211404A (ja) * | 2013-04-22 | 2014-11-13 | 株式会社ノビテック | モーションキャプチャー方法 |
JP2017158169A (ja) * | 2016-02-29 | 2017-09-07 | 株式会社リコー | 画像表示システム、表示装置、プログラム |
Non-Patent Citations (2)
Title |
---|
RISHABH DABRAL, ET AL: "Multi-Person 3D Human Pose Estimation from Monocular Images", 2019 INTERNATIONAL CONFERENCE ON 3D VISION (3DV), JPN6023043378, 2019, US, pages 405 - 414, XP033653359, ISSN: 0005228629, DOI: 10.1109/3DV.2019.00052 * |
TAKUYA OHASHI, ET AL: "Video Motion Capture from the Part Confidence Maps of Multi-Camera Images by Spatiotemporal Filterin", 2018 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS), JPN6023043377, 6 January 2019 (2019-01-06), US, pages 4226 - 4231, ISSN: 0005228628 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022265575A3 (en) * | 2021-06-14 | 2023-03-02 | Nanyang Technological University | Method and system for generating a training dataset for keypoint detection, and method and system for predicting 3d locations of virtual markers on a marker-less subject |
JP7491878B2 (ja) | 2021-08-12 | 2024-05-28 | Kddi株式会社 | 骨格推定装置及びプログラム |
CN113869217A (zh) * | 2021-09-29 | 2021-12-31 | 北京复数健康科技有限公司 | 一种用于获取图像识别数据的方法和系统 |
CN114419842A (zh) * | 2021-12-31 | 2022-04-29 | 浙江大学台州研究院 | 一种基于人工智能的辅助用户至智能马桶的跌倒报警方法及装置 |
CN114419842B (zh) * | 2021-12-31 | 2024-05-10 | 浙江大学台州研究院 | 基于人工智能的辅助用户至马桶的跌倒报警方法及装置 |
WO2023188216A1 (ja) * | 2022-03-30 | 2023-10-05 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
WO2023188217A1 (ja) * | 2022-03-30 | 2023-10-05 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
CN115019338A (zh) * | 2022-04-27 | 2022-09-06 | 淮阴工学院 | 一种基于GAMHR-Net的多人姿态估计方法及系统 |
CN115019338B (zh) * | 2022-04-27 | 2023-09-22 | 淮阴工学院 | 一种基于GAMHR-Net的多人姿态估计方法及系统 |
CN115578513A (zh) * | 2022-09-30 | 2023-01-06 | 中国科学院半导体研究所 | 三维人体重建方法、装置、电子设备及存储介质 |
CN115578513B (zh) * | 2022-09-30 | 2023-06-23 | 中国科学院半导体研究所 | 三维人体重建方法、装置、电子设备及存储介质 |
WO2024118233A1 (en) * | 2022-11-30 | 2024-06-06 | Qualcomm Incorporated | Dynamic camera selection and switching for multi-camera pose estimation |
Also Published As
Publication number | Publication date |
---|---|
JP7427188B2 (ja) | 2024-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7209333B2 (ja) | 関節位置の取得方法及び装置、動作の取得方法及び装置 | |
JP7427188B2 (ja) | 3dポーズ取得方法及び装置 | |
US8824781B2 (en) | Learning-based pose estimation from depth maps | |
US9330307B2 (en) | Learning based estimation of hand and finger pose | |
JP5111210B2 (ja) | 画像処理装置、画像処理方法 | |
JP6116784B1 (ja) | 3次元モデル生成システム、3次元モデル生成方法、及びプログラム | |
US20230008567A1 (en) | Real-time system for generating 4d spatio-temporal model of a real world environment | |
US7457439B1 (en) | System and method for motion capture | |
US9317741B2 (en) | Three-dimensional object modeling fitting and tracking | |
TW201234278A (en) | Mobile camera localization using depth maps | |
WO2007102537A1 (ja) | 姿勢推定装置および方法 | |
CN110136202A (zh) | 一种基于ssd与双摄像头的多目标识别与定位方法 | |
WO2022191140A1 (ja) | 3d位置取得方法及び装置 | |
JP2019096113A (ja) | キーポイントデータに関する加工装置、方法及びプログラム | |
Ohashi et al. | Synergetic reconstruction from 2D pose and 3D motion for wide-space multi-person video motion capture in the wild | |
CN109613974A (zh) | 一种大场景下的ar家居体验方法 | |
Bachmann et al. | Motion capture from pan-tilt cameras with unknown orientation | |
Phan et al. | Towards 3D human posture estimation using multiple kinects despite self-contacts | |
Shere et al. | Temporally consistent 3D human pose estimation using dual 360deg cameras | |
Chen et al. | A real-time photogrammetric system for acquisition and monitoring of three-dimensional human body kinematics | |
JP2019197278A (ja) | 画像処理装置、画像処理装置の制御方法およびプログラム | |
TWI775637B (zh) | 高爾夫揮桿解析系統、高爾夫揮桿解析方法及資訊記憶媒體 | |
Barrón et al. | Monocular human motion tracking | |
ShangGuan et al. | 3D video-based motion capture using Convolutional Neural Networks | |
Wang | Hybrid panoramic visual SLAM and point cloud color mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20200122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200122 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7427188 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |