JP5525407B2 - 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム - Google Patents

動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム Download PDF

Info

Publication number
JP5525407B2
JP5525407B2 JP2010229783A JP2010229783A JP5525407B2 JP 5525407 B2 JP5525407 B2 JP 5525407B2 JP 2010229783 A JP2010229783 A JP 2010229783A JP 2010229783 A JP2010229783 A JP 2010229783A JP 5525407 B2 JP5525407 B2 JP 5525407B2
Authority
JP
Japan
Prior art keywords
dimensional
joint
space
posture
latent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010229783A
Other languages
English (en)
Other versions
JP2012083955A (ja
Inventor
鮎美 松本
小軍 ウ
佳織 若林
宣彦 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010229783A priority Critical patent/JP5525407B2/ja
Publication of JP2012083955A publication Critical patent/JP2012083955A/ja
Application granted granted Critical
Publication of JP5525407B2 publication Critical patent/JP5525407B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像データから推定対象の3次元的な姿勢を推定するための動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラムに関する。
近年、モーションキャプチャシステムを用いずに、画像データから人体の姿勢推定・運動解析を行う研究が広く行われている(例えば、非特許文献1参照)。
これらの研究は、映像監視やヒューマンインタラクション、ロボットの運動制御、CGアニメーションへの動作あてはめ、医療分野等、幅広い分野への応用が期待されている。
しかし、画像データに基づき人体の3次元的な仮想空間における姿勢を推定する場合、任意の時間において、人体の関節の3次元回転角を推定することが困難である。特に、単眼カメラにより撮影された画像データからの3次元の姿勢を推定する場合、画像データにおいては2次元で人体が表現されているため、3次元で表現するための情報の欠如している。これにより、姿勢の多義性に対応できないことや、手足や障害物による遮蔽に対応できないことなどが問題となる。これらの問題に対処するため、推定する際に、人体の動きに関する事前知識を用いる手法が注目されている。この事前知識とは、2次元の画像データに基づき、3次元で表現するために欠如している情報を補充するための情報である。
例えば、2次元の画像から人体の3次元的な姿勢を推定する方法において、事前知識を利用する場合、事前にモーションキャプチャシステム等により計測された人体の関節の3次元回転角をモデル化しておくことが必要となる。
例えば、人体は、剛体とみなすことができる「部位」と、部位同士を連結する「関節」からなる多関節物体として扱うことができる。人体は、少なくとも10個の関節を持つと考えられる。これによると、全身の姿勢を3次元回転角により表現するためには、30以上のパラメータを必要とする。
このように、人体の構造は非常に複雑であるため、単眼カメラにより撮影された画像データからの3次元の姿勢を推定する場合、その姿勢をモデル化し、姿勢推定や運動解析を行うことは困難な問題となっていた。
そこで、近年では、単眼カメラ映像から、人体の3次元動作を推定するために、GP−LVM(例えば、非特許文献2参照)やGPDM(例えば、非特許文献3参照)のような非線形かつ確率的な次元圧縮手法を用いるものがある。この手法を用いて、高次元な姿勢空間で表現される3次元の動作を低次元な潜在空間でモデル化したものを事前知識として得ておく。この事前知識(動作モデル)を用いて、2次元で表現される映像において追跡した人物の関節点から3次元の仮想空間で表現するための情報を推定する手法が広く利用されている。
なお、Gaussian Process Latent Variable Model(GP−LVM)は、非線形かつ確率的に高次元の観測空間から低次元の潜在空間への次元圧縮を実現する潜在変数モデルであり、高次元の姿勢空間のパラメータを低次元の潜在空間からのガウシアンプロセス回帰として表現している。
Gaussian Process Dynamical Models(GPDM)は、GP−LVMの拡張手法であり、潜在空間上のダイナミクスを考慮したモデルである。
各時刻における姿勢推定ではなく、過去の姿勢を参照して推定を行うことで、より安定した姿勢推定が可能になるとされているため、事前知識として、GPDMにより潜在空間上でのなめらかな状態遷移をモデル化したものを用いることは、時系列データである人体動作の学習に適している。
このようなGPLVMやGPDM等の潜在空間モデルを事前知識として、2次元で表現される画像から人体の3次元で表現される動作を推定する方法では、動作モデルの学習時に3次元の仮想空間における全身の関節の動きを示す3次元パラメータから一つの潜在変数モデルを構築するため、推定時に理想的には全身の関節点の情報を与えることが必要であった。
図9を参照して、GPLVMやGPDM等の潜在空間モデルを事前知識として、2次元で表現される画像から人体の3次元で表現される動作を推定する方法の一例について説明する。
図9に示す通り、人体を多関節物体として規定する3次元動作データを入力し(ステップS201)、この3次元動作データに基づき人体の全ての関節点についての3次元的な回転角を獲得する(ステップS202)。ついで、3次元回転角から全ての関節点により人体の動作が表わされる3次元姿勢行列を構築する(ステップS203)。そして、この人体の動作を低次元な潜在変数モデルとして学習し、学習により得られたモデルを記憶部に記憶しておく(ステップS204)。
一方、推定対象である2次元の画像データの初期フレームにおいて、人体の関節点の位置を手動で設定する(ステップS205)。そして、設定された関節点の2次元追跡を行い(ステップS206)、追跡した関節点から観測ベクトルを構築する(ステップS207)。次いで、記憶部のモデルを参照して、潜在空間における設定された関節点の位置を推定し、(ステップS208)、3次元姿勢を推定する(ステップS209)。
島田,伸敬,有田,大作,玉木,徹 "関節物体のモデルフィッティング" 情報処理学会研究報告CVIM Vol.154. page.375−392. 2006. Neil Lawrence , Aapo Hyvrinen. ¥Probabilistic Non−linear Principal Component Analysis with Gaussian Process Latent Variable Models." Journal of Machine Learning Research.Vol.6.pp.1783{1816. 2005. R. Urtasun, D. J. Fleet, and P. Fua. ¥3d people tracking with gaussian process dynam−ical models." CVPR, 2006.
しかし、推定時に用いられる単眼カメラにより撮影された2次元の画像データから、画像特徴量等を得て人体の全身の関節を検出することは、本質的に困難である。なぜなら、撮影した人が着ている衣服や姿勢によっては、全ての関節を画像データから検出することが困難な場合があるからです。
このため、1)推定の際に2次元画像上に手動で関節位置を指定する必要があった。また、2)推定精度が2次元追跡の精度に依存してしまい、画像データ内における一部の関節を追跡できない場合、推定精度が悪くなる問題が生じていた。
本発明は、上記課題を解決するものであり、関節位置を手動で指定することなく、姿勢推定の精度を向上させることができる動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラムを提供することを目的とする。
上述の課題を鑑み、本発明に係る動作モデル学習装置は、複数の関節により構成される多関節物体の動作を3次元の仮想空間における前記関節の回転角により表現する3次元動作データを出力する3次元動作データ出力部と、入力する前記3次元動作データから前記関節の回転角を示す情報を取り出し、前記多関節物体を構成する全ての関節の回転角に基づき前記3次元の仮想空間よりも高次元な状態空間の姿勢空間における前記多関節物体の動作を表現する全体姿勢行列を時系列に並べられた複数枚の2次元画像から算出するとともに、前記多関節物体を構成する全ての関節のうち2次元画像において画像認識しやすい関節として予め決められている一部の関節の回転角に基づき前記姿勢空間における前記多関節物体の動作を表現する一部姿勢行列を時系列に並べられた複数枚の2次元画像から算出する姿勢行列構成部と、前記全体姿勢行列に基づき前記姿勢空間よりも低次元な状態空間の潜在空間における前記多関節物体の動作を表現する全体潜在変数モデルと、前記一部姿勢行列に基づき前記潜在空間における前記多関節物体の動作を表現する一部潜在変数モデルとを作成し、前記潜在空間において前記全体潜在変数モデルと前記一部潜在変数モデルとを対応付ける動作モデルを作成する動作モデル学習部とを備えることを特徴とする。
また、上述の課題を鑑み、本発明に係る3次元姿勢推定装置は、上述の動作モデル学習装置により作成された前記動作モデルを記憶する記憶部と、動作する多関節物体を撮影して得られる複数の画像データを入力する画像入力部と、多関節物体を構成する全ての関節のうち2次元画像において画像認識しやすい関節として予め決められている一部の関節を前記画像データから検出し、前記複数の画像データの画像内における前記一部の関節の位置変化を示す観測ベクトルを算出する観測情報算出部と、前記記憶部の動作モデルを参照して前記観測ベクトルに基づき前記一部潜在変数モデルの潜在空間における前記一部の関節の位置を算出し、前記一部潜在変数モデルの潜在空間から前記全体潜在変数モデルの潜在空間への写像を行い、前記全体潜在変数モデルの潜在空間における前記全部の関節の位置を算出して、3次元の仮想空間における前記多関節物体の3次元姿勢を示す3次元姿勢予測値を算出する3次元姿勢推定部と、を備えることを特徴とする。
上述の3次元姿勢推定装置において、前記3次元姿勢推定部は、予測分布に、前記観測ベクトルに対する3次元姿勢の条件付き分布を乗算した予測分布の負の対数尤度を目的関数とし、当該目的関数を最小化する値を前記一部潜在変数モデルの潜在空間における前記一部の関節の位置として算出することを特徴とする。
上述の課題に鑑み、本発明に係る動作モデル学習方法は、3次元動作データ出力部が、複数の関節により構成される多関節物体の動作を3次元の仮想空間における前記関節の回転角により表現する3次元動作データを出力し、姿勢行列構成部が、入力する前記3次元動作データから前記関節の回転角を示す情報を取り出し、前記多関節物体を構成する全ての関節の回転角に基づき前記3次元の仮想空間よりも高次元な状態空間の姿勢空間における前記多関節物体の動作を表現する全体姿勢行列を時系列に並べられた複数枚の2次元画像から算出するとともに、前記多関節物体を構成する全ての関節のうち2次元画像において画像認識しやすい関節として予め決められている一部の関節の回転角に基づき前記姿勢空間における前記多関節物体の動作を表現する一部姿勢行列を時系列に並べられた複数枚の2次元画像から算出し、動作モデル学習部が、前記全体姿勢行列に基づき前記姿勢空間よりも低次元な状態空間の潜在空間における前記多関節物体の動作を表現する全体潜在変数モデルと、前記一部姿勢行列に基づき前記潜在空間における前記多関節物体の動作を表現する一部潜在変数モデルとを作成し、前記潜在空間において前記全体潜在変数モデルと前記一部潜在変数モデルとを対応付ける動作モデルを作成する。
また、上述の課題を鑑み、本発明に係る3次元姿勢推定方法は、画像入力部が、動作する多関節物体を撮影して得られる複数の画像データを入力し、観測情報算出部が、多関節物体を構成する全ての関節のうち2次元画像において画像認識しやすい関節として予め決められている一部の関節を前記画像データから検出し、前記複数の画像データの画像内における前記一部の関節の位置変化を示す観測ベクトルを算出し、3次元姿勢推定部が、請求項4に記載の動作モデル学習方法により作成された前記動作モデルを参照して前記観測ベクトルに基づき前記一部潜在変数モデルの潜在空間における前記一部の関節の位置を算出し、前記一部潜在変数モデルの潜在空間から前記全体潜在変数モデルの潜在空間への写像を行い、前記全体潜在変数モデルの潜在空間における前記全部の関節の位置を算出して、3次元の仮想空間における前記多関節物体の3次元姿勢を示す3次元姿勢予測値を算出する。
上述の3次元姿勢推定方法において、前記3次元姿勢推定部は、予測分布に、前記観測ベクトルに対する3次元姿勢の条件付き分布を乗算した予測分布の負の対数尤度を目的関数とし、当該目的関数を最小化する値を前記一部潜在変数モデルの潜在空間における前記一部の関節の位置として算出することを特徴とする。
また、上述の課題を鑑み、本発明に係るプログラムは、コンピュータに、上述の動作モデル学習方法の手段、あるいは、上述の3次元姿勢推定方法の手段を実行させるためのプログラムであることを特徴とする。
本発明によれば、関節位置を手動で指定することなく、姿勢推定の制度を向上させることができる。
本発明の実施形態に係る3次元動作情報処理装置の構成を示す概略ブロック図である。 本発明の実施形態における多関節物体の構造を説明するための図である。 本発明の実施形態における多関節物体の構造の階層関係を示すための図である。 本発明の実施形態に係る3次元動作情報処理装置の各構成について説明するための図である。 本発明の第1実施形態に係る3次元動作情報処理の一例を説明するためのフローチャートである。 本発明の第1実施形態に係る3次元動作情報処理の一例を説明するための図である。 本発明の第1実施形態に係る3次元動作情報処理の状態遷移について説明するための図である。 本発明の第2実施形態に係る3次元動作情報処理の一例を説明するためのフローチャートである。 本発明によらない3次元姿勢推定を説明するための図である。
<第1実施形態>
以下、本発明の一実施形態にかかる3次元動作情報処理装置100について図1を参照して説明する。図1は、本実施形態による3次元動作情報処理装置100の構成を示す概略ブロック図である。
図1に示す通り、3次元動作情報処理装置100は、動作モデル学習装置1と3次元姿勢推定装置2と動作情報記憶部104を備える。
動作モデル学習装置1は、3次元動作データ出力部101と、3次元姿勢行列構成部102と、動作モデル学習部103とを備える。3次元姿勢推定装置2は、画像入力部105と、観測情報算出部106と、3次元姿勢推定部107とを備える。
動作モデル学習装置1および3次元姿勢推定装置2は、それぞれ動作情報記憶部104と接続されている。
この3次元動作情報処理装置100では、例えば人体の動作情報を、人体を多関節物体としてその構造をモデル化した動作モデルにより表現する。この多関節物体の一例である人体をモデル化したものを図2に示す。なお、多関節物体は人体である例を用いて以下説明するが、本発明はこれに限られず関節によって連結された部位を備える物体や動物等であってもよい。
図2に示す通り、人体は、例えば、16個の関節で部位が連結されたモデルで表わすことができる。各関節には、関節番号j{j=1,2,・・・,16}が割り当てられている。例えば、関節番号J=1の関節は左足の付け根の関節、関節番号J=2の関節は左足の膝の関節、関節番号J=3の関節は左足の足首の関節、関節番号J=4の関節は右足の付け根の関節、関節番号J=5の関節は右足の膝の関節、関節番号J=6の関節は右足の足首の関節に、それぞれ相当する。また、関節番号J=9は頭部分、関節番号J=10の関節は左肩の関節、関節番号J=11の関節は左腕の肘の関節、関節番号J=12は左手部分、関節番号J=13の関節は右肩の関節、関節番号J=14の関節は右腕の肘の関節、関節番号J=15は右手部分に、それぞれ相当する。なお、関節番号J=7の関節は、両足と胴体の連結部分、関節番号J=8は背中中央部分、関節番号J=9の関節は頭と両肩の連結部分に、それぞれ相当する。
なお、各関節同士は、階層構造の関係が規定されている。例えば、関節番号J=1、2については、関節番号J=1の関節が親(上位)であり、関節番号J=2の関節が子(下位)の関係にある。また、関節番号J=2、3については、関節番号J=2の関節が親(上位)であり、関節番号J=3の関節が子(下位)の関係にある。このように、各関節同士は、連結に応じた階層構造が規定されている。この階層構造において、下位の関節は、上位の関節の動きに連動して動く。なお、この階層構造を図3に示す。図示の通り、連結される関節同士において、関節番号j=0に近い関節が上位であり、関節番号j=0から遠い関節が下位である。なお、この階層構造の関係を示す情報を階層構造情報という。
図1に戻って、動作モデル学習装置1は、学習対象である多関節物体の動作に関する3次元動作データを取得し、この3次元動作データに基づき、多関節物体の特定の動作を規定する動作モデルを作成して、動作情報記憶部104に記憶させる。この動作モデルは、人体の全ての関節点により動作を表現する潜在変位モデルの潜在空間(X)と、人体の一部の関節点により動作を表現する潜在変位モデルの潜在空間(X1)の間にガウス過程を仮定し、3次元姿勢推定装置によってX1→Xへの写像を回帰するように対応づけられたものである。なお、潜在空間は、動作モデル学習装置1による学習処理を行うために規定されているベクトルの状態空間である。
3次元姿勢推定装置2は、動作モデルに基づき、2次元の画像における人物の姿勢を推定する。この推定装置2は、人物を構成する全ての関節のうち、画像データの画像解析によって検出しやすい一部の関節に基づき、潜在空間(X1)上の一部の関節の位置を算出する。この3次元姿勢推定装置2は、潜在空間(X1)上において推定される一部の関節の位置に基づき、動作モデルを参照して、潜在空間(X1)から潜在空間(X)への写像を回帰することで、人体の全ての関節点により動作を表現する潜在変位モデルにおける全ての関節の位置を算出する。3次元姿勢推定装置2は、潜在空間における全ての関節の位置に基づき、3次元の仮想空間における前記多関節物体の姿勢を示す3次元姿勢予測値を算出する。
次に、図1と図4をあわせて参照し、3次元動作情報処理装置100に含まれる各構成の機能について説明する。図4は、各構成の入出力と処理内容について対応付けた表である。
3次元動作データ出力部101は、人体の動作をデジタルデータにより表現するために、人体を多関節物体として規定して、その構造をモデル化するための3次元動作データを出力する機能を有する。この3次元動作データ出力部101は、例えば、3次元の仮想空間における人体の動きを関節毎に表わすための情報である3次元動作データを取得して、3次元姿勢行列構成部102に出力する。
この3次元動作データ出力部101は、例えば、一般的なモーションキャプチャシステムや多視点カメラで構成することができる。3次元動作データ出力部101は、人体の動きを各関節の3次元回転角θによって示す3次元動作データを生成する。この3次元動作データは、例えば、各関節を示す関節番号(j)に対応する、3次元回転角θ(動作パラメータ)および階層構造情報を含む。
動作パラメータとは、多関節物体の動作に応じて、3次元の仮想空間内における多関節物体の各関節の位置変化(角度)を3次元回転角θにより示す情報である。言い換えると、各関節がもつ動作パラメータは、一般的に、人体モデルの階層構造に対して、相対的な回転角として与えられる。これは、図3の階層構造において、子のモデルパメータが親に対する相対的なものであることを意味する。
具体的には、左肘の関節(関節番号j=11)の動作パラメータは、左肩の関節(関節番号j=10)に対する3次元回転角θ(θ,θ,θ)で表わす。
また、3次元動作データ出力部101は、取得した3次元動作データを動作情報記憶部104に格納する。
3次元姿勢行列構成部102は、3次元動作データ出力部101から入力する3次元動作データから人物の関節の3次元回転角θを取り出し、姿勢行列を生成する。この3次元姿勢行列構成部102は、多関節物体の人体を構成する全ての関節の3次元回転角θに基づき姿勢空間において、人体の動作を表現する3次元姿勢行列Yを構築する。また、3次元姿勢行列構成部102は、多関節物体の人体を構成する全ての関節のうち予め決められている一部の関節の3次元回転角θに基づき姿勢空間において、人体の動作を表現する3次元姿勢行列Y1を構築する。
この姿勢空間とは、3次元の仮想空間よりも高次元な状態空間である。また、姿勢空間は、潜在空間よりも高次元な状態空間である。
3次元姿勢行列構成部102は、内蔵する記憶部に予め決められた一部の関節の関節番号を示す情報を記憶しており、3次元姿勢行列Y1を構築する際、この記憶部を参照して予め決められている一部の関節を選択し、この一部の関節の3次元回転角θを得る。
3次元姿勢行列構成部102は、この3次元姿勢行列Yと3次元姿勢行列Y2を、動作モデル学習部103に出力する。
動作モデル学習部103は、3次元姿勢行列構成部102が生成した3次元姿勢行列Y,Y1を入力とし、専用のアルゴリズムに基づき学習処理を行い、動作モデルを作成し、この動作モデルを動作情報記憶部104に格納する。
つまり、動作モデル学習部103は、3次元姿勢行列Yに基づき3次元動作データを低次元な潜在空間における潜在変数モデルMとして学習する機能と、3次元姿勢行列Y1に基づき3次元動作データの一部の情報を低次元な潜在空間における潜在変数モデルM1として学習する機能と、潜在変数モデルM1の潜在空間から潜在変数モデルMの潜在空間への写像をガウシアンプロセス回帰として対応づけた動作モデルを作成する機能と、この動作モデルを動作情報記憶部104に格納する機能とを備える。
言い換えると、動作モデル学習部103は、3次元姿勢行列Yに基づき潜在空間における多関節物体の動作を表現する潜在変数モデルMと、3次元姿勢行列Y1に基づき潜在空間における多関節物体の動作を表現する潜在変数モデルM1とを作成し、潜在空間において潜在変数モデルMと潜在変数モデルM1とを対応付ける動作モデルを作成する。
動作情報記憶部104は、動作モデルと、3次元動作データと、モデルパラメータと、動作の低次元特徴を記憶する。
モデルパラメータは、例えば、潜在空間から姿勢空間へのマッピングのパラメータ等を含む。動作の低次元特徴は、例えば、3次元動作データからGPDMのような次元圧縮手法により求められる低次元特徴ベクトルとして表現される。
画像入力部105は、例えば、1台あるいは複数台のカメラから構成することができる。この画像入力部105は、動作する多関節物体を撮影して得られる複数の画像データを入力し、観測情報算出部106に出力する。
観測情報算出部106は、画像入力部105から入力する画像データに基づき、この画像から全ての関節位置を示す座標を追跡する追跡処理を行う。この観測情報算出部106による追跡処理において、各関節の関節位置の初期位置は、一般的な画像認識等の手法により指定が可能であり、追跡には2次元追跡手法を用いることができる。
この観測情報算出部106は、追跡処理により追跡した各関節の位置を複数フレームにわたって示す観測ベクトル(関節位置座標)を出力する。
つまり、観測情報算出部106は、関節点の2次元追跡を行う機能と、追跡した関節点から観測ベクトルを構築する機能とを有する。言い換えると、観測情報算出部106は、動作モデル学習装置1において予め決められている一部の関節を画像データから検出し、複数の画像データの画像内における一部の関節の位置変化を示す観測ベクトルを算出する。
3次元姿勢推定部107は、観測情報算出部106の出力である観測ベクトル(関節位置座標)を入力として、動作情報記憶部104からのデータとのフィッティングを行うことにより、3次元の姿勢を推定する。
言い換えると、3次元姿勢推定部107は、動作モデルを参照して観測ベクトルに基づき潜在変数モデルM1の潜在空間における一部の関節の位置を算出し、潜在変数モデルM1の潜在空間から潜在変数モデルMの潜在空間への写像を行い、潜在変数モデルMの潜在空間における全ての関節の位置を算出して、3次元の仮想空間における多関節物体の姿勢を示す3次元姿勢予測値を算出する。
この3次元姿勢推定部107において推定された3次元の姿勢は、例えば、2次元の映像から3次元の動作を取得することができる。これにより、仮想的な空間にリアルタイムに人物の動作を反映するために用いたり、人物の動作解析等に利用することが可能である。
次に、図5と図6を参照して、本実施形態に係る3次元動作情報処理装置100による3次元動作情報処理方法の処理フローの一例について説明する。図5は、本実施形態に係る3次元動作情報処理装置100による3次元動作情報処理方法の処理フローの一例を示すフローチャートである。図6は、この3次元動作情報処理方法の概念を説明するための図である。
図5に示すステップS301〜S304の処理は、動作モデル作成方法の処理フローを示す。なお、ステップS303は、ステップS3031、3032を含み、その順番はどちらが先であってもよい。ステップS304は、ステップS3041、3042、3043を含み、その順番はいずれが先であってもよい。
一方、図5に示すステップS305〜S309の処理は、3次元姿勢推定方法の処理フローを示す。ステップS308は、ステップS3081、3082を含む。
(ステップS301)
3次元動作データ出力部101は、人体の構造を多関節物体としてモデル化するための3次元動作データを取得する。例えば、3次元動作データ出力部101は、モーションキャプチャ等により構成され、モデル化の対象である人体の動きを撮影して、撮影された複数のフレームの画像データに基づき、3次元の仮想空間内における人体の全ての関節点の位置関係と互いの階層構造を取得する。なお、モーションキャプチャの技術については、上記画像式に限定されず、光学式や赤外線式等の他の方式であってもよい。
この3次元動作データ出力部101は、関節番号jに動作パラメータである3次元回転角θと階層構造情報に対応づけた3次元動作データを3次元姿勢行列構成部102に出力する。
(ステップS302)
3次元姿勢行列構成部102は、3次元動作データから、各関節に対応する動作パラメータである3次元回転角θを取り出す。例えば、3次元姿勢行列構成部102は、モーションキャプチャシステムやカメラ映像のボクセルからの推定等の手段を用いて、3次元回転角θを得る。
なお、ステップS301において3次元動作データ出力部101が企業や大学が公開しているライブラリに保管されている3次元動作データをダウンロードしている場合、3次元姿勢行列構成部102は、ステップS302において、この3次元動作データから動作パラメータを取り出すものであってもよい。
なお、3次元姿勢行列構成部102が取得した動作パラメータである3次元回転角θは、関節番号jと階層構造情報に対応づけられていり。
(ステップS3031)
3次元姿勢行列構成部102は、取り出した全身の各関節の3次元回転角θから3次元姿勢行列Yを構築する。言い換えると、3次元姿勢行列構成部102は、各フレームに対応する全関節点の3次元回転角θ(j){j=1,2,・・・,16}であって、動作の時系列に並べられたN枚のフレームに対応する3次元回転角θ(j)に基づき、3次元姿勢行列Yを構築する。この3次元姿勢行列Yは、学習に使用する全関節のパラメータの数をD、フレーム数をNとしたとき、N×Dの行列を構成する。
(ステップS3032)
この3次元姿勢行列構成部102は、取り出した全身の各関節の3次元回転角θのうち、特定の一部関節の3次元回転角θから3次元姿勢行列Y1を構築する。言い換えると、3次元姿勢行列構成部102は、各フレームに対応する一部の関節の3次元回転角θ(j){例えば、j=3,6,9,12,15}であって、動作の時系列に並べられたN枚のフレームに対応する3次元回転角θ(j)に基づき、3次元姿勢行列Y1を構築する。この3次元姿勢行列Y1は、学習に使用する一部の関節のパラメータの数をd(<D)、フレーム数をNとしたとき、N×dの行列を構成する。
この3次元姿勢行列Y1を構築するための一部の関節は、3次元姿勢行列構成部102により、予め決められた一部の関節が選択される。3次元姿勢行列構成部102は、この選択した一部の関節の3次元回転角θに基づき3次元姿勢行列Y1を構築する。なお、この一部の関節は、人体のうち、画像認識しやすい関節であって、人体の動きを追従できる関節である。本実施形態では、この一部の関節点として、関節番号j=3(左足)、関節番号j=6(右足)、関節番号j=9(頭)、関節番号j=12(左手)、関節番号j=15(右手)が、予め決定されており、これらの関節番号が、3次元姿勢行列構成部102が内蔵する記憶部に記憶されている。
なお、3次元姿勢行列Y、Y1は、ともに潜在空間(X)よりも高次元の姿勢空間(Y)において構築されている。
ここで、姿勢空間(Y)とは、姿勢を特徴付けるベクトルの状態空間である。潜在空間(X)とは、姿勢空間(Y)よりも低次元の状態空間である。
(ステップS3041)
次いで、動作モデル学習部103は、3次元姿勢行列構成部102から入力する3次元姿勢行列Yに基づき、潜在変数モデルM=(X,Y,α,β)の学習を行う。この動作モデル学習部103による潜在変数モデルMの学習とは、3次元姿勢行列Yに対するX,α,βの最適値を求めることである。
Yは、姿勢空間(Y)における3次元姿勢行列Y=[y_(1),・・・y_(N)]を示す。ここで、y_(i)は、はフレームiにおいて、人体の各関節の角度または3次元位置によって人体の完全姿勢を規定するD次元のベクトルである。なお、本明細書中において、ベクトルを示す場合、_を後に記載する。つまり、ベクトルyは、y_と示す。
Xは、姿勢空間(Y)よりも低次元の潜在空間(X)における位置X=[x_(1),・・・x_(N)]を示す。ここで、x_(i)は、フレームiにおいて、学習によって最適化されるy_(1)に対する低次元空間中のq(<D)次元の潜在空間(X)における位置ベクトルである。q次元とは、例えば、2次元または3次元である。
αは、x_(i−1)からx_(i)のダイナミクスを示す。例えば、α={α,α,α,α}である。
βは、XからYへの写像を制御するハイパーパラメータである。例えばβ={β,β,β,W_}である。
(ステップS3042)
この動作モデル学習部103は、3次元姿勢行列構成部102から入力する3次元姿勢行列Y1に基づき、動作モデルM1=(X1,Y1,α1,β1)のの学習を行う。この動作モデル学習部103によるモデルM1の学習とは、3次元姿勢行列Y1に対するX1,α1,β1の最適値を求めることである。
例えば、3次元姿勢行列Y1=[y1_(1),・・・y1_(N)]とする。ここで、y1(i)は、はフレームiにおいて、人体の一部の関節(ステップS3032において動作モデル学習部103が指定した関節)の角度または潜在空間における3次元位置によって人体の完全姿勢を規定するd次元のベクトルである。
また、3次元姿勢行列Y1の姿勢空間(Y1)よりも低次元の潜在空間(X1)における位置をX1=[x1_(1),・・・x1_(N)]とする。ここで、x1(i)は、フレームiにおいて、学習によって最適化されるy1_(1)に対する低次元空間中のq(<D)次元の潜在空間における位置ベクトルである。q次元とは、例えば、2次元または3次元である。なお、ベクトルx1は、x1_と示す。
α1は、x1_(i−1)からx1_(i)のダイナミクスを示す。例えば、α1={α1,α1,α1,α1}である。
β1は、X1からY1への写像を制御するハイパーパラメータである。例えばβ1={β1,β1,β1,W1_}である。
例えば、動作モデル学習部103は、ステップS3041において、以下の対数尤度関数Lを最小化することにより、3次元姿勢行列Yに対するX,α,βの最適化を行う。また同様に、動作モデル学習部103は、ステップS3042において、以下の対数尤度関数Lを最小化することにより、3次元姿勢行列Y1に対するX1,α1,β1の最適化を行う。この動作モデル学習部103は、例えば、式(1)について、共役勾配法等の非線形最適化手法を用いることで、最適化することができる。
なお、K,Kは、潜在空間(X)中のダイナミクスと潜在空間(X)から姿勢空間(Y)への写像を規定するカーネル行列であり、その要素はカーネル関数となる。つまり、(Ki,j=k(x_,x_)である。動作モデル学習部103は、例えば、カーネル関数として下記の式2、式3を用いていることができる。なお、このカーネル関数を用いる方法についは、非特許文献3に記載されている方法を利用することができる。
つまり、動作モデル学習部103は、ステップS3041において、高次元な姿勢空間(Y)をそれより低次元な潜在空間(X)からのガウシアンプロセス回帰として表現する潜在変数モデルM=(X,Y,α,β)の学習を行い、3次元姿勢行列Yに対するX,α,βの最適値を求める。
また、動作モデル学習部103は、ステップS3042において、高次元な姿勢空間(Y1)をそれより低次元な潜在空間(X1)からのガウシアンプロセス回帰として表現する潜在変数モデルM=(X1,Y1,α1,β1)の学習を行い、3次元姿勢行列Y1に対するX1,α1,β1の最適値を求める。
(ステップS3043)
動作モデル学習部103は、ステップS3041において学習した潜在変数モデルMの潜在空間(X)と、ステップS3042において学習した潜在変数モデルM1の潜在空間(X)の間にガウス過程を仮定し、X→Xへの写像を回帰により学習する。この学習の目的は、一方の潜在空間(X)上での位置x_が入力として与えられた場合に、推定部2が、他方の潜在空間(X)上での位置x_を推定するためのデータを作成するためのである。
この問題を、X1→Xへのガウス過程による回帰問題と考える。
例えば、学習データとして、以下の値を与える。
このとき、x_,x_は、ステップS3041、ST3042において動作モデル学習部103が学習したq次元ベクトルである。ここで、X_N×qと、X_N×qを以下とすれば、動作モデル学習部103は、ガウス過程の定義により式(6)、式(7)のようにモデル化できる。
なお、式(6)は、条件付き確率が、平均0、共分散Cのガウス過程に従うことを示している。ここで、Cは、要素にC(x_(i),x_(j))をもつN×Nの共分散行列であり、入力データ間の適当な類似度行列で表現される。γは、ノイズの精度パラメータである。ガウス過程は、カーネル関数k(x,x´)とハイパーパラメータγだけで表すことができる。
また、動作モデル学習部103は、ガウス過程回帰に用いるカーネル関数として、例えば、以下のような、非線形項としてRBF(Radial basis function)基底関数を適用し、さらに定数と線形項を加えたものを利用できる。
動作モデル学習部103は、式(6)を最大化するカーネル関数のパラメータを求めることで、2つのモデル間の写像に関する学習を行う。つまり、動作モデル学習部103は、式(6)を最大化するカーネル関数のパラメータを求めることで、潜在変数モデルMと潜在変数モデルM1とを対応付ける動作モデルを作成して、動作情報記憶部104に格納する。
(ステップS305)
画像入力部105は、姿勢推定を行う2次元画像の初期フレームにおいて、手足の先や頭等を肌色検出や画像認識技術を用いて自動検出する。この時の画像上の位置を、観測ベクトルの初期値I_1(1)とする。
この画像入力部105は、例えば、カメラにより撮影された2次元の画像データを、姿勢推定の対象として入力する。そして、画像入力部105は、この2次元の画像データに対してパターンマッチング等の画像認識を行うことにより、推定対象の多関節物体である人体の一部の関節を検出する。この画像入力部105は、例えば、人体の頭、左右の手(手首から指先まで)、左右の足(足首からつま先まで)を、一部の関節として検出する。なお、この一部の関節は、ステップS3032において動作モデル学習部103が選択する一部の関節と同じ関節の関節番号により規定されている。なお、この一部の関節の関節番号は、画像入力部105に内蔵されている記憶部に記憶されている。
そして、画像入力部105は、検出した一部の関節を、画像データ内における追跡関節点として設定する。
なお、画像入力部105は、画像データを入力するインターフェースであってもよく、被写体を撮像して画像データを生成するカメラであってもよい。
(ステップS306)
観測情報算出部106は、画像入力部105がステップS305において追跡関節点として設定した人体の一部の関節について2次元追跡を行う。この観測情報算出部106は、一般的な画像処理手法を用いることができ、例えば、WSLトラッカーを用いて2次元追跡を行うことができる。
(ステップS307)
そして、観測情報算出部106は、ステップS306において追跡する追跡関節点の位置を示す位置ベクトルをフレーム毎に算出し、フレームnに対応する観測ベクトルI_1(n)として得る。この観測情報算出部106は、初期値I_1(1)からフレーム毎nまで連続して得られる観測ベクトルI_1(1:n)を、観測情報として3次元姿勢推定部107に出力する。
(ステップS3081)
3次元姿勢推定部107は、入力する観測情報、つまり、観測ベクトルI_1(1:n)に基づき、ステップS3042において学習した潜在変数モデルM1を事前知識として潜在変数x_(n)を推定する。つまり、3次元姿勢推定部107は、動作モデルを参照して観測ベクトルに基づき潜在変数モデルM1の潜在空間における一部の関節(関節番号j=3,6,9,12,15の位置を算出する。
ここで、3次元姿勢推定部107が、画像入力部105から入力する画像データに基づき人物の3次元動作を推定するモデルを、図7に推定の状態空間モデルを用いて詳しく説明する。
例えば、単眼カメラにより撮影された画像データから、3次元姿勢推定部107が3次元動作を推定する問題は、3次元姿勢推定部107が、2次元画像からの観測される画像上の関節の位置を観測系列I_(1:n)=(I_(1),・・・,I(n))とし、学習した潜在変数モデルM≡(X,Y,α,β)を事前知識として、観測系列から状態Φ(n)=[G(n),y_(n),x_(n)]を推定することである。
ここで、G(n)は、グローバル位置である。
状態が1つ前の状態のみに依存する1次元のマルコフ過程を想定した場合、このような問題は、図7に示す状態空間モデルとして記述できる。このとき2次元画像からの3次元姿勢推定は、下記の条件付き確率を最大化する状態を推定する問題として定式化される。
τは、予測に用いる将来のフレーム数である。なお、非特許文献3では、τ=2を用いている。
ここで、式(4)の右辺の第1項は、尤度を表し、第2項は予測分布を表している。
状態推定は、式(4)に対するMAP推定やサンプリング手法による近似によって最適値x_(n)を求めることで実現される。
つまり、3次元姿勢推定部107は、式(4)に対して、MAP推定やサンプリング手法による近似により、学習した潜在変数モデルM1≡(X1,Y1,α1,β1)を事前知識として、最適値x_(n)を求めることができる。この最適値x_(n)が、潜在変数モデルM1の潜在空間における一部の関節の位置を示す値である。
(ステップS3082)
3次元姿勢推定部107は、ステップS3043を事前知識とし、最適値x_(n)から潜在空間(X)上の位置を示す潜在変数x_(n)を推定する。
学習プロセスにおけるステップS3043で求めたXに対する予測分布p(x_(n)|X_)は、ガウス過程の定義により、平均m(x_(n))と共分散σ2(x_(n))の正規分布となる。
なお、予測分布p(x_(n)|X_)と、平均m(x_(n))と、共分散σ2(x_(n))は、以下に示す通りである。
ここで、Cは、入力データx_(n)に対する学習データX1=[x_(1),・・・x_(N)]についてのカーネル行列であり、下記で表すことができる。
なお、予測値x(n)は、一般に、予測分布の期待値として求めることができ、下記で表される。
(ステップS309)
3次元姿勢推定部107は、ステップS3041において学習した潜在変数モデルMに基づいて、ステップS3082で推定された潜在変数x_(n)から、式(5)により、姿勢y_*(n)を推定する。
ここで、k(x_(n))は、j番目の要素がk(x_(n),x_(j))のベクトルであり、μは、学習姿勢データYの平均値である。このy_*(n)が、フレームnにおける2次元画像からの3次元姿勢を示す3次元姿勢予測値である。
このように、本発明によれば、2次元映像から安定して獲得可能な部分的な関節点に関する特徴量を入力として、全身の3次元関節位置を推定することができる。このことにより、関節位置を手動で指定することなく、姿勢推定の精度を向上させることができる。
つまり、本実施形態に係る3次元動作情報処理装置100は、学習時に、全身の関節に関する情報から一つの潜在変数モデルMを構築することに加えて、全身から一部分の関節を選択点として、選択点に関する情報から潜在変数モデルM1を学習し、この潜在変数モデルMと潜在変数モデルM1とを対応付ける動作モデルを学習により得る。これにより、3次元動作情報処理装置100は、推定時に、この動作モデルを参照して、2次元の画像において画像認識しやすく、追跡しやすい一部の関節の動きに基づき、潜在変数モデルMの潜在空間における全部の関節の位置を得ることができる。よって、関節位置を手動で指定することなく、2次元画像に基づき、全ての関節の位置を得ることできる。つまり、推定開始時に手動での関節位置指定が不要となる。
また、全ての関節の位置に基づき、3次元の仮想空間における多関節物体の姿勢を示す3次元姿勢予測値を算出することにより、姿勢推定の精度を向上させることができる。また、より安定した推定が可能となる。
<第2実施形態>
次に、本発明の他の実施形態について説明する。図8は、第2本実施形態に係る3次元動作情報処理装置100による3次元動作情報処理方法の処理フローの一例を示すフローチャートである。なお、図5に示す処理内容と同一の処理については、同一の符号を付して詳細な説明は省略する。
(ステップS401)
3次元姿勢推定部107は、ステップS3043を事前知識とし、最適値x_(n)から潜在空間(X)上の位置を示す潜在変数x_(n)を推定する際、誤差を考慮して、潜在空間間の写像を行う機能を持つ。
つまり、3次元姿勢推定部107は、推定誤差を考慮するために、S3082の式(10)と比較して、予測分布の期待値を予測値とするのではなく、式(11)に従い、予測分布に、観測ベクトルI_1(n)に対する3次元姿勢y_*(n)の条件付き分布をかけた予測分布p(x_(n)|X_)p(y_*(n)|I(n))の負の対数尤度を目的関数Lとし、このLを最小化するx_*(n)を予測値とする。
なお、εは推定誤差、σは誤差の許容量を表し、σが小さいほど、Lへの誤差の寄与が高くなる。
例えば、ステップS307における2次元画像からの観測ベクトルI_(n)のj番目の関節点に対応する成分を以下の値とする。
また、推定される3次元姿勢y_*(n)から3次元の関節点を2次元画像上に射影したときのj番目の関節点の2次元画像上での位置を以下の値とする。
このとき、推定誤差は、
の差を全てのjに関して算出したもので定義できる。
より具体的には、以下の式(12)である。
3次元姿勢推定部107は、式(11)を最小化するような予測値x_*(n)を求めるために、例えば、初期値として、予測分布の平均値、つまり式(10)を与え、一般的な最適化のための反復手法を用いることが可能である。
また、より精度を向上させるためには、フレームnの推定に対して、将来のフレームを用いることも可能である。具体的には、3次元姿勢推定部107は、式(11)以降において、τを窓数として、n:n+τに関して計算を行う。この手法によれば、第1実施形態と比較して推定の精度向上が図れる。
なお、上述の動作モデル学習装置1、3次元姿勢推定装置2、3次元動作情報処理装置100の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいう「コンピュータシステム」とは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、図5、8に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、また、動作モデル学習装置1、3次元姿勢推定装置2、3次元動作情報処理装置100の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、処理を行ってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1・・・動作モデル学習装置、2・・・3次元姿勢推定装置、100・・・3次元動作情報処理装置、101・・・3次元動作データ出力部、102・・・3次元姿勢行列構成部、103・・・動作モデル学習部、104・・・動作情報記憶部、105・・・画像入力部、106・・・観測情報算出部、107・・・3次元姿勢推定部

Claims (7)

  1. 複数の関節により構成される多関節物体の動作を3次元の仮想空間における前記関節の回転角により表現する3次元動作データを出力する3次元動作データ出力部と、
    入力する前記3次元動作データから前記関節の回転角を示す情報を取り出し、前記多関節物体を構成する全ての関節の回転角に基づき前記3次元の仮想空間よりも高次元な状態空間の姿勢空間における前記多関節物体の動作を表現する全体姿勢行列を時系列に並べられた複数枚の2次元画像から算出するとともに、前記多関節物体を構成する全ての関節のうち2次元画像において画像認識しやすい関節として予め決められている一部の関節の回転角に基づき前記姿勢空間における前記多関節物体の動作を表現する一部姿勢行列を時系列に並べられた複数枚の2次元画像から算出する姿勢行列構成部と、
    前記全体姿勢行列に基づき前記姿勢空間よりも低次元な状態空間の潜在空間における前記多関節物体の動作を表現する全体潜在変数モデルと、前記一部姿勢行列に基づき前記潜在空間における前記多関節物体の動作を表現する一部潜在変数モデルとを作成し、前記潜在空間において前記全体潜在変数モデルと前記一部潜在変数モデルとを対応付ける動作モデルを作成する動作モデル学習部とを備えることを特徴とする動作モデル学習装置。
  2. 請求項1に記載の動作モデル学習装置により作成された前記動作モデルを記憶する記憶部と、
    動作する多関節物体を撮影して得られる複数の画像データを入力する画像入力部と、
    多関節物体を構成する全ての関節のうち2次元画像において画像認識しやすい関節として予め決められている一部の関節を前記画像データから検出し、前記複数の画像データの画像内における前記一部の関節の位置変化を示す観測ベクトルを算出する観測情報算出部と、
    前記記憶部の動作モデルを参照して前記観測ベクトルに基づき前記一部潜在変数モデルの潜在空間における前記一部の関節の位置を算出し、前記一部潜在変数モデルの潜在空間から前記全体潜在変数モデルの潜在空間への写像を行い、前記全体潜在変数モデルの潜在空間における前記全部の関節の位置を算出して、3次元の仮想空間における前記多関節物体の3次元姿勢を示す3次元姿勢予測値を算出する3次元姿勢推定部と、
    を備えることを特徴とする3次元姿勢推定装置。
  3. 前記3次元姿勢推定部は、予測分布に、前記観測ベクトルに対する3次元姿勢の条件付き分布を乗算した予測分布の負の対数尤度を目的関数とし、当該目的関数を最小化する値を前記一部潜在変数モデルの潜在空間における前記一部の関節の位置として算出することを特徴とする請求項2に記載の3次元姿勢推定装置。
  4. 3次元動作データ出力部が、複数の関節により構成される多関節物体の動作を3次元の仮想空間における前記関節の回転角により表現する3次元動作データを出力し、
    姿勢行列構成部が、入力する前記3次元動作データから前記関節の回転角を示す情報を取り出し、前記多関節物体を構成する全ての関節の回転角に基づき前記3次元の仮想空間よりも高次元な状態空間の姿勢空間における前記多関節物体の動作を表現する全体姿勢行列を時系列に並べられた複数枚の2次元画像から算出するとともに、前記多関節物体を構成する全ての関節のうち2次元画像において画像認識しやすい関節として予め決められている一部の関節の回転角に基づき前記姿勢空間における前記多関節物体の動作を表現する一部姿勢行列を時系列に並べられた複数枚の2次元画像から算出し、
    動作モデル学習部が、前記全体姿勢行列に基づき前記姿勢空間よりも低次元な状態空間の潜在空間における前記多関節物体の動作を表現する全体潜在変数モデルと、前記一部姿勢行列に基づき前記潜在空間における前記多関節物体の動作を表現する一部潜在変数モデルとを作成し、前記潜在空間において前記全体潜在変数モデルと前記一部潜在変数モデルとを対応付ける動作モデルを作成する
    ことを特徴とする動作モデル学習方法。
  5. 画像入力部が、動作する多関節物体を撮影して得られる複数の画像データを入力し、
    観測情報算出部が、多関節物体を構成する全ての関節のうち2次元画像において画像認識しやすい関節として予め決められている一部の関節を前記画像データから検出し、前記複数の画像データの画像内における前記一部の関節の位置変化を示す観測ベクトルを算出し、
    3次元姿勢推定部が、請求項4に記載の動作モデル学習方法により作成された前記動作モデルを参照して前記観測ベクトルに基づき前記一部潜在変数モデルの潜在空間における前記一部の関節の位置を算出し、前記一部潜在変数モデルの潜在空間から前記全体潜在変数モデルの潜在空間への写像を行い、前記全体潜在変数モデルの潜在空間における前記全部の関節の位置を算出して、3次元の仮想空間における前記多関節物体の3次元姿勢を示す3次元姿勢予測値を算出する、
    ことを特徴とする3次元姿勢推定方法。
  6. 前記3次元姿勢推定部は、予測分布に、前記観測ベクトルに対する3次元姿勢の条件付き分布を乗算した予測分布の負の対数尤度を目的関数とし、当該目的関数を最小化する値を前記一部潜在変数モデルの潜在空間における前記一部の関節の位置として算出することを特徴とする請求項5に記載の3次元姿勢推定方法。
  7. コンピュータに、請求項4〜6のいずれか一項に記載の手順を実行させるためのプログラム。
JP2010229783A 2010-10-12 2010-10-12 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム Active JP5525407B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010229783A JP5525407B2 (ja) 2010-10-12 2010-10-12 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010229783A JP5525407B2 (ja) 2010-10-12 2010-10-12 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012083955A JP2012083955A (ja) 2012-04-26
JP5525407B2 true JP5525407B2 (ja) 2014-06-18

Family

ID=46242753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010229783A Active JP5525407B2 (ja) 2010-10-12 2010-10-12 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5525407B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12030192B2 (en) 2019-02-08 2024-07-09 Nec Corporation Motion model calculation device, control device, joint mechanism, and motion model calculation method

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5555207B2 (ja) * 2011-07-14 2014-07-23 日本電信電話株式会社 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
JP6433149B2 (ja) * 2013-07-30 2018-12-05 キヤノン株式会社 姿勢推定装置、姿勢推定方法およびプログラム
CN104167016B (zh) * 2014-06-16 2017-10-03 西安工业大学 一种基于rgb彩色与深度图像的三维运动重建方法
KR101515847B1 (ko) * 2014-08-06 2015-05-04 스타십벤딩머신 주식회사 Nui 장치에 의해 수집된 동작정보의 보정 방법 및 장치
JP2018129007A (ja) * 2017-02-10 2018-08-16 日本電信電話株式会社 学習データ生成装置、学習装置、推定装置、学習データ生成方法及びコンピュータプログラム
EP3611690A4 (en) 2017-04-10 2020-10-28 Fujitsu Limited DETECTION DEVICE, DETECTION METHOD AND DETECTION PROGRAM
JP6424309B1 (ja) * 2018-08-15 2018-11-14 裕樹 有光 採寸値に基づく3次元モデルを生成するプログラム及び装置
JP2020030613A (ja) * 2018-08-22 2020-02-27 富士通株式会社 情報処理装置、データ算出プログラム、及びデータ算出方法
WO2020049692A2 (ja) 2018-09-06 2020-03-12 株式会社ソニー・インタラクティブエンタテインメント 推定装置、学習装置、推定方法、学習方法及びプログラム
WO2021039642A1 (ja) * 2019-08-30 2021-03-04 国立大学法人大阪大学 3次元再構成装置、方法及びプログラム
JP2021089615A (ja) * 2019-12-05 2021-06-10 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP6786015B1 (ja) * 2019-12-26 2020-11-18 三菱電機株式会社 動作分析システムおよび動作分析プログラム
CN111539992A (zh) * 2020-04-29 2020-08-14 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备和存储介质
CN111784848A (zh) * 2020-08-07 2020-10-16 任丽润 一种基于vr与ar的三维情景模拟装置
JP6869417B1 (ja) * 2020-11-18 2021-05-12 株式会社オプティム プログラム、方法、情報処理装置、システム
JP7468871B2 (ja) * 2021-03-08 2024-04-16 国立大学法人 東京大学 3d位置取得方法及び装置
CN113869217A (zh) * 2021-09-29 2021-12-31 北京复数健康科技有限公司 一种用于获取图像识别数据的方法和系统
WO2024057423A1 (ja) * 2022-09-13 2024-03-21 富士通株式会社 変換方法、変換プログラムおよび変換装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003109015A (ja) * 2001-10-01 2003-04-11 Masanobu Yamamoto 身体動作測定方式
JP2007004732A (ja) * 2005-06-27 2007-01-11 Matsushita Electric Ind Co Ltd 画像生成装置及び画像生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12030192B2 (en) 2019-02-08 2024-07-09 Nec Corporation Motion model calculation device, control device, joint mechanism, and motion model calculation method

Also Published As

Publication number Publication date
JP2012083955A (ja) 2012-04-26

Similar Documents

Publication Publication Date Title
JP5525407B2 (ja) 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム
US11379287B2 (en) System and method for error detection and correction in virtual reality and augmented reality environments
Jiang et al. Avatarposer: Articulated full-body pose tracking from sparse motion sensing
Von Marcard et al. Sparse inertial poser: Automatic 3d human pose estimation from sparse imus
JP7009399B2 (ja) ビデオデータの中のオブジェクトの検出
Sridhar et al. Real-time joint tracking of a hand manipulating an object from rgb-d input
JP5555207B2 (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
CN108369643B (zh) 用于3d手部骨架跟踪的方法和系统
Aristidou et al. Real-time marker prediction and CoR estimation in optical motion capture
CN103093453B (zh) 计算可改变实体的姿势和/或形状
WO2017141344A1 (ja) 3次元モデル生成システム、3次元モデル生成方法、及びプログラム
KR20180057096A (ko) 표정 인식과 트레이닝을 수행하는 방법 및 장치
JP2014085933A (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
US10970849B2 (en) Pose estimation and body tracking using an artificial neural network
KR20230004837A (ko) 생성형 비선형 인간 형상 모형
Michel et al. Tracking the articulated motion of the human body with two RGBD cameras
Schröder et al. Design and evaluation of reduced marker layouts for hand motion capture
JP7499346B2 (ja) 逆運動学に基づいた関節の回転の推測
Pavllo et al. Real-time neural network prediction for handling two-hands mutual occlusions
JP5767078B2 (ja) 姿勢推定装置、姿勢推定方法及び姿勢推定プログラム
Cohen et al. 3D body reconstruction for immersive interaction
Pavllo et al. Real-time marker-based finger tracking with neural networks
Woo et al. A survey of deep learning methods and datasets for hand pose estimation from hand-object interaction images
Pan et al. Modeling for deformable body and motion analysis: A review
Van Houtte et al. An articulating statistical shape model of the human hand

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130123

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130605

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140411

R150 Certificate of patent or registration of utility model

Ref document number: 5525407

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150