JP2014085933A - 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム - Google Patents

3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム Download PDF

Info

Publication number
JP2014085933A
JP2014085933A JP2012235800A JP2012235800A JP2014085933A JP 2014085933 A JP2014085933 A JP 2014085933A JP 2012235800 A JP2012235800 A JP 2012235800A JP 2012235800 A JP2012235800 A JP 2012235800A JP 2014085933 A JP2014085933 A JP 2014085933A
Authority
JP
Japan
Prior art keywords
dimensional
posture estimation
motion
posture
joint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012235800A
Other languages
English (en)
Inventor
Ayumi Matsumoto
鮎美 松本
Harumi Kawamura
春美 川村
Akira Kojima
明 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012235800A priority Critical patent/JP2014085933A/ja
Publication of JP2014085933A publication Critical patent/JP2014085933A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】姿勢推定対象とカメラとの位置関係、及び姿勢推定対象の動きの方向が未知である場合に、2次元映像から姿勢推定対象の姿勢を推定する。
【解決手段】3次元動作データ取得部111は、人物の関節の3次元動作データを出力し、仮想視点投影部112は、腰の関節を中心とした視点球の表面上の仮想視点ごとに、各関節を仮想視点に2次元投影した2次元動作データを生成する。動作モデル学習部113は、3次元動作データと2次元動作データから動作モデルを生成する。画像入力部131は、画像データを順次入力し、特徴量算出部132は、画像データから人物の関節の位置及びその変化を示す特徴量を算出する。3次元姿勢推定部133は、画像データが出力された順に、1つ前までの画像データから算出された特徴量の観測後に複数の動作モデルそれぞれが観測される事後確率を算出し、算出した事後確率が最も高い動作モデルから姿勢を得る。
【選択図】図1

Description

本発明は、カメラで撮影された画像データから対象の3次元的な姿勢または動作を推定する3次元姿勢推定装置、3次元姿勢推定方法、及びプログラムに関する。
近年、モーションキャプチャシステムや距離画像を用いずに、画像データから人体の姿勢推定・運動解析を行う研究が広く行われている(例えば、非特許文献1参照)。これらの研究は、映像監視やヒューマンインタラクション、ロボットの運動制御、CGアニメーションへの動作あてはめ、医療分野等、幅広い分野への応用が期待されている。
しかし、画像データに基づき人体の3次元的な仮想空間における姿勢を推定する場合、任意の時間における人体の関節の3次元回転角を推定することは困難である。特に、単眼カメラを用いて撮影された画像データから3次元の姿勢を推定する場合、画像データにおいては2次元で人体が表現されているため、3次元で表現するための情報が欠如している。そのため、姿勢の多義性に対応できないことや、手足や障害物による遮蔽に対応できないことなどが問題となる。
これらの問題に対処するため、姿勢を推定する際に、人体の動きに関する事前知識を用いる手法が注目されている。この事前知識とは、2次元の画像データに基づき、3次元で表現するために欠如している情報を補充するための情報である。事前知識として、たとえば、光学モーションキャプチャシステムにより計測された高精度な3次元動作データから低次元特徴を取り出した動作モデルを用いることが行われている(例えば、非特許文献2参照)。この技術では、人物の3D動作を記述する際、一般的にモデルの汎用性を高めるために、空間中に基準点を置くいわゆる世界座標系ではなく、人体の一部分、たとえば腰の位置(ルート)を基準とした相対的な変化量を動作データとして用いる。
しかし実際の映像では、カメラは実空間に置かれ、このカメラと人体にある基準点との相対位置は対象人物の動作により常に変動する。このため、実映像を観測データとして3次元動作推定を行う際には、この相対位置関係(視点)の変動を考慮する必要がある。
島田伸敬、有田大作、玉木徹、「関節物体のモデルフィッティング」、情報処理学会研究報告、CVIM Vol.154. page.375-392. 2006. R. Urtasun, D. J. Fleet, and P. Fua. "3Dpeople tracking with gaussian process dynamical models." CVPR, 2006.
従来の3次元姿勢推定方法では、視点を考慮するため、非特許文献2のように、3次元動作データのみから動作モデルを学習しておき、姿勢の推定の際には、投影2次元面を線形予測式等により規定している。そのため、2次元画像面(カメラ投影面)に対する人物(姿勢推定対象)の動きの方向が既知であるという前提条件が必要であった。さらには、上述したように、カメラと人体にある基準点との相対位置の変動を考慮するために、人体とカメラとの位置関係が既知でなければならない。
本発明は上述のような事情に鑑みてなされたもので、姿勢推定対象とカメラとの位置関係、及び姿勢推定対象の動きの方向が未知である場合にも、2次元映像から姿勢推定対象の姿勢を推定することができる3次元姿勢推定装置、3次元姿勢推定方法、及びプログラムを提供する。
上述した課題を解決するために、本発明は、複数の関節を有する動作モデル作成対象の姿勢を3次元空間における前記関節の位置で示す3次元動作データを出力する3次元動作データ取得部と、前記動作モデル作成対象が有する関節のうち予め定められた関節を中心とした所定の半径の視点球の表面上に設けられる仮想視点ごとに、前記3次元動作データで示される関節を該仮想視点に2次元投影した2次元動作データを生成する仮想視点投影部と、前記仮想視点毎に、前記3次元動作データまたは前記2次元動作データから動作モデルを生成する動作モデル学習部と、前記複数の関節を有する姿勢推定対象を撮像した画像データを順次入力する画像入力部と、前記画像データにおける前記姿勢推定対象の前記関節の位置及びその変化を示す特徴量を算出する特徴量算出部と、前記画像データが出力された順に、1つ前までの画像データより算出された前記特徴量の観測後に複数の前記動作モデルそれぞれが観測される事後確率を算出し、算出した前記事後確率が最も高い前記動作モデルに基づいて得られる姿勢を前記画像データが得られたときの前記姿勢推定対象の姿勢として選択することを繰り返す3次元姿勢推定部と、を備えることを特徴とする3次元姿勢推定装置である。
また本発明は、上述した3次元姿勢推定装置であって、前記3次元姿勢推定部は、1フレーム前に選択された前記動作モデルに対応した前記仮想視点から所定領域内の他の前記仮想視点を複数選択し、選択した複数の前記仮想視点に対応した前記動作モデルそれぞれについて前記事後確率を算出する、ことを特徴とする。
また本発明は、上述した3次元姿勢推定装置であって、前記3次元姿勢推定部は、1フレーム前に選択された前記動作モデルに対応した前記仮想視点を中心とした正規分布に従って前記所定領域内に所定数のサンプリング点を分配し、前記所定領域を構成する各分割領域において選択すべき前記仮想視点の数を当該分割領域に分配された前記サンプリング点の数に応じて決定する、ことを特徴とする。
また本発明は、3次元推定装置が実行する3次元推定方法であって、3次元動作データ取得部が、複数の関節を有する動作モデル作成対象の姿勢を3次元空間における前記関節の位置で示す3次元動作データを出力する3次元動作データ取得ステップと、仮想視点投影部が、前記動作モデル作成対象が有する関節のうち予め定められた関節を中心とした所定の半径の視点球の表面上に設けられる仮想視点ごとに、前記3次元動作データで示される関節を該仮想視点に2次元投影した2次元動作データを生成する仮想視点投影ステップと、動作モデル学習部が、前記仮想視点毎に、前記3次元動作データまたは前記2次元動作データから動作モデルを生成する動作モデル学習ステップと、画像出力部が、前記複数の関節を有する姿勢推定対象を撮像した画像データを順次入力する画像入力ステップと、特徴量算出部が、前記画像データにおける前記姿勢推定対象の前記関節の位置及びその変化を示す特徴量を算出する特徴量算出ステップと、3次元姿勢推定部が、前記画像データが出力された順に、1つ前までの画像データより算出された前記特徴量の観測後に複数の前記動作モデルそれぞれが観測される事後確率を算出し、算出した前記事後確率が最も高い前記動作モデルに基づいて得られる姿勢を前記画像データが得られたときの前記姿勢推定対象の姿勢として選択することを繰り返す3次元姿勢推定ステップと、を有することを特徴とする3次元姿勢推定方法である。
また本発明は、コンピュータを、上述した3次元姿勢推定装置の各部として機能させるプログラムである。
本発明によれば、姿勢推定対象とカメラとの位置関係、及び姿勢推定対象の動きの方向が未知である場合にも、2次元映像から姿勢推定対象の姿勢を推定することができる。
本発明の一実施形態における3次元姿勢推定装置の構成を示す概略ブロック図である。 同実施形態における仮想視点の定義例を説明するための図である。 同実施形態における学習部の処理例を示すフローチャートである。 同実施形態における姿勢推定部の処理例を示すフローチャートである。 同実施形態における3次元姿勢推定部による視点の探索領域設定例を説明するための図である。
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態における3次元姿勢推定装置100の構成を示す概略ブロック図である。3次元姿勢推定装置100は、学習時に視点毎に複数の動作モデルを構築し、推定時に複数の動作モデルにおいて並列で探索を行うことで、カメラと人物の位置関係が未知の場合でも、人物の3次元姿勢の推定を行う。
同図に示す3次元姿勢推定装置100は、学習部110と、動作情報記憶部120と、姿勢推定部130と、推定姿勢情報記憶部140とを備えて構成される。学習部110は、3次元動作データ取得部111と、仮想視点投影部112と、動作モデル学習部113とを備えて構成され、姿勢推定部130は、画像入力部131と、特徴量算出部132と、3次元姿勢推定部133とを備えて構成される。学習部110と姿勢推定部130は、動作情報記憶部120によって関連付けられる。
3次元動作データ取得部111は、動作モデル作成対象である人物等の3次元動作データを取得する。3次元動作データ取得部111は、例えば、市販のモーションキャプチャシステムや、多視点カメラで構成することができる。3次元動作データは、人物の各関節の3次元回転角を示す情報や、関節間の接続を階層構造で表した階層構造情報を含む。
仮想視点投影部112は、3次元動作データ取得部111が取得した3次元動作データが示す人物の動作を、仮想視点に2次元投影した2次元動作データを生成する。仮想視点投影部112は、この2次元動作データを、予め定められた複数の仮想視点V(iは1以上I以下の整数、Iは1以上の整数)ごとに生成し、生成した2次元動作データを、当該2次元動作データの生成に用いた3次元動作データと対応付けて動作情報記憶部120に記憶させる。
図2は、本実施形態における仮想視点Vの定義例を説明するための図である。同図では、人体を複数の関節で部位が連結されたモデルで表わしている。各関節には、関節番号k{k=0,1,・・・}が割り当てられており、例えば、関節番号k=0の関節は腰の関節(root)、k=1の関節は左足の付け根の関節、関節番号k=2の関節は左足の膝の関節、関節番号k=3の関節は左足の足首の関節、関節番号k=4の関節は右足の付け根の関節、関節番号k=5の関節は右足の膝の関節、関節番号k=6の関節は右足の足首の関節に、それぞれ相当する。階層構造情報には、例えば、連結する関節番号k=1、2については、関節番号k=1の関節が腰の関節(root)に近く(上位)、関節番号k=2の関節が腰の関節(root)よりも遠い(下位)の関係にあるなど、各関節同士の階層構造の関係が規定される。
仮想視点Vは、人体の腰の位置を中心とした視点球を設定したときに、この設定した視点球上に設定される。このとき、腰の関節を示す位置を原点(x,y,z)=(0,0,0)とし、左右方向の水平軸をX軸、前後方向の水平軸をY軸、鉛直方向をZ軸とする3次元座標系が定められる。仮想視点Vにおける関節番号kの位置は、(y ,z )で示される。関節数がK個の場合、仮想視点Vの2次元動作データをY2D とすれば、Y2D は2×Kの行列として示すことができる。
図1に戻って、3次元姿勢推定装置100の構成の説明を続ける。
動作モデル学習部113は、3次元動作データ取得部111が取得した3次元動作データや、仮想視点投影部112が生成した各仮想視点の2次元動作データに基づいて動作モデルを生成する。動作モデルは、例えば、2次元動作データY2D を次元圧縮し、低次元特徴X2D で表現したもの等を利用することが可能である。あるいは、例えば、2次元動作データY2D と同様に3次元動作データを次元圧縮した低次元特徴で表現したもの等を利用することも可能である。動作モデル学習部113は、生成した動作モデルを、当該動作モデルの生成に用いた2次元動作データまたは3次元動作データと対応付けて記憶部120に記憶させる。
動作情報記憶部120は、3次元動作データ取得部111が取得した3次元動作データ、仮想視点投影部112が生成した各仮想視点の2次元動作データ、及び動作モデル学習部113において学習した動作モデルを対応付けて記憶する。
画像入力部131は、姿勢の推定対象となる人物を撮像した画像データを時系列順に入力する。画像入力部131は、例えば、一例として、未校正の1台や数台のカメラから構成することができる。なお、画像入力部131は、外部から画像データの入力を受けてもよい。
特徴量算出部132は、画像入力部131より入力された画像データから、画像データ上における各関節の位置を検出し、検出した各関節の位置を座標等により示す特徴量データを算出する。特徴量算出部132が各関節の位置を検出する際に、関節位置の初期位置は、画像認識等の従来の技術を用いて検出してもよく、ユーザが画像データ上における各関節の位置を指定するようにしてもよい。また、各関節の位置の追跡には、従来の2次元追跡手法を用いることができる。
3次元姿勢推定部133は、特徴量算出部132が出力した特徴量データにより示される関節位置と、動作情報記憶部120に記憶されている動作モデルとをフィッティングして姿勢推定対象の人物の3次元の姿勢を推定し、推定した姿勢を示す姿勢情報を推定姿勢情報記憶部140に記憶させる。
推定姿勢情報記憶部140は、3次元姿勢推定部133が推定した3次元の姿勢を示す姿勢情報を記憶する。この記憶された姿勢情報から3次元動作を取得することができるため、仮想的な空間にリアルタイムに人物の動作を反映するために利用したり、人物の動作解析等に利用することが可能である。
以下、学習部110及び姿勢推定部130において行われる処理について説明する。
まず、学習部110において、仮想視点Vごとの動作モデルを構築する。仮想視点投影部112における仮想視点Vそれぞれの2次元動作データは、例えば、図2示すような、人体の腰の位置(ルート)を基準とし、予め定められた半径を有する視点球を考えることで生成できる。具体的には、視点球の表面を一定の間隔でサンプリングし、サンプリングした各点に仮想的なカメラを置き、各時刻における人体の各関節の位置を2次元投影する。i番目のサンプリング点を仮想視点Vとし、各仮想視点Vそれぞれについて動作モデル学習部113が2次元動作モデル学習を行う。つまり、動作モデル学習部113は、仮想視点投影部112が取得した仮想視点Vに関する2次元動作データを学習に用い、仮想視点Vに関する2次元動作モデルを得る。
図3は、本実施形態における学習部110の学習処理を示すフローチャートである。
学習部110の3次元動作データ取得部111は、人物等の時系列の3次元動作データを取得する(ステップS301)。
3次元動作データ取得部111は、ステップS301において取得した各3次元動作データから、人体構造の腰の位置(ルート)を基準とした各関節の3次元相対座標値を算出する(ステップS302)。3次元相対座標は、各関節の回転角と関節間の階層構造の情報に基づいて算出可能である。例えば、腰の位置の3次元座標(x,y,z)=(0,0,0)とし、関節番号kの3次元相対座標値を(x,y,z)で表す。
続いて仮想視点投影部112は、動作モデルを学習する対象の仮想視点Vを選択する(ステップS303)。このとき、例えば、仮想視点投影部112は、選択した仮想視点Vの位置を、図2に示すように人体のルート(腰)を中心とした仰角φと方位角θとを用いて表す。
仮想視点投影部112は、ステップS302において3次元動作データ取得部111が時系列の各3次元動作データから算出した人体の各関節の3次元相対座標値を仮想視点Vに投影した時の2次元座標値を求める。例えば、図2における仮想視点Vでは、視点Vのときと比較して人体をz軸まわりに−θ回転させた後に、y軸まわりに−φ回転することと同義である。回転を行う方法として、例えば、同次ベクトルを用いる方法がある。同次座標形式では、関節番号kの3次元相対座標値(x,y,z)を下記の式(1)に示す座標Pにより表す。
Figure 2014085933
式(1)で表される座標Pを、z軸まわりに−θ回転させた後に、y軸まわりに−φ回転した座標P’を求めるには、回転行列Rθ,Rφを用いて、下記の式(2)のような演算を行う。
Figure 2014085933
ここで、回転行列Rθは下記の式(3)で示され、回転行列Rφは下記の式(4)で示される。
Figure 2014085933
Figure 2014085933
仮想視点投影部112は、式(2)によって算出された座標値P’からy成分とz成分を取り出し、仮想視点Vにおける関節番号kの2次元座標(y ,z )とする。関節数がKであれば、仮想視点Vにおける2次元動作データは、各関節の2次元座標値を並べた2×Kの行列となる。仮想視点投影部112は、仮想視点Vを表す視点インデックスiと仮想視点Vについて生成した2次元動作データを、当該2次元動作データの生成に用いた3次元動作データと対応付けて動作情報記憶部120に記憶させる。
動作モデル学習部113は、任意の手法により、2次元動作データから仮想視点Vに対応する動作モデルを学習する(ステップS305)。動作モデルの学習方法は、一例として、非特許文献2のように、高次元データを次元圧縮する手法により、ステップS304において算出した各関節の2次元座標値からなる2次元動作データを低次元化し、この低次元化により得られた低次元特徴X2D を仮想視点Vの動作モデルとして用いることができる。動作モデル学習部113は、仮想視点Vと、時系列(例えば時刻t1、t2、…)の3次元動作データと、その3次元動作データから生成した2次元動作モデル及び低次元特徴X2D を対応付けて動作モデルとして動作情報記憶部120に記憶させる。
動作モデル学習部113は、現在までに処理した仮想視点数iがあらかじめ決められた学習視点数Iより少ないか否かを判定する(ステップS306)。動作モデル学習部113は、処理フレーム数iが学習視点数Iより少ないと判断した場合(ステップS306:Yes)、ステップS303からの処理を繰り返し、処理フレーム数iが学習視点数Iに達したと判断した場合(ステップS306:No)、処理を終了する。
上記により、例えば、動作情報記憶部120には、各視点候補Vi(i=1〜N)のインデックスiに対応付けて時刻t1、t2、…の2次元動作データ及び3次元動作データと動作モデルとが記憶される。
続いて、姿勢推定部130における処理について説明する。姿勢推定部130では、並列探索により視点毎の動作モデルの姿勢推定を行う。
全ての視点に関する階層的動作モデルを全探索することでも姿勢の推定は可能であるが、学習時の仮想視点の粒度を細かくするほど、探索範囲(探索対象)が膨大となってしまう。そこで、姿勢推定部130は、視点の探索範囲を次にように絞り込む。すなわち、姿勢推定部130は、時刻nにおける視点が、時刻n−1における視点の近傍の領域D内に存在すると仮定し、その領域D内の複数視点の動作モデルを探索する。
図5は、視点の探索領域の例を示す図である。同図に示す例では、時刻nにおける視点が含まれる領域Dを、時刻n−1における視点θ,φを中心とし、i(例えば、1度、5度など)を探索ステップとした9近傍の領域を合わせることにより決定する。つまり、領域Dは、9つの視点「θ,φ」、「θ−iθ,φ+iφ」、「θ,φ+iφ」、「θ+iθ,φ+iφ」、「θ−iθ,φ」、「θ+iθ,φ」、「θ−iθ,φ−iφ」、「θ,φ−iφ」、「θ+iθ,φ−iφ」をそれぞれ中心とした矩形や正方形などの所定形状の領域からなる。これらの各領域をD〜Dとする。
図4は、本実施形態における姿勢推定部130のモデル推定処理を示すフローチャートである。ここでは、動作情報記憶部120にさまざまな動作についての動作モデルが記憶されている場合、任意の方法により、予めいずれの動作の動作モデルを使用するかが選択されているものとする。
まず、姿勢推定部130の画像入力部131は、姿勢の推定対象となる人物を撮像した2次元の画像データを時系列で入力する。特徴量算出部132は、画像入力部131により入力された画像データ上における各関節の位置を検出し、検出した各関節の位置を座標等により示す特徴量データを算出する。n番目(n=1,…,N)のフレームの画像データから算出された特徴量データをI(n)とし、n番目のフレームが得られた時刻を時刻nとする。
3次元姿勢推定部133は、画像入力部131が入力した2次元画像に関して、初期視点θ(0),φ(0)を大まかに設定する(ステップS401)。ここで、視点は、学習した際の仮想視点の位置を表す定義に従って表される。例えば、図2に示したように、人体のルート(腰)の位置を中心とした仰角と方位角とを用いて、視点の位置を規定する。なお、初期視点θ(0)、φ(0)は、ユーザによって外部より入力された値を用いてもよく、視点球上の予め定められた視点から選択するようにしてもよい。
3次元姿勢推定部133は、n=1を初期値とし、時刻nの視点候補を生成する(ステップS402)。これは例えば、時刻n−1の視点をθ(n−1),φ(n−1)としたとき、図5のように、9近傍の領域D内に中心(視点θ,φ)からの重みを付けて候補数を決定することで可能である。より具体的には、3次元姿勢推定部133は、図5で示される視点θ,φを、時刻n−1における視点θ(n−1),φ(n−1)とし、例えばサンプリング数N=1000のサンプリング点を平均が視点θ,φとなる正規分布に従って分配する。3次元姿勢推定部133は、この分配によって領域Dを構成する9つの各領域D〜Dに分配されたサンプリング点の個数を得る。3次元姿勢推定部133は、各領域D〜Dのサンプリング点の個数に応じて、各領域について候補の個数を決定する。
候補の個数を決定した後、3次元姿勢推定部133は、時刻nの姿勢候補を生成する(ステップS403)。3次元姿勢推定部133は、各領域D〜Dに含まれる仮想視点の中から、その領域についてステップS402において決定した個数だけの仮想視点を例えばランダムに選択し、選択した仮想視点を時刻nの視点候補とし、視点候補の動作モデルを姿勢候補とする。
3次元姿勢推定部133は、学習部110によって仮想視点Vごとに学習された動作モデルと、特徴量算出部132が算出した特徴量とを比較することにより、視点と姿勢を推定する(ステップS404)。
3次元姿勢推定部133が行う姿勢推定は、下記のような手法で実現できる。
例えば、画像入力部131が入力した画像データが示す2次元映像から観測された時刻nの人物動作の関節位置を、その時刻nまでに観測された特徴量データI(1)〜I(n)を用いて、特徴量I(1:n)≡(I(1),...,I(n))として表す。このとき、時刻nにおける姿勢推定は、学習した動作モデルを事前知識として、画像入力部131が入力した画像データにより観測された関節位置から、時刻nにおける状態Φ(n)=[y(n),x(n),S(n)]を推定することにより行う。y(n)は時刻nにおける2次元動作データ及び3次元動作データであり、x(n)はy(n)に対応する動作モデルである。S(n)は2次元写像に影響するスケールパラメータであり、例えば、実際の人物のサイズと画像データにおける当該人物のサイズの比などである。
状態推定は、下記の式(5)の事後確率を最大化する状態を求めることに等しい。すなわち、視点候補に対応した状態のうち、事後確率を最大化する状態が、観測対象の人物の姿勢となる。これは、MAP(Maximum a posteriori)推定やパーティクルフィルタ等のサンプリング手法によって実現される。
Figure 2014085933
ここで、Mは、動作情報記憶部120に記憶されている動作モデルであり、式(5)のp(Φ(n)|I(1:n),M)は、動作モデルMから生成されたという条件下で時刻1からnまでの特徴量I(1:n)が観測されたときに、状態がΦ(n)である事後確率である。式(5)の右辺の第1項p(I(n)|Φ(n))は、時刻nにおいて状態がΦ(n)であったときに、特徴量I(n)が観測される尤度(観測モデル)であり、第2項p(Φ(n)|I(1:n−1),M)は、動作モデルMから生成されたという条件下で、時刻Iからn−1までの特徴量I(1:n−1)が観測されたときに、時刻nの状態がΦ(n)となる予測分布(状態遷移モデル)を表している。
しかし、状態Φ(n)は観測不可である。そこで、本実施形態では、3次元姿勢推定部133は、パーティクルフィルタを用いて式(5)を解く。状態Φ(n)を推定する問題を、事後確率の期待値を求める問題とする。このとき、p(Φ(n)|I(1:n),M)の期待値は下記の式(6)で表される。
Figure 2014085933
観測モデルと状態遷移モデルをランダムサンプリングによりモンテカルロ近似し、期待値を下記の式(7)のサンプルの重み付き平均としてとして表す。なお、nは現在の(計算対象の)フレーム番号、iはパーティクルの番号である。Nparticleはパーティクル数であり、ステップS402において視点毎に決定される。また、パーティクルは、視点候補に対応した二次元動作データとそれに対応する動作モデル(低次元特徴)である。
Figure 2014085933
このとき、時刻nにおける番号iのパーティクルの状態遷移モデルΦ(i)(n)は、下記の式(8)で表され、観測モデルω(i)(n)は、下記の式(9)で表される。
Figure 2014085933
Figure 2014085933
3次元姿勢推定部133は、各領域の視点候補それぞれについてω(i)(n)及びΦ(i)(n)を算出する。3次元姿勢推定部133は、時刻(n−1)において決定したi番目のパーティクルから視点候補のω(i)(n)及びΦ(i)(n)を算出し、式(7)によってp(Φ(n)|I(1:n),M)の期待値を算出する。
状態遷移モデルΦ(i)(n)及び観測モデルω(i)(n)は、以下のように算出する。
(状態遷移モデル)
3次元姿勢推定部133は、時刻nにおける状態遷移モデルである状態サンプルΦ(i)(n)=[x(i)(n),y(i)(n),S(i)(n)]を生成する。このとき、3次元姿勢推定部133は、ステップS404において算出した視点候補毎に、その視点の動作モデルに従って状態サンプルΦ(i)(n)を生成する。
状態遷移モデルは、動作モデルの学習手法に従い定義される。例えば、非特許文献2の手法により学習された動作モデルであれば、未知の潜在変数である時刻nの動作モデルx(n)と、部分動作データである時刻nにおける2次元動作データ及び3次元動作データy(n)はそれぞれ、下記の式(10)、式(11)で与えられる。つまり、時刻nのx(n)及びy(n)は、1つ前の動作モデルx(n−1)を用いて算出される。
Figure 2014085933
Figure 2014085933
このとき、μ(x)とμ(y)は、下記の式(12)、式(13)で表される。ただし、添え字Tは転置記号、添え字−1は、逆行列を表す。
Figure 2014085933
Figure 2014085933
3次元姿勢推定部133は、式(10)の場合、式(12)のxをx(n−1)としてx(n)を算出し、式(11)の場合、式(13)のxをx(n)としてy(n)を算出する。
なお、式(12)におけるX2:Nは、時刻n=2〜Nまでの動作モデル(ベクトル)x(n)を並べた行列であり、Nは時間の長さ、すなわち、画像入力部131から入力された2次元の画像データのフレーム数である。本実施形態では、時刻n=2〜Nまでの動作モデルx(n)として、視点候補の仮想視点に対応して動作情報記憶部120に記憶されている時刻t2〜tNまでの動作モデルx(n)が用いられる。また、Kは、時刻n=1〜Nまでのベクトルk(n)を並べた行列である。非特許文献2を用いる場合、時刻n=1〜Nのk(n)は、時刻t1〜tNそれぞれの仮想視点の2次元動作データ及び3次元動作データと動作モデルとの対応を表すパラメータαである。k(n)は、予め動作情報記憶部120に記憶しておいてもよく、3次元姿勢推定部133が都度算出してもよい。k(x)は、i番目の要素にk(x,x)をもつベクトルである。
また、式(13)におけるYは、時刻n=1〜Nまでのベクトルy(n)を並べた行列である。時刻n=1〜Nまでのベクトルy(n)として、視点候補の仮想視点に対応して動作情報記憶部120に記憶されている時刻t1〜tNまでの2次元動作データ及び3次元動作データが用いられる。Kは、時刻n=1〜Nまでのベクトルk(n)を並べた行列である。k(n)は、非特許文献2に記載のパラメータβであり、時刻n=1〜Nのk(n)は、時刻t1〜tNそれぞれの仮想視点の2次元動作データ及び3次元動作データと動作モデルとから算出される。k(n)は、予め動作情報記憶部120に記憶しておいてもよく、3次元姿勢推定部133が都度算出してもよい。また、k(x)は、i番目の要素にk(x,x)をもつベクトルである。
例えば、状態遷移モデルを非特許文献2の手法で定義する場合、k(x,x)、k(x,x)はそれぞれ、以下の式(14)、式(15)で示す式により算出される。(x,x)はそれぞれ、式(14)、式(15)の(x,x’)に相当する。
Figure 2014085933
Figure 2014085933
なお、上記のk(x,x’)や、k(x,x’)は、一般的に用いられるBPRカーネル関数であるが、実際のデータ形式に合った形の他のカーネル関数を用いることができる。
また、3次元姿勢推定部133は、例えば、初期フレームでS(1)を指定し、その後はランダムウォーク等でS(i)(n)を算出することが可能である。なお、状態サンプルΦ(i)(n)の要素にS(i)(n)を含めないことも可能である。その場合、特徴量算出部132は、画像情報から状態Φ(n)の要素となるS(n)を算出する。このS(n)は、時々刻々変化するが、特徴量算出部132は、例えば時刻nにおける画像データにおけるシルエットの面積や頭部と腰の位置のスケールによってS(n)を求める。
(観測モデル)
尤度は、下記の式(16)で規定する。
Figure 2014085933
ここで、(n)は、公知の2次元ビデオトラッキングによって時刻nにおける2次元映像から検出されたj番目の関節位置であり、特徴量データI(n)におけるj番目の関節に対応した要素である。また、式(14)におけるy(n)は、時刻nにおいて状態Φ(n)の時に2次元動作データから得られたj番目の関節の2次元動作データであり、時刻nの視点候補の仮想視点に対応して動作情報記憶部120に記憶されている2次元動作データが用いられる。
3次元姿勢推定部133は、視点候補毎に、状態遷移モデルと観測モデルを算出し、算出した状態遷移モデルと観測モデルを用いて式(7)により期待値を算出し、算出した期待値(確率)が最大である視点候補を時刻nの推定視点Vとして決定する。3次元姿勢推定部133は、推定視点Vとして決定した仮想視点に対応して動作情報記憶部120に記憶されている2次元動作データ及び3次元動作データをy(n)、動作モデルをx(n)とする。3次元姿勢推定部133は、y(n)及びx(n)と、推定視点Vについて算出したS(i)(n)(あるいは、特徴量算出部132が算出したS(n))とから、時刻nにおける姿勢を表す状態Φ(n)を得る。3次元姿勢推定部133は、推定した人物の姿勢を示す状態Φ(n)を、推定情報として推定姿勢情報記憶部140に記憶させる。
3次元姿勢推定部133は、処理フレーム数nが画像入力部131から入力されたフレーム数Nより少ないか否かを判定する(ステップS406)。3次元姿勢推定部133は、処理フレーム数nがフレーム数Nより少ないと判断した場合(ステップS406:Yes)、ステップS403からの処理を繰り返し行い、処理フレーム数nがフレーム数Nに達した場合(ステップS406:No)、処理を終了する。
なお、上記においては、パーティクルフィルタを用いて式(5)を解いているが、既知の他の方法を用いてもよい。
上述した実施形態によれば、学習部110は、モデル学習時に、人体の腰の位置を中心とした球を考え、その球の表面上に仮想視点を設定して、仮想視点毎に動作モデルを構築する。そして、姿勢推定時に、姿勢推定部130は、視点毎の動作モデルを並列して探索し、姿勢を推定する。
本実施形態によれば、姿勢推定対象とカメラとの位置関係、及び姿勢推定対象の動きの方向が未知である場合でも、カメラのキャリブレーションをせず、かつ、動きの方向に関する制限なしに、姿勢推定を行うことができる。
なお、上述の実施形態において、3次元姿勢推定装置100は、人体の姿勢を推定する場合について説明したが、これに限ることなく、複数の関節を有する物体や、動物等の姿勢を推定するようにしてもよい。
上述した3次元姿勢推定装置100は、内部にコンピュータシステムを有している。そして、本実施形態の3次元姿勢推定装置100が備える各部の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。なお、ここでいう「コンピュータシステム」とは、CPU及び各種メモリやOSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
100 3次元姿勢推定装置
110 学習部
111 3次元動作データ取得部
112 仮想視点投影部
113 動作モデル学習部
120 動作情報記憶部
130 姿勢推定部
131 画像入力部
132 特徴量算出部
133 3次元姿勢推定部
140 推定姿勢情報記憶部

Claims (5)

  1. 複数の関節を有する動作モデル作成対象の姿勢を3次元空間における前記関節の位置で示す3次元動作データを出力する3次元動作データ取得部と、
    前記動作モデル作成対象が有する関節のうち予め定められた関節を中心とした所定の半径の視点球の表面上に設けられる仮想視点ごとに、前記3次元動作データで示される関節を該仮想視点に2次元投影した2次元動作データを生成する仮想視点投影部と、
    前記仮想視点毎に、前記3次元動作データまたは前記2次元動作データから動作モデルを生成する動作モデル学習部と、
    前記複数の関節を有する姿勢推定対象を撮像した画像データを順次入力する画像入力部と、
    前記画像データにおける前記姿勢推定対象の前記関節の位置及びその変化を示す特徴量を算出する特徴量算出部と、
    前記画像データが出力された順に、1つ前までの画像データより算出された前記特徴量の観測後に複数の前記動作モデルそれぞれが観測される事後確率を算出し、算出した前記事後確率が最も高い前記動作モデルに基づいて得られる姿勢を前記画像データが得られたときの前記姿勢推定対象の姿勢として選択することを繰り返す3次元姿勢推定部と、
    を備えることを特徴とする3次元姿勢推定装置。
  2. 前記3次元姿勢推定部は、1フレーム前に選択された前記動作モデルに対応した前記仮想視点から所定領域内の他の前記仮想視点を複数選択し、選択した複数の前記仮想視点に対応した前記動作モデルそれぞれについて前記事後確率を算出する、
    ことを特徴とする請求項1に記載の3次元姿勢推定装置。
  3. 前記3次元姿勢推定部は、1フレーム前に選択された前記動作モデルに対応した前記仮想視点を中心とした正規分布に従って前記所定領域内に所定数のサンプリング点を分配し、前記所定領域を構成する各分割領域において選択すべき前記仮想視点の数を当該分割領域に分配された前記サンプリング点の数に応じて決定する、
    ことを特徴とする請求項2に記載の3次元姿勢推定装置。
  4. 3次元推定装置が実行する3次元推定方法であって、
    3次元動作データ取得部が、複数の関節を有する動作モデル作成対象の姿勢を3次元空間における前記関節の位置で示す3次元動作データを出力する3次元動作データ取得ステップと、
    仮想視点投影部が、前記動作モデル作成対象が有する関節のうち予め定められた関節を中心とした所定の半径の視点球の表面上に設けられる仮想視点ごとに、前記3次元動作データで示される関節を該仮想視点に2次元投影した2次元動作データを生成する仮想視点投影ステップと、
    動作モデル学習部が、前記仮想視点毎に、前記3次元動作データまたは前記2次元動作データから動作モデルを生成する動作モデル学習ステップと、
    画像出力部が、前記複数の関節を有する姿勢推定対象を撮像した画像データを順次入力する画像入力ステップと、
    特徴量算出部が、前記画像データにおける前記姿勢推定対象の前記関節の位置及びその変化を示す特徴量を算出する特徴量算出ステップと、
    3次元姿勢推定部が、前記画像データが出力された順に、1つ前までの画像データより算出された前記特徴量の観測後に複数の前記動作モデルそれぞれが観測される事後確率を算出し、算出した前記事後確率が最も高い前記動作モデルに基づいて得られる姿勢を前記画像データが得られたときの前記姿勢推定対象の姿勢として選択することを繰り返す3次元姿勢推定ステップと、
    を有することを特徴とする3次元姿勢推定方法。
  5. コンピュータを、
    請求項1から請求項3のいずれか1項に記載の3次元姿勢推定装置の各部として機能させるプログラム。
JP2012235800A 2012-10-25 2012-10-25 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム Pending JP2014085933A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012235800A JP2014085933A (ja) 2012-10-25 2012-10-25 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012235800A JP2014085933A (ja) 2012-10-25 2012-10-25 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2014085933A true JP2014085933A (ja) 2014-05-12

Family

ID=50788920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012235800A Pending JP2014085933A (ja) 2012-10-25 2012-10-25 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2014085933A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018129007A (ja) * 2017-02-10 2018-08-16 日本電信電話株式会社 学習データ生成装置、学習装置、推定装置、学習データ生成方法及びコンピュータプログラム
JP2019016106A (ja) * 2017-07-05 2019-01-31 富士通株式会社 情報処理プログラム、情報処理装置、情報処理方法、及び情報処理システム
JP2020077388A (ja) * 2018-09-28 2020-05-21 医療法人社団皓有会 運動解析装置
CN111242004A (zh) * 2020-01-10 2020-06-05 厦门瑞为信息技术有限公司 一种基于电梯监控数据处理的自动告警方法及系统
CN111368667A (zh) * 2020-02-25 2020-07-03 达闼科技(北京)有限公司 一种数据采集方法、电子设备和存储介质
CN112232106A (zh) * 2020-08-12 2021-01-15 北京工业大学 一种二维到三维人体姿态估计方法
CN112823354A (zh) * 2018-11-22 2021-05-18 三星电子株式会社 电子装置及其控制方法
US20220036052A1 (en) * 2020-07-31 2022-02-03 Qualiaos, Inc. Detection of kinetic events and mechanical variables from uncalibrated video
CN116604571A (zh) * 2023-07-14 2023-08-18 湖南大学 一种基于深度强化学习的机器人三维测量路径规划方法
CN117357103A (zh) * 2023-12-07 2024-01-09 山东财经大学 一种基于cv的肢体运动训练指导方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012137933A (ja) * 2010-12-27 2012-07-19 Kokusai Kogyo Co Ltd 被写地物の位置特定方法とそのプログラム、及び表示地図、並びに撮影位置取得方法とそのプログラム、及び撮影位置取得装置
JP2012178133A (ja) * 2011-02-03 2012-09-13 Nippon Telegr & Teleph Corp <Ntt> 被写体認識装置、被写体認識方法及び被写体認識プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012137933A (ja) * 2010-12-27 2012-07-19 Kokusai Kogyo Co Ltd 被写地物の位置特定方法とそのプログラム、及び表示地図、並びに撮影位置取得方法とそのプログラム、及び撮影位置取得装置
JP2012178133A (ja) * 2011-02-03 2012-09-13 Nippon Telegr & Teleph Corp <Ntt> 被写体認識装置、被写体認識方法及び被写体認識プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6015041959; 松本 鮎美: 'ガウス過程回帰を用いた階層的学習手法の提案と人物3次元動作推定への応用' 情報処理学会 画像の認識・理解シンポジウム(MIRU) 2011 [online] , 20110720, P.683-690, 情報処理学会 *
JPN6015041960; 島田 伸敬: '関節物体のモデルフィッティング' 情報処理学会研究報告 Vol.2006 No.51 2006-CVIM-154, 20060519, P.375-392, 社団法人 情報処理学会 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018129007A (ja) * 2017-02-10 2018-08-16 日本電信電話株式会社 学習データ生成装置、学習装置、推定装置、学習データ生成方法及びコンピュータプログラム
JP2019016106A (ja) * 2017-07-05 2019-01-31 富士通株式会社 情報処理プログラム、情報処理装置、情報処理方法、及び情報処理システム
JP2020077388A (ja) * 2018-09-28 2020-05-21 医療法人社団皓有会 運動解析装置
CN112823354A (zh) * 2018-11-22 2021-05-18 三星电子株式会社 电子装置及其控制方法
CN111242004A (zh) * 2020-01-10 2020-06-05 厦门瑞为信息技术有限公司 一种基于电梯监控数据处理的自动告警方法及系统
CN111368667A (zh) * 2020-02-25 2020-07-03 达闼科技(北京)有限公司 一种数据采集方法、电子设备和存储介质
CN111368667B (zh) * 2020-02-25 2024-03-26 达闼科技(北京)有限公司 一种数据采集方法、电子设备和存储介质
US20220036052A1 (en) * 2020-07-31 2022-02-03 Qualiaos, Inc. Detection of kinetic events and mechanical variables from uncalibrated video
US11798318B2 (en) * 2020-07-31 2023-10-24 Qualiaos, Inc. Detection of kinetic events and mechanical variables from uncalibrated video
CN112232106A (zh) * 2020-08-12 2021-01-15 北京工业大学 一种二维到三维人体姿态估计方法
CN116604571A (zh) * 2023-07-14 2023-08-18 湖南大学 一种基于深度强化学习的机器人三维测量路径规划方法
CN116604571B (zh) * 2023-07-14 2023-10-27 湖南大学 一种基于深度强化学习的机器人三维测量路径规划方法
CN117357103A (zh) * 2023-12-07 2024-01-09 山东财经大学 一种基于cv的肢体运动训练指导方法及系统
CN117357103B (zh) * 2023-12-07 2024-03-19 山东财经大学 一种基于cv的肢体运动训练指导方法及系统

Similar Documents

Publication Publication Date Title
JP5555207B2 (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
JP2014085933A (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
JP7209333B2 (ja) 関節位置の取得方法及び装置、動作の取得方法及び装置
JP5525407B2 (ja) 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム
JP6116784B1 (ja) 3次元モデル生成システム、3次元モデル生成方法、及びプログラム
Yeung et al. Improved skeleton tracking by duplex kinects: A practical approach for real-time applications
KR101791590B1 (ko) 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법
JP4148281B2 (ja) モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム
CN110189399B (zh) 一种室内三维布局重建的方法及系统
JP7448679B2 (ja) 画像処理方法及び装置
JP5355074B2 (ja) 3次元形状データ処理装置、3次元形状データ処理方法及びプログラム
JP2015015021A (ja) 被写体の三次元表現を生成する方法およびシステム
TWI785588B (zh) 圖像配準方法及其相關的模型訓練方法、設備和電腦可讀儲存媒體
KR102270949B1 (ko) 3차원 인간 모델 복원 장치 및 방법
Michel et al. Markerless 3d human pose estimation and tracking based on rgbd cameras: an experimental evaluation
JP4938748B2 (ja) 画像認識装置及びプログラム
JP2010211732A (ja) 物体認識装置および方法
JP2019016164A (ja) 学習データ生成装置、推定装置、推定方法及びコンピュータプログラム
Schröder et al. Design and evaluation of reduced marker layouts for hand motion capture
JP7499346B2 (ja) 逆運動学に基づいた関節の回転の推測
JP6579353B1 (ja) 情報処理装置、情報処理方法、寸法データ算出装置、及び製品製造装置
CN116248920A (zh) 虚拟角色直播处理方法、装置及系统
JP2013092876A (ja) 姿勢推定装置、姿勢推定方法及び姿勢推定プログラム
Alcoverro et al. Skeleton and shape adjustment and tracking in multicamera environments
WO2021171768A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160301