JP2012113438A - 姿勢推定装置および姿勢推定プログラム - Google Patents

姿勢推定装置および姿勢推定プログラム Download PDF

Info

Publication number
JP2012113438A
JP2012113438A JP2010260468A JP2010260468A JP2012113438A JP 2012113438 A JP2012113438 A JP 2012113438A JP 2010260468 A JP2010260468 A JP 2010260468A JP 2010260468 A JP2010260468 A JP 2010260468A JP 2012113438 A JP2012113438 A JP 2012113438A
Authority
JP
Japan
Prior art keywords
image
frame
joint angle
silhouette
captured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010260468A
Other languages
English (en)
Other versions
JP5503510B2 (ja
Inventor
Seiki Inoue
誠喜 井上
Shuhei Hata
周平 秦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2010260468A priority Critical patent/JP5503510B2/ja
Publication of JP2012113438A publication Critical patent/JP2012113438A/ja
Application granted granted Critical
Publication of JP5503510B2 publication Critical patent/JP5503510B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

【課題】人物の撮影画像から姿勢または動きを推定する際に対応するCG画像との照合の精度を高める。
【解決手段】姿勢推定装置1は、撮影画像と、当該撮影画像中の人物に対応して生成されたCG画像とを入力し、撮影画像からオブジェクトの特定領域を2値化したシルエットを抽出すると共に、CG画像から同様に特定領域を2値化したシルエットを抽出する特定領域抽出手段31と、抽出されたそれぞれのシルエットに細線化処理を施す細線化手段32と、細線化されたそれぞれのシルエットに膨張処理を施す膨張処理手段33と、膨張させたそれぞれのシルエットに距離変換を施すことで濃淡画像を生成する距離変換手段34と、それぞれの濃淡画像の特徴量としてHOGを算出する勾配特徴量抽出手段35と、撮影画像から算出されたHOGとCG画像から算出されたHOGとを照合することで、撮影画像中のオブジェクトの関節角度を推定する照合手段4とを備える。
【選択図】図1

Description

本発明は、推定する対象物を撮影した単視点の静止画または動画像を示す撮影画像に映ったオブジェクトから、画像処理により、対象物の姿勢または動きを推定する姿勢推定装置および姿勢推定プログラムに関する。
従来、1台のカメラで撮影された単眼視画像(単視点の静止画または動画像)を用いたモーションキャプチャ手法は種々提案されている。推定する対象物を人物としたときに、単視点の人物画像から、人物の姿勢が推定できれば、人物動作の分析や、コンピュータグラフィックス(CG)によるキャラクタアニメーションの制作に有効である。
撮影画像から人物領域を抽出し、その形状および模様から姿勢を推定するために、以下の手法などが提案されている。
(1)人体の骨格構造を持った3次元CGモデルを用意しておき、骨格を様々に動かして生成したCG画像と、撮影画像と、のマッチングにより、姿勢推定を行う。このとき、例えば、撮影画像から人物領域を抽出し、その画像特徴とCG生成映像の画像特徴とを比較する(例えば、非特許文献1参照)。
(2)撮影画像から人物領域を抽出し、その形状(シルエット)から、人物の手足や肘、膝の位置を推定し、内部の骨格を推定する(例えば、特許文献1参照)。
(3)撮影画像から人物領域を抽出し、その形状(シルエット)と、CG生成画像のシルエットと、を比較する。この場合、比較は2つの画像のXOR(排他的論理和)で行う。
特開2004−164480号公報
「HOG特徴に基づく単眼画像からの人体3次元姿勢推定」、画像の認識・理解シンポジウム(MIRU2008)、2008年7月
しかしながら、前記した(1)の手法のように画像特徴を利用しようとすると、人物が着ている洋服などの模様に推定結果が大きく影響される。服装が異なると、撮影画像とCG画像とのマッチング(照合)の度合いが変化し、正確な姿勢推定が行えない。
また、前記した(2)の手法は、服装の影響が少ないよう、シルエットを用いているが、例えば人物の手足や肘、膝などの部位を認識することは難しく、シルエット形状の正確さによって、部位が正確に特定できるかどうかが大きく影響される。つまり、シルエット形状を抽出するときの誤差、すなわち領域抽出の段階での誤差によって、部位を誤検出する可能性が高い。
また、前記した(3)の手法は、比較的ロバストな方法(頑健な方法)であるが、単純にXORでシルエット間の照合を行うと、画面上の位置や手足の太さの差異の影響を受けてしまう。つまり、単純にシルエットで比較すると、例えば、シルエットの向きが微妙に変化していたり、歩行中の両足や両腕の重なり具合が原因となって、なかなか適合しない。また、CGでモデルを作成する場合に、標準的であると考えられるような例えば足部のモデルを作成したとしても、撮影画像中のオブジェクトである人物の筋肉のつき方や太さに個人差があるために、形状が同じであっても太さが違うと、希望のマッチング結果が得られない。要するに、従来技術では、様々な動作における特徴を正確に再現できるまでには至っていないのが現状である。
本発明は、以上のような問題点に鑑みてなされたものであり、推定する対象物の撮影画像から姿勢または動きを推定する際に対応するCG画像との照合の精度を高めることのできる姿勢推定装置および姿勢推定プログラムを提供することを課題とする。
前記課題を解決するために、請求項1に記載の姿勢推定装置は、推定する対象物を撮影した単視点の静止画または動画像を示す撮影画像に映ったオブジェクトから、画像処理により、前記対象物の姿勢または動きを特徴付けるパラメータを推定する姿勢推定装置であって、画像入力手段と、特定領域抽出手段と、細線化手段と、膨張処理手段と、距離変換手段と、勾配特徴量抽出手段と、照合手段と、を備えることとした。
かかる構成によれば、姿勢推定装置は、画像入力手段によって、前記撮影画像を入力すると共に、当該撮影画像中のオブジェクトを多関節物体としてコンピュータグラフィックス(CG)用にモデル化したCGキャラクタモデルおよび当該CGキャラクタモデルで用いる関節角度パラメータに基づいて前記撮影画像中のオブジェクトを擬似的に描画することで生成されたCG画像を入力する。ここで、推定する対象物が例えば人物であれば、CGキャラクタモデルは、人体モデルを含む。そして、姿勢推定装置は、特定領域抽出手段によって、前記入力された撮影画像から前記オブジェクトの特定領域を2値化したシルエットを抽出すると共に、前記入力されたCG画像から前記オブジェクトの特定領域を2値化したシルエットを抽出する。そして、姿勢推定装置は、細線化手段によって、前記抽出されたそれぞれのシルエットに細線化処理を施し、膨張処理手段によって、前記細線化されたそれぞれのシルエットに膨張処理を施し、距離変換手段によって、前記膨張させたそれぞれのシルエットに距離変換を施すことで濃淡画像を生成する。
ここで、細線化処理、膨張処理、距離変換は、一般的な画像処理ソフトウェアにライブラリ化されている関数を用いることで実現できる。
また、細線化処理は、2値画像のシルエットを幅1ピクセルの線画像に変換し、膨張処理は、細線を均等な太さに拡幅する。したがって、例えば撮影画像から抽出された後に細線化されたシルエットに対して膨張処理を施すと、撮影画像から抽出されたシルエットに復元されるわけではなく、細線が均等な太さに拡幅されたシルエットとなる。これにより、画像中のオブジェクトの太さの影響を受けずに、例えば撮影画像中の人物の足部のシルエットを抽出したときに、足部の個人差に関わらず、予め均等な幅で作成したCGモデルの足部のシルエットとの間で高精度に照合を行うことができる。
また、距離変換は、値が0と1の2値画像の各画素に対して、そこから値が0である画素への最短距離を与える変換を示す。このため、2値画像のシルエット内の各画素からシルエットの輪郭縁部の画素への距離のうち最短距離を与えることができる。したがって、距離変換後には、2値画像のシルエットの元の形状に応じて、元の形状の縁部が適宜削られたような濃淡画像となる。このようにシルエットに濃淡をつけて濃淡画像を生成すると、シルエットの方向性として、明るさの傾きが表れてくる。そのため、従来技術において領域抽出で得たシルエットで単純に比較したときにシルエットの向きが微妙に変化していたり、シルエットの重なり具合が原因となって適合しない問題を解決し、シルエットであっても方向性を見つけることができ、希望のマッチング結果を得ることができる。
そして、姿勢推定装置は、勾配特徴量抽出手段によって、前記それぞれの濃淡画像の特徴量としてHOG(Histogram of Oriented Gradient)を算出する。ここで、HOGは、画像の着目する画素について水平方向および垂直方向に隣接する画素間の明るさの差を輝度勾配として抽出した特徴量を示す。そして、姿勢推定装置は、照合手段によって、前記撮影画像中のオブジェクトのシルエットに基づいて算出されたHOGと、前記CG画像中のオブジェクトのシルエットに基づいて算出されたHOGとを照合することで、前記撮影画像中のオブジェクトの関節角度パラメータを推定する。照合の結果、HOGの差分が小さいほど、撮影画像に対するCG画像の類似度が大きいことになる。また、姿勢推定装置は、このようなCG画像を生成するときに用いた関節角度パラメータを、姿勢推定結果として求めることができる。
仮にHOGを算出することなくシルエットあるいは濃淡画像で比較した場合には、撮影画像とCG画像のオブジェクトが同じ形状であったとしても、オブジェクトの位置がずれているだけで、マッチングができなくなってしまう。このような問題に対して、この姿勢推定装置は、照合手段によって、画像のシルエットに基づいてHOGを比較しているので、撮影画像のシルエットに基づいて得た濃淡画像中のオブジェクトの位置と、CG画像のシルエットに基づいて得た濃淡画像中のオブジェクトの位置と、がずれていたとしても、特徴量をオブジェクトの明るさの傾きで求めているので、画面上のオブジェクトの位置の違いによる影響を受けずに高精度に照合を行うことができる。
また、非特許文献1のようにHOGを適用したとしても画像のシルエットを抽出しない場合には、推定する対象物が人物の場合、服装が異なると、マッチングができなくなる。このような問題に対して、この姿勢推定装置は、画像のシルエットを抽出した上で濃淡画像を生成し、さらに濃淡画像からHOGを算出しているので、洋服の模様などの影響を受けることなく、シルエット照合のロバスト性をいかしながら、撮影画像とCG画像とを高精度に照合することができる。
また、請求項2に記載の姿勢推定装置は、請求項1に記載の姿勢推定装置において、前記画像入力手段に入力する前記CG画像を生成するために、モデルシーケンス記憶手段と、CG画像生成手段と、をさらに備えることが好ましい。
かかる構成によれば、姿勢推定装置は、モデルシーケンス記憶手段に、前記推定する対象物が一連の所定動作を行うためのモデルとしてフレーム毎に予め作成された関節角度パラメータの値をモデルシーケンスとして記憶する。ここで、対象物が例えば人物であれば、モデルシーケンスには、例えば歩行や走行等の個別の動きに対応したモデルが含まれる。そして、姿勢推定装置において、CG画像生成手段は、前記画像入力手段にフレーム毎に入力する撮影画像である撮影フレーム画像に対応させて前記モデルシーケンス記憶手段からフレーム毎に読み出された関節角度パラメータの値と、前記CGキャラクタモデルとに基づいて、フレーム毎のCG画像としてCGフレーム画像を生成する。そして、姿勢推定装置において、前記特定領域抽出手段は、前記撮影フレーム画像から前記オブジェクトの特定領域を2値化したシルエットを抽出すると共に、前記CGフレーム画像から前記オブジェクトの特定領域を2値化したシルエットを抽出し、前記細線化手段、前記膨張処理手段、前記距離変換手段および前記勾配特徴量抽出手段は、前記撮影フレーム画像および前記CGフレーム画像のフレーム別に画像処理を施す。
また、請求項3に記載の姿勢推定装置は、請求項2に記載の姿勢推定装置において、パラメータ変更手段をさらに備え、前記照合手段が、差分算出手段と、空間的特徴判定手段と、を備えることが好ましい。
かかる構成によれば、姿勢推定装置は、パラメータ変更手段によって、前記撮影フレーム画像に対して前記モデルシーケンス記憶手段からフレーム毎に読み出された関節角度パラメータの値を予め定められた範囲内で変更する。そして、姿勢推定装置において、前記CG画像生成手段は、フレーム毎に読み出された関節角度パラメータまたは前記変更された関節角度パラメータの値と、前記CGキャラクタモデルとに基づいて、前記CGフレーム画像を生成する。また、姿勢推定装置において、前記照合手段は、差分算出手段によって、前記撮影フレーム画像に対して前記モデルシーケンス記憶手段から読み出された関節角度パラメータまたは前記パラメータ変更手段で変更された関節角度パラメータの値を用いて生成されるCG画像のシルエットに基づく各HOGと、当該撮影フレーム画像のシルエットに基づくHOGとの差分データをそれぞれ算出する。そして、姿勢推定装置において、前記照合手段は、空間的特徴判定手段によって、前記モデルシーケンスのフレーム番号を固定したときに、当該撮影フレーム画像に対して算出された前記HOGの差分データに基づいて、差分データが最小となるときの前記関節角度パラメータの値を判定し、推定結果として前記フレーム番号および前記関節角度パラメータの値を出力する。
また、請求項4に記載の姿勢推定装置は、請求項2に記載の姿勢推定装置において、前記照合手段が、差分算出手段と、時間的特徴抽出手段と、を備えることが好ましい。
かかる構成によれば、姿勢推定装置において、前記照合手段は、差分算出手段によって、前記撮影フレーム画像に対して前記モデルシーケンス記憶手段から読み出された関節角度パラメータの値を用いて生成されるCG画像のシルエットに基づく各HOGと、当該撮影フレーム画像のシルエットに基づくHOGとの差分データをそれぞれ算出する。そして、姿勢推定装置において、前記照合手段は、時間的特徴抽出手段によって、前記撮影フレーム画像に対して前記モデルシーケンスのフレーム番号を変化させたときに前記モデルシーケンス記憶手段から読み出される関節角度パラメータの値を用いて生成されるCG画像についての前記HOGの差分データに基づいて、差分データが最小となるときの前記モデルシーケンスのフレーム番号を抽出し、推定結果として前記フレーム番号および前記関節角度パラメータの値を出力する。
また、請求項5に記載の姿勢推定装置は、請求項2に記載の姿勢推定装置において、パラメータ変更手段をさらに備え、前記照合手段が、差分算出手段と、時間的特徴抽出手段と、空間的特徴判定手段と、を備えることが好ましい。
かかる構成によれば、姿勢推定装置は、パラメータ変更手段によって、前記撮影フレーム画像に対して前記モデルシーケンス記憶手段からフレーム毎に読み出された関節角度パラメータの値を予め定められた範囲内で変更する。そして、姿勢推定装置において、前記CG画像生成手段は、フレーム毎に読み出された関節角度パラメータまたは前記変更された関節角度パラメータの値と、前記CGキャラクタモデルとに基づいて、前記CGフレーム画像を生成する。また、姿勢推定装置において、前記照合手段は、差分算出手段によって、前記撮影フレーム画像に対して前記モデルシーケンス記憶手段から読み出された関節角度パラメータまたは前記前記パラメータ変更手段で変更された関節角度パラメータの値を用いて生成されるCG画像のシルエットに基づく各HOGと、当該撮影フレーム画像のシルエットに基づくHOGとの差分データをそれぞれ算出する。そして、姿勢推定装置において、前記照合手段は、第1段階として、時間的特徴抽出手段によって、前記撮影フレーム画像に対して前記モデルシーケンスのフレーム番号を変化させたときに前記モデルシーケンス記憶手段から読み出される関節角度パラメータの値を用いて生成されるCG画像についての前記HOGの差分データに基づいて、差分データが最小となるときの前記モデルシーケンスのフレーム番号を抽出する。これにより、予め作成されたモデルシーケンスの各フレームと、撮影画像の各フレームとのタイミングを合わせることができる。そして、姿勢推定装置において、前記照合手段は、第2段階として、空間的特徴判定手段によって、前記抽出されたフレーム番号に固定し、かつ、前記パラメータ変更手段で前記関節角度パラメータの値を変更したときに、当該撮影フレーム画像に対して算出された前記HOGの差分データに基づいて、差分データが最小となるときの前記関節角度パラメータの値を特定し、推定結果として前記フレーム番号および前記関節角度パラメータの値を出力する。
また、請求項6に記載の姿勢推定プログラムは、推定する対象物を撮影した単視点の静止画または動画像を示す撮影画像に映ったオブジェクトから、画像処理により、前記対象物の姿勢または動きを特徴付けるパラメータを推定するために、コンピュータを、画像入力手段、特定領域抽出手段、細線化手段、膨張処理手段、距離変換手段、勾配特徴量抽出手段、照合手段、として機能させるためのプログラムである。
かかる構成によれば、姿勢推定プログラムは、画像入力手段によって、前記撮影画像を入力すると共に、当該撮影画像中のオブジェクトを多関節物体としてコンピュータグラフィックス(CG)用にモデル化したCGキャラクタモデルおよび当該CGキャラクタモデルで用いる関節角度パラメータに基づいて前記撮影画像中のオブジェクトを擬似的に描画することで生成されたCG画像を入力する。そして、姿勢推定プログラムは、特定領域抽出手段によって、前記入力された撮影画像から前記オブジェクトの特定領域を2値化したシルエットを抽出すると共に、前記入力されたCG画像から前記オブジェクトの特定領域を2値化したシルエットを抽出する。そして、姿勢推定プログラムは、細線化手段によって、前記抽出されたそれぞれのシルエットに細線化処理を施し、膨張処理手段によって、前記細線化されたそれぞれのシルエットに膨張処理を施し、距離変換手段によって、前記膨張させたそれぞれのシルエットに距離変換を施すことで濃淡画像を生成し、勾配特徴量抽出手段によって、前記それぞれの濃淡画像の特徴量としてHOGを算出する。そして、姿勢推定プログラムは、照合手段によって、前記撮影画像中のオブジェクトのシルエットに基づいて算出されたHOGと、前記CG画像中のオブジェクトのシルエットに基づいて算出されたHOGとを照合することで、前記撮影画像中のオブジェクトの関節角度パラメータを推定する。
本発明によれば、次のような優れた効果を奏することができる。
請求項1に記載の発明によれば、姿勢推定装置において、撮影画像中のオブジェクトの洋服の模様などの影響を受けることなく、シルエット照合のロバスト性をいかしながら、距離変換およびHOG特徴により、画面上の位置の影響を受けずに精度の高い照合を行うことができる。また、姿勢推定装置は、細線化および膨張処理によって、撮影画像中のオブジェクトの太さを、CG画像中のオブジェクトの太さと同様に、一定の太さにすることができるので、太さの影響を受けずに精度の高い照合を行うことができる。
また、請求項6に記載の発明によれば、姿勢推定プログラムは、請求項1に記載の姿勢推定装置と同様の効果を奏することができる。
請求項2に記載の発明によれば、姿勢推定装置は、一連の所定動作に対応したモデルシーケンスを記憶しているので、撮影画像中のオブジェクトの姿勢と同様な近似した姿勢をとっているCG画像とのマッチングによる姿勢推定を迅速に行うことができる。
請求項3に記載の発明によれば、姿勢推定装置は、予め作成されたモデルシーケンスの関節角度パラメータの値を変更可能なので、CGフレーム画像を微調整して撮影フレーム画像に合わせ込むことができる。
請求項4に記載の発明によれば、姿勢推定装置は、予め作成されたモデルシーケンスの各フレームと、撮影画像の各フレームとのタイミングを合わせることができる。したがって、例えばCGキャラクタの動作をスローモーションにしたり、高速にしたりしたときに、実写のような自然の動きを演出することができる。
請求項5に記載の発明によれば、姿勢推定装置は、撮影フレーム画像との間で動作のタイミングを合わせたCGフレーム画像を微調整して撮影フレーム画像に合わせ込むことができる。したがって、撮影動画像をCG動画像に対して時間的にも空間的にも高精度に照合することができ、撮影動画像から時間的、空間的精度の高いモーションデータを頑健に得ることができる。
本発明の第1実施形態に係る姿勢推定装置の構成を示すブロック図である。 図1に示す姿勢推定装置の画像処理の説明図であって、(a)は撮影画像、(b)は撮影画像から人物領域を抽出した画像、(c)は人物領域から下半身領域を抽出した画像、(d)は下半身画像を細線化した画像、(e)は膨張処理を施した画像、(f)は距離変換を施した画像、(g)は撮影画像に対応して生成されたCG画像、(h)はCG画像から撮影画像と同様な処理により生成された距離変換後の画像をそれぞれ示している。 図1に示す姿勢推定装置の動作を示すフローチャートである。 図3に示すHOG算出処理の概要を示すフローチャートである。 図4に示すS21の説明図であって、原画像を示している。 図4に示すS22の説明図であって、(a)は図5から求められたセル領域、(b)は(a)から求められた勾配ヒストグラムをそれぞれ示している。 図4に示すS23の説明図であって、ブロックの移動の様子を示している。 本発明の第2実施形態に係る姿勢推定装置の構成を示すブロック図である。 図8に示すモデルシーケンス記憶手段の説明図である。 図8に示す時間的特徴抽出手段の説明図である。
以下、本発明に係る姿勢推定装置を実施するため形態(以下「実施形態」という)について図面を参照して詳細に説明する。
(第1実施形態)
図1に示す姿勢推定装置1は、推定する対象物を撮影した単視点の静止画または動画像を示す撮影画像に映ったオブジェクトから、画像処理により、対象物の姿勢または動きを特徴付けるパラメータを推定するものである。
以下では、対象物を人物として、例えば「歩行」や「蹴る」といった予め定められた動作をしている人物を1台のカメラで動画撮影した撮影画像が姿勢推定装置1に入力し、フレーム別の撮影画像である撮影フレーム画像中のオブジェクトとしての人物の動きを推定するものとして説明する。ここで、フレームは、フレーム画像であって、時間方向のサンプリング周波数は特に限定されるものではなく、例えば、ノンインターレース方式(例えば29.97fps(Frame Per Second))や、フレーム画像を2種類のフィールドで読み出すインターレース方式(例えば59.94fps)でもよい。
姿勢推定装置1は、図1に示すように、CG生成手段2と、フレームデータ処理手段3と、照合手段4と、画像入力手段5とを備えている。
画像入力手段5は、撮影画像を入力すると共に、当該撮影画像中のオブジェクトを擬似的に描画することで生成されたCG画像を入力するものである。この撮影画像およびCG画像は、フレームデータ処理手段3にて画像処理される。この画像入力手段5に入力する撮影画像のフレーム番号(撮影画像フレーム番号)は、CG生成手段2に入力され、CG生成手段2のCG画像生成手段24において、撮影画像と合ったCG画像を生成するための情報として利用される。なお、画像入力手段5は、記憶媒体あるいはオンラインで外部から取り込んだ画像をフレームデータ処理手段3に入力してもよいし、予め姿勢推定装置1の内部の記憶装置に格納しておいた画像を読み出してフレームデータ処理手段3に入力してもよい。
CG生成手段2は、画像入力手段5に入力する撮影画像中のオブジェクトを描画したCG画像を生成するものであって、CGキャラクタモデル21を記憶する記憶手段と、パラメータ変更手段23と、CG画像生成手段24と、CGデータ22を記憶するモデルシーケンス記憶手段25とを備えている。なお、CGキャラクタモデル21を記憶する記憶手段は、CGデータ22を記憶する記憶手段と異なってもよいし、モデルシーケンス記憶手段25を共用してもよい。
CGキャラクタモデル21は、推定する対象物を多関節物体としてコンピュータグラフィックス(CG)用にモデル化したものである。本実施形態では、推定する対象物を人物としているので、CGキャラクタモデル21は、人体の関節の角度情報をパラメータとして持つ人体構造モデルを含み、人体の予め作成したCGパーツ等も含む。
ここで、人体構造モデルは、特に限定されず、推定しようとする動きや、必要とする精度に応じて関節等を適宜設定すればよい。例えば、「歩行」や「蹴る」といった動作について推定する場合には、指関節については無視して、関節を、例えば、肩関節、肘関節、股関節、膝関節、足関節等のように区分し、各関節を部位に応じた1〜3軸の自由度にて予め定められた角度範囲内で屈曲できるようなモデルを用いることができる。ここで、例えば「歩行」等の動きを推定するのであれば、非特許文献1に記載のように、24次元の関節角度パラメータを用いることができる。
CGデータ22は、撮影画像中のオブジェクトと照合するために擬似的に生成するCG画像のオブジェクトに関する関節角度パラメータであって、CGキャラクタモデル21に基づいてCG画像を描画するために用いられる。なお、図1において、CGデータ22は、フレームデータ処理手段3に入力する1つの撮影画像に対応した1つのCG画像を生成するための1組の関節角度パラメータを代表している。ここで1組の関節角度パラメータとは、例えば、人体構造モデルにおいて24次元の関節角度パラメータを採用したときには、所定の関節および当該関節の軸方向を特定することのできる24個の角度(値)を示す。
パラメータ変更手段23は、撮影フレーム画像に対してモデルシーケンス記憶手段25からフレーム毎に読み出されたCGデータ(関節角度パラメータ)22の値を予め定められた範囲内で変更するものである。このパラメータ変更手段23は、CG画像の1つの姿勢に対応してモデルシーケンス記憶手段25に予め記憶されている1組の関節角度パラメータの値を微調整する。ここで、微調整とは、例えば人物の動きにおいてある1つの関節に着目したときに、角度を例えば±45°より大きな範囲で変化させることは、比較的大きな調整と言えるので、例えば±45°以内の範囲で変化させること、好ましくは±30°以内の範囲で変化させることを微調整という。例えば、パラメータ変更手段23は、CGデータ(関節角度パラメータ)22の関節の角度を、例えば1°ずつ微調整する。この処理に続いて、CG画像生成手段24は、関節角度の変更した値と、CGキャラクタモデル21とに基づいてCGフレーム画像を作成し、照合前の画像処理および照合の後に、パラメータ変更手段23は、再び関節角度を微調整するというように処理を繰り返す。
CG画像生成手段24は、画像入力手段5にフレーム毎に入力する撮影画像である撮影フレーム画像に対応させてモデルシーケンス記憶手段25からフレーム毎に読み出されたCGデータ(関節角度パラメータ)22またはパラメータ変更手段23で変更された関節角度パラメータの値と、CGキャラクタモデル21とに基づいて、フレーム毎のCG画像としてCGフレーム画像を生成するものである。CG画像生成手段24は、画像入力手段5に入力する撮影画像を特定する撮影画像フレーム番号の入力を受け付け、撮影フレーム画像と合ったCGフレーム画像を生成するための情報として利用する。CG画像生成手段24は、CGデータに基づいて仮想3次元空間データを生成し、入力された関節角度に基づいてCGオブジェクトおよびアルファプレーンをレンダリングし、レンダリングしたCGオブジェクトを、アルファプレーンと共に画像入力手段5に出力する。なお、アルファプレーンは、CGフレーム画像のオブジェクト領域(被写体領域)とそうでない領域とを区別する情報を有する画像である。
モデルシーケンス記憶手段25は、推定する対象物が一連の所定動作を行うためのモデルとしてフレーム毎に予め作成されたCGデータ(関節角度パラメータ)22の値をモデルシーケンスとして記憶するものであって、例えば一般的なハードディスクやメモリから構成されている。このモデルシーケンス記憶手段25には、具体的には、人物が「歩く」動作を行うときのフレーム番号と関節角度パラメータの1組とを紐付けたデータ(モデルシーケンス)や、人物が「蹴る」動作を行うときのモデルシーケンスというように基本的な動きに対応したモデルがそれぞれ格納される。
なお、描画したCGフレーム画像そのものをモデルシーケンス記憶手段25に格納するようにしてもよい。また、本実施形態では、姿勢推定装置1において、フレームデータ処理手段3の特定領域抽出手段31に入力するCG画像を生成するために、CG画像生成手段24を設けたが、描画したCGフレーム画像を姿勢推定装置1に予め蓄積している場合には、CG画像生成手段24は必須ではない。
フレームデータ処理手段3は、撮影画像とCG画像とに対してフレーム単位で画像処理を行うものであって、特定領域抽出手段31と、細線化手段32と、膨張処理手段33と、距離変換手段34と、勾配特徴量抽出手段35と、を備えている。なお、図1のブロック図では、説明の都合上、撮影画像を処理対象とする各手段31〜35に符号aを付し、CG画像を処理対象とする各手段31〜35に符号bを付して区別したが、実質的には1つずつの手段があればよい。
特定領域抽出手段31は、撮影画像とCG画像とを照合するための前処理として、入力された撮影画像からオブジェクト(人物)の特定領域を2値化したシルエットを抽出すると共に、入力されたCG画像からオブジェクト(人物)の特定領域を2値化したシルエットを抽出する。本実施形態のように、対象物が人物であれば、画像上のオブジェクトの特定領域は、その一部であっても全身であってもよい。人物領域の一部として下半身領域を特定するには、例えば、「入力撮影画像の下半分」のように、画像上の位置の閾値範囲を予め定めておけばよい。なお、画像を2値化してシルエットを抽出する手法は、画像上のオブジェクト位置やそのサイズあるいは輝度の閾値を予め定めておく等の公知の手法を採用することができる。なお、後記する動作の説明に画像処理の具体例について図示して説明する。
細線化手段32は、特定領域抽出手段31で抽出されたそれぞれのシルエットに細線化処理を施すものである。
膨張処理手段33は、細線化手段32で細線化されたそれぞれのシルエットに膨張処理を施すものである。
距離変換手段34は、膨張処理手段33で膨張させたそれぞれのシルエットに距離変換を施すことで濃淡画像を生成するものである。
ここで、細線化処理、膨張処理、距離変換は、撮影画像とCG画像とを照合するための前処理であって、一般的な画像処理ソフトウェアにライブラリ化されている関数を用いることで実現できる。
細線化処理は、2値画像のシルエットを幅1ピクセルの線画像に変換する。
膨張処理は、細線を均等な太さに拡幅する。
距離変換は、値が0と1の2値画像の各画素に対して、そこから値が0である画素への最短距離を与える変換を示す。
勾配特徴量抽出手段35は、撮影画像とCG画像とを照合するための前処理を行った後の画像であるそれぞれの濃淡画像の特徴量として、HOG(Histogram of Oriented Gradient)を算出するものである。HOGは、画像の着目する画素について水平方向および垂直方向に隣接する画素間の明るさの差を輝度勾配として抽出した特徴量を示す。ここで算出されたHOGは、照合手段4に出力され、撮影画像とCG画像との照合に用いられる。なお、HOGの参考文献として、「N.Dalal and B.Triggs,“Histograms of Oriented Gradients for Human Detection,” IEEE Conputer Vision and Pattern Recognition, 886-893, 2005.」が知られている。
なお、本実施形態では、特定領域抽出手段31は、撮影フレーム画像およびCGフレーム画像を2値化することでシルエットを抽出するので、前記した細線化手段32、膨張処理手段33、距離変換手段34および勾配特徴量抽出手段35も、撮影フレーム画像およびCGフレーム画像に対してフレーム別に画像処理を施す。
照合手段4は、撮影画像中のオブジェクトのシルエットに基づいて算出されたHOGと、CG画像中のオブジェクトのシルエットに基づいて算出されたHOGとを照合することで、撮影画像中のオブジェクトの関節角度パラメータを推定するものである。この照合手段4は、図1に示すように、差分算出手段41と、差分データ記憶手段42と、空間的特徴判定手段43と、を備えている。
差分算出手段41は、撮影フレーム画像に対してモデルシーケンス記憶手段25から読み出されたCGデータ(関節角度パラメータ)22またはパラメータ変更手段23で変更された関節角度パラメータの値を用いて生成されるCG画像のシルエットに基づく各HOGと、当該撮影フレーム画像のシルエットに基づくHOGとの差分データをそれぞれ算出するものである。算出された差分データは、差分データ記憶手段42に格納される。
差分データ記憶手段42は、フレーム番号51と、パラメータ52と、差分データ53とを紐付けて記憶するものであって、ハードディスク等の記憶装置である。
フレーム番号51は、モデルシーケンス記憶手段25から読み出されたCGデータ(関節角度パラメータ)22のフレーム番号である。
パラメータ52は、フレーム番号51に対応した関節角度パラメータの値、またはフレーム番号51においてパラメータ変更手段23で変更された関節角度パラメータの値である。
差分データ53は、撮影フレーム画像に対応し、パラメータ52から生成されたCGフレーム画像のシルエットに基づいて算出されたHOGの差分データである。
空間的特徴判定手段43は、モデルシーケンスのフレーム番号を固定したときに、当該撮影フレーム画像に対して算出されたHOGの差分データに基づいて、差分データが最小となるときの関節角度パラメータの値を判定するものである。
照合手段4は、推定結果として、このフレーム番号および関節角度パラメータの値を出力する。
[姿勢推定装置の動作]
次に、図2および図3を参照(適宜図1参照)して姿勢推定装置1の動作について説明する。図2には、姿勢推定装置1のフレームデータ処理手段3のうち、特定領域抽出手段31、細線化手段32、膨張処理手段33および距離変換手段34の処理例を示している。また、この例では、人物がボールを蹴る素振りを撮影した撮影画像から下半身の動作を推定するものとして説明する。
図3は、図1に示す姿勢推定装置の動作を示すフローチャートである。
まず、姿勢推定装置1において、画像入力手段5によって、フレームデータ処理手段3に撮影画像を入力する(ステップS1)。そして、フレームデータ処理手段3において、特定領域抽出手段31aには、図2(a)に示す撮影画像が入力される。特定領域抽出手段31aは、まず、撮影画像を2値化して図2(b)に示す人物領域のシルエットを抽出し、次いで、この場合には、図2(c)に示すようにシルエットの下半身領域を特定領域として抽出する(ステップS2)。下半身領域については、例えば、画像の位置による閾値範囲を「画像下の半分」のように予め定めておくことで抽出できる。
そして、細線化手段32aは、抽出したシルエットに対して、図2(d)に示すように細線化処理を施し(ステップS3)、膨張処理手段33aは、細線化されたシルエットに対して図2(e)に示すように膨張処理を施す(ステップS4)。さらに、距離変換手段34aは、膨張させたシルエットに対して図2(f)に示すように距離変換を施すことで2値画像から濃淡画像を生成する(ステップS5)。そして、勾配特徴量抽出手段35aは、撮影画像に基づく濃淡画像(図2(f)参照)についてのHOGを算出する(ステップS6)。なお、勾配特徴量抽出手段35の処理の具体例については後記する。
一方、撮影画像に対応したCG画像を生成するために、CGデータ22において、図2に示す例では、下半身の動作に着目しているので、左腰、左膝、左足首、および、右腰、右膝、右足首の関節角度を設定している。そして、CG画像生成手段24は、撮影画像に対応したCGデータ22の関節角度の設定値と、CGキャラクタモデル21とに基づいて、図2(g)に示すようにCGフレーム画像を作成する(ステップS7)。
そして、撮影画像に対して行ったように、CG画像に対して、CG特定領域抽出手段31bによる処理(ステップS8)、細線化手段32bによる処理(ステップS9)、膨張処理手段33bによる処理(ステップS10)、距離変換手段34bによる処理(ステップS11)が順次実行され、図2(h)に示すように距離変換が施された濃淡画像が生成される。そして、勾配特徴量抽出手段35bは、CG画像に基づく濃淡画像(図2(h)参照)についてのHOGを算出する(ステップS12)。
次いで、照合手段4は、図2(f)の濃淡画像と、図2(h)の濃淡画像とについて、HOG特徴の比較を行う。ここで、照合手段4の差分算出手段41は、CG画像のシルエットに基づくHOGと、当該撮影フレーム画像のシルエットに基づくHOGとの差分データをそれぞれ算出し、フレーム番号51およびパラメータ52と紐付けて差分データ53を差分データ記憶手段42に格納する(ステップS13)。
そして、パラメータ変更手段23は、例えば±30°の範囲といった予め定められたパラメータ(関節角度)の値をすべて選択していない場合(ステップS14:No)、関節角度パラメータの値を変更する(ステップS15)。すなわち、パラメータ変更手段23は、CGデータ(関節角度パラメータ)22の関節の角度を、例えば1°ずつ微調整して、ステップS7に戻ると、CG画像生成手段24は、関節角度の変更した値と、CGキャラクタモデル21とに基づいてCGフレーム画像を作成し、同様な画像処理によって図2(h)に示すような新たな濃淡画像を得ることを繰り返す。
一方、ステップS14において、予め定められたパラメータ(関節角度)の値をすべて選択した場合(ステップS14:Yes)、照合手段4の空間的特徴判定手段43は、当該撮影フレーム画像に対して格納されているHOGの差分データ53のうち、差分データが最小となるときのフレーム番号51およびパラメータ52を推定結果として出力する(ステップS16)。すなわち、照合手段4は、最も照合度のよい関節角度の値を、推定されたパラメータとして出力する。
以上が姿勢推定装置1のフレームデータ処理手段3による1枚の撮影フレーム画像についての処理である。したがって、撮影動画像のすべてのフレーム画像について、前記ステップS1〜S16の処理を同様に行うことで、撮影動画像中の人物の動作を推定することができる。
[HOG算出処理]
次に、図3のステップS6,S12に示すHOG算出処理について図4ないし図7を参照(適宜図1参照)して説明する。図4は、HOG算出処理の概要を示すフローチャートである。HOG算出処理は、例えば、前記したHOGの参考文献や非特許文献1等に開示されている公知技術なので、以下ではその概要を簡単に説明する。
HOG算出処理では、第1段階として、画像から輝度勾配を算出する(ステップS21)。そして、第2段階として、算出された輝度勾配から、セル毎に勾配方向ヒストグラムを算出する(ステップS22)。そして、第3段階として、算出された勾配方向ヒストグラムを用いて画像のブロック毎に特徴量の正規化を行う(ステップS23)。HOGは、輝度勾配のヒストグラムを基本としているので、例えば人物の下半身領域の位置や大きさの影響を受けにくいという性質がある。そのため、姿勢推定装置1の勾配特徴量抽出手段35は、ステップS21〜S23の各処理を実行することとした。
以下、HOG算出処理の第1段階(ステップS21)〜第3段階(ステップS23)を順次説明する。ここでは、原画像の一例として、図5に示すような歩行中の人物の撮影画像を用い、この原画像から動きを推定する場合を想定する。
<第1段階(ステップS21)>
第1段階では、原画像から輝度勾配(輝度勾配画像)を求める。具体的には、原画像の各ピクセル(画素)における輝度の勾配強度mと勾配方向θを算出する。ここで、画像中の左上隅を原点として、画素の水平方向の座標をu、画素の垂直方向の座標をv、画素(u,v)における輝度値をI(u,v)とすると、当該画素(u,v)における勾配強度m(u,v)は、次の式(1)で表される。また、当該画素(u,v)における勾配方向θ(u,v)は、次の式(2)で表される。
<第2段階(ステップS22)>
第2段階では、輝度勾配θ(輝度勾配画像)を用いて勾配方向ヒストグラムを算出する。このために、図6(a)に示すように、輝度勾配画像をマトリクス状に複数のセル101に分割する。ここで、図6(a)に示す画像例では、横5×縦5の25個の画素を1セルとし、輝度勾配画像を、横6×縦12の72個のセル101に分割した。また、図6(a)に示す画像例では、輝度勾配画像において、人物の輪郭を黒色細線で示し、他の領域をすべて白色で示したが、輝度勾配θの角度に応じたカラー表示を行うと、輪郭の線を含めてすべての領域がカラー表示されることになる。
また、セル101の中に画素毎に図示した25個の矢印は、その方向が当該画素における輝度勾配θを示し、その大きさ(magnitude)が勾配強度mを示す。輝度勾配θは、実際には−180°〜+180°までの値で算出されるが、一直線上の向きを無視して方向のみを考慮するため、負の値には180°を加算してシフト変換することで、以下では、輝度勾配は0〜180°の値であるものとする。この場合、0°と180°とは同じことを意味する。なお、シフト変換後の輝度勾配についても同じ記号(θ)を用いる。
また、ここでは、輝度勾配θの0〜180°の範囲の分割数を9とする。つまり、輝度勾配θを、次の(1)〜(9)の区間に分割する。各区間において、例えば、下限の値は含まれず、上限の値は含まれることとする。
(1) 0〜 20°
(2) 20〜 40°
(3) 40〜 40°
(4) 60〜 40°
(5) 80〜100°
(6) 100〜120°
(7) 120〜140°
(8) 140〜160°
(9) 160〜180°
セル毎に、つまり、25個の画素を1つの単位として求めた勾配方向ヒストグラムの一例を図6(b)に示す。この例では、前記した(5)80〜100°の区間における輝度勾配が最も大きいことが分かる。
以下では、図6(a)に示す輝度勾配画像におけるセル101の位置座標を(i,j)で示す(1≦i≦6,1≦j≦14)。また、セル(i,j)において、勾配方向が9分割されたそれぞれの方向における大きさをf,f,f,f,f,f,f,f,fとする。この場合、1つのセル(i,j)の特徴ベクトルFijは式(3)のように9次元で表される。
<第3段階(ステップS23)>
第3段階では、算出された勾配方向ヒストグラムから画像のブロック毎に特徴量の正規化を行う。このために、図7に示すように、セル101に分割された輝度勾配画像において、複数のセル101を一度に選択して構成されたブロック102を想定する。なお、このブロックは、一部の領域が互いに重なっても構わないものである。
図7に示す画像例では、横6×縦12の72個のセル101が表示されており、横3×縦3の9個のセル101を1つのブロック102として選択する。この場合、前記した式(3)を利用し、1つのブロック内の左上隅のセルの位置を(i,j)とすると、ある位置(識別子k)にある1つのブロックの特徴ベクトルVは、次の式(4)のように81次元で表される。
そして、前記したようにブロックは一部の領域が互いに重なっても構わない。ここで、図7の画像例において、例えば1列目から3列目まで、かつ、2行目〜4行目までの範囲の9つのセルを選択した太線で囲まれたブロック(仮にこれをb=1のブロックと呼ぶ)を想定する。このブロック全体を画像の上側にセル1つ分だけシフト移動したきにも別のブロック(同様にb=2のブロックと呼ぶ;図中符号は省略、以下同様)が構成される。この状態から、それ以上上側にはブロックを選択することはできない。一方、この状態からブロック全体を画像の右側にセル1つ分だけシフトすれば別のブロック(b=3)が構成される。また、同様に右側にセル1つ分だけシフトすれば別のブロック(b=4)が構成される。さらに、右側にセル1つ分だけシフトしたきにも別のブロック(b=5)が構成され、それ以上右側にはブロックを選択することはできない。
以上のようにセル1つ分ずつシフトして選択される5個のブロック(b=1)〜ブロック(b=5)を重ね合わせた状態を図7の上側に模式的に示す。各ブロックには9個のセルが含まれており、セル1つ分ずつブロックをシフトした場合、セルの重なりが生じる。図7において、重なりが多いセルほど、模様が大きく濃く表示されている。この模様は、セル別のヒストグラムに基づく勾配方向θの9区間(9方向)と、その大きさを模式的に示している。
図7の画像例において、ブロックをシフト移動した場合、処理途中に、横4×縦10の40個のブロックが選択可能である。これらすべてについて、識別子k(k=1〜40)で識別する。なお、図7において、水平方向の「1,2,3,4」の目盛りは、画像左上ブロックを原点として、画像の水平方向にシフト移動により選択可能なブロック数を示し、同様に垂直方向の「1,4,7,10」の目盛りは、画像の垂直方向にシフト移動により選択可能なブロック数を示す。この例では、40個のブロックにおいて、前記した式(3)と前記した式(4)を適用する。ブロック内のセルは(3×3)個存在する。このとき、セルの勾配方向ヒストグラムをfとして、当該ブロックの特徴ベクトルVの大きさにより正規化した大きさvは、次の式(5)で表される。なお、fの中身は、(勾配方向「=9」)×(ブロック内のセルの数「=9」)×(ブロックの数「=40」)の計算結果の値(=3240)と同じ次元となる。
これにより、撮影画像のシルエットに基づいて算出されたHOGから得られたv(v)と、CG画像のシルエットに基づいて算出されたHOGから得られたv(vcg)と、の距離が小さい方が類似度が大きいと評価することができる。
ここで、v(v)とv(vcg)との距離は、ヒストグラム同士の差分となる。この差分(差分データ)は、例えば、各ヒストグラムの階級(勾配方向の角度の区間)毎の差分を加工した正の値の累積和とすることができる。また、階級毎の差分を加工した正の値の累積和を計算する手法としては、例えば、階級毎の大きさの差分の2乗和、差分の絶対値和等がある。
第1実施形態によれば、洋服の模様などの影響を受けることなく、シルエット照合のロバスト性をいかしながら、距離変換およびHOG特徴により、画面上の位置の影響を受けない精度の高い照合が行える。また、細線化、膨張処理により、手足が一定の太さになり、太さの影響を受けない。したがって、第1実施形態によれば、撮影動画像から空間的精度の高いモーションデータを頑健に得ることができる。
(第2実施形態)
図8に示す姿勢推定装置1Bは、撮影画像とCG画像との照合において、推定する対象物(人物)の動作の空間的特徴のみならず、時間的特徴も考慮して、姿勢または動作を推定するものである。この姿勢推定装置1Bは、図8に示すように、CG生成手段2と、フレームデータ処理手段3と、照合手段4Bと、を備えている。この姿勢推定装置1Bにおいて、図1に示す姿勢推定装置1と同じ構成には、同じ符号を付して説明を適宜省略する。
また、モデルシーケンス記憶手段25には、撮影動画像のシーケンスと同じようなCG動画像を作成できるように予めCGデータ(関節角度パラメータ)22が作成されていることとする。例えば、図9(a)に示すように、人物がボールを蹴る素振りの構えから、回り込みながら蹴って、身体の向きを変えるまでの動作に関する撮影動画像のシーケンスが姿勢推定装置1Bに入力する場合、予め同じようなモデルシーケンスが用意され、CG動画像として作成される。モデルシーケンスから作成されたCG動画像シーケンスの一例を図9(b)に示す。なお、フレームのサンプリング周期やフレーム枚数は同じでも相違してもよいが、同じであることが好ましい。
図8に示す照合手段4Bにおいて、姿勢推定のための手法は大きく2段階に分けられる。第1段階は、時系列フレーム全体に対する時間的処理である。ここでは、「蹴る」等の予め定められたモーションが表示される撮影動画像の各フレームに対して、撮影動画像で表示されるものと同様のモーションを表示可能なモデルシーケンス内のフレームと照合を行い、最も類似しているフレームを抽出する。この第1段階により、撮影動画像とモデルシーケンスとの時間的なフレーム対応関係が得られる。
第2段階は、各フレームに対する空間的処理である。ここでは、第1段階で抽出されたモデルシーケンスのフレームについて、関節角度パラメータを調節して新たに作成したフレームと、対応する撮影動画像フレームとの照合を繰り返して、より実物の姿勢に近い関節角度を求める。
このため、図8に示すように、照合手段4Bは、差分算出手段41と、差分データ記憶手段42と、空間的特徴判定手段43と、時間的特徴抽出手段44とを備えている。
時間的特徴抽出手段44は、撮影フレーム画像に対してモデルシーケンスのフレーム番号を変化させたときにモデルシーケンス記憶手段25から読み出されるCGデータ(関節角度パラメータ)22の値を用いて生成されるCG画像についてのHOGの差分データに基づいて、差分データが最小となるときのモデルシーケンスのフレーム番号を抽出する。時系列に並べたフレームを連続的に観察すると、オブジェクトの姿勢が連続的に変化することが分かる。これは動作の時間的変化と同じ意味である。この時間的特徴抽出手段44は、予め作成したモデルフレームと撮影動画像フレームとを照合することによって、各フレームでの姿勢を推定する。このときの姿勢の連続的な変化が、動作の時間的特徴として求められることになる。そして、時間的特徴抽出手段44で抽出されたフレーム番号に固定した場合に、空間的特徴判定手段43は、パラメータ変更手段23で関節角度パラメータの値を変更したときに、当該撮影フレーム画像に対して算出されたHOGの差分データに基づいて、差分データが最小となるときの関節角度パラメータの値を特定する。
姿勢推定装置1Bの動作は、第1段階にて、図3に示したステップS14〜S16の処理を動作の時間的特徴を抽出するために置き換えて同様に行った後で、第2段階にて、図1の姿勢推定装置1のように動作の空間的特徴を判定する処理を行う点を除いて、第1実施形態と同様なので説明を省略する。
姿勢推定装置1Bの動作の第1段階の処理結果の一例を図10に示す。この一例は、図9(a)に示す人物の動作において下半身の動作について推定した結果である。図10のグラフにおいて、横軸は撮影動画像のフレーム番号、縦軸はモデルシーケンスのフレーム番号をそれぞれ示す。時間的特徴抽出手段44は、撮影動画像のあるフレーム番号に着目したときに、当該撮影フレーム画像および同様のCGフレーム画像のシルエットに基づくHOGから算出された差分データが最小となるような、CGフレーム画像のフレーム番号を求める。図10に示す例では、撮影動画像のフレーム番号が「1」の場合、モデルシーケンスにおいてすべてのフレーム番号について探索した結果、モデルシーケンスにおいて最も類似したフレーム番号が「0」であったことが分かる。以下、同様である。
この例のように「蹴る」動作では、動き(運動)の方向は、一方向なので、例えば撮影動画像のフレーム番号が「8」である場合、モデルシーケンスにおいてすべてのフレーム番号について探索する必要は無く、その直前の探索で既に確定している結果を用いれば、モデルシーケンスのフレーム番号「5」およびその後方の残りのフレームと照合すればよい。
また、時間的特徴抽出手段44において、時系列的に大きくはずれたモデルフレームを誤って抽出することを防ぐために、DP(Dynamic Programming)マッチングを用いることが好ましい。
なお、時間的特徴抽出手段44は、照合の探索結果をテーブル形式で保持していれば、図10のようなグラフを作成する必要は必ずしもない。ただし、図10のようなグラフを作成した場合には、傾きが小さいときには、モデルの動作に対して実際の人物の動作が遅く、逆に、傾きが大きいときには、モデルの動作に対して実際の人物の動作が速いことが分かったり、あるいは、実際の人物の動作の速度の時間変化による個人別の動作特徴が分かったりするので、グラフを作成しておくことが好ましい。
このように照合の第1段階にて、時間的特徴抽出手段44で抽出されたあるフレーム番号に固定した場合に、空間的特徴判定手段43は、パラメータ変更手段23で関節角度パラメータの値を変更しつつ、差分データが最小となるときの関節角度パラメータの値を特定する。実験の結果、図10に示す例の場合に、あるフレーム番号で示される姿勢において、関節角度をさらに±30°の範囲内で微調整した結果、CGフレーム画像を、撮影フレーム画像の姿勢に合わせ込むことができた。
第2実施形態によれば、推定する対象物の動作特徴を、時間変化の特徴(時間的特徴)と、姿勢そのものの特徴(空間的特徴)との2段階に分け、予め用意したモデルフレームとの照合を段階的に行うことにより、動作特徴の再現性が高いモーションキャプチャ手法を提供することができる。すなわち、第2実施形態によれば、撮影動画像から時間的、空間的精度の高いモーションデータを頑健に得ることができる。
以上、本発明の実施形態について説明したが、本発明は、各実施形態には限定されない。例えば、第2実施形態に係る姿勢推定装置1Bは、照合手段4Bに、空間的特徴判定手段43と、時間的特徴抽出手段44との両方を備えるものとしたが、このうち、時間的特徴抽出手段44だけ備えることとしてもよい。つまり、第2実施形態に係る姿勢推定装置1Bが照合のために行う、第1段階と第2段階のうち、第1段階だけを行うこととしてもよい。このように構成した姿勢推定装置によれば、予め作成されたモデルシーケンスの各フレームと、撮影画像の各フレームとのタイミングを合わせることができるので、例えばCGキャラクタの動作をスローモーションにしたり、高速にしたりしたときに、実写のような自然の動きを演出することができる。
また、各実施形態では、CG生成手段2にパラメータ変更手段23を備えることとしたが、本発明においてパラメータ変更手段23は必要に応じて備えていればよく、例えば第2実施形態に係る姿勢推定装置1Bが照合のために行う、第1段階と第2段階のうち、第1段階だけを行う形態とした場合には、除外してもよい。
また、各実施形態では、CG生成手段2にモデルシーケンス記憶手段25を備えることとしたが、本発明においてモデルシーケンス記憶手段25は必要に応じて備えていればよく、例えば、撮影画像として入力される画像が1枚あるいは数枚程度である場合には、除外してもよい。
なお、撮影画像として入力される画像が動画像の場合、仮に、推定対象である人物が一連の所定動作を行うためのモデルシーケンスが無ければ、例えば歩行中の人物の撮影画像と比較するためのCG画像を、人体モデルから作成する場合、体軸に沿った直立姿勢から、数十個もの関節すべてに亘って網羅的に関節角度パラメータの値を変化させながら、それぞれに基づくCG画像を1つ1つ検証してマッチングを取る必要がある。このような問題に対して、姿勢推定装置1,1Bは、一連の所定動作に対応したモデルシーケンスを記憶しているので、撮影画像中のオブジェクトの姿勢に近似した姿勢をとっているCG画像を手動または自動的に容易に求めることができ、マッチングによる姿勢推定を迅速に行うことができる。
また、例えば、推定対象である人物が行う動作は、「蹴る」動作に限定されるものではない。また、推定対象である人物の体格は、図示したものに限定されるものではない。
さらに、推定対象部物は、人物に限らず、姿勢の変更等の各種動作を行うことができ、その動作をモデル化することができれば、例えば動物のほか、関節を有する人形、ロボット、移動体、各種機械等の人工の物体でもよい。
また、姿勢推定装置1,1Bは、一般的なコンピュータを、前記した各手段として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して提供することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
1,1B 姿勢推定装置
2 CG生成手段
21 CGキャラクタモデル
22 CGデータ(関節角度パラメータ)
23 パラメータ変更手段
24 CG画像生成手段
25 モデルシーケンス記憶手段
3 フレームデータ処理手段
31a,31b 特定領域抽出手段
32a,32b 細線化手段
33a,33b 膨張処理手段
34a,34b 距離変換手段
35a,35b 勾配特徴量抽出手段
4 照合手段
4b 照合手段
41 差分算出手段
42 差分データ記憶手段
43 空間的特徴判定手段
44 時間的特徴抽出手段
5 画像入力手段
51 フレーム番号
52 パラメータ
53 差分データ
101 セル
102 ブロック

Claims (6)

  1. 推定する対象物を撮影した単視点の静止画または動画像を示す撮影画像に映ったオブジェクトから、画像処理により、前記対象物の姿勢または動きを特徴付けるパラメータを推定する姿勢推定装置であって、
    前記撮影画像を入力すると共に、当該撮影画像中のオブジェクトを多関節物体としてコンピュータグラフィックス(CG)用にモデル化したCGキャラクタモデルおよび当該CGキャラクタモデルで用いる関節角度パラメータに基づいて前記撮影画像中のオブジェクトを擬似的に描画することで生成されたCG画像を入力する画像入力手段と、
    前記入力された撮影画像から前記オブジェクトの特定領域を2値化したシルエットを抽出すると共に、前記入力されたCG画像から前記オブジェクトの特定領域を2値化したシルエットを抽出する特定領域抽出手段と、
    前記抽出されたそれぞれのシルエットに細線化処理を施す細線化手段と、
    前記細線化されたそれぞれのシルエットに膨張処理を施す膨張処理手段と、
    前記膨張させたそれぞれのシルエットに距離変換を施すことで濃淡画像を生成する距離変換手段と、
    前記それぞれの濃淡画像の特徴量としてHOG(Histogram of Oriented Gradient)を算出する勾配特徴量抽出手段と、
    前記撮影画像中のオブジェクトのシルエットに基づいて算出されたHOGと、前記CG画像中のオブジェクトのシルエットに基づいて算出されたHOGとを照合することで、前記撮影画像中のオブジェクトの関節角度パラメータを推定する照合手段と、
    を備えることを特徴とする姿勢推定装置。
  2. 前記画像入力手段に入力する前記CG画像を生成するために、
    前記推定する対象物が一連の所定動作を行うためのモデルとしてフレーム毎に予め作成された関節角度パラメータの値をモデルシーケンスとして記憶したモデルシーケンス記憶手段と、
    前記画像入力手段にフレーム毎に入力する撮影画像である撮影フレーム画像に対応させて前記モデルシーケンス記憶手段からフレーム毎に読み出された関節角度パラメータの値と、前記CGキャラクタモデルとに基づいて、フレーム毎のCG画像としてCGフレーム画像を生成するCG画像生成手段と、をさらに備え、
    前記特定領域抽出手段は、前記撮影フレーム画像から前記オブジェクトの特定領域を2値化したシルエットを抽出すると共に、前記CGフレーム画像から前記オブジェクトの特定領域を2値化したシルエットを抽出し、
    前記細線化手段、前記膨張処理手段、前記距離変換手段および前記勾配特徴量抽出手段は、前記撮影フレーム画像および前記CGフレーム画像のフレーム別に画像処理を施すことを特徴とする請求項1に記載の姿勢推定装置。
  3. 前記撮影フレーム画像に対して前記モデルシーケンス記憶手段からフレーム毎に読み出された関節角度パラメータの値を予め定められた範囲内で変更するパラメータ変更手段をさらに備え、
    前記CG画像生成手段は、フレーム毎に読み出された関節角度パラメータまたは前記変更された関節角度パラメータの値と、前記CGキャラクタモデルとに基づいて、前記CGフレーム画像を生成し、
    前記照合手段は、
    前記撮影フレーム画像に対して前記モデルシーケンス記憶手段から読み出された関節角度パラメータまたは前記パラメータ変更手段で変更された関節角度パラメータの値を用いて生成されるCG画像のシルエットに基づく各HOGと、当該撮影フレーム画像のシルエットに基づくHOGとの差分データをそれぞれ算出する差分算出手段と、
    前記モデルシーケンスのフレーム番号を固定したときに、当該撮影フレーム画像に対して算出された前記HOGの差分データに基づいて、差分データが最小となるときの前記関節角度パラメータの値を判定する空間的特徴判定手段と、を備え、
    推定結果として前記フレーム番号および前記関節角度パラメータの値を出力することを特徴とする請求項2に記載の姿勢推定装置。
  4. 前記照合手段は、
    前記撮影フレーム画像に対して前記モデルシーケンス記憶手段から読み出された関節角度パラメータの値を用いて生成されるCG画像のシルエットに基づく各HOGと、当該撮影フレーム画像のシルエットに基づくHOGとの差分データをそれぞれ算出する差分算出手段と、
    前記撮影フレーム画像に対して前記モデルシーケンスのフレーム番号を変化させたときに前記モデルシーケンス記憶手段から読み出される関節角度パラメータの値を用いて生成されるCG画像についての前記HOGの差分データに基づいて、差分データが最小となるときの前記モデルシーケンスのフレーム番号を抽出する時間的特徴抽出手段と、を備え、
    推定結果として前記フレーム番号および前記関節角度パラメータの値を出力することを特徴とする請求項2に記載の姿勢推定装置。
  5. 前記撮影フレーム画像に対して前記モデルシーケンス記憶手段からフレーム毎に読み出された関節角度パラメータの値を予め定められた範囲内で変更するパラメータ変更手段をさらに備え、
    前記CG画像生成手段は、フレーム毎に読み出された関節角度パラメータまたは前記変更された関節角度パラメータの値と、前記CGキャラクタモデルとに基づいて、前記CGフレーム画像を生成し、
    前記照合手段は、
    前記撮影フレーム画像に対して前記モデルシーケンス記憶手段から読み出された関節角度パラメータまたは前記前記パラメータ変更手段で変更された関節角度パラメータの値を用いて生成されるCG画像のシルエットに基づく各HOGと、当該撮影フレーム画像のシルエットに基づくHOGとの差分データをそれぞれ算出する差分算出手段と、
    前記撮影フレーム画像に対して前記モデルシーケンスのフレーム番号を変化させたときに前記モデルシーケンス記憶手段から読み出される関節角度パラメータの値を用いて生成されるCG画像についての前記HOGの差分データに基づいて、差分データが最小となるときの前記モデルシーケンスのフレーム番号を抽出する時間的特徴抽出手段と、
    前記抽出されたフレーム番号に固定し、かつ、前記パラメータ変更手段で前記関節角度パラメータの値を変更したときに、当該撮影フレーム画像に対して算出された前記HOGの差分データに基づいて、差分データが最小となるときの前記関節角度パラメータの値を特定する空間的特徴判定手段と、を備え、
    推定結果として前記フレーム番号および前記関節角度パラメータの値を出力することを特徴とする請求項2に記載の姿勢推定装置。
  6. 推定する対象物を撮影した単視点の静止画または動画像を示す撮影画像に映ったオブジェクトから、画像処理により、前記対象物の姿勢または動きを特徴付けるパラメータを推定するために、コンピュータを、
    前記撮影画像を入力すると共に、当該撮影画像中のオブジェクトを多関節物体としてコンピュータグラフィックス用にモデル化したCGキャラクタモデルおよび当該CGキャラクタモデルで用いる関節角度パラメータに基づいて前記撮影画像中のオブジェクトを擬似的に描画することで生成されたCG画像を入力する画像入力手段、
    前記入力された撮影画像から前記オブジェクトの特定領域を2値化したシルエットを抽出すると共に、前記入力されたCG画像から前記オブジェクトの特定領域を2値化したシルエットを抽出する特定領域抽出手段、
    前記抽出されたそれぞれのシルエットに細線化処理を施す細線化手段、
    前記細線化されたそれぞれのシルエットに膨張処理を施す膨張処理手段、
    前記膨張させたそれぞれのシルエットに距離変換を施すことで濃淡画像を生成する距離変換手段、
    前記それぞれの濃淡画像の特徴量としてHOGを算出する勾配特徴量抽出手段、
    前記撮影画像中のオブジェクトのシルエットに基づいて算出されたHOGと、前記CG画像中のオブジェクトのシルエットに基づいて算出されたHOGとを照合することで、前記撮影画像中のオブジェクトの関節角度パラメータを推定する照合手段、
    として機能させるための姿勢推定プログラム。
JP2010260468A 2010-11-22 2010-11-22 姿勢推定装置および姿勢推定プログラム Expired - Fee Related JP5503510B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010260468A JP5503510B2 (ja) 2010-11-22 2010-11-22 姿勢推定装置および姿勢推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010260468A JP5503510B2 (ja) 2010-11-22 2010-11-22 姿勢推定装置および姿勢推定プログラム

Publications (2)

Publication Number Publication Date
JP2012113438A true JP2012113438A (ja) 2012-06-14
JP5503510B2 JP5503510B2 (ja) 2014-05-28

Family

ID=46497605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010260468A Expired - Fee Related JP5503510B2 (ja) 2010-11-22 2010-11-22 姿勢推定装置および姿勢推定プログラム

Country Status (1)

Country Link
JP (1) JP5503510B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017506523A (ja) * 2013-10-24 2017-03-09 ▲華▼▲為▼▲終▼端有限公司 画像表示方法及び装置
US9904988B2 (en) 2016-03-11 2018-02-27 Toshiba Memory Corporation Image processing method and image processing program
WO2020044440A1 (ja) * 2018-08-28 2020-03-05 株式会社オプティム コンピュータシステム、動作検証方法及びプログラム
CN111833420A (zh) * 2020-07-07 2020-10-27 北京奇艺世纪科技有限公司 基于真人的图画自动生成方法、装置、系统及存储介质
CN116386087A (zh) * 2023-03-31 2023-07-04 阿里巴巴(中国)有限公司 目标对象处理方法以及装置
US11734868B2 (en) 2021-07-19 2023-08-22 Sony Group Corporation Motion retargeting based on differentiable rendering

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288917A (ja) * 2008-05-28 2009-12-10 Sony Corp 情報処理装置、情報処理方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288917A (ja) * 2008-05-28 2009-12-10 Sony Corp 情報処理装置、情報処理方法、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200600065001; 西田健次 外1名: 'カーネル学習法とその画像認識への応用' 情報処理学会論文誌 コンピュータビジョンとイメージメディア 第46巻 第SIG 15(CVIM 12)号, 20051015, 第1〜10頁, 社団法人情報処理学会 *
JPN6014006389; 西田健次 外1名: 'カーネル学習法とその画像認識への応用' 情報処理学会論文誌 コンピュータビジョンとイメージメディア 第46巻 第SIG 15(CVIM 12)号, 20051015, 第1〜10頁, 社団法人情報処理学会 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017506523A (ja) * 2013-10-24 2017-03-09 ▲華▼▲為▼▲終▼端有限公司 画像表示方法及び装置
US9904988B2 (en) 2016-03-11 2018-02-27 Toshiba Memory Corporation Image processing method and image processing program
WO2020044440A1 (ja) * 2018-08-28 2020-03-05 株式会社オプティム コンピュータシステム、動作検証方法及びプログラム
JPWO2020044440A1 (ja) * 2018-08-28 2021-06-03 株式会社オプティム コンピュータシステム、動作検証方法及びプログラム
US11188053B2 (en) 2018-08-28 2021-11-30 Optim Corporation Computer system, operation verification method, and program
CN111833420A (zh) * 2020-07-07 2020-10-27 北京奇艺世纪科技有限公司 基于真人的图画自动生成方法、装置、系统及存储介质
CN111833420B (zh) * 2020-07-07 2023-06-30 北京奇艺世纪科技有限公司 基于真人的图画自动生成方法、装置、系统及存储介质
US11734868B2 (en) 2021-07-19 2023-08-22 Sony Group Corporation Motion retargeting based on differentiable rendering
CN116386087A (zh) * 2023-03-31 2023-07-04 阿里巴巴(中国)有限公司 目标对象处理方法以及装置
CN116386087B (zh) * 2023-03-31 2024-01-09 阿里巴巴(中国)有限公司 目标对象处理方法以及装置

Also Published As

Publication number Publication date
JP5503510B2 (ja) 2014-05-28

Similar Documents

Publication Publication Date Title
Rogez et al. Mocap-guided data augmentation for 3d pose estimation in the wild
JP5873442B2 (ja) 物体検出装置および物体検出方法
Simon et al. Hand keypoint detection in single images using multiview bootstrapping
CN108717531B (zh) 基于Faster R-CNN的人体姿态估计方法
JP5820366B2 (ja) 姿勢推定装置及び姿勢推定方法
CN110544301A (zh) 一种三维人体动作重建系统、方法和动作训练系统
JP5837508B2 (ja) 姿勢状態推定装置および姿勢状態推定方法
JP5715833B2 (ja) 姿勢状態推定装置および姿勢状態推定方法
JP4284664B2 (ja) 三次元形状推定システム及び画像生成システム
JP5503510B2 (ja) 姿勢推定装置および姿勢推定プログラム
JP2019096113A (ja) キーポイントデータに関する加工装置、方法及びプログラム
JPH10320588A (ja) 画像処理装置および画像処理方法
JP2006249618A (ja) 仮想試着装置
WO2020152927A1 (ja) 学習用データ生成方法、学習用データ生成装置、および、推論処理方法
CN111553284A (zh) 人脸图像处理方法、装置、计算机设备和存储介质
CN110544302A (zh) 基于多目视觉的人体动作重建系统、方法和动作训练系统
CN113989928B (zh) 一种动作捕捉和重定向方法
JP2013120556A (ja) 被写体姿勢推定装置および映像描画装置
Zou et al. Automatic reconstruction of 3D human motion pose from uncalibrated monocular video sequences based on markerless human motion tracking
JP2010211732A (ja) 物体認識装置および方法
CN114519727A (zh) 一种图像驱动方法、装置、设备和介质
Krispel et al. Automatic texture and orthophoto generation from registered panoramic views
JP3940690B2 (ja) 画像処理装置及びその方法
Liebelt et al. Robust aam fitting by fusion of images and disparity data
CN111783497A (zh) 视频中目标的特征确定方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140314

R150 Certificate of patent or registration of utility model

Ref document number: 5503510

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees