JP2008165580A

JP2008165580A - モーションキャプチャ方法

Info

Publication number: JP2008165580A
Application number: JP2006355681A
Authority: JP
Inventors: Seiji Ishikawa; 聖二石川; Juukui Tan; ジュークイタン
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2008-07-17
Anticipated expiration: 2026-12-28
Also published as: JP4934810B2

Abstract

【課題】画像入力手段によって取得した対象動体の２次元的な動作画像から３次元的な動作を、観察方向によらず自動かつ高速に再現可能なモーションキャプチャ方法を提供する。
【解決手段】画像入力手段によって取得した対象動体の２次元的な動作画像から、対象動体の３次元的な動作を再現するためのモーションキャプチャ方法であって、予め動体の基本動作ごとに、動体の基本動作の各フレーム画像データＡが点で表示される固有空間データＡを作成してデータベース化する固有空間データ作成工程と、この固有空間データＡを、動体の基本動作が保有している情報ごとに木構造群に分解して構造化する木構造作成工程と、判別しようとする対象動体の動作の固有空間データＢと木構造作成手段で構造化された固有空間データＡを比較して、固有空間データＢからの距離が最も近い固有空間データＡを選び、対象動体の３次元的な動作を特定する判別工程とを有する。
【選択図】図５

Description

本発明は、例えば、ビデオカメラのような画像入力手段によって取得した対象動体の２次元的な動作画像、特に人の２次元的な動作画像から、アニメーション、三次元アバター、またはロボットの３次元的な動作を再現するためのモーションキャプチャ方法に関する。

従来、人の動作を測定し、その立体モデルを造る技術として、モーションキャプチャ方法がある。
このモーションキャプチャ方法としては、例えば、機械式方法、磁気式方法、および光学式方法が主要な方法として挙げられる（例えば、特許文献１〜４参照）。
中でも、光学式方法は、例えば、対象動体である人をカメラにより撮影するだけであるため、動作の制限を最も受けにくい方法であり、広く利用されている。例えば、映画、ビデオゲーム、スポーツ、またはダンスのように、運動または動作を表現する３次元メディアに関連する分野で、それらの立体コンテンツの製作に利用されてきた。これらの分野では、たくさんのカメラがセットされたスタジオを所有しているため、このスタジオでシナリオ通りの動作を行うことにより、その動作データが得られ、立体モデル化ができるからである。

特開２００５−３４５１６１号公報特開２００４−１０１２７３号公報特開２０００−３２１０４４号公報特開平１０−７４２４９号公報

しかしながら、前記従来のモーションキャプチャ方法には、未だ解決すべき以下のような問題があった。
機械式方法は、測定機械を身体に装着する必要があるため、表現可能な動作に制限がある。
また、磁気式方法は、磁場を発生させた環境でしか使用できないという問題があり、適用可能な場所が制約される。
そして、光学式方法は、広く利用されてはいるが、事前にカメラのキャリブレーション（配置および位置設定）が必要であり、また人の動きを測定するためのマーカも、身体に装着する必要があるため、作業性が悪い。なお、視体積交差法（バックプロジェクト法）を使用すれば、マーカの使用は不要となるが、カメラのキャリブレーションは必要である。一方、因子分解に基づく方法を使用すれば、カメラのキャリブレーションは不要となるが、マーカの使用が必要となる。

本発明はかかる事情に鑑みてなされたもので、画像入力手段によって取得した対象動体の２次元的な動作画像から、観察方向によらずに、自動かつ高速に、３次元的な動作を再現可能なモーションキャプチャ方法を提供することを目的とする。

前記目的に沿う本発明に係るモーションキャプチャ方法は、画像入力手段によって取得した対象動体の２次元的な動作画像から、該対象動体の３次元的な動作を再現するためのモーションキャプチャ方法であって、
固有空間データ作成手段により、予め動体の基本動作ごとに、該動体の基本動作の各フレーム画像データＡが点で表示される固有空間データＡを作成し記憶手段に格納してデータベース化する固有空間データ作成工程と、
木構造作成手段により、前記固有空間データ作成手段でデータベース化された前記固有空間データＡを、前記動体の基本動作が保有している情報ごとに木構造群に分解（木構造内に分配）し前記記憶手段に格納して構造化する木構造作成工程と、
判別手段により、判別しようとする前記対象動体の動作のフレーム画像データＢが点で表示された固有空間データＢと、前記木構造作成手段で構造化された前記動体の基本動作ごとの固有空間データＡとを比較して、前記固有空間データＢからの距離が最も近い固有空間データＡを選び、前記対象動体の３次元的な動作を特定する判別工程とを有する。

ここで、木構造とは、動体の基本動作が保有している情報、例えば、動体の基本動作をその特徴ごとに区分する方法であり、例えば、Ｂ−ｔｒｅｅ、Ｂ^＊−ｔｒｅｅ、またはＢ^＋−ｔｒｅｅが従来知られている。
また、動体として人を対象とした場合、その基本動作として、例えば、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作等がある。また、動体としては、人の他に、動物、車等の乗り物、またはロボット等を適用することができる。

本発明に係るモーションキャプチャ方法において、前記基本動作ごとの前記各フレーム画像データＡは、連続するまたは間隔を有する２つずつのフレーム画像を重ね合わせ、変化のない部分を削除して得られる複数の差分画像を、それぞれ重ね合わせることで得られることが好ましい。
ここで、差分画像は、例えば、動体の背景画像を削除することにより得られる画像であり、このような背景画像を削除することで、処理するデータ量を少なくできる。

本発明に係るモーションキャプチャ方法において、前記固有空間データ作成工程での前記動体は疑似人モデルまたは人であり、しかも前記画像入力手段は、前記動体が擬似人モデルの場合は仮想カメラ群、前記動体が人の場合はカメラ群であり、前記動体の基本動作を前記画像入力手段を用いて多方向から撮影し、前記基本動作ごとの複数のフレーム画像データＡを得ることが好ましい。
ここで、疑似人モデルとは、人の３次元モデルのことであり、一般にアバターといわれる。疑似人モデルを使用することにより、基本動作を行う動体を標準化することができる。

本発明に係るモーションキャプチャ方法において、前記固有空間データＡは、前記フレーム画像データＡに微分処理を行って作成されることが好ましい。
ここで、微分処理とは、例えば、ログ（ＬｏＧ）フィルタ、またはソーベルフィルタ等によって行う方法である。なお、ログフィルタとは、画像データをぼかして微分する方法である。

本発明に係るモーションキャプチャ方法において、前記固有空間データＡは、前記フレーム画像データＡをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、前記固有空間データＢは、前記フレーム画像データＢを前記固有空間に投影して得られることが好ましい。
ここで、カルーネン・レーベ変換とは、カルーネン・レーベ展開ともいわれ、高次元の各フレーム画像データを低次元に変換する方法である。

請求項１〜５記載のモーションキャプチャ方法は、フレーム画像データＡ、Ｂを点で表示した固有空間データＡ、Ｂを用いて固有空間を構築するので、処理するデータの量を少なくでき、対象動体の動作を高速に処理できる。また、固有空間データＡを木構造群に分解するので、固有空間データＡと固有空間データＢとの全てを比較することなく、固有空間データＡを選んで対象動体の３次元的な動作を特定でき、処理速度の更なる高速化を図ることができる。
従って、動体の多数の基本動作を記憶手段に格納することで、例えば、任意の場所における不特定の人物の動作を、観察方向によらず、ビデオカメラのような画像入力手段で撮影し、立体的に再現することができる。

特に、請求項２記載のモーションキャプチャ方法においては、基本動作ごとの各フレーム画像データＡが、複数の差分画像をそれぞれ重ね合わせることで得られるので、処理するデータ量を少なくでき、動作認識の処理時間を更に短くできる。
請求項３記載のモーションキャプチャ方法においては、基本動作を疑似人モデルに行わせ複数のフレーム画像データＡを得た場合、標準化した人のデータとすることができ、体型の違いを無くすことができる。更に、疑似人モデルまたは人を多方向から観察した動作画像を用いるので、対象物体をどの方向から観察した場合でも動作を判別することができる。

請求項４記載のモーションキャプチャ方法においては、フレーム画像データＡに微分処理を行って、固有空間データＡを作成するので、例えば、服装の違いによる誤差（ノイズ）を減少させることができ、例えば、疑似人モデルをより標準化することができる。
請求項５記載のモーションキャプチャ方法においては、固有空間データＡが、フレーム画像データＡをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、固有空間データＢが、フレーム画像データＢを固有空間に投影して得られるので、次元を低くでき、動作認識の処理時間を短くできる。

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
本発明の一実施の形態に係るモーションキャプチャ方法は、１台のビデオカメラ（画像入力手段の一例）によって取得した対象動体の一例である対象人の２次元的な動作画像を、予め登録された動体の一例である人が行った複数の基本動作と比較して、対象人の３次元的な動作を再現するための方法である。以下、詳しく説明する。

まず、人が行う基本動作の固有空間データＡを作成する固有空間データ作成工程について説明する。
人を中心にして等距離で、しかも等角度に、複数台（例えば、４台）のビデオカメラ（動画が撮影可能であればよい）を配置し、人が行う各基本動作（例えば、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作等）を撮影する。なお、ビデオカメラとしては、例えば、ＣＣＤカメラ、高速度カメラ、ハンディータイプカメラ、デジタルＶＴＲ、またはデジタルビデオカメラを使用してもよい。
次に、それぞれの基本動作を撮影した映像をコンピュータに取り込む。なお、以下の作業は、コンピュータ内で計算して行われ、コンピュータ内のプログラムにより処理される。

コンピュータ内に取り込まれた画像のうち、各ビデオカメラごとに、例えば、１秒間に１コマ以上５０コマ以下の間隔で得られる連続する複数のフレーム画像は、コンピュータ内の前処理手段により重ね合わせられる。このとき、変化のない部分、例えば、人の周囲に存在する背景画像（例えば、壁、床、および空）を削除するが、人の画像についても、動きが無い部分（僅かに動く部分を含んでもよく、また含まなくてもよい）を削除してもよい。なお、複数のフレーム画像は、例えば、２枚ごと、または３枚ごとのように、複数枚ごとに間隔を有するものでもよい。
これにより、基本動作の一連の動作が残像として示される１枚の圧縮された画像を、基本動作の複数のフレーム画像データＡとして、コンピュータ内の記憶手段に格納できる。

このとき、前記した複数のフレーム画像を、連続する２つのフレーム画像ごとに重ね合わせ、変化のない部分、例えば、人の周囲に存在する背景画像を引き算して削除した後、得られる複数の差分画像をそれぞれ重ね合わせることで、１枚の圧縮画像を得てもよい。
なお、上記した人の行う基本動作の３次元データは、人に実際に動作をしてもらうことで得たが、例えば、コンピュータグラフィクスを用いた疑似人モデルにより作成してもよく、また予め他のモーションキャプチャ法で獲得したデータを用いて疑似人モデルにより作成してもよい。
この場合、人の基本動作を疑似人モデルに行わせ、この疑似人モデルを中心として、水平方向、上方向、および下方向のいずれか１または２以上に、等間隔で等角度に配置される多数（例えば、６台以上）の仮想ビデオカメラからなる仮想カメラ群により、疑似人モデルを撮影して、複数のフレーム画像データＡを得る。

ここで、各フレーム画像データＡは、基本動作を撮影した動画中の画像の集合であって、１枚の画像データが、例えば、縦が２５６ピクセル、横が２５６ピクセルで構成されている場合、総画素数が６５５３６画素、つまり６５５３６（Ｎ）次元のデータが得られる。また、例えば、１秒間に１５コマで２秒間撮影した場合、１方向から３０（Ｐ）枚のフレーム画像が得られるが、前記したように、画像の前処理を行うことで、その動作を表す複数のフレーム画像は、１画像で圧縮表現される。
次に、コンピュータ内の固有空間データ作成手段により、予め人の基本動作ごとに、人の基本動作の各フレーム画像データＡが点で表示される固有空間データＡを作成する。なお、この固有空間データＡの作成は、特願２００５−２３７７８５の方法と同様の手法で実施できる。

得られた１つの基本動作のフレーム画像データＡ（以下、単に画像ともいう）に対し、正規化を行い、従来公知のＴＶラスタースキャンと同様の方法で走査して、（１）式に示すベクトルを得る。
ｘ_ｐ＝（ｘ₁，ｘ₂，・・・，ｘ_Ｎ）^Ｔ・・・（１）
ここで、ベクトルの各要素は、スキャンした順番で並んでいる画素数である。なお、Ｎはピクセル数を示し、Ｔは転置を示し、またｘ_ｐは‖ｘ_ｐ‖＝１となるように正規化されている。
次に、Ｎ行Ｐ列の行列Ｘを、（２）式のように定義する。
Ｘ≡（ｘ₁−ｃ，ｘ₂−ｃ，・・・，ｘ_P−ｃ）・・・（２）
ここで、ｃは画像の平均値であり、（３）式で計算される。

また、共分散行列Ｑは、行列Ｘより（４）式で定義される。
Ｑ＝ＸＸ^Ｔ・・・（４）

カルーネン・レーベ変換により、（５）式を用いて共分散行列Ｑの固有値λ_１，λ_２，・・・，λ_Ｎを求める。但し、λ_１＞λ_２＞・・・＞λ_Ｎである。
Ｑｕ＝λｕ・・・（５）
ここで、ｕはＮ個の成分を持つベクトルである。
得られた固有値λ_１，λ_２，・・・，λ_Ｎから、固有ベクトルｅ_１，ｅ_２，・・・，ｅ_Ｎが求められる。

ここで、固有ベクトルのｋ個の最大固有値λ_１，λ_２，・・・，λ_ｋ、および、それに対応する固定ベクトルｅ_１，ｅ_２，・・・，ｅ_ｋを選択し、ｋ個の固有ベクトルの張る空間、即ち、（６）式に示すｋ次元の固有空間ＥＳを作成する。
ＥＳ（ｅ_１，ｅ_２，・・・，ｅ_ｋ）≡ＥＳ・・・（６）
なお、ｋ≪Ｎであり、固有空間ＥＳ上に画像データを写像する変換行列Ｅは、（７）式で示される。例えば、ｋを１００とした場合には、Ｎ次元からｋ次元、すなわち、６５５３６次元から１００次元に次元を下げることができる。
Ｅ＝（ｅ_１，ｅ_２，・・・，ｅ_ｋ）・・・（７）

ここで、（８）式により、各フレーム画像データＡを固有空間ＥＳ上に投影して、固有空間データＡとして点の集合ｇ_ｐを得る。
ｇ_ｐ＝（ｅ_１，ｅ_２，・・・，ｅ_ｋ）^Ｔｘ_ｐ・・・（９）
このようにして、人の姿勢は、固有空間上で単なる点として登録される。
この得られた点の集合ｇ_ｐを、記憶手段に格納してデータベース化する。
なお、固有空間データＡの作成に際しては、事前に、コンピュータ内に取り込まれた画像の各フレーム画像データＡのそれぞれの画像データを、従来公知のログフィルタにかけ、各フレーム画像データＡをぼかして微分処理してもよい。

以下、同様に他の方向から撮影した基本動作の各フレーム画像データＡからそれぞれ固有空間データＡを作成し、得られた点の集合を、記憶手段に格納してデータベース化する。
また、複数の基本動作の全てのフレーム画像データＡから、同様にして固有空間データＡを作成し、記憶手段に格納してデータベース化する。
次に、以上に示した固有空間データ作成手段でデータベース化された固有空間データＡを、コンピュータ内の木構造作成手段により、人の基本動作が保有している情報ごとに木構造群に分解する木構造作成工程について説明する。なお、木構造としては、例えば、Ｂ−ｔｒｅｅ、Ｂ^＊−ｔｒｅｅ、またはＢ^＋−ｔｒｅｅが従来知られている。

固有空間に対して、Ｂ−ｔｒｅｅを適用するという考えは、固有空間を複数に分割し、点として表現された姿勢をそれぞれ格納するビン（貯蔵箱：人の基本動作が所有している情報ごとに分解され構成される木構造群）を作り、入力された未知の姿勢と似た画像の格納されたビンを高速に探し出すことにある。
Ｂ−ｔｒｅｅ構造を固有空間に導入して、固有空間の構造化を行うことにより、圧縮画像が点として表現された固有空間は、複数のビンに分けられ、ビンはＢ−ｔｒｅｅ構造で表現される。
なお、人の動作を表すこの固有空間を、動作データベースと呼ぶ。

ここで、Ｂ−ｔｒｅｅについて説明する。
以下の条件を満たすものを、τ（ｍ，Ｈ）に属するＢ−ｔｒｅｅ Τという。ここで、ｍは、根（ルート）または節（ノード）が持つことのできる子供の数である。また、Ｈは木の高さを表し、検索速度に関係する。
１．根は葉であるか、または２〜ｍ個の子を持つ。
２．根、葉以外の節は、［ｍ／２］〜ｍ個の子を持つ。ただし、［ｘ］はｘ以下の最大の整数を表す。
３．根からすべての葉までの経路の長さは等しい。
Ｂ−ｔｒｅｅでは、格納するデータから造られる「境界を表す値」、即ちキーが重要な意味を持ち、このキーによって根や節が構築される。このキーは、大小比較することが可能なスカラー値である。また、データは、葉のみに格納される。

このＢ−ｔｒｅｅを固有空間に適用するときは、それぞれの固有空間上の座標値ｅ_ｋ（ｋ＝１，２，・・・，Ｋ）を、Ｒ個のある幅Ｌを持ったセクションに分割し、木構造を作成する。
ここで、画像Ｉ_Ｐが式（９）によって固有空間の点ｇ＝（ｇ_１，ｇ_２，・・・，ｇ_K）に投影されると、ｇ_ｋ（ｋ＝１，２，・・・，Ｋ）は、いずれかのセクションに含まれるから、そのセクションの固有の番号Ｓ_ｋ，ｒ（ｒ＝０，１，・・・，Ｒ−１）が与えられる。
この結果ｇは、式（１０）によって、Ｋ桁Ｒ進数であるＳ_ｐに変換される。
Ｓ_Ｐ＝Ｓ_１，ｒ１Ｓ_２，ｒ２Ｓ_３，ｒ３・・・Ｓ_Ｋ，ｒＫ・・・（１０）
これにより、画像は、Ｓ_Ｐをキーとして、木構造であるＢ−ｔｒｅｅ Τに分配されて格納されるので、これを、記憶手段に格納して、構造化する。
以上の方法により、人の各基本動作がデータベース化される。

次に、前記したコンピュータ内の固有空間データ作成手段により、判別しようとする対象人のフレーム画像データＢが点で表示された固有空間データＢを作成する。
まず、対象人の動作を１台のビデオカメラで撮影する。
動作画像をコンピュータに取り込み、（１１）式に示す各フレーム画像データＢの集合ｙを得る。
ｙ＝（ｙ_１，ｙ_２，・・・，ｙ_Ｐ）・・・（１１）
そして、前記した固有空間データＡと前処理と同様の方法により、その動作を表す連続フレームを圧縮表現して１画像とすることで、フレーム画像データＢが作成される。

更に、前記した固有値および固有ベクトルから作成される固有空間ＥＳに、（１２）式を用いて、フレーム画像データＢ（ｙ´と表記）を投影し、固有空間データＢである点ｈを得る。
ｈ＝Ｅ^Ｔｙ´＝（ｅ_１，ｅ_２，・・・，ｅ_ｋ）^Ｔｙ´・・・（１２）
そして、コンピュータ内の判別手段により、固有空間データＢと、木構造作成手段で構造化された人の基本動作ごとの固有空間データＡとを比較する判別工程について説明する。

人の姿勢認識では、未知の姿勢を持つ画像Ｉ_Ｐ′を固有空間に投影し、（１０）式によってセクション番号Ｓ_Ｐ′を得る。次に、Ｓ_Ｐ′を検索キーとしてΤを検索し、候補姿勢ｇ_ｐｒ（ｒ＝１，２，・・・，Ｒ）を得る。
最後に、（１３）式を適用すれば、固有空間データＢを示す点ｈからの距離が最も近い（距離が最小）固有空間データＡを示す点の集合ｇ_ｉが選ばれ、最も近い姿勢ｐ′＝ｐ^＊が得られる。
ｄ_ｐ ^＊＝ｍｉｎ‖ｇ_ｐｒ−ｇ_ｐ‖・・・（１３）
ここでは、Ｒ≪Ｐとなることが期待されるため、検索速度は大幅に改善される。
ただし、Ｒ≪動作データベースに登録されている全基本動作の数である。

このように、人の動作を任意方向からビデオ撮影し、その動作に最も近い動作を動作データベースの検索により探し、見つかればそれを３次元的な動作と特定することで、例えば、アニメーション、アバター、またはロボットのような３次元媒体で再現できる。
これにより、固有空間データＢに最も近い圧縮画像が検索されるが、この圧縮画像は、もとの動作情報（即ち、動体の基本動作）を持っているため、これを参照することで、３次元動作を再現できる。
なお、未知の動作がカメラで撮影される場合、画像の前処理により、その動作を表す連続するフレーム画像は、１画像Ｉで圧縮表現されるため、画像Ｉに最も近い圧縮画像が、コンピュータ内の基本動作のデータベースから検索される。このデータベースは、前記したように、Ｂ−ｔｒｅｅ構造を持つため、検索は高速に行われる。従って、画像Ｉと最も距離の短い画像が検索され、この距離がある閾値より小さければ、未知動作は、その動作として判断される。
以上の方法により、動作データベース検索によるモーションキャプチャが実現する。

次に、本発明の作用効果を確認するために行った実施例について説明する。
ここでは、本願発明のモーションキャプチャ方法を適用し、ビデオカメラによって取得した対象人の２次元的な動作画像から、対象人の３次元的な動作を再現する方法について説明する。
まず、図１（Ａ）、（Ｂ）、図２（Ａ）、（Ｂ）、図３（Ａ）、（Ｂ）に示すように、人に、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作の各基本動作を行ってもらい、この動作画像をビデオカメラで連続的に撮影して、コンピュータに入力する。なお、ここでは、説明の便宜上、一方向からのみ撮影した映像を示す。

次に、前記した前処理について説明する。
ここでは、図１〜図３の各基本動作を、その動作ごとに重ね合わせ、図４（Ａ）の（ａ）〜（ｆ）に示す１枚の画像データを得る。なお、図１（Ａ）は図４（Ａ）の（ａ）、図１（Ｂ）は図４（Ａ）の（ｂ）、図２（Ａ）は図４（Ａ）の（ｃ）、図２（Ｂ）は図４（Ａ）の（ｄ）、図３（Ａ）は図４（Ａ）の（ｅ）、および図３（Ｂ）は図４（Ａ）の（ｆ）に、それぞれ対応する。
そして、図４（Ａ）の（ａ）〜（ｆ）の背景画像を削除することで、図４（Ｂ）に示す抽出画像を得た後、前記した正規化を行うことで、図５に示す画像が得られる。

また、前処理は、以下の方法で行うこともできる。
ここでは、図１〜図３の各基本動作を、連続する２つのフレーム画像ごとに重ね合わせ、変化のない部分、即ち人の周囲に存在する背景画像（例えば、壁、床、および空）を引き算して削除する。そして、この差分画像をそれぞれ重ね合わせることで、図６（Ａ）に示すように、基本動作の一連の動作が残像として示される１枚の圧縮画像を作成できる。なお、図１（Ａ）は図６（Ａ）の（ａ）、図１（Ｂ）は図６（Ａ）の（ｂ）、図２（Ａ）は図６（Ａ）の（ｃ）、図２（Ｂ）は図６（Ａ）の（ｄ）、図３（Ａ）は図６（Ａ）の（ｅ）、および図３（Ｂ）は図６（Ａ）の（ｆ）に、それぞれ対応する。
そして、図６（Ａ）の（ａ）〜（ｆ）に残存する背景画像を削除することで、図６（Ｂ）に示す抽出画像を得た後、前記した正規化を行うことで、図７に示す画像が得られる。

これにより、各圧縮画像には、対応する３次元の動作を再現するのに必要な情報を持たせることができる。
この各フレーム画像データＡからカルーネン・レーベ変換により、固有値および固有ベクトルを計算し、固有空間データＡを作成し、複数の基本動作の固有空間データＡを、記憶手段に格納してデータベース化する。
次に、このデータベース化された固有空間データＡを、木構造に分解（動体の基本動作が保有している情報、例えば、その画像特徴ごとに区分）し、記憶手段に格納してデータベース化する。これにより、固有空間データＡは、例えば、類似画像（同じビンに異なる基本動作が入る場合もある）ごとに分類される。

一方、３次元的な動作を得るための元データとなる人の動作については、１台のビデオカメラで対象人を撮影し、動作画像をコンピュータに取り込み、各フレーム画像データＢを得る。そして、前記した各フレーム画像データＡと同様の方法で、１画像に圧縮されたフレーム画像データＢを、前記した固有値および固有ベクトルから作成される固有空間に投影して固有空間データＢを得る。
そして、固有空間データＢと基本動作ごとの固有空間データＡとを比較して、固有空間データＢからの距離が最も近い固有空間データＡを選び、これを対象人の３次元的な動作と特定する。
これにより、例えば、アニメーション、アバター、またはロボットのような３次元媒体で再現できる。

本発明のモーションキャプチャ方法によって、例えば、従来のモーションキャプチャ方法では不可能であった予期せぬ突発的な事象（広場で突然ストリートダンスが始まる場合のように、身体にマーカをつけず、自然な状態で動作してもらえる事象）などの、立体モデル化が可能となり、また容易となる。これは、画像入力手段により、現地で対象動体の動作を撮影するだけでよいからである。
また、従来のように、事前のカメラキャリブレーションおよびマーカも必要なく、対象となる動体の動作のみを撮影するだけでよいので、立体モデル化できる動作数が増え、また操作が簡単なモーションキャプチャ方法を提供できる。これにより、低価格で使い易いモーションキャプチャシステムを提供できるので、モーションキャプチャ技術の他分野への普及が期待できる。

以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載の構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。例えば、前記したそれぞれの実施の形態や変形例の一部または全部を組合せて本発明のモーションキャプチャ方法を構成する場合も本発明の権利範囲に含まれる。
また、前記実施の形態においては、本願発明である動体として人を適用した場合について説明したが、これに限定されるものではなく、動体として、例えば、人以外の動物、車等の乗り物、またはロボットでもよい。

（Ａ）は人が重たい荷物を持ち上げる基本動作の連続するフレーム画像の説明図、（Ｂ）は人が物を拾う基本動作の連続するフレーム画像の説明図である。（Ａ）は人が腹痛でおなかを抱えて座り込む基本動作の連続するフレーム画像の説明図、（Ｂ）は人が頭上から落ちてくる物を避けようと両手で頭を覆う基本動作の連続するフレーム画像の説明図である。（Ａ）は人が歩く基本動作の連続するフレーム画像の説明図、（Ｂ）は人が転倒する基本動作の連続するフレーム画像の説明図である。（Ａ）は図１〜図３に示す各基本動作ごとの画像の説明図、（Ｂ）は（Ａ）の背景画像を削除した後の画像の説明図である。図４（Ｂ）の画像を正規化した画像の説明図である。（Ａ）は図１〜図３に示す各基本動作ごとの連続する画像を重ね合わせ変化のない部分を削除した後に得られる圧縮画像の説明図、（Ｂ）は（Ａ）の背景画像を削除した後の圧縮画像の説明図である。図６（Ｂ）の画像を正規化した画像の説明図である。

Claims

画像入力手段によって取得した対象動体の２次元的な動作画像から、該対象動体の３次元的な動作を再現するためのモーションキャプチャ方法であって、
固有空間データ作成手段により、予め動体の基本動作ごとに、該動体の基本動作の各フレーム画像データＡが点で表示される固有空間データＡを作成し記憶手段に格納してデータベース化する固有空間データ作成工程と、
木構造作成手段により、前記固有空間データ作成手段でデータベース化された前記固有空間データＡを、前記動体の基本動作が保有している情報ごとに木構造群に分解し前記記憶手段に格納して構造化する木構造作成工程と、
判別手段により、判別しようとする前記対象動体の動作のフレーム画像データＢが点で表示された固有空間データＢと、前記木構造作成手段で構造化された前記動体の基本動作ごとの固有空間データＡとを比較して、前記固有空間データＢからの距離が最も近い固有空間データＡを選び、前記対象動体の３次元的な動作を特定する判別工程とを有することを特徴とするモーションキャプチャ方法。
請求項１記載のモーションキャプチャ方法において、前記基本動作ごとの前記各フレーム画像データＡは、連続するまたは間隔を有する２つずつのフレーム画像を重ね合わせ、変化のない部分を削除して得られる複数の差分画像を、それぞれ重ね合わせることで得られることを特徴とするモーションキャプチャ方法。
請求項１および２のいずれか１項に記載のモーションキャプチャ方法において、前記固有空間データ作成工程での前記動体は疑似人モデルまたは人であり、しかも前記画像入力手段は、前記動体が擬似人モデルの場合は仮想カメラ群、前記動体が人の場合はカメラ群であり、前記動体の基本動作を前記画像入力手段を用いて多方向から撮影し、前記基本動作ごとの複数のフレーム画像データＡを得ることを特徴とするモーションキャプチャ方法。
請求項１〜３のいずれか１項に記載のモーションキャプチャ方法において、前記固有空間データＡは、前記フレーム画像データＡに微分処理を行って作成されることを特徴とするモーションキャプチャ方法。
請求項１〜４のいずれか１項に記載のモーションキャプチャ方法において、前記固有空間データＡは、前記フレーム画像データＡをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、前記固有空間データＢは、前記フレーム画像データＢを前記固有空間に投影して得られることを特徴とするモーションキャプチャ方法。