JP4802330B2

JP4802330B2 - 動体の動作判別方法

Info

Publication number: JP4802330B2
Application number: JP2006355691A
Authority: JP
Inventors: 聖二石川; ジュークイタン
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2011-10-26
Anticipated expiration: 2026-12-28
Also published as: JP2008165581A

Description

本発明は、任意方向から観察した動体、特に人の動作を認識可能な動体の動作判別方法に関する。

人とロボットが共存する社会では、人のＱＯＬ（ＱｕａｌｉｔｙｏｆＬｉｆｅ）を高めるような機能を持つロボットが求められている。具体的には、例えば、重い荷物を持って移動する人、具合が悪くなって座り込む人、または足元のおぼつかない高齢者等に近づき、適切な支援を与えることが可能な機能を持つロボットである。このようなロボットが、基本的に備えるべき機能は、観察方向によらずに、例えば、人の姿勢、動作、または挙動を認識する機能である。
そこで、動作を認識する方法として、３次元復元または３次元モデルフィッティングに基づいて、３次元で処理する方法が知られている（例えば、特許文献１参照）。

特開２００３−５８９０６号公報

しかしながら、人物の動作認識は数多く研究されているが、いずれも人の正面像、あるいは側面像のみを対象とする手法で、任意方向から観察して得られる画像を前提とする手法は提案されていない。
また、動体の動作を３次元で処理して判別するため、データ量が多くなり、処理時間が膨大となるという問題もあった。

本発明はかかる事情に鑑みてなされたもので、観察方向によらずに、自動かつ高速に、対象動体の動作を認識可能な動体の動作判別方法を提供することを目的とする。

前記目的に沿う本発明に係る動体の動作判別方法は、固有空間データ作成手段により、予め動体の基本動作ごとの複数のフレーム画像データＡがそれぞれ点で表示される固有空間データＡを、該基本動作ごとに作成し記憶手段に格納してデータベース化する固有空間データ作成工程と、判別手段により、判別しようとする対象動体のフレーム画像データＢが点で表示された固有空間データＢと前記基本動作ごとの複数の前記固有空間データＡを比較して、前記固有空間データＢからの距離が最も近い固有空間データＡを選び、前記対象動体の動作を判別する判別工程とを有する動体の動作判別方法であって、
前記基本動作ごとの各フレーム画像データＡは、前記動体に該基本動作を行わせ、該基本動作を行う前記動体を複数の画像入力手段を用いて多方向から撮影し、前処理手段によって、前記画像入力手段ごとに取得した連続する複数のフレーム画像を重ね合わせることで作成される圧縮画像から得る。

ここで、圧縮画像とは、複数のフレーム画像を重ね合わせることで、動体の一連の動作が残像として表れた画像を意味する。
また、動体として人を対象とした場合、その基本動作として、例えば、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作等がある。
そして、動体としては、人の他に、動物、車等の乗り物、またはロボット等を適用することができる。

本発明に係る動体の動作判別方法において、前記圧縮画像は、前記複数のフレーム画像のうち連続するまたは間隔を有する２つずつのフレーム画像を重ね合わせ、変化のない部分を削除して得られる複数の差分画像を、それぞれ重ね合わせることで得られることが好ましい。
ここで、差分画像とは、例えば、２画像間で減算を行い、変化のない画像部分を削除することにより得られる画像であり、このような変化のない画像部分を削除することで、処理するデータ量を少なくできる。

本発明に係る動体の動作判別方法において、前記固有空間データ作成工程と前記判別工程との間には木構造作成工程が設けられ、前記固有空間データ作成工程でデータベース化された前記固有空間データＡを、前記木構造作成工程の木構造作成手段により、前記動体の基本動作が保有している情報ごとに木構造内に分配し（木構造内に記述し）、前記記憶手段に格納して構造化することが好ましい。
ここで、木構造とは、動体の基本動作が保有している情報、例えば、動体の基本動作をその画像特徴ごとに区分する方法であり、例えば、Ｂ−ｔｒｅｅ、Ｂ^＊−ｔｒｅｅ、またはＢ^＋−ｔｒｅｅが従来知られている。

本発明に係る動体の動作判別方法において、前記固有空間データ作成工程での前記動体は疑似人モデルまたは人であり、しかも前記複数の画像入力手段は、前記動体が擬似人モデルの場合は仮想カメラ群、前記動体が人の場合はカメラ群であることが好ましい。
ここで、疑似人モデルとは、人の３次元モデルのことであり、一般にアバターといわれる。疑似人モデルを使用することにより、基本動作を行う動体を標準化することができる。

本発明に係る動体の動作判別方法において、前記動体は前記疑似人モデルであって、該疑似人モデルの行う基本動作は、モーションキャプチャー法によって得られたものであることが好ましい。
ここで、モーションキャプチャー法とは、例えば、光学式、音波（超音波を含む）式、または磁気式等の非接触で計測可能な機器、あるいは機械式のように接触して計測する機器を使用して、人や動物の動きをコンピュータに取り込んで立体化して再現する方法である。
光学式は、動体に、例えば、発光マーカー、反射マーカー、およびパターンマーカー等のいずれかのマーカーを取付けて、複数のカメラ（例えば、ＣＣＤカメラ、高速度カメラ、ハンディータイプカメラ、デジタルＶＴＲ、およびデジタルビデオカメラのいずれか１または２以上）で動体を撮影し、この映像をコンピュータに入力して、動体の動きを検知することができる。

また、音波式では、動体に取付けた超音波の発信器から発信された超音波を、少なくとも３つの超音波受信器で受信し、超音波受信器へ到達する時間の差によって、動体の動きを検知している。音波式では、動体に超音波受信器を取付けてもよい。
更に、磁気式では、動体に磁界を発生する磁界発生器を取付け、磁界中に配置されると電流が流れる磁力計測器によって、誘起された電流の強さから磁界発生器までの距離と方向とを検知して、動体の動きが再現される。

本発明に係る動体の動作判別方法において、前記固有空間データＡは、前記フレーム画像データＡに微分処理を行って作成されることが好ましい。
ここで、微分処理は、例えば、ログ（ＬｏＧ）フィルタまたはソーベルフィルタ等によって行うことができる。ログフィルタは、画像データをぼかして、微分することができる。

本発明に係る動体の動作判別方法において、前記固有空間データＡは、前記フレーム画像データＡをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、前記固有空間データＢは、前記フレーム画像データＢを前記固有空間に投影して得られることが好ましい。
ここで、カルーネン・レーベ変換は、カルーネン・レーベ展開ともいわれ、高次元の各フレーム画像データを低次元に変換することができる。

請求項１〜７記載の動体の動作判別方法は、連続する複数のフレーム画像を重ね合わせることで作成される圧縮画像を用いて固有空間を構築するので、処理するデータの量を少なくでき、対象動体の動作を高速に処理できる。また、基本動作として、動体を多方向から撮影した複数のフレーム画像を用いるので、対象動体をどの方向から観察した場合でも、動作を判別することができる。
従って、動体の多数の基本動作を記憶手段に格納することで、例えば、任意方向からの人の動作の認識が可能になる。

特に、請求項２記載の動体の動作判別方法においては、基本動作ごとの各フレーム画像データＡが、差分画像をそれぞれ重ね合わせることで得られるので、処理するデータ量を少なくでき、動作認識の処理時間を更に短くできる。
請求項３記載の動体の動作判別方法においては、固有空間データＡを木構造内に分配するので、固有空間データＡと固有空間データＢとの全てを比較することなく、固有空間データＡを選んで対象動体の動作を特定でき、処理速度の更なる高速化を図ることができる。

請求項４記載の動体の動作判別方法においては、基本動作を疑似人モデルに行わせ複数のフレーム画像データＡを得た場合、標準化した人のデータとすることができ、体型の違いを無くすことができる。更に、疑似人モデルまたは人を多方向から観察した動作画像を用いるので、対象物体をどの方向から観察した場合でも動作を判別することができる。
請求項５記載の動体の動作判別方法においては、基本動作ごとの複数のフレーム画像データＡを得るための疑似人モデルの基本動作が、モーションキャプチャー法によって得られたものであるので、疑似人モデルの動きが滑らかとなり、対象動体の動きとの誤差が少なくなって判別し易くなる。

請求項６記載の動体の動作判別方法においては、各フレーム画像データＡに微分処理を行って、固有空間データＡを作成するので、例えば、服装の違いによる誤差（ノイズ）を減少させることができ、例えば、疑似人モデルをより標準化することができる。
請求項７記載の動体の動作判別方法においては、固有空間データＡが、フレーム画像データＡをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、固有空間データＢも、フレーム画像データＢを固有空間に投影して得られるので、次元を低くでき、動作認識の処理時間を短くできる。

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
本発明の一実施の形態に係る動体の動作判別方法は、対象動体の一例である対象人が行った動作を、予め登録された動体の一例である人が行った複数の基本動作と比較して、対象人がどの基本動作（類似している動作も含む）を行ったかを認識可能な方法である。以下、詳しく説明する。

まず、人が行う基本動作の固有空間データＡを作成する固有空間データ作成工程について説明する。
人を中心にして複数台（例えば、４台）のビデオカメラ（画像入力手段の一例：動画が撮影可能であればよい）を配置し、人が行う各基本動作（例えば、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作等）を撮影する。なお、ビデオカメラとしては、例えば、ＣＣＤカメラ、高速度カメラ、ハンディータイプカメラ、デジタルＶＴＲ、またはデジタルビデオカメラを使用してもよい。ここで、各ビデオカメラは、等距離で等角度に配置されているが、等距離に配置する必要はなく、また等角度に配置する必要もない。
次に、それぞれの基本動作を撮影した映像をコンピュータに取り込む。なお、以下の作業は、コンピュータ内で計算して行われ、コンピュータ内のプログラムにより処理される。

コンピュータ内に取り込まれた画像のうち、各ビデオカメラごとに、例えば、１秒間に１コマ以上５０コマ以下の間隔で得られる連続する複数のフレーム画像は、コンピュータ内の前処理手段により重ね合わせられる。このとき、変化のない部分、例えば、人の周囲に存在する背景画像（例えば、壁、床、および空）を削除するが、人の画像についても、動きが無い部分（僅かに動く部分を含んでもよく、また含まなくてもよい）を削除してもよい。なお、複数のフレーム画像は、例えば、２枚ごと、または３枚ごとのように、複数枚ごとに間隔を有するものでもよい。
これにより、基本動作の一連の動作が残像として示される１枚の圧縮された画像を、基本動作の複数のフレーム画像データＡとして、コンピュータ内の記憶手段に格納できる。

このとき、前記した複数のフレーム画像を、連続する２つずつのフレーム画像ごとに重ね合わせ、変化のない部分、例えば、人の周囲に存在する背景画像を引き算して削除した後、得られる複数の差分画像をそれぞれ重ね合わせることで、１枚の圧縮画像を得てもよい。
なお、上記した人の行う基本動作の３次元データは、人に実際に動作をしてもらうことで得たが、例えば、コンピュータグラフィクスを用いた疑似人モデルにより作成してもよく、また予めモーションキャプチャー法で解析した疑似人モデルにより作成してもよい。
この場合、人の基本動作を疑似人モデルに行わせ、この疑似人モデルを中心として、水平方向、上方向、および下方向のいずれか１または２以上に配置される多数（例えば、６台以上）の仮想ビデオカメラからなる仮想カメラ群により、疑似人モデルを撮影して、複数のフレーム画像データＡを得る。

ここで、各フレーム画像データＡは、基本動作を撮影した動画中の画像の集合であって、１枚の画像データは、例えば、縦が２５６ピクセル、横が２５６ピクセルで構成されている場合、総画素数が６５５３６画素、つまり６５５３６（Ｎ）次元のベクトルで表現できる。また、例えば、１秒間に１５コマで２秒間撮影した場合、１方向から３０（Ｐ）枚のフレーム画像が得られるが、前記したように、画像の前処理を行うことで、その動作を表す複数のフレーム画像は、１画像で圧縮表現される。
次に、コンピュータ内の固有空間データ作成手段により、予め人の基本動作の各フレーム画像データＡが点で表示される固有空間データＡを作成する。なお、この固有空間データＡの作成は、特願２００５−２３７７８５の方法と同様の手法で実施できる。

得られた１つの基本動作のフレーム画像データＡ（以下、単に画像ともいう）に対し、正規化を行い、従来公知のＴＶラスタースキャンと同様の方法で走査して、（１）式に示すベクトルを得る。
ｘ_ｐ＝（ｘ₁，ｘ₂，・・・，ｘ_Ｎ）^Ｔ・・・（１）
ここで、ベクトルの各要素は、スキャンした順番で並んでいる画素数である。なお、Ｎはピクセル数を示し、Ｔは転置を示し、またｘ_ｐは‖ｘ_ｐ‖＝１となるように正規化されている。
次に、Ｎ行Ｐ列の行列Ｘを、（２）式のように定義する。
Ｘ≡（ｘ₁−ｃ，ｘ₂−ｃ，・・・，ｘ_P−ｃ）・・・（２）
なお、Ｐは、１動作の画像の数である。
ここで、ｃは画像の平均値であり、（３）式で計算される。

また、共分散行列Ｑは、行列Ｘより（４）式で定義される。
Ｑ＝ＸＸ^Ｔ・・・（４）

カルーネン・レーベ変換により、（５）式を用いて共分散行列Ｑの固有値λ_１，λ_２，・・・，λ_Ｎを求める。但し、λ_１＞λ_２＞・・・＞λ_Ｎである。
Ｑｕ＝λｕ・・・（５）
ここで、ｕはＮ個の成分を持つベクトルである。
得られた固有値λ_１，λ_２，・・・，λ_Ｎから、固有ベクトルｅ_１，ｅ_２，・・・，ｅ_Ｎが求められる。

ここで、固有ベクトルのｋ個の最大固有値λ_１，λ_２，・・・，λ_ｋ、および、それに対応する固定ベクトルｅ_１，ｅ_２，・・・，ｅ_ｋを選択し、ｋ個の固有ベクトルの張る空間、即ち、（６）式に示すｋ次元の固有空間ＥＳを作成する。
ＥＳ（ｅ_１，ｅ_２，・・・，ｅ_ｋ）≡ＥＳ・・・（６）
なお、ｋ≪Ｎであり、固有空間ＥＳ上に画像データを写像する変換行列Ｅは、（７）式で示される。例えば、ｋを１００とした場合には、Ｎ次元からｋ次元、すなわち、６５５３６次元から１００次元に次元を下げることができる。
Ｅ＝（ｅ_１，ｅ_２，・・・，ｅ_ｋ）・・・（７）

ここで、（８）式により、各フレーム画像データＡを固有空間ＥＳ上に投影して、固有空間データＡとして点の集合ｇ_ｐを得る。
ｇ_ｐ＝（ｅ_１，ｅ_２，・・・，ｅ_ｋ）^Ｔｘ_ｐ・・・（９）
このようにして、人の姿勢は、固有空間上で単なる点として登録される。
この得られた点の集合ｇ_ｐを、記憶手段に格納してデータベース化する。
なお、固有空間データＡの作成に際しては、事前に、コンピュータ内に取り込まれた画像の各フレーム画像データＡのそれぞれの画像データを、従来公知のログフィルタにかけ、各フレーム画像データＡをぼかして微分処理してもよい。

以下、同様に他の方向から撮影した基本動作のフレーム画像データＡからそれぞれ固有空間データＡを作成し、得られた点の集合を、記憶手段に格納してデータベース化する。
また、複数の基本動作の全てのフレーム画像データＡから、同様にして固有空間データＡを作成し、記憶手段に格納してデータベース化する。
次に、以上に示した固有空間データ作成手段でデータベース化された固有空間データＡを、コンピュータ内の木構造作成手段により、人の基本動作が保有している情報ごとに木構造内に分配する木構造作成工程について説明する。なお、木構造としては、例えば、Ｂ−ｔｒｅｅ、Ｂ^＊−ｔｒｅｅ、またはＢ^＋−ｔｒｅｅが従来知られている。

固有空間に対して、Ｂ−ｔｒｅｅを適用するという考えは、固有空間を複数に分割し、点として表現された姿勢をそれぞれ格納するビン（貯蔵箱：人の基本動作が所有している情報ごとに分解され構成される木構造群）を作り、入力された未知の姿勢と似た画像の格納されたビンを高速に探し出すことにある。
Ｂ−ｔｒｅｅ構造を固有空間に導入して、固有空間の構造化を行うことにより、圧縮画像が点として表現された固有空間は、複数のビンに分けられ、ビンはＢ−ｔｒｅｅ構造で表現される。
なお、人の動作を表すこの固有空間を、動作データベースと呼ぶ。

ここで、Ｂ−ｔｒｅｅについて説明する。
以下の条件を満たすものを、τ（ｍ，Ｈ）に属するＢ−ｔｒｅｅ Τという。ここで、ｍは、根（ルート）または節（ノード）が持つことのできる子供の数である。また、Ｈは木の高さを表し、検索速度に関係する。
１．根は葉であるか、または２〜ｍ個の子を持つ。
２．根、葉以外の節は、［ｍ／２］〜ｍ個の子を持つ。ただし、［ｘ］はｘ以下の最大の整数を表す。
３．根からすべての葉までの経路の長さは等しい。
Ｂ−ｔｒｅｅでは、格納するデータから造られる「境界を表す値」、即ちキーが重要な意味を持ち、このキーによって根や節が構築される。このキーは、大小比較することが可能なスカラー値である。また、データは、葉のみに格納される。

このＢ−ｔｒｅｅを固有空間に適用するときは、それぞれの固有空間上の座標値ｅ_ｋ（ｋ＝１，２，・・・，Ｋ）を、Ｒ個のある幅Ｌを持ったセクションに分割し、木構造群を作成する。
ここで、画像Ｉ_Ｐが式（９）によって固有空間の点ｇ＝（ｇ_１，ｇ_２，・・・，ｇ_K）に投影されると、ｇ_ｋ（ｋ＝１，２，・・・，Ｋ）は、いずれかのセクションに含まれるから、そのセクションの固有の番号Ｓ_ｋ，ｒ（ｒ＝０，１，・・・，Ｒ−１）が与えられる。
この結果ｇは、式（１０）によって、Ｋ桁Ｒ進数であるＳ_ｐに変換される。
Ｓ_Ｐ＝Ｓ_１，ｒ１Ｓ_２，ｒ２Ｓ_３，ｒ３・・・Ｓ_Ｋ，ｒＫ・・・（１０）
これにより、画像は、Ｓ_Ｐをキーとして、木構造であるＢ−ｔｒｅｅ Τに分配されて格納されるので、これを、記憶手段に格納して、構造化する。
以上の方法により、人の各基本動作がデータベース化される。

次に、前記したコンピュータ内の固有空間データ作成手段により、判別しようとする対象人のフレーム画像データＢが点で表示された固有空間データＢを作成する。
まず、対象人の動作を１台のビデオカメラで撮影する。
動作画像をコンピュータに取り込み、（１１）式に示す各フレーム画像データＢの集合ｙを得る。
ｙ＝（ｙ_１，ｙ_２，・・・，ｙ_Ｐ）・・・（１１）
そして、前記した固有空間データＡの前処理と同様の方法により、その動作を表す連続フレームを圧縮表現して１画像とすることで、フレーム画像データＢが作成される。

更に、前記した固有値および固有ベクトルから作成される固有空間ＥＳに、（１２）式を用いて、フレーム画像データＢ（ｙ´と表記）を投影し、固有空間データＢである点ｈを得る。
ｈ＝Ｅ^Ｔｙ´＝（ｅ_１，ｅ_２，・・・，ｅ_ｋ）^Ｔｙ´・・・（１２）
そして、コンピュータ内の判別手段により、固有空間データＢと、木構造作成手段でデータベース化された人の基本動作ごとの固有空間データＡとを比較する判別工程について説明する。

人の姿勢認識では、未知の姿勢を持つ画像Ｉ_Ｐ′を固有空間に投影し、（１０）式によってセクション番号Ｓ_Ｐ′を得る。次に、Ｓ_Ｐ′を検索キーとしてΤを検索し、候補姿勢ｇ_ｐｒ（ｒ＝１，２，・・・，Ｒ）を得る。
最後に、（１３）式を適用すれば、固有空間データＢを示す点ｈからの距離が最も近い（距離が最小）固有空間データＡを示す点の集合ｇ_ｉが選ばれ、最も近い姿勢ｐ′＝ｐ^＊が得られる。
ｄ_ｐ ^＊＝ｍｉｎ‖ｇ_ｐｒ−ｇ_ｐ‖・・・（１３）
ここでは、Ｒ≪Ｐとなることが期待されるため、検索速度は大幅に改善される。
ただし、Ｒ≪動作データベースに登録されている全基本動作の数である。

このように、対象人が行った動作から、その動作に最も近い基本動作を動作データベースの検索により探すことで、対象人がどの基本動作（類似している動作も含む）を行ったかを認識できる。
なお、未知の動作を認識する場合、画像の前処理により、その動作を表す連続するフレーム画像は、１画像Ｉで圧縮表現されるため、画像Ｉに最も近い圧縮画像が、コンピュータ内の基本動作のデータベースから検索される。このデータベースは、前記したように、Ｂ−ｔｒｅｅ構造を持つため、検索は高速に行われる。従って、画像Ｉと最も距離の短い画像が検索され、この距離がある閾値より小さければ、未知動作は、その動作として判断される。
以上の方法により、データベース検索による動作認識が実現する。

次に、本発明の作用効果を確認するために行った実施例について説明する。
ここでは、本願発明の動体の動作判別方法を適用し、対象人が行った動作から、対象人がどの基本動作を行ったかを認識する方法について説明する。
まず、図１（Ａ）、（Ｂ）、図２（Ａ）、（Ｂ）、図３（Ａ）、（Ｂ）に示すように、人に、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作の各動作を行ってもらい、この動作画像をビデオカメラで連続的に撮影して、コンピュータに入力する。なお、ここでは、説明の便宜上、一方向からのみ撮影した映像を示す。

次に、前記した前処理について説明する。
ここでは、図１〜図３の各基本動作を、その動作ごとに重ね合わせ、図４（Ａ）の（ａ）〜（ｆ）に示す１枚の画像データを得る。なお、図１（Ａ）は図４（Ａ）の（ａ）、図１（Ｂ）は図４（Ａ）の（ｂ）、図２（Ａ）は図４（Ａ）の（ｃ）、図２（Ｂ）は図４（Ａ）の（ｄ）、図３（Ａ）は図４（Ａ）の（ｅ）、および図３（Ｂ）は図４（Ａ）の（ｆ）に、それぞれ対応する。
そして、図４（Ａ）の（ａ）〜（ｆ）の背景画像を削除することで、図４（Ｂ）に示す抽出画像を得た後、前記した正規化を行うことで、図５に示す画像が得られる。

また、前処理は、以下の方法で行うこともできる。
ここでは、図１〜図３の各基本動作を、連続する２つのフレーム画像ごとに重ね合わせ、変化のない部分、例えば人の周囲に存在する背景画像（例えば、壁、床、および空）を減算して削除する。そして、この差分画像をそれぞれ重ね合わせることで、図６（Ａ）に示すように、基本動作の一連の動作が残像として示される１枚の圧縮画像を作成できる。なお、図１（Ａ）は図６（Ａ）の（ａ）、図１（Ｂ）は図６（Ａ）の（ｂ）、図２（Ａ）は図６（Ａ）の（ｃ）、図２（Ｂ）は図６（Ａ）の（ｄ）、図３（Ａ）は図６（Ａ）の（ｅ）、および図３（Ｂ）は図６（Ａ）の（ｆ）に、それぞれ対応する。
そして、図６（Ａ）の（ａ）〜（ｆ）に残存する背景画像を削除することで、図６（Ｂ）に示す抽出画像を得た後、前記した正規化を行うことで、図７に示す画像が得られる。

これにより、各圧縮画像に、動作を認識するのに必要な情報を持たせることができる。
この各フレーム画像データＡからカルーネン・レーベ変換により、固有値および固有ベクトルを計算し、固有空間データＡを作成し、複数の基本動作の固有空間データＡを、記憶手段に格納してデータベース化する。
次に、このデータベース化された固有空間データＡを、木構造に分解（例えば、動体の基本動作をその画像特徴ごとに区分）し、記憶手段に格納してデータベース化する。これにより、固有空間データＡは、例えば、類似画像（同じビンに異なる基本動作が入る場合もある）ごとに分類される。

一方、人の動作については、１台のビデオカメラで対象人を撮影し、動作画像をコンピュータに取り込み、複数のフレーム画像を得る。そして、前記した各フレーム画像データＡと同様の方法で、１画像に圧縮されたフレーム画像データＢを、前記した固有値および固有ベクトルから作成される固有空間に投影して固有空間データＢを得る。
そして、固有空間データＢと基本動作ごとの固有空間データＡとを比較して、固有空間データＢからの距離が最も近い固有空間データＡを選び、これを対象人の３次元的な動作と特定する。
これにより、対象人がどの基本動作（類似している動作も含む）を行ったかを認識できる。

本発明の動体の動作判別方法を、例えば、移動ロボットに搭載することにより、移動ロボットが任意方向から人の動作を認識できるようになる。また、認識方向もわかるので、人物への接近の仕方もわかる。従って、例えば、重い荷物を持って移動する人、具合が悪くなって座り込む人、または足元のおぼつかない高齢者等に近づき、適切な支援を与える機能を持つロボットが実現できる。これにより、安全で安心して暮らせる社会環境が実現できる。

以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載の構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。例えば、前記したそれぞれの実施の形態や変形例の一部または全部を組合せて本発明の動体の動作判別方法を構成する場合も本発明の権利範囲に含まれる。
また、前記実施の形態においては、木構造作成手段による木構造作成工程を行った場合について説明したが、行わなくてもよい。

（Ａ）は人が重たい荷物を持ち上げる基本動作の連続するフレーム画像の説明図、（Ｂ）は人が物を拾う基本動作の連続するフレーム画像の説明図である。（Ａ）は人が腹痛でおなかを抱えて座り込む基本動作の連続するフレーム画像の説明図、（Ｂ）は人が頭上から落ちてくる物を避けようと両手で頭を覆う基本動作の連続するフレーム画像の説明図である。（Ａ）は人が歩く基本動作の連続するフレーム画像の説明図、（Ｂ）は人が転倒する基本動作の連続するフレーム画像の説明図である。（Ａ）は図１〜図３に示す各基本動作ごとの画像の説明図、（Ｂ）は（Ａ）の背景画像を削除した後の画像の説明図である。図４（Ｂ）の画像を正規化した画像の説明図である。（Ａ）は図１〜図３に示す各基本動作ごとの連続する画像を重ね合わせ変化のない部分を削除した後に得られる圧縮画像の説明図、（Ｂ）は（Ａ）の背景画像を削除した後の圧縮画像の説明図である。図６（Ｂ）の画像を正規化した画像の説明図である。

Claims

固有空間データ作成手段により、予め動体の基本動作ごとの複数のフレーム画像データＡがそれぞれ点で表示される固有空間データＡを、該基本動作ごとに作成し記憶手段に格納してデータベース化する固有空間データ作成工程と、判別手段により、判別しようとする対象動体のフレーム画像データＢが点で表示された固有空間データＢと前記基本動作ごとの複数の前記固有空間データＡを比較して、前記固有空間データＢからの距離が最も近い固有空間データＡを選び、前記対象動体の動作を判別する判別工程とを有する動体の動作判別方法であって、
前記基本動作ごとの各フレーム画像データＡは、前記動体に該基本動作を行わせ、該基本動作を行う前記動体を複数の画像入力手段を用いて多方向から撮影し、前処理手段によって、前記画像入力手段ごとに取得した連続する複数のフレーム画像を重ね合わせることで作成される圧縮画像から得ることを特徴とする固有空間を用いた動体の動作判別方法。
請求項１記載の動体の動作判別方法において、前記圧縮画像は、前記複数のフレーム画像のうち連続するまたは間隔を有する２つずつのフレーム画像を重ね合わせ、変化のない部分を削除して得られる複数の差分画像を、それぞれ重ね合わせることで得られることを特徴とする動体の動作判別方法。
請求項１および２のいずれか１項に記載の動体の動作判別方法において、前記固有空間データ作成工程と前記判別工程との間には木構造作成工程が設けられ、前記固有空間データ作成工程でデータベース化された前記固有空間データＡを、前記木構造作成工程の木構造作成手段により、前記動体の基本動作が保有している情報ごとに木構造内に分配し、前記記憶手段に格納して構造化することを特徴とする動体の動作判別方法。
請求項１〜３のいずれか１項に記載の動体の動作判別方法において、前記固有空間データ作成工程での前記動体は疑似人モデルまたは人であり、しかも前記複数の画像入力手段は、前記動体が擬似人モデルの場合は仮想カメラ群、前記動体が人の場合はカメラ群であることを特徴とする動体の動作判別方法。
請求項４記載の動体の動作判別方法において、前記動体は前記擬似人モデルであって、該疑似人モデルの行う基本動作は、モーションキャプチャー法によって得られたものであることを特徴とする固有空間を用いた動体の動作判別方法。
請求項１〜５のいずれか１項に記載の動体の動作判別方法において、前記固有空間データＡは、前記フレーム画像データＡに微分処理を行って作成されることを特徴とする動体の動作判別方法。
請求項１〜６のいずれか１項に記載の動体の動作判別方法において、前記固有空間データＡは、前記フレーム画像データＡをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、前記固有空間データＢは、前記フレーム画像データＢを前記固有空間に投影して得られることを特徴とする動体の動作判別方法。