JP4802330B2 - 動体の動作判別方法 - Google Patents
動体の動作判別方法 Download PDFInfo
- Publication number
- JP4802330B2 JP4802330B2 JP2006355691A JP2006355691A JP4802330B2 JP 4802330 B2 JP4802330 B2 JP 4802330B2 JP 2006355691 A JP2006355691 A JP 2006355691A JP 2006355691 A JP2006355691 A JP 2006355691A JP 4802330 B2 JP4802330 B2 JP 4802330B2
- Authority
- JP
- Japan
- Prior art keywords
- moving object
- eigenspace
- motion
- data
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、任意方向から観察した動体、特に人の動作を認識可能な動体の動作判別方法に関する。
人とロボットが共存する社会では、人のQOL(Quality of Life)を高めるような機能を持つロボットが求められている。具体的には、例えば、重い荷物を持って移動する人、具合が悪くなって座り込む人、または足元のおぼつかない高齢者等に近づき、適切な支援を与えることが可能な機能を持つロボットである。このようなロボットが、基本的に備えるべき機能は、観察方向によらずに、例えば、人の姿勢、動作、または挙動を認識する機能である。
そこで、動作を認識する方法として、3次元復元または3次元モデルフィッティングに基づいて、3次元で処理する方法が知られている(例えば、特許文献1参照)。
そこで、動作を認識する方法として、3次元復元または3次元モデルフィッティングに基づいて、3次元で処理する方法が知られている(例えば、特許文献1参照)。
しかしながら、人物の動作認識は数多く研究されているが、いずれも人の正面像、あるいは側面像のみを対象とする手法で、任意方向から観察して得られる画像を前提とする手法は提案されていない。
また、動体の動作を3次元で処理して判別するため、データ量が多くなり、処理時間が膨大となるという問題もあった。
また、動体の動作を3次元で処理して判別するため、データ量が多くなり、処理時間が膨大となるという問題もあった。
本発明はかかる事情に鑑みてなされたもので、観察方向によらずに、自動かつ高速に、対象動体の動作を認識可能な動体の動作判別方法を提供することを目的とする。
前記目的に沿う本発明に係る動体の動作判別方法は、固有空間データ作成手段により、予め動体の基本動作ごとの複数のフレーム画像データAがそれぞれ点で表示される固有空間データAを、該基本動作ごとに作成し記憶手段に格納してデータベース化する固有空間データ作成工程と、判別手段により、判別しようとする対象動体のフレーム画像データBが点で表示された固有空間データBと前記基本動作ごとの複数の前記固有空間データAを比較して、前記固有空間データBからの距離が最も近い固有空間データAを選び、前記対象動体の動作を判別する判別工程とを有する動体の動作判別方法であって、
前記基本動作ごとの各フレーム画像データAは、前記動体に該基本動作を行わせ、該基本動作を行う前記動体を複数の画像入力手段を用いて多方向から撮影し、前処理手段によって、前記画像入力手段ごとに取得した連続する複数のフレーム画像を重ね合わせることで作成される圧縮画像から得る。
前記基本動作ごとの各フレーム画像データAは、前記動体に該基本動作を行わせ、該基本動作を行う前記動体を複数の画像入力手段を用いて多方向から撮影し、前処理手段によって、前記画像入力手段ごとに取得した連続する複数のフレーム画像を重ね合わせることで作成される圧縮画像から得る。
ここで、圧縮画像とは、複数のフレーム画像を重ね合わせることで、動体の一連の動作が残像として表れた画像を意味する。
また、動体として人を対象とした場合、その基本動作として、例えば、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作等がある。
そして、動体としては、人の他に、動物、車等の乗り物、またはロボット等を適用することができる。
また、動体として人を対象とした場合、その基本動作として、例えば、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作等がある。
そして、動体としては、人の他に、動物、車等の乗り物、またはロボット等を適用することができる。
本発明に係る動体の動作判別方法において、前記圧縮画像は、前記複数のフレーム画像のうち連続するまたは間隔を有する2つずつのフレーム画像を重ね合わせ、変化のない部分を削除して得られる複数の差分画像を、それぞれ重ね合わせることで得られることが好ましい。
ここで、差分画像とは、例えば、2画像間で減算を行い、変化のない画像部分を削除することにより得られる画像であり、このような変化のない画像部分を削除することで、処理するデータ量を少なくできる。
ここで、差分画像とは、例えば、2画像間で減算を行い、変化のない画像部分を削除することにより得られる画像であり、このような変化のない画像部分を削除することで、処理するデータ量を少なくできる。
本発明に係る動体の動作判別方法において、前記固有空間データ作成工程と前記判別工程との間には木構造作成工程が設けられ、前記固有空間データ作成工程でデータベース化された前記固有空間データAを、前記木構造作成工程の木構造作成手段により、前記動体の基本動作が保有している情報ごとに木構造内に分配し(木構造内に記述し)、前記記憶手段に格納して構造化することが好ましい。
ここで、木構造とは、動体の基本動作が保有している情報、例えば、動体の基本動作をその画像特徴ごとに区分する方法であり、例えば、B−tree、B*−tree、またはB+−treeが従来知られている。
ここで、木構造とは、動体の基本動作が保有している情報、例えば、動体の基本動作をその画像特徴ごとに区分する方法であり、例えば、B−tree、B*−tree、またはB+−treeが従来知られている。
本発明に係る動体の動作判別方法において、前記固有空間データ作成工程での前記動体は疑似人モデルまたは人であり、しかも前記複数の画像入力手段は、前記動体が擬似人モデルの場合は仮想カメラ群、前記動体が人の場合はカメラ群であることが好ましい。
ここで、疑似人モデルとは、人の3次元モデルのことであり、一般にアバターといわれる。疑似人モデルを使用することにより、基本動作を行う動体を標準化することができる。
ここで、疑似人モデルとは、人の3次元モデルのことであり、一般にアバターといわれる。疑似人モデルを使用することにより、基本動作を行う動体を標準化することができる。
本発明に係る動体の動作判別方法において、前記動体は前記疑似人モデルであって、該疑似人モデルの行う基本動作は、モーションキャプチャー法によって得られたものであることが好ましい。
ここで、モーションキャプチャー法とは、例えば、光学式、音波(超音波を含む)式、または磁気式等の非接触で計測可能な機器、あるいは機械式のように接触して計測する機器を使用して、人や動物の動きをコンピュータに取り込んで立体化して再現する方法である。
光学式は、動体に、例えば、発光マーカー、反射マーカー、およびパターンマーカー等のいずれかのマーカーを取付けて、複数のカメラ(例えば、CCDカメラ、高速度カメラ、ハンディータイプカメラ、デジタルVTR、およびデジタルビデオカメラのいずれか1または2以上)で動体を撮影し、この映像をコンピュータに入力して、動体の動きを検知することができる。
ここで、モーションキャプチャー法とは、例えば、光学式、音波(超音波を含む)式、または磁気式等の非接触で計測可能な機器、あるいは機械式のように接触して計測する機器を使用して、人や動物の動きをコンピュータに取り込んで立体化して再現する方法である。
光学式は、動体に、例えば、発光マーカー、反射マーカー、およびパターンマーカー等のいずれかのマーカーを取付けて、複数のカメラ(例えば、CCDカメラ、高速度カメラ、ハンディータイプカメラ、デジタルVTR、およびデジタルビデオカメラのいずれか1または2以上)で動体を撮影し、この映像をコンピュータに入力して、動体の動きを検知することができる。
また、音波式では、動体に取付けた超音波の発信器から発信された超音波を、少なくとも3つの超音波受信器で受信し、超音波受信器へ到達する時間の差によって、動体の動きを検知している。音波式では、動体に超音波受信器を取付けてもよい。
更に、磁気式では、動体に磁界を発生する磁界発生器を取付け、磁界中に配置されると電流が流れる磁力計測器によって、誘起された電流の強さから磁界発生器までの距離と方向とを検知して、動体の動きが再現される。
更に、磁気式では、動体に磁界を発生する磁界発生器を取付け、磁界中に配置されると電流が流れる磁力計測器によって、誘起された電流の強さから磁界発生器までの距離と方向とを検知して、動体の動きが再現される。
本発明に係る動体の動作判別方法において、前記固有空間データAは、前記フレーム画像データAに微分処理を行って作成されることが好ましい。
ここで、微分処理は、例えば、ログ(LoG)フィルタまたはソーベルフィルタ等によって行うことができる。ログフィルタは、画像データをぼかして、微分することができる。
ここで、微分処理は、例えば、ログ(LoG)フィルタまたはソーベルフィルタ等によって行うことができる。ログフィルタは、画像データをぼかして、微分することができる。
本発明に係る動体の動作判別方法において、前記固有空間データAは、前記フレーム画像データAをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、前記固有空間データBは、前記フレーム画像データBを前記固有空間に投影して得られることが好ましい。
ここで、カルーネン・レーベ変換は、カルーネン・レーベ展開ともいわれ、高次元の各フレーム画像データを低次元に変換することができる。
ここで、カルーネン・レーベ変換は、カルーネン・レーベ展開ともいわれ、高次元の各フレーム画像データを低次元に変換することができる。
請求項1〜7記載の動体の動作判別方法は、連続する複数のフレーム画像を重ね合わせることで作成される圧縮画像を用いて固有空間を構築するので、処理するデータの量を少なくでき、対象動体の動作を高速に処理できる。また、基本動作として、動体を多方向から撮影した複数のフレーム画像を用いるので、対象動体をどの方向から観察した場合でも、動作を判別することができる。
従って、動体の多数の基本動作を記憶手段に格納することで、例えば、任意方向からの人の動作の認識が可能になる。
従って、動体の多数の基本動作を記憶手段に格納することで、例えば、任意方向からの人の動作の認識が可能になる。
特に、請求項2記載の動体の動作判別方法においては、基本動作ごとの各フレーム画像データAが、差分画像をそれぞれ重ね合わせることで得られるので、処理するデータ量を少なくでき、動作認識の処理時間を更に短くできる。
請求項3記載の動体の動作判別方法においては、固有空間データAを木構造内に分配するので、固有空間データAと固有空間データBとの全てを比較することなく、固有空間データAを選んで対象動体の動作を特定でき、処理速度の更なる高速化を図ることができる。
請求項3記載の動体の動作判別方法においては、固有空間データAを木構造内に分配するので、固有空間データAと固有空間データBとの全てを比較することなく、固有空間データAを選んで対象動体の動作を特定でき、処理速度の更なる高速化を図ることができる。
請求項4記載の動体の動作判別方法においては、基本動作を疑似人モデルに行わせ複数のフレーム画像データAを得た場合、標準化した人のデータとすることができ、体型の違いを無くすことができる。更に、疑似人モデルまたは人を多方向から観察した動作画像を用いるので、対象物体をどの方向から観察した場合でも動作を判別することができる。
請求項5記載の動体の動作判別方法においては、基本動作ごとの複数のフレーム画像データAを得るための疑似人モデルの基本動作が、モーションキャプチャー法によって得られたものであるので、疑似人モデルの動きが滑らかとなり、対象動体の動きとの誤差が少なくなって判別し易くなる。
請求項5記載の動体の動作判別方法においては、基本動作ごとの複数のフレーム画像データAを得るための疑似人モデルの基本動作が、モーションキャプチャー法によって得られたものであるので、疑似人モデルの動きが滑らかとなり、対象動体の動きとの誤差が少なくなって判別し易くなる。
請求項6記載の動体の動作判別方法においては、各フレーム画像データAに微分処理を行って、固有空間データAを作成するので、例えば、服装の違いによる誤差(ノイズ)を減少させることができ、例えば、疑似人モデルをより標準化することができる。
請求項7記載の動体の動作判別方法においては、固有空間データAが、フレーム画像データAをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、固有空間データBも、フレーム画像データBを固有空間に投影して得られるので、次元を低くでき、動作認識の処理時間を短くできる。
請求項7記載の動体の動作判別方法においては、固有空間データAが、フレーム画像データAをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、固有空間データBも、フレーム画像データBを固有空間に投影して得られるので、次元を低くでき、動作認識の処理時間を短くできる。
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
本発明の一実施の形態に係る動体の動作判別方法は、対象動体の一例である対象人が行った動作を、予め登録された動体の一例である人が行った複数の基本動作と比較して、対象人がどの基本動作(類似している動作も含む)を行ったかを認識可能な方法である。以下、詳しく説明する。
本発明の一実施の形態に係る動体の動作判別方法は、対象動体の一例である対象人が行った動作を、予め登録された動体の一例である人が行った複数の基本動作と比較して、対象人がどの基本動作(類似している動作も含む)を行ったかを認識可能な方法である。以下、詳しく説明する。
まず、人が行う基本動作の固有空間データAを作成する固有空間データ作成工程について説明する。
人を中心にして複数台(例えば、4台)のビデオカメラ(画像入力手段の一例:動画が撮影可能であればよい)を配置し、人が行う各基本動作(例えば、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作等)を撮影する。なお、ビデオカメラとしては、例えば、CCDカメラ、高速度カメラ、ハンディータイプカメラ、デジタルVTR、またはデジタルビデオカメラを使用してもよい。ここで、各ビデオカメラは、等距離で等角度に配置されているが、等距離に配置する必要はなく、また等角度に配置する必要もない。
次に、それぞれの基本動作を撮影した映像をコンピュータに取り込む。なお、以下の作業は、コンピュータ内で計算して行われ、コンピュータ内のプログラムにより処理される。
人を中心にして複数台(例えば、4台)のビデオカメラ(画像入力手段の一例:動画が撮影可能であればよい)を配置し、人が行う各基本動作(例えば、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作等)を撮影する。なお、ビデオカメラとしては、例えば、CCDカメラ、高速度カメラ、ハンディータイプカメラ、デジタルVTR、またはデジタルビデオカメラを使用してもよい。ここで、各ビデオカメラは、等距離で等角度に配置されているが、等距離に配置する必要はなく、また等角度に配置する必要もない。
次に、それぞれの基本動作を撮影した映像をコンピュータに取り込む。なお、以下の作業は、コンピュータ内で計算して行われ、コンピュータ内のプログラムにより処理される。
コンピュータ内に取り込まれた画像のうち、各ビデオカメラごとに、例えば、1秒間に1コマ以上50コマ以下の間隔で得られる連続する複数のフレーム画像は、コンピュータ内の前処理手段により重ね合わせられる。このとき、変化のない部分、例えば、人の周囲に存在する背景画像(例えば、壁、床、および空)を削除するが、人の画像についても、動きが無い部分(僅かに動く部分を含んでもよく、また含まなくてもよい)を削除してもよい。なお、複数のフレーム画像は、例えば、2枚ごと、または3枚ごとのように、複数枚ごとに間隔を有するものでもよい。
これにより、基本動作の一連の動作が残像として示される1枚の圧縮された画像を、基本動作の複数のフレーム画像データAとして、コンピュータ内の記憶手段に格納できる。
これにより、基本動作の一連の動作が残像として示される1枚の圧縮された画像を、基本動作の複数のフレーム画像データAとして、コンピュータ内の記憶手段に格納できる。
このとき、前記した複数のフレーム画像を、連続する2つずつのフレーム画像ごとに重ね合わせ、変化のない部分、例えば、人の周囲に存在する背景画像を引き算して削除した後、得られる複数の差分画像をそれぞれ重ね合わせることで、1枚の圧縮画像を得てもよい。
なお、上記した人の行う基本動作の3次元データは、人に実際に動作をしてもらうことで得たが、例えば、コンピュータグラフィクスを用いた疑似人モデルにより作成してもよく、また予めモーションキャプチャー法で解析した疑似人モデルにより作成してもよい。
この場合、人の基本動作を疑似人モデルに行わせ、この疑似人モデルを中心として、水平方向、上方向、および下方向のいずれか1または2以上に配置される多数(例えば、6台以上)の仮想ビデオカメラからなる仮想カメラ群により、疑似人モデルを撮影して、複数のフレーム画像データAを得る。
なお、上記した人の行う基本動作の3次元データは、人に実際に動作をしてもらうことで得たが、例えば、コンピュータグラフィクスを用いた疑似人モデルにより作成してもよく、また予めモーションキャプチャー法で解析した疑似人モデルにより作成してもよい。
この場合、人の基本動作を疑似人モデルに行わせ、この疑似人モデルを中心として、水平方向、上方向、および下方向のいずれか1または2以上に配置される多数(例えば、6台以上)の仮想ビデオカメラからなる仮想カメラ群により、疑似人モデルを撮影して、複数のフレーム画像データAを得る。
ここで、各フレーム画像データAは、基本動作を撮影した動画中の画像の集合であって、1枚の画像データは、例えば、縦が256ピクセル、横が256ピクセルで構成されている場合、総画素数が65536画素、つまり65536(N)次元のベクトルで表現できる。また、例えば、1秒間に15コマで2秒間撮影した場合、1方向から30(P)枚のフレーム画像が得られるが、前記したように、画像の前処理を行うことで、その動作を表す複数のフレーム画像は、1画像で圧縮表現される。
次に、コンピュータ内の固有空間データ作成手段により、予め人の基本動作の各フレーム画像データAが点で表示される固有空間データAを作成する。なお、この固有空間データAの作成は、特願2005−237785の方法と同様の手法で実施できる。
次に、コンピュータ内の固有空間データ作成手段により、予め人の基本動作の各フレーム画像データAが点で表示される固有空間データAを作成する。なお、この固有空間データAの作成は、特願2005−237785の方法と同様の手法で実施できる。
得られた1つの基本動作のフレーム画像データA(以下、単に画像ともいう)に対し、正規化を行い、従来公知のTVラスタースキャンと同様の方法で走査して、(1)式に示すベクトルを得る。
xp=(x1,x2,・・・,xN)T・・・(1)
ここで、ベクトルの各要素は、スキャンした順番で並んでいる画素数である。なお、Nはピクセル数を示し、Tは転置を示し、またxpは‖xp‖=1となるように正規化されている。
次に、N行P列の行列Xを、(2)式のように定義する。
X≡(x1−c,x2−c,・・・,xP−c)・・・(2)
なお、Pは、1動作の画像の数である。
ここで、cは画像の平均値であり、(3)式で計算される。
xp=(x1,x2,・・・,xN)T・・・(1)
ここで、ベクトルの各要素は、スキャンした順番で並んでいる画素数である。なお、Nはピクセル数を示し、Tは転置を示し、またxpは‖xp‖=1となるように正規化されている。
次に、N行P列の行列Xを、(2)式のように定義する。
X≡(x1−c,x2−c,・・・,xP−c)・・・(2)
なお、Pは、1動作の画像の数である。
ここで、cは画像の平均値であり、(3)式で計算される。
また、共分散行列Qは、行列Xより(4)式で定義される。
Q=XXT・・・(4)
Q=XXT・・・(4)
カルーネン・レーベ変換により、(5)式を用いて共分散行列Qの固有値λ1,λ2,・・・,λNを求める。但し、λ1>λ2>・・・>λNである。
Qu=λu・・・(5)
ここで、uはN個の成分を持つベクトルである。
得られた固有値λ1,λ2,・・・,λNから、固有ベクトルe1,e2,・・・,eNが求められる。
Qu=λu・・・(5)
ここで、uはN個の成分を持つベクトルである。
得られた固有値λ1,λ2,・・・,λNから、固有ベクトルe1,e2,・・・,eNが求められる。
ここで、固有ベクトルのk個の最大固有値λ1,λ2,・・・,λk、および、それに対応する固定ベクトルe1,e2,・・・,ekを選択し、k個の固有ベクトルの張る空間、即ち、(6)式に示すk次元の固有空間ESを作成する。
ES(e1,e2,・・・,ek)≡ES・・・(6)
なお、k≪Nであり、固有空間ES上に画像データを写像する変換行列Eは、(7)式で示される。例えば、kを100とした場合には、N次元からk次元、すなわち、65536次元から100次元に次元を下げることができる。
E=(e1,e2,・・・,ek)・・・(7)
ES(e1,e2,・・・,ek)≡ES・・・(6)
なお、k≪Nであり、固有空間ES上に画像データを写像する変換行列Eは、(7)式で示される。例えば、kを100とした場合には、N次元からk次元、すなわち、65536次元から100次元に次元を下げることができる。
E=(e1,e2,・・・,ek)・・・(7)
ここで、(8)式により、各フレーム画像データAを固有空間ES上に投影して、固有空間データAとして点の集合gpを得る。
gp=(e1,e2,・・・,ek)Txp・・・(9)
このようにして、人の姿勢は、固有空間上で単なる点として登録される。
この得られた点の集合gpを、記憶手段に格納してデータベース化する。
なお、固有空間データAの作成に際しては、事前に、コンピュータ内に取り込まれた画像の各フレーム画像データAのそれぞれの画像データを、従来公知のログフィルタにかけ、各フレーム画像データAをぼかして微分処理してもよい。
gp=(e1,e2,・・・,ek)Txp・・・(9)
このようにして、人の姿勢は、固有空間上で単なる点として登録される。
この得られた点の集合gpを、記憶手段に格納してデータベース化する。
なお、固有空間データAの作成に際しては、事前に、コンピュータ内に取り込まれた画像の各フレーム画像データAのそれぞれの画像データを、従来公知のログフィルタにかけ、各フレーム画像データAをぼかして微分処理してもよい。
以下、同様に他の方向から撮影した基本動作のフレーム画像データAからそれぞれ固有空間データAを作成し、得られた点の集合を、記憶手段に格納してデータベース化する。
また、複数の基本動作の全てのフレーム画像データAから、同様にして固有空間データAを作成し、記憶手段に格納してデータベース化する。
次に、以上に示した固有空間データ作成手段でデータベース化された固有空間データAを、コンピュータ内の木構造作成手段により、人の基本動作が保有している情報ごとに木構造内に分配する木構造作成工程について説明する。なお、木構造としては、例えば、B−tree、B*−tree、またはB+−treeが従来知られている。
また、複数の基本動作の全てのフレーム画像データAから、同様にして固有空間データAを作成し、記憶手段に格納してデータベース化する。
次に、以上に示した固有空間データ作成手段でデータベース化された固有空間データAを、コンピュータ内の木構造作成手段により、人の基本動作が保有している情報ごとに木構造内に分配する木構造作成工程について説明する。なお、木構造としては、例えば、B−tree、B*−tree、またはB+−treeが従来知られている。
固有空間に対して、B−treeを適用するという考えは、固有空間を複数に分割し、点として表現された姿勢をそれぞれ格納するビン(貯蔵箱:人の基本動作が所有している情報ごとに分解され構成される木構造群)を作り、入力された未知の姿勢と似た画像の格納されたビンを高速に探し出すことにある。
B−tree構造を固有空間に導入して、固有空間の構造化を行うことにより、圧縮画像が点として表現された固有空間は、複数のビンに分けられ、ビンはB−tree構造で表現される。
なお、人の動作を表すこの固有空間を、動作データベースと呼ぶ。
B−tree構造を固有空間に導入して、固有空間の構造化を行うことにより、圧縮画像が点として表現された固有空間は、複数のビンに分けられ、ビンはB−tree構造で表現される。
なお、人の動作を表すこの固有空間を、動作データベースと呼ぶ。
ここで、B−treeについて説明する。
以下の条件を満たすものを、τ(m,H)に属するB−tree Τという。ここで、mは、根(ルート)または節(ノード)が持つことのできる子供の数である。また、Hは木の高さを表し、検索速度に関係する。
1.根は葉であるか、または2〜m個の子を持つ。
2.根、葉以外の節は、[m/2]〜m個の子を持つ。ただし、[x]はx以下の最大の整数を表す。
3.根からすべての葉までの経路の長さは等しい。
B−treeでは、格納するデータから造られる「境界を表す値」、即ちキーが重要な意味を持ち、このキーによって根や節が構築される。このキーは、大小比較することが可能なスカラー値である。また、データは、葉のみに格納される。
以下の条件を満たすものを、τ(m,H)に属するB−tree Τという。ここで、mは、根(ルート)または節(ノード)が持つことのできる子供の数である。また、Hは木の高さを表し、検索速度に関係する。
1.根は葉であるか、または2〜m個の子を持つ。
2.根、葉以外の節は、[m/2]〜m個の子を持つ。ただし、[x]はx以下の最大の整数を表す。
3.根からすべての葉までの経路の長さは等しい。
B−treeでは、格納するデータから造られる「境界を表す値」、即ちキーが重要な意味を持ち、このキーによって根や節が構築される。このキーは、大小比較することが可能なスカラー値である。また、データは、葉のみに格納される。
このB−treeを固有空間に適用するときは、それぞれの固有空間上の座標値ek(k=1,2,・・・,K)を、R個のある幅Lを持ったセクションに分割し、木構造群を作成する。
ここで、画像IPが式(9)によって固有空間の点g=(g1,g2,・・・,gK)に投影されると、gk(k=1,2,・・・,K)は、いずれかのセクションに含まれるから、そのセクションの固有の番号Sk,r(r=0,1,・・・,R−1)が与えられる。
この結果gは、式(10)によって、K桁R進数であるSpに変換される。
SP=S1,r1S2,r2S3,r3・・・SK,rK・・・(10)
これにより、画像は、SPをキーとして、木構造であるB−tree Τに分配されて格納されるので、これを、記憶手段に格納して、構造化する。
以上の方法により、人の各基本動作がデータベース化される。
ここで、画像IPが式(9)によって固有空間の点g=(g1,g2,・・・,gK)に投影されると、gk(k=1,2,・・・,K)は、いずれかのセクションに含まれるから、そのセクションの固有の番号Sk,r(r=0,1,・・・,R−1)が与えられる。
この結果gは、式(10)によって、K桁R進数であるSpに変換される。
SP=S1,r1S2,r2S3,r3・・・SK,rK・・・(10)
これにより、画像は、SPをキーとして、木構造であるB−tree Τに分配されて格納されるので、これを、記憶手段に格納して、構造化する。
以上の方法により、人の各基本動作がデータベース化される。
次に、前記したコンピュータ内の固有空間データ作成手段により、判別しようとする対象人のフレーム画像データBが点で表示された固有空間データBを作成する。
まず、対象人の動作を1台のビデオカメラで撮影する。
動作画像をコンピュータに取り込み、(11)式に示す各フレーム画像データBの集合yを得る。
y=(y1,y2,・・・,yP)・・・(11)
そして、前記した固有空間データAの前処理と同様の方法により、その動作を表す連続フレームを圧縮表現して1画像とすることで、フレーム画像データBが作成される。
まず、対象人の動作を1台のビデオカメラで撮影する。
動作画像をコンピュータに取り込み、(11)式に示す各フレーム画像データBの集合yを得る。
y=(y1,y2,・・・,yP)・・・(11)
そして、前記した固有空間データAの前処理と同様の方法により、その動作を表す連続フレームを圧縮表現して1画像とすることで、フレーム画像データBが作成される。
更に、前記した固有値および固有ベクトルから作成される固有空間ESに、(12)式を用いて、フレーム画像データB(y´と表記)を投影し、固有空間データBである点hを得る。
h=ETy´=(e1,e2,・・・,ek)Ty´・・・(12)
そして、コンピュータ内の判別手段により、固有空間データBと、木構造作成手段でデータベース化された人の基本動作ごとの固有空間データAとを比較する判別工程について説明する。
h=ETy´=(e1,e2,・・・,ek)Ty´・・・(12)
そして、コンピュータ内の判別手段により、固有空間データBと、木構造作成手段でデータベース化された人の基本動作ごとの固有空間データAとを比較する判別工程について説明する。
人の姿勢認識では、未知の姿勢を持つ画像IP′を固有空間に投影し、(10)式によってセクション番号SP′を得る。次に、SP′を検索キーとしてΤを検索し、候補姿勢gpr(r=1,2,・・・,R)を得る。
最後に、(13)式を適用すれば、固有空間データBを示す点hからの距離が最も近い(距離が最小)固有空間データAを示す点の集合giが選ばれ、最も近い姿勢p′=p*が得られる。
dp *=min‖gpr−gp‖・・・(13)
ここでは、R≪Pとなることが期待されるため、検索速度は大幅に改善される。
ただし、R≪動作データベースに登録されている全基本動作の数である。
最後に、(13)式を適用すれば、固有空間データBを示す点hからの距離が最も近い(距離が最小)固有空間データAを示す点の集合giが選ばれ、最も近い姿勢p′=p*が得られる。
dp *=min‖gpr−gp‖・・・(13)
ここでは、R≪Pとなることが期待されるため、検索速度は大幅に改善される。
ただし、R≪動作データベースに登録されている全基本動作の数である。
このように、対象人が行った動作から、その動作に最も近い基本動作を動作データベースの検索により探すことで、対象人がどの基本動作(類似している動作も含む)を行ったかを認識できる。
なお、未知の動作を認識する場合、画像の前処理により、その動作を表す連続するフレーム画像は、1画像Iで圧縮表現されるため、画像Iに最も近い圧縮画像が、コンピュータ内の基本動作のデータベースから検索される。このデータベースは、前記したように、B−tree構造を持つため、検索は高速に行われる。従って、画像Iと最も距離の短い画像が検索され、この距離がある閾値より小さければ、未知動作は、その動作として判断される。
以上の方法により、データベース検索による動作認識が実現する。
なお、未知の動作を認識する場合、画像の前処理により、その動作を表す連続するフレーム画像は、1画像Iで圧縮表現されるため、画像Iに最も近い圧縮画像が、コンピュータ内の基本動作のデータベースから検索される。このデータベースは、前記したように、B−tree構造を持つため、検索は高速に行われる。従って、画像Iと最も距離の短い画像が検索され、この距離がある閾値より小さければ、未知動作は、その動作として判断される。
以上の方法により、データベース検索による動作認識が実現する。
次に、本発明の作用効果を確認するために行った実施例について説明する。
ここでは、本願発明の動体の動作判別方法を適用し、対象人が行った動作から、対象人がどの基本動作を行ったかを認識する方法について説明する。
まず、図1(A)、(B)、図2(A)、(B)、図3(A)、(B)に示すように、人に、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作の各動作を行ってもらい、この動作画像をビデオカメラで連続的に撮影して、コンピュータに入力する。なお、ここでは、説明の便宜上、一方向からのみ撮影した映像を示す。
ここでは、本願発明の動体の動作判別方法を適用し、対象人が行った動作から、対象人がどの基本動作を行ったかを認識する方法について説明する。
まず、図1(A)、(B)、図2(A)、(B)、図3(A)、(B)に示すように、人に、重たい荷物を持ち上げる動作、物を拾う動作、腹痛でおなかを抱えて座り込む動作、頭上から落ちてくる物を避けようと両手で頭を覆う動作、歩く動作、および転倒する動作の各動作を行ってもらい、この動作画像をビデオカメラで連続的に撮影して、コンピュータに入力する。なお、ここでは、説明の便宜上、一方向からのみ撮影した映像を示す。
次に、前記した前処理について説明する。
ここでは、図1〜図3の各基本動作を、その動作ごとに重ね合わせ、図4(A)の(a)〜(f)に示す1枚の画像データを得る。なお、図1(A)は図4(A)の(a)、図1(B)は図4(A)の(b)、図2(A)は図4(A)の(c)、図2(B)は図4(A)の(d)、図3(A)は図4(A)の(e)、および図3(B)は図4(A)の(f)に、それぞれ対応する。
そして、図4(A)の(a)〜(f)の背景画像を削除することで、図4(B)に示す抽出画像を得た後、前記した正規化を行うことで、図5に示す画像が得られる。
ここでは、図1〜図3の各基本動作を、その動作ごとに重ね合わせ、図4(A)の(a)〜(f)に示す1枚の画像データを得る。なお、図1(A)は図4(A)の(a)、図1(B)は図4(A)の(b)、図2(A)は図4(A)の(c)、図2(B)は図4(A)の(d)、図3(A)は図4(A)の(e)、および図3(B)は図4(A)の(f)に、それぞれ対応する。
そして、図4(A)の(a)〜(f)の背景画像を削除することで、図4(B)に示す抽出画像を得た後、前記した正規化を行うことで、図5に示す画像が得られる。
また、前処理は、以下の方法で行うこともできる。
ここでは、図1〜図3の各基本動作を、連続する2つのフレーム画像ごとに重ね合わせ、変化のない部分、例えば人の周囲に存在する背景画像(例えば、壁、床、および空)を減算して削除する。そして、この差分画像をそれぞれ重ね合わせることで、図6(A)に示すように、基本動作の一連の動作が残像として示される1枚の圧縮画像を作成できる。なお、図1(A)は図6(A)の(a)、図1(B)は図6(A)の(b)、図2(A)は図6(A)の(c)、図2(B)は図6(A)の(d)、図3(A)は図6(A)の(e)、および図3(B)は図6(A)の(f)に、それぞれ対応する。
そして、図6(A)の(a)〜(f)に残存する背景画像を削除することで、図6(B)に示す抽出画像を得た後、前記した正規化を行うことで、図7に示す画像が得られる。
ここでは、図1〜図3の各基本動作を、連続する2つのフレーム画像ごとに重ね合わせ、変化のない部分、例えば人の周囲に存在する背景画像(例えば、壁、床、および空)を減算して削除する。そして、この差分画像をそれぞれ重ね合わせることで、図6(A)に示すように、基本動作の一連の動作が残像として示される1枚の圧縮画像を作成できる。なお、図1(A)は図6(A)の(a)、図1(B)は図6(A)の(b)、図2(A)は図6(A)の(c)、図2(B)は図6(A)の(d)、図3(A)は図6(A)の(e)、および図3(B)は図6(A)の(f)に、それぞれ対応する。
そして、図6(A)の(a)〜(f)に残存する背景画像を削除することで、図6(B)に示す抽出画像を得た後、前記した正規化を行うことで、図7に示す画像が得られる。
これにより、各圧縮画像に、動作を認識するのに必要な情報を持たせることができる。
この各フレーム画像データAからカルーネン・レーベ変換により、固有値および固有ベクトルを計算し、固有空間データAを作成し、複数の基本動作の固有空間データAを、記憶手段に格納してデータベース化する。
次に、このデータベース化された固有空間データAを、木構造に分解(例えば、動体の基本動作をその画像特徴ごとに区分)し、記憶手段に格納してデータベース化する。これにより、固有空間データAは、例えば、類似画像(同じビンに異なる基本動作が入る場合もある)ごとに分類される。
この各フレーム画像データAからカルーネン・レーベ変換により、固有値および固有ベクトルを計算し、固有空間データAを作成し、複数の基本動作の固有空間データAを、記憶手段に格納してデータベース化する。
次に、このデータベース化された固有空間データAを、木構造に分解(例えば、動体の基本動作をその画像特徴ごとに区分)し、記憶手段に格納してデータベース化する。これにより、固有空間データAは、例えば、類似画像(同じビンに異なる基本動作が入る場合もある)ごとに分類される。
一方、人の動作については、1台のビデオカメラで対象人を撮影し、動作画像をコンピュータに取り込み、複数のフレーム画像を得る。そして、前記した各フレーム画像データAと同様の方法で、1画像に圧縮されたフレーム画像データBを、前記した固有値および固有ベクトルから作成される固有空間に投影して固有空間データBを得る。
そして、固有空間データBと基本動作ごとの固有空間データAとを比較して、固有空間データBからの距離が最も近い固有空間データAを選び、これを対象人の3次元的な動作と特定する。
これにより、対象人がどの基本動作(類似している動作も含む)を行ったかを認識できる。
そして、固有空間データBと基本動作ごとの固有空間データAとを比較して、固有空間データBからの距離が最も近い固有空間データAを選び、これを対象人の3次元的な動作と特定する。
これにより、対象人がどの基本動作(類似している動作も含む)を行ったかを認識できる。
本発明の動体の動作判別方法を、例えば、移動ロボットに搭載することにより、移動ロボットが任意方向から人の動作を認識できるようになる。また、認識方向もわかるので、人物への接近の仕方もわかる。従って、例えば、重い荷物を持って移動する人、具合が悪くなって座り込む人、または足元のおぼつかない高齢者等に近づき、適切な支援を与える機能を持つロボットが実現できる。これにより、安全で安心して暮らせる社会環境が実現できる。
以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載の構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。例えば、前記したそれぞれの実施の形態や変形例の一部または全部を組合せて本発明の動体の動作判別方法を構成する場合も本発明の権利範囲に含まれる。
また、前記実施の形態においては、木構造作成手段による木構造作成工程を行った場合について説明したが、行わなくてもよい。
また、前記実施の形態においては、木構造作成手段による木構造作成工程を行った場合について説明したが、行わなくてもよい。
Claims (7)
- 固有空間データ作成手段により、予め動体の基本動作ごとの複数のフレーム画像データAがそれぞれ点で表示される固有空間データAを、該基本動作ごとに作成し記憶手段に格納してデータベース化する固有空間データ作成工程と、判別手段により、判別しようとする対象動体のフレーム画像データBが点で表示された固有空間データBと前記基本動作ごとの複数の前記固有空間データAを比較して、前記固有空間データBからの距離が最も近い固有空間データAを選び、前記対象動体の動作を判別する判別工程とを有する動体の動作判別方法であって、
前記基本動作ごとの各フレーム画像データAは、前記動体に該基本動作を行わせ、該基本動作を行う前記動体を複数の画像入力手段を用いて多方向から撮影し、前処理手段によって、前記画像入力手段ごとに取得した連続する複数のフレーム画像を重ね合わせることで作成される圧縮画像から得ることを特徴とする固有空間を用いた動体の動作判別方法。 - 請求項1記載の動体の動作判別方法において、前記圧縮画像は、前記複数のフレーム画像のうち連続するまたは間隔を有する2つずつのフレーム画像を重ね合わせ、変化のない部分を削除して得られる複数の差分画像を、それぞれ重ね合わせることで得られることを特徴とする動体の動作判別方法。
- 請求項1および2のいずれか1項に記載の動体の動作判別方法において、前記固有空間データ作成工程と前記判別工程との間には木構造作成工程が設けられ、前記固有空間データ作成工程でデータベース化された前記固有空間データAを、前記木構造作成工程の木構造作成手段により、前記動体の基本動作が保有している情報ごとに木構造内に分配し、前記記憶手段に格納して構造化することを特徴とする動体の動作判別方法。
- 請求項1〜3のいずれか1項に記載の動体の動作判別方法において、前記固有空間データ作成工程での前記動体は疑似人モデルまたは人であり、しかも前記複数の画像入力手段は、前記動体が擬似人モデルの場合は仮想カメラ群、前記動体が人の場合はカメラ群であることを特徴とする動体の動作判別方法。
- 請求項4記載の動体の動作判別方法において、前記動体は前記擬似人モデルであって、該疑似人モデルの行う基本動作は、モーションキャプチャー法によって得られたものであることを特徴とする固有空間を用いた動体の動作判別方法。
- 請求項1〜5のいずれか1項に記載の動体の動作判別方法において、前記固有空間データAは、前記フレーム画像データAに微分処理を行って作成されることを特徴とする動体の動作判別方法。
- 請求項1〜6のいずれか1項に記載の動体の動作判別方法において、前記固有空間データAは、前記フレーム画像データAをカルーネン・レーベ変換して求められた固有値および固有ベクトルから作成される固有空間に投影して得られ、前記固有空間データBは、前記フレーム画像データBを前記固有空間に投影して得られることを特徴とする動体の動作判別方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006355691A JP4802330B2 (ja) | 2006-12-28 | 2006-12-28 | 動体の動作判別方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006355691A JP4802330B2 (ja) | 2006-12-28 | 2006-12-28 | 動体の動作判別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008165581A JP2008165581A (ja) | 2008-07-17 |
JP4802330B2 true JP4802330B2 (ja) | 2011-10-26 |
Family
ID=39694970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006355691A Active JP4802330B2 (ja) | 2006-12-28 | 2006-12-28 | 動体の動作判別方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4802330B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103308539B (zh) * | 2012-03-12 | 2017-04-12 | 日本株式会社日立高新技术科学 | 荧光x射线分析装置和荧光x射线分析方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329247A (ja) * | 1995-05-30 | 1996-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 動画像認識装置 |
JPH103544A (ja) * | 1996-06-14 | 1998-01-06 | Imeeji Joho Kagaku Kenkyusho | ジェスチャ認識装置 |
JPH10334270A (ja) * | 1997-05-28 | 1998-12-18 | Mitsubishi Electric Corp | 動作認識装置及び動作認識プログラムを記録した記録媒体 |
JP2002374520A (ja) * | 2001-06-14 | 2002-12-26 | Hitachi Ltd | 動画像表示方法、映像による監視装置 |
JP4050587B2 (ja) * | 2002-10-28 | 2008-02-20 | 日本電信電話株式会社 | 物体識別装置、物体識別方法、この方法のプログラム、およびこのプログラムを記録した記録媒体 |
JP2004220138A (ja) * | 2003-01-10 | 2004-08-05 | Mitsubishi Heavy Ind Ltd | 画像認識装置、及び、画像学習装置 |
JP4199594B2 (ja) * | 2003-05-28 | 2008-12-17 | 日本電信電話株式会社 | オブジェクト識別装置およびそのプログラムとそのプログラムを記録した記録媒体 |
JP4061377B2 (ja) * | 2003-09-12 | 2008-03-19 | 独立行政法人産業技術総合研究所 | 3次元データからの特徴抽出装置 |
-
2006
- 2006-12-28 JP JP2006355691A patent/JP4802330B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008165581A (ja) | 2008-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11360571B2 (en) | Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data | |
JP4930854B2 (ja) | 関節物体位置姿勢推定装置及びその方法ならびにプログラム | |
KR101355974B1 (ko) | 복수의 객체를 추적하는 객체 추적 방법 및 장치 | |
US11270461B2 (en) | System and method for posture sequence on video from mobile terminals | |
CN110060284B (zh) | 一种基于触觉感知的双目视觉环境探测系统及方法 | |
CN110633736A (zh) | 一种基于多源异构数据融合的人体跌倒检测方法 | |
JP5699697B2 (ja) | ロボット装置、位置姿勢検出装置、位置姿勢検出プログラム、および位置姿勢検出方法 | |
JP6773829B2 (ja) | 対象物認識装置、対象物認識方法、及び対象物認識プログラム | |
US8599278B2 (en) | Method for estimating a plane in a range image and range image camera | |
EP2610783A2 (en) | Object recognition method and descriptor for object recognition | |
JP2017205135A (ja) | 個人識別装置、個人識別方法、及び、個人識別プログラム | |
JP2004301607A (ja) | 移動物体検出装置、移動物体検出方法及び移動物体検出プログラム | |
JP4802330B2 (ja) | 動体の動作判別方法 | |
JP7385747B2 (ja) | 物体の把持点の三次元位置、ローカル参照フレーム及び把持パターンを求める方法及びシステム | |
JP2006215743A (ja) | 画像処理装置及び画像処理方法 | |
Arowolo et al. | Development of a human posture recognition system for surveillance application | |
Nie et al. | A child caring robot for the dangerous behavior detection based on the object recognition and human action recognition | |
JPH06213632A (ja) | 画像計測装置 | |
JP5078017B2 (ja) | 動体の動作認識方法 | |
Baranwal et al. | Abnormal motion detection in real time using video surveillance and body sensors | |
Wong et al. | Enhanced classification of abnormal gait using BSN and depth | |
Ghalleb et al. | Contribution to the fusion of soft facial and body biometrics for remote people identification | |
JP5061808B2 (ja) | 感情判定方法 | |
JP4934810B2 (ja) | モーションキャプチャ方法 | |
JP6265370B2 (ja) | 対象物追跡方法及び対象物追跡システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110712 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |