JP2008165578A

JP2008165578A - 動体の動作表現方法および動作認識方法

Info

Publication number: JP2008165578A
Application number: JP2006355662A
Authority: JP
Inventors: Seiji Ishikawa; 聖二石川; Juukui Tan; ジュークイタン; Taketo Ogata; 健人緒方
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2008-07-17
Anticipated expiration: 2026-12-28
Also published as: JP4929460B2

Abstract

【課題】従来法で表現が困難であった映像中の人物などの動作を表現するための方法、およびこれを用いた動作の認識方法を提供する。
【解決手段】入力された時系列画像の連続する２枚の画像（映像入力）から動体の動きベクトルを計算し（動きベクトル生成）、この動きベクトル成分を異なる複数方向にそれぞれ動きのみを表現する複数種類の画像に分解し（動きベクトル分解）、該複数種類の画像をそれぞれ独立して時間軸方向に重みを付けて重ね合わせ画像を形成する（重ね合わせ画像生成）動作の表現方法認識、並びに、この重ね合わせ画像から特徴ベクトル（特徴量）を抽出し（特徴ベクトル抽出）および認識を行う前に予め用意していたテンプレート画像の特徴ベクトルとのパターンマッチングによって、動体の動作を認識する（動作認識）動作認識方法。
【選択図】図１

Description

本発明は、カメラによって撮像された映像、動画像に映る人物などの動きの画像をコンピュータによって自動で認識する動作認識方法およびこれに使用可能な動体の動作表現方法に関する。

従来、人物などの動作認識のための動作表現方法の一つとして、例えば、特許文献１または非特許文献１には、一定期間の動き情報を重ねて表現するモーションヒストリーイメージ法（以下、単に「ＭＨＩ」いう）が提案されている。これは、対象となる動体の複数の画像から動体動作を認識する場合に、新しい画像ほど明るく、過去の画像ほど暗く表示し、時系列画像として表現される人物（動体）の動きを二次元画像に圧縮する表現方法である。即ち、一定期間の時系列画像から動いている部分を抽出し、重みを付け重ね合わせた画像で表現する方法であり、この重ね合わせ画像は、得られた時系列画像の連続する２枚の画像を差分し、画素値の変化があった部分を閾値処理によって抽出し、抽出した部分にある値を持たせ、それ以外の部分は現在の重みが０以上であれば１減らすことを繰り返すことによって得られる。
そして、これらの画像の動作認識にあっては、認識したい動作を行う人物などを含む画像から以上の方法によって求められた画像と、予め取得していた動作のテンプレート画像（即ち、学習画像）とのパターンマッチングを行って、該当人物の動作認識を行っている。

米国特許第６６５４４８３号公報エー・エフ・ボビック（A.F. Bobick）とジェイ・ダブル・ダビス（J.W. Davis）著、「テンポラルテンプレートを用いた人の動作認識（The Recognition of Human Movement Using Temporal Templates）」、IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI)、Vol.23、No.3、2001年、p.257-267

しかしながら、特許文献１および非特許文献１で開示されている動作表現方法は、動きの変化が激しい場合、新しい動きが次々と上書きされ古い動きが消されてしまうため、複雑な動きを表現するのに適しておらず、認識精度が劣化するという問題がある。
また、以上の例に使用されているＭＨＩはフレーム間差分画像を２値化した画像から生成するため、閾値の設定によっては、同じ動作でも異なるＭＨＩが生成されてしまうという問題がある。また、フレーム間差分で得られる動き情報には動作認識の対象となる人とカメラの相対的な移動情報も含まれるため、同じ動作でも対象者の移動速度の違いやカメラの移動によって、生成されるＭＨＩが異なるという問題がある。

本発明はかかる事情に鑑みてなされたもので、このような従来法で表現が困難であった映像中の人物などの動作を表現するための動体の動作表現方法、およびこれを用いた動作の認識方法を提供することを目的とする。

前記目的に沿う第１の発明に係る動きの情報に着目した動体の動作表現方法は、入力された時系列画像の連続する２枚の画像から動体（即ち、局所領域）の動きベクトルを計算し、この動きベクトル成分を異なる複数方向にそれぞれ動きのみを表現する複数種類の画像に分解し、該複数種類の画像をそれぞれ独立して時間軸方向に重みを付けて重ね合わせ画像を形成する。
ここで、第１の発明において、前記異なる複数方向は、前記動きベクトルの画像に対して上下左右の４方向であるのが好ましい。また、動きベクトルを複数方向に分解して表現する以外の具体的処方については従来技術が適用可能である。
この場合、ＭＨＩ（正確にはＤＭＨＩ）に処理するデータは動きベクトル（フレーム画像ではない）であるから、単なるフレーム画像と異なり、閾値は必ずしも必要でない。

また、前記目的に沿う第２の発明に係る動体の動作認識方法は、認識したい動作を行う動体を含む画像から第１の発明に係る動体の動作表現方法によって得られた前記重ね合わせ画像、および認識を行う前に予め用意していたテンプレート画像のパターンマッチングによって、前記動体の動作を認識する。なお、双方の特徴量を抽出してパターンマッチングを行う方がデータ処理がより簡単となる。
そして、この動体の動作認識方法において、前記テンプレート画像は、既知の動作を行う動体を含む映像から前記動作表現方法によって得られる重ね合わせ画像からなるのが好ましい。これによって同一処理物の比較となるので、認識精度が向上する。

請求項１、２記載の動体の動作表示方法においては、一定期間内の複数方向（例えば、上下左右の４方向）の動きの履歴を画像として表現することによって、動体、例えば人などの複雑な動作を、従来法より更に詳しく表現できる。
そして、請求項３〜５記載の動体の動作認識方法においては、上記のような動体の動作表現方法を用いることによって、更に認識率の向上を図ることが可能となるとともに、観察方向に依存しない動作認識が可能となる。

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
ここで、図１は本発明の一実施の形態に係る動体の動作認識方法を適用した動作認識装置の構成図、図２はフレーム画像の説明図（写真を含む）、図３は差分画像の説明図、図４は本発明の一実施の形態に係る動体の動作表示方法の説明用写真、図５は同方法の説明用写真、図６はフーモーメント処理の説明図、図７は実施例の状況を示すカメラ配置図、図８は動体（人物）の各動作を示す写真、図９は実施例で用いた各動作から生成されるＭＨＩとＤＭＨＩの例を示す写真である。

本発明の一実施の形態に係る動体の動作認識方法では、動体の一例である人の動作を対象としてその表現の認識を行う場合について説明する。
図1に示すように、本発明の一実施の形態に係る動作認識方法を適用した動作認識装置１０は、映像データを入力する映像入力部１１と、映像入力部１１に記憶されている画像データから動きベクトルを生成する動きベクトル生成部１２と、動きベクトル生成部１２によって処理された動きベクトルの動作を複数方向（即ち、上下左右）に分解する動きベクトル分解部１３と、動きベクトル分解部１３によって分解された上下左右の各画像からモーションヒストリーイメージを作成する重ね合わせ画像生成部１４と、重ね合わせ画像生成部１４から特徴ベクトルを抽出する特徴ベクトル抽出部１５と、特徴ベクトル抽出部１５の画像を学習データ（テンプレート画像）と比較して人の動作を決定する動作認識部１６とを備えている。以下、これらについて詳細に説明する。

映像入力部１１は、ビデオカメラからの映像信号、またはパーソナルコンピュータのハードディスク内の映像データベースからの映像（画像）データを、時系列の連続映像として入力する。
この様子を図２に示すが、映像データは、幅がＷ、高さがＨで撮影した映像（動画像）のある時点ｔにおけるフレーム画像の集合からなり、各フレーム画像は、Ｗ×Ｈ個の画素（ピクセル）を持つ。従って、映像データは、画像の左上を原点としてそこから右にx、下にy画素分だけ進んだ場所にあるピクセルがｆ（ｘ，ｙ，ｔ）と表わされる。このｆ（ｘ，ｙ，ｔ）は例えば０〜２５５の値を持ち、２５５が真っ白、０が真っ黒で、その間の場合は０に近いほど黒く、２５５に近いほど白くなる（グレイスケール画像）。従って、図２では壁の部分におけるｆ（ｘ，ｙ，ｔ）は２５５に近い値を持ち、人の髪の毛やズボンの部分のｆ（ｘ，ｙ，ｔ）は０に近い値を持つことになる。

ここで、まず画像の差分について説明する。いま、幅Ｗ、高さＨで撮影した映像（動画像）から、ｔ時点でのフレーム画像とｔ−１時点でのフレーム画像を取り出して、その差分をとることを考える。画像間の差分とは、同じ位置のピクセル値の差をとることである。取り出した２枚の画像において、左上の原点から右にｘ、下にｙ画素の位置にある画素は、ｆ（ｘ，ｙ，ｔ）およびｆ（ｘ，ｙ，ｔ−１）で表現できるので、その差分は、単純に｜ｆ（ｘ，ｙ，ｔ）−ｆ（ｘ，ｙ，ｔ−１）｜となる。これを原点から1画素ずつ計算し、その結果を画素値とする画像を生成すれば、画素値が０に近いと黒くなるので、２つの画像の間で変化のない部分は黒く、逆に動きがある部分は画素値が大きくなるので白くなる画像が生成できる。これを差分画像と呼び、差分画像の例を図３に示す。

ところが、先に説明した差分画像は、動きがある部分に大きな画素値が入いるので、動きがあったかなかったかを知ることができるが、その動きがどの方向であるかを知ることはできない。そこで、この実施の形態においては、動きベクトル生成部１２でオプティカルフローを生成し、被写体の動きベクトルを算出する。

オプティカルフローを計算するためには、差分画像の場合と同様に２枚のフレーム画像が必要となる。そして、片方の画像内の画素一つ一つが、もう片方の画像内のどこに移動しているかを求め、その位置関係を示す２次元ベクトルを画素とする画像が、オプティカルフローである。例えば、ｔ時点のフレーム画像とｔ−１時点のフレーム画像間のオプティカルフローを求める場合は、ｔ−１時点での画像の画素一つ一つが、もう片方のｔ時点でのフレーム画像内のどこに移動したかを探す。ｔ−１時点のフレームの原点から右にｘ、下にｙ移動した場所の画素ｆ（ｘ，ｙ，ｔ−１）が、ｔ時点のフレームの画像でｆ（ｘ＋ｄｘ，ｙ＋ｄｙ，ｔ）に移動していた場合は、ｔ−１時点での、（ｘ，ｙ）の位置のオプティカルフローは（ｄｘ，ｄｙ）となり、２次元ベクトルとなる。動きベクトル生成部１２は、入力された映像画像からオプティカルフローを生成し、被写体の動きベクトルを算出する。片方の画像内の画素がもう片方の画像内のどの位置に移動したかというのを求める方法には、ブロックマッチング法と勾配法があるがいずれも周知の技術であるので、詳しい説明は省略する。この結果、ある時点での画像の局所領域が次の時点でどの方向に動いたのかという２次元のベクトルを各画素に持つ動きベクトル画像が得られる。図４（ａ）に示す２つのフレーム画像１８、１９から、図４（ｂ）に示すように動きベクトル画像２０を作成している。

動きベクトル分解部１３は、動きベクトル生成部１２によって算出された動きベクトル画像２０を上下左右の動き（複数方向の一例）のみを表す成分に分解する。この分解により動きベクトル画像２０は４種類の独立した画像となる。図４（ｄ）に、ｘプラス方向、ｘマイナス方向、ｙプラス方向、ｙマイナス方向に分解された画像２１〜２４を示している。図４（ｃ）はその前工程を示す画像で、ｘ方向およびｙ方向に動きベクトル画像２０を分解している。

このようにして、一連のフレーム画像ｆ（ｘ，ｙ，ｔ）から以上の処理によってｘプラス方向、ｘマイナス方向、ｙプラス方向、ｙマイナス方向に分解された画像２１〜２４を作成し、これらのモーションヒストリーイメージを作成する。
モーションヒストリーイメージは、前述のBobick（非特許文献１）らによって提案されたもので、一つの画像に過去の画像を残して行く時系列画像の表現方法の一つであって、新しい画像ほど明るく、過去の画像ほど暗く表示され、以下の式（１）によって生成される。

ここで、ｘ、ｙ、ｔはそれぞれ画像の座標値および時間を示し、Ｄ（ｘ，ｙ，ｔ）は入力画像、τはどれだけの期間の過去の画像を残すかを決定するパラメータである。
これに対応する、τの期間に動きのあった領域を表現する２値画像モーションエナジーイメージ(MEI; Motion Energy Image)は式（２）で与えられる。

本実施の形態においては、このモーションヒストリーイメージ法を用いて、動きベクトル分解部１３で作成された４種類の画像２１〜２４それぞれについて、重ね合わせ画像生成部１４で４枚のモーションヒストリーイメージ（重ね合わせ画像）を生成する。これを式で示せば以下の通りとなる。

ここでＨ_τ ^ｘ＋（ｘ，ｙ，ｔ）、Ｈ_τ ^ｘ−（ｘ，ｙ，ｔ）は左右の動きから生成されるＭＨＩ、Ｈ_τ ^ｙ＋（ｘ，ｙ，ｔ）、Ｈ_τ ^ｙ−（ｘ，ｙ，ｔ）は上下の動きから生成されるＭＨＩであり、ｔｈ_Ｈは方向成分の閾値である。この閾値処理は、式（１）のＭＨＩの２値入力画像Ｄ（ｘ，ｙ，ｔ）を生成することに対応する。式（３）〜（６）より生成されるＭＨＩは、それぞれ上下左右の方向に発生した動きの履歴を表している。これらのＭＨＩを動きの向きの情報を持つモーションヒストリーイメージ(DMHI; Directional Motion History Images)と称する。動きの向きに分解された成分からそれぞれ独立したＤMHIを生成することで、従来のＭＨＩでは動きの向きの変化によって上書きされて失われていた過去の動き情報を残すことができる。図５（ｃ）にその例を示す。

なお、図５（ａ）は「箱をつかんで持ち上げる」という動作のフレーム画像の一部であり、同図（ｂ）はこれらのフレーム画像からMHIを生成したものの一部で、図５（ａ）は原画像、図５（ｂ）は従来のMHI、図５（ｃ）の４つの段の画像はそれぞれＦ_ｘ ^＋，Ｆ_ｘ ⁻，Ｆ_ｙ ^＋およびＦ_ｙ ⁻から生成したＤＭＨＩである。この動作は、最初人が箱をつかむ際に体を下にかがめ、箱をつかんだ後上体を上げるという動作であり、体をかがめた時点のフレームが図５（ａ）の２列目に、箱をつかんで上体を上げた時点のフレームが図５（ａ）の３列目に示されている。ここで従来のＭＨＩを見ると２列目の時点で描かれている上体を下げるという動きの情報が、３列目の上体を上げるという動きの情報によって上書きされ、情報が失われていることがわかる。一方、同図（ｃ）に示すＤＭＨＩを見ると、２列目での上体を下げるという動きは下方向の成分Ｈ_τ ^ｙ＋に描かれ、３列目での上体を上げるという動きは上方向の成分Ｈ_τ ^ｙ−に描かれているため、上書きが回避され最初の下方向の動きの履歴が失われず残っていることがわかる。
以上の手法によって、動体の画像を複数枚のＤＭＨＩによって表現できる。

特徴ベクトル抽出部１５は、得られた重ね合わせ画像からフーモーメント（Hu moment）を用いて特徴ベクトル（特徴量）を抽出する。なお、Hu momentについては非特許文献２（Ｍ.Hu, "Visual pattern recognition by moment invariants,"IRE Transactions on Information Theory, Vol.8, No.2, pp.１７９-１８７，１９６２）に詳細に記載されているので、その理論については省略し、Hu momentに基づく動作認識手法をＤＭＨＩに拡張した動作認識手法を以下に示す。
まず、（３）〜（６）式で示されるＤＭＨＩに対応する動きの情報を持つモーションエナジーイメージ(DMEI; Directional Motion Energy Images)を生成する。これは（２）式で示されるＭＥＩの場合と同様に、式（２）によりＤＭＨＩを閾値０で２値化して得られる。得られたＤＭＨＩおよびＤＭＥＩの合計８つの特徴画像からそれぞれ７つのHu momentを求め、合計５６個の特徴量を得る。

また、ＤＭＨＩは動きの向きを考慮しているため、動きの向きによって大きい動きが表れる成分と、あまり動きが表れない成分がある。図５の箱をつかんで持ち上げる動作の場合、上下方向のＭＨＩは左右方向のＭＨＩより大きな動きが表れていることがわかる。そこで、ＤＭＨＩ間の方向による動きの割合を考慮するために、各ＤＭＨＩの０次モーメントを新たな特徴量として加える。各０次モーメントは４つのＤＭＨＩから得られる０次モーメントの合計で合計が１になるように正規化する。同様にＤＭＥＩ間でも正規化された０次モーメントを求め、計８つの特徴量を求める。これとHu momentより得られた５６個の特徴量を加え、合計６４個の特徴量を成分とする６４次元のベクトルを、その動作を表現する特徴ベクトルとする。

Bobickら（非特許文献１）は、ＭＨＩおよびＭＥＩから得られる特徴ベクトルを用いた認識手法として統計モデルに基づく手法を用いている。すなわち、学習データから特徴ベクトルを計算し平均と分散を求め、未知データとのマハラノビス距離を用いて最も近い動作を求めている。しかし、Hu momentは１つの画像を７次元のベクトルで表現するため、その表現に限りがある。そのため、複数の動作からHu momentに基づく特徴ベクトルを求め、特徴ベクトルから構成される多次元の特徴空間内での分布を考える場合、全ての動作が離れて分布するとは限らない。そのため平均と分散のみで分布を近似する認識法では誤認識が増える可能性がある。そこで、提案する手法では学習データのサンプルを全て記憶しておく全点探索に基づくｋ‐近傍法（ｋ‐ＮＮ）を用いる。全点探索の手法は計算コストが大きいという欠点はあるが、複雑な分布を持つクラスタの認識に適している（非特許文献３：鳥脇純一郎，テレビジョン学会教科書シリーズ９認識工学‐パターン認識とその応用‐，コロナ社，２００２参照）。

よって、動作認識処理の流れは以下のようになる。まず事前に認識したい動作データから重ね合わせ画像からなるテンプレート画像であるＤＭＨＩおよびＤＭＥＩを求め、特徴ベクトルを算出しデータベース内に特徴ベクトルと動作ラベルを対応させて記憶しておく。そして認識させたい未知の動作が得られた場合、これからＤＭＨＩとＤＭＥＩを求め特徴ベクトルを算出し、データベース内の特徴ベクトルとのユークリッド距離を求め最も近いｋ個のサンプルを抽出するパターンマッチングを行い、このサンプルに対応する動作ラベルの多数決により動作を認識する。この動作認識処理の概略を図６に示す。

なお、前述した実施の形態で説明した動体の動作表示方法は、非特許文献１に記載された手法に基づくものであるが、式（３）〜（６）に示すように閾値を要件とする。そこで、閾値が異なると解が異なるので、閾値のないＤＭＨＩについて説明する。
先の式（１）で説明したように、多値の入力画像から生成されるＭＨＩは以下の式（７）で表される。
Ｈ_σ（ｘ，ｙ，ｔ）＝ｍａｘ（ｆ（ｘ，ｙ，ｔ），σＨ_σ（ｘ，ｙ，ｔ−１））・・・（７）
ここでｆ（ｘ，ｙ，ｔ）はｔフレーム目における入力画像、保存率σはτに対応するパラメータで０＜σ＜１の値を持ち、１に近いほど過去の画像が残り、０に近いほど過去の画像は早く消去される。この式より得られるＭＨＩは０を最小値とした実数値画像である。
一方、ＤＭＨＩの入力として用いられる方向成分は、オプティカルフローの垂直・水平成分を正負に分解した値の絶対値が入っているため、これも０を最小値とした実数値画像である。よって、式（７）はそのままＤＭＨＩの生成に用いることができる。

以上で述べたHu momentに基づく動作認識手法は、Hu momentの表現に限界があり、特徴空間内で同じ動作から得られた特徴ベクトルのクラスタが動作ごとに集まって構成されるとは限らない。前記実施の形態では、この問題解決のためｋ‐ＮＮ法を用いたが、サンプル数が増加すると計算コストの面でこの方法は現実的ではない。そこで、ＭＨＩをバウンディングボックスで切り出し大きさの正規化を行った画像から特徴ベクトルを抽出することもできる。特徴ベクトルの抽出には固有空間法を適用した後、線形識別分析法(LDA; Linear Discriminant Analysis)を適用し、固有空間内で各動作のクラスタが最も分かれる最小次元の特徴量を抽出する。

ＬＤＡは前述の非特許文献３に記載されているが、ｄ次元の特徴ベクトルｘで表現されるデータ群がｃ個のクラスに分類されているとき、特徴ベクトルを各クラス内の分散が小さく、かつ各クラス間の分散が最大となるような（ｃ−１）次元の空間に線形写像する手法である。
まず、与えられているデータ群を用いて特徴ベクトルを低次元空間に写像する写像行列を求める。クラスω_ｉ（ｉ＝１，・・・，ｃ）に属するデータの平均ベクトルおよびデータ数をベクトルｘ_ｉおよびＮ_ｉとし、クラスω_ｉの共分散行列Σ_ｉを、式（８）と定義すると、クラス内変動行列Σ_ｗおよびクラス間変動行列Σ_Ｂは式（９）、式（１０）より得られる。ここでベクトルｘおよびＮは全データの平均ベクトルおよびデータ数である。

Σ_ｗおよびΣ_Ｂより、Σ_Ｂｅ_ｉ＝λ_ｉΣ_ｗｅ_ｉとなる固有方程式を解き、得られた固有値のうち大きいものから（ｃ−１）番目までの固有値に対応する固有ベクトルより写像行列Ｐ_ＬＤＡ＝［ｅ_１ｅ_２・・・ｅ_ｃ−１］が求まる。
認識は、未知データがどのクラスに属するかの判定を写像行列により写像された空間内で行う。本発明では、変換後の空間での各クラスの平均ベクトルと共分散行列を用いてそのクラスを表現し、未知データの写像点とのマハラノビス距離が最も近いクラスが未知データの属するクラスであるという判定を行う。なお、認識実験の前にＬＤＡによる写像行列および平均ベクトル、共分散行列をあらかじめ算出する作業を「学習」と呼ぶこととする。

本発明ではクラスは動作の種類とし、特徴ベクトルとして大きさを正規化したＤＭＨＩを用いる。ＤＭＨＩは４つの成分を持つ２次元画像であるので、ラスタスキャンにより４つの画像データを１つのベクトルとして繋げる。したがって、１つのＭＨＩの総画素数がＰであれば、ＤＭＨＩから生成される画像ベクトルの次元は４Ｐとなる。なお、ＬＤＡを適用する場合、学習データの次元数が全データ数からクラス数を引いた値以下であることを満たす必要があるため、本発明方法ではＬＤＡの前処理として主成分分析(PCA; Principal Component Analysis)を学習データに適用する。この画像ベクトルに対しまずＰＣＡを行い、ＰＣＡにより無意味な情報を削減したベクトルに対しＬＤＡを適用する。なお、ＰＣＡにより得られる写像行列とＬＤＡにより得られる写像行列の乗算により、画像ベクトルからＬＤＡにより得られる特徴空間へ直接写像することができる。

続いて、本発明の作用効果を確認するために行った実施例について説明する。
［実施例１］
図７に示すように、対象者の向いている方向を中心に取り囲むように配置された４台のカメラを用いて、１１人の５種類の動作を撮影した。動作は「箱をつかんで持ち上げる」、「小さなものを拾う」、「うずくまる」、「その場で歩く」、そして「倒れる」である。動作の例を図８に示す。
この実験では、動作１つを１つの動画ファイルとして切り出し、その動画ファイルの最終フレーム時点で得られるＭＨＩおよびＤＭＨＩを認識に用いた。ＭＨＩおよびＤＭＨＩに残す履歴の長さを決定するパラメータτはファイルのフレーム数と同じとした。

実験の学習にはLeave-one-out法を用いた。一人分のデータをテスト用に取り出し、残りのデータを用いて学習を行った。学習時サンプルをデータベースに登録する際にはカメラの向きに関係なく動作ラベルのみを登録した。
パラメータの設定は以下の通りである。ＭＨＩの入力画像を生成するためのフレーム間差分画像の閾値は４０、ＤＭＨＩの閾値ｔｈ_Ｈは１．０、認識のためのｋ‐ＮＮはｋ＝３とした。実験結果より得られた認識率を表１に示す。表１（ａ）がＭＨＩ（従来例）の結果、（ｂ）がＤＭＨＩ（本発明）の結果である。

また、ＬＤＡに基づく認識手法をこの実験で生成されたＭＨＩおよびＤＭＨＩに適用した場合の結果を表２に示す。同様に、（ａ）がＭＨＩの結果、（ｂ）がＤＭＨＩの結果である。ＬＤＡの前処理に用いた固有空間法は累積寄与率が９０％となる最小の次元を用いた。また、ＬＤＡを適用する領域の切り出しには対象者の追跡は行わず、ＭＨＩの場合ＭＥＩをラベリングし最大面積となった領域を、ＤＭＨＩの場合はＤＭＥＩの論理ＯＲ画像をラベリングし最大面積となった領域を３２×３２［ｐｉｘｅｌ］に正規化したものを用いた。
この実験で得られたＭＨＩおよびＤＭＨＩの例を図９に示す。

［実施例２］
実験は９人の６種類の動作を用いた。結果の比較のため、次の４種類の手法で実験を行った。
１．フレーム間差分の２値画像を入力とする式（１）で生成されるＭＨＩ（従来技術）に先に述べたＬＤＡに基づく認識を用いる手法
２．フレーム間差分を入力とする式（７）で生成されるＭＨＩにＬＤＡに基づく認識を用いる手法
３．オプティカルフローの方向成分の２値画像を入力とする式（３）〜式（６）で生成されるＤＭＨＩにＬＤＡに基づく認識を用いる手法（本発明）
４．オプティカルフローの方向成分を入力とする式（７）で生成されるＤＭＨＩにLDAに基づく認識を用いる手法（本発明）

これらの手法を実装したのは、式（７）から生成される閾値の必要ないＭＨＩおよびＤＭＨＩと、２値画像から生成されるＭＨＩおよびＤＭＨＩとの比較による性能評価、および従来のＭＨＩとの比較によるＤＭＨＩの性能評価のためである。
パラメータの設定は以下の通りである。２値画像を入力とするＭＨＩの生成のためのフレーム間差分の閾値は２０、ＤＭＨＩ生成のための方向成分の閾値は１．０とした。ＬＤＡの前処理に用いたＰＣＡは累積寄与率が９０％となる最小の次元を用いた。なお、式（７）からＤＭＨＩを生成する手法では、ノイズ除去のため、動きベクトルを方向成分に分割後、各成分の値がある閾値以上であった場合はその閾値に置き換えその値を抑制した。この実験では方向成分が３．０以上だった場合とした。
この実験でも認識結果を算出する際に複数の異なるパラメータで生成されたＭＨＩの多数決を行っている。今回は３つのＭＨＩの多数決を行った。ＭＨＩのパラメータは、２値画像から生成されるＭＨＩで２５、３０、３５、多値のＭＨＩで０．９５、０．９２、０．８９とした。

実験結果を表３に示す。表３（ａ）は式（１）より生成されたＭＨＩによる結果、（ｂ）は式（７）より生成されたＭＨＩによる結果、（ｃ）は式（３）〜式（６）より生成されたＤＭＨＩの結果、そして（ｄ）は式（７）より生成されたＤＭＨＩの結果である。

本発明の一実施の形態に係る動体の動作認識方法を適用した動作認識装置の構成図である。フレーム画像の説明図（写真を含む）である。差分画像の説明図である。本発明の一実施の形態に係る動体の動作表示方法の説明用写真である。同方法の説明用写真である。フーモメント処理の説明図である。実施例の状況を示すカメラ配置図である。動体（人物）の各動作を示す写真である。実施例で用いた各動作から生成されるＭＨＩとＤＭＨＩの例を示す写真である。

符号の説明

１０：動画認識装置、１１：映像入力部、１２：動きベクトル生成部、１３：動きベクトル分解部、１４：重ね合わせ画像生成部、１５：特徴ベクトル抽出部、１６：動画認識部、１８、１９：フレーム画像、２０：動きベクトル画像、２１〜２４：画像

Claims

入力された時系列画像の連続する２枚の画像から動体の動きベクトルを計算し、この動きベクトル成分を異なる複数方向にそれぞれ動きのみを表現する複数種類の画像に分解し、該複数種類の画像をそれぞれ独立して時間軸方向に重みを付けて重ね合わせ画像を形成することを特徴とする動体の動作表現方法。
請求項１記載の動体の動作表現方法において、前記異なる複数方向は、前記動きベクトルの画像に対して上下左右の４方向であることを特徴とする動体の動作表現方法。
認識したい動作を行う動体を含む画像から請求項１および２のいずれか１項に記載の動体の動作表現方法によって得られた前記重ね合わせ画像、および認識を行う前に予め用意していたテンプレート画像のパターンマッチングによって、前記動体の動作を認識することを特徴とする動体の動作認識方法。
請求項３記載の動体の動作認識方法において、前記パターンマッチングは、前記重ね合わせ画像から特徴量を抽出し、この特徴量と予め用意された前記テンプレート画像の特徴量とのユークリッド距離を計算することによって行うことを特徴とする動体の動作認識方法。
請求項３および４のいずれか１項に記載の動体の動作認識方法において、前記テンプレート画像は、既知の動作を行う動体を含む映像から前記動作表現方法によって得られる重ね合わせ画像からなることを特徴とする動体の動作認識方法。