JP5604256B2

JP5604256B2 - 人物動作検出装置およびそのプログラム

Info

Publication number: JP5604256B2
Application number: JP2010234240A
Authority: JP
Inventors: 正樹高橋; 真人藤井; 昌秀苗村
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2010-10-19
Filing date: 2010-10-19
Publication date: 2014-10-08
Anticipated expiration: 2030-10-19
Also published as: JP2012088881A

Description

本発明は、カメラで撮影された映像から人物の動作を検出する人物動作検出装置およびそのプログラムに関する。

近年、人物の動作を自動認識する研究が盛んに進められている。例えば、身体に接触型の測定器（センサ）を取り付け、測定器で測定した速度や加速度情報から人物の動作を認識する手法が提案されている（特許文献１参照）。
しかし、このように身体に測定器を取り付けて動作を認識する手法は、設営コストや人体に与える影響（負荷）を考慮すると好ましいものとは言えない。そこで、さらに、近年では、人物を撮影した映像を解析することで人物の動作を認識する研究が多く行われている。例えば、映像中の人物の軌跡から人物の動作を認識する手法が提案されている（特許文献２，３参照）。

また、映像から人物の軌跡を求める際に、映像中のフレームごとの特徴点について、フレームごとに特徴点の水平座標および垂直座標を、時間方向に追跡することで得られる３次元（水平、垂直、時間）特徴を用いて人物の動作を認識する手法も提案されている（非特許文献１参照）。
この非特許文献１に記載された手法は、追跡する時間を所定時間に限定し、３次元特徴を固定次元（固定長）の軌跡の特徴量（軌跡特徴量）とすることで、当該軌跡特徴量を１つの単語とみなして分類を行う「Ｂａｇ−ｏｆ−ｗｏｒｄｓ（ＢＯＷ）」の手法を用いて、人物の動作を予め学習によって求めた動作に分類するものである。

また、このような軌跡特徴量から「Ｂａｇ−ｏｆ−ｗｏｒｄｓ」手法を用いて動作を検出する他の手法として、特徴点がフレームごとに移動する際の移動ベクトルの角度を用いて動作検出を行う手法も提案されている（非特許文献２参照）。
この非特許文献２に記載された手法は、移動ベクトルの角度を予め定めたビン幅θ（ビン数２π／θ）で、［０，θ），［θ，２θ），…，［２π−θ，２π）ごと（なお、［ａ，ｂ）は、ａ以上ｂ未満の範囲を示す）に累計することで、固定次元の軌跡特徴量としてヒストグラム化し、「Ｂａｇ−ｏｆ−ｗｏｒｄｓ」手法を用いた人物の動作検出を可能にしている。

特開平１０−１１３３４３号公報特開２００３−８７７７１号公報特開２００２−８０４２号公報

Matikainen, P., Hebert, M. and Sukthankar, R. 2009. Trajectons: Action recognition through the motion analysis of tracked features. Workshop on Video-Oriented Object and Event Classification (ICCV). (Sep. 2009). V Mezaris, A Dimou, I Kompatsiaris, "Local invariant feature tracks for high-level video feature extraction", Proc. 11th International Workshop on Image Analysis for Multimedia Interactive Services, (WIAMIS 2010), April 2010.

しかし、特許文献２，３に記載の手法では、映像内の人物の領域をフレームごとに正確に切り出すことが必要である。そのため、特許文献２，３に記載の手法では、人物領域を切り出しやすくするため、背景を平坦（予め定めた色等）に限定したり、動作の抽出対象の人物を一人に限定したり等の条件が必要になってしまう。すなわち、特許文献２，３に記載の手法では、不特定多数の人物が登場する複雑な映像では、精度よく人物の動作を検出できないという問題がある。

また、非特許文献１，２に記載の手法では、映像内の特徴点を時間方向に追跡し、「Ｂａｇ−ｏｆ−ｗｏｒｄｓ」手法を用いることで、複数の動作をクラスタリングすることができるため、映像内に複数の人物が存在する場合であっても、ある程度頑健に動作を検出することができる。
しかし、非特許文献１，２に記載の手法は、以下に示すような問題点を含んでいる。
非特許文献２に記載の手法は、動作の判定要素としては、移動ベクトルの角度以外に、特徴点が移動する速度（移動ベクトルの長さ）も重要な要素であるにもかかわらず、その速度が考慮されていない。そのため、非特許文献２に記載の手法は、動き速度が不自然であるにも関わらず、移動ベクトルの角度が予め学習した結果と近似した場合、動作を誤って検出してしまうという問題を含んでいる。

一方、非特許文献１に記載の手法は、軌跡特徴量として、時間方向に特徴点を追跡した特徴量を使用しているため、時間方向の速度に基づく特徴量を考慮しているように考えられる。しかし、非特許文献１に記載の手法は、固定次元（固定長）の軌跡特徴量で「Ｂａｇ−ｏｆ−ｗｏｒｄｓ」手法を用いるために、追跡する時間を所定時間に限定しなければならず、動作途中で軌跡特徴量が遮断されてしまう。そのため、非特許文献１に記載の手法は、動作の時間長によって、正確に動作を検出することができないという問題がある。

本発明は、以上のような問題に鑑みてなされたものであり、角度および速度の情報を含んだ場合であっても、動作時間に関係なく固定次元（固定長）の軌跡特徴量を用いて、正確に人物の動作を検出することが可能な人物動作検出装置およびそのプログラムを提供することを課題とする。

本発明は、前記課題を解決するために創案されたものであり、まず、請求項１に記載の人物動作検出装置は、人物を撮影した映像から、前記人物の動作を検出する人物動作検出装置であって、特徴点軌跡情報生成手段と、時間特徴量生成手段と、学習データ記憶手段と、動作識別手段と、を備える構成とした。

かかる構成において、人物動作検出装置は、特徴点軌跡情報生成手段によって、映像のフレーム画像ごとに、画像内の特徴となる特徴点を検出し、フレーム画像ごとに特徴点の特徴量のマッチングを行うことで、特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する。この特徴点は、Ｈａｒｒｉｓオペレータ、ＳＩＦＴ、ＳＵＲＦ等の一般的な特徴点検出手法を用いることができる。このように、特徴点を追跡することで、映像内の動作が特徴点の軌跡の集合として抽出されることになる。

また、人物動作検出装置は、時間特徴量生成手段によって、特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、特徴点のフレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、特徴点の軌跡の特徴量である軌跡特徴量とする。
この移動ベクトルの向きは、特徴点が移動する方向を表し、移動ベクトルの大きさは、特徴点が移動する速度を表すことになり、人物の動作を特徴付ける特徴量となる。また、時間特徴量生成手段は、移動ベクトルの向きおよび大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで、軌跡の長さ、すなわち、動作の時間長に依存せず、固定長の特徴量が抽出されることになる。

また、人物動作検出装置は、複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量をクラスタごとに累計した分布を、既知の動作ごとに対応付けて、予め学習データとして学習データ記憶手段に記憶しておく。この学習データによって、人物の動作を構成する複数の軌跡特徴量が、予め定めた数のクラスタでモデル化されることになる。

そして、人物動作検出装置は、動作識別手段によって、所定時間区間ごとに、当該時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属するクラスタを累計した分布を生成し、学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似するか否かにより、人物の動作を識別する。なお、所定時間区間内に軌跡が終了した段階を基準とするのは、その段階で１つの動作が完了したとみなすことができるからである。
このように、人物の動作を構成する複数の軌跡特徴量が、クラスタの分布によって特定され、動作識別手段は、当該分布と学習データの分布とを比較することで、人物の動作を検出することができる。

また、請求項２に記載の人物動作検出装置は、請求項１に記載の人物動作検出装置において、空間特徴量生成手段をさらに備える構成とした。

かかる構成において、人物動作検出装置は、空間特徴量生成手段によって、特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる特徴点の位置におけるフレーム画像の輝度勾配を空間特徴量として生成し、軌跡特徴量に付加する。なお、この空間特徴量は、軌跡の始点、終点または中間点におけるフレーム画像の特徴点の輝度勾配、あるいは、フレーム画像の輝度勾配を特徴点の軌跡ごとに平均化した輝度勾配であってもよい。
このように、人物動作検出装置は、時間方向の特徴量に、さらに空間方向の特徴量を付加して軌跡特徴量を生成する。これによって、動作識別手段は、人物の動きの特徴のみならず、外観の特徴を加味して、動作を識別することになる。

さらに、請求項３に記載の人物動作検出装置は、請求項１または請求項２に記載の人物動作検出装置において、時間特徴量生成手段が、方向特徴量生成手段と、速度特徴量生成手段と、を備える構成とした。

かかる構成において、人物動作検出装置は、方向特徴量生成手段によって、移動ベクトルの向きの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、移動ベクトルの向きを累計することで、時間特徴量を構成する特徴量である方向特徴量を生成する。

また、人物動作検出装置は、速度特徴量生成手段によって、移動ベクトルの大きさの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、移動ベクトルの大きさを累計することで、時間特徴量を構成する特徴量である速度特徴量を生成する。
これによって、方向特徴量には、人物の動きの方向を粗く分類した分布から細かく分類した分布まで、複数の特徴が含まれることになる。また、速度特徴量には、人物の動きの速さを粗く分類した分布から細かく分類した分布まで、複数の特徴が含まれることになる。

また、請求項４に記載の人物動作検出装置は、請求項３に記載の人物動作検出装置において、時間特徴量生成手段が、平滑化手段をさらに備える構成とした。

かかる構成において、人物動作検出装置は、平滑化手段によって、特徴点軌跡情報における特徴点の軌跡を平滑化した複数の軌跡を生成する。また、方向特徴量生成手段および速度特徴量生成手段は、平滑化手段で平滑化された複数の軌跡に対して、方向特徴量および速度特徴量をそれぞれ生成する。
これによって、方向特徴量および速度特徴量には、厳密に再現された軌跡からおおまかに再現された軌跡まで、複数の特徴が含まれることになる。

また、請求項５に記載の人物動作検出装置は、請求項１から請求項４のいずれか一項に記載の人物動作検出装置において、動作識別手段が、重み付き分布生成手段と、分類手段と、を備える構成とした。

かかる構成において、人物動作検出装置は、重み付き分布生成手段によって、所定時間区間内に軌跡の終点が存在する個々の軌跡特徴量を単語とみなし、前記時間長内に存在する複数の単語を文書とみなすことで、ｔｆ−ｉｄｆ法により、時間特徴量生成手段で生成された軌跡特徴量の重要度を算出し、当該軌跡特徴量が属するクラスタの頻度に重み付けを行うことでクラスタの分布を生成する。
また、人物動作検出装置は、分類手段によって、重み付き分布生成手段で生成されたクラスタの分布と、学習データ記憶手段に学習データとして記憶されている動作ごとのクラスタの分布との距離に基づいて類似を判定し、人物の動作を分類する。この距離は、例えば、ユークリッド距離を用いる。

このように、軌跡特徴量は固定長の特徴量であるため、人物動作検出装置は、「Ｂａｇ−ｏｆ−ｗｏｒｄｓ」手法で用いられるｔｆ−ｉｄｆ法を用いて、軌跡特徴量の重要度を算出することができる。これによって、映像内で頻繁に発生する背景領域上の軌跡特徴量の重要度を下げ、特定の時間に発生する人物の軌跡特徴量の重要度を上げることができる。

さらに、請求項６に記載の人物動作検出プログラムは、人物を撮影した映像から、前記人物の動作を検出するために、コンピュータを、特徴点軌跡情報生成手段、時間特徴量生成手段、動作識別手段として機能させる構成とした。

かかる構成において、人物動作検出プログラムは、特徴点軌跡情報生成手段によって、映像のフレーム画像ごとに特徴点を検出し、フレーム画像ごとに特徴点の特徴量のマッチングを行うことで、特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する。また、人物動作検出プログラムは、時間特徴量生成手段によって、特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、特徴点のフレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、特徴点の軌跡の特徴量である軌跡特徴量とする。

そして、人物動作検出プログラムは、動作識別手段によって、所定時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属するクラスタを累計した分布を生成し、学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似する否かにより、人物の動作を識別する。なお、学習データ記憶手段には、複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量をクラスタごとに累計した分布を、既知の動作ごとに対応付けて、予め学習データとして記憶しておく。

本発明は、以下に示す優れた効果を奏するものである。
請求項１，６に記載の発明によれば、映像から、人物の動作に関する特徴量を、動作時間に関係なく固定長の軌跡特徴量で表すことができるため、動作途中で特徴量が遮断されることなく、正確に動作の特徴量を抽出することができる。これによって、本発明は、精度の高い特徴量を用いることで、映像から、高精度に人物の動作を検出することができる。

また、請求項１，６に記載の発明によれば、軌跡特徴量を固定長で表すことができるため、軌跡特徴量を単語とみなした「Ｂａｇ−ｏｆ−ｗｏｒｄｓ」手法による人物の動作検出が可能になる。これによって、本発明は、所定時間区間内に軌跡の終点が存在する動作ごとにクラスタリングを行うことで、映像内に複数の人物が存在している場合であっても、動作が完了したタイミングで人物の動作を個別に検出することができる。

請求項２に記載の発明によれば、人物の動作を検出する際に、時間特徴量に加え、空間特徴量を加味することができる。これによって、本発明は、人物の動作検出に、動きのみならず、外観的特徴も判定要素として加味できるため、例えば、ある動作がノイズによって発生した動作なのか、人物の手の動きによって発生したものかを区別して判定することが可能になる。

請求項３に記載の発明によれば、方向特徴量および速度特徴量を粗く分類した分布から細かく分類した分布まで複数分類しておくことで、正確に学習データの動作を再現した場合でなくても、おおまかな動きであっても、動きを判別することができる。

請求項４に記載の発明によれば、軌跡を平滑化することで、人物の同じ動作に対して、人物ごとの個人差に伴う異なる動きであっても、その違いを吸収して、同一の動きと判定することができ、頑健に人物の動きを検出することができる。

請求項５に記載の発明によれば、軌跡特徴量を固定長とすることで、ｔｆ−ｉｄｆ法を用いることが可能になり、映像内における人物の動作の軌跡の重要度を高め、背景領域の軌跡の重要度を下げることができる。これによって、本発明は、頑健に人物の動作を検出することができる。

本発明の実施形態に係る人物動作検出装置の全体構成を示すブロック構成図である。本発明の実施形態に係る人物動作検出装置の特徴点軌跡情報生成手段が生成する特徴点軌跡情報を説明するための説明図である。本発明の実施形態に係る人物動作検出装置の平滑化手段が行う特徴点の軌跡の平滑化を説明するための模式図であって、（ａ）はＨａａｒフィルタを２段階適用した図、（ｂ）は特徴点の軌跡が平滑化される様子を示す図である。本発明の実施形態に係る人物動作検出装置の方向特徴量生成手段が生成する方向特徴量（方向特徴量ヒストグラム）を示す図である。本発明の実施形態に係る人物動作検出装置の速度特徴量生成手段が生成する速度特徴量（速度特徴量ヒストグラム）を示す図である。本発明の実施形態に係る人物動作検出装置のコードブック生成手段におけるコードブックの生成手法を説明するための説明図である。本発明の実施形態に係る人物動作検出装置のヒストグラム生成手段におけるヒストグラムの生成手法を生成するための説明図である。本発明の実施形態に係る人物動作検出装置の学習フェーズ（コードブック生成）の動作を示すフローチャートである。本発明の実施形態に係る人物動作検出装置の学習フェーズ（ヒストグラム生成）の動作を示すフローチャートである。本発明の実施形態に係る人物動作検出装置の動作検出フェーズの動作を示すフローチャートである。

以下、本発明の実施形態について図面を参照して説明する。
［人物動作検出装置の構成］
最初に、図１を参照して、本発明の実施形態に係る人物動作検出装置の構成について説明する。人物動作検出装置１は、カメラ（不図示）で撮影された映像から、当該映像に映された人物の動作を検出するものである。ここでは、人物動作検出装置１は、特徴点軌跡情報生成手段１０と、特徴量抽出手段２０と、動作識別手段３０と、学習データ記憶手段４０と、を備えている。

特徴点軌跡情報生成手段１０は、入力される映像のフレーム（フレーム画像）ごとに、フレーム画像の特徴となる点（特徴点）を検出し、時間方向に特徴点を追跡することで、特徴点の位置情報（座標）を時間方向に連結した特徴点軌跡情報を生成するものである。
ここでは、特徴点軌跡情報生成手段１０は、前景領域抽出手段１１と、特徴点検出手段１２と、特徴点追跡手段１３と、を備えている。

前景領域抽出手段１１は、入力される映像のフレームごとに、動きのある領域を前景領域として抽出するものである。この前景領域抽出手段１１は、抽出した前景領域とそれ以外の領域である背景領域とを区分した情報（例えば、２値画像）を、特徴点検出手段１２に出力する。

なお、この前景領域抽出手段１１は、一般的な背景差分処理により前景領域を抽出することができる。例えば、映像が固定カメラで撮影された映像であれば、人物が映っていない画像を予め背景画像として撮影しておき、入力されるフレーム（フレーム画像）との差分をとることで、差のある領域を前景領域として抽出する。

また、前景領域抽出手段１１は、例えば、フレーム画像の画素ごとに予め定めたフレーム数で画素値（あるいは輝度値）の平均や分散を算出し、画素値の変動が予め定めた閾値よりも大きい画素を前景領域の画素とすることとしてもよい。
このように、前景領域抽出手段１１は、動きのある領域を前景領域として抽出することで、主に人物の動いた領域を抽出することができる。

特徴点検出手段１２は、入力される映像のフレームごとに、フレーム画像の特徴となる点（特徴点）を検出するものである。例えば、特徴点検出手段１２は、隣接画素に対する画素値あるいは輝度値の変化によって特徴点を検出する。この特徴点検出手段１２は、フレーム画像ごとに検出した特徴点の位置（座標）を特徴点追跡手段１３に出力する。なお、ここでは、特徴点検出手段１２は、検出した特徴点が、前景領域抽出手段１１で抽出された前景領域に含まれない場合、特徴点追跡手段１３に出力しないこととする。これによって、特徴点追跡手段１３における特徴点追跡の演算処理において、人物の動きとは関係のない背景の特徴点に対する特徴点追跡を防止することができる。

この特徴点検出手段１２における特徴点検出手法は、一般的な手法を用いることができる。例えば、特徴点検出手段１２は、入力されるフレーム画像に対して、Ｈａｒｒｉｓオペレータに代表されるようなコーナー検出処理を施すことで特徴点を検出する。
このＨａｒｒｉｓオペレータは、画像信号の相関性に基づいて特徴点を検出する手法で、画像内のエッジやコーナー等の特徴点において相関出力値が大きくなるという特徴を有するオペレータである。

このＨａｒｒｉｓオペレータは、まず、入力画像（フレーム画像）に対してガウシアンオペレータにより平滑化処理を行う。そして、Ｈａｒｒｉｓオペレータは、画像上の予め定めた大きさの正方形窓Ｗにおいて、座標（ｘ，ｙ）ごとに、輝度値Ｉ（ｘ，ｙ）の勾配Ｉ_ｕ（ｘ，ｙ），Ｉ_ｖ（ｘ，ｙ）を用いて以下の（１）式に示す行列Ａを算出する。ここで、勾配Ｉ_ｕ（ｘ，ｙ），Ｉ_ｖ（ｘ，ｙ）は、それぞれ、輝度値Ｉ（ｘ，ｙ）のｘに関する偏微分値、ｙに関する偏微分値である。

そして、Ｈａｒｒｉｓオペレータは、以下の（２）式に示すように、（１）式で算出した行列Ａの固有値λ_１，λ_２の極小値を特徴量Ｈ_ｘｙとして求める。

なお、固有値の正確な計算は演算量が大きいため、（２）式に代えて、以下の（３）式に示すように、行列Ａの行列式（ｄｅｔＡ）とトレース（ｔｒＡ）を用いて演算することとしてもよい。なお、κは、予め定めた定数であって、例えば、Ｈａｒｒｉｓらが参照論文で推奨する“０．０４”〜“０．１５”の範囲の定数である（参照論文：Harris, C., Stephens, M.: A Combined Corner and Edge Detector. Proceedings of the 4th Alvey Vision Conference. Manchester, U.K. (1988) 147-151.）。

このように算出された特徴量Ｈ_ｘｙは、その値が大きいほど、エッジ、コーナー等の特徴を示している。そこで、特徴点検出手段１２は、この特徴量Ｈ_ｘｙが予め定めた閾値よりも大きい場合に、座標（ｘ，ｙ）の画素を特徴点と判定する。
このように、特徴点検出手段１２は、フレーム画像ごとに特徴点を検出し、前景領域抽出手段１１で抽出された前景領域内の特徴点のみを、特徴点追跡手段１３に出力する。
なお、特徴点検出手段１２は、Ｈａｒｒｉｓオペレータのほか、ＳＩＦＴ（Scale Invariant Feature Transform）、ＳＵＲＦ（Speeded Up Robust Features）等の一般的な特徴量検出手法を用いてもよい。

特徴点追跡手段１３は、特徴点検出手段１２で検出された特徴点を、フレームごとに追跡するものである。この特徴点追跡手段１３は、特徴量が類似する特徴点をフレームごとにマッチングすることで、特徴点を時間方向に追跡する。

すなわち、特徴点追跡手段１３は、フレーム画像ごとに、あるフレーム画像における特徴点の特徴量と、前フレーム画像における特徴点の特徴量とがマッチング（合致または類似）した場合に同一の特徴点として追跡し、特徴量がマッチングしなかった場合に、当該特徴点の追跡を終了する。これによって、時間方向に特徴点がマッチングする間、特徴点の追跡が行われることになる。

なお、この特徴点追跡手段１３における特徴点追跡手法は、一般的な手法を用いることができる。例えば、Ｌｕｃａｓ−Ｋａｎａｄｅ法を用いることができる。
このＬｕｃａｓ−Ｋａｎａｄｅ法は、同一物体の局所領域内では、オプティカルフローが同一になると仮定した空間的局所最適化法の一つである。オプティカルフローとは、連続した画像間で特徴点がどの方向にどの程度移動するかを表す速度ベクトルである。

ここで、フレーム画像の時刻ｔにおけるある正方形窓Ｗ内の座標（ｘ，ｙ）の輝度値をＩ（ｘ，ｙ，ｔ）、時刻（ｔ＋δｔ）における正方形窓Ｗ内の座標（ｘ，ｙ）の輝度値をＩ（ｘ，ｙ，ｔ＋δｔ）としたとき、オプティカルフロー（ｕ，ｖ）は、以下の（４）式で表される。

このように、特徴点追跡手段１３は、フレーム画像間で、特徴点のマッチングを行い、オプティカルフロー（ｕ，ｖ）が類似する特徴点を同一特徴点の軌跡として追跡する。なお、オプティカルフローが類似するか否かは、オプティカルフロー同士の距離（例えば、ユークリッド距離）により判定することができる。
ここでは、特徴点追跡手段１３は、特徴点の軌跡ごとに、時間情報（例えば、フレーム番号）に対応付けて、フレーム画像内の特徴点の座標位置を連結することで特徴点軌跡情報を生成する。この特徴点追跡手段１３で生成された特徴点軌跡情報は、特徴量抽出手段２０に出力される。

この特徴点軌跡情報生成手段１０は、例えば、図２に示すように、時刻ｔ_ｉ，…，ｔ_ｊ，…，ｔ_ｋにおいて入力された映像の各フレーム画像（ａ），（ｂ），（ｃ）において、人物がある動作（ここでは、携帯電話を耳に近づける動作）を行った場合、時刻ｔ_ｉ，…，ｔ_ｊ，…，ｔ_ｋにおいて、フレーム画像内の特徴点を順次複数検出する。そして、特徴点の軌跡が終了した時刻ｔ_ｋの時点で、（ｄ）に示すように、各フレーム画像（ａ），（ｂ），（ｃ）で検出した特徴点を連結することで、特徴点の軌跡を生成する。

この図２中、ｐ_ｉは時刻ｔ_ｉの時点における特徴点の位置、ｐ_ｊは時刻ｔ_ｊの時点における特徴点の位置、ｐ_ｋは時刻ｔ_ｋの時点における特徴点の位置をそれぞれ示している。なお、この図２では、特徴点の軌跡を分かり易く説明するため、特徴点の数を減らして図示している。
このように、特徴点軌跡情報生成手段１０は、追跡した軌跡ｐ_ｉ，…，ｐ_ｊ，…，ｐ_ｋの座標位置を連結することで特徴点軌跡情報を生成する。
図１に戻って、人物動作検出装置１の構成について説明を続ける。

特徴量抽出手段２０は、特徴点軌跡情報生成手段１０で生成された特徴点軌跡情報に基づいて、特徴点の軌跡ごとの特徴量（軌跡特徴量）を生成するものである。なお、この特徴量抽出手段２０は、特徴点の軌跡ごとに、時間方向の多次元の特徴量（時間特徴量）と、フレーム画像内の空間方向の多次元の特徴量（空間特徴量）とを、固定長（固定次元）の軌跡特徴量として生成する。ここでは、特徴量抽出手段２０は、時間特徴量生成手段２１と、空間特徴量生成手段２２と、を備えている。

時間特徴量生成手段２１は、特徴点軌跡情報生成手段１０で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、特徴点の軌跡（フレーム画像ごとの特徴点の移動ベクトル）から、時間方向の多次元の特徴量（時間特徴量）を生成するものである。すなわち、時間特徴量生成手段２１は、人物の動作のうち時間方向の特徴となる特徴点の移動方向（移動ベクトルの向き〔角度〕）や移動速度（移動ベクトルの大きさ〔長さ〕）に基づいて、時間方向の特徴量を生成する。この時間特徴量は、特徴点の軌跡の時間方向の特徴を示す軌跡特徴量となる。
ここでは、時間特徴量生成手段２１は、平滑化手段２１１と、方向特徴量生成手段２１２と、速度特徴量生成手段２１３と、を備えている。

平滑化手段２１１は、特徴点の軌跡に対して、複数のレベル（平滑化レベル）の平滑化処理を行うものである。この平滑化手段２１１は、特徴点の複雑な軌跡を複数のレベル平滑化レベルで平滑化することで、複数の軌跡を生成する。この平滑化処理は、Ｈａａｒフィルタに代表される一般的なローパスフィルで実現することができる。

このように、特徴点の軌跡を複数の平滑化レベルで表すことで、人物の動作の軌跡が人物の個性によらない人物の一般的な動作に近似した軌跡として表現されることになる。ただし、平滑化されていない軌跡は、人物の動作の軌跡を正確に表している。そこで、この平滑化手段２１１は、平滑化を行っていない軌跡を含んだ複数のレベルで平滑化した軌跡を生成し、方向特徴量生成手段２１２および速度特徴量生成手段２１３に出力することとする。

ここで、数式および図３を参照して、平滑化手段２１１が、Ｈａａｒフィルタによって複数の平滑化レベルで軌跡を平滑化する処理について具体的に説明する。
Ｈａａｒフィルタは、離散時間（ｚ空間）で、以下の（５）式の伝達関数で表されるフィルタである。

ここで、特徴点ｋの軌跡を、（５）式に示したＨａａｒフィルタでｑ段階（ｑ：０以上の整数）に平滑化したときの特徴点ｋのｘ座標およびｙ座標を、以下の（６）式とする。

また、特徴点ｋの軌跡がフレーム番号ｔ_１からｔ_２に存在したとすると、特徴点ｋのｘ座標ｐ^ｘ _ｋ，ｑは、以下の（７）式で表すことができ、（５）式に示したＨａａｒフィルタは、以下の（８）式で表すことができる。なお、ｙ座標ｐ^ｙ _ｋ，ｑについては、ｘ座標と同様であるため、数式を省略する。

ここで、図３を参照して、Ｈａａｒフィルタによって特徴点の軌跡が平滑化される様子を模式的に説明する。ここでは、図３（ａ）に示すように、前記（５）式のＨａａｒフィルタを２段階適用した例を示している。すなわち、平滑化手段２１１は、平滑化レベル０（Ｌｅｖｅｌ０：ｑ＝０）の特徴点ｋの軌跡に対して、Ｈａａｒフィルタを適用し、平滑化レベル１（Ｌｅｖｅｌ１：ｑ＝１）の軌跡を生成し、さらに、平滑化レベル１の軌跡に対して、Ｈａａｒフィルタを適用することで、平滑化レベル２（Ｌｅｖｅｌ２：ｑ＝２）の軌跡を生成する。

これによって、平滑化手段２１１は、図３（ｂ）に示すように、特徴点ｋのＬｅｖｅｌ０のＰ_ｋ，０の特徴点の軌跡（図中、実線）と、Ｌｅｖｅｌ１のＰ_ｋ，１の特徴点の軌跡（図中、破線）と、Ｌｅｖｅｌ２のＰ_ｋ，２の特徴点の軌跡（図中、一点鎖線）とをそれぞれ生成し、その軌跡の座標位置を、平滑化レベルの異なる特徴点軌跡情報として、方向特徴量生成手段２１２および速度特徴量生成手段２１３に出力する。
図１に戻って、人物動作検出装置１の構成について説明を続ける。

方向特徴量生成手段２１２は、平滑化手段２１１で多段階に平滑化された特徴点軌跡情報に含まれる特徴点の位置に基づいて、特徴点が移動する方向について固定次元（固定長）の特徴量（方向特徴量）を生成するものである。なお、この方向特徴量は、時間特徴量を構成する特徴量である。
この方向特徴量生成手段２１２は、平滑化手段２１１で生成された各平滑化レベルの軌跡について、フレーム画像上における特徴点が移動する角度（移動ベクトルの向き）を一定の角度幅ごとに累計（ヒストグラム化）することで、方向特徴量を生成する。
すなわち、方向特徴量生成手段２１２は、ヒストグラムのビン幅（角度幅）をθとしたとき、［０，θ），［θ，２θ），…，［２π−θ，２π）ごとに、特徴点が移動する角度を累計する。ここで、［ａ，ｂ）は、ａ以上ｂ未満を示す。
なお、このとき、方向特徴量生成手段２１２は、ヒストグラムのビン幅（角度幅）が異なる複数のヒストグラムを生成することとする。

具体的には、方向特徴量生成手段２１２は、“０”〜“２π”の角度を、４分割、８分割および１６分割したビン幅に設定し、各平滑化レベルの軌跡のヒストグラムを生成する。例えば、“０”〜“２π”の角度を４分割したビン幅“π／２”のヒストグラムを生成する場合、［０，π／２），［π／２，π），［π，３π／２），［３π／２，２π）ごとに角度を累計する。

例えば、図３で説明した３段階の平滑化レベルで平滑化した特徴点の軌跡に対して、それぞれ、３つの異なるビン幅で特徴点が移動する角度をヒストグラム化した例を図４に示す。図４に示すように、方向特徴量生成手段２１２は、ビン幅“π／２”（ビン数“４”），“π／４”（ビン数“８”），“π／８”（ビン数“１６”）のヒストグラムを、それぞれ、平滑化レベル数（ここでは、“３”）分生成することで、８４（ビン数（４＋８＋１６）×平滑化レベル数（３））次元の固定の特徴量（方向特徴量：方向特徴量ヒストグラム）を生成する。

速度特徴量生成手段２１３は、平滑化手段２１１で多段階に平滑化された特徴点軌跡情報に含まれる特徴点の位置に基づいて、特徴点が移動する速度について固定次元（固定長）の特徴量（速度特徴量）を生成するものである。この特徴点の軌跡はフレーム画像ごとに追跡されているため、特徴点の速度は、フレーム画像上における特徴点の移動ベクトルの長さを用いればよい。ここでは、移動ベクトルの水平方向の長さと、垂直方向の長さとから、それぞれ速度特徴量を生成することとする。なお、この速度特徴量は、時間特徴量を構成する特徴量である。

この速度特徴量生成手段２１３は、平滑化手段２１１で生成された各平滑化レベルの軌跡について、フレーム画像上における特徴点が移動する速度（移動ベクトルの大きさ〔水平方向の長さ，垂直方向の長さ〕）を一定の速度幅ごとに累計（ヒストグラム化）することで、速度特徴量を生成する。

なお、速度特徴量生成手段２１３は、方向特徴量生成手段２１２と同様に、ビン幅の異なる複数のヒストグラムを生成することとする。
具体的には、速度特徴量生成手段２１３は、例えば、水平方向の速度について特徴量を生成する場合、特徴点軌跡情報に基づいて、水平速度が最も遅い、すなわち、移動ベクトルの水平方向の長さが最も短い速度（長さ）をヒストグラムの最小値ｖ_ｓとする。また、水平速度が最も早い、すなわち、移動ベクトルの水平方向の長さが最も長い速度（長さ）をヒストグラムの最大値ｖ_ｆとする。

そして、速度特徴量生成手段２１３は、ｖ_ｓ〜ｖ_ｆの速度を、４分割、８分割および１６分割したビン幅に設定し、各平滑化レベルの軌跡のヒストグラムを生成する。例えば、ｖ_ｓ〜ｖ_ｆの速度を４分割したビン幅“｛ｖ_ｆ−ｖ_ｓ｝／４”のヒストグラムを生成する場合、［ｖ_ｓ，ｖ_ｓ＋｛ｖ_ｆ−ｖ_ｓ｝／４），［ｖ_ｓ＋｛ｖ_ｆ−ｖ_ｓ｝／４，ｖ_ｓ＋｛ｖ_ｆ−ｖ_ｓ｝／２），［ｖ_ｓ＋｛ｖ_ｆ−ｖ_ｓ｝／２，ｖ_ｓ＋３×｛ｖ_ｆ−ｖ_ｓ｝／４），［ｖ_ｓ＋３×｛ｖ_ｆ−ｖ_ｓ｝／４，ｖ_ｆ］ごとに速度を累計する。ここで、［ａ，ｂ）は、ａ以上ｂ未満の範囲を示し、［ａ，ｂ］は、ａ以上ｂ以下の範囲を示す。
また、速度特徴量生成手段２１３は、垂直方向の速度についても水平方向と同様に、ヒストグラムを生成する。

例えば、図３で説明した３段階の平滑化レベルで平滑化した特徴点の軌跡に対して、それぞれ、３つの異なるビン幅で特徴点が移動する速度をヒストグラム化した例を図５に示す。
図５に示すように、速度特徴量生成手段２１３は、水平方向および垂直方向の速度特徴量として、方向特徴量生成手段２１２と同様に、それぞれ８４次元の固定の特徴量を生成する。すなわち、速度特徴量生成手段２１３は、水平方向および垂直方向の速度特徴量として、１６８次元（８４×２）の固定次元の特徴量（速度特徴量：速度特徴量ヒストグラム）を生成する。
このように、速度特徴量生成手段２１３は、特徴点の軌跡の時間長に依存せずに、固定次元（固定長）の速度特徴量を生成することができる。

空間特徴量生成手段２２は、特徴点軌跡情報生成手段１０で生成された特徴点軌跡情報に含まれる特徴点の位置に基づいて、特徴点の軌跡から、空間方向の多次元の特徴量（空間特徴量）を生成するものである。すなわち、空間特徴量生成手段２２は、フレーム画像上の特徴点の特徴量をアピアランス（外観）特徴として生成するものである。この空間特徴量は、特徴点の軌跡の空間方向の特徴を示す軌跡特徴量となる。

この空間特徴量生成手段２２は、フレーム画像上における特徴点の特徴量を生成するものであって、一般的な特徴量表現によって固定長の特徴量を生成することができる。例えば、この特徴量として、ＳＵＲＦ（Speeded Up Robust Features）特徴量、ＳＩＦＴ（Scale-Invariant Feature Transform）特徴量等を用いることができる。

この特徴量としてＳＵＲＦ特徴量を用いる場合、空間特徴量生成手段２２は、特徴点で、Ｈａａｒウェブレットによって、最も支配的な輝度の傾き方向（輝度勾配：dominant rotation）を求める。そして、空間特徴量生成手段２２は、最も支配的な方向を基準に、特徴点近傍の予め定めた１６個のブロック内で、それぞれ輝度勾配の方向の総和（水平Σｄｘ、垂直Σｄｙ）と大きさの総和（水平Σ｜ｄｘ｜、垂直Σ｜ｄｙ｜）の４つの値を特徴量として算出する。
すなわち、空間特徴量生成手段２２は、特徴点ごとに、ＳＵＲＦ特徴量として、６４次元（１６×４）の特徴量を算出する。
また、特徴量としてＳＩＦＴ特徴量を用いる場合であれば、空間特徴量生成手段２２は、特徴点ごとに、１２８次元の特徴量を算出することとする。

ここでは、空間特徴量生成手段２２は、軌跡上のすべての特徴点において、対応するフレーム画像からＳＵＲＦ特徴量（あるいはＳＩＦＴ特徴量）を抽出し、軌跡ごとに平均化することで、当該特徴点における空間特徴量を生成する。なお、このＳＵＲＦ特徴量（ＳＩＦＴ特徴量）は、アピアランス特徴であるため、必ずしも特徴点の時間方向に対応した軌跡すべてについて特徴量に対して演算を行う必要はない。例えば、空間特徴量生成手段２２は、特徴点の軌跡の中で、軌跡の始点、終点または中間点について代表して特徴量を生成することとしてもよい。

この空間特徴量生成手段２２は、時間特徴量生成手段２１で生成された時間特徴量（方向特徴量および速度特徴量）に空間特徴量を付加することで、軌跡特徴量を生成し、動作識別手段３０に出力することとする。

このように、特徴量抽出手段２０は、時間特徴量生成手段２１で生成された固定次元の時間特徴量（方向特徴量〔本実施形態では８４次元〕、速度特徴量〔本実施形態では１６８次元〕）と、空間特徴量生成手段２２で生成された固定次元の空間特徴量（本実施形態では６４次元〔ＳＵＲＦ特徴量の場合〕）とで、人物の動作時間が可変であっても、固定次元（固定長）の軌跡特徴量を特徴点の軌跡ごとに生成（抽出）する。
ここでは、特徴量抽出手段２０は、特徴点の軌跡ごとに、固定次元の軌跡特徴量（時間特徴量および空間特徴量）を、当該軌跡の終了時間、すなわち、人物の動作が完了した時間（例えば、軌跡の最終フレーム番号）とともに、動作識別手段３０に出力する。

動作識別手段３０は、後記する学習データ記憶手段４０に記憶されている学習データを参照して、特徴量抽出手段２０で抽出された所定時間区間内に軌跡の終点が存在する多次元（固定次元）の軌跡特徴量から、人物の動作を識別するものである。この動作識別手段３０は、動作ごとに予め求めた軌跡特徴量に近似するか否かを順次判定するＩｆ−Ｔｈｅｎルールに基づく手法や、機械学習のサポートベクターマシン（ＳＶＭ）に基づく手法など、一般的な手法を用いることができる。ここでは、動作識別手段３０は、多次元の軌跡特徴量を１つの単語（以下、軌跡単語ともいう）とみなし、「Ｂａｇ−ｏｆ−ｗｏｒｄｓ」手法を用いて動作を識別する。

この動作識別手段３０は、学習手段３１と、動作判定手段３２と、を備えている。なお、動作識別手段３０は、図示を省略した入力手段を介して動作モードが設定されることで、学習データを学習する「学習フェーズ」と、映像から人物の動作を検出する「動作検出フェーズ」との２つのフェーズで動作し、「学習フェーズ」においては、学習手段３１が動作し、「動作検出フェーズ」においては、動作判定手段３２が動作するものとする。

学習手段３１は、特徴量抽出手段２０で抽出された予め人物が動作した際の映像における軌跡特徴量から、動作ごとの軌跡特徴量の分布を学習するものである。ここでは、学習手段３１は、コードブック生成手段３１１と、ヒストグラム生成手段３１２と、を備えている。

コードブック生成手段３１１は、種々の動作を撮影した映像から、特徴量抽出手段２０で抽出された軌跡特徴量（軌跡単語）を入力し、複数の軌跡単語を、予め定めた数（ｋ個）のクラスタにクラスタリングすることで、コードブックを生成するものである。
このコードブックは、複数の軌跡単語を、その特徴（多次元の特徴量）に基づいて、予め定めたｋ個（例えば、１０００個）に分類した単語辞書である。
このコードブック生成手段３１１におけるクラスタリングは、例えば、Ｋ平均法（Ｋ−ｍｅａｎｓ法）を用いて行うことができる。
このコードブック生成手段３１１は、ｋ個のクラスタに分類された複数の軌跡単語からなるコードブックを、学習データ記憶手段４０に書き込み記憶する。

なお、このコードブック生成手段３１１がコードブックを生成するために用いる映像は、特に限定するものではないが、例えば、人物動作検出装置１が、固定カメラで人物の動作を検出する場合、予め定めた位置に設置したカメラで数日間撮影した映像である。
また、ここでは、コードブック生成手段３１１は、予め定めた時間長（所定時間区間）のシーケンス（例えば、１秒〔２５フレーム相当〕）に軌跡が終了した複数の軌跡単語について、当該シーケンスを１ドキュメント（文書）として、当該ドキュメントに含まれる軌跡単語およびそのクラスタをドキュメントごとに学習データ記憶手段４０に書き込み記憶しておくこととする。このドキュメントは、後記する動作判定手段３２の重み付きヒストグラム生成手段３２１において、軌跡単語の重要度を算出する際に使用される。

ヒストグラム生成手段３１２は、予め定めた動作を撮影した映像から、特徴量抽出手段２０で抽出された複数の軌跡特徴量（軌跡単語）を入力し、当該動作における軌跡単語の出現頻度の分布（ヒストグラム）を生成するものである。
このヒストグラム生成手段３１２は、予め既知の動作において、複数の軌跡単語のそれぞれを、コードブック生成手段３１１で生成されたコードブックのｋ個のクラスタの中で、距離（ユークリッド距離）が最も近いクラスタに分類し、ｋ個のビン数からなるヒストグラムを生成する。

なお、ヒストグラム生成手段３１２は、ヒストグラムを正規化することとする。すなわち、ヒストグラム生成手段３１２は、クラスタごとに累計した度数の合計値が、“１．０”となるように、それぞれのクラスタの度数を正規化する。これによって、軌跡の数によらずに、１つの動作を同一の基準で表現することができ、動作検出を容易かつ頑健に行うことが可能になる。
このように、ヒストグラム生成手段３１２は、既知の動作において作成したヒストグラムを、動作に対応付けて、学習データ記憶手段４０に書き込み記憶する。

ここで、図６および図７を参照（適宜図１参照）して、学習手段３１が、「学習フェーズ」において行う学習の手法について模式的に説明する。なお、軌跡単語は、実際は多次元の特徴量であるが、図６および図７では、模式的に軌跡形状で示す。
まず、学習手段３１は、図６（ａ）に示すように、特徴量抽出手段２０で抽出された複数の多次元の軌跡特徴量（軌跡単語Ｗ_１，Ｗ_２，…，Ｗ_ｎ）を入力し、学習データ記憶手段４０に書き込む。その後、学習手段３１は、コードブック生成手段３１１によって、図６（ｂ）に示すように、複数の軌跡単語Ｗ_１，Ｗ_２，…，Ｗ_ｎを、例えば、Ｋ平均法により特徴量に基づいてｋ個のクラスタ（Ｃ_１，Ｃ_２，…，Ｃ_ｋ）に分類する。このように、コードブック生成手段３１１は、ｋ個のクラスタに分類された軌跡単語の辞書であるコードブックＣＢを生成する。

そして、学習手段３１は、図７（ａ）に示すように、既知の動作によって特徴量抽出手段２０で抽出された複数の多次元の軌跡特徴量（軌跡単語ｗ_１，ｗ_２，…，ｗ_ｎ）を入力する。そして、学習手段３１は、ヒストグラム生成手段３１２によって、軌跡単語ｗ_１，ｗ_２，…，ｗ_ｎのそれぞれが、図６（ｂ）に示したコードブックＣＢのどのクラスタ（Ｃ_１，Ｃ_２，…，Ｃ_ｋ）に属するかを分類し、クラスタごとにその属する数（度数）を求め、図７（ｂ）に示すように、ヒストグラムＨを生成する。なお、このヒストグラムＨは、度数の合計値が“１．０”となるように、それぞれのクラスタの度数を正規化しておくこととする。
このように、学習手段３１は、ヒストグラム生成手段３１２によって、既知の動作ごとに、ヒストグラムＨを生成することで、学習データを生成する。
図１に戻って、人物動作検出装置１の構成について説明を続ける。

動作判定手段３２は、学習データ記憶手段４０に記憶されている学習データを参照して、特徴量抽出手段２０で抽出された多次元（固定次元）の軌跡特徴量（軌跡単語）から、人物の動作を判定するものである。
この動作判定手段３２は、予め定めた時間長（所定時間区間）のシーケンス（例えば、１秒〔２５フレーム相当〕）に軌跡の終点が存在する複数の軌跡単語について、学習データ記憶手段４０に記憶されている学習データを参照して動作を判定する。このように、所定時間区間内に軌跡が終了した複数の軌跡単語は、動作が完了した一連の動作の特徴を示すことになる。なお、このシーケンスの時間長は、任意に定めることができる。
ここでは、動作判定手段３２は、重み付きヒストグラム生成手段３２１と、分類手段３２２と、を備えている。

重み付きヒストグラム生成手段（重み付き分布生成手段）３２１は、特徴量抽出手段２０で抽出された１シーケンス内の軌跡特徴量（軌跡単語）を入力し、当該シーケンスにおける軌跡単語の出現頻度の分布（ヒストグラム）を生成するものである。なお、重み付きヒストグラム生成手段３２１は、軌跡単語の重要度に基づいて、ヒストグラムの出現頻度に対して重み付けを行う。

すなわち、重み付きヒストグラム生成手段３２１は、１シーケンス内の複数の軌跡単語のそれぞれを、学習データ記憶手段４０に記憶されているコードブックのｋ個のクラスタの中で、距離（ユークリッド距離）が最も近いクラスタに分類し、ｋ個のビン数からなるヒストグラムを生成する。
また、重み付きヒストグラム生成手段３２１は、１シーケンス内の軌跡単語を、１つのドキュメント（文書）とみなし、全ドキュメントにおける軌跡単語の重要度を、ｔｆ−ｉｄｆ法を用いて算出し、当該軌跡単語が属するクラスタの出現頻度に重要度を乗算することで、ヒストグラム（クラスタの分布）に重みを付加する。ここで、全ドキュメントとは、学習手段３１によって、予め学習フェーズにおいて、種々の動作を撮影した複数の映像から収集したドキュメントを指す。

なお、重み付きヒストグラム生成手段３２１は、クラスタごとに累計した度数の合計値が、“１．０”となるように、それぞれのクラスタの度数を正規化する。これによって、学習データ記憶手段４０に記憶されている学習データとの対比を同一の基準で行うことができる。
このように生成された軌跡単語の出現頻度の分布（ヒストグラム）は、分類手段３２２に出力される。

ここで、重み付きヒストグラム生成手段３２１が、ｔｆ−ｉｄｆ法により重要度を算出する手法について、数式を用いて具体的に説明する。
ここでは、重み付きヒストグラム生成手段３２１は、予め定めた時間長（例えば、１秒）のシーケンス内に軌跡の終点が存在する複数の軌跡単語について、その軌跡単語が属するクラスタごとの重要度を算出する。
すなわち、重み付きヒストグラム生成手段３２１は、軌跡単語が属するクラスタｘのドキュメントｄ内における重要度ｗ_ｘｄを、以下の（９）式に示すｔｆ_ｘｄ値とｉｄｆ_ｘ値の積により算出する。

この（９）式のｉｄｆ_ｘ値は、全ドキュメントにおけるクラスタｘを含むドキュメントの頻度の逆数の対数で、以下の（１０）式で表される。

ここで、Ｎは、全ドキュメント数、ｎ_ｘは、全ドキュメントにおいて、クラスタｘを含むドキュメント数である。このように、ｉｄｆ_ｘ値は、クラスタｘを含むドキュメント頻度に反比例する。
また、（９）式のｔｆ_ｘｄ値は、あるドキュメントｄにおけるクラスタｘの頻度で、以下の（１１）式で表される。

ここで、ＯＣ_ｘｄは、あるドキュメントｄにおけるクラスタｘの数、Ｗは、ドキュメントｄ内の軌跡単語の集合である。また、ＯＣ_ｉｄは、その軌跡単語の集合における軌跡単語ｉ（クラスタ）の数である。
このように、重み付きヒストグラム生成手段３２１は、ｔｆ−ｉｄｆ法により軌跡単語が属するクラスタの重要度を算出して、ヒストグラムを生成するため、頻繁に発生する背景領域上の軌跡単語の重要度を下げ、特定のシーケンスで頻繁に発生する軌跡単語の重要度を高めることができる。なお、特徴点軌跡情報生成手段１０において、前景の特徴点から軌跡を抽出することとしているが、照明やノイズ等の原因で、背景において特徴点を追跡する場合もある。この場合、重み付きヒストグラム生成手段３２１によって、背景領域上の軌跡単語の重要度を下げることで、人物の動作をより適切に表したヒストグラムを生成することができる。
図１に戻って、人物動作検出装置１の構成について説明を続ける。

分類手段３２２は、重み付きヒストグラム生成手段３２１で生成されたあるシーケンスにおける軌跡単語の出現頻度の分布（ヒストグラム）と、学習データ記憶手段４０に記憶されている学習データの動作ごとの分布（ヒストグラム）との距離に基づいて類似を判定し、当該シーケンスにおける人物の動作を予め定めた動作に分類するものである。

すなわち、この分類手段３２２は、入力されたあるシーケンスにおけるヒストグラム（クラスタの分布）と、学習データのヒストグラム（クラスタの分布）との距離、例えば、ユークリッド距離が最も近いものを類似した動作として判定し、その類似した学習データのヒストグラムに対応する動作を、シーケンスにおける人物の動作として分類する。
この分類結果は、人物動作検出装置１における人物の動作検出結果として出力される。

学習データ記憶手段４０は、事前の学習によって、予め定めた数のクラスタにクラスタリングされた軌跡特徴量の出現頻度の分布（ヒストグラム）と、人物の動作とを対応付けた学習データを記憶するものである。この学習データ記憶手段４０は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。

この学習データ記憶手段４０には、多次元の軌跡特徴量を１つの単語（軌跡単語）とみなした複数の軌跡単語を予め定めた数のクラスタにクラスタリングしたコードブックと、ある動作において発生する軌跡単語のクラスタごとの分布を、その動作と対応付けたヒストグラムとを、学習データとして記憶しておく。
さらに、学習データ記憶手段４０には、予め定めた時間長（所定時間区間）のシーケンスに軌跡の終点が存在する複数の軌跡単語について、当該シーケンスを１ドキュメント（文書）として、当該ドキュメントに含まれる軌跡単語およびそのクラスタをドキュメントごとに記憶しておく。

このように人物動作検出装置１を構成することで、人物動作検出装置１は、時間方向に可変長の特徴量を、固定長（固定次元）の軌跡特徴量として扱うことで、「Ｂａｇ−ｏｆ−ｗｏｒｄｓ」手法を用いて人物の動作検出を行うことができる。
なお、人物動作検出装置１は、一般的なコンピュータを前記した各手段として機能させるプログラム（人物動作検出プログラム）により動作させることができる。

［人物動作検出装置の動作］
次に、図８〜図１０を参照して、本発明の実施形態に係る人物動作検出装置の動作について説明する。ここでは、人物動作検出装置１の動作を、「学習フェーズ」と、「動作検出フェーズ」とに分けて説明する。

〔学習フェーズ（第１段階）〕
最初に、図８を参照（構成については適宜図１参照）して、人物動作検出装置１の学習フェーズ（第１段階）における動作について説明する。なお、図８の学習フェーズ（第１段階）は、種々の動作を撮影した複数の映像から、軌跡特徴量（軌跡単語）を抽出し、複数の軌跡単語を、予め定めた数（ｋ個）のクラスタにクラスタリングすることで、軌跡を分類する際に用いるコードブックを生成する動作である。

まず、人物動作検出装置１は、特徴点軌跡情報生成手段１０によって、入力された映像から、特徴点の軌跡を示す特徴点軌跡情報を生成する。
すなわち、人物動作検出装置１は、前景領域抽出手段１１によって、入力された映像のフレーム画像ごとに、背景差分処理により、動きのある領域を前景領域として抽出する（ステップＳ１）。

また、人物動作検出装置１は、特徴点検出手段１２によって、入力された映像のフレームごとに、Ｈａｒｒｉｓオペレータ等の特徴点検出手法により、フレーム画像の特徴となる点（特徴点）を検出する（ステップＳ２）。このとき、特徴点検出手段１２は、ステップＳ１で前景領域と判定された領域以外の特徴点については破棄する。
そして、人物動作検出装置１は、特徴点追跡手段１３によって、ステップＳ２で検出された特徴点において、特徴量（例えば、輝度勾配）が類似する特徴点をフレームごと（時間方向）に追跡し、特徴点軌跡情報を生成する（ステップＳ３）。

そして、人物動作検出装置１は、特徴量抽出手段２０の時間特徴量生成手段２１によって、ステップＳ３で生成された特徴点軌跡情報に基づいて、時間方向の多次元の特徴量（時間特徴量）を生成する。
すなわち、人物動作検出装置１は、平滑化手段２１１によって、ステップＳ３で生成された特徴点軌跡情報に記述されている特徴点の軌跡（座標）に対して、多段階の平滑化処理を行う（ステップＳ４）。このとき、例えば、平滑化手段２１１は、Ｈａａｒフィルタを２段階適用し、平滑化レベルが３段階の特徴点軌跡情報を生成する。

その後、人物動作検出装置１は、方向特徴量生成手段２１２によって、ステップＳ４で多段階に平滑化された特徴点軌跡情報に基づいて、フレーム画像上における特徴点が移動する角度（移動ベクトルの角度；０〜２π）を一定の角度幅ごとに累計（ヒストグラム化）することで、方向特徴量を生成する（ステップＳ５）。
このとき、方向特徴量生成手段２１２は、異なる角度幅（例えば、π／２，π／４，π／８）をビン幅として各角度の移動ベクトルを累計することでヒストグラムを生成する。

さらに、人物動作検出装置１は、速度特徴量生成手段２１３によって、ステップＳ４で多段階に平滑化された特徴点軌跡情報に基づいて、フレーム画像上における特徴点の移動速度を一定の速度幅ごとに累計（ヒストグラム化）することで、速度特徴量を生成する（ステップＳ６）。
このとき、速度特徴量生成手段２１３は、特徴点の速度として、フレーム画像上におけるフレームごとの特徴点の移動ベクトルの水平方向の長さおよび垂直方向の長さを用いることとする。また、速度特徴量生成手段２１３は、異なる速度幅をビン幅として各速度の移動ベクトルを累計することでヒストグラムを生成する。

さらに、人物動作検出装置１は、空間特徴量生成手段２２によって、ステップＳ３で生成された特徴点軌跡情報に記述されている特徴点の軌跡（座標）に対して、空間方向の多次元の特徴量（空間特徴量；例えば、ＳＵＲＦ特徴量、ＳＩＦＴ特徴量等）を生成する（ステップＳ７）。
このとき、空間特徴量生成手段２２は、軌跡上のすべての特徴点において、対応するフレーム画像から特徴量（ＳＵＲＦ特徴量あるいはＳＩＦＴ特徴量）を抽出し、軌跡ごとに平均化する。
なお、このステップＳ５〜Ｓ７における各特徴量の生成は、必ずしもこの順番で行う必要はなく、並列処理で各特徴量を生成することとしてもよい。

このように、特徴量抽出手段２０は、特徴点ごとに、時間方向に固定長の時間特徴量（方向特徴量，速度特徴量）と、空間方向に固定長の空間特徴量とからなる軌跡特徴量を生成する。これによって、人物動作検出装置１は、軌跡の長さが時間方向に可変であっても、固定長の多次元の軌跡特徴量で軌跡を表現することができる。これによって、人物動作検出装置１は、多次元の軌跡特徴量１つの単語（軌跡単語）として扱うことができる。

そして、人物動作検出装置１は、学習手段３１によって、予め人物が動作した際の映像における軌跡特徴量から、動作ごとの軌跡特徴量の分布を学習する。
すなわち、人物動作検出装置１は、コードブック生成手段３１１によって、特徴量抽出手段２０において種々の動作を撮影した複数の映像から抽出された軌跡特徴量（軌跡単語）を用いて、複数の軌跡単語を、予め定めた数（ｋ個）のクラスタにクラスタリングすることで、単語辞書となるコードブックを生成する（ステップＳ８）。そして、コードブック生成手段３１１は、生成したコードブックを、学習データ記憶手段４０に書き込み記憶する（ステップＳ９）。なお、コードブック生成手段３１１は、後記する動作検出フェーズにおいて、ｔｆ−ｉｄｆ法を用いる場合、入力映像の予め定めた時間長のシーケンスを１ドキュメントとしたときのドキュメントごとの軌跡単語およびそのクラスタを、学習データ記憶手段４０に書き込み記憶しておくこととする。

以上の動作によって、人物動作検出装置１は、種々の軌跡を固定長の多次元の特徴量を有する軌跡単語として収集し、ｋ個にクラスタリングした単語辞書（コードブック）を生成することができる。

〔学習フェーズ（第２段階）〕
次に、図９を参照（構成については適宜図１参照）して、人物動作検出装置１の学習フェーズ（第２段階）における動作について説明する。なお、図９の学習フェーズ（第２段階）は、予め定めた動作を撮影した映像から、軌跡特徴量（軌跡単語）を抽出し、学習フェーズ（第１段階）で生成したコードブックを参照し、クラスタ単位でヒストグラム化することで、当該動作の特徴量をヒストグラムとして生成する動作である。
なお、ステップＳ１１〜Ｓ１７までの動作は、図８で説明したステップＳ１〜Ｓ７までの動作と同じであるため、ここでは説明を省略する。

ステップＳ１７の後、人物動作検出装置１は、学習手段３１のヒストグラム生成手段３１２によって、特徴量抽出手段２０において予め定めた動作を撮影した映像から抽出された複数の軌跡特徴量（軌跡単語）を用いて、当該動作における軌跡単語の出現頻度の分布（ヒストグラム）を生成する（ステップＳ１８）。そして、ヒストグラム生成手段３１２は、生成したヒストグラムを個々の動作に対応付けて学習データ記憶手段４０に書き込み記憶する（ステップＳ１９）。なお、ヒストグラム生成手段３１２は、ヒストグラムを、個々の動作ごとに生成し、予め度数の合計値が“１．０”となるように、正規化することとする。
以上の動作によって、人物動作検出装置１は、ある動作における軌跡単語の出現頻度の分布（ヒストグラム）を動作ごとの特徴量として生成することができる。

〔動作検出フェーズ〕
次に、図１０を参照（構成については適宜図１参照）して、人物動作検出装置１の動作検出フェーズにおける動作について説明する。
なお、ステップＳ２１〜Ｓ２７までの動作は、図８で説明したステップＳ１〜Ｓ７までの動作と同じであるため、ここでは説明を省略する。

ステップＳ２７の後、人物動作検出装置１は、動作判定手段３２の重み付きヒストグラム生成手段３２１によって、予め定めた時間長のシーケンスに軌跡の終点が存在する複数の軌跡単語を、学習データ記憶手段４０に記憶されているコードブックのｋ個のクラスタの中で、距離（ユークリッド距離）が最も近いクラスタに分類し、ｋ個のビン数からなるヒストグラムを生成する（ステップＳ２８）。

このとき、重み付きヒストグラム生成手段３２１は、１シーケンス内の軌跡単語を、１つのドキュメント（文書）とみなし、全ドキュメント（ここでは、学習データ記憶手段４０に記憶されている全ドキュメント）における軌跡単語の重要度を、ｔｆ−ｉｄｆ法を用いて算出し、当該軌跡単語が属するクラスタの出現頻度に重要度を乗算することで、ヒストグラムに重みを付加する。これによって、重み付きヒストグラム生成手段３２１は、背景領域上の軌跡単語の重要度を下げることで、人物の動作をより適切に表したヒストグラムを生成することができる。なお、重み付きヒストグラム生成手段３２１は、このヒストグラムを、予め度数の合計値が“１．０”となるように、正規化することとする。

そして、人物動作検出装置１は、分類手段３２２によって、ステップＳ２８で生成されたヒストグラム（重み付きヒストグラム）を、学習データ記憶手段４０に記憶されている学習データの動作ごとのヒストグラムと比較し、当該シーケンスにおける人物の動作を予め定めた動作に分類する（ステップＳ２９）。
このように分類された動作は、人物動作検出装置１の人物の動作検出結果として外部に出力される。

以上説明したように、人物動作検出装置１は、時間方向に可変長の人物の軌跡を固定長（固定次元）の軌跡特徴量で表すことができ、一連の動作軌跡を忠実に特徴量として表現することができるため、映像内から人物の動作を精度よく検出することができる。
さらに、人物動作検出装置１は、特徴点の軌跡の特徴量として、固定長（固定次元）の軌跡特徴量を用いるため、その軌跡特徴量を単語（軌跡単語）とみなして、「Ｂａｇ−ｏｆ−ｗｏｒｄｓ」手法を用いて人物の動作検出を行うことができる。これによって、人物動作検出装置１は、頻繁に発生する背景上の特徴量の重要度を下げ、人物動作をより頑健に行うことができる。

このように、本発明に係る人物動作検出装置１は、人物動作を頑健に検出することができるため、映像監視による人物の異常行動検出、特定動作検出、あるいは、ジェスチャをトリガとしたマンマシンインタフェースなど、広く応用することができる。

以上、本発明の実施形態に係る人物動作検出装置１の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、特徴量抽出手段２０が、時間特徴量と空間特徴量との両方を軌跡特徴量として生成することとしたが、時間特徴量のみを用いることとしてもよい。この場合、図１の構成から空間特徴量生成手段２２を省略して構成すればよい。このとき、軌跡特徴量は、時間特徴量である方向特徴量および速度特徴量で構成されることになる。

また、ここでは、学習手段３１を備えることとしたが、すべての人物動作検出装置１に学習手段３１を備える必要はない。すなわち、ある人物動作検出装置１において、学習を行い学習データ記憶手段４０に学習データを記憶した後、少なくとも学習データ記憶手段４０さえ備えれば、動作検出フェーズを実行することができる。この場合、学習を行わない人物動作検出装置１からは、学習手段３１を省略して構成すればよい。

［人物動作検出装置の評価結果］
最後に、本発明の実施形態に係る人物動作検出装置１において、従来では、加味することができなかった時間方向の特徴量を用いた場合の人物の動作検出結果について説明する。ここでは、人物の動作として、「指を指す動作（Ｐｏｉｎｔｉｎｇ）」、「物を置く動作（ＯｂｊｅｃｔＰｕｔ）」について、映像から各動作を検出することができた再現率〔Ｒｅｃａｌｌ〕（％）を測定した。

〔表１〕に、従来のＳＵＲＦ特徴量のみで動作を検出した場合（ＳＵＲＦ）、ＳＵＲＦ特徴量に角度の特徴量（方向特徴量）を付加して動作を検出した場合（ＳＵＲＦ＋ａｎｇｌｅ）、さらに、本発明における時間方向の特徴量である速度を付加して動作を検出した場合（ＳＵＲＦ＋ａｎｇｌｅ＋ｓｐｅｅｄ）について、それぞれ再現率の測定結果を示した。〔表１〕に示すように、本発明における時間方向の特徴量である速度を付加して動作を検出することで、再現率を高めることができた。
このように、本発明は、可変長の特徴量である時間方向の特徴量を固定長の特徴量として扱うことで、従来の動作検出手法に比べて、頑健に人物の動作を検出することができる。

１人物動作検出装置
１０特徴点軌跡情報生成手段
１１前景領域抽出手段
１２特徴点検出手段
１３特徴点追跡手段
２０特徴量抽出手段
２１時間特徴量生成手段
２１１平滑化手段
２１２方向特徴量生成手段
２１３速度特徴量生成手段
２２空間特徴量生成手段
３０動作識別手段
３１学習手段
３１１コードブック生成手段
３１２ヒストグラム生成手段
３２動作判定手段
３２１重み付きヒストグラム生成手段（重み付き分布生成手段）
３２２分類手段
４０学習データ記憶手段

Claims

人物を撮影した映像から、前記人物の動作を検出する人物動作検出装置であって、
前記映像のフレーム画像ごとに特徴点を検出し、前記フレーム画像ごとに前記特徴点の特徴量のマッチングを行うことで、前記特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する特徴点軌跡情報生成手段と、
この特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、前記特徴点の前記フレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、前記特徴点の軌跡の特徴量である軌跡特徴量とする時間特徴量生成手段と、
複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量を前記クラスタごとに累計した分布を、前記既知の動作ごとに対応付けて予め学習データとして記憶する学習データ記憶手段と、
所定時間区間ごとに、当該時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属する前記クラスタを累計した分布を生成し、前記学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似するか否かにより、前記人物の動作を識別する動作識別手段と、
を備えることを特徴とする人物動作検出装置。
前記特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置におけるフレーム画像の輝度勾配を空間特徴量として生成し、前記軌跡特徴量に付加する空間特徴量生成手段をさらに備えることを特徴とする請求項１に記載の人物動作検出装置。
前記時間特徴量生成手段は、
前記移動ベクトルの向きの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、前記移動ベクトルの向きを累計することで、前記時間特徴量を構成する特徴量である方向特徴量を生成する方向特徴量生成手段と、
前記移動ベクトルの大きさの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、前記移動ベクトルの大きさを累計することで、前記時間特徴量を構成する特徴量である速度特徴量を生成する速度特徴量生成手段と、
を備えることを特徴とする請求項１または請求項２に記載の人物動作検出装置。
前記時間特徴量生成手段は、前記特徴点軌跡情報における特徴点の軌跡を平滑化した複数の軌跡を生成する平滑化手段をさらに備え、
前記方向特徴量生成手段および前記速度特徴量生成手段は、前記平滑化手段で平滑化された複数の軌跡に対して、前記方向特徴量および前記速度特徴量をそれぞれ生成することを特徴とする請求項３に記載の人物動作検出装置。
前記動作識別手段は、
前記時間区間内に軌跡の終点が存在する個々の軌跡特徴量を単語とみなし、前記時間区間内に存在する複数の単語を文書とみなすことで、ｔｆ−ｉｄｆ法により、前記時間特徴量生成手段で生成された前記軌跡特徴量の重要度を算出し、当該軌跡特徴量が属するクラスタの頻度に重み付けを行うことでクラスタの分布を生成する重み付き分布生成手段と、
この重み付き分布生成手段で生成されたクラスタの分布と、前記学習データ記憶手段に学習データとして記憶されている動作ごとのクラスタの分布との距離に基づいて類似を判定し、前記人物の動作を分類する分類手段と、
を備えることを特徴とする請求項１から請求項４のいずれか一項に記載の人物動作検出装置。
人物を撮影した映像から、前記人物の動作を検出するために、コンピュータを、
前記映像のフレーム画像ごとに特徴点を検出し、前記フレーム画像ごとに前記特徴点の特徴量のマッチングを行うことで、前記特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する特徴点軌跡情報生成手段、
この特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、前記特徴点の前記フレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、前記特徴点の軌跡の特徴量である軌跡特徴量とする時間特徴量生成手段、
複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量を前記クラスタごとに累計した分布を、前記既知の動作ごとに対応付けて予め学習データとして記憶した学習データ記憶手段を参照して、所定時間区間ごとに、当該所定時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属する前記クラスタを累計した分布を生成し、前記学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似するか否かにより、前記人物の動作を識別する動作識別手段、
として機能させることを特徴とする人物動作検出プログラム。