JP2008026974A

JP2008026974A - 人物追跡装置

Info

Publication number: JP2008026974A
Application number: JP2006195877A
Authority: JP
Inventors: Hirosuke Hirasawa; 宏祐平澤; Yasushi Kage; 裕史鹿毛; Naohiko Suzuki; 直彦鈴木; Yoichi Sato; 洋一佐藤; Takakuni Kobayashi; 貴訓小林; Daisuke Sugimura; 大輔杉村
Original assignee: Mitsubishi Electric Corp; University of Tokyo NUC
Current assignee: Mitsubishi Electric Corp; University of Tokyo NUC
Priority date: 2006-07-18
Filing date: 2006-07-18
Publication date: 2008-02-07

Abstract

【課題】人物の追跡速度の低下を招くことなく、人物の追跡精度を高めることができる人物追跡装置を得ることを目的とする。
【解決手段】頭部位置初期化部１１が監視画像内にフレームインしてきた人物を検出すると、パーティクルフィルタを用いて、頭部位置初期化部１１により検出された人物の状態遷移を推定し、時刻ｔにおける人物の状態を示すＮ個の仮説を生成する頭部仮説位置生成部１２を設け、頭部仮説位置評価部１４が複数の識別器のうち、頭部仮説位置生成部１２により生成された仮説に適用する識別器を選択するとともに、その識別器の識別結果に基づいてＮ個の仮説を統合し、統合後の仮説を用いて人物を追跡する。
【選択図】図１

Description

この発明は、カメラ映像にフレームインした人物を検出すると、その人物の追跡処理を実施する人物追跡装置に関するものである。

カメラにより撮影された映像を解析して、その映像にフレームインした人物を追跡する技術は、カメラの小型化や低価格化、あるいは、防犯を目的とする監視カメラの普及などに伴って、セキュリティやマーケティングなどへの応用が期待されている。
ただし、カメラ映像を解析して、人物を追跡する従来の人物追跡装置では、人物が必ずしもカメラに対して一定方向を向いていないために起こるカメラ映像上で見え方が変化する問題や、広い範囲を観察することによって人物が低解像度で観察される問題や、昼間、夜間、逆光、西日などの照明が変動する問題、さらに、人物領域以外の複雑な背景の問題などに対応する必要がある。
ここで、複雑な背景の問題は、実験室レベルでは、背景を均一に設定することができるため、背景と人物領域を比較的容易に分離することができるが、実環境では、背景に人物領域と間違い易い多くのパターンが含まれていることに起因する誤認識の問題を指している。

カメラ映像を解析して、人物を追跡する技術として、パーティクルフィルタを用いる技術がある。
パーティクルフィルタは、状態量と尤度を持つ多数の仮説によって離散的な確率密度として追跡対象を表現し、それを状態遷移モデルを用いて伝播させることで、ある程度の動きの変動や観測のノイズに対して頑健な追跡を実現する手法である。この手法は、観測値が非ガウス型になる状況においても頑健な追跡を実現することができる。

パーティクルフィルタによる人物追跡では、仮説の人物らしさをカメラ映像を用いて評価するが、これには、楕円と仮定した頭部のカラーヒストグラムや輪郭の輝度変化の類似性などが用いられることが多い（例えば、特許文献１、非特許文献１を参照）。
しかし、このような比較的単純な評価手法では、見え方の変化を伴ったり、低解像度で観測したり、照明変動を伴ったり、複雑な背景下であったりすると、十分な人物の追跡精度が得られず、性能の向上を図るには、より頑健かつ高精度な評価手法が求められる。

一方で、静止画像などから人物の顔を検出する手法が数多く提案されている。
中でも、ブースティング学習による識別器を用いた顔検出手法が良く知られており、特に、Ｈａａｒ−ｌｉｋｅ特徴を用いているＡｄａＢｏｏｓｔベース識別器による顔検出手法は、低解像度であったり、照明変動を伴ったり、複雑な背景下であったりする観察にも比較的強く、その検出精度と実行速度の速さから、広く利用されるようになってきている。
ＡｄａＢｏｏｓｔベース識別器は、多数の弱識別器を線形結合することで高精度な識別器を構成するが、以下の非特許文献２には、これらをカスケード型として、検出時に用いるＨａａｒ−ｌｉｋｅ特徴を高速に計算する手法が開示されている。

カスケード型ＡｄａＢｏｏｓｔベース識別器は、学習に多くの時間を要するが、識別時には顔以外の非検出対象はカスケードの初期に棄却されるため、顔という単一の識別対象に対しては高速な処理が可能である。
しかし、識別対象を追跡するためには、識別対象の大きさを様々に変化させながら、画面全体を逐次探索しなければならず、効率的ではなかった。
即ち、識別対象の見え方の変化に対応するためには、複数の識別器を用意して、全ての識別器を適用しなければならないため、追跡速度が遅くなり、効率的ではなかった。

特開２００３−２１６９５１号公報（段落番号［００９７］〜［０２７０］、図９） M. Isard and A. Blake, "Condensation - Conditional Density Propagation for Visual Tracking," International Journal of Computer Vision, vol.29, no.1, pp.5-28, 1998. P. Viola and M. Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features," Proc. the IEEE International Conference on Computer Vision and Pattern Recognition, vol.1, pp.511-518, 2001.

従来の人物追跡装置は以上のように構成されているので、パーティクルフィルタを用いて人物を追跡するに際して、楕円と仮定した頭部のカラーヒストグラムや輪郭の輝度変化の類似性などの比較的単純な指標を用いて仮説を評価する場合、見え方の変化を伴ったり、低解像度で観測したり、照明変動を伴ったり、複雑な背景下であったりすると、十分な人物の追跡精度が得られない課題があった。
一方、十分な人物の追跡精度を得るために、頑健かつ高精度な評価手法を使用すると、人物の追跡速度が低下してしまう課題があった。

この発明は上記のような課題を解決するためになされたもので、人物の追跡速度の低下を招くことなく、人物の追跡精度を高めることができる人物追跡装置を得ることを目的とする。

この発明に係る人物追跡装置は、人物検出手段が監視領域内に存在する人物を検出すると、パーティクルフィルタを用いて、人物検出手段により検出された人物の状態遷移を推定し、或る時刻における人物の状態を示す複数の仮説を生成する仮説生成手段と、複数の識別器のうち、仮説生成手段により生成された仮説に適用する識別器を選択する識別器選択手段とを設け、人物追跡手段が識別器選択手段により選択された識別器の識別結果に基づいて仮説生成手段により生成された複数の仮説を統合し、統合後の仮説を用いて人物を追跡するようにしたものである。

この発明によれば、人物検出手段が監視領域内に存在する人物を検出すると、パーティクルフィルタを用いて、人物検出手段により検出された人物の状態遷移を推定し、或る時刻における人物の状態を示す複数の仮説を生成する仮説生成手段と、複数の識別器のうち、仮説生成手段により生成された仮説に適用する識別器を選択する識別器選択手段とを設け、人物追跡手段が識別器選択手段により選択された識別器の識別結果に基づいて仮説生成手段により生成された複数の仮説を統合し、統合後の仮説を用いて人物を追跡するように構成したので、人物の追跡速度の低下を招くことなく、人物の追跡精度を高めることができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による人物追跡装置を示す構成図であり、図１の人物追跡装置は人物の頭部の位置とサイズと向きを状態量として観測して、その人物の頭部をパーティクルフィルタによって追跡するものである。
図において、映像入力部１は単一のカメラから構成されており、映像入力部１は或る監視領域を撮影して、その監視領域の映像（以下、監視画像と称する）を人物検出追跡部２に出力する処理を実施する。なお、映像入力部１は映像収集手段を構成している。
図１では、映像入力部１が単一のカメラから構成されている例を示しているが、映像入力部１が、事前にカメラにより撮影された監視対象のアナログ映像やデジタル映像等の映像信号を撮影時刻情報と一緒に記録しているレコーダなどから構成されていてもよい。
映像入力部１がレコーダなどから構成される場合、外部入出力部３が指示する任意の時刻の監視画像をフレーム単位で人物検出追跡部２に出力する。

人物検出追跡部２は映像入力部１から出力された監視画像内にフレームインしてきた人物を検出し、その人物の頭部をパーティクルフィルタによって追跡する処理を実施する。
図１では、人物検出追跡部２が、例えば、ＭＰＵを実装している半導体集積回路基板などの専用のハードウェアで構成されている部品（頭部位置初期化部１１、頭部仮説位置生成部１２、正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ、後頭部識別器１３ｄ、頭部仮説位置評価部１４）から構成されているものを想定しているが、以下で説明するパーティクルフィルタを用いた人物追跡アルゴリズムを実行することが可能なソフトウェアを搭載しているコンピュータ装置であってもよい。

外部入出力部３は例えばキーボードなどのデータ入力装置と、例えばモニタなどのデータ出力装置とから構成されており、外部入出力部３は監視画像や人物の追跡結果などを表示する機能を備えている。
なお、外部入出力部３は監視画像を表示する際、複数のカメラが設置されていれば（ただし、この実施の形態１では、カメラの台数は１台である）、各カメラの映像を選択して個別に表示したり、複数のカメラの映像を同時に表示したりすることができる。また、人物検出追跡部２により算出された人物の動線（軌跡）を表示したり、カメラ映像に重畳して表示したりすることもできる。

人物検出追跡部２の頭部位置初期化部１１は映像入力部１から出力された監視画像を解析して、その監視画像内にフレームインしてきた人物（監視領域内に存在する人物）を検出し、追跡の初期状態として、その人物の頭部の初期位置を設定する処理を実施する。なお、頭部位置初期化部１１は人物検出手段を構成している。
人物検出追跡部２の頭部仮説位置生成部１２は頭部位置初期化部１１が監視画像内にフレームインしてきた人物の頭部の初期位置を設定すると、パーティクルフィルタを用いて、その人物の状態遷移を推定し、時刻ｔにおける当該人物の状態を示すＮ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝を生成するとともに、その仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝から人物頭部候補領域画像｛ｇ_t ⁽¹⁾，・・・，ｇ_t ^(N)｝を生成する処理を実施する。なお、頭部仮説位置生成部１２は仮説生成手段を構成している。

人物検出追跡部２の正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ及び後頭部識別器１３ｄは、仮説の評価にＨａａｒ−ｌｉｋｅ特徴を用いているカスケード型ＡｄａＢｏｏｓｔベース識別器である。
特に正面顔識別器１３ａは人物を正面から見たときの正面顔画像（人物画像）を学習しており、頭部仮説位置生成部１２により生成された人物頭部候補領域画像｛ｇ_t ⁽¹⁾，・・・，ｇ_t ^(N)｝が人物画像であるか否かを識別する処理を実施する。
左顔識別器１３ｂは人物を正面より９０度左の方向から見たときの左顔画像（人物画像）を学習しており、頭部仮説位置生成部１２により生成された人物頭部候補領域画像｛ｇ_t ⁽¹⁾，・・・，ｇ_t ^(N)｝が人物画像であるか否かを識別する処理を実施する。
右顔識別器１３ｃは人物を正面より９０度右の方向から見たときの右顔画像（人物画像）を学習しており、頭部仮説位置生成部１２により生成された人物頭部候補領域画像｛ｇ_t ⁽¹⁾，・・・，ｇ_t ^(N)｝が人物画像であるか否かを識別する処理を実施する。
後頭部識別器１３ｄは人物を背面から見たときの後頭部画像（人物画像）を学習しており、頭部仮説位置生成部１２により生成された人物頭部候補領域画像｛ｇ_t ⁽¹⁾，・・・，ｇ_t ^(N)｝が人物画像であるか否かを識別する処理を実施する。

人物検出追跡部２の頭部仮説位置評価部１４は正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ及び後頭部識別器１３ｄのうち、頭部仮説位置生成部１２により生成されたＮ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝に適用する識別器を選択し、その識別器の識別結果に基づいてＮ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝を統合し、統合後の仮説を用いて人物を追跡する処理を実施する。なお、頭部仮説位置評価部１４は識別器選択手段及び人物追跡手段を構成している。
図２はこの発明の実施の形態１による人物追跡装置の人物検出追跡部２の処理内容を示すフローチャートである。

次に動作について説明する。
映像入力部１は、或る監視領域を撮影して、その監視領域の映像である監視画像を人物検出追跡部２に出力する。
人物検出追跡部２の頭部位置初期化部１１は、映像入力部１から監視画像を受けると、その監視画像をフレーム単位で画像処理を実施することにより、その監視画像を解析して、その監視画像内にフレームインしてきた人物の検出処理を実施する（ステップＳＴ１）。
具体的には、次のようにして、監視画像内にフレームインしてきた人物を検出する。

フレームインの判定基準として、動きのある領域を自動的に抽出する方法がある。
例えば、人物が写っていないフレーム画像を背景画像として事前に取得しておき、背景画像と現在のフレーム画像との差分画像を算出する。
そして、差分画像の中に、ある閾値を超える領域があるか否かを判定し、ある閾値を超える領域があれば、その領域は動きのある領域であるので、その領域には人物が存在していると判定する。
あるいは、１つ以上前の過去のフレーム画像と現在のフレーム画像との差分画像を算出して、その差分画像の中に、ある閾値を超える領域があれば、その領域には人物が存在していると判定する。
ただし、動きのある領域は、一般的に観測ノイズを多く含むため、いわゆる膨張伸縮等の画像処理を適用することが望ましい。
なお、監視画像内にフレームインしてきた人物の検出処理は、上記の処理に限るものではなく、例えば、カスケード型ＡｄａＢｏｏｓｔベース識別器を利用するようにしてもよい。

人物検出追跡部２の頭部位置初期化部１１は、監視画像内にフレームインしてきた人物を検出すると（ステップＳＴ２）、その監視領域内から人物が存在する領域（例えば、人物を取り囲む一定サイズの外接四角形の領域）を抽出し、例えば、人物が存在する領域の上部の位置（例えば、人物の顔の中心位置）を人物の頭部の初期位置として設定する（ステップＳＴ３）。
ここでは、説明の簡単化のため、人物を一人だけ検出するものとして説明するが、人物を複数検出したときは、各人物が存在する領域を抽出し、各人物が存在する領域の上部の位置を人物の頭部の初期位置として設定する。以降の処理では、複数の人物の追跡処理を並行して実施する。

人物検出追跡部２の頭部仮説位置生成部１２は、頭部位置初期化部１１が監視画像内にフレームインしてきた人物の頭部の初期位置を設定すると、パーティクルフィルタを用いて、その人物の状態遷移を推定し、時刻ｔにおける当該人物の状態を示すＮ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝を生成するとともに、その仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝から人物頭部候補領域画像｛ｇ_t ⁽¹⁾，・・・，ｇ_t ^(N)｝を生成する。
具体的には、以下の通りである。

人物の追跡は、時刻ｔにおける事後確率Ｐ（ｘ_t｜Ｚ_t）の期待値を逐次求めることで実現することができるので、頭部仮説位置生成部１２は、頭部位置初期化部１１から時刻ｔにおける人物の状態量ｘ_t（状態量ｘ_tはｔ番目の画像フレームにおける状態ベクトルに相当し、人物の頭部の位置、サイズ、向きを示すパラメータである）、時刻ｔにおける監視画像による観測ｚ_t（観測ｚ_tはｔ番目の画像フレームにおける観測ベクトルに相当し、人物の頭部の位置、サイズ、向きを示すパラメータである）、時刻ｔまでに得られる観測Ｚ_t＝｛ｚ₁，・・・，ｚ_t｝を取得する。

このとき、時刻ｔにおける事前確率Ｐ（ｘ_t｜Ｚ_t-1）は、マルコフ過程を仮定することにより、時刻ｔ−１における事後確率Ｐ（ｘ_t-1｜Ｚ_t-1）と時刻ｔ−１から時刻ｔへの状態遷移確率Ｐ（ｘ_t｜ｘ_t-1）を用いて、以下のように表すことができる。
Ｐ（ｘ_t｜Ｚ_t-1）＝∫Ｐ（ｘ_t｜ｘ_t-1）Ｐ（ｘ_t-1｜Ｚ_t-1）ｄｘ_t-1
（１）
ここで、時刻ｔにおける事後確率Ｐ（ｘ_t｜Ｚ_t）は、Ｐ（ｚ_t｜Ｚ_t-1）を一定とすると、ベイズの法則より、時刻ｔにおける尤度Ｐ（ｚ_t｜ｘ_t）と事前確率Ｐ（ｘ_t｜Ｚ_t-1）から次のように表すことができる
Ｐ（ｘ_t｜Ｚ_t）∝Ｐ（ｚ_t｜ｘ_t）Ｐ（ｘ_t｜Ｚ_t-1）
（２）
また、パーティクルフィルタでは、時刻ｔにおける事後確率Ｐ（ｘ_t｜Ｚ_t）を状態量ｘ_tのＮ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝と、各仮説に対応する重み｛π_t ⁽¹⁾，・・・，π_t ^(N)｝によって離散的に近似することができる。

そこで、頭部仮説位置生成部１２は、前回の追跡処理において、時刻ｔ−１における事後確率Ｐ（ｘ_t-1｜Ｚ_t-1）を離散的に近似しているＮ個の仮説｛ｓ_t-1 ⁽¹⁾，・・・，ｓ_t-1 ^(N)｝と、各仮説に対応する重み｛π_t-1 ⁽¹⁾，・・・，π_t-1 ^(N)｝とを乗算するなどの重み付け処理を実施して、Ｎ個の仮説を更新する（ステップＳＴ４）。更新後のＮ個の仮説を｛ｓ^' _t-1 ⁽¹⁾，・・・，ｓ^' _t-1 ^(N)｝とする。
頭部仮説位置生成部１２は、Ｎ個の仮説を更新すると、更新後のＮ個の仮説｛ｓ^' _t-1 ⁽¹⁾，・・・，ｓ^' _t-1 ^(N)｝を状態遷移確率Ｐ（ｘ_t｜ｘ_t-1＝ｓ^' _t-1 ⁽ⁿ⁾）にしたがって伝播し、時刻ｔにおける事前確率Ｐ（ｘ_t｜Ｚ_t-1）に相当する時刻ｔにおけるＮ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝を生成する（ステップＳＴ５）。
なお、人物の頭部の時刻ｔにおけるｎ番目の仮説ｓ_t ⁽ⁿ⁾＝［ｕ_t ⁽ⁿ⁾，ｖ_t ⁽ⁿ⁾，ｌ_t ⁽ⁿ⁾，θ_t ⁽ⁿ⁾］は、映像入力部１のカメラ画像（監視画像）の座標ｕ_t ⁽ⁿ⁾，ｖ_t ⁽ⁿ⁾と、映像入力部１で撮影される人物の頭部の幅ｌ_t ⁽ⁿ⁾と、映像入力部１で撮影される人物の頭部の相対的な向き（姿勢）θ_t ⁽ⁿ⁾で記述されている。

頭部仮説位置生成部１２は、上記のようにして、時刻ｔにおけるＮ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝を生成すると、Ｎ個の仮説に記述されているカメラ画像の座標ｕ_t ⁽ⁿ⁾，ｖ_t ⁽ⁿ⁾と、人物の頭部の幅ｌ_t ⁽ⁿ⁾から一意に決定される人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を生成する。
なお、頭部仮説位置生成部１２は、カスケード型ＡｄａＢｏｏｓｔベース識別器（正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ、後頭部識別器１３ｄ）の識別対象画像サイズが固定（例えば、２４×２４ピクセル）であるため、人物頭部の幅ｌ_t ⁽ⁿ⁾を一辺とする領域の画像サイズを変更して、カスケード型ＡｄａＢｏｏｓｔベース識別器に入力可能な人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を生成する。

人物検出追跡部２の頭部仮説位置評価部１４は、頭部仮説位置生成部１２が時刻ｔにおけるＮ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝を生成すると、正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ及び後頭部識別器１３ｄのうち、Ｎ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝に適用する識別器を選択し、その識別器の識別結果に基づいてＮ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝を統合する。
以下、頭部仮説位置評価部１４の処理内容を具体的に説明する。

まず、正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ及び後頭部識別器１３ｄは、ＶｉｏｌａとＪｏｎｅｓにより提案されたカスケード型ＡｄａＢｏｏｓｔ識別器であり、図３に示すように、検出時間の短縮化を図るために、複数の識別器が縦列に組み合わせたカスケード構造をなしている。
図３において、Ｈ_iは例えば正面顔識別器１３ａを構成している識別器を表しており、各段の識別器Ｈ_iが、人物頭部候補領域画像ｇ_t ⁽ⁿ⁾が顔画像であるのか、非顔画像であるのかを判定する。
顔画像であると判定された人物頭部候補領域画像ｇ_t ⁽ⁿ⁾だけが次段の識別器に進行して、人物頭部候補領域画像ｇ_t ⁽ⁿ⁾が最後段の識別器を通過すると、最終的に顔画像であると判定される。

正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ及び後頭部識別器１３ｄを構成している識別器Ｈ_i（ｘ）は、事前に複数の顔画像と非顔画像を学習しており、カスケードの各段の識別器Ｈ_iにおいて、学習用顔画像を通過させる割合（学習用顔画像通過率）をＤｒ（０＜Ｄｒ＜１）、学習用非顔画像を通過させる割合（学習用非顔画像通過率）をＦｐ（０＜Ｆｐ＜１）とすると、ｎ段のカスケードを通過した後は、学習用顔画像はＤｒⁿ、学習用非顔画像はＦｐⁿだけ通過していることになる。
したがって、例えば、Ｄｒ＝０．９９９、Ｆｐ＝０．５とする場合、ｎ＝４０のカスケード型識別器では、学習用顔画像通過率が０．９９９⁴⁰≒０．９６、学習用非顔画像通過率が０．５⁴⁰≒９．１×１０^-13となり、学習用顔画像の殆どを通過させて、学習用非顔画像を殆ど通過させない顔検出器となる。

カスケードの各段の識別器Ｈ_i（ｘ）は、図４に示すようなＨａａｒ−ｌｉｋｅ特徴を持つ多数の弱識別器ｈ_t（ｘ）の線形結合によって、以下のように表される。

ただし、ｓｇｎ（Ａ）は、Ａが閾値Ｓ以上であれば“１”、Ａが閾値Ｓ未満であれば“０”を出力する算術関数、Ｔは用いられる弱識別器の数、α_tは学習時に決まる弱識別器のエラーε_tを用いて表される。

Ｈａａｒ−ｌｉｋｅ特徴は、矩形の位置と大きさを適用画像内でどのように取るかによって膨大な種類が存在するが、これらの中から顔をよく識別するものが学習時にＡｄａＢｏｏｓｔアルゴリズムにより選択され、各段の識別器が準備される。
カスケードの各段の識別器Ｈ_i（ｘ）は、階層が進むにしたがって、より多くの弱識別器ｈ_t（ｘ）を用いて判定を行う。
そのため、より多くの識別器を通過した人物頭部候補領域画像ｇ_t ⁽ⁿ⁾は、より多くの人物頭部の特徴を保持している。

正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ及び後頭部識別器１３ｄは、人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を入力すると、その人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を通過させた識別器Ｈ_i（ｘ）の数（カスケード段数）を人物の頭部らしさを示す評価値として頭部仮説位置評価部１４に出力する。
なお、仮説が実際の人物の頭部の状態と大きく離れて生成された場合、対応する人物頭部候補領域画像ｇ_t ⁽ⁿ⁾がカスケードの初期で棄却されるため、計算コストの点からも都合がよい。

正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ及び後頭部識別器１３ｄは、上記したように、人物の頭部らしさを示す評価値を頭部仮説位置評価部１４に出力するものであって同様の処理を実施するものであるが、事前に学習している顔画像が相違している。
即ち、正面顔識別器１３ａは人物を正面から見たときの正面顔画像、左顔識別器１３ｂは人物を正面より９０度左の方向から見たときの左顔画像、右顔識別器１３ｃは人物を正面より９０度右の方向から見たときの右顔画像、後頭部識別器１３ｄは人物を背面から見たときの後頭部画像を学習している。つまり、人物の頭部の向き（姿勢）毎に、人物頭部と非人物頭部で通過する識別器の数（カスケード段数）に十分な差がつくように学習している。

人物検出追跡部２の頭部仮説位置評価部１４は、頭部仮説位置生成部１２が人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を生成すると、正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ及び後頭部識別器１３ｄの中から、その人物頭部候補領域画像ｇ_t ⁽ⁿ⁾に記述されている人物の頭部の相対的な向きθ_t ⁽ⁿ⁾に基づいて、Ｎ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝に適用する識別器を選択する（ステップＳＴ６）。
例えば、人物の頭部の相対的な向きθ_t ⁽ⁿ⁾が−４５°〜４５°の場合、正面顔識別器１３ａを選択し、人物の頭部の相対的な向きθ_t ⁽ⁿ⁾が４５°〜１３５°の場合、左顔識別器１３ｂを選択する。
また、人物の頭部の相対的な向きθ_t ⁽ⁿ⁾が−４５°〜−１３５°の場合、右顔識別器１３ｃを選択し、人物の頭部の相対的な向きθ_t ⁽ⁿ⁾が１３５°〜１８０°又は−１３５°〜−１８０°の場合、後頭部識別器１３ｄを選択する。
ただし、ここでは、人物を正面から見たときの角度を０°、人物を背面から見たときの角度を１８０°、人物を左方向から見たときの角度の符号を“＋”、人物を右方向から見たときの角度の符号を“−”としている。

人物検出追跡部２の頭部仮説位置評価部１４は、上記のようにして、Ｎ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝に適用する識別器を選択すると、頭部仮説位置生成部１２により生成された人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を当該識別器に与える。例えば、正面顔識別器１３ａを選択すれば、人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を正面顔識別器１３ａに与え、左顔識別器１３ｂを選択すれば、人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を左顔識別器１３ｂに与える。
例えば、正面顔識別器１３ａが頭部仮説位置評価部１４から人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を与えられると、上述したように、人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を通過させた識別器Ｈ_i（ｘ）の数（カスケード段数）を人物の頭部らしさを示す評価値として頭部仮説位置評価部１４に出力する。

人物検出追跡部２の頭部仮説位置評価部１４は、人物頭部候補領域画像ｇ_t ⁽ⁿ⁾を与えた識別器から人物の頭部らしさを示す評価値を受けると、その評価値であるカスケード段数を対応する仮説ｓ_t ⁽ⁿ⁾の重みπ_t ⁽ⁿ⁾に設定する。
例えば、カスケードの全段数が４０段である場合において、人物頭部候補領域画像ｇ_t ⁽ⁿ⁾が全４０段を通過していれば、重みπ_t ⁽ⁿ⁾が４０となり、５段目のカスケードで通過を阻止されていれば、重みπ_t ⁽ⁿ⁾が４となる。

人物検出追跡部２の頭部仮説位置評価部１４は、Ｎ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝の重み｛π_t ⁽¹⁾，・・・，π_t ^(N)｝を設定すると、例えば、Ｎ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝に対応する重み｛π_t ⁽¹⁾，・・・，π_t ^(N)｝を乗算するなどの重み付け処理を実施して、Ｎ個の仮説｛ｓ_t ⁽¹⁾，・・・，ｓ_t ^(N)｝の重み平均等を演算することにより、Ｎ個の仮説を統合する（ステップＳＴ７）。
頭部仮説位置評価部１４は、Ｎ個の仮説を統合すると、統合後の仮説が時刻ｔにおける事後確率Ｐ（ｘ_t｜Ｚ_t）の期待値であるとして、人物の追跡処理を実施する（ステップＳＴ８）。即ち、仮説は、上述したように、カメラ画像（監視画像）の座標ｕ_t，ｖ_tや、人物の頭部の相対的な向き（姿勢）θ_tを要素として有しているので、時刻ｔにおける人物の位置や顔方向を推定する。人物の追跡処理自体は公知の技術であるため、その説明を省略する。
なお、人物検出追跡部２による人物の追跡結果などは、外部入出力部３に表示される。

以上で明らかなように、この実施の形態１によれば、頭部位置初期化部１１が監視画像内にフレームインしてきた人物を検出すると、パーティクルフィルタを用いて、頭部位置初期化部１１により検出された人物の状態遷移を推定し、時刻ｔにおける人物の状態を示すＮ個の仮説を生成する頭部仮説位置生成部１２を設け、頭部仮説位置評価部１４が複数の識別器のうち、頭部仮説位置生成部１２により生成された仮説に適用する識別器を選択するとともに、その識別器の識別結果に基づいてＮ個の仮説を統合し、統合後の仮説を用いて人物を追跡するように構成したので、人物の追跡速度の低下を招くことなく、人物の追跡精度を高めることができる効果を奏する。

即ち、頭部の向き毎に人物画像を学習している識別器を選択的に用いることにより、各フレームにおいて、仮説の尤度を高精度に推定することができる。このことが性能向上に大きく寄与する。このように、様々な方向で観察される検出対象に対しても、対象の向き毎に学習を行ったカスケード型ＡｄａＢｏｏｓｔベース識別器を選択的に用いることで、検出速度を犠牲にすることなく、追跡対象の多様な見え方に対応しながら高精度に対象を検出・追跡することが可能となる。
また、新しい姿勢に対して学習を行った識別器の追加に対して普遍であり（識別器を追加しても、アルゴリズムの変更が不要である）、識別器の方向を追加することで、より精度よく推定することができる。

実施の形態２．
上記実施の形態１では、映像入力部１が単一のカメラで構成されているものについて示したが、視野を共有している複数のカメラを用いて映像入力部１を構成し、三次元位置と向きを状態量として、人物の頭部を三次元空間内で追跡するようにしてもよい。
この実施の形態２では、視野を共有している複数のカメラを用いて映像入力部１を構成しているものについて説明するが、複数のカメラの代わりに、複数のチャンネルに対応しているレコーダを用いるようにしてもよい。複数のレコーダは、事前に複数のカメラにより撮影された監視対象のアナログ映像やデジタル映像等の映像信号を撮影時刻情報と一緒に記録し、外部入出力部３が指示する任意の時刻及び任意のチャンネルの監視映像をフレーム単位で人物検出追跡部２に出力する。
具体的には、以下の通りである。

映像入力部１を構成している複数のカメラは、或る監視領域を撮影して、その監視領域の映像である監視画像を人物検出追跡部２に出力する。
人物検出追跡部２は、映像入力部１から監視画像を受けると、上記実施の形態１と同様に、監視画像内にフレームインしてきた人物を検出して、その人物の頭部をパーティクルフィルタによって追跡するが、この実施の形態２では、複数のカメラにより撮影された監視画像を用いて、人物の頭部を三次元空間内で追跡する点で、上記実施の形態１と相違している。
以下、上記実施の形態１と相違している部分を詳細に説明する。

最初に、人物頭部モデルと仮説のカメラ画像（監視画像）への射影について検討する。
三次元世界座標系ＸＹＺを室内空間にとり、座標系は床面をＸＹ平面と一致させて、高さ方向をＺ軸とする。
人物頭部モデルは楕円体を仮定し、人物頭部は一定の大きさの剛体として、位置を楕円体の中心座標（ｘ，ｙ，ｚ）で表現する。
また、人物は頭部を傾けて室内を移動することは少ないと仮定して、人物頭部の向きは、図５に示すように、Ｘ軸を基準とするＺ軸回りの回転θのみで表すようにする。

人物検出追跡部２の頭部仮説位置生成部１２は、上記実施の形態１と同様にして、人物の頭部の時刻ｔにおけるｎ番目の仮説ｓ_t ⁽ⁿ⁾＝［ｘ_t ⁽ⁿ⁾，ｙ_t ⁽ⁿ⁾，ｚ_t ⁽ⁿ⁾，θ_t ⁽ⁿ⁾］を生成すると（ｘ_t ⁽ⁿ⁾，ｙ_t ⁽ⁿ⁾，ｚ_t ⁽ⁿ⁾は、カメラで監視している領域の三次元座標）、下記に示すように、ｎ番目の仮説ｓ_t ⁽ⁿ⁾を校正済みのｉ番目のカメラ画像（監視画像）に射影する。このとき、人物頭部は３次元空間内で一定のサイズであると仮定する。
Ｐ_i,t ⁽ⁿ⁾＝Ｆ_i（ｓ_t ⁽ⁿ⁾）（５）
ここで、Ｐ_i,t ⁽ⁿ⁾は、仮説ｓ_t ⁽ⁿ⁾の位置をｉ番目のカメラ画像へ射影したものであり、カメラ画像座標［ｕ_i,t ⁽ⁿ⁾，ｖ_i,t ⁽ⁿ⁾］を要素にしている。

複数のカメラによって観察される人物頭部の相対的な向きは以下のように表される。

ここで、θ_i,t ⁽ⁿ⁾はｉ番目のカメラによって観察される人物頭部の相対的な向きである。
Ｊはカメラ位置ｃ_iからＸＹ位置成分を取り出すための行列であり、Ｋは仮説ｓ_t ⁽ⁿ⁾からＸＹ位置成分を取り出すための行列である。
また、［］^xは計算結果からＸ軸に対応する要素を取り出すことを表している。複数のカメラで観察される人物頭部の幅ｌ_iは、人物頭部の楕円体モデルを射影したものを用いる。

また、頭部仮説位置生成部１２は、時刻ｔにおけるｎ番目の仮説ｓ_t ⁽ⁿ⁾を校正済みのｉ番目のカメラ画像（監視画像）に射影すると、仮説ｓ_t ⁽ⁿ⁾を射影したカメラ画像座標Ｐ_i,t ⁽ⁿ⁾を中心に，カメラ画像上での人物頭部の幅ｌ_i,t ⁽ⁿ⁾を一辺とする領域の切り出しを行う。ただし、仮説をカメラ画像に射影したとき、仮説がカメラ画像の視野外となる場合には、仮説の評価を行わないため、仮説の重みを一定の小さな値にする。
頭部仮説位置生成部１２は、カスケード型ＡｄａＢｏｏｓｔベース識別器の識別対象画像サイズが固定（例えば、２４×２４ピクセル）であるため、人物頭部の幅ｌ_i,t ⁽ⁿ⁾を一辺とする領域の画像サイズを変更して、カスケード型ＡｄａＢｏｏｓｔベース識別器に入力可能な人物頭部候補領域画像ｇ_i,t ⁽ⁿ⁾を生成する。

人物検出追跡部２の頭部仮説位置評価部１４は、頭部仮説位置生成部１２が人物頭部候補領域画像ｇ_i,t ⁽ⁿ⁾を生成すると、正面顔識別器１３ａ、左顔識別器１３ｂ、右顔識別器１３ｃ及び後頭部識別器１３ｄの中から、仮説ｓ_t ⁽ⁿ⁾の射影によって得られた人物頭部の相対的な向きθ_i,t ⁽ⁿ⁾に基づいて、ｉ×Ｎ個の仮説ｓ_t ⁽ⁿ⁾に適用する識別器を選択する。
例えば、人物の頭部の相対的な向きθ_i,t ⁽ⁿ⁾が−４５°〜４５°の場合、正面顔識別器１３ａを選択し、人物の頭部の相対的な向きθ_i,t ⁽ⁿ⁾が４５°〜１３５°の場合、左顔識別器１３ｂを選択する。
また、人物の頭部の相対的な向きθ_i,t ⁽ⁿ⁾が−４５°〜−１３５°の場合、右顔識別器１３ｃを選択し、人物の頭部の相対的な向きθ_i,t ⁽ⁿ⁾が１３５°〜１８０°又は−１３５°〜−１８０°の場合、後頭部識別器１３ｄを選択する。

人物検出追跡部２の頭部仮説位置評価部１４は、上記のようにして、ｉ×Ｎ個の仮説ｓ_t ⁽ⁿ⁾に適用する識別器を選択すると、頭部仮説位置生成部１２により生成された人物頭部候補領域画像ｇ_i,t ⁽ⁿ⁾を当該識別器に与える。例えば、正面顔識別器１３ａを選択すれば、人物頭部候補領域画像ｇ_i,t ⁽ⁿ⁾を正面顔識別器１３ａに与え、左顔識別器１３ｂを選択すれば、人物頭部候補領域画像ｇ_i,t ⁽ⁿ⁾を左顔識別器１３ｂに与える。
例えば、正面顔識別器１３ａが頭部仮説位置評価部１４から人物頭部候補領域画像ｇ_i,t ⁽ⁿ⁾を与えられると、上記実施の形態１で説明したように、人物頭部候補領域画像ｇ_i,t ⁽ⁿ⁾を通過させた識別器Ｈ_i（ｘ）の数（カスケード段数）を人物の頭部らしさを示す評価値として頭部仮説位置評価部１４に出力する。

人物検出追跡部２の頭部仮説位置評価部１４は、人物頭部候補領域画像ｇ_i,t ⁽ⁿ⁾を与えた識別器から人物の頭部らしさを示す評価値を受けると、その評価値であるカスケード段数を対応する仮説ｓ_t ⁽ⁿ⁾の重みπ_i,t ⁽ⁿ⁾に設定する。
例えば、カスケードの全段数が４０段である場合において、人物頭部候補領域画像ｇ_i,t ⁽ⁿ⁾が全４０段を通過していれば、重みπ_i,t ⁽ⁿ⁾が４０となり、５段目のカスケードで通過を阻止されていれば、重みπ_i,t ⁽ⁿ⁾が４となる。

人物検出追跡部２の頭部仮説位置評価部１４は、ｉ×Ｎ個の仮説ｓ_t ⁽ⁿ⁾の重みπ_i,t ⁽ⁿ⁾を設定すると、ｉ×Ｎ個の仮説ｓ_t ⁽ⁿ⁾の重みπ_i,t ⁽ⁿ⁾を統合する。
重みπ_i,t ⁽ⁿ⁾は、例えば、下記の式（７）に示すように、複数のカメラによる人物頭部らしさの評価に基づく重みの積として期待値をとることで、時刻ｔにおける人物頭部の状態量を推定する。

人物検出追跡部２の頭部仮説位置評価部１４は、上記のように、時刻ｔにおける人物頭部の状態量を逐次推定することで、人物の頭部を追跡し、その追跡結果などを外部入出力部３に表示する。
なお、頭部仮説位置評価部１４は、時刻ｔにおける人物頭部の三次元座標ｘ_t，ｙ_t，ｚ_tが予め登録されている人物不進入領域（例えば、店舗のカウンタや棚の位置など）に重なる場合、人物が進入できない領域に進入しており、追跡結果に誤りがある可能性が高いので、ｉ×Ｎ個の仮説ｓ_t ⁽ⁿ⁾の重みπ_i,t ⁽ⁿ⁾を更新して、ｉ×Ｎ個の仮説ｓ_t ⁽ⁿ⁾の重みπ_i,t ⁽ⁿ⁾を再統合する。

以上で明らかなように、この実施の形態２によれば、視野を共有している複数のカメラを用いて映像入力部１を構成し、複数のカメラにより撮影された映像を人物検出追跡部２に出力するように構成したので、人物の追跡を安定的に継続することができる効果を奏する。
即ち、一部のカメラで仮説の評価が低下した場合でも、他のカメラでは正しい人物頭部の位置の仮説のみ高い評価を持つため、仮説の重みを統合したとき、遮蔽の起きたカメラの影響を大きく受けることなく、安定的に追跡を継続することができる。少なくとも２台のカメラで観測されれば、高精度な三次元追跡を実施することが可能になる。
この仕組みは、カメラの追加と、新しい姿勢に対して学習を行った識別器の追加に対して普遍である（カメラや識別器を追加しても、アルゴリズムの変更が不要である）。識別器の方向を追加することで、より精度良く推定することができる。

また、この実施の形態２によれば、人物の三次元追跡が可能であるため、複数のカメラ間での人物の対応付けの問題を回避することができるとともに、複数の人物間で遮蔽（複数の人間が重なって、一方の人間が他方の人間に隠れてしまう状況）が発生しても、複数の人物の追跡を継続することができる。

また、この実施の形態２によれば、人物の追跡結果が予め登録されている人物不進入領域に進入していることを示す場合、複数の仮説を再統合するように構成したので、上記実施の形態１よりも更に追跡精度を高めることができる効果を奏する。

この発明の実施の形態１による人物追跡装置を示す構成図である。この発明の実施の形態１による人物追跡装置の人物検出追跡部２の処理内容を示すフローチャートである。カスケード型ＡｄａＢｏｏｓｔ識別器を示す模式図である。Ｈａａｒ−ｌｉｋｅ特徴を示す模式図である。人物頭部モデルを示す模式図である。

符号の説明

１映像入力部（映像収集手段）、２人物検出追跡部、３外部入出力部、１１頭部位置初期化部（人物検出手段）、１２頭部仮説位置生成部（仮説生成手段）、１３ａ正面顔識別器、１３ｂ左顔識別器、１３ｃ右顔識別器、１３ｄ後頭部識別器、１４頭部仮説位置評価部（識別器選択手段、人物追跡手段）。

Claims

監視領域の映像を収集する映像収集手段と、上記映像収集手段により収集された映像を解析して、上記監視領域内に存在する人物を検出する人物検出手段と、パーティクルフィルタを用いて、上記人物検出手段により検出された人物の状態遷移を推定し、或る時刻における当該人物の状態を示す複数の仮説を生成する仮説生成手段と、相互に異なる人物画像が学習されており、上記仮説に係る画像が人物画像であるか否かを識別する複数の識別器と、上記複数の識別器のうち、上記仮説生成手段により生成された仮説に適用する識別器を選択する識別器選択手段と、上記識別器選択手段により選択された識別器の識別結果に基づいて上記仮説生成手段により生成された複数の仮説を統合し、統合後の仮説を用いて人物を追跡する人物追跡手段とを備えた人物追跡装置。
識別器選択手段は、複数の識別器が相互に異なる姿勢の人物画像を学習している場合、仮説生成手段により生成された仮説から得られる人物の姿勢を基準にして識別器を選択することを特徴とする請求項１記載の人物追跡装置。
視野を共有している複数のカメラを用いて映像収集手段を構成し、上記複数のカメラにより撮影された映像を人物検出手段に出力することを特徴とする請求項１または請求項２記載の人物追跡装置。
識別器は、人物画像として顔画像を学習しており、仮説に係る画像が顔画像であるか否かを識別することを特徴とする請求項１から請求項３のうちのいずれか１項記載の人物追跡装置。
識別器がカスケード型識別器である場合、仮説に係る画像を通過させている識別器のカスケード段数を識別結果として評価することを特徴とする請求項１から請求項４のうちのいずれか１項記載の人物追跡装置。
人物追跡手段は、統合後の仮説を用いて人物の顔方向を推定することを特徴とする請求項１から請求項５のうちのいずれか１項記載の人物追跡装置。
人物追跡手段は、人物の追跡結果が予め登録されている人物不進入領域に進入していることを示す場合、仮説生成手段により生成された複数の仮説を再統合することを特徴とする請求項３記載の人物追跡装置。