JP2008026974A - 人物追跡装置 - Google Patents
人物追跡装置 Download PDFInfo
- Publication number
- JP2008026974A JP2008026974A JP2006195877A JP2006195877A JP2008026974A JP 2008026974 A JP2008026974 A JP 2008026974A JP 2006195877 A JP2006195877 A JP 2006195877A JP 2006195877 A JP2006195877 A JP 2006195877A JP 2008026974 A JP2008026974 A JP 2008026974A
- Authority
- JP
- Japan
- Prior art keywords
- person
- head
- image
- hypothesis
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
【課題】人物の追跡速度の低下を招くことなく、人物の追跡精度を高めることができる人物追跡装置を得ることを目的とする。
【解決手段】頭部位置初期化部11が監視画像内にフレームインしてきた人物を検出すると、パーティクルフィルタを用いて、頭部位置初期化部11により検出された人物の状態遷移を推定し、時刻tにおける人物の状態を示すN個の仮説を生成する頭部仮説位置生成部12を設け、頭部仮説位置評価部14が複数の識別器のうち、頭部仮説位置生成部12により生成された仮説に適用する識別器を選択するとともに、その識別器の識別結果に基づいてN個の仮説を統合し、統合後の仮説を用いて人物を追跡する。
【選択図】図1
【解決手段】頭部位置初期化部11が監視画像内にフレームインしてきた人物を検出すると、パーティクルフィルタを用いて、頭部位置初期化部11により検出された人物の状態遷移を推定し、時刻tにおける人物の状態を示すN個の仮説を生成する頭部仮説位置生成部12を設け、頭部仮説位置評価部14が複数の識別器のうち、頭部仮説位置生成部12により生成された仮説に適用する識別器を選択するとともに、その識別器の識別結果に基づいてN個の仮説を統合し、統合後の仮説を用いて人物を追跡する。
【選択図】図1
Description
この発明は、カメラ映像にフレームインした人物を検出すると、その人物の追跡処理を実施する人物追跡装置に関するものである。
カメラにより撮影された映像を解析して、その映像にフレームインした人物を追跡する技術は、カメラの小型化や低価格化、あるいは、防犯を目的とする監視カメラの普及などに伴って、セキュリティやマーケティングなどへの応用が期待されている。
ただし、カメラ映像を解析して、人物を追跡する従来の人物追跡装置では、人物が必ずしもカメラに対して一定方向を向いていないために起こるカメラ映像上で見え方が変化する問題や、広い範囲を観察することによって人物が低解像度で観察される問題や、昼間、夜間、逆光、西日などの照明が変動する問題、さらに、人物領域以外の複雑な背景の問題などに対応する必要がある。
ここで、複雑な背景の問題は、実験室レベルでは、背景を均一に設定することができるため、背景と人物領域を比較的容易に分離することができるが、実環境では、背景に人物領域と間違い易い多くのパターンが含まれていることに起因する誤認識の問題を指している。
ただし、カメラ映像を解析して、人物を追跡する従来の人物追跡装置では、人物が必ずしもカメラに対して一定方向を向いていないために起こるカメラ映像上で見え方が変化する問題や、広い範囲を観察することによって人物が低解像度で観察される問題や、昼間、夜間、逆光、西日などの照明が変動する問題、さらに、人物領域以外の複雑な背景の問題などに対応する必要がある。
ここで、複雑な背景の問題は、実験室レベルでは、背景を均一に設定することができるため、背景と人物領域を比較的容易に分離することができるが、実環境では、背景に人物領域と間違い易い多くのパターンが含まれていることに起因する誤認識の問題を指している。
カメラ映像を解析して、人物を追跡する技術として、パーティクルフィルタを用いる技術がある。
パーティクルフィルタは、状態量と尤度を持つ多数の仮説によって離散的な確率密度として追跡対象を表現し、それを状態遷移モデルを用いて伝播させることで、ある程度の動きの変動や観測のノイズに対して頑健な追跡を実現する手法である。この手法は、観測値が非ガウス型になる状況においても頑健な追跡を実現することができる。
パーティクルフィルタは、状態量と尤度を持つ多数の仮説によって離散的な確率密度として追跡対象を表現し、それを状態遷移モデルを用いて伝播させることで、ある程度の動きの変動や観測のノイズに対して頑健な追跡を実現する手法である。この手法は、観測値が非ガウス型になる状況においても頑健な追跡を実現することができる。
パーティクルフィルタによる人物追跡では、仮説の人物らしさをカメラ映像を用いて評価するが、これには、楕円と仮定した頭部のカラーヒストグラムや輪郭の輝度変化の類似性などが用いられることが多い(例えば、特許文献1、非特許文献1を参照)。
しかし、このような比較的単純な評価手法では、見え方の変化を伴ったり、低解像度で観測したり、照明変動を伴ったり、複雑な背景下であったりすると、十分な人物の追跡精度が得られず、性能の向上を図るには、より頑健かつ高精度な評価手法が求められる。
しかし、このような比較的単純な評価手法では、見え方の変化を伴ったり、低解像度で観測したり、照明変動を伴ったり、複雑な背景下であったりすると、十分な人物の追跡精度が得られず、性能の向上を図るには、より頑健かつ高精度な評価手法が求められる。
一方で、静止画像などから人物の顔を検出する手法が数多く提案されている。
中でも、ブースティング学習による識別器を用いた顔検出手法が良く知られており、特に、Haar−like特徴を用いているAdaBoostベース識別器による顔検出手法は、低解像度であったり、照明変動を伴ったり、複雑な背景下であったりする観察にも比較的強く、その検出精度と実行速度の速さから、広く利用されるようになってきている。
AdaBoostベース識別器は、多数の弱識別器を線形結合することで高精度な識別器を構成するが、以下の非特許文献2には、これらをカスケード型として、検出時に用いるHaar−like特徴を高速に計算する手法が開示されている。
中でも、ブースティング学習による識別器を用いた顔検出手法が良く知られており、特に、Haar−like特徴を用いているAdaBoostベース識別器による顔検出手法は、低解像度であったり、照明変動を伴ったり、複雑な背景下であったりする観察にも比較的強く、その検出精度と実行速度の速さから、広く利用されるようになってきている。
AdaBoostベース識別器は、多数の弱識別器を線形結合することで高精度な識別器を構成するが、以下の非特許文献2には、これらをカスケード型として、検出時に用いるHaar−like特徴を高速に計算する手法が開示されている。
カスケード型AdaBoostベース識別器は、学習に多くの時間を要するが、識別時には顔以外の非検出対象はカスケードの初期に棄却されるため、顔という単一の識別対象に対しては高速な処理が可能である。
しかし、識別対象を追跡するためには、識別対象の大きさを様々に変化させながら、画面全体を逐次探索しなければならず、効率的ではなかった。
即ち、識別対象の見え方の変化に対応するためには、複数の識別器を用意して、全ての識別器を適用しなければならないため、追跡速度が遅くなり、効率的ではなかった。
しかし、識別対象を追跡するためには、識別対象の大きさを様々に変化させながら、画面全体を逐次探索しなければならず、効率的ではなかった。
即ち、識別対象の見え方の変化に対応するためには、複数の識別器を用意して、全ての識別器を適用しなければならないため、追跡速度が遅くなり、効率的ではなかった。
従来の人物追跡装置は以上のように構成されているので、パーティクルフィルタを用いて人物を追跡するに際して、楕円と仮定した頭部のカラーヒストグラムや輪郭の輝度変化の類似性などの比較的単純な指標を用いて仮説を評価する場合、見え方の変化を伴ったり、低解像度で観測したり、照明変動を伴ったり、複雑な背景下であったりすると、十分な人物の追跡精度が得られない課題があった。
一方、十分な人物の追跡精度を得るために、頑健かつ高精度な評価手法を使用すると、人物の追跡速度が低下してしまう課題があった。
一方、十分な人物の追跡精度を得るために、頑健かつ高精度な評価手法を使用すると、人物の追跡速度が低下してしまう課題があった。
この発明は上記のような課題を解決するためになされたもので、人物の追跡速度の低下を招くことなく、人物の追跡精度を高めることができる人物追跡装置を得ることを目的とする。
この発明に係る人物追跡装置は、人物検出手段が監視領域内に存在する人物を検出すると、パーティクルフィルタを用いて、人物検出手段により検出された人物の状態遷移を推定し、或る時刻における人物の状態を示す複数の仮説を生成する仮説生成手段と、複数の識別器のうち、仮説生成手段により生成された仮説に適用する識別器を選択する識別器選択手段とを設け、人物追跡手段が識別器選択手段により選択された識別器の識別結果に基づいて仮説生成手段により生成された複数の仮説を統合し、統合後の仮説を用いて人物を追跡するようにしたものである。
この発明によれば、人物検出手段が監視領域内に存在する人物を検出すると、パーティクルフィルタを用いて、人物検出手段により検出された人物の状態遷移を推定し、或る時刻における人物の状態を示す複数の仮説を生成する仮説生成手段と、複数の識別器のうち、仮説生成手段により生成された仮説に適用する識別器を選択する識別器選択手段とを設け、人物追跡手段が識別器選択手段により選択された識別器の識別結果に基づいて仮説生成手段により生成された複数の仮説を統合し、統合後の仮説を用いて人物を追跡するように構成したので、人物の追跡速度の低下を招くことなく、人物の追跡精度を高めることができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による人物追跡装置を示す構成図であり、図1の人物追跡装置は人物の頭部の位置とサイズと向きを状態量として観測して、その人物の頭部をパーティクルフィルタによって追跡するものである。
図において、映像入力部1は単一のカメラから構成されており、映像入力部1は或る監視領域を撮影して、その監視領域の映像(以下、監視画像と称する)を人物検出追跡部2に出力する処理を実施する。なお、映像入力部1は映像収集手段を構成している。
図1では、映像入力部1が単一のカメラから構成されている例を示しているが、映像入力部1が、事前にカメラにより撮影された監視対象のアナログ映像やデジタル映像等の映像信号を撮影時刻情報と一緒に記録しているレコーダなどから構成されていてもよい。
映像入力部1がレコーダなどから構成される場合、外部入出力部3が指示する任意の時刻の監視画像をフレーム単位で人物検出追跡部2に出力する。
図1はこの発明の実施の形態1による人物追跡装置を示す構成図であり、図1の人物追跡装置は人物の頭部の位置とサイズと向きを状態量として観測して、その人物の頭部をパーティクルフィルタによって追跡するものである。
図において、映像入力部1は単一のカメラから構成されており、映像入力部1は或る監視領域を撮影して、その監視領域の映像(以下、監視画像と称する)を人物検出追跡部2に出力する処理を実施する。なお、映像入力部1は映像収集手段を構成している。
図1では、映像入力部1が単一のカメラから構成されている例を示しているが、映像入力部1が、事前にカメラにより撮影された監視対象のアナログ映像やデジタル映像等の映像信号を撮影時刻情報と一緒に記録しているレコーダなどから構成されていてもよい。
映像入力部1がレコーダなどから構成される場合、外部入出力部3が指示する任意の時刻の監視画像をフレーム単位で人物検出追跡部2に出力する。
人物検出追跡部2は映像入力部1から出力された監視画像内にフレームインしてきた人物を検出し、その人物の頭部をパーティクルフィルタによって追跡する処理を実施する。
図1では、人物検出追跡部2が、例えば、MPUを実装している半導体集積回路基板などの専用のハードウェアで構成されている部品(頭部位置初期化部11、頭部仮説位置生成部12、正面顔識別器13a、左顔識別器13b、右顔識別器13c、後頭部識別器13d、頭部仮説位置評価部14)から構成されているものを想定しているが、以下で説明するパーティクルフィルタを用いた人物追跡アルゴリズムを実行することが可能なソフトウェアを搭載しているコンピュータ装置であってもよい。
図1では、人物検出追跡部2が、例えば、MPUを実装している半導体集積回路基板などの専用のハードウェアで構成されている部品(頭部位置初期化部11、頭部仮説位置生成部12、正面顔識別器13a、左顔識別器13b、右顔識別器13c、後頭部識別器13d、頭部仮説位置評価部14)から構成されているものを想定しているが、以下で説明するパーティクルフィルタを用いた人物追跡アルゴリズムを実行することが可能なソフトウェアを搭載しているコンピュータ装置であってもよい。
外部入出力部3は例えばキーボードなどのデータ入力装置と、例えばモニタなどのデータ出力装置とから構成されており、外部入出力部3は監視画像や人物の追跡結果などを表示する機能を備えている。
なお、外部入出力部3は監視画像を表示する際、複数のカメラが設置されていれば(ただし、この実施の形態1では、カメラの台数は1台である)、各カメラの映像を選択して個別に表示したり、複数のカメラの映像を同時に表示したりすることができる。また、人物検出追跡部2により算出された人物の動線(軌跡)を表示したり、カメラ映像に重畳して表示したりすることもできる。
なお、外部入出力部3は監視画像を表示する際、複数のカメラが設置されていれば(ただし、この実施の形態1では、カメラの台数は1台である)、各カメラの映像を選択して個別に表示したり、複数のカメラの映像を同時に表示したりすることができる。また、人物検出追跡部2により算出された人物の動線(軌跡)を表示したり、カメラ映像に重畳して表示したりすることもできる。
人物検出追跡部2の頭部位置初期化部11は映像入力部1から出力された監視画像を解析して、その監視画像内にフレームインしてきた人物(監視領域内に存在する人物)を検出し、追跡の初期状態として、その人物の頭部の初期位置を設定する処理を実施する。なお、頭部位置初期化部11は人物検出手段を構成している。
人物検出追跡部2の頭部仮説位置生成部12は頭部位置初期化部11が監視画像内にフレームインしてきた人物の頭部の初期位置を設定すると、パーティクルフィルタを用いて、その人物の状態遷移を推定し、時刻tにおける当該人物の状態を示すN個の仮説{st (1),・・・,st (N)}を生成するとともに、その仮説{st (1),・・・,st (N)}から人物頭部候補領域画像{gt (1),・・・,gt (N)}を生成する処理を実施する。なお、頭部仮説位置生成部12は仮説生成手段を構成している。
人物検出追跡部2の頭部仮説位置生成部12は頭部位置初期化部11が監視画像内にフレームインしてきた人物の頭部の初期位置を設定すると、パーティクルフィルタを用いて、その人物の状態遷移を推定し、時刻tにおける当該人物の状態を示すN個の仮説{st (1),・・・,st (N)}を生成するとともに、その仮説{st (1),・・・,st (N)}から人物頭部候補領域画像{gt (1),・・・,gt (N)}を生成する処理を実施する。なお、頭部仮説位置生成部12は仮説生成手段を構成している。
人物検出追跡部2の正面顔識別器13a、左顔識別器13b、右顔識別器13c及び後頭部識別器13dは、仮説の評価にHaar−like特徴を用いているカスケード型AdaBoostベース識別器である。
特に正面顔識別器13aは人物を正面から見たときの正面顔画像(人物画像)を学習しており、頭部仮説位置生成部12により生成された人物頭部候補領域画像{gt (1),・・・,gt (N)}が人物画像であるか否かを識別する処理を実施する。
左顔識別器13bは人物を正面より90度左の方向から見たときの左顔画像(人物画像)を学習しており、頭部仮説位置生成部12により生成された人物頭部候補領域画像{gt (1),・・・,gt (N)}が人物画像であるか否かを識別する処理を実施する。
右顔識別器13cは人物を正面より90度右の方向から見たときの右顔画像(人物画像)を学習しており、頭部仮説位置生成部12により生成された人物頭部候補領域画像{gt (1),・・・,gt (N)}が人物画像であるか否かを識別する処理を実施する。
後頭部識別器13dは人物を背面から見たときの後頭部画像(人物画像)を学習しており、頭部仮説位置生成部12により生成された人物頭部候補領域画像{gt (1),・・・,gt (N)}が人物画像であるか否かを識別する処理を実施する。
特に正面顔識別器13aは人物を正面から見たときの正面顔画像(人物画像)を学習しており、頭部仮説位置生成部12により生成された人物頭部候補領域画像{gt (1),・・・,gt (N)}が人物画像であるか否かを識別する処理を実施する。
左顔識別器13bは人物を正面より90度左の方向から見たときの左顔画像(人物画像)を学習しており、頭部仮説位置生成部12により生成された人物頭部候補領域画像{gt (1),・・・,gt (N)}が人物画像であるか否かを識別する処理を実施する。
右顔識別器13cは人物を正面より90度右の方向から見たときの右顔画像(人物画像)を学習しており、頭部仮説位置生成部12により生成された人物頭部候補領域画像{gt (1),・・・,gt (N)}が人物画像であるか否かを識別する処理を実施する。
後頭部識別器13dは人物を背面から見たときの後頭部画像(人物画像)を学習しており、頭部仮説位置生成部12により生成された人物頭部候補領域画像{gt (1),・・・,gt (N)}が人物画像であるか否かを識別する処理を実施する。
人物検出追跡部2の頭部仮説位置評価部14は正面顔識別器13a、左顔識別器13b、右顔識別器13c及び後頭部識別器13dのうち、頭部仮説位置生成部12により生成されたN個の仮説{st (1),・・・,st (N)}に適用する識別器を選択し、その識別器の識別結果に基づいてN個の仮説{st (1),・・・,st (N)}を統合し、統合後の仮説を用いて人物を追跡する処理を実施する。なお、頭部仮説位置評価部14は識別器選択手段及び人物追跡手段を構成している。
図2はこの発明の実施の形態1による人物追跡装置の人物検出追跡部2の処理内容を示すフローチャートである。
図2はこの発明の実施の形態1による人物追跡装置の人物検出追跡部2の処理内容を示すフローチャートである。
次に動作について説明する。
映像入力部1は、或る監視領域を撮影して、その監視領域の映像である監視画像を人物検出追跡部2に出力する。
人物検出追跡部2の頭部位置初期化部11は、映像入力部1から監視画像を受けると、その監視画像をフレーム単位で画像処理を実施することにより、その監視画像を解析して、その監視画像内にフレームインしてきた人物の検出処理を実施する(ステップST1)。
具体的には、次のようにして、監視画像内にフレームインしてきた人物を検出する。
映像入力部1は、或る監視領域を撮影して、その監視領域の映像である監視画像を人物検出追跡部2に出力する。
人物検出追跡部2の頭部位置初期化部11は、映像入力部1から監視画像を受けると、その監視画像をフレーム単位で画像処理を実施することにより、その監視画像を解析して、その監視画像内にフレームインしてきた人物の検出処理を実施する(ステップST1)。
具体的には、次のようにして、監視画像内にフレームインしてきた人物を検出する。
フレームインの判定基準として、動きのある領域を自動的に抽出する方法がある。
例えば、人物が写っていないフレーム画像を背景画像として事前に取得しておき、背景画像と現在のフレーム画像との差分画像を算出する。
そして、差分画像の中に、ある閾値を超える領域があるか否かを判定し、ある閾値を超える領域があれば、その領域は動きのある領域であるので、その領域には人物が存在していると判定する。
あるいは、1つ以上前の過去のフレーム画像と現在のフレーム画像との差分画像を算出して、その差分画像の中に、ある閾値を超える領域があれば、その領域には人物が存在していると判定する。
ただし、動きのある領域は、一般的に観測ノイズを多く含むため、いわゆる膨張伸縮等の画像処理を適用することが望ましい。
なお、監視画像内にフレームインしてきた人物の検出処理は、上記の処理に限るものではなく、例えば、カスケード型AdaBoostベース識別器を利用するようにしてもよい。
例えば、人物が写っていないフレーム画像を背景画像として事前に取得しておき、背景画像と現在のフレーム画像との差分画像を算出する。
そして、差分画像の中に、ある閾値を超える領域があるか否かを判定し、ある閾値を超える領域があれば、その領域は動きのある領域であるので、その領域には人物が存在していると判定する。
あるいは、1つ以上前の過去のフレーム画像と現在のフレーム画像との差分画像を算出して、その差分画像の中に、ある閾値を超える領域があれば、その領域には人物が存在していると判定する。
ただし、動きのある領域は、一般的に観測ノイズを多く含むため、いわゆる膨張伸縮等の画像処理を適用することが望ましい。
なお、監視画像内にフレームインしてきた人物の検出処理は、上記の処理に限るものではなく、例えば、カスケード型AdaBoostベース識別器を利用するようにしてもよい。
人物検出追跡部2の頭部位置初期化部11は、監視画像内にフレームインしてきた人物を検出すると(ステップST2)、その監視領域内から人物が存在する領域(例えば、人物を取り囲む一定サイズの外接四角形の領域)を抽出し、例えば、人物が存在する領域の上部の位置(例えば、人物の顔の中心位置)を人物の頭部の初期位置として設定する(ステップST3)。
ここでは、説明の簡単化のため、人物を一人だけ検出するものとして説明するが、人物を複数検出したときは、各人物が存在する領域を抽出し、各人物が存在する領域の上部の位置を人物の頭部の初期位置として設定する。以降の処理では、複数の人物の追跡処理を並行して実施する。
ここでは、説明の簡単化のため、人物を一人だけ検出するものとして説明するが、人物を複数検出したときは、各人物が存在する領域を抽出し、各人物が存在する領域の上部の位置を人物の頭部の初期位置として設定する。以降の処理では、複数の人物の追跡処理を並行して実施する。
人物検出追跡部2の頭部仮説位置生成部12は、頭部位置初期化部11が監視画像内にフレームインしてきた人物の頭部の初期位置を設定すると、パーティクルフィルタを用いて、その人物の状態遷移を推定し、時刻tにおける当該人物の状態を示すN個の仮説{st (1),・・・,st (N)}を生成するとともに、その仮説{st (1),・・・,st (N)}から人物頭部候補領域画像{gt (1),・・・,gt (N)}を生成する。
具体的には、以下の通りである。
具体的には、以下の通りである。
人物の追跡は、時刻tにおける事後確率P(xt|Zt)の期待値を逐次求めることで実現することができるので、頭部仮説位置生成部12は、頭部位置初期化部11から時刻tにおける人物の状態量xt(状態量xtはt番目の画像フレームにおける状態ベクトルに相当し、人物の頭部の位置、サイズ、向きを示すパラメータである)、時刻tにおける監視画像による観測zt(観測ztはt番目の画像フレームにおける観測ベクトルに相当し、人物の頭部の位置、サイズ、向きを示すパラメータである)、時刻tまでに得られる観測Zt={z1,・・・,zt}を取得する。
このとき、時刻tにおける事前確率P(xt|Zt-1)は、マルコフ過程を仮定することにより、時刻t−1における事後確率P(xt-1|Zt-1)と時刻t−1から時刻tへの状態遷移確率P(xt|xt-1)を用いて、以下のように表すことができる。
P(xt|Zt-1)=∫P(xt|xt-1)P(xt-1|Zt-1)dxt-1
(1)
ここで、時刻tにおける事後確率P(xt|Zt)は、P(zt|Zt-1)を一定とすると、ベイズの法則より、時刻tにおける尤度P(zt|xt)と事前確率P(xt|Zt-1)から次のように表すことができる
P(xt|Zt)∝P(zt|xt)P(xt|Zt-1)
(2)
また、パーティクルフィルタでは、時刻tにおける事後確率P(xt|Zt)を状態量xtのN個の仮説{st (1),・・・,st (N)}と、各仮説に対応する重み{πt (1),・・・,πt (N)}によって離散的に近似することができる。
P(xt|Zt-1)=∫P(xt|xt-1)P(xt-1|Zt-1)dxt-1
(1)
ここで、時刻tにおける事後確率P(xt|Zt)は、P(zt|Zt-1)を一定とすると、ベイズの法則より、時刻tにおける尤度P(zt|xt)と事前確率P(xt|Zt-1)から次のように表すことができる
P(xt|Zt)∝P(zt|xt)P(xt|Zt-1)
(2)
また、パーティクルフィルタでは、時刻tにおける事後確率P(xt|Zt)を状態量xtのN個の仮説{st (1),・・・,st (N)}と、各仮説に対応する重み{πt (1),・・・,πt (N)}によって離散的に近似することができる。
そこで、頭部仮説位置生成部12は、前回の追跡処理において、時刻t−1における事後確率P(xt-1|Zt-1)を離散的に近似しているN個の仮説{st-1 (1),・・・,st-1 (N)}と、各仮説に対応する重み{πt-1 (1),・・・,πt-1 (N)}とを乗算するなどの重み付け処理を実施して、N個の仮説を更新する(ステップST4)。更新後のN個の仮説を{s' t-1 (1),・・・,s' t-1 (N)}とする。
頭部仮説位置生成部12は、N個の仮説を更新すると、更新後のN個の仮説{s' t-1 (1),・・・,s' t-1 (N)}を状態遷移確率P(xt|xt-1=s' t-1 (n))にしたがって伝播し、時刻tにおける事前確率P(xt|Zt-1)に相当する時刻tにおけるN個の仮説{st (1),・・・,st (N)}を生成する(ステップST5)。
なお、人物の頭部の時刻tにおけるn番目の仮説st (n)=[ut (n),vt (n),lt (n),θt (n)]は、映像入力部1のカメラ画像(監視画像)の座標ut (n),vt (n)と、映像入力部1で撮影される人物の頭部の幅lt (n)と、映像入力部1で撮影される人物の頭部の相対的な向き(姿勢)θt (n)で記述されている。
頭部仮説位置生成部12は、N個の仮説を更新すると、更新後のN個の仮説{s' t-1 (1),・・・,s' t-1 (N)}を状態遷移確率P(xt|xt-1=s' t-1 (n))にしたがって伝播し、時刻tにおける事前確率P(xt|Zt-1)に相当する時刻tにおけるN個の仮説{st (1),・・・,st (N)}を生成する(ステップST5)。
なお、人物の頭部の時刻tにおけるn番目の仮説st (n)=[ut (n),vt (n),lt (n),θt (n)]は、映像入力部1のカメラ画像(監視画像)の座標ut (n),vt (n)と、映像入力部1で撮影される人物の頭部の幅lt (n)と、映像入力部1で撮影される人物の頭部の相対的な向き(姿勢)θt (n)で記述されている。
頭部仮説位置生成部12は、上記のようにして、時刻tにおけるN個の仮説{st (1),・・・,st (N)}を生成すると、N個の仮説に記述されているカメラ画像の座標ut (n),vt (n)と、人物の頭部の幅lt (n)から一意に決定される人物頭部候補領域画像gt (n)を生成する。
なお、頭部仮説位置生成部12は、カスケード型AdaBoostベース識別器(正面顔識別器13a、左顔識別器13b、右顔識別器13c、後頭部識別器13d)の識別対象画像サイズが固定(例えば、24×24ピクセル)であるため、人物頭部の幅lt (n)を一辺とする領域の画像サイズを変更して、カスケード型AdaBoostベース識別器に入力可能な人物頭部候補領域画像gt (n)を生成する。
なお、頭部仮説位置生成部12は、カスケード型AdaBoostベース識別器(正面顔識別器13a、左顔識別器13b、右顔識別器13c、後頭部識別器13d)の識別対象画像サイズが固定(例えば、24×24ピクセル)であるため、人物頭部の幅lt (n)を一辺とする領域の画像サイズを変更して、カスケード型AdaBoostベース識別器に入力可能な人物頭部候補領域画像gt (n)を生成する。
人物検出追跡部2の頭部仮説位置評価部14は、頭部仮説位置生成部12が時刻tにおけるN個の仮説{st (1),・・・,st (N)}を生成すると、正面顔識別器13a、左顔識別器13b、右顔識別器13c及び後頭部識別器13dのうち、N個の仮説{st (1),・・・,st (N)}に適用する識別器を選択し、その識別器の識別結果に基づいてN個の仮説{st (1),・・・,st (N)}を統合する。
以下、頭部仮説位置評価部14の処理内容を具体的に説明する。
以下、頭部仮説位置評価部14の処理内容を具体的に説明する。
まず、正面顔識別器13a、左顔識別器13b、右顔識別器13c及び後頭部識別器13dは、ViolaとJonesにより提案されたカスケード型AdaBoost識別器であり、図3に示すように、検出時間の短縮化を図るために、複数の識別器が縦列に組み合わせたカスケード構造をなしている。
図3において、Hiは例えば正面顔識別器13aを構成している識別器を表しており、各段の識別器Hiが、人物頭部候補領域画像gt (n)が顔画像であるのか、非顔画像であるのかを判定する。
顔画像であると判定された人物頭部候補領域画像gt (n)だけが次段の識別器に進行して、人物頭部候補領域画像gt (n)が最後段の識別器を通過すると、最終的に顔画像であると判定される。
図3において、Hiは例えば正面顔識別器13aを構成している識別器を表しており、各段の識別器Hiが、人物頭部候補領域画像gt (n)が顔画像であるのか、非顔画像であるのかを判定する。
顔画像であると判定された人物頭部候補領域画像gt (n)だけが次段の識別器に進行して、人物頭部候補領域画像gt (n)が最後段の識別器を通過すると、最終的に顔画像であると判定される。
正面顔識別器13a、左顔識別器13b、右顔識別器13c及び後頭部識別器13dを構成している識別器Hi(x)は、事前に複数の顔画像と非顔画像を学習しており、カスケードの各段の識別器Hiにおいて、学習用顔画像を通過させる割合(学習用顔画像通過率)をDr(0<Dr<1)、学習用非顔画像を通過させる割合(学習用非顔画像通過率)をFp(0<Fp<1)とすると、n段のカスケードを通過した後は、学習用顔画像はDrn、学習用非顔画像はFpnだけ通過していることになる。
したがって、例えば、Dr=0.999、Fp=0.5とする場合、n=40のカスケード型識別器では、学習用顔画像通過率が0.99940≒0.96、学習用非顔画像通過率が0.540≒9.1×10-13となり、学習用顔画像の殆どを通過させて、学習用非顔画像を殆ど通過させない顔検出器となる。
したがって、例えば、Dr=0.999、Fp=0.5とする場合、n=40のカスケード型識別器では、学習用顔画像通過率が0.99940≒0.96、学習用非顔画像通過率が0.540≒9.1×10-13となり、学習用顔画像の殆どを通過させて、学習用非顔画像を殆ど通過させない顔検出器となる。
カスケードの各段の識別器Hi(x)は、図4に示すようなHaar−like特徴を持つ多数の弱識別器ht(x)の線形結合によって、以下のように表される。
ただし、sgn(A)は、Aが閾値S以上であれば“1”、Aが閾値S未満であれば“0”を出力する算術関数、Tは用いられる弱識別器の数、αtは学習時に決まる弱識別器のエラーεtを用いて表される。
Haar−like特徴は、矩形の位置と大きさを適用画像内でどのように取るかによって膨大な種類が存在するが、これらの中から顔をよく識別するものが学習時にAdaBoostアルゴリズムにより選択され、各段の識別器が準備される。
カスケードの各段の識別器Hi(x)は、階層が進むにしたがって、より多くの弱識別器ht(x)を用いて判定を行う。
そのため、より多くの識別器を通過した人物頭部候補領域画像gt (n)は、より多くの人物頭部の特徴を保持している。
カスケードの各段の識別器Hi(x)は、階層が進むにしたがって、より多くの弱識別器ht(x)を用いて判定を行う。
そのため、より多くの識別器を通過した人物頭部候補領域画像gt (n)は、より多くの人物頭部の特徴を保持している。
正面顔識別器13a、左顔識別器13b、右顔識別器13c及び後頭部識別器13dは、人物頭部候補領域画像gt (n)を入力すると、その人物頭部候補領域画像gt (n)を通過させた識別器Hi(x)の数(カスケード段数)を人物の頭部らしさを示す評価値として頭部仮説位置評価部14に出力する。
なお、仮説が実際の人物の頭部の状態と大きく離れて生成された場合、対応する人物頭部候補領域画像gt (n)がカスケードの初期で棄却されるため、計算コストの点からも都合がよい。
なお、仮説が実際の人物の頭部の状態と大きく離れて生成された場合、対応する人物頭部候補領域画像gt (n)がカスケードの初期で棄却されるため、計算コストの点からも都合がよい。
正面顔識別器13a、左顔識別器13b、右顔識別器13c及び後頭部識別器13dは、上記したように、人物の頭部らしさを示す評価値を頭部仮説位置評価部14に出力するものであって同様の処理を実施するものであるが、事前に学習している顔画像が相違している。
即ち、正面顔識別器13aは人物を正面から見たときの正面顔画像、左顔識別器13bは人物を正面より90度左の方向から見たときの左顔画像、右顔識別器13cは人物を正面より90度右の方向から見たときの右顔画像、後頭部識別器13dは人物を背面から見たときの後頭部画像を学習している。つまり、人物の頭部の向き(姿勢)毎に、人物頭部と非人物頭部で通過する識別器の数(カスケード段数)に十分な差がつくように学習している。
即ち、正面顔識別器13aは人物を正面から見たときの正面顔画像、左顔識別器13bは人物を正面より90度左の方向から見たときの左顔画像、右顔識別器13cは人物を正面より90度右の方向から見たときの右顔画像、後頭部識別器13dは人物を背面から見たときの後頭部画像を学習している。つまり、人物の頭部の向き(姿勢)毎に、人物頭部と非人物頭部で通過する識別器の数(カスケード段数)に十分な差がつくように学習している。
人物検出追跡部2の頭部仮説位置評価部14は、頭部仮説位置生成部12が人物頭部候補領域画像gt (n)を生成すると、正面顔識別器13a、左顔識別器13b、右顔識別器13c及び後頭部識別器13dの中から、その人物頭部候補領域画像gt (n)に記述されている人物の頭部の相対的な向きθt (n)に基づいて、N個の仮説{st (1),・・・,st (N)}に適用する識別器を選択する(ステップST6)。
例えば、人物の頭部の相対的な向きθt (n)が−45°〜45°の場合、正面顔識別器13aを選択し、人物の頭部の相対的な向きθt (n)が45°〜135°の場合、左顔識別器13bを選択する。
また、人物の頭部の相対的な向きθt (n)が−45°〜−135°の場合、右顔識別器13cを選択し、人物の頭部の相対的な向きθt (n)が135°〜180°又は−135°〜−180°の場合、後頭部識別器13dを選択する。
ただし、ここでは、人物を正面から見たときの角度を0°、人物を背面から見たときの角度を180°、人物を左方向から見たときの角度の符号を“+”、人物を右方向から見たときの角度の符号を“−”としている。
例えば、人物の頭部の相対的な向きθt (n)が−45°〜45°の場合、正面顔識別器13aを選択し、人物の頭部の相対的な向きθt (n)が45°〜135°の場合、左顔識別器13bを選択する。
また、人物の頭部の相対的な向きθt (n)が−45°〜−135°の場合、右顔識別器13cを選択し、人物の頭部の相対的な向きθt (n)が135°〜180°又は−135°〜−180°の場合、後頭部識別器13dを選択する。
ただし、ここでは、人物を正面から見たときの角度を0°、人物を背面から見たときの角度を180°、人物を左方向から見たときの角度の符号を“+”、人物を右方向から見たときの角度の符号を“−”としている。
人物検出追跡部2の頭部仮説位置評価部14は、上記のようにして、N個の仮説{st (1),・・・,st (N)}に適用する識別器を選択すると、頭部仮説位置生成部12により生成された人物頭部候補領域画像gt (n)を当該識別器に与える。例えば、正面顔識別器13aを選択すれば、人物頭部候補領域画像gt (n)を正面顔識別器13aに与え、左顔識別器13bを選択すれば、人物頭部候補領域画像gt (n)を左顔識別器13bに与える。
例えば、正面顔識別器13aが頭部仮説位置評価部14から人物頭部候補領域画像gt (n)を与えられると、上述したように、人物頭部候補領域画像gt (n)を通過させた識別器Hi(x)の数(カスケード段数)を人物の頭部らしさを示す評価値として頭部仮説位置評価部14に出力する。
例えば、正面顔識別器13aが頭部仮説位置評価部14から人物頭部候補領域画像gt (n)を与えられると、上述したように、人物頭部候補領域画像gt (n)を通過させた識別器Hi(x)の数(カスケード段数)を人物の頭部らしさを示す評価値として頭部仮説位置評価部14に出力する。
人物検出追跡部2の頭部仮説位置評価部14は、人物頭部候補領域画像gt (n)を与えた識別器から人物の頭部らしさを示す評価値を受けると、その評価値であるカスケード段数を対応する仮説st (n)の重みπt (n)に設定する。
例えば、カスケードの全段数が40段である場合において、人物頭部候補領域画像gt (n)が全40段を通過していれば、重みπt (n)が40となり、5段目のカスケードで通過を阻止されていれば、重みπt (n)が4となる。
例えば、カスケードの全段数が40段である場合において、人物頭部候補領域画像gt (n)が全40段を通過していれば、重みπt (n)が40となり、5段目のカスケードで通過を阻止されていれば、重みπt (n)が4となる。
人物検出追跡部2の頭部仮説位置評価部14は、N個の仮説{st (1),・・・,st (N)}の重み{πt (1),・・・,πt (N)}を設定すると、例えば、N個の仮説{st (1),・・・,st (N)}に対応する重み{πt (1),・・・,πt (N)}を乗算するなどの重み付け処理を実施して、N個の仮説{st (1),・・・,st (N)}の重み平均等を演算することにより、N個の仮説を統合する(ステップST7)。
頭部仮説位置評価部14は、N個の仮説を統合すると、統合後の仮説が時刻tにおける事後確率P(xt|Zt)の期待値であるとして、人物の追跡処理を実施する(ステップST8)。即ち、仮説は、上述したように、カメラ画像(監視画像)の座標ut,vtや、人物の頭部の相対的な向き(姿勢)θtを要素として有しているので、時刻tにおける人物の位置や顔方向を推定する。人物の追跡処理自体は公知の技術であるため、その説明を省略する。
なお、人物検出追跡部2による人物の追跡結果などは、外部入出力部3に表示される。
頭部仮説位置評価部14は、N個の仮説を統合すると、統合後の仮説が時刻tにおける事後確率P(xt|Zt)の期待値であるとして、人物の追跡処理を実施する(ステップST8)。即ち、仮説は、上述したように、カメラ画像(監視画像)の座標ut,vtや、人物の頭部の相対的な向き(姿勢)θtを要素として有しているので、時刻tにおける人物の位置や顔方向を推定する。人物の追跡処理自体は公知の技術であるため、その説明を省略する。
なお、人物検出追跡部2による人物の追跡結果などは、外部入出力部3に表示される。
以上で明らかなように、この実施の形態1によれば、頭部位置初期化部11が監視画像内にフレームインしてきた人物を検出すると、パーティクルフィルタを用いて、頭部位置初期化部11により検出された人物の状態遷移を推定し、時刻tにおける人物の状態を示すN個の仮説を生成する頭部仮説位置生成部12を設け、頭部仮説位置評価部14が複数の識別器のうち、頭部仮説位置生成部12により生成された仮説に適用する識別器を選択するとともに、その識別器の識別結果に基づいてN個の仮説を統合し、統合後の仮説を用いて人物を追跡するように構成したので、人物の追跡速度の低下を招くことなく、人物の追跡精度を高めることができる効果を奏する。
即ち、頭部の向き毎に人物画像を学習している識別器を選択的に用いることにより、各フレームにおいて、仮説の尤度を高精度に推定することができる。このことが性能向上に大きく寄与する。このように、様々な方向で観察される検出対象に対しても、対象の向き毎に学習を行ったカスケード型AdaBoostベース識別器を選択的に用いることで、検出速度を犠牲にすることなく、追跡対象の多様な見え方に対応しながら高精度に対象を検出・追跡することが可能となる。
また、新しい姿勢に対して学習を行った識別器の追加に対して普遍であり(識別器を追加しても、アルゴリズムの変更が不要である)、識別器の方向を追加することで、より精度よく推定することができる。
また、新しい姿勢に対して学習を行った識別器の追加に対して普遍であり(識別器を追加しても、アルゴリズムの変更が不要である)、識別器の方向を追加することで、より精度よく推定することができる。
実施の形態2.
上記実施の形態1では、映像入力部1が単一のカメラで構成されているものについて示したが、視野を共有している複数のカメラを用いて映像入力部1を構成し、三次元位置と向きを状態量として、人物の頭部を三次元空間内で追跡するようにしてもよい。
この実施の形態2では、視野を共有している複数のカメラを用いて映像入力部1を構成しているものについて説明するが、複数のカメラの代わりに、複数のチャンネルに対応しているレコーダを用いるようにしてもよい。複数のレコーダは、事前に複数のカメラにより撮影された監視対象のアナログ映像やデジタル映像等の映像信号を撮影時刻情報と一緒に記録し、外部入出力部3が指示する任意の時刻及び任意のチャンネルの監視映像をフレーム単位で人物検出追跡部2に出力する。
具体的には、以下の通りである。
上記実施の形態1では、映像入力部1が単一のカメラで構成されているものについて示したが、視野を共有している複数のカメラを用いて映像入力部1を構成し、三次元位置と向きを状態量として、人物の頭部を三次元空間内で追跡するようにしてもよい。
この実施の形態2では、視野を共有している複数のカメラを用いて映像入力部1を構成しているものについて説明するが、複数のカメラの代わりに、複数のチャンネルに対応しているレコーダを用いるようにしてもよい。複数のレコーダは、事前に複数のカメラにより撮影された監視対象のアナログ映像やデジタル映像等の映像信号を撮影時刻情報と一緒に記録し、外部入出力部3が指示する任意の時刻及び任意のチャンネルの監視映像をフレーム単位で人物検出追跡部2に出力する。
具体的には、以下の通りである。
映像入力部1を構成している複数のカメラは、或る監視領域を撮影して、その監視領域の映像である監視画像を人物検出追跡部2に出力する。
人物検出追跡部2は、映像入力部1から監視画像を受けると、上記実施の形態1と同様に、監視画像内にフレームインしてきた人物を検出して、その人物の頭部をパーティクルフィルタによって追跡するが、この実施の形態2では、複数のカメラにより撮影された監視画像を用いて、人物の頭部を三次元空間内で追跡する点で、上記実施の形態1と相違している。
以下、上記実施の形態1と相違している部分を詳細に説明する。
人物検出追跡部2は、映像入力部1から監視画像を受けると、上記実施の形態1と同様に、監視画像内にフレームインしてきた人物を検出して、その人物の頭部をパーティクルフィルタによって追跡するが、この実施の形態2では、複数のカメラにより撮影された監視画像を用いて、人物の頭部を三次元空間内で追跡する点で、上記実施の形態1と相違している。
以下、上記実施の形態1と相違している部分を詳細に説明する。
最初に、人物頭部モデルと仮説のカメラ画像(監視画像)への射影について検討する。
三次元世界座標系XYZを室内空間にとり、座標系は床面をXY平面と一致させて、高さ方向をZ軸とする。
人物頭部モデルは楕円体を仮定し、人物頭部は一定の大きさの剛体として、位置を楕円体の中心座標(x,y,z)で表現する。
また、人物は頭部を傾けて室内を移動することは少ないと仮定して、人物頭部の向きは、図5に示すように、X軸を基準とするZ軸回りの回転θのみで表すようにする。
三次元世界座標系XYZを室内空間にとり、座標系は床面をXY平面と一致させて、高さ方向をZ軸とする。
人物頭部モデルは楕円体を仮定し、人物頭部は一定の大きさの剛体として、位置を楕円体の中心座標(x,y,z)で表現する。
また、人物は頭部を傾けて室内を移動することは少ないと仮定して、人物頭部の向きは、図5に示すように、X軸を基準とするZ軸回りの回転θのみで表すようにする。
人物検出追跡部2の頭部仮説位置生成部12は、上記実施の形態1と同様にして、人物の頭部の時刻tにおけるn番目の仮説st (n)=[xt (n),yt (n),zt (n),θt (n)]を生成すると(xt (n),yt (n),zt (n)は、カメラで監視している領域の三次元座標)、下記に示すように、n番目の仮説st (n)を校正済みのi番目のカメラ画像(監視画像)に射影する。このとき、人物頭部は3次元空間内で一定のサイズであると仮定する。
Pi,t (n)=Fi(st (n)) (5)
ここで、Pi,t (n)は、仮説st (n)の位置をi番目のカメラ画像へ射影したものであり、カメラ画像座標[ui,t (n),vi,t (n)]を要素にしている。
Pi,t (n)=Fi(st (n)) (5)
ここで、Pi,t (n)は、仮説st (n)の位置をi番目のカメラ画像へ射影したものであり、カメラ画像座標[ui,t (n),vi,t (n)]を要素にしている。
複数のカメラによって観察される人物頭部の相対的な向きは以下のように表される。
ここで、θi,t (n)はi番目のカメラによって観察される人物頭部の相対的な向きである。
Jはカメラ位置ciからXY位置成分を取り出すための行列であり、Kは仮説st (n)からXY位置成分を取り出すための行列である。
また、[]xは計算結果からX軸に対応する要素を取り出すことを表している。複数のカメラで観察される人物頭部の幅liは、人物頭部の楕円体モデルを射影したものを用いる。
Jはカメラ位置ciからXY位置成分を取り出すための行列であり、Kは仮説st (n)からXY位置成分を取り出すための行列である。
また、[]xは計算結果からX軸に対応する要素を取り出すことを表している。複数のカメラで観察される人物頭部の幅liは、人物頭部の楕円体モデルを射影したものを用いる。
また、頭部仮説位置生成部12は、時刻tにおけるn番目の仮説st (n)を校正済みのi番目のカメラ画像(監視画像)に射影すると、仮説st (n)を射影したカメラ画像座標Pi,t (n)を中心に,カメラ画像上での人物頭部の幅li,t (n)を一辺とする領域の切り出しを行う。ただし、仮説をカメラ画像に射影したとき、仮説がカメラ画像の視野外となる場合には、仮説の評価を行わないため、仮説の重みを一定の小さな値にする。
頭部仮説位置生成部12は、カスケード型AdaBoostベース識別器の識別対象画像サイズが固定(例えば、24×24ピクセル)であるため、人物頭部の幅li,t (n)を一辺とする領域の画像サイズを変更して、カスケード型AdaBoostベース識別器に入力可能な人物頭部候補領域画像gi,t (n)を生成する。
頭部仮説位置生成部12は、カスケード型AdaBoostベース識別器の識別対象画像サイズが固定(例えば、24×24ピクセル)であるため、人物頭部の幅li,t (n)を一辺とする領域の画像サイズを変更して、カスケード型AdaBoostベース識別器に入力可能な人物頭部候補領域画像gi,t (n)を生成する。
人物検出追跡部2の頭部仮説位置評価部14は、頭部仮説位置生成部12が人物頭部候補領域画像gi,t (n)を生成すると、正面顔識別器13a、左顔識別器13b、右顔識別器13c及び後頭部識別器13dの中から、仮説st (n)の射影によって得られた人物頭部の相対的な向きθi,t (n)に基づいて、i×N個の仮説st (n)に適用する識別器を選択する。
例えば、人物の頭部の相対的な向きθi,t (n)が−45°〜45°の場合、正面顔識別器13aを選択し、人物の頭部の相対的な向きθi,t (n)が45°〜135°の場合、左顔識別器13bを選択する。
また、人物の頭部の相対的な向きθi,t (n)が−45°〜−135°の場合、右顔識別器13cを選択し、人物の頭部の相対的な向きθi,t (n)が135°〜180°又は−135°〜−180°の場合、後頭部識別器13dを選択する。
例えば、人物の頭部の相対的な向きθi,t (n)が−45°〜45°の場合、正面顔識別器13aを選択し、人物の頭部の相対的な向きθi,t (n)が45°〜135°の場合、左顔識別器13bを選択する。
また、人物の頭部の相対的な向きθi,t (n)が−45°〜−135°の場合、右顔識別器13cを選択し、人物の頭部の相対的な向きθi,t (n)が135°〜180°又は−135°〜−180°の場合、後頭部識別器13dを選択する。
人物検出追跡部2の頭部仮説位置評価部14は、上記のようにして、i×N個の仮説st (n)に適用する識別器を選択すると、頭部仮説位置生成部12により生成された人物頭部候補領域画像gi,t (n)を当該識別器に与える。例えば、正面顔識別器13aを選択すれば、人物頭部候補領域画像gi,t (n)を正面顔識別器13aに与え、左顔識別器13bを選択すれば、人物頭部候補領域画像gi,t (n)を左顔識別器13bに与える。
例えば、正面顔識別器13aが頭部仮説位置評価部14から人物頭部候補領域画像gi,t (n)を与えられると、上記実施の形態1で説明したように、人物頭部候補領域画像gi,t (n)を通過させた識別器Hi(x)の数(カスケード段数)を人物の頭部らしさを示す評価値として頭部仮説位置評価部14に出力する。
例えば、正面顔識別器13aが頭部仮説位置評価部14から人物頭部候補領域画像gi,t (n)を与えられると、上記実施の形態1で説明したように、人物頭部候補領域画像gi,t (n)を通過させた識別器Hi(x)の数(カスケード段数)を人物の頭部らしさを示す評価値として頭部仮説位置評価部14に出力する。
人物検出追跡部2の頭部仮説位置評価部14は、人物頭部候補領域画像gi,t (n)を与えた識別器から人物の頭部らしさを示す評価値を受けると、その評価値であるカスケード段数を対応する仮説st (n)の重みπi,t (n)に設定する。
例えば、カスケードの全段数が40段である場合において、人物頭部候補領域画像gi,t (n)が全40段を通過していれば、重みπi,t (n)が40となり、5段目のカスケードで通過を阻止されていれば、重みπi,t (n)が4となる。
例えば、カスケードの全段数が40段である場合において、人物頭部候補領域画像gi,t (n)が全40段を通過していれば、重みπi,t (n)が40となり、5段目のカスケードで通過を阻止されていれば、重みπi,t (n)が4となる。
人物検出追跡部2の頭部仮説位置評価部14は、i×N個の仮説st (n)の重みπi,t (n)を設定すると、i×N個の仮説st (n)の重みπi,t (n)を統合する。
重みπi,t (n)は、例えば、下記の式(7)に示すように、複数のカメラによる人物頭部らしさの評価に基づく重みの積として期待値をとることで、時刻tにおける人物頭部の状態量を推定する。
重みπi,t (n)は、例えば、下記の式(7)に示すように、複数のカメラによる人物頭部らしさの評価に基づく重みの積として期待値をとることで、時刻tにおける人物頭部の状態量を推定する。
人物検出追跡部2の頭部仮説位置評価部14は、上記のように、時刻tにおける人物頭部の状態量を逐次推定することで、人物の頭部を追跡し、その追跡結果などを外部入出力部3に表示する。
なお、頭部仮説位置評価部14は、時刻tにおける人物頭部の三次元座標xt,yt,ztが予め登録されている人物不進入領域(例えば、店舗のカウンタや棚の位置など)に重なる場合、人物が進入できない領域に進入しており、追跡結果に誤りがある可能性が高いので、i×N個の仮説st (n)の重みπi,t (n)を更新して、i×N個の仮説st (n)の重みπi,t (n)を再統合する。
なお、頭部仮説位置評価部14は、時刻tにおける人物頭部の三次元座標xt,yt,ztが予め登録されている人物不進入領域(例えば、店舗のカウンタや棚の位置など)に重なる場合、人物が進入できない領域に進入しており、追跡結果に誤りがある可能性が高いので、i×N個の仮説st (n)の重みπi,t (n)を更新して、i×N個の仮説st (n)の重みπi,t (n)を再統合する。
以上で明らかなように、この実施の形態2によれば、視野を共有している複数のカメラを用いて映像入力部1を構成し、複数のカメラにより撮影された映像を人物検出追跡部2に出力するように構成したので、人物の追跡を安定的に継続することができる効果を奏する。
即ち、一部のカメラで仮説の評価が低下した場合でも、他のカメラでは正しい人物頭部の位置の仮説のみ高い評価を持つため、仮説の重みを統合したとき、遮蔽の起きたカメラの影響を大きく受けることなく、安定的に追跡を継続することができる。少なくとも2台のカメラで観測されれば、高精度な三次元追跡を実施することが可能になる。
この仕組みは、カメラの追加と、新しい姿勢に対して学習を行った識別器の追加に対して普遍である(カメラや識別器を追加しても、アルゴリズムの変更が不要である)。識別器の方向を追加することで、より精度良く推定することができる。
即ち、一部のカメラで仮説の評価が低下した場合でも、他のカメラでは正しい人物頭部の位置の仮説のみ高い評価を持つため、仮説の重みを統合したとき、遮蔽の起きたカメラの影響を大きく受けることなく、安定的に追跡を継続することができる。少なくとも2台のカメラで観測されれば、高精度な三次元追跡を実施することが可能になる。
この仕組みは、カメラの追加と、新しい姿勢に対して学習を行った識別器の追加に対して普遍である(カメラや識別器を追加しても、アルゴリズムの変更が不要である)。識別器の方向を追加することで、より精度良く推定することができる。
また、この実施の形態2によれば、人物の三次元追跡が可能であるため、複数のカメラ間での人物の対応付けの問題を回避することができるとともに、複数の人物間で遮蔽(複数の人間が重なって、一方の人間が他方の人間に隠れてしまう状況)が発生しても、複数の人物の追跡を継続することができる。
また、この実施の形態2によれば、人物の追跡結果が予め登録されている人物不進入領域に進入していることを示す場合、複数の仮説を再統合するように構成したので、上記実施の形態1よりも更に追跡精度を高めることができる効果を奏する。
1 映像入力部(映像収集手段)、2 人物検出追跡部、3 外部入出力部、11 頭部位置初期化部(人物検出手段)、12 頭部仮説位置生成部(仮説生成手段)、13a 正面顔識別器、13b 左顔識別器、13c 右顔識別器、13d 後頭部識別器、14 頭部仮説位置評価部(識別器選択手段、人物追跡手段)。
Claims (7)
- 監視領域の映像を収集する映像収集手段と、上記映像収集手段により収集された映像を解析して、上記監視領域内に存在する人物を検出する人物検出手段と、パーティクルフィルタを用いて、上記人物検出手段により検出された人物の状態遷移を推定し、或る時刻における当該人物の状態を示す複数の仮説を生成する仮説生成手段と、相互に異なる人物画像が学習されており、上記仮説に係る画像が人物画像であるか否かを識別する複数の識別器と、上記複数の識別器のうち、上記仮説生成手段により生成された仮説に適用する識別器を選択する識別器選択手段と、上記識別器選択手段により選択された識別器の識別結果に基づいて上記仮説生成手段により生成された複数の仮説を統合し、統合後の仮説を用いて人物を追跡する人物追跡手段とを備えた人物追跡装置。
- 識別器選択手段は、複数の識別器が相互に異なる姿勢の人物画像を学習している場合、仮説生成手段により生成された仮説から得られる人物の姿勢を基準にして識別器を選択することを特徴とする請求項1記載の人物追跡装置。
- 視野を共有している複数のカメラを用いて映像収集手段を構成し、上記複数のカメラにより撮影された映像を人物検出手段に出力することを特徴とする請求項1または請求項2記載の人物追跡装置。
- 識別器は、人物画像として顔画像を学習しており、仮説に係る画像が顔画像であるか否かを識別することを特徴とする請求項1から請求項3のうちのいずれか1項記載の人物追跡装置。
- 識別器がカスケード型識別器である場合、仮説に係る画像を通過させている識別器のカスケード段数を識別結果として評価することを特徴とする請求項1から請求項4のうちのいずれか1項記載の人物追跡装置。
- 人物追跡手段は、統合後の仮説を用いて人物の顔方向を推定することを特徴とする請求項1から請求項5のうちのいずれか1項記載の人物追跡装置。
- 人物追跡手段は、人物の追跡結果が予め登録されている人物不進入領域に進入していることを示す場合、仮説生成手段により生成された複数の仮説を再統合することを特徴とする請求項3記載の人物追跡装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006195877A JP2008026974A (ja) | 2006-07-18 | 2006-07-18 | 人物追跡装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006195877A JP2008026974A (ja) | 2006-07-18 | 2006-07-18 | 人物追跡装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008026974A true JP2008026974A (ja) | 2008-02-07 |
Family
ID=39117572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006195877A Pending JP2008026974A (ja) | 2006-07-18 | 2006-07-18 | 人物追跡装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008026974A (ja) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009031951A (ja) * | 2007-07-25 | 2009-02-12 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
WO2009113231A1 (ja) * | 2008-03-14 | 2009-09-17 | 株式会社ソニー・コンピュータエンタテインメント | 画像処理装置および画像処理方法 |
JP2010041526A (ja) * | 2008-08-07 | 2010-02-18 | Chiba Univ | 自動追尾装置 |
JP2010092123A (ja) * | 2008-10-03 | 2010-04-22 | Canon Inc | 情報処理装置及び情報処理方法 |
JP2010102568A (ja) * | 2008-10-24 | 2010-05-06 | Canon Inc | 情報処理装置 |
JP2010113513A (ja) * | 2008-11-06 | 2010-05-20 | Sony Corp | 画像処理装置、画像処理方法、プログラム |
WO2010055629A1 (ja) * | 2008-11-11 | 2010-05-20 | パナソニック株式会社 | 特徴量抽出装置、物体識別装置及び特徴量抽出方法 |
JP2010185812A (ja) * | 2009-02-13 | 2010-08-26 | Toto Ltd | 人体検知装置及びそれを備えた小便器 |
JP2010193333A (ja) * | 2009-02-20 | 2010-09-02 | Casio Computer Co Ltd | 撮像装置、撮像方法及びプログラム |
JP2011516825A (ja) * | 2008-02-27 | 2011-05-26 | アジョン ユニバーシティ インダストリー コーポレーション ファウンデーション | パーティクルフィルターに基づく音響センサーを利用した3次元空間での客体追跡方法 |
CN102737251A (zh) * | 2011-03-31 | 2012-10-17 | 索尼公司 | 图像处理设备、图像处理方法、程序和记录介质 |
US8400520B2 (en) | 2009-08-11 | 2013-03-19 | Nikon Corporation | Subject tracking program and camera using template matching processing |
JP2013105343A (ja) * | 2011-11-14 | 2013-05-30 | Toshiba Corp | 画像処理装置、方法、及び画像表示装置 |
US10297040B2 (en) | 2016-08-10 | 2019-05-21 | Fujitsu Limited | Image processing method, image processing apparatus and medium storing image processing program |
JP2020109556A (ja) * | 2018-12-29 | 2020-07-16 | 日本テレビ放送網株式会社 | 距離推定装置、距離推定方法及びプログラム |
JP2021184564A (ja) * | 2020-05-22 | 2021-12-02 | パナソニックIpマネジメント株式会社 | 画像追尾装置 |
-
2006
- 2006-07-18 JP JP2006195877A patent/JP2008026974A/ja active Pending
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140458B2 (en) | 2007-07-25 | 2012-03-20 | Sony Corporation | Information processing apparatus, information processing method, and computer program |
JP2009031951A (ja) * | 2007-07-25 | 2009-02-12 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2011516825A (ja) * | 2008-02-27 | 2011-05-26 | アジョン ユニバーシティ インダストリー コーポレーション ファウンデーション | パーティクルフィルターに基づく音響センサーを利用した3次元空間での客体追跡方法 |
WO2009113231A1 (ja) * | 2008-03-14 | 2009-09-17 | 株式会社ソニー・コンピュータエンタテインメント | 画像処理装置および画像処理方法 |
JP4756660B2 (ja) * | 2008-03-14 | 2011-08-24 | 株式会社ソニー・コンピュータエンタテインメント | 画像処理装置および画像処理方法 |
JPWO2009113231A1 (ja) * | 2008-03-14 | 2011-07-21 | 株式会社ソニー・コンピュータエンタテインメント | 画像処理装置および画像処理方法 |
US8331619B2 (en) | 2008-03-14 | 2012-12-11 | Sony Computer Entertainment Inc. | Image processing apparatus and image processing method |
JP2010041526A (ja) * | 2008-08-07 | 2010-02-18 | Chiba Univ | 自動追尾装置 |
JP2010092123A (ja) * | 2008-10-03 | 2010-04-22 | Canon Inc | 情報処理装置及び情報処理方法 |
US8526738B2 (en) | 2008-10-24 | 2013-09-03 | Canon Kabushiki Kaisha | Information processing apparatus including a plurality of multi-stage connected information processing units |
JP2010102568A (ja) * | 2008-10-24 | 2010-05-06 | Canon Inc | 情報処理装置 |
JP4687772B2 (ja) * | 2008-11-06 | 2011-05-25 | ソニー株式会社 | 画像処理装置、画像処理方法、プログラム |
US8160370B2 (en) | 2008-11-06 | 2012-04-17 | Sony Corporation | Image processing apparatus, image processing method, and program |
JP2010113513A (ja) * | 2008-11-06 | 2010-05-20 | Sony Corp | 画像処理装置、画像処理方法、プログラム |
JP2010117772A (ja) * | 2008-11-11 | 2010-05-27 | Panasonic Corp | 特徴量抽出装置、物体識別装置及び特徴量抽出方法 |
CN102209974A (zh) * | 2008-11-11 | 2011-10-05 | 松下电器产业株式会社 | 特征量提取装置、物体识别装置、以及特征量提取方法 |
US8649608B2 (en) | 2008-11-11 | 2014-02-11 | Panasonic Corporation | Feature value extracting device, object identification device, and feature value extracting method |
WO2010055629A1 (ja) * | 2008-11-11 | 2010-05-20 | パナソニック株式会社 | 特徴量抽出装置、物体識別装置及び特徴量抽出方法 |
JP2010185812A (ja) * | 2009-02-13 | 2010-08-26 | Toto Ltd | 人体検知装置及びそれを備えた小便器 |
JP2010193333A (ja) * | 2009-02-20 | 2010-09-02 | Casio Computer Co Ltd | 撮像装置、撮像方法及びプログラム |
US8400520B2 (en) | 2009-08-11 | 2013-03-19 | Nikon Corporation | Subject tracking program and camera using template matching processing |
CN102737251A (zh) * | 2011-03-31 | 2012-10-17 | 索尼公司 | 图像处理设备、图像处理方法、程序和记录介质 |
JP2013105343A (ja) * | 2011-11-14 | 2013-05-30 | Toshiba Corp | 画像処理装置、方法、及び画像表示装置 |
US9042637B2 (en) | 2011-11-14 | 2015-05-26 | Kabushiki Kaisha Toshiba | Image processing device, method of processing image, and image display apparatus |
US10297040B2 (en) | 2016-08-10 | 2019-05-21 | Fujitsu Limited | Image processing method, image processing apparatus and medium storing image processing program |
JP2020109556A (ja) * | 2018-12-29 | 2020-07-16 | 日本テレビ放送網株式会社 | 距離推定装置、距離推定方法及びプログラム |
JP7212998B2 (ja) | 2018-12-29 | 2023-01-26 | 日本テレビ放送網株式会社 | 距離推定装置、距離推定方法及びプログラム |
JP2021184564A (ja) * | 2020-05-22 | 2021-12-02 | パナソニックIpマネジメント株式会社 | 画像追尾装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008026974A (ja) | 人物追跡装置 | |
Kale et al. | Moving object tracking using optical flow and motion vector estimation | |
Tian et al. | Robust and efficient foreground analysis in complex surveillance videos | |
US8320618B2 (en) | Object tracker and object tracking method | |
US7003135B2 (en) | System and method for rapidly tracking multiple faces | |
US9213896B2 (en) | Method for detecting and tracking objects in image sequences of scenes acquired by a stationary camera | |
Bayona et al. | Comparative evaluation of stationary foreground object detection algorithms based on background subtraction techniques | |
US6421462B1 (en) | Technique for differencing an image | |
US20090319560A1 (en) | System and method for multi-agent event detection and recognition | |
JP2016099941A (ja) | オブジェクト位置推定システム、及びそのプログラム | |
JP2009026314A (ja) | 複数の外見モデルを用いた多姿勢顔追跡 | |
JP2004227160A (ja) | 侵入物体検出装置 | |
JP2019186955A (ja) | 情報処理システム、情報処理方法及びプログラム | |
Jiang et al. | Multiple pedestrian tracking using colour and motion models | |
Manikandan et al. | Video object extraction by using background subtraction techniques for sports applications | |
Zaidi et al. | Video anomaly detection and classification for human activity recognition | |
Nallasivam et al. | Moving human target detection and tracking in video frames | |
Angelo | A novel approach on object detection and tracking using adaptive background subtraction method | |
Almomani et al. | Segtrack: A novel tracking system with improved object segmentation | |
US20200311438A1 (en) | Representative image generation device and representative image generation method | |
JPH06111018A (ja) | イメージ処理システム | |
JP2009211525A (ja) | 物体検出装置 | |
Ilao et al. | Crowd estimation using region-specific HOG With SVM | |
JP2007510994A (ja) | ビデオ画像内でのオブジェクトトラッキング | |
Huang et al. | Motion characteristics estimation of animals in video surveillance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080821 |