JP5018321B2

JP5018321B2 - 自動追尾装置

Info

Publication number: JP5018321B2
Application number: JP2007203718A
Authority: JP
Inventors: へい東全; 敏景千; 聡一須藤
Original assignee: Koito Electric IndustriesLtd
Current assignee: Koito Electric IndustriesLtd
Priority date: 2007-08-06
Filing date: 2007-08-06
Publication date: 2012-09-05
Anticipated expiration: 2027-08-06
Also published as: JP2009038777A

Description

本発明は、パン、チルト及びズームの制御が可能なカメラを用いて、追尾対象を自動追尾して撮像する自動追尾装置に関するものである。

従来から、このような自動追尾装置として、例えば、下記特許文献１に開示されている自動追尾装置が提案されている。この自動追尾装置は、テレビジョンカメラからの映像信号を入力すると共に映像信号を表示部に出力する画像入出力部と、画像入出力部よりの映像信号の前処理を行う画像処理部と、画像処理部を介し入力される参照画像データおよび探索画像データの相関値を求め探索画像上で最も相関性の高い位置を検出する相関演算部と、相関演算部よりの信号に基づいて前記テレビジョンカメラの旋回装置およびズームレンズを駆動制御すると共に前記各部を制御する中央演算処理部とからなるものである。
特開平１１−１８７３８７号公報

しかしながら、前記従来の自動追尾装置では、相関演算を用いて追尾対象の位置を求めているので、追尾対象の大きさや形状の変化に弱く、オクルージョン（隠蔽）の影響やカメラ制御による画像変動の影響も受け易く、このため、追尾対象を精度良く追尾することができなかった。

本発明は、このような事情に鑑みてなされたもので、追尾対象をより精度良く追尾して撮像することができる自動追尾装置を提供することを目的とする。

前記課題を解決するため、本発明の第１の態様による自動追尾装置は、パン、チルト及びズームの制御が可能なカメラと、前記カメラにより撮像された画像を処理して、前記カメラが追尾対象を自動追尾して撮像するように前記カメラを制御する処理手段と、を備えたものである。前記処理手段は、前記カメラにより撮像された画像に基づいて追尾対象を追跡する追跡処理を行う追跡処理手段と、該追跡処理手段による前記追跡処理の結果に応じて前記カメラが前記追尾対象を追尾するように、前記カメラのパン、チルト及びズームを制御する制御手段と、を含む。前記追跡処理手段は、前記カメラにより撮像された画像に基づいて、前記追尾対象の追跡開始当初に、前記追尾対象に応じた領域である追尾対象領域の全体の領域から得た特徴量であるシングルパート特徴量を用いて追跡処理を行うシングルパートモードとするかそれとも前記追尾対象領域の分割された各領域からそれぞれ得た特徴量であるマルチパート特徴量を用いて追跡処理を行うマルチパートモードとするかを選択する予備処理手段と、前記予備処理手段により選択されたモードで追跡処理を行う本処理手段とを含む。

この第１の態様によれば、前記カメラにより撮像された画像に基づいてシングルパートモードとマルチパートモードとを選択する前記予備処理手段が採用され、前記予備処理手段により選択されたモードで追跡処理が行われるので、常にシングルパートモードを行う場合に比べて、より多くの情報に基づいて追跡処理が行われるので、例えば人物同士の区別や人物と背景の区別が困難な追尾対象に対してもより精度良く追跡処理を行うことができ、ひいては、追尾対象をより精度良く追尾して撮像することができる。

本発明の第２の態様による自動追尾装置は、前記第１の態様において、前記特徴量がヒストグラムであるものである。この第２の態様によれば、ヒストグラムが使用されているので、追尾対象の大きさや形状の変化に強くなり、カメラの制御による画像変動に影響を受け難くなる。もっとも、本発明では特徴量はこの例に限定されるものではない。

本発明の第３の態様による自動追尾装置は、前記第１の態様において、前記特徴量は、所定色空間におけるヒストグラムに基づくヒストグラムであるものである。この第３の態様は、前記特徴量の例を挙げたものであるが、本発明では特徴量はこの例に限定されるものではない。例えば、前記所定色空間としては、下記の第４の態様で挙げたＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間の他、均等色空間（Ｌ^＊、ａ^＊、ｂ^＊空間）、ＲＧＢ色空間、ＣＭＹＫ色空間、ＹＵＶ空間、ＸＹＺ空間などの様々な色空間でもよい。

本発明の第４の態様による自動追尾装置は、前記第３の態様において、前記特徴量は、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における明度指数ヒストグラム及び知覚色度指数ヒストグラムをそれぞれ正規化したものを結合して１次元化して得たヒストグラムであるものである。この第４の態様は、前記特徴量の例を挙げたものであるが、本発明では特徴量はこの例に限定されるものではない。

本発明の第５の態様による自動追尾装置は、前記第１乃至第４のいずれかの態様において、前記予備処理手段は、前記カメラにより撮像された画像に基づいて、前記追尾対象の追跡開始当初の前記追尾対象領域の前記分割された前記各領域の前記特徴量同士の類似度を示す指標に従って、前記各領域の前記特徴量同士の類似度が所定以上に高い場合には前記シングルパートモードを選択し、前記各領域の前記特徴量同士の類似度が所定以下に低い場合には前記マルチパートモードを選択するものである。この第５の態様は、シングルパートモードとマルチパートモードとの選択の具体例を挙げたものであるが、本発明では必ずしもこの例に限定されるものではない。

本発明の第６の態様による自動追尾装置は、前記第５の態様において、前記指標は、前記分割された前記各領域の前記特徴量同士の間のBhattacharyya距離であるものである。この第６の態様は、類似度を示す指標の具体例を挙げたものであるが、前記第５の態様ではこの例に限定されるものではない。

本発明の第７の態様による自動追尾装置は、前記第１乃至第６のいずれかの態様において、前記本処理手段は、前記カメラにより撮像された画像に基づいて、追尾対象領域の位置及び大きさをパラメータとした複数のパーティクルによるパーティクルフィルタにより、追跡結果として追尾対象領域の位置及び大きさを推定するものである。そして、前記パーティクルフィルタは、前記各パーティクルに関して、過去の追尾対象領域の特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）に基づく参照特徴量に対して当該パーティクルの特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）が相違する度合いを示す相違度によって算出した尤度を用いるものである。

この第７の態様によれば、前記パーティクルフィルタにより追跡結果として追尾対象領域の位置及び大きさを推定するので、相関演算とは異なり、複数の解の候補（複数のパーティクル）を持つので追跡失敗から回復する可能性が高くなり、オクルージョンや複雑な背景などに対して強く、より精度良く追跡処理を行うことができ、ひいては、追尾対象をより精度良く追尾して撮像することができる。なお、決定論的手法（例えば、テンプレートマッチングなど）では、解を一意に決定するため追跡失敗から回復できない。また、前記第７の態様によれば、追尾対象領域の位置及び大きさをパラメータとしたパーティクルが用いられているので、追尾対象の大きさも同時に決定することが可能となり、パン、チルト、ズームが制御された画像であっても安定した追尾が可能となる。

本発明の第８の態様による自動追尾装置は、前記第７の態様において、前記各パーティクルの前記相違度は、シングルパートモード時には前記参照特徴量と当該パーティクルの前記シングルパート特徴量との間のBhattacharyya距離であるとともに、マルチパートモード時には前記参照特徴量と当該パーティクルの前記マルチパート特徴量との各間のBhattacharyya距離の平均値であるものである。この第８の態様は、相違度の具体例を挙げたものであるが、前記第７の態様ではこの例に限定されるものではない。

本発明の第９の態様による自動追尾装置は、前記第１乃至第６のいずれかの態様において、前記本処理手段は、前記カメラにより撮像された画像に基づいて、追尾対象領域の位置をパラメータとした複数の第１のパーティクルによる第１のパーティクルフィルタにより、追跡結果の一部として追尾対象領域の位置を推定し、追尾対象領域の大きさをパラメータとしかつ前記第１のパーティクルフィルタにより推定された追尾対象の位置を持つ複数の第２のパーティクルによる第２のパーティクルフィルタにより、追跡結果の他の一部として追尾対象領域の大きさを推定するものである。そして、前記第１のパーティクルフィルタは、前記各第１のパーティクルに関して、過去の追尾対象領域の特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）に基づく参照特徴量に対して当該第１のパーティクルの特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）が相違する度合いを示す第１の相違度によって算出した尤度を用いるものである。前記第２のパーティクルフィルタは、前記各第２のパーティクルに関して、過去の追尾対象領域の特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）に基づく参照特徴量に対して当該第２のパーティクルの特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）が相違する度合いを示す第２の相違度によって算出した尤度を用いるものである。

前記第７の態様では、前記パーティクルフィルタにより追跡結果として追尾対象領域の位置及び大きさを推定するのに対し、前記第９の態様では、前記第１のパーティクルフィルタにより追尾対象の位置を推定し、その推定位置を前提として前記第２のパーティクルフィルタにより追尾対象の大きさを推定している。したがって、前記第９の態様によれば、基本的に前記第７の態様と同様の利点が得られるとともに、前記第７の態様に比べて計算量を低減して処理時間を短縮することができる。ただし、前記第９の態様では前記第７の態様に比べれば追尾対象の追跡処理の精度が低下する可能性がある。よって、前記第９の態様は、追尾対象の動きがそれほど速くなく、画面上での追尾対象の移動量が少ないと想定される場合に特に有効である。

本発明の第１０の態様による自動追尾装置は、前記第９の態様において、前記各第１のパーティクルの前記第１の相違度は、シングルパートモード時には前記参照特徴量と当該第１のパーティクルの前記シングルパート特徴量との間のBhattacharyya距離であるとともに、マルチパートモード時には前記参照特徴量と当該第１のパーティクルの前記マルチパート特徴量との各間のBhattacharyya距離の平均値であり、前記各第２のパーティクルの前記第２の相違度は、シングルパートモード時には前記参照特徴量と当該第２のパーティクルの前記シングルパート特徴量との間のBhattacharyya距離であるとともに、マルチパートモード時には前記参照特徴量と当該第２のパーティクルの前記マルチパート特徴量との各間のBhattacharyya距離の平均値であるものである。この第１０の態様は、各相違度の具体例を挙げたものであるが、前記第９の態様ではこの例に限定されるものではない。

本発明の第１１の態様による自動追尾装置は、前記第１乃至第１０のいずれかの態様において、前記制御手段は、前記追跡処理手段による前記追跡処理の結果に基づいて現在から所定時間経過後の追尾対象領域の位置及び大きさを予測する予測手段を含み、前記制御手段は、前記予測手段による予測結果に応じて、前記カメラに対する現在のパン、チルト及びズームの制御状態を修正して前記カメラのパン、チルト及びズームを制御するものである。

この第１１の態様によれば、予測制御が導入されているので、例えば、カメラが制御指令に対して応答してその指令状態になるまでの動作時間が画像処理時間に比べて長い場合であっても、追尾対象の急な動きの変化などにも対応することができ、追尾対象をより精度良く追尾して撮像することができる。なお、カメラのパン、チルト、ズームの制御速度があまりに速過ぎると、追尾対象を監視者が目で追う際に、カメラのパン、チルト、ズームの変化があまりに急激になってしまい、監視者に不快感を与えてしまい監視に適さなくなってしまうが、カメラとして制御速度が比較的遅いものを使用することができるので、カメラのパン、チルト、ズームの変化をスムーズにして監視により適した追尾を実現することができる。

本発明の第１２の態様による自動追尾装置は、前記第１１の態様において、前記予測手段は、カルマンフィルタにより、現在から所定時間経過後の追尾対象領域の位置及び大きさを予測するものである。この第１２の態様では、カルマンフィルタが用いられているので、追尾対象領域の位置及び大きさを精度良く予測することができ、ひいては、追尾対象をより精度良く追尾して撮像することができる。もっとも、前記第１１の態様では、予測手段はカルマンフィルタを用いたものに限定されるものではない。

本発明によれば、追尾対象をより精度良く追尾して撮像することができる自動追尾装置を提供することができる。

以下、本発明による自動追尾装置について、図面を参照して説明する。

［第１の実施の形態］

図１は、本発明の第１の実施の形態による自動追尾装置を模式的に示すブロック図である。本実施の形態による自動追尾装置は、図１に示すように、パン、チルト及びズームの制御が可能なカメラ１と、処理部２と、分配器３と、表示・記録制御部４と、液晶パネル等の表示部５と、記録部６とを備えている。

カメラ１は、カメラ本体１ａと、カメラ本体１ａに装着され処理部２からのズームを制御する制御信号に応じて倍率を設定するズームレンズ１ｂと、カメラ本体１ｂが搭載され処理部２からのパン及びチルトを制御する制御信号に応じてカメラ本体１ａのパン及びチルトを設定する回転台１ｃとを有している。

分配器３は、カメラ１からの画像信号を、処理部２と表示・記録制御部４とに分配して供給する。画像処理部２は、分配器３を介して供給されたカメラからの画像信号に基づいて、カメラ１により撮像された画像を処理して、カメラ１が侵入者又は侵入物体等の追尾対象１０（後述する図２参照）を自動追尾して撮像するように、カメラ１のパン、チルト及びズームを制御する。表示・記録制御部４は、分配器３を介して供給されたカメラからの画像信号が示す画像を、表示部５に表示させたり記録部６に記録させたりする。監視者は、表示部５に表示された画像を監視することができる。なお、監視者が画像を監視しないような場合は、分配器３を設けずに、カメラ１からの画像信号を処理部２に直接入力させてもよい。

図２は、カメラ１による追尾対象１０の追尾の様子の例を模式的に示す図である。図２では、侵入者等の追尾対象１０を追尾して、カメラ１の視野が変化している様子を示している。なお、実際には、追尾対象１０の移動に伴い、回転台１ｂのパン及びチルトが変化することでカメラ１の視野の向きが変化するとともにズームレンズ１ｂが作動することでカメラ１の視野が拡大・縮小するが、図２では、カメラ１の各部の図示は省略しカメラ１の視野のみを模式的に示している。

次に、本実施の形態による自動追尾装置の処理部２の動作の一例について、図３乃至図１１を参照して説明する。図３は、処理部２の動作の一例を示す概略フローチャートである。図４は、図３中の追尾対象検知処理（ステップＳ２）を詳細に示すフローチャートである。図５は、図３中のモード選択処理（ステップＳ４）を詳細に示すフローチャートである。図６及び図７は、図３中の追跡処理の本処理（ステップＳ５）を詳細に示すフローチャートである。図８乃至図１１は、図３中のカメラ制御処理（ステップ７）を詳細に示すフローチャートである。

図３に示すように、処理部２は、動作を開始すると、まず、カメラ１をプリセット状態にする（ステップＳ１）。すなわち、処理部２は、カメラ１のパン、チルト及びズームを予め定められたパン、チルト及びズームにする。

次に、処理部２は、プリセットされた状態、つまり、カメラ１のパン、チルト、ズームが固定の状態で、追尾対象を検知（動体検知）する追尾対象検知処理を行う（ステップＳ２）。この検知は、一般的に用いられている手法（図４中のＳ１０１〜Ｓ１１２）を適用する他に、レーザーレーダなどの他のセンシングデバイスによって行ってもよいし、画面上に表示された人物を監視者が指定手段としてのマウス等のポインティングデバイスによって指定することによって行ってもよい。

ここで、図４を参照して、追尾対象検知処理（ステップＳ２）の一例について説明する。なお、図３中の追尾対象検知処理（ステップＳ２）は、図４に示す例に限定されるものではない。

追尾対象検知処理（ステップＳ２）を開始すると、図４に示すように、処理部２は、まず、カメラ１が撮像した２枚の連続する画像をサンプリングし（ステップＳ１０１，Ｓ１０２）、それらの画像の差分画像（フレーム間差分画像）を生成する（ステップＳ１０３）。

次いで、処理部２は、ステップＳ１０３で生成した差分画像を２値化する（ステップＳ１０４）。この２値化に用いる閾値は、固定閾値でもよいし、判別分析法に代表されるような可変閾値でもよい。

引き続いて、処理部２は、ステップＳ１０４で２値化された画像をラベリングする（ステップＳ１０５）。そして、処理部２は、ラベリングされたものがあるか否かを判定し（ステップＳ１０６）、ラベリングされたものがなければステップＳ１１２へ移行する一方、ラベリングされたものがあれば、ステップＳ１０７へ移行する。

ステップＳ１０７において、処理部２は、ラベリングされたもの全てについてそれぞれ特徴量を取得する（ステップＳ１０７，Ｓ１０８）。ここでいう特徴量は、例えば面積や円形度など、追尾対象１０を正確に検出するために必要なものである。

その後、処理部２は、ステップＳ１０７で取得した全てのラベルの特徴量から、追尾対象１０の候補となるものが存在するか否かを判定する（ステップＳ１０９）。存在しなければステップＳ１１２へ移行する一方、存在すればステップＳ１１０へ移行する。

ステップＳ１１０において、処理部２は、追尾対象１０の候補のうちから追尾対象１０を決定する。このとき、追尾対象１０の候補が１つであればそれを追尾対象１０として決定し、追尾対象１０の候補が複数存在すれば、所定の判断基準によって１つに絞り込んで、それを追尾対象１０として決定する。

ステップＳ１１１の後に、処理部２は、追尾対象１０が検知されたか否かを示す追尾対象検知フラグを１（１は、追尾対象１０が検知されたこと示す。）にセットし（ステップＳ１１１）、追尾対象検知処理（ステップＳ２）を終了して、図３中のステップＳ３へ移行する。

ステップＳ１１２において、処理部２は、追尾対象検知フラグを０（０は、追尾対象１０が検知されなかったこと示す。）にセットする。その後、追尾対象検知処理（ステップＳ２）を終了して、図３中のステップＳ３へ移行する。

再び図３を参照すると、ステップＳ３において、処理部２は、ステップＳ２で追尾対象１０が検知されたか否かを判定する。この判定は、前記追尾対象検知フラグが１であるか０であるかによって行う。追尾対象１０が検知された場合（追尾対象検知フラグが１の場合）は、ステップＳ４へ移行する一方、追尾対象１０が検知されなかった場合（追尾対象検知フラグが０の場合）は、ステップＳ２へ戻り、追尾対象検知処理（ステップＳ２）を繰り返す。

ステップＳ４において、処理部２は、カメラ１により撮像された画像に基づいて追尾対象を追跡する追跡処理の予備処理として、モード選択処理を行う。このモード選択処理（ステップＳ４）において、処理部２は、カメラ１により撮像された画像に基づいて、追尾対象の追跡開始当初に（本実施の形態では、追尾対象検知処理（ステップＳ２）で追尾対象１０が検知された直後に）、当該追尾対象１０に応じた領域（本実施の形態では、外接矩形領域）である追尾対象領域の全体の領域から得た特徴量（本実施の形態では、ヒストグラム）であるシングルパート特徴量（本実施の形態では、シングルパートヒストグラム）を用いて追跡処理を行うシングルパートモードとするかそれとも前記追尾対象領域の分割された各領域（本実施の形態では、上下２分割された２つの領域）からそれぞれ得た特徴量（本実施の形態では、ヒストグラム）であるマルチパート特徴量（本実施の形態では、マルチパートヒストグラム）を用いて追跡処理を行うマルチパートモードとするかを選択する。

ここで、図５を参照して、モード選択処理（ステップＳ４）の一例について説明する。なお、図３中のモード選択処理（ステップＳ４）は、図５に示す例に限定されるものではない。本実施の形態では、特徴量として扱うヒストグラムは、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間におけるヒストグラムを扱う。もっとも、本発明では、特徴量は、他の種々の色空間のヒストグラムでもよいし、必ずしもヒストグラムに限定されるものではない。

モード選択処理（ステップＳ４）を開始すると、図５に示すように、処理部２は、まず、図３中の追尾対象検知処理（ステップＳ２）（特に、図４中のステップＳ１１０）で検知された追尾対象１０に応じた領域である追尾対象領域（本実施の形態では、外接矩形領域）を上下に２分割する（ステップＳ２０１）。もっっとも、本発明では分割のパターンは必ずしもこれに限定されるものではなく、左右２分割など任意の分割方法を採用してもよい。また、その分割数も２分割に限定されるものではない。この点については後述する。

次に、処理部２は、ステップＳ２０１で分割された各分割領域に番号を割り当てるため、分割領域番号を意味するカウント値ｉを１にセットする（ステップＳ２０２）。

次いで、処理部２は、図４中のステップＳ１０２でサンプリングされた画像におけるｉ番目の分割領域について、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における階級数ｍ_Ｌの明度指数ヒストグラム（１次元ヒストグラム）を生成する（ステップＳ２０３）。

引き続いて、処理部２は、ステップＳ２０３で生成された明度指数ヒストグラムを、全ての階級の度数の合計が０．５となるように正規化する（ステップＳ２０４）。すなわち、ステップＳ２０３で生成された明度指数ヒストグラムの各階級の度数をそれぞれ、全ての階級の度数の合計で割った後に更に１／２にする。

その後、処理部２は、図４中のステップＳ１０２でサンプリングされた画像におけるｉ番目の分割領域について、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における階級数ｍ_ｕ×ｍ_ｖの知覚色度指数ヒストグラム（２次元ヒストグラム）を生成する（ステップＳ２０５）。

次に、処理部２は、ステップＳ２０５で生成された知覚色度指数ヒストグラムを、全ての階級の度数の合計が０．５となるように正規化する（ステップＳ２０６）。すなわち、ステップＳ２０５で生成された知覚色度指数ヒストグラムの各階級の度数をそれぞれ、全ての階級の度数の合計で割った後に更に１／２にする。

次いで、処理部２は、下記の数１に従って、ステップＳ２０４で正規化された明度指数ヒストグラム及びステップＳ２０６で正規化された知覚色度指数ヒストグラム結合して、１次元化したヒストグラムｐ_ｉを生成する（ステップＳ２０７）。

その後、処理部２は、現在の分割領域番号ｉが２であるか否かを判定することで、全ての分割領域（本実施の形態では、２つの分割領域）について、ヒストグラムｐｉの生成が終了したか否かを判定する（ステップＳ２０８）。終了していなければ、処理部２はｉを２にセットし（ステップＳ２０９）、ステップＳ２０３へ戻る。一方、終了していれば、ステップＳ２１０へ移行する。

ステップＳ２１０において、処理部２は、下記の数２に従って、ステップＳ２０７で２つの分割領域についてそれぞれ生成されたヒストグラムｐ_１，ｐ_２同士の間のBhattacharyya距離ｄを算出する。

このBhattacharyya距離ｄは、ヒストグラムｐ_１，ｐ_２同士の類似度を示す指標となり、その類似度が高いほど距離ｄの値は小さくなる一方、その類似度が低いほど距離ｄの値は大きくなる。なお、本発明では、ヒストグラムｐ_１，ｐ_２同士の類似度を示す指標は、必ずしもBhattacharyya距離ｄに限定されるものではない。

次に、処理部２は、ステップＳ２１０で算出されたBhattacharyya距離ｄが予め設定した閾値Ｔより大きいか否かを判定することで、ヒストグラムｐ_１，ｐ_２同士の類似度が所定以下に低いか所定以上に高いかを判定する（ステップＳ２１１）。処理部２は、閾値Ｔより大きければ（ヒストグラムｐ_１，ｐ_２同士の類似度が所定以下に低ければ）、モードフラグを０（０は、マルチパートモードを選択したことを示す）にセットする（ステップＳ２１２）一方、閾値Ｔより小さければ（ヒストグラムｐ_１，ｐ_２同士の類似度が所定以上に高ければ）、モードフラグを１（１は、シングルパートモードを選択したことを示す）にセットする（ステップＳ２１３）。ステップＳ２１２の後及びステップＳ２１３の後、モード選択処理（ステップＳ４）を終了して、図３中のステップＳ５へ移行する。

再び図３を参照すると、ステップＳ５において、処理部２は、モード選択処理（ステップＳ４）で選択されたモードで、カメラ１により撮像された画像に基づいて追尾対象を追跡する追跡処理の本処理を行う。本実施の形態では、追跡処理の本処理（ステップＳ５）において、処理部２は、カメラ１により撮像された画像に基づいて、追尾対象領域の位置及び大きさをパラメータとした複数のパーティクルによるパーティクルフィルタにより、追跡結果として追尾対象領域の位置及び大きさを推定する。前記パーティクルフィルタは、前記各パーティクルに関して、過去の追尾対象領域の特徴量（シングルパートモード時にはシングルパート特徴量としてのシングルパートヒストグラム、マルチパートモード時にはマルチパート特徴量としてのマルチパートヒストグラム）に基づく参照特徴量（本実施の形態では参照ヒストグラム）に対して当該パーティクルの特徴量（シングルパートモード時にはシングルパート特徴量としてのシングルパートヒストグラム、マルチパートモード時にはマルチパート特徴量としてのマルチパートヒストグラム）が相違する度合いを示す相違度ｄ^（ｎ）によって算出した尤度π_ｔ ^（ｎ）を用いる。

ここで、図６及び図７を参照して、追跡処理の本処理（ステップＳ５）の一例について説明する。なお、図３中の追跡処理の本処理（ステップＳ５）は、図６及び図７に示す例に限定されるものではない。

追跡処理の本処理（ステップＳ５）を開始すると、図６に示すように、処理部２は、まず、１枚の画像をサンプリングする（ステップＳ３００）。

次に、処理部２は、図１２に示すように、画像内の予め設定した所定の幅で所定の高さを有する領域Ｒを追尾対象１０の探索範囲として、領域Ｒ内に、追尾対象領域（本実施の形態では、矩形）の位置（例えば、重心）及び大きさ（例えば、縦又は横寸法）をパラメータとしたＮ個のサンプル（パーティクル）ＰＳ１〜ＰＳ５，…，ＰＳｎ，…，ＰＳＮをばら撒く（ステップＳ３０１）。各サンプルの位置は、領域Ｒ内であれば任意であり、当初はランダムにばら撒かれる。各サンプルの縦横比は、元の追尾対象領域（図４中のステップＳ１１０で検知された追尾対象１０に応じた領域である追尾対象領域（本実施の形態では、外接矩形領域））と縦横比が同じとされる。各サンプルの大きさは任意であり、当初はランダムに設定される。なお、図３中の追尾対象検知処理（ステップＳ２）後の最初に行われる本処理（ステップＳ５）におけるステップＳ３０１の処理では、サンプルをＮ個ばら撒くが、２回目以降の本処理（ステップＳ５）におけるステップＳ３０１の処理では、Ｎ個から前回の本処理（ステップＳ５）で残ったサンプルの数を引いた不足分を追加してばら撒く。

なお、図１２は、追尾対象１０の探索範囲をなす領域Ｒとサンプルの分布状態の例を、模式的に示す図である。なお、図１２において、ハッチングを付した矩形領域ＥＳは、後述するステップＳ３１６により推定された追尾対象領域の例を示している。

次に、処理部２は、Ｎ個のサンプルに番号を割り当てるため、サンプル番号を意味するカウント値ｎを１にセットする（ステップＳ３０２）。

次いで、処理部２は、図３中のモード選択処理（ステップＳ４）で最新に設定されたモードフラグが０であるか否かを判定することで、現在選択されているモードがマルチパートモードであるかシングルパートモードであるかを判定する（ステップＳ３０３）。マルチパートモードが選択されていれば（モードフラグが０であれば）、処理部２は、ｎ番目のサンプルの領域を、図５中のステップＳ２０１と同様に分割（本実施の形態では、上下に２分割）した（ステップＳ３０４）後に、ステップＳ３０５へ移行する。一方、シングルパートモードが選択されていれば（モードフラグが１であれば）、ステップＳ３０４を経ることなくステップＳ３０５へ移行する。

ステップＳ３０５において、処理部２は、領域番号を意味するカウント値ｉを１にセットする。マルチパートモード時にはサンプルの領域は２分割されているのでｉは１，２となるが、シングルパートモード時にはサンプルの領域は分割されないのでｉは１にしかならない。

次に、処理部２は、ステップＳ３００で最新にサンプリングされた画像におけるｎ番目のサンプルのｉ番目の領域について、ステップＳ２０３〜Ｓ２０７と同様の処理を行うことで、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における明度指数ヒストグラム及び知覚色度指数ヒストグラムをそれぞれ正規化したものを結合して１次元化して得たヒストグラムｑ_ｉ（数１で示すヒストグラムｐ_ｉに相当するサンプルのｉ番目の領域のヒストグラム）を生成する。

次いで、処理部２は、下記の数３に従って、参照領域のヒストグラムｐ_ｉとサンプルの領域のヒストグラムｑ_ｉとの間の、Bhattacharyya距離ｄ_ｉ ^（ｎ）を算出する（ステップＳ３０７）。ここで、参照領域のヒストグラムｐ_ｉは、参照ヒストグラムｐ_ｉあるいは参照データと呼ぶ場合があり、図３中の追尾対象検知処理（ステップＳ２）後の最初に行われる本処理（ステップＳ５）におけるステップＳ３０７の処理では、図５中のＳ２０７で生成されたヒストグラムｐ_ｉであるが、２回目以降の本処理（ステップＳ５）におけるステップＳ３０７の処理では、前回の本処理（ステップＳ５）におけるステップＳ３１７で更新されたヒストグラムｐ_ｔ（ただし、当該ｉ番目の領域に関するもの）である。

引き続いて、処理部２は、ステップＳ３０３と同様に、現在選択されているモードがマルチパートモードであるかシングルパートモードであるかを判定する（ステップＳ３０８）。マルチパートモードが選択されていれば（モードフラグが０であれば）ステップＳ３０９へ移行し、シングルパートモードが選択されていれば（モードフラグが１であれば）ステップＳ３１２へ移行する。

ステップＳ３０９において、処理部２は、現在の領域番号ｉが２であるか否かを判定することで、全ての領域（本実施の形態では、２つの分割領域）について、Bhattacharyya距離ｄ_ｉ ^（ｎ）の算出が終了したか否かを判定する。終了していなければ、処理部２はｉを２にセットし（ステップＳ３１０）、ステップＳ３０６へ戻る。一方、終了していれば、ステップＳ３１１へ移行する。

ステップＳ３１１において、処理部２は、下記の数４に従って、ｎ番目のサンプルの相違度ｄ^（ｎ）を、ステップＳ３０７で順次算出された各分割領域のBhattacharyya距離ｄ_ｉ ^（ｎ）の平均値として算出し、ステップＳ３１３へ移行する。

一方、シングルパートモード時には、ステップＳ３１２において、処理部２は、ステップＳ３０７で求めたBhattacharyya距離ｄ_ｉ ^（ｎ）を、そのままｎ番目のサンプルの相違度ｄ^（ｎ）とし、ステップＳ３１３へ移行する。

ステップＳ３１３において、処理部２は、下記数５に従って、ステップＳ３１１又はＳ３１２で得られた相違度ｄ^（ｎ）によって尤度π_ｔ ^（ｎ）を算出する。ここで、尤度はガウス分布に従うものと仮定している。

数５において、Ｎはパーティクルの個数（サンプル数）である。また、数５において、σ^２は通常はガウス分布の分散となるが、ここでの計算においては予め設定しておいた値とする。

その後、処理部２は、現在のサンプル番号ｎがＮであるか否かを判定することで、全てのサンプルについて、尤度π_ｔ ^（ｎ）の算出が終了したか否かを判定する（ステップＳ３１４）。終了していなければ、処理部２はサンプル番号ｎを１だけインクリメントし（ステップＳ３１５）、ステップＳ３０３へ戻る。一方、終了していれば、ステップＳ３１６へ移行する。

ステップＳ３１６において、処理部２は、ステップＳ３１３で算出した尤度π_ｔ ^（ｎ）と各サンプルの位置（重心位置）及び大きさから、下記の数６に従って、状態の推定結果である追尾対象領域の位置及び大きさの推定結果（すなわち、追跡結果）として、重み付け平均値Ｅ［Ｓ_ｔ］を求める。重み付け平均値Ｅ［Ｓ_ｔ］で表される追尾対象領域の位置及び大きさが、追跡結果となる追尾対象領域の位置及び大きさである。

その後、処理部２は、ステップＳ３１６で得た推定結果に基づいて、下記数７に従って、参照データを更新する（ステップＳ３１７）。数７において、ヒストグラムｐ_ｔ−１は、時刻ｔ−１の推定された追尾対象領域に関するヒストグラムを示し、ステップＳ３００で最新にサンプリングされた画像における、ステップＳ３１５（数６）で推定結果として得られた追尾対象領域について、ステップＳ２０３〜Ｓ２０７と同様の処理を行うことで、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における明度指数ヒストグラム及び知覚色度指数ヒストグラムをそれぞれ正規化したものを結合して１次元化して得たヒストグラムである。また、数７において、ｑ_ｔ−１は時刻ｔ−１の推定前の追尾対象領域に関するヒストグラムを示す。

次に、処理部２は、ステップＳ３１３で算出された全てのサンプルの尤度π_ｔ ^（ｎ）を、その値の大きい順にソートする（ステップＳ３１８）。

次いで、処理部２は、ステップＳ３１８で尤度の値をソートした結果として得た尤度の最大値が、予め設定した閾値Ｖよりも大きいか否かを判定する（ステップＳ３１９）。閾値Ｖよりも大きければ、追跡が成功したものと判断して、追跡結果フラグを１に設定し（Ｓ３２０）、ステップＳ３２２へ移行する。一方、閾値Ｖよりも小さければ、追跡が失敗したものと判断して、追跡結果フラグを０に設定し（Ｓ３２１）、ステップＳ３２２へ移行する。

処理部２は、各サンプルについて、ステップＳ３２２〜Ｓ３２４の処理を繰り返し、全てのサンプルについてステップＳ３２２〜Ｓ３２４の処理が終了すると（ステップＳ３２５でＹＥＳ）、ステップＳ３２６へ移行する。ステップＳ３２２において、処理部２は、当該サンプルの尤度π_ｔ ^（ｎ）が予め設定していた閾値Πよりも大きいか否かを判定する。閾値Πよりも大きければＳ３２３へ移行し、小さければＳ３２４に移行する。ステップＳ３２３において、処理部２は、当該サンプルは、パーティクルフィルタの公知の手法に従って、次回における（すなわち、次のフレームにおける）サンプルを構成するため分裂を行う。ステップＳ３２４において、処理部２は、当該サンプルを次回における（すなわち、次のフレームにおける）サンプルを構成しないために消滅させる。

ステップＳ３２６において、処理部２は、各サンプルについてステップＳ３２３の分裂又はステップＳ３２４の消滅を行った結果、残ったサンプルがＮ個以下であるか否かを判定する。Ｎ個以下であれば、追跡処理の本処理（ステップＳ５）を終了して、図３中のステップＳ６へ移行する。一方、Ｎ個よりも多い場合は、処理部２は、尤度π_ｔ ^（ｎ）が小さいものから順に分裂したものを含めて消滅させる（ステップＳ３２７）。その結果、残ったサンプルはＮ個またはＮ−１個となる。ステップＳ３２７の後、追跡処理の本処理（ステップＳ５）を終了して、図３中のステップＳ６へ移行する。

再び図３を参照すると、ステップＳ６において、処理部２は、現在の追跡結果フラグが１であるか否かを判定することで、ステップＳ５の本処理による追跡が成功したか否かを判定する。追跡が成功であれば（追跡結果フラグが１であれば）、ステップＳ７へ移行する。一方、追跡が失敗であれば（追跡結果フラグが０であれば）、ステップＳ８へ移行する。ステップＳ８において、処理部２は、追追跡の失敗の状態が一定時間継続しているか否かを判定する。一定時間継続していない場合は、追跡処理の本処理（ステップＳ５）に戻に戻り、その処理を繰り返す。一定時間継続している場合は、追跡処理が成功する見込みがないものとみなして、ステップＳ１（プリセット状態）に戻る。

ステップＳ６において追跡が成功である（追跡結果フラグが１である）と判定されると、処理部２は、追跡処理の本処理（ステップＳ５）で得た追跡結果、すなわち、図６中のステップＳ３１６で推定された追尾対象領域の位置及び大きさに応じて、カメラ１が追尾対象を追尾するように、カメラ１のパン、チルト及びズームを制御するカメラ制御処理を行う。このカメラ制御処理において、処理部２は、前記追跡結果に基づいて現在から所定時間経過後（ｎ_ｆフレーム後）の追尾対象領域の位置及び大きさを予測し、その予測結果に応じて、カメラ１に対する現在のパン、チルト及びズームの制御状態を修正してカメラ１のパン、チルト及びズームを制御する。ここで、本実施の形態では、追尾対象領域の位置及び大きさを予測は、カルマンフィルタにより行う。

ここで、図８乃至図１１を参照して、カメラ制御処理（ステップＳ７）の一例について説明する。なお、図３中のカメラ制御処理（ステップＳ７）は、図８乃至図１１に示す例に限定されるものではない。

カメラ制御処理（ステップＳ７）を開始すると、図８に示すように、処理部２は、まず、処理部２は、カメラ制御処理において用いる情報として、追跡処理の結果（図６中のステップＳ３１６で得た重み付け平均値Ｅ［Ｓ_ｔ］、すなわち、ステップＳ３１６で推定された追尾対象領域の位置及び大きさ）を取得する（ステップＳ５０１）。なお、この追跡結果は処理部２がそもそも有しているので、本来はその取得動作は不要であるが、ここでは理解を容易にするため、このステップＳ５０１を挿入している。

次に、処理部２は、現在のカメラ１のパン、チルト、ズームのそれぞれの制御状態を示す情報として、パン制御フラグ、チルト制御フラグ、ズーム制御フラグを取得する（ステップＳ５０２）。本実施の形態では、カメラ１は、パン、チルト、ズームのそれぞれについて、処理部２から制御指令受けてからその制御動作を行ってその制御動作が完了すると制御完了信号を処理部２に返すようになっている。処理部２は、カメラ１にパン制御指令を与えるときにパン制御フラグを１にセットし、カメラ１からパン制御完了信号を受けたときに割り込み処理でパン制御フラグを０にリセットする。また、処理部２は、カメラ１にチルト制御指令を与えるときにチルト制御フラグを１にセットし、カメラ１からチルト制御完了信号を受けたときに割り込み処理でチルト制御フラグを０にリセットする。さらに、処理部２は、カメラ１にズーム制御指令を与えるときにズーム制御フラグを１にセットし、カメラ１からズーム制御完了信号を受けたときに割り込み処理でズーム制御フラグを０にリセットする。このように、パン、チルト、ズームのそれぞれの制御フラグは、１であれば対応する動作が制御中であることを示し、０であれば対応する動作が停止中であることを示す。以上の説明からわかるように、パン制御フラグ、チルト制御フラグ、ズーム制御フラグは処理部２がそもそも有しているので、本来はその取得動作は不要であるが、ここでは理解を容易にするため、このステップＳ５０２を挿入している。

次に、処理部２は、全ての制御フラグ（パン制御フラグ、チルト制御フラグ、ズーム制御フラグ）が０であるか否かを判定し（ステップＳ５０３）、全ての制御フラグが０であればステップＳ５１９へ移行し、いずれか１つ以上の制御フラグが１であればステップＳ５０４へ移行する。

ステップＳ５０４において、処理部２は、ステップＳ５０１で取得した追跡結果（特に、追尾対象領域の位置）が、前のフレームで取得した追跡結果（特に、追尾対象領域の位置）に比較して、画像中央から遠ざかっているかどうかを判定する。遠ざかっている場合はステップＳ５０６へ移行し、近づいている場合はステップＳ５０５へ移行する。

画像中央から遠ざかっている場合は、前のフレームからの制御が適していないと判断し、処理部２は、ステップＳ５０６においてパン、チルト、ズームいずれの制御フラグも０にリセットし、さらに、カメラ制御を停止させる（ステップＳ５０７）。

ステップＳ５０５において、処理部２は、ステップＳ５０１で取得した追跡結果に基づいて、それまでの追尾対象の進行方向や大きさの変化の方向（だんだん拡大していくのか、だんだん縮小していくのか）が変わってしまったかどうかを判定する。進行方向及び大きさの変化共に変化がなければステップＳ５０８へ移行し、いずれかが変化している場合はステップＳ５０６へ移行する。

ステップＳ５０８において、処理部２は、ズーム制御フラグが１であるか否かを判定することで、現在、ズーム制御の途中であるか否かを判定する。ズーム制御中であればステップＳ５０９へ移行し、ズーム制御中でなければステップＳ５１１に移行する。

ステップＳ５０９において、処理部２は、ステップＳ５０１で取得した追跡結果が、既に予め設定しておいた目標とする大きさの範囲に達しているかどうかを判定する。達している場合はＳ５１０へ移行し、達していない場合はステップＳ５１１へ移行する。

ステップＳ５１０において、処理部２は、ズームの制御フラグを０にする。これは、予め設定しておいた目標とする大きさの範囲に達しているため、その時点でズーム制御をストップさせることが好ましいためである。

ステップＳ５１１において、処理部２は、パン制御フラグが１であるか否かを判定することで、現在、パン制御の途中であるか否かを判定する。パン制御中であればステップＳ５１２へ移行し、パン制御中でなければステップＳ５１４へ移行する。

ステップＳ５１２において、処理部２は、ステップＳ５０１で取得した追跡結果が、既に予め設定しておいた目標とする水平方向の位置の範囲に達しているか否かを判定する。達している場合はステップＳ５１３へ移行し、達していない場合はＳ５１４へ移行する。

ステップＳ５１３において、処理部２は、パンの制御フラグを０にする。これは、予め設定しておいた目標とする水平方向の位置の範囲に達しているため、その時点でパン制御をストップさせることが好ましいためである。

ステップＳ５１４において、チルト制御フラグが１であるか否かを判定することで、現在、チルト制御の途中であるか否かを判定する。チルト制御中であればステップＳ５１５へ移行し、チルト制御中でなければＳ５１７へ移行する。

ステップＳ５１５において、処理部２は、Ｓ５０１で取得した追跡結果が、既に予め設定しておいた目標とする垂直方向の位置の範囲に達しているか否かを判定する。達している場合はＳ５１６へ移行し、達していない場合はＳ５１７へ移行する。

ステップＳ５１６において、処理部２は、チルトの制御フラグを０にする。これは、予め設定しておいた目標とする垂直方向の位置の範囲に達しているため、その時点でチルト制御をストップさせることが好ましいためである。

ステップＳ５１７において、処理部２は、パン制御フラグ、チルト制御フラグ、ズーム制御フラグのいずれかに変更があったか否かを判定する。ステップＳ５１０、Ｓ５１３、Ｓ５１６のいずれかを行った場合はＳ５１８へ移行し、いずれも行わなかった場合はそのまま制御を続行させるためＳ５１９へ移行する。

ステップＳ５１８において、処理部２は、制御を変更する。これは、ステップＳ５１８に到達するということは、その前の予測によるカメラ１のパン、チルト、ズームの制御と実際の追尾対象の動きに違いが生じていることを示すことになるためである。

ステップＳ５１９において、処理部２は、カメラ１から、現在のカメラ１の姿勢（パン、チルト、ズームの位置）を取得する。

次に、処理部２は、ステップＳ５０１で取得した追跡結果と、その前の追跡処理の結果から、ｎ_ｆフレーム後の追尾対象領域の位置と大きさを予測する（ステップＳ５２０）。ｎ_ｆフレーム後とは、例えば、ＮＴＳＣの信号の場合、（ｎ_ｆ／３０）秒後に相当する。

ここでは、ｎ_ｆフレーム後の追尾対象領域の位置と大きさを予測するため、カルマンフィルタを用いる。

ここでは、追尾対象の位置及び大きさの変化が等速であり、かつその変化が滑らかであると仮定して、カルマンフィルタを構成する。カルマンフィルタでは、追尾対象の状態の変化が設定したモデルに厳密に当てはまらないとしても、誤差項があるので近似的に適用できる場合が多い。

時刻ｋの状態変数ベクトルｘ_ｋを下記の数８のように定義する。

ここで、ｘ_ｋと上にドットを付したｘ_ｋは画像における対象矩形の中心の水平座標と速度、ｙ_ｋと上にドットを付したｙ_ｋは垂直座標と速度、ｓ_ｋと上にドットを付したｓ_ｋは大きさ（矩形の横幅と縦幅の積）とその変化を表す。

この状態ベクトルとカメラ１の制御、誤差を考慮したシステム方程式は、下記の数９で定義される。

数９において、Ａは下記の数１０に示す定数行列である。

入力画像の横幅をＷ_ｓｒｃ、縦幅をＨ_ｓｒｃ、時刻ｋにおける水平画角をθ_ｋ、垂直画角をφ_ｋ、カメラのパン角速度を上にドットを付したＰ_ｋ、チルト角速度を上のドットを付したＴ_ｋとすると、各時刻でパン・チルト制御による画素の水平・垂直方向の変化量は下記の数１１及び数１２でそれぞれで表される。

なお、ズーム操作による画角の変化をλとすると、λは下記の数１３で表すことができる。

以上の要素から、制御ベクトルｕ_ｋは下記の数１４で与えられる。ｕ_ｋはカメラ制御による画像の変動を表す制御ベクトルである。

ｗ_ｋはシステム誤差であり、下記の数１５で示すように、共分散行列Ｑ_ｋかつ平均０の正規白色過程に従う。

ここでは、先に述べた追跡処理から得た、追尾対象を囲む矩形の位置と大きさを観測値とし、時刻ｋの観測ベクトルを下記の数１６のように定義する。

観測方程式は、下記の数１７で表される。

ここでＨは下記の数１８に示す定数行列である。また、数１９で示すように、観測誤差ｖ_ｋは共分散行列Ｒ_ｋかつ平均０の正規白色過程に従う。

カルマンフィルタでは、現在時刻の観測量と１期前の状態量を用いて、現在時刻の推定量を推定する。システムの現在時刻ｋの状態は下記の数２０で示す２つの変数で表される。なお、本明細書において、記号の上に付した符号＾は、推定値を意味している。

カルマンフィルタは、時間ステップをひとつ進めるために予測と更新の二つの手続きを行う。予測の手続きでは、前の時刻の推定状態から、現在時刻の推定状態を計算する。更新では、今の時刻の観測を用い、推定値を補正することで、より正確な状態を推定する。

予測に関し、現在時刻の推定値は下記の数２１で表され、現在時刻の誤差の共分散行列は下記の数２２で表される。

更新に関し、カルマンフィルタは、更新後の誤差の推定値を最小にするカルマンゲインを下記の数２３〜数２７により計算し、状態を更新していく。

以上の計算により、誤差を考慮した現在時刻の状態量を推定することができる。

ここで、カルマンフィルタの初期条件の設定について説明する。追跡開始の際の追尾対象矩形の中心座標を（ｘ_０，ｙ_０）、大きさをｓ_０とすると、状態の初期値は下記の数２８のようになる。ここで、速度は０としている。

初期条件に誤差があるなら、誤差の共分散行列を下記の数２９のように与える。

フィルタの特性はシステム誤差と観測誤差の分散比であり、この分散比が大きいほどフィルタ処理後の推定値は元の観測値に忠実となるが誤差に敏感となり、小さいほど平滑化されるがデータに対する追従性が落ちる。本実施の形態では、対象人物の移動方向の変化、立ち止まりなどに迅速に対応できるが、追跡結果に含まれる誤差には影響を受けにくい程度の分散比を経験的に用いる。

以上、図９中のステップＳ５２０の処理で用いるカルマンフィルタについて説明した。

ステップＳ５２０の後に、処理部２は、ステップＳ５２０の予測によって得られたｎ_ｆフレーム後の追尾対象の大きさと目標とすべき追尾対象の大きさｓ_ｉから、ｎ_ｆフレーム後の水平画角または垂直画角を算出する（ステップＳ５２１）。ただし、下記の数３０は水平画角を算出するものである。

次に、処理部２は、ステップＳ５２１で算出された水平画角がズームの限界に達しているか否かを判定する（ステップＳ５２２）。ズームの限界に達している場合はステップＳ５４９へ移行する。ただし、ズームアウトで限界に達している場合はステップＳ５２３へ移行する。ズームイン、ズームアウトのいずれも限界に達していない場合はステップＳ５２３へ移行する。

ステップＳ５２３において、処理部２は、Ｓ５２１で得られた結果から現在の水平画角と比較し、ズームの制御量は所定値より小さいか否かを判定する。小さければＳ５２４へ移行し、大きければＳ５２６へ移行する。

ステップＳ５２４において、処理部２は、ズーム制御速度を０にセットする。引き続いて、処理部２は、ズーム制御フラグを０にセットし（ステップＳ５２５）、ステップＳ５３０へ移行する。これらにより、ズームの制御を行わない。このように、ズームの制御量が小さい場合は、ズームの制御を行わない。ズームの制御量が小さい場合、ズームの制御を行うと、細かい動きをすることになるので、表示部５を監視する監視者に不快感を与える可能性があるためである。

ステップＳ５２６において、ズームの制御速度Ｚ_{ｓｐｅｅｄ}を下記の数３１により算出する。ここで、ｆ_ｒはフレームレート（ＮＴＳＣの場合はｆ_ｒ＝３０）を示す。また、Ｚ_ｐｔは水平画角が時刻ｔのときのズームポジションである。

その後、処理部２は、ステップＳ５２６で算出されたズームの制御速度Ｚ_{ｓｐｅｅｄ}と現在制御中の速度との間の差が所定値より大きいか否かを判定する（ステップＳ５２７）。差が大きければステップＳ５２８へ移行し、差が小さければステップＳ５２９へ移行する。ここでも、差が一定値以上大きくなければズームの制御速度の変更を行わないのは、表示部５を目視監視する監視者にとってズームの制御速度が頻繁に変化することは不快感につながる可能性があるので、これを回避するためである。また、追尾対象は画像中の真ん中近くにあればよく、画像中心と全くずれがない状態を維持することが目的ではない。

ステップＳ５２８において、処理部２は、ステップＳ５２６で算出されたズームの制御速度の値に変更する。その後、ステップＳ５２９へ移行する。

ステップＳ５２９において、処理部２は、ズーム制御フラグを１に設定する。その後、ステップＳ５３０へ移行する。

ステップＳ５３０において、処理部２は、ステップＳ５２０の予測で得られた結果から、パンの制御量は所定値より小さいか否かを判定する。小さければステップＳ５３１へ移行し、大きければステップＳ５３３へ移行する。

ステップＳ５３１において、処理部２は、パンの制御速度を０にセットする。引き続いて、処理部２は、パン制御フラグを０にセットし（ステップＳ５３２）、ステップＳ５３８へ移行する。これらにより、パンの制御を行わない。このように、パンの制御量が小さい場合は、パンの制御を行わない。パンの制御量が小さい場合、パンの制御を行うと、細かい動きをすることになるので、表示部５を監視する監視者に不快感を与える可能性があるためである。

ステップＳ５３３において、処理部２は、パンの制御速度Ｐ_{ｓｐｅｅｄ}を下記の数３２により算出する。ここでＷ_ｓｒｃは入力画像の横幅である。

その後、処理部２は、ステップＳ５３３で算出されたパンの制御速度Ｐ_{ｓｐｅｅｄ}でパンを制御した仮定した場合において、ｎ_ｆフレーム分時間が経過したとき（ｎ_ｆ／ｆ_ｒ秒後）のパンの位置を計算し、その値がパンの限界に達するか又はパンの限界を超えた値となるか否かを判定する（ステップＳ５３４）。その値がパンの限界に達するか又はパンの限界を超えた値となる場合は、ステップＳ５４９へ移行し、そうではない場合はステップＳ５３５へ移行する。

ステップＳ５３５において、処理部２は、ステップＳ５３３で算出されたパンの制御速度Ｐ_{ｓｐｅｅｄ}と現在制御中の速度との差が所定値より大きいか否かを判定する。差が大きければステップＳ５３６へ移行し、差が小さければステップＳ５３７へ移行する。

ステップＳ５３６において、処理部２は、ステップＳ５３６で算出されたパンの制御速度の値に変更する。その後ステップＳ５３７へ移行する。

ステップＳ５３７において、処理部２は、パン制御フラグを１に設定する。その後、ステップＳ５３８へ移行する。

ステップＳ５３８において、処理部２は、ステップＳ５２０の予測で得られた結果から、チルトの制御量は所定値より小さいかどうかを判定する。小さければステップＳ５３９へ移行し、大きければステップＳ５４１へ移行する。

ステップＳ５３９において、処理部２は、チルトの制御速度を０にセットする。引き続いて、処理部２は、チルト制御フラグを０にセットし（ステップＳ５４０）、ステップＳ５４６へ移行する。これらにより、チルトの制御を行わない。このように、チルトの制御量が小さい場合は、チルトの制御を行わない。チルトの制御量が小さい場合、チルトの制御を行うと、細かい動きをすることになるため表示部５を監視する監視者に不快感を与える可能性があるためである。

ステップＳ５４１において、処理部２は、チルトの制御速度Ｔ_{ｓｐｅｅｄ}を下記の数３３により算出する。ここでＨ_ｓｒｃは入力画像の高さ（縦方向の長さ）である。

その後、処理部２は、Ｓ５４１で算出されたチルトの制御速度Ｔ_{ｓｐｅｅｄ}でチルトを制御したと仮定した場合において、ｎ_ｆフレーム分時間が経過したとき（ｎ_ｆ／ｆ_ｒ秒後）のチルトの位置を計算し、その値がチルトの限界に達するか又はチルトの限界を超えた値となる否かを判定する（ステップＳ５４２）。その値がチルトの限界に達するか又はチルトの限界を超えた値となる場合は、ステップＳ５４９へ移行し、そうではない場合はステップＳ５４３へ移行する。

ステップＳ５４３において、処理部２は、ステップＳ５４１で算出されたチルトの制御速度Ｔ_{ｓｐｅｅｄ}と現在制御中の速度との差が所定値より大きいか否かを判定する。差が大きければＳ５４４へ移行し、差が小さければＳ５４５へ移行する。

ステップＳ５４４において、処理部２は、ステップＳ５４１で算出されたチルトの制御速度の値に変更する。その後ステップＳ５４５へ移行する。

ステップＳ５４５において、処理部２は、チルト制御フラグを１に設定する。その後、ステップＳ５４６へ移行する。

ステップＳ５４６において、処理部２は、全ての制御フラグ（パン制御フラグ、チルト制御フラグ、ズーム制御フラグ）が０であるか否かを判定する。全ての制御フラグが０であれば、制御しないことになるため、ステップＳ５４７を経ることなくステップＳ５４８へ移行する。いずれか１つ以上の制御フラグが１であれば、ステップＳ５４７へ移行する。

ステップＳ５４７において、処理部２は、１になっている制御フラグ及びこれに対応する制御速度に応じた制御を行うようにカメラ１に制御指令を与える。その制御は、その速度に応じてｎ_ｆ／ｆ_ｒ秒間行うが、このループを出てステップＳ５４８へ移行するのは制御が完了するのを待たないでよい。なお、本実施の形態では、制御フラグ自体によって制御指令がカメラ１に与えられるわけではなく、ステップＳ５４７のような動作によって制御フラグ及び制御速度に応じた制御指令がカメラ１に与えられるようになっている。

ステップＳ５４８において、処理部２は、追尾限界フラグを０（０は、パン、チルト、ズームのいずれもが限界に達する可能性がないことを示す）にする。これは、パン、チルト、ズームのいずれもが限界に達する可能性がない場合に、ステップＳ５４８に到達するためである。ステップＳ５４８の後、カメラ制御処理（ステップＳ７）を終了して、図３中のステップＳ９へ移行する。

ステップＳ５４９において、処理部２は、追尾限界フラグを１（１は、パン、チルト、ズームのいずれかが限界に達する可能性があることを示す）にする。これは、パン、チルト、ズームの少なくともひとつが限界に達する可能性がある場合に、ステップＳ５４９に到達するためである。ステップＳ５４９の後、ステップＳ５５０において、処理部２は、カメラ１の姿勢制御中であれば、その制御を停止する。ステップＳ５５０の後、カメラ制御処理（ステップＳ７）を終了して、図３中のステップＳ９へ移行する。

再び図３を参照すると、ステップＳ９において、処理部２は、追尾限界フラグが１であるか否かを判定する。追尾限界フラグが１であれば、追尾対象の追尾の継続が困難であると判断し、ステップＳ１（プリセット状態）に戻る。追尾限界フラグが０であれば、追尾対象の追尾の継続が可能であるので、ステップＳ５へ戻って、追尾対象の追尾を継続する。

本実施の形態によれば、カメラ１により撮像された画像に基づいてシングルパートモードとマルチパートモードのいずれかが選択され、選択されたモードで追跡処理が行われるので、常にシングルパートモードを行う場合に比べて、より多くの情報に基づいて追跡処理が行われるので、例えば人物同士の区別や人物と背景の区別が困難な追尾対象に対してもより精度良く追跡処理を行うことができ、ひいては、追尾対象をより精度良く追尾して撮像することができる。

本発明者は、本実施の形態による自動追尾装置を試作した。また、第１の比較例に係る自動追尾装置として、本実施の形態による自動追尾装置を常にシングルパートモードのみを行うように改変した自動追尾装置を試作した。さらに、第２の比較例に係る自動追尾装置として、本実施の形態による自動追尾装置を常にマルチパートヒストグラムのみを行うように改変した自動追尾装置を試作した。そして、これらの自動追尾装置で同一の映像について追尾対象の追跡が成功したフレーム数を得た。そして、その映像の種類を種々に変更した。その結果、第１の比較例と第２の比較例とでは、映像の種類によって、第１の比較例の方が第２の比較例よりも追尾対象の追跡が成功したフレーム数が多くなったり、第２の比較例の方が第１の比較例よりも追尾対象の追跡が成功したフレーム数が多くなったりした。これに対し、本実施の形態による自動追尾装置に相当する試作装置で追跡が成功したフレーム数は、いずれの種類の映像についても、第１の比較例と第２の比較例のうち追跡が成功したフレーム数が多い方の比較例で追跡が成功したフレーム数と、ほぼ同数であった。したがって、本実施の形態による自動追尾装置に相当する試作装置では、前記第１及び第２の比較例のいずれよりも、より精度良く追尾対象を追尾することができることが確認された。

また、本実施の形態では、特徴量としてヒストグラムが採用されているので、追尾対象の大きさや形状の変化に強くなり、カメラ１の制御による画像変動に影響を受け難くなる。

さらに、本実施の形態によれば、パーティクルフィルタにより追跡結果として追尾対象領域の位置及び大きさを推定するので、複数の解の候補（複数のパーティクル）を持つので追跡失敗から回復する可能性が高くなり、オクルージョンや複雑な背景などに対して強く、より精度良く追跡処理を行うことができ、ひいては、追尾対象をより精度良く追尾して撮像することができる。さらにまた、本実施の形態によれば、追尾対象領域の位置及び大きさをパラメータとしたパーティクル（サンプル）が用いられているので、追尾対象の大きさも同時に決定することが可能となり、パン、チルト、ズームが制御された画像であっても安定した追尾が可能となる。

また、本実施の形態によれば、カメラ制御処理において予測制御が導入されているので、例えば、カメラ１が制御指令に対して応答してその指令状態になるまでの動作時間が画像処理時間に比べて長い場合であっても、追尾対象の急な動きの変化などにも対応することができ、追尾対象をより精度良く追尾して撮像することができる。なお、カメラのパン、チルト、ズームの制御速度があまりに速過ぎると、追尾対象を監視者が目で追う際に、カメラのパン、チルト、ズームの変化があまりに急激になってしまい、監視者に不快感を与えてしまい監視に適さなくなってしまうが、カメラ１として制御速度が比較的遅いものを使用することができるので、カメラ１のパン、チルト、ズームの変化をスムーズにして監視により適した追尾を実現することができる。

さらに、本実施の形態によれば、このような予測にカルマンフィルタが用いられているので、追尾対象領域の位置及び大きさを精度良く予測することができ、ひいては、追尾対象をより精度良く追尾して撮像することができる。

なお、本実施の形態では、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における明度指数ヒストグラム及び知覚色度指数ヒストグラムをそれぞれ正規化したものを結合して１次元化して得たヒストグラムが、特徴量として常に用いられている。しかしながら、本発明では、例えば、特徴量として、環境や時間帯（昼間と夜間など）等に応じて、明度指数ヒストグラムのみ（このとき、知覚色度指数ヒストグラムの階級数が減る分、明度指数ヒストグラムの階級数を増加させてもよい。）と、明度指数ヒストグラム（１次元）と知覚色度指数ヒストグラム（２次元）の組み合わせとを、自動的に選択的に使用するようにしてもよい。

ところで、本実施の形態では、追尾対象領域を上下に２分割していたが、前述したように、その分割数等も２分割に限定されるものではない。例えば、必要に応じて、更に２分割するなどしても構わない。例えば、図１３に示すような分割の仕方を予め与えておく。まずは、領域ｐ_０を領域ｐ_１１，ｐ_１２に分割し、これらの領域ｐ_１１，ｐ_１２についてBhattacharyya距離を算出する。この分割が適当であると判断された場合、ｐ_１１はｐ_２１とｐ_２２に、ｐ_１２はｐ_３１とｐ_３２に分割をし、同様にBhattacharyya距離を算出する。ｐ_２１とｐ_２２はこれ以上分割しないと予め決まっている場合は、ここで止めればよい。ｐ_３２を更に分割してｐ_４１，ｐ_４２に分割できたとしても、ｐ_３１はBhattacharyya距離の値からこれ以上分割できないと判断されれば、ｐ_３２だけを分割しても良い。このようにして、予め決めておいた分割方法でその都度分割方法を変えても良い。なお、図１３は、領域の分割パターンの例を模式的に示す図である。

本実施の形態では、前述したように、シングルパートモードと分割数を２としたマルチパートヒストグラムとを選択して用いていたが、例えば先に示した図１３の場合は、前述したフローチャートの一部（特に、図６中の一部）が図１４のようになり、相違度計算は以下の通りとなる。

参照領域ｐ_０を構成する領域は、図１３からｐ_２１，ｐ_２２，ｐ_３１，ｐ_４１，ｐ_４２の５つの領域で構成されていることになる。各領域のBhattacharyya距離をｄ_１ ^（ｎ），ｄ_２ ^（ｎ），・・・，ｄ_５ ^（ｎ）とすると、下記数３４に示す通りとなる。

相違度ｄ^（ｎ）は、数３４に示す５つのBhattacharyya距離から、下記数３５で与えられる。

［第２の実施の形態］

図１５乃至図１７は、本発明の第２の実施の形態による自動追尾装置の処理部２が行う図３中の追跡処理の本処理（ステップＳ５）を詳細に示すフローチャートである。

本実施の形態が前記第１の実施の形態と異なる所は、処理部２が、図３中の追跡処理の本処理（ステップＳ５）として、図６及び図７に示す処理を行う代わりに、図１５乃至図１７に示す処理を行う点のみである。

図６及び図７に示す処理では、領域の縦横比は一定であるものの、位置と大きさを任意としてパーティクル（サンプル）をばら撒いている。この場合、位置をｋパターン、各位置に対して大きさをｊパターンとした場合、パーティクルの数はｋ×ｊとなる。もし、計算機の処理能力などの関係上、図６及び図７のようなフローチャートが必ずしも適切でない場合は、図１５乃至図１７のフローチャートのように、位置をｋパターンのパーティクルで推定し、その後に大きさｊパターンのパーティクルで推定するという処理でも、図３中の追跡処理の本処理（ステップＳ５）の実現は可能である。このとき、パーティクルの数は合計ｋ＋ｊとなり、計算量を低減して処理時間を短縮することができる。

本実施の形態のように２段階に分けて追尾対象領域の位置及び大きさを推定する方式は、処理時間が早くなるメリットはあるが、前記第１の実施の形態に比べると、追跡処理の精度が低下する可能性がある。よって、本実施の形態は、追尾対象の動きがそれほど早くなく、画面上での追尾対象の移動量が少ないと想定される場合に特に有効である。移動量が大きいと、大きさの変化も大きくなる可能性があるため、図１５乃至図１７のような２段階に分けた処理は適していない。

以下、図１５乃至図１７に示す処理について説明する。

追跡処理の本処理（ステップＳ５）を開始すると、図１５に示すように、処理部２は、まず、１枚の画像をサンプリングする（ステップＳ４００）。

次に、処理部２は、画像内の予め設定した所定の幅で所定の高さを有する領域Ｒを追尾対象１０の探索範囲として、領域Ｒ内に、追尾対象領域（本実施の形態では、矩形）の位置（例えば、重心）をパラメータとしたＮ_ｐ個のサンプル（パーティクル）をばら撒く（ステップＳ４０１）。各サンプルの位置は、領域Ｒ内であれば任意であり、当初はランダムにばら撒かれる。各サンプルの大きさは参照領域と同じ大きさとする。ここで、参照領域は、図３中の追尾対象検知処理（ステップＳ２）後の最初に行われる本処理（ステップＳ５）におけるステップＳ３０７の処理では、図４中のステップＳ１１０で検知された追尾対象１０に応じた領域である追尾対象領域（本実施の形態では、外接矩形領域）である。また、２回目以降の本処理（ステップＳ５）におけるステップＳ４０１の処理では、参照領域は、前回の本処理（ステップＳ５）におけるステップＳ４４２で推定された追尾対象領域である。なお、図３中の追尾対象検知処理（ステップＳ２）後の最初に行われる本処理（ステップＳ５）におけるステップＳ４０１の処理では、サンプルをＮ_ｐ個ばら撒くが、２回目以降の本処理（ステップＳ５）におけるステップＳ４０１の処理では、Ｎ_ｐ個から前回の本処理（ステップＳ５）で残ったサンプルの数を引いた不足分を追加してばら撒く。

次に、処理部２は、Ｎ_ｐ個のサンプルに番号を割り当てるため、サンプル番号を意味するカウント値ｋを１にセットする（ステップＳ４０２）。

次いで、処理部２は、図３中のモード選択処理（ステップＳ４）で最新に設定されたモードフラグが０であるか否かを判定することで、現在選択されているモードがマルチパートモードであるかシングルパートモードであるかを判定する（ステップＳ４０３）。マルチパートモードが選択されていれば（モードフラグが０であれば）、処理部２は、ｋ番目のサンプルの領域を、図５中のステップＳ２０１と同様に分割（本実施の形態では、上下に２分割）した（ステップＳ４０４）後に、ステップＳ４０５へ移行する。一方、シングルパートモードが選択されていれば（モードフラグが１であれば）、ステップＳ４０４を経ることなくステップＳ４０５へ移行する。

ステップＳ４０５において、処理部２は、領域番号を意味するカウント値ｉを１にセットする。マルチパートモード時にはサンプルの領域は２分割されているのでｉは１，２となるが、シングルパートモード時にはサンプルの領域は分割されないのでｉは１にしかならない。

次に、処理部２は、ステップＳ４００で最新にサンプリングされた画像におけるｋ番目のサンプルのｉ番目の領域について、ステップＳ２０３〜Ｓ２０７と同様の処理を行うことで、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における明度指数ヒストグラム及び知覚色度指数ヒストグラムをそれぞれ正規化したものを結合して１次元化して得たヒストグラムｑ_ｐｉ（数１で示すヒストグラムｐ_ｉに相当するサンプルのｉ番目の領域のヒストグラム）を生成する（ステップＳ４０６）。

次いで、処理部２は、下記の数３６に従って、参照領域のヒストグラムｐ_ｉとサンプルの領域のヒストグラムｑ_ｐｉとの間の、Bhattacharyya距離ｄ_ｐｉ ^（ｋ）を算出する（ステップＳ４０７）。ここで、参照領域のヒストグラムｐ_ｉは、参照ヒストグラムｐ_ｉあるいは参照データと呼ぶ場合があり、図３中の追尾対象検知処理（ステップＳ２）後の最初に行われる本処理（ステップＳ５）におけるステップＳ４０７の処理では、図５中のＳ２０７で生成されたヒストグラムｐ_ｉであるが、２回目以降の本処理（ステップＳ５）におけるステップＳ４０７の処理では、前回の本処理（ステップＳ５）におけるステップＳ４４３で更新されたヒストグラムｐ_ｔ（ただし、当該ｉ番目の領域に関するもの）である。

引き続いて、処理部２は、ステップＳ４０３と同様に、現在選択されているモードがマルチパートモードであるかシングルパートモードであるかを判定する（ステップＳ４０８）。マルチパートモードが選択されていれば（モードフラグが０であれば）ステップＳ４０９へ移行し、シングルパートモードが選択されていれば（モードフラグが１であれば）ステップＳ４１２へ移行する。

ステップＳ４０９において、処理部２は、現在の領域番号ｉが２であるか否かを判定することで、全ての領域（本実施の形態では、２つの分割領域）について、Bhattacharyya距離ｄ_ｐｉ ^（ｋ）の算出が終了したか否かを判定する。終了していなければ、処理部２はｉを２にセットし（ステップＳ４１０）、ステップＳ４０６へ戻る。一方、終了していれば、ステップＳ４１１へ移行する。

ステップＳ４１１において、処理部２は、下記の数３７に従って、ｋ番目のサンプルの相違度ｄ_ｐ ^（ｋ）を、ステップＳ４０７で順次算出された各分割領域のBhattacharyya距離ｄ_ｐｉ ^（ｋ）の平均値として算出し、ステップＳ４１３へ移行する。

一方、シングルパートモード時には、ステップＳ４１２において、処理部２は、ステップＳ４０７で求めたBhattacharyya距離ｄ_ｐｉ ^（ｋ）を、そのままｋ番目のサンプルの相違度ｄ_ｐ ^（ｋ）とし、ステップＳ４１３へ移行する。

ステップＳ４１３において、処理部２は、下記数３８に従って、ステップＳ４１１又はＳ４１２で得られた相違度ｄ_ｐ ^（ｋ）によって尤度π_ｐｔ ^（ｋ）を算出する。ここで、尤度はガウス分布に従うものと仮定している。

数３８において、Ｎ_ｐはパーティクルの個数（サンプル数）である。また、数３８において、σ^２は通常はガウス分布の分散となるが、ここでの計算においては予め設定しておいた値とする。

その後、処理部２は、現在のサンプル番号ｋがＮ_ｐであるか否かを判定することで、全てのサンプルについて、尤度π_ｐｔ ^（ｋ）の算出が終了したか否かを判定する（ステップＳ４１４）。終了していなければ、処理部２はサンプル番号ｋを１だけインクリメントし（ステップＳ４１５）、ステップＳ４０３へ戻る。一方、終了していれば、ステップＳ４１６へ移行する。

ステップＳ４１６において、処理部２は、ステップＳ４１３で算出した尤度π_ｐｔ ^（ｋ）と各サンプルの位置（重心位置）から、下記の数３９に従って、状態の推定結果である追尾対象領域の位置の推定結果（すなわち、追跡結果の一部）として、重み付け平均値Ｅ_ｐ［Ｓ_ｔ］を求める。重み付け平均値Ｅ_ｐ［Ｓ_ｔ］で表される追尾対象領域の位置が、追跡結果の一部となる追尾対象領域の位置である。

次に、処理部２は、ステップＳ４１３で算出された全てのサンプルの尤度π_ｐｔ ^（ｋ）を、その値の大きい順にソートする（ステップＳ４１７）。

次いで、処理部２は、ステップＳ４１７で尤度の値をソートした結果として得た尤度の最大値が、予め設定した閾値Ｖ_ｐよりも大きいか否かを判定する（ステップＳ４１８）。閾値Ｖ_ｐよりも大きければ、ここまでの追跡が成功したものと判断して、追跡結果フラグを１に設定し（ステップＳ４１９）、ステップＳ４２１へ移行する。一方、閾値Ｖ_ｐよりも小さければ、追跡が失敗したものと判断して、追跡結果フラグを０に設定し（ステップＳ４２０）、ステップＳ４２１へ移行する。

処理部２は、各サンプルについて、ステップＳ４２１〜Ｓ４２３の処理を繰り返し、全てのサンプルについてステップＳ４２１〜Ｓ４２３の処理が終了すると（ステップＳ４２４でＹＥＳ）、ステップＳ４２５へ移行する。ステップＳ４２１において、処理部２は、当該サンプルの尤度π_ｐｔ ^（ｋ）が予め設定していた閾値Π_ｐよりも大きいか否かを判定する。閾値Π_ｐよりも大きければＳ４２２へ移行し、小さければＳ４２３に移行する。ステップＳ４２２において、処理部２は、当該サンプルは、パーティクルフィルタの公知の手法に従って、次回における（すなわち、次のフレームにおける）サンプルを構成するため分裂を行う。ステップＳ４２３において、処理部２は、当該サンプルを次回における（すなわち、次のフレームにおける）サンプルを構成しないために消滅させる。

ステップＳ４２５において、処理部２は、各サンプルについてステップＳ４２２の分裂又はステップＳ４２３の消滅を行った結果、残ったサンプルがＮ_ｐ個以下であるか否かを判定する。Ｎ_ｐ個以下であれば、ステップＳ４２７へ移行する。一方、Ｎ_ｐ個よりも多い場合は、処理部２は、尤度π_ｐｔ ^（ｋ）が小さいものから順に分裂したものを含めて消滅させる（ステップＳ４２６）。その結果、残ったサンプルはＮ_ｐ個またはＮ_ｐ−１個となる。ステップＳ４２６の後、ステップＳ４２７へ移行する。

ステップＳ４２７において、処理部２は、画像内の予め設定した所定の幅で所定の高さを有する領域Ｒを追尾対象１０の探索範囲として、領域Ｒ内に、追尾対象領域（本実施の形態では、矩形）の大きさをパラメータとしたＮ_ｓ個のサンプル（パーティクル）を新たにばら撒く。各サンプルの位置は、ステップＳ４１６で推定した位置とする。各サンプルの大きさは任意であり、当初はランダムにばら撒かれる。各サンプルの縦横比は、元の追尾対象領域（図４中のステップＳ１１０で検知された追尾対象１０に応じた領域である追尾対象領域（本実施の形態では、外接矩形領域））と縦横比が同じとされる。。なお、図３中の追尾対象検知処理（ステップＳ２）後の最初に行われる本処理（ステップＳ５）におけるステップＳ４２７の処理では、サンプルをＮ_ｓ個ばら撒くが、２回目以降の本処理（ステップＳ５）におけるステップＳ４２７の処理では、Ｎ_ｓ個から前回の本処理（ステップＳ５）で残ったサンプルの数を引いた不足分を追加してばら撒く。

次に、処理部２は、Ｎ_ｓ個のサンプルに番号を割り当てるため、サンプル番号を意味するカウント値ｊを１にセットする（ステップＳ４２８）。

次いで、処理部２は、図３中のモード選択処理（ステップＳ４）で最新に設定されたモードフラグが０であるか否かを判定することで、現在選択されているモードがマルチパートモードであるかシングルパートモードであるかを判定する（ステップＳ４２９）。マルチパートモードが選択されていれば（モードフラグが０であれば）、処理部２は、ｊ番目のサンプルの領域を、図５中のステップＳ２０１と同様に分割（本実施の形態では、上下に２分割）した（ステップＳ４３０）後に、ステップＳ４３１へ移行する。一方、シングルパートモードが選択されていれば（モードフラグが１であれば）、ステップＳ４３０を経ることなくステップＳ４３１へ移行する。

ステップＳ４３１において、処理部２は、領域番号を意味するカウント値ｉを１にセットする。マルチパートモード時にはサンプルの領域は２分割されているのでｉは１，２となるが、シングルパートモード時にはサンプルの領域は分割されないのでｉは１にしかならない。

次に、処理部２は、ステップＳ４００で最新にサンプリングされた画像におけるｊ番目のサンプルのｉ番目の領域について、ステップＳ２０３〜Ｓ２０７と同様の処理を行うことで、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における明度指数ヒストグラム及び知覚色度指数ヒストグラムをそれぞれ正規化したものを結合して１次元化して得たヒストグラムｑ_ｓｉ（数１で示すヒストグラムｐ_ｉに相当するサンプルのｉ番目の領域のヒストグラム）を生成する（ステップＳ４３２）。

次いで、処理部２は、下記の数４０に従って、参照領域のヒストグラムｐ_ｉとサンプルの領域のヒストグラムｑ_ｓｉとの間の、Bhattacharyya距離ｄ_ｓｉ ^（ｊ）を算出する（ステップＳ４３３）。ここで、参照領域のヒストグラムｐ_ｉは、参照ヒストグラムｐ_ｉあるいは参照データと呼ぶ場合があり、図３中の追尾対象検知処理（ステップＳ２）後の最初に行われる本処理（ステップＳ５）におけるステップＳ４３３の処理では、図５中のＳ２０７で生成されたヒストグラムｐ_ｉであるが、２回目以降の本処理（ステップＳ５）におけるステップＳ４３３の処理では、前回の本処理（ステップＳ５）におけるステップＳ４４３で更新されたヒストグラムｐ_ｔ（ただし、当該ｉ番目の領域に関するもの）である。

引き続いて、処理部２は、ステップＳ４２９と同様に、現在選択されているモードがマルチパートモードであるかシングルパートモードであるかを判定する（ステップＳ４３４）。マルチパートモードが選択されていれば（モードフラグが０であれば）ステップＳ４３５へ移行し、シングルパートモードが選択されていれば（モードフラグが１であれば）ステップＳ４３８へ移行する。

ステップＳ４３５において、処理部２は、現在の領域番号ｉが２であるか否かを判定することで、全ての領域（本実施の形態では、２つの分割領域）について、Bhattacharyya距離ｄ_ｓｉ ^（ｊ）の算出が終了したか否かを判定する。終了していなければ、処理部２はｉを２にセットし（ステップＳ４３６）、ステップＳ４３２へ戻る。一方、終了していれば、ステップＳ４３７へ移行する。

ステップＳ４３７において、処理部２は、下記の数４１に従って、ｊ番目のサンプルの相違度ｄ_ｓ ^（ｊ）を、ステップＳ４３３で順次算出された各分割領域のBhattacharyya距離ｄ_ｓｉ ^（ｊ）の平均値として算出し、ステップＳ４３９へ移行する。

一方、シングルパートモード時には、ステップＳ４３８において、処理部２は、ステップＳ４３３で求めたBhattacharyya距離ｄ_ｓｉ ^（ｊ）を、そのままｊ番目のサンプルの相違度ｄ_ｓ ^（ｊ）とし、ステップＳ４３９へ移行する。

ステップＳ４３９において、処理部２は、下記数４２に従って、ステップＳ４３７又はＳ４３８で得られた相違度ｄ_ｓ ^（ｊ）を観測値として用いて、尤度π_ｓｔ ^（ｊ）を算出する。ここで、尤度はガウス分布に従うものと仮定している。

数４２において、Ｎ_ｓはパーティクルの個数（サンプル数）である。また、数４１において、σ^２は通常はガウス分布の分散となるが、ここでの計算においては予め設定しておいた値とする。

その後、処理部２は、現在のサンプル番号ｊがＮ_ｓであるか否かを判定することで、全てのサンプルについて、尤度π_ｓｔ ^（ｊ）の算出が終了したか否かを判定する（ステップＳ４４０）。終了していなければ、処理部２はサンプル番号ｊを１だけインクリメントし（ステップＳ４４１）、ステップＳ４２９へ戻る。一方、終了していれば、ステップＳ４４２へ移行する。

ステップＳ４４２において、処理部２は、ステップＳ４３９で算出した尤度π_ｓｔ ^（ｊ）と各サンプルの大きさから、下記の数４３に従って、状態の推定結果である追尾対象領域の大きさの推定結果（すなわち、追跡結果の他の一部）として、重み付け平均値Ｅ_ｓ［Ｓ_ｔ］を求める。重み付け平均値Ｅ_ｓ［Ｓ_ｔ］で表される追尾対象領域の大きさが、追跡結果の他の一部となる追尾対象領域の大きさである。

その後、処理部２は、ステップＳ４４２で得た推定結果に基づいて、下記数４４に従って、参照データを更新する（ステップＳ４４３）。数４４において、ヒストグラムｐ_ｔ−１は、時刻ｔ−１の推定された追尾対象領域に関するヒストグラムを示し、ステップＳ４００で最新にサンプリングされた画像における、ステップＳ４４２で推定結果として得られた追尾対象領域について、ステップＳ２０３〜Ｓ２０７と同様の処理を行うことで、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における明度指数ヒストグラム及び知覚色度指数ヒストグラムをそれぞれ正規化したものを結合して１次元化して得たヒストグラムである。また、数４４において、ｑ_ｔ−１は時刻ｔ−１の推定前の追尾対象領域に関するヒストグラムを示す。

次に、処理部２は、ステップＳ４３９で算出された全てのサンプルの尤度π_ｓｔ ^（ｊ）を、その値の大きい順にソートする（ステップＳ４４４）。

次いで、処理部２は、ステップＳ４４４で尤度の値をソートした結果として得た尤度の最大値が、予め設定した閾値Ｖ_ｓよりも大きいか否かを判定する（ステップＳ４４５）。閾値Ｖ_ｐよりも大きければ、ステップＳ４４７へ移行する。一方、閾値Ｖ_ｓよりも小さければ、追跡が失敗したものと判断して、追跡結果フラグを０に設定し（ステップＳ４４６）、ステップＳ４４７へ移行する。

処理部２は、各サンプルについて、ステップＳ４４７〜Ｓ４４９の処理を繰り返し、全てのサンプルについてステップＳ４２７〜Ｓ４２９の処理が終了すると（ステップＳ４５０でＹＥＳ）、ステップＳ４５１へ移行する。ステップＳ４４７において、処理部２は、当該サンプルの尤度π_ｓｔ ^（ｊ）が予め設定していた閾値Π_ｓよりも大きいか否かを判定する。閾値Π_ｓよりも大きければＳ４４８へ移行し、小さければＳ４４９に移行する。ステップＳ４４８において、処理部２は、当該サンプルは、パーティクルフィルタの公知の手法に従って、次回における（すなわち、次のフレームにおける）サンプルを構成するため分裂を行う。ステップＳ４４９において、処理部２は、当該サンプルを次回における（すなわち、次のフレームにおける）サンプルを構成しないために消滅させる。

ステップＳ４５１において、処理部２は、各サンプルについてステップＳ４４８の分裂又はステップＳ４４９の消滅を行った結果、残ったサンプルがＮ_ｓ個以下であるか否かを判定する。Ｎ_ｓ個以下であれば、追跡処理の本処理（ステップＳ５）を終了して、図３中のステップＳ６へ移行する。一方、Ｎ_ｓ個よりも多い場合は、処理部２は、尤度π_ｓｔ ^（ｊ）が小さいものから順に分裂したものを含めて消滅させる（ステップＳ４５２）。その結果、残ったサンプルはＮ_ｓ個またはＮ_ｓ−１個となる。ステップＳ４５２の後、追跡処理の本処理（ステップＳ５）を終了して、図３中のステップＳ６へ移行する。

本実施の形態によっても前記第１の実施の形態と同様の利点が得られるが、前述したように、本実施の形態によれば、前記第１の実施の形態と比べれば追跡処理の精度が低下するものの、前記第１の実施の形態と比べて計算量を低減して処理時間を短縮することができるという利点が得られる。

以上、本発明の各実施の形態及びその変形例について説明したが、本発明はこれらに限定されるものではない。

本発明の第１の実施の形態による自動追尾装置を模式的に示すブロック図である。カメラによる追尾対象の追尾の様子の例を模式的に示す図である。図１中の処理部の動作の一例を示す概略フローチャートである。図３中の追尾対象検知処理（ステップＳ２）を詳細に示すフローチャートである。図３中のモード選択処理（ステップＳ４）を詳細に示すフローチャートである。図３中の追跡処理の本処理（ステップＳ５）を詳細に示すフローチャートである。図６に引き続くフローチャートである。図３中のカメラ制御処理（ステップ７）を詳細に示すフローチャートである。図８に引き続くフローチャートである。図９に引き続くフローチャートである。図１０に引き続くフローチャートである。追尾対象の探索範囲をなす領域とサンプルの分布状態の例を、模式的に示す図である。領域の分割パターンの例を模式的に示す図である。図６中の一部を変形した例を示すフローチャートである。本発明の第２の実施の形態による自動追尾装置の処理部が行う追跡処理の本処理を詳細に示すフローチャートである。図１５に引き続くフローチャートである。図１６に引き続くフローチャートである。

符号の説明

１カメラ
１ａカメラ本体
１ｂズームレンズ
１ｃ回転台
２制御部

Claims

パン、チルト及びズームの制御が可能なカメラと、
前記カメラにより撮像された画像を処理して、前記カメラが追尾対象を自動追尾して撮像するように前記カメラを制御する処理手段と、
を備え、
前記処理手段は、前記カメラにより撮像された画像に基づいて追尾対象を追跡する追跡処理を行う追跡処理手段と、該追跡処理手段による前記追跡処理の結果に応じて前記カメラが前記追尾対象を追尾するように、前記カメラのパン、チルト及びズームを制御する制御手段と、を含み、
前記追跡処理手段は、前記カメラにより撮像された画像に基づいて、前記追尾対象の追跡開始当初に、前記追尾対象に応じた領域である追尾対象領域の全体の領域から得た特徴量であるシングルパート特徴量を用いて追跡処理を行うシングルパートモードとするかそれとも前記追尾対象領域の分割された各領域からそれぞれ得た特徴量であるマルチパート特徴量を用いて追跡処理を行うマルチパートモードとするかを選択する予備処理手段と、前記予備処理手段により選択されたモードで追跡処理を行う本処理手段とを含む、
ことを特徴とする自動追尾装置。
前記特徴量がヒストグラムであることを特徴とする請求項１記載の自動追尾装置。
前記特徴量は、所定色空間におけるヒストグラムに基づくヒストグラムであることを特徴とする請求項１記載の自動追尾装置。
前記特徴量は、ＣＩＥ１９７６Ｌ^＊ｕ^＊ｖ^＊色空間における明度指数ヒストグラム及び知覚色度指数ヒストグラムをそれぞれ正規化したものを結合して１次元化して得たヒストグラムであることを特徴とする請求項３記載の自動追尾装置。
前記予備処理手段は、前記カメラにより撮像された画像に基づいて、前記追尾対象の追跡開始当初の前記追尾対象領域の前記分割された前記各領域の前記特徴量同士の類似度を示す指標に従って、前記各領域の前記特徴量同士の類似度が所定以上に高い場合には前記シングルパートモードを選択し、前記各領域の前記特徴量同士の類似度が所定以下に低い場合には前記マルチパートモードを選択する、ことを特徴とする請求項１乃至４のいずれかに記載の自動追尾装置。
前記指標は、前記分割された前記各領域の前記特徴量同士の間のBhattacharyya距離であることを特徴とする請求項５記載の自動追尾装置。
前記本処理手段は、前記カメラにより撮像された画像に基づいて、追尾対象領域の位置及び大きさをパラメータとした複数のパーティクルによるパーティクルフィルタにより、追跡結果として追尾対象領域の位置及び大きさを推定し、
前記パーティクルフィルタは、前記各パーティクルに関して、過去の追尾対象領域の特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）に基づく参照特徴量に対して当該パーティクルの特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）が相違する度合いを示す相違度によって算出した尤度を用いるものである、
ことを特徴とする請求項１乃至６のいずれかに記載の自動追尾装置。
前記各パーティクルの前記相違度は、シングルパートモード時には前記参照特徴量と当該パーティクルの前記シングルパート特徴量との間のBhattacharyya距離であるとともに、マルチパートモード時には前記参照特徴量と当該パーティクルの前記マルチパート特徴量との各間のBhattacharyya距離の平均値である、ことを特徴とする請求項７記載の自動追尾装置。
前記本処理手段は、前記カメラにより撮像された画像に基づいて、追尾対象領域の位置をパラメータとした複数の第１のパーティクルによる第１のパーティクルフィルタにより、追跡結果の一部として追尾対象領域の位置を推定し、追尾対象領域の大きさをパラメータとしかつ前記第１のパーティクルフィルタにより推定された追尾対象の位置を持つ複数の第２のパーティクルによる第２のパーティクルフィルタにより、追跡結果の他の一部として追尾対象領域の大きさを推定し、
前記第１のパーティクルフィルタは、前記各第１のパーティクルに関して、過去の追尾対象領域の特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）に基づく参照特徴量に対して当該第１のパーティクルの特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）が相違する度合いを示す第１の相違度によって算出した尤度を用いるものであり、
前記第２のパーティクルフィルタは、前記各第２のパーティクルに関して、過去の追尾対象領域の特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）に基づく参照特徴量に対して当該第２のパーティクルの特徴量（シングルパートモード時にはシングルパート特徴量、マルチパートモード時にはマルチパート特徴量）が相違する度合いを示す第２の相違度によって算出した尤度を用いるものである、
ことを特徴とする請求項１乃至６のいずれかに記載の自動追尾装置。
前記各第１のパーティクルの前記第１の相違度は、シングルパートモード時には前記参照特徴量と当該第１のパーティクルの前記シングルパート特徴量との間のBhattacharyya距離であるとともに、マルチパートモード時には前記参照特徴量と当該第１のパーティクルの前記マルチパート特徴量との各間のBhattacharyya距離の平均値であり、
前記各第２のパーティクルの前記第２の相違度は、シングルパートモード時には前記参照特徴量と当該第２のパーティクルの前記シングルパート特徴量との間のBhattacharyya距離であるとともに、マルチパートモード時には前記参照特徴量と当該第２のパーティクルの前記マルチパート特徴量との各間のBhattacharyya距離の平均値である、
ことを特徴とする請求項９記載の自動追尾装置。
前記制御手段は、前記追跡処理手段による前記追跡処理の結果に基づいて現在から所定時間経過後の追尾対象領域の位置及び大きさを予測する予測手段を含み、
前記制御手段は、前記予測手段による予測結果に応じて、前記カメラに対する現在のパン、チルト及びズームの制御状態を修正して前記カメラのパン、チルト及びズームを制御する、
ことを特徴とする請求項１乃至１０のいずれかに記載の自動追尾装置。
前記予測手段は、カルマンフィルタにより、現在から所定時間経過後の追尾対象領域の位置及び大きさを予測することを特徴とする請求項１１記載の自動追尾装置。