JP7354767B2

JP7354767B2 - 物体追跡装置および物体追跡方法

Info

Publication number: JP7354767B2
Application number: JP2019196281A
Authority: JP
Inventors: 信二高橋
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-10-03
Anticipated expiration: 2039-10-29
Also published as: CN114616591A; JP2021071769A; DE112020005223T5; US20220366570A1; WO2021084972A1

Description

本発明は、物体の追跡ロストが生じたときの回復技術に関する。

動画像（時系列画像）のあるフレームにおいて検出された物体を追跡する物体追跡は、コンピュータビジョン分野において重要な技術である。

物体追跡手法の１つとして、相関フィルタモデルのＫＣＦ（Kernelized Correlation Filter）と呼ばれる手法が知られている。ＫＣＦは、最初に与えられる追跡対象物の領域
を正解とみなして、オンライン学習をしながら追跡を行う。時間の経過とともに、追跡対象の領域にノイズ（追跡対象以外の画像領域）が発生し、背景へのドリフト現象が生じる場合がある。このように、追跡対象物を見失って追跡を正常に継続できなくなることは、追跡の失敗またはロスト（喪失）と呼ばれる。

追跡ロストは、相関フィルタモデルの追跡手法に限られず、任意の追跡手法で発生する問題である。追跡ロストが発生した際には、追跡対象物をあらためて求めて追跡を継続することが望まれる。追跡ロスト後に追跡対象を再探索して追跡を継続することは、追跡の回復と呼ばれる。

特許文献１は、追跡ロストからの回復処理を提案する。具体的には、特許文献１は、追跡が行えている間はテンプレート画像の更新を継続する一方、追跡ロストが生じた場合は初期テンプレート画像を用いた探索を行い、探索結果を追跡対象とすることでロストからの回復を行う。

ところで、ビルディングオートメーション（ＢＡ）やファクトリーオートメーション（ＦＡ）の分野において、画像センサにより人の「数」・「位置」・「動線」などを自動で計測し、照明や空調などの機器を最適制御するアプリケーションが必要とされている。このような用途では、できるだけ広い範囲の画像情報を取得するために、魚眼レンズ（フィッシュアイレンズ）を搭載した超広角のカメラ（魚眼カメラ、全方位カメラ、全天球カメラなどと呼ばれるが、いずれも意味は同じである。本明細書では「魚眼カメラ」の語を用いる）を利用することが多い。さらに、上記の用途では、できるだけ広い範囲の画像情報を取得するために、天井などの高所に取り付けたカメラをカメラの視点がトップ・ビューになるようにして配置する。この配置のカメラでは、人物を撮影する視点は、人物が画像の周辺にいるときには正面像、側面像または背面像になり、画像の中央にいるときには上面図となる。さらに、この配置のカメラでは、周辺にいるときには被写体の像全体が見える一方で、中央にいるときの上面図では頭部や肩は撮影されるが胴や下半身には隠れが発生する。

魚眼カメラで撮影された画像は、撮影面内の位置により撮影対象の見た目が歪みのため変形する。さらに、魚眼カメラ以外のカメラを用いても、カメラの視点をトップ・ビューにすると、追跡対象の位置により見た目が変化したり隠れが発生したりする。また、組み込み機器など、処理能力の限られた環境ではフレームレートが低いことが考えられ、フレーム間での物体の移動量や特徴量の変化が大きいという特殊性がある。

このような事情から、特許文献１のような従来手法では、精度良く回復できない場合がある。

特開２０１４－０３６４２９号公報

本発明は上記実情に鑑みなされたものであって、従来よりも精度の良い物体追跡の回復技術を提供することを目的とする。

上記目的を達成するために本発明は、以下の構成を採用する。

本発明の第一側面は、
記憶手段と、
動画像中の対象物を追跡する追跡手段と、
前記対象物をロストしたときに前記対象物の回復を行う回復手段と、
を備える物体追跡装置であって、
前記記憶手段は、前記動画像を構成する複数のフレーム画像のうちの１つである第１のフレーム画像における、前記対象物の領域画像を部位毎に記憶し、かつ、前記第１のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位を記憶し、
前記回復手段は、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第２のフレーム画像に対応する視覚的顕著性マップの極大値位置ごとに、（１）前記極大値位置に、前記第１のフレーム画像において極大値をとる前記対象物の部位が存在すると仮定したときの、前記対象物のそれぞれの部位が存在する領域を推定し、（２）前記第１のフレーム画像と前記第２のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出し、
前記第２のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定する、
物体追跡装置である。

追跡の対象とする物体、すなわち「対象物」は、任意の物体であってよく、人体、顔、動物、車両などがその一例である。対象物の「部位」は、対象物に応じて区分されればよく、その数は特に限定されない。例えば、視覚的顕著性が異なる部分を部位として定義すればよい。対象物が人体である場合、頭部、上半身、下半身の３つの部位に区分することができるが、３つより多いまたは少ない数の部位に区分しても構わない。「視覚的顕著性」は、人間の注意の引きやすさの程度を表す指標であり、例えば、明度、明度の時間変化、色、方向などの特徴に基づいて決定できる。

画像中の位置によって対象物のサイズ及び形状が変化することが想定されるが、視覚的顕著性が極大値をとる部位（以下、顕著部位とも称する）は変化しないことが期待できる。したがって、視覚的顕著性マップにおける極大値位置は、顕著部位が存在する位置の候補とみなせる。また、画像中の特定の位置に特定の部位が存在するという条件を与えると、その他の部位が画像中のどの位置に存在するかも決定可能である。そこで、回復手段は、第１のフレーム画像と第２のフレーム画像の部位毎の領域画像の類似性に基づく類似度スコアを、視覚的顕著性マップのそれぞれの極大値位置について算出し、上記類似度スコアが最も大きい位置に対象物があると判定する。これにより、画像中で対象物のサイズや形状が変化した場合でも、精度良く回復が行える。

このような回復を行うために、記憶手段は、第１のフレーム画像における対象物の領域
画像を表す情報を部位毎に記憶するとともに、第１のフレーム画像において視覚的顕著性が極大値をとる部位（顕著部位）を、あらかじめ記憶する。部位毎の領域画像を表す情報は、それに基づいて画像類似度を算出できる情報であれば任意の情報であってよく、例えば、領域画像そのものであってもよいし、領域画像の特徴を表す画像特徴量であってもよい。また、顕著部位は、第１のフレーム画像に対応する視覚的顕著性マップが極大値をとる位置にある部位として求められる。なお、対象物内に複数の極大値が存在する場合には、複数の極大値における最大値を取る位置、または、重心や重みづけ和などにより求めた位置が属する部位を顕著部位とする。

部位毎の領域画像の類似性は、例えば、画像特徴量の類似度に基づいて算出してもよい。画像特徴量の例として、色ヒストグラムおよび輝度ヒストグラムが挙げられる。最終的な類似度スコアは、画像特徴量の類似度を統合することにより算出してもよい。統合の際には、例えば、第２のフレーム画像における各部位の可視割合に応じた重みを用いてもよい。また、顕著部位と、それ以外の部位（以下、非顕著部位とも称する）とで異なる重みを用いて画像類似度を統合してもよい。このようにして類似度スコアを算出することで、より精度のよい回復が可能となる。

また、画像中の特定の位置に対象物のある部位が存在するときに、その他の部位が存在する位置を求める方法は、特に限定されない。例えば、あらかじめ実測またはシミュレーションによって、様々な位置に配置された対象物を撮影して、そのときの各部位の位置を記憶してもよい。また、対象物を所定形状（例えば、円筒形）でモデル化して、特定部位が特定位置にあるときにどのように撮影されるかを計算により都度求めるようにしてもよい。なお、各部位の位置だけでなく、各部位のサイズあるいは形状、および各部位の可視割合も、あらかじめ記憶またはその都度算出するようにしてもよい。

上述の第１のフレーム画像は、第２のフレーム画像よりも前のフレーム画像であればよいが、対象物の追跡を開始したフレームに近い画像であることが好ましい。したがって、第１のフレーム画像は、対象物の追跡を開始したフレーム画像またはその次のフレーム画像としてもよい。追跡を開始した初期のフレーム画像であるほど、ノイズが混じる可能性が少なく、したがって回復の精度が向上する。

本発明における追跡手段の追跡アルゴリズムは、特に限定されないが、ＫＣＦ，ＭＯＳＳＥ，ＤＣＦ，ＤＳＳＴ，ＣＳＲ－ＤＣＦ、Ｓｔａｐｌｅなどの相関フィルタを用いる方法、Ｍｅａｎ－Ｓｈｉｆｔやテンプレートマッチングを用いる方法が例示できる。相関フィルタを用いた追跡では、相関フィルタによって算出される指標の最大値が閾値より小さいときに、対象物をロストしたと判定できる。Ｍｅａｎ－Ｓｈｉｆｔやテンプレートマッチングでは、色ヒストグラムなどを用いて求める指標が許容範囲外であるときに、対象物をロストしたと判定できる。具体的には、指標が類似度であれば閾値よりも小さいときに、また、指標が距離であれば閾値よりも大きいときに、対象物をロストしたと判定できる。

また、本発明において処理対象とされる画像は、魚眼カメラにより得られた魚眼画像であってよい。「魚眼カメラ」は、魚眼レンズを搭載したカメラであり、通常のカメラに比べて超広角での撮影が可能なカメラである。全方位カメラ、全天球カメラおよび魚眼カメラはいずれも超広角カメラの一種であり、いずれも意味は同じである。魚眼カメラは、検出対象エリアの上方から検出対象エリアを見下ろすように設置されていればよい。典型的には魚眼カメラの光軸が鉛直下向きとなるように設置されるが、魚眼カメラの光軸が鉛直方向に対して傾いていても構わない。魚眼画像はひずみが大きいため、特に低フレームレートの画像ではフレーム間での物体の特徴変化が大きく、背景へのドリフトが多発する。さらに、カメラの光軸を鉛直下向きとなるように設置すると、画像における対象物の位置
により対象物を撮影する視点が変化するため、特に低フレームレートの画像では、物体が大きく変形し追跡の失敗が多発し、回復も難しい。しかし、本発明によればそのような魚眼画像においても、カメラの光軸を鉛直下向きとなるように設置しても、追跡失敗からの回復を精度良く行える。もっとも、本発明が処理対象とする画像は、魚眼画像に限られず、通常の画像（歪みの少ない画像や高フレームレートの画像）であっても構わない。

本発明の第二の態様は、物体追跡装置が行う、追跡の対象物をロストしたときに行う追跡ロスト回復方法であって、
前記動画像を構成する複数のフレーム画像のうちの１つである第１のフレーム画像における、前記対象物の領域画像を部位毎に記憶し、かつ、前記第１のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位を記憶するステップと、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第２のフレーム画像に対応する視覚的顕著性マップの極大値位置ごとに、（１）前記極大値位置に、前記第１のフレーム画像において極大値をとる前記物体の部位が存在すると仮定したときの、前記物体のそれぞれの部位が存在する領域を推定し、（２）前記第１のフレーム画像と前記第２のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出するステップと、
前記第２のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定するステップと、
を実行する追跡ロスト回復方法である。

本発明は、上記手段の少なくとも一部を有する物体追跡装置として捉えてもよいし、画像処理装置や監視システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む物体追跡方法、画像処理方法、監視方法として捉えてもよい。また、本発明は、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、追跡対象物をロストしたときに、従来よりも精度良く回復が行える。

図１は、本発明に係る人追跡装置の適用例を示す図である。図２は、人追跡装置を備える監視システムの構成を示す図である。図３は、記憶部に記憶される部位情報テーブルを説明する図である。図４は、人追跡装置が実施する全体処理のフローチャートである。図５は、学習処理のフローチャートである。図６は、追跡処理のフローチャートである。図７は、回復処理のフローチャートである。図８は、回復処理のデータフロー図である。図９Ａは初期フレーム（第２フレーム）における各部位の領域画像の色ヒストグラムを説明する図であり、図９Ｂは初期フレーム（第２フレーム）に対応する視覚的顕著性マップを示す図である。図１０Ａは追跡ロストが発生したフレーム（第Ｎフレーム）に対応する視覚的顕著性マップを示す図であり、図１０Ｂは追跡ロストが発生したフレーム（第Ｎフレーム）において極大値位置ごとに類似度スコアを求める方法を説明する図である。

＜適用例＞
図１を参照して、本発明に係る物体追跡装置の適用例を説明する。人追跡装置１は、追
跡対象エリア１１の上方（例えば天井１２など）に設置された魚眼カメラ１０により得られた魚眼画像を解析して、追跡対象エリア１１内に存在する人１３を検出・追跡する装置である。この人追跡装置１は、例えば、オフィスや工場などにおいて、追跡対象エリア１１を通行する人１３の検出、認識、追跡などを行う。図１の例では、魚眼画像から検出された４つの人体それぞれの領域がバウンディングボックスで示されている。人追跡装置１の検出結果は、外部装置に出力され、例えば、人数のカウント、照明や空調など各種機器の制御、不審者の監視および動線分析などに利用される。

本適用例では、物体追跡アルゴリズムとして、局所最適化による追跡アルゴリズムを採用する。このアルゴリズムでは、追跡対象を含む部分領域の画像を学習し、対象物と同様の特徴を有する領域の位置を特定することにより追跡が行われる。対象物の近傍も学習対象としているので、背景が複雑に変化する状況では、時間を経るにしたがいノイズが発生して追跡に失敗する場合がある。

本適用例は、追跡ロストが発生した際に、精度良く追跡の回復を行う。具体的には、人追跡装置１は、視覚的顕著性マップにおいて極大値をとる位置のそれぞれについて、候補領域を推定し、候補領域と対象物との類似度スコアを求めて、類似度スコアが最も大きい極大値位置を対象物の位置であると推定する。この際、人追跡装置１は、画像上の位置ごとに、ある部位がその位置に存在する場合の、他の部位が存在する位置を取得する。また、人追跡装置１は、追跡中において顕著性が最も高い部位（顕著部位）を記憶する。人追跡装置１は、追跡ロスト時に、視覚的顕著性マップの極大値位置に顕著部位が存在すると推定し、また、他の部位が存在する位置も推定できる。このようにして、各部位の存在する位置が適切に推定できるので、各部位が存在する領域の類似性に基づいて、最終的な類似度スコアを算出する。これにより、精度のよい回復が実現できる。

＜監視システム＞
図２を参照して、本発明の実施形態を説明する。図２は、本発明の実施形態に係る人追跡装置を適用した監視システムの構成を示すブロック図である。監視システム２は、魚眼カメラ１０と人追跡装置１とを備えている。

［魚眼カメラ］
魚眼カメラ１０は、魚眼レンズを含む光学系と撮像素子（ＣＣＤやＣＭＯＳなどのイメージセンサ）を有する撮像装置である。魚眼カメラ１０は、例えば図１に示すように、追跡対象エリア１１の天井１２などに、光軸を鉛直下向きにした状態で設置され、追跡対象エリア１１の全方位（３６０度）の画像を撮影するとよい。魚眼カメラ１０は人追跡装置１に対し有線（ＵＳＢケーブル、ＬＡＮケーブルなど）または無線（ＷｉＦｉなど）で接続され、魚眼カメラ１０で撮影された画像データは人追跡装置１に取り込まれる。画像データはモノクロ画像、カラー画像のいずれでもよく、また画像データの解像度やフレームレートやフォーマットは任意である。本実施形態では、１０ｆｐｓ（１秒あたり１０枚）で取り込まれるカラー（ＲＧＢ）画像を用いることを想定している。

［人追跡装置］
人追跡装置１は、そのハードウェア構成要素として、１つ以上のプロセッサ、主記憶装置、補助記憶装置、通信装置、入力装置、出力装置を備え、プロセッサがコンピュータプログラムを実行することによって、以下の各種処理を実行する。なお、一部又は全部の処理は、専用のハードウェア回路によって実行されてもよい。

本実施形態の人追跡装置１は、画像入力部２０、人体検出部２１、追跡部２２、学習部２３、記憶部２４、視覚的顕著性マップ算出部２５、回復部２６、出力部２７を有している。

画像入力部２０は、魚眼カメラ１０から画像データを取り込む機能を有する。取り込まれた画像データは人体検出部２１および追跡部２２に引き渡される。

（人体検出部）
人体検出部２１は、人体を検出するアルゴリズムを用いて、魚眼画像から人体を検出する機能を有する。人体検出部２１によって検出された人体が、追跡部２２による追跡処理の対象となる。なお、人体検出部２１は、画像内に新たに現れた人物のみを検出してもよく、追跡対象の人物が存在している位置の近くは検出処理の対象から除外してもよい。さらに、一定の時間間隔またはフレーム間隔により、画像全体に人体検出部２１による人物の検出を行い、その後、追跡部２２による追跡処理をしてもよい。

（追跡部）
追跡部２２は、動画像中の追跡対象を追跡する機能部であり、追跡対象の人物の現フレーム画像中での位置を特定する。追跡部２２は、最初は人体検出部２１による検出位置を含む領域をターゲット領域として、そのターゲット領域内から検出された人物と同様の特徴を有する物体位置を特定する。それ以降は、前フレーム画像について追跡部２２が特定した位置の付近をターゲット領域として、現フレーム画像中から追跡対象の人物の位置を特定する。

追跡部２２は、特徴量抽出部１０１、応答マップ生成部１０２、ロスト判定部１０３を有する。

特徴量抽出部１０１は、ターゲット領域から画像特徴量を抽出する。特徴量抽出部１０１は、画像特徴量として、形状に関する特徴量と色に関する特徴量のいずれかまたは両方を抽出する。形状に関する特徴量の例はＨＯＧ（Histogram of Gradient）であり、色に
関する特徴量の例は色ヒストグラム、ｃｏｌｏｒｎａｍｅｓ特徴量である。

応答マップ生成部１０２は、入力画像から抽出された特徴量と、記憶部２４に記憶されている相関フィルタを用いて、ターゲット領域の各位置について追跡対象物が存在する確からしさを表す応答マップ（尤度のマップ）を生成する。

ロスト判定部１０３は、追跡ロストが発生したか否かを判定する。ロスト判定部１０３は、例えば、応答マップにおける最大の尤度が閾値ＴＨ１より小さい場合に追跡ロストが発生したと判断する。この閾値ＴＨ１はシステム要求に応じて適宜設定すればよい。なお、追跡対象が撮影範囲の外に移動したと推定できるときには、ロスト判定部１０３は、追跡ロストが発生したとは判定せずに、フレームアウトが発生したと判定してもよい。

追跡部２２は、応答マップにおける最大尤度が閾値ＴＨ１より大きい場合に、当該最大尤度の位置に追跡対象の人体があると判断する。

なお、追跡部２２は、相関フィルタを用いた形状特徴に基づく評価に代えて、あるいは加えて、色特徴に基づく評価によって追跡をおこなってもよい。例えば、追跡部２２は、学習済みの色特徴に基づいて前景尤度のマップを生成し、このマップに基づいて追跡対象の位置を求めてもよい。あるいは、追跡部２２は、相関フィルタの応答マップと前景尤度のマップとを合成したマップに基づいて追跡対象の位置を求めてもよい。色情報の特徴量として、色ヒストグラム、ｃｏｌｏｒｎａｍｅｓ特徴量などがある。

（学習部）
学習部２３は、人体検出部２１が検出した、あるいは追跡部２２が特定した人体の画像
から、追跡対象の人体の特徴を学習して学習結果を記憶部２４に記憶する。ここでは、学習部２３は、形状特徴に基づく評価を行うための相関フィルタを求める。学習部２３は、毎フレーム学習を行い、現フレームから得られる学習結果を所定の係数で過去の学習結果に反映させて更新する。なお、追跡処理において色特徴に基づく評価を行う場合には、学習部２３は色ヒストグラム、ｃｏｌｏｒｎａｍｅｓ特徴量などの色情報の特徴量を用いてもよい。

（記憶部）
記憶部２４は、学習部２３によって学習された学習結果を記憶する。記憶部２４は、また、利用する特徴量（ＨＯＧ、色ヒストグラム）、各特徴量のパラメータ、学習係数など、学習処理および追跡処理のハイパーパラメータも記憶する。

記憶部２４は、また、追跡初期のフレーム画像における追跡対象の領域画像を表す情報を部位毎に記憶し、かつ顕著部位を記憶する。

本実施形態では、人体の部位を頭部、上半身、および下半身の３つの部位に分けることを想定する。したがって、記憶部２４は、頭部、上半身、および下半身のそれぞれの領域画像を表す情報を記憶する。ここで、領域画像を表す情報は、領域画像そのものであってもよいし、部位毎の領域画像から得られる画像特徴量（例えば、色ヒストグラム）であってもよい。なお、人体の画像を部位毎の領域画像に分割する処理は、既知の画像セグメンテーション処理によって行える。または、人体比率を仮定し、この比率にしたがって部位毎の領域分割を行ってもよい。

顕著部位は、追跡初期のフレーム画像に対応する視覚的顕著性マップが極大値をとる追跡対象の部位である。視覚的顕著性マップは、視覚的顕著性マップ算出部２５によって算出できる。視覚的顕著性マップにおける極大値の位置と、入力画像における各部位の領域を比較することにより、顕著部位が把握できる。記憶部２４は、このようにして求められる顕著部位を記憶する。本実施形態では、頭部、上半身、下半身のいずれの部位が顕著部位であるかが記憶される。

なお、「追跡初期のフレーム画像」とは、本実施形態では、追跡開始後の２番目のフレーム画像、言い換えると追跡部２２が最初に処理したフレーム画像を意味する。追跡開始から時間が経ていないほどノイズ混入が少ないため、さらに顕著性を求める際に明度の時間変化を求められる最初のフレームが２番目のフレームとなるため、２番目のフレーム画像を採用している。なお、１番目のフレーム画像、言い換えると人体検出部２１が人体検出したフレーム画像、あるいは３番目以降のフレーム画像を対象として、上記の情報を取得および記憶してもよい。「追跡初期のフレーム画像」は、本発明における、処理対象の動画像を構成する複数のフレーム画像の１つである第１のフレーム画像に相当する。

記憶部２４は、また、魚眼カメラ１０によって撮影される画像上の位置と、その位置に人体の一の部位が存在するときの他の部位が存在する位置およびサイズ、ならびに、各部位の可視割合とを関連付けて記憶する。本明細書では、上記情報を部位情報と称し、部位情報を格納するテーブルを部位情報テーブルと称する。

図３は、部位情報テーブル３００を説明する図である。部位情報テーブル３００には、図示のように、頭部・上半身・下半身のそれぞれについて、中心位置・サイズ・可視割合が格納される。中心位置は、例えば、部位を矩形領域で表したときの中心である。サイズは、矩形領域の縦および横の大きさである。可視割合は、各部位がどの程度見えているかを表し、人体が正対して見たときに見える面積割合を１００％とする。

図３では、部位情報テーブル３００は、１レコードのみを含むように描いているが、実際には、画像中の多数の位置についてレコードを含む。部位情報テーブル３００を参照することで、頭部、上半身、下半身のいずれかの部位（一の部位）が特定の位置にあるときに、その他の部位の位置、各部位のサイズ、および各部位の可視割合を求めることができる。

部位情報テーブル３００の作成方法について簡単に説明する。第１の方法は、実測によって得られる画像を解析して、各部位の中心位置、サイズ、および可視割合を求める方法である。第２の方法は、シミュレーションあるいは計算によって求める方法である。例えば、人体の各部位を異なる大きさの円筒で表すモデル化を行い、人体が様々な場所に位置すると仮定したときに魚眼カメラ１０によって撮影される円筒モデルの各位置およびサイズを求めればよい。可視割合は、特定部位の円筒モデルのみがあると仮定したときに撮影されるこの特定部位の領域面積と、全ての円筒モデルが存在する場合に撮影されるこの特定部位の領域面積の比として求められる。

（視覚的顕著性マップ算出部）
視覚的顕著性マップ算出部２５（以下、顕著性マップ算出部２５とも称する）は、入力画像から顕著性マップを算出する。視覚的顕著性は、部分領域あるいは画素毎に求められる、人間の注意の引きやすさの程度を表す指標である。視覚的顕著性は、例えば、明度、明度の時間変化、色、方向などの特徴に基づいて、生物の視覚を数理的にモデル化した既知の方法によって決定できる。

（回復部）
回復部２６は、追跡対象をロストしたときに、この追跡対象の回復を行う。回復部２６は、追跡ロスト時の回復を行うことを目的としており、追跡部２２とは異なる処理により現フレーム画像から追跡対象の位置を推定する。回復部２６は、領域推定部１１２、類似度スコア算出部１１３、再設定部１１４を有する。回復部２６およびそのサブ機能部の詳細については、後ほどフローチャートの説明とともに詳細に説明するので、ここでは簡単な説明にとどめる。

回復部２６は、ロスト判定部１０３によって、追跡対象をロストしたと判定されたフレーム画像（現フレーム画像；第２のフレーム画像）を対象として回復処理を実行する。

領域推定部１１２は、現フレーム画像に対応する視覚的顕著性マップの極大値位置と、追跡対象の顕著部位とに基づいて、現フレーム画像において追跡対象のそれぞれの部位が存在する領域を推定する。より具体的には、領域推定部１１２は、視覚的顕著性マップの極大値位置に顕著部位が存在すると仮定し、記憶部２４に格納される部位情報テーブルを参照して、その他の部位の領域（中心位置およびサイズ）を推定する。視覚的顕著性マップに複数の極大値が存在すれば、領域推定部１１２は、それぞれに極大値位置ごとに領域を推定する。

類似度スコア算出部１１３は、領域推定部１１２によって推定された領域と、初期フレームにおける人体領域との類似度スコアを算出する。類似度スコア算出部１１３は、現フレーム画像と初期フレーム画像の部位毎の領域画像の類似度を算出し、部位毎の類似度を重み付け平均して、最終的な類似度スコアを算出する。重み係数は、例えば、部位が顕著部位であるか非顕著部位であるかに応じて決定してもよいし、部位の可視割合に応じて決定されてもよい。

再設定部１１４は、類似度スコアの最大値が閾値ＴＨ２より大きければ、最大の類似度スコアを与える位置に追跡対象が存在すると判断し、その結果を追跡部２２に通知する。
このように回復処理に成功した場合には、追跡部２２は追跡を継続できる。

（出力部）
出力部２７は、魚眼画像や検出結果・追跡結果などの情報を外部装置に出力する機能を有する。例えば、出力部２７は、外部装置としてのディスプレイに情報を表示してもよいし、外部装置としてのコンピュータに情報を転送してもよいし、外部装置としての照明装置や空調やＦＡ装置に対し情報や制御信号を送信してもよい。

（ハードウェア構成）
人追跡装置１は、例えば、ＣＰＵ（プロセッサ）、メモリ、ストレージなどを備えるコンピュータにより構成することができる。その場合、図２に示す構成は、ストレージに格納されたプログラムをメモリにロードし、ＣＰＵが当該プログラムを実行することによって実現されるものである。かかるコンピュータは、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよいし、オンボードコンピュータのように組み込み型のコンピュータでもよい。あるいは、図２に示す構成の全部または一部を、ＡＳＩＣやＦＰＧＡなどで構成してもよい。あるいは、図２に示す構成の全部または一部を、クラウドコンピューティングや分散コンピューティングにより実現してもよい。

＜全体処理＞
図４は、監視システム２による人追跡処理の全体フローチャートである。図４に沿って人追跡処理の全体的な流れを説明する。

図４のフローチャートの処理を実行する前に、人追跡装置１に学習および追跡のハイパーパラメータが設定される。ハイパーパラメータの例として、利用する特徴量、各特徴量のパラメータ、学習係数などが挙げられる。入力されたハイパーパラメータは記憶部２４に記憶される。

ステップＳ１０１において、画像入力部２０が魚眼カメラ１０から１フレームの魚眼画像を入力する。この際、魚眼画像の歪みを補正した平面展開画像を作成して以降の処理を行ってもよいが、本実施形態の監視システム２では、魚眼画像をそのまま（歪んだまま）検出や追跡の処理に用いる。

ステップＳ１０２において、人体検出部２１が入力画像から人体検出を行う。ステップＳ１０４において、追跡部２２は、検出された人体領域を追跡のターゲット領域として設定する。ターゲット領域は、追跡対象の人物が存在する領域とその周辺をあわせた領域であり、追跡対象の人物が存在する可能性が高い領域である。ターゲット領域は、追跡部２２によって処理対象とされる領域ともいえる。本実施形態では、追跡対象人物の初期位置は人体検出部２１によって検出しているが、例えば、ユーザによって入力されるなどその他の方法により検出されてもよい。

以下、ステップＳ１０４からＳ１１６の処理が繰り返し実施される。ステップＳ１０４の終了判定において終了条件を満たしたら処理を終了する。終了条件は、例えば、追跡対象人物のフレームアウトや動画の終了とすることができる。

ステップＳ１０５において、視覚的顕著性マップ算出部２５が、入力画像から視覚的顕著性マップを生成する。生成された視覚的顕著性マップは、記憶部２４に記憶される。

ステップＳ１０６において、現在のフレームが最初の画像であるか否かが判定される。ここで、最初の画像とは、追跡対象人物の初期位置が与えられたフレーム画像のことであ
り、典型的には人体検出部２１によって追跡対象人物が検出されたフレーム画像のことである。現在のフレームが最初の画像である場合（Ｓ１０６－ＹＥＳ）には処理はステップＳ１１５に進み、そうでない場合（Ｓ１０６－ＮＯ）には処理はステップＳ１０７に進む。

ステップＳ１０７において、現在のフレームが２番目の画像であるか否かが判定される。ここで、２番目の画像とは、追跡対象人物の初期位置が与えられたフレーム画像の次のフレーム画像のことである。現在のフレームが２番目の画像である場合（Ｓ１０７－ＹＥＳ）には処理はステップＳ１０８に進み、そうでない場合（Ｓ１０７－ＮＯ）には処理はステップＳ１１１に進む。

ステップＳ１０８において、学習部２３は、視覚的顕著性マップのうち、ターゲット領域内で顕著性が最大値をとる位置を求める。

ステップＳ１０９において、学習部２３は、顕著性が最大値をとる位置が追跡対象のどの部位に相当するかを判断して、当該部位を顕著部位として記憶部２４に記憶する。この時点で、ターゲット領域が部位毎に領域分割（セグメンテーション）されていない場合には、人追跡装置１はセグメンテーション処理をステップＳ１０９で実行する。

ステップＳ１１０において、学習部２３は、追跡対象人体の部位毎に色ヒストグラムを算出して、記憶部２４に記憶する。なお、ここでは色ヒストグラムを記憶しているが、フレーム間での領域画像の類似度を比較可能であれば、その他の画像特徴量を算出・記憶してもよい。

ステップＳ１１１において、追跡部２２が追跡処理を実行する。追跡処理の詳細は図６を参照して後述するが、概略は、入力画像に相関フィルタを適用して、応答（尤度）が最大となる位置にターゲット領域が存在すると判断する処理である。

ステップＳ１１２において、ロスト判定部１０３は、追跡ロストが発生したか否かを判定する。追跡ロストは、応答（尤度）の最大値が閾値ＴＨ１より小さい場合に発生した判断できる。追跡ロストが発生した場合（Ｓ１１２－ＹＥＳ）には処理はステップＳ１１３に進み、そうではない場合（Ｓ１１２－ＮＯ）には処理はステップＳ１１５に進む。

ステップＳ１１３において、回復部２６が回復処理を実行する。回復処理の詳細は、図７等を参照して後述する。

ステップＳ１１４では、回復処理に成功したか否かが判定される。回復に成功した場合（Ｓ１１４－ＹＥＳ）には処理はステップＳ１１５に進み追跡処理が継続され、回復に失敗した場合（Ｓ１１４－ＮＯ）は追跡処理を終了する。

ステップＳ１１５では、学習部２３が相関フィルタの学習処理を行う。学習処理の詳細は図５を参照して後述する。

ステップＳ１１６では、画像入力部２０が魚眼カメラ１０から次のフレームの魚眼画像を入力する。ステップＳ１１６の後は、ステップＳ１０４に処理が戻り、追跡終了の条件が満たされるまで上記の処理が繰り返される。

このように、追跡処理Ｓ１１１による追跡対象人物の位置特定が毎フレーム行われて、追跡が実現される。また、本実施形態の追跡処理には、追跡ロストが発生した際に初期フレームで記憶した情報を利用した回復処理が含まれる。

＜学習処理＞
図５は、ステップＳ１１５の学習処理の詳細を示すフローチャートである。以下、図５を参照して学習処理について説明する。

学習部２３は、まず、現フレーム画像からターゲット領域を切り出す（Ｓ２０１）。ターゲット領域は、追跡対象人物の前景領域および背景領域を含む領域である。前景領域は追跡対象人物が存在する領域であり、背景領域は追跡対象人物が存在しない領域である。背景領域の大きさは、前景領域の大きさに応じて決定される。例えば、前景領域のサイズがターゲット領域の全体サイズの所定の比率（例えば１／３）となるように、背景領域のサイズが決定されている。なお、ターゲット領域は中心が追跡対象人物の位置となるように追跡処理の最後に更新されている（図６のステップＳ３０４）ので、ターゲット領域の中心は追跡対象人物の中心位置と等しい。

学習部２３は、ターゲット領域の画像特徴量として、明度特徴量とＨＯＧ特徴量を取得する（Ｓ２０２）。ＨＯＧ特徴量は、局所領域の輝度勾配方向をヒストグラム化した特徴量であり、物体の形状・輪郭を表す特徴量と捉えられる。ここでは、ＨＯＧ特徴量を採用しているが、物体の形状・輪郭を表す他の特徴量、例えば、ＬＢＰ特徴量、ＳＨＩＦＴ特徴量、ＳＵＲＦ特徴量を採用してもよい。また、明度特徴量ではなく輝度特徴量を採用してもよい。なお、追跡処理で明度特徴量とＨＯＧ特徴量が求められている場合には、あらためてこれらを求める必要はない。これらの特徴量は画像形式で求められるので、本明細書では特徴量のことを特徴量画像とも称する。

学習部２３は、応答がターゲット領域中心にピークを持つような相関フィルタを求める（Ｓ２０３）。具体的には、ＨＯＧ特徴量を抽出した後に、その特徴量自身の相関に対して、中心のみにピークを持つ理想の応答に最も近づくようなフィルタを求めることで、相関フィルタが得られる。相関フィルタモデルの追跡アルゴリズムとして相関フィルタの計算をフーリエ空間で行う手法を使用する場合には、特徴量画像に窓関数を乗じても良い。

今回の学習が最初の学習であれば（Ｓ２０４－ＹＥＳ）、ステップＳ２０３で生成した相関フィルタをそのまま記憶部２４に記憶する。一方、今回の学習が２回目以降の学習であれば（Ｓ２０４－ＮＯ）、処理はステップＳ２０５に進む。ステップＳ２０５では、学習部２３は、前回求めた相関フィルタ（記憶部２４に記憶されている相関フィルタ）と今回ステップＳ２０３で求めた相関フィルタを合成することで新たな相関フィルタを求め、記憶部２４に記憶する。

＜追跡処理＞
図６は、ステップＳ１１１の追跡処理の詳細を示すフローチャートである。以下、図６を参照して追跡処理について説明する。

追跡部２２は、現フレーム画像から前回のターゲット領域を切り出す（Ｓ３０１）。ターゲット領域の中心は、前フレーム画像における追跡対象人物の位置となるように、前回の追跡処理において更新されている。

特徴量抽出部１０１は、ターゲット領域の特徴量として、明度特徴量とＨＯＧ特徴量を抽出する（Ｓ３０２）。これらの特徴量は画像形式で求められるので、本明細書では特徴量のことを特徴量画像とも称する。明度特徴量画像はフレーム画像と同じ解像度であるが、ＨＯＧ特徴量画像はセルごと（例えば３×３画素ごと）に特徴量が求められるのでその解像度はフレーム画像よりも低い。

応答マップ生成部１０２は、ターゲット領域内のＨＯＧ特徴量画像と記憶部２４に記憶されている相関フィルタによって応答マップ（尤度のマップ）を求める（Ｓ３０３）。追跡部２２は、応答マップの最大値に対応する位置を、次のターゲット領域の中心位置として更新する（Ｓ３０４）。また、追跡部２２は、更新後のターゲット領域の中心位置から、ターゲット領域のサイズを更新する（Ｓ３０５）。サイズ更新処理は、魚眼カメラ１０の配置、カメラ視点、カメラパラメータおよび高さと幅を定めた人物モデルの位置に基づく幾何学的な関係に基づいて行われる。または画像のピラミッドを用いてスケール推定を行う既知の方法であってもよい。

以上の処理により、追跡処理が完了し、現フレーム画像内のターゲット領域が求められる。追跡処理完了後のターゲット領域の中心が追跡対象人物の中心位置であり、ターゲット領域中の前景領域が追跡対象人物の存在領域（バウンディングボックス）である。

なお、ここでは追跡処理の一つの具体例を説明したが、上記以外のその他のアルゴリズムを採用してもよい。例えば、相関フィルタに基づく応答マップに補正処理を施して、追跡精度を向上させたりしてもよい。

＜回復処理＞
図７は、ステップＳ１１３の回復処理の詳細を示すフローチャートである。図８は、回復処理のデータフロー図である。なお、図８では、初期フレームに基づいて予め記憶した情報も示されている。以下、図７、図８等を参照して回復処理について説明する。

ステップＳ４０１において、回復部２６は、ステップＳ１０５で求めた現フレーム画像８０６に対応する視覚的顕著性マップ８０７を記憶部２４から取得し、視覚的顕著性マップ８０７中の極大値をとる位置を求める。

ループ処理Ｌ１は、ステップＳ４０２～Ｓ４０６を含み、ステップＳ４０１で求められた極大値位置のそれぞれについて実行される。回復部２６は、ループ処理Ｌ１によって、追跡ロストが発生したフレーム画像に対応する視覚的顕著性マップ８０７の極大値位置ごとに類似度スコアを算出する。

ステップＳ４０２において、領域推定部１１２は、視覚的顕著性マップ８０７の極大値位置が、現フレーム画像における顕著部位８０５の位置であると設定する。顕著部位８０５がどの部位であるかは、ステップＳ１０９において第２フレーム画像（初期フレーム画像）８０１に対応する視覚的顕著性マップ８０４に基づいて、あらかじめ求められて記憶部２４に記憶されている。

ステップＳ４０３において、領域推定部１１２は、顕著部位８０５の位置に基づいて、人体の各部位の領域（位置およびサイズ）を推定する。記憶部２４には人体の各部位の位置・サイズ・可視割合が格納された部位情報テーブル８１１（３００）が格納されており、領域推定部１１２は、顕著部位８０５の位置と部位情報テーブル８１１に基づいて、各部位の推定領域８０８を求めることができる。

このように、ステップＳ４０２～Ｓ４０３の処理により、領域推定部１１２は、極大値位置に顕著部位が存在すると仮定したときの、追跡対象のそれぞれの部位が存在する領域を推定することができる。

ループ処理Ｌ２は、ステップＳ４０４～Ｓ４０５を含み、ステップＳ４０３で求められたそれぞれの部位の推定領域について実行される。ステップＳ４０４では、類似度スコア算出部１１３は、部位の推定領域８０８から色ヒストグラム８０９を算出する。ステップ
Ｓ４０５において、類似度スコア算出部１１３は、対象部位について、現フレームの色ヒストグラム８０９と、第２フレーム画像（初期フレーム画像）８０１の色ヒストグラム８０３との間の類似度を算出する。第２フレーム画像の色ヒストグラム８０３は、ステップＳ１１０において、あらかじめ求められて記憶部２４に記憶されている。ここで算出される類似度は、初期フレーム画像と現フレーム画像の部位毎の類似性を表す。

ループ処理Ｌ２において全ての部位について類似度が算出されると、ステップＳ４０６において、類似度スコア算出部１１３は、各部位の類似度８０９を統合して類似度スコア８１０を算出する。本実施形態において、類似度スコア算出部１１３は、各部位の可視割合および顕著部位であるか否かに応じて決定される重み付け係数を用いた、各部位の類似度の重み付け平均値を、最終的な類似度スコアとして決定する。

より具体的には、類似度スコア算出部１１３は、下記の式（１）に基づいて類似度スコアを算出する。

ここで、ＳＣＯＲＥは類似度スコア、Ｎは部位の数、ｉは部位を表すインデックス、ｓ_ｉは部位ｉの類似度、ＷＶ_ｉは部位ｉの可視割合に基づく重み付け係数、ＷＳ_ｉは部位ｉが顕著部位であるか否かに基づく重み付け係数、ＷＶ_ｉmaxはＷＶ_ｉが取りうる最大の値
、ＷＳ_ｉmaxはＷＳ_ｉが取りうる最大の値、および、ｓ_ｉmaxはｓ_ｉが取りうる最大の値である。

重み付け係数ＷＶ_ｉは、本実施形態では、部位ｉの可視割合の値と同じとする。各部位の可視割合は、部位情報テーブル８１１（３００）を参照することで把握可能である。ただし、重み付け係数ＷＶ_ｉは部位ｉの可視割合と同じ値とする必要は無く、部位ｉの可視割合に応じて決定される値であってもよい。

重み付け係数ＷＳ_ｉは、部位ｉが顕著部位である場合には固定値Ａをとり、部位ｉが非顕著部位である場合には（１－Ａ）／（Ｎ－１）をとる。顕著部位に対する重み付け係数ＷＳ_ｉが、非顕著部位に対する重み付け係数ＷＳｉよりも大きい値とするとよい。したがって、固定値Ａは１／Ｎより大きな値とすることが望ましい。例えば、部位数が３つのときにＡ＝０．７とすると、顕著部位についての重み付け係数ＷＳ_ｉは０．７であり、非顕著部位についての重み付け係数ＷＳ_ｉは０．１５となる。

以上のステップＳ４０２からＳ４０６の処理が、視覚的顕著性マップの極大値のそれぞれについて完了すると、処理はステップＳ４０７に進む。

ステップＳ４０７では、再設定部１１４が、それぞれの極大値について求めた類似度スコアのうちの最大値が、閾値ＴＨ２より大きいか否かを判定する。最大の類似度スコアが閾値ＴＨ２より大きい場合（Ｓ４０７－ＹＥＳ）には、処理はステップＳ４０８に進む。そうでない場合（Ｓ４０７－ＮＯ）には、処理はステップＳ４０９に進む。

ステップＳ４０８では、再設定部１１４は、視覚的顕著性マップの極大値位置のうち、類似度スコアが最大を与える位置に、追跡対象人物の顕著部位があると判断する。再設定部１１４は、追跡ロストの回復に成功した旨と、追跡対象人物の位置とを、追跡部２２に通知して処理を終了する。なお、再設定部１１４が追跡部に通知する追跡対象位置は、顕著部位の位置であってもよいし、顕著部位の位置から求められるその他の位置であってもよい。その他の位置の例として、追跡対象人物の中心位置が挙げられる。中心位置は、顕著部位および非顕著部位を含む全ての部位の領域を含む領域の中心として求められる。

ステップＳ４０９では、再設定部１１４は、追跡ロストの回復に失敗した旨を追跡部２２に通知して、処理を終了する。

＜動作例＞
図９，図１０を参照して、回復処理の動作を具体例に基づいて説明する。図９は、追跡が開始された初期（本例では第２フレーム）で求められる情報を説明する図である。図１０は、追跡ロスト発生時に行われる処理を説明する図である。

図９Ａは、第２フレーム（初期フレーム）のうち追跡対象の人物部分を拡大した画像９０１を示す。画像９０１には、追跡対象の人体９０２が写っている。学習部２３は、領域分割処理により、人体９０２を、頭部９０３、上半身９０４、下半身９０５の３つの部位に分割する。この図では、各部位の領域を矩形で表しているが、矩形以外形状で各領域を表してもよい。学習部２３は、頭部９０３ａ、上半身９０３ｂ、下半身９０３ｃのそれぞれに対応する色ヒストグラム９０６ａ、９０６ｂ、９０６ｃを算出して、記憶部２４に記憶する。

図９Ｂは、第２フレーム画像から求められる視覚的顕著性マップ９１０を示す。視覚的顕著性マップ９１０は第２フレーム画像全体に対応する大きさを有するが、ここでは画像９０１に対応する部分のみを示している。学習部２３は、視覚的顕著性マップ９１０の極大値位置９１１が、人体９０２のいずれの部位の領域にあるかに基づいて、人体９０２の顕著部位を判断して、記憶部２４に記憶する。この例では、極大値位置９１１は上半身９０３ｂに位置しているので、顕著部位は上半身として決定される。

以上の情報は、追跡が開始された初期（本例では第２フレーム）で求められて記憶部２４に記憶される。続いて、追跡ロスト発生時の回復処理について説明する。

図１０Ａは、第Ｎフレーム画像から求められる視覚的顕著性マップ１００１を示す。第Ｎフレームは、追跡ロストが発生したフレーム画像である。この例では、視覚的顕著性マップ１００１に２つの極大値１００２，１００３が存在する。

回復部２６（領域推定部１１２）は、極大値１００２，１００３に顕著部位（この例では上半身）が位置すると仮定したときの、各部位の領域を推定する。回復部２６は、部位情報テーブル３００を参照することで、各部位の位置およびサイズを求めることができる。この例では、極大値１００２に対応して、頭部の領域１００４ａ、上半身の領域１００４ｂ、下半身の領域１００４ｃが求められる。同様に、極大値１００３に対応して、頭部の領域１００５ａ、上半身の領域１００５ｂ、下半身の領域１００５ｃが求められる。

類似度スコア算出部１１３は、まず、各部位の領域から色ヒストグラムを求める。例えば、各部位の領域１００４ａ～１００４ｃに対応して、色ヒストグラム１０１０ａ～１０１０ｃが求められる。次に、類似度スコア算出部１１３は、各部位の領域の色ヒストグラム１０１０ａ～１０１０ｃのそれぞれを、第２フレーム画像から求められた色ヒストグラム９０６ａ～９０６ｃとそれぞれ比較して類似度ｓ_ｉを算出する。

類似度スコア算出部１１３は、これらの類似度ｓ_ｉを、各部位の可視割合と顕著部位であるか否かとに応じて決定される重み付け係数を用いて、統合して最終的な類似度スコアを算出する。類似度スコアは視覚的顕著性マップの極大値１００２，１００３のそれぞれについて求められる。

再設定部１１４は、最大の類似度スコアを与える極大値位置に追跡対象が存在すると判
断する。ただし、最大の類似度スコアが閾値ＴＨ２より小さい場合には、回復に失敗したと判断する。再設定部１１４は、人体の各部位の領域全体の中心位置を追跡対象の中心位置として、ターゲット領域の再設定を行う。また、再設定部１１４は、人体の各部位の領域全体に応じてターゲット領域のサイズの再設定を行う。

＜本実施形態の有利な効果＞
本実施形態では、人追跡装置において、追跡に失敗した際の回復を精度良く行える。本実施形態においては、初期フレームに基づいて、顕著部位がどの部位であるかという情報と、各部位領域の色ヒストグラムとを記憶している。追跡対象の人物が移動して画像内での位置が変わると、魚眼カメラ１０との相対位置が変わり画像に写る位置が変わったり、形状に歪みが生じたりするが、顕著部位がどこであるかは変わらないと想定できる。そこで、追跡ロストが発生したフレームにおいて、視覚的顕著性マップの極大値位置は、追跡対象の顕著部位の候補位置であると見なせる。また、ある特定の部位が画像上の特定の位置にあるときに、その他の部位の位置、および各部位のサイズ・可視割合はあらかじめ求めることができる。そこで、視覚的顕著性マップの極大値位置に顕著部位があると仮定したときの各部位の領域を推定し、現フレームと初期フレームの色ヒストグラムの類似度を求めて、これらを統合して類似度スコアを算出する。このように視覚的顕著性マップの極大値を顕著部位の位置とみなすことと、色ヒストグラムに基づいて類似度を算出することにより、形状変化に対してロバストな回復が実現できる。また、類似度の統合の際に、部位が顕著部位であるか非顕著部位であるかに応じて、また、部位の可視割合に応じて、当該部位に対する重み付け係数を決定している。これは、類似度スコアの算出において、顕著部位の方が非顕著部位よりも重視すべきであること、また、可視割合が大きい部位をより重視するべきであることに基づく。可視割合に基づく重み付けをすることで、オクルージョンに対してもロバストとなる。以上のような処理により回復処理を実施しているので、本実施形態では、精度のよい回復が可能となる。

＜その他＞
上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。

また、上記の実施形態において、追跡部２２は相関フィルタを用いた追跡処理を行っているが、その他のアルゴリズムにより追跡を行ってもよい。例えば、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long Short-Term Memory）のような深層学習モデルや、ＳＶＭ（Support Vector Machine）のようなパターン認識モデルを利用して追跡を行ってもよい。

また、上記の実施形態では魚眼画像を平面展開せずに処理しているが、魚眼画像を平面展開した画像を処理対象としてもよいし、通常のカメラにより撮影された画像を処理対象としてもよい。また、カメラの視点においても、上記の実施形態では、カメラの光軸が鉛直下向きとなるように設置されるが、魚眼カメラの光軸が鉛直方向に対して傾いていても構わない。

また、顕著部位と各部位の色ヒストグラムを２番目のフレームから求めている（図４のＳ１０８～Ｓ１１０）が、どのフレーム画像からこれらの情報を求めるかは特に限定されない。ただし、追跡初期であるほどノイズが混入しないので、追跡開始に近いフレームを用いることが好ましい。したがって、追跡を開始したフレーム（１番目のフレーム）あるいは３番目以降のフレームから、上記情報を求めてもよい。

また、回復処理の類似度を算出する際に、色ヒストグラムを用いているが、色ヒストグ
ラム以外の情報に基づいて類似度を判断してもよい。ただし、魚眼カメラによって撮影される画像のように歪みが大きい画像では、変形に対してロバストな特徴量、例えば、色ヒストグラムや輝度ヒストグラムを用いることが好ましい。

また、上記実施形態では、各部位の類似度を統合して類似度スコアを算出する際（図７のＳ４０６）において、顕著部位であるか否かに応じた重み付け係数ＷＳｉと可視割合に応じた重み付け係数ＷＶｉとを掛け算した値を重み付け係数として用いている。しかしながら、例えば足し算などその他の方法によってこれら２つの重み付け係数ＷＳｉ，ＷＶｉに基づいて、適用する重み付け係数を決定してもよい。また、ＷＳｉとＷＶｉのいずれか一方のみに基づいて重み付け係数を決定してもよい。また、ＷＳｉとＷＶｉ以外の情報も考慮して重み付け係数を決定してもよい。また、重み付け平均ではなくて単純平均によって類似度スコアを算出してもよい。

また、本実施形態では、画像中のある特定の位置に特定の部位が位置するときのその他の部位の位置および各部位のサイズ・可視割合を、あらかじめ記憶した部位情報テーブルを参照して求めているが、必要となるたびに計算により求めてもよい。計算方法は、上記の実施形態であらかじめ求める場合と同様であるので、説明は省略する。

本実施形態では、人体検出部２１が検出した人物を追跡部２２が追跡するが、ユーザ（人間）が追跡対象を指定し、追跡部２２は指定された対象を追跡するようにしてもよい。

＜付記＞
１．記憶手段（２４）と、
動画像中の対象物を追跡する追跡手段（２２）と、
前記対象物をロストしたときに前記対象物の回復を行う回復手段（２６）と、
を備える物体追跡装置（１）であって、
前記記憶手段（２４）は、前記動画像を構成する複数のフレーム画像のうちの１つである第１のフレーム画像（８０１）における、前記対象物の領域画像を表す情報（８０３）を部位毎に記憶し、かつ、前記第１のフレーム画像（８０１）に対応する視覚的顕著性マップ（８０４）が極大値をとる前記対象物の部位（８０５）を記憶し、
前記回復手段（２６）は、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第２のフレーム画像（８０６）に対応する視覚的顕著性マップ（８０７）の極大値位置ごとに、（１）前記極大値位置に、前記第１のフレーム画像において極大値をとる前記物体の部位が存在すると仮定したときの、前記物体のそれぞれの部位が存在する領域（８０８）を推定し、（２）前記第１のフレーム画像と前記第２のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコア（８１０）を算出し、
前記第２のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定する、
物体追跡装置（１）。

２．物体追跡装置（１）が行う、追跡の対象物をロストしたときに行う追跡ロスト回復方法（Ｓ１１３）であって、
前記動画像を構成する複数のフレーム画像のうちの１つである第１のフレーム画像（８０１）における、前記対象物の領域画像を表す情報（８０３）を部位毎に記憶（Ｓ１１０）し、かつ、前記第１のフレーム画像（８０１）に対応する視覚的顕著性マップ（８０４）が極大値をとる前記対象物の部位（８０５）を記憶（Ｓ１０８～Ｓ１０９）するステップと、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第２のフレーム画像（８０６）に対応する視覚的顕著性マップ（８０７）の極大値位置ごとに、（１
）前記極大値位置に、前記第１のフレーム画像において極大値をとる前記物体の部位が存在すると仮定したときの、前記物体のそれぞれの部位が存在する領域（８０８）を推定（Ｓ４０２～Ｓ４０３）し、（２）前記第１のフレーム画像と前記第２のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出（Ｓ４０４～Ｓ４０６）するステップと、
前記第２のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定（Ｓ４０８）するステップと、
を実行する追跡ロスト回復方法。

１：人追跡装置２：監視システム１０：魚眼カメラ
１１：追跡対象エリア１２：天井１３：人

Claims

記憶手段と、
動画像中の対象物を追跡する追跡手段と、
前記対象物をロストしたときに前記対象物の回復を行う回復手段と、
を備える物体追跡装置であって、
前記記憶手段は、前記動画像を構成する複数のフレーム画像のうちの１つである第１のフレーム画像における、前記対象物の領域画像を表す情報を部位毎に記憶し、かつ、前記第１のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位を記憶し、
前記回復手段は、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第２のフレーム画像に対応する視覚的顕著性マップの極大値位置ごとに、（１）前記極大値位置に、前記第１のフレーム画像において極大値をとる前記対象物の部位が存在すると仮定したときの、前記対象物のそれぞれの部位が存在する領域を推定し、（２）前記第１のフレーム画像と前記第２のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出し、
前記第２のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定する、
物体追跡装置。
前記回復手段は、前記第１のフレーム画像と前記第２のフレーム画像の部位毎の領域画像の画像特徴量の類似度を算出し、これらの類似度を統合して前記類似度スコアを算出する、
請求項１に記載の物体追跡装置。
前記回復手段は、前記第２のフレーム画像における各部位の可視割合に応じた重みを用いて、前記類似度を統合して前記類似度スコアを算出する、
請求項２に記載の物体追跡装置。
前記回復手段は、前記第１のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位と、それ以外の部位とで異なる重みを用いて、前記類似度を統合して前記類似度スコアを算出する、
請求項２または３に記載の物体追跡装置。
前記回復手段は、下記の式（１）にしたがって前記類似度スコアを算出する、
請求項２から４のいずれか１項に記載の物体追跡装置。

ここで、ＳＣＯＲＥは類似度スコア、Ｎは部位の数、ｉは部位を表すインデックス、ｓ_ｉは部位ｉの類似度、ＷＶ_ｉは部位ｉの可視割合に基づく重み付け係数、ＷＳ_ｉは部位ｉが顕著部位であるか否かに基づく重み付け係数、ＷＶ_ｉmaxはＷＶ_ｉが取りうる最大の値
、ＷＳ_ｉmaxはＷＳ_ｉが取りうる最大の値、および、ｓ_ｉmaxはｓ_ｉが取りうる最大の値である。
前記記憶手段は、さらに、画像上の位置と、当該位置に対象物の一の部位が存在するときの他の部位が存在する位置と、を関連付けて記憶し、
前記回復手段は、前記第２のフレーム画像における極大値位置と、前記第１のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位と、前記記憶手段に
基づいて、前記第２のフレーム画像における前記対象物のそれぞれの部位が存在する領域を推定する、
請求項１から５のいずれか１項に記載の物体追跡装置。
前記記憶手段は、画像上の位置ごとに、前記対象物のそれぞれの部位の可視割合も記憶する、
請求項６に記載の物体追跡装置。
前記第１のフレーム画像は、前記対象物の追跡を開始したフレーム画像またはその次のフレーム画像である、
請求項１から７のいずれか１項に記載の物体追跡装置。
対象物が存在すると判定された領域の画像に基づいて相関フィルタの学習を行う学習部をさらに備え、
前記追跡手段は、前記相関フィルタを用いて算出される指標が最も高い位置に対象物が存在すると判定する、
請求項１から８のいずれか１項に記載の物体追跡装置。
前記追跡手段は、相関フィルタを用いて算出される前記指標の最大値が閾値以下のときに、前記対象物をロストしたと判定する、
請求項９に記載の物体追跡装置。
前記動画像を撮像する撮像手段をさらに備える、
請求項１から１０のいずれか１項に記載の物体追跡装置。
前記撮像手段は、魚眼カメラである、
請求項１１に記載の物体追跡装置。
物体追跡装置が行う、追跡の対象物をロストしたときに行う追跡ロスト回復方法であって、
動画像を構成する複数のフレーム画像のうちの１つである第１のフレーム画像における、前記対象物の領域画像を表す情報を部位毎に記憶し、かつ、前記第１のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位を記憶するステップと、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第２のフレーム画像に対応する視覚的顕著性マップの極大値位置ごとに、（１）前記極大値位置に、前記第１のフレーム画像において極大値をとる前記対象物の部位が存在すると仮定したときの、前記対象物のそれぞれの部位が存在する領域を推定し、（２）前記第１のフレーム画像と前記第２のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出するステップと、
前記第２のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定するステップと、
を実行する追跡ロスト回復方法。
請求項１３に記載の方法の各ステップをコンピュータに実行させるためのプログラム。