JP7354767B2 - 物体追跡装置および物体追跡方法 - Google Patents

物体追跡装置および物体追跡方法 Download PDF

Info

Publication number
JP7354767B2
JP7354767B2 JP2019196281A JP2019196281A JP7354767B2 JP 7354767 B2 JP7354767 B2 JP 7354767B2 JP 2019196281 A JP2019196281 A JP 2019196281A JP 2019196281 A JP2019196281 A JP 2019196281A JP 7354767 B2 JP7354767 B2 JP 7354767B2
Authority
JP
Japan
Prior art keywords
image
tracking
frame image
region
maximum value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019196281A
Other languages
English (en)
Other versions
JP2021071769A (ja
Inventor
信二 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2019196281A priority Critical patent/JP7354767B2/ja
Priority to DE112020005223.0T priority patent/DE112020005223T5/de
Priority to US17/770,980 priority patent/US20220366570A1/en
Priority to CN202080075158.9A priority patent/CN114616591A/zh
Priority to PCT/JP2020/035705 priority patent/WO2021084972A1/ja
Publication of JP2021071769A publication Critical patent/JP2021071769A/ja
Application granted granted Critical
Publication of JP7354767B2 publication Critical patent/JP7354767B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Description

本発明は、物体の追跡ロストが生じたときの回復技術に関する。
動画像(時系列画像)のあるフレームにおいて検出された物体を追跡する物体追跡は、コンピュータビジョン分野において重要な技術である。
物体追跡手法の1つとして、相関フィルタモデルのKCF(Kernelized Correlation Filter)と呼ばれる手法が知られている。KCFは、最初に与えられる追跡対象物の領域
を正解とみなして、オンライン学習をしながら追跡を行う。時間の経過とともに、追跡対象の領域にノイズ(追跡対象以外の画像領域)が発生し、背景へのドリフト現象が生じる場合がある。このように、追跡対象物を見失って追跡を正常に継続できなくなることは、追跡の失敗またはロスト(喪失)と呼ばれる。
追跡ロストは、相関フィルタモデルの追跡手法に限られず、任意の追跡手法で発生する問題である。追跡ロストが発生した際には、追跡対象物をあらためて求めて追跡を継続することが望まれる。追跡ロスト後に追跡対象を再探索して追跡を継続することは、追跡の回復と呼ばれる。
特許文献1は、追跡ロストからの回復処理を提案する。具体的には、特許文献1は、追跡が行えている間はテンプレート画像の更新を継続する一方、追跡ロストが生じた場合は初期テンプレート画像を用いた探索を行い、探索結果を追跡対象とすることでロストからの回復を行う。
ところで、ビルディングオートメーション(BA)やファクトリーオートメーション(FA)の分野において、画像センサにより人の「数」・「位置」・「動線」などを自動で計測し、照明や空調などの機器を最適制御するアプリケーションが必要とされている。このような用途では、できるだけ広い範囲の画像情報を取得するために、魚眼レンズ(フィッシュアイレンズ)を搭載した超広角のカメラ(魚眼カメラ、全方位カメラ、全天球カメラなどと呼ばれるが、いずれも意味は同じである。本明細書では「魚眼カメラ」の語を用いる)を利用することが多い。さらに、上記の用途では、できるだけ広い範囲の画像情報を取得するために、天井などの高所に取り付けたカメラをカメラの視点がトップ・ビューになるようにして配置する。この配置のカメラでは、人物を撮影する視点は、人物が画像の周辺にいるときには正面像、側面像または背面像になり、画像の中央にいるときには上面図となる。さらに、この配置のカメラでは、周辺にいるときには被写体の像全体が見える一方で、中央にいるときの上面図では頭部や肩は撮影されるが胴や下半身には隠れが発生する。
魚眼カメラで撮影された画像は、撮影面内の位置により撮影対象の見た目が歪みのため変形する。さらに、魚眼カメラ以外のカメラを用いても、カメラの視点をトップ・ビューにすると、追跡対象の位置により見た目が変化したり隠れが発生したりする。また、組み込み機器など、処理能力の限られた環境ではフレームレートが低いことが考えられ、フレーム間での物体の移動量や特徴量の変化が大きいという特殊性がある。
このような事情から、特許文献1のような従来手法では、精度良く回復できない場合がある。
特開2014-036429号公報
本発明は上記実情に鑑みなされたものであって、従来よりも精度の良い物体追跡の回復技術を提供することを目的とする。
上記目的を達成するために本発明は、以下の構成を採用する。
本発明の第一側面は、
記憶手段と、
動画像中の対象物を追跡する追跡手段と、
前記対象物をロストしたときに前記対象物の回復を行う回復手段と、
を備える物体追跡装置であって、
前記記憶手段は、前記動画像を構成する複数のフレーム画像のうちの1つである第1のフレーム画像における、前記対象物の領域画像を部位毎に記憶し、かつ、前記第1のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位を記憶し、
前記回復手段は、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第2のフレーム画像に対応する視覚的顕著性マップの極大値位置ごとに、(1)前記極大値位置に、前記第1のフレーム画像において極大値をとる前記対象物の部位が存在すると仮定したときの、前記対象物のそれぞれの部位が存在する領域を推定し、(2)前記第1のフレーム画像と前記第2のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出し、
前記第2のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定する、
物体追跡装置である。
追跡の対象とする物体、すなわち「対象物」は、任意の物体であってよく、人体、顔、動物、車両などがその一例である。対象物の「部位」は、対象物に応じて区分されればよく、その数は特に限定されない。例えば、視覚的顕著性が異なる部分を部位として定義すればよい。対象物が人体である場合、頭部、上半身、下半身の3つの部位に区分することができるが、3つより多いまたは少ない数の部位に区分しても構わない。「視覚的顕著性」は、人間の注意の引きやすさの程度を表す指標であり、例えば、明度、明度の時間変化、色、方向などの特徴に基づいて決定できる。
画像中の位置によって対象物のサイズ及び形状が変化することが想定されるが、視覚的顕著性が極大値をとる部位(以下、顕著部位とも称する)は変化しないことが期待できる。したがって、視覚的顕著性マップにおける極大値位置は、顕著部位が存在する位置の候補とみなせる。また、画像中の特定の位置に特定の部位が存在するという条件を与えると、その他の部位が画像中のどの位置に存在するかも決定可能である。そこで、回復手段は、第1のフレーム画像と第2のフレーム画像の部位毎の領域画像の類似性に基づく類似度スコアを、視覚的顕著性マップのそれぞれの極大値位置について算出し、上記類似度スコアが最も大きい位置に対象物があると判定する。これにより、画像中で対象物のサイズや形状が変化した場合でも、精度良く回復が行える。
このような回復を行うために、記憶手段は、第1のフレーム画像における対象物の領域
画像を表す情報を部位毎に記憶するとともに、第1のフレーム画像において視覚的顕著性が極大値をとる部位(顕著部位)を、あらかじめ記憶する。部位毎の領域画像を表す情報は、それに基づいて画像類似度を算出できる情報であれば任意の情報であってよく、例えば、領域画像そのものであってもよいし、領域画像の特徴を表す画像特徴量であってもよい。また、顕著部位は、第1のフレーム画像に対応する視覚的顕著性マップが極大値をとる位置にある部位として求められる。なお、対象物内に複数の極大値が存在する場合には、複数の極大値における最大値を取る位置、または、重心や重みづけ和などにより求めた位置が属する部位を顕著部位とする。
部位毎の領域画像の類似性は、例えば、画像特徴量の類似度に基づいて算出してもよい。画像特徴量の例として、色ヒストグラムおよび輝度ヒストグラムが挙げられる。最終的な類似度スコアは、画像特徴量の類似度を統合することにより算出してもよい。統合の際には、例えば、第2のフレーム画像における各部位の可視割合に応じた重みを用いてもよい。また、顕著部位と、それ以外の部位(以下、非顕著部位とも称する)とで異なる重みを用いて画像類似度を統合してもよい。このようにして類似度スコアを算出することで、より精度のよい回復が可能となる。
また、画像中の特定の位置に対象物のある部位が存在するときに、その他の部位が存在する位置を求める方法は、特に限定されない。例えば、あらかじめ実測またはシミュレーションによって、様々な位置に配置された対象物を撮影して、そのときの各部位の位置を記憶してもよい。また、対象物を所定形状(例えば、円筒形)でモデル化して、特定部位が特定位置にあるときにどのように撮影されるかを計算により都度求めるようにしてもよい。なお、各部位の位置だけでなく、各部位のサイズあるいは形状、および各部位の可視割合も、あらかじめ記憶またはその都度算出するようにしてもよい。
上述の第1のフレーム画像は、第2のフレーム画像よりも前のフレーム画像であればよいが、対象物の追跡を開始したフレームに近い画像であることが好ましい。したがって、第1のフレーム画像は、対象物の追跡を開始したフレーム画像またはその次のフレーム画像としてもよい。追跡を開始した初期のフレーム画像であるほど、ノイズが混じる可能性が少なく、したがって回復の精度が向上する。
本発明における追跡手段の追跡アルゴリズムは、特に限定されないが、KCF,MOSSE,DCF,DSST,CSR-DCF、Stapleなどの相関フィルタを用いる方法、Mean-Shiftやテンプレートマッチングを用いる方法が例示できる。相関フィルタを用いた追跡では、相関フィルタによって算出される指標の最大値が閾値より小さいときに、対象物をロストしたと判定できる。Mean-Shiftやテンプレートマッチングでは、色ヒストグラムなどを用いて求める指標が許容範囲外であるときに、対象物をロストしたと判定できる。具体的には、指標が類似度であれば閾値よりも小さいときに、また、指標が距離であれば閾値よりも大きいときに、対象物をロストしたと判定できる。
また、本発明において処理対象とされる画像は、魚眼カメラにより得られた魚眼画像であってよい。「魚眼カメラ」は、魚眼レンズを搭載したカメラであり、通常のカメラに比べて超広角での撮影が可能なカメラである。全方位カメラ、全天球カメラおよび魚眼カメラはいずれも超広角カメラの一種であり、いずれも意味は同じである。魚眼カメラは、検出対象エリアの上方から検出対象エリアを見下ろすように設置されていればよい。典型的には魚眼カメラの光軸が鉛直下向きとなるように設置されるが、魚眼カメラの光軸が鉛直方向に対して傾いていても構わない。魚眼画像はひずみが大きいため、特に低フレームレートの画像ではフレーム間での物体の特徴変化が大きく、背景へのドリフトが多発する。さらに、カメラの光軸を鉛直下向きとなるように設置すると、画像における対象物の位置
により対象物を撮影する視点が変化するため、特に低フレームレートの画像では、物体が大きく変形し追跡の失敗が多発し、回復も難しい。しかし、本発明によればそのような魚眼画像においても、カメラの光軸を鉛直下向きとなるように設置しても、追跡失敗からの回復を精度良く行える。もっとも、本発明が処理対象とする画像は、魚眼画像に限られず、通常の画像(歪みの少ない画像や高フレームレートの画像)であっても構わない。
本発明の第二の態様は、物体追跡装置が行う、追跡の対象物をロストしたときに行う追跡ロスト回復方法であって、
前記動画像を構成する複数のフレーム画像のうちの1つである第1のフレーム画像における、前記対象物の領域画像を部位毎に記憶し、かつ、前記第1のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位を記憶するステップと、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第2のフレーム画像に対応する視覚的顕著性マップの極大値位置ごとに、(1)前記極大値位置に、前記第1のフレーム画像において極大値をとる前記物体の部位が存在すると仮定したときの、前記物体のそれぞれの部位が存在する領域を推定し、(2)前記第1のフレーム画像と前記第2のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出するステップと、
前記第2のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定するステップと、
を実行する追跡ロスト回復方法である。
本発明は、上記手段の少なくとも一部を有する物体追跡装置として捉えてもよいし、画像処理装置や監視システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む物体追跡方法、画像処理方法、監視方法として捉えてもよい。また、本発明は、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、追跡対象物をロストしたときに、従来よりも精度良く回復が行える。
図1は、本発明に係る人追跡装置の適用例を示す図である。 図2は、人追跡装置を備える監視システムの構成を示す図である。 図3は、記憶部に記憶される部位情報テーブルを説明する図である。 図4は、人追跡装置が実施する全体処理のフローチャートである。 図5は、学習処理のフローチャートである。 図6は、追跡処理のフローチャートである。 図7は、回復処理のフローチャートである。 図8は、回復処理のデータフロー図である。 図9Aは初期フレーム(第2フレーム)における各部位の領域画像の色ヒストグラムを説明する図であり、図9Bは初期フレーム(第2フレーム)に対応する視覚的顕著性マップを示す図である。 図10Aは追跡ロストが発生したフレーム(第Nフレーム)に対応する視覚的顕著性マップを示す図であり、図10Bは追跡ロストが発生したフレーム(第Nフレーム)において極大値位置ごとに類似度スコアを求める方法を説明する図である。
<適用例>
図1を参照して、本発明に係る物体追跡装置の適用例を説明する。人追跡装置1は、追
跡対象エリア11の上方(例えば天井12など)に設置された魚眼カメラ10により得られた魚眼画像を解析して、追跡対象エリア11内に存在する人13を検出・追跡する装置である。この人追跡装置1は、例えば、オフィスや工場などにおいて、追跡対象エリア11を通行する人13の検出、認識、追跡などを行う。図1の例では、魚眼画像から検出された4つの人体それぞれの領域がバウンディングボックスで示されている。人追跡装置1の検出結果は、外部装置に出力され、例えば、人数のカウント、照明や空調など各種機器の制御、不審者の監視および動線分析などに利用される。
本適用例では、物体追跡アルゴリズムとして、局所最適化による追跡アルゴリズムを採用する。このアルゴリズムでは、追跡対象を含む部分領域の画像を学習し、対象物と同様の特徴を有する領域の位置を特定することにより追跡が行われる。対象物の近傍も学習対象としているので、背景が複雑に変化する状況では、時間を経るにしたがいノイズが発生して追跡に失敗する場合がある。
本適用例は、追跡ロストが発生した際に、精度良く追跡の回復を行う。具体的には、人追跡装置1は、視覚的顕著性マップにおいて極大値をとる位置のそれぞれについて、候補領域を推定し、候補領域と対象物との類似度スコアを求めて、類似度スコアが最も大きい極大値位置を対象物の位置であると推定する。この際、人追跡装置1は、画像上の位置ごとに、ある部位がその位置に存在する場合の、他の部位が存在する位置を取得する。また、人追跡装置1は、追跡中において顕著性が最も高い部位(顕著部位)を記憶する。人追跡装置1は、追跡ロスト時に、視覚的顕著性マップの極大値位置に顕著部位が存在すると推定し、また、他の部位が存在する位置も推定できる。このようにして、各部位の存在する位置が適切に推定できるので、各部位が存在する領域の類似性に基づいて、最終的な類似度スコアを算出する。これにより、精度のよい回復が実現できる。
<監視システム>
図2を参照して、本発明の実施形態を説明する。図2は、本発明の実施形態に係る人追跡装置を適用した監視システムの構成を示すブロック図である。監視システム2は、魚眼カメラ10と人追跡装置1とを備えている。
[魚眼カメラ]
魚眼カメラ10は、魚眼レンズを含む光学系と撮像素子(CCDやCMOSなどのイメージセンサ)を有する撮像装置である。魚眼カメラ10は、例えば図1に示すように、追跡対象エリア11の天井12などに、光軸を鉛直下向きにした状態で設置され、追跡対象エリア11の全方位(360度)の画像を撮影するとよい。魚眼カメラ10は人追跡装置1に対し有線(USBケーブル、LANケーブルなど)または無線(WiFiなど)で接続され、魚眼カメラ10で撮影された画像データは人追跡装置1に取り込まれる。画像データはモノクロ画像、カラー画像のいずれでもよく、また画像データの解像度やフレームレートやフォーマットは任意である。本実施形態では、10fps(1秒あたり10枚)で取り込まれるカラー(RGB)画像を用いることを想定している。
[人追跡装置]
人追跡装置1は、そのハードウェア構成要素として、1つ以上のプロセッサ、主記憶装置、補助記憶装置、通信装置、入力装置、出力装置を備え、プロセッサがコンピュータプログラムを実行することによって、以下の各種処理を実行する。なお、一部又は全部の処理は、専用のハードウェア回路によって実行されてもよい。
本実施形態の人追跡装置1は、画像入力部20、人体検出部21、追跡部22、学習部23、記憶部24、視覚的顕著性マップ算出部25、回復部26、出力部27を有している。
画像入力部20は、魚眼カメラ10から画像データを取り込む機能を有する。取り込まれた画像データは人体検出部21および追跡部22に引き渡される。
(人体検出部)
人体検出部21は、人体を検出するアルゴリズムを用いて、魚眼画像から人体を検出する機能を有する。人体検出部21によって検出された人体が、追跡部22による追跡処理の対象となる。なお、人体検出部21は、画像内に新たに現れた人物のみを検出してもよく、追跡対象の人物が存在している位置の近くは検出処理の対象から除外してもよい。さらに、一定の時間間隔またはフレーム間隔により、画像全体に人体検出部21による人物の検出を行い、その後、追跡部22による追跡処理をしてもよい。
(追跡部)
追跡部22は、動画像中の追跡対象を追跡する機能部であり、追跡対象の人物の現フレーム画像中での位置を特定する。追跡部22は、最初は人体検出部21による検出位置を含む領域をターゲット領域として、そのターゲット領域内から検出された人物と同様の特徴を有する物体位置を特定する。それ以降は、前フレーム画像について追跡部22が特定した位置の付近をターゲット領域として、現フレーム画像中から追跡対象の人物の位置を特定する。
追跡部22は、特徴量抽出部101、応答マップ生成部102、ロスト判定部103を有する。
特徴量抽出部101は、ターゲット領域から画像特徴量を抽出する。特徴量抽出部101は、画像特徴量として、形状に関する特徴量と色に関する特徴量のいずれかまたは両方を抽出する。形状に関する特徴量の例はHOG(Histogram of Gradient)であり、色に
関する特徴量の例は色ヒストグラム、color names特徴量である。
応答マップ生成部102は、入力画像から抽出された特徴量と、記憶部24に記憶されている相関フィルタを用いて、ターゲット領域の各位置について追跡対象物が存在する確からしさを表す応答マップ(尤度のマップ)を生成する。
ロスト判定部103は、追跡ロストが発生したか否かを判定する。ロスト判定部103は、例えば、応答マップにおける最大の尤度が閾値TH1より小さい場合に追跡ロストが発生したと判断する。この閾値TH1はシステム要求に応じて適宜設定すればよい。なお、追跡対象が撮影範囲の外に移動したと推定できるときには、ロスト判定部103は、追跡ロストが発生したとは判定せずに、フレームアウトが発生したと判定してもよい。
追跡部22は、応答マップにおける最大尤度が閾値TH1より大きい場合に、当該最大尤度の位置に追跡対象の人体があると判断する。
なお、追跡部22は、相関フィルタを用いた形状特徴に基づく評価に代えて、あるいは加えて、色特徴に基づく評価によって追跡をおこなってもよい。例えば、追跡部22は、学習済みの色特徴に基づいて前景尤度のマップを生成し、このマップに基づいて追跡対象の位置を求めてもよい。あるいは、追跡部22は、相関フィルタの応答マップと前景尤度のマップとを合成したマップに基づいて追跡対象の位置を求めてもよい。色情報の特徴量として、色ヒストグラム、color names特徴量などがある。
(学習部)
学習部23は、人体検出部21が検出した、あるいは追跡部22が特定した人体の画像
から、追跡対象の人体の特徴を学習して学習結果を記憶部24に記憶する。ここでは、学習部23は、形状特徴に基づく評価を行うための相関フィルタを求める。学習部23は、毎フレーム学習を行い、現フレームから得られる学習結果を所定の係数で過去の学習結果に反映させて更新する。なお、追跡処理において色特徴に基づく評価を行う場合には、学習部23は色ヒストグラム、color names特徴量などの色情報の特徴量を用いてもよい。
(記憶部)
記憶部24は、学習部23によって学習された学習結果を記憶する。記憶部24は、また、利用する特徴量(HOG、色ヒストグラム)、各特徴量のパラメータ、学習係数など、学習処理および追跡処理のハイパーパラメータも記憶する。
記憶部24は、また、追跡初期のフレーム画像における追跡対象の領域画像を表す情報を部位毎に記憶し、かつ顕著部位を記憶する。
本実施形態では、人体の部位を頭部、上半身、および下半身の3つの部位に分けることを想定する。したがって、記憶部24は、頭部、上半身、および下半身のそれぞれの領域画像を表す情報を記憶する。ここで、領域画像を表す情報は、領域画像そのものであってもよいし、部位毎の領域画像から得られる画像特徴量(例えば、色ヒストグラム)であってもよい。なお、人体の画像を部位毎の領域画像に分割する処理は、既知の画像セグメンテーション処理によって行える。または、人体比率を仮定し、この比率にしたがって部位毎の領域分割を行ってもよい。
顕著部位は、追跡初期のフレーム画像に対応する視覚的顕著性マップが極大値をとる追跡対象の部位である。視覚的顕著性マップは、視覚的顕著性マップ算出部25によって算出できる。視覚的顕著性マップにおける極大値の位置と、入力画像における各部位の領域を比較することにより、顕著部位が把握できる。記憶部24は、このようにして求められる顕著部位を記憶する。本実施形態では、頭部、上半身、下半身のいずれの部位が顕著部位であるかが記憶される。
なお、「追跡初期のフレーム画像」とは、本実施形態では、追跡開始後の2番目のフレーム画像、言い換えると追跡部22が最初に処理したフレーム画像を意味する。追跡開始から時間が経ていないほどノイズ混入が少ないため、さらに顕著性を求める際に明度の時間変化を求められる最初のフレームが2番目のフレームとなるため、2番目のフレーム画像を採用している。なお、1番目のフレーム画像、言い換えると人体検出部21が人体検出したフレーム画像、あるいは3番目以降のフレーム画像を対象として、上記の情報を取得および記憶してもよい。「追跡初期のフレーム画像」は、本発明における、処理対象の動画像を構成する複数のフレーム画像の1つである第1のフレーム画像に相当する。
記憶部24は、また、魚眼カメラ10によって撮影される画像上の位置と、その位置に人体の一の部位が存在するときの他の部位が存在する位置およびサイズ、ならびに、各部位の可視割合とを関連付けて記憶する。本明細書では、上記情報を部位情報と称し、部位情報を格納するテーブルを部位情報テーブルと称する。
図3は、部位情報テーブル300を説明する図である。部位情報テーブル300には、図示のように、頭部・上半身・下半身のそれぞれについて、中心位置・サイズ・可視割合が格納される。中心位置は、例えば、部位を矩形領域で表したときの中心である。サイズは、矩形領域の縦および横の大きさである。可視割合は、各部位がどの程度見えているかを表し、人体が正対して見たときに見える面積割合を100%とする。
図3では、部位情報テーブル300は、1レコードのみを含むように描いているが、実際には、画像中の多数の位置についてレコードを含む。部位情報テーブル300を参照することで、頭部、上半身、下半身のいずれかの部位(一の部位)が特定の位置にあるときに、その他の部位の位置、各部位のサイズ、および各部位の可視割合を求めることができる。
部位情報テーブル300の作成方法について簡単に説明する。第1の方法は、実測によって得られる画像を解析して、各部位の中心位置、サイズ、および可視割合を求める方法である。第2の方法は、シミュレーションあるいは計算によって求める方法である。例えば、人体の各部位を異なる大きさの円筒で表すモデル化を行い、人体が様々な場所に位置すると仮定したときに魚眼カメラ10によって撮影される円筒モデルの各位置およびサイズを求めればよい。可視割合は、特定部位の円筒モデルのみがあると仮定したときに撮影されるこの特定部位の領域面積と、全ての円筒モデルが存在する場合に撮影されるこの特定部位の領域面積の比として求められる。
(視覚的顕著性マップ算出部)
視覚的顕著性マップ算出部25(以下、顕著性マップ算出部25とも称する)は、入力画像から顕著性マップを算出する。視覚的顕著性は、部分領域あるいは画素毎に求められる、人間の注意の引きやすさの程度を表す指標である。視覚的顕著性は、例えば、明度、明度の時間変化、色、方向などの特徴に基づいて、生物の視覚を数理的にモデル化した既知の方法によって決定できる。
(回復部)
回復部26は、追跡対象をロストしたときに、この追跡対象の回復を行う。回復部26は、追跡ロスト時の回復を行うことを目的としており、追跡部22とは異なる処理により現フレーム画像から追跡対象の位置を推定する。回復部26は、領域推定部112、類似度スコア算出部113、再設定部114を有する。回復部26およびそのサブ機能部の詳細については、後ほどフローチャートの説明とともに詳細に説明するので、ここでは簡単な説明にとどめる。
回復部26は、ロスト判定部103によって、追跡対象をロストしたと判定されたフレーム画像(現フレーム画像;第2のフレーム画像)を対象として回復処理を実行する。
領域推定部112は、現フレーム画像に対応する視覚的顕著性マップの極大値位置と、追跡対象の顕著部位とに基づいて、現フレーム画像において追跡対象のそれぞれの部位が存在する領域を推定する。より具体的には、領域推定部112は、視覚的顕著性マップの極大値位置に顕著部位が存在すると仮定し、記憶部24に格納される部位情報テーブルを参照して、その他の部位の領域(中心位置およびサイズ)を推定する。視覚的顕著性マップに複数の極大値が存在すれば、領域推定部112は、それぞれに極大値位置ごとに領域を推定する。
類似度スコア算出部113は、領域推定部112によって推定された領域と、初期フレームにおける人体領域との類似度スコアを算出する。類似度スコア算出部113は、現フレーム画像と初期フレーム画像の部位毎の領域画像の類似度を算出し、部位毎の類似度を重み付け平均して、最終的な類似度スコアを算出する。重み係数は、例えば、部位が顕著部位であるか非顕著部位であるかに応じて決定してもよいし、部位の可視割合に応じて決定されてもよい。
再設定部114は、類似度スコアの最大値が閾値TH2より大きければ、最大の類似度スコアを与える位置に追跡対象が存在すると判断し、その結果を追跡部22に通知する。
このように回復処理に成功した場合には、追跡部22は追跡を継続できる。
(出力部)
出力部27は、魚眼画像や検出結果・追跡結果などの情報を外部装置に出力する機能を有する。例えば、出力部27は、外部装置としてのディスプレイに情報を表示してもよいし、外部装置としてのコンピュータに情報を転送してもよいし、外部装置としての照明装置や空調やFA装置に対し情報や制御信号を送信してもよい。
(ハードウェア構成)
人追跡装置1は、例えば、CPU(プロセッサ)、メモリ、ストレージなどを備えるコンピュータにより構成することができる。その場合、図2に示す構成は、ストレージに格納されたプログラムをメモリにロードし、CPUが当該プログラムを実行することによって実現されるものである。かかるコンピュータは、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよいし、オンボードコンピュータのように組み込み型のコンピュータでもよい。あるいは、図2に示す構成の全部または一部を、ASICやFPGAなどで構成してもよい。あるいは、図2に示す構成の全部または一部を、クラウドコンピューティングや分散コンピューティングにより実現してもよい。
<全体処理>
図4は、監視システム2による人追跡処理の全体フローチャートである。図4に沿って人追跡処理の全体的な流れを説明する。
図4のフローチャートの処理を実行する前に、人追跡装置1に学習および追跡のハイパーパラメータが設定される。ハイパーパラメータの例として、利用する特徴量、各特徴量のパラメータ、学習係数などが挙げられる。入力されたハイパーパラメータは記憶部24に記憶される。
ステップS101において、画像入力部20が魚眼カメラ10から1フレームの魚眼画像を入力する。この際、魚眼画像の歪みを補正した平面展開画像を作成して以降の処理を行ってもよいが、本実施形態の監視システム2では、魚眼画像をそのまま(歪んだまま)検出や追跡の処理に用いる。
ステップS102において、人体検出部21が入力画像から人体検出を行う。ステップS104において、追跡部22は、検出された人体領域を追跡のターゲット領域として設定する。ターゲット領域は、追跡対象の人物が存在する領域とその周辺をあわせた領域であり、追跡対象の人物が存在する可能性が高い領域である。ターゲット領域は、追跡部22によって処理対象とされる領域ともいえる。本実施形態では、追跡対象人物の初期位置は人体検出部21によって検出しているが、例えば、ユーザによって入力されるなどその他の方法により検出されてもよい。
以下、ステップS104からS116の処理が繰り返し実施される。ステップS104の終了判定において終了条件を満たしたら処理を終了する。終了条件は、例えば、追跡対象人物のフレームアウトや動画の終了とすることができる。
ステップS105において、視覚的顕著性マップ算出部25が、入力画像から視覚的顕著性マップを生成する。生成された視覚的顕著性マップは、記憶部24に記憶される。
ステップS106において、現在のフレームが最初の画像であるか否かが判定される。ここで、最初の画像とは、追跡対象人物の初期位置が与えられたフレーム画像のことであ
り、典型的には人体検出部21によって追跡対象人物が検出されたフレーム画像のことである。現在のフレームが最初の画像である場合(S106-YES)には処理はステップS115に進み、そうでない場合(S106-NO)には処理はステップS107に進む。
ステップS107において、現在のフレームが2番目の画像であるか否かが判定される。ここで、2番目の画像とは、追跡対象人物の初期位置が与えられたフレーム画像の次のフレーム画像のことである。現在のフレームが2番目の画像である場合(S107-YES)には処理はステップS108に進み、そうでない場合(S107-NO)には処理はステップS111に進む。
ステップS108において、学習部23は、視覚的顕著性マップのうち、ターゲット領域内で顕著性が最大値をとる位置を求める。
ステップS109において、学習部23は、顕著性が最大値をとる位置が追跡対象のどの部位に相当するかを判断して、当該部位を顕著部位として記憶部24に記憶する。この時点で、ターゲット領域が部位毎に領域分割(セグメンテーション)されていない場合には、人追跡装置1はセグメンテーション処理をステップS109で実行する。
ステップS110において、学習部23は、追跡対象人体の部位毎に色ヒストグラムを算出して、記憶部24に記憶する。なお、ここでは色ヒストグラムを記憶しているが、フレーム間での領域画像の類似度を比較可能であれば、その他の画像特徴量を算出・記憶してもよい。
ステップS111において、追跡部22が追跡処理を実行する。追跡処理の詳細は図6を参照して後述するが、概略は、入力画像に相関フィルタを適用して、応答(尤度)が最大となる位置にターゲット領域が存在すると判断する処理である。
ステップS112において、ロスト判定部103は、追跡ロストが発生したか否かを判定する。追跡ロストは、応答(尤度)の最大値が閾値TH1より小さい場合に発生した判断できる。追跡ロストが発生した場合(S112-YES)には処理はステップS113に進み、そうではない場合(S112-NO)には処理はステップS115に進む。
ステップS113において、回復部26が回復処理を実行する。回復処理の詳細は、図7等を参照して後述する。
ステップS114では、回復処理に成功したか否かが判定される。回復に成功した場合(S114-YES)には処理はステップS115に進み追跡処理が継続され、回復に失敗した場合(S114-NO)は追跡処理を終了する。
ステップS115では、学習部23が相関フィルタの学習処理を行う。学習処理の詳細は図5を参照して後述する。
ステップS116では、画像入力部20が魚眼カメラ10から次のフレームの魚眼画像を入力する。ステップS116の後は、ステップS104に処理が戻り、追跡終了の条件が満たされるまで上記の処理が繰り返される。
このように、追跡処理S111による追跡対象人物の位置特定が毎フレーム行われて、追跡が実現される。また、本実施形態の追跡処理には、追跡ロストが発生した際に初期フレームで記憶した情報を利用した回復処理が含まれる。
<学習処理>
図5は、ステップS115の学習処理の詳細を示すフローチャートである。以下、図5を参照して学習処理について説明する。
学習部23は、まず、現フレーム画像からターゲット領域を切り出す(S201)。ターゲット領域は、追跡対象人物の前景領域および背景領域を含む領域である。前景領域は追跡対象人物が存在する領域であり、背景領域は追跡対象人物が存在しない領域である。背景領域の大きさは、前景領域の大きさに応じて決定される。例えば、前景領域のサイズがターゲット領域の全体サイズの所定の比率(例えば1/3)となるように、背景領域のサイズが決定されている。なお、ターゲット領域は中心が追跡対象人物の位置となるように追跡処理の最後に更新されている(図6のステップS304)ので、ターゲット領域の中心は追跡対象人物の中心位置と等しい。
学習部23は、ターゲット領域の画像特徴量として、明度特徴量とHOG特徴量を取得する(S202)。HOG特徴量は、局所領域の輝度勾配方向をヒストグラム化した特徴量であり、物体の形状・輪郭を表す特徴量と捉えられる。ここでは、HOG特徴量を採用しているが、物体の形状・輪郭を表す他の特徴量、例えば、LBP特徴量、SHIFT特徴量、SURF特徴量を採用してもよい。また、明度特徴量ではなく輝度特徴量を採用してもよい。なお、追跡処理で明度特徴量とHOG特徴量が求められている場合には、あらためてこれらを求める必要はない。これらの特徴量は画像形式で求められるので、本明細書では特徴量のことを特徴量画像とも称する。
学習部23は、応答がターゲット領域中心にピークを持つような相関フィルタを求める(S203)。具体的には、HOG特徴量を抽出した後に、その特徴量自身の相関に対して、中心のみにピークを持つ理想の応答に最も近づくようなフィルタを求めることで、相関フィルタが得られる。相関フィルタモデルの追跡アルゴリズムとして相関フィルタの計算をフーリエ空間で行う手法を使用する場合には、特徴量画像に窓関数を乗じても良い。
今回の学習が最初の学習であれば(S204-YES)、ステップS203で生成した相関フィルタをそのまま記憶部24に記憶する。一方、今回の学習が2回目以降の学習であれば(S204-NO)、処理はステップS205に進む。ステップS205では、学習部23は、前回求めた相関フィルタ(記憶部24に記憶されている相関フィルタ)と今回ステップS203で求めた相関フィルタを合成することで新たな相関フィルタを求め、記憶部24に記憶する。
<追跡処理>
図6は、ステップS111の追跡処理の詳細を示すフローチャートである。以下、図6を参照して追跡処理について説明する。
追跡部22は、現フレーム画像から前回のターゲット領域を切り出す(S301)。ターゲット領域の中心は、前フレーム画像における追跡対象人物の位置となるように、前回の追跡処理において更新されている。
特徴量抽出部101は、ターゲット領域の特徴量として、明度特徴量とHOG特徴量を抽出する(S302)。これらの特徴量は画像形式で求められるので、本明細書では特徴量のことを特徴量画像とも称する。明度特徴量画像はフレーム画像と同じ解像度であるが、HOG特徴量画像はセルごと(例えば3×3画素ごと)に特徴量が求められるのでその解像度はフレーム画像よりも低い。
応答マップ生成部102は、ターゲット領域内のHOG特徴量画像と記憶部24に記憶されている相関フィルタによって応答マップ(尤度のマップ)を求める(S303)。追跡部22は、応答マップの最大値に対応する位置を、次のターゲット領域の中心位置として更新する(S304)。また、追跡部22は、更新後のターゲット領域の中心位置から、ターゲット領域のサイズを更新する(S305)。サイズ更新処理は、魚眼カメラ10の配置、カメラ視点、カメラパラメータおよび高さと幅を定めた人物モデルの位置に基づく幾何学的な関係に基づいて行われる。または画像のピラミッドを用いてスケール推定を行う既知の方法であってもよい。
以上の処理により、追跡処理が完了し、現フレーム画像内のターゲット領域が求められる。追跡処理完了後のターゲット領域の中心が追跡対象人物の中心位置であり、ターゲット領域中の前景領域が追跡対象人物の存在領域(バウンディングボックス)である。
なお、ここでは追跡処理の一つの具体例を説明したが、上記以外のその他のアルゴリズムを採用してもよい。例えば、相関フィルタに基づく応答マップに補正処理を施して、追跡精度を向上させたりしてもよい。
<回復処理>
図7は、ステップS113の回復処理の詳細を示すフローチャートである。図8は、回復処理のデータフロー図である。なお、図8では、初期フレームに基づいて予め記憶した情報も示されている。以下、図7、図8等を参照して回復処理について説明する。
ステップS401において、回復部26は、ステップS105で求めた現フレーム画像806に対応する視覚的顕著性マップ807を記憶部24から取得し、視覚的顕著性マップ807中の極大値をとる位置を求める。
ループ処理L1は、ステップS402~S406を含み、ステップS401で求められた極大値位置のそれぞれについて実行される。回復部26は、ループ処理L1によって、追跡ロストが発生したフレーム画像に対応する視覚的顕著性マップ807の極大値位置ごとに類似度スコアを算出する。
ステップS402において、領域推定部112は、視覚的顕著性マップ807の極大値位置が、現フレーム画像における顕著部位805の位置であると設定する。顕著部位805がどの部位であるかは、ステップS109において第2フレーム画像(初期フレーム画像)801に対応する視覚的顕著性マップ804に基づいて、あらかじめ求められて記憶部24に記憶されている。
ステップS403において、領域推定部112は、顕著部位805の位置に基づいて、人体の各部位の領域(位置およびサイズ)を推定する。記憶部24には人体の各部位の位置・サイズ・可視割合が格納された部位情報テーブル811(300)が格納されており、領域推定部112は、顕著部位805の位置と部位情報テーブル811に基づいて、各部位の推定領域808を求めることができる。
このように、ステップS402~S403の処理により、領域推定部112は、極大値位置に顕著部位が存在すると仮定したときの、追跡対象のそれぞれの部位が存在する領域を推定することができる。
ループ処理L2は、ステップS404~S405を含み、ステップS403で求められたそれぞれの部位の推定領域について実行される。ステップS404では、類似度スコア算出部113は、部位の推定領域808から色ヒストグラム809を算出する。ステップ
S405において、類似度スコア算出部113は、対象部位について、現フレームの色ヒストグラム809と、第2フレーム画像(初期フレーム画像)801の色ヒストグラム803との間の類似度を算出する。第2フレーム画像の色ヒストグラム803は、ステップS110において、あらかじめ求められて記憶部24に記憶されている。ここで算出される類似度は、初期フレーム画像と現フレーム画像の部位毎の類似性を表す。
ループ処理L2において全ての部位について類似度が算出されると、ステップS406において、類似度スコア算出部113は、各部位の類似度809を統合して類似度スコア810を算出する。本実施形態において、類似度スコア算出部113は、各部位の可視割合および顕著部位であるか否かに応じて決定される重み付け係数を用いた、各部位の類似度の重み付け平均値を、最終的な類似度スコアとして決定する。
より具体的には、類似度スコア算出部113は、下記の式(1)に基づいて類似度スコアを算出する。
Figure 0007354767000001
ここで、SCOREは類似度スコア、Nは部位の数、iは部位を表すインデックス、sは部位iの類似度、WVは部位iの可視割合に基づく重み付け係数、WSは部位iが顕著部位であるか否かに基づく重み付け係数、WVimaxはWVが取りうる最大の値
、WSimaxはWSが取りうる最大の値、および、simaxはsが取りうる最大の値である。
重み付け係数WVは、本実施形態では、部位iの可視割合の値と同じとする。各部位の可視割合は、部位情報テーブル811(300)を参照することで把握可能である。ただし、重み付け係数WVは部位iの可視割合と同じ値とする必要は無く、部位iの可視割合に応じて決定される値であってもよい。
重み付け係数WSは、部位iが顕著部位である場合には固定値Aをとり、部位iが非顕著部位である場合には(1-A)/(N-1)をとる。顕著部位に対する重み付け係数WSが、非顕著部位に対する重み付け係数WSiよりも大きい値とするとよい。したがって、固定値Aは1/Nより大きな値とすることが望ましい。例えば、部位数が3つのときにA=0.7とすると、顕著部位についての重み付け係数WSは0.7であり、非顕著部位についての重み付け係数WSは0.15となる。
以上のステップS402からS406の処理が、視覚的顕著性マップの極大値のそれぞれについて完了すると、処理はステップS407に進む。
ステップS407では、再設定部114が、それぞれの極大値について求めた類似度スコアのうちの最大値が、閾値TH2より大きいか否かを判定する。最大の類似度スコアが閾値TH2より大きい場合(S407-YES)には、処理はステップS408に進む。そうでない場合(S407-NO)には、処理はステップS409に進む。
ステップS408では、再設定部114は、視覚的顕著性マップの極大値位置のうち、類似度スコアが最大を与える位置に、追跡対象人物の顕著部位があると判断する。再設定部114は、追跡ロストの回復に成功した旨と、追跡対象人物の位置とを、追跡部22に通知して処理を終了する。なお、再設定部114が追跡部に通知する追跡対象位置は、顕著部位の位置であってもよいし、顕著部位の位置から求められるその他の位置であってもよい。その他の位置の例として、追跡対象人物の中心位置が挙げられる。中心位置は、顕著部位および非顕著部位を含む全ての部位の領域を含む領域の中心として求められる。
ステップS409では、再設定部114は、追跡ロストの回復に失敗した旨を追跡部22に通知して、処理を終了する。
<動作例>
図9,図10を参照して、回復処理の動作を具体例に基づいて説明する。図9は、追跡が開始された初期(本例では第2フレーム)で求められる情報を説明する図である。図10は、追跡ロスト発生時に行われる処理を説明する図である。
図9Aは、第2フレーム(初期フレーム)のうち追跡対象の人物部分を拡大した画像901を示す。画像901には、追跡対象の人体902が写っている。学習部23は、領域分割処理により、人体902を、頭部903、上半身904、下半身905の3つの部位に分割する。この図では、各部位の領域を矩形で表しているが、矩形以外形状で各領域を表してもよい。学習部23は、頭部903a、上半身903b、下半身903cのそれぞれに対応する色ヒストグラム906a、906b、906cを算出して、記憶部24に記憶する。
図9Bは、第2フレーム画像から求められる視覚的顕著性マップ910を示す。視覚的顕著性マップ910は第2フレーム画像全体に対応する大きさを有するが、ここでは画像901に対応する部分のみを示している。学習部23は、視覚的顕著性マップ910の極大値位置911が、人体902のいずれの部位の領域にあるかに基づいて、人体902の顕著部位を判断して、記憶部24に記憶する。この例では、極大値位置911は上半身903bに位置しているので、顕著部位は上半身として決定される。
以上の情報は、追跡が開始された初期(本例では第2フレーム)で求められて記憶部24に記憶される。続いて、追跡ロスト発生時の回復処理について説明する。
図10Aは、第Nフレーム画像から求められる視覚的顕著性マップ1001を示す。第Nフレームは、追跡ロストが発生したフレーム画像である。この例では、視覚的顕著性マップ1001に2つの極大値1002,1003が存在する。
回復部26(領域推定部112)は、極大値1002,1003に顕著部位(この例では上半身)が位置すると仮定したときの、各部位の領域を推定する。回復部26は、部位情報テーブル300を参照することで、各部位の位置およびサイズを求めることができる。この例では、極大値1002に対応して、頭部の領域1004a、上半身の領域1004b、下半身の領域1004cが求められる。同様に、極大値1003に対応して、頭部の領域1005a、上半身の領域1005b、下半身の領域1005cが求められる。
類似度スコア算出部113は、まず、各部位の領域から色ヒストグラムを求める。例えば、各部位の領域1004a~1004cに対応して、色ヒストグラム1010a~1010cが求められる。次に、類似度スコア算出部113は、各部位の領域の色ヒストグラム1010a~1010cのそれぞれを、第2フレーム画像から求められた色ヒストグラム906a~906cとそれぞれ比較して類似度sを算出する。
類似度スコア算出部113は、これらの類似度sを、各部位の可視割合と顕著部位であるか否かとに応じて決定される重み付け係数を用いて、統合して最終的な類似度スコアを算出する。類似度スコアは視覚的顕著性マップの極大値1002,1003のそれぞれについて求められる。
再設定部114は、最大の類似度スコアを与える極大値位置に追跡対象が存在すると判
断する。ただし、最大の類似度スコアが閾値TH2より小さい場合には、回復に失敗したと判断する。再設定部114は、人体の各部位の領域全体の中心位置を追跡対象の中心位置として、ターゲット領域の再設定を行う。また、再設定部114は、人体の各部位の領域全体に応じてターゲット領域のサイズの再設定を行う。
<本実施形態の有利な効果>
本実施形態では、人追跡装置において、追跡に失敗した際の回復を精度良く行える。本実施形態においては、初期フレームに基づいて、顕著部位がどの部位であるかという情報と、各部位領域の色ヒストグラムとを記憶している。追跡対象の人物が移動して画像内での位置が変わると、魚眼カメラ10との相対位置が変わり画像に写る位置が変わったり、形状に歪みが生じたりするが、顕著部位がどこであるかは変わらないと想定できる。そこで、追跡ロストが発生したフレームにおいて、視覚的顕著性マップの極大値位置は、追跡対象の顕著部位の候補位置であると見なせる。また、ある特定の部位が画像上の特定の位置にあるときに、その他の部位の位置、および各部位のサイズ・可視割合はあらかじめ求めることができる。そこで、視覚的顕著性マップの極大値位置に顕著部位があると仮定したときの各部位の領域を推定し、現フレームと初期フレームの色ヒストグラムの類似度を求めて、これらを統合して類似度スコアを算出する。このように視覚的顕著性マップの極大値を顕著部位の位置とみなすことと、色ヒストグラムに基づいて類似度を算出することにより、形状変化に対してロバストな回復が実現できる。また、類似度の統合の際に、部位が顕著部位であるか非顕著部位であるかに応じて、また、部位の可視割合に応じて、当該部位に対する重み付け係数を決定している。これは、類似度スコアの算出において、顕著部位の方が非顕著部位よりも重視すべきであること、また、可視割合が大きい部位をより重視するべきであることに基づく。可視割合に基づく重み付けをすることで、オクルージョンに対してもロバストとなる。以上のような処理により回復処理を実施しているので、本実施形態では、精度のよい回復が可能となる。
<その他>
上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。
また、上記の実施形態において、追跡部22は相関フィルタを用いた追跡処理を行っているが、その他のアルゴリズムにより追跡を行ってもよい。例えば、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)のような深層学習モデルや、SVM(Support Vector Machine)のようなパターン認識モデルを利用して追跡を行ってもよい。
また、上記の実施形態では魚眼画像を平面展開せずに処理しているが、魚眼画像を平面展開した画像を処理対象としてもよいし、通常のカメラにより撮影された画像を処理対象としてもよい。また、カメラの視点においても、上記の実施形態では、カメラの光軸が鉛直下向きとなるように設置されるが、魚眼カメラの光軸が鉛直方向に対して傾いていても構わない。
また、顕著部位と各部位の色ヒストグラムを2番目のフレームから求めている(図4のS108~S110)が、どのフレーム画像からこれらの情報を求めるかは特に限定されない。ただし、追跡初期であるほどノイズが混入しないので、追跡開始に近いフレームを用いることが好ましい。したがって、追跡を開始したフレーム(1番目のフレーム)あるいは3番目以降のフレームから、上記情報を求めてもよい。
また、回復処理の類似度を算出する際に、色ヒストグラムを用いているが、色ヒストグ
ラム以外の情報に基づいて類似度を判断してもよい。ただし、魚眼カメラによって撮影される画像のように歪みが大きい画像では、変形に対してロバストな特徴量、例えば、色ヒストグラムや輝度ヒストグラムを用いることが好ましい。
また、上記実施形態では、各部位の類似度を統合して類似度スコアを算出する際(図7のS406)において、顕著部位であるか否かに応じた重み付け係数WSiと可視割合に応じた重み付け係数WViとを掛け算した値を重み付け係数として用いている。しかしながら、例えば足し算などその他の方法によってこれら2つの重み付け係数WSi,WViに基づいて、適用する重み付け係数を決定してもよい。また、WSiとWViのいずれか一方のみに基づいて重み付け係数を決定してもよい。また、WSiとWVi以外の情報も考慮して重み付け係数を決定してもよい。また、重み付け平均ではなくて単純平均によって類似度スコアを算出してもよい。
また、本実施形態では、画像中のある特定の位置に特定の部位が位置するときのその他の部位の位置および各部位のサイズ・可視割合を、あらかじめ記憶した部位情報テーブルを参照して求めているが、必要となるたびに計算により求めてもよい。計算方法は、上記の実施形態であらかじめ求める場合と同様であるので、説明は省略する。
本実施形態では、人体検出部21が検出した人物を追跡部22が追跡するが、ユーザ(人間)が追跡対象を指定し、追跡部22は指定された対象を追跡するようにしてもよい。
<付記>
1.記憶手段(24)と、
動画像中の対象物を追跡する追跡手段(22)と、
前記対象物をロストしたときに前記対象物の回復を行う回復手段(26)と、
を備える物体追跡装置(1)であって、
前記記憶手段(24)は、前記動画像を構成する複数のフレーム画像のうちの1つである第1のフレーム画像(801)における、前記対象物の領域画像を表す情報(803)を部位毎に記憶し、かつ、前記第1のフレーム画像(801)に対応する視覚的顕著性マップ(804)が極大値をとる前記対象物の部位(805)を記憶し、
前記回復手段(26)は、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第2のフレーム画像(806)に対応する視覚的顕著性マップ(807)の極大値位置ごとに、(1)前記極大値位置に、前記第1のフレーム画像において極大値をとる前記物体の部位が存在すると仮定したときの、前記物体のそれぞれの部位が存在する領域(808)を推定し、(2)前記第1のフレーム画像と前記第2のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコア(810)を算出し、
前記第2のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定する、
物体追跡装置(1)。
2.物体追跡装置(1)が行う、追跡の対象物をロストしたときに行う追跡ロスト回復方法(S113)であって、
前記動画像を構成する複数のフレーム画像のうちの1つである第1のフレーム画像(801)における、前記対象物の領域画像を表す情報(803)を部位毎に記憶(S110)し、かつ、前記第1のフレーム画像(801)に対応する視覚的顕著性マップ(804)が極大値をとる前記対象物の部位(805)を記憶(S108~S109)するステップと、
前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第2のフレーム画像(806)に対応する視覚的顕著性マップ(807)の極大値位置ごとに、(1
)前記極大値位置に、前記第1のフレーム画像において極大値をとる前記物体の部位が存在すると仮定したときの、前記物体のそれぞれの部位が存在する領域(808)を推定(S402~S403)し、(2)前記第1のフレーム画像と前記第2のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出(S404~S406)するステップと、
前記第2のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定(S408)するステップと、
を実行する追跡ロスト回復方法。
1:人追跡装置 2:監視システム 10:魚眼カメラ
11:追跡対象エリア 12:天井 13:人

Claims (14)

  1. 記憶手段と、
    動画像中の対象物を追跡する追跡手段と、
    前記対象物をロストしたときに前記対象物の回復を行う回復手段と、
    を備える物体追跡装置であって、
    前記記憶手段は、前記動画像を構成する複数のフレーム画像のうちの1つである第1のフレーム画像における、前記対象物の領域画像を表す情報を部位毎に記憶し、かつ、前記第1のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位を記憶し、
    前記回復手段は、
    前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第2のフレーム画像に対応する視覚的顕著性マップの極大値位置ごとに、(1)前記極大値位置に、前記第1のフレーム画像において極大値をとる前記対象物の部位が存在すると仮定したときの、前記対象物のそれぞれの部位が存在する領域を推定し、(2)前記第1のフレーム画像と前記第2のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出し、
    前記第2のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定する、
    物体追跡装置。
  2. 前記回復手段は、前記第1のフレーム画像と前記第2のフレーム画像の部位毎の領域画像の画像特徴量の類似度を算出し、これらの類似度を統合して前記類似度スコアを算出する、
    請求項1に記載の物体追跡装置。
  3. 前記回復手段は、前記第2のフレーム画像における各部位の可視割合に応じた重みを用いて、前記類似度を統合して前記類似度スコアを算出する、
    請求項2に記載の物体追跡装置。
  4. 前記回復手段は、前記第1のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位と、それ以外の部位とで異なる重みを用いて、前記類似度を統合して前記類似度スコアを算出する、
    請求項2または3に記載の物体追跡装置。
  5. 前記回復手段は、下記の式(1)にしたがって前記類似度スコアを算出する、
    請求項2から4のいずれか1項に記載の物体追跡装置。
    Figure 0007354767000002
    ここで、SCOREは類似度スコア、Nは部位の数、iは部位を表すインデックス、sは部位iの類似度、WVは部位iの可視割合に基づく重み付け係数、WSは部位iが顕著部位であるか否かに基づく重み付け係数、WVimaxはWVが取りうる最大の値
    、WSimaxはWSが取りうる最大の値、および、simaxはsが取りうる最大の値である。
  6. 前記記憶手段は、さらに、画像上の位置と、当該位置に対象物の一の部位が存在するときの他の部位が存在する位置と、を関連付けて記憶し、
    前記回復手段は、前記第2のフレーム画像における極大値位置と、前記第1のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位と、前記記憶手段に
    基づいて、前記第2のフレーム画像における前記対象物のそれぞれの部位が存在する領域を推定する、
    請求項1から5のいずれか1項に記載の物体追跡装置。
  7. 前記記憶手段は、画像上の位置ごとに、前記対象物のそれぞれの部位の可視割合も記憶する、
    請求項6に記載の物体追跡装置。
  8. 前記第1のフレーム画像は、前記対象物の追跡を開始したフレーム画像またはその次のフレーム画像である、
    請求項1から7のいずれか1項に記載の物体追跡装置。
  9. 対象物が存在すると判定された領域の画像に基づいて相関フィルタの学習を行う学習部をさらに備え、
    前記追跡手段は、前記相関フィルタを用いて算出される指標が最も高い位置に対象物が存在すると判定する、
    請求項1から8のいずれか1項に記載の物体追跡装置。
  10. 前記追跡手段は、相関フィルタを用いて算出される前記指標の最大値が閾値以下のときに、前記対象物をロストしたと判定する、
    請求項9に記載の物体追跡装置。
  11. 前記動画像を撮像する撮像手段をさらに備える、
    請求項1から10のいずれか1項に記載の物体追跡装置。
  12. 前記撮像手段は、魚眼カメラである、
    請求項11に記載の物体追跡装置。
  13. 物体追跡装置が行う、追跡の対象物をロストしたときに行う追跡ロスト回復方法であって、
    動画像を構成する複数のフレーム画像のうちの1つである第1のフレーム画像における、前記対象物の領域画像を表す情報を部位毎に記憶し、かつ、前記第1のフレーム画像に対応する視覚的顕著性マップが極大値をとる前記対象物の部位を記憶するステップと、
    前記対象物をロストした際に、当該対象物をロストしたフレーム画像である第2のフレーム画像に対応する視覚的顕著性マップの極大値位置ごとに、(1)前記極大値位置に、前記第1のフレーム画像において極大値をとる前記対象物の部位が存在すると仮定したときの、前記対象物のそれぞれの部位が存在する領域を推定し、(2)前記第1のフレーム画像と前記第2のフレーム画像の部位毎の領域画像の類似性に基づいて、類似度スコアを算出するステップと、
    前記第2のフレーム画像中の、前記類似度スコアが最も大きい極大値位置に、前記対象物が存在すると決定するステップと、
    を実行する追跡ロスト回復方法。
  14. 請求項13に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
JP2019196281A 2019-10-29 2019-10-29 物体追跡装置および物体追跡方法 Active JP7354767B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019196281A JP7354767B2 (ja) 2019-10-29 2019-10-29 物体追跡装置および物体追跡方法
DE112020005223.0T DE112020005223T5 (de) 2019-10-29 2020-09-23 Objektverfolgungseinrichtung und Objektverfolgungsverfahren
US17/770,980 US20220366570A1 (en) 2019-10-29 2020-09-23 Object tracking device and object tracking method
CN202080075158.9A CN114616591A (zh) 2019-10-29 2020-09-23 物体跟踪装置以及物体跟踪方法
PCT/JP2020/035705 WO2021084972A1 (ja) 2019-10-29 2020-09-23 物体追跡装置および物体追跡方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019196281A JP7354767B2 (ja) 2019-10-29 2019-10-29 物体追跡装置および物体追跡方法

Publications (2)

Publication Number Publication Date
JP2021071769A JP2021071769A (ja) 2021-05-06
JP7354767B2 true JP7354767B2 (ja) 2023-10-03

Family

ID=75713138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019196281A Active JP7354767B2 (ja) 2019-10-29 2019-10-29 物体追跡装置および物体追跡方法

Country Status (5)

Country Link
US (1) US20220366570A1 (ja)
JP (1) JP7354767B2 (ja)
CN (1) CN114616591A (ja)
DE (1) DE112020005223T5 (ja)
WO (1) WO2021084972A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220073444A (ko) * 2020-11-26 2022-06-03 삼성전자주식회사 오브젝트 추적 방법, 장치 및 그 방법을 수행하는 단말기
US11094042B1 (en) * 2021-03-12 2021-08-17 Flyreel, Inc. Face detection and blurring methods and systems
CN114596332A (zh) * 2022-04-26 2022-06-07 四川迪晟新达类脑智能技术有限公司 提升跟踪目标特征信息的方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015163830A1 (en) 2014-04-22 2015-10-29 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Target localization and size estimation via multiple model learning in visual tracking
JP2016110656A (ja) 2014-12-09 2016-06-20 株式会社リコー オブジェクト追跡方法及び装置
JP2018077807A (ja) 2016-11-11 2018-05-17 Kddi株式会社 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015163830A1 (en) 2014-04-22 2015-10-29 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Target localization and size estimation via multiple model learning in visual tracking
JP2016110656A (ja) 2014-12-09 2016-06-20 株式会社リコー オブジェクト追跡方法及び装置
JP2018077807A (ja) 2016-11-11 2018-05-17 Kddi株式会社 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法

Also Published As

Publication number Publication date
CN114616591A (zh) 2022-06-10
JP2021071769A (ja) 2021-05-06
DE112020005223T5 (de) 2022-08-25
US20220366570A1 (en) 2022-11-17
WO2021084972A1 (ja) 2021-05-06

Similar Documents

Publication Publication Date Title
US10417503B2 (en) Image processing apparatus and image processing method
JP6942488B2 (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP6494253B2 (ja) 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム
US10212324B2 (en) Position detection device, position detection method, and storage medium
US9877012B2 (en) Image processing apparatus for estimating three-dimensional position of object and method therefor
JP6554169B2 (ja) 物体認識装置及び物体認識システム
US9092662B2 (en) Pattern recognition method and pattern recognition apparatus
JP4830650B2 (ja) 追跡装置
KR101687530B1 (ko) 촬상 시스템에 있어서의 제어방법, 제어장치 및 컴퓨터 판독 가능한 기억매체
JP7272024B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
JP7354767B2 (ja) 物体追跡装置および物体追跡方法
KR101035055B1 (ko) 이종 카메라를 이용한 객체 추적 시스템 및 방법
JP6822482B2 (ja) 視線推定装置、視線推定方法及びプログラム記録媒体
JP7334432B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
US10496874B2 (en) Facial detection device, facial detection system provided with same, and facial detection method
CN113508420A (zh) 物体追踪装置以及物体追踪方法
JP2021503139A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2018120283A (ja) 情報処理装置、情報処理方法及びプログラム
JP6798609B2 (ja) 映像解析装置、映像解析方法およびプログラム
JP2021149687A (ja) 物体認識装置、物体認識方法及び物体認識プログラム
JP6659095B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP7243372B2 (ja) 物体追跡装置および物体追跡方法
JP6555940B2 (ja) 被写体追跡装置、撮像装置、及び被写体追跡装置の制御方法
JP2016194847A (ja) 画像検出装置、画像検出方法およびプログラム
WO2024009744A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230904

R150 Certificate of patent or registration of utility model

Ref document number: 7354767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150