JP6504711B2

JP6504711B2 - 画像処理装置

Info

Publication number: JP6504711B2
Application number: JP2016065955A
Authority: JP
Inventors: 小林　達也; 達也小林; 加藤　晴久; 晴久加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2019-04-24
Anticipated expiration: 2036-03-29
Also published as: JP2017182295A

Description

本発明は、カメラから取得される映像の解析によって映像内の人物を追跡する画像処理装置に係り、特に、人物間オクルージョンに対して頑健な人物追跡を可能にする画像処理装置に関する。

カメラから取得される映像の解析によって、映像内の人物を検出・追跡する技術は、所定領域内の人数計測による混雑度調査や、監視対象領域内の不審者検知、店舗内の顧客動線解析等、幅広い分野で必要とされている。

画像中に人物の全身がはっきりと写る場合、人物検出・追跡は比較的容易に実現することが可能である。例えば、特許文献１では、単眼カメラ映像から顔検出技術等を利用して人物候補領域を検出し、登録された人物との同一性を評価することにより、特定の人物の高精度な追跡を実現している。

特許文献２においても、同様にカメラ映像から頭部を検出し、前後のフレームにおける頭部領域の特徴量の関連度を用いて同一人物の追跡を実現している。特許文献３では、カメラ映像から背景差分技術により人物領域を検出し、パーティクルフィルタによって人物の状態を推定しつつ、頭部領域を追跡する技術が開示されている。この技術では、人物の向き等の状態に応じて複数の識別器を使い分けることで、人物の姿勢の変化に頑健な追跡を実現している。

さらに、特許文献４では、背景差分技術とフレーム間差分技術の併用により、移動物体を検出し、椅子等の背景物の移動に対して頑健に人物を追跡する技術が開示されている。この技術では、色ヒストグラム等の画像特徴の類似度の比較によってフレーム間の移動物体の対応付けを行っている。

また、非特許文献１，２には、パーティクルフィルタによる人物領域の追跡中にOnline Boostingによってそれぞれの人物領域固有の特徴量を学習することで、近接する人物動線のIDの入れ替わりを防ぐ技術が開示されている。

しかしながら、実利用シーンにおいては、映像中で複数人物が重なることで遮蔽（オクルージョン）が発生し、遮蔽された人物（頭部）が一定時間（場合によっては長時間）検出されなくなり、人物の追跡が途切れること（ロスト）が起こり得る。

また、同じタイミングに動線の途切れた位置付近で新たな人物が登場した場合、別人であるにも関わらず同一人物と誤認識して追跡を継続し、結果として異なる人物の動線が混合するような問題も起こりうる。

さらに、複数人が重なった人物領域が一人の人物領域として検出／追跡されることで、複数人の特徴量が混合して学習され、オクルージョン解消時の人物動線のIDの入れ替わりが発生する問題も起こりうる。

このような人物間オクルージョンに起因する問題を解消する従来技術として、複数カメラの視差を用いて人物間オクルージョンを解消する手法が存在する。例えば特許文献５では、複数カメラ画像の前景画像から、視体積交差法と呼ばれる手法により、人物領域を三次元的に推定する技術が開示されている。

特許文献６では、複数カメラで個々に追跡した人物動線を統合することにより、追跡の失敗や動線の入れ替わりを防ぐ技術が開示されている。

また、複数カメラを用いずに人物間オクルージョンを解消する手法も提案されている。例えば特許文献７では、連続的な追跡結果からオクルージョンが発生している前景領域（オクルージョン領域）を特定し、オクルージョン領域をセグメンテーションすることにより、個々の人物領域に分離する手法が開示されている。特許文献８には、オクルージョン領域を輝度変化に基づいて領域分割することにより、個々の人物領域に分離し、正確な人数計測を実現する手法が開示されている。

特開2010-257441号公報特開2010-273112号公報特開2008-26974号公報特開2010-176206号公報特開2014-164525号公報特開2010-063001号公報特開2013-206262号公報特開2014-229068号公報

M. D. Breitenstein, et al. "Online Multiperson Tracking-by-Detection from a Single, Uncalibrated Camera", IEEE Trans. on Pattern Analysis and Machine Intelligence, 2011. Y. Guan, et al. "Multi-person tracking-by-detection with local particle filtering and global occlusion handling", IEEE International Conference on Multimedia and Expo, 2014.

しかしながら、以上述べたいずれの従来技術であっても、低コストで人物間オクルージョン、特に人物同士が完全に重なり合う状況において頑健に追跡を継続することが実現できていない。

特許文献１〜４および非特許文献１，２に開示されている従来の人物追跡技術を用いた場合、人物間オクルージョンによって追跡精度が劣化する課題を解消することができない。これら従来技術では、検出した人物領域を特定の類似度算出により、フレーム間で一対一で対応付けるため、例えば図６に示す様な人物間オクルージョンによって一方の人物が検出されなくなる場合において、一方の人物の追跡に失敗してしまう。

追跡に失敗した人物は、オクルージョンの解消後に追跡を再開できる可能性もあるが、オクルージョン解消前に付近で見た目の類似する人物が検出されると追跡IDが入れ替わる問題が発生する。

ここで、一対一の対応付け（マッチング）とは、前フレームの追跡結果に含まれる人物のうちの一人と、検出結果に含まれる人物領域のうちの一つとを対応付けることを意味する。一対一の対応付けを反復することで、最終的に追跡結果に含まれるM人と、検出結果に含まれる人物領域のうちのM個の領域とを対応付けることが可能である。

対応付けのアルゴリズムとして、貪欲法やハンガリアン法が一般的である。一対一の対応付では、追跡結果中の複数の人物が同じ一つの人物領域と対応付けること（多対一の対応付け）や、逆に、追跡結果中の一人が複数の人物領域と対応付けること（一対多の対応付け）は起こりえない。

一方、特許文献７では、追跡中の人物（過去の追跡結果）と検出結果との間の多対一の対応付けを許容することで、検出結果と類似度の高い複数の追跡中の人物を対応付けることができる。しかしながら、人物間オクルージョン中の人物は当然全身が写っていないため、追跡結果とオクルージョン領域の類似度が下がり、正しく多対一の対応付けができない問題が生じる。

特許文献８は、オクルージョン中の複数の人物が検出された場合に、人物の移動速度の違いに基づいて領域を分割する手法であるため、図６のように遮蔽によってそもそも一方の人物が検出されない場合には対応できない。

特許文献５、特許文献６では、複数のカメラが重複して撮影できない領域について、人物間オクルージョンに対して頑健な人物追跡を実現することが出来ない。また、対象となるシーン中の全領域を複数のカメラが重複して撮影するようにカメラを設置することは、カメラの設置コストの観点から困難である。

本発明の目的は、上記の技術課題をすべて解決し、人物間オクルージョンにかかわらず頑健かつ高精度の人物追跡を実現できる画像処理装置を提供することにある。

上記の目的を達成するために、本発明の画像処理装置は、以下の構成を具備した点に特徴がある。

(1) 映像フレームから所定の指標値が第１閾値を超える領域を人物領域として検出する手段と、過去フレームの追跡結果と人物領域の検出結果とのマッチングを行う手段と、マッチングの結果に基づいて検出結果を追跡結果として更新登録することをフレーム単位で繰り返すことで人物動線を生成する手段とを具備した。

そして、前記マッチングを行う手段が、追跡結果と検出結果との組み合わせごとに第1評価基準に基づく第１類似度を計算する手段と、追跡結果と検出結果との組み合わせごとに前記第1評価基準とは異なる第２評価基準に基づく第２類似度を計算する手段と、最大類似度を与える追跡結果および検出結果の組み合わせから順に、当該最大類似度が第１類似度であれば一対一対応のマッチングとして登録し、第２類似度であれば多対一対応のマッチングとして登録する手段とを具備し、第２評価基準は、人物間オクルージョン中の可能性が高い組み合わせほど第２類似度が高くなるように設定された。

(2) 前記第２評価基準は、人物領域の検出結果が追跡結果を包含する割合が高いほど第２類似度が高くなるように設定した。

(3) 前記登録する手段は、最大類似度を第２類似度として与える検出結果が既に他の追跡結果と一対一対応のマッチングとして登録済みであると当該登録を解消し、前記最大類似度を与える追跡結果および前記登録を解消された追跡結果と前記最大類似度を与える検出結果とを多対一対応のマッチングとして登録するようにした。

(4) 映像フレームから所定の指標値が第１閾値よりも低く第２閾値よりも高い領域を準人物領域として検出する手段と、追跡結果と準人物領域の検出結果との組み合わせごとに前記第２評価基準に基づく第３類似度を計算する手段とを具備した。そして、登録する手段は、最大類似度を第３類似度として与える追跡結果および検出結果の組み合わせを多対一対応のマッチングとして登録するようにした。

(5) 人物動線を生成する手段は、パーティクルフィルタを用いて生成した各人物の現在位置としての複数の現在推定位置のうち、尤度のより高い推定位置を現在位置として採用するようにした。そして、前記尤度として、追跡結果および検出結果の対応関係が、一対一対応であれば第１の指標に基づいて第１尤度を計算する手段、および多対一対応であれば前記第１の指標とは異なる第２の指標に基づいて第２尤度を計算する手段を具備した。

(6) 人物動線を生成する手段は、各人物領域の現在位置として、その足元位置に基づいて計算される尤度が最も高い推定位置を採用し、前記マッチング結果が一対一対応および多対一対応のいずれであるかに応じて尤度の算出方法を異ならせるようにした。

本発明によれば、以下のような効果が達成される。

(1) 追跡結果と検出結果とを両者の類似度に基づいて対応付けるにあたり、評価基準の異なる２つの評価部を設け、その一方（第１類似度評価部）は追跡結果と検出結果とが同一人物である可能性が高いほど高い評価値を出力し、他方（第２類似度評価部）は人物間オクルージョン中であるほど高い評価値を出力するようにしたので、人物間オクルージョン中であるか否かにかかわらず、同一人物の組み合わせであればその類似度を高くできるので、類似度に基づく対応付けを頑健かつ高精度なものとできるようになる。

(2) 第２類似度評価部は、人物間オクルージョン中であるか否かを、追跡結果および検出結果における人物領域の包含関係に基づいて評価するようにしたので、人物間オクルージョンという抽象的な現象を定量的かつ客観的に判断することが可能となり、人物間オクルージョン中の対応付けを高精度に行えるようになる。

(3) フレーム画像から人物領域を検出するための閾値を２段階に設定し、低い閾値（第２閾値）に基づいて検出された準人物領域に関しても第２類似度評価部により人物間オクルージョンの判定が行われるので、人物間オクルージョンを、その態様や程度にかかわらず柔軟に検出できるようになる。

(4) 第１類似度が高く一対一対応のマッチングとして登録済みの検出結果であっても、その後、第２類似度も所定の基準値を超える高さであれば、一対一対応のマッチングを解除し、第１類似度を与える追跡結果および第２類似度を与える追跡結果と共に多対一対応のマッチングとして再登録するので、一方の人物の大部分が他方の人物により遮蔽されるような強い人物間オクルージョンも確実に識別できるようになる。

(5) 人物の現在位置をパーティクルフィルタを用いて推定するにあたり、当該人物が一対一対応および多対一対応のいずれのマッチングとして登録されているかに応じて尤度計算の指標を異ならせるようにしたので、人物の現在位置をより正確に推定できるようになる。

(6) 追跡結果と検出結果とが一対一対応および多対一対応のいずれで対応付けられているのかに応じて、追跡中の人物の現在位置に関する尤度計算を異ならせ、特に多対一対応では統合領域に基づいて現在の足元位置が推定されるので、人物間オクルージョン中の個々の人物の足元位置をより高精度に推定することができる。

本発明の一実施形態に係る画像処理装置の機能ブロック図である。第２評価基準を説明するための図である。連結行列M₁₂₃に基づく貪欲法によるマッチング手順を示したフローチャートである。マッチング結果の例を示した図である。本実施形態により得られるマッチング結果の例を示した図である。本実施形態による動線生成を従来技術と比較した図である。追跡結果と検出結果との対応関係に応じて追跡中の人物位置に関する尤度計算を異ならせる例を示した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明の一実施形態に係る画像処理装置の機能ブロック図であり、撮像装置から動画像をフレーム単位で取得する画像取得部１０と、取得した各フレーム画像から人物領域を検出する人物検出部２０と、過去フレームから検出した人物領域を追跡結果として記憶する追跡結果記憶部３０と、今回フレームにおける検出結果と前回フレームまでの追跡結果とを比較して人物像の対応付け（マッチング）を行うマッチング部４０と、前記マッチング結果に基づいて各人物の現在位置を推定し、人物動線を生成する動線生成部５０とを主要な構成とする。

前記画像取得部１０が取得するフレーム画像はカメラから取得した撮影シーンのライブ映像であることを想定するが、事前に録画した映像データから取得した画像であっても良い。

本実施形態では、対象となるカメラの内部パラメータ及び外部パラメータが事前にキャリブレーションによって取得されており、基本的に撮影中は変化しないことを想定している。ただし、複数種類のパラメータを事前に用意するか、公知の動的キャリブレーション手法を利用することで、内部パラメータの動的変化（パン・チルト・ズームなどの変化）や移動カメラに適用することも可能である。

人物検出部２０は、前記画像取得部１０が取得したフレーム画像から人物領域およびその足元位置を検出し、その検出結果D=[d₁，d₂…d_Nd]をマッチング部４０へ出力する。本実施形態では、各検出結果d_jが、カメラ画像内で検出されたj番目の人物の人物領域および足元位置により構成される。

足元位置は、撮影シーンを含む三次元空間内の座標で表現され、キャリブレーションによって取得したカメラパラメータを用いて、カメラ画像中のピクセル座標から変換（座標変換）することで取得できる。一般に、三次元空間からカメラ画像への座標変換は「投影」、カメラ画像から三次元空間への座標変換は「逆投影」と呼ばれる。

人物領域の検出は、任意の公知の技術によって実現することが可能である。例えば、特許文献１と同様に、顔識別器等を利用する顔検出技術によって人物の頭部を検出しても良いし、人物識別器等を利用する人物検出技術によって全身の人物領域を検出しても良い。あるいは、特許文献３と同様に、背景差分技術によって動きのある前景領域（人物領域）を抽出しても良い。

足元位置は、カメラ画像中の足元のピクセル座標（例えば、抽出した人物領域の下端の位置）の逆投影で算出できる。あるいは頭部のピクセル座標の逆投影によって頭部の三次元座標を算出し、身長を仮定して足元位置に変換しても良い。あるいは人物領域と足元位置を同時に検出する方法として、三次元空間内に配置した人物モデルの輪郭をカメラ画像に投影し、カメラ画像上で前景領域と類似する輪郭となるように足元位置を調整する方法も適用可能である。

一般に、前景領域には移動中の人物の他にも、扉や窓、移動可能な人工物等が含まれる可能性がある。そのため、人物検出部２０は、抽出された前景領域のうち、識別器のスコアや輪郭の類似度評価等の指標値が高い領域のみを検出結果とすることが望ましい。しかしながら、複数の人物が重なり合い、大きな前景領域として統合されて抽出されることで、実際には複数人の人物領域であるにもかかわらず、識別器のスコアや輪郭の類似度評価が下がり、検出結果に含まれないことが起こり得る。

そこで、本実施形態では人物検出部２０に、人物領域の検出閾値が異なる２つの検出部（第1検出部２０ａおよび第２検出部２０ｂ）を設け、第１検出部２０ａは、人物領域を識別する閾値として、概ね全身が写る人物を確実に検出できる第１閾値を採用する一方、第２検出部２０ｂは、オクルージョン中の人物領域であっても準人物領域として検出できるように、前記第１閾値よりも低い第２閾値を採用し、その検出条件を緩和するようにしている。

前記第１検出部２０ａは、第１閾値に基づいて検出した全ての人物領域d₁，d₂…d_Ndを、検出結果D=[d₁，d₂…d_Nd]としてマッチング部４０へ出力する。前記第２検出部２０ｂは、第２閾値に基づいて検出した全ての準人物領域d^' _1'，d^' _2'… d^' _Nd'を、検出結果D'=[d^' _1'，d^' _2'… d^' _dN']としてマッチング部４０へ出力する。

本実施形態では、検出結果Dと検出結果D'とで検出結果の重複が許容されておらず、検出結果D'の各検出結果d^' _j'は、マッチング部４０において人物間オクルージョン領域と判定された場合（多対一の対応付けが行われた場合）は追跡結果とマッチングされて利用されるが、追跡結果とマッチングされない場合は、検出結果d_jの様に「新たな人物」としては検出されることなく除外される。これにより、誤検出を増加させること無く、人物間オクルージョン時の検出率の低下を防ぐことが可能になる。

マッチング部４０は、第１類似度評価部４０ａ、第２類似度評価部４０ｂおよびマッチング実行部４０ｃを含む。

第１および第２類似度評価部４０ａ，４０ｂは、異なる評価基準を用いて前フレームの追跡結果における各人物領域t_i（以下、単に追跡結果t_iと表現する）と今回フレームから検出した各人物領域d_j（検出結果d_j）との間で固有の類似度評価を行う。マッチング実行部４０ｃは、各評価部４０ａ，４０ｂによる評価結果に基づいて各追跡結果t_iと各検出結果d_jとの対応付けを行う。

前記第１類似度評価部４０ａは、各追跡結果t_iと各検出結果d_jとの全ての組み合わせに関して第１評価基準に基づく類似度S₁(t_i，d_j)を計算し、次式(1)の第１評価行列M₁を構築する。

第１評価基準としては、足元位置の近さ、運動モデルを仮定した各追跡結果t_iの足元の予測位置と各検出結果d_jの足元位置との近さ、人物領域の大きさ、人物領域の画像特徴量の近さ等を組み合わせることで、同一人物である可能性が高いほどスコアが高くなる公知の評価基準の採用を想定しており、例えば特許文献１で採用されている評価基準を採用できる。

第２類似度評価部４０ｂは、各追跡結果t_iと各検出結果d_jとの全ての組み合わせに関して第２評価基準に基づく類似度S₂(t_i，d_j)を計算し、次式(2)の第２評価行列M₂を構築する。

第２類似度評価部４０ｂは、追跡結果t_iと、人物間オクルージョンによって複数の人物領域が統合された検出結果d_jとの対応付けを想定している。したがって、第２評価基準としては、図２に一例を示したように、追跡結果t_iの領域が検出結果d_jの領域内に包含されている割合が高いほどスコアがより高くなるような関数を設定する。このとき、第１評価基準では重要視された、人物領域の大きさやその画像特徴量の近さはさほど重要視されない。

たとえば、追跡結果t_iの領域At_iが検出結果d_jの領域Ad_jに包含される割合[次式(3)の包含率IA]や、運動モデルを仮定した追跡結果t_iの予測領域At_i'が検出結果d_jの領域Ad_jに包含される割合[次式(4)の包含率IB]等を組み合わせることで、人物間オクルージョンが発生した際にスコアが高くなるような類似度S₂(t_i，d_j)が求められる。

なお、前記人物検出部２０において検出結果D'が得られている場合には、前記第２類似度評価部４０ｂは、追跡結果Tと検出結果D'との間でも第２類似度評価を行って類似度S₃(t_i，d^' _j')を求める。その場合、第２類似度評価部４０ｂが構築する第３評価行列M₃は次式(5)の通りとなる。

以上のようにして、第１類似度を要素とする評価行列M₁および第２類似度を要素とする評価行列M₂（本実施形態では、さらに評価行列M₃）が求まると、マッチング部４０では、これらを行方向へ連結して次式(6)の連結行列M₁₂₃=[M₁|M₂|M₃]を構築し、当該連結行列M₁₂₃に基づいて各追跡結果t_iと各検出結果d_jとの対応付けを行う。対応付けには種々のアルゴリズムを採用できるが、ここでは貪欲法を例にして説明する。

以下、図３のフローチャートに沿って前記連結行列M₁₂₃に基づく貪欲法によるマッチング手法を説明する。

ここでは、追跡結果t_jがNt個（t₁，t₂…ｔ_Nt）、第１検出部２０ａにより検出されている人物領域の検出結果d_jがNd個（d₁，d₂…d_Nd）、第２検出部２０ｂにより検出されている人物領域の検出結果d^' _j'がNd'個（d^' _1'，d^' _2'…d^' _Nd'）である場合を例にして説明する。したがって、連結行列M₁₂₃の各要素(t_i，d_j)は、上式(6)に示したように、その列識別子jがj≦Ndであれば評価行列M₁に帰属し、Nd＜j≦2Ndであれば評価行列M₂に帰属し、2Nd＜jであれば評価行列M₃に帰属することになる。

ステップS１では、連結行列M₁₂₃から類似度Sの最大値が探索されて今回の最大類似度Smaxとされる。ステップS２では、最大類似度Smaxと所定の類似度下限値Srefとが比較され、Smax＜Srefであると今回フレームのマッチング処理を終了し、これまでに得られた対応関係を動線生成部５０へ出力する。

これに対して、Smax≧SrefであればステップS３へ進み、最大類似度Smaxが前記評価行列M₁の要素（第１類似度）であるか否かが、当該最大類似度Smaxを与える連結行列M₁₂₃の列番号jmaxに基づいて判断される。

jmax≦Ndであれば、最大類似度Smaxが評価行列M₁の要素と判断されてステップS４へ進み、当該最大類似度Smaxを与える追跡結果t_imaxおよび検出結果d_jmaxが一対一対応のマッチングとして登録される。

ステップS５では、次式(7)に両矢印で示したように、連結行列M₁₂₃において前記最大類似度Smaxを与える要素と同一行の全てM₁₂₃ (imax，＊)および同一列の全てM₁₂₃(＊，jmax)の各類似度が「０」に書き換えられる。

その結果、今回の最大類似度Smaxを与える追跡結果t_imaxが、今後、DおよびD'に含まれる当該検出結果d_jmax以外の他の検出結果と対応付けられる可能性が排除される。これに対して、検出結果d_jmaxに関しては、今後、追跡結果Tに含まれる他の追跡結果と対応付けられる余地が残る。

一方、前記ステップS３において、最大類似度Smaxが評価行列M₁の要素（jmax≦Nd）では無いと判断されるとステップS６へ進み、今度は評価行列M₂の要素（Nd＜jmax≦2Nd）であるか否かが判断される。最大類似度Smaxが評価行列M₂の要素（第２類似度）であればステップS７以降へ進み、当該最大類似度Smaxを与える検出結果d_jmax-Ndのマッチング履歴に基づいて対応付けが行われる。ここで、選択された検出結果d_jmax-Ndをd_maxと定義する。

すなわち、ステップS7では、最大類似度Smaxを与える検出結果d_maxがいずれかの追跡結果t_iと一対一対応のマッチングとして登録済みであるか否かが判定される。例えば、M₂(5，3)すなわちM₁₂₃(5，Nd+3)の要素が最大類似度Smaxとして探索されているとき、M₁₂₃ (3，3)が既に最大類似度Smaxとして探索済みであり、その追跡結果t₃と検出結果d₃とが一対一対応のマッチングとして登録済みであればステップS８へ進む。

ステップS８では、当該一対一対応の登録が解消される。ステップS９では、今回の最大類似度Smaxを与える追跡結果および前記解消された追跡結果と、今回の最大類似度Smaxを与える検出結果とが多対一対応のオクージョン関係として登録される。上記の例であれば、今回の最大類似度Smaxを与える追跡結果t₅および前記解消された追跡結果t₃と、今回の最大類似度Smaxを与える検出結果d₃とが、多(t₃，t₅)対一(d₃)対応のマッチングとして登録される。

ステップＳ１０では、次式(8)に示したように、連結行列M₁₂₃において今回の最大類似度Smaxを与える要素と同一行の全ての要素M₁₂₃(imax，＊)の各類似度が「０」に書き換えられる。その結果、最大類似度Smaxを与える検出結果t_imaxがDおよびD'に含まれる他の検出結果と対応付けられる可能性が排除される。

これに対して、前記ステップS７において、最大類似度Smaxを与える検出結果d_maxが一対一対応としては未登録と判断されるとステップS１１へ進み、最大類似度Smaxを与える追跡結果t_imaxおよび検出結果d_maxが多対一対応のマッチングとして登録される。ステップS１２では、これ以降、検出結果d_maxが他の追跡結果と一対一で対応付けられることが無いように、次式(9)に示したように、連結行列M₁₂₃において最大類似度Smaxを与える要素と同一行の全ての要素M₁₂₃(imax，＊)および行列M1の範囲における同一列（(jmax-Nd)列）の全ての要素M₁(＊，jmax-Nd)すなわち要素M₁₂₃(＊，jmax-Nd)の各類似度が全て「０」に書き換えられる。

さらに、最大値を与える要素(imax，jmax)が評価行列M₂の要素でもない、すなわち前記評価行列M₃の要素（2Nd＜jmax）であると判断されるとステップS１３へ進み、最大類似度Smaxを与える追跡結果t_imaxおよび検出結果d^' _jmax-2Ndが多対一対応のマッチングとして登録される。ここで、d^' _jmax-2Ndをd^' _maxと定義する。ステップS１４では、次式(10)に示したように、連結行列M₁₂₃において最大類似度Smaxを与える要素と同一行の全ての要素M₁₂₃(imax，＊)の各類似度が「０」に書き換えられる。その結果、今回の最大類似度Smaxを与える追跡結果t_imaxがDおよびD'に含まれる他の検出結果と対応付けられる可能性が排除される。

上記の各処理は、前記ステップS２においてSmax＜Srefと判断されるまで、注目する最大類似度Smaxを次に大きい類似度に更新しながら繰り返される。

なお、上記の実施形態では連結行列に第３評価行列M₃を含める場合（連結行列M₁₂₃=[M₁｜M₂｜M₃]）を例にして説明したが、連結行列に第３評価行列M₃を含めないのであれば（連結行列M₁₂=[M₁｜M₂]）、前記ステップＳ６，Ｓ１３，Ｓ１４の各処理は省略できる。

図４にマッチング結果の例を示す。マッチング結果とは、前フレームまでの追跡結果T=[t₁，t₂…t_Nt]と今回クレームにおける検出結果D=[d₁，d₂…d_Nd]およびD'=[d^' _1'，d^' _2'…d^' _Nd']との間の対応付けの情報であり、具体的には以下の５種類である。

(1) 追跡された人物の情報C1であり、一対一で対応付けられた追跡結果t_iと検出結果d_jとの組情報[t_i，d_j]として表現される。図４の例では追跡結果t₁，t₂がそれぞれ検出結果d₁，d₂と対応付けられているので、情報C1は次式(11)で表現される。

(2) 追跡された人物の情報C2であり、オクルージョン領域と判定され、多対一で対応付けられた追跡結果t_iと検出結果d_jとの組情報[t_i，d_j]の集合として表現される。図４の例では追跡結果t₃，t₄がいずれも検出結果d^' ₁と対応付けられているので、情報C2は次式(12)で表現される。

(3) 追跡中に見失った人物の情報T_rであり、追跡結果Tの中でいずれの検出結果d_jとも対応付けられなかった追跡結果t_iの集合として表現される。図４の例では全ての追跡結果がいずれかの検出結果と対応付けられているので、情報T_rは次式(13)で表現される。

(4) 新規に検出された人物の情報D_rであり、検出結果Dの中でいずれの追跡結果t_iとも対応付けられずに残った検出結果d_jの集合として表現される。図４の例では、検出結果d₃が相当するので、情報D_rは次式(14)で表現される。

(5) 準人物の情報D^' _rであり、検出結果D^'の中でいずれの追跡結果t_iとも対応付けられずに残った検出結果d^' _jの集合として表現される。図４の例では全ての検出結果がいずれかの追跡結果と対応付けられているので、情報D^' _rは次式(15)で表現される。

図５は、本実施形態により最終的に得られるマッチング結果の例であり、画面内に人物が１１人存在し、前フレームの追跡結果T=[t₁，t₂…t₁₁]が、人物検出部２０の第１検出部２０ａによる検出結果D=[d₁，d₂，d₃，d₄]および第２検出部２０ｂによる検出結果D'=[d^' ₁，d^' ₂，d^' ₃]と対応付けられている。

図示の例では、検出結果d^' ₂，d^' ₃の各領域は人物間オクルージョンによって複数人物の領域の統合として検出されている。検出結果d^' ₁については人物間オクルージョンが発生していないものの背景が一部前景として誤検出された結果、複数人物の領域の統合として検出されている。

その結果、情報C1として４回の一対一対応（c₁ ¹，c₂ ¹，c₃ ¹，c₄ ¹）が得られており、情報C2として2回の多対一対応（c₁ ²，c₂ ²，c₃ ²）が得られており、いずれも正しいマッチング結果であることが解る。

動線生成部５０は、マッチング部４０が出力するマッチング結果に基づいて、カメラ画像における各人物の足元位置を推定し、その人物動線を生成する。追跡結果t_iおよび検出結果d_jのマッチング結果としては、「一対一対応」、「多対一対応」、「残った検出結果」および「残った追跡結果」が与えられる。

本実施形態では、「一対一対応」の追跡結果t_iおよび検出結果d_jの組み合わせに基づいて、追跡結果t_iの次フレームの位置が検出結果d_jの足元位置に更新される。また、「多対一対応」として対応付けられた複数の追跡結果t_i（t_a，t_b…）および検出結果d_jの組み合わせに基づいて、各追跡結果t_i（t_a，t_b…）の次フレームの位置が検出結果d_jの足元位置に更新される。

「残った検出結果d_j」は、新たな人物として次フレームに追跡結果として登録される。「残った追跡結果t_i」は見失った人物とみなされて動線の継続を終了し、次フレームでは追跡結果から除外される。

なお、本実施形態では「残った追跡結果t_i」に関する情報も引き続き保持し、その後、その画像特徴が「残った検出結果d_j」の画像特徴と類似しているか、あるいは識別器のスコアが所定の基準値よりも高くなると、同一人物とみなして追跡を再開するようにしても良い。その際、空白の動線は補間することができる。このような人物再同定（Person Re-Identification）手法が多数存在し、例えば非特許文献１，２に開示されている。

図６は、本実施形態による追跡結果に基づく動線生成を従来技術と比較した図であり、ここでは、カメラのフレーム画像から同図(a)の検出結果が順次に得られた場合を例にして説明する。

同図(b)の既存手法では、追跡結果t_iと検出結果d_jとが一対一で対応付けられる。その結果、２つの追跡結果が完全に重なり合うフレームが存在すると、一方の人物（一般的には、検出結果との類似度の低い方）が見失われる、いわゆる「ロスト」の状態となる。

その後、人物間オクルージョンが解消すれば、公知の人物認証手法によって追跡が再開されることも期待できるが、同じタイミングで付近に別の人物が検出されると、これが見失った人物と誤認され、異なる人物動線が統合される場合がある。

これに対して、同図(c)に示した本発明の実施形態によれば、複数の追跡結果が一つの検出結果に多対一で対応付けられるので、オクルージョンの発生から解消まで、頑健に個々の人物を追跡することが可能になる。

さらに、本実施形態では評価基準の異なる複数の類似度を参照し、一対一の対応付けと多対一の対応付けとを総合的に評価した対応付けを行うことにより、類似度の高い順に一対一の対応付を優先的に決定する一方、多対一対応の可能性が生じれば先に決定した一対一の対応付を見直すことができる。これにより、一般的な人物追跡と人物間オクルージョンの考慮とを順番に行う構成と比較して、人物識別子（ID）の入れ替わりの少ない正確な追跡が可能になる。

なお、上記の実施形態ではオクルージョン中の人物動線の追跡位置が同じになり、次フレーム以降の追跡でIDが入れ替わり易くなる問題がある。また、人物間オクルージョン中に統合された人物領域から算出された足元位置は一般に誤差が大きく、追跡精度が損なわれる。

このような技術課題を解決するためには、追跡中の人物の現在位置を確率的に計算し、最も尤度の高くなる位置を当該人物の現在位置として動線を更新することが考えられる。非特許文献１，２には、パーティクルフィルタを用いて追跡中の人物の現在の推定位置（パーティクル）を複数生成し、最も尤度の高くなる推定位置（パーティクル）を現在位置として動線を更新する手法が開示されている。

パーティクルの尤度は、対応付けられた検出結果に対する近さや、追跡中の人物画像の画像特徴からオンライン学習した識別器のスコアによって算出されるが、これを本実施形態にそのまま適用すると、人物間オクルージョン中の人物の位置精度が劣化するおそれがある。

そこで、本実施形態では追跡結果と検出結果とが一対一対応および多対一対応のいずれで対応付けられているのかに応じて、追跡中の人物位置に関する尤度計算を異ならせるようにしている。

すなわち、追跡結果と検出結果とが一対一で対応付けられていれば、第１尤度計算部５０ａが既存方式と同様の手順で各推定位置について第1の尤度を計算し、当該第１の尤度が最も高くなる推定位置を当該人物の現在位置（新たな追跡結果）として動線を更新する。

これに対して、人物間オクルージョンと判定されて追跡結果と検出結果とが多対一で対応付けられていれば、第２尤度計算部５０ｂが第１の尤度とは基準の異なる第２の尤度を各推定位置について計算し、当該第２の尤度が最も高くなる推定位置を現在位置（新たな追跡結果）として動線を更新する。

このような第２の尤度としては、後に詳述するように、各追跡結果について、同一の検出結果に対して人物間オクルージョン中の別の人物の最新の領域と、自身の領域との統合領域を算出し、対応付けられた検出結果の人物領域との類似度SAを尤度として採用することができる。

あるいは、対応付けられた統合領域に対する自身の領域の包含率SBを尤度としても良いし、任意の重みを付けて組み合わせた値SA+αSBを尤度としても良い。他にも、急激な位置変化を避けるための、前フレームからの距離の近さSC等も組み合わせることが可能である。

図7は、一対一で対応付けを行った場合の第１の尤度に基づく足元位置推定[同図(a)]および多対一で対応付けを行った場合の第２の尤度に基づく足元位置推定[同図(b)]の各概念を模式的に示した図である。

同図(a)に示したように、追跡結果t₁と検出結果d₁とが一対一で対応付けられていると、前記第１尤度計算部５０ａは、第１の尤度が最も高くなる足元の推定位置p^' _t1を求め、これを追跡結果t₁の現在位置（足元位置）として動線を更新する。

第１の尤度としては、検出結果d₁の足元位置p_d1と各推定位置との近さや、検出結果d₁の領域A_d1と各推定位置に対応する領域A_t1との重複率等を利用できる。

これに対して、同図(b)に示したように、追跡結果t₂、t₃と検出結果d₂とが多対一で対応付けられていると、第２尤度計算部５０ｂは、追跡結果t₂、t₃に関して第２の尤度が最も高くなる足元の推定位置p^' _t2、p^' _t3を求め、これを各追跡結果t₂、t₃の現在位置（足元位置）として動線を更新する。

第２の尤度としては、各推定位置p^' _t2、p^' _t3に対応する領域A^' _t2、A^' _t3の統合領域(A^' _t2∪A^' _t3)を算出し、その凸包領域（次式(16)）A^' _c1 ²と検出結果d₂の領域A_d2との重複率等を利用できる。

このように、本実施形態では追跡結果と検出結果とが一対一対応および多対一対応のいずれで対応付けられているのかに応じて、追跡中の人物の現在位置に関する尤度計算を異ならせ、特に多対一対応では統合領域に基づいて現在の足元位置が推定されるので、人物間オクルージョン中の個々の人物の足元位置をより高精度に推定することができる。

パーティクルフィルタを用いる場合、各パーティクル（人物位置）の尤度は、一対一で対応付けられた人物については第１の尤度で、多対一で対応付けられた人物については第２の尤度で算出しても良い。これによって、オクルージョン中の人物の位置を高精度に推定することが可能になる。

なお、上記の実施形態では連結行列が評価行列M₁，M₂のみならずM₃も含むものとして説明したが、本発明はこれのみに限定されるものではなく、第１類似度を要素とする評価行列M₁および第２類似度を要素とする評価行列M₂が連結されていれば十分である。

１０…画像取得部，２０…人物検出部，２０ａ…第１検出部，２０ｂ…第２検出部，３０…追跡結果記憶部，４０…マッチング部，４０ａ…第１類似度評価部，４０ｂ…第２類似度評価部，４０ｃ…マッチング実行部，５０…動線生成部，５０ａ…第１尤度計算部，５０ｂ…第２尤度計算部

Claims

映像フレームから所定の指標値が第１閾値を超える領域を人物領域として検出する手段と、
過去フレームの追跡結果と人物領域の検出結果とのマッチングを行う手段と、
前記マッチングの結果に基づいて前記検出結果を追跡結果として更新登録することをフレーム単位で繰り返すことで人物動線を生成する手段とを具備し、
前記マッチングを行う手段が、
追跡結果と検出結果との組み合わせごとに第１評価基準に基づく第１類似度を計算する手段と、
追跡結果と検出結果との組み合わせごとに前記第１評価基準とは異なる第２評価基準に基づく第２類似度を計算する手段と、
最大類似度を与える追跡結果および検出結果の組み合わせから順に、当該最大類似度が第１類似度であれば一対一対応のマッチングとして登録し、第２類似度であれば多対一対応のマッチングとして登録する手段とを具備し、
前記第２評価基準は、人物間オクルージョン中の可能性が高い組み合わせほど第２類似度が高くなるように設定されたことを特徴とする画像処理装置。
前記第２評価基準は、人物領域の検出結果が追跡結果を包含する割合が高いほど第２類似度が高くなるように設定されたことを特徴とする請求項１に記載の画像処理装置。
前記第１評価基準は、追跡結果と検出結果とが同一人物である可能性が高いほど第1類似度が高くなるように設定されたことを特徴とする請求項１または２に記載の画像処理装置。
前記登録する手段は、最大類似度を第２類似度として与える検出結果が既に他の追跡結果と一対一対応のマッチングとして登録済みであると当該登録を解消し、前記最大類似度を第２類似度として与える追跡結果および前記登録を解消された追跡結果と前記最大類似度を第２類似度として与える検出結果とを多対一対応のマッチングとして登録することを特徴とする請求項１ないし３のいずれかに記載の画像処理装置。
映像フレームから所定の指標値が前記第１閾値よりも低く第２閾値よりも高い領域を準人物領域として検出する手段と、
追跡結果と準人物領域の検出結果との組み合わせごとに前記第２評価基準に基づく第３類似度を計算する手段とをさらに具備し、
前記登録する手段は、最大類似度を第３類似度として与える追跡結果および検出結果の組み合わせを多対一対応のマッチングとして登録することを特徴とする請求項１ないし４のいずれかに記載の画像処理装置。
前記人物動線を生成する手段は、パーティクルフィルタを用いて生成した各人物の現在位置としての複数の現在推定位置のうち、尤度のより高い推定位置を現在位置として採用し、
前記尤度として、追跡結果および検出結果の対応関係が一対一対応であれば第１の指標に基づいて第１尤度を計算する手段、および多対一対応であれば前記第１の指標とは異なる第２の指標に基づいて第２尤度を計算する手段を具備したことを特徴とする請求項１ないし５のいずれかに記載の画像処理装置。
前記人物動線を生成する手段は、各人物領域の現在位置として、その足元位置に基づいて計算される尤度が最も高い推定位置を採用し、前記マッチング結果が一対一対応および多対一対応のいずれであるかに応じて尤度の算出方法を異ならせたことを特徴とする請求項１ないし６のいずれかに記載の画像処理装置。
前記人物動線を生成する手段は、前記マッチング結果が多対一対応であると、各人物領域の各推定位置に対応した統合領域と検出結果の領域との重複率を用いて尤度を計算することを特徴とする請求項７に記載の画像処理装置。
前記人物動線を生成する手段は、前記マッチング結果が一対一対応であると、各人物領域の推定位置と検出結果の推定位置との近さ、および推定位置に対応した領域と検出結果の領域との重複率を用いて尤度を計算することを特徴とする請求項８に記載の画像処理装置。