JP2019016098A

JP2019016098A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2019016098A
Application number: JP2017131970A
Authority: JP
Inventors: 尚志中本; Hisashi Nakamoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2019-01-31

Abstract

【課題】撮像の環境や状況の変化にかかわらず、オブジェクトの追跡における精度の低下を抑制して適切にオブジェクトを追跡する。【解決手段】情報処理装置は、撮像装置により撮像された画像からオブジェクトを検出する検出手段と、前記検出手段により検出された前記オブジェクトから複数の特徴量を抽出する抽出手段と、前記抽出手段により抽出された前記オブジェクトの前記複数の特徴量と、検索対象のオブジェクトの複数の特徴量とをそれぞれ照合する照合手段と、前記照合手段による複数のオブジェクトについての照合結果に基づいて、前記照合手段が特徴量を照合するのに用いられるべき、前記複数の特徴量の間の重み付けを導出する導出手段と、を備える。【選択図】図３

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

従来、街角や空港などの広域に設置された複数のカメラで撮像された映像を、ネットワーク経由で受信して映像中の人物を追跡する各種システムが提案されている。これらのシステムにおいて、複数のカメラに亘って映像中の人物を追跡するため、あるカメラで撮像された画像中の人物を他のカメラで撮像された画像中でも同定する技術がある。
それぞれのカメラの画像から取得された人物の特徴量を抽出し、抽出された特徴量同士を照合して、類似度が高い人物を同一人物と見做すことにより、画像中の人物を同定することができる。

特許文献１は、追跡対象人物の第一の特徴データと、複数の監視カメラのいずれかで撮像された画像中の人物の第二の特徴データとを照合し、この照合結果に基づいて画像中の人物が追跡対象人物である確度を計算する人物追跡システムを開示する。具体的には、この人物追跡システムは、追跡対象人物の複数の特徴（肌の色、服装の色、体型等）から、重視すべき特徴を、表示画面を介してユーザに選択指定させて、人物の照合処理を起動する。特許文献１記載の技術によれば、この照合処理の結果、確度の閾値を超えた人物を画面上に強調表示し、表示された人物が追跡対象人物であるか否かをユーザに判断させることにより、追跡対象人物の位置情報を記憶装置に記憶して人物の同定処理を実行する。

特許文献２は、検索対象画像と、録画された画像との間で、画像に撮像された人物の同一性を判断する監視システムを開示する。具体的には、この監視システムは、録画された複数の画像から求められる人物の特徴として、撮影時刻情報、撮影位置情報、顔特徴量、および着衣情報（着衣特徴量）をそれぞれ算出して記憶する。人物の同一性判断において、これら撮影時刻情報、撮影位置情報、および着衣情報のうち、いずれに対応する重み値を用いるかを、ユーザに選択入力させる。特許文献２記載の技術によれば、ユーザが入力した複数の特徴の組み合わせ（時刻＋着衣、時刻＋位置等）に対応して予め設定された重み設定値が、検索対象画像と録画された画像との間での顔特徴量の差分に与えられることにより、人物の同一性が判断される。

特開２００９−９８７７４号公報特開２００９−１９９３２２号公報

このような人物の同定処理においては、顔の特徴量の他、服装、歩容、体型などの特徴を数値化した特徴量を使用することができる。
しかしながら、このような人物の複数の特徴量は、常に一定の値が期待できるとは限らない。すなわち、空港、駅、展示会などの環境や、早朝、昼間、夜間などの状況等の変化によって、人物の同定処理に用いられるべき人物の特徴量に偏りが生じる場合がある。その具体例を以下に説明する。
例えば、人物の服装の特徴量を用いる場合、早朝の駅ではスーツ姿の人物が多いが、昼間の駅になるとスーツ姿の人物は少なくなるといった服装の偏りが、状況（時間帯）の変化により生じる。

また、人物の歩容の特徴量を用いる場合、駅の周辺ならば人物の歩容が早くなる傾向があるが、繁華街になると人物の歩容が遅くなる傾向があり、環境（撮像領域）の変化により歩容の傾向も変化する。
このように、環境や状況の変化により人物の特徴量に偏りが生じると、これらの特徴量を重み付けに用いて実行される人物等のオブジェクトの同定処理の精度を低下させてしまうおそれがある。
本発明は上記課題に鑑みてなされたものであり、その目的は、撮像の環境や状況の変化にかかわらず、オブジェクトの追跡における精度の低下を抑制して適切にオブジェクトを追跡することの可能な情報処理装置、情報処理方法を提供することにある。

上記課題を解決するため、本発明に係る情報処理装置のある態様によれば、撮像装置により撮像された画像からオブジェクトを検出する検出手段と、前記検出手段により検出された前記オブジェクトから複数の特徴量を抽出する抽出手段と、前記抽出手段により抽出された前記オブジェクトの前記複数の特徴量と、検索対象のオブジェクトの複数の特徴量とをそれぞれ照合する照合手段と、前記照合手段による複数のオブジェクトについての照合結果に基づいて、前記照合手段が特徴量を照合するのに用いられるべき、前記複数の特徴量の間の重み付けを導出する導出手段と、を備える情報処理装置が提供される。

本発明によれば、撮像の環境や状況の変化にかかわらず、オブジェクトの追跡における精度の低下を抑制して適切にオブジェクトを追跡することができる。

本発明の各実施形態に係るオブジェクト追跡システムのシステム構成の一例を示す図。本発明の各実施形態に係る情報処理装置のハードウエア構成の一例を示す図。本発明の各実施形態に係る情報処理装置の機能構成の一例を示す図。情報処理装置の表示装置上に出力される人物検索画面の一例を示す図。図４の人物検索画面において人物検索が指示された場合の人物検索の結果表示画面の一例を示す図。図５の人物検索の結果表示画面において重み付け補正結果確認が指示された場合の人物の特徴量の重み付け補正結果の表示画面の一例を示す図。情報処理装置の記憶装置に記憶され人物同定部が参照するテーブルの一例を示す図。実施形態１に係るオブジェクト追跡処理の処理手順の一例を示すフローチャート。実施形態２に係るオブジェクト追跡処理の処理手順の一例を示すフローチャート。

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

（実施形態１）
本実施形態においては、監視カメラ等の撮像装置により撮像された画像から人物を検出し、検出された人物の複数の特徴量を記憶し、それぞれの特徴量について、当該特徴量に対応する重み付け値に基づき特徴量を算出することにより、人物を同定する。
具体的には、本実施形態では、画像から検出された人物について記憶された複数の特徴量と、検索対象人物の複数の特徴量とをそれぞれ照合する。さらに、複数の人物についての照合結果に基づいて、特徴量を照合するのに用いられるべき、複数の特徴量の間の重み付けを導出する。この重み付けは、複数の特徴量の間で最適化された重み付けであり、本実施形態において人物を同定する際に使用される初期値として設定する。これにより、撮像の環境や状況の変化にかかわらず、オブジェクトの追跡における精度の低下を抑制して適切にオブジェクトを追跡することができる。

本実施形態において、「人物を同定する」とは、ある監視カメラによって撮像された人物と、他の監視カメラによって撮像された人物とを対応付けて同一人物と見做すことを含む。また、「人物を同定する」とは、ある監視カメラによって所定の時点に撮像された人物と、当該監視カメラによって所定の時点より後に撮像された人物とを対応付けて同一人物と見做すことも含む。

また、本実施形態において、「追尾」とは、１つの監視カメラにおいて、あるフレームの画像において検出した人物と、別のフレームの画像において検出した人物とを、画像の特徴と画像間での位置関係とから対応付ける処理をいう。また、「追跡」とは、追尾の他、ある監視カメラの画像において検出した人物と、他の監視カメラの画像において検出した人物とを、画像の特徴と画像間での位置関係とから対応付ける処理を含むものとする。
なお、以下、本実施形態では、撮像された画像から人物を検出し、検出された人物を追尾する場合を例として説明するが、本実施形態はこの場合に限定されず、他のオブジェクト、例えば、自動車等の車両、動物等の移動体等に適用することが可能である。

＜本実施形態のシステム構成＞
図１は、本実施形態に係るオブジェクト追尾システムのシステム構成の一例を示す図である。
図１において、オブジェクト追尾システム１は、情報処理装置２と、監視カメラ３、監視カメラ４、および監視カメラ５とを備える。情報処理装置２と、監視カメラ３〜５のそれぞれとは、ネットワーク６を介して接続され、相互に情報の授受を行う。
監視カメラ３〜５は、それぞれ、例えば街角や空港などで壁面や天井等に設置される撮像装置であり、撮像画像を取得して、ネットワーク６を介して情報処理装置２へ撮像画像を送信する。
情報処理装置２は、各監視カメラ３〜５で撮像された撮像画像に基づいて、複数の監視カメラ間あるいは１台の監視カメラ内に出現した人物を同定する装置として機能する。
なお、図１には監視カメラ３〜５が図示されているが、本実施形態における監視カメラの数は任意であり、３台に限定されるものではない。また、情報処理装置２の機能の一部または全部が、監視カメラ３〜５のいずれかに実装されてもよい。

図２は、情報処理装置２のハードウエア構成の一例を示すブロック図である。
図２において、情報処理装置２は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、ＨＤＤ２４、入力装置２５、表示装置２６、ネットワークＩ／Ｆ２７、およびバス２８を備える。
ＣＰＵ２１は、情報処理装置２の各部における演算や論理判断等の処理を行う演算処理部であり、バス２８を介して情報処理装置２の各構成部を制御する。情報処理装置２の機能や処理は、ＣＰＵ２１が、ＲＯＭ２２やＲＡＭ２３に格納されているプログラムを読み出し、このプログラムを実行することにより実現されてよい。これにより、後述する図３に示されるソフトウエア構成および図８に示されるフローチャートの処理等が実現される。

ＲＯＭ２２は、例えばＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の電気的に消去可能な不揮発性メモリで構成され、プログラムを実行するのに必要なデータを格納する。
ＲＡＭ２３は、ＣＰＵ２１の主メモリとして機能する揮発性メモリであり、一時的なデータを記憶する。
ＨＤＤ２４は、ハードディスクドライブ（ＨＤＤ）等の書き換え可能な二次記憶装置である。このＨＤＤ２４には、監視カメラ３〜５により撮像された画像情報、各種設定情報等が記憶される。これらの情報は、ＲＡＭ２３に転送され、ＣＰＵ２１がプログラムを実行する際に利用される。
入力装置２５は、マウス入力、キーボード入力、タッチ入力等の各種ユーザインタフェースを介して、ユーザからの入力を司るデバイスである。
表示装置２６は、例えばディスプレイであり、ユーザに対してオブジェクト追跡処理の実行結果等を表示出力する。

ネットワークＩ／Ｆ２７は、情報処理装置２と、監視カメラ３〜５を含む外部機器との間の無線または有線の通信インタフェースを提供する。この無線通信は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＺｉｇＢｅｅ（登録商標）、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）等の無線ＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）を含む。また、Ｗｉ−Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）（登録商標）等の無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や、ＷｉＭＡＸ（登録商標）等の無線ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）を含む。さらに、ＬＴＥ／３Ｇ等の無線ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）を含む。

また、ネットワークＩ／Ｆ２７は、有線のＬＡＮで監視カメラ３〜５等の外部機器と通信してもよい。この有線ＬＡＮとしては、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）等の通信規格に準拠する複数のルータ、スイッチ、ケーブル等の構成が挙げられる。なお、ネットワークＩ／Ｆ２７は、外部機器と通信可能であればよく、通信の規格、規模、構成は上記に限定されない。
バス２８は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、ＨＤＤ２４、入力装置２５、表示装置２６、およびネットワークＩ／Ｆ２７を相互に接続して各種情報の入出力を行う。

一方、監視カメラ３〜５は、それぞれ、撮像部、ネットワークＩ／Ｆ、ＣＰＵ、および記憶部を備える。
撮像部は、撮像光学系を構成するレンズ群及び撮像素子を備える。レンズ群は、入射光を結像するための光学レンズを有し、入射光を撮像素子に集光させる。撮像素子は、光をアナログ画像信号に変換する素子であり、例えば、ＣＣＤ、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）等で構成することができる。撮像部１０１は、撮像素子から得られるアナログ画像信号に画像処理を施し、信号を符号化して符号化画像信号を出力する。

ネットワークＩ／Ｆは、図２に示す情報処理装置２のネットワークＩ／Ｆ２７と同様の構成を備え、監視カメラ３〜５のそれぞれと、情報処理装置２を含む外部機器との間の無線または有線の通信インタフェースを提供する。
ＣＰＵは、図２に示す情報処理装置２のＣＰＵ２１と同様の構成を備え、監視カメラ３〜５の各部における演算や論理判断等の処理を行う演算処理部である。
記憶部は、図２に示すＲＯＭ２１、ＲＡＭ２３、およびＨＤＤ２４の一部または全部と同様の構成を備え、ＣＰＵが使用する各種情報、および撮像部により撮像された撮像画像を記憶する。

＜本実施形態の機能モジュール構成＞
図３は、本実施形態に係る情報処理装置２の機能モジュール構成の一例を示すブロック図である。
図３において、情報処理装置２は、画像取得部３０１、人物検出追尾部３０２、識別器３０３、特徴量抽出部３０４、顔特徴量判定部３０５、服装特徴量判定部３０６、歩容特徴量判定部３０７、および体型特徴量判定部３０８を備える。情報処理装置２はさらに、特徴量更新部３０９、特徴量管理部３１０、信頼度算出部３１１、人物同定部３１２、および出力部３１３を備える。

図３に示す各機能モジュールは、ソフトウエアまたはハードウエアによって実現される。ソフトウエアによって実現される場合、後述する各機能モジュールの機能を提供するためのプログラムがＲＯＭ等のメモリに記憶され、ＲＡＭに読み出してＣＰＵ２１が実行することにより、それら機能モジュールの機能が実現される。一方、ハードウエアにより実現される場合、例えば、所定のコンパイラを用いることで、各機能モジュールの機能を実現するためのプログラムからＦＰＧＡ上に自動的に専用回路を生成すればよい。ＦＰＧＡとは、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。また、ＦＰＧＡと同様にしてＧａｔｅＡｒｒａｙ回路を形成し、ハードウエアとして実現するようにしてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現するようにしてもよい。なお、図３に示した機能ブロックの構成は一例であり、複数の機能ブロックが１つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。

画像取得部３０１は、ネットワークＩ／Ｆ２７を介して、監視カメラ３〜５から撮像画像を取得し、取得した撮像画像を人物検出追尾部３０２に供給する。
人物検出追尾部３０２は、画像取得部３０１により取得された撮像画像から、人物を検出する。具体的には、人物検出追尾部３０２は、識別器３０３を使用して、撮像画像中の人物の位置座標およびサイズ情報を求めることにより、人物を検出する。
識別器３０３は、例えばＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）などの機械学習を使用して人物の画像特徴を学習した識別器である。
なお、人物検出追尾部３０２および識別器３０３による人物の検出処理はＳＶＭを用いるものに限定されるものではなく、例えば、パターンマッチングなどにより撮像画像から人物を検出してもよい。

人物検出追尾部３０２は、さらに、識別器３０３を使用して検出された人物の情報に基づいて、検出された人物を追尾する。
ここで、人物の検出に失敗して、現在の画像に別フレームの画像において検出した人物を対応付けられない場合、人物検出追尾部３０２は、カルマンフィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）等の移動予測を用いて、対応付けの結果を補完することができる。なお、所定期間以上や、対応付け可能な人物がいない場合、人物検出追尾部３０２は、追尾処理を終了する。
追尾処理において、人物検出追尾部３０２は、複数フレームの間で対応付けた人物に、それぞれ一意の識別子（ＩＤ）を付与する。そして、人物検出追尾部３０２は、人物検出および追尾処理の結果得られた対象人物のＩＤ、位置座標、サイズ情報、画像取得時刻、監視カメラを示す情報を含む情報を、人物情報として、特徴量抽出部３０４に供給する。対応付けられた人物の人物情報は、図７で示す人物情報テーブル（後述する）として、ＨＤＤ２４に保存される。

特徴量抽出部３０４は、人物検出追尾部３０２から供給される人物情報に含まれる人物の位置座標に基づいて、画像における人物領域から特徴量を抽出する。ここで抽出される人物の特徴量は、撮像画像中から人物として検出された人物領域内から抽出された色、輝度、エッジ等を含む。特徴量抽出部３０４は、これら色、輝度、及びエッジのうちの少なくともいずれかを特徴量としてもよいし、これらを任意に組み合わせたものを特徴量としてもよい。また、特徴量抽出部３０４によって抽出される特徴量は、色、輝度、エッジ等をヒストグラムとして表したものであってよい。

本実施形態において、特徴量抽出部３０４は、人物領域全体の特徴量の他、１の人物についての複数の特徴量として、人物検出追尾部３０２によって検出された人物の複数の部位ないし要素の特徴量を抽出してもよい。ここで、特徴量が抽出されるべき人物の部位は、顔、服装、歩容、体型等を含む。それぞれの部位の特徴量を抽出するには、特徴量抽出部３０４は、後述する顔特徴量判定部３０５、服装特徴量判定部３０６、歩容特徴量判定部３０７、および体型特徴量判定部３０８と協働してもよい。

特徴量を抽出するには、形状特徴であるＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ（ＬＢＰ）特徴量やＨｉｓｔｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ（ＨＯＧ）特徴量を用いることができる。あるいは、ガボール（Ｇａｂｏｒ）フィルタやシュミット（Ｓｃｈｍｉｄ）フィルタを用いて抽出したテクスチャ特徴を用いることもできる。特徴量抽出部３０４は、識別器として、サポートベクタマシーン（ＳＶＭ）等の手法を用いた識別器３０３を使用して特徴量を抽出することができる。

特徴量抽出部３０４は、抽出された人物の特徴量と使用した識別器３０３の出力情報とを、人物検出追尾部３０２で得られている人物のＩＤに関連付ける。さらに、特徴量抽出部３０４は、これら関連付けられた人物のＩＤ、人物の特徴量、および使用された識別器３０３の情報とを、顔特徴量判定部３０５、服装特徴量判定部３０６、歩容特徴量判定部３０７、および体型特徴量判定部３０８へそれぞれ供給する。

顔特徴量判定部３０５は、人物検出追尾部３０２における識別器３０３を使用して、人物検出追尾部３０２により検出された人物の顔の検出結果と、特徴量抽出部３０４を介して抽出された人物の顔の特徴量とを対応付け、人物の顔を判定する。
服装特徴量判定部３０６は、人物検出追尾部３０２における識別器３０３を使用して、人物検出追尾部３０２により検出された人物の服装の検出結果と、特徴量抽出部３０４を介して抽出された人物の服装の特徴量とを対応付け、人物の服装を判定する。

歩容特徴量判定部３０７は、人物検出追尾部３０２における識別器３０３を使用して、人物検出追尾部３０２により検出された人物の歩容の検出結果と、特徴量抽出部３０４を介して抽出した人物の歩容の特徴量とを対応付け、人物の歩容を判定する。
ここで、歩容とは、人物の姿勢および四肢の歩行や走行における運動形態をいう。
体型特徴量判定部３０８は、人物検出追尾部３０２における識別器３０３を使用して、人物検出追尾部３０２により検出された人物の体型の検出結果と、特徴量抽出部３０４を介して抽出した人物の体型の特徴量とを対応付け、人物の体型を判定する。

これら人物の特徴量、人物の顔の特徴量、人物の服装の特徴量、人物の歩容の特徴量、および人物の体型の特徴量は、それぞれ特徴量更新部３０９へ供給される。
特徴量更新部３０９は、特徴量抽出部３０４により抽出された人物の特徴量を更新する。具体的には、特徴量抽出部３０４からの特徴量、顔特徴量判定部３０５からの顔特徴量、服装特徴量判定部３０６からの服装特徴量、歩容特徴量判定部３０７からの歩容特徴量、および体型特徴量判定部３０８からの体型特徴量により、人物の特徴量を更新する。

特徴量更新部３０８は、人物の特徴量が過去に得られていない場合、現在得られている特徴量を人物のＩＤと関連付けて、特徴量管理部３１０に供給する。一方、特徴量更新部３０８は、人物の特徴量が過去に得られている場合、同一ＩＤの人物について過去に得られた人物の特徴量を現在得られている特徴量で更新する。
特徴量管理部３１０は、特徴量更新部３０９による更新処理によって更新された人物の特徴量を、顔特徴量、服装特徴量、歩容特徴量、体型特徴量等の特徴量ごとに、ＨＤＤ２４等の記憶装置に記憶して管理する。

信頼度算出部３１０は、特徴量管理部３０９により管理されている特徴量のそれぞれに対して、信頼度を計算する。本実施形態において、「信頼度」とは、特徴量更新部３０８により更新された特徴量により人物を同定する処理において、当該人物の同定に成功する確率を示す数値である。言い換えると、人物の同定に成功する確度を表した数値であり、値が大きいほど同定する成功確率が高いことを示す。
例えば、服装特徴量については、色のカラーマッチングで人物の服装の判定をしており、抽出された色の輝度精度が高いほど信頼度は高く算出される。

人物同定部３１２は、人物検出追尾部３０２により検出された人物の特徴量を、追尾（検索）対象の人物の特徴量と照合することにより、人物を同定する。
本実施形態において、人物同定部３１２は、人物の複数の特徴量、すなわち顔特徴量、服装特徴量、歩容特徴量、および体型特徴量を、検索対象の人物の複数の特徴量とをそれぞれ照合することにより、照合結果を出力部を介して表示装置２６に出力させる。人物同定部３１２は、表示装置２６に出力された照合結果から、ユーザにより選択入力された１または複数の人物を追尾（検索）対象人物として同定する。具体的には、人物同定部３１２は、人物の特徴量を特徴量管理部３１０から読み出し、検出された人物と検索対象の人物との人物間距離を算出することにより両者の類似性を算出し、算出された類似性に基づいて人物を同定する。

この人物間距離を算出するには、ユークリッド（Ｅｕｃｌｉｄｅａｎ）距離や、マハラノビス（Ｍａｈａｌａｎｏｂｉｓ）距離を予め学習しておく等の方法を使用することができる。あるいは、人物同定部３１２は、人物間距離以外にも人物間の類似性を示す種々の値を用いて人物を同定してもよい。
人物同定部３１２は、特徴量の値が近いほど人物間距離が近くなるように、人物間距離の値を求める。人物同定部３１２は、算出された人物間距離を所定の閾値と比較し、閾値以内の人物間距離であれば、同一人物と判断する。そして、人物同定部３１２は、算出された人物間距離および人物の同定情報を出力部３１３に供給する。
出力部３１３は、人物が同定された結果を表示装置２６に表示させるよう表示制御することでユーザへ提示する。

＜人物検索処理および重み付け算出処理＞
ここで、図４ないし図６を参照して、本実施形態における追尾対象の人物検索のＧＵＩを介した人物検索処理およびこれに使用される複数の特徴量の重み付けの算出処理の詳細を説明する。
図４は、情報処理装置２の表示装置２６に表示出力される人物検索のＧＵＩの一例を示す図である。
図４において、人物検索画面４０１は、複数の監視カメラ３〜５からのライブ映像を表示するとともに、追尾すべき人物の検索のため、特徴量の重み付けを設定する画面の一例を示す。

具体的には、図４の人物検索画面４０１中の監視カメラ映像４０２、４０３、および４０４は、情報処理装置２に接続される監視カメラ３〜５からのライブ映像をそれぞれ表示している。監視カメラ３〜５は、それぞれ情報処理装置２に接続されるとともに、その動きを画面上で確認可能である。
なお、図４において、監視カメラ映像４０４が監視カメラ映像４０２および４０３に対して大きく表示されているが、これはユーザが注視すべき映像を見やすくするためであり、各カメラの映像の出力先や表示サイズはユーザが自由に切り替え可能である。

図４右上の重みづけ設定ウィンドウ４０５は、人物に現在設定されている各特徴量の重み付けを表している。具体的には、顔特徴量重み付け値４０６は、顔の特徴量の重み付け値を示し、現在は０．２に設定されている。服装特徴量重み付け値４０７は、服装の特徴量の重み付け値を示し、現在は０．２に設定されている。
歩容特徴量重み付け値４０８は、歩容の特徴量の重み付け値を示し、現在は０．３に設定されている。体型特徴量重み付け値４０９は、体型の特徴量の重み付け値を示し、現在は０．３に設定されている。

なお、これら複数の特徴量の重み付け値は、全てを足すと１になっているように設定されている。このため、例えば、顔特徴量重み付け値４０６は、情報処理装置２が、同定処理のために２０％の重み付けで顔特徴量を使用することを示す。
すなわち、重み付け設定ウィンドウ４０５に表示されている各重み付け値は以下の式から求めることができ、各特徴量の重み付け値の和が一定の値となるよう求められる。
重み付け値＝顔特徴量の重み付け値＋服装特徴量の重み付け値＋歩容特徴量の重み付け値＋体型特徴量の重み付け値=１（式１）

図４右下の検索対象画像４１０は、ユーザが設定した検索対象の人物の画像を示す。この検索対象画像４１０には、人物同定のための検索対象となる人物の画像が表示される。
参照ボタン４１１は、検索の対象となる入力画像をユーザに指定させる。情報処理装置２は、検索対象画像４１０のデータについて、顔、服装、歩容、体型の特徴量を特徴量抽出部３０４を介してそれぞれ抽出する。歩容の特徴量を抽出する場合は、静止画では特徴量を計算できないため、歩容特徴量抽出のための動画を参照ボタン４１１経由でユーザに指定させればよい。
検索ボタン４１２は、検索対象画像４１０のデータに基づいて、人物検索処理を実行させる。この人物検索処理の詳細は後述する。

図５は、図４の人物検索画面４０１において検索が指示された人物の検索結果画面の一例を示す。この検索結果画面５０１は、情報処理装置２による人物の検索結果、すなわち、検索対象人物の複数の特徴量と、特徴量管理部３１０から供給される複数の特徴量との照合結果を示す。検索ボタン４１２を押下することで図４の人物検索画面から図５の検索結果画面５０１へ画面遷移する。
図５右上の検索対象画像５０２は、検索対象人物の画像と当該検索対象人物の各特徴量を示す。図５の検索対象画像５０２は図４の検索対象画像４１０と同一である。この検索対象画像５０２の人物の各特徴量は、図４で検索ボタン４１２を押下したタイミングで、特徴量管理部３１０により管理されている各特徴量の算出結果を表示している。具体的には、顔特徴量５０３は顔特徴量判定部３０５により、服装特徴量５０４は服装特徴量判定部３０６により、それぞれ特徴量抽出部３０４を介して算出された結果を表示する。同様に、歩容特徴量５０５は歩容特徴量判定部３０６により、体型特徴量５０６は体型特徴量判定部３０８により、それぞれ特徴量抽出部３０４を介して算出された結果を表示する。

さらに、検索結果画面は、総合特徴量５０７を表示する。この総合特徴量５０７は、特徴量更新部３０９により、重み付け設定ウインドウ４０５の各重み付け値４０６〜４０９を対応する各特徴量５０３〜５０６にそれぞれ乗算して加算することにより計算される。
すなわち、総合特徴量５０７は、各特徴量５０３〜５０６に各重み付け値４０６〜４０９をそれぞれ付加して、人物ごと総合（統合）して得られるものであり、例えば以下の式から求めることができる。
総合特徴量＝顔特徴量×顔重み付け値＋服装特徴量×服装重み付け値＋歩容特徴量×歩容重み付け値＋体型特徴量×体型重み付け値（式２）

順位５０８は、複数の人物検索結果中の特徴量によるスコア順位を示す。図５では、特徴量のスコアの一番高いものを左として、１〜５までのスコアの順位を示しており、検索された人物画像の下に特徴量のスコアを表示している。
なお、本実施形態では特徴量をスカラとして扱うものとする。この特徴量のスコアは、検索対象画像５０２に対するそれぞれの検索結果の人物画像の類似度を示すものであり、図５では、最大値を１０００とする指標で示されている。
顔順位５０９は、顔の特徴量で、検索対象画像５０２の人物と検出された人物とを比較した結果を示す。具体的には、顔順位５０９では、検索対象画像の顔特徴量５０３と近似する顔特徴量を有する複数の人物画像を順位順に並べている。

服装順位５１０は、服装の特徴量で、検索対象画像５０２の人物と検出された人物とを比較した結果を示す。具体的には、服装順位５１０では、検索対象画像の服装特徴量５０４と近似する服装特徴量を有する複数の人物画像を順位順に並べている。
歩容順位５１１は、歩容の特徴量で、検索対象画像５０２の人物と検出された人物とを比較した結果を示す。具体的には、歩容順位５１１では、検索対象画像の歩容特徴量５０５と近似する歩容特徴量を有する複数の人物画像を順位順に並べている。
同様に、体型順位５１２は、体型の特徴量で、検索対象画像５０２の人物と検出された人物とを比較した結果を示す。具体的には、体型順位５１２では、検索対象画像の体型特徴量５０６と近似する体型特徴量を有する複数の人物画像を順位順に並べている。

さらに、総合順位５１３は、顔順位５０９、服装順位５１０、歩容順位５１１、および体型順位５１２を総合して得られる総合特徴量で、検索対象画像の人物と検出された人物とを比較した結果を示す。具体的には、総合順位５１３では、検索対象画像の総合特徴量５０７と近似する総合特徴量を有する人物画像を順位順に並べている。
図５において、各特徴量の順位順にリスト表示された検索結果の人物画像のうち、ユーザ選択画像５１４が選択されている。
ユーザ選択画像５１４は、顔順位５０９にリスト表示された５つの検索結果画像から、ユーザが視認により、検索対象画像５０２と同一人物であると確認した状態を示している。例えば、マウスなどのポインティングデバイスを用いて、画面上から視認した画像を選択入力することができる。図５では、ユーザにより選択されたユーザ選択画像５１４には、楕円形の画像が重畳表示され、選択されたことの視認性を高めている。

ユーザ選択画像５１５〜５１８は、ユーザ選択画像５１４がユーザにより選択されたことと連動して、ユーザ選択画像５１４と同じ人物を表示する画像であることを出力部３１３が判断して、対応する画像上に楕円形の画像が重畳表示されている状態を示す。出力部３１３は、特徴量抽出部３０３により抽出される画像にそれぞれＩＤが付与されていることから、ユーザ選択画像５１４と、画像５１５〜５１８がそれぞれ同一人物の画像であることを判断することができる。

＜重み付け補正処理詳細＞
図５において、総合順位５１３にリスト表示された５つの検索結果画像のうち、検索結果画像５１８（総合特徴量スコア：６７０）は、総合順位５１３で３位になっている。すなわち、重み付け設定ウィンドウ４０５の設定値では、監視カメラ３〜５で撮像された人物の中で、検索結果画像５１８は、３番目の総合特徴量スコアを有する候補として検出されていることが分かる。
ここで、人物同定処理の精度をより高めるためには、現在設定されている重み付け設定値４０５を、より最適な重み付け設定値になるように補正する必要がある。すなわち、総合特徴量のスコアを最適化するような重み付けを、顔特徴量、服装特徴量、歩容特徴量、および体型特徴量について、再計算する必要がある。
図５において、検索結果画像５１８の総合特徴量のスコアは６７０であり、検索結果画像５１４〜５１７における顔特徴量のスコアは７００、服装特徴量のスコアは８２０、歩容特徴量のスコアは６２０、体型特徴量のスコアは６００であることが分かる。なお、ユーザが選択した検索結果画像５１８の総合特徴量は上述した式２を用いて求めることが可能である。

以下、本実施形態において、ユーザが検索対象画像と一致すると確認し同定された検索結果画像５１８の総合特徴量（スコア：６７０）を最適値にする重み付け補正（導出）処理を詳述する。
本実施形態では、主成分分析を用いて総合特徴量を計算する場合を例として説明する。
検索結果画像５１８の総合特徴量をＺ、顔特徴量をｘ_１、服装特徴量をｘ_２、顔重み付け値をａ_１、服装重み付け値をａ_２とすると以下の式が成り立つ。
Ｚ＝ａ_１ｘ_１＋ａ_２ｘ_２（式３）
なお、上記式３では、説明のため、総合特徴量Ｚの要素が顔特徴量と服装特徴量のみに単純化されているが、実際には歩容特徴量と体型特徴量等他の特徴量も含むものであってよい。

本実施形態では、Ｚで総合的な特徴量を判断したいため、総合特徴量Ｚの分散を最大化するように顔重み付け値ａ_１、服装重み付け値ａ_２を決定する。
そのため、まず、総合特徴量の平均を以下の式４で求める。
求めるべき平均をμ、図５で示されるように情報処理装置２で算出された複数の人物の総合特徴量をｚ、認識された人物数をｎとすると、ｚｉ＝ａ_１ｘ_１ｉ＋ａ_２ｘ_２ｉから、平均値μを求める以下の式４が成り立つ。

ここで、平均値μの顔重み付け値ａ_１の係数をＡ、服装重み付け値ａ_２の係数をＢとすると平均値μは、μ＝Ａａ_１＋Ｂａ_２となる。
次に、平均値μを用いてＺの分散を以下の式５で求める。

ここで、顔重み付け値ａ_１の係数をＣ、服装重み付け値ａ_２の係数をＤ、顔重み付け値ａ_１と服装重み付け値ａ_２の乗算値の係数をＥとすると、Ｚの分散は以下に表すことができる。

次に、Ｚの分散を最大化する顔重み付け値ａ_１、服装重み付け値ａ_２を求めるため、以下の制約条件式６を使用する。

上記の制約条件式７を使うことで、Ｚの分散の範囲をａ_１、ａ_２の−１〜＋１の範囲に絞り込む。
次に、式５のＺの分散と式７の制約条件式を、ラグランジュ（Ｌａｇｒａｎｇｅ）の乗数法を使用した極値計算を行って解く。

式８を一般化すれば以下の式９になる。

式９を行列で表すと以下の式１０のように表すことができる。

なお、式９および式１０におけるλはラグランジュ乗数である。
上記の式１０の行列式を解くことで、顔重み付け値ａ_１をＦ、服装重み付け値ａ_２をＧとして、以下の式１１のとおり求まる。歩容重み付け値および体型重み付け値についても、上記と同様の手順により算出することができる。

以上説明したように、本実施形態では、主成分分析を用いて、ある人物についての複数の特徴量の重み付けを補正して、最適な総合特徴量を算出する。
なお、上述したように人物同定部３１２での同定処理では、人物間距離情報を用いて同定処理を行うが、この人物間距離情報自体も、上記で説明した主成分分析による重み付けの一要素として使用してもよい。例えば、抽出された人物と検索対象の人物との間で算出される人物間距離を参照し、この人物間距離が小さいほど、主成分分析における重み付けの比率を大きくしてもよい。
図５に戻り、検索対象追加ボタン５１９は、検索対象の人物を追加するためのボタンである。この検索対象追加ボタン５１９を押下することで、人物検索画面４０１の画面に遷移して、新たな検索対象の人物を追加することが可能となる。

一方、重み付け補正結果確認ボタン５２０は、検索結果画面５０１の結果を踏まえて重み付け補正結果をユーザに確認させるためのボタンである。この重み付け補正結果確認ボタン５２０を押下することで、後述する図６の確認画面に遷移して、各特徴量の重み付けを補正した結果を表示装置２６に表示する。
図６は、重み付け補正結果画面６０１を示す図であり、図４および図５の画面でサンプリングされた人物の同定処理結果に基づいて、各特徴量に対する重み付けをそれぞれ補正した結果を表示している。

図６の重み付け補正結果画面６０１の上方に表示される画面メッセージ６０２は、図４および図５の画面において、Ｘ人で集計して補正した結果が重み付け補正結果６０３に表示されるとおりとなる旨を表示する。さらに、画面メッセージ６０２は、重み付け補正結果６０３に表示される設定値を、追尾すべき人物の検索処理の初期値として使用するか否かを、ユーザに確認させるメッセージを表示している。
なお、画面メッセージ６０２で「Ｘ人」と表記しているのは、情報処理装置２では、任意の複数人の被写体の重み付けを補正した補正結果を集計することが可能だからである。

図６において、重み付け補正結果６０３は、各特徴量の重み付けを補正した結果を示している。具体的には、顔特徴量の重み付け補正結果６０４が０．２６、服装特徴量のお重み付け補正結果６０５が０．３、歩容特徴量の重み付け補正結果６０６が０．２２、体型特徴量の重み付け補正結果６０７が０．２２と、それぞれ補正されている。
この重み付け補正結果６０３に示される各特徴量の重み付け補正結果６０４〜６０７は、上述した式３〜式１０を、サンプリングした人物ごとに計算し、得られた複数の計算結果の平均値を表示している。
なお、平均値を取得する方法は、相加平均、相乗平均など一般的な平均値取得方法でもよいし、あるいは、２乗平均、３乗平均などのその他の方法を用いてもよい。

初期値設定ボタン６０８は、重み付け補正結果６０３で示される各特徴量の重み付け補正結果６０４〜６０７を、追尾すべき人物の検索処理の初期値としてユーザに設定させる。
図７は、監視カメラ３〜５から得られた画像から特定された人物の人物情報テーブルの一例を示す。人物同定部３１２は、この人物情報テーブルを参照して、人物を同定する。
監視カメラフィールド７１は、監視カメラ３〜５の名称を示す。各監視カメラ３〜５には、それぞれ固有のカメラＩＤが付与されている。トラックＩＤフィールド７２は、人物に割り当てて追跡（追尾）を行うために付与されるＩＤを示し、これらをトラック（Ｔｒａｃｋ）ＩＤと呼ぶ。このトラックＩＤ７２は、人物として検出された対象に対して割り当てられる。位置情報７３は、人物を特定した際のＧＰＳの座標位置情報を示し、緯度情報および経度情報を含む。座標情報７４は、人物を特定した際の空間上の座標を縦、横、および高さで示す。

人物情報７５は、特定された人物の人物情報を示す。この人物情報７５は、少なくとも、検索対象画像を登録する際に特徴量管理部３１０によって割り当てられるＩＤを含む。
信頼度７６は、人物の同定に成功する確度である信頼度を示す。この信頼度の値は、当該人物についての総合特徴量と同一であり、図７に示す人物情報テーブルでは、総合特徴量をパーセンテージで表した値となっている。

＜本実施形態における特徴量の重み付け初期設定処理の処理フロー＞
図８は、本実施形態に係るオブジェクト追跡システム１の情報処理装置２が実行する特徴量の重み付け初期設定処理の一例を示すフローチャートである。本実施形態において、オブジェクト追跡システム１は、空港、駅、展示会などの特定環境で、追跡すべきオブジェクトの特徴量の重み付けを初期設定する機能を持つ。
図８に示す処理は、例えば、情報処理装置２および監視カメラ３〜５により構成されるオブジェクト追跡システム１が起動された時点から開始されるが、図８に示す処理の開始タイミングは上記に限定されない。情報処理装置２は、ＣＰＵ２１が必要なプログラムを記憶部から読み出して実行することにより、図８に示す処理を実行することができる。

ただし、図３に示す各要素のうち少なくとも一部が専用のハードウエアとして動作することで図８の処理が実現されるようにしてもよい。この場合、専用のハードウエアは、ＣＰＵ２１の制御に基づいて動作する。
Ｓ１において、特徴量管理部３１０は、ユーザによって検索対象の人物データ（人物の画像データ、各特徴量を含む）が、人物検索画面４０１中で、検索対象画像４１０として登録されたことを検知する。その際に、静止画像データとともに歩容の特徴量を算出するための動画データも登録される。

Ｓ２において、画像取得部３０１は、監視カメラ３〜５からそれぞれ画像を取得する。そして、取得された画像から、人物検出追尾部３０２が人物を検出し、特徴量抽出部３０４が、検出された人物の特徴量を抽出する。
ここで、特徴量抽出部３０４により抽出された特徴量は、顔特徴量判定部３０５、服装特徴量判定部３０６、歩容特徴量判定部３０７、体型特徴量判定部３０８によりそれぞれ使用される識別器３０３を介して、特徴量更新部３０９により更新される。すなわち、特徴量更新部３０９は、撮像画像から検出された人物の顔特徴量、服装特徴量、歩容特徴量、および体型特徴量をそれぞれ更新する。

Ｓ３において、特徴量管理部３１０は、特徴量更新部３０９で更新された各特徴量を、人物同定部３１２へ供給する。人物同定部３１２は、特徴量更新部３０９により更新された人物の各特徴量と検索対象として登録された人物とを照合し、検索対象の人物と照合すべき人物のデータ（人物照合データ）があるか否かを判定する。検索対象の人物と照合すべき人物照合データがある場合（Ｓ３：Ｙｅｓ）はＳ４に進み、ない場合（Ｓ３：Ｎｏ）はＳ２に戻る。

Ｓ４において、特徴量管理部３１０は、Ｓ２で人物検出追尾部３０２により検出された人物の顔特徴量、服装特徴量、歩容特徴量、および体型特徴量を含む複数の特徴量をそれぞれ算出し、人物同定部３１２は、人物を同定するための照合処理を行う。具体的には、人物同定部３１２は、特徴量更新部３０９により更新された人物の各特徴量と、検索対象画像４１０として登録された人物の各特徴量との間の人物間距離を算出する。この算出された人物間距離が所定の閾値内であれば、人物同定部３１２は、両者が同一人物であると判断して、Ｓ２で人物検出追尾部３０２により検出された人物を検索結果のリストに追加する。

Ｓ５において、出力部３１３は、顔特徴量、服装特徴量、歩容特徴量、および体型特徴量を含む複数の特徴量の確度（スコア）の順位を、対応する人物画像とともに、図５に示す人物の検索結果画面５０１にリスト表示する。
Ｓ６において、特徴量管理部３１０は、検索結果画面５０１に対して、検索対象画像５０２を登録したユーザにより視認された上で、リスト表示された検索結果候補からある人物が選択されたことを検知する。Ｓ６で選択された人物画像が、検索対象画像５０２に同定される。

Ｓ７において、特徴量管理部３１０は、Ｓ６で選択された人物の顔特徴量、服装特徴量、歩容特徴量、および体型特徴量を含む複数の特徴量を、ＨＤＤ２４に保存する。
Ｓ８において、特徴量管理部３１０は、次の検索対象があるか否かを判断する。具体的には、特徴量管理部３１０は、ユーザの操作によって検索対象追加ボタン５１９が押下されたことを検知する。検索対象追加ボタン５１９が押下された場合（Ｓ８：Ｙｅｓ）、Ｓ１０１に戻り、次の人の検索対象人物データを受け付ける。一方、検索対象追加ボタン５１９が押下されず（Ｓ８：Ｎｏ）、重みづけ補正結果確認ボタン５２０が押下されたことを検知した場合、Ｓ９に進む。
なお、本実施形態に係るオブジェクト追跡システムは、空港などの特定環境において、複数の人物を対象として最適な特徴量の重み付けの平均値を出力する。このため、サンプリングされる人数が多いほど、監視カメラ３〜５が設置される環境や状況に適した重み付けを導出することが可能となる。

Ｓ９において、特徴量管理部３１０は、サンプリングした検索対象の人物の各特徴量の算出結果に基づいて、上記各式を用いて、複数の検索対象の算出結果の平均値を算出して、人物ごとの最適な重み付け値を算出する。
Ｓ１０において、特徴量管理部３１０は、Ｓ９で算出された各特徴量の重み付け値を、監視カメラ３〜５を設定する特定環境においての人物追尾の重み付けの初期値として設定する。以上のＳ１〜Ｓ９の手順を実行することにより、例えば、監視カメラ３〜５を空港に設置する場合の最適な特徴量の重み付け値を算出して初期値として設定することが可能となる。
なお、特徴量管理部３１０は、Ｓ９で算出された各特徴量の重み付け値を、監視カメラを設置する際の初期値として設定する。さらに、特徴量管理部３１０は、例えば、通勤時間帯と夜間などの状況の変化に応じて、任意のタイミングで各特徴量の重み付け値を補正して、追尾すべき人物の検索処理により参照させることができる。

以上説明したように、本実施形態によれば、特徴量管理部３１０は、サンプリングした検索対象の複数のオブジェクトの各特徴量の算出結果に基づいて、オブジェクトの特徴量の重み付け値を補正する。このオブジェクトごとに抽出される複数の特徴量に対応する重み付け値の補正値は、例えば、あるオブジェクトについての総合特徴量の分散を最大化するよう、求めることができる。

このように動作することにより、本実施形態によれば、環境や状況の変化によりオブジェクトの特徴量に偏りが生じる場合であっても、その偏りに応じて各特徴量の重み付け値（複数の特徴量の間の重み付け）が補正される。このため、この補正された各特徴量の重み付け値を用いて実行されるオブジェクトの同定処理において、同定処理の精度が低下することが有効に防止される。
したがって、撮像の環境や状況の変化にかかわらず、オブジェクトの同定処理の精度の低下を抑制して適切にオブジェクトを追跡することができる。

（実施形態２）
以下、図９を参照して、情報処理装置、情報処理方法およびプログラムの実施形態２を、上記の実施形態１と異なる点についてのみ詳細に説明する。
上記の実施形態１では、空港などの特定環境において、オブジェクトの各特徴量の重み付けを初期値として設定する例を説明した。本実施形態は、実施形態１の各特徴量の重み付け補正結果を使用して、複数の監視カメラ３〜５の間で、実際に人物を追跡して同定しながら、さらに各特徴量の重み付けを調整して最適化していく例を説明する。
これにより、例えば、監視カメラ３〜５の間での特徴量も加味して重み付けを調整することができ、オブジェクトの同定処理の精度をさらに向上させることができる。
図９は、本実施形態において、オブジェクト追跡システム１の情報処理装置２が実行する特徴量の重み付け補正処理の一例を示すフローチャートである。具体的には、本実施形態に係るオブジェクト追跡システム１の情報処理装置２は、図８に示すＳ１からＳ１０の処理に続いて、図９に示す各処理を実行する。

図８のＳ１０に続き、Ｓ１１において、情報処理装置２は、Ｓ１２〜Ｓ２０の処理をループさせるための追尾ループ処理を開始する。
Ｓ１２において、人物検出追尾部３０２は、ユーザによって検索対象画像４１０に設定された人物を検索対象とし、この検索対象の人物を同定するために人物追尾を開始する。Ｓ１２において、次に、特徴量抽出部３０４が、図８のＳ２で検索された人物の特徴量を抽出する。特徴量抽出部３０４により抽出された特徴量は、顔特徴量判定部３０５、服装特徴量判定部３０６、歩容特徴量判定部３０７、および体型特徴量判定部３０８で使用される識別器３０３を介して、特徴量更新部３０９により更新される。すなわち、特徴量更新部３０９は、撮像画像から検出された人物の顔特徴量、服装特徴量、歩容特徴量、および体型特徴量をそれぞれ更新する。

特徴量管理部３１０は、特徴量更新部３０９により更新された各特徴量を、人物同定部３１２へ供給する。
Ｓ１３において、人物同定部３１２は、検索対象の人物が他の監視カメラの撮像領域内に移動したか否かを判定する。検索対象の人物が他のカメラの撮像領域内へ移動した場合（Ｓ１３：Ｙｅｓ）はＳ１４に進み、そうでない場合（Ｓ１３：Ｎｏ）はＳ１２に戻り待機する。
なお、実施形態１では人物の監視カメラ間の移動は加味していなかったが、実施形態２ではＳ１３で監視カメラ間の移動を検知する。
Ｓ１４において、特徴量管理部３１０は、Ｓ２で人物検出追尾部３０２により検出された人物の顔特徴量、服装特徴量、歩容特徴量、および体型特徴量を含む複数の特徴量をそれぞれ算出し、人物同定部３１２は、人物を同定するための照合処理を行う。具体的には、人物同定部３１２は、特徴量更新部３０９により更新された人物の各特徴量と、検索対象画像４１０として登録された人物の各特徴量との間の人物間距離を算出する。この算出された人物間距離が所定の閾値内であれば、人物同定部３１２は、両者が同一人物であると判断して、人物検出追尾部３０２により検出された人物を検索結果のリストに追加する。

Ｓ１５において、出力部３１３は、顔特徴量、服装特徴量、歩容特徴量、および体型特徴量を含む複数の特徴量の確度（スコア）の順位を、対応する人物画像とともに、図５に示す人物の検索結果画面５０１に、リスト状に更新表示する。
Ｓ１６において、特徴量管理部３１０は、検索結果画面５０１に対して、検索対象画像５０２を登録したユーザにより視認された上で、リスト表示された検索結果候補からある人物が選択されたことを検知する。Ｓ１６で選択された人物画像が、検索対象画像５０２に同定される。
Ｓ１７において、特徴量管理部３１０は、Ｓ１６で選択された人物の顔特徴量、服装特徴量、歩容特徴量、および体型特徴量を含む複数の特徴量を、ＨＤＤ２４に保存する。
Ｓ１８において、特徴量管理部３１０は、サンプリングした検索対象の人物の各特徴量の算出結果に基づいて、上記各式を用いて、複数の検索対象の算出結果の平均値を算出して、人物ごとの最適な重み付け値を算出する。

本実施形態では、Ｓ１１〜Ｓ２１の追尾ループ処理のループ回数が増える度に複数の検索対象の結果が平均化されることになる。
Ｓ１９において、特徴量管理部３１０は、Ｓ９で算出された各特徴量の重み付け値を、監視カメラ３〜５を設定する特定環境においての人物追跡の重み付けの初期値として設定する。
Ｓ２０において、特徴量管理部３０８は、ユーザに対して重み付け値の補正処理を終了するか否かを、ポップアップ等の表示（不図示）により判断させる。特徴量の重み付け値の補正処理を終了する場合（Ｓ２０：Ｙｅｓ）には、図９に示す処理を終了する。一方、特徴量の重み付け値の補正処理を終了しない場合（Ｓ２０：Ｎｏ）には、Ｓ１１からＳ２１の追尾ループ処理を継続する。
以上説明したように、実施形態２によれば、実施形態１で１の監視カメラ内で特徴量の重み付け値を補正した後に、さらに、監視カメラ間の特徴量も加味して重み付けを調整する。これにより、複数の監視カメラ３〜５の間で、より人物の同定処理の精度を向上させることが可能となる。

＜変形例＞
なお、図３に示した機能ブロックの構成は一例であり、複数の機能ブロックが１つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。また、図３に示す機能ブロックの少なくとも一部がハードウエアとして実装されてもよい。ハードウエアにより実装する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからＦＰＧＡ（Field-Programmable Gate Array）上に自動的に専用回路を生成すればよい。また、ＦＰＧＡと同様にして、ＧａｔｅＡｒｒａｙ回路を形成し、ハードウエアとして実装されるようにしてもよく、ＡＳＩＣ（Application Specific Integrated Circuit）により実現するようにしてもよい。

＜他の実施形態＞
なお、上述した各実施形態は、その複数を組み合わせて実現することが可能である。
また、本発明は、上述の実施形態の１以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ（またはＣＰＵやＭＰＵ等）における１つ以上のプロセッサーがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。

１…オブジェクト追跡システム、２…情報処理装置、３〜５…監視カメラ、６…ネットワーク、３０１…画像取得部、３０２…人物検出追尾部、３０３…識別器、３０４…特徴量抽出部、３０５…顔特徴量判定部、３０６…服装特徴量判定部、３０７…歩容特徴量判定部、３０８…体型特徴量判定部、３０９…特徴量更新部、３１０…特徴量管理部、３１１…信頼度算出部、３１２…人物同定部、３１３…出力部

Claims

撮像装置により撮像された画像からオブジェクトを検出する検出手段と、
前記検出手段により検出された前記オブジェクトから複数の特徴量を抽出する抽出手段と、
前記抽出手段により抽出された前記オブジェクトの前記複数の特徴量と、検索対象のオブジェクトの複数の特徴量とをそれぞれ照合する照合手段と、
前記照合手段による複数のオブジェクトについての照合結果に基づいて、前記照合手段が特徴量を照合するのに用いられるべき、前記複数の特徴量の間の重み付けを導出する導出手段と、
を備えることを特徴とする情報処理装置。
前記情報処理装置は、さらに、
前記抽出手段により抽出された前記複数の特徴量を、前記検出手段により検出された前記オブジェクトの識別子に対応付けて、特徴量ごとに記憶する記憶手段と、
前記記憶手段により記憶された前記複数の特徴量を、前記抽出手段により抽出された前記複数の特徴量で、特徴量ごとに更新する更新手段と、
を備えることを特徴とする請求項１に記載の情報処理装置。
前記導出手段は、前記複数のオブジェクトの間で、前記抽出手段により抽出された前記複数の特徴量を前記オブジェクトについて総合して得られる総合特徴量の分散が最大化するよう、前記重み付けを導出する、
ことを特徴とする請求項１または２に記載の情報処理装置。
前記導出手段は、前記複数の特徴量を主成分分析することにより、前記重み付けを導出する、
ことを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
前記導出手段は、極値計算を実行することにより、前記複数の特徴量が最大値となるよう、前記重み付けを導出する、
ことを特徴とする請求項１から４のいずれか１項に記載の情報処理装置。
前記導出手段は、１つのオブジェクトについて、前記複数の特徴量のそれぞれに付与される重み付け値の和が一定になるよう、前記重み付けを導出する、
ことを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
前記情報処理装置は、さらに、
前記照合手段による照合結果を表示装置に表示させ、表示された照合結果から、１または複数のオブジェクトの選択入力を受け付ける表示制御手段と、
前記選択入力されたオブジェクトを、前記検索対象のオブジェクトに同定する同定手段と、
を備えることを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記表示制御手段は、前記照合結果を、特徴量ごとに、前記特徴量のスコアの順に前記表示装置にリスト表示させる、
ことを特徴とする請求項７に記載の情報処理装置。
前記抽出手段は、前記複数の特徴量として、顔特徴量、服装特徴量、歩容特徴量、体型特徴量の少なくとも２つ以上を抽出する、
ことを特徴とする請求項１から８のいずれか１項に記載の情報処理装置。
前記導出手段は、前記抽出手段により抽出された前記オブジェクトと前記検索対象のオブジェクトとの間で算出される距離を参照し、前記距離が小さいほど、前記重み付けの比率を大きくする、
ことを特徴とする請求項４から９のいずれか１項に記載の情報処理装置。
前記情報処理装置は、さらに、
検索対象のオブジェクトを複数の撮像装置に亘って追跡するとともに、前記検索対象のオブジェクトが前記複数の撮像装置の間を移動したことを検知する検知手段を備え、
前記表示制御手段は、前記検知手段により、前記検索対象のオブジェクトが前記複数の撮像装置の間を移動したことが検知された際に、前記照合結果を表示装置に更新表示させるとともに、前記選択入力を受け付ける、
ことを特徴とする請求項７から１０のいずれか１項に記載の情報処理装置。
撮像装置により撮像された画像からオブジェクトを検出するステップと、
検出された前記オブジェクトから複数の特徴量を抽出するステップと、
抽出された前記オブジェクトの前記複数の特徴量と、検索対象のオブジェクトの複数の特徴量とをそれぞれ照合するステップと、
複数のオブジェクトについての照合結果に基づいて、特徴量を照合するのに用いられるべき、前記複数の特徴量の間の重み付けを導出するステップと、
を有することを特徴とする情報処理方法。
コンピュータを、請求項１から１１のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。