JP2019185205A

JP2019185205A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2019185205A
Application number: JP2018072216A
Authority: JP
Inventors: 山本　真司; Shinji Yamamoto; 真司山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2019-10-24

Abstract

【課題】正しい検索結果を得られるようにすることを課題とする。【解決手段】情報処理装置は、画像から特定の物体の領域を検出する物体検出手段（２０２）と、物体の領域から第一の特徴量を抽出する第一の抽出手段（２０４）と、物体の領域から第一の特徴量とは異なる第二の特徴量を抽出する第二の抽出手段（２０５）と、第一の特徴量と第二の特徴量とを基に、物体の外見の変化を検知する変化検知手段（２０８）と、物体の外見の変化の検知結果を基に、物体の外見に関するフィルタ条件を提示する提示工程（２１２）とを有する。【選択図】図２

Description

本発明は、カメラなどから取得された画像を解析する技術に関する。

近年、ネットワークに接続されてコンピュータからの制御が可能なカメラが多数市販されている。これらのカメラは、事務所や店舗、街中に広く設置され、セキュリティの向上に役立っている。一方、カメラ台数が増えるにつれ、目視による画像確認にコストがかかるようになり、このため、画像解析・認識技術を用いた効率化の取り組みが進んでいる。これらを実現する技術は非特許文献１に開示されている。この実用例として、顔認識技術を用いた、特定人物や迷子を捜すことができる人物検索システムがある。この人物検索システムでは、カメラの画像を解析して人物を検出し、人物の顔・人体領域から被写体の特徴を表す特徴量を抽出して、撮影したカメラ、時刻情報、画像といった情報と特徴量を関連付けて登録する。そして、検索時には、特徴量の類似性をもとに、類似度が高いと判断した登録情報を人物検索の結果として返す。しかし、実際に人物を検索した場合、検索対象でない人物が検索結果に含まれてしまうことが多い。この場合、外見特徴（属性）をフィルタ条件としたフィルタリングが必要になる。外見特徴を用いたフィルタリングでは、服装や鞄等の所持物といった被写体の外見に関する特徴や属性が、画像認識技術を用いて推定され、人物検索システムに登録する際に関連付けられて記録される。そして、フィルタリングの際にはそれら外見に関する特性がフィルタ条件として利用される。また例えば、特許文献１には、多層化された検索結果の表示に加えて、フィルタリングを実施する技術が開示されている。

特開２００９−３０１５０２号公報

コンピュータビジョン -アルゴリズムと応用- Richard Szeliski, 共立出版 2013

ところで、実際のユースケースでは、ある時間の画像から検索対象を指定することが多く、その時点の服装・鞄等の所持物がフィルタ条件となされて検索結果のフィルタリングが行われることになる。その結果、服装や鞄等の所持物が変化した時刻の照合結果が除外されてしまい、正しい検索結果が得られない場合がある。

そこで、本発明は、正しい検索結果を得られるようにすることを目的とする。

本発明に係る情報処理装置は、画像から特定の物体の領域を検出する物体検出手段と、前記物体の領域から第一の特徴量を抽出する第一の抽出手段と、前記物体の領域から前記第一の特徴量とは異なる第二の特徴量を抽出する第二の抽出手段と、第一の特徴量と第二の特徴量とを基に、前記物体の外見の変化を検知する変化検知手段と、前記物体の外見の変化の検知結果を基に、前記物体の外見に関するフィルタ条件を提示する提示手段と、を有することを特徴とする。

本発明によれば、正しい検索結果を得られるようになる。

情報処理システムのネットワーク接続及び構成例を示す図である。情報処理システムの機能ブロック図である。フィルタ条件を指定するＵＩ例を示す図である。推奨するフィルタ条件の表示例を示す図である。服装変化の推移の表示例を示す図である。服装変化エリアの表示例を示す図である。物体の特徴量を取得する処理の流れを示すフローチャートである。物体を検索する処理の流れを示すフローチャートである。

以下、本発明の好ましい実施形態を、添付の図面に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
図１（ａ）は、本実施形態の情報処理システムの動作環境の一例を示したネットワーク接続構成図である。本実施形態の情報処理システムは、例えば、複数の撮像装置１０１、画像解析装置１０２、データ解析装置１０３、ストレージ装置１０４、入力装置１０５、表示装置１０６が、ネットワーク回線であるＬＡＮ１０７を介してそれぞれ接続されて構成されている。

複数の撮像装置１０１は、それぞれが例えばネットワークカメラであり、撮影した画像を記録しておく機能、画像に対して各種画像処理を行う機能、画像データを圧縮等して送信する機能、外部装置から受けた各種命令に応じた処理を行う機能などを有する。また、各撮像装置１０１は、例えば撮影光学系のレンズの焦点距離、焦点位置、撮影方向等を、自動若しくは外部からの指示に応じて変更する機能を備えていても良い。

画像解析装置１０２は、撮像装置１０１（ネットワークカメラ）にて撮影された画像を収集して画像解析処理を行う。例えば、画像解析装置１０２は、解析の対象となる特定の物体が例えば人物である場合、画像内から人物の領域を検出し、その検出した人物の顔領域や全身領域、さらには鞄等の所持物の領域等を解析して特徴量を抽出するような画像解析機能を有する。画像解析装置１０２は、画像内に複数の人物が写っている場合にはそれら各人物について特徴量抽出を行う。画像解析装置１０２における画像解析処理の詳細は後述する。

データ解析装置１０３は、画像解析装置１０２が抽出した特徴量のデータを収集および管理し、データ解析処理を行う。例えば画像解析装置１０２にて人物の特徴量抽出が行われた場合、データ解析装置１０３は、抽出された人物の特徴量を照合して人物同定を行うようなデータ解析機能を有する。また、データ解析装置１０３は、例えば複数の撮像装置１０１から撮影光学系のレンズの焦点距離、焦点位置、撮影方向、設置位置（カメラ座標）、撮影範囲等の情報を収集して解析する機能を有していても良い。データ解析装置１０３におけるデータ管理やデータ解析処理の詳細は後述する。

ストレージ装置１０４は大容量の記録媒体を備えた装置である。ストレージ装置１０４は、複数の撮像装置１０１からの撮像画像、画像解析装置１０２の画像解析処理により抽出された特徴量、データ解析装置１０３のデータ解析処理による解析結果（人物照合の照合結果）等の各データを記録する。

入力装置１０５は、例えばマウスやキーボード、タッチパネルのようにユーザからの操作入力を取得する機能を有した装置である。本実施形態においては、入力装置１０５を介したユーザからの入力により、複数の撮像装置１０１の設定や操作、画像解析装置１０２の設定や操作、データ解析装置１０３の設定や操作等が可能であるとする。

表示装置１０６は、画像やユーザインターフェース（ＵＩ）画面を表示可能な装置である。本実施形態の場合、表示装置１０６は、ＵＩを介して、例えばストレージ装置１０４に記録された画像データに画像解析処理やデータ解析処理の結果の解析データを重畳して表示する機能をも有している。表示装置１０６におけるデータ表示やＵＩ画面の詳細は後述する。

なお、入力装置１０５および表示装置１０６は、クライアントのパーソナルコンピュータ（ＰＣ）などを想定している。画像解析装置１０２とデータ解析装置１０３はサーバ装置を想定しており、これらについてもそれぞれＰＣにより実現されてもよい。本実施形態において、複数の撮像装置１０１は、少なくとも２台以上であれば何台でも良い。ＬＡＮ１０７に接続される画像解析装置１０２、データ解析装置１０３、ストレージ装置１０４、入力装置１０５、表示装置１０６は、図１のようにそれぞれ一台に限定されるものではなく、アドレスなどで識別可能であれば多数存在していてもよい。また図１（ａ）の情報処理システムでは、画像解析装置１０２とデータ解析装置１０３とストレージ装置１０４と入力装置１０５と表示装置１０６が別個の装置となされているが、これら全て若しくは幾つかが一台の情報処理装置として構成されていてもよい。その他、ＬＡＮ１０７への物理的な接続形態としては、有線だけでなく、無線接続されていても良く、プロトコル的に接続可能であれば、物理的な接続形態は限定されない。また、無線接続がなされる場合、本実施形態に係る情報処理装置は、例えばタブレット端末のような携帯型の情報処理装置であっても良い。

図１（ｂ）は、撮像装置１０１の概略的な構成例を示した図である。図１（ｂ）に示した撮像装置１０１は、撮像部１２１、操作部１２２、通信部１２３、ＲＯＭ１２４、ＣＰＵ１２５、ＲＡＭ１２６、記録部１２７を有している。撮像部１２１は、ズームレンズ、フォーカスレンズ、絞り等からなる撮像光学系と、その撮像光学系による光学像を撮像して画像データを生成する撮像センサとを少なくとも有する。なお、撮像部１２１には、遠隔操作によるパンニングやチルティングを行える雲台および駆動機構等が含まれていても良いし、現像処理や各種補正処理等を行う画像処理回路が含まれていても良い。操作部１２２は、設置者等が撮像装置１０１に各種設定等を行う際に操作されるスイッチやボタン等である。なお、撮像装置１０１が例えば監視カメラのように遠隔操作される装置である場合、操作部１２２は必ずしも備えられていなくても良い。ＲＯＭ１２４は、書き換え可能な不揮発性メモリであり、撮像装置１０１の制御プログラムや各種の設定情報、撮像光学系のレンズ特性情報、撮像装置１０１が設置された場所の設置位置（カメラ座標）情報等の各種情報を格納している。ＲＡＭ１２６は、ＲＯＭ１２４から読み出されたプログラムが展開され、またワークメモリとして一時的にデータを記憶する。記録部１２７は、撮影した画像データの記録や、通信部１２３を介して受信した各種データ、情報等を記録する。なお、プログラムは記録部１２７に記録されていても良い。ＣＰＵ１２５は、ＲＯＭ１２４から読み出されてＲＡＭ１２６に展開されたプログラムを実行して、撮像装置１０１の全体の制御や各種演算、各種処理を行う。またＣＰＵ１２５は、撮像装置１０１の撮影時における撮像光学系の焦点距離、焦点位置、撮影方向、設置位置（カメラ座標）等の情報を生成する処理を行っても良い。通信部１２３は、ＬＡＮ１０７等を介して、画像データや、撮影時における撮像光学系の焦点距離、焦点位置、撮影方向、設置位置（カメラ座標）等の情報を送信し、また外部装置からの制御コマンドの受信等を行う。

図１（ｃ）は、例えば入力装置１０５および表示装置１０６、画像解析装置１０２やデータ解析装置１０３等が例えばＰＣにより構成されている場合の情報処理装置１３０の概略的な構成例を示した図である。情報処理装置１３０は、表示部１３１、操作部１３２、通信部１３３、ＲＯＭ１３４、ＣＰＵ１３５、ＲＡＭ１３６、記録部１３７を有している。表示部１３１は、画像やユーザインターフェース（ＵＩ）画面を表示する。操作部１３２は例えばマウスやキーボード、タッチパネルを有する。通信部１３３は、ＬＡＮ１０７等を介して、他の装置や撮像装置１０１等と通信する。ＲＯＭ１３４は、書き換え可能な不揮発性メモリであり、情報処理装置１３０のプログラムや各種の設定情報等を格納している。ＲＡＭ１３６は、ＲＯＭ１３４から読み出されたプログラムが展開され、またワークメモリとして一時的にデータを記憶する。記録部１３７は、撮像装置１０１から取得した画像データや、通信部１３３を介して他の装置から受信した各種データ、情報等を記録する。ＣＰＵ１３５は、ＲＯＭ１３４から読み出されてＲＡＭ１３６に展開されたプログラムを実行して、情報処理装置１３０の全体の制御や各種演算、各種処理を行う。なお、プログラムは記録部１３７に記録されていても良い。

図２は、本実施形態の情報処理システムを機能ブロック構成により表した図である。
図２に示すように、情報処理システムの画像解析装置１０２は、画像取得部２０１、物体検出部２０２、切り出し部２０３、第一抽出部２０４、第二抽出部２０５の各機能を有する。また、データ解析装置１０３は、情報管理部２０６、クエリ抽出部２０７、変化検知部２０８、検索部２０９、フィルタ部２１０の各機能を有する。また、図２では、入力装置１０５を入力部２１１の機能ブロックとして表し、表示装置１０６を表示部２１２の各機能ブロックとして表している。本実施形態の情報処理システムでは、これら画像解析装置１０２の各機能ブロック、データ解析装置１０３の各機能ブロック、入力部２１１、表示部２１２が、ＬＡＮ１０７を介して接続されている。なお、画像解析装置１０２とデータ解析装置１０３における各機能の切り分けは、図２の例に限定されるものではない。例えば、情報管理部２０６とクエリ抽出部２０７と変化検知部２０８と検索部２０９とフィルタ部２１０は、画像解析装置１０２に含まれる機能となされてもよい。

画像取得部２０１は、ＬＡＮ１０７を介して、撮像装置１０１から所定の時間間隔で画像を順次取得し、その画像と撮像装置１０１に関連付けられたカメラＩＤ（例えばＩＰアドレス）と撮影時刻とを、物体検出部２０２及び切り出し部２０３に提供する。なお、画像取得部２０１による画像の取得は、撮像装置１０１からの撮像画像の取得に限定されるものではない。例えば、画像取得部２０１は、ストレージ装置１０４からの画像データ（録画画像）の読み込みやネットワークを介したストリーミング入力などによって画像を取得しても良い。

物体検出部２０２は、画像取得部２０１により取得された画像から、対象物体を検出する検出処理を実行する。物体検出部２０２は、カメラＩＤと、検出した対象物体を一意に特定する識別子（以下、物体ＩＤとする。）と、対象物体の検出矩形（矩形の位置及び、サイズを表す情報）と、検出時刻とをまとめて検出情報として、切り出し部２０３に提供する。検出時刻としては、画像取得部２０１が撮像装置１０１から撮影画像を取得した場合にはその撮影時刻を用いる。同様に、例えば画像取得部２０１がストレージ装置１０４からの録画画像を読み込んだ場合や、ネットワークを介したストリーミング入力などにより画像を取得した場合にも、それらの画像が撮影された際の撮影時刻が検出時刻となされる。なお、画像からの対象物体の検出は、周知の技術を用いて実現することができる。例えば以下の参考文献１に記載された勾配方向ヒストグラム特徴（Histograms of Oriented Gradients）を抽出して、人の全身を検出する方法を利用することができる。参考文献１：「N.Dalal, B.Triggs, Histograms of Oriented Gradients for Human Detection, IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005.」

切り出し部２０３は、物体検出部２０２の検出情報に含まれる検出矩形に基づいて、画像取得部２０１にて取得された画像から対象物体の画像領域のみを切り出す処理を実行する。以下、この切り出し処理により得られた画像領域をサムネイルと呼ぶ。切り出し部２０３は、切り出したサムネイルを検出情報と対応付けて、第一抽出部２０４と第二抽出部２０５に提供する。

第一抽出部２０４は、切り出し部２０３の切り出し処理により作成されたサムネイルの画像つまり対象物体の画像領域から、第一の特徴量を抽出する第一の特徴量抽出処理を実行する。本実施形態では、対象物体が人物である場合を例に挙げているため、第一の特徴量抽出処理では、第一の特徴量として人物の顔の特徴量を抽出する。そして、第一抽出部２０４は、検出情報、サムネイル、第一の特徴量をまとめて物体情報とし、情報管理部２０６に提供する。なお、第一の特徴量抽出処理は周知の技術を用いて実現することができる。例えば以下の参考文献２に記載された顔の特徴算出方法を利用することができる。参考文献２：「F.Schroff, D.Kalenichenko, J.Philbi, Facenet: A unified embedding for face recognition and clustering, IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2015.」

第二抽出部２０５は、切り出し部２０３にて切り出されたサムネイルの画像から、前述の第一の特徴量とは異なる第二の特徴量を抽出する第二の特徴量抽出処理を抽出する処理を実行する。本実施形態では対象物体が人物である場合を例に挙げているため、第二の特徴量抽出処理では第二の特徴量として例えば人物の身体における全身の特徴量を抽出する。また、第二の特徴量抽出処理では、対象物体に付随した物体の特徴量を、当該対象物体の外見に関する特徴量として抽出することも行う。第二抽出部２０５は、対象物体である人物の外見に関する特徴量の一例として、人物が着ている服の色を抽出する。なお、人物の外見に関する特徴には、例えば人物が把持或いは肩に掛けている鞄などのような所持物に関する特徴が含まれていても良い。そして、第二抽出部２０５は、検出情報、サムネイル、第二の特徴量（少なくとも人物の全身の特徴と服の色とを含む特徴等）をまとめて物体情報として、情報管理部２０６に提供する。なお、第二の特徴量抽出処理における全身の特徴量抽出は周知の技術を用いて実現することができる。例えば以下の参考文献３に記載された全身の特徴算出方法を利用することができる。参考文献３：「S.Paisitkriangkrai, Learning to rank in person re-identification with metric ensembles. IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2015.」

また、服の色の抽出処理については例えば以下のような手順により行うことができる。先ず、第二抽出部２０５は、対象物体（人物）における物体情報のサムネイルについて、上半身領域と下半身領域を推定する。次に、第二抽出部２０５は、上半身領域と下半身領域についてそれぞれの色ヒストグラムを算出する。更に第二抽出部２０５は、各色ヒストグラムについて、所定の基準色ヒストグラム（赤、青などの色を表す色ヒストグラムのサンプル）との比較を行い、類似度の最も高い基準色ヒストグラムが示す色を、服の色として求める。なお、この例では、人物の全身の特徴量を抽出する処理と服の色を抽出する処理を別々に行っているが、これらの処理を同時に行う手法を用いてもよい。また、服の色だけでなく、柄，模様のパターンや服の種類を特徴に含めて求めるようにしても良い。鞄等の所持物に関する特徴は、一例として、所持物の形状や使用形態に応じた特徴、服の場合と同様に色ヒストグラムに基づく色などを用いることができる。勿論、所持物の特徴はこれらの例に限定されるものではなく、他の特徴であっても良い。

情報管理部２０６は、第一抽出部２０４と第二抽出部２０５から物体情報を取得して管理する。情報管理部２０６は、管理している物体情報を変化検知部２０８と検索部２０９とに提供する。なお、情報管理部２０６は、物体情報に含まれる物体ＩＤに基づいて、第一の特徴量と第二の特徴量を紐づけて管理する。また、情報管理部２０６は、複数の撮像装置１０１から取得した撮像光学系の焦点距離、焦点位置、撮影方向、設置位置（カメラ座標）、撮影範囲等の情報についても管理する。

クエリ抽出部２０７は、入力部２１１からクエリ画像を取得し、クエリ画像から第一の特徴量と第二の特徴量（全身の特徴と少なくとも服の色を含む特徴量）を抽出する。クエリ画像は、例えば表示部２１２に表示された画像の中から、ユーザが入力部２１１を介して指定した対象物体の画像である。クエリ抽出部２０７は、クエリ画像から抽出した第一の特徴量と第二の特徴量をまとめてクエリ特徴量とし、変化検知部２０８と検索部２０９に提供する。クエリ画像から第一の特徴量と第二の特徴量（服の色等の特徴量も含む）を抽出する処理は、第一抽出部２０４と第二抽出部２０５と同様の処理で行うことができる。

変化検知部２０８は、情報管理部２０６から少なくとも一つ以上の物体情報を取得し、クエリ抽出部２０７からクエリ特徴量を取得し、それらを基に、クエリ画像により指定された対象物体の外見の変化を検出する処理を実行する。本実施形態では、人物が着ている服の色等の変化を基に人物の服装の変化を検出するような服装変化検知処理を実行する。そして、変化検知部２０８は、対象物体における服装変化を検知したとき、服の色リスト情報を、外見の変化の検知結果に含めて表示部２１２に提供する。なお、服装変化検知処理では、人物の所持物である鞄等の変化を検知する処理を行っても良く、この場合、服の色リスト情報と共に、或いは色リスト情報とは別に、所持物リスト情報を表示部２１２に提供するようにしても良い。

変化検知部２０８は、クエリ画像により指定された対象物体における服装変化検知処理を以下のような手順で行う。先ず、変化検知部２０８は、クエリ特徴量に含まれる第一の特徴量Ｘｑ１を基準とし、その他の物体情報に含まれる第一の特徴量Ｘｉ１を照合して、それらの特徴量の類似度を表す第一の照合スコアＳｉ１を求める。次に、変化検知部２０８は、第一の照合スコアＳｉ１が所定の第一の閾値以上（閾値Ｔｈ１以上）の物体情報の集合Ｒ１を求める。また、変化検知部２０８は、クエリ特徴量に含まれる第二の特徴量Ｘｑ２を基準とし、集合Ｒ１の物体情報に含まれる第二の特徴量Ｘｊ２を照合して、それらの特徴量の類似度を表す第二の照合スコアＳｊ２を求める。次に、変化検知部２０８は、第二の照合スコアＳｊ２が所定の第二の閾値未満（閾値Ｔｈ２未満）の物体情報の集合Ｒ２を求める。そして、変化検知部２０８は、集合Ｒ２が少なくとも一つ以上ある場合には、クエリ画像により指定された対象物体の服装が変化したと判定する。その後、変化検知部２０８は、集合Ｒ２の物体情報を用いて、クエリ画像で指定された対象物体の服の色リスト情報を作成する。

また変化検知部２０８は、クエリ画像で指定された対象物体における服の色リスト情報の作成処理を以下の手順により行う。先ず、変化検知部２０８は、集合Ｒ２に含まれる上半身、下半身それぞれの服の色について、出現回数をカウントする。そして、変化検知部２０８は、カウント数が０以上の予め決めた所定の回数閾値以上であれば、外見としての服の色が変化し易いと判定し、服の色リスト情報に、服の色が変化する場合に推定される服の色とサムネイルを追加する。服の色リスト情報は、一例として｛［上半身：赤、下半身：黒、サムネイル１］、［上半身：緑、下半身：黒、サムネイル２］、［上半身：黒、下半身：黒、サムネイル３］｝のような情報となされる。また、色リスト情報には、服の色の情報に加えて、位置や時刻情報がリストの要素として加えられても良い。なお、所持物リスト情報についても、色リスト情報の場合と概ね同様にして作成可能である。例えば、所持物の出現回数をカウントして、そのカウント数が所定の回数閾値以上であれば、所持物が変化し易いと判定し、所持物リスト情報に、所持物が変化する場合に推定される所持物（鞄等）とサムネイルを追加する。

また変化検知部２０８は、情報管理部２０６から少なくとも一つ以上の物体情報を取得して対象物体における服装変化検知処理を実行した際に、その対象物体において服装が変化したエリア（以下、服装変化エリアとする。）を求める。そして、変化検知部２０８は、その服装変化エリアを表示部２１２に提供する。

変化検知部２０８は、服装の変化が検知された服装変化エリアの生成処理を以下のような手順で行う。先ず、変化検知部２０８は、物体情報からランダムに複数の人物のサムネイルを選択し、それらを疑似クエリの集合とする。次に、変化検知部２０８は、それぞれの疑似クエリの特徴量に含まれる第一の特徴量Ｘｑ'１を基準とし、その他の物体情報に含まれる第一の特徴量Ｘｉ１を照合して、第一の照合スコアＳｉ'１を求める。また変化検知部２０８は、第一の照合スコアＳｉ'１が所定の第１の閾値以上（閾値Ｔｈ１以上）の物体情報の集合Ｒ'１を求める。また変化検知部２０８は、疑似クエリの特徴量に含まれる第二の特徴量Ｘｑ'２を基準とし、集合Ｒ'１の物体情報に含まれる第二の特徴量Ｘｊ２を照合して、第二の照合スコアＳｊ'２を求める。次に、変化検知部２０８は、第二の照合スコアＳｊ'２が所定の第二の閾値未満（閾値Ｔｈ２未満）の物体情報の集合Ｒ'２を求める。さらに変化検知部２０８は、集合Ｒ'２が少なくとも一つ以上ある場合には、疑似クエリで指定された物体の服装が変化したと判定する。そして、変化検知部２０８は、全ての疑似クエリに対して同様の処理を行うことで、服装が変化したと判定された物体（人物）の集合Ｒ'を求める。最後に、変化検知部２０８は、集合Ｒ'の物体情報を用いて服装変化エリアを作成する。例えば、変化検知部２０８は、集合Ｒ'の物体情報からカメラＩＤを抽出し、各カメラＩＤの出現頻度を求め、この出現頻度が所定の値以上であれば服装変化エリアと判定し、その服装変化エリアにカメラＩＤを追加する。すなわち、服装変化エリアは、カメラＩＤに対応した撮像装置１０１により撮影されている撮影範囲のエリアとして作成される。なお、所持物の変化エリアについても同様にして作成可能である。

検索部２０９は、情報管理部２０６から少なくとも一つ以上の物体情報を取得し、クエリ抽出部２０７からクエリ特徴量を取得し、それらを基に検索処理を実施する。そして、検索部２０９は、一部の物体情報の集合を検索結果として求め、その検索結果をフィルタ部２１０に提供する。

検索部２０９は、検索処理を以下のような手順で行う。先ず、検索部２０９は、クエリ特徴量に含まれる第一の特徴量Ｘｑ１を基準とし、その他の物体情報に含まれる第一の特徴量Ｘｉ１を照合して、第一の照合スコアＳｉ１を求める。更に検索部２０９は、クエリ特徴量に含まれる第二の特徴量Ｘｑ２を基準とし、集合Ｒ１の物体情報に含まれる第二の特徴量Ｘｊ２を照合して、第二の照合スコアＳｊ２を求める。そして、検索部２０９は、第一の照合スコアＳｉ１が所定の第一の閾値Ｔｈ１以上でかつ、第二の照合スコアＳｊ２が所定の第二の閾値Ｔｈ２以上の物体情報の集合Ｒｓｈを、検索結果として求める。

フィルタ部２１０は、検索部２０９から検索結果を取得し、入力部２１１からフィルタ条件を取得して、それらを基にフィルタリングを実行する。例えば、フィルタ部２１０は、フィルタ条件に含まれる服の色情報と、検索結果の物体情報に含まれる服の色情報とが一致する物体情報の集合を、フィルタリングによるフィルタ検索結果として取得する。フィルタ条件は、例えば表示部２１２にＵＩ表示された各種のフィルタ条件の中から、ユーザが入力部２１１を介して指定した条件である。そして、フィルタ部２１０は、そのフィルタ条件に応じた検索結果を、表示部２１２に提供する。

入力部２１１は、ユーザからの指示入力を取得することでクエリ画像を指定し、その指定されたクリエ画像をクエリ抽出部２０７に提供する。また、入力部２１１は、ユーザからの指示入力を取得することでフィルタ条件を設定し、その設定したフィルタ条件をフィルタ部２１０に提供する。

表示部２１２は、例えば、検索部２０９による検索結果、フィルタ部２１０で用いるフィルタ条件の設定画面、推奨されるフィルタ条件を求めてメッセージとして表す画面、人物の服装変化を時系列に並べた服装遷移画面、服装変化エリアの画面等を適宜表示する。

図３は表示部２１２による画面表示の一例であり、検索結果の一覧が表示される検索結果画面３０１とフィルタ条件の設定に用いられる条件設定画面３０３とが同一画面上に表示された例を示している。表示部２１２は、検索結果画面３０１上に、照合された物体としての人物のサムネイル画像３０２を、検索結果の一覧のリストとして並べて表示する。条件設定画面３０３は、ユーザがフィルタ条件を指定する際のＵＩ画面である。表示部２１２は、条件設定画面３０３上に、ユーザがフィルタ条件の指定や変更を指示する際に選択（入力部２１１を介したクリック等によって選択）される各種の条件設定ボタン３０４を配置する。条件設定ボタン３０４は、図３に示すように、年齢や性別、上着の色、ズボンやスカートの色などをそれぞれ指定可能なボタンとなされている。また表示部２１２は、条件設定画面３０３のＵＩとして、条件設定ボタン３０４の選択により設定されたフィルタ条件を適用するための適用ボタン３０５をも表示する。表示部２１２は、ユーザが入力部２１１を介し、条件設定ボタン３０４を指示してフィルタ条件を設定した上で、さらに適用ボタン３０５へのクリック等の指示を行った場合、その指示された条件設定ボタン３０４により設定されたフィルタ条件を適用する。これにより、検索部２０９では、その適用されたフィルタ条件に基づくフィルタリングが行われることになる。なお、図３には図示していないが、前述の条件設定ボタン３０４に加えて、鞄等の所持物に関するフィルタ条件を設定するための条件設定ボタンを表示しても良い。

図４は、表示部２１２による画面表示の一例であり、検索結果画面３０１と条件設定画面３０３に加えて、服装変化の検出結果に基づいて推奨されるフィルタ条件をユーザに提示するためのメッセージ画面４０１が表示された例を示している。この図４の例の場合、表示部２１２は、変化検知部２０８から服の色リスト情報を取得し、その色リスト情報を基にフィルタ条件を解析することにより、推奨するフィルタ条件を求める。例えば、表示部２１２は、色リスト情報を基に、同一人物において変化した服装の一覧を生成し、その変化した服装の一覧を基に、条件設定画面３０３の中のフィルタ条件の中で、検索の際に用いることを推奨するフィルタ条件を求める。そして、表示部２１２は、その推奨するフィルタ条件を表すメッセージ画面４０１を表示することによってユーザに提示する。本実施形態の場合、このような推奨フィルタ条件を表すメッセージ画面４０１を、条件設定画面３０３のＵＩに含めて表示させることで、ユーザに対し、フィルタ条件の変更を促すことができる。なお、図４の検索結果画面３０１には、同一人物において服装が変化した人物のサムネイル画像３０２の一覧を表示しても良い。また、図４の例においても同様に、鞄等の所持物について推奨するフィルタ条件のメッセージを表示しても良い。

図５は、表示部２１２による画面表示の一例であり、検索結果画面３０１と人物の服装の変化を時系列順に並べた遷移画面５０１とが同一画面上に表示された例を示している。図５の例の場合、表示部２１２は、変化検知部２０８から服の色リスト情報を取得し、その情報を基に、同一人物について服装が変化したサムネイル画像３０２とその撮影時刻の情報を情報管理部２０６から取得する。そして、表示部２１２は、それら同一人物について服装が変化したサムネイル画像３０２と、各服装の色とを、服装の色が変化した時刻に合わせて時系列順に並べた遷移画面５０１を表示する。これにより、本実施形態によれば、ユーザに対し、同一人物において服装が変化する時間的な推移を提示することができる。なお、図５の例においても同様に、鞄等の所持物が変化した時間的な推移を提示しても良い。

図６は、表示部２１２による画面表示の一例であり、服装変化エリア画面６０１の例を示している。図６の例の場合、表示部２１２は、変化検知部２０８から服装変化エリアと情報管理部２０６から各カメラＩＤに対応した設置位置（カメラ座標）と撮影範囲の情報を取得し、それらの情報を基に、服装変化エリア画面６０１を表示する。例えば、表示部２１２は、地図画像６０２上に、各カメラＩＤに対応した設置位置と撮影方向をそれぞれ表現したカメラアイコン６０３を配置した服装変化エリア画面６０１を表示する。そして、表示部２１２は、人物の服装が変化した服装変化エリアが存在する場合、その服装変化エリアを撮影する撮像装置１０１のカメラＩＤに対応したカメラアイコン６０３の撮影範囲を、服装変化があったエリア６０４として表示する。なお図６の例は服装変化があったエリア６０４を表示したが、例えば服装変化があったエリアを撮影した撮像装置１０１のカメラＩＤに対応したエリア名をリスト形式により表示しても良い。また、図６の例は、服装変化があったエリア６０４のみを表示しているが、エリア６０４と共に図３同様の検索結果画面３０１をも併せて表示してもよい。さらに、図６の例においても同様に、鞄等の所持物が変化したエリアを提示しても良い。

なお物体検出部２０２では、参考文献１に記載の画像から勾配方向ヒストグラム特徴を抽出し、その特徴量をサポートベクターマシンで学習したモデルを用いて人か否かを識別しているが、他の方法を用いても良い。例えば、抽出する特徴量は勾配方向ヒストグラム特徴に限らず、Haar-like特徴、ＬＢＰＨ（Local Binary Pattern Histogram）特徴等を用いても良いし、それらを組み合せても良い。抽出した特徴量は人物の検出のために共用される。また、人物を識別するモデルはサポートベクターマシンに限らず、アダブースト識別器、ランダム分類木（Randomized Tree）等を用いても良い。人物の検出結果は、それぞれ画像中の人物を囲む矩形を表す四つの頂点の位置座標として出力される。また、位置座標と共に検出結果を表す尤度を出力しても良い。尤度は、抽出した特徴量と人物を識別するモデルとを照合した結果であり、モデルとの一致度を表す。また、対象物体の位置をより高精度に特定するために、以下の参考文献４の人体を追尾する方法を併用しても良い。参考文献４：「B.Benfold, Stable multi-target tracking in real-time surveillance video. Computer Vision and Pattern Recognition (CVPR), 2011.」

この人体追尾の方法を用い、検出処理により検出した人物を、後のフレームで追尾することによって、１枚の画像で検出できない人物の位置を特定し、対象の位置を高精度に特定することが可能となる。また、追尾の方法についても、対象物体の位置を特定する処理であれば良く、前述の追尾方法に限定されるものではない。例えば、追尾処理として、Mean-shift tracking、Kalman Filter、on-line boosting等を用いても良い。

また第一抽出部２０４及び第二抽出部２０５における特徴量抽出は、対象物体の特徴を抽出する処理であり、特定の特徴量に限定されるものではなく、対象物体を表す情報を抽出する処理であれば良い。例えば、特徴量の種類として、ＳＩＦＴ特徴や色ヒストグラム等を用いても良いし、それらを組み合わせても良い。また、抽出されるのは顔や全身の特徴、服の色、所持物に限るものではなく、例えば髪の色、年齢、性別、体型、靴、装身具、人物の動作の癖など、人物の外見上における他の特徴が含まれていても良い。フィルタ部２１０は、検索結果を絞り込む機能を有するものであり、特定の検索条件に限定するものではない。例えば、鞄等の所持物の有無や、年齢、性別、体型、靴、装身具、人物の動作の癖といった人物の属性に基づくフィルタリングが行われても良い。

図７は、本実施形態の情報処理装置おける物体の特徴量を取得する処理の流れを示したフローチャートである。図７のフローチャートの処理は、ハードウェア構成により実現されても良いし、ソフトウェア構成により実現されても良く、一部がソフトウェア構成で残りがハードウェア構成により実現されてもよい。ソフトウェア構成により処理が実行される場合、例えば図１（ｃ）に示したＲＯＭ１３４に記憶されている本実施形態に係るプログラムがＲＡＭ１３６に展開されてＣＰＵ１３５が実行することにより実現される。本実施形態に係るプログラムは、ＲＯＭ１３４に予め用意されていてもよく、また着脱可能な半導体メモリ等から読み出されたり、通信部１３３を介してインターネット等のネットワークからダウンロードされたりしてもよい。なお、以下の説明では、図７のフローチャートの各処理ステップＳ７０１〜ステップＳ７０６をＳ７０１〜Ｓ７０６と略記する。これらは、後述する図８のフローチャートにおいても同様であるとする。

以下、図７のフローチャートに示した物体の特徴量を求める処理の流れを、図２に示した機能ブロックを参照しながら説明する。図７のフローチャートの処理は、画像取得部２０１、物体検出部２０２、第一抽出部２０４、第二抽出部２０５、情報管理部２０６により実行される。

先ず、画像取得部２０１は、Ｓ７０１の処理として例えば撮像装置１０１から画像を取得し、次のＳ７０２の処理として例えば撮像された画像が存在するか否かを判定する。そして、Ｓ７０２において撮像された画像が存在していないと判定された場合には図７のフローチャートの処理を終了し、一方、画像が存在していると判定した場合にはＳ７０３に処理が進む。

Ｓ７０３に進むと、物体検出部２０２は、取得画像の中に存在する例えば複数の物体のそれぞれに対して検出処理を実行する。そして、物体検出部２０２は、前述したようにカメラＩＤと、検出された物体を一意に特定する物体ＩＤと、物体の検出矩形と、検出時刻とをまとめて検出情報として切り出し部２０３に送る。切り出し部２０３は、前述したように、検出情報の検出矩形に基づき、取得画像から物体の画像領域のみを切り出す処理を実行してサムネイルを作成し、そのサムネイルを検出情報と対応付けて第一抽出部２０４と第二抽出部２０５に送る。

第一抽出部２０４は、Ｓ７０４の処理として、Ｓ７０３の処理で作成されたサムネイルから、前述した第一の特徴量を抽出する処理を実行する。また、第二抽出部２０５は、Ｓ７０５の処理として、サムネイルから、前述した第二の特徴量を抽出（服の色の抽出も含む）する処理を実行する。
その後、Ｓ７０６の処理として、Ｓ７０３で得られた検出情報、Ｓ７０４で得られた第一の特徴量、Ｓ７０５で得られた第二の特徴量および服の色の各情報がまとめて物体情報としてデータ解析装置１０３に送られ、情報管理部２０６により管理・保存される。このＳ７０６の後、処理はＳ７０１に戻り、例えば次のフレームの画像が取得されて、Ｓ７０１以降の処理が行われる。

図８は、本実施形態の情報処理装置における物体の検索処理の流れを示したフローチャートである。以下、図８のフローチャートに示した物体の検索処理の流れを、図２に示した機能ブロックを参照しながら説明する。図８のフローチャートの処理は、入力部２１１、クエリ抽出部２０７、検索部２０９、変化検知部２０８、表示部２１２、フィルタ部２１０により実行される。

先ず、Ｓ８０１において、入力部２１１はユーザから指示されたクエリ画像を取得し、クエリ抽出部２０７はクエリ画像から前述したクエリ特徴量を取得して、検索部２０９と変化検知部２０８入力する。
次にＳ８０２において、検索部２０９は、前述したように、クエリ特徴量を基に第一の照合スコアＳｉ１と第二の照合スコアＳｊ２とを求め、それら第一，第二の照合スコアＳｉ１，ｊ２を基に物体情報の集合Ｒｓｈを検索結果として求める。

またＳ８０３において、変化検知部２０８は、前述した第一，第二の照合スコアＳｉ１，Ｓｊ２を基にクエリ画像により指定された対象物体の服装変化の検知を行う。さらに変化検知部２０８は、前述したようにクエリ画像で指定された対象物体における服の色リスト情報を作成し、服装変化エリアについても検知する。

次にＳ８０４において、表示部２１２は、前述したように推奨されるフィルタ条件をユーザに提示する。そしてＳ８０５において、入力部２１１は、ユーザによりフィルタ条件が設定されると、そのフィルタ条件をフィルタ部２１０に送る。これにより、Ｓ８０６において、フィルタ部２１０は、設定されたフィルタ条件に基づくフィルタリングを行い、表示部２１２は、そのフィルタ検索結果を表示する。

以上説明したように、本実施形態の情報処理システムにおいては、例えば街中に設置された複数の撮像装置１０１から取得した画像から物体としての人物の特徴量を解析し、また人物の服装変化から検索の推奨フィルタ条件を掲示する。これにより、本実施形態では、ユーザが想定していない服装の変化を含めて検索結果をフィルタリングすることができ、ユーザは検索結果の絞り込みを効率的に行うことができるようになる。したがって、本実施形態によれば、正しい検索結果を得られるようになる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１０１：撮像装置、１０２：画像解析装置、１０３：データ解析装置、１０４：ストレージ装置、１０５：入力装置、１０６：表示装置、１０７：ＬＡＮ、２０１：画像取得部、２０２：物体検出部、２０３：切り出し部、２０４：第一抽出部、２０５：第二抽出部、２０６：情報管理部、２０７：クエリ抽出部、２０８：変化検知部、２０９：検索部、２１０：フィルタ部、２１１：入力部、２１２：表示部

Claims

画像から特定の物体の領域を検出する物体検出手段と、
前記物体の領域から第一の特徴量を抽出する第一の抽出手段と、
前記物体の領域から前記第一の特徴量とは異なる第二の特徴量を抽出する第二の抽出手段と、
第一の特徴量と第二の特徴量とを基に、前記物体の外見の変化を検知する変化検知手段と、
前記外見の変化の検知結果を基に、前記物体の外見に関するフィルタ条件を提示する提示手段と、
を有することを特徴とする情報処理装置。
前記提示手段は、前記物体の外見の変化の検知結果を基に、前記物体の外見に関する検索で推奨するフィルタ条件を求めて前記提示することを特徴とする請求項１に記載の情報処理装置。
前記提示手段は、前記外見の変化の検知結果を基に前記物体の変化する前記外見の一覧を生成し、前記物体の変化する前記外見の一覧を基に前記推奨するフィルタ条件を求めることを特徴とする請求項２に記載の情報処理装置。
画像から特定の物体の領域を検出する物体検出手段と、
前記物体の領域から第一の特徴量を抽出する第一の抽出手段と、
前記物体の領域から前記第一の特徴量とは異なる第二の特徴量を抽出する第二の抽出手段と、
第一の特徴量と第二の特徴量とを基に、前記物体の外見の変化を検知する変化検知手段と、
前記外見の変化の検知結果を基に、前記物体の変化した前記外見の一覧を提示する提示手段と、
を有することを特徴とする情報処理装置。
前記提示手段は、前記物体の外見が変化した時系列の順に前記変化した外見の前記一覧を提示することを特徴とする請求項４に記載の情報処理装置。
画像から特定の物体の領域を検出する物体検出手段と、
前記物体の領域から第一の特徴量を抽出する第一の抽出手段と、
前記物体の領域から前記第一の特徴量とは異なる第二の特徴量を抽出する第二の抽出手段と、
第一の特徴量と第二の特徴量とを基に、前記物体の外見の変化を検知する変化検知手段と、
前記物体の外見の変化の検知結果を基に、前記物体の外見が変化するエリアを提示する提示手段と、
を有することを特徴とする情報処理装置。
前記変化検知手段は、前記エリアごとに外見の変化を検知した回数をカウントし、前記外見の変化をカウントした回数が所定の回数閾値以上であれば、当該エリアを前記外見が変化するエリアであると検知することを特徴とする請求項６に記載の情報処理装置。
前記エリアは、前記画像を撮影する撮像装置の撮影範囲であることを特徴とする請求項６または７に記載の情報処理装置。
前記変化検知手段は、前記第一の特徴量の類似度が所定の第一の閾値以上であり、前記第二の特徴量の類似度が所定の第二の閾値未満である場合、前記外見が変化したと検知することを特徴とする請求項１から８のいずれか１項に記載の情報処理装置。
前記特定の物体の領域は人物を含む矩形の領域であり、
前記第一の特徴量は前記人物の顔の特徴量であり、
前記第二の特徴量は前記人物の全身の特徴量と前記人物の少なくとも服の色を表す特徴量とを含むことを特徴とする請求項１から９のいずれか１項に記載の情報処理装置。
前記第二の抽出手段は、前記人物の上半身領域および下半身領域の色ヒストグラムを算出し、前記上半身領域と下半身領域との各色ヒストグラムについて所定の基準色ヒストグラムとの比較を行い、類似度の最も高い基準色ヒストグラムが示す色を、前記服の色を表す特徴量として抽出することを特徴とする請求項１０に記載の情報処理装置。
前記第二の特徴量は、前記人物の所持物、人物の髪の色、年齢、性別、体型の、少なくともいずれかを表す特徴量を含むことを特徴とする請求項１０または１１に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
画像から特定の物体の領域を検出する物体検出工程と、
前記物体の領域から第一の特徴量を抽出する第一の抽出工程と、
前記物体の領域から前記第一の特徴量とは異なる第二の特徴量を抽出する第二の抽出工程と、
第一の特徴量と第二の特徴量とを基に、前記物体の外見の変化を検知する変化検知工程と、
前記物体の外見の変化の検知結果を基に、前記物体の外見に関するフィルタ条件を提示する提示工程と、
を有することを特徴とする情報処理方法。
情報処理装置が実行する情報処理方法であって、
画像から特定の物体の領域を検出する物体検出工程と、
前記物体の領域から第一の特徴量を抽出する第一の抽出工程と、
前記物体の領域から前記第一の特徴量とは異なる第二の特徴量を抽出する第二の抽出工程と、
第一の特徴量と第二の特徴量とを基に、前記物体の外見の変化を検知する変化検知工程と、
前記物体の外見の変化の検知結果を基に、前記物体の変化した前記外見の一覧を提示する提示工程と、
を有することを特徴とする情報処理方法。
情報処理装置が実行する情報処理方法であって、
画像から特定の物体の領域を検出する物体検出工程と、
前記物体の領域から第一の特徴量を抽出する第一の抽出工程と、
前記物体の領域から前記第一の特徴量とは異なる第二の特徴量を抽出する第二の抽出工程と、
第一の特徴量と第二の特徴量とを基に、前記物体の外見の変化を検知する変化検知工程と、
前記物体の外見の変化の検知結果を基に、前記物体の外見が変化するエリアを提示する提示工程と、
を有することを特徴とする情報処理方法。
コンピュータを、請求項１から１２のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。