JP6532190B2

JP6532190B2 - 画像検索装置、画像検索方法

Info

Publication number: JP6532190B2
Application number: JP2014064342A
Authority: JP
Inventors: 矢野　光太郎; 光太郎矢野; 東條　洋; 洋東條
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2019-06-19
Anticipated expiration: 2034-03-26
Also published as: US9633264B2; US20150279054A1; JP2015187759A

Description

本発明は、画像から特定の物体を検索するための技術に関するものである。

近年、人物監視を目的として大量の監視カメラが導入されている。このような監視カメラの業務を支援するシステムは数多く提案されているが、その中でも特定の人物を数多くの監視カメラ映像の中から検索することは重要なアプリケーションの一つである。

特定の人物を大規模監視カメラシステムの映像から探したい場合、以下のようなシナリオが想定される。すなわち、検索対象の人物がどこに、何時頃いたかという情報によって、カメラと時間を絞り込み、過去の映像の中から人物映像を検索する。さらに、現在、検索対象の人物がどこにいるのかを多くのカメラ映像から検索する。しかしながら、現実的には、多くのカメラ映像から迅速に人物映像を検索することは困難であり、検索に多くの時間を要すると、検索対象の人物が移動してしまうという問題がある。そこで、過去の映像から検索した人物映像をクエリとして自動的に類似する人物を検索するアプリケーションが重要になってくる。

例えば、クエリとして得た人物映像が赤い服を着た人物であるとする。そのような場合、監視映像の各フレームから人物領域を検出し、検出した人物領域の服装部分から色特徴を取得してクエリと比較することで検索候補を得るという方法が考えられる。映像から人物領域を検出する方法は、例えば、非特許文献１に開示されている。この方法によると、入力画像から抽出した数多くの検出ウインドウを、予め膨大な数の人物画像を用いて学習した辞書データと照合することによって高精度の人物領域の検出を実現している。さらに、積分画像を利用して人物の検出に有効なHistogram of Oriented Gradients（以後、HOGと称す）特徴量を求め、アダブースト学習で得たカスケード型識別器を適用することで高速化を実現している。カスケード型識別器は、複数の識別器を直列に結合することによって、効率よく検出対象を絞り込んでいく方法である。

Q. Zhu, S. Avidan, M. C. Yeh, and K. T. Cheng. FastHuman Detection Using a Cascade of Histograms of Oriented Gradients. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2006.

しかしながら、赤い服を着た人物を検索しようとするとき、人物領域の検出において必要のない人物（ここでは、赤い服を着ていない人物）を検出することは効率のよい方法とは言えない。人物の見えは服装や向き、その他様々な撮影状況、シーンによって変わってくる。そのような様々な変動のある人物画像をカスケード型識別器で絞り込もうとすると、カスケード型識別器の構成が必要以上に複雑になってしまう。また、非特許文献１の人物領域検出方法では人物領域以外の背景部分に誤検出が発生する。

本発明はこのような問題に鑑みてなされたものであり、識別器の構成を必要以上に複雑にすることなく、高精度に検索対象を検出し、効率良く検索対象を検索する為の技術を提供する。

本発明の一様態によれば、複数のカメラのそれぞれを順次選択する選択手段と、
前記選択手段が選択したカメラを選択カメラとし、該選択カメラによる撮像画像群のうち規定の撮像期間内に撮像されたそれぞれのフレームの撮像画像から、フレーム間で変化量が規定値以下となる領域を抽出し、該抽出した領域内の画像を合成した合成画像を、検索対象物が写っていない画像である、前記選択カメラに対応する背景画像として取得する取得手段と、
前記複数のカメラのいずれかにより撮像された撮像画像からユーザにより選択された撮像画像において、該ユーザにより指定された前記検索対象物が写っている領域の画像をクエリ画像として取得する手段と、
前記選択カメラに対応する背景画像と前記クエリ画像のそれぞれをパターン画像とし、該パターン画像から、それぞれ異なる種類の特徴量を抽出し、前記選択カメラによる撮像画像から前記検索対象物を識別するための選択カメラ毎の識別器を該それぞれ異なる種類の特徴量を用いて学習することで、該それぞれ異なる種類の特徴量に対する重みを、該学習の結果とする学習手段と、
前記学習手段により学習された識別器を用いて、前記選択カメラによる撮像画像群から前記検索対象物を検索する検索手段と
を備え、
前記検索手段は、
前記撮像画像群から撮像画像を順次取得し、該取得した撮像画像から前記それぞれ異なる種類の特徴量を順次抽出し、該抽出した特徴量と該特徴量に対応する重みとを用いて前記抽出した特徴量に対する評価値を計算する計算処理を行い、該評価値が閾値以上であれば、前記取得した撮像画像から次の特徴量を抽出して該次の特徴量に対する評価値を前記計算処理により計算し、該次の特徴量に対する評価値が閾値未満であれば、前記取得した撮像画像に対する処理を終了して前記撮像画像群から次の撮像画像を取得し、前記取得した撮像画像から抽出した前記それぞれ異なる種類の特徴量の何れの評価値も閾値以上であれば、該取得した撮像画像を検索結果として出力することを特徴とする。

本発明の構成によれば、識別器の構成を必要以上に複雑にすることなく、高精度に検索対象を検出し、効率良く検索対象を検索することができ、検索対象に固有の特徴量による効果的な絞り込みを行うことができる。また、選択したカメラ固有の背景部分の誤検出を低減することができる。

画像検索装置１０００の機能構成例を示すブロック図。システムの概略構成例を示す図。画像検索装置１０００が行う処理のフローチャート。クエリ画像の一例を示す図。識別器学習部５００の機能構成例を示すブロック図。識別器学習部５００が行う処理のフローチャート。色特徴を説明する図。検索対象検出部６００の機能構成例を示すブロック図。検索対象検出部６００が行う処理のフローチャート。識別器学習部５００の機能構成例を示すブロック図。識別器学習部５００が行う処理のフローチャート。画像検索装置１０００に適用可能な装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の１つである。

［第１の実施形態］
先ず、本実施形態に係るシステムの概略構成例について、図２を用いて説明する。図２に示す如く、本実施形態に係る画像検索装置１０００には、複数台のカメラ（カメラ１１，１２，…，Ｎ）が接続されており、画像検索装置１０００には、それぞれのカメラによる撮像画像が入力されることになる。なお、画像検索装置１０００とそれぞれのカメラとの間の接続は有線接続であっても良いし、無線接続であっても良い。

次に、本実施形態に係る画像検索装置１０００の機能構成例について、図１のブロック図を用いて説明する。なお、図１に示した構成は以下に説明する処理で登場する主要な構成であり、本実施形態に係る画像検索装置１０００が、図１に示した構成のみから成るものを意図するわけではない。また、図１に示した構成はあくまでも一例であり、以下に説明する各動作を実現できるのであれば、如何なる構成を採用しても構わない。

カメラ選択部４００は、本装置に接続されている複数台のカメラ（図２の場合はカメラ１１，１２，…，Ｎ）のそれぞれを順次選択する。例えば、カメラ選択部４００は、一定時間ごとにカメラ１１，カメラ１２，…の順に選択する。カメラ選択部４００により選択されたカメラからの撮像画像は、該撮像画像の撮像時刻（日時）及び該撮像画像を撮像したカメラの識別情報と共にカメラ画像記憶部１００に格納される。撮像時刻については、カメラ側で計時した撮像時刻を撮像画像に添付して画像検索装置１０００に送出するようにしても構わないし、カメラから受信した撮像画像に画像検索装置１０００側で計時している撮像時刻を添付しても構わない。これは識別情報についても同様である。

クエリ画像取得部２００は、検索対象物が写っている画像をクエリ画像として取得する。クエリ画像の取得方法は特定の方法に限るものではない。例えば、カメラ画像記憶部１００に格納されている撮像画像群を不図示の表示画面上に一覧表示し、ユーザは検索対象物が写っている画像を目視で確認する。そして、該確認後にユーザが不図示の操作部を用いて指定した１つ（検索対象物が写っている画像）を、クエリ画像取得部２００がクエリ画像として取得する。

以下では、検索対象物は、人物であるものとして説明するが、検索対象物が人物以外の対象物であったとしても、以下の説明の本質は変わらない。

背景画像記憶部３００は、本装置に接続されているそれぞれのカメラに対し、背景画像を生成して保持する。ここでいうところの「背景画像」とは、人物が写っていない画像のことであり、カメラごとに、該カメラにより撮像された撮像画像群（カメラ画像記憶部１００内）から得られる画像である。例えば、あるカメラ（カメラＣと呼称する）の背景画像を生成する場合、カメラＣにより規定の撮像期間内に撮像されたそれぞれのフレームの撮像画像から、フレーム間で変化量が規定値以下となる領域を抽出する。そして、該抽出した領域内の画像を合成した合成画像を、カメラＣに対する「背景画像」として取得する。なお、撮像時刻に応じて背景画像が変化する場合もあるので、カメラ毎に撮像時刻の異なった複数の背景画像を記憶するようにした方がよい。

識別器学習部５００は、撮像画像から検索対象物を識別するための識別器を、クエリ画像取得部２００が取得したクエリ画像と、背景画像記憶部３００で保持している背景画像と、を用いて学習する。

検索対象検出部６００は、識別器学習部５００により学習された識別器を用いて、カメラ画像記憶部１００に保持されている撮像画像群から、検索対象物を検索する。検索対象検出部６００による検索結果は、検索結果出力部７００により適当な出力先に出力される。

次に、本実施形態に係る画像検索装置１０００が行う処理、すなわち、識別器を学習し、該学習した識別器を用いて撮像画像群から検索対象物を検索する、という一連の処理について、同処理のフローチャートを示す図３を用いて説明する。なお、図３のフローチャート従った処理を開始する時点では、カメラ画像記憶部１００及び背景画像記憶部３００のそれぞれには、上述した画像がすでに保持されているものとする。

ステップＳ１００では、クエリ画像取得部２００は、クエリ画像を取得する。上記のように、クエリ画像の取得方法については特定の取得方法に限るものではないが、以下ではその一例を示す。

例えば、ユーザは検索対象の人物がどこに、何時頃にいたかという情報を手掛かりに、カメラ画像記憶部１００に保持されている撮像画像をカメラ及び撮像時刻で絞り込む。この絞り込みはユーザが行っても良いし、この条件を入力して画像検索装置１０００が行っても良い。そして、絞り込んだ画像を不図示の表示画面上に一覧表示し、ユーザがこの表示画面を見ながら、検索対象の人物が写っている撮像画像を検索する。さらにユーザは、検索した撮像画像中の対象人物が写っている領域を包含する矩形領域を、不図示のマウスなどでもって指定する。この指定された矩形領域内の画像がクエリ画像として取得される。

クエリ画像の例を図４に示す。図４において、Ｉは、一覧表示された撮像画像群のうち検索対象の人物が写っている画像としてユーザが検索した撮像画像、Ｒはユーザが指定した矩形領域、Ｑは矩形領域Ｒ内の画像、即ちクエリ画像である。このとき、ユーザは複数の画像からクエリ画像を指定するようにしてもよい。クエリ画像を複数指定することにより、後段の検出処理において検索対象人物の見えの変化に対応できる。本実施形態では、さらに、ユーザが指定した矩形領域内の画像に類似する画像を同じカメラの前後の時刻の撮像画像から抽出し、クエリ画像として加える。取得したクエリ画像の画像サイズが異なる場合は、クエリ画像の画像サイズを所定のサイズに正規化しておく。

ステップＳ２００では、カメラ選択部４００は、本装置に接続されている複数台のカメラのうち１つを選択する。例えば、図２の場合、１回目のステップＳ２００ではカメラ１１を選択し、２回目のステップＳ２００ではカメラ１２を選択し、Ｎ回目のステップＳ２００ではカメラＮを選択する。そして（Ｎ＋１）回目のステップＳ２００では再びカメラ１１を選択する。このようにして、カメラ選択部４００は、本装置に接続されている複数台のカメラのそれぞれを順次、繰り返し選択する。以下では、ステップＳ２００で選択したカメラを選択カメラと呼称する。

ステップＳ３００では、背景画像記憶部３００は、選択カメラによる撮像画像から生成した背景画像を、識別器学習部５００に対して送出する。より具体的には、背景画像記憶部３００は、選択カメラによる撮像画像から生成した背景画像から、ステップＳ１００で取得したクエリ画像のアスペクト比に近いアスペクト比を有する様々なサイズの部分画像を抽出する。そして背景画像記憶部３００は、抽出したそれぞれの部分画像を、クエリ画像と同サイズに正規化し、該正規化後のそれぞれの部分画像を、選択カメラに対応する背景画像として、識別器学習部５００に対して送出する。

ステップＳ４００では、識別器学習部５００は、クエリ画像取得部２００が取得したクエリ画像と、背景画像記憶部３００から送出されたそれぞれの背景画像と、を用いて、識別器の学習を行う。ステップＳ４００における処理の詳細については後述する。

ステップＳ５００では、カメラ画像記憶部１００は、選択カメラによる撮像画像群のうち未選択の撮像画像を１つ選択し、該選択した撮像画像を検索対象検出部６００に対して送出する。

ステップＳ６００では、検索対象検出部６００は、ステップＳ４００で学習した識別器を用いて、ステップＳ５００でカメラ画像記憶部１００から送出された撮像画像から、検索対象物を検索する。ステップＳ６００における処理の詳細については後述する。

ステップＳ７００では、検索結果出力部７００は、ステップＳ６００における検索結果を、適当な出力先に対して送出する。なお、ステップＳ５００〜Ｓ７００の一連の処理は、選択カメラによるそれぞれの撮像画像に対して行われる。また、ステップＳ２００〜Ｓ７００の一連の処理は、本装置に接続されている複数台のカメラのそれぞれに対して行われる。

次に、識別器学習部５００の機能構成例について図５のブロック図を用いて説明する。画像パターン取得部５１０は、クエリ画像取得部２００から送出されたクエリ画像と、背景画像記憶部３００から送出された背景画像と、をパターン画像として取得する。

第一の特徴抽出部５２０は、画像パターン取得部５１０が取得したパターン画像から、低次元の色特徴（特徴量）を抽出する。第二の特徴抽出部５３０は、画像パターン取得部５１０が取得したパターン画像から、高次元の色特徴（特徴量）を抽出する。第三の特徴抽出部５４０は、画像パターン取得部５１０が取得したパターン画像から、上記のＨＯＧ特徴（特徴量）を抽出する。特徴量記憶部５５０は、第一の特徴抽出部５２０、第二の特徴抽出部５３０、第三の特徴抽出部５４０、のそれぞれで抽出した特徴（特徴量）を記憶する。ＳＶＭ学習部５６０は、特徴量記憶部５５０に記憶されている特徴を用いて、識別器を学習する。

図５に示す構成を有する識別器学習部５００が行う処理（ステップＳ４００）の詳細について、図６を用いて説明する。ステップＳ５１０では、画像パターン取得部５１０は、画像パターンと、該画像パターンがクエリ画像であるのかそれとも背景画像であるのかを示す画像ラベルと、を取得する。この画像ラベルは、対応する画像の発行元で生成され、該画像と共に送出されるものとする。

ステップＳ５２０では、第一の特徴抽出部５２０は、画像パターン取得部５１０が取得したパターン画像から、低次元の色特徴を抽出する。第一の特徴抽出部５２０で抽出する色特徴について、図７（ａ）を用いて説明する。

検索対象物である人物の特徴を表す典型的な特徴量として、服装部分の色が考えられる。そこで、本実施形態では、図７（a）のＲ１、Ｒ２に示す矩形領域から夫々正規化ＲＧＢの平均値を求める。ここで、ある画素Ｐｉ（ｉは画素に対するインデックス）のＲ成分値、Ｇ成分値、Ｂ成分値をそれぞれｐｉ、ｑｉ、ｒｉとすると、画素Ｐｉの正規化ＲＧＢ画素値は、（ｐｉ／ｋ、ｑｉ／ｋ、ｒｉ／ｋ）として求めることができる（ｋ＝ｐｉ＋ｑｉ＋ｒｉ）。然るに、矩形領域Ｒ１の正規化ＲＧＢ値の平均値とは、矩形領域Ｒ１内の各画素について求めた正規化ＲＧＢ値の平均値のことである。これは、矩形領域Ｒ２についても同様である。この場合、第一の特徴抽出部５２０はパターン画像から、矩形領域Ｒ１から求めた正規化ＲＧＢ値の平均値（Ｒ，Ｇ，Ｂの３成分）と矩形領域Ｒ２から求めた正規化ＲＧＢ値の平均値（Ｒ，Ｇ，Ｂの３成分）とを連結させた６成分（６次元）の色特徴を抽出する。そして第一の特徴抽出部５２０は、この６次元の色特徴を特徴量記憶部５５０に格納する。

次に、ステップＳ５３０では、第二の特徴抽出部５３０は、画像パターン取得部５１０が取得したパターン画像から、高次元の色特徴を抽出する。第二の特徴抽出部５３０で抽出する色特徴について、図７（ｂ）を用いて説明する。

第二の特徴抽出部５３０は先ず、図７（ｂ）に示す如く、パターン画像を３×６個の画素ブロックに分割し、それぞれの画素ブロックについて、上記の正規化ＲＧＢの平均値を求める。そして第二の特徴抽出部５３０は、求めた平均値を連結して３×６×３＝５４次元の色特徴とし、該５４次元の色特徴を、特徴量記憶部５５０に格納する。第二の特徴抽出部５３０がパターン画像から抽出した色特徴（第二の特徴）は、第一の特徴抽出部５２０がパターン画像から抽出した色特徴（第一の特徴）よりも特徴の次元数は大きくなるが、図７（ｂ）に示したように、より詳細な色特徴が表現できる。

ステップＳ５４０では、第三の特徴抽出部５４０は、画像パターン取得部５１０が取得したパターン画像から、上記のＨＯＧ特徴を抽出する。第三の特徴抽出部５４０では、第二の特徴抽出部５３０と同様に、まず、画像パターンを複数の画素ブロックに分割する。本実施形態では、以下の文献Ａに開示されている方法に従い、画像パターンを７×１５個の画素ブロックに分割し、それぞれの画素ブロックについて、９ビンのＨＯＧ特徴を求める。

（文献Ａ） Navneet Dalal and Bill Triggs. Histograms of Oriented Gradients for Human Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2005.
そして第三の特徴抽出部５４０は、画素ブロック毎に求めたＨＯＧ特徴を連結して７×１５×９＝９４５次元の色特徴とし、該９４５次元の色特徴を、特徴量記憶部５５０に格納する。第三の特徴抽出部５４０がパターン画像から抽出した色特徴（第三の特徴）は、上記の文献Ａによると、人物の輪郭を精度よく捉える事が可能であり、エッジ特性を表すことで色特徴を補完する。

なお、ステップＳ５２０〜Ｓ５４０による一連の処理により、特徴量記憶部５５０には以下のようにして色特徴が格納される。

（ｘｉ＝（ｘ１ｉ，ｘ２ｉ，ｘ３ｉ），ｙｉ）
ｘ１ｉ，ｘ２ｉ，ｘ３ｉはそれぞれ、画像パターン取得部５１０が選択カメラについてｉ番目に取得したパターン画像から抽出された第一の特徴、第二の特徴、第三の特徴であり、ｘｉは、ｘ１ｉ，ｘ２ｉ，ｘ３ｉを連結した色特徴（第四の特徴）である。また、ｙｉは、画像パターン取得部５１０がｉ番目に取得したパターン画像の画像ラベルである。

ステップＳ５１０〜Ｓ５４０の一連の処理は、選択カメラに係る全てのパターン画像について行われる。そして全てのパターン画像についてステップＳ５１０〜Ｓ５４０の処理が行われると、処理はステップＳ５５０に進む。

ステップＳ５５０では、ＳＶＭ学習部５６０は、特徴量記憶部５５０に格納されている第一の特徴から第一の識別パラメータを学習する。ＳＶＭ学習部５６０は、全ての画像パターンの第一の特徴及び画像ラベルの組（ｘ１ｉ，ｙｉ）を用いて線形Support Vector Machine（ＳＶＭ）の学習を行い、色特徴の各次元に対応する重みを、第一の識別パラメータとして出力する。ここで、本ステップを含む以下の学習では、クエリ画像にはラベルｙｉ＝＋１、背景画像にはラベルｙｉ＝−１を割り当てて学習する。

ステップＳ５６０では、ＳＶＭ学習部５６０は、特徴量記憶部５５０に格納されている第二の特徴から第二の識別パラメータを学習する。ＳＶＭ学習部５６０は、全ての画像パターンの第二の特徴及び画像ラベルの組（ｘ２ｉ，ｙｉ）を用いて線形ＳＶＭの学習を行い、色特徴の各次元に対応する重みを、第二の識別パラメータとして出力する。

ステップＳ５７０では、ＳＶＭ学習部５６０は、特徴量記憶部５５０に格納されている第三の特徴から第三の識別パラメータを学習する。ＳＶＭ学習部５６０は、全ての画像パターンの第三の特徴及び画像ラベルの組（ｘ３ｉ，ｙｉ）を用いて線形ＳＶＭの学習を行い、色特徴の各次元に対応する重みを、第三の識別パラメータとして出力する。

ステップＳ５８０では、ＳＶＭ学習部５６０は、特徴量記憶部５５０に格納されている第四の特徴から第四の識別パラメータを学習する。ＳＶＭ学習部５６０は、全ての画像パターンの第四の特徴及び画像ラベルの組（ｘｉ，ｙｉ）を用いて線形ＳＶＭの学習を行い、色特徴の各次元に対応する重みを、第四の識別パラメータとして出力する。

このように、ＳＶＭ学習部５６０は、第一の識別パラメータ、第二の識別パラメータ、第三の識別パラメータ、第四の識別パラメータ、のそれぞれの算出を、識別器の学習として行う。

次に、検索対象検出部６００の機能構成例について、図８のブロック図を用いて説明する。画像パターン取得部６１０は、カメラ画像記憶部１００から送出された撮像画像をパターン画像として取得する。

第一の特徴抽出部６２１、第二の特徴抽出部６２２、第三の特徴抽出部６２３はそれぞれ、第一の特徴抽出部５２０、第二の特徴抽出部５３０、第三の特徴抽出部５４０と同様の動作を行う。すなわち、第一の特徴抽出部６２１、第二の特徴抽出部６２２、第三の特徴抽出部６２３はそれぞれ、画像パターン取得部６１０が取得したパターン画像から、第一の特徴、第二の特徴、第三の特徴、を抽出する。

第一の特徴抽出部６２１、第二の特徴抽出部６２２、第三の特徴抽出部６２３のそれぞれで抽出した特徴（第一の特徴、第二の特徴、第三の特徴）は、特徴量記憶部６３０に格納する。

識別パラメータ取得部６５０は、識別器学習部５００で学習した識別器の識別パラメータ（第一の識別パラメータ、第二の識別パラメータ、第三の識別パラメータ、第四の識別パラメータ）を、識別器学習部５００から取得する。

第一のパターン識別部６６１は、識別パラメータ取得部６５０が取得した第一の識別パラメータ及び第一の特徴抽出部６２１で抽出した第一の特徴を用いて、画像パターン取得部６１０が取得した画像パターンから検索対象物を検索（識別）する。

第二のパターン識別部６６２は、識別パラメータ取得部６５０が取得した第二の識別パラメータ及び第二の特徴抽出部６２２で抽出した第二の特徴を用いて、画像パターン取得部６１０が取得した画像パターンから検索対象物を検索（識別）する。

第三のパターン識別部６６３は、識別パラメータ取得部６５０が取得した第三の識別パラメータ及び第三の特徴抽出部６２３で抽出した第三の特徴を用いて、画像パターン取得部６１０が取得した画像パターンから検索対象物を検索（識別）する。

第四のパターン識別部６６４は、第一の特徴と第二の特徴と第三の特徴とを連結した特徴と、識別パラメータ取得部６５０が取得した第四の識別パラメータと、を用いて、画像パターン取得部６１０が取得した画像パターンから検索対象物を検索（識別）する。

検出結果出力部６７０は、第一のパターン識別部６６１、第二のパターン識別部６６２、第三のパターン識別部６６３、第四のパターン識別部６６４、のそれぞれによる識別結果に応じた結果を出力する。

図８に示す構成を有する検索対象検出部６００が行う処理（ステップＳ６００）の詳細について、図９を用いて説明する。なお、図９のフローチャートに従った処理を開始する時点では、識別パラメータ取得部６５０は、識別器学習部５００で学習した識別器の識別パラメータ（第一乃至四の識別パラメータ）を取得しているものとする。

ステップＳ６１０では、画像パターン取得部６１０は、カメラ画像記憶部１００から取得したパターン画像上の設定位置（ｘ、ｙ）に規定サイズの矩形領域を設定し、該設定した矩形領域内の画像を抽出し、この抽出した画像を改めてパターン画像とする。この設定位置（ｘ、ｙ）はステップＳ６１０における処理を行う度に更新し、所謂スライディングウインドウ探索により、パターン画像内で矩形領域を移動させながら、該矩形領域内の画像を抽出する。なお、この矩形領域のアスペクト比は、ステップＳ１００で取得したクエリ画像のアスペクト比と同じであり、画像パターン取得部６１０は、矩形領域内の画像を、ステップＳ１００で取得したクエリ画像のサイズと同サイズに正規化する。

ステップＳ６２０では、第一の特徴抽出部６２１は、上記のステップＳ５２０における処理と同様の処理を行うことによって、ステップＳ６１０で抽出したパターン画像から、第一の特徴を抽出する。そして第一の特徴抽出部６２１は、この抽出した第一の特徴を、特徴量記憶部６３０に格納する。

ステップＳ６３０では、第一のパターン識別部６６１は、第一の特徴（上記の例では６次元の色特徴）と、識別パラメータ取得部６５０が取得した第一の識別パラメータと、の内積演算を行い、内積演算結果と、規定の閾値との大小比較を行う。この大小比較の結果、内積演算結果が規定の閾値以上となる場合には、より大きい次元数の色特徴に基づくパターン識別処理を行うべく、処理はステップＳ６４０に進む。一方、内積演算結果が規定の閾値未満である場合には、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていないと判断し、処理はステップＳ６９０に進む。この場合、ステップＳ６９０では、検索結果出力部７００は、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていない旨を出力する。なお、この場合における検索結果出力部７００の動作については特定の動作に限るものではなく、何もしなくても良い。

なお、通常のＳＶＭにおいては内積演算結果が０以上かどうかで判定を行うが、本実施形態では識別器のカスケード接続によって検索対象物以外の画像パターンを拒否するように構成しているため、予め閾値を０よりも小さい値に設定する。このように閾値を設定することで、確実に拒否できる画像パターンのみ拒否し、検出率の低下を防ぐ。

ステップＳ６４０では、第二の特徴抽出部６２２は、上記のステップＳ５３０における処理と同様の処理を行うことによって、ステップＳ６１０で抽出したパターン画像から、第二の特徴を抽出する。そして第二の特徴抽出部６２２は、この抽出した第二の特徴を、特徴量記憶部６３０に格納する。

ステップＳ６５０では、第二のパターン識別部６６２は、第二の特徴（上記の例では５４次元の色特徴）と、識別パラメータ取得部６５０が取得した第二の識別パラメータと、の内積演算を行い、内積演算結果と、規定の閾値との大小比較を行う。この大小比較の結果、内積演算結果が規定の閾値以上となる場合には、より大きい次元数の色特徴に基づくパターン識別処理を行うべく、処理はステップＳ６６０に進む。一方、内積演算結果が規定の閾値未満である場合には、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていないと判断し、処理はステップＳ６９０に進む。この場合、ステップＳ６９０では、検索結果出力部７００は、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていない旨を出力する。なお、この場合における検索結果出力部７００の動作については特定の動作に限るものではなく、何もしなくても良い。ステップＳ６５０で使用する閾値についても、ステップＳ６３０で使用する閾値と同様に設定する。

ステップＳ６６０では、第三の特徴抽出部６２３は、上記のステップＳ５４０における処理と同様の処理を行うことによって、ステップＳ６１０で抽出したパターン画像から、第三の特徴を抽出する。そして第三の特徴抽出部６２３は、この抽出した第三の特徴を、特徴量記憶部６３０に格納する。

ステップＳ６７０では、第三のパターン識別部６６３は、第三の特徴（上記の例では９４５次元の色特徴）と、識別パラメータ取得部６５０が取得した第三の識別パラメータと、の内積演算を行い、内積演算結果と、規定の閾値との大小比較を行う。この大小比較の結果、内積演算結果が規定の閾値以上となる場合には、より大きい次元数の色特徴に基づくパターン識別処理を行うべく、処理はステップＳ６８０に進む。一方、内積演算結果が規定の閾値未満である場合には、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていないと判断し、処理はステップＳ６９０に進む。この場合、ステップＳ６９０では、検索結果出力部７００は、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていない旨を出力する。なお、この場合における検索結果出力部７００の動作については特定の動作に限るものではなく、何もしなくても良い。ステップＳ６７０で使用する閾値についても、ステップＳ６３０で使用する閾値と同様に設定する。

ステップＳ６８０では、第四のパターン識別部６６４は、第四の特徴（第一の特徴と第二の特徴と第三特徴とを連結した色特徴であり上記の例では１００５次元の特徴）と、識別パラメータ取得部６５０が取得した第四の識別パラメータと、の内積演算を行う。ここで、第四の特徴は、上記のステップＳ６２０、ステップＳ６４０、ステップＳ６６０で特徴量記憶部６３０に格納した第一の特徴、第二の特徴、第三の特徴、を連結したもので、以下のように書き表せる。

ｘ＝（ｘ１，ｘ２，ｘ３）
ここで、ｘ１，ｘ２，ｘ３，ｘはそれぞれ、第一の特徴、第二の特徴、第三の特徴、第四の特徴である。そして第四のパターン識別部６６４は、内積演算結果と、規定の閾値「０」との大小比較を行う。この大小比較の結果、内積演算結果が規定の閾値「０」以上となる場合には、ステップＳ６１０で抽出したパターン画像に検索対象物が含まれていると判断し、処理はステップＳ６９０に進む。この場合、ステップＳ６９０では、検索結果出力部７００は、ステップＳ６１０で抽出したパターン画像に検索対象物が含まれている旨を出力する。一方、内積演算結果が規定の閾値未満である場合には、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていないと判断し、処理はステップＳ６９０に進む。この場合、ステップＳ６９０では、検索結果出力部７００は、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていない旨を出力する。なお、この場合における検索結果出力部７００の動作については特定の動作に限るものではなく、何もしなくても良い。

ステップＳ６１０〜Ｓ６９０の一連の処理を、カメラ画像記憶部１００から取得したパターン画像上の全ての位置に規定サイズの矩形領域を設定するまで繰り返す。即ち、該パターン画像上の全ての位置に対する矩形領域について、ステップＳ６１０〜Ｓ６９０の一連の処理を行う。

以上説明した検索対象検出部６００の動作は、換言すれば次のような処理である。識別器学習部５００において抽出したそれぞれの特徴量の次元数（それぞれ異なる次元数）をＤ１、Ｄ２、…、ＤＮ（Ｎは２以上の整数）とし、且つＤ１＜Ｄ２＜…＜ＤＮであるとする。このとき、選択カメラによる撮像画像から抽出した次元数Ｄｉ（１≦ｉ＜Ｎ−１）の特徴量と、該次元数Ｄｉの特徴量に対応する重みと、を用いて評価値Ｅ（ｉ）を計算し、該評価値Ｅ（ｉ）が閾値以上であれば、評価値Ｅ（ｉ＋１）を計算する。そして、評価値Ｅ（Ｎ）が閾値以上であれば、選択カメラによる撮像画像を検索結果として出力する。

ここで、ステップＳ６３０、ステップＳ６５０、ステップＳ６７０において順次画像パターンの絞り込みを行うので、後段の識別処理ほど識別回数が少ない。また、識別器の構成を前段の識別処理ほど識別に用いる特徴の次元数を小さくし、演算量が少ない構成とした。したがって、演算量の多い識別処理ほど識別回数が少なくなるので効率の良い絞り込みができる。

本実施形態では、前段の識別処理を色特徴による識別処理としたので、特定の服装色の人物の検索に好適である。また、本実施形態では、カメラ選択部４００で選択したカメラに対応した背景画像を抽出し、クエリ画像と背景画像を用いて識別器を学習した。このように、カメラ毎に識別対象とする背景画像を切替えて学習することで、識別器の構成を必要以上に複雑にすることなく、カメラ毎に固有の識別器による効果的な絞り込みを行うことができる。

［第２の実施形態］
第１の実施形態では、前段の識別処理を色特徴による識別処理とした。したがって、特定の服装色の人物の検索に好適である。しかしながら、検索対象の人物が色でなく、服装の模様に特徴のある場合には、前段の識別処理をエッジにもとづく演算量の少ない特徴による識別処理とした方がよい。すなわち、検索対象に応じて特徴を選択してカスケード型識別器を構成するようにした方がよい。本実施形態ではこのような考え方にもとづいた構成とした。

本実施形態では、識別器学習部５００及び検索対象検出部６００のみが第１の実施形態と異なり、それ以外については第１の実施形態と同様である。然るに以下では、第１の実施形態との差分、即ち、識別器学習部５００及び検索対象検出部６００について説明する。従って、以下の説明で特に触れない限りは、第１の実施形態と同様であるものとする。

先ず、本実施形態に係る識別器学習部５００の機能構成例について、図１０のブロック図を用いて説明する。画像パターン取得部８１０は、クエリ画像取得部２００から送出されたクエリ画像と、背景画像記憶部３００から送出された背景画像と、をパターン画像として取得する。

第一の特徴抽出部８２０は、画像パターン取得部８１０が取得したパターン画像から、高次元の色特徴、即ち、第１の実施形態で説明した第二の特徴を抽出する。第二の特徴抽出部８３０は、画像パターン取得部８１０が取得したパターン画像から、低次元のＨＯＧ特徴、即ち、第１の実施形態で説明した第三の特徴を抽出する。第三の特徴抽出部８４０は、画像パターン取得部８１０が取得したパターン画像から、高次元のＨＯＧ特徴、即ち、第１の実施形態で説明した第三の特徴よりも高次元のＨＯＧ特徴を抽出する。特徴量記憶部８５０は、第一の特徴抽出部８２０、第二の特徴抽出部８３０、第三の特徴抽出部８４０、のそれぞれで抽出した特徴を記憶する。ＳＶＭ学習部８６０は、特徴量記憶部８５０に記憶されている特徴を用いて、識別器を学習する。識別器評価部８７０は、ＳＶＭ学習部８６０で学習した識別器を評価し、評価結果に応じてカスケード型識別器を構成し、出力する。

図１０に示す構成を有する識別器学習部５００が行う処理（ステップＳ４００）の詳細について、図１１を用いて説明する。ステップＳ８１０では上記のステップＳ５１０と同様に、画像パターン取得部８１０は、画像パターンと、該画像パターンがクエリ画像であるのかそれとも背景画像であるのかを示す画像ラベルと、を取得する。

ステップＳ８２０では上記のステップＳ５３０と同様に、第一の特徴抽出部８２０は、画像パターン取得部８１０が取得したパターン画像から高次元の色特徴（第１の実施形態における第二の特徴）を抽出し、該高次元の色特徴を特徴量記憶部８５０に格納する。

次に、ステップＳ８３０では、第二の特徴抽出部８３０は、画像パターン取得部８１０が取得したパターン画像から、低次元のＨＯＧ特徴（第１の実施形態における第三の特徴）を抽出し、該低次元のＨＯＧ特徴を特徴量記憶部８５０に格納する。

ステップＳ８４０では、第三の特徴抽出部８４０は、画像パターン取得部８１０が取得したパターン画像から、第三の特徴よりも高次元のＨＯＧ特徴を、第五の特徴として抽出し、該第五の特徴を、特徴量記憶部８５０に格納する。「第三の特徴よりも高次元のＨＯＧ特徴」とは、例えば、第三の特徴よりもビン数を増やしたり、ブロック分割数を増やしたりして、あとは第三の特徴と同様の抽出方法により得ることができる。

ステップＳ８１０〜Ｓ８４０の一連の処理は、選択カメラに係る全てのパターン画像について行われる。そして全てのパターン画像についてステップＳ８１０〜Ｓ８４０の処理が行われると、処理はステップＳ８５０に進む。

ステップＳ８５０では上記のステップＳ５６０と同様に、ＳＶＭ学習部８６０は、特徴量記憶部８５０に格納されている高次元の色特徴から第一の識別パラメータ（第１の実施形態における第二の識別パラメータに相当）を学習する。

ステップＳ８６０では上記のステップＳ５７０と同様に、ＳＶＭ学習部８６０は、特徴量記憶部８５０に格納されている低次元のＨＯＧ特徴から第二の識別パラメータ（第１の実施形態における第三の識別パラメータに相当）を学習する。

ステップＳ８７０では、識別器評価部８７０は、ステップＳ８５０で学習した識別器（第一の識別パラメータ）とステップＳ８６０で学習した識別器（第二の識別パラメータ）と、を評価し、評価結果に応じてカスケード型識別器を構成する。

すなわち、識別器評価部８７０は、特徴量記憶部８５０に記憶されている全ての学習サンプル（画像パターン）の色特徴と、ステップＳ８５０で学習した第一の識別パラメータと、から、それぞれの学習サンプルに対するラベルを推定する。そして、識別器評価部８７０は、学習サンプルごとに推定したラベルと、特徴量記憶部８５０に記憶されている該学習サンプルのラベルと、を比較し、ステップＳ８５０で学習した識別器の識別性能を評価する。例えば、学習サンプルごとに、該学習サンプルについて推定したラベルと、特徴量記憶部８５０に記憶されている該学習サンプルのラベルと、の一致／不一致を判断し、一致している割合を、ステップＳ８５０で学習した識別器の識別性能とする。即ち、一致数が多いほど識別性能は高くなる。なお、一致している割合の代わりに、類似度を採用しても構わない。

また、識別器評価部８７０は、特徴量記憶部８５０に記憶されている全ての学習サンプル（画像パターン）の低次元のＨＯＧ特徴と、ステップＳ８６０で学習した第二の識別パラメータと、から、それぞれの学習サンプルに対するラベルを推定する。そして、識別器評価部８７０は、学習サンプルごとに推定したラベルと、特徴量記憶部８５０に記憶されている該学習サンプルのラベルと、を比較し、ステップＳ８６０で学習した識別器の識別性能を評価する。この識別性能の評価については先に説明した処理と同じである。

そして、識別器評価部８７０は、ステップＳ８５０で学習した識別器の識別性能と、ステップＳ８６０で学習した識別器の識別性能と、を比較し、識別性能の高いほうを前段の識別器（カスケード接続された識別器群のうち最初に処理を開始する識別器）とする。そして識別器評価部８７０は、前段の識別器を学習するために用いた特徴の種別を示す情報と、該識別器に対応する識別パラメータと、を出力する。

また、識別器評価部８７０は、識別性能の低いほうを後段の識別器（カスケード接続された識別器群のうち２番目に処理を開始する識別器）とする。そして識別器評価部８７０は、後段識別器を学習するために用いた特徴の種別を示す情報と、該識別器に対応する識別パラメータと、を出力する。

このとき、色特徴とＨＯＧ特徴のように、抽出処理における演算量が異なる場合は、その演算量を考慮した重みを付けて（演算量が多いほど重みを大きくして）識別性能の比較を行うようにする。

ステップＳ８８０では、ＳＶＭ学習部８６０は、特徴量記憶部８５０に格納されている第五の特徴から第三の識別パラメータ（第１の実施形態における第三の識別パラメータとは異なる）を学習する。

ステップＳ８９０では、ＳＶＭ学習部８６０は、特徴量記憶部８５０に格納されている第四の特徴（第二の特徴と第三特徴と第五の特徴との連結特徴）から第四の識別パラメータを学習する。

次に、本実施形態に係る検索対象検出部６００の機能構成及びその動作については第１の実施形態（図８，９）と同様であるが、以下に説明する点のみが第１の実施形態と異なる。以下では、第１の実施形態との相違点について重点的に説明する。

本実施形態では、第一の特徴抽出部６２１、第二の特徴抽出部６２２、第三の特徴抽出部６２３はそれぞれ、第一の特徴抽出部８２０，第二の特徴抽出部８３０，第三の特徴抽出部８４０と同様の動作を行う。

そしてステップＳ６２０では、第一の特徴抽出部６２１、第二の特徴抽出部６２２のうち、識別器評価部８７０からの出力「前段の識別器を学習するために用いた特徴の種別を示す情報」が示す特徴を抽出する抽出部が特徴抽出を行う。例えば、前段の識別器を学習する為に用いた特徴が高次元の色特徴である場合には、第一の特徴抽出部６２１が特徴抽出を行う。

ステップＳ６３０では、第一のパターン識別部６６１、第二のパターン識別部６６２のうち、ステップＳ６２０で特徴抽出を行った抽出部に対応するパターン識別部がパターン識別を行う。例えば、ステップＳ６２０で第一の特徴抽出部６２１が特徴抽出を行った場合には、第一のパターン識別部６６１がパターン識別を行う。そして第１の実施形態と同様、内積演算結果が規定の閾値以上となる場合には、処理はステップＳ６４０に進む。一方、内積演算結果が規定の閾値未満である場合には、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていないと判断し、処理はステップＳ６９０に進む。

ステップＳ６４０では、第一の特徴抽出部６２１、第二の特徴抽出部６２２のうち、識別器評価部８７０からの出力「後段の識別器を学習するために用いた特徴の種別を示す情報」が示す特徴を抽出する抽出部が特徴抽出を行う。例えば、後段の識別器を学習する為に用いた特徴が高次元の色特徴である場合には、第一の特徴抽出部６２１が特徴抽出を行う。

ステップＳ６５０では、第一のパターン識別部６６１、第二のパターン識別部６６２のうち、ステップＳ６４０で特徴抽出を行った抽出部に対応するパターン識別部がパターン識別を行う。そして第１の実施形態と同様、内積演算結果が規定の閾値以上となる場合には、処理はステップＳ６６０に進む。一方、内積演算結果が規定の閾値未満である場合には、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていないと判断し、処理はステップＳ６９０に進む。

ステップＳ６６０では、第三の特徴抽出部６２３は、ステップＳ６１０で抽出したパターン画像から第五の特徴を抽出し、該第五の特徴を、特徴量記憶部６３０に格納する。ステップＳ６７０では、第三のパターン識別部６６３は、第五の特徴と、識別パラメータ取得部６５０が取得した第三の識別パラメータと、の内積演算を行い、内積演算結果と、規定の閾値との大小比較を行う。この大小比較の結果、内積演算結果が規定の閾値以上となる場合には、処理はステップＳ６８０に進む。一方、内積演算結果が規定の閾値未満である場合には、ステップＳ６１０で抽出したパターン画像には検索対象物は含まれていないと判断し、処理はステップＳ６９０に進む。

ステップＳ６８０では、第四のパターン識別部６６４は、第四の特徴（ステップＳ６２０、Ｓ６４０、Ｓ６６０で抽出した特徴群を連結したもの）と、識別パラメータ取得部６５０が取得した第四の識別パラメータと、の内積演算を行う。以降は第１の実施形態と同様である。

以上説明した検索対象検出部６００の動作は、換言すれば次のような処理である。識別器学習部５００において抽出したそれぞれの特徴量の次元数（それぞれ異なる次元数）をＤ１、Ｄ２、…、ＤＮ（Ｎは２以上の整数）とし、且つＤ１＜Ｄ２＜…＜ＤＮであるとする。このとき、次元数Ｄ１、Ｄ２、…、ＤＮのそれぞれについて、該次元数の特徴量を用いて学習した前記識別器の識別評価を行う。ここで、次元数Ｄ１、Ｄ２、…、ＤＮを識別評価の高い順に並べた結果を、Ｄ’１、Ｄ’２、…、Ｄ’Ｎとする。このとき、選択カメラによる撮像画像から抽出した次元数Ｄ’ｉ（１≦ｉ＜Ｎ−１）の特徴量と、該次元数Ｄ’ｉの特徴量に対応する重みと、を用いて評価値Ｅ（ｉ）を計算し、該評価値Ｅ（ｉ）が閾値以上であれば、評価値Ｅ（ｉ＋１）を計算する。そして、評価値Ｅ（Ｎ）が閾値以上であれば、選択カメラによる撮像画像を検索結果として出力する。

以上説明したように、本実施形態では、色特徴およびＨＯＧ特徴の２種類の特徴を夫々学習し、学習した識別器の性能を学習サンプルを用いて比較した。そして、識別性能の高い特徴で学習した識別器を前段識別器、識別性能の低い特徴で学習した識別器を後段識別器とし、検出処理を行うようにした。

このようにカスケード型識別器の学習において、複数種類の特徴量から識別性能が高い特徴量を順次選択するようにしたので、検索対象に固有の特徴量による効果的な絞り込みを行うことができる。

なお、以上の実施形態において、識別器学習部５００における学習機械としてＳＶＭを用いるようにした。ＳＶＭは一般的に汎化性能が強く、学習サンプルが少ない場合に好適な学習機械である。本実施形態では、検出対象のサンプルをクエリ画像取得部２００で取得し、検出対象でないサンプルとして背景画像記憶部３００に記憶されている背景画像を用いているので、必ずしも学習サンプル数を十分な個数確保できない。このような条件下ではＳＶＭによる識別器の学習は有効である。しかしながら、ＳＶＭは識別器学習部５００に適用可能な学習機械の一例であり、その他の学習機械、例えば、アダブーストや分類木等を用いてもよい。

また、以上の実施形態において、背景画像として人物の写っていない画像を用いて学習するようにしたが、必ずしもこれに限定されるものではない。本質は、図４のＱに示したような人物画像と異なるカメラ固有の背景パターンを区別して学習することであるから、例えば、画像パターンの一部に部分的に人物が写っていても構わない。

［第３の実施形態］
図１に示した各機能部は何れもハードウェアで構成しても良いが、一部をソフトウェア（コンピュータプログラム）で構成しても良い。この場合、背景画像記憶部３００、カメラ画像記憶部１００、特徴量記憶部５５０、６３０、８５０（保持機能のみ）をメモリとして有し、且つそれ以外の機能部に対応するソフトウェアを実行可能な装置であれば、画像検索装置１０００に適用可能である。

画像検索装置１０００に適用可能であるＰＣ（パーソナルコンピュータ）等の装置のハードウェア構成例について、図１２のブロック図を用いて説明する。なお、図１２に示した構成はあくまでも一例であり、様々な構成が考え得る。

ＣＰＵ（Central Processing Unit）１は、記憶装置２に格納されているコンピュータプログラムやデータを用いて本装置全体の動作制御を行うと共に、画像検索装置１０００が行うものとして上述した各処理を実行する。

記憶装置２は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、背景画像記憶部３００、カメラ画像記憶部１００、特徴量記憶部５５０、６３０、８５０のデータ保持機能を実現させるためのものである。記憶装置２には、ＯＳ（オペレーティングシステム）や、図３，６，９，１１のフローチャートに従った処理をＣＰＵ１に実行させるためのコンピュータプログラムやデータが格納されている。このコンピュータプログラムには、背景画像記憶部３００、カメラ画像記憶部１００、特徴量記憶部５５０、６３０、８５０のデータ保持機能以外の機能をＣＰＵ１に実現させるためのコンピュータプログラムが含まれている。また、背景画像記憶部３００、カメラ画像記憶部１００、特徴量記憶部５５０、６３０、８５０以外の各機能部が行うものとして上述した各処理をＣＰＵ１に実行させる為のコンピュータプログラムも含まれている。また、このデータには、上述の説明において既知の情報として取り扱ったデータが含まれている。

然るにＣＰＵ１が記憶装置２に格納されているコンピュータプログラムやデータを用いて処理を実行することで、ＣＰＵ１は、画像検索装置１０００が行うものとして上述した各処理を実行することになる。

入力装置３は、マウス、キーボード、タッチパネルデバイス、ボタン等の入力インターフェースであり、本装置の操作者が操作することで、各種の指示をＣＰＵ１に入力することができる。例えば、上記の実施形態で説明したユーザ入力は、操作者がこの入力装置３を操作することでＣＰＵ１に対して入力することができる。

出力装置４は、ＣＲＴや液晶画面などにより構成されており、ＣＰＵ１による処理結果を画像や文字などでもって表示することができる。例えば、検索結果出力部７００により出力された情報は、この出力装置４の表示画面に表示される。なお、出力装置４は、表示装置に限るものではなく、紙などの記録媒体上に印刷を行う機器であっても構わない。

Ｉ／Ｆ（インターフェース）５は、上記のカメラ群と本装置との間の通信を行うためのインターフェースであり、本装置はこのＩ／Ｆ５を介してそれぞれのカメラから撮像画像を取得する。上記の各部は共通のバス６に接続されている。

なお、本装置は、例えば、各種の装置間で通信を行うためのＩ／Ｏ装置を備えてもよい。例えば、Ｉ／Ｏ装置は、メモリーカード、ＵＳＢケーブル等の入出力部、有線、無線等による送受信部である。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

４００：カメラ選択部３００：背景画像記憶部２００：クエリ画像取得部５００：識別器学習部６００：検索対象検出部

Claims

複数のカメラのそれぞれを順次選択する選択手段と、
前記選択手段が選択したカメラを選択カメラとし、該選択カメラによる撮像画像群のうち規定の撮像期間内に撮像されたそれぞれのフレームの撮像画像から、フレーム間で変化量が規定値以下となる領域を抽出し、該抽出した領域内の画像を合成した合成画像を、検索対象物が写っていない画像である、前記選択カメラに対応する背景画像として取得する取得手段と、
前記複数のカメラのいずれかにより撮像された撮像画像からユーザにより選択された撮像画像において、該ユーザにより指定された前記検索対象物が写っている領域の画像をクエリ画像として取得する手段と、
前記選択カメラに対応する背景画像と前記クエリ画像のそれぞれをパターン画像とし、該パターン画像から、それぞれ異なる種類の特徴量を抽出し、前記選択カメラによる撮像画像から前記検索対象物を識別するための選択カメラ毎の識別器を該それぞれ異なる種類の特徴量を用いて学習することで、該それぞれ異なる種類の特徴量に対する重みを、該学習の結果とする学習手段と、
前記学習手段により学習された識別器を用いて、前記選択カメラによる撮像画像群から前記検索対象物を検索する検索手段と
を備え、
前記検索手段は、
前記撮像画像群から撮像画像を順次取得し、該取得した撮像画像から前記それぞれ異なる種類の特徴量を順次抽出し、該抽出した特徴量と該特徴量に対応する重みとを用いて前記抽出した特徴量に対する評価値を計算する計算処理を行い、該評価値が閾値以上であれば、前記取得した撮像画像から次の特徴量を抽出して該次の特徴量に対する評価値を前記計算処理により計算し、該次の特徴量に対する評価値が閾値未満であれば、前記取得した撮像画像に対する処理を終了して前記撮像画像群から次の撮像画像を取得し、前記取得した撮像画像から抽出した前記それぞれ異なる種類の特徴量の何れの評価値も閾値以上であれば、該取得した撮像画像を検索結果として出力することを特徴とする画像検索装置。
前記それぞれ異なる種類の特徴量は、それぞれ異なる次元数の特徴量であり、前記検索手段は、前記それぞれ異なる次元数の特徴量を次元数の低い順に抽出することを特徴とする請求項１に記載の画像検索装置。
前記それぞれ異なる次元数をＤ１、Ｄ２、…、ＤＮ（Ｎは２以上の整数）とし、且つＤ１＜Ｄ２＜…＜ＤＮである場合に、
前記検索手段は、
前記取得した撮像画像から抽出した次元数Ｄｉ（１≦ｉ＜Ｎ−１）の特徴量と、該次元数Ｄｉの特徴量に対応する重みと、を用いて評価値Ｅ（ｉ）を計算し、該評価値Ｅ（ｉ）が閾値以上であれば、前記取得した撮像画像について評価値Ｅ（ｉ＋１）を計算し、前記評価値Ｅ（ｉ）が閾値未満であれば、前記取得した撮像画像に対する処理を終了して前記撮像画像群から次の撮像画像を取得し、
前記取得した撮像画像について評価値Ｅ（Ｎ）が閾値以上であれば、該取得した撮像画像を検索結果として出力する
ことを特徴とする請求項２に記載の画像検索装置。
前記それぞれ異なる種類の特徴量について、該特徴量を用いて学習した前記識別器の識別評価を行う評価手段を更に備え、
前記検索手段は、前記それぞれ異なる種類の特徴量を前記識別評価の高い順に抽出することを特徴とする請求項１に記載の画像検索装置。
前記それぞれ異なる種類の特徴量は、それぞれ異なる次元数の特徴量であり、
前記それぞれ異なる次元数をＤ１、Ｄ２、…、ＤＮ（Ｎは２以上の整数）とし、且つＤ１＜Ｄ２＜…＜ＤＮである場合に、
更に、
前記評価手段は、次元数Ｄ１、Ｄ２、…、ＤＮのそれぞれについて、該次元数の特徴量を用いて学習した前記識別器の識別評価を行い、
次元数Ｄ１、Ｄ２、…、ＤＮを識別評価の高い順に並べた結果を、Ｄ’１、Ｄ’２、…、Ｄ’Ｎとしたときに、
前記検索手段は、
前記取得した撮像画像から抽出した次元数Ｄ’ｉ（１≦ｉ＜Ｎ−１）の特徴量と、該次元数Ｄ’ｉの特徴量に対応する重みと、を用いて評価値Ｅ（ｉ）を計算し、該評価値Ｅ（ｉ）が閾値以上であれば、前記取得した撮像画像について評価値Ｅ（ｉ＋１）を計算し、前記評価値Ｅ（ｉ）が閾値未満であれば、前記取得した撮像画像に対する処理を終了して前記撮像画像群から次の撮像画像を取得し、
前記取得した撮像画像について評価値Ｅ（Ｎ）が閾値以上であれば、該取得した撮像画像を検索結果として出力する
ことを特徴とする請求項４に記載の画像検索装置。
画像検索装置が行う画像検索方法であって、
前記画像検索装置の選択手段が、複数のカメラのそれぞれを順次選択する選択工程と、
前記画像検索装置の取得手段が、前記選択工程で選択したカメラを選択カメラとし、該選択カメラによる撮像画像群のうち規定の撮像期間内に撮像されたそれぞれのフレームの撮像画像から、フレーム間で変化量が規定値以下となる領域を抽出し、該抽出した領域内の画像を合成した合成画像を、検索対象物が写っていない画像である、前記選択カメラに対応する背景画像として取得する取得工程と、
前記画像検索装置のクエリ画像取得手段が、前記複数のカメラのいずれかにより撮像された撮像画像からユーザにより選択された撮像画像において、該ユーザにより指定された前記検索対象物が写っている領域の画像をクエリ画像として取得する工程と、
前記画像検索装置の学習手段が、前記選択カメラに対応する背景画像と前記クエリ画像のそれぞれをパターン画像とし、該パターン画像から、それぞれ異なる種類の特徴量を抽出し、前記選択カメラによる撮像画像から前記検索対象物を識別するための選択カメラ毎の識別器を該それぞれ異なる種類の特徴量を用いて学習することで、該それぞれ異なる種類の特徴量に対する重みを、該学習の結果とする学習工程と、
前記画像検索装置の検索手段が、前記学習工程で学習された識別器を用いて、前記選択カメラによる撮像画像群から前記検索対象物を検索する検索工程と
を備え、
前記検索工程では、
前記撮像画像群から撮像画像を順次取得し、該取得した撮像画像から前記それぞれ異なる種類の特徴量を順次抽出し、該抽出した特徴量と該特徴量に対応する重みとを用いて前記抽出した特徴量に対する評価値を計算する計算処理を行い、該評価値が閾値以上であれば、前記取得した撮像画像から次の特徴量を抽出して該次の特徴量に対する評価値を前記計算処理により計算し、該次の特徴量に対する評価値が閾値未満であれば、前記取得した撮像画像に対する処理を終了して前記撮像画像群から次の撮像画像を取得し、前記取得した撮像画像から抽出した前記それぞれ異なる種類の特徴量の何れの評価値も閾値以上であれば、該取得した撮像画像を検索結果として出力することを特徴とする画像検索方法。
コンピュータを、請求項１乃至５の何れか１項に記載の画像検索装置の各手段として機能させるためのコンピュータプログラム。