JP6589321B2

JP6589321B2 - システム、検索方法およびプログラム

Info

Publication number: JP6589321B2
Application number: JP2015061454A
Authority: JP
Inventors: 松田　裕司; 裕司松田; 健太郎辻; 明燮鄭; 信浩宮▲崎▼; 明洋皆川; 上原　祐介; 祐介上原
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2019-10-16
Anticipated expiration: 2035-03-24
Also published as: JP2016181159A; US20160283590A1; US10127310B2

Description

本発明は、監視カメラ等のカメラで撮影された映像を検索する技術に関する。

従来、監視カメラが撮影した映像から、特定の人物が写った画像を検索するためのシステムが知られている。このようなシステムは、例えば、迷子や行方不明者の検索や、人物追跡による消費者の行動パターンの解析などに活用される。

例えば、特許文献１に開示されたシステムは、蓄積された映像から、特定の人物が写る画像を検索することが可能である。当該システムは、映像を録画する際に、人物の顔の特徴情報および服装の特徴情報（色ヒストグラム等）を抽出して、データベースに格納する。そして、システムは、クエリ画像内の人物と類似する人物が映った画像を、データベースから抽出する。

具体的には、システムは、データベースに格納された顔の特徴情報および服装の特徴情報と、クエリ画像から抽出された顔の特徴情報および服装の特徴情報とを比較して、類似度が閾値以上である画像をデータベースから検索する。なお、特許文献１に開示されたシステムは、顔領域を抽出して、抽出された顔領域から特徴を抽出する顔特徴抽出部と、着衣領域を抽出して、抽出された着衣領域から特徴を抽出する着衣特徴抽出部とを有する。

ここで、特徴情報としては、色情報（色ヒストグラムなど）が利用されることが一般的である。なぜなら、監視カメラの映像は画質が悪く、詳細な特徴は把握しにくく、色による判別が効果的であるためである。また、色の特徴は他の特徴と比較して、より安定しており、人物の向きや外光の影響を受けにくいというメリットもある。よって、色情報同士を比較し、類似する服装をした人物が写った画像を、監視カメラの映像から検索することが行われる。

クエリ画像内の人物の着衣領域“全体”の色情報と、データベースに登録された画像内の人物の着衣領域の色情報とを比較した場合に、クエリ画像内の人物とは異なる服装の人物であっても、検索結果としてデータベースから検索される可能性がある。具体的には、白いジャケットに黒いズボンを着用した人物が写っているクエリ画像に対して、黒いジャケットに白いズボンの人物が写った画像がデータベースから検索される可能性がある。これは、類似するか否かの判定の際に、完全に２つの色情報が一致する場合以外にも、一定の幅を許容し、閾値以上の類似度を有する画像を検索するためである。

そこで、検索結果をより絞り込むために、着衣領域を分割し、分割された各々の領域から、特徴情報を抽出する技術がある（例えば、特許文献２）。特許文献２に開示されたシステムは、映像から人物領域を抽出した後、人物の着衣領域を複数の部位に分離する。具体的には、当該システムは、着衣領域の縦方向の輝度変化から着衣の切れ目（分離位置）を決定し、当該分離位置よりも上方の領域と、当該分離位置よりも下方の領域との各々から、色情報を抽出する。そして、抽出された各領域の色情報は、データベースに蓄積される。なお、当該システムは、クエリとして、クエリテキスト（例えば、「白い上着に青いズボン」）を受け付けることで、クエリテキストに対応する服装の人物が写った画像を検索する。

特開２００９−１９９３２２号公報国際公開第２０１１／０４６１２８号

例えば、特許文献１と特許文献２の技術を組み合わせた場合に、予め着衣領域を複数に分割することで作成されたデータベースを用いて、クエリ画像に写る人物と類似する服装の人物が写った画像を検索することが可能となることが予測される。

具体的には、クエリ画像を含む検索要求が受信されると、クエリ画像における人物の着衣領域における服の切れ目が特定される。切れ目より上方の領域から抽出した特徴情報と、切れ目より下方の領域から抽出した特徴情報とを用いて、データベースが検索される。

しかし、服の切れ目を唯一の指標とした場合、次のような問題が発生する。図１Ａ、１Ｂ、および図２は、従来技術の問題点を説明するための図である。特許文献２の技術を利用する事で、図１Ａに示す画像１に写る人物１０の着衣領域は、上方領域１１と下方領域１２とに分割される。そして、上方領域１１から抽出された色情報と、下方領域１２から抽出された色情報とが、各々データベースに登録される。なお、人物１０は、白色のＴシャツと、黒色のズボンを着用しているものとする。ここで、図１Ａおよび図１Ｂにおいては、白色部分をストライプ柄で図示し、黒色部分をドット柄で図示している。

また、図１Ｂに示すように、画像２に写る人物２０の着衣領域は、上方領域２１と下方領域２２に分割される。そして、上方領域２１から抽出された色情報と、下方領域２２から抽出された色情報とが、各々データベースに登録される。なお、人物２０は、白色のワンピースと、黒色のタイツを着用しているものとする。一般的に、色情報（例えば色ヒストグラム）は、人物領域の大きさ（画素数）によらず、比較可能となるように、正規化された状態で、データベースに登録される。

次に、図２はクエリ画像の例である。なお、人物３０は、白色のＴシャツと、黒色のズボンを着用しているものとする。画像３をクエリ画像として受け付けた場合に、クエリ画像における人物３０の着衣領域は、上方領域３１と下方領域３２とに分割される。そして、上方領域３１から抽出された色情報と、下方領域３２から抽出された色情報とを用いて、データベースから類似する人物が写る画像が検索される。

このとき、図１Ａに示した画像１に写る人物１０の服装（白色のＴシャツに黒色のズボン）と、図１Ｂに示した画像２に写る人物２０の服装（白色のワンピースに黒色のタイツ）は、ともに人物３０の服装（白色のＴシャツに黒色のズボン）に類似するとして、データベースから画像１および画像２が抽出される可能性がある。このように、従来技術の組み合わせでは、人物１０の服装と人物２０の服装とを区別することができず、結果的に、検索結果を絞り込むということができない。

そこで、一つの側面では、本発明は、カメラが撮影した映像から、物体を検索する際に、検索結果をより絞り込むことを目的とする。

上記課題を解決する為に、ひとつの実施態様においては、システムは、撮影装置により撮影された画像情報より、注目すべき物体を検出する検出部と、前記撮影装置が設置されている高さ、該撮影装置の俯角および該撮影装置から前記注目すべき物体までの距離による撮影された該注目すべき物体の見え方を考慮したパラメータを決定する決定部と、所定の比率を前記パラメータに応じて補正した分割比率により、前記注目すべき物体が写る画像領域を少なくとも２つの画像領域に分割する分割部と、前記少なくとも２つの画像領域それぞれの特徴情報に基づいて、物体を特定する特定部とを含む。

本発明の一観点によれば、カメラが撮影した映像から、特定の物体（特定の服装の人物）を検索する際に、検索結果をより絞り込むことができる。

図１Ａおよび１Ｂは、従来技術の問題点を説明するための図（その１）である。図２は、従来技術の問題点を説明するための図（その２）である。図３Ａおよび３Ｂは、図１Ａおよび１Ｂに示した画像における人物領域を一定の割合で分割した例である。図４Ａおよび４Ｂは、カメラと人物との位置関係によって生じる問題を説明するための図（その１）である。図５Ａ、５Ｂ、５Ｃおよび５Ｄは、カメラと人物との位置関係によって生じる問題を説明するための図（その２）である。図６は、本実施例に係る監視システムの構成図である。図７は、検索装置の機能ブロック図である。図８は、検索装置の処理フロー（その１）である。図９は、映像記憶部のデータ構成例である。図１０は、人物領域およびその位置を説明するための図である。図１１Ａおよび１１Ｂは、分割情報を説明するための図である。図１２Ａ、１２Ｂ、１２Ｃおよび１２Ｄは、分割比率と見え方との関係を説明するための図である。図１３は、特徴情報記憶部のデータ構成例である。図１４は、検索装置の処理フロー（その２）である。図１５Ａ、１５Ｂ、１５Ｃおよび１５Ｄは、分割情報の生成方法（その１）を説明するための図である。図１６は、分割情報の生成方法（その１）の処理フローである。図１７は、学習用テーブル記憶部のデータ構成例（その１）である。図１８は、分割情報の生成方法（その２）の変形例１の処理フローである。図１９Ａおよび１９Ｂは、信頼度を説明するための図である。図２０は、学習用テーブル記憶部のデータ構成例（その２）である。図２１は、信頼度で重みづけされた分割比率のヒストグラムである。図２２は、実施例２に係る検索装置の機能ブロック図である。図２３Ａおよび２３Ｂは、第二の実施例に係る、分割比率を反映した分割位置を決定する方法を説明するための図である。図２４は、本発明に関する検索装置のハードウェア構成例である。

以下詳細な本発明の実施例に関して説明する。なお、以下の各実施例は、処理の内容を矛盾させない範囲で適宜組み合わせることが可能である。以下、図面に基づいて各実施例について説明する。

本実施例に開示する技術は、検索結果を絞り込むために、より有効な比率で複数の画像領域に分割することが可能である。本実施例は、例えば、図１Ａに示した画像１に写る人物１０の服装（白色のＴシャツに黒色のズボン）と、図１Ｂに示した画像２に写る人物２０の服装（白色のワンピースに黒色のタイツ）とを区別し、人物３０が写る（白色のＴシャツに黒色のズボン）クエリ画像３を受け付けた場合に、より絞り込んだ検索結果を出力する。以下の説明では、本実施例に開示の技術は、クエリ画像３に関して画像１のみをデータベースから抽出する。

ここで、服の切れ目に依存することなく、人物領域を分割する単純な方法として、一定の比率で、人物領域を分割することが考えられる。なお、以下、人物領域を分割する例を説明するが、頭部領域を除外した着衣領域を分割する場合においても結果は同様である。

図３Ａおよび３Ｂは、図１Ａおよび１Ｂに示した画像における人物領域を一定の割合で分割した例である。図３Ａおよび図３Ｂは、水平方向をｘ座標、高さ方向をｙ座標としている。図３Ａは、図１Ａに示した画像１における人物１０の人物領域１３を、高さｄ１にて上下に分割した例である。なお、高さｄ１は、人物領域１３のｙ方向の長さ（高さ）に、一定の割合を乗算することで算出される。この場合、画像１における人物領域１３は、この高さｄ１の位置において上方領域１４と下方領域１５に分割される。

一方、図３Ｂは、図１Ｂに示した画像２における人物２０の人物領域２３を高さｄ２で分割した例である。なお、高さｄ２は、人物領域２３のｙ方向の長さ（高さ）に、一定の割合を乗算することで算出される。画像２における人物領域２３は、この高さｄ２の位置において上方領域２４と下方領域２５に分割される。

この場合、例えば、画像１における下方領域１５から生成される色情報（色ヒストグラム）と画像２における下方領域２５から生成される色情報（色ヒストグラム）は、従来技術と比較して、より大きく異なる。よって、クエリ画像３における人物と類似する服装の人物が写る画像を検索する際、画像１と画像２とが区別された上で、検索結果が生成される可能性が高い。

監視カメラのようにカメラによって広範囲を撮影した映像（画像）を対象にクエリ画像を用いて検索する例を説明する。通常、監視カメラは、施設の上方に取り付けられ、上方から下方の道や廊下などを撮影することが多い。つまり、監視カメラは、撮影対象における所定の水平面に対して俯角が設定された状態で撮影をし、監視カメラが、監視カメラと正対した人物を撮影することはまれである。このようなカメラで撮影された画像を対象に、人物領域を一定の割合で分割すると、次のような問題が発生する。

図４Ａ、４Ｂ、５Ａ、５Ｂ、５Ｃおよび５Ｄは、カメラと人物との位置関係によって生じる問題を説明するための図である。図４Ａは、カメラが、カメラの近くに存在する人物を撮影した場合の例である。一方、図４Ｂは、同様のカメラが、カメラから遠くに存在する図４Ａと同一の人物を撮影した場合の例である。

また、図５Ａは、図４Ａの状態で撮影された画像を示し、図５Ｂは、図４Ｂの状態で撮影された画像を示す。図５Ａの人物４１と図５Ｂの人物５１は同一人物であるとする。図５Ａの画像４では、人物４１の上半身の割合が、下半身に比べて大きい。一方、図５Ｂの画像５では、図５Ａと比較して、人物５１の下半身の割合が大きくなる。

これは、透視投影の影響によるものである。つまり、図４Ａおよび図４Ｂに示すとおり、遠くの人物は平行投影に近くなるため、画像上の人物の上半身と下半身の割合は、現実世界の人物の上半身と下半身の割合に近くなる。一方、カメラと人物が近い場合には、平行投影とはならず、投影された際に、カメラに近い部分（上半身）がカメラに遠い部分（下半身）よりも大きな割合を占める。

図５Ｃは、図５Ａにおける人物に対応する人物領域の拡大図である。図５Ｄは、図５Ｂにおける人物に対応する人物領域の拡大図である。図５Ｃおよび図５Ｄは、図５Ａおよび図５Ｂ同様、水平方向をｘ座標、高さ方向をｙ座標としている。なお、図５Ｃと図５Ｄは、比較のために、高さ方向を基準に正規化し、人物領域のｙ方向の長さをそろえている。

図５Ｃおよび図５Ｄに示すとおり、人物領域の下端から一定割合で人物領域を分割した場合、図５Ｃにおける人物領域は、高さｄ３の位置で、上方領域４２と下方領域４３に分割される。同様に高さｄ３の位置で、図５Ｄにおける人物領域は、上方領域５２と下方領域５３に分割される。

この図５Ｃおよび図５Ｄに示すように、一定の割合となる高さｄ３で、人物領域を分割すると、例え同一人物であっても、カメラと人物との位置関係によって、上方領域および下方領域それぞれから抽出される特徴情報（色情報）が、画像間で異なる。よって、いずれか一方をクエリ画像として受け付けた場合に、同様の服装の人物（同一人物）を映像から検索することができない可能性が大きい。

以上のように、カメラが人物を正対した状態で撮影しない限り、一定の割合で人物領域の分割位置を決定するだけでは、従来技術の問題は解消できるが、検索結果から目的の画像が漏れてしまうという可能性がある。

そこで、本実施例に開示の技術は、カメラと被写体との位置関係によって生じる被写体の見え方の違いを考慮して、被写体の画像領域を分割する割合（比率）を決定する。より具体的には、上記見え方の違いは、カメラの設置高さ、カメラの傾き（俯角）、カメラと被写体との距離に応じて生じることに着目し、カメラと被写体との位置関係に応じて、適応的に、被写体の画像領域を分割する比率を決定する。

［実施例１］
図６は、本実施例に係る監視システムの構成図である。監視システムは、検索装置１００、カメラ２００、通信装置３００を含む。各装置はネットワークＮを介して接続される。ネットワークＮは、例えば、インターネットである。なお、検索装置１００とカメラ２００とは専用回線で接続されていてもよい。

カメラ２００は、例えば、街中や施設に設置された監視カメラであって、一定期間の映像を撮影する。カメラ２００が撮影した映像は、検索装置１００に、リアルタイムまたは所定時間ごとに送信される。また、カメラ２００は、複数台であってもよい。なお、カメラは撮影装置の一例である。

通信装置３００は、ユーザが操作するコンピュータである。ユーザは通信装置３００を操作して、検索対象の人物が写る画像（以下、クエリ画像）を指定し、検索装置１００に対して、検索対象の人物が写る可能性の高い画像の検索を要求する。なお、クエリ画像は、例えばカメラ２００が撮影した映像中の一つの画像であっても良いし、他のカメラが撮影した画像であってもよい。通信装置３００は、パーソナルコンピュータ（以下、ＰＣ）、携帯電話、スマートフォン、タブレットＰＣなどである。

検索装置１００は、カメラ２００から取得した映像を管理したり、映像中から所望の画像を検索するためのコンピュータである。例えば、検索装置１００はサーバーである。検索装置１００は、カメラ２００から取得した映像を解析し、各画像における人物領域を少なくとも２つの画像領域に分割する。そして、検索装置１００は、各画像領域から、色情報（色ヒストグラム）などの特徴情報を生成する。そして、検索装置１００は、画像領域ごとに、特徴情報をデータベースに格納する。

そして、検索装置１００は、通信装置３００から、検索対象となる人物が写ったクエリ画像を含む検索要求を受信した場合には、クエリ画像における人物領域を少なくとも２つの画像領域に分割する。そして、検索装置１００は、クエリ画像の各々の画像領域から生成した特徴情報と、データベースに格納された特徴情報を照合する事で、クエリ画像に写った人物と類似する服装の人物が写った画像を検索する。なお、上記のように予めデータベースを作成しておくことに限られず、検索装置１００は、検索要求を受信した後に、カメラから受信した映像を対象に、リアルタイムで、検索対象の人物と類似する服装の人物が写る画像の検索を行ってもよい。

このように、検索装置１００は、検索要求に含まれるクエリ画像の人物領域を少なくとも２つの画像領域に分割し、各々の画像領域の特徴情報を生成する。そして、検索装置１００は、随時カメラ２００から受信した映像から特徴情報を生成し、クエリ画像から生成された特徴情報と照合する。したがって、検索装置１００は、リアルタイムで人物の捜索や追跡を行う事も可能である。

図７は、検索装置の機能ブロック図である。検索装置１００は、通信部１０１、制御部１１０、映像記憶部１１１、分割情報記憶部１１２、特徴情報記憶部１１３を有する。

通信部１０１は、ネットワークＮを介して、カメラ２００や通信装置３００と情報の送受信を行う。例えば、カメラ２００から複数の画像（画像情報）からなる映像（映像情報）を受信する。また、通信部１０１は、通信装置３００から検索要求を受信し、検索要求に対する検索結果を通信装置３００に送信する。

制御部１１０は、検索装置１００の各種処理を制御する。さらに、制御部１１０は、検出部１０２、決定部１０３、分割部１０４、生成部１０５、特定部１０６を含む。

検出部１０２は、画像から注目すべき物体を検出する。本実施例においては、検出部１０２は、画像から人物を検出する技術を用いて、画像から特に人物を検出し、当該人物を含む人物領域を設定する。なお、画像は、カメラから受信した映像における各フレーム画像や、検索要求に含まれるクエリ画像である。

決定部１０３は、撮影画像における被写体の見え方を考慮したパラメータを決定する。さらに、決定部１０３は、所定の比率を当該パラメータで補正した分割比率を決定する。なお、本実施例においては、予め、当該パラメータにより補正された分割比率を予め準備する事で、決定部１０３は、準備された分割比率の中から、適当な分割比率を決定する。

撮影画像における被写体の見え方の違いは、先に述べたとおり、カメラ２００が設置された高さ、カメラ２００の傾き、およびカメラ２００から被写体（人物）までの距離により生じる。例えば、決定部１０３は、当該見え方を考慮することで、第一の位置関係で撮影された被写体と第二の位置関係で撮影された該被写体を、各画像において、上半身と下半身に各々分割することができる。

決定部１０３によって決定された分割比率にて人物領域を分割する事で、図４Ａや図４Ｂに示した、人物とカメラとの位置関係が異なるような場合でも、分割後の画像領域各々は、被写体（人物）の概ね同じ範囲を含むようになる。詳細については後述する。

分割部１０４は、前記パラメータに応じた分割比率により、人物領域を少なくとも２つの画像領域に分割する。なお、本実施例においては、分割部１０４は、人物領域（頭部と体部分を含む）を、分割比率に応じて、２つの画像領域（上部領域および下部領域）に分割するとして説明する。しかし、人物領域から頭部部分を除外して、少なくとも２つの画像領域に分割するとしてもよい。

生成部１０５は、分割された画像領域各々について、特徴情報を生成する。なお、本実施例では、特徴情報は、色情報であって、特に色ヒストグラムとして説明する。よって、生成部１０５は、各画像領域に含まれる各画素のＲＧＢの値を用いて、各画像領域の色ヒストグラムを生成する。ここで、処理対象の画像が、カメラ２００から取得した画像である場合には、生成された特徴情報は、各画像領域の情報とともに、特徴情報記憶部１１３に格納される。一方、処理対象の画像が、クエリ画像である場合には、生成された特徴情報は、各画像領域の情報とともに、特定部１０６に出力される。

特定部１０６は、各画像領域についての特徴情報に基づいて、映像の中から、注目すべき物体と類似する物体が写った画像を特定する。具体的には、特定部１０６は、クエリ画像における各画像領域（上方領域および下方領域）の色ヒストグラムと、特徴情報記憶部１１３の格納情報とを照合する。そして、特定部１０６は、クエリ画像における上方領域の色ヒストグラムと一定以上の類似度を有する上方領域、かつ、クエリ画像における下方領域の色ヒストグラムと一定以上の類似度を有する下方領域を含む画像を特定する。つまり、特定部１０６は、当該画像に、クエリ画像によって示される検索対象の人物と類似する服装の人物が写っていることを特定する。

映像情報記憶部１１１は、カメラ２００から取得した映像にかかる映像情報を記憶する。例えば、映像情報記憶部１１１は、映像を構成する各画像について、画像情報を記憶する。

分割情報記憶部１１２は、分割位置を決定する際に参照される分割情報を記憶する。詳細は後述する。なお、カメラ２００が複数台存在する場合には、設置条件（高さや俯角）が異なるカメラ２００毎に分割情報が記憶される。

特徴情報記憶部１１３は、各画像における人物領域を分割した画像領域ごとに、当該画像領域の特徴情報を記憶する。詳細は後述する。

図８は、検索装置の処理フロー（その１）である。図８に示す処理は、特徴情報記憶部１１３への登録処理である。

通信部１０１がカメラ２００から映像（映像情報）を受信する（Ｏｐ．１）と、制御部１１０は以下の処理を実行する。また、制御部１１０は、受信した映像を構成する複数のフレーム（画像）各々の画像情報を、映像記憶部１１１に記憶する。なお、制御部１１０は、全ての画像情報を格納するのではなく、一定フレーム間隔ごとに、画像情報を映像記憶部１１１に格納するとしてもよい。

図９は、映像記憶部のデータ構成例である。映像記憶部１１１は、画像を識別する画像識別情報と、画像情報とを対応付けて記憶する。さらに、映像記憶部１１１は、当該画像情報の撮影時刻や、撮影したカメラの識別情報なども併せて記憶してもよい。

次に、検出部１０２は、処理対象の画像（画像情報）から、人物領域を検出する（Ｏｐ．２）。検出部１０２は、例えば、特開２０１４−９３０２３号公報に開示された手法を利用して人物領域を検出する。具体的には、検出部１０２は、ＡｄａＢｏｏｓｔやサポートベクタマシーン等の識別器を用いて、画像から人物を検出して、当該人物を含む領域を人物領域に設定する。

また、画像から人物を検出する手法としては、他に、ＮａｖｎｅｅｔＤａｌａｌ、ａｎｄＢｉｌｌＴｒｉｇｇｓ、 “Ｈｉｓｔｏｇｒａｍｓｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓｆｏｒｈｕｍａｎｄｅｔｅｃｔｉｏｎ”、ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、Ｖｏｌ．１、ｐｐ．８８６−８９３、２００５や、山内悠嗣ら、「画像からの統計的学習手法に基づく人検出」電子情報通信学会論文誌、ｖｏｌ．Ｊ９６−Ｄ、Ｎｏ．９、ｐｐ．２０１７−２０４０に開示された手法を利用してもよい。

図１０は、人物領域およびその位置を説明するための図である。図１０において、水平方向をｘ座標、縦方向（高さ方向）をｙ座標としている。領域６０が、画像６から検出された人物領域である。人物領域６０は、例えば、左上の座標Ｐ１（ｘ１，ｙ１）と右下の座標Ｐ２（ｘ２，ｙ２）とで表される矩形領域となる。なお、画像６においては、左上端の画素が、原点Ｏ（０，０）となる。

図８に戻り、検出部１０２は、人物の全身が写っているかを判定する（Ｏｐ．３）。当該処理によって、一部分がカメラ２００により撮影されていない人物や、他者や他の物体の陰に存在する人物を、処理の対象から除外する（Ｏｐ．３Ｎｏ）。なお、特開２０１４−９３０２３号公報に開示の手法のように、予め人物の全身の特徴を学習した識別器を利用する場合には、Ｏｐ．２の時点で全身が写る人物の人物領域のみが検出される。よって、その場合には、Ｏｐ．３は割愛される。

次に、人物の全身が写っている場合（Ｏｐ．３Ｙｅｓ）、決定部１０３は、人物領域の分割比率を決定する（Ｏｐ．４）。本実施例においては、決定部１０３は、事前に準備された分割情報の中から、処理対象の画像（図１０の場合は画像６）における人物領域の位置に応じた分割位置を決定する。なお、人物領域の位置は、例えば、図１０に示す、人物領域６０の右下の座標Ｐ２（ｘ２、ｙ２）である。

図１１Ａおよび１１Ｂは、分割情報を説明するための図である。図１１Ａは、分割情報記憶部のデータ構成例である。なお、図１１Ａは、人物領域を２つの画像領域に分割する場合の分割情報記憶部１１２の例である。

分割情報記憶部１１２は、セグメント識別情報、座標１、座標２および分割比率を対応付けた分割情報を記憶する。カメラ２００が複数台存在する場合、分割情報記憶部１１２は、カメラ２００毎にこのような分割情報を記憶する。この場合、各分割比率には、カメラ識別情報が記憶される。このカメラ識別情報は、上述したように複数台のカメラ２００のなかで設置条件が同一であるカメラを示す情報である。分割情報記憶部１１２は、カメラ識別情報に対応付けて分割比率の値を別途記憶する。なお、カメラ２００が複数台の場合であっても、分割情報記憶部１１２は、分割比率の値が記憶された図１１Ａに示す分割情報をカメラごとに記憶するようにしてもよい。

セグメント識別情報は、画像を複数のセグメントに分割した場合の各セグメントを識別する情報である。座標１は、セグメント識別情報で示されるセグメントの左上の座標である。座標２は、セグメント識別情報で示されるセグメントの右下の座標である。これら座標１および座標２の各座標値は、所定点（例えば、画像の左上端の画素）を原点とした画像全体における絶対座標値によって示される。図１１Ｂは、セグメントを説明するための図である。セグメントは、画像７の全体を等サイズで分割した単位領域である。図１１Ｂの例では、セグメント７１、セグメント７２、セグメント７３を含む１２個の単位領域が設定されている。単位領域への分割数は、例えば、カメラの設置条件やカメラの仕様によって決まる撮影範囲に応じて適宜設定すればよい。

図１１Ａの例では、セグメント７１を識別するセグメント識別情報「１＿１」に対応付けて、当該セグメントの左上の座標（０，０）と右下の座標（ｘｓ１，ｙｓ１）が、各々座標１および座標２として、記憶されている。さらに、セグメント７３を識別するセグメント識別情報「３＿３」に対応付けて、当該セグメントの左上の座標（ｘｓ２，ｙｓ２）と右下の座標（ｘｓ３，ｙｓ３）が、各々座標１および座標２として、記憶されている。

次に、分割比率は、当該セグメントに人物領域の位置（例えば、右下座標Ｐ２）が含まれる場合に、当該人物領域の分割に利用される比率である。分割比率「０．５０」とは、人物領域のｙ方向の長さを１としたときの、人物領域の下端から０．５０に相当する高さｄｙ（ｙ方向の位置）で分割されることを示している。なお、人物領域を３つの画像領域に分割する場合には、比率情報は、ａ：ｂ：ｃとなる。分割情報の生成方法については、後述する。

このように、セグメントごとに分割比率を定義する事で、カメラ２００と被写体（人物）との位置関係による被写体の見え方を考慮して、分割比率を決定することができる。図１１Ａに示す通り、図１１Ｂに示すセグメント７１については、分割比率は０．５０であり、これは、人物領域の位置がセグメント７１に含まれる場合には、当該人物領域を５０（上方）：５０（下方）の比率で、上下に分割することを示す。また、セグメント７３については、分割比率は０．３４であり、これは、人物領域の位置がセグメント７３に含まれる場合には、当該人物領域を６６（上方）：３４（下方）の比率で、上下に分割することを示す。

図１２Ａ、１２Ｂ、１２Ｃおよび１２Ｄは、分割比率と見え方との関係を説明するための図である。図１２Ａは、図５Ａに示す画像４と図１１Ｂで示すセグメントを重畳して示した図であり、図１２Ｂは、図５Ｂに示す画像５と図１１Ｂで示すセグメントを重畳して示した図である。なお、図１２Ａおよび図１２Ｂでは、セグメントの境界を点線で示している。図１２Ｃは、図１２Ａの画像における人物領域の拡大図である。図１２Ｄは、図１２Ｂの画像における人物領域の拡大図である。

図１２Ａに示す通り、画像４においては、人物領域はセグメント７３に含まれる。よって、セグメント７３の分割比率「０．３４」を利用して、図１２Ｃに示すように、６６（上方）：３４（下方）の比率で、人物領域は、２つの画像領域８１、８２に分割される。

一方、図１２Ｂに示す通り、画像５においては、人物領域はセグメント７１の位置に検出される。よって、セグメント７１の分割比率を利用して、図１２Ｄに示すように、５０（上方）：５０（下方）の比率で、人物領域は、２つの画像領域８３、８４に分割される。

このように分割されることで、同一人物が、異なる位置で撮影された場合でも、各画像における人物領域の、上方領域に含まれる人物の範囲と、下方領域に含まれる人物の範囲が概ね同様となる。よって、各々の画像から、上方領域および下方領域各々について色ヒストグラムを生成した場合、同一人物であれば、一方の画像をクエリ画像としたときに、他方の画像を検索することが可能となる。

図８に戻り、人物領域の位置に応じて決定された分割比率を用いて、分割部１０４は、人物領域を少なくとも２つの画像領域に分割する（Ｏｐ．５）。例えば、分割比率を用いて、分割位置（ｙ座標）を決定し、分割位置にて人物領域を２つの画像領域に分割する。なお、分割比率ｚに基づき決定される分割位置ｙｄは、以下の式１によって求められる。図１０に示した通り、ｙ１は人物領域のｙ座標の最小値、ｙ２は人物領域のｙ座標の最大値である。

そして、生成部１０５は、各画像領域の色情報を用いて、色ヒストグラムを生成する（Ｏｐ．６）。色ヒストグラムは、Ｒ，Ｇ，Ｂごとについて生成されてもよいし、ＲＧＢの組み合わせごとに、該当する画素数を計上してもよい。なお、生成部１０５は、画像領域の画素数を固定の値に正規化した色ヒストグラムを生成する。

そして、生成部１０５は、特徴情報記憶部１１３に、画像領域ごとの色ヒストグラムを記憶する（Ｏｐ．７）。図１３は、特徴情報記憶部１１３のデータ構成例である。特徴情報記憶部１１３は、画像識別情報、人物領域識別情報、画像領域識別情報、座標１、座標２、色ヒストグラム（特徴情報）を対応付けて記憶する。

画像識別情報は、映像を構成する画像を識別する情報である。なお、当該画像識別情報をキーに映像記憶部１１１を検索する事で、特定の画像の画像データを取得することができる。人物領域識別情報は、１つの画像に写った人物を互いに識別する情報である。例えば、一つの画像に複数の人物領域が検出された場合には、各人物領域を一意に識別するために内容が異なる人物領域識別情報が検出部１０２によって付与される。

画像領域識別情報は、人物領域を少なくとも２つの画像領域に分割した場合に、各画像領域を識別するための情報である。本実施例においては、上方領域には画像領域識別情報「１」が付与され、下方領域には画像領域識別情報「２」が付与される。よって、人物領域識別情報と画像領域識別情報を組み合わせることで、１つの画像におけるどの人物領域のどの画像領域であるのかが特定される。

座標１および座標２は、各画像領域の位置を示す情報であって、例えば、各画像領域の左上と右下の座標である。この座標１および座標２は、上述した図１１Ａの座標１および座標２と同様の座標系での座標値とすればよい。例えば、図１３には、左上座標（ｘ１，ｙ１）と右下座標（ｘ２，ｙ２）で表される人物領域が、ｙ座標「ｙｄ１」の位置で上方領域と下方領域の２つの画像領域に分割された場合の例が示されている。

色ヒストグラムは、各画像領域の色ヒストグラムの情報である。このように、各画像における人物領域の画像領域ごとに、特徴情報である色ヒストグラムが対応付けて記憶される。

以上の処理によって、映像（それに含まれる画像）から特徴情報が生成され、特徴情報は特徴情報記憶部１１３に格納される。よって、本実施例においては、特徴情報記憶部１１３を検索する事で、検索対象の人物と類似する服装の人物が写った画像を検索することができる。

なお、カメラ２００から随時取得した映像を対象に検索を行う場合には、図８に示す処理のうち、Ｏｐ．７が実行されない。その代わりに、クエリ画像から生成された特徴情報と、随時取得した映像から生成された特徴情報との照合が実施される。

次に、図１４は、検索装置の処理フロー（その２）である。図１４に示す処理は、検索処理である。通信部１０１は、通信装置３００から、クエリ画像を含む検索要求を受信する（Ｏｐ．１１）。なお、クエリ画像はカメラ２００から取得した映像のうちの一枚であってもよいし、他のカメラで撮影された画像であってもよい。前者の場合は、特定の人物の追跡が可能となる。また後者の場合は特定の人物の検索が可能となる。

そして、検出部１０２は、クエリ画像から、人物領域を検出する（Ｏｐ．１２）。検出部１０２による人物領域の検出手法については、Ｏｐ．２と同様である。決定部１０３は、人物領域の分割比率を決定する（Ｏｐ．１３）。決定部１０３による分割比率の決定手法は、Ｏｐ．４と同様である。つまり、決定部１０３は、人物領域の右下の座標が含まれるセグメントに対応する分割比率を、分割情報記憶部１１２から取得する。

決定された分割比率を用いて、分割部１０４は、人物領域を少なくとも２つの画像領域に分割する（Ｏｐ．１４）。分割部１０４による分割処理は、Ｏｐ．５と同様である。生成部１０５は、各画像領域の画像情報を用いて、色ヒストグラムを生成する（Ｏｐ．１５）。生成部１０５による色ヒストグラムの生成処理は、Ｏｐ．６と同様である。

次に、特定部１０６は、Ｏｐ．６にて、クエリ画像から生成された、各画像領域の色ヒストグラムを用いて、特徴情報記憶部１１３を検索する（Ｏｐ．１６）。この際、特定部１０６は、分割部１０４によってクエリ画像から分割生成された各画像領域である上方領域と下方領域とを区別して検索を行う。具体的には、上方領域については、特徴情報記憶部１１３において画像領域識別情報「１」に対応付けられた色ヒストグラムを対象に、上方領域の色ヒストグラムを用いた照合が行われる。一方、下方領域については、特徴情報記憶部１１３において画像領域識別情報「２」に対応付けられた色ヒストグラムを対象に、下方領域の色ヒストグラムを用いた照合が行われる。

クエリ画像由来の色ヒストグラムと特徴情報記憶部１１３に記憶された色ヒストグラムとの間の類似度が一定以上であれば、特定部１０６は、クエリ画像に写った人物の服装と類似する人物が写った画像であると判定される。なお、色ヒストグラム間の類似度の算出においては、例えば、特開２００９−１９９３２２号公報などに開示された手法が利用される。

特徴情報記憶部１１３において、複数の画像領域全てにおいて、クエリ画像の各画像領域との類似度が一定以上である人物領域が特定された場合、特定部１０６は、対応する画像識別情報をキーに、映像記憶部１１１から、対応する画像情報を取得する。

そして、特定部１０６は当該画像情報を含む検索結果を生成し、通信部１０１は、検索結果を通信装置３００へ送信する（Ｏｐ．１７）。なお、複数の画像領域全てにおいて、クエリ画像の各画像領域と類似する人物領域が特定されなかった場合、特定部１０６は、検索対象の人物と類似する服装の人物が写った画像はないとして、その旨を示す検索結果を、通信部１０１に送信させる。

以上の通り、検索装置１００は、クエリ画像に対しても、カメラ２００と被写体との位置関係を考慮して、人物領域を分割することができる。言い換えると、本実施例の分割比率を用いることで、カメラと被写体との位置関係によって生じる被写体の見え方の違いを考慮して、被写体における概ね同じ範囲が含まれるように人物領域が分割される。

よって、従来の技術と比較して、より絞り込まれた検索結果をユーザに提示できるとともに、同一人物が撮影されているにもかかわらず、その画像が検索結果から漏れてしまうことを防ぐことができる。クエリ画像は、カメラ２００またはカメラ２００と同様の設置状況のカメラにより撮影されていることが好ましい。なお、カメラ２００とは多少異なる設置状況で設置されたカメラにより撮影された画像がクエリ画像として使用されてもよい。それによっても、検索結果としては一定の効果が得られる。

［実施例１における分割情報の生成方法（その１）］
次に、第一の実施例における分割情報について、その生成方法を幾つか説明する。まずは、ある人物（同一人物）が特定のカメラ２００と様々な位置関係で撮影されたときの、ある人物の各位置に応じた、当該人物の見え方の相対関係を学習することで、分割情報を生成する方法について、説明する。

カメラを設置した作業者や当該監視システムの管理者などは、カメラ２００の撮影範囲を動き回る。このとき、カメラ２００は、カメラ２００と作業者（もしくは管理者）との位置関係が様々である複数の画像を含む映像を撮影する。そして、検索装置１００は、複数の画像各々において、同一人物の位置ごとに、当該人物がどのように見えるかを、画像の輝度変化から推測し、推測した結果を利用して分割情報を生成する。なお、当該学習処理は、検索装置１００の制御部１１０により実行される。

図１５Ａ、１５Ｂ、１５Ｃおよび１５Ｄは、分割情報の生成方法（その１）を説明するための図である。図１５Ａに示す画像９０と図１５Ｂに示す画像９２には、同一人物９１および９３が写っている。ただし、これら２枚の画像は、図５Ａおよび図５Ｂと同様に、カメラ２００と被写体（人物９１および９３）との位置関係が異なった状態で撮影されたものである。また、図１５Ａおよび図１５Ｂは、水平方向をｘ座標、高さ方向をｙ座標としている。

図１５Ｃは、画像９０における人物領域の拡大図と、ｙ方向の輝度変化を示す図である。図１５Ｄは、画像９２における人物領域の拡大図と、ｙ方向の輝度変化を示す図である。なお、人物領域は、先に説明した手法により検出されているものとする。また、図１５Ｃおよび図１５Ｄにおいては、輝度変化を示す線を簡略化して示してある。

ｙ方向の輝度変化は、各ｙ座標のｘ方向に配列した複数画素の輝度値の和について、隣接するｙ座標間での差分を求める事で得られる。そして、制御部１１０は、輝度変化が最大となるｙ座標を特定する。例えば、頭部と身体との境目（９４および９６）や、Ｔシャツとズボンの間である腰の位置（９５および９７）が特定されることが予測される。具体的に、まず、制御部１１０は、以下の式２および式３により、輝度変化が大きい位置ｙ_ｍａｘを求める。

Ｆ（ｙ）は、あるｙ座標における、水平方向（ｘ方向）に配列した画素の輝度値の和である。ｘ_１，ｘ_２はそれぞれ人物領域の左端および右端のｘ座標、Ｉ（ｘ，ｙ）は座標（ｘ，ｙ）における画素、Ｍ（ｘ，ｙ）は、人物領域のマスク情報を表す。Ａは集計範囲を示しており、例えば、１０ピクセルなど所定の値が代入される。Ｍ（ｘ，ｙ）は、座標（ｘ，ｙ）が人物領域の中で、人物の相当する画素には「１」となり、背景に相当する画素の場合には「０」に設定される。

本実施例においては、同一人物が撮影された複数の画像のうちの第一の画像において輝度変化が最大となるｙ座標ｙ_ｍａｘは、同一人物が同じ服装をしている限り、第二の画像において輝度変化が最大となるｙ座標ｙ_ｍａｘ’と本来対応することが予測される。よって、カメラ２００と人物の位置関係を反映した人物領域の位置ごとに、特徴的な位置を求めることで、カメラと人物との位置関係によって生じる人物の見え方の違いを考慮した、各画像における人物の特徴的な位置の相対関係が把握される。なお、特徴的な位置の一例は、輝度変化が最大となるｙ座標である。

次に、制御部１１０は、以下の式４にｙ_ｍａｘを代入することで、分割比率ｚを算出する。また、ｙ２は人物領域のｙ座標のうち最大値、ｙ１は人物領域のｙ座標のうちの最小値である。このように、カメラと被写体との位置関係によって生じる被写体の見え方の違いを考慮した特徴的な位置を利用して、位置関係毎に、被写体の画像領域を当該特徴的な位置で分割するための比率ｚを求めることができる。

ここで、図１５Ｃや図１５Ｄに示した通り、輝度変化が大きくなる位置としては、服の切れ目（９５および９７）のほかに、頭部と身体との間（９４および９６）も挙げられる。よって、頭部と身体の間ではなく、服の切れ目（９５および９７）に基づき分割比率ｚが算出されるように、制御部１１０は、輝度変化が大きな２つのｙ座標を特定し、そのうち、より大きなｙ座標（より下に存在するｙ座標）を、ｙ_ｍａｘとして採用するとしてもよい。また、予め頭部部分を除外した状態で身体部分のみを含む人物領域が検出されている場合には、制御部１１０は、輝度変化が最大となるｙ_ｍａｘを求める。

さらに、足首（靴とズボン等との間）の部分でも輝度変化が大きくなることが予測されるので、制御部１１０は、輝度変化が大きな３つのｙ座標を特定し、その中で中間に存在するｙ座標を、ｙ_ｍａｘとして採用してしてもよい。また、予め頭部部分を除外した状態で身体部分のみを含む人物領域が検出されている場合には、制御部１１０は、輝度変化が大きな２つのｙ座標を特定し、そのうち、より小さなｙ座標（画像上でより上に存在するｙ座標）を、ｙ_ｍａｘとして採用するとしてもよい。

そして、制御部１１０は、人物領域の位置（例えば、右下の座標）が当てはまるセグメントを特定し、分割情報記憶部１１２に、当該セグメントと対応付けて、分割比率ｚを格納する。なお、同一セグメントに当てはまる人物領域が複数の画像において検出された場合、各画像から算出された分割比率ｚの平均値を求め、最終的な分割比率ｚとしてもよい。

このように、カメラ２００と被写体との位置関係ごと、言い換えると、画像における人物領域の位置ごとに、制御部１１０は、輝度変化が大きい位置（ｙ座標）を求める。これらは各画像間で、同一人物の身体における同じ位置に対応すると推測することができる。よって、例えば、着衣の境目に相当する腰の位置は、ある人物がある位置に存在する場合には、ある高さに投影され、ある人物が他の位置に存在する場合には、他の高さに投影されることが分かる。画像における人物領域の位置ごとに、輝度変化の大きな位置を取得する事で、カメラ２００と被写体との位置関係によって生じる見え方の違いを、相対的に把握し、これを反映した分割比率ｚを決定することができる。なお、人物領域を３以上の画像領域に分割する場合には、制御部１１０は、上記手法にて、輝度変化が閾値以上となる位置（ｙ座標）を２以上特定するとしてもよい。そして、制御部１１０は、特定された２以上の位置に基づき、分割比率ａ：ｂ：ｃを、人物領域の位置毎に算出する。

なお、映像を構成する複数の画像やクエリ画像から検出した人物領域を、分割情報を用いて分割する場合には、学習段階の人物（作業者）と異なる人物が写った画像を対象に処理を行う事になる。この場合に、作業者とは身体的な特徴が異なることから、必ずしも腰の位置で分割されるとは限らない。しかし、これは問題ではない。

つまり、カメラ２００と被写体との位置関係によって生じる被写体の見え方の違いを考慮した分割比率ｚが予め学習されているので、作業者とは異なる人物であっても、同じ人物であれば、位置関係によらず、当該人物におけるある位置で分割されるためである。よって、本実施例に係る検索装置１００は、図５Ａ乃至Ｄを用いて説明した問題を解消して、同一人物が検索結果から除外されることを防ぐことができる。

次に、分割情報の生成方法（その１）についての処理フローを説明する。図１６は、分割情報の生成方法（その１）の処理フローである。

制御部１１０は、カメラ２００から映像を取得する（Ｏｐ．２１）。そして、制御部１１０は、映像中の一つの画像を処理対象に設定し、処理対象の画像から人物領域を検出する（Ｏｐ．２２）。なお、Ｏｐ．２２の処理は、制御部１１０の中の検出部１０２によって実行され、Ｏｐ．２と同様の処理である。

次に、制御部１１０は、上記の式３および式４を用いて、ｙ方向で、人物領域の輝度変化が大きな位置ｙ_ｍａｘを特定する（Ｏｐ．２３）。そして、制御部１１０は、各画像について、処理対象の画像における人物領域の分割比率ｚを算出する（Ｏｐ．２４）。なお、Ｏｐ．２２乃至Ｏｐ．２４は、画像各々を処理対象として、それぞれ実行される。

ここで、算出された各画像の分割比率ｚは、一時的に、学習用テーブル記憶部に記憶される。なお、本実施例における検索装置１００は、さらに学習用テーブル記憶部（図７に不図示）を有する。図１７は、学習用テーブル記憶部のデータ構成例（その１）である。学習用テーブル記憶部には、画像識別情報、人物領域識別情報、座標１、座標２、分割比率ｚが対応付けて記憶される。そのような対応情報が学習用テーブル記憶部における１つのレコードとなり、対応情報が複数個存在すれば学習用テーブル記憶部にはそれらに対応する複数のレコードが記憶される。制御部１１０は、映像に含まれる各画像の各人物領域について、人物領域の位置を示す情報（座標１および座標２）と、分割比率ｚを格納する。

画像識別情報は、映像に含まれる複数の画像を互いに識別する情報である。人物領域識別情報は、１つの画像に含まれる１以上の人物領域を互いに識別する情報である。座標１は、人物領域の左上の座標である。座標２は、人物領域の右下の座標である。これら座標１および座標２の各座標値は、画像の左上端の画素を原点とした画像全体における絶対座標値によって示される。分割比率ｚは、対応する人物領域全体に対する、輝度変化が最大となる位置ｙ_ｍａｘまでの長さの比率である。

図１６に戻り、制御部１１０は、すべての画像各々について、分割比率ｚを算出した後、セグメントごとに分割比率ｚを決定する（Ｏｐ．２５）。例えば、制御部１１０は、学習用テーブル記憶部から、図１１Ａおよび１１Ｂに示した各セグメントの範囲に人物領域の右下（座標２）が含まれるすべてのレコードを特定する。そして、特定したすべてのレコードに記憶されている分割比率を対象にその平均を算出する事で、制御部１１０は、当該セグメントに適用する分割比率ｚを決定する。

そして、制御部１１０は、当該セグメントのセグメント識別情報と分割比率ｚを含む分割情報を生成する（Ｏｐ．２６）。そして、制御部１１０は、分割情報記憶部１１２に、分割情報を格納する（Ｏｐ．２７）。

以上の通り、監視システムの運用前などの段階で、作業者の映像を用いて分割情報が生成される。検索装置１００は、人物検索時やカメラから映像を取得したタイミングで、人物領域の位置に応じて適応的に分割比率ｚを決定し、人物領域を、人物検索に適した位置で、少なくとも２つの画像領域に分割することができる。

［実施例１における分割情報の生成方法（その２）］
次に、分割情報の生成方法（その２）について、説明する。第一の実施例における分割情報の生成方法（その２）では、制御部１１０は、カメラ２００の設置が終了した後の一定期間に撮影された映像であって、かつ、複数の通行人が写った映像を用いて、分割情報を生成する。

分割情報の生成方法（その２）においては、学習に利用する映像に複数の人物が写っているという点のみが、分割情報の生成方法（その１）と異なる。よって、様々な服装の人物が写った映像を取得し、この映像（複数の画像）を対象に、各セグメントにおける平均的な分割比率ｚを決定する。

［実施例１における分割情報の生成方法（その２）の変形例１］
分割情報の生成方法（その２）においては、種々の変更も可能である。まず、セグメントごとの分割比率ｚを決定する際に、信頼度を利用する変形例１について説明する。図１８は、分割情報の生成方法（その２）の変形例１の処理フローである。分割情報の生成方法（その１）と同様の処理については、図１６と同様の符号を付し、説明を省略する。

処理対象の画像に対して分割比率ｚを算出した後に、制御部１１０は、当該分割比率ｚの信頼度Ｒを算出する（Ｏｐ．３１）。信頼度Ｒは、輝度変化が最大となる位置ｙ_ｍａｘにおける、Ｆ（ｙ）の変化量を用いて、以下の式５により得られる。

式５のとおり、位置ｙ_ｍａｘの付近でｙ方向により大きな輝度変化があるほど、信頼度Ｒは大きな値となる。信頼度Ｒは、その値が大きいほど信頼度が高いことを示す。なお、Ｒは０から１の範囲の値をとる。また、Ｖ_ｍａｘは、輝度変化の変化量の最大値を表す。例えば、ＲＧＢが０から２５５までを取る３次元ベクトルの場合には、集計範囲Ａに対して、Ｖ_ｍａｘは２５５Ａ・３（１／２）となる。

図１９Ａおよび１９Ｂは、信頼度を説明するための図である。図１９Ａには、白色のＴシャツに黒色のズボンを着用した人の人物領域と、当該人物領域におけるｙ方向の輝度変化が示されている。図１９Ａでは、上半身と下半身の間に大きな輝度変化Ｄ１が生じていることがわかる。一方、図１９Ｂには、白色のＴシャツにベージュ色のズボンを着用した人の人物領域と、当該人物領域におけるｙ方向の輝度変化Ｄ２が示されている。この場合、白色の上半身とベージュ色の下半身の間に生じる輝度変化Ｄ２は、図１９Ａにおける輝度変化Ｄ１と比較して小さい。

図１９Ｂのような場合には、上半身や下半身の境目以外にも、服の模様や陰影によって生じた輝度変化の方が、上半身や下半身の境目よりも大きくなる可能性がる。この場合に得られたｙ_ｍａｘを用いて分割比率ｚを決定すると、最終的なセグメントごとの分割比率ｚの精度が低下する恐れがある。

そこで、制御部１１０は、図１９Ｂのような場合には、図１９Ａと比較して小さな信頼度を与える。よって、各セグメントの分割比率ｚを決定する際に、信頼度Ｒによる重みづけを行う事で、信頼性の高い情報をより大きく反映して、分割比率ｚを決定することができる。

図２０は、学習用テーブル記憶部のデータ構成例（その２）である。変形例１においては、図１７に示した学習用テーブル記憶部の対応情報に、さらに信頼度Ｒの情報が対応付けて記憶される。

そして、図１８に戻り、制御部１１０は、各セグメントの分割比率ｚを決定する（Ｏｐ．３２）。制御部１１０は、信頼度Ｒも加味して、セグメントごとの分割比率ｚを決定する。

例えば、制御部１１０は、各セグメントに対応するレコードを学習用テーブル記憶部から抽出し、抽出されたレコードの分割比率ｚと信頼度Ｒとを乗算した上で、平均値を算出する。また、制御部１１０は、図２１のように、重みづけされた分割比率ｚの頻度を計測し、ヒストグラムを生成してもよい。そして、制御部１１０は、頻度が最大となる分割比率ｚを、当該セグメントの分割比率ｚとして決定する。図２１は、信頼度で重みづけされた分割比率のヒストグラムである。通常、ある分割比率ｚに当てはまるような事象が１つ存在すると、ヒストグラムにおいて、当該分割比率ｚのビンには１票の投票が実施される。一方、本実施例においては、信頼度Ｒに応じた重みづけ投票が行われるため、信頼度Ｒ分の票数（実際は０から１）が当該分割比率ｚのビンに投票されることになる。

さらに、制御部１１０は、信頼度Ｒをばらつきとして利用し、分散付投票を行う事で、投票の最大値を取る比率を分割比率ｚとしてもよい。例えば、制御部１１０は、以下の式６を用いて、分散付投票を行ったうえで、ヒストグラムを生成する。そして、ヒストグラムにおいて、頻度が最大となる分割比率ｚを、当該セグメントの分割比率ｚとして決定する。

なお、ｒは、ヒストグラムの投票位置であって、０から１までの値である。なお、ヒストグラムの幅は、０．０５や０．１など適切な値が設定される。また、μは、各人物領域から得られた分割比率である。さらに、σは、投票の分散具合を示す値であって、信頼度Ｒを用いて、例えば式７、式８および式９などから得られる。

［実施例１における分割情報の生成方法（その２）の変形例２］
さらに、制御部１１０は、分割情報の生成方法（その２）においては、以下の変形例２を採用して、分割情報を生成してもよい。制御部１１０は、例えば季節や時間帯、曜日などごとに、複数の分割情報を生成する。この場合、制御部１１０は、図８や図１４に示す各種処理を実行する際に、処理対象となる画像（映像中の画像またはクエリ画像）が撮影された季節や時間帯、曜日などに応じて、参照する分割情報を適応的に切り替える。

また、制御部１１０は、人物の身長に応じて、複数の分割情報を生成するとしてもよい。この場合、制御部１１０は、学習用テーブル記憶部から、あるセグメントに人物領域の位置（右下座標）が含まれるレコードを抽出する。そして、抽出したレコードを対象に、セグメントごとに、人物領域の高さのクラスタリングを実行する。人物領域の高さは、座標１と座標２のｙ座標の差分である。

そして、制御部１１０は、クラスタリングされたグループごとに、分割比率ｚを決定する。身長によって、身体的な特徴が変わる可能性があるので、身長ごとに、分割情報を生成することで、より検索の精度を向上させることができる。

なお、クラスタリングにより生成された各クラスの情報は、別途、分割情報記憶部１１２に記憶される。そして、図８や図１４の処理においても、制御部１１０は、当該人物領域の高さに応じて、人物領域が含まれるセグメントごとにおけるクラスを特定し、当該クラスに対応する分割情報を利用する。

［実施例２］
実施例１における検索装置１００は、事前に学習した分割情報を利用して、分割比率ｚを決定する。一方、実施例２における検索装置４００は、カメラの高さや俯角などをパラメータとする式を用いて、人物とカメラの位置関係によって生じる人物の見え方を考慮した分割比率ｚを決定する。

図２２は、実施例２に係る検索装置の機能ブロック図である。検索装置４００は、通信部１０１、制御部４１０、映像記憶部１１１、特徴情報記憶部１１３を有する。実施例１に係る検索装置１００と同様の処理を行う処理部については、同様の符号を付し、説明を省略する。なお、本実施例においては、分割情報を事前に学習することはないため、分割情報記憶部１１２は不要となる。

制御部４１０は、実施例１とは異なる手法で分割比率を決定する決定部４０３を有する。決定部４０３による分割比率の決定方法について、以下説明する。ただし、より詳細には、本実施例に係る決定部４０３は、カメラ２００と被写体との位置関係を考慮した分割比率を反映した分割位置を適応的に決定する。

図２３Ａおよび２３Ｂは、第二の実施例に係る、分割比率を反映した分割位置を決定する方法を説明するための図である。図２３Ａは、カメラの設置条件と地上座標系を説明するための図である。カメラ２００は、地上から高さＨに、俯角θで設置されている。なお、当該カメラ２００の焦点距離はｆである。

地上座標系は、カメラから見て、奥行き方向（紙面左右方向）にＺ軸、上下方向（紙面上下方向）にＹ軸、左右方向（紙面奥行き方向）にＸ軸が設定された３次元空間である。よって、人物５００は、地上座標系における位置Ｐ（Ｘ１，Ｙ１，Ｚ１）で表される。なお、位置Ｐは人物５００の足元の位置であって、Ｙ１は０であるとする。

つぎに、図２３Ｂは、図１０と同様の画像６を示す。ただし、人物領域６０は、人物５００に対応する。なお、図１０と同様、人物領域６０は、左上の座標Ｐ１（ｘ１，ｙ１）およびＰ２（ｘ２，ｙ２）で表される。

実施例２に係る分割比率ｚ’は、式４と同様に、以下の式１０により得られる。なお、ｙ１、ｙ２は、画像６から人物領域６０を検出する事で得られる。また、ｙ_ｄｉｖは、カメラ２００と被写体との位置関係を考慮して、地上座標系の人物５００を一定の割合（１−ｒ：ｒ）で分割するための分割位置（ｙ座標）である。つまり、ｙ_ｄｉｖの位置で人物領域６０を分割すると、カメラ２００と被写体（人物５００）との位置関係の違いを吸収して、人物５００が１−ｒ：ｒの割合で分割されたように、人物領域６０が分割される。

ここで、実施例１では、人物領域の位置に応じて決定した分割比率ｚを用いて、式１から、分割比率ｚで分割するような高さ（ｙｄ）を決定した。一方、実施例２では、直接的に、分割位置ｙ_ｄｉｖを求めることができる。以下、ｙ_ｄｉｖを求めるための手法を説明する。

まず、地上座標系における座標（Ｘ，Ｙ，Ｚ）から画像上での投影位置（ｘ，ｙ）への変換式は、以下の式１１および式１２で表される。

したがって、式１２に基づき、ｙ_ｄｉｖは以下の式１３で表される。なお、人物５００の身長ｈは、以下の式１４により求めることができる。また、ｒは、適宜設定される。例えば、地上座標系に存在する人物５００を上下に０．５：０．５で分割したように、画像における人物領域６０を分割したい場合には、ｒは０．５となる。

なお、地面の高さ（Ｙ座標）を０とする地上座標系においては、人物５００の足元の位置ＰのＹ１が０となる。そして、図２３Ａにおける人物５００の位置Ｐは、図２３Ｂにおける画像６上のＰ２（ｘ２，ｙ２）に対応するとする。この場合、式１２にＹ＝Ｙ１＝０、ｙ＝ｙ２、Ｚ＝Ｚ１を代入して、Ｚ１について解くことで、以下の式１５が得られる。

式１４および式１５を、式１３に代入する事で、決定部４０３は、分割位置ｙ_ｄｉｖを得ることができる。このようにして得られたｙ_ｄｉｖにより、カメラと人物との位置関係によらず、地上座標系に存在する人物を１−ｒ：ｒで分けるように、人物領域を分割することができる。

よって、実施例２の検索装置４００は、事前に分割比率を学習することなく、カメラの設置情報（俯角θや高さＨ）が入力されると、取得した画像から検出した人物領域の位置に基づき、適応的に分割比率を反映した分割位置を決定することができる。

［特徴情報記憶部への特徴情報登録処理の変形例］
次に、特徴情報登録処理の変形例について説明する。なお、以下の変形例は、実施例１および実施例２のいずれにも適用可能である。また、生成された特徴情報が予め特徴情報記憶部に登録される場合にも、カメラ２００から受信した映像から検索対象の人物をリアルタイムで検索する場合にも、以下の変形例は適用可能である。

変形例にかかる検索装置１００または検索装置４００（以下、検索装置１００）は、既知の人物追跡技術を利用して、カメラ２００から受信した映像に含まれる複数の画像間で、同一人物である可能性の高い人物の人物領域を対応付ける。例えば、オプティカルフローによる追跡や、各々の画像における人物領域の色ヒストグラムの類似性から、複数画像間での人物領域の対応付けが実施される。

そして、検索装置１００は、同一人物である可能性の高い人物が、カメラ２００の手前側に存在する時の色ヒストグラムを利用して、クエリ画像から生成された特徴情報との照合に利用される特徴情報を生成する。例えば、カメラ２００と被写体（人物）との距離が一定以上大きい場合には、人物が全体的に暗く撮影されることがあるためである。本変形例は、このような事象を考慮し、人物の服装の色などがより把握しやすい画像から特徴情報（色ヒストグラム）を生成することができる。

また、検索装置１００は、同一人物である可能性の高い人物領域の各々から生成された特徴情報を平均化した平均特徴情報を、クエリ画像から生成された特徴情報と照合してもよい。平均特徴情報を利用する事で、より安定的な特徴情報を生成することができる。本変形例によれば、例えば、照明が当たりにくい場所に存在する人物が撮影された場合でも、当該人物の特徴を安定的に把握することができる。

［その他の変形例］
上記実施例においては、色情報（色ヒストグラム）を特徴情報として利用する例を説明した。しかし、これに限らず、他の特徴情報を用いてもよい。例えば、検索装置１００や検索装置４００は、エッジ情報やテクスチャ情報を、特徴情報として利用してもよい。

また、検索装置１００および検索装置４００は、服装に基づき人物検索を行った後、さらに、検索された画像を対象に、顔の特徴を用いて、同一人物の検索を行ってもよい。このようにすることで、同一人物の人物検索を行う前に、照合対象を、本実施例に開示の技術により、絞り込むことができる。

［ハードウェア構成例］
次に、図２４は、本発明に関する検索装置のハードウェア構成例である。コンピュータ１０００は、各実施例に係る登録処理および検索処理を実行し、検索装置１００または検索装置４００（以下、検索装置１００）として機能する。コンピュータ１０００はＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）１００１、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）１００２、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）１００３、通信装置１００４、ＨａｒｄＤｉｓｋＤｒｉｖｅ（ＨＤＤ）１００５、入力装置１００６、表示装置１００７、媒体読取装置１００８を有しており、各部はバス１００９を介して相互に接続されている。そしてＣＰＵ１００１による制御下で相互にデータの送受を行うことができる。

各実施例のフローチャートに示した登録処理、検索処理、学習処理等が記述されたプログラムは、コンピュータ１０００が読み取り可能な記録媒体に記録される。コンピュータ１０００が読み取り可能な記録媒体には、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ＨＤＤ、フレキシブルディスク（ＦＤ）、磁気テープ（ＭＴ）などがある。

光ディスクには、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）、ＤＶＤ−ＲＡＭ、ＣｏｍｐａｃｔＤｉｓｃ − ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＣＤ−ＲＯＭ）、ＣｏｍｐａｃｔＤｉｓｃ − Ｒｅｃｏｒｄａｂｌｅ／ＲｅＷｒｉｔａｂｌｅ（ＣＤ−Ｒ／ＲＷ）などがある。光磁気記録媒体には、Ｍａｇｎｅｔｏ − ＯＰｔｉｃａｌｄｉｓｋ（ＭＯ）などがある。各実施例に係る処理が記述されたプログラムを流通させる場合には、例えば、当該プログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売されることが考えられる。

そして各実施例に係るプログラムを実行するコンピュータ１０００の媒体読取装置１００８が、当該プログラムを記録した記録媒体から、該プログラムを読み出す。ＣＰＵ１００１は、読み出されたプログラムをＨＤＤ１００５若しくはＲＯＭ１００２、ＲＡＭ１００３に格納する。

ＣＰＵ１００１は、検索装置１００全体の動作制御を司る中央処理装置である。そして、ＣＰＵ１００１が、各実施例に関わる処理が記述されたプログラムをＨＤＤ１００５から読み出して実行する。ＣＰＵ１００１は、検索装置１００における制御部１１０（または制御部４１０）として機能するようになる。先に述べたとおり、プログラムはＣＰＵ１００１とアクセス可能なＲＯＭ１００２またはＲＡＭ１００３に格納されていても良い。

通信装置１００４は、ＣＰＵ１００１の制御の下、通信部１０１として機能する。

ＨＤＤ１００５は、ＣＰＵ１００１の制御下で、各種情報を記憶し、記憶部として機能する。各種情報は、プログラム同様、ＣＰＵ１００１とアクセス可能なＲＯＭ１００２またはＲＡＭ１００３に格納されても良い。さらに、処理の過程で一時的に生成および保持される各種情報は、例えば、ＲＡＭ１００３に格納される。つまり、ＲＡＭ１００３が記憶部として機能する場合もある。

入力装置１００６は、各種入力を受け付ける。入力装置１００６は、例えばキーボードやマウスである。表示装置１００７は、各種情報を表示する。表示装置１００７は、例えばディスプレイである。

１００、４００検索装置
２００カメラ
３００通信装置
１０１通信部
１０２検出部
１０３、４０３決定部
１０４分割部
１０５生成部
１０６特定部
１１０、４１０制御部
１１１映像記憶部
１１２分割情報記憶部
１１３特徴情報記憶部
１０００コンピュータ
１００１ＣＰＵ
１００２ＲＯＭ
１００３ＲＡＭ
１００４通信装置
１００５ＨＤＤ
１００６入力装置
１００７表示装置
１００８媒体読取装置
１００９バス

Claims

撮影装置により撮影された画像情報から被写体を検出する検出部と、
前記撮影装置と前記被写体との位置関係に応じて分割比率を決定する決定部と、
前記決定した分割比率により、前記被写体が写る画像領域を少なくとも２つの画像領域に分割する分割部と、
前記少なくとも２つの画像領域それぞれの特徴情報を特定する特定部と
を含むことを特徴とするシステム。
前記特定部は、検索要求で指定された検索対象の情報と前記特徴情報に基づき、前記被写体が前記検索対象に類似する被写体であることを特定することを特徴とする請求項１に記載のシステム。
前記決定部は、前記位置関係ごとに、前記分割比率を記憶する記憶部を参照し、前記被写体が写る画像領域に適用する分割比率を決定することを特徴とする請求項１または２に記載のシステム。
学習用画像情報から、被写体が写る被写体領域を検出し、前記被写体領域の検出位置毎に、前記分割比率を決定し、該検出位置と対応付けて該分割比率を前記記憶部に記憶する制御部を有することを特徴とする請求項３に記載のシステム。
前記制御部は、前記被写体領域における輝度変化を算出し、当該輝度変化に基づき、前記分割比率を決定することを特徴とする請求項４に記載のシステム。
前記被写体は人物であることを特徴とする請求項１乃至５のいずれか一項に記載のシステム。
前記特徴情報は、色情報であることを特徴とする請求項１乃至６のいずれか一項に記載のシステム。
前記色情報は、色ヒストグラムであることを特徴とする請求項７に記載のシステム。
撮影装置により撮影された画像情報から被写体を検出し、
前記撮影装置と前記被写体との位置関係に応じて分割比率を決定し、
前記決定した分割比率により、前記被写体が写る領域を少なくとも２つの画像領域に分割し、
前記少なくとも２つの画像領域それぞれの色情報に基づいて、複数の画像情報の中から、前記検出された被写体と類似する特徴を有する被写体が写る画像情報を特定する
処理をコンピュータが実行することを特徴とする検索方法。
撮影装置により撮影された画像情報から被写体を検出し、
前記撮影装置と前記被写体との位置関係に応じて分割比率を決定し、
前記決定した分割比率により、前記被写体が写る領域を少なくとも２つの画像領域に分割し、
前記少なくとも２つの画像領域それぞれの色情報に基づいて、複数の画像情報の中から、前記検出した被写体と類似する特徴を有する被写体が写る画像情報を特定する
処理をコンピュータに実行させることを特徴とするプログラム。