JP6624878B2

JP6624878B2 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP6624878B2
Application number: JP2015204049A
Authority: JP
Inventors: 東條　洋; 洋東條; 矢野　光太郎; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-10-15
Filing date: 2015-10-15
Publication date: 2019-12-25
Anticipated expiration: 2035-10-15
Also published as: US10079974B2; JP2017076909A; US20170111576A1

Description

本発明は、画像の特徴量を抽出する画像処理装置、画像処理方法及びプログラムに関する。

従来、録画された動画中から所定の被写体の画像を検索し、その被写体が撮像された録画区間の再生を可能とする技術が開発されている。これを実現するために、カメラでの撮像時に被写体領域を検出し、その被写体領域から画像の特徴量を抽出して、その被写体領域の特徴量を動画像と関連付けて記憶している。動画像の中から所定の被写体の画像を検索する際には、動画像の中から、特徴量に関連付けられた被写体が映っている画像を検索する。より高精度な検索を可能とするためには、高解像度の被写体画像を取得して特徴量を抽出する方法が有効である。特に監視カメラの分野では、広域（広角）を監視するカメラに加えて、パン・チルト・ズーム（以下、ＰＴＺと表記する。）の操作の可能なカメラを用意し、被写体である人物一人一人の高解像度の画像を取得する技術が知られている。
例えば、特許文献１には、人物を検出してズームし、合焦度合いやノイズ量で判断して画質のよい画像が得られるまでカメラで人物をトラッキングし、人物領域の高解像度画像を取得する技術が開示されている。また、特許文献２には、背景差分により動体として人物を検出し、その検出領域より肌色領域を検出してズームし、顔の高解像度画像を取得する技術が開示されている。

米国特許出願公開２００５／０１０４９５８号明細書特開２００３−２１９２２５号公報

しかしながら、例えばコンビニエンスストア、ショッピングモール、空港など大勢の人物が行き来する環境の場合、それら多数の人物を個々に判別するには、対象となる人物の数が多すぎる。このような環境で、特許文献１の技術のように、全ての人物について高画質な人物画像が取得できるまでトラッキングしたり、特許文献２の技術のように、全ての人物の顔にズームしたりするのは、処理負荷が非常に高くなる。また、一般に高解像度な画像であるほど、より詳細な（情報量の多い）特徴量が抽出されることになるため、抽出された特徴量のデータ量も大きくなり、消費するメモリ量も増大する。その上、空港のような環境の場合、一つのカメラでは監視対象エリアを全てカバーできないため、多数のカメラを設置する必要がある。それぞれのカメラで個々の人物の高解像度画像を取得して特徴量を抽出すると、システム全体の処理負荷、必要な総メモリ量は莫大なものとなる。

そこで、本発明は、処理負荷と必要な総メモリ量の増大を防ぎつつ、各被写体を判別する際に有効な特徴量を取得可能とする画像処理装置、画像処理方法及びプログラムを提供することを目的とする。

本発明の画像処理装置は、広域画像を撮像する第１の撮像手段と、前記第１の撮像手段の撮影範囲の一部の範囲を撮影可能な第２の撮像手段と、前記第１の撮像手段により撮像された画像の中から検出の対象とされている複数の被写体の画像領域を検出する検出手段と、前記第２の撮像手段により撮像された画像の中で、前記検出の対象とされている複数の被写体の画像領域ごとに特徴量を抽出する抽出手段と、前記複数の被写体の画像領域ごとに前記抽出された特徴量に基づいて、前記複数の被写体のそれぞれを判別可能にする特徴量の種別と、前記種別の特徴量を抽出可能な画像の解像度とを決定する決定手段と、前記決定手段により決定された解像度で画像を出力するように、前記第２の撮像手段を制御する撮像制御手段と、前記抽出手段に対し、前記第２の撮像手段から出力された前記決定された解像度の画像から、前記決定された種別の特徴量を抽出させる抽出制御手段とを有することを特徴とする。

本発明によれば、処理負荷と必要な総メモリ量の増大を防ぎつつ、各被写体を判別する際に有効な特徴量を取得可能となる。

実施形態の画像処理装置の概略的なハードウェア構成例を示す図である。実施形態の画像処理装置の機能別の構成例を示す図である。画像の解像度と特徴量の種別の関係説明に用いる図である。高解像特徴化判定モード時の処理の流れを示すフローチャートである。運用モード時の処理の流れを示すフローチャートである。被写体検索処理の流れを示すフローチャートである。

以下に、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。
＜概略的なハードウェア構成＞
図１は、本実施形態の画像処理装置の概略的なハードウェア構成例を示す図である。
ＣＰＵ１０１は、ＲＯＭ１０２やＲＡＭ１０３に格納されたプログラムに従って命令を実行する。またＣＰＵ１０１は、画像入力装置１０５、入力装置１０６、表示装置１０７、２次記憶装置１０４、ネットワークＩ／Ｆ１０８等を制御する。ＣＰＵ１０１による命令実行処理や各部の制御の詳細は後述する。

ＲＯＭ１０２は、不揮発性メモリであり、本実施形態にかかるプログラムやその他の制御に必要なプログラムやデータ等を格納している。ＲＡＭ１０３は、揮発性メモリであり、画像入力装置１０５により撮影された動画像やネットワークＩ／Ｆ１０８や２次記憶装置１０４を介して取得した動画像の各フレーム画像データ、後述する特徴量の判別結果の情報などを一時的に記憶する。
２次記憶装置１０４は、ハードディスクドライブやフラッシュメモリーなどの書き換え可能でコンピュータ読み取り可能な各種の記憶媒体１１０に対して、画像データやその他の各種情報等を記憶する。記憶媒体１１０は、それら画像データや各種情報の記録だけでなく、本実施形態に係るプログラムが記録されていてもよい。また、２次記憶装置１０４は、画像データや各種情報、プログラム等をＲＡＭ１０３に転送する。これにより、ＣＰＵ１０１は、それらプログラムを実行し、画像データ等を利用する。

入力装置１０６は、キーボードやマウス、タッチパネルなどであり、ユーザからの入力を可能とするための装置である。表示装置１０７は、液晶ディスプレイや有機ＥＬディスプレイパネルなどであり、画像や後述する検索処理結果などを表示するための装置である。ネットワークＩ／Ｆ１０８は、インターネットやイントラネットなどのネットワークと接続を行うためのモデムやＬＡＮ、無線通信網などと接続するためのインターフェイス装置である。バス１０９は、これらを接続して相互にデータの入出力を行う。

画像入力装置１０５は、例えば、監視カメラとして用いられるデジタルビデオカメラやネットワークカメラ、赤外線カメラなどであり、例えばコンビニエンスストア、ショッピングモール、空港などの監視エリア内の画像を撮影する装置である。本実施形態の場合、画像入力装置１０５は、監視エリアの略々全ての広域（広角）撮像が可能なカメラと、パン・チルト・ズーム（ＰＴＺ）等のような撮像方向や画角の調整が可能なカメラとを有している。以下、広域（広角）撮像が可能なカメラを広域撮像カメラと表記し、ＰＴＺ等による撮像方向や画角の調整が可能なカメラをＰＴＺ撮像カメラと表記する。ＰＴＺ撮影カメラは、パン・チルトにより撮影方向の調整が可能で、ズームレンズの焦点距離（ズーム倍率）の変更により画角の調整が可能である。ＰＴＺ撮像カメラは、広域撮像カメラの撮影範囲（視野）と同じ撮影範囲を撮影可能であるだけでなく、広域撮像カメラの撮影範囲内（視野内）の一部のみを拡大（ズームアップ）して撮影することも可能なカメラである。画像入力装置１０５は、広域撮像カメラの撮影範囲内（視野内）をＰＴＺ撮像カメラがズームアップして撮影している場合、広域撮像カメラの撮影範囲内の何れの範囲をＰＴＺ撮像カメラが撮像しているかについては常に認識しているとする。なお、本実施形態において、それら広域撮像カメラとＰＴＺ撮像カメラはそれぞれ一つのみである必要はなく、それぞれ複数であってもよい。また、監視エリアも一つだけでなく複数であってもよく、この場合、一つの監視エリアに対しては、少なくとも一組の広域撮像カメラとＰＴＺ撮像カメラが配置される。その他、広域撮像とＰＴＺ撮像は、例えば一つのカメラが時分割で行ってもよい。

図１では、画像入力装置１０５がバス１０９により接続された例を挙げているが、画像入力装置１０５が例えばネットワークカメラである場合、そのネットワークカメラはネットワークＩ／Ｆ１０８を介して画像処理装置に接続される。また、入力装置１０６、表示装置１０７、２次記憶装置１０４等についても同様に、バス１０９を介して接続される例だけでなく、ネットワークＩ／Ｆ１０８を介して接続されていてもよい。

＜被写体特徴抽出機能と被写体検索機能＞
本実施形態の画像処理装置は、被写体特徴抽出機能と被写体検索機能とを備えている。以下、本実施形態の画像処理装置において、被写体特徴抽出機能と被写体検索機能がオペレーティングシステムの上で動作するアプリケーションとして実装されている場合を例に挙げて説明を行うこととする。
図２は、本実施形態の画像処理装置が有している被写体特徴抽出機能部２００Ａと被写体検索機能部２００Ｂとを、機能ブロックとして表した図である。なお、図２には、説明を判り易くするために、図１の画像入力装置１０５、入力装置１０６、表示装置１０７、ＲＡＭ１０３、２次記憶装置１０４等も描いている。また、図２において、画像入力装置１０５の第１撮像部２０１は前述した広角撮像カメラに対応し、第２撮像部２０３は前述したＰＴＺ撮像カメラに対応している。

本実施形態の被写体特徴抽出機能部２００Ａと被写体検索機能部２００Ｂは、例えば図１のＣＰＵ１０１が図１のＲＯＭ１０２又は２次記憶装置１０４の記憶媒体１１０に記憶されたアプリケーションプログラムを実行することにより実現される機能部である。被写体特徴抽出機能部２００Ａは、人物検出部２０２、特徴量抽出部２０４、特徴判定部２０５、解像度変更部２０６、特徴量変更部２０７、撮像対象選択部２０８を有して構成されている。被写体検索機能部２００Ｂは、クエリ画像入力部２１１、特徴量抽出部２１２、特徴量照合部２１３、検索結果出力部２１４を有して構成されている。

＜被写体特徴抽出機能部の構成＞
以下、被写体特徴抽出機能部２００Ａの概略構成について説明する。
画像入力装置１０５の第１撮像部２０１により動画として撮影された広域画像のデータは、被写体特徴抽出機能部２００Ａの人物検出部２０２と映像記憶部２１０に送られる。人物検出部２０２は、検出手段であり、第１撮像部２０１にて撮影された広域画像の各フレーム画像の中から、検出対象としての被写体画像として例えば人物の画像領域を検出する。以下、人物の画像領域を「人物領域」と表記する。なお、第１撮像部２０１の撮影範囲(視野)内に複数の人物等が存在していた場合、人物検出部２０２は、第１撮像部２０１で撮影された広域画像からそれら複数の各人物にそれぞれ対応した複数の人物領域を検出することになる。人物検出部２０２による人物領域の検出処理の詳細については後述する。人物検出部２０２は、広域画像内における各人物領域の位置と各人物領域の範囲を示す情報を、撮像対象選択部２０８と特徴量抽出部２０４に送る。

撮像対象選択部２０８は、撮像制御手段の選択制御手段であり、人物検出部２０２により検出された人物領域の被写体（人物）が、第２撮像部２０３の画面（撮影範囲）の略々中央で撮像されるように、第２撮像部２０３のカメラのレンズの向きを設定する。これにより、画像入力装置１０５の第２撮像部２０３では、人物検出部２０２で検出された人物領域の被写体（人物）が略々中央に映っている画像が取得されることになる。なお、広域画像から複数の人物領域が検出された場合、撮像対象選択部２０８は、各人物領域を順番に選択し、それら順番に選択された人物領域に対応した各人物が、第２撮像部２０３の画面の略々中央に順番に映るようにレンズの向きを順次設定する。広域画像から複数の人物領域が検出された場合の撮像対象選択部２０８による人物領域の選択と第２撮像部２０３の設定の詳細な説明は後述する。ここでは、説明を簡単にするため、一つの人物領域のみが選択される場合を例に挙げる。第２撮像部２０３により撮影された動画像の各フレーム画像データは、特徴量抽出部２０４に送られる。

特徴量抽出部２０４は、第２撮像部２０３にて撮影された動画像の各フレーム画像から人物領域の画像の特徴量を抽出する。詳細については後述するが、特徴量抽出部２０４は、一例として、その人物領域のサイズ、色、テクスチャ、人物領域の顔領域内における各パーツ領域の形状と位置等の各種の特徴量を、必要に応じて適宜抽出可能となされている。特徴量抽出部２０４が人物領域からサイズ、色、テクスチャ、人物領域の顔領域内の各パーツ領域の形状と位置等の各種の特徴量を必要に応じて適宜抽出する処理の詳細については後述する。特徴量抽出部２０４により人物領域から抽出された特徴量の情報は、特徴量記憶部２０９と特徴判定部２０５に送られる。

特徴判定部２０５は、決定手段であり、特徴量抽出部２０４で抽出された特徴量に基づき、第２撮像部２０３が撮像する人物領域の解像度と、その撮像された人物領域から特徴量抽出部２０４が抽出する特徴量の種別とを決定する。そして、特徴判定部２０５は、人物領域の解像度及び特徴量の種別を変更すべきか否かを判定する。
なお、本実施形態において、人物領域の解像度の高低は、人物領域の水平方向と垂直方向の画素数（人物領域のサイズ）に対応している。本実施形態では、人物領域の水平，垂直方向の画素数が多いほど（人物領域のサイズが大きいほど）高解像度であると表現され、画素数が少ないほど（人物領域のサイズが小さいほど）低解像度であると表現される。
また、本実施形態において、特徴量の種別とは、例えば前述した人物領域のサイズ、色、テクスチャ、人物領域の顔領域内の各パーツ領域の形状と位置等である。人物領域の解像度と人物領域の特徴量の種別の詳細、特徴判定部２０５による特徴判定処理の詳細については後述する。
そして、特徴判定部２０５は、特徴量抽出部２０４にて抽出された特徴量に基づき、人物領域の解像度を変更する必要があると判定した場合には、解像度変更により設定されるべき解像度を示す判定結果情報を、解像度変更部２０６に送る。
また、特徴判定部２０５は、特徴量抽出部２０４で抽出された特徴量に基づき、人物領域から抽出する特徴量の種別を変更する必要があると判定した場合には、種別変更により設定されるべき種別を示す判定結果情報を、特徴量変更部２０７に送る。

解像度変更部２０６は、撮像制御手段であり、特徴判定部２０５から判定結果情報が供給されると、その判定結果情報により示される設定解像度で人物領域の画像が撮像されるように、第２撮像部２０３のカメラの例えばズーム倍率を設定する。これにより、第２撮像部２０３は、前述した撮像対象選択部２０８で選択された人物領域に対応した被写体(人物）を、解像度変更部２０６により設定されたズーム倍率で撮影する。例えば、高いズーム倍率に設定された場合、第２撮像部２０３は、長い焦点距離による狭い画角での撮像が行われて、フレーム画像に対して人物領域のサイズが相対的に大きくなった画像を取得して、その画像データを出力することになる。

特徴量変更部２０７は、抽出制御手段であり、特徴判定部２０５から判定結果情報が供給されると、その判定結果情報により示される種別の特徴量を抽出するように、特徴量抽出部２０４を設定する。これにより、特徴量抽出部２０４は、第２撮像部２０３にて撮像された画像の中の人物領域から、設定された種別の特徴量を抽出することになる。特徴判定部２０５からの判定結果情報に基づいて、特徴量変更部２０７が特徴量抽出部２０４に対して設定する特徴量の種別の詳細については後述する。

映像記憶部２１０は、画像記憶手段であり、図１の２次記憶装置１０４又はＲＡＭ１０３内の映像記憶用の領域に相当し、第１撮像部２０１により撮影された動画の広域画像の各フレーム画像データを記憶する。
特徴量記憶部２０９は、図１のＲＡＭ１０３又は２次記憶装置１０４内における特徴量情報記憶用の領域に相当し、特徴量抽出部２０４にて抽出された特徴量の情報を記憶する。特徴量記憶部２０９に記憶される特徴量は、映像記憶部２１０に記憶される動画像データの各フレーム画像の各人物領域に関連付けられて記憶される。

＜被写体検索機能部の構成＞
以下、被写体検索機能部２００Ｂの概略構成について説明する。
被写体検索機能部２００Ｂのクエリ画像入力部２１１は、例えば、図１の入力装置１０６を介したユーザからの指示により、画像入力装置１０５に対し、検索したい対象の人物を撮像させ、その撮像された人物の画像を、検索対象のクエリ画像として取得する。クエリ画像として取得される人物画像は、画像入力装置１０５の第１撮像部２０１により撮像される画像でもよいが、ＰＴＺ撮像カメラである第２撮像部２０３において高いズーム倍率で撮像された画像の方がより好ましい。画像入力装置１０５は、入力装置１０６を介したユーザからの指示に応じて、例えば第２撮像部２０３のパン・チルト・ズームが操作された上で、人物の撮影を行う。クエリ画像入力部２１１は、画像入力装置１０５にて撮像された人物画像のデータをクエリ画像のデータとして取得する。クエリ画像入力部２１１にて取得されたクエリ画像のデータは、特徴量抽出部２１２に送られる。
なお、クエリ画像入力部２１１は、例えば、画像入力装置１０５にて撮像されている画像の中の人物領域のうち、入力装置１０６を介したユーザからの指示により選択された人物領域の画像を、検索対象のクエリ画像として取得してもよい。他の例として、クエリ画像入力部２１１は、例えば、予め撮像されてメモリ媒体等に記憶されている人物画像や、ネットワーク上の記憶装置等に記憶されている人物画像を、クエリ画像として取得してもよい。

特徴量抽出部２１２は、クエリ画像から特徴量を抽出する。本実施形態では、クエリ画像入力部２１１と特徴量抽出部２１２がクエリ取得手段である。本実施形態において、特徴量抽出部２１２がクエリ画像から抽出する特徴量の詳細については後述する。特徴量抽出部２１２によりクエリ画像から抽出された特徴量の情報は、特徴量照合部２１３に送られる。
特徴量照合部２１３は、特徴量検索手段であり、クエリ画像から抽出された特徴量を用いて、特徴量記憶部２０９に記憶されている特徴量を参照し、クエリ画像から抽出された特徴量と類似する特徴量が存在するか否かの照合処理を行う。特徴量照合部２１３は、特徴量記憶部２０９に記憶されている特徴量の中に、クエリ画像の特徴量に類似する特徴量が存在した場合、その類似している特徴量の情報を、特徴量記憶部２０９から読み出して検索結果出力部２１４に出力する。

検索結果出力部２１４は、画像検索手段である。検索結果出力部２１４は、クエリ画像の特徴量に類似するとして特徴量記憶部２０９から読み出された特徴量に基づき、映像記憶部２１０に記憶されている広域画像の中から、その特徴量に関連付けられた人物領域の画像が映っているフレーム画像を読み出す。検索結果出力部２１４により映像記憶部２１０から読み出された各フレーム画像は、図１の表示装置１０７に送られて表示される。これにより、表示装置１０７の画面上には、広域画像の中で、クエリ画像に基づいて検索された人物が映っている区間の動画像が表示されることになる。

＜人物画像の解像度と特徴量の種別＞
以下、前述した人物領域の解像度と特徴量の種別の関係について、図３（ａ）〜図３（ｃ）を参照しながら説明する。
図３（ａ）〜図３（ｃ）は、一人の人物がそれぞれ異なるズーム倍率で撮影されたフレーム画像３０１，３０２，３０３の例を示している。なお、各フレーム画像３０１，３０２，３０３のサイズは同じであり、例えば水平×垂直方向のサイズが画素数で表すと６４０×４８０の画像であるとする。図３（ａ）に示したフレーム画像３０１内の人物領域３０４は、水平×垂直方向のサイズが画素数で表すと６４×６８程度の小サイズの画像であるとする。図３（ａ）のような小サイズの人物領域３０４の場合、フレーム画像３０１に対するサイズは小さく、フレーム画像３０１内には人物領域３０４と同サイズの人物画像を１０個程度並べることが可能なサイズである。図３（ｂ）に示したフレーム画像３０２内の人物領域３０５は、水平×垂直方向のサイズが画素数で表すと２１０×４８０程度の中サイズの画像であるとする。図３（ｂ）のような中サイズの人物領域３０５の場合、フレーム画像３０２内には人物領域３０５と同サイズの人物画像を３〜４個程度並べることが可能なサイズである。図３（ｃ）の例は、水平×垂直方向のサイズが画素数で６４０×４８０のフレーム画像３０３内に、人物領域の顔領域３０６のみが大きく映し出されている。図３（ｃ）の人物領域の顔領域３０６は、フレーム画像３０３内の多くの部分を占めるような大サイズの画像である。本実施形態では、前述したように、人物領域等のサイズの大小が解像度の高低と対応している。このため、本実施形態の場合、図３（ａ）の小サイズの人物領域３０４は低解像度の画像であり、図３（ｂ）の中サイズの人物領域３０５は中解像度の画像であり、図３（ｃ）の大サイズの顔領域３０６は高解像度の画像であると言える。

ここで、図３（ａ）に示した人物領域３０４のような小サイズで低解像度の画像の場合、人物の服装の模様などの細かい特徴は殆ど判らないと考えられる。このため、小サイズで低解像度の人物領域３０４の画像からは、服装の模様などのテクスチャを表す特徴量を抽出するのは難しいと考えられる。一方、人物領域３０４のようにサイズが小さく解像度が低い場合であっても、人物領域３０４の全体の色については判別可能であると考えられる。色に関する特徴量としては、人物領域３０４に含まれる各画素のＲ（赤）Ｇ（緑）Ｂ（青）色空間に基づく色ヒストグラムを挙げることができる。なお、色空間は、ＨＳＶ色空間やＹＣｂＣｒ色空間などであってもよい。また、色に関する特徴量は、例えばＲＧＢ，ＨＳＶ，ＹＣｂＣｒの個々の色空間のヒストグラムの全てを求め、これら各色空間のヒストグラムを連結して一つのヒストグラムとしたものであってもよい。

図３（ｂ）に示した人物領域３０５のような中サイズで中解像度の画像の場合、図３（ａ）に示した小サイズの人物領域３０４とは異なり、人物の服装の模様等のテクスチャも判別可能になると考えられる。図３（ａ）と図３（ｂ）の例の場合、図３（ａ）では人物領域３０４の例えば上着が黒一色に映っていたのに対し、図３（ｂ）では人物領域３０５の上着の模様が縞模様として映し出されている。テクスチャに関する特徴量は、例えば人物領域３０５の画像に対してＧａｂｏｒフィルタを施した結果をヒストグラムとしたものを挙げることができる。また、ヒストグラムを求める際には、Ｓｃｈｍｉｄフィルタが用いられてもよい。また、テクスチャに関する特徴量は、それら両方のフィルタを使用してヒストグラムを求め、これら両フィルタによるヒストグラムを連結して一つのヒストグラムとしたものであってもよい。ＧａｂｏｒフィルタやＳｃｈｍｉｄフィルタは公知であるため、その説明については省略する。

図３（ｃ）に示したように、人物領域の顔領域３０６がフレーム画像３０３の大部分の領域を占めている場合、人物の顔領域３０６を構成している各パーツ領域についても、それぞれ特徴量の抽出が可能になると考えられる。図３（ｃ）の場合、顔領域３０６の形状、目や口等の各パーツ領域の形状、顔領域３０６における各パーツ領域の相対位置関係（例えば両目の幅に対する目と口の距離など）が判別できるため、それらを特徴量として抽出することが可能になると考えられる。顔領域３０６から各パーツ領域の特徴量を抽出する場合には、例えば、顔領域３０６から複数の矩形の小領域３０７〜３１３を切り出し、これら小領域３０７〜３１３から例えばＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴量を抽出する。そして、これら各小領域３０７〜３１３の特徴量を用い、顔領域３０６内の各パーツ領域の形状や各パーツ領域の相対位置関係などを求めることで、顔領域３０６の各パーツ領域の特徴量が抽出可能となる。なお、各小領域３０７〜３１３の特徴量は、例えばＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＧｒａｄｉａｔｉｏｎ）特徴量であってもよい。これらＬＢＰ特徴量やＨＯＧ特徴量は公知であるためその詳細な説明については省略する。また、複数の矩形小領域は、ランダムな位置の矩形小領域であってもよいし、前処理として顔の各パーツ（目、口、鼻等の器官）の位置を検出し、それらの各パーツの位置の近傍に配置されてもよい。

以上説明したように、人物領域から抽出可能な特徴量の種別は、その人物領域のサイズ（解像度）に応じて異なっており、また、人物領域のサイズ（解像度）に適した特徴量の種別というものが存在していることが分かる。したがって、人物領域から抽出する特徴量の種別は、人物領域のサイズ（解像度）に応じて設定すればよい。
ただし、例えば一つのフレーム画像内に複数の人物が映っているような場合、人物領域のサイズ（解像度）に応じた種別の特徴量だけを抽出したのでは、それら各人物領域を個々に判別できない場合がある。

＜フレーム画像内に複数の人物領域が存在する場合の解像度と特徴量の種別＞
以下、一つのフレーム画像内に複数の人物が映っている場合、それら各人物を個々に判別可能にするための人物領域の解像度と特徴量の種別の関係について説明する。
一つのフレーム画像内で複数の人物領域が検出された場合、人物領域の解像度と特徴量の種別をどのように設定すべきかについては、画像入力装置１０５で撮影されている映像シーン内に映っている各人物（被写体）の特徴の差異を判定することで決定可能である。
本実施形態の画像処理装置は、画像入力装置１０５で撮影されている映像シーン内に映っている各人物領域（各被写体領域）の特徴の差異に応じて、人物領域（被写体領域）の解像度と特徴量の種別を決定している。以下、本実施形態の画像処理装置において、特徴判定部２０５が映像シーン内の複数の人物領域の特徴の差異を判定して解像度と特徴量の種別を決定するモードを「高解像度特徴化判定モード」と呼ぶ。

ここで、画像入力装置１０５で撮影された映像シーンの一例として、一つのフレーム画像内に４人の人物が映っており、４人とも色の違う服装であるようなシーンを想定してみる。このような映像シーンの場合、それら４人の人物の服装の色がそれぞれ違っているため、それら４人の人物領域について色の特徴量のみを抽出すれば、その色の特徴量から、それら４人の人物領域をそれぞれ個々に判別することが可能となる。また、これら４人の人物領域は、例えば解像度が低くても、色の特徴量のみでそれぞれ個々に判別可能となる。

一方、画像入力装置１０５で撮影された映像シーンの他の例として、例えば映像中に４人の人物が映っており、４人とも服の色は同じであるがそれぞれ模様が異なっているようなシーンを想定してみる。このような映像シーンの場合、それら４人の人物領域は、色に関する特徴は同じであるが、模様のようなテクスチャに関する特徴量が異なっている。このため、それら４人の人物領域についてテクスチャの特徴量を抽出すれば、それらテクスチャの特徴量から４人の人物領域をそれぞれ個々に判別することが可能となる。ただし、この映像シーンの場合、４人の人物領域のテクスチャの特徴量を抽出しなければならないため、人物領域の解像度は、少なくとも中解像度以上にする必要がある。

また、画像入力装置１０５で撮影された映像シーンの他の例として、例えば映像中に４人の人物が映っており、４人とも服の色と模様が同じであるようなシーンを想定してみる。このような映像シーンの場合、色とテクスチャの両方の特徴量が同じである４人の人物において、異なる特徴量は例えば顔の各パーツ領域の特徴量であると考えられる。したがって、この映像シーンの場合、それら４人の人物の顔領域の各パーツ領域の特徴量を抽出すれば、それら各パーツの特徴量から、それら４人をそれぞれ個々に判別することが可能となる。ただし、この映像シーンの場合、４人の人物の顔領域の各パーツ領域の特徴量を抽出しなければならないため、人物領域の解像度は、高解像度にする必要がある。

そこで、本実施形態の画像処理装置は、高解像度特徴化判定モードでは、先ず各人物領域の色の特徴量を求め、各人物領域の各色の特徴量に差異がある場合には、人物領域の解像度を低解像度に設定し、抽出する特徴量の種別を色の特徴量に設定する。一方、本実施形態の画像処理装置は、色の特徴量に差異がない人物領域の数が所定の閾値より多く存在している場合には、人物領域の解像度を中解像度に設定し、抽出する特徴量の種別をテクスチャの特徴量に設定する。また、本実施形態の画像処理装置は、色及びテクスチャの両特徴量に差異が無い人物領域の数が所定の閾値より多く存在している場合には、人物領域の解像度を高解像度に設定し、抽出する特徴量の種別を顔領域内の各パーツ領域の特徴量に設定する。なお、人物領域の数と比較される所定の閾値の詳細は後述するが、一例として、後の被写体検索の際に各人物領域の画像を例えば目視で判別するのが容易と考えられる数として予め設定される値である。後の被写体検索の際に各人物領域の画像を目視等で確認することを想定しない場合には、人物領域の数に対する所定の閾値は例えば「２」に設定されてもよい。人物領域の数に対する所定の閾値が「２」に設定された場合、特徴量の差異がない人物領域が２以上存在したときに、解像度や特徴量の種別の設定変更がなされることになる。

以上説明したように、本実施形態の画像処理装置は、画像入力装置１０５で撮影されている映像シーン内に映っている人物の特徴差異に応じて、人物領域（被写体領域）の解像度と抽出する特徴量の種別を設定する。本実施形態の画像処理装置は、起動時に高解像度特徴化判定モードによる解像度と特徴量の種別の設定処理を行う。そして、本実施形態の画像処理装置は、起動時の高解像度特徴化判定モードで設定された解像度で各人物領域の画像データを取得し、また、設定された種別の特徴量を抽出する。このように、高解像度特徴化判定モードで設定された解像度と特徴量の種別により各人物領域の画像データと特徴量を抽出するモードを、以下、「運用モード」と表記する。

ただし、人物領域の特徴の差異は、映像シーンが切り替われば変化する可能性が高いと考えられる。このため、本実施形態の画像処理装置は、運用モードの途中で映像シーンが切り替わったときには、前述した高解像度特徴化判定モードに戻って解像度と特徴量の種別の再設定を行う。また、運用モードにおいて、映像シーンが切り替わっていない場合でも、時間の経過により映像内に映っている人物は変化する（別の人物が映像内に映る）と考えられる。このため本実施形態の画像処理装置は、運用モードになっている場合でも、例えば一定時間ごとに高解像度特徴化判定モードによる解像度と特徴量の種別の再設定を行う。その他にも、例えば映像シーンが切り替わっておらず、また、一定時間も経過していないときに、例えば監視エリア内に新たな人物が進入したことで映像内の人物領域の数が増加する場合も考えられる。このため、本実施形態の画像処理装置は、運用モードにおいて、映像内の人物領域の数が増加した場合にも高解像度特徴化判定モードによる解像度と特徴量の種別の再設定を行う。

＜高解像度特徴化判定モードの処理＞
図４には、本実施形態の画像処理装置における高解像度特徴化判定モードの際の処理の流れを示す。以下、図４のフローチャートを参照しながら高解像度特徴化判定モードについて説明する。図４は、フレーム画像内で複数の人物領域が検出される場合を想定したフローチャートである。
図４において、画像入力装置１０５の第１撮像部２０１は、ステップＳ４０１として、監視エリアの全体の動画を撮影しており、所定時間ごとにフレーム画像を取得している。被写体特徴抽出機能部２００Ａの人物検出部２０２は、ステップＳ４０２として、画像入力装置１０５の第１撮像部２０１にて撮影された広域画像の各フレーム画像について、そのフレーム画像内の全ての人物領域を検出する。

ここで、人物検出部２０２は、例えば予め背景のみを撮像した画像から背景モデルを生成しておき、第１撮像部２０１で撮影された広域画像と背景モデルとの差分を求めて、背景モデルとの差分領域を人物領域として検出する。このような背景モデルとの差分に基づく人物領域の検出手法は、例えば以下の参考文献１に開示されている。参考文献１"ＳｔａｕｆｆｅｒＣ，ＧｒｉｍｓｏｎＷ．Ｅ．Ｌ．Ａｄａｐｔｉｖｅｂａｃｋｇｒｏｕｎｄｍｉｘｔｕｒｅｍｏｄｅｌｓｆｏｒｒｅａｌ―ｔｉｍｅｔｒａｃｋｉｎｇ．ＩｎＰｒｏｃｅｅｄｉｎｇｓ．１９９９ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（Ｃａｔ．ＮｏＰＲ００１４９）．ＩＥＥＥＣｏｍｐｕｔ．Ｓｏｃ．ＰａｒｔＶｏｌ．２，１９９９．"

また、人物検出部２０２は、例えば参考文献２"米国特許出願公開２００７／０２３７３８７号明細書"に記載されている技術を用いて人物領域を検出してもよい。この参考文献２に記載された技術の詳細な説明は省略するが、概要としては以下のような技術である。この参考文献２に記載の技術では、所定の大きさの検出ウィンドウを入力画像上で走査させ、検出ウィンドウ内の画像を切り出したパターン画像に対し、人物であるか否かの２クラス判別を行う。この判別では、アダブースト（ＡｄａＢｏｏｓｔ：ＡｄａｐｔｉｖｅＢｏｏｓｔｉｎｇ）を使って多くの弱判別器を有効に組み合わせた判別器を構成して、判別精度を向上させている。また、この判別器を直列に繋ぐことで、カスケード型の検出器が構成される。弱判別器は、ＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｎｔｓ）特徴量で構成されている。カスケード型の検出器は、先ず前段の単純な判別器を使って明らかに被写体でないパターンの候補をその場で除去し、それ以外の候補に対してのみ、より高い判別性能を持つ後段の複雑な判別器を使って人物かどうかの判別を行う。

本実施形態の人物検出部２０２は、以上説明したような手法により人物領域を検出し、その人物領域を囲む矩形領域の左上と右下のそれぞれ２点の（ｘ，ｙ）座標を、人物領域の位置とその人物領域の範囲を示すデータとして、ＲＡＭ１０３に一時記憶させる。
なお、本実施形態では、検出対象となる被写体として人物を例に挙げているが、検出対象の被写体は、他の被写体、一例として車両等の被写体であってもよい。この場合、人物検出部２０２に代えて、車両検出部を設けることで、広域画像から車両の画像領域を検出可能である。また、車両の画像領域の検出は、前述の人物領域検出の手法を流用することで実現可能である。ステップＳ４０２の後、被写体特徴抽出機能部２００Ａの処理は、特徴量抽出部２０４で行われるステップＳ４０３に移行する。

ステップＳ４０３では、特徴量抽出部２０４は、人物検出部２０２によって検出された全ての人物領域について、この時点で設定されている種別の特徴量を抽出する。初期設定では、特徴量抽出部２０４は、色に関する特徴量として前述したヒストグラムの特徴量を抽出する。特徴量抽出部２０４は、抽出した特徴量を、各人物領域の情報と対応付けて、ＲＡＭ１０３又は２次記憶装置１０４の特徴量記憶部２０９に記憶させる。ステップＳ４０３の後、被写体特徴抽出機能部２００Ａの処理は、特徴判定部２０５で行われるステップＳ４０４に移行する。

ステップＳ４０４では、特徴判定部２０５は、特徴量抽出部２０４で抽出された人物領域ごとの特徴量を、その特徴量空間の中でクラスタリングする。
ここで、クラスタリングの手法としては特に限定されるものではないが、本実施形態では、以下の参考文献３にて開示されているＭｅａｎｓｈｉｆｔクラスタリング手法を用いる。参考文献３に開示されているＭｅａｎｓｈｉｆｔクラスタリング手法は、概要としては以下のような手法である。Ｍｅａｎｓｈｉｆｔクラスタリング手法は、確率密度分布をガウシアン関数等のカーネル関数で表現して、次のステップの繰り返しにより分布の極大点を求める手法である。Ｍｅａｎｓｈｉｆｔクラスタリング手法では、先ず、初期位置を与え、カーネルの一定の幅に含まれるサンプル点の平均を求め、その平均をガウシアンカーネルの中心として、改めてサンプル点の平均を求める。この処理を収束するまで繰り返すことによって見つけた極大点の数がクラスの数となる。ステップＳ４０４の後、特徴判定部２０５は、ステップＳ４０５に処理を進める。参考文献３"Ｄ．ＣｏｍａｎｉｃｉｕａｎｄＰ．Ｍｅｅｒ．Ｍｅａｎｓｈｉｆｔ：ＡｒｏｂｕｓｔａｐｐｒｏａｃｈｔｏｗａｒｄＦｅａｔｕｒｅｓｐａｃｅａｎａｌｙｓｉｓ．ＰＡＭＩ，２４（５）：６０３−６１９，２００２．"

ステップＳ４０５では、特徴判定部２０５は、ステップＳ４０４で求めた各クラスに属する特徴量の数（人物領域ごとの特徴であるため人数に相当する）が、所定の閾値以下であるかどうかを判定する。ここで、全てのクラスにおいて、各クラスに属する人数（特徴量の数）が例えば５人以下であった場合、後の被写体検索の際にクエリ画像の人物の特徴量に類似した特徴量として検索される人数は最大で５人ということになる。被写体検索の際に、これを検索結果としてユーザに提示した場合、ユーザは最大５人の中から所望の人物を目視で確認すればよいことになる。このように検索結果の候補数が十分に少なければ、目視で確認するのも容易となる。

なお、ステップＳ４０５の判定は１フレーム画像内の人物領域に対して行うものとして説明したが、人物領域の未検出や誤検出による影響を避けるために、数フレーム分の結果をＲＡＭ１０３に一時記憶して使用するようにしてもよい。このとき、使用したフレーム数分の回数だけ、同一の人物を重複してカウントしてしまう可能性がある。そこで、特徴判定部２０５は、ステップＳ４０５で各クラスの人数（特徴量の数）と閾値とを比較する際には、クラスに属する人数をフレーム数分で割り算し、小数点以下を四捨五入して使用する。

一方、ステップＳ４０５の判定において各クラスに属する特徴量の数（人数）が所定の閾値以下でない判定される場合には、後の被写体検索の際に検索結果を十分に絞り込めなくなる可能性があるため、より高解像の人物領域から特徴量を取得する必要がある。そこで、特徴判定部２０５は、ステップＳ４０５で所定の閾値以下でないと判定した場合、より高い解像度を示す判定結果情報を解像度変更部２０６に送り、また、その解像度に応じた特徴量の種別を示す判定結果情報を特徴量変更部２０７に送る。

本実施形態の場合、前述の図３（ａ）〜図３（ｃ）で説明したように、解像度は低解像度、中解像度、高解像度の３段階に設定可能となされている。このため、特徴判定部２０５は、ステップＳ４０５で所定の閾値以下でないと判定した場合、現時点の解像度が低解像度ならば中解像度を示す判定結果情報、現時点の解像度が中解像度ならば高解像度を示す判定結果情報を、解像度変更部２０６に送る。また、本実施形態の場合、前述したように低解像度には色の特徴量、中解像度にはテクスチャの特徴量、高解像度には顔領域の各パーツ領域の特徴量が関連付けられている。本実施形態では、それら各解像度と特徴量の種別の関連付け情報は、解像度別特徴種別リスト２２０として２次記憶装置１０４に記憶されている。被写体特徴抽出機能部２００Ａは、例えば起動時に２次記憶装置１０４から解像度別特徴種別リスト２２０を読み出してＲＡＭ１０３に記憶させる。そして、特徴判定部２０５は、解像度を示す判定結果情報を解像度変更部２０６に送る場合には、解像度別特徴種別リスト２２０から、その解像度に応じた特徴量の種別を参照し、その特徴量の種別を示す判定結果情報を特徴量変更部２０７に送る。ステップＳ４０５で特徴判定部２０５が所定の閾値以下でないと判定して、前述のような判定結果情報の出力が行われた後、被写体特徴抽出機能部２００Ａの処理は、解像度変更部２０６で行われるステップＳ４０６に移行する。

ステップＳ４０６では、解像度変更部２０６は、特徴判定部２０５から供給された、より高い解像度を示す判定結果情報に基づいて、第２撮像部２０３のズーム倍率を設定して、より高い解像度の画像を撮像可能とする。ステップＳ４０６の後、被写体特徴抽出機能部２００Ａの処理は、特徴量変更部２０７で行われるステップＳ４０７に移行する。なお、ステップＳ４０７の処理はステップＳ４０６と同時に行われてもよい。

ステップＳ４０７では、特徴量変更部２０７は、特徴判定部２０５から供給された特徴量の種別を示す判定結果情報に基づいて、特徴量抽出部２０４にて抽出する特徴量の種別を設定する。これにより、その後、特徴量抽出部２０４では、その設定された種別の特徴量の抽出が可能となる。ステップＳ４０７の後、被写体特徴抽出機能部２００Ａの処理は、撮像対象選択部２０８で行われるステップＳ４０８に移行する。

ステップＳ４０８では、撮像対象選択部２０８は、ステップＳ４０２で人物検出部２０２が検出した複数の人物領域の中から、一つの人物領域を選択する。具体的には、撮像対象選択部２０８は、フレーム画像の中で、最初に左上端に最も近い人物領域を選択する。ステップＳ４０８の後、撮像対象選択部２０８は、ステップＳ４０９に処理を進める。
ステップＳ４０９では、撮像対象選択部２０８は、ステップＳ４０８で選択した人物領域に対応した人物が、第２撮像部２０３の画面の略々中央になるように、第２撮像部２０３のカメラのレンズの向きを設定して撮像を行わせる。

本実施形態では、第２撮像部２０３における撮像方向はパン，チルト等により変更される例を挙げているが、例えば第２撮像部２０３のカメラの撮像素子の読み出し領域を変更するような電子的な読み出し制御により、人物領域の画像を取得してもよい。
また、本実施形態では、第２撮像部２０３のズーム倍率を高くすることで高解像度の画像を取得する例を挙げているが、例えばいわゆる超解像と呼ばれる手法を用いて高解像度の画像を生成してもよい。例えば、以下の参考文献４に記載されている低解像度の複数のフレーム画像から画素を補間する方法や、以下の参考文献５に記載されている予め人物画像の画像パターンを学習して辞書を作っておき、これを用いて補間する方法などで高解像度の画像を生成してもよい。これら画素補間を用いる場合、それら画素補間処理を行う構成は、第２撮像部２０３内に設けられているとする。参考文献４"ＳｅａｎＢｏｒｍａｎ，ＲｏｂｅｒｔＬ．Ｓｔｅｖｅｎｓｏｎ：Ｓｕｐｅｒ―ＲｅｓｏｌｕｔｉｏｎｆｒｏｍＩｍａｇｅＳｅｑｕｅｎｃｅｓ―ＡＲｅｖｉｅｗ．ＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ，１９９８．" 参考文献５"ＪｉａｎｃｈａｏＹａｎｇ，ＪｏｈｎＷｒｉｇｈｔ，ＴｈｏｍａｓＨｕａｎｇ，ＹｉＭａ：ＩｍａｇｅＳｕｐｅｒ―ＲｅｓｏｌｕｔｉｏｎａｓＳｐａｒｓｅＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆＲａｗＩｍａｇｅＰａｔｃｈｅｓ．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００８．"

ステップＳ４０９の後、被写体特徴抽出機能部２００Ａの処理は、特徴量抽出部２０４にて行われるステップＳ４１０に移行する。
ステップＳ４１０では、特徴量抽出部２０４は、ステップＳ４０９で第２撮像部２０３が撮像した人物領域から、ステップＳ４０７で設定された種別の特徴量を抽出する。ステップＳ４１０の後、被写体特徴抽出機能部２００Ａの処理は、撮像対象選択部２０８にて行われるステップＳ４１１に移行する。
ステップＳ４１１では、撮像対象選択部２０８は、ステップＳ４０２で人物検出部２０２が検出した全ての人物領域について、前述した人物領域の選択と第２撮像部２０３での撮像による画像の取得が行われたか否か判定する。撮像対象選択部２０８は、ステップＳ４１１において、全ての人物領域の選択と撮像が行われていないと判定した場合には、ステップＳ４０８に処理を戻す。

ステップＳ４０８に戻ると、撮像対象選択部２０８は、フレーム画像の中で未だ選択がなされていない各人物領域の中で、左上端に最も近い人物領域を選択する。これにより、以下のステップＳ４０９とステップＳ４１０では、その選択された人物領域について第２撮像部２０３による画像の取得と特徴量抽出部２０４による特徴量の抽出が行われる。ステップＳ４０８〜Ｓ４１０の処理は、ステップＳ４１１で全ての人物領域についての処理が行われたと判定されるまで繰り返される。そして、ステップＳ４１１において、全ての人物領域についての処理が行われたと判定されると、被写体特徴抽出機能部２００Ａの処理は、特徴判定部２０５による前述したステップＳ４０４の処理に戻る。

このときのステップＳ４０４では、特徴判定部２０５は、ここまでの処理で得られた人物領域の種別の特徴量について再度クラスタリングを行う。さらに次のステップＳ４０５では、特徴判定部２０５は、各クラスに属する人数が閾値以下になるか判定する。これら、ステップＳ４０４とＳ４０５、さらにステップＳ４０６〜ステップＳ４１１を経てステップＳ４０４に戻る処理は、ステップＳ４０５で各クラスに属する人数が所定の閾値以下になるまで行われる。そして、ステップＳ４０５において、各クラスに属する特徴量の数（人数）が閾値以下であると判定されると、特徴判定部２０５は、ステップＳ４１２に処理を進める。

ステップＳ４１２では、特徴判定部２０５は、現在の解像度の設定情報をＲＡＭ１０３の設定情報記憶部２２１に一時記憶させる。ステップＳ４１２の後、特徴判定部２０５は、ステップＳ４１３に処理を進める。ステップＳ４１３では、特徴判定部２０５は、特徴量の種別の設定情報を、ＲＡＭ１０３の設定情報記憶部２２１に一時記憶させる。なお、ステップＳ４１２とＳ４１３の処理の順序は逆でもよく、同時であってもよい。これらステップＳ４１２とＳ４１３の処理が終わると、画像処理装置は、高解像度特徴化判定モードの処理を終了する。

＜運用モードの処理＞
前述したような高解像特徴化判定モードによる解像度の設定と特徴量の種別の設定が完了した後、本実施形態の画像処理装置は、各人物領域と特徴量を関連付けて記憶させる運用モードに移行することになる。以下、図５のフローチャートを参照しながら、運用モードにおける本実施形態の画像処理装置の処理の流れについて説明する。

運用モードに移行した場合、画像入力装置１０５の第１撮像部２０１は、ステップＳ５０１として、監視エリアの全体を撮像して、所定時間ごとにフレーム画像を取得する。また、ステップＳ５０２において、被写体特徴抽出機能部２００Ａは、第１撮像部２０１で所定時間ごとに取得された各フレーム画像データを映像記憶部２１０に記憶させる。ステップＳ５０１におけるフレーム画像の取得と、ステップＳ５０２におけるフレーム画像データの記憶は、運用モードが停止されるまで続けられる。
また、運用モードにおいて、人物検出部２０２は、ステップＳ５０３において、第１撮像部２０１により撮影された各フレーム画像から、前述のステップＳ４０２で説明したのと同様の手法を用い、全ての人物領域を検出する。ステップＳ５０３の後、被写体特徴抽出機能部２００Ａの処理は、撮像対象選択部２０８にて行われるステップＳ５０４に移行する。

ステップＳ５０４では、撮像対象選択部２０８は、ステップＳ５０３で人物検出部２０２が検出した複数の人物領域の中から、前述のステップＳ４０８で説明したのと同様にして一つの人物領域を選択する。ステップＳ５０４の後、被写体特徴抽出機能部２００Ａの処理は、ステップＳ５０５に移行する。
ステップＳ５０５では、前述のステップＳ４０９と同様に、撮像対象選択部２０８は、ステップＳ５０４で選択した人物領域に対応した人物が、第２撮像部２０３の画面の略々中央になるように第２撮像部２０３のレンズの向きを制御する。また、ステップＳ５０５では、解像度変更部２０６は、ＲＡＭ１０３の設定情報記憶部２２１から、高解像特徴化判定モードで設定された解像度の設定情報を読み出し、第２撮像部２０３に対し、設定された解像度に応じたズーム倍率による撮像を行わせる。ステップＳ５０５の後、被写体特徴抽出機能部２００Ａの処理は、特徴量抽出部２０４にて行われるステップＳ５０６に移行する。

ステップＳ５０６では、特徴量抽出部２０４は、ＲＡＭ１０３の設定情報記憶部２２１から、高解像特徴化判定モードで設定された特徴量の種別の設定情報を読み出す。そして、特徴量抽出部２０４は、ステップＳ５０５で取得された画像の人物領域から、設定された種別の特徴量を抽出する。ステップＳ５０６の後、特徴量抽出部２０４は、ステップＳ５０７に処理を進める。
ステップＳ５０７では、特徴量抽出部２０４は、ステップＳ５０６にて抽出された特徴量の情報を、特徴量記憶部２０９に記憶させる。この際、特徴量抽出部２０４は、その特徴量の情報を、第１撮像部２０１で撮影されて人物検出部２０２が人物検出を行っている現在のフレーム画像のフレーム番号、特徴量の種別、特徴量を抽出した人物領域を示す情報と関連付けて記憶させる。

なお、ここでは、第１撮像部２０１のフレーム画像と関連付けて記憶するとしたが、第２撮像部２０３によるフレーム画像も記憶するようにしておき、第２撮像部２０３の画像のみ、或いは、第１，第２撮像部２０１，２０３による両画像と関連付けてもよい。
ステップＳ５０７の後、被写体特徴抽出機能部２００Ａの処理は、撮像対象選択部２０８で行われるステップＳ５０８に移行する。

ステップＳ５０８では、撮像対象選択部２０８は、ステップＳ５０４で人物検出部２０２が検出した全ての人物領域について、前述した人物領域の選択と第２撮像部２０３での撮像及び特徴量抽出部２０４による特徴量の抽出の処理が行われたか否か判定する。撮像対象選択部２０８は、ステップＳ５０８において、全ての人物領域に対するそれらの処理が行われていないと判定した場合には、ステップＳ５０４に処理を戻す。
ステップＳ５０４に戻ると、撮像対象選択部２０８は、フレーム画像の中で未だ選択がなされていない各人物領域の中で、左上端に最も近い人物領域を選択する。これにより、以下のステップＳ５０５〜Ｓ５０７では、その選択された人物領域について前述した処理が行われる。ステップＳ５０４〜Ｓ５０７の処理は、ステップＳ５０８で全ての人物領域についての処理が行われたと判定されるまで繰り返される。

運用モードでは、前述したような処理が、第１撮像部２０１で新しいフレーム画像が取得される度に繰り返されることで、第１撮像部２０１による各フレーム画像と各フレーム画像中に存在する人物領域に関連付けられた特徴量を記憶することが可能となる。そして、ステップＳ５０８において、全ての人物領域についての処理が行われたと判定されると、被写体特徴抽出機能部２００Ａにおける運用モードでの処理は終了する。

＜被写体検索機能部による被写体検索処理の説明＞
以下、図６のフローチャートを参照し、被写体検索機能部２００Ｂにおいて、映像記憶部２１０に記憶されている動画像の中から、クエリ画像に基づいてフレーム画像を検索する際の処理の流れを説明する。被写体検索機能部２００Ｂは、前述したように、クエリ画像から抽出した特徴量を用い、特徴量記憶部２０９に記憶されている特徴量を照合することにより、映像記憶部２１０に記憶されている動画像の中からクエリ画像と特徴量の類似するフレーム画像を検索する。

図６のフローチャートにおいて、被写体検索機能部２００Ｂのクエリ画像入力部２１１は、ステップＳ６０１の処理として、検索したい人物の画像をクエリ画像として取得する。本実施形態の場合、ステップＳ６０１において、クエリ画像入力部２１１は、一例として、入力装置１０６を介したユーザからの指示に基づき、画像入力装置１０５に検索したい対象の人物を撮像させ、その撮像された人物の画像をクエリ画像として取得する。ステップＳ６０１の後、被写体検索機能部２００Ｂの処理は、特徴量抽出部２１２にて行われるステップＳ６０２に移行する。

ステップＳ６０２では、特徴量抽出部２１２は、クエリ画像の人物領域から、その人物領域の解像度に応じて取得可能な全ての種別の特徴量を抽出する。解像度に応じて取得可能な全種別の特徴量を抽出するとは、例えば低解像度画像からは色の特徴量、中解像度画像からはテクスチャの特徴量、高解像度画像からは顔領域の各パーツ領域の特徴量を抽出することである。本実施形態では、前述したように、低解像度には色の特徴量、中解像度にはテクスチャの特徴量、高解像度には顔領域の各パーツ領域の特徴量がそれぞれ関連付けられている解像度別特徴種別リスト２２０にリスト化されている。このため、特徴量抽出部２１２は、例えばその解像度別特徴種別リスト２２０の情報に基づいて、クエリ画像から、解像度に応じて取得可能な全ての種別の特徴量を抽出する。一例として、クエリ画像の人物領域が、前述の図３（ｂ）のフレーム画像３０２の人物領域３０５のような中解像度の画像であったとすると、特徴量抽出部２１２は、テクスチャに関する特徴量を抽出する。また例えば、クエリ画像の人物領域が、図３（ｃ）のフレーム画像３０３の顔領域３０６のみである場合、特徴量抽出部２１２は、顔領域の各パーツ領域に関する特徴量を抽出する。また例えば、特徴量抽出部２１２は、クエリ画像入力部２１１が取得したクエリ画像を例えば縮小し、その縮小後の解像度に応じた種別の特徴量を抽出することも可能である。例えば、クエリ画像の人物領域が図３（ｂ）の人物領域３０５のような中解像度であった場合、特徴量抽出部２１２は、図３（ａ）の人物領域３０４と同程度の低解像度に縮小することで、低解像度に対応した色の特徴量を抽出可能となる。逆に、クエリ画像を前述したような画素補間処理で高解像度化（拡大）して、その高解像度化したクエリ画像から、解像度に応じた種別の特徴量を抽出してもよい。ステップＳ６０２の後、被写体検索機能部２００Ｂの処理は、特徴量照合部２１３にて行われるステップＳ６０３に移行する。

ステップＳ６０３では、特徴量照合部２１３は、特徴量記憶部２０９に記憶されている特徴量の情報を参照し、ステップＳ６０２で抽出した特徴量と同じ種別の特徴量の情報を特徴量記憶部２０９から全て読み出す。ステップＳ６０３の後、特徴量照合部２１３は、ステップＳ６０４に処理を進める。
ステップＳ６０４では、特徴量照合部２１３は、ステップＳ６０３で読み出した同じ種別の全ての特徴量について、ユークリッド空間として表現された特徴量空間内で、クエリ画像の各特徴量との間のユークリッド距離を特徴量間の距離として算出する。そして、特徴量照合部２１３は、ステップＳ６０３で読み出された各特徴量の中で、クエリ画像の各特徴量との間の距離が閾値以内となっている各特徴量を、それぞれ類似した特徴であるとする。特徴量照合部２１３は、このようにして、ステップＳ６０３で読み出された各特徴量の中から、クエリ画像の特徴量に類似した特徴量を全て求める。ステップＳ６０４の後、被写体検索機能部２００Ｂの処理は、検索結果出力部２１４にて行われるステップＳ６０５に移行する。

ステップＳ６０５では、検索結果出力部２１４は、ステップＳ６０３で読み出された各特徴量の中に、ステップＳ６０４で類似した特徴量を見つけることができたか否かを判定する。検索結果出力部２１４は、ステップＳ６０５において類似した特徴量がないと判定した場合には、被写体検索機能部２００Ｂによる検索処理を終了する。一方、検索結果出力部２１４は、ステップＳ６０５において類似した特徴量があると判定した場合には、ステップＳ６０６に処理を進める。

ステップＳ６０６では、検索結果出力部２１４は、その類似した特徴量に関連付けられたフレーム番号を参照する。そして、検索結果出力部２１４は、そのフレーム番号に対応した動画のフレーム画像（動画区間の各フレーム画像）のデータ全てを、映像記憶部２１０から読み出す。ステップＳ６０６の後、検索結果出力部２１４は、ステップＳ６０７に処理を進める。
ステップＳ６０７では、検索結果出力部２１４は、ステップＳ６０６で読み出したフレーム画像を順次、表示装置１０７に送る。これにより表示装置１０７には、ステップＳ６０６で読み出された各フレーム画像が表示される（動画区間が再生される）。ユーザは、表示装置１０７の表示により検索結果を見ることができる。ステップＳ６０６で読み出されたフレーム画像がステップＳ６０７で全て表示されると、被写体検索機能部２００Ｂによる検索処理は終了する。

以上説明した実施形態では、図４のステップＳ４０５において、全てのクラスに属する人数が閾値以下とならない場合に、より高解像度の人物領域を取得して、その人物領域の特徴量を取得するようにしていた。これは、比較的単純な映像シーン、例えば、撮像されている人物が全て服の色で判別できたり、服の模様で判別できたり、といった場合に特に有効である。しかしながら、より複雑な映像シーン、例えば、あるクラスに属する人物の数は閾値以下であるが、他のクラスに属する人物の数は閾値よりも大きいといった場合も考えられる。より具体的な例として、黒と白の縦縞の服を着た人物が４人、黒と白の横縞の服を着た人物が４人、赤い服を着た人物が１人であったような映像シーンである。このような映像シーンにおいて人物領域が低解像度であると、縦縞模様も横縞模様もつぶれてしまい、図３（ａ）のフレーム画像３０１のように黒一色の服装に見えてしまう可能性がある。この場合、特徴判定部２０５は、色の特徴量（ヒストグラム）により同じ特徴量であると誤って判定することになり、黒のクラスに属する人物が８人、赤いクラスに属する人物が１人として判定してしまう。そして、特徴判定部２０５は、黒のクラスに属する人物が８人であるため閾値を超える人数であると判定し、高解像度の人物領域の取得と、特徴量の種別をテクスチャとして判定してしまうことになる。しかしながら、赤い服を着た人物を検索する際は１人に絞り込めるため、本来であれば、より高解像度な画像の特徴は必要ではないと考えられる。そして、この場合、最も高い解像度の人物領域に対応した特徴量を必要とするクラスに合わせてしまうため、このような複雑な映像シーンでは、多少、処理負担が増して処理効率が下がり、また使用メモリ量が増えることになる。

＜その他の実施形態＞
以下、前述したような複雑な映像シーンにおける処理効率の低下とメモリ使用量の増加を防ぐための他の実施形態について説明する。
この場合の実施形態では、高解像特徴化判定モードの際に、クラスごとに高解像度の画像に対応した特徴量が必要であるかどうかも併せて記憶するようにする。具体的には、より高解像度の画像に対応した特徴量が必要なクラスの情報として、当該クラスに属する特徴量の代表値（クラスの重心の値）を、クラスタリングの際の人物領域の解像度と関連付けて「要高解像化特徴量」としてＲＡＭ１０３に記憶する。前述した例では、低解像度の画像の黒色のクラスの代表値を関連付けたものが、要高解像化特徴量となる。前述の図４のステップＳ４０５では、クラス単位で判定を行い、閾値を上回ったクラスに属する種別の特徴量が抽出された人物領域に対して、より高解像度の画像に対応した特徴量の種別を設定する。そして、その人物領域について、「要高解像化特徴量」の情報を更に記憶するようにすればよい。また、前述の実施形態の場合、「運用モード」では、図５のステップＳ５０５とステップＳ５０６で、一律の解像度と特徴量の種別を使用している。これに対し、本実施形態の場合は、「運用モード」では、人物領域から抽出した特徴量と、ＲＡＭ１０３に記憶されている要高解像化特徴量の中の特徴量とを比較して、それらが類似するときのみ、より高解像度な画像を更にステップＳ５０５で取得する。そして、ステップＳ５０６において特徴量の種別を変更するようにすればよい。前述の例では、低解像度の人物領域から抽出された色の特徴量が黒色のクラスの代表値に近いときのみ、人物領域が中解像度となるような画像を取得し、テクスチャの特徴を抽出する。
この実施形態によれば、より複雑な映像シーンのときの処理効率の低下とメモリ使用量の増加を防ぐことが可能となる。

さらに、他の実施形態として、人物検出部２０２は、集積回路チップ内に収めて第１撮像部２０１と一体化して一つの装置となされてもよい。また、特徴量抽出部２０４、特徴判定部２０５、特徴判定部２０５は、集積回路チップ内に納めて、第２撮像部２０３、撮像対象選択部２０８、解像度変更部２０６と一体化して一つの装置となされてもよい。そして、これら２つの装置と特徴量記憶部２０９、映像記憶部２１０とが、ネットワークで接続されるような構成であってもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１０１ＣＰＵ、１０２ＲＯＭ、１０３ＲＡＭ、１０４２次記憶装置、１０５画像入力装置、１０６入力装置、１０７表示装置、１０８ネットワークＩ／Ｆ、１０９バス、２０１第１撮像部、２０２人物検出部、２０３第２撮像部、２０４特徴量抽出部、２０５特徴判定部、２０６解像度変更部、２０７特徴量変更部、２０８撮像対象選択部、２０９特徴量記憶部、２１０映像記憶部、２１１クエリ画像入力部、２１２特徴量抽出部、２１３特徴量照合部、２１４検索結果出力部、２２０解像度別特徴種別リスト、２２１設定情報記憶部

Claims

広域画像を撮像する第１の撮像手段と、
前記第１の撮像手段の撮影範囲の一部の範囲を撮影可能な第２の撮像手段と、
前記第１の撮像手段により撮像された画像の中から検出の対象とされている複数の被写体の画像領域を検出する検出手段と、
前記第２の撮像手段により撮像された画像の中で、前記検出の対象とされている複数の被写体の画像領域ごとに特徴量を抽出する抽出手段と、
前記複数の被写体の画像領域ごとに前記抽出された特徴量に基づいて、前記複数の被写体のそれぞれを判別可能にする特徴量の種別と、前記種別の特徴量を抽出可能な画像の解像度とを決定する決定手段と、
前記決定手段により決定された解像度で画像を出力するように、前記第２の撮像手段を制御する撮像制御手段と、
前記抽出手段に対し、前記第２の撮像手段から出力された前記決定された解像度の画像から、前記決定された種別の特徴量を抽出させる抽出制御手段と
を有することを特徴とする画像処理装置。
前記第１の撮像手段により撮像された画像のデータを記憶する画像記憶手段と、
前記第２の撮像手段より出力された前記複数の被写体の画像領域から前記抽出された特徴量の情報を、前記第１の撮像手段により撮像された画像の中の前記複数の被写体の各画像領域に関連付けて記憶する特徴量記憶手段とを有することを特徴とする請求項１に記載の画像処理装置。
検索対象のクエリ画像を取得して前記クエリ画像から特徴量を抽出するクエリ取得手段と、
前記特徴量記憶手段に記憶されている各特徴量の中から、前記クエリ画像より抽出された特徴量に類似した特徴量を検索する特徴量検索手段と、
前記画像記憶手段に記憶されている画像の中から、前記特徴量検索手段により検索された特徴量に関連付けられた被写体の画像領域が映っている画像を、検索する画像検索手段とを有することを特徴とする請求項２に記載の画像処理装置。
前記クエリ取得手段は、前記クエリ画像から取得可能な全ての種別の特徴量を抽出し、
前記特徴量検索手段は、前記特徴量記憶手段に記憶されている各特徴量の中から、前記クエリ画像から取得した特徴量の全ての種別に対応した特徴量を読み出し、前記クエリ画像から抽出された各特徴量と前記特徴量記憶手段から読み出された各特徴量との間の距離が閾値以内となっている特徴量を、前記クエリ画像から抽出された特徴量に類似した特徴量として検索することを特徴とする請求項３に記載の画像処理装置。
前記クエリ取得手段は、前記クエリ画像を縮小又は拡大して、前記縮小又は拡大されたクエリ画像から前記取得可能な全ての種別の特徴量を抽出することを特徴とする請求項３又は４に記載の画像処理装置。
前記決定手段は、前記第２の撮像手段により撮像された画像の前記複数の被写体の画像領域から抽出された前記特徴量をクラスタリングし、前記クラスタリングの結果に基づいて、前記特徴量の種別と解像度を決定することを特徴とする請求項１〜５のいずれか１項に記載の画像処理装置。
前記決定手段は、前記クラスタリングによる少なくとも一つのクラスに含まれる特徴量の数が所定の閾値を超えた場合、前記特徴量の種別を、より高解像度の画像に対応した種別に決定し、
前記撮像制御手段は、前記決定された種別の特徴量に対応した高解像度の画像を、前記第２の撮像手段から出力させることを特徴とする請求項６に記載の画像処理装置。
前記決定手段は、前記クラスタリングによる各クラスのうち、クラスに含まれる特徴量の数が所定の閾値を超えたクラスに属する種別の特徴量を抽出した被写体に対しては、より高解像度の画像に対応した特徴量の種別に決定し、
前記撮像制御手段は、前記決定された種別の特徴量に対応した高解像度の画像を、前記第２の撮像手段から出力させることを特徴とする請求項６に記載の画像処理装置。
前記第２の撮像手段は、ズームレンズを有し、
前記撮像制御手段は、前記決定された解像度で画像を出力するように前記第２の撮像手段を制御することを特徴とする請求項１〜８のいずれか１項に記載の画像処理装置。
前記第２の撮像手段は、撮像した画像の画素を補間する画素補間手段を有し、
前記撮像制御手段は、前記画素補間手段による画素の補間を行わせることで、前記決定された解像度で画像を出力するように前記第２の撮像手段を制御することを特徴とする請求項１〜８のいずれか１項に記載の画像処理装置。
検出手段が、広域画像を撮像する第１の撮像手段により撮像された画像の中から検出の対象とされている複数の被写体の画像領域を検出するステップと、
抽出手段が、前記第１の撮像手段の撮影範囲の一部の範囲を撮影可能な第２の撮像手段により撮像された画像の中で、前記検出の対象とされている複数の被写体の画像領域ごとに特徴量を抽出するステップと、
決定手段が、前記複数の被写体の画像領域ごとに前記抽出された特徴量に基づいて、前記複数の被写体のそれぞれを判別可能にする特徴量の種別と、前記種別の特徴量を抽出可能な画像の解像度とを決定するステップと、
撮像制御手段が、前記決定手段により決定された解像度で画像を出力するように、前記第２の撮像手段を制御するステップと、
抽出制御手段が、前記抽出手段に対し、前記第２の撮像手段から出力された前記決定された解像度の画像から、前記決定された種別の特徴量を抽出させるステップと
を含むことを特徴とする画像処理方法。
コンピュータを、
広域画像を撮像する第１の撮像手段により撮像された画像の中から検出の対象とされている複数の被写体の画像領域を検出する検出手段と、
前記第１の撮像手段の撮影範囲の一部の範囲を撮影可能な第２の撮像手段により撮像された画像の中で、前記検出の対象とされている複数の被写体の画像領域ごとに特徴量を抽出する抽出手段と、
前記複数の被写体の画像領域ごとに前記抽出された特徴量に基づいて、前記複数の被写体のそれぞれを判別可能にする特徴量の種別と、前記種別の特徴量を抽出可能な画像の解像度とを決定する決定手段と、
前記決定手段により決定された解像度で画像を出力するように、前記第２の撮像手段を制御する撮像制御手段と、
前記抽出手段に対し、前記第２の撮像手段から出力された前記決定された解解像度の画像から、前記決定された種別の特徴量を抽出させる抽出制御手段と
して機能させるためのプログラム。