JP2011053952A

JP2011053952A - 画像検索装置及び画像検索方法

Info

Publication number: JP2011053952A
Application number: JP2009202800A
Authority: JP
Inventors: Yasuhiro Ito; 靖浩伊藤; Satoru Yashiro; 哲八代; Kotaro Yano; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-09-02
Filing date: 2009-09-02
Publication date: 2011-03-17
Anticipated expiration: 2029-09-02
Also published as: JP5538781B2

Abstract

【課題】被写体と関係が深い映像区間を検索することを目的とする。
【解決手段】画像検索装置が、複数のフレームを有する動画像より複数の顔パターンを検出し、顔パターンの各々に対応する動画像における顔画像を、顔パターンごとに一連のフレームについて集めた顔シーケンスを生成する顔シーケンス生成部（２００）と、顔画像の少なくとも１つが関連付けられた顔シーケンスに基づいて、顔シーケンスに関連付けられた顔画像が含まれる顔シーケンスを検索する顔シーケンス検索部（５００）とを備えることによって課題を解決する。
【選択図】図１

Description

本発明は、画像検索装置及び画像検索方法に関する。

従来、動画像からユーザーが所望する被写体の画像を検索する画像検索装置が知られている。この画像検索装置により検索できるのはフレーム単位の画像であり、フレーム単位に検索した画像がそのまま表示される。したがって、この画像検索装置によれば、動画像において登場する所望の人物を把握することができる。

近年、被写体を検出できた箇所から、その時点の前後の一定の時間、複数フレーム中から映像信号を録画する技術が開示されている（例えば、特許文献１参照）。

特開２００１−２８５７８７号公報

しかしながら、上述した技術は、被写体が映っている映像区間を精度よく特定するものではない。すなわち、上述した技術により映像区間を検索したとしても、被写体と関係が薄い映像区間が多々検索されるという問題がある。

本発明はこのような問題点に鑑みなされたもので、被写体と関係が深い映像区間を検索することを目的とする。

そこで、本発明は、複数のフレームを有する動画像より複数の被写体パターンを検出する検出手段と、前記複数の被写体パターンの各々に対応する前記動画像における被写体画像を、前記被写体パターンごとに一連のフレームについて集めたシーケンスを生成する生成手段と、前記被写体画像の少なくとも１つが関連付けられた検索条件に基づいて、前記検索条件に関連付けられた被写体画像が含まれるシーケンスを検索する検索手段と、を備えることを特徴とする。

本発明によれば、被写体と関係が深い映像区間を検索することができる。

画像検索装置の構成を示す図である。画像検索装置における処理を示すフローチャートの一例を示す図である。所定間隔のフレームごとに顔検出が行われる例を示す図である。画像全域から顔パターンを検出する例を示す図である。顔シーケンスを生成する処理に係るフローチャートの一例を示す図である。特徴抽出する処理に係るフローチャートの一例を示す図である。特徴抽出を行う際の進捗状況を示す図である。代表顔特徴量の決定に関するイメージを表す図である。クエリを入力するためのユーザーインターフェースの表示例を示す図である。類似度判定部における処理の概要を示した図である。検索された顔シーケンスに係る表示の例を示す図である。検索された顔シーケンスに係る表示の例を示す図である。

以下、本発明に係る実施形態について図面に基づいて説明する。例えば、本実施形態に係る画像検索装置は、ユーザーが検索する対象の被写体として人物、特に顔を採用し、動画像から人物が映っている映像区間単位で、映像区間を代表する画像として顔画像及び映像区間を抽出して出力する。この構成によれば、ユーザーは、検索対象の被写体が映っている映像区間を容易に把握できる。

図１の（ａ）は、画像検索装置のハードウェア構成を示す図である。画像検索装置は、ＣＰＵ（Central Processing Unit）１、記憶装置２、入力装置３、表示装置４、及び撮像装置５を含んで構成される。なお、各装置は、互いに通信可能に構成され、バス等により接続されている。
ＣＰＵ１は、画像検索装置の動作をコントロールし、記憶装置２に格納されたプログラムの実行等を行う。
記憶装置２は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、ＣＰＵ１の動作に基づき読み込まれたプログラム、長時間記憶しなくてはならないデータ等を記憶する。
本実施形態では、ＣＰＵ１が、記憶装置２に格納されたプログラムの手順に従って処理を行うことによって、画像検索装置における機能及び後述するフローチャートに係る処理が実現される。
入力装置３は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、各種の指示を入力する。
表示装置４は、液晶パネル、外部モニタ等であり、各種の情報を表示する。
撮像装置５は、カムコーダ等であり、CCD（Charge Coupled Devices）、CMOS（Complementary Metal Oxide Semiconductor）等の撮像素子を備える。なお、撮像装置５で撮像された動画像データは、記憶装置２等に記憶される。また、動画像は、基本的には、一連の複数のフレームを有して構成され、各フレームに対応する静止画像を有している。
なお、画像検索装置のハードウェア構成は、上述した構成に限られるものではない。例えば、画像検索装置は、各種の装置間で通信を行うためのＩ／Ｏ装置を備えてもよい。例えば、Ｉ／Ｏ装置は、メモリーカード、ＵＳＢケーブル等の入出力部、有線、無線等による送受信部である。

図１の（ｂ）は、本実施形態に係る画像検索装置の機能構成を示す図である。画像検索装置の処理及び機能は、映像入力部１００、顔シーケンス生成部２００、顔シーケンス特徴抽出部３００、顔シーケンス記憶部４００、及び顔シーケンス検索部５００により実現される。

映像入力部１００は、撮像装置５により撮像された映像に係る動画像データを画像メモリ部２１０に入力する。なお、映像入力部１００は、動画像データを記憶する記憶媒体から動画像データを読み込む構成でもよい。また、映像入力部１００は、インターネット等を介してサーバ等に記憶された動画像データを読み込む構成でもよい。

顔シーケンス生成部２００は、画像メモリ部２１０、顔検出部２２０、顔追跡部２３０、及び代表パターン抽出部２４０を含んで構成される。
顔シーケンス生成部２００は、画像メモリ部２１０に入力された動画像を解析し、顔が映っている映像区間において各フレームから顔画像（より広義には、被写体画像）を抽出し、顔シーケンス（より広義には、シーケンス）を生成する。
ここで、顔シーケンスとは、連続した映像区間から抽出された顔画像及び抽出された顔画像に関する付帯情報である。付帯情報とは、顔シーケンスの開始タイム及び終了タイム、顔画像を抽出したフレームの番号、顔画像を抽出したフレームにおいて顔画像が切り出された領域の情報等である。
画像メモリ部２１０は、記憶装置２に設けられる記憶領域であり、映像入力部１００から出力された動画像データをフレームごとに一時的に記憶する。
顔検出部２２０は、動画像データの所定のフレームから顔パターンの検出を行い、検出した結果（検出結果）を顔追跡部２３０に出力する。
顔追跡部２３０は、顔検出部２２０で検出された顔パターンを後続するフレーム中から追跡し、追跡した結果（追跡結果）に基づいて、顔シーケンスを生成し、顔領域の情報、顔シーケンスの区間等を代表パターン抽出部２４０等に出力する。
代表パターン抽出部２４０は、顔追跡部２３０による出力をもとに顔シーケンスを代表する顔画像（代表顔画像）を抽出する。

顔シーケンス特徴抽出部３００は、顔状態解析部３１０及び顔特徴量算出部３２０を含んで構成される。
顔状態解析部３１０は、顔シーケンス中の顔画像から顔の類似度による判定に有効な顔画像を抽出するために、顔シーケンス中の各顔画像の顔の状態を解析すると共に、顔特徴量算出部３２０に解析した結果（解析結果）を出力する。
顔特徴量算出部３２０は、顔状態解析部３１０の解析結果から顔の類似度による判定に有効な顔画像について顔特徴量を算出する。更には、顔特徴量算出部３２０は、算出した顔特徴量に基づいて、顔シーケンスごとに顔シーケンスにおける顔の特徴を最も良く表す顔特徴量を代表顔特徴量として抽出する。

顔シーケンス記憶部４００は、記憶装置２に設けられる記憶領域である。顔シーケンス記憶部４００は、付帯情報、顔特徴量を算出したフレーム、顔特徴量、顔シーケンスを代表する顔画像等を記憶する。

顔シーケンス検索部５００は、クエリ入力部５１０、類似度判定部５２０、及び表示部５３０を含んで構成される。
クエリ入力部５１０は、顔シーケンスを検索するための検索条件（クエリ）に関する入力を受け付ける。
類似度判定部５２０は、クエリにより指定された顔シーケンスと顔シーケンス記憶部４００によって記憶された各顔シーケンスとにおける類似度を算出する。そして、類似度判定部５２０は、算出した類似度が所定の閾値よりも高いか否かを判定し、高いと判定した類似度の顔シーケンスを表示部５３０に出力する。
表示部５３０は、類似度判定部５２０により出力された顔シーケンスを整理し、顔シーケンス記憶部４００に記憶された代表顔画像と共に、整理した顔シーケンスを表示装置４に表示する。

次に、図２を参照して、画像検索装置の動作を説明する。図２は、画像検索装置における処理を示すフローチャートの一例を示す図である。

まず、映像入力部１００は、画像メモリ部２１０に入力した動画像データをフレームごとに画像メモリ部２１０から読み込む（ステップＳ１００）。ここで読み込まれたデータは、例えば８ビットの画素により構成される２次元配列のデータであり、Ｒ，Ｇ，Ｂ，３つの面により構成される。このとき、画像データがＭＰＥＧ（Moving Picture Experts Group）、ＪＰＥＧ（Joint Photographic Experts Group）等の方式により圧縮されている場合がある。この場合は、画像データを所定の解凍方式に従って解凍し、ＲＧＢ各画素により構成される画像データとする。

続いて、検出手段の一例である顔検出部２２０は、動画像データのフレームから顔パターン（より広義には、被写体パターン）を複数、検出し、検出結果を顔追跡部２３０に出力する（ステップＳ２００）。
例えば、顔検出部２２０は、動画像データから所定間隔のフレームごとに顔検出を行う。そこで、図３を参照して、所定間隔のフレームごとに顔検出が行われる例（換言するならば、映像データが解析される際の進捗状況の例）について説明する。
図３に示すように、映像に係る動画像データＡは、複数のフレームを有して構成され、この例では、７つのフレームごとに顔パターンの検出が行われる。そして、フレームから切り出された矩形の画像パターンＢが顔画像として検出される。

本実施形態では、ニューラル・ネットワークにより画像中の顔パターンを検出する方法（例えば、参考文献１を参照のこと。）を適用した構成を採用する。
そこで、ニューラル・ネットワークにより画像中の顔パターンを検出する方法について説明する。
まず、顔検出部２２０は、検出の対象とする画像データをメモリに読み込み、顔と照合する所定の領域を読み込まれた画像中から切り出す。そして、顔検出部２２０は、切り出した領域の画素値の分布を入力としてニューラル・ネットワークによる演算で一つの出力を得る。このとき、ニューラル・ネットワークの重み及び閾値が、膨大な顔パターンと非顔パターンとにより予め学習されている。例えば、顔検出部２２０は、ニューラル・ネットワークの出力が０以上なら顔パターン、それ以外は非顔パターンであると判別する。
そして、顔検出部２２０は、ニューラル・ネットワークの入力である顔と照合する画像パターンとの切り出し位置を、例えば、図４に示すように画像全域から縦横順次に走査していくことにより、画像中から顔パターンを検出する。また、本実施形態では、様々な大きさの顔パターンの検出に対応するため、顔検出部２２０は、図４に示すように読み込んだ画像を所定の割合で順次縮小し、それに対して前述した顔検出の走査を行う構成を採用している。
参考文献１：Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998

なお、画像中から顔パターンを検出する方法は、ニューラル・ネットワークによる方法に限られるものではなく、各種の方式が適用可能であり、他の方法を採用してもよい（例えば、参考文献２参照のこと。）。
参考文献２：Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002

続いて、生成手段の一例である顔追跡部２３０は、顔検出部２２０で検出された顔パターンごとに後続するフレーム中から顔パターンを追跡し、追跡した結果を代表パターン抽出部２４０等に出力する（ステップＳ３００）。
すなわち、顔追跡部２３０は、所定間隔のフレームで検出された顔パターン（例えば、図３に示す画像パターンＢ）の夫々について後続するフレームで追跡を行う。追跡した結果、顔追跡部２３０は、顔画像を抽出したフレームの番号、そのフレームにおける顔画像が切り出された領域の情報等の付帯情報を取得する。更には、顔追跡部２３０は、時間的に連続した顔画像の集まりを顔シーケンス（例えば、図３に示すシーケンスＣ）として生成する。換言すると、顔追跡部２３０は、被写体画像を被写体パターンごとに一連のフレームについて寄せ集めたシーケンスを生成する。

ここで、図５を参照して、顔シーケンスが生成される構成について説明する。図５は、顔シーケンスを生成する処理に係るフローチャートの一例を示す図である。

まず、顔追跡部２３０は、顔パターンに対応する顔画像が切り出された領域の情報をもとに、後続のフレームにおいて顔パターンの探索を行う探索領域を設定する（ステップＳ３０１）。顔検出部２２０において顔パターンを検出したフレームの次のフレームから探索を行う場合には、顔パターンを検出した領域に対して水平位置、垂直位置について所定量だけその中心位置をずらした近傍の矩形領域を顔パターンの探索領域として設定する。なお、さらに次のフレームについて探索を行う場合には、顔追跡部２３０は、追跡結果に基づいて、すなわち後述の処理において追跡した顔パターンの顔画像が切り出された領域を利用して、同様に新たな探索領域を設定する。

続いて、顔追跡部２３０は、探索領域内で切り出された領域における画像と探索する顔パターンに対応する顔画像との相関をもとに顔パターンによる追跡を行う（ステップＳ３０２）。すなわち、顔追跡部２３０は、探索領域として設定された中心位置を中心として探索する顔パターンと同じ大きさの矩形領域を順次切出し、切り出した領域における画像と探索する顔パターンに対応する顔画像との輝度分布をテンプレートとした相関値を算出する。相関値は、２つのパターンの関係の程度を量的に表現した値をいう。そして、顔追跡部２３０は、探索領域内において相関値が最も高い領域を顔パターンの追跡結果として、その相関値とともに出力する。
なお、本実施形態では、顔追跡部２３０は、顔パターンの追跡のために輝度分布の相関値を用いるものとして説明を行なったが、ＲＧＢごとの画素値分布の相関を用いて顔パターンの追跡を行ってもよい。また、顔追跡部２３０は、領域内での輝度分布やＲＧＢ値のヒストグラム等、画像特徴量の相関を用いて顔パターンの追跡を行ってもよい。

続いて、顔追跡部２３０は、追跡処理で出力された相関値が所定の値以上であるかを判定する（ステップＳ３０３）。所定の値以上の場合には、顔追跡部２３０は、顔検出部２２０で検出された顔パターンに対応する顔画像と追跡結果に係る顔画像とが類似する確率が高いので正確に追跡できたと判断し、処理をステップＳ３０４に移す。他方、顔追跡部２３０は、所定値以下の場合には、類似する確率が低いので追跡する顔パターンに対応する顔画像がなかったと判断し、追跡処理を終了する。

そして、顔追跡部２３０は、顔パターンによる追跡に係る処理の対象を後続する次のフレームに移し、ステップＳ３０１に処理を移す（ステップＳ３０４）。

したがって、顔検出部２２０で顔パターンが検出されたフレームの次のフレームの直前のフレームまで繰り返し処理が基本的に行われ、検出した顔パターンごとに顔シーケンスを得ることができる。
このように、本実施形態の顔追跡部２３０では、顔検出部２２０で検出された顔パターンごとに後続するフレーム中から顔パターンを探索し、追跡する構成を採用している。しかしながら、例えば、顔追跡部２３０は、この構成に加えて、顔パターンを検出した前のフレームにおいても顔パターンを探索し、追跡する構成を採用してもよい。また、例えば、顔追跡部２３０は、上述した構成に加えて又は代えて、動画像から動きベクトルを算出し、動きベクトルを手がかりにして顔パターンの追跡を行う構成を採用してもよい。

また、顔追跡部２３０は、所定の間隔をあけた後のフレームを使って顔パターンの追跡を行ってもよい。この構成によれば、顔の前を何かが横切ること、フラッシュによる影響等によって顔シーケンスが分割され過ぎることを防ぐことができる。

また、顔追跡部２３０は、時間的（或いは、フレームの位置的）に近隣の二つの顔シーケンスの顔特徴の相関を算出し、相関が高い場合は、シーケンスを統合（１つに結合）してもよい。すなわち、顔追跡部２３０は、統合する前側のシーケンスの開始から後ろ側のシーケンスの終了時までを統合したシーケンスを新たなシーケンス（映像区間）とし、付帯情報も併せて統合する。顔追跡部２３０は、代表顔画像として、片方の顔シーケンスのものを用いることができる。
以上の顔シーケンスの統合が全ての前後の顔シーケンスについて順次繰り返し行われ、顔シーケンスが統合される。
ただし、顔シーケンスにより表される映像区間が所定の時間以上離れている組については、顔追跡部２３０は、顔シーケンスの統合の候補としては用いない。また、映像中に人物が複数登場する場合には、複数の顔シーケンスで映像区間が重なる場合が生じ得る。このような場合には、それぞれの顔シーケンスに対応する人物が別の人物と見なせるので、顔追跡部２３０は、顔シーケンスの統合の候補としては用いない。

続いて、代表パターン抽出部２４０は、顔追跡部２３０の結果をもとに、顔シーケンスを代表する顔画像を抽出する（ステップＳ４００）。すなわち、代表パターン抽出部２４０は、顔シーケンス内の１つのフレームから顔領域を含む矩形領域を切り出し、顔シーケンス記憶部４００に記憶する。代表パターン抽出部２４０は、切り出す対象とするフレームを、シーケンスの長さを基準としてシーケンスの先頭から所定間隔のフレーム（言い換えるならば所定時間に位置するフレーム）、顔のサイズが最も大きなフレーム等としてもよい。また、代表パターン抽出部２４０は、切り出す対象とするフレームを、各顔シーケンス内の一部、又は所定の間隔を置いた複数のフレームから顔領域を含む矩形領域を切り出した動画像としてもよい。
また、本実施形態では、生成された顔シーケンス及び代表する顔画像については、インデックスを作成し、検索時に容易にアクセスできる構成を採用する。

続いて、顔シーケンス特徴抽出部３００は、顔追跡部２３０で生成された顔シーケンスをもとに、顔シーケンスの特徴抽出を行う（ステップＳ５００）。

ここで、図６及び図７を参照して、顔シーケンスの特徴抽出について説明する。図６は、顔シーケンスを解析して特徴抽出する処理に係るフローチャートを示す図である。図７は、図６の各ステップに沿って顔シーケンスの特徴抽出を行う際の進捗状況を示す図である。

まず、解析手段の一例である顔状態解析部３１０は、顔シーケンス中の各顔画像の顔（被写体）の状態を解析し、解析した結果を顔特徴量算出部３２０に出力する（ステップＳ５０１）。顔状態解析部３１０によれば、顔画像の顔（より広義には、被写体画像の被写体）の状態を解析することで、各顔シーケンス中の顔画像から顔の類似度による判定に有効な顔特徴量を抽出することができる。
顔の類似度による判定をより正確にするためには、顔画像の中に目、口、鼻等の顔の各パーツが存在することが重要である。すなわち、顔が横方向や斜めを向いているものよりも正面を向いているものの方が、目、口、鼻等を正確に識別できるので、顔の特徴を正確に表現しており、顔の類似度による判定に有効である。
したがって、本実施形態では、顔状態解析部３１０が顔シーケンス中の各顔画像の顔の向きを検出する構成を有する。なお、図７には、顔シーケンスの各顔画像Ａに対して顔の向きＢが示されている。
他方、例えば、顔状態解析部３１０は、ニューラル・ネットワークによる顔判別器と同じ構成の複数の顔判別器を有してもよい。ただし、各顔判別器の判別のためのパラメータを顔の向きごとにサンプル学習によりチューニングし、設定しておく。この構成においては、複数の顔判別器のうち、もっとも出力の高い、すなわち尤度の高い顔判別器に対応した顔の向きを顔状態解析部３１０による解析結果とする。
なお、本実施形態では、顔状態解析部３１０は、顔の向きを顔の状態の解析に用いる構成を採用しているが、例えば、顔画像から目、口、鼻等のパーツを個別に探索する手段を設けて、夫々の存在の可否を解析する構成を採用してもよい。
また、目が開いている場合は、目が閉じている場合よりも顔の類似度を正確に判定できる。したがって、顔状態解析部３１０は、上述した構成に加えて又は代えて、目が開いているか、目が閉じているかを判定する手段を設けて、目の開閉の状態を解析する構成を採用してもよい。
また、顔に対する照明状態がよく全体的に肌部分が明るく撮影されている場合には、部分的に陰がある場合よりも顔の類似度を正確に判定できる。したがって、顔状態解析部３１０は、上述した構成に加えて又は代えて、顔の肌部分の明るさの分布から顔に対する照明の状態を判定する手段を設けて、照明の状態を解析する構成を採用してもよい。

続いて、特徴量算出手段の一例である顔特徴量算出部３２０は、顔状態解析部３１０での解析結果に基づいて顔の類似度による判定に有効な顔画像について顔特徴量を算出する（ステップＳ５０２）。
すなわち、顔特徴量算出部３２０は、解析結果から顔の類似度による判定に有効な顔画像のみに対して顔特徴量を算出する。例えば、顔特徴量算出部３２０は、予め定められた状態にある正面の顔画像のみに絞り込んで顔特徴量を算出する。
より具体的に説明すると、顔特徴量算出部３２０は、絞り込んだ顔画像から顔の判定に有効な顔特徴点の探索を行う。例えば、顔特徴量算出部３２０は、顔の特徴点として、目尻、口の両端、鼻の頂点等をパターン照合に基づき抽出する。そして、顔特徴量算出部３２０は、各特徴点において局所輝度分布をガボールウェーブレット変換により顔特徴量として抽出し、ベクトル化する。すなわち、図７で示すように正面の顔画像に対して顔の特徴ベクトルＣ（顔特徴量）が夫々算出される。

ここで、顔特徴量を算出する方法については、公知の方法を採用する（例えば、参考文献３を参照のこと。）。なお、顔特徴量を算出する方法については、参考文献３に記載の方法に限定されるものではなく、ローカル記述子を各特徴点で算出する方法（例えば、参考文献４参照のこと。）を採用してもよいし、顔画像の輝度分布のヒストグラム等を用いた単純な方法を採用してもよい。
参考文献３：Wiskott et al, "Face Recognition by Elastic Bunch Graph Matching", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.19 , NO.7, JULY 1997
参考文献４：Schmid and Mohr, "Local Greyvalue Invariants for Image Retrieval", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.19 , NO.5, MAY 1997

続いて、顔特徴量算出部３２０は、顔シーケンスを代表する代表顔特徴量を抽出するために、算出した各顔特徴量をクラスタリングしてクラスタを複数作成する（ステップＳ５０３）。
例えば、顔特徴量算出部３２０は、クラスタリングに、顔シーケンスから算出された複数の顔特徴ベクトル（顔特徴量）を入力として所定のクラスタ数においてK平均法（Ｋ-means法）を適用する。

続いて、代表特徴量抽出手段の一例である顔特徴量算出部３２０は、クラスタリングの結果に基づいて、顔シーケンスの顔特徴を最も良く表す顔特徴量を代表顔特徴量として抽出する（ステップＳ５０４）。
すなわち、顔特徴量算出部３２０は、顔特徴ベクトルが相対的に多く含まれるクラスタ（例えば、最も顔特徴ベクトルのサンプル数が多いクラスタ）を主クラスタとし、主クラスタ内の顔特徴ベクトルの平均ベクトルを算出して、代表顔特徴量とする。
例えば、図８で示すように、複数の顔特徴ベクトルＢに基づいて主クラスタが決定され、主クラスタ内の顔特徴ベクトルの平均ベクトル（代表顔特徴量Ｃ）が得られる。ここで、代表顔特徴量として主クラスタの平均ベクトルを抽出するようにすると、顔特徴量を任意に一つサンプリングする場合に比べて、各顔画像に個別に含まれるノイズの影響に強い顔特徴量を抽出できる効果がある。

続いて、顔特徴量算出部３２０は、算出された顔特徴量及び抽出された代表顔特徴量を顔シーケンス記憶部４００に記憶する（ステップＳ６００）。このとき、抽出された代表顔特徴量については、代表パターン抽出部２４０で抽出された顔画像と整合を取ったインデックスが作成される構成を採用する。この構成によれば、検索時には、代表パターン抽出部２４０で抽出された顔画像及び代表顔特徴量に容易にアクセスすることができる。

続いて、クエリ入力部５１０は、顔シーケンスを探すための検索条件の入力を受け付ける（ステップＳ７００）。より具体的には、クエリ入力部５１０は、顔画像の少なくとも１つが関連付けられた顔シーケンス（すなわち、検索条件）のユーザーによる指定を受け付ける。

ここで、図９を参照して、検索条件の入力について説明する。図９は、検索条件（クエリ）を入力するためのユーザーインターフェースの表示例を示す図である。
図９には、顔シーケンス記憶部４００で記憶されている顔シーケンスを映像のタイトルごとにグルーピングして、各顔シーケンスの代表顔画像が入力ダイアログウインドウ８００に一覧表示される例が示されている。このとき、顔シーケンスが映像中に占める映像区間等を示してもよい。ユーザーは、この一覧表示からクエリとなる顔シーケンスを１つ選ぶことになる。

図９において、タイトル８０１は、映像のタイトルを示す情報である。タイトルが無い場合には、撮影時刻や録画時刻等を表示する。代表顔画像８０２は、顔シーケンスの代表顔画像である。選択領域８０３は、マウスカーソル８０４により代表顔画像が選択された状態を示す。なお、ユーザーは、マウスカーソル８０４を代表顔画像８０２の上でクリックすることによって、代表顔画像８０２を選択した状態にすることができる。ただし、本実施形態では、選択した状態にできる代表顔画像は１つであり、新たな選択を行うと、それまで選択した状態だった代表顔画像は非選択の状態になる。
スライダー８０５は、縦エレベーターである。ユーザーは、マウスカーソル８０４をスライダー８０５の上でドラッグして縦方向に画面をスクロールさせることで、１画面で表示しきれない代表顔画像を表示することができる。
検索実行ボタン８０６は、顔シーケンスの検索を実行するためのボタンである。
なお、クエリによる検索の結果としては、顔シーケンスに限られるものではなく、顔画像を検索の結果としてもよい。この場合は、顔検出部２２０によって顔領域が検出され、検出された顔領域において顔特徴量算出部３２０によって特徴量が算出され、ベクトル化されることで、検索対象の代表顔画像との類似度を算出することができる。
また、顔シーケンス、顔シーケンスが属する映像のタイトル、映像のキーワード、記録日時等、他の付帯情報と組み合わせてクエリを設定し、類似度判定部５２０が類似度判定を行う顔シーケンスを絞り込んでもよい。

続いて、算出手段の一例である類似度判定部５２０は、クエリの対象となる顔シーケンスと、顔シーケンス記憶部４００により記憶されている各顔シーケンスとの類似度を算出する。すなわち、類似度判定部５２０は、ユーザーにより指定された顔シーケンスに関連付けられた顔画像と、生成された顔シーケンスを構成する顔画像との類似度を算出する。他方、抽出手段の一例である類似度判定部５２０は、類似度が基準を満たす（換言するならば、所定の閾値よりも類似度が高い）顔画像が含まれる顔シーケンスに係る情報を抽出し、抽出した情報を表示部５３０に出力する（ステップＳ８００）。なお、シーケンスを抽出する処理は、類似度判定部５２０により行われる構成に限られるものではなく、新たな抽出部を設けて行われてもよい。ここで、図１０には、類似度判定部５２０における処理の概要が示されている。

本実施形態では、顔シーケンス間の類似度については、各顔シーケンスの複数の顔特徴量間での類似度が最大のものを用いる。ただし、類似度が最大となるものを用いる構成に限られるものではなく、類似度の平均値を用いてもよい。すなわち、類似度判定部５２０は、ステップＳ５０２で算出された顔特徴量と各顔シーケンス（検索条件）に関連付けられた顔画像の顔特徴量との相関に基づいて類似度を算出する。なお、顔特徴量間での類似度は、顔特徴ベクトル同士のユークリッド距離の逆数を用いる。
また、本実施形態では、顔シーケンス間の類似度を、クエリを設定した後に計算しているが、予め顔シーケンス間の類似度を算出して相関の高い顔シーケンスを記憶しておき、クエリが設定されたとき、又は検索が実行されたときに、これを利用してもよい。

なお、顔シーケンス間の類似度の算出については、各顔シーケンスの複数の顔特徴量を用いる構成に加えて又は代えて、顔シーケンスの代表顔特徴量を用いる構成を採用してもよい。例えば、類似度判定部５２０は、クエリの対象となる顔シーケンスの各顔特徴量と、顔シーケンス記憶部４００により記憶されている各顔シーケンスの代表顔特徴量との類似度が最大のものを類似度として用いる。すなわち、類似度判定部５２０は、ステップＳ５０４で抽出された代表顔特徴量と各顔シーケンス（検索条件）に関連付けられた顔画像の顔特徴量との相関に基づいて類似度を算出する。

これらを踏まえると、類似度判定部５２０は、ユーザーにより指定された顔シーケンスに関連付けられた顔画像が含まれる顔シーケンスを検索する検索手段の一例である。

続いて、出力手段の一例である表示部５３０は、類似度判定部５２０の結果を整理して表示装置４に表示する（ステップＳ９００）。例えば、表示部５３０は、抽出した顔シーケンスの付帯情報（フレームの情報）に基づいて顔シーケンスに対応する映像区間（映像区間情報）等を表示する。

また、表示装置４で表示される内容は、映像区間と対応付けがされた顔シーケンス記憶部４００で記憶された代表顔画像（顔シーケンスを構成する顔画像のうちの一の顔画像）等である。ここで、顔シーケンスに係る表示の例を図１１及び図１２に示す。
図１１において、表示部５３０は、映像中の各顔シーケンスに対応する映像区間Ｃを顔シーケンス記憶部４００で記憶された代表顔画像Ｄと共に表示装置４に表示する。動画像データＡでは、所定時間間隔でフレームのサムネールＢが表示されている。また、映像区間Ｃは、顔シーケンスの解析結果に基づく映像区間の表示の例である。表示部５３０が映像区間Ｃを表示することによりユーザーは、映像中の人物の出現区間が把握できるようになる。また、代表顔画像Ｄは、代表顔画像である。表示部５３０が代表顔画像を表示することにより、ユーザーは、映像区間Ｃを代表する顔を確認できる。

他方、図１２において、表示部５３０は、検索結果ウインドウ９００を表示装置４に表示する。タイトル９０１は、映像のタイトルを示す情報である。タイトルが無い場合には、表示部５３０は、撮影時刻、録画時刻等を表示する。バー９０２は、映像の時間全体を表すバーである。映像区間９０３は、映像において顔シーケンスが占める映像区間を示す。表示部５３０がバー９０２及び映像区間９０３を表示することにより、ユーザーは、映像中の人物の出現区間を把握できるようになる。代表顔画像９０４は、代表顔画像である。表示部５３０が代表顔画像を表示することにより、ユーザーは、映像区間を代表する顔を確認できる。なお、代表顔画像９０４は、映像区間９０３との関連が認識できるように所定の範囲内（例えば、映像区間９０３とは異なる他の映像区間の中心からの距離よりも映像区間９０３の中心からの距離の方が近い位置）に設けられることが好適である。

なお、以上の実施形態では、画像検索装置は、被写体パターンとして人物の顔を検出し、顔シーケンスを生成する構成を採用したが、映像の内容が把握できるその他の被写体のパターンを生成する構成を採用してもよい。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

上述した実施形態の構成によれば、映像中から精度良く所定の被写体が映っている映像区間を単位とする検索ができるので、映像の検索、映像の編集の効率が向上する。また、同一人物の複数の画像情報を使って照合を行うので精度が向上する。
また、上述した各実施形態によれば、映像中から顔を検出し、複数のフレームに渡って検出した顔画像を１つの顔シーケンスとし、顔シーケンスを単位とする検索ができるので、映像の検索、映像の編集の効率が向上する。また、同一人物の複数の画像情報を使って類似度による判定を行うので精度が向上する。

また、上述した実施形態によれば、多くの映像区間から精度良く所定の被写体が映っている映像区間単位での検索ができるようになる。このため、映像検索の効率が向上する。また、単位映像区間中の被写体の画像情報のうち、良好なものを抽出し映像区間検索の対象として使って照合を行うので、被写体の映った映像区間での人物判定の精度をより向上することができる。

また、上述した実施形態によれば、単位映像区間中の被写体の画像情報のうち、ぞれぞれのシーケンスを代表する特徴量でシーケンスの類似度を照合する場合、被写体の映った映像区間での人物判定をより安定して行うことができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００映像入力部、２００顔シーケンス生成部、３００顔シーケンス特徴抽出部、４００顔シーケンス記憶部、５００顔シーケンス検索部

Claims

複数のフレームを有する動画像より複数の被写体パターンを検出する検出手段と、
前記複数の被写体パターンの各々に対応する前記動画像における被写体画像を、前記被写体パターンごとに一連のフレームについて集めたシーケンスを生成する生成手段と、
前記被写体画像の少なくとも１つが関連付けられた検索条件に基づいて、前記検索条件に関連付けられた被写体画像が含まれるシーケンスを検索する検索手段と、
を備える、画像検索装置。
前記検索条件に関連付けられた被写体画像と、前記生成手段で生成されたシーケンスを構成する被写体画像との類似度を算出する算出手段と、
前記検索手段で検索されたシーケンスのうちから前記算出手段で算出された類似度に応じてシーケンスを抽出する抽出手段と、
前記抽出手段で抽出されたシーケンスに対応する映像区間情報を出力する出力手段と、
を更に備える、請求項１記載の画像検索装置。
前記抽出手段は、前記検索手段で検索されたシーケンスのうちから前記算出手段で算出された類似度が基準を満たす被写体画像が含まれるシーケンスを抽出し、
前記出力手段は、前記シーケンスに係るフレームの情報に基づいて前記検索条件に関連付けられた被写体画像の被写体が映っている映像区間を表す映像区間情報を出力する、請求項２記載の画像検索装置。
前記出力手段は、出力する映像区間情報に対応するシーケンスを構成する被写体画像のうちの一の被写体画像を前記映像区間情報と共に出力する、請求項２又は３記載の画像検索装置。
前記生成手段で生成されたシーケンスを構成する被写体画像の被写体の状態を解析する解析手段と、
前記解析手段で解析された状態が予め定められた状態にある被写体の被写体画像の特徴量を算出する特徴量算出手段と、
を更に備え、
前記算出手段は、前記特徴量算出手段で算出された特徴量と前記検索条件に関連付けられた被写体画像の特徴量との相関に基づいて類似度を算出する、請求項２乃至４の何れか１項記載の画像検索装置。
前記生成手段で生成されたシーケンスを構成する被写体画像の特徴量に基づいて、前記シーケンスを代表する代表特徴量を抽出する代表特徴量抽出手段を更に備え、
前記算出手段は、前記代表特徴量抽出手段で抽出された代表特徴量と前記検索条件に関連付けられた被写体画像の特徴量との相関に基づいて類似度を算出する、請求項２乃至４の何れか１項記載の画像検索装置。
前記代表特徴量抽出手段は、前記生成手段で生成されたシーケンスを構成する被写体画像の特徴量をクラスタリングしてクラスタを複数作成し、前記特徴量が相対的に多く含まれるクラスタに基づいて、前記シーケンスを代表する代表特徴量を抽出する、請求項６記載の画像検索装置。
複数のフレームを有する動画像より複数の被写体パターンを検出する検出ステップと、
前記複数の被写体パターンの各々に対応する前記動画像における被写体画像を、前記被写体パターンごとに一連のフレームについて集めたシーケンスを生成する生成ステップと、
前記被写体画像の少なくとも１つが関連付けられた検索条件に基づいて、前記検索条件に関連付けられた被写体画像が含まれるシーケンスを検索する検索ステップと、
を備える、画像検索方法。
複数のフレームを有する動画像より複数の被写体パターンを検出する検出ステップと、
前記複数の被写体パターンの各々に対応する前記動画像における被写体画像を、前記被写体パターンごとに一連のフレームについて集めたシーケンスを生成する生成ステップと、
前記被写体画像の少なくとも１つが関連付けられた検索条件に基づいて、前記検索条件に関連付けられた被写体画像が含まれるシーケンスを検索する検索ステップと、
をコンピュータに実行させるプログラム。