JP2011053952A - 画像検索装置及び画像検索方法 - Google Patents

画像検索装置及び画像検索方法 Download PDF

Info

Publication number
JP2011053952A
JP2011053952A JP2009202800A JP2009202800A JP2011053952A JP 2011053952 A JP2011053952 A JP 2011053952A JP 2009202800 A JP2009202800 A JP 2009202800A JP 2009202800 A JP2009202800 A JP 2009202800A JP 2011053952 A JP2011053952 A JP 2011053952A
Authority
JP
Japan
Prior art keywords
face
image
subject
sequence
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009202800A
Other languages
English (en)
Other versions
JP5538781B2 (ja
Inventor
Yasuhiro Ito
靖浩 伊藤
Satoru Yashiro
哲 八代
Kotaro Yano
光太郎 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2009202800A priority Critical patent/JP5538781B2/ja
Publication of JP2011053952A publication Critical patent/JP2011053952A/ja
Application granted granted Critical
Publication of JP5538781B2 publication Critical patent/JP5538781B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

【課題】被写体と関係が深い映像区間を検索することを目的とする。
【解決手段】画像検索装置が、複数のフレームを有する動画像より複数の顔パターンを検出し、顔パターンの各々に対応する動画像における顔画像を、顔パターンごとに一連のフレームについて集めた顔シーケンスを生成する顔シーケンス生成部(200)と、顔画像の少なくとも1つが関連付けられた顔シーケンスに基づいて、顔シーケンスに関連付けられた顔画像が含まれる顔シーケンスを検索する顔シーケンス検索部(500)とを備えることによって課題を解決する。
【選択図】図1

Description

本発明は、画像検索装置及び画像検索方法に関する。
従来、動画像からユーザーが所望する被写体の画像を検索する画像検索装置が知られている。この画像検索装置により検索できるのはフレーム単位の画像であり、フレーム単位に検索した画像がそのまま表示される。したがって、この画像検索装置によれば、動画像において登場する所望の人物を把握することができる。
近年、被写体を検出できた箇所から、その時点の前後の一定の時間、複数フレーム中から映像信号を録画する技術が開示されている(例えば、特許文献1参照)。
特開2001−285787号公報
しかしながら、上述した技術は、被写体が映っている映像区間を精度よく特定するものではない。すなわち、上述した技術により映像区間を検索したとしても、被写体と関係が薄い映像区間が多々検索されるという問題がある。
本発明はこのような問題点に鑑みなされたもので、被写体と関係が深い映像区間を検索することを目的とする。
そこで、本発明は、複数のフレームを有する動画像より複数の被写体パターンを検出する検出手段と、前記複数の被写体パターンの各々に対応する前記動画像における被写体画像を、前記被写体パターンごとに一連のフレームについて集めたシーケンスを生成する生成手段と、前記被写体画像の少なくとも1つが関連付けられた検索条件に基づいて、前記検索条件に関連付けられた被写体画像が含まれるシーケンスを検索する検索手段と、を備えることを特徴とする。
本発明によれば、被写体と関係が深い映像区間を検索することができる。
画像検索装置の構成を示す図である。 画像検索装置における処理を示すフローチャートの一例を示す図である。 所定間隔のフレームごとに顔検出が行われる例を示す図である。 画像全域から顔パターンを検出する例を示す図である。 顔シーケンスを生成する処理に係るフローチャートの一例を示す図である。 特徴抽出する処理に係るフローチャートの一例を示す図である。 特徴抽出を行う際の進捗状況を示す図である。 代表顔特徴量の決定に関するイメージを表す図である。 クエリを入力するためのユーザーインターフェースの表示例を示す図である。 類似度判定部における処理の概要を示した図である。 検索された顔シーケンスに係る表示の例を示す図である。 検索された顔シーケンスに係る表示の例を示す図である。
以下、本発明に係る実施形態について図面に基づいて説明する。例えば、本実施形態に係る画像検索装置は、ユーザーが検索する対象の被写体として人物、特に顔を採用し、動画像から人物が映っている映像区間単位で、映像区間を代表する画像として顔画像及び映像区間を抽出して出力する。この構成によれば、ユーザーは、検索対象の被写体が映っている映像区間を容易に把握できる。
図1の(a)は、画像検索装置のハードウェア構成を示す図である。画像検索装置は、CPU(Central Processing Unit)1、記憶装置2、入力装置3、表示装置4、及び撮像装置5を含んで構成される。なお、各装置は、互いに通信可能に構成され、バス等により接続されている。
CPU1は、画像検索装置の動作をコントロールし、記憶装置2に格納されたプログラムの実行等を行う。
記憶装置2は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、CPU1の動作に基づき読み込まれたプログラム、長時間記憶しなくてはならないデータ等を記憶する。
本実施形態では、CPU1が、記憶装置2に格納されたプログラムの手順に従って処理を行うことによって、画像検索装置における機能及び後述するフローチャートに係る処理が実現される。
入力装置3は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、各種の指示を入力する。
表示装置4は、液晶パネル、外部モニタ等であり、各種の情報を表示する。
撮像装置5は、カムコーダ等であり、CCD(Charge Coupled Devices)、CMOS(Complementary Metal Oxide Semiconductor)等の撮像素子を備える。なお、撮像装置5で撮像された動画像データは、記憶装置2等に記憶される。また、動画像は、基本的には、一連の複数のフレームを有して構成され、各フレームに対応する静止画像を有している。
なお、画像検索装置のハードウェア構成は、上述した構成に限られるものではない。例えば、画像検索装置は、各種の装置間で通信を行うためのI/O装置を備えてもよい。例えば、I/O装置は、メモリーカード、USBケーブル等の入出力部、有線、無線等による送受信部である。
図1の(b)は、本実施形態に係る画像検索装置の機能構成を示す図である。画像検索装置の処理及び機能は、映像入力部100、顔シーケンス生成部200、顔シーケンス特徴抽出部300、顔シーケンス記憶部400、及び顔シーケンス検索部500により実現される。
映像入力部100は、撮像装置5により撮像された映像に係る動画像データを画像メモリ部210に入力する。なお、映像入力部100は、動画像データを記憶する記憶媒体から動画像データを読み込む構成でもよい。また、映像入力部100は、インターネット等を介してサーバ等に記憶された動画像データを読み込む構成でもよい。
顔シーケンス生成部200は、画像メモリ部210、顔検出部220、顔追跡部230、及び代表パターン抽出部240を含んで構成される。
顔シーケンス生成部200は、画像メモリ部210に入力された動画像を解析し、顔が映っている映像区間において各フレームから顔画像(より広義には、被写体画像)を抽出し、顔シーケンス(より広義には、シーケンス)を生成する。
ここで、顔シーケンスとは、連続した映像区間から抽出された顔画像及び抽出された顔画像に関する付帯情報である。付帯情報とは、顔シーケンスの開始タイム及び終了タイム、顔画像を抽出したフレームの番号、顔画像を抽出したフレームにおいて顔画像が切り出された領域の情報等である。
画像メモリ部210は、記憶装置2に設けられる記憶領域であり、映像入力部100から出力された動画像データをフレームごとに一時的に記憶する。
顔検出部220は、動画像データの所定のフレームから顔パターンの検出を行い、検出した結果(検出結果)を顔追跡部230に出力する。
顔追跡部230は、顔検出部220で検出された顔パターンを後続するフレーム中から追跡し、追跡した結果(追跡結果)に基づいて、顔シーケンスを生成し、顔領域の情報、顔シーケンスの区間等を代表パターン抽出部240等に出力する。
代表パターン抽出部240は、顔追跡部230による出力をもとに顔シーケンスを代表する顔画像(代表顔画像)を抽出する。
顔シーケンス特徴抽出部300は、顔状態解析部310及び顔特徴量算出部320を含んで構成される。
顔状態解析部310は、顔シーケンス中の顔画像から顔の類似度による判定に有効な顔画像を抽出するために、顔シーケンス中の各顔画像の顔の状態を解析すると共に、顔特徴量算出部320に解析した結果(解析結果)を出力する。
顔特徴量算出部320は、顔状態解析部310の解析結果から顔の類似度による判定に有効な顔画像について顔特徴量を算出する。更には、顔特徴量算出部320は、算出した顔特徴量に基づいて、顔シーケンスごとに顔シーケンスにおける顔の特徴を最も良く表す顔特徴量を代表顔特徴量として抽出する。
顔シーケンス記憶部400は、記憶装置2に設けられる記憶領域である。顔シーケンス記憶部400は、付帯情報、顔特徴量を算出したフレーム、顔特徴量、顔シーケンスを代表する顔画像等を記憶する。
顔シーケンス検索部500は、クエリ入力部510、類似度判定部520、及び表示部530を含んで構成される。
クエリ入力部510は、顔シーケンスを検索するための検索条件(クエリ)に関する入力を受け付ける。
類似度判定部520は、クエリにより指定された顔シーケンスと顔シーケンス記憶部400によって記憶された各顔シーケンスとにおける類似度を算出する。そして、類似度判定部520は、算出した類似度が所定の閾値よりも高いか否かを判定し、高いと判定した類似度の顔シーケンスを表示部530に出力する。
表示部530は、類似度判定部520により出力された顔シーケンスを整理し、顔シーケンス記憶部400に記憶された代表顔画像と共に、整理した顔シーケンスを表示装置4に表示する。
次に、図2を参照して、画像検索装置の動作を説明する。図2は、画像検索装置における処理を示すフローチャートの一例を示す図である。
まず、映像入力部100は、画像メモリ部210に入力した動画像データをフレームごとに画像メモリ部210から読み込む(ステップS100)。ここで読み込まれたデータは、例えば8ビットの画素により構成される2次元配列のデータであり、R,G,B,3つの面により構成される。このとき、画像データがMPEG(Moving Picture Experts Group)、JPEG(Joint Photographic Experts Group)等の方式により圧縮されている場合がある。この場合は、画像データを所定の解凍方式に従って解凍し、RGB各画素により構成される画像データとする。
続いて、検出手段の一例である顔検出部220は、動画像データのフレームから顔パターン(より広義には、被写体パターン)を複数、検出し、検出結果を顔追跡部230に出力する(ステップS200)。
例えば、顔検出部220は、動画像データから所定間隔のフレームごとに顔検出を行う。そこで、図3を参照して、所定間隔のフレームごとに顔検出が行われる例(換言するならば、映像データが解析される際の進捗状況の例)について説明する。
図3に示すように、映像に係る動画像データAは、複数のフレームを有して構成され、この例では、7つのフレームごとに顔パターンの検出が行われる。そして、フレームから切り出された矩形の画像パターンBが顔画像として検出される。
本実施形態では、ニューラル・ネットワークにより画像中の顔パターンを検出する方法(例えば、参考文献1を参照のこと。)を適用した構成を採用する。
そこで、ニューラル・ネットワークにより画像中の顔パターンを検出する方法について説明する。
まず、顔検出部220は、検出の対象とする画像データをメモリに読み込み、顔と照合する所定の領域を読み込まれた画像中から切り出す。そして、顔検出部220は、切り出した領域の画素値の分布を入力としてニューラル・ネットワークによる演算で一つの出力を得る。このとき、ニューラル・ネットワークの重み及び閾値が、膨大な顔パターンと非顔パターンとにより予め学習されている。例えば、顔検出部220は、ニューラル・ネットワークの出力が0以上なら顔パターン、それ以外は非顔パターンであると判別する。
そして、顔検出部220は、ニューラル・ネットワークの入力である顔と照合する画像パターンとの切り出し位置を、例えば、図4に示すように画像全域から縦横順次に走査していくことにより、画像中から顔パターンを検出する。また、本実施形態では、様々な大きさの顔パターンの検出に対応するため、顔検出部220は、図4に示すように読み込んだ画像を所定の割合で順次縮小し、それに対して前述した顔検出の走査を行う構成を採用している。
参考文献1:Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998
なお、画像中から顔パターンを検出する方法は、ニューラル・ネットワークによる方法に限られるものではなく、各種の方式が適用可能であり、他の方法を採用してもよい(例えば、参考文献2参照のこと。)。
参考文献2:Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002
続いて、生成手段の一例である顔追跡部230は、顔検出部220で検出された顔パターンごとに後続するフレーム中から顔パターンを追跡し、追跡した結果を代表パターン抽出部240等に出力する(ステップS300)。
すなわち、顔追跡部230は、所定間隔のフレームで検出された顔パターン(例えば、図3に示す画像パターンB)の夫々について後続するフレームで追跡を行う。追跡した結果、顔追跡部230は、顔画像を抽出したフレームの番号、そのフレームにおける顔画像が切り出された領域の情報等の付帯情報を取得する。更には、顔追跡部230は、時間的に連続した顔画像の集まりを顔シーケンス(例えば、図3に示すシーケンスC)として生成する。換言すると、顔追跡部230は、被写体画像を被写体パターンごとに一連のフレームについて寄せ集めたシーケンスを生成する。
ここで、図5を参照して、顔シーケンスが生成される構成について説明する。図5は、顔シーケンスを生成する処理に係るフローチャートの一例を示す図である。
まず、顔追跡部230は、顔パターンに対応する顔画像が切り出された領域の情報をもとに、後続のフレームにおいて顔パターンの探索を行う探索領域を設定する(ステップS301)。顔検出部220において顔パターンを検出したフレームの次のフレームから探索を行う場合には、顔パターンを検出した領域に対して水平位置、垂直位置について所定量だけその中心位置をずらした近傍の矩形領域を顔パターンの探索領域として設定する。なお、さらに次のフレームについて探索を行う場合には、顔追跡部230は、追跡結果に基づいて、すなわち後述の処理において追跡した顔パターンの顔画像が切り出された領域を利用して、同様に新たな探索領域を設定する。
続いて、顔追跡部230は、探索領域内で切り出された領域における画像と探索する顔パターンに対応する顔画像との相関をもとに顔パターンによる追跡を行う(ステップS302)。すなわち、顔追跡部230は、探索領域として設定された中心位置を中心として探索する顔パターンと同じ大きさの矩形領域を順次切出し、切り出した領域における画像と探索する顔パターンに対応する顔画像との輝度分布をテンプレートとした相関値を算出する。相関値は、2つのパターンの関係の程度を量的に表現した値をいう。そして、顔追跡部230は、探索領域内において相関値が最も高い領域を顔パターンの追跡結果として、その相関値とともに出力する。
なお、本実施形態では、顔追跡部230は、顔パターンの追跡のために輝度分布の相関値を用いるものとして説明を行なったが、RGBごとの画素値分布の相関を用いて顔パターンの追跡を行ってもよい。また、顔追跡部230は、領域内での輝度分布やRGB値のヒストグラム等、画像特徴量の相関を用いて顔パターンの追跡を行ってもよい。
続いて、顔追跡部230は、追跡処理で出力された相関値が所定の値以上であるかを判定する(ステップS303)。所定の値以上の場合には、顔追跡部230は、顔検出部220で検出された顔パターンに対応する顔画像と追跡結果に係る顔画像とが類似する確率が高いので正確に追跡できたと判断し、処理をステップS304に移す。他方、顔追跡部230は、所定値以下の場合には、類似する確率が低いので追跡する顔パターンに対応する顔画像がなかったと判断し、追跡処理を終了する。
そして、顔追跡部230は、顔パターンによる追跡に係る処理の対象を後続する次のフレームに移し、ステップS301に処理を移す(ステップS304)。
したがって、顔検出部220で顔パターンが検出されたフレームの次のフレームの直前のフレームまで繰り返し処理が基本的に行われ、検出した顔パターンごとに顔シーケンスを得ることができる。
このように、本実施形態の顔追跡部230では、顔検出部220で検出された顔パターンごとに後続するフレーム中から顔パターンを探索し、追跡する構成を採用している。しかしながら、例えば、顔追跡部230は、この構成に加えて、顔パターンを検出した前のフレームにおいても顔パターンを探索し、追跡する構成を採用してもよい。また、例えば、顔追跡部230は、上述した構成に加えて又は代えて、動画像から動きベクトルを算出し、動きベクトルを手がかりにして顔パターンの追跡を行う構成を採用してもよい。
また、顔追跡部230は、所定の間隔をあけた後のフレームを使って顔パターンの追跡を行ってもよい。この構成によれば、顔の前を何かが横切ること、フラッシュによる影響等によって顔シーケンスが分割され過ぎることを防ぐことができる。
また、顔追跡部230は、時間的(或いは、フレームの位置的)に近隣の二つの顔シーケンスの顔特徴の相関を算出し、相関が高い場合は、シーケンスを統合(1つに結合)してもよい。すなわち、顔追跡部230は、統合する前側のシーケンスの開始から後ろ側のシーケンスの終了時までを統合したシーケンスを新たなシーケンス(映像区間)とし、付帯情報も併せて統合する。顔追跡部230は、代表顔画像として、片方の顔シーケンスのものを用いることができる。
以上の顔シーケンスの統合が全ての前後の顔シーケンスについて順次繰り返し行われ、顔シーケンスが統合される。
ただし、顔シーケンスにより表される映像区間が所定の時間以上離れている組については、顔追跡部230は、顔シーケンスの統合の候補としては用いない。また、映像中に人物が複数登場する場合には、複数の顔シーケンスで映像区間が重なる場合が生じ得る。このような場合には、それぞれの顔シーケンスに対応する人物が別の人物と見なせるので、顔追跡部230は、顔シーケンスの統合の候補としては用いない。
続いて、代表パターン抽出部240は、顔追跡部230の結果をもとに、顔シーケンスを代表する顔画像を抽出する(ステップS400)。すなわち、代表パターン抽出部240は、顔シーケンス内の1つのフレームから顔領域を含む矩形領域を切り出し、顔シーケンス記憶部400に記憶する。代表パターン抽出部240は、切り出す対象とするフレームを、シーケンスの長さを基準としてシーケンスの先頭から所定間隔のフレーム(言い換えるならば所定時間に位置するフレーム)、顔のサイズが最も大きなフレーム等としてもよい。また、代表パターン抽出部240は、切り出す対象とするフレームを、各顔シーケンス内の一部、又は所定の間隔を置いた複数のフレームから顔領域を含む矩形領域を切り出した動画像としてもよい。
また、本実施形態では、生成された顔シーケンス及び代表する顔画像については、インデックスを作成し、検索時に容易にアクセスできる構成を採用する。
続いて、顔シーケンス特徴抽出部300は、顔追跡部230で生成された顔シーケンスをもとに、顔シーケンスの特徴抽出を行う(ステップS500)。
ここで、図6及び図7を参照して、顔シーケンスの特徴抽出について説明する。図6は、顔シーケンスを解析して特徴抽出する処理に係るフローチャートを示す図である。図7は、図6の各ステップに沿って顔シーケンスの特徴抽出を行う際の進捗状況を示す図である。
まず、解析手段の一例である顔状態解析部310は、顔シーケンス中の各顔画像の顔(被写体)の状態を解析し、解析した結果を顔特徴量算出部320に出力する(ステップS501)。顔状態解析部310によれば、顔画像の顔(より広義には、被写体画像の被写体)の状態を解析することで、各顔シーケンス中の顔画像から顔の類似度による判定に有効な顔特徴量を抽出することができる。
顔の類似度による判定をより正確にするためには、顔画像の中に目、口、鼻等の顔の各パーツが存在することが重要である。すなわち、顔が横方向や斜めを向いているものよりも正面を向いているものの方が、目、口、鼻等を正確に識別できるので、顔の特徴を正確に表現しており、顔の類似度による判定に有効である。
したがって、本実施形態では、顔状態解析部310が顔シーケンス中の各顔画像の顔の向きを検出する構成を有する。なお、図7には、顔シーケンスの各顔画像Aに対して顔の向きBが示されている。
他方、例えば、顔状態解析部310は、ニューラル・ネットワークによる顔判別器と同じ構成の複数の顔判別器を有してもよい。ただし、各顔判別器の判別のためのパラメータを顔の向きごとにサンプル学習によりチューニングし、設定しておく。この構成においては、複数の顔判別器のうち、もっとも出力の高い、すなわち尤度の高い顔判別器に対応した顔の向きを顔状態解析部310による解析結果とする。
なお、本実施形態では、顔状態解析部310は、顔の向きを顔の状態の解析に用いる構成を採用しているが、例えば、顔画像から目、口、鼻等のパーツを個別に探索する手段を設けて、夫々の存在の可否を解析する構成を採用してもよい。
また、目が開いている場合は、目が閉じている場合よりも顔の類似度を正確に判定できる。したがって、顔状態解析部310は、上述した構成に加えて又は代えて、目が開いているか、目が閉じているかを判定する手段を設けて、目の開閉の状態を解析する構成を採用してもよい。
また、顔に対する照明状態がよく全体的に肌部分が明るく撮影されている場合には、部分的に陰がある場合よりも顔の類似度を正確に判定できる。したがって、顔状態解析部310は、上述した構成に加えて又は代えて、顔の肌部分の明るさの分布から顔に対する照明の状態を判定する手段を設けて、照明の状態を解析する構成を採用してもよい。
続いて、特徴量算出手段の一例である顔特徴量算出部320は、顔状態解析部310での解析結果に基づいて顔の類似度による判定に有効な顔画像について顔特徴量を算出する(ステップS502)。
すなわち、顔特徴量算出部320は、解析結果から顔の類似度による判定に有効な顔画像のみに対して顔特徴量を算出する。例えば、顔特徴量算出部320は、予め定められた状態にある正面の顔画像のみに絞り込んで顔特徴量を算出する。
より具体的に説明すると、顔特徴量算出部320は、絞り込んだ顔画像から顔の判定に有効な顔特徴点の探索を行う。例えば、顔特徴量算出部320は、顔の特徴点として、目尻、口の両端、鼻の頂点等をパターン照合に基づき抽出する。そして、顔特徴量算出部320は、各特徴点において局所輝度分布をガボールウェーブレット変換により顔特徴量として抽出し、ベクトル化する。すなわち、図7で示すように正面の顔画像に対して顔の特徴ベクトルC(顔特徴量)が夫々算出される。
ここで、顔特徴量を算出する方法については、公知の方法を採用する(例えば、参考文献3を参照のこと。)。なお、顔特徴量を算出する方法については、参考文献3に記載の方法に限定されるものではなく、ローカル記述子を各特徴点で算出する方法(例えば、参考文献4参照のこと。)を採用してもよいし、顔画像の輝度分布のヒストグラム等を用いた単純な方法を採用してもよい。
参考文献3:Wiskott et al, "Face Recognition by Elastic Bunch Graph Matching", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.19 , NO.7, JULY 1997
参考文献4:Schmid and Mohr, "Local Greyvalue Invariants for Image Retrieval", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.19 , NO.5, MAY 1997
続いて、顔特徴量算出部320は、顔シーケンスを代表する代表顔特徴量を抽出するために、算出した各顔特徴量をクラスタリングしてクラスタを複数作成する(ステップS503)。
例えば、顔特徴量算出部320は、クラスタリングに、顔シーケンスから算出された複数の顔特徴ベクトル(顔特徴量)を入力として所定のクラスタ数においてK平均法(K-means法)を適用する。
続いて、代表特徴量抽出手段の一例である顔特徴量算出部320は、クラスタリングの結果に基づいて、顔シーケンスの顔特徴を最も良く表す顔特徴量を代表顔特徴量として抽出する(ステップS504)。
すなわち、顔特徴量算出部320は、顔特徴ベクトルが相対的に多く含まれるクラスタ(例えば、最も顔特徴ベクトルのサンプル数が多いクラスタ)を主クラスタとし、主クラスタ内の顔特徴ベクトルの平均ベクトルを算出して、代表顔特徴量とする。
例えば、図8で示すように、複数の顔特徴ベクトルBに基づいて主クラスタが決定され、主クラスタ内の顔特徴ベクトルの平均ベクトル(代表顔特徴量C)が得られる。ここで、代表顔特徴量として主クラスタの平均ベクトルを抽出するようにすると、顔特徴量を任意に一つサンプリングする場合に比べて、各顔画像に個別に含まれるノイズの影響に強い顔特徴量を抽出できる効果がある。
続いて、顔特徴量算出部320は、算出された顔特徴量及び抽出された代表顔特徴量を顔シーケンス記憶部400に記憶する(ステップS600)。このとき、抽出された代表顔特徴量については、代表パターン抽出部240で抽出された顔画像と整合を取ったインデックスが作成される構成を採用する。この構成によれば、検索時には、代表パターン抽出部240で抽出された顔画像及び代表顔特徴量に容易にアクセスすることができる。
続いて、クエリ入力部510は、顔シーケンスを探すための検索条件の入力を受け付ける(ステップS700)。より具体的には、クエリ入力部510は、顔画像の少なくとも1つが関連付けられた顔シーケンス(すなわち、検索条件)のユーザーによる指定を受け付ける。
ここで、図9を参照して、検索条件の入力について説明する。図9は、検索条件(クエリ)を入力するためのユーザーインターフェースの表示例を示す図である。
図9には、顔シーケンス記憶部400で記憶されている顔シーケンスを映像のタイトルごとにグルーピングして、各顔シーケンスの代表顔画像が入力ダイアログウインドウ800に一覧表示される例が示されている。このとき、顔シーケンスが映像中に占める映像区間等を示してもよい。ユーザーは、この一覧表示からクエリとなる顔シーケンスを1つ選ぶことになる。
図9において、タイトル801は、映像のタイトルを示す情報である。タイトルが無い場合には、撮影時刻や録画時刻等を表示する。代表顔画像802は、顔シーケンスの代表顔画像である。選択領域803は、マウスカーソル804により代表顔画像が選択された状態を示す。なお、ユーザーは、マウスカーソル804を代表顔画像802の上でクリックすることによって、代表顔画像802を選択した状態にすることができる。ただし、本実施形態では、選択した状態にできる代表顔画像は1つであり、新たな選択を行うと、それまで選択した状態だった代表顔画像は非選択の状態になる。
スライダー805は、縦エレベーターである。ユーザーは、マウスカーソル804をスライダー805の上でドラッグして縦方向に画面をスクロールさせることで、1画面で表示しきれない代表顔画像を表示することができる。
検索実行ボタン806は、顔シーケンスの検索を実行するためのボタンである。
なお、クエリによる検索の結果としては、顔シーケンスに限られるものではなく、顔画像を検索の結果としてもよい。この場合は、顔検出部220によって顔領域が検出され、検出された顔領域において顔特徴量算出部320によって特徴量が算出され、ベクトル化されることで、検索対象の代表顔画像との類似度を算出することができる。
また、顔シーケンス、顔シーケンスが属する映像のタイトル、映像のキーワード、記録日時等、他の付帯情報と組み合わせてクエリを設定し、類似度判定部520が類似度判定を行う顔シーケンスを絞り込んでもよい。
続いて、算出手段の一例である類似度判定部520は、クエリの対象となる顔シーケンスと、顔シーケンス記憶部400により記憶されている各顔シーケンスとの類似度を算出する。すなわち、類似度判定部520は、ユーザーにより指定された顔シーケンスに関連付けられた顔画像と、生成された顔シーケンスを構成する顔画像との類似度を算出する。他方、抽出手段の一例である類似度判定部520は、類似度が基準を満たす(換言するならば、所定の閾値よりも類似度が高い)顔画像が含まれる顔シーケンスに係る情報を抽出し、抽出した情報を表示部530に出力する(ステップS800)。なお、シーケンスを抽出する処理は、類似度判定部520により行われる構成に限られるものではなく、新たな抽出部を設けて行われてもよい。ここで、図10には、類似度判定部520における処理の概要が示されている。
本実施形態では、顔シーケンス間の類似度については、各顔シーケンスの複数の顔特徴量間での類似度が最大のものを用いる。ただし、類似度が最大となるものを用いる構成に限られるものではなく、類似度の平均値を用いてもよい。すなわち、類似度判定部520は、ステップS502で算出された顔特徴量と各顔シーケンス(検索条件)に関連付けられた顔画像の顔特徴量との相関に基づいて類似度を算出する。なお、顔特徴量間での類似度は、顔特徴ベクトル同士のユークリッド距離の逆数を用いる。
また、本実施形態では、顔シーケンス間の類似度を、クエリを設定した後に計算しているが、予め顔シーケンス間の類似度を算出して相関の高い顔シーケンスを記憶しておき、クエリが設定されたとき、又は検索が実行されたときに、これを利用してもよい。
なお、顔シーケンス間の類似度の算出については、各顔シーケンスの複数の顔特徴量を用いる構成に加えて又は代えて、顔シーケンスの代表顔特徴量を用いる構成を採用してもよい。例えば、類似度判定部520は、クエリの対象となる顔シーケンスの各顔特徴量と、顔シーケンス記憶部400により記憶されている各顔シーケンスの代表顔特徴量との類似度が最大のものを類似度として用いる。すなわち、類似度判定部520は、ステップS504で抽出された代表顔特徴量と各顔シーケンス(検索条件)に関連付けられた顔画像の顔特徴量との相関に基づいて類似度を算出する。
これらを踏まえると、類似度判定部520は、ユーザーにより指定された顔シーケンスに関連付けられた顔画像が含まれる顔シーケンスを検索する検索手段の一例である。
続いて、出力手段の一例である表示部530は、類似度判定部520の結果を整理して表示装置4に表示する(ステップS900)。例えば、表示部530は、抽出した顔シーケンスの付帯情報(フレームの情報)に基づいて顔シーケンスに対応する映像区間(映像区間情報)等を表示する。
また、表示装置4で表示される内容は、映像区間と対応付けがされた顔シーケンス記憶部400で記憶された代表顔画像(顔シーケンスを構成する顔画像のうちの一の顔画像)等である。ここで、顔シーケンスに係る表示の例を図11及び図12に示す。
図11において、表示部530は、映像中の各顔シーケンスに対応する映像区間Cを顔シーケンス記憶部400で記憶された代表顔画像Dと共に表示装置4に表示する。動画像データAでは、所定時間間隔でフレームのサムネールBが表示されている。また、映像区間Cは、顔シーケンスの解析結果に基づく映像区間の表示の例である。表示部530が映像区間Cを表示することによりユーザーは、映像中の人物の出現区間が把握できるようになる。また、代表顔画像Dは、代表顔画像である。表示部530が代表顔画像を表示することにより、ユーザーは、映像区間Cを代表する顔を確認できる。
他方、図12において、表示部530は、検索結果ウインドウ900を表示装置4に表示する。タイトル901は、映像のタイトルを示す情報である。タイトルが無い場合には、表示部530は、撮影時刻、録画時刻等を表示する。バー902は、映像の時間全体を表すバーである。映像区間903は、映像において顔シーケンスが占める映像区間を示す。表示部530がバー902及び映像区間903を表示することにより、ユーザーは、映像中の人物の出現区間を把握できるようになる。代表顔画像904は、代表顔画像である。表示部530が代表顔画像を表示することにより、ユーザーは、映像区間を代表する顔を確認できる。なお、代表顔画像904は、映像区間903との関連が認識できるように所定の範囲内(例えば、映像区間903とは異なる他の映像区間の中心からの距離よりも映像区間903の中心からの距離の方が近い位置)に設けられることが好適である。
なお、以上の実施形態では、画像検索装置は、被写体パターンとして人物の顔を検出し、顔シーケンスを生成する構成を採用したが、映像の内容が把握できるその他の被写体のパターンを生成する構成を採用してもよい。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
上述した実施形態の構成によれば、映像中から精度良く所定の被写体が映っている映像区間を単位とする検索ができるので、映像の検索、映像の編集の効率が向上する。また、同一人物の複数の画像情報を使って照合を行うので精度が向上する。
また、上述した各実施形態によれば、映像中から顔を検出し、複数のフレームに渡って検出した顔画像を1つの顔シーケンスとし、顔シーケンスを単位とする検索ができるので、映像の検索、映像の編集の効率が向上する。また、同一人物の複数の画像情報を使って類似度による判定を行うので精度が向上する。
また、上述した実施形態によれば、多くの映像区間から精度良く所定の被写体が映っている映像区間単位での検索ができるようになる。このため、映像検索の効率が向上する。また、単位映像区間中の被写体の画像情報のうち、良好なものを抽出し映像区間検索の対象として使って照合を行うので、被写体の映った映像区間での人物判定の精度をより向上することができる。
また、上述した実施形態によれば、単位映像区間中の被写体の画像情報のうち、ぞれぞれのシーケンスを代表する特徴量でシーケンスの類似度を照合する場合、被写体の映った映像区間での人物判定をより安定して行うことができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 映像入力部、200 顔シーケンス生成部、300 顔シーケンス特徴抽出部、400 顔シーケンス記憶部、500 顔シーケンス検索部

Claims (9)

  1. 複数のフレームを有する動画像より複数の被写体パターンを検出する検出手段と、
    前記複数の被写体パターンの各々に対応する前記動画像における被写体画像を、前記被写体パターンごとに一連のフレームについて集めたシーケンスを生成する生成手段と、
    前記被写体画像の少なくとも1つが関連付けられた検索条件に基づいて、前記検索条件に関連付けられた被写体画像が含まれるシーケンスを検索する検索手段と、
    を備える、画像検索装置。
  2. 前記検索条件に関連付けられた被写体画像と、前記生成手段で生成されたシーケンスを構成する被写体画像との類似度を算出する算出手段と、
    前記検索手段で検索されたシーケンスのうちから前記算出手段で算出された類似度に応じてシーケンスを抽出する抽出手段と、
    前記抽出手段で抽出されたシーケンスに対応する映像区間情報を出力する出力手段と、
    を更に備える、請求項1記載の画像検索装置。
  3. 前記抽出手段は、前記検索手段で検索されたシーケンスのうちから前記算出手段で算出された類似度が基準を満たす被写体画像が含まれるシーケンスを抽出し、
    前記出力手段は、前記シーケンスに係るフレームの情報に基づいて前記検索条件に関連付けられた被写体画像の被写体が映っている映像区間を表す映像区間情報を出力する、請求項2記載の画像検索装置。
  4. 前記出力手段は、出力する映像区間情報に対応するシーケンスを構成する被写体画像のうちの一の被写体画像を前記映像区間情報と共に出力する、請求項2又は3記載の画像検索装置。
  5. 前記生成手段で生成されたシーケンスを構成する被写体画像の被写体の状態を解析する解析手段と、
    前記解析手段で解析された状態が予め定められた状態にある被写体の被写体画像の特徴量を算出する特徴量算出手段と、
    を更に備え、
    前記算出手段は、前記特徴量算出手段で算出された特徴量と前記検索条件に関連付けられた被写体画像の特徴量との相関に基づいて類似度を算出する、請求項2乃至4の何れか1項記載の画像検索装置。
  6. 前記生成手段で生成されたシーケンスを構成する被写体画像の特徴量に基づいて、前記シーケンスを代表する代表特徴量を抽出する代表特徴量抽出手段を更に備え、
    前記算出手段は、前記代表特徴量抽出手段で抽出された代表特徴量と前記検索条件に関連付けられた被写体画像の特徴量との相関に基づいて類似度を算出する、請求項2乃至4の何れか1項記載の画像検索装置。
  7. 前記代表特徴量抽出手段は、前記生成手段で生成されたシーケンスを構成する被写体画像の特徴量をクラスタリングしてクラスタを複数作成し、前記特徴量が相対的に多く含まれるクラスタに基づいて、前記シーケンスを代表する代表特徴量を抽出する、請求項6記載の画像検索装置。
  8. 複数のフレームを有する動画像より複数の被写体パターンを検出する検出ステップと、
    前記複数の被写体パターンの各々に対応する前記動画像における被写体画像を、前記被写体パターンごとに一連のフレームについて集めたシーケンスを生成する生成ステップと、
    前記被写体画像の少なくとも1つが関連付けられた検索条件に基づいて、前記検索条件に関連付けられた被写体画像が含まれるシーケンスを検索する検索ステップと、
    を備える、画像検索方法。
  9. 複数のフレームを有する動画像より複数の被写体パターンを検出する検出ステップと、
    前記複数の被写体パターンの各々に対応する前記動画像における被写体画像を、前記被写体パターンごとに一連のフレームについて集めたシーケンスを生成する生成ステップと、
    前記被写体画像の少なくとも1つが関連付けられた検索条件に基づいて、前記検索条件に関連付けられた被写体画像が含まれるシーケンスを検索する検索ステップと、
    をコンピュータに実行させるプログラム。
JP2009202800A 2009-09-02 2009-09-02 画像検索装置及び画像検索方法 Active JP5538781B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009202800A JP5538781B2 (ja) 2009-09-02 2009-09-02 画像検索装置及び画像検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009202800A JP5538781B2 (ja) 2009-09-02 2009-09-02 画像検索装置及び画像検索方法

Publications (2)

Publication Number Publication Date
JP2011053952A true JP2011053952A (ja) 2011-03-17
JP5538781B2 JP5538781B2 (ja) 2014-07-02

Family

ID=43942882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009202800A Active JP5538781B2 (ja) 2009-09-02 2009-09-02 画像検索装置及び画像検索方法

Country Status (1)

Country Link
JP (1) JP5538781B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071830A (ja) * 2014-09-26 2016-05-09 日本電気株式会社 物体追跡装置、物体追跡システム、物体追跡方法、表示制御装置、物体検出装置、プログラムおよび記録媒体
KR20160060803A (ko) * 2014-11-20 2016-05-31 소프트온넷(주) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
US10664705B2 (en) 2014-09-26 2020-05-26 Nec Corporation Object tracking apparatus, object tracking system, object tracking method, display control device, object detection device, and computer-readable medium
JP2021534497A (ja) * 2018-09-26 2021-12-09 ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン) 個人識別方法、コンピュータ可読記憶媒体、端末デバイスおよび装置
WO2022180766A1 (ja) * 2021-02-26 2022-09-01 日本電気株式会社 映像データ処理装置、方法及び非一時的なコンピュータ可読媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001118075A (ja) * 1999-07-09 2001-04-27 Toshiba Corp 物体領域情報記述方法及び物体領域情報生成装置並びに映像情報処理方法及び情報処理装置
WO2006013765A1 (ja) * 2004-08-03 2006-02-09 Matsushita Electric Industrial Co., Ltd. 人物判定装置及び人物検索追跡装置
WO2006025272A1 (ja) * 2004-09-01 2006-03-09 Nec Corporation 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
JP2006217046A (ja) * 2005-02-01 2006-08-17 Olympus Corp 映像インデックス画像生成装置及び映像のインデックス画像を生成するプログラム
JP2009123095A (ja) * 2007-11-16 2009-06-04 Oki Electric Ind Co Ltd 映像解析装置及び映像解析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001118075A (ja) * 1999-07-09 2001-04-27 Toshiba Corp 物体領域情報記述方法及び物体領域情報生成装置並びに映像情報処理方法及び情報処理装置
WO2006013765A1 (ja) * 2004-08-03 2006-02-09 Matsushita Electric Industrial Co., Ltd. 人物判定装置及び人物検索追跡装置
WO2006025272A1 (ja) * 2004-09-01 2006-03-09 Nec Corporation 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
JP2006217046A (ja) * 2005-02-01 2006-08-17 Olympus Corp 映像インデックス画像生成装置及び映像のインデックス画像を生成するプログラム
JP2009123095A (ja) * 2007-11-16 2009-06-04 Oki Electric Ind Co Ltd 映像解析装置及び映像解析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200701295003; 帆足 啓一郎、外3名: 'フレームクラスタリングを利用したCGM動画像コンテンツ検索手法の提案' 電子情報通信学会技術研究報告 第107巻,第281号, 20071018, p.87-92, 社団法人電子情報通信学会 *
JPN6013040550; 帆足 啓一郎、外3名: 'フレームクラスタリングを利用したCGM動画像コンテンツ検索手法の提案' 電子情報通信学会技術研究報告 第107巻,第281号, 20071018, p.87-92, 社団法人電子情報通信学会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071830A (ja) * 2014-09-26 2016-05-09 日本電気株式会社 物体追跡装置、物体追跡システム、物体追跡方法、表示制御装置、物体検出装置、プログラムおよび記録媒体
US10664705B2 (en) 2014-09-26 2020-05-26 Nec Corporation Object tracking apparatus, object tracking system, object tracking method, display control device, object detection device, and computer-readable medium
US11113538B2 (en) 2014-09-26 2021-09-07 Nec Corporation Object tracking apparatus, object tracking system, object tracking method, display control device, object detection device, and computer-readable medium
US11676388B2 (en) 2014-09-26 2023-06-13 Nec Corporation Object tracking apparatus, object tracking system, object tracking method, display control device, object detection device, and computer-readable medium
KR20160060803A (ko) * 2014-11-20 2016-05-31 소프트온넷(주) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
KR101640317B1 (ko) * 2014-11-20 2016-07-19 소프트온넷(주) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
JP2021534497A (ja) * 2018-09-26 2021-12-09 ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン) 個人識別方法、コンピュータ可読記憶媒体、端末デバイスおよび装置
JP7105988B2 (ja) 2018-09-26 2022-07-25 ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン) 個人識別方法、コンピュータ可読記憶媒体、端末デバイスおよび装置
WO2022180766A1 (ja) * 2021-02-26 2022-09-01 日本電気株式会社 映像データ処理装置、方法及び非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
JP5538781B2 (ja) 2014-07-02

Similar Documents

Publication Publication Date Title
JP7317919B2 (ja) 外観検索のシステムおよび方法
JP6204199B2 (ja) 画像品質の評価
JP5106271B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP5202148B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP6532190B2 (ja) 画像検索装置、画像検索方法
JP2004199669A (ja) 顔検出
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
JP2007272897A (ja) 文脈支援型人間識別のためのデジタル画像処理方法および装置
JP2004192637A (ja) 顔検出
US20100118205A1 (en) Information processing apparatus and method of controlling same
Liu et al. Micro-expression recognition using advanced genetic algorithm
JP5538781B2 (ja) 画像検索装置及び画像検索方法
Bekhet et al. Gender recognition from unconstrained selfie images: a convolutional neural network approach
e Souza et al. Survey on visual rhythms: A spatio-temporal representation for video sequences
Duan et al. Local feature learning for face recognition under varying poses
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
Rind et al. Identification of Human & various objects through Image Processing based system
Moskvin et al. Using principles of fractal image compression for complexity estimation of the face recognition problem
Hipparagi et al. Artist Based Video Recommendation System using Machine Learning
CN116645634A (zh) 一种基于视频实例分割的步态识别方法及装置
CN116740737A (zh) 手势识别方法、装置、设备及存储介质
JP2010041247A (ja) 画像処理装置、方法及びプログラム
Desa et al. Edge analysis for face detection algorithm.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R151 Written notification of patent or utility model registration

Ref document number: 5538781

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140430