JP2013140475A

JP2013140475A - 映像検索装置

Info

Publication number: JP2013140475A
Application number: JP2012000078A
Authority: JP
Inventors: Yasushi Kage; 裕史鹿毛
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-01-04
Filing date: 2012-01-04
Publication date: 2013-07-18

Abstract

【課題】画像データベース装置のクラスタリング結果に基づき人物の顔画像検索を行う際、検索対象画像に隠蔽部分が含まれていると検索に失敗し、また同一人物顔でも異なるクラスタに分類されることにより画像データベース装置に含まれる同一人物の顔画像を全部網羅できないという問題があった。
【解決手段】映像サーバ装置１中の顔画像が保存される内部画像データベース装置５に対し画像クラスタリング装置６によりクラスタリングを行い、各クラスタの代表画像に連想記憶学習を適用した結果を想起回路９として保有する。さらに、映像サーバ装置１に含まれる登場人物の付属情報と外部画像データベース装置１１を利用した連想記憶学習の結果として得られる画像クラスタリング装置６内部の想起回路９により、内部画像データベース装置５の各クラスタの代表顔画像が互いに同一人物であるかどうかを判定する。
【選択図】図５

Description

本発明は、ある人物の顔画像などの検索対象画像が検索キーとして入力されたとき、当該検索対象画像がテレビ番組などの特定の映像コンテンツの画像内に登場するシーンを検索して抽出する映像検索装置に関する。

従来の映像検索装置には、動画ファイルなどの映像コンテンツから登場人物のデータベースを生成するものや、ある人物の顔画像を検索キーとして用いて映像コンテンツに含まれる当該人物を検索するものがある。例えば特許文献１の発明では、顔特徴量算出部により顔特徴量などを算出し、ノイズ顔除去部により横顔やぼけた顔画像を除去し、同一顔結合処理部により同一人物の顔画像を結合する処理を行い、顔クラスタリング処理部により同一人物の顔画像が１つのクラスタになるようにクラスタリング処理を行って、動画ファイルから登場人物データを得ている（例えば、特許文献１の１４頁５行〜１６頁１５行、図４、図５を参照）。

特開２０１０−３０２１号公報

P. Viola and M. Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features2, IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Vol.1, pp.511-518, 2001. D. Valentin and H. Abdi, "Can a linear autoassociator recognize faces from new orientations?", Journal of Optical Society of America A, Vol.13, pp.717-724, 1996. A. K. Jain and R. C. Dubes, "Algorithms for Clustering Data", Prentice Hall, Englewood Cliffs, New Jersey, 1988. J. Laaksonen et al., "PicSOM ― content-based image retrieval with self-organizing maps", Pattern Recognition Letters, vol.21, pp.1199-1207, 2000.

従来の映像検索装置では、映像コンテンツから生成された登場人物のデータベースにおいてある人物の顔画像を検索キーとして用いて当該人物を検索するとき、検索キーの顔画像に隠蔽部分（サングラス、マスク、など）が存在するとうまく検索することができない。

また、映像コンテンツから登場人物のデータベースを生成するとき、映像コンテンツに含まれる人物の顔画像に隠蔽部分が存在すると、同じ人物をデータベースの同じクラスタに分類できない可能性がある。このようなデータベースにおいてある人物を検索しても、１つのクラスタに含まれる画像のみが検索結果として得られるので、当該人物を含むすべての画像を網羅した検索結果を取得できない可能性がある。

本発明の目的は、上記問題点を解決し、検索対象画像に隠蔽部分が存在していても当該検索対象画像が映像コンテンツの画像内に登場するシーンを検索できる映像検索装置を提供することにある。

本発明の目的はさらに、上記映像検索装置において映像コンテンツから画像データベースを生成するとき、映像コンテンツに含まれる画像に隠蔽部分が存在していても、同じ画像を同じクラスタに分類することにある。

本発明の態様に係る映像検索装置によれば、
第１の映像コンテンツを蓄積した映像サーバ装置と、
上記第１の映像コンテンツの画像を、互いに類似した画像をそれぞれ含む複数のクラスタに分類する画像クラスタリング手段と、
上記複数のクラスタに分類された第１の映像コンテンツの画像を格納する第１の画像データベース装置と、
上記第１の画像データベース装置に格納された画像の各クラスタの代表画像を学習し、画像が入力されたとき当該画像の想起画像を出力する想起回路と、
入力された検索対象画像を上記第１の画像データベース装置において検索する対象検索手段であって、上記検索対象画像に隠蔽部分が存在するとき、上記検索対象画像を上記想起回路に入力して上記想起回路から出力された上記検索対象画像の想起画像を取得し、上記検索対象画像に代えて上記検索対象画像の想起画像を上記第１の画像データベース装置において検索する対象検索手段とを備えたことを特徴とする。

本発明の映像検索装置は想起回路を含むので、検索対象画像である顔画像に隠蔽を含む場合、従来手法なら単純に検索失敗していたところ、連想記憶を利用して隠蔽のない元の顔画像を復元することができ、第１の画像データベース装置に蓄えられた顔画像を検索することができる。

また、画像に人物名等のメタ情報が付与されている場合、それを手がかりに第１の画像データベース装置の内容を照合し、マッチした異なるクラスタを同一人物の顔画像のクラスタとして統合することができることになる。

本発明の実施の形態１に係る映像検索装置を示すブロック図である。図１の映像検索装置において使用する階層的クラスタリングのデータ間距離を表す樹形図である。図１の映像検索装置において使用するＳＯＭクラスタリングの４分木構造を表す図である。図１の画像クラスタリング装置６、対象検索装置７、及び表示及び入力装置８の動作を示すフローチャートである。本発明の実施の形態２に係る映像検索装置を示すブロック図である。図５の画像クラスタリング装置１０の動作を示す図である。図５の画像クラスタリング装置１０、外部画像データベース装置１１、及び映像付属情報取得装置１２の動作を示すフローチャートである。

本明細書では、検索対象画像を人間の顔画像として説明する。ただし、本発明の実施の形態は人間の顔画像に限定されるものではない。

実施の形態１．
図１は、本発明の実施の形態１に係る映像検索装置を示すブロック図である。映像サーバ装置１は、デジタルＴＶの録画データやＤＶＤなどの形式で取得できる特定の映像コンテンツを保存する。映像サーバ装置１においては、異なる映像コンテンツが動画像ファイルとして個々に保存されている。いかなる動画像も静止画像の時系列シーケンスとみなすことができる。従って、動画像の中に人物が登場する場合にその人物の登場シーンと顔領域を検出するために、動画像全体から時系列順に静止画像を抽出し、抽出された静止画像に時刻情報を対応付けて画像記憶装置３に保存し、保存された静止画像に対して対象検出装置４により顔検出処理を行って、顔のみを含む検出領域を部分画像として構成し、内部画像データベース装置５に保存する。その結果、内部画像データベース装置５には大量の顔画像が蓄積される。画像クラスタリング装置６は、内部画像データベース装置５に蓄積された顔画像に対して、統計学や画像認識の分野で多用されるクラスタリング処理を適用することで、類似した顔画像毎にグループ化（クラスタ化）を行う。その結果、内部画像データベース装置５に保存されている任意の顔画像間には、類似性を定量化した距離が定義される。このため、図１の映像検索措置は、画像クラスタリング装置６に保存されている任意の画像間の距離情報を参照することで類似画像を検索しやすい構成となっている。

次に、検索対象の人物Ａの顔を含み、顔に隠蔽部分がない画像を検索キーとして、上記映像コンテンツ中で人物Ａが登場するシーン（登場時刻あるいはその静止画像）を抽出する場合について説明する。まず人物Ａの顔を含む検索対象画像を画像入力装置２経由で画像記憶装置３に取り込み、対象検出装置４によって顔領域のみを切り出した画像Ｉｃを生成して対象検索装置７に送る。この対象検出装置４によって画像から顔領域を切り出す方法については、画像認識の分野で頻繁に用いられる非特許文献１に記載されたＶｉｏｌａ及びＪｏｎｅｓによる顔検出手法があり、この手法を用いればリアルタイムに１つの画像から人物の顔領域を切り出すことができる。

次に、対象検索装置７は、まず内部画像データベース装置５に保存されている全ての画像の中から画像Ｉｃと最も類似性の高い画像Ｉ_０を抽出した後、画像クラスタリング装置６に保存されている内部画像データベース装置５中の任意の画像間の距離情報を参照することにより、画像Ｉ_０に類似した画像Ｉ_１，Ｉ_２，…，Ｉ_Ｎを抽出する。これらの抽出された画像Ｉ_０，Ｉ_１，Ｉ_２，…，Ｉ_Ｎを、表示及び入力装置８に検索結果として表示する。表示及び入力装置８は、表示装置（ＴＶ、液晶モニタ、など）と、そのリモートコントローラ等とを含む。表示及び入力装置８に複数の検索結果が表示された場合には、表示及び入力装置８（リモートコントローラ）を用いてそのいずれかを選択するように制御してもよい。

また、別の検索ケースとして、上記映像コンテンツ中には含まれない顔画像であって、サングラスあるいはマスク等で人物Ａの顔が部分的に隠蔽された顔画像を検索キーとして顔画像検索を行う場合について説明する。顔に隠蔽部分がない場合と同様、検索対象画像は画像記憶装置３を経由して対象検出装置４に入力され、顔領域を切り出した部分画像Ｐとして対象検索装置７に送られる。対象検索装置７においては、画像Ｐに対して顔画像内部の画素値の均一性チェックあるいは顔パーツ（目、鼻、口、など）検出処理を行うことにより画像Ｐに隠蔽部分があるかどうかを判定し、隠蔽部分ありと判定された場合は、画像Ｐを画像クラスタリング装置６の内部にある想起回路９に入力することにより画像Ｐから隠蔽部分のない想起画像Ｐ’を生成させ、内部画像データベース装置５中の顔画像から想起画像Ｐ’に類似した画像を抽出して、抽出された検索結果を表示及び入力装置８に表示する。

ここで、想起回路９の役割について説明する。それは、検索対象画像として与える顔画像がサングラスやマスク等を含む場合に、その隠蔽された顔領域を補填する役割を果たすということである。関連技術としては、非特許文献２に記載された自己連想記憶というニューラルネットワークの学習手法がある。自己連想記憶では、あらかじめ異なる何人かの顔画像を学習させ、入力パターンである個々の顔画像に対し、出力が入力パターンに用いた学習画像と同じパターンになるようにネットワークに学習させるものであり、これは自己想起学習と呼ばれる。学習が完了した後、そのネットワークを用いることにより、学習に用いた画像と一部が異なる顔画像を入力すれば、その異なる部分を補填する形で元の顔画像を出力パターンとして得ることができる。つまり、本実施の形態によれば、内部画像データベース装置５にある特定の人物の隠蔽部分のない顔画像のみが保存されている場合に、検索対象画像が同じ人物の顔画像でありかつ隠蔽部分（サングラス、マスク、など）を有していても、想起回路９を用いることによりその人物の顔画像を検索できるようになる。

次に、上述の想起回路９に対して自己想起学習を適用するためには、内部画像データベース装置５に保存され、クラスタリング処理によりグループ分けされている顔画像から各グループの代表画像を構築する必要がある。非特許文献３によれば、クラスタリング処理は階層的手法と分離的手法に分かれるが、前者は後者に比べクラスタ間の構造が可視化しやすいので、本明細書では階層的クラスタリング手法について説明する。

図２は、図１の映像検索装置において使用する階層的クラスタリングのデータ間距離を表す樹形図である。簡単化のため５つの画像Ｉ_１〜Ｉ_５のみがあるとき、これらの画像に対して階層型クラスタリングを適用すると、クラスタリング結果は、例えば図２に示すように縦方向が各画像間の距離を示す樹形図になる。このクラスタリング結果を用いてグループ分けを行う場合、しきい値の取り方によってグループの個数が異なる。例えば図２でしきい値を（ａ）に設定すればグループ分けの個数は２個になり、さらに（ｂ）、（ｃ）、（ｄ）の場合はそれぞれ３個、４個、５個になる。例えばグループの個数を２個と仮定すると、代表画像は、画像Ｉ_１、Ｉ_２、Ｉ_３の平均画像と、画像Ｉ_４、Ｉ_５の平均画像とで構築すればよい。

図３は、図１の映像検索装置において使用するＳＯＭクラスタリングの４分木構造を表す図である。ニューラルネットワーク研究の分野で知られる別のクラスタリング手法として自己組織化（ＳＯＭ）アルゴリズムがあり、特に映像検索の分野で用いられる手法として非特許文献４に記された木構造ＳＯＭがある。これによれば、クラスタリングの結果得られる樹形図が４分木構造で表現される。詳しくは、クラスタリングの結果、図３に示すように最上階層に１個のノードが存在し、以降各階層のノードが４分木構造からなり、各ノードには、その下にぶらさがる画像のグループの平均画像を表す情報が付随している。この樹形図に従えば、まず最上位のノードにぶらさがる４つのノード（図３のＮ_１１、Ｎ_１２、Ｎ_１３、Ｎ_１４）が対応付けられている画像を代表画像とし、それらを学習した想起回路９に対して検索対象画像を入力するとノードＮ_１１、Ｎ_１２、Ｎ_１３、Ｎ_１４の画像のうちのいずれかが類似した画像として得られるので、仮にそれをＮ_１１として、それにぶらさがる４つのノードを代表画像として想起学習させ、順次同じ手続きを繰り返していけばよい。

図４は、図１の画像クラスタリング装置６、対象検索装置７、及び表示及び入力装置８の動作（対象検索処理）を示すフローチャートである。まず、ステップＳ１において、対象検索装置７は、対象検出装置４によって切り出された検索対象画像（顔画像）にサングラスやマスクその他の付帯物による隠蔽部分があるかどうかをチェックする。ステップＳ１の結果がＹｅｓの場合はステップＳ２に進み、Ｎｏの場合はステップＳ４に進む。対象検索装置７は、ステップＳ２において、検索対象画像を想起回路９に入力し、ステップＳ３において、想起回路９から出力された想起画像を取得する。ステップＳ４において、対象検索装置７は、抽出する検索結果の個数の上限を「Ｎ」に設定する。対象検索装置７はさらに、画像クラスタリング装置６の内部で保有している内部画像データベース装置５のクラスタリング結果としての各画像データ間の階層構造を図２又は図３のように木構造で表し、画像検索範囲を木構造の枝分かれに対応するノード位置で表現し、検索する現在のノード位置を最上位（木構造の末端）に設定する。対象検索装置７は、ステップＳ５において、現在のノード位置にぶらさがる１レベル下の複数のノードにそれぞれ対応付けられるクラスタの各平均画像と、対象検索装置７が保持している検索対象画像とを照合し、ステップＳ６において、検索対象画像に最もマッチした平均画像のクラスタに含まれる画像の個数Ｃを取得する。対象検索装置７は、ステップＳ７において、取得された画像の個数Ｃと、抽出する検索結果の個数の上限Ｎとの大小を比較する。Ｃ≦ＮであればステップＳ８に進み、ステップＳ６で特定された検索結果であるＣ個の画像を表示及び入力装置８に表示し、処理を終了する。Ｃ＞Ｎであれば、ステップＳ９において、検索対象画像に最もマッチしたクラスタのノードに進み、次いでステップＳ１０において、現在のノード位置が内部画像データベース装置５のクラスタリング結果の末端ノードでなければステップＳ５に戻り、末端ノードであれば「検索結果なし」として処理を終了する。

以上説明したように、実施の形態１の映像検索装置は、映像コンテンツを蓄積した映像サーバ装置１と、映像コンテンツの画像を複数のクラスタに分類する画像クラスタリング装置６と、複数のクラスタに分類された映像コンテンツの画像を格納する内部画像データベース装置５と、内部画像データベース装置５に格納された画像の各クラスタの代表画像を学習する想起回路９と、入力された検索対象画像を取得する画像入力装置２と、内部画像データベース装置５において検索対象画像を検索する対象検索装置７であって、検索対象画像に隠蔽部分が存在するとき、検索対象画像を想起回路９に入力して想起画像を生成し、検索対象画像に代えて想起画像を内部画像データベース装置５において検索する対象検索装置７とを備える。

以上の構成を備えたことにより、実施の形態１の映像検索装置は、類似画像をグループ化する画像クラスタリング装置６により得られるクラスタリング結果を利用して各グループの代表画像を選び、画像クラスタリング装置６の内部に自己想起学習を行う想起回路９を備えているので、検索対象の人物の顔画像がマスクやサングラスなど隠蔽部分を含む場合でも、内部画像データベース装置５に含まれる当該人物の顔画像を確実に検索することが可能である。

実施の形態１の映像検索装置によれば、検索対象画像である顔画像に隠蔽を含む場合、従来手法なら検索に失敗していた顔画像に連想記憶を適用して隠蔽のない元の顔画像を復元することにより、内部画像データベース装置５に蓄えられた顔画像を検索することができる。

実施の形態２．
図５は、本発明の実施の形態２に係る映像検索装置を示すブロック図である。実施の形態１では、想起回路９は内部画像データベース装置５のクラスタリング結果から得られる各クラスタの代表画像を自己想起学習し、それにより、検索対象画像が隠蔽部分を含む顔画像であっても特定の人物を検索する例を説明したが、一般に、顔画像のクラスタリングでは、同一人物の顔画像であっても特徴量の取り方によっては同じクラスタに分類されない場合が発生する。すなわち、同一人物の顔画像であっても別個のクラスタに分割されてしまう場合がある。この場合に対応するため、実施の形態２の映像検索装置は、実施の形態１の構成に加え、図５に示すように、映像サーバ装置１に蓄積された映像コンテンツのものとは異なる画像を格納する外部画像データベース装置１１と、映像サーバ装置１に蓄積されている登場人物等の映像付属情報（記号情報）を取得する映像付属情報取得装置１２とを備える。本実施の形態では、検索対象画像が人物の顔画像である場合を例として、映像コンテンツの画像を複数のクラスタに分類するときに、同一人物の顔画像が別個のクラスタに分割されることを防止するための方法を説明する。

外部画像データベース装置１１は、映像サーバ装置１及び内部画像データベース装置５と登場人物は共通するが、異なる状況下で撮影された異なる顔画像を格納する。映像サーバ装置１に蓄積されている映像コンテンツがデジタルＴＶ等で録画されたテレビ番組などである場合、外部画像データベース装置１１は、例えば、インターネット等で利用可能なタレント名鑑等の画像を格納したデータベース装置であってもよい。映像付属情報取得装置１２は、映像サーバ装置１に蓄積されている登場人物等の映像付属情報を取得する。映像サーバ装置１に蓄積されている映像コンテンツがテレビ番組などである場合、映像付属情報取得装置１２は、例えば、電子番組表（ＥＰＧ）であってもよい。本実施の形態において、想起回路９は、外部画像データベース装置１１の顔画像及び映像付属情報取得装置１２の映像付属情報を連想記憶学習に用いることを特徴とする。

ここで、本実施の形態による画像クラスタリング装置６、外部画像データベース装置１１、及び映像付属情報取得装置１２の動作を図６及び図７を用いて説明する。図６は、図５の画像クラスタリング装置１０の動作を示す図である。図６は、映像サーバ装置１、画像クラスタリング装置６、外部画像データベース装置１１、及び映像付属情報取得装置１２の関係を示す模式図である。映像サーバ装置１に蓄積されている映像コンテンツ２１のシーケンスの各フレームが抽出されて画像記憶装置３にフレーム画像として保存され、次いで対象検出装置４は、上記フレーム画像に対して顔検出処理を適用し、人物の顔領域が含まれる場合、それを切り出して内部画像データベース装置５に保存する。画像クラスタリング装置６は、内部画像データベース装置５に保存されている大量の顔画像に対してクラスタリング処理を行い、類似するパターン毎にクラスタ（グループ）２２に分類する。図６の画像クラスタリング装置６における「Ａ」、「Ｂ」はクラスタ分けされた結果である任意のクラスタＡ，Ｂを意味する。ここでクラスタＡ，Ｂに含まれる顔画像は互いに異なる人物の顔画像である場合もあるが、写り方の違いにより、同一人物の顔画像であっても異なるクラスタＡ，Ｂに分かれる場合がある。本実施の形態ではこのように同一人物の顔画像が異なるクラスタＡ，Ｂに分かれる例で説明する。同じ人物の顔画像がこのように異なるクラスタに分かれてしまうと、実施の形態１で説明したように検索しても、本来クラスタＡとクラスタＢの顔画像を併せて検索結果とするべきところ、例えばクラスタＡの画像しか検索できない場合がある。本実施形態では、これを解決するために映像付属情報取得装置１２を用いる。例えば映像サーバ装置１に蓄積されている映像コンテンツがテレビ番組である場合、別途入手可能な電子番組表（ＥＰＧ）の情報を映像付属情報取得装置１２によって加工することで、上記映像コンテンツに含まれる登場人物リストを取得することができる。この登場人物リストに基づいて外部画像データベース装置１１から顔画像を選択して自己想起学習を適用し、その結果を想起回路９に反映させる。この想起回路９にクラスタＡとクラスタＢの各代表画像（あるいは各平均画像）を入力して得られる想起画像Ａ’，Ｂ’が同一人物と判定させる場合、クラスタＡとクラスタＢは同一人物の顔画像クラスタであると判定され、両クラスタを一つのクラスタ２３に統合する。これ以降、この人物の顔画像を検索キーとして検索対象画像に用いれば、クラスタＡ，Ｂの統合前よりも広範囲の顔画像を検索結果として取得することができる。

図７は、図５の画像クラスタリング装置１０、外部画像データベース装置１１、及び映像付属情報取得装置１２の動作（画像再クラスタリング処理）を示すフローチャートである。まず、ステップＳ１１において、映像付属情報取得装置１２を経由して登場人物リストを取得し、ステップＳ１２において、外部画像データベース装置１１により登場人物全員の個々の顔画像を取得する。ステップＳ１３において、取得した顔画像に対して画像クラスタリング装置６によって自己想起学習を適用し、その結果として、外部画像データベース装置１１の顔画像を想起できる想起回路９を生成する。次に、ステップＳ１４において、画像クラスタリング装置６の内部に保存されている内部画像データベース装置５の画像間の類似性を示すクラスタ情報から、任意の一対のクラスタＡ，Ｂを選択し、ステップＳ１５において、クラスタＡとクラスタＢの各代表画像（あるいは各平均画像）を取得する。ステップＳ１６において、これらの代表画像を想起回路９に適用し、想起画像Ａ’，Ｂ’を取得する。ステップＳ１７において、ステップＳ１８では、２つの画像Ａ’，Ｂ’が同一人物の顔画像であるかどうかを判定し、同一人物であると判定される場合はステップＳ１８に進み、同一人物と判定されない場合はステップＳ１９に進む。ステップＳ１８において、異なるクラスタＡ，Ｂを一つのクラスタに統合する。最後に、ステップＳ１９において、ステップＳ２０では画像クラスタリング装置６の内部に保存されているクラスタ情報をサーチし、任意のクラスタペアが統合可能かどうか全てチェックされたかどうかを確認し、未チェックのクラスタペアが存在すればステップＳ１４に戻り、全てのクラスタペアが統合可能であるかどうか確認済みであれば処理を終了する。

以上説明したように、実施の形態２の映像検索装置によれば、映像検索装置は、さらに、映像サーバ装置１に蓄積された映像コンテンツに関連付けられた映像付属情報を取得する映像付属情報取得装置１２と、映像サーバ装置１に蓄積された映像コンテンツとは異なる他の映像コンテンツの画像を格納する外部画像データベース装置１１とを備え、想起回路９は、内部画像データベース装置５に格納された画像の各クラスタの代表画像を学習するとき、映像付属情報及び他の映像コンテンツの画像を用いる。

以上の構成を備えたことにより、映像サーバ装置１上のコンテンツが特定のテレビ番組である場合、電子番組表の登場人物情報を手がかりに外部画像データベース装置１１から登場人物の顔を連想記憶に学習させ、その結果生成される想起回路９を通過させることにより、想起結果がマッチした異なる顔クラスタを同一人物顔のクラスタとして統合することが可能になる。

実施の形態２の映像検索装置によれば、映像サーバ装置１上の映像コンテンツが特定のテレビ番組である場合、電子番組表の登場人物情報を手がかりに外部画像データベース装置１１から登場人物の顔を連想記憶に学習させ、その結果生成される想起回路９を通過させることにより、想起結果がマッチした異なる顔クラスタを同一人物顔のクラスタとして統合することができる。

本発明に係る映像検索装置は、対象検出装置４と画像クラスタリング装置６とにより、映像サーバ装置１に含まれる顔画像を切り出して検索しやすいように内部画像データベース装置５として構築し、さらに対象検索装置７により、検索対象画像に含まれる顔画像を検索キーとして類似画像を検索し、表示及び入力装置８に検索結果を表示することを特徴とする。

また、上記の構成に加え、想起回路９により、あらかじめ学習された内部画像データベース装置５の内部の人物の顔画像の連想記憶を利用して、検索対象画像から隠蔽部分を復元し、新たに顔画像の検索結果を表示することを特徴とする。

１映像サーバ装置、２画像入力装置、３画像記憶装置、４対象検出装置、５内部画像データベース装置、６，１０画像クラスタリング装置、７対象検索装置、８表示及び入力装置、９想起回路、１１外部画像データベース装置、１２映像付属情報取得装置。

Claims

第１の映像コンテンツを蓄積した映像サーバ装置と、
上記第１の映像コンテンツの画像を、互いに類似した画像をそれぞれ含む複数のクラスタに分類する画像クラスタリング手段と、
上記複数のクラスタに分類された第１の映像コンテンツの画像を格納する第１の画像データベース装置と、
上記第１の画像データベース装置に格納された画像の各クラスタの代表画像を学習し、画像が入力されたとき当該画像の想起画像を出力する想起回路と、
入力された検索対象画像を上記第１の画像データベース装置において検索する対象検索手段であって、上記検索対象画像に隠蔽部分が存在するとき、上記検索対象画像を上記想起回路に入力して上記想起回路から出力された上記検索対象画像の想起画像を取得し、上記検索対象画像に代えて上記検索対象画像の想起画像を上記第１の画像データベース装置において検索する対象検索手段とを備えたことを特徴とする映像検索装置。
上記画像のクラスタの代表画像は、当該クラスタに含まれる画像の平均画像であることを特徴とする請求項１記載の映像検索装置。
上記映像検索装置は、さらに、
上記映像サーバ装置に蓄積された上記第１の映像コンテンツに関連付けられた映像付属情報を取得する映像付属情報取得手段と、
上記第１の映像コンテンツとは異なる第２の映像コンテンツの画像を格納する第２の画像データベース装置とを備え、
上記想起回路は、上記第１の画像データベース装置に格納された画像の各クラスタの代表画像を学習するとき、上記映像付属情報及び上記第２の映像コンテンツの画像を用いることを特徴とする請求項１又は２記載の映像検索装置。