JP2006285570A

JP2006285570A - 類似画像検索方法および類似画像検索装置

Info

Publication number: JP2006285570A
Application number: JP2005103656A
Authority: JP
Inventors: Yasuo Matsuyama; 泰男松山; Naohito Katsumata; 尚人勝又
Original assignee: Waseda University
Current assignee: Waseda University
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2006-10-19
Anticipated expiration: 2025-03-31
Also published as: JP4682670B2

Abstract

【課題】過学習や過汎化を引き起こすことなく、画像のもつ固有の情報を少ない冗長度で正確に表現できる類似画像検索方法および類似画像検索装置を提供する。
【解決手段】１枚のクエリ画像21から得られる基底と、１枚の対比画像31から得られる基底とを直接比較することで、クエリ画像21に対する対比画像31の類似度を算出する。これにより、少ないサンプル数でありながら、クエリ画像21や対比画像31の特徴をよく反映した基底情報により、正しく類似画像を検索できる。しかも、１枚のクエリ画像21に対して１つの対比画像31の基底集合を学習させていることになるので、過学習や過汎化の問題も回避できる。
【選択図】図１

Description

本発明は、静止画像や動画像を対象となる情報源として、類似画像を検索する類似画像検索方法および類似画像検索装置に関する。

近年のマルチメディアの普及により、ディジタルコンテンツの蓄積は益々増加の一途を辿っており、その一環をなす静止画像においては、特にその傾向が著しい。そして、このような大量のコンテンツを扱うには、検索やブラウジングといった技術が非常に重要となる。

従来、静止画において最も一般的な手段として、テキストベースによる検索が知られていた。これは、画像を表現するテキストによって対象画像のラベル付けを行い、そのテキストを利用して画像の検索を行なうというものである。しかし、この方法では人手により分類して注釈をつけるラベル付けの作業を必要とし、時間と労力、ひいては費用が掛かりすぎる状況が生じてくる。さらに、ラベル付けを行なう際の感覚が人によって異なり、同じ画像であっても異なるラベル付けが行なわれてしまうので、意図したとおりの検索ができない。

こうした問題を解決するために、内容による画像検索（Content-Based Image Retrieval）手法が提案されている。これは、キーワードを人手によって付加する代わりに、色，テクスチャ，物体形状といった画像の特徴を要素に持つ特徴ベクトル（feature vector）を作成し、その距離を画像の類似度として検索を行なう方法である。例えば非特許文献１には、空間分割と色情報に基づいて類似画像を検索する高度なシステム（QBICシステム：Query By Image Content System）が提案されており、現時点で既に商品化されているものもある。また別な手法として、似ている画像どうしでは画像を構成する色が似ているという仮定に基づき、画像中に色がどのような割合で含まれているのかを比較する色ヒストグラム法も知られている。

上述した画像検索システムは、大きく分けて（１）特徴量の選択，（２）多次元のインデキシング，（３）システムデザインという３つの要素を持ち、どの要素に重点を置くのかによってシステムとしての個性があらわれる。殆どの画像検索システムでは、色，テクスチャ，形状などの画像の特徴を表わす特徴量をメタデータとして持っており、それらの幾つかを組み合わせるか、または全てを使用することで画像の検索を行なっている。つまり特徴量によって画像を表わすので、特徴量が増えればそれだけ画像表現の幅も広がる。しかし、これらの特徴量ベクトルの次元は数百に及ぶこともあるので、検索に用いる特徴量を増やし過ぎると、組み合わせや重み付けなどの多次元インデキシングの困難性が増加し、システムそのものとユーザーにとって負担となる。また、ユーザー毎に感覚や好み（形状や色の優先度など）が異なるので、一回の検索で所望の画像を抽出することは稀である。そのため、ユーザーからのフィードバックを次の検索へと反映することができる双方向性を持ったシステム設計が望まれる。

一方、上記メタデータを利用した画像検索システムとは別に、主成分分析の基底（Principal Component Analysis Bases：ＰＣＡ基底）、あるいは独立成分分析の基底（Independent Component Analysis Bases：ＩＣＡ基底）を利用した画像（顔）の検索方法が、例えば特許文献１などに開示されている。ＰＣＡやＩＣＡは、画像の線形変換として知られるウェーブレット変換と同様に、画像を基底の重ねあわせとして表現するが、これらは基底関数そのものに源画像の情報が適応的に反映されるので、周波数，位相，位置，方向といったデザインパラメータを決定する必要がない。しかもＩＣＡ基底を使う場合は、Gaborウェーブレットのような哺乳類の視覚野と似た特性の基底が得られる。また、画像検索に利用される特徴量は、色，色レイアウト，テクスチャ，画像領域，物体形状に大きく分けることができるが、画像にＩＣＡを適用することによって得られるＩＣＡ基底は、画像のエッジやテクスチャであるといわれており、このＩＣＡ基底を利用したものは、云わばテクスチャを特徴量とする画像検索システムに分類される。

こうした特性を持つＩＣＡ基底からの応答を使う手法として、非特許文献２にはIndependent Spectral Representation法（独立スペクトル表現法）による類似画像の検索方法が提案されている。ここで図１９を参照しながら、この方法の概念を説明すると、図１９で100は情報源となる多数の画像で、先ずステップＳ101の手順では、それぞれの画像をサンプルデータとしてＩＣＡ基底集合を予め作成する。続くステップＳ102では、ＩＣＡ基底集合をフィルタバンクとして、各画像に対するフィルタリングを行なう。そしてステップＳ103において、各画像をフィルタリングして得られた応答のヒストグラムを特徴量として、検索対象となる画像に対する類似の判定を行なう。このように、独立スペクトル表現法では、ＩＣＡ基底をフィルタリングのために使用し、比較に際してはＩＣＡ基底に対する係数（重み）を使うことになる。
特開２００４−５４５６号公報マイロンフリックナー，ハープリートソーウニー，ウェーンニブラック，ジョナサンアッシュレー，シャンフアン，バイロンドム，モニカゴルガーニ，ジムハフナー，デニスリー，ドラガティーンペッチョーヴィック，デヴィッドスティール，ピーターヤンカー（Myron Flickner，Harpreet Sawhney，Wayne Niblack，Jonathan Ashley，Qian Huang，Byron Dom，Monika Gorkani，Jim Hafner，Denis Lee，Dragutin Petkovik，David Steele，Peter Yanker：「イメージおよびビデオコンテンツによる問合せ：QBICシステム（Query by Image and Video Content：The QBIC System）」（米国），IEEE コンピュータマガジン 28巻（IEEE Computer Magazine，Vol.28），1995年9月，p.23〜32 シゥーエンリウ，レイチェーン（Xiuwen Liu，Lei Cheng）：「認識画像の独立スペクトル表現法（independent spectral representations of images for recognition）」（米国），ジャーナルオヴザオプティカルソサイアティオヴアメリカ第20巻７号（Journal of the optical society of America，Vol.20，No.7），2003年7月，p.1271〜1282

しかし、上記Independent Spectral Representation法は、ＩＣＡが学習アルゴリズムであるために、ＩＣＡ基底集合を作成する際に過学習（over learning）と過汎化（over generalization）を引き起こす問題が存在する。ここでいう過学習とは、学習モデルに対して学習サンプル数が少な過ぎるため、モデルがサンプルに特化してしまい、他のデータに対応できなくなってしまうことをいう。また過汎化とは、その逆に、データに対して学習モデルが小さ過ぎ、貧弱な識別能力しか持たないことをいう。つまり、ＩＣＡ基底集合を学習する時に、学習モデルの大きさと学習サンプルの数のバランスを取る必要がある。

さらに画像データベースは、大量のデータを扱うことになるので、ＩＣＡによる学習モデルも必然的に大きくなる。すると、学習に必要なサンプル数は指数関数的に増加し、基底の学習に使うサンプルが相対的に少なくなるので、過学習が起こりやすくなる。逆に学習サンプル数にあわせて学習モデルを小さくすると、過汎化によって貧弱な識別能力しか持たないＩＣＡ基底しか得られなくなる。

加えて、独立スペクトル表現法では、ＩＣＡ基底集合をフィルタとして使用する関係上、当該フィルタの選択が重要になる。実際、最適なフィルタを選択するために、フィルタ選択アルゴリズムを使う方法も知られてはいるが、大きな画像データに対してこうしたアルゴリズムを実行するには膨大な計算量が必要となり、実行は困難である。さらに、ＩＣＡ基底集合を作成する際の上記学習と同様に、最適なフィルタの選択に使うトレーニングデータに関しても、問題が存在する。

このように考えると、類似画像検索のための特徴量が優れたものであると見なせるためには、（１）画像のもつ固有の情報を、少ない冗長度で正確に表現できること、（２）ユーザーの感覚や好みを正しく且つ容易に反映できること、が必要になる。そして、このような要求を満たす類似画像検索方法や類似画像検索装置が望まれていた。

本発明はこうした問題に鑑み、過学習や過汎化を引き起こすことなく、画像のもつ固有の情報を少ない冗長度で正確に表現することが可能になる類似画像検索方法および類似画像検索装置を提供することをその目的とする。

本発明に係る請求項１の類似画像検索方法は、基準となる画像の特徴を反映した第１の基底と、検索対象となる画像の特徴を反映した第２の基底とを比較することにより、前記検索対象となる画像の類似度を算出することを特徴とする。

本発明に係る請求項２の類似画像検索方法は、選択された前記基準となる画像をクエリ画像として取り込み、前記第１の基底を当該クエリ画像から算出すると共に、前記第２の基底を前記検索対象となる画像から算出することを特徴とする。

本発明に係る請求項３の類似画像検索方法は、（ａ）内積が最大となる前記第１の基底と前記第２の基底のペアを探し出し、（ｂ）前記手順（ａ）で探し出したペアを除く残りの前記第１の基底と前記第２の基底に対して、前記手順（ａ）と同様で内積が最大となる前記第１の基底と前記第２の基底のペアを探し出し、求められた内積に加重をかけて加えて行き、（ｃ）前記第１の基底と前記第２の基底の全てがペアとなるまで、前記手順（ａ）と前記手順（ｂ）を繰り返して、前記検索対象となる画像の類似度を算出することを特徴とする。

本発明に係る請求項４の類似画像検索方法は、前記検索対象となる画像の最終的な類似度Ｓが、前記第１の基底と前記第２の基底とを比較することにより得られた第１の類似度Ｓ_basisと、前記基準となる画像と前記検索対象となる画像との間の色に関する第２の類似度Ｓ_colorとを結合して得られることを特徴とする。

本発明に係る請求項５の類似画像検索方法は、前記検索対象となる画像の最終的な類似度Ｓが、加重パラメータａを用いることにより、Ｓ＝ａＳ_basis＋（１−ａ）Ｓ_color（但し、０≦ａ≦１）の式で算出され、前記加重パラメータａが調整可能であることを特徴とする。

本発明に係る請求項６の類似画像検索装置は、基準となる画像の特徴を反映した第１の基底と、検索対象となる画像の特徴を反映した第２の基底とを比較することにより、前記検索対象となる画像の類似度を算出する類似度算出手段を備えている。

本発明に係る請求項７の類似画像検索装置は、選択された前記基準となる画像をクエリ画像として取り込むクエリ画像取込み手段と、前記第１の基底を当該クエリ画像から算出する第１の基底算出手段と、前記第２の基底を前記検索対象となる画像から算出する第２の基底算出手段と、をさらに備えている。

本発明に係る請求項８の類似画像検索装置は、（ａ）内積が最大となる前記第１の基底と前記第２の基底のペアを探し出し、（ｂ）前記手順（ａ）で探し出したペアを除く残りの前記第１の基底と前記第２の基底に対して、前記手順（ａ）と同様で内積が最大となる前記第１の基底と前記第２の基底のペアを探し出し、求められた内積に加重をかけて加えて行き、（ｃ）前記第１の基底と前記第２の基底の全てがペアとなるまで、前記手順（ａ）と前記手順（ｂ）を繰り返して、前記検索対象となる画像の類似度を算出するように、前記類似度算出手段を構成したものである。

本発明に係る請求項９の類似画像検索装置は、前記第１の基底と前記第２の基底とを比較することにより得られた第１の類似度Ｓ_basisと、前記基準となる画像と前記検索対象となる画像との間の色に関する第２の類似度Ｓ_colorとを結合して、前記検索対象となる画像の最終的な類似度Ｓを得るように、前記類似度算出手段を構成したものである。

本発明に係る請求項１０の類似画像検索装置は、前記検索対象となる画像の最終的な類似度Ｓが、加重パラメータａを用いることにより、Ｓ＝ａＳ_basis＋（１−ａ）Ｓ_color（但し、０≦ａ≦１）の式で算出され、前記加重パラメータａを調整可能にする操作手段をさらに備えたものである。

請求項１の類似画像検索方法または請求項６の類似画像検索装置によれば、１枚の基準となる画像の基底と、１枚の検索対象となる画像の基底とを直接比較することで、検索対象となる画像の類似度を算出している。そのため、少ないサンプル数でありながら、各画像の特徴をよく反映した基底情報により、正しく類似画像を検索することができる。しかも、１枚の基準となる画像に対して１つの検索対象となる画像の基底集合を学習させていることになるので、過学習や過汎化の問題も回避できる。つまり、過学習や過汎化を引き起こすことなく、画像のもつ固有の情報を少ない冗長度で正確に表現することが可能になる。

請求項２の類似画像検索方法または請求項７の類似画像検索装置によれば、複数の画像から基底を求めて、この基底を各画像にフィルタリングして得た応答を使って類似度を算出するのではなく、１枚のクエリ画像から得られる第１の基底と、１枚の検索対象となる画像から得られる第２の基底とを直接比較することで、クエリ画像に対する検索対象となる対比画像の類似度を算出している。そのため、少ないサンプル数でありながら、クエリ画像や検索対象となる画像の特徴をよく反映した基底情報により、正しく類似画像を検索することができる。しかも、１枚のクエリ画像に対して１つの検索対象となる画像の基底集合を学習させていることになるので、過学習や過汎化の問題も回避できる。つまり、過学習や過汎化を引き起こすことなく、画像のもつ固有の情報を少ない冗長度で正確に表現することが可能になる。

請求項３の類似画像検索方法または請求項８の類似画像検索装置によれば、類似度を算出するに際し、基準となる画像と検索対象となる画像の各基底集合について、その全ての基底のペアの内積を最大化する必要はない。すなわち、ここではｎ個の基底成分に対してｎ²オーダーの計算を行なえばよく、良好な近似手法を取り入れた現実的な類似度の算出を実現できる。また、類似度を算出するに際して基底成分の加重和を用いることにより、基底集合に存在する非決定性を回避することができる。

請求項４の類似画像検索方法または請求項９の類似画像検索装置によれば、検索対象となる画像の最終的な類似度が、基準となる画像および検索対象となる画像の基底に基づく類似度だけでなく、基準となる画像や検索対象となる画像がもつ色空間に関わる類似度を加味して判断される。そのため、物体の位置の移動により敏感な類似画像を検索することができる。

請求項５の類似画像検索方法または請求項１０の類似画像検索装置によれば、ユーザーが加重パラメータａの値を任意に調整できるので、類似画像の検索にユーザーの好みを簡単に反映させることができ、ユーザーにとって苦痛なパラメータ設定を少なくできる。

以下、添付図面に基づき、本発明における類似画像検索方法と、それを実現する装置の好ましい実施形態を詳しく説明する。図１は、システム構成を模式的に示したものであるが、この図において、１は静止画像若しくは静止画像の連続体としての動画像（以下、これらを単に画像という）の集合を記憶保存するデータベースで、このデータベース１は例えばコンピュータなどの処理装置２に少なくとも読み出し可能な状態に接続される。処理装置２は周知のように、本実施形態の特徴となる類似画像検索アプリケーション３を含んだ各種アプリケーションを備えており、必要に応じてデータベース１に蓄積された画像を表示手段である液晶ディスプレイ４で適宜表示できるようになっている。なお、データベース１は処理装置２に内蔵または外付けされる記憶媒体（ハードディスクなど）や、処理装置２に通信手段を介して接続されるサーバであってもよく、どのような形態であるかは特に限定されない。また処理装置２は、例えばマウスやキーボードなどの入力手段５を備えている。

類似画像検索アプリケーション３は、入力手段５によってユーザーが選択したクエリ画像（query image）を取込むクエリ画像取込み手段11と、前記クエリ画像の小区画をサンプルデータとして、当該クエリ画像の基底を求める第１の基底算出手段12と、データベース１内から検索の対象となる画像を読み出し、この対象画像の小区画をサンプルデータとして、当該対象画像の基底を求める第２の基底算出手段13と、前記クエリ画像の基底と前記対象画像の基底を直接比較し、クエリ画像に対する対象画像の類似度を算出する類似度算出手段14と、前記類似度の高い順に前記データベース１中の画像を液晶ディスプレイ４に一乃至複数表示させる類似画像表示制御手段15と、をそれぞれ備えている。ここで利用できる基底としては、主成分分析基底（ＰＣＡ基底）や独立成分分析基底（ＩＣＡ基底）であることが好ましい。その理由は、これらの基底が認識あるいは分類しようとする情報源に依存した形で現れるからである。また、本実施形態においては、静止画像がもっとも適切な対象となるが、静止画像を連続化した動画像であっても構わない。さらに、クエリ画像はデータベース１内に保存される画像以外のものを利用してよい。

図２は、上記構成に基づく類似画像の検索方法の処理手順を示したものである。同図において、21は入力手段５により特定され、クエリ画像取込み手段11に取込まれたクエリ画像で、このクエリ画像21は二次元状に配列された画素（ピクセル）の集合により構成される。第１の基底算出手段12はステップＳ１において、クエリ画像21を適宜分割して得た小区画22をサンプルデータとして、１枚のクエリ画像21からＰＣＡまたはＩＣＡの基底を算出する。一方、31はデータベース１に蓄積された検索対象となる画像（対比する画像）で、これも二次元状に配列された画素の集合により構成される。第２の基底算出手段13はステップＳ２において、対比画像31を適宜分割して得た小区画32をサンプルデータとして、１枚の対比画像31からＰＣＡまたはＩＣＡの基底を算出する。こうして、クエリ画像21と対比画像31の各基底が算出されると、類似度算出手段14は次のステップＳ３にて、双方の基底どうしを比較し、類似している画像であるほど、クエリ画像21と対比画像31における各基底ベクトルの方向が似ていることに基づき、続くステップＳ４で類似度を算出する。類似画像検索アプリケーション３は、データベース１内の複数の対比画像31について、ステップＳ２〜ステップＳ４の各手順を同様に行ない、類似画像表示制御手段15により類似度の高い対象画像31を液晶ディスプレイ４に表示させる。

ここで注目すべきは、本実施形態では従来技術のように各画像をフィルタリングして得られた基底の応答を特徴量とするのではなく、クエリ画像21や対比画像31から得られた基底そのものを特徴量として、類似度の判断を行なっていることである。すなわち、本実施形態ではクエリ画像21に対する対比画像31の類似度算出に際して、ＰＣＡまたはＩＣＡの基底しか用いていない。

本実施形態では、上記方法を採用するに当たり、tightフィッティングの概念を導入している。tightフィッティングとは、あえてある１つのクラスのみを学習することにより、学習モデルをそのクラスに特化させることである。こうすることにより、そのクラスの特徴をよく反映したモデルが得られ、こうして得られたモデルパラメータを比較することで、クラスの識別を行なうことができる。すなわちtightフィッティングでは、ただ１つのクラスを学習するだけでよいため、必要なサンプルの数が少なく済み、独立スペクトル表現法のような過学習や過汎化の問題を回避できる。これは、ＩＣＡ基底の場合には、１枚の画像に対して１つの基底集合を学習させることに相当する。さらにモデルパラメータの比較は、得られた基底集合を比較することに相当する。こうして、本実施形態で採用する類似画像の検索方法や検索装置は、クエリ画像21と対比画像31との基底情報を比較することで、過学習や過汎化の問題を解決して、画像のもつ固有の情報を少ない冗長度で正確に表現することが可能になる。

図３は、第１の基底算出手段12や第２の基底算出手段13が基底を算出するまでの処理手順を模式的に示したものである。同図において、41は前述のクエリ画像21や対比画像31に相当する１枚の画像で、ここではステップＳ11のように、画像41を64に等分割した縦横８ピクセルの小区画42が、画像41のサンプルデータとして用いられる。次に基底算出手段12，13は、小区画42の各ピクセルを構成する８×８＝64次元（カラー画像の場合には，８×８×３＝１９２次元）のデータベクトル（各要素は、ｘ₁，ｘ₂，ｘ₃，…ｘ₆₄からなる）を、縦に並べた列ベクトルとして各々行列ｘのなかに組み入れる（ステップＳ12，Ｓ13）。基底算出手段12，13は、64本の基底ベクトルからなる行列Ｗ^-1と、同じく64本の重み付け係数（各要素は、ｙ₁，ｙ₂，ｙ₃，…ｙ₆₄からなる）からなる行列との積が、前記データベクトルの行列ｘに等しい（Ｗ^-1ｙ＝ｘ：すなわちｙ＝Ｗｘで、Ｗは分離フィルタとなる）ことから、ステップＳ13，Ｓ14に示す式に基づいて、１枚の画像41から各基底ベクトルの集合を算出する。

次に、上記処理手順において、主成分分析（ＰＣＡ）と独立成分分析（ＩＣＡ）の基本的な性質を説明する。先ず、ＰＣＡとＩＣＡで取り扱うデータの前処理法について述べる。前処理は、画像の源信号ｘが統計的性質の良いデータとなるように行なうもので、次の数１，数２のように可逆である。

ここで、数３に示す記号は期待値をあらわす演算子である。Ｋ個のサンプルデータが与えられたときに、数４に示すサンプルデータの平均によってこれを置き換える。

但し、上記数４において、ｘ（ｋ）はｍ×ｍの大きさの画像パッチをラスタースキャンして並べたものである。例えば、カラー画像を取り扱うデータでは、ｘ（ｋ）の次元が３×ｍ×ｍとなる。このサンプルデータの具体的な抽出方法については、後ほど説明する。

数１は、ｘを平均０にする最も簡単な操作であるが、ＰＣＡとＩＣＡにおいては、この操作により成分間に線形の依存が生じるため、有効な次元が１つ減るという副次的な効果を生じる。これにより得られる独立成分は１つ少なくなってしまうが、引いた平均値、すなわち直流成分は特殊な独立成分であると考えることもできる。

第１の基底算出手段12や第２の基底算出手段13が画像のＰＣＡ基底を算出する場合、基底算出手段12，13は最初に数５に示す共分散行列の計算を行なう。

次に、対角行列ＤとＥの計算を行なう。Ｄの対角成分は、前記数５の左辺Ｃの固有値を降順に並べた行列であり、行列Ｅの列ベクトルは、それらの固有値に対応する固有ベクトルである。このとき、ＰＣＡによる変換行列Ｖは以下に示す数６のようになる。

上記数６を使用し、次の数７となるようにデータベクトルｘを数８のように変換する。

これは白色化またはスフィアリングと呼ばれる処理である。これにより、変換されたデータベクトルｘは、互いに無相関で分散が１という性質のよいデータとなる。これは、ＰＣＡに関する処理であるが、ＩＣＡの前処理とすることもできる。

画像を取り扱う場合、データベクトルｘは高次となるため、基底算出手段12，13は小さな固有値を切り捨ててデータの次元縮約も行なう。これはローパスフィルタの役割を果たすと同時に、計算時間とメモリを節約するのに有効である。上記数６，数８より、次の数９に基づき縮約されたｚから、右辺のｘ￣（以後、英文字の上に付された￣や＾の記号は、便宜上横に並べて表記する）を回復する操作である。このように用いられるＵ＾_PCAの各列ベクトルは、ＰＣＡ基底と呼ばれる。なお、これ以降は特に断りのない限り、ｘ￣を単にｘと表記する。

上述したＰＣＡ基底、すなわちＵ＾_PCAの列ベクトルは直交であり、データの形状によっては制約となりすぎる場合がある。代わりにＩＣＡを採用すれば、直交という条件はなく、その分だけよい情報源モデルを構成し得る。

このＩＣＡ基底に関し、今観測されたｎ次元のデータベクトルｘは、ｎ×ｎの未知の情報源ベクトルｓの各成分を未知の混合行列Ａ＝［ａ₁，…，ａ_n］によって重ね合わせたものと仮定する。当該データベクトルｘは、数１０のように表わせる。

このときの独立成分の目的は、（ａ）ｉ≠ｊのとき、情報源ベクトルｓ_iとｓ_jは、互いに独立である、（ｂ）たかだか１つのｓを除き、非ガウシアンである。以上の２つの仮定の下で、混合行列Ａと信号源ｓとを推定することである。このような独立成分の分析では、各成分ｓ_iと（ｉ＝１，…，ｎ）の独立性を様々なコスト関数の最適化に置き換えることで、混合行列Ａと信号源ｓの推定を行なうことができる。ｚを前処理済のデータベクトルとすると、次のように表わすことができる。

数１１を前記数１０と比較すると、混合行列Ａは（Ｗ＾Ｖ）^-1と一致する。仮に、ｘの代わりにＺを考えるならば、混合行列Ａに一致する行列はＷ＾^-1となる。このような手法には、（１）最尤推定により尤度の最大化を行なう方法，（２）平均相互情報量の最小化を勾配法により行なう方法，（３）不動点法により非ガウス性の増大を行なう方法，（４）高次統計量の最大化を行なう方法が知られており、それぞれの手法は全く異なるが、どの手法から得られた基底であっても、本実施形態における類似画像検索に利用することができる。

一つの例として、本実施形態では上記（３）の方法に基づくＦａｓｔＩＣＡを、画像から基底を得るアルゴリズムとして使用する。本願発明者は、上記（２）の平均相互情報量を最小化するＩＣＡアルゴリズムの一種として、モーメンタム法を用いた高速化を図り、この方法の短所である速度問題を補うα−ＩＣＡアルゴリズムを提案しているが、超一次収束するα−ＩＣＡアルゴリズムに対して、最大で３次収束するＦａｓｔＩＣＡアルゴリズムの方がより高速な収束が可能である。

ここでＦａｓｔＩＣＡの概要について説明すると、不動点法に基づくＦａｓｔＩＣＡでは独立性を、次のように”Negentropy”Ｊ（ｙ）で表わしている。

ここで、ｙはｓ＾に収束する確率変数であり、次の数１３のように表わせる。また、Ｈ（ｙ）はその微分エントロピーである。そして、ｙ_gaussはｙと同じ分散のガウス分布をもつ確率変数であり、NegentropyＪ（ｙ）は、確率変数ｙがガウス分布からどれだけ離れているのかをあらわしており、この量が大きい程、各成分は独立に近いと考えることができる。その理由は、中心極限定理により、独立な確率成分の和は急速にガウス分布に近づくからである。

Ｊ（ｙ）の各成分は、次のように近似できる。

ここで、Ｇは２次ではない非線形関数であり、ｃは定数、νは平均０，分散１のガウス変数である。後述するオピニオンテストでは、多様な情報源に対して適用可能な次の関数Ｇ（ｕ）を使用した。

ここで、前記数１３のｗ_i ^TをＷの行ベクトルとし、さらにｙ_i＝ｗ_i ^Tｚとする。このとき、１つの独立成分を見つけるためには、次の数１６に示す制約下で、数１７に示すＪ_Gを最大化すればよいことになる。

上記数１７におけるＪ_Gの最大化は、次の更新式を反復することで行なわれる。

ここで、ｇ（ｕ）はＧ（ｕ）を微分したもので、ｇ’（ｕ）はｇ（ｕ）を微分したものである。したがって、数１５の例では、ｇ（ｕ）＝tanh（ｕ）であり、ｇ’（ｕ）＝sech²（ｕ）である。数１８はｉ番目の独立成分を求める式であるが、行列の形の更新式により複数成分を同時に求めることもできる。この場合、ｗ_iが制約条件を満たすように、毎回の更新の後でＷを次の正規直交化を行なうだけでよい。

このようにして反復を繰り返すことで、ＷはＷ＾に収束する。

最終的に、ＩＣＡ基底は次のようにして求めることができる。前記数１１を次の数２０のようにすると、これは行列Ｕ＾_ICAを用いることにより、縮約されたｓ＾からｘ￣を回復する操作となる。このように用いられるＵ＾_ICAの各列ベクトルは、ＩＣＡ基底と呼ばれる。なお、ＩＣＡの場合も特に断りのない限り、ｘ￣を単にｘと表記する。

このようにＰＣＡ基底やＩＣＡ基底は画像の情報を反映するため、類似画像の検索に利用することができる。とりわけＩＣＡ基底では、画像のテクスチャ情報を反映するといわれているが、こうしたＰＣＡ基底やＩＣＡ基底には、振幅と順序に関する非決定性という好ましくない問題がある。したがって、この非決定性を回復することが必要となる。ＰＣＡの場合、固有値を降順に並べることで基底の順序を回復することができる。また、変換行列Ｖを正規直行化すれば、振幅に関する非決定性の主要部分も回避できる。

ところがＩＣＡでは、順序非決定性が常に存在する。その理由は、混合行列Ａと信号源ｓが共に未知であるため、いずれか一方の順序または振幅が変化しても、他方によってその変化を打ち消すことができるからである。本実施形態では後述のように、こうした順序の非決定性の問題を回避することのできる基底集合の間の類似度を提案している。なお、振幅に関する非決定性は、数２の前処理における分散の正規化と、数１９における反復中の正規直行化によって、その大部分は回避されている。

次に、ＰＣＡまたはＩＣＡを用いた画像基底の導出について説明する。先ず、画像から得られた小区画のカラーサンプルを、ＰＣＡとＩＣＡの両手法で使われるデータベクトルへと変換する方法について述べる。前述のように、ある画像（クエリ画像21や対比画像31）が与えられた時に、そこから次の数２１に表わされる大きさのパッチと呼ばれる領域を取り出す。なお、当該領域は数２２のように表わせる。前記数１のデータベクトルｘは、Ｉ（ｘ，ｙ）をラスタースキャンした列ベクトルとなる

ここではカラー画像を扱っているので、各ピクセルは３つの値を持つ。扱える色空間としては、ＲＧＢ，ＹＩＱ，ＨＳＶがあるが、それぞれの色空間において、あるピクセルを［Ｃ₁（ｘ，ｙ），Ｃ₂（ｘ，ｙ），Ｃ₃（ｘ，ｙ）］という形で表わす。このときデータベクトルｘは、次のようになる。

例えばＲＧＢ色空間の場合は、３ｎの次元を持つデータベクトルｘ＝［ｘ_R，ｘ_G，ｘ_B］^T（Ｔは転置）という形で表わせる。

与えられた画像からＰＣＡ基底を得るには、先ず画像からＮ個の３ｎ次元のデータベクトルを抽出した後に、前記数９中のＵ＾_PCAを得るために、数５における共分散行列の計算を行なう。より具体的には、図４のフローチャートに示すように、ステップＳ21におけるサンプルデータの抽出では、画像の縦横の大きさが通常異なることから、仮想的に例えば128×128＝16384の格子が画像上に存在していると考え、それぞれの格子上の点を基点として８×８の大きさのパッチ（小区画）を抽出する。この手順よって、Ｎ＝16384個のデータベクトルｘを抽出できる。次のステップＳ22では、データベクトルｘの平均が０，分散が１となるように、上記数１および数２を利用した前処理を行なう。その次のステップＳ23では、数５に基づき共分散行列の固有値を計算し、値の大きいものから順に並べる。このうちの上位１／４の順位をもつ固有値と、それに対応する固有ベクトルＥを用いて、数６の変換行列Ｖを算出する。これにより８×８×３＝192の次元を48にまで縮約できる。ここで次元を減少させたデータは、ＩＣＡ基底を抽出する際にも利用できる。

一方、与えられた画像からＩＣＡ基底を得るには、次の数２４に示す混合行列Ａ＾を計算するために、図５に示すフローチャートの各処理手順を実行する。

同図において、ステップＳ21，Ｓ22の各手順はＰＣＡ基底抽出の場合と同じである。その次のステップＳ25では、行列Ｗの更新を行なう。より具体的には、最初のステップＳ25−１では、例えば同じ次元の単位行列Ｉを用いて、行列Ｗを初期化する。次のステップＳ25−２では、数１８に従って行列Ｗを更新し、ステップＳ25−３において、その更新の毎に行列Ｗを正規直行化する。この行列Ｗの正規直行化に際しては、前述の数１９を利用する。そして、行列Ｗがフーリエ変換したＷ＾に収束するまで、ステップＳ25−２，Ｓ25−３の手順を反復実行する（ステップＳ25−４）。ここでの反復における収束条件は、次の数２５を満たすことである。

上記式において、・は内積を表わす。また、Ｎ_Bは基底の数であり、εは収束の度合いを表わす定数である。一つの実験例として、ε＝5.0×10^-6を使用し、数２５の左辺がこの値未満になることを収束条件としている。

当該収束条件は、次のように解釈できる。行列Ｗの更新は、白色化された空間内で、‖ｗ_i‖＝１の制約下でＪ_Gを最大にするｗ_iの方向を探すアルゴリズムである、したがって、更新前のベクトルｗ_i ^oldと更新後のベクトルｗ_i ^newとの方向が一致したときに、学習が収束したと判断することができる。これは、｜ｗ_i ^new・ｗ_i ^old｜→１の式と等価である。因みに、この式の左辺が絶対値となっているのは、ｗ_iも−ｗ_iも同じ方向を指していると考えられるためである。

その次のステップＳ２６では、数２４を用いて混合行列Ａを計算する。

ここで、ＩＣＡ基底に関する予備実験の結果を示す。図６における上段の画像（ａ），（ｂ）は、各々異なるテクスチャを持つ白黒の源画像で、画像（ａ）は756×504ピクセル、画像（ｂ）は768×512ピクセルである。また、下段の画像（ａ’），（ｂ’）は、図５に示すフローチャートの手順に基づき、自然画像（ａ），（ｂ）から得られたＩＣＡ基底である。但し、源画像が白黒である関係上、次元数は８×８＝64となる。この小区画は、次の数26に示すように、推定された混合行列Ａ＾から得られた基底の列ベクトルａ＾_iの二次元表現である。

列ベクトルａ＾_iのそれぞれの要素は、０〜255にスケーリングされている。また、有効な基底の数は64−１＝63となっているが、これは源信号ｘの平均を０にする前処理を行なっているからである。そして、源画像（ａ），（ｂ）とＩＣＡ基底（ａ’），（ｂ’）の各組を比較すると、それぞれのＩＣＡ基底には、空間周波数が高いパターンを有する基底と、空間周波数の低いパターンを有する基底が存在することと、（ａ’）と（ｂ’）の基底集合のパターンには明らかな違いが存在していることがわかる。

こうした基底集合の違いを定量的に調べるため、当該予備実験ではGaborウェーブレットを利用した。これはGabor−fit法として知られており、ＩＣＡ基底とGaborウェーブレットとの誤差を最小にするGaborウェーブレットのパラメータを計算する手法である。

図７は、Gabor−fit法を使ったＩＣＡ基底（ａ’），（ｂ’）の比較結果を示している。同図において、中心角が基底の方向を［０，π］の範囲であらわしており、中心からの距離が基底の周波数をあらわしている。また、それぞれの黒丸は、63個ある（ａ’）の基底の１つをあらわしており、同様に白い四角は、63個ある（ｂ’）の基底の１つをあらわしている。黒丸のＩＣＡ基底（ａ’）に注目すると、０rad＝πradは同じ方向を指していると考えられ、ここでは明らかに２つのクラスタが存在する。一方、白い四角のＩＣＡ基底（ｂ’）に注目すると、これはグラフ中の全体に拡がっている。これは、次のような源画像の特性による。画像（ａ）では、葉と背景の部分で輝度の変化が少なく、画像中に明確なエッジが現れていない。逆に画像（ｂ）では、輝度の変化が激しく、明確なエッジを捉えることができる。そのため、画像中の複雑なテクスチャパターンを最適に表現できるようにＩＣＡ基底のパターンが得られる。以上より、次のことが云える。
（１）ＩＣＡ基底は画像のエッジとテクスチャパターンの性質を反映する。
（２）大きく異なる画像からは、異なるＩＣＡ基底が得られる。このことは、ＩＣＡ基底を類似画像検索に利用できるという考えを支持することになる。
（３）ＩＣＡ基底は位置情報を持っておらず、当該位置情報は基底の重ね合わせの係数が持っている。最終的な類似度としてこの基底情報を重視するならば、画像中の物体の移動に対してロバストな検索となる。

このように、ＩＣＡ基底に関する予備実験では、単なる主観的な判断に頼らず、ＩＣＡ基底をGabor−fit法により定量的に比較し、基底そのものが画像の分離性を持つことを実証している。

次いで、類似度算出手段14における類似度の算出方法について、より詳細に説明する。本実施形態における類似度演算手段14は、クエリ画像21と対比画像31の各基底集合の間の類似度Ｓ_basisのみならず、画像の部分領域の平均色に基づく類似度Ｓ_colorを結合して、最終的な類似度の判断を行なうのが好ましい。Ｓ_basisは画像（クエリ画像21および対比画像31）のＰＣＡ基底またはＩＣＡ基底に基づく類似度であり、それらの方向の一致度を類似度としている。図８はその概念を説明する図であるが、図８（ａ）のように分布が近い場合には、そこから得られる基底の方向も近くなり、基底どうしの一致度が高くなる。一方、図８（ｂ）のように分布が似ていなければ、得られる基底の方向も大きく異なる。つまり、分布が大きく異なって行くに従い、その一致度も低くなっていくと推測できる。

しかし、ＩＣＡ基底では前述した順序の非決定性が存在し、基底は規則正しく並んでいる訳ではないので、対応する基底の発見は難しくなる。ＰＣＡ基底の場合、基底は直交であり、固有値の大きい順に順序付けされているが、単純に基底どうしを対応付けることはできない。このことは、画像のように高次の場合に当てはまるであろうことは容易に推測できる。ここでのＳ_basisは、順序の非決定性を考慮し、ＰＣＡ基底とＩＣＡ基底のいずれかの基底集合の比較も行なうことができる類似度となっている。

Ｓ_basisは、数２７，数２８に示す２つの基底集合の全ての基底のペア（ａ_i ^I1，ａ_j ^I2）の内積を最大化することで計算できる。ここで、ｋ番目の画像から得られたｉ番目の基底をａ_i ^Ikとする。この基底は、ＰＣＡ基底とＩＣＡ基底の何れであっても構わないが、この計算にはｎ！オーダーの組み合わせでの内積計算が必要であるため、計算量が膨大となる。本実施形態では、画像基底に存在するスケールや順序の問題に対し、ＰＣＡ基底とＩＣＡ基底のどちらにも有効な方法として、２つの基底集合のなかで、まず内積が最大となる一つのペアを選び出し、それを基準にして次々に内積が最大のペアを求めて重み付けけ加算を行なう類似度Ｓ_basisを定義している。より具体的には、（ａ）内積が最大となる基底のペアａ_i ^I1，ａ_j ^I2を探し出し、（ｂ）探し出したペアａ_i ^I1，ａ_j ^I2を除いた残りの（ｎ−１）×（ｎ−１）個の基底に対して、手順（ａ）と同様に計算を行って、内積が最大となる基底のペアを探し出し、求められた内積に加重をかけて加算し、（ｃ）全ての基底がペアとなるまで、手順（ａ）と手順（ｂ）を繰り返して、２つの画像の間の類似度Ｓ_basisを決定するようになっている。

上述した手順（ａ）〜（ｃ）は、詳細な加重を含めて、次のようなＣ言語的コードで表現できる。すなわち、このようなプログラムを実行する類似度算出手段14を組み込んでおけば、ｎ！オーダーの計算をｎ²オーダーで済ませる良好な近似手法を取り入れた類似度Ｓ_basisの算出を実現できる。また、類似度Ｓ_basisを算出するに際して基底成分の加重和を用いることにより、基底集合に存在する非決定性を回避することができる。

上記のコード中で、ｎはそれぞれの基底集合中の基底の数をあらわしている。探し出した基底ａ_i ^I1，ａ_j ^I2は、内積が計算される前にそれぞれ‖ａ_i ^I1‖＝１と‖ａ_i ^I2‖＝１に正規化される。基底は正規化された状態でデータベース１に格納されるので、この処理は普通必要とならない。内積の最大値の計算において絶対値が表われるのは、−ａ_i ^I1であってもａ_i ^I2であっても同じ方向を表していると考えられるためである。この手法を本実施形態の類似度算出手段14に取り入れることにより、数２７や数２８で示した２つの画像の基底集合との間において、その類似度Ｓ_basisの計算に必要な計算量は数３０に示す値まで減少する。

本実施形態の類似度算出手段14は、前述のように画像の部分領域の平均色に基づく類似度Ｓ_colorを考慮に入れている。この画像の平均色に基づく類似度Ｓ_colorは、基底の類似度Ｓ_basisとは異なる特性を有する。類似度Ｓ_colorを算出するに際しては、架空の格子を利用して１枚の画像を小区画に分割する。例えば前述の例では、８×８の大きさで16384個のサンプルが抽出される。次に、次の数３１，数３２で平均色を計算すると共に、サンプルの前処理を行なう。

ここでのサンプル数は16384個であるので、同数のデータベクトルのＤＣ成分ｘ_DCが得られるが、計算量が多すぎるので、例えば４×４＝16の重複のないブロックに色の情報を統合する。つまり、それぞれのブロックの平均色Ｉ_DCijは次のように計算できる。

ここで、Ｎ_block(I,j)は、（ｉ，ｊ）番目のブロック中のサンプルパッチの数である。このとき、ベクトルＩ_DCは全体的な平均色と位置の情報を持っている。以上より、大きさの異なる画像間の色に関する類似度Ｓ_colorを、次のように定義することができる。

上記式において、Ｎ_Bはブロックの数（４×４＝16）であり、Ｉ^(k) _DCは画像Ｉ^(k)の平均色を表すベクトルである。基底の類似度Ｓ_basisと同様に、色に関する類似度Ｓ_colorも、正規化された類似度であるため、ユーザーが調整できる加重パラメータａを使って、類似度Ｓ_basis，Ｓ_colorを次のように結合することができる。

加重パラメータａは、操作手段に相当する例えば図１の入力手段５を利用してユーザーが任意に調整変更することができ、もし大きい値を選択して基底の類似度Ｓ_basisを強調した場合には、画像のエッジやテクスチャパターンがより重視され、最終的な類似度Ｓは画像中の物体の位置の移動に対してロバストになる。逆に、加重パラメータａの値を小さくするに従い、画像中の物体の位置情報を持つ類似度Ｓ_colorが次第に重視され、最終的な類似度Ｓは画像中の物体の移動に敏感なものとなる。こうした特性を理解すれば、ユーザーが入力手段５によりデザインパラメータａを選択するだけで、類似画像の検索にユーザーの好みを簡単に反映させることができ、ユーザーにとって苦痛なパラメータ設定を少なくできる。

類似度Ｓ_colorを定義する上で使用される色空間としては、ＲＧＢ，ＹＩＱ，ＨＳＶがある。ＲＧＢはそれぞれのピクセルを｛Red（赤：Ｒ），Green（緑：Ｇ），Blue（青：Ｂ）｝∈［０，１］³で表わす最も標準的な色空間で、光の３原色に基づき、Ｒ，Ｇ，Ｂの加法混色によって色を表わす。それぞれの要素の数値が増える毎に色は白に近づいてゆく。通常はそれぞれの要素が１バイトで表わされ、実際の色空間の大きさは［０，255］³となる。

ＹＩＱはNTSCテレビ放送により標準化されている色空間で、輝度情報を持つＹと、色差情報を持つＩ（オレンジ−シアン），Ｑ（緑−マゼンダ）の３要素からなる。ＲＧＢ空間とＹＩＱ空間は線形変換でき、この変換には幾つかのバージョンがあるが、後述するオピニオンテストでは、次の変換式のものを使用した。

ＨＳＶは、色の種類をあらわす色相（Huge angle，Ｈ），色の純粋さをあらわす彩度（Saturation，Ｓ），色の明るさをあらわす輝度（Value，Ｖ）の３要素からなる色空間である。ＲＧＢ空間とＨＳＶ空間との変換は非線形変換である。あるピクセルの色の要素の最大値と最小値をそれぞれＭＡＸ＝max（Ｒ，Ｇ，Ｂ），ＭＩＮ＝min（Ｒ，Ｇ，Ｂ）とする。このとき、ＨＳＶの各要素は次のように表わせる。

但し、上式において、｛Ｈ_R，Ｈ_G，Ｈ_B｝は次の通りである。

このように画像の類似性を判断する場合に、画像の基底はエッジやテクスチャを反映するだけのものであるので、別な要素として部分領域に関する平均色を考えるのが望ましい。本実施形態では、仮想グリッドを用いた前処理で得られるバッチの平均値に基づく部分領域色の類似度Ｓ_colorを定義している。そして、画像基底の類似度Ｓ_basisと色の類似度Ｓ_colorとの重み付け加算を行ない、その結果を総合の類似度Ｓとして判断している。

その他に本実施形態では、クエリ画像21や対比画像31をフィルタリング処理するフィルタ手段（図示せず）を、処理装置２の内部に備えてもよい。ここでの「フィルタリング」とは、３×３の平均値フィルタのことを云う。フィルタ手段が行なうフィルタリング処理によって、平均化による画像ノイズの除去が可能になる。

次に、上述した類似画像検索の方法および装置に関し、その性能評価を行なったオピニオンテストの結果を以下に記述する。ここでは類似度として、上記実施形態におけるＰＣＡ基底による方法と、ＩＣＡ基底による方法の他に、従来法として色ヒストグラム法と、独立スペクトル表現法を比較対象のためにそれぞれ採り上げ、色に関する類似度Ｓ_colorを定義する色空間として、ＲＧＢ，ＹＩＱ，ＨＳＶをそれぞれ採り上げる。さらに、フィルタリング処理を行なった場合と、行なわない場合についてもテストを行なう。こうして、類似度，色空間，フィルタリング処理についてそれぞれ組み合わせを行ない、合計４×３×２＝24種類の類似画像検索システムを構築した。

なお、ここで使用するＰＣＡ基底法は、総合類似度Ｓが上記数３５で定義され、基底の類似度Ｓ_basisとして数９のＵ＾_PCAを用いている。またＩＣＡ基底法では、総合類似度Ｓが同様に上記数３５で定義され、基底の類似度Ｓ_basisとして数２０のＵ＾_ICAを用いている。また色空間に関し、ＲＧＢ色空間では、それぞれのピクセルがｘ＝［Ｒ，Ｇ，Ｂ］^Tによって表現される３次元のベクトルとなり、ＹＩＱ色空間では、ＲＧＢ空間を線形変換した数３６によって表現される３次元のベクトルとなり、ＨＳＶ色空間では、ＲＧＢ空間を非線形変換した数３７，数３８によって表現される３次元のベクトルとなる。さらにフィルタリング処理により、例えば３×３の平均値フィルタが画像に施される。

一例として、検索対象となる画像集合は、ワシントン大学が公開しているgroundtruthのデータベースを使用する。このデータベースには1100枚を超える多様な自然画像が含まれているが、予め上述のような手法でＰＣＡ基底およびＩＣＡ基底を抽出すると共に、数３１に基づきデータベクトルのＤＣ成分ｘ_DCを算出しておく。ユーザーは類似画像検索システムに対して１枚のクエリ画像Ｉ_queryを提示する。システムが当該クエリ画像Ｉ_queryを取込むと、類似度に従ってデータベース内の画像を順位付けし、類似度の高いもののうち幾つかをユーザーに提示する。このときシステムの性能は、ユーザーが「似ている」と判断できる画像は上位に含まれているかによって決められる。

図９は、ＰＣＡ基底法，ＨＳＶ色空間を採用し、フィルタリング処理を行なわない場合（｛ＰＣＡ基底法，ＨＳＶ，フィルタなし｝：以下、｛｝で記述する）のシステムを用いた実際の類似画像検索の結果である。ここでは、川を人が渡ろうとしているクエリ画像に対して、システムが類似度の高い上位５位までの画像を検索結果として提示している。また、ここでの２つの類似度Ｓ_basis，Ｓ_colorを結合する要素ａは、ａ＝0.3としている。システムが提示した検索結果の画像は、渡河の画像であるか、似たようなトポロジーを持つ地形の画像であることがわかる。図９に示す検索結果の上位３件は、Ｓ_basis，Ｓ_color共に高い類似度となっている。したがって、加重パラメータａをどのように設定しても、当該画像が上位３件にあらわれる。この検索例では、類似画像として報告された各画像は、縦横比の違いを上手く吸収しており、類似画像検索システムとして望ましい性質を十分に満足している。

次に上記24種類の類似画像検索システムにおけるオピニオンテストの内容について、より詳しく説明する。被験者の各人に課するオピニオンテストの内容は、以下の通りである。
（ａ）本テストは、画像の類似度に関して各人の判断を含んだものでなければならない。
（ｂ）あまりに過剰に個人の嗜好が反映されてはいけない。
（ｃ）上記（ａ），（ｂ）を満たした上で、被験者は1100枚以上の画像を見なければならないため、その負担を軽くするために極力簡単なものでなければならない。

オピニオンテストでは、次のステップに従って、上記（ａ）〜（ｃ）の性質を満たすように注意深くデザインされている。
ステップ１：データベース中の全1100枚の画像から、各被験者がクエリ画像と対比画像のペア（｛Ｉ_query，Ｉ_target｝）を100組選び出す。
ステップ２：ステップ１で選択された100組のペアからランダムに50組のペアを選び出し、トレーニングデータとする。残りの50組は、性能を評価するためのテストデータとする。
ステップ３：トレーニングデータを使用し、各被験者にとって検索成功率が最大となる類似度結合加重ａを0.01刻みで求める。ここで検索成功率とは、クエリ画像Ｉ_queryがデータベース中の画像の上位１％に順位付けられることとする。これは、ＰＣＡ基底またはＩＣＡ基底を使う検索システムにとって重要なステップである。
ステップ４：ステップ３で得られた加重ａとテストデータを用い、検索成功率を調べる。
ステップ５：以上のステップ２〜ステップ４の手順を１セットとし、これを100回繰り返して平均成功率を求める。

このようなオピニオンテストを20代の男女10人に対し行なった。なお、上記各ステップにおける各数字は一例であり、適宜変更可能である。

図１０と図１１は、上記オピニオンテストの結果を示すグラフである。図１０の棒グラフは、ＰＣＡ基底法，ＩＣＡ基底法，色ヒストグラム法のそれぞれについて、その検索成功率を示したものである。グラフは横軸に沿って、色空間とフィルタリングで区別した６種類の手法の集団をあらわしている。各集団において、左側点線の棒は色ヒストグラム法，中央破線の棒はＰＣＡ基底法，右側実線の棒はＩＣＡ基底法によるもので、ＲＧＢ，ＹＩＱ，ＨＳＶの各色空間について、フィルタなしとフィルタ有りの場合の検索成功率がそれぞれ示されている。また、縦軸は10人の被験者の検索成功率の平均をとったものである。

同様に図１１は、ＰＣＡ基底法，ＩＣＡ基底法，独立スペクトル表現法（ＩＳＲ）のそれぞれについて、その検索成功率を示したもので、左側点線の棒は独立スペクトル表現法，中央破線の棒はＰＣＡ基底法，右側実線の棒はＩＣＡ基底法に対応している。これらの各図から、次のことが結論できる。

性能については、｛ＩＣＡ基底法，ＨＳＶ色空間，フィルタなし｝の組み合わせが、最も優れた検索成功率（85.3％）となった。次いで、｛ＩＣＡ基底法，ＲＧＢまたはＹＩＱまたはＨＳＶ色空間，フィルタ有り｝と、｛ＰＣＡ基底法，ＨＳＶ色空間，フィルタ有りまたはフィルタなし｝の組み合わせが、検索成功率の高いものとして続いている。

ＩＣＡ基底法は、同じ組み合わせ条件（色空間やフィルタ有無）でのＰＣＡ基底法に比べて、検索成功率が常に高い。その理由は、ＰＣＡ基底が直交基底であるのに対して、ＩＣＡ基底は非直交基底であるため、より画像情報を良好に反映できるためと思われる。

ＰＣＡ基底法やＩＣＡ基底法を用いる場合、ＲＧＢ色空間とＹＩＱ色空間とでは性能の差が殆ど見られない。これは前記数３６にあるように、ＲＧＢ色空間とＹＩＱ色空間は線形変換しただけのものであるため、基底を線形に結合するというモデルから得られるＰＣＡ基底法やＩＣＡ基底法では、差が出にくくなるからと思われる。これに対して、ＲＧＢ色空間とＨＳＶ色空間の変換は、人の色感に近づけるために非線形変換となっており、この効果がＨＳＶ色空間における優位差となって現れているものと考えられる。

本実施形態で提案したＰＣＡ基底法やＩＣＡ基底法に比べて、従来の色ヒストグラム法や独立スペクトル表現法は、検索成功率がはるかに低い。さらに、独立スペクトル表現法は色スペクトル法よりも成績が悪くなってしまっている。

以上より、｛ＩＣＡ基底法，ＨＳＶ色空間，フィルタなし｝の組み合わせがシステムとして最も優れているといえる。この場合、加重パラメータａの最適値を調べてみると、0.25〜0.35の範囲であった。本システムをユーザーが始めて使う場合には、加重パラメータａの初期値として、0.3を設定するような処理装置２の構成であることが好ましい。

上記オピニオンテストの結果を踏まえ、最適な色空間の選択について考察する。ＨＳＶ色空間を採用した類似度Ｓ_colorが最も優れているという図１０の結果は、以下の詳細なデータによって裏付けられる。

表１は、加重パラメータａ＝０とした場合の各被験者の平均検索成功率を示したものである。つまりここでの最終的な類似度Ｓは、基底の類似度Ｓ_basisに関する情報を利用していない。この表から次のことがわかる。

最もよい検索成功率となる色空間は、個人によって異なる。これは、次のような理由による。被験者の選び出す画像の組は、その被験者の好みや心理状態を反映するが、この画像の組の距離は色空間に依存して決まる。なぜならば、色空間ごとに色の分離性や凝集性などに違いがあり、画像間の色分布の僅かなずれが大きく影響する色空間もあれば、そうでない色空間もあるためである。また、違う色空間であっても、被験者全員の平均値は殆ど変わりがない。これは成績の良い色空間が個人毎に異なり、突出した色空間が出ないためと考えられる。さらに、フィルタ手段の有無による差は殆ど見られない。これは、使用したフィルタが平均値フィルタであるため、平均色と共に色空間による類似度Ｓ_colorには影響が殆どないためである。以上のことから、表１における類似度Ｓ_colorによる検索成功率からは、色空間の選択に関して何らかの結論を出す必要はない。

表２は、ＩＣＡ基底法を採用し、加重パラメータａ＝１とした場合の各被験者の平均検索成功率を示したものである。つまりここでの最終的な類似度Ｓは、色空間による類似度Ｓ_colorに関する情報を利用していない。この表から次のような傾向をみることができる。

殆どの被験者にとって、｛ＨＳＶ色空間，フィルタなし｝の組み合わせが最も高い検索成功率を示し、被験者全員の検索成功率の平均値も、他のものと比べてはるかに優れている。したがって、表２における基底の類似度Ｓ_basisによる検索成功率からは、｛ＨＳＶ色空間，フィルタなし｝のシステムを構築するのが最も好ましいといえる。これは、図１０に示すグラフの結果を裏付けている。

次に、最適なフィルタ手段の選択について考察する。源画像からデータを抽出する場合は、偏りのある分布が望ましい。それは、類似度Ｓ_basisの算出に際して、基底どうしの方向を比較しているが、分布に偏りがあるほど推定される基底の信頼性が増すからである。したがって、局所的でない偏りを適切に作り出せるフィルタリング処理を行なうのが望ましい。

ここでは、移動平均値フィルタと移動中央値フィルタについて、その検索成功率をテストした。移動平均値フィルタは、フィルタの中心をピクセル値の加重平均で置き換えるフィルタであり、移動中央値フィルタは、フィルタの中心をピクセル値の中央値で置き換えるフィルタである。中央値フィルタは、平均値フィルタに比べてエッジを保存し易いという性質をもつ。図１２の棒グラフは、フィルタなし，移動中央値フィルタ，移動平均値フィルタのそれぞれについて、その検索成功率を示したものである。このような平滑化を目的としたフィルタリング処理は、平均値をとる類似度Ｓ_colorには殆ど影響を及ぼさないので、ここでは類似度Ｓ_basisのみの検索成功率について示している。横軸は、色空間で区別した３種類の集団をあらわしており、それぞれの集団の中で、左側点線の棒はフィルタなし，中央破線の棒は移動中央値フィルタ，右側実線の棒は移動平均値フィルタの場合を示している。また、縦軸は検索成功率をあらわしている。

図１２のグラフより、特にＲＧＢ色空間やＹＩＱ色空間の場合に、平均値フィルタを施したときの結果がよくなっている。これは中央値フィルタに比べて平均値フィルタの方がぼかし効果が高く、分布が偏るのが理由であると思われる。また、フィルタの大きさを３×３より大きくすると、図１３に示すように崩れた基底が得られることがあり、検索成功率が悪化する。これはフィルタリングの効果が強すぎて、分布が過度に偏ったためであると考えられる。なお、図１３（ａ）はフィルタなしの場合，（ｂ）は５×５の移動平均値フィルタを施した場合の基底を示している。

次に、フィルタの有無と各色空間との関連性について、図１４および図１５に示すグラフに基づき説明する。これらの各図において、フィルタリングによる局所的でない分布の増加と、色空間の変換による分布の変化を可視化して提示する。本実施形態における新規な方法は、前述のようにクエリ画像21と対比画像31の各基底の方向を比較するものなので、信頼性の高い基底を推定できる偏りのある分布が望まれる。ここでは、フィルタリングと色空間変換の選択によって、そのような分布の変化が起こっていることを確認する。可視化のために、同じフルカラー画像から各色空間に変換したサンプルを取り出し、その次元を192次元から２次元にまで縮約した。このときのデータは白色化されている。

図１４は、フィルタをかけない場合の各色空間のサンプルの分布である。同図（ａ）はＲＧＢ色空間，（ｂ）はＹＩＱ色空間，（ｃ）はＨＳＶ色空間におけるデータの分布と、その分布から得られる独立成分をあらわしている。図１４（ａ）に示すＲＧＢ色空間では、データの分布が空間上に均等に広がっており、正しい基底の推定は困難である。同様に、図１４（ａ）に示すＹＩＱ色空間も、ＲＧＢ色空間の場合と殆ど分布が変わらない。その理由は、ＲＧＢ色空間とＹＩＱ色空間が線形変換の関係であるためである。一方、図１４（ａ）に示すＨＳＶ色空間では、ＲＧＢ色空間とＨＳＶ色空間が非線形変換の関係であるため、他の色空間とは形状はかなり異なり、偏りの強いサンプルの分布となっている。このため、独立成分の方向もはっきりとしている。

図１５は、移動平均値フィルタをかけた場合の各色空間のサンプルの分布である。ここでは違いを明確にするために、５×５の大きさで平均値フィルタをかけている。同図（ａ）はＲＧＢ色空間，（ｂ）はＹＩＱ色空間，（ｃ）はＨＳＶ色空間におけるデータの分布と、その分布から得られる独立成分をあらわしている。ＲＧＢ色空間どうしを比較すると、図１５の分布の左右には、図１４の分布よりもサンプルの集中している領域がフィルタリング処理によって存在するため、独立成分の推定はより信頼性の高いものとなる。しかし、ＨＳＶ色空間で比較した場合は、ＲＧＢ色空間とは逆の結果となっている。すなわち、フィルタリングによって全体的に偏りが強くなり、２つの独立成分のうち一つが弱まっている。このことは、画像の正確な特徴抽出が難しくなることを意味する。以上の考察によって、図１０や図１１に示すように、｛ＩＣＡ基底法，ＨＳＶ色空間，フィルタなし｝の組み合わせが、最も優れたシステムであるという結論が裏付けられた。

本実施形態における方法では、数８に示すようなサンプルデータの白色化と同時に、次元の縮約を行なっている。次元を縮約すると計算時間を削減できるが、それにより持っている情報も少なくなるため、計算時間と情報量のトレードオフとなる。ここでは、性能に影響を与えずに、どこまで次元を縮約できるかをテストする。

ｎ×ｎの行列の固有値をλ₁，…，λ_nとしたときに第ｍ＜ｎ主成分までの累積寄与率は、次の数３９にてあらわせる。累積寄与率は、元の情報をどれだけ保持しているのかという指標になる。

図１６は、縮約する次元と累積寄与率との関係を示している。この寄与率は、データベース中の画像の寄与率を求め、その平均を採ったものである。横軸はサンプルの次元数で、縦軸は平均の累積寄与率である。このグラフに示すように、サンプルの次元数が30よりも低くなると、累積寄与率が急激に減少する。また、次の表は幾つかの次元を抜き出したものである。

図１７は、フィルタありの場合と、フィルタなしの場合について、縮約する次元と検索成功率との関係を示したもので、この図では、元々192あったサンプルの次元を、１／12（16次元），１／６（32次元），１／４（48次元），１／３（64次元），１／２（96次元），２／３（128次元）まで縮約した検索成功率をプロットしている。但し、類似度Ｓ_colorは次元の縮約の影響を受けないので、ここでは類似度Ｓ_basisのみを使っている。さらに、図１７（ａ）はフィルタをかけない場合、図１７（ｂ）はフィルタをかけた場合をあらわし、それぞれの実線はＨＳＶ色空間，破線はＹＩＱ色空間，点線はＲＧＢ色空間を示している。

同図から明らかなように、縮約する次元により多少のばらつきは見られるものの、１／４（48次元）の縮約率までは、検索成功率がほぼ変わらないことがわかる。一方、サンプルの次元の縮約率を１／12（16次元）とすると、検索成功率が明らかに低下する。１／６（32次元）の縮約率では評価が難しいが、図１６に示す累積寄与率は平均値であるため、画像によってはこれよりも情報量が少なくなり、検索成功率が悪化することが考えられる。そのためサンプルの次元の縮約率は、１／４（48次元）までとするのが好ましい。

縮約する次元が変わることで検索成功率にばらつきが見られることの理由としては、得られる基底の方向が変化することが原因の一つと考えられる。例えば、３次元の場合を例にして考えると、第３主成分に平行な直線と交差する３本の独立成分があったとすると、この独立成分は第３主成分に直交する成分からは重なって１つの独立成分として見える。ここで第３主成分が無くなったとすると、１つの独立成分はそのまま同じ方向を向くが、重なってしまったもう一つの独立成分は、異なる方向を探すことになる。これは不安定な基底となるため、検索成功率が悪化する。逆に、次元を減らすことで不安定な基底が減ると、検索成功率は向上する。このような原因により、検索成功率にばらつきが起こると考えられる。とりわけフィルタ手段を備えた場合には、前述のように分布の偏りが起こるため、検索成功率のばらつきが強くあらわれると考えられる。

次に、画像から抽出するサンプルの大きさを変更した時の影響について考察する。画像から抽出するサンプルの大きさは、学習モデルの大きさに相当する。従来の独立スペクトル表現法では、学習モデルが大きくなると学習に必要なサンプル数が増大し、過学習する可能性が高くなる。一方、tightフィッティングの場合は、学習モデルを１つのクラスに対応することが目的であるため、tightフィッティングした学習モデルの領域の占める範囲は、そのモデルの大きさで学習可能な解空間の中で相対的に狭くなる。そのため、サンプルパッチ（小区画）のサイズを大きくすると学習モデル間の分離度が上がり、検索成功率が高くなると考えられる。

図１８は、サンプルパッチのサイズを変化させた場合の検索成功率について調べたグラフである。ここでは各サンプルパッチのサイズにおいて、当該サンプルの次元を１／３と１／４に縮約している。またこの場合のフィルタリング処理は、検索成功率に影響しないため、ＩＣＡ基底法でフィルタ無しの場合の類似度Ｓ_basisを比較した。図１８の横軸は、ＲＧＢ，ＹＩＱ，ＨＳＶの各色空間と、縮約した次元との組み合わせで区別し集団であり、縦軸は検索成功率をあらわしている。また、それぞれの集団の中で、左側点線の棒はサンプルパッチの大きさが４，中央破線の棒はサンプルパッチの大きさが８，右側実線の棒はサンプルパッチの大きさが12の場合を示している。この図に示すように、色空間と縮約した次元をどのように組み合わせた場合でも、サンプルパッチの大きさが大きいほど検索成功率が高くなっていることがわかる。すなわち、基底を画像にtightフィッティングさせるため、画像から抽出するパッチを大きくするほど画像クラス間の分離度が上昇し、検索成功率がよくなることが判った。さらに、tightフィッティングの場合は過学習が存在しないため、時間とメモリの許す限り大きなサンプルを使うほうがよいと結論できる。

以上のように本実施形態では、選択された画像をクエリ画像21として取り込むクエリ画像取込み手段11と、クエリ画像21の特徴を反映した基底をこのクエリ画像21から算出する第１の基底算出手段12と、検索対象となる対比画像31の特徴を反映した基底をこの対比画像から算出する第２の基底算出手段13と、クエリ画像21の基底と対比画像31の基底とを比較することにより、クエリ画像21に対する対比画像31の類似度を算出する類似度算出手段14とを備えている。

こうすると、複数の画像から基底を求めて、この基底を各画像にフィルタリングして得た応答を使って類似度を算出するのではなく、１枚のクエリ画像21から得られる基底と、１枚の対比画像31から得られる基底とを直接比較することで、クエリ画像21に対する対比画像31の類似度を算出している。そのため、少ないサンプル数でありながら、クエリ画像21や対比画像31の特徴をよく反映した基底情報により、正しく類似画像を検索することができる。しかも、１枚のクエリ画像21に対して１つの対比画像31の基底集合を学習させていることになるので、過学習や過汎化の問題も回避できる。つまり、過学習や過汎化を引き起こすことなく、画像のもつ固有の情報を少ない冗長度で正確に表現することが可能になる。

そしてこれは、選択された画像をクエリ画像21として取り込み、クエリ画像21の特徴を反映した基底をこのクエリ画像21から算出し、検索対象となる対比画像31の特徴を反映した基底をこの対比画像31から算出し、クエリ画像21の基底と対比画像31の基底とを比較することにより、対比画像31の類似度を算出する方法でも達成される。

また本実施形態では、（ａ）内積が最大となるクエリ画像21の基底と対比画像31の基底のペアを探し出し、（ｂ）手順（ａ）で探し出したペアを除く残りのクエリ画像21の基底と対比画像31の基底に対して、手順（ａ）と同様で内積が最大となるクエリ画像21の基底と対比画像31の基底のペアを探し出し、求められた内積に加重をかけて加えて行き、（ｃ）クエリ画像21の基底と対比画像31の基底の全てがペアとなるまで、手順（ａ）と手順（ｂ）を繰り返して、対比画像31の類似度を算出するように、類似度算出手段14を構成している。

こうすると、類似度を算出するに際し、クエリ画像21と対比画像31の各基底集合について、その全ての基底のペアの内積を最大化する必要がなくなる。すなわち、ここではｎ個の基底成分に対してｎ²オーダーの計算を行なえばよく、良好な近似手法を取り入れた現実的な類似度の算出を実現できる。また、類似度を算出するに際して基底成分の加重和を用いることにより、基底集合に存在する非決定性を回避できる。

また本実施形態では、クエリ画像21の基底と対比画像31の基底とを比較することにより得られた第１の類似度Ｓ_basisと、クエリ画像21と対比画像31との間の色に関する第２の類似度Ｓ_colorとを結合して、対比画像31の最終的な類似度Ｓを得るように、類似度算出手段14を構成している。

この場合、対比画像31の最終的な類似度Ｓが、クエリ画像21および対比画像31の基底に基づく類似度Ｓ_basisだけでなく、クエリ画像21や対比画像31がもつ色空間に関わる類似度Ｓ_colorを加味して判断される。そのため、物体の位置の移動により敏感な類似画像を検索することができる。

また本実施形態では、前記対比画像の最終的な類似度Ｓは、加重パラメータａを用いることにより、Ｓ＝ａＳ_basis＋（１−ａ）Ｓ_colorの式で算出され、加重パラメータａを０≦ａ≦１の範囲で調整可能にする操作手段としての入力手段５をさらに備えている。すなわちこの場合は、ユーザーが加重パラメータａの値を任意に調整できるので、類似画像の検索にユーザーの好みを簡単に反映させることができ、ユーザーにとって苦痛なパラメータ設定を少なくできる。

さらに上記実施形態では、類似画像の検索を行なうたびに、クエリ画像21や対比画像31についてＰＣＡ基底またはＩＣＡ基底を直接算出するようにしているが、クエリ画像21の代わりにＰＣＡ基底やＩＣＡ基底をそのまま与える検索も可能である。また、データベース１中の対比画像31に予めＰＣＡ基底またはＩＣＡ基底をラベル（付加情報）として付け加えてもよい。つまり、基準となる画像（クエリ画像21）の特徴を反映した第１の基底と、検索対象となる画像（対比画像31）の特徴を反映した第２の基底とを比較することにより、前記対比画像の類似度を算出するような方法、またはそれを実現する類似度算出手段14を備えていれば、１枚の基準となる画像の基底と、１枚の検索対象となる画像の基底との直接的な比較により、検索対象となる画像の類似度を算出できる。そのため、この場合も少ないサンプル数でありながら、各画像の特徴をよく反映した基底情報により、正しく類似画像を検索することができる。しかも、１枚の基準となる画像に対して１つの検索対象となる画像の基底集合を学習させていることになるので、過学習や過汎化の問題も回避できる。

本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲において種々の変形実施が可能である。

本発明は類似画像検索という実例に基づいているが、画像のみならず文書や音楽といった種々のファイル検索を、パソコンのデスクトップ上で統合するデスクトップ検索の動きが現在活発となっているため、こうしたデスクトップ検索技術に本発明の方法や装置を適用することは非常に重要となる。さらには今後の発展（例えば離散データの連続値化など）により、本発明の概念を広範囲に適用することが可能になる。

本発明の好ましい実施形態を示す類似画像検索装置のブロック構成図である。本実施形態における類似画像検索方法の処理手順を示すフローチャートである。本実施形態における基底算出の処理手順を示す説明図である。本実施形態においてＰＣＡ基底を抽出する処理手順を示すフローチャートである。本実施形態においてＩＣＡ基底を抽出する処理手順を示すフローチャートである。（ａ），（ｂ）は源画像を示し、（ａ’），（ｂ’）は（ａ），（ｂ）の源画像から得られたＩＣＡ基底を示す図である。 Gabor−fit法を使った図６におけるＩＣＡ基底（ａ’），（ｂ’）の比較結果を示したグラフである。ＩＣＡ基底における分布の形態を示す図である。類似画像の検索結果を示す図である。ＰＣＡ基底法，ＩＣＡ基底法，色ヒストグラム法における検索成功率を示したグラフである。ＰＣＡ基底法，ＩＣＡ基底法，独立スペクトル表現法における検索成功率を示したグラフである。フィルタなし，移動中央値フィルタ，移動平均値フィルタのそれぞれについて、その検索成功率を示したグラフである。フィルタなしの場合と、５×５の移動平均値フィルタを施した場合の基底をそれぞれ示すグラフである。フィルタをかけない場合の各色空間のサンプルの分布を示すグラフである。移動平均値フィルタをかけた場合の各色空間のサンプルの分布を示すグラフである。縮約する次元と累積寄与率との関係を示すグラフである。フィルタありの場合と、フィルタなしの場合について、縮約する次元と検索成功率との関係を示すグラフである。抽出するサンプルの大きさと検索成功率との関係を示すグラフである。従来の類似画像検索方法における処理手順を示すフローチャートである。

符号の説明

５入力手段（操作手段）
11 クエリ画像取込み手段
12 第１の基底算出手段
13 第２の基底算出手段
14 類似度算出手段
21 クエリ画像（基準となる画像）
31 対比画像（検索対象となる画像）

Claims

基準となる画像の特徴を反映した第１の基底と、検索対象となる画像の特徴を反映した第２の基底とを比較することにより、前記検索対象となる画像の類似度を算出することを特徴とする類似画像検索方法。
選択された前記基準となる画像をクエリ画像として取り込み、
前記第１の基底を当該クエリ画像から算出すると共に、
前記第２の基底を前記検索対象となる画像から算出することを特徴とする請求項１記載の類似画像検索方法。
（ａ）内積が最大となる前記第１の基底と前記第２の基底のペアを探し出し、
（ｂ）前記手順（ａ）で探し出したペアを除く残りの前記第１の基底と前記第２の基底に対して、前記手順（ａ）と同様で内積が最大となる前記第１の基底と前記第２の基底のペアを探し出し、求められた内積に加重をかけて加えて行き、
（ｃ）前記第１の基底と前記第２の基底の全てがペアとなるまで、前記手順（ａ）と前記手順（ｂ）を繰り返して、前記検索対象となる画像の類似度を算出することを特徴とする請求項１または２記載の類似画像検索方法。
前記検索対象となる画像の最終的な類似度Ｓは、前記第１の基底と前記第２の基底とを比較することにより得られた第１の類似度Ｓ_basisと、前記基準となる画像と前記検索対象となる画像との間の色に関する第２の類似度Ｓ_colorとを結合して得られることを特徴とする請求項１〜３のいずれか一つに記載の類似画像検索方法。
前記検索対象となるの最終的な類似度Ｓは、加重パラメータａを用いることにより、Ｓ＝ａＳ_basis＋（１−ａ）Ｓ_color（但し、０≦ａ≦１）の式で算出され、前記加重パラメータａが調整可能であることを特徴とする請求項４記載の類似画像検索方法。
基準となる画像の特徴を反映した第１の基底と、検索対象となる画像の特徴を反映した第２の基底とを比較することにより、前記検索対象となる画像の類似度を算出する類似度算出手段を備えたことを特徴とする類似画像検索装置。
選択された前記基準となる画像をクエリ画像として取り込むクエリ画像取込み手段と、
前記第１の基底を当該クエリ画像から算出する第１の基底算出手段と、
前記第２の基底を前記検索対象となる画像から算出する第２の基底算出手段と、
をさらに備えたことを特徴とする請求項６記載の類似画像検索装置。
（ａ）内積が最大となる前記第１の基底と前記第２の基底のペアを探し出し、
（ｂ）前記手順（ａ）で探し出したペアを除く残りの前記第１の基底と前記第２の基底に対して、前記手順（ａ）と同様で内積が最大となる前記第１の基底と前記第２の基底のペアを探し出し、求められた内積に加重をかけて加えて行き、
（ｃ）前記第１の基底と前記第２の基底の全てがペアとなるまで、前記手順（ａ）と前記手順（ｂ）を繰り返して、前記検索対象となる画像の類似度を算出するように、前記類似度算出手段を構成したことを特徴とする請求項６または７記載の類似画像検索装置。
前記第１の基底と前記第２の基底とを比較することにより得られた第１の類似度Ｓ_basisと、前記基準となる画像と前記検索対象となる画像との間の色に関する第２の類似度Ｓ_colorとを結合して、前記検索対象となる画像の最終的な類似度Ｓを得るように、前記類似度算出手段を構成したことを特徴とする請求項６〜８のいずれか一つに記載の類似画像検索装置。
前記検索対象となる画像の最終的な類似度Ｓは、加重パラメータａを用いることにより、Ｓ＝ａＳ_basis＋（１−ａ）Ｓ_color（但し、０≦ａ≦１）の式で算出され、前記加重パラメータａを調整可能にする操作手段をさらに備えたことを特徴とする請求項９記載の類似画像検索装置。