JP5282658B2

JP5282658B2 - 画像学習、自動注釈、検索方法及び装置

Info

Publication number: JP5282658B2
Application number: JP2009121359A
Authority: JP
Inventors: バヨールティモシー; ツァイジジュ; 盈輝徐
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2008-05-20
Filing date: 2009-05-19
Publication date: 2013-09-04
Anticipated expiration: 2029-05-19
Also published as: CN101587478A; EP2124159B8; US8232996B2; JP2009282980A; EP2124159B1; EP2124159A1; CN101587478B; US20090289942A1; ES2524789T3

Description

本発明は、画像処理技術に関し、特に、画像学習、自動注釈、検索方法及び装置に関する。

ネットワークの急速な発展とデジタル画像センサーの携帯電話及び一般家庭用デジタルカメラへの普及に伴い、大量のデジタル画像資源が発生するようになった。

このように蓄積された大量の画像データに有効且つ実用的な画像検索システムが必要である。このため、画像における明確な語意内容を抽出しユーザーのアクセス及び検索に供するための、内容に基づく画像検索（CBIR）に関する研究が行なわれた。

CBIRは、初期段階において、画像の類似度合に基づいた検索を基本とする。即ち、ユーザーによる入力が画像、色または概略図である場合に、検索の結果もそれらに類似する画像である。しかし、このようなCBIRは実用的でない。主な原因として以下の２点が挙げられる。

先ず、ユーザーが画像を用意し、又は、色を的確に選択し及び下書きを描くテクニックを有することが要求される。しかし、この要求はユーザーにとって高いので、システムの普及は制限された。

次に、類似度合に基づく画像検索は、底層画像の類似性の比較に依存する。しかし、底層画像の特徴と高層画像の情報との間に語意の差があるから、検索の結果として視覚上では類似するものの、語意では大きく相違するということになりがちである。これは検索結果の正確性に大きな影響を与えてしまう。

CBIRにおける上記問題を解決するために、研究者たちが画像注釈に基づく検索システムを提案した。この検索システムは、テキスト情報を用いて画像データに注釈を付ける。これにより、テキストに基づいて画像を検索することが可能となる。この方法は、ユーザーの能力への制限を減らしたため、ユーザーは、キーワードを入力するだけで検索を行うことができる。

従来の画像自動注釈方法は、次のような方法を有する。

方法１は、元データ(例えば、デジタルカメラ撮影時の画像に関連する時間、GPS情報、画像名、及び、デジタルファイルフォーマットにおける画像に関連するテキスト等)に基づく自動注釈である。

方法２は、学習段階でコンピュータによる視覚化技術及びマシン学習技術を用いて、文字と画像との間に存在する複雑な関連を推測した後に、当該関連を利用して学習段階に現われなかった画像に対して自動注釈を行う。

しかし、元データに基づく自動注釈方法には以下の問題がある。

画像の元データは画像に描かれた内容と関連しない可能性があるため、画像注釈の品質が劣る。また、テキスト付き画像にしか適用できず、応用範囲が大きく制限される。

方法１には不可避な欠陥が存在するため、方法1の改良方法として方式２は提案された。詳細は以下の通りである。

学習段階においてコンピュータによる視覚化技術とマシン学習技術を用いて文字と画像との間に存在する複雑な関連を推測した後に、当該関連を利用して学習段階で現われなかった画像に対して自動注釈を行う方法は以下のステップを含む。

ステップAは、領域分割方法を用いて画像を分割し、領域毎に特徴ベクトルを算出する。

ステップBは、学習段階で、各領域が当該各領域に最も隣接するｋ個の領域とグラフ上で連結するとともに、画像が当該画像に相関する各々の真の注釈とグラフ上で連結する。

ステップＣは、自動注釈段階で、再起動可能なランダムウォーク法（RWR）を用いて形成されたグラフを巡回し、対応する注釈を得る。

上記方法については、非特許文献１を参照する。

GCap法の理論的基礎は、既に注釈された画像（テスト画像）のノードへのアクセス数がそれ以外のノードへのアクセス数よりも多いことである。それにより、注釈ノードへのアクセス数をチェックすることによって相関性の最も高い注釈を見つけることができる。

しかし、上記方法を利用して学習を行うことにより得られたグラフの中に誤って連結された画像領域が生じる可能性があり、注釈の正確性が低下する。

本発明の目的は、画像の自動注釈と検索の正確性を向上するための画像学習、自動注釈、検索方法及び装置を提供することにある。

上記目的を達成するために、本発明に係る実施例は画像学習方法を提供する。この方法は、少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を少なくとも１つの画像領域に分割するステップと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出して画像特徴マトリックスとテキスト特徴マトリックスを求めるステップと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴の共分散を最大化するステップと、前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記画像分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記注釈を有する第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、前記全ての連結の加重値を算出するステップと、前記全ての連結と前記全ての連結にそれぞれ対応する前記加重値とに基づいて表示画像と前記画像領域と前記注釈との三者間の関係グラフを求めるステップと、を含む。

また、上記目的を実現するために、本発明に係る実施例は画像学習装置を提供する。この装置は、少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を少なくとも１つの画像領域に分割する画像分割モジュールと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出して画像特徴マトリックスとテキスト特徴マトリックスを求める特徴ベクトル抽出モジュールと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴の共分散を最大化するサブ空間投影モジュールと、前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存する保存モジュールと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記画像分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記注釈を有する第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、前記全ての連結の加重値を算出し、前記全ての連結と前記全ての連結にそれぞれ対応する前記加重値とに基づいて表示画像と前記画像領域と前記注釈との三者間の関係グラフを求めるグラフ形成モジュールと、を含む。

また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像自動注釈方法を提供する。この方法は、入力された第２画像に対して自動注釈を行う画像自動注釈方法であって、予備処理ステップ、グラフ更新ステップ及び注釈ステップを含む。前記予備処理ステップは、第２画像を受け取るステップと、前記第２画像に対して分割操作を行い、当該第２画像を少なくとも１つの画像領域に分割し、前記各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るステップと、前記画像特徴マトリックスをサブ空間に投影し、投影後の前記第２画像の画像特徴マトリックスを得るステップと、を含む。前記グラフ更新ステップは、投影後の前記第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて前記第２画像の画像領域ノードと前記グラフ中の画像領域ノードとの第５連結を形成するステップと、前記画像分割操作の結果に基づいて前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するステップと、前記第５連結と前記第６連結の加重値を確定するステップと、前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記グラフを更新するステップと、を含む。前記注釈ステップは、前記第２画像に対応する再起動ベクトルを形成し、更新された前記グラフに基づいて再起動可能なランダムウォーク法により前記第２画像に最も密接に関連する所定数の注釈を求めるステップと、前記所定数の注釈ノードが対応するキーワードを用いて前記第２画像に対して注釈を行うステップと、を含む。

また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像自動注釈装置を提供する。この装置は、入力された第２画像に対して自動注釈を行う画像自動注釈装置であって、予備処理モジュール、グラフ更新モジュール及び注釈モジュールを含む。前記予備処理モジュールは、第２画像を受け取るユニットと、前記第２画像に対して分割操作を行い、当該第２画像を少なくとも１つの画像領域に分割するユニットと、前記第２画像の前記各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るユニットと、前記画像特徴マトリックスをサブ空間に投影し、投影後の前記第２画像の画像特徴マトリックスを得るユニットと、を含む。前記グラフ更新モジュールは、投影後の前記第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて前記第２画像の画像領域ノードと前記グラフ中の画像領域ノードとの第５連結を形成すると共に、前記画像分割操作の結果に基づいて前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するユニットと、前記第５連結と前記第６連結の加重値をそれぞれ確定するユニットと、前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記グラフを更新するユニットと、を含む。前記注釈モジュールは、前記第２画像に対応する再起動ベクトルを形成し、更新された前記グラフに基づいて再起動可能なランダムウォーク法により前記第２画像に最も密接に関連する所定数の注釈を求めるユニットと、前記所定数の注釈ノードが対応するキーワードを用いて前記第２画像に対して注釈を行うユニットと、を含む。

また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像検索方法を提供する。この方法は、入力された第２画像に基づいて画像を検索する方法であって、予備処理ステップ、グラフ更新ステップ及び検索ステップを含む。前記予備処理ステップは、第２画像を受け取るステップと、前記第２画像に対して分割操作を行い、当該第２画像を少なくとも１つの画像領域に分割するステップと、前記少なくとも１つの画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るステップと、前記画像特徴マトリックスをサブ空間に投影し、投影後の前記第２画像の画像特徴マトリックスを得るステップと、を含む。前記グラフ更新ステップは、投影後の前記第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて前記第２画像の画像領域ノードと前記グラフ中の画像領域ノードとの第５連結を形成するステップと、前記画像分割操作の結果に基づいて前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するステップと、前記第５連結と前記第６連結の加重値をそれぞれ確定するステップと、前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記グラフを更新するステップと、を含む。前記検索ステップは、前記第２画像に対応する再起動ベクトルを形成し、更新後の前記グラフに基づいて再起動可能なランダムウォーク法により前記第２画像に最も密接に関連する所定数の画像を取得し出力するステップを含む。

また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像検索装置を提供する。この装置は、入力が第２画像であるときに画像検索を行う装置であって、予備処理モジュール、グラフ更新モジュール及び検索モジュールを含む。前記予備処理モジュールは、第２画像を受け取るユニットと、前記第２画像に対して分割操作を行い、当該第２画像を少なくとも１つの画像領域に分割するユニットと、前記各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るユニットと、前記画像特徴マトリックスをサブ空間に投影し、投影後の前記第２画像の画像特徴マトリックスを得るユニットと、を含む。前記グラフ更新モジュールは、投影後の前記第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて前記第２画像の画像領域ノードと前記グラフ中の画像領域ノードとの第５連結を形成するユニットと、前記画像分割操作の結果に基づいて前記第２画像と画像領域ノードとの第６連結を形成するユニットと、前記第５連結と前記第６連結の加重値をそれぞれ確定するユニットと、前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記グラフを更新するユニットと、を含む。前記検索ステップは、前記第２画像に対応する再起動ベクトルを形成し、更新後の前記グラフに基づいて再起動可能なランダムウォーク法により前記第２画像に最も密接に関連する所定数の画像を得るユニットを含む。

また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像検索方法を提供する。この方法は、入力が検索用キーワードであるときに画像検索を行う画像検索方法であって、検索ステップを含む。前記検索ステップは、前記検索用キーワードに対応する再起動ベクトルを形成し、前記グラフに基づいて再起動可能なランダムウォーク法により前記検索用キーワードに最も密接に関連する所定数の画像を取得し出力するステップを含む。

更に、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像学習装置を提供する。この装置は、入力が検索用キーワードであるときに画像検索を行うための画像学習装置であって、検索モジュールを含む。前記検索モジュールは、前記検索用キーワードに対応する再起動ベクトルを形成し、前記グラフに基づいて再起動可能なランダムウォーク法により前記検索用キーワードに最も密接に関連する所定数の画像を取得するユニットを含む。

本発明に係る実施例は、以下の有益な効果を有する。

１、本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、学習段階で、画像領域の画像特徴ベクトルとテキスト特徴ベクトルを同一のサブ空間に投影し、画像特徴とテキスト特徴との共分散を最大化することにより、画像特徴ベクタルとテキスト特徴ベクタルの次元を減らす。これによって、グラフの形成速度を速めると同時に画像注釈及び検索の速度を向上し、画像とテキストデータとの一致性を強化することができ、また、グラフをよりロバストに形成し、最終的には、更に高い画像注釈精度と画像検索精度を得ることができる。

２、本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、使用されたサブ空間が正準共分散サブ空間であるので、類似画面を有する画像領域に、より密接な関係を提供することができる。これによって、領域ノード間の最も隣接する連結の誤差を減らすことができる。

３、本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、画像領域ノード間の連結を形成する際に、連結される、対応する画像領域ノードの画面の差異が大きければ大きいほど加重値が小さいので、カレント画像領域ノードとの画面差異が大きい画像領域ノードはカレント画像領域ノードに与える影響が小さくなる。これによって、後続のRWR法による複数回のアクセスの後に、正確な注釈及び／又は検索の結果を確実に出力することができる。

４、本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、画像ノードとその全ての注釈ノードとの連結を形成する際に、連結される注釈ノードの現われる回数が多ければ多いほど加重値が小さいので、頻繁に使用する言葉への偏りを克服し、より正確な自動注釈を実現することができる。

本発明の実施例に係る画像学習装置の構成図である。本発明の実施例において元画像を複数の矩形状ブロックに分割した様子を示す図である。本発明の実施例において元画像を複数の解像度を有する四分木サブブロックに分割した様子を示す図である。本発明の実施例において元画像を複数の同質的領域に分割した様子を示す図である。本発明の実施例におけるテキスト特徴マトリックスYの例を示す図である。本発明に係る実施例において連結の形成及び連結の加重値の求めを行う方法の実現を示す図である。本発明に係る実施例において連結の形成及び連結の加重値の求めを行う方法の実現を示す図である。本発明に係る実施例において連結の形成及び連結の加重値の求めを行う方法の実現を示す図である。本発明に係る実施例において連結の形成及び連結の加重値の求めを行う方法の実現を示す図である。本発明に係る実施例の画像学習装置により得られたグラフを示す図である。本発明に係る実施例の画像学習装置により得られたグラフのマトリックスを示す図である。本発明に係る実施例において更新されたグラフのマトリックスを示す図である。本発明に係る実施例の再起動ベクトルを示す図である。本発明に係る実施例における自動注釈用入力画像である。本発明に係る実施例において「人、動物」を入力テキストとしたときに得られた検索結果を示す図である。本発明に係る実施例において画像を入力としたときの検索結果を示す図である。本発明に係る実施例においてテキストと画像を入力としたときの検索結果を示す図である。

以下、添付した図面を参照しながら、本発明の好適な実施形態を詳細に説明する。

本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、学習段階で画像特徴ベクトルを正準共分散サブ空間に投影し、画像と注釈との共分散を最大化することにより、グラフをよりロバストに形成し、連結を誤った画像領域を減少し、最終的により優れた画像注釈を得ることができる。

本発明に係る実施例の画像学習装置は、図１に示すように、第一の保存モジュールと、画像分割モジュールと、特徴ベクトル抽出モジュールと、サブ空間投影モジュールと、第二の保存モジュールと、グラフ形成モジュールと、を含む。各モジュールについては、次のように説明する。

第一の保存モジュールは、注釈を有する画像及び注釈用キーワード集合を保存するのに用いられ、各画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。

画像分割モジュールは、前記第一の保存モジュールに保存される画像に対してそれぞれ分割操作を行い、画像を少なくとも一つの画像領域に分割する。

特徴ベクトル抽出モジュールは、画像特徴により各画像領域の画像特徴ベクトルを抽出すると共に、テキスト特徴によりテキスト特徴ベクトルを抽出することに用いられ、画像の余計な情報とノイズを除去し本質的な内容を捉える。

サブ空間投影モジュールは、画像領域の画像特徴ベクトルをサブ空間に投影し画像特徴投影ベクトルを得るとともに、各画像領域のテキスト特徴ベクトルをサブ空間にそれぞれ投影しテキスト特徴投影ベクトルを得ることによって、画像特徴とテキスト特徴との共分散を最大化させる。

第二の保存モジュールは、画像領域の投影後の画像特徴投影ベクトルとテキスト特徴投影ベクトルをそれぞれに保存する。

グラフ形成モジュールは、前記投影後の画像特徴投影ベクトルに基づき画像領域間の連結を形成し、画像分割モジュールの操作に基づき画像と当該画像の画像領域との連結を形成し、前記注釈を有する画像に基づき画像と当該画像の注釈との連結を形成すると共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の連結を形成し、そして、これら全ての連結の加重値を算出し、これらの連結と加重値によって表示画像と画像領域と注釈との三者間の関係を示す図を得る。

本発明に係る実施例の画像学習方法は、第一の保存ステップと、画像分割ステップと、特徴ベクトル抽出ステップと、サブ空間投影ステップと、第二の保存ステップと、グラフ形成ステップと、を含む。各ステップについては、次のように説明する。

第一の保存ステップは、注釈を有する画像及び注釈用キーワード集合を保存し、各画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。

画像分割ステップは、前記保存された画像に対してそれぞれ分割操作を行い、画像を少なくとも一つの画像領域に分割する。

特徴ベクトル抽出ステップは、各画像領域の画像特徴により画像特徴ベクトルを抽出すると共にテキスト特徴によりテキスト特徴ベクトルを抽出し、画像の本質的な内容を捉えて余計な情報とノイズを除去する。

サブ空間投影ステップは、各画像領域の画像特徴ベクトルをサブ空間に投影し画像特徴投影ベクトルを得ると共に、各画像領域のテキスト特徴ベクトルをサブ空間に投影しテキスト特徴投影ベクトルを得ることにより、画像特徴とテキスト特徴との共分散を最大化させる。

第二の保存ステップは、投影後に得られた画像特徴投影ベクトルとテキスト特徴投影ベクトルをそれぞれ保存する。

グラフ形成ステップは、前記投影後の画像特徴投影ベクトルに基づき画像領域間の連結を行い、画像分割モジュールの操作に基づき画像と当該画像の画像領域との連結を行い、前記注釈を有する画像に基づき画像と当該画像の注釈との連結を行うと共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の連結を行い、そして、これら全ての連結の加重値を算出し、これらの連結と加重値により表示画像と画像領域と注釈と三者間の関係を示す図を得る。

グラフ形成モジュールから得られたグラフは、画像自動注釈や画像検索等に利用されることについて、後述する。

以下、上記画像学習装置の各モジュール及び学習方法の各ステップについて具体的に説明する。

画像分割モジュールは、前記第一の保存モジュールに保存される画像に対してそれぞれ分割操作を行い、画像を少なくとも一つの画像領域に分割する。本発明に係る実施例は、具体的に、画像を一つまたは２つの画像領域若しくは複数の画像領域に分割することができる。後述において二つ又は二つ以上の画像領域を用いて説明を行う。

本発明に係る実施例において、画像分割は具体的に以下の方法を用いて行われる。

方法１は、図２に示すように、元画像を複数の矩形状ブロックに（第一の保存モジュールに保存される、注釈を有する画像）を分割する。

方法２は、図３に示すように、元画像を、四分木法により、複数の解像度を有するブロックに分割する。

方法３は、図４に示すように、元画像を、画像分割法により、複数の重複しない同質的領域に分割する。

ここでは、上述した画像分割方法を用いたが、本発明に係る実施例においてこれらの画像分割方法に限らず、勿論、他の従来の画像分割技術を採用することもできる。

画像分割後、各画像の各画像領域は、対応する画像特徴を有する。特徴ベクトル抽出モジュールにより画像特徴ベクトルと元画像全体のテキスト特徴ベクトルを抽出する必要がある。

全ての従来方法は画像領域における画像特徴ベクトルの抽出に適用できる。しかし、本発明に係る実施例は、画像重要特徴の抽出能力と抽出速度を考慮し、色とテクスチャー情報を混合するLBP（local binary pattern、ローカルバイナリパターン）特徴を採用した。なお、LBPはテクスチャーに基づく特徴であり、計算しやすく、且つ、色とコントラスト情報を混合しやすい利点を有する。

全ての画像領域の画像特徴ベクトルを得た後(ここで、便宜のため、仮に画像特徴ベクトルの長さをｐとする)、画像領域の画像特徴ベクトルを列ベクトルとし、これによって画像特徴マトリックスXが得られる。

また、テキスト特徴ベクトルの抽出プロセスは、次のようなステップＡ１とステップＡ２とを含む。

ステップA1は、第一の保存モジュールにおける各画像の注釈を収集し、注釈は、画像内容に関連する一組のキーワードからなり、全てのキーワードは、予め設定された、要素数がｑである語彙集から得られる。

注釈は以下の２種類を有する。一つは、弱注釈であり、この場合は、画像のキーワードは画像全体に関連する。画像は複数のブロックに分割される可能性があるが、キーワードは画像全体のみに対応する。もう一つは、局部注釈であり、この場合は、画像の各画像領域は、各自のキーワードを有する。なお、弱注釈の場合は、全ての画像領域は画像全体の注釈を継続する。

ステップA2は、注釈を収集した後に、各画像領域のテキスト特徴ベクトル（長さｑ）を抽出し、得られた画像領域のテキスト特徴ベクトルを列ベクトルとすることでテキスト特徴マトリックスYを得る。

図５はテキスト特徴マトリックスYの一例を示す。図５において画像領域のテキスト特徴ベクトルはｑ次元である。画像のキーワードに対応する要素は１であり、それ以外の要素は全て０である。本例において、要素数がｑ(ｑ＝８)である語彙テーブルにおける第１、３、５個のキーワードは第一の領域を構成する。

上述した画像特徴マトリックスXとテキスト特徴マトリックスYを得た後、サブ空間投影を行う必要があるが、サブ空間投影に関する詳細な説明に先立って、当該操作の効果について説明する。

サブ空間投影処理は２つの目的がある。先ず、画像特徴マトリックスとテキスト特徴マトリックスの次元を下げるためである。これによって後続のグラフ形成のスピードが速まれ、注釈と検索の速度が上げられる。次に、画像データとテキストデータとの一致性を強化するためである。これによって、後続の処理はグラフをよりロバストに形成することができ、最終的には、より高い画像注釈精度と画像検索精度が得られる。

本発明に係る実施例において、サブ空間投影モジュールの操作は次のようなステップＢ１、ステップＢ２及びステップＢ３を含む。

ステップB1は、画像特徴マトリックスとテキスト特徴マトリックス、即ち画像領域の画像特徴ベクトルの集合とテキスト特徴ベクトルの集合を取得する。

ステップB2は、画像特徴とテキスト特徴との共分散を最大化することによって画像特徴投影マトリックス及びテキスト特徴投影マトリックスを得る。

ステップB3は、画像特徴投影マトリックスと画像特徴マトリックスを用いて投影後の画像特徴マトリックスを取得し保存すると共に、テキスト特徴投影マトリックスとテキスト特徴マトリックスを用いて投影後のテキスト特徴マトリックスを取得して保存する。

本発明に係る実施例において、画像と注釈との共分散を最大化させるように画像特徴を正準共分散サブ空間に投影し、正準共分散分析（canonical covariance analysis：CCovA）を採用した。その理由は以下の通りである。

即ち、CCOｖA空間においておけば、類似画面を有する画像領域に対してより密接な関係を提供することができるため、領域間に最も近接する連結の誤差が減少される。また、画像特徴ベクトルの長さを小さくすることで計算時間が短縮される。

ここで、画像とテキスト特徴の共分散は数１で表される。

ここで、C_xyは画像とテキストとの相関マトリックスであって、以下のように定義される。

ここで、

はそれぞれ中心合わせ及び分散単位化後の画像特徴マトリックスとテキスト特徴マトリックスであり、次のように表すことができる。

ここで、

ここで、Nは画像領域の数であり、xiとyiはそれぞれマトリックスXとYにおける第i列である。

前記共分散を最大化させるよう相関マトリックスC_xyに対して特異値分解(SVD)を行う。例えば、C_xyは次のように特異値分解されることができる。

ここで、Dはｍ₀×ｍ₀の対角マトリックスであり、その対角には降順で配列された最も顕著な画像−テキストの共分散値がｍ₀個ある。

よって、画像特徴投影マトリックスW_xとテキスト特徴投影マトリックスW_yは次のように表される。
W_x=U
W_y=V

画像特徴投影マトリックスW_xとテキスト特徴投影マトリックスW_yを得た後に、画像とテキストの特徴ベクトル組（即ち積み重ねマトリックスXとY）は対応するサブ空間に投影される。投影後の画像特徴マトリックスX_projとテキスト特徴マトリックスY_projを次の式で表すことができる。
X_proj=W_x ^t×X
Y_proj=W_y ^t×Y

ここで、X_projとY_projはm₀×Nマトリックスであり、且つm₀<p，m₀<q。

投影後の画像特徴マトリックスX_projは画像領域の最近隣捜索を実現するために用いられ、これに対して、投影後のテキスト特徴マトリックスY_projはテキストサブ空間の最近隣捜索を最適化することに用いられる。

投影後の画像特徴マトリックスX_projとテキスト特徴マトリックスX_projを得た後に、これらを利用してグラフの生成を行う。以下、グラフの生成について詳細に説明する。

本発明に係る実施例において、グラフの生成は、投影後の画像特徴投影ベクトルに基づき画像領域間の第１連結を形成することと、画像分割モジュールの操作に基づき画像と当該画像の画像領域との間の第２連結を形成することと、注釈を有する画像に基づき画像と当該画像の注釈との間の第３連結を形成することと、投影後のテキスト特徴投影ベクトルに基づき注釈間の第４連結を形成することと、形成された全ての連結の加重値を算出することと、前記連結と加重値に基づき表示画像と画像領域と注釈との三者間の関係を示すグラフを得ることと、を含む。

前記第１連結、第２連結、第３連結、及び第４連結の何れにも複数の連結を有するために、便宜上、第１連結、第２連結、第３連結、及び第４連結の中の単一連結をサブ連結と称する。

画像、画像領域及び注釈は、後述においてノードを用いて説明される。ノード間の関係をノード間の連結線を用いて表示し、最終的なグラフを、隣接するマトリックスAによって表す。グラフにおけるノードiとノードjとの連結は、a_ij=w≠0を設けて示される。ここで、wは連結の加重値であり、iとjとの間に連結がなければa_ij=0と設定する。連結に方向がないため、マトリックスAは正方マトリックスであって、且つそのマトリックスにおいて対角項の何れも０である（ノードと当該ノード自身との連結を考慮しない）。

上述において形成されたグラフには、以下の３種類のノード、即ち、第１の保存モジュールにおける全ての原始画像（画像ノード）、分割後の全ての画像領域（画像領域ノード）、及び、注釈用キーワード(注釈ノード)がある。なお、画像ノードと画像領域ノードとの間、及び、画像ノードと注釈ノードとの間に従属関係が存在する。

以下、各部分についてそれぞれ具体的に説明する。

＜画像領域ノード間の連結の形成＞
画像領域ノードにおける各画像領域ノード（便宜上、第１画像領域ノードと称する）に対して、該第１画像領域ノードと、その他の画像領域ノードにおける該第１画像領域ノードに最も隣接するK１個の画像領域ノードとの連結を形成する必要があり、ここで、投影後の画像特徴マトリックスX_projに基づいて最近隣捜索を実施する。

本発明に係る実施例において、以下に述べる２つの方法により画像領域間の連結の加重値を与えることができる。

方法１は、全てのサブ連結に同様な加重値を付与する。即ち、各連結に同じ加重値を有する。

方法２は、サブ連結が対応する画像領域ノードの画像の差異に基づき全てのサブ連結に異なる加重値を付与する。具体的には、サブ連結が対応する画像領域ノードの画像の差異が大きければ大きいほど加重値が小さくなる。

前記方法２を採用する場合は、カレント画像領域ノードの画像との差異が比較的に大きい画像領域ノードは、サブ連結の加重値が小さいため、カレント画像領域ノードに与える影響が小さく、後続するRWR法による複数のアクセスの後にも正確な注釈及び/又は検索の結果を確保できるとのメリットがある。

以下、前記方法２の実施について例を挙げて説明する。

Link(ri→rj)で画像領域間のサブ連結の加重値を表す。ここで、iはｊと異なる値である。

Link(ri→rj)は、画像領域ノード間の画像の視覚的類似度により決定され、画像領域ノードiと画像領域ノードｊが画像投影サブ空間における特徴の距離の減少関数であると定義する。

例えば、距離d_imとして特徴間のノルム（norm）L2を用いた場合、減少関数を次のように定義する。

ここで、

は画像領域ノードr_iとそのK₁個の最近隣画像領域ノードとの平均距離である。Aは幅値パラメータである。

画像領域ノード間に視覚的差異が比較的に大きい場合に、距離d_imが増加し、加重値が小さくなる。これによりグラフにおいて誤った画像領域ノードの連結の形成を回避することができ、注釈と検索の品質が向上される。

以上においてノルムL2を用いて説明したが、これ以外の方法、例えば、chi-square又はentropy measures等の方法を用いることもできる。

＜画像ノードと当該画像ノードの画像領域ノードとの間の連結＞
各画像ノードに対して該画像ノードと当該画像ノードの全ての画像領域ノードとの間の連結を形成する。画像を分割しなければ、一つの画像領域ノードしか存在しない。この場合、画像ノードは画像領域ノードに相当する。

ここで、この連結は画像分割モジュールの操作によって得られる。

その中には、画像ノードと画像領域ノードとの間のサブ連結の加重値(Link(Imi→rj))は画像ノードと画像領域ノードとの間の親子関係によって確定される。画像領域ノードrjは画像ノードImiのサブ画像領域ノードである場合に、(Link(Imi→rj))は０でない定数となる。そうでなければ０となる。

＜画像ノードと当該画像ノードの注釈ノードの間の連結＞
各画像ノードに対して画像ノードと当該画像ノードの全ての注釈ノードとの間の連結を形成する。

ここで、上記連結の形成は第一の保存モジュールにおける画像情報に基づくものである。

本発明に係る実施例において、以下の２つの方法によって画像ノードと当該画像ノードの注釈ノードとの間の連結の加重値を確定することができる。

方法１は、サブ連結が対応する注釈ノードが第一の保存モジュールに保存される画像の注釈に出現した回数が多ければ多いほどサブ連結の加重値が大きくなる。

方法２は、サブ連結が対応する注釈ノードが第一の保存モジュールに保存される画像の注釈に出現した回数が多ければ多いほどサブ連結の加重値が小さくなる。

方法１の場合に、当然のように、RWR法は、出現頻率が高い注釈ワード（グラフに形成された連結が多いため）をしばしば巡回するので、常に、出現頻率の高いワードは検索画像の注釈結果として出力される可能性がある。しかし、この方法は正確でない場合もある。従って、方法２によって頻繁に出てくるワードへの偏りは避けられる。

具体的な加重値の確定方法は以下の通りである。

ここで、Bは幅値パラメータであり、βは出現頻率が高いワードと出現頻率が低いワードとの間のバランスを取る加重分配である。max_occurは出現頻率が最も高いワードの出現回数であり、min_occurは出現頻率が最も低いワードの出現回数である。w_j_occurはカレントワードノードw_jの出現回数である。

＜注釈ノード間の連結＞
各注釈ノードに対して該注釈ノードと、最も隣接するK2個の標準ノードとの間に連結を形成する。ここで、最近隣捜索は投影後のテキスト特徴マトリックスY_projによって行われる。

link(w_i→w_j)は注釈ノード間のサブ連結の加重値を表す。

w_iとw_j間の連結の加重値は、それらのキーワード間のテキストの類似度によって決定され、テキスト特徴iとjが投影後のテキストサブ空間における距離の減少関数であると定義される。例えば、特徴間のノルムL2を距離d_txtとして用いた場合、減少関数を次のように定義する。

ここで、

は、w_iとそのK_２個の最近隣注釈ノードとの平均距離である。Ｃは幅値パラメータである。ワード間に語意の差が比較的に大きい場合に、距離d_txtの増加に伴い加重値が小さくなる。これによって、語意が一致するワード間の連結が強化され、画像注釈のときに、相関性と一致性のより優れる注釈の出力が図られる。

上述した連結の形成と連結の加重の確定は、図６〜図９に示すように実現される。ここで、ImageIndexDB.sizeとIMIndexDB.sizeは画像領域ノードの数を示し、AnnImDB.sizeは第一の保存モジュールに保存される画像の数を示し、VOCA.sizeは注釈用キーワード集合におけるキーワードの数を示す。

上記より形成されたグラフは図１０に示される。

図１０において、画像ノードは2つのみ示される。第一の画像ノードI1は４つの画像領域ノードR1〜R4があり、第２画像ノードI2は４つの画像領域ノードR5〜R8がある。これと共に注釈ノードは９つを含み、それぞれW1〜W9である。また、同図は、画像領域ノード間の連結、画像ノードと画像領域ノードの連結、画像ノードと注釈ノードの連結、及び、注釈ノード間の連結を示す。

最終的に得られたグラフの隣接マトリックスAは図１１に示される。

よって、本発明に係る実施例による画像学習装置は、少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を少なくとも１つの画像領域に分割する画像分割モジュールと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、画像特徴マトリックスとテキスト特徴マトリックスを得る特徴ベクトル抽出モジュールと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するサブ空間投影モジュールと、前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存する保存モジュールと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成し、前記各連結の加重値をそれぞれ算出し、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るグラフ形成モジュールと、を含んでも良い。

前記分割操作は、前記各第１画像を矩形状ブロックに分割することと、前記各第１画像を、四分木法により、複数の解像度を有するブロックに分割することと、前記各第１画像を、画像分割法により、重複しない同質的領域に分割すること、を含んでも良い。

前記画像領域から前記画像特徴ベクタルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われ手も良い。

前記サブ空間は、正準共分散サブ空間であっても良い。

前記関係グラフには、前記第１画像、前記画像領域及び前記注釈がノードにより表記されても良く、前記関係グラフは、隣接マトリックスにより表示されても良く、前記関係グラフにおける前記ノード間の連結は、加重値によって表示されても良く、前記ノード間は、連結がなければ対応する加重値が０である。

前記第１連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第１連結におけるサブ連結の加重値が小さく、及び／又は、前記第３連結におけるサブ連結が対応する注釈ノードが前記第１画像の注釈に出現した回数が多い程、前記第３連結におけるサブ連結の加重値が小さく、及び／又は、前記第４連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第４連結におけるサブ連結の加重値が小さい。

前記隣接マトリックスAを得た後、本発明に係る実施例における画像検索は、前記隣接マトリックスAを用いて注釈と検索を行う。これについて以下に説明する。

本発明に係る実施例の画像自動注釈装置は、第一の保存モジュール、受け取りモジュール、画像分割モジュール、特徴ベクトル抽出モジュール、サブ空間投影モジュール、第二の保存モジュール、グラフ形成モジュール、グラフ更新モジュール、注釈ノード取得モジュール及び注釈モジュールを含む。各モジュールについては、次のように説明する。

第一の保存モジュールは、注釈を有する第1画像と注釈用キーワード集合とを保存するのに用いられ、各第1画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。

受け取りモジュールは、検索用第２画像を受け取る。

画像分割モジュールは、第1画像と第２画像に対してそれぞれ分割操作を行い、第1画像と第２画像を少なくとも一つの画像領域に分割する。

特徴ベクトル抽出モジュールは、画像特徴により前記第１画像における各画像領域の画像特徴ベクトルを抽出すると共にテキスト特徴により前記第１画像における各画像領域のテキスト特徴ベクトルを抽出することに用いられ、また、画像特徴により第２画像における各画像領域の画像特徴ベクトルを抽出することに用いられ、画像の余計な情報とノイズが除去されて本質的な内容を捉えることができる特徴ベクトルを抽出する。

サブ空間投影モジュールは、第１画像における画像領域の画像特徴ベクトルをサブ空間に投影し、投影後の第１画像の特徴投影ベクトルを得ると共に、第１画像における画像領域毎のテキスト特徴ベクトルをそれぞれサブ空間に投影しテキスト特徴ベクトルを得ることより、画像特徴とテキスト特徴の共分散を最大化させ、更に、第２画像における画像領域の画像特徴ベクトルをサブ空間に投影し第２画像の特徴投影ベクトルを得る。

第二の保存モジュールは、画像領域の投影後の第1画像の特徴投影ベクトル及びテキスト特徴投影ベクトルを保存する。

グラフ形成モジュールは、前記投影後の第１画像の特徴投影ベクトルに基づき画像領域間の第１連結を形成し、画像分割モジュールの操作に基づき画像と当該画像の画像領域との第２連結を形成し、前記注釈を有する画像に基づき画像と当該画像の注釈との第３連結を形成すると共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の第４連結を形成し、そして、形成された第１連結、第２連結、第３連結、及び第４連結の加重値を算出し、第１連結、第２連結、第３連結、第４連結、及びそれらの連結に対応する加重値によって、表示画像と画像領域と注釈との三者間の関係を示すグラフを得る。

グラフ更新モジュールは、前記グラフ形成モジュールより形成されたグラフに第２画像の画像ノードと画像領域ノードとを追加し、前記投影後の第1画像の特徴投影ベクトルと第２画像の特徴投影ベクトルに基づき、前記第2画像の各画像領域ノードと前記グラフ形成モジュールより形成されたグラフにおける画像領域ノードとの第5連結を形成し、更に、前記第2画像の画像ノードとその画像領域ノードとの第6連結を形成し、並びに、第5連結と第6連結の加重を確定すると共に、第5連結と第6連結及びこれらの連結に対応する加重に基づき、前記マトリックスより表されるグラフを更新する。

注釈ノード取得モジュールは、前記第2画像に対応する再起動ベクトル（Restart Vector）を形成し、更新された、マトリックスより表されるグラフに基づき、RWR法により前記第2画像に最も密接に関係する所定数の注釈ノードを得る。

注釈モジュールは、前記所定数の注釈ノードが対応するキーワードを用いて前記第2画像に注釈する。

本発明に係る実施例において、画像自動注釈装置は、画像学習装置により得られたグラフに基づいて、注釈待ち第２画像に対して予備処理（分割、画像領域の画像特徴ベクトルの抽出、画像特徴ベクトルの投影を含む）を行う。これらの予備処理について、画像学習装置の処理と同様であるため、詳細な記述を略す。

以下、画像自動注釈装置のグラフ更新モジュールと注釈取得モジュールについてより具体的に説明する。

グラフ更新モジュールの機能としては、形成されたグラフに検索用画像（即ち検索データ）の画像ノードと画像領域ノードを追加する。グラフはマトリックスにより表され、且つ当該マトリックスは対称的な正方形マトリックスであるため、追加に際して、図１１に示すマトリックスを基にして行及び列をそれぞれ加える。即ち、第２画像の画像ノードと画像領域ノードをマトリックスの行と列として元マトリックスAに加える。

具体的には、元マトリックスAの行と列に、新しいノードとして第２画像の画像ノードと画像領域ノードをそれぞれ追加するステップと、新しく追加された画像ノードと画像領域ノードとの連結を追加するステップと、新たに追加された画像領域ノードと、元グラフにおいてK1個の最も隣接する画像領域ノートとの間に連結を追加するステップと、新しく追加された連結の加重値を追加するステップと、を含む。

前記更新されたマトリックスの要素値は、形成された連結及び連結の加重値によって確定される。この連結の形成と加重の確定について既に説明したためにここでは説明を略す。

更新後のマトリックスは、図１２に示される。

図１２において、更新前のマトリックスの要素値を示していないが、Rnは新しい画像領域ノードを示し、Imnは検索待ちのノードを示す。

マトリックスを更新した後に、第２画像に対応する再起動ベクトルを形成する。RWR法を用いて、更新された、マトリックスによるグラフに基づき、前記第２画像に最も密接に関連する所定数の注釈ノードを取得し、前記所定数の注釈ノードが対応するキーワードを出力する。

以下、再起動ベクトルの形成について説明する。

画像注釈が検索量である画像検索に対しては、再起動ベクトルにおいて画像検索ノードに対応する要素は１であり、それ以外の要素は全て０である。

図１３は、再起動ベクトルを示す図である。図１３に示すように、Ｉｍｎノード（即ち、画像ノード）に対応する要素は１であり、それ以外の要素は全て０である。

また、最も相関する所定数のキーワードを目標の画像注釈として選出するRWR法の処理ステップは、初期化ステップと、繰り返しステップと、抽出ステップと、出力ステップとを含む。各ステップについては、次のように説明する。

初期化ステップは、U₀を再起動ベクトルとして設定する。

繰り返しステップは、停止条件を満たすまでにU_n+1=(1-c)AU_n+cVを繰り返して実行する。

ここで、ｎは繰り返しインデックスであり、ｃは再起動確率を反映する定数であり、Aは更新されたグラフの隣接マトリックスを示す。Vは前記形成された再起動ベクトルである。U_nはステップｎが対応する状態ベクトルであり、このベクトルにおけるi番目の要素値は、グラフの上でｎ回の繰り返しを経て目標ノード（新たに加えられた画像ノード）からノードiに到達する確率を反映するものであり、言い換えれば、第i番目の要素が対応するノードと目標ノードとの間の相関度、即ち関係の密接程度を反映するものである。

抽出ステップは、状態ベクトルU_n中の注釈ノードに対応する要素を抽出し降順で配列させる。

出力ステップは、注釈ノードが対応する所定数のキーワードを順次に出力する。

以上に述べた処理ステップにおいて、RWRが繰返しを数回行った後に収束へ向かうように、更新された隣接マトリックスを先に正規化することができる。

正規化処理は以下の方法により行われる。

方法１は、更新されたマトリックスAにおいて、各列の要素を当該列の和で割る。これにより正規化された隣接マトリックス

は次のように示される。

方法２は、Laplacian正規化により正規化された隣接マトリックス

を求める。隣接マトリックス

は次のように示される。

勿論、正規化方法は上記ものに限らず、それ以外の方法を用いることもできる。

なお、正規化操作の後、後続するRWR法は正規化された隣接マトリックス

を利用して後続の処理を行うが、ここでは具体的な説明を省略する。

よって、本発明に係る実施例による、入力された第２画像に自動注釈を行う画像自動注釈装置は、学習モジュールと、予備処理モジュールと、グラフ更新モジュール及び注釈モジュールを含み、前記学習モジュールは、少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を少なくとも１つの画像領域に分割するユニットと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するユニットと、前記各連結の加重値をそれぞれ算出するユニットと、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、を含み、前記予備処理モジュールは、前記第２画像を受け取るユニットと、前記第２画像に対して分割操作を行い、前記第２画像を少なくとも１つの画像領域に分割するユニットと、前記第２画像の各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るユニットと、前記第２画像の画像特徴マトリックスをサブ空間に投影し、前記第２画像の投影後の画像特徴マトリックスを得るユニットと、を含み、前記グラフ更新モジュールは、前記投影後の第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて、前記第２画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第５連結を形成し、前記第２画像に対しての前記分割操作の結果に基づいて、前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するユニットと、前記第５連結と前記第６連結の加重値をそれぞれ確定するユニットと、前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するユニットと、を含み、前記注釈モジュールは、前記第２画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて再起動可能なランダムウォーク法により前記第２画像と最も密接に関係する所定数の注釈を取得するユニットと、前記所定数の注釈が対応するキーワードを用いて前記第２画像に対して注釈操作を行うユニットと、を含んでも良い。

前記分割操作は、前記第１画像と前記第２画像を矩形状ブロックに分割することと、前記第１画像と前記第２画像を、四分木法により、複数の解像度を有するブロックに分割することと、前記各第１画像と前記第２画像を、画像分割法により、重複しない同質的領域に分割すること、を含んでも良い。

前記画像領域から前記画像特徴ベクタルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われても良い。

前記サブ空間は、正準共分散サブ空間であっても良い。

前記関係グラフには、前記第１画像、前記第２画像、前記画像領域及び前記注釈がノードにより表記されても良く、前記関係グラフは、隣接マトリックスにより表示されても良く、前記関係グラフにおける前記ノード間の連結は、加重値によって表示されても良く、前記ノード間は、連結がなければ対応する加重値が０である。

前記注釈ステップを行う前に、更新された前記隣接マトリックスを正規化するステップをさらに含んでも良く、前記注釈ステップは、正規化された前記隣接マトリックスに基づいて行われても良い。

本発明に係る実施例の画像検索装置は、第２画像が入力されるときの画像検索に用いる場合に、第一の保存モジュールと、受け取りモジュールと、画像分割モジュールと、特徴ベクトル抽出モジュールと、サブ空間投影モジュールと、第二の保存モジュールと、グラフ形成モジュールと、グラフ更新モジュールと、検索モジュールと、出力モジュールと、含む。各モジュールについては、次のように説明する。

第一の保存モジュールは、注釈を有する第１画像と注釈用キーワード集合とを保存するに用いられ、各第１画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。

受け取りモジュールは、検索用第２画像を受け取る。

サブ空間投影モジュールは、第１画像における画像領域の画像特徴ベクトルをサブ空間に投影し、投影後の第１画像特徴投影ベクトルを得るとともに、第１画像における画像領域毎のテキスト特徴ベクトルをそれぞれにサブ空間に投影し、テキスト特徴投影ベクトルを得ることより、画像特徴とテキスト特徴の共分散を最大化させ、更に、第２画像における画像領域の画像特徴ベクトルをサブ空間に投影し、第２画像特徴投影ベクトルを得る。

第二の保存モジュールは、画像領域の投影後の第1画像特徴投影ベクトル及びテキスト特徴投影ベクトルを保存する。

グラフ形成モジュールは、前記投影後の第１画像特徴ベクトルに基づき画像領域間の第１連結を形成し、画像分割モジュールの操作に基づき画像と当該画像の画像領域との第２連結を形成し、前記注釈を有する画像に基づき画像と当該画像の注釈との第３連結を形成すると共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の第４連結を形成し、そして、形成された第１連結、第２連結、第３連結、及び第４連結の加重値を算出し、第１連結、第２連結、第３連結、第４連結、及び対応する加重値によって、マトリックスで表される、表示画像と画像領域と注釈との三者間の関係を示すグラフを得る。

グラフ更新モジュールは、前記グラフ形成モジュールにより形成されたグラフに第２画像の画像ノードと画像領域ノードを追加し、前記投影後の第1画像特徴投影ベクトルと第２画像特徴投影ベクトルに基づき、前記第2画像の各画像領域ノードと前記グラフ形成モジュールにより形成されたグラフにおける画像領域ノードとの第5連結を形成し、更に、前記第2画像の画像ノードとその画像領域ノードとの第6連結を形成し、並びに、第5連結と第6連結の加重値を確定すると共に、第5連結と第6連結及びこれらの連結に対応する加重値に基づき前記マトリックスにより表されるグラフを更新する。

検索モジュールは、前記第2画像に対応する再起動ベクトル（Restart Vector）を形成し、更新された、マトリックスにより表されるグラフに基づき、RWR法により前記第2画像に最も密接に関係する所定数の画像ノードを得る。

出力モジュールは、前記所定数の画像ノードが対応する前記第１画像を出力する。

本発明に係る実施例の画像検索装置は、自動注釈装置に比べると、出力結果に相違があるが、それ以外は全て同様である。従って、この画像検索装置についての説明を略す。

本発明に係る実施例の画像検索装置は、第２画像とキーワードが入力されるときの画像検索に用いる場合に、第一の保存モジュールと、受け取りモジュールと、画像分割モジュールと、特徴ベクトル抽出モジュールと、サブ空間投影モジュールと、第二の保存モジュールと、グラフ形成モジュールと、グラフ更新モジュールと、検索モジュールと、出力モジュールと、を含む。各モジュールについては、次のように説明する。

第一の保存モジュールは、注釈を有する第１画像と注釈用キーワード集合とを保存するに用いられ、各第１画像は、前記キーワード集合から得られる、当該画像の語意内容として少なくとも一つの注釈を有する。

受け取りモジュールは、検索用第２画像と前記キーワードとを受け取る。

サブ空間投影モジュールは、第１画像における画像領域の画像特徴ベクトルをサブ空間に投影し、投影後の第１画像特徴投影ベクトルを得ると共に、第１画像における画像領域毎のテキスト特徴ベクトルをそれぞれにサブ空間に投影してテキスト特徴投影ベクトルを得ることより、画像特徴とテキスト特徴の共分散を最大化させ、更に、第２画像における画像領域の画像特徴ベクトルをサブ空間に投影し、第２画像特徴投影ベクトルを得る。

グラフ形成モジュールは、前記投影後の第１画像特徴ベクトルに基づき画像領域間の第１連結を形成し、画像分割モジュールの操作に基づき画像とその画像領域との第２連結を形成し、前記注釈を有する画像に基づき画像とその注釈との第３連結を形成すると共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の第４連結を形成し、そして、形成された第１連結、第２連結、第３連結、及び第４連結の加重値を算出し、第１連結、第２連結、第３連結、第４連結、及びこれらの連結に対応する加重値によって、マトリックスにより表される、表示画像と画像領域と注釈との三者間の関係を示すグラフを得る。

画像更新モジュールは、前記グラフ形成モジュールにより形成されたグラフに第２画像の画像ノードと画像領域ノードを追加し、前記投影後の第1画像特徴投影ベクトルと第２画像特徴投影ベクトルに基づき、前記第2画像の各画像領域ノードと前記グラフ形成モジュールにより形成されたグラフにおける画像領域ノードとの第5連結を形成し、更に、前記第2画像の画像ノードとその画像領域ノードの第6連結を形成し、並びに、第5連結と第6連結の加重値を確定すると共に、第5連結と第6連結及びこれらの連結に対応する加重値に基づき前記マトリックスにより表されるグラフを更新する。

検索モジュールは、前記第2画像に対応する再起動ベクトル（Restart Vector）を形成し、更新された、マトリックスにより表されるグラフに基づき、RWR法により、前記第2画像と検索キーワードに最も密接に関係する所定数の画像ノードを得る。

出力モジュールは、前記所定数の画像ノードに対応する前記第１画像を出力する。

本発明に係る実施例の画像検索装置は、自動注釈装置に比べると、出力結果及び再起動ベクトルに相違があるが、それ以外は全て同様である。

前記再起動ベクトルは画像とキーワードの２つ部分を有するので、画像検索ノードと注釈ノードに対応するk個の要素は１であり、それ以外の要素は全て０である。

本発明に係る実施例の画像検索装置は、検索用キーワードが入力されるときの画像検索に用いられる場合に、第一の保存モジュールと、受け取りモジュールと、画像分割モジュールと、特徴ベクトル抽出モジュールと、サブ空間投影モジュールと、第二の保存モジュールと、グラフ形成モジュールと、検索モジュールと、出力モジュールと、を含む。各モジュールについては、次のように説明する。

第一の保存モジュール、注釈を有する第１画像と注釈用キーワード集合とを保存するに用いられ、各第１画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。

受け取りモジュールは、前記検索用キーワードを受け取る。

画像分割モジュールは、第1画像に対して分割操作を行い、少なくとも一つの画像領域になるように第1画像を分割する。

特徴ベクトル抽出モジュールは、画像特徴により前記第１画像における各画像領域の画像特徴ベクトルを抽出すると共にテキスト特徴により前記第１画像における各画像領域のテキスト特徴ベクトルを抽出することに用いられ、画像の余計な情報とノイズが除去されて本質的な内容を捉えることができる特徴ベクトルを抽出する。

サブ空間投影モジュールは、第１画像における画像領域の画像特徴ベクトルをサブ空間に投影し、投影後の第１画像特徴投影ベクトルを得ると共に、第１画像における画像領域毎のテキスト特徴ベクトルをそれぞれにサブ空間に投影し、テキスト特徴投影ベクトルを得ることにより、画像特徴とテキスト特徴の共分散を最大化させる。

検索モジュールは、前記検索用キーワードに対応する再起動ベクトル（Restart Vector）を形成し、更新された、マトリックスにより表されるグラフに基づき、RWR法により、前記検索キーワードに最も密接に関係する所定数の画像ノードを得る。

上記注釈装置と検索装置は、所定数のキーワードと画像を出力する必要がある。本発明に係る実施例において、その出力方法は、複数の方法を用いてもよい。例えば、次のような方法を用いることができる。

ベクトルUが収束し安定した後に、グラフ中の各ノードが、それに対応する値（目標ノードから当該ノードに到達する確率）を有し、そして、異なる種類のノード（画像ノード、領域画像ノード及び注釈ノード）の値をソートする。

画像注釈において、グラフ中の注釈ノードに対応するUにおける全ての要素を取り出し、確率順に降順配列をさせ、その中で先頭からｐ個のキーワードを捜索画像に最も相関する注釈とする。

画像検索において、グラフ中の注釈ノードに対応するUにおける全ての要素を取り出し、確率順に降順配列をさせ、その中で先頭からｐ個の画像を捜索（テキスト又は画像、若しくはこの両者が混在するもの）に最も相関する画像とする。

ここで、ｐは以下の方法によって確定されることができる。

方法１は、ある定数を設定する。

方法２は、相関確率により自動的に確定する。

方法２の場合、ｐは、次のように計算されることができる。

先頭からｐ個の出力(注釈又は検索)の累積確率は初めて閾値th1より大きく、又は、第ｐ番目の出力（注釈又は検索）の確率と第（ｐ＋１）番目の出力の確率との差は、初めて閾値th2より大きい。

勿論、上記以外の方法でｐを確定することもできるが、詳細について省略する。

図１４は、本発明に係る実施例における自動注釈用入力画像を示し、図１４に示すような画像を入力すると、得られた注釈は、室内、人、女、男である。

図１５は、本発明に係る実施例において「人、動物」を入力として用いるときに画像検索装置と方法により得られた検索結果を示す。

図１６は、本発明に係る実施例において画像を入力として用いるときに画像検索装置と方法により得られた検索結果を示し、図１６に左から一番目の画像は入力であり、右から3枚の画像は出力結果である。

図１７は、本発明に係る実施例においてテキストと画像を入力とするときに得られた検索の結果を示し、図１７に左一番目は入力画像であり、右から３枚の画像は出力の結果である。

よって、本発明に係る実施例による、入力が第２画像であるときに画像検索を行う画像検索装置は、学習モジュール、予備処理モジュール、グラフ更新モジュール及び検索モジュールを有し、前記学習モジュールは、少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を少なくとも１つの画像領域に分割するユニットと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するユニットと、前記各連結の加重値をそれぞれ算出するユニットと、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、を含み、前記予備処理モジュールは、前記第２画像を受け取るユニットと、前記第２画像に対して分割操作を行い、前記第２画像を少なくとも１つの画像領域に分割するユニットと、前記第２画像の各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るユニットと、前記第２画像の画像特徴マトリックスをサブ空間に投影し、前記第２画像の投影後の画像特徴マトリックスを得るユニットと、を含み、前記グラフ更新モジュールは、前記投影後の第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて、前記第２画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第５連結を形成するユニットと、前記第２画像に対しての前記分割操作の結果に基づいて、前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するユニットと、前記第５連結と前記第６連結の加重値をそれぞれ確定するユニットと、前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するユニットと、を含み、前記検索モジュールは、前記第２画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記第２画像と最も密接に関係する所定数の画像を取得して出力するユニットを含んでも良い。

前記入力は、更にキーワードを含み、前記検索モジュールは、前記第２画像と前記キーワードに対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、前記第２画像及び前記キーワードと最も密接に関連する所定数の画像を取得して出力しても良い。

前記サブ空間は、正準共分散サブ空間であっても良い。

更新された前記隣接マトリックスを正規化するユニットをさらに含み、前記検索モジュールは、正規化された前記隣接マトリックスに基づいて動作を行っても良い。

また、本発明に係る実施例による、入力が検索用キーワードであるときに画像検索を行う画像学習装置は、学習モジュールと検索モジュールを含み、前記学習モジュールは、少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を少なくとも１つの画像領域に分割するユニットと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するユニットと、前記各連結の加重値をそれぞれ算出するユニットと、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、を含み、前記検索モジュールは、前記検索用キーワードに対応する再起動ベクトルを形成し、前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記検索用キーワードと最も密接に関係する所定数の画像を取得するユニットを含む。

前記サブ空間は、正準共分散サブ空間であっても良い。

前記関係グラフには、前記第１画像、前記第２画像、前記画像領域及び前記注釈がノードにより表記されさても良く、前記関係グラフは、隣接マトリックスにより表示されても良く、前記関係グラフにおける前記ノード間の連結は、加重値によって表示されても良く、前記ノード間は、連結がなければ対応する加重値が０である。

前記隣接マトリックスを正規化するステップをさらに含み、前記検索モジュールは、正規化された前記隣接マトリックスに基づいて動作を行っても良い。

上述した図１４〜１６に関する記述及び実際の画像から見ると、本発明に係る実施例の方法と装置は、画像の自動注釈及び検索を良好に実現することができる。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。

J.Y.Pan, H.J.Yany, C.Faloutsos, and P.Duygulu, 「GCap: Graph-based automatic image captions,」in Proc. Of the 4th International Workshop on Multimedia Data and Document Engineering (MDDE), inconjunction with Computer Vision Pattern Recognition Conference(CVPR’04),2004

Claims

画像分割モジュール、特徴ベクトル抽出モジュール、サブ空間投影モジュール、保存モジュール、及びグラフ形成モジュールを含む画像学習装置における画像学習方法であって、
前記画像分割モジュールにより、少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するステップと、
前記特徴ベクトル抽出モジュールにより、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
前記サブ空間投影モジュールにより、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
前記保存モジュールにより、前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
前記グラフ形成モジュールにより、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記注釈を有する第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、
前記グラフ形成モジュールにより、前記各連結の加重値をそれぞれ算出するステップと、
前記グラフ形成モジュールにより、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
を含む、
ことを特徴とする画像学習方法。
前記分割操作は、
前記各第１画像を矩形状ブロックに分割することと、
前記各第１画像を、四分木法により、複数の解像度を有するブロックに分割することと、
前記各第１画像を、画像分割法により、重複しない同質的領域に分割すること、
を含む、
を特徴とする請求項１に記載の方法。
前記画像領域から前記画像特徴ベクトルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われる、
ことを特徴とする請求項１に記載の方法。
前記サブ空間は、正準共分散サブ空間である、
ことを特徴とする請求項１に記載の方法。
前記関係グラフには、前記第１画像、前記画像領域及び前記注釈がノードにより表記され、
前記関係グラフは、隣接マトリックスにより表示され、
前記関係グラフにおける前記ノード間の連結は、加重値によって表示され、前記ノード間は、連結がなければ対応する加重値が０である、
ことを特徴とする請求項１に記載の方法。
前記第１連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第１連結におけるサブ連結の加重値が小さく、及び／又は、前記第３連結におけるサブ連結が対応する注釈ノードが前記第１画像の注釈に出現した回数が多い程、前記第３連結におけるサブ連結の加重値が小さく、及び／又は、前記第４連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第４連結におけるサブ連結の加重値が小さい、
ことを特徴とする請求項５に記載の方法。
コンピュータに、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するステップと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記注釈を有する第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、
前記各連結の加重値をそれぞれ算出するステップと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
を実行させる、
ことを特徴とする画像学習プログラム。
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割する画像分割モジュールと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、画像特徴マトリックスとテキスト特徴マトリックスを得る特徴ベクトル抽出モジュールと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するサブ空間投影モジュールと、
前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存する保存モジュールと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成し、前記各連結の加重値をそれぞれ算出し、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るグラフ形成モジュールと、
を含む、
ことを特徴とする画像学習装置。
入力された第２画像に対して自動注釈を行う画像自動注釈装置における画像自動注釈方法であって、
前記画像自動注釈装置は、学習モジュールと、予備処理モジュールと、グラフ更新モジュール及び注釈モジュールを含み、
前記画像自動注釈方法は、学習ステップ、予備処理ステップ、グラフ更新ステップ及び注釈ステップを含み、
前記学習ステップは、前記学習モジュールにより、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するステップと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、
前記各連結の加重値をそれぞれ算出するステップと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
を含み、
前記予備処理ステップは、前記予備処理モジュールにより、
前記第２画像を受け取るステップと、
前記第２画像に対して分割操作を行い、前記第２画像を複数の画像領域に分割した後に、前記第２画像の各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るステップと、
前記第２画像の画像特徴マトリックスをサブ空間に投影し、前記第２画像の投影後の画像特徴マトリックスを得るステップと、
を含み、
前記グラフ更新ステップは、前記グラフ更新モジュールにより、
前記投影後の第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて、前記第２画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第５連結を形成するステップと、
前記第２画像に対しての前記分割操作の結果に基づいて、前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するステップと、
前記第５連結と前記第６連結の加重値をそれぞれ確定するステップと、
前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するステップと、
を含み、
前記注釈ステップは、前記注釈モジュールにより、
前記第２画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて再起動可能なランダムウォーク法により前記第２画像と最も密接に関係する所定数の注釈を取得するステップと、
前記所定数の注釈が対応するキーワードを用いて前記第２画像に対して注釈操作を行うステップと、
を含む、
ことを特徴とする画像自動注釈方法。
前記分割操作は、
前記第１画像と前記第２画像を矩形状ブロックに分割することと、
前記第１画像と前記第２画像を、四分木法により、複数の解像度を有するブロックに分割することと、
前記各第１画像と前記第２画像を、画像分割法により、重複しない同質的領域に分割すること、
を含む、
ことを特徴とする請求項９に記載の方法。
前記画像領域から前記画像特徴ベクトルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われる、
ことを特徴とする請求項９に記載の方法。
前記サブ空間は、正準共分散サブ空間である、
ことを特徴とする請求項９に記載の方法。
前記関係グラフには、前記第１画像、前記第２画像、前記画像領域及び前記注釈がノードにより表記され、
前記関係グラフは、隣接マトリックスにより表示され、
前記関係グラフにおける前記ノード間の連結は、加重値によって表示され、前記ノード間は、連結がなければ対応する加重値が０である、
ことを特徴とする請求項９に記載の方法。
前記第１連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第１連結におけるサブ連結の加重値が小さく、及び／又は、前記第３連結におけるサブ連結が対応する注釈ノードが前記第１画像の注釈に出現した回数が多い程、前記第３連結におけるサブ連結の加重値が小さく、及び／又は、前記第４連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第４連結におけるサブ連結の加重値が小さい、
ことを特徴とする請求項１３に記載の方法。
前記注釈ステップを行う前に、更新された前記隣接マトリックスを正規化するステップをさらに含み、
前記注釈ステップは、正規化された前記隣接マトリックスに基づいて行われる、
ことを特徴とする請求項１３に記載の方法。
入力された第２画像に対して自動注釈を行うための画像自動注釈プログラムであって、
コンピュータに、学習ステップ、予備処理ステップ、グラフ更新ステップ及び注釈ステップを実行させ、
前記学習ステップは、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するステップと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、
前記各連結の加重値をそれぞれ算出するステップと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
を含み、
前記予備処理ステップは、
前記第２画像を受け取るステップと、
前記第２画像に対して分割操作を行い、前記第２画像を複数の画像領域に分割した後に、前記第２画像の各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るステップと、
前記第２画像の画像特徴マトリックスをサブ空間に投影し、前記第２画像の投影後の画像特徴マトリックスを得るステップと、
を含み、
前記グラフ更新ステップは、
前記投影後の第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて、前記第２画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第５連結を形成するステップと、
前記第２画像に対しての前記分割操作の結果に基づいて、前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するステップと、
前記第５連結と前記第６連結の加重値をそれぞれ確定するステップと、
前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するステップと、
を含み、
前記注釈ステップは、
前記第２画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて再起動可能なランダムウォーク法により前記第２画像と最も密接に関係する所定数の注釈を取得するステップと、
前記所定数の注釈が対応するキーワードを用いて前記第２画像に対して注釈操作を行うステップと、
を含む、
ことを特徴とする画像自動注釈プログラム。
入力された第２画像に自動注釈を行う画像自動注釈装置であって、
学習モジュールと、予備処理モジュールと、グラフ更新モジュール及び注釈モジュールを含み、
前記学習モジュールは、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するユニットと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、
前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するユニットと、
前記各連結の加重値をそれぞれ算出するユニットと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、
を含み、
前記予備処理モジュールは、
前記第２画像を受け取るユニットと、
前記第２画像に対して分割操作を行い、前記第２画像を複数の画像領域に分割するユニットと、
前記第２画像の各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るユニットと、
前記第２画像の画像特徴マトリックスをサブ空間に投影し、前記第２画像の投影後の画像特徴マトリックスを得るユニットと、
を含み、
前記グラフ更新モジュールは、
前記投影後の第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて、前記第２画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第５連結を形成し、前記第２画像に対しての前記分割操作の結果に基づいて、前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するユニットと、
前記第５連結と前記第６連結の加重値をそれぞれ確定するユニットと、
前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するユニットと、
を含み、
前記注釈モジュールは、
前記第２画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて再起動可能なランダムウォーク法により前記第２画像と最も密接に関係する所定数の注釈を取得するユニットと、
前記所定数の注釈が対応するキーワードを用いて前記第２画像に対して注釈操作を行うユニットと、
を含む、
ことを特徴とする画像自動注釈装置。
入力が第２画像であるときに画像検索を行う画像検索装置における画像検索方法であって、
前記画像検索装置は、学習モジュール、予備処理モジュール、グラフ更新モジュール及び検索モジュールを有し、
前記画像検索方法は、学習ステップ、予備処理ステップ、グラフ更新ステップ及び検索ステップを含み、
前記学習ステップは、前記学習モジュールにより、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するステップと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、
前記各連結の加重値をそれぞれ算出するステップと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
を含み、
前記予備処理ステップは、前記予備処理モジュールにより、
前記第２画像を受け取るステップと、
前記第２画像に対して分割操作を行い、前記第２画像を複数の画像領域に分割するステップと、
前記第２画像の各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るステップと、
前記第２画像の画像特徴マトリックスをサブ空間に投影し、前記第２画像の投影後の画像特徴マトリックスを得るステップと、
を含み、
前記グラフ更新ステップは、前記グラフ更新モジュールにより、
前記投影後の第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて、前記第２画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第５連結を形成するステップと、
前記第２画像に対しての前記分割操作の結果に基づいて、前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するステップと、
前記第５連結と前記第６連結の加重値をそれぞれ確定するステップと、
前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するステップと、
を含み、
前記検索ステップは、前記検索モジュールにより、
前記第２画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記第２画像と最も密接に関係する所定数の画像を取得して出力するステップを含む、
ことを特徴とする画像検索方法。
前記入力は、更にキーワードを含み、
前記検索ステップにおいて、前記第２画像と前記キーワードに対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、前記第２画像及び前記キーワードと最も密接に関連する所定数の画像を取得して出力する、
ことを特徴とする請求項１８に記載の方法。
前記分割操作は、
前記第１画像と前記第２画像を矩形状ブロックに分割することと、
前記第１画像と前記第２画像を、四分木法により、複数の解像度を有するブロックに分割することと、
前記各第１画像と前記第２画像を、画像分割法により、重複しない同質的領域に分割すること、
を含む、
ことを特徴とする請求項１８又は１９に記載の方法。
前記画像領域から前記画像特徴ベクトルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われる、
ことを特徴とする請求項１８又は１９に記載の方法。
前記サブ空間は、正準共分散サブ空間である、
ことを特徴とする請求項１８又は１９に記載の方法。
前記関係グラフには、前記第１画像、前記第２画像、前記画像領域及び前記注釈がノードにより表記され、
前記関係グラフは、隣接マトリックスにより表示され、
前記関係グラフにおける前記ノード間の連結は、加重値によって表示され、前記ノード間は、連結がなければ対応する加重値が０である、
ことを特徴とする請求項１８又は１９に記載の方法。
前記第１連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第１連結におけるサブ連結の加重値が小さく、及び／又は、前記第３連結におけるサブ連結が対応する注釈ノードが前記第１画像の注釈に出現した回数が多い程、前記第３連結におけるサブ連結の加重値が小さく、及び／又は、前記第４連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第４連結におけるサブ連結の加重値が小さい、
ことを特徴とする請求項２３に記載の方法。
前記検索ステップを行う前に、更新された前記隣接マトリックスを正規化するステップをさらに含み、
前記検索ステップは、正規化された前記隣接マトリックスに基づいて行われる、
ことを特徴とする請求項２３に記載の方法。
入力が第２画像であるときに画像検索を行うための画像検索プログラムであって、
コンピュータに、学習ステップ、予備処理ステップ、グラフ更新ステップ及び検索ステップを実行させ、
前記学習ステップは、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するステップと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、
前記各連結の加重値をそれぞれ算出するステップと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
を含み、
前記予備処理ステップは、
前記第２画像を受け取るステップと、
前記第２画像に対して分割操作を行い、前記第２画像を複数の画像領域に分割するステップと、
前記第２画像の各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るステップと、
前記第２画像の画像特徴マトリックスをサブ空間に投影し、前記第２画像の投影後の画像特徴マトリックスを得るステップと、
を含み、
前記グラフ更新ステップは、
前記投影後の第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて、前記第２画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第５連結を形成するステップと、
前記第２画像に対しての前記分割操作の結果に基づいて、前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するステップと、
前記第５連結と前記第６連結の加重値をそれぞれ確定するステップと、
前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するステップと、
を含み、
前記検索ステップは、
前記第２画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記第２画像と最も密接に関係する所定数の画像を取得して出力するステップを含む、
ことを特徴とする画像検索プログラム。
入力が第２画像であるときに画像検索を行う画像検索装置であって、
学習モジュール、予備処理モジュール、グラフ更新モジュール及び検索モジュールを有し、
前記学習モジュールは、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するユニットと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、
前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するユニットと、
前記各連結の加重値をそれぞれ算出するユニットと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、
を含み、
前記予備処理モジュールは、
前記第２画像を受け取るユニットと、
前記第２画像に対して分割操作を行い、前記第２画像を複数の画像領域に分割するユニットと、
前記第２画像の各画像領域から画像特徴ベクトルを抽出し、前記第２画像の画像特徴マトリックスを得るユニットと、
前記第２画像の画像特徴マトリックスをサブ空間に投影し、前記第２画像の投影後の画像特徴マトリックスを得るユニットと、
を含み、
前記グラフ更新モジュールは、
前記投影後の第１画像の画像特徴マトリックスと前記第２画像の画像特徴マトリックスに基づいて、前記第２画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第５連結を形成するユニットと、
前記第２画像に対しての前記分割操作の結果に基づいて、前記第２画像と前記第２画像の画像領域ノードとの第６連結を形成するユニットと、
前記第５連結と前記第６連結の加重値をそれぞれ確定するユニットと、
前記第５連結、前記第６連結、及び、前記第５連結と前記第６連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するユニットと、
を含み、
前記検索モジュールは、
前記第２画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記第２画像と最も密接に関係する所定数の画像を取得して出力するユニットを含む、
ことを特徴とする画像検索装置。
入力が検索用キーワードであるときに画像検索を行う画像学習装置における画像検索方法であって、
前記画像学習装置は、学習モジュールと検索モジュールを含み、
前記画像検索方法は、学習ステップと検索ステップを有し、
前記学習ステップは、前記学習モジュールにより、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するステップと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成するステップと、
前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成するステップと、
前記注釈を有する第１画像に基づいて前記第１画像と前記注釈との第３連結を形成するステップと、
前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、
前記各連結の加重値をそれぞれ算出するステップと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
を含み、
前記検索ステップは、前記検索モジュールにより、
前記検索用キーワードに対応する再起動ベクトルを形成し、前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記検索用キーワードと最も密接に関係する所定数の画像を取得するステップを含む、
ことを特徴とする画像検索方法。
前記分割操作は、
前記第１画像と第２画像を矩形状ブロックに分割することと、
前記第１画像と前記第２画像を、四分木法により、複数の解像度を有するブロックに分割することと、
前記各第１画像と前記第２画像を、画像分割法により、重複しない同質的領域に分割すること、
ことを特徴とする請求項２８に記載の方法。
前記画像領域から前記画像特徴ベクトルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われる、
ことを特徴とする請求項２８に記載の方法。
前記サブ空間は、正準共分散サブ空間である、
ことを特徴とする請求項２８に記載の方法。
前記関係グラフには、前記第１画像、第２画像、前記画像領域及び前記注釈がノードにより表記され、
前記関係グラフは、隣接マトリックスにより表示され、
前記関係グラフにおける前記ノード間の連結は、加重値によって表示され、前記ノード間は、連結がなければ対応する加重値が０である、
ことを特徴とする請求項２８に記載の方法。
前記第１連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第１連結におけるサブ連結の加重値が小さく、及び／又は、前記第３連結におけるサブ連結が対応する注釈ノードが前記第１画像の注釈に出現した回数が多い程、前記第３連結におけるサブ連結の加重値が小さく、及び／又は、前記第４連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第４連結におけるサブ連結の加重値が小さい、
ことを特徴とする請求項３２に記載の方法。
前記隣接マトリックスを正規化するステップをさらに含み、
前記検索ステップは、正規化された前記隣接マトリックスに基づいて行われる、
ことを特徴とする請求項３２に記載の方法。
入力が検索用キーワードであるときに画像検索を行うための画像検索プログラムであって、
コンピュータに、学習ステップと検索ステップを実行させ、
前記学習ステップは、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するステップと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成するステップと、
前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成するステップと、
前記注釈を有する第１画像に基づいて前記第１画像と前記注釈との第３連結を形成するステップと、
前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するステップと、
前記各連結の加重値をそれぞれ算出するステップと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
を含み、
前記検索ステップは、
前記検索用キーワードに対応する再起動ベクトルを形成し、前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記検索用キーワードと最も密接に関係する所定数の画像を取得するステップを含む、
ことを特徴とする画像検索プログラム。
入力が検索用キーワードであるときに画像検索を行う画像学習装置であって、
学習モジュールと検索モジュールを含み、
前記学習モジュールは、
少なくとも一つの、注釈を有する第１画像に対して分割操作を行い、前記各第１画像を複数の画像領域に分割するユニットと、
前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、
前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第１画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、
前記投影後の前記第１画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、
前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第１連結を形成し、前記分割操作の結果に基づいて前記第１画像と前記画像領域との第２連結を形成し、前記第１画像に基づいて前記第１画像と前記注釈との第３連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第４連結を形成するユニットと、
前記各連結の加重値をそれぞれ算出するユニットと、
前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、
を含み、
前記検索モジュールは、
前記検索用キーワードに対応する再起動ベクトルを形成し、前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記検索用キーワードと最も密接に関係する所定数の画像を取得するユニットを含む、
ことを特徴とする画像検索装置。