JP5282658B2 - 画像学習、自動注釈、検索方法及び装置 - Google Patents

画像学習、自動注釈、検索方法及び装置 Download PDF

Info

Publication number
JP5282658B2
JP5282658B2 JP2009121359A JP2009121359A JP5282658B2 JP 5282658 B2 JP5282658 B2 JP 5282658B2 JP 2009121359 A JP2009121359 A JP 2009121359A JP 2009121359 A JP2009121359 A JP 2009121359A JP 5282658 B2 JP5282658 B2 JP 5282658B2
Authority
JP
Japan
Prior art keywords
image
connection
feature matrix
annotation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009121359A
Other languages
English (en)
Other versions
JP2009282980A (ja
Inventor
バヨール ティモシー
ツァイジ ジュ
盈輝 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2009282980A publication Critical patent/JP2009282980A/ja
Application granted granted Critical
Publication of JP5282658B2 publication Critical patent/JP5282658B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Description

本発明は、画像処理技術に関し、特に、画像学習、自動注釈、検索方法及び装置に関する。
ネットワークの急速な発展とデジタル画像センサーの携帯電話及び一般家庭用デジタルカメラへの普及に伴い、大量のデジタル画像資源が発生するようになった。
このように蓄積された大量の画像データに有効且つ実用的な画像検索システムが必要である。このため、画像における明確な語意内容を抽出しユーザーのアクセス及び検索に供するための、内容に基づく画像検索(CBIR)に関する研究が行なわれた。
CBIRは、初期段階において、画像の類似度合に基づいた検索を基本とする。即ち、ユーザーによる入力が画像、色または概略図である場合に、検索の結果もそれらに類似する画像である。しかし、このようなCBIRは実用的でない。主な原因として以下の2点が挙げられる。
先ず、ユーザーが画像を用意し、又は、色を的確に選択し及び下書きを描くテクニックを有することが要求される。しかし、この要求はユーザーにとって高いので、システムの普及は制限された。
次に、類似度合に基づく画像検索は、底層画像の類似性の比較に依存する。しかし、底層画像の特徴と高層画像の情報との間に語意の差があるから、検索の結果として視覚上では類似するものの、語意では大きく相違するということになりがちである。これは検索結果の正確性に大きな影響を与えてしまう。
CBIRにおける上記問題を解決するために、研究者たちが画像注釈に基づく検索システムを提案した。この検索システムは、テキスト情報を用いて画像データに注釈を付ける。これにより、テキストに基づいて画像を検索することが可能となる。この方法は、ユーザーの能力への制限を減らしたため、ユーザーは、キーワードを入力するだけで検索を行うことができる。
従来の画像自動注釈方法は、次のような方法を有する。
方法1は、元データ(例えば、デジタルカメラ撮影時の画像に関連する時間、GPS情報、画像名、及び、デジタルファイルフォーマットにおける画像に関連するテキスト等)に基づく自動注釈である。
方法2は、学習段階でコンピュータによる視覚化技術及びマシン学習技術を用いて、文字と画像との間に存在する複雑な関連を推測した後に、当該関連を利用して学習段階に現われなかった画像に対して自動注釈を行う。
しかし、元データに基づく自動注釈方法には以下の問題がある。
画像の元データは画像に描かれた内容と関連しない可能性があるため、画像注釈の品質が劣る。また、テキスト付き画像にしか適用できず、応用範囲が大きく制限される。
方法1には不可避な欠陥が存在するため、方法1の改良方法として方式2は提案された。詳細は以下の通りである。
学習段階においてコンピュータによる視覚化技術とマシン学習技術を用いて文字と画像との間に存在する複雑な関連を推測した後に、当該関連を利用して学習段階で現われなかった画像に対して自動注釈を行う方法は以下のステップを含む。
ステップAは、領域分割方法を用いて画像を分割し、領域毎に特徴ベクトルを算出する。
ステップBは、学習段階で、各領域が当該各領域に最も隣接するk個の領域とグラフ上で連結するとともに、画像が当該画像に相関する各々の真の注釈とグラフ上で連結する。
ステップCは、自動注釈段階で、再起動可能なランダムウォーク法(RWR)を用いて形成されたグラフを巡回し、対応する注釈を得る。
上記方法については、非特許文献1を参照する。
GCap法の理論的基礎は、既に注釈された画像(テスト画像)のノードへのアクセス数がそれ以外のノードへのアクセス数よりも多いことである。それにより、注釈ノードへのアクセス数をチェックすることによって相関性の最も高い注釈を見つけることができる。
しかし、上記方法を利用して学習を行うことにより得られたグラフの中に誤って連結された画像領域が生じる可能性があり、注釈の正確性が低下する。
本発明の目的は、画像の自動注釈と検索の正確性を向上するための画像学習、自動注釈、検索方法及び装置を提供することにある。
上記目的を達成するために、本発明に係る実施例は画像学習方法を提供する。この方法は、少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を少なくとも1つの画像領域に分割するステップと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出して画像特徴マトリックスとテキスト特徴マトリックスを求めるステップと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴の共分散を最大化するステップと、前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記画像分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記注釈を有する第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、前記全ての連結の加重値を算出するステップと、前記全ての連結と前記全ての連結にそれぞれ対応する前記加重値とに基づいて表示画像と前記画像領域と前記注釈との三者間の関係グラフを求めるステップと、を含む。
また、上記目的を実現するために、本発明に係る実施例は画像学習装置を提供する。この装置は、少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を少なくとも1つの画像領域に分割する画像分割モジュールと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出して画像特徴マトリックスとテキスト特徴マトリックスを求める特徴ベクトル抽出モジュールと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴の共分散を最大化するサブ空間投影モジュールと、前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存する保存モジュールと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記画像分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記注釈を有する第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、前記全ての連結の加重値を算出し、前記全ての連結と前記全ての連結にそれぞれ対応する前記加重値とに基づいて表示画像と前記画像領域と前記注釈との三者間の関係グラフを求めるグラフ形成モジュールと、を含む。
また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像自動注釈方法を提供する。この方法は、入力された第2画像に対して自動注釈を行う画像自動注釈方法であって、予備処理ステップ、グラフ更新ステップ及び注釈ステップを含む。前記予備処理ステップは、第2画像を受け取るステップと、前記第2画像に対して分割操作を行い、当該第2画像を少なくとも1つの画像領域に分割し、前記各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るステップと、前記画像特徴マトリックスをサブ空間に投影し、投影後の前記第2画像の画像特徴マトリックスを得るステップと、を含む。前記グラフ更新ステップは、投影後の前記第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて前記第2画像の画像領域ノードと前記グラフ中の画像領域ノードとの第5連結を形成するステップと、前記画像分割操作の結果に基づいて前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するステップと、前記第5連結と前記第6連結の加重値を確定するステップと、前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記グラフを更新するステップと、を含む。前記注釈ステップは、前記第2画像に対応する再起動ベクトルを形成し、更新された前記グラフに基づいて再起動可能なランダムウォーク法により前記第2画像に最も密接に関連する所定数の注釈を求めるステップと、前記所定数の注釈ノードが対応するキーワードを用いて前記第2画像に対して注釈を行うステップと、を含む。
また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像自動注釈装置を提供する。この装置は、入力された第2画像に対して自動注釈を行う画像自動注釈装置であって、予備処理モジュール、グラフ更新モジュール及び注釈モジュールを含む。前記予備処理モジュールは、第2画像を受け取るユニットと、前記第2画像に対して分割操作を行い、当該第2画像を少なくとも1つの画像領域に分割するユニットと、前記第2画像の前記各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るユニットと、前記画像特徴マトリックスをサブ空間に投影し、投影後の前記第2画像の画像特徴マトリックスを得るユニットと、を含む。前記グラフ更新モジュールは、投影後の前記第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて前記第2画像の画像領域ノードと前記グラフ中の画像領域ノードとの第5連結を形成すると共に、前記画像分割操作の結果に基づいて前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するユニットと、前記第5連結と前記第6連結の加重値をそれぞれ確定するユニットと、前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記グラフを更新するユニットと、を含む。前記注釈モジュールは、前記第2画像に対応する再起動ベクトルを形成し、更新された前記グラフに基づいて再起動可能なランダムウォーク法により前記第2画像に最も密接に関連する所定数の注釈を求めるユニットと、前記所定数の注釈ノードが対応するキーワードを用いて前記第2画像に対して注釈を行うユニットと、を含む。
また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像検索方法を提供する。この方法は、入力された第2画像に基づいて画像を検索する方法であって、予備処理ステップ、グラフ更新ステップ及び検索ステップを含む。前記予備処理ステップは、第2画像を受け取るステップと、前記第2画像に対して分割操作を行い、当該第2画像を少なくとも1つの画像領域に分割するステップと、前記少なくとも1つの画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るステップと、前記画像特徴マトリックスをサブ空間に投影し、投影後の前記第2画像の画像特徴マトリックスを得るステップと、を含む。前記グラフ更新ステップは、投影後の前記第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて前記第2画像の画像領域ノードと前記グラフ中の画像領域ノードとの第5連結を形成するステップと、前記画像分割操作の結果に基づいて前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するステップと、前記第5連結と前記第6連結の加重値をそれぞれ確定するステップと、前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記グラフを更新するステップと、を含む。前記検索ステップは、前記第2画像に対応する再起動ベクトルを形成し、更新後の前記グラフに基づいて再起動可能なランダムウォーク法により前記第2画像に最も密接に関連する所定数の画像を取得し出力するステップを含む。
また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像検索装置を提供する。この装置は、入力が第2画像であるときに画像検索を行う装置であって、予備処理モジュール、グラフ更新モジュール及び検索モジュールを含む。前記予備処理モジュールは、第2画像を受け取るユニットと、前記第2画像に対して分割操作を行い、当該第2画像を少なくとも1つの画像領域に分割するユニットと、前記各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るユニットと、前記画像特徴マトリックスをサブ空間に投影し、投影後の前記第2画像の画像特徴マトリックスを得るユニットと、を含む。前記グラフ更新モジュールは、投影後の前記第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて前記第2画像の画像領域ノードと前記グラフ中の画像領域ノードとの第5連結を形成するユニットと、前記画像分割操作の結果に基づいて前記第2画像と画像領域ノードとの第6連結を形成するユニットと、前記第5連結と前記第6連結の加重値をそれぞれ確定するユニットと、前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記グラフを更新するユニットと、を含む。前記検索ステップは、前記第2画像に対応する再起動ベクトルを形成し、更新後の前記グラフに基づいて再起動可能なランダムウォーク法により前記第2画像に最も密接に関連する所定数の画像を得るユニットを含む。
また、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像検索方法を提供する。この方法は、入力が検索用キーワードであるときに画像検索を行う画像検索方法であって、検索ステップを含む。前記検索ステップは、前記検索用キーワードに対応する再起動ベクトルを形成し、前記グラフに基づいて再起動可能なランダムウォーク法により前記検索用キーワードに最も密接に関連する所定数の画像を取得し出力するステップを含む。
更に、上記目的を実現するために、本発明に係る実施例は、上記画像学習方法を用いた画像学習装置を提供する。この装置は、入力が検索用キーワードであるときに画像検索を行うための画像学習装置であって、検索モジュールを含む。前記検索モジュールは、前記検索用キーワードに対応する再起動ベクトルを形成し、前記グラフに基づいて再起動可能なランダムウォーク法により前記検索用キーワードに最も密接に関連する所定数の画像を取得するユニットを含む。
本発明に係る実施例は、以下の有益な効果を有する。
1、本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、学習段階で、画像領域の画像特徴ベクトルとテキスト特徴ベクトルを同一のサブ空間に投影し、画像特徴とテキスト特徴との共分散を最大化することにより、画像特徴ベクタルとテキスト特徴ベクタルの次元を減らす。これによって、グラフの形成速度を速めると同時に画像注釈及び検索の速度を向上し、画像とテキストデータとの一致性を強化することができ、また、グラフをよりロバストに形成し、最終的には、更に高い画像注釈精度と画像検索精度を得ることができる。
2、本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、使用されたサブ空間が正準共分散サブ空間であるので、類似画面を有する画像領域に、より密接な関係を提供することができる。これによって、領域ノード間の最も隣接する連結の誤差を減らすことができる。
3、本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、画像領域ノード間の連結を形成する際に、連結される、対応する画像領域ノードの画面の差異が大きければ大きいほど加重値が小さいので、カレント画像領域ノードとの画面差異が大きい画像領域ノードはカレント画像領域ノードに与える影響が小さくなる。これによって、後続のRWR法による複数回のアクセスの後に、正確な注釈及び/又は検索の結果を確実に出力することができる。
4、本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、画像ノードとその全ての注釈ノードとの連結を形成する際に、連結される注釈ノードの現われる回数が多ければ多いほど加重値が小さいので、頻繁に使用する言葉への偏りを克服し、より正確な自動注釈を実現することができる。
本発明の実施例に係る画像学習装置の構成図である。 本発明の実施例において元画像を複数の矩形状ブロックに分割した様子を示す図である。 本発明の実施例において元画像を複数の解像度を有する四分木サブブロックに分割した様子を示す図である。 本発明の実施例において元画像を複数の同質的領域に分割した様子を示す図である。 本発明の実施例におけるテキスト特徴マトリックスYの例を示す図である。 本発明に係る実施例において連結の形成及び連結の加重値の求めを行う方法の実現を示す図である。 本発明に係る実施例において連結の形成及び連結の加重値の求めを行う方法の実現を示す図である。 本発明に係る実施例において連結の形成及び連結の加重値の求めを行う方法の実現を示す図である。 本発明に係る実施例において連結の形成及び連結の加重値の求めを行う方法の実現を示す図である。 本発明に係る実施例の画像学習装置により得られたグラフを示す図である。 本発明に係る実施例の画像学習装置により得られたグラフのマトリックスを示す図である。 本発明に係る実施例において更新されたグラフのマトリックスを示す図である。 本発明に係る実施例の再起動ベクトルを示す図である。 本発明に係る実施例における自動注釈用入力画像である。 本発明に係る実施例において「人、動物」を入力テキストとしたときに得られた検索結果を示す図である。 本発明に係る実施例において画像を入力としたときの検索結果を示す図である。 本発明に係る実施例においてテキストと画像を入力としたときの検索結果を示す図である。
以下、添付した図面を参照しながら、本発明の好適な実施形態を詳細に説明する。
本発明の実施例に係る画像学習、自動注釈、検索方法及び装置は、学習段階で画像特徴ベクトルを正準共分散サブ空間に投影し、画像と注釈との共分散を最大化することにより、グラフをよりロバストに形成し、連結を誤った画像領域を減少し、最終的により優れた画像注釈を得ることができる。
本発明に係る実施例の画像学習装置は、図1に示すように、第一の保存モジュールと、画像分割モジュールと、特徴ベクトル抽出モジュールと、サブ空間投影モジュールと、第二の保存モジュールと、グラフ形成モジュールと、を含む。各モジュールについては、次のように説明する。
第一の保存モジュールは、注釈を有する画像及び注釈用キーワード集合を保存するのに用いられ、各画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。
画像分割モジュールは、前記第一の保存モジュールに保存される画像に対してそれぞれ分割操作を行い、画像を少なくとも一つの画像領域に分割する。
特徴ベクトル抽出モジュールは、画像特徴により各画像領域の画像特徴ベクトルを抽出すると共に、テキスト特徴によりテキスト特徴ベクトルを抽出することに用いられ、画像の余計な情報とノイズを除去し本質的な内容を捉える。
サブ空間投影モジュールは、画像領域の画像特徴ベクトルをサブ空間に投影し画像特徴投影ベクトルを得るとともに、各画像領域のテキスト特徴ベクトルをサブ空間にそれぞれ投影しテキスト特徴投影ベクトルを得ることによって、画像特徴とテキスト特徴との共分散を最大化させる。
第二の保存モジュールは、画像領域の投影後の画像特徴投影ベクトルとテキスト特徴投影ベクトルをそれぞれに保存する。
グラフ形成モジュールは、前記投影後の画像特徴投影ベクトルに基づき画像領域間の連結を形成し、画像分割モジュールの操作に基づき画像と当該画像の画像領域との連結を形成し、前記注釈を有する画像に基づき画像と当該画像の注釈との連結を形成すると共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の連結を形成し、そして、これら全ての連結の加重値を算出し、これらの連結と加重値によって表示画像と画像領域と注釈との三者間の関係を示す図を得る。
本発明に係る実施例の画像学習方法は、第一の保存ステップと、画像分割ステップと、特徴ベクトル抽出ステップと、サブ空間投影ステップと、第二の保存ステップと、グラフ形成ステップと、を含む。各ステップについては、次のように説明する。
第一の保存ステップは、注釈を有する画像及び注釈用キーワード集合を保存し、各画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。
画像分割ステップは、前記保存された画像に対してそれぞれ分割操作を行い、画像を少なくとも一つの画像領域に分割する。
特徴ベクトル抽出ステップは、各画像領域の画像特徴により画像特徴ベクトルを抽出すると共にテキスト特徴によりテキスト特徴ベクトルを抽出し、画像の本質的な内容を捉えて余計な情報とノイズを除去する。
サブ空間投影ステップは、各画像領域の画像特徴ベクトルをサブ空間に投影し画像特徴投影ベクトルを得ると共に、各画像領域のテキスト特徴ベクトルをサブ空間に投影しテキスト特徴投影ベクトルを得ることにより、画像特徴とテキスト特徴との共分散を最大化させる。
第二の保存ステップは、投影後に得られた画像特徴投影ベクトルとテキスト特徴投影ベクトルをそれぞれ保存する。
グラフ形成ステップは、前記投影後の画像特徴投影ベクトルに基づき画像領域間の連結を行い、画像分割モジュールの操作に基づき画像と当該画像の画像領域との連結を行い、前記注釈を有する画像に基づき画像と当該画像の注釈との連結を行うと共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の連結を行い、そして、これら全ての連結の加重値を算出し、これらの連結と加重値により表示画像と画像領域と注釈と三者間の関係を示す図を得る。
グラフ形成モジュールから得られたグラフは、画像自動注釈や画像検索等に利用されることについて、後述する。
以下、上記画像学習装置の各モジュール及び学習方法の各ステップについて具体的に説明する。
画像分割モジュールは、前記第一の保存モジュールに保存される画像に対してそれぞれ分割操作を行い、画像を少なくとも一つの画像領域に分割する。本発明に係る実施例は、具体的に、画像を一つまたは2つの画像領域若しくは複数の画像領域に分割することができる。後述において二つ又は二つ以上の画像領域を用いて説明を行う。
本発明に係る実施例において、画像分割は具体的に以下の方法を用いて行われる。
方法1は、図2に示すように、元画像を複数の矩形状ブロックに(第一の保存モジュールに保存される、注釈を有する画像)を分割する。
方法2は、図3に示すように、元画像を、四分木法により、複数の解像度を有するブロックに分割する。
方法3は、図4に示すように、元画像を、画像分割法により、複数の重複しない同質的領域に分割する。
ここでは、上述した画像分割方法を用いたが、本発明に係る実施例においてこれらの画像分割方法に限らず、勿論、他の従来の画像分割技術を採用することもできる。
画像分割後、各画像の各画像領域は、対応する画像特徴を有する。特徴ベクトル抽出モジュールにより画像特徴ベクトルと元画像全体のテキスト特徴ベクトルを抽出する必要がある。
全ての従来方法は画像領域における画像特徴ベクトルの抽出に適用できる。しかし、本発明に係る実施例は、画像重要特徴の抽出能力と抽出速度を考慮し、色とテクスチャー情報を混合するLBP(local binary pattern、ローカルバイナリパターン)特徴を採用した。なお、LBPはテクスチャーに基づく特徴であり、計算しやすく、且つ、色とコントラスト情報を混合しやすい利点を有する。
全ての画像領域の画像特徴ベクトルを得た後(ここで、便宜のため、仮に画像特徴ベクトルの長さをpとする)、画像領域の画像特徴ベクトルを列ベクトルとし、これによって画像特徴マトリックスXが得られる。
また、テキスト特徴ベクトルの抽出プロセスは、次のようなステップA1とステップA2とを含む。
ステップA1は、第一の保存モジュールにおける各画像の注釈を収集し、注釈は、画像内容に関連する一組のキーワードからなり、全てのキーワードは、予め設定された、要素数がqである語彙集から得られる。
注釈は以下の2種類を有する。一つは、弱注釈であり、この場合は、画像のキーワードは画像全体に関連する。画像は複数のブロックに分割される可能性があるが、キーワードは画像全体のみに対応する。もう一つは、局部注釈であり、この場合は、画像の各画像領域は、各自のキーワードを有する。なお、弱注釈の場合は、全ての画像領域は画像全体の注釈を継続する。
ステップA2は、注釈を収集した後に、各画像領域のテキスト特徴ベクトル(長さq)を抽出し、得られた画像領域のテキスト特徴ベクトルを列ベクトルとすることでテキスト特徴マトリックスYを得る。
図5はテキスト特徴マトリックスYの一例を示す。図5において画像領域のテキスト特徴ベクトルはq次元である。画像のキーワードに対応する要素は1であり、それ以外の要素は全て0である。本例において、要素数がq(q=8)である語彙テーブルにおける第1、3、5個のキーワードは第一の領域を構成する。
上述した画像特徴マトリックスXとテキスト特徴マトリックスYを得た後、サブ空間投影を行う必要があるが、サブ空間投影に関する詳細な説明に先立って、当該操作の効果について説明する。
サブ空間投影処理は2つの目的がある。先ず、画像特徴マトリックスとテキスト特徴マトリックスの次元を下げるためである。これによって後続のグラフ形成のスピードが速まれ、注釈と検索の速度が上げられる。次に、画像データとテキストデータとの一致性を強化するためである。これによって、後続の処理はグラフをよりロバストに形成することができ、最終的には、より高い画像注釈精度と画像検索精度が得られる。
本発明に係る実施例において、サブ空間投影モジュールの操作は次のようなステップB1、ステップB2及びステップB3を含む。
ステップB1は、画像特徴マトリックスとテキスト特徴マトリックス、即ち画像領域の画像特徴ベクトルの集合とテキスト特徴ベクトルの集合を取得する。
ステップB2は、画像特徴とテキスト特徴との共分散を最大化することによって画像特徴投影マトリックス及びテキスト特徴投影マトリックスを得る。
ステップB3は、画像特徴投影マトリックスと画像特徴マトリックスを用いて投影後の画像特徴マトリックスを取得し保存すると共に、テキスト特徴投影マトリックスとテキスト特徴マトリックスを用いて投影後のテキスト特徴マトリックスを取得して保存する。
本発明に係る実施例において、画像と注釈との共分散を最大化させるように画像特徴を正準共分散サブ空間に投影し、正準共分散分析(canonical covariance analysis:CCovA)を採用した。その理由は以下の通りである。
即ち、CCOvA空間においておけば、類似画面を有する画像領域に対してより密接な関係を提供することができるため、領域間に最も近接する連結の誤差が減少される。また、画像特徴ベクトルの長さを小さくすることで計算時間が短縮される。
ここで、画像とテキスト特徴の共分散は数1で表される。
Figure 0005282658
ここで、Cxyは画像とテキストとの相関マトリックスであって、以下のように定義される。
Figure 0005282658
ここで、
Figure 0005282658
はそれぞれ中心合わせ及び分散単位化後の画像特徴マトリックスとテキスト特徴マトリックスであり、次のように表すことができる。
Figure 0005282658
ここで、
Figure 0005282658
ここで、Nは画像領域の数であり、xiとyiはそれぞれマトリックスXとYにおける第i列である。
前記共分散を最大化させるよう相関マトリックスCxyに対して特異値分解(SVD)を行う。例えば、Cxyは次のように特異値分解されることができる。
Figure 0005282658
ここで、Dはm0×m0の対角マトリックスであり、その対角には降順で配列された最も顕著な画像−テキストの共分散値がm0個ある。
よって、画像特徴投影マトリックスWxとテキスト特徴投影マトリックスWyは次のように表される。
Wx=U
Wy=V
画像特徴投影マトリックスWxとテキスト特徴投影マトリックスWyを得た後に、画像とテキストの特徴ベクトル組(即ち積み重ねマトリックスXとY)は対応するサブ空間に投影される。投影後の画像特徴マトリックスXprojとテキスト特徴マトリックスYprojを次の式で表すことができる。
Xproj=Wx t×X
Yproj=Wy t×Y
ここで、XprojとYprojはm0×Nマトリックスであり、且つm0<p,m0<q。
投影後の画像特徴マトリックスXprojは画像領域の最近隣捜索を実現するために用いられ、これに対して、投影後のテキスト特徴マトリックスYprojはテキストサブ空間の最近隣捜索を最適化することに用いられる。
投影後の画像特徴マトリックスXprojとテキスト特徴マトリックスXprojを得た後に、これらを利用してグラフの生成を行う。以下、グラフの生成について詳細に説明する。
本発明に係る実施例において、グラフの生成は、投影後の画像特徴投影ベクトルに基づき画像領域間の第1連結を形成することと、画像分割モジュールの操作に基づき画像と当該画像の画像領域との間の第2連結を形成することと、注釈を有する画像に基づき画像と当該画像の注釈との間の第3連結を形成することと、投影後のテキスト特徴投影ベクトルに基づき注釈間の第4連結を形成することと、形成された全ての連結の加重値を算出することと、前記連結と加重値に基づき表示画像と画像領域と注釈との三者間の関係を示すグラフを得ることと、を含む。
前記第1連結、第2連結、第3連結、及び第4連結の何れにも複数の連結を有するために、便宜上、第1連結、第2連結、第3連結、及び第4連結の中の単一連結をサブ連結と称する。
画像、画像領域及び注釈は、後述においてノードを用いて説明される。ノード間の関係をノード間の連結線を用いて表示し、最終的なグラフを、隣接するマトリックスAによって表す。グラフにおけるノードiとノードjとの連結は、aij=w≠0を設けて示される。ここで、wは連結の加重値であり、iとjとの間に連結がなければaij=0と設定する。連結に方向がないため、マトリックスAは正方マトリックスであって、且つそのマトリックスにおいて対角項の何れも0である(ノードと当該ノード自身との連結を考慮しない)。
上述において形成されたグラフには、以下の3種類のノード、即ち、第1の保存モジュールにおける全ての原始画像(画像ノード)、分割後の全ての画像領域(画像領域ノード)、及び、注釈用キーワード(注釈ノード)がある。なお、画像ノードと画像領域ノードとの間、及び、画像ノードと注釈ノードとの間に従属関係が存在する。
以下、各部分についてそれぞれ具体的に説明する。
<画像領域ノード間の連結の形成>
画像領域ノードにおける各画像領域ノード(便宜上、第1画像領域ノードと称する)に対して、該第1画像領域ノードと、その他の画像領域ノードにおける該第1画像領域ノードに最も隣接するK1個の画像領域ノードとの連結を形成する必要があり、ここで、投影後の画像特徴マトリックスXprojに基づいて最近隣捜索を実施する。
本発明に係る実施例において、以下に述べる2つの方法により画像領域間の連結の加重値を与えることができる。
方法1は、全てのサブ連結に同様な加重値を付与する。即ち、各連結に同じ加重値を有する。
方法2は、サブ連結が対応する画像領域ノードの画像の差異に基づき全てのサブ連結に異なる加重値を付与する。具体的には、サブ連結が対応する画像領域ノードの画像の差異が大きければ大きいほど加重値が小さくなる。
前記方法2を採用する場合は、カレント画像領域ノードの画像との差異が比較的に大きい画像領域ノードは、サブ連結の加重値が小さいため、カレント画像領域ノードに与える影響が小さく、後続するRWR法による複数のアクセスの後にも正確な注釈及び/又は検索の結果を確保できるとのメリットがある。
以下、前記方法2の実施について例を挙げて説明する。
Link(ri→rj)で画像領域間のサブ連結の加重値を表す。ここで、iはjと異なる値である。
Link(ri→rj)は、画像領域ノード間の画像の視覚的類似度により決定され、画像領域ノードiと画像領域ノードjが画像投影サブ空間における特徴の距離の減少関数であると定義する。
例えば、距離dimとして特徴間のノルム(norm)L2を用いた場合、減少関数を次のように定義する。
Figure 0005282658
ここで、
Figure 0005282658
は画像領域ノードriとそのK1個の最近隣画像領域ノードとの平均距離である。Aは幅値パラメータである。
画像領域ノード間に視覚的差異が比較的に大きい場合に、距離dimが増加し、加重値が小さくなる。これによりグラフにおいて誤った画像領域ノードの連結の形成を回避することができ、注釈と検索の品質が向上される。
以上においてノルムL2を用いて説明したが、これ以外の方法、例えば、chi-square又はentropy measures等の方法を用いることもできる。
<画像ノードと当該画像ノードの画像領域ノードとの間の連結>
各画像ノードに対して該画像ノードと当該画像ノードの全ての画像領域ノードとの間の連結を形成する。画像を分割しなければ、一つの画像領域ノードしか存在しない。この場合、画像ノードは画像領域ノードに相当する。
ここで、この連結は画像分割モジュールの操作によって得られる。
その中には、画像ノードと画像領域ノードとの間のサブ連結の加重値(Link(Imi→rj))は画像ノードと画像領域ノードとの間の親子関係によって確定される。画像領域ノードrjは画像ノードImiのサブ画像領域ノードである場合に、(Link(Imi→rj))は0でない定数となる。そうでなければ0となる。
<画像ノードと当該画像ノードの注釈ノードの間の連結>
各画像ノードに対して画像ノードと当該画像ノードの全ての注釈ノードとの間の連結を形成する。
ここで、上記連結の形成は第一の保存モジュールにおける画像情報に基づくものである。
本発明に係る実施例において、以下の2つの方法によって画像ノードと当該画像ノードの注釈ノードとの間の連結の加重値を確定することができる。
方法1は、サブ連結が対応する注釈ノードが第一の保存モジュールに保存される画像の注釈に出現した回数が多ければ多いほどサブ連結の加重値が大きくなる。
方法2は、サブ連結が対応する注釈ノードが第一の保存モジュールに保存される画像の注釈に出現した回数が多ければ多いほどサブ連結の加重値が小さくなる。
方法1の場合に、当然のように、RWR法は、出現頻率が高い注釈ワード(グラフに形成された連結が多いため)をしばしば巡回するので、常に、出現頻率の高いワードは検索画像の注釈結果として出力される可能性がある。しかし、この方法は正確でない場合もある。従って、方法2によって頻繁に出てくるワードへの偏りは避けられる。
具体的な加重値の確定方法は以下の通りである。
Figure 0005282658
ここで、Bは幅値パラメータであり、βは出現頻率が高いワードと出現頻率が低いワードとの間のバランスを取る加重分配である。max_occurは出現頻率が最も高いワードの出現回数であり、min_occurは出現頻率が最も低いワードの出現回数である。wj_occurはカレントワードノードwjの出現回数である。
<注釈ノード間の連結>
各注釈ノードに対して該注釈ノードと、最も隣接するK2個の標準ノードとの間に連結を形成する。ここで、最近隣捜索は投影後のテキスト特徴マトリックスYprojによって行われる。
link(wi→wj)は注釈ノード間のサブ連結の加重値を表す。
wiとwj間の連結の加重値は、それらのキーワード間のテキストの類似度によって決定され、テキスト特徴iとjが投影後のテキストサブ空間における距離の減少関数であると定義される。例えば、特徴間のノルムL2を距離dtxtとして用いた場合、減少関数を次のように定義する。
Figure 0005282658
ここで、
Figure 0005282658
は、wiとそのK個の最近隣注釈ノードとの平均距離である。Cは幅値パラメータである。ワード間に語意の差が比較的に大きい場合に、距離dtxtの増加に伴い加重値が小さくなる。これによって、語意が一致するワード間の連結が強化され、画像注釈のときに、相関性と一致性のより優れる注釈の出力が図られる。
上述した連結の形成と連結の加重の確定は、図6〜図9に示すように実現される。ここで、ImageIndexDB.sizeとIMIndexDB.sizeは画像領域ノードの数を示し、AnnImDB.sizeは第一の保存モジュールに保存される画像の数を示し、VOCA.sizeは注釈用キーワード集合におけるキーワードの数を示す。
上記より形成されたグラフは図10に示される。
図10において、画像ノードは2つのみ示される。第一の画像ノードI1は4つの画像領域ノードR1〜R4があり、第2画像ノードI2は4つの画像領域ノードR5〜R8がある。これと共に注釈ノードは9つを含み、それぞれW1〜W9である。また、同図は、画像領域ノード間の連結、画像ノードと画像領域ノードの連結、画像ノードと注釈ノードの連結、及び、注釈ノード間の連結を示す。
最終的に得られたグラフの隣接マトリックスAは図11に示される。
よって、本発明に係る実施例による画像学習装置は、少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を少なくとも1つの画像領域に分割する画像分割モジュールと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、画像特徴マトリックスとテキスト特徴マトリックスを得る特徴ベクトル抽出モジュールと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するサブ空間投影モジュールと、前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存する保存モジュールと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成し、前記各連結の加重値をそれぞれ算出し、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るグラフ形成モジュールと、を含んでも良い。
前記分割操作は、前記各第1画像を矩形状ブロックに分割することと、前記各第1画像を、四分木法により、複数の解像度を有するブロックに分割することと、前記各第1画像を、画像分割法により、重複しない同質的領域に分割すること、を含んでも良い。
前記画像領域から前記画像特徴ベクタルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われ手も良い。
前記サブ空間は、正準共分散サブ空間であっても良い。
前記関係グラフには、前記第1画像、前記画像領域及び前記注釈がノードにより表記されても良く、前記関係グラフは、隣接マトリックスにより表示されても良く、前記関係グラフにおける前記ノード間の連結は、加重値によって表示されても良く、前記ノード間は、連結がなければ対応する加重値が0である。
前記第1連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第1連結におけるサブ連結の加重値が小さく、及び/又は、前記第3連結におけるサブ連結が対応する注釈ノードが前記第1画像の注釈に出現した回数が多い程、前記第3連結におけるサブ連結の加重値が小さく、及び/又は、前記第4連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第4連結におけるサブ連結の加重値が小さい。
前記隣接マトリックスAを得た後、本発明に係る実施例における画像検索は、前記隣接マトリックスAを用いて注釈と検索を行う。これについて以下に説明する。
本発明に係る実施例の画像自動注釈装置は、第一の保存モジュール、受け取りモジュール、画像分割モジュール、特徴ベクトル抽出モジュール、サブ空間投影モジュール、第二の保存モジュール、グラフ形成モジュール、グラフ更新モジュール、注釈ノード取得モジュール及び注釈モジュールを含む。各モジュールについては、次のように説明する。
第一の保存モジュールは、注釈を有する第1画像と注釈用キーワード集合とを保存するのに用いられ、各第1画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。
受け取りモジュールは、検索用第2画像を受け取る。
画像分割モジュールは、第1画像と第2画像に対してそれぞれ分割操作を行い、第1画像と第2画像を少なくとも一つの画像領域に分割する。
特徴ベクトル抽出モジュールは、画像特徴により前記第1画像における各画像領域の画像特徴ベクトルを抽出すると共にテキスト特徴により前記第1画像における各画像領域のテキスト特徴ベクトルを抽出することに用いられ、また、画像特徴により第2画像における各画像領域の画像特徴ベクトルを抽出することに用いられ、画像の余計な情報とノイズが除去されて本質的な内容を捉えることができる特徴ベクトルを抽出する。
サブ空間投影モジュールは、第1画像における画像領域の画像特徴ベクトルをサブ空間に投影し、投影後の第1画像の特徴投影ベクトルを得ると共に、第1画像における画像領域毎のテキスト特徴ベクトルをそれぞれサブ空間に投影しテキスト特徴ベクトルを得ることより、画像特徴とテキスト特徴の共分散を最大化させ、更に、第2画像における画像領域の画像特徴ベクトルをサブ空間に投影し第2画像の特徴投影ベクトルを得る。
第二の保存モジュールは、画像領域の投影後の第1画像の特徴投影ベクトル及びテキスト特徴投影ベクトルを保存する。
グラフ形成モジュールは、前記投影後の第1画像の特徴投影ベクトルに基づき画像領域間の第1連結を形成し、画像分割モジュールの操作に基づき画像と当該画像の画像領域との第2連結を形成し、前記注釈を有する画像に基づき画像と当該画像の注釈との第3連結を形成すると共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の第4連結を形成し、そして、形成された第1連結、第2連結、第3連結、及び第4連結の加重値を算出し、第1連結、第2連結、第3連結、第4連結、及びそれらの連結に対応する加重値によって、表示画像と画像領域と注釈との三者間の関係を示すグラフを得る。
グラフ更新モジュールは、前記グラフ形成モジュールより形成されたグラフに第2画像の画像ノードと画像領域ノードとを追加し、前記投影後の第1画像の特徴投影ベクトルと第2画像の特徴投影ベクトルに基づき、前記第2画像の各画像領域ノードと前記グラフ形成モジュールより形成されたグラフにおける画像領域ノードとの第5連結を形成し、更に、前記第2画像の画像ノードとその画像領域ノードとの第6連結を形成し、並びに、第5連結と第6連結の加重を確定すると共に、第5連結と第6連結及びこれらの連結に対応する加重に基づき、前記マトリックスより表されるグラフを更新する。
注釈ノード取得モジュールは、前記第2画像に対応する再起動ベクトル(Restart Vector)を形成し、更新された、マトリックスより表されるグラフに基づき、RWR法により前記第2画像に最も密接に関係する所定数の注釈ノードを得る。
注釈モジュールは、前記所定数の注釈ノードが対応するキーワードを用いて前記第2画像に注釈する。
本発明に係る実施例において、画像自動注釈装置は、画像学習装置により得られたグラフに基づいて、注釈待ち第2画像に対して予備処理(分割、画像領域の画像特徴ベクトルの抽出、画像特徴ベクトルの投影を含む)を行う。これらの予備処理について、画像学習装置の処理と同様であるため、詳細な記述を略す。
以下、画像自動注釈装置のグラフ更新モジュールと注釈取得モジュールについてより具体的に説明する。
グラフ更新モジュールの機能としては、形成されたグラフに検索用画像(即ち検索データ)の画像ノードと画像領域ノードを追加する。グラフはマトリックスにより表され、且つ当該マトリックスは対称的な正方形マトリックスであるため、追加に際して、図11に示すマトリックスを基にして行及び列をそれぞれ加える。即ち、第2画像の画像ノードと画像領域ノードをマトリックスの行と列として元マトリックスAに加える。
具体的には、元マトリックスAの行と列に、新しいノードとして第2画像の画像ノードと画像領域ノードをそれぞれ追加するステップと、新しく追加された画像ノードと画像領域ノードとの連結を追加するステップと、新たに追加された画像領域ノードと、元グラフにおいてK1個の最も隣接する画像領域ノートとの間に連結を追加するステップと、新しく追加された連結の加重値を追加するステップと、を含む。
前記更新されたマトリックスの要素値は、形成された連結及び連結の加重値によって確定される。この連結の形成と加重の確定について既に説明したためにここでは説明を略す。
更新後のマトリックスは、図12に示される。
図12において、更新前のマトリックスの要素値を示していないが、Rnは新しい画像領域ノードを示し、Imnは検索待ちのノードを示す。
マトリックスを更新した後に、第2画像に対応する再起動ベクトルを形成する。RWR法を用いて、更新された、マトリックスによるグラフに基づき、前記第2画像に最も密接に関連する所定数の注釈ノードを取得し、前記所定数の注釈ノードが対応するキーワードを出力する。
以下、再起動ベクトルの形成について説明する。
画像注釈が検索量である画像検索に対しては、再起動ベクトルにおいて画像検索ノードに対応する要素は1であり、それ以外の要素は全て0である。
図13は、再起動ベクトルを示す図である。図13に示すように、Imnノード(即ち、画像ノード)に対応する要素は1であり、それ以外の要素は全て0である。
また、最も相関する所定数のキーワードを目標の画像注釈として選出するRWR法の処理ステップは、初期化ステップと、繰り返しステップと、抽出ステップと、出力ステップとを含む。各ステップについては、次のように説明する。
初期化ステップは、U0を再起動ベクトルとして設定する。
繰り返しステップは、停止条件を満たすまでにUn+1=(1-c)AUn+cVを繰り返して実行する。
ここで、nは繰り返しインデックスであり、cは再起動確率を反映する定数であり、Aは更新されたグラフの隣接マトリックスを示す。Vは前記形成された再起動ベクトルである。Unはステップnが対応する状態ベクトルであり、このベクトルにおけるi番目の要素値は、グラフの上でn回の繰り返しを経て目標ノード(新たに加えられた画像ノード)からノードiに到達する確率を反映するものであり、言い換えれば、第i番目の要素が対応するノードと目標ノードとの間の相関度、即ち関係の密接程度を反映するものである。
抽出ステップは、状態ベクトルUn中の注釈ノードに対応する要素を抽出し降順で配列させる。
出力ステップは、注釈ノードが対応する所定数のキーワードを順次に出力する。
以上に述べた処理ステップにおいて、RWRが繰返しを数回行った後に収束へ向かうように、更新された隣接マトリックスを先に正規化することができる。
正規化処理は以下の方法により行われる。
方法1は、更新されたマトリックスAにおいて、各列の要素を当該列の和で割る。これにより正規化された隣接マトリックス
Figure 0005282658
は次のように示される。
Figure 0005282658
方法2は、Laplacian正規化により正規化された隣接マトリックス
Figure 0005282658
を求める。隣接マトリックス
Figure 0005282658
は次のように示される。
Figure 0005282658
勿論、正規化方法は上記ものに限らず、それ以外の方法を用いることもできる。
なお、正規化操作の後、後続するRWR法は正規化された隣接マトリックス
Figure 0005282658
を利用して後続の処理を行うが、ここでは具体的な説明を省略する。
よって、本発明に係る実施例による、入力された第2画像に自動注釈を行う画像自動注釈装置は、学習モジュールと、予備処理モジュールと、グラフ更新モジュール及び注釈モジュールを含み、前記学習モジュールは、少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を少なくとも1つの画像領域に分割するユニットと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するユニットと、前記各連結の加重値をそれぞれ算出するユニットと、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、を含み、前記予備処理モジュールは、前記第2画像を受け取るユニットと、前記第2画像に対して分割操作を行い、前記第2画像を少なくとも1つの画像領域に分割するユニットと、前記第2画像の各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るユニットと、前記第2画像の画像特徴マトリックスをサブ空間に投影し、前記第2画像の投影後の画像特徴マトリックスを得るユニットと、を含み、前記グラフ更新モジュールは、前記投影後の第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて、前記第2画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第5連結を形成し、前記第2画像に対しての前記分割操作の結果に基づいて、前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するユニットと、前記第5連結と前記第6連結の加重値をそれぞれ確定するユニットと、前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するユニットと、を含み、前記注釈モジュールは、前記第2画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて再起動可能なランダムウォーク法により前記第2画像と最も密接に関係する所定数の注釈を取得するユニットと、前記所定数の注釈が対応するキーワードを用いて前記第2画像に対して注釈操作を行うユニットと、を含んでも良い。
前記分割操作は、前記第1画像と前記第2画像を矩形状ブロックに分割することと、前記第1画像と前記第2画像を、四分木法により、複数の解像度を有するブロックに分割することと、前記各第1画像と前記第2画像を、画像分割法により、重複しない同質的領域に分割すること、を含んでも良い。
前記画像領域から前記画像特徴ベクタルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われても良い。
前記サブ空間は、正準共分散サブ空間であっても良い。
前記関係グラフには、前記第1画像、前記第2画像、前記画像領域及び前記注釈がノードにより表記されても良く、前記関係グラフは、隣接マトリックスにより表示されても良く、前記関係グラフにおける前記ノード間の連結は、加重値によって表示されても良く、前記ノード間は、連結がなければ対応する加重値が0である。
前記第1連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第1連結におけるサブ連結の加重値が小さく、及び/又は、前記第3連結におけるサブ連結が対応する注釈ノードが前記第1画像の注釈に出現した回数が多い程、前記第3連結におけるサブ連結の加重値が小さく、及び/又は、前記第4連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第4連結におけるサブ連結の加重値が小さい。
前記注釈ステップを行う前に、更新された前記隣接マトリックスを正規化するステップをさらに含んでも良く、前記注釈ステップは、正規化された前記隣接マトリックスに基づいて行われても良い。
本発明に係る実施例の画像検索装置は、第2画像が入力されるときの画像検索に用いる場合に、第一の保存モジュールと、受け取りモジュールと、画像分割モジュールと、特徴ベクトル抽出モジュールと、サブ空間投影モジュールと、第二の保存モジュールと、グラフ形成モジュールと、グラフ更新モジュールと、検索モジュールと、出力モジュールと、含む。各モジュールについては、次のように説明する。
第一の保存モジュールは、注釈を有する第1画像と注釈用キーワード集合とを保存するに用いられ、各第1画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。
受け取りモジュールは、検索用第2画像を受け取る。
画像分割モジュールは、第1画像と第2画像に対してそれぞれ分割操作を行い、第1画像と第2画像を少なくとも一つの画像領域に分割する。
特徴ベクトル抽出モジュールは、画像特徴により前記第1画像における各画像領域の画像特徴ベクトルを抽出すると共にテキスト特徴により前記第1画像における各画像領域のテキスト特徴ベクトルを抽出することに用いられ、また、画像特徴により第2画像における各画像領域の画像特徴ベクトルを抽出することに用いられ、画像の余計な情報とノイズが除去されて本質的な内容を捉えることができる特徴ベクトルを抽出する。
サブ空間投影モジュールは、第1画像における画像領域の画像特徴ベクトルをサブ空間に投影し、投影後の第1画像特徴投影ベクトルを得るとともに、第1画像における画像領域毎のテキスト特徴ベクトルをそれぞれにサブ空間に投影し、テキスト特徴投影ベクトルを得ることより、画像特徴とテキスト特徴の共分散を最大化させ、更に、第2画像における画像領域の画像特徴ベクトルをサブ空間に投影し、第2画像特徴投影ベクトルを得る。
第二の保存モジュールは、画像領域の投影後の第1画像特徴投影ベクトル及びテキスト特徴投影ベクトルを保存する。
グラフ形成モジュールは、前記投影後の第1画像特徴ベクトルに基づき画像領域間の第1連結を形成し、画像分割モジュールの操作に基づき画像と当該画像の画像領域との第2連結を形成し、前記注釈を有する画像に基づき画像と当該画像の注釈との第3連結を形成すると共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の第4連結を形成し、そして、形成された第1連結、第2連結、第3連結、及び第4連結の加重値を算出し、第1連結、第2連結、第3連結、第4連結、及び対応する加重値によって、マトリックスで表される、表示画像と画像領域と注釈との三者間の関係を示すグラフを得る。
グラフ更新モジュールは、前記グラフ形成モジュールにより形成されたグラフに第2画像の画像ノードと画像領域ノードを追加し、前記投影後の第1画像特徴投影ベクトルと第2画像特徴投影ベクトルに基づき、前記第2画像の各画像領域ノードと前記グラフ形成モジュールにより形成されたグラフにおける画像領域ノードとの第5連結を形成し、更に、前記第2画像の画像ノードとその画像領域ノードとの第6連結を形成し、並びに、第5連結と第6連結の加重値を確定すると共に、第5連結と第6連結及びこれらの連結に対応する加重値に基づき前記マトリックスにより表されるグラフを更新する。
検索モジュールは、前記第2画像に対応する再起動ベクトル(Restart Vector)を形成し、更新された、マトリックスにより表されるグラフに基づき、RWR法により前記第2画像に最も密接に関係する所定数の画像ノードを得る。
出力モジュールは、前記所定数の画像ノードが対応する前記第1画像を出力する。
本発明に係る実施例の画像検索装置は、自動注釈装置に比べると、出力結果に相違があるが、それ以外は全て同様である。従って、この画像検索装置についての説明を略す。
本発明に係る実施例の画像検索装置は、第2画像とキーワードが入力されるときの画像検索に用いる場合に、第一の保存モジュールと、受け取りモジュールと、画像分割モジュールと、特徴ベクトル抽出モジュールと、サブ空間投影モジュールと、第二の保存モジュールと、グラフ形成モジュールと、グラフ更新モジュールと、検索モジュールと、出力モジュールと、を含む。各モジュールについては、次のように説明する。
第一の保存モジュールは、注釈を有する第1画像と注釈用キーワード集合とを保存するに用いられ、各第1画像は、前記キーワード集合から得られる、当該画像の語意内容として少なくとも一つの注釈を有する。
受け取りモジュールは、検索用第2画像と前記キーワードとを受け取る。
画像分割モジュールは、第1画像と第2画像に対してそれぞれ分割操作を行い、第1画像と第2画像を少なくとも一つの画像領域に分割する。
特徴ベクトル抽出モジュールは、画像特徴により前記第1画像における各画像領域の画像特徴ベクトルを抽出すると共にテキスト特徴により前記第1画像における各画像領域のテキスト特徴ベクトルを抽出することに用いられ、また、画像特徴により第2画像における各画像領域の画像特徴ベクトルを抽出することに用いられ、画像の余計な情報とノイズが除去されて本質的な内容を捉えることができる特徴ベクトルを抽出する。
サブ空間投影モジュールは、第1画像における画像領域の画像特徴ベクトルをサブ空間に投影し、投影後の第1画像特徴投影ベクトルを得ると共に、第1画像における画像領域毎のテキスト特徴ベクトルをそれぞれにサブ空間に投影してテキスト特徴投影ベクトルを得ることより、画像特徴とテキスト特徴の共分散を最大化させ、更に、第2画像における画像領域の画像特徴ベクトルをサブ空間に投影し、第2画像特徴投影ベクトルを得る。
第二の保存モジュールは、画像領域の投影後の第1画像特徴投影ベクトル及びテキスト特徴投影ベクトルを保存する。
グラフ形成モジュールは、前記投影後の第1画像特徴ベクトルに基づき画像領域間の第1連結を形成し、画像分割モジュールの操作に基づき画像とその画像領域との第2連結を形成し、前記注釈を有する画像に基づき画像とその注釈との第3連結を形成すると共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の第4連結を形成し、そして、形成された第1連結、第2連結、第3連結、及び第4連結の加重値を算出し、第1連結、第2連結、第3連結、第4連結、及びこれらの連結に対応する加重値によって、マトリックスにより表される、表示画像と画像領域と注釈との三者間の関係を示すグラフを得る。
画像更新モジュールは、前記グラフ形成モジュールにより形成されたグラフに第2画像の画像ノードと画像領域ノードを追加し、前記投影後の第1画像特徴投影ベクトルと第2画像特徴投影ベクトルに基づき、前記第2画像の各画像領域ノードと前記グラフ形成モジュールにより形成されたグラフにおける画像領域ノードとの第5連結を形成し、更に、前記第2画像の画像ノードとその画像領域ノードの第6連結を形成し、並びに、第5連結と第6連結の加重値を確定すると共に、第5連結と第6連結及びこれらの連結に対応する加重値に基づき前記マトリックスにより表されるグラフを更新する。
検索モジュールは、前記第2画像に対応する再起動ベクトル(Restart Vector)を形成し、更新された、マトリックスにより表されるグラフに基づき、RWR法により、前記第2画像と検索キーワードに最も密接に関係する所定数の画像ノードを得る。
出力モジュールは、前記所定数の画像ノードに対応する前記第1画像を出力する。
本発明に係る実施例の画像検索装置は、自動注釈装置に比べると、出力結果及び再起動ベクトルに相違があるが、それ以外は全て同様である。
前記再起動ベクトルは画像とキーワードの2つ部分を有するので、画像検索ノードと注釈ノードに対応するk個の要素は1であり、それ以外の要素は全て0である。
本発明に係る実施例の画像検索装置は、検索用キーワードが入力されるときの画像検索に用いられる場合に、第一の保存モジュールと、受け取りモジュールと、画像分割モジュールと、特徴ベクトル抽出モジュールと、サブ空間投影モジュールと、第二の保存モジュールと、グラフ形成モジュールと、検索モジュールと、出力モジュールと、を含む。各モジュールについては、次のように説明する。
第一の保存モジュール、注釈を有する第1画像と注釈用キーワード集合とを保存するに用いられ、各第1画像は、前記キーワード集合から得られる、当該画像の語意内容としての少なくとも一つの注釈を有する。
受け取りモジュールは、前記検索用キーワードを受け取る。
画像分割モジュールは、第1画像に対して分割操作を行い、少なくとも一つの画像領域になるように第1画像を分割する。
特徴ベクトル抽出モジュールは、画像特徴により前記第1画像における各画像領域の画像特徴ベクトルを抽出すると共にテキスト特徴により前記第1画像における各画像領域のテキスト特徴ベクトルを抽出することに用いられ、画像の余計な情報とノイズが除去されて本質的な内容を捉えることができる特徴ベクトルを抽出する。
サブ空間投影モジュールは、第1画像における画像領域の画像特徴ベクトルをサブ空間に投影し、投影後の第1画像特徴投影ベクトルを得ると共に、第1画像における画像領域毎のテキスト特徴ベクトルをそれぞれにサブ空間に投影し、テキスト特徴投影ベクトルを得ることにより、画像特徴とテキスト特徴の共分散を最大化させる。
第二の保存モジュールは、画像領域の投影後の第1画像特徴投影ベクトル及びテキスト特徴投影ベクトルを保存する。
グラフ形成モジュールは、前記投影後の第1画像特徴ベクトルに基づき画像領域間の第1連結を形成し、画像分割モジュールの操作に基づき画像とその画像領域との第2連結を形成し、前記注釈を有する画像に基づき画像とその注釈との第3連結を形成すると共に、投影後のテキスト特徴投影ベクトルに基づき注釈間の第4連結を形成し、そして、形成された第1連結、第2連結、第3連結、及び第4連結の加重値を算出し、第1連結、第2連結、第3連結、第4連結、及びこれらの連結に対応する加重値によって、マトリックスにより表される、表示画像と画像領域と注釈との三者間の関係を示すグラフを得る。
検索モジュールは、前記検索用キーワードに対応する再起動ベクトル(Restart Vector)を形成し、更新された、マトリックスにより表されるグラフに基づき、RWR法により、前記検索キーワードに最も密接に関係する所定数の画像ノードを得る。
出力モジュールは、前記所定数の画像ノードに対応する前記第1画像を出力する。
上記注釈装置と検索装置は、所定数のキーワードと画像を出力する必要がある。本発明に係る実施例において、その出力方法は、複数の方法を用いてもよい。例えば、次のような方法を用いることができる。
ベクトルUが収束し安定した後に、グラフ中の各ノードが、それに対応する値(目標ノードから当該ノードに到達する確率)を有し、そして、異なる種類のノード(画像ノード、領域画像ノード及び注釈ノード)の値をソートする。
画像注釈において、グラフ中の注釈ノードに対応するUにおける全ての要素を取り出し、確率順に降順配列をさせ、その中で先頭からp個のキーワードを捜索画像に最も相関する注釈とする。
画像検索において、グラフ中の注釈ノードに対応するUにおける全ての要素を取り出し、確率順に降順配列をさせ、その中で先頭からp個の画像を捜索(テキスト又は画像、若しくはこの両者が混在するもの)に最も相関する画像とする。
ここで、pは以下の方法によって確定されることができる。
方法1は、ある定数を設定する。
方法2は、相関確率により自動的に確定する。
方法2の場合、pは、次のように計算されることができる。
先頭からp個の出力(注釈又は検索)の累積確率は初めて閾値th1より大きく、又は、第p番目の出力(注釈又は検索)の確率と第(p+1)番目の出力の確率との差は、初めて閾値th2より大きい。
勿論、上記以外の方法でpを確定することもできるが、詳細について省略する。
図14は、本発明に係る実施例における自動注釈用入力画像を示し、図14に示すような画像を入力すると、得られた注釈は、室内、人、女、男である。
図15は、本発明に係る実施例において「人、動物」を入力として用いるときに画像検索装置と方法により得られた検索結果を示す。
図16は、本発明に係る実施例において画像を入力として用いるときに画像検索装置と方法により得られた検索結果を示し、図16に左から一番目の画像は入力であり、右から3枚の画像は出力結果である。
図17は、本発明に係る実施例においてテキストと画像を入力とするときに得られた検索の結果を示し、図17に左一番目は入力画像であり、右から3枚の画像は出力の結果である。
よって、本発明に係る実施例による、入力が第2画像であるときに画像検索を行う画像検索装置は、学習モジュール、予備処理モジュール、グラフ更新モジュール及び検索モジュールを有し、前記学習モジュールは、少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を少なくとも1つの画像領域に分割するユニットと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するユニットと、前記各連結の加重値をそれぞれ算出するユニットと、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、を含み、前記予備処理モジュールは、前記第2画像を受け取るユニットと、前記第2画像に対して分割操作を行い、前記第2画像を少なくとも1つの画像領域に分割するユニットと、前記第2画像の各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るユニットと、前記第2画像の画像特徴マトリックスをサブ空間に投影し、前記第2画像の投影後の画像特徴マトリックスを得るユニットと、を含み、前記グラフ更新モジュールは、前記投影後の第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて、前記第2画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第5連結を形成するユニットと、前記第2画像に対しての前記分割操作の結果に基づいて、前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するユニットと、前記第5連結と前記第6連結の加重値をそれぞれ確定するユニットと、前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するユニットと、を含み、前記検索モジュールは、前記第2画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記第2画像と最も密接に関係する所定数の画像を取得して出力するユニットを含んでも良い。
前記入力は、更にキーワードを含み、前記検索モジュールは、前記第2画像と前記キーワードに対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、前記第2画像及び前記キーワードと最も密接に関連する所定数の画像を取得して出力しても良い。
前記分割操作は、前記第1画像と前記第2画像を矩形状ブロックに分割することと、前記第1画像と前記第2画像を、四分木法により、複数の解像度を有するブロックに分割することと、前記各第1画像と前記第2画像を、画像分割法により、重複しない同質的領域に分割すること、を含んでも良い。
前記画像領域から前記画像特徴ベクタルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われても良い。
前記サブ空間は、正準共分散サブ空間であっても良い。
前記関係グラフには、前記第1画像、前記第2画像、前記画像領域及び前記注釈がノードにより表記されても良く、前記関係グラフは、隣接マトリックスにより表示されても良く、前記関係グラフにおける前記ノード間の連結は、加重値によって表示されても良く、前記ノード間は、連結がなければ対応する加重値が0である。
前記第1連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第1連結におけるサブ連結の加重値が小さく、及び/又は、前記第3連結におけるサブ連結が対応する注釈ノードが前記第1画像の注釈に出現した回数が多い程、前記第3連結におけるサブ連結の加重値が小さく、及び/又は、前記第4連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第4連結におけるサブ連結の加重値が小さい。
更新された前記隣接マトリックスを正規化するユニットをさらに含み、前記検索モジュールは、正規化された前記隣接マトリックスに基づいて動作を行っても良い。
また、本発明に係る実施例による、入力が検索用キーワードであるときに画像検索を行う画像学習装置は、学習モジュールと検索モジュールを含み、前記学習モジュールは、少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を少なくとも1つの画像領域に分割するユニットと、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するユニットと、前記各連結の加重値をそれぞれ算出するユニットと、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、を含み、前記検索モジュールは、前記検索用キーワードに対応する再起動ベクトルを形成し、前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記検索用キーワードと最も密接に関係する所定数の画像を取得するユニットを含む。
前記分割操作は、前記第1画像と前記第2画像を矩形状ブロックに分割することと、前記第1画像と前記第2画像を、四分木法により、複数の解像度を有するブロックに分割することと、前記各第1画像と前記第2画像を、画像分割法により、重複しない同質的領域に分割すること、を含んでも良い。
前記画像領域から前記画像特徴ベクタルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われても良い。
前記サブ空間は、正準共分散サブ空間であっても良い。
前記関係グラフには、前記第1画像、前記第2画像、前記画像領域及び前記注釈がノードにより表記されさても良く、前記関係グラフは、隣接マトリックスにより表示されても良く、前記関係グラフにおける前記ノード間の連結は、加重値によって表示されても良く、前記ノード間は、連結がなければ対応する加重値が0である。
前記第1連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第1連結におけるサブ連結の加重値が小さく、及び/又は、前記第3連結におけるサブ連結が対応する注釈ノードが前記第1画像の注釈に出現した回数が多い程、前記第3連結におけるサブ連結の加重値が小さく、及び/又は、前記第4連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第4連結におけるサブ連結の加重値が小さい。
前記隣接マトリックスを正規化するステップをさらに含み、前記検索モジュールは、正規化された前記隣接マトリックスに基づいて動作を行っても良い。
上述した図14〜16に関する記述及び実際の画像から見ると、本発明に係る実施例の方法と装置は、画像の自動注釈及び検索を良好に実現することができる。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。
J.Y.Pan, H.J.Yany, C.Faloutsos, and P.Duygulu, 「GCap: Graph-based automatic image captions,」in Proc. Of the 4th International Workshop on Multimedia Data and Document Engineering (MDDE), inconjunction with Computer Vision Pattern Recognition Conference(CVPR’04),2004

Claims (36)

  1. 画像分割モジュール、特徴ベクトル抽出モジュール、サブ空間投影モジュール、保存モジュール、及びグラフ形成モジュールを含む画像学習装置における画像学習方法であって、
    前記画像分割モジュールにより、少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するステップと、
    前記特徴ベクトル抽出モジュールにより、前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
    前記サブ空間投影モジュールにより、前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
    前記保存モジュールにより、前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
    前記グラフ形成モジュールにより、前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記注釈を有する第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、
    前記グラフ形成モジュールにより、前記各連結の加重値をそれぞれ算出するステップと、
    前記グラフ形成モジュールにより、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
    を含む、
    ことを特徴とする画像学習方法。
  2. 前記分割操作は、
    前記各第1画像を矩形状ブロックに分割することと、
    前記各第1画像を、四分木法により、複数の解像度を有するブロックに分割することと、
    前記各第1画像を、画像分割法により、重複しない同質的領域に分割すること、
    を含む、
    を特徴とする請求項1に記載の方法。
  3. 前記画像領域から前記画像特徴ベクトルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われる、
    ことを特徴とする請求項1に記載の方法。
  4. 前記サブ空間は、正準共分散サブ空間である、
    ことを特徴とする請求項1に記載の方法。
  5. 前記関係グラフには、前記第1画像、前記画像領域及び前記注釈がノードにより表記され、
    前記関係グラフは、隣接マトリックスにより表示され、
    前記関係グラフにおける前記ノード間の連結は、加重値によって表示され、前記ノード間は、連結がなければ対応する加重値が0である、
    ことを特徴とする請求項1に記載の方法。
  6. 前記第1連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第1連結におけるサブ連結の加重値が小さく、及び/又は、前記第3連結におけるサブ連結が対応する注釈ノードが前記第1画像の注釈に出現した回数が多い程、前記第3連結におけるサブ連結の加重値が小さく、及び/又は、前記第4連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第4連結におけるサブ連結の加重値が小さい、
    ことを特徴とする請求項5に記載の方法。
  7. コンピュータに、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するステップと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
    前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記注釈を有する第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、
    前記各連結の加重値をそれぞれ算出するステップと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
    を実行させる、
    ことを特徴とする画像学習プログラム。
  8. 少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割する画像分割モジュールと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、画像特徴マトリックスとテキスト特徴マトリックスを得る特徴ベクトル抽出モジュールと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するサブ空間投影モジュールと、
    前記投影後の画像特徴マトリックスとテキスト特徴マトリックスを保存する保存モジュールと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成し、前記各連結の加重値をそれぞれ算出し、前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るグラフ形成モジュールと、
    を含む、
    ことを特徴とする画像学習装置。
  9. 入力された第2画像に対して自動注釈を行う画像自動注釈装置における画像自動注釈方法であって、
    前記画像自動注釈装置は、学習モジュールと、予備処理モジュールと、グラフ更新モジュール及び注釈モジュールを含み、
    前記画像自動注釈方法は、学習ステップ、予備処理ステップ、グラフ更新ステップ及び注釈ステップを含み、
    前記学習ステップは、前記学習モジュールにより、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するステップと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
    前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、
    前記各連結の加重値をそれぞれ算出するステップと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
    を含み、
    前記予備処理ステップは、前記予備処理モジュールにより、
    前記第2画像を受け取るステップと、
    前記第2画像に対して分割操作を行い、前記第2画像を複数の画像領域に分割した後に、前記第2画像の各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るステップと、
    前記第2画像の画像特徴マトリックスをサブ空間に投影し、前記第2画像の投影後の画像特徴マトリックスを得るステップと、
    を含み、
    前記グラフ更新ステップは、前記グラフ更新モジュールにより、
    前記投影後の第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて、前記第2画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第5連結を形成するステップと、
    前記第2画像に対しての前記分割操作の結果に基づいて、前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するステップと、
    前記第5連結と前記第6連結の加重値をそれぞれ確定するステップと、
    前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するステップと、
    を含み、
    前記注釈ステップは、前記注釈モジュールにより、
    前記第2画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて再起動可能なランダムウォーク法により前記第2画像と最も密接に関係する所定数の注釈を取得するステップと、
    前記所定数の注釈が対応するキーワードを用いて前記第2画像に対して注釈操作を行うステップと、
    を含む、
    ことを特徴とする画像自動注釈方法。
  10. 前記分割操作は、
    前記第1画像と前記第2画像を矩形状ブロックに分割することと、
    前記第1画像と前記第2画像を、四分木法により、複数の解像度を有するブロックに分割することと、
    前記各第1画像と前記第2画像を、画像分割法により、重複しない同質的領域に分割すること、
    を含む、
    ことを特徴とする請求項9に記載の方法。
  11. 前記画像領域から前記画像特徴ベクトルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われる、
    ことを特徴とする請求項9に記載の方法。
  12. 前記サブ空間は、正準共分散サブ空間である、
    ことを特徴とする請求項9に記載の方法。
  13. 前記関係グラフには、前記第1画像、前記第2画像、前記画像領域及び前記注釈がノードにより表記され、
    前記関係グラフは、隣接マトリックスにより表示され、
    前記関係グラフにおける前記ノード間の連結は、加重値によって表示され、前記ノード間は、連結がなければ対応する加重値が0である、
    ことを特徴とする請求項9に記載の方法。
  14. 前記第1連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第1連結におけるサブ連結の加重値が小さく、及び/又は、前記第3連結におけるサブ連結が対応する注釈ノードが前記第1画像の注釈に出現した回数が多い程、前記第3連結におけるサブ連結の加重値が小さく、及び/又は、前記第4連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第4連結におけるサブ連結の加重値が小さい、
    ことを特徴とする請求項13に記載の方法。
  15. 前記注釈ステップを行う前に、更新された前記隣接マトリックスを正規化するステップをさらに含み、
    前記注釈ステップは、正規化された前記隣接マトリックスに基づいて行われる、
    ことを特徴とする請求項13に記載の方法。
  16. 入力された第2画像に対して自動注釈を行うための画像自動注釈プログラムであって、
    コンピュータに、学習ステップ、予備処理ステップ、グラフ更新ステップ及び注釈ステップを実行させ、
    前記学習ステップは、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するステップと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
    前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、
    前記各連結の加重値をそれぞれ算出するステップと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
    を含み、
    前記予備処理ステップは、
    前記第2画像を受け取るステップと、
    前記第2画像に対して分割操作を行い、前記第2画像を複数の画像領域に分割した後に、前記第2画像の各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るステップと、
    前記第2画像の画像特徴マトリックスをサブ空間に投影し、前記第2画像の投影後の画像特徴マトリックスを得るステップと、
    を含み、
    前記グラフ更新ステップは、
    前記投影後の第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて、前記第2画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第5連結を形成するステップと、
    前記第2画像に対しての前記分割操作の結果に基づいて、前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するステップと、
    前記第5連結と前記第6連結の加重値をそれぞれ確定するステップと、
    前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するステップと、
    を含み、
    前記注釈ステップは、
    前記第2画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて再起動可能なランダムウォーク法により前記第2画像と最も密接に関係する所定数の注釈を取得するステップと、
    前記所定数の注釈が対応するキーワードを用いて前記第2画像に対して注釈操作を行うステップと、
    を含む、
    ことを特徴とする画像自動注釈プログラム。
  17. 入力された第2画像に自動注釈を行う画像自動注釈装置であって、
    学習モジュールと、予備処理モジュールと、グラフ更新モジュール及び注釈モジュールを含み、
    前記学習モジュールは、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するユニットと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、
    前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するユニットと、
    前記各連結の加重値をそれぞれ算出するユニットと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、
    を含み、
    前記予備処理モジュールは、
    前記第2画像を受け取るユニットと、
    前記第2画像に対して分割操作を行い、前記第2画像を複数の画像領域に分割するユニットと、
    前記第2画像の各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るユニットと、
    前記第2画像の画像特徴マトリックスをサブ空間に投影し、前記第2画像の投影後の画像特徴マトリックスを得るユニットと、
    を含み、
    前記グラフ更新モジュールは、
    前記投影後の第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて、前記第2画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第5連結を形成し、前記第2画像に対しての前記分割操作の結果に基づいて、前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するユニットと、
    前記第5連結と前記第6連結の加重値をそれぞれ確定するユニットと、
    前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するユニットと、
    を含み、
    前記注釈モジュールは、
    前記第2画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて再起動可能なランダムウォーク法により前記第2画像と最も密接に関係する所定数の注釈を取得するユニットと、
    前記所定数の注釈が対応するキーワードを用いて前記第2画像に対して注釈操作を行うユニットと、
    を含む、
    ことを特徴とする画像自動注釈装置。
  18. 入力が第2画像であるときに画像検索を行う画像検索装置における画像検索方法であって、
    前記画像検索装置は、学習モジュール、予備処理モジュール、グラフ更新モジュール及び検索モジュールを有し、
    前記画像検索方法は、学習ステップ、予備処理ステップ、グラフ更新ステップ及び検索ステップを含み、
    前記学習ステップは、前記学習モジュールにより、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するステップと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
    前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、
    前記各連結の加重値をそれぞれ算出するステップと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
    を含み、
    前記予備処理ステップは、前記予備処理モジュールにより、
    前記第2画像を受け取るステップと、
    前記第2画像に対して分割操作を行い、前記第2画像を複数の画像領域に分割するステップと、
    前記第2画像の各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るステップと、
    前記第2画像の画像特徴マトリックスをサブ空間に投影し、前記第2画像の投影後の画像特徴マトリックスを得るステップと、
    を含み、
    前記グラフ更新ステップは、前記グラフ更新モジュールにより、
    前記投影後の第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて、前記第2画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第5連結を形成するステップと、
    前記第2画像に対しての前記分割操作の結果に基づいて、前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するステップと、
    前記第5連結と前記第6連結の加重値をそれぞれ確定するステップと、
    前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するステップと、
    を含み、
    前記検索ステップは、前記検索モジュールにより、
    前記第2画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記第2画像と最も密接に関係する所定数の画像を取得して出力するステップを含む、
    ことを特徴とする画像検索方法。
  19. 前記入力は、更にキーワードを含み、
    前記検索ステップにおいて、前記第2画像と前記キーワードに対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、前記第2画像及び前記キーワードと最も密接に関連する所定数の画像を取得して出力する、
    ことを特徴とする請求項18に記載の方法。
  20. 前記分割操作は、
    前記第1画像と前記第2画像を矩形状ブロックに分割することと、
    前記第1画像と前記第2画像を、四分木法により、複数の解像度を有するブロックに分割することと、
    前記各第1画像と前記第2画像を、画像分割法により、重複しない同質的領域に分割すること、
    を含む、
    ことを特徴とする請求項18又は19に記載の方法。
  21. 前記画像領域から前記画像特徴ベクトルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われる、
    ことを特徴とする請求項18又は19に記載の方法。
  22. 前記サブ空間は、正準共分散サブ空間である、
    ことを特徴とする請求項18又は19に記載の方法。
  23. 前記関係グラフには、前記第1画像、前記第2画像、前記画像領域及び前記注釈がノードにより表記され、
    前記関係グラフは、隣接マトリックスにより表示され、
    前記関係グラフにおける前記ノード間の連結は、加重値によって表示され、前記ノード間は、連結がなければ対応する加重値が0である、
    ことを特徴とする請求項18又は19に記載の方法。
  24. 前記第1連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第1連結におけるサブ連結の加重値が小さく、及び/又は、前記第3連結におけるサブ連結が対応する注釈ノードが前記第1画像の注釈に出現した回数が多い程、前記第3連結におけるサブ連結の加重値が小さく、及び/又は、前記第4連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第4連結におけるサブ連結の加重値が小さい、
    ことを特徴とする請求項23に記載の方法。
  25. 前記検索ステップを行う前に、更新された前記隣接マトリックスを正規化するステップをさらに含み、
    前記検索ステップは、正規化された前記隣接マトリックスに基づいて行われる、
    ことを特徴とする請求項23に記載の方法。
  26. 入力が第2画像であるときに画像検索を行うための画像検索プログラムであって、
    コンピュータに、学習ステップ、予備処理ステップ、グラフ更新ステップ及び検索ステップを実行させ、
    前記学習ステップは、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するステップと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
    前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、
    前記各連結の加重値をそれぞれ算出するステップと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
    を含み、
    前記予備処理ステップは、
    前記第2画像を受け取るステップと、
    前記第2画像に対して分割操作を行い、前記第2画像を複数の画像領域に分割するステップと、
    前記第2画像の各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るステップと、
    前記第2画像の画像特徴マトリックスをサブ空間に投影し、前記第2画像の投影後の画像特徴マトリックスを得るステップと、
    を含み、
    前記グラフ更新ステップは、
    前記投影後の第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて、前記第2画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第5連結を形成するステップと、
    前記第2画像に対しての前記分割操作の結果に基づいて、前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するステップと、
    前記第5連結と前記第6連結の加重値をそれぞれ確定するステップと、
    前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するステップと、
    を含み、
    前記検索ステップは、
    前記第2画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記第2画像と最も密接に関係する所定数の画像を取得して出力するステップを含む、
    ことを特徴とする画像検索プログラム。
  27. 入力が第2画像であるときに画像検索を行う画像検索装置であって、
    学習モジュール、予備処理モジュール、グラフ更新モジュール及び検索モジュールを有し、
    前記学習モジュールは、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するユニットと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、
    前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するユニットと、
    前記各連結の加重値をそれぞれ算出するユニットと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、
    を含み、
    前記予備処理モジュールは、
    前記第2画像を受け取るユニットと、
    前記第2画像に対して分割操作を行い、前記第2画像を複数の画像領域に分割するユニットと、
    前記第2画像の各画像領域から画像特徴ベクトルを抽出し、前記第2画像の画像特徴マトリックスを得るユニットと、
    前記第2画像の画像特徴マトリックスをサブ空間に投影し、前記第2画像の投影後の画像特徴マトリックスを得るユニットと、
    を含み、
    前記グラフ更新モジュールは、
    前記投影後の第1画像の画像特徴マトリックスと前記第2画像の画像特徴マトリックスに基づいて、前記第2画像の画像領域ノードと前記関係グラフにおける画像領域ノードとの第5連結を形成するユニットと、
    前記第2画像に対しての前記分割操作の結果に基づいて、前記第2画像と前記第2画像の画像領域ノードとの第6連結を形成するユニットと、
    前記第5連結と前記第6連結の加重値をそれぞれ確定するユニットと、
    前記第5連結、前記第6連結、及び、前記第5連結と前記第6連結にそれぞれ対応する前記加重値に基づいて前記関係グラフを更新するユニットと、
    を含み、
    前記検索モジュールは、
    前記第2画像に対応する再起動ベクトルを形成し、更新された前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記第2画像と最も密接に関係する所定数の画像を取得して出力するユニットを含む、
    ことを特徴とする画像検索装置。
  28. 入力が検索用キーワードであるときに画像検索を行う画像学習装置における画像検索方法であって、
    前記画像学習装置は、学習モジュールと検索モジュールを含み、
    前記画像検索方法は、学習ステップと検索ステップを有し、
    前記学習ステップは、前記学習モジュールにより、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するステップと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
    前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成するステップと、
    前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成するステップと、
    前記注釈を有する第1画像に基づいて前記第1画像と前記注釈との第3連結を形成するステップと、
    前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、
    前記各連結の加重値をそれぞれ算出するステップと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
    を含み、
    前記検索ステップは、前記検索モジュールにより、
    前記検索用キーワードに対応する再起動ベクトルを形成し、前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記検索用キーワードと最も密接に関係する所定数の画像を取得するステップを含む、
    ことを特徴とする画像検索方法。
  29. 前記分割操作は、
    前記第1画像と第2画像を矩形状ブロックに分割することと、
    前記第1画像と前記第2画像を、四分木法により、複数の解像度を有するブロックに分割することと、
    前記各第1画像と前記第2画像を、画像分割法により、重複しない同質的領域に分割すること、
    ことを特徴とする請求項28に記載の方法。
  30. 前記画像領域から前記画像特徴ベクトルの抽出は、色とテクスチャー情報を混合するローカルバイナリパターンを用いて行われる、
    ことを特徴とする請求項28に記載の方法。
  31. 前記サブ空間は、正準共分散サブ空間である、
    ことを特徴とする請求項28に記載の方法。
  32. 前記関係グラフには、前記第1画像、第2画像、前記画像領域及び前記注釈がノードにより表記され、
    前記関係グラフは、隣接マトリックスにより表示され、
    前記関係グラフにおける前記ノード間の連結は、加重値によって表示され、前記ノード間は、連結がなければ対応する加重値が0である、
    ことを特徴とする請求項28に記載の方法。
  33. 前記第1連結におけるサブ連結が対応する画像領域ノードの画面間の差が大きい程、前記第1連結におけるサブ連結の加重値が小さく、及び/又は、前記第3連結におけるサブ連結が対応する注釈ノードが前記第1画像の注釈に出現した回数が多い程、前記第3連結におけるサブ連結の加重値が小さく、及び/又は、前記第4連結におけるサブ連結が対応する注釈ノードのテキスト間の類似度が大きい程、前記第4連結におけるサブ連結の加重値が小さい、
    ことを特徴とする請求項32に記載の方法。
  34. 前記隣接マトリックスを正規化するステップをさらに含み、
    前記検索ステップは、正規化された前記隣接マトリックスに基づいて行われる、
    ことを特徴とする請求項32に記載の方法。
  35. 入力が検索用キーワードであるときに画像検索を行うための画像検索プログラムであって、
    コンピュータに、学習ステップと検索ステップを実行させ、
    前記学習ステップは、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するステップと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るステップと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するステップと、
    前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するステップと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成するステップと、
    前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成するステップと、
    前記注釈を有する第1画像に基づいて前記第1画像と前記注釈との第3連結を形成するステップと、
    前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するステップと、
    前記各連結の加重値をそれぞれ算出するステップと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るステップと、
    を含み、
    前記検索ステップは、
    前記検索用キーワードに対応する再起動ベクトルを形成し、前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記検索用キーワードと最も密接に関係する所定数の画像を取得するステップを含む、
    ことを特徴とする画像検索プログラム。
  36. 入力が検索用キーワードであるときに画像検索を行う画像学習装置であって、
    学習モジュールと検索モジュールを含み、
    前記学習モジュールは、
    少なくとも一つの、注釈を有する第1画像に対して分割操作を行い、前記各第1画像を複数の画像領域に分割するユニットと、
    前記各画像領域から画像特徴ベクトルとテキスト特徴ベクトルを抽出し、前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを得るユニットと、
    前記画像特徴マトリックスと前記テキスト特徴マトリックスをサブ空間に投影し、投影後の第1画像の画像特徴マトリックスとテキスト特徴マトリックスを求め、画像特徴とテキスト特徴との共分散を最大化するユニットと、
    前記投影後の前記第1画像の画像特徴マトリックスとテキスト特徴マトリックスを保存するユニットと、
    前記投影後の画像特徴マトリックスに基づいて前記画像領域間の第1連結を形成し、前記分割操作の結果に基づいて前記第1画像と前記画像領域との第2連結を形成し、前記第1画像に基づいて前記第1画像と前記注釈との第3連結を形成し、前記投影後のテキスト特徴マトリックスに基づいて前記注釈間の第4連結を形成するユニットと、
    前記各連結の加重値をそれぞれ算出するユニットと、
    前記各連結と、前記各連結にそれぞれ対応する前記各加重値とに基づいて、表示画像と前記画像領域と前記注釈との三者間の関係グラフを得るユニットと、
    を含み、
    前記検索モジュールは、
    前記検索用キーワードに対応する再起動ベクトルを形成し、前記関係グラフに基づいて、再起動可能なランダムウォーク法により、前記検索用キーワードと最も密接に関係する所定数の画像を取得するユニットを含む、
    ことを特徴とする画像検索装置。
JP2009121359A 2008-05-20 2009-05-19 画像学習、自動注釈、検索方法及び装置 Expired - Fee Related JP5282658B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200810100721.4 2008-05-20
CN2008101007214A CN101587478B (zh) 2008-05-20 2008-05-20 图像训练、自动标注、检索方法及装置

Publications (2)

Publication Number Publication Date
JP2009282980A JP2009282980A (ja) 2009-12-03
JP5282658B2 true JP5282658B2 (ja) 2013-09-04

Family

ID=41051102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009121359A Expired - Fee Related JP5282658B2 (ja) 2008-05-20 2009-05-19 画像学習、自動注釈、検索方法及び装置

Country Status (5)

Country Link
US (1) US8232996B2 (ja)
EP (1) EP2124159B8 (ja)
JP (1) JP5282658B2 (ja)
CN (1) CN101587478B (ja)
ES (1) ES2524789T3 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429176B2 (en) * 2008-03-28 2013-04-23 Yahoo! Inc. Extending media annotations using collective knowledge
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
CA2786727C (en) 2010-02-01 2017-08-29 Google, Inc. Joint embedding for item association
US9792368B1 (en) * 2010-03-04 2017-10-17 A9.Com, Inc. Dynamic map synchronization
CN102193946A (zh) * 2010-03-18 2011-09-21 株式会社理光 为媒体文件添加标签方法和使用该方法的系统
CN102298606B (zh) * 2011-06-01 2013-07-17 清华大学 基于标签图模型随机游走的图像自动标注方法及装置
US8625887B2 (en) 2011-07-13 2014-01-07 Google Inc. Systems and methods for matching visual object components
CN102495865B (zh) * 2011-11-28 2013-08-07 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
US9239848B2 (en) * 2012-02-06 2016-01-19 Microsoft Technology Licensing, Llc System and method for semantically annotating images
JP2014026455A (ja) * 2012-07-26 2014-02-06 Nippon Telegr & Teleph Corp <Ntt> メディアデータ解析装置、方法、及びプログラム
US8935246B2 (en) * 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query
CN103853797B (zh) * 2012-12-07 2017-10-17 中兴通讯股份有限公司 一种基于n元图片索引结构的图片检索方法与系统
CN103345481B (zh) * 2013-06-19 2016-08-24 新疆大学 一种维吾尔文图像文件的标注方法
US9754177B2 (en) * 2013-06-21 2017-09-05 Microsoft Technology Licensing, Llc Identifying objects within an image
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
CN103714178B (zh) * 2014-01-08 2017-01-25 北京京东尚科信息技术有限公司 一种基于词间相关性的图像自动标注方法
US20170300621A1 (en) * 2014-09-10 2017-10-19 Koninklijke Philips N.V. Image report annotation identification
US10223728B2 (en) * 2014-12-09 2019-03-05 Google Llc Systems and methods of providing recommendations by generating transition probability data with directed consumption
JP6607263B2 (ja) * 2016-02-15 2019-11-20 富士通株式会社 情報処理装置、情報処理方法、および情報処理プログラム
CN107391505B (zh) * 2016-05-16 2020-10-23 腾讯科技(深圳)有限公司 一种图像处理方法及系统
US11195313B2 (en) * 2016-10-14 2021-12-07 International Business Machines Corporation Cross-modality neural network transform for semi-automatic medical image annotation
CN108268510B (zh) * 2016-12-30 2022-01-28 华为技术有限公司 一种图像标注方法和装置
CN107480711B (zh) * 2017-08-04 2020-09-01 合肥美的智能科技有限公司 图像识别方法、装置、计算机设备和可读存储介质
CN109492549A (zh) * 2018-10-24 2019-03-19 杭州睿琪软件有限公司 一种训练样本集处理、模型训练方法及系统
CN109933790B (zh) * 2019-03-01 2020-06-26 武汉达梦数据库有限公司 一种文本特征提取方法及系统
CN113614712A (zh) * 2019-03-29 2021-11-05 索尼集团公司 图像处理装置和方法以及程序
CN111080614A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 铁路货车轮轮辋及踏面的破损识别方法
WO2023101679A1 (en) * 2021-12-02 2023-06-08 Innopeak Technology, Inc. Text-image cross-modal retrieval based on virtual word expansion
CN117393921B (zh) * 2023-10-17 2024-06-18 浙江博时新能源技术有限公司 分布式储能设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101061509B (zh) * 2004-11-19 2010-10-27 皇家飞利浦电子股份有限公司 用于医疗成像数据内的肿瘤边界的自动检测和分割的系统和方法
CN101061490A (zh) * 2004-11-19 2007-10-24 皇家飞利浦电子股份有限公司 利用支持向量机(svm)在计算机辅助检测(cad)中进行假阳性降低的系统和方法
US7698332B2 (en) * 2006-03-13 2010-04-13 Microsoft Corporation Projecting queries and images into a similarity space

Also Published As

Publication number Publication date
CN101587478A (zh) 2009-11-25
EP2124159B8 (en) 2014-10-29
US8232996B2 (en) 2012-07-31
JP2009282980A (ja) 2009-12-03
EP2124159B1 (en) 2014-09-03
EP2124159A1 (en) 2009-11-25
CN101587478B (zh) 2013-07-24
US20090289942A1 (en) 2009-11-26
ES2524789T3 (es) 2014-12-12

Similar Documents

Publication Publication Date Title
JP5282658B2 (ja) 画像学習、自動注釈、検索方法及び装置
Zhang et al. Detection of co-salient objects by looking deep and wide
JP6397144B2 (ja) 画像からの事業発見
US11328172B2 (en) Method for fine-grained sketch-based scene image retrieval
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
WO2019015246A1 (zh) 图像特征获取
KR102576344B1 (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
US20150178321A1 (en) Image-based 3d model search and retrieval
WO2022160772A1 (zh) 一种基于视角引导多重对抗注意力的行人重识别方法
EP4394724A1 (en) Image encoder training method and apparatus, device, and medium
WO2023221790A1 (zh) 图像编码器的训练方法、装置、设备及介质
CN107133854A (zh) 信息推荐方法和装置
CN109241299B (zh) 多媒体资源搜索方法、装置、存储介质及设备
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
CN110489613B (zh) 协同可视数据推荐方法及装置
WO2024027347A9 (zh) 内容识别方法、装置、设备、存储介质及计算机程序产品
CN113052209B (zh) 融合胶囊相似性的单样本语义分割方法
Raihan et al. CNN modeling for recognizing local fish
Nguyen et al. MC-OCR challenge 2021: End-to-end system to extract key information from vietnamese receipts
Nguyen et al. Clustering web video search results with convolutional neural networks
Zhu et al. Statistical image modeling for semantic segmentation
CN117994822B (zh) 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法
CN115205555B (zh) 确定相似图像的方法、训练方法、信息确定方法及设备
CN114863450B (zh) 图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130513

LAPS Cancellation because of no payment of annual fees