JP5197492B2 - 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム - Google Patents

半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム Download PDF

Info

Publication number
JP5197492B2
JP5197492B2 JP2009133111A JP2009133111A JP5197492B2 JP 5197492 B2 JP5197492 B2 JP 5197492B2 JP 2009133111 A JP2009133111 A JP 2009133111A JP 2009133111 A JP2009133111 A JP 2009133111A JP 5197492 B2 JP5197492 B2 JP 5197492B2
Authority
JP
Japan
Prior art keywords
image
additional information
stored
accumulated
latent variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009133111A
Other languages
English (en)
Other versions
JP2010282275A (ja
Inventor
昭悟 木村
弘和 亀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009133111A priority Critical patent/JP5197492B2/ja
Publication of JP2010282275A publication Critical patent/JP2010282275A/ja
Application granted granted Critical
Publication of JP5197492B2 publication Critical patent/JP5197492B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、半教師画像認識検索装置、半教師画像認識検索方法、及びプログラムに関する。
所望の画像を与えられた言語情報に基づいて検索する画像検索技術、及び、与えられた画像に対してその画像を説明する言語情報を自動的に付与する画像認識技術は、ディジタルカメラ・携帯電話などの撮像装置の普及、インターネット上での画像共有の一般化などに伴い、非常に重要な技術となってきている。近年では、画像検索と画像認識を同一の枠組の下で実現する画像認識検索技術についても、非特許文献1など数多くの技術が開発されている。
中山、原田、國吉、大津"画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法"、電子情報通信学会技術報告、PRMU2007-147、2007年12月
これらの技術は、実際に検索・認識を行う前に、画像と言語情報との関連性を学習しておく必要があり、この学習の際に、同時共起する画像と言語情報との組が数多く必要となる。しかし、大量の画像に手動で言語情報を付与することは多くの労力を伴うため、言語情報が関連付けられている画像を大量に収集することは困難である。言語情報が関連付けられた画像が十分に用意できない場合には、画像と言語情報との関係性を精度良く学習できないため、結果として画像認識・画像検索の信頼性が損なわれてしまう。
本発明は、このような事情を考慮してなされたものであり、その目的は、言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報との関係性の学習、類似性の高い画像の検索・認識をより効率的に行うことができる半教師画像認識検索装置、半教師画像認識検索方法、及びプログラムを提供することにある。
上述した課題を解決するために、本発明は、与えられた画像と、その画像を説明する情報である付加情報との関係性を学習する半教師画像認識検索装置であって、付加情報が予め付与された画像の集合である完全蓄積画像集合の要素である完全蓄積画像、及び付加情報が与えられていない画像の集合である不完全蓄積画像集合の要素である不完全蓄積画像のそれぞれから、各蓄積画像の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出手段と、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、蓄積付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出手段と、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、画像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出手段と、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、画像と付加情報との関係性を記述するモデルである画像・付加情報関係モデルを学習する画像・付加情報間関係性学習手段とを備えることを特徴とする半教師画像認識検索装置である。
本発明は、上記の発明において、前記画像・付加情報間関係性学習手段は、前記蓄積潜在変数集合から、潜在変数の構造を記述するモデルである潜在変数モデルを学習する潜在変数モデル学習手段と、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、及び前記蓄積潜在変数集合から、画像と潜在変数との関係性を記述するモデルである画像・潜在変数関係モデルを学習する画像・潜在変数関係モデル学習手段と、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、付加情報と潜在変数との関係性を記述するモデルである付加情報・潜在変数関係モデルを学習する付加情報・潜在変数関係モデル学習手段とを更に備え、前記画像・付加情報間関係性学習手段は、前記潜在変数モデル、前記画像・潜在変数関係モデル、及び前記付加情報・潜在変数関係モデルを合わせて、画像・付加情報関係モデルとして出力することを特徴とする。
本発明は、上記の発明において、入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出手段と、前記入力付加情報特徴を、前記画像・付加情報関係モデルに与え、蓄積画像集合から類似性の高い画像を選択して提示する画像検索手段とを更に備えることを特徴とする。
本発明は、上記の発明において、入力画像から、入力画像の特性を表現するベクトルである入力画像特徴を抽出する入力画像特徴抽出手段と、前記入力画像特徴を、前記画像・付加情報関係モデルに与え、前記入力画像との類似性の高い付加情報を選択して提示する画像認識手段とを更に備えることを特徴とする。
また、上述した課題を解決するために、本発明は、与えられた画像と、その画像を説明する情報である付加情報との関係性を学習する半教師画像認識検索装置において用いられる半教師画像認識検索方法であって、蓄積画像特徴抽出手段が、付加情報が予め付与された画像の集合である完全蓄積画像集合の要素である完全蓄積画像、及び付加情報が与えられていない画像の集合である不完全蓄積画像集合の要素である不完全蓄積画像のそれぞれから、各蓄積画像の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出過程と、蓄積付加情報特徴抽出手段が、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、蓄積付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出過程と、蓄積潜在変数抽出手段が、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、画像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出過程と、画像・付加情報間関係性学習手段が、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、画像と付加情報との関係性を記述するモデルである画像・付加情報関係モデルを学習する画像・付加情報間関係性学習過程とを含むことを特徴とする半教師画像認識検索方法である。
本発明は、上記の発明において、前記画像・付加情報間関係性学習過程は、前記蓄積潜在変数集合から、潜在変数の構造を記述するモデルである潜在変数モデルを学習する潜在変数モデル学習過程と、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、及び前記蓄積潜在変数集合から、画像と潜在変数との関係性を記述するモデルである画像・潜在変数関係モデルを学習する画像・潜在変数関係モデル学習過程と、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、付加情報と潜在変数との関係性を記述するモデルである付加情報・潜在変数関係モデルを学習する付加情報・潜在変数関係モデル学習過程とを更に含み、前記画像・付加情報間関係性学習手段は、前記画像・付加情報間関係性学習過程において、前記潜在変数モデル、前記画像・潜在変数関係モデル、及び前記付加情報・潜在変数関係モデルを合わせて、画像・付加情報関係モデルとして出力することを特徴とする。
本発明は、上記の発明において、入力付加情報特徴抽出手段が、入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出過程と、画像検索手段が、前記入力付加情報特徴を、前記画像・付加情報関係モデルに与え、蓄積画像集合から類似性の高い画像を選択して提示する画像検索過程とを更に含むことを特徴とする。
本発明は、上記の発明において、入力画像特徴抽出手段が、入力画像から、入力画像の特性を表現するベクトルである入力画像特徴を抽出する入力画像特徴抽出過程と、画像認識手段が、前記入力画像特徴を、前記画像・付加情報関係モデルに与え、前記入力画像との類似性の高い付加情報を選択して提示する画像認識過程とを更に含むことを特徴とする。
また、上述した課題を解決するために、本発明は、与えられた画像と、その画像を説明する情報である付加情報との関係性を学習する半教師画像認識検索装置としてのコンピュータに実行させるプログラムであって、蓄積画像特徴抽出手段が、付加情報が予め付与された画像の集合である完全蓄積画像集合の要素である完全蓄積画像、及び付加情報が与えられていない画像の集合である不完全蓄積画像集合の要素である不完全蓄積画像のそれぞれから、各蓄積画像の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出ステップと、蓄積付加情報特徴抽出手段が、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、蓄積付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出ステップと、蓄積潜在変数抽出手段が、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、画像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出ステップと、画像・付加情報間関係性学習手段が、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、画像と付加情報との関係性を記述するモデルである画像・付加情報関係モデルを学習する画像・付加情報間関係性学習ステップとを実行させることを特徴とするプログラムである。
この発明によれば、言語情報が関連付けられた画像が少量しか利用できない場合であっても、画像と言語情報との関係性の学習、類似性の高い画像の検索・認識をより効率的に行うことができるという利点が得られる。
本発明の第1実施形態による半教師画像学習装置の構成を示すブロック図である。 多変量解析の一種である正準相関分析方法を用いた多次元信号対圧縮装置の構成を示すブロック図である。 本第2実施形態による半教師画像検索装置の構成を示すブロック図である。 本第3実施形態による半教師画像認識装置の構成を示すブロック図である。
以下、本発明の一実施形態を、図面を参照して説明する。
A.第1実施形態
図1は、本発明の第1実施形態による半教師画像学習装置の構成を示すブロック図である。図において、本第1実施形態による半教師画像学習装置は、蓄積画像特徴抽出部1と、蓄積付加情報特徴抽出部2と、蓄積潜在変数抽出部3と、画像・付加情報間関係性学習部4とから構成される。該半教師画像学習装置は、画像を説明する情報である付加情報が予め付与された画像の集合である完全蓄積画像集合、付加情報が与えられていない画像の集合である不完全蓄積画像集合、及び付与された付加情報の集合である蓄積付加情報集合を入力し、画像と付加情報との関係性を記述するモデルである画像・付加情報関係モデルを出力する。
蓄積画像特徴抽出部1は、完全蓄積画像集合、及び不完全蓄積画像集合を入力し、完全蓄積画像集合の要素である完全蓄積画像、及び不完全蓄積画像集合の要素である不完全蓄積画像のそれぞれから、各蓄積画像の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出し、完全蓄積画像特徴の集合である完全蓄積画像特徴集合、及び不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合を出力する。
完全蓄積画像特徴及び不完全蓄積画像特徴の抽出方法は、特に限定されるものではないが、例えば、以下のような方法、及びそれらの任意の組み合わせが考えられる。
・色ヒストグラム
・画像中の各小領域のディジタルコサイン変換の低周波成分
・Haar waveletの低周波及び/または高周波成分のヒストグラム
・高次局所自己相関特徴(参考文献1「N. Otsu and T. Kurita “A new scheme for practical flexible and intelligent vision systems,” Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988.」参照)
・SIFT(参考文献2「D. Lowe, “Distinctive image features from scale-invariant keypoints, ”International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.」参照)
このようにして、蓄積画像特徴抽出部1は、完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出し、これらそれぞれの集合である完全蓄積画像特徴集合及び不完全蓄積画像特徴集合を出力する。
蓄積付加情報特徴抽出部2は、蓄積付加情報集合を入力し、蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、蓄積付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出し、この蓄積付加情報特徴の集合である蓄積付加情報特徴集合を出力する。
蓄積付加情報特徴の抽出方法は、特に限定されるものではないが、本第1実施形態においては、付加情報として言語ラベルを想定し、その言語ラベルの有無を表現する2値ベクトルを蓄積付加情報特徴とする。すなわち、蓄積付加情報特徴は、以下のように構成される。
蓄積付加情報特徴は、考慮すべき言語ラベルの総数と同数の次元を持つベクトルであり、ベクトルの各次元が言語ラベルに対応する。以降、便宜的に、言語ラベルを、上記ベクトルにおいて対応する次元のインデックスを用いて表現する。蓄積付加情報に言語ラベルiが含まれている場合には、蓄積付加情報特徴の第i次元を「1」とし、そうでない場合には、「0」とする。あるいは、上記の方法で作成した特徴を主成分分析を用いて圧縮した多次元ベクトルを蓄積付加情報特徴としても良い。
このようにして、蓄積付加情報特徴抽出部2は、蓄積付加情報特徴を抽出し、この蓄積付加情報特徴の集合である蓄積付加情報集合を出力する。
蓄積潜在変数抽出部3は、完全蓄積画像特徴集合、不完全蓄積画像特徴集合、及び蓄積付加情報特徴集合を入力し、これらの特徴集合から、画像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出し、この蓄積潜在変数集合を出力する。
蓄積潜在変数集合の抽出方法は、特に限定されるものではないが、本第1実施形態においては、多変量解析の一種である正準相関分析を改良した以下の方法を用いる。
ここで、図2は、多変量解析の一種である正準相関分析方法を用いた多次元信号対圧縮装置の構成を示すブロック図である。なお、以下では、図2、及びその説明において用いる用語を本発明で用いる用語に置き換えて参照されたい。用語の対応関係は、以下の通りである。
・第1信号系列→蓄積画像特徴
・第2信号系列→蓄積付加情報特徴
・完全信号系列群→完全蓄積画像特徴と対応する蓄積付加情報特徴との集合
・第1完全信号系列→完全蓄積画像特徴
・第2完全信号系列→完全蓄積画像特徴に対応する蓄積付加情報特徴
・第1不完全信号系列→不完全蓄積画像特徴
・第2不完全信号系列→(本発明では存在しない)
・第1圧縮信号系列→蓄積潜在変数
・第2圧縮信号系列→(本発明では存在しない)
以下の説明においては、(1)第1信号系列と第2信号系列が同時共起している場合、(2)第1信号系列が欠損している場合、(3)第2信号系列が欠損している場合の3種類のケースを考慮しているのに対し、本発明では、(A)蓄積画像特徴と蓄積付加情報特徴とが同時共起している場合、(B)蓄積付加情報特徴のみが欠損している場合の2種類のケースのみを考慮している点に注意されたい。このことから、以下の説明で用いられている変数NとNyは、本発明では同一となる。
図2において、多次元信号対圧縮装置は、完全信号系列群統計量算出部31と、不完全信号系列群統計量算出部32と、統合統計量算出部33と、信号系列圧縮関数決定部34と、信号系列圧縮部35とから構成されている。
多次元信号対圧縮装置は、多次元信号系列の集合である第1信号系列群、及び第1データ群とは異なる多次元信号系列の集合である第2信号系列群を入力し、これら2つの信号系列群をそれぞれ圧縮した信号系列群である第1圧縮信号系列群及び第2圧縮信号系列群を出力する。
完全信号系列群統計量算出部31は、第1信号系列群の構成要素としての多次元信号系列である第1信号系列、及び第2信号系列群の構成要素としての多次元信号系列である第2信号系列について、第1信号系列と第2信号系列とが対を成す信号系列対の集合である完全信号系列群(第1完全信号系列X、第2完全信号系列Y)を入力し、その完全信号系列群を表現する統計量である完全信号系列群統計量を算出し、この完全信号系列群統計量を出力する。
完全信号系列群統計量の算出方法は、特に限定されるものではないが、ここでは、完全信号系列群統計量として、完全信号系列群の自己共分散行列、及び相互共分散行列を算出する。
第1信号系列群Xは、完全信号系列群に含まれる第1信号系列の集合である第1完全信号系列群Xと、完全信号系列群に含まれない第1信号系列の集合である第1不完全信号系列群Xとに分割される。同様に、第2信号系列群Yは、完全信号系列群に含まれる第2信号系列の集合である第2完全信号系列群Yと、完全信号系列群に含まれない第2信号系列の集合である第2不完全信号系列群Yとに分割される。併せて、次式(1)、(2)、(3)、(4)、(5)、(6)のように表現される。
Figure 0005197492
Figure 0005197492
Figure 0005197492
Figure 0005197492
Figure 0005197492
Figure 0005197492
ここで、Nは、完全信号系列群の要素数、N及びNは、第1及び第2信号系列群の要素数である。また、各要素x及びy(i=1、2、…、N、j=1、2、…、N、N+1、N+2、…、N+N−N)は、それぞれd次元及びd次元の列ベクトルとする。同じ添え字の信号系列は、互いに対応関係にあることを示している。以降の説明において、上記完全信号系列群と不完全信号系列群とを明確に区別して記述する必要がある場合には、次式(7)、(8)、(9)、(10)に示すように、代替的な表記を用いることもある。
Figure 0005197492
Figure 0005197492
Figure 0005197492
Figure 0005197492
また、以降では、説明の簡略化のため、第1信号系列群及び第2信号系列群の平均信号系列は、常に0ベクトルであると仮定する。もしそうでない場合には、予め、次式(11)、(12)で表される、それぞれの平均信号系列を求めて、各信号系列からその平均信号系列を引くことで、同様の状況にすることが可能である。
Figure 0005197492
Figure 0005197492
このとき、完全信号系列群統計量Sとして、各信号系列群の自己共分散行列SCxx、SCyy、及び相互共分散行列SCxyを、次式(13)、(14)、(15)で求める。
Figure 0005197492
Figure 0005197492
Figure 0005197492
但し、xは、(ベクトルもしくは行列の)転置を意味する。
このようにして、完全信号系列群統計量算出部31は、完全信号系列群統計量S={SCxx、SCyy、SCxy}を抽出して出力する。
次に、不完全信号系列群統計量算出部32は、不完全信号系列群(第1不完全信号系列群X、及び第2不完全信号系列群Y)を入力し、これら2つの不完全信号系列群を表現する統計量である不完全信号系列群統計量を算出し、この不完全信号系列群統計量を出力する。不完全信号系列群統計量の算出方法は、特に限定されるものではないが、ここでは、第1不完全信号系列群統計量算出部321と、第2不完全信号系列群統計量算出部322とを用いる方法について説明する。
第1不完全信号系列群統計量算出部321は、第1不完全信号系列群Xを入力し、第1不完全信号系列群Xを表現する統計量である第1不完全信号系列群統計量を算出し、該第1不完全信号系列群統計量を出力する。第1不完全信号系列群統計量の算出方法は、特に限定されるものではないが、ここでは、第1不完全信号系列群統計量として、第1不完全信号系列の自己共分散行列を算出する例について説明する。
第1不完全信号系列の自己共分散行列SIxxは、次式(16)で算出される。
Figure 0005197492
このように、第1不完全信号系列群統計量算出部321は、第1不完全信号系列群統計量SIxxを抽出して出力する。
次に、第2不完全信号系列群統計量算出部322は、第2不完全信号系列群Yを入力し、第2不完全信号系列群Yを表現する統計量である第2不完全信号系列群統計量を算出し、該第2不完全信号系列群統計量を出力する。第2不完全信号系列群統計量の算出方法は、特に限定されるものではないが、ここでは、第2不完全信号系列群統計量として、第2不完全信号系列の自己共分散行列SIyyを算出する。自己共分散行列SIyyの算出方法は、第1不完全信号系列群統計量算出部3−21と同様である。
このように、第2不完全信号系列群統計量算出部322は、第2不完全信号系列群統計量SIyyを抽出して出力する。
上述したように、不完全信号系列群統計量算出部32は、第1不完全信号系列群統計量SIxxと第2不完全信号系列群統計量SIyyとを合わせて、不完全信号系列群統計量S={SIxx、SIyy}として出力する。
次に、統合統計量算出部33は、完全信号系列群統計量、及び不完全信号系列群統計量を入力し、これらの統計量から、新しい統計量である統合統計量を算出し、該統合統計量を出力する。統合統計量の算出方法は、特に限定されるものではないが、ここでは、自己共分散行列に関する統合統計量と相互共分散行列に関する統合統計量とを算出する方法を用いる。
まず、自己共分散行列に関する統合統計量は、次式(17)、(18)、(19)で算出される。なお、式中の文字下部に_が付いた文字は、文中において文字の前に_を記載して示す。つまり、上記統合統計量は、_Cと記載する。
Figure 0005197492
Figure 0005197492
Figure 0005197492
ここで、βは、0≦β≦1を満たすように予め定められた定数であり、0は、零行列である。Sxxがd×d正方行列、Syyがd×d正方行列であることから、自己共分散行列に関する統合統計量_Cは(d+d)×(d+d)正方行列となる。
一方、相互共分散行列に関する統合統計量は、次式(20)で算出される。なお、式中の文字上部に ̄が付いた文字は、文中において文字の前に ̄を記載して示す。つまり、上記統合統計量は、 ̄Cと記載する。
Figure 0005197492
但し、Iは、d×d単位行列である。相互共分散行列に関する統合統計量 ̄Cも、自己共分散行列に関する統合統計量と同様、(d+d)×(d+d)正方行列となる。
上述した通り、統合統計量算出部3は、自己共分散行列に関する統合統計量_Cと相互共分散行列に関する統合統計量C ̄とを合わせて、統合統計量C={_C、 ̄C}とし、該統合統計量Cを出力する。
次に、信号系列圧縮関数決定部34は、統合統計量Cを入力し、第1信号系列及び第2信号系列を圧縮する関数である信号系列圧縮関数を決定し、該信号系列圧縮関数を出力する。信号系列圧縮関数の決定方法は、特に限定されるものではないが、本第1実施形態においては、統合統計量を用いた一般化固有値問題を解くことによって導出する。
まず、以下の一般化固有値問題を考える。
Figure 0005197492
ここで、wは、(d+d)次元のベクトルである。この一般化固有値問題は、定数βをβ=1としたときの特殊例として完全信号系列群のみを用いた正準相関分析を含み、定数βをβ=0としたときの特殊例として第1信号系列群と第2信号系列群とが無相関であることを仮定したときの主成分分析を含むことに注意する。
なお、β=1の場合には、元の一般化固有値問題を直接解かず、代わりに、先頭d行分の一般化固有値問題と後方d行分の一般化固有値問題とに分解し、いくつかの式変形を行うことによって、min(d、d)次元の一般化固有値問題に変形することができ、より効率的に解くことができる。また、第1信号系列群と第2信号系列群とが独立としてしまうと、固有値λまでもが第1信号系列群と第2信号系列群とで異なってしまう。
自己共分散行列に関する統合統計量_Cの部分行列は、次式(22)、(23)で表わされる。
Figure 0005197492
Figure 0005197492
上記統合統計量C_の部分行列_Cxx、_Cyyが実対称正定値行列であることに着目すると、上記一般化固有値問題は、これら部分行列_Cxx、_Cyyのコレスキー分解、次式(24)、(25)を用いることで、次式(26)、(27)、(28)で示す固有値問題に変換できる。なお、_Lxx及び_Lyyは、下三角行列となり、このことから_Lも下三角行列となる。つまり、数式(26)の左辺にある行列_L−1 ̄C(_L−1は、実対称行列となる。実対称行列の固有値問題は各種解法が知られており、計算も比較的容易である。
Figure 0005197492
Figure 0005197492
Figure 0005197492
Figure 0005197492
Figure 0005197492
数式(26)に示す固有値問題を解き、予め定められた数の固有値と固有ベクトルとの組、もしくは固有値の和が予め定められた閾値を上回る最大数の固有値と固有ベクトルとの組を求めることで、信号系列圧縮関数を決定することができる。
具体的には、以下の通りである。まず、数式(26)に示す実対称行列の固有値問題を解いて得られた固有ベクトルの集合を、次式(29)とする。
Figure 0005197492
このとき、数式(27)の逆変換を用いて、各固有ベクトルuを、次式(30)のように変換する。
Figure 0005197492
但し、ハット(^)dは、取り出した固有値及び固有ベクトルの数であり、ハット(^)d≦min(d、d)を満たす。変換された各固有ベクトルwは、先頭のd次元ベクトルwx,iと後続のd次元ベクトルwy,iとに分解することができる。そして、この分解された固有ベクトルを用いて、信号系列圧縮関数を特徴付けるd×ハット(^)d変換行列T及びd×ハット(^)d変換行列を、次式(31)、(32)、(33)、(34)のように得る。
Figure 0005197492
Figure 0005197492
Figure 0005197492
Figure 0005197492
このようにして、信号系列圧縮関数決定部34は、信号系列圧縮関数を特徴付ける変換行列TとTを算出し、これらの変換行列を出力する。
次に、信号系列圧縮部35は、第1信号系列群X(X、X)、第2信号系列群Y(Y、Y)、及び信号系列圧縮関数を入力し、第1信号系列と第2信号系列のそれぞれを、信号系列圧縮関数を用いて圧縮し、圧縮された系列の集合である第1圧縮信号系列群及び第2圧縮信号系列群を出力する。第1圧縮信号系列群ハット(^)X及び第2圧縮信号系列群ハット(^)Yは、次式(35)、(36)、(37)、(38)に示すように、信号系列圧縮関数を特徴付ける変換行列を用いて、第1信号系列群X及び第2信号系列群Yの各信号系列を圧縮することによって得られる。
Figure 0005197492
Figure 0005197492
Figure 0005197492
Figure 0005197492
このように、信号系列圧縮部35は、第1圧縮信号系列群ハット(^)X及び第2圧縮信号系列群ハット(^)Yを導出し、これら圧縮信号系列群を出力する。
なお、以降では、上記ハット(^)Xを、蓄積潜在変数集合Z={z,z,…,zNx}として表記する。本発明では、上述した第2圧縮信号系列群ハット(^)Yは用いない。このようにして、蓄積潜在変数抽出部3は、蓄積潜在変数集合Zを抽出し、この蓄積潜在変数集合を出力する。
図1に説明を戻すと、画像・付加情報間関係性学習部4は、完全蓄積画像特徴集合、不完全蓄積画像特徴集合、蓄積付加情報特徴集合、及び蓄積潜在変数集合を入力し、これら集合から、画像と付加情報との関係性を記述するモデルである画像・付加情報関係モデルを学習し、この画像・付加情報関係モデルを出力する。画像・付加情報関係モデルの学習方法は、特に限定されるものではないが、本第1実施形態においては、潜在変数モデル学習部41と、画像・潜在変数関係モデル学習部42と、付加情報・潜在変数関係モデル学習部43とを用いる方法について説明する。
潜在変数モデル学習部41は、蓄積潜在変数集合を入力し、この蓄積潜在変数の構造を記述するモデルである潜在変数モデルを学習し、この潜在変数モデルを出力する。潜在変数モデルの学習方法は、特に限定されるものではないが、本第1実施形態では、以下の2つの実施例について説明する。いずれの実施例も、潜在変数モデルとして、潜在変数Zの生起確率p(z)を採用する。
[第1の実施例]
蓄積潜在変数集合Zを用いた以下の多点近似の数式(3)によって、潜在変数モデルp(z)を決定する。
Figure 0005197492
ここで、δa,bは、クロネッカーのデルタである。
[第2の実施例]
正準相関分析の確率的な構造を考慮し、潜在変数モデルp(z)を、次式(40)で示すように設定する。
Figure 0005197492
このようにして、潜在変数モデル学習部41は、潜在変数モデルp(z)を抽出して出力する。
次に、画像・潜在変数関係モデル学習部42は、蓄積画像特徴集合、及び蓄積潜在変数集合を入力し、これらの集合を用いて画像と潜在変数との関係性を記述するモデルである画像・潜在変数関係モデルを学習し、この画像・潜在変数関係モデルを出力する。画像・潜在変数関係モデルの学習方法は、特に限定されるものではないが、本第1実施形態では、以下の2つの実施例について述べる。いずれも、画像・潜在変数関係モデルとして、潜在変数zが与えられたときの画像特徴xの条件付生起確率p(x|z)を採用する。
[第1の実施例]
蓄積潜在変数集合の各要素zについて、画像・潜在変数関係モデルp(x|z)を以下の数式(41)で示すように決定する。なお、式中の文字上部に〜が付いた文字は、文中において文字の前に〜を記載して示す。
Figure 0005197492
但し、〜zは、蓄積画像特徴xを図2に示す信号系列圧縮部35を用いて変換した蓄積潜在変数であり、βは、予め定められた定数である。
[第2の実施例]
正準相関分析の確率的な構造を考慮し、画像・潜在変数関係モデルp(x|z)を以下の数式(42)で示すように決定する。
Figure 0005197492
但し、SCxxは、完全蓄積画像特徴と対応する蓄積付加情報特徴との集合、完全蓄積画像特徴、完全蓄積画像特徴に対応する蓄積付加情報特徴、及びその各要素の生起確率から、以下の数式(43)によって算出する。
Figure 0005197492
このようにして、画像・潜在変数関係モデル学習部42は、画像・潜在変数関係モデルを抽出し、これを出力する。
付加情報・潜在変数関係モデル学習部43は、蓄積付加情報特徴集合、及び蓄積潜在変数集合を入力し、これら集合を用いて付加情報と潜在変数との関係性を記述するモデルである付加情報・潜在変数関係モデルを学習し、この付加情報・潜在変数関係モデルを出力する。
付加情報・潜在変数関係モデルの学習方法は、特に限定されるものではないが、本第1実施形態では、以下の2つの実施例について述べる。いずれも、付加情報・潜在変数関係モデルとして、潜在変数zが与えられたときの付加情報特徴yの条件付生起確率p(y|z)を採用する。
[第1の実施例]
蓄積潜在変数集合の各要素zについて、付加情報・潜在変数関係モデルp(y|z)を以下の数式(44)、(45)、(46)、(47)で示すように決定する。
Figure 0005197492
Figure 0005197492
Figure 0005197492
Figure 0005197492
ここで、μは0≦μ≦1を満たす定数であり、yn,iは、蓄積付加情報特徴yの第i要素である。すなわち、上記の関係式は、まず、各言語ラベルが独立に生起することを仮定し(第1の関係式)、各言語ラベルの生起確率を、各サンプルnでの言語ラベルの経験分布(第2の関係式のδyi,yn,iに相当)と全サンプルでの言語ラベルの経験分布(第2の関係式のM/Mに相当)とを混合比μで混合して生成することを意味する。
[第2の実施例]
正準相関分析の確率的な構造を考慮し、付加情報・潜在変数関係モデルp(y|z)を以下の数式(48)に示すように決定する。
Figure 0005197492
但し、SCyyは、完全蓄積画像特徴と対応する蓄積付加情報特徴との集合、完全蓄積画像特徴、完全蓄積画像特徴に対応する蓄積付加情報特徴、及びその各要素の生起確率から、以下の数式(49)によって算出する。
Figure 0005197492
このようにして、付加情報・潜在変数関係モデル学習部43は、付加情報・潜在変数関係モデルを抽出し、これを出力する。
上述したように、画像・付加情報間関係性学習部4は、潜在変数モデル、画像・潜在変数関係モデル、及び付加情報・潜在変数関係モデルを合わせて、画像・付加情報関係モデルとし、この画像・付加情報関係モデルを出力する。
B.第2実施形態
次に、本発明の第2実施形態について説明する。
図3は、本第2実施形態による半教師画像検索装置の構成を示すブロック図である。図において、本第2実施形態による半教師画像検索装置は、蓄積画像特徴抽出部1と、蓄積付加情報特徴抽出部2と、蓄積潜在変数抽出部3と、画像・付加情報間関係性学習部4と、入力付加情報特徴抽出部5と、画像検索部6とから構成される。なお、蓄積画像特徴抽出部1、蓄積付加情報特徴抽出部2、蓄積潜在変数抽出部3、画像・付加情報間関係性学習部4は、図1に示す第1実施形態と同様のため、説明を省略する。
該半教師画像検索装置は、完全蓄積画像集合と不完全蓄積画像集合を合わせた画像集合である蓄積画像集合、蓄積付加情報集合、及び別途与えられた付加情報である入力付加情報を入力し、これら集合から画像・付加情報関係モデルを抽出し、このモデルを用いて入力付加情報に関連する画像である付加情報関連画像を蓄積画像集合の中から選択して、この付加情報関連画像の集合である付加情報関連画像集合を出力する。
入力付加情報特徴抽出部5は、入力付加情報を入力し、この入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出し、この入力付加情報特徴を出力する。入力付加情報特徴の抽出方法は、蓄積付加情報特徴抽出部2と同様である。
画像検索部6は、入力付加情報特徴、蓄積画像集合、及び画像・付加情報関係モデル(潜在変数モデル、画像・潜在変数関係モデル、及び付加情報・潜在変数関係モデル)を入力し、入力付加情報特徴を画像・付加情報関係モデルに与えることで、蓄積画像集合から類似性の高い画像である付加情報関連画像を選択し、この付加情報関連画像の集合である付加情報関連画像集合を出力する(非特許文献1において、事後確率推定で、posteriorの大きいk個の画像を提示、もしくは閾値を超えた画像を提示することに相当)。
付加情報関連画像の選択方法は特に限定されるものではないが、本第2実施形態においては、以下の方法について述べる。
まず、入力付加情報特徴ygivenが与えられたときの画像特徴xの事後確率を、次式(50)で設定する。
Figure 0005197492
画像・付加情報間関係性学習部4において、蓄積潜在変数集合の各要素zについて画像・付加情報関係モデルを生成している場合には、上記事後確率は、次式(51)のように書き直すことができる。
Figure 0005197492
この事後確率を蓄積画像特徴集合の各要素について計算し、事後確率の大きいある一定数の画像、もしくは事後確率が閾値を超えた画像を選択し、これら画像の集合を付加情報関連画像集合とする。
このようにして、画像検索部6は、付加情報関連画像集合を選択し、この付加情報関連画像集合を出力する。
C.第3実施形態
次に、本発明の第3実施形態について説明する。
図4は、本第3実施形態による半教師画像認識装置の構成を示すブロック図である。図において、本第3実施形態による半教師画像認識装置は、蓄積画像特徴抽出部1と、蓄積付加情報特徴抽出部2と、蓄積潜在変数抽出部3と、画像・付加情報間関係性学習部4と、入力画像特徴抽出部7と、画像認識部8とから構成される。なお、蓄積画像特徴抽出部1、蓄積付加情報特徴抽出部2、蓄積潜在変数抽出部3、画像・付加情報間関係性学習部4は、図1に示す第1実施形態と同様のため、説明を省略する。
該半教師画像認識装置は、蓄積画像集合、蓄積付加情報集合、及び別途与えられた画像である入力画像を入力し、これら集合から画像・付加情報関係モデルを抽出し、このモデルを用いて入力画像に関連する付加情報である画像関連付加情報を抽出して、この画像関連付加情報を出力する。
入力画像特徴抽出部7は、入力画像を入力し、この入力画像の特性を表現するベクトルである入力画像特徴を抽出し、この入力画像特徴を出力する。入力画像特徴の抽出方法は、蓄積画像特徴抽出部1と同様である。
画像認識部8は、入力画像特徴、及び画像・付加情報関係モデルを入力し、入力画像特徴を画像・付加情報関係モデルに与えることで、入力画像との類似性の高い画像である画像関連付加情報を抽出し、この画像関連付加情報を出力する。画像関連付加情報の選択方法は、特に限定されるものではないが、本第3実施形態においては、以下の方法について述べる。
まず、入力画像特徴xgivenが与えられたときの付加情報特徴yの事後確率を、次式(52)で設定する。
Figure 0005197492
画像・付加情報間関係性学習部4において、蓄積潜在変数集合の各要素zについて画像・付加情報関係モデルを生成している場合には、上記の事後確率は、次式(53)のように書き直すことができる。
Figure 0005197492
次に、次式(54)に従って、この事後確率が最大となる付加情報特徴〜yを算出する。
Figure 0005197492
上記事後確率最大となる付加情報特徴〜yは、一般に2値ベクトルとはならないことに注意する。この事後確率最大の付加情報特徴〜yの各要素のうち、値の大きいある一定数の要素、もしくは値が閾値を超えた要素を選択し、それぞれの要素に対応する言語ラベルを集めて画像関連付加情報とする。
このようにして、画像認識部8は、画像関連付加情報を選択し、この画像関連付加情報を出力する。
上述した第1から第3実施形態によれば、蓄積潜在変数抽出部3により、言語情報が関連付けられた画像と言語情報が関連付けられていない画像の双方からの、画像と言語情報の関係性を記述するための潜在変数の抽出することにより、言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報の関係性を精度良く学習することができる。
すなわち、言語情報が関連付けられている画像を大量に収集することは困難である一方、言語情報が関連付けられていなくても良い場合には、画像そのものを収集することは非常に容易で大量に収集することが可能である。これら、言語情報が関連付けられていない画像を、画像と言語情報との関係性を学習する際に、同時に利用することにより、少数しかない言語情報が関連付けられた画像のみを利用する場合に比べて、高い精度で画像と言語情報の関係性を学習することができる。
なお、上述した第1から第3実施形態において、蓄積画像特徴抽出部1、蓄積付加情報特徴抽出部2、蓄積潜在変数抽出部3、画像・付加情報間関係性学習部4、入力付加情報特徴抽出部5、画像検索部6、入力画像特徴抽出部7、及び画像認識部8の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、符号化処理、及び復号化処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1 蓄積画像特徴抽出部
2 蓄積付加情報特徴抽出部
3 蓄積潜在変数抽出部
31 完全信号系列群統計量算出部
32 不完全信号系列群統計量算出部
321 第1不完全信号系列群統計量算出部
322 第2不完全信号系列群統計量算出部
33 統合統計量算出部
34 信号系列圧縮関数決定部
35 信号系列圧縮部
4 画像・付加情報間関係性学習部
41 潜在変数モデル学習部
42 画像・潜在変数関係モデル学習部
43 付加情報・潜在変数関係モデル学習部
5 入力付加情報特徴抽出部
6 画像検索部
7 入力画像特徴抽出部
8 画像認識部

Claims (9)

  1. 与えられた画像と、その画像を説明する情報である付加情報との関係性を学習する半教師画像認識検索装置であって、
    付加情報が予め付与された画像の集合である完全蓄積画像集合の要素である完全蓄積画像、及び付加情報が与えられていない画像の集合である不完全蓄積画像集合の要素である不完全蓄積画像のそれぞれから、各蓄積画像の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出手段と、
    付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、蓄積付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出手段と、
    前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、画像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出手段と、
    前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、画像と付加情報との関係性を記述するモデルである画像・付加情報関係モデルを学習する画像・付加情報間関係性学習手段と
    を備えることを特徴とする半教師画像認識検索装置。
  2. 前記画像・付加情報間関係性学習手段は、
    前記蓄積潜在変数集合から、潜在変数の構造を記述するモデルである潜在変数モデルを学習する潜在変数モデル学習手段と、
    前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、及び前記蓄積潜在変数集合から、画像と潜在変数との関係性を記述するモデルである画像・潜在変数関係モデルを学習する画像・潜在変数関係モデル学習手段と、
    前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、付加情報と潜在変数との関係性を記述するモデルである付加情報・潜在変数関係モデルを学習する付加情報・潜在変数関係モデル学習手段と
    を更に備え、
    前記画像・付加情報間関係性学習手段は、前記潜在変数モデル、前記画像・潜在変数関係モデル、及び前記付加情報・潜在変数関係モデルを合わせて、画像・付加情報関係モデルとして出力する
    ことを特徴とする請求項1に記載の半教師画像認識検索装置。
  3. 入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出手段と、
    前記入力付加情報特徴を、前記画像・付加情報関係モデルに与え、蓄積画像集合から類似性の高い画像を選択して提示する画像検索手段と
    を更に備えることを特徴とする請求項1または2に記載の半教師画像認識検索装置。
  4. 入力画像から、入力画像の特性を表現するベクトルである入力画像特徴を抽出する入力画像特徴抽出手段と、
    前記入力画像特徴を、前記画像・付加情報関係モデルに与え、前記入力画像との類似性の高い付加情報を選択して提示する画像認識手段と
    を更に備えることを特徴とする請求項1または2に記載の半教師画像認識検索装置。
  5. 与えられた画像と、その画像を説明する情報である付加情報との関係性を学習する半教師画像処理装置において用いられる半教師画像処理方法であって、
    蓄積画像特徴抽出手段が、付加情報が予め付与された画像の集合である完全蓄積画像集合の要素である完全蓄積画像、及び付加情報が与えられていない画像の集合である不完全蓄積画像集合の要素である不完全蓄積画像のそれぞれから、各蓄積画像の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出過程と、
    蓄積付加情報特徴抽出手段が、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、蓄積付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出過程と、
    蓄積潜在変数抽出手段が、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、画像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出過程と、
    画像・付加情報間関係性学習手段が、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、画像と付加情報との関係性を記述するモデルである画像・付加情報関係モデルを学習する画像・付加情報間関係性学習過程と
    を含むことを特徴とする半教師画像認識検索方法。
  6. 前記画像・付加情報間関係性学習過程は、
    前記蓄積潜在変数集合から、潜在変数の構造を記述するモデルである潜在変数モデルを学習する潜在変数モデル学習過程と、
    前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、及び前記蓄積潜在変数集合から、画像と潜在変数との関係性を記述するモデルである画像・潜在変数関係モデルを学習する画像・潜在変数関係モデル学習過程と、
    前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、付加情報と潜在変数との関係性を記述するモデルである付加情報・潜在変数関係モデルを学習する付加情報・潜在変数関係モデル学習過程と
    を更に含み、
    前記画像・付加情報間関係性学習手段は、前記画像・付加情報間関係性学習過程において、前記潜在変数モデル、前記画像・潜在変数関係モデル、及び前記付加情報・潜在変数関係モデルを合わせて、画像・付加情報関係モデルとして出力する
    ことを特徴とする請求項5に記載の半教師画像認識検索方法。
  7. 入力付加情報特徴抽出手段が、入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出過程と、
    画像検索手段が、前記入力付加情報特徴を、前記画像・付加情報関係モデルに与え、蓄積画像集合から類似性の高い画像を選択して提示する画像検索過程と
    を更に含むことを特徴とする請求項5または6に記載の半教師画像認識検索方法。
  8. 入力画像特徴抽出手段が、入力画像から、入力画像の特性を表現するベクトルである入力画像特徴を抽出する入力画像特徴抽出過程と、
    画像認識手段が、前記入力画像特徴を、前記画像・付加情報関係モデルに与え、前記入力画像との類似性の高い付加情報を選択して提示する画像認識過程と
    を更に含むことを特徴とする請求項5または6に記載の半教師画像認識検索方法。
  9. 与えられた画像と、その画像を説明する情報である付加情報との関係性を学習する半教師画像認識検索装置としてのコンピュータに実行させるプログラムであって、
    蓄積画像特徴抽出手段が、付加情報が予め付与された画像の集合である完全蓄積画像集合の要素である完全蓄積画像、及び付加情報が与えられていない画像の集合である不完全蓄積画像集合の要素である不完全蓄積画像のそれぞれから、各蓄積画像の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出ステップと、
    蓄積付加情報特徴抽出手段が、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、蓄積付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出ステップと、
    蓄積潜在変数抽出手段が、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、画像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出ステップと、
    画像・付加情報間関係性学習手段が、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、画像と付加情報との関係性を記述するモデルである画像・付加情報関係モデルを学習する画像・付加情報間関係性学習ステップと
    を実行させることを特徴とするプログラム。
JP2009133111A 2009-06-02 2009-06-02 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム Expired - Fee Related JP5197492B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009133111A JP5197492B2 (ja) 2009-06-02 2009-06-02 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009133111A JP5197492B2 (ja) 2009-06-02 2009-06-02 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2010282275A JP2010282275A (ja) 2010-12-16
JP5197492B2 true JP5197492B2 (ja) 2013-05-15

Family

ID=43538976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009133111A Expired - Fee Related JP5197492B2 (ja) 2009-06-02 2009-06-02 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5197492B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5499362B2 (ja) * 2010-07-14 2014-05-21 日本電信電話株式会社 半教師信号認識検索装置、半教師信号認識検索方法及びプログラム
JP5499361B2 (ja) * 2010-07-14 2014-05-21 日本電信電話株式会社 半教師トピックモデル学習装置、半教師トピックモデル学習方法及びプログラム
WO2014136316A1 (ja) 2013-03-04 2014-09-12 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
JP6712796B2 (ja) * 2015-11-10 2020-06-24 国立大学法人 東京大学 画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置

Also Published As

Publication number Publication date
JP2010282275A (ja) 2010-12-16

Similar Documents

Publication Publication Date Title
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
US8232996B2 (en) Image learning, automatic annotation, retrieval method, and device
CN110659665B (zh) 一种异维特征的模型构建方法及图像识别方法、装置
Gong et al. Machine learning for multimedia content analysis
WO2018196718A1 (zh) 图像消歧方法、装置、存储介质和电子设备
CN110837846A (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN110598603A (zh) 人脸识别模型获取方法、装置、设备和介质
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN111105013A (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
JP5197492B2 (ja) 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム
Zhao et al. TUCH: Turning Cross-view Hashing into Single-view Hashing via Generative Adversarial Nets.
CN114925702A (zh) 文本相似度识别方法、装置、电子设备及存储介质
JP2010282276A (ja) 映像認識理解装置、映像認識理解方法、及びプログラム
Arica et al. A shape descriptor based on circular Hidden Markov Model
CN114090401A (zh) 处理用户行为序列的方法及装置
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
WO2020179378A1 (ja) 情報処理システム、情報処理方法および記録媒体
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
JP5499362B2 (ja) 半教師信号認識検索装置、半教師信号認識検索方法及びプログラム
JP2013105393A (ja) 映像付加情報関係性学習装置、方法、及びプログラム
CN113204679B (zh) 一种代码查询模型的生成方法和计算机设备
Aly et al. Scaling object recognition: Benchmark of current state of the art techniques
Liu et al. Determining the best attributes for surveillance video keywords generation
CN113609355A (zh) 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
JP5499361B2 (ja) 半教師トピックモデル学習装置、半教師トピックモデル学習方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5197492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees