JP5234469B2 - 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム - Google Patents

対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム Download PDF

Info

Publication number
JP5234469B2
JP5234469B2 JP2009532255A JP2009532255A JP5234469B2 JP 5234469 B2 JP5234469 B2 JP 5234469B2 JP 2009532255 A JP2009532255 A JP 2009532255A JP 2009532255 A JP2009532255 A JP 2009532255A JP 5234469 B2 JP5234469 B2 JP 5234469B2
Authority
JP
Japan
Prior art keywords
feature
data
variable
probability
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009532255A
Other languages
English (en)
Other versions
JPWO2009035108A1 (ja
Inventor
達也 原田
英樹 中山
理恵 松本
康夫 國吉
展之 大津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
University of Tokyo NUC
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST, University of Tokyo NUC filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2009532255A priority Critical patent/JP5234469B2/ja
Publication of JPWO2009035108A1 publication Critical patent/JPWO2009035108A1/ja
Application granted granted Critical
Publication of JP5234469B2 publication Critical patent/JP5234469B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、実世界情報と当該実世界情報に対応したシンボルとの関係を学習するための対応関係学習装置および方法ならびに対応関係学習用プログラム、実世界情報にメタデータとしてのシンボルを付与するためのアノテーション装置および方法ならびにアノテーション用プログラム、およびメタデータとしてのシンボルが付与されていない実世界情報をシンボルに基づいて検索可能とするリトリーバル装置および方法ならびにリトリーバル用プログラムに関する。
画像データや音声データ等は、視覚情報や聴覚情報といった実世界情報を示すものであるが、この種の実世界情報の検索を可能とするためには、実世界情報を示すデータに対してメタデータとしてのシンボルを付与しておく必要がある。このように実世界情報を示すデータに対してメタデータが付与されていれば、メタデータを調べることにより、例えば画像に現れているものを示す単語等のシンボルを入力として多数の画像データ等の中から所望の画像データを取り出すことが可能となる。ただし、画像データや音声データ等の作成者が常にその画像データ等に対してメタデータを付与するアノテーションを実行するとは限らない。このため、従来から、実世界情報を示すデータに対してメタデータとしてのシンボルを付与する技術が提案されており、その一例として、映像データに対して自動的にメタデータを付与可能な映像アノテーション付与装置が知られている(例えば、特許文献1参照。)。かかる映像アノテーション付与装置は、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報と、オブジェクトに付加される情報である付加情報とをあらかじめ関連付けして記憶している。そして、この装置に対して映像が入力されると、その映像から一部分の領域の映像データである部分映像データが抽出されると共に抽出された部分映像データの視覚的特徴情報が生成される。更に、部分映像データの視覚的特徴情報と記憶されているオブジェクトの視覚的特徴情報とが比較され、この比較により得られる部分映像データとオブジェクトとの類似度に基づいて映像に含まれるオブジェクトが特定されると共に、特定されたオブジェクトと記憶されている付加情報とが対応付けられる。また、従来から、画像の高次局所自己相関特徴(HLAC)と正準相関分析とを用いて絵画のラベル付けや印象語からの画像の検索を可能とする技術も知られている(例えば、非特許文献1参照)。
国際公開第2004/095374号パンフレット 栗田多喜夫,加藤俊一,福田郁美,坂倉あゆみ "印象語による絵画データベースの検索" 情報処理学会論文誌Vo1.33,NO.11,p.1373−1383(1992)
上記従来の映像アノテーション付与装置のように、映像から一部分の領域の映像データである部分映像データを抽出する手法(セグメンテーション)を用いた場合、アノテーションの精度や処理速度は、部分映像データの抽出精度や部分映像データの抽出に要する時間に依存することになる。しかしながら、映像データから部分映像データを精度よく抽出すること自体、容易なことではなく、抽出処理にも多大な時間が要求される。従って、上述のような従来の映像アノテーション付与手法を用いても、高速かつ精度のよいアノテーションや実世界情報の検索(リトリーバル)を実行することは困難である。また、高次局所自己相関特徴と正準相関分析とを用いた従来の手法は、画像と印象語との間に非常に単純な確率密度分布を導入した上で最尤推定を実行するものにすぎず、高速処理を可能とはするものの、かかる手法を用いたとしても、精度のよいアノテーションやリトリーバルを実行することは困難である。
そこで、本発明は、高速かつ精度のよいアノテーションやリトリーバルの実行を可能とする技術の提供を主目的とする。
本発明は、上記主目的を達成するために以下の手段を採っている。
本発明による対応関係学習装置は、
実世界情報と該実世界情報に対応したシンボルとの関係を学習する対応関係学習装置であって、
実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量を複数記憶する第1特徴量記憶手段と、
前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量を複数記憶する第2特徴量記憶手段と、
前記第1および第2特徴量の組み合わせを複数用いた正準相関分析を実行し、前記第1および第2特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得する正準相関分析手段と、
前記正準相関分析手段により取得された前記変換を記憶すると共に、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数を記憶する分析結果記憶手段と、
前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する確率と該隠れ変数から任意の第2特徴量が出現する確率とを得るために必要な情報を導出する情報導出手段と、
前記情報導出手段により導出された情報を記憶する情報記憶手段と、
を備えるものである。
この対応関係学習装置では、視覚情報や聴覚情報といった実世界情報に対して当該実世界情報に対応したシンボルすなわち当該実世界情報が示すものに対応した単語群等をメタデータとして付与するアノテーションや、メタデータとしてのシンボルが付与されていない実世界情報をシンボルに基づいて検索するリトリーバルを人の手を介することなく高速かつ精度よく実行可能とすべく、実世界情報とシンボルとの対応関係が、ある実世界情報とあるシンボルとが同時に出現する確率(Probability)の問題として取り扱われる。このように、実世界情報とシンボルとの対応関係を確率の問題として取り扱うこととすれば、ある実世界情報とあるシンボルとが同時に出現する確率を求めることにより、確率が高い順にシンボルを実世界情報に対して割り付けたり、確率が高い順に所望のシンボルに対応した画像を取り出したりすることが可能となる。ここで、画像データ等の実世界情報を示す第1データからその特徴として抽出される第1特徴量をxとし、例えば画像に現れているものを示す単語群といった実世界情報に対応した少なくとも1つのシンボルを示すと共に第1データに対応付けられた第2データからその特徴として抽出された第2特徴量をyとし、第1特徴量xと第2特徴量yとが同時に出力する確率をP(x,y)とすれば、かかる確率P(x,y)をある実世界情報とあるシンボルとが同時に出現する確率として用いることができる。
更に、この対応関係学習装置では、第1特徴量(実世界情報)と第2特徴量(シンボル)との直接的な関係を求める代わりに、第1特徴量と第2特徴量との間に実世界情報と当該実世界情報に対応したシンボルとを結びつける抽象的概念が導入される。そして、かかる抽象的概念は、正準相関分析(Canonical Correlation Analysis)を用いて直接的には関係性が少ない第1および第2特徴量(2つの変量群)をそれぞれ共通の空間(正準空間)上の互いに異なる変量群へと射影すると共に得られた変量群同士間での相関(関係性)を最大にする変換を求めた上で、求めた変換と第1および第2特徴量の少なくとも何れか一方とに基づく隠れ変数として取得される。このような抽象的概念をLとすれば、第1特徴量xと第2特徴量yとが同時に出力する確率P(x,y)を次式(0)に示すように表すことができる。式(0)において、P(x|L)は抽象的概念Lから第1特徴量xが出現する確率を示し、P(y|L)は抽象的概念Lから第2特徴量yが出現する確率を示し、P(L)は抽象的概念Lそのものが出現する確率を示す。ここで、個々の抽象的概念Lの出現確率が同一であるとすれば、確率P(L)を定数として扱うことができるから、抽象的概念としての隠れ変数から任意の第1特徴量が出現する確率と、隠れ変数から任意の第2特徴量が出現する確率とがわかれば、ある第1特徴量xとある第2特徴量yとが同時に出力する確率P(x,y)を容易に求めることが可能となる。
Figure 0005234469
従って、この対応関係学習装置のように、第1および第2特徴量の組み合わせを複数用いた正準相関分析を実行し、第1および第2特徴量の少なくとも何れか一方に基づいて実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を求めると共に、当該変換を用いて第1および第2特徴量の組み合わせごとに隠れ変数を取得し、更に、隠れ変数ごとに、隠れ変数から任意の第1特徴量が出現する確率と隠れ変数から任意の第2特徴量が出現する確率とを得るために必要な情報を導出しておけば、第1特徴量xと第2特徴量yとが同時に出力する確率P(x,y)、すなわち、ある実世界情報とあるシンボルとが同時に出現する確率を容易かつ高速に求めることが可能となる。これにより、この対応関係学習装置を用いて実世界情報とシンボルとの対応関係を学習しておけば、例えば確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行したり、例えば確率が高い順に所望のシンボルに対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行したりすることが可能となる。
また、前記正準相関分析手段は、前記第1特徴量を正準空間に射影して得られる変量を第1変量とすると共に前記第1特徴量から前記第1変量を得るための変換を第1変換とし、前記第2特徴量を正準空間に射影して得られる変量を第2変量とすると共に前記第2特徴量から前記第2変量を得るための変換を第2変換としたときに、正準相関分析により前記第1変量と前記第2変量との相関を最大にする第1および第2変換を取得するものであってもよく、前記分析結果記憶手段は、前記取得された第1および第2変換を記憶すると共に、該第1または第2変換により前記第1または第2特徴量を正準空間に射影して得られる第1または第2変量を前記隠れ変数として記憶するものであってもよい。これにより、実世界情報と当該実世界情報に対応したシンボルとを結びつける抽象的概念としての隠れ変数をより適正に取得して記憶しておくことが可能となる。
この場合、前記正準相関分析手段は、前記第1特徴量をxi(ただし、i=1,…,nである。以下同様)とし、前記第2特徴量をyiとし、前記第1変量をsiとし、前記第2変量をtiとしたときに、前記第1変換が次式(1)を満たすと共に前記第2変換が次式(2)を満たすものとし、次式(3)の固有値問題を解くことにより式(1)における射影行列Aを前記第1変換として求めると共に式(2)における射影行列Bを前記第2変換として取得するものであってもよい。ただし、式(3)において、Λ2は固有値を対角要素とする対角行列であり、Iは単位行列であり、共分散行列Cxx,Cyy,Cxy,Cyxは、式(4)に示すとおりである。これにより、第1および第2特徴量の少なくとも何れか一方に基づいて隠れ変数を導出するための変換を高速に得ることが可能となる。
Figure 0005234469
更に、前記正準相関分析手段は、前記第1特徴量を正準空間に射影して得られる変量を第1変量とすると共に前記第1特徴量から前記第1変量を得るための変換を第1変換とし、前記第2特徴量を正準空間に射影して得られる変量を第2変量とすると共に前記第2特徴量から前記第2変量を得るための変換を第2変換としたときに、正準相関分析により前記第1変量と前記第2変量との相関を最大にする第1および第2変換を取得すると共に、1組の前記第1および第2特徴量が正準空間において形成する正規分布の中心を取得するものであってもよく、前記分析結果記憶手段は、前記取得された第1および第2変換を記憶すると共に、前記第1特徴量と前記第2特徴量との組み合わせごとに取得される前記正規分布の中心を前記隠れ変数として記憶するものであってもよい。すなわち、確率的正準相関分析の枠組みにおいて、1組の第1特徴量と第2特徴量とは、正準空間上である中心と分散とをもった正規分布を形成する。従って、第1変量と第2変量との何れか一方を隠れ変数として用いる代わりに、第1特徴量と第2特徴量との組み合わせごとに取得される正規分布の中心を隠れ変数として利用すれば、実世界情報と当該実世界情報に対応したシンボルとを結びつける抽象的概念をより一層適正なものとすることができる。
この場合、前記正準相関分析手段は、前記第1特徴量をxiとし、前記第2特徴量をyiとし、前記第1変量をsiとし、前記第2変量をtiとしたときに、前記第1変換が次式(1)を満たすと共に前記第2変換が次式(2)を満たすものとし、次式(3)の固有値問題を解くことにより式(1)における射影行列Aを前記第1変換として求めると共に式(2)における射影行列Bを前記第2変換として取得し、前記正規分布の中心をziとしたときに、次式(101)に従って前記第1特徴量xiと前記第2特徴量yiとの組み合わせごとに前記正規分布の中心ziを取得するものであってもよい。ただし、式(3)において、Λ2は固有値を対角要素とする対角行列であり、Iは単位行列であり、共分散行列Cxx,Cyy,Cxy,Cyxは、式(4)に示すとおりであり、式(101)において、Λ2は固有値を対角要素とする対角行列であり、MxおよびMyは、Mxy T=Λを満たすと共にスペクトルノルムが値1未満となる任意の行列である。これにより、第1および第2特徴量に基づいて隠れ変数を導出するための変換と、隠れ変数としての正規分布の中心とを高速に得ることが可能となる。
Figure 0005234469
また、前記情報導出手段は、前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する確率を示す確率密度分布を設定する確率密度分布設定手段と、すべての第2データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する確率であるシンボル生起確率を算出するシンボル生起確率算出手段とを含むものであってもよく、前記情報記憶手段は、前記隠れ変数ごとに、前記確率密度分布と前記シンボル生起確率とを前記情報として記憶するものであってもよい。これにより、ある隠れ変数から任意の第1特徴量が出現する確率と、ある隠れ変数から任意の第2特徴量が出現する確率とを容易かつ高速に得ることが可能となる。
更に、前記確率密度分布設定手段は、前記隠れ変数を中心とした正規分布を前記確率密度分布として設定するものであってもよい。すなわち、例えば新たな第1特徴量を正準空間に射影して得られた隠れ変数が既に算出されている隠れ変数に近ければ近いほど、当該既に算出されている隠れ変数から当該新たな第1特徴量が出現しやすいと考えるのは極めて合理的である。従って、確率密度分布として正規分布を用いれば、隠れ変数から任意の第1特徴量が出現する確率を実態に即したより適正なものとして得ることが可能となる。
この場合、前記確率密度分布設定手段は、任意の第1特徴量をxとすると共に前記隠れ変数をsiとしたときに、次式(5)に従って隠れ変数siから任意の第1特徴量xが出現する確率を示す確率密度分布P(x|si)を設定するものであってもよい。ただし、式(5)において、“p”は第1特徴量xの次元であり、Wx=CxxA,ξx=Cxx−WxT xである。
Figure 0005234469
また、前記確率密度分布設定手段は、任意の第1特徴量をxとし、前記隠れ変数をsiとし、前記任意の第1特徴量xを正準空間に射影して得られる変量をsとしたときに、次式(6)に従って隠れ変数siから任意の第1特徴量xが出現する確率を示す確率密度分布P(x|si)を設定するものであってもよい。ただし、式(6)において、“m”は正準空間の次元(sやsiの次元)であり、“Σ”は分散である。
Figure 0005234469
更に、第1特徴量と第2特徴量との組み合わせごとに取得される正規分布の中心を隠れ変数として利用する場合、前記情報導出手段は、任意の第1特徴量をxとし、任意の第2特徴量をyとすると共に前記隠れ変数をziとし、1組の前記第1および第2特徴量x,yが正準空間において形成する正規分布の分散をΦxyとしたときに、次式(102)に従って分散Φxyを取得すると共に、次式(103)に従って前記隠れ変数ziごとに該隠れ変数ziから任意の第1特徴量xが出現する確率を示す確率密度分布P(x|zi)を設定する確率密度分布設定手段と、すべての第2データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する確率であるシンボル生起確率を算出するシンボル生起確率算出手段とを含むものであってもよく、前記情報記憶手段は、前記隠れ変数ごとに、前記確率密度分布P(x|zi)と前記シンボル生起確率とを前記情報として記憶するものであってもよい。ただし、式(103)において、“K”は、確率の総和を値1にするための規格化定数であり、Φxは任意の第1特徴量xが正準空間において形成する正規分布の分散であり、zcは、当該正規分布の中心であり、それぞれ式(104)に示すとおりである。これにより、第1特徴量と第2特徴量との組み合わせごとに取得される正規分布の中心を隠れ変数として利用する場合に、隠れ変数から任意の第1特徴量が出現する確率をより適正なものとして得ることが可能となる。
Figure 0005234469
また、前記シンボル生起確率算出手段は、単一のシンボルのみを示す前記第2データの第2特徴量をwとし、前記隠れ変数siまたはziをsziと表したときに、すべての第2データ中の互いに異なるシンボルのそれぞれについて次式(7)に従って隠れ変数sziから第2特徴量wが出現する確率P(w|szi)を前記シンボル生起確率として算出するものであってもよい。ただし、式(7)において、“n”は第2データに出現するシンボルの総数であり、“nw”はすべての第2データにおける第2特徴量wに対応したシンボルの出現回数であり、“nszi”は隠れ変数sziに対応した第2特徴量に含まれるシンボルの総数であり、δW,sziは特徴量wに対応したシンボルが隠れ変数sziに対応した第2特徴量に含まれていれば値1とされ、含まれていなければ値0とされる変数であり、“μ”は値0から値1までの範囲から選択される実数値である。これにより、ある隠れ変数からあるシンボルが出現する確率であるシンボル生起確率をより適正に算出することが可能となる。
Figure 0005234469
更に、前記シンボル生起確率算出手段は、前記第2特徴量をyiとし、単一のシンボルのみを示す前記第2データの第2特徴量をwとし、前記第2特徴量yiを正準空間に射影して得られる第2変量をtiとし、前記隠れ変数siまたはziをsziと表したときに、すべての第2データ中の互いに異なるシンボルのそれぞれについて次式(8)に示す確率P(w|szi)を前記シンボル生起確率として算出するものであってもよい。ただし、式(8)において、“q”は第2特徴量wの次元であり、Wy=CyyB,ξy=Cyy−WyT yである。すなわち、ある隠れ変数から任意の第2特徴量が出現する確率は、正規分布からなる確率密度分布を用いて導出されてもよい。
Figure 0005234469
そして、本発明による対応関係学習装置は、新奇第1特徴量と該新奇第1特徴量に対応した新奇第2特徴量との組み合わせが出現したときに、前記新奇第1特徴量と前記新奇第2特徴量とに基づいて少なくとも前記隠れ変数を導出するための前記変換を更新する情報更新手段を更に備えてもよい。実世界情報を示す第1データとそれに対応した第2データとの組み合わせ、すなわち第1特徴量と第2特徴量との組み合わせは、基本的に無限に増加し得るものである。このため、新奇第1特徴量と該新奇第1特徴量に対応した新奇第2特徴量との組み合わせが出現するたびに、当該新奇第1特徴量と新奇第2特徴量との組み合わせを含むすべての組み合わせについて正準相関分析等を実行して上記変換や隠れ変数、確率を得るための情報を求めるとすれば、対応関係学習装置の処理負担が極めて多大なものとなってしまう。これに対して、新奇第1特徴量と新奇第2特徴量との組み合わせが出現したときに、当該新奇第1特徴量と新奇第2特徴量とに基づいて少なくとも隠れ変数を導出するための変換を更新する情報更新手段を対応関係学習装置に備えれば、処理負担を軽減しながら、新奇第1特徴量と新奇第2特徴量との組み合わせが出現するたびに上記変換や隠れ変数、確率を得るための情報をより適正なものへと更新していくことが可能となる。
この場合、前記情報更新手段は、任意の第1特徴量を主成分分析により無相関化して得られる成分を第1無相関化成分としたときに、前記新奇第1特徴量についての第1無相関化成分である新奇第1無相関化成分の取得処理を実行する第1無相関化成分取得手段と、任意の第2特徴量を主成分分析により無相関化して得られる成分を第2無相関化成分としたときに、前記新奇第2特徴量についての第2無相関化成分である新奇第2無相関化成分の取得処理を実行する第2無相関化成分取得手段と、前記取得された新奇第1無相関化成分および新奇第2無相関化成分に基づいて、前記第1および第2無相関化成分の共分散行列についての特異値分解処理を実行する特異値分解実行手段と、前記第1および第2無相関化成分取得手段による前記取得処理の結果と前記特異値分解実行手段による前記特異値分解処理の結果とに基づいて前記隠れ変数を導出するための前記変換を更新する変換更新手段とを含むものであってもよく、前記分析結果記憶手段は、前記更新された変換を記憶すると共に、該更新された変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数を記憶するものであってもよく、前記情報導出手段は、前記取得された隠れ変数ごとに前記情報を更新するものであってもよい。
更に、n−1個の第1特徴量x(1),…,x(i),…,x(n−1)および第2特徴量y(1),…,y(i),…,y(n−1)の組み合わせが存在している状態でn番目の新奇第1特徴量x(n)および新奇第2特徴量y(n)の組み合わせが出現したとすると共に、第1特徴量x(i)の次元をpとし、第2特徴量y(i)の次元をqとし、min{p,q}をrとし、忘却率をlとし、新奇第1無相関化成分をu(n)とし、新奇第2無相関化成分をv(n)としたときに、前記第1無相関化成分取得手段は、新奇第1特徴量x(n)を含むn個の第1特徴量x(i)についての固有値問題Cxxx=ExΛxの解である次式(9)に示す行列Ex(n)および対角行列Λx(n)と新奇第1無相関化成分u(n)とを取得するものであってもよく(ただし、式(9)において、j=1,…,pであり、x1〜(n)=x(n)−mx(n)であり、mx(n)はn個の第1特徴量x(i)の平均である。)、前記第2無相関化成分取得手段は、新奇第2特徴量y(n)を含むn個の第2特徴量y(i)についての固有値問題Cyyy=EyΛyの解である次式(10)に示す行列Ey(n)および対角行列Λy(n)と新奇第2無相関化成分v(n)とを取得するものであってもよく(ただし、式(10)において、j=1,…,qであり、y1〜(n)=y(n)−my(n)であり、my(n)はn個の第1特徴量x(i)の平均である。)、前記特異値分解実行手段は、前記取得された新奇第1無相関化成分u(n)および新奇第2無相関化成分v(n)に基づいて次式(11)に示す行列Eu(n)およびEv(n)を取得するものであってもよく(ただし、式(11)において、j=1,…,rであり、Zuj(n)はn個の第1および第2無相関化成分の組み合わせに基づく第1無相関化成分についてのj番目の正準相関係数ベクトルであり、Zvj(n)はn個の第1および第2無相関化成分の組み合わせに基づく第2無相関化成分についてのj番目の正準相関係数ベクトルである。)、前記分析結果更新手段は、前記第1および第2無相関化成分取得手段により取得された行列Ex(n),Ey(n)および対角行列Λx(n),Λy(n)と、前記特異値分解実行手段により取得された行列Eu(n),Ev(n)とに基づいて前記第1特徴量x(i)を正準空間に射影するための第1変換A(n)と前記第2特徴量y(i)を正準空間に射影するための第2変換B(n)とを次式(12)に従って新たな前記変換として取得するものであってもよい。
Figure 0005234469
また、本発明による対応関係学習装置は、n−1個の第1特徴量x(1),…,x(i),…,x(n−1)および第2特徴量y(1),…,y(i),…,y(n−1)の組み合わせが存在している状態でn番目の新奇第1特徴量x(n)および新奇第2特徴量y(n)の組み合わせが出現したときに、次式(105)に従って共分散行列Cxx,Cyy,Cxy,Cyxを更新すると共に、前記式(3)の固有値問題を解くことにより前記隠れ変数を導出するための前記変換を更新する情報更新手段を更に備えてもよい。ただし、n≧2であり、“l”は、忘却率であり、x〜(n)およびy〜(n)は、次式(106)に示すとおりであり、mx(n)およびmy(n)は、次式(107)に示すとおりである。このように、新奇第1特徴量と新奇第2特徴量との組み合わせが出現するたびに共分散行列のみを逐次的に更新していくことにより、計算負荷をより一層軽減しながら上記変換や隠れ変数、確率を得るための情報をより適正なものへと更新していくことが可能となる。
Figure 0005234469
この場合、前記情報更新手段は、前記新奇第1特徴量x(n)および前記新奇第2特徴量y(n)の出現に伴って前記第2特徴量の次元が増加した場合には、該第2特徴量に関連した共分散行列を次式(108)に従って更新するものであってもよい。ただし、my(n)は、次式(109)に示すとおりである。すなわち、共分散行列のみを逐次的に更新しながら隠れ変数を導出するための変換等を更新すれば、新奇第1特徴量および新奇第2特徴量の出現に伴う第2特徴量の次元の増加に対応することが可能となる。なお、一般的には新奇第1特徴量および新奇第2特徴量の出現に伴って第1特徴量の次元が増加することは稀であると考えられるが、第1特徴量の次元が増加した場合にも、第2特徴量の次元が増加した場合と同様に対処し得ることはいうまでもない。
Figure 0005234469
そして、前記第1特徴量は、前記第1データの高次局所自己相関特徴を示すものであってもよい。すなわち、高次局所自己相関特徴(HLAC)は、対象の位置に依存しないという位置不変性や対象が2つあればそれぞれの特徴ベクトルの和となるという加法性といった性質を有し、第1データから対象(特徴)を抽出するための領域分割(セグメンテーション)を不要とするものであることから、高次局所自己相関特徴を利用すれば、第1データの特徴を示す第1特徴量をより少ない負荷で高速かつ精度よく抽出することが可能となる。
更に、前記第1データが画像データである場合、前記第1特徴量は、前記画像データの各画素の輝度勾配方向に基づいて定められてもよい。これにより、画像データから抽出される第1特徴量を照明条件等による全体的な明度の変化に対してより頑健なものとすることができる。
また、前記第2特徴量は、すべての第2データから抽出される互いに異なるシンボルの配列に対して、対象となる第2データに対象となるシンボルが含まれていれば値0以外の所定値を付与すると共に、含まれていなければ値0を付与することにより設定されるものであってもよい。これにより、少なくとも1つのシンボルを示す第2データの特徴をより適正に抽出することが可能となる。
更に、前記第1データは画像データであり、前記第2データは、前記画像データの画像に現れているものを示す少なくとも1つの単語を前記シンボルとして含むものであってもよい。すなわち、本発明による対応関係学習装置は、画像と当該画像に現れているものを示す単語群との関係を学習するのに極めて好適である。
また、本発明による対応関係学習装置は、前記第1および第2特徴量の組み合わせごとに取得される複数の隠れ変数をクラスタリングして複数のクラスタに分類すると共に前記複数のクラスタごとに代表隠れ変数を取得するクラスタリング手段を更に備えてもよく、前記情報記憶手段は、前記代表隠れ変数と、前記隠れ変数の所属クラスタを示す情報とを記憶するものであってもよい。
本発明による対応関係学習方法は、
実世界情報と該実世界情報に対応したシンボルとの関係を学習するための対応関係学習方法であって、
(a)実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との組み合わせを複数用いた正準相関分析を実行し、前記第1および第2特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得するステップと、
(b)ステップ(a)にて取得した変換を用いて前記第1および第2特徴量の組み合わせごとに隠れ変数を取得するステップと、
(c)前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する確率と該隠れ変数から任意の第2特徴量が出現する確率とを得るために必要な情報を導出するステップと、
を含むものである。
この対応関係学習方法を用いて実世界情報とシンボルとの対応関係を学習しておけば、学習結果を用いて第1特徴量と第2特徴量とが同時に出現する確率を容易かつ高速に求めることができるので、例えば当該確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行したり、例えば当該確率が高い順に所望のシンボルに対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行したりすることが可能となる。
本発明による対応関係学習用プログラムは、
コンピュータを実世界情報と該実世界情報に対応したシンボルとの関係を学習する装置として機能させる対応関係学習用プログラムであって、
実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との組み合わせを複数用いた正準相関分析を実行し、前記第1および第2特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得する変換取得モジュールと、
前記取得された変換を用いて前記第1および第2特徴量の組み合わせごとに隠れ変数を取得する隠れ変数取得モジュールと、
前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する確率と該隠れ変数から任意の第2特徴量が出現する確率とを得るために必要な情報を導出する情報導出モジュールと、
を備えるものである。
この対応関係学習用プログラムがインストールされたコンピュータを用いて実世界情報とシンボルとの対応関係を学習しておけば、学習結果を用いて第1特徴量と第2特徴量とが同時に出現する確率を容易かつ高速に求めることができるので、例えば当該確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行したり、例えば当該確率が高い順に所望のシンボルに対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行したりすることが可能となる。
本発明によるアノテーション装置は、
実世界情報にメタデータとしてのシンボルを付与するアノテーション装置であって、
実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する確率および該隠れ変数から任意の第2特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段と、
新奇第1データの入力を受け付ける入力受付手段と、
前記受け付けられた新奇第1データに基づいて該新奇第1データの特徴を示す新奇第1特徴量を抽出する第1特徴量抽出手段と、
前記学習情報記憶手段に記憶された学習情報を用いて、前記抽出された新奇第1特徴量から単一のシンボルのみを示す前記第2データの第2特徴量が出現する確率を算出する確率算出手段と、
前記確率算出手段により算出された確率に基づいて前記新奇第1データに対してシンボルを割り付けるシンボル割付手段と、
を備えるものである。
このアノテーション装置は、第1特徴量と第2特徴量との少なくとも何れか一方に基づいて実世界情報とシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために正準相関分析により取得される変換と、当該変換を用いて第1および第2特徴量の組み合わせごとに取得される隠れ変数と、隠れ変数から任意の第1特徴量が出現する確率と該隠れ変数から任意の第2特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶した学習情報記憶手段を備える。従って、このアノテーション装置によれば、新奇第1データの入力が受け付けられた際に、新奇第1特徴量から単一のシンボルのみを示す第2データの第2特徴量が出現する確率を容易かつ高速に算出すると共に、例えば確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行することが可能となる。
また、前記隠れ変数は、前記第1または第2変換により前記第1または第2特徴量を正準空間に射影して得られる第1または第2変量であってもよく、前記確率算出手段は、前記隠れ変数をsiとし、前記抽出された新奇第1特徴量をxnewとし、単一のシンボルのみを示す前記第2データの第2特徴量をwとし、新奇第1特徴量xnewから第2特徴量wが出現する確率をP(w|xnew)としたときに、確率P(w|xnew)を次式(13)に従って算出するものであってもよい。ただし、式(13)において、P(xnew|si)は隠れ変数siから新奇第1特徴量xnewが出現する確率であり、P(w|si)は隠れ変数siから第2特徴量wが出現する確率である。これにより、学習情報を用いて新奇第1特徴量xnewから第2特徴量wが出現する確率P(w|xnew)を容易かつ高速に求めることが可能となる。
Figure 0005234469
更に、前記隠れ変数は、1組の前記第1および第2特徴量が正準空間において形成する正規分布の中心であってもよく、前記確率算出手段は、前記隠れ変数をziとし、前記抽出された新奇第1特徴量をxnewとし、単一のシンボルのみを示す前記第2データの第2特徴量をwとし、新奇第1特徴量xnewから第2特徴量wが出現する確率をP(w|xnew)としたときに、確率P(w|xnew)を次式(110)に従って算出するものであってもよい。ただし、式(110)において、P(xnew|zi)は隠れ変数ziから新奇第1特徴量xnewが出現する確率であり、P(w|zi)は隠れ変数ziから第2特徴量wが出現する確率である。
Figure 0005234469
また、前記第1および第2特徴量の組み合わせごとに取得される複数の隠れ変数はクラスタリングにより複数のクラスタに分類されると共に、前記複数のクラスタごとに代表隠れ変数が取得されてもよく、前記学習情報記憶手段は、前記代表隠れ変数と前記隠れ変数の所属クラスタを示す情報とを学習情報として記憶するものであってもよく、前記確率算出手段は、前記複数の隠れ変数のうち、前記代表隠れ変数から前記新奇第1特徴量が出現する確率が所定の閾値以上となる前記クラスタに所属する前記隠れ変数を用いて、前記新奇第1特徴量から単一のシンボルのみを示す前記第2データの第2特徴量が出現する確率を算出するものであってもよい。これにより、アノテーションの精度に寄与しない隠れ変数(第1特徴量および第2特徴量の組合わせ)についての確率の計算を省略することが可能となるので、アノテーションの精度を維持しつつ計算負荷を軽減して処理の高速化を図ることができる。
更に、前記シンボル割付手段は、所定の基準に従って前記確率が高い順に前記単一のシンボルのみを示す前記第2データの第2特徴量により示されるシンボルを抽出すると共に、抽出したシンボルに基づいて前記新奇第1特徴量に対応した新奇第2特徴量を設定するものであってもよい。
そして、本発明によるアノテーション装置は、前記新奇第1特徴量と前記新奇第2特徴量とに基づいて前記学習情報を更新する情報更新手段を更に備えるものであってもよい。これにより、新奇第1特徴量と当該新奇第1特徴量に対して精度よく設定された新奇第2特徴量との組み合わせに基づいて、上記変換や隠れ変数、確率を得るための情報をより適正なものへと更新していくことが可能となる。
本発明によるアノテーション方法は、
実世界情報にメタデータとしてのシンボルを付与するためのアノテーション方法であって、
(a)実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する確率および該隠れ変数から任意の第2特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶手段に記憶させるステップと、
(b)前記学習情報を用いて、新奇第1データの特徴として抽出された新奇第1特徴量から単一のシンボルのみを示す前記第2データの第2特徴量が出現する確率を算出するステップと、
(c)ステップ(b)にて算出した確率に基づいて前記新奇第1データに対してシンボルを割り付けるステップと、
を含むものである。
このアノテーション方法によれば、新奇第1データが出現した際に、学習情報を用いて新奇第1特徴量から単一のシンボルのみを示す第2データの第2特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行することが可能となる。
本発明によるアノテーション用プログラムは、
実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する確率および該隠れ変数から任意の第2特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段を備えたコンピュータを実世界情報にメタデータとしてのシンボルを付与する装置として機能させるアノテーション用プログラムであって、
前記学習情報を用いて、新奇第1データの特徴として抽出された新奇第1特徴量から単一のシンボルのみを示す前記第2データの第2特徴量が出現する確率を算出する確率算出モジュールと、
前記算出された確率に基づいて前記新奇第1データに対してシンボルを割り付けるシンボル割付モジュールと、
を備えるものである。
このアノテーション用プログラムがインストールされたコンピュータを用いれば、新奇第1データが出現した際に、学習情報を用いて新奇第1特徴量から単一のシンボルのみを示す第2データの第2特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行することが可能となる。
本発明によるリトリーバル装置は、
メタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とするリトリーバル装置であって、
実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する確率および該隠れ変数から任意の第2特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段と、
第2データとの対応付けがなされていない第1データである未注釈第1データを少なくとも1つ記憶する未注釈第1データ記憶手段と、
前記未注釈第1データから該未注釈第1データの特徴として抽出された未注釈第1特徴量を記憶する未注釈第1特徴量記憶手段と、
検索クエリとしての少なくとも1つのシンボルの入力を受け付ける入力受付手段と、
前記受け付けられた少なくとも1つのシンボルに基づいて、該少なくとも1つのシンボルを示す前記第2データの第2特徴量を検索用第2特徴量として設定する検索用第2特徴量設定手段と、
前記学習情報記憶手段に記憶された学習情報を用いて、前記未注釈第1特徴量から前記設定された検索用第2特徴量が出現する確率を算出する確率算出手段と、
前記確率算出手段により算出された確率に基づいて前記未注釈第1データ記憶手段から前記未注釈第1データを取り出すデータ取出手段と、
を備えるものである。
このリトリーバル装置は、第1特徴量と第2特徴量との少なくとも何れか一方に基づいて実世界情報とシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために正準相関分析により取得される変換と、当該変換を用いて第1および第2特徴量の組み合わせごとに取得される隠れ変数と、隠れ変数から任意の第1特徴量が出現する確率と該隠れ変数から任意の第2特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶した学習情報記憶手段を備える。従って、このリトリーバル装置によれば、検索クエリとしての少なくとも1つのシンボルの入力が受け付けられた際に、学習情報を用いて未注釈第1データの特徴である未注釈第1特徴量から検索クエリとしてのシンボルに基づく検索用第2特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順に未注釈第1特徴量に対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行することが可能となる。
また、前記隠れ変数は、前記第1または第2変換により前記第1または第2特徴量を正準空間に射影して得られる第1または第2変量であってもよく、前記確率算出手段は、前記隠れ変数をsiとし、前記検索用第2特徴量をynewとし、前記未注釈第1特徴量をxjとし(ただし、j=1,…,Nであり、Nは未注釈第1データの総数である。)、未注釈第1特徴量xjから検索用第2特徴量ynewが出現する確率をP(ynew|xj)としたときに、確率P(ynew|xj)を次式(14)に従って算出するものであってもよい。ただし、式(14)において、P(xj|si)は隠れ変数siから未注釈第1特徴量xjが出現する確率であり、P(ynew|si)は隠れ変数siから検索用第2特徴量ynewが出現する確率である。これにより、学習情報を用いて未注釈第1特徴量xjから検索用第2特徴量ynewが出現する確率P(ynew|xj)を容易かつ高速に求めることが可能となる。
Figure 0005234469
更に、前記隠れ変数は、1組の前記第1および第2特徴量が正準空間において形成する正規分布の中心であってもよく、前記確率算出手段は、前記隠れ変数をziとし、前記検索用第2特徴量をynewとし、前記未注釈第1特徴量をxjとし(ただし、j=1,…,Nであり、Nは未注釈第1データの総数である。)、未注釈第1特徴量xjから検索用第2特徴量ynewが出現する確率をP(ynew|xj)としたときに、確率P(ynew|xj)を次式(111)に従って算出するものであってもよい。ただし、式(111)において、P(xj|zi)は隠れ変数ziから未注釈第1特徴量xjが出現する確率であり、P(ynew|zi)は隠れ変数ziから検索用第2特徴量ynewが出現する確率である。
Figure 0005234469
また、前記第1および第2特徴量の組み合わせごとに取得される複数の隠れ変数はクラスタリングにより複数のクラスタに分類されると共に、前記複数のクラスタごとに代表隠れ変数が取得されてもよく、前記学習情報記憶手段は、前記代表隠れ変数と前記隠れ変数の所属クラスタを示す情報とを学習情報として記憶するものであってもよく、前記確率算出手段は、前記複数の隠れ変数のうち、前記代表隠れ変数から前記未注釈第1特徴量が出現する確率が所定の閾値以上となる前記クラスタに所属する前記隠れ変数を用いて、前記未注釈第1特徴量から前記設定された検索用第2特徴量が出現する確率を算出するものであってもよい。これにより、リトリーバルの精度に寄与しない隠れ変数(第1特徴量および第2特徴量の組合わせ)についての確率の計算を省略することが可能となるので、リトリーバルの精度を維持しつつ計算負荷を軽減して処理の高速化を図ることができる。
本発明によるリトリーバル方法は、
メタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とするリトリーバル方法であって、
(a)実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する確率および該隠れ変数から任意の第2特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶手段に記憶させるステップと、
(b)指定された少なくとも1つのシンボルに基づいて、該少なくとも1つのシンボルを示す前記第2データの第2特徴量を検索用第2特徴量として設定するステップと、
(c)前記学習情報を用いて、第2データとの対応付けがなされていない第1データである未注釈第1データの特徴として抽出された未注釈第1特徴量から前記設定された検索用第2特徴量が出現する確率を算出するステップと、
(d)ステップ(c)にて算出した確率に基づいて前記記憶手段から前記未注釈第1データを取り出すステップと、
を含むものである。
このリトリーバル方法によれば、少なくとも1つのシンボルが指定された際に、学習情報を用いて未注釈第1データの特徴である未注釈第1特徴量から指定されたシンボルに基づく検索用第2特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順に未注釈第1特徴量に対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行することが可能となる。
本発明によるリトリーバル用プログラムは、
実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する確率および該隠れ変数から任意の第2特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段を備えたコンピュータをメタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とする装置として機能させるリトリーバル用プログラムであって、
指定された少なくとも1つのシンボルに基づいて、該少なくとも1つのシンボルを示す前記第2データの第2特徴量を検索用第2特徴量として設定する検索用第2特徴量設定モジュールと、
前記学習情報を用いて、第2データとの対応付けがなされていない第1データである未注釈第1データの特徴として抽出された未注釈第1特徴量から前記設定された検索用第2特徴量が出現する確率を算出する確率算出モジュールと、
前記算出された算出した確率に基づいて前記未注釈第1データを取り出すデータ取出モジュールと、
を備えるものである。
このリトリーバル用プログラムがインストールされたコンピュータを用いれば、少なくとも1つのシンボルが指定された際に、学習情報を用いて未注釈第1データの特徴である未注釈第1特徴量から指定されたシンボルに基づく検索用第2特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順に未注釈第1特徴量に対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行することが可能となる。
本発明の一実施例に係る画像データ処理システム20の概略構成図である。 画像特徴量と単語特徴量との関係を例示する説明図である。 画像特徴量と単語特徴量との間に抽象的概念を導入したモデルを示す説明図である。 画像特徴量と単語特徴量との間に抽象的概念を導入したモデルを示す説明図である。 正準相関分析を説明するための説明図である。 実施例の管理コンピュータ30により実行される初期学習ルーチンの一例を示すフローチャートである。 高次局所自己相関特徴における局所パターンを例示する説明図である。 隠れ変数siごとに付与される確率密度分布を例示する説明図である。 実施例の管理コンピュータ30により実行されるアノテーションルーチンの一例を示すフローチャートである。 未注釈画像データにシンボルとしての単語を割り付ける手順を示す説明図である。 “Corel5k”データセットを用いた実験の結果を示す説明図である。 実施例の管理コンピュータ30により実行されるリトリーバルルーチンの一例を示すフローチャートである。 シンボルとしての単語に基づいて未注釈画像データに検索する手順を示す説明図である。 実施例の管理コンピュータ30により実行される学習情報更新ルーチンの一例を示すフローチャートである。 学習情報更新ルーチンにおけるアルゴリズムの正当性の評価結果を示す説明図である。 学習情報更新ルーチンにおけるアルゴリズムの正当性の評価結果を示す説明図である。 学習情報更新ルーチンにおけるアルゴリズムの正当性の評価結果を示す説明図である。 画像特徴量と単語特徴量との間に抽象的概念を導入した他のモデルを示す説明図である。 変形例に係る初期学習ルーチンを示すフローチャートである。 正準空間において多数の隠れ変数が離散している様子を示す説明図である。 正準空間において離散している多数の隠れ変数が複数のクラスタに分類された様子を示す説明図である。 変形例に係るアノテーションルーチンを示すフローチャートである。 図22のステップS215の処理を説明するための説明図である。 変形例に係るリトリーバルルーチンを示すフローチャートである。 変形例に係る学習情報更新ルーチンを示すフローチャートである。 本発明の他の実施例に係るロボット装置200の概略構成図である。
次に、実施例を参照しながら本発明を実施するための最良の形態について説明する。
図1は、本発明の一実施例に係る画像データ処理システム20の概略構成図である。同図に示す画像データ処理システム20は、データベース化された多数の画像データや単語群データを記憶するデータ記憶装置21と、データ記憶装置21上のデータベースを管理すると共に新奇画像データに対するアノテーションや当該データベースの検索(リトリーバル)等を可能とする管理コンピュータ30とから構成されるものである。管理コンピュータ30は、図示しないCPU,ROM,RAM、システムバス、各種インターフェース、記憶装置等を含むものであり、この管理コンピュータ30には、例えばインターネット等のネットワークを介して端末50からアクセスすることができるようになっている。また、管理コンピュータ30には、図1に示すように、CPUやROM,RAM、各種インターフェース、記憶装置といったハードウェアと、予めインストールされた本発明による対応関係学習用プログラムやアノテーション用プログラム、リトリーバル用プログラムといったソフトウェアとの一方または双方の協働により、検索ロボット31、データ受付部32、画像特徴量抽出部33、単語特徴量抽出部34、学習処理部35、アノテーション処理部36、検索クエリ受付部37、リトリーバル処理部38、結果出力部39等が機能ブロックとして構築されている。更に、管理コンピュータ30には、特徴量記憶装置40や学習用記憶装置41が接続されている。
管理コンピュータ30の検索ロボット31は、ネットワーク等を介してデータ記憶装置21のデータベースに記憶されていない画像を含むデータを収集し、データベースを更新する。すなわち、検索ロボット31は、収集した新たなデータを画像を示す画像データ(第1データ)と画像に現れているものを示すメタデータとしての少なくとも1つの単語(シンボル)を示す単語群データ(第2データ)とに分けると共に両者を対応付けし、画像データと単語群データとをそれぞれデータ記憶装置21の所定の記憶領域に格納する。なお、検索ロボット31により収集されたデータにメタデータ(シンボル)が付与されていない場合は、画像データのみがデータ記憶装置21に記憶される。以下、このようにメタデータ(シンボル)が付与されておらず第2データとしての単語群データとの対応付けがなされていない画像データを「未注釈画像データ」という。データ受付部32は、各種入力手段を用いた人の手による画像データ(第1データ)の入力や、画像データに対応付けられて当該画像データの画像に現れているものを示すメタデータとしての少なくとも1つの単語(シンボル)を示す単語群データ(第2データ)の入力を受け付け、受け付けたデータをデータ記憶装置21に格納する。なお、データ受付部32により受け付けられる第1データとしての画像データにも、第2データとしての単語群データとの対応付けがなされていない未注釈画像データが含まれ得る。
画像特徴量抽出部33は、画像データからそのデータの特徴を示す画像特徴量(第1特徴量)を抽出し、特徴量記憶装置40に格納する。実施例の画像特徴量抽出部33は、画像データから高次局所自己相関特徴(以下、適宜「「HLAC」という)を抽出してベクトルとしての第1特徴量を生成し、生成した第1特徴量を特徴量記憶装置40に格納する。なお、画像特徴量抽出部33により抽出される画像特徴量には、未注釈画像データに対応したもの(以下「未注釈画像特徴量」という)も含まれる。単語特徴量抽出部34は、単語群データからそのデータの特徴を示す単語特徴量(第2特徴量)を抽出し、特徴量記憶装置40に格納する。
学習処理部35は、第1および第2特徴量の組み合わせを複数用いた正準相関分析を実行して画像データと単語群データとの関係を学習すると共に、未注釈画像データにメタデータとしての単語群を付与するアノテーションや単語に基づく未注釈画像データの検索(リトリーバル)に必要な学習情報を取得し、取得した学習情報を学習用記憶装置41に格納する。また、学習処理部35は、新奇画像データと新奇単語群データとの組み合わせが出現すると、当該新奇組み合わせに基づいて学習情報を更新する。アノテーション処理部36は、学習用記憶装置41に記憶された学習情報に基づいて未注釈画像データに対するアノテーションを実行する。検索クエリ受付部37は、端末50等から検索クエリとしての少なくとも1つの単語(シンボル)の入力を受け付ける。リトリーバル処理部38は、検索クエリ受付部37により受け付けられた検索クエリに基づく未注釈画像データを含む画像データの検索処理(リトリーバル)を実行する。結果出力部39は、リトリーバル処理部38の処理の結果を端末50等に出力する。
そして、上述のような管理コンピュータ30においては、アノテーション処理部36による画像データに対するアノテーションや、リトリーバル処理部38による未注釈画像データのリトリーバルを可能とすべく、予め学習処理部35により画像特徴量および単語特徴量の組み合わせを複数用いた初期学習ルーチンが実行される。また、アノテーション処理部36は、未注釈画像データが出現すると、学習用記憶装置41に記憶された学習情報を用いたアノテーションルーチンを実行する。更に、リトリーバル処理部38は、検索クエリ受付部37により検索クエリが受け付けられると、検索クエリに基づいて未注釈画像データを検索するためのリトリーバルルーチンを実行する。また、学習処理部35は、新奇画像データおよび新奇単語群データの組み合わせが検索ロボット31やデータ受付部32等により取得されるたびに、新奇画像データおよび新奇単語群データから抽出される新奇画像特徴量および新奇単語特徴量に基づいて学習情報を更新するための学習情報更新ルーチンを実行する。以下、これらのルーチンの詳細を順番に説明する。
〔初期学習ルーチン〕
初期学習ルーチンの具体的な説明に先立って、まず、初期学習ルーチンの基となる基本的な考え方について説明する。かかる初期学習ルーチンは、画像データに対するアノテーションや未注釈画像データのリトリーバルを可能とするために、実世界情報を示す第1データとしての画像データとシンボルを示す第2データとしての単語群データとの対応関係の学習処理として予め実行されるものである。そして、ここでは、画像データと単語群データとの対応関係すなわち画像とシンボルとの対応関係が、画像データから抽出される画像特徴量と単語群データから抽出される単語特徴量とが同時に出現する確率(Probability)の問題として取り扱われる。このように画像と単語との関係を確率の問題として取り扱うこととすれば、ある画像と単語とが同時に出現する確率を求めることにより、確率が高い順にメタデータとしての単語を画像に割り付けたり、確率が高い順に所望の単語に対応した画像を取り出したりすることが可能となる。ここで、画像データからその特徴として抽出される画像特徴量をxとし、画像に現れているものを示す少なくとも1つの単語(シンボル)を示す単語群データからその特徴として抽出された画像特徴量をyとし、画像特徴量xと単語特徴量yとが同時に出力する確率をP(x,y)と表す。
また、実施例では、画像特徴量x(画像データ)と単語特徴量y(単語群データ)との直接的な関係を求める代わりに、画像特徴量xと単語特徴量yとの間に画像と当該画像に対応した単語とを結びつける抽象的概念が導入される。すなわち、「犬」を例にとって考えると、同じ「犬」であっても、「チワワ」と「セントバーナード」とでは形や大きさ、毛の色等が大きく異なる。従って、図2に示すように形や大きさ、色といった画像上に現れる特徴量(画像特徴量x)と「犬」という単語(単語特徴量y)とを直接的に結びつけることは容易なことではない。その一方で、人間は、基本的にどのような「犬」を見たとしてもそれを「犬」として認識することができる。これは人間が複数の画像上に現れる特徴量と「犬」という単語から「犬とはどのようなものであるか」という抽象的概念(Latent)すなわち直接的に観測されるものではない隠れた情報をすでに獲得しているからと考えられる。
これを踏まえて、実施例では、画像特徴量xと単語特徴量yとの直接的な関係を求める代わりに、画像特徴量xと単語特徴量yとの間に抽象的概念Lを導入したモデルを用いて、画像(実世界情報)と単語(シンボル)との関係を把握することとした。図3に、抽象的概念Lを画像特徴量xと単語特徴量yとの間に導入したモデルを示す。このように抽象的概念Lを用いるとすれば、画像特徴量xと単語特徴量yとが同時に出現する確率P(x,y)は、上記式(0)のように表現することができる。ただし、式(0)において、P(x|L)は抽象的概念Lから画像特徴量xが出現する確率であり、P(y|L)は抽象的概念Lから単語特徴量yが出現する確率であり、p(L)は、Lという抽象的概念そのものが生じる確率である。また、式(0)は、P(x|y,L)=P(x|L)という関係を用いて式変形を行ったものであるが、この関係は、図3からわかるように、画像特徴量xと単語特徴量yとが直接的に関係していないために成立するものである(条件付独立の仮定)。
「犬」を例にとって式(0)の意味を更に説明すると、例えば「色が白いこと」と「チワワ」とが同時に出現する確率は、「白」を画像特徴量(第1特徴量)xとすると共に「チワワ」を単語特徴量(第2特徴量)yとし、更に「犬という概念」を抽象的概念Lとすれば、上記式(0)より、
“P(白,チワワ)=P(白|犬概念)×P(チワワ|犬概念)×P(犬概念)”
と表すこともできる。ただし、世の中には「犬」という概念のみならず、「猫」という概念や「ねずみ」という概念といったさまざまな概念が存在していることから、確率P(白,チワワ)としては、例えば「猫」という概念から「白」や「チワワ」が出現する確率や、「ねずみ」という概念から「白」や「チワワ」が出現する確率も考慮しておく必要がある。このような他の抽象的概念をも考慮すれば、確率P(白,チワワ)は、
“P(白,チワワ)=P(白|犬概念)×P(チワワ|犬概念)×P(犬概念)+P(白|猫概念)×P(チワワ|猫概念)×P(猫概念)+P(白|ねずみ概念)×P(チワワ|ねずみ概念)×P(ねずみ概念)…”
と表されることになる。このような観点から、式(0)は、判明している抽象的概念のすべてについての確率を積分計算するものとして定義される。もちろん、「猫」という概念から「チワワ」が出現する確率P(チワワ|猫概念)や「ねずみ」という概念から「チワワ」が出現する確率P(チワワ|ねずみ概念)は極めて小さいことから、これらの「犬」以外の抽象的概念に関連した確率自体は、確率P(白、チワワ)の値には、ほとんど貢献しない。
さて、上述のように、画像特徴量xと単語特徴量yとの間に抽象的概念Lを導入するとすれば、当然に抽象的概念Lを取得することが必要となるが、ここでは、抽象的概念Lを取得するために、正準相関分析(Canonical Correlation Analysis)を用いる。正準相関分析は、直接的には関係性が少ない2つの変量群(ここではベクトルとしての画像特徴量xおよび単語特徴量y)をそれぞれ共通の空間(正準空間)上の互いに異なる変量群へと変換(射影)し、得られた変量群同士間での相関(関係性)を最大にする変換を求めるものである。すなわち、実施例では、図4および図5に示すように、画像特徴量xを正準空間に射影して得られる変量を第1変量sとすると共にこの変換をf:x→sとし、単語特徴量yを正準空間に射影して得られる変量を第2変量tとすると共にこの変換をg:y→tとしたときに、正準相関分析により第1変量sと第2変量tとの相関を最大にする(互いに対応し合う第1および第2変量sおよびt同士を概ね一致させる)変換fおよびgを求める。そして、正準相関分析により得られた変換fにより画像特徴量xを正準空間に射影して得られる第1変量sと、変換gにより単語特徴量yを正準空間に射影して得られる第2変量tとの少なくとも何れか一方を画像特徴量xと単語特徴量yとから得られる抽象的概念Lを示す隠れ変数として用いるのである。
変換fおよびgを導出する手順について具体的に説明すると、p個の変量を含むベクトルとしての画像特徴量xi=(a1,…,apTと、q個の変量を含むベクトルとしての単語特徴量yi=(b1,…,bqTとからなるデータ集合{xi,yin i=1に対して正準相関分析を適用して上述のような変換fおよびgを求める場合には、上記式(1)および(2)に示すような2つの線形変換を設定する。ここでは、式(1)における射影行列(係数行列)Aが変換fに対応し、式(2)における射影行列(係数行列)Bが変換gに対応する。そして、射影行列Aにより正準空間に射影される第1変量si(=(s1,…,sp))と射影行列Bにより正準空間に射影される第2変量ti(=(t1,…,tq))との間における相関行列のトレースの絶対値を最大にする射影行列AおよびBを求める。この場合、最適な射影行列A,Bは、上記式(3)の固有値問題の解として求められる。ただし、式(3)において、Λ2は固有値を対角要素とする対角行列であり、Iは単位行列である。また、共分散行列Cxx,Cyy,Cxy,Cyxは、上記式(4)に示すとおりである(ただし、n=1であるときに、mx=x1,my=y1,Cxx=Cyy=Cxy=Cyx=Oである。)。このように正準相関分析を用いれば、行列の固有値問題を1回計算するだけでデータ集合{xi,yin i=1についての変換fおよびg(射影行列AおよびB)を得ることが可能であり、データ集合{xi,yin i=1が大きい(値nすなわち画像特徴量xとそれに対応した単語特徴量yとの組み合わせの総数が大きい)場合であっても、上記固有値問題を非常に高速に解くことができる。
上述のようにして画像特徴量xiと単語特徴量yiとからなるデータ集合{xi,yin i=1に対して正準相関分析を適用して射影行列AおよびBを得れば、これらのデータ集合{xi,yin i=1や射影行列AおよびBを用いて、正準空間に射影された第1および第2変量si,tiからなるデータ集合{si,tin i=1を得ることができる。また、変換fおよびgに対応した射影行列AおよびBは、互いに対応し合う隠れ変数sおよびt同士を概ね一致させる(si≒tiとする)ものであるから、抽象的概念Lとしては、データ集合{sin i=1および{tin i=1のうちの何れか一方を用いることができる。更に、抽象的概念Lとして第1変量siを利用して隠れ変数をsiとすれば、隠れ変数siが有限個であることから、上記式(0)は積分計算式ではなく、単純な和の計算式となり、式(0)を次式(15)のように変形することができる。更に、隠れ変数siの出現確率がi=1〜nにおいてすべて同一であると考えれば、式(15)を次式(16)のように変形することが可能であり、式(16)を用いてある画像特徴量xとある単語特徴量yとが同時に出現する確率P(x,y)を求めることができる。
Figure 0005234469
上述のような基本的な考え方のもと、画像と単語との関係(画像特徴量xと単語特徴量yとの関係)を確率の問題として取り扱うこととすれば、ある画像特徴量xとある単語特徴量yとが同時に出現する確率P(x,y)を求めることにより、確率が高い順に単語を画像に対して割り付けたり、確率が高い順に所望の単語に対応した画像を取り出したりすることが可能となる。そして、確率P(x,y)を上記式(16)に従って求めるためには、任意の画像特徴量をxとすると共に任意の単語特徴量yとすれば、抽象的概念Lとしての隠れ変数siから任意の画像特徴量xが出現する確率P(x|si)と、隠れ変数siから任意の単語特徴量yが出現する確率P(y|si)とを容易かつ高速に求めることができるようにしておく必要がある。このため、実施例の初期学習ルーチンは、以下に説明するように、確率P(x,y)を容易かつ高速に求めるために必要な情報を予め獲得しておくものとされる。
続いて、図6等を参照しながら、初期学習ルーチンを具体的に説明する。図6に示す初期学習ルーチンは、主として管理コンピュータ30の学習処理部35により、画像データ処理システム20の実質的な運用が開始される前に予め1回実行されるものである。初期学習ルーチンの開始に際して、学習処理部35は、データ受付部32またはデータ記憶装置21から学習用のデータセットを入力する(ステップS100)。学習用データセットは、画像データと、当該画像データに対応付けられて画像に現れているものを示す少なくとも1つの単語を情報として含む単語群データとの組み合わせを複数含むものとされる。そして、個々の画像データと単語群データとの組み合わせは、画像と単語とが精度よく対応するように人の手により調整されたものであると好ましい。こうして学習用のデータセットを入力すると、学習処理部35は、画像特徴量抽出部33に対して画像データからの画像特徴量xiの抽出を指示し、画像特徴量抽出部33は、ステップS100にて入力された画像データのそれぞれから画像特徴量xiを抽出すると共に、抽出した画像特徴量xiを特徴量記憶装置40の所定の記憶領域に格納する(ステップS110)。また、学習処理部35は、単語特徴量抽出部34に対して単語群データに基づく単語特徴量yiおよび単一の単語についての単語特徴量wの設定を指示し、単語特徴量抽出部34は、ステップS100にて入力された単語群データに基づいて単語特徴量yiおよび単語特徴量wを設定すると共に、設定した単語特徴量yiおよび単語特徴量wを特徴量記憶装置40の所定の記憶領域に格納する(ステップS120)。
ステップS110における画像特徴量抽出部33による画像特徴量xiの抽出について説明すると、実施例において、画像特徴量xiは、例えば特許第2834153号公報や特許第2982814号公報により開示されている高次局所自己相関特徴(HLAC)を示すベクトルとして画像データから抽出される。HLACは、自己相関関数を高次に拡張したものであり、参照点θでの対象画像の輝度値をH(θ)とすると、参照点θ周りのN個の変位(α1,α2,…,αN)に対するN次の自己相関関数ζN(α1,α2,…,αN)は次式(17)のように定義することができる(ただし、変位αiは、例えばα1=(1,1),α2=(1,−1),…といったベクトルである。)。式(17)のような高次の自己相関関数は、次数Nや変位(α1,α2,…,αN)の取り方次第で無数に定義できるものではあるが、画像データに関しては、一般に互いに近接し合った画素間における局所的な相関がより重要であると考えられるので、ここでは、次数Nを値2として(N=0,1,2)、変位を参照点θ周りの局所的な3×3=9画素の領域に限定し、局所的な領域内における3点までの相関関係を特徴として抽出する。これにより、2値画像に関して、画像の特徴を示す局所パターンは、平行移動により等価とみなせるパターンを除けば、図7に示すように総数25個となる。なお、図7において、各局所パターンの中心画素が参照点であり、参照点と参照点以外の黒く塗りつぶされた箇所が走査されるべき対象となる。また、図示を省略するが、濃淡画像に関しては、同様に平行移動により等価とみなせるパターンを除けば、画像の特徴を示す局所パターンは総数35個となる。そして、i番目の画像データについての第1特徴量xiは、対象となる画像全体を1回走査すると共に局所パターンごとにそれに対応した画素の輝度値の積の総和を取ることにより求められる。具体的には、例えば2値画像の場合、ある画像についての第1特徴量xiは、“xi=(パターンNo.1の総数,パターンNo.2の総数,…,パターンNo.25の総数)T”というベクトルとなる。このようにして抽出されるHLACを示す第1特徴量xiは、認識対象の位置に依存しないという位置不変性や、認識対象が2つあればそれぞれの特徴ベクトルの和となるという加法性といった性質をもっている。従って、実施例のように、第1特徴量xiを画像データから抽出されたHLACを示すものとすれば、画像からの対象の切り出すための領域分割(セグメンテーション)が不要となるので、画像認識の精度を向上させると共に画像特徴量の取得処理における負荷の低減化を図ることが可能となる。なお、カラー画像については、特開2006−163452号公報により開示されているカラーHLACを画像特徴量として抽出すればよく、動画像や距離画像については、特開2006−79272号公報により開示されているCHLAC(立体高次局所自己相関特徴)を画像特徴量として抽出すればよい。
Figure 0005234469
また、ステップS120における単語特徴量抽出部34による単語特徴量yiおよび単語特徴量wの抽出について説明すると、ステップS120では、まずステップS100にて入力したすべての単語群データに含まれる全単語を抽出すると共に、抽出した全単語を例えば抽出した順に配列する。そして、実施例では、各単語群データごとに、全単語の配列に対して、当該単語群データに含まれている単語には評価値(重み)として値1を付与すると共に当該単語群データに含まれていない単語には評価値として値0を付与することにより第2特徴量yiを設定する。例えば、ある画像データに対応した単語群データに、「空」、「飛行機」、「雲」といった単語が含まれており、全単語の配列が、(空,…,○,…,飛行機,△,…,雲,…,山,…,海,…,□)といったものである場合、当該画像に対応した第2特徴量yiは、yi=(1,…,0,…,1,0,…,1,…,0,…,0,…,0)Tといったベクトルとなる。ただし、上述のように単語群データに含まれている単語に対して評価値として値1を付与する代わりに、例えば単語群データが「空らしさ=0.31」、「飛行機らしさ0.87」といったような評価値をもつものとされている場合には、全単語の配列に対して、単語群データに含まれている単語には対応した評価値を付与すると共に当該単語群データに含まれていない単語には値0を付与することにより単語特徴量yiを設定してもよい。また、単一の単語についての単語特徴量wは、単一のシンボルのみを示す単語群データの特徴量として、上述のようにして抽出された全単語のそれぞれについて設定され、単語特徴量wの総数は、抽出された全単語の数と一致する。すなわち、「空」という単語のみを示す単語群データの単語特徴量wは、全単語の配列が、(空,…,○,…,飛行機,△,…,雲,…,山,…,海,…,□)といったものである場合、w=(1,0,0,0,…0)Tといったベクトルとなる。
上述のようにして画像特徴量xiや単語特徴量yi等が抽出または設定されると、学習処理部35は、画像特徴量xiおよび単語特徴量yiの組み合わせを複数用いた正準相関分析を実行し、画像特徴量xiおよび単語特徴量yiの少なくとも何れか一方に基づいて画像と単語とを結びつける抽象的概念Lを示す隠れ変数を導出するための変換を求める(ステップS130)。すなわち、学習処理部35は、ステップS130にて上記式(3)の固有値問題を解くことにより上記式(1)における射影行列Aを第1変換として算出すると共に式(2)における射影行列Bを第2変換として算出し、射影行列AおよびBを学習用記憶装置41の所定の記憶領域に格納する。更に、学習処理部35は、画像特徴量xiおよび単語特徴量yiの組み合わせごとに(i=1〜nについて)、ステップS130にて算出した射影行列Aを用いて各画像特徴量xiを正準空間に射影して得られる隠れ変数siを抽象的概念Lとして算出し、算出した隠れ変数siを学習用記憶装置41の所定の記憶領域に格納する(ステップS140)。
ここで、ある画像特徴量xとある単語特徴量yとが同時に出現する確率P(x,y)を上記式(16)に従って求めるためには、隠れ変数siから任意の画像特徴量xが出現する確率P(x|si)と、隠れ変数siから任意の単語特徴量yが出現する確率P(y|si)とを容易かつ高速に求めることができるようにしておく必要がある。ここで、新奇な第1特徴量xnewを考えると、この第1特徴量xnewを正準空間に射影して得られる隠れ変数snewが既に算出されている隠れ変数siに近ければ近いほど、当該隠れ変数siから第1特徴量xnewが出現しやすいと考えるのは極めて合理的である。このため、実施例では、図8に示すように、確率P(x|si)を隠れ変数siを中心とした正規分布(ガウス分布)として表現することとし、学習処理部35は、ステップS140にて算出した隠れ変数siのそれぞれに対して確率密度分布を設定する(ステップS150)。この場合、確率的正準相関分析の枠組みを利用すれば、ステップS130にて算出された射影行列Aから確率P(x|si)を上記式(5)のように単純な正規分布として求めることが可能であり、ステップS150では、式(5)に従って隠れ変数siのそれぞれに対して確率密度分布が設定される。
こうして隠れ変数siごとに確率密度分布を設定すると、学習処理部35は、隠れ変数siから任意の単語特徴量yが出現する確率P(y|si)とを容易かつ高速に求めることができるように、ステップS100にて入力した単語群データに含まれる全単語のそれぞれについての生起確率P(w|si)すなわち隠れ変数siから単語特徴量wが出現する確率を上記式(7)に従って算出し(この場合、式(7)におけるsziはsiである。)、算出した生起確率P(w|si)を学習用記憶装置41の所定の記憶領域に格納する(ステップS160)。ここで、言語モデルの一つであるCRM(Continuous-space Relevance Model)を用いれば、隠れ変数siからある単語特徴量yが出現する確率P(y|si)は、次式(18)のように表すことが可能であり、言語モデルの一つであるMBRM(Multiple Bernoulli Relevance Model)を用いれば、確率P(y|si)は、次式(19)のように表すことができる。そして、式(18)および(19)におけるP(w|si)は、CRMおよびMBRMの双方で共通の各単語の生起確率であって、上記式(7)に従って計算可能なものである(この場合、式(7)におけるsziはsiである。)。なお、式(7)において、μ”は0から1までの実数値をとるパラメータであり、実施例では、例えば値0,8とされる。“μ”が1に近づく程、データセットの画像データに付与された単語群(単語特徴量)が重視され、逆に0に近づくほど全体の出現頻度が重視されることになる。こうして全単語のそれぞれについての生起確率P(w|si)が算出・記憶されると、画像と単語との関係の学習が完了したことになり、学習処理部35は、本ルーチンを終了させる。
Figure 0005234469
ここまで説明したように、実施例の画像データ処理システム20では、画像特徴量xiおよび単語特徴量yiの組み合わせを複数用いた正準相関分析により、画像特徴量xiおよび単語特徴量yiの少なくとも何れか一方に基づいて画像と当該画像に対応した単語とを結びつける抽象的概念Lとしての隠れ変数siを導出するための変換としての射影行列AおよびBが算出されると共に(ステップS130)、射影行列AおよびBを用いて画像特徴量xiおよび単語特徴量yiの組み合わせごとに隠れ変数siが取得される(ステップS140)。更に、隠れ変数siごとに、ある隠れ変数siから任意の画像特徴量xが出現する確率P(x|si)と、ある隠れ変数siから任意の単語特徴量yが出現する確率P(y|si)とを得るために必要な情報が導出される(ステップS150,S160)。これにより、画像特徴量xと単語特徴量yとが同時に出力する確率P(x,y)、すなわち、ある画像とシンボルとしての単語とが同時に出現する確率を上記式(16)に従って容易かつ高速に求めることができる。従って、実施例の画像データ処理システム20では、例えば当該確率が高い順に単語を画像に対して割り付けることにより高速かつ精度のよいアノテーションを実行したり、例えば当該確率が高い順に所望の単語に対応した画像を取り出すことにより高速かつ精度のよいリトリーバルを実行したりすることが可能となる。
また、上記実施例のように、正準相関分析を用いることにより、画像特徴量xiおよび単語特徴量yiの少なくとも何れか一方に基づいて隠れ変数siを導出するための変換である射影行列AおよびBを高速に得ることが可能となり、画像と当該画像に対応した単語とを結びつける抽象的概念Lとしての隠れ変数siをより適正に取得して記憶しておくことができる。更に、学習情報として、隠れ変数siから任意の画像特徴量xが出現する確率を示す確率密度分布P(x|si)と、隠れ変数siから単一の単語のみを示す単語群データの単語特徴量wが出現する確率である生起確率P(w|si)とを記憶しておけば、ある隠れ変数siから任意の画像特徴量xが出現する確率と、ある隠れ変数siから任意の単語特徴量yが出現する確率とを容易かつ高速に得ることが可能となる。この場合、確率密度分布P(x|si)として、正規分布(ガウス分布)を利用し、上記式(6)に従って隠れ変数siのそれぞれに対して確率密度分布を設定すれば、ある隠れ変数siから任意の画像特徴量xが出現する確率として、実態に即したより適正なものを得ることが可能となる。ただし、確率密度分布P(x|si)は、上記式(6)に従って設定されてもよい。このように式(6)を用いる場合には、学習用データセットに対して交差検定法を適用することにより、同式中の正準空間の次元m(sやsiの次元)や分散Σを求めると好ましい。また、上記式(7)を用いれば、単語特徴量wの生起確率P(w|si)をより適正に算出することが可能となる。ただし、ある隠れ変数siから任意の単語特徴量yが出現する確率は、正規分布(ガウス分布)からなる確率密度分布を用いて導出されてもよく、このように正規分布を用いる場合には、上記式(8)に従って確率P(w|si)を算出すればよい(この場合、式(8)におけるsziはsiである。)。
そして、実施例において利用される高次局所自己相関特徴(HLAC)は、対象の位置に依存しないという位置不変性や対象が2つあればそれぞれの特徴ベクトルの和となるという加法性といった性質を有すると共に、第1データから対象(特徴)を抽出するための領域分割(セグメンテーション)を不要とするものである。従って、画像データから高次局所自己相関特徴を示すベクトルを抽出して画像特徴量xiとして用いれば、画像データの特徴をより少ない負荷で高速かつ精度よく抽出することが可能となる。ただし、画像特徴量xiは、高次局所自己相関特徴以外の他の手法により抽出される特徴であってもよいことはいうまでもない。また、すべての単語群データから抽出される互いに異なる単語の配列に対して、対象となる単語群データに対象となる単語が含まれていれば値0以外の所定値を付与すると共に含まれていなければ値0を付与することにより単語特徴量yiを設定すれば、少なくとも1つのシンボルとしての単語を示す単語群データの特徴をより適正に抽出することが可能となる。
〔アノテーションルーチン〕
引き続き、管理コンピュータ30のアノテーション処理部36により実行されるアノテーションルーチンについて説明する。ここでも、アノテーションルーチンの具体的な説明に先立って、まずアノテーションルーチンの基となる基本的な考え方について説明する。上述のように、例えば新奇な未注釈画像データから抽出された画像特徴量(HLAC)を新奇画像特徴量xnewとしたときに、新奇画像特徴量xnewから単一の単語のみを示す単語群データの単語特徴量wが出現する確率P(w|xnew)を求め、確率が高い順に単語特徴量wに対応した単語を新奇画像特徴量xnewに対応した未注釈画像データに対して割り付けていけば、未注釈画像データに対して適切な単語群を割り付けることが可能となる。ここで、新奇画像特徴量xnewから単語特徴量wが出現する確率P(w|xnew)は、ベイズの定理より、次式(20)のように表すことが可能であり、式(16)を用いれば式(20)は、次式(21)のように変形することができる。また、式(21)において、確率P(xnew)は、どの単語特徴量wに対しても同じ値をとることから、これを定数とみなせば、画像特徴量xnewから単語wが出現する確率P(w|xnew)は、結局、上記式(13)のように表すことができる。
Figure 0005234469
続いて、図9を参照しながら、上述のような基本的な考え方に基づくアノテーションルーチンについて説明する。図9に示すアノテーションルーチンは、基本的に、管理コンピュータ30に対して単語群データとの対応付けがなされていない未注釈画像データが入力されると、管理コンピュータ30のアノテーション処理部36により実行されるものである。ただし、アノテーション精度を向上させるべく既に単語群データとの対応付けがなされている画像データに対してアノテーションルーチンを適用してもよいことはいうまでもない。図9のアノテーションルーチンの開始に際して、アノテーション処理部36は、データ受付部32またはデータ記憶装置21から対象となる未注釈画像データ(新奇画像データ)を入力すると共に、学習用記憶装置41からすべての単語特徴量wの生起確率P(w|si)を入力する(ステップS200)。こうしてアノテーションに必要なデータや情報を入力すると、アノテーション処理部36は、画像特徴量抽出部33に対して未注釈画像データからの新奇画像特徴量xnewの抽出を指示し、画像特徴量抽出部33は、未注釈画像データから高次局所自己相関特徴を示すベクトルを新奇画像特徴量xnewとして抽出し、抽出した新奇画像特徴量xnewを特徴量記憶装置40の所定の記憶領域に格納する(ステップS210)。
新奇画像特徴量xnewが抽出・記憶されると、アノテーション処理部36は、学習用記憶装置41に記憶されている隠れ変数siごとに、隠れ変数siから新奇画像特徴量xnewが出現する確率P(xnew|si)を算出する(ステップS220)。ステップS220では、学習用記憶装置41に記憶されている隠れ変数siごとの確率密度分布P(x|si)を用いてすべての隠れ変数siについて確率P(xnew|si)を算出する。隠れ変数siごとに確率P(xnew|si)を算出すると、アノテーション処理部36は、上記式(13)に従って単語特徴量wごとに(全単語のそれぞれについて)画像特徴量xnewから単語特徴量wが出現する確率P(w|xnew)を算出する(ステップS230)。例えば、確率密度分布P(x|si)が上記式(6)に従って設定されており、図10に示すような画像特徴量xiと単語特徴量yiとの組み合わせが存在している状態で、図10の未注釈画像データが出現したとする。この場合、新奇隠れ変数snewをsnew=A・xnewとすれば、同図に示すように、確率P(xnew|si)=hiを図10に示すように得ることができる。そして、画像特徴量xnewから単語「犬」、「猫」、「ねずみ」…についての単語特徴量wが出現する確率は、それぞれ、
P(犬|xnew)=h1×P(犬|si)+h2×P(犬|s2)+h3×P(犬|s3)+h4×P(犬|s4 )+h5×P(犬|s5)+h6×P(犬|s6)…
P(猫|xnew)=h1×P(猫|si)+h2×P(猫|s2)+h3×P(猫|s3)+h4×P(猫|s4 )+h5×P(猫|s5)+h6×P(猫|s6)…
P(ねずみ|xnew)=h1×P(ねずみ|si)+h2×P(ねずみ|s2)+h3×P(ねずみ|s3)+h4×P(ねずみ|s4 )+h5×P(ねずみ|s5)+h6×P(ねずみ|s6)…
といったように算出することができる。
こうして全単語(全単語特徴量w)のそれぞれについて確率P(w|xnew)を算出すると、アノテーション処理部36は、所定の判定基準に従い、確率P(w|xnew)の高い順に単語特徴量wにより示される単語を抽出する(ステップS240)。なお、ステップS240における判定基準は任意に定めることが可能であり、例えば、確率P(w|xnew)の高い順に所定数の単語を抽出してもよいし、確率P(w|xnew)の値に対して閾値を設けて閾値よりも高い確率P(w|xnew)に対応した単語を抽出してもよい。例えば、図10の例において、P(猫|xnew)>P(ねずみ|xnew)>P(犬|xnew)…であったとすれば、猫、ねずみ、犬という優先順位で単語が抽出される。そして、アノテーション処理部36は、ステップS240にて抽出した単語に基づいて、図6のステップS120と同様の手順に従って新奇画像特徴量xnewに対応した新奇単語特徴量ynewや単語特徴量wを設定すると共に新奇画像データに対応した新奇単語群データを設定し、これらのデータを特徴量記憶装置40やデータ記憶装置21に格納した後(ステップS250)、本ルーチンを終了させる。これにより、未注釈画像データに対してシンボルとしての単語が割り付けられることになる。
ここまで説明したように、実施例の画像データ処理システム20では、画像特徴量xiと単語特徴量yiとの少なくとも何れか一方に基づいて画像と当該画像に対応した単語とを結びつける抽象的概念Lとしての隠れ変数siを導出するために正準相関分析により取得される射影行列AおよびBと、当該射影行列AおよびBを用いて画像特徴量xiおよび単語特徴量yiの組み合わせごとに取得される隠れ変数siと、ある隠れ変数siから任意の画像特徴量xが出現する確率P(x|si)およびある隠れ変数siから任意の単語特徴量yが出現する確率P(y|si)とを得るために必要な情報とを含む学習情報が学習用記憶装置41に記憶されている。従って、画像データ処理システム20では、管理コンピュータ30に未注釈画像データが受け付けられた際に、学習情報を用いて新奇画像特徴量xnewから単語特徴量wが出現する確率P(w|xnew)を上記式(13)に従って容易かつ高速に求めることができる。これにより、確率P(w|xnew)が高い順に単語を未注釈画像データに対して割り付けることにより高速かつ精度のよいアノテーションを実行することが可能となる。更に、上記実施例のように、新奇画像特徴量xnewに対応した新奇単語特徴量ynewを設定すれば(ステップS250)、これら新奇画像特徴量xnewおよび新奇単語特徴量ynewを後述の学習情報更新ルーチンの実行に際して新たなデータセットとして用いることが可能となる。
図11に、上述のアノテーションルーチンの正当性を評価するために行った“Corel5k”データセットを用いた実験の結果を示す。同図からわかるように、本発明に基づく“Proposed(1dim)”および“Proposed(2dim)”は、この実験の総合的な結果を示す“Mean F-value”の値が他の従来手法に比べて大きく、他の従来手法に比べて高いアノテーション性能を有している。なお、図11における“Proposed(1dim)”は、1次のHLACを画像特徴量として用いるものであり、“Proposed(2dim)”は、2次のHLACを画像特徴量として用いるものである。この場合、“Proposed(1dim)”の方が“Proposed(2dim)”よりも高速な処理を可能とする。
〔リトリーバルルーチン〕
引き続き、管理コンピュータ30のリトリーバル処理部38により実行されるリトリーバルルーチンについて説明する。ここでも、リトリーバルルーチンの具体的な説明に先立って、まずリトリーバルルーチンの基となる基本的な考え方について説明する。上述のように、複数の未注釈画像データの中から所望の単語群に対応した画像データを取り出すリトリーバルを実行するためには、未注釈画像データの画像特徴量から当該単語群に基づく単語特徴量が出現する確率を求めればよい。すなわち、多数の未注釈画像データが存在する場合、未注釈画像データの画像特徴量ごとに当該画像特徴量から上記単語群に基づく単語特徴量が出現する確率を求めると共に当該確率が高い順に未注釈画像データを取り出すことにより、多数の未注釈画像データの中から所望の単語群に対応したものを取り出すことが可能となる。ここで、単語群データとの対応付けがなされていない未注釈画像データから抽出された未注釈画像特徴量をxjとし(ただし、j=1,…,Nであり、“N”は未注釈画像データの総数を示す。)、画像データを取り出すための検索クエリに相当する単語群に基づく単語特徴量を検索用単語特徴量ynewとすれば、未注釈画像特徴量xiから検索用単語特徴量ynewが出現する確率P(ynew|xi)は、ベイズの定理や上記式(0)等を利用すると、次式(22)のように表すことができる。そして、抽象的概念Lとして隠れ変数{sin i=1を利用すると共に、P(si)=1/nとすれば、式(22)を更に変形させた次式(23)から確率P(ynew|xi)を求めることが可能となる。
Figure 0005234469
続いて、図12を参照しながら、上述のような基本的な考え方に基づくリトリーバルルーチンについて説明する。図12に示すリトリーバルルーチンは、検索クエリ受付部37により端末50等を介したユーザからの検索クエリとしての少なくとも1つの単語の入力が受け付けられると、管理コンピュータ30のリトリーバル処理部38により実行されるものである。図12のリトリーバルルーチンの開始に際して、リトリーバル処理部38は、検索クエリ受付部37から検索クエリとしての単語群(少なくとも1つの単語)を入力すると共に、特徴量記憶装置40からすべての未注釈画像特徴量xjを入力する(ステップS300)。次いで、リトリーバル処理部38は、単語特徴量抽出部34に対して検索用単語特徴量ynewの設定を指示し、単語特徴量抽出部34は、図6のステップS120と同様の手順に従ってステップS300にて入力した単語群に基づく検索用単語特徴量ynewを設定すると共に、設定した検索用単語特徴量ynewをデータ記憶装置21に格納する(ステップS310)。
検索用単語特徴量ynewが設定・記憶されると、リトリーバル処理部38は、学習用記憶装置41に記憶されている隠れ変数siごとの確率密度分布P(x|si)を用いて、すべての隠れ変数siとすべての未注釈画像特徴量xjとについて隠れ変数siから未注釈画像特徴量xjが出現する確率P(xj|si)を算出すると共に、隠れ変数siごとに隠れ変数siから検索用単語特徴量ynewが出現する確率P(ynew|si)を算出する(ステップS320)。かかるステップS320の処理の後、リトリーバル処理部38は、上記式(23)に従って、未注釈画像データxjごとに未注釈画像データxjから検索用単語特徴量ynewが出現する確率P(ynew|xj)を算出する(ステップS330)。こうして未注釈画像データxjごとに確率P(ynew|xj)を算出すると、リトリーバル処理部38は、所定の判定基準に従い、確率P(ynew|xj)の高い順に未注釈画像特徴量xjに対応した未注釈画像データをデータ記憶装置21から読み出し(ステップS340)、結果出力部39に与える。なお、ステップS340における判定基準は任意に定めることが可能であり、例えば、確率P(ynew|xj)の高い順に所定数の未注釈画像データを読み出してもよいし、確率P(ynew|xj)の値に対して閾値を設けて閾値よりも高い確率P(ynew|xj)に対応した未注釈画像データを読み出してもよい。例えば、「チワワ」という単語を入力として(検索用画像特徴量ynewとして)未注釈画像データをランク付しながら取り出す場合に、確率P(チワワ|xj)の計算結果が図13に示すようになったとする。この場合、図13からわかるように、P(チワワ|画像(a))>P(チワワ|画像(c))>P(チワワ|画像(b))>P(チワワ|画像(d))となることから、例えば画像(a)、画像(c)、画像(b)、画像(d)という順番で未注釈画像データが読み出される。そして、結果出力部39がリトリーバル処理部38からの未注釈画像データに基づいて問い合わせ先である端末50等に対して所定の態様でリトリーバル処理の結果を通知すると(ステップS350)、本ルーチンが終了することになる。
ここまで説明したように、実施例の画像データ処理システム20では、画像特徴量xiと単語特徴量yiとの少なくとも何れか一方に基づいて画像と当該画像に対応した単語とを結びつける抽象的概念Lとしての隠れ変数siを導出するために正準相関分析により取得される射影行列AおよびBと、当該射影行列AおよびBを用いて画像特徴量xiおよび単語特徴量yiの組み合わせごとに取得される隠れ変数siと、ある隠れ変数siから任意の画像特徴量xが出現する確率P(x|si)およびある隠れ変数siから任意の単語特徴量yが出現する確率P(y|si)とを得るために必要な情報とを含む学習情報が学習用記憶装置41に記憶されている。従って、画像データ処理システム20では、検索クエリ受付部37により少なくとも1つの単語(検索クエリ)の入力が受け付けられた際に、学習情報を用いて未注釈画像特徴量xjから検索用単語特徴量ynewが出現する確率P(ynew|xj)を上記式(14)に従って容易かつ高速に求めることができる。これにより、確率P(ynew|xj)が高い順に未注釈画像特徴量xjに対応した未注釈画像データをデータ記憶装置21から読み出すことにより高速かつ精度のよいリトリーバルを実行することが可能となる。
〔学習情報更新ルーチン〕
引き続き、実施例の画像データ処理システム20において実行される学習情報更新ルーチンについて説明する。ここで、画像データ処理システム20において取り扱われる実世界情報を示す第1データとしての画像データと、それに対応した第2データである単語群データとの組み合わせ、すなわち画像特徴量xiと単語特徴量yiとの組み合わせは、基本的に無限に増加し得るものである。このため、新奇画像特徴量と当該新奇画像特徴量に対応した新奇単語特徴量との組み合わせが出現するたびに、当該新奇画像特徴量と新奇単語特徴量との組み合わせを含むすべての組み合わせについて正準相関分析等を実行して上記変換や隠れ変数、確率を得るための情報を求めるとすれば、管理コンピュータ30の処理負担が多大なものとなってしまう。このため、実施例の画像データ処理システム20では、新奇画像特徴量と当該新奇画像特徴量に対応した新奇単語特徴量との組み合わせが出現するたびに、新奇画像特徴量と新奇単語特徴量とに基づいて射影行列AおよびBや隠れ変数si等を更新する学習情報更新ルーチンが実行されるのである。
学習情報更新ルーチンの具体的な説明に先立って、まず、学習情報更新ルーチンの基となる基本的な考え方について説明する。ここで、上記式(1)〜(4)におけるx〜=x−mxおよびy〜=y−myの主成分分析を考える。係数行列をEx,Eyとすれば、x〜およびy〜の主成分g,hは、次式(24)のように表され、係数行列Ex,Eyは、次式(25)の固有値問題の解として求められる(ただし、式(25)においてΛxおよびΛyは固有値を対角要素とする対角行列である。)。更に、主成分g,hを次式(26)に従って射影するとすれば、この射影空間においては相関行列が単位行列となる。更に、第1特徴量(画像特徴量)xを無相関化した変量である第1無相関化成分uと第2特徴量(単語特徴量)yを無相関化した変量である第2無相関化成分vとの間の正準相関分析(式(27)参照)を考えると、上記式(3)の固有値問題を次式(28)のように簡略化することが可能であり、これは共分散行列Cuvの特異値分解(SVD)に相当する。従って、上記式(3)の固有値問題を解く正準相関分析は、正規化空間における共分散行列Cuvの特異値分解として処理することができる。そして、かかる正準相関分析は、主として、第1および第2特徴量x,yの固有値問題を解いて無相関化する処理と、共分散行列Cuvの特異値分解処理とに分けることにより、以下に説明するように逐次的に実行することが可能となる。
Figure 0005234469
まず、第1特徴量xや第2特徴量yを逐次的に無相関化する処理(第1および第2無相関化成分取得処理)について説明する。ここでは、CCIPCA (J. Weng, Y. Zhang, and W. Hwang. Candid Covariance-Free Incremental Principal Component Analysis. IEEE Trans. on PAMI, Vol. 25, No. 8, pp.1034-1040, 2003.)を利用し、予めn−1個の第1特徴量xiが存在している状態で上記式(25)における第1特徴量xについての固有値問題を解いて、固有ベクトルを列ベクトルとしてもつ次式(29)に示す行列Exと、次式(30)に示す固有値を対角化した行列Λxとを得る。更に、第1特徴量xの次元をpとして、行列Exの各列ベクトルと行列Λxとからj番目(j=1,…,pである。)の固有ベクトルωxj(n−1)を次式(31)に従って算出する。
Figure 0005234469
こうして、n−1個の第1特徴量xiに関して行列Exや行列Λx、固有ベクトルωxj(n−1)が求められている状態で、n個目の第1特徴量xnがそれに対応した第2特徴量ynと共に出現したとする。この場合、n個の第1特徴量xiの平均mx(i)を次式(32)を用いて推定・取得すると共に、j=1の偏差x1〜(n)を次式(33)に従って算出する。そして、1〜pまでのjに関して、次式(34)のj番目の固有ベクトルωxj(n)、次式(35)の固有値λxj(n)、次式(36)の正規化された固有ベクトルexj(n)、および次式(37)の残差ベクトルxj+1〜(n)を繰り返し算出する。これにより、n個の第1特徴量xiに関する固有空間へのマッピングとしての行列Ex(n),Λx(n)および新奇第1無相関化成分u(n)を上記式(9)のように得ることができる。
Figure 0005234469
Figure 0005234469
同様にして、第2特徴量yについても、次式(38)〜(40)を用いてn−1個の第2特徴量yiに関して行列Exや行列Λx、固有ベクトルωxj(n−1)が求められている状態でn個目の第2特徴量ynがそれに対応した第1特徴量xnと共に出現したならば、次式(41)および(42)の計算を実行すると共に、1〜q(ただし、“q”は第2特徴量yの次元である。)までのjに関して、次式(43)のj番目の固有ベクトルωyj(n)、次式(44)の固有値λyj(n)、次式(45)の正規化された固有ベクトルeyj(n)、および次式(46)の残差ベクトルyj+1〜(n)を繰り返し算出する。これにより、n個の第2特徴量yiに関する固有空間へのマッピングとしての行列Ey(n),Λy(n)および新奇第2無相関化成分v(n)を上記式(10)のように得ることができる。
Figure 0005234469
Figure 0005234469
Figure 0005234469
続いて、共分散行列Cuvの特異値分解を逐次的に実行する手順を説明する。この処理は、上記式(28)を逐次的に解くものであるが、ここでは、射影行列A,Bの代わりに、それぞれの各要素の列ベクトルa,bを個々に取り扱うこととする。これにより、式(28)は、次式(47)のように表すことができる。ただし、式(47)において、λ2はベクトルa,bに対応した固有値である。そして、式(47)のうちの上式である式(48)を考え、式(48)の共分散行列Cuv,Cvuをサンプルを用いた表現に置き換えると共にベクトルaをn個目のサンプル取得時における推定値a(n)で置き換え、更に、新奇第1無相関化成分u(n)に関する正準相関係数ベクトルをZu(n)とし、Zu(n)=λ2a=Cuvvuaとすれば、正準相関係数ベクトルZu(n)を次式(49)のように表すことができる。更に、かかる式(49)は、次式(50)のように変形することができる。こうして式(50)を得ると、a(n)という推定値をどのように得るかが問題となる。そこで、a=Zu/||Zu||という関係から、a(n)=Zu(n−1)/||Zu(n−1)||とし、これを式(50)に代入すると、次式(51)を得ることができる。また、上記式(48)より次式(52)が成立すると共に、正準相関分析の式(47)を得る過程でCvua=λbが成立していることを利用すれば、次式(53)が成立する。更に、λ(n−1)の推定値を次式(54)のように表すことができるので、式(54)を利用すれば、式(53)を次式(55)のように変形することができる。
Figure 0005234469
Figure 0005234469
Figure 0005234469
そして、上記式(51)に式(52)および式(55)を適用して整理すれば、正準相関係数ベクトルZu(n)を次式(56)のように表すことが可能となる。同様に、上記式(47)の下式(Cvuuvb=λ2b)についても、第2無相関化成分v(n)に関する正準相関係数ベクトルをZv(n)とし、Zv(n)=λ2b=Cvuuvbとすれば、正準相関係数ベクトルZv(n)を次式(57)のように表すことが可能となる。また、サンプル数(データセットの総数)nが大きい場合には、((n−1)/n)2≒(n−2)/nと置き換えると共に(n−1)/n2≒1/nと置き換えることができるので、これらの関係を利用して、式(56)および(57)をそれぞれ次式(58)および(59)のように書き換えることができる。かかる式(58)および(59)は、(新たな正準相関係数ベクトル)=(重み)×(旧正準相関係数ベクトル)+(1−重み)×(入力データu(n),v(n)から得られる正準相関係数ベクトル)という関係を示していると解釈し得る。
Figure 0005234469
ここで、式(58)について更に検討すると、次式(60)および(61)の関係を利用することにより、上記式(58)は、次式(62)のように表すことができる。かかる式(62)における“vT(n)・Zv(n−1)”は、“v(n)”と“Zv(n−1)”との内積であり、これら2つのベクトルの類似度を示すスカラ、すなわち、新規入力ベクトルv(n)が正準相関係数ベクトルZv(n−1)とどの程度類似しているかを示す量である。このために、式(62)の第2項の“1/λ(n−1)・u(n)・vT(n)・Zv(n−1)”という成分は、“u(n)”を相手側の入力ベクトルv(n)と相手側の正準相関係数ベクトルZv(n−1)との類似度に応じてスケールしたものとなり、先頭の1/λ(n−1)は、当該成分のベクトルのノルムをλ2にするための正規化項となる。更に、式(62)の第2項“1/λ(n−1)・u(n)・vT(n)・Zv(n−1)−Zu(n−1)”は、相手方の入力ベクトルv(n)の正準相関係数ベクトルZv(n−1)への類似度に応じてスケールされた入力u(n)とu(n)側の正準相関係数ベクトルZv(n−1)との差分を1/n倍したものに相当する。一方、かかる式(62)における“uT(n)・Zu(n−1)”は、新規入力ベクトルv(n)が正準相関係数ベクトルZu(n−1)とどの程度類似しているかを示す量である。このために、式(62)の第3項の“λ-(n)/λ2(n−1)・u-(n)・uT(n)・Zu(n−1)”という成分は、“u-(n)”を相手側の入力ベクトルv(n)と相手側の正準相関係数ベクトルZv(n−1)との類似度に応じてスケールしたものとなり、先頭のλ-(n)/λ2(n−1)は、当該成分のベクトルのノルムをλ2にするための正規化項となる(なお、“u-(n)”や“λ-(n)”における上付きの“−”は、アッパーライン(推定値)を示すこととする。以下同様。)。また、u-(n)が上記式(61)の関係から得られたものであることに留意すると、u-(n)は、v(n)から推定されるu側のベクトルといえる。従って、式(62)の第3項“λ-(n)/λ2(n−1)・u-(n)・uT(n)・Zu(n−1)−Zu(n−1)”は、こちら側(u側)の入力ベクトルu(n)の正準相関係数ベクトルZu(n−1)への類似度に応じてスケールされた入力v(n)から推定されるu(n)側の正準相関係数ベクトルZu(n−1)との差分を1/n倍したものに相当する。従って、新たな正準相関係数ベクトルZu(n)は、旧正準相関係数ベクトルZu(n−1)を新規入力ベクトルu(n)の方向と、v(n)から推定されるu-(n)の方向とに、相手方の類似度に応じてほんの少しだけ引っ張ることで得られると解釈できる。同様に、Zv(n)についても、次式(63)および(64)の関係を利用することにより、上記式(59)を次式(65)のように表すことができる。従って、新たな正準相関係数ベクトルZv(n)も、旧正準相関係数ベクトルZv(n−1)を新規入力ベクトルv(n)の方向と、u(n)から推定されるv-(n)の方向とに、相手方の類似度に応じてほんの少しだけ引っ張ることで得られると解釈できる。
Figure 0005234469
さて、上述のように解釈され得る式(58)および(59)には、更に収束性を速めるべく、CCIPCAと同様に忘却率l(一般に2〜4の値)を導入することができる。また、サンプル数nが大きくなると入力データから得られる正準相関係数ベクトルの影響が殆ど無くなってしまうため、サンプル数nが大きくなってもこの影響をある程度残すためには、式(58)および(59)に対して感度率α(非常に小さい正の数)を導入すると好ましい。このように忘却率lと感度率αとを導入すれば、式(58)および(59)は、次式(66)および(67)のように書き換えることができる。こうして得られる式(66)および(67)を用いれば、n個目の第1特徴量xnおよび第2特徴量ynの出現に伴って取得された新奇第1無相関化成分u(n)および新奇第2無相関化成分v(n)に基づいて正準相関係数ベクトルを推定することが可能となる。そして、式(66)および(67)を用いて推定される正準相関係数ベクトルよりも高次の正準相関係数ベクトルを推定するために、CCIPCAと同様に式(66)および(67)を用いて推定される正準相関係数ベクトルと入力ベクトルとの残差ベクトルを生成し,残差ベクトルを改めて入力ベクトルとして式(66)および(67)に導入すればよい。j番目の正準相関係数ベクトルとj番目の入力ベクトルから残差ベクトルを得るためには、次式(68)および(69)を用いることができる。
Figure 0005234469
以上をまとめると、共分散行列Cuvの逐次的な特異値分解は、次のような手順に従って実行されればよい。すなわち、n−1個の第1無相関化成分u(1)〜u(n−1)および第2無相関化成分v(1)〜v(n−1)の組み合わせが存在している状態で、これらのデータに基づいて式(28)におけるCuvの特異値分解を実行すると共に、共分散行列の推定値を次式(70)に従い設定する。更に、r=min{p,q}として、式(71)の行列Eu,Evの各列ベクトルと行列Λとからj番目(j=1,…,rである。)の正準相関係数ベクトルZuj(n−1)およびZvj(n−1)を次式(72)に従って算出する。
Figure 0005234469
こうして、n−1個の第1無相関化成分u(1)〜u(n−1)および第2無相関化成分v(1)〜v(n−1)の組み合わせに関して行列Eu,Ev,Λや正準相関係数ベクトルZuj(n−1)およびZvj(n−1)が求められている状態でn個目の新奇第1無相関化成分u(n)および新奇第2無相関化成分v(n)が出現したとする。この場合、新奇第1無相関化成分u(n)および新奇第2無相関化成分v(n)を用いてu1(n)=u(n),v1(n)=v(n)とする初期化を行うと共に、共分散行列を次式(73)および(74)に従って更新する。ただし、式(73)および(74)において、“l”は忘却率であり、“α”は感度率である。そして、1〜rまでのjに関して、上記式(66)および(67)に基づく次式(75)および(76)のj番目の固有ベクトルZuj(n),Zvj(n)、次式(77)の固有値λuj(n),λvj(n)、次式(78)の正規化された固有ベクトルeuj(n),evj(n)、および上記式(68)および(69)の残差ベクトルuj+1(n)およびvj+1(n)を繰り返し算出する。これにより、特異値分解の結果として、行列Eu(n),Ev(n),Λu(n),Λv(n)や共分散行列の推定値C- uv(n),C- vu(n)を次式(79),(80)および(81)のように得ることができる。
Figure 0005234469
Figure 0005234469
Figure 0005234469
このように、第1および第2無相関化成分取得処理によりn個の第1特徴量xiおよび第2特徴量yiに関する固有空間へのマッピングとしての行列Ex(n),Ey(n),Λx(n),Λy(n)や新奇第1無相関化成分u(n)および新奇第2無相関化成分v(n)を得ると共に、共分散行列Cuvの逐次的な特異値分解により行列Eu(n),Ev(n)を得れば、n個目の第1特徴量xnおよび第2特徴量ynが出現したときに、n個の第1および第2特徴量xn,ynの組み合わせに対応した新たな射影行列A(n)およびB(n)を上記式(12)に従って取得することが可能となる。なお、共分散行列Cuvの逐次的な特異値分解の結果を用いれば、n個の第1および第2特徴量xn,ynの組み合わせに対応した正準相関係数Λ(n)を次式(82)に従って推定することも可能となる。
Figure 0005234469
続いて、図14を参照しながら、上述のような基本的な考え方に基づく学習情報更新ルーチンについて説明する。図14に示す学習情報更新ルーチンは、管理コンピュータ30に対して画像データと単語群データとの新奇組み合わせが入力されたり、上述のアノテーションルーチンにより新奇画像特徴量xnewと新奇単語特徴量ynewとの組み合わせが設定されたりすると、管理コンピュータ30の学習処理部35により実行されるものである。学習情報更新ルーチンの開始に際して、学習処理部35は、データ受付部32またはデータ記憶装置21からの新奇画像データおよび新奇単語群データまたは特徴量記憶装置40からの新奇画像特徴量xnewおよび新奇単語特徴量ynewを入力する(ステップS400)。そして、所定の判定処理にてステップS400にてデータ受付部32等から新奇画像データおよび新奇単語群データが入力されたと判断された場合(ステップS410)、学習処理部35は、画像特徴量抽出部33に対して新奇画像データからの新奇画像特徴量xnew(=xn)の抽出を指示し、画像特徴量抽出部33は、ステップS400にて入力された新奇画像データから新奇画像特徴量xnewを抽出すると共に、抽出した新奇画像特徴量xnewを特徴量記憶装置40の所定の記憶領域に格納する(ステップS420)。また、学習処理部35は、単語特徴量抽出部34に対して新奇単語群データに基づく新奇単語特徴量ynewおよび単語特徴量wの設定を指示し、単語特徴量抽出部34は、ステップS400にて入力された新奇単語群データに基づいて新奇単語特徴量ynewおよび単語特徴量wを設定すると共に、設定した新奇単語特徴量ynewと単語特徴量wとを特徴量記憶装置40の所定の記憶領域に格納する(ステップS430)。なお、ステップS400にて特徴量記憶装置40からの新奇画像特徴量xnewおよび新奇単語特徴量ynewが入力された場合には、ステップS420およびS430の処理はスキップされる。
ステップS400またはS420の処理の後、学習処理部35は、上述の第1無相関化成分取得処理を実行して上記式(9)に示す行列Ex(n),Λx(n)および新奇第1無相関化成分u(n)を取得すると共に(ステップS440)、上述の第2無相関化成分取得処理を実行して上記式(10)に示す行列Ey(n),Λy(n)および新奇第2無相関化成分v(n)を取得する(ステップS450)。なお、最初の学習情報更新ルーチンの実行に際して、ステップS440にて要求される式(29)等のパラメータや、ステップS450にて要求される式(38)等のパラメータは、初期学習ルーチンの実行時等に予め算出されているものとする。更に、学習処理部35は、上述の共分散行列Cuvの逐次的な特異値分解を実行し、上記式(79)に示す行列Eu(n),Ev(n)を取得する(ステップS460)。この場合も、なお、最初の学習情報更新ルーチンの実行に際して、ステップS460にて要求される式(71)〜(73)等のパラメータは、初期学習ルーチンの実行時等に予め算出されているものとする。こうして、行列Ex(n),Ey(n),Λx(n),Λy(n)や新奇第1無相関化成分u(n)および新奇第2無相関化成分v(n)、行列Eu(n),Ev(n)を得ると、学習処理部35は、新奇第1および第2特徴量xnew,ynewの組み合わせに対応した新たな射影行列A(n)およびB(n)を上記式(12)に従って設定すると共に学習用記憶装置41に格納する(ステップS470)。そして、学習処理部35は、新奇第1および第2特徴量xnew,ynewを含む第1および第2特徴量xi,yiや新たな射影行列A(n)およびB(n)を用いて隠れ変数siや、隠れ変数siごとの確率密度分布、確率P(w|si)を更新すると共に、更新した情報を学習用記憶装置41に格納し(ステップS480)、本ルーチンを終了させる。
ここまで説明したように、実施例の画像データ処理システム20では、画像データと単語群データとの新奇組み合わせの出現や未注釈画像データに対するアノテーション処理に伴って新奇第1特徴量xnewと新奇第2特徴量ynewとの組み合わせが出現したときに、新奇第1特徴量xnewと新奇第2特徴量ynewとに基づいて隠れ変数siを導出するための射影行列AおよびBが更新される。これにより、画像データとそれに対応した単語群データとの組み合わせ、すなわち第1特徴量xiと第2特徴量yiとの組み合わせが無限に増加したとしても、新奇第1特徴量xnewと新奇第2特徴量ynewとの組み合わせを含むすべての組み合わせについて正準相関分析等を実行して射影行列A,Bや隠れ変数si、確率を得るための情報を求める必要がなくなる。この結果、実施例の画像データ処理システム20では、管理コンピュータ30の処理負担を軽減させつつ、新奇第1特徴量xnewと新奇第2特徴量ynewとの組み合わせが出現するたびに射影行列A,Bや隠れ変数si、隠れ変数siごとの確率密度分布、確率P(w|si)をより適正なものへと更新していくことが可能となる。
図15から図17に、上述の学習情報更新ルーチンにおけるアルゴリズムの正当性の評価結果を示す。ここでは、確率的正準相関分析の枠組みに従って次式(83)に示すような第1および第2特徴量x,yのサンプルを発生させ、発生させたサンプルに基づいてアルゴリズムの正当性を評価した。この場合、r=p=qとし、サンプル数を1000とし、Wx,Wyとしてそれぞれ値0から値1の間でランダムに発生させた値に対角化処理を施した後、diag([3 2 1])の値をかけた行列を用いた。また、Γx,Γyを平均0、分散0.5の正規分布より発生させたランダムな値とし、μx,μyを0から1の値のランダムな値とした。そして、図15は、サンプル数と学習情報更新ルーチンにおけるアルゴリズムを用いて推定された正準相関係数の値との関係を示し、図16は、サンプル数と上記アルゴリズムを用いて推定された共分散行列Cuvの推定値との関係を示し、図17は、サンプル数と上記アルゴリズムを用いて推定された共分散行列Cvuの推定値との関係を示す。なお、図16および図17において、共分散行列Cuv,Cuvの推定値は、単位行列の各列との内積の絶対値として表されている。このため、サンプルから上記アルゴリズムを用いて推定される正準相関係数や共分散行列Cuv,Cuvの推定値は理論上すべて値1となるが、図15から図17に示すように、今回の評価では、正準相関係数や共分散行列Cuv,Cuvの推定値は何れも値1に収束している。この点から、上述の学習情報更新ルーチン(そのアルゴリズム)は、実用上極めて有用なものであるといえる。
Figure 0005234469
〔変形例〕
以下、本発明の変形例について説明する。なお、重複した説明を回避するために、上記画像データ処理システム20に関連して説明した要素(ステップ番号を含む)と同一の要素に対しては同一の符号を用いるものとし、詳細な説明を省略する。
〔隠れ変数に関する変形例〕
上記実施例では、図4および図5に示したように、変換fにより画像特徴量xを正準空間に射影して得られる第1変量sと、変換gにより単語特徴量yを正準空間に射影して得られる第2変量tとのうちの一方(第1変量s)が抽象的概念Lを示す隠れ変数として用いられ、変換fおよびgとしては、上記式(3)の固有値問題の解である射影行列AおよびBが用いられる。ただし、射影行列AおよびBは、第1変量sと第2変量tとの相関を最大とするものの、基本的に互いに対応し合う第1および第2変量sおよびt同士を完全に一致させるものとはなり得ない。従って、第1変量sおよび第2変量tの一方を隠れ変数として用いる上記実施例には、アノテーションやリトリーバルの精度向上という面でなお改善の余地がある。ここで、確率的正準相関分析の枠組みにおいて、1組の画像特徴量x(第1変量s)と単語特徴量y(第2変量t)とは、図18に示すように、正準空間上である中心zと分散Φとをもった正規分布を形成する。従って、第1変量sと第2変量tとの何れか一方を隠れ変数とする代わりに、画像特徴量xと単語特徴量yとの組み合わせごとに取得される正規分布の中心zを隠れ変数として利用すれば、実世界情報と当該実世界情報に対応したシンボルとを結びつける抽象的概念をより一層適正なものとすることができる。
この場合、1組の画像特徴量xiと単語特徴量yiとが正準空間において形成する正規分布の中心をziとし、当該正規分布の分散をΦxyとすれば、中心ziは、上記式(101)のように表すことが可能であり、分散Φxyは、上記式(102)のように表すことができる。ただし、式(101)および(102)において、Λ2は固有値を対角要素とする対角行列であり、MxおよびMyは、Mxy T=Λを満たすと共にスペクトルノルムが値1未満となる任意の行列であって、ここでは、Mx=Λβ,My=Λ1-β(ただし、“β”は、0<β<1を満たす画像特徴量への重みを示す変数である。)という単純な対角行列とされる。また、分散Φxyを用いれば、ある1組の画像特徴量xiおよび単語特徴量yiから任意の隠れ変数zが出現する確率P(z|xi,yi)を上記(6)式と同様にして次式(112)のように表すことができる。更に、任意の画像特徴量xが正準空間において形成する正規分布の分散をΦxとし、当該正規分布の中心をzcとすれば、それぞれ上記式(104)のように表される分散Φxと中心zcとを用いて画像特徴量xから隠れ変数zが出現する確率P(z|x)を次式(113)のように表すことができる。そして、確率P(z|xi,yi)と確率P(z|x)とを用いれば、隠れ変数ziから任意の画像特徴量xが出現する確率P(x|zi)を次式(114)のように表すことが可能であり、式(114)を変形することにより、隠れ変数ziから任意の画像特徴量xが出現する確率を示す上記式(103)の確率密度分布P(x|zi)が得られる。
Figure 0005234469
このように、画像特徴量xiと単語特徴量yiとの組み合わせごとに取得される正規分布の中心ziを隠れ変数として利用すれば、当該隠れ変数ziから任意の画像特徴量xが出現する確率をより適正なものとして得ることが可能となる。また、正規分布の中心ziを隠れ変数として利用すれば、上述の変数βを適正に設定することでタスクに応じた画像特徴量への重み付けを実行することができるので、パラメータチューニングを比較的容易かつ安定なものとすることができる。このように正規分布の中心ziを隠れ変数として利用する場合に適用可能な変形例に係る初期学習ルーチンを図19に示す。図19の初期学習ルーチンにおいては、ステップS130にて射影行列AおよびBが算出された後に、隠れ変数ziと確率密度分布P(x|zi)とを同時に得ることができる(ステップS145)。なお、図19のステップS165では、ステップS100にて入力した単語群データに含まれる全単語のそれぞれについての生起確率P(w|zi)すなわち隠れ変数ziから単語特徴量wが出現する確率を図6のステップS160と同様に上記式(7)あるいは上記式(8)に従って算出すればよい(この場合、式(7)または(8)におけるsziはziである。)。
〔アノテーションやリトリーバルの高速化〕
上述のアノテーションルーチンやリトリーバルルーチンの実行に際して、1つの未注釈画像データのアノテーションやリトリーバルに要する計算コストは、学習済みの画像データ(画像特徴量)の数に比例する。従って、画像データ処理システム20の規模が大きくなり、取り扱い対象となる画像データ数が増加すればするほど、アノテーションやリトリーバルに要する計算コストが増大化することになる。ここで、図10のアノテーションルーチンや図12のリトリーバルルーチンでは、1つの未注釈画像データについて、すべての単語特徴量(全単語)やすべての隠れ変数(si)との類似度を求めているが(ステップS230,S320)、実際のところ、多数の単語特徴量や隠れ変数のうちの大部分は、正準空間上で学習済みの画像データから遠く離れており、アノテーションやリトリーバルの精度に寄与しないものと考えられる。従って、初期学習に際して正準空間を予めベクトル量子化して構造化を図っておくことで、アノテーションやリトリーバルの精度を低下させることなく計算速度を大幅に向上させることが可能となるであろう。
これを踏まえて、変形例に係る図19の初期学習ルーチンでは、ステップS145にて隠れ変数ziが導出された後に、学習処理部35により、K平均法やmean-shift法といった適切なクラスタリング手法を用いたすべての隠れ変数ziに対するクラスタリングが実行される(ステップS155)。これにより、図20に示すように正準空間において離散している多数の隠れ変数ziは、図21に示すように複数(κ個、ただしκ<<nである。)のクラスタに分類される。そして、ステップS155では、クラスタごとに代表ベクトルである代表隠れ変数zrk(ただし、k=1,…,κである。)が導出されると共に、各隠れ変数ziの所属クラスタを示す情報が導出され、これらのデータも学習用記憶装置41の所定の記憶領域に格納される。
図22は、図19の初期学習ルーチンが実行されている場合に適用可能な変形例に係るアノテーションルーチンを示すフローチャートである。図22のアノテーションルーチンの実行に際して、アノテーション処理部36は、図9と同様のデータ入力処理(ステップS200)と、新奇画像特徴量xnewの抽出・記憶処理(ステップS210)とを実行した後、代表隠れ変数zrkごとに(クラスタごとに)当該代表隠れ変数zrkから新奇画像特徴量xnewが出現する確率P(xnew|zrk)を上記式(103)に従って算出した上で、確率P(xnew|zrk)が予め定められた閾値Pref以上となるクラスタを抽出する(ステップS215)。ここで、確率P(xnew|zrk)は、図23に示すように、新奇画像特徴量xnewを正準空間上に射影して得られる隠れ変数znewと各クラスタの代表隠れ変数zrkとの近さを示すものであり、ステップS215では、式(103)のxにxnewを、ziにzrkを、zcにznewを代入することにより確率P(xnew|zrk)が算出される。また、znewは、新奇画像特徴量xnewを式(104)のxに代入して得られるものである。すなわち、ステップS215では、確率P(xnew|zrk)と閾値Prefと比較することにより、新奇画像特徴量xnewに対応した隠れ変数znewと代表隠れ変数zrkとの近さが所定度合以下となるクラスタを抽出するのである。なお、図23の例では、図示された4個のクラスタの中から代表隠れ変数zr1およびzr3に対応したクラスタが抽出されることになる。
確率P(xnew|zrk)が閾値Pref以上となるクラスタを抽出した後、アノテーション処理部36は、抽出したクラスタに所属するすべての隠れ変数ziごとに、上記式(103)を用いて隠れ変数siから新奇画像特徴量xnewが出現する確率P(xnew|zi)を算出する(ステップS225)。更に、アノテーション処理部36は、単語特徴量wごとに(全単語のそれぞれについて)次式(115)に従って画像特徴量xnewから単語特徴量wが出現する確率P(w|xnew)を算出する(ステップS235)。ただし、式(115)において、Ωは、ステップS215にて抽出されたクラスタに所属する隠れ変数ziの集合を示す。こうして全単語(全単語特徴量w)のそれぞれについて確率P(w|xnew)を算出すると、アノテーション処理部36は、所定の判定基準に従い、確率P(w|xnew)の高い順に単語特徴量wにより示される単語を抽出する(ステップS240)。そして、アノテーション処理部36は、ステップS240にて抽出した単語に基づいて、新奇画像特徴量xnewに対応した新奇単語特徴量ynewや単語特徴量wを設定すると共に新奇画像データに対応した新奇単語群データを設定し、これらのデータを特徴量記憶装置40やデータ記憶装置21に格納した後(ステップS250)、本ルーチンを終了させる。このように、代表隠れ変数zrkから新奇画像特徴量xnewが出現する確率P(xnew|zrk)が閾値Pref以上となるクラスタに所属する隠れ変数ziを用いて、新奇画像特徴量xnewから単一の単語についての単語特徴量wが出現する確率を算出することにすれば、アノテーションの精度に寄与しない隠れ変数zi(画像特徴量xおよび単語特徴量うの組合わせ)についての確率の計算を省略することが可能となるので、アノテーションの精度を維持しつつ計算負荷を軽減して処理の高速化を図ることができる。
Figure 0005234469
図24は、図19の初期学習ルーチンが実行されている場合に適用可能な変形例に係るリトリーバルルーチンを示すフローチャートである。図24のリトリーバルルーチンの実行に際して、リトリーバル処理部38は、図12と同様のデータ入力処理(ステップS300)と、検索用単語特徴量ynewの設定・記憶処理(ステップS310)とを実行した後、代表隠れ変数zrkごとに(クラスタごとに)当該代表隠れ変数zrkから未注釈画像特徴量xjが出現する確率P(xj|zrk)を上記式(103)に従って算出した上で、確率P(xj|zrk)が予め定められた閾値Pref以上となるクラスタを抽出する(ステップS315)。ここで、確率P(xj|zrk)は、未注釈画像特徴量xjを正準空間上に射影して得られる隠れ変数zjと各クラスタの代表隠れ変数zrkとの近さを示すものであり、ステップS315では、式(103)のxにxjを、ziにzrkを、zcにzjを代入することにより確率P(xj|zrk)が算出される。また、zjは、未注釈画像特徴量xjを式(104)のxに代入して得られるものである。すなわち、ステップS315では、確率P(xj|zrk)と閾値Prefと比較することにより、未注釈画像特徴量xjに対応した隠れ変数znewと代表隠れ変数zrkとの近さが所定度合以下となるクラスタを抽出するのである。
確率P(xj|zrk)が閾値Pref以上となるクラスタを抽出した後、リトリーバル処理部38は、抽出したクラスタに所属するすべての隠れ変数ziごとに、隠れ変数ziから未注釈画像特徴量xjが出現する確率P(xj|zi)と隠れ変数ziから検索用単語特徴量ynewが出現する確率P(ynew|zi)とを算出する(ステップS325)。更に、リトリーバル処理部38は、次式(116)に従って未注釈画像データxjごとに未注釈画像データxjから検索用単語特徴量ynewが出現する確率P(ynew|xj)を算出する(ステップS335)。ただし、式(116)において、Ωjは、ステップS315にて抽出されたクラスタに所属する隠れ変数ziの集合を示す。こうして未注釈画像データxjごとに確率P(ynew|xj)を算出すると、リトリーバル処理部38は、所定の判定基準に従い、確率P(ynew|xj)の高い順に未注釈画像特徴量xjに対応した未注釈画像データをデータ記憶装置21から読み出し(ステップS340)、結果出力部39に与える。そして、結果出力部39がリトリーバル処理部38からの未注釈画像データに基づいて問い合わせ先である端末50等に対して所定の態様でリトリーバル処理の結果を通知すると(ステップS350)、本ルーチンが終了することになる。
Figure 0005234469
このように、代表隠れ変数zrkから未注釈画像特徴量xjが出現する確率P(xj|zrk)が閾値Pref以上となるクラスタに所属する隠れ変数ziを用いて、未注釈画像特徴量xjから検索用単語特徴量ynewが出現する確率P(ynew|xj)を算出することにすれば、リトリーバルの精度に寄与しない隠れ変数zi(画像特徴量xおよび単語特徴量yの組合わせ)についての確率の計算を省略することが可能となるので、リトリーバルの精度を維持しつつ計算負荷を軽減して処理の高速化を図ることができる。なお、ここまで、隠れ変数が1組の画像特徴量xiと単語特徴量yiとが正準空間において形成する正規分布の中心ziである場合を例にとって説明したが、図19の初期学習ルーチンや図22のアノテーションルーチン、図24のリトリーバルルーチンは、隠れ変数として第1変量siまたは第2変量tiを用いた場合にも同様にして適用され得る。
〔学習情報更新ルーチンの変形例〕
図25は、変形例に係る学習情報更新ルーチンを示すフローチャートである。同図に示す学習情報更新ルーチンは、図14の学習情報更新ルーチンにおけるステップS440〜S470の処理を以下に説明するステップS445およびS475の処理に置き換えたものに相当し、図25の学習情報更新ルーチンの実行に際して、学習処理部35は、まずステップS400〜S430の処理を実行する。ここでは、ステップS430の処理が完了した段階で、n−1個の画像特徴量x(1),…,x(i),…,x(n−1)および単語特徴量y(1),…,y(i),…,y(n−1)の組み合わせと、n番目の新奇画像特徴量x(n)および新奇単語特徴量y(n)の組み合わせが存在しているものとする。
ステップS430の処理の後、学習処理部35は、単語特徴量yの次元qが不変である場合、すなわち新奇単語特徴量y(n)にそれまで特徴量記憶装置40に記憶されていない単語特徴量w(全く新奇な単語)が含まれていない場合には、ステップS445にて、上記式(105)に従って共分散行列Cxx,Cyy,Cxy,Cyxを更新する。ただし、n≧2であるものとし、x〜(n)およびy〜(n)は、上記式(106)に示すとおりであり、mx(n)およびmy(n)は、上記式(107)に示すとおりである。また、単語特徴量yの次元qが増加している場合、すなわち新奇単語特徴量y(n)にそれまで特徴量記憶装置40に記憶されていない単語特徴量w(全く新奇な単語)が含まれている場合には、全く新奇な単語特徴量wがそれまでの特徴ベクトルの末尾に加わるものとして、単語特徴量yに関連した共分散行列を上記式(108)に従って更新する。ただし、my(n)は、上記式(109)に示すとおりである。なお、一般的には新奇画像特徴量x(n)および新奇単語特徴量y(n)の出現に伴って画像特徴量xの次元pが増加することは稀ではあるが、画像特徴量xの次元pが増加した場合には、次式(117)および(118)を用いて対処することができる。こうして共分散行列Cxx,Cyy,Cxy,Cyxを更新したならば、上記式(3)の固有値問題を解くことにより新奇画像および単語特徴量xnew,ynewの組み合わせに対応した新たな射影行列A(n)およびB(n)を設定すると共に学習用記憶装置41に格納する(ステップS475)。そして、学習処理部35は、新奇画像特徴量xnewおよび単語特徴量ynewを含む画像および単語特徴量xi,yiや新たな射影行列A(n)およびB(n)を用いて隠れ変数ziや、隠れ変数ziごとの確率密度分布、確率P(w|zi)を更新すると共に、更新した情報を学習用記憶装置41に格納し(ステップS480)、本ルーチンを終了させる。
Figure 0005234469
このように、新奇画像特徴量xnewおよび単語特徴量ynewとの組み合わせが出現するたびに、共分散行列Cxx,Cyy,Cxy,Cyxのみを逐次的に更新していくことにより、処理の収束性や安定度を向上させながら、射影行列A(n)およびB(n)や隠れ変数zi、確率密度分布といった情報をより適正なものへと更新していくことが可能となる。更に、共分散行列Cxx,Cyy,Cxy,Cyxのみを逐次的に更新しながら隠れ変数ziを導出するための射影行列A(n)およびB(n)等を更新すれば、新奇画像特徴量xnewおよび単語特徴量ynewの出現に伴う単語特徴量yの次元qの増加に対応することが可能となる。また、共分散行列Cxx,Cyy,Cxy,Cyxの算出に要する計算コストは、本来(p2+q2+pq)・nに比例することになり、画像データ処理システム20の規模が大きくなって取り扱い対象となる画像データ数すなわち値nが増加すればするほど、n>>p,qとなり処理負担が増大化してしまう。これに対して、上述のように共分散行列Cxx,Cyy,Cxy,Cyxのみを逐次的に更新していく場合、それに要する計算コストは(p2+q2+pq)に比例することになるので、画像データ数すなわち値nの計算コストに対する影響をより小さくすることができる。従って、図25の学習情報更新ルーチンを採用すれば、学習情報の更新に要する計算負荷をより一層軽減することが可能となる。なお、図25の学習情報更新ルーチンが隠れ変数として第1変量siまたは第2変量tiを用いた場合にも同様にして適用され得ることはいうまでもない。
〔画像特徴量に関する変形例〕
上述の画像データ処理システム20において取り扱われる画像データは、基本的には、アノテーションやリトリーバルといった用途のために作成されたものではなく、様々な照明条件下で取得(撮影)されたものであり、画像の画素値(RGB値)は、周囲の明るさや照明による影響を受けているものと考えられる。従って、より精度の高い初期学習やアノテーション、リトリーバルを実行するためには、画像特徴量から照明条件等の影響をできるだけ取り除くことが要求される。ここで、画像特徴量に対する照明条件等の影響を緩和するためには、例えばカラー画像からカラーHLACを画像特徴量として抽出する場合、オリジナルの画像データに加えて、各画素値に次式(119)に示すようなシグモイド関数を用いた閾値処理が施された画像データを用意するとよい。式(119)は、画素値が255階調であるときのシグモイド関数であり、式(119)において、fnewは、処理後の画素値であり、fは各画素値であり、ftは閾値であり、γは平滑化の程度を決定するためのパラメータである。このような閾値処理は、閾値の前後に平滑化を加えた二値化処理として解釈され得るものであり、かかる閾値処理を採用することにより、照明条件等による画素値の変化により頑健な加工画像データを得ることができる。そして、オリジナルの画像データから抽出されるカラーHLACと、閾値処理を施した加工画像データから抽出されるカラーHLACとの双方を画像特徴量xとして用いればよい。この場合、オリジナルの画像データから抽出されるカラーHLACをxoとし、加工画像データから抽出されるカラーHLACをxpとすれば、画像特徴量xを次式(120)のように得ることができる。これにより、オリジナルの画像データから抽出されたカラーHLACのみを画像特徴量として用いた場合に比べて、アノテーション/リトリーバルにおける性能をより向上させることができる。
Figure 0005234469
また、画像特徴量としては、HLAC以外に、画像データから抽出される各画素の輝度勾配方向を用いてもよい。このように、輝度値そのものではなく、輝度勾配を用いることにより、画像特徴量を照明条件等による全体的な明度の変化に対してより頑健なものとすることができる。ここで、画像の任意の点(画素)の座標を(u,v)とすれば、グレイスケール画像については、当該任意の点における輝度勾配方向θを次式(121)のように表すことが可能である。また、カラー画像については、当該任意の点におけるRGB各色の輝度勾配方向θr,θgおよびθbを次式(122)のように表すことができる。ただし、式(121)および(122)において、I,Ir,IgおよびIbは、画素値(R,G,Bの画素値)である。そして、対象となる画像データのすべての画素について輝度勾配方向θ(θr,θgおよびθb)を計算し、すべての輝度勾配方向θを適切なビン数で区切ってヒストグラム化することにより、画像データの各画素の輝度勾配方向に基づく画像特徴量を得ることができる。なお、このような輝度勾配方向に基づく画像特徴量の次元は、グレースケール画像については、上記ビン数と一致し、カラー画像の場合、上記例ではビン数の3倍の数値となる。
Figure 0005234469
なお、本発明の適用対象は、画像データと単語群データとの組み合わせに限られるものではない。すなわち、実世界情報を示す第1データは、画像データのような視覚情報を示すものに限られず、聴覚情報を示す音声データや他の五感に関連した情報を示すデータであってもよく、第2データは、実世界情報に対応したシンボルを示すものであれば、単語以外のシンボルを示すものであってもよい。また、上記実施例では、高次局所自己相関特徴を示すベクトルを画像特徴量(第1特徴量)として利用しているが、第1特徴量は、高次局所自己相関特徴以外の他の構造の特徴を示すものであってもよい(なお、高次局所自己相関特徴は、音声データの特徴量としても利用され得る)。更に、単語特徴量も上述の構造のものに限られず、第2特徴量としては、任意の構造の特徴が利用され得る。そして、上記実施例は、実世界情報を示す第1データとしての画像データと、実世界情報に対応したシンボルを示す第2データとしての単語群データとの組み合わせを取り扱う画像データ処理システムに係るものであったが、本発明は、例えばロボット装置に適用されてもよい。
図26は、本発明の他の実施例に係るロボット装置200の概略構成図である。同図に示すロボット装置200は、人工知能を有するいわゆる人型ロボットであり、人間の目に相当する撮像ユニット210や人間の耳に相当する集音ユニット220、人間の手に相当するマニピュレータや脚部等の可動部を動かすための多数のアクチュエータ230、人工知能として機能する制御コンピュータ300等を含む。そして、制御コンピュータ300は、CPU,ROM,RAM、システムバス、各種インターフェース、記憶装置等を含むものであり、制御コンピュータ300には、これらのハードウェアと本発明による対応関係学習用プログラムやアノテーション用プログラム、リトリーバル用プログラムといったソフトウェアとの一方または双方の協働により、第1特徴量抽出部310、第2特徴量抽出部320、入出力処理部330、学習処理部340、アノテーション処理部350、リトリーバル処理部360、主制御部370等が構築されている。また、制御コンピュータ300には、画像データや音声データ等を記憶するデータ記憶装置400や、特徴量記憶装置410や学習用記憶装置420が接続されている。
第1特徴量抽出部310は、撮像ユニット210により取得された画像データや集音ユニット220により取得された音声データからそのデータの特徴を示す第1特徴量(例えばHLACに基づく特徴量)を抽出し、特徴量記憶装置410に格納する。第2特徴量抽出部320は、画像データや音声データに対応付けられて画像に現れているものや音声の意味するところを示すシンボルについてのシンボルデータからそのデータの特徴を示す第2特徴量を抽出し、特徴量記憶装置410に格納する。入出力処理部330は、ロボット装置200に対して入出力される情報を処理するものであり、例えば人間からの音声による指令が集音ユニット220により取得されると集音ユニット220からの音声データを適宜処理して主制御部370に与える。学習処理部340は、第1および第2特徴量の組み合わせを複数用いた正準相関分析を実行して画像データや音声データとシンボルデータとの関係を学習すると共に、シンボルデータとの対応付けがなされていない未注釈画像データや未注釈音声データにメタデータとしてのシンボルを付与するアノテーションやシンボルに基づく未注釈画像データ等の検索(リトリーバル)に必要な学習情報を取得し、取得した学習情報を学習用記憶装置420に格納する。また、学習処理部340は、新奇画像データと新奇シンボルデータとの組み合わせが出現すると、当該新奇組み合わせに基づいて学習情報を更新する。アノテーション処理部350は、学習用記憶装置420に記憶された学習情報に基づいて未注釈画像データや未注釈音声データに対するアノテーションを実行する。リトリーバル処理部360は、シンボルに基づく未注釈画像データや未注釈音声データの検索処理(リトリーバル)を実行する。主制御部370は、入出力処理部330からの指令や、アノテーション処理部350の処理結果、リトリーバル処理部360の処理結果等に基づいてロボット装置200の動作態様を決定する等してアクチュエータ230を制御する。
このように構成されたロボット装置200では、上述の初期学習ルーチンを実行しておいて学習情報を学習用記憶装置420に記憶させておくことにより、撮像ユニット210により取得された画像データや集音ユニット220により取得された音声データに対してシンボルを割り付けるアノテーションを実行することが可能となり、アノテーション結果に基づいて学習情報を更新していくこともできる。これにより、ロボット装置200に、取得した実世界情報すなわち見聞きした事柄が何を示すか高速かつ精度よく判断させることが可能となる。また、撮像ユニット210により取得された画像データや集音ユニット220により取得された音声データをデータ記憶装置400に格納した上で、格納された画像データや音声データをシンボルに基づいて検索することにより、ロボット装置200に実世界情報すなわち見聞きした事柄をいつどこで取得したか高速かつ精度よく判断させることも可能となる。従って、本発明をロボット装置に対して適用すれば、ロボット装置の自律的行動をより一層人間の行動に近いものとすると共に、ロボット装置の知能レベルをより一層向上させることが可能となる。
以上、実施例を用いて本発明の実施の形態について説明したが、本発明は上記実施例に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において、様々な変更をなし得ることはいうまでもない。
本発明は、実世界情報とそれに対応したシンボルとを取り扱う情報処理分野において有用である。

Claims (37)

  1. 実世界情報と該実世界情報に対応したシンボルとの関係を学習する対応関係学習装置であって、
    実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量を複数記憶する第1特徴量記憶手段と、
    前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量を複数記憶する第2特徴量記憶手段と、
    前記第1および第2特徴量の組み合わせを複数用いた正準相関分析を実行し、前記第1および第2特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得する正準相関分析手段と、
    前記正準相関分析手段により取得された前記変換を記憶すると共に、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数を記憶する分析結果記憶手段と、
    前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する条件付き確率と該隠れ変数から任意の第2特徴量が出現する条件付き確率とを得るために必要な情報を導出する情報導出手段と、
    前記情報導出手段により導出された情報を記憶する情報記憶手段と、
    を備え
    前記情報導出手段は、少なくとも、前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する条件付き確率を示す確率密度分布を設定する確率密度分布設定手段と、
    すべての第2データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する条件付き確率であるシンボル生起確率を算出するシンボル生起確率算出手段とを含み、
    前記情報記憶手段は、前記隠れ変数ごとに、少なくとも前記確率密度分布と前記シンボル生起確率とを前記情報として記憶する対応関係学習装置。
  2. 請求の範囲1に記載の対応関係学習装置において、
    前記正準相関分析手段は、前記第1特徴量を正準空間に射影して得られる変量を第1変量とすると共に前記第1特徴量から前記第1変量を得るための変換を第1変換とし、前記第2特徴量を正準空間に射影して得られる変量を第2変量とすると共に前記第2特徴量から前記第2変量を得るための変換を第2変換としたときに、正準相関分析により前記第1変量と前記第2変量との相関を最大にする第1および第2変換を取得し、
    前記分析結果記憶手段は、前記取得された第1および第2変換を記憶すると共に、該第1または第2変換により前記第1または第2特徴量を正準空間に射影して得られる第1または第2変量を前記隠れ変数として記憶する対応関係学習装置。
  3. 請求の範囲2に記載の対応関係学習装置において、
    前記正準相関分析手段は、前記第1特徴量をxi(ただし、i=1,…,nである。以下同様)とし、前記第2特徴量をyiとし、前記第1変量をsiとし、前記第2変量をtiとしたときに、前記第1変換が次式(1)を満たすと共に前記第2変換が次式(2)を満たすものとし、次式(3)の固有値問題を解くことにより式(1)における射影行列Aを前記第1変換として求めると共に式(2)における射影行列Bを前記第2変換として取得する対応関係学習装置。ただし、式(3)において、Λ2は固有値を対角要素とする対角行列であり、Iは単位行列であり、共分散行列Cxx,Cyy,Cxy,Cyxは、式(4)に示すとおりである。
    Figure 0005234469
  4. 請求の範囲1に記載の対応関係学習装置において、
    前記正準相関分析手段は、前記第1特徴量を正準空間に射影して得られる変量を第1変量とすると共に前記第1特徴量から前記第1変量を得るための変換を第1変換とし、前記第2特徴量を正準空間に射影して得られる変量を第2変量とすると共に前記第2特徴量から前記第2変量を得るための変換を第2変換としたときに、正準相関分析により前記第1変量と前記第2変量との相関を最大にする第1および第2変換を取得すると共に、1組の前記第1および第2特徴量が正準空間において形成する正規分布の中心を取得し、
    前記分析結果記憶手段は、前記取得された第1および第2変換を記憶すると共に、前記第1特徴量と前記第2特徴量との組み合わせごとに取得される前記正規分布の中心を前記隠れ変数として記憶する対応関係学習装置。
  5. 請求の範囲4に記載の対応関係学習装置において、
    前記正準相関分析手段は、前記第1特徴量をxiとし、前記第2特徴量をyiとし、前記第1変量をsiとし、前記第2変量をtiとしたときに、前記第1変換が次式(1)を満たすと共に前記第2変換が次式(2)を満たすものとし、次式(3)の固有値問題を解くことにより式(1)における射影行列Aを前記第1変換として求めると共に式(2)における射影行列Bを前記第2変換として取得し、前記正規分布の中心をziとしたときに、次式(101)に従って前記第1特徴量xiと前記第2特徴量yiとの組み合わせごとに前記正規分布の中心ziを取得する対応関係学習装置。ただし、式(3)において、Λ2は固有値を対角要素とする対角行列であり、Iは単位行列であり、共分散行列Cxx,Cyy,Cxy,Cyxは、式(4)に示すとおりであり、式(101)において、Λ2は固有値を対角要素とする対角行列であり、MxおよびMyは、Mxy T=Λを満たすと共にスペクトルノルムが値1未満となる任意の行列である。
    Figure 0005234469
  6. 請求の範囲に記載の対応関係学習装置において、
    前記確率密度分布設定手段は、前記隠れ変数を中心とした正規分布を前記確率密度分布として設定する対応関係学習装置。
  7. 請求の範囲に記載の対応関係学習装置において、
    前記確率密度分布設定手段は、任意の第1特徴量をxとすると共に前記隠れ変数をsiとしたときに、次式(5)に従って隠れ変数siから任意の第1特徴量xが出現する条件付き確率を示す確率密度分布P(x|si)を設定する対応関係学習装置。ただし、式(5)において、“p”は第1特徴量xの次元であり、Wx=CxxA,ξx=Cxx−WxT xである。
    Figure 0005234469
  8. 請求の範囲に記載の対応関係学習装置において、
    前記確率密度分布設定手段は、任意の第1特徴量をxとし、前記隠れ変数をsiとし、前記任意の第1特徴量xを正準空間に射影して得られる変量をsとしたときに、次式(6)に従って隠れ変数siから任意の第1特徴量xが出現する条件付き確率を示す確率密度分布P(x|si)を設定する対応関係学習装置。ただし、式(6)において、“m”は正準空間の次元(sやsiの次元)であり、“Σ”は分散である。
    Figure 0005234469
  9. 請求の範囲4に記載の対応関係学習装置において、
    前記確率密度分布設定手段は、任意の第1特徴量をxとし、任意の第2特徴量をyとすると共に前記隠れ変数をziとし、1組の前記第1および第2特徴量x,yが正準空間において形成する正規分布の分散をΦxyとしたときに、次式(102)に従って分散Φxyを取得すると共に、次式(103)に従って前記隠れ変数ziごとに該隠れ変数ziから任意の第1特徴量xが出現する条件付き確率を示す確率密度分布P(x|zi)を設定し、
    前記情報記憶手段は、前記隠れ変数ごとに、前記確率密度分布P(x|zi)と前記シンボル生起確率とを前記情報として記憶する対応関係学習装置。ただし、式(103)において、“K”は、確率の総和を値1にするための規格化定数であり、Φxは任意の第1特徴量xが正準空間において形成する正規分布の分散であり、zcは、当該正規分布の中心であり、それぞれ式(104)に示すとおりである。
    Figure 0005234469
  10. 請求の範囲またはに記載の対応関係学習装置において、
    前記シンボル生起確率算出手段は、単一のシンボルのみを示す前記第2データの第2特徴量をwとし、前記隠れ変数siまたはziをsziと表したときに、すべての第2データ中の互いに異なるシンボルのそれぞれについて次式(7)に従って隠れ変数sziから第2特徴量wが出現する条件付き確率P(w|szi)を前記シンボル生起確率として算出する対応関係学習装置。ただし、式(7)において、“n”は第2データに出現するシンボルの総数であり、“nw”はすべての第2データにおける第2特徴量wに対応したシンボルの出現回数であり、“nszi”は隠れ変数sziに対応した第2特徴量に含まれるシンボルの総数であり、δW,sziは特徴量wに対応したシンボルが隠れ変数sziに対応した第2特徴量に含まれていれば値1とされ、含まれていなければ値0とされる変数であり、“μ”は値0から値1までの範囲から選択される実数値である。
    Figure 0005234469
  11. 請求の範囲またはに記載の対応関係学習装置において、
    前記シンボル生起確率算出手段は、前記第2特徴量をyiとし、単一のシンボルのみを示す前記第2データの第2特徴量をwとし、前記第2特徴量yiを正準空間に射影して得られる第2変量をtiとし、前記隠れ変数siまたはziをsziと表したときに、すべての第2データ中の互いに異なるシンボルのそれぞれについて次式(8)に示す確率P(w|szi)を前記シンボル生起確率として算出する対応関係学習装置。ただし、式(8)において、“q”は第2特徴量wの次元であり、Wy=CyyB,ξy=Cyy−WyT yである。
    Figure 0005234469
  12. 請求の範囲1に記載の対応関係学習装置において、
    新奇第1特徴量と該新奇第1特徴量に対応した新奇第2特徴量との組み合わせが出現したときに、前記新奇第1特徴量と前記新奇第2特徴量とに基づいて少なくとも前記隠れ変数を導出するための前記変換を更新する情報更新手段を更に備える対応関係学習装置。
  13. 請求の範囲12に記載の対応関係学習装置において、
    前記情報更新手段は、
    任意の第1特徴量を主成分分析により無相関化して得られる成分を第1無相関化成分としたときに、前記新奇第1特徴量についての第1無相関化成分である新奇第1無相関化成分の取得処理を実行する第1無相関化成分取得手段と、
    任意の第2特徴量を主成分分析により無相関化して得られる成分を第2無相関化成分としたときに、前記新奇第2特徴量についての第2無相関化成分である新奇第2無相関化成分の取得処理を実行する第2無相関化成分取得手段と、
    前記取得された新奇第1無相関化成分および新奇第2無相関化成分に基づいて、前記第1および第2無相関化成分の共分散行列についての特異値分解処理を実行する特異値分解実行手段と、
    前記第1および第2無相関化成分取得手段による前記取得処理の結果と前記特異値分解実行手段による前記特異値分解処理の結果とに基づいて前記隠れ変数を導出するための前記変換を更新する変換更新手段とを含み、
    前記分析結果記憶手段は、前記更新された変換を記憶すると共に、該更新された変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数を記憶し、
    前記情報導出手段は、前記取得された隠れ変数ごとに前記情報を更新する対応関係学習装置。
  14. 請求の範囲13に記載の対応関係学習装置において、
    n−1個の第1特徴量x(1),…,x(i),…,x(n−1)および第2特徴量y(1),…,y(i),…,y(n−1)の組み合わせが存在している状態でn番目の新奇第1特徴量x(n)および新奇第2特徴量y(n)の組み合わせが出現したとすると共に、第1特徴量x(i)の次元をpとし、第2特徴量y(i)の次元をqとし、min{p,q}をrとし、忘却率をlとし、新奇第1無相関化成分をu(n)とし、新奇第2無相関化成分をv(n)としたときに、
    前記第1無相関化成分取得手段は、新奇第1特徴量x(n)を含むn個の第1特徴量x(i)についての固有値問題Cxxx=ExΛxの解である次式(9)に示す行列Ex(n)および対角行列Λx(n)と新奇第1無相関化成分u(n)とを取得し(ただし、式(9)において、j=1,…,pであり、x1〜(n)=x(n)−mx(n)であり、mx(n)はn個の第1特徴量x(i)の平均である。)、
    前記第2無相関化成分取得手段は、新奇第2特徴量y(n)を含むn個の第2特徴量y(i)についての固有値問題Cyyy=EyΛyの解である次式(10)に示す行列Ey(n)および対角行列Λy(n)と新奇第2無相関化成分v(n)とを取得し(ただし、式(10)において、j=1,…,qであり、y1〜(n)=y(n)−my(n)であり、my(n)はn個の第1特徴量x(i)の平均である。)、
    前記特異値分解実行手段は、前記取得された新奇第1無相関化成分u(n)および新奇第2無相関化成分v(n)に基づいて次式(11)に示す行列Eu(n)およびEv(n)を取得し(ただし、式(11)において、j=1,…,rであり、Zuj(n)はn個の第1および第2無相関化成分の組み合わせに基づく第1無相関化成分についてのj番目の正準相関係数ベクトルであり、Zvj(n)はn個の第1および第2無相関化成分の組み合わせに基づく第2無相関化成分についてのj番目の正準相関係数ベクトルである。)、
    前記分析結果更新手段は、前記第1および第2無相関化成分取得手段により取得された行列Ex(n),Ey(n)および対角行列Λx(n),Λy(n)と、前記特異値分解実行手段により取得された行列Eu(n),Ev(n)とに基づいて前記第1特徴量x(i)を正準空間に射影するための第1変換A(n)と前記第2特徴量y(i)を正準空間に射影するための第2変換B(n)とを次式(12)に従って新たな前記変換として取得する対応関係学習装置。
    Figure 0005234469
  15. 請求の範囲3または5に記載の対応関係学習装置において、
    n−1個の第1特徴量x(1),…,x(i),…,x(n−1)および第2特徴量y(1),…,y(i),…,y(n−1)の組み合わせが存在している状態でn番目の新奇第1特徴量x(n)および新奇第2特徴量y(n)の組み合わせが出現したときに、次式(105)に従って共分散行列Cxx,Cyy,Cxy,Cyxを更新すると共に、前記式(3)の固有値問題を解くことにより前記隠れ変数を導出するための前記変換を更新する情報更新手段を更に備える対応関係学習装置。ただし、n≧2であり、“l”は、忘却率であり、x〜(n)およびy〜(n)は、次式(106)に示すとおりであり、mx(n)およびmy(n)は、次式(107)に示すとおりである。
    Figure 0005234469
  16. 請求の範囲15に記載の対応関係学習装置において、
    前記情報更新手段は、前記新奇第1特徴量x(n)および前記新奇第2特徴量y(n)の出現に伴って前記第2特徴量の次元が増加した場合には、該第2特徴量に関連した共分散行列を次式(108)に従って更新する対応関係学習装置。ただし、my(n)は、次式(109)に示すとおりである。
    Figure 0005234469
  17. 請求の範囲1に記載の対応関係学習装置において、
    前記第1特徴量は、前記第1データの高次局所自己相関特徴を示す対応関係学習装置。
  18. 請求の範囲1に記載の対応関係学習装置において、
    前記第1データは画像データであり、前記第1特徴量は、前記画像データの各画素の輝度勾配方向に基づいて定められる対応関係学習装置。
  19. 請求の範囲1に記載の対応関係学習装置において、
    前記第2特徴量は、すべての第2データから抽出される互いに異なるシンボルの配列に対して、対象となる第2データに対象となるシンボルが含まれていれば値0以外の所定値を付与すると共に、含まれていなければ値0を付与することにより設定される対応関係学習装置。
  20. 請求の範囲1に記載の対応関係学習装置において、
    前記第1データは画像データであり、前記第2データは、前記画像データの画像に現れているものを示す少なくとも1つの単語を前記シンボルとして含む対応関係学習装置。
  21. 請求の範囲1に記載の対応関係学習装置において、
    前記第1および第2特徴量の組み合わせごとに取得される複数の隠れ変数をクラスタリングして複数のクラスタに分類すると共に前記複数のクラスタごとに代表ベクトルを取得するクラスタリング手段を更に備え、
    前記情報記憶手段は、前記代表ベクトルと、前記隠れ変数の所属クラスタを示す情報とを記憶する対応関係学習装置。
  22. 実世界情報と該実世界情報に対応したシンボルとの関係を学習するための対応関係学習方法であって、
    (a)実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との組み合わせを複数用いた正準相関分析を実行し、前記第1および第2特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得して分析結果記憶手段に記憶させるステップと、
    (b)ステップ(a)にて取得した変換を用いて前記第1および第2特徴量の組み合わせごとに隠れ変数を取得して分析結果記憶手段に記憶させるステップと、
    (c)前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する条件付き確率と該隠れ変数から任意の第2特徴量が出現する条件付き確率とを得るために必要な情報を導出して情報記憶手段に記憶させるステップと、
    を含み、
    ステップ(c)は、少なくとも、前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する条件付き確率を示す確率密度分布を設定すると共に、すべての第2データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する条件付き確率であるシンボル生起確率を算出し、前記隠れ変数ごとに、少なくとも前記確率密度分布と前記シンボル生起確率とを前記情報として前記情報記憶手段に記憶させる対応関係学習方法。
  23. コンピュータを実世界情報と該実世界情報に対応したシンボルとの関係を学習する装置として機能させる対応関係学習用プログラムであって、
    実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との組み合わせを複数用いた正準相関分析を実行し、前記第1および第2特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得して分析結果記憶手段に記憶させる変換取得モジュールと、
    前記取得された変換を用いて前記第1および第2特徴量の組み合わせごとに隠れ変数を取得して分析結果記憶手段に記憶させる隠れ変数取得モジュールと、
    前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する条件付き確率と該隠れ変数から任意の第2特徴量が出現する条件付き確率とを得るために必要な情報を導出して情報記憶手段に記憶させる情報導出モジュールと、
    を備え
    前記情報導出モジュールは、少なくとも、前記隠れ変数ごとに該隠れ変数から任意の第1特徴量が出現する条件付き確率を示す確率密度分布を設定すると共に、すべての第2データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する条件付き確率であるシンボル生起確率を算出し、前記隠れ変数ごとに、少なくとも前記確率密度分布と前記シンボル生起確率とを前記情報として前記情報記憶手段に記憶させる対応関係学習用プログラム。
  24. 実世界情報にメタデータとしてのシンボルを付与するアノテーション装置であって、
    実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する条件付き確率および該隠れ変数から任意の第2特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段と、
    新奇第1データの入力を受け付ける入力受付手段と、
    前記受け付けられた新奇第1データに基づいて該新奇第1データの特徴を示す新奇第1特徴量を抽出する第1特徴量抽出手段と、
    前記学習情報記憶手段に記憶された学習情報を用いて、前記抽出された新奇第1特徴量から単一のシンボルのみを示す前記第2データの第2特徴量が出現する条件付き確率を算出する確率算出手段と、
    前記確率算出手段により算出された確率に基づいて前記新奇第1データに対してシンボルを割り付けるシンボル割付手段と、
    を備えるアノテーション装置。
  25. 請求の範囲24に記載のアノテーション装置において、
    前記隠れ変数は、前記第1または第2変換により前記第1または第2特徴量を正準空間に射影して得られる第1または第2変量であり、
    前記確率算出手段は、前記隠れ変数をsiとし、前記抽出された新奇第1特徴量をxnewとし、単一のシンボルのみを示す前記第2データの第2特徴量をwとし、新奇第1特徴量xnewから第2特徴量wが出現する条件付き確率をP(w|xnew)としたときに、確率P(w|xnew)を次式(13)に従って算出するアノテーション装置。ただし、式(13)において、P(xnew|si)は隠れ変数siから新奇第1特徴量xnewが出現する条件付き確率であり、P(w|si)は隠れ変数siから第2特徴量wが出現する条件付き確率である。
    Figure 0005234469
  26. 請求の範囲24に記載のアノテーション装置において、
    前記隠れ変数は、1組の前記第1および第2特徴量が正準空間において形成する正規分布の中心であり、
    前記確率算出手段は、前記隠れ変数をziとし、前記抽出された新奇第1特徴量をxnewとし、単一のシンボルのみを示す前記第2データの第2特徴量をwとし、新奇第1特徴量xnewから第2特徴量wが出現する条件付き確率をP(w|xnew)としたときに、確率P(w|xnew)を次式(110)に従って算出するアノテーション装置。ただし、式(110)において、P(xnew|zi)は隠れ変数ziから新奇第1特徴量xnewが出現する条件付き確率であり、P(w|zi)は隠れ変数ziから第2特徴量wが出現する条件付き確率である。
    Figure 0005234469
  27. 請求の範囲24に記載のアノテーション装置において、
    前記第1および第2特徴量の組み合わせごとに取得される複数の隠れ変数はクラスタリングにより複数のクラスタに分類されると共に、前記複数のクラスタごとに代表ベクトルが取得されており、
    前記学習情報記憶手段は、前記代表ベクトルと前記隠れ変数の所属クラスタを示す情報とを学習情報として記憶し、
    前記確率算出手段は、前記複数の隠れ変数のうち、前記代表ベクトルから前記新奇第1特徴量が出現する条件付き確率が所定の閾値以上となる前記クラスタに所属する前記隠れ変数を用いて、前記新奇第1特徴量から単一のシンボルのみを示す前記第2データの第2特徴量が出現する条件付き確率を算出するアノテーション装置。
  28. 請求の範囲24に記載のアノテーション装置において、
    前記シンボル割付手段は、所定の基準に従って前記確率が高い順に前記単一のシンボルのみを示す前記第2データの第2特徴量により示されるシンボルを抽出すると共に、抽出したシンボルに基づいて前記新奇第1特徴量に対応した新奇第2特徴量を設定するアノテーション装置。
  29. 請求の範囲24に記載のアノテーション装置において、
    前記新奇第1特徴量と前記新奇第2特徴量とに基づいて前記学習情報を更新する情報更新手段を更に備えるアノテーション装置。
  30. 実世界情報にメタデータとしてのシンボルを付与するためのアノテーション方法であって、
    (a)実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する条件付き確率および該隠れ変数から任意の第2特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶手段に記憶させるステップと、
    (b)前記記憶手段に記憶された前記学習情報を用いて、新奇第1データの特徴として抽出された新奇第1特徴量から単一のシンボルのみを示す前記第2データの第2特徴量が出現する条件付き確率を算出するステップと、
    (c)ステップ(b)にて算出した確率に基づいて前記新奇第1データに対してシンボルを割り付けるステップと、
    を含むアノテーション方法。
  31. 実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する条件付き確率および該隠れ変数から任意の第2特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段を備えたコンピュータを実世界情報にメタデータとしてのシンボルを付与する装置として機能させるアノテーション用プログラムであって、
    前記学習情報記憶手段に記憶された前記学習情報を用いて、新奇第1データの特徴として抽出された新奇第1特徴量から単一のシンボルのみを示す前記第2データの第2特徴量が出現する条件付き確率を算出する確率算出モジュールと、
    前記算出された確率に基づいて前記新奇第1データに対してシンボルを割り付けるシンボル割付モジュールと、
    を備えるアノテーション用プログラム。
  32. メタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とするリトリーバル装置であって、
    実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する条件付き確率および該隠れ変数から任意の第2特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段と、
    第2データとの対応付けがなされていない第1データである未注釈第1データを少なくとも1つ記憶する未注釈第1データ記憶手段と、
    前記未注釈第1データから該未注釈第1データの特徴として抽出された未注釈第1特徴量を記憶する未注釈第1特徴量記憶手段と、
    検索クエリとしての少なくとも1つのシンボルの入力を受け付ける入力受付手段と、
    前記受け付けられた少なくとも1つのシンボルに基づいて、該少なくとも1つのシンボルを示す前記第2データの第2特徴量を検索用第2特徴量として設定する検索用第2特徴量設定手段と、
    前記学習情報記憶手段に記憶された学習情報を用いて、前記未注釈第1特徴量から前記設定された検索用第2特徴量が出現する条件付き確率を算出する確率算出手段と、
    前記確率算出手段により算出された確率に基づいて前記未注釈第1データ記憶手段から前記未注釈第1データを取り出すデータ取出手段と、
    を備えるリトリーバル装置。
  33. 請求の範囲32に記載のリトリーバル装置において、
    前記隠れ変数は、前記第1または第2変換により前記第1または第2特徴量を正準空間に射影して得られる第1または第2変量であり、
    前記確率算出手段は、前記隠れ変数をsiとし、前記検索用第2特徴量をynewとし、前記未注釈第1特徴量をxjとし(ただし、j=1,…,Nであり、Nは未注釈第1データの総数である。)、未注釈第1特徴量xjから検索用第2特徴量ynewが出現する条件付き確率をP(ynew|xj)としたときに、確率P(ynew|xj)を次式(14)に従って算出するリトリーバル装置。ただし、式(14)において、P(xj|si)は隠れ変数siから未注釈第1特徴量xjが出現する条件付き確率であり、P(ynew|si)は隠れ変数siから検索用第2特徴量ynewが出現する条件付き確率である。
    Figure 0005234469
  34. 請求の範囲32に記載のリトリーバル装置において、
    前記隠れ変数は、1組の前記第1および第2特徴量が正準空間において形成する正規分布の中心であり、
    前記確率算出手段は、前記隠れ変数をziとし、前記検索用第2特徴量をynewとし、前記未注釈第1特徴量をxjとし(ただし、j=1,…,Nであり、Nは未注釈第1データの総数である。)、未注釈第1特徴量xjから検索用第2特徴量ynewが出現する条件付き確率をP(ynew|xj)としたときに、確率P(ynew|xj)を次式(111)に従って算出するリトリーバル装置。ただし、式(111)において、P(xj|zi)は隠れ変数ziから未注釈第1特徴量xjが出現する条件付き確率であり、P(ynew|zi)は隠れ変数ziから検索用第2特徴量ynewが出現する条件付き確率である。
    Figure 0005234469
  35. 請求の範囲32に記載のリトリーバル装置において、
    前記第1および第2特徴量の組み合わせごとに取得される複数の隠れ変数はクラスタリングにより複数のクラスタに分類されると共に、前記複数のクラスタごとに代表ベクトルが取得されており、
    前記学習情報記憶手段は、前記代表ベクトルと前記隠れ変数の所属クラスタを示す情報とを学習情報として記憶し、
    前記確率算出手段は、前記複数の隠れ変数のうち、前記代表ベクトルから前記未注釈第1特徴量が出現する条件付き確率が所定の閾値以上となる前記クラスタに所属する前記隠れ変数を用いて、前記未注釈第1特徴量から前記設定された検索用第2特徴量が出現する条件付き確率を算出するリトリーバル装置。
  36. メタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とするリトリーバル方法であって、
    (a)実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する条件付き確率および該隠れ変数から任意の第2特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶手段に記憶させるステップと、
    (b)指定された少なくとも1つのシンボルに基づいて、該少なくとも1つのシンボルを示す前記第2データの第2特徴量を検索用第2特徴量として設定するステップと、
    (c)前記記憶手段に記憶された前記学習情報を用いて、第2データとの対応付けがなされていない第1データである未注釈第1データの特徴として抽出された未注釈第1特徴量から前記設定された検索用第2特徴量が出現する条件付き確率を算出するステップと、
    (d)ステップ(c)にて算出した確率に基づいて前記記憶手段から前記未注釈第1データを取り出すステップと、
    を含むリトリーバル方法。
  37. 実世界情報を示す第1データから該第1データの特徴として抽出された第1特徴量と前記第1データに対応付けられて前記実世界情報に対応した少なくとも1つのシンボルを示す第2データから該第2データの特徴として抽出された第2特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第1特徴量と前記第2特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第1および第2特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第1特徴量が出現する条件付き確率および該隠れ変数から任意の第2特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段を備えたコンピュータをメタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とする装置として機能させるリトリーバル用プログラムであって、
    指定された少なくとも1つのシンボルに基づいて、該少なくとも1つのシンボルを示す前記第2データの第2特徴量を検索用第2特徴量として設定する検索用第2特徴量設定モジュールと、
    前記学習情報記憶手段に記憶された前記学習情報を用いて、第2データとの対応付けがなされていない第1データである未注釈第1データの特徴として抽出された未注釈第1特徴量から前記設定された検索用第2特徴量が出現する条件付き確率を算出する確率算出モジュールと、
    前記算出された算出した確率に基づいて前記未注釈第1データを取り出すデータ取出モジュールと、
    を備えるリトリーバル用プログラム。

JP2009532255A 2007-09-14 2008-09-12 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム Active JP5234469B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009532255A JP5234469B2 (ja) 2007-09-14 2008-09-12 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007240272 2007-09-14
JP2007240272 2007-09-14
JP2009532255A JP5234469B2 (ja) 2007-09-14 2008-09-12 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム
PCT/JP2008/066597 WO2009035108A1 (ja) 2007-09-14 2008-09-12 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム

Publications (2)

Publication Number Publication Date
JPWO2009035108A1 JPWO2009035108A1 (ja) 2010-12-24
JP5234469B2 true JP5234469B2 (ja) 2013-07-10

Family

ID=40452114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009532255A Active JP5234469B2 (ja) 2007-09-14 2008-09-12 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム

Country Status (3)

Country Link
US (1) US8423485B2 (ja)
JP (1) JP5234469B2 (ja)
WO (1) WO2009035108A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200001111A (ko) * 2018-06-26 2020-01-06 에스케이텔레콤 주식회사 준지도 학습 방법

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210179B2 (en) * 2008-11-18 2019-02-19 Excalibur Ip, Llc Dynamic feature weighting
JP5131863B2 (ja) * 2009-10-30 2013-01-30 独立行政法人産業技術総合研究所 Hlac特徴量抽出方法、異常検出方法及び装置
CA2786727C (en) * 2010-02-01 2017-08-29 Google, Inc. Joint embedding for item association
JP5462748B2 (ja) * 2010-09-03 2014-04-02 日本電信電話株式会社 データ可視化装置、データ変換装置、方法、及びプログラム
JP5802916B2 (ja) * 2011-02-28 2015-11-04 株式会社豊田中央研究所 感覚データ識別装置及びプログラム
KR101438114B1 (ko) 2013-02-01 2014-11-03 국방과학연구소 정준상관분석을 이용한 수중표적 식별방법 및 수중표적 식별장치
US20140341443A1 (en) * 2013-05-16 2014-11-20 Microsoft Corporation Joint modeling for facial recognition
CN104572651B (zh) * 2013-10-11 2017-09-29 华为技术有限公司 图片排序方法及装置
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
JP5644934B2 (ja) * 2013-12-09 2014-12-24 独立行政法人産業技術総合研究所 信号特徴抽出装置および信号特徴抽出方法
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9639742B2 (en) 2014-04-28 2017-05-02 Microsoft Technology Licensing, Llc Creation of representative content based on facial analysis
US9773156B2 (en) 2014-04-29 2017-09-26 Microsoft Technology Licensing, Llc Grouping and ranking images based on facial recognition data
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9460493B2 (en) 2014-06-14 2016-10-04 Microsoft Technology Licensing, Llc Automatic video quality enhancement with temporal smoothing and user override
US9373179B2 (en) 2014-06-23 2016-06-21 Microsoft Technology Licensing, Llc Saliency-preserving distinctive low-footprint photograph aging effect
WO2016026135A1 (en) * 2014-08-22 2016-02-25 Microsoft Technology Licensing, Llc Face alignment with shape regression
US11062229B1 (en) * 2016-02-18 2021-07-13 Deepmind Technologies Limited Training latent variable machine learning models using multi-sample objectives
CN105808752B (zh) * 2016-03-10 2018-04-10 大连理工大学 一种基于cca和2pknn的自动图像标注方法
US10157332B1 (en) * 2016-06-06 2018-12-18 A9.Com, Inc. Neural network-based image manipulation
US10489923B2 (en) * 2017-12-13 2019-11-26 Vaisala, Inc. Estimating conditions from observations of one instrument based on training from observations of another instrument
CN108228845B (zh) * 2018-01-09 2020-10-27 华南理工大学 一种手机游戏分类方法
US11669746B2 (en) * 2018-04-11 2023-06-06 Samsung Electronics Co., Ltd. System and method for active machine learning
US10824909B2 (en) * 2018-05-15 2020-11-03 Toyota Research Institute, Inc. Systems and methods for conditional image translation
JP7014086B2 (ja) * 2018-08-02 2022-02-01 日本電信電話株式会社 解析装置、解析方法及びプログラム
CN113627176B (zh) * 2021-08-17 2024-04-19 北京计算机技术及应用研究所 一种利用主元分析计算汉语词向量的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11213131A (ja) * 1998-01-26 1999-08-06 Minolta Co Ltd オブジェクト−キー関連度付与方法およびオブジェクト−キー関連度自動付与装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070161A (en) 1997-03-19 2000-05-30 Minolta Co., Ltd. Method of attaching keyword or object-to-key relevance ratio and automatic attaching device therefor
US7343296B2 (en) * 2001-03-14 2008-03-11 Puppetools, Inc. Puppetry based communication system, method and internet utility
US7120626B2 (en) * 2002-11-15 2006-10-10 Koninklijke Philips Electronics N.V. Content retrieval based on semantic association
CN100371952C (zh) 2003-04-21 2008-02-27 日本电气株式会社 识别视频图像对象及应用视频图像注释的设备和方法
US20060195858A1 (en) 2004-04-15 2006-08-31 Yusuke Takahashi Video object recognition device and recognition method, video annotation giving device and giving method, and program
DE102005003001B4 (de) * 2005-01-21 2009-10-08 Qimonda Ag Verfahren zur Korrektur des optischen Proximity-Effektes
KR100664964B1 (ko) * 2005-10-11 2007-01-04 삼성전자주식회사 휴대 기기를 제어하는 장치 및 방법
US7536371B2 (en) * 2005-12-05 2009-05-19 Insyst Ltd. Apparatus and method for the analysis of a process having parameter-based faults

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11213131A (ja) * 1998-01-26 1999-08-06 Minolta Co Ltd オブジェクト−キー関連度付与方法およびオブジェクト−キー関連度自動付与装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200001111A (ko) * 2018-06-26 2020-01-06 에스케이텔레콤 주식회사 준지도 학습 방법
KR102511996B1 (ko) 2018-06-26 2023-03-20 에스케이텔레콤 주식회사 준지도 학습 방법

Also Published As

Publication number Publication date
US8423485B2 (en) 2013-04-16
WO2009035108A1 (ja) 2009-03-19
JPWO2009035108A1 (ja) 2010-12-24
US20110010319A1 (en) 2011-01-13

Similar Documents

Publication Publication Date Title
JP5234469B2 (ja) 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム
CN110163258B (zh) 一种基于语义属性注意力重分配机制的零样本学习方法及系统
JP7317050B2 (ja) 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法
CN109919183B (zh) 一种基于小样本的图像识别方法、装置、设备及存储介质
CN110889865B (zh) 一种基于局部加权稀疏特征选择的视频目标跟踪方法
CN111597298A (zh) 一种基于深度对抗离散哈希学习的跨模态检索方法及装置
CN112541458A (zh) 基于元学习的域自适应的人脸识别方法、系统、装置
US11250295B2 (en) Image searching apparatus, classifier training method, and recording medium
CN110942108A (zh) 人脸图像聚类方法、装置及计算机可读存储介质
CN113780245B (zh) 一种多场景下的物品检索方法及系统
CN114863407A (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
Zarbakhsh et al. Low-rank sparse coding and region of interest pooling for dynamic 3D facial expression recognition
CN109558882B (zh) 基于鲁棒局部低秩稀疏cnn特征的图像分类方法及装置
CN113076905B (zh) 一种基于上下文交互关系的情绪识别方法
Perronnin et al. A probabilistic model of face mapping with local transformations and its application to person recognition
CN113762005B (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
CN111950592B (zh) 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法
WO2010134539A1 (ja) 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム
CN112560712B (zh) 基于时间增强图卷积网络的行为识别方法、装置及介质
CN114943862A (zh) 一种基于结构性解析字典学习的两阶段图像分类方法
JP2009295130A (ja) 画像解析装置、画像登録装置および画像検索装置
Lee et al. Ensemble Algorithm of Convolution Neural Networks for Enhancing Facial Expression Recognition
CN111967513B (zh) 一种基于注意力的零样本图像分类方法
JP7221892B2 (ja) 学習装置、学習方法、および学習プログラム
CN115565051B (zh) 轻量级人脸属性识别模型训练方法、识别方法及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130315

R150 Certificate of patent or registration of utility model

Ref document number: 5234469

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250