JP5234469B2

JP5234469B2 - 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム

Info

Publication number: JP5234469B2
Application number: JP2009532255A
Authority: JP
Inventors: 達也原田; 英樹中山; 理恵松本; 康夫國吉; 展之大津
Original assignee: National Institute of Advanced Industrial Science and Technology AIST; University of Tokyo NUC
Current assignee: National Institute of Advanced Industrial Science and Technology AIST; University of Tokyo NUC
Priority date: 2007-09-14
Filing date: 2008-09-12
Publication date: 2013-07-10
Anticipated expiration: 2028-09-12
Also published as: US8423485B2; WO2009035108A1; JPWO2009035108A1; US20110010319A1

Description

本発明は、実世界情報と当該実世界情報に対応したシンボルとの関係を学習するための対応関係学習装置および方法ならびに対応関係学習用プログラム、実世界情報にメタデータとしてのシンボルを付与するためのアノテーション装置および方法ならびにアノテーション用プログラム、およびメタデータとしてのシンボルが付与されていない実世界情報をシンボルに基づいて検索可能とするリトリーバル装置および方法ならびにリトリーバル用プログラムに関する。

画像データや音声データ等は、視覚情報や聴覚情報といった実世界情報を示すものであるが、この種の実世界情報の検索を可能とするためには、実世界情報を示すデータに対してメタデータとしてのシンボルを付与しておく必要がある。このように実世界情報を示すデータに対してメタデータが付与されていれば、メタデータを調べることにより、例えば画像に現れているものを示す単語等のシンボルを入力として多数の画像データ等の中から所望の画像データを取り出すことが可能となる。ただし、画像データや音声データ等の作成者が常にその画像データ等に対してメタデータを付与するアノテーションを実行するとは限らない。このため、従来から、実世界情報を示すデータに対してメタデータとしてのシンボルを付与する技術が提案されており、その一例として、映像データに対して自動的にメタデータを付与可能な映像アノテーション付与装置が知られている（例えば、特許文献１参照。）。かかる映像アノテーション付与装置は、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報と、オブジェクトに付加される情報である付加情報とをあらかじめ関連付けして記憶している。そして、この装置に対して映像が入力されると、その映像から一部分の領域の映像データである部分映像データが抽出されると共に抽出された部分映像データの視覚的特徴情報が生成される。更に、部分映像データの視覚的特徴情報と記憶されているオブジェクトの視覚的特徴情報とが比較され、この比較により得られる部分映像データとオブジェクトとの類似度に基づいて映像に含まれるオブジェクトが特定されると共に、特定されたオブジェクトと記憶されている付加情報とが対応付けられる。また、従来から、画像の高次局所自己相関特徴（ＨＬＡＣ）と正準相関分析とを用いて絵画のラベル付けや印象語からの画像の検索を可能とする技術も知られている（例えば、非特許文献１参照）。
国際公開第２００４／０９５３７４号パンフレット栗田多喜夫，加藤俊一，福田郁美，坂倉あゆみ "印象語による絵画データベースの検索" 情報処理学会論文誌Vo1．33，NO．11，p．1373−1383（1992）

上記従来の映像アノテーション付与装置のように、映像から一部分の領域の映像データである部分映像データを抽出する手法（セグメンテーション）を用いた場合、アノテーションの精度や処理速度は、部分映像データの抽出精度や部分映像データの抽出に要する時間に依存することになる。しかしながら、映像データから部分映像データを精度よく抽出すること自体、容易なことではなく、抽出処理にも多大な時間が要求される。従って、上述のような従来の映像アノテーション付与手法を用いても、高速かつ精度のよいアノテーションや実世界情報の検索（リトリーバル）を実行することは困難である。また、高次局所自己相関特徴と正準相関分析とを用いた従来の手法は、画像と印象語との間に非常に単純な確率密度分布を導入した上で最尤推定を実行するものにすぎず、高速処理を可能とはするものの、かかる手法を用いたとしても、精度のよいアノテーションやリトリーバルを実行することは困難である。

そこで、本発明は、高速かつ精度のよいアノテーションやリトリーバルの実行を可能とする技術の提供を主目的とする。

本発明は、上記主目的を達成するために以下の手段を採っている。

本発明による対応関係学習装置は、
実世界情報と該実世界情報に対応したシンボルとの関係を学習する対応関係学習装置であって、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量を複数記憶する第１特徴量記憶手段と、
前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量を複数記憶する第２特徴量記憶手段と、
前記第１および第２特徴量の組み合わせを複数用いた正準相関分析を実行し、前記第１および第２特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得する正準相関分析手段と、
前記正準相関分析手段により取得された前記変換を記憶すると共に、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数を記憶する分析結果記憶手段と、
前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する確率と該隠れ変数から任意の第２特徴量が出現する確率とを得るために必要な情報を導出する情報導出手段と、
前記情報導出手段により導出された情報を記憶する情報記憶手段と、
を備えるものである。

この対応関係学習装置では、視覚情報や聴覚情報といった実世界情報に対して当該実世界情報に対応したシンボルすなわち当該実世界情報が示すものに対応した単語群等をメタデータとして付与するアノテーションや、メタデータとしてのシンボルが付与されていない実世界情報をシンボルに基づいて検索するリトリーバルを人の手を介することなく高速かつ精度よく実行可能とすべく、実世界情報とシンボルとの対応関係が、ある実世界情報とあるシンボルとが同時に出現する確率（Probability）の問題として取り扱われる。このように、実世界情報とシンボルとの対応関係を確率の問題として取り扱うこととすれば、ある実世界情報とあるシンボルとが同時に出現する確率を求めることにより、確率が高い順にシンボルを実世界情報に対して割り付けたり、確率が高い順に所望のシンボルに対応した画像を取り出したりすることが可能となる。ここで、画像データ等の実世界情報を示す第１データからその特徴として抽出される第１特徴量をｘとし、例えば画像に現れているものを示す単語群といった実世界情報に対応した少なくとも１つのシンボルを示すと共に第１データに対応付けられた第２データからその特徴として抽出された第２特徴量をｙとし、第１特徴量ｘと第２特徴量ｙとが同時に出力する確率をＰ（ｘ，ｙ）とすれば、かかる確率Ｐ（ｘ，ｙ）をある実世界情報とあるシンボルとが同時に出現する確率として用いることができる。

更に、この対応関係学習装置では、第１特徴量（実世界情報）と第２特徴量（シンボル）との直接的な関係を求める代わりに、第１特徴量と第２特徴量との間に実世界情報と当該実世界情報に対応したシンボルとを結びつける抽象的概念が導入される。そして、かかる抽象的概念は、正準相関分析（Canonical Correlation Analysis）を用いて直接的には関係性が少ない第１および第２特徴量（２つの変量群）をそれぞれ共通の空間（正準空間）上の互いに異なる変量群へと射影すると共に得られた変量群同士間での相関（関係性）を最大にする変換を求めた上で、求めた変換と第１および第２特徴量の少なくとも何れか一方とに基づく隠れ変数として取得される。このような抽象的概念をＬとすれば、第１特徴量ｘと第２特徴量ｙとが同時に出力する確率Ｐ（ｘ，ｙ）を次式（０）に示すように表すことができる。式（０）において、Ｐ（ｘ｜Ｌ）は抽象的概念Ｌから第１特徴量ｘが出現する確率を示し、Ｐ（ｙ｜Ｌ）は抽象的概念Ｌから第２特徴量ｙが出現する確率を示し、Ｐ（Ｌ）は抽象的概念Ｌそのものが出現する確率を示す。ここで、個々の抽象的概念Ｌの出現確率が同一であるとすれば、確率Ｐ（Ｌ）を定数として扱うことができるから、抽象的概念としての隠れ変数から任意の第１特徴量が出現する確率と、隠れ変数から任意の第２特徴量が出現する確率とがわかれば、ある第１特徴量ｘとある第２特徴量ｙとが同時に出力する確率Ｐ（ｘ，ｙ）を容易に求めることが可能となる。

従って、この対応関係学習装置のように、第１および第２特徴量の組み合わせを複数用いた正準相関分析を実行し、第１および第２特徴量の少なくとも何れか一方に基づいて実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を求めると共に、当該変換を用いて第１および第２特徴量の組み合わせごとに隠れ変数を取得し、更に、隠れ変数ごとに、隠れ変数から任意の第１特徴量が出現する確率と隠れ変数から任意の第２特徴量が出現する確率とを得るために必要な情報を導出しておけば、第１特徴量ｘと第２特徴量ｙとが同時に出力する確率Ｐ（ｘ，ｙ）、すなわち、ある実世界情報とあるシンボルとが同時に出現する確率を容易かつ高速に求めることが可能となる。これにより、この対応関係学習装置を用いて実世界情報とシンボルとの対応関係を学習しておけば、例えば確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行したり、例えば確率が高い順に所望のシンボルに対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行したりすることが可能となる。

また、前記正準相関分析手段は、前記第１特徴量を正準空間に射影して得られる変量を第１変量とすると共に前記第１特徴量から前記第１変量を得るための変換を第１変換とし、前記第２特徴量を正準空間に射影して得られる変量を第２変量とすると共に前記第２特徴量から前記第２変量を得るための変換を第２変換としたときに、正準相関分析により前記第１変量と前記第２変量との相関を最大にする第１および第２変換を取得するものであってもよく、前記分析結果記憶手段は、前記取得された第１および第２変換を記憶すると共に、該第１または第２変換により前記第１または第２特徴量を正準空間に射影して得られる第１または第２変量を前記隠れ変数として記憶するものであってもよい。これにより、実世界情報と当該実世界情報に対応したシンボルとを結びつける抽象的概念としての隠れ変数をより適正に取得して記憶しておくことが可能となる。

この場合、前記正準相関分析手段は、前記第１特徴量をｘ_i（ただし、ｉ＝１，…，ｎである。以下同様）とし、前記第２特徴量をｙ_iとし、前記第１変量をｓ_iとし、前記第２変量をｔ_iとしたときに、前記第１変換が次式（１）を満たすと共に前記第２変換が次式（２）を満たすものとし、次式（３）の固有値問題を解くことにより式（１）における射影行列Ａを前記第１変換として求めると共に式（２）における射影行列Ｂを前記第２変換として取得するものであってもよい。ただし、式（３）において、Λ²は固有値を対角要素とする対角行列であり、Ｉは単位行列であり、共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxは、式（４）に示すとおりである。これにより、第１および第２特徴量の少なくとも何れか一方に基づいて隠れ変数を導出するための変換を高速に得ることが可能となる。

更に、前記正準相関分析手段は、前記第１特徴量を正準空間に射影して得られる変量を第１変量とすると共に前記第１特徴量から前記第１変量を得るための変換を第１変換とし、前記第２特徴量を正準空間に射影して得られる変量を第２変量とすると共に前記第２特徴量から前記第２変量を得るための変換を第２変換としたときに、正準相関分析により前記第１変量と前記第２変量との相関を最大にする第１および第２変換を取得すると共に、１組の前記第１および第２特徴量が正準空間において形成する正規分布の中心を取得するものであってもよく、前記分析結果記憶手段は、前記取得された第１および第２変換を記憶すると共に、前記第１特徴量と前記第２特徴量との組み合わせごとに取得される前記正規分布の中心を前記隠れ変数として記憶するものであってもよい。すなわち、確率的正準相関分析の枠組みにおいて、１組の第１特徴量と第２特徴量とは、正準空間上である中心と分散とをもった正規分布を形成する。従って、第１変量と第２変量との何れか一方を隠れ変数として用いる代わりに、第１特徴量と第２特徴量との組み合わせごとに取得される正規分布の中心を隠れ変数として利用すれば、実世界情報と当該実世界情報に対応したシンボルとを結びつける抽象的概念をより一層適正なものとすることができる。

この場合、前記正準相関分析手段は、前記第１特徴量をｘ_iとし、前記第２特徴量をｙ_iとし、前記第１変量をｓ_iとし、前記第２変量をｔ_iとしたときに、前記第１変換が次式（１）を満たすと共に前記第２変換が次式（２）を満たすものとし、次式（３）の固有値問題を解くことにより式（１）における射影行列Ａを前記第１変換として求めると共に式（２）における射影行列Ｂを前記第２変換として取得し、前記正規分布の中心をｚ_iとしたときに、次式（１０１）に従って前記第１特徴量ｘ_iと前記第２特徴量ｙ_iとの組み合わせごとに前記正規分布の中心ｚ_iを取得するものであってもよい。ただし、式（３）において、Λ²は固有値を対角要素とする対角行列であり、Ｉは単位行列であり、共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxは、式（４）に示すとおりであり、式（１０１）において、Λ²は固有値を対角要素とする対角行列であり、Ｍ_xおよびＭ_yは、Ｍ_xＭ_y ^T＝Λを満たすと共にスペクトルノルムが値１未満となる任意の行列である。これにより、第１および第２特徴量に基づいて隠れ変数を導出するための変換と、隠れ変数としての正規分布の中心とを高速に得ることが可能となる。

また、前記情報導出手段は、前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する確率を示す確率密度分布を設定する確率密度分布設定手段と、すべての第２データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する確率であるシンボル生起確率を算出するシンボル生起確率算出手段とを含むものであってもよく、前記情報記憶手段は、前記隠れ変数ごとに、前記確率密度分布と前記シンボル生起確率とを前記情報として記憶するものであってもよい。これにより、ある隠れ変数から任意の第１特徴量が出現する確率と、ある隠れ変数から任意の第２特徴量が出現する確率とを容易かつ高速に得ることが可能となる。

更に、前記確率密度分布設定手段は、前記隠れ変数を中心とした正規分布を前記確率密度分布として設定するものであってもよい。すなわち、例えば新たな第１特徴量を正準空間に射影して得られた隠れ変数が既に算出されている隠れ変数に近ければ近いほど、当該既に算出されている隠れ変数から当該新たな第１特徴量が出現しやすいと考えるのは極めて合理的である。従って、確率密度分布として正規分布を用いれば、隠れ変数から任意の第１特徴量が出現する確率を実態に即したより適正なものとして得ることが可能となる。

この場合、前記確率密度分布設定手段は、任意の第１特徴量をｘとすると共に前記隠れ変数をｓ_iとしたときに、次式（５）に従って隠れ変数ｓ_iから任意の第１特徴量ｘが出現する確率を示す確率密度分布Ｐ（ｘ｜ｓ_i）を設定するものであってもよい。ただし、式（５）において、“ｐ”は第１特徴量ｘの次元であり、Ｗ_x＝Ｃ_xxＡ，ξ_x＝Ｃ_xx−Ｗ_xＷ^T _xである。

また、前記確率密度分布設定手段は、任意の第１特徴量をｘとし、前記隠れ変数をｓ_iとし、前記任意の第１特徴量ｘを正準空間に射影して得られる変量をｓとしたときに、次式（６）に従って隠れ変数ｓ_iから任意の第１特徴量ｘが出現する確率を示す確率密度分布Ｐ（ｘ｜ｓ_i）を設定するものであってもよい。ただし、式（６）において、“ｍ”は正準空間の次元（ｓやｓ_iの次元）であり、“Σ”は分散である。

更に、第１特徴量と第２特徴量との組み合わせごとに取得される正規分布の中心を隠れ変数として利用する場合、前記情報導出手段は、任意の第１特徴量をｘとし、任意の第２特徴量をｙとすると共に前記隠れ変数をｚ_iとし、１組の前記第１および第２特徴量ｘ，ｙが正準空間において形成する正規分布の分散をΦ_xyとしたときに、次式（１０２）に従って分散Φ_xyを取得すると共に、次式（１０３）に従って前記隠れ変数ｚ_iごとに該隠れ変数ｚ_iから任意の第１特徴量ｘが出現する確率を示す確率密度分布Ｐ（ｘ｜ｚ_i）を設定する確率密度分布設定手段と、すべての第２データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する確率であるシンボル生起確率を算出するシンボル生起確率算出手段とを含むものであってもよく、前記情報記憶手段は、前記隠れ変数ごとに、前記確率密度分布Ｐ（ｘ｜ｚ_i）と前記シンボル生起確率とを前記情報として記憶するものであってもよい。ただし、式（１０３）において、“Ｋ”は、確率の総和を値１にするための規格化定数であり、Φｘは任意の第１特徴量ｘが正準空間において形成する正規分布の分散であり、ｚｃは、当該正規分布の中心であり、それぞれ式（１０４）に示すとおりである。これにより、第１特徴量と第２特徴量との組み合わせごとに取得される正規分布の中心を隠れ変数として利用する場合に、隠れ変数から任意の第１特徴量が出現する確率をより適正なものとして得ることが可能となる。

また、前記シンボル生起確率算出手段は、単一のシンボルのみを示す前記第２データの第２特徴量をｗとし、前記隠れ変数ｓ_iまたはｚ_iをｓｚ_iと表したときに、すべての第２データ中の互いに異なるシンボルのそれぞれについて次式（７）に従って隠れ変数ｓｚ_iから第２特徴量ｗが出現する確率Ｐ（ｗ｜ｓｚ_i）を前記シンボル生起確率として算出するものであってもよい。ただし、式（７）において、“ｎ”は第２データに出現するシンボルの総数であり、“ｎ_w”はすべての第２データにおける第２特徴量ｗに対応したシンボルの出現回数であり、“ｎ_szi”は隠れ変数ｓｚ_iに対応した第２特徴量に含まれるシンボルの総数であり、δ_W,sziは特徴量ｗに対応したシンボルが隠れ変数ｓｚ_iに対応した第２特徴量に含まれていれば値１とされ、含まれていなければ値０とされる変数であり、“μ”は値０から値１までの範囲から選択される実数値である。これにより、ある隠れ変数からあるシンボルが出現する確率であるシンボル生起確率をより適正に算出することが可能となる。

更に、前記シンボル生起確率算出手段は、前記第２特徴量をｙ_iとし、単一のシンボルのみを示す前記第２データの第２特徴量をｗとし、前記第２特徴量ｙ_iを正準空間に射影して得られる第２変量をｔ_iとし、前記隠れ変数ｓ_iまたはｚ_iをｓｚ_iと表したときに、すべての第２データ中の互いに異なるシンボルのそれぞれについて次式（８）に示す確率Ｐ（ｗ｜ｓｚ_i）を前記シンボル生起確率として算出するものであってもよい。ただし、式（８）において、“ｑ”は第２特徴量ｗの次元であり、Ｗ_y＝Ｃ_yyＢ，ξ_y＝Ｃ_yy−Ｗ_yＷ^T _yである。すなわち、ある隠れ変数から任意の第２特徴量が出現する確率は、正規分布からなる確率密度分布を用いて導出されてもよい。

そして、本発明による対応関係学習装置は、新奇第１特徴量と該新奇第１特徴量に対応した新奇第２特徴量との組み合わせが出現したときに、前記新奇第１特徴量と前記新奇第２特徴量とに基づいて少なくとも前記隠れ変数を導出するための前記変換を更新する情報更新手段を更に備えてもよい。実世界情報を示す第１データとそれに対応した第２データとの組み合わせ、すなわち第１特徴量と第２特徴量との組み合わせは、基本的に無限に増加し得るものである。このため、新奇第１特徴量と該新奇第１特徴量に対応した新奇第２特徴量との組み合わせが出現するたびに、当該新奇第１特徴量と新奇第２特徴量との組み合わせを含むすべての組み合わせについて正準相関分析等を実行して上記変換や隠れ変数、確率を得るための情報を求めるとすれば、対応関係学習装置の処理負担が極めて多大なものとなってしまう。これに対して、新奇第１特徴量と新奇第２特徴量との組み合わせが出現したときに、当該新奇第１特徴量と新奇第２特徴量とに基づいて少なくとも隠れ変数を導出するための変換を更新する情報更新手段を対応関係学習装置に備えれば、処理負担を軽減しながら、新奇第１特徴量と新奇第２特徴量との組み合わせが出現するたびに上記変換や隠れ変数、確率を得るための情報をより適正なものへと更新していくことが可能となる。

この場合、前記情報更新手段は、任意の第１特徴量を主成分分析により無相関化して得られる成分を第１無相関化成分としたときに、前記新奇第１特徴量についての第１無相関化成分である新奇第１無相関化成分の取得処理を実行する第１無相関化成分取得手段と、任意の第２特徴量を主成分分析により無相関化して得られる成分を第２無相関化成分としたときに、前記新奇第２特徴量についての第２無相関化成分である新奇第２無相関化成分の取得処理を実行する第２無相関化成分取得手段と、前記取得された新奇第１無相関化成分および新奇第２無相関化成分に基づいて、前記第１および第２無相関化成分の共分散行列についての特異値分解処理を実行する特異値分解実行手段と、前記第１および第２無相関化成分取得手段による前記取得処理の結果と前記特異値分解実行手段による前記特異値分解処理の結果とに基づいて前記隠れ変数を導出するための前記変換を更新する変換更新手段とを含むものであってもよく、前記分析結果記憶手段は、前記更新された変換を記憶すると共に、該更新された変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数を記憶するものであってもよく、前記情報導出手段は、前記取得された隠れ変数ごとに前記情報を更新するものであってもよい。

更に、ｎ−１個の第１特徴量ｘ（１），…，ｘ（ｉ），…，ｘ（ｎ−１）および第２特徴量ｙ（１），…，ｙ（ｉ），…，ｙ（ｎ−１）の組み合わせが存在している状態でｎ番目の新奇第１特徴量ｘ（ｎ）および新奇第２特徴量ｙ（ｎ）の組み合わせが出現したとすると共に、第１特徴量ｘ（ｉ）の次元をｐとし、第２特徴量ｙ（ｉ）の次元をｑとし、ｍｉｎ｛ｐ，ｑ｝をｒとし、忘却率をｌとし、新奇第１無相関化成分をｕ（ｎ）とし、新奇第２無相関化成分をｖ（ｎ）としたときに、前記第１無相関化成分取得手段は、新奇第１特徴量ｘ（ｎ）を含むｎ個の第１特徴量ｘ（ｉ）についての固有値問題Ｃ_xxＥ_x＝Ｅ_xΛ_xの解である次式（９）に示す行列Ｅ_x（ｎ）および対角行列Λ_x（ｎ）と新奇第１無相関化成分ｕ（ｎ）とを取得するものであってもよく（ただし、式（９）において、ｊ＝１，…，ｐであり、ｘ₁〜（ｎ）＝ｘ（ｎ）−ｍ_x（ｎ）であり、ｍ_x（ｎ）はｎ個の第１特徴量ｘ（ｉ）の平均である。）、前記第２無相関化成分取得手段は、新奇第２特徴量ｙ（ｎ）を含むｎ個の第２特徴量ｙ（ｉ）についての固有値問題Ｃ_yyＥ_y＝Ｅ_yΛ_yの解である次式（１０）に示す行列Ｅ_y（ｎ）および対角行列Λ_y（ｎ）と新奇第２無相関化成分ｖ（ｎ）とを取得するものであってもよく（ただし、式（１０）において、ｊ＝１，…，ｑであり、ｙ₁〜（ｎ）＝ｙ（ｎ）−ｍ_y（ｎ）であり、ｍ_y（ｎ）はｎ個の第１特徴量ｘ（ｉ）の平均である。）、前記特異値分解実行手段は、前記取得された新奇第１無相関化成分ｕ（ｎ）および新奇第２無相関化成分ｖ（ｎ）に基づいて次式（１１）に示す行列Ｅ_u（ｎ）およびＥ_v（ｎ）を取得するものであってもよく（ただし、式（１１）において、ｊ＝１，…，ｒであり、Ｚ_uj（ｎ）はｎ個の第１および第２無相関化成分の組み合わせに基づく第１無相関化成分についてのｊ番目の正準相関係数ベクトルであり、Ｚ_vj（ｎ）はｎ個の第１および第２無相関化成分の組み合わせに基づく第２無相関化成分についてのｊ番目の正準相関係数ベクトルである。）、前記分析結果更新手段は、前記第１および第２無相関化成分取得手段により取得された行列Ｅ_x（ｎ），Ｅ_y（ｎ）および対角行列Λ_x（ｎ），Λ_y（ｎ）と、前記特異値分解実行手段により取得された行列Ｅ_u（ｎ），Ｅ_v（ｎ）とに基づいて前記第１特徴量ｘ（ｉ）を正準空間に射影するための第１変換Ａ（ｎ）と前記第２特徴量ｙ（ｉ）を正準空間に射影するための第２変換Ｂ（ｎ）とを次式（１２）に従って新たな前記変換として取得するものであってもよい。

また、本発明による対応関係学習装置は、ｎ−１個の第１特徴量ｘ（１），…，ｘ（ｉ），…，ｘ（ｎ−１）および第２特徴量ｙ（１），…，ｙ（ｉ），…，ｙ（ｎ−１）の組み合わせが存在している状態でｎ番目の新奇第１特徴量ｘ（ｎ）および新奇第２特徴量ｙ（ｎ）の組み合わせが出現したときに、次式（１０５）に従って共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxを更新すると共に、前記式（３）の固有値問題を解くことにより前記隠れ変数を導出するための前記変換を更新する情報更新手段を更に備えてもよい。ただし、ｎ≧２であり、“ｌ”は、忘却率であり、ｘ〜（ｎ）およびｙ〜（ｎ）は、次式（１０６）に示すとおりであり、ｍ_x（ｎ）およびｍ_y（ｎ）は、次式（１０７）に示すとおりである。このように、新奇第１特徴量と新奇第２特徴量との組み合わせが出現するたびに共分散行列のみを逐次的に更新していくことにより、計算負荷をより一層軽減しながら上記変換や隠れ変数、確率を得るための情報をより適正なものへと更新していくことが可能となる。

この場合、前記情報更新手段は、前記新奇第１特徴量ｘ（ｎ）および前記新奇第２特徴量ｙ（ｎ）の出現に伴って前記第２特徴量の次元が増加した場合には、該第２特徴量に関連した共分散行列を次式（１０８）に従って更新するものであってもよい。ただし、ｍ_y（ｎ）は、次式（１０９）に示すとおりである。すなわち、共分散行列のみを逐次的に更新しながら隠れ変数を導出するための変換等を更新すれば、新奇第１特徴量および新奇第２特徴量の出現に伴う第２特徴量の次元の増加に対応することが可能となる。なお、一般的には新奇第１特徴量および新奇第２特徴量の出現に伴って第１特徴量の次元が増加することは稀であると考えられるが、第１特徴量の次元が増加した場合にも、第２特徴量の次元が増加した場合と同様に対処し得ることはいうまでもない。

そして、前記第１特徴量は、前記第１データの高次局所自己相関特徴を示すものであってもよい。すなわち、高次局所自己相関特徴（ＨＬＡＣ）は、対象の位置に依存しないという位置不変性や対象が２つあればそれぞれの特徴ベクトルの和となるという加法性といった性質を有し、第１データから対象（特徴）を抽出するための領域分割（セグメンテーション）を不要とするものであることから、高次局所自己相関特徴を利用すれば、第１データの特徴を示す第１特徴量をより少ない負荷で高速かつ精度よく抽出することが可能となる。

更に、前記第１データが画像データである場合、前記第１特徴量は、前記画像データの各画素の輝度勾配方向に基づいて定められてもよい。これにより、画像データから抽出される第１特徴量を照明条件等による全体的な明度の変化に対してより頑健なものとすることができる。

また、前記第２特徴量は、すべての第２データから抽出される互いに異なるシンボルの配列に対して、対象となる第２データに対象となるシンボルが含まれていれば値０以外の所定値を付与すると共に、含まれていなければ値０を付与することにより設定されるものであってもよい。これにより、少なくとも１つのシンボルを示す第２データの特徴をより適正に抽出することが可能となる。

更に、前記第１データは画像データであり、前記第２データは、前記画像データの画像に現れているものを示す少なくとも１つの単語を前記シンボルとして含むものであってもよい。すなわち、本発明による対応関係学習装置は、画像と当該画像に現れているものを示す単語群との関係を学習するのに極めて好適である。

また、本発明による対応関係学習装置は、前記第１および第２特徴量の組み合わせごとに取得される複数の隠れ変数をクラスタリングして複数のクラスタに分類すると共に前記複数のクラスタごとに代表隠れ変数を取得するクラスタリング手段を更に備えてもよく、前記情報記憶手段は、前記代表隠れ変数と、前記隠れ変数の所属クラスタを示す情報とを記憶するものであってもよい。

本発明による対応関係学習方法は、
実世界情報と該実世界情報に対応したシンボルとの関係を学習するための対応関係学習方法であって、
（ａ）実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との組み合わせを複数用いた正準相関分析を実行し、前記第１および第２特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得するステップと、
（ｂ）ステップ（ａ）にて取得した変換を用いて前記第１および第２特徴量の組み合わせごとに隠れ変数を取得するステップと、
（ｃ）前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する確率と該隠れ変数から任意の第２特徴量が出現する確率とを得るために必要な情報を導出するステップと、
を含むものである。

この対応関係学習方法を用いて実世界情報とシンボルとの対応関係を学習しておけば、学習結果を用いて第１特徴量と第２特徴量とが同時に出現する確率を容易かつ高速に求めることができるので、例えば当該確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行したり、例えば当該確率が高い順に所望のシンボルに対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行したりすることが可能となる。

本発明による対応関係学習用プログラムは、
コンピュータを実世界情報と該実世界情報に対応したシンボルとの関係を学習する装置として機能させる対応関係学習用プログラムであって、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との組み合わせを複数用いた正準相関分析を実行し、前記第１および第２特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得する変換取得モジュールと、
前記取得された変換を用いて前記第１および第２特徴量の組み合わせごとに隠れ変数を取得する隠れ変数取得モジュールと、
前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する確率と該隠れ変数から任意の第２特徴量が出現する確率とを得るために必要な情報を導出する情報導出モジュールと、
を備えるものである。

この対応関係学習用プログラムがインストールされたコンピュータを用いて実世界情報とシンボルとの対応関係を学習しておけば、学習結果を用いて第１特徴量と第２特徴量とが同時に出現する確率を容易かつ高速に求めることができるので、例えば当該確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行したり、例えば当該確率が高い順に所望のシンボルに対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行したりすることが可能となる。

本発明によるアノテーション装置は、
実世界情報にメタデータとしてのシンボルを付与するアノテーション装置であって、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する確率および該隠れ変数から任意の第２特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段と、
新奇第１データの入力を受け付ける入力受付手段と、
前記受け付けられた新奇第１データに基づいて該新奇第１データの特徴を示す新奇第１特徴量を抽出する第１特徴量抽出手段と、
前記学習情報記憶手段に記憶された学習情報を用いて、前記抽出された新奇第１特徴量から単一のシンボルのみを示す前記第２データの第２特徴量が出現する確率を算出する確率算出手段と、
前記確率算出手段により算出された確率に基づいて前記新奇第１データに対してシンボルを割り付けるシンボル割付手段と、
を備えるものである。

このアノテーション装置は、第１特徴量と第２特徴量との少なくとも何れか一方に基づいて実世界情報とシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために正準相関分析により取得される変換と、当該変換を用いて第１および第２特徴量の組み合わせごとに取得される隠れ変数と、隠れ変数から任意の第１特徴量が出現する確率と該隠れ変数から任意の第２特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶した学習情報記憶手段を備える。従って、このアノテーション装置によれば、新奇第１データの入力が受け付けられた際に、新奇第１特徴量から単一のシンボルのみを示す第２データの第２特徴量が出現する確率を容易かつ高速に算出すると共に、例えば確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行することが可能となる。

また、前記隠れ変数は、前記第１または第２変換により前記第１または第２特徴量を正準空間に射影して得られる第１または第２変量であってもよく、前記確率算出手段は、前記隠れ変数をｓ_iとし、前記抽出された新奇第１特徴量をｘ_newとし、単一のシンボルのみを示す前記第２データの第２特徴量をｗとし、新奇第１特徴量ｘ_newから第２特徴量ｗが出現する確率をＰ（ｗ｜ｘ_new）としたときに、確率Ｐ（ｗ｜ｘ_new）を次式（１３）に従って算出するものであってもよい。ただし、式（１３）において、Ｐ（ｘ_new｜ｓ_i）は隠れ変数ｓ_iから新奇第１特徴量ｘ_newが出現する確率であり、Ｐ（ｗ｜ｓ_i）は隠れ変数ｓ_iから第２特徴量ｗが出現する確率である。これにより、学習情報を用いて新奇第１特徴量ｘ_newから第２特徴量ｗが出現する確率Ｐ（ｗ｜ｘ_new）を容易かつ高速に求めることが可能となる。

更に、前記隠れ変数は、１組の前記第１および第２特徴量が正準空間において形成する正規分布の中心であってもよく、前記確率算出手段は、前記隠れ変数をｚ_iとし、前記抽出された新奇第１特徴量をｘ_newとし、単一のシンボルのみを示す前記第２データの第２特徴量をｗとし、新奇第１特徴量ｘ_newから第２特徴量ｗが出現する確率をＰ（ｗ｜ｘ_new）としたときに、確率Ｐ（ｗ｜ｘ_new）を次式（１１０）に従って算出するものであってもよい。ただし、式（１１０）において、Ｐ（ｘ_new｜ｚ_i）は隠れ変数ｚ_iから新奇第１特徴量ｘ_newが出現する確率であり、Ｐ（ｗ｜ｚ_i）は隠れ変数ｚ_iから第２特徴量ｗが出現する確率である。

また、前記第１および第２特徴量の組み合わせごとに取得される複数の隠れ変数はクラスタリングにより複数のクラスタに分類されると共に、前記複数のクラスタごとに代表隠れ変数が取得されてもよく、前記学習情報記憶手段は、前記代表隠れ変数と前記隠れ変数の所属クラスタを示す情報とを学習情報として記憶するものであってもよく、前記確率算出手段は、前記複数の隠れ変数のうち、前記代表隠れ変数から前記新奇第１特徴量が出現する確率が所定の閾値以上となる前記クラスタに所属する前記隠れ変数を用いて、前記新奇第１特徴量から単一のシンボルのみを示す前記第２データの第２特徴量が出現する確率を算出するものであってもよい。これにより、アノテーションの精度に寄与しない隠れ変数（第１特徴量および第２特徴量の組合わせ）についての確率の計算を省略することが可能となるので、アノテーションの精度を維持しつつ計算負荷を軽減して処理の高速化を図ることができる。

更に、前記シンボル割付手段は、所定の基準に従って前記確率が高い順に前記単一のシンボルのみを示す前記第２データの第２特徴量により示されるシンボルを抽出すると共に、抽出したシンボルに基づいて前記新奇第１特徴量に対応した新奇第２特徴量を設定するものであってもよい。

そして、本発明によるアノテーション装置は、前記新奇第１特徴量と前記新奇第２特徴量とに基づいて前記学習情報を更新する情報更新手段を更に備えるものであってもよい。これにより、新奇第１特徴量と当該新奇第１特徴量に対して精度よく設定された新奇第２特徴量との組み合わせに基づいて、上記変換や隠れ変数、確率を得るための情報をより適正なものへと更新していくことが可能となる。

本発明によるアノテーション方法は、
実世界情報にメタデータとしてのシンボルを付与するためのアノテーション方法であって、
（ａ）実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する確率および該隠れ変数から任意の第２特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶手段に記憶させるステップと、
（ｂ）前記学習情報を用いて、新奇第１データの特徴として抽出された新奇第１特徴量から単一のシンボルのみを示す前記第２データの第２特徴量が出現する確率を算出するステップと、
（ｃ）ステップ（ｂ）にて算出した確率に基づいて前記新奇第１データに対してシンボルを割り付けるステップと、
を含むものである。

このアノテーション方法によれば、新奇第１データが出現した際に、学習情報を用いて新奇第１特徴量から単一のシンボルのみを示す第２データの第２特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行することが可能となる。

本発明によるアノテーション用プログラムは、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する確率および該隠れ変数から任意の第２特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段を備えたコンピュータを実世界情報にメタデータとしてのシンボルを付与する装置として機能させるアノテーション用プログラムであって、
前記学習情報を用いて、新奇第１データの特徴として抽出された新奇第１特徴量から単一のシンボルのみを示す前記第２データの第２特徴量が出現する確率を算出する確率算出モジュールと、
前記算出された確率に基づいて前記新奇第１データに対してシンボルを割り付けるシンボル割付モジュールと、
を備えるものである。

このアノテーション用プログラムがインストールされたコンピュータを用いれば、新奇第１データが出現した際に、学習情報を用いて新奇第１特徴量から単一のシンボルのみを示す第２データの第２特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順にシンボルを実世界情報に対して割り付けることにより高速かつ精度のよいアノテーションを実行することが可能となる。

本発明によるリトリーバル装置は、
メタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とするリトリーバル装置であって、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する確率および該隠れ変数から任意の第２特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段と、
第２データとの対応付けがなされていない第１データである未注釈第１データを少なくとも１つ記憶する未注釈第１データ記憶手段と、
前記未注釈第１データから該未注釈第１データの特徴として抽出された未注釈第１特徴量を記憶する未注釈第１特徴量記憶手段と、
検索クエリとしての少なくとも１つのシンボルの入力を受け付ける入力受付手段と、
前記受け付けられた少なくとも１つのシンボルに基づいて、該少なくとも１つのシンボルを示す前記第２データの第２特徴量を検索用第２特徴量として設定する検索用第２特徴量設定手段と、
前記学習情報記憶手段に記憶された学習情報を用いて、前記未注釈第１特徴量から前記設定された検索用第２特徴量が出現する確率を算出する確率算出手段と、
前記確率算出手段により算出された確率に基づいて前記未注釈第１データ記憶手段から前記未注釈第１データを取り出すデータ取出手段と、
を備えるものである。

このリトリーバル装置は、第１特徴量と第２特徴量との少なくとも何れか一方に基づいて実世界情報とシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために正準相関分析により取得される変換と、当該変換を用いて第１および第２特徴量の組み合わせごとに取得される隠れ変数と、隠れ変数から任意の第１特徴量が出現する確率と該隠れ変数から任意の第２特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶した学習情報記憶手段を備える。従って、このリトリーバル装置によれば、検索クエリとしての少なくとも１つのシンボルの入力が受け付けられた際に、学習情報を用いて未注釈第１データの特徴である未注釈第１特徴量から検索クエリとしてのシンボルに基づく検索用第２特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順に未注釈第１特徴量に対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行することが可能となる。

また、前記隠れ変数は、前記第１または第２変換により前記第１または第２特徴量を正準空間に射影して得られる第１または第２変量であってもよく、前記確率算出手段は、前記隠れ変数をｓ_iとし、前記検索用第２特徴量をｙ_newとし、前記未注釈第１特徴量をｘ_jとし（ただし、ｊ＝１，…，Ｎであり、Ｎは未注釈第１データの総数である。）、未注釈第１特徴量ｘ_jから検索用第２特徴量ｙ_newが出現する確率をＰ（ｙ_new｜ｘ_j）としたときに、確率Ｐ（ｙ_new｜ｘ_j）を次式（１４）に従って算出するものであってもよい。ただし、式（１４）において、Ｐ（ｘ_j｜ｓ_i）は隠れ変数ｓ_iから未注釈第１特徴量ｘ_jが出現する確率であり、Ｐ（ｙ_new｜ｓ_i）は隠れ変数ｓ_iから検索用第２特徴量ｙ_newが出現する確率である。これにより、学習情報を用いて未注釈第１特徴量ｘ_jから検索用第２特徴量ｙ_newが出現する確率Ｐ（ｙ_new｜ｘ_j）を容易かつ高速に求めることが可能となる。

更に、前記隠れ変数は、１組の前記第１および第２特徴量が正準空間において形成する正規分布の中心であってもよく、前記確率算出手段は、前記隠れ変数をｚ_iとし、前記検索用第２特徴量をｙ_newとし、前記未注釈第１特徴量をｘ_jとし（ただし、ｊ＝１，…，Ｎであり、Ｎは未注釈第１データの総数である。）、未注釈第１特徴量ｘ_jから検索用第２特徴量ｙ_newが出現する確率をＰ（ｙ_new｜ｘ_j）としたときに、確率Ｐ（ｙ_new｜ｘ_j）を次式（１１１）に従って算出するものであってもよい。ただし、式（１１１）において、Ｐ（ｘ_j｜ｚ_i）は隠れ変数ｚ_iから未注釈第１特徴量ｘ_jが出現する確率であり、Ｐ（ｙ_new｜ｚ_i）は隠れ変数ｚ_iから検索用第２特徴量ｙ_newが出現する確率である。

また、前記第１および第２特徴量の組み合わせごとに取得される複数の隠れ変数はクラスタリングにより複数のクラスタに分類されると共に、前記複数のクラスタごとに代表隠れ変数が取得されてもよく、前記学習情報記憶手段は、前記代表隠れ変数と前記隠れ変数の所属クラスタを示す情報とを学習情報として記憶するものであってもよく、前記確率算出手段は、前記複数の隠れ変数のうち、前記代表隠れ変数から前記未注釈第１特徴量が出現する確率が所定の閾値以上となる前記クラスタに所属する前記隠れ変数を用いて、前記未注釈第１特徴量から前記設定された検索用第２特徴量が出現する確率を算出するものであってもよい。これにより、リトリーバルの精度に寄与しない隠れ変数（第１特徴量および第２特徴量の組合わせ）についての確率の計算を省略することが可能となるので、リトリーバルの精度を維持しつつ計算負荷を軽減して処理の高速化を図ることができる。

本発明によるリトリーバル方法は、
メタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とするリトリーバル方法であって、
（ａ）実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する確率および該隠れ変数から任意の第２特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶手段に記憶させるステップと、
（ｂ）指定された少なくとも１つのシンボルに基づいて、該少なくとも１つのシンボルを示す前記第２データの第２特徴量を検索用第２特徴量として設定するステップと、
（ｃ）前記学習情報を用いて、第２データとの対応付けがなされていない第１データである未注釈第１データの特徴として抽出された未注釈第１特徴量から前記設定された検索用第２特徴量が出現する確率を算出するステップと、
（ｄ）ステップ（ｃ）にて算出した確率に基づいて前記記憶手段から前記未注釈第１データを取り出すステップと、
を含むものである。

このリトリーバル方法によれば、少なくとも１つのシンボルが指定された際に、学習情報を用いて未注釈第１データの特徴である未注釈第１特徴量から指定されたシンボルに基づく検索用第２特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順に未注釈第１特徴量に対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行することが可能となる。

本発明によるリトリーバル用プログラムは、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する確率および該隠れ変数から任意の第２特徴量が出現する確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段を備えたコンピュータをメタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とする装置として機能させるリトリーバル用プログラムであって、
指定された少なくとも１つのシンボルに基づいて、該少なくとも１つのシンボルを示す前記第２データの第２特徴量を検索用第２特徴量として設定する検索用第２特徴量設定モジュールと、
前記学習情報を用いて、第２データとの対応付けがなされていない第１データである未注釈第１データの特徴として抽出された未注釈第１特徴量から前記設定された検索用第２特徴量が出現する確率を算出する確率算出モジュールと、
前記算出された算出した確率に基づいて前記未注釈第１データを取り出すデータ取出モジュールと、
を備えるものである。

このリトリーバル用プログラムがインストールされたコンピュータを用いれば、少なくとも１つのシンボルが指定された際に、学習情報を用いて未注釈第１データの特徴である未注釈第１特徴量から指定されたシンボルに基づく検索用第２特徴量が出現する確率を容易かつ高速に算出することができるので、例えば当該確率が高い順に未注釈第１特徴量に対応した実世界情報を取り出すことにより高速かつ精度のよいリトリーバルを実行することが可能となる。

本発明の一実施例に係る画像データ処理システム２０の概略構成図である。画像特徴量と単語特徴量との関係を例示する説明図である。画像特徴量と単語特徴量との間に抽象的概念を導入したモデルを示す説明図である。画像特徴量と単語特徴量との間に抽象的概念を導入したモデルを示す説明図である。正準相関分析を説明するための説明図である。実施例の管理コンピュータ３０により実行される初期学習ルーチンの一例を示すフローチャートである。高次局所自己相関特徴における局所パターンを例示する説明図である。隠れ変数ｓｉごとに付与される確率密度分布を例示する説明図である。実施例の管理コンピュータ３０により実行されるアノテーションルーチンの一例を示すフローチャートである。未注釈画像データにシンボルとしての単語を割り付ける手順を示す説明図である。 “Corel5k”データセットを用いた実験の結果を示す説明図である。実施例の管理コンピュータ３０により実行されるリトリーバルルーチンの一例を示すフローチャートである。シンボルとしての単語に基づいて未注釈画像データに検索する手順を示す説明図である。実施例の管理コンピュータ３０により実行される学習情報更新ルーチンの一例を示すフローチャートである。学習情報更新ルーチンにおけるアルゴリズムの正当性の評価結果を示す説明図である。学習情報更新ルーチンにおけるアルゴリズムの正当性の評価結果を示す説明図である。学習情報更新ルーチンにおけるアルゴリズムの正当性の評価結果を示す説明図である。画像特徴量と単語特徴量との間に抽象的概念を導入した他のモデルを示す説明図である。変形例に係る初期学習ルーチンを示すフローチャートである。正準空間において多数の隠れ変数が離散している様子を示す説明図である。正準空間において離散している多数の隠れ変数が複数のクラスタに分類された様子を示す説明図である。変形例に係るアノテーションルーチンを示すフローチャートである。図２２のステップＳ２１５の処理を説明するための説明図である。変形例に係るリトリーバルルーチンを示すフローチャートである。変形例に係る学習情報更新ルーチンを示すフローチャートである。本発明の他の実施例に係るロボット装置２００の概略構成図である。

次に、実施例を参照しながら本発明を実施するための最良の形態について説明する。

図１は、本発明の一実施例に係る画像データ処理システム２０の概略構成図である。同図に示す画像データ処理システム２０は、データベース化された多数の画像データや単語群データを記憶するデータ記憶装置２１と、データ記憶装置２１上のデータベースを管理すると共に新奇画像データに対するアノテーションや当該データベースの検索（リトリーバル）等を可能とする管理コンピュータ３０とから構成されるものである。管理コンピュータ３０は、図示しないＣＰＵ，ＲＯＭ，ＲＡＭ、システムバス、各種インターフェース、記憶装置等を含むものであり、この管理コンピュータ３０には、例えばインターネット等のネットワークを介して端末５０からアクセスすることができるようになっている。また、管理コンピュータ３０には、図１に示すように、ＣＰＵやＲＯＭ，ＲＡＭ、各種インターフェース、記憶装置といったハードウェアと、予めインストールされた本発明による対応関係学習用プログラムやアノテーション用プログラム、リトリーバル用プログラムといったソフトウェアとの一方または双方の協働により、検索ロボット３１、データ受付部３２、画像特徴量抽出部３３、単語特徴量抽出部３４、学習処理部３５、アノテーション処理部３６、検索クエリ受付部３７、リトリーバル処理部３８、結果出力部３９等が機能ブロックとして構築されている。更に、管理コンピュータ３０には、特徴量記憶装置４０や学習用記憶装置４１が接続されている。

管理コンピュータ３０の検索ロボット３１は、ネットワーク等を介してデータ記憶装置２１のデータベースに記憶されていない画像を含むデータを収集し、データベースを更新する。すなわち、検索ロボット３１は、収集した新たなデータを画像を示す画像データ（第１データ）と画像に現れているものを示すメタデータとしての少なくとも１つの単語（シンボル）を示す単語群データ（第２データ）とに分けると共に両者を対応付けし、画像データと単語群データとをそれぞれデータ記憶装置２１の所定の記憶領域に格納する。なお、検索ロボット３１により収集されたデータにメタデータ（シンボル）が付与されていない場合は、画像データのみがデータ記憶装置２１に記憶される。以下、このようにメタデータ（シンボル）が付与されておらず第２データとしての単語群データとの対応付けがなされていない画像データを「未注釈画像データ」という。データ受付部３２は、各種入力手段を用いた人の手による画像データ（第１データ）の入力や、画像データに対応付けられて当該画像データの画像に現れているものを示すメタデータとしての少なくとも１つの単語（シンボル）を示す単語群データ（第２データ）の入力を受け付け、受け付けたデータをデータ記憶装置２１に格納する。なお、データ受付部３２により受け付けられる第１データとしての画像データにも、第２データとしての単語群データとの対応付けがなされていない未注釈画像データが含まれ得る。

画像特徴量抽出部３３は、画像データからそのデータの特徴を示す画像特徴量（第１特徴量）を抽出し、特徴量記憶装置４０に格納する。実施例の画像特徴量抽出部３３は、画像データから高次局所自己相関特徴（以下、適宜「「ＨＬＡＣ」という）を抽出してベクトルとしての第１特徴量を生成し、生成した第１特徴量を特徴量記憶装置４０に格納する。なお、画像特徴量抽出部３３により抽出される画像特徴量には、未注釈画像データに対応したもの（以下「未注釈画像特徴量」という）も含まれる。単語特徴量抽出部３４は、単語群データからそのデータの特徴を示す単語特徴量（第２特徴量）を抽出し、特徴量記憶装置４０に格納する。

学習処理部３５は、第１および第２特徴量の組み合わせを複数用いた正準相関分析を実行して画像データと単語群データとの関係を学習すると共に、未注釈画像データにメタデータとしての単語群を付与するアノテーションや単語に基づく未注釈画像データの検索（リトリーバル）に必要な学習情報を取得し、取得した学習情報を学習用記憶装置４１に格納する。また、学習処理部３５は、新奇画像データと新奇単語群データとの組み合わせが出現すると、当該新奇組み合わせに基づいて学習情報を更新する。アノテーション処理部３６は、学習用記憶装置４１に記憶された学習情報に基づいて未注釈画像データに対するアノテーションを実行する。検索クエリ受付部３７は、端末５０等から検索クエリとしての少なくとも１つの単語（シンボル）の入力を受け付ける。リトリーバル処理部３８は、検索クエリ受付部３７により受け付けられた検索クエリに基づく未注釈画像データを含む画像データの検索処理（リトリーバル）を実行する。結果出力部３９は、リトリーバル処理部３８の処理の結果を端末５０等に出力する。

そして、上述のような管理コンピュータ３０においては、アノテーション処理部３６による画像データに対するアノテーションや、リトリーバル処理部３８による未注釈画像データのリトリーバルを可能とすべく、予め学習処理部３５により画像特徴量および単語特徴量の組み合わせを複数用いた初期学習ルーチンが実行される。また、アノテーション処理部３６は、未注釈画像データが出現すると、学習用記憶装置４１に記憶された学習情報を用いたアノテーションルーチンを実行する。更に、リトリーバル処理部３８は、検索クエリ受付部３７により検索クエリが受け付けられると、検索クエリに基づいて未注釈画像データを検索するためのリトリーバルルーチンを実行する。また、学習処理部３５は、新奇画像データおよび新奇単語群データの組み合わせが検索ロボット３１やデータ受付部３２等により取得されるたびに、新奇画像データおよび新奇単語群データから抽出される新奇画像特徴量および新奇単語特徴量に基づいて学習情報を更新するための学習情報更新ルーチンを実行する。以下、これらのルーチンの詳細を順番に説明する。

〔初期学習ルーチン〕
初期学習ルーチンの具体的な説明に先立って、まず、初期学習ルーチンの基となる基本的な考え方について説明する。かかる初期学習ルーチンは、画像データに対するアノテーションや未注釈画像データのリトリーバルを可能とするために、実世界情報を示す第１データとしての画像データとシンボルを示す第２データとしての単語群データとの対応関係の学習処理として予め実行されるものである。そして、ここでは、画像データと単語群データとの対応関係すなわち画像とシンボルとの対応関係が、画像データから抽出される画像特徴量と単語群データから抽出される単語特徴量とが同時に出現する確率（Probability）の問題として取り扱われる。このように画像と単語との関係を確率の問題として取り扱うこととすれば、ある画像と単語とが同時に出現する確率を求めることにより、確率が高い順にメタデータとしての単語を画像に割り付けたり、確率が高い順に所望の単語に対応した画像を取り出したりすることが可能となる。ここで、画像データからその特徴として抽出される画像特徴量をｘとし、画像に現れているものを示す少なくとも１つの単語（シンボル）を示す単語群データからその特徴として抽出された画像特徴量をｙとし、画像特徴量ｘと単語特徴量ｙとが同時に出力する確率をＰ（ｘ，ｙ）と表す。

また、実施例では、画像特徴量ｘ（画像データ）と単語特徴量ｙ（単語群データ）との直接的な関係を求める代わりに、画像特徴量ｘと単語特徴量ｙとの間に画像と当該画像に対応した単語とを結びつける抽象的概念が導入される。すなわち、「犬」を例にとって考えると、同じ「犬」であっても、「チワワ」と「セントバーナード」とでは形や大きさ、毛の色等が大きく異なる。従って、図２に示すように形や大きさ、色といった画像上に現れる特徴量（画像特徴量ｘ）と「犬」という単語（単語特徴量ｙ）とを直接的に結びつけることは容易なことではない。その一方で、人間は、基本的にどのような「犬」を見たとしてもそれを「犬」として認識することができる。これは人間が複数の画像上に現れる特徴量と「犬」という単語から「犬とはどのようなものであるか」という抽象的概念（Latent）すなわち直接的に観測されるものではない隠れた情報をすでに獲得しているからと考えられる。

これを踏まえて、実施例では、画像特徴量ｘと単語特徴量ｙとの直接的な関係を求める代わりに、画像特徴量ｘと単語特徴量ｙとの間に抽象的概念Ｌを導入したモデルを用いて、画像（実世界情報）と単語（シンボル）との関係を把握することとした。図３に、抽象的概念Ｌを画像特徴量ｘと単語特徴量ｙとの間に導入したモデルを示す。このように抽象的概念Ｌを用いるとすれば、画像特徴量ｘと単語特徴量ｙとが同時に出現する確率Ｐ（ｘ，ｙ）は、上記式（０）のように表現することができる。ただし、式（０）において、Ｐ（ｘ｜Ｌ）は抽象的概念Ｌから画像特徴量ｘが出現する確率であり、Ｐ（ｙ｜Ｌ）は抽象的概念Ｌから単語特徴量ｙが出現する確率であり、ｐ（Ｌ）は、Ｌという抽象的概念そのものが生じる確率である。また、式（０）は、Ｐ（ｘ｜ｙ，Ｌ）＝Ｐ（ｘ｜Ｌ）という関係を用いて式変形を行ったものであるが、この関係は、図３からわかるように、画像特徴量ｘと単語特徴量ｙとが直接的に関係していないために成立するものである（条件付独立の仮定）。

「犬」を例にとって式（０）の意味を更に説明すると、例えば「色が白いこと」と「チワワ」とが同時に出現する確率は、「白」を画像特徴量（第１特徴量）ｘとすると共に「チワワ」を単語特徴量（第２特徴量）ｙとし、更に「犬という概念」を抽象的概念Ｌとすれば、上記式（０）より、
“Ｐ（白，チワワ）＝Ｐ（白｜犬概念）×Ｐ（チワワ｜犬概念）×Ｐ（犬概念）”
と表すこともできる。ただし、世の中には「犬」という概念のみならず、「猫」という概念や「ねずみ」という概念といったさまざまな概念が存在していることから、確率Ｐ（白，チワワ）としては、例えば「猫」という概念から「白」や「チワワ」が出現する確率や、「ねずみ」という概念から「白」や「チワワ」が出現する確率も考慮しておく必要がある。このような他の抽象的概念をも考慮すれば、確率Ｐ（白，チワワ）は、
“Ｐ（白，チワワ）＝Ｐ（白｜犬概念）×Ｐ（チワワ｜犬概念）×Ｐ（犬概念）＋Ｐ（白｜猫概念）×Ｐ（チワワ｜猫概念）×Ｐ（猫概念）＋Ｐ（白｜ねずみ概念）×Ｐ（チワワ｜ねずみ概念）×Ｐ（ねずみ概念）…”
と表されることになる。このような観点から、式（０）は、判明している抽象的概念のすべてについての確率を積分計算するものとして定義される。もちろん、「猫」という概念から「チワワ」が出現する確率Ｐ（チワワ｜猫概念）や「ねずみ」という概念から「チワワ」が出現する確率Ｐ（チワワ｜ねずみ概念）は極めて小さいことから、これらの「犬」以外の抽象的概念に関連した確率自体は、確率Ｐ（白、チワワ）の値には、ほとんど貢献しない。

さて、上述のように、画像特徴量ｘと単語特徴量ｙとの間に抽象的概念Ｌを導入するとすれば、当然に抽象的概念Ｌを取得することが必要となるが、ここでは、抽象的概念Ｌを取得するために、正準相関分析（Canonical Correlation Analysis）を用いる。正準相関分析は、直接的には関係性が少ない２つの変量群（ここではベクトルとしての画像特徴量ｘおよび単語特徴量ｙ）をそれぞれ共通の空間（正準空間）上の互いに異なる変量群へと変換（射影）し、得られた変量群同士間での相関（関係性）を最大にする変換を求めるものである。すなわち、実施例では、図４および図５に示すように、画像特徴量ｘを正準空間に射影して得られる変量を第１変量ｓとすると共にこの変換をｆ：ｘ→ｓとし、単語特徴量ｙを正準空間に射影して得られる変量を第２変量ｔとすると共にこの変換をｇ：ｙ→ｔとしたときに、正準相関分析により第１変量ｓと第２変量ｔとの相関を最大にする（互いに対応し合う第１および第２変量ｓおよびｔ同士を概ね一致させる）変換ｆおよびｇを求める。そして、正準相関分析により得られた変換ｆにより画像特徴量ｘを正準空間に射影して得られる第１変量ｓと、変換ｇにより単語特徴量ｙを正準空間に射影して得られる第２変量ｔとの少なくとも何れか一方を画像特徴量ｘと単語特徴量ｙとから得られる抽象的概念Ｌを示す隠れ変数として用いるのである。

変換ｆおよびｇを導出する手順について具体的に説明すると、ｐ個の変量を含むベクトルとしての画像特徴量ｘ_i＝（ａ₁，…，ａ_p）^Tと、ｑ個の変量を含むベクトルとしての単語特徴量ｙ_i＝（ｂ₁，…，ｂ_q）^Tとからなるデータ集合｛ｘ_i，ｙ_i｝ⁿ _i=1に対して正準相関分析を適用して上述のような変換ｆおよびｇを求める場合には、上記式（１）および（２）に示すような２つの線形変換を設定する。ここでは、式（１）における射影行列（係数行列）Ａが変換ｆに対応し、式（２）における射影行列（係数行列）Ｂが変換ｇに対応する。そして、射影行列Ａにより正準空間に射影される第１変量ｓ_i（＝（ｓ₁，…，ｓ_p））と射影行列Ｂにより正準空間に射影される第２変量ｔ_i（＝（ｔ₁，…，ｔ_q））との間における相関行列のトレースの絶対値を最大にする射影行列ＡおよびＢを求める。この場合、最適な射影行列Ａ，Ｂは、上記式（３）の固有値問題の解として求められる。ただし、式（３）において、Λ²は固有値を対角要素とする対角行列であり、Ｉは単位行列である。また、共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxは、上記式（４）に示すとおりである（ただし、ｎ＝１であるときに、ｍ_x＝ｘ₁，ｍ_y＝ｙ₁，Ｃ_xx＝Ｃ_yy＝Ｃ_xy＝Ｃ_yx＝Ｏである。）。このように正準相関分析を用いれば、行列の固有値問題を１回計算するだけでデータ集合｛ｘ_i，ｙ_i｝ⁿ _i=1についての変換ｆおよびｇ（射影行列ＡおよびＢ）を得ることが可能であり、データ集合｛ｘ_i，ｙ_i｝ⁿ _i=1が大きい（値ｎすなわち画像特徴量ｘとそれに対応した単語特徴量ｙとの組み合わせの総数が大きい）場合であっても、上記固有値問題を非常に高速に解くことができる。

上述のようにして画像特徴量ｘ_iと単語特徴量ｙ_iとからなるデータ集合｛ｘ_i，ｙ_i｝ⁿ _i=1に対して正準相関分析を適用して射影行列ＡおよびＢを得れば、これらのデータ集合｛ｘ_i，ｙ_i｝ⁿ _i=1や射影行列ＡおよびＢを用いて、正準空間に射影された第１および第２変量ｓ_i，ｔ_iからなるデータ集合｛ｓ_i，ｔ_i｝ⁿ _i=1を得ることができる。また、変換ｆおよびｇに対応した射影行列ＡおよびＢは、互いに対応し合う隠れ変数ｓおよびｔ同士を概ね一致させる（ｓ_i≒ｔ_iとする）ものであるから、抽象的概念Ｌとしては、データ集合｛ｓ_i｝ⁿ _i=1および｛ｔ_i｝ⁿ _i=1のうちの何れか一方を用いることができる。更に、抽象的概念Ｌとして第１変量ｓ_iを利用して隠れ変数をｓ_iとすれば、隠れ変数ｓ_iが有限個であることから、上記式（０）は積分計算式ではなく、単純な和の計算式となり、式（０）を次式（１５）のように変形することができる。更に、隠れ変数ｓ_iの出現確率がｉ＝１〜ｎにおいてすべて同一であると考えれば、式（１５）を次式（１６）のように変形することが可能であり、式（１６）を用いてある画像特徴量ｘとある単語特徴量ｙとが同時に出現する確率Ｐ（ｘ，ｙ）を求めることができる。

上述のような基本的な考え方のもと、画像と単語との関係（画像特徴量ｘと単語特徴量ｙとの関係）を確率の問題として取り扱うこととすれば、ある画像特徴量ｘとある単語特徴量ｙとが同時に出現する確率Ｐ（ｘ，ｙ）を求めることにより、確率が高い順に単語を画像に対して割り付けたり、確率が高い順に所望の単語に対応した画像を取り出したりすることが可能となる。そして、確率Ｐ（ｘ，ｙ）を上記式（１６）に従って求めるためには、任意の画像特徴量をｘとすると共に任意の単語特徴量ｙとすれば、抽象的概念Ｌとしての隠れ変数ｓ_iから任意の画像特徴量ｘが出現する確率Ｐ（ｘ｜ｓ_i）と、隠れ変数ｓ_iから任意の単語特徴量ｙが出現する確率Ｐ（ｙ｜ｓ_i）とを容易かつ高速に求めることができるようにしておく必要がある。このため、実施例の初期学習ルーチンは、以下に説明するように、確率Ｐ（ｘ，ｙ）を容易かつ高速に求めるために必要な情報を予め獲得しておくものとされる。

続いて、図６等を参照しながら、初期学習ルーチンを具体的に説明する。図６に示す初期学習ルーチンは、主として管理コンピュータ３０の学習処理部３５により、画像データ処理システム２０の実質的な運用が開始される前に予め１回実行されるものである。初期学習ルーチンの開始に際して、学習処理部３５は、データ受付部３２またはデータ記憶装置２１から学習用のデータセットを入力する（ステップＳ１００）。学習用データセットは、画像データと、当該画像データに対応付けられて画像に現れているものを示す少なくとも１つの単語を情報として含む単語群データとの組み合わせを複数含むものとされる。そして、個々の画像データと単語群データとの組み合わせは、画像と単語とが精度よく対応するように人の手により調整されたものであると好ましい。こうして学習用のデータセットを入力すると、学習処理部３５は、画像特徴量抽出部３３に対して画像データからの画像特徴量ｘ_iの抽出を指示し、画像特徴量抽出部３３は、ステップＳ１００にて入力された画像データのそれぞれから画像特徴量ｘ_iを抽出すると共に、抽出した画像特徴量ｘ_iを特徴量記憶装置４０の所定の記憶領域に格納する（ステップＳ１１０）。また、学習処理部３５は、単語特徴量抽出部３４に対して単語群データに基づく単語特徴量ｙ_iおよび単一の単語についての単語特徴量ｗの設定を指示し、単語特徴量抽出部３４は、ステップＳ１００にて入力された単語群データに基づいて単語特徴量ｙ_iおよび単語特徴量ｗを設定すると共に、設定した単語特徴量ｙ_iおよび単語特徴量ｗを特徴量記憶装置４０の所定の記憶領域に格納する（ステップＳ１２０）。

ステップＳ１１０における画像特徴量抽出部３３による画像特徴量ｘ_iの抽出について説明すると、実施例において、画像特徴量ｘ_iは、例えば特許第２８３４１５３号公報や特許第２９８２８１４号公報により開示されている高次局所自己相関特徴（ＨＬＡＣ）を示すベクトルとして画像データから抽出される。ＨＬＡＣは、自己相関関数を高次に拡張したものであり、参照点θでの対象画像の輝度値をＨ（θ）とすると、参照点θ周りのＮ個の変位（α₁，α₂，…，α_N）に対するＮ次の自己相関関数ζ_N（α₁，α₂，…，α_N）は次式（１７）のように定義することができる（ただし、変位α_iは、例えばα₁＝（１，１），α₂＝（１，−１），…といったベクトルである。）。式（１７）のような高次の自己相関関数は、次数Ｎや変位（α₁，α₂，…，α_N）の取り方次第で無数に定義できるものではあるが、画像データに関しては、一般に互いに近接し合った画素間における局所的な相関がより重要であると考えられるので、ここでは、次数Ｎを値２として（Ｎ＝０，１，２）、変位を参照点θ周りの局所的な３×３＝９画素の領域に限定し、局所的な領域内における３点までの相関関係を特徴として抽出する。これにより、２値画像に関して、画像の特徴を示す局所パターンは、平行移動により等価とみなせるパターンを除けば、図７に示すように総数２５個となる。なお、図７において、各局所パターンの中心画素が参照点であり、参照点と参照点以外の黒く塗りつぶされた箇所が走査されるべき対象となる。また、図示を省略するが、濃淡画像に関しては、同様に平行移動により等価とみなせるパターンを除けば、画像の特徴を示す局所パターンは総数３５個となる。そして、ｉ番目の画像データについての第１特徴量ｘ_iは、対象となる画像全体を１回走査すると共に局所パターンごとにそれに対応した画素の輝度値の積の総和を取ることにより求められる。具体的には、例えば２値画像の場合、ある画像についての第１特徴量ｘ_iは、“ｘ_i＝（パターンNo.1の総数，パターンNo.2の総数，…，パターンNo.25の総数）^T”というベクトルとなる。このようにして抽出されるＨＬＡＣを示す第１特徴量ｘ_iは、認識対象の位置に依存しないという位置不変性や、認識対象が２つあればそれぞれの特徴ベクトルの和となるという加法性といった性質をもっている。従って、実施例のように、第１特徴量ｘ_iを画像データから抽出されたＨＬＡＣを示すものとすれば、画像からの対象の切り出すための領域分割（セグメンテーション）が不要となるので、画像認識の精度を向上させると共に画像特徴量の取得処理における負荷の低減化を図ることが可能となる。なお、カラー画像については、特開２００６−１６３４５２号公報により開示されているカラーＨＬＡＣを画像特徴量として抽出すればよく、動画像や距離画像については、特開２００６−７９２７２号公報により開示されているＣＨＬＡＣ（立体高次局所自己相関特徴）を画像特徴量として抽出すればよい。

また、ステップＳ１２０における単語特徴量抽出部３４による単語特徴量ｙ_iおよび単語特徴量ｗの抽出について説明すると、ステップＳ１２０では、まずステップＳ１００にて入力したすべての単語群データに含まれる全単語を抽出すると共に、抽出した全単語を例えば抽出した順に配列する。そして、実施例では、各単語群データごとに、全単語の配列に対して、当該単語群データに含まれている単語には評価値（重み）として値１を付与すると共に当該単語群データに含まれていない単語には評価値として値０を付与することにより第２特徴量ｙ_iを設定する。例えば、ある画像データに対応した単語群データに、「空」、「飛行機」、「雲」といった単語が含まれており、全単語の配列が、（空，…，○，…，飛行機，△，…，雲，…，山，…，海，…，□）といったものである場合、当該画像に対応した第２特徴量ｙ_iは、ｙ_i=（１，…，０，…，１，０，…，１，…，０，…，０，…，０）^Tといったベクトルとなる。ただし、上述のように単語群データに含まれている単語に対して評価値として値１を付与する代わりに、例えば単語群データが「空らしさ＝０．３１」、「飛行機らしさ０．８７」といったような評価値をもつものとされている場合には、全単語の配列に対して、単語群データに含まれている単語には対応した評価値を付与すると共に当該単語群データに含まれていない単語には値０を付与することにより単語特徴量ｙ_iを設定してもよい。また、単一の単語についての単語特徴量ｗは、単一のシンボルのみを示す単語群データの特徴量として、上述のようにして抽出された全単語のそれぞれについて設定され、単語特徴量ｗの総数は、抽出された全単語の数と一致する。すなわち、「空」という単語のみを示す単語群データの単語特徴量ｗは、全単語の配列が、（空，…，○，…，飛行機，△，…，雲，…，山，…，海，…，□）といったものである場合、ｗ=（１，０，０，０，…０）^Tといったベクトルとなる。

上述のようにして画像特徴量ｘ_iや単語特徴量ｙ_i等が抽出または設定されると、学習処理部３５は、画像特徴量ｘ_iおよび単語特徴量ｙ_iの組み合わせを複数用いた正準相関分析を実行し、画像特徴量ｘ_iおよび単語特徴量ｙ_iの少なくとも何れか一方に基づいて画像と単語とを結びつける抽象的概念Ｌを示す隠れ変数を導出するための変換を求める（ステップＳ１３０）。すなわち、学習処理部３５は、ステップＳ１３０にて上記式（３）の固有値問題を解くことにより上記式（１）における射影行列Ａを第１変換として算出すると共に式（２）における射影行列Ｂを第２変換として算出し、射影行列ＡおよびＢを学習用記憶装置４１の所定の記憶領域に格納する。更に、学習処理部３５は、画像特徴量ｘ_iおよび単語特徴量ｙ_iの組み合わせごとに（ｉ＝１〜ｎについて）、ステップＳ１３０にて算出した射影行列Ａを用いて各画像特徴量ｘｉを正準空間に射影して得られる隠れ変数ｓ_iを抽象的概念Ｌとして算出し、算出した隠れ変数ｓ_iを学習用記憶装置４１の所定の記憶領域に格納する（ステップＳ１４０）。

ここで、ある画像特徴量ｘとある単語特徴量ｙとが同時に出現する確率Ｐ（ｘ，ｙ）を上記式（１６）に従って求めるためには、隠れ変数ｓ_iから任意の画像特徴量ｘが出現する確率Ｐ（ｘ｜ｓ_i）と、隠れ変数ｓ_iから任意の単語特徴量ｙが出現する確率Ｐ（ｙ｜ｓ_i）とを容易かつ高速に求めることができるようにしておく必要がある。ここで、新奇な第１特徴量ｘ_newを考えると、この第１特徴量ｘ_newを正準空間に射影して得られる隠れ変数ｓ_newが既に算出されている隠れ変数ｓ_iに近ければ近いほど、当該隠れ変数ｓ_iから第１特徴量ｘ_newが出現しやすいと考えるのは極めて合理的である。このため、実施例では、図８に示すように、確率Ｐ（ｘ｜ｓ_i）を隠れ変数ｓ_iを中心とした正規分布（ガウス分布）として表現することとし、学習処理部３５は、ステップＳ１４０にて算出した隠れ変数ｓ_iのそれぞれに対して確率密度分布を設定する（ステップＳ１５０）。この場合、確率的正準相関分析の枠組みを利用すれば、ステップＳ１３０にて算出された射影行列Ａから確率Ｐ（ｘ｜ｓ_i）を上記式（５）のように単純な正規分布として求めることが可能であり、ステップＳ１５０では、式（５）に従って隠れ変数ｓ_iのそれぞれに対して確率密度分布が設定される。

こうして隠れ変数ｓ_iごとに確率密度分布を設定すると、学習処理部３５は、隠れ変数ｓ_iから任意の単語特徴量ｙが出現する確率Ｐ（ｙ｜ｓ_i）とを容易かつ高速に求めることができるように、ステップＳ１００にて入力した単語群データに含まれる全単語のそれぞれについての生起確率Ｐ（ｗ｜ｓ_i）すなわち隠れ変数ｓ_iから単語特徴量ｗが出現する確率を上記式（７）に従って算出し（この場合、式（７）におけるｓｚ_iはｓ_iである。）、算出した生起確率Ｐ（ｗ｜ｓ_i）を学習用記憶装置４１の所定の記憶領域に格納する（ステップＳ１６０）。ここで、言語モデルの一つであるＣＲＭ（Continuous-space Relevance Model）を用いれば、隠れ変数ｓ_iからある単語特徴量ｙが出現する確率Ｐ（ｙ｜ｓ_i）は、次式（１８）のように表すことが可能であり、言語モデルの一つであるＭＢＲＭ（Multiple Bernoulli Relevance Model）を用いれば、確率Ｐ（ｙ｜ｓ_i）は、次式（１９）のように表すことができる。そして、式（１８）および（１９）におけるＰ（ｗ｜ｓｉ）は、ＣＲＭおよびＭＢＲＭの双方で共通の各単語の生起確率であって、上記式（７）に従って計算可能なものである（この場合、式（７）におけるｓｚ_iはｓ_iである。）。なお、式（７）において、μ”は０から１までの実数値をとるパラメータであり、実施例では、例えば値０，８とされる。“μ”が１に近づく程、データセットの画像データに付与された単語群（単語特徴量）が重視され、逆に０に近づくほど全体の出現頻度が重視されることになる。こうして全単語のそれぞれについての生起確率Ｐ（ｗ｜ｓ_i）が算出・記憶されると、画像と単語との関係の学習が完了したことになり、学習処理部３５は、本ルーチンを終了させる。

ここまで説明したように、実施例の画像データ処理システム２０では、画像特徴量ｘ_iおよび単語特徴量ｙ_iの組み合わせを複数用いた正準相関分析により、画像特徴量ｘ_iおよび単語特徴量ｙ_iの少なくとも何れか一方に基づいて画像と当該画像に対応した単語とを結びつける抽象的概念Ｌとしての隠れ変数ｓ_iを導出するための変換としての射影行列ＡおよびＢが算出されると共に（ステップＳ１３０）、射影行列ＡおよびＢを用いて画像特徴量ｘ_iおよび単語特徴量ｙ_iの組み合わせごとに隠れ変数ｓ_iが取得される（ステップＳ１４０）。更に、隠れ変数ｓ_iごとに、ある隠れ変数ｓ_iから任意の画像特徴量ｘが出現する確率Ｐ（ｘ｜ｓ_i）と、ある隠れ変数ｓ_iから任意の単語特徴量ｙが出現する確率Ｐ（ｙ｜ｓ_i）とを得るために必要な情報が導出される（ステップＳ１５０，Ｓ１６０）。これにより、画像特徴量ｘと単語特徴量ｙとが同時に出力する確率Ｐ（ｘ，ｙ）、すなわち、ある画像とシンボルとしての単語とが同時に出現する確率を上記式（１６）に従って容易かつ高速に求めることができる。従って、実施例の画像データ処理システム２０では、例えば当該確率が高い順に単語を画像に対して割り付けることにより高速かつ精度のよいアノテーションを実行したり、例えば当該確率が高い順に所望の単語に対応した画像を取り出すことにより高速かつ精度のよいリトリーバルを実行したりすることが可能となる。

また、上記実施例のように、正準相関分析を用いることにより、画像特徴量ｘ_iおよび単語特徴量ｙ_iの少なくとも何れか一方に基づいて隠れ変数ｓ_iを導出するための変換である射影行列ＡおよびＢを高速に得ることが可能となり、画像と当該画像に対応した単語とを結びつける抽象的概念Ｌとしての隠れ変数ｓ_iをより適正に取得して記憶しておくことができる。更に、学習情報として、隠れ変数ｓ_iから任意の画像特徴量ｘが出現する確率を示す確率密度分布Ｐ（ｘ｜ｓ_i）と、隠れ変数ｓ_iから単一の単語のみを示す単語群データの単語特徴量ｗが出現する確率である生起確率Ｐ（ｗ｜ｓ_i）とを記憶しておけば、ある隠れ変数ｓ_iから任意の画像特徴量ｘが出現する確率と、ある隠れ変数ｓ_iから任意の単語特徴量ｙが出現する確率とを容易かつ高速に得ることが可能となる。この場合、確率密度分布Ｐ（ｘ｜ｓ_i）として、正規分布（ガウス分布）を利用し、上記式（６）に従って隠れ変数ｓ_iのそれぞれに対して確率密度分布を設定すれば、ある隠れ変数ｓ_iから任意の画像特徴量ｘが出現する確率として、実態に即したより適正なものを得ることが可能となる。ただし、確率密度分布Ｐ（ｘ｜ｓ_i）は、上記式（６）に従って設定されてもよい。このように式（６）を用いる場合には、学習用データセットに対して交差検定法を適用することにより、同式中の正準空間の次元ｍ（ｓやｓ_iの次元）や分散Σを求めると好ましい。また、上記式（７）を用いれば、単語特徴量ｗの生起確率Ｐ（ｗ｜ｓｉ）をより適正に算出することが可能となる。ただし、ある隠れ変数ｓ_iから任意の単語特徴量ｙが出現する確率は、正規分布（ガウス分布）からなる確率密度分布を用いて導出されてもよく、このように正規分布を用いる場合には、上記式（８）に従って確率Ｐ（ｗ｜ｓ_i）を算出すればよい（この場合、式（８）におけるｓｚ_iはｓ_iである。）。

そして、実施例において利用される高次局所自己相関特徴（ＨＬＡＣ）は、対象の位置に依存しないという位置不変性や対象が２つあればそれぞれの特徴ベクトルの和となるという加法性といった性質を有すると共に、第１データから対象（特徴）を抽出するための領域分割（セグメンテーション）を不要とするものである。従って、画像データから高次局所自己相関特徴を示すベクトルを抽出して画像特徴量ｘ_iとして用いれば、画像データの特徴をより少ない負荷で高速かつ精度よく抽出することが可能となる。ただし、画像特徴量ｘ_iは、高次局所自己相関特徴以外の他の手法により抽出される特徴であってもよいことはいうまでもない。また、すべての単語群データから抽出される互いに異なる単語の配列に対して、対象となる単語群データに対象となる単語が含まれていれば値０以外の所定値を付与すると共に含まれていなければ値０を付与することにより単語特徴量ｙ_iを設定すれば、少なくとも１つのシンボルとしての単語を示す単語群データの特徴をより適正に抽出することが可能となる。

〔アノテーションルーチン〕
引き続き、管理コンピュータ３０のアノテーション処理部３６により実行されるアノテーションルーチンについて説明する。ここでも、アノテーションルーチンの具体的な説明に先立って、まずアノテーションルーチンの基となる基本的な考え方について説明する。上述のように、例えば新奇な未注釈画像データから抽出された画像特徴量（ＨＬＡＣ）を新奇画像特徴量ｘ_newとしたときに、新奇画像特徴量ｘ_newから単一の単語のみを示す単語群データの単語特徴量ｗが出現する確率Ｐ（ｗ｜ｘ_new）を求め、確率が高い順に単語特徴量ｗに対応した単語を新奇画像特徴量ｘ_newに対応した未注釈画像データに対して割り付けていけば、未注釈画像データに対して適切な単語群を割り付けることが可能となる。ここで、新奇画像特徴量ｘ_newから単語特徴量ｗが出現する確率Ｐ（ｗ｜ｘ_new）は、ベイズの定理より、次式（２０）のように表すことが可能であり、式（１６）を用いれば式（２０）は、次式（２１）のように変形することができる。また、式（２１）において、確率Ｐ（ｘ_new）は、どの単語特徴量ｗに対しても同じ値をとることから、これを定数とみなせば、画像特徴量ｘ_newから単語ｗが出現する確率Ｐ（ｗ｜ｘ_new）は、結局、上記式（１３）のように表すことができる。

続いて、図９を参照しながら、上述のような基本的な考え方に基づくアノテーションルーチンについて説明する。図９に示すアノテーションルーチンは、基本的に、管理コンピュータ３０に対して単語群データとの対応付けがなされていない未注釈画像データが入力されると、管理コンピュータ３０のアノテーション処理部３６により実行されるものである。ただし、アノテーション精度を向上させるべく既に単語群データとの対応付けがなされている画像データに対してアノテーションルーチンを適用してもよいことはいうまでもない。図９のアノテーションルーチンの開始に際して、アノテーション処理部３６は、データ受付部３２またはデータ記憶装置２１から対象となる未注釈画像データ（新奇画像データ）を入力すると共に、学習用記憶装置４１からすべての単語特徴量ｗの生起確率Ｐ（ｗ｜ｓｉ）を入力する（ステップＳ２００）。こうしてアノテーションに必要なデータや情報を入力すると、アノテーション処理部３６は、画像特徴量抽出部３３に対して未注釈画像データからの新奇画像特徴量ｘ_newの抽出を指示し、画像特徴量抽出部３３は、未注釈画像データから高次局所自己相関特徴を示すベクトルを新奇画像特徴量ｘ_newとして抽出し、抽出した新奇画像特徴量ｘ_newを特徴量記憶装置４０の所定の記憶領域に格納する（ステップＳ２１０）。

新奇画像特徴量ｘ_newが抽出・記憶されると、アノテーション処理部３６は、学習用記憶装置４１に記憶されている隠れ変数ｓ_iごとに、隠れ変数ｓ_iから新奇画像特徴量ｘ_newが出現する確率Ｐ（ｘ_new｜ｓ_i）を算出する（ステップＳ２２０）。ステップＳ２２０では、学習用記憶装置４１に記憶されている隠れ変数ｓ_iごとの確率密度分布Ｐ（ｘ｜ｓ_i）を用いてすべての隠れ変数ｓ_iについて確率Ｐ（ｘ_new｜ｓ_i）を算出する。隠れ変数ｓ_iごとに確率Ｐ（ｘ_new｜ｓ_i）を算出すると、アノテーション処理部３６は、上記式（１３）に従って単語特徴量ｗごとに（全単語のそれぞれについて）画像特徴量ｘ_newから単語特徴量ｗが出現する確率Ｐ（ｗ｜ｘ_new）を算出する（ステップＳ２３０）。例えば、確率密度分布Ｐ（ｘ｜ｓ_i）が上記式（６）に従って設定されており、図１０に示すような画像特徴量ｘ_iと単語特徴量ｙ_iとの組み合わせが存在している状態で、図１０の未注釈画像データが出現したとする。この場合、新奇隠れ変数ｓ_newをｓ_new＝Ａ・ｘ_newとすれば、同図に示すように、確率Ｐ（ｘ_new｜ｓ_i）＝ｈ_iを図１０に示すように得ることができる。そして、画像特徴量ｘ_newから単語「犬」、「猫」、「ねずみ」…についての単語特徴量ｗが出現する確率は、それぞれ、
Ｐ（犬｜ｘ_new）＝ｈ₁×Ｐ（犬｜ｓ_i）＋ｈ₂×Ｐ（犬｜ｓ₂）＋ｈ₃×Ｐ（犬｜ｓ₃）＋ｈ₄×Ｐ（犬｜ｓ₄ ）＋ｈ₅×Ｐ（犬｜ｓ₅）＋ｈ₆×Ｐ（犬｜ｓ₆）…
Ｐ（猫｜ｘ_new）＝ｈ₁×Ｐ（猫｜ｓ_i）＋ｈ₂×Ｐ（猫｜ｓ₂）＋ｈ₃×Ｐ（猫｜ｓ₃）＋ｈ₄×Ｐ（猫｜ｓ₄ ）＋ｈ₅×Ｐ（猫｜ｓ₅）＋ｈ₆×Ｐ（猫｜ｓ₆）…
Ｐ（ねずみ｜ｘ_new）＝ｈ₁×Ｐ（ねずみ｜ｓ_i）＋ｈ₂×Ｐ（ねずみ｜ｓ₂）＋ｈ₃×Ｐ（ねずみ｜ｓ₃）＋ｈ₄×Ｐ（ねずみ｜ｓ₄ ）＋ｈ₅×Ｐ（ねずみ｜ｓ₅）＋ｈ₆×Ｐ（ねずみ｜ｓ₆）…
といったように算出することができる。

こうして全単語（全単語特徴量ｗ）のそれぞれについて確率Ｐ（ｗ｜ｘ_new）を算出すると、アノテーション処理部３６は、所定の判定基準に従い、確率Ｐ（ｗ｜ｘ_new）の高い順に単語特徴量ｗにより示される単語を抽出する（ステップＳ２４０）。なお、ステップＳ２４０における判定基準は任意に定めることが可能であり、例えば、確率Ｐ（ｗ｜ｘ_new）の高い順に所定数の単語を抽出してもよいし、確率Ｐ（ｗ｜ｘ_new）の値に対して閾値を設けて閾値よりも高い確率Ｐ（ｗ｜ｘ_new）に対応した単語を抽出してもよい。例えば、図１０の例において、Ｐ（猫｜ｘ_new）＞Ｐ（ねずみ｜ｘ_new）＞Ｐ（犬｜ｘ_new）…であったとすれば、猫、ねずみ、犬という優先順位で単語が抽出される。そして、アノテーション処理部３６は、ステップＳ２４０にて抽出した単語に基づいて、図６のステップＳ１２０と同様の手順に従って新奇画像特徴量ｘ_newに対応した新奇単語特徴量ｙ_newや単語特徴量ｗを設定すると共に新奇画像データに対応した新奇単語群データを設定し、これらのデータを特徴量記憶装置４０やデータ記憶装置２１に格納した後（ステップＳ２５０）、本ルーチンを終了させる。これにより、未注釈画像データに対してシンボルとしての単語が割り付けられることになる。

ここまで説明したように、実施例の画像データ処理システム２０では、画像特徴量ｘ_iと単語特徴量ｙ_iとの少なくとも何れか一方に基づいて画像と当該画像に対応した単語とを結びつける抽象的概念Ｌとしての隠れ変数ｓ_iを導出するために正準相関分析により取得される射影行列ＡおよびＢと、当該射影行列ＡおよびＢを用いて画像特徴量ｘ_iおよび単語特徴量ｙ_iの組み合わせごとに取得される隠れ変数ｓ_iと、ある隠れ変数ｓ_iから任意の画像特徴量ｘが出現する確率Ｐ（ｘ｜ｓ_i）およびある隠れ変数ｓ_iから任意の単語特徴量ｙが出現する確率Ｐ（ｙ｜ｓ_i）とを得るために必要な情報とを含む学習情報が学習用記憶装置４１に記憶されている。従って、画像データ処理システム２０では、管理コンピュータ３０に未注釈画像データが受け付けられた際に、学習情報を用いて新奇画像特徴量ｘ_newから単語特徴量ｗが出現する確率Ｐ（ｗ｜ｘ_new）を上記式（１３）に従って容易かつ高速に求めることができる。これにより、確率Ｐ（ｗ｜ｘ_new）が高い順に単語を未注釈画像データに対して割り付けることにより高速かつ精度のよいアノテーションを実行することが可能となる。更に、上記実施例のように、新奇画像特徴量ｘ_newに対応した新奇単語特徴量ｙ_newを設定すれば（ステップＳ２５０）、これら新奇画像特徴量ｘ_newおよび新奇単語特徴量ｙ_newを後述の学習情報更新ルーチンの実行に際して新たなデータセットとして用いることが可能となる。

図１１に、上述のアノテーションルーチンの正当性を評価するために行った“Corel5k”データセットを用いた実験の結果を示す。同図からわかるように、本発明に基づく“Proposed(1dim)”および“Proposed(2dim)”は、この実験の総合的な結果を示す“Mean F-value”の値が他の従来手法に比べて大きく、他の従来手法に比べて高いアノテーション性能を有している。なお、図１１における“Proposed(1dim)”は、１次のＨＬＡＣを画像特徴量として用いるものであり、“Proposed(2dim)”は、２次のＨＬＡＣを画像特徴量として用いるものである。この場合、“Proposed(1dim)”の方が“Proposed(2dim)”よりも高速な処理を可能とする。

〔リトリーバルルーチン〕
引き続き、管理コンピュータ３０のリトリーバル処理部３８により実行されるリトリーバルルーチンについて説明する。ここでも、リトリーバルルーチンの具体的な説明に先立って、まずリトリーバルルーチンの基となる基本的な考え方について説明する。上述のように、複数の未注釈画像データの中から所望の単語群に対応した画像データを取り出すリトリーバルを実行するためには、未注釈画像データの画像特徴量から当該単語群に基づく単語特徴量が出現する確率を求めればよい。すなわち、多数の未注釈画像データが存在する場合、未注釈画像データの画像特徴量ごとに当該画像特徴量から上記単語群に基づく単語特徴量が出現する確率を求めると共に当該確率が高い順に未注釈画像データを取り出すことにより、多数の未注釈画像データの中から所望の単語群に対応したものを取り出すことが可能となる。ここで、単語群データとの対応付けがなされていない未注釈画像データから抽出された未注釈画像特徴量をｘ_jとし（ただし、ｊ＝１，…，Ｎであり、“Ｎ”は未注釈画像データの総数を示す。）、画像データを取り出すための検索クエリに相当する単語群に基づく単語特徴量を検索用単語特徴量ｙ_newとすれば、未注釈画像特徴量ｘ_iから検索用単語特徴量ｙ_newが出現する確率Ｐ（ｙ_new｜ｘ_i）は、ベイズの定理や上記式（０）等を利用すると、次式（２２）のように表すことができる。そして、抽象的概念Ｌとして隠れ変数｛ｓ_i｝ⁿ _i=1を利用すると共に、Ｐ（ｓ_i）＝１／ｎとすれば、式（２２）を更に変形させた次式（２３）から確率Ｐ（ｙ_new｜ｘ_i）を求めることが可能となる。

続いて、図１２を参照しながら、上述のような基本的な考え方に基づくリトリーバルルーチンについて説明する。図１２に示すリトリーバルルーチンは、検索クエリ受付部３７により端末５０等を介したユーザからの検索クエリとしての少なくとも１つの単語の入力が受け付けられると、管理コンピュータ３０のリトリーバル処理部３８により実行されるものである。図１２のリトリーバルルーチンの開始に際して、リトリーバル処理部３８は、検索クエリ受付部３７から検索クエリとしての単語群（少なくとも１つの単語）を入力すると共に、特徴量記憶装置４０からすべての未注釈画像特徴量ｘ_jを入力する（ステップＳ３００）。次いで、リトリーバル処理部３８は、単語特徴量抽出部３４に対して検索用単語特徴量ｙ_newの設定を指示し、単語特徴量抽出部３４は、図６のステップＳ１２０と同様の手順に従ってステップＳ３００にて入力した単語群に基づく検索用単語特徴量ｙ_newを設定すると共に、設定した検索用単語特徴量ｙ_newをデータ記憶装置２１に格納する（ステップＳ３１０）。

検索用単語特徴量ｙ_newが設定・記憶されると、リトリーバル処理部３８は、学習用記憶装置４１に記憶されている隠れ変数ｓ_iごとの確率密度分布Ｐ（ｘ｜ｓ_i）を用いて、すべての隠れ変数ｓ_iとすべての未注釈画像特徴量ｘ_jとについて隠れ変数ｓ_iから未注釈画像特徴量ｘ_jが出現する確率Ｐ（ｘ_j｜ｓ_i）を算出すると共に、隠れ変数ｓ_iごとに隠れ変数ｓ_iから検索用単語特徴量ｙ_newが出現する確率Ｐ（ｙ_new｜ｓ_i）を算出する（ステップＳ３２０）。かかるステップＳ３２０の処理の後、リトリーバル処理部３８は、上記式（２３）に従って、未注釈画像データｘ_jごとに未注釈画像データｘ_jから検索用単語特徴量ｙ_newが出現する確率Ｐ（ｙ_new｜ｘ_j）を算出する（ステップＳ３３０）。こうして未注釈画像データｘ_jごとに確率Ｐ（ｙ_new｜ｘ_j）を算出すると、リトリーバル処理部３８は、所定の判定基準に従い、確率Ｐ（ｙ_new｜ｘ_j）の高い順に未注釈画像特徴量ｘ_jに対応した未注釈画像データをデータ記憶装置２１から読み出し（ステップＳ３４０）、結果出力部３９に与える。なお、ステップＳ３４０における判定基準は任意に定めることが可能であり、例えば、確率Ｐ（ｙ_new｜ｘ_j）の高い順に所定数の未注釈画像データを読み出してもよいし、確率Ｐ（ｙ_new｜ｘ_j）の値に対して閾値を設けて閾値よりも高い確率Ｐ（ｙ_new｜ｘ_j）に対応した未注釈画像データを読み出してもよい。例えば、「チワワ」という単語を入力として（検索用画像特徴量ｙ_newとして）未注釈画像データをランク付しながら取り出す場合に、確率Ｐ（チワワ｜ｘ_j）の計算結果が図１３に示すようになったとする。この場合、図１３からわかるように、Ｐ（チワワ｜画像（ａ））＞Ｐ（チワワ｜画像（ｃ））＞Ｐ（チワワ｜画像（ｂ））＞Ｐ（チワワ｜画像（ｄ））となることから、例えば画像（ａ）、画像（ｃ）、画像（ｂ）、画像（ｄ）という順番で未注釈画像データが読み出される。そして、結果出力部３９がリトリーバル処理部３８からの未注釈画像データに基づいて問い合わせ先である端末５０等に対して所定の態様でリトリーバル処理の結果を通知すると（ステップＳ３５０）、本ルーチンが終了することになる。

ここまで説明したように、実施例の画像データ処理システム２０では、画像特徴量ｘ_iと単語特徴量ｙ_iとの少なくとも何れか一方に基づいて画像と当該画像に対応した単語とを結びつける抽象的概念Ｌとしての隠れ変数ｓ_iを導出するために正準相関分析により取得される射影行列ＡおよびＢと、当該射影行列ＡおよびＢを用いて画像特徴量ｘ_iおよび単語特徴量ｙ_iの組み合わせごとに取得される隠れ変数ｓ_iと、ある隠れ変数ｓ_iから任意の画像特徴量ｘが出現する確率Ｐ（ｘ｜ｓ_i）およびある隠れ変数ｓ_iから任意の単語特徴量ｙが出現する確率Ｐ（ｙ｜ｓ_i）とを得るために必要な情報とを含む学習情報が学習用記憶装置４１に記憶されている。従って、画像データ処理システム２０では、検索クエリ受付部３７により少なくとも１つの単語（検索クエリ）の入力が受け付けられた際に、学習情報を用いて未注釈画像特徴量ｘ_jから検索用単語特徴量ｙ_newが出現する確率Ｐ（ｙ_new｜ｘ_j）を上記式（１４）に従って容易かつ高速に求めることができる。これにより、確率Ｐ（ｙ_new｜ｘ_j）が高い順に未注釈画像特徴量ｘ_jに対応した未注釈画像データをデータ記憶装置２１から読み出すことにより高速かつ精度のよいリトリーバルを実行することが可能となる。

〔学習情報更新ルーチン〕
引き続き、実施例の画像データ処理システム２０において実行される学習情報更新ルーチンについて説明する。ここで、画像データ処理システム２０において取り扱われる実世界情報を示す第１データとしての画像データと、それに対応した第２データである単語群データとの組み合わせ、すなわち画像特徴量ｘ_iと単語特徴量ｙ_iとの組み合わせは、基本的に無限に増加し得るものである。このため、新奇画像特徴量と当該新奇画像特徴量に対応した新奇単語特徴量との組み合わせが出現するたびに、当該新奇画像特徴量と新奇単語特徴量との組み合わせを含むすべての組み合わせについて正準相関分析等を実行して上記変換や隠れ変数、確率を得るための情報を求めるとすれば、管理コンピュータ３０の処理負担が多大なものとなってしまう。このため、実施例の画像データ処理システム２０では、新奇画像特徴量と当該新奇画像特徴量に対応した新奇単語特徴量との組み合わせが出現するたびに、新奇画像特徴量と新奇単語特徴量とに基づいて射影行列ＡおよびＢや隠れ変数ｓ_i等を更新する学習情報更新ルーチンが実行されるのである。

学習情報更新ルーチンの具体的な説明に先立って、まず、学習情報更新ルーチンの基となる基本的な考え方について説明する。ここで、上記式（１）〜（４）におけるｘ〜＝ｘ−ｍ_xおよびｙ〜＝ｙ−ｍ_yの主成分分析を考える。係数行列をＥ_x，Ｅ_yとすれば、ｘ〜およびｙ〜の主成分ｇ，ｈは、次式（２４）のように表され、係数行列Ｅ_x，Ｅ_yは、次式（２５）の固有値問題の解として求められる（ただし、式（２５）においてΛ_xおよびΛ_yは固有値を対角要素とする対角行列である。）。更に、主成分ｇ，ｈを次式（２６）に従って射影するとすれば、この射影空間においては相関行列が単位行列となる。更に、第１特徴量（画像特徴量）ｘを無相関化した変量である第１無相関化成分ｕと第２特徴量（単語特徴量）ｙを無相関化した変量である第２無相関化成分ｖとの間の正準相関分析（式（２７）参照）を考えると、上記式（３）の固有値問題を次式（２８）のように簡略化することが可能であり、これは共分散行列Ｃ_uvの特異値分解（ＳＶＤ）に相当する。従って、上記式（３）の固有値問題を解く正準相関分析は、正規化空間における共分散行列Ｃ_uvの特異値分解として処理することができる。そして、かかる正準相関分析は、主として、第１および第２特徴量ｘ，ｙの固有値問題を解いて無相関化する処理と、共分散行列Ｃ_uvの特異値分解処理とに分けることにより、以下に説明するように逐次的に実行することが可能となる。

まず、第１特徴量ｘや第２特徴量ｙを逐次的に無相関化する処理（第１および第２無相関化成分取得処理）について説明する。ここでは、ＣＣＩＰＣＡ (J. Weng, Y. Zhang, and W. Hwang. Candid Covariance-Free Incremental Principal Component Analysis. IEEE Trans. on PAMI, Vol. 25, No. 8, pp.1034-1040, 2003.)を利用し、予めｎ−１個の第１特徴量ｘ_iが存在している状態で上記式（２５）における第１特徴量ｘについての固有値問題を解いて、固有ベクトルを列ベクトルとしてもつ次式（２９）に示す行列Ｅ_xと、次式（３０）に示す固有値を対角化した行列Λ_xとを得る。更に、第１特徴量ｘの次元をｐとして、行列Ｅ_xの各列ベクトルと行列Λ_xとからｊ番目（ｊ＝１，…，ｐである。）の固有ベクトルω_xj（ｎ−１）を次式（３１）に従って算出する。

こうして、ｎ−１個の第１特徴量ｘｉに関して行列Ｅ_xや行列Λ_x、固有ベクトルω_xj（ｎ−１）が求められている状態で、ｎ個目の第１特徴量ｘ_nがそれに対応した第２特徴量ｙ_nと共に出現したとする。この場合、ｎ個の第１特徴量ｘ_iの平均ｍ_x（ｉ）を次式（３２）を用いて推定・取得すると共に、ｊ＝１の偏差ｘ₁〜（ｎ）を次式（３３）に従って算出する。そして、１〜ｐまでのｊに関して、次式（３４）のｊ番目の固有ベクトルω_xj（ｎ）、次式（３５）の固有値λ_xj（ｎ）、次式（３６）の正規化された固有ベクトルｅ_xj（ｎ）、および次式（３７）の残差ベクトルｘ_j+1〜（ｎ）を繰り返し算出する。これにより、ｎ個の第１特徴量ｘ_iに関する固有空間へのマッピングとしての行列Ｅ_x（ｎ），Λ_x（ｎ）および新奇第１無相関化成分ｕ（ｎ）を上記式（９）のように得ることができる。

同様にして、第２特徴量ｙについても、次式（３８）〜（４０）を用いてｎ−１個の第２特徴量ｙ_iに関して行列Ｅ_xや行列Λ_x、固有ベクトルω_xj（ｎ−１）が求められている状態でｎ個目の第２特徴量ｙ_nがそれに対応した第１特徴量ｘ_nと共に出現したならば、次式（４１）および（４２）の計算を実行すると共に、１〜ｑ（ただし、“ｑ”は第２特徴量ｙの次元である。）までのｊに関して、次式（４３）のｊ番目の固有ベクトルω_yj（ｎ）、次式（４４）の固有値λ_yj（ｎ）、次式（４５）の正規化された固有ベクトルｅ_yj（ｎ）、および次式（４６）の残差ベクトルｙ_j+1〜（ｎ）を繰り返し算出する。これにより、ｎ個の第２特徴量ｙ_iに関する固有空間へのマッピングとしての行列Ｅ_y（ｎ），Λ_y（ｎ）および新奇第２無相関化成分ｖ（ｎ）を上記式（１０）のように得ることができる。

続いて、共分散行列Ｃ_uvの特異値分解を逐次的に実行する手順を説明する。この処理は、上記式（２８）を逐次的に解くものであるが、ここでは、射影行列Ａ，Ｂの代わりに、それぞれの各要素の列ベクトルａ，ｂを個々に取り扱うこととする。これにより、式（２８）は、次式（４７）のように表すことができる。ただし、式（４７）において、λ²はベクトルａ，ｂに対応した固有値である。そして、式（４７）のうちの上式である式（４８）を考え、式（４８）の共分散行列Ｃ_uv，Ｃ_vuをサンプルを用いた表現に置き換えると共にベクトルａをｎ個目のサンプル取得時における推定値ａ（ｎ）で置き換え、更に、新奇第１無相関化成分ｕ（ｎ）に関する正準相関係数ベクトルをＺ_u（ｎ）とし、Ｚ_u（ｎ）＝λ²ａ＝Ｃ_uvＣ_vuａとすれば、正準相関係数ベクトルＺ_u（ｎ）を次式（４９）のように表すことができる。更に、かかる式（４９）は、次式（５０）のように変形することができる。こうして式（５０）を得ると、ａ（ｎ）という推定値をどのように得るかが問題となる。そこで、ａ＝Ｚ_u／||Ｚ_u||という関係から、ａ（ｎ）＝Ｚ_u（ｎ−１）／||Ｚ_u（ｎ−１）||とし、これを式（５０）に代入すると、次式（５１）を得ることができる。また、上記式（４８）より次式（５２）が成立すると共に、正準相関分析の式（４７）を得る過程でＣ_vuａ＝λｂが成立していることを利用すれば、次式（５３）が成立する。更に、λ（ｎ−１）の推定値を次式（５４）のように表すことができるので、式（５４）を利用すれば、式（５３）を次式（５５）のように変形することができる。

そして、上記式（５１）に式（５２）および式（５５）を適用して整理すれば、正準相関係数ベクトルＺ_u（ｎ）を次式（５６）のように表すことが可能となる。同様に、上記式（４７）の下式（Ｃ_vuＣ_uvｂ＝λ²ｂ）についても、第２無相関化成分ｖ（ｎ）に関する正準相関係数ベクトルをＺ_v（ｎ）とし、Ｚ_v（ｎ）＝λ²ｂ＝Ｃ_vuＣ_uvｂとすれば、正準相関係数ベクトルＺ_v（ｎ）を次式（５７）のように表すことが可能となる。また、サンプル数（データセットの総数）ｎが大きい場合には、（（ｎ−１）／ｎ）²≒（ｎ−２）／ｎと置き換えると共に（ｎ−１）／ｎ²≒１／ｎと置き換えることができるので、これらの関係を利用して、式（５６）および（５７）をそれぞれ次式（５８）および（５９）のように書き換えることができる。かかる式（５８）および（５９）は、（新たな正準相関係数ベクトル）＝（重み）×（旧正準相関係数ベクトル）＋（１−重み）×（入力データｕ（ｎ），ｖ（ｎ）から得られる正準相関係数ベクトル）という関係を示していると解釈し得る。

ここで、式（５８）について更に検討すると、次式（６０）および（６１）の関係を利用することにより、上記式（５８）は、次式（６２）のように表すことができる。かかる式（６２）における“ｖ^T（ｎ）・Ｚ_v（ｎ−１）”は、“ｖ（ｎ）”と“Ｚ_v（ｎ−１）”との内積であり、これら２つのベクトルの類似度を示すスカラ、すなわち、新規入力ベクトルｖ（ｎ）が正準相関係数ベクトルＺ_v（ｎ−１）とどの程度類似しているかを示す量である。このために、式（６２）の第２項の“１／λ（ｎ−１）・ｕ（ｎ）・ｖ^T（ｎ）・Ｚ_v（ｎ−１）”という成分は、“ｕ（ｎ）”を相手側の入力ベクトルｖ（ｎ）と相手側の正準相関係数ベクトルＺ_v（ｎ−１）との類似度に応じてスケールしたものとなり、先頭の１／λ（ｎ−１）は、当該成分のベクトルのノルムをλ²にするための正規化項となる。更に、式（６２）の第２項“１／λ（ｎ−１）・ｕ（ｎ）・ｖ^T（ｎ）・Ｚ_v（ｎ−１）−Ｚ_u（ｎ−１）”は、相手方の入力ベクトルｖ（ｎ）の正準相関係数ベクトルＺ_v（ｎ−１）への類似度に応じてスケールされた入力ｕ（ｎ）とｕ（ｎ）側の正準相関係数ベクトルＺ_v（ｎ−１）との差分を１／ｎ倍したものに相当する。一方、かかる式（６２）における“ｕ^T（ｎ）・Ｚ_u（ｎ−１）”は、新規入力ベクトルｖ（ｎ）が正準相関係数ベクトルＺ_u（ｎ−１）とどの程度類似しているかを示す量である。このために、式（６２）の第３項の“λ^-（ｎ）／λ²（ｎ−１）・ｕ^-（ｎ）・ｕ^T（ｎ）・Ｚ_u（ｎ−１）”という成分は、“ｕ^-（ｎ）”を相手側の入力ベクトルｖ（ｎ）と相手側の正準相関係数ベクトルＺ_v（ｎ−１）との類似度に応じてスケールしたものとなり、先頭のλ^-（ｎ）／λ²（ｎ−１）は、当該成分のベクトルのノルムをλ²にするための正規化項となる（なお、“ｕ^-（ｎ）”や“λ^-（ｎ）”における上付きの“−”は、アッパーライン（推定値）を示すこととする。以下同様。）。また、ｕ^-（ｎ）が上記式（６１）の関係から得られたものであることに留意すると、ｕ^-（ｎ）は、ｖ（ｎ）から推定されるｕ側のベクトルといえる。従って、式（６２）の第３項“λ^-（ｎ）／λ²（ｎ−１）・ｕ^-（ｎ）・ｕ^T（ｎ）・Ｚ_u（ｎ−１）−Ｚ_u（ｎ−１）”は、こちら側（ｕ側）の入力ベクトルｕ（ｎ）の正準相関係数ベクトルＺ_u（ｎ−１）への類似度に応じてスケールされた入力ｖ（ｎ）から推定されるｕ（ｎ）側の正準相関係数ベクトルＺ_u（ｎ−１）との差分を１／ｎ倍したものに相当する。従って、新たな正準相関係数ベクトルＺ_u（ｎ）は、旧正準相関係数ベクトルＺ_u（ｎ−１）を新規入力ベクトルｕ（ｎ）の方向と、ｖ（ｎ）から推定されるｕ^-（ｎ）の方向とに、相手方の類似度に応じてほんの少しだけ引っ張ることで得られると解釈できる。同様に、Ｚ_v（ｎ）についても、次式（６３）および（６４）の関係を利用することにより、上記式（５９）を次式（６５）のように表すことができる。従って、新たな正準相関係数ベクトルＺ_v（ｎ）も、旧正準相関係数ベクトルＺ_v（ｎ−１）を新規入力ベクトルｖ（ｎ）の方向と、ｕ（ｎ）から推定されるｖ^-（ｎ）の方向とに、相手方の類似度に応じてほんの少しだけ引っ張ることで得られると解釈できる。

さて、上述のように解釈され得る式（５８）および（５９）には、更に収束性を速めるべく、ＣＣＩＰＣＡと同様に忘却率ｌ（一般に２〜４の値）を導入することができる。また、サンプル数ｎが大きくなると入力データから得られる正準相関係数ベクトルの影響が殆ど無くなってしまうため、サンプル数ｎが大きくなってもこの影響をある程度残すためには、式（５８）および（５９）に対して感度率α（非常に小さい正の数）を導入すると好ましい。このように忘却率ｌと感度率αとを導入すれば、式（５８）および（５９）は、次式（６６）および（６７）のように書き換えることができる。こうして得られる式（６６）および（６７）を用いれば、ｎ個目の第１特徴量ｘⁿおよび第２特徴量ｙⁿの出現に伴って取得された新奇第１無相関化成分ｕ（ｎ）および新奇第２無相関化成分ｖ（ｎ）に基づいて正準相関係数ベクトルを推定することが可能となる。そして、式（６６）および（６７）を用いて推定される正準相関係数ベクトルよりも高次の正準相関係数ベクトルを推定するために、ＣＣＩＰＣＡと同様に式（６６）および（６７）を用いて推定される正準相関係数ベクトルと入力ベクトルとの残差ベクトルを生成し，残差ベクトルを改めて入力ベクトルとして式（６６）および（６７）に導入すればよい。ｊ番目の正準相関係数ベクトルとｊ番目の入力ベクトルから残差ベクトルを得るためには、次式（６８）および（６９）を用いることができる。

以上をまとめると、共分散行列Ｃ_uvの逐次的な特異値分解は、次のような手順に従って実行されればよい。すなわち、ｎ−１個の第１無相関化成分ｕ（１）〜ｕ（ｎ−１）および第２無相関化成分ｖ（１）〜ｖ（ｎ−１）の組み合わせが存在している状態で、これらのデータに基づいて式（２８）におけるＣ_uvの特異値分解を実行すると共に、共分散行列の推定値を次式（７０）に従い設定する。更に、ｒ＝ｍｉｎ｛ｐ，ｑ｝として、式（７１）の行列Ｅｕ，Ｅｖの各列ベクトルと行列Λとからｊ番目（ｊ＝１，…，ｒである。）の正準相関係数ベクトルＺ_uｊ（ｎ−１）およびＺ_vｊ（ｎ−１）を次式（７２）に従って算出する。

こうして、ｎ−１個の第１無相関化成分ｕ（１）〜ｕ（ｎ−１）および第２無相関化成分ｖ（１）〜ｖ（ｎ−１）の組み合わせに関して行列Ｅ_u，Ｅ_v，Λや正準相関係数ベクトルＺ_uj（ｎ−１）およびＺ_vj（ｎ−１）が求められている状態でｎ個目の新奇第１無相関化成分ｕ（ｎ）および新奇第２無相関化成分ｖ（ｎ）が出現したとする。この場合、新奇第１無相関化成分ｕ（ｎ）および新奇第２無相関化成分ｖ（ｎ）を用いてｕ₁（ｎ）＝ｕ（ｎ），ｖ₁（ｎ）＝ｖ（ｎ）とする初期化を行うと共に、共分散行列を次式（７３）および（７４）に従って更新する。ただし、式（７３）および（７４）において、“ｌ”は忘却率であり、“α”は感度率である。そして、１〜ｒまでのｊに関して、上記式（６６）および（６７）に基づく次式（７５）および（７６）のｊ番目の固有ベクトルＺ_uj（ｎ），Ｚ_vj（ｎ）、次式（７７）の固有値λ_uj（ｎ），λ_vj（ｎ）、次式（７８）の正規化された固有ベクトルｅ_uj（ｎ），ｅ_vj（ｎ）、および上記式（６８）および（６９）の残差ベクトルｕ_j+1（ｎ）およびｖ_j+1（ｎ）を繰り返し算出する。これにより、特異値分解の結果として、行列Ｅ_u（ｎ），Ｅ_v（ｎ），Λ_u（ｎ），Λ_v（ｎ）や共分散行列の推定値Ｃ^- _uv（ｎ），Ｃ^- _vu（ｎ）を次式（７９），（８０）および（８１）のように得ることができる。

このように、第１および第２無相関化成分取得処理によりｎ個の第１特徴量ｘ_iおよび第２特徴量ｙ_iに関する固有空間へのマッピングとしての行列Ｅ_x（ｎ），Ｅ_y（ｎ），Λ_x（ｎ），Λ_y（ｎ）や新奇第１無相関化成分ｕ（ｎ）および新奇第２無相関化成分ｖ（ｎ）を得ると共に、共分散行列Ｃ_uvの逐次的な特異値分解により行列Ｅ_u（ｎ），Ｅ_v（ｎ）を得れば、ｎ個目の第１特徴量ｘ_nおよび第２特徴量ｙ_nが出現したときに、ｎ個の第１および第２特徴量ｘ_n，ｙ_nの組み合わせに対応した新たな射影行列Ａ（ｎ）およびＢ（ｎ）を上記式（１２）に従って取得することが可能となる。なお、共分散行列Ｃ_uvの逐次的な特異値分解の結果を用いれば、ｎ個の第１および第２特徴量ｘ_n，ｙ_nの組み合わせに対応した正準相関係数Λ（ｎ）を次式（８２）に従って推定することも可能となる。

続いて、図１４を参照しながら、上述のような基本的な考え方に基づく学習情報更新ルーチンについて説明する。図１４に示す学習情報更新ルーチンは、管理コンピュータ３０に対して画像データと単語群データとの新奇組み合わせが入力されたり、上述のアノテーションルーチンにより新奇画像特徴量ｘ_newと新奇単語特徴量ｙ_newとの組み合わせが設定されたりすると、管理コンピュータ３０の学習処理部３５により実行されるものである。学習情報更新ルーチンの開始に際して、学習処理部３５は、データ受付部３２またはデータ記憶装置２１からの新奇画像データおよび新奇単語群データまたは特徴量記憶装置４０からの新奇画像特徴量ｘ_newおよび新奇単語特徴量ｙ_newを入力する（ステップＳ４００）。そして、所定の判定処理にてステップＳ４００にてデータ受付部３２等から新奇画像データおよび新奇単語群データが入力されたと判断された場合（ステップＳ４１０）、学習処理部３５は、画像特徴量抽出部３３に対して新奇画像データからの新奇画像特徴量ｘ_new（＝ｘ_n）の抽出を指示し、画像特徴量抽出部３３は、ステップＳ４００にて入力された新奇画像データから新奇画像特徴量ｘ_newを抽出すると共に、抽出した新奇画像特徴量ｘ_newを特徴量記憶装置４０の所定の記憶領域に格納する（ステップＳ４２０）。また、学習処理部３５は、単語特徴量抽出部３４に対して新奇単語群データに基づく新奇単語特徴量ｙ_newおよび単語特徴量ｗの設定を指示し、単語特徴量抽出部３４は、ステップＳ４００にて入力された新奇単語群データに基づいて新奇単語特徴量ｙ_newおよび単語特徴量ｗを設定すると共に、設定した新奇単語特徴量ｙ_newと単語特徴量ｗとを特徴量記憶装置４０の所定の記憶領域に格納する（ステップＳ４３０）。なお、ステップＳ４００にて特徴量記憶装置４０からの新奇画像特徴量ｘ_newおよび新奇単語特徴量ｙ_newが入力された場合には、ステップＳ４２０およびＳ４３０の処理はスキップされる。

ステップＳ４００またはＳ４２０の処理の後、学習処理部３５は、上述の第１無相関化成分取得処理を実行して上記式（９）に示す行列Ｅ_x（ｎ），Λ_x（ｎ）および新奇第１無相関化成分ｕ（ｎ）を取得すると共に（ステップＳ４４０）、上述の第２無相関化成分取得処理を実行して上記式（１０）に示す行列Ｅ_y（ｎ），Λ_y（ｎ）および新奇第２無相関化成分ｖ（ｎ）を取得する（ステップＳ４５０）。なお、最初の学習情報更新ルーチンの実行に際して、ステップＳ４４０にて要求される式（２９）等のパラメータや、ステップＳ４５０にて要求される式（３８）等のパラメータは、初期学習ルーチンの実行時等に予め算出されているものとする。更に、学習処理部３５は、上述の共分散行列Ｃ_uvの逐次的な特異値分解を実行し、上記式（７９）に示す行列Ｅ_u（ｎ），Ｅ_v（ｎ）を取得する（ステップＳ４６０）。この場合も、なお、最初の学習情報更新ルーチンの実行に際して、ステップＳ４６０にて要求される式（７１）〜（７３）等のパラメータは、初期学習ルーチンの実行時等に予め算出されているものとする。こうして、行列Ｅ_x（ｎ），Ｅ_y（ｎ），Λ_x（ｎ），Λ_y（ｎ）や新奇第１無相関化成分ｕ（ｎ）および新奇第２無相関化成分_v（ｎ）、行列Ｅ_u（ｎ），Ｅ_v（ｎ）を得ると、学習処理部３５は、新奇第１および第２特徴量ｘ_new，ｙ_newの組み合わせに対応した新たな射影行列Ａ（ｎ）およびＢ（ｎ）を上記式（１２）に従って設定すると共に学習用記憶装置４１に格納する（ステップＳ４７０）。そして、学習処理部３５は、新奇第１および第２特徴量ｘ_new，ｙ_newを含む第１および第２特徴量ｘ_i，ｙ_iや新たな射影行列Ａ（ｎ）およびＢ（ｎ）を用いて隠れ変数ｓ_iや、隠れ変数ｓ_iごとの確率密度分布、確率Ｐ（ｗ｜ｓ_i）を更新すると共に、更新した情報を学習用記憶装置４１に格納し（ステップＳ４８０）、本ルーチンを終了させる。

ここまで説明したように、実施例の画像データ処理システム２０では、画像データと単語群データとの新奇組み合わせの出現や未注釈画像データに対するアノテーション処理に伴って新奇第１特徴量ｘ_newと新奇第２特徴量ｙ_newとの組み合わせが出現したときに、新奇第１特徴量ｘ_newと新奇第２特徴量ｙ_newとに基づいて隠れ変数ｓ_iを導出するための射影行列ＡおよびＢが更新される。これにより、画像データとそれに対応した単語群データとの組み合わせ、すなわち第１特徴量ｘ_iと第２特徴量ｙ_iとの組み合わせが無限に増加したとしても、新奇第１特徴量ｘ_newと新奇第２特徴量ｙ_newとの組み合わせを含むすべての組み合わせについて正準相関分析等を実行して射影行列Ａ，Ｂや隠れ変数ｓ_i、確率を得るための情報を求める必要がなくなる。この結果、実施例の画像データ処理システム２０では、管理コンピュータ３０の処理負担を軽減させつつ、新奇第１特徴量ｘ_newと新奇第２特徴量ｙ_newとの組み合わせが出現するたびに射影行列Ａ，Ｂや隠れ変数ｓ_i、隠れ変数ｓ_iごとの確率密度分布、確率Ｐ（ｗ｜ｓ_i）をより適正なものへと更新していくことが可能となる。

図１５から図１７に、上述の学習情報更新ルーチンにおけるアルゴリズムの正当性の評価結果を示す。ここでは、確率的正準相関分析の枠組みに従って次式（８３）に示すような第１および第２特徴量ｘ，ｙのサンプルを発生させ、発生させたサンプルに基づいてアルゴリズムの正当性を評価した。この場合、ｒ＝ｐ＝ｑとし、サンプル数を１０００とし、Ｗ_x，Ｗ_yとしてそれぞれ値０から値１の間でランダムに発生させた値に対角化処理を施した後、ｄｉａｇ（［３２１］）の値をかけた行列を用いた。また、Γ_x，Γ_yを平均０、分散０．５の正規分布より発生させたランダムな値とし、μ_x，μ_yを０から１の値のランダムな値とした。そして、図１５は、サンプル数と学習情報更新ルーチンにおけるアルゴリズムを用いて推定された正準相関係数の値との関係を示し、図１６は、サンプル数と上記アルゴリズムを用いて推定された共分散行列Ｃ_uvの推定値との関係を示し、図１７は、サンプル数と上記アルゴリズムを用いて推定された共分散行列Ｃ_vuの推定値との関係を示す。なお、図１６および図１７において、共分散行列Ｃ_uv，Ｃ_uvの推定値は、単位行列の各列との内積の絶対値として表されている。このため、サンプルから上記アルゴリズムを用いて推定される正準相関係数や共分散行列Ｃ_uv，Ｃ_uvの推定値は理論上すべて値１となるが、図１５から図１７に示すように、今回の評価では、正準相関係数や共分散行列Ｃ_uv，Ｃ_uvの推定値は何れも値１に収束している。この点から、上述の学習情報更新ルーチン（そのアルゴリズム）は、実用上極めて有用なものであるといえる。

〔変形例〕
以下、本発明の変形例について説明する。なお、重複した説明を回避するために、上記画像データ処理システム２０に関連して説明した要素（ステップ番号を含む）と同一の要素に対しては同一の符号を用いるものとし、詳細な説明を省略する。

〔隠れ変数に関する変形例〕
上記実施例では、図４および図５に示したように、変換ｆにより画像特徴量ｘを正準空間に射影して得られる第１変量ｓと、変換ｇにより単語特徴量ｙを正準空間に射影して得られる第２変量ｔとのうちの一方（第１変量ｓ）が抽象的概念Ｌを示す隠れ変数として用いられ、変換ｆおよびｇとしては、上記式（３）の固有値問題の解である射影行列ＡおよびＢが用いられる。ただし、射影行列ＡおよびＢは、第１変量ｓと第２変量ｔとの相関を最大とするものの、基本的に互いに対応し合う第１および第２変量ｓおよびｔ同士を完全に一致させるものとはなり得ない。従って、第１変量ｓおよび第２変量ｔの一方を隠れ変数として用いる上記実施例には、アノテーションやリトリーバルの精度向上という面でなお改善の余地がある。ここで、確率的正準相関分析の枠組みにおいて、１組の画像特徴量ｘ（第１変量ｓ）と単語特徴量ｙ（第２変量ｔ）とは、図１８に示すように、正準空間上である中心ｚと分散Φとをもった正規分布を形成する。従って、第１変量ｓと第２変量ｔとの何れか一方を隠れ変数とする代わりに、画像特徴量ｘと単語特徴量ｙとの組み合わせごとに取得される正規分布の中心ｚを隠れ変数として利用すれば、実世界情報と当該実世界情報に対応したシンボルとを結びつける抽象的概念をより一層適正なものとすることができる。

この場合、１組の画像特徴量ｘ_iと単語特徴量ｙ_iとが正準空間において形成する正規分布の中心をｚ_iとし、当該正規分布の分散をΦ_xyとすれば、中心ｚ_iは、上記式（１０１）のように表すことが可能であり、分散Φ_xyは、上記式（１０２）のように表すことができる。ただし、式（１０１）および（１０２）において、Λ²は固有値を対角要素とする対角行列であり、Ｍ_xおよびＭ_yは、Ｍ_xＭ_y ^T＝Λを満たすと共にスペクトルノルムが値１未満となる任意の行列であって、ここでは、Ｍ_x＝Λ^β，Ｍ_y＝Λ^1-β（ただし、“β”は、０＜β＜１を満たす画像特徴量への重みを示す変数である。）という単純な対角行列とされる。また、分散Φ_xyを用いれば、ある１組の画像特徴量ｘ_iおよび単語特徴量ｙ_iから任意の隠れ変数ｚが出現する確率Ｐ（ｚ｜ｘ_i，ｙ_i）を上記（６）式と同様にして次式（１１２）のように表すことができる。更に、任意の画像特徴量ｘが正準空間において形成する正規分布の分散をΦｘとし、当該正規分布の中心をｚｃとすれば、それぞれ上記式（１０４）のように表される分散Φｘと中心ｚｃとを用いて画像特徴量ｘから隠れ変数ｚが出現する確率Ｐ（ｚ｜ｘ）を次式（１１３）のように表すことができる。そして、確率Ｐ（ｚ｜ｘ_i，ｙ_i）と確率Ｐ（ｚ｜ｘ）とを用いれば、隠れ変数ｚ_iから任意の画像特徴量ｘが出現する確率Ｐ（ｘ｜ｚ_i）を次式（１１４）のように表すことが可能であり、式（１１４）を変形することにより、隠れ変数ｚ_iから任意の画像特徴量ｘが出現する確率を示す上記式（１０３）の確率密度分布Ｐ（ｘ｜ｚ_i）が得られる。

このように、画像特徴量ｘ_iと単語特徴量ｙ_iとの組み合わせごとに取得される正規分布の中心ｚ_iを隠れ変数として利用すれば、当該隠れ変数ｚ_iから任意の画像特徴量ｘが出現する確率をより適正なものとして得ることが可能となる。また、正規分布の中心ｚ_iを隠れ変数として利用すれば、上述の変数βを適正に設定することでタスクに応じた画像特徴量への重み付けを実行することができるので、パラメータチューニングを比較的容易かつ安定なものとすることができる。このように正規分布の中心ｚ_iを隠れ変数として利用する場合に適用可能な変形例に係る初期学習ルーチンを図１９に示す。図１９の初期学習ルーチンにおいては、ステップＳ１３０にて射影行列ＡおよびＢが算出された後に、隠れ変数ｚ_iと確率密度分布Ｐ（ｘ｜ｚ_i）とを同時に得ることができる（ステップＳ１４５）。なお、図１９のステップＳ１６５では、ステップＳ１００にて入力した単語群データに含まれる全単語のそれぞれについての生起確率Ｐ（ｗ｜ｚ_i）すなわち隠れ変数ｚ_iから単語特徴量ｗが出現する確率を図６のステップＳ１６０と同様に上記式（７）あるいは上記式（８）に従って算出すればよい（この場合、式（７）または（８）におけるｓｚ_iはｚ_iである。）。

〔アノテーションやリトリーバルの高速化〕
上述のアノテーションルーチンやリトリーバルルーチンの実行に際して、１つの未注釈画像データのアノテーションやリトリーバルに要する計算コストは、学習済みの画像データ（画像特徴量）の数に比例する。従って、画像データ処理システム２０の規模が大きくなり、取り扱い対象となる画像データ数が増加すればするほど、アノテーションやリトリーバルに要する計算コストが増大化することになる。ここで、図１０のアノテーションルーチンや図１２のリトリーバルルーチンでは、１つの未注釈画像データについて、すべての単語特徴量（全単語）やすべての隠れ変数（ｓ_i）との類似度を求めているが（ステップＳ２３０，Ｓ３２０）、実際のところ、多数の単語特徴量や隠れ変数のうちの大部分は、正準空間上で学習済みの画像データから遠く離れており、アノテーションやリトリーバルの精度に寄与しないものと考えられる。従って、初期学習に際して正準空間を予めベクトル量子化して構造化を図っておくことで、アノテーションやリトリーバルの精度を低下させることなく計算速度を大幅に向上させることが可能となるであろう。

これを踏まえて、変形例に係る図１９の初期学習ルーチンでは、ステップＳ１４５にて隠れ変数ｚ_iが導出された後に、学習処理部３５により、Ｋ平均法やmean-shift法といった適切なクラスタリング手法を用いたすべての隠れ変数ｚ_iに対するクラスタリングが実行される（ステップＳ１５５）。これにより、図２０に示すように正準空間において離散している多数の隠れ変数ｚ_iは、図２１に示すように複数（κ個、ただしκ＜＜ｎである。）のクラスタに分類される。そして、ステップＳ１５５では、クラスタごとに代表ベクトルである代表隠れ変数ｚｒ_k（ただし、ｋ＝１，…，κである。）が導出されると共に、各隠れ変数ｚ_iの所属クラスタを示す情報が導出され、これらのデータも学習用記憶装置４１の所定の記憶領域に格納される。

図２２は、図１９の初期学習ルーチンが実行されている場合に適用可能な変形例に係るアノテーションルーチンを示すフローチャートである。図２２のアノテーションルーチンの実行に際して、アノテーション処理部３６は、図９と同様のデータ入力処理（ステップＳ２００）と、新奇画像特徴量ｘ_newの抽出・記憶処理（ステップＳ２１０）とを実行した後、代表隠れ変数ｚｒ_kごとに（クラスタごとに）当該代表隠れ変数ｚｒ_kから新奇画像特徴量ｘ_newが出現する確率Ｐ（ｘ_new｜ｚｒ_k）を上記式（１０３）に従って算出した上で、確率Ｐ（ｘ_new｜ｚｒ_k）が予め定められた閾値Ｐｒｅｆ以上となるクラスタを抽出する（ステップＳ２１５）。ここで、確率Ｐ（ｘ_new｜ｚｒ_k）は、図２３に示すように、新奇画像特徴量ｘ_newを正準空間上に射影して得られる隠れ変数ｚ_newと各クラスタの代表隠れ変数ｚｒ_kとの近さを示すものであり、ステップＳ２１５では、式（１０３）のｘにｘ_newを、ｚ_iにｚｒ_kを、ｚｃにｚ_newを代入することにより確率Ｐ（ｘ_new｜ｚｒ_k）が算出される。また、ｚ_newは、新奇画像特徴量ｘ_newを式（１０４）のｘに代入して得られるものである。すなわち、ステップＳ２１５では、確率Ｐ（ｘ_new｜ｚｒ_k）と閾値Ｐｒｅｆと比較することにより、新奇画像特徴量ｘ_newに対応した隠れ変数ｚ_newと代表隠れ変数ｚｒ_kとの近さが所定度合以下となるクラスタを抽出するのである。なお、図２３の例では、図示された４個のクラスタの中から代表隠れ変数ｚｒ₁およびｚｒ₃に対応したクラスタが抽出されることになる。

確率Ｐ（ｘ_new｜ｚｒ_k）が閾値Ｐｒｅｆ以上となるクラスタを抽出した後、アノテーション処理部３６は、抽出したクラスタに所属するすべての隠れ変数ｚ_iごとに、上記式（１０３）を用いて隠れ変数ｓ_iから新奇画像特徴量ｘ_newが出現する確率Ｐ（ｘ_new｜ｚ_i）を算出する（ステップＳ２２５）。更に、アノテーション処理部３６は、単語特徴量ｗごとに（全単語のそれぞれについて）次式（１１５）に従って画像特徴量ｘ_newから単語特徴量ｗが出現する確率Ｐ（ｗ｜ｘ_new）を算出する（ステップＳ２３５）。ただし、式（１１５）において、Ωは、ステップＳ２１５にて抽出されたクラスタに所属する隠れ変数ｚ_iの集合を示す。こうして全単語（全単語特徴量ｗ）のそれぞれについて確率Ｐ（ｗ｜ｘ_new）を算出すると、アノテーション処理部３６は、所定の判定基準に従い、確率Ｐ（ｗ｜ｘ_new）の高い順に単語特徴量ｗにより示される単語を抽出する（ステップＳ２４０）。そして、アノテーション処理部３６は、ステップＳ２４０にて抽出した単語に基づいて、新奇画像特徴量ｘ_newに対応した新奇単語特徴量ｙ_newや単語特徴量ｗを設定すると共に新奇画像データに対応した新奇単語群データを設定し、これらのデータを特徴量記憶装置４０やデータ記憶装置２１に格納した後（ステップＳ２５０）、本ルーチンを終了させる。このように、代表隠れ変数ｚｒ_kから新奇画像特徴量ｘ_newが出現する確率Ｐ（ｘ_new｜ｚｒ_k）が閾値Ｐｒｅｆ以上となるクラスタに所属する隠れ変数ｚ_iを用いて、新奇画像特徴量ｘ_newから単一の単語についての単語特徴量ｗが出現する確率を算出することにすれば、アノテーションの精度に寄与しない隠れ変数ｚ_i（画像特徴量ｘおよび単語特徴量うの組合わせ）についての確率の計算を省略することが可能となるので、アノテーションの精度を維持しつつ計算負荷を軽減して処理の高速化を図ることができる。

図２４は、図１９の初期学習ルーチンが実行されている場合に適用可能な変形例に係るリトリーバルルーチンを示すフローチャートである。図２４のリトリーバルルーチンの実行に際して、リトリーバル処理部３８は、図１２と同様のデータ入力処理（ステップＳ３００）と、検索用単語特徴量ｙ_newの設定・記憶処理（ステップＳ３１０）とを実行した後、代表隠れ変数ｚｒ_kごとに（クラスタごとに）当該代表隠れ変数ｚｒ_kから未注釈画像特徴量ｘ_jが出現する確率Ｐ（ｘ_j｜ｚｒ_k）を上記式（１０３）に従って算出した上で、確率Ｐ（ｘ_j｜ｚｒ_k）が予め定められた閾値Ｐｒｅｆ以上となるクラスタを抽出する（ステップＳ３１５）。ここで、確率Ｐ（ｘ_j｜ｚｒ_k）は、未注釈画像特徴量ｘ_jを正準空間上に射影して得られる隠れ変数ｚ_jと各クラスタの代表隠れ変数ｚｒ_kとの近さを示すものであり、ステップＳ３１５では、式（１０３）のｘにｘ_jを、ｚ_iにｚｒ_kを、ｚｃにｚ_jを代入することにより確率Ｐ（ｘ_j｜ｚｒ_k）が算出される。また、ｚ_jは、未注釈画像特徴量ｘ_jを式（１０４）のｘに代入して得られるものである。すなわち、ステップＳ３１５では、確率Ｐ（ｘ_j｜ｚｒ_k）と閾値Ｐｒｅｆと比較することにより、未注釈画像特徴量ｘ_jに対応した隠れ変数ｚ_newと代表隠れ変数ｚｒ_kとの近さが所定度合以下となるクラスタを抽出するのである。

確率Ｐ（ｘ_j｜ｚｒ_k）が閾値Ｐｒｅｆ以上となるクラスタを抽出した後、リトリーバル処理部３８は、抽出したクラスタに所属するすべての隠れ変数ｚ_iごとに、隠れ変数ｚ_iから未注釈画像特徴量ｘ_jが出現する確率Ｐ（ｘ_j｜ｚ_i）と隠れ変数ｚ_iから検索用単語特徴量ｙ_newが出現する確率Ｐ（ｙ_new｜ｚ_i）とを算出する（ステップＳ３２５）。更に、リトリーバル処理部３８は、次式（１１６）に従って未注釈画像データｘ_jごとに未注釈画像データｘ_jから検索用単語特徴量ｙ_newが出現する確率Ｐ（ｙ_new｜ｘ_j）を算出する（ステップＳ３３５）。ただし、式（１１６）において、Ω_jは、ステップＳ３１５にて抽出されたクラスタに所属する隠れ変数ｚ_iの集合を示す。こうして未注釈画像データｘ_jごとに確率Ｐ（ｙ_new｜ｘ_j）を算出すると、リトリーバル処理部３８は、所定の判定基準に従い、確率Ｐ（ｙ_new｜ｘ_j）の高い順に未注釈画像特徴量ｘ_jに対応した未注釈画像データをデータ記憶装置２１から読み出し（ステップＳ３４０）、結果出力部３９に与える。そして、結果出力部３９がリトリーバル処理部３８からの未注釈画像データに基づいて問い合わせ先である端末５０等に対して所定の態様でリトリーバル処理の結果を通知すると（ステップＳ３５０）、本ルーチンが終了することになる。

このように、代表隠れ変数ｚｒ_kから未注釈画像特徴量ｘ_jが出現する確率Ｐ（ｘ_j｜ｚｒ_k）が閾値Ｐｒｅｆ以上となるクラスタに所属する隠れ変数ｚ_iを用いて、未注釈画像特徴量ｘ_jから検索用単語特徴量ｙ_newが出現する確率Ｐ（ｙ_new｜ｘ_j）を算出することにすれば、リトリーバルの精度に寄与しない隠れ変数ｚ_i（画像特徴量ｘおよび単語特徴量ｙの組合わせ）についての確率の計算を省略することが可能となるので、リトリーバルの精度を維持しつつ計算負荷を軽減して処理の高速化を図ることができる。なお、ここまで、隠れ変数が１組の画像特徴量ｘ_iと単語特徴量ｙ_iとが正準空間において形成する正規分布の中心ｚ_iである場合を例にとって説明したが、図１９の初期学習ルーチンや図２２のアノテーションルーチン、図２４のリトリーバルルーチンは、隠れ変数として第１変量ｓ_iまたは第２変量ｔ_iを用いた場合にも同様にして適用され得る。

〔学習情報更新ルーチンの変形例〕
図２５は、変形例に係る学習情報更新ルーチンを示すフローチャートである。同図に示す学習情報更新ルーチンは、図１４の学習情報更新ルーチンにおけるステップＳ４４０〜Ｓ４７０の処理を以下に説明するステップＳ４４５およびＳ４７５の処理に置き換えたものに相当し、図２５の学習情報更新ルーチンの実行に際して、学習処理部３５は、まずステップＳ４００〜Ｓ４３０の処理を実行する。ここでは、ステップＳ４３０の処理が完了した段階で、ｎ−１個の画像特徴量ｘ（１），…，ｘ（ｉ），…，ｘ（ｎ−１）および単語特徴量ｙ（１），…，ｙ（ｉ），…，ｙ（ｎ−１）の組み合わせと、ｎ番目の新奇画像特徴量ｘ（ｎ）および新奇単語特徴量ｙ（ｎ）の組み合わせが存在しているものとする。

ステップＳ４３０の処理の後、学習処理部３５は、単語特徴量ｙの次元ｑが不変である場合、すなわち新奇単語特徴量ｙ（ｎ）にそれまで特徴量記憶装置４０に記憶されていない単語特徴量ｗ（全く新奇な単語）が含まれていない場合には、ステップＳ４４５にて、上記式（１０５）に従って共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxを更新する。ただし、ｎ≧２であるものとし、ｘ〜（ｎ）およびｙ〜（ｎ）は、上記式（１０６）に示すとおりであり、ｍ_x（ｎ）およびｍ_y（ｎ）は、上記式（１０７）に示すとおりである。また、単語特徴量ｙの次元ｑが増加している場合、すなわち新奇単語特徴量ｙ（ｎ）にそれまで特徴量記憶装置４０に記憶されていない単語特徴量ｗ（全く新奇な単語）が含まれている場合には、全く新奇な単語特徴量ｗがそれまでの特徴ベクトルの末尾に加わるものとして、単語特徴量ｙに関連した共分散行列を上記式（１０８）に従って更新する。ただし、ｍ_y（ｎ）は、上記式（１０９）に示すとおりである。なお、一般的には新奇画像特徴量ｘ（ｎ）および新奇単語特徴量ｙ（ｎ）の出現に伴って画像特徴量ｘの次元ｐが増加することは稀ではあるが、画像特徴量ｘの次元ｐが増加した場合には、次式（１１７）および（１１８）を用いて対処することができる。こうして共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxを更新したならば、上記式（３）の固有値問題を解くことにより新奇画像および単語特徴量ｘ_new，ｙ_newの組み合わせに対応した新たな射影行列Ａ（ｎ）およびＢ（ｎ）を設定すると共に学習用記憶装置４１に格納する（ステップＳ４７５）。そして、学習処理部３５は、新奇画像特徴量ｘ_newおよび単語特徴量ｙ_newを含む画像および単語特徴量ｘ_i，ｙ_iや新たな射影行列Ａ（ｎ）およびＢ（ｎ）を用いて隠れ変数ｚ_iや、隠れ変数ｚ_iごとの確率密度分布、確率Ｐ（ｗ｜ｚ_i）を更新すると共に、更新した情報を学習用記憶装置４１に格納し（ステップＳ４８０）、本ルーチンを終了させる。

このように、新奇画像特徴量ｘ_newおよび単語特徴量ｙ_newとの組み合わせが出現するたびに、共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxのみを逐次的に更新していくことにより、処理の収束性や安定度を向上させながら、射影行列Ａ（ｎ）およびＢ（ｎ）や隠れ変数ｚ_i、確率密度分布といった情報をより適正なものへと更新していくことが可能となる。更に、共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxのみを逐次的に更新しながら隠れ変数ｚ_iを導出するための射影行列Ａ（ｎ）およびＢ（ｎ）等を更新すれば、新奇画像特徴量ｘ_newおよび単語特徴量ｙ_newの出現に伴う単語特徴量ｙの次元ｑの増加に対応することが可能となる。また、共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxの算出に要する計算コストは、本来（ｐ²＋ｑ²＋ｐｑ）・ｎに比例することになり、画像データ処理システム２０の規模が大きくなって取り扱い対象となる画像データ数すなわち値ｎが増加すればするほど、ｎ＞＞ｐ，ｑとなり処理負担が増大化してしまう。これに対して、上述のように共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxのみを逐次的に更新していく場合、それに要する計算コストは（ｐ²＋ｑ²＋ｐｑ）に比例することになるので、画像データ数すなわち値ｎの計算コストに対する影響をより小さくすることができる。従って、図２５の学習情報更新ルーチンを採用すれば、学習情報の更新に要する計算負荷をより一層軽減することが可能となる。なお、図２５の学習情報更新ルーチンが隠れ変数として第１変量ｓ_iまたは第２変量ｔ_iを用いた場合にも同様にして適用され得ることはいうまでもない。

〔画像特徴量に関する変形例〕
上述の画像データ処理システム２０において取り扱われる画像データは、基本的には、アノテーションやリトリーバルといった用途のために作成されたものではなく、様々な照明条件下で取得（撮影）されたものであり、画像の画素値（ＲＧＢ値）は、周囲の明るさや照明による影響を受けているものと考えられる。従って、より精度の高い初期学習やアノテーション、リトリーバルを実行するためには、画像特徴量から照明条件等の影響をできるだけ取り除くことが要求される。ここで、画像特徴量に対する照明条件等の影響を緩和するためには、例えばカラー画像からカラーＨＬＡＣを画像特徴量として抽出する場合、オリジナルの画像データに加えて、各画素値に次式（１１９）に示すようなシグモイド関数を用いた閾値処理が施された画像データを用意するとよい。式（１１９）は、画素値が２５５階調であるときのシグモイド関数であり、式（１１９）において、ｆ_newは、処理後の画素値であり、ｆは各画素値であり、ｆｔは閾値であり、γは平滑化の程度を決定するためのパラメータである。このような閾値処理は、閾値の前後に平滑化を加えた二値化処理として解釈され得るものであり、かかる閾値処理を採用することにより、照明条件等による画素値の変化により頑健な加工画像データを得ることができる。そして、オリジナルの画像データから抽出されるカラーＨＬＡＣと、閾値処理を施した加工画像データから抽出されるカラーＨＬＡＣとの双方を画像特徴量ｘとして用いればよい。この場合、オリジナルの画像データから抽出されるカラーＨＬＡＣをｘ_oとし、加工画像データから抽出されるカラーＨＬＡＣをｘ_pとすれば、画像特徴量ｘを次式（１２０）のように得ることができる。これにより、オリジナルの画像データから抽出されたカラーＨＬＡＣのみを画像特徴量として用いた場合に比べて、アノテーション／リトリーバルにおける性能をより向上させることができる。

また、画像特徴量としては、ＨＬＡＣ以外に、画像データから抽出される各画素の輝度勾配方向を用いてもよい。このように、輝度値そのものではなく、輝度勾配を用いることにより、画像特徴量を照明条件等による全体的な明度の変化に対してより頑健なものとすることができる。ここで、画像の任意の点（画素）の座標を（ｕ，ｖ）とすれば、グレイスケール画像については、当該任意の点における輝度勾配方向θを次式（１２１）のように表すことが可能である。また、カラー画像については、当該任意の点におけるＲＧＢ各色の輝度勾配方向θ_r，θ_gおよびθ_bを次式（１２２）のように表すことができる。ただし、式（１２１）および（１２２）において、Ｉ，Ｉ_r，Ｉ_gおよびＩ_bは、画素値（Ｒ，Ｇ，Ｂの画素値）である。そして、対象となる画像データのすべての画素について輝度勾配方向θ（θ_r，θ_gおよびθ_b）を計算し、すべての輝度勾配方向θを適切なビン数で区切ってヒストグラム化することにより、画像データの各画素の輝度勾配方向に基づく画像特徴量を得ることができる。なお、このような輝度勾配方向に基づく画像特徴量の次元は、グレースケール画像については、上記ビン数と一致し、カラー画像の場合、上記例ではビン数の３倍の数値となる。

なお、本発明の適用対象は、画像データと単語群データとの組み合わせに限られるものではない。すなわち、実世界情報を示す第１データは、画像データのような視覚情報を示すものに限られず、聴覚情報を示す音声データや他の五感に関連した情報を示すデータであってもよく、第２データは、実世界情報に対応したシンボルを示すものであれば、単語以外のシンボルを示すものであってもよい。また、上記実施例では、高次局所自己相関特徴を示すベクトルを画像特徴量（第１特徴量）として利用しているが、第１特徴量は、高次局所自己相関特徴以外の他の構造の特徴を示すものであってもよい（なお、高次局所自己相関特徴は、音声データの特徴量としても利用され得る）。更に、単語特徴量も上述の構造のものに限られず、第２特徴量としては、任意の構造の特徴が利用され得る。そして、上記実施例は、実世界情報を示す第１データとしての画像データと、実世界情報に対応したシンボルを示す第２データとしての単語群データとの組み合わせを取り扱う画像データ処理システムに係るものであったが、本発明は、例えばロボット装置に適用されてもよい。

図２６は、本発明の他の実施例に係るロボット装置２００の概略構成図である。同図に示すロボット装置２００は、人工知能を有するいわゆる人型ロボットであり、人間の目に相当する撮像ユニット２１０や人間の耳に相当する集音ユニット２２０、人間の手に相当するマニピュレータや脚部等の可動部を動かすための多数のアクチュエータ２３０、人工知能として機能する制御コンピュータ３００等を含む。そして、制御コンピュータ３００は、ＣＰＵ，ＲＯＭ，ＲＡＭ、システムバス、各種インターフェース、記憶装置等を含むものであり、制御コンピュータ３００には、これらのハードウェアと本発明による対応関係学習用プログラムやアノテーション用プログラム、リトリーバル用プログラムといったソフトウェアとの一方または双方の協働により、第１特徴量抽出部３１０、第２特徴量抽出部３２０、入出力処理部３３０、学習処理部３４０、アノテーション処理部３５０、リトリーバル処理部３６０、主制御部３７０等が構築されている。また、制御コンピュータ３００には、画像データや音声データ等を記憶するデータ記憶装置４００や、特徴量記憶装置４１０や学習用記憶装置４２０が接続されている。

第１特徴量抽出部３１０は、撮像ユニット２１０により取得された画像データや集音ユニット２２０により取得された音声データからそのデータの特徴を示す第１特徴量（例えばＨＬＡＣに基づく特徴量）を抽出し、特徴量記憶装置４１０に格納する。第２特徴量抽出部３２０は、画像データや音声データに対応付けられて画像に現れているものや音声の意味するところを示すシンボルについてのシンボルデータからそのデータの特徴を示す第２特徴量を抽出し、特徴量記憶装置４１０に格納する。入出力処理部３３０は、ロボット装置２００に対して入出力される情報を処理するものであり、例えば人間からの音声による指令が集音ユニット２２０により取得されると集音ユニット２２０からの音声データを適宜処理して主制御部３７０に与える。学習処理部３４０は、第１および第２特徴量の組み合わせを複数用いた正準相関分析を実行して画像データや音声データとシンボルデータとの関係を学習すると共に、シンボルデータとの対応付けがなされていない未注釈画像データや未注釈音声データにメタデータとしてのシンボルを付与するアノテーションやシンボルに基づく未注釈画像データ等の検索（リトリーバル）に必要な学習情報を取得し、取得した学習情報を学習用記憶装置４２０に格納する。また、学習処理部３４０は、新奇画像データと新奇シンボルデータとの組み合わせが出現すると、当該新奇組み合わせに基づいて学習情報を更新する。アノテーション処理部３５０は、学習用記憶装置４２０に記憶された学習情報に基づいて未注釈画像データや未注釈音声データに対するアノテーションを実行する。リトリーバル処理部３６０は、シンボルに基づく未注釈画像データや未注釈音声データの検索処理（リトリーバル）を実行する。主制御部３７０は、入出力処理部３３０からの指令や、アノテーション処理部３５０の処理結果、リトリーバル処理部３６０の処理結果等に基づいてロボット装置２００の動作態様を決定する等してアクチュエータ２３０を制御する。

このように構成されたロボット装置２００では、上述の初期学習ルーチンを実行しておいて学習情報を学習用記憶装置４２０に記憶させておくことにより、撮像ユニット２１０により取得された画像データや集音ユニット２２０により取得された音声データに対してシンボルを割り付けるアノテーションを実行することが可能となり、アノテーション結果に基づいて学習情報を更新していくこともできる。これにより、ロボット装置２００に、取得した実世界情報すなわち見聞きした事柄が何を示すか高速かつ精度よく判断させることが可能となる。また、撮像ユニット２１０により取得された画像データや集音ユニット２２０により取得された音声データをデータ記憶装置４００に格納した上で、格納された画像データや音声データをシンボルに基づいて検索することにより、ロボット装置２００に実世界情報すなわち見聞きした事柄をいつどこで取得したか高速かつ精度よく判断させることも可能となる。従って、本発明をロボット装置に対して適用すれば、ロボット装置の自律的行動をより一層人間の行動に近いものとすると共に、ロボット装置の知能レベルをより一層向上させることが可能となる。

以上、実施例を用いて本発明の実施の形態について説明したが、本発明は上記実施例に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において、様々な変更をなし得ることはいうまでもない。

本発明は、実世界情報とそれに対応したシンボルとを取り扱う情報処理分野において有用である。

Claims

実世界情報と該実世界情報に対応したシンボルとの関係を学習する対応関係学習装置であって、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量を複数記憶する第１特徴量記憶手段と、
前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量を複数記憶する第２特徴量記憶手段と、
前記第１および第２特徴量の組み合わせを複数用いた正準相関分析を実行し、前記第１および第２特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得する正準相関分析手段と、
前記正準相関分析手段により取得された前記変換を記憶すると共に、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数を記憶する分析結果記憶手段と、
前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する条件付き確率と該隠れ変数から任意の第２特徴量が出現する条件付き確率とを得るために必要な情報を導出する情報導出手段と、
前記情報導出手段により導出された情報を記憶する情報記憶手段と、
を備え、
前記情報導出手段は、少なくとも、前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する条件付き確率を示す確率密度分布を設定する確率密度分布設定手段と、
すべての第２データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する条件付き確率であるシンボル生起確率を算出するシンボル生起確率算出手段とを含み、
前記情報記憶手段は、前記隠れ変数ごとに、少なくとも前記確率密度分布と前記シンボル生起確率とを前記情報として記憶する対応関係学習装置。
請求の範囲１に記載の対応関係学習装置において、
前記正準相関分析手段は、前記第１特徴量を正準空間に射影して得られる変量を第１変量とすると共に前記第１特徴量から前記第１変量を得るための変換を第１変換とし、前記第２特徴量を正準空間に射影して得られる変量を第２変量とすると共に前記第２特徴量から前記第２変量を得るための変換を第２変換としたときに、正準相関分析により前記第１変量と前記第２変量との相関を最大にする第１および第２変換を取得し、
前記分析結果記憶手段は、前記取得された第１および第２変換を記憶すると共に、該第１または第２変換により前記第１または第２特徴量を正準空間に射影して得られる第１または第２変量を前記隠れ変数として記憶する対応関係学習装置。
請求の範囲２に記載の対応関係学習装置において、
前記正準相関分析手段は、前記第１特徴量をｘ_i（ただし、ｉ＝１，…，ｎである。以下同様）とし、前記第２特徴量をｙ_iとし、前記第１変量をｓ_iとし、前記第２変量をｔ_iとしたときに、前記第１変換が次式（１）を満たすと共に前記第２変換が次式（２）を満たすものとし、次式（３）の固有値問題を解くことにより式（１）における射影行列Ａを前記第１変換として求めると共に式（２）における射影行列Ｂを前記第２変換として取得する対応関係学習装置。ただし、式（３）において、Λ²は固有値を対角要素とする対角行列であり、Ｉは単位行列であり、共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxは、式（４）に示すとおりである。
請求の範囲１に記載の対応関係学習装置において、
前記正準相関分析手段は、前記第１特徴量を正準空間に射影して得られる変量を第１変量とすると共に前記第１特徴量から前記第１変量を得るための変換を第１変換とし、前記第２特徴量を正準空間に射影して得られる変量を第２変量とすると共に前記第２特徴量から前記第２変量を得るための変換を第２変換としたときに、正準相関分析により前記第１変量と前記第２変量との相関を最大にする第１および第２変換を取得すると共に、１組の前記第１および第２特徴量が正準空間において形成する正規分布の中心を取得し、
前記分析結果記憶手段は、前記取得された第１および第２変換を記憶すると共に、前記第１特徴量と前記第２特徴量との組み合わせごとに取得される前記正規分布の中心を前記隠れ変数として記憶する対応関係学習装置。
請求の範囲４に記載の対応関係学習装置において、
前記正準相関分析手段は、前記第１特徴量をｘ_iとし、前記第２特徴量をｙ_iとし、前記第１変量をｓ_iとし、前記第２変量をｔ_iとしたときに、前記第１変換が次式（１）を満たすと共に前記第２変換が次式（２）を満たすものとし、次式（３）の固有値問題を解くことにより式（１）における射影行列Ａを前記第１変換として求めると共に式（２）における射影行列Ｂを前記第２変換として取得し、前記正規分布の中心をｚ_iとしたときに、次式（１０１）に従って前記第１特徴量ｘ_iと前記第２特徴量ｙ_iとの組み合わせごとに前記正規分布の中心ｚ_iを取得する対応関係学習装置。ただし、式（３）において、Λ²は固有値を対角要素とする対角行列であり、Ｉは単位行列であり、共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxは、式（４）に示すとおりであり、式（１０１）において、Λ²は固有値を対角要素とする対角行列であり、Ｍ_xおよびＭ_yは、Ｍ_xＭ_y ^T＝Λを満たすと共にスペクトルノルムが値１未満となる任意の行列である。
請求の範囲１に記載の対応関係学習装置において、
前記確率密度分布設定手段は、前記隠れ変数を中心とした正規分布を前記確率密度分布として設定する対応関係学習装置。
請求の範囲６に記載の対応関係学習装置において、
前記確率密度分布設定手段は、任意の第１特徴量をｘとすると共に前記隠れ変数をｓ_iとしたときに、次式（５）に従って隠れ変数ｓ_iから任意の第１特徴量ｘが出現する条件付き確率を示す確率密度分布Ｐ（ｘ｜ｓ_i）を設定する対応関係学習装置。ただし、式（５）において、“ｐ”は第１特徴量ｘの次元であり、Ｗ_x＝Ｃ_xxＡ，ξ_x＝Ｃ_xx−Ｗ_xＷ^T _xである。
請求の範囲６に記載の対応関係学習装置において、
前記確率密度分布設定手段は、任意の第１特徴量をｘとし、前記隠れ変数をｓ_iとし、前記任意の第１特徴量ｘを正準空間に射影して得られる変量をｓとしたときに、次式（６）に従って隠れ変数ｓ_iから任意の第１特徴量ｘが出現する条件付き確率を示す確率密度分布Ｐ（ｘ｜ｓ_i）を設定する対応関係学習装置。ただし、式（６）において、“ｍ”は正準空間の次元（ｓやｓ_iの次元）であり、“Σ”は分散である。
請求の範囲４に記載の対応関係学習装置において、
前記確率密度分布設定手段は、任意の第１特徴量をｘとし、任意の第２特徴量をｙとすると共に前記隠れ変数をｚ_iとし、１組の前記第１および第２特徴量ｘ，ｙが正準空間において形成する正規分布の分散をΦ_xyとしたときに、次式（１０２）に従って分散Φ_xyを取得すると共に、次式（１０３）に従って前記隠れ変数ｚ_iごとに該隠れ変数ｚ_iから任意の第１特徴量ｘが出現する条件付き確率を示す確率密度分布Ｐ（ｘ｜ｚ_i）を設定し、
前記情報記憶手段は、前記隠れ変数ごとに、前記確率密度分布Ｐ（ｘ｜ｚ_i）と前記シンボル生起確率とを前記情報として記憶する対応関係学習装置。ただし、式（１０３）において、“Ｋ”は、確率の総和を値１にするための規格化定数であり、Φｘは任意の第１特徴量ｘが正準空間において形成する正規分布の分散であり、ｚｃは、当該正規分布の中心であり、それぞれ式（１０４）に示すとおりである。
請求の範囲１または９に記載の対応関係学習装置において、
前記シンボル生起確率算出手段は、単一のシンボルのみを示す前記第２データの第２特徴量をｗとし、前記隠れ変数ｓ_iまたはｚ_iをｓｚ_iと表したときに、すべての第２データ中の互いに異なるシンボルのそれぞれについて次式（７）に従って隠れ変数ｓｚ_iから第２特徴量ｗが出現する条件付き確率Ｐ（ｗ｜ｓｚ_i）を前記シンボル生起確率として算出する対応関係学習装置。ただし、式（７）において、“ｎ”は第２データに出現するシンボルの総数であり、“ｎ_w”はすべての第２データにおける第２特徴量ｗに対応したシンボルの出現回数であり、“ｎ_szi”は隠れ変数ｓｚ_iに対応した第２特徴量に含まれるシンボルの総数であり、δ_W,sziは特徴量ｗに対応したシンボルが隠れ変数ｓｚ_iに対応した第２特徴量に含まれていれば値１とされ、含まれていなければ値０とされる変数であり、“μ”は値０から値１までの範囲から選択される実数値である。
請求の範囲１または９に記載の対応関係学習装置において、
前記シンボル生起確率算出手段は、前記第２特徴量をｙ_iとし、単一のシンボルのみを示す前記第２データの第２特徴量をｗとし、前記第２特徴量ｙ_iを正準空間に射影して得られる第２変量をｔ_iとし、前記隠れ変数ｓ_iまたはｚ_iをｓｚ_iと表したときに、すべての第２データ中の互いに異なるシンボルのそれぞれについて次式（８）に示す確率Ｐ（ｗ｜ｓｚ_i）を前記シンボル生起確率として算出する対応関係学習装置。ただし、式（８）において、“ｑ”は第２特徴量ｗの次元であり、Ｗ_y＝Ｃ_yyＢ，ξ_y＝Ｃ_yy−Ｗ_yＷ^T _yである。
請求の範囲１に記載の対応関係学習装置において、
新奇第１特徴量と該新奇第１特徴量に対応した新奇第２特徴量との組み合わせが出現したときに、前記新奇第１特徴量と前記新奇第２特徴量とに基づいて少なくとも前記隠れ変数を導出するための前記変換を更新する情報更新手段を更に備える対応関係学習装置。
請求の範囲１２に記載の対応関係学習装置において、
前記情報更新手段は、
任意の第１特徴量を主成分分析により無相関化して得られる成分を第１無相関化成分としたときに、前記新奇第１特徴量についての第１無相関化成分である新奇第１無相関化成分の取得処理を実行する第１無相関化成分取得手段と、
任意の第２特徴量を主成分分析により無相関化して得られる成分を第２無相関化成分としたときに、前記新奇第２特徴量についての第２無相関化成分である新奇第２無相関化成分の取得処理を実行する第２無相関化成分取得手段と、
前記取得された新奇第１無相関化成分および新奇第２無相関化成分に基づいて、前記第１および第２無相関化成分の共分散行列についての特異値分解処理を実行する特異値分解実行手段と、
前記第１および第２無相関化成分取得手段による前記取得処理の結果と前記特異値分解実行手段による前記特異値分解処理の結果とに基づいて前記隠れ変数を導出するための前記変換を更新する変換更新手段とを含み、
前記分析結果記憶手段は、前記更新された変換を記憶すると共に、該更新された変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数を記憶し、
前記情報導出手段は、前記取得された隠れ変数ごとに前記情報を更新する対応関係学習装置。
請求の範囲１３に記載の対応関係学習装置において、
ｎ−１個の第１特徴量ｘ（１），…，ｘ（ｉ），…，ｘ（ｎ−１）および第２特徴量ｙ（１），…，ｙ（ｉ），…，ｙ（ｎ−１）の組み合わせが存在している状態でｎ番目の新奇第１特徴量ｘ（ｎ）および新奇第２特徴量ｙ（ｎ）の組み合わせが出現したとすると共に、第１特徴量ｘ（ｉ）の次元をｐとし、第２特徴量ｙ（ｉ）の次元をｑとし、ｍｉｎ｛ｐ，ｑ｝をｒとし、忘却率をｌとし、新奇第１無相関化成分をｕ（ｎ）とし、新奇第２無相関化成分をｖ（ｎ）としたときに、
前記第１無相関化成分取得手段は、新奇第１特徴量ｘ（ｎ）を含むｎ個の第１特徴量ｘ（ｉ）についての固有値問題Ｃ_xxＥ_x＝Ｅ_xΛ_xの解である次式（９）に示す行列Ｅ_x（ｎ）および対角行列Λ_x（ｎ）と新奇第１無相関化成分ｕ（ｎ）とを取得し（ただし、式（９）において、ｊ＝１，…，ｐであり、ｘ₁〜（ｎ）＝ｘ（ｎ）−ｍ_x（ｎ）であり、ｍ_x（ｎ）はｎ個の第１特徴量ｘ（ｉ）の平均である。）、
前記第２無相関化成分取得手段は、新奇第２特徴量ｙ（ｎ）を含むｎ個の第２特徴量ｙ（ｉ）についての固有値問題Ｃ_yyＥ_y＝Ｅ_yΛ_yの解である次式（１０）に示す行列Ｅ_y（ｎ）および対角行列Λ_y（ｎ）と新奇第２無相関化成分ｖ（ｎ）とを取得し（ただし、式（１０）において、ｊ＝１，…，ｑであり、ｙ₁〜（ｎ）＝ｙ（ｎ）−ｍ_y（ｎ）であり、ｍ_y（ｎ）はｎ個の第１特徴量ｘ（ｉ）の平均である。）、
前記特異値分解実行手段は、前記取得された新奇第１無相関化成分ｕ（ｎ）および新奇第２無相関化成分ｖ（ｎ）に基づいて次式（１１）に示す行列Ｅ_u（ｎ）およびＥ_v（ｎ）を取得し（ただし、式（１１）において、ｊ＝１，…，ｒであり、Ｚ_uj（ｎ）はｎ個の第１および第２無相関化成分の組み合わせに基づく第１無相関化成分についてのｊ番目の正準相関係数ベクトルであり、Ｚ_vj（ｎ）はｎ個の第１および第２無相関化成分の組み合わせに基づく第２無相関化成分についてのｊ番目の正準相関係数ベクトルである。）、
前記分析結果更新手段は、前記第１および第２無相関化成分取得手段により取得された行列Ｅ_x（ｎ），Ｅ_y（ｎ）および対角行列Λ_x（ｎ），Λ_y（ｎ）と、前記特異値分解実行手段により取得された行列Ｅ_u（ｎ），Ｅ_v（ｎ）とに基づいて前記第１特徴量ｘ（ｉ）を正準空間に射影するための第１変換Ａ（ｎ）と前記第２特徴量ｙ（ｉ）を正準空間に射影するための第２変換Ｂ（ｎ）とを次式（１２）に従って新たな前記変換として取得する対応関係学習装置。
請求の範囲３または５に記載の対応関係学習装置において、
ｎ−１個の第１特徴量ｘ（１），…，ｘ（ｉ），…，ｘ（ｎ−１）および第２特徴量ｙ（１），…，ｙ（ｉ），…，ｙ（ｎ−１）の組み合わせが存在している状態でｎ番目の新奇第１特徴量ｘ（ｎ）および新奇第２特徴量ｙ（ｎ）の組み合わせが出現したときに、次式（１０５）に従って共分散行列Ｃ_xx，Ｃ_yy，Ｃ_xy，Ｃ_yxを更新すると共に、前記式（３）の固有値問題を解くことにより前記隠れ変数を導出するための前記変換を更新する情報更新手段を更に備える対応関係学習装置。ただし、ｎ≧２であり、“ｌ”は、忘却率であり、ｘ〜（ｎ）およびｙ〜（ｎ）は、次式（１０６）に示すとおりであり、ｍ_x（ｎ）およびｍ_y（ｎ）は、次式（１０７）に示すとおりである。
請求の範囲１５に記載の対応関係学習装置において、
前記情報更新手段は、前記新奇第１特徴量ｘ（ｎ）および前記新奇第２特徴量ｙ（ｎ）の出現に伴って前記第２特徴量の次元が増加した場合には、該第２特徴量に関連した共分散行列を次式（１０８）に従って更新する対応関係学習装置。ただし、ｍ_y（ｎ）は、次式（１０９）に示すとおりである。
請求の範囲１に記載の対応関係学習装置において、
前記第１特徴量は、前記第１データの高次局所自己相関特徴を示す対応関係学習装置。
請求の範囲１に記載の対応関係学習装置において、
前記第１データは画像データであり、前記第１特徴量は、前記画像データの各画素の輝度勾配方向に基づいて定められる対応関係学習装置。
請求の範囲１に記載の対応関係学習装置において、
前記第２特徴量は、すべての第２データから抽出される互いに異なるシンボルの配列に対して、対象となる第２データに対象となるシンボルが含まれていれば値０以外の所定値を付与すると共に、含まれていなければ値０を付与することにより設定される対応関係学習装置。
請求の範囲１に記載の対応関係学習装置において、
前記第１データは画像データであり、前記第２データは、前記画像データの画像に現れているものを示す少なくとも１つの単語を前記シンボルとして含む対応関係学習装置。
請求の範囲１に記載の対応関係学習装置において、
前記第１および第２特徴量の組み合わせごとに取得される複数の隠れ変数をクラスタリングして複数のクラスタに分類すると共に前記複数のクラスタごとに代表ベクトルを取得するクラスタリング手段を更に備え、
前記情報記憶手段は、前記代表ベクトルと、前記隠れ変数の所属クラスタを示す情報とを記憶する対応関係学習装置。
実世界情報と該実世界情報に対応したシンボルとの関係を学習するための対応関係学習方法であって、
（ａ）実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との組み合わせを複数用いた正準相関分析を実行し、前記第１および第２特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得して分析結果記憶手段に記憶させるステップと、
（ｂ）ステップ（ａ）にて取得した変換を用いて前記第１および第２特徴量の組み合わせごとに隠れ変数を取得して分析結果記憶手段に記憶させるステップと、
（ｃ）前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する条件付き確率と該隠れ変数から任意の第２特徴量が出現する条件付き確率とを得るために必要な情報を導出して情報記憶手段に記憶させるステップと、
を含み、
ステップ（ｃ）は、少なくとも、前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する条件付き確率を示す確率密度分布を設定すると共に、すべての第２データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する条件付き確率であるシンボル生起確率を算出し、前記隠れ変数ごとに、少なくとも前記確率密度分布と前記シンボル生起確率とを前記情報として前記情報記憶手段に記憶させる対応関係学習方法。
コンピュータを実世界情報と該実世界情報に対応したシンボルとの関係を学習する装置として機能させる対応関係学習用プログラムであって、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との組み合わせを複数用いた正準相関分析を実行し、前記第１および第２特徴量の少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するための変換を取得して分析結果記憶手段に記憶させる変換取得モジュールと、
前記取得された変換を用いて前記第１および第２特徴量の組み合わせごとに隠れ変数を取得して分析結果記憶手段に記憶させる隠れ変数取得モジュールと、
前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する条件付き確率と該隠れ変数から任意の第２特徴量が出現する条件付き確率とを得るために必要な情報を導出して情報記憶手段に記憶させる情報導出モジュールと、
を備え、
前記情報導出モジュールは、少なくとも、前記隠れ変数ごとに該隠れ変数から任意の第１特徴量が出現する条件付き確率を示す確率密度分布を設定すると共に、すべての第２データ中の互いに異なるシンボルのそれぞれについて前記隠れ変数から該シンボルが出現する条件付き確率であるシンボル生起確率を算出し、前記隠れ変数ごとに、少なくとも前記確率密度分布と前記シンボル生起確率とを前記情報として前記情報記憶手段に記憶させる対応関係学習用プログラム。
実世界情報にメタデータとしてのシンボルを付与するアノテーション装置であって、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する条件付き確率および該隠れ変数から任意の第２特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段と、
新奇第１データの入力を受け付ける入力受付手段と、
前記受け付けられた新奇第１データに基づいて該新奇第１データの特徴を示す新奇第１特徴量を抽出する第１特徴量抽出手段と、
前記学習情報記憶手段に記憶された学習情報を用いて、前記抽出された新奇第１特徴量から単一のシンボルのみを示す前記第２データの第２特徴量が出現する条件付き確率を算出する確率算出手段と、
前記確率算出手段により算出された確率に基づいて前記新奇第１データに対してシンボルを割り付けるシンボル割付手段と、
を備えるアノテーション装置。
請求の範囲２４に記載のアノテーション装置において、
前記隠れ変数は、前記第１または第２変換により前記第１または第２特徴量を正準空間に射影して得られる第１または第２変量であり、
前記確率算出手段は、前記隠れ変数をｓ_iとし、前記抽出された新奇第１特徴量をｘ_newとし、単一のシンボルのみを示す前記第２データの第２特徴量をｗとし、新奇第１特徴量ｘ_newから第２特徴量ｗが出現する条件付き確率をＰ（ｗ｜ｘ_new）としたときに、確率Ｐ（ｗ｜ｘ_new）を次式（１３）に従って算出するアノテーション装置。ただし、式（１３）において、Ｐ（ｘ_new｜ｓ_i）は隠れ変数ｓ_iから新奇第１特徴量ｘ_newが出現する条件付き確率であり、Ｐ（ｗ｜ｓ_i）は隠れ変数ｓ_iから第２特徴量ｗが出現する条件付き確率である。
請求の範囲２４に記載のアノテーション装置において、
前記隠れ変数は、１組の前記第１および第２特徴量が正準空間において形成する正規分布の中心であり、
前記確率算出手段は、前記隠れ変数をｚ_iとし、前記抽出された新奇第１特徴量をｘ_newとし、単一のシンボルのみを示す前記第２データの第２特徴量をｗとし、新奇第１特徴量ｘ_newから第２特徴量ｗが出現する条件付き確率をＰ（ｗ｜ｘ_new）としたときに、確率Ｐ（ｗ｜ｘ_new）を次式（１１０）に従って算出するアノテーション装置。ただし、式（１１０）において、Ｐ（ｘ_new｜ｚ_i）は隠れ変数ｚ_iから新奇第１特徴量ｘ_newが出現する条件付き確率であり、Ｐ（ｗ｜ｚ_i）は隠れ変数ｚ_iから第２特徴量ｗが出現する条件付き確率である。
請求の範囲２４に記載のアノテーション装置において、
前記第１および第２特徴量の組み合わせごとに取得される複数の隠れ変数はクラスタリングにより複数のクラスタに分類されると共に、前記複数のクラスタごとに代表ベクトルが取得されており、
前記学習情報記憶手段は、前記代表ベクトルと前記隠れ変数の所属クラスタを示す情報とを学習情報として記憶し、
前記確率算出手段は、前記複数の隠れ変数のうち、前記代表ベクトルから前記新奇第１特徴量が出現する条件付き確率が所定の閾値以上となる前記クラスタに所属する前記隠れ変数を用いて、前記新奇第１特徴量から単一のシンボルのみを示す前記第２データの第２特徴量が出現する条件付き確率を算出するアノテーション装置。
請求の範囲２４に記載のアノテーション装置において、
前記シンボル割付手段は、所定の基準に従って前記確率が高い順に前記単一のシンボルのみを示す前記第２データの第２特徴量により示されるシンボルを抽出すると共に、抽出したシンボルに基づいて前記新奇第１特徴量に対応した新奇第２特徴量を設定するアノテーション装置。
請求の範囲２４に記載のアノテーション装置において、
前記新奇第１特徴量と前記新奇第２特徴量とに基づいて前記学習情報を更新する情報更新手段を更に備えるアノテーション装置。
実世界情報にメタデータとしてのシンボルを付与するためのアノテーション方法であって、
（ａ）実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する条件付き確率および該隠れ変数から任意の第２特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶手段に記憶させるステップと、
（ｂ）前記記憶手段に記憶された前記学習情報を用いて、新奇第１データの特徴として抽出された新奇第１特徴量から単一のシンボルのみを示す前記第２データの第２特徴量が出現する条件付き確率を算出するステップと、
（ｃ）ステップ（ｂ）にて算出した確率に基づいて前記新奇第１データに対してシンボルを割り付けるステップと、
を含むアノテーション方法。
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する条件付き確率および該隠れ変数から任意の第２特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段を備えたコンピュータを実世界情報にメタデータとしてのシンボルを付与する装置として機能させるアノテーション用プログラムであって、
前記学習情報記憶手段に記憶された前記学習情報を用いて、新奇第１データの特徴として抽出された新奇第１特徴量から単一のシンボルのみを示す前記第２データの第２特徴量が出現する条件付き確率を算出する確率算出モジュールと、
前記算出された確率に基づいて前記新奇第１データに対してシンボルを割り付けるシンボル割付モジュールと、
を備えるアノテーション用プログラム。
メタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とするリトリーバル装置であって、
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する条件付き確率および該隠れ変数から任意の第２特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段と、
第２データとの対応付けがなされていない第１データである未注釈第１データを少なくとも１つ記憶する未注釈第１データ記憶手段と、
前記未注釈第１データから該未注釈第１データの特徴として抽出された未注釈第１特徴量を記憶する未注釈第１特徴量記憶手段と、
検索クエリとしての少なくとも１つのシンボルの入力を受け付ける入力受付手段と、
前記受け付けられた少なくとも１つのシンボルに基づいて、該少なくとも１つのシンボルを示す前記第２データの第２特徴量を検索用第２特徴量として設定する検索用第２特徴量設定手段と、
前記学習情報記憶手段に記憶された学習情報を用いて、前記未注釈第１特徴量から前記設定された検索用第２特徴量が出現する条件付き確率を算出する確率算出手段と、
前記確率算出手段により算出された確率に基づいて前記未注釈第１データ記憶手段から前記未注釈第１データを取り出すデータ取出手段と、
を備えるリトリーバル装置。
請求の範囲３２に記載のリトリーバル装置において、
前記隠れ変数は、前記第１または第２変換により前記第１または第２特徴量を正準空間に射影して得られる第１または第２変量であり、
前記確率算出手段は、前記隠れ変数をｓ_iとし、前記検索用第２特徴量をｙ_newとし、前記未注釈第１特徴量をｘ_jとし（ただし、ｊ＝１，…，Ｎであり、Ｎは未注釈第１データの総数である。）、未注釈第１特徴量ｘ_jから検索用第２特徴量ｙ_newが出現する条件付き確率をＰ（ｙ_new｜ｘ_j）としたときに、確率Ｐ（ｙ_new｜ｘ_j）を次式（１４）に従って算出するリトリーバル装置。ただし、式（１４）において、Ｐ（ｘ_j｜ｓ_i）は隠れ変数ｓ_iから未注釈第１特徴量ｘ_jが出現する条件付き確率であり、Ｐ（ｙ_new｜ｓ_i）は隠れ変数ｓ_iから検索用第２特徴量ｙ_newが出現する条件付き確率である。
請求の範囲３２に記載のリトリーバル装置において、
前記隠れ変数は、１組の前記第１および第２特徴量が正準空間において形成する正規分布の中心であり、
前記確率算出手段は、前記隠れ変数をｚ_iとし、前記検索用第２特徴量をｙ_newとし、前記未注釈第１特徴量をｘ_jとし（ただし、ｊ＝１，…，Ｎであり、Ｎは未注釈第１データの総数である。）、未注釈第１特徴量ｘ_jから検索用第２特徴量ｙ_newが出現する条件付き確率をＰ（ｙ_new｜ｘ_j）としたときに、確率Ｐ（ｙ_new｜ｘ_j）を次式（１１１）に従って算出するリトリーバル装置。ただし、式（１１１）において、Ｐ（ｘ_j｜ｚ_i）は隠れ変数ｚ_iから未注釈第１特徴量ｘ_jが出現する条件付き確率であり、Ｐ（ｙ_new｜ｚ_i）は隠れ変数ｚ_iから検索用第２特徴量ｙ_newが出現する条件付き確率である。
請求の範囲３２に記載のリトリーバル装置において、
前記第１および第２特徴量の組み合わせごとに取得される複数の隠れ変数はクラスタリングにより複数のクラスタに分類されると共に、前記複数のクラスタごとに代表ベクトルが取得されており、
前記学習情報記憶手段は、前記代表ベクトルと前記隠れ変数の所属クラスタを示す情報とを学習情報として記憶し、
前記確率算出手段は、前記複数の隠れ変数のうち、前記代表ベクトルから前記未注釈第１特徴量が出現する条件付き確率が所定の閾値以上となる前記クラスタに所属する前記隠れ変数を用いて、前記未注釈第１特徴量から前記設定された検索用第２特徴量が出現する条件付き確率を算出するリトリーバル装置。
メタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とするリトリーバル方法であって、
（ａ）実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する条件付き確率および該隠れ変数から任意の第２特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶手段に記憶させるステップと、
（ｂ）指定された少なくとも１つのシンボルに基づいて、該少なくとも１つのシンボルを示す前記第２データの第２特徴量を検索用第２特徴量として設定するステップと、
（ｃ）前記記憶手段に記憶された前記学習情報を用いて、第２データとの対応付けがなされていない第１データである未注釈第１データの特徴として抽出された未注釈第１特徴量から前記設定された検索用第２特徴量が出現する条件付き確率を算出するステップと、
（ｄ）ステップ（ｃ）にて算出した確率に基づいて前記記憶手段から前記未注釈第１データを取り出すステップと、
を含むリトリーバル方法。
実世界情報を示す第１データから該第１データの特徴として抽出された第１特徴量と前記第１データに対応付けられて前記実世界情報に対応した少なくとも１つのシンボルを示す第２データから該第２データの特徴として抽出された第２特徴量との少なくとも何れか一方に基づいて前記実世界情報と該実世界情報に対応したシンボルとを結びつける抽象的概念を示す隠れ変数を導出するために前記第１特徴量と前記第２特徴量との組み合わせを複数用いた正準相関分析により取得される変換と、該変換を用いて前記第１および第２特徴量の組み合わせごとに取得される隠れ変数と、前記隠れ変数から任意の第１特徴量が出現する条件付き確率および該隠れ変数から任意の第２特徴量が出現する条件付き確率とを得るために該隠れ変数ごとに導出される情報とを含む学習情報を記憶する学習情報記憶手段を備えたコンピュータをメタデータとしてのシンボルが付与されていない実世界情報を該シンボルに基づいて取り出し可能とする装置として機能させるリトリーバル用プログラムであって、
指定された少なくとも１つのシンボルに基づいて、該少なくとも１つのシンボルを示す前記第２データの第２特徴量を検索用第２特徴量として設定する検索用第２特徴量設定モジュールと、
前記学習情報記憶手段に記憶された前記学習情報を用いて、第２データとの対応付けがなされていない第１データである未注釈第１データの特徴として抽出された未注釈第１特徴量から前記設定された検索用第２特徴量が出現する条件付き確率を算出する確率算出モジュールと、
前記算出された算出した確率に基づいて前記未注釈第１データを取り出すデータ取出モジュールと、
を備えるリトリーバル用プログラム。