JP2010271787A

JP2010271787A - 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム

Info

Publication number: JP2010271787A
Application number: JP2009121244A
Authority: JP
Inventors: Tatsuya Harada; 達也原田; Hideki Nakayama; 英樹中山; Yasuo Kuniyoshi; 康夫國吉
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2009-05-19
Filing date: 2009-05-19
Publication date: 2010-12-02
Anticipated expiration: 2029-05-19
Also published as: WO2010134539A1; JP5382786B2

Abstract

【課題】実世界情報を示すデータから精度のよい特徴量をより少ない計算コストで生成可能とする。
【解決手段】実世界情報を示すデータとしての新奇画像データＩ_s全体の特徴を示す特徴ベクトルＸ_sは、当該新奇画像データＩ_sから抽出されたｐ^(j)個のｄ次局所特徴ベクトルＶ_k ^(j)の平均ベクトルμ^(j)を構成する要素と、ｐ^(j)個のｄ次局所特徴ベクトルＶ_k ^(j)間における第１次から第Ｍ次までのｍ次相関ベクトルを構成する要素とに基づいて取得される（ステップＳ１３０〜Ｓ１８０）。これにより、新奇画像データＩ_sから抽出された多数かつ比較的高次の局所特徴ベクトルＶ_k ^(j)に基づいて当該新奇画像データＩ_s全体の特徴を精度よく表す特徴ベクトルＸ_sを速やかに生成することが可能となる。
【選択図】図３

Description

本発明は、実世界情報を示す１つのデータから抽出された複数の高次局所特徴ベクトルを用いて当該１つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびに実世界情報を示す新奇データが複数のクラスのいずれに属するかを判別するクラス判別装置、クラス判別方法およびクラス判別プログラムに関する。

画像データや音声データ等は、視覚情報や聴覚情報といった実世界情報を示すものであるが、この種の実世界情報を示すデータの検索や新奇データの内容判別を可能とするためには、実世界情報を示すデータ全体の特徴量を適正に把握しておく必要がある。従来、１つの画像データ全体の特徴（global feature）を表すのに用いられる手法として、Bag-of-Keypoints法が知られている（例えば、非特許文献１参照）。Bag-of-Keypoints法は、所定の局所特徴記述子を用いて対象となる画像データから抽出された局所特徴ベクトルをクラスタリングすると共にクラスタの代表ベクトル（visual words）を求め、画像データから抽出された局所特徴を最も近い“visual words”に割り当てることにより画像データ全体の特徴を局所特徴の集合として表現するものである。なお、局所特徴の抽出に際して必要な特徴点の検出（選択）手法としては、“Difference of Gaussian”やランダムな特徴点検出手法（例えば、非特許文献２参照）、“Dense Sampling”と呼ばれるグリッドによる特徴点検出手法（例えば、非特許文献３参照）等が知られている。また、局所特徴記述子としては、エッジヒストグラムやＨＳＶカラーヒストグラム等が知られているが、近年では“SIFT記述子”（例えば、非特許文献４参照）等も用いられている。

G. Csurka, C. R. Dance, L. Fan, J. Willamowski and C. Bray. Visual Categorization with bags of keypoints. In Proc. ECCV Workshop on Statistical Learning in Computer Vision, 2004. E. Nowak, F. Jurie, and B. Trigges. Sampling strategies for bag-of-features image classification. In Proc. European Conference on Computer Vision, pages 490・503, 2006. L. Fei-Fei and P. Perona. A bayesian hierarchical model for learning natural scene categories. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, pages 524・531, 2005. D. G. Lowe. Object recognition from local scale-invariant features. In Proc. IEEE International Conference on Computer Vision, pages 1150・1157, 1999.

ここで、実世界情報を示す１つのデータ全体の特徴を取得するためには、基本的に次の１）〜３）のプロセスが必要となる。
１）画像の特徴的な点（特徴点）の検出と，その特徴点のスケール・オリエンテーションの正規化
２）特徴点の周辺における部分的な画像特徴（局所特徴）の記述
３）すべての局所特徴を利用して最終的な画像特徴を算出
ここで、上記１）および２）のプロセスに関しては、例えば上述の“SIFT記述子”のような精度のよい局所特徴をより少ない計算コストで抽出可能とするものが提案されている。しかしながら、上記３）の局所特徴からの最終的な特徴量の算出に関しては、計算コストの面での課題が依然として解消されておらず、最終的に得られた特徴量の精度（特徴の表現度）にも課題が残されている。例えば上述のBag-of-Keypoints法は、クラスタリングに極めて多大な時間を要するものであり、長時間かけて得られた特徴ベクトルを用いても画像認識精度の飛躍的改善が認められておらず、いわゆるスケーラビリティに劣っている。また、１つのデータ全体の特徴を示す特徴量の精度が低いと、新奇データの出現時における当該新奇データの内容判別（クラス判別）の精度もおのずと低下してしまうことになる。

そこで、本発明による特徴量生成装置、特徴量生成方法および特徴量生成プログラムは、実世界情報を示すデータから精度のよい特徴量をより少ない計算コストで生成可能にすることを主目的とする。また、本発明によるクラス判別装置、クラス判別方法およびクラス判別プログラムは、実世界情報を示す新奇データが複数のクラスのいずれに属するかを高精度に判別可能にすることを主目的とする。

本発明の特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラムは、上述の主目的を達成するために以下の手段を採っている。

本発明の特徴量生成装置は、
実世界情報を示す１つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記１つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成装置であって、
前記複数の高次局所特徴ベクトルの平均ベクトルを取得する平均取得手段と、
前記複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）を取得する相関取得手段と、
前記平均取得手段により取得された平均ベクトルを構成する要素と、前記相関取得手段により取得されたｍ次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴ベクトル取得手段と、
を備えるものである。

本発明者らは、実世界情報を示す１つのデータ全体の特徴（global feature）を表現する際の計算コストを削減する観点から、単純に、当該データから抽出された複数の高次局所特徴ベクトルの平均ベクトルをベースとしてデータ全体の特徴（global feature）を表現することに立ち返った。ただし、高次局所特徴ベクトルの平均のみを用いたのでは、データ全体の特徴を適正に表現する上で重要な局所特徴の分布情報のすべてが喪失されてしまうことになる。従って、特徴表現度の高い特徴ベクトルを得るためには、局所特徴の分布情報をより適正に表現することが重要となるが、当該分布情報は、最終的な特徴ベクトルの生成に多大な計算時間を要する比較的複雑な従来手法においても充分に表現されていない。これは、一般に１つのデータから抽出される局所特徴ベクトルの数は、計算処理面から見れば多いものであるが、大域的に見ればさほど多いものとはいえない（まばらである）ということに起因していると考えられる。これを踏まえて、本発明者らは、複数の高次局所特徴ベクトル間におけるｍ次相関ベクトルに着目し、当該ｍ次相関ベクトルを用いて局所特徴の分布情報を表現することとした。すなわち、本発明による特徴量生成装置では、実世界情報を示す１つのデータから抽出された複数の高次局所特徴ベクトルの平均ベクトルを構成する要素と、複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトルを構成する要素とに基づいて当該データ全体の特徴を示す特徴ベクトルが取得される。ここで、ｍ次相関ベクトルは、例えばクラスタリング等に比して大幅に軽負荷な計算処理により取得可能なものであり、しかも、重要な特徴要素間の相関すなわち局所特徴の分布情報を良好に表すものである。この結果、この特徴量生成装置によれば、計算コストを大幅に削減しつつ実世界情報を示すデータから精度のよい（特徴表現度の高い）特徴量を速やかに得ることが可能となる。なお、上記特徴ベクトルの生成に際してのｍ次相関ベクトルの最大次数（値Ｍ）は、高次局所特徴ベクトルの数や次元等に応じて任意に定められるものであり、１次であってもよく、２次、３次あるいは更に高次とされてもよい。更に、複数の高次局所特徴ベクトルの平均ベクトルは、複数の高次局所特徴ベクトル間における０次相関ベクトルとも表現され得ることから、平均取得手段と相関取得手段とは、単一の計算処理モジュールにより構成されてもよい。

また、実世界情報を示す１つのデータＩから抽出されたｐ個のｄ次局所特徴ベクトルをＶ_k＝（ｖ₁，…，ｖ_d）としたときに（ただし、“ｐ”および“ｄ”はそれぞれ値２以上の整数であり、“ｋ”は値１から値ｐまでの整数である）、前記平均取得手段は、前記ｐ個のｄ次局所特徴ベクトルＶ_kの平均ベクトルμを次式（１）に従って取得し、前記相関取得手段は、前記ｐ個のｄ次局所特徴ベクトルＶ_kの自己相関行列Ｒを次式（２）に従って取得すると共に該自己相関行列Ｒの上三角行列の要素を列挙して１次相関ベクトルｕｐｐｅｒ（Ｒ）を取得するものであってもよく、前記特徴ベクトル取得手段は、前記特徴ベクトルをＸとしたときに、次式（３）に従って平均ベクトルμの要素と１次相関ベクトルｕｐｐｅｒ（Ｒ）の要素とを列挙することにより該特徴ベクトルＸを取得するものであってもよい。これにより、多数かつ比較的高次の局所特徴ベクトルからデータ全体の特徴をより適正に表す特徴ベクトルを速やかに生成することが可能となる。

更に、前記相関取得手段は、主成分分析による前記高次局所特徴ベクトルの次元圧縮を伴って前記ｍ次相関ベクトルを取得するものであってもよい。これにより、高次局所特徴ベクトルの次元がより高い場合に、ｍ次相関ベクトルの取得に伴う計算コストを削減することが可能となる。また、次元圧縮によりデータ全体の特徴を表現する上で不要な局所特徴を除去することも可能となる。

また、実世界情報を示すＮ個のデータＩ^(j)が存在するとし（ただし、“Ｎ”は値２以上の整数であり、“ｊ”は値１から値Ｎまでの整数である）、１つのデータＩ^(j)から抽出されたｐ^(j)個のｄ次局所特徴ベクトルをＶ_k ^(j)＝（ｖ₁，…，ｖ_d）とし（ただし、“ｐ^(j)”および“ｄ”はそれぞれ値２以上の整数であり、“ｋ”は値１から値ｐまでの整数である）、前記平均取得手段により取得される前記ｐ^(j)個のｄ次局所特徴ベクトルＶ_kの平均ベクトルを次式（４）に示すμ^(j)とし、前記ｐ^(j)個のｄ次局所特徴ベクトルＶ_k ^(j)の自己相関行列を次式（５）に示すＲ^(j)とし、前記Ｎ個のデータから抽出されたｄ次局所特徴ベクトル全体の自己相関行列を次式（６）に示すＲ_allとし、新奇データをＩ^(j+1)としたときに、前記相関取得手段は、次式（７）の固有値問題を解いて得られるｄ次よりも低次であるｄｌ次の主成分空間への射影行列Ｕ_dlと、新奇データＩ^(j+1)から抽出されたｐ^(j+1)個のｄ次局所特徴ベクトルＶ_k ^(j+1)の自己相関行列Ｒ^(j+1)とに基づく対角行列Ｕ_dl ^TＲ^(j+1)Ｕ_dlを取得すると共に、該対角行列Ｕ_dl ^TＲ^(j+1)Ｕ_dlの上三角行列の要素を列挙して１次相関ベクトルｕｐｐｅｒ（Ｕ_dl ^TＲ^(j+1)Ｕ_dl）を取得するものであってもよく、前記特徴ベクトル取得手段は、次式（８）に従って前記ｐ^(j+1)個のｄ次局所特徴ベクトルＶ_k ^(j+1)の平均ベクトルμ^(j+1)を構成する要素と１次相関ベクトルｕｐｐｅｒ（Ｕ_dl ^TＲ^(j+1)Ｕ_dl）を構成する要素とを列挙することにより新奇データＩ^(j+1)の特徴ベクトルＸ^(j+1)を取得するものであってもよい。この場合、予めＮ個のデータＩ^(j)を用いて射影行列Ｕ_dlを求めておくことにより、新奇データＩ^(j+1)が出現したときに、当該新奇データＩ^(j+1)の特徴ベクトルＸ^(j+1)を速やかに取得することが可能となる。

本発明による特徴量生成方法は、
実世界情報を示す１つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記１つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成方法であって、
前記複数の高次局所特徴ベクトルの平均ベクトルと、前記複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）とを取得し、
前記取得された平均ベクトルを構成する要素と、前記取得されたｍ次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得するものである。

この方法によれば、計算コストを大幅に削減しつつ実世界情報を示すデータから精度のよい（特徴表現度の高い）特徴量を速やかに生成することが可能となる。

本発明による特徴量生成プログラムは、
実世界情報を示す１つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記１つのデータ全体の特徴を示す特徴ベクトルを生成する装置としてコンピュータを機能させる特徴量生成プログラムであって、
前記複数の高次局所特徴ベクトルの平均ベクトルを取得する平均取得モジュールと、
前記複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）を取得する相関取得モジュールと、
前記平均取得モジュールにより取得された平均ベクトルを構成する要素と、前記相関取得モジュールにより取得されたｍ次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴ベクトル取得モジュールと、
を備えるものである。

この特徴量生成プログラムをインストールしたコンピュータを用いれば、計算コストを大幅に削減しつつ実世界情報を示すデータから精度のよい（特徴表現度の高い）特徴量を速やかに生成することが可能となる。

本発明によるクラス判別装置は、
実世界情報を示す新奇データがそれぞれ少なくとも１つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別装置であって、
第ｈ層で前記新奇データおよび前記既知データのそれぞれがｈ×ｈ個（ただし、“ｈ”は値１から値Ｈまでの整数であり、“Ｈ”は値２以上の整数である）の領域に分割されるとして、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルに基づいて該領域ごとに導出された該特徴ベクトルを潜在空間に射影するための変換を記憶する変換記憶手段と、
第ｈ層で前記新奇データがｈ×ｈ個の領域に分割されるとして、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出する局所特徴抽出手段と、
第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから前記局所特徴抽出手段により抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）とを取得すると共に、該平均ベクトルを構成する要素と該ｍ次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得する特徴ベクトル取得手段と、
前記クラスごとに、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点と、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第ｈ層における第ｉ番目（ただし、“ｉ”は値１から値ｈ²までの整数である）の領域の特徴ベクトルから前記新奇データの第ｈ層における第ｉ番目の領域の特徴ベクトルが出現する確率のｉ＝１からｉ＝ｈ²かつ第１層から第Ｈ層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出する確率導出手段と、
前記確率導出手段により導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス設定手段と、
を備えるものである。

このクラス判別装置は、新奇データが複数のクラスのいずれに属するかを判別するに際して、第１層から第Ｈ層までの各層で複数の既知データおよび新奇データをｈ×ｈ分割して得られる領域のそれぞれから抽出された複数の高次局所特徴ベクトルの平均ベクトルを構成する要素と、当該複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトルを構成する要素とに基づいて取得される当該領域それぞれの特徴ベクトルを利用する。かかる特徴ベクトルは、低い計算コストで取得可能であると共に対象領域の特徴を良好に表現し得るものである。そして、このクラス判別装置は、クラスごとに、第１層から第Ｈ層までの各層で既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを当該領域に対応した変換により潜在空間に射影して得られる射影点と、第１層から第Ｈ層までの各層で新奇データを分割して得られる領域それぞれの特徴ベクトルを当該領域に対応した変換により潜在空間に射影して得られる射影点とに基づいて、既知データの第ｈ層における第ｉ番目の領域の特徴ベクトルから新奇データの第ｈ層における第ｉ番目の領域の特徴ベクトルが出現する確率のｉ＝１からｉ＝ｈ²かつ第１層から第Ｈ層までの総和を当該クラスから新奇データの特徴ベクトルが出現する確率として導出する。このように、低い計算コストで取得可能であると共に高い特徴表現度を有する特徴ベクトルと、確率的線形判別分析（Probabilistic linear discriminant analysis：S. Ioffe. Probabilistic linear discriminant analysis. In Proc. European Conference on Computer Vision, pages 531-542, 2006. 参照）に対して潜在空間を多重化するという拡張を導入した手法とを用いることにより、あるクラスから新奇データの特徴ベクトルが出現する確率をより高精度かつ速やかに導出することができる。従って、このクラス判別装置によれば、クラスごとに導出された確率から、実世界情報を示す新奇データが複数のクラスのいずれに属するかをより高精度に判別することが可能となる。なお、第１層において１×１＝１個に分割される既知データや新奇データは、当該既知データや当該新奇データそのものとなり、第１層において抽出・生成される高次局所特徴ベクトルや特徴ベクトルは、既知データや新奇データそれ自体から直接に抽出・生成されるものとなる。

また、第ｈ層における第ｉ番目の領域についての前記変換は、前記クラスの個数をＧ（ただし、“Ｇ”は値２以上の整数である）とし、前記クラスをＣ_g（ただし、“ｇ”は値１から値Ｇまでの整数である）とし、クラスＣ_gからサンプルとして抽出される既知データであるサンプルデータの数をｎとし（だだし、“ｎ”は値１以上の整数である）、クラスＣ_gに属する第ｊ番目（ただし、“ｊ”は値１から値ｎまでの整数である）のサンプルデータの第ｈ層における第ｉ番目の領域の特徴ベクトルをＸ_j ^g(h,i)とし、クラスＣ_gに属するサンプルデータの第ｈ層におけるｉ番目の領域の特徴ベクトルＸ_j ^g(h,i)の平均ベクトルをＸ^-g(h,i)とし、クラスＣ_gに属する全サンプルデータの第ｈ層におけるｉ番目の領域の特徴ベクトルの平均ベクトルをμ_x ^(h,i)とし、第ｈ層におけるｉ番目の領域についてのクラス内共分散行列を次式（９）に示すΣ_w ^(h,i)とし、第ｈ層におけるｉ番目の領域についてのクラス外共分散行列を次式（１０）に示すΣ_b ^(h,i)としたときに、次式（１１）の固有値問題を解いて得られる射影行列Ｗ^(h,i)であってもよく（ただし、式（１１）の“Λ^(h,i)”は判別基準としての固有値を順番に対角に並べて得られる対角行列である）、前記特徴ベクトルをＸとし、前記射影行列をＷとし、該特徴ベクトルＸの射影点をｕとしたときに、第１層から第Ｈ層までの各層で前記サンプルデータのそれぞれを分割して得られる領域それぞれの特徴ベクトルの射影点と、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルの射影点とは、次式（１２）に従って導出されてもよく、前記新奇データの特徴ベクトルをＸ_sとしたときに、クラスＣ_gから該特徴ベクトルＸ_sが出現する確率ｐ（Ｘ_s｜Ｃ_g）は、次式（１３）に基づいて導出されてもよい。ただし、式（１３）における添え字（ｈ，ｉ）は第ｈ層における第ｉ番目の領域に由来することを示し、添え字ｓは新奇データに由来することを示し、添え字Ｃ_gはクラスＣ_gに属することを示し、添え字１…ｎはクラスＣ_gに属する第１〜ｎ番目のサンプルデータに由来することを示し、“α^h”は、第ｈ層に対して付与される重みであり、式（１３）における“Ｚ^(h,i)Cg”および“Θ^(h,i)”は次式（１４）および（１５）に示すとおりであり、式（１４）におけるｕ^-(h、^j)CgはクラスＣ_gに属する特徴ベクトルＸ^(h、^j)Cgの射影点ｕ^(h、^j)Cgの平均であり、式（１４）および（１５）における“Ψ^(h,i)”は次式（１６）に示す潜在変数の分散であり、式（１６）におけるΛ^(h,i)は第ｈ層における第ｉ番目の領域における固有値問題の解である固有値を順番に対角に並べて得られる対角行列である。これにより、あるクラスから新奇データの特徴ベクトルが出現する確率をより高精度に導出することが可能となる。

本発明によるクラス判別方法は、
実世界情報を示す新奇データがそれぞれ少なくとも１つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別方法であって、
第ｈ層で前記新奇データおよび前記既知データのそれぞれがｈ×ｈ個（ただし、“ｈ”は値１から値Ｈまでの整数であり、“Ｈ”は値２以上の整数である）の領域に分割されるとして、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルに基づいて、該特徴ベクトルを潜在空間に射影するための変換を該領域ごとに導出し、
第ｈ層で前記新奇データがｈ×ｈ個の領域に分割されるとして、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出し、
第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）とを取得すると共に、該平均ベクトルを構成する要素と該ｍ次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得し、
前記クラスごとに、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点と、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第ｈ層における第ｉ番目（ただし、“ｉ”は値１から値ｈ²までの整数である）の領域の特徴ベクトルから前記新奇データの第ｈ層における第ｉ番目の領域の特徴ベクトルが出現する確率のｉ＝１からｉ＝ｈ²かつ第１層から第Ｈ層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出し、
前記導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するものである。

この方法によれば、クラスごとに導出された確率から、実世界情報を示す新奇データが複数のクラスのいずれに属するかを高精度に判別することが可能となる。

本発明によるクラス判別プログラムは、
実世界情報を示す新奇データがそれぞれ少なくとも１つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別装置としてコンピュータを機能させるクラス判別プログラムであって、
第ｈ層で前記新奇データがｈ×ｈ個（ただし、“ｈ”は値１から値Ｈまでの整数であり、“Ｈ”は値２以上の整数である）の領域に分割されるとして、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出する局所特徴抽出モジュールと、
第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから前記局所特徴抽出モジュールにより抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）とを取得すると共に、該平均ベクトルを構成する要素と該ｍ次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得する特徴ベクトル取得モジュールと、
前記クラスごとに、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを予め定められた該領域に対応した変換により潜在空間に射影して得られる射影点と、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第ｈ層における第ｉ番目（ただし、“ｉ”は値１から値ｈ²までの整数である）の領域の特徴ベクトルから前記新奇データの第ｈ層における第ｉ番目の領域の特徴ベクトルが出現する確率のｉ＝１からｉ＝ｈ²かつ第１層から第Ｈ層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出する確率導出モジュールと、
前記確率導出モジュールにより導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス設定モジュールと、
を備えるものである。

このクラス判別プログラムがインストールされたコンピュータによれば、クラスごとに導出された確率から、実世界情報を示す新奇データが複数のクラスのいずれに属するかを高精度に判別することが可能となる。

本発明の一実施例に係るロボット装置を示す概略構成図である。画像データ全体の特徴を示す特徴ベクトルを生成するプロセスを説明するための説明図である。特徴ベクトル生成ルーチンの一例を示すフローチャートである。クラス判別ルーチンの一例を示すフローチャートである。新奇データが複数のクラスのいずれに属するかを判別する手順を説明するための説明図である。新奇データが複数のクラスのいずれに属するかを判別する手順を説明するための説明図である。本発明の特徴ベクトル生成方法により生成される特徴ベクトルの特徴表現との評価結果を示す図表である。本発明のクラス判別方法の有効性の評価結果を示す図表である。変形例に係る画像データ処理システムの概略構成図である。

次に、本発明を実施するための形態を実施例を用いて説明する。

図１は、本発明の一実施例に係るロボット装置２０の概略構成図である。同図に示すロボット装置２０は、人工知能を有するいわゆる人型ロボットであり、人間の目に相当する撮像ユニット２１や人間の耳に相当する集音ユニット２２、人間の手に相当するマニピュレータや脚部等の可動部を動かすための多数のアクチュエータ２３、図示しない音声発生ユニット、人工知能として機能する制御コンピュータ３０等を含む。制御コンピュータ３０は、図示しないＣＰＵ，ＲＯＭ，ＲＡＭ、グラフィックプロセッサ（ＧＰＵ）、グラフィックメモリ（ＶＲＡＭ）、システムバス、各種インターフェース、ハードディスクドライブやフラッシュメモリドライブ（ＳＳＤ）といった外部記憶装置等を含むものであり、制御コンピュータ３０には、これらのハードウェアと本発明による特徴量生成プログラムやクラス判別プログラムといったソフトウェアとの一方または双方の協働により、入出力処理部３１、特徴量処理部３２、学習処理部３３、判別処理部３４、リトリーバル処理部３５、主制御部３６等が構築されている。また、制御コンピュータ３０には、画像データや音声データ等を記憶するデータ記憶装置４０や、特徴量記憶装置４１や学習情報記憶装置４２が接続されている。

入出力処理部３１は、撮像ユニット２１や集音ユニット２２等を介してロボット装置２０に対して入出力される情報を処理するものであり、例えば人間からの音声による指令が集音ユニット２２により取得されると集音ユニット２２からの音声データを適宜処理して主制御部３６に与える。特徴量処理部３２は、例えばグリッドによる特徴点検出を実行して撮像ユニット２１により取得された画像データや集音ユニット２２により取得された音声データから画像や音声の特徴点（Key Point）を検出（選択）すると共に、例えばSIFT記述子を用いた各特徴点における特徴記述を実行することにより（図２における１）および２）参照）、対象となるデータから複数の高次局所特徴ベクトルＶ_kを抽出し、特徴量記憶装置４１に格納する。以下、高次局所特徴ベクトルＶ_kの次元を“ｄ”とする（ただし、“ｄ”は値２以上の整数である）。また、ある画像データから抽出される高次局所特徴ベクトルＶ_kの数を“ｐ”とすれば（ただし、“ｐ”は値２以上の整数である）、“ｋ”は値１から値ｐまでの整数となる。ここで、SIFT記述子を用いた特徴記述は、モノクロ画像については、当該モノクロ画像の特徴点をＬピクセルずつスペーシングしながら，特徴点を中心とするＰ×Ｐピクセルの領域から１２８次元の局所特徴ベクトル（Gray-SIFT）を抽出するものであり、カラー画像については、当該カラー画像の各特徴点においてＲＧＢそれぞれについて独立にSIFT特徴記述を行い、ＲＧＢそれぞれについて抽出された局所特徴を結合して３８４次元の局所特徴ベクトル（RGB-SIFT）を生成するものである。また、実施例では、スケールに対する頑健性を向上させるべく、Ｐ＝１６の領域とＰ＝３６の領域との双方から抽出された局所特徴ベクトルを列挙して最終的な高次局所特徴ベクトルＶ_kとしている。更に、特徴量処理部３２は、抽出した高次局所特徴ベクトルＶ_k等に基づいて画像データや音声データ全体の特徴（global feature）を示す特徴ベクトルＸ_jを生成し（図２における３）参照）、特徴量記憶装置４１に格納する。加えて、特徴量処理部３２は、画像データや音声データに対応付けられて画像に現れているものや音声の意味するところを示すシンボルについてのメタデータからそのデータの特徴を示す特徴ベクトルを抽出し、特徴量記憶装置４１に格納する。

学習処理部３３は、高次局所特徴ベクトルＶ_kや特徴ベクトルＸ_jを用いた主成分分析等を実行して判別処理部３４やリトリーバル処理部３５の処理に際して必要な学習情報を生成・更新し、学習情報記憶装置４２に格納する。判別処理部３４は、撮像ユニット２１により取り込まれた新奇画像データ（画像データに対応付けられて画像に現れているものや音声の意味するところを示すシンボルすなわちメタデータが付与されていない未注釈画像データ）等がそれぞれ複数の既知画像データ等に対応した複数のクラス（同種のものとして分類される複数の画像データが共通に意味するところを示すシンボル）のいずれに属するかを判別する。また、判別処理部３４は、学習情報記憶装置４２に記憶された学習情報等を用いて未注釈画像データや未注釈音声データに対するアノテーションを実行する。リトリーバル処理部３５は、シンボルに基づく未注釈画像データや未注釈音声データの検索処理（リトリーバル）を実行する。主制御部３６は、入出力処理部３１からの指令や、判別処理部３４の処理結果、リトリーバル処理部３５の処理結果等に基づいてロボット装置２０の動作態様を決定する等してアクチュエータ２３を制御する。

次に、実施例のロボット装置２０において撮像ユニット２１により取り込まれた新奇画像データＩ_s全体の特徴（global feature）を示す特徴ベクトルＸ_sを生成する手順について説明する。図３は、新奇画像データＩ_sの特徴ベクトルＸ_sを生成するために制御コンピュータ３０の特徴量処理部３２により実行される特徴ベクトル生成ルーチンの一例を示すフローチャートである。

図３の特徴ベクトル生成ルーチンの開始に際して、特徴量処理部３２は、新奇画像データＩ_sや射影行列Ｕ_dlといった特徴ベクトルＸ_sの生成に必要なデータを入力し、所定の記憶領域（メモリ）に格納する（ステップＳ１００）。射影行列Ｕ_dlは、学習情報記憶装置４２に記憶されている学習情報の一つであり、学習処理部３３によりデータ記憶装置４０に記憶されている既知画像データ（学習用のデータを含む）から抽出されたｄ次局所特徴ベクトルに基づいて予め求められている。具体的には、射影行列Ｕ_dlは、局所特徴ベクトルの次数ｄよりも低次であるｄｌ次（ｄｌ＜ｄ、例えばｄｌ＝３０）の主成分空間への射影行列であって、Ｎ個の既知画像データＩ^(j)が存在するとし（ただし、“Ｎ”は値２以上の整数であり、“ｊ”は値１から値Ｎまでの整数である）、１つの既知画像データＩ^(j)から抽出されたｐ^(j)個のｄ次局所特徴ベクトルをＶ_k ^(j)＝（ｖ₁，…，ｖ_d）とし、ｐ^(j)個のｄ次局所特徴ベクトルＶ_kの平均ベクトルを次式（１７）に示すμ^(j)とし、ｐ^(j)個のｄ次局所特徴ベクトルＶ_k ^(j)の自己相関行列を次式（１８）に示すＲ^(j)とし、Ｎ個の既知画像データから抽出されたｄ次局所特徴ベクトル全体の自己相関行列を次式（１９）に示すＲ_allとしたときに、次式（２０）の固有値問題の解として得られるものである。

ステップＳ１００のデータ入力処理の後、特徴量処理部３２は、新奇画像データＩ_sを階層的に分割するときの階層の数を示す変数ｈを値１に初期化する（ステップＳ１１０）。ここで、変数ｈに対応した階層である第ｈ層では、新奇画像データＩ_sがｈ×ｈ個の領域に分割されると仮定する。ただし、“ｈ”は値１から値Ｈまでの整数であり、“Ｈ”は値２以上の整数である。ステップＳ１１０の処理の後、特徴量処理部３２は、グリッドによる特徴点検出とSIFT記述子を用いた各特徴点における特徴記述とを実行することにより、第ｈ層において新奇画像データＩ_sをｈ×ｈ分割（ｈ×ｈ等分）して得られる領域のそれぞれから複数（実施例では、領域ごとに同数）のｄ次局所特徴ベクトルＶ_k ^(h,i)を抽出し、所定の記憶領域（実施例では、メモリおよび外部記憶装置すなわち特徴量記憶装置４１）に格納する（ステップＳ１２０）。ただし、“ｉ”は値１から値ｈ²までの整数（ｈ×ｈ分割後の領域の番号）であり、添え字（ｈ，ｉ）は、第ｈ層における第ｉ番目の領域に由来することを示す。また、第１層において新奇画像データＩ_sは１×１個の領域に分割されることになるから、ｈ＝１であるときに、ステップＳ１２０では、新奇画像データＩ_sの全体から複数のｄ次局所特徴ベクトルＶ_k ^(1,1)が抽出されることになる。そして、特徴量処理部３２は、第ｈ層の第１番目から第ｈ²番目までの領域ごとに上記式（１７）と同様の計算を行い、それぞれの領域から抽出された複数のｄ次局所特徴ベクトルＶ_k ^(h,i)の平均ベクトルμ_Xs ^(h,i)を導出し、所定の記憶領域（メモリ）に格納する（ステップＳ１３０）。

次いで、特徴量処理部３２は、所定の変数ｍを値１に初期化した上で（ステップＳ１４０）、第ｈ層の第１番目から第ｈ²番目までの領域ごとに、それぞれの領域から抽出された複数のｄ次局所特徴ベクトルＶ_k ^(h,i)間におけるｍ次相関ベクトル（ただし、“ｍ”は値１から値Ｍまでの整数であり、“Ｍ”は値１以上の整数である）を導出する（ステップＳ１５０）。ステップＳ１５０において、特徴量処理部３２は、ｍ＝１である場合、第ｈ層の第１番目から第ｈ²番目までの領域ごとに、上記式（１８）に従って第ｈ層の第ｉ番目の領域から抽出された複数のｄ次局所特徴ベクトルＶ_k ^(h,i)の自己相関行列Ｒ^(h,i)を求めると共に、当該自己相関行列Ｒ^(h,i)とステップＳ１００にて入力した射影行列Ｕ_dlおよびその転置行列Ｕ_dl ^Tとに基づく対角行列Ｕ_dl ^TＲ^(h,i)Ｕ_dlを取得し、当該対角行列Ｕ_dl ^TＲ^(h,i)Ｕ_dlの上三角行列の要素を列挙して１次相関ベクトルｕｐｐｅｒ（Ｕ_dl ^TＲ^(h,i)Ｕ_dl）を取得した後、所定の記憶領域（メモリ）に格納する。ここで、射影行列Ｕ_dlは、上述のように、局所特徴ベクトルの次数ｄ（例えばｄ＝１２８または３８４）よりも低次であるｄｌ次（例えばｄｌ＝３０）の主成分空間への射影行列である。

ステップＳ１５０にてｍ次相関ベクトルｕｐｐｅｒ（Ｕ_dl ^TＲ^(h,i)Ｕ_dl）を導出すると、特徴量処理部３２は、変数ｍが最大値である値Ｍであるか否かを判定し（ステップＳ１６０）、変数ｍが最大値Ｍ未満であれば、変数ｍをインクリメントして（ステップＳ１７０）、再度ステップＳ１５０の処理を実行する。なお、変数ｍの最大値Ｍが値２以上である場合にも、ｍ次相関ベクトルの導出に際して適切なｄ次局所特徴ベクトルの次元圧縮を実行することが好ましい。そして、ステップＳ１６０にて変数ｍが最大値Ｍであると判断すると、特徴量処理部３２は、第ｈ層の第１番目から第ｈ²番目までの領域ごとに、次式（２１）に従ってｄ次局所特徴ベクトルＶ_k ^(h,i)の平均ベクトルμ_Xs ^(h,i)を構成する要素とｍ次相関ベクトルｕｐｐｅｒ（Ｕ_dl ^TＲ^(j+1)Ｕ_dl）を構成する要素とを順番に列挙することにより新奇画像データＩ_sの特徴ベクトルＸ_s ^(h,i)を生成し、所定の記憶領域（実施例では、メモリおよび外部記憶装置すなわち特徴量記憶装置４１）に格納する（ステップＳ１８０）。ステップＳ１８０の処理の後、特徴量処理部３２は、変数ｈが最大値Ｈ（実施例では、例えばＨ＝３）であるか否かを判定し（ステップＳ１９０）、変数ｈが最大値Ｈ未満であれば、変数ｈをインクリメントして（ステップＳ２００）、再度ステップＳ１２０以降の処理を実行する。また、ステップＳ１９０にて変数ｈが最大値Ｈであると判断されたときには、第１層から第Ｈ層までの各層で新奇画像データＩ_sをｈ×ｈ分割して得られる領域それぞれの特徴ベクトルＸ_s ^(h,i)が取得されていることになり、その段階で本ルーチンが終了する。

引き続き、実施例のロボット装置２０において撮像ユニット２１により取り込まれた新奇画像データＩ_sがそれぞれ複数の既知画像データに対応した複数のクラスＣ₁，…，Ｃ_g，…，Ｃ_G（ただし、“ｇ”は値１から値Ｇまでの整数であり、“Ｇ”は値２以上の整数である）のいずれに属するかを判別する手順について説明する。図４は、新奇画像データＩ_sが複数のクラスＣ₁〜Ｃ_Gのいずれに属するかを判別するために制御コンピュータ３０の判別処理部３４により実行されるクラス判別ルーチンの一例を示すフローチャートである。

ここで、図４に例示するクラス判別ルーチンは、確率的線形判別分析（Probabilistic linear discriminant analysis）の枠組みを基に構築されたものである。確率的線形判別分析の枠組みにおいて、クラスＣ_gからサンプルとして抽出される既知画像データ（以下、「サンプルデータ」という）の数をｎとし、クラスＣ_gに属する第ｊ番目（ただし、“ｊ”は値１から値ｎまでの整数である）のサンプルデータの特徴ベクトルをＸ_j ^gとし、クラスＣ_gに属するサンプルデータの特徴ベクトルＸ_j ^gの平均ベクトルをＸ^-gとし（ただし、本明細書および特許請求の範囲において、上付きのバーは、アッパーラインを示す）、全サンプルデータの特徴ベクトルＸ_j ^gの平均ベクトルをμ_xとし、クラス内共分散行列を次式（２２）に示すΣ_wとし、クラス外共分散行列を次式（２３）に示すΣ_bとしたときに、次式（２４）の一般化固有値問題が定式化される。かかる式（２４）の固有値問題を解くことにより、特徴ベクトルＸ_j ^gを潜在空間に射影するための変換である射影行列Ｗを得ることができる。ただし、式（２４）の“Λ”は判別基準としての固有値を順番に対角に並べて得られる対角行列である。なお、特徴ベクトルの次元に対してサンプルデータの数が充分に大きくない場合には、次式（２５）に示すように、式（２３）から得られるクラス内共分散行列Σ_wに対して過学習を抑制すべく正則化項γＩを付加するとよい（ただし、“γ”は実験的に求められるパラメータである）。こうして得られる射影行列Ｗを用いることにより、上述の特徴ベクトル生成ルーチンの実行により得られた特徴ベクトルＸ^(h,i)の潜在空間における射影点（ベクトル）ｕ^(h,i)を次式（２６）に従って導出することができる。そして、上記式（２２）〜（２６）等に示す構造を用いれば、あるクラスＣ_gから新奇画像データＩ_sの特徴ベクトルＸ_sの射影点ｕ_sが出現する確率ｐ（ｕ_s｜Ｃ_g）を次式（２７）に従って導出することができる。ただし、式（２７）における添え字１…ｎはクラスＣ_gに属する第１〜ｎ番目のサンプルデータに由来することを示し、“Ψ”は、次式（２８）に示す潜在変数の分散である。

確率的線形判別分析を利用した場合、あるクラスＣ_gから新奇画像データＩ_sの特徴ベクトルＸ_sの射影点ｕ_sが出現する確率ｐ（ｕ_s｜Ｃ_g）を上記式（２７）に従って求めることができるが、実施例のロボット装置２０では、あるクラスＣ_gから新奇画像データＩ_s（の特徴ベクトルＸ_s）が出現する確率をより高精度に導出可能とすべく、確率的線形判別分析に対して潜在空間を多重化するという拡張が導入されている。すなわち、実施例のロボット装置２０では、クラスＣ_gに属する第ｊ番目のサンプルデータの第ｈ層における第ｉ番目の領域の特徴ベクトルをＸ_j ^g(h,i)とし、クラスＣ_gに属するサンプルデータの第ｈ層におけるｉ番目の領域の特徴ベクトルＸ_j ^g(h,i)の平均ベクトルをＸ^-g(h,i)とし、クラスＣ_gに属する全サンプルデータの第ｈ層におけるｉ番目の領域の特徴ベクトルの平均ベクトルをμ_x ^(h,i)とし、第ｈ層におけるｉ番目の領域についてのクラス内共分散行列を次式（２９）に示すΣ_w ^(h,i)とし、第ｈ層におけるｉ番目の領域についてのクラス外共分散行列を次式（３０）に示すΣ_b ^(h,i)としたときに、第ｈ層における第ｉ番目の領域ごとに次式（３１）の固有値問題を解くことにより、第ｈ層における第ｉ番目の領域の特徴ベクトルを当該領域に対応した潜在空間に射影するための変換としての射影行列Ｗ^(h,i)が第ｈ層における第ｉ番目の領域ごとに予め導出される（ただし、式（３１）の“Λ^(h,i)”は判別基準としての固有値を順番に対角に並べて得られる対角行列である）。そして、ロボット装置２０は、複数のクラスＣ₁〜Ｃ_Gごとに、第１層から第Ｈ層までの各層でサンプルデータのそれぞれをｈ×ｈ分割して得られる領域それぞれの特徴ベクトルＸ^(h,i)を射影行列Ｗ^(h,i)により潜在空間に射影して得られる射影点ｕ^(h,i)と、第１層から第Ｈ層までの各層で新奇画像データＩ_sをｈ×ｈ分割して得られる領域それぞれの特徴ベクトルＸ_s ^(h,i)を射影行列Ｗ^(h,i)により潜在空間に射影して得られる射影点ｕ_s ^(h,i)と、次式（３２）とに基づいて、サンプルデータの第ｈ層における第ｉ番目の領域の特徴ベクトルＸ^(h,i)から新奇画像データＩ_sの第ｈ層における第ｉ番目の領域の特徴ベクトルＸ_s ^(h,i)が出現する確率のｉ＝１からｉ＝ｈ²かつ第１層から第Ｈ層までの総和を当該クラスＣ_gから新奇画像データＩ_sの特徴ベクトルＸ_sが出現する確率ｐ（Ｘ_s｜Ｃ_g）として導出するのである。ただし、式（３２）における添え字（ｈ，ｉ）は第ｈ層における第ｉ番目の領域に由来することを示し、添え字ｓは新奇データに由来することを示し、添え字Ｃ_gはクラスＣ_gに属することを示し、添え字１…ｎはクラスＣ_gに属する第１〜ｎ番目のサンプルデータに由来することを示し、“α^h”は、予め実験的に求められる第ｈ層に対して付与される重みであり、式（３２）における“Ｚ^(h,i)Cg”および“Θ^(h,i)”は次式（３３）および（３４）に示すとおりであり、式（３３）におけるｕ^-(h、^j)CgはクラスＣ_gに属する特徴ベクトルＸ^(h、^j)Cgの射影点ｕ^(h、^j)Cgの平均であり、式（３３）および（３４）における“Ψ^(h,i)”は次式（３５）に示す潜在変数の分散であり、式（３５）におけるΛ^(h,i)は第ｈ層における第ｉ番目の領域における固有値問題の解である固有値を順番に対角に並べて得られる対角行列である。図５および図６に実施例のロボット装置２０において確率ｐ（Ｘ_s｜Ｃ_g）が導出されていく様子を模式的に示す。上記式（３２）は、クラスＣ_gから新奇画像データＩ_sの特徴ベクトルＸ_sが出現する確率ｐ（Ｘ_s｜Ｃ_g）の対数尤度（重み付き対数尤度）を示すものであり、式（３２）を次式（３６）に示すように変形することにより、あるクラスＣ_gから新奇画像データＩ_sの特徴ベクトルＸ_sが出現する確率を導出することが可能となる。そして、図４のクラス判別ルーチンは、クラスＣ₁〜Ｃ_Gごとに確率ｐ（Ｘ_s｜Ｃ_g）を導出すると共に確率（Ｘ_s｜Ｃ_g）が最大となるクラスＣ_gを判別するために実行される。

さて、図４のクラス判別ルーチンの開始に際して、判別処理部３４は、上述の特徴ベクトル生成ルーチンの実行により得られて所定の記憶領域の格納されている第１層から第Ｈ層までの各層で新奇画像データＩ_sをｈ×ｈ分割して得られる領域それぞれの特徴ベクトルＸ_s ^(h,i)や学習情報記憶装置４２に記憶されている学習情報といった新奇画像データＩ_sのクラス判別に必要なデータを入力し、所定の記憶領域（メモリ）に格納する（ステップＳ３００）。ステップＳ３００にて入力される学習情報には、学習処理部３３によってサンプルデータのそれぞれを第１層から第Ｈ層までの各層で分割して得られる領域それぞれについて導出されて学習情報記憶装置４２に記憶されている複数の射影行列Ｗ^(h、^j)や、第１層から第Ｈ層までの各層でサンプルデータのそれぞれを分割して得られる領域それぞれの特徴ベクトルＸ^(h,i)を射影行列Ｗ^(h、^j)により潜在空間に射影して得られる射影点（ベクトル）ｕ^(h,i)、予め求められて学習情報記憶装置４２に記憶されている第１層から第Ｈ層までの重みα^h等が含まれる。実施例では、クラスＣ₁〜Ｃ_Gごとにｎ個のサンプルデータがクラス判別用のサンプルとして予め定められており、射影行列Ｗ^(h、^j)は、サンプルデータの特徴ベクトルＸ_j ^g(h,i)等に基づいて予め求められ、学習情報記憶装置４２に記憶される。また、各サンプルデータの射影点ｕ^(h,i)は、学習処理部３３により射影行列Ｗ^(h、^j)が導出された後、学習処理部３３により上記式（２６）と同様の変換式に従って導出され、学習情報記憶装置４２に記憶される。

ステップＳ３００のデータ入力処理の後、判別処理部３４は、新奇画像データＩ_sについての全特徴ベクトルＸ_s ^(h,i)の潜在空間における射影点ｕ_s ^(h,i)を上記式（２６）と同様の変換式に従い、入力した特徴ベクトルＸ_s ^(h,i)や射影行列Ｗ^(h、^j)等に基づいて導出し、所定の記憶領域（メモリ）に格納する（ステップＳ３１０）。更に、判別処理部３４は、上述のクラスを識別するための変数ｇを値１に初期化すると共に（ステップＳ３２０）、上述の階層の数を示す変数ｈを値１に初期化し（ステップＳ３３０）、更に第ｈ層における領域の番号を示す変数ｉを値１に初期化する（ステップＳ３４０）。次いで、判別処理部３４は、ステップＳ３００にて入力した情報を用いて上記式（３６）の項ｑ参照）の値を計算すると共に（ステップＳ３５０）、項ｑの値を順次加算すべく値Ｑ＝Ｑ＋ｑを導出し、所定の記憶領域（メモリ）に格納する（ステップＳ３６０）。ステップＳ３６０の処理の後、判別処理部３４は、変数ｉが最大値ｈ²（第ｈ層における領域の総数）であるか否かを判定し（ステップＳ３７０）、変数ｉが最大値ｈ²未満であれば、変数ｉをインクリメントして（ステップＳ３８０）、再度ステップＳ３５０およびＳ３６０の処理を実行する。

ステップＳ３７０にて変数ｉが最大値ｈ²であると判断されると、その段階では、各サンプルデータの第ｈ層における各領域の特徴ベクトルＸ^(h,i)から新奇画像データＩ_sの第ｈ層における各領域の特徴ベクトルＸ_s ^(h,i)が出現する確率の総和が導出されたことになる。すなわち、ｈ＝１である場合、ステップＳ３７０にて肯定判断がなされた時点で、値Ｑは、図５からわかるように、あるクラスＣ_gにおける各サンプルデータそのもの（の特徴ベクトルＸ_j ^g）から新奇画像データＩ_sそのもの（の特徴ベクトルＸ_s）が出現する確率の総和を示す。また、ｈ＝２である場合、ステップＳ３７０にて肯定判断がなされた時点で、値Ｑは、図６からわかるように、あるクラスＣ_gにおける各サンプルデータの第２層における領域（の特徴ベクトルＸ^(2,i)）から当該領域（の特徴ベクトルＸ^(2,i)）に対応した新奇画像データＩ_sの第２層における領域（の特徴ベクトルＸ_s ^(2,i)）が出現する確率の総和を示す。従って、ステップＳ３７０にて変数ｉが最大値ｈ²であると判断すると、判別処理部３４は、第１層から第Ｈ層までの値Ｑの和を導出すべく値Ｐ＝Ｐ＋Ｑを導出すると共に所定の記憶領域（メモリ）に格納し（ステップＳ３９０）、更に変数ｈが最大値Ｈであるか否かを判定する（ステップＳ４００）。変数ｈが最大値Ｈ未満であれば、判別処理部３４は、変数ｈをインクリメントして（ステップＳ４１０）、再度ステップＳ３４０〜Ｓ３９０の処理を実行する。

ステップＳ４００にて変数ｈが最大値Ｈであると判断されると、その段階で、あるクラスＣ_gについてサンプルデータの第ｈ層における第ｉ番目の領域の特徴ベクトルＸ^(h,i)から新奇画像データＩ_sの第ｈ層における第ｉ番目の領域の特徴ベクトルＸ_s ^(h,i)が出現する確率の第１層から第Ｈ層までの総和が導出されたことになる。従って、ステップＳ３７０にて変数ｈが最大値Ｈであると判断すると、判別処理部３４は、クラスＣ_gから新奇画像データの特徴ベクトルＸ_sが出現する確率ｐ（Ｘ_s｜Ｃ_g）を値ｅｘｐ（−Ｐ／２）に設定すると共に所定の記憶領域（メモリ）に格納し（ステップＳ４２０）、更に変数ｇが最大値Ｇであるか否かを判定する（ステップＳ４３０）。変数ｇが最大値Ｇ未満であれば、判別処理部３４は、変数ｇをインクリメントして（ステップＳ４４０）、再度ステップＳ３３０〜Ｓ４２０の処理を実行する。そして、ステップＳ４３０にて変数ｇが最大値Ｇであると判断された段階で、すべてのクラスＣ_gについての確率ｐ（Ｘ_s｜Ｃ_g）の導出が完了することになる。判別処理部３４は、ステップＳ４３０にて変数ｇが最大値Ｇであると判断すると、得られた確率ｐ（Ｘ_s｜Ｃ_g）が最大となるクラスＣ_gmaxを求め、新奇画像データＩ_sがクラスＣ_gmaxに属することを識別可能とすべく、例えばシンボル等のメタデータを新奇画像データＩ_sやその特徴ベクトルＸ_sに付与し（ステップＳ４５０）、本ルーチンを終了させる。ここまで説明したクラス判別ルーチンによれば、新奇画像データＩ_sが複数のクラスＣ₁〜Ｃ_Gのいずれに属するかを高精度に判別することが可能となる。

以上説明したように、実施例のロボット装置２０では、図３の特徴ベクトル生成ルーチンにより、実世界情報を示すデータとしての新奇画像データＩ_sから抽出されたｐ^(j)個のｄ次局所特徴ベクトルＶ_k ^(j)の平均ベクトルμ^(j)を構成する要素と、ｐ^(j)個のｄ次局所特徴ベクトルＶ_k ^(j)間における第１次から第Ｍ次までのｍ次相関ベクトルを構成する要素とに基づいて当該新奇画像データＩ_s全体の特徴を示す特徴ベクトルＸ_sが取得される。ここで、ｍ次相関ベクトルは、例えばクラスタリング等に比して大幅に軽負荷な計算処理により取得可能なものであり、しかも、重要な特徴点とその周辺の特徴点との相関すなわち局所特徴の分布情報を良好に表すものである。この結果、実施例のロボット装置２０では、計算コストを大幅に削減しつつ新奇画像データＩ_s（あるいは既知画像データ）から抽出された多数かつ比較的高次の局所特徴ベクトルＶ_k ^(j)に基づいて当該新奇画像データＩ_sあるいは既知画像データ）全体の特徴を精度よく表す（特徴表現度の高い）特徴量としての特徴ベクトルＸ_sを速やかに生成することが可能となる。

また、実施例のロボット装置２０では、ｍ次相関ベクトルの導出に際して、ｄ次よりも低次であるｄｌ次の主成分空間への射影行列Ｕ_dlを用いたｄ次局所特徴ベクトルＶ_k ^(j)の次元圧縮が行われる。これにより、ｄ次局所特徴ベクトルＶ_k ^(j)の次元ｄがより高い場合に、ｍ次相関ベクトルの導出に伴う計算コストを削減することが可能となり、更に次元圧縮によりデータ全体の特徴を表現する上で不要な局所特徴を除去することもできる。そして、このようなｄ次局所特徴ベクトルＶ_k ^(j)の次元圧縮を実行するに際しては、予めＮ個のデータＩ^(j)を用いて射影行列Ｕ_dlを求めておくことにより、新奇画像データＩ^(j+1)が出現したときに、当該新奇データＩ^(j+1)の特徴ベクトルＸ^(j+1)を速やかに取得することが可能となる。

更に、実施例のロボット装置２０は、新奇画像データＩ_sが複数のクラスＣ₁〜Ｃ_Gのいずれに属するかを判別するに際して、第１層から第Ｈ層までの各層で複数のサンプルデータおよび新奇画像データＩ_sのそれぞれをｈ×ｈ分割して得られる領域のそれぞれから抽出された複数のｄ次局所特徴ベクトルの平均ベクトルを構成する要素と、当該複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトルを構成する要素とに基づいて取得される当該領域それぞれの特徴ベクトルＸ^(h,i)，Ｘ_s ^(h,i)を利用する。かかる特徴ベクトルＸ^(h,i)，Ｘ_s ^(h,i)は、上述のように低い計算コストで取得可能であると共に対象領域の特徴を良好に表現し得るものである。そして、実施例のロボット装置２０は、複数のクラスＣ₁〜Ｃ_Gごとに、第１層から第Ｈ層までの各層でサンプルデータのそれぞれをｈ×ｈ分割して得られる領域それぞれの特徴ベクトルＸ^(h,i)を射影行列Ｗ^(h,i)により潜在空間に射影して得られる射影点ｕ^(h,i)と、第１層から第Ｈ層までの各層で新奇画像データＩ_sをｈ×ｈ分割して得られる領域それぞれの特徴ベクトルＸ_s ^(h,i)を射影行列Ｗ^(h,i)により潜在空間に射影して得られる射影点ｕ_s ^(h,i)とに基づいて、サンプルデータの第ｈ層における第ｉ番目の領域の特徴ベクトルＸ^(h,i)から新奇画像データＩ_sの第ｈ層における第ｉ番目の領域の特徴ベクトルＸ_s ^(h,i)が出現する確率のｉ＝１からｉ＝ｈ²かつ第１層から第Ｈ層までの総和を当該クラスＣ_gから新奇画像データＩ_sの特徴ベクトルＸ_sが出現する確率として導出する。

このように、低い計算コストで取得可能であると共に高い特徴表現度を有する特徴ベクトルＸ^(h,i)，Ｘ_s ^(h,i)と、確率的線形判別分析に対して潜在空間を多重化するという拡張を導入した手法を用いることにより、あるクラスＣ_gから新奇画像データＩ_sの特徴ベクトルＸ_sが出現する確率ｐ（Ｘ_s｜Ｃ_g）をより高精度に導出することができる。従って、実施例のロボット装置２０では、クラスＣ_gごとに導出された確率ｐ（Ｘ_s｜Ｃ_g）から、新奇画像データＩ_sが複数のクラスＣ₁〜Ｃ_Gのいずれに属するかをより高精度に判別することが可能となる。また、確率的線形判別分析の枠組みにおいては、一般化固有値問題を１回解けば学習が完了し、サンプル数に対する計算コストは線形であってメモリ使用量も微小であり、更にクラス数が増加しても基本的に計算コストは変化しない。従って、確率的線形判別分析に対して潜在空間を多重化するという拡張を導入した本発明によるクラス判別方法は、大規模な問題に適用されたとしても、高速な学習およびクラス判別における計算コストの低減化を可能とする。

上述のように、実施例のロボット装置２０では、必要な学習情報を学習情報記憶装置４２に記憶させておくことにより、撮像ユニット２１により取得された新奇画像データＩ_sから速やかに必要な特徴ベクトルＸ_s等を生成すると共に、新奇画像データＩ_sが複数のクラスＣ₁〜Ｃ_Gのいずれに属するかを高精度かつ速やかに判別することができる。これにより、ロボット装置２０に、取得した実世界情報すなわち見聞きした事柄が何を示すか高速かつ精度よく判断させることが可能となり、ロボット装置２０の自律的行動をより一層人間の行動に近いものとすると共に、ロボット装置２０の知能レベルをより一層向上させることが可能となる。

ここで、本発明による特徴ベクトル生成方法と、既存の特徴ベクトルの生成手法であるBag-of-Keypoints法とについて、Ｎ個の画像データのそれぞれから抽出されたｐ個のｄ次局所特徴ベクトルに基づいて各画像データの特徴ベクトルを生成するのに要する計算コストをそれぞれの手法における前処理および特徴ベクトル生成処理という２プロセスに分けて評価する。ここで、本発明による特徴ベクトル生成方法では、主成分分析によるｄ次局所特徴ベクトルの次元圧縮に必要な射影行列の導出プロセスが前処理に相当し、図３のステップＳ１３０〜Ｓ１８０の処理が特徴ベクトル生成処理に相当する。また、Bag-of-Keypoints法では、ｄ次局所特徴ベクトルをクラスタリングすると共にクラスタの代表ベクトル（visual words）を導出する処理が前処理に相当し、局所特徴を最も近い“visual words”に割り当てる処理が特徴ベクトル生成処理に相当する。

まず、本発明による特徴ベクトル生成方法およびBag-of-Keypoints法の前処理における計算コストのオーダーについて検討すると、本発明による特徴ベクトル生成方法の前処理における計算コストのオーダーＯａは、Ｏａ∝ｐ・Ｎ・ｄ²となるのに対して、代表ベクトル（visual words）の数を“Ｖ”とすれば、Bag-of-Keypoints法の前処理における計算コストのオーダーＯａ_bagは、Ｏａ_bag∝ｐ・Ｎ・Ｖ・ｄとなる。一般に、局所特徴ベクトルの次元ｄに比べてBag-of-Keypoints法における“visual words”の数Ｖは大きく、問題の規模が大きくなるほど値Ｖは大きくなることから、本発明による特徴ベクトル生成方法の前処理における計算コストは、Bag-of-Keypoints法のものに比べてかなり低いといえる。また、本発明による特徴ベクトル生成方法の前処理におけるメモリ使用量のオーダーＯｍは、Ｏｍ∝ｄ²となるのに対して、Bag-of-Keypoints法の前処理におけるメモリ使用量のオーダーＯｍ_bagは、Ｏｍ_bag∝ｐ・Ｎ・ｄとなる。一般に、局所特徴ベクトルの次元ｄに比べて画像データの数Ｎは大きく、問題の規模が大きくなるほど値Ｎは大きくなることから、本発明による特徴ベクトル生成方法の前処理におけるメモリ使用量は、Bag-of-Keypoints法のものに比べてかなり少なくなるといえる。そして、Ｎ＝８００，ｐ＝６００，ｄ＝１２８，Ｖ＝１５００として、本発明者らが既存の汎用パーソナルコンピュータを用いて本発明による特徴ベクトル生成方法における前処理と、Bag-of-Keypoints法における前処理とを実行したところ、Bag-of-Keypoints法では、前処理（クラスタリングおよびvisual words”の導出）におよそ１８時間もの時間を要することがあったのに対して、本発明による方法における前処理はおよそ９０秒ほどで完了した。

更に、本発明による特徴ベクトル生成方法およびBag-of-Keypoints法の特徴ベクトル生成処理における計算コストのオーダーについて検討すると、本発明の特徴ベクトル生成処理における計算コストのオーダーＯｆは、Ｏｆ∝ｐ・ｄ²となるのに対して、Bag-of-Keypoints法の特徴ベクトル生成処理における計算コストのオーダーＯｆ_bagは、Ｏｆ_bag∝ｐ・Ｖ・ｄとなる。上述のように、局所特徴ベクトルの次元ｄに比べてBag-of-Keypoints法における“visual words”の数Ｖは大きく、問題の規模が大きくなるほど値Ｖは大きくなることから、本発明の特徴ベクトル生成処理における計算コストも、Bag-of-Keypoints法のものに比べてかなり低いといえる。そして、ｐ＝６００，ｄ＝１２８，Ｖ＝１５００として、本発明者らが既存の汎用パーソナルコンピュータを用いて本発明の特徴ベクトル生成処理と、Bag-of-Keypoints法における特徴ベクトル生成処理とを実行したところ、Bag-of-Keypoints法では、１つの画像データについての特徴ベクトルの生成におよそ８６０ｍｓｅｃほどの時間を要したのに対して、本発明の特徴ベクトル生成処理は１つの画像データの特徴ベクトルをおよそ６０ｍｓｅｃほどの時間で生成した。これらの検討結果から、本発明による特徴ベクトル生成方法は、計算コストに関して既存手法に比べて極めて優位にあるといえる。

続いて、本発明による特徴ベクトル生成方法により生成された特徴ベクトルの特徴表現度を評価する。かかる特徴表現度を評価するために、本発明者らは、エッジヒストグラム、ＨＳＶカラーヒストグラム、“Gray-SIFT”および“RGB-SIFT”という４種類の局所特徴記述子と本発明による特徴ベクトル生成方法により得られる特徴ベクトルとの組み合わせと、上記４種類の局所特徴記述子と高次局所特徴ベクトルの平均ベクトル（０次相関ベクトル）を特徴ベクトルとする手法（以下、“Mean”という）との組合わせとを用いて、“OT8”と呼ばれるデータセットのシーン判別を実行し、局所特徴記述子ごとに本発明による特徴ベクトル生成方法と“Mean”とでシーン判別率を比較した。図７にシーン判別率の比較結果を示す。なお、“OT8”は，“coast”，“forest”，“mountain”，“open country”，“highway”，“inside city”，“tall building”，“street”という８クラスのシーン（カラー画像）を含むデータセットである（A. Oliva and A. Torallba. Modeling the shape of the scene: A holistic representation of the spatial参照）。また、エッジヒストグラムとして、７２次元の勾配方向ヒストグラムを用い、グレー画像から局所特徴を抽出した。カラーヒストグラムとしては、ＨＳＶ空間における標準的な８４次元(Ｈ：３６次元、Ｓ：３２次元、Ｖ：１６次元)のものを用いた。これらの局所特徴記述子については，局所特徴抽出窓を１０×１０ピクセル、Ｌ＝５に固定した。更に、SIFT記述子については、局所特徴抽出窓を１６×１６ピクセル、Ｌ＝５に固定し、他の記述子に比べて高次元であることを考慮して主成分分析による次元圧縮を行った（ｄｌ＝３０）。そして、本発明による特徴ベクトル生成方法の適用に際しては、相関ベクトルの最大次数ＭをＭ＝１とした。

図７からわかるように、上記４種類の局所特徴記述子のいずれを用いても、本発明の特徴ベクトル生成方法により得られる特徴ベクトルを利用することにより、“Mean”を利用した場合に比べてシーン判別性能が大きく向上することがわかる。そして、図７に示す評価結果は、画像データの特徴ベクトルの生成に際してｍ次相関ベクトルを用いることにより、画像の重要な特徴点とその周辺の特徴点との相関すなわち局所特徴の分布情報が特徴ベクトルに良好に反映されていることを示している。

次に、本発明による特徴ベクトル生成方法により生成された特徴ベクトルを用いた本発明によるクラス判別方法の有効性を評価する。かかる有効性を評価するために、本発明者らは、上記特徴ベクトルを用いた本発明によるクラス判別方法（Ｈ＝３）と、上記特徴ベクトルを用いた確率的線形判別分析のみによるクラス判別方法（Ｈ＝１：参考）と、複数の既存手法とを用いて、上述の“OT8”、“LSP15”および“Caltech-101”という３種類のデータセットのシーン判別を実行し、判別手法ごとのシーン判別率を比較した。なお、既存手法については、“NO-SI”：画像の位置情報（Spatial Information）を含まないもの、および“SI”：画像の位置情報を含むもの、を適宜用意した。ここで、“LSP15”は、“OT8”における８クラスのシーンと“bed room”，“kitchen”，“living room”，“store”，“suburb”，“industrial”，および“office”との合計１５クラスのシーン（モノクロ画像）を含むデータセットである（S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2006.参照）。また、“Caltech-101”は、１０１個の物体クラスと背景クラスとの合計１０２個のクラスを含むデータセットである（L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: an incremental bayesian approach tested on 101 object categories. In Proc. IEEE CVPR Workshop on Generative-Model Based Vision, 2004.参照）。また、有効性評価に際し、“OT8”および“Caltech-101”については“RGB-SIFT”を、“LSP15”については“Gray-SIFT”をそれぞれ局所特徴記述子として用い、１６×１６の領域と３６×３６の領域との双方から抽出された局所特徴ベクトルを列挙して最終的な高次局所特徴ベクトルとした。また、既存手法としては、それぞれ次の挙げる文献に記載された手法［Ａ］〜手法［Ｇ］を用いた。なお、手法［Ａ］は、“CRF（Conditional Random Field）により画像の“part-based”な“generative model”を推定して画像のセグメンテーションと識別とを同時に行うものであるが、その計算コストはbag-of-keypoints法と比べても更に高いものである。また、手法Ｂおよび手法Ｃは、SIFT記述子とbag-of-keypoints法とを用いた局所特徴抽出を行うと共に“SVM（Support Vector Machine）”等によるクラス判別を行うものである。図８にシーン判別率の比較結果を示す。

手法［Ａ］：Y. Wang and S. Gong. Conditional random field for natural scene categorization. In Proc. British Machine Vision Conference, 2007.
手法［Ｂ］：A. Bosch, A. Zisserman, and X. Mu・noz. Scene classification using a hybrid generative/discriminative approach. IEEE Trans. Pattern Analysis and Machine Intelligence, pages 712・727, 2008.
手法［Ｃ］：S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2006.
手法［Ｄ］：O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classification. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2008.
手法［Ｅ］：H. Zhang, A. C. Berg, M. Maire, and J. Malik. SVM-KNN: Discriminative nearest neighbor classification for visual category recognition. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, volume 2, pages 2126・2136, 2006.
手法［Ｆ］：K. Grauman and T. Darrell. The pyramid match kernel: Efficient learning with sets of features. Journal of Machine Learning Research, 8:725・760, 2007.
手法［Ｇ］：N. Herv´e and N. Boujemaa. Image annotation: which approach for realistic databases? In Proc. ACM International Conference on Image and Video Retrieval, 2007

図８の比較結果からわかるように、“OT8”および“LSP15”に関し、確率的線形判別分析に潜在空間の多重化という拡張を導入した本発明によるクラス判別方法（図８のＨ＝３）は、既存手法のスコアを上回るシーン判別率を記録している。また、“Caltech-101”に関しても、本発明によるクラス判別方法（図８のＨ＝３）は、少なくとも既存手法のスコアに比肩するシーン判別率を記録している。更に、Ｈ＝１の手法Ｃ（判別率４１．２％）は、最も標準的なBag-of-keypoints法に相当するものであるが、“Caltech-101”に関し、本発明によるクラス判別方法は、Ｈ＝１の手法Ｃのスコアを大きく上回るシーン判別率を記録しており、この点から、本発明によるクラス判別方法が実用上極めて優れていることが裏付けられる。なお、手法［Ｄ］および［Ｆ］は、“Caltech-101”に関し、それぞれ高いスコアを記録しているが，両手法はいずれも局所特徴のマッチングを必要とするものであって膨大な計算コストおよびメモリ使用量を要求し、実用に供し得ないものである。また、図８からわかるように、本発明による特徴ベクトル生成方法により生成された特徴ベクトルを用いた確率的線形判別分析のみによるクラス判別方法（Ｈ＝１：参考）は、既存手法“SI”のスコアに及ばないものの、既存手法“NO SI”のスコアを上回るシーン判別率を記録している。これは、本発明による特徴ベクトル生成方法により生成された特徴ベクトルが特徴表現度において優れていること、およびクラス判別における潜在空間の多重化の有効性の高さとの双方を示していることに他ならない。いずれにしても、図８の比較結果から、本発明による特徴ベクトル生成方法により生成された特徴ベクトルを用いた本発明によるクラス判別方法が、非常にシンプルでありながら高速な計算処理を可能とし、かつ既存手法に比肩もしくはそれを越える結果を挙げるものであることが理解されよう。

なお、本発明の適用対象は、上述のようなロボット装置２０に限られるものでなく、本発明は、デジタルカメラやビデオカメラに適用される被写体判別装置や、車両前方等に存在する物体を判別する車載画像認識装置に適用されてもよい。また、本発明は、図９に例示するような画像データ処理システムにも適用され得る。同図に示す画像データ処理システム２００は、データベース化された多数の画像データや単語群データを記憶するデータ記憶装置２１０と、データ記憶装置２１０上のデータベースを管理すると共に新奇画像データに対するアノテーションや当該データベースの検索（リトリーバル）等を可能とする管理コンピュータ３００とから構成されるものである。管理コンピュータ３００は、図示しないＣＰＵ，ＲＯＭ，ＲＡＭ、システムバス、各種インターフェース、記憶装置等を含むものであり、この管理コンピュータ３００には、例えばインターネット等のネットワークを介して端末５００からアクセスすることができるようになっている。また、管理コンピュータ３００には、図９に示すように、ＣＰＵやＲＯＭ，ＲＡＭ、各種インターフェース、記憶装置といったハードウェアと、予めインストールされた本発明による特徴量生成プログラムやクラス判別プログラムを始めとする各種ソフトウェアとの一方または双方の協働により、検索ロボット３１０、データ受付部３２０、画像特徴量抽出部３３０、単語特徴量抽出部３４０、学習処理部３５０、アノテーション処理部３６０、検索クエリ受付部３７０、リトリーバル処理部３８０、結果出力部３９０等が機能ブロックとして構築されている。更に、管理コンピュータ３００には、特徴量記憶装置４００や学習情報記憶装置４１０が接続されている。

管理コンピュータ３００の検索ロボット３１０は、ネットワーク等を介してデータ記憶装置２１０のデータベースに記憶されていない画像を含むデータを収集し、データベースを更新する。データ受付部３２０は、各種入力手段を用いた人の手による画像データの入力や、画像データに対応付けられて当該画像データの画像に現れているものを示すメタデータとしての少なくとも１つの単語（シンボル）を示す単語群データの入力を受け付け、受け付けたデータをデータ記憶装置２１０に格納する。画像特徴量抽出部３３０は、画像データからそのデータの特徴を示す画像特徴量を抽出し、特徴量記憶装置４００に格納する。すなわち、画像特徴量抽出部３３０は、上述の高次局所特徴ベクトルの平均ベクトルを構成する要素と高次局所特徴ベクトル間のｍ次相関ベクトルを構成する要素とに基づいて画像データ全体の特徴を示す特徴ベクトルを取得する。単語特徴量抽出部３４０は、単語群データからそのデータの特徴を示す単語特徴量を抽出し、特徴量記憶装置４００に格納する。学習処理部３５０は、画像特徴量および単語特徴量の組み合わせを複数用いて画像データと単語群データとの関係を学習すると共に、未注釈画像データにメタデータとしての単語群を付与するアノテーションや単語に基づく未注釈画像データの検索（リトリーバル）に必要な学習情報を取得し、取得した学習情報を学習情報記憶装置４１０に格納する。また、学習処理部３５０は、上記特徴ベクトルや新奇画像データのクラス判別に必要な学習情報を生成する。アノテーション処理部３６０は、未注釈の画像データに対するアノテーションや、新奇画像データのクラス判別を実行する。検索クエリ受付部３７０は、端末５００等から検索クエリとしての少なくとも１つの単語（シンボル）の入力を受け付ける。リトリーバル処理部３８０は、検索クエリ受付部３７０により受け付けられた検索クエリに基づく未注釈の画像データを含む画像データの検索処理（リトリーバル）を実行する。結果出力部３９０は、リトリーバル処理部３８０の処理の結果を端末５００等に出力する。このような画像データ処理システム２００に本発明を適用すれば、画像特徴量（特徴ベクトル）の生成に要する計算コストを低減すると共に、新奇画像データのクラス判別性能を向上させることが可能となり、それによりシステム全体の性能を向上させることができる。

以上、実施例を用いて本発明の実施の形態について説明したが、本発明は上記実施例に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において、様々な変更をなし得ることはいうまでもない。

本発明は、実世界情報を示す１つのデータの特徴ベクトルを取り扱ったり、実世界情報を示す新奇データが複数のクラスのいずれに属するかを判別したりする情報処理分野において有用である。

２０ロボット装置、２１撮像ユニット、２２集音ユニット、２３アクチュエータ、３０制御コンピュータ、３１入出力処理部、３２特徴量処理部、３３学習処理部、３４判別処理部、３５リトリーバル処理部、３６主制御部、４０データ記憶装置、４１特徴量記憶装置、４２学習情報記憶装置、２００画像データ処理システム、２１０データ記憶装置、３００管理コンピュータ、３１０検索ロボット、３２０データ受付部、３３０画像特徴量抽出部、３４０単語特徴量抽出部、３５０学習処理部、３６０アノテーション処理部、３７０検索クエリ受付部、３８０リトリーバル処理部、３９０結果出力部、４００特徴量記憶装置、４１０学習情報記憶装置。

Claims

実世界情報を示す１つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記１つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成装置であって、
前記複数の高次局所特徴ベクトルの平均ベクトルを取得する平均取得手段と、
前記複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）を取得する相関取得手段と、
前記平均取得手段により取得された平均ベクトルを構成する要素と、前記相関取得手段により取得されたｍ次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴ベクトル取得手段と、
を備える特徴量生成装置。
請求項１に記載の特徴量生成装置において、
実世界情報を示す１つのデータＩから抽出されたｐ個のｄ次局所特徴ベクトルをＶ_k＝（ｖ₁，…，ｖ_d）としたときに（ただし、“ｐ”および“ｄ”はそれぞれ値２以上の整数であり、“ｋ”は値１から値ｐまでの整数である）、前記平均取得手段は、前記ｐ個のｄ次局所特徴ベクトルＶ_kの平均ベクトルμを次式（１）に従って取得し、前記相関取得手段は、前記ｐ個のｄ次局所特徴ベクトルＶ_kの自己相関行列Ｒを次式（２）に従って取得すると共に該自己相関行列Ｒの上三角行列の要素を列挙して１次相関ベクトルｕｐｐｅｒ（Ｒ）を取得し、前記特徴ベクトル取得手段は、前記特徴ベクトルをＸとしたときに、次式（３）に従って平均ベクトルμの要素と１次相関ベクトルｕｐｐｅｒ（Ｒ）の要素とを列挙することにより該特徴ベクトルＸを取得する特徴量生成装置。
請求項１に記載の特徴量生成装置において、
前記相関取得手段は、主成分分析による前記高次局所特徴ベクトルの次元圧縮を伴って前記ｍ次相関ベクトルを取得する特徴量生成装置。
請求項３に記載の特徴量生成装置において、
実世界情報を示すＮ個のデータＩ^(j)が存在するとし（ただし、“Ｎ”は値２以上の整数であり、“ｊ”は値１から値Ｎまでの整数である）、１つのデータＩ^(j)から抽出されたｐ^(j)個のｄ次局所特徴ベクトルをＶ_k ^(j)＝（ｖ₁，…，ｖ_d）とし（ただし、“ｐ^(j)”および“ｄ”はそれぞれ値２以上の整数であり、“ｋ”は値１から値ｐまでの整数である）、前記平均取得手段により取得される前記ｐ^(j)個のｄ次局所特徴ベクトルＶ_kの平均ベクトルを次式（４）に示すμ^(j)とし、前記ｐ^(j)個のｄ次局所特徴ベクトルＶ_k ^(j)の自己相関行列を次式（５）に示すＲ^(j)とし、前記Ｎ個のデータから抽出されたｄ次局所特徴ベクトル全体の自己相関行列を次式（６）に示すＲ_allとし、新奇データをＩ^(j+1)としたときに、前記相関取得手段は、次式（７）の固有値問題を解いて得られるｄ次よりも低次であるｄｌ次の主成分空間への射影行列Ｕ_dlと、新奇データＩ^(j+1)から抽出されたｐ^(j+1)個のｄ次局所特徴ベクトルＶ_k ^(j+1)の自己相関行列Ｒ^(j+1)とに基づく対角行列Ｕ_dl ^TＲ^(j+1)Ｕ_dlを取得すると共に、該対角行列Ｕ_dl ^TＲ^(j+1)Ｕ_dlの上三角行列の要素を列挙して１次相関ベクトルｕｐｐｅｒ（Ｕ_dl ^TＲ^(j+1)Ｕ_dl）を取得し、前記特徴ベクトル取得手段は、次式（８）に従って前記ｐ^(j+1)個のｄ次局所特徴ベクトルＶ_k ^(j+1)の平均ベクトルμ^(j+1)を構成する要素と１次相関ベクトルｕｐｐｅｒ（Ｕ_dl ^TＲ^(j+1)Ｕ_dl）を構成する要素とを列挙することにより新奇データＩ^(j+1)の特徴ベクトルＸ^(j+1)を取得する特徴量生成装置。
実世界情報を示す１つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記１つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成方法であって、
前記複数の高次局所特徴ベクトルの平均ベクトルと、前記複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）とを取得し、
前記取得された平均ベクトルを構成する要素と、前記取得されたｍ次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴量生成方法。
実世界情報を示す１つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記１つのデータ全体の特徴を示す特徴ベクトルを生成する装置としてコンピュータを機能させる特徴量生成プログラムであって、
前記複数の高次局所特徴ベクトルの平均ベクトルを取得する平均取得モジュールと、
前記複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）を取得する相関取得モジュールと、
前記平均取得モジュールにより取得された平均ベクトルを構成する要素と、前記相関取得モジュールにより取得された前記複数の高次局所特徴ベクトルのｍ次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴ベクトル取得モジュールと、
を備える特徴量生成プログラム。
実世界情報を示す新奇データがそれぞれ少なくとも１つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別装置であって、
第ｈ層で前記新奇データおよび前記既知データのそれぞれがｈ×ｈ個（ただし、“ｈ”は値１から値Ｈまでの整数であり、“Ｈ”は値２以上の整数である）の領域に分割されるとして、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルに基づいて該領域ごとに導出された該特徴ベクトルを潜在空間に射影するための変換を記憶する変換記憶手段と、
第ｈ層で前記新奇データがｈ×ｈ個の領域に分割されるとして、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出する局所特徴抽出手段と、
第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから前記局所特徴抽出手段により抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）とを取得すると共に、該平均ベクトルを構成する要素と該ｍ次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得する特徴ベクトル取得手段と、
前記クラスごとに、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点と、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第ｈ層における第ｉ番目（ただし、“ｉ”は値１から値ｈ²までの整数である）の領域の特徴ベクトルから前記新奇データの第ｈ層における第ｉ番目の領域の特徴ベクトルが出現する確率のｉ＝１からｉ＝ｈ²かつ第１層から第Ｈ層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出する確率導出手段と、
前記確率導出手段により導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス設定手段と、
を備えるクラス判別装置。
請求項７に記載のクラス判別装置において、
第ｈ層における第ｉ番目の領域についての前記変換は、前記クラスの個数をＧ（ただし、“Ｇ”は値２以上の整数である）とし、前記クラスをＣ_g（ただし、“ｇ”は値１から値Ｇまでの整数である）とし、クラスＣ_gからサンプルとして抽出される既知データであるサンプルデータの数をｎとし（だだし、“ｎ”は値１以上の整数である）、クラスＣ_gに属する第ｊ番目（ただし、“ｊ”は値１から値ｎまでの整数である）のサンプルデータの第ｈ層における第ｉ番目の領域の特徴ベクトルをＸ_j ^g(h,i)とし、クラスＣ_gに属するサンプルデータの第ｈ層におけるｉ番目の領域の特徴ベクトルＸ_j ^g(h,i)の平均ベクトルをＸ^-g(h,i)とし、クラスＣ_gに属する全サンプルデータの第ｈ層におけるｉ番目の領域の特徴ベクトルの平均ベクトルをμ_x ^(h,i)とし、第ｈ層におけるｉ番目の領域についてのクラス内共分散行列を次式（９）に示すΣ_w ^(h,i)とし、第ｈ層におけるｉ番目の領域についてのクラス外共分散行列を次式（１０）に示すΣ_b ^(h,i)としたときに、次式（１１）の固有値問題を解いて得られる射影行列Ｗ^(h,i)であり（ただし、式（１１）の“Λ^(h,i)”は判別基準としての固有値を順番に対角に並べて得られる対角行列である）、
前記特徴ベクトルをＸとし、前記射影行列をＷとし、該特徴ベクトルＸの射影点をｕとしたときに、第１層から第Ｈ層までの各層で前記サンプルデータのそれぞれを分割して得られる領域それぞれの特徴ベクトルの射影点と、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルの射影点とは、次式（１２）に従って導出され、
前記新奇データの特徴ベクトルをＸ_sとしたときに、クラスＣ_gから該特徴ベクトルＸ_sが出現する確率ｐ（Ｘ_s｜Ｃ_g）は、次式（１３）に基づいて導出されるクラス判別装置。ただし、式（１３）における添え字（ｈ，ｉ）は第ｈ層における第ｉ番目の領域に由来することを示し、添え字ｓは新奇データに由来することを示し、添え字Ｃ_gはクラスＣ_gに属することを示し、添え字１…ｎはクラスＣ_gに属する第１〜ｎ番目のサンプルデータに由来することを示し、“α^h”は、第ｈ層に対して付与される重みであり、式（１３）における“Ｚ^(h,i)Cg”および“Θ^(h,i)”は次式（１４）および（１５）に示すとおりであり、式（１４）におけるｕ^-(h、^j)CgはクラスＣ_gに属する特徴ベクトルＸ^(h、^j)Cgの射影点ｕ^(h、^j)Cgの平均であり、式（１４）および（１５）における“Ψ^(h,i)”は次式（１６）に示す潜在変数の分散であり、式（１６）におけるΛ^(h,i)は第ｈ層における第ｉ番目の領域における固有値問題の解である固有値を順番に対角に並べて得られる対角行列である。
実世界情報を示す新奇データがそれぞれ少なくとも１つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別方法であって、
第ｈ層で前記新奇データおよび前記既知データのそれぞれがｈ×ｈ個（ただし、“ｈ”は値１から値Ｈまでの整数であり、“Ｈ”は値２以上の整数である）の領域に分割されるとして、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルに基づいて、該特徴ベクトルを潜在空間に射影するための変換を該領域ごとに導出し、
第ｈ層で前記新奇データがｈ×ｈ個の領域に分割されるとして、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出し、
第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）とを取得すると共に、該平均ベクトルを構成する要素と該ｍ次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得し、
前記クラスごとに、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点と、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第ｈ層における第ｉ番目（ただし、“ｉ”は値１から値ｈ²までの整数である）の領域の特徴ベクトルから前記新奇データの第ｈ層における第ｉ番目の領域の特徴ベクトルが出現する確率のｉ＝１からｉ＝ｈ²かつ第１層から第Ｈ層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出し、
前記導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス判別方法。
実世界情報を示す新奇データがそれぞれ少なくとも１つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別装置としてコンピュータを機能させるクラス判別プログラムであって、
第ｈ層で前記新奇データがｈ×ｈ個（ただし、“ｈ”は値１から値Ｈまでの整数であり、“Ｈ”は値２以上の整数である）の領域に分割されるとして、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出する局所特徴抽出モジュールと、
第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域のそれぞれから前記局所特徴抽出モジュールにより抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第１次から第Ｍ次までのｍ次相関ベクトル（ただし、“Ｍ”は値１以上の整数であり、“ｍ”は値１から値Ｍまでの整数である）とを取得すると共に、該平均ベクトルを構成する要素と該ｍ次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得する特徴ベクトル取得モジュールと、
前記クラスごとに、第１層から第Ｈ層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを予め定められた該領域に対応した変換により潜在空間に射影して得られる射影点と、第１層から第Ｈ層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第ｈ層における第ｉ番目（ただし、“ｉ”は値１から値ｈ²までの整数である）の領域の特徴ベクトルから前記新奇データの第ｈ層における第ｉ番目の領域の特徴ベクトルが出現する確率のｉ＝１からｉ＝ｈ²かつ第１層から第Ｈ層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出する確率導出モジュールと、
前記確率導出モジュールにより導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス設定モジュールと、
を備えるクラス判別プログラム。