JP2010271787A - 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム - Google Patents

特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム Download PDF

Info

Publication number
JP2010271787A
JP2010271787A JP2009121244A JP2009121244A JP2010271787A JP 2010271787 A JP2010271787 A JP 2010271787A JP 2009121244 A JP2009121244 A JP 2009121244A JP 2009121244 A JP2009121244 A JP 2009121244A JP 2010271787 A JP2010271787 A JP 2010271787A
Authority
JP
Japan
Prior art keywords
layer
vector
order
feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009121244A
Other languages
English (en)
Other versions
JP5382786B2 (ja
Inventor
Tatsuya Harada
達也 原田
Hideki Nakayama
英樹 中山
Yasuo Kuniyoshi
康夫 國吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2009121244A priority Critical patent/JP5382786B2/ja
Priority to PCT/JP2010/058427 priority patent/WO2010134539A1/ja
Publication of JP2010271787A publication Critical patent/JP2010271787A/ja
Application granted granted Critical
Publication of JP5382786B2 publication Critical patent/JP5382786B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】実世界情報を示すデータから精度のよい特徴量をより少ない計算コストで生成可能とする。
【解決手段】実世界情報を示すデータとしての新奇画像データIs全体の特徴を示す特徴ベクトルXsは、当該新奇画像データIsから抽出されたp(j)個のd次局所特徴ベクトルVk (j)の平均ベクトルμ(j)を構成する要素と、p(j)個のd次局所特徴ベクトルVk (j)間における第1次から第M次までのm次相関ベクトルを構成する要素とに基づいて取得される(ステップS130〜S180)。これにより、新奇画像データIsから抽出された多数かつ比較的高次の局所特徴ベクトルVk (j)に基づいて当該新奇画像データIs全体の特徴を精度よく表す特徴ベクトルXsを速やかに生成することが可能となる。
【選択図】図3

Description

本発明は、実世界情報を示す1つのデータから抽出された複数の高次局所特徴ベクトルを用いて当該1つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびに実世界情報を示す新奇データが複数のクラスのいずれに属するかを判別するクラス判別装置、クラス判別方法およびクラス判別プログラムに関する。
画像データや音声データ等は、視覚情報や聴覚情報といった実世界情報を示すものであるが、この種の実世界情報を示すデータの検索や新奇データの内容判別を可能とするためには、実世界情報を示すデータ全体の特徴量を適正に把握しておく必要がある。従来、1つの画像データ全体の特徴(global feature)を表すのに用いられる手法として、Bag-of-Keypoints法が知られている(例えば、非特許文献1参照)。Bag-of-Keypoints法は、所定の局所特徴記述子を用いて対象となる画像データから抽出された局所特徴ベクトルをクラスタリングすると共にクラスタの代表ベクトル(visual words)を求め、画像データから抽出された局所特徴を最も近い“visual words”に割り当てることにより画像データ全体の特徴を局所特徴の集合として表現するものである。なお、局所特徴の抽出に際して必要な特徴点の検出(選択)手法としては、“Difference of Gaussian”やランダムな特徴点検出手法(例えば、非特許文献2参照)、“Dense Sampling”と呼ばれるグリッドによる特徴点検出手法(例えば、非特許文献3参照)等が知られている。また、局所特徴記述子としては、エッジヒストグラムやHSVカラーヒストグラム等が知られているが、近年では“SIFT記述子”(例えば、非特許文献4参照)等も用いられている。
G. Csurka, C. R. Dance, L. Fan, J. Willamowski and C. Bray. Visual Categorization with bags of keypoints. In Proc. ECCV Workshop on Statistical Learning in Computer Vision, 2004. E. Nowak, F. Jurie, and B. Trigges. Sampling strategies for bag-of-features image classification. In Proc. European Conference on Computer Vision, pages 490・503, 2006. L. Fei-Fei and P. Perona. A bayesian hierarchical model for learning natural scene categories. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, pages 524・531, 2005. D. G. Lowe. Object recognition from local scale-invariant features. In Proc. IEEE International Conference on Computer Vision, pages 1150・1157, 1999.
ここで、実世界情報を示す1つのデータ全体の特徴を取得するためには、基本的に次の1)〜3)のプロセスが必要となる。
1)画像の特徴的な点(特徴点)の検出と,その特徴点のスケール・オリエンテーションの正規化
2)特徴点の周辺における部分的な画像特徴(局所特徴)の記述
3)すべての局所特徴を利用して最終的な画像特徴を算出
ここで、上記1)および2)のプロセスに関しては、例えば上述の“SIFT記述子”のような精度のよい局所特徴をより少ない計算コストで抽出可能とするものが提案されている。しかしながら、上記3)の局所特徴からの最終的な特徴量の算出に関しては、計算コストの面での課題が依然として解消されておらず、最終的に得られた特徴量の精度(特徴の表現度)にも課題が残されている。例えば上述のBag-of-Keypoints法は、クラスタリングに極めて多大な時間を要するものであり、長時間かけて得られた特徴ベクトルを用いても画像認識精度の飛躍的改善が認められておらず、いわゆるスケーラビリティに劣っている。また、1つのデータ全体の特徴を示す特徴量の精度が低いと、新奇データの出現時における当該新奇データの内容判別(クラス判別)の精度もおのずと低下してしまうことになる。
そこで、本発明による特徴量生成装置、特徴量生成方法および特徴量生成プログラムは、実世界情報を示すデータから精度のよい特徴量をより少ない計算コストで生成可能にすることを主目的とする。また、本発明によるクラス判別装置、クラス判別方法およびクラス判別プログラムは、実世界情報を示す新奇データが複数のクラスのいずれに属するかを高精度に判別可能にすることを主目的とする。
本発明の特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラムは、上述の主目的を達成するために以下の手段を採っている。
本発明の特徴量生成装置は、
実世界情報を示す1つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記1つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成装置であって、
前記複数の高次局所特徴ベクトルの平均ベクトルを取得する平均取得手段と、
前記複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)を取得する相関取得手段と、
前記平均取得手段により取得された平均ベクトルを構成する要素と、前記相関取得手段により取得されたm次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴ベクトル取得手段と、
を備えるものである。
本発明者らは、実世界情報を示す1つのデータ全体の特徴(global feature)を表現する際の計算コストを削減する観点から、単純に、当該データから抽出された複数の高次局所特徴ベクトルの平均ベクトルをベースとしてデータ全体の特徴(global feature)を表現することに立ち返った。ただし、高次局所特徴ベクトルの平均のみを用いたのでは、データ全体の特徴を適正に表現する上で重要な局所特徴の分布情報のすべてが喪失されてしまうことになる。従って、特徴表現度の高い特徴ベクトルを得るためには、局所特徴の分布情報をより適正に表現することが重要となるが、当該分布情報は、最終的な特徴ベクトルの生成に多大な計算時間を要する比較的複雑な従来手法においても充分に表現されていない。これは、一般に1つのデータから抽出される局所特徴ベクトルの数は、計算処理面から見れば多いものであるが、大域的に見ればさほど多いものとはいえない(まばらである)ということに起因していると考えられる。これを踏まえて、本発明者らは、複数の高次局所特徴ベクトル間におけるm次相関ベクトルに着目し、当該m次相関ベクトルを用いて局所特徴の分布情報を表現することとした。すなわち、本発明による特徴量生成装置では、実世界情報を示す1つのデータから抽出された複数の高次局所特徴ベクトルの平均ベクトルを構成する要素と、複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトルを構成する要素とに基づいて当該データ全体の特徴を示す特徴ベクトルが取得される。ここで、m次相関ベクトルは、例えばクラスタリング等に比して大幅に軽負荷な計算処理により取得可能なものであり、しかも、重要な特徴要素間の相関すなわち局所特徴の分布情報を良好に表すものである。この結果、この特徴量生成装置によれば、計算コストを大幅に削減しつつ実世界情報を示すデータから精度のよい(特徴表現度の高い)特徴量を速やかに得ることが可能となる。なお、上記特徴ベクトルの生成に際してのm次相関ベクトルの最大次数(値M)は、高次局所特徴ベクトルの数や次元等に応じて任意に定められるものであり、1次であってもよく、2次、3次あるいは更に高次とされてもよい。更に、複数の高次局所特徴ベクトルの平均ベクトルは、複数の高次局所特徴ベクトル間における0次相関ベクトルとも表現され得ることから、平均取得手段と相関取得手段とは、単一の計算処理モジュールにより構成されてもよい。
また、実世界情報を示す1つのデータIから抽出されたp個のd次局所特徴ベクトルをVk=(v1,…,vd)としたときに(ただし、“p”および“d”はそれぞれ値2以上の整数であり、“k”は値1から値pまでの整数である)、前記平均取得手段は、前記p個のd次局所特徴ベクトルVkの平均ベクトルμを次式(1)に従って取得し、前記相関取得手段は、前記p個のd次局所特徴ベクトルVkの自己相関行列Rを次式(2)に従って取得すると共に該自己相関行列Rの上三角行列の要素を列挙して1次相関ベクトルupper(R)を取得するものであってもよく、前記特徴ベクトル取得手段は、前記特徴ベクトルをXとしたときに、次式(3)に従って平均ベクトルμの要素と1次相関ベクトルupper(R)の要素とを列挙することにより該特徴ベクトルXを取得するものであってもよい。これにより、多数かつ比較的高次の局所特徴ベクトルからデータ全体の特徴をより適正に表す特徴ベクトルを速やかに生成することが可能となる。
更に、前記相関取得手段は、主成分分析による前記高次局所特徴ベクトルの次元圧縮を伴って前記m次相関ベクトルを取得するものであってもよい。これにより、高次局所特徴ベクトルの次元がより高い場合に、m次相関ベクトルの取得に伴う計算コストを削減することが可能となる。また、次元圧縮によりデータ全体の特徴を表現する上で不要な局所特徴を除去することも可能となる。
また、実世界情報を示すN個のデータI(j)が存在するとし(ただし、“N”は値2以上の整数であり、“j”は値1から値Nまでの整数である)、1つのデータI(j)から抽出されたp(j)個のd次局所特徴ベクトルをVk (j)=(v1,…,vd)とし(ただし、“p(j)”および“d”はそれぞれ値2以上の整数であり、“k”は値1から値pまでの整数である)、前記平均取得手段により取得される前記p(j)個のd次局所特徴ベクトルVkの平均ベクトルを次式(4)に示すμ(j)とし、前記p(j)個のd次局所特徴ベクトルVk (j)の自己相関行列を次式(5)に示すR(j)とし、前記N個のデータから抽出されたd次局所特徴ベクトル全体の自己相関行列を次式(6)に示すRallとし、新奇データをI(j+1)としたときに、前記相関取得手段は、次式(7)の固有値問題を解いて得られるd次よりも低次であるdl次の主成分空間への射影行列Udlと、新奇データI(j+1)から抽出されたp(j+1)個のd次局所特徴ベクトルVk (j+1)の自己相関行列R(j+1)とに基づく対角行列Udl T(j+1)dlを取得すると共に、該対角行列Udl T(j+1)dlの上三角行列の要素を列挙して1次相関ベクトルupper(Udl T(j+1)dl)を取得するものであってもよく、前記特徴ベクトル取得手段は、次式(8)に従って前記p(j+1)個のd次局所特徴ベクトルVk (j+1)の平均ベクトルμ(j+1)を構成する要素と1次相関ベクトルupper(Udl T(j+1)dl)を構成する要素とを列挙することにより新奇データI(j+1)の特徴ベクトルX(j+1)を取得するものであってもよい。この場合、予めN個のデータI(j)を用いて射影行列Udlを求めておくことにより、新奇データI(j+1)が出現したときに、当該新奇データI(j+1)の特徴ベクトルX(j+1)を速やかに取得することが可能となる。
本発明による特徴量生成方法は、
実世界情報を示す1つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記1つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成方法であって、
前記複数の高次局所特徴ベクトルの平均ベクトルと、前記複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)とを取得し、
前記取得された平均ベクトルを構成する要素と、前記取得されたm次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得するものである。
この方法によれば、計算コストを大幅に削減しつつ実世界情報を示すデータから精度のよい(特徴表現度の高い)特徴量を速やかに生成することが可能となる。
本発明による特徴量生成プログラムは、
実世界情報を示す1つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記1つのデータ全体の特徴を示す特徴ベクトルを生成する装置としてコンピュータを機能させる特徴量生成プログラムであって、
前記複数の高次局所特徴ベクトルの平均ベクトルを取得する平均取得モジュールと、
前記複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)を取得する相関取得モジュールと、
前記平均取得モジュールにより取得された平均ベクトルを構成する要素と、前記相関取得モジュールにより取得されたm次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴ベクトル取得モジュールと、
を備えるものである。
この特徴量生成プログラムをインストールしたコンピュータを用いれば、計算コストを大幅に削減しつつ実世界情報を示すデータから精度のよい(特徴表現度の高い)特徴量を速やかに生成することが可能となる。
本発明によるクラス判別装置は、
実世界情報を示す新奇データがそれぞれ少なくとも1つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別装置であって、
第h層で前記新奇データおよび前記既知データのそれぞれがh×h個(ただし、“h”は値1から値Hまでの整数であり、“H”は値2以上の整数である)の領域に分割されるとして、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルに基づいて該領域ごとに導出された該特徴ベクトルを潜在空間に射影するための変換を記憶する変換記憶手段と、
第h層で前記新奇データがh×h個の領域に分割されるとして、第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出する局所特徴抽出手段と、
第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから前記局所特徴抽出手段により抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)とを取得すると共に、該平均ベクトルを構成する要素と該m次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得する特徴ベクトル取得手段と、
前記クラスごとに、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点と、第1層から第H層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第h層における第i番目(ただし、“i”は値1から値h2までの整数である)の領域の特徴ベクトルから前記新奇データの第h層における第i番目の領域の特徴ベクトルが出現する確率のi=1からi=h2かつ第1層から第H層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出する確率導出手段と、
前記確率導出手段により導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス設定手段と、
を備えるものである。
このクラス判別装置は、新奇データが複数のクラスのいずれに属するかを判別するに際して、第1層から第H層までの各層で複数の既知データおよび新奇データをh×h分割して得られる領域のそれぞれから抽出された複数の高次局所特徴ベクトルの平均ベクトルを構成する要素と、当該複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトルを構成する要素とに基づいて取得される当該領域それぞれの特徴ベクトルを利用する。かかる特徴ベクトルは、低い計算コストで取得可能であると共に対象領域の特徴を良好に表現し得るものである。そして、このクラス判別装置は、クラスごとに、第1層から第H層までの各層で既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを当該領域に対応した変換により潜在空間に射影して得られる射影点と、第1層から第H層までの各層で新奇データを分割して得られる領域それぞれの特徴ベクトルを当該領域に対応した変換により潜在空間に射影して得られる射影点とに基づいて、既知データの第h層における第i番目の領域の特徴ベクトルから新奇データの第h層における第i番目の領域の特徴ベクトルが出現する確率のi=1からi=h2かつ第1層から第H層までの総和を当該クラスから新奇データの特徴ベクトルが出現する確率として導出する。このように、低い計算コストで取得可能であると共に高い特徴表現度を有する特徴ベクトルと、確率的線形判別分析(Probabilistic linear discriminant analysis:S. Ioffe. Probabilistic linear discriminant analysis. In Proc. European Conference on Computer Vision, pages 531-542, 2006. 参照)に対して潜在空間を多重化するという拡張を導入した手法とを用いることにより、あるクラスから新奇データの特徴ベクトルが出現する確率をより高精度かつ速やかに導出することができる。従って、このクラス判別装置によれば、クラスごとに導出された確率から、実世界情報を示す新奇データが複数のクラスのいずれに属するかをより高精度に判別することが可能となる。なお、第1層において1×1=1個に分割される既知データや新奇データは、当該既知データや当該新奇データそのものとなり、第1層において抽出・生成される高次局所特徴ベクトルや特徴ベクトルは、既知データや新奇データそれ自体から直接に抽出・生成されるものとなる。
また、第h層における第i番目の領域についての前記変換は、前記クラスの個数をG(ただし、“G”は値2以上の整数である)とし、前記クラスをCg(ただし、“g”は値1から値Gまでの整数である)とし、クラスCgからサンプルとして抽出される既知データであるサンプルデータの数をnとし(だだし、“n”は値1以上の整数である)、クラスCgに属する第j番目(ただし、“j”は値1から値nまでの整数である)のサンプルデータの第h層における第i番目の領域の特徴ベクトルをXj g(h,i)とし、クラスCgに属するサンプルデータの第h層におけるi番目の領域の特徴ベクトルXj g(h,i)の平均ベクトルをX-g(h,i)とし、クラスCgに属する全サンプルデータの第h層におけるi番目の領域の特徴ベクトルの平均ベクトルをμx (h,i)とし、第h層におけるi番目の領域についてのクラス内共分散行列を次式(9)に示すΣw (h,i)とし、第h層におけるi番目の領域についてのクラス外共分散行列を次式(10)に示すΣb (h,i)としたときに、次式(11)の固有値問題を解いて得られる射影行列W(h,i)であってもよく(ただし、式(11)の“Λ(h,i)”は判別基準としての固有値を順番に対角に並べて得られる対角行列である)、前記特徴ベクトルをXとし、前記射影行列をWとし、該特徴ベクトルXの射影点をuとしたときに、第1層から第H層までの各層で前記サンプルデータのそれぞれを分割して得られる領域それぞれの特徴ベクトルの射影点と、第1層から第H層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルの射影点とは、次式(12)に従って導出されてもよく、前記新奇データの特徴ベクトルをXsとしたときに、クラスCgから該特徴ベクトルXsが出現する確率p(Xs|Cg)は、次式(13)に基づいて導出されてもよい。ただし、式(13)における添え字(h,i)は第h層における第i番目の領域に由来することを示し、添え字sは新奇データに由来することを示し、添え字CgはクラスCgに属することを示し、添え字1…nはクラスCgに属する第1〜n番目のサンプルデータに由来することを示し、“αh”は、第h層に対して付与される重みであり、式(13)における“Z(h,i)Cg”および“Θ(h,i)”は次式(14)および(15)に示すとおりであり、式(14)におけるu-(hj)CgはクラスCgに属する特徴ベクトルX(hj)Cgの射影点u(hj)Cgの平均であり、式(14)および(15)における“Ψ(h,i)”は次式(16)に示す潜在変数の分散であり、式(16)におけるΛ(h,i)は第h層における第i番目の領域における固有値問題の解である固有値を順番に対角に並べて得られる対角行列である。これにより、あるクラスから新奇データの特徴ベクトルが出現する確率をより高精度に導出することが可能となる。
本発明によるクラス判別方法は、
実世界情報を示す新奇データがそれぞれ少なくとも1つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別方法であって、
第h層で前記新奇データおよび前記既知データのそれぞれがh×h個(ただし、“h”は値1から値Hまでの整数であり、“H”は値2以上の整数である)の領域に分割されるとして、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルに基づいて、該特徴ベクトルを潜在空間に射影するための変換を該領域ごとに導出し、
第h層で前記新奇データがh×h個の領域に分割されるとして、第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出し、
第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)とを取得すると共に、該平均ベクトルを構成する要素と該m次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得し、
前記クラスごとに、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点と、第1層から第H層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第h層における第i番目(ただし、“i”は値1から値h2までの整数である)の領域の特徴ベクトルから前記新奇データの第h層における第i番目の領域の特徴ベクトルが出現する確率のi=1からi=h2かつ第1層から第H層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出し、
前記導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するものである。
この方法によれば、クラスごとに導出された確率から、実世界情報を示す新奇データが複数のクラスのいずれに属するかを高精度に判別することが可能となる。
本発明によるクラス判別プログラムは、
実世界情報を示す新奇データがそれぞれ少なくとも1つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別装置としてコンピュータを機能させるクラス判別プログラムであって、
第h層で前記新奇データがh×h個(ただし、“h”は値1から値Hまでの整数であり、“H”は値2以上の整数である)の領域に分割されるとして、第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出する局所特徴抽出モジュールと、
第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから前記局所特徴抽出モジュールにより抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)とを取得すると共に、該平均ベクトルを構成する要素と該m次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得する特徴ベクトル取得モジュールと、
前記クラスごとに、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを予め定められた該領域に対応した変換により潜在空間に射影して得られる射影点と、第1層から第H層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第h層における第i番目(ただし、“i”は値1から値h2までの整数である)の領域の特徴ベクトルから前記新奇データの第h層における第i番目の領域の特徴ベクトルが出現する確率のi=1からi=h2かつ第1層から第H層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出する確率導出モジュールと、
前記確率導出モジュールにより導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス設定モジュールと、
を備えるものである。
このクラス判別プログラムがインストールされたコンピュータによれば、クラスごとに導出された確率から、実世界情報を示す新奇データが複数のクラスのいずれに属するかを高精度に判別することが可能となる。
本発明の一実施例に係るロボット装置を示す概略構成図である。 画像データ全体の特徴を示す特徴ベクトルを生成するプロセスを説明するための説明図である。 特徴ベクトル生成ルーチンの一例を示すフローチャートである。 クラス判別ルーチンの一例を示すフローチャートである。 新奇データが複数のクラスのいずれに属するかを判別する手順を説明するための説明図である。 新奇データが複数のクラスのいずれに属するかを判別する手順を説明するための説明図である。 本発明の特徴ベクトル生成方法により生成される特徴ベクトルの特徴表現との評価結果を示す図表である。 本発明のクラス判別方法の有効性の評価結果を示す図表である。 変形例に係る画像データ処理システムの概略構成図である。
次に、本発明を実施するための形態を実施例を用いて説明する。
図1は、本発明の一実施例に係るロボット装置20の概略構成図である。同図に示すロボット装置20は、人工知能を有するいわゆる人型ロボットであり、人間の目に相当する撮像ユニット21や人間の耳に相当する集音ユニット22、人間の手に相当するマニピュレータや脚部等の可動部を動かすための多数のアクチュエータ23、図示しない音声発生ユニット、人工知能として機能する制御コンピュータ30等を含む。制御コンピュータ30は、図示しないCPU,ROM,RAM、グラフィックプロセッサ(GPU)、グラフィックメモリ(VRAM)、システムバス、各種インターフェース、ハードディスクドライブやフラッシュメモリドライブ(SSD)といった外部記憶装置等を含むものであり、制御コンピュータ30には、これらのハードウェアと本発明による特徴量生成プログラムやクラス判別プログラムといったソフトウェアとの一方または双方の協働により、入出力処理部31、特徴量処理部32、学習処理部33、判別処理部34、リトリーバル処理部35、主制御部36等が構築されている。また、制御コンピュータ30には、画像データや音声データ等を記憶するデータ記憶装置40や、特徴量記憶装置41や学習情報記憶装置42が接続されている。
入出力処理部31は、撮像ユニット21や集音ユニット22等を介してロボット装置20に対して入出力される情報を処理するものであり、例えば人間からの音声による指令が集音ユニット22により取得されると集音ユニット22からの音声データを適宜処理して主制御部36に与える。特徴量処理部32は、例えばグリッドによる特徴点検出を実行して撮像ユニット21により取得された画像データや集音ユニット22により取得された音声データから画像や音声の特徴点(Key Point)を検出(選択)すると共に、例えばSIFT記述子を用いた各特徴点における特徴記述を実行することにより(図2における1)および2)参照)、対象となるデータから複数の高次局所特徴ベクトルVkを抽出し、特徴量記憶装置41に格納する。以下、高次局所特徴ベクトルVkの次元を“d”とする(ただし、“d”は値2以上の整数である)。また、ある画像データから抽出される高次局所特徴ベクトルVkの数を“p”とすれば(ただし、“p”は値2以上の整数である)、“k”は値1から値pまでの整数となる。ここで、SIFT記述子を用いた特徴記述は、モノクロ画像については、当該モノクロ画像の特徴点をLピクセルずつスペーシングしながら,特徴点を中心とするP×Pピクセルの領域から128次元の局所特徴ベクトル(Gray-SIFT)を抽出するものであり、カラー画像については、当該カラー画像の各特徴点においてRGBそれぞれについて独立にSIFT特徴記述を行い、RGBそれぞれについて抽出された局所特徴を結合して384次元の局所特徴ベクトル(RGB-SIFT)を生成するものである。また、実施例では、スケールに対する頑健性を向上させるべく、P=16の領域とP=36の領域との双方から抽出された局所特徴ベクトルを列挙して最終的な高次局所特徴ベクトルVkとしている。更に、特徴量処理部32は、抽出した高次局所特徴ベクトルVk等に基づいて画像データや音声データ全体の特徴(global feature)を示す特徴ベクトルXjを生成し(図2における3)参照)、特徴量記憶装置41に格納する。加えて、特徴量処理部32は、画像データや音声データに対応付けられて画像に現れているものや音声の意味するところを示すシンボルについてのメタデータからそのデータの特徴を示す特徴ベクトルを抽出し、特徴量記憶装置41に格納する。
学習処理部33は、高次局所特徴ベクトルVkや特徴ベクトルXjを用いた主成分分析等を実行して判別処理部34やリトリーバル処理部35の処理に際して必要な学習情報を生成・更新し、学習情報記憶装置42に格納する。判別処理部34は、撮像ユニット21により取り込まれた新奇画像データ(画像データに対応付けられて画像に現れているものや音声の意味するところを示すシンボルすなわちメタデータが付与されていない未注釈画像データ)等がそれぞれ複数の既知画像データ等に対応した複数のクラス(同種のものとして分類される複数の画像データが共通に意味するところを示すシンボル)のいずれに属するかを判別する。また、判別処理部34は、学習情報記憶装置42に記憶された学習情報等を用いて未注釈画像データや未注釈音声データに対するアノテーションを実行する。リトリーバル処理部35は、シンボルに基づく未注釈画像データや未注釈音声データの検索処理(リトリーバル)を実行する。主制御部36は、入出力処理部31からの指令や、判別処理部34の処理結果、リトリーバル処理部35の処理結果等に基づいてロボット装置20の動作態様を決定する等してアクチュエータ23を制御する。
次に、実施例のロボット装置20において撮像ユニット21により取り込まれた新奇画像データIs全体の特徴(global feature)を示す特徴ベクトルXsを生成する手順について説明する。図3は、新奇画像データIsの特徴ベクトルXsを生成するために制御コンピュータ30の特徴量処理部32により実行される特徴ベクトル生成ルーチンの一例を示すフローチャートである。
図3の特徴ベクトル生成ルーチンの開始に際して、特徴量処理部32は、新奇画像データIsや射影行列Udlといった特徴ベクトルXsの生成に必要なデータを入力し、所定の記憶領域(メモリ)に格納する(ステップS100)。射影行列Udlは、学習情報記憶装置42に記憶されている学習情報の一つであり、学習処理部33によりデータ記憶装置40に記憶されている既知画像データ(学習用のデータを含む)から抽出されたd次局所特徴ベクトルに基づいて予め求められている。具体的には、射影行列Udlは、局所特徴ベクトルの次数dよりも低次であるdl次(dl<d、例えばdl=30)の主成分空間への射影行列であって、N個の既知画像データI(j)が存在するとし(ただし、“N”は値2以上の整数であり、“j”は値1から値Nまでの整数である)、1つの既知画像データI(j)から抽出されたp(j)個のd次局所特徴ベクトルをVk (j)=(v1,…,vd)とし、p(j)個のd次局所特徴ベクトルVkの平均ベクトルを次式(17)に示すμ(j)とし、p(j)個のd次局所特徴ベクトルVk (j)の自己相関行列を次式(18)に示すR(j)とし、N個の既知画像データから抽出されたd次局所特徴ベクトル全体の自己相関行列を次式(19)に示すRallとしたときに、次式(20)の固有値問題の解として得られるものである。
ステップS100のデータ入力処理の後、特徴量処理部32は、新奇画像データIsを階層的に分割するときの階層の数を示す変数hを値1に初期化する(ステップS110)。ここで、変数hに対応した階層である第h層では、新奇画像データIsがh×h個の領域に分割されると仮定する。ただし、“h”は値1から値Hまでの整数であり、“H”は値2以上の整数である。ステップS110の処理の後、特徴量処理部32は、グリッドによる特徴点検出とSIFT記述子を用いた各特徴点における特徴記述とを実行することにより、第h層において新奇画像データIsをh×h分割(h×h等分)して得られる領域のそれぞれから複数(実施例では、領域ごとに同数)のd次局所特徴ベクトルVk (h,i)を抽出し、所定の記憶領域(実施例では、メモリおよび外部記憶装置すなわち特徴量記憶装置41)に格納する(ステップS120)。ただし、“i”は値1から値h2までの整数(h×h分割後の領域の番号)であり、添え字(h,i)は、第h層における第i番目の領域に由来することを示す。また、第1層において新奇画像データIsは1×1個の領域に分割されることになるから、h=1であるときに、ステップS120では、新奇画像データIsの全体から複数のd次局所特徴ベクトルVk (1,1)が抽出されることになる。そして、特徴量処理部32は、第h層の第1番目から第h2番目までの領域ごとに上記式(17)と同様の計算を行い、それぞれの領域から抽出された複数のd次局所特徴ベクトルVk (h,i)の平均ベクトルμXs (h,i)を導出し、所定の記憶領域(メモリ)に格納する(ステップS130)。
次いで、特徴量処理部32は、所定の変数mを値1に初期化した上で(ステップS140)、第h層の第1番目から第h2番目までの領域ごとに、それぞれの領域から抽出された複数のd次局所特徴ベクトルVk (h,i)間におけるm次相関ベクトル(ただし、“m”は値1から値Mまでの整数であり、“M”は値1以上の整数である)を導出する(ステップS150)。ステップS150において、特徴量処理部32は、m=1である場合、第h層の第1番目から第h2番目までの領域ごとに、上記式(18)に従って第h層の第i番目の領域から抽出された複数のd次局所特徴ベクトルVk (h,i)の自己相関行列R(h,i)を求めると共に、当該自己相関行列R(h,i)とステップS100にて入力した射影行列Udlおよびその転置行列Udl Tとに基づく対角行列Udl T(h,i)dlを取得し、当該対角行列Udl T(h,i)dlの上三角行列の要素を列挙して1次相関ベクトルupper(Udl T(h,i)dl)を取得した後、所定の記憶領域(メモリ)に格納する。ここで、射影行列Udlは、上述のように、局所特徴ベクトルの次数d(例えばd=128または384)よりも低次であるdl次(例えばdl=30)の主成分空間への射影行列である。
ステップS150にてm次相関ベクトルupper(Udl T(h,i)dl)を導出すると、特徴量処理部32は、変数mが最大値である値Mであるか否かを判定し(ステップS160)、変数mが最大値M未満であれば、変数mをインクリメントして(ステップS170)、再度ステップS150の処理を実行する。なお、変数mの最大値Mが値2以上である場合にも、m次相関ベクトルの導出に際して適切なd次局所特徴ベクトルの次元圧縮を実行することが好ましい。そして、ステップS160にて変数mが最大値Mであると判断すると、特徴量処理部32は、第h層の第1番目から第h2番目までの領域ごとに、次式(21)に従ってd次局所特徴ベクトルVk (h,i)の平均ベクトルμXs (h,i)を構成する要素とm次相関ベクトルupper(Udl T(j+1)dl)を構成する要素とを順番に列挙することにより新奇画像データIsの特徴ベクトルXs (h,i)を生成し、所定の記憶領域(実施例では、メモリおよび外部記憶装置すなわち特徴量記憶装置41)に格納する(ステップS180)。ステップS180の処理の後、特徴量処理部32は、変数hが最大値H(実施例では、例えばH=3)であるか否かを判定し(ステップS190)、変数hが最大値H未満であれば、変数hをインクリメントして(ステップS200)、再度ステップS120以降の処理を実行する。また、ステップS190にて変数hが最大値Hであると判断されたときには、第1層から第H層までの各層で新奇画像データIsをh×h分割して得られる領域それぞれの特徴ベクトルXs (h,i)が取得されていることになり、その段階で本ルーチンが終了する。
引き続き、実施例のロボット装置20において撮像ユニット21により取り込まれた新奇画像データIsがそれぞれ複数の既知画像データに対応した複数のクラスC1,…,Cg,…,CG(ただし、“g”は値1から値Gまでの整数であり、“G”は値2以上の整数である)のいずれに属するかを判別する手順について説明する。図4は、新奇画像データIsが複数のクラスC1〜CGのいずれに属するかを判別するために制御コンピュータ30の判別処理部34により実行されるクラス判別ルーチンの一例を示すフローチャートである。
ここで、図4に例示するクラス判別ルーチンは、確率的線形判別分析(Probabilistic linear discriminant analysis)の枠組みを基に構築されたものである。確率的線形判別分析の枠組みにおいて、クラスCgからサンプルとして抽出される既知画像データ(以下、「サンプルデータ」という)の数をnとし、クラスCgに属する第j番目(ただし、“j”は値1から値nまでの整数である)のサンプルデータの特徴ベクトルをXj gとし、クラスCgに属するサンプルデータの特徴ベクトルXj gの平均ベクトルをX-gとし(ただし、本明細書および特許請求の範囲において、上付きのバーは、アッパーラインを示す)、全サンプルデータの特徴ベクトルXj gの平均ベクトルをμxとし、クラス内共分散行列を次式(22)に示すΣwとし、クラス外共分散行列を次式(23)に示すΣbとしたときに、次式(24)の一般化固有値問題が定式化される。かかる式(24)の固有値問題を解くことにより、特徴ベクトルXj gを潜在空間に射影するための変換である射影行列Wを得ることができる。ただし、式(24)の“Λ”は判別基準としての固有値を順番に対角に並べて得られる対角行列である。なお、特徴ベクトルの次元に対してサンプルデータの数が充分に大きくない場合には、次式(25)に示すように、式(23)から得られるクラス内共分散行列Σwに対して過学習を抑制すべく正則化項γIを付加するとよい(ただし、“γ”は実験的に求められるパラメータである)。こうして得られる射影行列Wを用いることにより、上述の特徴ベクトル生成ルーチンの実行により得られた特徴ベクトルX(h,i)の潜在空間における射影点(ベクトル)u(h,i)を次式(26)に従って導出することができる。そして、上記式(22)〜(26)等に示す構造を用いれば、あるクラスCgから新奇画像データIsの特徴ベクトルXsの射影点usが出現する確率p(us|Cg)を次式(27)に従って導出することができる。ただし、式(27)における添え字1…nはクラスCgに属する第1〜n番目のサンプルデータに由来することを示し、“Ψ”は、次式(28)に示す潜在変数の分散である。
確率的線形判別分析を利用した場合、あるクラスCgから新奇画像データIsの特徴ベクトルXsの射影点usが出現する確率p(us|Cg)を上記式(27)に従って求めることができるが、実施例のロボット装置20では、あるクラスCgから新奇画像データIs(の特徴ベクトルXs)が出現する確率をより高精度に導出可能とすべく、確率的線形判別分析に対して潜在空間を多重化するという拡張が導入されている。すなわち、実施例のロボット装置20では、クラスCgに属する第j番目のサンプルデータの第h層における第i番目の領域の特徴ベクトルをXj g(h,i)とし、クラスCgに属するサンプルデータの第h層におけるi番目の領域の特徴ベクトルXj g(h,i)の平均ベクトルをX-g(h,i)とし、クラスCgに属する全サンプルデータの第h層におけるi番目の領域の特徴ベクトルの平均ベクトルをμx (h,i)とし、第h層におけるi番目の領域についてのクラス内共分散行列を次式(29)に示すΣw (h,i)とし、第h層におけるi番目の領域についてのクラス外共分散行列を次式(30)に示すΣb (h,i)としたときに、第h層における第i番目の領域ごとに次式(31)の固有値問題を解くことにより、第h層における第i番目の領域の特徴ベクトルを当該領域に対応した潜在空間に射影するための変換としての射影行列W(h,i)が第h層における第i番目の領域ごとに予め導出される(ただし、式(31)の“Λ(h,i)”は判別基準としての固有値を順番に対角に並べて得られる対角行列である)。そして、ロボット装置20は、複数のクラスC1〜CGごとに、第1層から第H層までの各層でサンプルデータのそれぞれをh×h分割して得られる領域それぞれの特徴ベクトルX(h,i)を射影行列W(h,i)により潜在空間に射影して得られる射影点u(h,i)と、第1層から第H層までの各層で新奇画像データIsをh×h分割して得られる領域それぞれの特徴ベクトルXs (h,i)を射影行列W(h,i)により潜在空間に射影して得られる射影点us (h,i)と、次式(32)とに基づいて、サンプルデータの第h層における第i番目の領域の特徴ベクトルX(h,i)から新奇画像データIsの第h層における第i番目の領域の特徴ベクトルXs (h,i)が出現する確率のi=1からi=h2かつ第1層から第H層までの総和を当該クラスCgから新奇画像データIsの特徴ベクトルXsが出現する確率p(Xs|Cg)として導出するのである。ただし、式(32)における添え字(h,i)は第h層における第i番目の領域に由来することを示し、添え字sは新奇データに由来することを示し、添え字CgはクラスCgに属することを示し、添え字1…nはクラスCgに属する第1〜n番目のサンプルデータに由来することを示し、“αh”は、予め実験的に求められる第h層に対して付与される重みであり、式(32)における“Z(h,i)Cg”および“Θ(h,i)”は次式(33)および(34)に示すとおりであり、式(33)におけるu-(hj)CgはクラスCgに属する特徴ベクトルX(hj)Cgの射影点u(hj)Cgの平均であり、式(33)および(34)における“Ψ(h,i)”は次式(35)に示す潜在変数の分散であり、式(35)におけるΛ(h,i)は第h層における第i番目の領域における固有値問題の解である固有値を順番に対角に並べて得られる対角行列である。図5および図6に実施例のロボット装置20において確率p(Xs|Cg)が導出されていく様子を模式的に示す。上記式(32)は、クラスCgから新奇画像データIsの特徴ベクトルXsが出現する確率p(Xs|Cg)の対数尤度(重み付き対数尤度)を示すものであり、式(32)を次式(36)に示すように変形することにより、あるクラスCgから新奇画像データIsの特徴ベクトルXsが出現する確率を導出することが可能となる。そして、図4のクラス判別ルーチンは、クラスC1〜CGごとに確率p(Xs|Cg)を導出すると共に確率(Xs|Cg)が最大となるクラスCgを判別するために実行される。
さて、図4のクラス判別ルーチンの開始に際して、判別処理部34は、上述の特徴ベクトル生成ルーチンの実行により得られて所定の記憶領域の格納されている第1層から第H層までの各層で新奇画像データIsをh×h分割して得られる領域それぞれの特徴ベクトルXs (h,i)や学習情報記憶装置42に記憶されている学習情報といった新奇画像データIsのクラス判別に必要なデータを入力し、所定の記憶領域(メモリ)に格納する(ステップS300)。ステップS300にて入力される学習情報には、学習処理部33によってサンプルデータのそれぞれを第1層から第H層までの各層で分割して得られる領域それぞれについて導出されて学習情報記憶装置42に記憶されている複数の射影行列W(hj)や、第1層から第H層までの各層でサンプルデータのそれぞれを分割して得られる領域それぞれの特徴ベクトルX(h,i)を射影行列W(hj)により潜在空間に射影して得られる射影点(ベクトル)u(h,i)、予め求められて学習情報記憶装置42に記憶されている第1層から第H層までの重みαh等が含まれる。実施例では、クラスC1〜CGごとにn個のサンプルデータがクラス判別用のサンプルとして予め定められており、射影行列W(hj)は、サンプルデータの特徴ベクトルXj g(h,i)等に基づいて予め求められ、学習情報記憶装置42に記憶される。また、各サンプルデータの射影点u(h,i)は、学習処理部33により射影行列W(hj)が導出された後、学習処理部33により上記式(26)と同様の変換式に従って導出され、学習情報記憶装置42に記憶される。
ステップS300のデータ入力処理の後、判別処理部34は、新奇画像データIsについての全特徴ベクトルXs (h,i)の潜在空間における射影点us (h,i)を上記式(26)と同様の変換式に従い、入力した特徴ベクトルXs (h,i)や射影行列W(hj)等に基づいて導出し、所定の記憶領域(メモリ)に格納する(ステップS310)。更に、判別処理部34は、上述のクラスを識別するための変数gを値1に初期化すると共に(ステップS320)、上述の階層の数を示す変数hを値1に初期化し(ステップS330)、更に第h層における領域の番号を示す変数iを値1に初期化する(ステップS340)。次いで、判別処理部34は、ステップS300にて入力した情報を用いて上記式(36)の項q参照)の値を計算すると共に(ステップS350)、項qの値を順次加算すべく値Q=Q+qを導出し、所定の記憶領域(メモリ)に格納する(ステップS360)。ステップS360の処理の後、判別処理部34は、変数iが最大値h2(第h層における領域の総数)であるか否かを判定し(ステップS370)、変数iが最大値h2未満であれば、変数iをインクリメントして(ステップS380)、再度ステップS350およびS360の処理を実行する。
ステップS370にて変数iが最大値h2であると判断されると、その段階では、各サンプルデータの第h層における各領域の特徴ベクトルX(h,i)から新奇画像データIsの第h層における各領域の特徴ベクトルXs (h,i)が出現する確率の総和が導出されたことになる。すなわち、h=1である場合、ステップS370にて肯定判断がなされた時点で、値Qは、図5からわかるように、あるクラスCgにおける各サンプルデータそのもの(の特徴ベクトルXj g)から新奇画像データIsそのもの(の特徴ベクトルXs)が出現する確率の総和を示す。また、h=2である場合、ステップS370にて肯定判断がなされた時点で、値Qは、図6からわかるように、あるクラスCgにおける各サンプルデータの第2層における領域(の特徴ベクトルX(2,i))から当該領域(の特徴ベクトルX(2,i))に対応した新奇画像データIsの第2層における領域(の特徴ベクトルXs (2,i))が出現する確率の総和を示す。従って、ステップS370にて変数iが最大値h2であると判断すると、判別処理部34は、第1層から第H層までの値Qの和を導出すべく値P=P+Qを導出すると共に所定の記憶領域(メモリ)に格納し(ステップS390)、更に変数hが最大値Hであるか否かを判定する(ステップS400)。変数hが最大値H未満であれば、判別処理部34は、変数hをインクリメントして(ステップS410)、再度ステップS340〜S390の処理を実行する。
ステップS400にて変数hが最大値Hであると判断されると、その段階で、あるクラスCgについてサンプルデータの第h層における第i番目の領域の特徴ベクトルX(h,i)から新奇画像データIsの第h層における第i番目の領域の特徴ベクトルXs (h,i)が出現する確率の第1層から第H層までの総和が導出されたことになる。従って、ステップS370にて変数hが最大値Hであると判断すると、判別処理部34は、クラスCgから新奇画像データの特徴ベクトルXsが出現する確率p(Xs|Cg)を値exp(−P/2)に設定すると共に所定の記憶領域(メモリ)に格納し(ステップS420)、更に変数gが最大値Gであるか否かを判定する(ステップS430)。変数gが最大値G未満であれば、判別処理部34は、変数gをインクリメントして(ステップS440)、再度ステップS330〜S420の処理を実行する。そして、ステップS430にて変数gが最大値Gであると判断された段階で、すべてのクラスCgについての確率p(Xs|Cg)の導出が完了することになる。判別処理部34は、ステップS430にて変数gが最大値Gであると判断すると、得られた確率p(Xs|Cg)が最大となるクラスCgmaxを求め、新奇画像データIsがクラスCgmaxに属することを識別可能とすべく、例えばシンボル等のメタデータを新奇画像データIsやその特徴ベクトルXsに付与し(ステップS450)、本ルーチンを終了させる。ここまで説明したクラス判別ルーチンによれば、新奇画像データIsが複数のクラスC1〜CGのいずれに属するかを高精度に判別することが可能となる。
以上説明したように、実施例のロボット装置20では、図3の特徴ベクトル生成ルーチンにより、実世界情報を示すデータとしての新奇画像データIsから抽出されたp(j)個のd次局所特徴ベクトルVk (j)の平均ベクトルμ(j)を構成する要素と、p(j)個のd次局所特徴ベクトルVk (j)間における第1次から第M次までのm次相関ベクトルを構成する要素とに基づいて当該新奇画像データIs全体の特徴を示す特徴ベクトルXsが取得される。ここで、m次相関ベクトルは、例えばクラスタリング等に比して大幅に軽負荷な計算処理により取得可能なものであり、しかも、重要な特徴点とその周辺の特徴点との相関すなわち局所特徴の分布情報を良好に表すものである。この結果、実施例のロボット装置20では、計算コストを大幅に削減しつつ新奇画像データIs(あるいは既知画像データ)から抽出された多数かつ比較的高次の局所特徴ベクトルVk (j)に基づいて当該新奇画像データIsあるいは既知画像データ)全体の特徴を精度よく表す(特徴表現度の高い)特徴量としての特徴ベクトルXsを速やかに生成することが可能となる。
また、実施例のロボット装置20では、m次相関ベクトルの導出に際して、d次よりも低次であるdl次の主成分空間への射影行列Udlを用いたd次局所特徴ベクトルVk (j)の次元圧縮が行われる。これにより、d次局所特徴ベクトルVk (j)の次元dがより高い場合に、m次相関ベクトルの導出に伴う計算コストを削減することが可能となり、更に次元圧縮によりデータ全体の特徴を表現する上で不要な局所特徴を除去することもできる。そして、このようなd次局所特徴ベクトルVk (j)の次元圧縮を実行するに際しては、予めN個のデータI(j)を用いて射影行列Udlを求めておくことにより、新奇画像データI(j+1)が出現したときに、当該新奇データI(j+1)の特徴ベクトルX(j+1)を速やかに取得することが可能となる。
更に、実施例のロボット装置20は、新奇画像データIsが複数のクラスC1〜CGのいずれに属するかを判別するに際して、第1層から第H層までの各層で複数のサンプルデータおよび新奇画像データIsのそれぞれをh×h分割して得られる領域のそれぞれから抽出された複数のd次局所特徴ベクトルの平均ベクトルを構成する要素と、当該複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトルを構成する要素とに基づいて取得される当該領域それぞれの特徴ベクトルX(h,i),Xs (h,i)を利用する。かかる特徴ベクトルX(h,i),Xs (h,i)は、上述のように低い計算コストで取得可能であると共に対象領域の特徴を良好に表現し得るものである。そして、実施例のロボット装置20は、複数のクラスC1〜CGごとに、第1層から第H層までの各層でサンプルデータのそれぞれをh×h分割して得られる領域それぞれの特徴ベクトルX(h,i)を射影行列W(h,i)により潜在空間に射影して得られる射影点u(h,i)と、第1層から第H層までの各層で新奇画像データIsをh×h分割して得られる領域それぞれの特徴ベクトルXs (h,i)を射影行列W(h,i)により潜在空間に射影して得られる射影点us (h,i)とに基づいて、サンプルデータの第h層における第i番目の領域の特徴ベクトルX(h,i)から新奇画像データIsの第h層における第i番目の領域の特徴ベクトルXs (h,i)が出現する確率のi=1からi=h2かつ第1層から第H層までの総和を当該クラスCgから新奇画像データIsの特徴ベクトルXsが出現する確率として導出する。
このように、低い計算コストで取得可能であると共に高い特徴表現度を有する特徴ベクトルX(h,i),Xs (h,i)と、確率的線形判別分析に対して潜在空間を多重化するという拡張を導入した手法を用いることにより、あるクラスCgから新奇画像データIsの特徴ベクトルXsが出現する確率p(Xs|Cg)をより高精度に導出することができる。従って、実施例のロボット装置20では、クラスCgごとに導出された確率p(Xs|Cg)から、新奇画像データIsが複数のクラスC1〜CGのいずれに属するかをより高精度に判別することが可能となる。また、確率的線形判別分析の枠組みにおいては、一般化固有値問題を1回解けば学習が完了し、サンプル数に対する計算コストは線形であってメモリ使用量も微小であり、更にクラス数が増加しても基本的に計算コストは変化しない。従って、確率的線形判別分析に対して潜在空間を多重化するという拡張を導入した本発明によるクラス判別方法は、大規模な問題に適用されたとしても、高速な学習およびクラス判別における計算コストの低減化を可能とする。
上述のように、実施例のロボット装置20では、必要な学習情報を学習情報記憶装置42に記憶させておくことにより、撮像ユニット21により取得された新奇画像データIsから速やかに必要な特徴ベクトルXs等を生成すると共に、新奇画像データIsが複数のクラスC1〜CGのいずれに属するかを高精度かつ速やかに判別することができる。これにより、ロボット装置20に、取得した実世界情報すなわち見聞きした事柄が何を示すか高速かつ精度よく判断させることが可能となり、ロボット装置20の自律的行動をより一層人間の行動に近いものとすると共に、ロボット装置20の知能レベルをより一層向上させることが可能となる。
ここで、本発明による特徴ベクトル生成方法と、既存の特徴ベクトルの生成手法であるBag-of-Keypoints法とについて、N個の画像データのそれぞれから抽出されたp個のd次局所特徴ベクトルに基づいて各画像データの特徴ベクトルを生成するのに要する計算コストをそれぞれの手法における前処理および特徴ベクトル生成処理という2プロセスに分けて評価する。ここで、本発明による特徴ベクトル生成方法では、主成分分析によるd次局所特徴ベクトルの次元圧縮に必要な射影行列の導出プロセスが前処理に相当し、図3のステップS130〜S180の処理が特徴ベクトル生成処理に相当する。また、Bag-of-Keypoints法では、d次局所特徴ベクトルをクラスタリングすると共にクラスタの代表ベクトル(visual words)を導出する処理が前処理に相当し、局所特徴を最も近い“visual words”に割り当てる処理が特徴ベクトル生成処理に相当する。
まず、本発明による特徴ベクトル生成方法およびBag-of-Keypoints法の前処理における計算コストのオーダーについて検討すると、本発明による特徴ベクトル生成方法の前処理における計算コストのオーダーOaは、Oa∝p・N・d2となるのに対して、代表ベクトル(visual words)の数を“V”とすれば、Bag-of-Keypoints法の前処理における計算コストのオーダーOabagは、Oabag∝p・N・V・dとなる。一般に、局所特徴ベクトルの次元dに比べてBag-of-Keypoints法における“visual words”の数Vは大きく、問題の規模が大きくなるほど値Vは大きくなることから、本発明による特徴ベクトル生成方法の前処理における計算コストは、Bag-of-Keypoints法のものに比べてかなり低いといえる。また、本発明による特徴ベクトル生成方法の前処理におけるメモリ使用量のオーダーOmは、Om∝d2となるのに対して、Bag-of-Keypoints法の前処理におけるメモリ使用量のオーダーOmbagは、Ombag∝p・N・dとなる。一般に、局所特徴ベクトルの次元dに比べて画像データの数Nは大きく、問題の規模が大きくなるほど値Nは大きくなることから、本発明による特徴ベクトル生成方法の前処理におけるメモリ使用量は、Bag-of-Keypoints法のものに比べてかなり少なくなるといえる。そして、N=800,p=600,d=128,V=1500として、本発明者らが既存の汎用パーソナルコンピュータを用いて本発明による特徴ベクトル生成方法における前処理と、Bag-of-Keypoints法における前処理とを実行したところ、Bag-of-Keypoints法では、前処理(クラスタリングおよびvisual words”の導出)におよそ18時間もの時間を要することがあったのに対して、本発明による方法における前処理はおよそ90秒ほどで完了した。
更に、本発明による特徴ベクトル生成方法およびBag-of-Keypoints法の特徴ベクトル生成処理における計算コストのオーダーについて検討すると、本発明の特徴ベクトル生成処理における計算コストのオーダーOfは、Of∝p・d2となるのに対して、Bag-of-Keypoints法の特徴ベクトル生成処理における計算コストのオーダーOfbagは、Ofbag∝p・V・dとなる。上述のように、局所特徴ベクトルの次元dに比べてBag-of-Keypoints法における“visual words”の数Vは大きく、問題の規模が大きくなるほど値Vは大きくなることから、本発明の特徴ベクトル生成処理における計算コストも、Bag-of-Keypoints法のものに比べてかなり低いといえる。そして、p=600,d=128,V=1500として、本発明者らが既存の汎用パーソナルコンピュータを用いて本発明の特徴ベクトル生成処理と、Bag-of-Keypoints法における特徴ベクトル生成処理とを実行したところ、Bag-of-Keypoints法では、1つの画像データについての特徴ベクトルの生成におよそ860msecほどの時間を要したのに対して、本発明の特徴ベクトル生成処理は1つの画像データの特徴ベクトルをおよそ60msecほどの時間で生成した。これらの検討結果から、本発明による特徴ベクトル生成方法は、計算コストに関して既存手法に比べて極めて優位にあるといえる。
続いて、本発明による特徴ベクトル生成方法により生成された特徴ベクトルの特徴表現度を評価する。かかる特徴表現度を評価するために、本発明者らは、エッジヒストグラム、HSVカラーヒストグラム、“Gray-SIFT”および“RGB-SIFT”という4種類の局所特徴記述子と本発明による特徴ベクトル生成方法により得られる特徴ベクトルとの組み合わせと、上記4種類の局所特徴記述子と高次局所特徴ベクトルの平均ベクトル(0次相関ベクトル)を特徴ベクトルとする手法(以下、“Mean”という)との組合わせとを用いて、“OT8”と呼ばれるデータセットのシーン判別を実行し、局所特徴記述子ごとに本発明による特徴ベクトル生成方法と“Mean”とでシーン判別率を比較した。図7にシーン判別率の比較結果を示す。なお、“OT8”は,“coast”,“forest”,“mountain”,“open country”,“highway”,“inside city”,“tall building”,“street”という8クラスのシーン(カラー画像)を含むデータセットである(A. Oliva and A. Torallba. Modeling the shape of the scene: A holistic representation of the spatial参照)。また、エッジヒストグラムとして、72次元の勾配方向ヒストグラムを用い、グレー画像から局所特徴を抽出した。カラーヒストグラムとしては、HSV空間における標準的な84次元(H:36次元、S:32次元、V:16次元)のものを用いた。これらの局所特徴記述子については,局所特徴抽出窓を10×10ピクセル、L=5に固定した。更に、SIFT記述子については、局所特徴抽出窓を16×16ピクセル、L=5に固定し、他の記述子に比べて高次元であることを考慮して主成分分析による次元圧縮を行った(dl=30)。そして、本発明による特徴ベクトル生成方法の適用に際しては、相関ベクトルの最大次数MをM=1とした。
図7からわかるように、上記4種類の局所特徴記述子のいずれを用いても、本発明の特徴ベクトル生成方法により得られる特徴ベクトルを利用することにより、“Mean”を利用した場合に比べてシーン判別性能が大きく向上することがわかる。そして、図7に示す評価結果は、画像データの特徴ベクトルの生成に際してm次相関ベクトルを用いることにより、画像の重要な特徴点とその周辺の特徴点との相関すなわち局所特徴の分布情報が特徴ベクトルに良好に反映されていることを示している。
次に、本発明による特徴ベクトル生成方法により生成された特徴ベクトルを用いた本発明によるクラス判別方法の有効性を評価する。かかる有効性を評価するために、本発明者らは、上記特徴ベクトルを用いた本発明によるクラス判別方法(H=3)と、上記特徴ベクトルを用いた確率的線形判別分析のみによるクラス判別方法(H=1:参考)と、複数の既存手法とを用いて、上述の“OT8”、“LSP15”および“Caltech-101”という3種類のデータセットのシーン判別を実行し、判別手法ごとのシーン判別率を比較した。なお、既存手法については、“NO-SI”:画像の位置情報(Spatial Information)を含まないもの、および“SI”:画像の位置情報を含むもの、を適宜用意した。ここで、“LSP15”は、“OT8”における8クラスのシーンと“bed room”,“kitchen”,“living room”,“store”,“suburb”,“industrial”,および“office”との合計15クラスのシーン(モノクロ画像)を含むデータセットである(S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2006.参照)。また、“Caltech-101”は、101個の物体クラスと背景クラスとの合計102個のクラスを含むデータセットである(L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: an incremental bayesian approach tested on 101 object categories. In Proc. IEEE CVPR Workshop on Generative-Model Based Vision, 2004.参照)。また、有効性評価に際し、“OT8”および“Caltech-101”については“RGB-SIFT”を、“LSP15”については“Gray-SIFT”をそれぞれ局所特徴記述子として用い、16×16の領域と36×36の領域との双方から抽出された局所特徴ベクトルを列挙して最終的な高次局所特徴ベクトルとした。また、既存手法としては、それぞれ次の挙げる文献に記載された手法[A]〜手法[G]を用いた。なお、手法[A]は、“CRF(Conditional Random Field)により画像の“part-based”な“generative model”を推定して画像のセグメンテーションと識別とを同時に行うものであるが、その計算コストはbag-of-keypoints法と比べても更に高いものである。また、手法Bおよび手法Cは、SIFT記述子とbag-of-keypoints法とを用いた局所特徴抽出を行うと共に“SVM(Support Vector Machine)”等によるクラス判別を行うものである。図8にシーン判別率の比較結果を示す。
手法[A]:Y. Wang and S. Gong. Conditional random field for natural scene categorization. In Proc. British Machine Vision Conference, 2007.
手法[B]:A. Bosch, A. Zisserman, and X. Mu・noz. Scene classification using a hybrid generative/discriminative approach. IEEE Trans. Pattern Analysis and Machine Intelligence, pages 712・727, 2008.
手法[C]:S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2006.
手法[D]:O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classification. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2008.
手法[E]:H. Zhang, A. C. Berg, M. Maire, and J. Malik. SVM-KNN: Discriminative nearest neighbor classification for visual category recognition. In Proc. IEEE Conf. Computer Vision and Pattern Recognition, volume 2, pages 2126・2136, 2006.
手法[F]:K. Grauman and T. Darrell. The pyramid match kernel: Efficient learning with sets of features. Journal of Machine Learning Research, 8:725・760, 2007.
手法[G]:N. Herv´e and N. Boujemaa. Image annotation: which approach for realistic databases? In Proc. ACM International Conference on Image and Video Retrieval, 2007
図8の比較結果からわかるように、“OT8”および“LSP15”に関し、確率的線形判別分析に潜在空間の多重化という拡張を導入した本発明によるクラス判別方法(図8のH=3)は、既存手法のスコアを上回るシーン判別率を記録している。また、“Caltech-101”に関しても、本発明によるクラス判別方法(図8のH=3)は、少なくとも既存手法のスコアに比肩するシーン判別率を記録している。更に、H=1の手法C(判別率41.2%)は、最も標準的なBag-of-keypoints法に相当するものであるが、“Caltech-101”に関し、本発明によるクラス判別方法は、H=1の手法Cのスコアを大きく上回るシーン判別率を記録しており、この点から、本発明によるクラス判別方法が実用上極めて優れていることが裏付けられる。なお、手法[D]および[F]は、“Caltech-101”に関し、それぞれ高いスコアを記録しているが,両手法はいずれも局所特徴のマッチングを必要とするものであって膨大な計算コストおよびメモリ使用量を要求し、実用に供し得ないものである。また、図8からわかるように、本発明による特徴ベクトル生成方法により生成された特徴ベクトルを用いた確率的線形判別分析のみによるクラス判別方法(H=1:参考)は、既存手法“SI”のスコアに及ばないものの、既存手法“NO SI”のスコアを上回るシーン判別率を記録している。これは、本発明による特徴ベクトル生成方法により生成された特徴ベクトルが特徴表現度において優れていること、およびクラス判別における潜在空間の多重化の有効性の高さとの双方を示していることに他ならない。いずれにしても、図8の比較結果から、本発明による特徴ベクトル生成方法により生成された特徴ベクトルを用いた本発明によるクラス判別方法が、非常にシンプルでありながら高速な計算処理を可能とし、かつ既存手法に比肩もしくはそれを越える結果を挙げるものであることが理解されよう。
なお、本発明の適用対象は、上述のようなロボット装置20に限られるものでなく、本発明は、デジタルカメラやビデオカメラに適用される被写体判別装置や、車両前方等に存在する物体を判別する車載画像認識装置に適用されてもよい。また、本発明は、図9に例示するような画像データ処理システムにも適用され得る。同図に示す画像データ処理システム200は、データベース化された多数の画像データや単語群データを記憶するデータ記憶装置210と、データ記憶装置210上のデータベースを管理すると共に新奇画像データに対するアノテーションや当該データベースの検索(リトリーバル)等を可能とする管理コンピュータ300とから構成されるものである。管理コンピュータ300は、図示しないCPU,ROM,RAM、システムバス、各種インターフェース、記憶装置等を含むものであり、この管理コンピュータ300には、例えばインターネット等のネットワークを介して端末500からアクセスすることができるようになっている。また、管理コンピュータ300には、図9に示すように、CPUやROM,RAM、各種インターフェース、記憶装置といったハードウェアと、予めインストールされた本発明による特徴量生成プログラムやクラス判別プログラムを始めとする各種ソフトウェアとの一方または双方の協働により、検索ロボット310、データ受付部320、画像特徴量抽出部330、単語特徴量抽出部340、学習処理部350、アノテーション処理部360、検索クエリ受付部370、リトリーバル処理部380、結果出力部390等が機能ブロックとして構築されている。更に、管理コンピュータ300には、特徴量記憶装置400や学習情報記憶装置410が接続されている。
管理コンピュータ300の検索ロボット310は、ネットワーク等を介してデータ記憶装置210のデータベースに記憶されていない画像を含むデータを収集し、データベースを更新する。データ受付部320は、各種入力手段を用いた人の手による画像データの入力や、画像データに対応付けられて当該画像データの画像に現れているものを示すメタデータとしての少なくとも1つの単語(シンボル)を示す単語群データの入力を受け付け、受け付けたデータをデータ記憶装置210に格納する。画像特徴量抽出部330は、画像データからそのデータの特徴を示す画像特徴量を抽出し、特徴量記憶装置400に格納する。すなわち、画像特徴量抽出部330は、上述の高次局所特徴ベクトルの平均ベクトルを構成する要素と高次局所特徴ベクトル間のm次相関ベクトルを構成する要素とに基づいて画像データ全体の特徴を示す特徴ベクトルを取得する。単語特徴量抽出部340は、単語群データからそのデータの特徴を示す単語特徴量を抽出し、特徴量記憶装置400に格納する。学習処理部350は、画像特徴量および単語特徴量の組み合わせを複数用いて画像データと単語群データとの関係を学習すると共に、未注釈画像データにメタデータとしての単語群を付与するアノテーションや単語に基づく未注釈画像データの検索(リトリーバル)に必要な学習情報を取得し、取得した学習情報を学習情報記憶装置410に格納する。また、学習処理部350は、上記特徴ベクトルや新奇画像データのクラス判別に必要な学習情報を生成する。アノテーション処理部360は、未注釈の画像データに対するアノテーションや、新奇画像データのクラス判別を実行する。検索クエリ受付部370は、端末500等から検索クエリとしての少なくとも1つの単語(シンボル)の入力を受け付ける。リトリーバル処理部380は、検索クエリ受付部370により受け付けられた検索クエリに基づく未注釈の画像データを含む画像データの検索処理(リトリーバル)を実行する。結果出力部390は、リトリーバル処理部380の処理の結果を端末500等に出力する。このような画像データ処理システム200に本発明を適用すれば、画像特徴量(特徴ベクトル)の生成に要する計算コストを低減すると共に、新奇画像データのクラス判別性能を向上させることが可能となり、それによりシステム全体の性能を向上させることができる。
以上、実施例を用いて本発明の実施の形態について説明したが、本発明は上記実施例に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において、様々な変更をなし得ることはいうまでもない。
本発明は、実世界情報を示す1つのデータの特徴ベクトルを取り扱ったり、実世界情報を示す新奇データが複数のクラスのいずれに属するかを判別したりする情報処理分野において有用である。
20 ロボット装置、21 撮像ユニット、22 集音ユニット、23 アクチュエータ、30 制御コンピュータ、31 入出力処理部、32 特徴量処理部、33 学習処理部、34 判別処理部、35 リトリーバル処理部、36 主制御部、40 データ記憶装置、41 特徴量記憶装置、42 学習情報記憶装置、200 画像データ処理システム、210 データ記憶装置、300 管理コンピュータ、310 検索ロボット、320 データ受付部、330 画像特徴量抽出部、340 単語特徴量抽出部、350 学習処理部、360 アノテーション処理部、370 検索クエリ受付部、380 リトリーバル処理部、390 結果出力部、400 特徴量記憶装置、410 学習情報記憶装置。

Claims (10)

  1. 実世界情報を示す1つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記1つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成装置であって、
    前記複数の高次局所特徴ベクトルの平均ベクトルを取得する平均取得手段と、
    前記複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)を取得する相関取得手段と、
    前記平均取得手段により取得された平均ベクトルを構成する要素と、前記相関取得手段により取得されたm次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴ベクトル取得手段と、
    を備える特徴量生成装置。
  2. 請求項1に記載の特徴量生成装置において、
    実世界情報を示す1つのデータIから抽出されたp個のd次局所特徴ベクトルをVk=(v1,…,vd)としたときに(ただし、“p”および“d”はそれぞれ値2以上の整数であり、“k”は値1から値pまでの整数である)、前記平均取得手段は、前記p個のd次局所特徴ベクトルVkの平均ベクトルμを次式(1)に従って取得し、前記相関取得手段は、前記p個のd次局所特徴ベクトルVkの自己相関行列Rを次式(2)に従って取得すると共に該自己相関行列Rの上三角行列の要素を列挙して1次相関ベクトルupper(R)を取得し、前記特徴ベクトル取得手段は、前記特徴ベクトルをXとしたときに、次式(3)に従って平均ベクトルμの要素と1次相関ベクトルupper(R)の要素とを列挙することにより該特徴ベクトルXを取得する特徴量生成装置。
  3. 請求項1に記載の特徴量生成装置において、
    前記相関取得手段は、主成分分析による前記高次局所特徴ベクトルの次元圧縮を伴って前記m次相関ベクトルを取得する特徴量生成装置。
  4. 請求項3に記載の特徴量生成装置において、
    実世界情報を示すN個のデータI(j)が存在するとし(ただし、“N”は値2以上の整数であり、“j”は値1から値Nまでの整数である)、1つのデータI(j)から抽出されたp(j)個のd次局所特徴ベクトルをVk (j)=(v1,…,vd)とし(ただし、“p(j)”および“d”はそれぞれ値2以上の整数であり、“k”は値1から値pまでの整数である)、前記平均取得手段により取得される前記p(j)個のd次局所特徴ベクトルVkの平均ベクトルを次式(4)に示すμ(j)とし、前記p(j)個のd次局所特徴ベクトルVk (j)の自己相関行列を次式(5)に示すR(j)とし、前記N個のデータから抽出されたd次局所特徴ベクトル全体の自己相関行列を次式(6)に示すRallとし、新奇データをI(j+1)としたときに、前記相関取得手段は、次式(7)の固有値問題を解いて得られるd次よりも低次であるdl次の主成分空間への射影行列Udlと、新奇データI(j+1)から抽出されたp(j+1)個のd次局所特徴ベクトルVk (j+1)の自己相関行列R(j+1)とに基づく対角行列Udl T(j+1)dlを取得すると共に、該対角行列Udl T(j+1)dlの上三角行列の要素を列挙して1次相関ベクトルupper(Udl T(j+1)dl)を取得し、前記特徴ベクトル取得手段は、次式(8)に従って前記p(j+1)個のd次局所特徴ベクトルVk (j+1)の平均ベクトルμ(j+1)を構成する要素と1次相関ベクトルupper(Udl T(j+1)dl)を構成する要素とを列挙することにより新奇データI(j+1)の特徴ベクトルX(j+1)を取得する特徴量生成装置。
  5. 実世界情報を示す1つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記1つのデータ全体の特徴を示す特徴ベクトルを生成する特徴量生成方法であって、
    前記複数の高次局所特徴ベクトルの平均ベクトルと、前記複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)とを取得し、
    前記取得された平均ベクトルを構成する要素と、前記取得されたm次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴量生成方法。
  6. 実世界情報を示す1つのデータから抽出された複数の高次局所特徴ベクトルを用いて前記1つのデータ全体の特徴を示す特徴ベクトルを生成する装置としてコンピュータを機能させる特徴量生成プログラムであって、
    前記複数の高次局所特徴ベクトルの平均ベクトルを取得する平均取得モジュールと、
    前記複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)を取得する相関取得モジュールと、
    前記平均取得モジュールにより取得された平均ベクトルを構成する要素と、前記相関取得モジュールにより取得された前記複数の高次局所特徴ベクトルのm次相関ベクトルを構成する要素とに基づいて前記特徴ベクトルを取得する特徴ベクトル取得モジュールと、
    を備える特徴量生成プログラム。
  7. 実世界情報を示す新奇データがそれぞれ少なくとも1つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別装置であって、
    第h層で前記新奇データおよび前記既知データのそれぞれがh×h個(ただし、“h”は値1から値Hまでの整数であり、“H”は値2以上の整数である)の領域に分割されるとして、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルに基づいて該領域ごとに導出された該特徴ベクトルを潜在空間に射影するための変換を記憶する変換記憶手段と、
    第h層で前記新奇データがh×h個の領域に分割されるとして、第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出する局所特徴抽出手段と、
    第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから前記局所特徴抽出手段により抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)とを取得すると共に、該平均ベクトルを構成する要素と該m次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得する特徴ベクトル取得手段と、
    前記クラスごとに、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点と、第1層から第H層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第h層における第i番目(ただし、“i”は値1から値h2までの整数である)の領域の特徴ベクトルから前記新奇データの第h層における第i番目の領域の特徴ベクトルが出現する確率のi=1からi=h2かつ第1層から第H層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出する確率導出手段と、
    前記確率導出手段により導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス設定手段と、
    を備えるクラス判別装置。
  8. 請求項7に記載のクラス判別装置において、
    第h層における第i番目の領域についての前記変換は、前記クラスの個数をG(ただし、“G”は値2以上の整数である)とし、前記クラスをCg(ただし、“g”は値1から値Gまでの整数である)とし、クラスCgからサンプルとして抽出される既知データであるサンプルデータの数をnとし(だだし、“n”は値1以上の整数である)、クラスCgに属する第j番目(ただし、“j”は値1から値nまでの整数である)のサンプルデータの第h層における第i番目の領域の特徴ベクトルをXj g(h,i)とし、クラスCgに属するサンプルデータの第h層におけるi番目の領域の特徴ベクトルXj g(h,i)の平均ベクトルをX-g(h,i)とし、クラスCgに属する全サンプルデータの第h層におけるi番目の領域の特徴ベクトルの平均ベクトルをμx (h,i)とし、第h層におけるi番目の領域についてのクラス内共分散行列を次式(9)に示すΣw (h,i)とし、第h層におけるi番目の領域についてのクラス外共分散行列を次式(10)に示すΣb (h,i)としたときに、次式(11)の固有値問題を解いて得られる射影行列W(h,i)であり(ただし、式(11)の“Λ(h,i)”は判別基準としての固有値を順番に対角に並べて得られる対角行列である)、
    前記特徴ベクトルをXとし、前記射影行列をWとし、該特徴ベクトルXの射影点をuとしたときに、第1層から第H層までの各層で前記サンプルデータのそれぞれを分割して得られる領域それぞれの特徴ベクトルの射影点と、第1層から第H層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルの射影点とは、次式(12)に従って導出され、
    前記新奇データの特徴ベクトルをXsとしたときに、クラスCgから該特徴ベクトルXsが出現する確率p(Xs|Cg)は、次式(13)に基づいて導出されるクラス判別装置。ただし、式(13)における添え字(h,i)は第h層における第i番目の領域に由来することを示し、添え字sは新奇データに由来することを示し、添え字CgはクラスCgに属することを示し、添え字1…nはクラスCgに属する第1〜n番目のサンプルデータに由来することを示し、“αh”は、第h層に対して付与される重みであり、式(13)における“Z(h,i)Cg”および“Θ(h,i)”は次式(14)および(15)に示すとおりであり、式(14)におけるu-(hj)CgはクラスCgに属する特徴ベクトルX(hj)Cgの射影点u(hj)Cgの平均であり、式(14)および(15)における“Ψ(h,i)”は次式(16)に示す潜在変数の分散であり、式(16)におけるΛ(h,i)は第h層における第i番目の領域における固有値問題の解である固有値を順番に対角に並べて得られる対角行列である。
  9. 実世界情報を示す新奇データがそれぞれ少なくとも1つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別方法であって、
    第h層で前記新奇データおよび前記既知データのそれぞれがh×h個(ただし、“h”は値1から値Hまでの整数であり、“H”は値2以上の整数である)の領域に分割されるとして、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルに基づいて、該特徴ベクトルを潜在空間に射影するための変換を該領域ごとに導出し、
    第h層で前記新奇データがh×h個の領域に分割されるとして、第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出し、
    第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)とを取得すると共に、該平均ベクトルを構成する要素と該m次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得し、
    前記クラスごとに、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点と、第1層から第H層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第h層における第i番目(ただし、“i”は値1から値h2までの整数である)の領域の特徴ベクトルから前記新奇データの第h層における第i番目の領域の特徴ベクトルが出現する確率のi=1からi=h2かつ第1層から第H層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出し、
    前記導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス判別方法。
  10. 実世界情報を示す新奇データがそれぞれ少なくとも1つの既知データに対応した複数のクラスのいずれに属するかを判別するクラス判別装置としてコンピュータを機能させるクラス判別プログラムであって、
    第h層で前記新奇データがh×h個(ただし、“h”は値1から値Hまでの整数であり、“H”は値2以上の整数である)の領域に分割されるとして、第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから複数の高次局所特徴ベクトルを抽出する局所特徴抽出モジュールと、
    第1層から第H層までの各層で前記新奇データを分割して得られる領域のそれぞれから前記局所特徴抽出モジュールにより抽出された複数の高次局所特徴ベクトルの平均ベクトルと、該複数の高次局所特徴ベクトル間における第1次から第M次までのm次相関ベクトル(ただし、“M”は値1以上の整数であり、“m”は値1から値Mまでの整数である)とを取得すると共に、該平均ベクトルを構成する要素と該m次相関ベクトルを構成する要素とに基づいて前記領域それぞれの特徴ベクトルを取得する特徴ベクトル取得モジュールと、
    前記クラスごとに、第1層から第H層までの各層で前記既知データのそれぞれを分割して得られる領域それぞれの特徴ベクトルを予め定められた該領域に対応した変換により潜在空間に射影して得られる射影点と、第1層から第H層までの各層で前記新奇データを分割して得られる領域それぞれの特徴ベクトルを該領域に対応した前記変換により前記潜在空間に射影して得られる射影点とに基づいて、前記既知データの第h層における第i番目(ただし、“i”は値1から値h2までの整数である)の領域の特徴ベクトルから前記新奇データの第h層における第i番目の領域の特徴ベクトルが出現する確率のi=1からi=h2かつ第1層から第H層までの総和を前記クラスから前記新奇データの特徴ベクトルが出現する確率として導出する確率導出モジュールと、
    前記確率導出モジュールにより導出された確率が最大となるクラスを前記新奇データが属するクラスとして設定するクラス設定モジュールと、
    を備えるクラス判別プログラム。
JP2009121244A 2009-05-19 2009-05-19 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム Expired - Fee Related JP5382786B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009121244A JP5382786B2 (ja) 2009-05-19 2009-05-19 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム
PCT/JP2010/058427 WO2010134539A1 (ja) 2009-05-19 2010-05-19 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009121244A JP5382786B2 (ja) 2009-05-19 2009-05-19 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム

Publications (2)

Publication Number Publication Date
JP2010271787A true JP2010271787A (ja) 2010-12-02
JP5382786B2 JP5382786B2 (ja) 2014-01-08

Family

ID=43126216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009121244A Expired - Fee Related JP5382786B2 (ja) 2009-05-19 2009-05-19 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム

Country Status (2)

Country Link
JP (1) JP5382786B2 (ja)
WO (1) WO2010134539A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012053848A (ja) * 2010-09-03 2012-03-15 Nippon Telegr & Teleph Corp <Ntt> データ可視化装置、データ変換装置、方法、及びプログラム
JP7477546B2 (ja) 2022-02-14 2024-05-01 矢崎総業株式会社 温度センサおよびセンサの取付け構造

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015125760A (ja) * 2013-12-27 2015-07-06 日立建機株式会社 鉱山用作業機械
JP6460332B2 (ja) * 2015-04-20 2019-01-30 国立大学法人 東京大学 特徴量生成ユニット、照合装置、特徴量生成方法、および特徴量生成プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326693A (ja) * 2003-04-28 2004-11-18 Sony Corp 画像認識装置及び方法、並びにロボット装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326693A (ja) * 2003-04-28 2004-11-18 Sony Corp 画像認識装置及び方法、並びにロボット装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6013043724; Yan Ke, Rahul Sukthankar: 'PCA-SIFT: a more distinctive representation for local image descriptors' Proc. of IEEEConference on Computer Vision and Pattern Recognition (CVPR),2004 Vol 2, 20040627, p.506-513 *
JPN7013003268; Hideki Nakayama, Tatsuya Harada, Yasuo Kuniyoshi: 'Scene Classification using Generalized Local Correlation' MVA2009 IAPR Conference on Machine Vision Application , 20090520, p.195-198 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012053848A (ja) * 2010-09-03 2012-03-15 Nippon Telegr & Teleph Corp <Ntt> データ可視化装置、データ変換装置、方法、及びプログラム
JP7477546B2 (ja) 2022-02-14 2024-05-01 矢崎総業株式会社 温度センサおよびセンサの取付け構造

Also Published As

Publication number Publication date
WO2010134539A1 (ja) 2010-11-25
JP5382786B2 (ja) 2014-01-08

Similar Documents

Publication Publication Date Title
Gosselin et al. Revisiting the fisher vector for fine-grained classification
KR101919831B1 (ko) 오브젝트 인식 장치, 분류 트리 학습 장치 및 그 동작 방법
Roy et al. Unsupervised universal attribute modeling for action recognition
CN103425996B (zh) 一种并行分布式的大规模图像识别方法
JP5458815B2 (ja) マルチメディア検索システム
Ju et al. Fusing global and local features for generalized ai-synthesized image detection
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
Han et al. High-order statistics of microtexton for hep-2 staining pattern classification
JP5382786B2 (ja) 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム
CN108108769B (zh) 一种数据的分类方法、装置及存储介质
CN115393666A (zh) 图像分类中基于原型补全的小样本扩充方法及系统
CN111414958B (zh) 一种视觉词袋金字塔的多特征图像分类方法及系统
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
Angelopoulou et al. Evaluation of different chrominance models in the detection and reconstruction of faces and hands using the growing neural gas network
JP5197492B2 (ja) 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム
Elsayed et al. Hand gesture recognition based on dimensionality reduction of histogram of oriented gradients
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
Bissacco et al. Gait recognition using dynamic affine invariants
Naik Bukht et al. A Novel Human Interaction Framework Using Quadratic Discriminant Analysis with HMM.
Elsayed et al. Hybrid method based on multi-feature descriptor for static sign language recognition
JP5683287B2 (ja) パターン認識装置及びパターン認識方法
Rosado et al. Semantic-based image analysis with the goal of assisting artistic creation
CN111353353A (zh) 跨姿态的人脸识别方法及装置
JP6282121B2 (ja) 画像認識装置、画像認識方法およびプログラム
Khalid Robust shape matching using global feature space representation of contours

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130926

R150 Certificate of patent or registration of utility model

Ref document number: 5382786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees