JP2009134466A - 認識処理装置、方法及びコンピュータプログラム - Google Patents
認識処理装置、方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2009134466A JP2009134466A JP2007309313A JP2007309313A JP2009134466A JP 2009134466 A JP2009134466 A JP 2009134466A JP 2007309313 A JP2007309313 A JP 2007309313A JP 2007309313 A JP2007309313 A JP 2007309313A JP 2009134466 A JP2009134466 A JP 2009134466A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- data
- input data
- learning
- principal component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】認識対象の非線形な変動に対して頑健で、雑音にも強く、処理量も増大させない認識処理装置を提供する。
【解決手段】学習処理部12は、非線形分布する学習データに対して核非線形主成分分析を行うことにより固有ベクトルを含む認識用テンプレートを生成し、これを認識用テンプレート格納部123に格納する。認識処理部13は、認識対象となる入力データに対して線形主成分分析を行う。これにより、処理量の削減を図るとともに、主成分分析による自乗誤差最小化近似により入力データからの雑音を除去する。その上で、当該入力データの特徴を抽出し、抽出した特徴と認識用テンプレートとの類似度を判別する。判別結果は、出力制御部14を通じて外部装置へ出力される。
【選択図】図1
【解決手段】学習処理部12は、非線形分布する学習データに対して核非線形主成分分析を行うことにより固有ベクトルを含む認識用テンプレートを生成し、これを認識用テンプレート格納部123に格納する。認識処理部13は、認識対象となる入力データに対して線形主成分分析を行う。これにより、処理量の削減を図るとともに、主成分分析による自乗誤差最小化近似により入力データからの雑音を除去する。その上で、当該入力データの特徴を抽出し、抽出した特徴と認識用テンプレートとの類似度を判別する。判別結果は、出力制御部14を通じて外部装置へ出力される。
【選択図】図1
Description
本発明は、対象が非線形に変動する場合の認識処理を、高い耐雑音性及び認識率で、迅速に行うための認識処理技術に関する。
例えば顔の姿勢変動や唇動作のように、対象の動きに非線形性がある場合の認識方法として、核非線形主成分分析(Kernel Principal Component Analysis:KPCA)を用いた学習データ表現、すなわち、学習データの分布を核非線形主成分分析により表現することが有効であることが知られており、これを用いたカーネル非線形部分空間法(Kernel based Nonlinear Subapace Method:KNS法)が提案されている(非特許文献1)。KPCAは、要するに、非線形写像でデータを無限次元もしくは極めて高次元の関数空間に写像した後、特異値分解で関数空間での主成分を求める方法といえる。
このKPCA法を用いたKNS法は、カーネル関数(核関数とも呼ばれる)によって定義可能な非線形変換を利用して、高次元の非線形空間上での部分空間法を実現したものであり、学習データに非線形性の変動があっても識別力を低下させないという利点がある。
このKPCA法を用いたKNS法は、カーネル関数(核関数とも呼ばれる)によって定義可能な非線形変換を利用して、高次元の非線形空間上での部分空間法を実現したものであり、学習データに非線形性の変動があっても識別力を低下させないという利点がある。
また、ビデオカメラ等により認識対象となる入力データを連続して取り込むことが可能な場合には、取り込んだ入力データについて主成分分析して部分空間を導出し、学習データについての部分空間との角度を類似度として用いる相互部分空間法(Mutual Subspace Method:MSM)も知られている(非特許文献2)。MSMは、いわば線形性のアルゴリズムであり、認識耐雑音性に優れるという利点がある。
さらに、これらの双方の利点を組み合わせた核非線形相互部分空間法(Kernel Mutual Subspace Method:KMS法)も提案されている(非特許文献3)。KMS法では、学習時に、学習データを核非線形主成分分析して、認識用テンプレート(辞書)となる非線形の主成分を得る。ここにいう主成分は、非線形部分空間の固有値と固有ベクトルである。
認識時には、認識対象となる入力データを、やはり核非線形主成分分析することで、主成分を得る。そして、写像の対象となったヒルベルト(Hilbert)空間で両者の主成分同士がなす角度を計算することにより、類似性判別処理、すなわち認識処理を行う。ヒルベルト空間とは、内積の定義されたベクトル空間であって、その内積から導かれるノルム(norm:平面あるいは空間における幾何学的ベクトルの長さの概念)によって距離を入れるとき、距離空間として完備(complete)となるような位相ベクトル空間をいう。ヒルベルト空間では、いつでも射影(最良近似)が存在する。
認識時には、認識対象となる入力データを、やはり核非線形主成分分析することで、主成分を得る。そして、写像の対象となったヒルベルト(Hilbert)空間で両者の主成分同士がなす角度を計算することにより、類似性判別処理、すなわち認識処理を行う。ヒルベルト空間とは、内積の定義されたベクトル空間であって、その内積から導かれるノルム(norm:平面あるいは空間における幾何学的ベクトルの長さの概念)によって距離を入れるとき、距離空間として完備(complete)となるような位相ベクトル空間をいう。ヒルベルト空間では、いつでも射影(最良近似)が存在する。
KMS法による認識処理は、具体的には、以下のようにして行われる。
認識用テンプレートを作成するときの学習データ、すなわちm個のデータ群をベクトルxi(但し、i=1,m)、核非線形主成分分析で求めた固有ベクトルをVとする。この固有ベクトルVは、以下の数1式で表される。
認識用テンプレートを作成するときの学習データ、すなわちm個のデータ群をベクトルxi(但し、i=1,m)、核非線形主成分分析で求めた固有ベクトルをVとする。この固有ベクトルVは、以下の数1式で表される。
他方、認識対象となる入力データ、すなわちm’個のデータ列をベクトルxj(但し、j=1,m’)、核非線形主成分分析で求めた固有ベクトルをWとする。この固有ベクトルWは、以下の数2式で表される。
α’は係数、Ψは関数である。
ノルムが正規化されていると仮定すると、入力データと学習データとの類似度を評価するためには、(V・W)の値の大きさを評価すれば良い。すなわち、以下の数3式を求めれば良い。
この数6式及び数7式に、上記のようにして求めた(V・W)の値を代入することにより、学習データに対して入力データがどの程度類似するかを判別することができる。
このように、一般的なKPCAをMSMに適用することは理論的にも実装上も困難であるところ、KMS法によれば、それが可能になるという利点が得られる。
なお、KMS法については、特許文献1及び特許文献2でも紹介ないし応用されている。
このように、一般的なKPCAをMSMに適用することは理論的にも実装上も困難であるところ、KMS法によれば、それが可能になるという利点が得られる。
なお、KMS法については、特許文献1及び特許文献2でも紹介ないし応用されている。
前田英作,村瀬洋,「カーネル非線形型相互部分空間法によるパターン認識」信学論(D-II),Vol.J82-D-II,No.4,pp.600-612(1999)
前田賢一,渡辺貞一,「局所構造を導入したパターン・マッチング方法」信学論(D),Vol.J68-D,No.3,pp.345-352(1985)
坂野 鋭,武川 直樹,中村 太一「核非線形相互部分空間法による物体認識」電子情報通信学会論文誌 D-II Vol.J84-D-II No.8 pp1549-1556(2001)
KMS法では、認識対象の変動が非線形あるいは線形でも頑健な認識が可能となるので、きわめて有力な認識手法であるが、課題も残る。すなわち、KMS法では、学習データ及び入力データを部分空間で表現するのに、上述した固有値問題(数6式及び数7式)を解く必要がある。そのため、処理量は、処理すべきデータ数の3乗に比例して増える。また、認識用テンプレートと入力データの主成分同士の角度は、学習データと入力データとの間での核関数を計算することにより求められるため、線形性のアルゴリズムである相互部分空間法に比べると、処理量が飛躍的に多くなる。
例えば、入力データがN個のデータの集合であり、学習データがM個のデータの集合であった場合には、N×M回の核関数の計算を行う必要があるため、認識処理に要する時間が長くなる。また、入力データに雑音が多いときには、これらの雑音に過適応して誤認識をおこすという問題も懸念される。
本発明は、認識対象の非線形な変動に対して頑健で、雑音にも強く、処理量も増大させない認識処理技術を提供することを課題とするものである。
本発明は、認識対象となる入力データについては、学習データよりも変動が小さくなる場合が多い点に着目して、学習データについては核非線形主成分分析(KPCA)を行い、入力データについては線形主成分分析することで課題の解決を図る、認識処理装置、方法、及びコンピュータプログラムに関するものである。
本発明の認識処理装置は、非線形分布する学習データと認識対象となる入力データとを選択的に取り込むデータ取込部と、取り込まれた前記学習データに対して核非線形主成分分析を行うことにより固有ベクトルを含む認識用テンプレートを生成し、この認識用テンプレートを記憶する学習処理部と、取り込まれた前記入力データに対して線形主成分分析を行うことにより当該入力データの特徴を抽出し、抽出した特徴と前記学習処理部に記憶されている前記認識用テンプレートとの類似度を判別する認識処理部と、前記類似度の判別結果を外部装置へ出力する出力制御部とを有する装置である。
この認識処理装置によれば、入力データについて線形主成分分析するので、KPCAする場合に比べて処理量が削減され、雑音成分もこの時点で除去される。
この認識処理装置によれば、入力データについて線形主成分分析するので、KPCAする場合に比べて処理量が削減され、雑音成分もこの時点で除去される。
本発明の認識処理方法は、非線形分布する学習データを取り込み、取り込んだ学習データに対して核非線形主成分分析を行うことにより認識用テンプレートを生成し、この認識用テンプレートを所定のメモリに記憶した後、認識対象となる入力データを取り込み、取り込んだ入力データに対して線形主成分分析を行うことにより当該入力データの特徴を抽出し、抽出した特徴と前記記憶されている認識用テンプレートとの類似度を判別する過程を含む方法である。
本発明のコンピュータプログラムは、記憶装置を有するコンピュータを、非線形分布する学習データ又は認識対象となる入力データを選択的に取り込むデータ取込部、取り込まれた前記学習データに対して核非線形主成分分析を行うことにより認識用テンプレートを生成し、この認識用テンプレートを前記記憶装置に記憶する学習処理部、取り込まれた前記入力データに対して線形主成分分析を行うことにより当該入力データの特徴を抽出し、抽出した特徴と前記学習処理部に記憶されている前記認識用テンプレートとの類似度を判別する認識処理部、及び、この類似度の判別結果を外部装置へ出力する出力制御部として機能させるものである。
本発明によれば、認識対象となる入力データが、線形主成分分析により次元を低減した固有ベクトルに圧縮されるので、処理すべきデータ量の削減が可能になり、さらに、線形主成分分析による自乗誤差最小化近似により、雑音成分が除去される。これにより、非線形変動を伴うデータに対して頑健でありながら、処理量の問題を解決しつつ雑音への過適応の問題を回避することができる。
以下、本発明を、例えば撮像装置で撮像した顔画像をパターン認識する認識処理装置に適用した場合の実施の形態例を説明する。なお、認識対象は、画像に限られるものではない。
本実施形態による認識処理装置は、記憶装置を有するコンピュータと本発明のコンピュータプログラムとの協働により実現される。
本実施形態による認識処理装置は、記憶装置を有するコンピュータと本発明のコンピュータプログラムとの協働により実現される。
[認識処理装置の構成]
図1は、本実施形態による認識処理装置の機能構成例を示している。この認識処理装置1は、本発明のコンピュータプログラムにより形成されるデータ取込部11、学習処理部12、認識処理部13及び出力制御部14を有する。
図1は、本実施形態による認識処理装置の機能構成例を示している。この認識処理装置1は、本発明のコンピュータプログラムにより形成されるデータ取込部11、学習処理部12、認識処理部13及び出力制御部14を有する。
データ取込部11は、撮像装置あるいは撮影画像の記録・再生装置から、学習データ、入力データを選択的に取り込む。取り込むデータがいずれであるかは、入力制御部111により設定することができる。学習データを取り込んだときは、それらを学習処理部12に伝達し、他方、入力データを取り込んだときは、それらを認識処理部13に伝達する。常にそのようにしなければならないというものではないが、入力制御部111は、入力データを取り込むときは、学習データを選択するときよりも短い時間を取込時間として設定する。このようにすれば、入力データの変動を抑制することができる。
学習処理部12は、前処理部121及び核非線形主成分分析部122の機能を有する。前処理部121は、データ取込部11から伝達される学習データの特徴を抽出する。特徴の抽出は、具体的には、学習データを複数次元の特徴ベクトルに変換することでそれを行う。核非線形主成分分析部122は、学習データの特徴をKPCAにより表現することにより、認識用テンプレートを生成し、この認識用テンプレートを、記憶装置に構築された認識用テンプレート格納部123に格納する。核非線形主成分分析部122では、基本的には上述したKNS法と同じ手順で主成分を分析する。この分析処理の詳細については、後述する。
認識処理部13は、前処理部131、線形主成分分析部132、類似度判別部133を有する。前処理部131は、データ取込部11で取り込んだ所定の認識単位(例えば認識用として設定された時間)の入力データの特徴を抽出する。具体的には複数次元の特徴ベクトルに変換する。線形主成分分析部132は、1回の認識時に取り込まれた入力データの特徴を当該入力データよりも少ない数の固有ベクトルとして抽出する。類似度判別部133は、固有ベクトルを認識用テンプレートが表す非線形部分空間へ射影し、固有ベクトル同士の内積行列を対角化して得られる固有値の大きさに基づいて類似度を判別する。線形主成分分析部132、類似度判別部133の処理の詳細については、後述する。
出力制御部14は、図示しないディスプレイ、印刷装置、記憶装置その他の外部装置に、類似度の判別結果を出力するための制御を行う。
[認識処理装置の動作]
次に、上記のように構成される認識処理装置1の動作を説明する。動作は、大別して、学習プロセスと認識プロセスの2種類となる。
次に、上記のように構成される認識処理装置1の動作を説明する。動作は、大別して、学習プロセスと認識プロセスの2種類となる。
(1)学習プロセス
学習プロセスの手順を図2に示す。
データ取込部11で画像データである学習データを取り込み、学習認識処理部12へ伝達する(ステップS101)。学習認識処理部12は、前処理部121で、学習データの特徴を抽出する(ステップS102)。すなわち、X=ベクトルxt1,xt2,・・・xtn をd次元のベクトルとし、これを学習データの特徴とする。nは学習データの数である。
核非線形主成分分析部122は、KPCAにより、認識用テンプレートを生成する(ステップS103)。具体的には、下記数8式のGramm行列を計算する。
学習プロセスの手順を図2に示す。
データ取込部11で画像データである学習データを取り込み、学習認識処理部12へ伝達する(ステップS101)。学習認識処理部12は、前処理部121で、学習データの特徴を抽出する(ステップS102)。すなわち、X=ベクトルxt1,xt2,・・・xtn をd次元のベクトルとし、これを学習データの特徴とする。nは学習データの数である。
核非線形主成分分析部122は、KPCAにより、認識用テンプレートを生成する(ステップS103)。具体的には、下記数8式のGramm行列を計算する。
(2)認識プロセス
図3に、認識プロセスの手順を示す。
データ取込部11は入力データを取り込み、認識処理部13に伝達する(ステップS201)。認識処理部13は、前処理部131で、入力データの特徴を抽出する(ステップS202)。すなわち、X=ベクトルxr1,xr2,・・・xrmxt1,xt2,・・・xtn をd次元のベクトルとし、これを入力データの特徴とする。mは1回の認識時に入力される画像の数である。線形主成分分析部132は、これらのデータに対して線形主成分分析を行う(ステップS203)。具体的には入力データの平均ベクトルをベクトルμiとして、下記数9式に示すように、分散共分散行列の対角化を行い、固有値(この固有値は、認識時には用いない)、固有ベクトル(ベクトルΨi)を求める。
図3に、認識プロセスの手順を示す。
データ取込部11は入力データを取り込み、認識処理部13に伝達する(ステップS201)。認識処理部13は、前処理部131で、入力データの特徴を抽出する(ステップS202)。すなわち、X=ベクトルxr1,xr2,・・・xrmxt1,xt2,・・・xtn をd次元のベクトルとし、これを入力データの特徴とする。mは1回の認識時に入力される画像の数である。線形主成分分析部132は、これらのデータに対して線形主成分分析を行う(ステップS203)。具体的には入力データの平均ベクトルをベクトルμiとして、下記数9式に示すように、分散共分散行列の対角化を行い、固有値(この固有値は、認識時には用いない)、固有ベクトル(ベクトルΨi)を求める。
その後、類似性判別部133で、認識用テンプレート格納部123に格納されている認識用テンプレートとの類似性を判別する(ステップS204)。すなわち、上記のようにして求めた固有ベクトル(ベクトルΨi)を認識用テンプレートが表す非線形部分空間へ射影し、認識用テンプレートの固有ベクトルとの内積行列を対角化して、固有値を求める。固有ベクトル(ベクトルΨi)の非線形主成分空間への射影は、具体的には、下記数10式により計算することができる。
固有ベクトル同士の内積行列は、下記数11式で表される。Mは認識時に用いる非線形主成分の数である。
この内積行列を対角化して、固有値を求める。そして、固有値の最も大きな認識用テンプレートを類似度が最大のものとして、そのIDを特定し、さらにそのIDにより特定されるカテゴリを認識結果として、出力制御部133より外部装置へ出力する(ステップS205)。
このように、核非線形相互部分空間法の入力を線形主成分分析に置き換えることで、処理量が多くなるという問題と、耐雑音性の低さの問題とを同時に解決することができる。
[認識処理装置の性能実測]
本実施形態の認識処理装置1による認識性能を検証するために、3次元の人工データを用い、この人工データに雑音を混入したときの認識結果を実測した。人工データとしては、3次元空間(XYZ空間)のXY平面に存在するカテゴリAデータrA(=2.0x2+y2)と、XZ平面に存在するカテゴリBデータrB(=1.8x2+z2)とを用いた。3次元空間では、カテゴリAデータrAは下記の(xA,yA,zA)、カテゴリBデータrBは下記の(xB,yB,zB)で表される楕円となる。
(xA,yA,zA)=[2cos(θ),sin(θ),0.0]
(xB,yB,zB)=[1.8cos(θ),0.0,sin(θ)]
本実施形態の認識処理装置1による認識性能を検証するために、3次元の人工データを用い、この人工データに雑音を混入したときの認識結果を実測した。人工データとしては、3次元空間(XYZ空間)のXY平面に存在するカテゴリAデータrA(=2.0x2+y2)と、XZ平面に存在するカテゴリBデータrB(=1.8x2+z2)とを用いた。3次元空間では、カテゴリAデータrAは下記の(xA,yA,zA)、カテゴリBデータrBは下記の(xB,yB,zB)で表される楕円となる。
(xA,yA,zA)=[2cos(θ),sin(θ),0.0]
(xB,yB,zB)=[1.8cos(θ),0.0,sin(θ)]
3次元空間における各楕円の形状を示したのが図4である。図4において、その下部に矩形で示される平面がXY平面、縦軸(Z軸)と前横軸(X軸)とを含む平面がXZ平面である。また、図中、Aで示される楕円がカテゴリAデータ、Bで示される楕円がカテゴリBデータである。図4は、ノイズレベル0、すなわち信号成分のみのデータとなる。「ノイズレベル」は、混入させる雑音の強さを表す。
これらの楕円A,Bには、互いに同じ主成分(第1主成分)と互いに異なる主成分(第2主成分)とが含まれており、第1主成分が、それぞれ他方の部分空間に埋め込まれる。従って、線形部分空間法では、楕円A,Bは、1次元では分離することができず、2次元で初めて分離可能となる。但し、雑音、特に振幅の大きいランダムノイズが加えられた場合、非線形部分空間法によれば1次元でも分離することができる期待がある。このことを検証するために、2つの楕円からそれぞれ360 サンプルを等間隔に生成し、合計720 サンプルを認識対象データとして用いた。また、2つの楕円からそれぞれ10 サンプルを等間隔に生成し、これらを学習データとして用いた。そして、認識時には、5 サンプルを1 セットとして認識処理を行った。
雑音は、認識対象データのみに混入させた。この雑音は、実際の認識処理の場面では、顔画像の伝送を伴う場合が多いことを考慮して、伝送時の加法雑音と仮定した。ノイズレベルは、通常は伝送路の性質により決定されるが、実験では楕円のスケール、つまり大きい方の楕円の長軸の長さである2 を超えないように設定した。雑音が混入された認識対象データ((xA,yA,zA),(xB,yB,zB))は、下記式のように変形される。εはノイズレベル、uは−0.5〜0.5の範囲でランダムに発生する乱数である。
(xA,yA,zA)=[2cos(θ)+εu,sin(θ+εu),εu]
(xB,yB,zB)=[1.8cos(θ)+εu,εu,sin(θ)+εu]
(xA,yA,zA)=[2cos(θ)+εu,sin(θ+εu),εu]
(xB,yB,zB)=[1.8cos(θ)+εu,εu,sin(θ)+εu]
認識対象データが、ノイズレベルの変化によって変化する様子を図5〜図9に示す。各図における平面及び符号等は、図4と同じである。図5は、ノイズレベルが0.01のときの認識対象データの状態である。ノイズレベルが0であった図4との比較では、楕円は殆ど崩れていない。ノイズレベルが0.1でも、楕円はまだ崩れていない(図6)。ノイズレベルが0.2になると、楕円は多少崩れてくる(図7)。ノイズレベルが0.5になると、信号成分と雑音とが似たスケールとなり、楕円はかなり崩れている(図8)。ノイズレベルが1.0の状態では、信号成分と雑音とが同じスケールとなり、殆ど楕円には見えず、2つの楕円A,Bの区別もつかなくなる(図9)。
このようにノイズレベルによって変化する認識対象データの認識率の変化、つまり耐雑音性を、本実施形態の認識処理装置1による認識処理方法(「本発明」と称する)と、他の認識方法による場合とで比較した。比較対象となる認識方法としては、上述のKMS法及びKNS法を用いた。ノイズレベルが0のときの各方法の認識率の実測結果を示したのが図10である。「1次元」は1次元認識、すなわち1次元の部分空間法による認識、「2次元」は2次元認識、つまり2次元の部分空間法による認識を表す。各方法による数値は、%表示の認識率である。2次元認識では、KMS法、KNS法共に100%の認識率となったのは、カテゴリAデータ(楕円A)のXY平面と、カテゴリBデータ(楕円B)のXZ平面とで、第1主成分が一致し、第2主成分が直交しているために確実に分離が可能であったことがその理由と思われる。
ノイズレベルを0から徐々に高めていったときの認識率の変化の様子を示したのが図11である。図11は、2次元認識による結果であるが、「本発明」については、1次元認識による結果も併せて掲示している。図11から判るように、「本発明」では、ノイズレベルが強くなっても、認識率の低下率は、KMS法及びKNS法よりも遙かに緩やかである。1次元認識では、ノイズレベルが0.8に満たない時点で既に、KMS法及びKNS法よりも高くなっている。2次元認識でも、ノイズレベルが1.3を過ぎた辺りでKMS法及びKNS法よりも高くなっている。つまり、耐雑音性が向上している。これは、主成分分析による自乗誤差最小化近似により、入力データから雑音成文が除去されているためと思われる。これにより、KMS法が雑音に過適応していた問題を回避することができることが検証された。
入力データについては、線形主成分分析により、次元の低い固有ベクトルに圧縮されているので、KMS法よりも核関数の計算回数が、削減されたデータ数の3乗に比例して少なくなる。
このように、本実施形態の認識処理装置1が行う認識処理方法によれば、認識対象の非線形な変動に対して頑健で、雑音にも強く、処理量も増大させないことがわかる。
[変形例]
本実施形態の認識処理方法は、上記のように優れた効果を奏するが、処理すべきデータの数を更に削減することにより、上記の効果を、より顕著にすることができる。
すなわち、画像認識、音認識等においてKMS法を適用する場合、処理量は、部分空間次元数よりも、処理すべきデータの数に大きく依存することが、本願の発明者らによって実証されている(例えば非特許文献4)。
「クラスタリングを用いた核非線形相互部分空間法の処理量削減手法」電子情報通信学会論文誌 D Vol.J90-D No.8 pp2168-2181(2007)
本実施形態の認識処理方法は、上記のように優れた効果を奏するが、処理すべきデータの数を更に削減することにより、上記の効果を、より顕著にすることができる。
すなわち、画像認識、音認識等においてKMS法を適用する場合、処理量は、部分空間次元数よりも、処理すべきデータの数に大きく依存することが、本願の発明者らによって実証されている(例えば非特許文献4)。
「クラスタリングを用いた核非線形相互部分空間法の処理量削減手法」電子情報通信学会論文誌 D Vol.J90-D No.8 pp2168-2181(2007)
そこで、取り込まれた学習データ及び入力データの少なくとも一方を、当該データよりも少ない数で当該データの特徴を表すサンプルデータに置き換えるデータ変換部の機能を認識処理装置1に付加することにより、処理すべきデータ量を更に削減し、認識処理に要する時間を短縮することができる。
データ量の削減手法としては、種々の手法が存在するが、もとのデータの特徴を維持したまま削減する場合は、クラスタリングが効果的である。
クラスタリングは、データを所定の規則に従っていくつかの組(クラスタ)に分類する際に求められるクラスタ中心に、サンプルデータを置き換える手法である。クラスタリングのアルゴリズムとしては、K−平均法 (k-means)を用いることができる。K−平均法は、非階層型クラスタリング手法の一つで、クラスタ数をK個に分類し、各クラスタの平均をとる手法である。単純なアルゴリズムで計算することができるため、広く用いられている。
クラスタリングは、データを所定の規則に従っていくつかの組(クラスタ)に分類する際に求められるクラスタ中心に、サンプルデータを置き換える手法である。クラスタリングのアルゴリズムとしては、K−平均法 (k-means)を用いることができる。K−平均法は、非階層型クラスタリング手法の一つで、クラスタ数をK個に分類し、各クラスタの平均をとる手法である。単純なアルゴリズムで計算することができるため、広く用いられている。
K−平均法を利用したデータ量削減のアルゴリズムを図12に示す。
データ変換部は、以下の手順で、K−平均法でデータの削減を行う。
クラスタ中心の数をK、各クラスCj(j=1,・・・K)のクラスタ中心をベクトルμj、各クラスCjに分類されるデータの数をNjとし、m個のデータの集合からランダムにクラスタ中心の初期値を選ぶ(ステップS301)。
また、m個のデータ(ベクトルxi)それぞれに対して、ベクトルxi−ベクトルμjの絶対値の2乗を最小にするμjのクラスタCjへクラス分けする(ステップS302)。
データ変換部は、以下の手順で、K−平均法でデータの削減を行う。
クラスタ中心の数をK、各クラスCj(j=1,・・・K)のクラスタ中心をベクトルμj、各クラスCjに分類されるデータの数をNjとし、m個のデータの集合からランダムにクラスタ中心の初期値を選ぶ(ステップS301)。
また、m個のデータ(ベクトルxi)それぞれに対して、ベクトルxi−ベクトルμjの絶対値の2乗を最小にするμjのクラスタCjへクラス分けする(ステップS302)。
ステップS304において、しきい値よりも大きければ、各クラスタについて下記数13式を計算し、クラスタ中心を更新する(ステップS304:No,305)。
このベクトルμjをベクトルxiに置き換えてステップS302の処理に戻る(ステップS306)。
このK−平均法のアルゴリズムを実行することにより、識別力、認識率を低下させることなく、認識処理に要する時間を短くすることができる。本願の発明者によれば、学習データについて、データ削減率を95[%]まで高めても、実用的なレベルの認識率を得ることができ、その場合は、例えばKMS法であれば、12340(秒)要していた認識処理の時間を、445(秒)にまで短縮することができる(上記の非特許文献4参照)。
なお、データ削減は、学習データのみならず、入力データに対しても行うことができる。また、データ削減の手法もK−平均法以外のアルゴリズムで実現することもできる。
なお、データ削減は、学習データのみならず、入力データに対しても行うことができる。また、データ削減の手法もK−平均法以外のアルゴリズムで実現することもできる。
本発明は、顔画像認識、話者認識、音声認識その他のオブジェクトないしパターンの認識に広く利用することができる。
1・・・認識処理装置、11・・データ取込部、111・・・入力制御部、12・・・学習処理部、121・・・学習処理の前処理部、122・・・核非線形主成分分析部、123・・・認識用テンプレート格納部、13・・・認識処理部、131・・・認識処理の前処理部、132・・・線形主成分分析部、133・・・類似性判別部、14・・・出力制御部。
Claims (6)
- 非線形分布する学習データと認識対象となる入力データとを選択的に取り込むデータ取込部と、
取り込まれた前記学習データに対して核非線形主成分分析を行うことにより固有ベクトルを含む認識用テンプレートを生成し、この認識用テンプレートを記憶する学習処理部と、
取り込まれた前記入力データに対して線形主成分分析を行うことにより当該入力データの特徴を抽出し、抽出した特徴と前記学習処理部に記憶されている前記認識用テンプレートとの類似度を判別する認識処理部と、
前記類似度の判別結果を外部装置へ出力する出力制御部とを有する、
認識処理装置。 - 前記認識処理部は、1回の認識時に取り込まれる前記入力データの特徴を当該入力データよりも少ない数の固有ベクトルとして抽出し、この固有ベクトルを前記認識用テンプレートが表す非線形部分空間へ射影し、前記認識用テンプレートの固有ベクトルと前記入力データの固有ベクトルとの内積行列を対角化して得られる固有値の大きさに基づいて前記類似度を判別する、
請求項1記載の認識処理装置。 - 前記データ取込部は、前記学習データよりも短い時間で前記入力データを取り込む、
請求項1記載の認識処理装置。 - 取り込まれた前記学習データ及び前記入力データの少なくとも一方を、当該データよりも少ない数で当該データの特徴を表すサンプルデータに置き換えるデータ変換手段をさらに備える、
請求項1記載の認識処理装置。 - 非線形分布する学習データを取り込み、取り込んだ学習データに対して核非線形主成分分析を行うことにより認識用テンプレートを生成し、この認識用テンプレートを所定のメモリに記憶した後、認識対象となる入力データを取り込み、取り込んだ入力データに対して線形主成分分析を行うことにより当該入力データの特徴を抽出し、抽出した特徴と前記記憶されている認識用テンプレートとの類似度を判別する過程を含む、
認識処理方法。 - 記憶装置を有するコンピュータを、
非線形分布する学習データ又は認識対象となる入力データを選択的に取り込むデータ取込部、
取り込まれた前記学習データに対して核非線形主成分分析を行うことにより認識用テンプレートを生成し、この認識用テンプレートを前記記憶装置に記憶する学習処理部、
取り込まれた前記入力データに対して線形主成分分析を行うことにより当該入力データの特徴を抽出し、抽出した特徴と前記学習処理部に記憶されている前記認識用テンプレートとの類似度を判別する認識処理部、及び、
この類似度の判別結果を外部装置へ出力する出力制御部として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007309313A JP2009134466A (ja) | 2007-11-29 | 2007-11-29 | 認識処理装置、方法及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007309313A JP2009134466A (ja) | 2007-11-29 | 2007-11-29 | 認識処理装置、方法及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009134466A true JP2009134466A (ja) | 2009-06-18 |
Family
ID=40866292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007309313A Pending JP2009134466A (ja) | 2007-11-29 | 2007-11-29 | 認識処理装置、方法及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009134466A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015135318A (ja) * | 2013-12-17 | 2015-07-27 | キヤノン株式会社 | データ処理装置、データ表示システム、試料データ取得システム、及びデータ処理方法 |
US9129149B2 (en) | 2010-04-20 | 2015-09-08 | Fujifilm Corporation | Information processing apparatus, method, and program |
CN108629371A (zh) * | 2018-05-02 | 2018-10-09 | 电子科技大学 | 一种对二维时频数据的数据降维方法 |
JP2019013449A (ja) * | 2017-07-06 | 2019-01-31 | 株式会社島津製作所 | 放射線撮影装置および放射線画像検出方法 |
JP2019200211A (ja) * | 2013-12-17 | 2019-11-21 | キヤノン株式会社 | データ処理装置、データ表示システム、試料データ取得システム、及びデータ処理方法 |
-
2007
- 2007-11-29 JP JP2007309313A patent/JP2009134466A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9129149B2 (en) | 2010-04-20 | 2015-09-08 | Fujifilm Corporation | Information processing apparatus, method, and program |
JP2015135318A (ja) * | 2013-12-17 | 2015-07-27 | キヤノン株式会社 | データ処理装置、データ表示システム、試料データ取得システム、及びデータ処理方法 |
JP2019200211A (ja) * | 2013-12-17 | 2019-11-21 | キヤノン株式会社 | データ処理装置、データ表示システム、試料データ取得システム、及びデータ処理方法 |
US10565474B2 (en) | 2013-12-17 | 2020-02-18 | Canon Kabushiki Kaisha | Data processing apparatus, data display system, sample data obtaining system, method for processing data, and computer-readable storage medium |
JP2019013449A (ja) * | 2017-07-06 | 2019-01-31 | 株式会社島津製作所 | 放射線撮影装置および放射線画像検出方法 |
JP6999895B2 (ja) | 2017-07-06 | 2022-01-19 | 株式会社島津製作所 | 放射線撮影装置および放射線画像検出方法 |
CN108629371A (zh) * | 2018-05-02 | 2018-10-09 | 电子科技大学 | 一种对二维时频数据的数据降维方法 |
CN108629371B (zh) * | 2018-05-02 | 2020-06-16 | 电子科技大学 | 一种对二维时频数据的数据降维方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190087726A1 (en) | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications | |
Patel et al. | Kernel sparse subspace clustering | |
Naikal et al. | Informative feature selection for object recognition via sparse PCA | |
KR102010378B1 (ko) | 객체를 포함하는 영상의 특징을 추출하는 방법 및 장치 | |
KR20180043937A (ko) | 표정 인식 방법 및 장치 | |
WO2004008391A1 (ja) | パターン特徴抽出方法及びその装置 | |
AU2011207120B8 (en) | Identifying matching images | |
JP2006155594A (ja) | パターン認識装置、パターン認識方法 | |
Lee et al. | Face image retrieval using sparse representation classifier with gabor-lbp histogram | |
JP2010039778A (ja) | 次元削減方法、パターン認識用辞書生成装置、及びパターン認識装置 | |
JP2009134466A (ja) | 認識処理装置、方法及びコンピュータプログラム | |
JP5214679B2 (ja) | 学習装置、方法及びプログラム | |
CN114503131A (zh) | 检索装置、检索方法、检索程序和学习模型检索系统 | |
CN115130571A (zh) | 特征编码及解码方法、装置、电子设备及存储介质 | |
CN113762005A (zh) | 特征选择模型的训练、对象分类方法、装置、设备及介质 | |
CN110287973B (zh) | 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法 | |
JP5353482B2 (ja) | パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法 | |
KR20140112635A (ko) | 특징점 기반 영상처리 장치 및 그 영상 처리 방법 | |
CN111639517A (zh) | 人脸图像筛选方法及装置 | |
CN115578778A (zh) | 基于迹变换与lbp的人脸图像特征提取方法 | |
CN114913404A (zh) | 模型训练、人脸图像活体检测方法、电子设备及存储介质 | |
Essa et al. | High order volumetric directional pattern for video-based face recognition | |
CN112819040A (zh) | 基于权值生成机制的用于水泥加工的智能控制方法 | |
JP5030235B2 (ja) | パターン認識装置及びパターン認識方法 | |
Suwignyo et al. | Parking space detection using quaternionic local ranking binary pattern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Effective date: 20100325 Free format text: JAPANESE INTERMEDIATE CODE: A7423 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100402 |