JP2012118668A - Learning device for pattern classification device and computer program for the same - Google Patents
Learning device for pattern classification device and computer program for the same Download PDFInfo
- Publication number
- JP2012118668A JP2012118668A JP2010266448A JP2010266448A JP2012118668A JP 2012118668 A JP2012118668 A JP 2012118668A JP 2010266448 A JP2010266448 A JP 2010266448A JP 2010266448 A JP2010266448 A JP 2010266448A JP 2012118668 A JP2012118668 A JP 2012118668A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- pattern
- coefficient vector
- prototype
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は,何らかの物理的な量の測定値からなるベクトルパターンが,所定の複数クラスのいずれに属するかを判別するパターン認識装置に関し,特に,学習データに基づいてそのようなパターン分類装置の学習を行なう学習装置に関する. The present invention relates to a pattern recognition apparatus that determines which vector class consisting of a measurement value of some physical quantity belongs to a predetermined class, and more particularly to learning of such a pattern classification apparatus based on learning data. It relates to a learning device that performs.
高い認識率を実現できるパターン認識技術として最小分類誤り(Minimum Classification Error:MCE)学習法及びサポートベクターマシーン(Support Vector Machine:SVM)法が広く用いられている.前者の初期の例は例えば非特許文献1に記載されており,可変長パターンをも含む多様なパターンに対するベイズ誤り推定を直接的に追求する.これに対し,後者は例えば非特許文献2に記載されており,カーネルに付随する高次元空間における線形判別関数の幾何マージン(分類決定境界と学習パターンとの間の距離)を最大化し学習耐性の向上を目指す.
As a pattern recognition technique capable of realizing a high recognition rate, a minimum classification error (MCE) learning method and a support vector machine (SVM) method are widely used. The first example of the former is described in Non-Patent
SVM法は損失関数最小化がベイズ誤り推定に対し直接的でなく,有限個の学習パターンの場合での分類誤り確率の最小化が十分ではない.一方,従来のMCE法は損失関数がベイズ誤り推定と直結しているが,一般の実施例において,カーネルを用いた高次元空間への写像に基づく精緻な分類決定境界の形成を考慮しておらず,やはり十分な認識率が得られていない. In the SVM method, the loss function minimization is not direct to Bayes error estimation, and the classification error probability in the case of a finite number of learning patterns is not sufficient. On the other hand, in the conventional MCE method, the loss function is directly linked to the Bayes error estimation. However, in the general embodiment, the formation of a precise classification decision boundary based on the mapping to the high-dimensional space using the kernel is not considered. Also, a sufficient recognition rate is not obtained.
それゆえに本発明の目的は,ベイズ誤り推定と直結した損失関数を用い,従来のものより高い認識率が得られるようにパターン分類装置の学習を行なうことができる学習装置を提供することである. Therefore, an object of the present invention is to provide a learning device that can use a loss function directly linked to Bayesian error estimation and learn a pattern classification device so as to obtain a higher recognition rate than the conventional one.
本発明の第1の局面によれば,パターン分類装置の学習装置は,複数個のクラスのいずれかに入力パターンを分類するための学習装置である.この学習装置は,所定の物理量の観測データから得られるベクトルと,当該ベクトルが属するクラスのラベルとからなる学習パターンを要素とする学習パターン集合を記憶するための記憶手段と,複数個のクラスに対しそれぞれ定義される,入力パターンが当該クラスに属する度合いを測る判別関数を,記憶手段に記憶された学習パターン集合に含まれる学習パターンを学習データとして学習するための学習手段とを含む.判別関数は,入力パターンと,複数個のクラスにそれぞれ対応する,学習パターン集合から得られる複数個のプロトタイプとの間のカーネル演算の線形和により表される関数である.複数個のプロトタイプはプロトタイプ集合を形成する.カーネル演算は,入力パターンの空間より高次元の空間に入力パターンを変換する特徴変換を定めたときに,当該特徴変換による変換後の入力パターンと,当該特徴変換による変換後のプロトタイプとの間の内積により定義され,かつ,当該カーネル演算は,プロトタイプ集合内に含まれるプロトタイプ相互間でのカーネル演算により構成されるグラム行列が,どんな個数のどんなプロトタイプに対しても常に正定値行列となるカーネル演算である.複数個のクラスの各々に対して,線形和の各プロトタイプに対応するカーネルの係数は係数ベクトルを形成する.これら複数個のクラスの各々に対して形成される係数ベクトルは係数ベクトル集合を形成する.学習手段は,高次元の空間において,学習パターンと係数ベクトル集合との関数として定義される平均分類誤り数損失が最小となるように係数ベクトル集合に含まれる係数ベクトルを調整する. According to the first aspect of the present invention, the learning device of the pattern classification device is a learning device for classifying an input pattern into one of a plurality of classes. The learning apparatus includes a storage means for storing a learning pattern set including a learning pattern composed of a vector obtained from observation data of a predetermined physical quantity and a label of a class to which the vector belongs, and a plurality of classes. The learning means for learning the learning pattern included in the learning pattern set stored in the memory means as the learning data is a discriminant function that measures the degree to which the input pattern belongs to the class. A discriminant function is a function represented by a linear sum of kernel operations between an input pattern and multiple prototypes obtained from a learning pattern set corresponding to multiple classes. Multiple prototypes form a prototype set. When a kernel transformation defines a feature transformation that transforms an input pattern into a higher-dimensional space than the input pattern space, the kernel operation is performed between the input pattern after transformation by the feature transformation and the prototype after transformation by the feature transformation. The kernel operation is defined as an inner product, and the kernel operation is such that a Gram matrix composed of kernel operations between prototypes included in the prototype set is always a positive definite matrix for any number of prototypes. It is. For each of several classes, the kernel coefficients corresponding to each prototype of the linear sum form a coefficient vector. The coefficient vectors formed for each of these multiple classes form a coefficient vector set. The learning means adjusts the coefficient vector included in the coefficient vector set so that the average classification error loss defined as a function of the learning pattern and the coefficient vector set is minimized in a high-dimensional space.
好ましくは,観測データであるベクトルをクラスタリングすることにより,複数個のプロトタイプを算出するためのクラスタリング手段をさらに含む. Preferably, a clustering means for calculating a plurality of prototypes by clustering vectors as observation data is further included.
より好ましくは,学習手段は,係数ベクトル集合に含まれる係数ベクトルの各々を所定の初期化方法により初期化するための初期化手段と,学習パターン集合に含まれる学習パターンから1個を抽出するための学習パターン抽出手段と,学習パターン抽出手段により学習パターンが抽出されたことに応答して,係数ベクトル集合に含まれる係数ベクトルを,平均分類誤り数損失が最小となるように調整するための係数ベクトル調整手段と,学習パターン抽出手段による学習パターンの抽出と,係数ベクトル調整手段による係数ベクトルの調整とを,学習パターン集合内の全学習パターンが学習パターン抽出手段により抽出されるまで,繰返し実行させるための第1の繰返し制御手段とを含む. More preferably, the learning means is for initializing each coefficient vector included in the coefficient vector set by a predetermined initialization method, and for extracting one from the learning pattern included in the learning pattern set. And a coefficient for adjusting the coefficient vector included in the coefficient vector set so as to minimize the average classification error number loss in response to the learning pattern being extracted by the learning pattern extracting means. The vector adjustment means, the learning pattern extraction by the learning pattern extraction means, and the coefficient vector adjustment by the coefficient vector adjustment means are repeatedly executed until all learning patterns in the learning pattern set are extracted by the learning pattern extraction means. And a first iterative control means.
さらに好ましくは,学習手段はさらに,第1の繰返し制御手段による繰返しが終了するごとに,学習パターン集合内の学習パターンの並びをシャッフルするためのシャッフル手段と,シャッフル手段によるシャッフルが完了したことに応答して,第1の繰返し制御手段による繰返しを再開させるための第2の繰返し制御手段と,第2の繰返し制御手段による繰返しが所定の回数だけ完了したときに,第2の繰返し制御手段による繰返しを停止させるための停止手段とを含む. More preferably, the learning means further includes a shuffle means for shuffling the arrangement of the learning patterns in the learning pattern set and the shuffling by the shuffle means are completed each time the iteration by the first iteration control means is completed. In response, the second repetition control means for resuming the repetition by the first repetition control means and the second repetition control means when the repetition by the second repetition control means is completed a predetermined number of times. And stop means for stopping the repetition.
学習装置はさらに,初期化手段により得られた係数ベクトルの成分のうち,絶対値が所定のしきい値より小さな成分をゼロに固定するための手段を含んでもよい. The learning device may further include means for fixing a component whose absolute value is smaller than a predetermined threshold among the components of the coefficient vector obtained by the initialization means to zero.
好ましくは,プロトタイプ集合は学習パターン集合であり,初期化手段は,学習パターン集合に含まれる学習パターンを複数個のクラスに分類するための,学習パターンに対する所定の変換後のベクトルの線形和の係数ベクトルを,多クラスサポートベクターマシーンの学習により最適化するためのSVM学習手段と,SVM学習手段により学習パターン集合に対して最適化された係数ベクトルを,線形和の各プロトタイプに対応するカーネルの係数からなる係数ベクトルの初期値として設定するための初期値設定手段とを含む. Preferably, the prototype set is a learning pattern set, and the initialization unit is a coefficient of a linear sum of vectors after a predetermined conversion for the learning pattern for classifying the learning patterns included in the learning pattern set into a plurality of classes. SVM learning means for optimizing a vector by learning a multi-class support vector machine, and coefficient vectors optimized for the learning pattern set by the SVM learning means, the coefficient of the kernel corresponding to each prototype of the linear sum Initial value setting means for setting as an initial value of the coefficient vector consisting of.
より好ましくは,初期化手段はさらに,SVM学習手段により最適化された係数ベクトルに対応する学習パターンのうち,係数ベクトルが零ベクトルと所定の値以上異なるサポートベクトルのみをプロトタイプとして選択し,判別関数を構成するためのプロトタイプ選択手段を含む. More preferably, the initialization unit further selects, as a prototype, only a support vector whose coefficient vector differs from the zero vector by a predetermined value or more among the learning patterns corresponding to the coefficient vector optimized by the SVM learning unit. Includes prototype selection means for constructing.
さらに好ましくは,初期化手段は,学習パターン集合及びプロトタイプ集合とに適合するように予め学習がされていた混合ガウスモデル又は動径基底関数の係数ベクトルを,係数ベクトル集合の初期値として設定するための手段を含む. More preferably, the initialization means sets a coefficient vector of a mixed Gaussian model or a radial basis function that has been previously learned so as to be adapted to the learning pattern set and the prototype set as an initial value of the coefficient vector set. Including the following means.
学習手段は,係数ベクトル集合に含まれる係数ベクトルの各々を所定の初期化方法により初期化するための初期化手段と,学習パターン集合に含まれる学習パターンから1個を抽出するための学習パターン抽出手段と,学習パターン抽出手段により学習パターンが抽出されたことに応答して,係数ベクトル集合に含まれる係数ベクトルと,プロトタイプ集合に含まれるプロトタイプとを,平均分類誤り数損失が最小となるように調整するためのパラメータ調整手段と,学習パターン抽出手段による学習パターンの抽出と,パラメータ調整手段による係数ベクトル及びプロトタイプの調整とを,学習パターン集合内の全学習パターンが学習パターン抽出手段により抽出されるまで,繰返し実行させるための第1の繰返し制御手段とを含んでもよい. The learning means includes an initialization means for initializing each coefficient vector included in the coefficient vector set by a predetermined initialization method, and a learning pattern extraction for extracting one from the learning patterns included in the learning pattern set And the coefficient vector included in the coefficient vector set and the prototype included in the prototype set in response to the learning pattern being extracted by the means and the learning pattern extracting means so that the average classification error number loss is minimized. All the learning patterns in the learning pattern set are extracted by the learning pattern extraction means, including the parameter adjustment means for adjustment, the extraction of the learning pattern by the learning pattern extraction means, and the adjustment of the coefficient vector and the prototype by the parameter adjustment means. Up to the first repeat control means for repeatedly executing .
好ましくは,学習手段はさらに,第1の繰返し制御手段による繰返しが終了するごとに,学習パターン集合内の学習パターンの並びをシャッフルするためのシャッフル手段と,シャッフル手段によるシャッフルが完了したことに応答して,第1の繰返し制御手段による繰返しを再開させるための第2の繰返し制御手段と,第2の繰返し制御手段による繰返しが所定の回数だけ完了したときに,第2の繰返し制御手段による繰返しを停止させるための停止手段とを含む. Preferably, the learning means further responds to the completion of the shuffle by the shuffle means and the shuffle means for shuffling the arrangement of the learning patterns in the learning pattern set each time the iteration by the first iteration control means is completed. The second repetition control means for resuming the repetition by the first repetition control means and the repetition by the second repetition control means when the repetition by the second repetition control means is completed a predetermined number of times. And stop means for stopping.
本発明の第2の局面に係るコンピュータプログラムは,コンピュータを,複数個のクラスのいずれかに入力パターンを分類するためのパターン分類装置の学習装置として機能させる.当該コンピュータプログラムは,コンピュータを,所定の物理量の観測データから得られるベクトルと,当該ベクトルが属するクラスのラベルとからなる学習パターンを要素とする学習パターン集合を記憶するための記憶手段と,複数個のクラスに対しそれぞれ定義される,入力パターンが当該クラスに属する度合いを測る判別関数を,記憶手段に記憶された学習パターン集合に含まれる学習パターンを学習データとして学習するための学習手段として機能させる.判別関数は,入力パターンと,複数個のクラスにそれぞれ対応する,学習パターン集合から得られる複数個のプロトタイプとの間のカーネル演算の線形和により表される関数である.複数個のプロトタイプはプロトタイプ集合を形成する.当該カーネル演算は,入力パターンの空間より高次元の空間に入力パターンを変換する特徴変換を定めたときに,当該特徴変換による変換後の入力パターンと,当該特徴変換による変換後のプロトタイプとの間の内積により定義され,かつ,当該カーネル演算は,プロトタイプ集合内に含まれるプロトタイプ相互間でのカーネル演算により構成されるグラム行列が,どんな個数のどんなプロトタイプに対しても常に正定値行列となるカーネル演算である.複数個のクラスの各々に対して,線形和の各プロトタイプに対応するカーネルの係数は係数ベクトルを形成する.複数個のクラスの各々に対して形成される係数ベクトルは係数ベクトル集合を形成する.学習手段は,高次元の空間において,学習パターンと係数ベクトル集合との関数として定義される平均分類誤り数損失が最小となるように係数ベクトル集合に含まれる係数ベクトルを調整する. The computer program according to the second aspect of the present invention causes a computer to function as a learning device of a pattern classification device for classifying input patterns into any of a plurality of classes. The computer program includes a storage unit for storing a learning pattern set including a learning pattern composed of a vector obtained from observation data of a predetermined physical quantity and a label of a class to which the vector belongs; A discriminant function that is defined for each class and measures the degree to which the input pattern belongs to the class functions as a learning means for learning learning patterns included in the learning pattern set stored in the storage means as learning data . A discriminant function is a function represented by a linear sum of kernel operations between an input pattern and multiple prototypes obtained from a learning pattern set corresponding to multiple classes. Multiple prototypes form a prototype set. When the kernel operation defines a feature transformation that transforms the input pattern into a higher-dimensional space than the input pattern space, the kernel operation is performed between the input pattern after the transformation by the feature transformation and the prototype after the transformation by the feature transformation. This kernel operation is defined as a kernel in which a gram matrix composed of kernel operations between prototypes included in a prototype set is always a positive definite matrix for any number of prototypes. This is an operation. For each of several classes, the kernel coefficients corresponding to each prototype of the linear sum form a coefficient vector. The coefficient vectors formed for each of multiple classes form a coefficient vector set. The learning means adjusts the coefficient vector included in the coefficient vector set so that the average classification error loss defined as a function of the learning pattern and the coefficient vector set is minimized in a high-dimensional space.
以上のように本発明によれば,公知技術である大幾何マージンMCE学習法を,カーネルの線形和の形式を持つ判別関数の線形和係数パラメータに対して適用する.これにより,カーネルを用いて精緻な分類決定境界を形成することが可能となるだけでなく,分類誤り最小化と未知パターンに対する耐性向上とを共に直接的に目指す学習法が定型化される.結果的に,本発明により,パターンの分布構造が複雑である場合においても,学習パターン以外の未知パターンに対する高い認識率が得られる. As described above, according to the present invention, the known large geometric margin MCE learning method is applied to the linear sum coefficient parameter of the discriminant function having the form of the kernel linear sum. This not only makes it possible to form precise classification decision boundaries using the kernel, but also formalizes a learning method that directly aims to minimize classification errors and improve tolerance to unknown patterns. As a result, according to the present invention, even when the pattern distribution structure is complicated, a high recognition rate for unknown patterns other than the learning pattern can be obtained.
以下の説明及び図面では,同一の部品には同一の参照番号を付してある.したがって,それらについての詳細な説明は繰返さない. In the following description and drawings, the same reference numerals are assigned to the same parts. Therefore, the detailed explanation about them will not be repeated.
《第1の実施の形態》
[1 分類器構造]
図1を参照して,入力パターン(観測値)ベクトルx∈Χ(図1に示す全入力パターン空間20)をJ個のクラス(類)C1,C2,…,CJ(図1におけるクラス22,24,…,26及び28)のいずれか一つに割当てる分類問題を考える.以下の説明では,説明を簡略にするために,入力パターンベクトルを単に「入力パターン」と呼び,同様の考えで「学習パターンベクトル」を「学習パターン」と呼ぶ.
<< First Embodiment >>
[1 Classifier structure]
Referring to FIG. 1, the input pattern (observed value) vector X∈kai J-number of classes (total
本実施の形態では,入力パターンxがクラスCjに帰属する度合いを測る判別関数gj(x;Λ)として次式の関数を用いる. In the present embodiment, the following function is used as a discriminant function g j (x; Λ) that measures the degree to which the input pattern x belongs to the class C j .
ここで{pm}M m=1は,N個の学習パターン集合{xn}N n=1から計算されるプロトタイプの集合である(Mはプロトタイプの総数).例えば,これらは学習パターン{xn}N n=1をクラスタリングして得られる,各クラスタの代表ベクトルである.クラスタリングの手法は問わない.なおプロトタイプ集合{pm}M m=1は学習パターン集合{xn}N n=1そのものでもよい(この場合はM=N).τm,jは学習によって調整される実数パラメータである.Λは分類器の学習パラメータ集合であり,今の場合はΛ={τm,j}M m=1 J j=1である.2つの学習パターンx,x´∈Χに対し,K(x,x´)は,入力パターン空間Χから非常に高い次元(しばしば無限次元)の空間(ここでは空間Hとする)への特徴変換φ(・)を適当に定めたときの,2つの特徴変換されたパターンベクトルφ(x),φ(x´)の内積を表し,カーネルとよばれる.カーネルK(・,・)としては様々なものが存在するが,ここでは,M個のプロトタイプで構成される次式のグラム行列 Here, {p m } M m = 1 is a set of prototypes calculated from N learning pattern sets {x n } N n = 1 (M is the total number of prototypes). For example, these are the representative vectors of each cluster obtained by clustering the learning patterns {x n } N n = 1 . Any clustering method can be used. The prototype set {p m } M m = 1 may be the learning pattern set {x n } N n = 1 itself (in this case, M = N). τ m, j is a real parameter adjusted by learning. Λ is the learning parameter set of the classifier. In this case, Λ = {τ m, j } M m = 1 J j = 1 . For two learning patterns x, x'∈Χ, K (x, x ') is a feature transformation from the input pattern space Χ to a very high-dimensional (often infinite) space (here, space H) This represents the inner product of two feature-transformed pattern vectors φ (x) and φ (x ′) when φ (•) is appropriately determined, and is called the kernel. There are various kernels K (・, ・), but here, the Gram matrix of the following formula consisting of M prototypes
(2.1 特徴空間における大幾何マージン最小分類誤り学習の概略)
式(1)は,次式のようにM次ベクトルの内積形式で書き表すことができる.
(2.1 Outline of large geometric margin minimum classification error learning in feature space)
Equation (1) can be expressed in the inner product form of M-order vectors as in the following equation.
更に,後述する高次元空間Hにおける学習と対応させるため,ベクトルk(x)に対して線形変換を施すことを考える.まず式(2)のグラム行列K(ここでは正定値であると仮定)のコレスキー分解(G.H. Golub and C. F. Van Loan, Matrix Computations 2nd Ed., The Johns Hopkins University Press, 1989.)を考える. Furthermore, in order to correspond to learning in a high-dimensional space H described later, it is considered that linear transformation is performed on the vector k (x). First, consider the Cholesky decomposition (G.H. Golub and C.F. Van Loan, Matrix Computations 2nd Ed., The Johns Hopkins University Press, 1989.) of the gram matrix K in Equation (2) (assuming positive definite value here).
判別関数の集合{gj(x;Λ)}J j=1により分類決定境界が定まるが,この境界はパターン空間Xのみならず特徴空間Bにおいても形成される.図2を参照して,ここでは特徴空間Bにおいて形成される分類決定境界Γを考える.式(10)のベクトル変換β(・)により分類決定境界Γ付近に写され,しかも上記判別関数により正しく分類される学習パターンを1つ考え,これをxoとする.ベクトルβ(xo)と境界Γとの(特徴空間Bにおける)ユークリッド距離rは,文献(H. Watanabe, S. Katagiri, K. Yamada, E. McDermott, A. Nakamura, S. Watanabe, and M. Ohsaki, “Minimum error classification with geometric margin control,” in Proc. IEEE ICASSP, pp. 2170-2173, Mar. 2010.)を参考にして,次式で与えられる. A classification decision boundary is determined by a set of discriminant functions {g j (x; Λ)} J j = 1. This boundary is formed not only in the pattern space X but also in the feature space B. Referring to FIG. 2, consider the classification decision boundary Γ formed in the feature space B here. Consider one learning pattern that is copied in the vicinity of the classification decision boundary Γ by the vector transformation β (·) in equation (10) and that is correctly classified by the discriminant function, and this is x o . The Euclidean distance r (in the feature space B) between the vector β (x o ) and the boundary Γ is described in the literature (H. Watanabe, S. Katagiri, K. Yamada, E. McDermott, A. Nakamura, S. Watanabe, and M Ohsaki, “Minimum error classification with geometric margin control,” in Proc. IEEE ICASSP, pp. 2170-2173, Mar. 2010.).
なお,上式(12)は係数ベクトルαy,αiを含むため,このままではグラム行列Kのコレスキー分解の計算及び下三角行列の逆行列計算が必要となる.プロトタイプ数Mが大きい場合,このことは数値的不安定性をもたらす(特に学習パターン集合をプロトタイプ集合と考える場合はこの問題が深刻となる).そこで本発明では,式(9)(10)を式(12)に代入することにより,幾何マージンrを係数ベクトル集合{τj}J j=1の関数形式として次式により書き直し,これを学習に用いる. Since the above equation (12) includes coefficient vectors α y and α i , calculation of Cholesky decomposition of the Gram matrix K and inverse matrix calculation of the lower triangular matrix are necessary as it is. This leads to numerical instability when the number of prototypes M is large (especially when the learning pattern set is considered as a prototype set, this problem becomes serious). Therefore, in the present invention, by substituting Equations (9) and (10) into Equation (12), the geometric margin r is rewritten as a functional form of the coefficient vector set {τ j } J j = 1 by the following equation, and this is learned. Used for.
そこで,各学習パターンxに対して,幾何マージンrの符号を反転させた
Therefore, the sign of the geometric margin r was inverted for each learning pattern x.
続いて,幾何マージン型誤分類測度Dy(x;Λ)に対する平滑化分類誤り数損失を次式で定める. Next, the smoothed classification error number loss for the geometric margin type misclassification measure D y (x; Λ) is determined by the following equation.
式(15)はDy(x;Λ)に関して単調増加のロジスティックシグモイド関数であり,パラメータζが大きくなるにつれてシグモイド関数の傾きが大きく(急に)なる.ζ→∞の極限において,Dy(x;Λ)は,Dy(x;Λ)>0すなわち誤分類の場合に値1を,Dy(x;Λ)<0すなわち正分類の場合に値0をとる.すなわち,平滑化分類誤り数損失は,誤分類カウントと直接的に結びついているだけでなく,学習パラメータ集合Λに関して微分可能である.更に,式(15)の値を小さくするような学習パラメータ集合Λの調整は,分類誤り数を減少させるのみならず,Dy(x;Λ)を負の方向に増大させるため,正分類された学習パターンの(空間Bにおける)幾何マージンが増大し,未知のパターンに対する耐性を向上させることができる.
Equation (15) is a logistic sigmoid function that increases monotonously with respect to D y (x; Λ), and the slope of the sigmoid function increases (steeply) as the parameter ζ increases. In the limit of ζ → ∞, D y (x; Λ) is 1 when D y (x; Λ)> 0, that is, misclassification, and D y (x; Λ) <0, ie, when it is a correct classification. Takes the
学習では,N個の学習パターンからなる学習パターン集合ΩN={(xn,yn)}N n=1(ynは学習パターンxnの属する正しいクラスの指標)から構成される次式の経験的平均損失を最小にする学習パラメータ集合Λを求める. In learning, the following equation is formed from a learning pattern set Ω N = {(x n , y n )} N n = 1 (y n is an index of a correct class to which the learning pattern x n belongs) consisting of N learning patterns. Find the learning parameter set Λ that minimizes the empirical average loss of.
(2.2 システム構成及び判別関数の学習の計算手順)
2.2.1 システム構成
図3を参照して,本実施の形態に係るシステム40は,入力音声46が,予め知られている複数の話者のうちの誰かを識別するためのものである.このシステム40は,話者識別のための判別関数を以下に説明する手順にしたがって学習する判別関数学習装置42と,判別関数学習装置42により学習された判別関数を何らかの形で話者判別装置48に伝達する判別関数伝達媒体44と,判別関数伝達媒体44により伝達された判別関数を用い,入力音声46の話者識別を行ない,話者判別結果50を出力する話者判別装置48とを含む.一般的に,判別関数学習装置42と話者判別装置48とは別々の装置である.すなわち,判別関数学習装置42で学習された判別関数は,ハードディスク,半導体メモリ等の記憶媒体,通信媒体を介して話者判別装置48に配布される.したがって話者判別装置48は判別関数学習装置42と同じ場所にあることは必ずしも想定されていない.
(2.2 Calculation procedure for learning system configuration and discriminant function)
2.2.1 System Configuration Referring to FIG. 3, in
判別関数学習装置42は,学習のための発話データを記憶する第1の記憶装置60と,第1の記憶装置60に記憶された発話データから所定の特徴量ベクトルを抽出し,話者判別のための学習パターンとして出力する特徴量抽出部62と,特徴量抽出部62により抽出された学習パターン集合を記憶する第2の記憶装置64と,第2の記憶装置64に記憶された学習パターン集合を学習のためのサンプルデータとして,後述する手順にしたがって話者の判別関数を学習し判別関数伝達媒体44に与えるための学習装置66とを含む.
The discriminant
一方,話者判別装置48は,判別関数伝達媒体44により伝達された話者別の判別関数を記憶する判別関数記憶部80と,判別関数学習装置42の特徴量抽出部62と同じ手法により入力音声46から所定の特徴量ベクトルを抽出するための特徴量抽出部82と,特徴量抽出部82により抽出された特徴量ベクトルに判別関数記憶部80に記憶された判別関数を適用し,複数の話者のうち1人を入力音声46の話者として判別し,話者判別結果50を出力する話者判別部84とを含む.
On the other hand, the
後述するように,判別関数学習装置42及び話者判別装置48はいずれも記憶装置及び判別関数伝達媒体44とのデータ交換機能を備えたコンピュータハードウェア,及びそのコンピュータハードウェア上で実行されるコンピュータソフトウェアにより実現される.本明細書では,以下,判別関数学習装置42を実現するためのコンピュータプログラムの制御構造について説明する.
As will be described later, each of the discriminant
2.2.2 計算手順
図4及び図5を参照して,本実施の形態に係る学習を実現するためのプログラムは,以下の各ステップを有する.
1.(ステップ110)
正定値カーネルK(・,・)を用意する.
2.(ステップ112)
プロトタイプ集合{pm}M m=1を用意する.プロトタイプ集合は予め準備しておくこともできるが,本実施の形態では,学習パターン集合{xn}N n=1をクラスタリングすることによりプロトタイプ集合を求める.
3.(ステップ114及び116)
各クラスCjに対して,M次係数ベクトルτ(0) jを初期化する(j=1,2,…,J).
4.(ステップ118)
係数ベクトルτの適応的学習を通じた繰返回数を示す繰返制御変数tをt=0に初期化する.同様に,全学習パターンを用いた繰返しの数を示すエポック回数を示す変数eの上限値Eを設定する.
5.(ステップ120)
係数ベクトルτについての適応的学習を行なう.この詳細については図5を参照して後述する.ステップ120の処理の結果,各クラスCj(j=1,2,…,J)の各々について,判別関数gj(x)を構成するために必要な係数ベクトルτj(j=1,2,…,J)を得ることができる.
6.(ステップ122及び124)
ステップ120の処理により最終的に得られた係数ベクトルτj(j=1,2,…,J)から,次式に従ってクラスCj(j=1,2,…,J)の判別関数を構成する.
2.2.2 Calculation Procedure With reference to FIG. 4 and FIG. 5, the program for realizing learning according to the present embodiment has the following steps.
1. (Step 110)
Prepare a positive definite kernel K (・, ・).
2. (Step 112)
Prepare a prototype set {p m } M m = 1 . Although the prototype set can be prepared in advance, in this embodiment, the prototype set is obtained by clustering the learning pattern set {x n } N n = 1 .
3. (
For each class C j , the M-th order coefficient vector τ (0) j is initialized (j = 1, 2,..., J).
4. (Step 118)
A repetition control variable t indicating the number of repetitions through adaptive learning of the coefficient vector τ is initialized to t = 0. Similarly, an upper limit value E of a variable e indicating the number of epochs indicating the number of repetitions using all learning patterns is set.
5. (Step 120)
Perform adaptive learning on the coefficient vector τ. Details of this will be described later with reference to FIG. As a result of the processing in
6). (
From the coefficient vector τ j (j = 1, 2,..., J) finally obtained by the processing of
7.(ステップ126)
ステップ122及び124の処理で得られた各クラスの判別関数gj(x)(j=1,2,…,J)を所定の記憶装置に記憶して処理を終了する.
図5を参照して,図4に示すステップ120の係数ベクトルτの適応的学習処理は以下のステップを含む.
すなわち,係数ベクトルτの適応的学習処理では,エポック変数e=0,1,…,Eに対して以下の処理152を繰返す(ステップ150).
処理152は,全学習パターンに対して以下の処理162を繰返すステップ160と,ステップ160の処理が終了したのち,学習パターン集合ΩNにおける学習パターンの並び順をシャッフルするステップ164とを含む.
処理162は以下のサブステップを含む.
(a)(サブステップ170)
学習パターン集合ΩNから,1個の学習パターン(xn,yn)を取り出す.
(b)(サブステップ172)
式(7)に従い,M次ベクトルk(xn)を構成する.
(c)(サブステップ174及び176)
各クラスCj(j=1,2,…,J)に対して,判別関数値gjを以下の式に従い計算する(j=1,2,…,J).
7). (Step 126)
The discriminant function g j (x) (j = 1, 2,..., J) of each class obtained in the processes of
Referring to FIG. 5, the adaptive learning process of coefficient vector τ in
That is, in the adaptive learning process of the coefficient vector τ, the following
The
(A) (Substep 170)
One learning pattern (x n , y n ) is extracted from the learning pattern set Ω N.
(B) (Substep 172)
Construct M-order vector k (x n ) according to equation (7).
(C) (
For each class C j (j = 1, 2,..., J), a discriminant function value g j is calculated according to the following formula (j = 1, 2,..., J).
学習パターンxnに対するbest−incorrectクラスCinを次式にしたがって求める.
The best-indirect class C in for the learning pattern x n is obtained according to the following equation.
初期のMCE学習定式化における関数マージン型誤分類測度dynを次式にしたがって計算する.
The function margin type misclassification measure d yn in the initial MCE learning formulation is calculated according to the following equation.
幾何マージン型誤分類測度値Dynを次式に従って計算する.
The geometric margin type misclassification measure value D yn is calculated according to the following equation.
次式に従って係数ベクトルτjを更新する(j=1,2,…,J).
The coefficient vector τ j is updated according to the following equation (j = 1, 2,..., J).
(h)(サブステップ186)
t=t+1と更新して,対象となっている学習パターンに対する処理を終了する.
以上のような制御構造を有するコンピュータプログラムをコンピュータで実行させることにより,第1の実施の形態に係る判別関数の学習が完了する.
(H) (Substep 186)
Update t = t + 1 and end the processing for the target learning pattern.
Learning of the discriminant function according to the first embodiment is completed by causing the computer program having the above control structure to be executed by the computer.
(2.3 初期化(ステップ116))
本実施の形態では,上記コンピュータプログラムのステップ114及び116における初期化手法として,公知の多クラスサポートベクターマシーン(以下「MSVM」と略記)を採用する.他手法も可能であり,それらについては変形例として後述する.
(2.3 Initialization (Step 116))
In this embodiment, a known multi-class support vector machine (hereinafter abbreviated as “MSVM”) is adopted as an initialization method in
再び図2を参照して,MSVMでは,カーネルを定義する際にも現れる,非常に高い次元の空間34(これを空間Hとする.)への特徴変換φ(・)を導入し,空間Hにおける線形判別関数を扱う.この線形判別関数は次式で与えられる. Referring to FIG. 2 again, MSVM introduces a feature transformation φ (•) into a very high-dimensional space 34 (this space is referred to as space H) that appears when defining a kernel. Handles linear discriminant functions in. This linear discriminant function is given by
上記の制約条件付き最適化問題はラグランジュ乗数法によって解くことができ,結果的にN個のJ次元ベクトル集合{〜τn}N n=1に関する次式の凸最適化問題を解くことに帰着する.(この式中の「〜」は,数式イメージでは「τ」の直上に記載されている.) The above optimization problem with constraints can be solved by the Lagrange multiplier method, resulting in solving the convex optimization problem of the following equation for N J-dimensional vector sets { ~ τ n } N n = 1 Do it. (" ~ " In this expression is written directly above "τ" in the mathematical image.)
本実施の形態において,上述のMSVMをそのまま初期化として採用する場合,プロトタイプ集合を学習パターン集合そのものとする必要がある.したがって,特に学習パターンの総数が非常に多い場合,本実施の形態におけるMCE学習を非常に高い次元で行なわなければならず,計算量の爆発と数値的不安定性をもたらす.この高次元化の問題を回避するために,(1)上記のMSVMで得られたサポートパターンのみをプロトタイプとする方法,及び(2)プロトタイプ集合を学習パターン集合としたMSVM法,のいずれかを適用することも可能である.以下,これら変形例についてその詳細を説明する. In this embodiment, when the above-described MSVM is used as it is as an initialization, the prototype set must be the learning pattern set itself. Therefore, especially when the total number of learning patterns is very large, the MCE learning in this embodiment must be performed in a very high dimension, resulting in a computational complexity explosion and numerical instability. In order to avoid this problem of higher dimensions, either (1) a method using only the support pattern obtained by the above-mentioned MSVM as a prototype, or (2) an MSVM method using the prototype set as a learning pattern set is used. It is also possible to apply. The details of these modifications are described below.
〈変形例1〉
2.3.1 サポートパターンのみをプロトタイプとする方法
前記したMSVMでは,式(20)の凸最適化問題を解いて得られる係数ベクトル集合{〜τn}N n=1に含まれる係数ベクトルが,いくつかの(しばしば多くの)nに対して零ベクトル(又は零ベクトルに近いベクトル)となる.これは対応する学習パターンxnが分類境界から遠く離れた正解クラスの領域に存在していることを意味しており,そのような学習パターンは分類境界の形成に対して貢献度が低いと考えられる.零ベクトルに近くない〜τnに対応する学習パターンxnはサポートパターン又はサポートベクターとよばれる.よって,すべてのサポートパターンの集合をプロトタイプ集合{pm}M m=1として,式(1)の判別関数を構成してもよい.この場合,Mはサポートパターンの総数となる.具体的には,係数ベクトルのノルムの絶対値があるしきい値以上となる学習パターンのみを用いればよい.
<
2.3.1 MSVM only was the method and the prototype support pattern, the coefficient vector included in the coefficient vector set {~ τ n} N n = 1 obtained by solving a convex optimization problem of Equation (20) , The zero vector (or a vector close to the zero vector) for some (often many) n. This means that the corresponding learning pattern x n exists in the correct class area far from the classification boundary, and such a learning pattern has a low contribution to the formation of the classification boundary. It is possible. The learning pattern x n corresponding to τ n that is not close to the zero vector is called a support pattern or support vector. Therefore, the discriminant function of Equation (1) may be configured with the set of all support patterns as the prototype set {p m } M m = 1 . In this case, M is the total number of support patterns. Specifically, it is only necessary to use a learning pattern in which the absolute value of the norm of the coefficient vector exceeds a certain threshold.
〈変形例2〉
2.3.2 プロトタイプ集合を学習パターン集合としたMSVM法
この初期化手法の実装には,まず学習パターン集合{xn}N n=1を所属クラス毎にクラスタリングしてプロトタイプ集合{pm}M m=1を得て(クラス毎のクラスタリングであるため各pmにはその所属するクラス番号ymが付与されている.),そして式(19),(20),(22)及び(23)において,{xn}N n=1を{pm}M m=1に,{yn}N n=1を{ym}M m=1に,NをMに,それぞれ置き換えるだけで良い.こうして得られる判別関数である式(23)が本実施の形態で採用する式(1)と同型となる.クラスタリングの手法は問わないが,例えばK−means法を用いる場合の手法は非特許文献2で提案されている(ただし非特許文献2は2クラス分類を対象としたSVMを扱っている).
<Modification 2>
2.3.2 MSVM Method Using Prototype Set as Learning Pattern Set To implement this initialization method, the learning pattern set {x n } N n = 1 is first clustered for each class and the prototype set {p m } to obtain M m = 1 (class number y m for each p m for a clustering for each class to which it belongs has been granted.), and formula (19), (20), (22) and ( 23), {x n } N n = 1 is replaced by {p m } M m = 1 , {y n } N n = 1 is replaced by {y m } M m = 1 , and N is replaced by M. OK. Equation (23), which is the discriminant function thus obtained, is the same type as Equation (1) adopted in this embodiment. The clustering method is not limited, but for example, a method using the K-means method has been proposed in Non-Patent Document 2 (however, Non-Patent Document 2 deals with SVM targeting two-class classification).
(2.4 本実施の形態の効果に対する理論的考察)
本実施の形態で採用する判別関数である式(1)は,前記MSVMの定式化と同じように,高次元空間Hへの特徴変換写像φ(・)を使って次式のような空間H上の線形判別関数の形式で書き表すこともできる.
(2.4 Theoretical consideration on the effect of this embodiment)
Equation (1), which is a discriminant function employed in the present embodiment, is obtained by using a feature transformation map φ (•) to a high-dimensional space H, as in the MSVM formulation, as a space H It can also be written in the form of the linear discriminant function above.
2.1で議論したように,上式(27)の左辺はM次元空間Bにおける幾何マージンを表す.2.1での議論と同様の議論を高次元空間Hにおける線形判別関数である式(24)に当てはめることにより,式(27)の右辺が空間Hにおける幾何マージンを表していることもわかる.すなわち式(27)は,高々有限次元の空間Bにおける幾何マージンと非常に高い次元の(しばしば無限次元の)特徴空間Hにおける幾何マージンとが一致することを示している.その結果,有限次元である係数ベクトル集合{τj}J j=1を調整する本実施の形態の大幾何マージンMCE学習が,カーネルに付随する非常に高い次元の特徴空間における大幾何マージンMCE学習にもなっていることが保証されている. As discussed in 2.1, the left side of equation (27) represents the geometric margin in M-dimensional space B. By applying the same argument as the argument in 2.1 to Expression (24), which is a linear discriminant function in the high-dimensional space H, it can also be seen that the right side of Expression (27) represents the geometric margin in the space H. In other words, equation (27) indicates that the geometric margin in the space B of at most finite dimension coincides with the geometric margin in the feature space H of very high dimension (often infinite dimension). As a result, the large geometric margin MCE learning of the present embodiment for adjusting the coefficient vector set {τ j } J j = 1 having a finite dimension is the large geometric margin MCE learning in the very high dimensional feature space attached to the kernel. It is guaranteed that
式(27)の右辺からわかるように,2クラス対の係数ベクトルの差のノルム||wy−wI||を小さくすることが,高次元空間Hにおける幾何マージンの増大化に対応する.ところが,MSVMの学習目的関数である式(19)は,差ではなく係数ベクトルそのもののノルム||wj||の2乗総和ΣJ j=1||wj||2の最小化を目指している.この総和を小さくしても,各クラスに関する係数ベクトル個々のノルムが小さくなる保証はない.更にまた,本来目指すべき各クラス対の係数ベクトル差のノルムが小さくなることも保証されない.つまりMSVMにおける幾何マージン増大化は不十分であることがわかる.これに対し本実施の形態は,式(27)の関係から,高々有限次元の係数ベクトルτjの調整によって空間Hにおける幾何マージンを直接的に増大させることができる.またMSVMは,式(19)において,学習パターンxnに対する損失であるスラック変数ξnが分類誤り数を直接的に表しておらず,学習パラメータ最適化が分類誤り最小化の最終目的に対して直接的ではない.しかし本実施の形態ではMCE学習を用いており,学習パラメータ最適化が分類誤り最小化の最終目的に対して直接的である. As can be seen from the right side of Equation (27), reducing the norm || w y −w I || of the difference between the coefficient vectors of the two class pairs corresponds to an increase in the geometric margin in the high-dimensional space H. However, Equation (19), which is the learning objective function of MSVM, aims to minimize the square sum Σ J j = 1 || w j || 2 of the norm || w j || ing. Even if this sum is made small, there is no guarantee that the norm of each coefficient vector for each class will be small. Furthermore, it is not guaranteed that the norm of the coefficient vector difference of each class pair that should be aimed at will be small. In other words, it can be seen that the increase in geometric margin in MSVM is insufficient. On the other hand, in the present embodiment, the geometric margin in the space H can be directly increased by adjusting the coefficient vector τ j having at most a finite dimension from the relationship of the equation (27). Also, in MSVM, in equation (19), the slack variable ξ n, which is a loss for the learning pattern x n , does not directly represent the number of classification errors, and the learning parameter optimization is performed for the final purpose of classification error minimization. Not direct. However, this embodiment uses MCE learning, and learning parameter optimization is straightforward for the final goal of classification error minimization.
すなわち,本実施の形態においては,カーネルを用いているため判別関数がMSVMと同様の高い表現能力を有している.しかも有限次元パラメータの調節を介して,分類誤り率の最小化とカーネルに付随する高次元空間における幾何マージンの増大化とが共に実現可能である.言い換えれば,本実施の形態により,複雑な分類タスクにおいて,未知パターンに対する高い認識率が実現できる. In other words, in this embodiment, since the kernel is used, the discriminant function has the same high expression ability as MSVM. Moreover, both the minimization of the classification error rate and the increase of the geometric margin in the high-dimensional space associated with the kernel can be realized by adjusting the finite-dimensional parameters. In other words, this embodiment can achieve a high recognition rate for unknown patterns in complex classification tasks.
[3 さらなる変形例]
(3.1 混合ガウスモデル及び動径基底関数ネットワークによる初期化)
カーネルとして式(3)のガウス関数を用いた場合,上記実施の形態における判別関数である式(1)は,パラメータの集合{τm,j}M m=1 J j=1とプロトタイプ集合{pm}M m=1とを適当に定めることにより,混合ガウスモデル(Gaussian Mixture Model:GMM)又は動径基底関数(Radial Basic Function:RBF)ネットワーク(C. M. Bishop(元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇監訳),パターン認識と機械学習,シュプリンガー・ジャパン,東京,2007.)と同じ形をしていることがわかる.従来,GMMに関しては,最尤推定法又は初期のMCE学習法によりパラメータ推定が行なわれていた.RBFネットワークに関しては,最小2乗法又は初期のMCE学習法により学習がなされていた.
[3 Further modifications]
(3.1 Initialization with mixed Gaussian model and radial basis function network)
When the Gaussian function of Expression (3) is used as the kernel, Expression (1), which is the discriminant function in the above embodiment, is obtained by using the parameter set {τ m, j } M m = 1 J j = 1 and the prototype set { p m } M m = 1 is appropriately determined, thereby allowing a mixed Gaussian model (GMM) or a radial basic function (RBF) network (CM Bishop (Hiroshi Motoda, Takio Kurita, Higuchi) Tomoyuki, Yuji Matsumoto, Noboru Murata), pattern recognition and machine learning, Springer Japan, Tokyo, 2007.). Conventionally, parameter estimation has been performed for the GMM by the maximum likelihood estimation method or the initial MCE learning method. The RBF network was learned by the least square method or the initial MCE learning method.
そこで,これらの既学習のGMM又はRBFネットワークを,2.2.2において開示したアルゴリズムのサブステップ114及び116における初期化として採用してもよい.こうすることにより,これらの古くから馴染み深い分類器モデルに対して,高次元空間における幾何マージン増大化の概念が導入され,複雑なパターン分布に対する分類精度の向上が実現される. Therefore, these learned GMM or RBF networks may be employed as initialization in the sub-steps 114 and 116 of the algorithm disclosed in 2.2.2. In this way, the concept of increasing geometric margins in high-dimensional space is introduced to these familiar classifier models from long ago, and improvement of classification accuracy for complex pattern distribution is realized.
(3.2 値が0であるパラメータの固定)
2.2.2において開示したアルゴリズムのステップ114及び116における初期化において,係数の集合{τ(0) m,j}M m=1 J j=1の中の係数ベクトルのいくつかが(しばしば多くが)0(又は0に近い値)となる.本実施の形態では,図4及び図5に示すコンピュータプログラムにおいて,そのようなパラメータを0に固定するような修正を施してもよい.
(3.2 Fixed parameter with 0 value)
Upon initialization in
(3.3 係数ベクトル集合{αj}J j=1の調整)
2.2.2において開示したアルゴリズムは,係数ベクトル集合{τj}J j=1の調整による式(13)の幾何マージンの増大化を行なう.しかし,本発明はそのような実施の形態には限定されない.例えば,係数ベクトル集合{αj}J j=1の調整による式(12)の増大化を行なってもよい.その際に大幾何マージンMCE学習で用いられる誤分類測度は
(3.3 Adjustment of coefficient vector set {α j } J j = 1 )
The algorithm disclosed in 2.2.2 increases the geometric margin of equation (13) by adjusting the coefficient vector set {τ j } J j = 1 . However, the present invention is not limited to such an embodiment. For example, the equation (12) may be increased by adjusting the coefficient vector set {α j } J j = 1 . The misclassification measure used in large geometric margin MCE learning is
(3.4 プロトタイプの調整)
2.2.2において開示した制御構造を持つコンピュータプログラムは,式(1)の判別関数におけるパラメータの集合{τm,j}M m=1 J j=1のみを調整する.しかし,本発明はそのような実施の形態には限定されない.例えば,この係数のみならず,プロトタイプ集合{pm}M m=1をも大幾何マージンMCE学習法に基づいて調整しても良い.こうすることで,幾何マージン増大化及び分類誤り確率最小化の目的に対して最適なプロトタイプを自動的に学習することが可能となり,分類器の分類精度が更に向上する.
(3.4 Prototype adjustment)
The computer program having the control structure disclosed in 2.2.2 adjusts only the set of parameters {τ m, j } M m = 1 J j = 1 in the discriminant function of Equation (1). However, the present invention is not limited to such an embodiment. For example, not only this coefficient but also the prototype set {p m } M m = 1 may be adjusted based on the large geometric margin MCE learning method. This makes it possible to automatically learn the optimal prototype for the purpose of increasing the geometric margin and minimizing the classification error probability, further improving the classification accuracy of the classifier.
プロトタイプをも調整するアルゴリズムは,図4及び図5に示したプロトタイプ集合{pm}M m=1,k(xn)及びグラム行列Kをそれぞれ繰返し番号tの添字のついたプロトタイプ集合{p(t) m}M m=1,k(t)(xn),及びグラム行列K(t)に置き換え,更に図5のサブステップ184においてプロトタイプに関する更新式を付け加えるだけで良い.ここで,k(t)(x)及びK(t)は,それぞれ式(7)及び式(2)において,pm=p(t) m(m=1,…,M)としたものである.例えば式(3)のガウシアンカーネルを用いた場合の学習アルゴリズムを採用したものが,後述の第3の実施の形態である.
The algorithm for adjusting the prototype also includes a prototype set {p m } M m = 1 , k (x n ) and a gram matrix K shown in FIG. 4 and FIG. (t) m } M m = 1 , k (t) (x n ), and the Gram matrix K (t) are replaced. Further, in
[第2の実施の形態]
図6を参照して,この発明の第2の実施の形態を実現するためのコンピュータプログラムは以下のような制御構造を有する.
1.(ステップ110)
正定値カーネルK(・,・)を用意する.
2.(ステップ112)
プロトタイプ集合{pm}M m=1を用意する.必要ならば,学習パターン集合{xn}N n=1をクラスタリングすることによりプロトタイプ集合を求める.
3.(ステップ210)
式(2)に従ってグラム行列Kを構成し,更に式(8)のコレスキー分解を行ない,下三角行列Lを得る.
4.(ステップ114及び116)
各クラスCjに対して,M次係数ベクトルτ(0) jを初期化する(j=1,…,J).
5.(ステップ212及び214)
各クラスCjに対して,M次係数ベクトルα(0) jをα(0) j=LTτ(0) jにより計算する(j=1,…,J).
6.(ステップ118)
繰返番号を表す変数tを0に設定する.またエポック回数eの上限値Eを設定する.
7.(ステップ220)
e=0,1,…,Eに対して,係数ベクトルαの適応的学習処理を実行する.この処理の詳細については図7を参照して後述する.
8.(ステップ222及び224)
最終的に得られた係数ベクトルαjから,次式に従ってクラスCjの判別関数gj(x;Λ)を構成する(j=1,…,J).
[Second Embodiment]
Referring to FIG. 6, the computer program for realizing the second embodiment of the present invention has the following control structure.
1. (Step 110)
Prepare a positive definite kernel K (・, ・).
2. (Step 112)
Prepare a prototype set {p m } M m = 1 . If necessary, a prototype set is obtained by clustering the learning pattern set {x n } N n = 1 .
3. (Step 210)
A gram matrix K is constructed according to equation (2), and Cholesky decomposition of equation (8) is further performed to obtain a lower triangular matrix L.
4. (
For each class C j , the M-th order coefficient vector τ (0) j is initialized (j = 1,..., J).
5. (
For each class C j , the M-th order coefficient vector α (0) j is calculated by α (0) j = L T τ (0) j (j = 1,..., J).
6). (Step 118)
Set the variable t representing the repetition number to 0. Also set the upper limit E of the number of epochs e.
7). (Step 220)
The adaptive learning process of the coefficient vector α is executed for e = 0, 1,. Details of this processing will be described later with reference to FIG.
8). (
A discriminant function g j (x; Λ) of class C j is constructed from the finally obtained coefficient vector α j according to the following equation (j = 1,..., J).
9.(ステップ126)
このようにして各クラスCjに関する判別関数gj(x)が得られたら,それらを所定の記憶装置に記憶して処理を終了する.
図7を参照して.図6のステップ220で行なわれるαjに関する適応的学習処理を実現するプログラムは,以下のような制御構造を持つ.
この処理は,e=0,1,…,Eに対して以下の処理252を実行するステップ250を含む.
処理252は,学習パターン集合{xn}N n=1の全ての要素に対して以下の処理262を実行するステップ260と,ステップ260の処理が完了した後,学習パターン集合ΩN内の学習パターンの並び順をシャッフルするステップ264とを含む.
処理262は,以下のサブステップを含む.
(a)(サブステップ170)
学習パターン集合ΩNから,1個の学習パターン{xn,yn}を取り出す.
(b)(サブステップ172)
式(7)に従い,M次ベクトルk(xn)を構成する.
(c)(サブステップ270)
連立1次方程式:Lβ=k(xn)をβについて解き,解βnを得る.
(d)(サブステップ272及び274)
各クラスCjに対して,判別関数値gjをgj={α(t) j}Tβnにしたがい計算する(j=1,…,J).
(e)(サブステップ178)
学習パターンxnに対するbest-incorrectクラスCinをgin=maxJ j,j≠yngjに従って求める.
(f)(サブステップ180)
dyn=−gyn+ginを計算する.
(g)(サブステップ182)
幾何マージン型誤分類測度値を次式に従って計算する.
9. (Step 126)
When the discriminant function g j (x) for each class C j is obtained in this way, they are stored in a predetermined storage device and the process is terminated.
See FIG. The program for realizing the adaptive learning process for α j performed in
This process includes a
The
(A) (Substep 170)
One learning pattern {x n , y n } is extracted from the learning pattern set Ω N.
(B) (Substep 172)
Construct M-order vector k (x n ) according to equation (7).
(C) (Sub-step 270)
Solve the simultaneous linear equations: Lβ = k (x n ) for β and get the solution β n .
(D) (
For each class C j , the discriminant function value g j is calculated according to g j = {α (t) j } T β n (j = 1,..., J).
(E) (Substep 178)
Find the best-incorrect class C in for the learning pattern x n according to g in = max J j, j ≠ yn g j .
(F) (Substep 180)
d yn = -g yn + g in is calculated.
(G) (Substep 182)
Calculate the geometric margin misclassification measure according to the following formula.
次式に従って係数ベクトルαjを更新し(j=1,…,J),その後変数tの値を1インクリメントする.
The coefficient vector α j is updated according to the following equation (j = 1,..., J), and then the value of the variable t is incremented by 1.
《第3の実施の形態》
例えば式(3)のガウシアンカーネルを用いた場合の学習アルゴリズムは,ここに説明する第3の実施の形態のアルゴリズムとなる.以下,図8及び図9を参照してこのアルゴリズムを実現するコンピュータプログラムの制御構造について説明する.
1.(ステップ110)
式(3)のガウシアンカーネルK(・,・)を用意する.
2.(ステップ112)
プロトタイプ集合{p(0) m}M m=1を用意する.必要ならば,学習パターン集合{xn}N n=1をクラスタリングすることによりプロトタイプ集合を求める.
3.(ステップ114及び116)
各クラスCjに対して,M次係数ベクトルτ(0) jを初期化する(j=1,…,J).
4.(ステップ118)
繰返番号を表す変数tを0に設定する.またエポック回数eの上限値Eを設定する.
5.(ステップ300)
e=0,1,…,Eに対して,係数ベクトルτとpmの適応的学習処理を実行する.この処理の詳細については図9を参照して後述する.
6.(ステップ302及び304)
最終的に得られた係数ベクトル集合{τj}J j=1及びプロトタイプ集合{pm}M m=1から,次式に従ってクラスCjの判別関数gj(x)を構成する(j=1,…,J).
<< Third Embodiment >>
For example, the learning algorithm when the Gaussian kernel of Equation (3) is used is the algorithm of the third embodiment described here. The control structure of a computer program that implements this algorithm will be described below with reference to FIGS.
1. (Step 110)
Prepare Gaussian kernel K (・, ・) of equation (3).
2. (Step 112)
Prepare the prototype set {p (0) m } M m = 1 . If necessary, a prototype set is obtained by clustering the learning pattern set {x n } N n = 1 .
3. (
For each class C j , the M-th order coefficient vector τ (0) j is initialized (j = 1,..., J).
4). (Step 118)
Set the variable t representing the repetition number to 0. Also set the upper limit E of the number of epochs e.
5. (Step 300)
e = 0,1, ..., with respect to E, performing an adaptive learning process of the coefficient vector τ and p m. Details of this processing will be described later with reference to FIG.
6). (
From the finally obtained coefficient vector set {τ j } J j = 1 and prototype set {p m } M m = 1 , a discriminant function g j (x) of class C j is constructed according to the following equation (j = 1, ..., J).
9.(ステップ126)
このようにして各クラスCjに関する判別関数gj(x)が得られたら,それらを所定の記憶装置に記憶して処理を終了する.
9. (Step 126)
When the discriminant function g j (x) for each class C j is obtained in this way, they are stored in a predetermined storage device and the process is terminated.
図9を参照して,図8のステップ300で行なわれる係数ベクトルτとpmの適応的学習処理を実現するプログラムは,以下のような制御構造を持つ.
この処理は,e=0,1,…,Eに対して以下の処理312を実行するステップ310を含む.
処理312は,学習パターン集合{xn}N n=1の全ての要素に対して以下の処理322を実行するステップ320と,ステップ320の処理が完了した後,学習パターン集合ΩN内の学習パターンの並び順をシャッフルするステップ324とを含む.
処理322は,以下のサブステップを含む.
(a)(サブステップ170)
学習パターン集合ΩNから,1個の学習パターン{xn,yn}を取り出す.
(b)(サブステップ330)
式(7)に従い,M次ベクトルk(t)(xn)を構成する.
(c)(サブステップ332及び334)
各クラスCjに対して,判別関数値gjをgj={τ(t) j}Tk(t)(xn)にしたがい計算する(j=1,…,J).
(d)(サブステップ178)
学習パターンxnに対するbest-incorrectクラスCinをgin=maxJ j,j≠yngjにより求める.
(e)(サブステップ180)
dyn=−gyn+ginを計算する.
(f)(サブステップ336)
幾何マージン型誤分類測度値を次式に従って計算する.
Referring to FIG. 9, the program for realizing the adaptive learning process of the coefficient vector τ and p m performed in
This process includes a
The
(A) (Substep 170)
One learning pattern {x n , y n } is extracted from the learning pattern set Ω N.
(B) (Substep 330)
Construct M-order vector k (t) (x n ) according to equation (7).
(C) (
For each class C j , the discriminant function value g j is calculated according to g j = {τ (t) j } T k (t) (x n ) (j = 1,..., J).
(D) (Substep 178)
Find the best-incorrect class C in for the learning pattern x n by g in = max J j, j ≠ yn g j .
(E) (Substep 180)
d yn = -g yn + g in is calculated.
(F) (Sub-step 336)
Calculate the geometric margin misclassification measure according to the following formula.
次式に従って係数ベクトル集合{τj}J j=1及びプロトタイプ集合{pm}M m=1を更新する(j=1,…,J).
Update the coefficient vector set {τ j } J j = 1 and prototype set {p m } M m = 1 according to the following equation (j = 1,..., J).
変数tの値を1インクリメントする.
The value of variable t is incremented by 1.
以上に説明した本発明の実施の形態に係る学習装置は,カーネル関数を用いる分類器及び確率モデルを適用する分類器の汎用性をそのまま受け継ぐものである.したがって上記したような学習装置は,実施の形態で説明したような話者判別装置のみならず,入力パターンを予め定められた複数のクラスの1つに割当てるような任意のパターン認識器に応用可能である.より具体的な例として,パターンとクラス・プロトタイプとの距離尺度に基づいて判別関数を計算する文字認識装置,隠れマルコフモデルを用いてパターンのクラス帰属確率を計算しそれを判別関数とする音声認識装置等が挙げられる. The learning apparatus according to the embodiment of the present invention described above inherits the versatility of the classifier using the kernel function and the classifier applying the probability model as it is. Therefore, the learning device as described above can be applied not only to the speaker discrimination device described in the embodiment but also to an arbitrary pattern recognizer that assigns an input pattern to one of a plurality of predetermined classes. It is. As a more specific example, a character recognition device that calculates a discriminant function based on a distance measure between a pattern and a class prototype, and speech recognition that uses a hidden Markov model to calculate the class membership probability of a pattern and uses it as a discriminant function Equipment, etc.
[コンピュータによる実現]
上述の実施の形態は,コンピュータシステムと,コンピュータシステム上で動作するコンピュータプログラムとによって実現されうる.図10はこの実施の形態で用いられるコンピュータシステム530の外観を示し,図11はコンピュータシステム530のブロック図である.ここに示すコンピュータシステム530は単なる例示であって,他の構成も利用可能である.
[Realization by computer]
The above-described embodiment can be realized by a computer system and a computer program that runs on the computer system. FIG. 10 shows the external appearance of the
図10を参照して,コンピュータシステム530は,コンピュータ540と,全てコンピュータ540に接続された,モニタ542,キーボード546,マウス548,スピーカ572及びマイクロフォン570とを含む.さらに,コンピュータ540は,DVD(Digital Versatile Disc)ドライブ550と,半導体メモリドライブ552とを含む.
Referring to FIG. 10, a
図11を参照して,コンピュータ540はさらに,DVDドライブ550と半導体メモリドライブ552とに接続されたバス566と,全てバス566に接続された,CPU(Central Processing Unit:中央処理装置)556,コンピュータ540のブートアッププログラム等を記憶するROM(Read−Only Memory:読出し専用メモリ)558,CPU556の作業領域を提供するとともにCPU556によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory:ランダムアクセスメモリ)560,並びに学習パターン集合及び判別関数を記憶するハードディスクドライブ(HDD)554とを含む.
Referring to FIG. 11, a
上述の実施の形態のシステムを実現するソフトウェアは,DVD562又は半導体メモリ564等の記憶媒体に記録されるオブジェクトコード又はスクリプトの形で配布され,DVDドライブ550又は半導体メモリドライブ552等の読出装置によってコンピュータ540に与えられ,HDD554に記憶されてもよい.CPU556がプログラムを実行するときは,プログラムはHDD554から読出され,RAM560に記憶される.RA560の,CPU556内の図示しないプログラムカウンタによって指示されるアドレスから命令がフェッチされ,その命令が実行される.CPU556は処理すべきデータをハードディスクドライブ554又はRAM560等から読出し,処理結果をまたハードディスクドライブ554又はRAM560等に記憶する.
The software that realizes the system of the above-described embodiment is distributed in the form of an object code or a script recorded on a storage medium such as the
コンピュータシステム530の一般的動作は周知であるので,詳細な説明はここでは行なわない.
The general operation of
ソフトウェア配布の方法については,これを記憶媒体に固定することは必ずしも必要でない.例えば,ソフトウェアはネットワークに接続された別のコンピュータから配布されてもよい.ソフトウェアの一部をハードディスクドライブ554に記憶させ,ソフトウェアの残りの部分をネットワークを介してハードディスクに取込み,実行時に統合してもよい.
As for software distribution method, it is not always necessary to fix this to the storage medium. For example, the software may be distributed from another computer connected to the network. A part of the software may be stored in the
典型的には,現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し,所望の目的にしたがって制御されたやり方で機能を実行する.さらに,サードパーティによって提供されるコンピュータプログラムツールキット又はツールボックスは基本的なものだけでなく,学習アルゴリズムの単位を構成する機能(例えばクラスタリングツール,MSVM学習ツール等の数値処理プログラムキット)を提供する洗練されたプログラムもある.したがって,OS又はサードパーティによって提供されうる一般的な機能を含まず,単にこうした単位となる機能の実行順序の組合せを指示するのみのプログラムも,そのプログラムが全体として所望の目的を達成するのであれば,この発明の範囲に含まれる. Typically, modern computers take advantage of the general functions provided by a computer operating system (OS) and perform functions in a controlled manner according to the desired purpose. Furthermore, computer program toolkits or toolboxes provided by third parties are not only basic, but also provide functions that constitute units of learning algorithms (for example, numerical processing program kits such as clustering tools and MSVM learning tools). There are also sophisticated programs. Therefore, a program that does not include a general function that can be provided by the OS or a third party, and merely indicates a combination of the execution order of the functions as such a unit may achieve the desired purpose as a whole. Is included in the scope of the present invention.
以上のように,本発明によれば,公知技術である大幾何マージンMCE学習法を,カーネルの線形和の形式を持つ判別関数の線形和係数パラメータに対して適用する.これにより,カーネルを用いて精緻な分類決定境界を形成することが可能となる.それだけでなく,分類誤り最小化と未知パターンに対する耐性向上とを共に直接的に目指す学習法が定型化される.結果的に,本発明により,パターンの分布構造が複雑である場合においても,学習パターン以外の未知パターンに対する高い認識率が得られる. As described above, according to the present invention, the known large geometric margin MCE learning method is applied to the linear sum coefficient parameter of the discriminant function having the form of the kernel linear sum. This makes it possible to form precise classification decision boundaries using the kernel. In addition, a learning method that directly aims at minimizing classification errors and improving tolerance to unknown patterns is standardized. As a result, according to the present invention, even when the pattern distribution structure is complicated, a high recognition rate for unknown patterns other than the learning pattern can be obtained.
今回開示された実施の形態は単に例示であって,本発明が上記した実施の形態のみに制限されるわけではない.本発明の範囲は,発明の詳細な説明の記載を参酌した上で,特許請求の範囲の各請求項によって示され,そこに記載された文言と均等の意味及び範囲内での全ての変更を含む. The embodiment disclosed herein is merely an example, and the present invention is not limited to the embodiment described above. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.
20,30 入力パターン空間
22,24,26,28 クラス
32 写像先のM次元空間
34 非常に高い次元の空間
40 話者識別のためのシステム
42 判別関数学習装置
44 判別関数伝達媒体
46 入力音声
48 話者判別装置
50 話者判別結果
60 学習発話データを記憶する第1の記憶装置
62,82 特徴量抽出部
64 第2の記憶装置
66 学習装置
80 判別関数記憶部
84 話者判別部
20, 30
Claims (11)
所定の物理量の観測データから得られるベクトルと,当該ベクトルが属するクラスのラベルとからなる学習パターンを要素とする学習パターン集合を記憶するための記憶手段と,
前記複数個のクラスに対しそれぞれ定義される,入力パターンが当該クラスに属する度合いを測る判別関数を,前記記憶手段に記憶された学習パターン集合に含まれる学習パターンを学習データとして学習するための学習手段とを含み,
前記判別関数は,入力パターンと,前記複数個のクラスにそれぞれ対応する,前記学習パターン集合から得られる複数個のプロトタイプとの間のカーネル演算の線形和により表される関数であり,
前記複数個のプロトタイプはプロトタイプ集合を形成し,
当該カーネル演算は,入力パターンの空間より高次元の空間に入力パターンを変換する特徴変換を定めたときに,当該特徴変換による変換後の入力パターンと,当該特徴変換による変換後のプロトタイプとの間の内積により定義され,かつ,当該カーネル演算は,前記プロトタイプ集合内に含まれるプロトタイプ相互間でのカーネル演算により構成されるグラム行列が,どんな個数のどんなプロトタイプに対しても常に正定値行列となるカーネル演算であり,
前記複数個のクラスの各々に対して,前記線形和の各プロトタイプに対応するカーネルの係数は係数ベクトルを形成し,
前記複数個のクラスの各々に対して形成される係数ベクトルは係数ベクトル集合を形成し,
前記学習手段は,前記高次元の空間において,前記学習パターンと前記係数ベクトル集合との関数として定義される平均分類誤り数損失が最小となるように前記係数ベクトル集合に含まれる係数ベクトルを調整する,パターン分類装置の学習装置. A pattern classification device learning device for classifying an input pattern into one of a plurality of classes,
Storage means for storing a learning pattern set having a learning pattern composed of a vector obtained from observation data of a predetermined physical quantity and a label of a class to which the vector belongs;
Learning for learning, as learning data, a learning function included in a learning pattern set stored in the storage means, a discriminant function defined for each of the plurality of classes, which measures the degree to which an input pattern belongs to the class. Means,
The discriminant function is a function represented by a linear sum of kernel operations between an input pattern and a plurality of prototypes obtained from the learning pattern set corresponding to the plurality of classes,
The plurality of prototypes form a prototype set;
When the kernel operation defines a feature transformation that transforms the input pattern into a higher-dimensional space than the input pattern space, the kernel operation is performed between the input pattern after the transformation by the feature transformation and the prototype after the transformation by the feature transformation. Kernel matrix defined by inner product of, and composed of kernel operations between prototypes included in the prototype set is always a positive definite matrix for any number of prototypes Kernel operations,
For each of the plurality of classes, the kernel coefficients corresponding to each prototype of the linear sum form a coefficient vector;
The coefficient vectors formed for each of the plurality of classes form a coefficient vector set;
The learning means adjusts a coefficient vector included in the coefficient vector set so that an average classification error number loss defined as a function of the learning pattern and the coefficient vector set is minimized in the high-dimensional space. , Learning device for pattern classifier.
前記係数ベクトル集合に含まれる係数ベクトルの各々を所定の初期化方法により初期化するための初期化手段と,
前記学習パターン集合に含まれる学習パターンから1個を抽出するための学習パターン抽出手段と,
前記学習パターン抽出手段により学習パターンが抽出されたことに応答して,前記係数ベクトル集合に含まれる係数ベクトルを,前記平均分類誤り数損失が最小となるように調整するための係数ベクトル調整手段と,
前記学習パターン抽出手段による学習パターンの抽出と,前記係数ベクトル調整手段による係数ベクトルの調整とを,前記学習パターン集合内の全学習パターンが前記学習パターン抽出手段により抽出されるまで,繰返し実行させるための第1の繰返し制御手段とを含む,請求項1に記載のパターン分類装置の学習装置. The learning means includes
Initialization means for initializing each coefficient vector included in the coefficient vector set by a predetermined initialization method;
Learning pattern extraction means for extracting one from the learning patterns included in the learning pattern set;
In response to the learning pattern being extracted by the learning pattern extracting means, coefficient vector adjusting means for adjusting the coefficient vector included in the coefficient vector set so that the average classification error number loss is minimized; ,
In order to repeatedly execute the learning pattern extraction by the learning pattern extraction unit and the coefficient vector adjustment by the coefficient vector adjustment unit until all the learning patterns in the learning pattern set are extracted by the learning pattern extraction unit. The learning device of the pattern classification device according to claim 1, further comprising: a first iterative control means.
前記第1の繰返し制御手段による繰返しが終了するごとに,前記学習パターン集合内の学習パターンの並びをシャッフルするためのシャッフル手段と,
前記シャッフル手段によるシャッフルが完了したことに応答して,前記第1の繰返し制御手段による繰返しを再開させるための第2の繰返し制御手段と,
前記第2の繰返し制御手段による繰返しが所定の回数だけ完了したときに,前記第2の繰返し制御手段による繰返しを停止させるための停止手段とを含む,請求項3に記載のパターン分類装置の学習装置. The learning means further includes
Shuffle means for shuffling the arrangement of learning patterns in the learning pattern set each time repetition by the first repetition control means is completed;
In response to completion of shuffling by the shuffle means, second repetition control means for resuming repetition by the first repetition control means;
4. The learning of the pattern classification apparatus according to claim 3, further comprising a stopping unit for stopping the repetition by the second repetition control unit when the repetition by the second repetition control unit is completed a predetermined number of times. apparatus.
前記初期化手段は,
前記学習パターン集合に含まれる学習パターンを前記複数個のクラスに分類するための,学習パターンに対する所定の変換後のベクトルの線形和の係数ベクトルを,多クラスサポートベクターマシーンの学習により最適化するためのSVM学習手段と,
前記SVM学習手段により前記学習パターン集合に対して最適化された係数ベクトルを,前記線形和の各プロトタイプに対応するカーネルの係数からなる係数ベクトルの初期値として設定するための初期値設定手段とを含む,請求項3に記載のパターン分類装置の学習装置. The prototype set is the learning pattern set;
The initialization means includes
In order to optimize a coefficient vector of a linear sum of vectors after a predetermined conversion for learning patterns for classifying learning patterns included in the learning pattern set into the plurality of classes by learning a multi-class support vector machine SVM learning means,
Initial value setting means for setting a coefficient vector optimized for the learning pattern set by the SVM learning means as an initial value of a coefficient vector composed of kernel coefficients corresponding to each prototype of the linear sum; The learning device of the pattern classification device according to claim 3, further comprising:
前記係数ベクトル集合に含まれる係数ベクトルの各々を所定の初期化方法により初期化するための初期化手段と,
前記学習パターン集合に含まれる学習パターンから1個を抽出するための学習パターン抽出手段と,
前記学習パターン抽出手段により学習パターンが抽出されたことに応答して,前記係数ベクトル集合に含まれる係数ベクトルと,前記プロトタイプ集合に含まれるプロトタイプとを,前記平均分類誤り数損失が最小となるように調整するためのパラメータ調整手段と,
前記学習パターン抽出手段による学習パターンの抽出と,前記パラメータ調整手段による係数ベクトル及びプロトタイプの調整とを,前記学習パターン集合内の全学習パターンが前記学習パターン抽出手段により抽出されるまで,繰返し実行させるための第1の繰返し制御手段とを含む,請求項1に記載のパターン分類装置の学習装置. The learning means includes
Initialization means for initializing each coefficient vector included in the coefficient vector set by a predetermined initialization method;
Learning pattern extraction means for extracting one from the learning patterns included in the learning pattern set;
In response to the learning pattern being extracted by the learning pattern extracting means, the coefficient vector included in the coefficient vector set and the prototype included in the prototype set are minimized so that the average classification error number loss is minimized. Parameter adjusting means for adjusting to
The learning pattern extraction by the learning pattern extraction means and the adjustment of the coefficient vector and prototype by the parameter adjustment means are repeatedly executed until all learning patterns in the learning pattern set are extracted by the learning pattern extraction means. The learning apparatus for a pattern classification apparatus according to claim 1, further comprising:
前記第1の繰返し制御手段による繰返しが終了するごとに,前記学習パターン集合内の学習パターンの並びをシャッフルするためのシャッフル手段と,
前記シャッフル手段によるシャッフルが完了したことに応答して,前記第1の繰返し制御手段による繰返しを再開させるための第2の繰返し制御手段と,
前記第2の繰返し制御手段による繰返しが所定の回数だけ完了したときに,前記第2の繰返し制御手段による繰返しを停止させるための停止手段とを含む,請求項9に記載のパターン分類装置の学習装置. The learning means further includes
Shuffle means for shuffling the arrangement of learning patterns in the learning pattern set each time repetition by the first repetition control means is completed;
In response to completion of shuffling by the shuffle means, second repetition control means for resuming repetition by the first repetition control means;
10. The learning of the pattern classification apparatus according to claim 9, further comprising a stopping unit for stopping the repetition by the second repetition control unit when the repetition by the second repetition control unit is completed a predetermined number of times. apparatus.
所定の物理量の観測データから得られるベクトルと,当該ベクトルが属するクラスのラベルとからなる学習パターンを要素とする学習パターン集合を記憶するための記憶手段と,
前記複数個のクラスに対しそれぞれ定義される,入力パターンが当該クラスに属する度合いを測る判別関数を,前記記憶手段に記憶された学習パターン集合に含まれる学習パターンを学習データとして学習するための学習手段として機能させ,
前記判別関数は,入力パターンと,前記複数個のクラスにそれぞれ対応する,前記学習パターン集合から得られる複数個のプロトタイプとの間のカーネル演算の線形和により表される関数であり,
前記複数個のプロトタイプはプロトタイプ集合を形成し,
当該カーネル演算は,入力パターンの空間より高次元の空間に入力パターンを変換する特徴変換を定めたときに,当該特徴変換による変換後の入力パターンと,当該特徴変換による変換後のプロトタイプとの間の内積により定義され,かつ,当該カーネル演算は,前記プロトタイプ集合内に含まれるプロトタイプ相互間でのカーネル演算により構成されるグラム行列が,どんな個数のどんなプロトタイプに対しても常に正定値行列となるカーネル演算であり,
前記複数個のクラスの各々に対して,前記線形和の各プロトタイプに対応するカーネルの係数は係数ベクトルを形成し,
前記複数個のクラスの各々に対して形成される係数ベクトルは係数ベクトル集合を形成し,
前記学習手段は,前記高次元の空間において,前記学習パターンと前記係数ベクトル集合との関数として定義される平均分類誤り数損失が最小となるように前記係数ベクトル集合に含まれる係数ベクトルを調整する,コンピュータプログラム. A computer program for causing a computer to function as a learning device of a pattern classification device for classifying input patterns into any of a plurality of classes, the computer program comprising:
Storage means for storing a learning pattern set having a learning pattern composed of a vector obtained from observation data of a predetermined physical quantity and a label of a class to which the vector belongs;
Learning for learning, as learning data, a learning function included in a learning pattern set stored in the storage means, a discriminant function defined for each of the plurality of classes, which measures the degree to which an input pattern belongs to the class. Function as a means,
The discriminant function is a function represented by a linear sum of kernel operations between an input pattern and a plurality of prototypes obtained from the learning pattern set corresponding to the plurality of classes,
The plurality of prototypes form a prototype set;
When the kernel operation defines a feature transformation that transforms the input pattern into a higher-dimensional space than the input pattern space, the kernel operation is performed between the input pattern after the transformation by the feature transformation and the prototype after the transformation by the feature transformation. Kernel matrix defined by inner product of, and composed of kernel operations between prototypes included in the prototype set is always a positive definite matrix for any number of prototypes Kernel operations,
For each of the plurality of classes, the kernel coefficients corresponding to each prototype of the linear sum form a coefficient vector;
The coefficient vectors formed for each of the plurality of classes form a coefficient vector set;
The learning means adjusts a coefficient vector included in the coefficient vector set so that an average classification error number loss defined as a function of the learning pattern and the coefficient vector set is minimized in the high-dimensional space. , Computer programs.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266448A JP5704692B2 (en) | 2010-11-30 | 2010-11-30 | Pattern classification device learning device and computer program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266448A JP5704692B2 (en) | 2010-11-30 | 2010-11-30 | Pattern classification device learning device and computer program therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012118668A true JP2012118668A (en) | 2012-06-21 |
JP5704692B2 JP5704692B2 (en) | 2015-04-22 |
Family
ID=46501438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010266448A Active JP5704692B2 (en) | 2010-11-30 | 2010-11-30 | Pattern classification device learning device and computer program therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5704692B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106104673A (en) * | 2014-03-07 | 2016-11-09 | 微软技术许可有限责任公司 | The low-resource of deep neural network takies adaptation and personalization |
CN106133826A (en) * | 2014-03-27 | 2016-11-16 | 微软技术许可有限责任公司 | For the self-defining flexible modes of language model |
CN109165474A (en) * | 2018-10-13 | 2019-01-08 | 国网山东省电力公司电力科学研究院 | A kind of inverter Repetitive controller design method neural network based |
US10304448B2 (en) | 2013-06-21 | 2019-05-28 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
KR20200015956A (en) * | 2018-07-19 | 2020-02-14 | 한국생산기술연구원 | Apparatus and method for counting object in image based on machine-learning |
US10572602B2 (en) | 2013-06-21 | 2020-02-25 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
WO2023281717A1 (en) * | 2021-07-08 | 2023-01-12 | 日本電信電話株式会社 | Speaker diarization method, speaker diarization device, and speaker diarization program |
-
2010
- 2010-11-30 JP JP2010266448A patent/JP5704692B2/en active Active
Non-Patent Citations (6)
Title |
---|
CSNG199900178005; 浦田穣司,他2名: 'Kohonen mapによる音韻認識に及ぼす情報フィードバックの効果' 電子情報通信学会技術研究報告 第91巻,第287号, 19911024, pp.29-36, 社団法人電子情報通信学会 * |
CSNG200900279009; 笠井航,他3名: 'オンラインプロトタイプ生成による大規模データに対する高速SVM構築法' 電子情報通信学会論文誌 第J92-D巻, 第6号, 20090601, pp.784-792, 社団法人電子情報通信学会 * |
CSNG201000017001; 渡辺秀行,他6名: '判別関数の一般形に対する幾何マージンの導出とその制御を伴う最小分類誤り学習' 電子情報通信学会技術研究報告 第109巻,第182号, 20090824, pp.1-6, 社団法人電子情報通信学会 * |
JPN6014031468; 渡辺秀行,他6名: '判別関数の一般形に対する幾何マージンの導出とその制御を伴う最小分類誤り学習' 電子情報通信学会技術研究報告 第109巻,第182号, 20090824, pp.1-6, 社団法人電子情報通信学会 * |
JPN6014031469; 浦田穣司,他2名: 'Kohonen mapによる音韻認識に及ぼす情報フィードバックの効果' 電子情報通信学会技術研究報告 第91巻,第287号, 19911024, pp.29-36, 社団法人電子情報通信学会 * |
JPN6014031471; 笠井航,他3名: 'オンラインプロトタイプ生成による大規模データに対する高速SVM構築法' 電子情報通信学会論文誌 第J92-D巻, 第6号, 20090601, pp.784-792, 社団法人電子情報通信学会 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304448B2 (en) | 2013-06-21 | 2019-05-28 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US10572602B2 (en) | 2013-06-21 | 2020-02-25 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
CN106104673A (en) * | 2014-03-07 | 2016-11-09 | 微软技术许可有限责任公司 | The low-resource of deep neural network takies adaptation and personalization |
CN106104673B (en) * | 2014-03-07 | 2019-10-18 | 微软技术许可有限责任公司 | The low-resource of deep neural network occupies adaptation and personalization |
CN106133826A (en) * | 2014-03-27 | 2016-11-16 | 微软技术许可有限责任公司 | For the self-defining flexible modes of language model |
US10497367B2 (en) | 2014-03-27 | 2019-12-03 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
KR20200015956A (en) * | 2018-07-19 | 2020-02-14 | 한국생산기술연구원 | Apparatus and method for counting object in image based on machine-learning |
KR102129042B1 (en) * | 2018-07-19 | 2020-07-01 | 한국생산기술연구원 | Apparatus and method for counting object in image based on machine-learning |
CN109165474A (en) * | 2018-10-13 | 2019-01-08 | 国网山东省电力公司电力科学研究院 | A kind of inverter Repetitive controller design method neural network based |
CN109165474B (en) * | 2018-10-13 | 2023-03-24 | 国网山东省电力公司电力科学研究院 | Inverter repetitive control design method based on neural network |
WO2023281717A1 (en) * | 2021-07-08 | 2023-01-12 | 日本電信電話株式会社 | Speaker diarization method, speaker diarization device, and speaker diarization program |
Also Published As
Publication number | Publication date |
---|---|
JP5704692B2 (en) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501192B2 (en) | Systems and methods for Bayesian optimization using non-linear mapping of input | |
US9311609B2 (en) | Techniques for evaluation, building and/or retraining of a classification model | |
JP5704692B2 (en) | Pattern classification device learning device and computer program therefor | |
US20180349158A1 (en) | Bayesian optimization techniques and applications | |
US11049011B2 (en) | Neural network classifier | |
Wang et al. | Stochastic optimization for deep CCA via nonlinear orthogonal iterations | |
Xu et al. | Logistic regression and boosting for labeled bags of instances | |
US8266083B2 (en) | Large scale manifold transduction that predicts class labels with a neural network and uses a mean of the class labels | |
US8775345B2 (en) | Recovering the structure of sparse markov networks from high-dimensional data | |
US8369611B2 (en) | Compact handwriting recognition | |
JP2014026455A (en) | Media data analysis device, method and program | |
Kerenidis et al. | Quantum expectation-maximization for Gaussian mixture models | |
JP2012181579A (en) | Pattern classification learning device | |
JP5017941B2 (en) | Model creation device and identification device | |
JP4928193B2 (en) | Face image recognition apparatus and face image recognition program | |
JP5288378B2 (en) | Acoustic model speaker adaptation apparatus and computer program therefor | |
JP7103235B2 (en) | Parameter calculation device, parameter calculation method, and parameter calculation program | |
Montesinos López et al. | Reproducing Kernel Hilbert spaces regression and classification methods | |
JP7047665B2 (en) | Learning equipment, learning methods and learning programs | |
Wang et al. | Importance sampling based discriminative learning for large scale offline handwritten Chinese character recognition | |
JP5255484B2 (en) | Clustering distance learning device and program thereof, and clustering device | |
JP5834287B2 (en) | Pattern classification learning device | |
CN111860556A (en) | Model processing method and device and storage medium | |
JP5527728B2 (en) | Pattern classification learning device | |
Bobrowski et al. | Linear classifiers with the L 1 margin from a small number of high-dimensional vectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5704692 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |