JP5527728B2 - Pattern classification learning device - Google Patents
Pattern classification learning device Download PDFInfo
- Publication number
- JP5527728B2 JP5527728B2 JP2010184334A JP2010184334A JP5527728B2 JP 5527728 B2 JP5527728 B2 JP 5527728B2 JP 2010184334 A JP2010184334 A JP 2010184334A JP 2010184334 A JP2010184334 A JP 2010184334A JP 5527728 B2 JP5527728 B2 JP 5527728B2
- Authority
- JP
- Japan
- Prior art keywords
- parzen
- learning
- distribution
- class
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は何らかの測定データを所定のクラスのいずれかに分類するパターン分類の学習装置に関し、特に、MCE(最小分類誤り学習)を用い、効率的に学習が行なえる学習装置に関する。 The present invention relates to a pattern classification learning apparatus that classifies some measurement data into one of predetermined classes, and more particularly to a learning apparatus that can perform learning efficiently using MCE (minimum classification error learning).
[パターン認識と学習]
人間と機械との間のインターフェイスにおいて、パターン認識は重要な技術である。パターン認識技術は、話者の識別、発話内容の認識、顔画像による人物の識別、及び文字認識など、様々な局面で使用される。パターン認識は、端的にいえば、何らかの物理現象を観測することにより得られる観測値のパターンを、複数個のクラスに分類する作業であるということができる。こうした作業は人間には比較的簡単であるが、これを機械にさせるのは容易ではない。そうした作業を行なう装置は、包括的に呼べばパターン認識装置ということになるが、パターン認識装置にパターン認識を行なわせるためには、学習データを統計的に処理することにより、分類に必要なパラメータを得る、学習と呼ばれる予備的な作業が必要とされる。
[Pattern recognition and learning]
Pattern recognition is an important technique in the interface between humans and machines. The pattern recognition technique is used in various aspects such as speaker identification, utterance content recognition, person identification by face image, and character recognition. In short, pattern recognition can be said to be an operation of classifying observed value patterns obtained by observing some physical phenomenon into a plurality of classes. These tasks are relatively easy for humans, but it is not easy to make them work. A device that performs such work is a pattern recognition device if it is called comprehensively, but in order to make the pattern recognition device perform pattern recognition, the learning data is processed statistically, and the parameters necessary for classification A preliminary work called learning is required.
入力パターン(観測値)x∈ΧをJ個のクラス(類)C1,…,CJのいずれか1つに割当てる分類タスクを考える。ここで、Χは全入力パターン空間を表す。 Consider a classification task that assigns an input pattern (observed value) xεΧ to any one of J classes (classes) C 1 ,..., C J. Here, Χ represents the entire input pattern space.
分類器の学習のための統計的アプローチは、分類リスクの最小化の概念に基づく。分類リスクとは、個々の入力パターンを分類する際に課せられる損失の、全パターン空間に対する期待値である。最も自然で基本的な損失は分類誤り数損失(0‐1損失)である。この損失は、誤分類に対して値1を、正分類に対して値0を、それぞれ課す損失である。この損失は次式で定義される。 The statistical approach for classifier learning is based on the concept of minimizing classification risk. The classification risk is an expected value for the entire pattern space of a loss imposed when classifying individual input patterns. The most natural and basic loss is the classification error number loss (0-1 loss). This loss is a loss that imposes a value of 1 for misclassification and a value of 0 for correct classification. This loss is defined by the following equation.
分類器学習の究極の目標は、次式の分類誤り数リスクRを最小にする分類決定則c:Χ→{Cj}j=1 Jの実現である。 The ultimate goal of classifier learning is to realize a classification decision rule c: Χ → {C j } j = 1 J that minimizes the classification error number risk R in the following equation.
以下、本発明に特に関連する最小分類誤り(MCE)学習(非特許文献1)について説明する。 Hereinafter, minimum classification error (MCE) learning (Non-Patent Document 1) particularly related to the present invention will be described.
[MCE学習]
〈判別関数に基づく分類決定則〉
MCE学習法は、判別関数を用いた次式の実際的な分類決定則を採用しRの直接的最小化を目指す。
[MCE learning]
<Classification decision rule based on discriminant function>
The MCE learning method employs a practical classification decision rule of the following equation using a discriminant function and aims at direct minimization of R.
〈誤分類測度〉
式(3)の決定則は全ての判別関数値の計算とそれらの比較演算とからなる。比較を含む演算は、学習段階で要求されるパラメータ最適化のような数値演算には適さない。したがって、式(3)を、数値演算に適した形式に置換えなければならない。MCE学習は、Lpノルム形式の平滑な誤分類測度を学習パターンに適用することでそのような置換を実現する。クラスCyに属するパターンxに対する誤分類測度は次式で定義される。
<Misclassification measure>
The decision rule of equation (3) consists of calculating all discriminant function values and comparing them. Computations involving comparisons are not suitable for numerical computations such as parameter optimization required in the learning stage. Therefore, Equation (3) must be replaced with a format suitable for numerical operations. MCE learning implements such replacement by applying a smooth misclassification measure in Lp-norm format to the learning pattern. Classification measure erroneous with respect to the pattern x belonging to the class C y is defined by the following equation.
MCE学習は誤分類測度を駆使して式(1)の分類誤り数損失および式(2)のリスクを再定式化し、効率的な最適化手法の適用を可能にする。誤分類測度の定義に基づき、分類誤り数損失は次の式のように書換えられる。 MCE learning uses the misclassification measure to reformulate the number of classification error losses in equation (1) and the risk in equation (2), enabling efficient optimization techniques to be applied. Based on the definition of the misclassification measure, the classification error count loss can be rewritten as:
分類誤り数損失l(dy(x,Λ)>0)はΛに関して微分不可能である。この計算上の問題を克服するために、MCE学習は微分可能な平滑化分類誤り数損失を定義して、これに式(1)を置換える。クラスCyに属するパターンxに対する平滑化分類誤り数損失として、MCE学習では一般に、次式のロジスティックシグモイド関数が用いられる。
The classification error number loss l (d y (x, Λ)> 0) is not differentiable with respect to Λ. To overcome this computational problem, MCE learning defines a differentiating smoothed classification error number loss and replaces it with equation (1). As the smoothing classification error count loss for the class C y belonging pattern x, the MCE learning Generally, the logistic sigmoid function of the following equation is used.
式(8)は無限個の入力パターンに関する積分を含む。しかし現実的には、有限個(N個)の標本からなる学習標本集合ΩN={(xn,yn)}n=1 Nを使ってΛを推定することしかできない。ここでxn∈Χはn番目の学習パターン、すなわち学習標本でありyn(=1,…,J)は標本xnが属するクラスの指標である。したがって、現実的なMCE学習の評価基準は、式(8)を有限の学習標本集合ΩNで近似する次式の経験的平均損失となる。 Equation (8) includes integration over an infinite number of input patterns. However, in reality, it is only possible to estimate Λ using a learning sample set Ω N = {(x n , y n )} n = 1 N consisting of a finite number (N) of samples. Here, x n ∈Χ is the nth learning pattern, that is, a learning sample, and y n (= 1,..., J) is an index of a class to which the sample x n belongs. Therefore, evaluation criteria of realistic MCE learning, the empirical average loss of the following equation that approximates the equation (8) in the finite learning sample set Ω N.
従来、上記した損失平滑度αyを決めるための具体的な設定指針が与えられていない。そのため、損失平滑度αyはアドホックに設定せざるを得ないという問題がある。そのようにして得られた損失平滑度αyは、学習データに対しては有効ではあるものの、未知のデータに対して高い認識が得られる可能性が低いという問題がある。すなわち、従来の学習装置では、得られる分類器の汎化能力を高くすることが難しいという問題がある。 Conventionally, a specific setting guideline for determining the above-described loss smoothness α y has not been given. Therefore, there is a problem that the loss smoothness α y must be set to ad hoc. Although the loss smoothness α y obtained in this way is effective for learning data, there is a problem that it is unlikely that high recognition is obtained for unknown data. That is, the conventional learning device has a problem that it is difficult to increase the generalization ability of the obtained classifier.
したがって本発明の目的は、MCE学習によるパターン分類器の学習装置において、得られる分類器の汎化能力を高くすることができる学習装置を提供することである。 Accordingly, an object of the present invention is to provide a learning device capable of increasing the generalization ability of the obtained classifier in the learning device for a pattern classifier by MCE learning.
本発明の他の目的は、MCE学習によるパターン分類器の学習装置において、汎化能力を高めることができる損失平滑度を具体的な設定指針によって算出することができる学習装置を提供することである。 Another object of the present invention is to provide a learning device that can calculate loss smoothness that can increase generalization ability with a specific setting guideline in a learning device for a pattern classifier by MCE learning. .
本発明の第1の局面に係る学習装置は、入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類する分類器の学習装置であって、各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含む。クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される誤分類測度値dy(x,Λ)が以下により定義される。 The learning device according to the first aspect of the present invention is a learning device for a classifier that classifies an input pattern into any of J classes C j (j is an integer from 1 to J), each of which is an input pattern. And a learning sample storage means for storing N learning samples (N is a positive integer) including the class to which the class belongs and initialization for initializing the learning parameter Λ of the classifier by a predetermined setting method Means. A misclassification measure value d y (x, Λ) in which the input pattern x of the learning sample belonging to the class C y is misclassified into another class is defined as follows.
Parzen分布推定手段は、交差確認型最尤推定において、Parzen窓幅hyの関数としてParzen分布の尤度を評価する。学習装置はさらに、J個のクラスCyの各々について、Parzen分布推定手段による交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
The Parzen distribution estimation means evaluates the likelihood of the Parzen distribution as a function of the Parzen window width hy in the cross-confirmation type maximum likelihood estimation. Learning apparatus further comprises for each of the J Class C y, to Parzen window width h y giving the Parzen distribution as a maximum likelihood in cross-validation type maximum likelihood estimation by Parzen distribution estimating means, the following functions
好ましくは、学習装置はさらに、繰返し制御手段による繰返しの前、かつ学習パラメータ調整手段による学習パラメータΛの調整の前に、学習標本の並び順を乱数にしたがってシャッフルするためのシャッフル手段を含む。 Preferably, the learning device further includes shuffle means for shuffling the arrangement order of learning samples according to random numbers before repetition by the repetition control means and before adjustment of the learning parameter Λ by the learning parameter adjustment means.
より好ましくは、予め定める終了条件は、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段による動作が所定回数完了したこと、という条件である。 More preferably, the predetermined termination condition is a condition that the operations by the Parzen distribution estimation unit, the optimum loss smoothness calculation unit, and the learning parameter adjustment unit have been completed a predetermined number of times.
さらに好ましくは、繰返し制御手段は、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段のうち、Parzen分布推定手段、及び最適損失平滑度算出手段の動作を定期的に省略する。 More preferably, the iterative control means periodically omits the operations of the Parzen distribution estimation means and the optimum loss smoothness calculation means among the Parzen distribution estimation means, the optimum loss smoothness calculation means, and the learning parameter adjustment means.
Parzen分布を構成するParzen窓がガウス型関数であり、Parzen分布推定手段は、クラスCyに属する標本から1個の標本を取除き、残りの標本でParzen推定分布を構成するためのParzen推定分布構成手段と、Parzen推定分布構成手段を規定する式を、混合重み係数が1/(N´−1)(N´はクラスCyに属する標本の個数)であるN´−1個の混合ガウス分布確率密度関数と見なし、EMアルゴリズムにより当該混合ガウス分布確率密度関数を最大化するParzen分布窓幅hyを算出するための窓幅算出手段とを含んでも良い。
A Parzen window Gaussian functions constitute the Parzen distribution, Parzen distribution estimating means removes one specimen from the specimen belonging to the class C y, Parzen estimate distribution for constituting the Parzen estimate distribution in the rest of the sample a configuration unit, the expression for defining the Parzen estimate distribution arrangement means, mixing
本発明の第2の局面に係るコンピュータプログラムは、入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類するために、コンピュータを、各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムである。クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される誤分類測度値dy(x,Λ)が以下により定義される。 The computer program according to the second aspect of the present invention classifies an input pattern into any one of J classes C j (j is an integer from 1 to J), and each of the computers belongs to the input pattern. Functions as learning sample storage means for storing N learning samples (N is a positive integer) including classes, and initialization means for initializing the learning parameters Λ of the classifier by a predetermined setting method It is a computer program to make it. A misclassification measure value d y (x, Λ) in which the input pattern x of the learning sample belonging to the class C y is misclassified into another class is defined as follows.
当該Parzen分布推定手段は、交差確認型最尤推定において、Parzen窓幅hyの関数としてParzen分布の尤度を評価する。このコンピュータプログラムは、コンピュータをさらに、J個のクラスCyの各々について、Parzen分布推定手段による交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
The Parzen distribution estimation means evaluates the likelihood of the Parzen distribution as a function of the Parzen window width hy in the cross-confirmation type maximum likelihood estimation. The computer program further computer, for each of the J Class C y, to Parzen window width h y giving the Parzen distribution as a maximum likelihood in cross-validation type maximum likelihood estimation by Parzen distribution estimating means, the following functions
以下、本発明の実施の形態を説明する。いかの説明及び図面において、同一の部品には同一の参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。なお、^L(Λ)の最小化に関して、最急降下法などのバッチ的手法だけではなく、ΩNから1個の標本(xn,yn)を抽出する度にΛを調整する適応的な学習方法も広く用いられている。その方法におけるΛの調整機構は次式で与えられる。 Embodiments of the present invention will be described below. In the description and drawings, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated. In addition, regarding the minimization of ^ L (Λ), not only a batch method such as a steepest descent method, but also an adaptive adjustment of Λ every time one sample (x n , y n ) is extracted from Ω N Learning methods are also widely used. The adjustment mechanism of Λ in the method is given by the following equation.
多くのMCE学習の実装において、式(7)に関し、全てのクラスCy(y=1,…,J)に対して共通の損失平滑度αyが設定される。しかし本実施の形態では、後述するようにクラス毎に損失平滑度αyの自動制御が行われるので、損失平滑度αyは各クラス個別に設定されるものとする。
In many MCE learning implementations, with respect to equation (7), a common loss smoothness α y is set for all classes C y (y = 1,..., J). However, in this embodiment, the loss smoothness α y is automatically controlled for each class as will be described later, and therefore the loss smoothness α y is set for each class individually.
〈Parzen推定に基づくMCE学習の再定式化〉
MCE学習法は、元々は前節で述べたような 0‐1損失を用いた分類誤り数カウントという考え方で定式化された。それとは別に、分類誤り確率を直接推定する定式化もなされている(非特許文献2)。その分類誤り確率の推定は、非パラメトリックな確率密度推定法の一つであるParzen推定を、誤分類測度の空間上で適用することによって実現している。この定式化によって、与えられた学習標本集合だけを対象とするのではなく、それらの近傍に存在していることが予測される未知のパターンをも考慮した最適化をMCE学習は行なっていると捉えることができる。以下ではこの定式化の手順を説明する。
<Reformulation of MCE learning based on Parzen estimation>
The MCE learning method was originally formulated based on the concept of counting the number of classification errors using 0-1 loss as described in the previous section. Apart from that, there is also a formulation for directly estimating the classification error probability (Non-Patent Document 2). The estimation of the classification error probability is realized by applying Parzen estimation, which is one of the nonparametric probability density estimation methods, on the misclassification measure space. With this formulation, MCE learning does not target only a given set of learning samples, but performs optimization that takes into account unknown patterns that are predicted to exist in the vicinity of them. Can be caught. In the following, the formulation procedure will be described.
初めに、分類誤り数リスクを表す式(6)における、パターン空間全体を積分範囲とした積分を、その部分集合全体を積分範囲とした積分に置換える。 First, the integration with the entire pattern space as the integration range in the equation (6) representing the classification error number risk is replaced with the integration with the entire subset as the integration range.
次に式(11)のΧy(Λ)を積分範囲とした入力パターン空間上での積分を、誤分類測度の値が正となる領域を積分範囲とした誤分類測度空間での積分に置換える。ここで、xと{gj(x,Λ)}j=1 Jが連続確率変数と見なせることから、誤分類測度dy(x,Λ)も連続確率変数である。すると式(11)における積分は、各クラスCyにおいて、以下のように置換えることができる。 Next, the integration in the input pattern space with Χ y (Λ) as the integration range in Equation (11) is replaced with the integration in the misclassification measure space with the region where the value of the misclassification measure is positive as the integration range. The Here, since x and {g j (x, Λ)} j = 1 J can be regarded as continuous random variables, the misclassification measure d y (x, Λ) is also a continuous random variable. Then the integral in equation (11), in each class C y, can be replaced as follows.
この知見に基づき、新しいMCE学習の定式化は、各クラスCyにおいて、有限個の学習標本{xy k}k=1 Nyを用いてpΛ(t|Cy)を近似するための次式のParzen推定分布を導入する(図3)。 Based on this knowledge, the new MCE learning formulation is the following for approximating p Λ (t | C y ) with a finite number of learning samples {x y k } k = 1 Ny in each class C y . Introduce the Parzen estimated distribution of the equation (FIG. 3).
図3において、横軸は誤分類測度、縦軸はその出現確率分布(確率密度)を表している。xk yはy番目のクラスCyに属するk番目の学習パターン(全部でNy個)、dy(xk y,Λ)はその誤分類測度値である。Λは前述の通り、認識器の学習パラメータ集合を表す。図中に示すParzen窓群40は、各々がdy(xk y,Λ)を中心とする多数のParzen窓(k=1,…,Ny)を含む。y番目のクラスCyに属する全ての学習パターンに対してこのParzen窓の相加平均をとることにより、クラスCyにおける誤分類測度分布の近似(近似分布42)が得られる。さらに、この近似分布42を正の領域で積分したもの(図中のハッチング部分)は、正解クラスがCyであるパターンをCy以外のクラスに誤分類する確率の近似値となる。
In FIG. 3, the horizontal axis represents the misclassification measure, and the vertical axis represents the appearance probability distribution (probability density). x k y is (N y pieces in total) k-th learning pattern belonging to the y-th class C y, dy (x k y , Λ) is the misclassification measure value. As described above, Λ represents a learning parameter set of the recognizer.
図4を参照して、通常、Parzen窓50は、データ点に対して左右対称で、その値が正の単峰性の関数である。式(13)のpΛ(t|Cy)をParzen推定分布^pΛ(t|Cy)で近似し、更にP(Cy)をNy/Nで近似することにより、分類誤り数リスクの有限学習標本集合ΩNに基づく推定値が次式で表現されることとなる。
Referring to FIG. 4, the
図5と図6とを比較すると明らかなように、幅hyが広いParzen窓60の方が、幅hyの狭いParzen窓70より損失関数が滑らかとなる。つまり、Parzen窓の窓幅hが損失関数の平滑度を表現する。個々のParzen窓60又はParzen窓70を正の領域で積分したもの(図5及び図6の左側のハッチング部分)は、MCEで用いられる平滑化分類誤り損失に対応する(図5の曲線62及び図6の曲線72)。これらの相加平均は、誤分類確率の近似値となると同時に、MCE学習における最小化対象の評価基準ともなる。
Figure 5 and Figure 6 and as is apparent from a comparison of found the width h y wide Parzen window 60, a smooth loss function
上述のParzen推定の枠組みにより、元来のMCE定式化に対して新しい損失平滑化制御のメカニズムがもたらされる。式(14)のParzen推定分布が真の確率分布pΛ(t|Cy)を正確に近似すればするほど、式(15)または式(9)の経験的平均損失が、式(13)または式(6)の分類誤り数リスクのより良い近似となる。言い換えれば、式(14)のParzen推定分布が真の分布の良好な近似となるように、窓幅hyを推定すれば、有限個の学習標本で構成されるMCE学習の評価基準が未知標本も含む全パターン空間に対する分類誤り確率に近づく。そしてこのとき、MCE学習の評価基準の最小状態が全パターン空間に対する分類誤り確率の最小状態に近づくこととなり、MCE学習の汎化能力が向上する。 The Parzen estimation framework described above provides a new loss smoothing control mechanism for the original MCE formulation. The more closely the Parzen estimated distribution of equation (14) approximates the true probability distribution p Λ (t | C y ), the more empirical average loss of equation (15) or equation (9) becomes, Or it is a better approximation of the risk of classification error in equation (6). In other words, if the window width hy is estimated so that the Parzen estimated distribution of Equation (14) is a good approximation of the true distribution, the evaluation criterion for MCE learning composed of a finite number of learning samples is unknown samples. It approaches the classification error probability for the entire pattern space including. At this time, the minimum state of the evaluation criteria for MCE learning approaches the minimum state of the classification error probability for the entire pattern space, and the generalization ability of MCE learning is improved.
〈交差確認型最尤推定に基づくParzen推定〉
本節と次節では、MCE学習における損失平滑度制御に限定されない一般的なParzen推定の議論を展開するので、与えられた(N´個の)標本をxk(k=1,2,…,N´)、Parzen窓幅をhとし、{xk}k=1 N´を生成した真の確率分布のParzen推定という一般的な問題を扱う。MCE学習における損失平滑度制御に対しては、N´=Nyおよびxk=dy(xy k,Λ)(k=1,2,…,Ny)として以下を適用する。これを各クラスCy(y=1,2,…,J)に対して行なう。
<Parzen estimation based on cross-confirmed maximum likelihood estimation>
In this section and the next section, a discussion of general Parzen estimation that is not limited to loss smoothness control in MCE learning will be developed. Therefore, given (N ′) samples are represented by x k (k = 1, 2,..., N '), a Parzen window width is h, treat the common problem of Parzen estimate of the true probability distribution that generated {x k} k = 1 N' . For loss smoothness control in MCE learning, the following applies as N ′ = N y and x k = d y (x y k , Λ) (k = 1, 2,..., N y ). This is performed for each class C y (y = 1, 2,..., J).
Parzen推定分布が真の分布を良好に近似するような窓幅hを決定するために、最尤推定法によりhを推定することを考える。ただし、平均または分散などの特性値を用いて分布モデルを構成するパラメトリック推定法と違い、非パラメトリック推定であるParzen推定は全ての標本を用いて推定分布を構成するため、同じ標本を推定分布に代入して尤度関数の最大化を行なうことができない(窓幅が0になってしまう)。そこで非特許文献3では、1個の標本を取除いた標本集合でParzen推定分布を構成し、取除いた標本を推定分布に代入することによる、交差確認型最尤推定が定式化されている。以下でこの概要を説明する。 In order to determine the window width h such that the Parzen estimated distribution is a good approximation to the true distribution, consider estimating h by the maximum likelihood estimation method. However, unlike the parametric estimation method that uses a characteristic value such as mean or variance, Parzen estimation, which is non-parametric estimation, constructs an estimated distribution using all samples, so the same sample is used as the estimated distribution. The likelihood function cannot be maximized by substituting (the window width becomes zero). Therefore, in Non-Patent Document 3, cross-confirmation type maximum likelihood estimation is formulated by forming a Parzen estimated distribution with a sample set from which one sample is removed, and substituting the removed sample into the estimated distribution. . This outline will be described below.
図7を参照して、与えられた N´個の標本xk(k=1,2,…,N´)から、n番目の標本xnを取除き、残りの標本でParzen推定分布82を構成する。図7において破線で表されたParzen窓80が、取除かれた標本xnに対応する。
Referring to FIG. 7, the n-th sample x n is removed from the given N ′ samples x k (k = 1, 2,..., N ′), and the Parzen estimated
〈EMアルゴリズムに基づくParzen窓幅決定法>
以下、本実施の形態の構成について説明する。式(20)のParzen窓幅hによる最大化は、一般的には多くの計算量を要する。本実施の形態に係る損失平滑度自動制御型MCE学習(次節において説明する。)はParzen窓幅hの最適化を多数回行なうため、この最適化を少ない計算量で実行するのが望ましい。そこで本実施の形態では、Parzen窓φが式(17)のガウス型関数である場合において、EMアルゴリズムによりParzen窓幅hの最大化を効率的に行なう。以下、図9に示すフローチャートを参照しながら、このEMアルゴリズムについて説明する。
<Parzen window width determination method based on EM algorithm>
Hereinafter, the configuration of the present embodiment will be described. The maximization by the Parzen window width h in the equation (20) generally requires a large amount of calculation. Since loss smoothness automatic control type MCE learning (described in the next section) according to the present embodiment optimizes the Parzen window width h many times, it is desirable to perform this optimization with a small amount of calculation. Therefore, in the present embodiment, when the Parzen window φ is a Gaussian function of Expression (17), the Parzen window width h is efficiently maximized by the EM algorithm. The EM algorithm will be described below with reference to the flowchart shown in FIG.
式(19)を次式のように変形する。 Equation (19) is transformed into the following equation.
繰返し計算の直前のステップにおいてParzen窓幅hの推定値^hが得られていると仮定する。EMアルゴリズムで用いられる負担率は次式となる。 Assume that an estimated value ^ h of the Parzen window width h is obtained in the step immediately before the iterative calculation. The burden factor used in the EM algorithm is as follows.
アルゴリズム表記の煩雑さを避けるため、再びq´m,nをqm,nと置きなおす。結局、Parzen窓幅の最尤推定に対するEMアルゴリズムは以下でまとめられる。
In order to avoid the complexity of the algorithm notation, q ′ m, n is replaced with q m, n again. Finally, the EM algorithm for maximum likelihood estimation of the Parzen window width is summarized below.
(1)初期値h(0)>0を与える。_l=0と設定。(図9のステップ220)
(2)次式のqm,nを計算する(n=1,…,N´;m=1,…,N´,m≠n)。(図9のステップ222、224及び226)
(1) An initial value h (0) > 0 is given. Set _l = 0. (
(2) Calculate q m, n of the following equation (n = 1,..., N ′; m = 1,..., N ′, m ≠ n). (
(1)各標本xn(n=1,…,N´)に対して、自身以外で最も近いデータを割当てる。
(1) The nearest data other than itself is assigned to each sample x n (n = 1,..., N ′).
[第1の実施の形態]
前節で説明したEMアルゴリズムに基づくParzen窓幅決定法を、誤分類測度空間上のParzen推定に適用することにより、損失平滑度の自動制御を伴うMCE学習アルゴリズムが定型化できる。具体的には、以下のアルゴリズムとなる。図8を参照しながら説明する。
[First Embodiment]
By applying the Parzen window width determination method based on the EM algorithm described in the previous section to Parzen estimation in a misclassification measure space, an MCE learning algorithm with automatic loss smoothness control can be standardized. Specifically, the following algorithm is used. This will be described with reference to FIG.
(1)分類器学習パラメータΛの初期値Λ(0)を設定する。エポック回数eの上限値Eを設定し、e=0に設定する。(ステップ140)
(2)e=0,1,…,Eに対して、以下のステップ180の処理を実行する。(ステップ142)ステップ180は以下のサブステップ(a)、(b)及び(c)を含む。
(1) The initial value Λ (0) of the classifier learning parameter Λ is set. Set the upper limit E of the number of epochs e and set e = 0. (Step 140)
(2) The following
(a)全てのクラスy=1,…,Jに対して以下のサブステップa1〜a3を含むステップ150を繰返す。
(a1)全てのクラスj(j=1…,J)に対する、クラスyに属する全ての学習標本(この個数をNy個とする。)の判別関数値gj(xk y,Λ(e))を計算する(j=1,…,J;k=1,…,Ny)。(ステップ144,146及び148)
(a2)クラスyに対して、以下のステップi〜iiiを実行する。(ステップ152〜ステップ158)
i.誤分類測度値dy(xk y,Λ(e))を計算する(k=1,…,Ny)。(ステップ152)
ii.N´=Nyおよびxk=dy(xk y,Λ(e))(k=1,…,Ny)として(ステップ154)、前節のEMアルゴリズムに基づくParzen窓幅決定法を実行し、最適窓幅hyを得る。(ステップ156)
iii.式(18)を実行して、最適な損失平滑度αyを得る。(ステップ158)
(b)学習標本集合ΩNから、学習標本(xn,yn)を取出して(ステップ162)、式(10)による分類器パラメータΛの調整を行なう(ステップ164)。これを各々の学習標本に対して順番に1回ずつ実行する(ステップ160)。全標本に対する調整が終了した時点で、新たな分類器パラメータΛ(e+1)を得る。(ステップ166)
(c)ΩNにおける学習標本の並び順をシャッフルする。(ステップ168)
上記アルゴリズムにおけるサブステップ2aは、毎エポックeにおいて実行しても良いが、実行間隔E´を設定して、エポックeが間隔E´の整数倍であるときのみ実行するようにしても良い。
(A)
(A1) Discriminant function values g j (x k y , Λ (e ) for all learning samples (this number is N y ) belonging to class y for all classes j (j = 1..., J) ) ) Is calculated (j = 1,..., J; k = 1,..., N y ). (
(A2) The following steps i to iii are executed for the class y. (Steps 152 to 158)
i. A misclassification measure value d y (x k y , Λ (e) ) is calculated (k = 1,..., N y ). (Step 152)
ii. N ′ = N y and x k = d y (x k y , Λ (e) ) (k = 1,..., N y ) (step 154), and execute the Parzen window width determination method based on the EM algorithm in the previous section And the optimum window width hy is obtained. (Step 156)
iii. Equation (18) is executed to obtain the optimum loss smoothness α y . (Step 158)
(B) The learning sample (x n , y n ) is taken out from the learning sample set Ω N (step 162), and the classifier parameter Λ is adjusted by equation (10) (step 164). This is executed once for each learning sample in turn (step 160). When the adjustment for all samples is completed, a new classifier parameter Λ (e + 1) is obtained. (Step 166)
(C) to shuffle the order of the training samples in Ω N. (Step 168)
The sub-step 2a in the above algorithm may be executed at every epoch e, but may be executed only when the execution interval E ′ is set and the epoch e is an integral multiple of the interval E ′.
〈実験結果〉
上記実施の形態体による、EMアルゴリズムに基づくParzen窓幅決定法を用いた装置を用い、以下のような実験を行なった。
<Experimental result>
The following experiment was performed using the apparatus using the Parzen window width determination method based on the EM algorithm according to the above-described embodiment.
上記実施の形態に係る装置は、元来、多様な判別関数に対して適用可能である。ここでは、1例として、プロトタイプ・ベクトル(「プロトタイプ」と省略する。)とのユークリッド距離を判別関数とする分類器を用いた実験を行なった。「プロトタイプ・ベクトル」とは、各クラスを代表するベクトルのことをいう。プロトタイプは1クラスあたり複数個設けることができる。本実験では、各クラスのプロトタイプ数をクラス共通で8とした。距離と確率との近縁性より、この分類器は汎用性が高く、音声認識などで多用される隠れマルコフモデルなどの確率測度型の判別関数に容易に適用可能である。 The device according to the above embodiment is originally applicable to various discriminant functions. Here, as an example, an experiment was performed using a classifier having a Euclidean distance from a prototype vector (abbreviated as “prototype”) as a discriminant function. “Prototype vector” refers to a vector representing each class. Multiple prototypes can be provided per class. In this experiment, the number of prototypes in each class was set to 8 in common. Due to the closeness between distance and probability, this classifier is highly versatile and can easily be applied to probability measure type discriminant functions such as hidden Markov models often used in speech recognition and the like.
クラスCjにおける判別関数は次式で与えられる。 The discriminant function in class C j is given by
実験にはUCI Machine Learning Repositoryが提供するGlass Identificationデータセットを用いた。このデータセットは6クラス214個のガラス標本パターンで構成されており、各ガラス標本の中に含まれる9種類の酸化物の含有量が、9次元ベクトル入力パターンとして与えられている。
データセットからある1つのパターンを認識対象として取除き、残りのパターンを用いて分類器を学習した後に、取除いたパターンを認識させるという処理を、214個全てのパターンに対して行なって認識率(オープン・データ認識率)を計算した (Leave‐One‐Out法)。また、取除いた一つのパターンを認識対象とするオープン・データ認識率計算に加えて、学習に用いた213個のパターンを対象にした認識率(クローズド・データ認識率)も計算した。クローズド・データ認識率の計算は214回行われるので、それらを平均したものを最終的なクローズド・データ認識率とした。
A Glass Identification data set provided by UCI Machine Learning Repository was used for the experiment. This data set is composed of 214 glass specimen patterns of 6 classes, and the contents of nine kinds of oxides contained in each glass specimen are given as 9-dimensional vector input patterns.
A recognition rate is obtained by removing one pattern from the data set as a recognition target, learning the classifier using the remaining patterns, and then recognizing the removed pattern for all 214 patterns. (Open data recognition rate) was calculated (Leave-One-Out method). In addition to the open data recognition rate calculation for the removed pattern as a recognition target, the recognition rate for the 213 patterns used for learning (closed data recognition rate) was also calculated. Since the calculation of the closed data recognition rate is performed 214 times, the average of them is used as the final closed data recognition rate.
テーブル1は従来型のMCE学習法に対する認識率の結果である。この方法では、式(7)の平滑化分類誤り損失の損失平滑度αyを予め定められた値(各クラス共通の損失平滑度α)に固定してMCE学習が行われる。すなわち、前節のアルゴリズムにおいて、α1=…=αJ=αが固定値に固定されるとともに、サブステップ2aが省略される。表では、複数種類の固定値である損失平滑度αに対する認識率が記されている。オープン・データ認識率の最高値は、α=1.0のときに得られている(75.23%)。 Table 1 shows the recognition rate results for the conventional MCE learning method. In this method, MCE learning is performed with the loss smoothness α y of the smoothed classification error loss in Expression (7) fixed to a predetermined value (loss smoothness α common to each class). That is, in the algorithm of the previous section, α 1 =... = Α J = α is fixed to a fixed value, and the sub-step 2a is omitted. In the table, the recognition rate for the loss smoothness α which is a plurality of types of fixed values is described. The highest open data recognition rate is obtained when α = 1.0 (75.23%).
[コンピュータによる実現]
以上に説明した第1の実施の形態に係るパターン分類器の学習装置は、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図10はこの実施の形態で用いられるコンピュータシステム550の外観を示し、図11はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。このコンピュータプログラムのうち、コアとなる部分は、図8及び図9のフローチャートにより示される制御構造を有する。
[Realization by computer]
The pattern classifier learning apparatus according to the first embodiment described above can be realized by a general-purpose computer and a computer program executed thereon. FIG. 10 shows the external appearance of a
図10を参照して、コンピュータシステム550は、コンピュータ560と、全てコンピュータ560に接続された、モニタ562と、キーボード566と、マウス568と、スピーカ558と、マイクロフォン590と、を含む。さらに、コンピュータ560はDVD−ROM(Digital Versatile Disk Read−Only−Memory:ディジタル多用途ディスク読出専用メモリ)ドライブ570と、半導体メモリドライブ572とを含む。
Referring to FIG. 10, a
図11を参照して、コンピュータ560はさらに、DVD−ROMドライブ570と半導体メモリドライブ572とに接続されたバス586と、全てバス586に接続された、CPU576と、コンピュータ560のブートアッププログラムを記憶するROM578と、CPU576によって使用される作業領域を提供するとともにCPU576によって実行されるプログラムのための記憶領域となるRAM580と、観測値データ(学習データ)などを記憶するためのハードディスクドライブ574と、ネットワーク552への接続を提供するネットワークインターフェイス596とを含む。
Referring to FIG. 11,
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM582又は半導体メモリ584等のコンピュータ読取可能な記録媒体に記録されたオブジェクトコード、スクリプト、又はソースプログラムの形で流通し、DVD−ROMドライブ570又は半導体メモリドライブ572等の読出装置を介してコンピュータ560に提供され、ハードディスクドライブ574に記憶される。ソースプログラムでコンピュータ560に導入されるときには、所定のコンパイラでコンパイルしてオブジェクトコードを生成する必要がある。CPU576がプログラムを実行する際には、オブジェクトプログラム(又はスクリプト)はハードディスクドライブ574から読出されてRAM580に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU576はハードディスクドライブ574から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ574に記憶する。スピーカ558とマイクロフォン590とは、直接に本発明とは関係ないが、スピーカ558は音声の再生時に必要である。音声についての学習データを収集するときには、発話データの収録にマイクロフォン590が必要となる。
The software that realizes the system of the above-described embodiment is distributed in the form of object code, script, or source program recorded on a computer-readable recording medium such as DVD-
学習用データは、予め収集され、入力パターンとそのパターンの属するクラスとの組を多数含む。学習用データは、ハードディスクドライブ574に記憶される。上記した処理により算出されるクラス分類用のパラメータセットΛは、一旦はハードディスクドライブ574などに記憶され、さらにネットワークを介して、又はUSBメモリを介して、分類器にコピーされる。分類器はこれらクラス分類用のパラメータセットΛを用いて入力パターンをいずれかのクラスに分類する。
The learning data is collected in advance and includes a large number of sets of input patterns and classes to which the patterns belong. The learning data is stored in the
コンピュータシステム550の一般的動作は周知であるので、詳細な説明はここでは繰返さない。
Since the general operation of
ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくても良い。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されても良い。ソフトウェアの一部がハードディスクドライブ574に記憶され、ソフトウェアの残りの部分をネットワーク上からハードディスクドライブ574に取込み、実行の際に統合する様にしても良い。
Regarding the software distribution method, the software does not necessarily have to be fixed on a storage medium. For example, the software may be distributed from another computer connected to the network. A part of the software may be stored in the
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に従って制御された態様で機能を達成する。従って、OS又はサードパーティから提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。
[第2の実施の形態]
上記第1の実施の形態の図8に示すアルゴリズムにより得られる結果と同等の結果を、異なるアルゴリズムで得ることもできる。そうしたアルゴリズムを実現するプログラムのフローチャートを図12に示す。
図12を参照して、第2の実施の形態に係る、損失平滑度の自動制御を伴うMCE学習を実現するプログラムは、図8に示すものと同様のステップ140及び142を含む。ただし、ステップ142では、図8のステップ180に代えて、ステップ600をすべてのエポックe=0,…,Eに対して繰返す。
ステップ600は、以下の処理ステップを含む。
(a)全ての学習標本および全てのクラスに対する判別関数値gj(xn,Λ(e))を計算する(j=1,…,J;n=1,…,N)。(ステップ610,612及び614)
(b)各クラスy=1,…,Jに対して、以下のステップi〜iiiからなるステップ620を実行する。(ステップ616)
i.誤分類測度値dy(xk y,Λ(e))を計算する(k=1,…,Ny)。(ステップ152)
ii.N´=Nyおよびxk=dy(xk y,Λ(e))(k=1,…,Ny)として(ステップ154)、第1の実施の形態と同じEMアルゴリズムに基づくParzen窓幅決定法を実行し、最適窓幅hyを得る。(ステップ156)
iii.式(18)を実行して、最適な損失平滑度αyを得る。(ステップ158)
ステップ620を全てのクラスy=1,…,Jに対して実行すると、制御はステップ160に移る。ステップ160以下の処理は、図8に示したものと同様である。
この図12に示すアルゴリズムを用いても、図8に示した第1の実施の形態によるものと同様の結果を得ることができる。
Typically, modern computers utilize the general functions provided by a computer operating system (OS) to achieve functions in a controlled manner according to the desired purpose. Therefore, a control structure that does not include a general function that can be provided from the OS or a third party, and that achieves a desired purpose as a whole even if the program specifies only a combination of execution orders of the general functions. It is obvious that the program is included in the scope of the present invention.
[Second Embodiment]
A result equivalent to the result obtained by the algorithm shown in FIG. 8 of the first embodiment can be obtained by a different algorithm. FIG. 12 shows a flowchart of a program that realizes such an algorithm.
Referring to FIG. 12, the program for realizing MCE learning with automatic loss smoothness control according to the second embodiment includes
Step 600 includes the following processing steps.
(A) Compute discriminant function values g j (x n , Λ (e) ) for all learning samples and all classes (j = 1,..., J; n = 1,..., N). (
(B) For each class y = 1,..., J, execute
i. A misclassification measure value d y (x k y , Λ (e) ) is calculated (k = 1,..., N y ). (Step 152)
ii. As N ′ = N y and x k = d y (x k y , Λ (e) ) (k = 1,..., N y ) (step 154), Parzen based on the same EM algorithm as in the first embodiment The window width determination method is executed to obtain the optimum window width hy . (Step 156)
iii. Equation (18) is executed to obtain the optimum loss smoothness α y . (Step 158)
When
Even when the algorithm shown in FIG. 12 is used, the same result as that of the first embodiment shown in FIG. 8 can be obtained.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.
20,30 グラフ
40 Parzen窓群
42,82 分類誤り数リスクの推定値の関数
50,60,70,80 Parzen窓
20, 30
Claims (6)
各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含み、
クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類測度値dy(x,Λ)が以下により定義され、
前記J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する前記誤分類測度値を求め、当該クラスに属する標本を生成した真の確率分布を、誤分類測度空間における各誤分類測度値を中心とする、Parzen窓幅hyのParzen分布であって、かつ前記誤分類測度値の関数として、交差確認型最尤推定により推定するためのParzen分布推定手段を含み、
当該Parzen分布推定手段は、前記交差確認型最尤推定において、前記Parzen窓幅hyの関数としてParzen分布の尤度を評価し、
前記J個のクラスCyの各々について、前記Parzen分布推定手段による前記交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
前記学習標本集合から学習標本を1つずつ取り出し、分類誤りリスクを最小化するよう、前記学習パラメータΛを逐次的に調整するための学習パラメータ調整手段と、
前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、前記終了条件が成立したときの前記学習パラメータΛを出力するための繰返し制御手段とを含む、分類器の学習装置。 A classifier learning device that classifies an input pattern into one of J classes C j (j is an integer of 1 to J),
Learning sample storage means for storing N (N is a positive integer) learning samples each including an input pattern and a class to which the input pattern belongs;
Initializing means for initializing the learning parameter Λ of the classifier by a predetermined setting method,
Class C misclassification measure value measure the degree to which the input pattern x is misclassified other classes of training samples belonging to y d y (x, Λ) is defined below,
For each of the J-number of class C y, determined the misclassification measure value for each of the training samples belonging to the class C y, the true probability distribution that generated the sample belonging to the class, each of misclassification measure space A Parzen distribution centered on the misclassification measure value and having a Parzen window width hy , and including, as a function of the misclassification measure value, Parzen distribution estimation means for estimating by cross-validation maximum likelihood estimation,
The Parzen distribution estimation means evaluates the likelihood of the Parzen distribution as a function of the Parzen window width hy in the intersection confirmation type maximum likelihood estimation,
For each of the J-number of class C y, the Parzen in the cross-validation type maximum likelihood estimation by distribution estimating means to Parzen window width h y giving the Parzen distribution as a maximum likelihood, the following function
Learning parameter adjustment means for sequentially adjusting the learning parameter Λ so as to take out one learning sample from the learning sample set one by one and minimize the classification error risk;
The Parzen distribution estimating means, the optimum loss smoothness calculating means, and the learning parameter adjusting means are repeatedly operated until a predetermined end condition is satisfied, and the learning parameter Λ when the end condition is satisfied is output. A classifier learning device comprising: an iterative control means.
前記Parzen分布を構成するParzen窓がガウス型関数であり、
前記Parzen分布推定手段は、クラスCyに属する標本から1個の標本を取り除き、残りの標本でParzen推定分布を構成するためのParzen推定分布構成手段と、
前記Parzen推定分布構成手段を規定する式を、混合重み係数が1/(N´−1)(N´はクラスCyに属する標本の個数)であるN´−1個の混合ガウス分布確率密度関数と見なし、EMアルゴリズムにより当該混合ガウス分布確率密度関数を最大化するParzen分布窓幅hyを算出するための窓幅算出手段とを含む、学習装置。 The learning device according to any one of claims 1 to 4,
The Parzen window constituting the Parzen distribution is a Gaussian function,
The Parzen distribution estimating means removes one specimen from the specimen belonging to the class C y, a Parzen estimated distribution configuration means for configuring the Parzen estimate distribution in the rest of the sample,
The expression for defining the Parzen estimate distribution arrangement means, mixing weighting factor 1 / (N'-1) ( N' Class C belongs number of specimens y) is N'-1 single Gaussian mixture probability density A learning apparatus comprising: a window width calculating means for calculating a Parzen distribution window width hy that is regarded as a function and maximizes the mixed Gaussian distribution probability density function by an EM algorithm.
各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムであって、
クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される誤分類測度値dy(x,Λ)が以下により定義され、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する前記誤分類測度値を求め、当該クラスに属する標本を生成した真の確率分布を、誤分類測度空間における各誤分類測度値を中心とする、Parzen窓幅hyのParzen分布であって、かつ前記誤分類測度値の関数として、交差確認型最尤推定により推定するためのParzen分布推定手段として機能させ、
当該Parzen分布推定手段は、前記交差確認型最尤推定において、前記Parzen窓幅hyの関数としてParzen分布の尤度を評価し、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記J個のクラスCyの各々について、前記Parzen分布推定手段による前記交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
前記学習標本集合から学習標本を1つずつ取り出し、分類誤りリスクを最小化するよう、前記学習パラメータΛを逐次的に調整するための学習パラメータ調整手段と、
前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、前記終了条件が成立したときの前記学習パラメータΛを出力するための繰返し制御手段として機能させる、コンピュータプログラム。 In order to classify the input pattern into any of J classes C j (j is an integer from 1 to J),
Learning sample storage means for storing N (N is a positive integer) learning samples each including an input pattern and a class to which the input pattern belongs;
A computer program that functions as an initialization unit for initializing the learning parameter Λ of the classifier by a predetermined setting method,
Class C misclassification measure value input pattern x of training samples belonging to y is misclassified other classes d y (x, lambda) is defined below,
The computer program further includes the computer.
For each of the J-number of class C y, determined the misclassification measure value for each of the training samples belonging to the class C y, the true probability distribution that generated the sample belonging to the class, each of misclassification measure space A Parzen distribution with a Parzen window width hy , centered on the misclassification measure value, and functioning as a Parzen distribution estimation means for estimating by cross-validation maximum likelihood estimation as a function of the misclassification measure value,
The Parzen distribution estimation means evaluates the likelihood of the Parzen distribution as a function of the Parzen window width hy in the intersection confirmation type maximum likelihood estimation,
The computer program further includes the computer.
For each of the J-number of class C y, the Parzen in the cross-validation type maximum likelihood estimation by distribution estimating means to Parzen window width h y giving the Parzen distribution as a maximum likelihood, the following function
Learning parameter adjustment means for sequentially adjusting the learning parameter Λ so as to take out one learning sample from the learning sample set one by one and minimize the classification error risk;
The Parzen distribution estimating means, the optimum loss smoothness calculating means, and the learning parameter adjusting means are repeatedly operated until a predetermined end condition is satisfied, and the learning parameter Λ when the end condition is satisfied is output. A computer program that functions as a repetitive control means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010184334A JP5527728B2 (en) | 2010-08-19 | 2010-08-19 | Pattern classification learning device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010184334A JP5527728B2 (en) | 2010-08-19 | 2010-08-19 | Pattern classification learning device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012043221A JP2012043221A (en) | 2012-03-01 |
JP5527728B2 true JP5527728B2 (en) | 2014-06-25 |
Family
ID=45899438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010184334A Expired - Fee Related JP5527728B2 (en) | 2010-08-19 | 2010-08-19 | Pattern classification learning device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5527728B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022201320A1 (en) * | 2021-03-23 | 2022-09-29 | 日本電信電話株式会社 | Class label estimation device, error source estimation method, and program |
-
2010
- 2010-08-19 JP JP2010184334A patent/JP5527728B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012043221A (en) | 2012-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7306062B2 (en) | Knowledge transfer method, information processing device and storage medium | |
US9311609B2 (en) | Techniques for evaluation, building and/or retraining of a classification model | |
Pernkopf et al. | Genetic-based EM algorithm for learning Gaussian mixture models | |
US20180349158A1 (en) | Bayesian optimization techniques and applications | |
CN113168559A (en) | Automated generation of machine learning models | |
JP2012181579A (en) | Pattern classification learning device | |
Duy et al. | Computing valid p-value for optimal changepoint by selective inference using dynamic programming | |
CN111784595B (en) | Dynamic tag smooth weighting loss method and device based on historical record | |
JP2019133046A (en) | Learning apparatus, learning method, and learning program | |
CN113128671B (en) | Service demand dynamic prediction method and system based on multi-mode machine learning | |
JP5704692B2 (en) | Pattern classification device learning device and computer program therefor | |
JP2020034882A (en) | Mask-estimating device, mask-estimating method, and mask-estimating program | |
Sugiyama et al. | More powerful and general selective inference for stepwise feature selection using homotopy method | |
KR20210099795A (en) | Autoencoder-based graph construction for semi-supervised learning | |
CN113011532A (en) | Classification model training method and device, computing equipment and storage medium | |
JP5527728B2 (en) | Pattern classification learning device | |
JP5288378B2 (en) | Acoustic model speaker adaptation apparatus and computer program therefor | |
JP5486569B2 (en) | Pattern identification method, pattern identification apparatus, and program | |
JP2008217592A (en) | Language analysis model learning device, language analysis model learning method, language analysis model learning program and recording medium | |
JP5255484B2 (en) | Clustering distance learning device and program thereof, and clustering device | |
Zhang et al. | Tailoring an interpretable neural language model | |
Ortiz et al. | Magnitude Invariant Parametrizations Improve Hypernetwork Learning | |
JP6324647B1 (en) | Speaker adaptation device, speech recognition device, and speech recognition method | |
JP5834287B2 (en) | Pattern classification learning device | |
KR102583943B1 (en) | A neural network apparatus and neural network learning method for performing continuous learning using a correlation analysis algorithm between tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140407 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5527728 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |