JP5527728B2 - Pattern classification learning device - Google Patents

Pattern classification learning device Download PDF

Info

Publication number
JP5527728B2
JP5527728B2 JP2010184334A JP2010184334A JP5527728B2 JP 5527728 B2 JP5527728 B2 JP 5527728B2 JP 2010184334 A JP2010184334 A JP 2010184334A JP 2010184334 A JP2010184334 A JP 2010184334A JP 5527728 B2 JP5527728 B2 JP 5527728B2
Authority
JP
Japan
Prior art keywords
parzen
learning
distribution
class
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010184334A
Other languages
Japanese (ja)
Other versions
JP2012043221A (en
Inventor
秀行 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2010184334A priority Critical patent/JP5527728B2/en
Publication of JP2012043221A publication Critical patent/JP2012043221A/en
Application granted granted Critical
Publication of JP5527728B2 publication Critical patent/JP5527728B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は何らかの測定データを所定のクラスのいずれかに分類するパターン分類の学習装置に関し、特に、MCE(最小分類誤り学習)を用い、効率的に学習が行なえる学習装置に関する。   The present invention relates to a pattern classification learning apparatus that classifies some measurement data into one of predetermined classes, and more particularly to a learning apparatus that can perform learning efficiently using MCE (minimum classification error learning).

[パターン認識と学習]
人間と機械との間のインターフェイスにおいて、パターン認識は重要な技術である。パターン認識技術は、話者の識別、発話内容の認識、顔画像による人物の識別、及び文字認識など、様々な局面で使用される。パターン認識は、端的にいえば、何らかの物理現象を観測することにより得られる観測値のパターンを、複数個のクラスに分類する作業であるということができる。こうした作業は人間には比較的簡単であるが、これを機械にさせるのは容易ではない。そうした作業を行なう装置は、包括的に呼べばパターン認識装置ということになるが、パターン認識装置にパターン認識を行なわせるためには、学習データを統計的に処理することにより、分類に必要なパラメータを得る、学習と呼ばれる予備的な作業が必要とされる。
[Pattern recognition and learning]
Pattern recognition is an important technique in the interface between humans and machines. The pattern recognition technique is used in various aspects such as speaker identification, utterance content recognition, person identification by face image, and character recognition. In short, pattern recognition can be said to be an operation of classifying observed value patterns obtained by observing some physical phenomenon into a plurality of classes. These tasks are relatively easy for humans, but it is not easy to make them work. A device that performs such work is a pattern recognition device if it is called comprehensively, but in order to make the pattern recognition device perform pattern recognition, the learning data is processed statistically, and the parameters necessary for classification A preliminary work called learning is required.

入力パターン(観測値)x∈ΧをJ個のクラス(類)C,…,Cのいずれか1つに割当てる分類タスクを考える。ここで、Χは全入力パターン空間を表す。 Consider a classification task that assigns an input pattern (observed value) xεΧ to any one of J classes (classes) C 1 ,..., C J. Here, Χ represents the entire input pattern space.

分類器の学習のための統計的アプローチは、分類リスクの最小化の概念に基づく。分類リスクとは、個々の入力パターンを分類する際に課せられる損失の、全パターン空間に対する期待値である。最も自然で基本的な損失は分類誤り数損失(0‐1損失)である。この損失は、誤分類に対して値1を、正分類に対して値0を、それぞれ課す損失である。この損失は次式で定義される。   The statistical approach for classifier learning is based on the concept of minimizing classification risk. The classification risk is an expected value for the entire pattern space of a loss imposed when classifying individual input patterns. The most natural and basic loss is the classification error number loss (0-1 loss). This loss is a loss that imposes a value of 1 for misclassification and a value of 0 for correct classification. This loss is defined by the following equation.

Figure 0005527728
ここで_l(C|C)(「_」は直後の文字が筆記体であることを表す。)は、クラスCに属するパターンをクラスCに分類する際に課せられる分類誤り数損失である。
Figure 0005527728
Here _l (C j | C y) (. "_" As indicating that the character following it is a cursive) the classification error count imposed in classifying patterns belonging to the class C y in class C j It is a loss.

分類器学習の究極の目標は、次式の分類誤り数リスクRを最小にする分類決定則c:Χ→{Cj=1 の実現である。 The ultimate goal of classifier learning is to realize a classification decision rule c: Χ → {C j } j = 1 J that minimizes the classification error number risk R in the following equation.

Figure 0005527728
ただしpは確率密度関数を表す。Rは全入力空間Χに対する分類誤り確率に等しい。
Figure 0005527728
However, p represents a probability density function. R is equal to the classification error probability for the entire input space Χ.

以下、本発明に特に関連する最小分類誤り(MCE)学習(非特許文献1)について説明する。   Hereinafter, minimum classification error (MCE) learning (Non-Patent Document 1) particularly related to the present invention will be described.

[MCE学習]
〈判別関数に基づく分類決定則〉
MCE学習法は、判別関数を用いた次式の実際的な分類決定則を採用しRの直接的最小化を目指す。
[MCE learning]
<Classification decision rule based on discriminant function>
The MCE learning method employs a practical classification decision rule of the following equation using a discriminant function and aims at direct minimization of R.

Figure 0005527728
ここでg(x、Λ)はクラスCに対する判別関数であり、任意の関数形において、xがCに帰属する度合いを測る。Λは分類器の学習パラメータ(調整パラメータ)セットを表す。g(x、Λ)はΛに関して微分可能であるとする。
〈誤分類測度〉
式(3)の決定則は全ての判別関数値の計算とそれらの比較演算とからなる。比較を含む演算は、学習段階で要求されるパラメータ最適化のような数値演算には適さない。したがって、式(3)を、数値演算に適した形式に置換えなければならない。MCE学習は、Lpノルム形式の平滑な誤分類測度を学習パターンに適用することでそのような置換を実現する。クラスCに属するパターンxに対する誤分類測度は次式で定義される。
Figure 0005527728
Here, g j (x, Λ) is a discriminant function for class C j and measures the degree to which x belongs to C j in an arbitrary function form. Λ represents a learning parameter (adjustment parameter) set of the classifier. Let g j (x, Λ) be differentiable with respect to Λ.
<Misclassification measure>
The decision rule of equation (3) consists of calculating all discriminant function values and comparing them. Computations involving comparisons are not suitable for numerical computations such as parameter optimization required in the learning stage. Therefore, Equation (3) must be replaced with a format suitable for numerical operations. MCE learning implements such replacement by applying a smooth misclassification measure in Lp-norm format to the learning pattern. Classification measure erroneous with respect to the pattern x belonging to the class C y is defined by the following equation.

Figure 0005527728
ここでψは正の実数である。またlogを自然対数とする。ψ→∞とすることにより
Figure 0005527728
Here, ψ is a positive real number. Log is a natural logarithm. By setting ψ → ∞

Figure 0005527728
となることから確認できるように、十分大きいψにおいて、dの正値は誤分類を、dの負値は正分類を表す。dの絶対値は分類決定の確信度を表す。加えて、dはΛに関して微分可能であり、最も基本的な勾配探索型の最適化手法を学習に適用することが可能となる。
Figure 0005527728
As can be seen from the fact that a, in large enough [psi, a positive value is misclassification of d y, negative values of d y represents a positive classification. the absolute value of d y represents the confidence of the classification decision. In addition, dy is differentiable with respect to Λ, and the most basic gradient search type optimization method can be applied to learning.

MCE学習は誤分類測度を駆使して式(1)の分類誤り数損失および式(2)のリスクを再定式化し、効率的な最適化手法の適用を可能にする。誤分類測度の定義に基づき、分類誤り数損失は次の式のように書換えられる。   MCE learning uses the misclassification measure to reformulate the number of classification error losses in equation (1) and the risk in equation (2), enabling efficient optimization techniques to be applied. Based on the definition of the misclassification measure, the classification error count loss can be rewritten as:

Figure 0005527728
この関数のグラフ20を図1に示す。ここで関数1(P)は、命題Pが真ならば1を、偽ならば0を、それぞれ返す指示関数である。リスクは次式のようなΛの関数として再定義される。
Figure 0005527728
A graph 20 of this function is shown in FIG. Here, the function 1 (P) is an instruction function that returns 1 if the proposition P is true and 0 if it is false. Risk is redefined as a function of Λ as

Figure 0005527728
〈平滑化分類誤り数損失〉
分類誤り数損失l(d(x,Λ)>0)はΛに関して微分不可能である。この計算上の問題を克服するために、MCE学習は微分可能な平滑化分類誤り数損失を定義して、これに式(1)を置換える。クラスCに属するパターンxに対する平滑化分類誤り数損失として、MCE学習では一般に、次式のロジスティックシグモイド関数が用いられる。
Figure 0005527728
<Smooth classification error number loss>
The classification error number loss l (d y (x, Λ)> 0) is not differentiable with respect to Λ. To overcome this computational problem, MCE learning defines a differentiating smoothed classification error number loss and replaces it with equation (1). As the smoothing classification error count loss for the class C y belonging pattern x, the MCE learning Generally, the logistic sigmoid function of the following equation is used.

Figure 0005527728
式(7)により表わされる関数のグラフ30を図2に示す。ここで損失平滑度αは正の実数である。この_l(d(x,Λ))は誤分類測度d(x,Λ)の単調増加関数であり、損失平滑度αが大きくなるにつれて傾きが大きく(急に)なり、損失平滑度α→∞の極限で1(d(x,Λ)>0)に一致する。すなわち、平滑化分類誤り数損失は、誤分類カウントと直接的に結びついているだけでなく、Λに関して微分可能である。MCE学習の最終的な学習目的は、式(6)における1(d(x,Λ)>0)を_l(d(x,Λ))に置換えた次式の期待損失を最小にするΛを求めることである。
Figure 0005527728
FIG. 2 shows a graph 30 of the function represented by the equation (7). Here, the loss smoothness α y is a positive real number. This _l y (d y (x, Λ)) is a monotonically increasing function of the misclassification measure d y (x, Λ), and the slope increases (suddenly) as the loss smoothness α y increases, and the loss smoothing It coincides with 1 (d y (x, Λ)> 0) in the limit α y → ∞. That is, the smoothed classification error number loss is not only directly related to the misclassification count, but is also differentiable with respect to Λ. The final learning purpose of MCE learning is to minimize the expected loss of the following equation by replacing 1 (d y (x, Λ)> 0) in equation (6) with _l y (d y (x, Λ)) Is to find Λ.

Figure 0005527728
損失平滑度α→∞において、式(8)は式(6)と一致する。
Figure 0005527728
In the loss smoothness α y → ∞, the equation (8) matches the equation (6).

式(8)は無限個の入力パターンに関する積分を含む。しかし現実的には、有限個(N個)の標本からなる学習標本集合Ω={(x,y)}n=1 を使ってΛを推定することしかできない。ここでx∈Χはn番目の学習パターン、すなわち学習標本でありy(=1,…,J)は標本xが属するクラスの指標である。したがって、現実的なMCE学習の評価基準は、式(8)を有限の学習標本集合Ωで近似する次式の経験的平均損失となる。 Equation (8) includes integration over an infinite number of input patterns. However, in reality, it is only possible to estimate Λ using a learning sample set Ω N = {(x n , y n )} n = 1 N consisting of a finite number (N) of samples. Here, x n ∈Χ is the nth learning pattern, that is, a learning sample, and y n (= 1,..., J) is an index of a class to which the sample x n belongs. Therefore, evaluation criteria of realistic MCE learning, the empirical average loss of the following equation that approximates the equation (8) in the finite learning sample set Ω N.

Figure 0005527728
MCE学習では、この経験的平均損失^L(Λ)(記号「^」は、式中では直後の文字の直上に記載されている。)を最小にするようなパラメータΛを求める。有限個の学習標本のみから構成される上式の^L(Λ)は、当然ながら、学習標本集合に含まれない全ての未知パターンをも含む分類誤り数リスク(分類誤り確率)R(Λ)の近似にすぎず、^L(Λ)を最小にするΛがR(Λ)を最小にする保証はない。しかし、適度な有限値の損失平滑度αを設定することにより、評価基準^L(Λ)が平滑な関数となり、学習標本集合に含まれない未知パターンに対する学習耐性を向上させる。すなわちこの平滑化により、与えられた学習標本のみならずその近傍に対しても損失が敏感となり、学習標本数を増やす効果が得られる。したがって適切な損失平滑度αを設定することが、汎化能力向上に対して極めて重要である。
Figure 0005527728
In MCE learning, a parameter Λ that minimizes this empirical average loss ^ L (Λ) (the symbol “^” is described immediately above the character immediately after in the equation) is obtained. Of course, ^ L (Λ) in the above equation consisting only of a finite number of learning samples is, of course, the risk of classification error (classification error probability) R (Λ) including all unknown patterns not included in the learning sample set. Λ that minimizes L (Λ) is not guaranteed to minimize R (Λ). However, by setting an appropriate finite-value loss smoothness α y , the evaluation criterion ^ L (Λ) becomes a smooth function and improves learning tolerance for unknown patterns not included in the learning sample set. That is, this smoothing makes the loss sensitive not only to a given learning sample but also to the vicinity thereof, and the effect of increasing the number of learning samples can be obtained. Therefore, setting an appropriate loss smoothness α y is extremely important for improving the generalization ability.

B.‐H.ジュアン及びS.カタギリ,「最小誤り分類のための識別学習」 IEEE 信号処理トランザクション、第40巻、第12号,pp.3043‐3054,1992年12月(B.‐H. Juang and S. Katagiri, “Discriminative learning for minimum error classification,” IEEE Trans. Signal Processing, vol.40, no.12, pp.3043‐3054, Dec. 1992.)B. -H. Juan and S. Katagiri, “Distinguishing Learning for Minimum Error Classification” IEEE Signal Processing Transactions, Vol. 40, No. 12, pp. 3043-3054, December 1992 (B.-H. Juang and S. Katagiri, “Discriminative learning for minimum error classification,” IEEE Trans. Signal Processing, vol.40, no.12, pp.3043-3054, Dec. 1992.) E.マクダーマット及びS.カタギリ,「Parzen推定を用いた、理論的分類リスクからの最小分類誤りの導出」、コンピュータ・スピーチ及び言語、第18巻、pp.107‐122,2004年4月(E. McDermott and S. Katagiri, “A derivation of minimum classification error from the theoretical classification risk using Parzen estimation,” Computer Speech and Language, vol.18, pp.107‐122, April 2004.)E. McDermat and S. Katagiri, “Deriving Minimum Classification Errors from Theoretical Classification Risk Using Parzen Estimation”, Computer Speech and Language, Vol. 18, pp. 107-122, April 2004 (E. McDermott and S. Katagiri, “A derivation of minimum classification error from the theoretical classification risk using Parzen estimation,” Computer Speech and Language, vol.18, pp.107-122, April 2004.) R.P.W.デュイン,「確率密度関数のParzen推定のための平滑化関数の選択について」、IEEE トランザクション・オブ・コンピュータ、第C−25巻、pp.1175‐1179,1976年11月(R.P.W. Duin, “On the choice of smoothing parameters for Parzen estimators of probability density functions,” IEEE Trans. Comput., vol.C‐25, pp.1175‐1179, Nov. 1976.)R. P. W. Duin, “Selecting a Smoothing Function for Parzen Estimation of the Probability Density Function”, IEEE Transaction of Computer, Vol. C-25, pp. 1175-1179, November 1976 (RPW Duin, “On the choice of smoothing parameters for Parzen estimators of probability density functions,” IEEE Trans. Comput., Vol. C-25, pp. 1175-1179, Nov. 1976. ) C.M.ビショップ(元田浩、栗田多喜夫、樋口知之、松本裕治、村田昇監訳),パターン認識と機械学習 下、シュプリンガー・ジャパン、東京、2007年.C. M.M. Bishop (translated by Hiroshi Motoda, Takio Kurita, Tomoyuki Higuchi, Yuji Matsumoto, Noboru Murata), Pattern Recognition and Machine Learning, Springer Japan, Tokyo, 2007.

従来、上記した損失平滑度αを決めるための具体的な設定指針が与えられていない。そのため、損失平滑度αはアドホックに設定せざるを得ないという問題がある。そのようにして得られた損失平滑度αは、学習データに対しては有効ではあるものの、未知のデータに対して高い認識が得られる可能性が低いという問題がある。すなわち、従来の学習装置では、得られる分類器の汎化能力を高くすることが難しいという問題がある。 Conventionally, a specific setting guideline for determining the above-described loss smoothness α y has not been given. Therefore, there is a problem that the loss smoothness α y must be set to ad hoc. Although the loss smoothness α y obtained in this way is effective for learning data, there is a problem that it is unlikely that high recognition is obtained for unknown data. That is, the conventional learning device has a problem that it is difficult to increase the generalization ability of the obtained classifier.

したがって本発明の目的は、MCE学習によるパターン分類器の学習装置において、得られる分類器の汎化能力を高くすることができる学習装置を提供することである。   Accordingly, an object of the present invention is to provide a learning device capable of increasing the generalization ability of the obtained classifier in the learning device for a pattern classifier by MCE learning.

本発明の他の目的は、MCE学習によるパターン分類器の学習装置において、汎化能力を高めることができる損失平滑度を具体的な設定指針によって算出することができる学習装置を提供することである。   Another object of the present invention is to provide a learning device that can calculate loss smoothness that can increase generalization ability with a specific setting guideline in a learning device for a pattern classifier by MCE learning. .

本発明の第1の局面に係る学習装置は、入力パターンをJ個のクラスC(jは1〜Jの整数)のいずれかに分類する分類器の学習装置であって、各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含む。クラスCに属する学習標本の入力パターンxが他のクラスに誤分類される誤分類測度値d(x,Λ)が以下により定義される。 The learning device according to the first aspect of the present invention is a learning device for a classifier that classifies an input pattern into any of J classes C j (j is an integer from 1 to J), each of which is an input pattern. And a learning sample storage means for storing N learning samples (N is a positive integer) including the class to which the class belongs and initialization for initializing the learning parameter Λ of the classifier by a predetermined setting method Means. A misclassification measure value d y (x, Λ) in which the input pattern x of the learning sample belonging to the class C y is misclassified into another class is defined as follows.

Figure 0005527728
ただしψは正の実数であり、g(x、Λ)はJ個のクラスCの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数である。この学習装置はさらに、J個のクラスCの各々について、当該クラスCに属する学習標本の各々に関する前記誤分類測度値を求め、当該クラスに属する標本を生成した真の確率分布を、誤分類測度空間における各誤分類測度値を中心とする、Parzen窓幅hのParzen分布であって、かつ誤分類測度値の関数として、交差確認型最尤推定により推定するためのParzen分布推定手段を含む。
Parzen分布推定手段は、交差確認型最尤推定において、Parzen窓幅hの関数としてParzen分布の尤度を評価する。学習装置はさらに、J個のクラスCの各々について、Parzen分布推定手段による交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hに対し、以下の関数
Figure 0005527728
However the ψ is a positive real number, g y (x, Λ) for each of J-number of class C y, the input pattern x of training samples are used to determine the degree of whether belonging to the class A discriminant function of any form. The learning apparatus further, for each of the J Class C y, determined the misclassification measure value for each of the training samples belonging to the class C y, the true probability distribution that generated the sample belonging to the class, erroneous Parzen distribution estimator for parzen distribution with Parzen window width hy , centered on each misclassified measure value in the classified measure space, and for estimating by cross-confirmation type maximum likelihood estimation as a function of the misclassified measure value including.
The Parzen distribution estimation means evaluates the likelihood of the Parzen distribution as a function of the Parzen window width hy in the cross-confirmation type maximum likelihood estimation. Learning apparatus further comprises for each of the J Class C y, to Parzen window width h y giving the Parzen distribution as a maximum likelihood in cross-validation type maximum likelihood estimation by Parzen distribution estimating means, the following functions

Figure 0005527728
によって、分類器のクラスCに対する損失平滑度の最適値αを算出するための最適損失平滑度算出手段と、学習標本集合から学習標本を1つずつ取出し、分類誤りリスクを最小化するよう、学習パラメータΛを逐次的に調整するための学習パラメータ調整手段と、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段を、予め定める終了条件が成立するまで繰返し動作させ、終了条件が成立したときの学習パラメータΛを出力するための繰返し制御手段とを含む。
Figure 0005527728
Accordingly, the optimum loss smoothness calculating means for calculating the optimum value alpha y loss smoothness for the class C y classifier, taken out from the learning sample set, one of the training samples, to minimize the classification error risk The learning parameter adjusting means for sequentially adjusting the learning parameter Λ, the Parzen distribution estimating means, the optimum loss smoothness calculating means, and the learning parameter adjusting means are repeatedly operated until a predetermined end condition is satisfied, Repetitive control means for outputting a learning parameter Λ when the condition is satisfied.

好ましくは、学習装置はさらに、繰返し制御手段による繰返しの前、かつ学習パラメータ調整手段による学習パラメータΛの調整の前に、学習標本の並び順を乱数にしたがってシャッフルするためのシャッフル手段を含む。   Preferably, the learning device further includes shuffle means for shuffling the arrangement order of learning samples according to random numbers before repetition by the repetition control means and before adjustment of the learning parameter Λ by the learning parameter adjustment means.

より好ましくは、予め定める終了条件は、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段による動作が所定回数完了したこと、という条件である。   More preferably, the predetermined termination condition is a condition that the operations by the Parzen distribution estimation unit, the optimum loss smoothness calculation unit, and the learning parameter adjustment unit have been completed a predetermined number of times.

さらに好ましくは、繰返し制御手段は、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段のうち、Parzen分布推定手段、及び最適損失平滑度算出手段の動作を定期的に省略する。   More preferably, the iterative control means periodically omits the operations of the Parzen distribution estimation means and the optimum loss smoothness calculation means among the Parzen distribution estimation means, the optimum loss smoothness calculation means, and the learning parameter adjustment means.

Parzen分布を構成するParzen窓がガウス型関数であり、Parzen分布推定手段は、クラスCに属する標本から1個の標本を取除き、残りの標本でParzen推定分布を構成するためのParzen推定分布構成手段と、Parzen推定分布構成手段を規定する式を、混合重み係数が1/(N´−1)(N´はクラスCに属する標本の個数)であるN´−1個の混合ガウス分布確率密度関数と見なし、EMアルゴリズムにより当該混合ガウス分布確率密度関数を最大化するParzen分布窓幅hを算出するための窓幅算出手段とを含んでも良い。 A Parzen window Gaussian functions constitute the Parzen distribution, Parzen distribution estimating means removes one specimen from the specimen belonging to the class C y, Parzen estimate distribution for constituting the Parzen estimate distribution in the rest of the sample a configuration unit, the expression for defining the Parzen estimate distribution arrangement means, mixing weighting factor 1 / (N'-1) ( N' the number of samples belonging to the class C y) N'-1 single Gaussian mixture is It may be considered as a distribution probability density function, and may include a window width calculation means for calculating a Parzen distribution window width hy that maximizes the mixed Gaussian distribution probability density function by an EM algorithm.

本発明の第2の局面に係るコンピュータプログラムは、入力パターンをJ個のクラスC(jは1〜Jの整数)のいずれかに分類するために、コンピュータを、各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムである。クラスCに属する学習標本の入力パターンxが他のクラスに誤分類される誤分類測度値d(x,Λ)が以下により定義される。 The computer program according to the second aspect of the present invention classifies an input pattern into any one of J classes C j (j is an integer from 1 to J), and each of the computers belongs to the input pattern. Functions as learning sample storage means for storing N learning samples (N is a positive integer) including classes, and initialization means for initializing the learning parameters Λ of the classifier by a predetermined setting method It is a computer program to make it. A misclassification measure value d y (x, Λ) in which the input pattern x of the learning sample belonging to the class C y is misclassified into another class is defined as follows.

Figure 0005527728
ただしψは正の実数であり、g(x、Λ)はJ個のクラスCの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数である。このコンピュータプログラムは、コンピュータをさらに、J個のクラスCの各々について、当該クラスCに属する学習標本の各々に関する前記誤分類測度値を求め、当該クラスに属する標本を生成した真の確率分布を、誤分類測度空間における各誤分類測度値を中心とする、Parzen窓幅hのParzen分布であって、かつ誤分類測度値の関数として、交差確認型最尤推定により推定するためのParzen分布推定手段として機能させる。
当該Parzen分布推定手段は、交差確認型最尤推定において、Parzen窓幅hの関数としてParzen分布の尤度を評価する。このコンピュータプログラムは、コンピュータをさらに、J個のクラスCの各々について、Parzen分布推定手段による交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hに対し、以下の関数
Figure 0005527728
However the ψ is a positive real number, g y (x, Λ) for each of J-number of class C y, the input pattern x of training samples are used to determine the degree of whether belonging to the class A discriminant function of any form. The computer program, the computer further, for each of the J Class C y, determined the misclassification measure value for each of the training samples belonging to the class C y, the true probability distribution that generated the sample belonging to the class Is a Parzen distribution with a Parzen window width hy , centered on each misclassified measure value in the misclassified measure space, and Parzen for estimating by cross-confirmed maximum likelihood estimation as a function of the misclassified measure value It functions as a distribution estimation means.
The Parzen distribution estimation means evaluates the likelihood of the Parzen distribution as a function of the Parzen window width hy in the cross-confirmation type maximum likelihood estimation. The computer program further computer, for each of the J Class C y, to Parzen window width h y giving the Parzen distribution as a maximum likelihood in cross-validation type maximum likelihood estimation by Parzen distribution estimating means, the following functions

Figure 0005527728
によって、分類器のクラスCに対する損失平滑度の最適値αを算出するための最適損失平滑度算出手段と、学習標本集合から学習標本を1つずつ取出し、分類誤りリスクを最小化するよう、学習パラメータΛを逐次的に調整するための学習パラメータ調整手段と、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、終了条件が成立したときの学習パラメータΛを出力するための繰返し制御手段として機能させる。
Figure 0005527728
Accordingly, the optimum loss smoothness calculating means for calculating the optimum value alpha y loss smoothness for the class C y classifier, taken out from the learning sample set, one of the training samples, to minimize the classification error risk The learning parameter adjusting means for sequentially adjusting the learning parameter Λ, the Parzen distribution estimating means, the optimum loss smoothness calculating means, and the learning parameter adjusting means are repeatedly operated until a predetermined termination condition is satisfied, It functions as an iterative control means for outputting the learning parameter Λ when the end condition is satisfied.

分類誤り数損失関数のグラフである。It is a graph of classification error number loss function. ロジスティックシグモイド関数による平滑化分類誤り数損失関数のグラフである。It is a graph of the smoothing classification error number loss function by a logistic sigmoid function. 誤分類測度上の確率密度関数のParzen推定を説明するための模式的グラフである。It is a schematic graph for demonstrating Parzen estimation of the probability density function on a misclassification measure. (x ,Λ)を中心とした幅hのParzen窓を示すグラフである。 d y (x y k, Λ ) is a graph showing the Parzen window width h y around the. (x ,Λ)を中心としたガウス関数型Parzen窓の正領域に対する積分値が、ロジスティックシグモイド関数型の平滑化分類誤り数損失関数のd(x ,Λ)における値に近似的に等しいことを模式的に示す図である。 d y (x y k, Λ ) integral value for the positive region of a Gaussian Parzen window centered on the, d y (x y k, Λ) of the logistic sigmoid function smoothing classification error count loss function values in It is a figure which shows typically that it is approximately equal to. Parzen窓の窓幅と、平滑化分類誤り数損失関数の滑らかさとの関係を説明するための図である。It is a figure for demonstrating the relationship between the window width of Parzen window, and the smoothness of the smoothing classification error number loss function. 1個の標本xを取除いた残りの標本で構成されるParzen推定分布を示す図である。It is a figure which shows Parzen estimated distribution comprised by the remaining samples which remove | excluded one sample xn . 第1の実施の形態において、誤分類測度空間上のParzen推定に適用することにより得られる、損失平滑度の自動制御を伴うMCE学習を実現するプログラムの制御構造を示すフローチャートである。It is a flowchart which shows the control structure of the program which implement | achieves MCE learning with automatic control of loss smoothness obtained by applying to Parzen estimation on misclassification measure space in 1st Embodiment. 図8のステップ156で実行される、EMアルゴリズムにより最適なParzen窓幅を得るプログラムの制御構造を示すフローチャートである。10 is a flowchart showing a control structure of a program for obtaining an optimum Parzen window width by an EM algorithm, which is executed in step 156 of FIG. 8. 本発明の1実施の形態を実現する汎用のコンピュータシステムのハードウェア外観を示す図である。It is a figure which shows the hardware external appearance of the general purpose computer system which implement | achieves 1 embodiment of this invention. 図10に示すコンピュータシステムの内部構造のブロック図である。It is a block diagram of the internal structure of the computer system shown in FIG. 本発明の第2の実施の形態において、損失平滑度の自動制御を伴うMCE学習を実現するプログラムの制御構造を示すフローチャートである。In the 2nd Embodiment of this invention, it is a flowchart which shows the control structure of the program which implement | achieves MCE learning accompanied by the automatic control of loss smoothness.

以下、本発明の実施の形態を説明する。いかの説明及び図面において、同一の部品には同一の参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。なお、^L(Λ)の最小化に関して、最急降下法などのバッチ的手法だけではなく、Ωから1個の標本(x,y)を抽出する度にΛを調整する適応的な学習方法も広く用いられている。その方法におけるΛの調整機構は次式で与えられる。 Embodiments of the present invention will be described below. In the description and drawings, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated. In addition, regarding the minimization of ^ L (Λ), not only a batch method such as a steepest descent method, but also an adaptive adjustment of Λ every time one sample (x n , y n ) is extracted from Ω N Learning methods are also widely used. The adjustment mechanism of Λ in the method is given by the following equation.

Figure 0005527728
以下の実施の形態では、この適応的学習方法を採用することとする。
多くのMCE学習の実装において、式(7)に関し、全てのクラスC(y=1,…,J)に対して共通の損失平滑度αが設定される。しかし本実施の形態では、後述するようにクラス毎に損失平滑度αの自動制御が行われるので、損失平滑度αは各クラス個別に設定されるものとする。
Figure 0005527728
In the following embodiment, this adaptive learning method is adopted.
In many MCE learning implementations, with respect to equation (7), a common loss smoothness α y is set for all classes C y (y = 1,..., J). However, in this embodiment, the loss smoothness α y is automatically controlled for each class as will be described later, and therefore the loss smoothness α y is set for each class individually.

〈Parzen推定に基づくMCE学習の再定式化〉
MCE学習法は、元々は前節で述べたような 0‐1損失を用いた分類誤り数カウントという考え方で定式化された。それとは別に、分類誤り確率を直接推定する定式化もなされている(非特許文献2)。その分類誤り確率の推定は、非パラメトリックな確率密度推定法の一つであるParzen推定を、誤分類測度の空間上で適用することによって実現している。この定式化によって、与えられた学習標本集合だけを対象とするのではなく、それらの近傍に存在していることが予測される未知のパターンをも考慮した最適化をMCE学習は行なっていると捉えることができる。以下ではこの定式化の手順を説明する。
<Reformulation of MCE learning based on Parzen estimation>
The MCE learning method was originally formulated based on the concept of counting the number of classification errors using 0-1 loss as described in the previous section. Apart from that, there is also a formulation for directly estimating the classification error probability (Non-Patent Document 2). The estimation of the classification error probability is realized by applying Parzen estimation, which is one of the nonparametric probability density estimation methods, on the misclassification measure space. With this formulation, MCE learning does not target only a given set of learning samples, but performs optimization that takes into account unknown patterns that are predicted to exist in the vicinity of them. Can be caught. In the following, the formulation procedure will be described.

初めに、分類誤り数リスクを表す式(6)における、パターン空間全体を積分範囲とした積分を、その部分集合全体を積分範囲とした積分に置換える。   First, the integration with the entire pattern space as the integration range in the equation (6) representing the classification error number risk is replaced with the integration with the entire subset as the integration range.

Figure 0005527728
ここでΧ(Λ)は以下の式で表される。
Figure 0005527728
Here, y y (Λ) is expressed by the following equation.

Figure 0005527728
Χ(Λ)は判別関数{g(x,Λ)}j=1 による分類結果が誤分類となるようなクラスCに属するパターンの集合である。
Figure 0005527728
Chi y (lambda) is the set of discriminant function {g j (x, Λ) } j = 1 classification result by J belongs to the class C y such that misclassification pattern.

次に式(11)のΧ(Λ)を積分範囲とした入力パターン空間上での積分を、誤分類測度の値が正となる領域を積分範囲とした誤分類測度空間での積分に置換える。ここで、xと{g(x,Λ)}j=1 が連続確率変数と見なせることから、誤分類測度d(x,Λ)も連続確率変数である。すると式(11)における積分は、各クラスCにおいて、以下のように置換えることができる。 Next, the integration in the input pattern space with Χ y (Λ) as the integration range in Equation (11) is replaced with the integration in the misclassification measure space with the region where the value of the misclassification measure is positive as the integration range. The Here, since x and {g j (x, Λ)} j = 1 J can be regarded as continuous random variables, the misclassification measure d y (x, Λ) is also a continuous random variable. Then the integral in equation (11), in each class C y, can be replaced as follows.

Figure 0005527728
ここでpΛ(t|C)は、連続確率変数と考えた誤分類測度d(x,Λ)の出現確率を表現する確率密度関数である。d(x,Λ)がΛに依存するため、この確率密度関数もΛに依存する。このような置き換えを行った積分を用いた分類誤り数リスクは、以下のようになる。
Figure 0005527728
Here, p Λ (t | C y ) is a probability density function expressing the appearance probability of the misclassification measure d y (x, Λ) considered as a continuous random variable. Since d y (x, Λ) depends on Λ, this probability density function also depends on Λ. The classification error number risk using the integration with such replacement is as follows.

Figure 0005527728
注目すべき点は、積分が普段高次元となる元々のパターン空間ではなく1次元の誤分類測度の空間上で行われることと、1次元空間上の条件付確率密度pΛ(t|C)のモデル化がパラメータ学習の新たなアプローチを示唆していることである。
Figure 0005527728
It should be noted that the integration is performed in the space of the one-dimensional misclassification measure instead of the original pattern space, which is usually high-dimensional, and the conditional probability density p Λ (t | C y in the one-dimensional space. ) Suggests a new approach to parameter learning.

この知見に基づき、新しいMCE学習の定式化は、各クラスCにおいて、有限個の学習標本{x k=1 Nyを用いてpΛ(t|C)を近似するための次式のParzen推定分布を導入する(図3)。 Based on this knowledge, the new MCE learning formulation is the following for approximating p Λ (t | C y ) with a finite number of learning samples {x y k } k = 1 Ny in each class C y . Introduce the Parzen estimated distribution of the equation (FIG. 3).

Figure 0005527728
ここでx はクラスCに属する学習標本のうち、k番目の学習標本、NはクラスCに属する学習標本の総数である。
Figure 0005527728
Here x k y among the training samples belonging to the class C y, k-th training samples, N y is the total number of training samples belonging to the class C y.

Figure 0005527728
は誤分類測度空間上に変換されたデータ点d(x ,Λ)を中心とした幅hのParzen窓50である(図4)。
Figure 0005527728
Is a Parzen window 50 is converted into the misclassification measure spatial data points d y (x k y, Λ ) width h y centered (Fig. 4).

図3において、横軸は誤分類測度、縦軸はその出現確率分布(確率密度)を表している。x はy番目のクラスCに属するk番目の学習パターン(全部でN個)、dy(x ,Λ)はその誤分類測度値である。Λは前述の通り、認識器の学習パラメータ集合を表す。図中に示すParzen窓群40は、各々がd(x ,Λ)を中心とする多数のParzen窓(k=1,…,N)を含む。y番目のクラスCに属する全ての学習パターンに対してこのParzen窓の相加平均をとることにより、クラスCにおける誤分類測度分布の近似(近似分布42)が得られる。さらに、この近似分布42を正の領域で積分したもの(図中のハッチング部分)は、正解クラスがCであるパターンをC以外のクラスに誤分類する確率の近似値となる。 In FIG. 3, the horizontal axis represents the misclassification measure, and the vertical axis represents the appearance probability distribution (probability density). x k y is (N y pieces in total) k-th learning pattern belonging to the y-th class C y, dy (x k y , Λ) is the misclassification measure value. As described above, Λ represents a learning parameter set of the recognizer. Parzen window group 40 shown in the figure, a number of Parzen window, each centered d y (x k y, Λ ) to (k = 1, ..., N y) containing. By taking the arithmetic mean of the Parzen window for all of the learning patterns belonging to y-th class C y, approximation of misclassification measure distribution of class C y (approximate distribution 42) is obtained. Furthermore, the integral of this approximation distribution 42 in the positive region (hatched portion in the drawing) is an approximation of the probability that correct class misclassified pattern is C y to a class other than C y.

図4を参照して、通常、Parzen窓50は、データ点に対して左右対称で、その値が正の単峰性の関数である。式(13)のpΛ(t|C)をParzen推定分布^pΛ(t|C)で近似し、更にP(C)をN/Nで近似することにより、分類誤り数リスクの有限学習標本集合Ωに基づく推定値が次式で表現されることとなる。 Referring to FIG. 4, the Parzen window 50 is generally a unimodal function whose value is positive with respect to the data point. P lambda expression (13) (t | C y ) the Parzen estimate distribution ^ p lambda | By approximated by (t C y), further approximates P a (C y) in N y / N, classification error count The estimated value based on the finite learning sample set Ω N of the risk is expressed by the following equation.

Figure 0005527728
ここで重要なことに、次式(16)のように、損失関数_l(d(x,Λ))を各々のParzen窓の正領域の積分として新たに定義することにより、式(15)のR(Λ)が式(9)の経験的平均損失^L(Λ)、すなわちMCE学習の評価基準と一致する。
Figure 0005527728
Significantly, the loss function _l y (d y (x, Λ)) is newly defined as the integral of the positive region of each Parzen window, as shown in the following equation (16). ) of R N (lambda) is the empirical average loss of the formula (9) ^ L (Λ) , that is consistent with the evaluation criteria MCE learning.

Figure 0005527728
興味深いことに、重要な損失関数が馴染み深い窓関数から導かれる。例えば、ガウス関数型の窓関数
Figure 0005527728
Interestingly, important loss functions are derived from familiar window functions. For example, a Gaussian window function

Figure 0005527728
を採用した場合、式(16)の_l(d(x,Λ))は式(7)のロジスティックシグモイド関数に似た損失関数となる。実際、
Figure 0005527728
Is used, _l y (d y (x, Λ)) in equation (16) is a loss function similar to the logistic sigmoid function in equation (7). In fact,

Figure 0005527728
と設定した場合、式(7)と式(16)とは極めて近いものとなる(図5)。ただし両者が厳密には異なることには注意する必要がある。
Figure 0005527728
Is set to be very close to (7) and (16) (FIG. 5). However, it should be noted that the two are strictly different.

図5と図6とを比較すると明らかなように、幅hが広いParzen窓60の方が、幅hの狭いParzen窓70より損失関数が滑らかとなる。つまり、Parzen窓の窓幅hが損失関数の平滑度を表現する。個々のParzen窓60又はParzen窓70を正の領域で積分したもの(図5及び図6の左側のハッチング部分)は、MCEで用いられる平滑化分類誤り損失に対応する(図5の曲線62及び図6の曲線72)。これらの相加平均は、誤分類確率の近似値となると同時に、MCE学習における最小化対象の評価基準ともなる。 Figure 5 and Figure 6 and as is apparent from a comparison of found the width h y wide Parzen window 60, a smooth loss function narrower Parzen window 70 width h y. That is, the window width h of the Parzen window expresses the smoothness of the loss function. The integration of the individual Parzen window 60 or Parzen window 70 in the positive region (the hatched portion on the left side of FIGS. 5 and 6) corresponds to the smoothed classification error loss used in MCE (curve 62 and FIG. 5). Curve 72 in FIG. These arithmetic averages are approximate values of misclassification probabilities, and at the same time, are evaluation criteria for minimization targets in MCE learning.

上述のParzen推定の枠組みにより、元来のMCE定式化に対して新しい損失平滑化制御のメカニズムがもたらされる。式(14)のParzen推定分布が真の確率分布pΛ(t|C)を正確に近似すればするほど、式(15)または式(9)の経験的平均損失が、式(13)または式(6)の分類誤り数リスクのより良い近似となる。言い換えれば、式(14)のParzen推定分布が真の分布の良好な近似となるように、窓幅hを推定すれば、有限個の学習標本で構成されるMCE学習の評価基準が未知標本も含む全パターン空間に対する分類誤り確率に近づく。そしてこのとき、MCE学習の評価基準の最小状態が全パターン空間に対する分類誤り確率の最小状態に近づくこととなり、MCE学習の汎化能力が向上する。 The Parzen estimation framework described above provides a new loss smoothing control mechanism for the original MCE formulation. The more closely the Parzen estimated distribution of equation (14) approximates the true probability distribution p Λ (t | C y ), the more empirical average loss of equation (15) or equation (9) becomes, Or it is a better approximation of the risk of classification error in equation (6). In other words, if the window width hy is estimated so that the Parzen estimated distribution of Equation (14) is a good approximation of the true distribution, the evaluation criterion for MCE learning composed of a finite number of learning samples is unknown samples. It approaches the classification error probability for the entire pattern space including. At this time, the minimum state of the evaluation criteria for MCE learning approaches the minimum state of the classification error probability for the entire pattern space, and the generalization ability of MCE learning is improved.

〈交差確認型最尤推定に基づくParzen推定〉
本節と次節では、MCE学習における損失平滑度制御に限定されない一般的なParzen推定の議論を展開するので、与えられた(N´個の)標本をx(k=1,2,…,N´)、Parzen窓幅をhとし、{xk=1 N´を生成した真の確率分布のParzen推定という一般的な問題を扱う。MCE学習における損失平滑度制御に対しては、N´=Nおよびx=d(x ,Λ)(k=1,2,…,N)として以下を適用する。これを各クラスC(y=1,2,…,J)に対して行なう。
<Parzen estimation based on cross-confirmed maximum likelihood estimation>
In this section and the next section, a discussion of general Parzen estimation that is not limited to loss smoothness control in MCE learning will be developed. Therefore, given (N ′) samples are represented by x k (k = 1, 2,..., N '), a Parzen window width is h, treat the common problem of Parzen estimate of the true probability distribution that generated {x k} k = 1 N' . For loss smoothness control in MCE learning, the following applies as N ′ = N y and x k = d y (x y k , Λ) (k = 1, 2,..., N y ). This is performed for each class C y (y = 1, 2,..., J).

Parzen推定分布が真の分布を良好に近似するような窓幅hを決定するために、最尤推定法によりhを推定することを考える。ただし、平均または分散などの特性値を用いて分布モデルを構成するパラメトリック推定法と違い、非パラメトリック推定であるParzen推定は全ての標本を用いて推定分布を構成するため、同じ標本を推定分布に代入して尤度関数の最大化を行なうことができない(窓幅が0になってしまう)。そこで非特許文献3では、1個の標本を取除いた標本集合でParzen推定分布を構成し、取除いた標本を推定分布に代入することによる、交差確認型最尤推定が定式化されている。以下でこの概要を説明する。   In order to determine the window width h such that the Parzen estimated distribution is a good approximation to the true distribution, consider estimating h by the maximum likelihood estimation method. However, unlike the parametric estimation method that uses a characteristic value such as mean or variance, Parzen estimation, which is non-parametric estimation, constructs an estimated distribution using all samples, so the same sample is used as the estimated distribution. The likelihood function cannot be maximized by substituting (the window width becomes zero). Therefore, in Non-Patent Document 3, cross-confirmation type maximum likelihood estimation is formulated by forming a Parzen estimated distribution with a sample set from which one sample is removed, and substituting the removed sample into the estimated distribution. . This outline will be described below.

図7を参照して、与えられた N´個の標本x(k=1,2,…,N´)から、n番目の標本xを取除き、残りの標本でParzen推定分布82を構成する。図7において破線で表されたParzen窓80が、取除かれた標本xに対応する。 Referring to FIG. 7, the n-th sample x n is removed from the given N ′ samples x k (k = 1, 2,..., N ′), and the Parzen estimated distribution 82 is obtained with the remaining samples. Configure. A Parzen window 80 represented by a broken line in FIG. 7 corresponds to the removed sample xn .

Figure 0005527728
取除いた標本xを上式に代入し、全ての標本に対してこれの積をとった尤度関数を定める。
Figure 0005527728
The removed sample xn is substituted into the above equation, and a likelihood function is determined by taking the product of all the samples.

Figure 0005527728
そして上式のL(h)を最大化するhを求める。以上が交差確認型最尤推定の概要である。
〈EMアルゴリズムに基づくParzen窓幅決定法>
以下、本実施の形態の構成について説明する。式(20)のParzen窓幅hによる最大化は、一般的には多くの計算量を要する。本実施の形態に係る損失平滑度自動制御型MCE学習(次節において説明する。)はParzen窓幅hの最適化を多数回行なうため、この最適化を少ない計算量で実行するのが望ましい。そこで本実施の形態では、Parzen窓φが式(17)のガウス型関数である場合において、EMアルゴリズムによりParzen窓幅hの最大化を効率的に行なう。以下、図9に示すフローチャートを参照しながら、このEMアルゴリズムについて説明する。
Figure 0005527728
Then, h that maximizes L (h) in the above equation is obtained. The above is the outline of the intersection confirmation type maximum likelihood estimation.
<Parzen window width determination method based on EM algorithm>
Hereinafter, the configuration of the present embodiment will be described. The maximization by the Parzen window width h in the equation (20) generally requires a large amount of calculation. Since loss smoothness automatic control type MCE learning (described in the next section) according to the present embodiment optimizes the Parzen window width h many times, it is desirable to perform this optimization with a small amount of calculation. Therefore, in the present embodiment, when the Parzen window φ is a Gaussian function of Expression (17), the Parzen window width h is efficiently maximized by the EM algorithm. The EM algorithm will be described below with reference to the flowchart shown in FIG.

式(19)を次式のように変形する。   Equation (19) is transformed into the following equation.

Figure 0005527728
φが式(17)のガウス型関数である場合、式(22)中の次の項
Figure 0005527728
If φ is a Gaussian function of equation (17), the next term in equation (22)

Figure 0005527728
は平均y (n)および分散hのガウス分布確率密度関数と見なすこともできる。したがって、p−n(t|h)は、混合重み係数を均一の1/(N´−1)に固定した混合数N´−1の混合ガウス分布確率密度関数と形式的に見なされる。このとき、mを潜在変数と考えることもできるので、潜在変数を含む確率モデルの最尤推定に対する効率的な繰返し計算型アルゴリズムであるEMアルゴリズム(例えば、非特許文献4の第9章)を、式(20)のParzen窓幅hによる最大化に適用できる。
Figure 0005527728
Can also be viewed as a Gaussian probability density function with mean y m (n) and variance h 2 . Therefore, p −n (t | h) is formally regarded as a mixed Gaussian distribution probability density function of the number of mixing N′−1 in which the mixing weight coefficient is fixed to uniform 1 / (N′−1). At this time, since m can also be considered as a latent variable, an EM algorithm (for example, Chapter 9 of Non-Patent Document 4), which is an efficient iterative calculation algorithm for maximum likelihood estimation of a probability model including a latent variable, This can be applied to the maximization by the Parzen window width h in the equation (20).

繰返し計算の直前のステップにおいてParzen窓幅hの推定値^hが得られていると仮定する。EMアルゴリズムで用いられる負担率は次式となる。   Assume that an estimated value ^ h of the Parzen window width h is obtained in the step immediately before the iterative calculation. The burden factor used in the EM algorithm is as follows.

Figure 0005527728
EMアルゴリズムで定義される補助関数(Q関数)は次式となる。
Figure 0005527728
The auxiliary function (Q function) defined by the EM algorithm is as follows.

Figure 0005527728
ただし“Const.”はhに無関係の項を表す。上式をsに関して微分し、更にこれが0となるsを求めることにより、上式の補助関数を最小にするParzen窓幅hの平方(h)が以下で与えられる。
Figure 0005527728
However, “Const.” Represents a term unrelated to h. By differentiating the above equation with respect to s and finding s where it becomes 0, the square (h 2 ) of the Parzen window width h that minimizes the auxiliary function of the above equation is given below.

Figure 0005527728
更にここで、q´m,n(m=1,…,N´;m≠n)を以下で定める。
Figure 0005527728
Further, q ′ m, n (m = 1,... , N ′; m ≠ n) is defined as follows.

Figure 0005527728
このときq´m,nおよび補助関数を最小にするhは以下となる。
Figure 0005527728
At this time, q ′ m, n and h 2 that minimizes the auxiliary function are as follows.

Figure 0005527728

アルゴリズム表記の煩雑さを避けるため、再びq´m,nをqm,nと置きなおす。結局、Parzen窓幅の最尤推定に対するEMアルゴリズムは以下でまとめられる。
Figure 0005527728

In order to avoid the complexity of the algorithm notation, q ′ m, n is replaced with q m, n again. Finally, the EM algorithm for maximum likelihood estimation of the Parzen window width is summarized below.

(1)初期値h(0)>0を与える。_l=0と設定。(図9のステップ220)
(2)次式のqm,nを計算する(n=1,…,N´;m=1,…,N´,m≠n)。(図9のステップ222、224及び226)
(1) An initial value h (0) > 0 is given. Set _l = 0. (Step 220 in FIG. 9)
(2) Calculate q m, n of the following equation (n = 1,..., N ′; m = 1,..., N ′, m ≠ n). (Steps 222, 224 and 226 in FIG. 9)

Figure 0005527728
(3)以下のようにパラメータの再推定をする。(ステップ228)
Figure 0005527728
(3) Re-estimate parameters as follows. (Step 228)

Figure 0005527728
(4)hが収束条件を満たしていれば(ステップ230でYES)終了、さもなくば(ステップ230でNO)、_l←_l+1として(ステップ232)、(2)へ。収束条件としては、本実施の形態では、次式の対数尤度の収束を採用する。
Figure 0005527728
(4) If h satisfies the convergence condition (YES in step 230), the process ends. If not (NO in step 230), _l ← _l + 1 is set (step 232) to (2). As a convergence condition, the present embodiment employs logarithmic likelihood convergence of the following equation.

Figure 0005527728
または、予め繰返し回数の上限Iを設定しておき、繰返し回数_lがIに達したかまたは上式の対数尤度が収束したと判断されたとき、繰返しを終了させても良い。初期値h(0)は、合理的な設定法であればどのような手法で設定しても良い。例えば以下のアルゴリズムを適用できる。
(1)各標本x(n=1,…,N´)に対して、自身以外で最も近いデータを割当てる。
Figure 0005527728
Alternatively, the upper limit I of the number of repetitions may be set in advance, and the repetition may be terminated when it is determined that the number of repetitions_l has reached I or the log likelihood of the above equation has converged. The initial value h (0) may be set by any method as long as it is a reasonable setting method. For example, the following algorithm can be applied.
(1) The nearest data other than itself is assigned to each sample x n (n = 1,..., N ′).

Figure 0005527728
(2)以下のようにパラメータの初期値を与える。
Figure 0005527728
(2) The initial value of the parameter is given as follows.

Figure 0005527728
〈損失平滑度自動制御型MCE学習〉
[第1の実施の形態]
前節で説明したEMアルゴリズムに基づくParzen窓幅決定法を、誤分類測度空間上のParzen推定に適用することにより、損失平滑度の自動制御を伴うMCE学習アルゴリズムが定型化できる。具体的には、以下のアルゴリズムとなる。図8を参照しながら説明する。
Figure 0005527728
<Loss smoothness automatic control type MCE learning>
[First Embodiment]
By applying the Parzen window width determination method based on the EM algorithm described in the previous section to Parzen estimation in a misclassification measure space, an MCE learning algorithm with automatic loss smoothness control can be standardized. Specifically, the following algorithm is used. This will be described with reference to FIG.

(1)分類器学習パラメータΛの初期値Λ(0)を設定する。エポック回数eの上限値Eを設定し、e=0に設定する。(ステップ140)
(2)e=0,1,…,Eに対して、以下のステップ180の処理を実行する。(ステップ142)ステップ180は以下のサブステップ(a)、(b)及び(c)を含む。
(1) The initial value Λ (0) of the classifier learning parameter Λ is set. Set the upper limit E of the number of epochs e and set e = 0. (Step 140)
(2) The following step 180 is executed for e = 0, 1,. (Step 142) Step 180 includes the following sub-steps (a), (b) and (c).

(a)全てのクラスy=1,…,Jに対して以下のサブステップa1〜a3を含むステップ150を繰返す。
(a1)全てのクラスj(j=1…,J)に対する、クラスyに属する全ての学習標本(この個数をN個とする。)の判別関数値g(x ,Λ(e))を計算する(j=1,…,J;k=1,…,N)。(ステップ144,146及び148)
(a2)クラスyに対して、以下のステップi〜iiiを実行する。(ステップ152〜ステップ158)
i.誤分類測度値d(x ,Λ(e))を計算する(k=1,…,N)。(ステップ152)
ii.N´=Nおよびx=d(x ,Λ(e))(k=1,…,N)として(ステップ154)、前節のEMアルゴリズムに基づくParzen窓幅決定法を実行し、最適窓幅hを得る。(ステップ156)
iii.式(18)を実行して、最適な損失平滑度αを得る。(ステップ158)
(b)学習標本集合Ωから、学習標本(x,y)を取出して(ステップ162)、式(10)による分類器パラメータΛの調整を行なう(ステップ164)。これを各々の学習標本に対して順番に1回ずつ実行する(ステップ160)。全標本に対する調整が終了した時点で、新たな分類器パラメータΛ(e+1)を得る。(ステップ166)
(c)Ωにおける学習標本の並び順をシャッフルする。(ステップ168)
上記アルゴリズムにおけるサブステップ2aは、毎エポックeにおいて実行しても良いが、実行間隔E´を設定して、エポックeが間隔E´の整数倍であるときのみ実行するようにしても良い。
(A) Repeat step 150 including the following sub-steps a1 to a3 for all classes y = 1,..., J.
(A1) Discriminant function values g j (x k y , Λ (e ) for all learning samples (this number is N y ) belonging to class y for all classes j (j = 1..., J) ) ) Is calculated (j = 1,..., J; k = 1,..., N y ). (Steps 144, 146 and 148)
(A2) The following steps i to iii are executed for the class y. (Steps 152 to 158)
i. A misclassification measure value d y (x k y , Λ (e) ) is calculated (k = 1,..., N y ). (Step 152)
ii. N ′ = N y and x k = d y (x k y , Λ (e) ) (k = 1,..., N y ) (step 154), and execute the Parzen window width determination method based on the EM algorithm in the previous section And the optimum window width hy is obtained. (Step 156)
iii. Equation (18) is executed to obtain the optimum loss smoothness α y . (Step 158)
(B) The learning sample (x n , y n ) is taken out from the learning sample set Ω N (step 162), and the classifier parameter Λ is adjusted by equation (10) (step 164). This is executed once for each learning sample in turn (step 160). When the adjustment for all samples is completed, a new classifier parameter Λ (e + 1) is obtained. (Step 166)
(C) to shuffle the order of the training samples in Ω N. (Step 168)
The sub-step 2a in the above algorithm may be executed at every epoch e, but may be executed only when the execution interval E ′ is set and the epoch e is an integral multiple of the interval E ′.

〈実験結果〉
上記実施の形態体による、EMアルゴリズムに基づくParzen窓幅決定法を用いた装置を用い、以下のような実験を行なった。
<Experimental result>
The following experiment was performed using the apparatus using the Parzen window width determination method based on the EM algorithm according to the above-described embodiment.

上記実施の形態に係る装置は、元来、多様な判別関数に対して適用可能である。ここでは、1例として、プロトタイプ・ベクトル(「プロトタイプ」と省略する。)とのユークリッド距離を判別関数とする分類器を用いた実験を行なった。「プロトタイプ・ベクトル」とは、各クラスを代表するベクトルのことをいう。プロトタイプは1クラスあたり複数個設けることができる。本実験では、各クラスのプロトタイプ数をクラス共通で8とした。距離と確率との近縁性より、この分類器は汎用性が高く、音声認識などで多用される隠れマルコフモデルなどの確率測度型の判別関数に容易に適用可能である。   The device according to the above embodiment is originally applicable to various discriminant functions. Here, as an example, an experiment was performed using a classifier having a Euclidean distance from a prototype vector (abbreviated as “prototype”) as a discriminant function. “Prototype vector” refers to a vector representing each class. Multiple prototypes can be provided per class. In this experiment, the number of prototypes in each class was set to 8 in common. Due to the closeness between distance and probability, this classifier is highly versatile and can easily be applied to probability measure type discriminant functions such as hidden Markov models often used in speech recognition and the like.

クラスCにおける判別関数は次式で与えられる。 The discriminant function in class C j is given by

Figure 0005527728
ここでpはCに属するプロトタイプの中でxに最も近いものである。Λはすべてのプロトタイプの集合である。クラスCに属する学習標本xが与えられたとする。係数ψを∞にした式(5)の誤分類測度は、xに対するbest‐incorrectクラス(正解ではないが、正解に最も近い誤りクラス)をCとして
Figure 0005527728
Here, p j is the closest to x among the prototypes belonging to C j . Λ is a set of all prototypes. Assume that a learning sample x belonging to the class Cy is given. The misclassification measure of equation (5) with the coefficient ψ set to ∞ is the best-incorrect class for x (not the correct answer, but the error class closest to the correct answer) C i

Figure 0005527728
となる。
Figure 0005527728
It becomes.

実験にはUCI Machine Learning Repositoryが提供するGlass Identificationデータセットを用いた。このデータセットは6クラス214個のガラス標本パターンで構成されており、各ガラス標本の中に含まれる9種類の酸化物の含有量が、9次元ベクトル入力パターンとして与えられている。
データセットからある1つのパターンを認識対象として取除き、残りのパターンを用いて分類器を学習した後に、取除いたパターンを認識させるという処理を、214個全てのパターンに対して行なって認識率(オープン・データ認識率)を計算した (Leave‐One‐Out法)。また、取除いた一つのパターンを認識対象とするオープン・データ認識率計算に加えて、学習に用いた213個のパターンを対象にした認識率(クローズド・データ認識率)も計算した。クローズド・データ認識率の計算は214回行われるので、それらを平均したものを最終的なクローズド・データ認識率とした。
A Glass Identification data set provided by UCI Machine Learning Repository was used for the experiment. This data set is composed of 214 glass specimen patterns of 6 classes, and the contents of nine kinds of oxides contained in each glass specimen are given as 9-dimensional vector input patterns.
A recognition rate is obtained by removing one pattern from the data set as a recognition target, learning the classifier using the remaining patterns, and then recognizing the removed pattern for all 214 patterns. (Open data recognition rate) was calculated (Leave-One-Out method). In addition to the open data recognition rate calculation for the removed pattern as a recognition target, the recognition rate for the 213 patterns used for learning (closed data recognition rate) was also calculated. Since the calculation of the closed data recognition rate is performed 214 times, the average of them is used as the final closed data recognition rate.

テーブル1は従来型のMCE学習法に対する認識率の結果である。この方法では、式(7)の平滑化分類誤り損失の損失平滑度αを予め定められた値(各クラス共通の損失平滑度α)に固定してMCE学習が行われる。すなわち、前節のアルゴリズムにおいて、α=…=α=αが固定値に固定されるとともに、サブステップ2aが省略される。表では、複数種類の固定値である損失平滑度αに対する認識率が記されている。オープン・データ認識率の最高値は、α=1.0のときに得られている(75.23%)。 Table 1 shows the recognition rate results for the conventional MCE learning method. In this method, MCE learning is performed with the loss smoothness α y of the smoothed classification error loss in Expression (7) fixed to a predetermined value (loss smoothness α common to each class). That is, in the algorithm of the previous section, α 1 =... = Α J = α is fixed to a fixed value, and the sub-step 2a is omitted. In the table, the recognition rate for the loss smoothness α which is a plurality of types of fixed values is described. The highest open data recognition rate is obtained when α = 1.0 (75.23%).

Figure 0005527728
テーブル2は、損失平滑度αを本発明技術により自動的に設定する新しいMCE学習法に対する認識率の結果である。
Figure 0005527728
Table 2 shows the recognition rate results for a new MCE learning method in which the loss smoothness α y is automatically set by the technique of the present invention.

Figure 0005527728
オープン・データ認識率は、74.30%と、従来型のMCE学習法とほぼ同等の値が得られている。この値は、若干であるが、従来型のMCE学習法でのオープン・データ認識率の最大値より小さい。しかし、従来型のMCE学習法では、オープン・データ認識率を最大にする平滑化パラメータ(本実験では1.0)をアドホックに設定しなければならず、パターン認識器の学習に多大な労力を要することとなる。一方新しいMCE学習法では、平滑化パラメータがデータから自動的に算出され、学習の手間が大幅に削減されるとともに、従来型MCE(の最大性能)と同等のオープン・データ認識率が得られている。
Figure 0005527728
The open data recognition rate is 74.30%, which is almost the same value as the conventional MCE learning method. This value is slightly smaller than the maximum open data recognition rate in the conventional MCE learning method. However, in the conventional MCE learning method, the smoothing parameter (1.0 in this experiment) that maximizes the open data recognition rate must be set to ad hoc, and a great deal of effort is required to learn the pattern recognizer. It will be necessary. On the other hand, in the new MCE learning method, the smoothing parameter is automatically calculated from the data, and the labor of learning is greatly reduced, and the open data recognition rate equivalent to the conventional MCE (maximum performance) is obtained. Yes.

[コンピュータによる実現]
以上に説明した第1の実施の形態に係るパターン分類器の学習装置は、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図10はこの実施の形態で用いられるコンピュータシステム550の外観を示し、図11はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。このコンピュータプログラムのうち、コアとなる部分は、図8及び図9のフローチャートにより示される制御構造を有する。
[Realization by computer]
The pattern classifier learning apparatus according to the first embodiment described above can be realized by a general-purpose computer and a computer program executed thereon. FIG. 10 shows the external appearance of a computer system 550 used in this embodiment, and FIG. 11 is a block diagram of the computer system 550. The computer system 550 shown here is merely an example, and other configurations can be used. The core part of this computer program has a control structure shown by the flowcharts of FIGS.

図10を参照して、コンピュータシステム550は、コンピュータ560と、全てコンピュータ560に接続された、モニタ562と、キーボード566と、マウス568と、スピーカ558と、マイクロフォン590と、を含む。さらに、コンピュータ560はDVD−ROM(Digital Versatile Disk Read−Only−Memory:ディジタル多用途ディスク読出専用メモリ)ドライブ570と、半導体メモリドライブ572とを含む。   Referring to FIG. 10, a computer system 550 includes a computer 560, a monitor 562, a keyboard 566, a mouse 568, a speaker 558, and a microphone 590 that are all connected to the computer 560. Further, the computer 560 includes a DVD-ROM (Digital Versatile Disk Read-Only-Memory) drive 570 and a semiconductor memory drive 572.

図11を参照して、コンピュータ560はさらに、DVD−ROMドライブ570と半導体メモリドライブ572とに接続されたバス586と、全てバス586に接続された、CPU576と、コンピュータ560のブートアッププログラムを記憶するROM578と、CPU576によって使用される作業領域を提供するとともにCPU576によって実行されるプログラムのための記憶領域となるRAM580と、観測値データ(学習データ)などを記憶するためのハードディスクドライブ574と、ネットワーク552への接続を提供するネットワークインターフェイス596とを含む。   Referring to FIG. 11, computer 560 further stores bus 586 connected to DVD-ROM drive 570 and semiconductor memory drive 572, CPU 576 all connected to bus 586, and a boot-up program for computer 560. ROM 578, RAM 580 which provides a work area used by CPU 576 and serves as a storage area for programs executed by CPU 576, hard disk drive 574 for storing observation data (learning data), and the like, network And a network interface 596 that provides a connection to 552.

上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM582又は半導体メモリ584等のコンピュータ読取可能な記録媒体に記録されたオブジェクトコード、スクリプト、又はソースプログラムの形で流通し、DVD−ROMドライブ570又は半導体メモリドライブ572等の読出装置を介してコンピュータ560に提供され、ハードディスクドライブ574に記憶される。ソースプログラムでコンピュータ560に導入されるときには、所定のコンパイラでコンパイルしてオブジェクトコードを生成する必要がある。CPU576がプログラムを実行する際には、オブジェクトプログラム(又はスクリプト)はハードディスクドライブ574から読出されてRAM580に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU576はハードディスクドライブ574から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ574に記憶する。スピーカ558とマイクロフォン590とは、直接に本発明とは関係ないが、スピーカ558は音声の再生時に必要である。音声についての学習データを収集するときには、発話データの収録にマイクロフォン590が必要となる。   The software that realizes the system of the above-described embodiment is distributed in the form of object code, script, or source program recorded on a computer-readable recording medium such as DVD-ROM 582 or semiconductor memory 584, and is a DVD-ROM drive. The data is provided to the computer 560 via a reading device such as 570 or the semiconductor memory drive 572 and stored in the hard disk drive 574. When the source program is introduced into the computer 560, it is necessary to compile with a predetermined compiler to generate an object code. When the CPU 576 executes the program, the object program (or script) is read from the hard disk drive 574 and stored in the RAM 580. An instruction is fetched from an address designated by a program counter (not shown), and the instruction is executed. The CPU 576 reads data to be processed from the hard disk drive 574 and stores the processing result in the hard disk drive 574 as well. The speaker 558 and the microphone 590 are not directly related to the present invention, but the speaker 558 is necessary when reproducing sound. When learning data about speech is collected, a microphone 590 is required for recording speech data.

学習用データは、予め収集され、入力パターンとそのパターンの属するクラスとの組を多数含む。学習用データは、ハードディスクドライブ574に記憶される。上記した処理により算出されるクラス分類用のパラメータセットΛは、一旦はハードディスクドライブ574などに記憶され、さらにネットワークを介して、又はUSBメモリを介して、分類器にコピーされる。分類器はこれらクラス分類用のパラメータセットΛを用いて入力パターンをいずれかのクラスに分類する。   The learning data is collected in advance and includes a large number of sets of input patterns and classes to which the patterns belong. The learning data is stored in the hard disk drive 574. The class classification parameter set Λ calculated by the above processing is temporarily stored in the hard disk drive 574 or the like, and further copied to the classifier via the network or USB memory. The classifier classifies the input pattern into any class using the parameter set Λ for class classification.

コンピュータシステム550の一般的動作は周知であるので、詳細な説明はここでは繰返さない。   Since the general operation of computer system 550 is well known, detailed description will not be repeated here.

ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくても良い。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されても良い。ソフトウェアの一部がハードディスクドライブ574に記憶され、ソフトウェアの残りの部分をネットワーク上からハードディスクドライブ574に取込み、実行の際に統合する様にしても良い。   Regarding the software distribution method, the software does not necessarily have to be fixed on a storage medium. For example, the software may be distributed from another computer connected to the network. A part of the software may be stored in the hard disk drive 574, and the remaining part of the software may be taken into the hard disk drive 574 from the network and integrated at the time of execution.

典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に従って制御された態様で機能を達成する。従って、OS又はサードパーティから提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。
[第2の実施の形態]
上記第1の実施の形態の図8に示すアルゴリズムにより得られる結果と同等の結果を、異なるアルゴリズムで得ることもできる。そうしたアルゴリズムを実現するプログラムのフローチャートを図12に示す。
図12を参照して、第2の実施の形態に係る、損失平滑度の自動制御を伴うMCE学習を実現するプログラムは、図8に示すものと同様のステップ140及び142を含む。ただし、ステップ142では、図8のステップ180に代えて、ステップ600をすべてのエポックe=0,…,Eに対して繰返す。
ステップ600は、以下の処理ステップを含む。
(a)全ての学習標本および全てのクラスに対する判別関数値g(x,Λ(e))を計算する(j=1,…,J;n=1,…,N)。(ステップ610,612及び614)
(b)各クラスy=1,…,Jに対して、以下のステップi〜iiiからなるステップ620を実行する。(ステップ616)
i.誤分類測度値d(x ,Λ(e))を計算する(k=1,…,N)。(ステップ152)
ii.N´=Nおよびx=d(x ,Λ(e))(k=1,…,N)として(ステップ154)、第1の実施の形態と同じEMアルゴリズムに基づくParzen窓幅決定法を実行し、最適窓幅hを得る。(ステップ156)
iii.式(18)を実行して、最適な損失平滑度αを得る。(ステップ158)
ステップ620を全てのクラスy=1,…,Jに対して実行すると、制御はステップ160に移る。ステップ160以下の処理は、図8に示したものと同様である。
この図12に示すアルゴリズムを用いても、図8に示した第1の実施の形態によるものと同様の結果を得ることができる。
Typically, modern computers utilize the general functions provided by a computer operating system (OS) to achieve functions in a controlled manner according to the desired purpose. Therefore, a control structure that does not include a general function that can be provided from the OS or a third party, and that achieves a desired purpose as a whole even if the program specifies only a combination of execution orders of the general functions. It is obvious that the program is included in the scope of the present invention.
[Second Embodiment]
A result equivalent to the result obtained by the algorithm shown in FIG. 8 of the first embodiment can be obtained by a different algorithm. FIG. 12 shows a flowchart of a program that realizes such an algorithm.
Referring to FIG. 12, the program for realizing MCE learning with automatic loss smoothness control according to the second embodiment includes steps 140 and 142 similar to those shown in FIG. However, in step 142, step 600 is repeated for all epochs e = 0,..., E instead of step 180 in FIG.
Step 600 includes the following processing steps.
(A) Compute discriminant function values g j (x n , Λ (e) ) for all learning samples and all classes (j = 1,..., J; n = 1,..., N). (Steps 610, 612 and 614)
(B) For each class y = 1,..., J, execute step 620 consisting of the following steps i to iii. (Step 616)
i. A misclassification measure value d y (x k y , Λ (e) ) is calculated (k = 1,..., N y ). (Step 152)
ii. As N ′ = N y and x k = d y (x k y , Λ (e) ) (k = 1,..., N y ) (step 154), Parzen based on the same EM algorithm as in the first embodiment The window width determination method is executed to obtain the optimum window width hy . (Step 156)
iii. Equation (18) is executed to obtain the optimum loss smoothness α y . (Step 158)
When step 620 is executed for all classes y = 1,..., J, control passes to step 160. The processing after step 160 is the same as that shown in FIG.
Even when the algorithm shown in FIG. 12 is used, the same result as that of the first embodiment shown in FIG. 8 can be obtained.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

20,30 グラフ
40 Parzen窓群
42,82 分類誤り数リスクの推定値の関数
50,60,70,80 Parzen窓
20, 30 Graph 40 Parzen window group 42, 82 Function 50, 60, 70, 80 Parzen window of classification error number risk estimate

Claims (6)

入力パターンをJ個のクラスC(jは1〜Jの整数)のいずれかに分類する分類器の学習装置であって、
各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含み、
クラスCに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類測度値d(x,Λ)が以下により定義され、
Figure 0005527728
ただしψは正の実数であり、g(x、Λ)は前記J個のクラスCの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数であり、
前記J個のクラスCの各々について、当該クラスCに属する学習標本の各々に関する前記誤分類測度値を求め、当該クラスに属する標本を生成した真の確率分布を、誤分類測度空間における各誤分類測度値を中心とする、Parzen窓幅hのParzen分布であって、かつ前記誤分類測度値の関数として、交差確認型最尤推定により推定するためのParzen分布推定手段を含み、
当該Parzen分布推定手段は、前記交差確認型最尤推定において、前記Parzen窓幅hの関数としてParzen分布の尤度を評価し、
前記J個のクラスCの各々について、前記Parzen分布推定手段による前記交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hに対し、以下の関数
Figure 0005527728
によって、前記分類器のクラスCに対する損失平滑度の最適値αを算出するための最適損失平滑度算出手段と、
前記学習標本集合から学習標本を1つずつ取り出し、分類誤りリスクを最小化するよう、前記学習パラメータΛを逐次的に調整するための学習パラメータ調整手段と、
前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、前記終了条件が成立したときの前記学習パラメータΛを出力するための繰返し制御手段とを含む、分類器の学習装置。
A classifier learning device that classifies an input pattern into one of J classes C j (j is an integer of 1 to J),
Learning sample storage means for storing N (N is a positive integer) learning samples each including an input pattern and a class to which the input pattern belongs;
Initializing means for initializing the learning parameter Λ of the classifier by a predetermined setting method,
Class C misclassification measure value measure the degree to which the input pattern x is misclassified other classes of training samples belonging to y d y (x, Λ) is defined below,
Figure 0005527728
However ψ is a positive real number, g y (x, Λ) is said for each of the J Class C y, since the input pattern x of training samples to determine the degree of whether belonging to the class Is an arbitrary form of discriminant function,
For each of the J-number of class C y, determined the misclassification measure value for each of the training samples belonging to the class C y, the true probability distribution that generated the sample belonging to the class, each of misclassification measure space A Parzen distribution centered on the misclassification measure value and having a Parzen window width hy , and including, as a function of the misclassification measure value, Parzen distribution estimation means for estimating by cross-validation maximum likelihood estimation,
The Parzen distribution estimation means evaluates the likelihood of the Parzen distribution as a function of the Parzen window width hy in the intersection confirmation type maximum likelihood estimation,
For each of the J-number of class C y, the Parzen in the cross-validation type maximum likelihood estimation by distribution estimating means to Parzen window width h y giving the Parzen distribution as a maximum likelihood, the following function
Figure 0005527728
The optimum loss smoothness calculating means for calculating the optimum value α y of the loss smoothness for the class C y of the classifier,
Learning parameter adjustment means for sequentially adjusting the learning parameter Λ so as to take out one learning sample from the learning sample set one by one and minimize the classification error risk;
The Parzen distribution estimating means, the optimum loss smoothness calculating means, and the learning parameter adjusting means are repeatedly operated until a predetermined end condition is satisfied, and the learning parameter Λ when the end condition is satisfied is output. A classifier learning device comprising: an iterative control means.
請求項1に記載の学習装置であって、さらに、前記繰返し制御手段による繰返しの前、かつ前記学習パラメータ調整手段による前記学習パラメータΛの調整の前に、前記学習標本の並び順をシャッフルするためのシャッフル手段を含む、学習装置。 The learning apparatus according to claim 1, further comprising: shuffling the order of the learning samples before repetition by the repetition control unit and before adjustment of the learning parameter Λ by the learning parameter adjustment unit. A learning apparatus including a shuffle means. 請求項1又は請求項2に記載の学習装置であって、前記予め定める終了条件は、前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段による動作が所定回数完了したこと、という条件である、学習装置。 3. The learning apparatus according to claim 1, wherein the predetermined end condition is that the operation by the Parzen distribution estimation unit, the optimum loss smoothness calculation unit, and the learning parameter adjustment unit is completed a predetermined number of times. That is, the learning device. 請求項1〜請求項3のいずれかに記載の学習装置であって、前記繰返し制御手段は、前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段のうち、前記Parzen分布推定手段、及び前記最適損失平滑度算出手段の動作を定期的に省略する、学習装置。 4. The learning device according to claim 1, wherein the iterative control unit includes the Parzen among the Parzen distribution estimation unit, the optimum loss smoothness calculation unit, and the learning parameter adjustment unit. A learning apparatus that periodically omits the operations of the distribution estimation means and the optimum loss smoothness calculation means. 請求項1〜請求項4のいずれかに記載の学習装置であって、
前記Parzen分布を構成するParzen窓がガウス型関数であり、
前記Parzen分布推定手段は、クラスCに属する標本から1個の標本を取り除き、残りの標本でParzen推定分布を構成するためのParzen推定分布構成手段と、
前記Parzen推定分布構成手段を規定する式を、混合重み係数が1/(N´−1)(N´はクラスCに属する標本の個数)であるN´−1個の混合ガウス分布確率密度関数と見なし、EMアルゴリズムにより当該混合ガウス分布確率密度関数を最大化するParzen分布窓幅hを算出するための窓幅算出手段とを含む、学習装置。
The learning device according to any one of claims 1 to 4,
The Parzen window constituting the Parzen distribution is a Gaussian function,
The Parzen distribution estimating means removes one specimen from the specimen belonging to the class C y, a Parzen estimated distribution configuration means for configuring the Parzen estimate distribution in the rest of the sample,
The expression for defining the Parzen estimate distribution arrangement means, mixing weighting factor 1 / (N'-1) ( N' Class C belongs number of specimens y) is N'-1 single Gaussian mixture probability density A learning apparatus comprising: a window width calculating means for calculating a Parzen distribution window width hy that is regarded as a function and maximizes the mixed Gaussian distribution probability density function by an EM algorithm.
入力パターンをJ個のクラスC(jは1〜Jの整数)のいずれかに分類するために、コンピュータを、
各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムであって、
クラスCに属する学習標本の入力パターンxが他のクラスに誤分類される誤分類測度値d(x,Λ)が以下により定義され、
Figure 0005527728
ただしψは正の実数であり、g(x、Λ)は前記J個のクラスCの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数であり、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記J個のクラスCの各々について、当該クラスCに属する学習標本の各々に関する前記誤分類測度値を求め、当該クラスに属する標本を生成した真の確率分布を、誤分類測度空間における各誤分類測度値を中心とする、Parzen窓幅hのParzen分布であって、かつ前記誤分類測度値の関数として、交差確認型最尤推定により推定するためのParzen分布推定手段として機能させ、
当該Parzen分布推定手段は、前記交差確認型最尤推定において、前記Parzen窓幅hの関数としてParzen分布の尤度を評価し、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記J個のクラスCの各々について、前記Parzen分布推定手段による前記交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hに対し、以下の関数
Figure 0005527728
によって、前記分類器のクラスCに対する損失平滑度の最適値αを算出するための最適損失平滑度算出手段と、
前記学習標本集合から学習標本を1つずつ取り出し、分類誤りリスクを最小化するよう、前記学習パラメータΛを逐次的に調整するための学習パラメータ調整手段と、
前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、前記終了条件が成立したときの前記学習パラメータΛを出力するための繰返し制御手段として機能させる、コンピュータプログラム。
In order to classify the input pattern into any of J classes C j (j is an integer from 1 to J),
Learning sample storage means for storing N (N is a positive integer) learning samples each including an input pattern and a class to which the input pattern belongs;
A computer program that functions as an initialization unit for initializing the learning parameter Λ of the classifier by a predetermined setting method,
Class C misclassification measure value input pattern x of training samples belonging to y is misclassified other classes d y (x, lambda) is defined below,
Figure 0005527728
However ψ is a positive real number, g y (x, Λ) is said for each of the J Class C y, since the input pattern x of training samples to determine the degree of whether belonging to the class Is an arbitrary form of discriminant function,
The computer program further includes the computer.
For each of the J-number of class C y, determined the misclassification measure value for each of the training samples belonging to the class C y, the true probability distribution that generated the sample belonging to the class, each of misclassification measure space A Parzen distribution with a Parzen window width hy , centered on the misclassification measure value, and functioning as a Parzen distribution estimation means for estimating by cross-validation maximum likelihood estimation as a function of the misclassification measure value,
The Parzen distribution estimation means evaluates the likelihood of the Parzen distribution as a function of the Parzen window width hy in the intersection confirmation type maximum likelihood estimation,
The computer program further includes the computer.
For each of the J-number of class C y, the Parzen in the cross-validation type maximum likelihood estimation by distribution estimating means to Parzen window width h y giving the Parzen distribution as a maximum likelihood, the following function
Figure 0005527728
The optimum loss smoothness calculating means for calculating the optimum value α y of the loss smoothness for the class C y of the classifier,
Learning parameter adjustment means for sequentially adjusting the learning parameter Λ so as to take out one learning sample from the learning sample set one by one and minimize the classification error risk;
The Parzen distribution estimating means, the optimum loss smoothness calculating means, and the learning parameter adjusting means are repeatedly operated until a predetermined end condition is satisfied, and the learning parameter Λ when the end condition is satisfied is output. A computer program that functions as a repetitive control means.
JP2010184334A 2010-08-19 2010-08-19 Pattern classification learning device Expired - Fee Related JP5527728B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010184334A JP5527728B2 (en) 2010-08-19 2010-08-19 Pattern classification learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010184334A JP5527728B2 (en) 2010-08-19 2010-08-19 Pattern classification learning device

Publications (2)

Publication Number Publication Date
JP2012043221A JP2012043221A (en) 2012-03-01
JP5527728B2 true JP5527728B2 (en) 2014-06-25

Family

ID=45899438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010184334A Expired - Fee Related JP5527728B2 (en) 2010-08-19 2010-08-19 Pattern classification learning device

Country Status (1)

Country Link
JP (1) JP5527728B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022201320A1 (en) * 2021-03-23 2022-09-29 日本電信電話株式会社 Class label estimation device, error source estimation method, and program

Also Published As

Publication number Publication date
JP2012043221A (en) 2012-03-01

Similar Documents

Publication Publication Date Title
JP7306062B2 (en) Knowledge transfer method, information processing device and storage medium
US9311609B2 (en) Techniques for evaluation, building and/or retraining of a classification model
Pernkopf et al. Genetic-based EM algorithm for learning Gaussian mixture models
US20180349158A1 (en) Bayesian optimization techniques and applications
CN113168559A (en) Automated generation of machine learning models
JP2012181579A (en) Pattern classification learning device
Duy et al. Computing valid p-value for optimal changepoint by selective inference using dynamic programming
CN111784595B (en) Dynamic tag smooth weighting loss method and device based on historical record
JP2019133046A (en) Learning apparatus, learning method, and learning program
CN113128671B (en) Service demand dynamic prediction method and system based on multi-mode machine learning
JP5704692B2 (en) Pattern classification device learning device and computer program therefor
JP2020034882A (en) Mask-estimating device, mask-estimating method, and mask-estimating program
Sugiyama et al. More powerful and general selective inference for stepwise feature selection using homotopy method
KR20210099795A (en) Autoencoder-based graph construction for semi-supervised learning
CN113011532A (en) Classification model training method and device, computing equipment and storage medium
JP5527728B2 (en) Pattern classification learning device
JP5288378B2 (en) Acoustic model speaker adaptation apparatus and computer program therefor
JP5486569B2 (en) Pattern identification method, pattern identification apparatus, and program
JP2008217592A (en) Language analysis model learning device, language analysis model learning method, language analysis model learning program and recording medium
JP5255484B2 (en) Clustering distance learning device and program thereof, and clustering device
Zhang et al. Tailoring an interpretable neural language model
Ortiz et al. Magnitude Invariant Parametrizations Improve Hypernetwork Learning
JP6324647B1 (en) Speaker adaptation device, speech recognition device, and speech recognition method
JP5834287B2 (en) Pattern classification learning device
KR102583943B1 (en) A neural network apparatus and neural network learning method for performing continuous learning using a correlation analysis algorithm between tasks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140407

R150 Certificate of patent or registration of utility model

Ref document number: 5527728

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees