JP2013016006A - Learning apparatus for pattern classification - Google Patents

Learning apparatus for pattern classification Download PDF

Info

Publication number
JP2013016006A
JP2013016006A JP2011148142A JP2011148142A JP2013016006A JP 2013016006 A JP2013016006 A JP 2013016006A JP 2011148142 A JP2011148142 A JP 2011148142A JP 2011148142 A JP2011148142 A JP 2011148142A JP 2013016006 A JP2013016006 A JP 2013016006A
Authority
JP
Japan
Prior art keywords
learning
class
function
classifier
misclassification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011148142A
Other languages
Japanese (ja)
Other versions
JP5834287B2 (en
Inventor
Hideyuki Watanabe
秀行 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2011148142A priority Critical patent/JP5834287B2/en
Publication of JP2013016006A publication Critical patent/JP2013016006A/en
Application granted granted Critical
Publication of JP5834287B2 publication Critical patent/JP5834287B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a learning apparatus capable of enhancing accuracy of a pattern classifier.SOLUTION: A misclassification measure value D(x;Λ) of an input pattern is defined by formula (1). A value of each parameter is adjusted so that a value of a minimization target function is minimized.

Description

この発明は、何らかの測定データを所定のクラスのいずれかに分類するパターン分類の学習装置に関し、特に、LGM‐MCE(大幾何マージン最小分類誤り)学習を用い、より分類精度が高くなることが期待できる学習が行なえる学習装置に関する。   The present invention relates to a pattern classification learning apparatus that classifies some measurement data into one of predetermined classes, and in particular, LGM-MCE (Large Geometric Margin Minimum Classification Error) learning is used to expect higher classification accuracy. The present invention relates to a learning device that can perform learning.

[パターン認識と学習]
人間と機械との間のインターフェイスにおいて、パターン認識は重要な技術である。パターン認識技術は、話者の識別、発話内容の認識、顔画像による人物の識別、及び文字認識等、様々な局面で使用される。パターン認識は、端的にいえば、何らかの物理現象を観測することにより得られる観測値のパターンを、複数個のクラスのいずれかに分類する作業である。こうした作業は人間には比較的簡単であるが、機械にさせるのは容易ではない。そうした作業を行なう装置は、包括的に呼べばパターン認識装置ということになる。パターン認識装置にパターン認識を行なわせるためには、学習データを統計的に処理することにより、分類に必要なパラメータを得る、学習と呼ばれる予備的な作業が必要とされる。
[Pattern recognition and learning]
Pattern recognition is an important technique in the interface between humans and machines. The pattern recognition technique is used in various aspects such as speaker identification, utterance content recognition, person identification by face image, and character recognition. In short, pattern recognition is an operation of classifying an observed value pattern obtained by observing some physical phenomenon into one of a plurality of classes. Although these tasks are relatively easy for humans, it is not easy to make them work. A device that performs such work is a pattern recognition device when called comprehensively. In order for the pattern recognition apparatus to perform pattern recognition, a preliminary operation called learning is required to obtain parameters necessary for classification by statistically processing learning data.

こうしたパターン分類のための学習方法として、非特許文献1に開示されたLGM−MCE法と、非特許文献2に開示されたMCE法とがある。いずれの方法も、判別関数に基づく分類決定則を採用する。以下、それらについて説明する。   As learning methods for such pattern classification, there are an LGM-MCE method disclosed in Non-Patent Document 1 and an MCE method disclosed in Non-Patent Document 2. Both methods employ classification decision rules based on discriminant functions. These will be described below.

入力パターン(観測値)x∈ΧをJ個のクラス(類)C1、…、CJのいずれか1つに割当てる分類タスクを考える。ここで、Χは全入力パターン空間を表す。LGM−MCE法(非特許文献1)は初期のMCE法(非特許文献2)と同様、判別関数に基づく以下の分類決定則を採用する。 Consider a classification task that assigns an input pattern (observed value) xεΧ to any one of J classes (classes) C 1 ,..., C J. Here, Χ represents the entire input pattern space. The LGM-MCE method (Non-Patent Document 1) employs the following classification decision rule based on a discriminant function, as in the early MCE method (Non-Patent Document 2).

ここでgj(x;Λ)はクラスCjに対する判別関数であり、xがクラスCjに帰属する程度を表わす。Λは分類器の学習パラメータ(調整パラメータ)を表し、gj(x;Λ)(j=1、…、J)はxとΛとに関して2階微分可能であるとする。 Here g j (x; Λ) is the discriminant function for a class C j, represents the degree to which x is attributable to the class C j. Λ represents a learning parameter (adjustment parameter) of the classifier, and g j (x; Λ) (j = 1,..., J) is second-order differentiable with respect to x and Λ.

次に、上式の分類決定則により形成される分類決定境界に着目し、xを正しく分類される境界付近の学習標本として、xと境界とのユークリッド距離rを考える。このrは幾何マージンに他ならず、この値を大きくとることで、誤分類されやすい未知パターンの正確な分類の可能性が高まる。x∈Cyであるとして、非特許文献1の結果より、幾何マージンは次式で(一般には近似的に)表される。 Next, focusing on the classification decision boundary formed by the classification decision rule of the above equation, the Euclidean distance r between x and the boundary is considered as a learning sample near the boundary where x is correctly classified. This r is nothing but the geometric margin, and by increasing this value, the possibility of accurate classification of unknown patterns that are easily misclassified increases. Assuming that xεC y , the geometric margin is expressed by the following equation (generally approximately) from the result of Non-Patent Document 1.

ここでdy(x;Λ)は初期のMCE法で定義される次式の誤分類尺度である(ψ>0)。 Here, d y (x; Λ) is a misclassification measure of the following equation defined by the initial MCE method (ψ> 0).

なおψ→∞とすれば、dy(x;Λ)は次式となる。 If ψ → ∞, d y (x; Λ) is as follows.

ここでCiはxに対するbest-incorrectクラスである。すなわち幾何マージンは、誤分類尺度の正負反転(関数マージンと呼ばれる。)をその勾配のノルムで正規化したものに近似的に等しい。 Here, C i is a best-incorrect class for x. In other words, the geometric margin is approximately equal to the positive / negative reversal of the misclassification measure (called the function margin) normalized by the norm of the gradient.

LGM−MCE学習法は、この幾何マージンの正負反転に対応する以下のDy(x;Λ)を新たな誤分類尺度として採用する。 The LGM-MCE learning method adopts the following D y (x; Λ) corresponding to the positive / negative inversion of this geometric margin as a new misclassification measure.

Dy(x;Λ)の正値は誤分類、負値は正分類に対応する。この性質は初期のMCE法における誤分類尺度dy(x;Λ)と共通である。以降、従来の誤分類尺度dy(x;Λ)及び新しい誤分類尺度Dy(x;Λ)をそれぞれ、関数マージン型誤分類尺度及び幾何マージン型誤分類尺度とよぶ。 A positive value of D y (x; Λ) corresponds to misclassification, and a negative value corresponds to positive classification. This property is in common with the misclassification measure d y (x; Λ) in the early MCE method. Hereinafter, the conventional misclassification measure d y (x; Λ) and the new misclassification measure D y (x; Λ) are referred to as a function margin type misclassification measure and a geometric margin type misclassification measure, respectively.

Λの理想状態は、無限個の標本から成る次式の分類誤り数リスク(すべてのパターンに対する分類誤り確率)を最小にするものである。   The ideal state of Λ is to minimize the classification error number risk (classification error probability for all patterns) of the following equation consisting of an infinite number of samples.

ただしpは確率密度関数を表し、1(A)は命題Aが真なら1、偽ならOを返す指示関数である。したがって1(Dy(x;Λ)>0)は誤分類ならば1、正分類ならばOを返す分類誤り数損失を表す。この関数を図1のグラフ22により示す。しかし分類誤り数損失はΛに関して微分不可能である。しかも現実的には有限個の学習用標本しか利用できない。そこでLGM−MCE法は(初期のMCE法と同様に)、分類誤り数損失を平滑な(Λに関して微分可能な)ロジスティック関数に置き換え、有限学習標本に対するこの平均の最小化を行なう。ロジスティック関数を図2のグラフ32により示す。x∈Cyに対する平滑化分類誤り数損失は次式で定義される(αy>0)。 Here, p represents a probability density function, and 1 (A) is an indicator function that returns 1 if the proposition A is true and returns O if the proposition A is false. Therefore, 1 (D y (x; Λ)> 0) represents a loss of classification error that returns 1 if it is a misclassification and O if it is a correct classification. This function is illustrated by the graph 22 in FIG. However, the classification error number loss is not differentiable with respect to Λ. In reality, only a finite number of learning samples can be used. Thus, the LGM-MCE method (similar to the initial MCE method) replaces the classification error number loss with a smooth (differentiable with respect to Λ) logistic function and minimizes this average for a finite learning sample. The logistic function is shown by the graph 32 in FIG. The smoothed classification error number loss for x∈C y is defined by the following equation (α y > 0).

LGM−MCE学習法が目指す最小化目標関数は、ΩN={xn, ynn=1 NをN個の標本からなる教師付学習標本集合として、以下の式で示される経験的平均損失L(Λ)である。 The minimization target function aimed by the LGM-MCE learning method is as follows: Ω N = {x n , y n } n = 1 N as a supervised learning sample set consisting of N samples, and an empirical average represented by the following equation Loss L (Λ).

上式のL(Λ)の最小化は、有限学習標本に対する分類誤り数の最小化を直接的に目指すだけでなく、図2に示されるように、損失_ly(Dy)(文字の直前に付加されたアンダースコア”_“は、その文字が式中ではイタリック体で描かれていることを示す。)がDyの単調増加関数であるが故に、Dyを負方向に大きく増加させる。これにより、Dyの正負反転、すなわち幾何マージン(図2におけるr)が増大することとなる。 The minimization of L (Λ) in the above equation not only directly aims at minimizing the number of classification errors for a finite learning sample, but as shown in FIG. 2, loss_l y (D y ) (character is underscore "_" was added immediately before, indicating that the character is drawn in italics in the formula.) it is because it is a monotonically increasing function of D y, greatly increases the D y in the negative direction Let Thereby, the positive / negative inversion of D y , that is, the geometric margin (r in FIG. 2) increases.

有限個の学習標本のみから構成される上式のL(Λ)は、当然ながら、学習標本集合に含まれない全ての未知パターンをも含む分類誤り数リスクR(Λ)の近似にすぎず、L(Λ)を最小にするΛは一般にR(Λ)を最小にはしない。しかし、適度な有限値のαy(式(7)を参照)を設定することにより、評価基準L(Λ)が平滑な関数となり、学習標本集合に含まれない未知パターンに対する学習耐性を向上させる。すなわち、この平滑化により、与えられた学習標本のみならずその近傍に対しても損失が敏感となり、学習標本数を増やす効果が得られる。 Of course, L (Λ) in the above equation consisting only of a finite number of learning samples is only an approximation of the classification error number risk R (Λ) including all unknown patterns not included in the learning sample set, Λ that minimizes L (Λ) generally does not minimize R (Λ). However, by setting an appropriate finite value α y (see equation (7)), the evaluation criterion L (Λ) becomes a smooth function and improves learning tolerance to unknown patterns not included in the learning sample set. . That is, this smoothing makes the loss sensitive not only to a given learning sample but also to the vicinity thereof, and the effect of increasing the number of learning samples can be obtained.

L(Λ)の最小化に関して、最急降下法などのバッチ的手法だけではなく、ΩNから1個の標本(x,y)を抽出する度にΛを調整する適応的な学習方法も広く用いられている。その方法におけるΛの調整機構は次式で与えられる。ただし_l yは損失関数_lyの導関数であり、学習係数εは各繰返しステップで可変とする。 For minimizing L (Λ), not only a batch method such as steepest descent method, but also an adaptive learning method that adjusts Λ every time one sample (x, y) is extracted from Ω N is widely used. It has been. The adjustment mechanism of Λ in the method is given by the following equation. Here, _l y is a derivative of the loss function _l y , and the learning coefficient ε is variable at each iteration step.

以上がLGM−MCE法の概要である。 The above is the outline of the LGM-MCE method.

H.ワタナベ他、「幾何マージン制御を伴う最小誤り分類」、IEEE ICASSP予稿集、pp.2170−2173、2010年3月(H. Watanabe et al.、 Minimum error classification with geometric margin control.” in Proc. IEEE ICASSP、 pp. 2170-2173 Mar. 2010)H. Watanabe et al., “Minimum Error Classification with Geometric Margin Control”, IEEE ICASSP Proceedings, pp. 2170-2173, March 2010 (H. Watanabe et al., Minimum error classification with geometric margin control. ”In Proc. IEEE ICASSP, pp. 2170-2173 Mar. 2010) B.‐H.ジュアン及びS.カタギリ、「最小誤り分類のための識別学習」 IEEE 信号処理トランザクション、第40巻、第12号、pp.3043‐3054、1992年12月(B.‐H. Juang and S. Katagiri、 “Discriminative learning for minimum error classification、” IEEE Trans. Signal Processing、 vol.40、 no.12、 pp.3043‐3054、 Dec. 1992.)B. -H. Juan and S. Katagiri, “Distinguishing Learning for Minimum Error Classification” IEEE Signal Processing Transactions, Vol. 40, No. 12, pp. 3043-3054, December 1992 (B.-H. Juang and S. Katagiri, “Discriminative learning for minimum error classification,” IEEE Trans. Signal Processing, vol.40, no.12, pp.3043-3054, Dec. 1992.)

従来実装されているLGM‐MCE学習法における各クラスの間の境界は、線形関数により与えられる。すなわち、各クラスの間の境界は、2次元空間の場合には直線で、3次元の場合には平面で、4次元以上の場合にはその次元−1の超平面により規定される。   The boundary between each class in the conventionally implemented LGM-MCE learning method is given by a linear function. That is, the boundary between each class is defined by a straight line in the case of a two-dimensional space, a plane in the case of three dimensions, and a hyperplane of dimension-1 in the case of four or more dimensions.

これは、判別関数として線形関数を用いているためである。実際に、線形関数を用いることにより学習のための処理は比較的単純であるという効果がある。しかし逆に、そのためにLGM−MCE学習法は限定された分野にしか適用が難しいという問題がある。さらに、線形の判別関数を用いたLGM−MCE学習法では、分類の精度を高めることが難しいという問題がある。   This is because a linear function is used as the discriminant function. In fact, the use of a linear function has the effect that the process for learning is relatively simple. However, on the contrary, there is a problem that the LGM-MCE learning method is difficult to apply only in a limited field. Furthermore, the LGM-MCE learning method using a linear discriminant function has a problem that it is difficult to increase the accuracy of classification.

したがって本発明の目的は、LGM‐MCE学習によるパターン分類器の学習装置において、得られる分類器の精度をより高くすることができる学習装置を提供することである。   Therefore, an object of the present invention is to provide a learning device that can increase the accuracy of the obtained classifier in the learning device for a pattern classifier by LGM-MCE learning.

本発明の第1の局面に係る分類器の学習装置は、入力パターンをJ個のクラスC(jは1〜Jの整数)のいずれかに分類する分類器の学習装置である。この装置は、N個(Nは正の整数)の教師付の入力パターンを含む学習標本集合を記憶するための学習標本記憶手段と、分類器の学習パラメータ集合Λを予め定めた設定方法により初期化するための初期化手段とを含む。クラスCに属する学習標本集合内の入力パターンxが他のクラスに誤分類される度合いを測る幾何マージン型誤分類尺度値Dy(x;Λ)が以下により定義される。 The classifier learning device according to the first aspect of the present invention is a classifier learning device that classifies an input pattern into one of J classes C j (j is an integer from 1 to J). This apparatus uses a learning sample storage means for storing a learning sample set including N (N is a positive integer) supervised input pattern, and a learning parameter set Λ of a classifier is initialized by a predetermined setting method. Initializing means for converting to an initial value. Class C input pattern x of training samples in the set which belongs to y is measure the degree to which misclassified other classes Geometric Margin type misclassification measure value D y (x; lambda) is defined below.

ただしψは正の実数であり、gy(x;Λ)はJ個のクラスCの各々に対して、学習標本集合内の入力パターンxが当該クラスに属するか否かの度合いを判別するための、xと学習パラメータ集合Λとについて2階微分可能な任意の形の判別関数であり、dy(x;Λ)は関数マージン型誤分類尺度と呼ばれる。 However ψ is a positive real number, g y (x; Λ) for each of J-number of class C y, the input pattern x of training samples in the set to determine the degree of whether belonging to the class Therefore, d y (x; Λ) is called a function margin-type misclassification measure.

学習パラメータ集合Λに含まれるk個の変数を並べたベクトルλ=[λ1…λk]について、誤分類尺度値Dy(x;Λ)のベクトルλによる偏微分は、関数dy(x;Λ)の勾配ベクトル∇xdyを用いて以下の式により与えられ、ただし上付きのTは行列の転置を表す。 For the vector λ = [λ 1 ... Λ k ] in which k variables included in the learning parameter set Λ are arranged, the partial differentiation of the misclassification measure value D y (x; Λ) by the vector λ is the function d y (x ; Λ) gradient vector ∇ x d y is given by the following equation, where the superscript T represents the transpose of the matrix.

この学習装置はさらに、学習パラメータ集合Λに関する所定の最小化目標関数L(Λ)の値が、学習標本集合に対して最小となるように、誤分類尺度値Dy(x;Λ)の偏微分を用いて、学習パラメータ集合Λに含まれる各パラメータの値を適応的に調整するパラメータ調整手段を含む。 The learning apparatus further includes a bias of the misclassification measure value D y (x; Λ) so that the value of the predetermined minimization target function L (Λ) with respect to the learning parameter set Λ is minimized with respect to the learning sample set. Parameter adjustment means for adaptively adjusting the value of each parameter included in the learning parameter set Λ using differentiation.

好ましくは、クラスCj(j=1,…,J)に対する判別関数が、クラスCjに属するM個のプロトタイプをpj,1,...,pj,M、各プロトタイプに対応する正定値行列をAj,1,…,Aj,Mとして、次式で与えられる。 Preferably, the discriminant function for class C j (j = 1,..., J) has M prototypes belonging to class C j as p j, 1 ,..., P j, M and positive definite corresponding to each prototype. The value matrix is given by the following equation as A j, 1 ,..., A j, M.

ただし、pj及びAjは、クラスCjに属するプロトタイプの中で、入力パターンxとの間に次式で定められる距離Distance However, p j and A j are distance distances defined by the following equation between the input pattern x and the prototype belonging to the class C j.

が最小となるプロトタイプの指標をm(j)として、pj=pj,m(j)、及びAj=Aj,m(j)である。関数マージン型誤分類尺度dy(x;Λ)は、次式で与えられる。 P j = p j, m (j) and A j = A j, m (j), where m (j) is the prototype index that minimizes. The function margin type misclassification scale d y (x; Λ) is given by the following equation.

幾何マージン型誤分類尺度Dy(x;Λ)及びその偏微分は以下の式で与えられる。 The geometric margin type misclassification measure D y (x; Λ) and its partial derivative are given by the following equations.


より好ましくは、正定値行列Aj,1,…,Aj,Mは以下のような、正の対角成分を持つ対角行列である。

More preferably, the positive definite matrix A j, 1 ,..., A j, M is a diagonal matrix having a positive diagonal component as follows.

そして、パラメータaj,1,...,aj,Dは学習パラメータ集合Λに含まれ、幾何マージン型誤分類尺度Dy(x;Λ)の、パラメータay,d及びai,d(d=1,...,D)に関する偏微分は以下の式により表される。 The parameters a j, 1 , ..., a j, D are included in the learning parameter set Λ, and the parameters a y, d and a i, d of the geometric margin type misclassification measure D y (x; Λ) The partial differentiation with respect to (d = 1, ..., D) is expressed by the following equation.

より好ましくは、クラスCj(j=1,...,J)に対する判別関数が以下で与えられてもよい。 More preferably, the discriminant function for class C j (j = 1,..., J) may be given as:

ただしpj,1,...,pj,MはクラスCjに属するM個のプロトタイプであり、wj,m(m=1,...,M)は、m番目のプロトタイプとのユークリッド距離に対する重みである。学習パラメータ集合Λ及び関数マージン型誤分類尺度dy(x;Λ)は以下の式で与えられてもよい。 Where p j, 1 , ..., p j, M are M prototypes belonging to class C j , and w j, m (m = 1, ..., M) is the mth prototype. It is a weight for the Euclidean distance. The learning parameter set Λ and the function margin type misclassification measure d y (x; Λ) may be given by the following equations.

ただしクラスCy及びCiはそれぞれxの正解クラス及びbest-incorrectクラスである。幾何マージン型誤分類尺度Dy(x;Λ)及びその偏微分は以下の式により表される。 However Class C y and C i are the correct class and best-The net part class x respectively. The geometric margin type misclassification scale D y (x; Λ) and its partial derivative are expressed by the following equations.


さらに好ましくは、分類器は、入力層、中間層及び出力層からなる3層フィードフォワード型ニューラルネットワーク分類器である。入力層はD+1個のユニットを含む。中間層はM+1個のユニットを含む。中間層のm番目(m=1,...,M)のユニットは入力層からの出力の重み付け総和に対して非線形関数fmを施して出力する。出力層は、J個のユニットを含む。各j番目ユニット(j=1,...,J)は、中間層からの出力の重み付け総和をクラスCjの判別関数gjとして出力する。クラスCj(j=1,...,J)に対する判別関数は以下で与えられる。

More preferably, the classifier is a three-layer feedforward neural network classifier including an input layer, an intermediate layer, and an output layer. The input layer includes D + 1 units. The intermediate layer includes M + 1 units. The m-th unit (m = 1,..., M) in the intermediate layer performs output by applying a non-linear function f m to the weighted sum of the output from the input layer. The output layer includes J units. Each j-th unit (j = 1,..., J) outputs the weighted sum of the outputs from the intermediate layer as a discriminant function g j of class C j . The discriminant function for class C j (j = 1,..., J) is given by

ここでwm,d(m=1,...,M; d=0,1,...,D)は、入力層のd番目のユニットから中間層のm番目のユニットへの結合に対する重み付け係数、vj,m(j=1,...,J; m=0,1,...,M)は中間層のm番目のユニットから出力層のj番目のユニットへの結合に対する重み付け係数である。学習パラメータ集合Λは、重み付け係数wm,d(m=1,...,M; d=0,1,...,D)及びvj,m(j=1,...,J; m=0,1,...,M)を含む。幾何マージン型誤分類尺度Dy(x;Λ)及びその偏微分は以下の式である。 Where w m, d (m = 1, ..., M; d = 0,1, ..., D) is for the coupling from the d-th unit of the input layer to the m-th unit of the intermediate layer. The weighting factor, v j, m (j = 1, ..., J; m = 0,1, ..., M) is for the coupling from the mth unit in the middle layer to the jth unit in the output layer It is a weighting factor. The learning parameter set Λ includes weighting coefficients w m, d (m = 1, ..., M; d = 0,1, ..., D) and v j, m (j = 1, ..., J ; m = 0,1, ..., M). The geometric margin type misclassification scale D y (x; Λ) and its partial differentiation are as follows.

本発明の第2の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの分類器の学習装置の各手段として機能させる。   The computer program according to the second aspect of the present invention causes a computer to function as each means of the learning device for any one of the classifiers described above.

LGM‐MCE学習法における分類誤り数損失関数のグラフである。It is a graph of the classification error number loss function in the LGM-MCE learning method. LGM‐MCE学習法におけるロジスティックシグモイド関数による平滑化分類誤り数損失関数のグラフである。It is a graph of the smoothing classification error number loss function by the logistic sigmoid function in a LGM-MCE learning method. 本発明の1実施の形態に係る分類器を用いる文字認識システムのブロック図である。It is a block diagram of the character recognition system using the classifier which concerns on one embodiment of this invention. 本発明の第1の実施の形態により分類器の学習を行なうためのプログラムのフローチャートである。It is a flowchart of the program for performing the learning of a classifier by the 1st Embodiment of this invention. 本発明の第1の実施の形態の変形例により分類器の学習を行なうためのプログラムのフローチャートである。It is a flowchart of the program for performing the learning of a classifier by the modification of the 1st Embodiment of this invention. 本発明の第2の実施の形態により分類器の学習を行なうためのプログラムのフローチャートである。It is a flowchart of the program for performing the learning of a classifier by the 2nd Embodiment of this invention. 本発明の第3の実施の形態のシステムで用いられるニューラルネットワークの構成を模式的に示す図である。It is a figure which shows typically the structure of the neural network used with the system of the 3rd Embodiment of this invention. 本発明の第3の実施の形態により分類器の学習を行なうためのプログラムのフローチャートである。It is a flowchart of the program for performing the learning of a classifier by the 3rd Embodiment of this invention. 本発明の実施の形態を実現する汎用のコンピュータシステムのハードウェア外観を示す図である。It is a figure which shows the hardware external appearance of the general purpose computer system which implement | achieves embodiment of this invention. 図9に示すコンピュータシステムの内部構造のブロック図である。It is a block diagram of the internal structure of the computer system shown in FIG.

以下、本発明の実施の形態を説明する。以下の説明及び図面において、同一の構成要素には同一の参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。   Embodiments of the present invention will be described below. In the following description and drawings, the same components are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.

以下の実施の形態では、判別関数として非線形関数を用いる。非線形関数を用いることにより、概念的には、4次元以上の標本空間では分類境界が超曲面となり、分類精度をより高めることが期待できる。   In the following embodiment, a nonlinear function is used as the discriminant function. By using a non-linear function, conceptually, the classification boundary becomes a hypersurface in a sample space of four or more dimensions, and it can be expected that the classification accuracy is further improved.

[偏微分計算]
上記したように判別関数として非線形関数を採用する場合、特に多次元空間の場合には偏微分計算が難しいという問題がある。以下、非線形の判別関数に対する幾何マージン型誤分類尺度Dy(x;Λ)の偏微分計算について一般的に論じる。
[Partial differential calculation]
As described above, when a nonlinear function is employed as a discriminant function, there is a problem that partial differential calculation is difficult particularly in the case of a multidimensional space. In the following, the partial differential calculation of the geometric margin type misclassification measure D y (x; Λ) for the nonlinear discriminant function will be generally discussed.

一般形の判別関数に対するLGM−MCE学習を式(9)に従って実行するために、クラスCyに属するD次元入力パターンを
x=[x…x
として、式(9)に含まれる非線形の幾何マージン型誤分類尺度Dy(x;Λ)の変微分∇ΛDy(x;Λ)を以下で導出する。ただし、上付きTは行列の転置を表す。
The LGM-MCE training for the general form of the discriminant function in order to perform in accordance with equation (9), a D-dimensional input pattern belonging to the class C y x = [x 1 ... x D] T
As false Geometric Margin type nonlinear in an expression (9) Classification Scale D y to derive;; (lambda x) below variable differential ∇ of (x Λ) Λ D y. However, superscript T represents transposition of a matrix.

まずA=||∇xdy(x;Λ)||2とおく。このとき、1/||∇xdy(x;Λ)||=A-1/2。Λに含まれるある1変数λでDy(x;Λ)を偏微分すると、以下となる。 First A = || ∇ x d y ( x; Λ) is denoted by || 2. In this case, 1 / || ∇ x d y (x; Λ) || = A -1/2. When D y (x; Λ) is partially differentiated by one variable λ included in Λ, the following is obtained.

さらにAをλで偏微分すると以下となる。 Further, when A is partially differentiated by λ, the following is obtained.

これを式(10)に代入して以下を得る。 Substituting this into equation (10) gives:

またΛに含まれるk個の変数を並べたベクトルλ=[λ1…λkTに関しては、式(11)より、偏微分ベクトルは以下の式により表される。 For the vector λ = [λ 1 ... Λ k ] T in which k variables included in Λ are arranged, the partial differential vector is expressed by the following equation from Equation (11).

なお、式(14)の左辺は勾配ベクトル∇xdyのヤコビ行列である。 Incidentally, the left-hand side of equation (14) is a Jacobian matrix of the gradient vector ∇ x d y.

結局、式(10)及び(13)から、幾何マージン型誤分類尺度Dy(x;Λ)のベクトル値変数に対する偏微分は以下で与えられる。 Eventually, from equations (10) and (13), the partial differentiation of the geometric margin type misclassification measure D y (x; Λ) with respect to the vector value variable is given as follows.

[LGM−MCE学習法の2次判別関数型分類器への適用]
《判別関数及び幾何マージン型誤分類尺度の偏微分》
クラスCj(j=1,…,J)に対する判別関数は、クラスCjに属するM個のプロトタイプをpj,1,…,pj,M、各プロトタイプに対応する正定値行列をAj,i,…,Aj,Mとして、次式で与えられる。
[Application of LGM-MCE learning method to quadratic discriminant function classifier]
《Partial differentiation of discriminant function and geometric margin type misclassification measure》
The discriminant function for class C j (j = 1,..., J) has M prototypes belonging to class C j as p j, 1 ,..., P j, M , and a positive definite matrix corresponding to each prototype as A j. , i ,..., A j, M are given by the following equation.

式(16)におけるpj及びAjは、クラスCjに属するプロトタイプの中でxに対する次式の意味での距離Distanceの最小値を与えるプロトタイプの指標をm(j)として、pj=pj,m(j)及びAj=Aj,m(j)としている。 P j and A j in equation (16) are p j = p, where m (j) is a prototype index that gives the minimum value of the distance Distance in the sense of the following equation among x prototypes belonging to class C j j, m (j) and A j = A j, m (j) .

また、Aj,1=…=Aj,M=Ajとしてもよい。Aj,mの具体的な形は問わないが、例えばクラスCjにおけるm番目クラスタ(K-means法等で求められる。)に属する学習標本集合の共分散行列の逆行列として与えればよく、あるいは、Aj,mは、同じクラスタに属する学習標本集合の対角型共分散行列の逆行列として与えればよい。関数マージン型誤分類尺度は次式で与えられる。 Alternatively, A j, 1 =... = A j, M = A j . The specific form of A j, m does not matter. For example, it may be given as an inverse matrix of the covariance matrix of the learning sample set belonging to the m-th cluster in class C j (determined by the K-means method, etc.) Alternatively, A j, m may be given as an inverse matrix of a diagonal covariance matrix of learning sample sets belonging to the same cluster. The function margin type misclassification scale is given by the following equation.

ただしCy及びCiはそれぞれxの正解クラス及びbest-incorrectクラスである。このとき、関数マージン型誤分類尺度の微分は以下のとおりとなる。 However C y and C i are the correct class and best-The net part class x respectively. At this time, the differential of the function margin type misclassification scale is as follows.

幾何マージン型誤分類尺度Dy(x;Λ)及びその偏微分は式(15)より次式となる。 The geometric margin type misclassification scale D y (x; Λ) and its partial differentiation are expressed by the following equation from the equation (15).

《第1の実施の形態:システムの構成》
図3を参照して、本実施の形態に係る分類器を用いた一例としての文字認識システム40は、教師付標本データによる学習を行なうことにより、文字画像データを文字カテゴリに分類するための分類器80と、教師文字カテゴリが付されたデジタルの文字データを使用した学習により、分類器80の学習を行なうための学習ユニット50と、文字画像を入力するタッチパネル52と、タッチパネル52の出力する信号を、学習ユニット50による学習が行なわれた分類器80を用いて文字カテゴリ56として出力する文字認識ユニット54とを含む。
<< First Embodiment: System Configuration >>
Referring to FIG. 3, a character recognition system 40 as an example using the classifier according to the present embodiment performs classification based on supervised sample data to classify character image data into character categories. , A learning unit 50 for learning by the classifier 80 by learning using digital character data with a teacher character category, a touch panel 52 for inputting a character image, and a signal output by the touch panel 52 Is recognized as a character category 56 using the classifier 80 learned by the learning unit 50.

学習ユニット50は、教師文字カテゴリ付の文字画像データを記憶する記憶部70と、記憶部70から、所定の文字特徴量(位置情報、統計的モーメント、エッジカウントなど)を計算により抽出するための文字特徴量抽出モジュール74と、文字特徴量抽出モジュール74の出力する教師データを学習用標本データとして記憶する学習データ記憶部76と、学習データ記憶部76に記憶された学習用標本データを用い、後述する学習方法により分類器80の学習を行なう学習モジュール78とを含む。なお、以下の説明では、文字特徴量はベクトルで表されるものとする。すなわち、文字特徴量ベクトルをx、教師データとしての文字カテゴリをyとすると、標本データの各々は(x,y)という形式で表すことができる。   The learning unit 50 stores character image data with a teacher character category, and a predetermined character feature (position information, statistical moment, edge count, etc.) is extracted from the storage unit 70 by calculation. Using the character feature extraction module 74, the learning data storage unit 76 that stores the teacher data output from the character feature extraction module 74 as learning sample data, and the learning sample data stored in the learning data storage unit 76, And a learning module 78 that performs learning of the classifier 80 by a learning method to be described later. In the following description, it is assumed that the character feature amount is represented by a vector. That is, if the character feature vector is x and the character category as teacher data is y, each sample data can be expressed in the form (x, y).

文字認識ユニット54は、タッチパネル52の出力信号をデジタル信号に変換する2値化処理部90と、2値化処理部90の出力する信号について、文字特徴量抽出モジュール74と同じ方法により文字特徴量を抽出して出力する文字特徴量抽出モジュール94と、文字特徴量抽出モジュール94の出力する一連の文字特徴量に対して分類器80を適用し、出力文字カテゴリ56を出力するデコーダ96とを含む。   The character recognition unit 54 converts the output signal of the touch panel 52 into a digital signal, and the character output of the signal output from the binarization processor 90 by the same method as the character feature extraction module 74. Character extraction module 94 that extracts and outputs the character, and a decoder 96 that applies the classifier 80 to a series of character feature output from the character feature extraction module 94 and outputs an output character category 56. .

《学習アルゴリズム》
以下、本実施の形態においてパラメータの学習を行なうためのアルゴリズムについて、図4を参照して説明する。図4を参照して、このアルゴリズムを実現するプログラムは、以下のステップを含む。
《Learning algorithm》
Hereinafter, an algorithm for performing parameter learning in the present embodiment will be described with reference to FIG. Referring to FIG. 4, a program for realizing this algorithm includes the following steps.

1.初期化ステップ120。ここでは、プロトタイプpj,mの初期値pj,m (0)及び正定値行列Aj,mを設定する(j=1,...,J; m=1,...,M)。またエポック回数eの上限値Eを設定する。 1. Initialization step 120. Here, the initial value p j, m (0) of the prototype p j, m and the positive definite matrix A j, m are set (j = 1, ..., J; m = 1, ..., M). . In addition, an upper limit value E of the epoch count e is set.

2.エポック回数e=0,1,...,Eに対して、以下の各サブステップ(a)〜(c)を含む処理124を実行するステップ122。   2. Step 122 of executing processing 124 including the following substeps (a) to (c) for the number of epochs e = 0, 1,.

(a)サブステップ140。ここでは、必要ならば、損失平滑度パラメータの最適値αy(y=1,...,J)を得る。損失平滑度パラメータαyの値としては、経験的に求めたものでもよいが、本願発明者が先に出願した特願2010−184334号に記載した、損失関数平滑度自動設定法を用いて決定した損失平滑度パラメータαyを用いるとより好ましい。 (A) Sub-step 140. Here, if necessary, the optimum value α y (y = 1,..., J) of the loss smoothness parameter is obtained. The value of the loss smoothness parameter α y may be determined empirically, but is determined using the loss function smoothness automatic setting method described in Japanese Patent Application No. 2010-184334 filed earlier by the present inventor. It is more preferable to use the obtained loss smoothness parameter α y .

(b)サブステップ142。ここでは、学習標本集合ΩNから、教師付学習標本(x,y)を取出し、各学習標本に対して以下のサブステップ160〜174を含む処理144を実行する。 (B) Sub-step 142. Here, the supervised learning sample (x, y) is taken out from the learning sample set Ω N , and the processing 144 including the following sub-steps 160 to 174 is executed for each learning sample.

(b1)以下の手順にしたがい、判別関数値gjを計算する(j=1,...,J)(サブステップ160)。 (B1) The discriminant function value g j is calculated according to the following procedure (j = 1,..., J) (substep 160).

(b2)xに対するbest-incorrectクラスの指標iを求める(サブステップ162)。 (B2) The index i of the best-incorrect class for x is obtained (substep 162).

(b3)関数マージン型誤分類尺度をdy=-gy+giによって計算する(サブステップ164)。 (B3) A function margin type misclassification measure is calculated by d y = −g y + g i (substep 164).

(b4)関数マージン型誤分類尺度の入力パターンに対する勾配ベクトルを計算する(ステップ166)。     (B4) A gradient vector for the input pattern of the function margin type misclassification measure is calculated (step 166).

(b5)勾配ベクトルのノルム||∇xdy||を計算する(サブステップ168)。 (B5) gradient to calculate the norm || ∇ x d y || vector (substep 168).

(b6)幾何マージン型誤分類尺度Dy(x;Λ)をDy=dy/||∇xdy||により計算する(サブステップ170)。 (B6) The geometric margin type misclassification measure D y (x; Λ) is calculated by D y = d y / || ∇ x d y || (substep 170).

(b7)幾何マージン型誤分類尺度Dy(x;Λ)の偏微分を以下により計算する(サブステップ172)。 (B7) The partial differentiation of the geometric margin type misclassification measure D y (x; Λ) is calculated as follows (substep 172).

(b8)以下の式によりパラメータ更新を行なう(サブステップ174)。 (B8) The parameter is updated by the following formula (substep 174).

以上のサブステップ(b1)〜(b8)が処理144の内容である。処理144を各学習標本に対して順番に1回ずつ実行し、全標本に対する調整が終了した時点で、新たなプロトタイプpj,m (e+1)(j=1,...,J; m=1,...,M)を得る。 The above sub-steps (b1) to (b8) are the contents of the process 144. The processing 144 is executed once for each learning sample in turn, and when the adjustment for all the samples is completed, a new prototype p j, m (e + 1) (j = 1,..., J; m = 1, ..., M).

(c)ステップ146。ここでは、学習標本集合ΩNにおける学習標本の並び順をシャッフルする。 (C) Step 146. Here, the order of learning samples in the learning sample set Ω N is shuffled.

以上のステップ(a)〜(c)が処理124の内容である。エポックeに対して処理124を行なった後、エポックを1進め(e=e+1)、同じ処理を繰返す。   The above steps (a) to (c) are the contents of the process 124. After performing the process 124 for the epoch e, the epoch is advanced by 1 (e = e + 1) and the same process is repeated.

こうして、エポック数が予定した上限値Eに達して処理124が終了すると、分類器80の学習後のパラメータ集合Λが得られる。   Thus, when the number of epochs reaches the planned upper limit value E and the processing 124 is finished, a parameter set Λ after learning by the classifier 80 is obtained.

《第1の実施の形態の変形例》
さらに、プロトタイプ{pj,m}のみならず、Ajを対角行列として、その正の対角成分を学習してもよい。ここでは
<< Modification of First Embodiment >>
Further, not only the prototype {p j, m } but also the positive diagonal component may be learned by using A j as a diagonal matrix. here

として、aj,d(d=1,...,D)を調整する。関数マージン型誤分類尺度の各ay,d、ai,d(d=1,...,D)に関する偏微分は以下のようになる。 Adjust a j, d (d = 1,..., D). The partial differential for each of the function margin type misclassification scales a y, d , a i, d (d = 1, ..., D) is as follows.

ただしpj=[pj,1…pj,D]Tとしている。dyの2階変微分は Here, p j = [p j, 1 ... P j, D ] T. The second-order variable derivative of d y is

となる。ただしδi,j=1(if i=j)、0(if i≠j)。幾何マージン型誤分類尺度Dyの各ay,d、ai,d(d=1,...,D)に関する偏微分は、式(12)より次式となる。 It becomes. However, δ i, j = 1 (if i = j), 0 (if i ≠ j). The partial differentiation with respect to each a y, d , a i, d (d = 1,..., D) of the geometric margin type misclassification scale D y is expressed by the following equation from Equation (12).

なお、式(9)における学習係数εに関して、pj,mの修正に対するεとaj,dの修正に対するεとは互いに異なる値であってもよい。 Regarding the learning coefficient ε in equation (9), ε for correction of p j, m and ε for correction of a j, d may be different from each other.

《変形例の学習プログラム》
図5を参照して、上記第1の実施の形態の変形例のアルゴリズムを実現するプログラムは以下のようなステップを含む。
《Modification learning program》
Referring to FIG. 5, the program that realizes the algorithm of the modified example of the first embodiment includes the following steps.

1.初期化ステップ220。ここでは、プロトタイプpj,mの初期値pj,m (0)(j=1,...,J; m=1,...,M)及び正定値行列Ajに対応する変数の初期値aj,d (0)(j=1,...,J; d=1,...,D)を設定する。またエポック回数eの上限値Eを設定する。 1. Initialization step 220. Here, the initial values p j, m (0) (j = 1, ..., J; m = 1, ..., M) of the prototype p j, m and the variables corresponding to the positive definite matrix A j Set initial values a j, d (0) (j = 1, ..., J; d = 1, ..., D). In addition, an upper limit value E of the epoch count e is set.

2.エポック回数e=0,1,...,Eに対して、以下の各サブステップ(a)〜(c)を含む処理224を実行するステップ222。   2. Step 222 of executing processing 224 including the following substeps (a) to (c) for the epoch counts e = 0, 1,.

(a)サブステップ240。ここでは、必要ならば、損失平滑度パラメータの最適値αy(y=1,...,J)を得る。 (A) Sub-step 240. Here, if necessary, the optimum value α y (y = 1,..., J) of the loss smoothness parameter is obtained.

(b)サブステップ242。ここでは、学習標本集合ΩNから、教師付学習標本(x,y)を取出し、各学習標本に対して以下のサブステップ260〜274を含む処理244を実行する。なお、変数の右肩の「(e)」は、エポック番号を表す。 (B) Substep 242. Here, the supervised learning sample (x, y) is taken out from the learning sample set Ω N , and the processing 244 including the following sub-steps 260 to 274 is executed for each learning sample. “(E)” on the right shoulder of the variable represents an epoch number.

(b1)以下の手順にしたがい、判別関数値gjを計算する(j=1,...,J)(サブステップ260)。 (B1) The discriminant function value g j is calculated according to the following procedure (j = 1,..., J) (substep 260).

(b2)xに対するbest-incorrectクラスの指標iを求める(サブステップ262)。 (B2) A best-incorrect class index i for x is obtained (substep 262).

(b3)関数マージン型誤分類尺度をdy=-gy+giによって計算する(サブステップ264)。 (B3) a function margin type misclassification measure calculated by d y = -g y + g i ( substep 264).

(b4)関数マージン型誤分類尺度の入力パターンに対する勾配ベクトルを計算する(ステップ266)。     (B4) A gradient vector for the input pattern of the function margin type misclassification measure is calculated (step 266).

(b5)勾配ベクトルのノルム||∇xdy||を計算する(サブステップ268)。 (B5) gradient to calculate the norm || ∇ x d y || vector (substep 268).

(b6)幾何マージン型誤分類尺度Dy(x;Λ)をDy=dy/||∇xdy||により計算する(サブステップ270)。 (B6) The geometric margin type misclassification measure D y (x; Λ) is calculated by D y = d y / || ∇ x d y || (substep 270).

(b7)幾何マージン型誤分類尺度Dy(x;Λ)の偏微分を以下により計算する(サブステップ272)。 (B7) The partial differentiation of the geometric margin type misclassification measure D y (x; Λ) is calculated as follows (substep 272).

(b8)以下の式によりパラメータ更新を行なう(サブステップ274)。 (B8) The parameter is updated by the following formula (substep 274).


以上のサブステップ(b1)〜(b8)が処理244の内容である。処理244を各学習標本に対して順番に1回ずつ実行し、全標本に対する調整が終了した時点で、新たなプロトタイプpj,m (e+1)(j=1,...,J; m=1,...,M)及び行列パラメータaj,d (e+1)(j=1,...,J; d=1,...,D)を得る。

The above substeps (b1) to (b8) are the contents of the processing 244. The processing 244 is executed once for each learning sample in turn, and when the adjustment for all the samples is completed, a new prototype p j, m (e + 1) (j = 1,..., J; m = 1, ..., M) and matrix parameters a j, d (e + 1) (j = 1, ..., J; d = 1, ..., D).

(c)ステップ246。ここでは、学習標本集合ΩNにおける学習標本の並び順をシャッフルする。 (C) Step 246. Here, the order of learning samples in the learning sample set Ω N is shuffled.

以上のステップ(a)〜(c)が処理224の内容である。エポックeに対して処理224を行なった後、エポックを1進め(e=e+1)、同じ処理を繰返す。   The above steps (a) to (c) are the contents of the process 224. After performing the process 224 on the epoch e, the epoch is advanced by 1 (e = e + 1) and the same process is repeated.

こうして、エポック数が予定した上限値Eに達して処理224が終了すると、この変形例に係る分類器80の学習後のパラメータ集合Λが得られる。   Thus, when the number of epochs reaches the predetermined upper limit value E and the processing 224 is completed, a parameter set Λ after learning of the classifier 80 according to this modification is obtained.

[第2の実施の形態:重み付きプロトタイプ型分類器]
非線形の判別関数を用いた例として、重み付きプロトタイプ型の分類器を考える。この場合も第1の実施の形態と同様、以下のようにして分類器の学習を行なうことができる。
[Second Embodiment: Weighted Prototype Classifier]
As an example using a nonlinear discriminant function, consider a weighted prototype type classifier. In this case, as in the first embodiment, the classifier can be learned as follows.

《判別関数及び幾何マージン型分類尺度の偏微分》
クラスCj(j=1,...,J)に対する判別関数は次式で与えられる。
《Partial differentiation of discriminant function and geometric margin type classification measure》
The discriminant function for class C j (j = 1,..., J) is given by

ここでpj,1,...,pj,MはクラスCjに属するM個のプロトタイプであり、wj,m(m=1,...,M)はm番目のプロトタイプとのユークリッド距離に対する重みである。学習パラメータ集合Λ及び関数マージン型誤分類尺度は以下で与えられる。 Where p j, 1 , ..., p j, M are M prototypes belonging to class C j , and w j, m (m = 1, ..., M) is the m-th prototype. It is a weight for the Euclidean distance. The learning parameter set Λ and the function margin type misclassification measure are given below.

ただし、クラスCy及びCiはそれぞれxの正解クラス及びbest-incorrectクラスである。このとき、 However, the class C y and C i are the correct class and best-The net part class x respectively. At this time,

となり(ただしIは単位行列)、幾何マージン型誤分類尺度Dy(x;Λ)及びその偏微分は式(15)より次式となる。 (Where I is a unit matrix), the geometric margin type misclassification measure D y (x; Λ) and its partial differentiation are expressed by the following equation from equation (15).

なお、式(9)における学習係数εに関して、pj,mの修正に対するεとwj,mの修正に対するεとは互いに異なる値であってもよい。 Regarding the learning coefficient ε in equation (9), ε for correction of p j, m and ε for correction of w j, m may be different from each other.

《第2の実施の形態の学習プログラム》
図6を参照して、上記第2の実施の形態のアルゴリズムを実現するプログラムは以下のようなステップを含む。
<< Learning program of the second embodiment >>
Referring to FIG. 6, the program for realizing the algorithm of the second embodiment includes the following steps.

1.初期化ステップ320。ここでは、プロトタイプpj,mの初期値pj,m (0)(j=1,...,J; m=1,...,M)及び重み係数wj,mの初期値wj,m (0)(j=1,...,J; m=1,...,M)を設定する。またエポック回数eの上限値Eを設定する。 1. Initialization step 320. Here, the initial value p j, m (0) (j = 1, ..., J; m = 1, ..., M) of the prototype p j, m and the initial value w of the weight coefficient w j, m Set j, m (0) (j = 1, ..., J; m = 1, ..., M). In addition, an upper limit value E of the epoch count e is set.

2.ステップ322。ここでは、エポック回数e=0,1,...,Eに対して、以下の各サブステップ(a)〜(c)を含む処理324を実行する。以下は処理324を構成する各サブステップである。   2. Step 322. Here, a process 324 including the following substeps (a) to (c) is executed for the number of epochs e = 0, 1,. The following are the sub-steps constituting the process 324.

(a)サブステップ340。ここでは、必要ならば、損失平滑度パラメータの最適値αy(y=1,...,J)を得る。 (A) Sub-step 340. Here, if necessary, the optimum value α y (y = 1,..., J) of the loss smoothness parameter is obtained.

(b)サブステップ342。ここでは、学習標本集合ΩNから、教師付学習標本(x,y)を取出し、各学習標本に対して以下のサブステップ360〜374を含む処理344を実行する。なお、変数の右肩の「(e)」は、エポック番号を表す。以下の(b1)〜(b8)は処理344を構成するサブステップである。 (B) Sub-step 342. Here, the supervised learning sample (x, y) is taken out from the learning sample set Ω N , and processing 344 including the following sub-steps 360 to 374 is executed for each learning sample. “(E)” on the right shoulder of the variable represents an epoch number. The following (b1) to (b8) are sub-steps constituting the process 344.

(b1)判別関数値gjを計算する(j=1,...,J)(サブステップ360)。 (B1) The discriminant function value g j is calculated (j = 1,..., J) (substep 360).

(b2)xに対するbest-incorrectクラスの指標iを求める(サブステップ362)。 (B2) The index i of the best-incorrect class for x is obtained (substep 362).

(b3)関数マージン型誤分類尺度をdy=-gy+giによって計算する(サブステップ364)。 (B3) a function margin type misclassification measure calculated by d y = -g y + g i ( substep 364).

(b4)関数マージン型誤分類尺度の入力パターンに対する勾配ベクトルを計算する(ステップ366)。     (B4) A gradient vector for the input pattern of the function margin type misclassification measure is calculated (step 366).

(b5)勾配ベクトルのノルム||∇xdy||を計算する(サブステップ368)。 (B5) gradient to calculate the norm || ∇ x d y || vector (substep 368).

(b6)幾何マージン型誤分類尺度Dy(x;Λ)をDy=dy/||∇xdy||により計算する(サブステップ370)。 (B6) The geometric margin type misclassification measure D y (x; Λ) is calculated by D y = d y / || ∇ x d y || (substep 370).

(b7)幾何マージン型誤分類尺度Dy(x;Λ)の偏微分を以下により計算する(m=1,...,M)(サブステップ372)。 (B7) The partial differential of the geometric margin type misclassification measure D y (x; Λ) is calculated as follows (m = 1,..., M) (substep 372).

(b8)以下の式によりパラメータ更新を行なう(m=1,...,M)(サブステップ374)。 (B8) Parameter update is performed by the following equation (m = 1,..., M) (substep 374).

以上のサブステップ(b1)〜(b8)が処理344の内容である。処理344を各学習標本に対して順番に1回ずつ実行し、全標本に対する調整が終了した時点で、新たなプロトタイプpj,m (e+1)(j=1,...,J; m=1,...,M)及び重み係数wj,m (e+1)(j=1,...,J; m=1,...,M)を得る。 The above substeps (b1) to (b8) are the contents of the process 344. The process 344 is executed once for each learning sample in turn, and when the adjustment for all the samples is completed, a new prototype p j, m (e + 1) (j = 1,..., J; m = 1, ..., M) and weight coefficients w j, m (e + 1) (j = 1, ..., J; m = 1, ..., M).

(c)ステップ346。ここでは、学習標本集合ΩNにおける学習標本の並び順をシャッフルする。 (C) Step 346. Here, the order of learning samples in the learning sample set Ω N is shuffled.

以上が処理324の内容である。エポックeに対して処理324を行なった後、エポックを1進め(e=e+1)、同じ処理を繰返す。   The above is the content of the process 324. After performing the process 324 on the epoch e, the epoch is advanced by 1 (e = e + 1) and the same process is repeated.

こうして、エポック数が予定した上限値Eに達して処理324が終了すると、この第2の実施の形態に係る分類器80の学習後のパラメータ集合Λが得られる。   Thus, when the number of epochs reaches the planned upper limit value E and the processing 324 is finished, a parameter set Λ after learning of the classifier 80 according to the second embodiment is obtained.

[第3の実施の形態:3層フィードフォワード型ニューラルネットワーク分類器]
非線形の判別関数を用いた例として、フィードフォワード型のニューラルネットワークからなる分類器を考える。この場合も第1及び第2の実施の形態と同様、以下のようにして分類器の学習を行なうことができる。
[Third embodiment: three-layer feedforward neural network classifier]
As an example using a nonlinear discriminant function, consider a classifier consisting of a feedforward neural network. In this case, as in the first and second embodiments, the classifier can be learned as follows.

《判別関数及び幾何マージン型分類尺度の偏微分》
3層フィードフォワード型ニューラルネットワーク分類器400を図7に示す。このニューラルネットワーク分類器400は、入力層412と、中間層414と、出力層416とを含む。
《Partial differentiation of discriminant function and geometric margin type classification measure》
A three-layer feedforward neural network classifier 400 is shown in FIG. The neural network classifier 400 includes an input layer 412, an intermediate layer 414, and an output layer 416.

入力層412は、D+1個のユニット(d=0,1,...,D)を含む。0番目ユニットは値1を、それ以外のユニットはD次元入力パターンxの各成分を受取り、そのまま出力する。   The input layer 412 includes D + 1 units (d = 0, 1,..., D). The 0th unit receives the value 1 and the other units receive each component of the D-dimensional input pattern x and output it as it is.

中間層414は、M+1個のユニット(m=0,1,...,M)を含む。0番目ユニットは入力に何も受けず、値1を出力する。それ以外のm番目ユニット(m=1,...,M)は、入力層412からの出力の重み付け総和に対して非線形関数fを施し、その結果を出力する。 The intermediate layer 414 includes M + 1 units (m = 0, 1,..., M). The 0th unit receives nothing and outputs a value of 1. The other m-th unit (m = 1, ..., M ) performs a non-linear function f m with respect to the weighted sum of the outputs from the input layer 412, and outputs the result.

出力層416はJ個のユニット(j=1,...,J)を含む。各j番目のユニット(j=1,...,J)は、中間層414からの出力の重み付け総和をクラスCjの判別関数gjとして出力する。 The output layer 416 includes J units (j = 1,..., J). Each j-th unit (j = 1,..., J) outputs the weighted sum of the outputs from the intermediate layer 414 as the discriminant function g j of class C j .

なお、MCE学習に基づく実装では、出力層のユニットには非線形関数処理は施されない。   Note that in the implementation based on MCE learning, the output layer unit is not subjected to nonlinear function processing.

クラスCj(j=1,...,J)に対する判別関数は次の式で与えられる。 The discriminant function for class C j (j = 1,..., J) is given by:

ここでwm,d(m=1,...,M; d=0,1,...,D)は入力層412から中間層414への結合に対する重み係数であり、vj,m(j=1,...,J; m=0,1,...M)は中間層414から出力層416への結合に対する重み係数である。学習パラメータ集合Λは上記すべての重み係数の集合である。非線形関数fは任意の微分可能な関数でよいが、ここでは次式のシグモイド関数を採用する。 Here, w m, d (m = 1,..., M; d = 0, 1,..., D) is a weighting coefficient for coupling from the input layer 412 to the intermediate layer 414, and v j, m (J = 1,..., J; m = 0, 1,... M) are weighting coefficients for coupling from the intermediate layer 414 to the output layer 416. The learning parameter set Λ is a set of all the weighting factors. Non-linear function f m may be any differentiable function, but here employs a sigmoid function of the following equation.

k番目クラスCk(k=1,...,J)の判別関数の各重み係数に関する偏微分は次式となる。 The partial differentiation for each weighting coefficient of the discriminant function of the kth class C k (k = 1,..., J) is as follows.

またk番目クラス(k=1,...,J)の判別関数の第p次元目の入力に関する偏微分は次式となる。 Further, the partial differentiation with respect to the input of the pth dimension of the discriminant function of the kth class (k = 1,..., J) is as follows.

さらに、k番目クラス(k=1,...,J)の判別関数に対する2階微分が次式で与えられる。 Further, the second derivative for the discriminant function of the kth class (k = 1,..., J) is given by

ここで式(51)のシグモイド非線形関数の場合、その1階及び2階の導関数はそれぞれ次式となる。 Here, in the case of the sigmoid nonlinear function of Expression (51), the first-order and second-order derivatives are respectively expressed by the following expressions.

以上に基づき、関数マージン型誤分類尺度dy=-gy+giの1階及び2階の偏微分は次式で与えられることとなる。ただしクラスCy及びクラスCiはそれぞれ、ベクトルxの正解クラス及びbest-incorrectクラスである。 Based on the above, the partial differential of 1 floor and second floor of the classification scale d y = -g y + g i erroneous function margin type and thus given by the following equation. However, the class C y and the class C i are the correct class and the best-incorrect class of the vector x, respectively.

そして幾何マージン型誤分類尺度Dy(x;Λ)及びその偏微分は式(12)より次式となる。 Then, the geometric margin type misclassification scale D y (x; Λ) and its partial differentiation are expressed by the following equation from the equation (12).

なお、式(9)における学習係数εに関して、vj,mの修正に対するεとwm,dの修正に対するεとは互いに異なる値であってもよい。 Regarding the learning coefficient ε in equation (9), ε for the correction of v j, m and ε for the correction of w m, d may be different from each other.

《第3の実施の形態の学習プログラム》
図8を参照して、上記第3の実施の形態のアルゴリズムを実現するプログラムは以下のようなステップを含む。
<< Learning program of the third embodiment >>
Referring to FIG. 8, the program for realizing the algorithm of the third embodiment includes the following steps.

1.初期化ステップ440。重み係数{vj,mj=1 m=0 M、{wm,dm=1 M d=0 Dの初期値{vj,m (0)j=1 m=0 M、{wm,d (0)m=1 M d=0 Dを設定する。またエポック回数eの上限値Eを設定する。 1. Initialization step 440. Weight coefficient {v j, m } j = 1 J m = 0 M , {w m, d } m = 1 M d = 0 Initial value of D {v j, m (0) } j = 1 J m = 0 M , {w m, d (0) } m = 1 M d = 0 D is set. In addition, an upper limit value E of the epoch count e is set.

2.ステップ442。ここでは、エポック回数e=0,1,...,Eに対して、以下の各サブステップを含む処理444を実行する。以下は処理444を構成する各サブステップである。   2. Step 442. Here, processing 444 including the following substeps is executed for the number of epochs e = 0, 1,. The following are the sub-steps constituting the process 444.

(a)サブステップ460。ここでは、必要ならば、損失平滑度パラメータの最適値αy(y=1,...,J)を得る。 (A) Sub-step 460. Here, if necessary, the optimum value α y (y = 1,..., J) of the loss smoothness parameter is obtained.

(b)サブステップ462。ここでは、学習標本集合ΩNから、教師付学習標本(x,y)を取出し、各学習標本に対して以下のサブステップ480〜502を含む処理464を実行する。なお、変数の右肩の「(e)」は、エポック番号を表す。以下の(b1)〜(b12)は処理464を構成するサブステップである。 (B) Sub-step 462. Here, the supervised learning sample (x, y) is taken out from the learning sample set Ω N , and processing 464 including the following sub-steps 480 to 502 is executed for each learning sample. “(E)” on the right shoulder of the variable represents an epoch number. The following (b1) to (b12) are sub-steps constituting the process 464.

(b1)中間層414への入力値を計算する(m=1,...,M)(ステップ480)。     (B1) An input value to the intermediate layer 414 is calculated (m = 1,..., M) (step 480).

(b2)判別関数値gjを計算する(j=1,...,J)(サブステップ482)。 (B2) The discriminant function value g j is calculated (j = 1,..., J) (substep 482).

ただしfmは例えば式(51)で与えられる。 However, f m is given by, for example, equation (51).

(b3)xに対するbest-incorrectクラスの指標iを求める(サブステップ484)。     (B3) The index i of the best-incorrect class for x is obtained (substep 484).

(b4)判別関数の偏微分を計算する(k=y,i)(サブステップ486)。     (B4) The partial differentiation of the discriminant function is calculated (k = y, i) (substep 486).

ただしf’mは例えば式(61)で与えられる。 However f 'm is given by example equation (61).

(b5)判別関数の入力に関する偏微分を計算する(k=y,i)(ステップ488)。     (B5) The partial differentiation related to the input of the discriminant function is calculated (k = y, i) (step 488).

(b6)判別関数に対する2階偏微分を計算する(k=y,i)(ステップ490)。 (B6) Second-order partial differentiation with respect to the discriminant function is calculated (k = y, i) (step 490).

ただしf’’mは例えば式(62)で与えられる。 However f '' m is given by example equation (62).

(b7)関数マージン型誤分類尺度をdy=-gy+giにより計算する(ステップ492)。 (B7) A function margin type misclassification measure is calculated by d y = −g y + g i (step 492).

(b8)関数マージン型誤分類尺度の1階及び2階偏微分を次式で計算する(サブステップ494)。     (B8) First-order and second-order partial differentiation of the function margin type misclassification scale is calculated by the following equation (substep 494).

(b9)勾配ベクトルのノルム||∇xdy||を計算する(サブステップ496)。 (B9) calculating a norm || ∇ x d y || of the gradient vector (substep 496).

(b10)幾何マージン型誤分類尺度Dy(x;Λ)をDy=dy/||∇xdy||により計算する(サブステップ498)。 (B10) The geometric margin type misclassification measure D y (x; Λ) is calculated by D y = d y / || ∇ x d y || (substep 498).

(b11)幾何マージン型誤分類尺度Dy(x;Λ)の偏微分を以下により計算する(サブステップ500)。 (B11) The partial differentiation of the geometric margin type misclassification measure D y (x; Λ) is calculated as follows (substep 500).

(b12)以下の式によりパラメータ更新を行なう(サブステップ502)。 (B12) The parameter is updated by the following equation (substep 502).

以上のサブステップ(b1)〜(b12)が処理464の内容である。処理464を各学習標本に対して順番に1回ずつ実行し、全標本に対する調整が終了した時点で、新たな{vj,m (e+1)j=1 m=0 M、{wm,d (e+1)m=1 M d=0 Dを得る。 The above substeps (b1) to (b12) are the contents of the process 464. The processing 464 is executed once for each learning sample in order, and when the adjustment for all the samples is completed, a new {v j, m (e + 1) } j = 1 J m = 0 M , { w m, d (e + 1) } m = 1 M d = 0 D is obtained.

(c)ステップ466。ここでは、学習標本集合ΩNにおける学習標本の並び順をシャッフルする。 (C) Step 466; Here, the order of learning samples in the learning sample set Ω N is shuffled.

以上が処理444の内容である。エポックeに対して処理444を行なった後、エポックを1進め(e=e+1)、同じ処理を繰返す。   The above is the content of the process 444. After performing the process 444 for the epoch e, the epoch is advanced by 1 (e = e + 1) and the same process is repeated.

こうして、エポック数が予定した上限値Eに達して処理444が終了すると、この第3の実施の形態に係る分類器80の学習後のパラメータ集合Λが得られる。   Thus, when the number of epochs reaches the planned upper limit value E and the processing 444 ends, a parameter set Λ after learning of the classifier 80 according to the third embodiment is obtained.

[実験結果]
上記実施の形態に係るLGM−MCE学習法による非線形判別関数分類器の有用性を検証するため、非線形判別関数として2次判別関数を採用し、関数マージン型誤分類尺度を用いる従来のMCE学習法(FM−MCE法)と幾何マージン型誤分類尺度を用いるLGM−MCE法との比較を行なった。
[Experimental result]
In order to verify the usefulness of the nonlinear discriminant function classifier by the LGM-MCE learning method according to the above embodiment, a conventional MCE learning method that employs a quadratic discriminant function as a nonlinear discriminant function and uses a function margin type misclassification measure A comparison was made between the (FM-MCE method) and the LGM-MCE method using the geometric margin type misclassification scale.

クラスCjにおける2次判別関数は式(16)で与えられ、本実験ではAj,1=…=Aj,M=Ajとし、行列AjとしてクラスCjに属する学習標本集合の対角共分散行列の逆行列に固定した。FM−MCE及びLGM−MCE両法で学習されるのはプロトタイプ{pj,mj=1 J m=1 Mであり、これらの初期化としてK-means法を用いた。更に、ユークリッド距離判別関数型の分類器にFM−MCE及びLGM−MCE両法を適用した実験も行なった。ユークリッド距離判別関数は(区分的)線形判別関数の代表例であり、式(16)においてAjを単位行列に固定したものとして与えられる。 The secondary discriminant function in class C j is given by equation (16). In this experiment, A j, 1 =... = A j, M = A j and a pair of learning sample sets belonging to class C j as matrix A j Fixed to the inverse of the angular covariance matrix. The prototype {p j, m } j = 1 J m = 1 M is learned by both the FM-MCE and LGM-MCE methods, and the K-means method was used as initialization thereof. Furthermore, an experiment was conducted in which both FM-MCE and LGM-MCE methods were applied to a Euclidean distance discriminant function type classifier. Euclidean distance discriminant function is a typical example of (piecewise) linear discriminant function is given as to fix the A j in matrix in equation (16).

実験にはUCI Machine Learning Repository(http://archive.ics.uci.edu/ml/)が提供するLetter Recognitionデータセットを用いた。このデータセットは、英語アルファベットのフォント文字画像から特徴抽出された20,000個のデータで構成される、26クラス、16次元のデータセットである。このデータは標本数が多いため、評価方法としてデータセットを分割するHoldout法を用いた。20,000個の標本集合のうち1,000個を学習用標本集合、他の19,000個を未知標本集合とした。   The experiment used the Letter Recognition data set provided by UCI Machine Learning Repository (http://archive.ics.uci.edu/ml/). This data set is a 26-class, 16-dimensional data set composed of 20,000 pieces of data extracted from a font character image of the English alphabet. Since this data has a large number of samples, the Holdout method for dividing the data set was used as an evaluation method. Of the 20,000 sample sets, 1,000 were used as learning sample sets, and the other 19,000 were used as unknown sample sets.

テーブル1は、各判別関数及び各学習手法の未知分類標本率(%)を示したものである。カッコ内は学習標本分類率である。プロトタイプ数が1の場合、FM−MCE及びLGM−MCE両法とも、2次判別関数型分類器の方がユークリッド距離型より分類率が高く、更に2次判別関数型分類器において、LGM−MCE法がFM−MCE法より高い分類率を与えている。プロトタイプ数が3の場合は、未知標本分類率において、FM−MCE及びLGM−MCE両法とも、2次判別関数型分類器の方がユークリッド距離型より分類率が高く、更に2次判別関数型分類器において、LGM−MCE法がFM−MCE法より高い分類率を与えている。以上により、線形判別関数のみならず2次判別関数においても、LGM−MCE学習法が従来のFM−MCE法より高い分類精度を与えることが確認された。   Table 1 shows the unknown classification sample rate (%) of each discriminant function and each learning method. Figures in parentheses are learning sample classification rates. When the number of prototypes is 1, both the FM-MCE and LGM-MCE methods have a higher classification rate for the secondary discriminant function type classifier than the Euclidean distance type, and in the secondary discriminant function type classifier, the LGM-MCE The method gives a higher classification rate than the FM-MCE method. When the number of prototypes is 3, in the unknown sample classification rate, both the FM-MCE and LGM-MCE methods have a higher classification rate for the secondary discriminant function type classifier than the Euclidean distance type, and further a secondary discriminant function type In the classifier, the LGM-MCE method gives a higher classification rate than the FM-MCE method. From the above, it was confirmed that the LGM-MCE learning method gives higher classification accuracy than the conventional FM-MCE method not only in the linear discriminant function but also in the quadratic discriminant function.

[コンピュータによる実現]
以上に説明した実施の形態に係る分類器の学習装置は、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図9は上記実施の形態で用いられるコンピュータシステム550の外観を示し、図10はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。このコンピュータプログラムのうち、コアとなる部分は、図4〜図6及び図8のフローチャートにより示される制御構造を有する。
[Realization by computer]
The classifier learning apparatus according to the embodiment described above can be realized by a general-purpose computer and a computer program executed thereon. FIG. 9 shows the external appearance of the computer system 550 used in the above embodiment, and FIG. 10 is a block diagram of the computer system 550. The computer system 550 shown here is merely an example, and other configurations can be used. The core part of this computer program has the control structure shown by the flowcharts of FIGS.

図9を参照して、コンピュータシステム550は、コンピュータ560と、全てコンピュータ560に接続された、モニタ562と、キーボード566と、マウス568と、スピーカ558と、マイクロフォン590と、を含む。さらに、コンピュータ560はDVD−ROM(Digital Versatile Disk Read−Only−Memory:デジタル多用途ディスク読出専用メモリ)ドライブ570と、半導体メモリポート572とを含む。   Referring to FIG. 9, computer system 550 includes a computer 560, a monitor 562, a keyboard 566, a mouse 568, a speaker 558, and a microphone 590 that are all connected to computer 560. Further, the computer 560 includes a DVD-ROM (Digital Versatile Disk Read-Only-Memory) drive 570 and a semiconductor memory port 572.

図10を参照して、コンピュータ560はさらに、DVD−ROMドライブ570と半導体メモリドライブ572とに接続されたバス586と、全てバス586に接続された、CPU576と、コンピュータ560のブートアッププログラムを記憶するROM578と、CPU576によって使用される作業領域を提供するとともにCPU576によって実行されるプログラムのための記憶領域となるRAM580と、学習データ等を記憶するためのハードディスクドライブ574と、ネットワーク552への接続を提供するネットワークインターフェイス596とを含む。   Referring to FIG. 10, computer 560 further stores a bus 586 connected to DVD-ROM drive 570 and semiconductor memory drive 572, a CPU 576 all connected to bus 586, and a boot-up program for computer 560. A ROM 578, a RAM 580 that provides a work area used by the CPU 576 and a storage area for programs executed by the CPU 576, a hard disk drive 574 for storing learning data, etc., and a connection to the network 552. A network interface 596 to be provided.

上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM582又は半導体メモリ584等のコンピュータ読取可能な記録媒体に記録されたオブジェクトコード、スクリプト、又はソースプログラムの形で流通し、DVD−ROMドライブ570又は半導体メモリポート572等の読出装置を介してコンピュータ560に提供され、ハードディスクドライブ574に記憶される。ソースプログラムでコンピュータ560に導入されるときには、所定のコンパイラでコンパイルしてオブジェクトコードを生成する必要がある。CPU576がプログラムを実行する際には、オブジェクトプログラム(又はスクリプト)はハードディスクドライブ574から読出されてRAM580に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU576はハードディスクドライブ574又はRAM580から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ574又はRAM580に記憶する。スピーカ558及びマイクロフォン590は、本実施の形態では用いられないが、本発明は音声認識及び話者認識にも適用可能であり、そうした場合にはこれらは音声についての学習データを準備するときに必要となる。マイクロフォン590はまた、このコンピュータ上で音声認識を行なうときには、処理対象の音声を入力するための入力装置としても機能する。   The software that realizes the system of the above-described embodiment is distributed in the form of object code, script, or source program recorded on a computer-readable recording medium such as DVD-ROM 582 or semiconductor memory 584, and is a DVD-ROM drive. The data is provided to the computer 560 via a reading device such as 570 or the semiconductor memory port 572 and stored in the hard disk drive 574. When the source program is introduced into the computer 560, it is necessary to compile with a predetermined compiler to generate an object code. When the CPU 576 executes the program, the object program (or script) is read from the hard disk drive 574 and stored in the RAM 580. An instruction is fetched from an address designated by a program counter (not shown), and the instruction is executed. The CPU 576 reads data to be processed from the hard disk drive 574 or the RAM 580 and stores the processing result in the hard disk drive 574 or the RAM 580 as well. Although the speaker 558 and the microphone 590 are not used in this embodiment mode, the present invention can also be applied to speech recognition and speaker recognition, in which case they are necessary when preparing learning data about speech. It becomes. The microphone 590 also functions as an input device for inputting the voice to be processed when performing voice recognition on this computer.

学習用データは、予め収集され、入力パターンとそのパターンの属するクラスとの組を多数含む。これは、図3に示すシステムでは、各文字画像から抽出した文字特徴量と、その文字画像に対応する文字カテゴリである。学習用データは、ハードディスクドライブ574(図3に示す記憶部70及び学習データ記憶部76)に記憶される。上記した処理により算出される分類用のパラメータセットΛ等は、一旦はハードディスクドライブ574等に記憶され、さらにネットワークを介して、又はUSBメモリを介して、分類器にコピーされる。分類器はこれらクラス分類用のパラメータセットΛを用いて入力パターンをいずれかのクラスに分類する。   The learning data is collected in advance and includes a large number of sets of input patterns and classes to which the patterns belong. In the system shown in FIG. 3, this is a character feature amount extracted from each character image and a character category corresponding to the character image. The learning data is stored in the hard disk drive 574 (the storage unit 70 and the learning data storage unit 76 shown in FIG. 3). The classification parameter set Λ or the like calculated by the above processing is temporarily stored in the hard disk drive 574 or the like and further copied to the classifier via the network or the USB memory. The classifier classifies the input pattern into any class using the parameter set Λ for class classification.

コンピュータシステム550の一般的動作は周知であるので、詳細な説明はここでは繰返さない。   Since the general operation of computer system 550 is well known, detailed description will not be repeated here.

ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくても良い。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されても良い。ソフトウェアの一部がハードディスクドライブ574に記憶され、ソフトウェアの残りの部分をネットワーク上からハードディスクドライブ574に取込み、実行の際に統合する様にしても良い。   Regarding the software distribution method, the software does not necessarily have to be fixed on a storage medium. For example, the software may be distributed from another computer connected to the network. A part of the software may be stored in the hard disk drive 574, and the remaining part of the software may be taken into the hard disk drive 574 from the network and integrated at the time of execution.

典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能、及びスクリプト言語を使用する場合にはスクリプト言語の実行系により提供される一般的又は特定の目的に沿った機能を利用し、所望の目的にしたがって制御された態様で機能を達成する。したがって、OS又はサードパーティから提供されうる一般的な機能を含まず、そのように他のシステムにより提供される機能の実行順序の組合せを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。   Typically, modern computers serve the general functionality provided by the computer's operating system (OS), and the general or specific purpose provided by the scripting language's execution system if a scripting language is used. The functions along the line are utilized to achieve the functions in a controlled manner according to the desired purpose. Therefore, even if the program does not include a general function that can be provided from the OS or a third party and thus specifies a combination of execution order of functions provided by other systems, the program is desired as a whole. Obviously, the program is included in the scope of the present invention as long as it has a control structure that achieves the object.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

40 文字認識システム
50 学習ユニット
54 文字認識ユニット
56 出力文字カテゴリ
76 学習データ記憶部
78 学習モジュール
80 分類器
96 デコーダ
400 ニューラルネットワーク分類器
412 入力層
414 中間層
416 出力層
550 コンピュータシステム
560 コンピュータ
40 character recognition system 50 learning unit 54 character recognition unit 56 output character category 76 learning data storage unit 78 learning module 80 classifier 96 decoder 400 neural network classifier 412 input layer 414 intermediate layer 416 output layer 550 computer system 560 computer

Claims (6)

入力パターンをJ個のクラスC(jは1〜Jの整数)のいずれかに分類する分類器の学習装置であって、
N個(Nは正の整数)の教師付の入力パターンを含む学習標本集合を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータ集合Λを予め定めた設定方法により初期化するための初期化手段とを含み、
クラスCに属する学習標本集合内の入力パターンxが他のクラスに誤分類される度合いを測る幾何マージン型誤分類尺度値Dy(x;Λ)が以下により定義され、
ただしψは正の実数であり、gy(x;Λ)は前記J個のクラスCの各々に対して、学習標本集合内の入力パターンxが当該クラスに属するか否かの度合いを判別するための、xと学習パラメータ集合Λとについて2階微分可能な任意の形の判別関数であり、dy(x;Λ)は関数マージン型誤分類尺度と呼ばれ、
前記学習パラメータ集合Λに含まれるk個の変数を並べたベクトルλ=[λ1…λk]について、誤分類尺度値Dy(x;Λ)のベクトルλによる偏微分は、関数dy(x;Λ)の勾配ベクトル∇xdyを用いて以下の式により与えられ、ただし上付きのTは行列の転置を表し、
さらに、前記学習パラメータ集合Λに関する所定の最小化目標関数L(Λ)の値が、前記学習標本集合に対して最小となるように、前記誤分類尺度値Dy (x;Λ)の偏微分を用いて、前記学習パラメータ集合Λに含まれる各パラメータの値を適応的に調整するパラメータ調整手段を含む、分類器の学習装置。
A classifier learning device that classifies an input pattern into one of J classes C j (j is an integer of 1 to J),
Learning sample storage means for storing a learning sample set including N (N is a positive integer) supervised input pattern;
Initializing means for initializing the learning parameter set Λ of the classifier by a predetermined setting method,
Class C input pattern x of training samples in the set which belongs to y is measure the degree to which misclassified other classes Geometric Margin type misclassification measure value D y (x; lambda) is defined below,
However ψ is a positive real number, g y (x; Λ) is said for each of the J Class C y, determines the degree input pattern x of training samples in the set is whether belonging to the class Is a discriminant function that can be second-order differentiated with respect to x and the learning parameter set Λ, and d y (x; Λ) is called a function margin type misclassification measure,
For a vector λ = [λ 1 ... Λ k ] in which k variables included in the learning parameter set Λ are arranged, the partial differentiation of the misclassification measure value D y (x; Λ) by the vector λ is the function d y ( x; Λ) using the gradient vector ∇ x d y , where superscript T represents the transpose of the matrix,
Further, the partial differentiation of the misclassification measure value D y (x; Λ) so that the value of the predetermined minimization target function L (Λ) with respect to the learning parameter set Λ is minimized with respect to the learning sample set. A classifier learning device including parameter adjustment means for adaptively adjusting the value of each parameter included in the learning parameter set Λ.
クラスCj(j=1,…,J)に対する判別関数が、クラスCjに属するM個のプロトタイプをpj,1,...,pj,M、各プロトタイプに対応する正定値行列をAj,1,…,Aj,Mとして、次式で与えられ、
ただし、pj及びAjは、クラスCjに属するプロトタイプの中で、入力パターンxとの間に次式で定められる距離Distance
が最小となるプロトタイプの指標をm(j)として、pj=pj,m(j)、及びAj=Aj,m(j)であり、
関数マージン型誤分類尺度dy(x;Λ)は、次式で与えられ
幾何マージン型誤分類尺度Dy (x;Λ)及びその偏微分は以下の式で与えられる、請求項1に記載の分類器の学習装置。
The discriminant function for class C j (j = 1,..., J) has M prototypes belonging to class C j as p j, 1 ,..., P j, M and a positive definite matrix corresponding to each prototype. A j, 1 ,..., A j, M are given by
However, p j and A j are distance distances defined by the following equation between the input pattern x and the prototype belonging to the class C j.
P j = p j, m (j) and A j = A j, m (j) , where m (j) is the prototype index that minimizes
The function margin type misclassification scale d y (x; Λ) is given by
The classifier learning device according to claim 1, wherein the geometric margin type misclassification measure D y (x; Λ) and its partial differentiation are given by the following equations.
前記正定値行列Aj,1,…,Aj,Mは以下のような、正の対角成分を持つ対角行列であり、
パラメータaj,1,...,aj,Dは前記学習パラメータ集合Λに含まれ
前記幾何マージン型誤分類尺度Dy(x;Λ)の、パラメータay,d及びai,d(d=1,...,D)に関する偏微分は以下の式により表される、請求項2に記載の分類器の学習装置。
The positive definite matrix A j, 1 ,..., A j, M is a diagonal matrix having a positive diagonal component as follows:
Parameters a j, 1 , ..., a j, D are included in the learning parameter set Λ, and parameters a y, d and a i, d (of the geometric margin type misclassification measure D y (x; Λ) The classifier learning device according to claim 2, wherein the partial differentiation with respect to d = 1,..., D) is represented by the following expression.
クラスCj(j=1,...,J)に対する判別関数が以下で与えられ、
ただしpj,1,...,pj,MはクラスCjに属するM個のプロトタイプであり、wj,m(m=1,...,M)は、m番目のプロトタイプとのユークリッド距離に対する重みであり、
前記学習パラメータ集合Λ及び関数マージン型誤分類尺度dy(x;Λ)は以下の式で与えられ
ただしクラスCy及びCiはそれぞれxの正解クラス及びbest-incorrectクラスであり、
前記幾何マージン型誤分類尺度及びその偏微分は以下の式により表される、請求項1に記載の分類器の学習装置。
The discriminant function for class C j (j = 1, ..., J) is given by
Where p j, 1 , ..., p j, M are M prototypes belonging to class C j , and w j, m (m = 1, ..., M) is the mth prototype. A weight for the Euclidean distance,
The learning parameter set Λ and the function margin type misclassification measure d y (x; Λ) are given by the following equations:
However Class C y and C i are correct class and best-The net part class x respectively,
The classifier learning apparatus according to claim 1, wherein the geometric margin type misclassification scale and the partial differentiation thereof are represented by the following equations.
前記分類器は、入力層、中間層及び出力層からなる3層フィードフォワード型ニューラルネットワーク分類器であり、
前記入力層はD+1個のユニットを含み、
前記中間層はM+1個のユニットを含み、前記中間層のm番目(m=1,...,M)のユニットは前記入力層からの出力の重み付け総和に対して非線形関数fを施して出力し、
前記出力層は、J個のユニットを含み、
各j番目ユニット(j=1,...,J)は、中間層からの出力の重み付け総和をクラスCjの判別関数gjとして出力するものであり、
クラスCj(j=1,...,J)に対する判別関数は以下で与えられ、
ここでwm,d(m=1,...,M; d=0,1,...,D)は、入力層のd番目のユニットから中間層のm番目のユニットへの結合に対する重み付け係数、vj,m(j=1,...,J; m=0,1,...,M)は中間層のm番目のユニットから出力層のj番目のユニットへの結合に対する重み付け係数であり、
前記学習パラメータ集合Λは、前記重み付け係数wm,d(m=1,...,M; d=0,1,...,D)及びvj,m(j=1,...,J; m=0,1,...,M)を含み、
前記幾何マージン型誤分類尺度及びその偏微分は以下の式である、請求項1に記載の分類器の学習装置。
The classifier is a three-layer feedforward neural network classifier including an input layer, an intermediate layer, and an output layer,
The input layer includes D + 1 units;
The intermediate layer comprises M + 1 single unit, m-th of the intermediate layer (m = 1, ..., M ) is the unit of performing a non-linear function f m with respect to the weighted sum of the outputs from the input layer Output,
The output layer includes J units,
Each j-th unit (j = 1,..., J) outputs a weighted sum of outputs from the intermediate layer as a discriminant function g j of class C j ,
The discriminant function for class C j (j = 1, ..., J) is given by
Where w m, d (m = 1, ..., M; d = 0,1, ..., D) is for the coupling from the d-th unit of the input layer to the m-th unit of the intermediate layer. The weighting factor, v j, m (j = 1, ..., J; m = 0,1, ..., M) is for the coupling from the mth unit in the middle layer to the jth unit in the output layer A weighting factor,
The learning parameter set Λ includes the weighting coefficients w m, d (m = 1, ..., M; d = 0,1, ..., D) and v j, m (j = 1, ... , J; m = 0,1, ..., M)
The classifier learning apparatus according to claim 1, wherein the geometric margin type misclassification scale and the partial differentiation thereof are as follows.
コンピュータを、請求項1〜請求項5のいずれかに記載の分類器の学習装置の各手段として機能させる、コンピュータプログラム。   A computer program that causes a computer to function as each unit of the learning device for a classifier according to any one of claims 1 to 5.
JP2011148142A 2011-07-04 2011-07-04 Pattern classification learning device Expired - Fee Related JP5834287B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011148142A JP5834287B2 (en) 2011-07-04 2011-07-04 Pattern classification learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011148142A JP5834287B2 (en) 2011-07-04 2011-07-04 Pattern classification learning device

Publications (2)

Publication Number Publication Date
JP2013016006A true JP2013016006A (en) 2013-01-24
JP5834287B2 JP5834287B2 (en) 2015-12-16

Family

ID=47688643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011148142A Expired - Fee Related JP5834287B2 (en) 2011-07-04 2011-07-04 Pattern classification learning device

Country Status (1)

Country Link
JP (1) JP5834287B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019244513A1 (en) * 2018-06-22 2019-12-26 日本電信電話株式会社 Device functioning as sensor node and data center, sensor network, communication method, and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019244513A1 (en) * 2018-06-22 2019-12-26 日本電信電話株式会社 Device functioning as sensor node and data center, sensor network, communication method, and program
JP2019220104A (en) * 2018-06-22 2019-12-26 日本電信電話株式会社 Device functioning as sensor node and data center, sensor network, communication method, and program
JP7056406B2 (en) 2018-06-22 2022-04-19 日本電信電話株式会社 Devices, sensor networks, communication methods and programs that function as sensor nodes and data centers
US11822579B2 (en) 2018-06-22 2023-11-21 Nippon Telegraph And Telephone Corporation Apparatus for functioning as sensor node and data center, sensor network, communication method and program

Also Published As

Publication number Publication date
JP5834287B2 (en) 2015-12-16

Similar Documents

Publication Publication Date Title
US9311609B2 (en) Techniques for evaluation, building and/or retraining of a classification model
US11049011B2 (en) Neural network classifier
Andrew et al. Deep canonical correlation analysis
Dieng et al. Prescribed generative adversarial networks
CN108694443B (en) Neural network-based language model training method and device
JPWO2018051841A1 (en) Model learning apparatus, method thereof and program
JP7266674B2 (en) Image classification model training method, image processing method and apparatus
CN108475262A (en) Electronic equipment and method for text-processing
Becerra et al. Neural and wavelet network models for financial distress classification
WO2019202941A1 (en) Self-training data selection device, estimation model learning device, self-training data selection method, estimation model learning method, and program
CN108898181B (en) Image classification model processing method and device and storage medium
EP3916597A1 (en) Detecting malware with deep generative models
CN114186063B (en) Training method and classification method of cross-domain text emotion classification model
JP5704692B2 (en) Pattern classification device learning device and computer program therefor
Keren et al. Convolutional neural networks with data augmentation for classifying speakers' native language
Browne Neural network analysis, architectures and applications
WO2023071581A1 (en) Method and apparatus for determining response sentence, device, and medium
JP2012181579A (en) Pattern classification learning device
Sun et al. An improved multiclass LogitBoost using adaptive-one-vs-one
Amidi et al. Vip cheatsheet: Recurrent neural networks
CN113011531A (en) Classification model training method and device, terminal equipment and storage medium
US10546246B2 (en) Enhanced kernel representation for processing multimodal data
JP6127778B2 (en) Model learning method, model learning program, and model learning apparatus
Halkias et al. Sparse penalty in deep belief networks: using the mixed norm constraint
JP5834287B2 (en) Pattern classification learning device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150918

R150 Certificate of patent or registration of utility model

Ref document number: 5834287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees