JP2010287135A - Data classification device, data classification method and program making computer execute the method - Google Patents

Data classification device, data classification method and program making computer execute the method Download PDF

Info

Publication number
JP2010287135A
JP2010287135A JP2009141716A JP2009141716A JP2010287135A JP 2010287135 A JP2010287135 A JP 2010287135A JP 2009141716 A JP2009141716 A JP 2009141716A JP 2009141716 A JP2009141716 A JP 2009141716A JP 2010287135 A JP2010287135 A JP 2010287135A
Authority
JP
Japan
Prior art keywords
classification
function
section
boundary
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009141716A
Other languages
Japanese (ja)
Inventor
Usho Mo
羽翔 毛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2009141716A priority Critical patent/JP2010287135A/en
Publication of JP2010287135A publication Critical patent/JP2010287135A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To perform high-speed multi-class classification by mapping a data pattern on an independent section of a number line. <P>SOLUTION: In the data classification device, a classification index function for mapping a teacher pattern on the independent section of the number line by belonging classification is trained. In some cases, classification boundary information is also trained together. The classification index function constitutes a classification estimation function together with the classification boundary information. A classification boundary is a boundary between the independent sections. The independent section is defined as a classification section. Minimization of a classification error and maximization of a margin are included in targets of the training. A function of the classification estimation function is high-speed specification of a belonging classification section of output of the classification index function from the classification boundary information when estimating the belonging classification of an input pattern. The classification represented by the predetermined classification section is estimated as the belonging classification of the input pattern. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、データ分類方法、データ分類装置、およびプログラムに関する。   The present invention relates to a data classification method, a data classification device, and a program.

サポートベクターマシン(SVM:Support
Vector
Machine)(非特許文献1を参照)は汎化能力の高い2値分類器であるが、多値分類に拡張される場合処理速度の遅さがネックとなっている。SVMの基本思想は図1に描かれている。入力データは2類のパターンを含む。SVMは訓練を通して、2類のパターンの間に超平面を作る。この超平面から入力パターンまでの距離は最大化されている。図1に「x」と「o」は2分類の入力パターンを代表し、実線は超平面を代表し、点線は入力パターンから超平面までの最短距離(マージンと呼ぶ)を表すマージン超平面という仮想超平面を代表する。エラーを表すスラック変数で調整された前記最短距離のこともマージンと呼ぶ。
Support vector machine (SVM: Support)
Vector
(Machine) (see Non-Patent Document 1) is a binary classifier with high generalization ability, but when it is extended to multi-value classification, slow processing speed is a bottleneck. The basic idea of SVM is depicted in FIG. Input data includes two types of patterns. SVM creates a hyperplane between two patterns through training. The distance from this hyperplane to the input pattern is maximized. In FIG. 1, “x” and “o” represent two types of input patterns, a solid line represents a hyperplane, and a dotted line represents a margin hyperplane representing the shortest distance (called a margin) from the input pattern to the hyperplane. Represents a virtual hyperplane. The shortest distance adjusted by a slack variable representing an error is also called a margin.

空間分割を手法とし、SVMを利用した多値分類アルゴリズム(非特許文献2と特許文献1と特許文献2を参照
)として、代表的なものにonevsone法、onevsrest法、pairwise法、DDAG(Decision
Directed Acyclic
Graph)法、MOF(Multiclass Objective Function)法などがある。
空間分割以外もSVMに類似した多値分類の回帰法(非特許文献3を参照)があります。
As a multi-value classification algorithm (see Non-Patent Document 2, Patent Document 1, and Patent Document 2) using a space division method, representative ones are the onevson method, onevsrest method, pairwise method, DDAG (Decision)
Directed Acyclic
(Graph) method, MOF (Multiclass Objective Function) method, and the like.
There is a multi-valued classification regression method similar to SVM (see Non-Patent Document 3) other than spatial partitioning.

本発明中において、分類推定関数は
入力パターンの所属分類を推測する又は判定する計算仕組みのこと
を指す。
本発明中において、分類指標関数は
入力パターンの所属分類を推測するための値を
入力パターンから変換する計算仕組みのことを指す。
前記の各種方法は全て複数の分類指標関数を構築して、分類指標関数の組み合わせで分類推定関数を構築して入力パターンの所属分類を推定する。
In the present invention, the classification estimation function refers to a calculation mechanism that estimates or determines the affiliation classification of an input pattern.
In the present invention, the classification index function refers to a calculation mechanism that converts a value for estimating the affiliation classification of an input pattern from the input pattern.
All the above-mentioned various methods construct a plurality of classification index functions, construct a classification estimation function by a combination of classification index functions, and estimate the affiliation classification of the input pattern.

MOF法は全ての入力データの間の関係を以下のように作る。一つの教師パターンに対し、所属分類の分類指標関数の出力は全ての非所属分類の分類指標関数の出力より大きいことを制約する。n個の分類に対して、n個の関数を同時に制約する。n個の関数の関係はn(n−1)個存在するため、制約条件の数もn(n−1)倍になる。入力パターンの所属分類を推定するときは出力のもっとも大きい関数に代表される分類を所属分類として選択する。MOF法はもっとも理想的な方法であるが、その巨大な問題規模が実用され難い要因になる。
MOF法はonevsone法の統合方法として考えられる。
The MOF method creates the relationship between all input data as follows. For one teacher pattern, it is constrained that the output of the classification index function of the affiliation classification is larger than the output of the classification index function of all the non-affiliation classifications. Constrain n functions simultaneously for n classifications. Since there are n (n-1) relationships among n functions, the number of constraints is also n (n-1) times. When estimating the affiliation classification of the input pattern, the classification represented by the function with the largest output is selected as the affiliation classification. The MOF method is the most ideal method, but its huge problem scale is difficult to put into practical use.
The MOF method can be considered as an integrated method of the onesvone method.

MOF法及び多値回帰以外の前記方法(以下「諸合成訓練法」と呼ぶ)は、MOF法に対する分解として考えられる。訓練時に2値分類推定関数を(n−1)個以上構築する。ただし、関数間の制約関係は訓練時に求められない。訓練後の組み合わせ方法を通して、MOF法に近似した結果を希望する。訓練時の制約条件の減少により、訓練に掛かる総時間の短縮となる。尚、一つの大規模問題を一列の小規模問題に変換することで、計算機器の能力に対する要求も軽減となる。分解の方法は一つの入力データ集合に対し、独立した二値分類の訓練を複数回行い、問題の総規模は分類の総数に比例する。訓練時に2値分類推定関数の間の関係が制約され難いため、後続組み合わせの最適性は訓練時に保証され難い問題をも有する。   The methods other than the MOF method and multi-value regression (hereinafter referred to as “synthetic training methods”) can be considered as decomposition for the MOF method. (N-1) or more binary classification estimation functions are constructed during training. However, the constraint relationship between functions is not obtained during training. We hope the result approximated to MOF method through the combination method after training. By reducing the constraints during training, the total time required for training is shortened. Note that by converting a single large-scale problem into a single row of small-scale problems, the demands on the capabilities of the computing equipment can be reduced. In the decomposition method, independent binary classification training is performed several times for one input data set, and the total size of the problem is proportional to the total number of classifications. Since the relationship between the binary classification estimation functions is difficult to constrain during training, the optimality of subsequent combinations also has a problem that is difficult to guarantee during training.

多値回帰は空間に分類目標点を定義することによって、分類目標点からのずれの合計が最小になることを望む。問題規模が前記の各種方法より小さい。   Multi-valued regression hopes that the sum of deviations from the classification target points is minimized by defining the classification target points in space. The problem size is smaller than the various methods described above.

特開2004−280712号公報Japanese Patent Laid-Open No. 2004-280712 特開2008−217375号公報JP 2008-217375 A

Bernhard Scholkopf and Alexander J. Smola著 Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. The MIT Press. 2002.Bernhard Scholkopf and Alexander J. Smola Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. The MIT Press. 2002. Mahesh Pal著 Multiclass Approaches for Support Vector Machine Based Land Cover Classification. MapIndia 2005 ConferenceMahesh Pal Multiclass Approaches for Support Vector Machine Based Land Cover Classification.MapIndia 2005 Conference Pei-Chun Chen, Tsung-Ju Lee, Yuh-Jye Lee, Su-Yun Huang 著 Multiclass Support Vector Classification via Regression. http://www.stat.sinica.edu.tw/syhuang/papersdownload/MC-reg-121006.pdfPei-Chun Chen, Tsung-Ju Lee, Yuh-Jye Lee, Su-Yun Huang, Multiclass Support Vector Classification via Regression.http: //www.stat.sinica.edu.tw/syhuang/papersdownload/MC-reg-121006 .pdf

MOF法の正確性は高く期待されるが、n分類に所属する併せてm個パターンを持つ入力データ集合に対し、規模がΘ((mn))になる訓練問題が形成する。現実中のデータ分類課題において、一つの分類に常に複数のパターンが所属する故、mは常にnより遥かに大きい。計算機器の能力にもよるが、nが特に小さくない場合はMOF法による訓練は困難となる。 Although the accuracy of the MOF method is expected to be high, a training problem with a scale of Θ ((mn) 2 ) is formed for an input data set belonging to n classification and having m patterns. In a real data classification task, m is always much larger than n because multiple patterns always belong to one classification. Although depending on the ability of the computing equipment, training by the MOF method becomes difficult when n is not particularly small.

諸合成訓練法は少なくとも規模が
Θ(mn)になる訓練問題が形成する。MOF法より規模が小さくなることはあるが、nが大きければ演算時間がかなり長くなる。複数の計算機器による並行処理でスピードアップはできるが、計算機器に掛かるコストも高くなる。
In various synthetic training methods, at least a training problem with a scale of Θ (m 2 n) is formed. Although the scale may be smaller than that of the MOF method, if n is large, the computation time becomes considerably long. The speed can be increased by parallel processing by a plurality of computing devices, but the cost of the computing devices also increases.

諸合成訓練法は後続組合せの解釈の相違によって、最適の意味も曖昧になる。したがって、全体的にマージンを最大化するという目標の達成は困難となる。訓練時において、分類推定関数のサイズは別々に最適化になるため、全体上のサイズ最適化は抑えられない問題もある。   The optimal meaning of various synthetic training methods is obscured by the difference in interpretation of subsequent combinations. Therefore, it is difficult to achieve the goal of maximizing the overall margin. Since the size of the classification estimation function is optimized separately during training, there is a problem that the overall size optimization cannot be suppressed.

MOF法も諸合成訓練法も多値回帰も、所属分類を推測するため、一つの入力パターンに対して複数の分類推定関数の出力を計算する。分類推定関数の数はΘ(n)である。Nが大きい場合は多くの分類推定関数を用いた計算は非効率になる。   The MOF method, various synthetic training methods, and multivalued regression calculate the outputs of a plurality of classification estimation functions for one input pattern in order to estimate the affiliation classification. The number of classification estimation functions is Θ (n). When N is large, calculation using many classification estimation functions becomes inefficient.

多値回帰は他の幾つかの問題点をも持つ。一、マージンは定義されないので、分類間の距離最大化を直接に訓練目標に含むことはし難い。二、前記の各種方法と同様に複数の関数を訓練で作成することになり、一つのパターンに対して複数の関数値を求めて比較する必要がある。三、訓練で得た各関数の出力分布は不明なので、単一の距離計算方法から確率を求める方法は不十分である恐れがある。   Multilevel regression also has some other problems. First, since the margin is not defined, it is difficult to include distance maximization between classifications directly in the training target. Secondly, a plurality of functions are created by training as in the above-described various methods, and it is necessary to obtain and compare a plurality of function values for one pattern. 3. Since the output distribution of each function obtained by training is unknown, there is a possibility that the method of obtaining the probability from a single distance calculation method is insufficient.

上記従来技術による問題点を解決するため、単一の多値分類指標関数をより小規模演算で構築し、入力パターンの分類を分類指標関数の出力によって高速に特定するデータ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。   In order to solve the above-described problems caused by the prior art, a data classification device and a data classification method for constructing a single multi-level classification index function with a smaller scale operation and quickly identifying an input pattern classification based on the output of the classification index function And a program for causing a computer to execute the method.

本発明は前記各問題点を解決するため、図2に示されたような写像を使用する。該写像は陰写像(implicit
mapping)又は陽写像(explicit
mapping)である。
The present invention uses a map as shown in FIG. 2 in order to solve the above problems. The map is implicit
mapping) or explicit mapping
mapping).

本発明にかかるデータ分類方法やデータ分類装置やプログラムは
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を含んだことを特徴とする。
A data classification method, a data classification device, and a program according to the present invention include a step of dividing a single number line into a plurality of independent sections,
Setting the teacher data to belong to the independent section according to the affiliation classification;
A step for constructing a classification index function for mapping the teacher data to the section to which the teacher belongs or an approximation thereof by an undetermined coefficient method;
A training step with the goal of maximizing the margin attached to the boundary of the section;
Obtaining the classification index function by solving a mathematical programming problem;
It is characterized by including.

目標関数及び制約を構成し、数理計画問題を作成する。   Create objective programming and constraints, and create mathematical programming problems.

前記数理計画問題を解く。   Solve the mathematical programming problem.

数理計画問題の解から分類指標関数と分類境界を確定して、分類推定関数を作成する。   The classification index function and the classification boundary are determined from the solution of the mathematical programming problem, and a classification estimation function is created.

分類推定関数を用いて、未知データを分類する。   Classify unknown data using a classification estimation function.

本発明によれば、エラー最小化及びマージン最大化を訓練目標に含む多値分類法の訓練問題規模がO(m+mn)まで減少できる。 According to the present invention, the training problem scale of the multi-level classification method including error minimization and margin maximization as training targets can be reduced to O (m 2 + mn).

本発明によれば、一回のみの訓練で、一つの分類指標関数のみを作成し、訓練の計算量及び結果に必要なスペースが減少になる。   According to the present invention, only one classification index function is created by only one training, and the amount of training and the space required for the result are reduced.

本発明によれば、一つの入力パターンの分類推定に対して、分類指標関数の出力を一回のみ求め、分類指標関数の出力による分類推定の演算量がO(log(n))になり、分類推定の実行計算量が軽減となる。同時に、分類指標関数の複合(組合せ)が必要ないので、それによる多義もなくなる。   According to the present invention, with respect to the classification estimation of one input pattern, the output of the classification index function is obtained only once, and the amount of calculation of classification estimation based on the output of the classification index function is O (log (n)). The amount of execution of classification estimation is reduced. At the same time, there is no need for compounding (combination) of classification index functions, so there is no ambiguity.

本発明によれば、回帰法と比べて、各分類間のマージンが定義でき、然もそれぞれ自動に適応できるようになる。   According to the present invention, compared with the regression method, the margin between the classifications can be defined, and each can be automatically adapted.

図1は従来のSVM訓練結果を示した説明図である。FIG. 1 is an explanatory view showing a conventional SVM training result. 図2は本発明の解決手段を示した説明図である。FIG. 2 is an explanatory view showing the solving means of the present invention. 図3は本発明の多値分類装置の訓練の実施方法を示した説明図である。FIG. 3 is an explanatory diagram showing a training method for the multilevel classification apparatus of the present invention. 図4は本発明の多値分類装置を用いた分類推定の実施方法を示した説明図である。FIG. 4 is an explanatory diagram showing a method for performing classification estimation using the multi-level classification apparatus of the present invention. 図5は本発明の多値分類装置を用いた分類境界の一例を示した説明図である。FIG. 5 is an explanatory view showing an example of a classification boundary using the multilevel classification apparatus of the present invention.

<訓練の実施形態>
訓練の実施形態は本発明によって多値分類を行うための分類推定関数を作成するための実施形態である。図3は、訓練の実施形態の一般過程を示した説明図である。以下はデータをパターン単位で説明する。
G101とG102とG103とG104とはそれぞれの出力をG105に提供し、G105で数理計画問題が形成し、G108に解かれて、G109とG110とで分類推定関数の必要情報は用意され、G111で分類推定関数が形成する。以下は各部を詳しく説明する。
<Training Embodiment>
The training embodiment is an embodiment for creating a classification estimation function for performing multi-value classification according to the present invention. FIG. 3 is an explanatory diagram showing a general process of the training embodiment. In the following, data will be described in pattern units.
G101, G102, G103, and G104 provide respective outputs to G105, a mathematical programming problem is formed in G105, solved in G108, and necessary information of the classification estimation function is prepared in G109 and G110. A classification estimation function is formed. The following describes each part in detail.

G101は写像選択部である。写像選択の目標は分類指標関数を未定係数の形で決めることである。分類指標関数の一例は

Figure 2010287135
又は近似した機能を有する計算仕組みである。数1に、wをある空間直線の方向ベクトルとして、Φを入力パターンxを高次元空間に写像する関数として、bをオフセットとして考えられる。数1にwとbは訓練の結果として得られるものである。Φは訓練の前に決定される関数である。fの出力は実数なので、結果としてxは数直線に写像されることになる。 G101 is a mapping selection unit. The goal of map selection is to determine the classification index function in the form of undetermined coefficients. An example of a classification index function is
Figure 2010287135
Or, it is a calculation mechanism having an approximate function. In Equation 1, w can be considered as a direction vector of a certain space straight line, Φ as a function for mapping the input pattern x to a high-dimensional space, and b as an offset. In Equation 1, w and b are obtained as a result of training. Φ is a function determined before training. Since the output of f is a real number, x is mapped to a number line as a result.

Φが陽関数として定義される場合は、Φがxを受けてN(N≧1)次元のベクトルを出力する。Φ(x)をΦ(x)の第t項(t=1…N)とすればfは

Figure 2010287135
のように展開されることができる。 When Φ is defined as an explicit function, Φ receives x and outputs an N (N ≧ 1) -dimensional vector. If Φ t (x) is the t-th term (t = 1... N) of Φ (x), f is
Figure 2010287135
Can be deployed as follows.

Φが陰関数として定義される場合はカーナル(kernel)関数によって定義されることができる。カーナル関数の幾つかの例は

Figure 2010287135
である。カーナル関数を用いて、fは
Figure 2010287135
のように展開されることができる。s=1…m
。αは実数である。xは第s個教師パターンである。数4に、係数の1/2をαに合併しても、fは同等能力を有するため、fは
Figure 2010287135
のように展開されても良い。 If Φ is defined as an implicit function, it can be defined by a kernel function. Some examples of kernel functions are
Figure 2010287135
It is. Using the Kernall function, f is
Figure 2010287135
Can be deployed as follows. s = 1 ... m
. α s is a real number. x s is the s-th teacher pattern. Even if ½ of the coefficient is merged with α s in Equation 4, f has the same ability, so f is
Figure 2010287135
It may be developed as follows.

G102は全ての教師パターンをベクトルの形で表現する。   G102 expresses all teacher patterns in the form of vectors.

G103は分類境界情報指定部である。
分類境界情報指定の目的は
各分類に所属する教師パターンを分類指標関数で変換して
得た出力を分類ごとの区間に制約するための
区間境界を獲得するための手段を選択することである。
分類境界情報の指定方法は複数存在する。全ての分類境界を以って形成される区間の集合と同型(isomorphic)である実数セットが存在することは必要条件である。
以下は幾つかの例を挙げる。
G103 is a classification boundary information designation unit.
The purpose of specifying classification boundary information is to select a means for acquiring section boundaries to constrain the output obtained by converting the teacher pattern belonging to each classification with a classification index function to sections for each classification.
There are a plurality of methods for specifying the classification boundary information. It is a prerequisite that there be a real set that is isomorphic to the set of intervals formed by all classification boundaries.
The following are some examples.

分類境界情報を数理計画の解から得る場合は、分類境界を変数にし、G105で構成される数理計画問題に含み、G108の出力の一部として確定する。   When the classification boundary information is obtained from the mathematical programming solution, the classification boundary is made a variable, included in the mathematical programming problem composed of G105, and fixed as part of the output of G108.

分類境界情報を数理計画の解及び他の情報から得る場合は、分類境界情報を制約しながら分類境界を変数にし、G105で構成される数理計画問題に含み、当の数理計画の解の一部を調整して得たものを確定された分類境界情報とする。
無制約も制約手段の一つとする。
無調整も調整手段の一つとする。
When the classification boundary information is obtained from the solution of the mathematical program and other information, the classification boundary is made a variable while restricting the classification boundary information, and included in the mathematical programming problem composed of G105, and a part of the solution of the mathematical program. The information obtained by adjusting is used as the determined classification boundary information.
Unconstrained is one of the limiting means.
No adjustment is one of the adjustment means.

分類境界情報を常数として指定する場合は、常数となった分類境界情報をG105で構成される数理計画問題に含む。当の数理計画問題が解かれた後に、前記常数を調整して得たものを分類境界情報とする。
無調整も調整手段の一つとする。
When the classification boundary information is designated as a constant, the classification boundary information that has become a constant is included in the mathematical programming problem configured by G105. The classification boundary information is obtained by adjusting the constant after the mathematical programming problem is solved.
No adjustment is one of the adjustment means.

分類境界情報を逆算可能な関数で算出する場合は分類の識別記号又は相当するものを逆算可能な関数で分類境界値に変換する。   When the classification boundary information is calculated by a function that can be calculated backward, the classification identification symbol or equivalent is converted into a classification boundary value by a function that can be calculated backward.

前記各分類境界情報の指定方法を組合せて分類境界情報を得る方法もある。   There is also a method of obtaining classification boundary information by combining the method for specifying each classification boundary information.

G104はパラメータ指定部である。G105で構成される数理計画問題の各部の関係を調整することはG104の目的である。パラメータ指定の一例は目標関数の各部の重みを指定することである。   G104 is a parameter designation unit. It is the purpose of G104 to adjust the relationship between the parts of the mathematical programming problem composed of G105. One example of parameter specification is to specify the weight of each part of the target function.

G105はG101とG102とG103とG104との出力を以って数理計画問題を構成する。
G105はG106とG107との二部によって構成される。
G105 constitutes a mathematical programming problem with the outputs of G101, G102, G103, and G104.
G105 is composed of two parts, G106 and G107.

G106は前記数理計画問題の目標関数を構成する。該目標関数はマージン(一つの分類区間において、分類境界から当の分類に所属する最も近い入力パターンの写像までの距離をマージンと呼ぶ。スラック変数を使用する場合、前記距離はスラック変数によっての調整後の距離である。)の最大化又はマージン最大化の近似を部分目標とする。該目標関数はエラーの最小化又はエラー最小化の近似を部分目標とする。該目標関数は必要に応じて他の部分目標を含む。
前記「他の部分目標」の一例は最小分類境界と最大分類境界との差を最小化することである。
G106 constitutes an objective function of the mathematical programming problem. The target function is a margin (a distance from a classification boundary to a map of the closest input pattern belonging to the classification in one classification section is called a margin. When a slack variable is used, the distance is adjusted by the slack variable. Approximation of maximization or margin maximization) is a partial target. The goal function has a partial goal of error minimization or error minimization approximation. The target function includes other partial targets as necessary.
An example of the “other partial target” is to minimize the difference between the minimum classification boundary and the maximum classification boundary.

G107は前記数理計画問題の制約条件を作成する。該制約条件は分類指標関数の入力パターンに対しての出力が該パターンの所属分類の下方マージン点(分類区間の内部に分類境界からマージンで示される値をマージン点と呼ぶ)より小さくないこと及び該パターンの所属分類の上方マージン点より大きくないことを制約する。スラック変数を使用の場合は分類指標関数の入力パターンに対しての出力をスラック変数で調整した後の値を制約する。該制約条件は必要に応じて他の制約項目を含む。
前記「他の制約項目」の一例は最小分類区間をあるサイズ以上に制約することである。
G107 creates constraints for the mathematical programming problem. The constraint condition is that the output of the input pattern of the classification index function is not smaller than the lower margin point of the classification to which the pattern belongs (the value indicated by the margin from the classification boundary inside the classification section is called a margin point); It is constrained that it is not larger than the upper margin point of the classification of the pattern. When slack variables are used, the value after adjusting the output of the classification index function input pattern with slack variables is constrained. The constraint condition includes other constraint items as necessary.
An example of the “other restriction item” is to restrict the minimum classification section to a certain size or more.

G108はG105で構成される数理計画問題を解く。   G108 solves the mathematical programming problem composed of G105.

G109はG108の出力から分類指標関数に必要とされる情報を分離し、分類指標関数を確定する。   G109 separates information necessary for the classification index function from the output of G108, and determines the classification index function.

G110は必要に応じてG108の出力から分類境界を確定するための情報を分離し、分類境界を確定する。   G110 separates information for determining the classification boundary from the output of G108 as necessary, and determines the classification boundary.

G111はG109とG110との出力を用いて分類推定関数を作成する。分類推定関数は分類境界の指定方法によって異なる場合がある。
前記分類境界の指定方法によらず、分類推定関数は分類指標関数の入力パターンに対しての出力を分類境界によって構成される分類区間の集合に検索し、前記出力を含む分類区間に代表される分類を当の入力パターンの推定所属分類とするという手段がある。
但し、分類境界は逆算可能な関数で指定された場合は
分類指標関数の入力パターンに対しての出力を前記逆算可能な関数の出力として逆算することで
当の入力パターンの所属分類を推定することが可能である。
G111 creates a classification estimation function using the output of G109 and G110. The classification estimation function may differ depending on the classification boundary designation method.
Regardless of the method for specifying the classification boundary, the classification estimation function searches the output of the classification index function for the input pattern into a set of classification sections constituted by the classification boundary, and is represented by the classification section including the output. There is a means of making the classification an estimated affiliation classification of the input pattern.
However, when the classification boundary is specified by a function that can be calculated backward, the classification of the input pattern can be estimated by back-calculating the output for the input pattern of the classification index function as the output of the function that can be calculated backward. Is possible.

<分類推定の実施形態>
分類推定の実施形態はG111で作成された分類推定関数を用いて未知入力パターンの所属分類を推定するための実施形態である。図4は分類推定の実施形態の一般過程を示した説明図である。
<Embodiment of classification estimation>
The classification estimation embodiment is an embodiment for estimating the affiliation classification of an unknown input pattern using the classification estimation function created in G111. FIG. 4 is an explanatory diagram showing a general process of an embodiment of classification estimation.

G201は分類推定関数提供部である。分類推定関数提供部は前記分類推定関数を分類演算部に提供する。   G201 is a classification estimation function providing unit. The classification estimation function providing unit provides the classification estimation function to the classification calculation unit.

G202は未知入力パターン提供部である。未知入力パターン提供部は所属分類未明の入力パターンをベクトルとして分類演算部に提供する。   G202 is an unknown input pattern providing unit. The unknown input pattern providing unit provides an input pattern whose belonging classification is unclear as a vector to the classification calculation unit.

G203は分類演算部である。分類演算部は前記未知入力パターンを前記分類推定関数に代入し、分類推定関数の出力を当の入力パターンの推定所属分類とする。   G203 is a classification calculation unit. The classification calculation unit substitutes the unknown input pattern into the classification estimation function, and sets the output of the classification estimation function as the estimated affiliation classification of the input pattern.

以降で説明される実施例は例示の目的だけに提供され、決して本発明の範囲を規定するものではないことを理解されたい。   It should be understood that the examples described below are provided for illustrative purposes only and do not in any way define the scope of the invention.

実施例1は介護分野で二次計画法を使用した歩行分類の例である。図3の各部に提供される情報は以下の通りとなる。
G101は陽写像の恒等写像(identity
mapping)を提供する。fは

Figure 2010287135
となる。内、wとbは未定係数である。
G102は歩行のサンプルを特徴ベクトルに変換し、事前に得た歩行時患者の転倒可能性情報によって各サンプルに1から10の分類番号を付ける。特徴ベクトルを、付けられた分類番号と共に、入力パターンとして提供する。前記xは当の特徴ベクトルのみである。
G103は−∞と0と10と20と30と40と50と60と70と80と+∞を分類境界として提供する。以降の説明のため、前記の分類境界をvからv10で代表する。
G104はマージン最大化の部分目標に50を重みとして、エラー最小化の部分目標に100を重みとして提供する。
G106は
Figure 2010287135
を目標関数として提供する。内、ξはエラーを記録するスラック変数のベクトルである。
G107は
Figure 2010287135
を制約条件として提供する。
G105はG106とG107とを併せて
Figure 2010287135
を訓練用の数理計画問題として提供する。内、vは常数であり、xs,tは第s個教師パターンのベクトルの第t項を意味し、xはvi−1とvで確定された区間に代表された分類に所属し、1はwの大きさに反比例するマージンである。
G108は専門ソフトで前記数理計画問題の解を提供する。
G109はG108で得た解からwを獲得し、分類指標関数fを確定する。
G110はG103と同様の情報を提供する。
G111はG108で確定された分類指標関数fとG110で得た分類境界で作成された分類推定関数を提供する。当の分類推定関数は
fが負数を出力すれば分類番号1を出力し、
fが80以上の値を出力すれば分類番号10を出力し、
fが上記以外の値を出力した場合は該出力を10で割った後の整数部分に1を足した後の値を分類番号として出力する。 Example 1 is an example of gait classification using secondary planning in the field of nursing care. The information provided to each unit in FIG. 3 is as follows.
G101 is the identity map of the positive map (identity
mapping). f is
Figure 2010287135
It becomes. Of these, w t and b are undetermined coefficients.
G102 converts the walking sample into a feature vector, and assigns a classification number of 1 to 10 to each sample according to the information on the possibility of falling of the walking patient obtained in advance. The feature vector is provided as an input pattern along with the assigned classification number. The x is only the feature vector.
G103 provides −∞, 0, 10, 20, 30, 40, 50, 60, 70, 80, and + ∞ as classification boundaries. For the following description, it is represented by v 10 the classification boundary from v 0.
G104 provides 50 as a weight for the partial target for margin maximization and 100 as a weight for the partial target for error minimization.
G106
Figure 2010287135
As a goal function. Ξ is a vector of slack variables for recording errors.
G107
Figure 2010287135
As a constraint.
G105 is a combination of G106 and G107
Figure 2010287135
As a mathematical programming problem for training. Among, v i is the constant, x s, t to means t-th term of the vector of the s pieces teacher pattern, x s is v i-1 and v i is represented to the determined interval by classification 1 is a margin that is inversely proportional to the size of w.
G108 is a specialized software that provides a solution to the mathematical programming problem.
G109 obtains w from the solution obtained in G108, and determines the classification index function f.
G110 provides the same information as G103.
G111 provides a classification estimation function created by the classification index function f determined in G108 and the classification boundary obtained in G110. This classification estimation function outputs classification number 1 if f outputs a negative number,
If f outputs a value of 80 or more, the classification number 10 is output,
When f outputs a value other than the above, a value obtained by adding 1 to the integer part after dividing the output by 10 is output as a classification number.

仮に、前記分類推定関数を携帯型の観測装置に保存している。観測は行われていることとする。   Temporarily, the classification estimation function is stored in a portable observation device. It is assumed that observations have been made.

図4の各部に提供される情報は以下の通りとなる。
G201は前記観測装置に保存された前記分類推定関数を読み取り、G203に提供する。
G202は観測される患者の歩行情報から、前記G102に提供された教師パターンと同類の特徴を保有する同型ベクトルをG203に提供する。
G203はG202に提供されたベクトルをG201に提供された分類推定関数に代入し、前記歩行情報の所属分類を算出する。
The information provided to each part in FIG. 4 is as follows.
G201 reads the classification estimation function stored in the observation device and provides it to G203.
G202 provides an isomorphic vector having characteristics similar to the teacher pattern provided to G102 to G203 from the observed walking information of the patient.
G203 substitutes the vector provided to G202 into the classification estimation function provided to G201, and calculates the belonging classification of the walking information.

実施例2は金融分野で線形計画法を使用した翌日の平均株価を予測の例である。図3の各部に提供される情報は以下の通りとなる。
G101は陰写像をガウスカーナル(Gaussian
kernel)として提供する。fは

Figure 2010287135
となる。内、αは未定係数であり、kは
Figure 2010287135
である。
G102は予測される各の価格情報を分断し、事前調査によって確定された各時点の株価を記録して特徴ベクトルとする。分断の最後の日の平均株価と当の日の前日の平均株価との比例を10段階に分けて10分類とする。前記特徴ベクトル毎に一つの前記分類を所属分類として指定する。
前記特徴ベクトルと指定された前記分類とを一緒に教師パターンとして提供する。前記xは当の特徴ベクトルのみである。
G103は分類境界をvからv10の実数変数としての分類境界として提供する。但しvを0に指定する。
G104はマージン最大化の部分目標にBを重みとして、エラー最小化の部分目標にCを重みとして、分類境界制約の部分目標にVを重みとして、G102に提供された全ての特徴ベクトルの各項の標準偏差の平均値をδとして提供する。同時に各教師パターンに起されるエラーの総エラーに対しての影響因子をベクトルwとして提供する。
G106は
Figure 2010287135
を目標関数として提供する。内、ξはエラーを記録するスラック変数のベクトルである。
G107は
Figure 2010287135
を制約条件として提供する。
G105はG106とG107とを併せて
Figure 2010287135
を訓練用の数理計画問題として提供する。内、vは常数であり、vからv10は変数であり、xは第s個教師パターンのベクトルを意味し、xはvi−1とvで確定された区間に代表された分類に所属し、1はαの大きさに反比例するマージンである。
G108は専門ソフトで前記数理計画問題の解を提供する。
G109はG108で得た解からαを獲得し、分類指標関数fを確定する。
G110はG108で得た解からvを獲得し、分類境界を確定する。
G111はG108で確定された分類指標関数fとG110で得た分類境界vで作成された分類推定関数を提供する。当の分類推定関数は、fの出力を含む、vi−1とvで形成された実数区間を特定する。特定された区間に示された分類を出力する。 The second embodiment is an example of predicting the average stock price on the next day using linear programming in the financial field. The information provided to each unit in FIG. 3 is as follows.
G101 is a Gaussian
kernel). f is
Figure 2010287135
It becomes. Where α s is an undetermined coefficient and k is
Figure 2010287135
It is.
G102 divides each price information to be predicted, and records the stock price at each time point determined by the preliminary survey as a feature vector. The proportion of the average stock price on the last day of the division and the average stock price on the previous day is divided into 10 levels and classified into 10 categories. For each feature vector, one classification is designated as the belonging classification.
The feature vector and the specified classification are provided together as a teacher pattern. The x is only the feature vector.
G103 is provided as a classification boundary as real variables of v 10 the classification boundary from v 0. However, the v 0 to specify to zero.
G104 uses B as the weight for the margin maximization partial target, C as the weight for error minimization partial target, and V as the classification boundary constraint partial target for each term of all feature vectors provided to G102. The average value of the standard deviation is provided as δ. At the same time, an influencing factor for the total error of errors caused in each teacher pattern is provided as a vector w.
G106
Figure 2010287135
As a goal function. Ξ is a vector of slack variables for recording errors.
G107
Figure 2010287135
As a constraint.
G105 is a combination of G106 and G107
Figure 2010287135
As a mathematical programming problem for training. V 0 is a constant, v 1 to v 10 are variables, x s means a vector of the s-th teacher pattern, and x s is represented by an interval determined by v i−1 and v i. 1 is a margin that is inversely proportional to the size of α.
G108 is a specialized software that provides a solution to the mathematical programming problem.
G109 obtains α from the solution obtained in G108, and determines the classification index function f.
G110 obtains v from the solution obtained in G108, and determines the classification boundary.
G111 provides a classification estimation function created using the classification index function f determined in G108 and the classification boundary v obtained in G110. This classification estimation function specifies a real number interval formed by v i−1 and v i including the output of f. The classification shown in the specified section is output.

仮に、前記分類推定関数を分析用のコンピュータに保存している。分析は行われていることとする。   Temporarily, the classification estimation function is stored in an analysis computer. It is assumed that analysis has been performed.

図4の各部に提供される情報は以下の通りとなる。
G201は前記コンピュータに保存された前記分類推定関数を読み取り、G203に提供する。
G202は前記G102と同様な分断方法で当日までの株価データからG102に提供された教師パターンと同様な特徴を保有する同型ベクトルをG203に提供する。
G203はG202に提供されたベクトルをG201に提供された分類推定関数に代入し、当のベクトルに示される株価パターンの所属分類を算出する。該分類は翌日の株価の予測を示す。
The information provided to each part in FIG. 4 is as follows.
G201 reads the classification estimation function stored in the computer and provides it to G203.
G202 provides an isomorphic vector having the same characteristics as the teacher pattern provided to G102 from the stock price data up to the day by the same division method as G102.
G203 substitutes the vector provided to G202 into the classification estimation function provided to G201, and calculates the affiliation classification of the stock price pattern indicated by the vector. The classification indicates the stock price forecast for the next day.

多値分類を手段として使用する分野全般に広く応用できる。多くの今まで計算規模の大きい所為で実用化できなかった多値分類に基づいた技術はこれから実用化できるようになると予想される。   It can be widely applied to all fields that use multi-value classification as a means. It is expected that many techniques based on multi-valued classification that could not be put into practical use due to the large scale of calculation until now can be put into practical use.

G101 写像選択部
G102 教師パターン提供部
G103 分類境界情報指定部
G104 パラメータ選定部
G105 数理計画問題に変換の部
G106 目標関数作成の部
G107 制約条件作成の部
G108 数理計画問題を解く部
G109 分類指標関数を作成の部
G110 分類境界情報を記録の部
G111 分類推定関数を作成の部
G201 分類推定関数提供部
G202 未知入力パターン提供部
G203 分類演算部
O(f) 複雑性(complexity)大O記号。fが十分大きければfより増大が速くない関数の範囲を示すものである。
Θ(f) 複雑性大Θ記号。fが十分大きければfとの増大速度差が正常数倍以内の関数の範囲を示すものである。
G101 Mapping selection unit G102 Teacher pattern providing unit G103 Classification boundary information designation unit G104 Parameter selection unit G105 Conversion unit to mathematical programming problem G106 Target function generation unit G107 Restriction condition generation unit G108 Mathematical programming problem solving unit G109 Classification index function G110 Classification boundary information recording part G111 Classification estimation function creation part G201 Classification estimation function provision part G202 Unknown input pattern provision part G203 Classification operation part O (f) Complexity large O symbol. If f is sufficiently large, it indicates a range of functions that does not increase faster than f.
Θ (f) Complexity Θ symbol. If f is sufficiently large, it indicates a function range in which the difference in increase speed from f is several times normal.

Claims (3)

所与の教師データに基づき入力データを複数分類のいずれかに分類する多値分類方法であって、
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を含んだことを特徴とするデータ分類方法。
A multi-value classification method for classifying input data into one of a plurality of classifications based on given teacher data,
Dividing a single number line into a plurality of independent sections;
Setting the teacher data to belong to the independent section according to the affiliation classification;
A step for constructing a classification index function for mapping the teacher data to the section to which the teacher belongs or an approximation thereof by an undetermined coefficient method;
A training step with the goal of maximizing the margin attached to the boundary of the section;
Obtaining the classification index function by solving a mathematical programming problem;
A data classification method characterized by including:
所与の教師データに基づき入力データを複数分類のいずれかに分類する多値分類装置であって、
単一の数直線を複数の独立区間に分割する工程と、
教師データを所属分類によってそれぞれ前記独立区間に所属することを設定する工程と、
教師データを所属の前記区間に写像する分類指標関数又はその近似を未定係数法で構築するための工程と、
前記区間の境界に付着するマージンを最大化することを目標に含む訓練工程と、
数理計画問題を解くことで前記分類指標関数を求める工程と、
を備えたことを特徴とするデータ分類装置。
A multi-value classification device for classifying input data into one of a plurality of classifications based on given teacher data,
Dividing a single number line into a plurality of independent sections;
Setting the teacher data to belong to the independent section according to the affiliation classification;
A step for constructing a classification index function for mapping the teacher data to the section to which the teacher belongs or an approximation thereof by an undetermined coefficient method;
A training step with the goal of maximizing the margin attached to the boundary of the section;
Obtaining the classification index function by solving a mathematical programming problem;
A data classification device comprising:
前記請求項1に記載された方法をコンピュータに実行させるプログラム。   A program for causing a computer to execute the method according to claim 1.
JP2009141716A 2009-06-12 2009-06-12 Data classification device, data classification method and program making computer execute the method Pending JP2010287135A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009141716A JP2010287135A (en) 2009-06-12 2009-06-12 Data classification device, data classification method and program making computer execute the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009141716A JP2010287135A (en) 2009-06-12 2009-06-12 Data classification device, data classification method and program making computer execute the method

Publications (1)

Publication Number Publication Date
JP2010287135A true JP2010287135A (en) 2010-12-24

Family

ID=43542768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009141716A Pending JP2010287135A (en) 2009-06-12 2009-06-12 Data classification device, data classification method and program making computer execute the method

Country Status (1)

Country Link
JP (1) JP2010287135A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018506808A (en) * 2014-11-21 2018-03-08 ブルヴェクター, インコーポレーテッドBluvector, Inc. Network data characterization system and method
US10783152B2 (en) 2016-02-05 2020-09-22 Fujitsu Limited Information processing apparatus and data comparison method
US11679654B2 (en) 2018-10-26 2023-06-20 Lund Motion Products, Inc. Fold-back soft top for a vehicle

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018506808A (en) * 2014-11-21 2018-03-08 ブルヴェクター, インコーポレーテッドBluvector, Inc. Network data characterization system and method
JP2021182412A (en) * 2014-11-21 2021-11-25 ブルヴェクター, インコーポレーテッドBluvector, Inc. System and method for evaluating characteristics of network data
JP7274535B2 (en) 2014-11-21 2023-05-16 ブルヴェクター,インコーポレーテッド System and method for network data characterization
US10783152B2 (en) 2016-02-05 2020-09-22 Fujitsu Limited Information processing apparatus and data comparison method
US11679654B2 (en) 2018-10-26 2023-06-20 Lund Motion Products, Inc. Fold-back soft top for a vehicle

Similar Documents

Publication Publication Date Title
Demidova et al. The SVM classifier based on the modified particle swarm optimization
Demidova et al. Intellectual approaches to improvement of the classification decisions quality on the base of the SVM classifier
Andonie et al. Weighted random search for CNN hyperparameter optimization
US9002101B2 (en) Recognition device, recognition method, and computer program product
CN111785329B (en) Single-cell RNA sequencing clustering method based on countermeasure automatic encoder
Jia et al. Improving the quality of explanations with local embedding perturbations
da Costa et al. An all-at-once unimodal svm approach for ordinal classification
US20220129758A1 (en) Clustering autoencoder
US20220129712A1 (en) Deep neural network hardener
Luo et al. An novel random forests and its application to the classification of mangroves remote sensing image
Boney et al. Semi-supervised and active few-shot learning with prototypical networks
Demidova et al. Development of the SVM classifier ensemble for the classification accuracy increase
Abro Identifying the machine learning techniques for classification of target datasets
JP2010287135A (en) Data classification device, data classification method and program making computer execute the method
Abhadiomhen et al. Supervised shallow multi-task learning: analysis of methods
Kaneko et al. Class-distinct and class-mutual image generation with GANs
Sousa et al. The data replication method for the classification with reject option
Saha et al. Data Classification based on Decision Tree, Rule Generation, Bayes and Statistical Methods: An Empirical Comparison
Pokhrel A comparison of AutoML hyperparameter optimization tools for tabular data
Rahman et al. Estimation of the number of clusters based on simplical depth
JP2020181265A (en) Information processing device, system, information processing method, and program
Fong et al. Improving classification accuracy using fuzzy clustering coefficients of variations (fccv) feature selection algorithm
Downton et al. Age and Gender Estimation using Optimised Deep Networks
Mena et al. Revisiting Machine Learning from Crowds a Mixture Model for Grouping Annotations
Pangastuti et al. Classification boosting in imbalanced data