JP2000293502A - Data sorting method and device and storage medium storing data sorting program - Google Patents

Data sorting method and device and storage medium storing data sorting program

Info

Publication number
JP2000293502A
JP2000293502A JP11098037A JP9803799A JP2000293502A JP 2000293502 A JP2000293502 A JP 2000293502A JP 11098037 A JP11098037 A JP 11098037A JP 9803799 A JP9803799 A JP 9803799A JP 2000293502 A JP2000293502 A JP 2000293502A
Authority
JP
Japan
Prior art keywords
data
objective function
negative
positive
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11098037A
Other languages
Japanese (ja)
Inventor
Hiroyori Taira
博順 平
Takafumi Mukaiuchi
隆文 向内
Masahiko Haruno
雅彦 春野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11098037A priority Critical patent/JP2000293502A/en
Publication of JP2000293502A publication Critical patent/JP2000293502A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To reduce a trend that the training data are decided in a category having a large quantity of data and to improve the deciding accuracy by preparing an object function having both positive and negative data weighting parameter included in an error term in a data sorting method that uses a support vector machine. SOLUTION: In a data sorting method using a support vector machine, an object function having both positive and negative data weighting parameters included in an error term is prepared. Then the parameter C of the object function is discriminated between the cases where the training data x belong to the positive and negative examples respectively, and an the object function is shown in an expression where Cp and Cn show the non-negative actual numbers. An object function minimization means of this data sorting device minimizes the object function according to the data x. A sorting decision means forms a separate hyperplane by means of the minimized object function and sorts the inputted test data into a category of a positive or negative example of the separate hyperplane and then outputs the sorted data.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データ分類方法及
び装置及びデータ分類プログラムを格納した記憶媒体に
係り、特に、目的関数を変えることで分類精度の向上を
図ったSupport Vector Machineを用いたデータ分類方法
及び装置及びデータ分類プログラムを格納した記憶媒体
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a data classification method and apparatus, and a storage medium storing a data classification program, and more particularly to data using a Support Vector Machine which improves classification accuracy by changing an objective function. The present invention relates to a classification method and apparatus and a storage medium storing a data classification program.

【0002】大量のデータが流通している情報産業界で
は、データの効率的な分類が求められている。中でも、
Support Vector Machineを用いた分類方法は、高い分類
精度を上げることが知られており、広範囲の分野で使用
されている。本発明は、当該Support Vector Machineを
用いたデータ分類方法及び装置及びデータ分類プログラ
ムを格納した記憶媒体に関する。
[0002] In the information industry where a large amount of data is distributed, efficient classification of data is required. Among them,
The classification method using Support Vector Machine is known to improve the classification accuracy, and is used in a wide range of fields. The present invention relates to a data classification method and apparatus using the Support Vector Machine and a storage medium storing a data classification program.

【0003】[0003]

【従来の技術】従来のSupport Vector Machine(参考文
献 V.Vapnik. The Nature of Statistical Learning Th
eory. Springer-Verlag, New York, 1995.参照) を用い
たデータ分類について述べる。正しい例である正例と誤
った例である負例の2つのクラスのいずれかに属すr個
の訓練データのベクトルの集合を、 (x1 ,y1 ),… (xr ,yr ) とする。ここで、xi は、データiの特徴ベクトルでn
次元のベクトルである。また、yi は、データiが正例
の場合+1の値をとり、負例の場合には、−1の値をと
るスカラの変数である。データ分類では、データ中に出
現する特徴wk (但し、kは、1≦k≦nの整数)がテ
キスト中に出現する場合、wk =1、出現しない場合を
k =0としてデータをベクトルxi =(w1 ,w2
…,wn )で表す。データがあるカテゴリに含まれる場
合を正例、含まれない場合を負例として、各カテゴリに
対してSupport Vector Machineを構成する。
2. Description of the Related Art A conventional Support Vector Machine (reference document V. Vapnik. The Nature of Statistical Learning Th)
eory. Springer-Verlag, New York, 1995.) A set of r training data vectors belonging to one of two classes, a positive example which is a correct example and a negative example which is an incorrect example, is represented by (x 1 , y 1 ), ... (x r , y r ) And Here, x i is a feature vector of data i and n
It is a dimensional vector. Y i is a scalar variable that takes a value of +1 when the data i is a positive example and takes a value of −1 when the data i is a negative example. In the data classification, data is set as w k = 1 when a feature w k (where k is an integer of 1 ≦ k ≦ n) appearing in data is w k = 1 and w k = 0 otherwise. The vector x i = (w 1 , w 2 ,
.., W n ). A support vector machine is configured for each category, with data being included in a category as a positive example and data not being included in a category as a negative example.

【0004】これらのデータをn次元Euclid空間上の (w・x)+b=0 なる超平面で分離する。この際、近接する正例と負例の
データ間の距離が大きい方が、精度よくテストデータを
分類できる。ここで、正例側の分離超平面と呼ばれる (w・x)+b=1 (1) なる超平面と負例側の分離超平面と呼ばれる (w・x)+b=−1 (2) を定義する。
[0004] These data are separated by a hyperplane of (wx) + b = 0 on an n-dimensional Euclid space. At this time, the larger the distance between the data of the adjacent positive and negative examples, the more accurately the test data can be classified. Here, a hyperplane called (w · x) + b = 1 (1) called a separating hyperplane on the positive example side and (w · x) + b = -1 (2) defined as a separating hyperplane on the negative example side are defined. I do.

【0005】2つの分離超平面間の距離は、The distance between two separating hyperplanes is

【0006】[0006]

【数4】 (Equation 4)

【0007】である。この距離を最大にするためには、
‖w‖を最小化すればよい。その関数のとる値が最小値
の時、‖w‖が最適値をとるような関数を目的関数と呼
ぶ。この場合、目的関数Φは以下に示すものになる。
[0007] To maximize this distance,
It is sufficient to minimize {w}. When the value of the function is the minimum value, a function in which {w} takes the optimum value is called an objective function. In this case, the objective function Φ is as shown below.

【0008】[0008]

【数5】 (Equation 5)

【0009】ここで、ξi は訓練データxi (iは1か
らrまでの整数)の正例/負例が分離超平面によって分
離できない場合の分離超平面からの距離を表す非負の変
数である。右辺第一項は、二つの分離超平面w・x+b
=1と、w・x+b=−1間の距離を表し、この項の値
が小さいほど分離超平面間の距離が大きい。右辺第二項
のCを除いた部分は、分離できなかった訓練データが2
つの超平面、w・x+b=1あるいは、w・x+b=−
1からの距離の和で誤差項(誤差項:正例の場合、w・
x+b=1からの距離と、負例の場合、w・x+b=−
1からの距離との和)と呼ぶ。Cは、第一項と第二項の
重視の度合いを決める正値(0以上)のパラメータであ
る。Cの値が大きいときは、訓練データの超平面からの
誤差が大きく評価されて、Cの値が小さい時は、相対的
に分離超平面間の距離の大きさが重視される。
Here, ξ i is a non-negative variable representing the distance from the separating hyperplane when the positive / negative examples of the training data x i (i is an integer from 1 to r) cannot be separated by the separating hyperplane. is there. The first term on the right side is two separation hyperplanes wx + b
= 1 and the distance between w · x + b = −1. The smaller the value of this term, the greater the distance between the separating hyperplanes. Excluding C in the second term on the right side, the training data that could not be separated is 2
Two hyperplanes, w · x + b = 1 or w · x + b = −
The error term (error term: in the case of a positive example, w ·
distance from x + b = 1, and in the case of a negative example, w · x + b = −
(Sum of distance from 1). C is a positive value (0 or more) parameter that determines the degree of importance of the first and second terms. When the value of C is large, the error of the training data from the hyperplane is evaluated to be large, and when the value of C is small, the magnitude of the distance between the separated hyperplanes is relatively emphasized.

【0010】[0010]

【発明が解決しようとする課題】しかしながら、上記従
来のSupport Vector Machineを用いたデータ分類では、
正例と負例の2つのカテゴリに分けられるデータについ
て学習を行った場合、正例/負例が未知のデータに対し
て、訓練データのデータ量が多いカテゴリ(正例もしく
は負例)に判定する傾向があり、判定精度が低くなる原
因の一つになっている。
However, in the data classification using the conventional Support Vector Machine described above,
When learning is performed on data classified into two categories, positive and negative examples, data with unknown positive / negative examples is determined as a category (positive or negative example) with a large data amount of training data. This is one of the causes of the lowering of the determination accuracy.

【0011】本発明は、上記の点に鑑みなされたもの
で、訓練データにおいて、データ量が多いカテゴリに判
定する傾向を緩和し、判定精度を高くすることが可能な
データ分類方法及び装置及びデータ分類プログラムを格
納した記憶媒体を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above points, and a data classification method and apparatus and a data classification method capable of reducing the tendency of a training data to be determined to be a category having a large data amount and increasing the determination accuracy. It is an object to provide a storage medium storing a classification program.

【0012】[0012]

【課題を解決するための手段】本発明(請求項1)は、
サポートベクトルマシン(Support Vector Machine)を用
いたデータ分類方法において、正例データと負例データ
用の二種類の重み付けパラメータを誤差項に持つ目的関
数を持つ。
Means for Solving the Problems The present invention (claim 1) provides:
A data classification method using a support vector machine has an objective function having two types of weighting parameters for positive example data and negative example data in an error term.

【0013】本発明(請求項2)は、目的関数のパラメ
ータCを訓練データxが正例に属す場合と負例に属す場
合で区別し、目的関数を、Cp 、Cn を非負の実数と
し、
According to the present invention (claim 2), the parameter C of the objective function is distinguished between the case where the training data x belongs to a positive example and the case where the training data x belongs to a negative example, and the objective functions are represented by C p and C n which are non-negative real numbers. age,

【0014】[0014]

【数6】 (Equation 6)

【0015】とする。図1は、本発明の原理を説明する
ための図である。本発明(請求項3)は、正例と負例の
2つのクラスに属す訓練データが入力されると(ステッ
プ1)、該訓練データに応じた目的関数の最小化を行い
(ステップ2)、最小化された目的関数を用いて分離超
平面を構成し(ステップ3)、テストデータが入力され
ると、分離超平面の正例または、負例のいずれかのカテ
ゴリに分類し(ステップ4)、分類された分類結果を出
力する(ステップ5)。
[0015] FIG. 1 is a diagram for explaining the principle of the present invention. According to the present invention (claim 3), when training data belonging to two classes of a positive example and a negative example is input (step 1), the objective function according to the training data is minimized (step 2). A separating hyperplane is constructed using the minimized objective function (step 3). When test data is input, the separating hyperplane is classified into either a positive example or a negative example category (step 4). Then, the classified result is output (step 5).

【0016】本発明(請求項4)は、Support Vector M
achineを用いたデータ分類装置であって、正例データと
負例データ用の二種類の重み付けパラメータを誤差項に
持つ目的関数を持つ。本発明(請求項5)は、目的関数
のパラメータCを訓練データxが正例に属す場合と負例
に属す場合で区別し、目的関数を、Cp 、Cn を非負の
実数とし、
The present invention (claim 4) provides a Support Vector M
A data classification device using achine, having an objective function having two types of weighting parameters for positive example data and negative example data in an error term. The present invention (claim 5) distinguishes a parameter C of an objective function between a case where the training data x belongs to a positive example and a case where the training data x belongs to a negative example, and sets the objective functions to C p and C n as non-negative real numbers,

【0017】[0017]

【数7】 (Equation 7)

【0018】とする。図2は、本発明の原理構成図であ
る。本発明(請求項6)は、正例と負例の2つのクラス
に属す訓練データが入力されると、該訓練データに応じ
た目的関数の最小化を行う目的関数最小化手段10と、
最小化された目的関数を用いて分離超平面を構成し、テ
ストデータが入力されると、分離超平面の正例または、
負例のいずれかのカテゴリに分類し、分類された分類結
果を出力する分類判定手段20とを有する。
It is assumed that FIG. 2 is a diagram illustrating the principle of the present invention. According to the present invention (claim 6), when training data belonging to two classes, a positive example and a negative example, is input, an objective function minimizing means 10 for minimizing an objective function according to the training data,
A separation hyperplane is constructed using the minimized objective function, and when test data is input, a positive example of the separation hyperplane or
A classification determining unit that classifies the result into one of the categories of the negative example and outputs the classified result.

【0019】本発明(請求項7)は、Support Vector M
achineを用いたデータ分類装置に搭載されるデータ分類
プログラムを格納した記憶媒体であって、正例データと
負例データ用の二種類の重み付けパラメータを誤差項に
持つ目的関数を持つ。本発明(請求項8)は、目的関数
のパラメータCを訓練データxが正例に属す場合と負例
に属す場合で区別し、目的関数を、Cp 、Cn を非負の
実数とし、
The present invention (claim 7) provides a support vector M
A storage medium storing a data classification program mounted on a data classification device using achine, having an objective function having two types of weighting parameters for positive example data and negative example data in an error term. The present invention (claim 8) distinguishes the parameter C of the objective function between the case where the training data x belongs to a positive example and the case where the training data x belongs to a negative example, and sets the objective functions to C p and C n as non-negative real numbers,

【0020】[0020]

【数8】 (Equation 8)

【0021】とするプロセスを含む。本発明(請求項
9)は、正例と負例の2つのクラスに属す訓練データが
入力されると、該訓練データに応じた目的関数の最小化
を行う目的関数最小化プロセスと、最小化された目的関
数を用いて分離超平面を構成し、テストデータが入力さ
れると、分離超平面の正例または、負例のいずれかのカ
テゴリに分類し、分類された分類結果を出力する分類判
定プロセスとを有する。
The process includes: According to the present invention (claim 9), when training data belonging to two classes of a positive example and a negative example is input, an objective function minimizing process for minimizing an objective function according to the training data, A separation hyperplane is constructed by using the objective function obtained, and when test data is input, the separation hyperplane is classified into either a positive example or a negative example category, and the classified result is output. A judgment process.

【0022】上記のように、本発明では、上記の目的関
数中のCp とCn の2つのパラメータのうち、訓練デー
タ量が正例の方が多ければ、Cp <Cn 、負例の方が多
ければ、Cp >Cn とすれば、データの少ないカテゴリ
のデータも正しく判定しやすくなり、データ分類の精度
が向上する。
As described above, according to the present invention, of the two parameters C p and C n in the above objective function, if the training data amount is larger in the positive example, C p <C n , If C p > C n , it is easier to correctly determine data of a category with less data, and the accuracy of data classification is improved.

【0023】[0023]

【発明の実施の形態】本発明では、Support Vector Mac
hineを用いた分類において目的関数のパラメータCを訓
練データxが正例に属す場合と、負例に属す場合で区別
し、目的関数を、
DESCRIPTION OF THE PREFERRED EMBODIMENTS In the present invention, a Support Vector Mac
In the classification using hine, the parameter C of the objective function is distinguished between a case where the training data x belongs to a positive example and a case where the training data x belongs to a negative example.

【0024】[0024]

【数9】 (Equation 9)

【0025】とする。なお、Cp ,Cn は共に非負の実
数である。本発明では、上記のような目的関数を使用す
ることを特徴とする。図3は、本発明のデータ分類装置
の構成を示す。同図に示すデータ分類装置は、目的関数
最小化部10と分類判定部20から構成される。
It is assumed that Note that C p and C n are both non-negative real numbers. The present invention is characterized by using the above objective function. FIG. 3 shows the configuration of the data classification device of the present invention. The data classification device shown in FIG. 1 includes an objective function minimization unit 10 and a classification judgment unit 20.

【0026】目的関数最小化部10は、訓練データ30
が入力されると、当該訓練データに応じた目的関数の最
小化を行い、最適なw及びbを算出する。分類判定部2
0は、目的関数最小化部10で算出されたwとbを用い
て、分離超平面を構成し、入力される分類対象データ
(テストデータ)に対して、正例/負例のいずれかのカ
テゴリに分類した分類結果を出力する。
The objective function minimizing unit 10 generates the training data 30
Is input, the objective function according to the training data is minimized, and the optimal w and b are calculated. Classification judgment unit 2
0 is used to construct a separating hyperplane using w and b calculated by the objective function minimizing unit 10, and to input classification target data (test data), either positive or negative example Output the result of classification into categories.

【0027】[0027]

【実施例】以下、図面と共に本発明の実施例を説明す
る。本実施例として、訓練データ及びテストデータに、
RWCPテキストコーパス(参考文献:豊浦潤、徳永健
伸、井佐原均、岡隆一、RWCにおける分類コード付き
テキストデータベースの開発、情報処理学会研究報告N
LC96-13 .IEICE,1996,参照)を用いて説
明する。当該コーパスは、1994年版の毎日新聞の約
3万件の記事に、国際十進分類法に基づくUDCコード
(参考文献:情報科学技術協会、国際十進分類法、丸
善,1994.参照)を付与したものである。
Embodiments of the present invention will be described below with reference to the drawings. In this embodiment, the training data and the test data include
RWCP text corpus (references: Jun Toyoura, Takenobu Tokunaga, Hitoshi Isahara, Ryuichi Oka, Development of a text database with classification codes in RWC, Information Processing Society of Japan research report N
LC96-13. IEICE, 1996). The corpus attaches UDC codes based on the International Decimal Classification method to the 30,000 articles of the 1994 edition of the Mainichi Shimbun (Ref .: Information and Technology Association, International Decimal Classification Method, Maruzen, 1994.) It was done.

【0028】これらの記事の中から頻度の高い10種類
の分類コード(スポーツ、刑法、政府、教育、交通、軍
事、国際関連、言語活動、演劇、作物)が付与されたデ
ータ2000記事を選び、1000記事を訓練データ、
残りの1000記事をテストデータ、つまり、分類対象
データとした。訓練データとテストデータ数を以下の表
に示す。
From these articles, data 2000 articles to which ten kinds of frequently classified codes (sports, criminal law, government, education, transportation, military, international relations, language activities, drama, crops) are added are selected. Training data for 1000 articles,
The remaining 1000 articles were used as test data, that is, data to be classified. The following table shows the training data and the number of test data.

【0029】[0029]

【表1】 [Table 1]

【0030】これらの、記事に対して形態素解析を行っ
た後、一つの記事の中に特定の名詞及び固有名詞の出現
するか否かを記事の特徴とみなし、特徴ベクトルを構成
した。分類装置は、上記の10種類の分類に対象して、
10台の分類装置を構成する。例えば、スポーツに関す
る分類装置においては、スポーツの分類コードが付与さ
れたデータを正例、付与されていないデータを負例と
し、テストデータに対して正例/負例のいずれかのカテ
ゴリに入るかを判定する。よって、スカラの変数yi
分類装置毎に設定する。
After performing morphological analysis on these articles, whether or not specific nouns and proper nouns appear in one article is regarded as a feature of the article, and a feature vector is constructed. The classification device targets the above 10 types of classification,
10 classifiers are configured. For example, in a classification apparatus for sports, data to which a sports classification code is assigned is regarded as a positive example, and data not assigned is regarded as a negative example. Is determined. Therefore, a scalar variable y i is also set for each classification device.

【0031】次に、データ分類装置の動作について説明
する。まず、1000個の訓練データが入力されると、
目的関数最小化部10は、訓練データに応じた目的関数
の最小化を行い、最適なw及びbを算出する。次に、分
類判定部20は、目的関数最小化部10で算出されたw
及びbを用いて分離超平面を構成し、入力される100
0個のテストデータに対して、正例/負例のいずれかの
カテゴリに分類し、分類結果を出力する。
Next, the operation of the data classification device will be described. First, when 1000 training data are input,
The objective function minimizing unit 10 minimizes the objective function according to the training data, and calculates optimal w and b. Next, the classification determining unit 20 calculates w calculated by the objective function minimizing unit 10.
And b are used to construct a separating hyperplane and 100
The zero test data is classified into either a positive or negative example category, and a classification result is output.

【0032】分類精度を評価するために、適合率、再現
率、F値(参考文献:B.M.Sundheim. Overview of the
Fourth Message Understanding Evaluation and Confer
ence. Proceedings of Fourth Message Understanding
Conference, pp. 3-29, 1992. 参照) を用いた。各分類
毎に、分類モデルと正解の正例と負例の数から、 a:正解が正例で分類モデルも正例と判断した数; b:正解が負例で分類モデルも正例と判断した数; c:正解が正例で分類モデルも負例と判断した数; とを考える。すると、適合率P、再現率Rは、次のよう
に定義される。
In order to evaluate the classification accuracy, the precision, recall, and F value (reference: BMSundheim. Overview of the
Fourth Message Understanding Evaluation and Confer
ence. Proceedings of Fourth Message Understanding
Conference, pp. 3-29, 1992). For each classification, based on the classification model and the number of positive and negative examples of correct answers, a: the number of correct answers is positive and the classification model is also determined as positive; b: the correct answer is negative and the classification model is also determined as positive C: the number of correct answers determined to be positive examples and the classification model determined to be negative examples; Then, the precision P and the recall R are defined as follows.

【0033】[0033]

【数10】 (Equation 10)

【0034】また、F値は適合率、再現率より、The F value is obtained from the precision and the recall.

【0035】[0035]

【数11】 [Equation 11]

【0036】で表される。ここで、βは重み付けパラメ
ータで本実施例ではβ=1とした。本発明において、C
p =30とCn =8とした場合と従来の方法により、C
=1012とした場合を比較した結果を以下に示す。
Is represented by Here, β is a weighting parameter, and in this embodiment, β = 1. In the present invention, C
In the case where p = 30 and C n = 8 and the conventional method, C
= 10 12 and the result of comparison is shown below.

【0037】[0037]

【表2】 [Table 2]

【0038】F値は、0から1までの値をとり、1に近
いほど精度が高いので、各カテゴリともCを分離した方
が分類精度が高く、本発明がデータ分類の精度を上げる
のに有効であることが分かる。また、図3に示す(5)
式に示す目的関数を用いる目的関数最小化部10と分類
判定部20をプログラムとして構築しておき、データ分
類装置として利用されるコンピュータに接続されるディ
スク装置や、フロッピー(登録商標)ディスク、CD−
ROM等の可搬記憶媒体に格納しておき、本発明を実施
する際にインストールすることにより、容易に本発明を
実現できる。
The F value takes a value from 0 to 1 and the closer to 1, the higher the accuracy. Therefore, separating C for each category increases the classification accuracy, and the present invention increases the accuracy of data classification. It turns out to be effective. Also, (5) shown in FIG.
The objective function minimizing unit 10 and the classification judging unit 20 using the objective function shown in the equation are constructed as a program, and a disk device connected to a computer used as a data classifying device, a floppy (registered trademark) disk, a CD −
The present invention can be easily realized by storing it in a portable storage medium such as a ROM or the like and installing it when implementing the present invention.

【0039】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
The present invention is not limited to the above embodiment, but can be variously modified and applied within the scope of the claims.

【0040】[0040]

【発明の効果】上述のように、本発明によれば、正例/
負例が未知のデータに対して、訓練データのデータ量が
多いカテゴリに誤って判定する傾向が緩和させるデータ
分類精度が向上する、という効果が得られる。
As described above, according to the present invention, the positive /
This has the effect of improving the data classification accuracy in which the tendency of erroneously determining a training data to be a category having a large amount of training data with respect to data whose negative example is unknown is reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理を説明するための図である。FIG. 1 is a diagram for explaining the principle of the present invention.

【図2】本発明の原理構成図である。FIG. 2 is a principle configuration diagram of the present invention.

【図3】本発明のデータ分類装置の構成図である。FIG. 3 is a configuration diagram of a data classification device of the present invention.

【符号の説明】[Explanation of symbols]

10 目的関数最小化手段、目的関数最小化部 20 分類判定手段、分類判定部 30 訓練データ Reference Signs List 10 objective function minimizing means, objective function minimizing unit 20 classification determining means, classification determining unit 30 training data

───────────────────────────────────────────────────── フロントページの続き (72)発明者 春野 雅彦 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール人間情 報通信研究所内 Fターム(参考) 5B075 ND02 NR02 NR12 PR06 QM08 ────────────────────────────────────────────────── ─── Continuing from the front page (72) Inventor Masahiko Haruno 5th Sanraya, Daiya, Seika-cho, Sagara-gun, Kyoto F-term in ATI Human Information and Communication Research Laboratories Co., Ltd. 5B075 ND02 NR02 NR12 NR12 PR06 QM08

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 サポートベクトルマシン(Support Vecto
r Machine)を用いたデータ分類方法において、 正例データと負例データ用の二種類の重み付けパラメー
タを誤差項に持つ目的関数を持つことを特徴とするデー
タ分類方法。
1. Support Vector Machine (Support Vecto)
r Machine), which comprises an objective function having two types of weighting parameters for positive example data and negative example data in an error term.
【請求項2】 前記目的関数のパラメータCを訓練デー
タxが正例に属す場合と負例に属す場合で区別し、 前記目的関数を、Cp 、Cn を非負の実数とし、 【数1】 とする請求項1記載のデータ分類方法。
2. A parameter C of the objective function is distinguished between a case where the training data x belongs to a positive example and a case where the training data x belongs to a negative example. The objective function is defined as C p and C n being non-negative real numbers. ] The data classification method according to claim 1, wherein
【請求項3】 正例と負例の2つのクラスに属す訓練デ
ータが入力されると、該訓練データに応じた前記目的関
数の最小化を行い、 最小化された目的関数を用いて分離超平面を構成し、 テストデータが入力されると、前記分離超平面の正例ま
たは、負例のいずれかのカテゴリに分類し、 分類された分類結果を出力する請求項1又は2記載のデ
ータ分類方法。
3. When training data belonging to two classes, a positive example and a negative example, is input, the objective function according to the training data is minimized, and the separation is performed using the minimized objective function. The data classification according to claim 1, wherein a plane is configured, and when test data is input, the separated hyperplane is classified into one of a positive example category and a negative example category, and a classified result is output. Method.
【請求項4】 Support Vector Machineを用いたデータ
分類装置であって、 正例データと負例データ用の二種類の重み付けパラメー
タを誤差項に持つ目的関数を持つことを特徴とするデー
タ分類装置。
4. A data classification device using a Support Vector Machine, characterized by having an objective function having two types of weighting parameters for positive example data and negative example data in an error term.
【請求項5】 前記目的関数のパラメータCを訓練デー
タxが正例に属す場合と負例に属す場合で区別し、 前記目的関数を、Cp 、Cn を非負の実数とし、 【数2】 とする請求項4記載のデータ分類装置。
5. A parameter C of the objective function is distinguished between a case where the training data x belongs to a positive example and a case where the training data x belongs to a negative example, and the objective function is a non-negative real number of C p and C n. ] The data classification device according to claim 4, wherein
【請求項6】 正例と負例の2つのクラスに属す訓練デ
ータが入力されると、該訓練データに応じた前記目的関
数の最小化を行う目的関数最小化手段と、 最小化された目的関数を用いて分離超平面を構成し、テ
ストデータが入力されると、前記分離超平面の正例また
は、負例のいずれかのカテゴリに分類し、分類された分
類結果を出力する分類判定手段とを有する請求項4又は
5記載のデータ分類装置。
6. An objective function minimizing means for inputting training data belonging to two classes, a positive example and a negative example, for minimizing the objective function according to the training data, Classification determining means for forming a separation hyperplane using a function and, when test data is input, classifying the separation hyperplane into either a positive example or a negative example category and outputting a classified result The data classification device according to claim 4, comprising:
【請求項7】 Support Vector Machineを用いたデータ
分類装置に搭載されるデータ分類プログラムを格納した
記憶媒体であって、 正例データと負例データ用の二種類の重み付けパラメー
タを誤差項に持つ目的関数を持つことを特徴とするデー
タ分類プログラムを格納した記憶媒体。
7. A storage medium storing a data classification program mounted on a data classification device using a Support Vector Machine, wherein an error term has two types of weighting parameters for positive example data and negative example data. A storage medium storing a data classification program characterized by having a function.
【請求項8】 前記目的関数のパラメータCを訓練デー
タxが正例に属す場合と負例に属す場合で区別し、 前記目的関数を、Cp 、Cn を非負の実数とし、 【数3】 とするプロセスを有する請求項7記載のデータ分類プロ
グラムを格納した記憶媒体。
8. The parameter C of the objective function is distinguished between a case where the training data x belongs to a positive example and a case where the training data x belongs to a negative example, and the objective function is a non-negative real number of C p and C n. ] A storage medium storing the data classification program according to claim 7, which has a process of:
【請求項9】 正例と負例の2つのクラスに属す訓練デ
ータが入力されると、該訓練データに応じた前記目的関
数の最小化を行う目的関数最小化プロセスと、 最小化された目的関数を用いて分離超平面を構成し、テ
ストデータが入力されると、前記分離超平面の正例また
は、負例のいずれかのカテゴリに分類し、分類された分
類結果を出力する分類判定プロセスとを有する請求項7
又は8記載のデータ分類プログラムを格納した記憶媒
体。
9. An objective function minimization process for inputting training data belonging to two classes, a positive example and a negative example, for minimizing the objective function according to the training data, A separation hyperplane using a function, and when test data is input, the separation hyperplane is classified into either a positive example or a negative example category, and a classified result is output. 7. The method of claim 7, wherein
Or a storage medium storing the data classification program according to 8.
JP11098037A 1999-04-05 1999-04-05 Data sorting method and device and storage medium storing data sorting program Pending JP2000293502A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11098037A JP2000293502A (en) 1999-04-05 1999-04-05 Data sorting method and device and storage medium storing data sorting program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11098037A JP2000293502A (en) 1999-04-05 1999-04-05 Data sorting method and device and storage medium storing data sorting program

Publications (1)

Publication Number Publication Date
JP2000293502A true JP2000293502A (en) 2000-10-20

Family

ID=14208869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11098037A Pending JP2000293502A (en) 1999-04-05 1999-04-05 Data sorting method and device and storage medium storing data sorting program

Country Status (1)

Country Link
JP (1) JP2000293502A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073076A (en) * 2000-09-04 2002-03-12 Sumitomo Metal Ind Ltd Pattern recognition method, pattern recognition device and recording medium
JP2006285439A (en) * 2005-03-31 2006-10-19 Pioneer Electronic Corp Information retrieval device, information retrieval method, information retrieval program and recording medium
US8019762B2 (en) 2006-02-02 2011-09-13 Japan Science & Technology Agency Binary data classification method, binary data classification device, computer program, and storage medium
WO2016056095A1 (en) * 2014-10-08 2016-04-14 株式会社Ubic Data analysis system, data analysis system control method, and data analysis system control program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073076A (en) * 2000-09-04 2002-03-12 Sumitomo Metal Ind Ltd Pattern recognition method, pattern recognition device and recording medium
JP2006285439A (en) * 2005-03-31 2006-10-19 Pioneer Electronic Corp Information retrieval device, information retrieval method, information retrieval program and recording medium
JP4573684B2 (en) * 2005-03-31 2010-11-04 パイオニア株式会社 Information search device, information search method, information search program, and recording medium
US8019762B2 (en) 2006-02-02 2011-09-13 Japan Science & Technology Agency Binary data classification method, binary data classification device, computer program, and storage medium
WO2016056095A1 (en) * 2014-10-08 2016-04-14 株式会社Ubic Data analysis system, data analysis system control method, and data analysis system control program

Similar Documents

Publication Publication Date Title
US6424997B1 (en) Machine learning based electronic messaging system
US7689531B1 (en) Automatic charset detection using support vector machines with charset grouping
JP3726263B2 (en) Document classification method and apparatus
US9910829B2 (en) Automatic document separation
US20110125747A1 (en) Data classification based on point-of-view dependency
US7415445B2 (en) Feature selection for two-class classification systems
EP1464013B1 (en) Systems, methods, and software for classifying documents
US7028250B2 (en) System and method for automatically classifying text
EP1909203A2 (en) Apparatus, method and program for information processing
Song et al. A comparative study on text representation schemes in text categorization
US7827133B2 (en) Method and arrangement for SIM algorithm automatic charset detection
CN104750844A (en) Method and device for generating text characteristic vectors based on TF-IGM, method and device for classifying texts
US8560466B2 (en) Method and arrangement for automatic charset detection
CN113254643B (en) Text classification method and device, electronic equipment and text classification program
US20060179017A1 (en) Preparing data for machine learning
US6938049B2 (en) Creating ensembles of decision trees through sampling
JPH10254883A (en) Automatic document sorting method
CN111274402B (en) E-commerce comment emotion analysis method based on unsupervised classifier
JP2000293502A (en) Data sorting method and device and storage medium storing data sorting program
JP2000172691A (en) Method and device for mining information and computer- readable recording medium with information mining program recorded therein
Nenadic et al. Selecting text features for gene name classification: from documents to terms
JP2002133389A (en) Data classification learning method, data classification method, data classification learner, data classifier, storage medium with data classification learning program recorded, and recording medium with data classification program recorded
JPH0736897A (en) Document sorting device
JP2001022727A (en) Method and device for classifying and learning text and storage medium storing text classifying and learning program
JP2003016106A (en) Device for calculating degree of association value