JP5063639B2 - Data classification method, apparatus and program - Google Patents
Data classification method, apparatus and program Download PDFInfo
- Publication number
- JP5063639B2 JP5063639B2 JP2009096415A JP2009096415A JP5063639B2 JP 5063639 B2 JP5063639 B2 JP 5063639B2 JP 2009096415 A JP2009096415 A JP 2009096415A JP 2009096415 A JP2009096415 A JP 2009096415A JP 5063639 B2 JP5063639 B2 JP 5063639B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- class
- calculating means
- data
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データ分類方法及び装置及びプログラムに係り、特に、入力データが複数のクラスにそれぞれ属することの尤もらしさを表す尤度を算出する複数の尤度算出手段を用いて算出された結果を統合し、データを分類するためのデータ分類方法及び装置及びプログラムに関する。 The present invention relates to a data classification method, apparatus, and program, and more particularly, to a result calculated using a plurality of likelihood calculating means for calculating likelihoods representing likelihood that input data belongs to a plurality of classes, respectively. The present invention relates to a data classification method, apparatus, and program for integrating and classifying data.
入力データを分類する際に、複数の尤度算出手段の出力を同時に用いる方法として、各尤度算出手段が出力する尤度(入力データが各クラスへ属する尤度)の対数をとった対数尤度を線形結合して統合し、この統合された対数尤度に基づいて分類する方法が知られている(例えば、非特許文献1参照)。各尤度算出手段の信頼性の相対関係が一定であれば、このような線形結合による統合は妥当性があり、広く用いられている。
As a method of simultaneously using the outputs of a plurality of likelihood calculating means when classifying input data, log likelihood is obtained by taking the logarithm of the likelihood (the likelihood that the input data belongs to each class) output by each likelihood calculating means. A method is known in which degrees are linearly combined and integrated, and classification is performed based on the integrated log likelihood (see Non-Patent
なお、上記の線形結合による統合は、例えば、尤度算出手段Aが、尤度算出手段Bよりも信頼性が高ければ、尤度算出手段Aの出力の重みを高くして統合することである。つまり、尤度算出手段が出力する対数尤度を、最大エントロピー原理に基づいて、線形結合し、事後確率を求めることによって分類する。 Note that the integration by the above linear combination is, for example, if the likelihood calculation means A is more reliable than the likelihood calculation means B, and integrates by increasing the output weight of the likelihood calculation means A. . That is, the log likelihoods output by the likelihood calculating means are classified by linearly combining them based on the maximum entropy principle and obtaining the posterior probabilities.
なお、上記「尤度」とは、「尤もらしさ」であり、例えば、「確率」は「尤度」であるといえる。 The “likelihood” is “likelihood”, and for example, “probability” is “likelihood”.
しかしながら、上記の従来技術のように、各尤度算出手段が出力する尤度(または対数をとった対数尤度)を線形結合し、統合し、この統合された尤度(対数尤度)に基づいて分類する方法では、次の問題がある。 However, as in the above-described prior art, the likelihoods (or logarithmic likelihoods obtained by logarithms) output from the respective likelihood calculating means are linearly combined and integrated, and the integrated likelihood (logarithmic likelihood) is integrated. The method of classification based on the following problems.
例えば、尤度算出手段Aが「野球」と判断し、尤度算出手段Aによる分類手法とは異なる分類手法を採用している尤度算出手段Bが「サッカー」と判断し、入力データの真のクラスが「野球」である場合、尤度を線形結合したので、尤度算出手段Bによる間違った結果に影響され、「サッカー」であると誤って判断する可能性がある。すなわち、個々の尤度算出手段の長所を弱め、結果として正しい分類結果が得られない現象がよく起きるという問題がある。 For example, the likelihood calculating means A determines “baseball”, the likelihood calculating means B adopting a classification method different from the classification method by the likelihood calculating means A determines “soccer”, and the truth of the input data If the class is “baseball”, since the likelihoods are linearly combined, there is a possibility of being erroneously determined to be “soccer” by being influenced by an incorrect result by the likelihood calculating means B. That is, there is a problem that a phenomenon in which a correct classification result cannot be obtained as a result often occurs because the advantages of the individual likelihood calculating means are weakened.
このような問題は、各尤度算出手段の信頼性が一定であると仮定していることに起因している。 Such a problem is caused by assuming that the reliability of each likelihood calculating means is constant.
本発明は、上記の点に鑑みなされたもので、尤度を線形結合し、統合して分類結果を得る場合よりも、精度がより高い分類結果を得ることができるデータ分類方法及び装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points. A data classification method, apparatus, and program capable of obtaining a classification result with higher accuracy than the case of linearly combining likelihoods and integrating them to obtain a classification result. The purpose is to provide.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明(請求項1)は、所定の入力データをクラスへ分類するデータ分類方法であって、
算出する分類手法または構成要素や特徴が互いに異なるn個(nは2以上)の尤度算出手段のそれぞれが、所定の入力データが複数のクラスのそれぞれに属する尤もらしさである尤度を算出し、尤度記憶手段に格納する尤度算出ステップ(ステップ1)と、
尤度記憶手段から尤度算出手段によって出力された尤度を取得して、注目するクラスに対して、各尤度算出手段が算出したそれぞれの尤度の中で2個の尤度を用い、全てのn個の尤度算出手段による合計2n個の尤度を用いて、当該注目するクラスが入力データに対する正しいクラスであることを示す確からしさである確信度を算出する処理を行うことで、複数のクラスの全ての確信度を算出する確信度算出ステップ(ステップ2)と、
確信度の値に基づいて入力データの属するクラスを決定するデータクラス決定ステップ(ステップ3)と、を行う。
The present invention (Claim 1) is a data classification method for classifying predetermined input data into classes,
Each of n (n is 2 or more) likelihood calculating means having different classification methods or constituent elements and features to calculate calculates likelihood that predetermined input data belongs to each of a plurality of classes. A likelihood calculation step (step 1) to be stored in the likelihood storage means;
Acquires the likelihood that is output by the likelihood storage means whether we likelihood calculating means, for the class of interest, the two likelihood in the likelihood of each of the likelihood calculating means is calculated using By using a total of 2n likelihoods by all n likelihood calculating means, a process of calculating a certainty factor that is a certainty indicating that the class of interest is a correct class for the input data is performed. A certainty factor calculating step (step 2) for calculating all the certainty factors of the plurality of classes ;
A data class determining step (step 3) for determining a class to which the input data belongs based on the certainty value.
また、本発明(請求項2)は、確信度算出ステップ(ステップ2)において、
尤度算出手段毎の2個のクラスの尤度は、
注目するクラスに対する当該尤度算出手段が算出した尤度と、当該尤度算出手段が算出した尤度の中で注目するクラス以外のクラスで最大となる尤度である。
Further, the present invention (Claim 2), in the probability Sind calculating step (Step 2),
The likelihood of the two classes for each likelihood calculating means is
A likelihood said likelihood calculating means with respect to the class of interest is calculated, the maximum and becomes likelihood class other than the class of interest in the likelihood the likelihood calculating means is calculated.
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項3)は、所定の入力データをクラスへ分類するデータ分類装置であって、
所定の入力データを入力する入力手段11と、
所定の入力でデータが複数のクラスにそれぞれ属する尤もらしさである尤度を算出し、尤度記憶手段17に格納する、算出する分類手法または構成要素や特徴が互いに異なるn個(nは2以上)の尤度算出手段13と、
尤度記憶手段17から尤度算出手段13によって出力された尤度を取得して、注目するクラスに対して、各尤度算出手段13が算出したそれぞれの尤度の中で2個の尤度を用い、全てのn個の尤度算出手段による合計2n個の尤度を用いて、当該注目するクラスが入力データに対する正しいクラスであることを示す確からしさである確信度を算出する処理を行うことで、複数のクラスの全ての確信度を算出する確信度算出手段14と、
確信度の値に基づいて入力データの属するクラスを決定するデータクラス決定手段15と、を有する。
The present invention (Claim 3 ) is a data classification device for classifying predetermined input data into classes,
Input means 11 for inputting predetermined input data;
The likelihood that the data belongs to a plurality of classes at a predetermined input is calculated, and stored in the likelihood storage means 17; n classification methods to be calculated, or n elements having different constituent elements and features (n is 2 or more) ) Likelihood calculation means 13;
Acquires the likelihood that is output by the likelihood storage means 17 or we likelihood calculating
Data class determining means 15 for determining the class to which the input data belongs based on the certainty value.
また、本発明(請求項4)は、確信度算出手段14の尤度算出手段13毎の2個のクラスの尤度が、注目するクラスに対する当該尤度算出手段13が算出した尤度と、当該尤度算出手段が算出した尤度の中で注目するクラス以外のクラスで最大となる尤度である。
Further, the present invention (Claim 4), the likelihood likelihood of two classes of each
本発明(請求項5)は、請求項3または4に記載のデータ分類装置を構成する各手段としてコンピュータを機能させるためのデータ分類プログラムである。 The present invention (Claim 5 ) is a data classification program for causing a computer to function as each means constituting the data classification apparatus according to Claim 3 or 4 .
本発明は、全ての尤度算出手段が出力する全ての尤度から、各クラスが入力データに対する正しいクラスであることを示す確信度を予測し、この予測した確信度の高いクラスを入力データのクラスとして求めることにより、尤度を線形結合し、統合して分類結果を得る場合よりも、精度が高い分類結果を得ることができる。 The present invention predicts the certainty level indicating that each class is the correct class for the input data from all the likelihoods output by all likelihood calculating means, and classifies the predicted class with a high degree of certainty for the input data. By obtaining as a class, it is possible to obtain a classification result with higher accuracy than when the likelihoods are linearly combined and integrated to obtain a classification result.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明の一実施の形態におけるデータ分類装置の構成図である。 FIG. 3 is a configuration diagram of the data classification device according to the embodiment of the present invention.
同図に示すデータ分類装置10は、入力部11、尤度算出制御部12、複数の尤度算出手段13、確信度算出部14、データクラス決定部15、メモリ16、尤度記憶部17、算出パラメータ記憶部18、確信度記憶部19から構成され、入力部11には処理対象記憶部1、キーボード2が接続され、出力部15にはディスプレイ3が接続されている。
The
処理対象記憶部1は、文書等の処理対象が格納されているデータベースであり、入力部11により読み出される。
The processing
メモリ16は、入力部11によって入力された処理対象が格納される。
The memory 16 stores the processing target input by the
尤度記憶部17は、各尤度算出手段13によって算出された尤度が格納される。 The likelihood storage unit 17 stores the likelihood calculated by each likelihood calculating means 13.
算出パラメータ記憶部18は、後述するロジスティック回帰モデルにおけるモデルパラメータ推定手順によって予め求められた確信度算出パラメータが格納される。
The calculation
確信度記憶部19は、確信度算出部14によって求められた確信度が格納される。
The certainty
入力部11は、処理対象記憶部1から処理対象データを読み込み、メモリ16に格納すると共に、キーボード2から入力された尤度算出手段13の数及び分類先であるクラス数を取得し、尤度算出制御部12に渡す。
The
尤度算出制御部12は、メモリから処理対象データの特徴を入力する尤度算出手段13を決定し、尤度を算出させる。
The likelihood
尤度算出手段13は、入力データが複数のクラスのそれぞれに属することの尤もらしさである尤度を算出し、尤度記憶部17に格納する。それぞれの尤度算出手段13は、分類手法または、構成要素や特徴が互いに異なる。例えば、データの特徴ベクトルとクラスラベルの同時確率分布をモデル化し、ベイズ則に基づいてクラス事後確率を計算することでデータのクラスラベルを推定する生成アプローチ、クラス事後確率を直接モデル化する識別アプローチなどがある。 The likelihood calculating means 13 calculates the likelihood that is the likelihood that the input data belongs to each of the plurality of classes, and stores the likelihood in the likelihood storage unit 17. Each likelihood calculating means 13 is different from each other in the classification method or the constituent elements and features. For example, modeling the joint probability distribution of data feature vectors and class labels, and calculating the class posterior probabilities based on the Bayes rule, generating the class labels of the data, and discriminating approaches directly modeling the class posterior probabilities and so on.
確信度算出部14は、尤度記憶部17に格納されている全ての尤度から、算出パラメータ記憶部18に格納されている確信度算出パラメータを用いて、各クラスが入力データに対する正しいクラスであることを示す確からしさである確信度を算出し、確信度記憶部19に格納する。確信度は全ての尤度算出手段から出力された尤度を用いて統合的に算出される。概略的には、多くの尤度算出手段において尤度が高く、対抗するクラスでの尤度が低いほど、高い値になる。
The certainty
データクラス決定部15は、確信度記憶部19から確信度を取得し、最も高い確信度を示したクラスを入力データの属するクラスとして出力する。
The data
図4は、本発明の一実施の形態におけるデータ分類装置の処理のフローチャートである。 FIG. 4 is a flowchart of processing of the data classification device according to the embodiment of the present invention.
ステップ101) 入力部11は、処理対象記憶部1から処理対象である入力データをメモリ16上に読み込む。
Step 101) The
ステップ102) 入力部11は、キーボード2から入力された尤度算出手段13の数nを取得し、尤度算出制御部12に渡す。
Step 102) The
ステップ103) 入力部11は、キーボード2から入力された分類先であるクラス数Kを取得し、尤度算出制御部12に渡す。
Step 103) The
ステップ104) 尤度算出制御部12は、尤度算出手段13の番号iを1に初期化する(i=1)。
Step 104) The likelihood
ステップ105) 尤度算出制御部12は、尤度算出手段13の番号iがi≦nであればステップ106に移行し、そうでなければステップ109に移行する。
Step 105) The likelihood
ステップ106) 尤度算出制御部12は、メモリ14に格納されている入力データWの特徴を第i番目の尤度算出手段LCiに入力し、当該尤度算出手段LCiは入力データがクラスCk(k=1,…,K)に属する尤度Pi(W│Ck)を算出する。各クラスにおいて、入力データが複数の特徴から構成されるときは出現する確率の積を、入力データWの特徴が当該クラスに属する尤度であると判断する。なお、上記入力データのWの例は文書であり、上記入力データの特徴の例は、「単語」または、「単語に付与したベクトル」である。
Step 106) The likelihood
すなわち、ある入力文書に単語「ホームラン」と「試合」が含まれている場合、クラス「野球」における『ホームラン』の出現確率が例えば1/20と予め定められ、「試合」の出現確率が例えば1/5であると予め定められているとすると、上記入力データが出現する確率の積は、
(1/20)×(1/5)=1/100
である。上記確率の積を尤度とし、この尤度はクラスに属する「尤もらしさ」を示すものである。
That is, when the words “home run” and “game” are included in a certain input document, the appearance probability of “home run” in the class “baseball” is predetermined as, for example, 1/20, and the appearance probability of “game” is, for example, If it is predetermined that it is 1/5, the product of the probability that the input data appears is
(1/20) × (1/5) = 1/100
It is. The product of the above probabilities is used as the likelihood, and this likelihood indicates “likelihood” belonging to the class.
また、「上田修功、斉藤和巳、"多重トピックテキストの確率モデル−テキストモデル研究の最前線(1)"、情報処理学会誌 Vol. 45, No. 2, pp. 184-190, 2004」や「上田修功、斉藤和巳、"多重トピックテキストの確率モデル−テキストモデル研究の最前線(2)"、情報処理学会誌、Vol. 45, No. 3, pp. 282-289, 2004.」に記載されているナイーブベイズという方法を使用するようにしてもよい。 In addition, “Osamu Ueda, Kazuaki Saito,“ Probability Model of Multi-Topic Text—The Forefront of Text Model Research (1) ”, Journal of Information Processing Society of Japan Vol. 45, No. 2, pp. 184-190, 2004” and “ Ueda Osamu, Saito Kazuaki, "Probability Model of Multi-Topic Text-The Forefront of Text Model Research (2)", Journal of Information Processing Society of Japan, Vol. 45, No. 3, pp. 282-289, 2004. You may be allowed to use a method called Naive Bayes.
ステップ107) 尤度算出手段LCiは、算出された尤度を尤度記憶部17に格納する。 Step 107) The likelihood calculating means LC i stores the calculated likelihood in the likelihood storage unit 17.
ステップ108) 尤度算出制御部12は、尤度算出手段13の番号iをi+1としてステップ105に戻る。
Step 108) The likelihood
ステップ109) 上記のステップ105において、i>nとなった場合は、確信度算出部14は、クラス番号kを1に初期化する。
Step 109) When i> n in
ステップ110) 確信度算出部14は、尤度記憶部17から尤度を取り出して、クラスkが正しいクラスである確信度Pc kを次のようにして算出する。
Step 110) The certainty
算出パラメータ記憶部18に格納される確信度算出パラメータは事前に算出しておく。式(3)、(4)はロジスティック回帰式であり、以下に示す通常のロジスティック回帰モデルにおけるモデルパラメータ推定の手順に基づいて算出できる。
The certainty factor calculation parameter stored in the calculation
ロジスティック回帰モデルは、一般にある現象が発生する確率y(結果変数)を、その現象の生起を説明するために観測された説明変数x=(x1,…,xr)で説明するためのモデルであり、モデルパラメータβ=(β0,…,βr)を用いて The logistic regression model is generally a model for explaining the probability y (result variable) of occurrence of a certain phenomenon by the explanatory variables x = (x 1 ,..., X r ) observed for explaining the occurrence of the phenomenon. And using model parameters β = (β 0 ,..., Β r )
結果変数: ym、ym=1;ある事象が発生
ym=0;ある事象が発生せず
説明変数: r個の変数(xm1,xm2,…,xmr)
となる。この訓練データを式(3)、(4)に当てはめ、最尤法(最も尤もらしいものを選ぶ方法)等を用いて、適切なモデルパラメータβ=(β0,…,βr)を得る。この考え方を式(1)、(2)に当てはめて考え、入力データのクラスkが正しいクラスであることを結果変数がy=1であると、誤っていることをy=0と、そのときのクラスkに属する尤度Pi(W│Ck)とクラスk以外で最大となる尤度maxj(j≠k)Pi(W│Cj)を説明変数x(=x1,…)であるとして、モデルパラメータβに対応する
Result variables: y m , y m = 1; some event occurs
y m = 0; no event occurs Explanation variable: r variables (x m1 , x m2 ,..., x mr )
It becomes. This training data is applied to equations (3) and (4), and an appropriate model parameter β = (β 0 ,..., Β r ) is obtained using a maximum likelihood method (a method for selecting the most likely one). This idea is applied to formulas (1) and (2), and the fact that the input variable class k is the correct class and the result variable is y = 1, the error is y = 0, The likelihood P i (W | C k ) belonging to class k and the maximum likelihood max j (j ≠ k) P i (W | C j ) other than class k are explained as explanatory variables x (= x 1 ,... ) Corresponding to the model parameter β
なお、「丹後俊郎、山岡和枝、高木晴良、"ロジスティック回帰分析"、pp. 3朝倉書店、1996」に記載されている−∞〜∞の変動範囲を持つ説明変数の合成変量Zと範囲(0,1)に値を持つ発生確率p(x)とをロジスティック関数で結合させたモデルを用いてもよい。また、式(1)、(2)ではクラスk毎に別々の算出パラメータを用いるとしたが、パラメータ全てのクラスに対して共通としてもよい。 Note that the synthetic variable Z and the range of explanatory variables with the range of −∞ to ∞ described in “Tango Toshiro, Yamaoka Kazue, Takagi Haruyoshi,“ Logistic Regression Analysis ”, pp. 3 Asakura Shoten, 1996” A model in which an occurrence probability p (x) having a value of 0, 1) is combined with a logistic function may be used. Also, in equations (1) and (2), different calculation parameters are used for each class k, but they may be common to all classes of parameters.
上記のようにして算出された確信度は確信度記憶部19に格納される。
The certainty factor calculated as described above is stored in the certainty
ステップ112) 確信度算出部14は、クラス番号kをk+1としてステップ110に戻る。
Step 112) The certainty
ステップ113) データクラス決定部15は、ステップ110において、k>Kとなった場合は、確信度記憶部19から確信度Pc k(k=1,…,K)を読み出して、その中で最大の値を示すクラスをデータのクラスとして決定し、ディスプレイ3に出力する。
Step 113) If k> K in
なお、図3に示すデータ分類装置の各構成要素の動作をプログラムとして構築し、データ分類装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 It is possible to construct the operation of each component of the data classification apparatus shown in FIG. 3 as a program, install it on a computer used as the data classification apparatus, execute it, or distribute it via a network.
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiments and examples, and various modifications and applications can be made within the scope of the claims.
本発明は、ウェブページ、ブログ、電子メール等のテキストデータの分類に適用可能である。 The present invention is applicable to the classification of text data such as web pages, blogs, and e-mails.
1 処理対象記憶部
2 キーボード
10 データ分類装置
11 入力手段、入力部
12 尤度算出制御部
13 尤度算出手段
14 確信度算出手段、確信度算出部
15 データクラス決定手段、データクラス決定部
16 メモリ
17 尤度記憶手段、尤度記憶部
18 算出パラメータ記憶部
19 確信度記憶部
DESCRIPTION OF
Claims (5)
算出する分類手法または構成要素や特徴が互いに異なるn個(nは2以上)の尤度算出手段のそれぞれが、前記所定の入力データが複数のクラスのそれぞれに属する尤もらしさである尤度を算出し、尤度記憶手段に格納する尤度算出ステップと、
前記尤度記憶手段から前記尤度算出手段によって出力された尤度を取得して、注目するクラスに対して、各尤度算出手段が算出したそれぞれの尤度の中で2個の尤度を用い、全てのn個の尤度算出手段による合計2n個の尤度を用いて、当該注目するクラスが入力データに対する正しいクラスであることを示す確からしさである確信度を算出する処理を行うことで、前記複数のクラスの全ての確信度を算出する確信度算出ステップと、
前記確信度の値に基づいて前記入力データの属するクラスを決定するデータクラス決定ステップと、
を行うことを特徴とするデータ分類方法。 A data classification method for classifying predetermined input data into classes,
Each of n (n is 2 or more) likelihood calculating means having different classification methods or components and features to calculate calculates the likelihood that the predetermined input data belongs to each of a plurality of classes. A likelihood calculating step for storing in the likelihood storage means;
Wherein acquires the likelihood that is output by the likelihood storage means whether we before Kieu calculating means, for the class of interest, the two likelihood in the likelihood of each of the likelihood calculating means is calculated A process of calculating a certainty factor that is a probability indicating that the class of interest is a correct class for the input data, using a total of 2n likelihoods by all n likelihood calculating means. Doing a certainty factor calculating step for calculating all the certainty factors of the plurality of classes ,
A data class determining step for determining a class to which the input data belongs based on the certainty value;
The data classification method characterized by performing.
前記尤度算出手段毎の2個のクラスの尤度は、
注目するクラスに対する当該尤度算出手段が算出した尤度と、当該尤度算出手段が算出した尤度の中で注目するクラス以外のクラスで最大となる尤度である
請求項1記載のデータ分類方法。 In the certainty factor calculating step,
The likelihood of the two classes for each likelihood calculating means is
A likelihood said likelihood calculating means with respect to the class of interest is calculated, <br/> claim 1 which is the maximum and becomes likelihood class other than the class of interest in the likelihood the likelihood calculating means is calculated The data classification method described.
前記所定の入力データを入力する入力手段と、
前記所定の入力でデータが複数のクラスにそれぞれ属する尤もらしさである尤度を算出し、尤度記憶手段に格納する、算出する分類手法または構成要素や特徴が互いに異なるn個(nは2以上)の尤度算出手段と、
前記尤度記憶手段から前記尤度算出手段によって出力された尤度を取得して、注目するクラスに対して、各尤度算出手段が算出したそれぞれの尤度の中で2個の尤度を用い、全てのn個の尤度算出手段による合計2n個の尤度を用いて、当該注目するクラスが入力データに対する正しいクラスであることを示す確からしさである確信度を算出する処理を行うことで、前記複数のクラスの全ての確信度を算出する確信度算出手段と、
前記確信度の値に基づいて前記入力データの属するクラスを決定するデータクラス決定手段と、
を有することを特徴とするデータ分類装置。 A data classification device for classifying predetermined input data into classes,
Input means for inputting the predetermined input data;
The likelihood that the data belongs to a plurality of classes at the predetermined input is calculated, and stored in the likelihood storage means. N classification methods to be calculated, or n elements (n is 2 or more) that are different from each other ) Likelihood calculation means,
Wherein acquires the likelihood that is output by the likelihood storage means whether we before Kieu calculating means, for the class of interest, the two likelihood in the likelihood of each of the likelihood calculating means is calculated A process of calculating a certainty factor that is a probability indicating that the class of interest is a correct class for the input data , using a total of 2n likelihoods by all n likelihood calculating means. Doing a certainty factor calculating means for calculating all the certainty factors of the plurality of classes ,
Data class determining means for determining a class to which the input data belongs based on the certainty value;
A data classification apparatus comprising:
前記尤度算出手段毎の2個のクラスの尤度は、
注目するクラスに対する当該尤度算出手段が算出した尤度と、当該尤度算出手段が算出した尤度の中で注目するクラス以外のクラスで最大となる尤度である
請求項3記載のデータ分類装置。 In the confidence factor computing means,
The likelihood of the two classes for each likelihood calculating means is
A likelihood said likelihood calculating means with respect to the class of interest is calculated, <br/> claim 3 is the likelihood that the maximum class other than the class of interest in the likelihood the likelihood calculating means is calculated The data classification device described.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009096415A JP5063639B2 (en) | 2009-04-10 | 2009-04-10 | Data classification method, apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009096415A JP5063639B2 (en) | 2009-04-10 | 2009-04-10 | Data classification method, apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010250391A JP2010250391A (en) | 2010-11-04 |
JP5063639B2 true JP5063639B2 (en) | 2012-10-31 |
Family
ID=43312678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009096415A Active JP5063639B2 (en) | 2009-04-10 | 2009-04-10 | Data classification method, apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5063639B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5667004B2 (en) * | 2011-07-19 | 2015-02-12 | 日本電信電話株式会社 | Data classification apparatus, method and program |
JP2014026455A (en) * | 2012-07-26 | 2014-02-06 | Nippon Telegr & Teleph Corp <Ntt> | Media data analysis device, method and program |
JP6298780B2 (en) * | 2015-02-19 | 2018-03-20 | 日本電信電話株式会社 | Difficulty level learning device, difficulty level estimation model learning device, difficulty level estimation device, method, and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7305132B2 (en) * | 2003-11-19 | 2007-12-04 | Mitsubishi Electric Research Laboratories, Inc. | Classification in likelihood spaces |
-
2009
- 2009-04-10 JP JP2009096415A patent/JP5063639B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010250391A (en) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220327220A1 (en) | Open source vulnerability prediction with machine learning ensemble | |
Tian et al. | Information retrieval based nearest neighbor classification for fine-grained bug severity prediction | |
CN112183994B (en) | Evaluation method and device for equipment state, computer equipment and storage medium | |
US20220253725A1 (en) | Machine learning model for entity resolution | |
CN111080117A (en) | Method and device for constructing equipment risk label, electronic equipment and storage medium | |
CN114116973A (en) | Multi-document text duplicate checking method, electronic equipment and storage medium | |
CN112818162A (en) | Image retrieval method, image retrieval device, storage medium and electronic equipment | |
JP7409484B2 (en) | Risk assessment equipment, risk assessment methods and programs | |
JP5063639B2 (en) | Data classification method, apparatus and program | |
Li et al. | The clustering-based case-based reasoning for imbalanced business failure prediction: a hybrid approach through integrating unsupervised process with supervised process | |
US20220327394A1 (en) | Learning support apparatus, learning support methods, and computer-readable recording medium | |
JP2017151933A (en) | Data classifier, data classification method, and program | |
Ardimento et al. | A text-based regression approach to predict bug-fix time | |
CN110825873B (en) | Method and device for expanding log exception classification rule | |
Wang et al. | A novel trace clustering technique based on constrained trace alignment | |
Peeperkorn et al. | Conformance checking using activity and trace embeddings | |
Sivakumar et al. | A hybrid text classification approach using KNN and SVM | |
US20220129792A1 (en) | Method and apparatus for presenting determination result | |
AU2021251463B2 (en) | Generating performance predictions with uncertainty intervals | |
Boström et al. | Evaluation of a variance-based nonconformity measure for regression forests | |
JP7349404B2 (en) | Judgment device, judgment method and judgment program | |
KR102115973B1 (en) | Heterogeneity learning based information classification apparatus | |
US20200005182A1 (en) | Selection method, selection apparatus, and recording medium | |
WO2021024297A1 (en) | Adversarial example detection system, method, and program | |
CN113407680B (en) | Heterogeneous integrated model screening method and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120731 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5063639 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150817 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |