JP2010003106A - Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program and recording medium - Google Patents
Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program and recording medium Download PDFInfo
- Publication number
- JP2010003106A JP2010003106A JP2008161237A JP2008161237A JP2010003106A JP 2010003106 A JP2010003106 A JP 2010003106A JP 2008161237 A JP2008161237 A JP 2008161237A JP 2008161237 A JP2008161237 A JP 2008161237A JP 2010003106 A JP2010003106 A JP 2010003106A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- model
- data
- target
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、分類対象データを分類する分類体系(以下、「ターゲット分類体系」という。)のデータだけでなく、別の分類体系(以下、「補助分類体系」という。)のデータも用いて、分類モデルを学習し、また、その学習した分類モデルを用いて分類対象データをターゲット分類体系において分類する技術に関する。 The present invention uses not only data of a classification system (hereinafter referred to as “target classification system”) for classifying classification target data but also data of another classification system (hereinafter referred to as “auxiliary classification system”). The present invention relates to a technique for learning a classification model and classifying classification target data in a target classification system using the learned classification model.
学習データ(学習用のデータ)の数が少ない場合、一般に、分類モデルの性能は低くなる。そこで、補助分類体系におけるクラスのラベル(以下、「クラスラベル」または単に「ラベル」という。)が付与されたデータを用いることにより、分類モデルの性能を向上させることができれば好ましい。その場合、例えば、あるWebページを、あるターゲット分類体系のクラス(以下、「ターゲットクラス」ともいう。)に分類したいとする。そして、ディレクトリ型検索エンジンやソーシャルブックマークサイトにおける多数のユーザによって、ターゲット分類体系とは異なる補助分類体系に、多くのWebページがすでに分類されており、そのような情報を活用できれば望ましい。 When the number of learning data (learning data) is small, generally the performance of the classification model is low. Therefore, it is preferable that the performance of the classification model can be improved by using data with a class label (hereinafter referred to as “class label” or simply “label”) in the auxiliary classification system. In this case, for example, it is assumed that a certain Web page is classified into a class of a certain target classification system (hereinafter also referred to as “target class”). It is desirable if many web pages have already been classified into an auxiliary classification system different from the target classification system by a large number of users in a directory search engine or a social bookmark site, and such information can be utilized.
また、例えば、オンラインショッピングなどの商品について購買順序を考慮した予測(分類)に関する技術が知られている(非特許文献1参照)。
しかし、補助分類体系とターゲット分類体系とでは、一般にクラスラベルが異なり、また、同じラベルがあったとしても意味が異なる可能性もある。そのため、従来の教師あり学習の技術(非特許文献1など)を用いて、補助分類体系のクラス(以下、「補助クラス」ともいう。)のデータを利用することはできないという問題がある。
However, the class label is generally different between the auxiliary classification system and the target classification system, and even if the same label exists, the meaning may be different. Therefore, there is a problem that data of a class of an auxiliary classification system (hereinafter also referred to as “auxiliary class”) cannot be used by using a conventional supervised learning technique (Non-Patent
そこで、本発明は、前記問題に鑑みてなされたものであり、補助分類体系のデータを有効に利用することで、ターゲット分類体系に関する高精度な分類モデルを生成することを課題とする。また、その生成した分類モデルを用いて、分類対象データをターゲット分類体系において高精度に分類することを、他の課題とする。 Therefore, the present invention has been made in view of the above problems, and an object thereof is to generate a highly accurate classification model related to a target classification system by effectively using data of an auxiliary classification system. Another object is to use the generated classification model to classify the classification target data with high accuracy in the target classification system.
前記課題を解決するために、本発明は、分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている1つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている1つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置であって、情報を記憶する記憶手段と、前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定部と、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築部と、を備えることを特徴とする。 In order to solve the above problems, the present invention provides one or more already classified data already classified in a target classification system that is a classification system for classifying classification target data, and a classification system different from the target classification system. Classification for classifying the data to be classified into one of a plurality of classes in the target classification system by performing learning using one or more already classified data already classified in a certain auxiliary classification system A classification model generation device for generating a model, wherein storage means for storing information and prediction that each individual classification data in the two types of classification data described above is classified into one of the classes of the target classification system Error function of the classification model at the time of the prediction, and each individual fraction in the two types of previously classified data at the time of the prediction Each weight indicating the degree of influence of the data on the classification model, and the sum of products of the error function value and the weight for each of the already classified data in the two types of previously classified data. In order to minimize the expected error, the weight is estimated, the weight estimation unit that stores the weight in the storage unit, the weight stored in the storage unit, and the two types of already classified data described above, And a model construction unit for generating the classification model.
かかる発明によれば、ターゲット分類体系における既分類データだけでなく、補助分類体系における既分類データも用い、誤差関数と重みとの積の総和である期待誤差を最小化させるように重みを推定し、その推定された重みと2種類の既分類データとを用いて分類モデルを生成することで、補助分類体系のデータも有効に利用し、ターゲット分類体系に関する高精度な分類モデルを生成することができる。 According to this invention, not only the already classified data in the target classification system but also the already classified data in the auxiliary classification system is used, and the weight is estimated so as to minimize the expected error that is the sum of the products of the error function and the weight. By generating a classification model using the estimated weight and two types of already-classified data, it is possible to effectively use the data of the auxiliary classification system and generate a highly accurate classification model for the target classification system. it can.
また、本発明は、前記重み推定部が、前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納する事後確率推定部と、前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する混合比推定部と、を備えることを特徴とする。 Further, the present invention provides the target classification system for approximating a probability distribution model when the weight estimation unit integrates the target classification system and the auxiliary classification system to a probability distribution model of the target classification system. And the auxiliary classification system are used to estimate the posterior probabilities related to the two types of already classified data using a mixing ratio indicating the ratio of the degree of influence on the classification model for each class, and the storage means stores the posterior probabilities The mixture ratio is estimated using the posterior probability estimation unit stored in the storage means and the posterior probability stored in the storage means so as to maximize the likelihood for the already classified data of the target classification system, and the likelihood And a mixture ratio estimation unit that estimates the weight from the mixture ratio when the value is maximized and stores the weight in the storage means.
かかる発明によれば、重み推定部が、事後確率推定部と、混合比推定部とを備えているので、例えば、事後確率推定部が、EM(Expectation-Maximization)アルゴリズムにおけるE(Expectation)ステップを行い、かつ、混合比推定部がM(Maximization)ステップを行うことで、混合比についての大域的最適解を求め、求めた混合比から重みを決定(推定)することができる。 According to this invention, since the weight estimation unit includes the posterior probability estimation unit and the mixture ratio estimation unit, for example, the posterior probability estimation unit performs the E (Expectation) step in the EM (Expectation-Maximization) algorithm. And the mixture ratio estimation unit performs the M (Maximization) step, thereby obtaining a global optimum solution for the mixture ratio and determining (estimating) the weight from the obtained mixture ratio.
また、本発明は、前記モデル構築部が、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納するモデルパラメータ推定部を備えることを特徴とする。 Further, according to the present invention, the model construction unit uses the weight stored in the storage unit and the two types of already classified data, and the classification target data in the classification model is included in the target classification system. A model parameter estimating unit for estimating model parameters for classification and storing the model parameters in the storage unit is provided.
かかる発明によれば、モデルパラメータ推定部が、例えば、後記する式(10)を用いてモデルパラメータを推定することができる。 According to this invention, a model parameter estimation part can estimate a model parameter using the formula (10) described later, for example.
また、本発明は、分類装置が、分類モデル生成装置の前記記憶手段に格納されたモデルパラメータを用いて、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類する分類部を備えることを特徴とする。 Further, according to the present invention, there is provided a classification unit that classifies the classification target data into any one of a plurality of classes in the target classification system using a model parameter stored in the storage unit of the classification model generation device. It is characterized by providing.
かかる発明によれば、分類部が、推定したモデルパラメータを用いて分類対象データをターゲット分類体系における複数のクラスのいずれかに分類する、つまり、高精度な分類モデルを用いることで高精度な分類を実現することができる。 According to this invention, the classification unit classifies the classification target data into any one of a plurality of classes in the target classification system using the estimated model parameter, that is, a high-precision classification using a high-precision classification model. Can be realized.
また、本発明は、コンピュータを、分類モデル生成装置または分類装置の各部として機能させるためのプログラムである。これにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。 In addition, the present invention is a program for causing a computer to function as each unit of the classification model generation device or the classification device. Thereby, the computer installed with this program can realize each function based on this program.
また、本発明は、前記プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体である。これにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。 The present invention also provides a computer-readable recording medium in which the program is recorded. Thereby, the computer equipped with this recording medium can realize each function based on the program recorded on this recording medium.
本発明によれば、補助分類体系のデータも有効に利用することで、ターゲット分類体系に関する高精度な分類モデルを生成することができる。また、その生成した分類モデルを用いて、分類対象データをターゲット分類体系において高精度に分類することができる。 According to the present invention, it is possible to generate a highly accurate classification model related to the target classification system by effectively using the data of the auxiliary classification system. Further, using the generated classification model, the classification target data can be classified with high accuracy in the target classification system.
以下、本発明を実施するための最良の形態(以下、「実施形態」という。)について、詳細に説明する。図1は、本実施形態に係る分類装置の構成を示すブロック図である。図1に示すように、分類装置1は、演算手段2と、入力手段3と、記憶手段4と、出力手段5とを備えている。各手段2〜5はバスライン11に接続されている。なお、分類装置1は、分類モデル(以下、単に「モデル」ともいう。)を生成する分類モデル生成装置としての機能と、その生成した分類モデルによって分類対象データを分類する分類装置としての機能とを兼ね備えるものであるが、いずれか一方の機能のみを有するものとして実現されてもよい。
Hereinafter, the best mode for carrying out the present invention (hereinafter referred to as “embodiment”) will be described in detail. FIG. 1 is a block diagram showing the configuration of the classification apparatus according to this embodiment. As shown in FIG. 1, the
演算手段2は、例えば、CPU(Central Processing Unit)およびRAM(Random Access Memory)から構成される主制御装置である。この演算手段2は、図1に示すように、重み推定部21と、モデル構築部22と、分類部23と、メモリ24とを含んで構成される。なお、各部21〜23の説明は後記するが、従来手法と比較した場合の本実施形態における主な特徴は重み推定部21であるので、重み推定部21に関して特に詳細に説明する。また、モデル構築部22と分類部23に関しては、従来手法を大きく変更せずに適用できるので、詳細な説明を省略する。
The computing means 2 is a main control device composed of, for example, a CPU (Central Processing Unit) and a RAM (Random Access Memory). As shown in FIG. 1, the
入力手段3は、例えば、キーボード、マウス、ディスクドライブ装置等から構成される。この入力手段3は、各種データを入力し、記憶手段4に格納する(詳細は後記)。 The input unit 3 includes, for example, a keyboard, a mouse, a disk drive device, and the like. The input means 3 inputs various data and stores them in the storage means 4 (details will be described later).
記憶手段4は、例えば、一般的なハードディスク装置等から構成され、演算手段2で用いられる各種プログラムや各種データ等を記憶する。この記憶手段4は、プログラムとして、重み推定プログラム41と、モデル構築プログラム42と、分類プログラム43とをプログラム格納部40aに記憶する。そして、演算手段2は、これらのプログラム41〜43を記憶手段4から読み込んでメモリ24に展開して実行することで、前記した重み推定部21、モデル構築部22、分類部23の各機能を実現する。
The storage means 4 is composed of, for example, a general hard disk device or the like, and stores various programs and various data used by the calculation means 2. The storage means 4 stores a
また、記憶手段4は、入力データ44と、重み45と、モデルパラメータ46と、テストデータ47とをデータ格納部40bに記憶する。ここで、入力データ44は、入力手段3から入力されるデータであり、学習用サンプルである。重み45は、演算手段2の重み推定部21の演算処理によって推定された重みに関するデータである(詳細は後記)。モデルパラメータ46は、演算手段2のモデル構築部22の演算処理によって算出されたデータである(詳細は後記)。テストデータ47は、テスト用サンプルである(詳細は後記)。なお、入力データ44、重み45、モデルパラメータ46およびテストデータ47に関しては、以下、符号を適宜省略する。
The storage unit 4 stores the
出力手段5は、例えば、グラフィックボード(出力インタフェース)およびそれに接続されたモニタである。このモニタは、例えば、液晶ディスプレイ等から構成され、演算処理結果(分類対象データの分類結果等)を表示する。 The output means 5 is, for example, a graphic board (output interface) and a monitor connected thereto. This monitor is composed of, for example, a liquid crystal display or the like, and displays an operation processing result (classification result of classification target data, etc.).
本実施形態では、ターゲット分類体系のデータ(既分類データ。以下、「ターゲットデータ」ともいう。)だけでなく、補助分類体系のデータ(既分類データ以下、「補助データ」ともいう。)も用いて、分類器(分類モデル)を学習する。ターゲットクラス集合をZ、補助クラス集合をA、全クラス集合をY={Z,A}とする。 In the present embodiment, not only the data of the target classification system (already classified data; hereinafter also referred to as “target data”) but also the data of the auxiliary classification system (hereinafter referred to as already classified data, also referred to as “auxiliary data”) is used. Learn the classifier (classification model). The target class set is Z, the auxiliary class set is A, and all class sets are Y = {Z, A}.
学習データとして、ターゲットデータであるDz={xn,yn}Nz n=1(本明細書において、「Nz n=1」は「n」に「1」から「Nz」までを代入することを意味する。他の文字についても同様)と、
補助データであるDa={xn,yn}N n=Nz+1とが与えられたとき、クラスが未知のサンプルx(分類対象データ。後記するテストデータ47)のクラスy∈Zを予測する分類モデルを学習する。
As the learning data, target data D z = {x n , y n } Nz n = 1 (In this specification, “ Nz n = 1 ” substitutes “1” to “N z ” for “n”. Meaning the same for other characters)
Given auxiliary data D a = {x n , y n } N n = Nz + 1 , class y∈Z of sample x (classification target data;
ここで、Webページデータの場合、サンプルは例えば単語出現頻度ベクトルxn=(xn1,・・・,xnw)で表される(xnwは第nサンプルに単語wが出現した回数を表す)。 Here, in the case of Web page data, a sample is represented by, for example, a word appearance frequency vector x n = (x n1 ,..., X nw ) (x nw represents the number of times the word w has appeared in the nth sample. ).
また、yn∈Z(if 1≦n≦Nz)、yn∈A(if Nz+1≦n≦N)であり、Webページの場合、ynは第nサンプルが分類されているカテゴリを表す。なお、yは離散値である。また、xを離散変数として扱うが、連続変数の場合へも容易に拡張可能である。 Further, y n εZ (if 1 ≦ n ≦ N z ), y n εA (if N z + 1 ≦ n ≦ N), and in the case of a Web page, y n is a category in which the nth sample is classified. Represents. Y is a discrete value. Moreover, although x is treated as a discrete variable, it can be easily extended to the case of a continuous variable.
本実施形態では、ターゲットデータに補助データ(補助分類体系のデータ)も含めた全データに関する重み付き経験誤差E(M)(式(1))を最小化することにより、モデルMを学習する。
ここで、w(z|y)はクラスy∈Yのサンプルがターゲットクラスz∈Zのモデル学習にどのくらい参考になるかをあらわす重みを表す。なお、式(1)において、太字の文字(ここではxnとZ)は、複数の成分を有していることを示し、以下の他の式についても同様である。また、文章中の文字については、いずれも太字で示していないが、各式と整合をとったものであるものとする。 Here, w (z | y) represents a weight representing how much a sample of class yεY is useful for model learning of target class zεZ. In Expression (1), bold characters (here, xn and Z) indicate that they have a plurality of components, and the same applies to the other expressions below. In addition, the characters in the text are not shown in bold but are consistent with the respective expressions.
また、J(xn,z;M)はサンプルxのクラスをzと予測したときのモデルMの誤差関数を表す。誤差関数の例として、
負の対数尤度J(x,z;M)=−logP(z|x;M)や、
0−1損失関数J(x,z;M)=0(if f(x)=y),
J(x,z;M)=1(otherwise)、などが考えられる。なお、本明細書では、対数は自然対数、すなわち、対数logの底は「e」であるものとする。
J (x n , z; M) represents an error function of the model M when the class of the sample x is predicted as z. As an example of the error function,
Negative log likelihood J (x, z; M) = − logP (z | x; M),
0-1 loss function J (x, z; M) = 0 (if f (x) = y),
J (x, z; M) = 1 (otherwise) can be considered. In this specification, the logarithm is a natural logarithm, that is, the base of the logarithm log is “e”.
重みを、以下のように決定する(動作主体については後記。以下同様)。まず、クラスyにおける経験分布を近似するモデル分布P〜(x|y)(本明細書において、経験分布を意味する記号「〜」はその直前の文字の上に付される記号であるものとする。後記する「^」についても同様)を推定する(式(2))。ここで、δ(x,xn)はクロネッカーのデルタを表し、N(y)はクラスがyであるサンプルの数を表す。
次に、モデル分布の全クラスの混合がターゲットクラスz∈Zの真の分布P(x|z)を近似するように、混合比Pz(y)を推定する(式(3))。ここで、混合比とは、ターゲット分類体系と補助分類体系とを統合した場合の確率分布モデルを、ターゲット分類体系の確率分布モデルに近似させるための、ターゲット分類体系と補助分類体系とのクラスごとの、分類モデルに対する影響度の比率を示すものである。
なお、混合比Pz(y)、および、混合比Pz(y)の集合Pは、
P={{Pz(y)}y∈Y}z∈Z(0≦Pz(y)≦1,Σy∈YPz(y)=1)を満たすものとする。
The mixing ratio P z (y), and the set P of the mixed ratio P z (y) is
P = {{P z (y)} y∈Y } z∈Z (0 ≦ P z (y) ≦ 1, Σ y∈Y P z (y) = 1).
そして、重みw(z|y)を設定(算出)する(式(4))。なお、P(z)は、あるサンプルに関してクラスzが選ばれる確率である。
このとき、重み付き誤差E(M)は期待誤差の近似となる(式(5))。
式(5)において、右辺の1行目から2行目への式変形は、nについての総和の式をxとyについての総和の式に変えたものである。右辺の2行目から3行目への式変形は、式(4)を使ったものである。右辺の3行目から4行目への式変形は、式(2)を使ったものである。右辺の4行目から5行目への式変形は、式(3)を使ったものである。右辺の5行目から6行目への式変形は、条件付確率の公式(定義)を使ったものであり、P(x,z)はxとzが同時に発生する確率を示す。 In Expression (5), the expression modification from the first line to the second line on the right side is obtained by changing the summation expression for n to the summation expression for x and y. The expression transformation from the second line to the third line on the right side uses Expression (4). Expression transformation from the third line to the fourth line on the right side uses Expression (2). Expression transformation from the fourth line to the fifth line on the right side uses Expression (3). Formula transformation from the 5th line to the 6th line on the right side uses a conditional probability formula (definition), and P (x, z) indicates the probability that x and z occur simultaneously.
右辺の6行目から7行目への式変形は、期待値の公式(定義)を使ったものであり、εz[J(x,z;M)]はターゲットクラスzに関する誤差の期待値を示す。このため、補助データも利用した重み付き誤差E(M)を最小化することにより、頑健な(高精度な)モデルが推定できると期待できる。 The expression transformation from the 6th line to the 7th line on the right side uses the expected value formula (definition), and ε z [J (x, z; M)] is the expected value of the error for the target class z. Indicates. For this reason, it can be expected that a robust (high-precision) model can be estimated by minimizing the weighted error E (M) using auxiliary data.
式(3)の近似を満たす集合Pは、ターゲットデータに対する対数尤度L(P)をEM(Expectation-Maximization)アルゴリズムを用いて最大化することにより推定する(式(6))。EMアルゴリズムとは、E(Expectation)ステップとM(Maximization)ステップとの2つの手順を収束条件が満たされるまで繰り返すことで、パラメータ(ここでは集合P)の最尤推定を行うアルゴリズムである。
ここで、P〜 −n(x|y)は、n番目のサンプルを除いたデータを用いて推定したモデル分布を表す。モデル分布の推定に用いたサンプルを用いて混合比を推定する場合、過学習を起こし、Pz(z)=1、Pz(y≠z)=0という自明な解が得られてしまうため、式(6)のように1eave-one-out(LOO)法を用いる。P〜 −n(x|y)をクラスyのデータを用いて推定し固定した場合、L(P)はPに関して上に凸であるため、解の大域的最適性が保証される。EMアルゴリズムにおける第τステップでの推定値をP(τ)とする。ここで、τは、EステップとMステップとの2つの手順を繰り返した回数(τ=0,1,2,…)を指す。なお、τ=0のときには推定値の予め定められた初期値を示す。このとき、最大化すべき完全データ対数尤度の条件付き期待値Q(P|P(τ))は、式(7)のように表すことができる。
Eステップにおける計算は式(8)のように表すことができる。なお、式(8)の右辺の分母におけるy’は、式(8)の他の箇所におけるyと区別するために便宜上記号を変えたもので、yと同じ意味である。
Mステップにおける計算は式(9)のように表すことができる。
このEステップにおける計算とMステップにおける計算を、収束条件が満たされるまで繰り返すことにより、集合Pの推定値が得られる。 By repeating the calculation at the E step and the calculation at the M step until the convergence condition is satisfied, an estimated value of the set P is obtained.
なお、EMアルゴリズムではなく、準ニュートン法など他の最適化手法を用いて式(6)を最大化することによっても、集合Pを推定できる。 Note that the set P can also be estimated by maximizing Equation (6) using another optimization method such as the quasi-Newton method instead of the EM algorithm.
<重み推定>
図2を参照しながら、重み推定部21の構成について説明する。図2は、本実施形態に係る重み推定部のブロック図を含む図である。図2に示すように、重み推定部21は、入力データ読込部211と、事後確率推定部212と、混合比推定部213と、重み書込部214とを備えている。
<Weight estimation>
The configuration of the
まず、入力データ読込部211により、入力データ44を読み込む。そして、事後確率推定部212によって式(8)を用いて全学習用サンプルの全時刻に対する事後確率を推定し、また、混合比推定部213によって式(9)を用いて混合比を推定する。この事後確率推定と混合比推定を式(6)が収束するまで交互に繰り返し、重み書込部214において、
重みをw(z|y)=P(z)Pz(y)/N(y)と設定(算出)し、重み45に格納する。なお、格納された重み45は、モデル構築部22で利用される。
First, the input
The weight is set (calculated) as w (z | y) = P (z) P z (y) / N (y) and stored in the
<モデル構築>
図3を参照しながら、モデル構築部22の構成について説明する。図3は、本実施形態に係るモデル構築部のブロック図を含む図である。図3に示すように、モデル構築部22は、入力データ読込部221と、重み読込部222と、モデルパラメータ推定部223と、モデルパラメータ書込部224とを備えている。
<Model construction>
The configuration of the
まず、入力データ読込部221により、入力データ44を読み込む。また、重み読込部222により、重み45を読み込む。そして、モデルパラメータ推定部223によって式(10)を用いてモデルパラメータM^を推定する。
なお、式(10)の左辺においてMに付した記号「^(ハット)」は、そのMがargmin関数の引数を最小化させることを示すものである。
First, the input
The symbol “記号 (hat)” attached to M on the left side of Expression (10) indicates that M minimizes the argument of the argmin function.
モデルパラメータ書込部224は、モデルパラメータ推定部223が推定したモデルパラメータをモデルパラメータ46に格納する。なお、格納されたモデルパラメータ46は、分類部23で利用される。
The model
図4を参照しながら、分類部23の構成について説明する。図4は、本実施形態に係る分類部のブロック図を含む図である。図4に示すように、分類部23は、テストデータ読込部231と、モデルパラメータ読込部232と、分類結果出力部233とを備えている。
The configuration of the
まず、テストデータ読込部231により、未分類のテストデータ47を読み込む。また、モデルパラメータ読込部232により、モデルパラメータ46を読み込む。そして、分類結果出力部233において、テストデータとモデルパラメータを使って分類結果を計算し、分類結果を出力する。
First, the test
図1に示した分類装置1の動作について図5を参照(適宜図1参照)して説明する。図5は、本実施形態に係る分類装置の処理の流れを示す説明図である。
The operation of the
まず、分類装置1は、重み推定部21によって、記憶手段4(図1参照)に予め格納された入力データ44に基づいて重みを推定する(ステップS10:重み推定ステップ)。推定された重みは、重み45として記憶手段4に格納される。次に、分類装置1は、モデル構築部22によって、記憶手段4(図1参照)に予め格納された入力データ44および重み45に基づいてモデルを構築する(ステップS20:モデル構築ステップ)。構築されたモデルは、モデルパラメータ46として記憶手段4に格納される。このステップS10とステップS20はモデルの学習に関する処理である。
First, the
続いて、分類装置1は、分類部23によって、記憶手段4(図1参照)に予め格納された未分類であるテストデータ47(分類対象データ)を、モデルパラメータ46に基づいて分類する(ステップS30:分類ステップ)。このステップS30は分類対象データの分類に関する処理である。
Subsequently, the
次に、前記したステップS10の重み推定ステップについて図6を参照(適宜図1ないし図5参照)して説明する。図6は、重み推定ステップの処理を示すフローチャートである。 Next, the weight estimation step of step S10 described above will be described with reference to FIG. 6 (refer to FIGS. 1 to 5 as appropriate). FIG. 6 is a flowchart showing the weight estimation step.
まず、図6に示すように、重み推定部21は、入力データ読込部211によって、記憶手段4(図1参照)から、入力データ44を読み込む(ステップS1)。次に、重み推定部21は、事後確率推定部212によって、モデル分布の推定を行う(ステップS2)。具体的には、前記した式(2)を満たすモデル分布を推定する。
First, as shown in FIG. 6, the
その後、重み推定部21は、事後確率推定部212によって、初期化を行う(ステップS3)。具体的には、事後確率推定部212は、EMアルゴリズムのEステップとMステップとの2つの手順の繰り返し回数τを0に設定し、混合比Pz(y)の分布をランダムに設定する。
Thereafter, the
次に、重み推定部21は、事後確率推定部212によって、EMアルゴリズムのEステップを実行する(ステップS4)。具体的には、事後確率推定部212は、前記した式(8)により、前記事後確率を推定する。続いて、重み推定部21は、混合比推定部213によって、EMアルゴリズムのMステップを実行する(ステップS5)。具体的には、混合比推定部213は、前記した式(9)により、前記混合比を推定する。次に、重み推定部21は、混合比推定部213によって、収束条件が満たされたか否かを判別する(ステップS6)。具体的には、混合比推定部213は、前記した式(6)に示す尤度L(P)が収束したか否かを判別する。この収束の判別は、閾値や変化率などを使用することにより行うことができる。
Next, the
収束条件が満たされた場合、すなわち前記した式(6)に示す尤度L(P)が収束した場合(ステップS6:Yes)、混合比推定部213は、重みw(z|y)を計算する(ステップS8)。具体的には、混合比推定部213は、
w(z|y)=P(z)Pz(y)/N(y)の式を用いて重みを計算する。そして、重み推定部21は、重み書込部214によって、その重みを、重み45として、記憶手段4(図1参照)に書き込み、処理を終了する。
When the convergence condition is satisfied, that is, when the likelihood L (P) shown in the above equation (6) has converged (step S6: Yes), the mixture
The weight is calculated using the formula w (z | y) = P (z) P z (y) / N (y). Then, the
一方、ステップS6において、収束条件が満たされていない場合、すなわち前記した式(6)に示す尤度L(P)が収束していない場合(ステップS6:No)、重み推定部21は、EステップおよびMステップの繰り返し回数τに「1」を加算し(τ=τ+1)(ステップS7)、ステップS4に戻る。
On the other hand, when the convergence condition is not satisfied in step S6, that is, when the likelihood L (P) shown in the above equation (6) is not converged (step S6: No), the
本実施形態によれば、分類装置1は、ターゲット分類体系における既分類データだけでなく、補助分類体系における既分類データも用い、誤差関数と重みとの積の総和である期待誤差(式(5)参照)を最小化させるように重みを推定し、その推定された重みと2種類の既分類データとを用いて分類モデルを生成することで、補助分類体系のデータも有効に利用し、ターゲット分類体系に関する高精度な分類モデルを生成することができる。
According to this embodiment, the
また、重み推定部21が、事後確率推定部212と、混合比推定部213とを備えているので、例えば、事後確率推定部212が、EMアルゴリズムにおけるEステップを行い、かつ、混合比推定部213がMステップを行うことで、混合比についての大域的最適解を求め、求めた混合比から重みを決定(推定)することができる。
Further, since the
また、例えば、モデルパラメータ推定部223が、式(10)を用いてモデルパラメータを推定することができる。 Further, for example, the model parameter estimation unit 223 can estimate the model parameter using Expression (10).
また、分類部23が、推定したモデルパラメータを用いて分類対象データをターゲット分類体系における複数のクラスのいずれかに分類する、つまり、高精度な分類モデルを用いることで高精度な分類を実現することができる。
Further, the
また、分類装置1は、一般的なコンピュータに、前記した各処理のプログラムを実行させることで実現することもできる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体に書き込んで配布することも可能である。
The
以上で本実施形態の説明を終えるが、本発明の態様はこれらに限定されるものではない。例えば、本発明は、任意の誤差関数およびモデルを用いることが可能である。その他、ハードウェアやフローチャート等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 Although description of this embodiment is finished above, the aspect of the present invention is not limited to these. For example, the present invention can use any error function and model. In addition, specific configurations such as hardware and flowcharts can be appropriately changed without departing from the spirit of the present invention.
《人工データにおける実施例》
本実施形態の分類装置1を評価するため、人工データを用いた2クラス分類実験を行った。この2クラス分類実験とは、ターゲットデータと補助データから生成した分類モデルに基づき、テストデータを2つのクラスのいずれかに分類する実験である。
<Examples of artificial data>
In order to evaluate the
ターゲットデータは平均の異なる2つの100次元正規分布からデータが生成されるものとする。ここで、クラスc1、c2の平均はそれぞれ
μ1=(−1,0,0,・・・,0),μ2=(1,0,0,・・・,0)であり、共分散行列はともに単位行列であるものとする。そして、補助データとして,以下の3パターンを考える。なお、第3次元以降の平均はターゲットデータと同じく全て0、共分散行列は全て単位行列とする。図7(a)にターゲットデータ,図7(b)〜(d)に各補助データの生成モデルの第1,第2次元を示す。図7(a)〜(d)は、特に軸や目盛りを図示していないが、2次元の座標平面を表しており、中央部分が原点である。また、各円は標準偏差のラインを表す。
It is assumed that target data is generated from two 100-dimensional normal distributions having different averages. Here, the averages of classes c 1 and c 2 are μ 1 = (− 1, 0, 0,..., 0) and μ 2 = (1, 0, 0,..., 0), respectively. Both covariance matrices are assumed to be unit matrices. Then, the following three patterns are considered as auxiliary data. Note that the average after the third dimension is all 0 as in the target data, and the covariance matrix is all the unit matrix. FIG. 7A shows target data, and FIGS. 7B to 7D show the first and second dimensions of each auxiliary data generation model. FIGS. 7A to 7D do not particularly show axes or scales, but represent a two-dimensional coordinate plane, and the central portion is the origin. Each circle represents a standard deviation line.
図7(b)に示す同一補助データは、ターゲットデータと同一の生成モデルから生成され、クラスc3、c4の平均はそれぞれ
μ3=(−1,0,0,・・・,0),μ4=(1,0,0,・・・,0)である。
The same auxiliary data shown in FIG. 7B is generated from the same generation model as the target data, and the averages of classes c 3 and c 4 are μ 3 = (− 1, 0, 0,..., 0), respectively. , Μ 4 = (1, 0, 0,..., 0).
図7(c)に示す相関補助データは、ターゲットデータとクラス間関係に相関がある生成モデルから生成され、クラスc3、c4の平均はそれぞれ
μ3=(−√0.5,√0.5,0,・・・,0),
μ4=(√0.5,−√0.5,0,・・・,0)である。
The correlation auxiliary data shown in FIG. 7C is generated from a generation model having a correlation between the target data and the class relationship, and the averages of the classes c 3 and c 4 are μ 3 = (− √0.5, √0, respectively. .5,0, ..., 0),
μ 4 = (√0.5, −√0.5, 0,..., 0).
図7(d)に示す混合補助データは、同一補助データ、および、ターゲットデータとクラス間関係が直交する補助データの組合せ(混合)であり、クラスc3、c4、c5、c6の平均はそれぞれ
μ3=(−1,0,0,・・・,0),μ4=(1,0,0,・・・,0),
μ5=(0,1,0,・・・,0),μ6=(0,−1,0,・・・,0)である。なお、補助データのうち、この混合補助データのみ4補助クラスであり、それ以外は2補助クラスである。
The mixed auxiliary data shown in FIG. 7D is a combination (mixed) of the same auxiliary data and auxiliary data in which the relationship between the target data and the class is orthogonal, and the class c 3 , c 4 , c 5 , c 6 The average is μ 3 = (− 1, 0, 0,..., 0), μ 4 = (1, 0, 0,..., 0),
μ 5 = (0, 1, 0,..., 0) and μ 6 = (0, −1, 0,..., 0). Of the auxiliary data, only this mixed auxiliary data is 4 auxiliary classes, and the others are 2 auxiliary classes.
ターゲットデータとして各クラス2,4,8,16,32,64,128,256サンプル(入力データ44)、補助データとして各クラス256サンプル(入力データ44)、テストデータとして各クラス100サンプル(テストデータ47)を生成した。これらに基づき、分類モデルを生成し、補助データを使わない場合(ターゲットデータのみ)と各補助データを使った場合の、テストデータの分類に関する正答率を計算した。その結果、表1のようになった。表1において、右4列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本実施形態の分類装置1の分類方法に基づいて補助データを使うことによって、補助データを使わない場合よりも正答率が向上していることがわかる。
Each
《テキストデータにおける実施例》
本実施形態の分類装置1を評価するため、テキストデータを用いて分類実験を行った。
<< Example of text data >>
In order to evaluate the
<モデル分布>
モデル分布P〜(x|y)として、正規分布、多項分布など任意の分布を仮定することができる。ここでは、入力データ44およびテストデータ47としてテキストデータを想定し、xを単語出現頻度ベクトルと考え、モデル分布として多項分布P〜(xn|y)(式(11))を用いる。
ここで、Vは総語彙数、θyjはクラスyのときj番目の単語が出現する確率、xnjはn番目のサンプルにおけるj番目の単語の出現頻度を表す。
<Model distribution>
An arbitrary distribution such as a normal distribution or a multinomial distribution can be assumed as the model distribution P ~ (x | y). Here, text data is assumed as the
Here, V is the total number of vocabularies, θ yj is the probability that the j-th word will appear in class y, and x nj represents the frequency of appearance of the j-th word in the n-th sample.
多項分布のパラメータθyjのn番目のサンプルを除いたときのLOO最尤推定値θ^−n,yjは式(12)で得られる。
ここで、ゼロ確率問題を回避するために、LOO最尤推定値と一様分布の線形和を用いてスムージングする(式(13))。
ここで、0≦α≦1はハイパーパラメータである。ハイパーパラメータを人手で設定してもよいが、一般化EMアルゴリズムを用いることにより、以下の
Q(P,α|P(τ),α(τ))を最大化するように、混合比の集合Pとハイパーパラメータαを同時にデータから推定することも可能である(式(14))。
Eステップは式(8)、Mステップにおける混合比の更新は式(9)で、通常のEMアルゴリズムと同様に実現できる。Mステップにおけるハイパーパラメータの更新はニュートン法を用いて行う(式(15))。
ここで、式(15)に記載されている式(14)のαによる一階偏微分は式(16)となる。
また、式(15)に記載されている式(14)のαによる二階偏微分は式(17)となる。
式(17)から明らかなように、二階偏微分は常に負になるため、
Q(P,α|P(τ),α(τ))はαに関して上に凸である。この実験では、一般化EMアルゴリズムを用いて混合比の集合Pおよびハイパーパラメータαをデータから推定した。
As is clear from equation (17), the second-order partial derivative is always negative,
Q (P, α | P (τ) , α (τ) ) is convex upward with respect to α. In this experiment, the set P of mixing ratios and the hyperparameter α were estimated from the data using a generalized EM algorithm.
<分類モデル>
代表的なテキスト分類モデルであるナイーブベイズモデルとロジスティック回帰モデルをモデルMとして用いた場合について説明する。
<Classification model>
A case where a naive Bayes model, which is a typical text classification model, and a logistic regression model are used as the model M will be described.
(ナイーブベイズモデル)
ナイーブベイズモデルではクラスが与えられたとき、文書中の各単語は独立に生成されると仮定され、クラスzにおける単語出現頻度ベクトルxの分布P(x|z)が多項分布で表される(式(18))。
In the naive Bayes model, when a class is given, it is assumed that each word in the document is generated independently, and the distribution P (x | z) of the word appearance frequency vector x in the class z is expressed by a multinomial distribution ( Formula (18)).
ここで、φzjはクラスzの文書におけるj番目の単語が出現する確率を表す。誤差関数として負の対数尤度を用い、また、φ={{φzj}V j=1}z∈Zの事前確率としてディリクレ分布P(φ)∝Πz∈ZΠV j=1φβ zjを用いたとき、重み付き誤差関数E(MNB)は、式(19)のように表される。
式(19)を最小化するφzjの推定値φ^zjは、式(20)によって得られる。
(ロジスティック回帰モデル)
ロジスティック回帰モデルでは、単語出現頻度ベクトルxが与えられたとき、クラスzに属する確率P(z|x)は式(21)のように表される。
In the logistic regression model, when a word appearance frequency vector x is given, the probability P (z | x) belonging to the class z is expressed as in Expression (21).
ここで、λzはクラスzに関する未知パラメータベクトル、λz Tはλzの転置を表す。誤差関数として負の対数尤度を用い、また、λzの事前確率として平均0、共分散行列γ−1I(Iは単位行列)の正規分布を用いたとき、重み付き誤差(期待誤差)E(MLR)は、式(22)のように表される。
準ニュートン法などを用いて式(22)の値を最小化することにより、未知パラメータベクトル{λz}z∈Zを推定できる。ロジスティック回帰モデルを用いた場合、各サンプルの誤差関数を付加するのみであるため、これまで提案されている多くの分類モデルを若干修正するのみで適用することができる。 The unknown parameter vector {λ z } zεZ can be estimated by minimizing the value of Equation (22) using a quasi-Newton method or the like. When a logistic regression model is used, only the error function of each sample is added, so that many classification models that have been proposed so far can be applied with slight modification.
<比較手法>
分類モデルとしてナイーブベイズモデルを用いた本手法(本実施形態の分類装置1による手法)(CA−NB)と、分類モデルとしてロジスティック回帰モデルを用いた本手法(CA−LR)と、補助データを用いないナイーブベイズモデルによる手法(NB)、ロジスティック回帰モデルによる手法(LR)の4手法を比較した。NBの推定値は、推定値である式(20)の重みを
w(z|z)=1,w(z|y≠z)=0としたものである。同様に、LRの推定値は、本手法における重み付き誤差である式(22)の重みを
w(z|z)=1,w(z|y≠z)=0として最小化することにより得られる。
<Comparison method>
This method using the naive Bayes model as a classification model (method by the
それぞれの実験において評価用データセットを100作成し、その平均正答率を用いて評価した。また、評価用データセットとは別に1つの開発用データセットを作成し、各手法において開発用データセットの正答率を最も高くする分類モデルのハイパーパラメータ(βもしくはγ)を{10−3,10−2,10−1,1}の4候補から選択した。 In each experiment, 100 evaluation data sets were created and evaluated using the average correct answer rate. Also, one development data set is created separately from the evaluation data set, and the hyperparameter (β or γ) of the classification model that maximizes the correct answer rate of the development data set in each method is set to {10 −3 , 10 -2 , 10 -1 , 1}.
<Toyデータ>
20Newsgroups(20news)から作成したデータセットを用い、各補助クラスの分布が、あるターゲットクラスと同じ分布である場合の、本手法の効果を評価する。20newsは、20のディスカッショングループに投稿された約2万の英語文書から成る。各文書の特徴量として単語出現頻度を用いた。このとき、停止語(文書に含まれる意味的な内容を持たない前置詞や冠詞などの一般的に機能語と呼ばれ検索に役立たない単語)および出現頻度が1以下の単語は省き、総語彙数は52,647であった。
<Toy data>
Using the data set created from 20Newsgroups (20news), the effect of this method is evaluated when the distribution of each auxiliary class is the same as that of a certain target class. 20news consists of about 20,000 English documents submitted to 20 discussion groups. The word appearance frequency was used as the feature value of each document. At this time, stop words (words that are generally called function words, such as prepositions and articles that have no semantic content, and are not useful for search) and words whose appearance frequency is 1 or less are omitted, and the total number of vocabularies Was 52,647.
20のグループのうち、コンピュータ(comp)を親ディレクトリにもつ5つのグループ(graphics,os.ms-windows.misc,sys.ibm.pc.hardware,sys.mac.hardware,windows.x)に分類する問題について、
ターゲットクラス集合をZ={c1,・・・,c5}、
補助クラス集合をA={c6,・・・,c10}とする。
Of the 20 groups, classify into 5 groups (graphics, os.ms-windows.misc, sys.ibm.pc.hardware, sys.mac.hardware, windows.x) that have computers (comp) in their parent directories. About the problem
The target class set is Z = {c 1 ,..., C 5 },
Let the auxiliary class set be A = {c 6 ,..., C 10 }.
そして、graphicsの記事をターゲットクラスc1もしくは補助クラスc6に、os.ms-windows.miscの記事をターゲットクラスc2もしくは補助クラスc7に、sys.ibm.pc.hardwareの記事をターゲットクラスc3もしくは補助クラスc8に、sys.mac.hardwareの記事をターゲットクラスc4もしくは補助クラスc9に、windows.xの記事をターゲットクラスc5もしくは補助クラスc10に、ランダムに割り当て、ターゲットデータおよび補助データを作成した。 Then, the article graphics to the target class c 1 or the auxiliary class c 6, the articles os.ms-windows.misc the target class c 2 or auxiliary class c 7, target class articles sys.ibm.pc.hardware to c 3 or auxiliary class c 8, articles sys.mac.hardware the target class c 4 or auxiliary class c 9, the articles windows.x the target class c 5 or auxiliary class c 10, randomly assigned, the target Data and auxiliary data were created.
このとき、テストデータとして各クラス100サンプル、ターゲットデータとして各クラス2,4,8,16,32,64,128,256サンプル、補助データとして残り全サンプル用いた。総学習サンプル数は4,363であった。このときの正答率を表2に示す。表2において、右4列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。 At this time, 100 samples of each class were used as test data, 2, 4, 8, 16, 32, 64, 128, 256 samples were used as target data, and all remaining samples were used as auxiliary data. The total number of learning samples was 4,363. The correct answer rate at this time is shown in Table 2. In Table 2, the numbers in the four right columns indicate the percentage of the average correct answer rate, and the numbers in parentheses indicate the standard deviation.
本手法であるCA−NB、CA−LRの正答率は学習サンプル数が少ない場合でも極めて高く、補助データを適切に利用することにより、頑健な(高精度な)モデル推定ができていると言える。 The correct answer rate of CA-NB and CA-LR, which are the present methods, is extremely high even when the number of learning samples is small, and it can be said that robust (high-accuracy) model estimation can be performed by appropriately using auxiliary data. .
<20Newsgroupsデータ>
20newsの20グループのうち、comp.graphics,rec.sport.baseba11,sci.electronics,talk.religion.miscの4グループをターゲットクラスとし、他の16グループを補助クラスとしてデータを作成し、本手法を評価した。テストデータ47として各クラス100サンプル、ターゲットデータ(入力データ44)として各クラス2,4,8,16,32,64,128,256サンプル、補助データ(入力データ44)として全サンプル用いた、総補助サンプル数は15,211であった。このときの正答率を表3に示す。表3において、右4列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本手法であるCA−NBの正答率が最も高くなっている。
<20Newsgroups data>
Of 20 groups of 20news, 4 groups of comp.graphics, rec.sport.baseba11, sci.electronics, talk.religion.misc are used as target classes, and the other 16 groups are used as auxiliary classes to create data. evaluated. 100 samples for each class as
<Webページデータ>
日本語のディレクトリ型検索エンジンgoo(登録商標)カテゴリ検索(2003年9月取得)とyahoo(登録商標)カテゴリ(2003年3月取得)のデータを用いて本手法を評価した。形態素解析により単語を抽出し、両カテゴリで出現数が10以上の単語を特徴量として用いた。このとき、総語彙数は43,200であった。goo(登録商標)とyahoo(登録商標)でクラスラベルが同一のクラスや、関連していると思われるクラスもあるが、明確な対応付けが難しいクラスもあり、また、クラス数も異なる(goo(登録商標):13クラス、yahoo(登録商標):14クラス)。
<Web page data>
This method was evaluated using data of a Japanese directory search engine goo (registered trademark) category search (acquired in September 2003) and yahoo (registered trademark) category (acquired in March 2003). Words were extracted by morphological analysis, and words having an appearance count of 10 or more in both categories were used as feature quantities. At this time, the total number of vocabulary was 43,200. There are classes with the same class label in goo (registered trademark) and yahoo (registered trademark), and classes that seem to be related, but there are classes that are difficult to clearly associate, and the number of classes is also different (goo (Registered trademark): 13 classes, yahoo (registered trademark): 14 classes).
goo(登録商標)ディレクトリのクラスをターゲットクラスとし、テストデータ47として各クラス100サンプル、ターゲットデータ(入力データ44)として各クラス2,4,8,16,32,64,128,256サンプル、補助データ(入力データ44)としてyahoo(登録商標)ディレクトリに含まれる全サンプル用いた。総補助サンプル数は51,728であった。このときの正答率を表4に示す。表4において、右4列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本手法であるCA−NR、CA−LRの正答率が総じて高くなっている。
The class of the goo (registered trademark) directory is the target class, 100 samples for each class as
1 分類装置
2 演算手段
3 入力手段
4 記憶手段
5 出力手段
11 バスライン
21 重み推定部
22 モデル構築部
23 分類部
24 メモリ
40a プログラム格納部
41 重み推定プログラム
42 モデル構築プログラム
43 分類プログラム
40b データ格納部
44 入力データ
45 重み
46 モデルパラメータ
47 テストデータ
211 入力データ読込部
212 事後確率推定部
213 混合比推定部
214 重み書込部
221 入力データ読込部
222 重み読込部
223 モデルパラメータ推定部
224 モデルパラメータ書込部
231 テストデータ読込部
232 モデルパラメータ読込部
233 分類結果出力部
DESCRIPTION OF
Claims (11)
情報を記憶する記憶手段と、
前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定部と、
前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築部と、
を備えることを特徴とする分類モデル生成装置。 One or more already classified data already classified in the target classification system which is a classification system for classifying the classification target data, and one already classified in the auxiliary classification system which is a classification system different from the target classification system A classification model generation device that generates a classification model for classifying the classification target data into one of a plurality of classes in the target classification system by performing learning using the above-described already classified data,
Storage means for storing information;
The error function of the classification model when it is predicted that each individual classification data in the two types of classification data described above is classified into any class of the target classification system, and the above-described 2 when the prediction is performed. The weights indicating the degree of influence on the classification model of each individual classified data in the types of already classified data, and the error function of each of the already classified data in the two types of already classified data A weight estimation unit that estimates the weight and stores the weight in the storage unit so as to minimize an expected error that is a sum of products of the value and the weight;
A model construction unit that generates the classification model using the weight stored in the storage unit and the two types of already-classified data;
A classification model generation device comprising:
前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納する事後確率推定部と、
前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する混合比推定部と、
を備えることを特徴とする請求項1に記載の分類モデル生成装置。 The weight estimation unit includes:
The classification for each class of the target classification system and the auxiliary classification system for approximating a probability distribution model when the target classification system and the auxiliary classification system are integrated to a probability distribution model of the target classification system A posterior probability estimating unit that estimates the posterior probability of the two types of already-classified data, and stores the posterior probability in the storage unit, using a mixture ratio indicating a ratio of the degree of influence on the model;
The mixture ratio when the likelihood is maximized is estimated by using the posterior probability stored in the storage means so as to maximize the likelihood for the already classified data of the target classification system. Estimating the weight from a ratio, and storing the weight in the storage means;
The classification model generation device according to claim 1, further comprising:
前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納するモデルパラメータ推定部
を備えることを特徴とする請求項1に記載の分類モデル生成装置。 The model building unit
Using the weights stored in the storage means and the two types of already classified data, estimating model parameters for classifying the classification target data in the target classification system in the classification model, The classification model generation apparatus according to claim 1, further comprising a model parameter estimation unit that stores model parameters in the storage unit.
を備えることを特徴とする分類装置。 A classification unit that classifies the classification target data into one of a plurality of classes in the target classification system using model parameters stored in the storage unit of the classification model generation device according to claim 3. Classification device.
前記分類モデル生成装置は、情報を記憶する記憶手段と、重み推定部と、モデル構築部と、を備えており、
前記重み推定部は、前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定ステップを実行し、
前記モデル構築部は、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築ステップを実行する
ことを特徴とする分類モデル生成方法。 One or more already classified data already classified in the target classification system which is a classification system for classifying the classification target data, and one already classified in the auxiliary classification system which is a classification system different from the target classification system Generation of a classification model by a classification model generation device that generates a classification model for classifying the classification target data into one of a plurality of classes in the target classification system by performing learning using the above-described already classified data A method,
The classification model generation device includes storage means for storing information, a weight estimation unit, and a model construction unit,
The weight estimation unit is configured to calculate an error function of the classification model when the individual classification data in the two types of classification data is predicted to be classified into any class of the target classification system, and the prediction. Using the respective weights indicating the degree of influence of the individual classified data in the two types of already classified data described above on the classification model, the individual previously classified data in the two types of previously classified data Performing a weight estimation step of estimating the weight and storing the weight in the storage means so as to minimize an expected error that is a sum of products of the value of the error function for each and the weight.
The model construction unit executes a model construction step of creating the classification model using the weights stored in the storage means and the two types of already-classified data described above. Method.
前記重み推定ステップにおいて、
前記事後確率推定部は、前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納し、
前記混合比推定部は、前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する
ことを特徴とする請求項5に記載の分類モデル生成方法。 The weight estimation unit includes a posterior probability estimation unit and a mixture ratio estimation unit,
In the weight estimation step,
The posterior probability estimation unit is configured to approximate the probability distribution model obtained by integrating the target classification system and the auxiliary classification system to the probability distribution model of the target classification system, and the auxiliary classification system. Using a mixture ratio indicating the ratio of the degree of influence on the classification model for each class with the system, estimating the posterior probability for the two types of already-classified data, and storing the posterior probability in the storage means;
The mixture ratio estimation unit estimates the mixture ratio using the posterior probability stored in the storage unit so as to maximize the likelihood for the already classified data of the target classification system, and the likelihood is maximized. The classification model generation method according to claim 5, wherein the weight is estimated from the mixture ratio at the time of conversion into the storage unit, and the weight is stored in the storage unit.
前記モデル構築ステップにおいて、
前記モデルパラメータ推定部は、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納する
ことを特徴とする請求項5に記載の分類モデル生成方法。 The model construction unit includes a model parameter estimation unit,
In the model building step,
The model parameter estimation unit is a model for classifying the classification target data into the target classification system in the classification model using the weight stored in the storage means and the two types of already classified data. The classification model generation method according to claim 5, wherein a parameter is estimated and the model parameter is stored in the storage unit.
前記分類対象データを分類する分類装置における分類部は、
前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するステップを実行する
ことを特徴とする分類方法。 Using the model parameters stored in the storage means by the classification model generation method according to claim 7,
The classification unit in the classification device for classifying the classification target data,
Classifying the classification target data into any one of a plurality of classes in the target classification system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008161237A JP5164209B2 (en) | 2008-06-20 | 2008-06-20 | Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008161237A JP5164209B2 (en) | 2008-06-20 | 2008-06-20 | Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010003106A true JP2010003106A (en) | 2010-01-07 |
JP5164209B2 JP5164209B2 (en) | 2013-03-21 |
Family
ID=41584774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008161237A Expired - Fee Related JP5164209B2 (en) | 2008-06-20 | 2008-06-20 | Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5164209B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011244340A (en) * | 2010-05-20 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | Program recommendation apparatus, method, and program |
JP2012093976A (en) * | 2010-10-27 | 2012-05-17 | Internatl Business Mach Corp <Ibm> | Clustering system, method and program |
CN102945280A (en) * | 2012-11-15 | 2013-02-27 | 翟云 | Unbalanced data distribution-based multi-heterogeneous base classifier fusion classification method |
WO2015079592A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Document classification method |
CN106055705A (en) * | 2016-06-21 | 2016-10-26 | 广东工业大学 | Web page classification method for multi-task and multi-example learning based on maximum distance |
CN111091147A (en) * | 2019-12-10 | 2020-05-01 | 东软集团股份有限公司 | Image classification method, device and equipment |
CN111797942A (en) * | 2020-07-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | User information classification method and device, computer equipment and storage medium |
KR20210082004A (en) * | 2019-12-24 | 2021-07-02 | 서울대학교산학협력단 | Privacy preserving method based on neural network and data processing apparatus |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320677A (en) * | 2014-07-10 | 2016-02-10 | 香港中文大学深圳研究院 | Method and device for training streamed unbalance data |
RU2752673C1 (en) * | 2021-01-12 | 2021-07-29 | Акционерное общество "Федеральный научно-производственный центр" Титан-Баррикады" | Linear actuator |
RU2752672C1 (en) * | 2021-01-12 | 2021-07-29 | Акционерное общество "Федеральный научно-производственный центр" Титан-Баррикады" | Linear actuator of hydraulic structures |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004084096A1 (en) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | Case classification apparatus and method |
JP2006004103A (en) * | 2004-06-16 | 2006-01-05 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus and program for matching structure between document classification systems and recording medium recording the program |
JP2006302269A (en) * | 2006-03-27 | 2006-11-02 | Fujitsu Ltd | Vocabulary tortuous resolving program, vocabulary tortuous resolving method, and vocabulary tortuous resolving system |
JP2006338263A (en) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | Content classification method, content classification device, content classification program and recording medium recording content classification program |
-
2008
- 2008-06-20 JP JP2008161237A patent/JP5164209B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004084096A1 (en) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | Case classification apparatus and method |
JP2006004103A (en) * | 2004-06-16 | 2006-01-05 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus and program for matching structure between document classification systems and recording medium recording the program |
JP2006338263A (en) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | Content classification method, content classification device, content classification program and recording medium recording content classification program |
JP2006302269A (en) * | 2006-03-27 | 2006-11-02 | Fujitsu Ltd | Vocabulary tortuous resolving program, vocabulary tortuous resolving method, and vocabulary tortuous resolving system |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011244340A (en) * | 2010-05-20 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | Program recommendation apparatus, method, and program |
JP2012093976A (en) * | 2010-10-27 | 2012-05-17 | Internatl Business Mach Corp <Ibm> | Clustering system, method and program |
US8805841B2 (en) | 2010-10-27 | 2014-08-12 | International Business Machines Corporation | Clustering system, method and program |
CN102945280A (en) * | 2012-11-15 | 2013-02-27 | 翟云 | Unbalanced data distribution-based multi-heterogeneous base classifier fusion classification method |
WO2015079592A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Document classification method |
CN106055705A (en) * | 2016-06-21 | 2016-10-26 | 广东工业大学 | Web page classification method for multi-task and multi-example learning based on maximum distance |
CN106055705B (en) * | 2016-06-21 | 2019-07-05 | 广东工业大学 | Web page classification method based on maximum spacing multitask multi-instance learning |
CN111091147A (en) * | 2019-12-10 | 2020-05-01 | 东软集团股份有限公司 | Image classification method, device and equipment |
KR20210082004A (en) * | 2019-12-24 | 2021-07-02 | 서울대학교산학협력단 | Privacy preserving method based on neural network and data processing apparatus |
KR102297548B1 (en) * | 2019-12-24 | 2021-09-02 | 서울대학교산학협력단 | Privacy preserving method based on neural network and data processing apparatus |
CN111797942A (en) * | 2020-07-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | User information classification method and device, computer equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5164209B2 (en) | 2013-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5164209B2 (en) | Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program, and recording medium | |
Giraud | Introduction to high-dimensional statistics | |
US11361569B2 (en) | Hierarchical neural networks with granularized attention | |
Tsuboi et al. | Direct density ratio estimation for large-scale covariate shift adaptation | |
WO2019212006A1 (en) | Phenomenon prediction device, prediction model generation device, and phenomenon prediction program | |
US10528889B2 (en) | Stereoscopic learning for classification | |
JP7293729B2 (en) | LEARNING DEVICE, INFORMATION OUTPUT DEVICE, AND PROGRAM | |
WO2014073206A1 (en) | Information-processing device and information-processing method | |
Yousefnezhad et al. | A new selection strategy for selective cluster ensemble based on diversity and independency | |
Finch et al. | Classification accuracy of neural networks vs. discriminant analysis, logistic regression, and classification and regression trees | |
Ji et al. | scAnnotate: an automated cell-type annotation tool for single-cell RNA-sequencing data | |
JP5210224B2 (en) | Annotation data analysis device, annotation data analysis program, and recording medium recording the program | |
Boettcher et al. | ELSA: An efficient, adaptive ensemble learning-based sampling approach | |
JP5110950B2 (en) | Multi-topic classification apparatus, multi-topic classification method, and multi-topic classification program | |
Zararsiz et al. | Classification of RNA-Seq data via bagging support vector machines | |
CN114118526A (en) | Enterprise risk prediction method, device, equipment and storage medium | |
Pokhrel | A comparison of AutoML hyperparameter optimization tools for tabular data | |
Jones et al. | Network model trees | |
Ferdaus et al. | A genetic algorithm approach using improved fitness function for classification rule mining | |
Fruergaard et al. | Dimensionality reduction for click-through rate prediction: Dense versus sparse representation | |
Olivella et al. | Machine learning in political science: Supervised learning models | |
US20230143721A1 (en) | Teaching a machine classifier to recognize a new class | |
Alade et al. | Sentiment analysis of nigerian students’ tweets on education: a data mining approach’ | |
WO2022074711A1 (en) | Learning method, estimation method, learning device, estimation device, and program | |
Tong et al. | Impact of likelihoods on class enumeration in bayesian growth mixture modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110527 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110902 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121214 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5164209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |