JP2010003106A - Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program and recording medium - Google Patents

Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program and recording medium Download PDF

Info

Publication number
JP2010003106A
JP2010003106A JP2008161237A JP2008161237A JP2010003106A JP 2010003106 A JP2010003106 A JP 2010003106A JP 2008161237 A JP2008161237 A JP 2008161237A JP 2008161237 A JP2008161237 A JP 2008161237A JP 2010003106 A JP2010003106 A JP 2010003106A
Authority
JP
Japan
Prior art keywords
classification
model
data
target
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008161237A
Other languages
Japanese (ja)
Other versions
JP5164209B2 (en
Inventor
Tomoharu Iwata
具治 岩田
Toshiyuki Tanaka
利幸 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
Nippon Telegraph and Telephone Corp
Original Assignee
Kyoto University
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University, Nippon Telegraph and Telephone Corp filed Critical Kyoto University
Priority to JP2008161237A priority Critical patent/JP5164209B2/en
Publication of JP2010003106A publication Critical patent/JP2010003106A/en
Application granted granted Critical
Publication of JP5164209B2 publication Critical patent/JP5164209B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To generate a high-accuracy classification model related to a target classification system by efficiently using not only data on the target classification system but also data on an auxiliary classification system. <P>SOLUTION: This classification device 1 uses not only already classified data in the target classification system but also already classified data in the auxiliary classification system, estimates weight so as to minimize expected error as total of a product of an error function and the weight, generates the classification model by use of the estimated weight and two kinds of already classified data to effectively use not only the data of the target classification system but also the data of the auxiliary classification system, and can generate the high-accuracy classification model related to the target classification system. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、分類対象データを分類する分類体系(以下、「ターゲット分類体系」という。)のデータだけでなく、別の分類体系(以下、「補助分類体系」という。)のデータも用いて、分類モデルを学習し、また、その学習した分類モデルを用いて分類対象データをターゲット分類体系において分類する技術に関する。   The present invention uses not only data of a classification system (hereinafter referred to as “target classification system”) for classifying classification target data but also data of another classification system (hereinafter referred to as “auxiliary classification system”). The present invention relates to a technique for learning a classification model and classifying classification target data in a target classification system using the learned classification model.

学習データ(学習用のデータ)の数が少ない場合、一般に、分類モデルの性能は低くなる。そこで、補助分類体系におけるクラスのラベル(以下、「クラスラベル」または単に「ラベル」という。)が付与されたデータを用いることにより、分類モデルの性能を向上させることができれば好ましい。その場合、例えば、あるWebページを、あるターゲット分類体系のクラス(以下、「ターゲットクラス」ともいう。)に分類したいとする。そして、ディレクトリ型検索エンジンやソーシャルブックマークサイトにおける多数のユーザによって、ターゲット分類体系とは異なる補助分類体系に、多くのWebページがすでに分類されており、そのような情報を活用できれば望ましい。   When the number of learning data (learning data) is small, generally the performance of the classification model is low. Therefore, it is preferable that the performance of the classification model can be improved by using data with a class label (hereinafter referred to as “class label” or simply “label”) in the auxiliary classification system. In this case, for example, it is assumed that a certain Web page is classified into a class of a certain target classification system (hereinafter also referred to as “target class”). It is desirable if many web pages have already been classified into an auxiliary classification system different from the target classification system by a large number of users in a directory search engine or a social bookmark site, and such information can be utilized.

また、例えば、オンラインショッピングなどの商品について購買順序を考慮した予測(分類)に関する技術が知られている(非特許文献1参照)。
岩田具治、山田武士、上田修功、“購買順序を考慮した協調フィルタリング”、人工知能と知識処理研究会、AI2007-3,13-18,2007
In addition, for example, a technique related to prediction (classification) in consideration of a purchase order for products such as online shopping is known (see Non-Patent Document 1).
Tomoharu Iwata, Takeshi Yamada, Nobuo Ueda, “Collaborative Filtering Considering Purchase Order”, Artificial Intelligence and Knowledge Processing Study Group, AI2007-3,13-18,2007

しかし、補助分類体系とターゲット分類体系とでは、一般にクラスラベルが異なり、また、同じラベルがあったとしても意味が異なる可能性もある。そのため、従来の教師あり学習の技術(非特許文献1など)を用いて、補助分類体系のクラス(以下、「補助クラス」ともいう。)のデータを利用することはできないという問題がある。   However, the class label is generally different between the auxiliary classification system and the target classification system, and even if the same label exists, the meaning may be different. Therefore, there is a problem that data of a class of an auxiliary classification system (hereinafter also referred to as “auxiliary class”) cannot be used by using a conventional supervised learning technique (Non-Patent Document 1 or the like).

そこで、本発明は、前記問題に鑑みてなされたものであり、補助分類体系のデータを有効に利用することで、ターゲット分類体系に関する高精度な分類モデルを生成することを課題とする。また、その生成した分類モデルを用いて、分類対象データをターゲット分類体系において高精度に分類することを、他の課題とする。   Therefore, the present invention has been made in view of the above problems, and an object thereof is to generate a highly accurate classification model related to a target classification system by effectively using data of an auxiliary classification system. Another object is to use the generated classification model to classify the classification target data with high accuracy in the target classification system.

前記課題を解決するために、本発明は、分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている1つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている1つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置であって、情報を記憶する記憶手段と、前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定部と、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築部と、を備えることを特徴とする。   In order to solve the above problems, the present invention provides one or more already classified data already classified in a target classification system that is a classification system for classifying classification target data, and a classification system different from the target classification system. Classification for classifying the data to be classified into one of a plurality of classes in the target classification system by performing learning using one or more already classified data already classified in a certain auxiliary classification system A classification model generation device for generating a model, wherein storage means for storing information and prediction that each individual classification data in the two types of classification data described above is classified into one of the classes of the target classification system Error function of the classification model at the time of the prediction, and each individual fraction in the two types of previously classified data at the time of the prediction Each weight indicating the degree of influence of the data on the classification model, and the sum of products of the error function value and the weight for each of the already classified data in the two types of previously classified data. In order to minimize the expected error, the weight is estimated, the weight estimation unit that stores the weight in the storage unit, the weight stored in the storage unit, and the two types of already classified data described above, And a model construction unit for generating the classification model.

かかる発明によれば、ターゲット分類体系における既分類データだけでなく、補助分類体系における既分類データも用い、誤差関数と重みとの積の総和である期待誤差を最小化させるように重みを推定し、その推定された重みと2種類の既分類データとを用いて分類モデルを生成することで、補助分類体系のデータも有効に利用し、ターゲット分類体系に関する高精度な分類モデルを生成することができる。   According to this invention, not only the already classified data in the target classification system but also the already classified data in the auxiliary classification system is used, and the weight is estimated so as to minimize the expected error that is the sum of the products of the error function and the weight. By generating a classification model using the estimated weight and two types of already-classified data, it is possible to effectively use the data of the auxiliary classification system and generate a highly accurate classification model for the target classification system. it can.

また、本発明は、前記重み推定部が、前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納する事後確率推定部と、前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する混合比推定部と、を備えることを特徴とする。   Further, the present invention provides the target classification system for approximating a probability distribution model when the weight estimation unit integrates the target classification system and the auxiliary classification system to a probability distribution model of the target classification system. And the auxiliary classification system are used to estimate the posterior probabilities related to the two types of already classified data using a mixing ratio indicating the ratio of the degree of influence on the classification model for each class, and the storage means stores the posterior probabilities The mixture ratio is estimated using the posterior probability estimation unit stored in the storage means and the posterior probability stored in the storage means so as to maximize the likelihood for the already classified data of the target classification system, and the likelihood And a mixture ratio estimation unit that estimates the weight from the mixture ratio when the value is maximized and stores the weight in the storage means.

かかる発明によれば、重み推定部が、事後確率推定部と、混合比推定部とを備えているので、例えば、事後確率推定部が、EM(Expectation-Maximization)アルゴリズムにおけるE(Expectation)ステップを行い、かつ、混合比推定部がM(Maximization)ステップを行うことで、混合比についての大域的最適解を求め、求めた混合比から重みを決定(推定)することができる。   According to this invention, since the weight estimation unit includes the posterior probability estimation unit and the mixture ratio estimation unit, for example, the posterior probability estimation unit performs the E (Expectation) step in the EM (Expectation-Maximization) algorithm. And the mixture ratio estimation unit performs the M (Maximization) step, thereby obtaining a global optimum solution for the mixture ratio and determining (estimating) the weight from the obtained mixture ratio.

また、本発明は、前記モデル構築部が、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納するモデルパラメータ推定部を備えることを特徴とする。   Further, according to the present invention, the model construction unit uses the weight stored in the storage unit and the two types of already classified data, and the classification target data in the classification model is included in the target classification system. A model parameter estimating unit for estimating model parameters for classification and storing the model parameters in the storage unit is provided.

かかる発明によれば、モデルパラメータ推定部が、例えば、後記する式(10)を用いてモデルパラメータを推定することができる。   According to this invention, a model parameter estimation part can estimate a model parameter using the formula (10) described later, for example.

また、本発明は、分類装置が、分類モデル生成装置の前記記憶手段に格納されたモデルパラメータを用いて、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類する分類部を備えることを特徴とする。   Further, according to the present invention, there is provided a classification unit that classifies the classification target data into any one of a plurality of classes in the target classification system using a model parameter stored in the storage unit of the classification model generation device. It is characterized by providing.

かかる発明によれば、分類部が、推定したモデルパラメータを用いて分類対象データをターゲット分類体系における複数のクラスのいずれかに分類する、つまり、高精度な分類モデルを用いることで高精度な分類を実現することができる。   According to this invention, the classification unit classifies the classification target data into any one of a plurality of classes in the target classification system using the estimated model parameter, that is, a high-precision classification using a high-precision classification model. Can be realized.

また、本発明は、コンピュータを、分類モデル生成装置または分類装置の各部として機能させるためのプログラムである。これにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。   In addition, the present invention is a program for causing a computer to function as each unit of the classification model generation device or the classification device. Thereby, the computer installed with this program can realize each function based on this program.

また、本発明は、前記プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体である。これにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。   The present invention also provides a computer-readable recording medium in which the program is recorded. Thereby, the computer equipped with this recording medium can realize each function based on the program recorded on this recording medium.

本発明によれば、補助分類体系のデータも有効に利用することで、ターゲット分類体系に関する高精度な分類モデルを生成することができる。また、その生成した分類モデルを用いて、分類対象データをターゲット分類体系において高精度に分類することができる。   According to the present invention, it is possible to generate a highly accurate classification model related to the target classification system by effectively using the data of the auxiliary classification system. Further, using the generated classification model, the classification target data can be classified with high accuracy in the target classification system.

以下、本発明を実施するための最良の形態(以下、「実施形態」という。)について、詳細に説明する。図1は、本実施形態に係る分類装置の構成を示すブロック図である。図1に示すように、分類装置1は、演算手段2と、入力手段3と、記憶手段4と、出力手段5とを備えている。各手段2〜5はバスライン11に接続されている。なお、分類装置1は、分類モデル(以下、単に「モデル」ともいう。)を生成する分類モデル生成装置としての機能と、その生成した分類モデルによって分類対象データを分類する分類装置としての機能とを兼ね備えるものであるが、いずれか一方の機能のみを有するものとして実現されてもよい。   Hereinafter, the best mode for carrying out the present invention (hereinafter referred to as “embodiment”) will be described in detail. FIG. 1 is a block diagram showing the configuration of the classification apparatus according to this embodiment. As shown in FIG. 1, the classification device 1 includes a calculation unit 2, an input unit 3, a storage unit 4, and an output unit 5. Each means 2 to 5 is connected to the bus line 11. The classification device 1 has a function as a classification model generation device that generates a classification model (hereinafter, also simply referred to as “model”), and a function as a classification device that classifies the classification target data using the generated classification model. However, it may be realized as having only one of the functions.

演算手段2は、例えば、CPU(Central Processing Unit)およびRAM(Random Access Memory)から構成される主制御装置である。この演算手段2は、図1に示すように、重み推定部21と、モデル構築部22と、分類部23と、メモリ24とを含んで構成される。なお、各部21〜23の説明は後記するが、従来手法と比較した場合の本実施形態における主な特徴は重み推定部21であるので、重み推定部21に関して特に詳細に説明する。また、モデル構築部22と分類部23に関しては、従来手法を大きく変更せずに適用できるので、詳細な説明を省略する。   The computing means 2 is a main control device composed of, for example, a CPU (Central Processing Unit) and a RAM (Random Access Memory). As shown in FIG. 1, the calculation unit 2 includes a weight estimation unit 21, a model construction unit 22, a classification unit 23, and a memory 24. In addition, although description of each part 21-23 is mentioned later, since the main characteristic in this embodiment at the time of comparing with the conventional method is the weight estimation part 21, it demonstrates in detail regarding the weight estimation part 21 in particular. Further, the model construction unit 22 and the classification unit 23 can be applied without greatly changing the conventional method, and thus detailed description thereof is omitted.

入力手段3は、例えば、キーボード、マウス、ディスクドライブ装置等から構成される。この入力手段3は、各種データを入力し、記憶手段4に格納する(詳細は後記)。   The input unit 3 includes, for example, a keyboard, a mouse, a disk drive device, and the like. The input means 3 inputs various data and stores them in the storage means 4 (details will be described later).

記憶手段4は、例えば、一般的なハードディスク装置等から構成され、演算手段2で用いられる各種プログラムや各種データ等を記憶する。この記憶手段4は、プログラムとして、重み推定プログラム41と、モデル構築プログラム42と、分類プログラム43とをプログラム格納部40aに記憶する。そして、演算手段2は、これらのプログラム41〜43を記憶手段4から読み込んでメモリ24に展開して実行することで、前記した重み推定部21、モデル構築部22、分類部23の各機能を実現する。   The storage means 4 is composed of, for example, a general hard disk device or the like, and stores various programs and various data used by the calculation means 2. The storage means 4 stores a weight estimation program 41, a model construction program 42, and a classification program 43 as programs in the program storage unit 40a. And the calculating means 2 reads these programs 41-43 from the memory | storage means 4, expand | deploys to the memory 24, and performs them, and each function of the above-mentioned weight estimation part 21, the model construction part 22, and the classification | category part 23 is carried out. Realize.

また、記憶手段4は、入力データ44と、重み45と、モデルパラメータ46と、テストデータ47とをデータ格納部40bに記憶する。ここで、入力データ44は、入力手段3から入力されるデータであり、学習用サンプルである。重み45は、演算手段2の重み推定部21の演算処理によって推定された重みに関するデータである(詳細は後記)。モデルパラメータ46は、演算手段2のモデル構築部22の演算処理によって算出されたデータである(詳細は後記)。テストデータ47は、テスト用サンプルである(詳細は後記)。なお、入力データ44、重み45、モデルパラメータ46およびテストデータ47に関しては、以下、符号を適宜省略する。   The storage unit 4 stores the input data 44, the weight 45, the model parameter 46, and the test data 47 in the data storage unit 40b. Here, the input data 44 is data input from the input means 3 and is a learning sample. The weight 45 is data relating to the weight estimated by the calculation processing of the weight estimation unit 21 of the calculation means 2 (details will be described later). The model parameter 46 is data calculated by the calculation process of the model construction unit 22 of the calculation unit 2 (details will be described later). The test data 47 is a test sample (details will be described later). The input data 44, the weight 45, the model parameter 46, and the test data 47 are appropriately omitted below.

出力手段5は、例えば、グラフィックボード(出力インタフェース)およびそれに接続されたモニタである。このモニタは、例えば、液晶ディスプレイ等から構成され、演算処理結果(分類対象データの分類結果等)を表示する。   The output means 5 is, for example, a graphic board (output interface) and a monitor connected thereto. This monitor is composed of, for example, a liquid crystal display or the like, and displays an operation processing result (classification result of classification target data, etc.).

本実施形態では、ターゲット分類体系のデータ(既分類データ。以下、「ターゲットデータ」ともいう。)だけでなく、補助分類体系のデータ(既分類データ以下、「補助データ」ともいう。)も用いて、分類器(分類モデル)を学習する。ターゲットクラス集合をZ、補助クラス集合をA、全クラス集合をY={Z,A}とする。   In the present embodiment, not only the data of the target classification system (already classified data; hereinafter also referred to as “target data”) but also the data of the auxiliary classification system (hereinafter referred to as already classified data, also referred to as “auxiliary data”) is used. Learn the classifier (classification model). The target class set is Z, the auxiliary class set is A, and all class sets are Y = {Z, A}.

学習データとして、ターゲットデータであるD={x,yNz n=1(本明細書において、「Nz n=1」は「n」に「1」から「N」までを代入することを意味する。他の文字についても同様)と、
補助データであるD={x,y n=Nz+1とが与えられたとき、クラスが未知のサンプルx(分類対象データ。後記するテストデータ47)のクラスy∈Zを予測する分類モデルを学習する。
As the learning data, target data D z = {x n , y n } Nz n = 1 (In this specification, “ Nz n = 1 ” substitutes “1” to “N z ” for “n”. Meaning the same for other characters)
Given auxiliary data D a = {x n , y n } N n = Nz + 1 , class y∈Z of sample x (classification target data; test data 47 described later) whose class is unknown is predicted. Learn classification models.

ここで、Webページデータの場合、サンプルは例えば単語出現頻度ベクトルx=(xn1,・・・,xnw)で表される(xnwは第nサンプルに単語wが出現した回数を表す)。 Here, in the case of Web page data, a sample is represented by, for example, a word appearance frequency vector x n = (x n1 ,..., X nw ) (x nw represents the number of times the word w has appeared in the nth sample. ).

また、y∈Z(if 1≦n≦N)、y∈A(if N+1≦n≦N)であり、Webページの場合、yは第nサンプルが分類されているカテゴリを表す。なお、yは離散値である。また、xを離散変数として扱うが、連続変数の場合へも容易に拡張可能である。 Further, y n εZ (if 1 ≦ n ≦ N z ), y n εA (if N z + 1 ≦ n ≦ N), and in the case of a Web page, y n is a category in which the nth sample is classified. Represents. Y is a discrete value. Moreover, although x is treated as a discrete variable, it can be easily extended to the case of a continuous variable.

本実施形態では、ターゲットデータに補助データ(補助分類体系のデータ)も含めた全データに関する重み付き経験誤差E(M)(式(1))を最小化することにより、モデルMを学習する。

Figure 2010003106
In the present embodiment, the model M is learned by minimizing the weighted experience error E (M) (equation (1)) for all data including auxiliary data (data of the auxiliary classification system) in the target data.
Figure 2010003106

ここで、w(z|y)はクラスy∈Yのサンプルがターゲットクラスz∈Zのモデル学習にどのくらい参考になるかをあらわす重みを表す。なお、式(1)において、太字の文字(ここではxとZ)は、複数の成分を有していることを示し、以下の他の式についても同様である。また、文章中の文字については、いずれも太字で示していないが、各式と整合をとったものであるものとする。 Here, w (z | y) represents a weight representing how much a sample of class yεY is useful for model learning of target class zεZ. In Expression (1), bold characters (here, xn and Z) indicate that they have a plurality of components, and the same applies to the other expressions below. In addition, the characters in the text are not shown in bold but are consistent with the respective expressions.

また、J(x,z;M)はサンプルxのクラスをzと予測したときのモデルMの誤差関数を表す。誤差関数の例として、
負の対数尤度J(x,z;M)=−logP(z|x;M)や、
0−1損失関数J(x,z;M)=0(if f(x)=y),
J(x,z;M)=1(otherwise)、などが考えられる。なお、本明細書では、対数は自然対数、すなわち、対数logの底は「e」であるものとする。
J (x n , z; M) represents an error function of the model M when the class of the sample x is predicted as z. As an example of the error function,
Negative log likelihood J (x, z; M) = − logP (z | x; M),
0-1 loss function J (x, z; M) = 0 (if f (x) = y),
J (x, z; M) = 1 (otherwise) can be considered. In this specification, the logarithm is a natural logarithm, that is, the base of the logarithm log is “e”.

重みを、以下のように決定する(動作主体については後記。以下同様)。まず、クラスyにおける経験分布を近似するモデル分布P(x|y)(本明細書において、経験分布を意味する記号「」はその直前の文字の上に付される記号であるものとする。後記する「^」についても同様)を推定する(式(2))。ここで、δ(x,xn)はクロネッカーのデルタを表し、N(y)はクラスがyであるサンプルの数を表す。

Figure 2010003106
The weight is determined as follows (the action subject will be described later, and so on). First, a model distribution P ~ (x | y) approximating an empirical distribution in class y (in this specification, a symbol " ~ " meaning an empirical distribution is a symbol added on the immediately preceding letter. The same applies to “^” described later (formula (2)). Where δ (x, x n ) represents the Kronecker delta and N (y) represents the number of samples with class y.
Figure 2010003106

次に、モデル分布の全クラスの混合がターゲットクラスz∈Zの真の分布P(x|z)を近似するように、混合比P(y)を推定する(式(3))。ここで、混合比とは、ターゲット分類体系と補助分類体系とを統合した場合の確率分布モデルを、ターゲット分類体系の確率分布モデルに近似させるための、ターゲット分類体系と補助分類体系とのクラスごとの、分類モデルに対する影響度の比率を示すものである。

Figure 2010003106
Next, the mixture ratio P z (y) is estimated so that the mixture of all classes of the model distribution approximates the true distribution P (x | z) of the target class z∈Z (formula (3)). Here, the mixture ratio is the class of the target classification system and the auxiliary classification system for approximating the probability distribution model when the target classification system and the auxiliary classification system are integrated to the probability distribution model of the target classification system. The ratio of the degree of influence on the classification model is shown.
Figure 2010003106

なお、混合比P(y)、および、混合比P(y)の集合Pは、
P={{P(y)}y∈Yz∈Z(0≦P(y)≦1,Σy∈Y(y)=1)を満たすものとする。
The mixing ratio P z (y), and the set P of the mixed ratio P z (y) is
P = {{P z (y)} y∈Y } z∈Z (0 ≦ P z (y) ≦ 1, Σ y∈Y P z (y) = 1).

そして、重みw(z|y)を設定(算出)する(式(4))。なお、P(z)は、あるサンプルに関してクラスzが選ばれる確率である。

Figure 2010003106
Then, the weight w (z | y) is set (calculated) (formula (4)). Note that P (z) is a probability that a class z is selected for a certain sample.
Figure 2010003106

このとき、重み付き誤差E(M)は期待誤差の近似となる(式(5))。

Figure 2010003106
At this time, the weighted error E (M) is an approximation of the expected error (formula (5)).
Figure 2010003106

式(5)において、右辺の1行目から2行目への式変形は、nについての総和の式をxとyについての総和の式に変えたものである。右辺の2行目から3行目への式変形は、式(4)を使ったものである。右辺の3行目から4行目への式変形は、式(2)を使ったものである。右辺の4行目から5行目への式変形は、式(3)を使ったものである。右辺の5行目から6行目への式変形は、条件付確率の公式(定義)を使ったものであり、P(x,z)はxとzが同時に発生する確率を示す。   In Expression (5), the expression modification from the first line to the second line on the right side is obtained by changing the summation expression for n to the summation expression for x and y. The expression transformation from the second line to the third line on the right side uses Expression (4). Expression transformation from the third line to the fourth line on the right side uses Expression (2). Expression transformation from the fourth line to the fifth line on the right side uses Expression (3). Formula transformation from the 5th line to the 6th line on the right side uses a conditional probability formula (definition), and P (x, z) indicates the probability that x and z occur simultaneously.

右辺の6行目から7行目への式変形は、期待値の公式(定義)を使ったものであり、ε[J(x,z;M)]はターゲットクラスzに関する誤差の期待値を示す。このため、補助データも利用した重み付き誤差E(M)を最小化することにより、頑健な(高精度な)モデルが推定できると期待できる。 The expression transformation from the 6th line to the 7th line on the right side uses the expected value formula (definition), and ε z [J (x, z; M)] is the expected value of the error for the target class z. Indicates. For this reason, it can be expected that a robust (high-precision) model can be estimated by minimizing the weighted error E (M) using auxiliary data.

式(3)の近似を満たす集合Pは、ターゲットデータに対する対数尤度L(P)をEM(Expectation-Maximization)アルゴリズムを用いて最大化することにより推定する(式(6))。EMアルゴリズムとは、E(Expectation)ステップとM(Maximization)ステップとの2つの手順を収束条件が満たされるまで繰り返すことで、パラメータ(ここでは集合P)の最尤推定を行うアルゴリズムである。

Figure 2010003106
The set P satisfying the approximation of Expression (3) is estimated by maximizing the log likelihood L (P) for the target data using an EM (Expectation-Maximization) algorithm (Expression (6)). The EM algorithm is an algorithm that performs maximum likelihood estimation of parameters (here, set P) by repeating two procedures of an E (Expectation) step and an M (Maximization) step until a convergence condition is satisfied.
Figure 2010003106

ここで、P −n(x|y)は、n番目のサンプルを除いたデータを用いて推定したモデル分布を表す。モデル分布の推定に用いたサンプルを用いて混合比を推定する場合、過学習を起こし、P(z)=1、P(y≠z)=0という自明な解が得られてしまうため、式(6)のように1eave-one-out(LOO)法を用いる。P −n(x|y)をクラスyのデータを用いて推定し固定した場合、L(P)はPに関して上に凸であるため、解の大域的最適性が保証される。EMアルゴリズムにおける第τステップでの推定値をP(τ)とする。ここで、τは、EステップとMステップとの2つの手順を繰り返した回数(τ=0,1,2,…)を指す。なお、τ=0のときには推定値の予め定められた初期値を示す。このとき、最大化すべき完全データ対数尤度の条件付き期待値Q(P|P(τ))は、式(7)のように表すことができる。

Figure 2010003106
Here, P ~ -n (x | y) represents a model distribution estimated using data excluding the nth sample. When the mixture ratio is estimated using the samples used for estimation of the model distribution, overlearning occurs, and an obvious solution of P z (z) = 1 and P z (y ≠ z) = 0 is obtained. The 1eave-one-out (LOO) method is used as shown in Equation (6). When P ~ -n (x | y) is estimated and fixed using data of class y, since L (P) is convex upward with respect to P, the global optimality of the solution is guaranteed. Let P (τ) be the estimated value at the τ-th step in the EM algorithm. Here, τ indicates the number of times (τ = 0, 1, 2,...) That the two procedures of E step and M step are repeated. In addition, when τ = 0, a predetermined initial value of the estimated value is shown. At this time, the conditional expected value Q (P | P (τ) ) of the complete data log likelihood to be maximized can be expressed as Equation (7).
Figure 2010003106

Eステップにおける計算は式(8)のように表すことができる。なお、式(8)の右辺の分母におけるy’は、式(8)の他の箇所におけるyと区別するために便宜上記号を変えたもので、yと同じ意味である。

Figure 2010003106
The calculation in the E step can be expressed as shown in Equation (8). Note that y ′ in the denominator on the right side of Equation (8) is the same meaning as y except that the symbol is changed for the sake of distinction from y in other parts of Equation (8).
Figure 2010003106

Mステップにおける計算は式(9)のように表すことができる。

Figure 2010003106
The calculation in the M step can be expressed as Equation (9).
Figure 2010003106

このEステップにおける計算とMステップにおける計算を、収束条件が満たされるまで繰り返すことにより、集合Pの推定値が得られる。   By repeating the calculation at the E step and the calculation at the M step until the convergence condition is satisfied, an estimated value of the set P is obtained.

なお、EMアルゴリズムではなく、準ニュートン法など他の最適化手法を用いて式(6)を最大化することによっても、集合Pを推定できる。   Note that the set P can also be estimated by maximizing Equation (6) using another optimization method such as the quasi-Newton method instead of the EM algorithm.

<重み推定>
図2を参照しながら、重み推定部21の構成について説明する。図2は、本実施形態に係る重み推定部のブロック図を含む図である。図2に示すように、重み推定部21は、入力データ読込部211と、事後確率推定部212と、混合比推定部213と、重み書込部214とを備えている。
<Weight estimation>
The configuration of the weight estimation unit 21 will be described with reference to FIG. FIG. 2 is a diagram including a block diagram of a weight estimation unit according to the present embodiment. As shown in FIG. 2, the weight estimation unit 21 includes an input data reading unit 211, a posterior probability estimation unit 212, a mixture ratio estimation unit 213, and a weight writing unit 214.

まず、入力データ読込部211により、入力データ44を読み込む。そして、事後確率推定部212によって式(8)を用いて全学習用サンプルの全時刻に対する事後確率を推定し、また、混合比推定部213によって式(9)を用いて混合比を推定する。この事後確率推定と混合比推定を式(6)が収束するまで交互に繰り返し、重み書込部214において、
重みをw(z|y)=P(z)P(y)/N(y)と設定(算出)し、重み45に格納する。なお、格納された重み45は、モデル構築部22で利用される。
First, the input data reading unit 211 reads the input data 44. Then, the posterior probability estimation unit 212 estimates the posterior probability of all the learning samples with respect to all times using the equation (8), and the mixture ratio estimation unit 213 estimates the mixture ratio using the equation (9). The posterior probability estimation and the mixture ratio estimation are alternately repeated until the expression (6) converges.
The weight is set (calculated) as w (z | y) = P (z) P z (y) / N (y) and stored in the weight 45. The stored weight 45 is used by the model construction unit 22.

<モデル構築>
図3を参照しながら、モデル構築部22の構成について説明する。図3は、本実施形態に係るモデル構築部のブロック図を含む図である。図3に示すように、モデル構築部22は、入力データ読込部221と、重み読込部222と、モデルパラメータ推定部223と、モデルパラメータ書込部224とを備えている。
<Model construction>
The configuration of the model construction unit 22 will be described with reference to FIG. FIG. 3 is a diagram including a block diagram of the model construction unit according to the present embodiment. As shown in FIG. 3, the model construction unit 22 includes an input data reading unit 221, a weight reading unit 222, a model parameter estimation unit 223, and a model parameter writing unit 224.

まず、入力データ読込部221により、入力データ44を読み込む。また、重み読込部222により、重み45を読み込む。そして、モデルパラメータ推定部223によって式(10)を用いてモデルパラメータM^を推定する。

Figure 2010003106

なお、式(10)の左辺においてMに付した記号「^(ハット)」は、そのMがargmin関数の引数を最小化させることを示すものである。 First, the input data reading unit 221 reads input data 44. Further, the weight reading unit 222 reads the weight 45. Then, the model parameter estimation unit 223 estimates the model parameter M ^ using Expression (10).
Figure 2010003106

The symbol “記号 (hat)” attached to M on the left side of Expression (10) indicates that M minimizes the argument of the argmin function.

モデルパラメータ書込部224は、モデルパラメータ推定部223が推定したモデルパラメータをモデルパラメータ46に格納する。なお、格納されたモデルパラメータ46は、分類部23で利用される。   The model parameter writing unit 224 stores the model parameter estimated by the model parameter estimation unit 223 in the model parameter 46. The stored model parameter 46 is used by the classification unit 23.

図4を参照しながら、分類部23の構成について説明する。図4は、本実施形態に係る分類部のブロック図を含む図である。図4に示すように、分類部23は、テストデータ読込部231と、モデルパラメータ読込部232と、分類結果出力部233とを備えている。   The configuration of the classification unit 23 will be described with reference to FIG. FIG. 4 is a diagram including a block diagram of a classification unit according to the present embodiment. As shown in FIG. 4, the classification unit 23 includes a test data reading unit 231, a model parameter reading unit 232, and a classification result output unit 233.

まず、テストデータ読込部231により、未分類のテストデータ47を読み込む。また、モデルパラメータ読込部232により、モデルパラメータ46を読み込む。そして、分類結果出力部233において、テストデータとモデルパラメータを使って分類結果を計算し、分類結果を出力する。   First, the test data reading unit 231 reads unclassified test data 47. The model parameter reading unit 232 reads the model parameter 46. Then, the classification result output unit 233 calculates the classification result using the test data and the model parameters, and outputs the classification result.

図1に示した分類装置1の動作について図5を参照(適宜図1参照)して説明する。図5は、本実施形態に係る分類装置の処理の流れを示す説明図である。   The operation of the classification apparatus 1 shown in FIG. 1 will be described with reference to FIG. 5 (refer to FIG. 1 as appropriate). FIG. 5 is an explanatory diagram showing the flow of processing of the classification device according to the present embodiment.

まず、分類装置1は、重み推定部21によって、記憶手段4(図1参照)に予め格納された入力データ44に基づいて重みを推定する(ステップS10:重み推定ステップ)。推定された重みは、重み45として記憶手段4に格納される。次に、分類装置1は、モデル構築部22によって、記憶手段4(図1参照)に予め格納された入力データ44および重み45に基づいてモデルを構築する(ステップS20:モデル構築ステップ)。構築されたモデルは、モデルパラメータ46として記憶手段4に格納される。このステップS10とステップS20はモデルの学習に関する処理である。   First, the classification device 1 uses the weight estimation unit 21 to estimate weights based on the input data 44 stored in advance in the storage unit 4 (see FIG. 1) (step S10: weight estimation step). The estimated weight is stored in the storage unit 4 as the weight 45. Next, the classification device 1 uses the model construction unit 22 to construct a model based on the input data 44 and weights 45 stored in advance in the storage unit 4 (see FIG. 1) (step S20: model construction step). The constructed model is stored in the storage unit 4 as the model parameter 46. Steps S10 and S20 are processes related to model learning.

続いて、分類装置1は、分類部23によって、記憶手段4(図1参照)に予め格納された未分類であるテストデータ47(分類対象データ)を、モデルパラメータ46に基づいて分類する(ステップS30:分類ステップ)。このステップS30は分類対象データの分類に関する処理である。   Subsequently, the classification device 1 classifies the unclassified test data 47 (classification target data) stored in advance in the storage unit 4 (see FIG. 1) based on the model parameter 46 by the classification unit 23 (step). S30: Classification step). This step S30 is processing relating to the classification of the classification target data.

次に、前記したステップS10の重み推定ステップについて図6を参照(適宜図1ないし図5参照)して説明する。図6は、重み推定ステップの処理を示すフローチャートである。   Next, the weight estimation step of step S10 described above will be described with reference to FIG. 6 (refer to FIGS. 1 to 5 as appropriate). FIG. 6 is a flowchart showing the weight estimation step.

まず、図6に示すように、重み推定部21は、入力データ読込部211によって、記憶手段4(図1参照)から、入力データ44を読み込む(ステップS1)。次に、重み推定部21は、事後確率推定部212によって、モデル分布の推定を行う(ステップS2)。具体的には、前記した式(2)を満たすモデル分布を推定する。   First, as shown in FIG. 6, the weight estimation unit 21 reads the input data 44 from the storage unit 4 (see FIG. 1) by the input data reading unit 211 (step S1). Next, the weight estimation unit 21 estimates the model distribution by the posterior probability estimation unit 212 (step S2). Specifically, a model distribution that satisfies the above-described equation (2) is estimated.

その後、重み推定部21は、事後確率推定部212によって、初期化を行う(ステップS3)。具体的には、事後確率推定部212は、EMアルゴリズムのEステップとMステップとの2つの手順の繰り返し回数τを0に設定し、混合比P(y)の分布をランダムに設定する。 Thereafter, the weight estimation unit 21 performs initialization by the posterior probability estimation unit 212 (step S3). Specifically, the posterior probability estimation unit 212 sets the number of repetitions τ of the two steps of the E step and the M step of the EM algorithm to 0, and randomly sets the distribution of the mixture ratio P z (y).

次に、重み推定部21は、事後確率推定部212によって、EMアルゴリズムのEステップを実行する(ステップS4)。具体的には、事後確率推定部212は、前記した式(8)により、前記事後確率を推定する。続いて、重み推定部21は、混合比推定部213によって、EMアルゴリズムのMステップを実行する(ステップS5)。具体的には、混合比推定部213は、前記した式(9)により、前記混合比を推定する。次に、重み推定部21は、混合比推定部213によって、収束条件が満たされたか否かを判別する(ステップS6)。具体的には、混合比推定部213は、前記した式(6)に示す尤度L(P)が収束したか否かを判別する。この収束の判別は、閾値や変化率などを使用することにより行うことができる。   Next, the weight estimation unit 21 executes the E step of the EM algorithm by using the posterior probability estimation unit 212 (step S4). Specifically, the posterior probability estimation unit 212 estimates the posterior probability by the above-described equation (8). Subsequently, the weight estimation unit 21 executes the M step of the EM algorithm by the mixture ratio estimation unit 213 (step S5). Specifically, the mixture ratio estimation unit 213 estimates the mixture ratio according to the equation (9). Next, the weight estimation unit 21 determines whether or not the convergence condition is satisfied by the mixture ratio estimation unit 213 (step S6). Specifically, the mixture ratio estimation unit 213 determines whether or not the likelihood L (P) shown in the above equation (6) has converged. This determination of convergence can be made by using a threshold value, a change rate, or the like.

収束条件が満たされた場合、すなわち前記した式(6)に示す尤度L(P)が収束した場合(ステップS6:Yes)、混合比推定部213は、重みw(z|y)を計算する(ステップS8)。具体的には、混合比推定部213は、
w(z|y)=P(z)P(y)/N(y)の式を用いて重みを計算する。そして、重み推定部21は、重み書込部214によって、その重みを、重み45として、記憶手段4(図1参照)に書き込み、処理を終了する。
When the convergence condition is satisfied, that is, when the likelihood L (P) shown in the above equation (6) has converged (step S6: Yes), the mixture ratio estimation unit 213 calculates the weight w (z | y). (Step S8). Specifically, the mixture ratio estimation unit 213
The weight is calculated using the formula w (z | y) = P (z) P z (y) / N (y). Then, the weight estimation unit 21 writes the weight as the weight 45 in the storage unit 4 (see FIG. 1) by the weight writing unit 214 and ends the processing.

一方、ステップS6において、収束条件が満たされていない場合、すなわち前記した式(6)に示す尤度L(P)が収束していない場合(ステップS6:No)、重み推定部21は、EステップおよびMステップの繰り返し回数τに「1」を加算し(τ=τ+1)(ステップS7)、ステップS4に戻る。   On the other hand, when the convergence condition is not satisfied in step S6, that is, when the likelihood L (P) shown in the above equation (6) is not converged (step S6: No), the weight estimation unit 21 determines that E “1” is added to the number of repetitions τ of the step and the M step (τ = τ + 1) (step S7), and the process returns to step S4.

本実施形態によれば、分類装置1は、ターゲット分類体系における既分類データだけでなく、補助分類体系における既分類データも用い、誤差関数と重みとの積の総和である期待誤差(式(5)参照)を最小化させるように重みを推定し、その推定された重みと2種類の既分類データとを用いて分類モデルを生成することで、補助分類体系のデータも有効に利用し、ターゲット分類体系に関する高精度な分類モデルを生成することができる。   According to this embodiment, the classification device 1 uses not only the already classified data in the target classification system but also the already classified data in the auxiliary classification system, and an expected error (formula (5)) that is the sum of the products of the error function and the weight. ) See)) to minimize the weight, and generate a classification model using the estimated weight and two types of already classified data. A highly accurate classification model related to the classification system can be generated.

また、重み推定部21が、事後確率推定部212と、混合比推定部213とを備えているので、例えば、事後確率推定部212が、EMアルゴリズムにおけるEステップを行い、かつ、混合比推定部213がMステップを行うことで、混合比についての大域的最適解を求め、求めた混合比から重みを決定(推定)することができる。   Further, since the weight estimation unit 21 includes the posterior probability estimation unit 212 and the mixture ratio estimation unit 213, for example, the posterior probability estimation unit 212 performs the E step in the EM algorithm, and the mixture ratio estimation unit When 213 performs M steps, a global optimum solution for the mixture ratio can be obtained, and a weight can be determined (estimated) from the obtained mixture ratio.

また、例えば、モデルパラメータ推定部223が、式(10)を用いてモデルパラメータを推定することができる。   Further, for example, the model parameter estimation unit 223 can estimate the model parameter using Expression (10).

また、分類部23が、推定したモデルパラメータを用いて分類対象データをターゲット分類体系における複数のクラスのいずれかに分類する、つまり、高精度な分類モデルを用いることで高精度な分類を実現することができる。   Further, the classification unit 23 classifies the classification target data into one of a plurality of classes in the target classification system using the estimated model parameters, that is, realizes high-precision classification by using a high-precision classification model. be able to.

また、分類装置1は、一般的なコンピュータに、前記した各処理のプログラムを実行させることで実現することもできる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体に書き込んで配布することも可能である。   The classification device 1 can also be realized by causing a general computer to execute the above-described processing programs. This program can be distributed via a communication line, or can be written on a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) for distribution.

以上で本実施形態の説明を終えるが、本発明の態様はこれらに限定されるものではない。例えば、本発明は、任意の誤差関数およびモデルを用いることが可能である。その他、ハードウェアやフローチャート等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   Although description of this embodiment is finished above, the aspect of the present invention is not limited to these. For example, the present invention can use any error function and model. In addition, specific configurations such as hardware and flowcharts can be appropriately changed without departing from the spirit of the present invention.

《人工データにおける実施例》
本実施形態の分類装置1を評価するため、人工データを用いた2クラス分類実験を行った。この2クラス分類実験とは、ターゲットデータと補助データから生成した分類モデルに基づき、テストデータを2つのクラスのいずれかに分類する実験である。
<Examples of artificial data>
In order to evaluate the classification apparatus 1 of the present embodiment, a two-class classification experiment using artificial data was performed. This two-class classification experiment is an experiment for classifying test data into one of two classes based on a classification model generated from target data and auxiliary data.

ターゲットデータは平均の異なる2つの100次元正規分布からデータが生成されるものとする。ここで、クラスc、cの平均はそれぞれ
μ=(−1,0,0,・・・,0),μ=(1,0,0,・・・,0)であり、共分散行列はともに単位行列であるものとする。そして、補助データとして,以下の3パターンを考える。なお、第3次元以降の平均はターゲットデータと同じく全て0、共分散行列は全て単位行列とする。図7(a)にターゲットデータ,図7(b)〜(d)に各補助データの生成モデルの第1,第2次元を示す。図7(a)〜(d)は、特に軸や目盛りを図示していないが、2次元の座標平面を表しており、中央部分が原点である。また、各円は標準偏差のラインを表す。
It is assumed that target data is generated from two 100-dimensional normal distributions having different averages. Here, the averages of classes c 1 and c 2 are μ 1 = (− 1, 0, 0,..., 0) and μ 2 = (1, 0, 0,..., 0), respectively. Both covariance matrices are assumed to be unit matrices. Then, the following three patterns are considered as auxiliary data. Note that the average after the third dimension is all 0 as in the target data, and the covariance matrix is all the unit matrix. FIG. 7A shows target data, and FIGS. 7B to 7D show the first and second dimensions of each auxiliary data generation model. FIGS. 7A to 7D do not particularly show axes or scales, but represent a two-dimensional coordinate plane, and the central portion is the origin. Each circle represents a standard deviation line.

図7(b)に示す同一補助データは、ターゲットデータと同一の生成モデルから生成され、クラスc、cの平均はそれぞれ
μ=(−1,0,0,・・・,0),μ=(1,0,0,・・・,0)である。
The same auxiliary data shown in FIG. 7B is generated from the same generation model as the target data, and the averages of classes c 3 and c 4 are μ 3 = (− 1, 0, 0,..., 0), respectively. , Μ 4 = (1, 0, 0,..., 0).

図7(c)に示す相関補助データは、ターゲットデータとクラス間関係に相関がある生成モデルから生成され、クラスc、cの平均はそれぞれ
μ=(−√0.5,√0.5,0,・・・,0),
μ=(√0.5,−√0.5,0,・・・,0)である。
The correlation auxiliary data shown in FIG. 7C is generated from a generation model having a correlation between the target data and the class relationship, and the averages of the classes c 3 and c 4 are μ 3 = (− √0.5, √0, respectively. .5,0, ..., 0),
μ 4 = (√0.5, −√0.5, 0,..., 0).

図7(d)に示す混合補助データは、同一補助データ、および、ターゲットデータとクラス間関係が直交する補助データの組合せ(混合)であり、クラスc、c、c、cの平均はそれぞれ
μ=(−1,0,0,・・・,0),μ=(1,0,0,・・・,0),
μ=(0,1,0,・・・,0),μ=(0,−1,0,・・・,0)である。なお、補助データのうち、この混合補助データのみ4補助クラスであり、それ以外は2補助クラスである。
The mixed auxiliary data shown in FIG. 7D is a combination (mixed) of the same auxiliary data and auxiliary data in which the relationship between the target data and the class is orthogonal, and the class c 3 , c 4 , c 5 , c 6 The average is μ 3 = (− 1, 0, 0,..., 0), μ 4 = (1, 0, 0,..., 0),
μ 5 = (0, 1, 0,..., 0) and μ 6 = (0, −1, 0,..., 0). Of the auxiliary data, only this mixed auxiliary data is 4 auxiliary classes, and the others are 2 auxiliary classes.

ターゲットデータとして各クラス2,4,8,16,32,64,128,256サンプル(入力データ44)、補助データとして各クラス256サンプル(入力データ44)、テストデータとして各クラス100サンプル(テストデータ47)を生成した。これらに基づき、分類モデルを生成し、補助データを使わない場合(ターゲットデータのみ)と各補助データを使った場合の、テストデータの分類に関する正答率を計算した。その結果、表1のようになった。表1において、右4列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本実施形態の分類装置1の分類方法に基づいて補助データを使うことによって、補助データを使わない場合よりも正答率が向上していることがわかる。   Each class 2, 4, 8, 16, 32, 64, 128, 256 samples (input data 44) as target data, each class 256 samples (input data 44) as auxiliary data, each class 100 samples (test data) as test data 47) was produced. Based on these, a classification model was generated, and the correct answer rate for the classification of test data when the auxiliary data was not used (target data only) and when each auxiliary data was used was calculated. As a result, it became as shown in Table 1. In Table 1, the numbers in the right four columns indicate the percentage of the average correct answer rate, and the numbers in parentheses indicate the standard deviation. It can be seen that the use of auxiliary data based on the classification method of the classification device 1 of the present embodiment improves the correct answer rate compared to the case where auxiliary data is not used.

Figure 2010003106
Figure 2010003106

《テキストデータにおける実施例》
本実施形態の分類装置1を評価するため、テキストデータを用いて分類実験を行った。
<< Example of text data >>
In order to evaluate the classification device 1 of the present embodiment, a classification experiment was performed using text data.

<モデル分布>
モデル分布P(x|y)として、正規分布、多項分布など任意の分布を仮定することができる。ここでは、入力データ44およびテストデータ47としてテキストデータを想定し、xを単語出現頻度ベクトルと考え、モデル分布として多項分布P(x|y)(式(11))を用いる。

Figure 2010003106

ここで、Vは総語彙数、θyjはクラスyのときj番目の単語が出現する確率、xnjはn番目のサンプルにおけるj番目の単語の出現頻度を表す。 <Model distribution>
An arbitrary distribution such as a normal distribution or a multinomial distribution can be assumed as the model distribution P ~ (x | y). Here, text data is assumed as the input data 44 and the test data 47, x is considered as a word appearance frequency vector, and a multinomial distribution P to (x n | y) (formula (11)) is used as a model distribution.
Figure 2010003106

Here, V is the total number of vocabularies, θ yj is the probability that the j-th word will appear in class y, and x nj represents the frequency of appearance of the j-th word in the n-th sample.

多項分布のパラメータθyjのn番目のサンプルを除いたときのLOO最尤推定値θ^−n,yjは式(12)で得られる。

Figure 2010003106
The LOO maximum likelihood estimation value θ ^ −n, yj when the nth sample of the parameter θyj of the multinomial distribution is removed is obtained by Expression (12).
Figure 2010003106

ここで、ゼロ確率問題を回避するために、LOO最尤推定値と一様分布の線形和を用いてスムージングする(式(13))。

Figure 2010003106
Here, in order to avoid the zero probability problem, smoothing is performed using the LOO maximum likelihood estimate and the linear sum of the uniform distribution (Equation (13)).
Figure 2010003106

ここで、0≦α≦1はハイパーパラメータである。ハイパーパラメータを人手で設定してもよいが、一般化EMアルゴリズムを用いることにより、以下の
Q(P,α|P(τ),α(τ))を最大化するように、混合比の集合Pとハイパーパラメータαを同時にデータから推定することも可能である(式(14))。

Figure 2010003106
Here, 0 ≦ α ≦ 1 is a hyper parameter. The hyperparameters may be set manually, but by using the generalized EM algorithm, the set of mixing ratios is maximized so as to maximize the following Q (P, α | P (τ) , α (τ) ) It is also possible to estimate P and hyperparameter α from the data at the same time (formula (14)).
Figure 2010003106

Eステップは式(8)、Mステップにおける混合比の更新は式(9)で、通常のEMアルゴリズムと同様に実現できる。Mステップにおけるハイパーパラメータの更新はニュートン法を用いて行う(式(15))。

Figure 2010003106
The E step is expressed by equation (8), and the update of the mixing ratio in the M step is expressed by equation (9), which can be realized in the same manner as a normal EM algorithm. The hyperparameters in the M step are updated using the Newton method (Formula (15)).
Figure 2010003106

ここで、式(15)に記載されている式(14)のαによる一階偏微分は式(16)となる。

Figure 2010003106
Here, the first-order partial differentiation with respect to α in the equation (14) described in the equation (15) becomes the equation (16).
Figure 2010003106

また、式(15)に記載されている式(14)のαによる二階偏微分は式(17)となる。

Figure 2010003106
Further, the second-order partial differentiation with respect to α in the equation (14) described in the equation (15) becomes the equation (17).
Figure 2010003106

式(17)から明らかなように、二階偏微分は常に負になるため、
Q(P,α|P(τ),α(τ))はαに関して上に凸である。この実験では、一般化EMアルゴリズムを用いて混合比の集合Pおよびハイパーパラメータαをデータから推定した。
As is clear from equation (17), the second-order partial derivative is always negative,
Q (P, α | P (τ) , α (τ) ) is convex upward with respect to α. In this experiment, the set P of mixing ratios and the hyperparameter α were estimated from the data using a generalized EM algorithm.

<分類モデル>
代表的なテキスト分類モデルであるナイーブベイズモデルとロジスティック回帰モデルをモデルMとして用いた場合について説明する。
<Classification model>
A case where a naive Bayes model, which is a typical text classification model, and a logistic regression model are used as the model M will be described.

(ナイーブベイズモデル)
ナイーブベイズモデルではクラスが与えられたとき、文書中の各単語は独立に生成されると仮定され、クラスzにおける単語出現頻度ベクトルxの分布P(x|z)が多項分布で表される(式(18))。

Figure 2010003106
(Naive Bayes model)
In the naive Bayes model, when a class is given, it is assumed that each word in the document is generated independently, and the distribution P (x | z) of the word appearance frequency vector x in the class z is expressed by a multinomial distribution ( Formula (18)).
Figure 2010003106

ここで、φzjはクラスzの文書におけるj番目の単語が出現する確率を表す。誤差関数として負の対数尤度を用い、また、φ={{φzj j=1z∈Zの事前確率としてディリクレ分布P(φ)∝Πz∈ZΠ j=1φβ zjを用いたとき、重み付き誤差関数E(MNB)は、式(19)のように表される。

Figure 2010003106
Here, φ zj represents the probability that the j-th word appears in a document of class z. Using a negative log likelihood as an error function, also, φ = {{φ zj} V j = 1} Dirichlet P as the prior probability of z∈Z (φ) αΠ z∈Z Π V j = 1 φ β When zj is used, the weighted error function E (M NB ) is expressed as Equation (19).
Figure 2010003106

式(19)を最小化するφzjの推定値φ^zjは、式(20)によって得られる。

Figure 2010003106
The estimated value φ ^ zj of φzj that minimizes the equation (19) is obtained by the equation (20).
Figure 2010003106

(ロジスティック回帰モデル)
ロジスティック回帰モデルでは、単語出現頻度ベクトルxが与えられたとき、クラスzに属する確率P(z|x)は式(21)のように表される。

Figure 2010003106
(Logistic regression model)
In the logistic regression model, when a word appearance frequency vector x is given, the probability P (z | x) belonging to the class z is expressed as in Expression (21).
Figure 2010003106

ここで、λはクラスzに関する未知パラメータベクトル、λ はλの転置を表す。誤差関数として負の対数尤度を用い、また、λの事前確率として平均0、共分散行列γ−1I(Iは単位行列)の正規分布を用いたとき、重み付き誤差(期待誤差)E(MLR)は、式(22)のように表される。

Figure 2010003106
Here, λ z represents an unknown parameter vector related to class z, and λ z T represents transposition of λ z . When a negative log likelihood is used as an error function, and a normal distribution of mean 0 and covariance matrix γ −1 I (I is a unit matrix) is used as a prior probability of λ z , a weighted error (expected error) E (M LR ) is expressed as in Expression (22).
Figure 2010003106

準ニュートン法などを用いて式(22)の値を最小化することにより、未知パラメータベクトル{λz∈Zを推定できる。ロジスティック回帰モデルを用いた場合、各サンプルの誤差関数を付加するのみであるため、これまで提案されている多くの分類モデルを若干修正するのみで適用することができる。 The unknown parameter vector {λ z } zεZ can be estimated by minimizing the value of Equation (22) using a quasi-Newton method or the like. When a logistic regression model is used, only the error function of each sample is added, so that many classification models that have been proposed so far can be applied with slight modification.

<比較手法>
分類モデルとしてナイーブベイズモデルを用いた本手法(本実施形態の分類装置1による手法)(CA−NB)と、分類モデルとしてロジスティック回帰モデルを用いた本手法(CA−LR)と、補助データを用いないナイーブベイズモデルによる手法(NB)、ロジスティック回帰モデルによる手法(LR)の4手法を比較した。NBの推定値は、推定値である式(20)の重みを
w(z|z)=1,w(z|y≠z)=0としたものである。同様に、LRの推定値は、本手法における重み付き誤差である式(22)の重みを
w(z|z)=1,w(z|y≠z)=0として最小化することにより得られる。
<Comparison method>
This method using the naive Bayes model as a classification model (method by the classification apparatus 1 of this embodiment) (CA-NB), this method using a logistic regression model as a classification model (CA-LR), and auxiliary data Four methods, a method using a naive Bayes model not used (NB) and a method using a logistic regression model (LR), were compared. The estimated value of NB is obtained by setting w (z | z) = 1 and w (z | y ≠ z) = 0 as the weights of Equation (20), which is an estimated value. Similarly, the estimated value of LR is obtained by minimizing the weight of Equation (22), which is a weighted error in this method, as w (z | z) = 1 and w (z | y ≠ z) = 0. It is done.

それぞれの実験において評価用データセットを100作成し、その平均正答率を用いて評価した。また、評価用データセットとは別に1つの開発用データセットを作成し、各手法において開発用データセットの正答率を最も高くする分類モデルのハイパーパラメータ(βもしくはγ)を{10−3,10−2,10−1,1}の4候補から選択した。 In each experiment, 100 evaluation data sets were created and evaluated using the average correct answer rate. Also, one development data set is created separately from the evaluation data set, and the hyperparameter (β or γ) of the classification model that maximizes the correct answer rate of the development data set in each method is set to {10 −3 , 10 -2 , 10 -1 , 1}.

<Toyデータ>
20Newsgroups(20news)から作成したデータセットを用い、各補助クラスの分布が、あるターゲットクラスと同じ分布である場合の、本手法の効果を評価する。20newsは、20のディスカッショングループに投稿された約2万の英語文書から成る。各文書の特徴量として単語出現頻度を用いた。このとき、停止語(文書に含まれる意味的な内容を持たない前置詞や冠詞などの一般的に機能語と呼ばれ検索に役立たない単語)および出現頻度が1以下の単語は省き、総語彙数は52,647であった。
<Toy data>
Using the data set created from 20Newsgroups (20news), the effect of this method is evaluated when the distribution of each auxiliary class is the same as that of a certain target class. 20news consists of about 20,000 English documents submitted to 20 discussion groups. The word appearance frequency was used as the feature value of each document. At this time, stop words (words that are generally called function words, such as prepositions and articles that have no semantic content, and are not useful for search) and words whose appearance frequency is 1 or less are omitted, and the total number of vocabularies Was 52,647.

20のグループのうち、コンピュータ(comp)を親ディレクトリにもつ5つのグループ(graphics,os.ms-windows.misc,sys.ibm.pc.hardware,sys.mac.hardware,windows.x)に分類する問題について、
ターゲットクラス集合をZ={c,・・・,c}、
補助クラス集合をA={c,・・・,c10}とする。
Of the 20 groups, classify into 5 groups (graphics, os.ms-windows.misc, sys.ibm.pc.hardware, sys.mac.hardware, windows.x) that have computers (comp) in their parent directories. About the problem
The target class set is Z = {c 1 ,..., C 5 },
Let the auxiliary class set be A = {c 6 ,..., C 10 }.

そして、graphicsの記事をターゲットクラスcもしくは補助クラスcに、os.ms-windows.miscの記事をターゲットクラスcもしくは補助クラスcに、sys.ibm.pc.hardwareの記事をターゲットクラスcもしくは補助クラスcに、sys.mac.hardwareの記事をターゲットクラスcもしくは補助クラスcに、windows.xの記事をターゲットクラスcもしくは補助クラスc10に、ランダムに割り当て、ターゲットデータおよび補助データを作成した。 Then, the article graphics to the target class c 1 or the auxiliary class c 6, the articles os.ms-windows.misc the target class c 2 or auxiliary class c 7, target class articles sys.ibm.pc.hardware to c 3 or auxiliary class c 8, articles sys.mac.hardware the target class c 4 or auxiliary class c 9, the articles windows.x the target class c 5 or auxiliary class c 10, randomly assigned, the target Data and auxiliary data were created.

このとき、テストデータとして各クラス100サンプル、ターゲットデータとして各クラス2,4,8,16,32,64,128,256サンプル、補助データとして残り全サンプル用いた。総学習サンプル数は4,363であった。このときの正答率を表2に示す。表2において、右4列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。   At this time, 100 samples of each class were used as test data, 2, 4, 8, 16, 32, 64, 128, 256 samples were used as target data, and all remaining samples were used as auxiliary data. The total number of learning samples was 4,363. The correct answer rate at this time is shown in Table 2. In Table 2, the numbers in the four right columns indicate the percentage of the average correct answer rate, and the numbers in parentheses indicate the standard deviation.

Figure 2010003106
Figure 2010003106

本手法であるCA−NB、CA−LRの正答率は学習サンプル数が少ない場合でも極めて高く、補助データを適切に利用することにより、頑健な(高精度な)モデル推定ができていると言える。   The correct answer rate of CA-NB and CA-LR, which are the present methods, is extremely high even when the number of learning samples is small, and it can be said that robust (high-accuracy) model estimation can be performed by appropriately using auxiliary data. .

<20Newsgroupsデータ>
20newsの20グループのうち、comp.graphics,rec.sport.baseba11,sci.electronics,talk.religion.miscの4グループをターゲットクラスとし、他の16グループを補助クラスとしてデータを作成し、本手法を評価した。テストデータ47として各クラス100サンプル、ターゲットデータ(入力データ44)として各クラス2,4,8,16,32,64,128,256サンプル、補助データ(入力データ44)として全サンプル用いた、総補助サンプル数は15,211であった。このときの正答率を表3に示す。表3において、右4列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本手法であるCA−NBの正答率が最も高くなっている。
<20Newsgroups data>
Of 20 groups of 20news, 4 groups of comp.graphics, rec.sport.baseba11, sci.electronics, talk.religion.misc are used as target classes, and the other 16 groups are used as auxiliary classes to create data. evaluated. 100 samples for each class as test data 47, 2, 4, 8, 16, 32, 64, 128, 256 samples for target data (input data 44), and all samples for auxiliary data (input data 44). The number of auxiliary samples was 15,211. The correct answer rate at this time is shown in Table 3. In Table 3, the numbers in the right four columns indicate the percentage of the average correct answer rate, and the numbers in parentheses indicate the standard deviation. The correct answer rate of CA-NB which is this method is the highest.

Figure 2010003106
Figure 2010003106

<Webページデータ>
日本語のディレクトリ型検索エンジンgoo(登録商標)カテゴリ検索(2003年9月取得)とyahoo(登録商標)カテゴリ(2003年3月取得)のデータを用いて本手法を評価した。形態素解析により単語を抽出し、両カテゴリで出現数が10以上の単語を特徴量として用いた。このとき、総語彙数は43,200であった。goo(登録商標)とyahoo(登録商標)でクラスラベルが同一のクラスや、関連していると思われるクラスもあるが、明確な対応付けが難しいクラスもあり、また、クラス数も異なる(goo(登録商標):13クラス、yahoo(登録商標):14クラス)。
<Web page data>
This method was evaluated using data of a Japanese directory search engine goo (registered trademark) category search (acquired in September 2003) and yahoo (registered trademark) category (acquired in March 2003). Words were extracted by morphological analysis, and words having an appearance count of 10 or more in both categories were used as feature quantities. At this time, the total number of vocabulary was 43,200. There are classes with the same class label in goo (registered trademark) and yahoo (registered trademark), and classes that seem to be related, but there are classes that are difficult to clearly associate, and the number of classes is also different (goo (Registered trademark): 13 classes, yahoo (registered trademark): 14 classes).

goo(登録商標)ディレクトリのクラスをターゲットクラスとし、テストデータ47として各クラス100サンプル、ターゲットデータ(入力データ44)として各クラス2,4,8,16,32,64,128,256サンプル、補助データ(入力データ44)としてyahoo(登録商標)ディレクトリに含まれる全サンプル用いた。総補助サンプル数は51,728であった。このときの正答率を表4に示す。表4において、右4列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本手法であるCA−NR、CA−LRの正答率が総じて高くなっている。   The class of the goo (registered trademark) directory is the target class, 100 samples for each class as test data 47, each class 2, 4, 8, 16, 32, 64, 128, 256 samples for target data (input data 44), auxiliary All samples included in the yahoo (registered trademark) directory were used as data (input data 44). The total number of auxiliary samples was 51,728. The correct answer rate at this time is shown in Table 4. In Table 4, the numbers in the right four columns indicate the percentage of the average correct answer rate, and the numbers in parentheses indicate the standard deviation. The correct answer rate of CA-NR and CA-LR which are the present methods is generally high.

Figure 2010003106
Figure 2010003106

本実施形態に係る分類装置の構成を示すブロック図である。It is a block diagram which shows the structure of the classification device which concerns on this embodiment. 本実施形態に係る重み推定部のブロック図を含む図である。It is a figure containing the block diagram of the weight estimation part which concerns on this embodiment. 本実施形態に係るモデル構築部のブロック図を含む図である。It is a figure containing the block diagram of the model construction part which concerns on this embodiment. 本実施形態に係る分類部のブロック図を含む図である。It is a figure containing the block diagram of the classification | category part which concerns on this embodiment. 本実施形態に係る分類装置の処理の流れを示す説明図である。It is explanatory drawing which shows the flow of a process of the classification device concerning this embodiment. 重み推定ステップの処理を示すフローチャートである。It is a flowchart which shows the process of a weight estimation step. (a)はターゲットデータ、(b)〜(d)は各補助データの生成モデルの第1、第2次元を示す図である。(A) is target data, (b)-(d) is a figure which shows the 1st, 2nd dimension of the production | generation model of each auxiliary data.

符号の説明Explanation of symbols

1 分類装置
2 演算手段
3 入力手段
4 記憶手段
5 出力手段
11 バスライン
21 重み推定部
22 モデル構築部
23 分類部
24 メモリ
40a プログラム格納部
41 重み推定プログラム
42 モデル構築プログラム
43 分類プログラム
40b データ格納部
44 入力データ
45 重み
46 モデルパラメータ
47 テストデータ
211 入力データ読込部
212 事後確率推定部
213 混合比推定部
214 重み書込部
221 入力データ読込部
222 重み読込部
223 モデルパラメータ推定部
224 モデルパラメータ書込部
231 テストデータ読込部
232 モデルパラメータ読込部
233 分類結果出力部
DESCRIPTION OF SYMBOLS 1 Classifier 2 Calculation means 3 Input means 4 Storage means 5 Output means 11 Bus line 21 Weight estimation part 22 Model construction part 23 Classification part 24 Memory 40a Program storage part 41 Weight estimation program 42 Model construction program 43 Classification program 40b Data storage part 44 Input data 45 Weight 46 Model parameter 47 Test data 211 Input data reading unit 212 A posteriori probability estimating unit 213 Mixing ratio estimating unit 214 Weight writing unit 221 Input data reading unit 222 Weight reading unit 223 Model parameter estimation unit 224 Model parameter writing 231 Test data reading unit 232 Model parameter reading unit 233 Classification result output unit

Claims (11)

分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている1つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている1つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置であって、
情報を記憶する記憶手段と、
前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定部と、
前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築部と、
を備えることを特徴とする分類モデル生成装置。
One or more already classified data already classified in the target classification system which is a classification system for classifying the classification target data, and one already classified in the auxiliary classification system which is a classification system different from the target classification system A classification model generation device that generates a classification model for classifying the classification target data into one of a plurality of classes in the target classification system by performing learning using the above-described already classified data,
Storage means for storing information;
The error function of the classification model when it is predicted that each individual classification data in the two types of classification data described above is classified into any class of the target classification system, and the above-described 2 when the prediction is performed. The weights indicating the degree of influence on the classification model of each individual classified data in the types of already classified data, and the error function of each of the already classified data in the two types of already classified data A weight estimation unit that estimates the weight and stores the weight in the storage unit so as to minimize an expected error that is a sum of products of the value and the weight;
A model construction unit that generates the classification model using the weight stored in the storage unit and the two types of already-classified data;
A classification model generation device comprising:
前記重み推定部は、
前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納する事後確率推定部と、
前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する混合比推定部と、
を備えることを特徴とする請求項1に記載の分類モデル生成装置。
The weight estimation unit includes:
The classification for each class of the target classification system and the auxiliary classification system for approximating a probability distribution model when the target classification system and the auxiliary classification system are integrated to a probability distribution model of the target classification system A posterior probability estimating unit that estimates the posterior probability of the two types of already-classified data, and stores the posterior probability in the storage unit, using a mixture ratio indicating a ratio of the degree of influence on the model;
The mixture ratio when the likelihood is maximized is estimated by using the posterior probability stored in the storage means so as to maximize the likelihood for the already classified data of the target classification system. Estimating the weight from a ratio, and storing the weight in the storage means;
The classification model generation device according to claim 1, further comprising:
前記モデル構築部は、
前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納するモデルパラメータ推定部
を備えることを特徴とする請求項1に記載の分類モデル生成装置。
The model building unit
Using the weights stored in the storage means and the two types of already classified data, estimating model parameters for classifying the classification target data in the target classification system in the classification model, The classification model generation apparatus according to claim 1, further comprising a model parameter estimation unit that stores model parameters in the storage unit.
請求項3に記載の分類モデル生成装置の前記記憶手段に格納されたモデルパラメータを用いて、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類する分類部
を備えることを特徴とする分類装置。
A classification unit that classifies the classification target data into one of a plurality of classes in the target classification system using model parameters stored in the storage unit of the classification model generation device according to claim 3. Classification device.
分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている1つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている1つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置による分類モデル生成方法であって、
前記分類モデル生成装置は、情報を記憶する記憶手段と、重み推定部と、モデル構築部と、を備えており、
前記重み推定部は、前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定ステップを実行し、
前記モデル構築部は、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築ステップを実行する
ことを特徴とする分類モデル生成方法。
One or more already classified data already classified in the target classification system which is a classification system for classifying the classification target data, and one already classified in the auxiliary classification system which is a classification system different from the target classification system Generation of a classification model by a classification model generation device that generates a classification model for classifying the classification target data into one of a plurality of classes in the target classification system by performing learning using the above-described already classified data A method,
The classification model generation device includes storage means for storing information, a weight estimation unit, and a model construction unit,
The weight estimation unit is configured to calculate an error function of the classification model when the individual classification data in the two types of classification data is predicted to be classified into any class of the target classification system, and the prediction. Using the respective weights indicating the degree of influence of the individual classified data in the two types of already classified data described above on the classification model, the individual previously classified data in the two types of previously classified data Performing a weight estimation step of estimating the weight and storing the weight in the storage means so as to minimize an expected error that is a sum of products of the value of the error function for each and the weight.
The model construction unit executes a model construction step of creating the classification model using the weights stored in the storage means and the two types of already-classified data described above. Method.
前記重み推定部は、事後確率推定部と、混合比推定部と、を備えており、
前記重み推定ステップにおいて、
前記事後確率推定部は、前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納し、
前記混合比推定部は、前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する
ことを特徴とする請求項5に記載の分類モデル生成方法。
The weight estimation unit includes a posterior probability estimation unit and a mixture ratio estimation unit,
In the weight estimation step,
The posterior probability estimation unit is configured to approximate the probability distribution model obtained by integrating the target classification system and the auxiliary classification system to the probability distribution model of the target classification system, and the auxiliary classification system. Using a mixture ratio indicating the ratio of the degree of influence on the classification model for each class with the system, estimating the posterior probability for the two types of already-classified data, and storing the posterior probability in the storage means;
The mixture ratio estimation unit estimates the mixture ratio using the posterior probability stored in the storage unit so as to maximize the likelihood for the already classified data of the target classification system, and the likelihood is maximized. The classification model generation method according to claim 5, wherein the weight is estimated from the mixture ratio at the time of conversion into the storage unit, and the weight is stored in the storage unit.
前記モデル構築部は、モデルパラメータ推定部を備えており、
前記モデル構築ステップにおいて、
前記モデルパラメータ推定部は、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納する
ことを特徴とする請求項5に記載の分類モデル生成方法。
The model construction unit includes a model parameter estimation unit,
In the model building step,
The model parameter estimation unit is a model for classifying the classification target data into the target classification system in the classification model using the weight stored in the storage means and the two types of already classified data. The classification model generation method according to claim 5, wherein a parameter is estimated and the model parameter is stored in the storage unit.
請求項7に記載の分類モデル生成方法によって前記記憶手段に格納されたモデルパラメータを用いて、
前記分類対象データを分類する分類装置における分類部は、
前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するステップを実行する
ことを特徴とする分類方法。
Using the model parameters stored in the storage means by the classification model generation method according to claim 7,
The classification unit in the classification device for classifying the classification target data,
Classifying the classification target data into any one of a plurality of classes in the target classification system.
コンピュータを請求項1から請求項3のいずれか一項に記載の分類モデル生成装置の各部として機能させるための分類モデル生成プログラム。   The classification model production | generation program for functioning a computer as each part of the classification model production | generation apparatus as described in any one of Claims 1-3. コンピュータを請求項4に記載の分類装置の分類部として機能させるための分類プログラム。   The classification program for functioning a computer as a classification | category part of the classification device of Claim 4. 請求項9に記載の分類モデル生成プログラム、または、請求項10に記載の分類プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体。   A computer-readable recording medium in which the classification model generation program according to claim 9 or the classification program according to claim 10 is recorded.
JP2008161237A 2008-06-20 2008-06-20 Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program, and recording medium Expired - Fee Related JP5164209B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008161237A JP5164209B2 (en) 2008-06-20 2008-06-20 Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008161237A JP5164209B2 (en) 2008-06-20 2008-06-20 Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program, and recording medium

Publications (2)

Publication Number Publication Date
JP2010003106A true JP2010003106A (en) 2010-01-07
JP5164209B2 JP5164209B2 (en) 2013-03-21

Family

ID=41584774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008161237A Expired - Fee Related JP5164209B2 (en) 2008-06-20 2008-06-20 Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program, and recording medium

Country Status (1)

Country Link
JP (1) JP5164209B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011244340A (en) * 2010-05-20 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> Program recommendation apparatus, method, and program
JP2012093976A (en) * 2010-10-27 2012-05-17 Internatl Business Mach Corp <Ibm> Clustering system, method and program
CN102945280A (en) * 2012-11-15 2013-02-27 翟云 Unbalanced data distribution-based multi-heterogeneous base classifier fusion classification method
WO2015079592A1 (en) * 2013-11-27 2015-06-04 Nec Corporation Document classification method
CN106055705A (en) * 2016-06-21 2016-10-26 广东工业大学 Web page classification method for multi-task and multi-example learning based on maximum distance
CN111091147A (en) * 2019-12-10 2020-05-01 东软集团股份有限公司 Image classification method, device and equipment
CN111797942A (en) * 2020-07-23 2020-10-20 深圳壹账通智能科技有限公司 User information classification method and device, computer equipment and storage medium
KR20210082004A (en) * 2019-12-24 2021-07-02 서울대학교산학협력단 Privacy preserving method based on neural network and data processing apparatus

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320677A (en) * 2014-07-10 2016-02-10 香港中文大学深圳研究院 Method and device for training streamed unbalance data
RU2752673C1 (en) * 2021-01-12 2021-07-29 Акционерное общество "Федеральный научно-производственный центр" Титан-Баррикады" Linear actuator
RU2752672C1 (en) * 2021-01-12 2021-07-29 Акционерное общество "Федеральный научно-производственный центр" Титан-Баррикады" Linear actuator of hydraulic structures

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004084096A1 (en) * 2003-03-19 2004-09-30 Fujitsu Limited Case classification apparatus and method
JP2006004103A (en) * 2004-06-16 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for matching structure between document classification systems and recording medium recording the program
JP2006302269A (en) * 2006-03-27 2006-11-02 Fujitsu Ltd Vocabulary tortuous resolving program, vocabulary tortuous resolving method, and vocabulary tortuous resolving system
JP2006338263A (en) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> Content classification method, content classification device, content classification program and recording medium recording content classification program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004084096A1 (en) * 2003-03-19 2004-09-30 Fujitsu Limited Case classification apparatus and method
JP2006004103A (en) * 2004-06-16 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for matching structure between document classification systems and recording medium recording the program
JP2006338263A (en) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> Content classification method, content classification device, content classification program and recording medium recording content classification program
JP2006302269A (en) * 2006-03-27 2006-11-02 Fujitsu Ltd Vocabulary tortuous resolving program, vocabulary tortuous resolving method, and vocabulary tortuous resolving system

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011244340A (en) * 2010-05-20 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> Program recommendation apparatus, method, and program
JP2012093976A (en) * 2010-10-27 2012-05-17 Internatl Business Mach Corp <Ibm> Clustering system, method and program
US8805841B2 (en) 2010-10-27 2014-08-12 International Business Machines Corporation Clustering system, method and program
CN102945280A (en) * 2012-11-15 2013-02-27 翟云 Unbalanced data distribution-based multi-heterogeneous base classifier fusion classification method
WO2015079592A1 (en) * 2013-11-27 2015-06-04 Nec Corporation Document classification method
CN106055705A (en) * 2016-06-21 2016-10-26 广东工业大学 Web page classification method for multi-task and multi-example learning based on maximum distance
CN106055705B (en) * 2016-06-21 2019-07-05 广东工业大学 Web page classification method based on maximum spacing multitask multi-instance learning
CN111091147A (en) * 2019-12-10 2020-05-01 东软集团股份有限公司 Image classification method, device and equipment
KR20210082004A (en) * 2019-12-24 2021-07-02 서울대학교산학협력단 Privacy preserving method based on neural network and data processing apparatus
KR102297548B1 (en) * 2019-12-24 2021-09-02 서울대학교산학협력단 Privacy preserving method based on neural network and data processing apparatus
CN111797942A (en) * 2020-07-23 2020-10-20 深圳壹账通智能科技有限公司 User information classification method and device, computer equipment and storage medium

Also Published As

Publication number Publication date
JP5164209B2 (en) 2013-03-21

Similar Documents

Publication Publication Date Title
JP5164209B2 (en) Classification model generation device, classification device, classification model generation method, classification method, classification model generation program, classification program, and recording medium
Giraud Introduction to high-dimensional statistics
US11361569B2 (en) Hierarchical neural networks with granularized attention
Tsuboi et al. Direct density ratio estimation for large-scale covariate shift adaptation
WO2019212006A1 (en) Phenomenon prediction device, prediction model generation device, and phenomenon prediction program
US10528889B2 (en) Stereoscopic learning for classification
JP7293729B2 (en) LEARNING DEVICE, INFORMATION OUTPUT DEVICE, AND PROGRAM
WO2014073206A1 (en) Information-processing device and information-processing method
Yousefnezhad et al. A new selection strategy for selective cluster ensemble based on diversity and independency
Finch et al. Classification accuracy of neural networks vs. discriminant analysis, logistic regression, and classification and regression trees
Ji et al. scAnnotate: an automated cell-type annotation tool for single-cell RNA-sequencing data
JP5210224B2 (en) Annotation data analysis device, annotation data analysis program, and recording medium recording the program
Boettcher et al. ELSA: An efficient, adaptive ensemble learning-based sampling approach
JP5110950B2 (en) Multi-topic classification apparatus, multi-topic classification method, and multi-topic classification program
Zararsiz et al. Classification of RNA-Seq data via bagging support vector machines
CN114118526A (en) Enterprise risk prediction method, device, equipment and storage medium
Pokhrel A comparison of AutoML hyperparameter optimization tools for tabular data
Jones et al. Network model trees
Ferdaus et al. A genetic algorithm approach using improved fitness function for classification rule mining
Fruergaard et al. Dimensionality reduction for click-through rate prediction: Dense versus sparse representation
Olivella et al. Machine learning in political science: Supervised learning models
US20230143721A1 (en) Teaching a machine classifier to recognize a new class
Alade et al. Sentiment analysis of nigerian students’ tweets on education: a data mining approach’
WO2022074711A1 (en) Learning method, estimation method, learning device, estimation device, and program
Tong et al. Impact of likelihoods on class enumeration in bayesian growth mixture modeling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110527

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110902

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121214

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5164209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees