JP2002133389A - データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体 - Google Patents

データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体

Info

Publication number
JP2002133389A
JP2002133389A JP2000327153A JP2000327153A JP2002133389A JP 2002133389 A JP2002133389 A JP 2002133389A JP 2000327153 A JP2000327153 A JP 2000327153A JP 2000327153 A JP2000327153 A JP 2000327153A JP 2002133389 A JP2002133389 A JP 2002133389A
Authority
JP
Japan
Prior art keywords
data
test data
classification
class
assigned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000327153A
Other languages
English (en)
Inventor
Hiroyori Taira
博順 平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000327153A priority Critical patent/JP2002133389A/ja
Publication of JP2002133389A publication Critical patent/JP2002133389A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 訓練データの数が少ない場合にもテストデー
タに対するデータ分類の精度を向上させる。 【解決手段】 分類クラスが付与されたデータの数が0
または訓練データにおける正例の比率が分類クラスが付
与されたテストデータ中の正例の比率を上回っていれ
ば、分類クラスが付与されていないテストデータ中で強
分類器による評価値が最大のテストデータの分類クラス
に正例を代入し、上回っていなければ、分類クラスが付
与されていないテストデータ中で強分類器による評価が
最小のテストデータの分類クラスに負例を代入する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はデータ分類学習方法
およびデータ分類方法、装置、およびデータ分類学習プ
ログラム、データ分類プログラムを記録した記録媒体に
関する。
【0002】
【従来の技術】従来の、訓練データのみを分類法のブー
スティング学習で用いるデータ分類についてブースティ
ング学習の例としてAdaBoostアルゴリズムを取り上げな
がら図5により述べる(参考文献:ブースティング入
門、人工知能学会誌、Vol. 14, No. 5, pp. 771-780, 1
999)。
【0003】正しい例である正例と誤った例である負例
の2つの分類クラスのいずれかに属すl個の訓練データ
のベクトルの集合を、
【0004】
【外1】 とする。ここで、
【0005】
【外2】 はデータiの特徴ベクトルで、n次元のベクトルである。
またyiはデータiに対する分類クラスを表し、正例の場
合+1、負例の場合−1の値をとる変数である。データ
分類では、データ中に出現する特徴wk(ただし、kは1
knの整数)がテキスト中に出現する場合にはwk
1、出現しない場合にはwk=0として、データをベクト
【0006】
【外3】 で表す。データがあるカテゴリに含まれる場合を正例、
含まれない場合を負例として、正例と負例を分類する分
類器を、
【0007】
【外4】 のl個の訓練データを学習することによって分類誤りが
少なくなるように構成する。分類器の構成は以下の手順
で行う。
【0008】(ステップ41)m個の訓練データ
【0009】
【外5】 が入力として与えられる。ここで、
【0010】
【外6】 は特徴ベクトル、y1, ・・・・, ymは各々
【0011】
【外7】 に対する分類クラスで、正例のとき+1、負例のとき−
1とする。また、各訓練データに対する重みの初期値と
してD1(i)=1/mを与える。ただし、i=1,・・・・
mとする。
【0012】(ステップ42)重みDtにしたがって訓練
データを学習し、
【0013】
【外8】 に対して正例と判定するときは+1、負例とするときは
−1を出力する弱分類器
【0014】
【外9】 を得る。
【0015】(ステップ43)パラメータαtを計算す
る。AdaBoostアルゴリズムの場合、
【0016】
【数1】 を計算する。ここで、
【0017】
【外10】 は重み付き誤分類率で
【0018】
【数2】 で計算される。
【0019】(ステップ44)各訓練データの重みを更
新する。AdaBoostアルゴリズムの場合、次式によって各
訓練データの重みを更新する。
【0020】
【数3】 (ステップ45)各ラウンドt=1, ・・・・,Tに対し、
以上のステップ42からステップ44を繰り返す (ステップ46)最後に、以下の線形和で最終的な分類
器(強分類器と呼ぶ)を得る。
【0021】
【数4】 以上のようにブースティング学習では各ラウンドで1つ
ずつ弱分類器を学習・生成するとともに、訓練データに
対する重みの更新を行う。最後に、ステップ46でパラ
メータαtを係数として弱分類器の線形和をとり、最終
的な分類器(強分類器)を得る。
【0022】こうして学習された分類器
【0023】
【外11】 を用いてクラスが未知のm個のテストデータ
【0024】
【外12】 ついて分類を行う。
【0025】
【発明が解決しようとする課題】訓練データのみを学習
に用いた従来のブースティング学習によるデータ分類で
は、訓練データの数が十分に大きく、訓練データとテス
トデータが同じ分布からサンプリングされたデータであ
ることを仮定し、訓練データのみを用いて分類法を学習
して構成された分類器でテストデータの分類を行ってい
た。しかしながら、訓練データの数が小さい場合には、
訓練データとテストデータが同じ分布からサンプリング
されたデータであるという仮定が成立しなくなり、訓練
データの分布には適合しているがテストデータの分布に
は十分適合していない分類器が構成され、テストデータ
に対する分類精度が低くなる原因の一つになっていた。
【0026】本発明の目的は、訓練データのみならずテ
ストデータの分布も考慮してテストデータの分布にあっ
た分類器をブースティング学習で構成し、テストデータ
の分類精度を高くしたデータ分類学習方法および器、デ
ータ分類方法および器、データ分類学習プログラムおよ
びデータ分類プログラムを記録した記録媒体を提供する
ことにある。
【0027】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、分類クラスが未知のテストデータに対
し、これまで学習された弱分類器を結合した強分類器に
よって評価値を得たものの中で負例を付与する場合には
最小の評価値、正例を付与する場合に最大の評価値をと
るデータに分類クラスを与え、クラスの判定されたテス
トデータも用いて分類法を学習する。また、正例と負例
が訓練データの正例と負例の比率と同じになるように分
類クラスを付与する。
【0028】以下の手順を繰り返す(図1)。
【0029】(ステップ1)m個の訓練データ
【0030】
【外13】 が入力として与えられる。ここで、
【0031】
【外14】 は特徴ベクトル、y1, ・・・・, ymは各々
【0032】
【外15】 に対する分類クラスで、正例のとき+1、負例のとき−
1とする。また、各訓練データに対する重みの初期値と
してD1(i)=1/mを与える。ただし、i=1,・・・・
mとする。
【0033】(ステップ2)入力としてn個のテストデ
ータ
【0034】
【外16】 が与えられる。ここで、
【0035】
【外17】 は特徴ベクトル、ym+1, ・・・, ym+nは各々
【0036】
【外18】 に対する分類クラスで、初期値として0を与える。各テ
ストデータに対する重みの初期値としてD1(j) =0(j
=m+1,・・・,m+n)を与える。
【0037】(ステップ3)重みDtにしたがって分類ク
ラスが付与されている(yi≠0)データを学習し、
【0038】
【外19】 に対して正例と判定するときは+1、負例とするときは
−1を出力する弱分類器
【0039】
【外20】 を得る。
【0040】(ステップ4)パラメータαtを計算す
る。AdaBoostアルゴリズムの場合は、パラメータ
【0041】
【数5】 を計算する。ここで、
【0042】
【外21】 は重み付き誤分類率で
【0043】
【数6】 で計算される。
【0044】(ステップ5)各データの重みを更新す
る。AdaBoostアルゴリズムの場合は、次式によって各デ
ータの重みを更新する。
【0045】
【数7】 (ステップ6〜8)
【0046】
【外22】 を訓練データ中の正例の数、
【0047】
【外23】 を既に分類クラスが付与されているテストデータの数、
【0048】
【外24】 を分類クラスとして正例が付与されたテストデータ数と
するとき、
【0049】
【数8】 が最大値をとるテストデータjに対してyj=+1および
Dt+1(j)=ε(εは小さい値で例えばε=0.01)
を与える。また、このとき分類クラスを付与するデータ
以外で既に分類クラスが付与されていたデータの重みを
【0050】
【数9】 の式で更新する。ここで、
【0051】
【外25】 はj以外の重みの和を1−εにするための正規化定数で
ある。
【0052】
【数10】 が最小値をとるテストデータjに対してyj=−1およ
びDt+1(j)=εを与える。また、このとき分類クラス
を付与するデータ以外で既に分類クラスが付与されてい
たデータの重みを
【0053】
【数11】 の式で更新する。ここで、
【0054】
【外26】 はj以外の重みの和を1−εにするための正規化定数で
ある。
【0055】(ステップ9)各ラウンドt = 1, ・・・
・,Tに対し、以上のステップ3からステップ8を繰り返
す。
【0056】(ステップ10)最後に以下の線形和で最
終的な分類器(強分類器)を得る。
【0057】
【数12】 それまでのステップで学習されている弱分類器を組み合
わせて作った強分類器による評価に基づいて学習を行う
ことで分類クラスが予め与えられていないテストデータ
にも分類クラスを付与し、分類クラスの付与されたテス
トデータも含めて分類法の学習を行いデータ分類器を構
成し、構成されたデータ分類器を用いてデータ分類を行
うことで、訓練データの数が小さい場合にもテストデー
タに対するデータ分類の精度が向上する。
【0058】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0059】図2を参照すると、本発明の一実施形態の
データ分類器はデータ入力部21と評価部22とデータ
記憶部23と分類クラス更新部24と学習部25と分類
判定部26と出力部27で構成されている。
【0060】データ入力部21は訓練データとテストデ
ータを入力し、データ記憶部23に記憶する。学習部2
5は訓練データおよび分類クラスが付与されたテストデ
ータを用いて分類法の学習を行い、分類器を構成する。
評価部22は分類クラスの付与されていないテストデー
タについて強分類器
【0061】
【外27】 による評価値を求め、これをデータ記憶部23に記憶す
るとともに、分類クラス更新部24が正例を付与する場
合には最大の、負例を付与する場合には最小の、評価値
を与える分類クラスの付与されていないテストデータへ
分類クラスを付与する。分類判定部26は、学習部25
で構成された分類器を用い、入力された分類対象を正例
/負例のいずれかのカテゴリに分類する。出力部27は
分類結果を出力する。
【0062】本実施形態の動作を以下のような5個の訓
練データ
【0063】
【外28】 と5個のテストデータ
【0064】
【外29】 を用いて詳しく説明する。なお、
【0065】
【外30】 は10次元の特徴ベクトル、y1, ・・・・、y10は各々
【0066】
【外31】 に対応する分類クラスを表す。これらのデータはデータ
入力部11から入力され、データ記憶部23に記憶され
る(ステップ1、2)。
【0067】 x1 =(0, 1, 1, 1, 0, 0, 0, 0, 0, 0), y1 =+1, x2 =(1, 1, 1, 0, 0, 0, 0, 0, 0, 0), y2 =+1, x3 =(1, 1, 0, 0, 0, 0, 0, 0, 0, 0), y3 =+1, x4 =(0, 0, 0, 0, 0, 0, 0, 0, 1, 1), y4 =−1, x5 =(0, 0, 0, 0, 0, 0, 1, 1, 0, 1), y5 =−1, x6 =(0, 1, 1, 1, 1, 0, 0, 0, 0, 0) x7 =(0, 1, 0, 1, 1, 1, 0, 0, 0, 0) x8 =(1, 0, 1, 0, 0, 0, 0, 0, 0, 0) x9 =(0, 0, 0, 0, 0, 1, 1, 1, 1, 0) x10 =(0, 0, 0, 0, 0, 1, 1, 1, 0, 1) 学習部25は5個の訓練データおよび分類クラスが付与
されたテストデータを用いて学習し、分類器を構成する
(ステップ3〜6)。1回目の学習、すなわちt=1の
とき、テストデータには分類クラスが付与されていない
ため、x1, ・・・, x5だけで学習が行われる。このとき
の状態は表1のようになっている。
【0068】
【表1】 ここで、yは訓練データの場合には真の分類クラスを、
テストデータの場合は本発明の装置で推定され付与され
た分類クラスを表す。初期状態では、テストデータの正
解クラスはまだ推定されておらず、全て0とする。ま
た、ここで分類器が判定したクラスとは、分類クラスの
分かっているデータを使って学習した結果できた分類器
でデータを分類したときに判定された分類クラスであ
る。ここで、ε1およびα1を計算する。yの値が0でな
いもので、弱分類器の評価がyの値と異なるデータはx
1とx5なので ε1=0.2+0.2=0.4、 α1=(1/2)ln(0.6/0.4)=0.202
7 となる。
【0069】次に、テストデータにはどれも分類クラス
がまだ付与されていないので、x6〜x10の中から分類ク
ラスを付与する候補を見つける。また、
【0070】
【外32】 なので、分類クラスは正例を与える(ステップ7)。強
分類器による評価で最大値のものはx8であるので、x8
分類クラスy8 =+1を付与する。これを正解の分類ク
ラスとみなす。重みは0.01が与えられる。
【0071】2回目の学習、すなわちt=2のとき、分
類クラスの付与されたx8のデータも含めて学習を行う。
ここで、ε2およびα2を計算する。yの値が0でないも
ので、弱分類器の評価がyの値と異なるデータはx8
ので ε2=0.01 α2=(1/2)ln(0.99/0.01)=2.2
975 となる。
【0072】
【数13】 なので、分類クラスは負例を与える(ステップ8)。分
類クラスの付与されていないデータの中で強分類器によ
る評価で最小値のものはx9, x10なので、ここではx9
分類クラスy9=−1を付与する。これを正解の分類クラ
スとみなす。重みは0.01が与えられる(表2)。
【表2】
【0073】3回目の学習、すなわちt=3のとき、分
類クラスの付与されたx8, x9のデータも含めて学習を行
う。ここで、ε3およびα3を計算する。yの値が0でな
いもので、弱分類器の評価がyの値と異なるデータはx
9なので、 ε3=0.01 α3=(1/2)ln(0.99/0.01)=2.2
975
【0074】
【数14】 なので、分類クラスは正例を与える(ステップ7)。分
類クラスの付与されていないデータの中で強分類器によ
る評価で最大値のものはx6, x7なので、ここでは、x6
分類クラスy6=+1を付与する。これを正解の分類クラ
スとみなす。重みは0.01が与えられる(表3)。
【0075】
【表3】 4回目の学習、すなわちt=4のとき、分類クラスの付
与されたx6, x8, x9のデータも含めて学習を行う。ここ
で、ε4およびα4を計算する。yの値がでないもので、
弱分類器の評価がyと異なるデータはx2、x3、x8
ので、 ε4=0.1385+0.1385+0.07565=
0.3526 α4=(1/2)ln(0.6474/0.3526)
=0.5212
【0076】
【数15】 なので、分類クラスは負例を与える(ステップ8)。分
類クラスの付与されていないデータの中で強分類器によ
る評価で最小値のものはx10なので、ここでは、x 10に分
類クラスy10=−1を付与する。これを正解の分類クラ
スとみなす。重みは0.01が与えられる(表4)。
【0077】
【表4】 5回目の学習、すなわちt=5のとき、分類クラスの付
与されたx6, x7, x9,x10のデータも訓練データとみなし
て学習を行う。ここで、ε5およびα5を計算する。yの
値が0でないもので、弱分類器の評価がyの値と異なる
データはx4なので ε5=0.1059 α5=(1/2)ln(0.8941/0.1059)
=1.0666 となる。
【0078】
【数16】 なので、分類クラスは正例を与える(ステップ7)。分
類クラスの付与されていないデータの中で強分類器によ
る評価で最大値のものはx7なので、x7に分類クラスy7
=+1を付与する。これを正解の分類クラスとみなす。
重みは0.01が与えられる(表5)。
【0079】
【表5】 こうして1回の学習につき1個のテストデータに分類ク
ラスを付与することで、分類器は緩やかにテストデータ
の分布にあったものに変わっていく。
【0080】この後、出力部27で分類結果を出力する
(ステップ11)。
【0081】次に、本実施形態の効果を、訓練データお
よびテストデータに、RWCPテキストコーパス(参考文
献:豊浦潤、徳永健伸、井佐原均、岡隆一。RWCにおけ
る分類コード付きテキストデータベースの開発。情報処
理学会研究報告NLC96-13.IEICE, 1996. 参照)を用いて
説明する。本コーパスは、1994年版の毎日新聞の約
3万件の記事に、国際十進分類法に基づくUDCコード
(参考文献:情報科学技術協会. 国際十進分類法. 丸
善、1994。参照)を付与したものである。これらの
記事の中から頻度の高い10種類の分類コード(スポー
ツ、刑法、政府、教育、交通、軍事、国際関連、言語活
動、演劇、作物)が付与されたデータ2000記事を選
び、1000記事を訓練データ、残りの1000記事を
テストデータ、つまり分類対象データとした。テストデ
ータ数を表6に示す。
【0082】
【表6】 これらの記事に対して形態素解析を行った後、一つの記
事の中に特定の単語が出現するか否かを記事の特徴とみ
なし1000次元の特徴ベクトルを構成した。
【0083】分類器は上記の10種類の分類に対応して
10台の分類器を構成する。例えば、スポーツに関する
分類器においてはスポーツの分類コードが付与されたデ
ータを正例、付与されていないデータを負例とし、テス
トデータに対して正例/負例のいずれかのカテゴリに入
るかを判定する装置である。よって、変数yiも分類装置
毎に設定する。なお、図2は10台の分類器のうちの1
台が示してあるが、他の9台も同じ構成である。ブース
ティング学習アルゴリズムとしてはAdaBoostアルゴリズ
ム(参考文献:Y. Freunt, R. E. Schapire. A decisi
on-theoretic generalization of on-line learning an
d an application to boosting. Journal of Computer
and Sysytem Sciences, 55(1), pp.119-139, 1997.参
照)を用いたが、他のブースティング学習アルゴリズム
を用いてもよい。
【0084】分類精度を評価するために、適合率、再現
率、F値(参考文献:B. M. Sundheim. Overview of th
e Fourth Message Understanding Evaluation and Conf
erence. Proceedings of Fourth Message Understandin
g Conference, pp.3-29, 1992. 参照)を用いた。各分
類毎に、分類モデルと正解の正例と負例の数から、正解
が正例で分類モデルも正例と判断した数aと正解が負例
で分類モデルも正例と判断した数bと正解が正例で分類
モデルも負例と判断した数cとを考える。すると、適合
率P、再現率Rは、次のように定義される。
【0085】
【数17】 また、F値は適合率、再現率より、
【0086】
【数18】 で表される。ここで、βは重みづけパラメータで本実施
形態ではβ=1とした。
【0087】本発明の場合と従来手法を比較した結果を
表7に示す。なお、訓練データ数を前述の1000記事
から無作為に選んだ100、テストデータを前述の10
00記事と同じ1000とした。F値は0から1までの
値をとり1に近いほど精度が高いので、10カテゴリの
うち9カテゴリでテストデータの分布も用いた方が分類
精度が高く、本発明がデータ分類の精度をあげるのに有
効であることが分かる。
【0088】
【表7】 図4は本発明の他の実施形態のデータ分類器の構成図で
ある。
【0089】入力装置31はキーボードなどで、図2中
のデータ入力部21に相当する。記憶装置32は図2中
のデータ記憶部23に相当する。33はハードディスク
である。出力装置34はプリンタまたはディスプレイ
で、図2の出力部27に相当する。記録媒体35は、図
2中の評価部22、分類クラス更新部24、学習部2
5、分類判定部26の各部からなるデータ分類プログラ
ムが記録されているフロッピィ・ディスク、CD−ROM、
光磁気ディスクなどである。データ処理装置36はCP
U、各インタフェースを含む記録媒体35からデータ分
類プログラムを読み込んで実行する。
【0090】なお、図2のデータ分類学習方法も同様に
してパソコンなどのコンピュータ上で実施できる。
【0091】
【発明の効果】以上説明したように、本発明によれば、
訓練データの数が小さい場合にもテストデータに対する
データ分類の精度が向上するという効果がある。
【図面の簡単な説明】
【図1】本発明のデータ分類学習方法の処理の流れ図で
ある。
【図2】本発明の一実施形態のデータ分類器の構成図で
ある。
【図3】図1のデータ分類器の処理の流れ図である。
【図4】本発明の他の実施形態のデータ分類器の流れ図
である。
【図5】従来のデータ分類学習方法の処理の流れ図であ
る。
【符号の説明】
1〜11 ステップ 21 データ入力部 22 評価部 23 データ記憶部 24 分類クラス更新部 25 学習部 26 分類判定部 27 出力部 31 入力装置 32、33 記憶装置 34 出力装置 35 記録媒体 36 データ処理装置 41〜46 ステップ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 特徴ベクトルと、該特徴ベクトルの分類
    クラスの組からなるm個(mは1以上の整数)の訓練デ
    ータを入力するとともに、各訓練データに対する重みの
    初期値を与える第1のステップと、 特徴ベクトルと、未だ与えられていない、該特徴ベクト
    ルの分類クラスの組からなるn個(nは1以上の整数)
    のテストデータを入力するとともに、各テストデータに
    対する重みの初期値を与える第2のステップと、 重みにしたがって訓練データを学習し、弱分類器を得る
    第3のステップと、 パラメータを計算する第4のステップと、 各データの重みを更新する第5のステップと、 既に分類クラスが付与されているテストデータの数がゼ
    ロまたは訓練データ中の正例の数/訓練データの総数
    分類クラスとして正例が付与されたテストデータの数/
    既に分類クラスが付与されているテストデータの数のと
    き、分類クラス付与されていないテストデータの中で、
    それまで学習されている弱分類器を組み合せた強分類器
    による評価値が最大のテストデータに分類クラスとして
    正例を与えるとともに、該テストデータ以外で既に分類
    クラスが付与されているデータの重みを更新し、既に分
    類クラスが付与されているテストデータの数がゼロでな
    く、かつ訓練データ中の正例の数/訓練データの総数<
    分類クラスとして正例が付与されたテストデータの数/
    既に分類クラスが付与されているテストデータの数のと
    き、分類クラスが与えられていないテストデータの中
    で、それまで学習されている弱分類器を組合わせた強分
    類器による評価値が最小のテストデータに分類クラスと
    して負例を与え、該テストデータ以外で既に分類クラス
    が付与されているテストデータの重みを更新する第6の
    ステップと、 第3から第6のステップを一定回数繰り返した後、前記
    パラメータを用いて最終的な強分類器を得る第7のステ
    ップを有するデータ分類学習方法。
  2. 【請求項2】 特徴ベクトルと、該特徴ベクトルの分類
    クラスの組からなるm個(mは1以上の整数)の訓練デ
    ータを入力するとともに、各訓練データに対する重みの
    初期値を与える第1のステップと、 特徴ベクトルと、未だ与えられていない、該特徴ベクト
    ルの分類クラスの組からなるn個(nは1以上の整数)
    のテストデータを入力するとともに、各テストデータに
    対する重みの初期値を与える第2のステップと、 重みにしたがって訓練データを学習し、弱分類器を得る
    第3のステップと、 パラメータを計算する第4のステップと、 各データの重みを更新する第5のステップと、 既に分類クラスが付与されているテストデータの数がゼ
    ロまたは訓練データ中の正例の数/訓練データの総数
    分類クラスとして正例が付与されたテストデータの数/
    既に分類クラスが付与されているテストデータの数のと
    き、分類クラスが付与されていないテストデータの中
    で、それまで学習されている弱分類器を組み合せた強分
    類器による評価値が最大のテストデータに分類クラスと
    して正例を与えるとともに、該テストデータ以外で既に
    分類クラスが付与されているデータの重みを更新し、既
    に分類クラスが付与されているテストデータの数がゼロ
    でなく、かつ訓練データ中の正例の数/訓練データの総
    数<分類クラスとして正例が付与されたテストデータの
    数/既に分類クラスが付与されているテストデータの数
    のとき、分類クラスが与えられていないテストデータの
    中で、それまで学習されている弱分類器を組合わせた強
    分類器による評価値が最小のテストデータに分類クラス
    として負例を与え、該テストデータ以外で既に分類クラ
    スが付与されているテストデータの重みを更新する第6
    のステップと、 第3から第6のステップを一定回数繰り返した後、前記
    パラメータを用いて最終的な強分類器を得る第7のステ
    ップと、 各テストデータを、正例、負例のいずれかのカテゴリに
    分類するステップと、 分類結果を出力するステップを有するデータ分類方法。
  3. 【請求項3】 特徴ベクトルと該特徴ベクトルの分類ク
    ラスの組からなるm個(mは1以上の整数)の訓練デー
    タ、特徴ベクトルと、未だ与えられていない、該特徴ベ
    クトルの分類クラスの組からなるn個のテストデータを
    入力する手段と、 前記訓練データと前記テストデータを記憶する手段と、 前記各訓練データおよび各テストデータに対して重みの
    初期値を与える手段と、 重みにしたがって分類クラスが付与されているデータを
    学習し、弱分類器を得、パラメータを計算し、各データ
    の重みを更新し、既に分類クラスが付与されているテス
    トデータの数がゼロまたは訓練データ中の正例の数/訓
    練データの総数分類クラスとして正例が付与されたテ
    ストデータの数/既に分類クラスが付与されているテス
    トデータの数のとき、分類クラスが付与されていないテ
    ストデータの中で、それまで学習されている弱分類器を
    組み合せた強分類器による評価値が最大のテストデータ
    に分類クラスとして正例を与えるとともに、該テストデ
    ータ以外で既に分類クラスが付与されているデータの重
    みを更新し、既に分類クラスが付与されているテストデ
    ータの数がゼロでなく、かつ訓練データ中の正例の数/
    訓練データの総数<分類クラスとして正例が付与された
    テストデータの数/既に分類クラスが付与されているテ
    ストデータの数のとき、分類クラスが与えられていない
    テストデータの中で、それまで学習されている弱分類器
    を組合わせた強分類器による評価値が最小のテストデー
    タに分類クラスとして負例を与え、該テストデータ以外
    で既に分類クラスが付与されているテストデータの重み
    を更新することを一定回数繰り返した後、前記パラメー
    タを用いて最終的な強分類器を得る手段を有するデータ
    分類学習装置。
  4. 【請求項4】 特徴ベクトルと該特徴ベクトルの分類ク
    ラスの組からなるm個(mは1以上の整数)の訓練デー
    タ、特徴ベクトルと、未だ与えられていない、該特徴ベ
    クトルの分類クラスの組からなるn個のテストデータを
    入力する手段と、 前記訓練データと前記テストデータを記憶する手段と、 前記各訓練データおよび各テストデータに対して重みの
    初期値を与える手段と、 重みにしたがって分類クラスが付与されているデータを
    学習し、弱分類器を得、パラメータを計算し、各データ
    の重みを更新し、既に分類クラスが付与されているテス
    トデータ中の数がゼロまたは訓練データの正例の数/訓
    練データの総数分類クラスとして正例が付与されたテ
    ストデータの数/既に分類クラスが付与されているテス
    トデータの数のとき、分類クラスが付与されていないテ
    ストデータの中で、それまで学習されている弱分類器を
    組み合せた強分類器による評価値が最大のテストデータ
    に分類クラスとして正例を与えるとともに、該テストデ
    ータ以外で既に分類クラスが付与されているデータの重
    みを更新し、既に分類クラスが付与されているテストデ
    ータの数がゼロでなく、かつ訓練データ中の正例の数/
    訓練データの総数<分類クラスとして正例が付与された
    テストデータの数/既に分類クラスが付与されているテ
    ストデータの数のとき、分類クラスが与えられていない
    テストデータの中で、それまで学習されている弱分類器
    を組合わせた強分類器による評価値が最小のテストデー
    タに分類クラスとして負例を与え、該テストデータ以外
    で既に分類クラスが付与されているテストデータの重み
    を更新することを一定回数繰り返した後、前記パラメー
    タを用いて最終的な強分類器を得る手段と、 各テストデータを正例、負例のいずれかのカテゴリに分
    類する手段と、 分類結果を出力する手段を有するデータ分類装置。
  5. 【請求項5】 特徴ベクトルと、該特徴ベクトルの分類
    クラスの組からなるm個(mは1以上の整数)の訓練デ
    ータを入力するとともに、各訓練データに対する重みの
    初期値を与える第1の手順と、 特徴ベクトルと、未だ与えられていない、該特徴ベクト
    ルの分類クラスの組からなるn個(nは1以上の整数)
    のテストデータを入力するとともに、各テストデータに
    対する重みの初期値を与える第2の手順と、 重みにしたがって訓練データを学習し、弱分類器を得る
    第3の手順と、 パラメータを計算する第4の手順と、 各データの重みを更新する第5の手順と、 既に分類クラスが付与されているテストデータの数がゼ
    ロまたは訓練データ中の正例の数/訓練データの総数
    分類クラスとして正例が付与されたテストデータの数/
    既に分類クラスが付与されているテストデータの数のと
    き、分類クラスが付与されていないテストデータの中
    で、それまで学習されている弱分類器を組み合せた強分
    類器による評価値が最大のテストデータに分類クラスと
    して正例を与えるとともに、該テストデータ以外で既に
    分類クラスが付与されているデータの重みを更新し、既
    に分類クラスが付与されているテストデータの数がゼロ
    でなく、かつ訓練データ中の正例の数/訓練データの総
    数<分類クラスとして正例が付与されたテストデータの
    数/既に分類クラスが付与されているテストデータの数
    のとき、分類クラスが与えられていないテストデータの
    中で、それまで学習されている弱分類器を組合せた強分
    類器による評価値が最小のテストデータに分類クラスと
    して負例を与え、該テストデータ以外で既に分類クラス
    が付与されているテストデータの重みを更新する第6の
    手順と、 第3から第6の手順を一定回数繰り返した後、前記パラ
    メータを用いて最終的な強分類器を得る第7の手順をコ
    ンピュータに実行させるためのデータ分類学習プログラ
    ムを記録した記録媒体。
  6. 【請求項6】 特徴ベクトルと、該特徴ベクトルの分類
    クラスの組からなるm個(mは1以上の整数)の訓練デ
    ータを入力するとともに、各訓練データに対する重みの
    初期値を与える第1の手順と、 特徴ベクトルと、未だ与えられていない、該特徴ベクト
    ルの分類クラスの組からなるn個(nは1以上の整数)
    のテストデータを入力するとともに、各テストデータに
    対する重みの初期値を与える第2の手順と、 重みにしたがって訓練データを学習し、弱分類器を得る
    第3の手順と、 パラメータを計算する第4の手順と、 各データの重みを更新する第5の手順と、 既に分類クラスが付与されているテストデータの数がゼ
    ロまたは訓練データ中の正例の数/訓練データの総数
    分類クラスとして正例が付与されたテストデータの数/
    既に分類クラスが付与されているテストデータの数のと
    き、分類クラスが付与されていないテストデータの中
    で、それまで学習されている弱分類器を組み合せた強分
    類器による評価値が最大のテストデータに分類クラスと
    して正例を与えるとともに、該テストデータ以外で既に
    分類クラスが付与されているデータの重みを更新し、既
    に分類クラスが付与されているテストデータの数がゼロ
    でなく、かつ訓練データ中の正例の数/訓練データの総
    数<分類クラスとして正例が付与されたテストデータの
    数/既に分類クラスが付与されているテストデータの数
    のとき、分類クラスが与えられていないテストデータの
    中で、それまで学習されている弱分類器を組合せた強分
    類器による評価値が最小のテストデータに分類クラスと
    して負例を与え、該テストデータ以外で既に分類クラス
    が付与されているテストデータの重みを更新する第6の
    手順と、 第3から第6の手順を一定回数繰り返した後、前記パラ
    メータを用いて最終的な強分類器を得る第7の手順と、 各テストデータを正例、負例のいずれかのカテゴリに分
    類する第8の手順と、 分類結果を出力する第9の手順をコンピュータに実行さ
    せるためのデータ分類プログラムを記録した記録媒体。
JP2000327153A 2000-10-26 2000-10-26 データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体 Pending JP2002133389A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000327153A JP2002133389A (ja) 2000-10-26 2000-10-26 データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000327153A JP2002133389A (ja) 2000-10-26 2000-10-26 データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002133389A true JP2002133389A (ja) 2002-05-10

Family

ID=18804233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000327153A Pending JP2002133389A (ja) 2000-10-26 2000-10-26 データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2002133389A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209755A (ja) * 2005-01-24 2006-08-10 Mitsubishi Electric Research Laboratories Inc シーンから取得されたフレームシーケンス中の移動オブジェクトを追跡する方法
JP2009500755A (ja) * 2005-07-01 2009-01-08 マイクロソフト コーポレーション 文書視覚構造の文法的な解析
JP2010112889A (ja) * 2008-11-07 2010-05-20 Asia Air Survey Co Ltd 認識システム、認識方法、および認識プログラム
JP2012073683A (ja) * 2010-09-27 2012-04-12 Fujitsu Ltd 人物検出装置、人物検出方法及びプログラム
US8509563B2 (en) 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
WO2015178219A1 (ja) * 2014-05-22 2015-11-26 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US9323839B2 (en) 2011-01-13 2016-04-26 Mitsubishi Electric Corporation Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
JP2018514840A (ja) * 2015-03-02 2018-06-07 ブルヴェクター, インコーポレーテッドBluvector, Inc. 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム
US11151472B2 (en) 2017-03-31 2021-10-19 At&T Intellectual Property I, L.P. Dynamic updating of machine learning models

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209755A (ja) * 2005-01-24 2006-08-10 Mitsubishi Electric Research Laboratories Inc シーンから取得されたフレームシーケンス中の移動オブジェクトを追跡する方法
JP2009500755A (ja) * 2005-07-01 2009-01-08 マイクロソフト コーポレーション 文書視覚構造の文法的な解析
US8249344B2 (en) 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US8509563B2 (en) 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
JP2010112889A (ja) * 2008-11-07 2010-05-20 Asia Air Survey Co Ltd 認識システム、認識方法、および認識プログラム
JP2012073683A (ja) * 2010-09-27 2012-04-12 Fujitsu Ltd 人物検出装置、人物検出方法及びプログラム
US9323839B2 (en) 2011-01-13 2016-04-26 Mitsubishi Electric Corporation Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
WO2015178219A1 (ja) * 2014-05-22 2015-11-26 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2018514840A (ja) * 2015-03-02 2018-06-07 ブルヴェクター, インコーポレーテッドBluvector, Inc. 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム
US10977571B2 (en) 2015-03-02 2021-04-13 Bluvector, Inc. System and method for training machine learning applications
US12198022B2 (en) 2015-03-02 2025-01-14 Bluvector, Inc. System and method for training machine learning applications
US11151472B2 (en) 2017-03-31 2021-10-19 At&T Intellectual Property I, L.P. Dynamic updating of machine learning models

Similar Documents

Publication Publication Date Title
Harrison et al. Gibbs sampling with people
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
US5819247A (en) Apparatus and methods for machine learning hypotheses
US6397200B1 (en) Data reduction system for improving classifier performance
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
US11574240B2 (en) Categorization for a global taxonomy
CN110197286A (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
Paris et al. Applying boosting techniques to genetic programming
CN111506732A (zh) 一种文本多层次标签分类方法
CN117831570B (zh) 一种基于原型分类器的完全小样本类别增量音频分类方法
JP2002133389A (ja) データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体
CN112800752B (zh) 纠错方法、装置、设备以及存储介质
US11983633B2 (en) Machine learning predictions by generating condition data and determining correct answers
Madukwe et al. A ga-based approach to fine-tuning bert for hate speech detection
CN1391211A (zh) 对识别系统中的参数进行训练的方法和系统
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN113901820A (zh) 一种基于bert模型的中文三元组抽取方法
JP2003016106A (ja) 関連度値算出装置
Alam et al. Probabilistic neural network and word embedding for sentiment analysis
JP2001022727A (ja) テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
CN117576708A (zh) 一种基于偏标记学习的细粒度情感分类方法
JP2002008000A (ja) データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体
CN118378076A (zh) 信息处理装置、信息处理方法及计算机可读存储介质
CN109815490B (zh) 文本分析方法、装置、设备及存储介质