JP2002008000A - データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体 - Google Patents

データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体

Info

Publication number
JP2002008000A
JP2002008000A JP2000181820A JP2000181820A JP2002008000A JP 2002008000 A JP2002008000 A JP 2002008000A JP 2000181820 A JP2000181820 A JP 2000181820A JP 2000181820 A JP2000181820 A JP 2000181820A JP 2002008000 A JP2002008000 A JP 2002008000A
Authority
JP
Japan
Prior art keywords
data
test data
classification
class
nearest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000181820A
Other languages
English (en)
Inventor
Hiroyori Taira
博順 平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000181820A priority Critical patent/JP2002008000A/ja
Publication of JP2002008000A publication Critical patent/JP2002008000A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 訓練データのみならずテストデータの分布を
考慮してテストデータの分布にあった分類装置を構成
し、テストデータの分類精度を上げる。 【解決手段】 yiが未定義値でかつデータN Ntrain(i)
が正しく学習されているテストデータiの中で最小のd
(i, N Ntrain(i))を与えるテストデータiAを見つける
(ステップ1)。yiが未定義値でかつデータN Ntest(i)
のクラスyN Ntest(i )が未定義値でなく、かつN Ntest
(i)が正しく学習されているテストデータの中で、最小
のd(i, N Ntest(i))を与えるテストデータiBを見つけ
る(ステップ3)。テストデータiAとiBで、d(iA, N Nt
rain(iA))とd(iB, N Ntest(iB))を比較し小さい方の
データをiCとする(ステップ4)。yiCに最近接データ
のラベルを代入する(ステップ5)。ステップ1〜4を
一定回数繰り返した後、最後の学習され構成されたデー
タ分類装置でテストデータを分類する(ステップ5)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はデータ分類学習およ
びデータ分類方法、装置、およびデータ分類学習プログ
ラム、データ分類プログラムを記録した記録媒体に関す
る。
【0002】
【従来の技術】従来の、訓練データのみを分類法の学習
で用いるデータ分類について述べる。
【0003】正しい例である正例と誤った例である負例
の2つのクラスのいずれかに属するl個の訓練データの
ベクトルの集合を
【0004】
【外1】 とする。ここで、
【0005】
【外2】 はデータiの特徴ベクトルでn次元のベクトルである。ま
たyiはデータiが正例の場合+1、負例の場合−1の値
をとる変数である。データ分類では、データ中に出現す
る特徴wk(但し、kは1≦k≦nの整数)がテキスト中に
出現する場合にはw k=1、出現しない場合にはwk=0と
して、データをベクトル
【0006】
【外3】 で表す。データがあるカテゴリに含まれる場合を正例、
含まれない場合を負例として、正例と負例を分類する分
類器を、x1〜xlのl個の訓練データを学習することに
よって分類誤りが少なくなるように構成する。こうして
学習された分類器を用いてクラスが未知のm個のテスト
データ
【0007】
【外4】 について分類を行う。
【0008】
【発明が解決しようとする課題】訓練データのみを学習
の用いた従来のデータ分類方法では、訓練データの数が
十分に大きく、訓練データとテストデータが同じ分布か
らサンプリングされたデータであることを仮定し、訓練
データのみを用いて分類法を学習して構成された分類装
置でテストデータの分類を行っていた。しかしながら、
訓練データの数が小さい場合には、訓練データとテスト
データが同じ分布からサンプリングされたデータである
という仮定が成立しなくなり、訓練データの分布には適
合しているがテストデータの分布には十分適合していな
い分類器が構成され、テストデータに対する分類精度が
低くなる原因の一つになっていた。
【0009】本発明の目的は、訓練データのみならずテ
ストデータの分布も考慮してテストデータの分布にあっ
た分類装置を構成し、テストデータの分類精度を高くし
たデータ分類学習方法および装置、データ分類方法およ
び装置、データ分類学習プログラムおよびデータ分類プ
ログラムを記録した記録媒体を提供することにある。
【0010】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、クラスが未知のテストデータに対し正し
く学習されたデータのクラスの中で距離の最も近い特徴
ベクトルを持つデータのクラスを用いてテストデータの
クラスを判定し、クラスの判定されたテストデータも用
いて分類法を学習する。
【0011】テストデータi(iはl+1≦i≦l+mを満た
す整数)からの最近接訓練データNNtrain(i)およびその
距離d(i, N Ntrain(i))、テストデータiからの最近接
テストデータN Ntest(i)およびその距離d(i, NNtest
(i))を求める。ここで、データ1とデータ2の間の距
離d(データ1,データ2)は、(データ1のwk)=(デ
ータ2のwk)=1を満たすk(1≦k≦n)の個数をSとし
たときd(データ1,データ2)=1/(S+1)と定義
する。また、各テストデータiに対するクラスをyiとし
初期値として未定義値を与えておく。
【0012】以下のステップ1〜4を一定回数、繰り返
す(図1)。
【0013】ステップ1.クラスyiが未定義値でかつ最
近接訓練データN Ntrain(i)が正しく学習されているテ
ストデータiの中で最小の距離d(i, N Ntrain(i))を与
えるテストデータiAを見つける。ここで、データが正し
く学習されているとは、データの特徴ベクトルに対して
データ分類装置が判定し出力する分類クラスが真の分類
クラスと一致することをいう。
【0014】ステップ2.yiが未定義値で、かつ最近接
テストデータN Ntest(i)のクラスyN Ntest(i)が未定義値
でなく、かつ最近接テストデータN Ntest(i)が正しく学
習されているテストデータの中で、最小の距離d(i, N N
test(i))を与えるテストデータiBを見つける。
【0015】ステップ3. テストデータiAとiBで、距
離d(iA, N Ntrain(iA))とd(iB, N Ntest(iB))を比較
し、小さい方のデータをiCとする。ステップ1、ステッ
プ2で条件を満たすものが見つからない場合があるが、
その場合は見つけられた方のデータを選ぶ。どちらのス
テップでも条件を満たすものが見つからなかった場合に
はステップ4は行わない。
【0016】ステップ4. yiCに最近接データのラベル
を代入する。つまりiC=iAの場合には、yiC
【0017】
【外5】 を代入、iC=iBの場合には、yiC
【0018】
【外6】 を代入する。
【0019】ステップ5.ステップ1〜4を一定回数繰
り返した後、最後に学習され構成されたデータ分類装置
でテストデータを分類する。
【0020】正しく学習されているデータの中で分類ク
ラスが未知のテストデータと特徴ベクトル間の最も距離
が小さいデータの分類クラスをテストデータの分類クラ
スと見なして分類クラスを付与することで、分類クラス
が未知のテストデータに対して誤りが少ないように分類
クラスを付与することができ、分類クラスが付与された
テストデータも含めて分類法の学習を行いデータ分類装
置を構成し、構成されたデータ分類装置を用いてデータ
分類を行うことで、訓練データの数が小さい場合にもテ
ストデータに対するデータ分類の精度が向上する。
【0021】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0022】図2を参照すると、本発明の一実施形態の
データ分類装置はデータ入力部11と距離計算部12と
データ記憶部13と分類クラス更新部14と学習部15
と分類判定部16と出力部17で構成されている。
【0023】データ入力部11は訓練データとテストデ
ータを入力し、データ記憶部13に記憶する。距離計算
部12はデータの特徴ベクトル間の距離、すなわち各訓
練データと各テストデータ間の距離、各テストデータ間
の距離を求め、次に各テストデータについて、当該テス
トデータまでの距離が最も短い訓練データ(最近接訓練
データ)およびその距離、さらに各テストデータについ
て、当該テストデータまでの距離が最も短い他のテスト
データ(最近接テストデータ)およびその距離を求め、
これらデータをデータ記憶部13に記憶する(ステップ
21、22)。分類クラス更新部14は分類クラスが付
与されていないテストデータに対して条件にしたがって
分類クラスを付与する(ステップ24)。学習部15は
訓練データおよび分類クラスが付与されたテストデータ
を用いて分類法の学習を行い、分類装置を構成する(ス
テップ23)。分類判定部16は、学習部15で構成さ
れた分類装置を用い、入力された分類対象を正例/負例
のいずれかのカテゴリに分類する(ステップ26)。出
力部17は分類結果を出力する(ステップ27)。
【0024】本実施形態の動作を以下のような6個の訓
練データ(x1, yl)〜(x6, y6)とx7〜x11の5個のテス
トデータを用いて詳しく説明する。なお、x1〜x11は1
0次元の特徴ベクトル、y1〜y5は各々x1〜x5に対応する
分類クラスを表す。これらのデータはデータ入力部11
から入力され、データ記憶部13に記憶される。
【0025】 x1=(0, 1, 1, 1, 0, 0, 0, 0, 0, 0), y1=+1, x2=(1, 1, 1, 0, 0, 0, 0, 0, 0, 0), y2=+1, x3=(1, 1, 0, 0, 0, 0, 0, 0, 0, 0), y3=+1, x4=(0, 0, 0, 0, 0, 0, 0, 0, 1, 1), y4=−1, x5=(0, 0, 0, 0, 0, 0, 1, 1, 0, 1), y5=−1, x6=(1, 1, 1, 0, 0, 0, 1, 1, 1, 0), y6=+1, x7=(0, 0, 1, 1, 1, 0, 0, 0, 0, 0) x8=(0, 0, 0, 1, 1, 1, 0, 0, 0, 0) x9=(1, 0, 1, 0, 0, 0, 0, 0, 0, 0) x10=(0, 0, 0, 0, 0, 1, 1, 1, 1, 0) x11=(0, 0, 0, 0, 0, 1, 1, 1, 0, 1) ここで、データAの特徴ベクトルとデータBの特徴ベクト
ルの間で同じ属性の属性値がどちらも1である属性の数
をkABとしたとき、データAとデータBとの間の距離d(A,
B)を、
【0026】
【数1】 と定義する。なお、ベクトル間の距離の定義はこの方法
に限るものではない。
【0027】まず、6個の訓練データ(x1, y1)〜
(x6, y6)と5個のテストデータx7〜x1 1が入力される
と、距離計算部12は5個のテストデータx7〜x11 各々
について、6個の訓練データ(x1, y1)〜(x6, y6)の
うち、注目しているテストデータまでの距離が最も短い
訓練データ(最近接訓練データ)を求める(ステップ
1)。また、最近接訓練データまでの距離も求める。さ
らに、5個のテストデータx7〜x11の各々について、5
個のテストデータのうち、自分自身以外で注目している
テストデータまでの距離が最も短いテストデータ(最近
接テストデータ)を求める(ステップ2)。また、最近
接テストデータまでの距離を求める。
【0028】テストデータx7〜x11に対する最近接デー
タおよび距離は表1のように計算され、データ記憶部1
3に記憶される。なお、表には参考までに、1の重なり
数も示してある。
【0029】
【表1】 次に、学習部14は6個の訓練データ(x1, y1)〜
(x6, y6)および分類クラスが付与されたテストデータ
x9〜x11を用いて学習し、分類装置を構成する。1回目
の学習で、x2, x3, x4は正しく学習できたが、x1, x5,
x6は、正しく学習できなかったとする。このときの状態
は表2のようになっている。ここで、正解クラスとは訓
練データの場合には真の分類クラスを、テストデータの
場合は本発明の装置で最近接データを用いて推定された
クラスを表す。初期状態では、テストデータの正解クラ
スはまた推定されていないので、全て未定義値である。
また、ここで分類装置が判定したクラスとは、分類クラ
スのわかっているデータおよび分類クラスが仮につけら
れたデータを使って学習した結果できたデータ分類装置
でデータを分類したときに判定された分類クラスであ
る。また、正解クラスと学習部14が判定したクラスが
一致するとき「正しく学習された」という。
【0030】
【表2】 テストデータx7〜x11にはどれも分類クラスがまた付与
されていないのでテストデータx7〜x11の中から分類ク
ラスを仮に付与する候補を見つける。テストデータx7
x11のうち最近接訓練データが正しく学習されているも
のは最近接訓練データがx2のx9だけである(ステップ
1)。また、最近接テストデータx7, x8,x10, x11はま
だどれもクラスが付いていない(ステップ2)のでクラ
スが仮に付与される候補はx9となる(ステップ3)。最
近接訓練データx2の分類クラスは表2の分類を見ると、
y2=+1なので、x9の分類クラスを+1とする(ステッ
プ5)。このデータを正解の分類クラスと見なす。
【0031】2回目の学習では分類クラスが仮に付与さ
れたx9のデータも学習に使用するデータに含めて学習を
行う。ここで、x1, x2, x3, x4, x9が正しく学習された
とする。表3を見ると、分類クラスの付けられていない
x7, x8, x10, x11の中で、最近接訓練データが正しく学
習されているものはx7, x8で、このうち距離が最も小さ
いのはx7 である(ステップ1)。また、最近接テスト
データで分類クラスが付与されているx9 を持つものは
なく、候補がない(ステップ2)ので、新しく分類クラ
スが仮に付与されるのはx7 に決定される(ステップ
3)。x7 の分類クラスは最近接訓練データx1 と同じ+
1である(ステップ4)。
【0032】
【表3】 3回目の学習で分類クラスが仮に付与されたx7, x9のデ
ータも学習に使用するデータに含めて学習を行う。ここ
でx1, x2, x3, x4, x5, x7, x9が正しく学習されたとす
る。表4を見ると、分類クラスの付けられていないx8,
x10, x11の中で、最近接訓練データが正しく学習されて
いるものはx8, x11で、このうち距離が最も小さいのはx
11 で距離は0.25である(ステップ1)。また、最近
接テストデータに分類クラスが付与されているのはx8
けで、距離は0.333である(ステップ2)。距離を
比較して0.25の方が小さいので、x11に分類クラスを
仮に付けることに決定する(ステップ3)。分類クラス
は最近接訓練データx5と同じで−1が付けられる(ステ
ップ4)。
【0033】
【表4】 4回目の学習では分類クラスが仮に付与されたx7, x9,
x11のデータも学習に使用するデータに含めて学習を行
う。ここでx1, x2, x3, x4, x5, x7, x9, x11が正しく
学習されたとする。表5を見ると、分類クラスの付けら
れていないx8,x10の中で、最近接訓練データx1, x6が正
しく学習されているものはx8だけで、距離は0.5であ
る(ステップ1)。また、最近接テストデータで分類ク
ラスが付与されているのはx8とx10で、このうち距離が
最短なのはx10で距離は0.25である(ステップ2)。
よってx10に分類クラスを仮に付けることに決定する
(ステップ3)。分類クラスはx10の最近接テストデー
タx11と同じで−1が付けられる(ステップ4)。
【0034】
【表5】 5回目の学習で学習では分類クラスが仮に付与された
x7, x9, x10, x11のデータも学習に使用するデータに含
めて学習を行う。ここでx1, x2, x3, x4, x5, x7, x9,
x10, x11が正しく学習されたとする。表6を見ると、分
類クラスの付けられていないのはx8のみで、その最近接
訓練データx1は正しく学習されており、距離は0.5で
ある(ステップ1)。また、x8の最近接テストデータx7
との距離は0.333である(ステップ2)。よってx8
に分類クラスを仮に付けることに決定する(ステップ
3)。分類クラスはx8の最近接テストデータx7と同じで
+1が付けられる(ステップ4)。x8とその分類クラス
は次回以降学習に利用される。
【0035】
【表6】 こうして1回の学習につき1個のテストデータに分類ク
ラスを仮に付与することで、分類装置は緩やかにテスト
データの分布にあったものに変わっていく。また、x6
ような学習が難しく、信頼性の低い学習結果しか得られ
ないデータを分類クラスの推定に用いないことで、高精
度のクラス推定ができる。さらに、x8のような訓練デー
タだけでは本当はどちらのクラスが判断がつかないよう
なデータも重なり語の大きいx7が+1であること(すな
わち距離が近いこと)を考慮して分類クラス(+1)に
属するものと判断することができる。
【0036】最後に、学習されたデータ分類装置を用い
てテストデータを分類する。
【0037】次に、本実施形態の効果を、訓練データお
よびテストデータにRWCPテキストコーパス(参考文献;
豊浦潤、徳永健伸、井佐原均、岡隆一「RWCにおける分
類コード付きテキストデータベースの開発」情報処理学
会研究報告NLC96―13。IEICE, 1996. 参照)を用いて
説明する。本コーパスは、1994年版の毎日新聞の約
3万件の記事に、国際十進分類法に基づくUDCコード
(参考文献;情報科学技術協会「国際十進分類法」丸
善、1994。参照)を付与したものである。これらの
記事の中から頻度の高い10種類の分類コード(スポー
ツ、刑法、政府、教育、交通、軍事、国際関連、言語活
動、演劇、作物)が付与されたデータ200記事を選
び、1000記事を訓練データ、残りの1000記事を
テストデータ、つまり分類対象データとした。テストデ
ータ数を表7に示す。
【0038】これらの記事に対して形態素解析を行った
後、一つの記事の中に特定の単語が出現するか否かを記
事の特徴と見なし1000次元の特徴ベクトルを構成し
た。
【0039】
【表7】 データ分類装置は上記の10種類の分類に対応して10
台のデータ分類装置を構成する。例えば、スポーツに関
するデータ分類装置においてはスポーツの分類コードが
付与されたデータを正例、付与されていないデータを負
例とし、テストデータに対して正例/負例のいずれかの
カテゴリに入るかを判定する装置である。よって、変数
yiも分類装置毎に設定する。なお、図2は10台のデー
タ分類装置のうちの1台が示してあるが、他の9台も同
じ構成である。学習手法としてはAdaBoost アルゴリズ
ム(参考文献:Y. Freunt, R. E.Schapire. A decision
-theoretic generalization of on-line larning and a
n application to boosting. Journal of Computer and
Sysytem Sciences, 55(1), pp.119-139, 1997.参照)
を用いたが、他の学習手法を用いてもよい。
【0040】分類精度を評価するために、適合率、再現
率、F値(参考文献:B.M.Sundheim.Overview of the F
ourth Mesage Understanding Evaluation and Conferen
ce.Proceedings of Fourth Message Understanding Con
ference, pp.3-29, 1992.参照)を用いた。各分類毎
に、分類モデルと正解の正例と負例の数から、正解が正
例で分類モデルも正例と判断した数aと正解が負例で分
類モデルも正例と判断した数bと正解が正例で分類モデ
ルも負例と判断した数cと考える。すると、適合率P、再
現率Rは、次のように定義される。
【0041】
【数2】 また、F値は適合率、再現率より、
【0042】
【数3】 で表される。ここで、βは重みづけパラメータで、本実
施形態ではβ=1とした。
【0043】本発明の場合と従来手法を比較した結果を
表8に示す。F値は0から1までの値をとり1に近いほ
ど精度が高いので、テストデータの分布も用いた方が分
類精度が高く、本発明がデータ分類の精度を上げるのに
有効であることがわかる。
【0044】
【表8】 図4は本発明の他の実施形態のデータ分類装置の構成図
である。
【0045】入力装置31はキーボードなどで、図1中
のデータ入力部11に相当する。記憶装置32は図1中
のデータ記憶部13に相当する。33はハードディスク
である。出力装置34はプリンタまたはディスプレイ
で、図1の出力部17に相当する。記録媒体35は、図
1中の距離計算部12、分類クラス更新部14、学習部
15、分類判定部16の各部からなるデータ分類プログ
ラムが記録されているフロッピィ・ディスク、CD−RO
M、光磁気ディスクなどである。データ処理装置36はC
PU、各インタフェースを含み記録媒体35からデータ分
類プログラムを読み込んで実行する。
【0046】なお、図1のデータ分類学習方法も同様に
してパソコン等のコンピュータ上で実施できる。
【図面の簡単な説明】
【図1】本発明のデータ分類学習方法の処理の流れ図で
ある。
【図2】本発明の一実施形態のデータ分類装置の構成図
である。
【図3】図1のデータ分類装置の処理の流れ図である。
【図4】本発明の他の実施形態のデータ分類装置の流れ
図である。
【符号の説明】
1〜5 ステップ 11 データ入力部 12 距離計算部 13 データ記憶部 14 分類クラス更新部 15 学習部 16 分類判定部 17 出力部 21〜27 ステップ 31 入力装置 32,33 記憶装置 34 出力装置 35 記録媒体 36 データ処理装置

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 各テストデータについて、当該テストデ
    ータまでの距離が最も短い訓練データである最近接訓練
    データおよびその距離、および当該テストデータまでの
    距離が最も短い他のテストデータである最近接テストデ
    ータおよびその距離が与えられている場合に、テストデ
    ータの分類法を学習するデータ分類学習方法であって、 クラスが未定義値で、かつ最近接訓練データが正しく学
    習されている、すなわち最近接訓練データの特徴ベクト
    ルに対してデータ分類装置が判定し、出力する分類クラ
    スが真の分類クラスと一致するテストデータの中で最近
    接訓練データとの距離が最小の第1のテストデータを求
    めるステップと、 クラスが未定義値で、かつ最近接テストデータのクラス
    が未定義値でなく、かつ最近接テストデータが正しく学
    習されている、すなわち最近接テストデータの特徴ベク
    トルに対してデータ分類装置が判定し、出力する分類ク
    ラスが仮につけられた分類クラスと一致するテストデー
    タの中で最近接テストデータとの距離が最小の第2のテ
    ストデータを求めるステップと、 第1のテストデータと第2のテストデータのうち、それ
    ぞれ最近接訓練データ、最近接テストデータとの距離が
    小さい方のデータを第3のテストデータとするステップ
    と、 第3のテストデータのクラスに、第3のテストデータと
    して選択されたデータのクラスを代入するステップを有
    し、 これらステップを一定回数繰り返し、その際第1、第2
    のテストデータのいずれも求まらず、したがって第3の
    データが求まらなかった場合、最後のステップを行わな
    いデータ分類学習方法。
  2. 【請求項2】 訓練データとテストデータを入力し、デ
    ータの特徴ベクトル間の距離を計算する第1のステップ
    と、 各テストデータについて、当該テストデータまでの距離
    が最も短い訓練データである最近接訓練データおよびそ
    の距離、および当該テストデータまでの距離が最も短い
    他のテストデータである最近接テストデータおよびその
    距離を求める第2のステップと、 前記訓練データおよび分類クラスが付与されたテストデ
    ータを用いて学習し、データ分類装置を構成する第3の
    ステップと、 分類クラスが未だ付与されていないテストデータの中か
    ら分類クラスを付与する候補を見つけ、該候補の最近接
    データの分類クラスに基づいて分類クラスを付与する第
    4のステップと、 第3と第4のステップを前記訓練データの数だけ繰り返
    した後、各テストデータを正例/負例のいずれかのカテ
    ゴリに分類し、分類結果を出力する第5のステップを有
    するデータ分類方法。
  3. 【請求項3】 前記第4のステップが、 クラスが初期値で、かつ最近接訓練データが正しく学習
    されている、すなわち最近接訓練データの特徴ベクトル
    に対してデータ分類装置が判定し、出力する分類クラス
    が真の分類クラスと一致するテストデータの中で最近接
    訓練データとの距離が最小の第1のテストデータを求め
    るステップと、 クラスが未定義値で、かつ最近接テストデータのクラス
    が未定義値でなく、かつ最近接テストデータが正しく学
    習されている、すなわち最近接テストデータの特徴ベク
    トルに対してデータ分類装置が判定し、出力する分類ク
    ラスが仮につけられた分類クラスと一致するテストデー
    タの中で最近接テストデータとの距離が最小の第2のテ
    ストデータを求めるステップと、 第1のテストデータと第2のテストデータのうち、それ
    ぞれ最近接訓練データ、最近接テストデータとの距離が
    小さい方のデータを第3のテストデータとするステップ
    と、 第3のテストデータのクラスに、第3のテストデータと
    して選択されたデータのクラスを代入するステップを有
    し、 これらのステップを一定回数繰り返し、その際、第1、
    第2のテストデータのいずれも求まらず、したがって第
    3のデータが求まらなかった場合、最後のステップを行
    わない、請求項2記載のデータ分類方法。
  4. 【請求項4】 各テストデータについて、当該テストデ
    ータまでの距離が最も短い訓練データである最近接訓練
    データおよびその距離、および当該テストデータまでの
    距離が最も短い他のテストデータである最近接テストデ
    ータおよびその距離が与えられている場合に、テストデ
    ータの分類法を学習するデータ分類学習装置であって、 クラスの未定義値で、かつ最近接訓練データが正しく学
    習されている、すなわち最近接訓練データの特徴ベクト
    ルに対してデータ分類装置が判定し、出力する分類クラ
    スが真の分類クラスと一致するテストデータの中で最近
    接訓練データとの距離が最小の第1のテストデータを求
    める手段と、 クラスが未定義値で、かつ最近接テストデータのクラス
    が未定義値でなく、かつ最近接テストデータが正しく学
    習されている、すなわち最近接テストデータの特徴ベク
    トルに対してデータ分類装置が判定し、出力する分類ク
    ラスが仮につけられた分類クラスと一致するテストデー
    タの中で最近接テストデータとの距離が最小の第2のテ
    ストデータを求める手段と、 第1のテストデータと第2のテストデータのうち、それ
    ぞれ最近接訓練データ、最近接テストデータとの距離が
    小さい方のデータを第3のテストデータとする手段と、 第3のテストデータのクラスに、第3のテストデータと
    して選択されたデータのクラスを代入する手段を有し、 これらの手段を一定回数繰り返し実行し、その際、第
    1、第2のテストデータのいずれも求まらず、したがっ
    て第3のテストデータが求まらなかった場合、最後の手
    段を実行しないデータ分類学習装置。
  5. 【請求項5】 訓練データとテストデータを入力するデ
    ータ入力部と、 データ記憶部と、 訓練データとテストデータの特徴ベクトル間の距離を計
    算し、各テストデータについて、当該テストデータまで
    の距離が最も短い訓練データである最近接訓練データお
    よびその距離、および当該テストデータまでの距離が最
    も短い他のテストデータである最近接テストデータおよ
    びその距離を求め、前記データ記憶部に格納する距離計
    算部と、 分類クラスが付与されていないテストデータに対して条
    件にしたがって分類クラスを付与する分類クラス更新部
    と、 訓練データおよび分類クラスが付与されたテストデータ
    を用いて分類法の学習を行い、データ分類装置を構成す
    る学習部と、 入力された分類対象を正例/負例のいずれかのカテゴリ
    に分類する分類判定部と、 前記分類判定部の分類結果を出力する出力部を有するデ
    ータ分類装置。
  6. 【請求項6】 前記分類クラス更新部が、 クラスが未定義値で、かつ最近接訓練データが正しく学
    習されている、すなわち最近接訓練データの特徴ベクト
    ルに対してデータ分類装置が判定し、出力する分類クラ
    スが真の分類クラスと一致するテストデータの中で最近
    接訓練データとの距離が最小の第1のテストデータを求
    める手段と、 クラスが未定義値で、かつ最近接テストデータのクラス
    が未定義値でなく、かつ最近接テストデータが正しく学
    習されている、すなわち最近接テストデータの特徴ベク
    トルに対してデータ分類装置が判定し、出力する分類ク
    ラスが仮につけられた分類クラスと一致するテストデー
    タの中で最近接テストデータとの距離が最小の第2のテ
    ストデータを求める手段と、 第1のテストデータと第2のテストデータのうち、それ
    ぞれ最近接訓練データ、最近接テストデータとの距離が
    小さい方のデータを第3のテストデータとする手段と、 第3のテストデータのクラスに、第3のテストデータと
    して選択されたデータのクラスを代入する手段を有し、 これらの手段を一定回数繰り返し実行し、その際、第
    1、第2のテストデータのいずれも求まらず、したがっ
    て第3のテストデータが求まらなかった場合、最後の手
    段を実行しない、請求項5記載のデータ分類学習装置。
  7. 【請求項7】 各テストデータについて、当該テストデ
    ータまでの距離が最も短い訓練データである最近接訓練
    データおよびその距離、および当該テストデータまでの
    距離が最も短い他のテストデータである最近接テストデ
    ータおよびその距離が与えられている場合に、テストデ
    ータの分類法を学習するデータ分類学習プログラムであ
    って、 クラスが未定義値で、かつ最近接訓練データが正しく学
    習されている、すなわち最近接訓練データの特徴ベクト
    ルに対してデータ分類装置が判定し、出力する分類クラ
    スが真の分類クラスと一致するテストデータの中で最近
    接訓練データとの距離が最小の第1のテストデータを求
    める手順と、 クラスが未定義値で、かつ最近接テストデータのクラス
    が未定義値でなく、かつ最近接テストデータが正しく学
    習されている、すなわち最近接テストデータの特徴ベク
    トルに対してデータ分類装置が判定し、出力する分類ク
    ラスが仮につけられた分類クラスと一致するテストデー
    タの中で最近接テストデータとの距離が最小の第2のテ
    ストデータを求める手順と、 第1のテストデータと第2のテストデータのうち、それ
    ぞれ最近接訓練データ、最近接テストデータとの距離が
    小さい方のデータを第3のテストデータとする手順と、 第3のテストデータのクラスに、第3のテストデータと
    して選択されたデータのクラスを代入する手順を有し、 これら手順を一定回数繰り返し、その際、第1、第2の
    テストデータのいずれも求まらず、したがって第3のテ
    ストデータが求まらなかった場合、最後の手順を行わな
    いデータ分類学習プログラムを記録した記録媒体。
  8. 【請求項8】 訓練データとテストデータを入力し、デ
    ータの特徴ベクトル間の距離を計算する第1の手順と、 各テストデータについて、当該テストデータまでの距離
    が最も短い訓練データである最近接訓練データおよびそ
    の距離、および当該テストデータまでの距離が最も短い
    他のテストデータである最近接テストデータおよびその
    距離を求める第2の手順と、 前記訓練データおよび分類クラスが付与されたテストデ
    ータを用いて学習し、データ分類装置を構成する第3の
    手順と、 分類クラスが未だ付与されていないテストデータの中か
    ら分類クラスを付与する候補を見つけ、該候補の最近接
    データの分類クラスに基づいて分類クラスを付与する第
    4の手順と、 第3と第4の手順を前記訓練データの数だけ繰り返した
    後、各テストデータを正例/負例のいずれかのカテゴリ
    に分類し、分類結果を出力する第5の手順をコンピュー
    タに実行させるためのデータ分類プログラムを記録した
    記録媒体。
  9. 【請求項9】 前記第4の手順が、 クラスが未定義値で、かつ最近接訓練データが正しく学
    習されている、すなわち最近接訓練データの特徴ベクト
    ルに対してデータ分類装置が判定し、出力する分類クラ
    スが真の分類クラスと一致するテストデータの中で最近
    接訓練データとの距離が最小の第1のテストデータを求
    める手順と、 クラスが未定義値で、かつ最近接テストデータのクラス
    が未定義値でなく、かつ最近接テストデータが正しく学
    習されている、すなわち最近接テストデータの特徴ベク
    トルに対してデータ分類装置が判定し、出力する分類ク
    ラスが仮につけられた分類クラスと一致するテストデー
    タの中で最近接テストデータとの距離が最小の第2のテ
    ストデータを求める手順と、 第1のテストデータと第2のテストデータのうち、それ
    ぞれ最近接訓練データ、最近接テストデータとの距離が
    小さい方のデータを第3のテストデータとする手順と、 第3のテストデータのクラスに、第3のテストデータと
    して選択されたデータのクラスを代入する手順を、一定
    回数繰り返し、その際、第1、第2のテストデータのい
    ずれ求まらず、したがって第3のテストデータが求まら
    なかった場合、最後の手順を行わない、請求項8の記録
    媒体。
JP2000181820A 2000-06-16 2000-06-16 データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体 Pending JP2002008000A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000181820A JP2002008000A (ja) 2000-06-16 2000-06-16 データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000181820A JP2002008000A (ja) 2000-06-16 2000-06-16 データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002008000A true JP2002008000A (ja) 2002-01-11

Family

ID=18682691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000181820A Pending JP2002008000A (ja) 2000-06-16 2000-06-16 データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2002008000A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231755A (ja) * 2009-03-05 2010-10-14 Kitami Institute Of Technology 文書自動分類方法及び文書自動分類システム
JP2011107975A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 複数クラス分類装置、複数クラス分類方法および複数クラス分類プログラム
WO2017073373A1 (ja) * 2015-10-30 2017-05-04 株式会社モルフォ 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231755A (ja) * 2009-03-05 2010-10-14 Kitami Institute Of Technology 文書自動分類方法及び文書自動分類システム
JP2011107975A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 複数クラス分類装置、複数クラス分類方法および複数クラス分類プログラム
WO2017073373A1 (ja) * 2015-10-30 2017-05-04 株式会社モルフォ 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置
US11170262B2 (en) 2015-10-30 2021-11-09 Morpho, Inc. Training system, training device, method for training, training data creation device, training data creation method, terminal device, and threshold value changing device
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US10915564B2 (en) Leveraging corporal data for data parsing and predicting
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
US11797822B2 (en) Neural network having input and hidden layers of equal units
US7444279B2 (en) Question answering system and question answering processing method
US8682896B2 (en) Smart attribute classification (SAC) for online reviews
US20040049478A1 (en) Attribute scoring for unstructured content
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
CN102024139A (zh) 字符串识别装置和方法
US11681922B2 (en) Performing inference and training using sparse neural network
JP6699753B2 (ja) 分析プログラム、情報処理装置および分析方法
JP2002133389A (ja) データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体
CN111274402B (zh) 一种基于无监督分类器的电商评论情感分析方法
JP2002008000A (ja) データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体
US11983202B2 (en) Computer-implemented method for improving classification of labels and categories of a database
US20230368003A1 (en) Adaptive sparse attention pattern
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
JP2001022727A (ja) テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
CN113705216B (zh) 依赖关系的检测方法、装置及设备
US11995403B2 (en) Teaching a machine classifier to recognize a new class
US11997056B2 (en) Language model with external knowledge base
US12008024B2 (en) System to calculate a reconfigured confidence score
CN115167913B (zh) 一种操作系统的分层方法、计算设备及存储介质
CN110502226B (zh) 在编程环境中推荐代码的方法和装置
JP2000293502A (ja) データ分類方法及び装置及びデータ分類プログラムを格納した記憶媒体