JP4034602B2 - データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム - Google Patents

データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム Download PDF

Info

Publication number
JP4034602B2
JP4034602B2 JP2002175509A JP2002175509A JP4034602B2 JP 4034602 B2 JP4034602 B2 JP 4034602B2 JP 2002175509 A JP2002175509 A JP 2002175509A JP 2002175509 A JP2002175509 A JP 2002175509A JP 4034602 B2 JP4034602 B2 JP 4034602B2
Authority
JP
Japan
Prior art keywords
case
unit
learning
cases
pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002175509A
Other languages
English (en)
Other versions
JP2004021590A (ja
Inventor
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002175509A priority Critical patent/JP4034602B2/ja
Priority to US10/460,209 priority patent/US20030233369A1/en
Publication of JP2004021590A publication Critical patent/JP2004021590A/ja
Application granted granted Critical
Publication of JP4034602B2 publication Critical patent/JP4034602B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置、データ分類装置の能動学習方法及びデータ分類装置の能動学習プログラムに関するものである。
【0002】
【従来の技術】
サポートベクトルマシン(Support Vector Machines:以下SVMと略称する)は、二つのクラスのいずれかに属する訓練事例から、未知の事例がいずれのクラスに属するかを判定する分類方法であり(「The Nature of Statistical Learning Theory」,V. Vapnik,Springer-Verlag)、音声認識や文字認識、図形認識などのパターン認識分野や医療診断分野等の種々の分野に応用されている。
【0003】
このようなSVMに基づく分類装置及や分類方法において、能動学習法を用いたものが開発されつつある。能動学習について説明すると、一般の学習法においては、訓練される側は、学習に使用する事例を選択することなく、与えられた事例をそのまま使用して学習するのに対して、能動学習法では、訓練される側がどの事例について正解が欲しいかを要求するステップを含んでいる。すなわち、能動学習法においては、まず、訓練される側は、大量にある正解の分かっていない事例(unlabeled examples)の中から、ある事例についての正解を教えてもらうことにより、より高い精度が得られるような事例を選択する。
【0004】
能動学習法の具体例として、ある文書群(プール)があり、個々の文書はクラスAか或いはクラスBに属するという場合に、これらの文書の分類(文書分類)を行う分類器(classfier)を訓練する場合を例にとって説明する。まず、少量の文書(数個から数十程度)について正解クラスを人が付与する(labeled examples)。そして、正解の付いた文書からある方法で学習して分類器を作成する。
【0005】
次に、訓練される側に、その分類器を利用して、正解クラスを知りたい文書を一定数選択させる。そして、選択されたものから人が正解クラスを付与して、これらの文書から学習してまた分類器を作成する。そして、このような工程を複数回繰り返す。
【0006】
一般に、能動学習においては、分類器にとって易しいと予測されたものよりも、曖昧なものや紛らわしいものを優先して正解クラスが付与される。これは、そのように正解クラスを付与することが、ランダムに正解事例を与えるよりも、学習効率が向上できるためであり、ランダムに正解事例を付与した場合において得られる精度と同等の精度を、より少ない正解事例を付与することにより得られることが期待できるからである。従って、例えば文書分類を行う分類装置を能動学習を用いて作ると、正解事例を作成するためのコストが削減できる。
【0007】
以下、このような能動学習法を用いた従来のSVMを用いたデータの分類装置及びその学習方法について図4および図5を用いて説明する。図4は、従来のデータ分類装置を示し、図5は、従来のデータ分類装置の能動学習法を示すフローチャートを示す。
【0008】
図4に示す通り、従来のデータ分類装置は、事例とその正解クラスが正解クラスが付与された事例(正解事例)として記録される正解事例データベース(DB)101と、正解クラスが付与されていない事例(正解クラスの分からない事例)がプールされるプール部103と、正解事例データベース101に記録された正解事例を用いて、サポートベクトルマシンによる能動学習を行うSVM学習部104と、SVM学習部104による学習結果を記憶するSVM分類部105と、プール部103から能動学習に用いる事例をSVM分類部105を用いて選択する能動学習用事例選択部106と、能動学習用事例選択部106により受け取った正解クラスの付与されていない事例についての正解を問い合わせるための正解問い合わせ部107とから主として構成される。正解問い合わせ部107では正解クラスの付与されていない事例について、人的作業により正解クラスが付与される。正解クラスが正解問い合わせ部107において付与されると正解問い合わせ部107は、能動学習用事例選択部106に正解クラス及びその事例の両方を送る構成となっている。
【0009】
以上、説明した従来のデータの分類装置は、その能動学習に際しては、図5に示す通り動作する。
すなわち、まず、少数の正解事例を用意して、正解事例データベース101に格納する(S00)。次に、正解事例データベース101に格納された正解事例を用いてSVM学習部104により学習を行う(S01)。ステップS01においてSVM学習部104により学習した結果をSVM分類部105へ保存する(S02)。
【0010】
次に、能動学習用事例選択部106は、プール部103から各事例を調べ能動学習に使用すべき事例を選択する(S03)。そして、ステップS03で能動学習用事例選択部106により選択された事例を正解問い合わせ部107に送り、正解問い合わせ部107は、人または正解を判定できるその他の機器に問い合わせを行って正解クラスを付与する(S04)。正解クラスが付与された事例は能動学習用事例選択部106に送られ、能動学習用事例選択部106は、これらの正解クラスおよび対応する事例を正解事例データベース101に保存し、ステップS01に戻る。なお、この動作の終了条件は、状況に応じて適宜選択することが可能である。
【0011】
このような従来のデータ分類装置およびその能動学習方法として、例えばSVMの出力が0に近いものをプール部から選択し、そしてこれに対して正解クラスを付与する装置および方法が知られている(例えば、Simon Tong and Daphne Koller,“Support Vector Machine Active Learning with Application to Text Classification”, in Proc. of the 17th International Conference on Machine Learning, 2000等を参照)。
【0012】
ところで、このようなデータ分類装置の作成においては、最終的な学習結果において、プール部103にプールされた事例の集合(プール:正解クラスを付与するのを探し出す事例の集まり)が大きい方が小さい方よりも精度が高くなる。このため、従来では、精度を高めるためには、大きいプールを有するプール部(大きなプール)を設けるようにしている。
【0013】
【発明が解決しようとする課題】
しかしながら、上述した従来のデータ分類装置では、プール部103に蓄えられる事例の集合(プール)を当初から大きくすると、プールが小さいものに比べて、精度が向上するのに時間がかかり、精度の向上が遅くなるという問題点を有していた。
【0014】
従って、本発明は、精度が向上するのに時間がかからず、もって精度の向上が速く、且つ高い精度を得ることができるデータ分類装置、データ分類方法及びデータ分類プログラムを提供することを目的としている。
【0015】
【課題を解決するための手段】
上記課題を解決するため、本発明は、能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置であって、事例とその正解クラスが正解クラスの付与された事例として記録される正解事例データベースと、正解クラスの付与されていない事例がプールされるプール部と、正解事例データベースに記録された正解事例を用いて、サポートベクトルマシンによる能動学習を行うSVM学習部と、SVM学習部による学習結果を記憶すると共に、記憶された学習結果に基づいてデータ分類を行うSVM分類部と、前記プール部から能動学習に用いる事例を前記学習結果を用いて選択する能動学習用事例選択部と、正解クラスの付与されていない新たな事例を取得して前記プール部にプールし、前記プール部にプールされている事例数を増加させるプール事例増加部とから構成されているものである。
【0016】
このデータ分類装置において、前記プール事例増加部は、前記SVM分類部におけるサポートベクトルの数に基づいて事例数を増加させることを特徴とする。さらに、本発明のデータ分類装置において、前記プール事例増加部は、サポートベクトルの数と、プールされた事例数(正解クラスが付与された事例と正解クラスが付与されていない事例との合計数、即ち現在プールにある事例と正解事例データベースに記録された事例の合計数)とに基づいて事例数を増加させることを特徴とする。また、本発明のデータ分類装置において、前記プール事例増加部は、サポートベクトルの数と、プールされた事例数(正解クラスが付与された事例と正解クラスが付与されていない事例との合計数、即ち現在プールにある事例と正解事例データベースに記録された事例の合計数)の一定割合との比較結果に基づいて事例数を増加させることを特徴とする。さらに、本発明のデータ分類装置において、前記プール事例増加部は、学習に対するサポートベクトルの数の増加率に基づいて事例数を増加させることを特徴とするものである。
【0017】
また、本発明のデータ分類装置において、前記プール事例増加部は、前記プール部にプールされる事例数を段階的に増加させることを特徴とするものである。また、本発明のデータ分類装置において、前記プール事例増加部は、正解クラスが付与された事例と正解クラスが付与されていない事例との合計数がn倍(nは1を超える数である)となるように前記プール部にプールされる事例数を増加させることを特徴とする。
【0018】
また、本発明は、能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置の能動学習方法であって、正解付けられた事例を正解事例として格納する格納ステップと、格納された正解事例に基づいてサポートベクトルマシンの学習を行う学習ステップと、学習された学習結果を保存する学習結果保存ステップと、保存された学習結果を用いて正解付けられていない事例をプール部から選択する選択ステップと、保存された前記学習結果に基づいて、前記プール部にプールされている事例数を増加させる増加ステップとを備えてなるものである。
【0019】
また、本発明は、能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置の能動学習をコンピュータに実行させるために、記憶媒体に記憶されたデータ分類の能動学習プログラムであって、正解付けられた事例を正解事例として格納する格納ステップと、格納された正解事例に基づいてサポートベクトルマシンの学習を行う学習ステップと、学習された学習結果を保存する学習結果保存ステップと、保存された学習結果を用いて正解付けを行う事例をプール部から選択する選択ステップと、保存された前記学習結果に基づいて、前記プール部にプールされている事例数を増加させる増加ステップとをコンピュータに実行させるものである。
【0020】
以上の構成によれば、精度が向上するのに時間がかからず、もって精度の向上が速く、且つ最終的に高い精度を得ることができるデータ分類装置、データ分類装置の能動学習方法及び能動学習プログラムを提供することが可能となる。
【0021】
なお、本発明で使用されるSVMとは、ノンパラメトリックなパターン分類器の一つであり、(1)SVMはマージンの最大化によって汎化能力の向上を目指すものであり(マージンとは分離平面と入力パターンの距離である)、そして(2)SVMは非線形分離器であるにも拘わらず、カーネルの特性により, 線形分離器として定式化されている(この定式化によって、SVMによるパターン分離平面は二次最適化問題の解として得られる)ことを特徴とするものである。また、分離平面は入力パターンの線形結合として表されるが、分離平面を特徴づけるのはクラス間の境界付近のデータであり、そしてこのような分離平面を特徴づけるデータがサポートベクトルと呼ばれている。
【0022】
一方、能動学習とは、大量にある正解の分かっていない事例のうち、どの事例についての正解を教えてもらえば、より高い精度が得られるかについての事例を選択するステップを含む方法である。本発明は、SVMを用いた分類装置において、徐々に事例のプール数を増加させることを特徴としており、正解事例を付与する部分と、これに基づいて能動学習を行う部分と、正解の分からない事例のプール数を徐々に増加させる部分とから構成されている。
【0023】
【発明の実施の形態】
以下、本発明の実施の形態を添付図面に基づいて説明する。
まず、図1に基づいて、本発明のデータ分類装置を説明する。図1は、本発明の能動学習を用いたSVMに基づくデータ分類装置の一例を示す図である。
図1において、本発明の能動学習を用いたSVMに基づくデータ分類装置は、正解事例データベース1と、プール事例増加部2と、プール部3と、SVM学習部4と、SVM分類部5と、能動学習用事例選択部6と、正解問い合わせ部7とから主として構成されている。
【0024】
正解事例データベース1は、事例とその正解クラスが正解事例として記録(格納)されるためのデータベースである。また、プール事例増加部2は、正解クラスの分からない(正解クラスが付与されていない)事例を、図示しない任意の入力装置から取得し、そして、取得した事例を後段のプール部3に送信して、プール部3に蓄えられている事例数を増加させる機能を有している。後述するように、本発明の能動学習を用いたSVMに基づくデータ分類装置は、従来技術として説明した図4に示したものと、このプール事例増加部2を有している点で大きく異なる。このプール事例増加部2は、後述のSVM分類部5に保存してある情報に基づいて(例えば、SVM分類部5に保存してあるサポートベクトルの数に応じて)、プール部に蓄える(プールする)事例数を増加させる機能を有している。プール部3は、正解クラスが付与されていない事例を蓄えるための情報蓄積部である。
【0025】
SVM学習部4は、SVMの学習を行う部分である。すなわち、正解事例データベース1に記録された正解事例を使用してSVMの学習を行う。そして、SVM学習部4で学習された結果を所定のパラメータ及びその値として、後段のSVM分類部5に送信する。
【0026】
SVM分類部5は、所定の評価値に基づいて事例のクラスを分類するものである。すなわち、一般に、SVMにおいては、未知の事例が与えられると所定の評価値が出力される。SVMにおいては、この評価値に基づいてその事例のクラスを決めている。本発明のSVM分類部5も同様に所定の評価値に基づいて事例を分類するものである。SVM学習部4により学習が行われた結果として得られるパラメータとその値を受け取り、そのパラメータと値とに基づいて得られるサポートベクトルを保存している。SVM分類部5は、ある事例について保存されているパラメータとその値に基づいて事例を所定のクラスに分類する。従ってSVM分類部5に保存されるサポートベクトルの数は、SVM学習部4による学習が繰り返されることにより増加していく。
【0027】
能動学習用事例選択部6は、プール部3に蓄えられている正解クラスが付与されていない事例の集合から所定の事例の選択を行うものであり、この際SVM分類部5(学習結果)を用いる。SVM分類部5を用いて事例を選択する方法は、特に制限はないが、例えばSVM分類部5で学習結果に基づいて出力される評価値の絶対値に基づいて行う方法が挙げられる。評価値の絶対値がゼロに近い事例、すなわち、クラスの境界に近い事例を所定数(例えば10個、100個、1000個)選択する方法や所定範囲内の事例を選択する方法が挙げられる。このような所定数あるいは所定範囲は、実験により適宜定めることができる。
【0028】
このようにして、事例を選択すると、能動学習用事例選択部6は選択した事例を後段の正解問い合わせ部7に送る。正解問い合わせ部7は、能動学習用事例選択部6から受取った事例を出力(表示)し、例えば人の手を介してあるいは他の適当な方法により正解クラスを付与するものである。次いで、正解問い合わせ部7は、付与された正解クラス及び対応する事例を能動学習用事例選択部6に返信する。
【0029】
正解クラスが付与された事例が能動学習用事例選択部6に返信されると、能動学習用事例選択部6は、正解クラスが付与された事例を正解事例データベース1に送り、その事例は、事例正解事例データベース1に記録(格納)される。
【0030】
本発明の能動学習法を用いたSVMに基づくデータの分類装置において、プール事例増加部2は、SVM分類部5に保存されている評価値、サポートベクトルの数等の数値を参考にして、プール部3にプールされている事例を徐々に増加させる。
【0031】
この事例数を増加させる方法として、本発明の実施の形態では、種々の方法を採用している。
その一つとして、プール事例増加部2は、SVM分類部5に保存されているサポートベクトルの数を調べ、そのサポートベクトルの数の増加に基づいてプール部3にプールされている事例数を増加させることとし、この場合に、SVM分類部5に保存されているサポートベクトルの数が予め定めた所定数を超える毎に、プール部3にプールされている事例数を増加させるようにする。
【0032】
また、他の方法として、プール事例増加部2は、SVM分類部5に保存されているサポートベクトルの数と正解事例データベース1及びプール部3に蓄えられた事例数との比率を演算し、その比率が所定値、例えば前者と後者との比率が10%を超えた場合に、プール部3にプールされている事例数を増加させるようにする。
【0033】
さらに、他の方法として、プール事例増加部2は、サポートベクトルの数の増分(増加率)を監視し、このサポートベクトルの数の増分に基づいて、プール部3にプールされている事例数を増加させる構成とすることもできる。
すなわち、Greg Schon および David Cohn による、“Less is More: Active Learning with Support Vector Machines”( in Proc. of the 17th International Conference on Machine Learning, 2000.) の記載にあるように、SVMの能動学習では、サポートベクトルの数の増加の割合が減少し始めるとき、精度はピークを過ぎているか、それ以上の向上はあまり見込めないという現象がある。そこで、本発明においては、サポートベクトルの数の増加率を調べ、サポートベクトルの数の増加率が減少した場合に、プール部にプールされている事例数を増加するように構成する。
【0034】
なお、本発明において、SVMを、例えばJ.C.Plattによる方法を用いて作成することが可能である(“Fast training of support vector machine using sequential minimal optimization”in B. Scholkopf, C.J.C. Burges, and A.J. Smola, editors, Advances in Kernel Methods-Support Vector Learning, Pages 185-208, MIT Press, 1999参照)。
【0035】
次に、上述したプール部3における事例数の増加時に、事例数をどの程度増加させるかについては、状況に応じて適宜選択することが可能であるが、本実施の形態では、例えば正解クラスが付与された事例(labeled examples)と正解の分かっていない事例(unlabeled examples)との合計数がn倍(nは1を超える数である)となるように、新たに事例を追加していく方法を採用している。具体的には、例えば、正解クラスが付与された事例と正解の分かっていない事例との合計数が2倍となるようにプール(事例数)を増加させる場合は、ある時点でt個の事例に正解クラスが付与されていて、1000−t 個の事例の正解クラスが分かっていないとした場合において事例を追加する場合には、新たに1000個の正解の分かっていない事例(unlabeled examples)を追加することとなる(追加後に事例数は2000個となり、追加前の事例数である1000個の倍となる)。そして、次に、事例を追加する場合には、2000個を追加することとなる(すなわち、追加後の事例数は4000個となる)。
【0036】
このようにして、構成された本発明のサポートベクトルマシンによる能動学習法を用いたデータ分類装置は、電子化された文書やデータ等から固有名詞等の情報を抽出することが可能な学習機能を有する分類装置として好適に使用することができ、少ない事例数で高い精度を得ることが可能である。例えば、本発明のサポートベクトルマシンによる能動学習法を用いたデータ分類装置は、テキスト分類、パターン分析、医療診断システム、マーケッティング解析等の種々の分野におけるデータの分類を精度よく行うことが可能となる。
【0037】
次に、本発明のデータ分類装置における能動学習時の動作、データ分類装置の能動学習方法及び能動学習プログラムについて、図2および図3を用いて説明する。図2および図3は、本発明のサポートベクトルマシンを用いたデータ分類装置の能動学習時における動作を示すフローチャートである。
【0038】
まず、最初に少数(任意の数)の正解事例を用意して、正解事例データベース1に格納する(S10)。
次に、正解事例データベース1に格納された正解事例を用いてSVM学習部4により学習を行う(S11)。ステップS11においてSVM学習部4により学習した結果をSVM分類部5へ保存する(S12)。
ここまでのステップは、従来技術におけるデータ分類装置の能動学習法(図5のS00〜S02)と同様である。
【0039】
次に、本発明においては、プール事例増加部2がSVM分類部5に保存しているサポートベクトルの数を調べ(S13)。サポートベクトルの数が予め定められた基準を満たしているか否かを判断する(S14)。ステップS14において、サポートベクトルの数が予め定められた基準を満たしている場合(S14,Y)、ステップS15に進み、プール部3の事例数を増加させ(S15)、ステップS16(処理A)に移行する。
また、ステップS14において、サポートベクトルの数が予め定められた基準を満たしていない場合(S14,N)、ステップS15を経ることなく、ステップ16(処理A)に移行する。
【0040】
処理Aは、図5に示す従来技術におけるステップS03からS05に相当するステップであり、図3に示すS21〜S23のステップから構成される。
すなわち、まず能動学習用事例選択部6は、プール部3から各事例を調べ、能動学習に使用すべき事例を選択する(S21)。次いで、能動学習用事例選択部6により選択された事例を、正解問い合わせ部7に送り、正解問い合わせ部7は、人または正解を判定できるその他の機器に問合せして正解クラスを付与する(S22)。そして正解クラスが付与された事例が返送された能動学習用事例選択部6は、これら事例を正解事例データベース1に保存し(S23)、ステップS11に戻る。
【0041】
なお、この動作の終了条件は、状況に応じて適宜選択することが可能である。例えば、予め定めた所定時間にわたりステップS11からステップS23までのループを繰り返した後、終了するようにすることができる。
【0042】
また、例えば正解クラスを知るために所定のコスト(例えば費用)が必要な場合を想定すると、予め定めたコストに到達するまで、ステップS11からステップS23までのループを繰り返した後、終了するように構成してもよい。例えば、正解クラスを問い合わせるのに1000円のコストが必要であり、100,000円が予め定めたコストであると仮定すると、ステップS11からステップS23までのループを100回にわたり繰り返すことが可能となる。
【0043】
また、学習事例とは別に、テスト用の事例を用意して、その精度を調べる方法を用いる場合がある。その場合には、学習が終了する毎にテスト用事例を用いて精度を調べる。そして、このようにして調べた精度が目標値を超えた際に終了する方法を採用してもよい。
【0044】
このようなステップS11からS23までをデータ分類装置の能動学習プログラムとして、コンピュータにより読取り可能な記録媒体に記憶させることによって、サポートベクトルマシンを用いたデータ分類装置における能動学習をコンピュータに実行させることが可能となる。なお、本発明において、上記コンピュータにより読取り可能な記録媒体は、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
【0045】
以上、本発明の様々な実施の形態を説明したが、本発明は上述した実施の形態に限定されることはなく、本発明の要旨を逸脱しない範囲において様々なシステム等に適用可能である。例えば、本発明は、データ分類装置として説明したが、テキスト分類を行うためのテキスト分類装置や医療診断を行うための医療診断システム等の種々の用途に好適に適用することが可能である。
【0046】
【発明の効果】
以上に詳述したように、本発明によれば、精度が向上するのに時間がかからず、もって精度の向上が速く、且つ高い精度を得ることができるデータ分類装置、データ分類装置の能動学習方法及び能動学習を提供することができるという効果がある。
【図面の簡単な説明】
【図1】本発明の能動学習を用いたSVMに基づくデータの分類装置の一例を示す図である。
【図2】本発明のデータ分類装置の動作を示すフローチャートである。
【図3】図2の処理Aを示すフローチャートである。
【図4】従来の能動学習を用いたSVMに基づくデータ分類装置を示す
【図5】従来のデータ分類装置の能動学習方法を示すフローチャートである。
【符号の説明】
1 正解事例データベース、2 プール事例増加部、3 プール部、4 SVM学習部、5 SVM分類部、6 能動学習用事例選択部、7 正解問い合わせ部。

Claims (8)

  1. 能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置であって、
    事例とその正解クラスが正解事例として記録される正解事例データベースと、 正解クラスの付与されていない事例がプールされるプール部と、
    正解事例データベースに記録された正解事例を用いて、サポートベクトルマシンによる能動学習を行うSVM学習部と、
    SVM学習部による学習結果を記憶するSVM分類部と、
    前記プール部から能動学習に用いる事例を前記学習結果を用いて選択する能動学習用事例選択部と、
    正解クラスの付与されていない新たな事例を取得し前記プール部にプールされている事例数を段階的に増加させるプール事例増加部と、
    から構成されているデータ分類装置。
  2. 請求項1に記載のデータ分類装置において、
    前記プール事例増加部は、前記SVM分類部におけるサポートベクトルの数に基づいて事例数を増加させることを特徴とするデータ分類装置。
  3. 請求項1に記載のデータ分類装置において、
    前記プール事例増加部は、サポートベクトルの数と、プールされた事例数とに基づいて事例数を増加させることを特徴とするデータ分類装置。
  4. 請求項1に記載のデータ分類装置において、
    前記プール事例増加部は、サポートベクトルの数と、プールされた事例数の一定割合との比較結果に基づいて事例数を増加させることを特徴とするデータ分類装置。
  5. 請求項1に記載のデータ分類装置において、
    前記プール事例増加部は、学習に対するサポートベクトルの数の増加率に基づいて事例数を増加させることを特徴とするデータ分類装置。
  6. 請求項1乃至請求項5のいずれかに記載のデータ分類装置において、
    前記プール事例増加部は、正解クラスが付与された事例と正解クラスが付与されていない事例との合計数がn倍(nは1を超える数である)となるように前記プール部にプールされている事例数を増加させることを特徴とするデータ分類装置。
  7. 能動学習法を用いて行われた学習結果に基づいてサポートベクトルマシンがデータ分類を行う、SVM学習部とSVM分類部と能動学習用事例選択部とプール事例増加部を有するデータ分類装置が実行する能動学習方法であって、
    前記SVM学習部が、事例とその正解クラスが正解クラスの付与された事例として記録される正解事例データベースに記録された正解事例を用いて、サポートベクトルマシンによる能動学習を行い、
    前記SVM分類部が、前記SVM学習部による学習結果を記憶すると共に、記憶された学習結果に基づいてデータ分類を行い、
    前記能動学習用事例選択部が、正解クラスの付与されていない事例がプールされるプール部から能動学習に用いる事例を前記学習結果を用いて選択し、
    前記プール事例増加部が、正解クラスの付与されていない新たな事例を取得して前記プール部にプールし、前記プール部にプールされている事例数を段階的に増加させる、
    データ分類装置の能動学習方法。
  8. サポートベクトルマシンによる能動学習法を用いたデータ分類をコンピュータに実行させるために、記憶媒体に記憶されたデータ分類プログラムであって、
    正解付けられた事例を正解事例として格納する格納ステップと、
    格納された正解事例に基づいてサポートベクトルマシンの学習を行う学習ステップと、
    学習された学習結果を保存する学習結果保存ステップと、
    保存された学習結果を用いて正解付けを行う事例をプール部から選択する選択ステップと、
    保存された前記学習結果に基づいて、前記プール部にプールされている事例数を段階的に増加させる増加ステップと、
    をコンピュータに実行させるデータ分類プログラム。
JP2002175509A 2002-06-17 2002-06-17 データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム Expired - Fee Related JP4034602B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002175509A JP4034602B2 (ja) 2002-06-17 2002-06-17 データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム
US10/460,209 US20030233369A1 (en) 2002-06-17 2003-06-13 Data classifying device, and active learning method used by data classifying device and active learning program of data classifying device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002175509A JP4034602B2 (ja) 2002-06-17 2002-06-17 データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム

Publications (2)

Publication Number Publication Date
JP2004021590A JP2004021590A (ja) 2004-01-22
JP4034602B2 true JP4034602B2 (ja) 2008-01-16

Family

ID=29728039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002175509A Expired - Fee Related JP4034602B2 (ja) 2002-06-17 2002-06-17 データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム

Country Status (2)

Country Link
US (1) US20030233369A1 (ja)
JP (1) JP4034602B2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490071B2 (en) * 2003-08-29 2009-02-10 Oracle Corporation Support vector machines processing system
US7565370B2 (en) * 2003-08-29 2009-07-21 Oracle International Corporation Support Vector Machines in a relational database management system
US8010357B2 (en) * 2004-03-02 2011-08-30 At&T Intellectual Property Ii, L.P. Combining active and semi-supervised learning for spoken language understanding
JP4859351B2 (ja) * 2004-06-14 2012-01-25 財団法人電力中央研究所 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
KR100607586B1 (ko) 2004-12-16 2006-08-02 인하대학교 산학협력단 컨커런트 서포트 벡터 머신 프로세서
JP4645288B2 (ja) * 2005-04-28 2011-03-09 日本電気株式会社 能動学習方法および能動学習システム
US8726144B2 (en) * 2005-12-23 2014-05-13 Xerox Corporation Interactive learning-based document annotation
US7756800B2 (en) * 2006-12-14 2010-07-13 Xerox Corporation Method for transforming data elements within a classification system based in part on input from a human annotator/expert
KR100830518B1 (ko) 2006-12-19 2008-05-21 영남대학교 산학협력단 풍력발전기의 풍속 추정 방법
US8086549B2 (en) * 2007-11-09 2011-12-27 Microsoft Corporation Multi-label active learning
JP4994199B2 (ja) * 2007-11-26 2012-08-08 ヤフー株式会社 機械学習装置及び機械学習方法
JPWO2009104324A1 (ja) * 2008-02-22 2011-06-16 日本電気株式会社 能動計量学習装置、能動計量学習方法およびプログラム
JP5196425B2 (ja) * 2008-03-07 2013-05-15 Kddi株式会社 サポートベクトルマシンの再学習方法
JP5137074B2 (ja) * 2008-03-07 2013-02-06 Kddi株式会社 サポートベクトルマシンの学習方法
JP5244438B2 (ja) * 2008-04-03 2013-07-24 オリンパス株式会社 データ分類装置、データ分類方法、データ分類プログラムおよび電子機器
JP5212007B2 (ja) * 2008-10-10 2013-06-19 株式会社リコー 画像分類学習装置、画像分類学習方法、および画像分類学習システム
CN101853239A (zh) * 2010-05-06 2010-10-06 复旦大学 一种用于聚类的基于非负矩阵分解的降维方法
CN101853400B (zh) * 2010-05-20 2012-09-26 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102402713B (zh) * 2010-09-09 2015-11-25 富士通株式会社 机器学习方法和装置
CN102270192A (zh) * 2011-07-27 2011-12-07 浙江工业大学 一种基于svm主动学习的多标签分类控制方法
US8886533B2 (en) * 2011-10-25 2014-11-11 At&T Intellectual Property I, L.P. System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
CN103971675B (zh) * 2013-01-29 2016-03-02 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN103198052B (zh) * 2013-04-09 2015-08-26 山东师范大学 一种基于支持向量机的主动学习方法
CN104834714A (zh) * 2014-05-08 2015-08-12 汕头大学 一种通过自主学习提供主动服务的方法
CN104217022A (zh) * 2014-09-25 2014-12-17 天津大学 一种基于交替乘子法的分布式大数据分类系统及方法
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
US11687823B2 (en) * 2017-08-01 2023-06-27 International Business Machines Corporation Automated switching of a strategy for selection of data elements to be labeled based on labeling progress
JP6883787B2 (ja) * 2017-09-06 2021-06-09 パナソニックIpマネジメント株式会社 学習装置、学習方法、学習プログラム、推定装置、推定方法、及び推定プログラム
CN111814851B (zh) * 2020-06-24 2021-07-06 重庆邮电大学 一种基于单类支持向量机的煤矿瓦斯数据标记方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134344A (en) * 1997-06-26 2000-10-17 Lucent Technologies Inc. Method and apparatus for improving the efficiency of support vector machines
JPH11316754A (ja) * 1998-05-06 1999-11-16 Nec Corp 実験計画法及び実験計画プログラムを記録した記録媒体
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
IL146705A0 (en) * 1999-05-25 2002-07-25 Stephen D Barnhill Enhancing knowledge discovery from multiple data sets using multiple support vector machines
JP4827285B2 (ja) * 2000-09-04 2011-11-30 東京エレクトロン株式会社 パターン認識方法、パターン認識装置及び記録媒体

Also Published As

Publication number Publication date
JP2004021590A (ja) 2004-01-22
US20030233369A1 (en) 2003-12-18

Similar Documents

Publication Publication Date Title
JP4034602B2 (ja) データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム
US6571225B1 (en) Text categorizers based on regularizing adaptations of the problem of computing linear separators
US20230039734A1 (en) Systems and methods of data augmentation for pre-trained embeddings
US20110125747A1 (en) Data classification based on point-of-view dependency
US8364618B1 (en) Large scale machine learning systems and methods
US8682896B2 (en) Smart attribute classification (SAC) for online reviews
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
JP2002092006A (ja) テーマに基く文書分類システム
CN113139664B (zh) 一种跨模态的迁移学习方法
CN110717023A (zh) 面试回答文本的分类方法及装置、电子设备、存储介质
US20230153379A1 (en) Adaptive Token Sampling for Efficient Transformer
CN109726288A (zh) 基于人工智能处理的文本分类方法和装置
Wong et al. Real-time adaptive hand motion recognition using a sparse bayesian classifier
Wakaki et al. Rough set-aided feature selection for automatic web-page classification
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
Nasfi et al. A novel feature selection method using generalized inverted Dirichlet-based HMMs for image categorization
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
Wang et al. A new method for redundancy analysis in feature selection
CN110765809A (zh) 一种面部表情分类方法、装置和情感智能机器人
EP4287075A1 (en) Training data generation device and method
Samplawski et al. Learning Graph-Based Priors for Generalized Zero-Shot Learning
Nakashima et al. Evolutionary algorithms for constructing linguistic rule-based systems for high-dimensional pattern classification problems
Bai et al. Combination of rough sets and genetic algorithms for text classification
WO2022182593A1 (en) Methods and apparatus for incremental learning using stored features
Grudziński SBL-PM-M: A system for partial memory learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071025

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees