JP2004021590A

JP2004021590A - データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム

Info

Publication number: JP2004021590A
Application number: JP2002175509A
Authority: JP
Inventors: Manabu Satsusano; 颯々野　学
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-06-17
Filing date: 2002-06-17
Publication date: 2004-01-22
Anticipated expiration: 2022-06-17
Also published as: US20030233369A1; JP4034602B2

Abstract

【課題】精度向上速度が速く、かつ最終的精度を高める可能な能動学習を用いたサポートベクトルマシンに基づくデータ分類装置、データ分類装置の能動学習方法及び能動学習プログラムを提供する。
【解決手段】本発明のデータ分類装置は、事例とその正解クラスが記録される正解事例データベース１と、正解クラスの付与されていない事例がプールされるプール部３と、正解事例データベースに記録された正解事例を用いて、サポートベクトルマシンによる能動学習を行うＳＶＭ学習部４と、ＳＶＭ学習部による学習結果を記憶すると共に、記憶された学習結果に基づいてデータ分類を行うＳＶＭ分類部５と、プール部３から能動学習に用いる事例を前記学習結果を用いて選択する能動学習用事例選択部６と、正解クラスの付与されていない新たな事例を取得してプール部３の事例数を増加させるプール事例増加部２とからなる。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置、データ分類装置の能動学習方法及びデータ分類装置の能動学習プログラムに関するものである。
【０００２】
【従来の技術】
サポートベクトルマシン（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅｓ：以下ＳＶＭと略称する）は、二つのクラスのいずれかに属する訓練事例から、未知の事例がいずれのクラスに属するかを判定する分類方法であり（「Ｔｈｅ　Ｎａｔｕｒｅ　ｏｆ　Ｓｔａｔｉｓｔｉｃａｌ　Ｌｅａｒｎｉｎｇ　Ｔｈｅｏｒｙ」，Ｖ．　Ｖａｐｎｉｋ，Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ）、音声認識や文字認識、図形認識などのパターン認識分野や医療診断分野等の種々の分野に応用されている。
【０００３】
このようなＳＶＭに基づく分類装置及や分類方法において、能動学習法を用いたものが開発されつつある。能動学習について説明すると、一般の学習法においては、訓練される側は、学習に使用する事例を選択することなく、与えられた事例をそのまま使用して学習するのに対して、能動学習法では、訓練される側がどの事例について正解が欲しいかを要求するステップを含んでいる。すなわち、能動学習法においては、まず、訓練される側は、大量にある正解の分かっていない事例（ｕｎｌａｂｅｌｅｄ　ｅｘａｍｐｌｅｓ）の中から、ある事例についての正解を教えてもらうことにより、より高い精度が得られるような事例を選択する。
【０００４】
能動学習法の具体例として、ある文書群（プール）があり、個々の文書はクラスＡか或いはクラスＢに属するという場合に、これらの文書の分類（文書分類）を行う分類器（ｃｌａｓｓｆｉｅｒ）を訓練する場合を例にとって説明する。まず、少量の文書（数個から数十程度）について正解クラスを人が付与する（ｌａｂｅｌｅｄ　ｅｘａｍｐｌｅｓ）。そして、正解の付いた文書からある方法で学習して分類器を作成する。
【０００５】
次に、訓練される側に、その分類器を利用して、正解クラスを知りたい文書を一定数選択させる。そして、選択されたものから人が正解クラスを付与して、これらの文書から学習してまた分類器を作成する。そして、このような工程を複数回繰り返す。
【０００６】
一般に、能動学習においては、分類器にとって易しいと予測されたものよりも、曖昧なものや紛らわしいものを優先して正解クラスが付与される。これは、そのように正解クラスを付与することが、ランダムに正解事例を与えるよりも、学習効率が向上できるためであり、ランダムに正解事例を付与した場合において得られる精度と同等の精度を、より少ない正解事例を付与することにより得られることが期待できるからである。従って、例えば文書分類を行う分類装置を能動学習を用いて作ると、正解事例を作成するためのコストが削減できる。
【０００７】
以下、このような能動学習法を用いた従来のＳＶＭを用いたデータの分類装置及びその学習方法について図４および図５を用いて説明する。図４は、従来のデータ分類装置を示し、図５は、従来のデータ分類装置の能動学習法を示すフローチャートを示す。
【０００８】
図４に示す通り、従来のデータ分類装置は、事例とその正解クラスが正解クラスが付与された事例（正解事例）として記録される正解事例データベース（ＤＢ）１０１と、正解クラスが付与されていない事例（正解クラスの分からない事例）がプールされるプール部１０３と、正解事例データベース１０１に記録された正解事例を用いて、サポートベクトルマシンによる能動学習を行うＳＶＭ学習部１０４と、ＳＶＭ学習部１０４による学習結果を記憶するＳＶＭ分類部１０５と、プール部１０３から能動学習に用いる事例をＳＶＭ分類部１０５を用いて選択する能動学習用事例選択部１０６と、能動学習用事例選択部１０６により受け取った正解クラスの付与されていない事例についての正解を問い合わせるための正解問い合わせ部１０７とから主として構成される。正解問い合わせ部１０７では正解クラスの付与されていない事例について、人的作業により正解クラスが付与される。正解クラスが正解問い合わせ部１０７において付与されると正解問い合わせ部１０７は、能動学習用事例選択部１０６に正解クラス及びその事例の両方を送る構成となっている。
【０００９】
以上、説明した従来のデータの分類装置は、その能動学習に際しては、図５に示す通り動作する。
すなわち、まず、少数の正解事例を用意して、正解事例データベース１０１に格納する（Ｓ００）。次に、正解事例データベース１０１に格納された正解事例を用いてＳＶＭ学習部１０４により学習を行う（Ｓ０１）。ステップＳ０１においてＳＶＭ学習部１０４により学習した結果をＳＶＭ分類部１０５へ保存する（Ｓ０２）。
【００１０】
次に、能動学習用事例選択部１０６は、プール部１０３から各事例を調べ能動学習に使用すべき事例を選択する（Ｓ０３）。そして、ステップＳ０３で能動学習用事例選択部１０６により選択された事例を正解問い合わせ部１０７に送り、正解問い合わせ部１０７は、人または正解を判定できるその他の機器に問い合わせを行って正解クラスを付与する（Ｓ０４）。正解クラスが付与された事例は能動学習用事例選択部１０６に送られ、能動学習用事例選択部１０６は、これらの正解クラスおよび対応する事例を正解事例データベース１０１に保存し、ステップＳ０１に戻る。なお、この動作の終了条件は、状況に応じて適宜選択することが可能である。
【００１１】
このような従来のデータ分類装置およびその能動学習方法として、例えばＳＶＭの出力が０に近いものをプール部から選択し、そしてこれに対して正解クラスを付与する装置および方法が知られている（例えば、Ｓｉｍｏｎ　Ｔｏｎｇ　ａｎｄ　Ｄａｐｈｎｅ　Ｋｏｌｌｅｒ，“Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ　Ａｃｔｉｖｅ　Ｌｅａｒｎｉｎｇ　ｗｉｔｈ　Ａｐｐｌｉｃａｔｉｏｎ　ｔｏ　Ｔｅｘｔ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ”，　ｉｎ　Ｐｒｏｃ．　ｏｆ　ｔｈｅ　１７ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ，　２０００等を参照）。
【００１２】
ところで、このようなデータ分類装置の作成においては、最終的な学習結果において、プール部１０３にプールされた事例の集合（プール：正解クラスを付与するのを探し出す事例の集まり）が大きい方が小さい方よりも精度が高くなる。このため、従来では、精度を高めるためには、大きいプールを有するプール部（大きなプール）を設けるようにしている。
【００１３】
【発明が解決しようとする課題】
しかしながら、上述した従来のデータ分類装置では、プール部１０３に蓄えられる事例の集合（プール）を当初から大きくすると、プールが小さいものに比べて、精度が向上するのに時間がかかり、精度の向上が遅くなるという問題点を有していた。
【００１４】
従って、本発明は、精度が向上するのに時間がかからず、もって精度の向上が速く、且つ高い精度を得ることができるデータ分類装置、データ分類方法及びデータ分類プログラムを提供することを目的としている。
【００１５】
【課題を解決するための手段】
上記課題を解決するため、本発明は、能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置であって、事例とその正解クラスが正解クラスの付与された事例として記録される正解事例データベースと、正解クラスの付与されていない事例がプールされるプール部と、正解事例データベースに記録された正解事例を用いて、サポートベクトルマシンによる能動学習を行うＳＶＭ学習部と、ＳＶＭ学習部による学習結果を記憶すると共に、記憶された学習結果に基づいてデータ分類を行うＳＶＭ分類部と、前記プール部から能動学習に用いる事例を前記学習結果を用いて選択する能動学習用事例選択部と、正解クラスの付与されていない新たな事例を取得して前記プール部にプールし、前記プール部にプールされている事例数を増加させるプール事例増加部とから構成されているものである。
【００１６】
このデータ分類装置において、前記プール事例増加部は、前記ＳＶＭ分類部におけるサポートベクトルの数に基づいて事例数を増加させることを特徴とする。さらに、本発明のデータ分類装置において、前記プール事例増加部は、サポートベクトルの数と、プールされた事例数（正解クラスが付与された事例と正解クラスが付与されていない事例との合計数、即ち現在プールにある事例と正解事例データベースに記録された事例の合計数）とに基づいて事例数を増加させることを特徴とする。また、本発明のデータ分類装置において、前記プール事例増加部は、サポートベクトルの数と、プールされた事例数（正解クラスが付与された事例と正解クラスが付与されていない事例との合計数、即ち現在プールにある事例と正解事例データベースに記録された事例の合計数）の一定割合との比較結果に基づいて事例数を増加させることを特徴とする。さらに、本発明のデータ分類装置において、前記プール事例増加部は、学習に対するサポートベクトルの数の増加率に基づいて事例数を増加させることを特徴とするものである。
【００１７】
また、本発明のデータ分類装置において、前記プール事例増加部は、前記プール部にプールされる事例数を段階的に増加させることを特徴とするものである。また、本発明のデータ分類装置において、前記プール事例増加部は、正解クラスが付与された事例と正解クラスが付与されていない事例との合計数がｎ倍（ｎは１を超える数である）となるように前記プール部にプールされる事例数を増加させることを特徴とする。
【００１８】
また、本発明は、能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置の能動学習方法であって、正解付けられた事例を正解事例として格納する格納ステップと、格納された正解事例に基づいてサポートベクトルマシンの学習を行う学習ステップと、学習された学習結果を保存する学習結果保存ステップと、保存された学習結果を用いて正解付けられていない事例をプール部から選択する選択ステップと、保存された前記学習結果に基づいて、前記プール部にプールされている事例数を増加させる増加ステップとを備えてなるものである。
【００１９】
また、本発明は、能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置の能動学習をコンピュータに実行させるために、記憶媒体に記憶されたデータ分類の能動学習プログラムであって、正解付けられた事例を正解事例として格納する格納ステップと、格納された正解事例に基づいてサポートベクトルマシンの学習を行う学習ステップと、学習された学習結果を保存する学習結果保存ステップと、保存された学習結果を用いて正解付けを行う事例をプール部から選択する選択ステップと、保存された前記学習結果に基づいて、前記プール部にプールされている事例数を増加させる増加ステップとをコンピュータに実行させるものである。
【００２０】
以上の構成によれば、精度が向上するのに時間がかからず、もって精度の向上が速く、且つ最終的に高い精度を得ることができるデータ分類装置、データ分類装置の能動学習方法及び能動学習プログラムを提供することが可能となる。
【００２１】
なお、本発明で使用されるＳＶＭとは、ノンパラメトリックなパターン分類器の一つであり、（１）ＳＶＭはマージンの最大化によって汎化能力の向上を目指すものであり（マージンとは分離平面と入力パターンの距離である）、そして（２）ＳＶＭは非線形分離器であるにも拘わらず、カーネルの特性により，　線形分離器として定式化されている（この定式化によって、ＳＶＭによるパターン分離平面は二次最適化問題の解として得られる）ことを特徴とするものである。また、分離平面は入力パターンの線形結合として表されるが、分離平面を特徴づけるのはクラス間の境界付近のデータであり、そしてこのような分離平面を特徴づけるデータがサポートベクトルと呼ばれている。
【００２２】
一方、能動学習とは、大量にある正解の分かっていない事例のうち、どの事例についての正解を教えてもらえば、より高い精度が得られるかについての事例を選択するステップを含む方法である。本発明は、ＳＶＭを用いた分類装置において、徐々に事例のプール数を増加させることを特徴としており、正解事例を付与する部分と、これに基づいて能動学習を行う部分と、正解の分からない事例のプール数を徐々に増加させる部分とから構成されている。
【００２３】
【発明の実施の形態】
以下、本発明の実施の形態を添付図面に基づいて説明する。
まず、図１に基づいて、本発明のデータ分類装置を説明する。図１は、本発明の能動学習を用いたＳＶＭに基づくデータ分類装置の一例を示す図である。
図１において、本発明の能動学習を用いたＳＶＭに基づくデータ分類装置は、正解事例データベース１と、プール事例増加部２と、プール部３と、ＳＶＭ学習部４と、ＳＶＭ分類部５と、能動学習用事例選択部６と、正解問い合わせ部７とから主として構成されている。
【００２４】
正解事例データベース１は、事例とその正解クラスが正解事例として記録（格納）されるためのデータベースである。また、プール事例増加部２は、正解クラスの分からない（正解クラスが付与されていない）事例を、図示しない任意の入力装置から取得し、そして、取得した事例を後段のプール部３に送信して、プール部３に蓄えられている事例数を増加させる機能を有している。後述するように、本発明の能動学習を用いたＳＶＭに基づくデータ分類装置は、従来技術として説明した図４に示したものと、このプール事例増加部２を有している点で大きく異なる。このプール事例増加部２は、後述のＳＶＭ分類部５に保存してある情報に基づいて（例えば、ＳＶＭ分類部５に保存してあるサポートベクトルの数に応じて）、プール部に蓄える（プールする）事例数を増加させる機能を有している。プール部３は、正解クラスが付与されていない事例を蓄えるための情報蓄積部である。
【００２５】
ＳＶＭ学習部４は、ＳＶＭの学習を行う部分である。すなわち、正解事例データベース１に記録された正解事例を使用してＳＶＭの学習を行う。そして、ＳＶＭ学習部４で学習された結果を所定のパラメータ及びその値として、後段のＳＶＭ分類部５に送信する。
【００２６】
ＳＶＭ分類部５は、所定の評価値に基づいて事例のクラスを分類するものである。すなわち、一般に、ＳＶＭにおいては、未知の事例が与えられると所定の評価値が出力される。ＳＶＭにおいては、この評価値に基づいてその事例のクラスを決めている。本発明のＳＶＭ分類部５も同様に所定の評価値に基づいて事例を分類するものである。ＳＶＭ学習部４により学習が行われた結果として得られるパラメータとその値を受け取り、そのパラメータと値とに基づいて得られるサポートベクトルを保存している。ＳＶＭ分類部５は、ある事例について保存されているパラメータとその値に基づいて事例を所定のクラスに分類する。従ってＳＶＭ分類部５に保存されるサポートベクトルの数は、ＳＶＭ学習部４による学習が繰り返されることにより増加していく。
【００２７】
能動学習用事例選択部６は、プール部３に蓄えられている正解クラスが付与されていない事例の集合から所定の事例の選択を行うものであり、この際ＳＶＭ分類部５（学習結果）を用いる。ＳＶＭ分類部５を用いて事例を選択する方法は、特に制限はないが、例えばＳＶＭ分類部５で学習結果に基づいて出力される評価値の絶対値に基づいて行う方法が挙げられる。評価値の絶対値がゼロに近い事例、すなわち、クラスの境界に近い事例を所定数（例えば１０個、１００個、１０００個）選択する方法や所定範囲内の事例を選択する方法が挙げられる。このような所定数あるいは所定範囲は、実験により適宜定めることができる。
【００２８】
このようにして、事例を選択すると、能動学習用事例選択部６は選択した事例を後段の正解問い合わせ部７に送る。正解問い合わせ部７は、能動学習用事例選択部６から受取った事例を出力（表示）し、例えば人の手を介してあるいは他の適当な方法により正解クラスを付与するものである。次いで、正解問い合わせ部７は、付与された正解クラス及び対応する事例を能動学習用事例選択部６に返信する。
【００２９】
正解クラスが付与された事例が能動学習用事例選択部６に返信されると、能動学習用事例選択部６は、正解クラスが付与された事例を正解事例データベース１に送り、その事例は、事例正解事例データベース１に記録（格納）される。
【００３０】
本発明の能動学習法を用いたＳＶＭに基づくデータの分類装置において、プール事例増加部２は、ＳＶＭ分類部５に保存されている評価値、サポートベクトルの数等の数値を参考にして、プール部３にプールされている事例を徐々に増加させる。
【００３１】
この事例数を増加させる方法として、本発明の実施の形態では、種々の方法を採用している。
その一つとして、プール事例増加部２は、ＳＶＭ分類部５に保存されているサポートベクトルの数を調べ、そのサポートベクトルの数の増加に基づいてプール部３にプールされている事例数を増加させることとし、この場合に、ＳＶＭ分類部５に保存されているサポートベクトルの数が予め定めた所定数を超える毎に、プール部３にプールされている事例数を増加させるようにする。
【００３２】
また、他の方法として、プール事例増加部２は、ＳＶＭ分類部５に保存されているサポートベクトルの数と正解事例データベース１及びプール部３に蓄えられた事例数との比率を演算し、その比率が所定値、例えば前者と後者との比率が１０％を超えた場合に、プール部３にプールされている事例数を増加させるようにする。
【００３３】
さらに、他の方法として、プール事例増加部２は、サポートベクトルの数の増分（増加率）を監視し、このサポートベクトルの数の増分に基づいて、プール部３にプールされている事例数を増加させる構成とすることもできる。
すなわち、Ｇｒｅｇ　Ｓｃｈｏｎ　および　Ｄａｖｉｄ　Ｃｏｈｎ　による、“Ｌｅｓｓ　ｉｓ　Ｍｏｒｅ：　Ａｃｔｉｖｅ　Ｌｅａｒｎｉｎｇ　ｗｉｔｈ　Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅｓ”（　ｉｎ　Ｐｒｏｃ．　ｏｆ　ｔｈｅ　１７ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ，　２０００．）　の記載にあるように、ＳＶＭの能動学習では、サポートベクトルの数の増加の割合が減少し始めるとき、精度はピークを過ぎているか、それ以上の向上はあまり見込めないという現象がある。そこで、本発明においては、サポートベクトルの数の増加率を調べ、サポートベクトルの数の増加率が減少した場合に、プール部にプールされている事例数を増加するように構成する。
【００３４】
なお、本発明において、ＳＶＭを、例えばＪ．Ｃ．Ｐｌａｔｔによる方法を用いて作成することが可能である（“Ｆａｓｔ　ｔｒａｉｎｉｎｇ　ｏｆ　ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ　ｕｓｉｎｇ　ｓｅｑｕｅｎｔｉａｌ　ｍｉｎｉｍａｌ　ｏｐｔｉｍｉｚａｔｉｏｎ”ｉｎ　Ｂ．　Ｓｃｈｏｌｋｏｐｆ，　Ｃ．Ｊ．Ｃ．　Ｂｕｒｇｅｓ，　ａｎｄ　Ａ．Ｊ．　Ｓｍｏｌａ，　ｅｄｉｔｏｒｓ，　Ａｄｖａｎｃｅｓ　ｉｎ　Ｋｅｒｎｅｌ　Ｍｅｔｈｏｄｓ−Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｌｅａｒｎｉｎｇ，　Ｐａｇｅｓ　１８５−２０８，　ＭＩＴ　Ｐｒｅｓｓ，　１９９９参照）。
【００３５】
次に、上述したプール部３における事例数の増加時に、事例数をどの程度増加させるかについては、状況に応じて適宜選択することが可能であるが、本実施の形態では、例えば正解クラスが付与された事例（ｌａｂｅｌｅｄ　ｅｘａｍｐｌｅｓ）と正解の分かっていない事例（ｕｎｌａｂｅｌｅｄ　ｅｘａｍｐｌｅｓ）との合計数がｎ倍（ｎは１を超える数である）となるように、新たに事例を追加していく方法を採用している。具体的には、例えば、正解クラスが付与された事例と正解の分かっていない事例との合計数が２倍となるようにプール（事例数）を増加させる場合は、ある時点でｔ個の事例に正解クラスが付与されていて、１０００−ｔ　個の事例の正解クラスが分かっていないとした場合において事例を追加する場合には、新たに１０００個の正解の分かっていない事例（ｕｎｌａｂｅｌｅｄ　ｅｘａｍｐｌｅｓ）を追加することとなる（追加後に事例数は２０００個となり、追加前の事例数である１０００個の倍となる）。そして、次に、事例を追加する場合には、２０００個を追加することとなる（すなわち、追加後の事例数は４０００個となる）。
【００３６】
このようにして、構成された本発明のサポートベクトルマシンによる能動学習法を用いたデータ分類装置は、電子化された文書やデータ等から固有名詞等の情報を抽出することが可能な学習機能を有する分類装置として好適に使用することができ、少ない事例数で高い精度を得ることが可能である。例えば、本発明のサポートベクトルマシンによる能動学習法を用いたデータ分類装置は、テキスト分類、パターン分析、医療診断システム、マーケッティング解析等の種々の分野におけるデータの分類を精度よく行うことが可能となる。
【００３７】
次に、本発明のデータ分類装置における能動学習時の動作、データ分類装置の能動学習方法及び能動学習プログラムについて、図２および図３を用いて説明する。図２および図３は、本発明のサポートベクトルマシンを用いたデータ分類装置の能動学習時における動作を示すフローチャートである。
【００３８】
まず、最初に少数（任意の数）の正解事例を用意して、正解事例データベース１に格納する（Ｓ１０）。
次に、正解事例データベース１に格納された正解事例を用いてＳＶＭ学習部４により学習を行う（Ｓ１１）。ステップＳ１１においてＳＶＭ学習部４により学習した結果をＳＶＭ分類部５へ保存する（Ｓ１２）。
ここまでのステップは、従来技術におけるデータ分類装置の能動学習法（図５のＳ００〜Ｓ０２）と同様である。
【００３９】
次に、本発明においては、プール事例増加部２がＳＶＭ分類部５に保存しているサポートベクトルの数を調べ（Ｓ１３）。サポートベクトルの数が予め定められた基準を満たしているか否かを判断する（Ｓ１４）。ステップＳ１４において、サポートベクトルの数が予め定められた基準を満たしている場合（Ｓ１４，Ｙ）、ステップＳ１５に進み、プール部３の事例数を増加させ（Ｓ１５）、ステップＳ１６（処理Ａ）に移行する。
また、ステップＳ１４において、サポートベクトルの数が予め定められた基準を満たしていない場合（Ｓ１４，Ｎ）、ステップＳ１５を経ることなく、ステップ１６（処理Ａ）に移行する。
【００４０】
処理Ａは、図５に示す従来技術におけるステップＳ０３からＳ０５に相当するステップであり、図３に示すＳ２１〜Ｓ２３のステップから構成される。
すなわち、まず能動学習用事例選択部６は、プール部３から各事例を調べ、能動学習に使用すべき事例を選択する（Ｓ２１）。次いで、能動学習用事例選択部６により選択された事例を、正解問い合わせ部７に送り、正解問い合わせ部７は、人または正解を判定できるその他の機器に問合せして正解クラスを付与する（Ｓ２２）。そして正解クラスが付与された事例が返送された能動学習用事例選択部６は、これら事例を正解事例データベース１に保存し（Ｓ２３）、ステップＳ１１に戻る。
【００４１】
なお、この動作の終了条件は、状況に応じて適宜選択することが可能である。例えば、予め定めた所定時間にわたりステップＳ１１からステップＳ２３までのループを繰り返した後、終了するようにすることができる。
【００４２】
また、例えば正解クラスを知るために所定のコスト（例えば費用）が必要な場合を想定すると、予め定めたコストに到達するまで、ステップＳ１１からステップＳ２３までのループを繰り返した後、終了するように構成してもよい。例えば、正解クラスを問い合わせるのに１０００円のコストが必要であり、１００，０００円が予め定めたコストであると仮定すると、ステップＳ１１からステップＳ２３までのループを１００回にわたり繰り返すことが可能となる。
【００４３】
また、学習事例とは別に、テスト用の事例を用意して、その精度を調べる方法を用いる場合がある。その場合には、学習が終了する毎にテスト用事例を用いて精度を調べる。そして、このようにして調べた精度が目標値を超えた際に終了する方法を採用してもよい。
【００４４】
このようなステップＳ１１からＳ２３までをデータ分類装置の能動学習プログラムとして、コンピュータにより読取り可能な記録媒体に記憶させることによって、サポートベクトルマシンを用いたデータ分類装置における能動学習をコンピュータに実行させることが可能となる。なお、本発明において、上記コンピュータにより読取り可能な記録媒体は、ＣＤ−ＲＯＭやフレキシブルディスク、ＤＶＤディスク、光磁気ディスク、ＩＣカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
【００４５】
以上、本発明の様々な実施の形態を説明したが、本発明は上述した実施の形態に限定されることはなく、本発明の要旨を逸脱しない範囲において様々なシステム等に適用可能である。例えば、本発明は、データ分類装置として説明したが、テキスト分類を行うためのテキスト分類装置や医療診断を行うための医療診断システム等の種々の用途に好適に適用することが可能である。
【００４６】
【発明の効果】
以上に詳述したように、本発明によれば、精度が向上するのに時間がかからず、もって精度の向上が速く、且つ高い精度を得ることができるデータ分類装置、データ分類装置の能動学習方法及び能動学習を提供することができるという効果がある。
【図面の簡単な説明】
【図１】本発明の能動学習を用いたＳＶＭに基づくデータの分類装置の一例を示す図である。
【図２】本発明のデータ分類装置の動作を示すフローチャートである。
【図３】図２の処理Ａを示すフローチャートである。
【図４】従来の能動学習を用いたＳＶＭに基づくデータ分類装置を示す
【図５】従来のデータ分類装置の能動学習方法を示すフローチャートである。
【符号の説明】
１　正解事例データベース、２　プール事例増加部、３　プール部、４　ＳＶＭ学習部、５　ＳＶＭ分類部、６　能動学習用事例選択部、７　正解問い合わせ部。

Claims

能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置であって、
事例とその正解クラスが正解クラスの付与された事例として記録される正解事例データベースと、
正解クラスの付与されていない事例がプールされるプール部と、
正解事例データベースに記録された正解事例を用いて、サポートベクトルマシンによる能動学習を行うＳＶＭ学習部と、
ＳＶＭ学習部による学習結果を記憶すると共に、記憶された学習結果に基づいてデータ分類を行うＳＶＭ分類部と、
前記プール部から能動学習に用いる事例を前記学習結果を用いて選択する能動学習用事例選択部と、
正解クラスの付与されていない新たな事例を取得して前記プール部にプールし、前記プール部にプールされている事例数を増加させるプール事例増加部と、
から構成されているデータ分類装置。
請求項１に記載のデータ分類装置において、
前記プール事例増加部は、前記ＳＶＭ分類部におけるサポートベクトルの数に基づいて事例数を増加させることを特徴とするデータ分類装置。
請求項１に記載のデータ分類装置において、
前記プール事例増加部は、サポートベクトルの数と、前記正解事例データベースに記録された正解クラスの付与された事例及び前記プール部にプールされた正解クラスの付与されていない事例の合計事例数とに基づいて事例数を増加させることを特徴とするデータ分類装置。
請求項１に記載のデータ分類装置において、
前記プール事例増加部は、サポートベクトルの数と、前記正解事例データベースに記録された正解クラスの付与された事例及び前記プール部にプールされた正解クラスの付与されていない事例の合計事例数の一定割合との比較結果に基づいて事例数を増加させることを特徴とするデータ分類装置。
請求項１に記載のデータ分類装置において、
前記プール事例増加部は、学習に対するサポートベクトルの数の増加率に基づいて事例数を増加させることを特徴とするデータ分類装置。
請求項１乃至請求項５のいずれかに記載のデータ分類装置において、
前記プール事例増加部は、前記プール部にプールされている事例数を段階的に増加させることを特徴とするデータ分類装置。
請求項１乃至請求項５のいずれかに記載のデータ分類装置において、
前記プール事例増加部は、正解クラスが付与された事例と正解クラスが付与されていない事例との合計数がｎ倍（ｎは１を超える数である）となるように前記プール部にプールされている事例数を増加させることを特徴とするデータ分類装置。
能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置の能動学習方法であって、
正解付けられた事例を正解事例として格納する格納ステップと、
格納された正解事例に基づいてサポートベクトルマシンの学習を行う学習ステップと、
学習された学習結果を保存する学習結果保存ステップと、
保存された学習結果を用いて正解付けられていない事例をプール部から選択する選択ステップと、
保存された前記学習結果に基づいて、前記プール部にプールされている事例数を増加させる増加ステップとを備えてなるデータ分類装置の能動学習方法。
能動学習法を用いて行われた学習結果に基づいて、サポートベクトルマシンがデータ分類を行うデータ分類装置の能動学習をコンピュータに実行させるために、記憶媒体に記憶されたデータ分類の能動学習プログラムであって、
正解付けられた事例を正解事例として格納する格納ステップと、
格納された正解事例に基づいてサポートベクトルマシンの学習を行う学習ステップと、
学習された学習結果を保存する学習結果保存ステップと、
保存された学習結果を用いて正解付けを行う事例をプール部から選択する選択ステップと、
保存された前記学習結果に基づいて、前記プール部にプールされている事例数を増加させる増加ステップと、
をコンピュータに実行させるデータ分類装置の能動学習プログラム。