JP5187635B2

JP5187635B2 - 能動学習システム、能動学習方法、及び能動学習用プログラム

Info

Publication number: JP5187635B2
Application number: JP2008549233A
Authority: JP
Inventors: 慶子山下; 由希子黒岩; 稔麻生川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-12-11
Filing date: 2007-11-22
Publication date: 2013-04-24
Anticipated expiration: 2027-11-22
Also published as: EP2096585A4; US20100005043A1; JPWO2008072459A1; WO2008072459A1; EP2096585A1

Description

本発明は能動学習システムに関し、特に機械学習における能動学習システムに関する。この出願は、２００６年１２月１１日に出願された特許出願番号２００６−３３２９８３号の日本特許出願に基づいており、その出願による優先権の利益を主張し、その出願の開示は、引用することにより、そっくりそのままここに組み込まれている。

能動学習とは、学習者（コンピュータ）が学習データを能動的に選択できる、機械学習手法の一形態である。能動学習では、（１）実験→（２）結果の学習→（３）次の実験対象の選択→（１）実験、のサイクルを繰り返すことでトータルの実験量を減らすことができる。（２）と（３）はコンピュータによって行われる。能動学習は、少ない実験回数あるいは実験量で多くの結果を得るための方法であり、多くの費用と時間を必要とする実験を適切に計画する実験計画法で使われる。能動学習を用いたコンピュータシステム（以下、能動学習システム）は、例えば、膨大な種類の化合物の中から特定のタンパク質に対し活性のある化合物を発見する創薬スクリーニングなどに適した技術として注目されている。

能動学習システムで扱われるデータ（学習データ）は、複数の記述子（属性）と１以上のラベルとで表現される。記述子はそのデータの構造などを特徴付けるものであり、ラベルはそのデータの或る事象に関する状態を示している。例えば、能動学習による創薬スクリーニングの場合、個々の化合物データは、ベンゼン環などの部分構造の有無を０／１のビット列で記述したものや、分子量などの各種物理化学定数などを記述した複数の記述子によって表現される。また、ラベルは、例えば特定のタンパク質に対する活性の有無を示すために使用される。ラベルの取り得る値は、活性あり、活性なしのように離散値の場合、クラスと呼ばれる。他方、ラベルが取り得る値が連続値の場合、関数値と呼ばれる。つまり、ラベルはクラス又は関数値を含んでいる。

学習データの集合として複数の学習データのうちの、ラベルの値が既知である（ラベルが設定されている）学習データは既知学習データ群と呼ばれ、ラベルの値が未知である（ラベルが設定されていない）学習データは未知学習データ群と呼ばれる。能動学習システムでは、最初の学習は、既知学習データを使って行われる。既知学習データ群のうちの、利用者にとって価値のある学習データを「正例」（正例学習データ）とし、利用者にとって価値がないものを「負例」（負例学習データ）として区別し、能動学習システムは、既知学習データ群から選択した正例学習データ及び負例学習データの双方を用いて学習する。正例、負例は、能動学習システムにより注目されるラベルの値で決まる。その注目されるラベルの値が２値を取る場合、利用者の注目する値が正例となり、そうでない値が負例となる。例えば、或るラベルが或るタンパク質に対する活性の有無を示しているものとし、そのタンパク質に対して活性のある化合物に注目する場合、活性ありの値のラベルが正例となり、活性なしの値のラベルが負例になる。なお、ラベルが多値の場合、能動学習システムにより注目されている１つ以上の値は正例となり、それ以外の全ての値は負例となる。またラベルの取り得る値が連続値の場合、能動学習システムにより注目される値付近にラベル値が存在するものは正例となり、それ以外のところにあるものは負例となる。

能動学習システムは、既知学習データ群の中から、任意の既知学習データを選択し、アンサンブル学習（複数の学習機械を統合して予測を行う手法）を適用して、その学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成する正例と負例を使ってルールを生成（学習）する。ルールは、任意の既知学習データの記述子が入力されたとき、その学習データのラベルの値が注目している値かどうか、換言すればそのデータが正例か、負例かを選別するための仮説、規則を表している。代表的なアンサンブル学習手法として、バギング（Ｂａｇｇｉｎｇ）とブースティング（Ｂｏｏｓｔｉｎｇ）がある。

バギングとは、アンサンブル学習法の１つであり、各学習機械は、同一の既知事例のデータベースからデータのリサンプリングを行って生成された、異なった学習データ群を用いて学習を行い、これらの予測値の多数決によって、未知事例のクラスを予測する手法である。

ブースティングとは、複数の異なる判別ルールがあるとき、それらをうまく統合して１つの性能の良い判別ルールを作るための１つの学習アルゴリズムである。実際には、統合された判別ルールとは、それぞれの判別ルールは後述するスコアが与えられて、そのスコアによる重み付き多数決ルールを指す。学習の過程でそのスコアの上げ下げが繰り返されることからブースティングと呼ばれる。

能動学習システムは、既知学習データ群のうちの任意の既知学習データで学習して、任意の既知学習データに対するルールを生成する。未知学習データ群を候補学習データ群とし、そのルールを候補学習データ群に適用し、候補学習データ群のラベルの値の予測を行う。即ち、候補学習データ群に対して正例学習データであるか否かを予測し、予測結果を生成する。この予測結果は、スコアと呼ばれる数値で定量的に示される。スコアは、個々の候補学習データ群に対して正例らしさを表す数値であり、値が大きいほど、正例である可能性が高いことを示している。能動学習システムは、候補学習データ群に対する予測結果に基づいて、候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択して出力する。この選択方法に関しては、予測が割れたデータを選択する方法や、スコアの高い順に選択する方法、或る関数を用いて選択する方法等、幾つかの方法がある。

選択候補学習データは、ラベルの値が未知であるため、実験や調査などによってラベルの実際の値が調べられ、能動学習システムにフィードバックされる。能動学習システムは、ラベルを選択候補学習データに設定し、選択候補学習データを候補学習データ群から取り除いて既知学習データとして既知学習データ群に追加し、上述と同様の動作が再度繰り返される。このような処理の繰り返しは、予め定められた終了条件が満たされるまで続けられる。

これにより、能動学習システムは、少ない実験量で、かつ早期に正例を発見する技術として用いられる。例えば、上述のように、創薬スクリーニングでは、膨大な種類の化合物の中から特定のタンパク質に対し活性のある化合物を発見する。この場合、活性なしの化合物（負例）が大多数であり、活性ありの化合物（正例）が極僅かである。このように正例と負例の数がアンバランスな場合においても、少ない化合物数の実験量で早期に活性のある化合物（正例）を発見できる。

しかし、従来技術には、以下のような問題点が存在する。
第１の問題点において、能動学習システムは、既知学習データ群のうちの、以前から蓄積されている既知学習データと、新たに追加された既知学習データとが同じ扱いにしていることである。これにより、以前から蓄積されている既知学習データに対するルールと、新たに追加された既知学習データに対するルールは、それほど変わらない。このような能動学習システムでは、以前から蓄積されている既知学習データに新たに既知学習データが加わったことによる顕著な効果はない。

このように、上述の能動学習システムでは、ルールに変化がないため、そのルールを用いて次のルールを学習するための学習効率が向上しない。特に創薬スクリーニングのように未知ラベルの値を実験によって求める際のコストが大きい分野では、学習コストが著しく増大する。

なお、関連する技術として、特開２００５−１０７７４３号公報に学習システムが開示されている。
この従来技術では、データ処理部の学習部は、ユーザの入力装置の操作により学習データと下位学習アルゴリズムと終了条件とを入力する。学習データは、ラベル（クラス又は関数値）が設定されたデータである。下位学習アルゴリズムは、能動学習を行うためのコンピュータプログラムである。学習部は、入力した学習データと終了条件とを学習データ記憶部に格納する。下位学習アルゴリズムは、学習データと終了条件と共に入力されているが、予めに学習データ記憶部に格納されていても良い。学習部は、下位学習アルゴリズムを用いて学習処理を行う。

また、特開２００１−３２５２７２号公報に情報整理方法、情報処理装置、記憶媒体、及びプログラム伝送装置が開示されている。
この従来技術では、新しく出現した単語に対して重み付けを高くして選別することを特徴とする旨が示されている。

また、特開２００５−２８４３４８号公報に情報処理装置及び方法、記録媒体、並びにプログラムが開示されている。
この従来技術では、データ重みを利用して弱判別器を選択し、選択された弱判別器による学習サンプルの判別結果を、信頼度により重み付けした値の累積和に基づいて基準値を演算する。演算された基準値に基づいて学習サンプルの一部を削除し、削除されなかった学習サンプルに基づいてデータ重みを演算する。

また、特開２００６−１３９７１８号公報に話題語結合方法及び話題語結合・代表語抽出方法及び装置及びプログラムが開示されている。
この従来技術では、文書共有度算出の際に、文書数の代わりに文書それぞれが持つ日付や時刻の鮮度の重みを用いて、文書共有度を計算することもできる。例えば、文書共有度＝（共有する文書それぞれの鮮度の重みの和）／（２つの該当する話題語が持つ文書のそれぞれの鮮度の重みの和）。この鮮度の重みは、文書の日付や時間が新しいものほど、文書共有度が高くなるように作用する。

更に、特開２００６−１８５０９９号公報に確率モデル作成方法が開示されている。
この従来技術では、所定の事象を説明するための１つ以上の変数を含む説明変数と該説明変数に応じた値を取る非説明変数とを組とするサンプルの集合である学習データの各サンプル毎に、予め用意された確率モデルに基づいて、非説明変数の値に対応する確率を算出する。また、該算出された確率に基づいて、学習データの各サンプルに対する重みを算出する。また、算出された重みと学習データとに基づいて新たな確率モデルを作成してモデル記憶装置に記憶する。更に、モデル記憶装置に記憶された確率モデルを用いて、説明変数と同じデータ形式の入力パラメータに対して、事象が発生又は発生しない確率を算出する。

本発明の目的は、学習データの取得順序を考慮することにより、学習効率が向上する能動学習システムを提供することにある。

本発明の能動学習システムは、学習データ記憶部と、制御部と、学習部と、候補データ記憶部と、予測部と、候補データ選択部と、データ更新部と、を具備している。学習データ記憶部は、複数の学習データのうちの、利用者にとって価値があるか否かを表すラベルが設定された既知学習データ群を記憶する。制御部は、前記既知学習データ群のそれぞれに対して取得順序に比例して増加する重みを設定する。ここで、前記既知学習データ群のうちの、利用者にとって価値がある学習データを正例学習データとし、利用者にとって価値がない学習データを負例学習データとする。学習部は、前記既知学習データ群の中から、前記重みが最も大きい選択既知学習データを選択し、前記選択既知学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成する。候補データ記憶部は、前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群として記憶する。予測部は、前記ルールを前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群に適用して、前記候補学習データ群に対して前記正例学習データであるか否かを予測し、予測結果を生成する。候補データ選択部は、前記予測結果に基づいて、前記候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択する。データ更新部は、前記選択候補学習データを出力装置に出力し、入力装置から入力される前記ラベルを前記選択候補学習データに設定し、前記選択候補学習データを前記候補学習データ群から除いて既知学習データとして前記既知学習データ群に追加する。

上記発明の目的、効果、特徴は、添付される図面と連携して実施の形態の記述から、より明らかになる。

図１は、本発明の第１及び第２実施例による能動学習システムのブロック図である。図２は、本発明の第１実施例による能動学習システムのブロック図である。図３は、本発明で扱う学習データのフォーマット例を示す図である。図４は、ルール記憶部の内容例を示す図である。図５は、本発明の第１実施例で扱う学習データ集合の例を示す図である。図６は、本発明の第１実施例による能動学習システムの動作を示すフローチャートである。図７は、本発明の第２実施例による能動学習システムのブロック図である。図８は、本発明の第２実施例による能動学習システムの動作を示すフローチャートである。

以下に添付した図面を参照して、本発明の実施例による能動学習システムについて説明する。

図１に示されるように、本発明の第１実施例による能動学習システムは、入出力装置１１０と、処理装置１２０と、記憶装置１３０とを具備している。

入出力装置１１０は、キーボードやマウス等の入力装置と、ＬＣＤやプリンタ等の出力装置とを含んでいる。記憶装置１３０は、半導体メモリや磁気ディスク等を含んでいる。

処理装置１２０は、コンピュータであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０を具備している。記憶装置１３０は、コンピュータに実行させるためのコンピュータプログラム１０が記憶された記録媒体３０を具備している。ＣＰＵ２０は、コンピュータの起動時などにコンピュータプログラム１０を記録媒体３０から読み取って実行する。

図２に示されるように、記憶装置１３０は、更に、学習データ記憶手段（学習データ記憶部１３１）と、ルール記憶手段（ルール記憶部１３２）と、候補データ記憶手段（候補データ記憶部１３３）と、選択データ記憶手段（選択データ記憶部１３４）とを具備している。

学習データ記憶部１３１には、学習データの集合として複数の学習データのうちの、ラベルの値が既知である（ラベルが設定されている）学習データを表す既知学習データ群が記憶される。既知学習データ群の各々は、例えば図３に示されるように、当該学習データを識別するための識別子２０１と、複数の記述子２０２と、複数のラベル２０３と、重み２０４と、取得サイクル数２０５とを含んでいる。記述子２０２は、当該学習データの構造などを特徴付けるものである。ラベル２０３は、当該学習データの或る事象に関する状態を示し、クラス又は関数値を含んでいる。

ラベル２０３は、事象に関するものとして、利用者にとって価値があるか否かを表している。既知学習データ群のうちの、利用者にとって価値のある学習データは「正例」（正例学習データ）と呼ばれ、利用者にとって価値がない学習データは「負例」（負例学習データ）と呼ばれる。

重み２０４は、例えば０から１までの値を取り、１に近いほど（値が大きいほど）重要度が高いことを示している。初回は同一の重みが設定されている。取得サイクル数２０５は、学習データに対するルールの生成に関する有意性の指標を得るための情報であり、当該学習データが取得されたサイクル数が記録されている。なお、取得サイクル数２０５は複数の学習データの各々に含めるのではなく、複数の学習データと対応付けて学習データ記憶部１３１に記憶しても良い。

ルール記憶部１３２には、学習データ記憶部１３１に記憶された既知学習データ群を用いて、それぞれ、例えばバギング法によって学習されたルール群が記憶される。図４に示されるように、ルール群３０１は、それぞれ、自己を識別するルール識別子群３０２を含み、これによって他のルールと区別される。各ルール３０１は、任意の学習データの記述子２０２が入力されたとき、その学習データが、利用者にとって価値のある正例を表しているかどうか、つまり所望のラベルの値が所望値であるかどうかを予測するためのもので、スコアの算出に関与する。スコアは、当該学習データの正例らしさを表す数値であり、例えば０〜１の値を取り、大きいほど、より正例らしいことを示している。

候補データ記憶部１３３には、複数の学習データのうちの、ラベルの値が未知である（ラベルが設定されていない）学習データを表す未知学習データ群として候補学習データ群が記憶される。候補学習データ群は、学習データ記憶部１３１に記憶された学習データと同様に図３に示したような構造を有している。但し、複数のラベル２０３のうちの学習が行われるラベル（所望のラベル）は、既知学習データ群にあっては既知、すなわち有意な値が設定されているのに対し、候補学習データ群にあっては未知、すなわち未設定になっている点が相違する。

選択データ記憶部１３４は、候補データ記憶部１３３に記憶された候補学習データ群のうち、次に学習すべき学習データとして処理装置１２０によって選択された選択候補学習データを記憶する部分である。

上記のコンピュータプログラム１０は、能動学習部１４０と、制御部１５０とを含んでいる。

能動学習部１４０は、学習手段（学習部１４１）と、予測手段（予測部１４２）と、候補データ選択手段（候補データ選択部１４３）と、データ更新手段（データ更新部１４４）とを備えている。

学習部１４１は、学習データ記憶部１３１から既知学習データ群を読み出し、既知学習データ群の中から、重み２０４（後述）が最も大きい選択既知学習データを選択する。選択既知学習データは、既知学習データ群のうちの選択既知学習データ以外の学習データよりも最新の学習データを表している。学習部１４１は、選択既知学習データに対して正例学習データ又は前記負例学習データを選別するためのルール３０１を生成（学習）し、最新のルール３０１としてルール記憶部１３２に記憶する。

予測部１４２は、ルール記憶部１３２に記憶されたルール群３０１の中から、最新のルール３０１を読み出すと共に、候補データ記憶部１３３から候補学習データ群を読み出す。予測部１４２は、読み出されたルール３０１を候補学習データ群に適用して、候補学習データ群に対して正例学習データであるか否かを予測する。即ち、予測結果として、候補学習データ群の各々に対して、その記述子をルール３０１に入力して正例らしさを表すスコアを算出する。予測部１４２は、その予測結果を候補データ選択部１４３に出力する。

候補データ選択部１４３は、予測結果として算出された候補学習データの各々に対するスコアに基づいて、候補学習データ群の中から、次の学習対象となる学習データを表す選択候補学習データを選択し、選択候補学習データを選択データ記憶部１３４に記憶する。選択候補学習データを選択する方法としては、候補学習データ群の各々に対してスコアの合計あるいは平均を求め、スコアの合計あるいは平均の高い順に選択候補学習データとして選択する方法や、特開２００５−１０７７４３号公報に記載されるように所定の関数を用いて選択する方法などが利用できる。また、スコアの分散を求め、予測が割れた候補学習データを選択候補学習データとして選択する方法など、他の方法も適用可能である。

データ更新部１４４は、選択データ記憶部１３４に記憶された選択候補学習データを読み出して入出力装置１１０に出力する。このとき、ラベル（所望のラベル）の値が入出力装置１１０から入力される。データ更新部１４４は、そのラベル（ラベルの値）を選択候補学習データに設定し、選択候補学習データを、候補学習データ記憶部１３３に記憶された候補学習データ群から除いて、既知学習データとして学習データ記憶部１３１に記憶された既知学習データ群に追加する。既知学習データを学習データ記憶部１３１に追加する際に、取得サイクル数２０５に現在の能動学習サイクル数を記録する。次に学習すべき選択候補学習データの入出力装置１１０からの出力は、図３に示したデータ構造全体であっても良いし、識別子２０１だけであっても良い。また、入出力装置１１０からのラベルの値の入力は、その値が入力されたデータ全体であっても良いし、識別子２０１とラベル番号とラベルの値の組であっても良い。ラベル番号は複数のラベルの中から１つのラベルを特定する番号である。この場合、データ更新部１４４は、入力された識別子２０１を持つ選択候補学習データを選択データ記憶部１３４から検索し、指定されたラベル番号のラベルに入力値を設定して既知学習データとして学習データ記憶部１３１に登録する一方、入力された識別子２０１を持つ選択候補学習データを候補データ記憶部１３３から検索して削除する。

制御部１５０は、学習設定取得手段（学習設定取得部１５１）と、学習データ調査手段（学習データ調査部１５２）と、学習データ重み設定手段（学習データ重み設定部１５３）とを備えている。

学習設定取得部１５１は、利用者等から入出力装置１１０を通じて所望のラベルを表す情報（学習するラベルとその正例のときの値）を含む学習条件を取得し、能動学習部１４０の学習部１４１に処理を移す。

学習データ調査部１５２は、学習データ記憶部１３１に記憶されている取得サイクル数２０５を調べ、学習データ重み設定部１５３に出力する。

学習データ重み設定部１５３は、学習データ記憶部１３１から既知学習データ群を読み出し、既知学習データ群のそれぞれに対して取得順序に比例して増加する重み２０４を設定する。ここで、重み２０４は、既知学習データ群のうちの、新たに追加された既知学習データを、以前から蓄積されている既知学習データより重要視した学習を行うための値（０．０〜１．０）であり、取得サイクル数２０５に基づいて決定される。重みを設定する方法としては、取得サイクル数２０５に対して単調増加な関数を用いて設定する方法などが利用できる。学習データ重み設定部１５３は、既知学習データ群の取得順序に応じて、既知学習データ群のそれぞれに対して重み２０４を設定する。このとき、既知学習データ群には、例えば図５に示されるように、サイクル数ｘまで単調増加な関数ｆ（ｘ）が適用される。学習データ重み設定部１５３は、重みの設定処理を終えると、能動学習部１４０の学習部１４１に処理を進める。

学習部１４１以降の処理においては、学習の重み２０４の値により重要度に差をつけて学習を進める。つまり、重み２０４の大きな学習データは、それより重みの小さな学習データより重要視して学習を進める。

次に、図６を参照して、本実施形態の動作を説明する。

能動学習を開始するに際しては、記憶装置１３０の学習データ記憶部１３１に既知学習データ群が記憶され、候補データ記憶部１３３には候補学習データ群が記憶されている。既知学習データ群及び候補学習データ群の重み２０４は同一の重みに設定されている。またルール記憶部１３２にはルールが保存されていなく、選択データ記憶部１３４にも１つも選択データは保存されていない。この状態で処理装置１２０が起動されると、図６に示す処理が開始される。

（１）ステップＳ１０１
まず、入出力装置１１０から与えられた学習条件が制御部１５０の学習設定取得部１５１へ供給される。そして、処理は学習部１４１に移行する。

（２）ステップＳ１０２
学習部１４１は、学習データ記憶部１３１から既知学習データ群を読み出し、既知学習データ群の中から、重み２０４が最も大きい選択既知学習データを選択する。選択既知学習データは、既知学習データ群のうちの選択既知学習データ以外の学習データよりも最新の学習データを表している。学習部１４１は、選択既知学習データに対して正例学習データ又は前記負例学習データを選別するためのルール３０１を生成（学習）し、最新のルール３０１としてルール記憶部１３２に記憶する。

（３）ステップＳ１０３
予測部１４２は、ルール記憶部１３２に記憶された最新のルール３０１を、候補データ記憶部１３３に記憶された候補学習データ群に適用して、候補学習データ群に対して正例学習データであるか否かを予測する。予測部１４２は、その予測結果を候補データ選択部１４３に出力する。

（４）ステップＳ１０４
候補データ選択部１４３は、予測結果に基づいて、候補学習データ群の中から、次の学習対象となる学習データを表す選択候補学習データを選択し、選択候補学習データを選択データ記憶部１３４に記憶する。

（５）ステップＳ１０５
データ更新部１４４は、選択データ記憶部１３４に記憶された選択候補学習データを読み出して入出力装置１１０に出力する。ラベル（所望のラベル）の値が入出力装置１１０から入力されたとき、データ更新部１４４は、そのラベル（ラベルの値）を選択候補学習データに設定する。データ更新部１４４は、選択候補学習データを、候補データ記憶部１３３に記憶された候補学習データ群から除いて、既知学習データとして学習データ記憶部１３１に記憶された既知学習データ群に追加する。これで、能動学習の１サイクルが終了し、処理が制御部１５０に移行する。

（６）ステップＳ１０６
制御部１５０は、終了条件が成立したかどうかを判定し、終了条件が成立していなければ、学習データ調査部１５２に処理を進める。この場合、学習データ記憶部１３１には、既知学習データ群のうちの、学習開始時点に存在した既知学習データと、データ更新部１４４によって追加された既知学習データとが混在している。後者の追加された既知学習データの所望のラベルの値は実験なり調査なりで調べられた実際の値である。他方、終了条件が成立していれば、制御部１５０は能動学習サイクルの繰り返しを停止させる。終了条件は、入出力装置１１０から与えられ、その条件は、能動学習サイクルの最大繰り返し回数等、任意の条件で良い。

（７）ステップＳ１０７
学習データ調査部１５２は、学習データ記憶部１３１に記憶されている学習データの取得サイクル数２０５を調べ、学習データ重み設定部１５３に出力する。

（８）ステップＳ１０８
学習データ重み設定部１５３は、学習データ記憶部１３１から学習データを読み出し、既知学習データ群のそれぞれに対して取得順序に比例して増加する重み２０４を設定する。

本発明の第１実施例による能動学習システムによれば、既知学習データ群のうちの、新たに加えられた既知学習データを、以前から蓄積されている既知学習データより重要視した学習を行うことができる。その理由としては、取得サイクル数２０５に応じて、新しく取得された既知学習データほど大きい値の重み２０４を設定し、以前から蓄積されている既知学習データほど小さい値の重み２０４を設定する。これによって、新しく取得された既知学習データをより反映したルール３０１が生成される。更には、以前のサイクルで生成されたルール３０１と性質の異なったルール３０１が生成されることが期待される。そのルール３０１を適用して候補学習データから選択される次に学習すべき既知学習データは、重要度に差をつけない学習に比べて、正例の数がより多く、そして多様な正例が含まれる確率が高くなる。このように、本発明の第１実施例による能動学習システムでは、既知学習データの取得順序を考慮することにより、学習効率が向上する。

次に、本発明の第２実施例について説明する。

本発明の第２実施例による能動学習システムは、後述のとおり、制御部１５０が学習データ調査部１５２と学習データ重み設定部１５３の代わりに学習見直し手段（学習見直し部１５４）を備える点と、記憶装置１３０が更にルール識別子記憶手段（ルール識別子記憶部１３５）を備える点で、図２に示した第１実施例と相違する。

図７を参照すると、本発明の第２実施例による能動学習システムは、図２に示した第１実施例と同様に、入出力装置１１０と、処理装置１２０と、記憶装置１３０とを具備している。処理装置１２０は、能動学習部１４０と、制御部１５０とを備えている。

ここでは、記憶装置１３０は、学習データ記憶部１３１と、ルール記憶部１３２と、候補データ記憶部１３３と、選択データ記憶部１３４と、ルール識別子記憶部１３５とを備えている。また、制御部１５０は、学習設定取得部１５１と、学習見直し部１５４とを備えている。他の構成については、図２に示した第１実施例と同様である。

学習見直し部１５４は、学習データ記憶部１３１から既知学習データ群を読み出し、既知学習データ群のそれぞれに対応するルール３０１であるルール群３０１をルール記憶部１３２から読み出す。学習見直し部１５４は、既知学習データ群のそれぞれに対して取得順序に比例して増加する重み２０４を設定する。学習見直し部１５４は、ルール群３０１の取得順序に応じて、既知学習データ群のうちの、正例学習データを表す正例既知学習データ群に対してルール群３０１を適用したときの正例学習データの数を表すスコアを決定し、スコアに基づいて、既知学習データ群のそれぞれに対して設定された重み２０４を調整する。これについて以下に説明する。

学習見直し部１５４は、前サイクルでデータ更新部１４４によって追加された既知学習データ、すなわち最も新しく取得した既知学習データの結果をルールに照らし合わせ、ルール生成の起因となった前々サイクル以前の学習データにフィードバックする。すなわち、学習データ記憶部１３１に記憶されている既知学習データ群の中から、取得サイクル数２０５として前サイクル番号が記録されている既知学習データ群を検索する。

学習見直し部１５４は、検索された既知学習データ群が、所望のラベル２０３が正例であることを表す正例既知学習データ群である場合、その正例既知学習データ群に対して、ルール記憶部１３２に記憶されているルール群３０１を適用して重要度を算出する。ルール群３０１の各々の重要度の算出は、正例既知学習データ群に適用したときの正例学習データの数を表すスコアを求め、スコアの最大値又は平均値としても良い。学習見直し部１５４は、ルール群３０１のうちの、重要度が高いルールを選択ルール３０１として選択し、選択ルール３０１のルール識別子３０２を選択ルール識別子３０２としてルール識別子記憶部１３５に記憶する。ルールの重要度の高さの判定は、ある閾値以上の値としても良いし、算出された値の上位一定割合としても良いし、ルール数の上位一定割合としても良い。

次に、学習見直し部１５４は、学習データ記憶部１３１に記憶されている既知学習データ群の中から、取得サイクル数２０５として前々サイクル番号以下の番号が記憶されている既知学習データを読み出し、その既知学習データの各々に対して、その記述子を選択ルール３０１に入力して正例らしさを表すスコアを算出する。

学習見直し部１５４は、算出されたスコアと所望ラベル値を照らし合わせ、既知学習データ群のうちの、正例学習データであり、算出されたスコアが所定スコアよりも高い既知学習データについては、その重み２０４を所定値だけ大きくする。また、正例学習データであるが、算出されたスコアが所定スコアよりも低い既知学習データについては、その重み２０４を所定値だけ小さくする。一方、負例学習データであり、算出されたスコアが所定スコアよりも低い既知学習データについては、その重み２０４を所定値だけ大きくする。また、負例学習データであるが、算出されたスコアが所定スコアよりも高い既知学習データであっても、その重み２０４を所定値だけ小さくする。重みを増減させる値は、定数としても良いし、算出されたスコア値としても良い。

学習見直し部１５４は、重みの設定処理を終えると、能動学習部１４０の学習部１４１に処理を進める。

図８を参照すると、本実施形態にかかる能動学習システムの動作フローは、後述のとおり、図５に示した第１実施例と比較して、ステップＳ４０２、Ｓ４０３の代わりにステップＳ７０１〜Ｓ７０４が設けられている点が相違する。

以下、本実施形態の動作を説明する。
なお、本実施形態のスタートから１サイクル目のステップＳ２０６までの動作は、第１実施例のスタートからステップＳ１０６までの動作と同じである。

（１）ステップＳ２０１
まず、入出力装置１１０から与えられた学習条件が制御部１５０の学習設定取得部１５１へ供給される。そして、処理は学習部１４１に移行する。

（２）ステップＳ２０２
学習部１４１は、学習データ記憶部１３１から既知学習データ群を読み出し、既知学習データ群の中から、重み２０４が最も大きい選択既知学習データを選択する。選択既知学習データは、既知学習データ群のうちの選択既知学習データ以外の学習データよりも正しく予測された学習データを表している。学習部１４１は、選択既知学習データに対して正例学習データ又は前記負例学習データを選別するためのルール３０１を生成（学習）し、最新のルール３０１としてルール記憶部１３２に記憶する。

（３）ステップＳ２０３
予測部１４２は、ルール記憶部１３２に記憶された最新のルール３０１を、候補データ記憶部１３３に記憶された候補学習データ群に適用して、候補学習データ群に対して正例学習データであるか否かを予測する。予測部１４２は、その予測結果を候補データ選択部１４３に出力する。

（４）ステップＳ２０４
候補データ選択部１４３は、予測結果に基づいて、候補学習データ群の中から、次の学習対象となる学習データを表す選択候補学習データを選択し、選択候補学習データを選択データ記憶部１３４に記憶する。

（５）ステップＳ２０５
データ更新部１４４は、選択データ記憶部１３４に記憶された選択候補学習データを読み出して入出力装置１１０に出力する。ラベル（所望のラベル）の値が入出力装置１１０から入力されたとき、データ更新部１４４は、そのラベル（ラベルの値）を選択候補学習データに設定する。データ更新部１４４は、選択候補学習データを、候補データ記憶部１３３に記憶された候補学習データ群から除いて、既知学習データとして学習データ記憶部１３１に記憶された既知学習データ群に追加する。これで、能動学習の１サイクルが終了し、処理が制御部１５０に移行する。

（６）ステップＳ２０６
制御部１５０は、終了条件が成立したかどうかを判定し、終了条件が成立していなければ、学習見直し部１５４に処理が移る。この場合、学習データ記憶部１３１には、既知学習データ群のうちの、学習開始時点に存在した既知学習データと、データ更新部１４４によって追加された既知学習データとが混在している。後者の追加された学習データの所望のラベルの値は実験なり調査なりで調べられた実際の値である。他方、終了条件が成立していれば、制御部１５０は能動学習サイクルの繰り返しを停止させる。終了条件は、入出力装置１１０から与えられ、その条件は、能動学習サイクルの最大繰り返し回数等、任意の条件で良い。

（７）ステップＳ２０７
学習見直し部１５４は、学習データ記憶部１３１に記憶されている既知学習データ群の中から、取得サイクル数２０５として前サイクル番号が記録されている既知学習データ群を検索する。学習見直し部１５４は、検索された既知学習データ群が、所望のラベル２０３が正例であることを表す正例既知学習データ群である場合、その正例既知学習データ群に対して、ルール記憶部１３２に記憶されているルール群３０１を適用して重要度を算出する。

（８）ステップＳ２０８
次に、学習見直し部１５４は、ルール群３０１のうちの、重要度が高いルールを選択ルール３０１として選択し、選択ルール３０１のルール識別子３０２を選択ルール識別子３０２としてルール識別子記憶部１３５に記憶する。

（９）ステップＳ２０９
次に、学習見直し部１５４は、学習データ記憶部１３１に記憶されている既知学習データ群の中から、取得サイクル数２０５として前々サイクル番号以下の番号が記憶されている既知学習データを読み出し、その既知学習データの各々に対して、その記述子を選択ルール３０１に入力して正例らしさを表すスコアを算出する。

（１０）ステップＳ２１０
学習見直し部１５４は、算出されたスコアと所望ラベル値を照らし合わせ、既知学習データ群のうちの、正例学習データであり、算出されたスコアが所定スコアよりも高い既知学習データについては、その重み２０４を所定値だけ大きくする。また、正例学習データであるが、算出されたスコアが所定スコアよりも低い既知学習データについては、その重み２０４を所定値だけ小さくする。一方、負例学習データであり、算出されたスコアが所定スコアよりも低い既知学習データについては、その重み２０４を所定値だけ大きくする。また、負例学習データであるが、算出されたスコアが所定スコアよりも高い既知学習データであっても、その重み２０４を所定値だけ小さくする。そして、能動学習部１４０に処理が移る。

学習部１４１以降の処理においては、第１実施例と同じである。能動学習部１４０で能動学習の１サイクルが終了すると、制御部１５０に再び処理が移る。

なお、第１、第２実施例のいずれかの動作（能動学習方法）を規定したコンピュータプログラムを用いて、諸般のコンピュータに本発明の能動学習方法における動作を実施させるようにすることもできる。

本発明の第２実施例による能動学習システムによれば、能動学習サイクル毎に、前サイクルで得られた正例データをルールにフィードバックする機能が設けられている。これにより、正例取得に効果のあったルールに対して、正例を正例らしいと正しく予測した学習データの重みを増やし、正例を正例らしくないと誤って予測した学習データの重みを減らしている。一方、負例を正例らしくないと正しく予測した学習データの重みを増やし、負例を正例らしいと誤って予測した学習データの重みを減らしている。その結果、次サイクルの学習時において、前サイクルで正例を得たルールを反映した学習が行われることが期待できる。また、新しく取得した正例が極僅かであった場合にも、以前から蓄積されていたデータに引きずられたルールではなく、その新たに取得した極僅かな正例を重視したルールが生成されることが期待される。ルールのフィードバック機能がある学習は、ルールのフィードバック機能がない学習に比べて、正例の数がより多く、そして多様な正例が含まれる確率が高くなる。このように、本発明の第２実施例による能動学習システムでは、既知学習データに対応するルールの取得順序を考慮することにより、学習効率が向上する。

次に第２実施例の変形例について説明する。

前述したように、学習見直し部１５４は、学習データ記憶部１３１から既知学習データ群を読み出し、既知学習データ群のそれぞれに対応するルール３０１であるルール群３０１をルール記憶部１３２から読み出す。学習見直し部１５４は、既知学習データ群のそれぞれに対して取得順序に比例して増加する重み２０４を設定する。学習見直し部１５４は、ルール群３０１の取得順序に応じて、既知学習データ群のうちの、正例学習データを表す正例既知学習データ群に対してルール群３０１を適用したときの正例学習データの数を表すスコアを決定し、スコアに基づいて、既知学習データ群のそれぞれに対して設定された重み２０４を調整している。即ち、既知学習データ群のうちの、所望のラベル２０３が正例である学習データに対してのみ、ルール記憶部１３２に記憶されているルール群３０１に適用している。

一方、変形例では、学習見直し部１５４は、ルール群３０１の取得順序に応じて、既知学習データ群に対してルール群３０１を適用したときの正例学習データの数を表すスコアを決定し、スコアに基づいて、既知学習データ群のそれぞれに対して設定された重み２０４を調整する。即ち、既知学習データ群のうちの、所望のラベル２０３が正例だけでなく負例を含めた学習データに対して、ルール群３０１に適用する。正例の場合は算出されたスコアがそのままルールの重要度に反映するが、負例の場合、例えば、スコアは０〜１の範囲を取り、１に近いほど正例である可能性が高いとした場合、算出されたスコアを１から引いた値を正例スコアとする。こうして算出されたスコアからルール群３０１の各々の重要度を算出する。

本実施形態の変形例によれば、能動学習サイクル毎に、前サイクルで得られた正例学習データだけでなく、負例学習データもルールにフィードバックする機能が設けられている。このため、次サイクルの学習時において、新しく取得した学習データの分類能力が高い学習が行われることが期待される。ルールのフィードバック機能がある学習は、ルールのフィードバック機能がない学習に比べて、正例の数がより多く、そして多様な正例が含まれる確率が高くなる。このように、本発明の第２実施例による能動学習システムでは、既知学習データに対応するルールの取得順序を考慮することにより、学習効率が向上する。

以上、実施例を参照して本発明を説明したが、本発明は上記の実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

本発明の能動学習システム及び方法は、例えば、創薬スクリーニングの場面において活性化合物を探索するなどのように、多数の候補データからユーザが所望するデータを選択するようなデータマイニングの用途に適用できる。

Claims

複数の学習データのうちの、利用者にとって価値があるか否かを表すラベルが設定された既知学習データ群及び各々の取得サイクル数を記憶する学習データ記憶手段と、
前記取得サイクル数に基づいて重みを決定し、前記既知学習データ群のそれぞれに対して取得順序に比例して増加する前記重みを設定する制御手段と、
前記既知学習データ群のうちの、利用者にとって価値がある学習データを正例学習データとし、利用者にとって価値がない学習データを負例学習データとし、前記既知学習データ群の中から、前記重みが最も大きい選択既知学習データを選択し、前記選択既知学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成する学習手段と、
前記既知学習データ群のそれぞれに対応する前記ルールをルール群として記憶するルール記憶手段と、
前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群として記憶する候補データ記憶手段と、
前記ルールを前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群に適用して、前記候補学習データ群に対して前記正例学習データであるか否かを予測し、予測結果を生成する予測手段と、
前記予測結果に基づいて、前記候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択する候補データ選択手段と、
前記選択候補学習データを出力装置に出力し、入力装置から入力される前記ラベルを前記選択候補学習データに設定し、前記選択候補学習データを前記候補学習データ群から除いて既知学習データとして前記既知学習データ群に追加するデータ更新手段と
を具備し、
前記制御手段は、前記ルール群の取得順序に応じて、前記既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表すスコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整する
能動学習システム。
請求項１に記載の能動学習システムであって、
前記選択既知学習データは、前記既知学習データ群のうちの前記選択既知学習データ以外の学習データよりも正しく予測された学習データを表している
能動学習システム。
請求項１又は２に記載の能動学習システムであって、
前記制御手段は、前記ルール群の取得順序に応じて、前記既知学習データ群のうちの、前記正例学習データを表す正例既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表す前記スコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整する
能動学習システム。
請求項１乃至３のいずれか一項に記載の能動学習システムであって、
前記制御手段は、能動学習サイクル毎に、先のサイクルで得られた正例学習データ及び負例学習データを前記ルール群にフィードバックし、正例取得に効果のあったルールに対して、正例を正例らしいと正しく予測した学習データの重みを増やし、正例を正例らしくないと誤って予測した学習データの重みを減らし、負例取得に効果のあったルールに対して、負例を正例らしくないと正しく予測した学習データの重みを増やし、負例を正例らしいと誤って予測した学習データの重みを減らす
能動学習システム。
複数の学習データのうちの、利用者にとって価値があるか否かを表すラベルが設定された既知学習データ群及び各々の取得サイクル数を学習データ記憶手段に記憶するステップと、
前記取得サイクル数に基づいて重みを決定し、前記既知学習データ群のそれぞれに対して取得順序に比例して増加する前記重みを設定するステップと、
前記既知学習データ群のうちの、利用者にとって価値がある学習データを正例学習データとし、利用者にとって価値がない学習データを負例学習データとし、前記既知学習データ群の中から、前記重みが最も大きい選択既知学習データを選択し、前記選択既知学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成するステップと、
前記既知学習データ群のそれぞれに対応する前記ルールをルール群としてルール記憶手段に記憶するステップと、
前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群として候補データ記憶手段に記憶するステップと、
前記ルールを前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群に適用して、前記候補学習データ群に対して前記正例学習データであるか否かを予測し、予測結果を生成するステップと、
前記予測結果に基づいて、前記候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択するステップと、
前記選択候補学習データを出力装置に出力し、入力装置から入力される前記ラベルを前記選択候補学習データに設定し、前記選択候補学習データを前記候補学習データ群から除いて既知学習データとして前記既知学習データ群に追加するステップと、
前記ルール群の取得順序に応じて、前記既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表すスコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整するステップと
を具備する
能動学習方法。
請求項５に記載の能動学習方法であって、
前記選択既知学習データは、前記既知学習データ群のうちの前記選択既知学習データ以外の学習データよりも正しく予測された学習データを表している
能動学習方法。
請求項５又は６に記載の能動学習方法であって、
前記重みを調整する際、前記ルール群の取得順序に応じて、前記既知学習データ群のうちの、前記正例学習データを表す正例既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表す前記スコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整するステップ
を更に具備する
能動学習方法。
請求項５乃至７のいずれか一項に記載の能動学習方法であって、
前記重みを調整する際、能動学習サイクル毎に、先のサイクルで得られた正例学習データ及び負例学習データを前記ルール群にフィードバックし、正例取得に効果のあったルールに対して、正例を正例らしいと正しく予測した学習データの重みを増やし、正例を正例らしくないと誤って予測した学習データの重みを減らし、負例取得に効果のあったルールに対して、負例を正例らしくないと正しく予測した学習データの重みを増やし、負例を正例らしいと誤って予測した学習データの重みを減らすステップ
を更に具備する
能動学習方法。
複数の学習データのうちの、利用者にとって価値があるか否かを表すラベルが設定された既知学習データ群及び各々の取得サイクル数を学習データ記憶手段に記憶するステップと、
前記取得サイクル数に基づいて重みを決定し、前記既知学習データ群のそれぞれに対して取得順序に比例して増加する前記重みを設定するステップと、
前記既知学習データ群のうちの、利用者にとって価値がある学習データを正例学習データとし、利用者にとって価値がない学習データを負例学習データとし、前記既知学習データ群の中から、前記重みが最も大きい選択既知学習データを選択し、前記選択既知学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成するステップと、
前記既知学習データ群のそれぞれに対応する前記ルールをルール群としてルール記憶手段に記憶するステップと、
前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群として候補データ記憶手段に記憶するステップと、
前記ルールを前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群に適用して、前記候補学習データ群に対して前記正例学習データであるか否かを予測し、予測結果を生成するステップと、
前記予測結果に基づいて、前記候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択するステップと、
前記選択候補学習データを出力装置に出力し、入力装置から入力される前記ラベルを前記選択候補学習データに設定し、前記選択候補学習データを前記候補学習データ群から除いて既知学習データとして前記既知学習データ群に追加するステップと、
前記ルール群の取得順序に応じて、前記既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表すスコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整するステップと
をコンピュータに実行させるための
プログラム。
請求項９に記載のプログラムであって、
前記選択既知学習データは、前記既知学習データ群のうちの前記選択既知学習データ以外の学習データよりも正しく予測された学習データを表している
プログラム。
請求項９に記載のプログラムであって、
前記重みを調整する際、前記ルール群の取得順序に応じて、前記既知学習データ群のうちの、前記正例学習データを表す正例既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表す前記スコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整するステップ
を更にコンピュータに実行させるための
プログラム。
請求項９乃至１１のいずれか一項に記載のプログラムであって、
前記重みを調整する際、能動学習サイクル毎に、先のサイクルで得られた正例学習データ及び負例学習データを前記ルール群にフィードバックし、正例取得に効果のあったルールに対して、正例を正例らしいと正しく予測した学習データの重みを増やし、正例を正例らしくないと誤って予測した学習データの重みを減らし、負例取得に効果のあったルールに対して、負例を正例らしくないと正しく予測した学習データの重みを増やし、負例を正例らしいと誤って予測した学習データの重みを減らすステップ
を更にコンピュータに実行させるための
プログラム。