JP5187635B2 - 能動学習システム、能動学習方法、及び能動学習用プログラム - Google Patents

能動学習システム、能動学習方法、及び能動学習用プログラム Download PDF

Info

Publication number
JP5187635B2
JP5187635B2 JP2008549233A JP2008549233A JP5187635B2 JP 5187635 B2 JP5187635 B2 JP 5187635B2 JP 2008549233 A JP2008549233 A JP 2008549233A JP 2008549233 A JP2008549233 A JP 2008549233A JP 5187635 B2 JP5187635 B2 JP 5187635B2
Authority
JP
Japan
Prior art keywords
learning data
learning
group
data
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008549233A
Other languages
English (en)
Other versions
JPWO2008072459A1 (ja
Inventor
慶子 山下
由希子 黒岩
稔 麻生川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008549233A priority Critical patent/JP5187635B2/ja
Publication of JPWO2008072459A1 publication Critical patent/JPWO2008072459A1/ja
Application granted granted Critical
Publication of JP5187635B2 publication Critical patent/JP5187635B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は能動学習システムに関し、特に機械学習における能動学習システムに関する。この出願は、2006年12月11日に出願された特許出願番号2006−332983号の日本特許出願に基づいており、その出願による優先権の利益を主張し、その出願の開示は、引用することにより、そっくりそのままここに組み込まれている。
能動学習とは、学習者(コンピュータ)が学習データを能動的に選択できる、機械学習手法の一形態である。能動学習では、(1)実験→(2)結果の学習→(3)次の実験対象の選択→(1)実験、のサイクルを繰り返すことでトータルの実験量を減らすことができる。(2)と(3)はコンピュータによって行われる。能動学習は、少ない実験回数あるいは実験量で多くの結果を得るための方法であり、多くの費用と時間を必要とする実験を適切に計画する実験計画法で使われる。能動学習を用いたコンピュータシステム(以下、能動学習システム)は、例えば、膨大な種類の化合物の中から特定のタンパク質に対し活性のある化合物を発見する創薬スクリーニングなどに適した技術として注目されている。
能動学習システムで扱われるデータ(学習データ)は、複数の記述子(属性)と1以上のラベルとで表現される。記述子はそのデータの構造などを特徴付けるものであり、ラベルはそのデータの或る事象に関する状態を示している。例えば、能動学習による創薬スクリーニングの場合、個々の化合物データは、ベンゼン環などの部分構造の有無を0/1のビット列で記述したものや、分子量などの各種物理化学定数などを記述した複数の記述子によって表現される。また、ラベルは、例えば特定のタンパク質に対する活性の有無を示すために使用される。ラベルの取り得る値は、活性あり、活性なしのように離散値の場合、クラスと呼ばれる。他方、ラベルが取り得る値が連続値の場合、関数値と呼ばれる。つまり、ラベルはクラス又は関数値を含んでいる。
学習データの集合として複数の学習データのうちの、ラベルの値が既知である(ラベルが設定されている)学習データは既知学習データ群と呼ばれ、ラベルの値が未知である(ラベルが設定されていない)学習データは未知学習データ群と呼ばれる。能動学習システムでは、最初の学習は、既知学習データを使って行われる。既知学習データ群のうちの、利用者にとって価値のある学習データを「正例」(正例学習データ)とし、利用者にとって価値がないものを「負例」(負例学習データ)として区別し、能動学習システムは、既知学習データ群から選択した正例学習データ及び負例学習データの双方を用いて学習する。正例、負例は、能動学習システムにより注目されるラベルの値で決まる。その注目されるラベルの値が2値を取る場合、利用者の注目する値が正例となり、そうでない値が負例となる。例えば、或るラベルが或るタンパク質に対する活性の有無を示しているものとし、そのタンパク質に対して活性のある化合物に注目する場合、活性ありの値のラベルが正例となり、活性なしの値のラベルが負例になる。なお、ラベルが多値の場合、能動学習システムにより注目されている1つ以上の値は正例となり、それ以外の全ての値は負例となる。またラベルの取り得る値が連続値の場合、能動学習システムにより注目される値付近にラベル値が存在するものは正例となり、それ以外のところにあるものは負例となる。
能動学習システムは、既知学習データ群の中から、任意の既知学習データを選択し、アンサンブル学習(複数の学習機械を統合して予測を行う手法)を適用して、その学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成する正例と負例を使ってルールを生成(学習)する。ルールは、任意の既知学習データの記述子が入力されたとき、その学習データのラベルの値が注目している値かどうか、換言すればそのデータが正例か、負例かを選別するための仮説、規則を表している。代表的なアンサンブル学習手法として、バギング(Bagging)とブースティング(Boosting)がある。
バギングとは、アンサンブル学習法の1つであり、各学習機械は、同一の既知事例のデータベースからデータのリサンプリングを行って生成された、異なった学習データ群を用いて学習を行い、これらの予測値の多数決によって、未知事例のクラスを予測する手法である。
ブースティングとは、複数の異なる判別ルールがあるとき、それらをうまく統合して1つの性能の良い判別ルールを作るための1つの学習アルゴリズムである。実際には、統合された判別ルールとは、それぞれの判別ルールは後述するスコアが与えられて、そのスコアによる重み付き多数決ルールを指す。学習の過程でそのスコアの上げ下げが繰り返されることからブースティングと呼ばれる。
能動学習システムは、既知学習データ群のうちの任意の既知学習データで学習して、任意の既知学習データに対するルールを生成する。未知学習データ群を候補学習データ群とし、そのルールを候補学習データ群に適用し、候補学習データ群のラベルの値の予測を行う。即ち、候補学習データ群に対して正例学習データであるか否かを予測し、予測結果を生成する。この予測結果は、スコアと呼ばれる数値で定量的に示される。スコアは、個々の候補学習データ群に対して正例らしさを表す数値であり、値が大きいほど、正例である可能性が高いことを示している。能動学習システムは、候補学習データ群に対する予測結果に基づいて、候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択して出力する。この選択方法に関しては、予測が割れたデータを選択する方法や、スコアの高い順に選択する方法、或る関数を用いて選択する方法等、幾つかの方法がある。
選択候補学習データは、ラベルの値が未知であるため、実験や調査などによってラベルの実際の値が調べられ、能動学習システムにフィードバックされる。能動学習システムは、ラベルを選択候補学習データに設定し、選択候補学習データを候補学習データ群から取り除いて既知学習データとして既知学習データ群に追加し、上述と同様の動作が再度繰り返される。このような処理の繰り返しは、予め定められた終了条件が満たされるまで続けられる。
これにより、能動学習システムは、少ない実験量で、かつ早期に正例を発見する技術として用いられる。例えば、上述のように、創薬スクリーニングでは、膨大な種類の化合物の中から特定のタンパク質に対し活性のある化合物を発見する。この場合、活性なしの化合物(負例)が大多数であり、活性ありの化合物(正例)が極僅かである。このように正例と負例の数がアンバランスな場合においても、少ない化合物数の実験量で早期に活性のある化合物(正例)を発見できる。
しかし、従来技術には、以下のような問題点が存在する。
第1の問題点において、能動学習システムは、既知学習データ群のうちの、以前から蓄積されている既知学習データと、新たに追加された既知学習データとが同じ扱いにしていることである。これにより、以前から蓄積されている既知学習データに対するルールと、新たに追加された既知学習データに対するルールは、それほど変わらない。このような能動学習システムでは、以前から蓄積されている既知学習データに新たに既知学習データが加わったことによる顕著な効果はない。
このように、上述の能動学習システムでは、ルールに変化がないため、そのルールを用いて次のルールを学習するための学習効率が向上しない。特に創薬スクリーニングのように未知ラベルの値を実験によって求める際のコストが大きい分野では、学習コストが著しく増大する。
なお、関連する技術として、特開2005−107743号公報に学習システムが開示されている。
この従来技術では、データ処理部の学習部は、ユーザの入力装置の操作により学習データと下位学習アルゴリズムと終了条件とを入力する。学習データは、ラベル(クラス又は関数値)が設定されたデータである。下位学習アルゴリズムは、能動学習を行うためのコンピュータプログラムである。学習部は、入力した学習データと終了条件とを学習データ記憶部に格納する。下位学習アルゴリズムは、学習データと終了条件と共に入力されているが、予めに学習データ記憶部に格納されていても良い。学習部は、下位学習アルゴリズムを用いて学習処理を行う。
また、特開2001−325272号公報に情報整理方法、情報処理装置、記憶媒体、及びプログラム伝送装置が開示されている。
この従来技術では、新しく出現した単語に対して重み付けを高くして選別することを特徴とする旨が示されている。
また、特開2005−284348号公報に情報処理装置及び方法、記録媒体、並びにプログラムが開示されている。
この従来技術では、データ重みを利用して弱判別器を選択し、選択された弱判別器による学習サンプルの判別結果を、信頼度により重み付けした値の累積和に基づいて基準値を演算する。演算された基準値に基づいて学習サンプルの一部を削除し、削除されなかった学習サンプルに基づいてデータ重みを演算する。
また、特開2006−139718号公報に話題語結合方法及び話題語結合・代表語抽出方法及び装置及びプログラムが開示されている。
この従来技術では、文書共有度算出の際に、文書数の代わりに文書それぞれが持つ日付や時刻の鮮度の重みを用いて、文書共有度を計算することもできる。例えば、文書共有度=(共有する文書それぞれの鮮度の重みの和)/(2つの該当する話題語が持つ文書のそれぞれの鮮度の重みの和)。この鮮度の重みは、文書の日付や時間が新しいものほど、文書共有度が高くなるように作用する。
更に、特開2006−185099号公報に確率モデル作成方法が開示されている。
この従来技術では、所定の事象を説明するための1つ以上の変数を含む説明変数と該説明変数に応じた値を取る非説明変数とを組とするサンプルの集合である学習データの各サンプル毎に、予め用意された確率モデルに基づいて、非説明変数の値に対応する確率を算出する。また、該算出された確率に基づいて、学習データの各サンプルに対する重みを算出する。また、算出された重みと学習データとに基づいて新たな確率モデルを作成してモデル記憶装置に記憶する。更に、モデル記憶装置に記憶された確率モデルを用いて、説明変数と同じデータ形式の入力パラメータに対して、事象が発生又は発生しない確率を算出する。
本発明の目的は、学習データの取得順序を考慮することにより、学習効率が向上する能動学習システムを提供することにある。
本発明の能動学習システムは、学習データ記憶部と、制御部と、学習部と、候補データ記憶部と、予測部と、候補データ選択部と、データ更新部と、を具備している。学習データ記憶部は、複数の学習データのうちの、利用者にとって価値があるか否かを表すラベルが設定された既知学習データ群を記憶する。制御部は、前記既知学習データ群のそれぞれに対して取得順序に比例して増加する重みを設定する。ここで、前記既知学習データ群のうちの、利用者にとって価値がある学習データを正例学習データとし、利用者にとって価値がない学習データを負例学習データとする。学習部は、前記既知学習データ群の中から、前記重みが最も大きい選択既知学習データを選択し、前記選択既知学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成する。候補データ記憶部は、前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群として記憶する。予測部は、前記ルールを前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群に適用して、前記候補学習データ群に対して前記正例学習データであるか否かを予測し、予測結果を生成する。候補データ選択部は、前記予測結果に基づいて、前記候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択する。データ更新部は、前記選択候補学習データを出力装置に出力し、入力装置から入力される前記ラベルを前記選択候補学習データに設定し、前記選択候補学習データを前記候補学習データ群から除いて既知学習データとして前記既知学習データ群に追加する。
上記発明の目的、効果、特徴は、添付される図面と連携して実施の形態の記述から、より明らかになる。
図1は、本発明の第1及び第2実施例による能動学習システムのブロック図である。 図2は、本発明の第1実施例による能動学習システムのブロック図である。 図3は、本発明で扱う学習データのフォーマット例を示す図である。 図4は、ルール記憶部の内容例を示す図である。 図5は、本発明の第1実施例で扱う学習データ集合の例を示す図である。 図6は、本発明の第1実施例による能動学習システムの動作を示すフローチャートである。 図7は、本発明の第2実施例による能動学習システムのブロック図である。 図8は、本発明の第2実施例による能動学習システムの動作を示すフローチャートである。
以下に添付した図面を参照して、本発明の実施例による能動学習システムについて説明する。
図1に示されるように、本発明の第1実施例による能動学習システムは、入出力装置110と、処理装置120と、記憶装置130とを具備している。
入出力装置110は、キーボードやマウス等の入力装置と、LCDやプリンタ等の出力装置とを含んでいる。記憶装置130は、半導体メモリや磁気ディスク等を含んでいる。
処理装置120は、コンピュータであり、CPU(Central Processing Unit)20を具備している。記憶装置130は、コンピュータに実行させるためのコンピュータプログラム10が記憶された記録媒体30を具備している。CPU20は、コンピュータの起動時などにコンピュータプログラム10を記録媒体30から読み取って実行する。
図2に示されるように、記憶装置130は、更に、学習データ記憶手段(学習データ記憶部131)と、ルール記憶手段(ルール記憶部132)と、候補データ記憶手段(候補データ記憶部133)と、選択データ記憶手段(選択データ記憶部134)とを具備している。
学習データ記憶部131には、学習データの集合として複数の学習データのうちの、ラベルの値が既知である(ラベルが設定されている)学習データを表す既知学習データ群が記憶される。既知学習データ群の各々は、例えば図3に示されるように、当該学習データを識別するための識別子201と、複数の記述子202と、複数のラベル203と、重み204と、取得サイクル数205とを含んでいる。記述子202は、当該学習データの構造などを特徴付けるものである。ラベル203は、当該学習データの或る事象に関する状態を示し、クラス又は関数値を含んでいる。
ラベル203は、事象に関するものとして、利用者にとって価値があるか否かを表している。既知学習データ群のうちの、利用者にとって価値のある学習データは「正例」(正例学習データ)と呼ばれ、利用者にとって価値がない学習データは「負例」(負例学習データ)と呼ばれる。
重み204は、例えば0から1までの値を取り、1に近いほど(値が大きいほど)重要度が高いことを示している。初回は同一の重みが設定されている。取得サイクル数205は、学習データに対するルールの生成に関する有意性の指標を得るための情報であり、当該学習データが取得されたサイクル数が記録されている。なお、取得サイクル数205は複数の学習データの各々に含めるのではなく、複数の学習データと対応付けて学習データ記憶部131に記憶しても良い。
ルール記憶部132には、学習データ記憶部131に記憶された既知学習データ群を用いて、それぞれ、例えばバギング法によって学習されたルール群が記憶される。図4に示されるように、ルール群301は、それぞれ、自己を識別するルール識別子群302を含み、これによって他のルールと区別される。各ルール301は、任意の学習データの記述子202が入力されたとき、その学習データが、利用者にとって価値のある正例を表しているかどうか、つまり所望のラベルの値が所望値であるかどうかを予測するためのもので、スコアの算出に関与する。スコアは、当該学習データの正例らしさを表す数値であり、例えば0〜1の値を取り、大きいほど、より正例らしいことを示している。
候補データ記憶部133には、複数の学習データのうちの、ラベルの値が未知である(ラベルが設定されていない)学習データを表す未知学習データ群として候補学習データ群が記憶される。候補学習データ群は、学習データ記憶部131に記憶された学習データと同様に図3に示したような構造を有している。但し、複数のラベル203のうちの学習が行われるラベル(所望のラベル)は、既知学習データ群にあっては既知、すなわち有意な値が設定されているのに対し、候補学習データ群にあっては未知、すなわち未設定になっている点が相違する。
選択データ記憶部134は、候補データ記憶部133に記憶された候補学習データ群のうち、次に学習すべき学習データとして処理装置120によって選択された選択候補学習データを記憶する部分である。
上記のコンピュータプログラム10は、能動学習部140と、制御部150とを含んでいる。
能動学習部140は、学習手段(学習部141)と、予測手段(予測部142)と、候補データ選択手段(候補データ選択部143)と、データ更新手段(データ更新部144)とを備えている。
学習部141は、学習データ記憶部131から既知学習データ群を読み出し、既知学習データ群の中から、重み204(後述)が最も大きい選択既知学習データを選択する。選択既知学習データは、既知学習データ群のうちの選択既知学習データ以外の学習データよりも最新の学習データを表している。学習部141は、選択既知学習データに対して正例学習データ又は前記負例学習データを選別するためのルール301を生成(学習)し、最新のルール301としてルール記憶部132に記憶する。
予測部142は、ルール記憶部132に記憶されたルール群301の中から、最新のルール301を読み出すと共に、候補データ記憶部133から候補学習データ群を読み出す。予測部142は、読み出されたルール301を候補学習データ群に適用して、候補学習データ群に対して正例学習データであるか否かを予測する。即ち、予測結果として、候補学習データ群の各々に対して、その記述子をルール301に入力して正例らしさを表すスコアを算出する。予測部142は、その予測結果を候補データ選択部143に出力する。
候補データ選択部143は、予測結果として算出された候補学習データの各々に対するスコアに基づいて、候補学習データ群の中から、次の学習対象となる学習データを表す選択候補学習データを選択し、選択候補学習データを選択データ記憶部134に記憶する。選択候補学習データを選択する方法としては、候補学習データ群の各々に対してスコアの合計あるいは平均を求め、スコアの合計あるいは平均の高い順に選択候補学習データとして選択する方法や、特開2005−107743号公報に記載されるように所定の関数を用いて選択する方法などが利用できる。また、スコアの分散を求め、予測が割れた候補学習データを選択候補学習データとして選択する方法など、他の方法も適用可能である。
データ更新部144は、選択データ記憶部134に記憶された選択候補学習データを読み出して入出力装置110に出力する。このとき、ラベル(所望のラベル)の値が入出力装置110から入力される。データ更新部144は、そのラベル(ラベルの値)を選択候補学習データに設定し、選択候補学習データを、候補学習データ記憶部133に記憶された候補学習データ群から除いて、既知学習データとして学習データ記憶部131に記憶された既知学習データ群に追加する。既知学習データを学習データ記憶部131に追加する際に、取得サイクル数205に現在の能動学習サイクル数を記録する。次に学習すべき選択候補学習データの入出力装置110からの出力は、図3に示したデータ構造全体であっても良いし、識別子201だけであっても良い。また、入出力装置110からのラベルの値の入力は、その値が入力されたデータ全体であっても良いし、識別子201とラベル番号とラベルの値の組であっても良い。ラベル番号は複数のラベルの中から1つのラベルを特定する番号である。この場合、データ更新部144は、入力された識別子201を持つ選択候補学習データを選択データ記憶部134から検索し、指定されたラベル番号のラベルに入力値を設定して既知学習データとして学習データ記憶部131に登録する一方、入力された識別子201を持つ選択候補学習データを候補データ記憶部133から検索して削除する。
制御部150は、学習設定取得手段(学習設定取得部151)と、学習データ調査手段(学習データ調査部152)と、学習データ重み設定手段(学習データ重み設定部153)とを備えている。
学習設定取得部151は、利用者等から入出力装置110を通じて所望のラベルを表す情報(学習するラベルとその正例のときの値)を含む学習条件を取得し、能動学習部140の学習部141に処理を移す。
学習データ調査部152は、学習データ記憶部131に記憶されている取得サイクル数205を調べ、学習データ重み設定部153に出力する。
学習データ重み設定部153は、学習データ記憶部131から既知学習データ群を読み出し、既知学習データ群のそれぞれに対して取得順序に比例して増加する重み204を設定する。ここで、重み204は、既知学習データ群のうちの、新たに追加された既知学習データを、以前から蓄積されている既知学習データより重要視した学習を行うための値(0.0〜1.0)であり、取得サイクル数205に基づいて決定される。重みを設定する方法としては、取得サイクル数205に対して単調増加な関数を用いて設定する方法などが利用できる。学習データ重み設定部153は、既知学習データ群の取得順序に応じて、既知学習データ群のそれぞれに対して重み204を設定する。このとき、既知学習データ群には、例えば図5に示されるように、サイクル数xまで単調増加な関数f(x)が適用される。学習データ重み設定部153は、重みの設定処理を終えると、能動学習部140の学習部141に処理を進める。
学習部141以降の処理においては、学習の重み204の値により重要度に差をつけて学習を進める。つまり、重み204の大きな学習データは、それより重みの小さな学習データより重要視して学習を進める。
次に、図6を参照して、本実施形態の動作を説明する。
能動学習を開始するに際しては、記憶装置130の学習データ記憶部131に既知学習データ群が記憶され、候補データ記憶部133には候補学習データ群が記憶されている。既知学習データ群及び候補学習データ群の重み204は同一の重みに設定されている。またルール記憶部132にはルールが保存されていなく、選択データ記憶部134にも1つも選択データは保存されていない。この状態で処理装置120が起動されると、図6に示す処理が開始される。
(1)ステップS101
まず、入出力装置110から与えられた学習条件が制御部150の学習設定取得部151へ供給される。そして、処理は学習部141に移行する。
(2)ステップS102
学習部141は、学習データ記憶部131から既知学習データ群を読み出し、既知学習データ群の中から、重み204が最も大きい選択既知学習データを選択する。選択既知学習データは、既知学習データ群のうちの選択既知学習データ以外の学習データよりも最新の学習データを表している。学習部141は、選択既知学習データに対して正例学習データ又は前記負例学習データを選別するためのルール301を生成(学習)し、最新のルール301としてルール記憶部132に記憶する。
(3)ステップS103
予測部142は、ルール記憶部132に記憶された最新のルール301を、候補データ記憶部133に記憶された候補学習データ群に適用して、候補学習データ群に対して正例学習データであるか否かを予測する。予測部142は、その予測結果を候補データ選択部143に出力する。
(4)ステップS104
候補データ選択部143は、予測結果に基づいて、候補学習データ群の中から、次の学習対象となる学習データを表す選択候補学習データを選択し、選択候補学習データを選択データ記憶部134に記憶する。
(5)ステップS105
データ更新部144は、選択データ記憶部134に記憶された選択候補学習データを読み出して入出力装置110に出力する。ラベル(所望のラベル)の値が入出力装置110から入力されたとき、データ更新部144は、そのラベル(ラベルの値)を選択候補学習データに設定する。データ更新部144は、選択候補学習データを、候補データ記憶部133に記憶された候補学習データ群から除いて、既知学習データとして学習データ記憶部131に記憶された既知学習データ群に追加する。これで、能動学習の1サイクルが終了し、処理が制御部150に移行する。
(6)ステップS106
制御部150は、終了条件が成立したかどうかを判定し、終了条件が成立していなければ、学習データ調査部152に処理を進める。この場合、学習データ記憶部131には、既知学習データ群のうちの、学習開始時点に存在した既知学習データと、データ更新部144によって追加された既知学習データとが混在している。後者の追加された既知学習データの所望のラベルの値は実験なり調査なりで調べられた実際の値である。他方、終了条件が成立していれば、制御部150は能動学習サイクルの繰り返しを停止させる。終了条件は、入出力装置110から与えられ、その条件は、能動学習サイクルの最大繰り返し回数等、任意の条件で良い。
(7)ステップS107
学習データ調査部152は、学習データ記憶部131に記憶されている学習データの取得サイクル数205を調べ、学習データ重み設定部153に出力する。
(8)ステップS108
学習データ重み設定部153は、学習データ記憶部131から学習データを読み出し、既知学習データ群のそれぞれに対して取得順序に比例して増加する重み204を設定する。
本発明の第1実施例による能動学習システムによれば、既知学習データ群のうちの、新たに加えられた既知学習データを、以前から蓄積されている既知学習データより重要視した学習を行うことができる。その理由としては、取得サイクル数205に応じて、新しく取得された既知学習データほど大きい値の重み204を設定し、以前から蓄積されている既知学習データほど小さい値の重み204を設定する。これによって、新しく取得された既知学習データをより反映したルール301が生成される。更には、以前のサイクルで生成されたルール301と性質の異なったルール301が生成されることが期待される。そのルール301を適用して候補学習データから選択される次に学習すべき既知学習データは、重要度に差をつけない学習に比べて、正例の数がより多く、そして多様な正例が含まれる確率が高くなる。このように、本発明の第1実施例による能動学習システムでは、既知学習データの取得順序を考慮することにより、学習効率が向上する。
次に、本発明の第2実施例について説明する。
本発明の第2実施例による能動学習システムは、後述のとおり、制御部150が学習データ調査部152と学習データ重み設定部153の代わりに学習見直し手段(学習見直し部154)を備える点と、記憶装置130が更にルール識別子記憶手段(ルール識別子記憶部135)を備える点で、図2に示した第1実施例と相違する。
図7を参照すると、本発明の第2実施例による能動学習システムは、図2に示した第1実施例と同様に、入出力装置110と、処理装置120と、記憶装置130とを具備している。処理装置120は、能動学習部140と、制御部150とを備えている。
ここでは、記憶装置130は、学習データ記憶部131と、ルール記憶部132と、候補データ記憶部133と、選択データ記憶部134と、ルール識別子記憶部135とを備えている。また、制御部150は、学習設定取得部151と、学習見直し部154とを備えている。他の構成については、図2に示した第1実施例と同様である。
学習見直し部154は、学習データ記憶部131から既知学習データ群を読み出し、既知学習データ群のそれぞれに対応するルール301であるルール群301をルール記憶部132から読み出す。学習見直し部154は、既知学習データ群のそれぞれに対して取得順序に比例して増加する重み204を設定する。学習見直し部154は、ルール群301の取得順序に応じて、既知学習データ群のうちの、正例学習データを表す正例既知学習データ群に対してルール群301を適用したときの正例学習データの数を表すスコアを決定し、スコアに基づいて、既知学習データ群のそれぞれに対して設定された重み204を調整する。これについて以下に説明する。
学習見直し部154は、前サイクルでデータ更新部144によって追加された既知学習データ、すなわち最も新しく取得した既知学習データの結果をルールに照らし合わせ、ルール生成の起因となった前々サイクル以前の学習データにフィードバックする。すなわち、学習データ記憶部131に記憶されている既知学習データ群の中から、取得サイクル数205として前サイクル番号が記録されている既知学習データ群を検索する。
学習見直し部154は、検索された既知学習データ群が、所望のラベル203が正例であることを表す正例既知学習データ群である場合、その正例既知学習データ群に対して、ルール記憶部132に記憶されているルール群301を適用して重要度を算出する。ルール群301の各々の重要度の算出は、正例既知学習データ群に適用したときの正例学習データの数を表すスコアを求め、スコアの最大値又は平均値としても良い。学習見直し部154は、ルール群301のうちの、重要度が高いルールを選択ルール301として選択し、選択ルール301のルール識別子302を選択ルール識別子302としてルール識別子記憶部135に記憶する。ルールの重要度の高さの判定は、ある閾値以上の値としても良いし、算出された値の上位一定割合としても良いし、ルール数の上位一定割合としても良い。
次に、学習見直し部154は、学習データ記憶部131に記憶されている既知学習データ群の中から、取得サイクル数205として前々サイクル番号以下の番号が記憶されている既知学習データを読み出し、その既知学習データの各々に対して、その記述子を選択ルール301に入力して正例らしさを表すスコアを算出する。
学習見直し部154は、算出されたスコアと所望ラベル値を照らし合わせ、既知学習データ群のうちの、正例学習データであり、算出されたスコアが所定スコアよりも高い既知学習データについては、その重み204を所定値だけ大きくする。また、正例学習データであるが、算出されたスコアが所定スコアよりも低い既知学習データについては、その重み204を所定値だけ小さくする。一方、負例学習データであり、算出されたスコアが所定スコアよりも低い既知学習データについては、その重み204を所定値だけ大きくする。また、負例学習データであるが、算出されたスコアが所定スコアよりも高い既知学習データであっても、その重み204を所定値だけ小さくする。重みを増減させる値は、定数としても良いし、算出されたスコア値としても良い。
学習見直し部154は、重みの設定処理を終えると、能動学習部140の学習部141に処理を進める。
学習部141以降の処理においては、学習の重み204の値により重要度に差をつけて学習を進める。つまり、重み204の大きな学習データは、それより重みの小さな学習データより重要視して学習を進める。
図8を参照すると、本実施形態にかかる能動学習システムの動作フローは、後述のとおり、図5に示した第1実施例と比較して、ステップS402、S403の代わりにステップS701〜S704が設けられている点が相違する。
以下、本実施形態の動作を説明する。
なお、本実施形態のスタートから1サイクル目のステップS206までの動作は、第1実施例のスタートからステップS106までの動作と同じである。
(1)ステップS201
まず、入出力装置110から与えられた学習条件が制御部150の学習設定取得部151へ供給される。そして、処理は学習部141に移行する。
(2)ステップS202
学習部141は、学習データ記憶部131から既知学習データ群を読み出し、既知学習データ群の中から、重み204が最も大きい選択既知学習データを選択する。選択既知学習データは、既知学習データ群のうちの選択既知学習データ以外の学習データよりも正しく予測された学習データを表している。学習部141は、選択既知学習データに対して正例学習データ又は前記負例学習データを選別するためのルール301を生成(学習)し、最新のルール301としてルール記憶部132に記憶する。
(3)ステップS203
予測部142は、ルール記憶部132に記憶された最新のルール301を、候補データ記憶部133に記憶された候補学習データ群に適用して、候補学習データ群に対して正例学習データであるか否かを予測する。予測部142は、その予測結果を候補データ選択部143に出力する。
(4)ステップS204
候補データ選択部143は、予測結果に基づいて、候補学習データ群の中から、次の学習対象となる学習データを表す選択候補学習データを選択し、選択候補学習データを選択データ記憶部134に記憶する。
(5)ステップS205
データ更新部144は、選択データ記憶部134に記憶された選択候補学習データを読み出して入出力装置110に出力する。ラベル(所望のラベル)の値が入出力装置110から入力されたとき、データ更新部144は、そのラベル(ラベルの値)を選択候補学習データに設定する。データ更新部144は、選択候補学習データを、候補データ記憶部133に記憶された候補学習データ群から除いて、既知学習データとして学習データ記憶部131に記憶された既知学習データ群に追加する。これで、能動学習の1サイクルが終了し、処理が制御部150に移行する。
(6)ステップS206
制御部150は、終了条件が成立したかどうかを判定し、終了条件が成立していなければ、学習見直し部154に処理が移る。この場合、学習データ記憶部131には、既知学習データ群のうちの、学習開始時点に存在した既知学習データと、データ更新部144によって追加された既知学習データとが混在している。後者の追加された学習データの所望のラベルの値は実験なり調査なりで調べられた実際の値である。他方、終了条件が成立していれば、制御部150は能動学習サイクルの繰り返しを停止させる。終了条件は、入出力装置110から与えられ、その条件は、能動学習サイクルの最大繰り返し回数等、任意の条件で良い。
(7)ステップS207
学習見直し部154は、学習データ記憶部131に記憶されている既知学習データ群の中から、取得サイクル数205として前サイクル番号が記録されている既知学習データ群を検索する。学習見直し部154は、検索された既知学習データ群が、所望のラベル203が正例であることを表す正例既知学習データ群である場合、その正例既知学習データ群に対して、ルール記憶部132に記憶されているルール群301を適用して重要度を算出する。
(8)ステップS208
次に、学習見直し部154は、ルール群301のうちの、重要度が高いルールを選択ルール301として選択し、選択ルール301のルール識別子302を選択ルール識別子302としてルール識別子記憶部135に記憶する。
(9)ステップS209
次に、学習見直し部154は、学習データ記憶部131に記憶されている既知学習データ群の中から、取得サイクル数205として前々サイクル番号以下の番号が記憶されている既知学習データを読み出し、その既知学習データの各々に対して、その記述子を選択ルール301に入力して正例らしさを表すスコアを算出する。
(10)ステップS210
学習見直し部154は、算出されたスコアと所望ラベル値を照らし合わせ、既知学習データ群のうちの、正例学習データであり、算出されたスコアが所定スコアよりも高い既知学習データについては、その重み204を所定値だけ大きくする。また、正例学習データであるが、算出されたスコアが所定スコアよりも低い既知学習データについては、その重み204を所定値だけ小さくする。一方、負例学習データであり、算出されたスコアが所定スコアよりも低い既知学習データについては、その重み204を所定値だけ大きくする。また、負例学習データであるが、算出されたスコアが所定スコアよりも高い既知学習データであっても、その重み204を所定値だけ小さくする。そして、能動学習部140に処理が移る。
学習部141以降の処理においては、第1実施例と同じである。能動学習部140で能動学習の1サイクルが終了すると、制御部150に再び処理が移る。
なお、第1、第2実施例のいずれかの動作(能動学習方法)を規定したコンピュータプログラムを用いて、諸般のコンピュータに本発明の能動学習方法における動作を実施させるようにすることもできる。
本発明の第2実施例による能動学習システムによれば、能動学習サイクル毎に、前サイクルで得られた正例データをルールにフィードバックする機能が設けられている。これにより、正例取得に効果のあったルールに対して、正例を正例らしいと正しく予測した学習データの重みを増やし、正例を正例らしくないと誤って予測した学習データの重みを減らしている。一方、負例を正例らしくないと正しく予測した学習データの重みを増やし、負例を正例らしいと誤って予測した学習データの重みを減らしている。その結果、次サイクルの学習時において、前サイクルで正例を得たルールを反映した学習が行われることが期待できる。また、新しく取得した正例が極僅かであった場合にも、以前から蓄積されていたデータに引きずられたルールではなく、その新たに取得した極僅かな正例を重視したルールが生成されることが期待される。ルールのフィードバック機能がある学習は、ルールのフィードバック機能がない学習に比べて、正例の数がより多く、そして多様な正例が含まれる確率が高くなる。このように、本発明の第2実施例による能動学習システムでは、既知学習データに対応するルールの取得順序を考慮することにより、学習効率が向上する。
次に第2実施例の変形例について説明する。
前述したように、学習見直し部154は、学習データ記憶部131から既知学習データ群を読み出し、既知学習データ群のそれぞれに対応するルール301であるルール群301をルール記憶部132から読み出す。学習見直し部154は、既知学習データ群のそれぞれに対して取得順序に比例して増加する重み204を設定する。学習見直し部154は、ルール群301の取得順序に応じて、既知学習データ群のうちの、正例学習データを表す正例既知学習データ群に対してルール群301を適用したときの正例学習データの数を表すスコアを決定し、スコアに基づいて、既知学習データ群のそれぞれに対して設定された重み204を調整している。即ち、既知学習データ群のうちの、所望のラベル203が正例である学習データに対してのみ、ルール記憶部132に記憶されているルール群301に適用している。
一方、変形例では、学習見直し部154は、ルール群301の取得順序に応じて、既知学習データ群に対してルール群301を適用したときの正例学習データの数を表すスコアを決定し、スコアに基づいて、既知学習データ群のそれぞれに対して設定された重み204を調整する。即ち、既知学習データ群のうちの、所望のラベル203が正例だけでなく負例を含めた学習データに対して、ルール群301に適用する。正例の場合は算出されたスコアがそのままルールの重要度に反映するが、負例の場合、例えば、スコアは0〜1の範囲を取り、1に近いほど正例である可能性が高いとした場合、算出されたスコアを1から引いた値を正例スコアとする。こうして算出されたスコアからルール群301の各々の重要度を算出する。
本実施形態の変形例によれば、能動学習サイクル毎に、前サイクルで得られた正例学習データだけでなく、負例学習データもルールにフィードバックする機能が設けられている。このため、次サイクルの学習時において、新しく取得した学習データの分類能力が高い学習が行われることが期待される。ルールのフィードバック機能がある学習は、ルールのフィードバック機能がない学習に比べて、正例の数がより多く、そして多様な正例が含まれる確率が高くなる。このように、本発明の第2実施例による能動学習システムでは、既知学習データに対応するルールの取得順序を考慮することにより、学習効率が向上する。
以上、実施例を参照して本発明を説明したが、本発明は上記の実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明の能動学習システム及び方法は、例えば、創薬スクリーニングの場面において活性化合物を探索するなどのように、多数の候補データからユーザが所望するデータを選択するようなデータマイニングの用途に適用できる。

Claims (12)

  1. 複数の学習データのうちの、利用者にとって価値があるか否かを表すラベルが設定された既知学習データ群及び各々の取得サイクル数を記憶する学習データ記憶手段と、
    前記取得サイクル数に基づいて重みを決定し、前記既知学習データ群のそれぞれに対して取得順序に比例して増加する前記重みを設定する制御手段と、
    記既知学習データ群のうちの、利用者にとって価値がある学習データを正例学習データとし、利用者にとって価値がない学習データを負例学習データとし、前記既知学習データ群の中から、前記重みが最も大きい選択既知学習データを選択し、前記選択既知学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成する学習手段と、
    前記既知学習データ群のそれぞれに対応する前記ルールをルール群として記憶するルール記憶手段と、
    前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群として記憶する候補データ記憶手段と、
    前記ルールを前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群に適用して、前記候補学習データ群に対して前記正例学習データであるか否かを予測し、予測結果を生成する予測手段と、
    前記予測結果に基づいて、前記候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択する候補データ選択手段と、
    前記選択候補学習データを出力装置に出力し、入力装置から入力される前記ラベルを前記選択候補学習データに設定し、前記選択候補学習データを前記候補学習データ群から除いて既知学習データとして前記既知学習データ群に追加するデータ更新手段
    具備し、
    前記制御手段は、前記ルール群の取得順序に応じて、前記既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表すスコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整する
    能動学習システム。
  2. 請求項1に記載の能動学習システムであって、
    前記選択既知学習データは、前記既知学習データ群のうちの前記選択既知学習データ以外の学習データよりも正しく予測された学習データを表している
    能動学習システム。
  3. 請求項1又は2に記載の能動学習システムであって、
    前記制御手段は、前記ルール群の取得順序に応じて、前記既知学習データ群のうちの、前記正例学習データを表す正例既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表す前記スコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整する
    能動学習システム。
  4. 請求項1乃至3のいずれか一項に記載の能動学習システムであって、
    前記制御手段は、能動学習サイクル毎に、先のサイクルで得られた正例学習データ及び負例学習データを前記ルール群にフィードバックし、正例取得に効果のあったルールに対して、正例を正例らしいと正しく予測した学習データの重みを増やし、正例を正例らしくないと誤って予測した学習データの重みを減らし、負例取得に効果のあったルールに対して、負例を正例らしくないと正しく予測した学習データの重みを増やし、負例を正例らしいと誤って予測した学習データの重みを減らす
    能動学習システム。
  5. 複数の学習データのうちの、利用者にとって価値があるか否かを表すラベルが設定された既知学習データ群及び各々の取得サイクル数を学習データ記憶手段に記憶するステップと、
    前記取得サイクル数に基づいて重みを決定し、前記既知学習データ群のそれぞれに対して取得順序に比例して増加する前記重みを設定するステップと、
    記既知学習データ群のうちの、利用者にとって価値がある学習データを正例学習データとし、利用者にとって価値がない学習データを負例学習データとし、前記既知学習データ群の中から、前記重みが最も大きい選択既知学習データを選択し、前記選択既知学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成するステップと、
    前記既知学習データ群のそれぞれに対応する前記ルールをルール群としてルール記憶手段に記憶するステップと、
    前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群として候補データ記憶手段に記憶するステップと、
    前記ルールを前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群に適用して、前記候補学習データ群に対して前記正例学習データであるか否かを予測し、予測結果を生成するステップと、
    前記予測結果に基づいて、前記候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択するステップと、
    前記選択候補学習データを出力装置に出力し、入力装置から入力される前記ラベルを前記選択候補学習データに設定し、前記選択候補学習データを前記候補学習データ群から除いて既知学習データとして前記既知学習データ群に追加するステップと、
    前記ルール群の取得順序に応じて、前記既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表すスコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整するステップと
    を具備する
    能動学習方法。
  6. 請求項5に記載の能動学習方法であって、
    前記選択既知学習データは、前記既知学習データ群のうちの前記選択既知学習データ以外の学習データよりも正しく予測された学習データを表している
    能動学習方法。
  7. 請求項5又は6に記載の能動学習方法であって、
    前記重みを調整する際、前記ルール群の取得順序に応じて、前記既知学習データ群のうちの、前記正例学習データを表す正例既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表す前記スコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整するステップ
    を更に具備する
    能動学習方法。
  8. 請求項5乃至7のいずれか一項に記載の能動学習方法であって、
    前記重みを調整する際、能動学習サイクル毎に、先のサイクルで得られた正例学習データ及び負例学習データを前記ルール群にフィードバックし、正例取得に効果のあったルールに対して、正例を正例らしいと正しく予測した学習データの重みを増やし、正例を正例らしくないと誤って予測した学習データの重みを減らし、負例取得に効果のあったルールに対して、負例を正例らしくないと正しく予測した学習データの重みを増やし、負例を正例らしいと誤って予測した学習データの重みを減らすステップ
    を更に具備する
    能動学習方法。
  9. 複数の学習データのうちの、利用者にとって価値があるか否かを表すラベルが設定された既知学習データ群及び各々の取得サイクル数を学習データ記憶手段に記憶するステップと、
    前記取得サイクル数に基づいて重みを決定し、前記既知学習データ群のそれぞれに対して取得順序に比例して増加する前記重みを設定するステップと、
    記既知学習データ群のうちの、利用者にとって価値がある学習データを正例学習データとし、利用者にとって価値がない学習データを負例学習データとし、前記既知学習データ群の中から、前記重みが最も大きい選択既知学習データを選択し、前記選択既知学習データに対して前記正例学習データ又は前記負例学習データを選別するためのルールを生成するステップと、
    前記既知学習データ群のそれぞれに対応する前記ルールをルール群としてルール記憶手段に記憶するステップと、
    前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群として候補データ記憶手段に記憶するステップと、
    前記ルールを前記複数の学習データのうちの前記既知学習データ群以外の学習データである候補学習データ群に適用して、前記候補学習データ群に対して前記正例学習データであるか否かを予測し、予測結果を生成するステップと、
    前記予測結果に基づいて、前記候補学習データ群の中から、学習対象となる学習データを表す選択候補学習データを選択するステップと、
    前記選択候補学習データを出力装置に出力し、入力装置から入力される前記ラベルを前記選択候補学習データに設定し、前記選択候補学習データを前記候補学習データ群から除いて既知学習データとして前記既知学習データ群に追加するステップと、
    前記ルール群の取得順序に応じて、前記既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表すスコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整するステップと
    コンピュータに実行させるための
    プログラム
  10. 請求項9に記載のプログラムであって、
    前記選択既知学習データは、前記既知学習データ群のうちの前記選択既知学習データ以外の学習データよりも正しく予測された学習データを表している
    プログラム。
  11. 請求項9に記載のプログラムであって、
    前記重みを調整する際、前記ルール群の取得順序に応じて、前記既知学習データ群のうちの、前記正例学習データを表す正例既知学習データ群に対して前記ルール群を適用したときの前記正例学習データの数を表す前記スコアを決定し、前記スコアに基づいて、前記既知学習データ群のそれぞれに対して設定された前記重みを調整するステップ
    を更にコンピュータに実行させるための
    プログラム。
  12. 請求項9乃至11のいずれか一項に記載のプログラムであって、
    前記重みを調整する際、能動学習サイクル毎に、先のサイクルで得られた正例学習データ及び負例学習データを前記ルール群にフィードバックし、正例取得に効果のあったルールに対して、正例を正例らしいと正しく予測した学習データの重みを増やし、正例を正例らしくないと誤って予測した学習データの重みを減らし、負例取得に効果のあったルールに対して、負例を正例らしくないと正しく予測した学習データの重みを増やし、負例を正例らしいと誤って予測した学習データの重みを減らすステップ
    を更にコンピュータに実行させるための
    プログラム。
JP2008549233A 2006-12-11 2007-11-22 能動学習システム、能動学習方法、及び能動学習用プログラム Active JP5187635B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008549233A JP5187635B2 (ja) 2006-12-11 2007-11-22 能動学習システム、能動学習方法、及び能動学習用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006332983 2006-12-11
JP2006332983 2006-12-11
PCT/JP2007/072651 WO2008072459A1 (ja) 2006-12-11 2007-11-22 能動学習システム、能動学習方法、及び能動学習用プログラム
JP2008549233A JP5187635B2 (ja) 2006-12-11 2007-11-22 能動学習システム、能動学習方法、及び能動学習用プログラム

Publications (2)

Publication Number Publication Date
JPWO2008072459A1 JPWO2008072459A1 (ja) 2010-03-25
JP5187635B2 true JP5187635B2 (ja) 2013-04-24

Family

ID=39511484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008549233A Active JP5187635B2 (ja) 2006-12-11 2007-11-22 能動学習システム、能動学習方法、及び能動学習用プログラム

Country Status (4)

Country Link
US (1) US20100005043A1 (ja)
EP (1) EP2096585A4 (ja)
JP (1) JP5187635B2 (ja)
WO (1) WO2008072459A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102131353B1 (ko) * 2020-01-29 2020-07-07 주식회사 이글루시큐리티 머신 러닝의 예측 데이터 피드백 적용 방법 및 그 시스템

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5212007B2 (ja) * 2008-10-10 2013-06-19 株式会社リコー 画像分類学習装置、画像分類学習方法、および画像分類学習システム
CN107133190A (zh) 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种机器学习系统的训练方法和训练系统
JP6943113B2 (ja) * 2017-09-26 2021-09-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
US11941513B2 (en) * 2018-12-06 2024-03-26 Electronics And Telecommunications Research Institute Device for ensembling data received from prediction devices and operating method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830458A (ja) * 1994-07-20 1996-02-02 Hitachi Inf Syst Ltd 問題解決支援システム
JP2002222083A (ja) * 2001-01-29 2002-08-09 Fujitsu Ltd 事例蓄積装置および方法
WO2005048184A1 (ja) * 2003-11-17 2005-05-26 Nec Corporation 能動学習方法およびシステム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3606556B2 (ja) 2000-05-16 2005-01-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置
JP2005107743A (ja) 2003-09-29 2005-04-21 Nec Corp 学習システム
JP4482796B2 (ja) 2004-03-26 2010-06-16 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4462014B2 (ja) 2004-11-15 2010-05-12 日本電信電話株式会社 話題語結合方法及び装置及びプログラム
JP2006185099A (ja) 2004-12-27 2006-07-13 Toshiba Corp 確率モデル作成方法
JP4645288B2 (ja) * 2005-04-28 2011-03-09 日本電気株式会社 能動学習方法および能動学習システム
JP2006332983A (ja) 2005-05-25 2006-12-07 Canon Inc 撮像装置及びその制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830458A (ja) * 1994-07-20 1996-02-02 Hitachi Inf Syst Ltd 問題解決支援システム
JP2002222083A (ja) * 2001-01-29 2002-08-09 Fujitsu Ltd 事例蓄積装置および方法
WO2005048184A1 (ja) * 2003-11-17 2005-05-26 Nec Corporation 能動学習方法およびシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102131353B1 (ko) * 2020-01-29 2020-07-07 주식회사 이글루시큐리티 머신 러닝의 예측 데이터 피드백 적용 방법 및 그 시스템

Also Published As

Publication number Publication date
EP2096585A4 (en) 2017-11-15
US20100005043A1 (en) 2010-01-07
JPWO2008072459A1 (ja) 2010-03-25
WO2008072459A1 (ja) 2008-06-19
EP2096585A1 (en) 2009-09-02

Similar Documents

Publication Publication Date Title
JP7216021B2 (ja) 機械学習モデルを迅速に構築し、管理し、共有するためのシステム及び方法
US10621027B2 (en) IT system fault analysis technique based on configuration management database
US20070011127A1 (en) Active learning method and active learning system
US20050071301A1 (en) Learning system and learning method
EP2182458A1 (en) Acquisition of malicious code using active learning
US11966831B2 (en) Feedback mechanisms in sequence learning systems with temporal processing capability
JP5187635B2 (ja) 能動学習システム、能動学習方法、及び能動学習用プログラム
EP2083379A1 (en) Active studying system, method and program
KR101706300B1 (ko) 기술용어 개념계층도 생성 장치 및 방법
US20220253725A1 (en) Machine learning model for entity resolution
JP2001229026A (ja) 知識発見方式
KR20230054167A (ko) 기계학습모델의 생성 방법 및 그 장치
CN112579755A (zh) 基于人工智能和云计算的信息应答方法及信息互动平台
Yang et al. Towards automatic clustering of protein sequences
JP7139723B2 (ja) 選定プログラム、選定方法および選定装置
JP4461854B2 (ja) 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
TWI647586B (zh) 行為推論模型生成裝置及其行為推論模型生成方法
JP4460417B2 (ja) 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
JP2009301557A (ja) 学習システム
US20050160055A1 (en) Method and device for dividing a population of individuals in order to predict modalities of a given target attribute
JP7006403B2 (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
US20230306956A1 (en) Flexible text-to-speech for screen readers
CN114565093A (zh) 一种基于参数分层的深度学习神经网络参数调优的方法
Cadenas et al. Improving a fuzzy discretization process by bagging
Cervantes et al. A New Approach to Detect Splice-Sites Based on Support Vector Machines and a Genetic Algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121011

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130110

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5187635

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150