JP2009301557A - 学習システム - Google Patents

学習システム Download PDF

Info

Publication number
JP2009301557A
JP2009301557A JP2009170637A JP2009170637A JP2009301557A JP 2009301557 A JP2009301557 A JP 2009301557A JP 2009170637 A JP2009170637 A JP 2009170637A JP 2009170637 A JP2009170637 A JP 2009170637A JP 2009301557 A JP2009301557 A JP 2009301557A
Authority
JP
Japan
Prior art keywords
data
learning
value
output
leaf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009170637A
Other languages
English (en)
Other versions
JP5126694B2 (ja
Inventor
Yukiko Kuroiwa
由希子 黒岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009170637A priority Critical patent/JP5126694B2/ja
Publication of JP2009301557A publication Critical patent/JP2009301557A/ja
Application granted granted Critical
Publication of JP5126694B2 publication Critical patent/JP5126694B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】選択的にサンプリングして効率的に学習する方式を提供する。
【解決手段】入力装置1により、ラベルが設定された学習データと終了条件とを入力する。学習部21は、学習アルゴリズムを用いて、仮説を生成する。記憶部33には、そのラベルが設定されていない複数の候補データが格納されている。データ選択部23は、記憶部を参照し、仮説を用いて、複数の候補データの各々に対するスコアを計算し、計算されたスコアに基づいて、候補データの中から第1候補データを選択する。データ更新部24は、ユーザにより決定されたラベルを上記選択された第1候補データに設定し、選択された第1候補データを学習データに付加して学習部に出力する。データ選択処理とデータ更新処理と学習処理とを終了条件を満たすまで繰り返す。終了条件が満たされたとき、制御部22は、学習部により生成された仮説を最終仮説として出力装置4に出力する。
【選択図】図2

Description

本発明は、学習データを学習させる学習システム(能動学習システム及び知識発見システム)に関する。
コンピュータプログラムである学習アルゴリズムを用いて、学習データを学習させる方法として、能動学習と知識発見とが挙げられる。能動学習とは、与えられた学習データから受動学習するだけでなく、学習に有効なデータを能動的に提示することで、精度を向上させる技術のことである。従来の能動学習を利用した方法、もしくは選択的サンプリングを利用した方法は、特許文献1、非特許文献1、非特許文献2に記載されている。この従来の能動学習手法は、情報量が最も多い候補データ(以下、情報量最大の候補データと称する)を選択していた。この情報量最大の候補データは、境界だと予測されるデータである。また、知識発見とは、与えられた学習データから再学習を行う技術のことである。従来の知識発見を利用した方法は、特許文献2に記載されている。この従来の知識発見は、情報量最大の候補データを選択していた。
学習(能動学習や知識発見)では、クラスまたは関数値を含むラベルが用いられる。クラスは、ある事象の状態の有無を表し、関数値は、ある事象の状態を大きさとして数値で表したものである。能動学習である場合、ラベルは、学習データ、選択された候補データに設定され、知識発見である場合、ラベルは、学習データ、候補データに設定されている。
学習データを学習させるときに、アンサンブル学習が用いられる場合がある。アンサンブル学習とは、受動学習の精度を向上させるために、与えられた学習データから複数の仮説を生成し、これらの仮説を統合する技術のことである。代表的なアンサンブル学習手法として、バギング(Bagging)やブースティング(Boosting)などがあり、非特許文献3、非特許文献4に記載されている。
学習データを学習させるときに、属性選択を行う場合がある。属性選択とは、学習データの属性を絞ることで次元を減らし精度を向上させる技術のことであり、非特許文献5に記載されている。この従来の手法では、予め定めた確率に従ってそれぞれの属性を選択するか否かを決定することで属性を減らしている。
しかし、学習データを学習させるための従来の手法では、以下のような問題点がある。
まず、第1の問題点は、所望の結果を予測することができないことである。例えば、候補データがアンバランスなデータまたは価値の異なるデータの場合に効率的に学習(能動学習や知識発見)ができない。ここで、アンバランスなデータとは、例えばラベル(クラスや関数値)を着目した時に情報数の分布が一様分布からある程度隔たっているデータのことであり、例えば、クラス間の情報数が異なっているデータなどである。また、価値が異なるデータとは、データのラベル(クラスや関数値)を求めるコストが異なる場合や、特定のラベル(クラスあるいは関数値)が設定されたデータに価値がある場合のデータのことであり、そのような価値の高いデータを主に抽出したいような場合に利用される。
第1の問題点の理由としては、従来手法のように情報量最大の候補データを選択していると、情報数が少ない候補データが選択されないため、学習データのラベル(クラス、関数値)に属する多様な候補データが得られず、学習アルゴリズムによる学習が困難となるためである。それを防ぐためには、学習アルゴリズムでコストなどを設定する、あるいは候補データを増減させるなどの手法が考えられるが、学習前に適切なコストや適切な候補データの増減を決めるのは難しい。候補データの価値が異なる場合、価値の高い候補データを選択することにより、所望の結果を予測することができる学習システムが望まれる。
第2の問題点は、予測精度が安定しないことである。
第2の問題点の理由としては、候補データを選択するための基準が予めに決められている(情報量最大の候補データを選択する)ために、選択される候補データが偏ってしまい、候補データ全体から反映されるような仮説が生成されないためである。予測精度が安定する学習システムが望まれる。
第3の問題点は、上述のアンサンブル学習により属性選択を行う場合、適切な選択確率が予め定められないと予測精度が向上しないことである。
第3の問題点の理由としては、例えば属性の選択確率を0.5と予め定めた場合、選択される属性数はおよそ半分になるが、実際には不要な属性が多かった場合、対応できない。学習前に適切な属性数を決めるのは難しい。また、学習しながら、属性数を計算(選択確率)により決めるようにするとその計算に時間がかかり計算コストが膨大になる。予測精度が向上する学習システムが望まれる。
上記の問題点について、創薬のスクリーニングを例にして具体的に説明する。創薬のスクリーニングの場合、例えば、クラスは、ある事象の状態の有無として、ある化合物の結合の有無を表し、関数値は、ある事象の状態の大きさとして、ある化合物の結合能を数値で表したものである。
創薬のスクリーニングでは、活性化合物(正例)の数が非活性化合物(負例)の数に比べて非常に少ない。従って、情報量最大の候補データを選択していると、上記第2の問題点として、非活性化合物を多く選択してしまい、多様な活性化合物が得られない。
また、実験を通して薬物候補となる活性化合物を発見するために、活性化合物を如何に少ない実験回数で発見するかが重要である。情報量最大という基準では、上記第1の問題点として、効率的に学習(能動学習、知識発見)することができない。このため、より良い仮説を生成すること(所望の結果を予測すること)ができないことがある。
特開平11−316754号公報 特開2001−229026号公報
セング(Seung)著「クエリー バイ コミッティ(Query by Committee)」1992年発行の国際会議の予稿集「プロシーディングス オブ ザ フィフス アニュアル エーシーエム ワークショップ オン コンピューテーショナル ラーニング セオリー(Proceedings of the fifth annual ACM workshop on computational learning theory)」の287−294頁 ワームス(Warmuth)著「サポートベクタマシン フォア アクティブ ラーニング イン ザ ドラッグ ディスカバリー プロセス(Support Vector Machines for Active Learning in the Drug Discovery Process)」2003年発行の論文誌「ジャーナル オブ ケミカル インフォメーション サイエンス(Journal of Chemical Information Sciences)」43巻2号667−673頁 ブライマン(Breiman)著「バギング プレディクターズ(Bagging Predictors)」1996年発行の論文誌「マシンラーニング(Machine Learning)」24巻2号123−140頁 フロインド(Freund)とシャピレ(Shapire)著「ア ディシジョン セオレティック ジェネラライゼーション オブ オンライン ラーニング アンド アン アプリケーション トゥー ブースティング(A decision −thoretic generalization of on−line learning and an application to boosting)」1995年発行の国際会議予稿集「プロシーディングス オブ セカンド ヨーロピアン コンファランス オン コンピューテーショナル ラーニング セオリー(Proceedings of the second european conference on computational learning theory)」23−37頁 ホ(Ho)著「ザ ランダム サブスペース メソッド フォア コンストラクティング ディシジョン フォレスト(The Random Subspace Method for Constructing Decision Forests)」1998年発行の論文誌「アイトリプルイー トランザクションズ オン パタン アナリシス アンド マシン インテリジェンス(IEEE Transactions on Pattern Analysis and Machine Intelligence)」20巻8号832−844頁
本発明の課題は、所望の結果を予測することができる学習システムを提供することにある。
本発明の他の課題は、予測精度が安定する学習システムを提供することにある。
本発明の更に他の課題は、予測精度が向上する学習システムを提供することである。
以下に、[発明を実施するための形態]で使用する番号・符号を用いて、課題を解決するための手段を説明する。これらの番号・符号は、[特許請求の範囲]の記載と[発明を実施するための形態]の記載との対応関係を明らかにするために付加されたものであるが、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。
本発明の学習システムは、能動学習システム(50)と、知識発見システム(60)とに分けることができる。
まず、本発明の能動学習システム(50)において、アンサンブル学習としてバギングを用いた場合について説明する。
本発明の能動学習システム(50)は、
コンピュータプログラムが格納された記憶部(33)と、
前記コンピュータプログラムを実行する処理装置(5)と、
出力装置(4)と
を具備し、
前記処理装置(5)は、
1つ以上のデータの特徴を示す属性である入力とクラス又は関数値である出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行し(S1)、
前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、更にランダムに選択された同一の部分属性からなる入力と出力との組であるデータをランダムに選択し、それら選択したデータの入力から出力値を出力するような仮説を、予め定めた学習アルゴリズムを用いて生成するという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行し(S21〜S24)、
前記記憶部(33)には、更に、そのラベルが設定されていないデータである複数の候補データが格納され、
前記処理装置(5)は、
前記記憶部(33)に格納された前記複数の候補データのそれぞれのデータの入力に対し、前記T個の仮説を用いてT個の出力値を計算し、出力値が関数値の場合はそれら出力値の平均をそれぞれのデータに対するスコアとし、出力値がクラス値の場合は、予め定めたクラス値となる割合(予め定めたクラス値となる回数をTで除した値)をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた選択関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行し(S4)、
ユーザにより決定されたラベルを前記選択候補データに設定し、ラベル設定候補データとして生成する(d)処理を実行し(S5)、
前記ラベル設定候補データを前記学習データに付加して前記(b)処理を実行する(e)処理を実行し(S5)、
前記終了条件が満たされないとき(S3−NO)、前記(c)、(d)、(e)処理を実行する(f)処理を実行し、
前記終了条件が満たされたとき(S3−YES)、前記(e)処理により生成された前記T個の仮説を前記出力装置(4)に出力する(h)処理を実行する。
本発明の能動学習システム(50)において、アンサンブル学習としてブースティングを用いた場合について説明する。
本発明の能動学習システム(50)は、
コンピュータプログラムが格納された記憶部(33)と、
前記コンピュータプログラムを実行する処理装置(5)と、
出力装置(4)と
を具備し、
前記処理装置(5)は、
1つ以上のデータの特徴を示す属性である入力とクラス又は関数値である出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行し(S1)、
前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、ランダムに選択された同一の部分属性からなる入力と出力との組であるデータに第1回目は全て同じ重みを割り当て、その重み付けられたデータを用いて入力から出力値を出力するような仮説を、予め定めた学習アルゴリズムを用いて生成し、改めてデータの入力から仮説を用いて出力値を計算し、元の出力値と違いがあれば重みを重くし、元の出力値と違いのあるデータ数に応じて仮説に対する重要度を設定するという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行し(S21〜S24)、
前記記憶部(33)には、更に、そのラベルが設定されていないデータである複数の候補データが格納され、
前記処理装置(5)は、
前記記憶部(33)に格納された前記複数の候補データのそれぞれのデータに対し、T個の仮説を用いてT個の出力値を計算し、出力値が関数値の場合はそれら出力値に対し仮説に対する重要度を重みとして重み付き平均を計算してそれぞれのデータに対するスコアとし、出力値がクラス値の場合は、予め定めたクラス値となる重み付き回数(予め定めたクラス値となると重要度を加算してから全重要度で除した値)をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行し(S4)、
ユーザにより決定されたラベルを前記選択候補データに設定し、ラベル設定候補データとして生成する(d)処理を実行し(S5)、
前記ラベル設定候補データを前記学習データに付加して前記(b)処理を実行する(e)処理を実行し(S5)、
前記終了条件が満たされないとき(S3−NO)、前記(c)、(d)、(e)処理を実行する(f)処理を実行し、
前記終了条件が満たされたとき(S3−YES)、前記(e)処理により生成された前記T個の仮説を前記出力装置(4)に出力する(h)処理を実行する。
本発明の能動学習システム(50)において、アンサンブル学習としてバギングを用いた場合について説明する。
本発明の能動学習システム(50)は、
コンピュータプログラムが格納された記憶部(33)と、
前記コンピュータプログラムを実行する処理装置(5)と、
出力装置(4)と
を具備し、
前記処理装置(5)は、
1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行し(S1)、
前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、更にランダムに選択された同一の属性からなる入力と出力との組であるデータをランダムに選択し、それら選択したデータの入力から出力値を出力するような仮説である決定木を、予め定めた決定木生成アルゴリズムを用いて生成し、決定木のそれぞれの葉に対してその葉に該当した前記選択データのうちで予め定めたクラスであるデータ数の割合(葉に該当し予め定めたクラスである前記選択データ数/葉に該当した前記選択データ数)、あるいは、その割合をなました値((葉に該当し予め定めたクラスである前記選択データ数+1)/(葉に該当した前記選択データ数+2))を葉の値として計算し、データに対する出力値をそのデータが該当した葉の値とするという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行し(S21〜S24)、
前記記憶部(33)には、更に、そのラベルが設定されていないデータである複数の候補データが格納され、
前記処理装置(5)は、
前記記憶部(33)に格納された前記複数の候補データのそれぞれのデータの入力に対し、T個の決定木に対して、T個の出力値を計算し、それら出力値の平均をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行し(S4)、
ユーザにより決定されたラベルを前記選択候補データに設定し、ラベル設定候補データとして生成する(d)処理を実行し(S5)、
前記ラベル設定候補データを前記学習データに付加して前記(b)処理を実行する(e)処理を実行し(S5)、
前記終了条件が満たされないとき(S3−NO)、前記(c)、(d)、(e)処理を実行する(f)処理を実行し、
前記終了条件が満たされたとき(S3−YES)、前記(e)処理により生成された前記T個の仮説を前記出力装置(4)に出力する(h)処理を実行する。
まず、本発明の知識発見システム(60)において、アンサンブル学習としてバギングを用いた場合について説明する。
本発明の知識発見システム(60)は、
コンピュータプログラムが格納された記憶部(33)と、
前記コンピュータプログラムを実行する処理装置(5)と、
出力装置(4)と
を具備し、
前記処理装置(5)は、
1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行し(S1)、
前記学習データに対して、入力に対する出力値を表す決定木を、予め定めた決定木生成アルゴリズムを用いて生成し、決定木のそれぞれの葉に対してその葉に該当した前記選択データのうちで予め定めたクラスであるデータ数の割合(葉に該当し予め定めたクラスである前記選択データ数/葉に該当した前記選択データ数)、あるいは、その割合をなました値((葉に該当し予め定めたクラスである前記選択データ数+1)/(葉に該当した前記選択データ数+2)など)を葉の値として計算し、データに対する出力値をそのデータが該当した葉の値とした仮説を生成する(b)処理を実行し(S21〜S24)、
前記記憶部(33)には、更に、そのラベルが設定されたデータである複数の候補データが格納され、
前記処理装置(5)は、
前記記憶部(33)に格納された前記複数の候補データそれぞれのデータの入力に対し、葉の値という出力値をそれぞれのデータに対するスコアとして計算し、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行し(S4)、
前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行し(S5)、
前記終了条件が満たされないとき(S3−NO)、前記(c)、(d)処理を実行する(e)処理を実行し、
前記終了条件が満たされたとき(S3−YES)、前記(d)処理により生成された前記仮説を前記出力装置(4)に出力する(g)処理を実行する。
本発明の知識発見システム(60)において、アンサンブル学習としてブースティングを用いた場合について説明する。
本発明の知識発見システム(60)は、
コンピュータプログラムが格納された記憶部(33)と、
前記コンピュータプログラムを実行する処理装置(5)と、
出力装置(4)と
を具備し、
前記処理装置(5)は、
1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行し(S1)、
前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、ランダムに選択された同一の部分属性からなる入力と出力との組であるデータに第1回目は全て同じ重みを割り当て、その重み付けられたデータを用いて入力から出力値を出力するような仮説を、予め定めた学習アルゴリズムを用いて生成し、改めてデータの入力から仮説を用いて出力値を計算し、元の出力値と違いがあれば重みを重くし、元の出力値と違いのあるデータ数に応じて仮説に対する重要度を設定するという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行し(S21〜S24)、
前記記憶部(33)には、更に、そのラベルが設定されたデータである複数の候補データが格納され、
前記処理装置(5)は、
前記記憶部(33)に格納された前記複数の候補データのそれぞれのデータに対し、T個の仮説を用いてT個の出力値を計算し、出力値が関数値の場合はそれら出力値に対し仮説に対する重要度を重みとして重み付き平均を計算してそれぞれのデータに対するスコアとし、出力値がクラス値の場合は、予め定めたクラス値となる重み付き回数(予め定めたクラス値となると重要度を加算してから全重要度で除した値)をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行し(S4)、
前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行し(S5)、
前記終了条件が満たされないとき(S3−NO)、前記(c)、(d)処理を実行する(f)処理を実行し、
前記終了条件が満たされたとき(S3−YES)、前記(d)処理により生成された前記T個の仮説を前記出力装置(4)に出力する(g)処理を実行する。
本発明の知識発見システム(60)において、アンサンブル学習としてバギングを用いた場合について説明する。
本発明の知識発見システム(60)は、
コンピュータプログラムが格納された記憶部(33)と、
前記コンピュータプログラムを実行する処理装置(5)と、
出力装置(4)と
を具備し、
前記処理装置(5)は、
1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行し(S1)、
前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、更にランダムに選択された同一の属性からなる入力と出力との組であるデータをランダムに選択し、それら選択したデータの入力から出力値を出力するような仮説である決定木を、予め定めた決定木生成アルゴリズムを用いて生成し、決定木のそれぞれの葉に対してその葉に該当した前記選択データのうちで予め定めたクラスであるデータ数の割合(葉に該当し予め定めたクラスである前記選択データ数/葉に該当した前記選択データ数)、あるいは、その割合をなました値((葉に該当し予め定めたクラスである前記選択データ数+1)/(葉に該当した前記選択データ数+2))を葉の値として計算し、データに対する出力値をそのデータが該当した葉の値とするという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行し(S21〜S24)、
前記記憶部(33)には、更に、そのラベルが設定されたデータである複数の候補データが格納され、
前記処理装置(5)は、
前記記憶部(33)に格納された前記複数の候補データのそれぞれのデータの入力に対し、T個の決定木に対して、T個の出力値を計算し、それら出力値の平均をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行し(S4)、
前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行し(S5)、
前記終了条件が満たされないとき(S3−NO)、前記(c)、(d)処理を実行する(e)処理を実行し、
前記終了条件が満たされたとき(S3−YES)、前記(d)処理により生成された前記T個の仮説を前記出力装置(4)に出力する(g)処理を実行する。
本発明の学習システムは、所望の結果を予測することができる。
本発明の学習システムは、予測精度が安定する。
本発明の学習システムは、予測精度が向上する。
図1は、本発明の第1実施形態に係る学習システムとして能動学習システムの構成を示すブロック図である。 図2は、図1の機能ロジックを示す図である。 図3は、本発明の第1実施形態に係る学習システムとして能動学習システムの動作を示すフローチャートである。 図4は、本発明の学習システムに適用される選択関数として数4を説明するための図である。 図5は、本発明の第2実施形態に係る学習システムとして知識発見システムの構成を示すブロック図である。 図6は、図5の機能ロジックを示す図である。 図7は、本発明の第2実施形態に係る学習システムとして知識発見システムの動作を示すフローチャートである。
添付図面を参照して、本発明の実施形態による学習システムを実施するための形態を以下に説明する。
(第1実施形態)
図1は、本発明の第1実施形態に係る学習システムとして能動学習システム50の構成を示すブロック図である。本発明の能動学習システム50は、入力装置1と、データ処理装置5と、出力装置4とを具備する。データ処理装置5はコンピュータであり、データ処理装置5には、入力装置1と出力装置4とが接続されている。出力装置4としては表示装置、印刷装置が例示される。
データ処理装置5は、CPU(Central Processing Unit)6と、メモリ7と、メモリ7より容量が大きい大容量メモリとを具備する。メモリ7には、CPU6が実行するためのコンピュータプログラムであるデータ処理部2と、記憶部3とが格納されている。データ処理部2は、学習プログラムである学習部21と、制御プログラムである制御部22と、データ選択プログラムであるデータ選択部23と、データ更新プログラムであるデータ更新部24とを具備する。制御部22は、学習部21、データ選択部23、データ更新部24を制御するプログラムである。記憶部3は、リサンプリングデータ記憶部31、学習データ記憶部32を具備する。リサンプリングデータ記憶部31は、アンサンブル学習を行う場合に使われる。また、上記大容量メモリを候補データ記憶部33と称する。
図2は、図1の機能ロジックを示す図である。
ユーザの入力装置1の操作により、データ処理部2の学習部21は、学習データと下位学習アルゴリズムと終了条件とを入力する。学習データは、そのラベル(クラスまたは関数値)が設定されたデータである。学習データの詳細については後述する。下位学習アルゴリズムは、能動学習を行うためのコンピュータプログラムである。学習部21は、入力した学習データと終了条件とを学習データ記憶部32に格納する。本実施例では、下位学習アルゴリズムは、学習データと終了条件と共に入力されるが、予めに学習データ記憶部32に格納されていてもよい。
学習部21は、下位学習アルゴリズムを用いて学習処理を行う。アンサンブル学習により学習データのリサンプリングや属性選択を行う場合、学習部21は、下位学習アルゴリズムを用いて、アンサンブル学習を行う。学習部21は、アンサンブル学習により、学習データをリサンプリングして部分データを生成し、学習データの属性をリサンプリングして部分属性を生成し、部分データと部分属性とを含むリサンプリングデータをリサンプリングデータ記憶部31に格納する。リサンプリング、仮説についての詳細は後述する。学習部21は、リサンプリングデータ記憶部31を参照して、リサンプリングデータに基づいて、学習データを学習し仮説を生成する。本実施例では、リサンプリングも下位学習アルゴリズムで実現するようにプログラムを作成した場合には、リサンプリングデータ記憶部31は省略可能である。
アンサンブル学習を行う場合、学習部21は、予め決められたリサンプリング回数分だけ上記の学習処理を繰り返して複数の仮説を得る。
候補データ記憶部33には、複数の候補データが格納されている。複数の候補データの各々は、そのラベル(クラスまたは関数値)が設定されていないデータである。本実施例では、複数の候補データは、候補データ記憶部33に予めに格納されているが、更新あるいは変更することができる。また、複数の候補データは、学習データと下位学習アルゴリズムと終了条件と共に入力されてもよい。
本実施例では、候補データ記憶部33は、上記大容量メモリとしてメモリ7と分けられてデータ処理装置5に備えられているが、候補データの数が少ない場合、CPU6が高速に計算できるため、メモリ7内に設けられてもよい。この場合、メモリ7の記憶部3は、更に、候補データ記憶部33を具備する。
データ処理部2のデータ選択部23は、データ選択処理を行う。データ選択処理では、データ選択部23は、学習部21により生成された複数の仮説に対して、後述の重み付き平均を施す。データ選択部23は、候補データ記憶部33を参照し、複数の仮説を用いて、複数の候補データの各々に対するスコアを計算する。データ選択部23は、上記計算されたスコアに基づいて、複数の候補データの中から、第1候補データを選択する。このデータ選択部23(データ選択プログラム)には、複数の候補データの中から第1候補データを選択するための、予め定められた選択関数が記載されている。選択関数を用いて第1候補データを選択することについての詳細は後述する。
データ処理部2のデータ更新部24は、データ更新処理を行う。データ更新処理では、データ更新部24は、データ選択部23により選択された第1候補データを出力装置4に出力する。ユーザは、上記選択された第1候補データのラベル(クラスまたは関数値)を実験などで確定(決定)する。ユーザの入力装置1の操作により、データ更新部24は、ユーザにより決定されたラベル(クラスまたは関数値)を上記選択された第1候補データに設定する。データ更新部24は、上記選択された第1候補データを学習データに付加して学習部21に出力し、候補データ記憶部33に格納された第1候補データを削除する。
データ処理部2の制御部22は、学習データ記憶部32を参照して、終了条件が満たされないとき、上記の処理を実行するように学習部21、データ選択部23、データ更新部24を制御する。制御部22は、学習データ記憶部32を参照して、終了条件が満たされたとき、学習部21により生成された複数の仮説を出力装置4に出力する。
上記の学習データについて説明する。入力装置1によってデータ処理装置5に入力される学習データをSとし、そのデータ数をm(mは1以上の整数)としたとき、ラベル(クラスまたは関数値)が設定された学習データSは、数1のように表される。
Figure 2009301557
ここで、xは入力、yは出力値を示す。例えば、創薬の場合、xは化合物の表現、yは活性の有無などである。yは、y∈{0、1}でも、任意のクラスの集合でも、任意の関数値の集合でも構わない。ここでは、説明を簡単にするために、{0、1}とし、情報数が少ないクラス、もしくは価値の高いクラスを出力=1の正例として以下説明するが、複数の候補データが前述のアンバランスなデータや前述の価値の異なるデータの場合以外でも本発明は適用できる。また、多クラスあるいは関数値の場合も、出力=1の代わりに1つ以上のクラスあるいは関数値を割り当てることなどにより一般性を失わずに本発明を適用できる。または、多クラスの場合には、2クラスの分類を組み合わせることにより、分類を実現することもできる。
上記の下位学習アルゴリズムは、例えば、決定木、決定リスト、ニューラルネットワーク、ナイーブベイズ(Naive Bayes)、ベイジアンネットワーク、回帰分析、サポートベクタマシンなどを学習するためのアルゴリズムである。
ここでは、アンサンブル学習としてバギングを用いて説明を行うが、本発明はブースティングなどの他のアンサンブル学習に適用してもよい。アンサンブル学習を行う場合、リサンプリング回数をTとし、上記の学習処理をT回繰り返して複数の仮説としてT個の仮説を得る。
次に、本発明の能動学習システム50の動作としてアンサンブル学習を行う場合について詳細に説明する。図3は、本発明の能動学習システム50の動作を示すフローチャートである。
ユーザの入力装置1の操作により、データ処理部2の学習部21は、入力処理として、学習データと下位学習アルゴリズムと終了条件とを入力する(ステップS1)。このとき、学習部21は、終了条件を学習データ記憶部32に格納する。
次に、学習部21は、上記の学習処理として、学習データに対して、下位学習アルゴリズムを用いたアンサンブル学習を行う(ステップS2)。
まず、学習部21は、学習データを学習データ記憶部32に格納し、リサンプリング回数iを1にセットする(ステップS21)。
次に、学習部21は、アンサンブル学習により、学習データをリサンプリングして部分データを生成する(ステップS22)。ここで、リサンプリングとは、例えば、m個の学習データSに対して、所定回数だけ1からmまでの整数iをランダムに発生させ、その整数の番号の学習データ(x、y)をサンプリングすることなどである。
次いで、学習部21は、不要な属性を減らすために、アンサンブル学習により、学習データと同時に学習データの属性もリサンプリングして部分属性を生成する(ステップS23)。このとき、学習部21は、部分データと部分属性とを含むリサンプリングデータをリサンプリングデータ記憶部31に格納する。学習データの場合と異なり学習データの属性は同じ属性が存在しても意味が無いので同じ属性は削除する。適切な属性数の推定値に応じて予め決めた数だけ、属性をリサンプリングする。適切な属性数が推定できない場合には、元の属性数と同数だけリサンプリングする。なお、属性数が膨大過ぎるなどの場合には、この属性選択の前に既存の手法で予め決められた数だけ選択しておいてもよい。
次に、学習部21は、リサンプリングデータ記憶部31を参照して、リサンプリングデータに基づいて、下位学習アルゴリズムにより学習データを学習し仮説を生成する(ステップS24)。仮説とは、任意の入力xに対する出力値を表している。
次いで、学習部21は、リサンプリング回数jをインクリメント(+1)する(ステップS25)。
次に、学習部21は、リサンプリング回数jと設定リサンプリング回数Tとを比較する(ステップS26)。リサンプリング回数jが設定リサンプリング回数T(Tは1以上の整数)を越えない場合(ステップS26−NO)、学習部21は、ステップS22〜S25を繰り返す。リサンプリング回数jが設定リサンプリング回数Tを越えた場合(ステップS26−YES)、学習部21は、T個の仮説を得る。
次に、データ処理部2の制御部22は、学習データ記憶部32を参照して、終了条件を満たしているか否かを判定する(ステップS3)。終了条件を満たしていなければ(ステップS3−NO)、制御部22は、データ選択処理、データ更新処理、学習処理を実行するようにデータ選択部23、データ更新部24、学習部21を制御する。
終了条件を満たしている場合(ステップS3−YES)、データ処理部2のデータ選択部23は、データ選択処理を行う(ステップS4)。データ選択処理では、スコア計算処理と選択処理とを含む。
データ選択処理(ステップS4)のスコア計算処理では、データ選択部23は、学習部21により生成されたT個の仮説に対して、重み付き平均を施す。データ選択部23は、候補データ記憶部33を参照し、T個の仮説を用いて、複数の候補データの各々に対するスコアを計算する。スコアは、各候補データの正例らしさの数値である。表現形式が決定木の場合には、例えば、スコアとして、候補データをその決定木で分類する際の各葉の学習データでの部分的正例の割合として数2を用いることができる。
Figure 2009301557
ここで、Sを候補データと同じ葉で分類される学習データの集合とする。上付きtは階乗を表すものではなく、記号として用いられる。また、Sのうち、S を正例のクラスに属する学習データの集合とし、入力(x、y)が葉tに含まれる重み×個数をw とする。ニューラルネットワークの場合は、例えば、スコアとして、出力値を用いることができる。
または、上記部分的正例の割合をなました値として、例えば、数3を用いることができる。
Figure 2009301557
従って、重み付き平均とは、アンサンブル学習では、バギングの場合、例えば、各仮説のスコアの平均を用い、ブースティングの場合、例えば、各仮説のスコアの重み付きの値を用いる。
データ選択処理(ステップS4)の選択処理では、データ選択部23は、上記計算されたスコアに基づいて、複数の候補データの中から、第1候補データを選択する。候補データ記憶部33に格納された候補データの数をR(Rは1以上の整数)とし、第1候補データの数をB(Bは1以上の整数)とする。最初に与えられた(入力した)学習データの数が十分多い場合(設定個数よりも多い場合)には、スコアが最大(スコア最大)の候補データから順にB個選択すればよい。これは、学習データの数が十分多いので、偏りが無いと考えられるためである。しかし、実際には、最初に与えられた(入力した)学習データの数は、候補データ記憶部33に格納された候補データの数に比べて少なく、スコア最大の候補データを選択することは、選択すべき候補データが偏ってしまい解が不安定になる可能性がある。そこで、データ選択部23は、上記の選択関数として以下に示すような指数的に減少する関数に基づいて第1候補データを選択する。
まず、データ選択部23は、候補データ記憶部33に格納されたR個の候補データを、例えば、正例スコア(PS)の大きい順に並べる。あるいは、例えば、正例スコアに適当な定数で重み付けた正例スコアの分散もしくは標準偏差などを加えた値の大きい順に並べる。あるいは、例えば、|PS−0.5|の順に並べる。これは、前述のアンバランスなデータや前述の価値の異なるデータである場合に限らず通常の能動学習の場合に適した順番である。どのような順番で並べるかは、ユーザーが入力装置1を用いて選択関数のパラメータとして指定することができる。また、データ選択部23(データ選択プログラム)には、複数の選択関数が記載されていて、選択関数のパラメータを指定するのと同様に、ユーザーが入力装置1を用いて複数の選択関数の中から1つの選択関数を選択することができる。B個の第1候補データを選択する場合には、例えば、選択関数として指数関数f(z)=A・e(zは1以上の整数)が与えられ、数4が成り立つ定数Aを定める。
Figure 2009301557
図4に示されるように、数4は、z番目の第1候補データを所定範囲8(0から指数関数f(z)の値までの範囲)の中から選択することにより、R個の候補データからB個の第1候補データを選択した時に、確率的には、R個の候補データ全体9から選択されるように定数Aを定めるものである。数4の変形により、定数Aは以下のように求めることができる。例えば、乱数を振って、指数関数f(x)より乱数の値が大きければ、候補データを選択し、小さければ、候補データを選択しない、という動作をB個の候補データ(第1候補データ)が選択されるまで繰り返される。このように、選択関数である指数関数f(x)の確率に従って候補データが選択される。
Figure 2009301557
データ選択部23は、R個の候補データをスコアの順に参照し、z番目に選択する第1候補データを、1/f(z)の確率で選択するものとする。選択確率1/f(z)が1に近い場合、スコア上位(スコア最大も含む)の第1候補データをほとんど選択し、選択確率1/f(z)が0に近い場合、第1候補データをまばらに選択する。
次に、ステップS4の後、データ処理部2のデータ更新部24は、データ更新処理を行う(ステップS5)。データ更新処理では、設定処理と更新処理とを含む。
データ更新処理(ステップS5)の設定処理では、データ更新部24は、データ選択部23により選択された第1候補データを出力装置4に出力する。ユーザは、上記選択された第1候補データのラベル(クラスまたは関数値)を実験などで確定(決定)する。ユーザの入力装置1の操作により、データ更新部24は、ユーザにより決定されたラベル(クラスまたは関数値)を上記選択された第1候補データに設定する。
データ更新処理(ステップS5)の更新処理では、データ更新部24は、上記選択された第1候補データを学習データに付加して学習部21に出力し、候補データ記憶部33に格納された第1候補データを削除する。その後、学習部21は、学習処理(ステップS2)を実行する。
次に、制御部22は、学習データ記憶部32を参照して、終了条件を満たしているか否かを判定する(ステップS3)。終了条件を満たしていれば(ステップS3−YES)、制御部22は、学習部21により生成されたT個の仮説を最終仮説として出力装置4に出力する。
終了条件としては、(A)条件、(B)条件、(C)条件、(D)条件、(E)条件のいずれか1つが挙げられる。(A)条件では、例えば、予め定めた反復回数Nを越えたら終了とする。(B)条件では、予め定めた数の正例が発見できれば終了とする。(C)条件では、学習データが十分多い場合には、学習データの一部を評価データとして学習に用いずに残しておき、評価データの予測精度が予め定めた値よりも高くなれば終了とする。(D)条件では、例えばバギングの場合には、推定した予測精度が予め定めた値よりも高くなれば終了とする。予測精度の推定方法は、各学習データに対して、その学習データが用いられなかった仮説でのバギング結果で予測する。これを全ての学習データに対して実行して予測精度を推定する。(E)条件では、予測精度の傾きが予め定めた値よりも小さくなれば終了とする。
例えば終了条件が(A)条件である場合、制御部22は、ステップS1にて反復回数Jを1にセットしておき、データ更新処理(ステップS5)が終了したときに反復回数Jをインクリメント(+1)にする。制御部22は、ステップS3にて反復回数Jと予め定めた反復回数Nとを比較し、反復回数Jが予め定めた反復回数Nを超えた場合、学習部21により生成されたT個の仮説を出力装置4に出力する。能動学習システム50では、終了条件を満たさなければ学習データSの数が(B×J)ずつ増える。
本発明の能動学習システム50の動作としてアンサンブル学習を行う場合について説明したが、アンサンブル学習を行わない場合では、上記のステップS21〜S23、S25、S26は不要である。この場合、ステップS2にて学習部21により生成される仮説の数は1つであるため、データ選択処理(ステップS4)のスコア計算処理にて、データ選択部23は、学習部21により生成された仮説に対して、重み付き平均を施す必要はない。
また、下位学習アルゴリズムによる学習は、アンサンブル学習としてバギングを用いる場合には独立に行うことができるので、並列に実行することも可能である。
また、学習データとして、属性が少な過ぎる、あるいは全ての属性が重要であると類推されているなど不要な属性を減らす必要が無い場合には、上記のステップS23を省くことができる。
次に、本発明の能動学習システム50の効果について説明する。
本発明の能動学習システム50によれば、能動学習を行う際に、所望の結果を予測することができる。例えば、複数の候補データが前述のアンバランスなデータまたは前述の価値の異なるデータの場合に効率的に能動学習を行うことができる。
複数の候補データが前述のアンバランスなデータである場合、本発明の能動学習システム50では、仮説を用いて複数の候補データの各々に対するスコアを計算し、上記計算されたスコアに基づいて、複数の候補データの中から、第1候補データを選択するため、情報数が少ない候補データを選択することができ、学習データのラベル(クラス、関数値)に属する多様な候補データを得ることができる。このため、より良い仮説を生成すること(所望の結果を予測すること)ができる。
複数の候補データが前述の価値の異なるデータである場合、本発明の能動学習システム50では、仮説を用いて複数の候補データの各々に対するスコアを計算し、上記計算されたスコアに基づいて、複数の候補データの中から、第1候補データを選択するため、価値の高い候補データを選択することができ、学習データのラベル(クラス、関数値)に属する多様な候補データを得ることができる。このため、より良い仮説を生成すること(所望の結果を予測すること)ができる。
本発明の能動学習システム50では、複数の候補データの中から、第1候補データを選択するときに、必ずしも情報量最大の候補データを選択するわけではない。本発明の能動学習システム50では、前述のアンバランスなデータ、前述の価値の異なるデータを含む第1候補データを選択する手法として、上述の選択関数(指数的な関数)を用いる。このため、データ空間から一様にデータが選択され、解の不安定さを防ぐことができる。学習データの数が少ないにも関わらず、最大スコアの候補データばかりを選択した場合、部分的に、例えば決定木で部分的に負例が不足して、より正確な仮説が生成できなくなる。このように、複数の候補データの中から、前述のアンバランスなデータ、前述の価値の異なるデータを含む第1候補データを選択するための選択関数を用いることが好ましい。
本発明の能動学習システム50によれば、能動学習を行う際に、所望の結果を予測する予測精度が安定する。
本発明の能動学習システム50では、第1候補データを選択するための基準が予めに決められているわけではない(必ずしも情報量最大の候補データを選択するわけではない)ために、選択される候補データ(第1候補データ)が偏ることはない。つまり、学習がある程度進んで、候補データに対するスコアが類似してきた場合、予めに決められたスコアを選択したのでは、例えば決定木のある部分木のデータばかりが選択される可能性があるが、本発明の能動学習システム50では、確率的に選択しているので、適切にばらついて選択データ(選択される候補データ)が偏ることが無くデータ空間から一様にデータが選択され、解の不安定さを防ぐことができる。このため、候補データ全体から反映されるような仮説を生成することができ、予測精度が安定する。
本発明の能動学習システム50によれば、能動学習を行う際に、アンサンブル学習により属性選択を行う場合、所望の結果を予測する予測精度が向上する。
本発明の能動学習システム50では、学習データをリサンプリングすることに加えて、学習データの属性もリサンプリングするため、不要な属性を除くことができる。これにより、データや不要な属性数に依存する最適な選択確率が幾つであっても、ある程度カバーすることができ、予測精度が向上する。また、属性数が少なくなることにより計算効率が向上するため、予測精度が向上する。元の属性数と同数だけリサンプリングすると、平均的には属性の約6割が選択されることになるが、前述した従来の手法のように5割などと予め定めて5割の属性をランダムに選択した場合よりも広く分散させることができる。
このように、本発明の能動学習システム50では、部分データと不要な属性を除いた部分属性とにより学習データを学習し複数の仮説を生成した場合、従来の手法よりも迅速に所望の結果を予測することができ、予測精度が向上する。
本発明の能動学習システム50では、前述のアンバランスなデータや前述の価値の異なるデータで下位学習アルゴリズムに決定木や回帰木を使用する場合に、第1候補データに前述のアンバランスなデータ、前述の価値の異なるデータが含まれるように、スコアの計算に葉での正例の割合もしくはそれをなました値を用いる(数2、数3参照)。このため、本発明の能動学習システム50によれば、アンバランスなデータや価値の異なるデータを考慮して、より良い仮説を生成すること(所望の結果を予測すること)ができる。
次に、本発明の能動学習システム50の動作について具体的な例を用いて説明する。本発明の能動学習システム50として、創薬スクリーニングで、候補データ記憶部33から活性化合物を探索する問題に適用した場合を考える。この場合、活性化合物がデータ数の少ない価値の高い正例に相当し、非活性化合物がデータ数の多い価値の低い負例に相当する。また、下位学習アルゴリズムは決定木を学習するアルゴリズムとし、アンサンブル学習としてバギングを行うものとする。
学習部21は、ステップS1にて、活性の有無が明らかになっている学習データと、決定木を学習するアルゴリズム(下位学習アルゴリズム)と、終了条件とを受け取り、学習処理(ステップS2)にて、現時点のデータ、すなわち、学習データからサンプリングにより生成した複数の部分サンプルを、決定木の下位学習アルゴリズムに学習させ、複数の決定木を得る。
次に、制御部22は、ステップS3にて終了条件を満たしているかを判定し、満たしているなら、得られた複数の決定木を出力装置4に出力し、終了する。
満たしていなければ、データ選択部23は、データ選択処理(ステップS4)にて、候補データ記憶部33に格納された複数の候補データに対して、得られた複数の決定木の各々の正例スコアを上述した手法で計算し平均を取る。こうして計算された複数の候補データに対するスコアに応じて予め定めた選択関数に従って選択する第1候補データを決める。
選択された第1候補データのラベルが化合物の活性実験などで確定された場合、データ更新部25は、データ更新処理(ステップS5)にて、入力装置1から入力されたラベルを第1候補データに設定する。データ更新部25は、そのラベル付き選択データ(第1候補データ)を学習データに追加し、候補データ記憶部33からその選択データを削除する。学習部21は、第1候補データが追加された学習データにより能動学習を続行する。
(第2実施形態)
本発明の第2実施形態に係る学習システムでは、本発明の第1実施形態に係る学習システム(能動学習システム50)と重複する説明を省略する。図5は、本発明の第2実施形態に係る学習システムとして知識発見システム60の構成を示すブロック図である。知識発見システム60のデータ処理部2は、能動学習システム50のデータ処理部2のデータ更新部24に代えて、データ更新部25を具備する。
図6は、図5の機能ロジックを示す図である。
候補データ記憶部33には、複数の候補データが格納されている。知識発見システム60の場合、複数の候補データの各々は、そのラベル(クラスまたは関数値)が設定されたデータである。
データ処理部2のデータ更新部25は、データ更新処理を行う。知識発見システム60の場合、データ更新処理では、データ更新部25は、データ選択部23により選択された第1候補データを学習データとして学習部21に出力し、候補データ記憶部33に格納された第1候補データを削除する。
次に、本発明の知識発見システム60の動作としてアンサンブル学習を行う場合について詳細に説明する。図7は、本発明の知識発見システム60の動作を示すフローチャートである。
データ処理部2は、能動学習システム50と同様にステップS1〜S4を実行する。
次に、データ処理部2のデータ更新部25は、データ更新処理を行う(ステップS6)。
データ更新処理(ステップS6)では、データ更新部25は、データ選択部23により選択された第1候補データを学習データとして学習部21に出力し、候補データ記憶部33に格納された第1候補データを削除する。その後、学習部21は、学習処理(ステップS2)を実行する。
本発明の知識発見システム60の動作としてアンサンブル学習を行う場合について説明したが、アンサンブル学習を行わない場合では、能動学習システム50の場合と同様に上記のステップS21〜S23、S25、S26は不要である。この場合、ステップS2にて学習部21により生成される仮説の数は1つであるため、データ選択処理(ステップS4)のスコア計算処理にて、データ選択部23は、学習部21により生成された仮説に対して、重み付き平均を施す必要はない。
次に、本発明の知識発見システム60の効果について説明する。本発明の知識発見システム60の効果については、能動学習システム50とほぼ同様である。
本発明の知識発見システム60によれば、知識発見を行う際に、所望の結果を予測することができる。例えば、複数の候補データが前述のアンバランスなデータまたは前述の価値の異なるデータの場合に効率的に再学習(知識発見)を行うことができる。
複数の候補データが前述のアンバランスなデータである場合、本発明の知識発見システム60では、仮説を用いて複数の候補データの各々に対するスコアを計算し、上記計算されたスコアに基づいて、複数の候補データの中から、第1候補データを選択するため、情報数が少ない候補データを選択することができ、学習データのラベル(クラス、関数値)に属する多様な候補データを得ることができる。このため、より良い仮説を生成すること(所望の結果を予測すること)ができる。
複数の候補データが前述の価値の異なるデータである場合、本発明の知識発見システム60では、仮説を用いて複数の候補データの各々に対するスコアを計算し、上記計算されたスコアに基づいて、複数の候補データの中から、第1候補データを選択するため、価値の高い候補データを選択することができ、学習データのラベル(クラス、関数値)に属する多様な候補データを得ることができる。このため、より良い仮説を生成すること(所望の結果を予測すること)ができる。
本発明の知識発見システム60では、複数の候補データの中から、第1候補データを選択するときに、必ずしも情報量最大の候補データを選択するわけではない。本発明の知識発見システム60では、前述のアンバランスなデータ、前述の価値の異なるデータを含む第1候補データを選択する手法として、上述の選択関数(指数的な関数)を用いる。このため、データ空間から一様にデータが選択され、解の不安定さを防ぐことができる。学習データの数が少ないにも関わらず、最大スコアの候補データばかりを選択した場合、部分的に、例えば決定木で部分的に負例が不足して、より正確な仮説が生成できなくなる。このように、複数の候補データの中から、前述のアンバランスなデータ、前述の価値の異なるデータを含む第1候補データを選択するための選択関数を用いることが好ましい。
本発明の知識発見システム60によれば、知識発見を行う際に、所望の結果を予測する予測精度が安定する。
本発明の知識発見システム60では、第1候補データを選択するための基準が予めに決められているわけではない(必ずしも情報量最大の候補データを選択するわけではない)ために、選択される候補データ(第1候補データ)が偏ることはない。つまり、学習がある程度進んで、候補データに対するスコアが類似してきた場合、予めに決められたスコアを選択したのでは、例えば決定木のある部分木のデータばかりが選択される可能性があるが、本発明の知識発見システム60では、確率的に選択しているので、適切にばらついて選択データ(選択される候補データ)が偏ることが無くデータ空間から一様にデータが選択され、解の不安定さを防ぐことができる。このため、候補データ全体から反映されるような仮説を生成することができ、予測精度が安定する。
本発明の知識発見システム60によれば、知識発見を行う際に、アンサンブル学習により属性選択を行う場合、所望の結果を予測する予測精度が向上する。
本発明の知識発見システム60では、学習データをリサンプリングすることに加えて、学習データの属性もリサンプリングするため、不要な属性を除くことができる。これにより、データや不要な属性数に依存する最適な選択確率が幾つであっても、ある程度カバーすることができ、予測精度が向上する。また、属性数が少なくなることにより計算効率が向上するため、予測精度が向上する。元の属性数と同数だけリサンプリングすると、平均的には属性の約6割が選択されることになるが、前述した従来の手法のように5割などと予め定めて5割の属性をランダムに選択した場合よりも広く分散させることができる。
このように、本発明の知識発見システム60では、部分データと不要な属性を除いた部分属性とにより学習データを学習し複数の仮説を生成した場合、従来の手法よりも迅速に所望の結果を予測することができ、予測精度が向上する。
本発明の知識発見システム60では、前述のアンバランスなデータや前述の価値の異なるデータで下位学習アルゴリズムに決定木や回帰木を使用する場合に、第1候補データに前述のアンバランスなデータ、前述の価値の異なるデータが含まれるように、スコアの計算に葉での正例の割合もしくはそれをなました値を用いる(数2、数3参照)。このため、本発明の知識発見システム60によれば、アンバランスなデータや価値の異なるデータを考慮して、より良い仮説を生成すること(所望の結果を予測すること)ができる。
次に、本発明の知識発見システム60の動作について具体的な例を用いて説明する。本発明の知識発見システム60として、創薬スクリーニングで、候補データ記憶部33から活性化合物を探索する問題に適用した場合を考える。この場合、活性化合物がデータ数の少ない価値の高い正例に相当し、非活性化合物がデータ数の多い価値の低い負例に相当する。また、下位学習アルゴリズムは決定木を学習するアルゴリズムとし、アンサンブル学習としてバギングを行うものとする。
学習部21は、ステップS1にて、活性の有無が明らかになっている学習データと、決定木を学習するアルゴリズム(下位学習アルゴリズム)と、終了条件とを受け取り、学習処理(ステップS2)にて、現時点のデータ、すなわち、学習データからサンプリングにより生成した複数の部分サンプルを、決定木の下位学習アルゴリズムに学習させ、複数の決定木を得る。
次に、制御部22は、ステップS3にて終了条件を満たしているかを判定し、満たしているなら、得られた複数の決定木を出力装置4に出力し、終了する。
満たしていなければ、データ選択部23は、データ選択処理(ステップS4)にて、候補データ記憶部33に格納された複数の候補データに対して、得られた複数の決定木の各々の正例スコアを上述した手法で計算し平均を取る。こうして計算された複数の候補データに対するスコアに応じて予め定めた選択関数に従って選択する第1候補データを決める。
能動学習システム50とは異なり、複数の候補データのラベルは既に既知である。このため、第1候補データのラベルも既に既知である。データ更新部25は、データ更新処理(ステップS5)にて、そのラベル付き選択データ(第1候補データ)を学習データとし、候補データ記憶部33からその選択データを削除する。学習部21は、学習データ(第1候補データ)により知識発見を続行する。
本発明の学習システムは、例えば、創薬スクリーニングで活性化合物を探索するなどのバイオインフォマティクスといった用途に適用できる。特に、本発明の学習システムは、前述のアンバランスなデータや前述の価値の異なるデータを含む複数の候補データから第1候補データを選択するようなデータマイニングといった用途に適用可能である。
1 入力装置
2 データ処理部
3 記憶部
4 出力装置
5 データ処理装置
6 CPU
7 メモリ
21 学習部
22 制御部
23 データ選択部
24 データ更新部
25 データ更新部
31 リサンプリングデータ記憶部
32 学習データ記憶部
33 候補データ記憶部

Claims (9)

  1. コンピュータプログラムが格納された記憶部と、
    前記コンピュータプログラムを実行する処理装置と、
    出力装置と
    を具備し、
    前記処理装置は、
    1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行し、
    前記学習データに対して、入力に対する出力値を表す決定木を、予め定めた決定木生成アルゴリズムを用いて生成し、決定木のそれぞれの葉に対してその葉に該当した前記選択データのうちで予め定めたクラスであるデータ数の割合(葉に該当し予め定めたクラスである前記選択データ数/葉に該当した前記選択データ数)、あるいは、その割合をなました値((葉に該当し予め定めたクラスである前記選択データ数+1)/(葉に該当した前記選択データ数+2)など)を葉の値として計算し、データに対する出力値をそのデータが該当した葉の値とした仮説を生成する(b)処理を実行し、
    前記記憶部には、更に、そのラベルが設定されたデータである複数の候補データが格納され、
    前記処理装置は、
    前記記憶部に格納された前記複数の候補データそれぞれのデータの入力に対し、葉の値という出力値をそれぞれのデータに対するスコアとして計算し、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行し、
    前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行し、
    前記終了条件が満たされないとき、前記(c)、(d)処理を実行する(e)処理を実行し、
    前記終了条件が満たされたとき、前記(d)処理により生成された前記仮説を前記出力装置に出力する(g)処理を実行する
    知識発見システム。
  2. コンピュータプログラムが格納された記憶部と、
    前記コンピュータプログラムを実行する処理装置と、
    出力装置と
    を具備し、
    前記処理装置は、
    1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行し、
    前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、ランダムに選択された同一の部分属性からなる入力と出力との組であるデータに第1回目は全て同じ重みを割り当て、その重み付けられたデータを用いて入力から出力値を出力するような仮説を、予め定めた学習アルゴリズムを用いて生成し、改めてデータの入力から仮説を用いて出力値を計算し、元の出力値と違いがあれば重みを重くし、元の出力値と違いのあるデータ数に応じて仮説に対する重要度を設定するという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行し、
    前記記憶部には、更に、そのラベルが設定されたデータである複数の候補データが格納され、
    前記処理装置は、
    前記記憶部に格納された前記複数の候補データのそれぞれのデータに対し、T個の仮説を用いてT個の出力値を計算し、出力値が関数値の場合はそれら出力値に対し仮説に対する重要度を重みとして重み付き平均を計算してそれぞれのデータに対するスコアとし、出力値がクラス値の場合は、予め定めたクラス値となる重み付き回数(予め定めたクラス値となると重要度を加算してから全重要度で除した値)をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行し、
    前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行し、
    前記終了条件が満たされないとき、前記(c)、(d)処理を実行する(f)処理を実行し、
    前記終了条件が満たされたとき、前記(d)処理により生成された前記T個の仮説を前記出力装置に出力する(g)処理を実行する
    知識発見システム。
  3. コンピュータプログラムが格納された記憶部と、
    前記コンピュータプログラムを実行する処理装置と、
    出力装置と
    を具備し、
    前記処理装置は、
    1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行し、
    前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、更にランダムに選択された同一の属性からなる入力と出力との組であるデータをランダムに選択し、それら選択したデータの入力から出力値を出力するような仮説である決定木を、予め定めた決定木生成アルゴリズムを用いて生成し、決定木のそれぞれの葉に対してその葉に該当した前記選択データのうちで予め定めたクラスであるデータ数の割合(葉に該当し予め定めたクラスである前記選択データ数/葉に該当した前記選択データ数)、あるいは、その割合をなました値((葉に該当し予め定めたクラスである前記選択データ数+1)/(葉に該当した前記選択データ数+2))を葉の値として計算し、データに対する出力値をそのデータが該当した葉の値とするという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行し、
    前記記憶部には、更に、そのラベルが設定されたデータである複数の候補データが格納され、
    前記処理装置は、
    前記記憶部に格納された前記複数の候補データのそれぞれのデータの入力に対し、T個の決定木に対して、T個の出力値を計算し、それら出力値の平均をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行し、
    前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行し、
    前記終了条件が満たされないとき、前記(c)、(d)処理を実行する(e)処理を実行し、
    前記終了条件が満たされたとき、前記(d)処理により生成された前記T個の仮説を前記出力装置に出力する(g)処理を実行する
    知識発見システム。
  4. コンピュータプログラムが格納された記憶部と、前記コンピュータプログラムを実行する処理装置とを具備するコンピュータを用いる学習方法であって、
    1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行するステップと、
    前記学習データに対して、入力に対する出力値を表す決定木を、予め定めた決定木生成アルゴリズムを用いて生成し、決定木のそれぞれの葉に対してその葉に該当した前記選択データのうちで予め定めたクラスであるデータ数の割合(葉に該当し予め定めたクラスである前記選択データ数/葉に該当した前記選択データ数)、あるいは、その割合をなました値((葉に該当し予め定めたクラスである前記選択データ数+1)/(葉に該当した前記選択データ数+2)など)を葉の値として計算し、データに対する出力値をそのデータが該当した葉の値とした仮説を生成する(b)処理を実行するステップと、前記記憶部には、そのラベルが設定されたデータである複数の候補データが格納され、
    前記記憶部に格納された前記複数の候補データそれぞれのデータの入力に対し、葉の値という出力値をそれぞれのデータに対するスコアとして計算し、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行するステップと、
    前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行するステップと、
    前記終了条件が満たされないとき、前記(c)、(d)処理を実行する(e)処理を実行するステップと、
    前記終了条件が満たされたとき、前記(d)処理により生成された前記仮説を前記出力装置に出力する(g)処理を実行するステップと
    を具備する学習方法。
  5. コンピュータプログラムが格納された記憶部と、前記コンピュータプログラムを実行する処理装置とを具備するコンピュータを用いる学習方法であって、
    1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行するステップと、
    前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、ランダムに選択された同一の部分属性からなる入力と出力との組であるデータに第1回目は全て同じ重みを割り当て、その重み付けられたデータを用いて入力から出力値を出力するような仮説を、予め定めた学習アルゴリズムを用いて生成し、改めてデータの入力から仮説を用いて出力値を計算し、元の出力値と違いがあれば重みを重くし、元の出力値と違いのあるデータ数に応じて仮説に対する重要度を設定するという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行するステップと、前記記憶部には、そのラベルが設定されたデータである複数の候補データが格納され、
    前記記憶部に格納された前記複数の候補データのそれぞれのデータに対し、T個の仮説を用いてT個の出力値を計算し、出力値が関数値の場合はそれら出力値に対し仮説に対する重要度を重みとして重み付き平均を計算してそれぞれのデータに対するスコアとし、出力値がクラス値の場合は、予め定めたクラス値となる重み付き回数(予め定めたクラス値となると重要度を加算してから全重要度で除した値)をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行するステップと、
    前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行するステップと、
    前記終了条件が満たされないとき、前記(c)、(d)処理を実行する(f)処理を実行するステップと、
    前記終了条件が満たされたとき、前記(d)処理により生成された前記T個の仮説を前記出力装置に出力する(g)処理を実行するするステップと
    を具備する学習方法。
  6. コンピュータプログラムが格納された記憶部と、前記コンピュータプログラムを実行する処理装置とを具備するコンピュータを用いる学習方法であって、
    1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行するステップと、
    前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、更にランダムに選択された同一の属性からなる入力と出力との組であるデータをランダムに選択し、それら選択したデータの入力から出力値を出力するような仮説である決定木を、予め定めた決定木生成アルゴリズムを用いて生成し、決定木のそれぞれの葉に対してその葉に該当した前記選択データのうちで予め定めたクラスであるデータ数の割合(葉に該当し予め定めたクラスである前記選択データ数/葉に該当した前記選択データ数)、あるいは、その割合をなました値((葉に該当し予め定めたクラスである前記選択データ数+1)/(葉に該当した前記選択データ数+2))を葉の値として計算し、データに対する出力値をそのデータが該当した葉の値とするという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行するステップと、前記記憶部には、そのラベルが設定されたデータである複数の候補データが格納され、
    前記記憶部に格納された前記複数の候補データのそれぞれのデータの入力に対し、T個の決定木に対して、T個の出力値を計算し、それら出力値の平均をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行するステップと、
    前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行するステップと、
    前記終了条件が満たされないとき、前記(c)、(d)処理を実行する(e)処理を実行するステップと、
    前記終了条件が満たされたとき、前記(d)処理により生成された前記T個の仮説を前記出力装置に出力する(g)処理を実行するするステップと
    を具備する学習方法。
  7. コンピュータプログラムが格納された記憶部と、前記コンピュータプログラムを実行する処理装置とを具備するコンピュータを用いる学習方法を、前記コンピュータに実行させる学習プログラムであって、
    1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行するステップと、
    前記学習データに対して、入力に対する出力値を表す決定木を、予め定めた決定木生成アルゴリズムを用いて生成し、決定木のそれぞれの葉に対してその葉に該当した前記選択データのうちで予め定めたクラスであるデータ数の割合(葉に該当し予め定めたクラスである前記選択データ数/葉に該当した前記選択データ数)、あるいは、その割合をなました値((葉に該当し予め定めたクラスである前記選択データ数+1)/(葉に該当した前記選択データ数+2)など)を葉の値として計算し、データに対する出力値をそのデータが該当した葉の値とした仮説を生成する(b)処理を実行するステップと、前記記憶部には、そのラベルが設定されたデータである複数の候補データが格納され、
    前記記憶部に格納された前記複数の候補データそれぞれのデータの入力に対し、葉の値という出力値をそれぞれのデータに対するスコアとして計算し、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行するステップと、
    前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行するステップと、
    前記終了条件が満たされないとき、前記(c)、(d)処理を実行する(e)処理を実行するステップと、
    前記終了条件が満たされたとき、前記(d)処理により生成された前記仮説を前記出力装置に出力する(g)処理を実行するステップと
    の各ステップを前記コンピュータに実行させる学習プログラム。
  8. コンピュータプログラムが格納された記憶部と、前記コンピュータプログラムを実行する処理装置とを具備するコンピュータを用いる学習方法を、前記コンピュータに実行させる学習プログラムであって、
    1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行するステップと、
    前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、ランダムに選択された同一の部分属性からなる入力と出力との組であるデータに第1回目は全て同じ重みを割り当て、その重み付けられたデータを用いて入力から出力値を出力するような仮説を、予め定めた学習アルゴリズムを用いて生成し、改めてデータの入力から仮説を用いて出力値を計算し、元の出力値と違いがあれば重みを重くし、元の出力値と違いのあるデータ数に応じて仮説に対する重要度を設定するという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行するステップと、前記記憶部には、そのラベルが設定されたデータである複数の候補データが格納され、
    前記記憶部に格納された前記複数の候補データのそれぞれのデータに対し、T個の仮説を用いてT個の出力値を計算し、出力値が関数値の場合はそれら出力値に対し仮説に対する重要度を重みとして重み付き平均を計算してそれぞれのデータに対するスコアとし、出力値がクラス値の場合は、予め定めたクラス値となる重み付き回数(予め定めたクラス値となると重要度を加算してから全重要度で除した値)をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行するステップと、
    前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行するステップと、
    前記終了条件が満たされないとき、前記(c)、(d)処理を実行する(f)処理を実行するステップと、
    前記終了条件が満たされたとき、前記(d)処理により生成された前記T個の仮説を前記出力装置に出力する(g)処理を実行するするステップと
    の各ステップを前記コンピュータに実行させる学習プログラム。
  9. コンピュータプログラムが格納された記憶部と、前記コンピュータプログラムを実行する処理装置とを具備するコンピュータを用いる学習方法を、前記コンピュータに実行させる学習プログラムであって、
    1つ以上のデータの特徴を示す属性である入力とクラスである出力との組で表現され、且つ、その出力の具体的な値を示すラベルが設定された学習データと、終了条件とを入力する(a)処理を実行するステップと、
    前記学習データに対して、入力である複数の属性の中から一部の属性をランダムに選択し、更にランダムに選択された同一の属性からなる入力と出力との組であるデータをランダムに選択し、それら選択したデータの入力から出力値を出力するような仮説である決定木を、予め定めた決定木生成アルゴリズムを用いて生成し、決定木のそれぞれの葉に対してその葉に該当した前記選択データのうちで予め定めたクラスであるデータ数の割合(葉に該当し予め定めたクラスである前記選択データ数/葉に該当した前記選択データ数)、あるいは、その割合をなました値((葉に該当し予め定めたクラスである前記選択データ数+1)/(葉に該当した前記選択データ数+2))を葉の値として計算し、データに対する出力値をそのデータが該当した葉の値とするという一連の処理をT回(Tは1以上の整数)行って、T個の仮説を生成する(b)処理を実行するステップと、前記記憶部には、そのラベルが設定されたデータである複数の候補データが格納され、
    前記記憶部に格納された前記複数の候補データのそれぞれのデータの入力に対し、T個の決定木に対して、T個の出力値を計算し、それら出力値の平均をそれぞれのデータに対するスコアとし、スコアから選択確率を計算するような予め定めた関数を用いて、前記複数の候補データの中から、選択候補データを選択する(c)処理を実行するステップと、
    前記選択候補データを前記学習データに付加して前記(b)処理を実行する(d)処理を実行するステップと、
    前記終了条件が満たされないとき、前記(c)、(d)処理を実行する(e)処理を実行するステップと、
    前記終了条件が満たされたとき、前記(d)処理により生成された前記T個の仮説を前記出力装置に出力する(g)処理を実行するするステップと
    の各ステップを前記コンピュータに実行させる学習プログラム。
JP2009170637A 2009-07-21 2009-07-21 学習システム Expired - Fee Related JP5126694B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009170637A JP5126694B2 (ja) 2009-07-21 2009-07-21 学習システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009170637A JP5126694B2 (ja) 2009-07-21 2009-07-21 学習システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003338793A Division JP2005107743A (ja) 2003-09-29 2003-09-29 学習システム

Publications (2)

Publication Number Publication Date
JP2009301557A true JP2009301557A (ja) 2009-12-24
JP5126694B2 JP5126694B2 (ja) 2013-01-23

Family

ID=41548332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009170637A Expired - Fee Related JP5126694B2 (ja) 2009-07-21 2009-07-21 学習システム

Country Status (1)

Country Link
JP (1) JP5126694B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013058095A (ja) * 2011-09-08 2013-03-28 Sony Corp 情報処理装置、推定機生成方法、及びプログラム
US20170004306A1 (en) * 2015-06-30 2017-01-05 Iyuntian Co., Ltd. Method, apparatus and terminal for detecting a malware file
WO2024105824A1 (ja) * 2022-11-16 2024-05-23 富士通株式会社 バイアス評価プログラム、装置、及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316754A (ja) * 1998-05-06 1999-11-16 Nec Corp 実験計画法及び実験計画プログラムを記録した記録媒体
JP2001229026A (ja) * 1999-12-09 2001-08-24 Nec Corp 知識発見方式
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316754A (ja) * 1998-05-06 1999-11-16 Nec Corp 実験計画法及び実験計画プログラムを記録した記録媒体
JP2001229026A (ja) * 1999-12-09 2001-08-24 Nec Corp 知識発見方式
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013058095A (ja) * 2011-09-08 2013-03-28 Sony Corp 情報処理装置、推定機生成方法、及びプログラム
US20170004306A1 (en) * 2015-06-30 2017-01-05 Iyuntian Co., Ltd. Method, apparatus and terminal for detecting a malware file
JP2017016626A (ja) * 2015-06-30 2017-01-19 安一恒通(北京)科技有限公司 悪質な脆弱性のあるファイルを検出する方法、装置及び端末
US10176323B2 (en) * 2015-06-30 2019-01-08 Iyuntian Co., Ltd. Method, apparatus and terminal for detecting a malware file
WO2024105824A1 (ja) * 2022-11-16 2024-05-23 富士通株式会社 バイアス評価プログラム、装置、及び方法

Also Published As

Publication number Publication date
JP5126694B2 (ja) 2013-01-23

Similar Documents

Publication Publication Date Title
JP2005107743A (ja) 学習システム
KR102107378B1 (ko) 하이퍼파라미터 자동 최적화 방법 및 그 장치
US11468366B2 (en) Parallel development and deployment for machine learning models
US11423082B2 (en) Methods and apparatus for subgraph matching in big data analysis
Aydin et al. Learning sparse models for a dynamic Bayesian network classifier of protein secondary structure
JP7215077B2 (ja) 予測プログラム、予測方法及び予測装置
JP6470165B2 (ja) サーバ、システム及び探索方法
JP6751376B2 (ja) 最適解探索方法、最適解探索プログラム及び最適解探索装置
US7636706B2 (en) Parameter adjustment device
KR20210124109A (ko) 정보 처리, 정보 추천의 방법과 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
Faerman et al. Lasagne: Locality and structure aware graph node embedding
Trinh et al. A novel constrained genetic algorithm-based Boolean network inference method from steady-state gene expression data
JP5126694B2 (ja) 学習システム
WO2022166125A1 (en) Recommendation system with adaptive weighted baysian personalized ranking loss
Bouzbita et al. Hidden Markov model classifier for the adaptive ACS-TSP Pheromone parameters
Wang et al. Lnetwork: an efficient and effective method for constructing phylogenetic networks
JP6743902B2 (ja) マルチタスク関係学習システム、方法およびプログラム
CN111126443A (zh) 基于随机游走的网络表示学习方法
WO2011016281A2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
Ni et al. Models and algorithm for the orienteering problem in a fuzzy environment
JP2016207136A (ja) モデル推定システム、モデル推定方法およびモデル推定プログラム
US11868885B2 (en) Learning device, inference device, learning method, and inference method using a transformation matrix generated from learning data
WO2021226709A1 (en) Neural architecture search with imitation learning
Meng et al. Learning non-stationary dynamic Bayesian network structure from data stream
Zhao et al. CDSFM: a circular distributed SGLD-based factorization machines

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees