JP2007304782A - データセット選択装置および実験計画システム - Google Patents

データセット選択装置および実験計画システム Download PDF

Info

Publication number
JP2007304782A
JP2007304782A JP2006131512A JP2006131512A JP2007304782A JP 2007304782 A JP2007304782 A JP 2007304782A JP 2006131512 A JP2006131512 A JP 2006131512A JP 2006131512 A JP2006131512 A JP 2006131512A JP 2007304782 A JP2007304782 A JP 2007304782A
Authority
JP
Japan
Prior art keywords
data
data set
prediction
unit
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006131512A
Other languages
English (en)
Other versions
JP5167596B2 (ja
Inventor
Tsutomu Osouda
勉 襲田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006131512A priority Critical patent/JP5167596B2/ja
Publication of JP2007304782A publication Critical patent/JP2007304782A/ja
Application granted granted Critical
Publication of JP5167596B2 publication Critical patent/JP5167596B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】予めデータセットが定義されている複数のデータに対して能動学習法による実験計画を適用可能とするデータセット選択装置を提供する。
【解決手段】複数の属性値および対応する既知の出力値を含む訓練データのデータセット、および予め準備された複数の属性値に対応する未知の出力値を求めるための予測データのデータセットを受け付けるデータ入力受付部102と、訓練データの複数の属性値に対応する出力値の対応関係を、複数の予測アルゴリズムを含む能動学習装置30を用いて学習させ、学習された複数の対応関係を用いて、予測データに対応する出力値を予測させ、複数の予測アルゴリズムの複数の予測結果値を取得する予測結果受信部110と、取得した複数の予測アルゴリズムによる複数の予測結果値のばらつきが対応する予測データのデータセット内で大きいものを選択し、実験候補データとして抽出する抽出部116と、を備える。
【選択図】図3

Description

本発明は、データセット選択装置および実験計画システムに関し、特に、予めデータセットが定義されている複数のデータに対して能動学習法による実験計画を適用可能にするデータセット選択装置および実験計画システムに関する。
能動学習法は、少ないデータ数で高い精度を持つ予測を達成できる方法として知られており、非常に適用範囲が広い方法である。少し趣を変え、この方法を実験計画の効率化のために使うこともできる。具体的には、既に結果の分かっているデータを訓練データとして使い、結果が未知のデータを予測データとして使い学習を行うことで、少ないデータ数で高精度に予測を行うことができるようになり実験を効率的に行うことができる。
能動学習法とは、たとえば、創薬開発の現場などで、数十万から数百万個の全化合物の中からターゲットに対する活性を有する化合物を探索する必要があるような場合に、実際には数十万個もの全化合物に対して実測を行うことが不可能であるため、実測と学習とを繰り返すことでより少ない実測回数で高速に学習を行い、結果を得ることを可能とする手法である。あるいは、学習され、実験候補データとして出力されたものに従って行う実験の手順を示す実験計画法と言うこともできる。
従来の能動学習システムとしては、たとえば特許文献1に記載されたものがある。
主な能動学習法としては、たとえば、Query by boosting法(以下、「ブースティング法」と呼ぶ)、Query By Committee法(以下、「コミッティ法」と呼ぶ)、およびQuery By Bagging法(以下、「バギング法」と呼ぶ)などがある。(たとえば、非特許文献1参照。)
従来の能動学習システムでは、訓練データに基づいて、入力値と出力値の間に成り立つ関数を学習し、学習された関数に基づいて、評価データの入力値から予測出力値を求め、予測結果として出力するものである。
特開2005−107743号公報 森下慎一編集、宮野悟編集、「発見科学とデータマイニング」、初版、共立出版、2001年6月、p.318
しかしながら、上記文献記載の従来技術は、以下の点で改善の余地を有していた。
データの予測は個々のデータに対して実施されており、データセットと個々のデータを関連付けるためのシステムが存在してなかったため、いくつかのデータが一つの集合をなすようなデータセットに対しては適用することができなかった。
本発明は上記事情に鑑みてなされたものであり、その目的とするところは、予めデータセットが定義されている複数のデータに対して能動学習法による実験計画を適用可能とするデータセット選択装置を提供することにある。
本発明によれば、複数の属性値および前記複数の属性値に対応する既知の出力値を含む訓練データを複数含むデータセットを受け付ける訓練データ受付部と、
予め準備された複数の属性値を含み、前記複数の属性値に対応する未知の出力値を求めるための予測データを複数含むデータセットを受け付ける予測データ受付部と、
前記データセットの前記訓練データの前記複数の属性値に対応する前記出力値の対応関係を、異なる複数の予測アルゴリズムを含む能動学習装置を用いて、前記複数の予測アルゴリズムでそれぞれ学習させる能動学習制御部と、
前記複数の予測アルゴリズムによりそれぞれ学習された複数の前記対応関係を用いて、前記予測データに対応する出力値を予測し、予測結果値として前記複数の予測アルゴリズム毎に複数取得する予測結果取得部と、
前記予測結果取得部が取得した前記複数の予測アルゴリズムによる複数の前記予測結果値のばらつきが対応する前記予測データの前記データセット内で大きいものを選択し、複数の実験候補データを含むデータセットとして抽出する抽出部と、を備えることを特徴するデータセット選択装置が提供される。
訓練データおよび予測データの属性値とは、たとえば、化合物の分子量、所定の置換基の有無、配列または配置、疎水性、または回転結合数などを含むことができる。訓練データの既知および予測データの未知の出力値とは、上記の属性値を有する化合物の所定の活性の有無を示す実数値または所定の閾値で2値化された値で示すことができる。データセットとは、たとえば、プレート上に配置された複数の化合物の属性値と出力値の複数の組を含む。
能動学習装置は、異なる複数の予測アルゴリズムを用いて学習をそれぞれ行う。各予測アルゴリズムは、複数のソフトウェアにより実現することができる。能動学習装置は、これらの複数のソフトウェアをそれぞれ実行する複数の学習機械より構成することができる。あるいは、複数のソフトウェアを1つの学習装置によりそれぞれ実行させる構成とすることもできる。
複数の予測アルゴリズムによって学習させた複数の予測結果は、集計され、分散値が算出される。そして、予測結果の中から目的とする分布を有するデータセットを抽出する。
この発明によれば、複数のデータを含むデータセットに対して能動学習法による実験計画を適用することが可能となる。たとえば、複数の化合物が配置されたプレートにHTSを行い、ターゲットに対する活性を有する化合物を探索するような場合に、複数のプレートの中から適切なプレートを選び出し、できる限り少ない回数で、精度の良い予測結果を得ることが可能となる。
上記データセット選択装置において、前記抽出部は、前記予測結果取得部が取得した前記複数の予測結果値の前記データセットを所定の手順でそれぞれ集計してパラメータ化し、前記パラメータの値が所定の閾値を超えるものを最適な集計結果として選択し、該選択された集計結果に対応する前記予測結果値の前記予測データのデータセットを前記実験候補データとして抽出することができる。
上記データセット選択装置において、前記抽出部は、前記予測結果取得部が取得した前記複数の予測結果値の前記データセット毎に合計または平均値を算出する合計算出部と、前記複数の予測結果値の前記データセット毎の前記合計または前記平均値の分散値を算出する分散算出部と、前記分散値が所定の閾値以上か否かを判別する判別部と、を含むことができ、前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することができる。
この構成によれば、予測結果が閾値以上、すなわち均一な結果が得られなかったデータセットを前記実験候補データとして選択することができる。これにより、効率の良い実験計画が可能となる。
上記データセット選択装置において、前記抽出部は、前記分散値を所定の定義に従って、優先順位付けし、前記優先順位付けられた優先順位の高い予測結果に該当する前記データセットを順次前記実験候補データとして抽出することができる。
上記データセット選択装置において、前記抽出部は、前記パラメータの値の所定の頻度分布の指定を受け付ける頻度分布受付部と、前記予測結果取得部が取得した前記複数の予測結果値の前記データセットの前記パラメータの値を前記頻度分布と比較して、前記頻度分布に近似する前記パラメータの値の個数を前記データセット毎に合計または平均値を算出する算出部と、前記算出部によって算出された前記合計または前記平均値が所定の閾値以上か否かを判定する分布判定部を含むことができ、前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することができる。
上記データセット選択装置において、前記抽出部のいずれで前記データセットを抽出するかの指定をユーザから受け付ける方法受付部を備えることができ、前記方法受付部が受け付けた前記抽出部で前記データセットを抽出することができる。
上記データセット選択装置において、前記訓練データ受付部が受け付けた前記訓練データを記憶する訓練データ記憶部と、前記抽出部が抽出した一つ以上の前記実験候補データを実測装置に送信する実験候補データ送信部と、前記実測装置にて前記実験候補データに基づいて実測された実測値を受信する実測値受信部と、前記実測値受信部が受信した前記実測値を前記実験候補データの前記データセットに対応付けて前記訓練データ記憶部の前記訓練データを更新する更新部と、を備えることができる。
この構成によれば、実測値を実験候補データに対応付けて、新たな訓練データとしてさらに能動学習を繰り返すことにより、精度の高い予測値を求めることができる。
上記データセット選択装置において、前記実測装置は、被検用プレートに含まれる複数の化合物の活性を測定し、前記訓練データ受付部は、複数の化合物の属性値および既知の活性を予め訓練データとして受け付け、前記訓練データ記憶部に記憶し、前記予測データ受付部は、複数の化合物を含む複数の被検用プレートの予測データのデータセットをそれぞれ受け付けることができる。
本発明によれば、前記データセット選択装置と、前記複数の予測アルゴリズムを含む前記能動学習装置と、を備える実験計画システムが提供される。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、予めデータセットが定義されている複数のデータに対して能動学習システムによる実験計画を適用可能とするデータセット選択装置が提供される。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
図1は、本発明の実施の形態に係る実験計画システムの概略構成を示すブロック図である。本実施形態の実験計画システム1は、複数の属性値および複数の属性値に対応する既知の出力値を含む訓練データ11を複数含むデータセットを受け付ける訓練データ受付部(入力装置10)と、予め準備された複数の属性値を含み、複数の属性値に対応する未知の出力値を求めるための予測データ13を複数含むデータセットを受け付ける予測データ受付部(入力装置10)と、データセットの訓練データ11の複数の属性値に対応する出力値の対応関係を、異なる複数の予測アルゴリズムを含む能動学習装置30を用いて、複数の予測アルゴリズムでそれぞれ学習させる能動学習制御部(制御部100)と、複数の予測アルゴリズムによりそれぞれ学習された複数の対応関係を用いて、予測データ13に対応する出力値を予測し、予測結果値として複数の予測アルゴリズム毎に複数取得する予測結果取得部(制御部100)と、予測結果取得部が取得した複数の予測アルゴリズムによる複数の予測結果値のばらつきが対応する予測データ13のデータセット内で大きいものを選択し、複数の実験候補データを含むデータセットとして抽出する抽出部(制御部100)と、を備える。
ここで、能動学習法とは、予め準備された訓練データから複数の記述子と値を関連付ける関数を学習し、学習した関数に基づいて、結果が未知の予測データを選択的に作成するものである。予測データは、できる限り少ないデータ数で高精度に予測を行うことができるようなデータが選択されるのが好ましく、それにより実験を効率的に行うことができ、工数およびコスト削減が図れる。
特に本実施形態の実験計画システム1は、創薬開発現場などで、数十万から数百万個もの化合物の中からターゲットに対する活性を有する化合物を探索する際、化合物が予め配置される複数のウェル(本実施形態では、96ウェル)が形成されたプレートを用いて、実測装置でハイスループットスクリーニング(HTS:High Throughput Screening)を行う場合に適用するのに好適である。
能動学習装置30は、ブースティング法、コミッティ法、およびバギング法などを用いてそれぞれ学習を行うことが可能である。学習されるルールは、明示的なものであっても暗黙的なものであってもよい。本実施形態の実験計画システム1では、ユーザより予め指定された手法を用いて能動学習を行う。
たとえば、ブースティング法は誤った学習データを正しい学習が行われるまで重点的に学習し直す方法で、他とは異なった特異的な性質の学習に向いているとされる方法である。また、バギング法は訓練データの中からランダムにサンプリングを行って学習を行う方法でノイズデータを含むような訓練データの学習に向いているとされる方法である。状況に応じて手法を選択する必要がある。
また、各手法は所定のアルゴリズムによるプログラムをコンピュータが実行することにより実現される。能動学習装置30は、ユーザによって指定された手法に対応する複数の異なるアルゴリズムを用いて学習をそれぞれ行う複数の学習機械(不図示)をさらに含む。異なるアルゴリズムによって学習された結果は、それぞれ異なる結果が得られる可能性がある。
本発明の実施の形態の実験計画システム1では、データセット形式の訓練データを用いて学習させ、複数の学習機械の結果が一様にならないデータセット形式の予測データを選択するものである。これにより、同じような結果に基づく学習を繰り返す場合に比べて、能動学習装置30は、学習を効果的に行うことが可能となる。
本実施形態において、訓練データおよび予測データは、たとえばプレートに形成された複数のウェルの個数分(96個)の複数のデータからなるデータセット形式とすることができる。これにより、能動学習装置30が訓練データを用いて学習をする際、多数のプレートの中からより効果的な結果が期待されるプレート(データセット)を選び出し、できる限り少ない測定回数でHTSを行うことが可能となり、実験効率が向上する。
なお、以下に示す各図において、本発明の本質に関わらない部分の構成については省略してある。
また、実験計画システム1の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
具体的には、図1に示すように、本実施形態の実験計画システム1は、入力装置10と、データセット選択装置20と、能動学習装置30と、実測装置40と、を備える。データセット選択装置20は、入力装置10、能動学習装置30、および実測装置40と、ネットワークやシリアルあるいはパラレル通信ケーブルにより電気的に接続され、有線または無線通信を行う。すなわち、入力装置10、データセット選択装置20、能動学習装置30、および実測装置40は、互いに通信可能なインタフェース部(不図示)をそれぞれ含む。
入力装置10は、キーボード、マウス、操作ボタン、スイッチ、レバー、タッチパネルなどのユーザが操作可能な操作入力部(不図示)、あるいは、ネットワークや他の通信手段(シリアルまたはパラレル通信)を用いて他の記憶媒体あるいは記憶装置から有線または無線通信により受信する通信部(不図示)を含む。
入力装置10は、訓練データ11、予測データ13、プレート情報15、データ分布17、および制御パラメータ19を入力し、データセット選択装置20に出力する。本実施形態において、入力装置10に入力される訓練データ11は、下記の式(1)のフォーマットを有する。
Dj=(記述子1j,記述子2j,記述子3j,・・・,記述子Nj,値j) ・・・ 式(1)
ここで、jは1〜Mの自然数である。Nも自然数であり、訓練データDjの複数の記述子の個数(種類)を示している。このように訓練データDjは、複数の記述子および複数の記述子に対応する値を有する。
予測データ13は、下記の式(2)のフォーマットを有する。
Pj=(記述子1j,記述子2j,記述子3j,・・・,記述子Nj) ・・・ 式(2)
本実施形態では、訓練データ11および予測データ13の記述子は、文字列または数値から構成することができる。訓練データ11および予測データ13の記述子は、たとえば、化合物の分子量や特定の置換基の有無とその配置を示すビット列、疎水性の有無、回転結合数などを含む各種の属性パラメータで示すことができる。また、訓練データ11の値は、少なくとも一つのターゲットに対する活性の有無を数値化したパラメータで示すことができ、たとえば、実数値または2値化された離散値で示すことができる。なお、以下の説明において、活性がある化合物を「正例」、および活性がない化合物を「負例」とも呼ぶものとする。
本実施形態において、訓練データ11および予測データ13の区切り記号として","(カンマ)を使用しているが、必ずしもこれでなくてもよく":"(コロン)や" "(スペース)などでもよい。また、全体は、括弧で区切られているが、必ずしもデータはこのような形式でなくてもよく、一つ一つのデータが区別できるような形式になっていればよい。
プレート情報15とは、各プレート(データセット)の情報であり、下記の式(3)で示される添え字によって定義された添え字集合Skで示すことができる。
Sk={Sk1,Sk2,・・・,SkNk} ・・・ 式(3)
ここで、kは1〜Kの自然数である。すなわち、ここでは、K個のデータセットが存在するものとする。添え字集合Skの添え字を持つデータセットをDSkと定義する。
また、添え字集合Skについては1行目のデータが"1"、2行目のデータが"2"、3行目のデータが"3"などのように対応付けがなされている。
データ分布17は、各プレート(データセット)の中から、選択すべきプレートのデータ分布を記述したデータである。図2(a)〜図2(d)に、データ分布17の例として、複数の異なるターゲットに対する活性、たとえば、活性A、活性B、活性Cを有する化合物が1つのプレート(データセット)内に、どのような分布で含まれているかを示している。なお、図2では理解しやすいように模式的にグラフで示したが、実際にはデータテーブル形式、あるいは、分布を数値化したもの、たとえば、各活性の分布の標準偏差の二乗などの値とすることができる。また、図2では、4種類の分布の例のみ図示しているが、実際にはそれ以上の種類の分布を含むことができる。
制御パラメータ19は、データセット選択装置20を制御するための各種パラメータである。パラメータは、たとえば、能動学習装置30の上述した能動学習の手法のいずれを用いるかの指定を含むことができる。あるいは、能動学習装置30に含まれる複数の学習機械から得られた複数の異なる予測結果の集計方法および予測データの抽出方法などの指定を含むことができる。
データセット選択装置20は、制御部100と、訓練データ記憶装置21と、予測データ記憶装置23と、データセット記憶装置25と、出力データ分布記憶装置27と、実験候補記憶装置29と、を含む。
制御部100は、データセット選択装置20の各要素とともに装置全体を制御する。詳細については、後述する。データセット選択装置20は、入力装置10から訓練データ11、予測データ13、プレート情報15、およびデータ分布17を入力し、訓練データ記憶装置21、予測データ記憶装置23、データセット記憶装置25、および出力データ分布記憶装置27にそれぞれ記憶する。なお、入力装置10から入力された制御パラメータ19は、後述するパラメータ記憶部に記憶される。
出力データ分布記憶装置27は、入力装置10から入力されたデータ分布17を記憶する。実験候補記憶装置29は、能動学習装置30から入力された予測値およびその分散値に基づいて、抽出された予測データを実験候補データとして記憶する。詳細については後述する。
上述したように、データセット選択装置20は、データセット形式の訓練データ11および予測データ13を能動学習装置30に送信し、能動学習装置30に能動学習を行わせる。能動学習装置30より結果として得られた予測値およびその分散値を受信し、その予測値および分散値に基づいて抽出された予測データを実験候補データとして実験候補記憶装置29に記憶する。そして、データセット選択装置20は、実験候補記憶装置29の実験候補データを実測装置40に送信する。
能動学習装置30は、上式(1)のフォーマットの訓練データ11、すなわち複数の記述子と値を含む訓練データ11のデータセットDSkをデータセット選択装置20から受信し、データセットに含まれる複数の訓練データ11について、複数の記述子と値とを関連付ける関数(ルール)を学習する。能動学習装置30は、入力装置10が受け付けた制御パラメータ19によって指定された手法を用いた複数の学習機械により複数の訓練データ11のデータセットについて学習を行う。
能動学習装置30は、訓練データ11(データセット)によって複数の学習機械がそれぞれ学習した複数の関数を用いて、予測データの複数の記述子に対応する予測値を複数出力する。能動学習装置30は、得られた複数の予測値と、複数の予測値からさらに後述する所定の手順によって算出された予測値および分散値をデータセット選択装置20に結果として出力する。
実測装置40は、データセット選択装置20が選択したデータセット(プレート)をセットし、HTSを行い、ターゲットに対する活性の有無を検査し、探索する。あるいは、実測装置40は、データセット選択装置20から出力された実験候補データのデータセットを入力し、HTSを行い、ターゲットに対する活性の有無を検査し、探索する。すなわち、シミュレーションすることができる。
実測装置40にて実測またはシミュレーションして得られた結果は、データセット選択装置20に出力され、新たな訓練データが作成され、訓練データ記憶装置21に追加される。データセット選択装置20は、新たに追加された訓練データ11をさらに用いて、能動学習装置30に学習させ、所望の結果が高い精度で得られるまで、繰り返させる。
図3は、本実施形態のデータセット選択装置20の制御部100の構成の詳細を示す機能ブロック図である。
制御部100は、データ入力受付部102と、パラメータ記憶部104と、データ・パラメータ送信部106と、予測結果受信部110と、予測結果記憶部112と、集計部114と、抽出部116と、実験候補データ送信部120と、実測値受信部130と、実測値記憶部132と、更新部134と、を含む。
データ入力受付部102は、訓練データ11、予測データ13、プレート情報15、データ分布17、および制御パラメータ19の入力を入力装置10から受け付け、訓練データ記憶装置21、予測データ記憶装置23、データセット記憶装置25、出力データ分布記憶装置27、およびパラメータ記憶部104にそれぞれ記憶する。
データ・パラメータ送信部106は、パラメータ記憶部104に記憶されたパラメータに従って、能動学習装置30に使用する複数のアルゴリズムの指示と、訓練データ記憶装置21および予測データ記憶装置23にそれぞれ記憶された訓練データ11および予測データ13と、プレート情報15とを能動学習装置30に送信する。また、データ・パラメータ送信部106は、能動学習装置30に送信した予測データ13を予測データ記憶装置23から削除する。さらに、データ・パラメータ送信部106は、能動学習装置30に送信した訓練データ11を予測結果受信部110に通知する。
能動学習装置30では、上述したように、データセット選択装置20から送信された指示に従って、複数のアルゴリズムを用いて、データセットDSkからなる訓練データDjの複数の記述子Njと値jの間に成り立つ関数を学習する。さらに、複数の学習機械で学習された複数の関数をそれぞれ用いて、データセット選択装置20から送信された予測データPjのデータセットに対する予測値をそれぞれ取得し、予測結果データセットとして、データセット選択装置20に出力する。
予測結果受信部110は、能動学習装置30から複数の予測結果のデータセットを受信し、予測結果記憶部112に記憶する。上述したように、能動学習装置30は複数の学習機械を含み、データセット選択装置20から送信した予測データ13について、指定された複数の学習機械を用いて予測された複数の予測結果データをそれぞれ受信する。予測結果受信部110は、データ・パラメータ送信部106から通知された訓練データ11を実験候補記憶装置29に後で予測結果と対応付けて記憶可能なように実験候補記憶装置29に記憶する。
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、予測結果取得部(予測結果受信部110)が取得した複数の予測結果値のデータセットを所定の手順でそれぞれ集計してパラメータ化し、パラメータの値が所定の閾値を超えるものを最適な集計結果として選択し、該選択された集計結果に対応する予測結果値の予測データのデータセットを実験候補データとして抽出する。
詳細には、集計部114は、予測結果受信部110が能動学習装置30から受信した複数の学習機械の複数の予測結果データをデータセット毎に集計し、データ分布(分散)を算出する。抽出部116は、集計部114が取得したデータ分布に基づいて、予測データ記憶装置23から対応する予測データ13のデータセットを抽出し、実験候補記憶装置29に記憶する。実験候補記憶装置29に記憶された予測データ13のデータセットは、予測データ記憶装置23から削除される。
集計部114におけるデータの集計方法および抽出部116におけるデータセットの抽出方法としては複数の手法を備えている。各手法の説明に先立ち用語の定義をする。ここで、各予測結果をvi(i=1,2,・・・,Nm)とし、平均値aveを下記の式(4)とする。
ave=(v1+v2+・・・+VNm)/Nm ・・・ 式(4)
予測が連続値の場合と離散値の場合で定義式が下記に示すように異なる。
連続値の場合は、下記の式(5)となる。
分散=((v1−ave)*(v1−ave)+(v2−ave)*(v2−ave)+・・・
+(vNm−ave)*(vNm−ave))/Nm ・・・ 式(5)
ここでは、分散を式(5)のように定義しているがこれに限定されない。たとえば、式(5)の定数倍など、定性的な性質が変わらないような指標で定義されていてもよい。
一方、離散値の場合には別の定義式、下記の式(6)および式(7)を用いる。
ここで、平均はクラスiに分類された頻度が最大のもののクラスを平均値とする。
分散は以下のように定義する。
pi=(i番目のクラスに分類された個数)/Nm ・・・ 式(6)
var=p1*log(p1)+p2*log(p2)+・・・
+pn*log(pn) ・・・ 式(7)
ただしpi=0の時にはp2*log(p2)=0とする。このときも同様に定数倍など定性的な性質が変わらないような指標で定義されていてもよい。
以下に、集計部114におけるデータの複数の集計方法について、それぞれ説明する。
(1)平均する方法
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、予測結果取得部(予測結果受信部110)が取得した複数の予測結果値のデータセット毎に合計または平均値を算出する合計算出部(集計部114)と、複数の予測結果値のデータセット毎の合計または平均値の分散値を算出する分散算出部(集計部114)と、分散値が所定の閾値以上か否かを判別する判別部(抽出部116)と、を含み、抽出部(集計部114および抽出部116)は、判別部(抽出部116)が閾値以上と判別した予測結果値に該当するデータセットを実験候補データとして抽出する。
詳細には、データiに対して複数の予測結果の平均もしくは分散の値viを計算することができる。あらかじめ定義されたデータセットごとにそれらの値の平均を求める方法である。つまり以下のように計算を行う。
AveDj=(v(Sk1)+・・・+v(SkNk))/(Nk) ・・・式(8)
それぞれの結果の大小関係を保つような変形もここでは含まれているとする。
(2)値の小さなデータから順番に番号をつけていき、その番号を平均する方法
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、分散値を所定の定義に従って、優先順位付けし、優先順位付けられた優先順位の高い予測結果値に該当するデータセットを順次前記実験候補データとして抽出する。
詳細には、各データiの平均もしくは分散の値viを計算し、その値の小さな順に並び替え、その順番で1から順に番号N(vi)を割り当てることができる。あらかじめ定められたデータセットに対して下記の式(9)を計算することができる。
N(vi(S1))+・・・+N(vi(Skk))/(kk) ・・・式(9)
なお、それぞれの結果の大小関係を保つような変形もここでは含まれているとする。ここで定義された値が大きなものから順に優先順位付けを行い、優先度の高いものから順に出力する。
(3)ある特定のデータ分布に近いデータセットに優先順位を付与する方法
この手法の説明を行う前にデータの記述方法について説明を行う。
(i)離散値の予測を行う場合
頻度そのもののヒストグラムとして表現することができる。たとえばクラスa1,a2,・・・,anを予測するシステムであれば、以下のようにヒストグラムを表現することができる。
(予測値=a1の頻度,予測値=a2の頻度,・・・,予測値=anの頻度)
なお、以下に示す方法は、上記表現方法を含んでいるとも言えるが、上記方法は2つのパラメータによって簡単に表現することが可能であるため、敢えて上記と分けて考えることにする。
(ii)連続値の予測を行う場合
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、パラメータの値の所定の頻度分布の指定を受け付ける頻度分布受付部(データ入力受付部102)と、予測結果取得部(予測結果受信部110)が取得した複数の予測結果値のデータセットのパラメータの値を頻度分布と比較して、頻度分布に近似するパラメータの値の個数をデータセット毎に合計または平均値を算出する算出部(集計部114)と、算出部(集計部114)によって算出された合計または平均値が所定の閾値以上か否かを判定する分布判定部(抽出部116)を含むことができ、抽出部(集計部114および抽出部116)は、判別部(抽出部116)が閾値以上と判別した予測結果値に該当するデータセットを実験候補データとして抽出する。
詳細には、クラス分けの場合と同様に、結果の予測値をある区間で区切り、ヒストグラムによって結果を表現することができる。
(区間1に属する予測値の頻度,区間2に属する予測値の頻度,・・・,区間nに属する予測値の頻度)
まず能動学習装置30が出力した下位学習機械のデータヒストグラムをデータごとに計算する。次に計算されたヒストグラムと出力データ分布記憶装置27に記憶されているユーザが入力したデータ分布とを比べそれらの間の差が小さいデータの個数をデータセットごとにカウントする。複数のヒストグラムが存在する場合にその中でもっとも差が小さなものをその値としその大小によってカウントを行う。なお、抽出部116は、このカウントが大きなものから順に高い優先順位を付け、後述する実験候補データ送信部120は、この優先順位の高いものから実測装置40に出力する。ここでヒストグラムを計算すると書いたが、定性的に同値な手法ならヒストグラムでなくても良い。
なお、上述の複数の手法の中からいずれの手法を用いて集計部114および抽出部116が集計および抽出を行うかは、制御パラメータ19に記載されており、集計部114は、制御パラメータ19によって指定された手法を用いて動作する。
実験候補データ送信部120は、実験候補記憶装置29から実験候補データを読み出し、実測装置40に送信するとともに、実測値受信部130に実測装置40に送信した実験候補データを通知し、その後、実測装置40から受信された実測値と対応付けられるようにする。実測値受信部130は、実測装置40から実測値を受信し、受信した実測値を実験候補データと対応付けて実測値記憶部132に記憶するとともに、更新部134に通知する。実測値記憶部132は、実測装置40から実測値受信部130が受信した実測値を実験候補データと対応付けて記憶する。
更新部134は、実測値記憶部132に記憶された実験候補データと実測値を対応付けて、新たな訓練データを生成し、訓練データ記憶装置21に記憶するとともに、訓練データ記憶装置21に記憶した実験候補データは、実験候補記憶装置29から削除する。更新部134によって更新された訓練データを能動学習装置30に送信し、能動学習を繰り返させることにより、より精度の高い予測値を求めることができる。
このように構成された本実施形態の実験計画システム1の動作について、以下に説明する。図4は、本実施の形態の実験計画システム1の動作の一例を示すフローチャートである。以下、図3および図4を用いて説明する。
まず、入力装置10において、訓練データ11、予測データ13、プレート情報15、データ分布17、および制御パラメータ19が入力され、受け付けられる(ステップS11)。そして、入力装置10に与えられた訓練データ11、予測データ13、プレート情報15、データ分布17、および制御パラメータ19はデータセット選択装置20に送信される(ステップS13)。
そして、データセット選択装置20では、入力装置10から受信した訓練データ11、予測データ13、プレート情報15、データ分布17、および制御パラメータ19をデータ入力受付部102(図3)が受信し(ステップS101)、訓練データ記憶装置21、予測データ記憶装置23、データセット記憶装置25、出力データ分布記憶装置27およびパラメータ記憶部104(図3)にそれぞれ記憶する(ステップS103)。
次に、訓練データ記憶装置21に記憶された訓練データ11および予測データ記憶装置23に記憶された予測データ13をデータ・パラメータ送信部106(図3)が能動学習装置30に送信する(ステップS105)。このとき、データ・パラメータ送信部106は、パラメータ記憶部104に記憶された能動学習装置30に指示すべき制御パラメータもともに能動学習装置30に送信する。能動学習装置30では、送信された訓練データ11および予測データ13、ならびに制御パラメータを受信する(ステップS201)。
そして、データセット選択装置20から送信された制御パラメータによって指定された手法を選択して、受信した訓練データ11を使って学習を行い、予測データの予測を行う(ステップS203)。次に、能動学習装置30は、学習を行った予測結果(複数の予測データおよび分散値)をデータセット選択装置20に送信する(ステップS205)。なお、ここで、能動学習装置30の複数の学習機械がそれぞれ予測した複数の予測結果も同様にデータセット選択装置20に送信する。データセット選択装置20は、能動学習装置30から予測結果を予測結果受信部110(図3)が受信する(ステップS107)。
そして、データセット選択装置20は、受信した予測結果に基づいて、データセットの選択処理を行う(ステップS109)。このデータセットの選択処理については、上述したように、予めユーザによって指定された手法によって行われ、特定のデータセットが選択される。ここで、選択された予測データ13のデータセットは、抽出部116によって予測データ記憶装置23から実験候補記憶装置29に記憶されるとともに、実験候補記憶装置29に記憶された予測データ13は、予測データ記憶装置23から削除される。
そして、実験候補データ送信部120が実験候補記憶装置29から実験候補データを読み出し、実測装置40に送信する(ステップS111)。そして、実測装置40は、実験候補データを受信し(ステップS301)、HTSを行い、データを実測する(ステップS303)。そして、得られた結果として実測値をデータセット選択装置20に送信する(ステップS305)。データセット選択装置20では、実測値受信部130が実測装置40から実測値を受信し、受信した実測値を実験候補データと対応付けて実測値記憶部132に記憶する(ステップS113)。更新部134は、実測値記憶部132に記憶された実験候補データと実測値を対応付けて、新たな訓練データを生成し、訓練データ記憶装置21に記憶するとともに、訓練データ記憶装置21に記憶した実験候補データは、実験候補記憶装置29から削除する(ステップS115)。
ステップS105〜ステップS115までの処理において得られる結果が、高い予測精度になるまで(ステップS117のNO)、ステップS105に戻る。すなわち、データ・パラメータ送信部106が訓練データ記憶装置21に記憶された訓練データ11および予測データ記憶装置23に記憶された予測データ13を能動学習装置30に送信し、能動学習装置30では、受信した訓練データ11を用いて学習を行い、予測データ13の予測を行い、結果をデータセット選択装置20に返信することを繰り返す。
ステップS115で、予測精度が高くなったとき(ステップS117のYES)、本処理を終了する。なお、ステップS117での判断は、制御部100により判断される。たとえば、結果が既知のデータの一部を結果が未知のデータに置き換えて予測を行い、その実測値と予測値とを比較して測定する方法(Cross Validationと呼ばれる手法など)を用いて正解率を算出し、算出された正解率を所定の閾値と比較し、閾値を超えたとき予測精度が高くなったと判断することができる。あるいは、制御部100は、判断結果を表示部(不図示)に出力し、ユーザから処理の続行または停止の指示を受付部(不図示)が受け付け、処理を終了させることができる。
以上、説明したように、本実施形態の実験計画システム1によれば、データセットに対応した能動学習法システムを構築することができ、データセットに対応した実験課題に対しても能動学習法を使った効率化を図れるようになる。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
たとえば、本発明の実験計画システム1におけるデータセット選択装置20は、能動学習装置30の結果から効率的な探索を行うためのデータセットを選び出すための機能を最低限備えていればよい。すなわち、図5に示すように、図1のデータセット選択装置20が備えていた訓練データ記憶装置21、予測データ記憶装置23、実験候補記憶装置29は、図5のデータセット選択装置220ではなく、能動学習装置230に備えてもよい。すなわちデータセット選択装置220は、データセット記憶装置225、出力データ分布記憶装置227および制御部250を備え、能動学習装置230は、訓練データ記憶装置221、予測データ記憶装置223、および実験候補記憶装置229を備えることができる。
また、図6に示すように、図1のデータセット選択装置20が備えていたデータセット記憶装置25および出力データ分布記憶装置27は、図6のデータセット選択装置320ではなく、入力装置310に備えてもよい。すなわち入力装置310は、データセット記憶装置325および出力データ分布記憶装置327を備え、データセット選択装置320は、訓練データ記憶装置321、予測データ記憶装置323、実験候補記憶装置329、および制御部350を備えることができる。
あるいは、図7に示すようにそれぞれの記憶装置、訓練データ記憶装置421、予測データ記憶装置423、データセット記憶装置425、出力データ分布記憶装置427、および実験候補記憶装置429が独立して配置されてもよい。
また、上記データセット選択装置20において、抽出部(集計部114および抽出部116)のいずれでデータセットを抽出するかの指定をユーザから受け付ける方法受付部(データ入力受付部102)を備えることができ、方法受付部が受け付けた抽出部でデータセットを抽出することができる。
(実施例1)
以下の実施例では、データセットに含まれる複数のデータとして化合物を示す訓練データ11および予測データ13を用いた。化合物を示す訓練データ11または予測データ13の記述子としては、各化合物における所定の構造の有無に基づいてビット列に変換した。訓練データ11の値は、ある特定の活性を持つものに対して1を対応させ、活性を持たないものに対しては0を対応させた。活性の有無については、活性の強度で測定を行いある閾値を超えるものを活性が有するもの(正例)とし、それ以下のものは活性を持たないもの(負例)とした。能動学習装置30としては独自に開発を行っている装置を使用した。
また各データセットが96個のデータを含むようにランダムに設定を行った。これは、96個のウェルを有するプレートをシミュレーションするためである。
実施例1では、データセット毎に分散の平均を求め、値の大きなものから順に優先順位を割当てていく方法を用いた。この方法では偏りの少ないデータに対してより高い効率を期待することができる。図8は、ランダムにデータセットを選択した場合と本システムの効果を比較した実施例の結果を示す図である。横軸は偽陽性率、縦軸は真陽性率を示す。ここで、偽陽性率とは、(負例のうち正と判断された個数)/(全負例の個数)であり、真陽性率とは、(正例のうち正と判断された個数)/(全正例の個数)である。図8に二本の線L1および線L2が存在しているが線L2が本システムを用いてデータセットを選択した場合、線L1がランダムにデータセットを選び出した場合の学習精度を示している。
ここでは、ランダムおよび本システムとも同じ回数学習処理を繰り返した時の学習精度を示した。従来は複数のデータをまとめたデータセットを扱うような処理機構が存在していなかったため、データセットをランダムに選択して比較した。ここでは、線が左上に行くほど、言い換えれば、斜線で示した面積S1が広い程、学習精度としては高いものであることを示している。図8から分かるようにランダムに選択したものに比べ本システムの線L2の方が非常に高い予測精度を達成できていることが分かる。
(実施例2)
次に、分散の小さなデータから順番をつけていく方法について上記と同様なデータを用いて実施した。同様にこの方法では偏りの少ないデータに対してより高い効率を期待することができる。しかしこの方法は前の手法とは異なり、データセット毎に分散のばらつきが大きな場合に有効な方法である。分散のばらつきが大きな値の場合、上記手法で計算した平均値はデータセットの代表として使うには信頼性にかけるためである。実施例1と同様な実験を行った。図9はランダムにデータセットを選択した場合と本システムの効果を比較した実施例の結果を示す図である。横軸は偽陽性率、縦軸は真陽性率を示す。図9に二本の線L1および線L3が存在しているが線L3が本システムを用いてデータセットを選択した場合、線L1がランダムにデータセットを選び出した場合の学習精度を示している。
ここでは、ランダムおよび本システムとも同じ回数学習処理を繰り返した時の学習精度を示した。従来は複数のデータをまとめたデータセットを扱うような処理機構が存在していなかったため、データセットをランダムに選択して比較した。ここでは、線が左上に行くほど、言い換えれば、斜線で示した面積S2が広い程、学習精度としては高いものであることを示している。図9から分かるように、ランダム選択したものに比べ本システムの線L3の方が非常に高い予測精度を達成できていることが分かる。また、図8の実施例1に比較して、図9の実施例2の方が、面積S1より面積S2の方が広いことから、予測精度が高いことが分かる。但し、この結果は、実施例1の手法より実施例2の手法の方が、予測精度が高くなることを示唆するものではなく、条件や処理対象などによって異なる。
(実施例3)
次は、ある特定のデータ分布に近いデータセットに優先順位をつける方法について実施した。この手法を適用する場合、分類を行うクラス(もしくは値)の間で重要度が異なることが多いことが想定される。たとえばA、B、およびCのクラス分けを行うときに、そのクラスの順に重要度が設定されるような場合である。その場合、A、B、およびCの3クラスに判断が分かれる点を探すよりも、AおよびBの2クラスで判断が分かれる点が重要であることも考えられうる。そのような状況のときにこの手法を使うことができる。データとしてA、B、およびCの3クラスへの分類を行うデータを設定した。
重要度はAが極めて高く、BおよびCは同程度に低いとした。そのとき重要度を測る指標として値Aを持つデータがどの程度能動学習法によって選び出すことができたのかを使った。また選び出す分布としてはAの値が半分以上のヒストグラムを複数入力した。その場合の結果を図10に示す。横軸は実験データ数、縦軸は学習により選び出すことのできたAの個数を示している。線L11はランダムにデータセットを選択した場合に対応している。曲線L12は本システムを用いてデータセットを選択した場合の結果を示している。
図10に示すように、本システムを用いた場合の方が、より多くのターゲットが学習により選抜されたことが分かった。
本発明の実施の形態に係る実験計画システムの概略構成を示すブロック図である。 本実施形態の実験計画システムにおける選択すべきデータセットのデータ分布の例を説明するための図である。 本実施形態のデータセット選択装置の制御部の構成の詳細を示す機能ブロック図である。 本実施の形態の実験計画システムの動作の一例を示すフローチャートである。 本発明の他の実施形態に係る実験計画システムの概略構成を示すブロック図である。 本発明の他の実施形態に係る実験計画システムの概略構成を示すブロック図である。 本発明の他の実施形態に係る実験計画システムの概略構成を示すブロック図である。 ランダムにデータセットを選択した場合と本システムの効果を比較した一実施例の結果を示す図である。 ランダムにデータセットを選択した場合と本システムの効果を比較した他の実施例の結果を示す図である。 ランダムにデータセットを選択した場合と本システムの効果を比較した他の実施例の結果を示す図である。
符号の説明
1 実験計画システム
10 入力装置
11 訓練データ
13 予測データ
15 プレート情報
17 データ分布
19 制御パラメータ
20 データセット選択装置
21 訓練データ記憶装置
23 予測データ記憶装置
25 データセット記憶装置
27 出力データ分布記憶装置
29 実験候補記憶装置
30 能動学習装置
40 実測装置
100 制御部
102 データ入力受付部
104 パラメータ記憶部
106 データ・パラメータ送信部
110 予測結果受信部
112 予測結果記憶部
114 集計部
116 抽出部
120 実験候補データ送信部
130 実測値受信部
132 実測値記憶部
134 更新部
220、320、 データセット選択装置
221、321、421 訓練データ記憶装置
223、323、423 予測データ記憶装置
225、325、425 データセット記憶装置
227、327、427 出力データ分布記憶装置
229、329、429 実験候補記憶装置
230 能動学習装置
250、350 制御部
310 入力装置

Claims (9)

  1. 複数の属性値および前記複数の属性値に対応する既知の出力値を含む訓練データを複数含むデータセットを受け付ける訓練データ受付部と、
    予め準備された複数の属性値を含み、前記複数の属性値に対応する未知の出力値を求めるための予測データを複数含むデータセットを受け付ける予測データ受付部と、
    前記データセットの前記訓練データの前記複数の属性値に対応する前記出力値の対応関係を、異なる複数の予測アルゴリズムを含む能動学習装置を用いて、前記複数の予測アルゴリズムでそれぞれ学習させる能動学習制御部と、
    前記複数の予測アルゴリズムによりそれぞれ学習された複数の前記対応関係を用いて、前記予測データに対応する出力値を予測し、予測結果値として前記複数の予測アルゴリズム毎に複数取得する予測結果取得部と、
    前記予測結果取得部が取得した前記複数の予測アルゴリズムによる複数の前記予測結果値のばらつきが対応する前記予測データの前記データセット内で大きいものを選択し、複数の実験候補データを含むデータセットとして抽出する抽出部と、を備えることを特徴するデータセット選択装置。
  2. 請求項1に記載のデータセット選択装置において、
    前記抽出部は、前記予測結果取得部が取得した前記複数の予測結果値の前記データセットを所定の手順でそれぞれ集計してパラメータ化し、前記パラメータの値が所定の閾値を超えるものを最適な集計結果として選択し、該選択された集計結果に対応する前記予測結果値の前記予測データのデータセットを前記実験候補データとして抽出することを特徴とするデータセット選択装置。
  3. 請求項2に記載のデータセット選択装置において、
    前記抽出部は、
    前記予測結果取得部が取得した前記複数の予測結果値の前記データセット毎に合計または平均値を算出する合計算出部と、
    前記複数の予測結果値の前記データセット毎の前記合計または前記平均値の分散値を算出する分散算出部と、
    前記分散値が所定の閾値以上か否かを判別する判別部と、を含み、
    前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することを特徴とするデータセット選択装置。
  4. 請求項3に記載のデータセット選択装置において、
    前記抽出部は、
    前記分散値を所定の定義に従って、優先順位付けし、
    前記優先順位付けられた優先順位の高い予測結果値に該当する前記データセットを順次前記実験候補データとして抽出することを特徴とするデータセット選択装置。
  5. 請求項3または4に記載のデータセット選択装置において、
    前記抽出部は、
    前記パラメータの値の所定の頻度分布の指定を受け付ける頻度分布受付部と、
    前記予測結果取得部が取得した前記複数の予測結果値の前記データセットの前記パラメータの値を前記頻度分布と比較して、前記頻度分布に近似する前記パラメータの値の個数を前記データセット毎に合計または平均値を算出する算出部と、
    前記算出部によって算出された前記合計または前記平均値が所定の閾値以上か否かを判定する分布判定部を含み、
    前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することを特徴とするデータセット選択装置。
  6. 請求項3乃至5いずれかに記載のデータセット選択装置において、
    請求項3乃至5に記載の前記抽出部のいずれで前記データセットを抽出するかの指定をユーザから受け付ける方法受付部を備え、
    前記方法受付部が受け付けた前記抽出部で前記データセットを抽出することを特徴とするデータセット選択装置。
  7. 請求項1乃至6いずれかに記載のデータセット選択装置において、
    前記訓練データ受付部が受け付けた前記訓練データを記憶する訓練データ記憶部と、
    前記抽出部が抽出した一つ以上の前記実験候補データを実測装置に送信する実験候補データ送信部と、
    前記実測装置にて前記実験候補データに基づいて実測された実測値を受信する実測値受信部と、
    前記実測値受信部が受信した前記実測値を前記実験候補データの前記データセットに対応付けて前記訓練データ記憶部の前記訓練データを更新する更新部と、
    を備えることを特徴とするデータセット選択装置。
  8. 請求項7に記載のデータセット選択装置において、
    前記実測装置は、被検用プレートに含まれる複数の化合物の活性を測定し、
    前記訓練データ受付部は、複数の化合物の属性値および既知の活性を予め訓練データとして受け付け、前記訓練データ記憶部に記憶し、
    前記予測データ受付部は、複数の化合物を含む複数の被検用プレートの予測データのデータセットをそれぞれ受け付けることを特徴とするデータセット選択装置。
  9. 請求項1乃至8いずれかに記載の前記データセット選択装置と、
    請求項1乃至8いずれかに記載の前記複数の予測アルゴリズムを含む前記能動学習装置と、を備える実験計画システム。
JP2006131512A 2006-05-10 2006-05-10 データセット選択装置および実験計画システム Active JP5167596B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006131512A JP5167596B2 (ja) 2006-05-10 2006-05-10 データセット選択装置および実験計画システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006131512A JP5167596B2 (ja) 2006-05-10 2006-05-10 データセット選択装置および実験計画システム

Publications (2)

Publication Number Publication Date
JP2007304782A true JP2007304782A (ja) 2007-11-22
JP5167596B2 JP5167596B2 (ja) 2013-03-21

Family

ID=38838664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006131512A Active JP5167596B2 (ja) 2006-05-10 2006-05-10 データセット選択装置および実験計画システム

Country Status (1)

Country Link
JP (1) JP5167596B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194894A (ja) * 2011-03-17 2012-10-11 Fujitsu Ltd データ解析プログラム、データ解析方法、およびデータ解析装置
WO2016103574A1 (en) 2014-12-26 2016-06-30 Nec Corporation Optimization system, optimization method, and optimization program
JP2022041957A (ja) * 2020-08-31 2022-03-11 株式会社日立製作所 データ解析システムのプライバシー保護データを生成する方法及びデバイス
WO2022168274A1 (ja) * 2021-02-05 2022-08-11 三菱電機株式会社 情報処理装置、選択出力方法、及び選択出力プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6178768B2 (ja) 2014-09-17 2017-08-09 株式会社東芝 品質管理装置およびその管理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNB200000831001; 安倍 直樹,馬見塚 拓: '能動学習と発見科学' 発見科学とデータマイニング 第1版, 20000505, pp.64-72, 共立出版株式会社 *
CSNH200400424005; 麻生川 稔,襲田 勉,藤原 由希子,山下 慶子: '能動学習法を利用した創薬スクリーニング' NEC技報 Vol.56,No.10, 20031125, pp.28-32, 日本電気株式会社 *
JPN6010006665; 安倍 直樹,馬見塚 拓: '能動学習と発見科学' 発見科学とデータマイニング 第1版, 20000505, pp.64-72, 共立出版株式会社 *
JPN6012016708; 麻生川 稔,襲田 勉,藤原 由希子,山下 慶子: '能動学習法を利用した創薬スクリーニング' NEC技報 Vol.56,No.10, 20031125, pp.28-32, 日本電気株式会社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194894A (ja) * 2011-03-17 2012-10-11 Fujitsu Ltd データ解析プログラム、データ解析方法、およびデータ解析装置
WO2016103574A1 (en) 2014-12-26 2016-06-30 Nec Corporation Optimization system, optimization method, and optimization program
JP2022041957A (ja) * 2020-08-31 2022-03-11 株式会社日立製作所 データ解析システムのプライバシー保護データを生成する方法及びデバイス
JP7165795B2 (ja) 2020-08-31 2022-11-04 株式会社日立製作所 データ解析システムのプライバシー保護データを生成する方法及びデバイス
WO2022168274A1 (ja) * 2021-02-05 2022-08-11 三菱電機株式会社 情報処理装置、選択出力方法、及び選択出力プログラム

Also Published As

Publication number Publication date
JP5167596B2 (ja) 2013-03-21

Similar Documents

Publication Publication Date Title
Malakar et al. Benchmarking machine learning methods for performance modeling of scientific applications
US20180365557A1 (en) Information processing method and information processing apparatus
JP6536295B2 (ja) 予測性能曲線推定プログラム、予測性能曲線推定装置および予測性能曲線推定方法
US8898096B2 (en) Application configuration generation
Kulkarni et al. Weka powerful tool in data mining
KR102337070B1 (ko) 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
US20190325316A1 (en) Apparatus and methods for program synthesis using genetic algorithms
WO2014199920A1 (ja) 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体
Beielstein et al. Threshold selection, hypothesis tests, and DOE methods
JP5167596B2 (ja) データセット選択装置および実験計画システム
CN113434859A (zh) 入侵检测方法、装置、设备及存储介质
CN105335379B (zh) 突变测试中对突变、测试用例、随机种子的组合排序的方法和设备
EP3779814A1 (en) Method and device for training adaptation level evaluation model, and method and device for evaluating adaptation level
JPWO2005048184A1 (ja) 能動学習方法およびシステム
JP7481902B2 (ja) 管理計算機、管理プログラム、及び管理方法
JP6658507B2 (ja) 負荷推定システム、情報処理装置、負荷推定方法、及び、コンピュータ・プログラム
CN112463532B (zh) 构建snn工作负载自动映射器的方法及自动映射器
Ackermann et al. Black-box learning of parametric dependencies for performance models
EP4227864A1 (en) Evaluation method, evaluation device, and evaluation program
Werth et al. Surrogate-assisted microscopic traffic simulation-based optimisation of routing parameters
Bourdache et al. Active preference elicitation by bayesian updating on optimality polyhedra
CN115349129A (zh) 生成具有不确定性区间的性能预测
JP5044980B2 (ja) 実験計画方法、実験計画システムおよび、実験計画プログラム
CN117350607B (zh) 改进型knn算法模型的国际物流运输路径规划系统
EP4290426A1 (en) Accuracy calculation program, accuracy calculation method, and information processing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121210

R150 Certificate of patent or registration of utility model

Ref document number: 5167596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150