JP2007304782A

JP2007304782A - データセット選択装置および実験計画システム

Info

Publication number: JP2007304782A
Application number: JP2006131512A
Authority: JP
Inventors: Tsutomu Osouda; 勉襲田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-05-10
Filing date: 2006-05-10
Publication date: 2007-11-22
Anticipated expiration: 2026-05-10
Also published as: JP5167596B2

Abstract

【課題】予めデータセットが定義されている複数のデータに対して能動学習法による実験計画を適用可能とするデータセット選択装置を提供する。
【解決手段】複数の属性値および対応する既知の出力値を含む訓練データのデータセット、および予め準備された複数の属性値に対応する未知の出力値を求めるための予測データのデータセットを受け付けるデータ入力受付部１０２と、訓練データの複数の属性値に対応する出力値の対応関係を、複数の予測アルゴリズムを含む能動学習装置３０を用いて学習させ、学習された複数の対応関係を用いて、予測データに対応する出力値を予測させ、複数の予測アルゴリズムの複数の予測結果値を取得する予測結果受信部１１０と、取得した複数の予測アルゴリズムによる複数の予測結果値のばらつきが対応する予測データのデータセット内で大きいものを選択し、実験候補データとして抽出する抽出部１１６と、を備える。
【選択図】図３

Description

本発明は、データセット選択装置および実験計画システムに関し、特に、予めデータセットが定義されている複数のデータに対して能動学習法による実験計画を適用可能にするデータセット選択装置および実験計画システムに関する。

能動学習法は、少ないデータ数で高い精度を持つ予測を達成できる方法として知られており、非常に適用範囲が広い方法である。少し趣を変え、この方法を実験計画の効率化のために使うこともできる。具体的には、既に結果の分かっているデータを訓練データとして使い、結果が未知のデータを予測データとして使い学習を行うことで、少ないデータ数で高精度に予測を行うことができるようになり実験を効率的に行うことができる。

能動学習法とは、たとえば、創薬開発の現場などで、数十万から数百万個の全化合物の中からターゲットに対する活性を有する化合物を探索する必要があるような場合に、実際には数十万個もの全化合物に対して実測を行うことが不可能であるため、実測と学習とを繰り返すことでより少ない実測回数で高速に学習を行い、結果を得ることを可能とする手法である。あるいは、学習され、実験候補データとして出力されたものに従って行う実験の手順を示す実験計画法と言うこともできる。

従来の能動学習システムとしては、たとえば特許文献１に記載されたものがある。

主な能動学習法としては、たとえば、Query by boosting法（以下、「ブースティング法」と呼ぶ）、Query By Committee法（以下、「コミッティ法」と呼ぶ）、およびQuery By Bagging法（以下、「バギング法」と呼ぶ）などがある。（たとえば、非特許文献１参照。）

従来の能動学習システムでは、訓練データに基づいて、入力値と出力値の間に成り立つ関数を学習し、学習された関数に基づいて、評価データの入力値から予測出力値を求め、予測結果として出力するものである。
特開２００５−１０７７４３号公報森下慎一編集、宮野悟編集、「発見科学とデータマイニング」、初版、共立出版、２００１年６月、ｐ．３１８

しかしながら、上記文献記載の従来技術は、以下の点で改善の余地を有していた。
データの予測は個々のデータに対して実施されており、データセットと個々のデータを関連付けるためのシステムが存在してなかったため、いくつかのデータが一つの集合をなすようなデータセットに対しては適用することができなかった。

本発明は上記事情に鑑みてなされたものであり、その目的とするところは、予めデータセットが定義されている複数のデータに対して能動学習法による実験計画を適用可能とするデータセット選択装置を提供することにある。

本発明によれば、複数の属性値および前記複数の属性値に対応する既知の出力値を含む訓練データを複数含むデータセットを受け付ける訓練データ受付部と、
予め準備された複数の属性値を含み、前記複数の属性値に対応する未知の出力値を求めるための予測データを複数含むデータセットを受け付ける予測データ受付部と、
前記データセットの前記訓練データの前記複数の属性値に対応する前記出力値の対応関係を、異なる複数の予測アルゴリズムを含む能動学習装置を用いて、前記複数の予測アルゴリズムでそれぞれ学習させる能動学習制御部と、
前記複数の予測アルゴリズムによりそれぞれ学習された複数の前記対応関係を用いて、前記予測データに対応する出力値を予測し、予測結果値として前記複数の予測アルゴリズム毎に複数取得する予測結果取得部と、
前記予測結果取得部が取得した前記複数の予測アルゴリズムによる複数の前記予測結果値のばらつきが対応する前記予測データの前記データセット内で大きいものを選択し、複数の実験候補データを含むデータセットとして抽出する抽出部と、を備えることを特徴するデータセット選択装置が提供される。

訓練データおよび予測データの属性値とは、たとえば、化合物の分子量、所定の置換基の有無、配列または配置、疎水性、または回転結合数などを含むことができる。訓練データの既知および予測データの未知の出力値とは、上記の属性値を有する化合物の所定の活性の有無を示す実数値または所定の閾値で２値化された値で示すことができる。データセットとは、たとえば、プレート上に配置された複数の化合物の属性値と出力値の複数の組を含む。

能動学習装置は、異なる複数の予測アルゴリズムを用いて学習をそれぞれ行う。各予測アルゴリズムは、複数のソフトウェアにより実現することができる。能動学習装置は、これらの複数のソフトウェアをそれぞれ実行する複数の学習機械より構成することができる。あるいは、複数のソフトウェアを１つの学習装置によりそれぞれ実行させる構成とすることもできる。

複数の予測アルゴリズムによって学習させた複数の予測結果は、集計され、分散値が算出される。そして、予測結果の中から目的とする分布を有するデータセットを抽出する。

この発明によれば、複数のデータを含むデータセットに対して能動学習法による実験計画を適用することが可能となる。たとえば、複数の化合物が配置されたプレートにＨＴＳを行い、ターゲットに対する活性を有する化合物を探索するような場合に、複数のプレートの中から適切なプレートを選び出し、できる限り少ない回数で、精度の良い予測結果を得ることが可能となる。

上記データセット選択装置において、前記抽出部は、前記予測結果取得部が取得した前記複数の予測結果値の前記データセットを所定の手順でそれぞれ集計してパラメータ化し、前記パラメータの値が所定の閾値を超えるものを最適な集計結果として選択し、該選択された集計結果に対応する前記予測結果値の前記予測データのデータセットを前記実験候補データとして抽出することができる。

上記データセット選択装置において、前記抽出部は、前記予測結果取得部が取得した前記複数の予測結果値の前記データセット毎に合計または平均値を算出する合計算出部と、前記複数の予測結果値の前記データセット毎の前記合計または前記平均値の分散値を算出する分散算出部と、前記分散値が所定の閾値以上か否かを判別する判別部と、を含むことができ、前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することができる。

この構成によれば、予測結果が閾値以上、すなわち均一な結果が得られなかったデータセットを前記実験候補データとして選択することができる。これにより、効率の良い実験計画が可能となる。

上記データセット選択装置において、前記抽出部は、前記分散値を所定の定義に従って、優先順位付けし、前記優先順位付けられた優先順位の高い予測結果に該当する前記データセットを順次前記実験候補データとして抽出することができる。

上記データセット選択装置において、前記抽出部は、前記パラメータの値の所定の頻度分布の指定を受け付ける頻度分布受付部と、前記予測結果取得部が取得した前記複数の予測結果値の前記データセットの前記パラメータの値を前記頻度分布と比較して、前記頻度分布に近似する前記パラメータの値の個数を前記データセット毎に合計または平均値を算出する算出部と、前記算出部によって算出された前記合計または前記平均値が所定の閾値以上か否かを判定する分布判定部を含むことができ、前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することができる。

上記データセット選択装置において、前記抽出部のいずれで前記データセットを抽出するかの指定をユーザから受け付ける方法受付部を備えることができ、前記方法受付部が受け付けた前記抽出部で前記データセットを抽出することができる。

上記データセット選択装置において、前記訓練データ受付部が受け付けた前記訓練データを記憶する訓練データ記憶部と、前記抽出部が抽出した一つ以上の前記実験候補データを実測装置に送信する実験候補データ送信部と、前記実測装置にて前記実験候補データに基づいて実測された実測値を受信する実測値受信部と、前記実測値受信部が受信した前記実測値を前記実験候補データの前記データセットに対応付けて前記訓練データ記憶部の前記訓練データを更新する更新部と、を備えることができる。

この構成によれば、実測値を実験候補データに対応付けて、新たな訓練データとしてさらに能動学習を繰り返すことにより、精度の高い予測値を求めることができる。

上記データセット選択装置において、前記実測装置は、被検用プレートに含まれる複数の化合物の活性を測定し、前記訓練データ受付部は、複数の化合物の属性値および既知の活性を予め訓練データとして受け付け、前記訓練データ記憶部に記憶し、前記予測データ受付部は、複数の化合物を含む複数の被検用プレートの予測データのデータセットをそれぞれ受け付けることができる。

本発明によれば、前記データセット選択装置と、前記複数の予測アルゴリズムを含む前記能動学習装置と、を備える実験計画システムが提供される。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、予めデータセットが定義されている複数のデータに対して能動学習システムによる実験計画を適用可能とするデータセット選択装置が提供される。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

図１は、本発明の実施の形態に係る実験計画システムの概略構成を示すブロック図である。本実施形態の実験計画システム１は、複数の属性値および複数の属性値に対応する既知の出力値を含む訓練データ１１を複数含むデータセットを受け付ける訓練データ受付部（入力装置１０）と、予め準備された複数の属性値を含み、複数の属性値に対応する未知の出力値を求めるための予測データ１３を複数含むデータセットを受け付ける予測データ受付部（入力装置１０）と、データセットの訓練データ１１の複数の属性値に対応する出力値の対応関係を、異なる複数の予測アルゴリズムを含む能動学習装置３０を用いて、複数の予測アルゴリズムでそれぞれ学習させる能動学習制御部（制御部１００）と、複数の予測アルゴリズムによりそれぞれ学習された複数の対応関係を用いて、予測データ１３に対応する出力値を予測し、予測結果値として複数の予測アルゴリズム毎に複数取得する予測結果取得部（制御部１００）と、予測結果取得部が取得した複数の予測アルゴリズムによる複数の予測結果値のばらつきが対応する予測データ１３のデータセット内で大きいものを選択し、複数の実験候補データを含むデータセットとして抽出する抽出部（制御部１００）と、を備える。

ここで、能動学習法とは、予め準備された訓練データから複数の記述子と値を関連付ける関数を学習し、学習した関数に基づいて、結果が未知の予測データを選択的に作成するものである。予測データは、できる限り少ないデータ数で高精度に予測を行うことができるようなデータが選択されるのが好ましく、それにより実験を効率的に行うことができ、工数およびコスト削減が図れる。

特に本実施形態の実験計画システム１は、創薬開発現場などで、数十万から数百万個もの化合物の中からターゲットに対する活性を有する化合物を探索する際、化合物が予め配置される複数のウェル（本実施形態では、９６ウェル）が形成されたプレートを用いて、実測装置でハイスループットスクリーニング（ＨＴＳ：High Throughput Screening）を行う場合に適用するのに好適である。

能動学習装置３０は、ブースティング法、コミッティ法、およびバギング法などを用いてそれぞれ学習を行うことが可能である。学習されるルールは、明示的なものであっても暗黙的なものであってもよい。本実施形態の実験計画システム１では、ユーザより予め指定された手法を用いて能動学習を行う。

たとえば、ブースティング法は誤った学習データを正しい学習が行われるまで重点的に学習し直す方法で、他とは異なった特異的な性質の学習に向いているとされる方法である。また、バギング法は訓練データの中からランダムにサンプリングを行って学習を行う方法でノイズデータを含むような訓練データの学習に向いているとされる方法である。状況に応じて手法を選択する必要がある。

また、各手法は所定のアルゴリズムによるプログラムをコンピュータが実行することにより実現される。能動学習装置３０は、ユーザによって指定された手法に対応する複数の異なるアルゴリズムを用いて学習をそれぞれ行う複数の学習機械（不図示）をさらに含む。異なるアルゴリズムによって学習された結果は、それぞれ異なる結果が得られる可能性がある。

本発明の実施の形態の実験計画システム１では、データセット形式の訓練データを用いて学習させ、複数の学習機械の結果が一様にならないデータセット形式の予測データを選択するものである。これにより、同じような結果に基づく学習を繰り返す場合に比べて、能動学習装置３０は、学習を効果的に行うことが可能となる。

本実施形態において、訓練データおよび予測データは、たとえばプレートに形成された複数のウェルの個数分（９６個）の複数のデータからなるデータセット形式とすることができる。これにより、能動学習装置３０が訓練データを用いて学習をする際、多数のプレートの中からより効果的な結果が期待されるプレート（データセット）を選び出し、できる限り少ない測定回数でＨＴＳを行うことが可能となり、実験効率が向上する。

なお、以下に示す各図において、本発明の本質に関わらない部分の構成については省略してある。

また、実験計画システム１の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。

具体的には、図１に示すように、本実施形態の実験計画システム１は、入力装置１０と、データセット選択装置２０と、能動学習装置３０と、実測装置４０と、を備える。データセット選択装置２０は、入力装置１０、能動学習装置３０、および実測装置４０と、ネットワークやシリアルあるいはパラレル通信ケーブルにより電気的に接続され、有線または無線通信を行う。すなわち、入力装置１０、データセット選択装置２０、能動学習装置３０、および実測装置４０は、互いに通信可能なインタフェース部（不図示）をそれぞれ含む。

入力装置１０は、キーボード、マウス、操作ボタン、スイッチ、レバー、タッチパネルなどのユーザが操作可能な操作入力部（不図示）、あるいは、ネットワークや他の通信手段（シリアルまたはパラレル通信）を用いて他の記憶媒体あるいは記憶装置から有線または無線通信により受信する通信部（不図示）を含む。

入力装置１０は、訓練データ１１、予測データ１３、プレート情報１５、データ分布１７、および制御パラメータ１９を入力し、データセット選択装置２０に出力する。本実施形態において、入力装置１０に入力される訓練データ１１は、下記の式（１）のフォーマットを有する。
Ｄｊ＝（記述子１ｊ，記述子２ｊ，記述子３ｊ，・・・，記述子Ｎｊ，値ｊ）・・・式（１）

ここで、ｊは１〜Ｍの自然数である。Ｎも自然数であり、訓練データＤｊの複数の記述子の個数（種類）を示している。このように訓練データＤｊは、複数の記述子および複数の記述子に対応する値を有する。

予測データ１３は、下記の式（２）のフォーマットを有する。
Ｐｊ＝（記述子１ｊ，記述子２ｊ，記述子３ｊ，・・・，記述子Ｎｊ）・・・式（２）

本実施形態では、訓練データ１１および予測データ１３の記述子は、文字列または数値から構成することができる。訓練データ１１および予測データ１３の記述子は、たとえば、化合物の分子量や特定の置換基の有無とその配置を示すビット列、疎水性の有無、回転結合数などを含む各種の属性パラメータで示すことができる。また、訓練データ１１の値は、少なくとも一つのターゲットに対する活性の有無を数値化したパラメータで示すことができ、たとえば、実数値または２値化された離散値で示すことができる。なお、以下の説明において、活性がある化合物を「正例」、および活性がない化合物を「負例」とも呼ぶものとする。

本実施形態において、訓練データ１１および予測データ１３の区切り記号として"，"（カンマ）を使用しているが、必ずしもこれでなくてもよく"："（コロン）や" "（スペース）などでもよい。また、全体は、括弧で区切られているが、必ずしもデータはこのような形式でなくてもよく、一つ一つのデータが区別できるような形式になっていればよい。

プレート情報１５とは、各プレート（データセット）の情報であり、下記の式（３）で示される添え字によって定義された添え字集合Ｓｋで示すことができる。
Ｓｋ＝｛Ｓｋ１，Ｓｋ２，・・・，ＳｋＮｋ｝・・・式（３）

ここで、ｋは１〜Ｋの自然数である。すなわち、ここでは、Ｋ個のデータセットが存在するものとする。添え字集合Ｓｋの添え字を持つデータセットをＤＳｋと定義する。

また、添え字集合Ｓｋについては１行目のデータが"１"、２行目のデータが"２"、３行目のデータが"３"などのように対応付けがなされている。

データ分布１７は、各プレート（データセット）の中から、選択すべきプレートのデータ分布を記述したデータである。図２（ａ）〜図２（ｄ）に、データ分布１７の例として、複数の異なるターゲットに対する活性、たとえば、活性Ａ、活性Ｂ、活性Ｃを有する化合物が１つのプレート（データセット）内に、どのような分布で含まれているかを示している。なお、図２では理解しやすいように模式的にグラフで示したが、実際にはデータテーブル形式、あるいは、分布を数値化したもの、たとえば、各活性の分布の標準偏差の二乗などの値とすることができる。また、図２では、４種類の分布の例のみ図示しているが、実際にはそれ以上の種類の分布を含むことができる。

制御パラメータ１９は、データセット選択装置２０を制御するための各種パラメータである。パラメータは、たとえば、能動学習装置３０の上述した能動学習の手法のいずれを用いるかの指定を含むことができる。あるいは、能動学習装置３０に含まれる複数の学習機械から得られた複数の異なる予測結果の集計方法および予測データの抽出方法などの指定を含むことができる。

データセット選択装置２０は、制御部１００と、訓練データ記憶装置２１と、予測データ記憶装置２３と、データセット記憶装置２５と、出力データ分布記憶装置２７と、実験候補記憶装置２９と、を含む。

制御部１００は、データセット選択装置２０の各要素とともに装置全体を制御する。詳細については、後述する。データセット選択装置２０は、入力装置１０から訓練データ１１、予測データ１３、プレート情報１５、およびデータ分布１７を入力し、訓練データ記憶装置２１、予測データ記憶装置２３、データセット記憶装置２５、および出力データ分布記憶装置２７にそれぞれ記憶する。なお、入力装置１０から入力された制御パラメータ１９は、後述するパラメータ記憶部に記憶される。

出力データ分布記憶装置２７は、入力装置１０から入力されたデータ分布１７を記憶する。実験候補記憶装置２９は、能動学習装置３０から入力された予測値およびその分散値に基づいて、抽出された予測データを実験候補データとして記憶する。詳細については後述する。

上述したように、データセット選択装置２０は、データセット形式の訓練データ１１および予測データ１３を能動学習装置３０に送信し、能動学習装置３０に能動学習を行わせる。能動学習装置３０より結果として得られた予測値およびその分散値を受信し、その予測値および分散値に基づいて抽出された予測データを実験候補データとして実験候補記憶装置２９に記憶する。そして、データセット選択装置２０は、実験候補記憶装置２９の実験候補データを実測装置４０に送信する。

能動学習装置３０は、上式（１）のフォーマットの訓練データ１１、すなわち複数の記述子と値を含む訓練データ１１のデータセットＤＳｋをデータセット選択装置２０から受信し、データセットに含まれる複数の訓練データ１１について、複数の記述子と値とを関連付ける関数（ルール）を学習する。能動学習装置３０は、入力装置１０が受け付けた制御パラメータ１９によって指定された手法を用いた複数の学習機械により複数の訓練データ１１のデータセットについて学習を行う。

能動学習装置３０は、訓練データ１１（データセット）によって複数の学習機械がそれぞれ学習した複数の関数を用いて、予測データの複数の記述子に対応する予測値を複数出力する。能動学習装置３０は、得られた複数の予測値と、複数の予測値からさらに後述する所定の手順によって算出された予測値および分散値をデータセット選択装置２０に結果として出力する。

実測装置４０は、データセット選択装置２０が選択したデータセット（プレート）をセットし、ＨＴＳを行い、ターゲットに対する活性の有無を検査し、探索する。あるいは、実測装置４０は、データセット選択装置２０から出力された実験候補データのデータセットを入力し、ＨＴＳを行い、ターゲットに対する活性の有無を検査し、探索する。すなわち、シミュレーションすることができる。

実測装置４０にて実測またはシミュレーションして得られた結果は、データセット選択装置２０に出力され、新たな訓練データが作成され、訓練データ記憶装置２１に追加される。データセット選択装置２０は、新たに追加された訓練データ１１をさらに用いて、能動学習装置３０に学習させ、所望の結果が高い精度で得られるまで、繰り返させる。

図３は、本実施形態のデータセット選択装置２０の制御部１００の構成の詳細を示す機能ブロック図である。

制御部１００は、データ入力受付部１０２と、パラメータ記憶部１０４と、データ・パラメータ送信部１０６と、予測結果受信部１１０と、予測結果記憶部１１２と、集計部１１４と、抽出部１１６と、実験候補データ送信部１２０と、実測値受信部１３０と、実測値記憶部１３２と、更新部１３４と、を含む。

データ入力受付部１０２は、訓練データ１１、予測データ１３、プレート情報１５、データ分布１７、および制御パラメータ１９の入力を入力装置１０から受け付け、訓練データ記憶装置２１、予測データ記憶装置２３、データセット記憶装置２５、出力データ分布記憶装置２７、およびパラメータ記憶部１０４にそれぞれ記憶する。

データ・パラメータ送信部１０６は、パラメータ記憶部１０４に記憶されたパラメータに従って、能動学習装置３０に使用する複数のアルゴリズムの指示と、訓練データ記憶装置２１および予測データ記憶装置２３にそれぞれ記憶された訓練データ１１および予測データ１３と、プレート情報１５とを能動学習装置３０に送信する。また、データ・パラメータ送信部１０６は、能動学習装置３０に送信した予測データ１３を予測データ記憶装置２３から削除する。さらに、データ・パラメータ送信部１０６は、能動学習装置３０に送信した訓練データ１１を予測結果受信部１１０に通知する。

能動学習装置３０では、上述したように、データセット選択装置２０から送信された指示に従って、複数のアルゴリズムを用いて、データセットＤＳｋからなる訓練データＤｊの複数の記述子Ｎｊと値ｊの間に成り立つ関数を学習する。さらに、複数の学習機械で学習された複数の関数をそれぞれ用いて、データセット選択装置２０から送信された予測データＰｊのデータセットに対する予測値をそれぞれ取得し、予測結果データセットとして、データセット選択装置２０に出力する。

予測結果受信部１１０は、能動学習装置３０から複数の予測結果のデータセットを受信し、予測結果記憶部１１２に記憶する。上述したように、能動学習装置３０は複数の学習機械を含み、データセット選択装置２０から送信した予測データ１３について、指定された複数の学習機械を用いて予測された複数の予測結果データをそれぞれ受信する。予測結果受信部１１０は、データ・パラメータ送信部１０６から通知された訓練データ１１を実験候補記憶装置２９に後で予測結果と対応付けて記憶可能なように実験候補記憶装置２９に記憶する。

本実施形態のデータセット選択装置２０において、抽出部（集計部１１４および抽出部１１６）は、予測結果取得部（予測結果受信部１１０）が取得した複数の予測結果値のデータセットを所定の手順でそれぞれ集計してパラメータ化し、パラメータの値が所定の閾値を超えるものを最適な集計結果として選択し、該選択された集計結果に対応する予測結果値の予測データのデータセットを実験候補データとして抽出する。

詳細には、集計部１１４は、予測結果受信部１１０が能動学習装置３０から受信した複数の学習機械の複数の予測結果データをデータセット毎に集計し、データ分布（分散）を算出する。抽出部１１６は、集計部１１４が取得したデータ分布に基づいて、予測データ記憶装置２３から対応する予測データ１３のデータセットを抽出し、実験候補記憶装置２９に記憶する。実験候補記憶装置２９に記憶された予測データ１３のデータセットは、予測データ記憶装置２３から削除される。

集計部１１４におけるデータの集計方法および抽出部１１６におけるデータセットの抽出方法としては複数の手法を備えている。各手法の説明に先立ち用語の定義をする。ここで、各予測結果をｖｉ（ｉ＝１，２，・・・，Ｎｍ）とし、平均値ａｖｅを下記の式（４）とする。

ａｖｅ＝（ｖ１＋ｖ２＋・・・＋ＶＮｍ）／Ｎｍ・・・式（４）

予測が連続値の場合と離散値の場合で定義式が下記に示すように異なる。
連続値の場合は、下記の式（５）となる。

分散＝（（ｖ１−ａｖｅ）＊（ｖ１−ａｖｅ）＋（ｖ２−ａｖｅ）＊（ｖ２−ａｖｅ）＋・・・
＋（ｖＮｍ−ａｖｅ）＊（ｖＮｍ−ａｖｅ））／Ｎｍ・・・式（５）

ここでは、分散を式（５）のように定義しているがこれに限定されない。たとえば、式（５）の定数倍など、定性的な性質が変わらないような指標で定義されていてもよい。

一方、離散値の場合には別の定義式、下記の式（６）および式（７）を用いる。
ここで、平均はクラスｉに分類された頻度が最大のもののクラスを平均値とする。
分散は以下のように定義する。

ｐｉ＝（ｉ番目のクラスに分類された個数）／Ｎｍ・・・式（６）

ｖａｒ＝ｐ１＊ｌｏｇ（ｐ１）＋ｐ２＊ｌｏｇ（ｐ２）＋・・・
＋ｐｎ＊ｌｏｇ（ｐｎ）・・・式（７）

ただしｐｉ＝０の時にはｐ２＊ｌｏｇ（ｐ２）＝０とする。このときも同様に定数倍など定性的な性質が変わらないような指標で定義されていてもよい。

以下に、集計部１１４におけるデータの複数の集計方法について、それぞれ説明する。

（１）平均する方法
本実施形態のデータセット選択装置２０において、抽出部（集計部１１４および抽出部１１６）は、予測結果取得部（予測結果受信部１１０）が取得した複数の予測結果値のデータセット毎に合計または平均値を算出する合計算出部（集計部１１４）と、複数の予測結果値のデータセット毎の合計または平均値の分散値を算出する分散算出部（集計部１１４）と、分散値が所定の閾値以上か否かを判別する判別部（抽出部１１６）と、を含み、抽出部（集計部１１４および抽出部１１６）は、判別部（抽出部１１６）が閾値以上と判別した予測結果値に該当するデータセットを実験候補データとして抽出する。

詳細には、データｉに対して複数の予測結果の平均もしくは分散の値ｖｉを計算することができる。あらかじめ定義されたデータセットごとにそれらの値の平均を求める方法である。つまり以下のように計算を行う。

ＡｖｅＤｊ＝（ｖ（Ｓｋ１）＋・・・＋ｖ（ＳｋＮｋ））／（Ｎｋ）・・・式（８）

それぞれの結果の大小関係を保つような変形もここでは含まれているとする。

（２）値の小さなデータから順番に番号をつけていき、その番号を平均する方法
本実施形態のデータセット選択装置２０において、抽出部（集計部１１４および抽出部１１６）は、分散値を所定の定義に従って、優先順位付けし、優先順位付けられた優先順位の高い予測結果値に該当するデータセットを順次前記実験候補データとして抽出する。

詳細には、各データｉの平均もしくは分散の値ｖｉを計算し、その値の小さな順に並び替え、その順番で１から順に番号Ｎ（ｖｉ）を割り当てることができる。あらかじめ定められたデータセットに対して下記の式（９）を計算することができる。

Ｎ（ｖｉ（Ｓ１））＋・・・＋Ｎ（ｖｉ（Ｓｋｋ））／（ｋｋ）・・・式（９）

なお、それぞれの結果の大小関係を保つような変形もここでは含まれているとする。ここで定義された値が大きなものから順に優先順位付けを行い、優先度の高いものから順に出力する。

（３）ある特定のデータ分布に近いデータセットに優先順位を付与する方法
この手法の説明を行う前にデータの記述方法について説明を行う。

（ｉ）離散値の予測を行う場合

頻度そのもののヒストグラムとして表現することができる。たとえばクラスａ１，ａ２，・・・，ａｎを予測するシステムであれば、以下のようにヒストグラムを表現することができる。
（予測値＝ａ１の頻度，予測値＝ａ２の頻度，・・・，予測値＝ａｎの頻度）

なお、以下に示す方法は、上記表現方法を含んでいるとも言えるが、上記方法は２つのパラメータによって簡単に表現することが可能であるため、敢えて上記と分けて考えることにする。
（ｉｉ）連続値の予測を行う場合
本実施形態のデータセット選択装置２０において、抽出部（集計部１１４および抽出部１１６）は、パラメータの値の所定の頻度分布の指定を受け付ける頻度分布受付部（データ入力受付部１０２）と、予測結果取得部（予測結果受信部１１０）が取得した複数の予測結果値のデータセットのパラメータの値を頻度分布と比較して、頻度分布に近似するパラメータの値の個数をデータセット毎に合計または平均値を算出する算出部（集計部１１４）と、算出部（集計部１１４）によって算出された合計または平均値が所定の閾値以上か否かを判定する分布判定部（抽出部１１６）を含むことができ、抽出部（集計部１１４および抽出部１１６）は、判別部（抽出部１１６）が閾値以上と判別した予測結果値に該当するデータセットを実験候補データとして抽出する。

詳細には、クラス分けの場合と同様に、結果の予測値をある区間で区切り、ヒストグラムによって結果を表現することができる。
（区間１に属する予測値の頻度，区間２に属する予測値の頻度，・・・，区間ｎに属する予測値の頻度）

まず能動学習装置３０が出力した下位学習機械のデータヒストグラムをデータごとに計算する。次に計算されたヒストグラムと出力データ分布記憶装置２７に記憶されているユーザが入力したデータ分布とを比べそれらの間の差が小さいデータの個数をデータセットごとにカウントする。複数のヒストグラムが存在する場合にその中でもっとも差が小さなものをその値としその大小によってカウントを行う。なお、抽出部１１６は、このカウントが大きなものから順に高い優先順位を付け、後述する実験候補データ送信部１２０は、この優先順位の高いものから実測装置４０に出力する。ここでヒストグラムを計算すると書いたが、定性的に同値な手法ならヒストグラムでなくても良い。

なお、上述の複数の手法の中からいずれの手法を用いて集計部１１４および抽出部１１６が集計および抽出を行うかは、制御パラメータ１９に記載されており、集計部１１４は、制御パラメータ１９によって指定された手法を用いて動作する。

実験候補データ送信部１２０は、実験候補記憶装置２９から実験候補データを読み出し、実測装置４０に送信するとともに、実測値受信部１３０に実測装置４０に送信した実験候補データを通知し、その後、実測装置４０から受信された実測値と対応付けられるようにする。実測値受信部１３０は、実測装置４０から実測値を受信し、受信した実測値を実験候補データと対応付けて実測値記憶部１３２に記憶するとともに、更新部１３４に通知する。実測値記憶部１３２は、実測装置４０から実測値受信部１３０が受信した実測値を実験候補データと対応付けて記憶する。

更新部１３４は、実測値記憶部１３２に記憶された実験候補データと実測値を対応付けて、新たな訓練データを生成し、訓練データ記憶装置２１に記憶するとともに、訓練データ記憶装置２１に記憶した実験候補データは、実験候補記憶装置２９から削除する。更新部１３４によって更新された訓練データを能動学習装置３０に送信し、能動学習を繰り返させることにより、より精度の高い予測値を求めることができる。

このように構成された本実施形態の実験計画システム１の動作について、以下に説明する。図４は、本実施の形態の実験計画システム１の動作の一例を示すフローチャートである。以下、図３および図４を用いて説明する。

まず、入力装置１０において、訓練データ１１、予測データ１３、プレート情報１５、データ分布１７、および制御パラメータ１９が入力され、受け付けられる（ステップＳ１１）。そして、入力装置１０に与えられた訓練データ１１、予測データ１３、プレート情報１５、データ分布１７、および制御パラメータ１９はデータセット選択装置２０に送信される（ステップＳ１３）。

そして、データセット選択装置２０では、入力装置１０から受信した訓練データ１１、予測データ１３、プレート情報１５、データ分布１７、および制御パラメータ１９をデータ入力受付部１０２（図３）が受信し（ステップＳ１０１）、訓練データ記憶装置２１、予測データ記憶装置２３、データセット記憶装置２５、出力データ分布記憶装置２７およびパラメータ記憶部１０４（図３）にそれぞれ記憶する（ステップＳ１０３）。

次に、訓練データ記憶装置２１に記憶された訓練データ１１および予測データ記憶装置２３に記憶された予測データ１３をデータ・パラメータ送信部１０６（図３）が能動学習装置３０に送信する（ステップＳ１０５）。このとき、データ・パラメータ送信部１０６は、パラメータ記憶部１０４に記憶された能動学習装置３０に指示すべき制御パラメータもともに能動学習装置３０に送信する。能動学習装置３０では、送信された訓練データ１１および予測データ１３、ならびに制御パラメータを受信する（ステップＳ２０１）。

そして、データセット選択装置２０から送信された制御パラメータによって指定された手法を選択して、受信した訓練データ１１を使って学習を行い、予測データの予測を行う（ステップＳ２０３)。次に、能動学習装置３０は、学習を行った予測結果（複数の予測データおよび分散値）をデータセット選択装置２０に送信する（ステップＳ２０５）。なお、ここで、能動学習装置３０の複数の学習機械がそれぞれ予測した複数の予測結果も同様にデータセット選択装置２０に送信する。データセット選択装置２０は、能動学習装置３０から予測結果を予測結果受信部１１０（図３）が受信する（ステップＳ１０７）。

そして、データセット選択装置２０は、受信した予測結果に基づいて、データセットの選択処理を行う（ステップＳ１０９）。このデータセットの選択処理については、上述したように、予めユーザによって指定された手法によって行われ、特定のデータセットが選択される。ここで、選択された予測データ１３のデータセットは、抽出部１１６によって予測データ記憶装置２３から実験候補記憶装置２９に記憶されるとともに、実験候補記憶装置２９に記憶された予測データ１３は、予測データ記憶装置２３から削除される。

そして、実験候補データ送信部１２０が実験候補記憶装置２９から実験候補データを読み出し、実測装置４０に送信する（ステップＳ１１１）。そして、実測装置４０は、実験候補データを受信し（ステップＳ３０１）、ＨＴＳを行い、データを実測する（ステップＳ３０３）。そして、得られた結果として実測値をデータセット選択装置２０に送信する（ステップＳ３０５）。データセット選択装置２０では、実測値受信部１３０が実測装置４０から実測値を受信し、受信した実測値を実験候補データと対応付けて実測値記憶部１３２に記憶する（ステップＳ１１３）。更新部１３４は、実測値記憶部１３２に記憶された実験候補データと実測値を対応付けて、新たな訓練データを生成し、訓練データ記憶装置２１に記憶するとともに、訓練データ記憶装置２１に記憶した実験候補データは、実験候補記憶装置２９から削除する（ステップＳ１１５）。

ステップＳ１０５〜ステップＳ１１５までの処理において得られる結果が、高い予測精度になるまで（ステップＳ１１７のＮＯ）、ステップＳ１０５に戻る。すなわち、データ・パラメータ送信部１０６が訓練データ記憶装置２１に記憶された訓練データ１１および予測データ記憶装置２３に記憶された予測データ１３を能動学習装置３０に送信し、能動学習装置３０では、受信した訓練データ１１を用いて学習を行い、予測データ１３の予測を行い、結果をデータセット選択装置２０に返信することを繰り返す。

ステップＳ１１５で、予測精度が高くなったとき（ステップＳ１１７のＹＥＳ）、本処理を終了する。なお、ステップＳ１１７での判断は、制御部１００により判断される。たとえば、結果が既知のデータの一部を結果が未知のデータに置き換えて予測を行い、その実測値と予測値とを比較して測定する方法（ＣｒｏｓｓＶａｌｉｄａｔｉｏｎと呼ばれる手法など）を用いて正解率を算出し、算出された正解率を所定の閾値と比較し、閾値を超えたとき予測精度が高くなったと判断することができる。あるいは、制御部１００は、判断結果を表示部（不図示）に出力し、ユーザから処理の続行または停止の指示を受付部（不図示）が受け付け、処理を終了させることができる。

以上、説明したように、本実施形態の実験計画システム１によれば、データセットに対応した能動学習法システムを構築することができ、データセットに対応した実験課題に対しても能動学習法を使った効率化を図れるようになる。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

たとえば、本発明の実験計画システム１におけるデータセット選択装置２０は、能動学習装置３０の結果から効率的な探索を行うためのデータセットを選び出すための機能を最低限備えていればよい。すなわち、図５に示すように、図１のデータセット選択装置２０が備えていた訓練データ記憶装置２１、予測データ記憶装置２３、実験候補記憶装置２９は、図５のデータセット選択装置２２０ではなく、能動学習装置２３０に備えてもよい。すなわちデータセット選択装置２２０は、データセット記憶装置２２５、出力データ分布記憶装置２２７および制御部２５０を備え、能動学習装置２３０は、訓練データ記憶装置２２１、予測データ記憶装置２２３、および実験候補記憶装置２２９を備えることができる。

また、図６に示すように、図１のデータセット選択装置２０が備えていたデータセット記憶装置２５および出力データ分布記憶装置２７は、図６のデータセット選択装置３２０ではなく、入力装置３１０に備えてもよい。すなわち入力装置３１０は、データセット記憶装置３２５および出力データ分布記憶装置３２７を備え、データセット選択装置３２０は、訓練データ記憶装置３２１、予測データ記憶装置３２３、実験候補記憶装置３２９、および制御部３５０を備えることができる。

あるいは、図７に示すようにそれぞれの記憶装置、訓練データ記憶装置４２１、予測データ記憶装置４２３、データセット記憶装置４２５、出力データ分布記憶装置４２７、および実験候補記憶装置４２９が独立して配置されてもよい。

また、上記データセット選択装置２０において、抽出部（集計部１１４および抽出部１１６）のいずれでデータセットを抽出するかの指定をユーザから受け付ける方法受付部（データ入力受付部１０２）を備えることができ、方法受付部が受け付けた抽出部でデータセットを抽出することができる。

（実施例１）
以下の実施例では、データセットに含まれる複数のデータとして化合物を示す訓練データ１１および予測データ１３を用いた。化合物を示す訓練データ１１または予測データ１３の記述子としては、各化合物における所定の構造の有無に基づいてビット列に変換した。訓練データ１１の値は、ある特定の活性を持つものに対して１を対応させ、活性を持たないものに対しては０を対応させた。活性の有無については、活性の強度で測定を行いある閾値を超えるものを活性が有するもの（正例）とし、それ以下のものは活性を持たないもの（負例）とした。能動学習装置３０としては独自に開発を行っている装置を使用した。

また各データセットが９６個のデータを含むようにランダムに設定を行った。これは、９６個のウェルを有するプレートをシミュレーションするためである。

実施例１では、データセット毎に分散の平均を求め、値の大きなものから順に優先順位を割当てていく方法を用いた。この方法では偏りの少ないデータに対してより高い効率を期待することができる。図８は、ランダムにデータセットを選択した場合と本システムの効果を比較した実施例の結果を示す図である。横軸は偽陽性率、縦軸は真陽性率を示す。ここで、偽陽性率とは、（負例のうち正と判断された個数）／（全負例の個数）であり、真陽性率とは、（正例のうち正と判断された個数）／（全正例の個数）である。図８に二本の線Ｌ１および線Ｌ２が存在しているが線Ｌ２が本システムを用いてデータセットを選択した場合、線Ｌ１がランダムにデータセットを選び出した場合の学習精度を示している。

ここでは、ランダムおよび本システムとも同じ回数学習処理を繰り返した時の学習精度を示した。従来は複数のデータをまとめたデータセットを扱うような処理機構が存在していなかったため、データセットをランダムに選択して比較した。ここでは、線が左上に行くほど、言い換えれば、斜線で示した面積Ｓ１が広い程、学習精度としては高いものであることを示している。図８から分かるようにランダムに選択したものに比べ本システムの線Ｌ２の方が非常に高い予測精度を達成できていることが分かる。

（実施例２）
次に、分散の小さなデータから順番をつけていく方法について上記と同様なデータを用いて実施した。同様にこの方法では偏りの少ないデータに対してより高い効率を期待することができる。しかしこの方法は前の手法とは異なり、データセット毎に分散のばらつきが大きな場合に有効な方法である。分散のばらつきが大きな値の場合、上記手法で計算した平均値はデータセットの代表として使うには信頼性にかけるためである。実施例１と同様な実験を行った。図９はランダムにデータセットを選択した場合と本システムの効果を比較した実施例の結果を示す図である。横軸は偽陽性率、縦軸は真陽性率を示す。図９に二本の線Ｌ１および線Ｌ３が存在しているが線Ｌ３が本システムを用いてデータセットを選択した場合、線Ｌ１がランダムにデータセットを選び出した場合の学習精度を示している。

ここでは、ランダムおよび本システムとも同じ回数学習処理を繰り返した時の学習精度を示した。従来は複数のデータをまとめたデータセットを扱うような処理機構が存在していなかったため、データセットをランダムに選択して比較した。ここでは、線が左上に行くほど、言い換えれば、斜線で示した面積Ｓ２が広い程、学習精度としては高いものであることを示している。図９から分かるように、ランダム選択したものに比べ本システムの線Ｌ３の方が非常に高い予測精度を達成できていることが分かる。また、図８の実施例１に比較して、図９の実施例２の方が、面積Ｓ１より面積Ｓ２の方が広いことから、予測精度が高いことが分かる。但し、この結果は、実施例１の手法より実施例２の手法の方が、予測精度が高くなることを示唆するものではなく、条件や処理対象などによって異なる。

（実施例３）
次は、ある特定のデータ分布に近いデータセットに優先順位をつける方法について実施した。この手法を適用する場合、分類を行うクラス（もしくは値）の間で重要度が異なることが多いことが想定される。たとえばＡ、Ｂ、およびＣのクラス分けを行うときに、そのクラスの順に重要度が設定されるような場合である。その場合、Ａ、Ｂ、およびＣの３クラスに判断が分かれる点を探すよりも、ＡおよびＢの２クラスで判断が分かれる点が重要であることも考えられうる。そのような状況のときにこの手法を使うことができる。データとしてＡ、Ｂ、およびＣの３クラスへの分類を行うデータを設定した。

重要度はＡが極めて高く、ＢおよびＣは同程度に低いとした。そのとき重要度を測る指標として値Ａを持つデータがどの程度能動学習法によって選び出すことができたのかを使った。また選び出す分布としてはＡの値が半分以上のヒストグラムを複数入力した。その場合の結果を図１０に示す。横軸は実験データ数、縦軸は学習により選び出すことのできたＡの個数を示している。線Ｌ１１はランダムにデータセットを選択した場合に対応している。曲線Ｌ１２は本システムを用いてデータセットを選択した場合の結果を示している。

図１０に示すように、本システムを用いた場合の方が、より多くのターゲットが学習により選抜されたことが分かった。

本発明の実施の形態に係る実験計画システムの概略構成を示すブロック図である。本実施形態の実験計画システムにおける選択すべきデータセットのデータ分布の例を説明するための図である。本実施形態のデータセット選択装置の制御部の構成の詳細を示す機能ブロック図である。本実施の形態の実験計画システムの動作の一例を示すフローチャートである。本発明の他の実施形態に係る実験計画システムの概略構成を示すブロック図である。本発明の他の実施形態に係る実験計画システムの概略構成を示すブロック図である。本発明の他の実施形態に係る実験計画システムの概略構成を示すブロック図である。ランダムにデータセットを選択した場合と本システムの効果を比較した一実施例の結果を示す図である。ランダムにデータセットを選択した場合と本システムの効果を比較した他の実施例の結果を示す図である。ランダムにデータセットを選択した場合と本システムの効果を比較した他の実施例の結果を示す図である。

符号の説明

１実験計画システム
１０入力装置
１１訓練データ
１３予測データ
１５プレート情報
１７データ分布
１９制御パラメータ
２０データセット選択装置
２１訓練データ記憶装置
２３予測データ記憶装置
２５データセット記憶装置
２７出力データ分布記憶装置
２９実験候補記憶装置
３０能動学習装置
４０実測装置
１００制御部
１０２データ入力受付部
１０４パラメータ記憶部
１０６データ・パラメータ送信部
１１０予測結果受信部
１１２予測結果記憶部
１１４集計部
１１６抽出部
１２０実験候補データ送信部
１３０実測値受信部
１３２実測値記憶部
１３４更新部
２２０、３２０、データセット選択装置
２２１、３２１、４２１訓練データ記憶装置
２２３、３２３、４２３予測データ記憶装置
２２５、３２５、４２５データセット記憶装置
２２７、３２７、４２７出力データ分布記憶装置
２２９、３２９、４２９実験候補記憶装置
２３０能動学習装置
２５０、３５０制御部
３１０入力装置

Claims

複数の属性値および前記複数の属性値に対応する既知の出力値を含む訓練データを複数含むデータセットを受け付ける訓練データ受付部と、
予め準備された複数の属性値を含み、前記複数の属性値に対応する未知の出力値を求めるための予測データを複数含むデータセットを受け付ける予測データ受付部と、
前記データセットの前記訓練データの前記複数の属性値に対応する前記出力値の対応関係を、異なる複数の予測アルゴリズムを含む能動学習装置を用いて、前記複数の予測アルゴリズムでそれぞれ学習させる能動学習制御部と、
前記複数の予測アルゴリズムによりそれぞれ学習された複数の前記対応関係を用いて、前記予測データに対応する出力値を予測し、予測結果値として前記複数の予測アルゴリズム毎に複数取得する予測結果取得部と、
前記予測結果取得部が取得した前記複数の予測アルゴリズムによる複数の前記予測結果値のばらつきが対応する前記予測データの前記データセット内で大きいものを選択し、複数の実験候補データを含むデータセットとして抽出する抽出部と、を備えることを特徴するデータセット選択装置。
請求項１に記載のデータセット選択装置において、
前記抽出部は、前記予測結果取得部が取得した前記複数の予測結果値の前記データセットを所定の手順でそれぞれ集計してパラメータ化し、前記パラメータの値が所定の閾値を超えるものを最適な集計結果として選択し、該選択された集計結果に対応する前記予測結果値の前記予測データのデータセットを前記実験候補データとして抽出することを特徴とするデータセット選択装置。
請求項２に記載のデータセット選択装置において、
前記抽出部は、
前記予測結果取得部が取得した前記複数の予測結果値の前記データセット毎に合計または平均値を算出する合計算出部と、
前記複数の予測結果値の前記データセット毎の前記合計または前記平均値の分散値を算出する分散算出部と、
前記分散値が所定の閾値以上か否かを判別する判別部と、を含み、
前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することを特徴とするデータセット選択装置。
請求項３に記載のデータセット選択装置において、
前記抽出部は、
前記分散値を所定の定義に従って、優先順位付けし、
前記優先順位付けられた優先順位の高い予測結果値に該当する前記データセットを順次前記実験候補データとして抽出することを特徴とするデータセット選択装置。
請求項３または４に記載のデータセット選択装置において、
前記抽出部は、
前記パラメータの値の所定の頻度分布の指定を受け付ける頻度分布受付部と、
前記予測結果取得部が取得した前記複数の予測結果値の前記データセットの前記パラメータの値を前記頻度分布と比較して、前記頻度分布に近似する前記パラメータの値の個数を前記データセット毎に合計または平均値を算出する算出部と、
前記算出部によって算出された前記合計または前記平均値が所定の閾値以上か否かを判定する分布判定部を含み、
前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することを特徴とするデータセット選択装置。
請求項３乃至５いずれかに記載のデータセット選択装置において、
請求項３乃至５に記載の前記抽出部のいずれで前記データセットを抽出するかの指定をユーザから受け付ける方法受付部を備え、
前記方法受付部が受け付けた前記抽出部で前記データセットを抽出することを特徴とするデータセット選択装置。
請求項１乃至６いずれかに記載のデータセット選択装置において、
前記訓練データ受付部が受け付けた前記訓練データを記憶する訓練データ記憶部と、
前記抽出部が抽出した一つ以上の前記実験候補データを実測装置に送信する実験候補データ送信部と、
前記実測装置にて前記実験候補データに基づいて実測された実測値を受信する実測値受信部と、
前記実測値受信部が受信した前記実測値を前記実験候補データの前記データセットに対応付けて前記訓練データ記憶部の前記訓練データを更新する更新部と、
を備えることを特徴とするデータセット選択装置。
請求項７に記載のデータセット選択装置において、
前記実測装置は、被検用プレートに含まれる複数の化合物の活性を測定し、
前記訓練データ受付部は、複数の化合物の属性値および既知の活性を予め訓練データとして受け付け、前記訓練データ記憶部に記憶し、
前記予測データ受付部は、複数の化合物を含む複数の被検用プレートの予測データのデータセットをそれぞれ受け付けることを特徴とするデータセット選択装置。
請求項１乃至８いずれかに記載の前記データセット選択装置と、
請求項１乃至８いずれかに記載の前記複数の予測アルゴリズムを含む前記能動学習装置と、を備える実験計画システム。