JP5044980B2 - 実験計画方法、実験計画システムおよび、実験計画プログラム - Google Patents

実験計画方法、実験計画システムおよび、実験計画プログラム Download PDF

Info

Publication number
JP5044980B2
JP5044980B2 JP2006131514A JP2006131514A JP5044980B2 JP 5044980 B2 JP5044980 B2 JP 5044980B2 JP 2006131514 A JP2006131514 A JP 2006131514A JP 2006131514 A JP2006131514 A JP 2006131514A JP 5044980 B2 JP5044980 B2 JP 5044980B2
Authority
JP
Japan
Prior art keywords
experiment
candidate data
training data
data
active learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006131514A
Other languages
English (en)
Other versions
JP2007304783A (ja
Inventor
勉 襲田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006131514A priority Critical patent/JP5044980B2/ja
Publication of JP2007304783A publication Critical patent/JP2007304783A/ja
Application granted granted Critical
Publication of JP5044980B2 publication Critical patent/JP5044980B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、実験計画方法および実験計画システムに関し、特に、能動学習システムを用いた実験計画方法および実験計画システムに関する。
能動学習法とは、たとえば、創薬開発の現場などで、数十万から数百万個の全化合物の中からターゲットに対する活性を有する化合物を探索する必要があるような場合に、実測と学習とを繰り返すことでより少ない実測回数で高速に学習を行うことを可能とする手法である。あるいは、実験候補データとして出力されたものに従い実験を行うことで、実験の手順を示す実験計画法と言うこともできる。
従来の能動学習システムとしては、たとえば特許文献1や特許文献2に記載されたものがある。
主な能動学習法としては、たとえば、Query by boosting法(以下、「ブースティング法」と呼ぶ)、Query By Committee法(以下、「コミッティ法」と呼ぶ)、およびQuery By Bagging法(以下、「バギング法」と呼ぶ)などがある。(たとえば、非特許文献1参照。)
従来の能動学習システムでは、訓練データに基づいて、入力値と出力値の間に成り立つ関数を学習し、学習された関数に基づいて、評価データの入力値から予測出力値を求め、予測結果として出力するものである。
特開平11−316754号公報 特開2005−107743号公報 森下慎一編集、宮野悟編集、「発見科学とデータマイニング」、初版、共立出版、2001年6月、p.318
しかしながら、従来の能動学習システムでは、以下の点で改善の余地を有していた。
従来システムでは能動学習の結果として複数の予測結果データを出力することもできるが、そこで出力された複数のデータは同じ学習手法に基づく学習結果のため、お互いに類似しているデータとなってしまう。したがって、できる限り少ない実測回数で効果的な実験を行いたいという観点からは、効率を悪化させる要因となっていた。すなわち、学習結果としては、できる限り異なる特徴を有する少数のデータに基づいて、実験を行うことができるものが望ましく、効率向上により効果的である。
本発明は上記事情に鑑みてなされたものであり、その目的とするところは、能動学習システムを用いた効率の良い実験計画方法およびシステムを提供することにある。
本発明によれば、少なくとも一つの記述子と値の間に成り立つ所定の関数を訓練データに基づいて学習する能動学習装置を用いて、前記所定の関数を求めるための実測装置において使用する複数の実験候補データを選択する実験計画方法であって、
前記実験候補データを記憶する実験候補データ記憶部に接続された制御装置が、
記少なくとも一つの記述子および前記値を含む訓練データを複数受け付け、
記受け付けた複数の訓練データを前記能動学習装置に出力し、
前記能動学習装置、所定のアルゴリズムを用いて前記関数を学習し、
前記制御装置が、
記能動学習装置から順位付けされた実験候補データを入力し、
記入力された前記実験候補データを前記実験候補データ記憶部に記憶し、
記実験候補データに、取り得る異なる複数の予測値を割り当て、新たな訓練データを生成して、前記能動学習装置に出力し、
前記能動学習装置が、前記新たな訓練データに基づいて、再度前記関数を学習し、
前記制御装置が、
記能動学習装置から前記順位付けされた前記実験候補データを入力し、前記実験候補データ記憶部に追加し、前記実験候補データが所定数、前記実験候補データ記憶部に記憶されるまで、前記新たな訓練データの生成、前記能動学習装置への出力、前記順位付けされた前記実験候補データの入力、および前記実験候補データ記憶部への追加を繰り返すことを特徴とする実験計画方法が提供される。
ここで、能動学習装置が用いる所定のアルゴリズムとは、たとえば、ブースティング法、コミッティ法、およびバギング法などを用いることができる。この発明によれば、能動学習システムを用いた実験計画を効率よく行えることとなる。
上記実験計画方法において、前記異なる複数の予測値をパラメータとして予め記憶する設定記憶部をさらに備えることができ、前記制御装置が、前記設定記憶部に記憶されている前記パラメータに従って、前記実験候補データに、前記取り得る異なる複数の予測値を割り当て、前記新たな訓練データを生成して、前記能動学習装置に出力することができる。また、上記実験計画方法において、前記異なる複数の予測値の設定を受け付け、前記予測値の割り当てに使用することができる。なお、受け付けた設定は、上記記憶部に記憶させることもできるし、設定を受け付けた時に、設定有効期間も同時に受け付け、その期間だけ使用することもできる。
上記実験計画方法において、前記能動学習装置が前記訓練データを入力したとき、複数の前記訓練データのうち前記記述子の距離が近い2つの訓練データ毎に前記記述子の中間値を算出し、前記中間値を記述子として前記実験候補データを生成し、順位付けして出力することができる。
ここで、中間値とは、たとえば、訓練データの記述子毎の中間値、標準偏差の所定範囲内の値などと定義することができる。また、2つの訓練データ間の距離とは、n次元のデータを含むことができる。その場合、n次元のデータ空間の中間点となる。
上記実験計画方法において、前記能動学習装置が前記訓練データを入力したとき、前記訓練データのうち前記記述子の距離が近い2つの訓練データ毎に前記記述子の平均値を算出し、前記平均値を記述子として前記実験候補データを生成し、順位付けして出力することができる。
上記実験計画方法において、前記所定数の前記実験候補データが前記実験候補データ記憶部に記憶された後、前記実測装置に前記実験候補データ記憶部から前記実験候補データを出力し、前記出力された前記実験候補データを前記実験候補データ記憶部から削除し、前記実測装置から実測結果データを入力し、新たな訓練データとして受け付け、前記実験候補データが所定数、前記実験候補データ記憶部に記憶されるまで、前記順位付けされた前記実験候補データを前記実験候補データ記憶部に追加することができる。
上記実験計画方法において、前記実測装置に前記実験候補データの出力を繰り返し、その結果得られた結果を訓練データとして前記能動学習装置に前記関数を学習させることができる。
上記実験計画方法において、前記訓練データの前記記述子および前記値は、化合物の属性を示す値とすることができる。
上記前記訓練データの前記値は、前記化合物の前記属性として、所定の置換基の有無およびその配置を示すビット列、分子量、疎水性の有無、回転結合数などを含むことができる。
本発明によれば、少なくとも一つの記述子と値の間に成り立つ所定の関数を訓練データに基づいて学習する能動学習装置を用いて、前記所定の関数を求めるための実測装置において使用する実験候補データを選択する実験計画システムであって、
前記少なくとも一つの記述子および前記値を含む訓練データの入力を複数受け付ける訓練データ受付部と、
前記訓練データ受付部が受け付けた複数の訓練データを前記能動学習装置に出力する出力部と、
前記能動学習装置に、所定のアルゴリズムを用いて前記関数を学習させ、前記能動学習装置から順位付けされた実験候補データを入力する入力部と、
前記入力部により入力された前記実験候補データを記憶する実験候補データ記憶部と、
前記実験候補データに、取り得る異なる複数の予測値を割り当て、新たな訓練データを生成して、前記出力部に、前記能動学習装置に出力させる訓練データ生成部と、
前記新たな訓練データに基づいて、再度前記能動学習装置に前記関数を学習させ、前記能動学習装置から前記順位付けされた前記実験候補データを前記入力部に入力させ、前記実験候補データ記憶部に追加し、前記実験候補データが所定数、前記実験候補データ記憶部に記憶されるまで、前記訓練データ生成部に前記新たな訓練データの生成、前記能動学習装置への出力、前記入力部に前記順位付けされた前記実験候補データの入力、および前記実験候補データ記憶部への追加を繰り返させる制御部と、
を備えることを特徴とする実験計画システムが提供される。
さらに、本発明によれば、少なくとも一つの記述子と値の間に成り立つ所定の関数を訓練データに基づいて学習する能動学習装置を用いて、前記所定の関数を求めるための実測装置において使用する実験候補データを選択する実験計画プログラムであって、
前記実験候補データを記憶する実験候補データ記憶部を備えるコンピュータを、
前記少なくとも一つの記述子および前記値を含む訓練データの入力を複数受け付ける訓練データを受け付ける手段、
受け付けた複数の訓練データを前記能動学習装置に出力する手段、
前記能動学習装置に、所定のアルゴリズムを用いて前記関数を学習させ、前記能動学習装置から順位付けされた実験候補データを入力する手段、
入力された前記実験候補データを前記実験候補データ記憶部に記憶する手段、
前記実験候補データに、取り得る異なる複数の予測値を割り当て、新たな訓練データを生成して、前記能動学習装置に出力する手段、
前記新たな訓練データに基づいて、再度前記能動学習装置に前記関数を学習させ、前記能動学習装置から前記順位付けされた実験候補データを前記入力する手段に入力させ、前記実験候補データ記憶部に追加し、前記実験候補データが所定数、前記実験候補データ記憶部に記憶されるまで、前記新たな訓練データの生成、前記能動学習装置への出力、前記順位付けされた実験候補データの入力、および前記実験候補データ記憶部への追加を繰り返させる手段、として機能させるための実験計画プログラムが提供される。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、能動学習システムを用いた効率の良い実験計画方法およびシステムが提供される。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
図1は、本発明の実施の形態に係る実験計画システムの概略構成を示すブロック図である。本実施形態の実験計画システム100は、少なくとも一つの記述子と値の間に成り立つ所定の関数を訓練データに基づいて学習する能動学習装置を用いて、所定の関数を求めるための実測装置において使用する実験候補データを選択する実験計画システム100であって、少なくとも一つの記述子および値を含む訓練データの入力を複数受け付ける訓練データ受付部(制御装置20)と、訓練データ受付部が受け付けた複数の訓練データを能動学習装置30に出力する出力部(制御装置20)と、能動学習装置30に、所定のアルゴリズムを用いて関数を学習させ、能動学習装置30から順位付けされた実験候補データを入力する入力部(制御装置20)と、入力された実験候補データを記憶する実験候補データ記憶部(実験候補データ記憶装置42)と、実験候補データに、取り得る異なる複数の予測値を割り当て、新たな訓練データを生成して、能動学習装置30に出力する訓練データ生成部(制御装置20)と、新たな訓練データに基づいて、再度能動学習装置30に関数を学習させ、能動学習装置30から順位付けされた実験候補データを入力部に入力させ、実験候補データ記憶部(実験候補データ記憶装置42)に追加し、実験候補データが所定数、実験候補データ記憶部(実験候補データ記憶装置42)に記憶されるまで、訓練データ生成部に新たな訓練データの生成、能動学習装置30への出力、前記入力部に順位付けされた実験候補データの入力、および前記実験候補データ記憶部への追加を繰り返させる制御部(制御装置20)と、を備える。
本発明の実施の形態に係る実験計画システム100は、能動学習法を用いた実験計画法を提示するものである。ここで、能動学習法とは、予め準備された訓練データから複数の記述子と値を関連付ける関数を学習し、学習した関数を用いて予測データを作成するものである。特に、本実施形態の実験計画システム100は、能動学習法によって出力された複数の予測データによる効率の良い実験計画法を提示するものである。主な能動学習法としては、特に限定されないが、たとえば、ブースティング法、コミッティ法、およびバギング法などを用いることができる。
特に本実施形態の実験計画システム100は、創薬開発現場などで、数十万から数百万個もの化合物の中からターゲットに対する活性を有する化合物を探索する実験の手順を提示するのに好適である。化合物が予め配置される複数のウェルが形成された複数のプレートを用いて、実測装置でハイスループットスクリーニング(HTS:High Throughput Screening)を行う場合に、できる限り少ない測定回数で効率良く実験結果を得るための実験計画法を提示するのに好適である。具体的には、実測装置で測定する際、ターゲットに対する活性を有する化合物をできる限り少ない測定回数で探索可能となるように、プレート上に配置すべき複数の化合物を複数選択して提示するものである。なお、以下に示す各図において、本発明の本質に関わらない部分の構成については省略してある。
また、実験計画システム100の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
具体的には、図1に示すように、本実施形態の実験計画システム100は、訓練データ記憶装置12と、評価データ記憶装置14と、仮訓練データ記憶装置16と、仮評価データ記憶装置18と、制御装置20と、能動学習装置30と、実験候補データ記憶装置42と、実験候補データ記憶補助装置44と、実測装置50と、を備える。
訓練データ記憶装置12は、能動学習装置30で使用する訓練データを記憶する。本実施形態において、訓練データは、以下のフォーマットを有する。能動学習装置30は、後述するように、訓練データに基づいて、記述子と値を関連付ける関数を学習し、学習した関数を用いて予測データを作成するものである。
Dj=(記述子1j,記述子2j,記述子3j,・・・,記述子Nj,値j) ・・・ 式(1)
ここで、jは1〜Mの自然数である。このように訓練データDjは、複数の記述子および対応する値を有する。本実施形態において、訓練データの記述子は、たとえば、化合物の分子量や特定の置換基の有無とその配置を示すビット列、疎水性の有無、回転結合数などを含む各種の属性パラメータで示すことができる。また、訓練データの値は、少なくとも一つのターゲットに対する活性の有無を数値化したパラメータで示すことができ、たとえば、実数値または2値化された離散値で示すことができる。なお、以下の説明において、活性がある化合物を「正例」、および活性がない化合物を「負例」とも呼ぶこととする。
複数の記述子を含む場合、各値の多次元の数値で示すことができる。本発明の実施の形態に係る実験計画システム100では、これらの多次元空間上の値のばらつきができる限り分散するように複数の実験候補データを選択する。また、たとえば記述子が化合物の属性を示す場合、化合物の類似度を示す尺度として、Tanimoto係数を用いることができる。たとえば、2つの化合物Aおよび化合物Bが仮に5ビット列で定義されるとすると、2つの化合物の類似度は、以下の式で表すことができる。
Tanimoto係数=(化合物Aと化合物Bの論理積の5ビット列のうち1であるビットの個数)/(化合物Aと化合物Bの論理和の5ビット列のうち1であるビットの個数) ・・・ 式(2)
このようにして得られたTanimoto係数によって表現される化合物の類似度のばらつきを示す尺度として、たとえば、クラスター解析を用いることができる。
本実施形態では、訓練データの区切り記号として","(カンマ)を使用しているが、必ずしもこれでなくてもよく":"(コロン)や" "(スペース)などでもよい。また、全体は、括弧で区切られているが、必ずしもデータはこのような形式でなくてもよく、一つ一つのデータが区別できるような形式になっていればよい。
評価データ記憶装置14は、能動学習装置30で使用する評価データを記憶する。本実施形態において、評価データは、利用者によって与えられ、以下のフォーマットを有する。
Di=(記述子1i,記述子2i,記述子3i,・・・,記述子Ni,?) ・・・ 式(3)
ここで、iは、1〜Lの自然数である。たとえば、評価データは、複数の訓練データの記述子の間を所定の間隔(精度)で分割して得られる離散点として、各記述子を決定することができる。
なお、能動学習装置30によって学習された関数に基づいて作成される予測データも、これに限定はされないが、上式(3)と同様のフォーマットとすることができる。
仮訓練データ記憶装置16は、訓練データ記憶装置12に記憶された訓練データを複製して仮訓練データとして一時的に記憶するものである。仮評価データ記憶装置18は、評価データ記憶装置14に記憶された評価データを複製して仮評価データとして一時的に記憶するものである。
制御装置20は、訓練データ記憶装置12、評価データ記憶装置14、仮訓練データ記憶装置16、仮評価データ記憶装置18、能動学習装置30、実験候補データ記憶装置42、実験候補データ記憶補助装置44、および実測装置50に接続され、本システム全体を制御する。
制御装置20は、訓練データおよび評価データを能動学習装置30に送信して、能動学習装置30にて学習され、予測された予測データを受信し、実験候補データを生成する。生成された実験候補データは、実測装置50に送信され、実測装置50にて実測された結果が制御装置20にフィードバックされる。
制御装置20は、プログラム記憶部(不図示)に記憶されたプログラムをCPU(不図示)により実行し、本発明の実験計画システムを実現するものである。
本実施形態において、このプログラムは、少なくとも一つの記述子と値の間に成り立つ所定の関数を訓練データに基づいて学習する能動学習装置30を用いて、所定の関数を求めるための実測装置において使用する実験候補データを選択する実験計画プログラムであって、実験候補データを記憶する実験候補データ記憶部(実験候補データ記憶装置42)を備えるコンピュータ(制御装置20)を、少なくとも一つの記述子および値を含む訓練データの入力を複数受け付ける手段、訓練データを受け付ける手段が受け付ける手段、受け付けた複数の訓練データを能動学習装置30に出力する手段、能動学習装置30に、所定のアルゴリズムを用いて関数を学習させ、能動学習装置30から順位付けされた実験候補データを入力する手段、入力された実験候補データを実験候補データ記憶部に記憶する手段、実験候補データに、取り得る異なる複数の予測値を割り当て、新たな訓練データを生成して、能動学習装置30に出力する手段、入力する手段により、新たな訓練データに基づいて、再度能動学習装置30に関数を学習させ、能動学習装置30から順位付けされた実験候補データを入力する手段に入力させ、実験候補データ記憶部(実験候補データ記憶装置42)に追加し、実験候補データが所定数、実験候補データ記憶部(実験候補データ記憶装置42)に記憶されるまで、新たな訓練データの生成、能動学習装置30への出力、順位付けされた実験候補データの入力、および前記実験候補データ記憶部への追加を繰り返させる手段、として機能させるためのものである。
なお、制御装置20および実測装置50は、必ずしも電気的または機械的に接続されている必要はなく、制御装置20によって得られた実験候補データに基づいて、実測装置50にてユーザが実測を行い、実測装置50から出力された予測結果をユーザが参照し、入力装置(不図示)を用いてユーザに制御装置20に入力させる構成とすることもできる。すなわち、実測装置50からの予測結果の出力は、ネットワークやシリアルあるいはパラレル通信ケーブルによる伝送媒体によってもよいし、モニタ画面上への表示や、プリンタへの印字出力、あるいは、記憶媒体へのデータの記録などとすることができる。
能動学習装置30は、制御装置20から送信された訓練データおよび評価データを用いて、複数の記述子と値を関連付ける関数を学習し、学習された関数に基づいて予測データを作成し、制御装置20に返信する。制御装置20および能動学習装置30間は、ネットワークや、シリアルまたはパラレル通信手段によって電気的に接続される。なお、能動学習装置30の詳細については、後述する。
実験候補データ記憶装置42は、制御装置20が能動学習装置30から受信した予測データに基づいて生成した実験候補データを記憶する。実験候補データ記憶補助装置44は、能動学習装置30から受信した予測結果を一時的に実験候補データとして記憶する。
実測装置50は、たとえば、96ウェルのプレートを複数セットし、HTSを行い、ターゲットに対する活性の有無を検査し、探索する。上述したように、実測装置50は、制御装置20から実験候補データを入力し、実測した結果を制御装置20に出力する。あるいは、実測装置50は、実測のシミュレーションを行う装置であってもよい。
図2は、本実施形態の制御装置20および能動学習装置30の詳細を示す機能ブロック図である。本実施形態の制御装置20は、訓練データ受付部102と、コピー部104と、評価データ受付部106と、送信部108と、制御部110と、設定記憶部112と、受信部114と、訓練データ生成部116と、判定部118と、候補データ出力部120と、実験結果入力部122と、次サイクル訓練データ生成部124と、を備える。
能動学習装置30は、受信部202と、訓練データ記憶部(図中、「訓練データ」と示す)204と、評価データ記憶部(図中、「評価データ」と示す)206と、学習部208と、関数記憶部(図中、「関数」と示す)210と、学習結果データ順位記憶部(図中、「学習結果データ順位」と示す)212と、送信部214と、を備える。
制御装置20において、訓練データ受付部102は、訓練データを受け付け、訓練データ記憶装置12に記憶する。訓練データ受付部102が受け付ける訓練データは、上記式(1)のフォーマットとする。本実施形態において、制御装置20は、キーボード、マウス、操作ボタン、スイッチ、レバー、タッチパネルなどのユーザが操作可能な操作入力部(不図示)あるいは、ネットワークや他の通信手段(シリアルまたはパラレル通信)を用いて他の記憶媒体あるいは記憶装置から有線または無線通信により受信する通信部(不図示)を備えることができる。訓練データ受付部102は、これらの操作入力部または通信部を介して訓練データを受け付ける。
コピー部104は、訓練データ受付部102が受け付けた訓練データを複製し、仮訓練データ記憶装置16に仮訓練データとして記憶する。評価データ受付部106は、利用者が操作入力部を用いて入力、あるいは予め記録媒体などから通信部を介して入力された評価データを受け付け、評価データ記憶装置14に記憶する。同時に、評価データ受付部106にて受け付けられ、評価データ記憶装置14に記憶された評価データは、コピー部104によって複製され、仮評価データ記憶装置18に仮評価データとして記憶される。
送信部108は、評価データ受付部106にて評価データが受け付けられた後、仮訓練データ記憶装置16および仮評価データ記憶装置18にそれぞれ記憶されている仮訓練データおよび仮評価データを能動学習装置30に送信する。
制御部110は、制御装置20の各構成要素と接続され、各構成要素とともに制御装置20全体を制御する。なお、各構成要素と制御部110間の接続は図2では省略してある。設定記憶部112は、制御装置20において必要とする、各種の設定値、パラメータ、フラグ、カウンタ値などを記憶する。たとえば、本実施形態においては、設定記憶部112は、能動学習装置30で使用する学習アルゴリズムの選択やパラメータの設定値や、実測装置50にて実測する実験候補データ数を記憶する。また、設定記憶部112は、能動学習装置30から得られた実験候補データに、取り得る異なる複数の予測値を、パラメータとして記憶する。さらに、設定記憶部112は、上記予測値が実験候補データに割り当てられ、仮訓練データが生成されたとき、その値が確率的に十分取り得る値か否かを判定するのに使用する判定値を記憶する。この判定値は、必要に応じて入力装置によりユーザが入力し、変更することも可能とする。
受信部114は、能動学習装置30から予測データを受信する。受信した予測データは、実験候補データ記憶補助装置44に実験候補データとして記憶される。実験候補データのフォーマットは、上記式(3)のフォーマットとする。
訓練データ生成部116は、受信部114が予測データを受信したとき、実験候補データとして実験候補データ記憶補助装置44に記憶する。そして、実験候補データ記憶補助装置44に記憶した実験候補データに対応する評価データを仮評価データ記憶装置18から削除する。そして、設定記憶部112に記憶されているパラメータに従って、実験候補データに、取り得る異なる複数の予測値を割り当て、仮訓練データを生成し、仮訓練データ記憶装置16に記憶する。また、後述する判定部118において、実験候補データに割り当てられた予測値があり得ないと判定された場合は、仮評価データ記憶装置18に記憶された仮訓練データを仮評価データ記憶装置18から削除させる。
判定部118は、実験候補データ記憶補助装置44に記憶された実験候補データ数が所定数以上になったか否かを判定し、所定数に満たない場合、新たな訓練データの生成を訓練データ生成部116に指示する。たとえば、本システムを創薬スクリーニングに適用する場合であれば、所定数とは、1つのプレートに配置可能な96ウェル分の化合物の個数とすることができる。
さらに、判定部118は、訓練データ生成部116で割り当てられた値が確率的に十分取り得るか否かを上記設定記憶部112に記憶されている判定値に基づいて判定し、十分取り得る場合には、送信部108に仮訓練データの送信を指示する。一方、確率的にあり得ない値の場合は、訓練データ生成部116に仮訓練データ記憶装置16から仮訓練データの削除を指示する。
候補データ出力部120は、判定部118で実験候補データ数が所定数以上になったときに、実験候補データ記憶補助装置44から実験候補データ記憶装置42に実験候補データを移動し、実測装置50に出力する。
実験結果入力部122は、実測装置50にて、制御装置20から送信された実験候補データに対する実験結果を入力する。ここで、制御部110が、実験結果入力部122が入力した実験結果に基づいて、所望の関数が推測可能かどうかを判断し、推測可能である場合は、処理を終了する。一方、得られた実験結果の精度が低く、未だ所望の関数の推測が可能ではない場合、次サイクル訓練データ生成部124に指示して、次サイクル用の訓練データの生成を指示する。
次サイクル訓練データ生成部124は、実験結果入力部122が入力した実験結果に基づいて、次サイクル用の訓練データを生成する。このとき、制御部110は、実験結果入力部122から入力された実験結果が所望の関数が得られたか否かを判別し、得られた場合は、処理を終了する。一方、所望の関数が所定の精度で得られなかった場合、次サイクル訓練データ生成部124は、得られた結果データの中から適切なデータを訓練データとして選択し、訓練データ受付部102に入力する。訓練データ受付部102に入力された訓練データに基づいて、次のサイクル処理が繰り返し行われることとなる。
また、能動学習装置30において、受信部202は制御装置20から訓練データおよび評価データを受信する。訓練データ記憶部204は、受信部202が受信した訓練データを記憶する。評価データ記憶部206は、受信部202が受信した評価データを記憶する。
学習部208は、訓練データ記憶部204および評価データ記憶部206に記憶された訓練データおよび評価データに基づいて、訓練データの複数の記述子と値を関連付ける関数を学習する。学習部208は、たとえば、ブースティング法、コミッティ法、またはバギング法などの手法を用いて学習を行うことができる。これらは、組み合わせて使用することもできる。関数記憶部210は、学習部208が学習した関数を記憶する。なお、学習部208は、学習した関数に基づいて予測データの生成も行い、その生成された予測データの優先順位付けも行う。
学習結果データ順位記憶部212は、学習部208が学習した関数に基づいて予測された予測データと、その予測データの優先順位を記憶する。送信部214は、制御装置20に優先順位付けされた予測データを送信する。
このように構成にされた本実施形態の実験計画システム100の動作について、以下に説明する。図3乃至図5は、本実施形態の実験計画システム100の動作の一例を示すフローチャートである。
本発明の実施の形態の実験計画方法は、少なくとも一つの記述子と値の間に成り立つ所定の関数を訓練データに基づいて学習する能動学習装置30を用いて、所定の関数を求めるための実測装置50において使用する実験候補データを選択する実験計画方法であって、実験候補データを記憶する実験候補データ記憶部(実験候補データ記憶装置42)を準備し、少なくとも一つの記述子および値を含む訓練データの入力を複数受け付け(図3のステップS103)、受け付けた複数の訓練データを能動学習装置30に出力し(図3のステップS113)、能動学習装置30に、所定のアルゴリズムを用いて関数を学習させ(図3のステップS15)、能動学習装置30から順位付けされた実験候補データを入力し(図3のステップS115)、入力された実験候補データを実験候補データ記憶部(実験候補データ記憶装置42および実験候補データ記憶補助装置44)に記憶し(図3のステップS117)、実験候補データに、取り得る異なる複数の予測値を割り当て、新たな訓練データを生成して(図4のステップS133)、能動学習装置30に出力し(図3のステップS113)、新たな訓練データに基づいて、再度能動学習装置30に関数を学習させ(図3のステップS15)、能動学習装置30から順位付けされた実験候補データを入力し、実験候補データ記憶部(実験候補データ記憶装置42)に追加し、実験候補データが所定数、実験候補データ記憶部(実験候補データ記憶装置42)に記憶されるまで(図3のステップS121のNO)、新たな訓練データの生成、能動学習装置30への出力、順位付けされた実験候補データの入力、および前記実験候補データ記憶部への追加を繰り返す。
このように、実験計画システム100は、能動学習装置30にて訓練データに基づいて能動学習を行い、その結果得られた予測データに基づいて所定数の実験候補データを生成し、実測装置50にて実測を行った結果を制御装置20にフィードバックし、新たな訓練データを生成し、予測データの精度を高めて行くものである。
また、本実施形態において、能動学習装置30から取得した予測データに基づいた実験候補データに異なる複数の予測値を割り当て、仮訓練データとして生成する。この生成された異なる値を有する異なる訓練データを用いて能動学習装置30にて能動学習を再度行わせることにより、予測データを実験候補データとして記憶していき、これらの動作を所定数の実験候補データが得られるまで繰り返すものである。
まず、制御装置20が1サイクル目の実験候補データを生成するサイクルを開始する。ここで、制御部110により1サイクル目であることを示すカウンタiに1がセットされる(ステップS101)。訓練データ受付部102が訓練データの入力を受け付ける(ステップS103)。訓練データ受付部102が受け付けた訓練データに基づいて、評価データ受付部106が評価データを受け付ける(ステップS105)。
そして、ステップS103およびステップS105でそれぞれ受け付けられた訓練データおよび評価データがそれぞれ訓練データ記憶装置12および評価データ記憶装置14に記憶される(ステップS107)。つづいて、コピー部104が訓練データ記憶装置12に記憶された訓練データを複製し、仮訓練データ記憶装置16に仮訓練データとして記憶するとともに、評価データ記憶装置14に記憶された評価データを複製し、仮評価データ記憶装置18に仮評価データとして記憶する(ステップS109)。
つづいて、送信部108が仮評価データ記憶装置18に記憶された仮評価データを能動学習装置30に送信する(ステップS111)。ここで、制御部110が実験候補データの順位カウンタjに1をセットし、設定記憶部112に記憶する(ステップS112)。さらに、送信部108が仮訓練データ記憶装置16に記憶された仮訓練データを能動学習装置30に送信する(ステップS113)。
そして、能動学習装置30において、受信部202が制御装置20から仮訓練データおよび仮評価データをそれぞれ受信し、訓練データ記憶部204および評価データ記憶部206にそれぞれ記憶する(ステップS11およびステップS13)。
そして、学習部208が訓練データ記憶部204および評価データ記憶部206に記憶された訓練データおよび評価データに基づいて、能動学習を実施する(ステップS15)。学習された関数は関数記憶部210に記憶される。学習部208は学習した関数に従って予測データの生成を行い、さらに優先順位付けを行い学習結果データ順位記憶部212に記憶する。送信部214が、学習結果データ順位記憶部212に記憶された優先順位付けされた予測データを制御装置20に送信する(ステップS17)。
そして、制御装置20において、受信部114が優先順位付けされた予測データを実験候補データとして受信する(ステップS115)。そして、ステップS115で受信した予測データおよび優先順位を対応付けて実験候補データ記憶補助装置44に記憶する(ステップS117)。なお、ここで、実験候補データとして受信するデータ数は、もっとも効果のある設定として、1個の実験候補データとし、実験候補データ記憶補助装置44に記憶するものとする。このデータ数も設定記憶部112に記憶しておく。他の実施形態では、所定数の実験候補データを実験候補データ記憶補助装置44に記憶することもできる。ただし、データ数を増やすにつれて効果は低下してくる可能性が高い。
ステップS117で実験候補データ記憶補助装置44に記憶された実験候補データに対応する評価データを仮評価データ記憶装置18から削除する(ステップS119)。
つづいて、訓練データ生成部116は、実験候補データ記憶補助装置44に記憶された実験候補データ数が設定記憶部112に記憶されている所定数以上か否かを判定する。所定数未満の場合(ステップS121のNO)、図4のステップS131に進む。所定数以上の場合(ステップS121のYES)、図5のステップS151に進む。
図4では、図3のステップS117で実験候補データ記憶補助装置44に記憶された実験候補データのうち順位jの実験候補データに対して、取り得る複数の予測値の全てについて割り当て処理が終了したか否かが、判定部118により判定される(ステップS131)。順位jの実験候補データに対して全ての予測値について処理が終了したと判定された場合(ステップS131のYES)、制御部110が設定記憶部112の順位カウンタjをインクリメントし(ステップS139)、次の順位jの実験候補データについて、処理を行うためにステップS131に戻る。
一方、順位jの実験候補データに対応して全ての予測値について処理が終了していない場合(ステップS131のNO)、訓練データ生成部116は、順位jの実験候補データに予測値を割り当て、仮訓練データを生成し、仮訓練データ記憶装置16に記憶する(ステップS133)。そして、判定部118がステップS133で割り当てられた値が確率的に十分取り得るか否かを判定し、十分取り得ると判定された場合(ステップS135のYES)、図3のステップS113に戻り、生成された仮訓練データでステップS113以降の処理が繰り返されることとなる。
一方、判定部118がステップS133で割り当てられた値が確率的にあり得ないと判定した場合(ステップS135のNO)、仮訓練データ記憶装置16から生成された仮訓練データを除外し(ステップS137)、ステップS131に戻る。
次に、図3および図4の処理が繰り返された後、実験候補データ数が所定数以上になった時(図3のステップS121のYES)、図5のフローに進む。得られた所定数の実験候補データを実験候補データ記憶補助装置44から実験候補データ記憶装置42に移動し、実験候補データ記憶装置42から読み出して候補データ出力部120が実測装置50に出力する(ステップS151)。
実測装置50では、制御装置20から実験候補データを入力する(ステップS201)。そして入力された実験候補データに基づいてHTSを行い、実験候補データについて実測を行い(ステップS203)、その結果を実測装置50から制御装置20に出力する(ステップS205)。
制御装置20では、実験結果入力部122が実測装置50から実験結果を入力する(ステップS153)。そして、制御部110は、実験結果入力部122から入力された実験結果が所望の関数が得られたか否かを判別し、得られた場合は(ステップS155のYES)、処理を終了する。一方、所望の関数が所定の精度で得られなかった場合(ステップS155のNO)、次サイクル訓練データ生成部124は、得られた結果データの中から適切なデータを訓練データとして選択し、訓練データ受付部102に入力する(ステップS157)。そして、カウンタiをインクリメントし(ステップS159)、図3のステップS103に戻り、次サイクルiの処理を繰り返し行うこととなる。
以上説明したように、本実施形態の実験計画システム100によれば、能動学習システムを用いた実験計画を効率よく行えることとなる。具体的には、以下の実施例にも示すように、相互に類似することが少ないデータを選び出すことができるので、より少ない実測回数で実測装置50にて効果的な実測を行うことができ、結果として、精度の良い所望とする関数を取得することが可能となる。
また、特に、創薬において、たとえば96ウェルのプレートに化合物を配置して実測装置50にて実測を行う場合に、本実施形態の実験計画システム100にて選択された相互に類似することが少ない実験候補データをプレート上に化合物を配置することにより、所望とする活性を有する化合物をより少ない実験回数で効率良く特定することが可能となる。
(実施例)
本発明の実験計画システム100を用いて、0〜1の区間におけるステップ関数が存在しているとし、その関数を能動学習によって推測した。
ステップ関数は、記述子として0〜1を1000分割した離散点の各点で与えるものとする。ここでは能動学習装置30が推測する関数の正解を0.3で値が1に変わるステップ関数とした。また簡単のため各データは(記述子,値)という形式表現する。また制御装置20の出力として10個ずつ実験候補データを得るものとする。
図3において、制御装置20にて処理が開始し、制御部110により設定記憶部112のサイクルカウンタiに1がセットされる(ステップS101)。訓練データ受付部102は、訓練データとして(0,0)および(1,1)の2データを受け付ける(ステップS103)。つづいて、評価データ受付部106が利用者から入力された評価データを受け付ける。ここでは、(0.001,?),(0.002,?),・・・,(0.999,?)の999データが受け付けられる(ステップS105)。受け付けられた評価データは、評価データ記憶装置14に記憶される(ステップS107)。
つづいて、コピー部104が訓練データおよび評価データを複製し、仮訓練データ記憶装置16および仮評価データ記憶装置18にそれぞれ記憶する(ステップS109)。仮評価データ記憶装置18に記憶された仮評価データは、送信部108により能動学習装置30に送信される(ステップS111)。そして、制御部110により設定記憶部112の順位カウンタjに1がセットされる(ステップS112)。そして、仮訓練データ記憶装置16に記憶された仮訓練データは、送信部108により能動学習装置30に送信される(ステップS113)。
これにより、第1番目の訓練データ(0,0)および(1,1)が能動学習装置30に受信され(ステップS11およびステップS13)、能動学習が実施され(ステップS15)、学習結果として、優先順位が1位の(0.5,?)という予測データが能動学習装置30から制御装置20に送信される(ステップS17)。そして、制御装置20にて受信部114が実験候補データとして受信し(ステップS115)、訓練データ生成部116が実験候補データ記憶補助装置44に優先順位1位の実験候補データ(0.5,?)を記憶する(ステップS117)。そして、ステップS177で実験候補データ記憶補助装置44に記憶された実験候補データに対応する評価データ(0.5,?)を仮評価データ記憶装置18から削除する(ステップS119)。
つづいて、判定部118は、実験候補データ記憶補助装置44に記憶された実験候補データ数が所定数以上か否かを判定し、ここでは、実験候補データは1データであり、所定数10個未満であるので(ステップS121のNO)、図4のステップS131に進む。図4の処理では、実験候補データ記憶補助装置44に記憶された優先順位に従って実験候補データを元に、仮訓練データの生成を行う。なお、ステップS115で得られた1位の実験候補データ(0.5,?)が取り得る値は、1または0である。これらの値は、予めパラメータとして設定記憶部112に記憶しておく。したがって、以下の処理において、異なる予測値"1"および"0"をそれぞれ割り当てることとなる。
ここでは、設定記憶部112の順位カウンタjに1がセットされているので、訓練データ生成部116は、1位(j=1)の実験候補データ(0.5,?)が取り得る値について、以下の処理が全て終了したか否かを判断する。ここでは、未だ終了していないので(ステップS131のNO)、訓練データ生成部116は、ステップS117で記憶した優先順位に従って、実験候補データに、予測値を割り当て、仮訓練データを生成し、仮訓練データ記憶装置16に記憶する。
まず、1位の実験候補データ(0.5,?)について、予測値"1"を割り当て、仮訓練データ(0.5,1)を生成し、仮訓練データ記憶装置16に記憶する(ステップS133)。そして、判定部118がステップS133で割り当てられた値が確率的に十分取り得るか否かを判定し、十分取り得るので(ステップS135のYES)、図3のステップS113に戻る。この判定は一様にあり得るという代表的な入力値に対する判定値を予め設定記憶部112に記憶しておく。
そして、送信部108が仮訓練データを能動学習装置30に送信し(ステップS113)、能動学習装置30にて、受信、能動学習が実施される(ステップS13およびステップS15)。ここでは、学習結果として、仮訓練データ(0.5,1)から優先順位が2位の(0.25,?)が得られ、能動学習装置30から制御装置20に送信される(ステップS17)。
そして、制御装置20にて受信部114が実験候補データとして受信し(ステップS115)、訓練データ生成部116が実験候補データ記憶補助装置44に優先順位2位の実験候補データ(0.25,?)を記憶する(ステップS117)。ステップS117で実験候補データ記憶補助装置44に記憶された実験候補データに対応する評価データ(0.25,?)を仮評価データ記憶装置18から削除する(ステップS119)。
つづいて、訓練データ生成部116は、実験候補データ記憶補助装置44に記憶された実験候補データ数が所定数以上か否かを判定し、ここでは、実験候補データは2データであり、所定数10個未満であるので(ステップS121のNO)、図4のステップS131に進む。
ステップS131では、訓練データ生成部116は、実験候補データ(0.5,?)が取り得る値について、以下の処理が全て終了したか否かを判断する。ここでは、未だ予測値"0"について処理が終了していないので(ステップS131のNO)、訓練データ生成部116は、予測値"0"を割り当てた仮訓練データ(0.5,0)を生成し、仮訓練データ記憶装置16に記憶する(ステップS133)。そして、判定部118がステップS133で割り当てられた値が確率的に十分取り得るか否かを判定し、十分取り得るので(ステップS135のYES)、図3のステップS113に戻る。そして、送信部108が仮訓練データを能動学習装置30に送信し(ステップS113)、能動学習装置30にて、受信、能動学習が実施される(ステップS13およびステップS15)。ここでは、学習結果として、仮訓練データ(0.5,0)から優先順位が3位の(0.75,?)が得られ、能動学習装置30から制御装置20に送信される(ステップS17)。
そして、制御装置20にて受信部114が実験候補データとして受信し(ステップS115)、訓練データ生成部116が実験候補データ記憶補助装置44に優先順位3位の実験候補データ(0.75,?)を記憶する(ステップS117)。
つづいて、訓練データ生成部116は、実験候補データ記憶補助装置44に記憶された実験候補データ数が所定数以上か否かを判定し、ここでは、実験候補データは3データであり、所定数10個未満であるので(ステップS121のNO)、図4のステップS131に進む。本実施形態において、各実験候補データが取り得る値は、異なる2つのデータ"1"および"0"のいずれかである。ステップS131では、実験候補データ(0.5,?)が取り得る2つの予測値"1"および"0"について処理が終了しているので(ステップS131のYES)、制御部110が設定記憶部112の順位カウンタjをインクリメントし、j=2とし(ステップS139)、ステップS131に戻る。
ステップS131では、訓練データ生成部116は、優先順位2位の実験候補データ(0.25,?)が取り得る値について、以下の処理が全て終了したか否かを判断する。ここでは、未だ処理が終了していないので(ステップS131のNO)、訓練データ生成部116は、予測値"1"を割り当てた仮訓練データ(0.25,1)を生成し、仮訓練データ記憶装置16に記憶する(ステップS133)。そして、判定部118がステップS133で割り当てられた値が確率的に十分取り得るか否かを判定し、十分取り得るので(ステップS135のYES)、図3のステップS113に戻る。そして、送信部108が仮訓練データを能動学習装置30に送信し(ステップS113)、能動学習装置30にて、受信、能動学習が実施される(ステップS13およびステップS15)。ここでは、学習結果として、仮訓練データ(0.25,1)から優先順位が4位の(0.125,?)が得られ、能動学習装置30から制御装置20に送信される(ステップS17)。
そして、制御装置20にて受信部114が実験候補データとして受信し(ステップS115)、訓練データ生成部116が実験候補データ記憶補助装置44に優先順位4位の実験候補データ(0.125,?)を記憶する(ステップS117)。そして、ステップS177で実験候補データ記憶補助装置44に記憶された実験候補データに対応する評価データ(0.125,?)を仮評価データ記憶装置18から削除する(ステップS119)。
つづいて、訓練データ生成部116は、実験候補データ記憶補助装置44に記憶された実験候補データ数が所定数以上か否かを判定し、ここでは、実験候補データは4データであり、所定数10個未満であるので(ステップS121のNO)、図4のステップS131に進む。
以下、同様にして、処理を続けると、実験候補データとして、以下の表1のデータが10個得られる。
Figure 0005044980
10個の実験候補データが得られた後(ステップS121のYES)、図5のステップS151に進む。なお、上記の処理で得られた訓練データは、以下の表2に示される仮訓練データが得られるが、(0.375,0)以降の仮訓練データは、図3のステップS113で制御装置20から能動学習装置30に送信されない。
Figure 0005044980
図2の制御装置20の候補データ出力部120が実測装置50に表1に示される10個の実験候補データが出力される(ステップS151)。そして、実測装置50が実験候補データを受信し(ステップS201)、HTSを行い、実験候補データについて実測を行う(ステップS203)。そして、実験結果を制御装置20に出力する(ステップS205)。
制御装置20において、図2の実験結果入力部122が実測装置50から実験結果データを入力する(ステップS153)。ここでは、表3に示される実験結果データが得られる。
Figure 0005044980
表3に示されるように、この1サイクル目(i=1)の実験では、(0.25,0)および(0.313,1)から、0.25と0.313の間に0から1への切り替え点が存在することが推定されるが、まだ所望の関数が所定の精度で得られたとは言えないので(ステップS155のNO)、次サイクル訓練データ生成部124は、上記の(0.25,0)および(0.313,1)を第1の訓練データとして選択する(ステップS157)。次サイクル訓練データ生成部124が選択した訓練データ受付部102により受け付けられる。そして、制御部110により設定記憶部112のカウンタiがインクリメントされ、i=2となり(ステップS159)、図3のステップS103に戻り、2サイクル目の処理が開始される。
2サイクル目の処理では、表4に示される仮訓練データが生成され、制御装置20から能動学習装置30に送信され、能動学習装置30にて表5に示される10個の実験候補データが得られる。
Figure 0005044980
そして、実測装置50にて実測を行い、表5に示される実験結果が得られた。
Figure 0005044980
これにより、第3サイクル目の第1の訓練データとして、(0.287,0)および(0.305,1)が取得され、さらに能動学習装置30により学習が繰り返される。3サイクル目では、表6に示される仮訓練データが生成され、表7に示される実験候補データが取得された。
Figure 0005044980
Figure 0005044980
本実施例では、実験候補データは、7個以上は取得されない。そして、7個の実験候補データを用いて実測装置50にて実測を行い、表7に示される実験結果が得られた。
このように本実施例において、3サイクル目で正確な関数、すなわち、0.3で0から1に変化するステップ関数を取得することができた。
(比較例)
上記実施例と同じ、0〜1の区間におけるステップ関数を従来の能動学習装置によって推測した。
訓練データとして、訓練データとして(0,0)および(1,1)の2データを入力した。評価データは、(0.001,?),(0.002,?),・・・,(0.999,?)の999データを入力した。
従来の能動学習装置にこれらの訓練データおよび評価データを適用すると、順位付けされた予測データが出力される。順位は、(0.5,?)からの距離順となる。
1サイクル目の処理では、表8に示すように、能動学習装置により、10個の実験候補データが生成される。これらを用いて実測装置にて実測を行い得られた結果も表8に示す。
Figure 0005044980
1サイクル目の実験結果に基づいて、次の2サイクル目の訓練データとして、(0.495,1)が追加される。これにより、(0.248,?)を基準として順位付けされた予測データが出力され、実測装置にて表9に示す結果が得られた。
Figure 0005044980
2サイクル目の実験結果に基づいて、3サイクル目の訓練データとして、(0.252,0)が追加される。これにより、(0.374,?)を基準として順位付けされた予測データが出力され、実測装置にて表9に示す結果が得られた。以後、同様の処理を繰り返し、表9に示すように、6サイクル目で正しい関数が予測された。したがって、比較例の6サイクルに比べて、実施例の実験計画システム100では、3サイクルで正しい関数を予測することができたので、50%の費用を削減することができるようになったと言える。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
たとえば、図4のステップS135およびステップS137は必ずしも必要ではない。この構成は、特に、データに対する予測を全く行うことができないような場合に有効である。本実施形態においても、上記実施形態と同様な効果を奏することができる。
また、他の実施形態として、制御装置20は、送信部108、制御部110、設定記憶部112、受信部114、訓練データ生成部116、判定部118のみを最低限含む構成とすればよく、その他の構成要素は他の装置にて実現させることもできる。すなわち、制御装置20は、図4のステップS131、ステップS133、ステップS137のみを行えばよい。図4のステップS135は必ずしも必須ではない。
また、訓練データ記憶装置12および評価データ記憶装置14は、制御装置20に含むこともできる。仮訓練データ記憶装置16および仮評価データ記憶装置18は、一つの記憶装置とすることもできる。
また、実験候補データの値に異なる複数の予測値を割り当てる場合、
本発明の実施の形態に係る実験計画システムの概略構成を示すブロック図である。 図1の実験計画システムの制御装置および能動学習装置の詳細を示す機能ブロック図である。 本実施形態の実験計画システムの動作の一例を示すフローチャートである。 図3の続きを示し、実験候補データに予測値を割り当てる動作の一例を示すフローチャートである。 図3の続きを示し、実験候補データに基づいて、実測を行い、新たな訓練データを生成する動作の一例を示すフローチャートである。
符号の説明
12 訓練データ記憶装置
14 評価データ記憶装置
16 仮訓練データ記憶装置
18 仮評価データ記憶装置
20 制御装置
30 能動学習装置
42 実験候補データ記憶装置
44 実験候補データ記憶補助装置
50 実測装置
100 実験計画システム
102 訓練データ受付部
104 コピー部
106 評価データ受付部
108 送信部
110 制御部
112 設定記憶部
114 受信部
116 訓練データ生成部
118 判定部
120 候補データ出力部
122 実験結果入力部
124 次サイクル訓練データ生成部
202 受信部
204 訓練データ記憶部
206 評価データ記憶部
208 学習部
210 関数記憶部
212 学習結果データ順位記憶部
214 送信部

Claims (18)

  1. 少なくとも一つの記述子と値の間に成り立つ所定の関数を訓練データに基づいて学習する能動学習装置を用いて、前記所定の関数を求めるための実測装置において使用する複数の実験候補データを選択する実験計画方法であって、
    前記実験候補データを記憶する実験候補データ記憶部に接続された制御装置が、
    記少なくとも一つの記述子および前記値を含む訓練データを複数受け付け、
    記受け付けた複数の訓練データを前記能動学習装置に出力し、
    前記能動学習装置、所定のアルゴリズムを用いて前記関数を学習し、
    前記制御装置が、
    記能動学習装置から順位付けされた実験候補データを入力し、
    記入力された前記実験候補データを前記実験候補データ記憶部に記憶し、
    記実験候補データに、取り得る異なる複数の予測値を割り当て、新たな訓練データを生成して、前記能動学習装置に出力し、
    前記能動学習装置が、前記新たな訓練データに基づいて、再度前記関数を学習し、
    前記制御装置が、
    記能動学習装置から前記順位付けされた前記実験候補データを入力し、前記実験候補データ記憶部に追加し、前記実験候補データが所定数、前記実験候補データ記憶部に記憶されるまで、前記新たな訓練データの生成、前記能動学習装置への出力、前記順位付けされた前記実験候補データの入力、および前記実験候補データ記憶部への追加を繰り返すことを特徴とする実験計画方法。
  2. 請求項1に記載の実験計画方法において、
    前記異なる複数の予測値をパラメータとして予め記憶する設定記憶部をさらに備え、
    前記制御装置が、前記設定記憶部に記憶されている前記パラメータに従って、前記実験候補データに、前記取り得る異なる複数の予測値を割り当て、前記新たな訓練データを生成して、前記能動学習装置に出力することを特徴とする実験計画方法。
  3. 請求項1または2に記載の実験計画方法において、
    前記異なる複数の予測値の設定を受け付け、
    前記予測値の割り当てに使用することを特徴とする実験計画方法。
  4. 請求項1乃至3いずれかに記載の実験計画方法において、
    前記能動学習装置が前記訓練データを入力したとき、
    複数の前記訓練データのうち前記記述子の距離が近い2つの訓練データ毎に前記記述子の中間値を算出し、
    前記中間値を記述子として前記実験候補データを生成し、順位付けして出力することを特徴とする実験計画方法。
  5. 請求項1乃至3いずれかに記載の実験計画方法において、
    前記能動学習装置が前記訓練データを入力したとき、
    前記訓練データのうち前記記述子の距離が近い2つの訓練データ毎に前記記述子の平均値を算出し、
    前記平均値を記述子として前記実験候補データを生成し、順位付けして出力することを特徴とする実験計画方法。
  6. 請求項1乃至5いずれかに記載の実験計画方法において、
    前記所定数の前記実験候補データが前記実験候補データ記憶部に記憶された後、前記実測装置に前記実験候補データ記憶部から前記実験候補データを出力し、
    前記出力された前記実験候補データを前記実験候補データ記憶部から削除し、
    前記実測装置から実測結果データを入力し、新たな訓練データとして受け付け、
    前記実験候補データが所定数、前記実験候補データ記憶部に記憶されるまで、前記順位付けされた前記実験候補データを前記実験候補データ記憶部に追加することを特徴とする実験計画方法。
  7. 請求項6に記載の実験計画方法において、
    前記実測装置に前記実験候補データの出力を繰り返し、その結果得られた結果を訓練データとして前記能動学習装置に前記関数を学習させることを特徴とする実験計画方法。
  8. 請求項1乃至7いずれかに記載の実験計画方法において、
    前記訓練データの前記記述子および前記値は、化合物の属性を示す値であることを特徴とする実験計画方法。
  9. 請求項8に記載の実験計画方法において、
    前記訓練データの前記値は、前記化合物の前記属性として、所定の置換基の有無およびその配置を示すビット列、分子量、疎水性の有無、回転結合数などを含むことを特徴とする実験計画方法。
  10. 少なくとも一つの記述子と値の間に成り立つ所定の関数を訓練データに基づいて学習する能動学習装置を用いて、前記所定の関数を求めるための実測装置において使用する実験候補データを選択する実験計画システムであって、
    前記少なくとも一つの記述子および前記値を含む訓練データの入力を複数受け付ける訓練データ受付部と、
    前記訓練データ受付部が受け付けた複数の訓練データを前記能動学習装置に出力する出力部と、
    前記能動学習装置に、所定のアルゴリズムを用いて前記関数を学習させ、前記能動学習装置から順位付けされた実験候補データを入力する入力部と、
    前記入力部により入力された前記実験候補データを記憶する実験候補データ記憶部と、
    前記実験候補データに、取り得る異なる複数の予測値を割り当て、新たな訓練データを生成して、前記出力部に、前記能動学習装置に出力させる訓練データ生成部と、
    前記新たな訓練データに基づいて、再度前記能動学習装置に前記関数を学習させ、前記能動学習装置から前記順位付けされた前記実験候補データを前記入力部に入力させ、前記実験候補データ記憶部に追加し、前記実験候補データが所定数、前記実験候補データ記憶部に記憶されるまで、前記訓練データ生成部に前記新たな訓練データの生成、前記能動学習装置への出力、前記入力部に前記順位付けされた前記実験候補データの入力、および前記実験候補データ記憶部への追加を繰り返させる制御部と、
    を備えることを特徴とする実験計画システム。
  11. 請求項10に記載の実験計画システムにおいて、
    前記異なる複数の予測値をパラメータとして予め記憶する設定記憶部を備え
    前記訓練データ生成部が、前記設定記憶部に記憶されている前記パラメータに従って、前記実験候補データに、前記取り得る異なる複数の予測値を割り当て、前記新たな訓練データを生成して、前記能動学習装置に出力することを特徴とする実験計画システム。
  12. 請求項10または11に記載の実験計画システムにおいて、
    前記異なる複数の予測値の設定を受け付ける設定受付部を備え、
    前記訓練データ生成部が前記予測値の割り当てに使用することを特徴とする実験計画システム。
  13. 請求項10乃至12いずれかに記載の実験計画システムにおいて、
    前記能動学習装置は、
    前記訓練データを入力する訓練データ入力部と、
    前記入力部が入力した前記訓練データのうち前記記述子の距離が近い2つの訓練データ毎に前記記述子の中間値を算出する算出部と、
    前記中間値を記述子として前記実験候補データを生成し、順位付けして出力する順位出力部と、を備えることを特徴とする実験計画システム。
  14. 請求項10乃至13いずれかに記載の実験計画システムにおいて、
    前記所定数の前記実験候補データが前記実験候補データ記憶部に記憶された後、前記実測装置に前記実験候補データ記憶部から前記実験候補データを出力する実験候補データ出力部と、
    前記出力された前記実験候補データを前記実験候補データ記憶部から削除する削除部と、
    前記実測装置から実測結果データを入力する実測結果入力部と、を備え、
    前記訓練データ受付部は、前記入力された前記実測結果データを新たな訓練データとして受け付け、
    前記実験候補データが所定数、前記実験候補データ記憶部に記憶されるまで、前記順位付けされた前記実験候補データを追加することを特徴とする実験計画システム。
  15. 請求項14に記載の実験計画システムにおいて、
    前記実測装置に前記実験候補データの出力を繰り返し、その結果得られた結果を訓練データとして前記能動学習装置に前記関数を学習させることを特徴とする実験計画システム。
  16. 請求項10乃至15いずれかに記載の実験計画システムにおいて、
    前記訓練データの前記記述子および前記値は、化合物の属性を示す値であることを特徴とする実験計画システム。
  17. 請求項16に記載の実験計画システムにおいて、
    前記訓練データの前記値は、前記化合物の前記属性として、所定の置換基の有無およびその配置を示すビット列、分子量、疎水性の有無、回転結合数などを含むことを特徴とする実験計画システム。
  18. 少なくとも一つの記述子と値の間に成り立つ所定の関数を訓練データに基づいて学習する能動学習装置を用いて、前記所定の関数を求めるための実測装置において使用する実験候補データを選択する実験計画プログラムであって、
    前記実験候補データを記憶する実験候補データ記憶部を備えるコンピュータを、
    前記少なくとも一つの記述子および前記値を含む訓練データの入力を複数受け付ける訓練データを受け付ける手段、
    受け付けた複数の訓練データを前記能動学習装置に出力する手段、
    前記能動学習装置に、所定のアルゴリズムを用いて前記関数を学習させ、前記能動学習装置から順位付けされた実験候補データを入力する手段、
    入力された前記実験候補データを前記実験候補データ記憶部に記憶する手段、
    前記実験候補データに、取り得る異なる複数の予測値を割り当て、新たな訓練データを生成して、前記能動学習装置に出力する手段、
    前記新たな訓練データに基づいて、再度前記能動学習装置に前記関数を学習させ、前記能動学習装置から前記順位付けされた実験候補データを前記入力する手段に入力させ、前記実験候補データ記憶部に追加し、前記実験候補データが所定数、前記実験候補データ記憶部に記憶されるまで、前記新たな訓練データの生成、前記能動学習装置への出力、前記順位付けされた実験候補データの入力、および前記実験候補データ記憶部への追加を繰り返させる手段、として機能させるための実験計画プログラム。
JP2006131514A 2006-05-10 2006-05-10 実験計画方法、実験計画システムおよび、実験計画プログラム Active JP5044980B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006131514A JP5044980B2 (ja) 2006-05-10 2006-05-10 実験計画方法、実験計画システムおよび、実験計画プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006131514A JP5044980B2 (ja) 2006-05-10 2006-05-10 実験計画方法、実験計画システムおよび、実験計画プログラム

Publications (2)

Publication Number Publication Date
JP2007304783A JP2007304783A (ja) 2007-11-22
JP5044980B2 true JP5044980B2 (ja) 2012-10-10

Family

ID=38838665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006131514A Active JP5044980B2 (ja) 2006-05-10 2006-05-10 実験計画方法、実験計画システムおよび、実験計画プログラム

Country Status (1)

Country Link
JP (1) JP5044980B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009104324A1 (ja) * 2008-02-22 2011-06-16 日本電気株式会社 能動計量学習装置、能動計量学習方法およびプログラム
JP6565185B2 (ja) 2014-12-26 2019-08-28 日本電気株式会社 最適化システム、最適化方法および最適化プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316754A (ja) * 1998-05-06 1999-11-16 Nec Corp 実験計画法及び実験計画プログラムを記録した記録媒体
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム
JP4645288B2 (ja) * 2005-04-28 2011-03-09 日本電気株式会社 能動学習方法および能動学習システム

Also Published As

Publication number Publication date
JP2007304783A (ja) 2007-11-22

Similar Documents

Publication Publication Date Title
CN111247518B (zh) 用于数据库分片的方法和系统
Von Mering et al. Genome evolution reveals biochemical networks and functional modules
Bazin et al. panRGP: a pangenome-based method to predict genomic islands and explore their diversity
JP2016126770A (ja) 実行時間予測のためのデータベースクエリのクラスタリング
Shaw et al. Fast and robust metagenomic sequence comparison through sparse chaining with skani
Billings et al. ProSPr: democratized implementation of alphafold protein distance prediction network
JP5734820B2 (ja) ランキング関数学習装置、方法、及びプログラム
US20200379882A1 (en) Automatic behavior detection and characterization in software systems
Park et al. A ChIP-seq data analysis pipeline based on bioconductor packages
JP2021033341A (ja) 最適化装置および最適化装置の制御方法
JP2020071827A (ja) ポリマー設計装置、プログラム、および方法
JP5044980B2 (ja) 実験計画方法、実験計画システムおよび、実験計画プログラム
de Bézieux et al. Trajectory inference across multiple conditions with condiments: differential topology, progression, differentiation, and expression
JP5167596B2 (ja) データセット選択装置および実験計画システム
Lee et al. Survival prediction and variable selection with simultaneous shrinkage and grouping priors
CN112445746B (zh) 一种基于机器学习的集群配置自动优化方法和系统
Joshi et al. Empirical and analytical study of many-objective optimization problems: analysing distribution of nondominated solutions and population size for scalability of randomized heuristics
Huang et al. New amino acid indices based on residue network topology
Webel et al. Mass spectrometry-based proteomics imputation using self supervised deep learning
Buckingham et al. Locality-Sensitive Hashing for Protein Classification.
JP6869588B1 (ja) 情報処理装置、方法及びプログラム
WO2021220775A1 (ja) 材料の特性値を推定するシステム
JP2008100918A (ja) 類似度計算処理システム、その処理方法及びプログラム
Pavesi et al. Using Weeder for the discovery of conserved transcription factor binding sites
WO2021250751A1 (ja) 学習方法、学習装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120619

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120702

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5044980

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150