JP7518362B2 - 予測モデル利用支援プログラム、予測モデル利用支援方法、および予測モデル利用支援システム - Google Patents

予測モデル利用支援プログラム、予測モデル利用支援方法、および予測モデル利用支援システム Download PDF

Info

Publication number
JP7518362B2
JP7518362B2 JP2020132183A JP2020132183A JP7518362B2 JP 7518362 B2 JP7518362 B2 JP 7518362B2 JP 2020132183 A JP2020132183 A JP 2020132183A JP 2020132183 A JP2020132183 A JP 2020132183A JP 7518362 B2 JP7518362 B2 JP 7518362B2
Authority
JP
Japan
Prior art keywords
prediction model
explanatory
explanatory variable
value
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020132183A
Other languages
English (en)
Other versions
JP2022029071A (ja
Inventor
順也 大堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020132183A priority Critical patent/JP7518362B2/ja
Publication of JP2022029071A publication Critical patent/JP2022029071A/ja
Application granted granted Critical
Publication of JP7518362B2 publication Critical patent/JP7518362B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、予測モデル利用支援プログラム、予測モデル利用支援方法、および予測モデル利用支援システムに関する。
コンピュータによる機械学習では、コンピュータが目的変数と説明変数の定義された多数の学習データを用いて予測モデルを生成する。コンピュータは、生成した予測モデルを用いて、説明変数のみのデータから目的変数を予測する。
化合物の予測モデル生成においては、説明変数は、通常、論文や実験等により得られた実測値の他に、記述子計算ソフトウェアを利用して、化学構造から説明変数を自動的に生成した記述子が利用されることが多い。記述子計算ソフトウェアは、化合物の構造から、記述子と呼ばれる化合物の特徴を計算するソフトウェアである。記述計算ソフトウェアでは多数の記述子を計算することができ、機械学習に用いる説明変数の種類は数万以上に及ぶ場合がある。
また近年、機械学習の予測の精度の向上を目的として、事前に予測モデルを生成し、その予測結果を説明変数に加えて、別の予測モデルを生成することもできる。
モデルを用いた予測技術としては、例えばモデルの因子に関する情報を蓄積し、モデルの予測精度向上のために活用することを可能にするモデル作成支援システムが提案されている。また既成の予測モデルを使用することなく、高い精度で未知サンプルの帰属クラスを予測するサンプルの帰属クラス予測方法も提案されている。
特開2009-086706号公報 国際公開第2010/016109号
予測モデルの生成および生成した予測モデルによる予測を支援する従来のシステムでは、別の予測モデルを説明変数に利用した予測モデルの生成は、あまり運用面での手間が考慮されていない。例えば、別の予測モデルによる予測結果を組み合わせて生成された予測モデルによる予測を行う場合がある。この場合、ユーザは、コンピュータにより、その予測モデルの説明変数に利用されているすべての予測モデルについて、予測対象データに対する予測値を予め生成しておくこととなる。しかも、ユーザは、説明変数に数10個以上の予測モデルを利用した予測モデルや、何段階にも予測モデルを組み合わせて生成された予測モデルによる予測を行う場合がある。このような場合、対話的に何度も予測モデルによる予測の実行をコンピュータに指示することとなり、非常に手間がかかる。
1つの側面では、本発明は、既存の予測モデルによる予測結果を他の予測モデルで容易に利用できるようにすることを目的とする。
1つの案では、以下の処理をコンピュータに実行させる予測モデル利用支援プログラムが提供される。
コンピュータは、複数の説明変数の値の生成手段が示された説明変数情報に基づいて、第1の予測モデルに入力する1または複数の第1の説明変数それぞれの値の生成手段を判断する。次にコンピュータは、第1の説明変数の値の生成手段として第2の予測モデルによる算出が指定されている場合、1以上の予測モデルそれぞれで予測する目的変数を説明する説明変数が示された予測モデル情報に基づいて、第2の予測モデルの1または複数の第2の説明変数を判断する。次にコンピュータは、説明変数情報に基づいて、第2の説明変数それぞれの生成手段を判断する。次にコンピュータは、判断した生成手段により、第2の説明変数の値を生成する。次にコンピュータは、第2の説明変数の値を第2の予測モデルへ入力することで得られる目的変数の値を、値の生成手段が第2の予測モデルによる算出である第1の説明変数の値として生成する。次にコンピュータは、値の生成手段が第2の予測モデルによる算出以外である第1の説明変数の値を、説明変数情報に示された生成手段で生成する。そしてコンピュータは、生成した第1の説明変数の値に基づいて、第1の予測モデルに関する計算を行う。
1態様によれば、既存の予測モデルによる予測結果を他の予測モデルで容易に利用できる。
第1の実施の形態に係る予測モデル利用支援方法の一例を示す図である。 予測モデル利用支援システムのハードウェアの一例を示す図である。 予測モデル利用支援システムが有する機能の一例を示すブロック図である。 化合物記憶部の一例を示す図である。 化合物セット記憶部の一例を示す図である。 説明変数記憶部の一例を示す図である。 説明変数セット記憶部の一例を示す図である。 予測モデル記憶部の一例を示す図である。 予測モデル生成処理の手順の一例を示すフローチャートである。 説明変数計算処理の手順の一例を示すフローチャートである。 予測モデルによる説明変数の値算出処理の手順の一例を示すフローチャートである。 化学構造ファイルの一例を示す図である。 化学構造ファイル指定入力画面の一例を示す図である。 化合物データ登録の第1の例を示す図である。 学習用化合物セット生成画面の一例を示す図である。 化合物セットの情報登録の第1の例を示す図である。 説明変数指定画面の第1の例を示す図である。 説明変数の値の格納処理の第1の例を示す図である。 説明変数表示画面の一例を示す図である。 特徴選択画面の一例を示す図である。 説明変数セットの情報の格納処理の第1の例を示す図である。 予測モデル生成画面の一例を示す図である。 予測モデルの情報の格納処理の第1の例を示す図である。 登録モデル選択画面の一例を示す図である。 説明変数用の予測モデルの情報の登録処理の第1の例を示す図である。 化合物データ登録の第2の例を示す図である。 化合物セットの情報登録の第2の例を示す図である。 説明変数指定画面の第2の例を示す図である。 説明変数の値の格納処理の第2の例を示す図である。 説明変数セットの情報の格納処理の第2の例を示す図である。 予測モデルの情報の格納処理の第2の例を示す図である。 説明変数用の予測モデルの情報の登録処理の第2の例を示す図である。 予測モデルを用いた予測処理の手順の一例を示すフローチャートである。 化合物データ登録の第3の例を示す図である。 化合物セットの情報登録の第3の例を示す図である。 説明変数の値の格納処理の第3の例を示す図である。 予測実行指示画面の一例を示す図である。 予測結果表示画面の一例を示す図である。 予測結果詳細表示画面の一例を示す図である。
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
図1は、第1の実施の形態に係る予測モデル利用支援方法の一例を示す図である。図1には、予測モデル利用支援方法を、予測モデル利用支援システム10で実現する例を示している。予測モデル利用支援システム10は、例えば予測モデル利用支援プログラムを実行することにより、予測モデル利用支援方法を実施することができる。なお、図1に示す例では、化合物の特性を示す値の予測を行う予測モデルの利用を支援する場合を想定している。
予測モデル利用支援システム10は、例えば1または複数のコンピュータを含むコンピュータシステムである。予測モデル利用支援システム10は、記憶部11と処理部12とを有する。記憶部11は、例えば予測モデル利用支援システム10が有するメモリ、またはストレージ装置である。処理部12は、例えば予測モデル利用支援システム10が有するプロセッサ、または演算回路である。
記憶部11は、説明変数情報11a、予測モデル情報11b、化合物の構造データ11c、および化合物の実測値情報11dを記憶する。説明変数情報11aには、複数の説明変数の値の生成手段が示されている。生成手段には、例えば記述子生成ソフトウェアによる算出、予測モデルによる算出、実測値の取得などがある。予測モデル情報11bには、1以上の予測モデルそれぞれで予測する目的変数を説明する説明変数が示されている。化合物の構造データ11cには、化合物に含まれる原子の情報や、原子間の結合形態を示す情報などが含まれる。化合物の実測値情報11dは、予め実測によって得られている化合物の特性を示す値を示す情報である。
処理部12は、説明変数情報11aに基づいて、第1の予測モデルに入力する1または複数の第1の説明変数それぞれの値の生成手段を判断する。このとき第1の説明変数の値の生成手段として第2の予測モデルによる算出が指定されている場合がある。この場合、処理部12は、予測モデル情報11bに基づいて、第2の予測モデルの1または複数の第2の説明変数を判断する。次に処理部12は、説明変数情報11aに基づいて、第2の説明変数それぞれの生成手段を判断する。さらに処理部12は、判断した生成手段により、第2の説明変数の値を生成する。そして第2の説明変数の値を第2の予測モデルへ入力することで得られる目的変数の値を生成し、その値を、値の生成手段が第2の予測モデルによる算出とされている第1の説明変数の値とする。
また処理部12は、値の生成手段が第2の予測モデルによる算出以外である第1の説明変数の値を、説明変数情報11aに示された生成手段で生成する。
処理部12は、すべての第1の説明変数について値を生成すると、生成した第1の説明変数の値に基づいて、第1の予測モデルに関する計算を行う。第1の予測モデルに関する計算は、例えば生成した第1の説明変数の値に基づく、第1の予測モデルの生成である。また第1の予測モデルに関する計算は、生成した第1の説明変数の値を第1の予測モデルへの入力とする、第1の予測モデルの目的変数の値の予測の場合もある。
なお、第1の予測モデルを生成する場合、処理部12は、説明変数から目的変数を求めるための第1の予測モデルの係数の値を決定する処理である。そのため第1の予測モデルを生成する際には、ユーザにより目的変数の値が入力される。なお処理部12は、説明変数情報11aに示される説明変数の1つを目的変数として指定された場合、指定された説明変数の値(例えば実測値)を目的変数の値とすることもできる。線形回帰により第1の予測モデルを生成する場合であれば、第1の予測モデルは一次関数で表される。この場合、処理部12は、多数の化合物についての説明変数の値と目的変数の値とから、一次関数の傾きと切片とを示す係数を、例えば最小二乗法により求める。
このようにして、予測モデルへ入力する説明変数として、他の予測モデルによる予測値を容易に利用することができる。
例えば第1の予測モデルを、予測モデル「1」とする。処理部12は、予測モデル情報11bを参照し、予測モデル「1」の目的変数を説明する説明変数が、説明変数「11,12,・・・,20,22」であると判断する。さらに処理部12は、説明変数情報11aを参照し、これらの説明変数のうち、説明変数「11,12,・・・,20」は、記述子生成ソフトウェア「b」により算出する説明変数であると判断する。また処理部12は、説明変数「22」は、予測モデル「2」により算出する説明変数であると判断する。
この場合、処理部12は、予測モデル情報11bを参照し、予測モデル「2」の目的変数を説明する説明変数が、説明変数「1,2,・・・,10,21」であると判断する。処理部12は、説明変数情報11aを参照し、これらの説明変数のうち、説明変数「1,2,・・・,10」は、記述子生成ソフトウェア「a」により算出する説明変数であると判断する。また処理部12は、説明変数「21」は、化合物の実測値情報11dから取得する実測値であると判断する。
そこで処理部12は、化合物の構造データ11cに基づいて、記述子生成ソフトウェア「a」を用いて説明変数「1,2,・・・,10」の値を計算する。次に処理部12は、化合物の実測値情報11dから、説明変数「21」に相当する実測値を取得する。さらに処理部12は、説明変数「1,2,・・・,10,21」の値を予測モデル「2」への入力として、予測モデル「2」に基づく目的変数を計算する。処理部12は、算出した目的変数の値を、説明変数「22」の値とする。
また処理部12は、化合物の構造データ11cに基づいて、記述子生成ソフトウェア「b」を用いて説明変数「11,12,・・・,20」の値を計算する。そして処理部12は、説明変数「11,12,・・・,20,22」に基づいて、予測モデル「1」に関する計算(予測モデル「1」の生成、目的変数の算出など)を行う。
このように、説明変数情報11aにおいて、説明変数の値の生成手段の1つとして予測モデルが登録され、予測モデル情報11bに予測モデルの説明変数が示されていることで、既存の予測モデルによる目的変数の算出を自動化できる。その結果、既存の予測モデルによる予測結果の利用が容易となる。
なお、処理部12は、第1の予測モデルを生成した場合、第1の予測モデルの生成に用いた第1の説明変数を示す情報を、第1の予測モデルに関連付けて説明変数情報に追加してもよい。これにより、生成した第1の予測モデルを、以後、他の予測モデルへ入力する説明変数の値の生成に容易に利用可能となる。
図1に示した例では、予測モデル「1」に関する処理の実行に、予測モデル「2」の目的変数を利用しているが、予測モデル「2」に入力する説明変数の生成にも、他の予測モデルで算出した目的変数の値を用いることが可能である。
例えば処理部12は、第2の説明変数の生成手段として第3の予測モデルによる算出が指定されている場合、予測モデル情報11bに基づいて、第3の予測モデルで予測する目的変数を説明する1または複数の第3の説明変数を判断する。次に処理部12は、説明変数情報11aに基づいて、第3の説明変数それぞれの生成手段を判断する。さらに処理部12は、判断した生成手段により、第3の説明変数の値を生成する。そして処理部12は、第3の説明変数の値を第3の予測モデルへ入力することで得られる目的変数の値を、値の生成手段が第3の予測モデルによる算出である第2の説明変数の値として生成する。
このように利用する予測モデルが多段階になっている場合でも、それらの予測モデルの説明変数の生成処理と予測モデルによる目的変数の生成処理とを再帰的に実行することで、予測モデルによる説明変数の生成処理を自動化できる。その結果、処理部12に説明変数を生成させるためのユーザの操作を簡略化することができる。
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態では、化合物の特性を予測するための予測モデル利用支援システムについて具体的に説明する。予測モデル利用支援システムは、予測モデルの生成に用いられる説明変数(実測値、記述子計算結果、予測モデルによる予測結果など)および、その生成方法に関する情報を説明変数記憶部で管理する。そして予測モデル利用支援システムは、説明変数記憶部を元に生成した予測モデルを、説明変数記憶部に再帰的に登録することで、予測モデルを通常の記述子と同様に取り扱えるようにする。
図2は、予測モデル利用支援システムのハードウェアの一例を示す図である。予測モデル利用支援システム100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
メモリ102は、予測モデル利用支援システム100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
バス109に接続されている周辺機器としては、ストレージ装置103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
ストレージ装置103は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置103は、コンピュータの補助記憶装置として使用される。ストレージ装置103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置103としては、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、有機EL(Electro Luminescence)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取り、または光ディスク24へのデータの書き込みを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD-RAM、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)などがある。
機器接続インタフェース107は、予測モデル利用支援システム100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。ネットワークインタフェース108は、例えばスイッチやルータなどの有線通信装置にケーブルで接続される有線通信インタフェースである。またネットワークインタフェース108は、基地局やアクセスポイントなどの無線通信装置に電波によって通信接続される無線通信インタフェースであってもよい。
予測モデル利用支援システム100は、以上のようなハードウェアによって、第2の実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示した予測モデル利用支援システム10も、図2に示した予測モデル利用支援システム100と同様のハードウェアにより実現することができる。
予測モデル利用支援システム100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。予測モデル利用支援システム100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、予測モデル利用支援システム100に実行させるプログラムをストレージ装置103に格納しておくことができる。プロセッサ101は、ストレージ装置103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。また予測モデル利用支援システム100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、ストレージ装置103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
図3は、予測モデル利用支援システムが有する機能の一例を示すブロック図である。予測モデル利用支援システム100は、化合物記憶部110、化合物セット記憶部120、説明変数記憶部130、説明変数セット記憶部140、予測モデル記憶部150、化合物データ取得部161、化合物セット生成部162、説明変数計算部163、特徴選択部164、予測モデル生成部165、説明変数用モデル登録部166、および予測部167を有する。
化合物記憶部110、化合物セット記憶部120、説明変数記憶部130、説明変数セット記憶部140、および予測モデル記憶部150それぞれは、メモリ102またはストレージ装置103の記憶領域の一部を用いて実現される。化合物データ取得部161、化合物セット生成部162、説明変数計算部163、特徴選択部164、予測モデル生成部165、説明変数用モデル登録部166、および予測部167は、プロセッサ101がプログラムを実行することによって実現される。
化合物記憶部110は、化合物の化学構造に関する情報を記憶する。化合物セット記憶部120は、特性の予測対象とする化合物セットに関する情報を記憶する。説明変数記憶部130は、予測モデルを用いた予測に使用可能な説明変数に関する情報を記憶する。説明変数セット記憶部140は、予測モデルを用いた予測に使用する説明変数の組み合わせを記憶する。予測モデル記憶部150は、生成された予測モデルに関する情報を記憶する。
化合物データ取得部161は、予測モデルの生成に用いるデータをインポートする。例えば化合物データ取得部161は、多数の化合物の化学構造が記録された化学構造ファイルの入力を受け付け、その化学構造ファイルに示される化学構造をテーブル形式のデータに変換し、化合物記憶部110に格納する。
化合物セット生成部162は、インポートした化合物のデータから予測モデル生成用の学習データセットとして用いる化合物セットを生成する。例えば化合物セット生成部162は、化合物記憶部110に登録されている化合物の内の1以上の化合物を組み合わせ、化合物セットを生成する。化合物セット生成部162は、生成した化合物セットを示す情報を、化合物セット記憶部120に格納する。
説明変数計算部163は、説明変数の値を計算する。例えば説明変数計算部163は、化合物セット記憶部120に格納された化合物セットに含まれる化合物の記述子の値を計算し、その値を説明変数の値とする。また説明変数計算部163は、予測モデルによる予測結果を説明変数として利用する場合には、該当の予測モデルの目的変数の値を計算し、その値を説明変数とする。説明変数計算部163は、計算した説明変数の値を、説明変数記憶部130に格納する。
特徴選択部164は、化合物セットの複数の説明変数から特徴を示す説明変数を選択し、選択した説明変数を予測モデルの生成に使用する説明変数セットとする。特徴選択部164は、説明変数セットを示す情報を説明変数セット記憶部140に格納する。
予測モデル生成部165は、化合物セット、説明変数セット、目的変数、予測モデル生成アルゴリズム、評価手法などの指定により、予測モデルを生成する。予測モデル生成部165は、生成した予測モデルを予測モデル記憶部150に格納する。
説明変数用モデル登録部166は、生成した予測モデルを、その予測モデルで使われた説明変数とともに説明変数記憶部130に格納する。
予測部167は、生成された予測モデルを用いて、説明変数に応じた目的変数の値を予測する。その際、予測部167は、説明変数として、他の予測モデルによって予測された目的変数の値を使用することができる。
次に、図4~図8を参照して、各記憶部に格納されているデータについて具体的に説明する。
図4は、化合物記憶部の一例を示す図である。化合物記憶部110には、例えば化合物管理テーブル111が格納されている。化合物管理テーブル111には、化合物ごとのレコードが登録されている。各レコードには、化合物を識別するための化合物識別子に対応付けて、化合物名、化合物構造データ、および化合物画像データが設定されている。化合物名は、化合物の名称である。化合物構造データは、化合物の構造を示すデータである。化合物画像データは、化合物のイメージ画像を示す画像データである。
図5は、化合物セット記憶部の一例を示す図である。化合物セット記憶部120には、例えば化合物セット管理テーブル121と化合物セット詳細テーブル122とが格納されている。
化合物セット管理テーブル121には、化合物セットごとのレコードが登録されている。各レコードには、化合物セットを識別するための化合物セット識別子に対応付けて、化合物セット名と化合物セット格納先カラム名とが設定されている。化合物セット名は、化合物セットの名称である。化合物セット格納先カラム名は、化合物セットに含まれる化合物を示す化合物セット詳細テーブル122のカラムの名称である。
化合物セット詳細テーブル122には、化合物ごとのレコードが登録されている。化合物セット詳細テーブル122の各カラム(列)は、化合物セット管理テーブル121のレコードにカラム名によって関連付けられている。化合物セット詳細テーブル122の各レコードには、化合物識別子に対応付けて、カラム名に対応する化合物セットに、そのレコードの化合物識別子で示される化合物が含まれるか否かを示すフラグが設定されている。例えば、化合物セットに含まれていればフラグ「1」が設定され、含まれていなければフラグ「0」が設定される。
図6は、説明変数記憶部の一例を示す図である。説明変数記憶部130には、例えば説明変数管理テーブル131と説明変数生成結果管理テーブル132とが格納されている。
説明変数管理テーブル131には、説明変数ごとのレコードが登録されている。各レコードは、説明変数を識別するための説明変数識別子に対応付けて、説明変数名、説明変数種別、記述子生成ソフトウェア、予測モデル識別子、および計算結果格納カラム名が設定されている。説明変数名は、説明変数の名称である。説明変数種別は、説明変数の種別である。説明変数の種別には、記述子、実測値、予測モデルなどがある。説明変数種別が記述子の説明変数は、化合物の構造から算出可能な値である。説明変数種別が実測値の説明変数は、化合物に対する実測の結果が得られた値である。説明変数種別が予測モデルの説明変数は、予測モデルを用いて予測された値である。記述子生成ソフトウェアは、説明変数種別が記述子の場合に、その記述子の値を算出するソフトウェアである。予測モデル識別子は、説明変数種別が予測モデルの場合に、その予測モデルを識別するための識別子である。計算結果格納カラム名は、化合物識別子ごとの説明変数の値が格納された、説明変数生成結果管理テーブル132のカラムの名称である。
説明変数生成結果管理テーブル132には、化合物ごとのレコードが登録されている。各レコードには、化合物識別子に対応付けて、化合物名と、カラム名ごとの該当カラム名で関連付けられた説明変数の値が設定されている。
図7は、説明変数セット記憶部の一例を示す図である。説明変数セット記憶部140には、例えば説明変数セット管理テーブル141と説明変数セット詳細テーブル142とが格納されている。
説明変数セット管理テーブル141には、説明変数セットごとのレコードが登録されている。各レコードには、説明変数セットを識別するための説明変数セット識別子に対応付けて、説明変数セット名と説明変数セット格納先カラム名とが設定されている。説明変数セット名は、説明変数セットの名称である。説明変数セット格納先カラム名は、説明変数セットに含まれる説明変数を示す説明変数セット詳細テーブル142のカラムの名称である。
説明変数セット詳細テーブル142には、説明変数ごとのレコードが登録されている。説明変数セット詳細テーブル142の各カラムは、説明変数セット管理テーブル141のレコードにカラム名によって関連付けられている。説明変数セット詳細テーブル142の各レコードには、説明変数識別子に対応付けて、カラム名に対応する説明変数セットに、そのレコードの説明変数識別子で示される説明変数が含まれるか否かを示すフラグが設定されている。例えば、説明変数セットに含まれていればフラグ「1」が設定され、含まれていなければフラグ「0」が設定される。
図8は、予測モデル記憶部の一例を示す図である。予測モデル記憶部150には、例えば予測モデル管理テーブル151が格納されている。予測モデル管理テーブル151には、予測モデルごとのレコードが登録されている。各レコードには、予測モデル識別子に対応付けて、名前、分析種別、アルゴリズム、評価指標、評価方法、評価結果(学習データ)、評価結果(テストデータ)、予測モデル本体、目的変数識別子、化合物識別子、および説明変数識別子が設定されている。名前は、予測モデルの名称である。分析種別は、予測モデルの生成に使用された分析手法の種別である。分析種別には、例えば回帰よる分析(回帰分析)、2クラス分類による分析などがある。アルゴリズムは、予測モデル生成のアルゴリズムである。アルゴリズムとしては、線形回帰などがある。評価指標は、生成した予測モデルの評価に使用した指標である。評価方法は、生成した予測モデルの評価方法である。評価結果(学習データ)は、予測モデルの生成に学習データとして使用した化合物セットを予測モデルへの入力としたときの、予測モデルの評価結果である。評価結果(テストデータ)は、学習データとは別に用意されたテストデータを予測モデルの入力としたときの予測モデルの評価結果である。予測モデル本体は、説明変数に基づいて目的変数を得るための規則である予測モデルの内容である。例えば予測モデル本体には、説明変数から目的変数を算出するための関数が定義される。目的変数識別子は、予測モデルを用いて得られる目的変数を識別するための目的変数識別子である。化合物識別子は、学習データとして使用した化合物セットに含まれる化合物の化合物識別子である。説明変数識別子は、予測モデルの生成に使用された説明変数の説明変数識別子である。
以上のようなデータを用いて、予測モデルの生成と、生成された予測モデルによる予測結果を説明変数として用いた予測とを行うことができる。
図9は、予測モデル生成処理の手順の一例を示すフローチャートである。以下、図9に示す処理をステップ番号に沿って説明する。
[ステップS101]化合物データ取得部161は、化学構造ファイルの指定入力を受け付ける。
[ステップS102]化合物データ取得部161は、指定された化学構造ファイルから化合物の構造、実測値などのデータを取得し、それらのデータを化合物記憶部110などの記憶部に格納する。
[ステップS103]化合物セット生成部162は、化合物セットに含める化合物の指定入力を受け付ける。
[ステップS104]化合物セット生成部162は、指定された化合物を化合物セットとして化合物セット記憶部120に格納する。
[ステップS105]説明変数計算部163は、説明変数の指定入力を受け付ける。
[ステップS106]説明変数計算部163は、指定されたすべての説明変数について、化合物セットに含まれる全化合物におけるその説明変数の値を計算し、計算結果を説明変数生成結果管理テーブル132に格納する。計算方法は、予め説明変数管理テーブル131に指定されている。例えば説明変数種別が記述子の説明変数であれば、説明変数計算部163は、対応する記述子生成ソフトウェアにより説明変数を計算する。また、説明変数種別が予測モデルの説明変数であれば、説明変数計算部163は、予測モデル識別子で示される予測モデルを用いて目的変数を計算し、その値を説明変数の値とする。なお、説明変数種別が実測値の場合、説明変数計算部163は、化学構造ファイルから取得した実測値またはユーザが入力した実測値を、説明変数の値とする。ユーザから実測値を取得する場合、説明変数計算部163は、実測値の入力を受け付ける画面を表示し、その画面に入力された値を実測値として取得する。説明変数計算処理の詳細は後述する(図10参照)。
[ステップS107]特徴選択部164は、特徴選択手段を指定する入力を受け付ける。
[ステップS108]特徴選択部164は、指定された説明のうち、化合物の特徴を表す説明変数の選択(特徴選択)を行う。指定された特徴選択手段を実行し、特徴として選択された説明変数を含む説明変数セットを説明変数セット記憶部140に登録する。
なお、特徴選択手段としては、例えば予測モデル生成アルゴリズムの実行エラーを引き起こすことが分かっている説明変数を除外するものがある。また特徴選択手段としては、値の分散が低く学習に寄与しない説明変数を除外するものがある。さらに特徴選択手段としては、他の説明変数との相関が高く冗長なもの(相関がある説明変数の一部)を除外するものがある。これらの特徴選択手段を用いた場合、除外されなかった説明変数が、特徴として説明変数セットに含められる。
[ステップS109]予測モデル生成部165は、予測モデルの学習条件の指定入力を受け付ける。学習条件としては、学習セット、説明変数セット、目的変数、予測アルゴリズム、評価手法などが指定される。
[ステップS110]予測モデル生成部165は、指定された学習条件に基づいて予測モデルを生成し、生成した予測モデルに関する情報を予測モデル記憶部150に格納する。格納される情報には、予測モデル本体、予測モデルに使われた全説明変数の識別子、予測モデルの評価に用いられる情報(学習化合物、学習化合物の説明変数の値など)、利用した予測モデルのアルゴリズム、評価手法、評価結果、コメントなどが含まれる。
[ステップS111]説明変数用モデル登録部166は、予測結果として得られる目的変数を他の予測モデルの説明変数として用いる予測モデルの指定入力を受け付ける。
[ステップS112]説明変数用モデル登録部166は、指定された予測モデルを説明変数記憶部130に、説明変数として格納する。
このようにして、予測モデルを生成し、生成した予測モデルを説明変数の1つとして、説明変数記憶部130に登録することができる。登録された予測モデルは、説明変数計算処理に利用される。
次に説明変数計算処理の詳細について説明する。
図10は、説明変数計算処理の手順の一例を示すフローチャートである。以下、図10に示す処理をステップ番号に沿って説明する。
[ステップS121]説明変数計算部163は、指定されたすべての説明変数のうち、未選択の説明変数を1つ選択する。
[ステップS122]説明変数計算部163は、説明変数管理テーブル131を参照し、選択した説明変数の種別が予測モデルか否かを判断する。説明変数計算部163は、予測モデルであれば、処理をステップS123に進める。また説明変数計算部163は、予測モデルでなければ、処理をステップS124に進める。
[ステップS123]説明変数計算部163は、ステップS121で選択した説明変数を算出対象として、予測モデルによる説明変数の値算出処理を行う。この処理の詳細は後述する(図11参照)。その後、説明変数計算部163は、処理をステップS127に進める。
[ステップS124]説明変数計算部163は、説明変数管理テーブル131を参照し、選択した説明変数の種別が記述子か否かを判断する。説明変数計算部163は、記述子であれば、処理をステップS125に進める。また説明変数計算部163は、記述子でなければ、処理をステップS126に進める。
[ステップS125]説明変数計算部163は、説明変数管理テーブル131を参照し、選択した説明変数の記述子生成ソフトウェアを特定する。そして説明変数計算部163は、特定した記述子生成ソフトウェアを用いて、生成した化合物セットに含まれる化合物それぞれについて、選択した説明変数の値を算出する。その後、説明変数計算部163は、処理をステップS127に進める。
[ステップS126]説明変数計算部163は、生成した化合物セットに含まれる化合物それぞれについての、選択した説明変数の実測値を説明変数生成結果管理テーブル132から取得する。
[ステップS127]説明変数計算部163は、未選択の説明変数があるか否かを判断する。説明変数計算部163は、未選択の説明変数がある場合、処理をステップS121に進める。また説明変数計算部163は、未選択の説明変数がなければ、説明変数計算処理を終了する。
次に予測モデルによる説明変数の値算出処理について詳細に説明する。
図11は、予測モデルによる説明変数の値算出処理の手順の一例を示すフローチャートである。以下、図11に示す処理をステップ番号に沿って説明する。
[ステップS131]説明変数計算部163は、算出対象の説明変数の生成に使用する予測モデル(実行対象の予測モデル)を判断し、その予測モデルによる予測に使用する説明変数を特定する。例えば説明変数計算部163は、説明変数管理テーブル131から、算出対象の説明変数の予測モデル識別子を取得する。次に説明変数計算部163は、予測モデル管理テーブル151から、取得した予測モデル識別子に対応する予測モデルの説明変数識別子を取得する。取得した説明変数識別子で示される説明変数が、該当する予測モデルを用いた予測に使用する説明変数である。
[ステップS132]説明変数計算部163は、ステップS131で特定した説明変数を1つ選択する。
[ステップS133]説明変数計算部163は、説明変数管理テーブル131を参照し、選択した説明変数の種別が予測モデルか否かを判断する。説明変数計算部163は、予測モデルであれば、処理をステップS134に進める。また説明変数計算部163は、予測モデルでなければ、処理をステップS135に進める。
[ステップS134]説明変数計算部163は、ステップS132で選択した説明変数を算出対象として、予測モデルによる説明変数の値算出処理を再帰的に実行する。その後、説明変数計算部163は、処理をステップS138に進める。
[ステップS135]説明変数計算部163は、説明変数管理テーブル131を参照し、選択した説明変数の種別が記述子か否かを判断する。説明変数計算部163は、記述子であれば、処理をステップS136に進める。また説明変数計算部163は、記述子でなければ、処理をステップS137に進める。
[ステップS136]説明変数計算部163は、説明変数管理テーブル131を参照し、選択した説明変数の記述子生成ソフトウェアを特定する。そして説明変数計算部163は、特定した記述子生成ソフトウェアを用いて、生成した化合物セットに含まれる化合物それぞれについて、選択した説明変数の値を算出する。その後、説明変数計算部163は、処理をステップS138に進める。
[ステップS137]説明変数計算部163は、生成した化合物セットに含まれる化合物それぞれについての、選択した説明変数の実測値を説明変数生成結果管理テーブル132から取得する。
[ステップS138]説明変数計算部163は、未選択の説明変数があるか否かを判断する。説明変数計算部163は、未選択の説明変数がある場合、処理をステップS132に進める。また説明変数計算部163は、未選択の説明変数がなければ、処理をステップS139に進める。
[ステップS139]説明変数計算部163は、実行対象の予測モデルに基づいて、目的変数の値を計算する。この際、ステップS132~S138で取得した説明変数の値が、予測モデルへの入力として用いられる。
[ステップS140]説明変数計算部163は、ステップS139で算出した目的変数の値を、現在実行している説明変数の値算出処理における算出対象の説明変数の値として出力する。
このようにして、予測モデルを用いて得られる目的変数の値を、説明変数として取得することができる。また予測モデルを用いた目的変数の計算において使用する説明変数の種別が予測モデルであれば、図11の処理を再帰的に呼び出すことで、その説明変数の値が取得される。このような処理が自動で行われることにより、ユーザによる予測モデルによる予測処理の指示の手間を削減することができる。
次に、予測モデルの生成処理と、生成した予測モデルを用いた予測処理とについて、具体的に説明する。
<他の予測モデル未使用での予測モデル生成処理>
まず、図12~図25を参照し、他の予測モデルを使用せずに新たな予測モデルを生成する処理について説明する。ユーザは、まず化学構造ファイルを用意する。
図12は、化学構造ファイルの一例を示す図である。化学構造ファイル31は、例えばSDF(Structure Data File)形式のファイルである。化学構造ファイル31には、ヘッダに続けて、含まれる原子の情報、原子間の結合の情報、実測値などのプロパティ情報が記述されている。そして、分子の区切りを示す記号で分子ごとの情報を区切ることで、複数の分子の情報が1つのファイル内に記述されている。
ユーザは、化学構造ファイル31を、例えばストレージ装置103に格納する。また予測モデル利用支援システム100にネットワーク20を介して接続された他の装置に保存されている化学構造ファイル31を、予測モデル利用支援システム100に読み取らせることもできる。予測モデル利用支援システム100の化合物データ取得部161は、例えば化学構造ファイル指定入力画面をモニタ21に表示し、ユーザからの化学構造ファイルの指定入力を受け付ける。
図13は、化学構造ファイル指定入力画面の一例を示す図である。図13に示す化学構造ファイル指定入力画面32には、テキストボックス32aとボタン32bとが含まれる。テキストボックス32aは、化学構造ファイル31が保存されている場所と、化学構造ファイル31のファイル名とを入力するための入力領域である。ボタン32bは、テキストボックス32aへの入力を確定するためのボタンである。
ユーザは、テキストボックス32aに化学構造ファイル31の保存場所とファイル名とを入力し、ボタン32bを押下する。すると化合物データ取得部161が化学構造ファイル31を読み込み、化学構造ファイル31に示される化合物の情報を取得する。その後、化合物データ取得部161は、例えば読み込み結果を示す読み込み結果表示画面32cを表示する。読み込み結果表示画面32cには、化合物ごとの情報(化合物識別子、化合物名、構造など)が表示されている。
また、化合物データ取得部161は、化学構造ファイル31から取得した化合物の情報を、各種テーブルに登録する。
図14は、化合物データ登録の第1の例を示す図である。図14の例では、化合物データ取得部161は、化学構造ファイル31から10個の化合物に関する情報を取得している。そのため化合物データ取得部161は、化合物それぞれに対応するレコード(化合物識別子「1」~「10」)を、化合物管理テーブル111と説明変数管理テーブル131と説明変数生成結果管理テーブル132と化合物セット詳細テーブル122とに登録する。また化学構造ファイル31には実測値が含まれているものとする。この場合、化合物データ取得部161は、化学構造ファイル31に示される実測値に対応するレコード(説明変数識別子「31」)を、説明変数管理テーブル131に登録する。さらに化合物データ取得部161は、該当する実測値(実測で得られた物理量)を、説明変数生成結果管理テーブル132に登録する。
化合物データ取得部161による化合物の情報の登録が完了すると、化合物セット生成部162が、化合物セットに含める化合物指定入力を受け付ける。例えば化合物セット生成部162は、学習用化合物セット生成画面をモニタ21に表示する。
図15は、学習用化合物セット生成画面の一例を示す図である。学習用化合物セット生成画面33には、化合物表示部33a、テキストボックス33b,33c、およびボタン33dが含まれる。
化合物表示部33aには、化合物の情報(化合物識別子、化合物名、構造など)が含まれる。また化合物表示部33aには、表示されている化合物から化合物セットに含める化合物を分離させるための化合物選択欄「Split1」、「Split2」が設けられている。化合物選択欄には、化合物に対応付けてチェックボックス33e~33hが設けられている。各化合物選択欄においてチェックボックスにチェックマークが設定された化合物が、その化合物選択欄に対応する化合物セットに含められる。
テキストボックス33bは、化合物選択欄「Split1」に対応する化合物セットの名称を入力する入力領域である。テキストボックス33cは、化合物選択欄「Split2」に対応する化合物セットの名称を入力する入力領域である。
ボタン33dは、化合物セットの情報の保存を指示するためのボタンである。ボタン33dが押下されると、化合物セット生成部162は、テキストボックス33b,33cに設定された名称の化合物セットを、化合物セット記憶部120に格納する。
ユーザは、学習用化合物セット生成画面33において、化合物セットに含める化合物をチェックボックス33e~33hにより選択し、テキストボックス33b,33cに化合物セットの名称を入力する。そしてユーザがボタン33dを押下すると化合物セットが生成される。
図16は、化合物セットの情報登録の第1の例を示す図である。化合物セット生成部162は、ユーザが選択した化合物を含む化合物セットの情報を、化合物セット管理テーブル121と化合物セット詳細テーブル122とに登録する。例えば化合物セット生成部162は、化合物セット管理テーブル121に、生成する化合物セットに対応するレコード(化合物セット識別子「1」、「2」)を追加する。また化合物セット生成部162は、化合物セット詳細テーブル122に、生成する化合物セットに対応するカラム名(図16の例では「カラム名1」と「カラム名2」)を有するカラムを追加する。そして化合物セット生成部162は、追加したカラムにおいて、化合物セットに含まれる化合物の化合物識別子に対応する領域に「1」を設定し、その他の領域に「0」を設定する。
化合物セットが生成されると、説明変数計算部163が、説明変数の指定入力を受け付ける。例えば説明変数計算部163は、説明変数指定画面をモニタ21に表示する。
図17は、説明変数指定画面の第1の例を示す図である。説明変数指定画面34には、説明変数のリストが表示されている。図17において、「Descriptors」または「Fingerprints」の下位に示されている説明変数は、記述子生成ソフトウェアで生成される説明変数である。「Models」の下位に示されている説明変数は、予測モデルで生成される説明変数である。各説明変数には、チェックボックス34bが対応付けられている。チェックボックス34bにチェックがされている説明変数が、予測モデルの生成に使用する説明変数として使用される。
ボタン34aは、説明変数の指定入力を確定するためのボタンである。ボタン34aが押下されると、説明変数計算部163が、指定された説明変数の値を計算する。説明変数計算部163は、得られた説明変数の値を、説明変数生成結果管理テーブル132に格納する。
図18は、説明変数の値の格納処理の第1の例を示す図である。説明変数計算部163は、得られた説明変数の値を、説明変数生成結果管理テーブル132の、生成された化合物セットに含まれる化合物に対応するレコードに設定する。
図17に示した例では、「RDKit」、「CDK」、「mordred」の各記述子生成ソフトウェアで生成される記述子が、説明変数として指定されている。図6に示した説明変数管理テーブル131を参照すると、「RDKit」、「CDK」、「mordred」の記述子生成ソフトウェアは、それぞれ識別子を10個ずつ生成することが示されている。この場合、図18に示すように、「カラム名1」~「カラム名30」のそれぞれに、化合物の記述子の値が登録される。
なお、説明変数生成結果管理テーブル132の「カラム名31」のカラムに設定されている説明変数は実測値であり、化合物データ取得部161によって既に設定されている。
説明変数の計算が完了すると、説明変数計算部163は、計算結果を示す説明変数表示画面をモニタ21に表示する。
図19は、説明変数表示画面の一例を示す図である。説明変数表示画面35には、各化合物の化合物識別子や化合物名などの情報に対応付けて、計算された説明変数、および実測値として得られている説明変数が表示されている。
その後、特徴選択部164が、特徴選択手段の指定入力を受け付ける。例えば特徴選択部164は、特徴選択画面をモニタ21に表示する。
図20は、特徴選択画面の一例を示す図である。特徴選択画面36には、テキストボックス36a,36b,36c、特徴選択実行指示用のボタン36d、特徴説明変数表示部36e、および特徴選択結果保存指示用のボタン36fが含まれる。
テキストボックス36aは、特徴選択対象の化合物セットの名称の入力領域である。テキストボックス36bは、特徴として選択された説明変数を含む説明変数セットに付与する説明変数セット識別子の入力領域である。テキストボックス36cは、特徴選択手段の名称の入力領域である。ユーザがテキストボックス36a,36b,36cそれぞれに化合物セットの名称、説明変数セット識別子、特徴選択手段の名称を入力し、ボタン36dを押下すると、特徴選択部164が、指定された特徴選択手段に基づいて特徴選択処理を実行する。
特徴選択部164により選択された説明変数に関する情報は、特徴説明変数表示部36eに表示される。その後、ユーザがボタン36fを押下すると、特徴選択部164は、選択された説明変数を含む説明変数セットに関する情報を説明変数セット記憶部140に格納する。
図21は、説明変数セットの情報の格納処理の第1の例を示す図である。特徴選択部164は、説明変数セット管理テーブル141に、生成した説明変数セットに対応するレコードを説明変数セット管理テーブル141に登録する。図21の例では、2種類の特徴選択手段による特徴選択が行われ、2つの説明変数セットが生成されたものとする。そのため、説明変数セット管理テーブル141には、2つのレコード(説明変数セット識別子「1」、「2」)が追加されている。そして特徴選択部164は、説明変数セット詳細テーブル142に、説明変数セットに対応するカラム(カラム名「1」、「2」)における、その説明変数セットに含まれる説明変数に対応する領域に「1」を設定する。
特徴選択が完了すると、予測モデル生成部165により、学習条件指定入力が受け付けられる。例えば予測モデル生成部165は、予測モデル生成画面をモニタ21に表示する。
図22は、予測モデル生成画面の一例を示す図である。予測モデル生成画面37には、条件指定部37a、予測モデル表示部37b、およびボタン37cが含まれる。
条件指定部37aは、予測モデルの生成条件を入力する領域である。条件指定部37aには、使用可能な化合物データセットのリスト、使用可能な説明変数セットのリスト、予測モデルで生成可能な目的変数のリスト、使用可能な学習アルゴリズムのリスト、使用可能な評価方法のリストが表示されている。各リストに含まれる項目にはチェックボックスが付与されており、チェックボックスにチェックマークが設定された項目が、予測モデルの生成条件として用いられる。
また条件指定部37aには、予測モデルの生成を指示するためのボタン37dが設けられている。ユーザが予測モデルの生成に適用する条件を選択し、ボタン37dを押下すると、予測モデル生成部165が、指定された条件に従って予測モデルの生成および評価を行う。
生成された予測モデルに関する情報が、予測モデル表示部37bに表示される。予測モデル表示部37bには、予測モデルの生成に使用した化合物セットなどの生成条件に関する情報に加え、生成した予測モデルの評価結果などが示される。また予測モデル表示部37bには、詳細表示用のボタン37eが設けられている。ボタン37eが押下されると、詳細画面38が表示される。詳細画面38は、生成された予測モデルを表すグラフ、およびその他の詳細情報が表示される。
ボタン37cは、生成された予測モデルの保存を指示するためのボタンである。ボタン37cが押下されると、予測モデル生成部165が、予測モデルの情報を予測モデル記憶部150に格納する。
図23は、予測モデルの情報の格納処理の第1の例を示す図である。予測モデル生成部165は、生成した予測モデルに対応するレコード(予測モデル識別子「1」)を、予測モデル管理テーブル151に登録する。
予測モデルの生成が完了すると、説明変数用モデル登録部166は、説明変数として利用する予測モデルを指定する入力を受け付ける。例えば説明変数用モデル登録部166は、登録モデル選択画面をモニタ21に表示する。
図24は、登録モデル選択画面の一例を示す図である。登録モデル選択画面39には、例えば予測モデルの名称のリストが表示されている。表示された予測モデルの名称には、チェックボックス39aが付与されている。チェックボックス39aにチェックマークが設定された予測モデルが、説明変数として登録する対象の予測モデルである。登録モデル選択画面39には、予測モデルの選択結果の登録を指示するボタン39bが設けられている。ボタン39bが押下されると、説明変数用モデル登録部166は、登録対象として選択された予測モデルの情報を、説明変数記憶部130に登録する。
図25は、説明変数用の予測モデルの情報の登録処理の第1の例を示す図である。説明変数用モデル登録部166は、説明変数管理テーブル131に、登録対象の予測モデルに対応するレコード(説明変数識別子「41」)を登録する。これにより、以後、その予測モデルで生成した目的変数を、他の予測モデルの説明変数として使用可能となる。
<説明変数に他の予測モデルを使用した予測モデル生成処理>
次に、図26~図32を参照し、他の予測モデルを使用して新たな予測モデルを生成する処理について説明する。ユーザは、新たに化学構造ファイルを用意する。そしてユーザは、図13に示した化学構造ファイル指定入力画面32を介して、用意した化学構造ファイルを指定して、化合物データ取得部161に化合物データを読み込ませる。化合物データ取得部161は、新たに指定された化学構造ファイルから取得した化合物の情報を、各種テーブルに登録する。
図26は、化合物データ登録の第2の例を示す図である。図26の例では、化合物データ取得部161は、化学構造ファイル41から10個の化合物に関する情報を取得している。そのため化合物データ取得部161は、化合物それぞれに対応するレコード(化合物識別子「11」~「20」)を化合物管理テーブル111と説明変数管理テーブル131と説明変数生成結果管理テーブル132と化合物セット詳細テーブル122とに新たに登録する。また化学構造ファイル41には実測値が含まれているものとする。この場合、化合物データ取得部161は、化学構造ファイル41に示される実測値に対応するレコード(説明変数識別子「32」)を、説明変数管理テーブル131に登録する。さらに化合物データ取得部161は、該当する実測値を、説明変数生成結果管理テーブル132に登録する。
化合物データ取得部161による化合物の情報の登録が完了すると、化合物セット生成部162が、図15に示した学習用化合物セット生成画面33を介して化合物セットに含める化合物指定入力を受け付ける。化合物指定入力が行われると、化合物セット生成部162が化合物セットを生成する。
図27は、化合物セットの情報登録の第2の例を示す図である。化合物セット生成部162は、ユーザが選択した化合物を含む化合物セットの情報を、化合物セット管理テーブル121と化合物セット詳細テーブル122とに登録する。例えば化合物セット生成部162は、化合物セット管理テーブル121に、生成する化合物セットに対応するレコード(化合物セット識別子「3」、「4」)を追加する。また化合物セット生成部162は、化合物セット詳細テーブル122に、生成する化合物セットに対応するカラム名(図27の例では、「カラム名3」、「カラム名4」)を有するカラムを追加する。そして化合物セット生成部162は、追加したカラムにおいて、化合物セットに含まれる化合物の化合物識別子に対応する領域に「1」を設定し、その他の領域に「0」を設定する。
化合物セットが生成されると、説明変数計算部163が、図17に示した説明変数指定画面34を介して説明変数の指定入力を受け付ける。この際、ユーザは、説明変数として予測モデルを指定することで、既存の予測モデルを用いて計算した目的変数を、生成する予測モデルの説明変数として用いることができる。
図28は、説明変数指定画面の第2の例を示す図である。図28に示す説明変数指定画面34では、予測モデルに対応するチェックボックス34cにもチェックマークが設定されている。予測モデルが選択された場合、説明変数計算部163は、選択された予測モデルを用いた目的変数の計算を行う。
例えば説明変数計算部163は、説明変数に予測モデルが含まれる場合は、説明変数管理テーブル131、予測モデル管理テーブル151を参照し、その予測モデルを用いた目的変数の予測値を説明変数の計算結果とする。さらに説明変数計算部163は、予測モデル管理テーブル151に示されている該当予測モデルの説明変数識別子を取得し、その説明変数識別子の値を、説明変数管理テーブル131に示されている生成手段で計算する。説明変数計算部163は、説明変数の値の計算結果を、一時的にメモリ102に保存する。そして説明変数計算部163は、保存した説明変数の値を、今回の処理で生成する予測モデルの入力として、目的変数の値を予測する。説明変数計算部163は、予測結果を、説明変数として説明変数生成結果管理テーブル132に格納する。
図29は、説明変数の値の格納処理の第2の例を示す図である。説明変数計算部163は、得られた説明変数の値を、説明変数生成結果管理テーブル132の、生成された化合物セットに含まれる化合物に対応するレコードに設定する。
図28に示した例では、「RDKit」、「CDK」、「mordred」の各記述子生成ソフトウェアで生成される記述子、および「Linear Regression」の予測モデルが、説明変数として指定されている。図6に示した説明変数管理テーブル131を参照すると、「RDKit」、「CDK」、「mordred」の記述子生成ソフトウェアは、それぞれ識別子を10個ずつ生成することが示されている。そのため、図29の例では、記述子が「カラム名1」~「カラム名30」に登録され、予測モデルで予測された目的変数の値が「カラム名41」に登録される。
説明変数の計算が完了すると、計算結果を示す説明変数表示画面35(図19参照)が表示され、その後、特徴選択部164が、図20に示した特徴選択画面36を介して、特徴選択手段の指定入力を受け付ける。特徴選択手段の指定入力が行われると、特徴選択部164は、指定された特徴選択手段により、特徴を表す説明変数を含む説明変数セットを生成する。そして特徴選択部164は、説明変数セットに関する情報を説明変数セット記憶部140に格納する。
図30は、説明変数セットの情報の格納処理の第2の例を示す図である。特徴選択部164は、説明変数セット管理テーブル141に、生成した説明変数セットに対応するレコードを登録する。図30の例では、2種類の特徴選択手段による特徴選択が行われ、2つの説明変数セットが生成されたものとする。そのため、説明変数セット管理テーブル141には、2つのレコード(説明変数セット識別子「3」、「4」)が追加されている。そして特徴選択部164は、説明変数セット詳細テーブル142に、追加した説明変数セットに対応するカラム(カラム名「3」、「4」)における、その説明変数セットに含まれる説明変数に対応する領域に「1」を設定する。
その後、図22に示す予測モデル生成画面37を介して予測モデルの生成指示が入力されると、予測モデル生成部165が、予測モデルを生成し、生成した予測モデルの情報を予測モデル管理テーブル151に格納する。
図31は、予測モデルの情報の格納処理の第2の例を示す図である。予測モデル生成部165は、生成した予測モデルに対応するレコード(予測モデル識別子「2」)を、予測モデル管理テーブル151に登録する。
予測モデルの生成が完了すると、説明変数用モデル登録部166は、図24に示す登録モデル選択画面39を介して、説明変数として利用する予測モデルを指定する入力を受け付ける。そして説明変数用モデル登録部166は、登録対象として選択された予測モデルの情報を、説明変数記憶部130に登録する。
図32は、説明変数用の予測モデルの情報の登録処理の第2の例を示す図である。説明変数用モデル登録部166は、説明変数管理テーブル131に、登録対象の予測モデルに対応するレコード(説明変数識別子「42」)を登録する。
このように他の予測モデルによる予測結果を用いて生成された予測モデルを説明変数として登録することができる。その結果、予測モデルの再帰的な呼び出しによる予測処理が可能となる。
<予測モデルによる目的変数の値の予測>
次に、予測モデルを用いた目的変数の値の予測処理について、図33~図39を参照して説明する。予測モデルによる目的変数の値の予測では、説明変数として他の予測モデルで計算した目的変数を用いることができる。
図33は、予測モデルを用いた予測処理の手順の一例を示すフローチャートである。図33に示した処理のうち、ステップS201~S206の処理は、図9に示した予測モデル生成処理のステップS101~S106の処理と同様である。以下、図9の処理と異なるステップS207~S209の処理について、ステップ番号に沿って説明する。
[ステップS207]予測部167は、予測実行指示の入力を受け付ける。
[ステップS208]予測部167は、予測実行指示に従って、予測モデルの目的変数の値を予測する。
[ステップS209]予測部167は、予測結果を表示する。
予測処理においても、予測モデル生成処理と同様の説明変数計算処理(ステップS206)を行っており、説明変数として他の予測モデルで予測した目的変数の値を用いることができる。しかも、説明変数を計算するための予測モデルによる説明変数の値算出処理は、図10,図11に示したように再帰的に呼び出すことができる。その結果、予測モデルを用いた予測処理を行う際のユーザの手間が削減される。
例えばユーザは、新たに化学構造ファイルを用意する。そしてユーザは、図13に示した化学構造ファイル指定入力画面32を介して、用意した化学構造ファイルを指定して、化合物データ取得部161に化合物データを読み込ませる。化合物データ取得部161は、新たに指定された化学構造ファイルから取得した化合物の情報を、各種テーブルに登録する。
図34は、化合物データ登録の第3の例を示す図である。図34の例では、化合物データ取得部161は、化学構造ファイル51から10個の化合物に関する情報を取得している。そのため化合物データ取得部161は、化合物それぞれに対応するレコード(化合物識別子「21」~「30」)を化合物管理テーブル111と説明変数生成結果管理テーブル132と化合物セット詳細テーブル122とに新たに登録する。
化合物データ取得部161による化合物の情報の登録が完了すると、化合物セット生成部162が、図15に示した学習用化合物セット生成画面33を介して化合物セットに含める化合物指定入力を受け付ける。化合物指定入力が行われると、化合物セット生成部162が化合物セットを生成する。
図35は、化合物セットの情報登録の第3の例を示す図である。化合物セット生成部162は、ユーザが選択した化合物を含む化合物セットの情報を、化合物セット管理テーブル121と化合物セット詳細テーブル122とに登録する。例えば化合物セット生成部162は、化合物セット管理テーブル121に、生成する化合物セットに対応するレコード(化合物セット識別子「5」)を追加する。また化合物セット生成部162は、化合物セット詳細テーブル122に、生成する化合物セットに対応するカラム名(図27の例では、「カラム名5」)を有するカラムを追加する。そして化合物セット生成部162は、追加したカラムにおいて、化合物セットに含まれる化合物の化合物識別子に対応する領域に「1」を設定し、その他の領域に「0」を設定する。
化合物セットが生成されると、説明変数計算部163が、図17に示した説明変数指定画面34を介して説明変数の指定入力を受け付ける。この際、ユーザは、説明変数として予測モデルを指定することで、既存の予測モデルを用いて計算した目的変数を、予測に使用する予測モデルの説明変数として用いることができる。
例えば説明変数計算部163は、説明変数に予測モデルが含まれる場合は、説明変数管理テーブル131、予測モデル管理テーブル151を参照し、その予測モデルを用いた目的変数の予測値を説明変数の計算結果とする。さらに説明変数計算部163は、予測モデル管理テーブル151に示されている該当予測モデルの説明変数識別子を取得し、その説明変数識別子の値を、説明変数管理テーブル131に示されている生成手段で計算する。説明変数計算部163は、説明変数の値の計算結果を、一時的にメモリ102に保存する。そして説明変数計算部163は、保存した説明変数の値を、今回の処理で生成する予測モデルの入力として、目的変数の値を予測する。説明変数計算部163は、予測結果を、説明変数として説明変数生成結果管理テーブル132に格納する。
図36は、説明変数の値の格納処理の第3の例を示す図である。説明変数計算部163は、得られた説明変数の値を、説明変数生成結果管理テーブル132の、生成された化合物セットに含まれる化合物に対応するレコードに設定する。
その後、予測部167が、ユーザからの予測モデルを用いた予測実行指示を受け付ける。例えば、予測部167は、例えば予測実行指示画面をモニタ21に表示する。ユーザは、その予測実行指示画面において、予測処理に用いる予測モデルと予測対象の化合物セットとの指定入力を行う。
図37は、予測実行指示画面の一例を示す図である。予測実行指示画面52には、テキストボックス52aと化合物表示部52bとが含まれている。テキストボックス52aは、予測対象の化合物セットを指定するための入力領域である。化合物表示部52bは、予測対象の化合物セットに含まれる化合物の情報を表示する領域である。ユーザがテキストボックス52aに化合物セットの名称を入力すると、入力された名称に対応する化合物セットに含まれる化合物の情報が、化合物表示部52bに表示される。
またユーザが右クリックなどの所定の操作を行うと、予測モデルをリストアップしたコンテキストメニュー52cが表示される。ユーザがコンテキストメニューから予測モデルを選択すると、予測部167により、選択された予測モデルを用いて、予測対象の化合物セットに応じた目的変数の値が算出される。そして予測部167は、例えば算出した目的変数を示す予測結果表示画面をモニタ21に表示する。
図38は、予測結果表示画面の一例を示す図である。予測結果表示画面53には、化合物ごとの目的変数の予測結果を示す予測結果表示部53aが含まれる。予測結果表示部53aには、予測対象の目的変数の値が含まれる、ユーザは、予測結果表示部53aから化合物を選択し、所定の操作を行うことで、選択した化合物の予測結果の詳細を表示させることができる。
図39は、予測結果詳細表示画面の一例を示す図である。予測結果詳細表示画面54には、選択した化合物と化合物セットとの類似度や、学習に使われた説明変数の化合物セットにおける範囲に対して、選択した化合物の説明変数の値が妥当かどうかを確認するための数値情報などが表示される。
このように、予測モデル利用支援システム100では、ユーザがシステム上で生成した予測モデルおよびその生成手段を保存し、利用することができる。そのため、新たな予測モデルを生成する際に、ユーザは簡単な予測モデル生成指示により、予測モデルを用いて計算した値を説明変数とした予測モデルの生成処理を、予測モデル利用支援システム100に実行させることができる。例えばユーザは、図22に示したような予測モデル生成画面37を介して生成しようとする予測モデルの生成条件を入力する。これにより、既に生成されている予測モデルで予測した目的変数を説明変数として用いて、予測モデル利用支援システム100に新たな予測モデルを生成させることができる。その結果、予測モデル生成時のユーザの手間が大幅に削減される。
また、ユーザは簡単な予測実行指示により、予測モデルを用いて計算した値を説明変数とした目的変数の値の予測を、予測モデル利用支援システム100に実行させることができる。その結果、予測モデルを用いた予測時のユーザの手間が大幅に削減される。
しかも、複数の予測モデルによる説明変数の計算を再帰的に幾重にも重ねて実行して、予測モデルを生成したり、その結果を用いて予測を行ったりすることが、簡易な操作で実現できる。
〔その他の実施の形態〕
第2の実施の形態は、化合物の特性を予測する例であるが、予測モデルの生成、および生成した予測モデルで予測を行う他の技術にも適用可能である。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
10 予測モデル利用支援システム
11 記憶部
11a 説明変数情報
11b 予測モデル情報
11c 化合物の構造データ
11d 化合物の実測値情報
12 処理部

Claims (6)

  1. コンピュータに、
    複数の説明変数の値の生成手段が示された説明変数情報に基づいて、第1の予測モデルに入力する1または複数の第1の説明変数それぞれの値の生成手段を判断し、
    前記第1の説明変数の値の生成手段として第2の予測モデルによる算出が指定されている場合、1以上の予測モデルそれぞれで予測する目的変数を説明する説明変数が示された予測モデル情報に基づいて、前記第2の予測モデルの1または複数の第2の説明変数を判断し、
    前記説明変数情報に基づいて、前記第2の説明変数それぞれの生成手段を判断し、
    判断した生成手段により、前記第2の説明変数の値を生成し、
    前記第2の説明変数の値を前記第2の予測モデルへ入力することで得られる目的変数の値を、値の生成手段が前記第2の予測モデルによる算出である前記第1の説明変数の値として生成し、
    値の生成手段が前記第2の予測モデルによる算出以外である前記第1の説明変数の値を、前記説明変数情報に示された生成手段で生成し、
    生成した前記第1の説明変数の値に基づいて、前記第1の予測モデルに関する計算を行う、
    処理を実行させる予測モデル利用支援プログラム。
  2. 前記コンピュータに、さらに、
    前記第2の説明変数の生成手段として第3の予測モデルによる算出が指定されている場合、前記予測モデル情報に基づいて、前記第3の予測モデルで予測する目的変数を説明する1または複数の第3の説明変数を判断し、
    前記説明変数情報に基づいて、前記第3の説明変数それぞれの生成手段を判断し、
    判断した生成手段により、前記第3の説明変数の値を生成し、
    前記第3の説明変数の値を前記第3の予測モデルへ入力することで得られる目的変数の値を、値の生成手段が前記第3の予測モデルによる算出である前記第2の説明変数の値として生成する、
    処理を実行させる請求項1記載の予測モデル利用支援プログラム。
  3. 前記第1の予測モデルに関する計算では、生成した前記第1の説明変数の値に基づいて前記第1の予測モデルを生成し、
    前記第1の予測モデルの生成に用いた前記第1の説明変数を示す情報を、前記第1の予測モデルに関連付けて前記説明変数情報に追加する、
    請求項1または2に記載の予測モデル利用支援プログラム。
  4. 前記第1の予測モデルに関する計算では、生成した前記第1の説明変数の値を前記第1の予測モデルへの入力として、前記第1の予測モデルの目的変数の値を予測する、
    請求項1または2に記載の予測モデル利用支援プログラム。
  5. コンピュータが、
    複数の説明変数の値の生成手段が示された説明変数情報に基づいて、第1の予測モデルに入力する1または複数の第1の説明変数それぞれの値の生成手段を判断し、
    前記第1の説明変数の値の生成手段として第2の予測モデルによる算出が指定されている場合、1以上の予測モデルそれぞれで予測する目的変数を説明する説明変数が示された予測モデル情報に基づいて、前記第2の予測モデルの1または複数の第2の説明変数を判断し、
    前記説明変数情報に基づいて、前記第2の説明変数それぞれの生成手段を判断し、
    判断した生成手段により、前記第2の説明変数の値を生成し、
    前記第2の説明変数の値を前記第2の予測モデルへ入力することで得られる目的変数の値を、値の生成手段が前記第2の予測モデルによる算出である前記第1の説明変数の値として生成し、
    値の生成手段が前記第2の予測モデルによる算出以外である前記第1の説明変数の値を、前記説明変数情報に示された生成手段で生成し、
    生成した前記第1の説明変数の値に基づいて、前記第1の予測モデルに関する計算を行う、
    処理を実行させる予測モデル利用支援方法。
  6. 複数の説明変数の値の生成手段が示された説明変数情報に基づいて、第1の予測モデルに入力する1または複数の第1の説明変数それぞれの値の生成手段を判断し、
    前記第1の説明変数の値の生成手段として第2の予測モデルによる算出が指定されている場合、1以上の予測モデルそれぞれで予測する目的変数を説明する説明変数が示された予測モデル情報に基づいて、前記第2の予測モデルの1または複数の第2の説明変数を判断し、
    前記説明変数情報に基づいて、前記第2の説明変数それぞれの生成手段を判断し、
    判断した生成手段により、前記第2の説明変数の値を生成し、
    前記第2の説明変数の値を前記第2の予測モデルへ入力することで得られる目的変数の値を、値の生成手段が前記第2の予測モデルによる算出である前記第1の説明変数の値として生成し、
    値の生成手段が前記第2の予測モデルによる算出以外である前記第1の説明変数の値を、前記説明変数情報に示された生成手段で生成し、
    生成した前記第1の説明変数の値に基づいて、前記第1の予測モデルに関する計算を行う、
    予測モデル利用支援システム。
JP2020132183A 2020-08-04 2020-08-04 予測モデル利用支援プログラム、予測モデル利用支援方法、および予測モデル利用支援システム Active JP7518362B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020132183A JP7518362B2 (ja) 2020-08-04 2020-08-04 予測モデル利用支援プログラム、予測モデル利用支援方法、および予測モデル利用支援システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020132183A JP7518362B2 (ja) 2020-08-04 2020-08-04 予測モデル利用支援プログラム、予測モデル利用支援方法、および予測モデル利用支援システム

Publications (2)

Publication Number Publication Date
JP2022029071A JP2022029071A (ja) 2022-02-17
JP7518362B2 true JP7518362B2 (ja) 2024-07-18

Family

ID=80271329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020132183A Active JP7518362B2 (ja) 2020-08-04 2020-08-04 予測モデル利用支援プログラム、予測モデル利用支援方法、および予測モデル利用支援システム

Country Status (1)

Country Link
JP (1) JP7518362B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020504A (ja) 1998-06-30 2000-01-21 Toshiba Corp 目的変数の説明または予測方法、および目的変数を説明または予測するプログラムを記録した記録媒体
JP2009086706A (ja) 2007-09-27 2009-04-23 Fujitsu Ltd モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム
JP2020077033A (ja) 2018-11-05 2020-05-21 日本電気株式会社 解析装置および解析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020504A (ja) 1998-06-30 2000-01-21 Toshiba Corp 目的変数の説明または予測方法、および目的変数を説明または予測するプログラムを記録した記録媒体
JP2009086706A (ja) 2007-09-27 2009-04-23 Fujitsu Ltd モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム
JP2020077033A (ja) 2018-11-05 2020-05-21 日本電気株式会社 解析装置および解析方法

Also Published As

Publication number Publication date
JP2022029071A (ja) 2022-02-17

Similar Documents

Publication Publication Date Title
Bouyssié et al. Proline: an efficient and user-friendly software suite for large-scale proteomics
Morris et al. Using autodock for ligand‐receptor docking
US9124488B2 (en) Method and apparatus for visualizing the health of datacenter objects
US20080082574A1 (en) Ontology-integration-position specifying apparatus, ontology-integration supporting method, and computer program product
US8949672B1 (en) Analyzing a dump file from a data storage device together with debug history to diagnose/resolve programming errors
US20050050075A1 (en) Data classification processing apparatus, data classification processing method and storage medium
Trachsel et al. rawDiag: an R package supporting rational LC–MS method optimization for bottom-up proteomics
JP6222923B2 (ja) ファイル管理プログラム、ファイル管理装置およびファイル管理方法
JP2020128962A (ja) 材料特性予測装置および材料特性予測方法
KR20130139724A (ko) 컴퓨팅 시스템 및 그 실행 제어 방법과, 그 실행 제어 프로그램을 기록한 기록 매체
WO2021054026A1 (ja) 材料特性予測システムおよび材料特性予測方法
JPWO2018037879A1 (ja) 自動分析装置および情報処理装置
D. LeDuc et al. Using ProSight PTM and related tools for targeted protein identification and characterization with high mass accuracy tandem MS data
JP7518362B2 (ja) 予測モデル利用支援プログラム、予測モデル利用支援方法、および予測モデル利用支援システム
Dong et al. RawHummus: an R Shiny app for automated raw data quality control in metabolomics
KR101595784B1 (ko) 패혈증 고위험군 예측 방법 및 시스템
JP6120607B2 (ja) 要件検出装置及び要件検出プログラム
JP2017037377A (ja) 情報処理装置、シミュレーション方法、およびシミュレーションプログラム
JP2015111326A (ja) 電力見積方法、電力見積装置及びプログラム
JP7134845B2 (ja) 分析支援装置、分析支援方法、および分析支援プログラム
JP2008004081A (ja) 画像検索装置、画像検索システム、画像検索方法、および画像検索方法を実行するためのプログラム
JP2020197777A (ja) 監視装置、および監視システム
Luan et al. CPVA: a web-based metabolomic tool for chromatographic peak visualization and annotation
Bertini et al. Bioinformatics in bioinorganic chemistry
JP2010061445A (ja) 特許調査方法、装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240617

R150 Certificate of patent or registration of utility model

Ref document number: 7518362

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150