JP5083320B2 - 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム - Google Patents

化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム Download PDF

Info

Publication number
JP5083320B2
JP5083320B2 JP2009528918A JP2009528918A JP5083320B2 JP 5083320 B2 JP5083320 B2 JP 5083320B2 JP 2009528918 A JP2009528918 A JP 2009528918A JP 2009528918 A JP2009528918 A JP 2009528918A JP 5083320 B2 JP5083320 B2 JP 5083320B2
Authority
JP
Japan
Prior art keywords
sample
prediction
prediction model
similarity
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009528918A
Other languages
English (en)
Other versions
JPWO2009025045A1 (ja
Inventor
浩太郎 湯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009025045A1 publication Critical patent/JPWO2009025045A1/ja
Application granted granted Critical
Publication of JP5083320B2 publication Critical patent/JP5083320B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、既存のデータを統計的に処理して予測モデルを作成し、作成した予測モデルを用いて物性が未知の化合物の物性予測を行う、化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラムに関する。なお、本明細書において化合物の物性とは、化合物が有する電気的、磁気的、光学的、機械的性質の他に、安全性(毒性)、薬理活性、薬物動態等を含むものとして示される。
現代社会において、様々な分野における事象の予測、あるいは物質等の物性予測をデータ解析に基づいて行うことが非常に重用となっている。特に、化合物の種々の安全性(毒性)についてITを駆使して予測することは、世界的な環境重視の流れや、動物愛護の観点から、その実用化が期待されている。しかしながら、化合物の安全性(毒性)予測は、高い予測率を達成することが極めて困難な分野であることが知られている。しかも、その予測が外れた場合の影響(生物的にも、生態(環境)的にも)が大きいために、特に高い予測率の達成が求められる、難しい分野である。
化合物の安全性予測に関して、その重要性と、分野の特殊性について簡単に説明する。安全性予測の適用分野はきわめて広い。一般的には、医薬品関連の分野において、医薬品の毒性、更には副作用という形での安全性予測が行われてきた。この分野での安全性の予測対象は人間そのもの(生体毒性)であり、一旦予測を誤れば、多くの人に重篤な副作用を引き起こし、あるいは死に至らしめる。この点で、他の分野での予測業務とは異なって、予測精度に関する要求が極めて厳しい。
最近では、環境関連分野での安全性予測の重要性に大きな関心が集まっている。これは、化合物が、人体のみならず、環境、即ち、生態系やその生態系に依存する生命体等の総てに対して大きな影響を与える(生態毒性)ためである。化合物の環境安全性に関する公的な規制は年を追うごとに、世界的な広がりを持って厳しくなるものと考えられる。
例えば、EUにおいて、2007年6月よりREACH規則の適用が開始された。この規則では、化合物を使用する企業がその安全性を評価し登録する義務を負い、規則の対象を既存の3万種以上の化合物(安全性に対する評価を行うことなく、経験的に生産を認めてきた化合物)にも広げている。さらに、この規則の適用対象を、化合物の製造企業のみならず、製造された化合物を利用する二次利用企業にも広げたことで、類を見ない非常に厳しい規則となっている。この規則をクリアしなければ、EUでの企業活動は不可能となる。
上述したように、動物実験による化合物の安全性評価は大きく規制される方向にあり、創薬分野での動物実験は何れ不可能となる。既に、EUでは皮膚関連の動物実験は2011年より禁止されることとなっている。REACH規則等の環境毒性評価では、この実験動物の問題以外に、評価対象となる化合物数の大きさが、創薬の場合とは異なって桁違いに大きいことから、実験時間や費用の削減を目指した、実験に変わる超高速スクリーニング手法としてのITの利用が重要課題となっている。このために、将来的には、実験を行わずに安全性評価が可能なレベルまで高い精度を得ることが可能な、予測手法の開発が望まれている。このような手法の開発により、REACH等の規制業務は簡素化されるので、当局は世界的レベルでこのような予測手法の開発を推奨している。
このように、ITを使用した化合物の安全性予測に大きな関心が集まっているが、文字認識等の分野と異なり、化合物構造式自体が複雑なことに加えて、何千万種にも及ぶ化合物の多様性、更には毒性要因の複雑性により、現在の予測技術ではあまり高い予測精度を期待することができない。しかも、分野の特殊性から、予測率が低いと危険が発生するので、予測技術を実用化するためには、極めて高い予測の信頼性を実現することが必須である。従って、極めて高い精度で化合物の物性、特に安全性を予測するための方法および装置を開発する一般的な必要性が、常に存在する。
図12は、従来の、統計的手法を用いた化合物の物理的、化学的物性予測システムの概要を示す図である。このシステムでは、まず、予測すべき物性(予測項目)の値が既知の化合物をなるべく多く集めて学習サンプルセット100を形成する。次に、学習サンプルセット100に対して多変量解析あるいはパターン認識等のデータ解析を実行して予測モデル102を作成する。
予測の実行段階では、上記のようにして形成された予測モデル102を、物性予測を行うべき化合物(以下、未知サンプル)A〜Nに対してそれぞれ適用し、予測結果を得る。例えば、化合物が発癌性を有するか否かを判別する判別分析では、予測結果において、Yesは発癌性有りと判定されたことを意味し、Noは発癌性無し、と判定されたことを意味している。
上記のような手法を利用して、化合物の、例えば毒性を予測する試みが種々行われているが、現状では期待される程高い予測率が得られていない。ここで、予測率とは、本来的には未知サンプルに対する予測の正誤に基づいて算出されるべきであるが、そのためには動物実験等を行って実際の効果を確認する必要があり、実現が困難である。従って、予測モデルの精度、即ち予測率は、学習サンプルセットから1個のサンプルを取り出して仮の未知サンプルとし、残りの学習サンプルセットで生成した予測モデルによって仮の未知サンプルの予測を実行し、その結果に基づいて算出するようにしている。
図12に示すような予測システムにおいて、その予測率を向上するための工夫が種々行われている。例えば、予測モデルを得るためのデータ解析方法を工夫すること、あるいは、学習サンプルセット内の多数の化合物を種々の経験的な基準に基づいて分類し、分類されたクラス毎に予測モデルを作成すること、等が行われている。前者の場合、例えば、化合物を毒性を持つもの、持たないものに分類する問題において、分類手法として、線形学習機械法、判別分析法、Bayes線形判別分析法、Bayes非線形判別分析法、ニューラルネットワーク法、SVM法、KNN法(最近接法)等が試みられ、最近、ニューラルネットワーク法、SVM法によって比較的簡単に高い分類率が得られることが報告されている(非特許文献1参照)。
ところが、ニューラルネットワーク法、SVM法では、分類率の向上は見られるものの、反対に予測率は低下する。これは、このような解析手法が分類のための分類を行う傾向があり、分類の背景に存在する化学的な要因を無視して分類を行う結果であると考えられる。このようなことから、解析手法を工夫して予測率を向上させるアプローチでは、現在の所、あまり良い結果は得られていない。
図12に示す予測システムでは、学習サンプルセットから1個の予測モデルを作成する。これに対して、上述したように、学習サンプルセットから複数の予測モデルを作成し、未知サンプルについてそのうちの1個または複数の予測モデルを適用して予測を行う試みがなされている。
図13は、このような予測システムの概要を説明するための図である。まず、学習サンプルセット100内の多数の化合物を、化合物の基本的な構造あるいは物性に基づいて分類し、サブサンプルセット1、サブサンプルセット2、サブサンプルセット3を構成する。次に、これらの個々のサブサンプルセットについてそれぞれ多変量解析あるいはパターン認識を実行し、サブサンプルセット1から予測モデル1、サブサンプルセット2から予測モデル2、サブサンプルセット3から予測モデル3を得る。
予測の実行段階では、このようにして得られた複数の予測モデルを未知サンプルA乃至Nに適用して予測を実行する。ここで問題となるのは、複数の予測モデルのうちどの予測モデルを、例えば未知サンプルAに適用するかである。予測モデルの選択を誤れば、例えば、未知サンプルAに予測モデル1を適用した場合にYesの結果が得られ、予測モデル2を適用した場合にNoの結果が得られる等、予測の信頼性が損なわれる。通常は、全ての予測モデルを1個の未知サンプルに適用して複数の予測結果を得た後、予測結果の多数決を取ることが行われている。
しかしながら、この方法であってもあまり高い予測率は得られていない。未知サンプルに対して類似の構造を有するサブサンプルセットで構成された予測モデルを、その未知サンプルに対する予測モデルとして選択することも考えられるが、化合物の構造は複雑、多岐に亘ることから、サブサンプルセットと未知サンプル間で常に有意義な対応関係が存在するとは限らず、結果的に高い予測率は得られていない。
以上のように、図13に示すような予測システムでは、複数の予測モデルを作成したことによって学習サンプルセットの分類率は向上するが、予測率の向上までは至っていない。
「ニューラルネットワークによる有機塩素化合物の発癌性予測」田辺和俊, 大森紀人, 小野修一郎, 鈴木孝弘, 松本高利, 長嶋雲兵, 上坂博亨、Comput.Chem.Jpn.,Vol.4,No.3,pp.89〜100(2005)
本発明は、従来の化合物の物性予測方法、装置における上記のような問題点を解決するためになされたものであり、物性予測を行おうとする化合物の情報を的確に反映して高い予測率を得ることが可能な、化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラムを提供することを課題とする。
上記課題を解決するために、第1の発明は、複数の学習サンプルの個々に関して化学構造に関するパラメータ値と予測項目に対する値とがあらかじめ登録された学習サンプルライブラリと、未知サンプルのデータを入力する入力装置と、前記入力されたデータに基づいて前記未知サンプルのパラメータ値を算出するパラメータ生成装置と、前記パラメータ値に基づいて前記未知サンプルと前記個々の学習サンプルとの類似度を計算する類似度計算装置と、前記類似度が予め決定した閾値以上である学習サンプルを取り出してサブサンプルセットを構築するサブサンプルセット作成装置と、前記サブサンプルセットにデータ解析を行って予測モデルを作成する予測モデルの作成装置と、前記作成された予測モデルを前記未知サンプルに適用して前記予測項目の値を算出する予測値算出装置と、を備える化合物の物性予測装置を提供する。
上記課題を解決するために、第2の発明は、未知サンプルについて複数のパラメータ値を取得するステップと、個々の学習サンプルについて前記複数のパラメータ値を取得するステップと、前記複数のパラメータ値に基づいて前記未知サンプルと前記個々の学習サンプルの類似度を算出するステップと、前記算出した類似度が予め設定した閾値以上の学習サンプルを取り出してサブサンプルセットを構成するステップと、前記サブサンプルセットにデータ解析を行って予測モデルを作成するステップと、前記作成した予測モデルを前記未知サンプルに適用して予測項目を計算するステップと、を備える、化合物の物性予測方法を提供する。
上記課題を解決するために、第3の発明は、未知サンプルについて複数のパラメータ値を取得するステップと、個々の学習サンプルについて前記複数のパラメータ値を取得するステップと、前記複数のパラメータ値に基づいて前記未知サンプルと前記個々の学習サンプルの類似度を算出するステップと、前記算出した類似度が予め設定した閾値以上の学習サンプルを取り出してサブサンプルセットを構成するステップと、前記サブサンプルセットにデータ解析を行って予測モデルを作成するステップと、前記作成した予測モデルを前記未知サンプルに適用して予測項目を計算するステップと、から構成される処理をコンピュータに実行させる、化合物の物性予測プログラムを提供する。
なお、構造が類似した未知サンプルが複数ある場合は、1個の未知サンプルに対して本発明の方法、装置、プログラムに従って予測モデルを作成し、前記1個の未知サンプルと他の未知サンプルとの類似度を演算し、高い類似度が得られた他の未知サンプルについては、前記1個の未知サンプルに対して作成された予測モデルを利用して予測結果を獲得するようにしても良い。
本発明の化合物の物性予測装置、物性予測方法、物性予測プログラムでは、類似度計算にあたって、未知サンプルと個々の学習サンプルとの類似度を計算し、学習サンプルセットから類似度が一定値以上の学習サンプルを取り出してサブサンプルセットを構築し、そのサブサンプルセットに対してデータ解析を行って予測モデルを作成するようにしている。従って、未知サンプルと類似度の高いサブサンプルセットから構成された予測モデルは、未知サンプルが有する固有の特徴を強く反映したものとなり、かつ、未知サンプルの予測時に誤った予測の原因となるノイズ情報(主に、未知サンプルとは構造的に全く異なる化合物が学習サンプルセットに含まれることにより発生する)を殆ど含まないものとなる。従って、この予測モデルを当該未知サンプルに適用することによって、精度の高い予測を行うことができる。
図1は、本発明の原理を説明するための概念図である。 図2Aは、本発明にかかる化合物の物性予測方法の操作手順を示すフローチャートである。 図2Bは、本発明にかかる他の化合物の物性予測方法の操作手順を示すフローチャートである。 図3は、本発明の一実施形態にかかる化合物の物性予測システムの構成を示すブロック図である。 図4は、学習サンプルライブラリの内容の一部を示す図である。 図5は、学習サンプルライブラリの内容の他の一部を示す図である。 図6は、クラスター分析におけるデンドログラムを示す図である。 図7は、図3のシステムにおける未知サンプルのデータ入力装置、未知サンプルのパラメータ生成装置の動作手順を示すフローチャートである。 図8は、図3のシステムにおける類似度計算装置の動作手順を示すフローチャートである。 図9は、図3のシステムにおける予測モデルの作成装置の動作手順を示すフローチャートである。 図10は、図3のシステムにおける物性予測値算出装置および出力装置の動作手順を示すフローチャートである。 図11は、本発明の方法と従来方法による予測結果の比較を示す図である。 図12は、従来の予測システムの概要を示す図である。 図13は、従来の他の予測システムの概要を示す図である。
符号の説明
1 学習サンプルセット
10 化合物の物性予測システム
12 未知サンプルのデータ入力装置
14 未知サンプルのパラメータ生成装置
16 学習サンプルライブラリ
18 類似度計算装置
20 サブサンプルセット作成装置
22 予測モデルの作成装置
24 物性予測値算出装置
26 出力装置
化合物の安全性(毒性)予測に関しては、予測が外れた場合の影響が大きいことから、特に高い予測精度が要求される。従って、化合物の物性予測モデル、特に安全性予測モデルを作成する上で最も重要なことは、1個の未知サンプルに対して精度の高い予測モデルを作成することであり、不特定多数の未知サンプルについて高い予測率を有するモデルを作成することではない。不特定多数の未知サンプルを対象として予測モデルを作成しようとする限り、その予測モデルには、1個の未知サンプルについて重要な情報ではあっても他の未知サンプルにとってはノイズとなる情報を多く含むこととなり、その結果、予測率の向上には限界がある。
従って、本発明では、1個の未知サンプルの物性予測に必要な情報を効率的に反映した予測モデルを作成し、その予測モデルをその1個の未知サンプルに対してのみ適用して予測を行う、いわゆるテーラーメードモデリングを提案する。テーラーメードモデリングの最も特徴とする点は、1個の未知サンプルについて1個の予測モデルが対応することである。作成された予測モデルは、主に、予測対象である未知サンプルについての重要な情報を含み、ノイズ情報が極めて限定される。そのため、当然のこととして予測率は大幅に向上する。
図1は、本発明にかかる化合物物性予測方法および装置の基本原理を示す概念図である。本発明では、まず、予測対象化合物である未知サンプルAについての構造データを準備する。未知サンプルAは不特定のサンプルであって良い。次に、学習サンプルセット1内の個々のサンプルについて、未知サンプルAとの構造の類似性に関するスクリーニングを行って、未知サンプルAに類似したサンプル(即ち、未知サンプルAに関連した情報を含むサンプル)を検出し、サブサンプルセットAを作成する。次に、作成されたサブサンプルセットAに対してデータ解析(多変量解析/パターン認識)を実行して、予測モデルAを作成する。
以上のように、本発明では、未知サンプルAに対する予測モデルAを、未知サンプルAと構造が類似した学習サンプルの集合(サブサンプルセットA)から作成するため、予測モデルAは未知サンプルAの細かな特徴を反映し、同時にノイズとなる情報を全く含まないものとなる。この結果、この予測モデルAを未知サンプルAに適用する限りにおいて、高い精度で物性予測を行うことができる。
以上の操作は、未知サンプルB、未知サンプルC、・・・未知サンプルNについてそれぞれ別個に実行され、その結果として、未知サンプルA〜Nに対して自身の構造的特徴を良く反映した予測モデルA〜Nが獲得される。これらの予測モデルを各未知サンプルに適用することによって、各未知サンプルの物性予測を高い精度で行うことができる。
図2Aは、図1に示した基本原理に従って、未知サンプルの物性予測を実行する場合の手順を示すフローチャートである。まず、ステップS1において、未知サンプルのデータを、物性予測を行うシステムに入力する。ここで、未知サンプルのデータとは、化合物の1次元、2次元および3次元構造データである。次のステップS2では、入力されたデータに基づいて、化合物の構造に関係するパラメータ値を算出する。予測項目を目的変数として表現した場合、各パラメータは説明変数に相当する。従って、ステップS2は、未知サンプルに対して予め設定された説明変数の値を計算するステップである。
ステップS3では学習サンプルセットの個々のサンプルについて、未知サンプルに対して発生させたパラメータと同じパラメータに関する値が取得される。学習サンプルセットは、予測対象項目、即ち目的変数の値が既知のサンプルで構成されている。従って、各サンプルについて、予測に必要なパラメータの値をあらかじめ発生させ、これをライブラリに登録しておくことによって、異なる未知サンプルに対する予測モデルを作成する場合に、ライブラリを利用することによって、学習サンプルについてのパラメータ値を簡単に得ることができる。
次に、ステップ2とステップ3で取得したパラメータ値に基づいて、未知サンプルと個々の学習サンプルについて構造の類似度を計算する(ステップS4)。ステップS5では、ステップS4で計算された類似度を予め定めた基準値と比較し、類似度が基準値以上の学習サンプルを抽出してサブサンプルセットを構築する。ステップS6では、構築されたサブサンプルセットを用いてデータ解析を行い、予測モデルを作成する。ステップS7では、ステップS6で作成された予測モデルを未知サンプルのパラメータ値に適用して予測項目の値、即ち目的変数の値を計算する。これによって、精度の高い予測結果を得ることができる。
なお、目的変数の値を計算すべき未知サンプルが複数ある場合は、この複数の未知サンプル間で構造の類似度を算出し、高い類似度を有する未知サンプル間では、そのうちの1個の未知サンプルについて図2に示した操作手順に従って予測モデルを作成し、作成した予測モデルを他の構造類似の未知サンプルに適用するようにしても良い。
図2Bは、未知サンプルが複数個ある場合の操作手順を示す図である。ステップS11において、未知サンプルA〜Nのデータを入力する。ステップS12では、入力されたデータに基づいて未知サンプルA〜Nについての各パラメータ値を生成する。ステップS13では、ステップS12で生成されたパラメータ値に基づいて未知サンプルA〜N間の類似度を計算する。ステップS14では、ステップS13で計算された類似度に基づいてサンプルAに類似する未知サンプルを抽出し、未知サンプルAの類似グループを作成する。
以上のようにして、複数の未知サンプルA〜Nに対する前処理が終了すると、ステップS15以下で、未知サンプルAに対するサブサンプルセットAを構成し、未知サンプルAに対する予測モデルAを構築する。即ち、ステップS15において各学習サンプルのパラメータ値を取得し、ステップS16で未知サンプルAと各学習サンプルとの類似度を計算し、ステップS17でサブサンプルセットAを作成する。ステップS18では、ステップS17で作成されたサブサンプルセットAに対してデータ解析を行って、予測モデルAを作成する。
以上のようにして、未知サンプルAの特徴を強く反映した予測モデルAが作成されると、この予測モデルAを未知サンプルAに適用して予測項目の値を算出する。同時に、予測モデルAを、ステップS14で作成された未知サンプルAの類似サンプルグループ内の個々の未知サンプルに適用して、それぞれの予測項目の値を計算する。
類似サンプルグループ内の未知サンプルは、未知サンプルAに構造が類似しているため、未知サンプルAに対して構成された予測モデルAをグループ内の未知サンプルに適用した場合も、高い予測精度を期待することができる。ただし、未知サンプルAの場合ほど高い予測精度は得られないため、専ら予測の精度を追求する場合にはこの手法、即ち図2Bに示す方法は適さない。しかしながら、多数の未知サンプルを扱う場合や、類似化合物(例えば、同族対化合物群)等を扱う場合は、予測のための処理速度、処理コストが問題となり、このような場合に適したアプローチとなる。
なお、図2Bに示すフローチャートにおいて、ステップS11からステップS13をこのフローチャートから切り離して実行し、例えば図2AのフローチャートのステップS6で獲得した予測モデルを、ステップS13で作成した未知サンプルの類似グループの個々のサンプルに適用し、予測値を計算するようにしても良い。
図3は、本発明の一実施形態にかかる化合物の物性予測システムの構成を示すブロック図である。化合物の物性予測システム10は、図示するように、未知サンプルのデータ入力装置12、未知サンプルのパラメータ生成装置14、学習サンプルライブラリ16、類似度計算装置18、サブサンプルセット作成装置20、予測モデルの作成装置22、物性予測値算出装置24および予測結果の出力装置26を備えている。
未知サンプルのデータ入力装置12は、予測対象の化合物についての1次元構造情報、2次元構造情報あるいは3次元構造情報をシステム10に入力し、これらをシステム10が利用可能な数値データに変換して、内部結合表を得るための装置である。内部結合表とは、化合物の構造式を数値データの2次元マトリックスに変換したものである。入力データの項目としては、1)化合物構造式(2/3次元)、2)サンプル名、サンプルID、3)その他の関連情報等がある。構造式の入力形態としては、グラフィックシステムを利用して構造式を対話的に入力する形態、あるいは既成のファイルから直接入力する形態がある。化合物の構造情報を入力して数値データに変換するためには、種々のシステムが開発され、利用可能である。
未知サンプルのパラメータ生成装置14は、入力された未知サンプルの構造データに基づいて、各種の説明変数、即ち種々のパラメータの値を計算するための装置である。パラメータ生成装置14は、通常、2次元パラメータ計算ユニット14a、3次元パラメータ計算ユニット14b、複合パラメータ計算ユニット14cを含んでいる。2次元パラメータ計算ユニット14aは、化合物の内部結合表における2次元データに基づいて2次元パラメータを計算し、3次元パラメータ計算ユニット14bは、化合物の内部結合表における2次元データおよび3次元データに基づいて3次元パラメータを計算する。
なお、2次元データから3次元パラメータを計算する場合は、3次元座標計算ユニット(図示せず)によって2次元データを3次元データに変換した後、3次元パラメータを計算する。複合パラメータ計算ユニット14cは計算された2次元パラメータおよび3次元パラメータに基づいて複合パラメータを計算する。
2次元パラメータとしては、1)分子関連パラメータ、例えば分子量、原子種/数、結合種/数等、2)トポロジカルパラメータ、例えば分子結合インデックス、細谷インデックス、バラバンパラメータ等、3)物性関連パラメータ、例えば分子屈折率、パラコール、LogP等、4)その他のパラメータ、例えば部分構造関連パラメータ(出現情報(1、0)および出現頻度)および部分電荷パラメータ等、がある。
3次元パラメータとしては、1)3次元形状パラメータ、例えば分子表面積、分子容積、分子シャドウパラメータ、分子モーメントパラメータ等、2)電子/エネルギー関連パラメータ、例えば分子軌道法パラメータ(電子密度、分極率、HOMO/LUMO、他)、分子力学パラメータ(分子エネルギー、結合エネルギー、反発エネルギー等)、分子動力学パラメータ等がある。複合パラメータとしては、分子形状および電子情報パラメータを結合して新たに作成されたパラメータ、例えばCPSA(分子表面積+分子表面電子密度情報)パラメータおよびその他の演算パラメータ(パラメータ同士の演算(+,−,×,/, 他)等がある。
学習サンプルライブラリ16は、学習サンプルセット中の個々のサンプルについて、サンプルIDと、そのサンプルの2/3次元構造式、安全性(毒性)に関する既知のデータ、2次/3次/複合パラメータ値が登録されている。
図4および5に、学習サンプルライブラリ16の登録内容の一例を示す。図4は、各学習サンプルについて、サンプルID番号と、サンプルの2次元構造式、さらにCAS番号を示す。図5は、各学習サンプルについて、既知の安全性データ(魚毒性LC50)51と種々のパラメータ(説明変数)52についての値を示している。なお、図5では、サンプル化合物の構造に関係するパラメータを主に示しているが、これ以外に上述した種々のパラメータが登録されていることは勿論である。安全性データ(目的変数)51としては、魚毒性(50%致死量(LC50)により判定された、毒性無し:0、毒性有り:1と判定されたコード情報)を示したが、この目的変数にはAmesテスト等、その他に入手可能な種々の安全性データが登録されている。
類似度計算装置18は、類似度計算用のパラメータを自動的に、あるいはユーザによる選択によって設定するためのユニット18aと、類似度計算ユニット18bを含んでいる。類似度計算ユニット18bでは、未知サンプルと学習サンプルが類似しているか否かを決定するための閾値の設定、変更が可能である。類似度算出手法としては、1)Tanimoto係数を用いたアプローチ、2)パラメータ値の範囲で選択する手法、3)多変量解析/パターン認識手法を用いた手法、例えば、サンプル間のN次元空間上での距離を求める方法、種々のクラスタリング解析を利用した手法等、および4)種々の経験的な分類基準に基づいた手法、例えば、化合物のクラス別け(芳香族化合物/非芳香族化合物、非環式化合物/単環性化合物/多環性化合物等)に基づく手法等があり、何れの手法を用いても良い。これらの手法の詳細については、項を改めて説明する。
サブサンプルセット作成装置20は、類似度計算装置18で算出された類似度が予め決定した一定値(閾値)以上の学習サンプルを学習サンプルセットから抽出し、予測モデル作成のためのサンプルセットとするための装置である。作成されたサンプルセットをサブサンプルセットと称する。なお、サブサンプルセットの作成装置20は、サブサンプルセット中に含まれるサンプル数が予め決定した一定値以下の場合、類似度計算装置18における類似度の閾値を変更して、サブサンプルセットとして一定数のサンプルを確保するようにしても良い。これは、データ解析の信頼性を確保するための操作である。
予測モデルの作成装置22は、サブサンプルセット作成装置20で作成されたサブサンプルセットに対してデータ解析を実行して、予測モデルを作成するための装置である。解析用のデータ(パラメータ値等)は、本実施形態のシステムでは、学習サンプルライブラリ16に登録されているデータを使用する。予測モデルは、使用するデータの解析手法に依存して種々のものが形成される。例えば、二クラス分類法であれば予測モデルは判別関数の形態を取り、フィッティング法であれば回帰式、ニューラルネットワークであればネットワーク、AdaBoostであればグループ化された判別関数、KY法(二クラス分類)であれば多段階組判別関数、KY法(フィッティング)であれば多段階回帰式と判別関数の組合せ、SVMであれば階層化判別関数、ALS法であれば複数の判別関数、PLS法であれば回帰式、KNN法であればサンプルの距離マトリックスの形態を取る。データ解析手法は、サンプルの種類、予測の目的に応じて適宜、選択することができる。
予測モデル作成のためには、予測モデル作成時に最終的に利用されるパラメータ群の選択(特徴抽出)と、データ解析に不適切なサンプルの特定と取り出しを行う必要がある。予測モデルの作成装置22は、まず、種々の特徴抽出を実行してノイズパラメータを除去する。実施すべき特徴抽出の種類、実施順序は、データ解析手法、例えば、2クラス分類、多クラス分類およびフィッティング等により異なるが、線形分類機を用いた2クラス分類の典型的な事例について、以下に簡単に説明する。
この場合、以下の特徴抽出手法を、その順序で実施することにより、ノイズパラメータを除去する。
(1)ミッシングデータを含むパラメータの除去
(2)同一値の出現頻度
(3)相関(単相関)係数
(4)多重相関
(5)フィッシャー比
(6)ウェイトサイン法
(7)バリアンスウエイト法
(8)遺伝的アルゴリズムによる特徴抽出
現在では他に多くの特徴抽出手法が存在し、適用するデータ解析手法に強く依存した特徴抽出手法も多数存在するので、以上の手法に加えてさらに他の手法を実施しても良い。
上記特徴抽出によるノイズパラメータの除去に加えて、ノイズサンプルを取り除く操作を実施することも必要である。また、データ解析そのものの信頼性という観点で、信頼性の高い予測モデル構築に必要となる最少サンプル数は、予測モデルを作成するために用いられるパラメータ数と強く相関する。従って、予測モデル作成時にサブサンプルセット中のサンプル数が、パラメータ数に比べて少ないことがわかれば、この情報をサブサンプルセット作成装置20にフィードバックして類似度計算装置18における類似度の閾値を変更する操作を行い、データ解析に必要な数のサンプルをライブラリ16より取り出すことで、データ解析の信頼性を保ちつつ予測モデルを構築することが出来る。
予測モデルの作成装置22では、サブサンプルセットに1個のデータ解析手法を適用して1個の予測モデルを形成するようにしても良いが、複数個のデータ解析手法を適用して複数の予測モデルを作成するようにしても良い。
物性予測値算出装置24は、予測モデルの作成装置22で作成された1個又は複数の予測モデルを、未知サンプルのパラメータ生成装置14で生成されたパラメータ値に適用して、予測値、即ち予測項目の値、を算出する。予測値には、未知サンプルの帰属クラスの決定も含まれる。複数の予測モデルが作成されている場合は、個々の予測モデルを未知サンプルに適用して複数の予測値を算出し、例えばクラス分類であれば多数決により予測結果を決定する。フィッティングの場合は、複数の予測結果の平均値等を利用する。あるいは、最大/最小値を利用しても良いし、総ての予測結果を表示して、最終的拿判断を人間が行えるようにしても良いし、決定のためのアルゴリズムをプログラム化しておいても良い。
出力装置26は、物性予測値算出装置24で算出された予測結果および関連情報を文字情報で出力し、あるいはグラフとして出力する。関連情報とは、予測項目、化合物情報、サブサンプルセット情報、パラメータ群に関する情報、データ解析手法関連情報、予測モデル情報等がある。
以下に、類似度計算装置18において行われる、化合物の構造類似度の種々の計算手法について説明する。
[Tanimoto係数を用いたアプローチ]
類似度を計算しようとする未知サンプルXおよび学習サンプルYについて、種々の部分構造、官能基等の有無を、未知サンプルのパラメータ生成装置14および学習サンプルライブラリ16を参照してリストアップし、以下の表1に示すように、0と1のビット列で示す。
Figure 0005083320
ここで、A、B、Cを以下のように定義するとき、Tanimoto係数Tは、
T=C/(A+B−C) (式1)
として定義される。
A:サンプルXにおいて1となるビット数
B:サンプルYにおいて1となるビット数
C:サンプルXとサンプルYで共通に1となるビット数
上記式(1)より、2個のサンプルX、Yが同一の構造を有する場合、Tanimoto係数Tは1となり、構造が相違するに従って係数Tは0に近い値を取るようになる。従って、未知サンプルと学習サンプルとが類似していると判断するためのTanimoto係数の基準値αを予め決定しておき、個々の類似度計算の結果を基準値αと比較することにより、類似サンプルを取り出すことができる。
[パラメータ値の範囲で選択する手法]
化合物に関しては種々のパラメータが存在する。簡単なものから言えば、分子量、分子容、分子表面積、分子投影面積、原子/結合数(全体及び原子種/結合種単位)、種々物性(例えば、LogP(分配係数)、MR(分子屈折率)、パラコール、融点、沸点、他)等の様々なパラメータがある。これらのパラメータ値を、類似サンプルを検出するためのフィルタとして用いる。この場合、一個のパラメータを指定してその値をフィルタとする手法、二個以上のパラメータを指定してそれらの値をフィルタとする手法がある。
一個のパラメータAの値をフィルタとして用いる場合には、未知サンプルXのパラメータAについてその値aを計算し、その前後に一定の幅b、cを設定する。このようにしてフィルタ幅(a−b)〜(a+c)を決定し、パラメータAの値xが、a−b<x<a+cである学習サンプルを取り出して、予測モデル作成用のサブサンプルセットとする。
複数のパラメータA、Bの値をフィルタとして用いる場合は、個々のパラメータA、Bについて、上記一個のパラメータの値をフィルタとした場合と同様の処理を行い、個々のパラメータA、Bで選択されたサブサンプルセットのANDまたはORをとって、最終のサブサンプルセットとする。
一例を示すと、分子量をフィルタ用のパラメータとして設定する場合、未知サンプルXの分子量をSとするとき、S−100<学習サンプルの分子量<S+200となるような学習サンプルを取り出して、予測モデル作成用のサブサンプルセットを構築する。
分子量とLogP値をフィルタ用のパラメータとして設定する場合では、未知サンプルXの分子量をSとし、未知サンプルXのLogP値をP’とするとき、S−100<学習サンプルの分子量<S+200となるような学習サンプルを取り出して、サンプルセットAを構築し、次に、LogP値が、P’−5.0<学習サンプルのLogP値<P’+5.0となる学習サンプルを取り出してサンプルセットBを構築する。次に、このようにして構築したサンプルセットA、BのANDあるいはORを取ることによって、予測モデル作成用のサブサンプルセットを構成する。
[多変量解析/パターン認識手法を用いた手法]
この手法には、1)サンプル間のN次元空間上での距離を求める方法、および2)種々のクラスタリング手法を用いる方法、がある。1)の方法については、未知サンプルを含んだ学習サンプルセットに対して、パラメータ値を基に多変量解析/パターン認識を実行し、N個のパラメータによるN次元空間を構築する。この場合、N次元空間上で各サンプル間の距離を計算することが可能であり、従って、未知サンプルとの距離が予め設定された範囲内にある学習サンプルを類似サンプルとして取り出し、予測モデル作成用のサブサンプルセットを構築する。
2)の方法については、未知サンプルを含んだ学習サンプルセットに対して、パラメータ値を基にクラスタリング分析を行い、未知サンプルと同じクラスターに属する学習サンプル、あるいは近いクラスターに属する学習サンプルを取り出して予測モデル作成用のサブサンプルセットとする。特に、図6に示すようなデンドログラムを用いた階層型クラスタリングでは、未知サンプルXが帰属するクラスターを中心として、あるノードNdよりも下層に帰属する学習サンプルを取り出して、サブサンプルセットを構築する。図6では、太線で示す範囲内の学習サンプルがサブサンプルセットを構築するために選択される。また、非階層型のクラスタリング手法ではサンプル化合物群がクラスター(グループ)単位に分類されたリストが出力されるので、このリストを利用して未知サンプルが組み込まれているクラスターを類似サンプルグループとし、これをそのままサブサンプルセットにしてもよい。
以下に、図7乃至11のフローチャートを参照して、図3に示す装置の構成およびその動作をさらに詳細に説明する。
図7は、図3に示す化合物の物性予測システムにおける、未知サンプルのデータ入力装置12および未知サンプのパラメータ発生装置14内での動作手順を示すフローチャートである。例えば、ユーザにより、未知サンプルXの2次元構造式がグラフィックディスプレイを介して入力装置12に入力されると(ステップS70)、入力された2次元構造式は数値データに変換され、化合物の内部結合表が作成される(ステップS71)。未知サンプルのパラメータ発生装置14は、内部結合表に基づいて種々のパラメータを発生させる(ステップS72)。発生させたパラメータは、サンプルID、2次元/3次元構造式と共に、例えばシステムの内部メモリ(図示せず)に記憶される(ステップS73)。
図8は、類似度計算装置18およびサブサンプルセット作成装置20における動作手順を示すフローチャートである。類似度計算装置18において複数のアルゴリズムに基づく類似度計算用プログラムが登録されている場合、ステップS800において適宜のプログラムを選択する。この選択はユーザによってなされても良いし、あるいは予測項目等に応じて対応するプログラムが自動的に選択されるようにしても良い。
ステップS801では、未知サンプルXと個々の学習サンプル間で類似しているか類似しないかを判定する基準値、即ち、類似性判定の閾値αの値を決定する。閾値αの決定も、ユーザが任意に指定しても良く、あるいはシステムにおいて予め決定された値を用いても良い。ステップS801において、さらに、サブサンプルセットを構成する場合の最低のサンプル数Uが設定される。類似度計算の結果、サブサンプル数が大幅に低下するとデータ解析の信頼性が低下するため、予めサブサンプルの最低数を設定しておく。
ステップS802で、類似度計算用のパラメータのセットが選択される。パラメータセットの選択は、ステップS800で選択されたプログラムに基づいて自動的に行われても良く、あるいはユーザが任意のパラメータセットを選択するようにしても良い。
ステップS803では、例えば内部メモリ等に記憶された未知サンプルのパラメータ値が取得され、ステップS804では学習サンプルライブラリ16より、1個の学習サンプルY1についてのID番号とそのパラメータ値が取得され、未知サンプルXと学習サンプルY1との類似度が取得されたパラメータ値に基づいて算出される(ステップS805)。
ステップS806では、ステップS805で算出された類似度が、ステップS802で決定された閾値α以上であるか否かが判定される。α以上である場合(ステップS806のYES)、学習サンプルY1をサブサンプルセットを構成するサンプルとして採用し(ステップS807)、α未満である場合(ステップS806のNO)、学習サンプルY1をサブサンプルとして採用しない(ステップS808)。ステップS809では学習サンプルライブラリ16に未だ類似度を計算していない学習サンプルが存在するか否かを判定し、存在する場合(ステップS809のYES)、ステップS804以下を再度実行する。
ステップS809でNOの場合、即ち、学習サンプルライブラリ16中の全てのサンプルについて類似度の計算が終了した場合には、ステップS810において選択されたサブサンプル数が閾値U以上であるか否かが判定される。閾値U以上である場合(ステップS810のYES)、ステップS807でサブサンプルセットに採用された全ての学習サンプルをリストアップし、サブサンプルセットとして設定、記憶する(ステップS811)。
ステップS810において、サブサンプル数がU未満であると判定されると(ステップS810のNO)、閾値αに例えば0.9を掛けて(ステップS812)、ステップS804以下を再度実行する。
ステップS811で最終のサブサンプルセットがリストアップされると、その情報はサブサンプルセット作成装置20に送られる。サブサンプルセット作成装置20は、サブサンプルセットの情報を受信すると、学習サンプルライブラリ16にアクセスし、個々のサブサンプルについてのパラメータ情報を取得する。このパラメータ情報には、類似度計算に使用された以外のパラメータ、さらに予測項目に関するデータ、例えば魚毒性(LC50)の値、が含まれる。
図9は、図3に示す予測モデル作成装置22内の動作手順を示すフローチャートである。ステップS900では、サブサンプルセット作成装置20を参照してサブサンプルのパラメータ値を取得する。次に、データ解析に不要なノイズパラメータを除去するために、複数の特徴抽出法を実行する。まず、ステップS901ではMを1に設定し、ステップS902において1番目の特徴抽出法を実施する。この特徴抽出法は、例えば上述の(1)から(8)に示す特徴抽出法が記載の順序で実施される。ステップS903ではM=N、即ち、現在実行されている特徴抽出法が最後(N番目)の特徴抽出法であるか否かが判定され、NOである場合はステップS904においてMに1を加算し、ステップS902以下を再度実行する。
特徴抽出は不要なパラメータ(ノイズパラメータ)を除去するものであるため、ステップS903においてYESとなった場合、即ち、予測モデル作成装置22に登録されている全ての特徴抽出法が実行されたと判断されると、ステップS905において最終パラメータセットが設定される。ステップS906では、最終パラメータセットに対して1個のデータ解析手法を選択し、選択したデータ解析法をステップS907において実行し、予測モデルを構築する。
ステップS908では、他のデータ解析法を実施するか否かを決定し、他のデータ解析法を実施する場合(ステップS908のYES)は、ステップS906以下を再度実行する。希望する全てのデータ解析法が実施されると(ステップS908のNO)、ステップS909において、作成された全ての予測モデルをリストアップする。
図10は、図3に示す物性予測値算出装置24および出力装置26での動作手順を示すフローチャートである。ステップS100では、未知サンプルのパラメータ生成装置14を参照して、未知サンプルのパラメータ値を取得する。ステップS101では予測モデルの作成装置22を参照して実行する予測モデルを選択し、ステップS102では、この選択された予測モデルにステップS100で取得したパラメータ値を適用して予測値を算出する。
ステップS103では、予測モデルの作成装置22でリストアップされた全ての予測モデルを実行したか否かを検出し、実行していない予測モデルがあれば(ステップS103のNO)、ステップS101以下を再度実行する。ステップS103で全ての予測モデルが実行されたことが検出されると(ステップS103のYES)、ステップS104で予測結果を整理し、出力装置26を介して出力する。以上によって、図3に示すシステムにおいて未知サンプルの物性予測が実施される。
図11は、図3に示すシステムを用いて行った実験結果を示す。図の71は未知サンプルのIDを、72は未知サンプルの既知の安全性データ(この場合は、サンプルの魚毒性(LC50:50%致死量))を示す。安全性データ72において、“1”はそのサンプルが魚毒性を有することを示し、“0”は魚毒性を持たないことを示している。コラム73は、データ解析法としてAdaBoostを使用した従来手法による予測結果(目的変数の値)を示し、コラム74は、同じデータ解析法を用いた本発明の手法による予測結果(目的変数の値)を示している。なお、コラム74の“−−”は、そのサンプルに関する予測実験を行っていないことを示している。
サンプルID178のサンプルに注目すると、このサンプルは本来、魚毒性を持たない(コラム72の安全性データが0)が、従来手法による予測(コラム73)では魚毒性を有する(1)と予測されている。一方、本発明の方法によれば(コラム74)、魚毒性を持たない(0)として正確に予測することができた。また、サンプルID189のサンプルは本来、魚毒性を有する(1)が、従来手法による予測では魚毒性を持たない(0)と予測された。これに対して、本発明の方法によれば、魚毒性を有する(1)として正しく予測された。
実験を行った範囲内では、サンプルID175のサンプルを除いて、本発明の方法により各サンプルの魚毒性が正しく予測されている。従って、この結果から、本発明の予測方法により、未知サンプルの予測において大きな改善がみられ、結果として非常に高い予測率を実現することが推測される。サンプルID175のサンプルについては、従来手法および本発明の手法で共に毒性が無いと誤分類されている。従って、他のデータ解析手法を実施してその結果を見ること、あるいは、そのサンプルの安全性データの再評価を行うこと等の、別な観点からの考察が必要である。
以下に、図11に示す実験の条件および実験手順について説明する。未知サンプルの物性予測は、本来、実際の安全性データが存在しないものについて行われるが、その場合には予測の正誤に関する評価が困難である。従って、予測システムあるいは予測方法における予測率の算出は、通常、安全性データが既知のサンプルを未知サンプルと見立てて行われる。図11の実験例では、学習サンプルライブラリに登録された791個の学習サンプルから1個のサンプル、例えばサンプルID178を取り出してこれを未知サンプルとし、残りの790個の学習サンプルセットに基づいてサブサンプルセットを構成し、このサブサンプルセットから予測モデルを作成して、サンプルID178の物性(安全性データ)予測を行っている。他のサンプルについても、同様の方法によって未知サンプルとサブサンプルセットを構成し、物性予測を実施した。
サンプルID178を未知サンプルとした場合、従来手法では残る790個の全学習サンプルセットを用いて予測モデルを作成し、予測値を算出した。これに対して、本発明の手法では、類似性のスクリーニングにより、790個のサンプルから493の類似サンプルを抽出し、これに基づいて予測モデルを作成している。予測モデルの作成に使用したパラメータ数は、従来手法、本発明の手法とも65個であったが、両方のアプローチともに、データ解析の信頼性基準をクリアしている。本実験により、従来手法では誤った予測結果を得たものが、本発明の手法により正解を導くことができた。
本発明は、化合物の物理的、化学的物性を予測するために広く利用される。特に、高い予測精度が要求される化合物の安全性(毒性)予測に利用することで、その効果が顕著となる。化合物の安全性には、医薬品等の分野における生体毒性、また環境等の分野で重用となる生態毒性の分野があり、これらはLC50(半数致死量)、急性毒性試験、長期毒性試験、生体蓄積性、生分解性、Ames試験、発癌性、染色体異常試験、皮膚感作性等の様々な毒性に関する試験内容や項目が含まれる。

Claims (10)

  1. 複数の学習サンプルの個々に関して化学構造に関するパラメータ値と予測項目に対する値とがあらかじめ登録された学習サンプルライブラリと、
    未知サンプルのデータを入力する入力装置と、
    前記入力されたデータに基づいて前記未知サンプルのパラメータ値を算出するパラメータ生成装置と、
    前記パラメータ値に基づいて前記未知サンプルと前記個々の学習サンプルとの類似度を計算する類似度計算装置と、
    前記類似度が予め決定した閾値以上である学習サンプルを取り出してサブサンプルセットを構築するサブサンプルセット作成装置と、
    前記サブサンプルセットにデータ解析を行って予測モデルを作成する予測モデルの作成装置と、
    前記作成された予測モデルを前記未知サンプルに適用して前記予測項目の値を算出する予測値算出装置と、を備え
    前記予測モデルの作成装置は、前記サブサンプルセット中の個々のサンプルに関して前記学習サンプルライブラリより取得したパラメータのセットに対して特徴抽出を行って最終パラメータセットを設定すると共に、前記サブサンプルセット中の学習サンプル数が前記最終パラメータセット中のパラメータ数に比べて低い場合、前記サブサンプルセット作成装置における類似度の閾値を変更する、化合物の特性予測装置。
  2. 請求項1記載の装置において、
    前記サブサンプルセット作成装置は、前記サブサンプルセットに含まれる学習サンプル数が予め設定した最低数より少ない場合、前記類似度の閾値を変更して、前記サブサンプルセットに含まれる学習サンプル数を前記最低以上とする、化合物の特性予測装置。
  3. 請求項1記載の装置において、
    前記類似度計算装置は、前記未知サンプルと前記個々の学習サンプルとが予め設定した部分構造および官能基を有するか否かに基づいてTanimoto係数を算出し、両サンプル間の類似度を決定する、化合物の特性予測装置。
  4. 請求項1記載の装置において、
    前記予測項目は化合物の安全性である、化合物の特性予測装置。
  5. 未知サンプルについて複数のパラメータ値を取得するステップと、
    個々の学習サンプルについて前記複数のパラメータ値を取得するステップと、
    前記複数のパラメータ値に基づいて前記未知サンプルと前記個々の学習サンプルの類似度を算出するステップと、
    前記算出した類似度が予め設定した閾値以上の学習サンプルを取り出してサブサンプルセットを構成するステップと、
    前記サブサンプルセットに、パラメータの特徴抽出を行って設定した最終パラメータセットを用いてデータ解析を行って予測モデルを作成するステップと、
    前記作成した予測モデルを前記未知サンプルに適用して予測項目を計算するステップと、を備え
    前記予測モデルを作成するステップは、前記サブサンプルセット中の学習サンプル数が前記最終パラメータセット中のパラメータ数に比べて低い場合、前記類似度の閾値を変更して新たなサブサンプルセットを構成し、当該新たなサブサンプルセットに基づいて予測モデルを作成する、化合物の特性予測方法。
  6. 請求項5に記載の方法において、
    さらに、構成された前記サブサンプルセット中のサンプル数が予め決定した最低数より少ない場合、前記閾値を変更して新たなサブサンプルセットを構成するステップを備え、
    前記予測モデルは新たなサブサンプルセットに基づいて作成される、化合物の特性予測方法。
  7. 請求項5に記載の方法において、
    さらに、前記未知サンプルと他の未知サンプルとの類似度を演算し、この演算結果に基づいて前記未知サンプルに類似するサンプルグループを作成するステップを含み、
    前記予測項目を演算するステップは、前記予測モデルを前記類似するサンプルグループの個々のサンプルに適用して予測結果を獲得する、化合物の特性予測方法。
  8. 未知サンプルについて複数のパラメータ値を取得するステップと、
    個々の学習サンプルについて前記複数のパラメータ値を取得するステップと、
    前記複数のパラメータ値に基づいて前記未知サンプルと前記個々の学習サンプルの類似度を算出するステップと、
    前記算出した類似度が予め設定した閾値以上の学習サンプルを取り出してサブサンプルセットを構成するステップと、
    前記サブサンプルセットに、パラメータの特徴抽出を行って設定した最終パラメータセットを用いてデータ解析を行って予測モデルを作成するステップであって、前記サブサンプルセット中の学習サンプル数が前記最終パラメータセットのパラメータ数に比べて低い場合、前記類似度の閾値を変更して新たなサブサンプルセットを構成し、当該新たなサブサンプルセットに基づいて予測モデルを作成するステップと、
    前記作成した予測モデルを前記未知サンプルに適用して予測項目を計算するステップと、
    から構成される処理をコンピュータに実行させる、化合物の特性予測プログラム。
  9. 請求項8記載のプログラムにおいて、前記処理は、
    さらに、構成された前記サブサンプルセット中のサンプル数が予め決定した最低数より少ない場合、前記閾値を変更して新たなサブサンプルセットを構成するステップを備え、
    前記予測モデルは新たなサブサンプルセットに基づいて作成される、化合物の特性予測プログラム。
  10. 請求項8に記載のプログラムにおいて、前記処理は、
    さらに、前記未知サンプルと他の未知サンプルとの類似度を演算し、この演算結果に基づいて前記未知サンプルに類似するサンプルグループを作成するステップを含み、
    前記予測項目を演算するステップは、前記予測モデルを前記類似するサンプルグループの個々のサンプルに適用して予測結果を獲得する、化合物の特性予測プログラム。
JP2009528918A 2007-08-22 2007-08-22 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム Active JP5083320B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/066286 WO2009025045A1 (ja) 2007-08-22 2007-08-22 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム

Publications (2)

Publication Number Publication Date
JPWO2009025045A1 JPWO2009025045A1 (ja) 2010-11-18
JP5083320B2 true JP5083320B2 (ja) 2012-11-28

Family

ID=40377956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009528918A Active JP5083320B2 (ja) 2007-08-22 2007-08-22 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム

Country Status (4)

Country Link
US (1) US8473448B2 (ja)
EP (1) EP2180435A4 (ja)
JP (1) JP5083320B2 (ja)
WO (1) WO2009025045A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022154236A1 (ko) * 2021-01-12 2022-07-21 삼성전자 주식회사 사용자 입력을 추론하는 사용자 맞춤형 전자 장치 및 이를 제어하는 방법
US11977699B2 (en) 2021-04-19 2024-05-07 Samsung Electronics Co., Ltd. Electronic device and operating method of the same
WO2024116642A1 (ja) * 2022-11-30 2024-06-06 富士フイルム株式会社 学習装置、物性予測装置、学習プログラム、及び物性予測プログラム
US12040056B2 (en) 2018-09-14 2024-07-16 Fujifilm Corporation Method for evaluating synthetic aptitude of compound, program for evaluating synthetic aptitude of compound, and device for evaluating synthetic aptitude of compound
US12045458B2 (en) 2020-08-21 2024-07-23 Samsung Electronics Co., Ltd. Device and method with trained neural network to identify touch input

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209535A1 (en) * 2009-10-21 2012-08-16 Basf Plant Science Company Gmbh Method for generating biomarker reference patterns
US8738549B2 (en) * 2010-12-21 2014-05-27 International Business Machines Corporation Predictive modeling
US20150067357A1 (en) * 2013-08-30 2015-03-05 Advanced Micro Devices, Inc. Prediction for power gating
US9851777B2 (en) 2014-01-02 2017-12-26 Advanced Micro Devices, Inc. Power gating based on cache dirtiness
US10026114B2 (en) * 2014-01-10 2018-07-17 Betterdoctor, Inc. System for clustering and aggregating data from multiple sources
US9720487B2 (en) 2014-01-10 2017-08-01 Advanced Micro Devices, Inc. Predicting power management state duration on a per-process basis and modifying cache size based on the predicted duration
US11093869B2 (en) * 2014-02-13 2021-08-17 Brewmetrix Inc. Analytical system with iterative method of analyzing data in web-based data processor with results display designed for non-experts
US9507410B2 (en) 2014-06-20 2016-11-29 Advanced Micro Devices, Inc. Decoupled selective implementation of entry and exit prediction for power gating processor components
KR102457974B1 (ko) 2015-11-04 2022-10-21 삼성전자주식회사 신규 물질 탐색 방법 및 장치
US10366779B2 (en) 2015-12-30 2019-07-30 International Business Machines Corporation Scheme of new materials
US10915808B2 (en) * 2016-07-05 2021-02-09 International Business Machines Corporation Neural network for chemical compounds
WO2018042665A1 (ja) * 2016-09-05 2018-03-08 富士通株式会社 情報提示方法、装置、及びプログラム
JP6831221B2 (ja) * 2016-11-28 2021-02-17 株式会社東海理化電機製作所 学習装置及び学習方法
CN109039691B (zh) * 2018-06-01 2021-05-18 平安科技(深圳)有限公司 服务器、预测系统调用量的方法及存储介质
CN108932525B (zh) * 2018-06-07 2022-04-29 创新先进技术有限公司 一种行为预测方法及装置
JP6559850B1 (ja) 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル
JP7250027B2 (ja) 2018-09-10 2023-03-31 富士フイルム株式会社 フロー反応支援装置及び方法、フロー反応設備及び方法
JPWO2020066309A1 (ja) 2018-09-28 2021-09-24 富士フイルム株式会社 フロー反応設備及び方法
EP3936224A4 (en) 2019-03-08 2022-04-27 FUJIFILM Corporation DATA GENERATING DEVICE, DATA GENERATING METHOD, LEARNING DEVICE AND LEARNING METHOD
US11403354B2 (en) 2019-04-16 2022-08-02 International Business Machines Corporation Managing search queries of a search service
US10956430B2 (en) * 2019-04-16 2021-03-23 International Business Machines Corporation User-driven adaptation of rankings of navigation elements
US11436214B2 (en) 2019-04-16 2022-09-06 International Business Machines Corporation Preventing search fraud
US11403356B2 (en) 2019-04-16 2022-08-02 International Business Machines Corporation Personalizing a search of a search service
US10515715B1 (en) * 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
CN110457654A (zh) * 2019-08-08 2019-11-15 哈尔滨理工大学 一种基于现场数据的机载设备可靠性预测方法
JP7353874B2 (ja) * 2019-09-03 2023-10-02 株式会社日立製作所 材料特性予測装置および材料特性予測方法
JP7383982B2 (ja) * 2019-10-30 2023-11-21 株式会社ジェイテクト 工具寿命予測システム
IL294698A (en) * 2020-01-17 2022-09-01 Karydo Therapeutix Inc A prediction method for the prescription of a targeted drug or a substance equivalent to a drug, a prediction device and a prediction program
JP2021117798A (ja) * 2020-01-28 2021-08-10 国立大学法人山形大学 分子設計支援システム、分子特性値予測方法、分子設計支援プログラム
JP7453053B2 (ja) * 2020-04-27 2024-03-19 Toyo Tire株式会社 ゴム材料物性予測システム、およびゴム材料物性予測方法
CN112185477B (zh) * 2020-09-25 2024-04-16 北京望石智慧科技有限公司 分子特征的提取及三维定量构效关系的计算方法及装置
CN112837761A (zh) * 2020-12-28 2021-05-25 广东石油化工学院 一种烟气成分的预测方法
CN113298185B (zh) * 2021-06-21 2024-05-28 深信服科技股份有限公司 模型训练方法、异常文件检测方法、装置、设备及介质
JP7485229B2 (ja) 2021-09-06 2024-05-16 株式会社レゾナック 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法
JPWO2023199413A1 (ja) * 2022-04-12 2023-10-19
CN118194358B (zh) * 2024-05-16 2024-08-13 福建中信网安信息科技有限公司 一种基于大语言模型数据安全风险评估与管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123781A (ja) * 1994-10-20 1996-05-17 Fujitsu Ltd 3次元化合物構造式の周辺空間情報を数値データへ変換する方法、並びに、3次元化合物構造式とその周辺空間との相互作用を数値データへ変換する方法
JPH10240715A (ja) * 1997-03-03 1998-09-11 Toshiba Corp 予測・推定装置及び予測・推定方法
JP2000040079A (ja) * 1998-07-24 2000-02-08 Fujitsu Ltd 並列データ分析装置
JP2003122572A (ja) * 2001-10-18 2003-04-25 Fujitsu Ltd データ分析装置及び記録媒体
JP2005242803A (ja) * 2004-02-27 2005-09-08 Mitsubishi Heavy Ind Ltd 機械の性能推定器、性能推定方法及び性能推定プログラム
JP2007153767A (ja) * 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002530727A (ja) * 1998-10-28 2002-09-17 グラクソ グループ リミテッド 定量的構造活性相関におけるファーマコフォア・フィンガープリント並びにプライマリ・ライブラリの構築
US6904423B1 (en) * 1999-02-19 2005-06-07 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery through multi-domain clustering
US6721754B1 (en) * 1999-04-28 2004-04-13 Arena Pharmaceuticals, Inc. System and method for database similarity join
AU1487402A (en) * 2000-11-03 2002-05-15 Michael Korenberg Nonlinear system identification for class prediction in bioinformatics and related applications
JP2002157572A (ja) * 2000-11-17 2002-05-31 Nippon Steel Corp 結果予測装置、方法、及びコンピュータ読み取り可能な記憶媒体
WO2002061419A1 (en) * 2001-01-29 2002-08-08 3-Dimensional Pharmaceuticals, Inc. Method, system, and computer program product for analyzing combinatorial libraries
GB0106441D0 (en) * 2001-03-15 2001-05-02 Bayer Ag Method for generating a hierarchical topological tree of 2D or 3D-structural formulas of chemical compounds for property optimization of chemical compounds
CA2480202A1 (en) * 2002-04-10 2003-10-23 Transtech Pharma, Inc. System and method for data analysis, manipulation, and visualization
US20040006559A1 (en) * 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
AU2003276930A1 (en) * 2003-03-24 2004-11-23 Novascreen Biosciences Corporation Drug discovery method and apparatus
JP4578201B2 (ja) * 2004-10-08 2010-11-10 新日鉄ソリューションズ株式会社 遺伝子推定装置、遺伝子推定方法及びそのプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123781A (ja) * 1994-10-20 1996-05-17 Fujitsu Ltd 3次元化合物構造式の周辺空間情報を数値データへ変換する方法、並びに、3次元化合物構造式とその周辺空間との相互作用を数値データへ変換する方法
JPH10240715A (ja) * 1997-03-03 1998-09-11 Toshiba Corp 予測・推定装置及び予測・推定方法
JP2000040079A (ja) * 1998-07-24 2000-02-08 Fujitsu Ltd 並列データ分析装置
JP2003122572A (ja) * 2001-10-18 2003-04-25 Fujitsu Ltd データ分析装置及び記録媒体
JP2005242803A (ja) * 2004-02-27 2005-09-08 Mitsubishi Heavy Ind Ltd 機械の性能推定器、性能推定方法及び性能推定プログラム
JP2007153767A (ja) * 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12040056B2 (en) 2018-09-14 2024-07-16 Fujifilm Corporation Method for evaluating synthetic aptitude of compound, program for evaluating synthetic aptitude of compound, and device for evaluating synthetic aptitude of compound
US12045458B2 (en) 2020-08-21 2024-07-23 Samsung Electronics Co., Ltd. Device and method with trained neural network to identify touch input
WO2022154236A1 (ko) * 2021-01-12 2022-07-21 삼성전자 주식회사 사용자 입력을 추론하는 사용자 맞춤형 전자 장치 및 이를 제어하는 방법
US11977699B2 (en) 2021-04-19 2024-05-07 Samsung Electronics Co., Ltd. Electronic device and operating method of the same
WO2024116642A1 (ja) * 2022-11-30 2024-06-06 富士フイルム株式会社 学習装置、物性予測装置、学習プログラム、及び物性予測プログラム

Also Published As

Publication number Publication date
WO2009025045A1 (ja) 2009-02-26
EP2180435A4 (en) 2011-01-05
JPWO2009025045A1 (ja) 2010-11-18
US8473448B2 (en) 2013-06-25
US20100145896A1 (en) 2010-06-10
EP2180435A1 (en) 2010-04-28

Similar Documents

Publication Publication Date Title
JP5083320B2 (ja) 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
Nguyen et al. GraphDTA: predicting drug–target binding affinity with graph neural networks
Lanchantin et al. Deep motif dashboard: visualizing and understanding genomic sequences using deep neural networks
Pan et al. Recent methodology progress of deep learning for RNA–protein interaction prediction
Pal Advanced techniques in knowledge discovery and data mining
Leke et al. Deep learning and missing data in engineering systems
Singh et al. StaBle-ABPpred: a stacked ensemble predictor based on biLSTM and attention mechanism for accelerated discovery of antibacterial peptides
Asta et al. A tensor-based selection hyper-heuristic for cross-domain heuristic search
US20200194098A1 (en) Identifying biosynthetic gene clusters
Idakwo et al. A review of feature reduction methods for QSAR-based toxicity prediction
Santhanam et al. Heart disease classification using PCA and feed forward neural networks
Tavakoli et al. Learning a mixture of microbial networks using minorization–maximization
Mujtaba et al. Automatic text classification of ICD-10 related CoD from complex and free text forensic autopsy reports
Rashid et al. Knowledge management overview of feature selection problem in high-dimensional financial data: Cooperative co-evolution and MapReduce perspectives
Alsenan et al. Auto-KPCA: A Two-Step Hybrid Feature Extraction Technique for Quantitative Structure–Activity Relationship Modeling
Akita et al. Bayesgrad: Explaining predictions of graph convolutional networks
de Carvalho Brito et al. COVID-index: A texture-based approach to classifying lung lesions based on CT images
Knudsen et al. Artificial intelligence in pathomics and genomics of renal cell carcinoma
Arowolo et al. A dimensional reduced model for the classification of RNA-seq Anopheles gambiae data
Sikander et al. Identification of cancerlectin proteins using hyperparameter optimization in deep learning and DDE profiles
Cohen et al. Deepbrain: Functional representation of neural in-situ hybridization images for gene ontology classification using deep convolutional autoencoders
Haghighi et al. Extended decision template presentation for combining classifiers
Akhter et al. BPAGS: a web application for bacteriocin prediction via feature evaluation using alternating decision tree, genetic algorithm, and linear support vector classifier
Feng et al. Elf: extract landmark features by optimizing topology maintenance, redundancy, and specificity
Sapkota et al. Application of evolving self-organizing maps for analysis of human adverse events in the context of complex socioeconomic infrastructure interactions

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120820

R150 Certificate of patent or registration of utility model

Ref document number: 5083320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3