JP5211486B2

JP5211486B2 - 化合物の仮想スクリーニング方法及び装置

Info

Publication number: JP5211486B2
Application number: JP2007010581A
Authority: JP
Inventors: 礼仁寺本; 広晃福西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-01-19
Filing date: 2007-01-19
Publication date: 2013-06-12
Anticipated expiration: 2027-01-19
Also published as: JP2008174503A

Description

本発明は、化合物の仮想スクリーニング方法及び装置に関し、特に、コンピュータにより生成された化合物の配座に対して、スコアリング関数を構成する各エネルギー値を評価し、蛋白質・化合物間の結合配座や結合能を予測する方法に好適に適用される技術に関するものである。

近年、薬物候補分子を実験的に探索するのに要する莫大な費用と労力を削減するため、コンピュータシミュレーションを利用した、蛋白質立体構造に基づく化合物の仮想スクリーニングが活発に行われている。当該仮想スクリーニングでは、エネルギー関数をもって化合物の最安定配座を評価することにより、蛋白質・化合物間の結合配座や結合能を予測する。そして、分子の最安定配座を予測する方法としては、分子軌道法、分子力場法、分子動力学法、ドッキングシミュレーション等、計算の近似レベルによって様々なものがある。これらの方法は、エネルギー最小となる配座の探索を行い、最安定配座によって結合配座や結合能を予測する。

また、現実に存在する化合物は数百万以上の膨大な数に上るため、スクリーニング速度を重視したドッキングシミュレーションが用いられることが多い。ドッキングシミュレーションは、コンピュータにより化合物の配座を多数発生させ、各配座をスコアリング関数により評価することで、最も良いスコア値を持つ配座を探索する。しかし、高速化を優先するため、スコアリング関数に用いるモデルの粗視化レベルが高く、各スコア関数の予測性能は、結合能を予測する蛋白質や化合物の性質に大きく依存することとなり、汎用性が高いとはとてもいえない。主なスコアリング関数の性能については、非特許文献１に記載されている。
ＲｅｎｘｉａｏＷａｎｇ，ＹｉｐｉｎＬｕ，ＳｈａｏｍｅｎｇＷａｎｇ，Ｃｏｍｐａｒａｔｉｖｅｅｖａｌｕａｔｉｏｎｏｆ１１ｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎｓｆｏｒｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇ，ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ２００３ｖｏｌ．４６ｎｏ．１２２２８７−２３０３

しかしながら、非特許文献１に記載にされているスコアリング関数には、以下に示すような問題点がある。第１に、スコアリング関数は結合状態のみから関数のパラメータを決定しており、非結合状態を考慮していない。第２に、従来のスコアリング関数による結合配座の再現性の正解率は、２６％〜７６％であり、予測性能は高いとは言い難い。

そこで、本発明は、上述した問題点に鑑み、非結合構造に関するエネルギー項を用いて教師付き学習を行うことで、スコアリングに関する最適な予測モデルを構築し、従来よりも高い精度で蛋白質・化合物間の結合配座や結合能を予測できる仮想スクリーニング方法及び装置を提供することを目的とする。

かかる目的を達成するために、本発明に係る第１の仮想スクリーニング方法は、標的蛋白質と結合する化合物の結合能及び結合配座を予測する化合物の仮想スクリーニング方法において、エネルギー計算手段が、化合物の結合能を評価するスコアリング関数を構成するエネルギー項を用いて、コンピュータにより生成された化合物の配座に対するエネルギー値を計算し、学習手段が、該計算で得られたエネルギー値と、標的蛋白質及び化合物の間における、実験的に決定された化合物の結合配座とコンピュータにより生成された化合物の計算配座との間のＲＭＳＤ（Root Mean Squared Deviation：根平均二乗変位）とについて教師付き学習を行って予測モデルを求め、予測スコア計算手段が、該予測モデルを化合物に適用することにより、化合物の結合能及び結合配座を予測することを特徴とする。

本発明では、スコアリング関数を構成するエネルギー項を用いて、コンピュータで生成された化合物の配座に対する各種エネルギー値を計算し、該計算で得られた各種エネルギー値と結合指標とを用いて教師付き学習を行い、該学習で求めた予測モデルにより化合物の結合能及び結合配座を予測する。まず、スコアリング関数は、例えば分子力場モデル又は経験的モデルに基づくといった、非結合状態に基づき関数のパラメータが決定されるである。また、学習データとなる各種エネルギー値を求めるために、スコアリング関数を構成するエネルギー項のみを算出するものとしている。そして、結合指標は、例えば実験的に決定された結合配座とコンピュータで生成された計算配座との間のＲＭＳＤ（Root Mean Squared Deviation：根平均二乗変位）で、このＲＭＳＤと、スコアリング関数を構成する水素結合や疎水性相互作用等を用いて算出したエネルギー値とから構成される学習データについて教師付き学習を行い、スコアリングの最適な予測モデルを構築するものである。

本発明では、従来用いられなかった、非結合状態を考慮したスコアリング関数のエネルギー項から算出した各種エネルギー値とＲＭＳＤとを学習データとして用いて教師付き学習を行うことで、化合物の結合配座や結合能に対する予測精度を大幅に向上させることができる。また、スコアリング関数を構成するエネルギー項のみを計算すればよいため、複数のスコアリング関数を計算して結合能を予測する場合よりも計算時間を短縮できる。これらにより、実験的に蛋白質・化合物間の結合能の測定あるいは結合配座の決定に要する費用、労力、時間を大幅に削減することが可能となる。

また、本発明に係る第１の仮想スクリーニング装置は、標的蛋白質と結合する化合物の結合能及び結合配座を予測する化合物の仮想スクリーニング装置で、化合物の結合能を評価するスコアリング関数を構成するエネルギー項を用いて、コンピュータにより生成された化合物の配座に対するエネルギー値を計算するエネルギー計算手段と、該計算で得られたエネルギー値と、標的蛋白質及び化合物の間における、実験的に決定された前記化合物の結合配座とコンピュータにより生成された前記化合物の計算配座との間のＲＭＳＤ（Root Mean Squared Deviation：根平均二乗変位）とについて教師付き学習を行うことにより予測モデルを生成し、前記生成された予測モデルを前記化合物に適用することにより、前記化合物の結合能及び結合配座を予測する予測スコア計算手段とを備えることを特徴とする化合物の仮想スクリーニング装置であってもよい。

本発明によれば、非結合構造に関するエネルギー項を用いて教師付き学習を行うことで、スコアリングに関する最適な予測モデルを構築し、従来よりも高い精度で蛋白質・化合物間の結合配座や結合能を予測できる仮想スクリーニング方法及び装置が実現される。

本発明は、蛋白質立体構造に基づく低分子化合物のドッキングシミュレーションにおいて、コンピュータにより生成された化合物の配座のスコアリング関数を構成する各エネルギー値と、ＲＭＳＤ等の結合指標とを用いて教師付き学習を行うことにより、結合配座や結合能の予測精度を向上させる新規な方法である。以下に本発明を実施するための形態について、図面を参照して説明する。

図１は、本実施形態における化合物の仮想スクリーニング装置の概略構成を示した図である。仮想スクリーニング装置は、キーボード等の入力装置１と、プログラム制御により動作するデータ処理装置２と、各種データを記憶する記憶装置３と、ディスプレイ装置や印刷装置等の出力装置４とから構成される。

データ処理装置２は、配座サンプリング手段２１、エネルギー計算手段２２、学習手段２３、及び予測スコア計算手段２４を含む。配座サンプリング手段２１は、蛋白質・化合物の複合体の立体構造と予測用の分子構造とに基づいて多様な配座を生成する。エネルギー計算手段２２は、生成された各配座のエネルギー値の計算を行う。学習手段２３は、Ｘ線結晶構造解析等で得られた実験配座とコンピュータにより生成された計算配座との間のＲＭＳＤと、スコアリング関数を構成する水素結合や疎水性相互作用等のエネルギー値とからなる学習データを用いて教師付き学習を行う。予測スコア計算手段２４は、予測用分子構造から得られた配座に対して、教師付き学習で得られた予測モデルを利用して、予測スコアを計算する。

記憶装置３は、訓練用構造データ記憶部３１、予測用構造データ記憶部３２、配座データ記憶部３３、訓練用エネルギーデータ記憶部、予測用エネルギーデータ記憶部３５、及び予測モデル記憶部３６を含む。訓練用構造データ記憶部３１は、蛋白質・リガンド複合体の立体構造情報を格納する。予測用分子構造データ記憶部３２は、予測用の分子構造情報を保持する。配座データ記憶部３３は、蛋白質・リガンド複合体の立体構造と予測用分子構造から生成された配座情報を格納する。訓練用エネルギーデータ記憶部３４は、蛋白質との複合体を形成する化合物（訓練用構造データ）の配座から算出されたエネルギー値及びＲＭＳＤを格納する。予測用エネルギーデータ記憶部３５は、予測用分子（予測用構造データ）の配座から算出されたエネルギー値を格納する。予測モデル記憶部３６は、訓練用エネルギーデータ（訓練用構造データから得られたエネルギー値とＲＭＳＤ）を用いた教師付き学習により得られた予測モデルを格納する。

次に、図１から３を参照して、本実施形態における動作について説明する。

まず、図２のフローに沿って動作の概略を説明する。図２は、本実施形態における処理動作の流れを示したフローチャートである。本実施形態における処理動作は、構造データの入力、配座のサンプリング、配座に対するエネルギー値の算出、予測モデルの学習、予測スコアの算出の順に行われる。

はじめに蛋白質・リガンドの複合体の立体構造（訓練用構造データ）及び予測用分子構造（予測用構造データ）の入力を行う（ステップＳ１０１）。次に、入力された構造情報に基づいて分子の配座を多数サンプリングする（ステップＳ１０２）。続いて、スコアリング関数を構成する各エネルギー関数を用いて、サンプリングで生成された配座の各種エネルギー値を算出する（ステップＳ１０３）。そして、算出されたエネルギー値と、結合構造（実験配座）・計算構造（計算配座）間のＲＭＳＤとを用いて、教室付き学習による予測モデルの学習を行う（ステップＳ１０４）。そして、学習で得られた予測モデルを予測用化合物に対して適用し、予測スコアの算出を行う。

次に、図１を参照して本実施形態における処理動作をより詳細に説明する。図１は、仮想スクリーニング装置の概略構成を示すとともに、処理及び各種データの流れを表している。

はじめに入力装置１によって実行指示が与えられると、訓練用構造データ記憶部３１から蛋白質・リガンド複合体の立体構造情報が、また、予測用分子構造データ記憶部３２から予測用分子構造情報が、配座サンプリング手段２１に入力される。そして、配座サンプリング手段２１では、複合体の立体構造情報と予測用の分子構造情報とに基づいて分子の多様な配座が生成され、生成された配座は配座データ記憶部３３に格納される。

なお、配座のサンプリング方法としては、スコアリング関数の最適解を探索する遺伝的アルゴリズムやモンテカルロ法があり、その他の最適解探索方法を用いことが可能である。

エネルギー計算手段２２では、配座データ記憶部３３から分子の配座情報を入力し、所与のスコアリング関数を構成するエネルギー関数により、各配座の様々なエネルギー値を計算する。

なお、ここで用いられるエネルギー関数は、スコアリング関数を構成するエネルギー項を用いることが可能である。スコアリング関数としては、分子力場ベースのスコアリング関数の場合、ＡｕｔｏＤｏｃｋ，Ｄ−Ｓｃｏｒｅ，Ｇ−Ｓｃｏｒｅ等があり、経験的スコアリング関数の場合、ＬｉｇＳｃｏｒｅ，ＰＬＰ，ＰＭＦ，ＬＵＤＩ，Ｆ−Ｓｃｏｒｅ，ＣｈｅｍＳｃｏｒｅ，Ｘ−Ｓｃｏｒｅ等を用いることができる。また、スコアリング関数を構成する各エネルギー項は、一般的なドッキングソフトウェアにより計算することができる。例えば、ドッキングソフトウェアＦｌｅｘＸのスコアリング関数Ｆ−Ｓｃｏｒｅを構成するエネルギー項の計算方法は、非特許文献１に記載されている。

エネルギー計算手段２２で算出されたエネルギー値は、蛋白質との複合体を形成するリガンド分子のエネルギー値については、訓練用エネルギーデータ記憶部３４に記憶され、予測用分子のエネルギー値については、予測用エネルギーデータ記憶部３５に記憶される。

学習手段２３では、訓練用エネルギーデータ記憶部３４から各配座のエネルギー値及びＲＭＳＤを入力し、教師付き学習を行う。

教師付き学習の方法としては、サポートベクターマシンやアンサンブル学習であるブースティングやバギングがあり、いずれを用いてもよい。ブースティング、バギングについては、それぞれ、非特許文献２、３に記載されている。また、バギングを発展させたものとして、ランダムフォレスト、反復バギング、確率勾配ブースティング等があり、それぞれ、非特許文献４〜６に記載されている。

［非特許文献２］ＹｏａｖＦｒｅｕｎｄ，ＲｏｂｅｒｔＥ．Ｓｃｈａｐｉｒｅ，Ａｄｅｃｉｓｉｏｎ−ｔｈｅｏｒｅｔｉｃｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆｏｎ−ｌｉｎｅｌｅａｒｎｉｎｇａｎｄａｎａｐｐｌｉｃａｔｉｏｎｔｏｂｏｏｓｔｉｎｇ，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒａｎｄＳｙｓｔｅｍＳｃｉｅｎｃｅｓ１９９７ｖｏｌ．５５１１９−１３９
［非特許文献３］ＬｅｏＢｒｅｉｍａｎ，ＢａｇｇｉｎｇＰｒｅｄｉｃｔｏｒｓ，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ１９９６ｖｏｌ．２４１２３−１４０
［非特許文献４］ＬｅｏＢｒｅｉｍａｎ，ＲａｎｄｏｍＦｏｒｅｓｔｓ，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ２００１ｖｏｌ．４５５−３２
［非特許文献５］ＬｅｏＢｒｅｉｍａｎ，ＵｓｉｎｇＩｔｅｒａｔｅｄＢａｇｇｉｎｇｔｏＤｅｂｉａｓＲｅｇｒｅｓｓｉｏｎｓ，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ２００１ｖｏｌ．４５２６１−２７７
［非特許文献６］ＪｅｒｏｍｅＨ．Ｆｒｉｅｄｍａｎ，Ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｂｏｏｓｔｉｎｇ，ＣｏｍｐｕｔａｔｉｏｎａｌＳｔａｔｉｓｔｉｃｓａｎｄＤａｔａＡｎａｌｙｓｉｓ２００２ｖｏｌ．３８３６７−３７８

ここでは、上記のランダムフォレストあるいは反復ランダムフォレストによる教師付き学習を行い、学習した予測モデルを予測モデル記憶部３６に記憶する。なお、エネルギー値は、分子構造から直接計算できる記述子を含めることが可能である。

予測スコア計算手段２４では、予測用エネルギーデータ記憶部３５及び予測モデル記憶部３６から、予測用分子の複数のスコア（エネルギー値）と予測モデルとを入力し、予測スコアの計算を行う。予測結果は、出力装置４から出力される。

続いて、図３を参照して、具体的なランダムフォレストの学習方法について説明する。図３は、本実施形態における予測モデルの学習の流れを示したフローチャートである。

まず、訓練用エネルギーデータ記憶部３４から、スコアリング関数を構成するエネルギー値及びＲＭＳＤの組をＮ個含む集合Ｄが入力される（ステップＳ２０１）。集合Ｄは、下記式により表される。ここで、ｘは複数のスコア関数の集合、ｙはＲＭＳＤである。
Ｄ＝｛（ｘ₁，ｙ₁），…，（ｘ_N，ｙ_N）｝

次に、分岐候補数ｍ、ブートストラップ回数Ｂを設定し（ステップＳ２０２）、データセットを学習するラウンド数ｂをｂ＝１として初期化する（ステップＳ２０３）。そして、データ集合Ｄから、重複を許してＮ回無作為にリサンプリングを行う。このリサンプリング操作をＢ回行い、Ｂ個のデータセット（ブートストラップサンプル）を生成する（ステップＳ２０４）。

続いて、各ブートストラップサンプルについて、回帰木を用いて学習する。すなわち、学習過程の各ノードにおいて、ｍ個のスコア関数を無作為に選択し、その中で平均二乗誤差が最小となるような変数により分岐させる（ステップＳ２０５）。そして、ラウンド数ｂに１を加算し（ステップＳ２０６）、ｂがＢに達するまで次のラウンドの学習を行う（ステップＳ２０７／ＮＯ、ステップＳ２０５）。

また、本実施形態では、上述したようにＲＭＳＤに対する回帰モデルを学習するほか、あるＲＭＳＤを閾値とするような問題設定をすることで分類モデルの学習を行うことも可能である。この場合、単純に予測されたクラスラベルの結果ではなく、ラベルに対する確信度が最大となる配座を結合配座に対する予測結果とすることができる。

先に述べてきたように、本実施形態では、スコアリング関数を構成するエネルギー項のみを計算すればよいため、複数のスコアリング関数を計算して結合能を予測する場合よりも計算時間を短縮できる。

次に、本実施形態について、具体的な実施例により詳細に説明する。かかる実施例は、上述した実施形態に対応するものである。本実施例は、入力装置としてキーボードを、処理装置としてパーソナルコンピュータを、記憶装置として磁気ディスク記憶装置を、出力装置としてディスプレイを具備している。

パーソナルコンピュータは、配座サンプリング手段、スコア計算手段、学習手段、及び予測スコア計算手段を有している。また、磁気ディスク記憶装置は、訓練用構造データ記憶部、予測用構造データ記憶部、配座データ記憶部、訓練用エネルギーデータ記憶部、予測用エネルギーデータ記憶部、及び予測モデル記憶部を有する。

本実施例では、非特許文献１で用いられた９８種類の蛋白質・リガンドの複合体の実験結合構造（Ｘ線結晶構造）と、コンピュータにより各リガンドについて生成した１００個の計算構造を用いて、最安定構造であると予測された構造と実験結合構造間のＲＭＳＤについて、予測を行うことで性能評価を行った。

実験結合構造は、ＰｒｏｔｅｉｎＤａｔａＢａｎｋ（http://www.rcsb.org/pdb/）に登録されている構造である。また、各リガンドの１００個の計算構造は、非特許文献１において用いられたドッキングシミュレーションソフトウェアＡｕｔｏＤｏｃｋにより、生成された配座データを用いた。そして、エネルギー関数としては、次の式で表されるＦｌｅｘＸのスコアリング関数の各エネルギー項を用いた。
ΔＧ＝ΔＧ_matchΣＦ_match＋ΔＧ_lipoΣＦ_lipo＋ΔＧ_ambigΣＦ_ambig＋ΔＧ_clashΣＦ_clash＋ΔＧ_rotΣＦ_rot＋ΔＧ₀

ここで、Ｆ_iはリガンドの一に依存する関数、ΔＧ_iはエネルギー項の係数、Σは相互作用に関わる全ての原子対の和を表す。ｍａｔｃｈは水素結合、金属コンタクト、芳香族間の相互作用からなるエネルギー項である。また、ｌｉｐｏは疎水性相互作用、ａｍｂｉｇは極性原子と非極性原子の相互作用を表すエネルギー項、ｃｌａｓｈは原子の衝突に対するペナルティ項、ｒｏｔは化合物が蛋白質と結合することによって失うエントロピー項を表す。ｎrotは化合物の回転可能単結合数である。本実施形態で用いたエネルギー項は、ΔＧ_match，ΔＧ_lipo，ΔＧ_ambig，ΔＧ_clashであり、これらを説明属性として用いた。

教師付き学習の方法として、ランダムフォレストを用い、ＲＭＳＤに関する回帰モデルとＲＭＳＤ１Åを閾値とした分類モデル、ＲＭＳＤが２Åを閾値とした分類モデルについて予測モデルの学習を行った。性能評価の方法として、交差確認法と同等の結果が得られるＯｕｔ−Ｏｆ−Ｂａｇによる未知データに対する予測精度の評価を行い、ＦｌｅｘＸのスコアリング関数の結果と比較した。交差確認法とＯｕｔ−Ｏｆ−Ｂａｇが同等の結果が得られることは、上記の非特許文献４に示されている。

ＲＭＳＤを１．０Å〜３．０Åまで、１Åごとに区切った正解率を予測性能の比較結果の表を図４に示す。本発明による方法をＯＳＦ（Optimized Scoring Function）と略記し、最も高い予測性能が得られた結果について太文字で示した。ＯＳＦ１はＲＭＳＤ１Åを閾値とした分類モデル、ＯＳＦ２はＲＭＳＤ２Åを閾値とした分類モデル、ＯＳＦ３はＲＭＳＤに対する回帰モデルである。図４から、ＦｌｅｘＸの結果と本発明の結果とを比較すると、本発明による方法は高い予測性能を有することが分かる。

なお、上述する実施形態は、本発明の好適な実施形態であり、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

すなわち、上記した実施形態の仮想スクリーニング装置は、プログラムの命令によりデータ処理装置内のＣＰＵ等で実行される処理等によって動作する。当該プログラムは、データ処理装置の各構成要素に指令を送り、先に述べたような所定の処理、例えば、データ処理装置のＣＰＵにより、記憶装置内の各記憶部が保持する諸データを用いて、エネルギー値の計算や教師付き学習を行わせる。このように、上記実施形態の仮想スクリーニング装置における各処理は、プログラム（ソフトウェア）とコンピュータ（ハードウェア）とが協働した具体的手段によって実現されるものである。

そして、上記実施形態の機能を実現するソフトウェアのプログラムコードを記録したコンピュータ読み取り可能な記録媒体、すなわち記憶メディアを介して、仮想スクリーニング装置のＣＰＵが記憶メディアに格納されたプログラムコードを読み出し実行することによっても、本発明の目的は達成される。また、プログラムは、記録メディアを介さず、通信回線を通じて直接に仮想スクリーニング装置のＣＰＵにロードし実行することもでき、これによっても同様に本発明の目的は達成される。

この場合、記憶メディアから読み出された又は通信回線を通じてロードし実行されたプログラムコード自体が前述の実施形態の処理機能を実現することになる。そして、そのプログラムコードを記憶した記憶メディアは本発明を構成する。なお、プログラムコードを供給するための記憶メディアとしては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、不揮発性のメモリカード、ＲＯＭ、磁気テープ等を用いることができる。

本発明の実施形態に係る化合物の仮想スクリーニング装置の概略構成図である。本発明の実施形態における予測動作の処理手順を示すフローチャートである。本発明の実施形態におけるランダムフォレストの処理手順を示すフローチャートである。本発明の実施形態での予測性能と従来技術での予測性能の比較結果を示した図である。

符号の説明

１入力装置
２データ処理装置
３記憶装置
４出力装置
２１配座サンプリング手段
２２エネルギー計算手段
２３学習手段
２４予測スコア計算手段
３１訓練用構造データ記憶部
３２予測用構造データ記憶部
３３配座データ記憶部
３４訓練用エネルギーデータ記憶部
３５予測用エネルギーデータ記憶部
３６予測モデル記憶部

Claims

標的蛋白質と結合する化合物の結合能及び結合配座を予測する化合物の仮想スクリーニング方法において、
エネルギー計算手段が、前記化合物の結合能を評価するスコアリング関数を構成するエネルギー項を用いて、コンピュータにより生成された前記化合物の配座に対するエネルギー値を計算し、
学習手段が、該計算で得られたエネルギー値と、前記標的蛋白質及び前記化合物の間における、実験的に決定された前記化合物の結合配座とコンピュータにより生成された前記化合物の計算配座との間のＲＭＳＤ（Root Mean Squared Deviation：根平均二乗変位）とについて教師付き学習を行って予測モデルを求め、
予測スコア計算手段が、該予測モデルを前記化合物に適用することにより、前記化合物の結合能及び結合配座を予測する
ことを特徴とする化合物の仮想スクリーニング方法。
配座サンプリング手段は、前記標的蛋白質と化合物との、実験的に決定された実験結合構造と、前記化合物のコンピュータにより生成された計算構造とに基づいて、前記化合物の配座データを生成し、
前記エネルギー計算手段は、前記エネルギー項と前記生成された配座データとを用いて、前記化合物の配座に対するエネルギー値を計算する請求項１に記載の化合物の仮想スクリーニング方法。
前記学習手段は、前記ＲＭＳＤに対する回帰モデルを予測モデルとして生成する請求項１または請求項２記載の化合物の仮想スクリーニング方法。
前記学習手段は、前記ＲＭＳＤを閾値とする分類モデルを予測モデルとして生成する請求項１または請求項２記載の化合物の仮想スクリーニング方法。
標的蛋白質と結合する化合物の結合能及び結合配座を予測する化合物の仮想スクリーニング装置において、
前記化合物の結合能を評価するスコアリング関数を構成するエネルギー項を用いて、コンピュータにより生成された前記化合物の配座に対するエネルギー値を計算するエネルギー計算手段と、
該計算で得られたエネルギー値と、前記標的蛋白質及び前記化合物の間における、実験的に決定された前記化合物の結合配座とコンピュータにより生成された前記化合物の計算配座との間のＲＭＳＤ（Root Mean Squared Deviation：根平均二乗変位）とについて教師付き学習を行うことにより予測モデルを生成する学習手段と、
前記生成された予測モデルを前記化合物に適用することにより、前記化合物の結合能及び結合配座を予測する予測スコア計算手段と
を備える化合物の仮想スクリーニング装置。
前記標的蛋白質と化合物との、実験的に決定された実験結合構造と、前記化合物のコンピュータにより生成された計算構造とに基づいて、前記化合物の配座データを生成する配座サンプリング手段をさらに備え、
前記エネルギー計算手段は、前記エネルギー項と前記生成された配座データとを用いて、前記化合物の配座に対するエネルギー値を計算する請求項５に記載の化合物の仮想スクリーニング装置。
前記学習手段は、前記ＲＭＳＤに対する回帰モデルを予測モデルとして生成する請求項５または請求項６記載の化合物の仮想スクリーニング装置。
前記学習手段は、前記ＲＭＳＤを閾値とする分類モデルを予測モデルとして生成する請求項５または請求項６記載の化合物の仮想スクリーニング装置。