JP2009007302A

JP2009007302A - 仮想スクリーニング方法及び装置

Info

Publication number: JP2009007302A
Application number: JP2007170540A
Authority: JP
Inventors: Norihito Teramoto; 礼仁寺本; Hiroaki Fukunishi; 広晃福西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-06-28
Filing date: 2007-06-28
Publication date: 2009-01-15

Abstract

【課題】タンパク質と結合する化合物を探索する仮想スクリーニング方法において、結合予測に適したスコアリング関数を選択し、予測精度を高める。
【解決手段】タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用い、計算機により生成された化合物の配座に対するスコア値を計算し、スコア値とタンパク質・化合物間の結合指標とに基づいて、複数のスコアリング関数に対する選択を行い、選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う。
【選択図】図２

Description

本発明は、タンパク質立体構造に基づく化合物の仮想スクリーニング方法及び装置に関する。

近年、薬物候補分子を実験的に探索するのに要する膨大な費用と労力を削減するため、各種の計算機シミュレーション手法が実行されるようになってきた。薬物候補分子の端宅とは、標的疾患（ターゲットとする疾患）に関与するタンパク質に対して強く相互作用する化合物（リガンド）を薬物候補として探索することである。そこで、計算機によるタンパク質立体構造に基づく化合物の仮想スクリーニングが活発に行われている。

仮想スクリーニングでは、化合物の最安定配座、特にタンパク質と相互作用した状態での最安定配座をエネルギー関数によって評価することにより、結合配座や結合能を予測する。分子の最安定配座を予測する方法として、分子軌道法（ＭＯ法）、分子力場法（ＭＭ法）、分子動力学法（ＭＤ法）、ドッキングシミュレーションなど、計算の近似レベルによって、様々なものがある。これらの方法は、エネルギー最小となる配座の探索を行い、探索された最安定配座によって、タンパク質と化合物（リガンド）との結合配座や結合能を予測する。

現実に存在する化合物（あるいは存在しうる化合物）は数百万以上の膨大な数に上るため、仮想スクリーニングにおいては、分子の最安定配座を予測する際に、スクリーニング速度を重視したドッキングシミュレーションが用いられることが多い。ドッキングシミュレーションは、化合物の配座を計算機により多数発生させ、各配座をスコアリング関数により評価することで、最も良いスコア値を持つ配座を探索する手法である。スコアリング関数は、タンパク質・化合物間の結合自由エネルギーを評価し、その評価結果をスコア値の形で示す関数である。しかしながらドッキングシミュレーションでは、高速化を優先するため、スコアリング関数に用いるモデルの粗視化レベルが高く、各スコアリング関数の予測性能は、結合能を予測するタンパク質や化合物の性質に大きく依存する。したがってドッキングシミュレーションは、使用するスコアリング関数まで考慮すると、必ずしも汎用性が高いとは言いがたい。

そのため、複数のスコアリング関数を用いるコンセンサススコアリングが提案されている。コンセンサススコアリングでは、スコアリング関数によるスコア値の平均や順位和により、タンパク質・化合物間の結合確度の降順に順位付けを行い、性能を向上させている。コンセンサススコアリング及び主なスコアリング関数の性能については、例えば、非特許文献１、２に記載されている。

なお本発明の関連技術として、次のようなものがある。特許文献１には、仮想スクリーニングにおける一般的技術として、配座解析、高速ドッキングスタディ、結合自由エネルギーの算出、化合物と標的タンパク質との結合モデルの作成などが開示されている。特許文献２は、コンピュータネットワークの運用技術に関するものであるが、重回帰分析を用いて、他の稼動情報の中からある特定の情報（例えば、サービス応答時間）に関連の高い稼動情報を選定する技術を開示している。特許文献３は、Ｇタンパク質（グアニンヌクレオチド結合タンパク質）に特異的に結合する化合物であるＧタンパク質共役型受容体を探索するために、サポートベクトルマシンを用いてＧタンパク質共役型受容体判別モデルを生成することを開示している。サポートベクトルマシン自体については、例えば、非特許文献３に開示されている。特許文献４は、タンパク質などの受容体とこの受容体に結合するリガンドとからなる受容体−リガンド安定複合体構造を探索するために、そのような安定複合体となる可能性がある配置を見出し、これらの配置のリストをスコア順に並び替えることを開示している。
ＷＯ２００３／０３８６７２特開２００２−４３２１８２号公報特開２００６−００３９７０号公報特開２００６−１１３８７８号公報 Douglas B. Kitchen, Helene Decornez, John R. Furr and Jurgen Bajorath, "Docking and scoring in virtual screening for drug discovery: methods and applications," Nature Review Drug Discovery, 2004, 935-949. Wang R, Lu Y, Wang S., "Comparative evaluation of 11 scoring functions for molecular docking," J. Med. Chem., 2003, Jun 5; 46(12): 2287-303. Hattis Drucker, Chris J.C. Burges, Linda Kaufman, Alex Smola and Vladimir Vapnik, "Support vector regression machines," Advances in Neural Information Processing Systems, 1996.

非特許文献１、２に記載にされているコンセンサススコアリングでは、第１に、コンセンサススコアリングに用いるスコアリング関数の組み合わせによっては、高い性能が得られない、第２に、既知活性化合物（タンパク質に対して強く相互作用することが知られているリガンド）の情報が少数しか利用できない場合には、ドッキングプログラムや標的タンパク質に適したスコアリング関数の選択を行うことが困難である、といった課題が残されている。

本発明は、上述した問題点に鑑み、結合予測に適したスコアリング関数を選択し、予測精度の高い仮想スクリーニングを実現する方法及び装置を提供することを目的とする。

本発明の仮想スクリーニング方法は、タンパク質と結合する化合物を探索する仮想スクリーニング方法であって、タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用い、計算機により生成された化合物の配座に対するスコア値を計算することと、スコア値とタンパク質・化合物間の結合指標とに基づいて、複数のスコアリング関数の選択を行うことと、選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行うことと、を有する。

本発明の仮想スクリーニング装置は、タンパク質・化合物複合体の立体構造に基づいてタンパク質と結合する化合物を探索する仮想スクリーニング装置において、
化合物の複数の配座であって、計算により生成された配座の配座情報を記憶する配座データ記憶部と、タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用いて、配座データ記憶部に記憶されている配座情報に対するスコア値を計算するスコア計算手段と、スコア値を記憶するスコアデータ記憶部と、スコアデータ記憶部に記憶されたスコア値とタンパク質・化合物間の結合指標とに基づいて、複数のスコアリング関数に対する属性選択を行う属性選択手段と、属性選択手段で選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う順位付け手段と、を有する。

本発明によれば、タンパク質と複合体を形成するリガンドの計算配座を用いてスコアリング関数の属性選択を行うことで、所与のスコアリング関数から結合予測に適したスコアリング関数を選択することが可能になる。これにより、タンパク質・化合物間の結合能を実験によって測定しあるいは結合配座の実験によって決定するために要する費用、労力、時間を大幅に削減することができ、タンパク質と結合する化合物の探索・スクリーニングを効率よく行えるようになる。

図１は、実施の一形態の仮想スクリーニング装置の構成を示している。この仮想スクリーニング装置は、タンパク質と複合体を形成する化合物（リガンド）の配座を計算によって求め、所与の複数のスコアリング関数を用いた属性選択を行い、結合予測に適したスコアリング関数を選択することによって、タンパク質・化合物間の結合配座や結合能を予測するものである。具体的には、本実施形態では、タンパク質立体構造に基づく低分子化合物のドッキングシミュレーションを行う場合に、タンパク質・リガンド複合体立体構造情報を用いて、ドッキングプログラムにより計算機によって複数の化合物の配座を生成し、生成された配座に対して複数のスコアリング関数を用いてスコア値を算出し、スコア値と結合指標とを用いた教師あり学習に基づく属性選択を行って、結合化合物や結合配座・結合エネルギーの予測に最適なスコアリング関数を選択する。そして選択されたスコアリング関数を用いて複数の化合物のスクリーニングを実行する。結合指標としては、例えば、対象とするタンパク質・化合物間において実験的に決定された数値に基づくものを使用することができ、具体的には、解離定数などの結合強度によって表される結合能や、あるいは、実験的に決定された化合物の結合配座と計算機によって生成された化合物の配座との間のＲＭＳＤ（Root Mean Squared Deviation；根平均二乗変位）などを用いることができる。以下では、結合指標としてＲＭＳＤを用いた場合を説明する。

図１に示す仮想スクリーニング装置は、例えば、キーボード等の入力装置１と、プログラム制御により動作するデータ処理装置２と、情報を記憶する記憶装置３と、ディスプレイ装置や印刷装置などの出力装置４から構成されている。

データ処理装置２は、タンパク質立体構造とリガンドの分子構造に基づいてドッキングプログラムによって多様な配座情報を生成する配座サンプリング部２１と、配座ごとに複数のスコアリング関数を用いることにより各配座の各スコア値を計算するスコア計算部２２と、実験的に決定された配座と配座サンプリング部２１で生成された配座との間のＲＭＳＤを求め、このＲＭＳＤとスコア値との組から教師あり学習による属性選択によりスコアリング関数を選択する属性選択部２３と、属性選択部２３で選択されたスコアリング関数を用いて、結合確度の降順に化合物を順位付けする順位付け部２４と、を含んでいる。ここで、実験的に決定された配座（実験配座）は、例えば、Ｘ線結晶構造解析などによって得られた配座データである。

記憶装置３は、タンパク質・リガンド複合体の立体構造情報を格納する訓練用構造データ記憶部３１と、予測用の分子構造を記憶する予測用分子構造データ記憶部３２と、配座サンプリング部２１によってタンパク質立体構造と分子構造から生成された配座情報を格納する配座データ記憶部３３と、スコアデータ記憶部３４と、を含んでいる。ここでスコアデータ記憶部３４には、タンパク質と複合体を形成する訓練用構造データの分子の配座について複数のスコアリング関数を用いて算出されたスコア値と、ＲＭＳＤデータと、予測用分子の配座から算出されたスコア値とが格納される。

次に、この仮想スクリーニング装置の動作を説明する。図２はこの仮想スクリーニング装置の動作の一例を示すフローチャートである。

入力装置１によって実行指示が与えられ、データ処理装置２が起動すると、まず、ステップＡ１において、訓練用構造データ記憶部３１及び予測用分子構造データ記憶部３２から、タンパク質・リガンド複合体の立体構造情報及び予測用の分子構造がデータ処理装置２に入力される。その結果、ステップＡ２において、データ処理装置２の配座サンプリング部２１は、分子の多様な配座を生成する。生成されたこれらの立体配座に関する配座情報は、配座データ記憶部３３に記憶される。配座のサンプリング方法としては、スコアリング関数の最適解を探索する遺伝的アルゴリズムやモンテカルロ法があり、その他の最適解探索方法を用いことが可能である。

次にスコア計算部２２が、ステップＡ３において、配座データ記憶部３３から分子の配座情報を受け取り、所与の複数のスコアリング関数により、各配座のスコア値を計算する。スコア値は、一般的なドッキングソフトウェアにより計算することができ、スコアリング関数としては、分子力場ベースのスコアリング関数を用いる場合であれば、ＡｕｔｏＤｏｃｋ，Ｄ−Ｓｃｏｒｅ，Ｇ−Ｓｃｏｒｅなどを用いることができ、経験的スコアリング関数を用いる場合であれば、ＬｉｇＳｃｏｒｅ，ＰＬＰ，ＰＭＦ，ＬＵＤＩ，Ｆ−Ｓｃｏｒｅ，ＣｈｅｍＳｃｏｒｅ，Ｘ−Ｓｃｏｒｅなどを用いることができる。分子力場ベースのスコアリング関数と経験的スコアリング関数とを混在して使用することもできる。すなわち、本実施形態においては、化合物の配座を評価するスコアリング関数が、分子力場あるいは経験的なモデルに基づくスコアリング関数を用いることができる。これらのスコアリング関数のうち、Ｆ−Ｓｃｏｒｅ、Ｇ−Ｓｃｏｒｅ、Ｄ−Ｓｃｏｒｅ、ＰＭＦ、ＣｈｅｍＳｃｏｒｅの計算方法は、非特許文献２に記載されている。このようにして各配座から算出されたスコア値は、スコアデータ記憶部３４に記憶される。

次に、属性選択部２３が、ステップＡ４において、スコアデータ記憶部３４から各配座のＲＭＳＤとスコア値とを受け取って、教師あり学習を行い、スコアリング関数の寄与度からバーチャルスクリーニングに用いるスコアリング関数を選択する。教師あり学習の方法としては、サポートベクトルマシンや、アンサンブル学習であるブースティングやバギングなどを用いることができる。また、教師あり学習として回帰学習を用いる場合には、線形カーネルを用いたサポートベクトル回帰の学習により得られる説明変数の係数から、スコアリング関数の寄与の大きさと符号とを陽に求めることができる。サポートベクトル回帰については、非特許文献３に記載されている。

サポートベクトル回帰の中でも非特許文献３で示されているε−ＳＶＲと呼ばれるアルゴリズムでは、次の関数の推定を行う。

ｆ(ｘ)＝ｗ・ｘ＋ｂ，（ｗ，ｘ∈Ｒ^N，ｂ∈Ｒ）
ここで、ｆ(ｘ)は目的関数、ｘは説明変数、ｗは重みベクトル、ｂは定数項である。訓練データの学習は、次の損失関数を最小化することで行う。

Ｒ^r _emp[ｆ]は次式で表される。

ここで、|ｙ−ｆ(ｘ)|_r＝ｍａｘ[０，|ｙ−ｆ(ｘ)|−ε]であり、事前に与えられるε＞０より小さい誤差にペナルティを与えないことを表す。σ^*は−ε方向の緩和関数となる。また、Ｃは正則化項の係数であり、訓練誤差とモデルの複雑さの均衡を決定する。損失関数の最小化は、

を条件として、次の凸２次計画問題を解くことで行われる。

ここで、添え字(*)は添え字*の有無に関わらないことを表す。この最適化問題を解くことで得られる回帰式は、次のように書ける。

この関数は線形関数であるので、陽に説明変数の係数の寄与を求めることができる。上記の定式化において、内積ｘ_i・ｘ_jをカーネル関数ｋ(ｘ_i，ｘ_j)に置き換えることで、非線形化することができる。本実施形態では、陽にスコアリング関数の選択を行うため、非線形化を行わないが、多項式カーネルｋ(ｘ_i，ｘ_j)＝(ｘ_i・ｘ_j＋ａ)^dなどを用いて、スコアリング関数の組み合わせを考慮することも可能である。ここで、ａは定数、ｄは多項式の次数を決定するパラメータである。

属性選択部２３における属性選択は、重みベクトルｗの要素の符号及び大きさを利用することで実現できる。例えば、重みベクトルｗの要素の中で値が正であるものの中から、降順にスコアリング関数の選択を決定することができる。属性選択の方法としては、スコアリング関数の寄与が算出可能であれば、重回帰分析などの他の学習方法を用いることができる。また、目的関数をしきい値などにより離散化することで、サポートベクトルマシンや線形判別分析などの分類学習の手法も用いることができる。

以上、属性選択部２３における処理を説明したが、上述のステップＡ４を実行する段階で、スコアデータ記憶部３４にＲＭＳＤが格納されていない場合があるが、そのような場合には、属性選択部２３は、実験的に決定された配座と配座サンプリング部２１で生成された配座との間のＲＭＳＤを計算し、計算されたＲＭＳＤを用いて上述した属性選択を行うとともに、計算されたＲＭＳＤをスコアデータ記憶部３４に格納する。

次に、順位付け部２４は、ステップＡ５において、属性選択部２３において選択されたスコアリング関数を用いて、複数の化合物（予測用分子）についてコンセンサススコアリングなどを行って、各化合物と標的タンパク質との結合確度を算出し、結合確度の降順で化合物の順位付けを行う。コンセンサススコアリングについては、非特許文献１、２に記載されている。この際、選択されたスコアリング関数が１つの場合は、選択されたスコアリング関数でのスコア値をそのまま用いて、化合物を順位付けすることができる。その後、化合物の順位付けの結果が、仮想スクリーニング結果として、順位付け部２４から出力装置４に出力される。ここでの化合物の順位付けでは、結合確度が高いすなわち標的タンパク質と相互作用しやすいと考えられる化合物に対して、より優先度の高い順位が与えられているので、そのような化合物について優先的に検討を加えることにより、標的タンパク質に対して特異的に作用する化合物を探索を効率的に行うことができるようになる。

以上説明した実施形態では、属性選択部２３において、ＲＭＳＤに対する回帰モデルを用いて属性選択を行っているが、属性選択の方法はこれに限られるものではない。別の実施形態においては、例えば、所与のＲＭＳＤをしきい値に設定して分類モデルによる教師あり学習あるいは教師なし学習を利用することもできる。

次に、実施例を用いて本発明をさらに詳しく説明する。ここでは上述した実施形態に対応する実施例を説明する。本実施例において、仮想スクリーニング装置は、入力装置１としてキーボードを、データ処理装置２としてパーソナルコンピュータを、記憶装置３として磁気ディスク記憶装置を、出力装置４としてディスプレイを、それぞれ備えている。

パーソナルコンピュータは、配座サンプリング部とスコア計算部と属性選択部と順位付け部として機能する中央処理装置（ＣＰＵ）を有しており、磁気ディスク記憶装置は、訓練用構造データ記憶部と予測用分子構造データ記憶部と配座データ記憶部とスコアデータ記憶部として機能する。

本実施例では、仮想スクリーニングのベンチマークデータベースＤＵＤを用いて、標的タンパク質としてアセチルコリン・エステラーゼ（acetylcholine esterase：ＡＣｈＥ）とペルオキシゾーム増殖剤活性化受容体γ（peroxisome proliferator-activated receptor gamma：ＰＰＡＲ）とに対して性能評価を行った。データベースＤＵＤは、インターネット上において、ＵＲＬ：http://blaster.docking.org/dud/において公開されている。

計算配座を発生させるドッキングプログラムとしてＦｌｅｘＳＩＳを使用し、スコアリング関数として、Ｆ−Ｓｃｏｒｅ，Ｄ−Ｓｃｏｒｅ，Ｇ−Ｓｃｏｒｅ，ＰＭＦ，ＣｈｅｍＳｃｏｒｅを用いた。教師あり学習の方法として、線形カーネルのサポートベクトル回帰を用い、ＲＭＳＤに関する回帰学習を行い、係数が正かつ降順に３つまでのスコアリング関数を選択した。化合物の順位付け方法として、コンセンサススコアリング方法の１つのＲＣＳ（rank-by-rank-based consensus scoring；順位ごとベースのコンセンサススコアリング）を用いた。ＲＣＳは次式で計算する。

ここでＲ_iは、化合物におけるｉ番目のスコアリング関数で最も高いスコアとなった配座のスクリーニング対象の化合物中の順位である。また、Ｎはスコアリング関数の個数である。選択されたスコアリング関数が１〜３個の場合はそれぞれ、ＲＣＳ（単一），ＲＣＳ（二重），ＲＣＳ（三重）とした。対照手法として、全てのスコアリング関数を用いたＲＣＳ（全部）を用いた。

まず、ＡＣｈＥ，ＰＰＡＲにおいて、タンパク質・リガンド複合体の立体構造（ＰＤＢコード：１ｅｖｅ，１ｆｍ９）を用いて、リガンドの配座サンプリングをＦｌｅｘＳＩＳにより行った。ここでＰＤＢコードとは、インターネット上でアクセス可能であるタンパク質に関するデータベースであるProtein Data Bank（ＵＲＬ：http://www.rcsb.org/pdb/）における、立体構造を特定するためのコード番号である。

上述の実施形態に記載されているように、サンプリングされた配座のＲＭＳＤに対してスコアリング関数を用いて、サポートベクトル回帰による学習を行うことにより、ＡＣｈＥ，ＰＰＡＲのそれぞれについて、以下の回帰式を得た。

ＡＣｈＥについて：
(正規化)RMSD＝0.2317×(正規化)D-Score＋0.0704×(正規化)PMF＋0.068×(正規化)G-Score＋0.1501×(正規化)ChemScore−0.3416×(正規化)F-Score＋0.2647
ＰＰＡＲについて：
(正規化)RMSD＝1.0087×(正規化)D-Score＋0.2282×(正規化)PMF−0.4421×(正規化)G-Score＋0.5588×(正規化)ChemScore−0.2796×(正規化)F-Score−0.0463
ここで、「(正規化)」は、ＲＭＳＤ値や各スコア値が正規化されたものであることを意味し、したがって、全変数は正規化されている。また、１０分割交差確認法によるサポートベクトル回帰の性能は以下の通りであった。

ＡＣｈＥ：相関係数：０．７１、根平均二乗誤差：１．７９
ＰＰＡＲ：相関係数：０．９６、根平均二乗誤差：１．３２
性能評価の指標として、エンリッチメントスコアＥＦを用いた。ＥＦの定義式を以下に記す。

ここで、Ｈｉｔｓ_sampled ^x%は上位ｘ％までに発見された既知活性化合物数であり、Ｎ_sampled ^x%は上位ｘ％までのスクリーニングされたリガンド数、Ｈｉｔｓ_totalは既知活性化合物数であり、Ｎ_totalはスクリーニング対象の全ての化合物数である。Ｘを１，２，５，１０，２０に設定して、性能比較を行った。ＥＦの値が大きいほど、既知活性化合物が早期に得られることを意味し、タンパク質に結合するリガンドを探索するという立場からは、予測性能が高い、ということを意味する。ＡＣｈＥ，ＰＰＡＲのそれぞれについてのエンリッチメントスコアを表１、表２に示す。表１、表２において、また、ＡＣｈＥ，ＰＰＡＲのそれぞれについての既知活性化合物の順位付けのグラフを図３、図４に示した。

図３では、縦軸に、見つかった既知活性化合物の割合を示し、横軸に、データベース中での順位付けされたものの割合を示している。図においてランダムは、データベースの中から無作為に既知活性化合物を取り出す場合を示している。図に示されるようにＡＣｈＥに対する場合、ＲＣＳ（単一）、ＲＣＳ（二重）、ＲＣＳ（三重）としたときに、対照手法であるランダムやＲＣＳ（全部）のときと比べ、データベース中の既知活性化合物が比較的早期に数多く見つかっている。また図４では、縦軸に、見つかった既知活性化合物の割合を示し、横軸に、データベース中でのスクリーニングされたものの割合を示している。このときも、ＲＣＳ（単一）、ＲＣＳ（二重）、ＲＣＳ（三重）としたときに、対照手法であるランダムのときと比べ、データベース中の既知活性化合物が比較的早期に数多く見つかっている。表１、表２、図３及び図４に示すように、本実施例によれば、タンパク質と相互作用するリガンド（化合物）についての高い予測性能が得られる。

実施の一形態の仮想スクリーニング装置の構成を示すブロック図である。図１に示す仮想スクリーニング装置における処理の一例を示すフローチャートである。実施例におけるＡＣｈＥに対する既知活性化合物の順位付けの結果を示すグラフである。実施例におけるＰＰＡＲに対する既知活性化合物の順位付けの結果を示すグラフである。

符号の説明

１入力装置
２データ処理装置
３記憶装置
４出力装置
２１配置サンプリング部
２２スコア計算部
２３属性選択部
２４順位付け部
３１訓練用構造データ記憶部
３２予測用構造データ記憶部
３３配座データ記憶部
３４スコアデータ記憶部

Claims

タンパク質と結合する化合物を探索する仮想スクリーニング方法であって、
タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用い、計算機により生成された化合物の配座に対するスコア値を計算し、
前記スコア値とタンパク質・化合物間の結合指標とに基づいて、前記複数のスコアリング関数に対する選択を行い、
選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う、
仮想スクリーニング方法。
前記結合指標に対する回帰モデルあるいは所与の結合指標値をしきい値に設定した分類モデルに対する、教師あり学習あるいは教師なし学習を利用して、前記複数のスコアリング関数に対する選択を行う、請求項１に記載の仮想スクリーニング方法。
前記複数のスコアリング関数に対する選択において、前記教師あり学習であるサポートベクトル回帰あるいは重回帰分析を用いる、請求項２に記載の仮想スクリーニング方法。
複数のスコアリング関数を選択し、当該複数のスコアリング関数を用いるコンセンサススコアリングによって、前記化合物の順位付けを行う、請求項１乃至３のいずれか１項に記載の仮想スクリーニング方法。
前記スコアリング関数が、分子力場あるいは経験的なモデルに基づく関数である、請求項１乃至４のいずれか１項に記載の仮想スクリーニング方法。
前記結合指標は、実験によって決定された数値に基づくものである、請求項１乃至５のいずれか１項に記載の仮想スクリーニング方法。
前記結合指標は、実験的に決定された前記化合物の結合配座と前記計算機により生成された化合物の配座との間の根平均二乗変位である、請求項６に記載の仮想スクリーニング方法。
前記結合指標は、タンパク質・化合物間の解離定数である、請求項６に記載の仮想スクリーニング方法。
タンパク質・化合物複合体の立体構造に基づいてタンパク質と結合する化合物を探索する仮想スクリーニング装置において、
化合物の複数の配座であって、計算により生成された配座の配座情報を記憶する配座データ記憶部と、
タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用いて、前記配座データ記憶部に記憶されている前記配座情報に対するスコア値を計算するスコア計算手段と、
前記スコア値を記憶するスコアデータ記憶部と、
前記スコアデータ記憶部に記憶された前記スコア値とタンパク質・化合物間の結合指標とに基づいて、前記複数のスコアリング関数に対する属性選択を行う属性選択手段と、
前記属性選択手段で選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う順位付け手段と、
を有する仮想スクリーニング装置。
タンパク質・化合物複合体の立体構造情報を記憶する訓練用データ記憶部と、
予測用の分子構造を記憶する予測用構造データ記憶部と、
前記訓練用データ記憶部に記憶された前記立体構造情報と前記予測用構造データ記憶部に記憶された分子構造とから、ドッキングプログラムにより、前記化合物の複数の配座を生成する配座サンプリング手段と、
をさらに備え、前記配座サンプリング手段で生成された配座の配座情報が前記配座データ記憶部に記憶される、請求項９に記載の仮想スクリーニング装置。
タンパク質と結合する化合物を探索する仮想スクリーニングを実行するコンピュータに、
タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用い、生成された化合物の配座に対するスコア値を計算する処理と、
前記スコア値とタンパク質・化合物間の結合指標とに基づいて、前記複数のスコアリング関数に対する選択を行う処理と、
選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う処理と、
を実行させる、プログラム。
複数の前記化合物の配座を生成する処理をさらに前記コンピュータに実行させる、請求項１１に記載のプログラム。