JP2008081435A

JP2008081435A - 化合物の仮想スクリーニング方法および装置

Info

Publication number: JP2008081435A
Application number: JP2006262595A
Authority: JP
Inventors: Norihito Teramoto; 礼仁寺本; Hiroaki Fukunishi; 広晃福西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-09-27
Filing date: 2006-09-27
Publication date: 2008-04-10
Anticipated expiration: 2026-09-27
Also published as: JP5211458B2

Abstract

【課題】タンパク質と結合する化合物を探索するために、ドッキングシミュレーションによりタンパク質立体構造に基づく化合物の仮想スクリーニングを実行する場合に、予測精度をさらに向上させる。
【解決手段】複数のエネルギー関数を用いて、計算機により生成された化合物の配座のエネルギーを計算する段階（ステップＡ２〜Ａ３）と、得られたエネルギー値とタンパク質・化合物間の結合指標とについて教師付き学習を行う段階（ステップＡ４）と、教師付き学習の結果に基づいて化合物の配座を予測する段階（ステップＡ５）と、を設ける。
【選択図】図１

Description

本発明は、タンパク質立体構造に基づく化合物の仮想スクリーニングを実行する方法および装置に関し、特に、計算機によって生成された化合物配座の複数のエネルギー関数を評価することによりタンパク質・化合物間の結合様式や結合能を予測することができる方法及び装置に関する。

近年、薬物候補分子を実験的に探索するのに要する膨大な費用と労力を削減するため、各種の計算機シミュレーション手法が実行されるようになってきた。薬物候補分子の探索は、標的疾患に関わるタンパク質に強く相互作用する化合物（リガンド）を薬物候補として探すことである。そこで、計算機によるタンパク質立体構造に基づく化合物の仮想スクリーニングが活発に行われている。仮想スクリーニングでは、化合物の最安定配座、特にタンパク質と相互作用した状態での再安定配座をエネルギー関数によって評価することにより、結合様式や結合能を予測する。分子の最安定配座を予測する方法として、計算の近似レベルに応じて、分子軌道法、分子力場法、ドッキングシミュレーションなどの様々なものがある。これらの方法では、エネルギー最小となる配座の探索を行い、探索された最安定配座に基づいて、タンパク質と化合物（リガンド）との結合様式や結合能を予測する。そして、多数の化合物に対してタンパク質との結合様式や結合能を予測し、予測結果を評価することによって、それらの化合物の中から薬物候補を見つけ出すことができる。

現実に存在する化合物（あるいは存在しうる化合物）は数百万以上の膨大な数に上るため、仮想スクリーニングにおいては、分子の再安定配座を予測する際に、スクリーニング速度を重視して、ドッキングシミュレーションが用いられることが多い。ドッキングシミュレーションは、計算機により化合物の配座を多数発生させ、各配座をスコア関数により評価することで、最も良いスコア値を持つ配座を探索する手法である。しかしながら、ドッキングシミュレーションでは、高速化を優先するため、エネルギー関数（スコア関数）に用いるモデルの粗視化レベルが高く、各スコア関数の予測性能は、結合能を予測するタンパク質や化合物の性質に大きく依存する。したがって、ドッキングシミュレーションは、使用するスコア関数までを考慮すると、汎用性が高いとは言い難い。

これらの問題に対処するために、複数の異なるスコア関数の順位和などを用いることによってドッキングシミュレーションの予測性能を改善する手法が用いられるようになり、この手法を一般にコンセンサススコアリングと呼んでいる。コンセンサススコアリングの具体例として、Wangら（非特許文献１）によるようなスコア関数の順位和に基づく方法が挙げられる。３個のスコア関数を用いることで、ＲＭＳＤ（Root Mean Squared Deviation；根平均二乗変位）が２Å以下の配座を予測する精度が最大８４％に達することが報告されている。

なお、特開２００５−１８１１０４（特許文献１）には、ドッキングシミュレーションとＮＭＲ（核磁気共鳴）計測とを組み合わせて高精度にスクリーニングを行うことが開示されている。特開２００６−１１３８７８（特許文献２）には、受容体（タンパク質など）のリガンドとからなる系における配座を決定する際に、受容体内にダミー原子を設定してスコアを求めることにより、高精度にドッキングシミュレーションを行えるようにすることが開示されている。
特開２００５−１８１１０４特開２００６−１１３８７８ Wang R., Lu Y., Wang S., "Comparative evaluation of 11 scoring functions for molecular docking," J. Med. Chem., 2003 Jun 5; 46(12):2287-303. Y. Freund, R. E. Schapire, "A decision-theoretic generalization of on-line learning and an application to boosting," Journal of Computer and System Sciences, 1997, 23-27. Leo Breiman, "Bagging Predictors," Machine Learning, 1996, 123-140（あるいはこの論文と本質的に同一内容のLeo Breiman, "Bagging Predictors," Technical Report No. 421, Department of Statistics, University of California, September 1994）. Leo Breiman, "Random Forests," Machine Learning, 2001, 5-32. Leo Breiman, "Using Itrated Bagging to Debias Regressions," Machine Learning, 2001, 261-277. J. Friedman, "Stochastic gradient boosting," Computational Statistics and Data Analysis, 2002, 367-378 (http://www.elseviermathematics.com/vj/MathWeb/27/17/28/16/article.pdf).

しかしながら、Wangらの方法（非特許文献１）には、以下に示すような課題がある。

第１に、最も高い予測精度が得られるスコア関数の組み合わせは、様々な組み合わせに対して既知データによる性能評価を行うことにより決定されるが、これは場当たり的な方法であり、一般性に極めて乏しい。その上、全ての組み合わせを検証するためには膨大な数の組み合わせを考慮する必要があるとともに、性能評価結果が同程度である複数の組み合わせが存在する場合には一意に組み合わせを決定することが困難になるなどの問題点がある。また、既知データに基づく性能評価のみに基づくため、得られた組み合わせに関し、既知データでの性能はある程度保証されるが、未知データに対する予測性能に対して、高い予測結果が得られるとは限らない。

第２に、全てのスコア関数において良好な性能が得られない場合に、従来のコンセンサススコアリングによる予測性能の向上は原理的に不可能である、という問題点がある。

第３に、計算機により生成された化合物の配座の中で、最も良いスコア値を持つ配座のみに基づいて結合様式や結合能の有無を予測するため、他の配座の情報が全く利用されていない、という問題点もある。もし、スコア関数が結合自由エネルギーを完全に反映しているような理想的な場合であれば、最良のスコア値のみから予測することが可能であるが、実際にはスコア関数のモデル化は粗いものであるため、最も良いスコア値を持つ配座のみの情報に基づいた場合、予測精度は低くなる。

本発明は、上述した課題を鑑み、より高い予測精度の仮想スクリーニングを実現する方法及び装置を提供することを目的とする。

本発明は、タンパク質立体構造に基づくタンパク質と低分子化合物とのドッキングシミュレーションにおいて、計算機により生成された化合物の配座の複数のスコア関数に対して教師付き学習を行うことにより、結合様式と結合活性の予測精度を向上させるものである。具体的には本発明の化合物の仮想スクリーニング方法は、タンパク質と結合する化合物を探索する仮想スクリーニング方法において、複数のエネルギー関数を用いて、計算機により生成された化合物の配座のエネルギーを計算する段階と、得られたエネルギー値とタンパク質・化合物間の結合指標とについて教師付き学習を行う段階と、教師付き学習の結果に基づいて化合物の配座を予測する段階と、を有することを特徴とする。このような本発明の仮想スクリーニング方法では、化合物の配座のエネルギーを、分子力場あるいは経験的なモデルに基づくエネルギー関数を用いて計算することが好ましい。結合指標としては、例えば、実験的に決定された化合物の結合配座と計算機によって生成された化合物の配座との間のＲＭＳＤ（Root Mean Squared Deviation；根平均二乗変位）を用いることができる。

本発明の仮想スクリーニング装置は、タンパク質・化合物複合体の立体構造に基づき、タンパク質と結合する化合物を探索するために用いられる仮想スクリーニング装置において、タンパク質・リガンド複合体の立体構造情報を記憶する訓練用構造データ記憶部と、予測用の分子構造を記憶する予測用分子構造データ記憶部と、分子の立体配座を生成する配座サンプリング手段と、配座サンプリング手段によって生成された配座の配座情報を記憶する配座データ記憶部と、タンパク質立体構造と配座に基づいて複数のスコア関数を計算するスコア計算手段と、タンパク質と複合体を形成する分子の配座情報を記憶する訓練用スコアデータ記憶部と、予測用の分子の配座情報を予測用スコアデータとして記憶する予測用スコアデータ記憶部と、各配座のＲＭＳＤ（Root Mean Squared Deviation；根平均二乗変位）と複数のスコア値とに基づき教師付き学習を行う学習手段と、学習手段によって学習された予測モデルを記憶する予測モデル記憶部と、予測用スコアデータに対して予測モデルを適用し、予測スコア値を計算する予測スコア計算手段と、を有する。

本発明では、計算機により生成された配座のＲＭＳＤと複数のスコア関数とからの大量の学習データに基づいて教師付き学習を行うことにより、スコア関数の性能を改善する。この配座のＲＭＳＤは、従来技術においては、スコア関数の性能の改善には用いられていなかったものである。本発明では、このように教師付き学習を行うことによって、化合物の配座のスコア関数についての未知のデータに対する予測性能を大幅に向上することができる。したがって本発明では、学習機械の汎化能力を利用して高精度の予測が可能になる。また、コンセンサススコアリングに用いるスコア関数の組み合わせを場当たり的に決定せずに、全てのスコア関数を系統的に用いることで、高い予測精度の仮想スクリーニングが実現できる。これにより、実験的にタンパク質・化合物間の結合能の測定あるいは結合様式の決定に要する費用、労力、時間を大幅に削減することができる。

次に、本発明の好ましい実施の形態について、図面を参照して説明する。

図１は、本発明の第１の実施形態の仮想スクリーニング装置の構成を示すブロック図である。図１に示す仮想スクリーニング装置は、大別すると、キーボードなどの入力装置１と、プログラム制御により動作するデータ処理装置２と、情報を記憶する記憶装置３と、ディスプレイ装置や印刷装置などの出力装置４から構成されている。

データ処理装置２は、タンパク質立体構造と分子構造とに基づいて多様な配座情報を生成する配座サンプリング部２１と、配座ごとに種々のスコア関数によるスコアを計算するスコア計算部２２と、実験的に決定された配座と配座サンプリング部２１で生成された配座との間のＲＭＳＤ（Root Mean Squared Deviation；根平均二乗変位）と各スコア関数の組から教師付き学習を行う学習部２３と、予測用分子構造から得られた配座に対して、学習部２３において学習されたモデルを利用した予測スコアを計算する予測スコア計算部２４と、を含んでいる。

記憶装置３は、タンパク質・リガンド複合体の立体構造情報を格納する訓練用構造データ記憶部３１と、予測用の分子構造を記憶する予測用分子構造データ記憶部３２と、配座サンプリング部２１によってタンパク質立体構造と分子構造から生成された配座情報を格納する配座データ記憶部３３と、タンパク質と複合体を形成するリガンド分子の配座データから算出されたスコアとそれに対応するＲＭＳＤとを格納する訓練用スコアデータ記憶部３４と、予測用分子の配座データから算出されたスコアを格納する予測用スコアデータ記憶部３５と、訓練用スコアデータとＲＭＳＤとの教師付き学習により得られる予測モデルを格納するする予測モデル記憶部３６と、を含んでいる。

次に、この仮想スクリーニング装置の動作を説明する。図２はこの仮想スクリーニング装置の動作を示すフローチャートであり、図３は、図２に示す処理で用いられるランダムフォレストの処理手順を示すフローチャートである。

入力装置１によって実行指示が与えられ、データ処理装置２が起動すると、まず、ステップＡ１において、訓練用構造データ記憶部３１及び予測用分子構造データ記憶部３２から、タンパク質・リガンド複合体の立体構造情報および予測用の分子構造がデータ処理装置２に入力される。するとステップＡ２において、配座サンプリング部２１は、分子の多様な立体配座を生成し、これらの立体配座に関する配座情報が配座データ記憶部３３に記憶される。ここで、タンパク質と複合体を形成する分子に関し、複合体を形成した時の構造と計算された構造との間でＲＭＳＤが算出され、対応する配座情報とともに、配座データ記憶部３３に記憶される。配座のサンプリング方法としては、スコア関数を指標にして、所与の初期構造から遺伝的アルゴリズムやモンテカルロ法などの探索アルゴリズムなどを用いることが可能である。

次にスコア計算部２２が、ステップＡ３において、配座データ記憶部３３から分子の配座情報を受け取り、所与の複数のスコア関数により各配座のスコアを計算する。各配座から算出されたスコアは、タンパク質と複合体を形成する分子の場合には訓練用スコアデータ記憶部３４に記憶され、予測用分子の場合には予測用スコアデータ記憶部３５に記憶される。ここで、用いられるスコア関数としては、力場ベースのスコア関数であるＡｕｔｏＤｏｃｋ，Ｄ−Ｓｃｏｒｅ，Ｇ−Ｓｃｏｒｅのほか、経験的スコア関数であるＬｉｇＳｃｏｒｅ，ＰＬＰ，ＰＭＦ，ＬＵＤＩ，Ｆ−Ｓｃｏｒｅ，ＣｈｅｍＳｃｏｒｅ，Ｘ−Ｓｃｏｒｅなど、知識ベースのスコア関数であるＤｒｕｇＳｃｏｒｅなどを用いることが可能である。

次に学習部２３が、ステップＡ４において、訓練用スコアデータ記憶部３４から各配座のＲＭＳＤと複数のスコア値とを受け取って、教師付き学習を実行する。教師付き学習の手法としては、サポートベクターマシン（ＳＶＭ）や、アンサンブル学習であるブースティング、バギングなどがあり、いずれの手法を用いても良い。ブースティングについては非特許文献２に記載され、バギングについては非特許文献３に記載されている。また、ブースティング、バギングを発展させたものとして、ランダムフォレスト、反復バギング、確率勾配ブースティング法などがあり、それぞれ、非特許文献４、非特許文献５、非特許文献６に記載されている。

また、ランダムフォレスト、反復バギング、確率勾配ブースティング法に基づいて、反復バギング法におけるバギングをランダムフォレストにより構成する学習機械を反復ランダムフォレスト法と呼び、確率勾配ブースティング法の勾配を反復ランダムフォレスト法に適用した学習機械を反復勾配ランダムフォレスト法と呼ぶ。反復ランダムフォレスト法や反復勾配ランダムフォレスト法によれば、上記のランダムフォレスト、反復バギング法、確率勾配ブースティング法を上回る予測性能を得ることができる。

ステップＡ４では、上述のランダムフォレストあるいは反復ランダムフォレストによる教師付き学習を行い、学習した予測モデルを予測モデル記憶部３６に記憶する。スコアには、分子構造から直接計算できる記述子を含めることが可能である。

図３を参照して、具体的なランダムフォレストの学習方法について説明する。

まず、ステップＢ１において、訓練用スコアデータ記憶部３４から、Ｎ個のＲＭＳＤと複数のスコア関数などとの組の集合Ｄが学習部２３に入力される。

Ｄ＝｛(ｘ₁，ｙ₁)，…，(ｘ_N，ｙ_N)｝ (1)
ここで、ｘは複数のスコア関数の集合、ｙはＲＭＳＤである。ステップＢ２において分岐候補数ｍとブートストラップ回数Ｂとを設定し、ステップＢ３において、データセットのラウンド数ｂをｂ＝１で初期化する。次に、ステップＢ４において、データ集合Ｄから重複を許してＮ回無作為にリサンプリングを行う。この操作をＢ回行い、ブートストラップサンプルをＢ個生成する。

その後、ステップＢ５において、各ブートストラップサンプルについて、学習部２３は、回帰木を用いて学習する。このとき学習過程の各ノードにおいて、ｍ個のスコア関数を無作為に選択し、その中で平均二乗誤差が最小となるような変数により、分岐させる。ステップＢ６においてラウンド数ｂに１を加算し、ステップＢ７において、ラウンド数ｂがブートストラップ回数Ｂに達したかどうかを判断し、達していればランダムフォレストによる処理を終了し、そうでなければ、次のラウンドの学習を行うために、ステップＢ５に戻る。

また、本実施形態では、上述したように、ランダムフォレスト以外の教師付き学習を用いることにより、予測精度をさらに向上させることが可能である。以下、図４を用いて、ランダムフォレストの代わりに用いることができる反復勾配ランダムフォレスト法での学習方法を説明する。

反復勾配ランダムフォレスト法での学習では、まず、ステップＣ１において、訓練用スコアデータ記憶部３４から、Ｎ個のＲＭＳＤと複数のスコア関数などとの組の集合Ｄが学習部２３に入力される。そして、ステップＣ２において縮小パラメータνと分岐候補数ｍとブートストラップ回数Ｂと反復回数Ｉを設定し、ステップＣ３において、何回目の反復かを示す変数ｉをｉ＝１で初期化する。次に、ステップＣ４において、データ集合Ｄから重複を許してＮ回無作為にリサンプリングを行う。この操作をＢ回行い、ブートストラップサンプルをＢ個生成する。ステップＣ５において、データセットのラウンド数ｂをｂ＝１で初期化し、ステップＣ６において、上述のステップＢ５と同様に回帰木による学習を行い、ステップＣ７においてラウンド数ｂに１を加算し、ステップＣ８において、ラウンド数ｂがブートストラップ回数Ｂに達したかどうかを判断し、達していれば次の反復のためにステップＣ９に進み、そうでなければ、次のラウンドの学習を行うために、ステップＣ６に戻る。

ステップＣ９では、ｉ回目の反復でのランダムフォレストの学習が終了した後、変数ｉに１を加算し、ステップＣ１０において、真のＲＭＳＤとＲＭＳＤの予測値との差が次のラウンドでのＲＭＳＤとなるようにＲＭＳＤを更新し、再びランダムフォレストにより学習を行う。次に、ステップＣ１１において、各ラウンドで学習したモデルに、縮小パラメータνを乗じて、次ラウンドのモデルに加える。ステップＣ１２では、変数ｉが反復回数Ｉに達したかどうかを判断し、達していれば、すなわち上述の動作がＩ回反復されていれば、処理を終了し、そうでなければ次の反復のためにステップＣ４に戻る。

反復ランダムフォレスト法は、反復勾配ランダムフォレスト法において、縮小パラメータνが１である場合に相当する。反復勾配ランダムフォレスト法は、反復計算により、ランダムフォレストによる学習が不十分なデータに対して重点的に学習を行う方法であり、予測精度の向上が可能になる。このような反復ランダムフォレスト法、反復勾配ランダムフォレスト法は、本発明の対象であるタンパク質・化合物の結合様式の予測以外にも、例えば、化合物の記述子による生物活性予測やタンパク質を構成するアミノ酸配列の特徴量によるタンパク質分類にも用いることができる。

あるＲＭＳＤをしきい値とするような分類を行う場合、ＲＭＳＤの更新は、以下のように更新する。

ここで、Ｙ_nはサンプルｎの真の値、Ｆ_i-1(ｘ_n)はラウンドｉ−１での予測値である。

また、あるＲＭＳＤをしきい値とするような分類モデルの学習を行う場合、しきい値以下のＲＭＳＤになる計算構造は、しきい値以上のＲＭＳＤよりも極端に少数であることが多い。そのため、通常の設定でランダムフォレストの行うと予測精度が低下する。そのため、しきい値以下のＲＭＳＤのデータに重み付けを行うことが望ましい。また、図５に示すように、しきい値以下のＲＭＳＤの計算構造の数ごとに正例・負例のリサンプリングを行う方法を行うと、上述の問題の回避と計算時間の短縮も実現できる。図５は、クラスラベルのデータ数が偏っている場合に分類モデルを学習するランダムフォレストの処理手順を示すフローチャートである。以下、図５に示す手順について説明する。

まず、ステップＤ１において、Ｎ個のＲＭＳＤと複数のスコア関数などとの組の集合Ｄを入力し、ステップＤ２において、ＲＭＳＤしきい値と分岐候補数ｍとブートストラップ回数Ｂとを設定し、ステップＤ３において、ＲＭＳＤしきい値に基づいてＲＭＳＤを離散化させ、ステップＤ４において、データセットのラウンド数ｂをｂ＝１で初期化する。次に、ステップＤ５において、正例・負例のうち、少数である方のラベルのサンプル数に揃えて正例・負例のリサンプリングを行い、Ｂ呼のデータセット（サンプル）を生成する。

次に、ステップＤ６において、各データセットについて、学習部２３は、決定木を用いて学習する。このとき学習過程の各ノードにおいて、ｍ個のスコア関数を無作為に選択し、その中で平均二乗誤差が最小となるような変数により、分岐させる。ステップＤ７においてラウンド数ｂに１を加算し、ステップＤ８において、ラウンド数ｂがブートストラップ回数Ｂに達したかどうかを判断し、達していれば処理を終了し、そうでなければ、次のラウンドの学習を行うために、ステップＤ６に戻る。

このように図５に示した処理は、教師付き学習方法が分類モデルの場合に、少数クラスのデータ数と同数あるいは同じオーダーのデータを多数クラスからリサンプリングする処理である。教師付き学習方法が分類モデルである場合には、図５に示したような処理を行う代わりに、少数クラスに重み付き学習を行うようにしてもよい。

以上、ステップＡ４における教師付き学習の具体的な処理手順を説明した。図１に戻り、ステップＡ４が終了すると、ステップＡ５において、予測スコア計算部２４は、予測モデル記憶部３６と予測用スコアデータ記憶部３５から予測モデルと予測用分子の複数のスコアを受け取り、予測モデルに基づいて予測を行う。予測結果は出力装置４から出力される。

第１の実施形態の仮想スクリーニング装置では、従来の複数のスコア関数を用いたコンセンサススコアリングの限界となっている、いずれかのスコア関数で良好なスコアが得られない場合であっても、学習機械の汎化能力（未知データに対する予測性能）によって、高い精度の予測を行うことができる。

図６は、本発明の第２の実施形態の仮想スクリーニング装置の構成を示している。第２の実施形態の仮想スクリーニング装置は、教師付き学習に基づく予測モデルを予め利用できる場合に適合したものである。教師付き学習による予測モデルが予め与えられているので、図１に示した第１の実施形態の仮想スクリーニング装置と比べ、学習部２３、訓練用構造データ記憶部及び訓練用スコアデータ記憶部３４を備えていない点で異なっている。

図７は、この第２の実施形態の仮想スクリーニング装置の動作を示すフローチャートである。

教師付き学習によって得られた予測モデルは、予め、予測モデル記憶部３６内に記憶されている。まず、ステップＥ１において、予測用分子構造データ記憶部３２から予測用の分子構造がデータ処理装置２に入力され、第１の実施形態でのステップＡ２と同様に、ステップＥ２において、配座サンプリング部２１は、分子の多様な立体配座を生成し、これらの立体配座に関する配座情報は配座データ記憶部３３に記憶される。次にスコア計算部２２は、ステップＥ３において、配座データ記憶部３３から分子の配座情報を受け取り、所与の複数のスコア関数により各配座のスコアを計算する。算出されたスコアは、予測用スコアデータ記憶部３５に記憶される。ここで、用いられるスコア関数としては、第１の実施形態のおけるものと同様のものを用いることができる。その後、ステップＥ４において、予測スコア計算部２４は、予測モデル記憶部３６と予測用スコアデータ記憶部３５から予測モデルと予測用分子の複数のスコアを受け取り、予測モデルに基づいて予測を行う。予測結果は出力装置４から出力される。

以上説明した各実施形態の仮想スクリーニング装置において、データ処理装置は、パーソナルコンピュータやスーパーコンピュータなどのコンピュータに、上述した仮想スクリーニングの処理を実行させるためのプログラムを読み込ませてそのプログラムを実行させるようにすることによっても構成される。そのようなプログラムは、ＣＤ−ＲＯＭや磁気テープなどの記憶媒体によって、あるいはネットワークを介してコンピュータに読み込まれる。本発明の範疇には、そのようなプログラムも含まれるものである。

次に、実施例により本発明をさらに詳しく説明する。ここでは、上述したの第１の実施形態に対応する実施例を説明する。本実施例において、仮想スクリーニング装置は、入力装置１としてキーボードを、データ処理装置２としてパーソナルコンピュータを、記憶装置３として磁気ディスク記憶装置を、出力装置４としてディスプレイを、それぞれ備えているものとする。

パーソナルコンピュータは、配座サンプリング部とスコア計算部と学習部と予測スコア計算部として気泡する中央処理装置（ＣＰＵ）を有しており、磁気ディスク記憶装置は、訓練用構造データ記憶部と予測用分子構造データ記憶部と配座データ記憶部と訓練用スコアデータ記憶部と予測用スコアデータ記憶部と予測モデル記憶部として機能する。

本実施例では、非特許文献１で用いられている１００種類のタンパク質・リガンド複合体についての実験結合構造（Ｘ線結晶構造）と、計算機により各リガンドについて生成した１００個の計算構造とを用いて、最安定構造であると予測された構造と実験結合構造間のＲＭＳＤについて予測を行うことで、本発明の方法の性能評価を行った。実験結合構造としては、Protein Data Bank (http://www.rcsb.org/pdb/)に登録されている構造を使用した。各リガンドの１００個の計算構造としては、非特許文献１において用いられているドッキングシミュレーションソフトウェアＡＵＴＯＤＯＣＫにより生成された配座データを用いた。使用したスコア関数としても、非特許文献１と同一のＡｕｔｏＤｏｃｋ，Ｄ−Ｓｃｏｒｅ，Ｇ−Ｓｃｏｒｅ，ＬｉｇＳｃｏｒｅ，ＰＬＰ，ＰＭＦ，ＬＵＤＩ，Ｆ−Ｓｃｏｒｅ，ＣｈｅｍＳｃｏｒｅ，Ｘ−Ｓｃｏｒｅ，ＤｒｕｇＳｃｏｒｅの１１種類を用いた。

教師付き学習の方法として、ランダムフォレストを用い、ＲＭＳＤに関する回帰モデルと、１ÅをＲＭＳＤのしきい値とした分類モデルと、２ÅをＲＭＳＤのしきい値とした分類モデルとについて、予測モデルの学習を行った。性能評価は、交差確認法と同等の結果が得られるOut-Of-Bagを使用して未知データに対する予測精度の評価を行うことによって行い、非特許文献１の結果と比較した。交差確認法とOut-Of-Bagが同等の結果が得られることは、非特許文献４に示されている。

ＲＭＳＤを１．０Åから３．０Åまでの範囲で０．５Åごとに区切った正解率について、本発明の方法と従来の方法とでの予測性能の比較結果を表１に示す。本発明の方法をＳＣＳ(Supervised Consensus Scoring)と略記し、最も高い予測性能が得られた結果について、下線を付して示した。表１から、本発明が従来法と比較すると、高い予測性能を有することが分かる。なお、表１において、二重スコアリングとは、２個のスコア関数を用いることを意味し、三重スコアリングとは、２個のスコア関数を用いることを意味する。

本発明は、例えば、薬剤候補化合物探索をコンピュータで実現する方法、装置及びプログラムといった用途に適用でき、創薬のコストの削減、効率化を実現することを可能にする。

本発明の第１の実施形態の仮想スクリーニング装置の構成を示すブロック図である。図１に示す仮想スクリーニング装置の動作を示すフローチャートである。ランダムフォレストの処理手順を示すフローチャートである。反復ランダムフォレストの処理手順を示すフローチャートである。クラスラベルのデータ数が偏っている場合に分類モデルを学習するランダムフォレストの処理手順を示すフローチャートである。本発明の第２の実施形態の仮想スクリーニング装置の構成を示すブロック図である。図６に示す仮想スクリーニング装置の動作を示すフローチャートである。

符号の説明

１入力装置
２データ処理装置
３記憶装置
４出力装置
２１配座サンプリング部
２２スコア計算部
２３学習部
２４予測スコア計算部
３１訓練用構造データ記憶部
３２予測用分子構造データ記憶部
３３配座データ記憶部
３４訓練用スコアデータ記憶部
３５予測用スコアデータ記憶部
３６予測モデル記憶部

Claims

タンパク質と結合する化合物を探索する仮想スクリーニング方法において、
複数のエネルギー関数を用いて、計算機により生成された化合物の配座のエネルギーを計算する段階と、
得られたエネルギー値とタンパク質・化合物間の結合指標とについて教師付き学習を行う段階と、
前記教師付き学習の結果に基づいて化合物の配座を予測する段階と、
を有することを特徴とする化合物の仮想スクリーニング方法。
前記化合物の配座のエネルギーを、分子力場あるいは経験的なモデルに基づくエネルギー関数を用いて計算する請求項１に記載の仮想スクリーニング方法。
前記結合指標は、実験的に決定された化合物の結合配座と計算機によって生成された化合物の配座との間のＲＭＳＤ（Root Mean Squared Deviation；根平均二乗変位）である、請求項１または２に記載の仮想スクリーニング方法。
前記教師付き学習を行う段階において、ＲＭＳＤ値に対する回帰モデルあるいは一定のしきい値によりＲＭＳＤを離散化した分類モデルを学習する、請求項１乃至３のいずれか１項に記載の仮想スクリーニング方法。
前記教師付き学習は、アンサンブル学習であるブースティングあるいはバギングを用いる学習である、請求項１乃至４のいずれか１項に記載の仮想スクリーニング方法。
前記教師付き学習は、ランダムフォレストによる学習である、請求項１乃至５のいずれか１項に記載の仮想スクリーニング方法。
前記教師付き学習を行う段階において、反復バギング法のバギングをランダムフォレストにより構成する、請求項１乃至６のいずれか１項に記載の仮想スクリーニング方法。
前記教師付き学習を行う段階において、確率勾配ブースティング法の勾配が反復ランダムフォレスト法に適用される、請求項１乃至７のいずれか１項に記載の仮想スクリーニング方法。
教師付き学習方法が分類モデルの場合に、少数クラスのデータ数と同数あるいは同じオーダーのデータを多数クラスからリサンプリングする、請求項１乃至４のいずれか１項に記載の仮想スクリーニング方法。
教師付き学習方法が分類モデルの場合に、少数クラスに重み付き学習を行う、請求項１乃至４のいずれか１項に記載の仮想スクリーニング方法。
タンパク質・化合物複合体の立体構造に基づき、タンパク質と結合する化合物を探索するために用いられる仮想スクリーニング装置において、
タンパク質・リガンド複合体の立体構造情報を記憶する訓練用構造データ記憶部と、
予測用の分子構造を記憶する予測用分子構造データ記憶部と、
分子の立体配座を生成する配座サンプリング手段と、
前記配座サンプリング手段によって生成された配座の配座情報を記憶する配座データ記憶部と、
タンパク質立体構造と配座に基づいて複数のスコア関数を計算するスコア計算手段と、
タンパク質と複合体を形成する分子の配座情報を記憶する訓練用スコアデータ記憶部と、
予測用の分子の配座情報を予測用スコアデータとして記憶する予測用スコアデータ記憶部と、
各配座のＲＭＳＤ（Root Mean Squared Deviation；根平均二乗変位）と複数のスコア値とに基づき教師付き学習を行う学習手段と、
前記学習手段によって学習された予測モデルを記憶する予測モデル記憶部と、
予測用スコアデータに対して前記予測モデルを適用し、予測スコア値を計算する予測スコア計算手段と、
を有することを特徴とする仮想スクリーニング装置。
タンパク質・化合物複合体の立体構造に基づき、タンパク質と結合する化合物を探索するために用いられる仮想スクリーニング装置において、
予測用の分子構造を記憶する予測用分子構造データ記憶部と、
分子の立体配座を生成する配座サンプリング手段と、
前記配座サンプリング手段によって生成された配座の配座情報を記憶する配座データ記憶部と、
タンパク質立体構造と配座に基づいて複数のスコア関数を計算するスコア計算手段と、
予測用の分子の配座情報を予測用スコアデータとして記憶する予測用スコアデータ記憶部と、
教師付き学習によって得られた予測モデルを記憶する予測モデル記憶部と、
前記予測用スコアデータに対して前記予測モデルを適用し、予測スコア値を計算する予測スコア計算手段と、
を有することを特徴とする仮想スクリーニング装置。
タンパク質と結合する化合物を探索する仮想スクリーニングを実行するコンピュータに、
化合物の配座を生成する処理と、
複数のエネルギー関数を用いて、前記生成された化合物の配座のエネルギーを計算する処理と、
得られたエネルギー値とタンパク質・化合物間の結合指標とについて教師付き学習を行う処理と、
前記教師付き学習の結果に基づいて化合物の配座を予測する処理と、
を実行させるプログラム。