JP2008081435A - 化合物の仮想スクリーニング方法および装置 - Google Patents

化合物の仮想スクリーニング方法および装置 Download PDF

Info

Publication number
JP2008081435A
JP2008081435A JP2006262595A JP2006262595A JP2008081435A JP 2008081435 A JP2008081435 A JP 2008081435A JP 2006262595 A JP2006262595 A JP 2006262595A JP 2006262595 A JP2006262595 A JP 2006262595A JP 2008081435 A JP2008081435 A JP 2008081435A
Authority
JP
Japan
Prior art keywords
prediction
conformation
score
compound
virtual screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006262595A
Other languages
English (en)
Other versions
JP5211458B2 (ja
Inventor
Norihito Teramoto
礼仁 寺本
Hiroaki Fukunishi
広晃 福西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006262595A priority Critical patent/JP5211458B2/ja
Publication of JP2008081435A publication Critical patent/JP2008081435A/ja
Application granted granted Critical
Publication of JP5211458B2 publication Critical patent/JP5211458B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 タンパク質と結合する化合物を探索するために、ドッキングシミュレーションによりタンパク質立体構造に基づく化合物の仮想スクリーニングを実行する場合に、予測精度をさらに向上させる。
【解決手段】複数のエネルギー関数を用いて、計算機により生成された化合物の配座のエネルギーを計算する段階(ステップA2〜A3)と、得られたエネルギー値とタンパク質・化合物間の結合指標とについて教師付き学習を行う段階(ステップA4)と、教師付き学習の結果に基づいて化合物の配座を予測する段階(ステップA5)と、を設ける。
【選択図】図1

Description

本発明は、タンパク質立体構造に基づく化合物の仮想スクリーニングを実行する方法および装置に関し、特に、計算機によって生成された化合物配座の複数のエネルギー関数を評価することによりタンパク質・化合物間の結合様式や結合能を予測することができる方法及び装置に関する。
近年、薬物候補分子を実験的に探索するのに要する膨大な費用と労力を削減するため、各種の計算機シミュレーション手法が実行されるようになってきた。薬物候補分子の探索は、標的疾患に関わるタンパク質に強く相互作用する化合物(リガンド)を薬物候補として探すことである。そこで、計算機によるタンパク質立体構造に基づく化合物の仮想スクリーニングが活発に行われている。仮想スクリーニングでは、化合物の最安定配座、特にタンパク質と相互作用した状態での再安定配座をエネルギー関数によって評価することにより、結合様式や結合能を予測する。分子の最安定配座を予測する方法として、計算の近似レベルに応じて、分子軌道法、分子力場法、ドッキングシミュレーションなどの様々なものがある。これらの方法では、エネルギー最小となる配座の探索を行い、探索された最安定配座に基づいて、タンパク質と化合物(リガンド)との結合様式や結合能を予測する。そして、多数の化合物に対してタンパク質との結合様式や結合能を予測し、予測結果を評価することによって、それらの化合物の中から薬物候補を見つけ出すことができる。
現実に存在する化合物(あるいは存在しうる化合物)は数百万以上の膨大な数に上るため、仮想スクリーニングにおいては、分子の再安定配座を予測する際に、スクリーニング速度を重視して、ドッキングシミュレーションが用いられることが多い。ドッキングシミュレーションは、計算機により化合物の配座を多数発生させ、各配座をスコア関数により評価することで、最も良いスコア値を持つ配座を探索する手法である。しかしながら、ドッキングシミュレーションでは、高速化を優先するため、エネルギー関数(スコア関数)に用いるモデルの粗視化レベルが高く、各スコア関数の予測性能は、結合能を予測するタンパク質や化合物の性質に大きく依存する。したがって、ドッキングシミュレーションは、使用するスコア関数までを考慮すると、汎用性が高いとは言い難い。
これらの問題に対処するために、複数の異なるスコア関数の順位和などを用いることによってドッキングシミュレーションの予測性能を改善する手法が用いられるようになり、この手法を一般にコンセンサススコアリングと呼んでいる。コンセンサススコアリングの具体例として、Wangら(非特許文献1)によるようなスコア関数の順位和に基づく方法が挙げられる。3個のスコア関数を用いることで、RMSD(Root Mean Squared Deviation;根平均二乗変位)が2Å以下の配座を予測する精度が最大84%に達することが報告されている。
なお、特開2005−181104(特許文献1)には、ドッキングシミュレーションとNMR(核磁気共鳴)計測とを組み合わせて高精度にスクリーニングを行うことが開示されている。特開2006−113878(特許文献2)には、受容体(タンパク質など)のリガンドとからなる系における配座を決定する際に、受容体内にダミー原子を設定してスコアを求めることにより、高精度にドッキングシミュレーションを行えるようにすることが開示されている。
特開2005−181104 特開2006−113878 Wang R., Lu Y., Wang S., "Comparative evaluation of 11 scoring functions for molecular docking," J. Med. Chem., 2003 Jun 5; 46(12):2287-303. Y. Freund, R. E. Schapire, "A decision-theoretic generalization of on-line learning and an application to boosting," Journal of Computer and System Sciences, 1997, 23-27. Leo Breiman, "Bagging Predictors," Machine Learning, 1996, 123-140(あるいはこの論文と本質的に同一内容のLeo Breiman, "Bagging Predictors," Technical Report No. 421, Department of Statistics, University of California, September 1994). Leo Breiman, "Random Forests," Machine Learning, 2001, 5-32. Leo Breiman, "Using Itrated Bagging to Debias Regressions," Machine Learning, 2001, 261-277. J. Friedman, "Stochastic gradient boosting," Computational Statistics and Data Analysis, 2002, 367-378 (http://www.elseviermathematics.com/vj/MathWeb/27/17/28/16/article.pdf).
しかしながら、Wangらの方法(非特許文献1)には、以下に示すような課題がある。
第1に、最も高い予測精度が得られるスコア関数の組み合わせは、様々な組み合わせに対して既知データによる性能評価を行うことにより決定されるが、これは場当たり的な方法であり、一般性に極めて乏しい。その上、全ての組み合わせを検証するためには膨大な数の組み合わせを考慮する必要があるとともに、性能評価結果が同程度である複数の組み合わせが存在する場合には一意に組み合わせを決定することが困難になるなどの問題点がある。また、既知データに基づく性能評価のみに基づくため、得られた組み合わせに関し、既知データでの性能はある程度保証されるが、未知データに対する予測性能に対して、高い予測結果が得られるとは限らない。
第2に、全てのスコア関数において良好な性能が得られない場合に、従来のコンセンサススコアリングによる予測性能の向上は原理的に不可能である、という問題点がある。
第3に、計算機により生成された化合物の配座の中で、最も良いスコア値を持つ配座のみに基づいて結合様式や結合能の有無を予測するため、他の配座の情報が全く利用されていない、という問題点もある。もし、スコア関数が結合自由エネルギーを完全に反映しているような理想的な場合であれば、最良のスコア値のみから予測することが可能であるが、実際にはスコア関数のモデル化は粗いものであるため、最も良いスコア値を持つ配座のみの情報に基づいた場合、予測精度は低くなる。
本発明は、上述した課題を鑑み、より高い予測精度の仮想スクリーニングを実現する方法及び装置を提供することを目的とする。
本発明は、タンパク質立体構造に基づくタンパク質と低分子化合物とのドッキングシミュレーションにおいて、計算機により生成された化合物の配座の複数のスコア関数に対して教師付き学習を行うことにより、結合様式と結合活性の予測精度を向上させるものである。具体的には本発明の化合物の仮想スクリーニング方法は、タンパク質と結合する化合物を探索する仮想スクリーニング方法において、複数のエネルギー関数を用いて、計算機により生成された化合物の配座のエネルギーを計算する段階と、得られたエネルギー値とタンパク質・化合物間の結合指標とについて教師付き学習を行う段階と、教師付き学習の結果に基づいて化合物の配座を予測する段階と、を有することを特徴とする。このような本発明の仮想スクリーニング方法では、化合物の配座のエネルギーを、分子力場あるいは経験的なモデルに基づくエネルギー関数を用いて計算することが好ましい。結合指標としては、例えば、実験的に決定された化合物の結合配座と計算機によって生成された化合物の配座との間のRMSD(Root Mean Squared Deviation;根平均二乗変位)を用いることができる。
本発明の仮想スクリーニング装置は、タンパク質・化合物複合体の立体構造に基づき、タンパク質と結合する化合物を探索するために用いられる仮想スクリーニング装置において、タンパク質・リガンド複合体の立体構造情報を記憶する訓練用構造データ記憶部と、予測用の分子構造を記憶する予測用分子構造データ記憶部と、分子の立体配座を生成する配座サンプリング手段と、配座サンプリング手段によって生成された配座の配座情報を記憶する配座データ記憶部と、タンパク質立体構造と配座に基づいて複数のスコア関数を計算するスコア計算手段と、タンパク質と複合体を形成する分子の配座情報を記憶する訓練用スコアデータ記憶部と、予測用の分子の配座情報を予測用スコアデータとして記憶する予測用スコアデータ記憶部と、各配座のRMSD(Root Mean Squared Deviation;根平均二乗変位)と複数のスコア値とに基づき教師付き学習を行う学習手段と、学習手段によって学習された予測モデルを記憶する予測モデル記憶部と、予測用スコアデータに対して予測モデルを適用し、予測スコア値を計算する予測スコア計算手段と、を有する。
本発明では、計算機により生成された配座のRMSDと複数のスコア関数とからの大量の学習データに基づいて教師付き学習を行うことにより、スコア関数の性能を改善する。この配座のRMSDは、従来技術においては、スコア関数の性能の改善には用いられていなかったものである。本発明では、このように教師付き学習を行うことによって、化合物の配座のスコア関数についての未知のデータに対する予測性能を大幅に向上することができる。したがって本発明では、学習機械の汎化能力を利用して高精度の予測が可能になる。また、コンセンサススコアリングに用いるスコア関数の組み合わせを場当たり的に決定せずに、全てのスコア関数を系統的に用いることで、高い予測精度の仮想スクリーニングが実現できる。これにより、実験的にタンパク質・化合物間の結合能の測定あるいは結合様式の決定に要する費用、労力、時間を大幅に削減することができる。
次に、本発明の好ましい実施の形態について、図面を参照して説明する。
図1は、本発明の第1の実施形態の仮想スクリーニング装置の構成を示すブロック図である。図1に示す仮想スクリーニング装置は、大別すると、キーボードなどの入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置などの出力装置4から構成されている。
データ処理装置2は、タンパク質立体構造と分子構造とに基づいて多様な配座情報を生成する配座サンプリング部21と、配座ごとに種々のスコア関数によるスコアを計算するスコア計算部22と、実験的に決定された配座と配座サンプリング部21で生成された配座との間のRMSD(Root Mean Squared Deviation;根平均二乗変位)と各スコア関数の組から教師付き学習を行う学習部23と、予測用分子構造から得られた配座に対して、学習部23において学習されたモデルを利用した予測スコアを計算する予測スコア計算部24と、を含んでいる。
記憶装置3は、タンパク質・リガンド複合体の立体構造情報を格納する訓練用構造データ記憶部31と、予測用の分子構造を記憶する予測用分子構造データ記憶部32と、配座サンプリング部21によってタンパク質立体構造と分子構造から生成された配座情報を格納する配座データ記憶部33と、タンパク質と複合体を形成するリガンド分子の配座データから算出されたスコアとそれに対応するRMSDとを格納する訓練用スコアデータ記憶部34と、予測用分子の配座データから算出されたスコアを格納する予測用スコアデータ記憶部35と、訓練用スコアデータとRMSDとの教師付き学習により得られる予測モデルを格納するする予測モデル記憶部36と、を含んでいる。
次に、この仮想スクリーニング装置の動作を説明する。図2はこの仮想スクリーニング装置の動作を示すフローチャートであり、図3は、図2に示す処理で用いられるランダムフォレストの処理手順を示すフローチャートである。
入力装置1によって実行指示が与えられ、データ処理装置2が起動すると、まず、ステップA1において、訓練用構造データ記憶部31及び予測用分子構造データ記憶部32から、タンパク質・リガンド複合体の立体構造情報および予測用の分子構造がデータ処理装置2に入力される。するとステップA2において、配座サンプリング部21は、分子の多様な立体配座を生成し、これらの立体配座に関する配座情報が配座データ記憶部33に記憶される。ここで、タンパク質と複合体を形成する分子に関し、複合体を形成した時の構造と計算された構造との間でRMSDが算出され、対応する配座情報とともに、配座データ記憶部33に記憶される。配座のサンプリング方法としては、スコア関数を指標にして、所与の初期構造から遺伝的アルゴリズムやモンテカルロ法などの探索アルゴリズムなどを用いることが可能である。
次にスコア計算部22が、ステップA3において、配座データ記憶部33から分子の配座情報を受け取り、所与の複数のスコア関数により各配座のスコアを計算する。各配座から算出されたスコアは、タンパク質と複合体を形成する分子の場合には訓練用スコアデータ記憶部34に記憶され、予測用分子の場合には予測用スコアデータ記憶部35に記憶される。ここで、用いられるスコア関数としては、力場ベースのスコア関数であるAutoDock,D−Score,G−Scoreのほか、経験的スコア関数であるLigScore,PLP,PMF,LUDI,F−Score,ChemScore,X−Scoreなど、知識ベースのスコア関数であるDrugScoreなどを用いることが可能である。
次に学習部23が、ステップA4において、訓練用スコアデータ記憶部34から各配座のRMSDと複数のスコア値とを受け取って、教師付き学習を実行する。教師付き学習の手法としては、サポートベクターマシン(SVM)や、アンサンブル学習であるブースティング、バギングなどがあり、いずれの手法を用いても良い。ブースティングについては非特許文献2に記載され、バギングについては非特許文献3に記載されている。また、ブースティング、バギングを発展させたものとして、ランダムフォレスト、反復バギング、確率勾配ブースティング法などがあり、それぞれ、非特許文献4、非特許文献5、非特許文献6に記載されている。
また、ランダムフォレスト、反復バギング、確率勾配ブースティング法に基づいて、反復バギング法におけるバギングをランダムフォレストにより構成する学習機械を反復ランダムフォレスト法と呼び、確率勾配ブースティング法の勾配を反復ランダムフォレスト法に適用した学習機械を反復勾配ランダムフォレスト法と呼ぶ。反復ランダムフォレスト法や反復勾配ランダムフォレスト法によれば、上記のランダムフォレスト、反復バギング法、確率勾配ブースティング法を上回る予測性能を得ることができる。
ステップA4では、上述のランダムフォレストあるいは反復ランダムフォレストによる教師付き学習を行い、学習した予測モデルを予測モデル記憶部36に記憶する。スコアには、分子構造から直接計算できる記述子を含めることが可能である。
図3を参照して、具体的なランダムフォレストの学習方法について説明する。
まず、ステップB1において、訓練用スコアデータ記憶部34から、N個のRMSDと複数のスコア関数などとの組の集合Dが学習部23に入力される。
D={(x1,y1),…,(xN,yN)} (1)
ここで、xは複数のスコア関数の集合、yはRMSDである。ステップB2において分岐候補数mとブートストラップ回数Bとを設定し、ステップB3において、データセットのラウンド数bをb=1で初期化する。次に、ステップB4において、データ集合Dから重複を許してN回無作為にリサンプリングを行う。この操作をB回行い、ブートストラップサンプルをB個生成する。
その後、ステップB5において、各ブートストラップサンプルについて、学習部23は、回帰木を用いて学習する。このとき学習過程の各ノードにおいて、m個のスコア関数を無作為に選択し、その中で平均二乗誤差が最小となるような変数により、分岐させる。ステップB6においてラウンド数bに1を加算し、ステップB7において、ラウンド数bがブートストラップ回数Bに達したかどうかを判断し、達していればランダムフォレストによる処理を終了し、そうでなければ、次のラウンドの学習を行うために、ステップB5に戻る。
また、本実施形態では、上述したように、ランダムフォレスト以外の教師付き学習を用いることにより、予測精度をさらに向上させることが可能である。以下、図4を用いて、ランダムフォレストの代わりに用いることができる反復勾配ランダムフォレスト法での学習方法を説明する。
反復勾配ランダムフォレスト法での学習では、まず、ステップC1において、訓練用スコアデータ記憶部34から、N個のRMSDと複数のスコア関数などとの組の集合Dが学習部23に入力される。そして、ステップC2において縮小パラメータνと分岐候補数mとブートストラップ回数Bと反復回数Iを設定し、ステップC3において、何回目の反復かを示す変数iをi=1で初期化する。次に、ステップC4において、データ集合Dから重複を許してN回無作為にリサンプリングを行う。この操作をB回行い、ブートストラップサンプルをB個生成する。ステップC5において、データセットのラウンド数bをb=1で初期化し、ステップC6において、上述のステップB5と同様に回帰木による学習を行い、ステップC7においてラウンド数bに1を加算し、ステップC8において、ラウンド数bがブートストラップ回数Bに達したかどうかを判断し、達していれば次の反復のためにステップC9に進み、そうでなければ、次のラウンドの学習を行うために、ステップC6に戻る。
ステップC9では、i回目の反復でのランダムフォレストの学習が終了した後、変数iに1を加算し、ステップC10において、真のRMSDとRMSDの予測値との差が次のラウンドでのRMSDとなるようにRMSDを更新し、再びランダムフォレストにより学習を行う。次に、ステップC11において、各ラウンドで学習したモデルに、縮小パラメータνを乗じて、次ラウンドのモデルに加える。ステップC12では、変数iが反復回数Iに達したかどうかを判断し、達していれば、すなわち上述の動作がI回反復されていれば、処理を終了し、そうでなければ次の反復のためにステップC4に戻る。
反復ランダムフォレスト法は、反復勾配ランダムフォレスト法において、縮小パラメータνが1である場合に相当する。反復勾配ランダムフォレスト法は、反復計算により、ランダムフォレストによる学習が不十分なデータに対して重点的に学習を行う方法であり、予測精度の向上が可能になる。このような反復ランダムフォレスト法、反復勾配ランダムフォレスト法は、本発明の対象であるタンパク質・化合物の結合様式の予測以外にも、例えば、化合物の記述子による生物活性予測やタンパク質を構成するアミノ酸配列の特徴量によるタンパク質分類にも用いることができる。
あるRMSDをしきい値とするような分類を行う場合、RMSDの更新は、以下のように更新する。
Figure 2008081435
ここで、Ynはサンプルnの真の値、Fi-1(xn)はラウンドi−1での予測値である。
また、あるRMSDをしきい値とするような分類モデルの学習を行う場合、しきい値以下のRMSDになる計算構造は、しきい値以上のRMSDよりも極端に少数であることが多い。そのため、通常の設定でランダムフォレストの行うと予測精度が低下する。そのため、しきい値以下のRMSDのデータに重み付けを行うことが望ましい。また、図5に示すように、しきい値以下のRMSDの計算構造の数ごとに正例・負例のリサンプリングを行う方法を行うと、上述の問題の回避と計算時間の短縮も実現できる。図5は、クラスラベルのデータ数が偏っている場合に分類モデルを学習するランダムフォレストの処理手順を示すフローチャートである。以下、図5に示す手順について説明する。
まず、ステップD1において、N個のRMSDと複数のスコア関数などとの組の集合Dを入力し、ステップD2において、RMSDしきい値と分岐候補数mとブートストラップ回数Bとを設定し、ステップD3において、RMSDしきい値に基づいてRMSDを離散化させ、ステップD4において、データセットのラウンド数bをb=1で初期化する。次に、ステップD5において、正例・負例のうち、少数である方のラベルのサンプル数に揃えて正例・負例のリサンプリングを行い、B呼のデータセット(サンプル)を生成する。
次に、ステップD6において、各データセットについて、学習部23は、決定木を用いて学習する。このとき学習過程の各ノードにおいて、m個のスコア関数を無作為に選択し、その中で平均二乗誤差が最小となるような変数により、分岐させる。ステップD7においてラウンド数bに1を加算し、ステップD8において、ラウンド数bがブートストラップ回数Bに達したかどうかを判断し、達していれば処理を終了し、そうでなければ、次のラウンドの学習を行うために、ステップD6に戻る。
このように図5に示した処理は、教師付き学習方法が分類モデルの場合に、少数クラスのデータ数と同数あるいは同じオーダーのデータを多数クラスからリサンプリングする処理である。教師付き学習方法が分類モデルである場合には、図5に示したような処理を行う代わりに、少数クラスに重み付き学習を行うようにしてもよい。
以上、ステップA4における教師付き学習の具体的な処理手順を説明した。図1に戻り、ステップA4が終了すると、ステップA5において、予測スコア計算部24は、予測モデル記憶部36と予測用スコアデータ記憶部35から予測モデルと予測用分子の複数のスコアを受け取り、予測モデルに基づいて予測を行う。予測結果は出力装置4から出力される。
第1の実施形態の仮想スクリーニング装置では、従来の複数のスコア関数を用いたコンセンサススコアリングの限界となっている、いずれかのスコア関数で良好なスコアが得られない場合であっても、学習機械の汎化能力(未知データに対する予測性能)によって、高い精度の予測を行うことができる。
図6は、本発明の第2の実施形態の仮想スクリーニング装置の構成を示している。第2の実施形態の仮想スクリーニング装置は、教師付き学習に基づく予測モデルを予め利用できる場合に適合したものである。教師付き学習による予測モデルが予め与えられているので、図1に示した第1の実施形態の仮想スクリーニング装置と比べ、学習部23、訓練用構造データ記憶部及び訓練用スコアデータ記憶部34を備えていない点で異なっている。
図7は、この第2の実施形態の仮想スクリーニング装置の動作を示すフローチャートである。
教師付き学習によって得られた予測モデルは、予め、予測モデル記憶部36内に記憶されている。まず、ステップE1において、予測用分子構造データ記憶部32から予測用の分子構造がデータ処理装置2に入力され、第1の実施形態でのステップA2と同様に、ステップE2において、配座サンプリング部21は、分子の多様な立体配座を生成し、これらの立体配座に関する配座情報は配座データ記憶部33に記憶される。次にスコア計算部22は、ステップE3において、配座データ記憶部33から分子の配座情報を受け取り、所与の複数のスコア関数により各配座のスコアを計算する。算出されたスコアは、予測用スコアデータ記憶部35に記憶される。ここで、用いられるスコア関数としては、第1の実施形態のおけるものと同様のものを用いることができる。その後、ステップE4において、予測スコア計算部24は、予測モデル記憶部36と予測用スコアデータ記憶部35から予測モデルと予測用分子の複数のスコアを受け取り、予測モデルに基づいて予測を行う。予測結果は出力装置4から出力される。
以上説明した各実施形態の仮想スクリーニング装置において、データ処理装置は、パーソナルコンピュータやスーパーコンピュータなどのコンピュータに、上述した仮想スクリーニングの処理を実行させるためのプログラムを読み込ませてそのプログラムを実行させるようにすることによっても構成される。そのようなプログラムは、CD−ROMや磁気テープなどの記憶媒体によって、あるいはネットワークを介してコンピュータに読み込まれる。本発明の範疇には、そのようなプログラムも含まれるものである。
次に、実施例により本発明をさらに詳しく説明する。ここでは、上述したの第1の実施形態に対応する実施例を説明する。本実施例において、仮想スクリーニング装置は、入力装置1としてキーボードを、データ処理装置2としてパーソナルコンピュータを、記憶装置3として磁気ディスク記憶装置を、出力装置4としてディスプレイを、それぞれ備えているものとする。
パーソナルコンピュータは、配座サンプリング部とスコア計算部と学習部と予測スコア計算部として気泡する中央処理装置(CPU)を有しており、磁気ディスク記憶装置は、訓練用構造データ記憶部と予測用分子構造データ記憶部と配座データ記憶部と訓練用スコアデータ記憶部と予測用スコアデータ記憶部と予測モデル記憶部として機能する。
本実施例では、非特許文献1で用いられている100種類のタンパク質・リガンド複合体についての実験結合構造(X線結晶構造)と、計算機により各リガンドについて生成した100個の計算構造とを用いて、最安定構造であると予測された構造と実験結合構造間のRMSDについて予測を行うことで、本発明の方法の性能評価を行った。実験結合構造としては、Protein Data Bank (http://www.rcsb.org/pdb/)に登録されている構造を使用した。各リガンドの100個の計算構造としては、非特許文献1において用いられているドッキングシミュレーションソフトウェアAUTODOCKにより生成された配座データを用いた。使用したスコア関数としても、非特許文献1と同一のAutoDock,D−Score,G−Score,LigScore,PLP,PMF,LUDI,F−Score,ChemScore,X−Score,DrugScoreの11種類を用いた。
教師付き学習の方法として、ランダムフォレストを用い、RMSDに関する回帰モデルと、1ÅをRMSDのしきい値とした分類モデルと、2ÅをRMSDのしきい値とした分類モデルとについて、予測モデルの学習を行った。性能評価は、交差確認法と同等の結果が得られるOut-Of-Bagを使用して未知データに対する予測精度の評価を行うことによって行い、非特許文献1の結果と比較した。交差確認法とOut-Of-Bagが同等の結果が得られることは、非特許文献4に示されている。
RMSDを1.0Åから3.0Åまでの範囲で0.5Åごとに区切った正解率について、本発明の方法と従来の方法とでの予測性能の比較結果を表1に示す。本発明の方法をSCS(Supervised Consensus Scoring)と略記し、最も高い予測性能が得られた結果について、下線を付して示した。表1から、本発明が従来法と比較すると、高い予測性能を有することが分かる。なお、表1において、二重スコアリングとは、2個のスコア関数を用いることを意味し、三重スコアリングとは、2個のスコア関数を用いることを意味する。
Figure 2008081435
本発明は、例えば、薬剤候補化合物探索をコンピュータで実現する方法、装置及びプログラムといった用途に適用でき、創薬のコストの削減、効率化を実現することを可能にする。
本発明の第1の実施形態の仮想スクリーニング装置の構成を示すブロック図である。 図1に示す仮想スクリーニング装置の動作を示すフローチャートである。 ランダムフォレストの処理手順を示すフローチャートである。 反復ランダムフォレストの処理手順を示すフローチャートである。 クラスラベルのデータ数が偏っている場合に分類モデルを学習するランダムフォレストの処理手順を示すフローチャートである。 本発明の第2の実施形態の仮想スクリーニング装置の構成を示すブロック図である。 図6に示す仮想スクリーニング装置の動作を示すフローチャートである。
符号の説明
1 入力装置
2 データ処理装置
3 記憶装置
4 出力装置
21 配座サンプリング部
22 スコア計算部
23 学習部
24 予測スコア計算部
31 訓練用構造データ記憶部
32 予測用分子構造データ記憶部
33 配座データ記憶部
34 訓練用スコアデータ記憶部
35 予測用スコアデータ記憶部
36 予測モデル記憶部

Claims (13)

  1. タンパク質と結合する化合物を探索する仮想スクリーニング方法において、
    複数のエネルギー関数を用いて、計算機により生成された化合物の配座のエネルギーを計算する段階と、
    得られたエネルギー値とタンパク質・化合物間の結合指標とについて教師付き学習を行う段階と、
    前記教師付き学習の結果に基づいて化合物の配座を予測する段階と、
    を有することを特徴とする化合物の仮想スクリーニング方法。
  2. 前記化合物の配座のエネルギーを、分子力場あるいは経験的なモデルに基づくエネルギー関数を用いて計算する請求項1に記載の仮想スクリーニング方法。
  3. 前記結合指標は、実験的に決定された化合物の結合配座と計算機によって生成された化合物の配座との間のRMSD(Root Mean Squared Deviation;根平均二乗変位)である、請求項1または2に記載の仮想スクリーニング方法。
  4. 前記教師付き学習を行う段階において、RMSD値に対する回帰モデルあるいは一定のしきい値によりRMSDを離散化した分類モデルを学習する、請求項1乃至3のいずれか1項に記載の仮想スクリーニング方法。
  5. 前記教師付き学習は、アンサンブル学習であるブースティングあるいはバギングを用いる学習である、請求項1乃至4のいずれか1項に記載の仮想スクリーニング方法。
  6. 前記教師付き学習は、ランダムフォレストによる学習である、請求項1乃至5のいずれか1項に記載の仮想スクリーニング方法。
  7. 前記教師付き学習を行う段階において、反復バギング法のバギングをランダムフォレストにより構成する、請求項1乃至6のいずれか1項に記載の仮想スクリーニング方法。
  8. 前記教師付き学習を行う段階において、確率勾配ブースティング法の勾配が反復ランダムフォレスト法に適用される、請求項1乃至7のいずれか1項に記載の仮想スクリーニング方法。
  9. 教師付き学習方法が分類モデルの場合に、少数クラスのデータ数と同数あるいは同じオーダーのデータを多数クラスからリサンプリングする、請求項1乃至4のいずれか1項に記載の仮想スクリーニング方法。
  10. 教師付き学習方法が分類モデルの場合に、少数クラスに重み付き学習を行う、請求項1乃至4のいずれか1項に記載の仮想スクリーニング方法。
  11. タンパク質・化合物複合体の立体構造に基づき、タンパク質と結合する化合物を探索するために用いられる仮想スクリーニング装置において、
    タンパク質・リガンド複合体の立体構造情報を記憶する訓練用構造データ記憶部と、
    予測用の分子構造を記憶する予測用分子構造データ記憶部と、
    分子の立体配座を生成する配座サンプリング手段と、
    前記配座サンプリング手段によって生成された配座の配座情報を記憶する配座データ記憶部と、
    タンパク質立体構造と配座に基づいて複数のスコア関数を計算するスコア計算手段と、
    タンパク質と複合体を形成する分子の配座情報を記憶する訓練用スコアデータ記憶部と、
    予測用の分子の配座情報を予測用スコアデータとして記憶する予測用スコアデータ記憶部と、
    各配座のRMSD(Root Mean Squared Deviation;根平均二乗変位)と複数のスコア値とに基づき教師付き学習を行う学習手段と、
    前記学習手段によって学習された予測モデルを記憶する予測モデル記憶部と、
    予測用スコアデータに対して前記予測モデルを適用し、予測スコア値を計算する予測スコア計算手段と、
    を有することを特徴とする仮想スクリーニング装置。
  12. タンパク質・化合物複合体の立体構造に基づき、タンパク質と結合する化合物を探索するために用いられる仮想スクリーニング装置において、
    予測用の分子構造を記憶する予測用分子構造データ記憶部と、
    分子の立体配座を生成する配座サンプリング手段と、
    前記配座サンプリング手段によって生成された配座の配座情報を記憶する配座データ記憶部と、
    タンパク質立体構造と配座に基づいて複数のスコア関数を計算するスコア計算手段と、
    予測用の分子の配座情報を予測用スコアデータとして記憶する予測用スコアデータ記憶部と、
    教師付き学習によって得られた予測モデルを記憶する予測モデル記憶部と、
    前記予測用スコアデータに対して前記予測モデルを適用し、予測スコア値を計算する予測スコア計算手段と、
    を有することを特徴とする仮想スクリーニング装置。
  13. タンパク質と結合する化合物を探索する仮想スクリーニングを実行するコンピュータに、
    化合物の配座を生成する処理と、
    複数のエネルギー関数を用いて、前記生成された化合物の配座のエネルギーを計算する処理と、
    得られたエネルギー値とタンパク質・化合物間の結合指標とについて教師付き学習を行う処理と、
    前記教師付き学習の結果に基づいて化合物の配座を予測する処理と、
    を実行させるプログラム。
JP2006262595A 2006-09-27 2006-09-27 化合物の仮想スクリーニング方法および装置 Expired - Fee Related JP5211458B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006262595A JP5211458B2 (ja) 2006-09-27 2006-09-27 化合物の仮想スクリーニング方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006262595A JP5211458B2 (ja) 2006-09-27 2006-09-27 化合物の仮想スクリーニング方法および装置

Publications (2)

Publication Number Publication Date
JP2008081435A true JP2008081435A (ja) 2008-04-10
JP5211458B2 JP5211458B2 (ja) 2013-06-12

Family

ID=39352639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006262595A Expired - Fee Related JP5211458B2 (ja) 2006-09-27 2006-09-27 化合物の仮想スクリーニング方法および装置

Country Status (1)

Country Link
JP (1) JP5211458B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014034577A1 (ja) 2012-08-27 2014-03-06 株式会社京都コンステラ・テクノロジーズ 化合物設計装置、化合物設計方法、及びコンピュータプログラム
CN111402967A (zh) * 2020-03-12 2020-07-10 中南大学 一种基于机器学习算法提升对接软件虚拟筛选能力的方法
CN112086145A (zh) * 2020-09-02 2020-12-15 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质
WO2021044857A1 (ja) 2019-09-05 2021-03-11 株式会社日立製作所 材料特性予測システムおよび情報処理方法
JP2021190110A (ja) * 2020-05-26 2021-12-13 中国海洋大学 rmsdマルチ特徴に基づく薬物分子動力学結果の分析方法
CN114708931A (zh) * 2022-04-22 2022-07-05 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法
WO2023108465A1 (zh) * 2021-12-15 2023-06-22 深圳晶泰科技有限公司 虚拟筛选方法、装置及电子设备
WO2023131206A1 (zh) * 2022-01-04 2023-07-13 上海智峪生物科技有限公司 复合物的结合强度评估方法、装置及计算机设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014034577A1 (ja) 2012-08-27 2014-03-06 株式会社京都コンステラ・テクノロジーズ 化合物設計装置、化合物設計方法、及びコンピュータプログラム
WO2021044857A1 (ja) 2019-09-05 2021-03-11 株式会社日立製作所 材料特性予測システムおよび情報処理方法
CN111402967A (zh) * 2020-03-12 2020-07-10 中南大学 一种基于机器学习算法提升对接软件虚拟筛选能力的方法
CN111402967B (zh) * 2020-03-12 2023-04-07 中南大学 一种基于机器学习算法提升对接软件虚拟筛选能力的方法
JP2021190110A (ja) * 2020-05-26 2021-12-13 中国海洋大学 rmsdマルチ特徴に基づく薬物分子動力学結果の分析方法
CN112086145A (zh) * 2020-09-02 2020-12-15 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质
CN112086145B (zh) * 2020-09-02 2024-04-16 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质
WO2023108465A1 (zh) * 2021-12-15 2023-06-22 深圳晶泰科技有限公司 虚拟筛选方法、装置及电子设备
WO2023131206A1 (zh) * 2022-01-04 2023-07-13 上海智峪生物科技有限公司 复合物的结合强度评估方法、装置及计算机设备
CN114708931A (zh) * 2022-04-22 2022-07-05 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法
CN114708931B (zh) * 2022-04-22 2023-01-24 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法

Also Published As

Publication number Publication date
JP5211458B2 (ja) 2013-06-12

Similar Documents

Publication Publication Date Title
Gao et al. Incorporation of solvent effect into multi-objective evolutionary algorithm for improved protein structure prediction
JP5211458B2 (ja) 化合物の仮想スクリーニング方法および装置
Zimmerman et al. Choice of adaptive sampling strategy impacts state discovery, transition probabilities, and the apparent mechanism of conformational changes
Nakajima et al. Multicanonical ensemble generated by molecular dynamics simulation for enhanced conformational sampling of peptides
Kirillova et al. An NMA‐guided path planning approach for computing large‐amplitude conformational changes in proteins
Agnihotry et al. Protein structure prediction
Brylinski et al. e FindSite: Improved prediction of ligand binding sites in protein models using meta-threading, machine learning and auxiliary ligands
US20050278124A1 (en) Methods for molecular property modeling using virtual data
Thomas et al. Integrating structure-based approaches in generative molecular design
Dodd et al. Simulation-based methods for model building and refinement in cryoelectron microscopy
JP2009007302A (ja) 仮想スクリーニング方法及び装置
Zaborowski et al. A maximum-likelihood approach to force-field calibration
Tropsha et al. Integrating QSAR modelling and deep learning in drug discovery: the emergence of deep QSAR
Ismi et al. Deep learning for protein secondary structure prediction: Pre and post-AlphaFold
Stringer et al. PIPENN: protein interface prediction from sequence with an ensemble of neural nets
Binkowski et al. Virtual high-throughput ligand screening
Zhao et al. Discriminative learning for protein conformation sampling
US11621054B2 (en) Method and apparatus for preprocessing of binding free energy calculation, and binding free energy calculation method
Antal et al. Predicting the initial steps of salt-stable cowpea chlorotic mottle virus capsid assembly with atomistic force fields
Özçelik et al. Structure-based drug discovery with deep learning
Ward et al. Benchmarking deep graph generative models for optimizing new drug molecules for covid-19
JP5262709B2 (ja) 分子構造予測システム、方法及びプログラム
Talluri Algorithms for protein design
WO2003038672A1 (fr) Technique d'analyse, systeme d'analyse et programme d'analyse
Han et al. Distribution of Bound Conformations in Conformational Ensembles for X-ray Ligands Predicted by the ANI-2X Machine Learning Potential

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130211

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees