JP5211486B2 - 化合物の仮想スクリーニング方法及び装置 - Google Patents

化合物の仮想スクリーニング方法及び装置 Download PDF

Info

Publication number
JP5211486B2
JP5211486B2 JP2007010581A JP2007010581A JP5211486B2 JP 5211486 B2 JP5211486 B2 JP 5211486B2 JP 2007010581 A JP2007010581 A JP 2007010581A JP 2007010581 A JP2007010581 A JP 2007010581A JP 5211486 B2 JP5211486 B2 JP 5211486B2
Authority
JP
Japan
Prior art keywords
compound
conformation
energy
binding
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007010581A
Other languages
English (en)
Other versions
JP2008174503A (ja
Inventor
礼仁 寺本
広晃 福西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007010581A priority Critical patent/JP5211486B2/ja
Publication of JP2008174503A publication Critical patent/JP2008174503A/ja
Application granted granted Critical
Publication of JP5211486B2 publication Critical patent/JP5211486B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、化合物の仮想スクリーニング方法及び装置に関し、特に、コンピュータにより生成された化合物の配座に対して、スコアリング関数を構成する各エネルギー値を評価し、蛋白質・化合物間の結合配座や結合能を予測する方法に好適に適用される技術に関するものである。
近年、薬物候補分子を実験的に探索するのに要する莫大な費用と労力を削減するため、コンピュータシミュレーションを利用した、蛋白質立体構造に基づく化合物の仮想スクリーニングが活発に行われている。当該仮想スクリーニングでは、エネルギー関数をもって化合物の最安定配座を評価することにより、蛋白質・化合物間の結合配座や結合能を予測する。そして、分子の最安定配座を予測する方法としては、分子軌道法、分子力場法、分子動力学法、ドッキングシミュレーション等、計算の近似レベルによって様々なものがある。これらの方法は、エネルギー最小となる配座の探索を行い、最安定配座によって結合配座や結合能を予測する。
また、現実に存在する化合物は数百万以上の膨大な数に上るため、スクリーニング速度を重視したドッキングシミュレーションが用いられることが多い。ドッキングシミュレーションは、コンピュータにより化合物の配座を多数発生させ、各配座をスコアリング関数により評価することで、最も良いスコア値を持つ配座を探索する。しかし、高速化を優先するため、スコアリング関数に用いるモデルの粗視化レベルが高く、各スコア関数の予測性能は、結合能を予測する蛋白質や化合物の性質に大きく依存することとなり、汎用性が高いとはとてもいえない。主なスコアリング関数の性能については、非特許文献1に記載されている。
Renxiao Wang, Yipin Lu, Shaomeng Wang, Comparative evaluation of 11 scoring functions for molecular docking, Journal of Medicinal Chemistry 2003 vol.46 no.12 2287−2303
しかしながら、非特許文献1に記載にされているスコアリング関数には、以下に示すような問題点がある。第1に、スコアリング関数は結合状態のみから関数のパラメータを決定しており、非結合状態を考慮していない。第2に、従来のスコアリング関数による結合配座の再現性の正解率は、26%〜76%であり、予測性能は高いとは言い難い。
そこで、本発明は、上述した問題点に鑑み、非結合構造に関するエネルギー項を用いて教師付き学習を行うことで、スコアリングに関する最適な予測モデルを構築し、従来よりも高い精度で蛋白質・化合物間の結合配座や結合能を予測できる仮想スクリーニング方法及び装置を提供することを目的とする。
かかる目的を達成するために、本発明に係る第1の仮想スクリーニング方法は、標的蛋白質と結合する化合物の結合能及び結合配座を予測する化合物の仮想スクリーニング方法において、エネルギー計算手段が、化合物の結合能を評価するスコアリング関数を構成するエネルギー項を用いて、コンピュータにより生成された化合物の配座に対するエネルギー値を計算し、学習手段が、該計算で得られたエネルギー値と、標的蛋白質及び化合物の間における、実験的に決定された化合物の結合配座とコンピュータにより生成された化合物の計算配座との間のRMSD(Root Mean Squared Deviation:根平均二乗変位)とについて教師付き学習を行って予測モデルを求め、予測スコア計算手段が、該予測モデルを化合物に適用することにより、化合物の結合能及び結合配座を予測することを特徴とする。
本発明では、スコアリング関数を構成するエネルギー項を用いて、コンピュータで生成された化合物の配座に対する各種エネルギー値を計算し、該計算で得られた各種エネルギー値と結合指標とを用いて教師付き学習を行い、該学習で求めた予測モデルにより化合物の結合能及び結合配座を予測する。まず、スコアリング関数は、例えば分子力場モデル又は経験的モデルに基づくといった、非結合状態に基づき関数のパラメータが決定されるである。また、学習データとなる各種エネルギー値を求めるために、スコアリング関数を構成するエネルギー項のみを算出するものとしている。そして、結合指標は、例えば実験的に決定された結合配座とコンピュータで生成された計算配座との間のRMSD(Root Mean Squared Deviation:根平均二乗変位)で、このRMSDと、スコアリング関数を構成する水素結合や疎水性相互作用等を用いて算出したエネルギー値とから構成される学習データについて教師付き学習を行い、スコアリングの最適な予測モデルを構築するものである。
本発明では、従来用いられなかった、非結合状態を考慮したスコアリング関数のエネルギー項から算出した各種エネルギー値とRMSDとを学習データとして用いて教師付き学習を行うことで、化合物の結合配座や結合能に対する予測精度を大幅に向上させることができる。また、スコアリング関数を構成するエネルギー項のみを計算すればよいため、複数のスコアリング関数を計算して結合能を予測する場合よりも計算時間を短縮できる。これらにより、実験的に蛋白質・化合物間の結合能の測定あるいは結合配座の決定に要する費用、労力、時間を大幅に削減することが可能となる。
また、本発明に係る第1の仮想スクリーニング装置は、標的蛋白質と結合する化合物の結合能及び結合配座を予測する化合物の仮想スクリーニング装置で、化合物の結合能を評価するスコアリング関数を構成するエネルギー項を用いて、コンピュータにより生成された化合物の配座に対するエネルギー値を計算するエネルギー計算手段と、該計算で得られたエネルギー値と、標的蛋白質及び化合物の間における、実験的に決定された前記化合物の結合配座とコンピュータにより生成された前記化合物の計算配座との間のRMSD(Root Mean Squared Deviation:根平均二乗変位)とについて教師付き学習を行うことにより予測モデルを生成し、前記生成された予測モデルを前記化合物に適用することにより、前記化合物の結合能及び結合配座を予測する予測スコア計算手段とを備えることを特徴とする化合物の仮想スクリーニング装置であってもよい。

本発明によれば、非結合構造に関するエネルギー項を用いて教師付き学習を行うことで、スコアリングに関する最適な予測モデルを構築し、従来よりも高い精度で蛋白質・化合物間の結合配座や結合能を予測できる仮想スクリーニング方法及び装置が実現される。
本発明は、蛋白質立体構造に基づく低分子化合物のドッキングシミュレーションにおいて、コンピュータにより生成された化合物の配座のスコアリング関数を構成する各エネルギー値と、RMSD等の結合指標とを用いて教師付き学習を行うことにより、結合配座や結合能の予測精度を向上させる新規な方法である。以下に本発明を実施するための形態について、図面を参照して説明する。
図1は、本実施形態における化合物の仮想スクリーニング装置の概略構成を示した図である。仮想スクリーニング装置は、キーボード等の入力装置1と、プログラム制御により動作するデータ処理装置2と、各種データを記憶する記憶装置3と、ディスプレイ装置や印刷装置等の出力装置4とから構成される。
データ処理装置2は、配座サンプリング手段21、エネルギー計算手段22、学習手段23、及び予測スコア計算手段24を含む。配座サンプリング手段21は、蛋白質・化合物の複合体の立体構造と予測用の分子構造とに基づいて多様な配座を生成する。エネルギー計算手段22は、生成された各配座のエネルギー値の計算を行う。学習手段23は、X線結晶構造解析等で得られた実験配座とコンピュータにより生成された計算配座との間のRMSDと、スコアリング関数を構成する水素結合や疎水性相互作用等のエネルギー値とからなる学習データを用いて教師付き学習を行う。予測スコア計算手段24は、予測用分子構造から得られた配座に対して、教師付き学習で得られた予測モデルを利用して、予測スコアを計算する。
記憶装置3は、訓練用構造データ記憶部31、予測用構造データ記憶部32、配座データ記憶部33、訓練用エネルギーデータ記憶部、予測用エネルギーデータ記憶部35、及び予測モデル記憶部36を含む。訓練用構造データ記憶部31は、蛋白質・リガンド複合体の立体構造情報を格納する。予測用分子構造データ記憶部32は、予測用の分子構造情報を保持する。配座データ記憶部33は、蛋白質・リガンド複合体の立体構造と予測用分子構造から生成された配座情報を格納する。訓練用エネルギーデータ記憶部34は、蛋白質との複合体を形成する化合物(訓練用構造データ)の配座から算出されたエネルギー値及びRMSDを格納する。予測用エネルギーデータ記憶部35は、予測用分子(予測用構造データ)の配座から算出されたエネルギー値を格納する。予測モデル記憶部36は、訓練用エネルギーデータ(訓練用構造データから得られたエネルギー値とRMSD)を用いた教師付き学習により得られた予測モデルを格納する。
次に、図1から3を参照して、本実施形態における動作について説明する。
まず、図2のフローに沿って動作の概略を説明する。図2は、本実施形態における処理動作の流れを示したフローチャートである。本実施形態における処理動作は、構造データの入力、配座のサンプリング、配座に対するエネルギー値の算出、予測モデルの学習、予測スコアの算出の順に行われる。
はじめに蛋白質・リガンドの複合体の立体構造(訓練用構造データ)及び予測用分子構造(予測用構造データ)の入力を行う(ステップS101)。次に、入力された構造情報に基づいて分子の配座を多数サンプリングする(ステップS102)。続いて、スコアリング関数を構成する各エネルギー関数を用いて、サンプリングで生成された配座の各種エネルギー値を算出する(ステップS103)。そして、算出されたエネルギー値と、結合構造(実験配座)・計算構造(計算配座)間のRMSDとを用いて、教室付き学習による予測モデルの学習を行う(ステップS104)。そして、学習で得られた予測モデルを予測用化合物に対して適用し、予測スコアの算出を行う。
次に、図1を参照して本実施形態における処理動作をより詳細に説明する。図1は、仮想スクリーニング装置の概略構成を示すとともに、処理及び各種データの流れを表している。
はじめに入力装置1によって実行指示が与えられると、訓練用構造データ記憶部31から蛋白質・リガンド複合体の立体構造情報が、また、予測用分子構造データ記憶部32から予測用分子構造情報が、配座サンプリング手段21に入力される。そして、配座サンプリング手段21では、複合体の立体構造情報と予測用の分子構造情報とに基づいて分子の多様な配座が生成され、生成された配座は配座データ記憶部33に格納される。
なお、配座のサンプリング方法としては、スコアリング関数の最適解を探索する遺伝的アルゴリズムやモンテカルロ法があり、その他の最適解探索方法を用いことが可能である。
エネルギー計算手段22では、配座データ記憶部33から分子の配座情報を入力し、所与のスコアリング関数を構成するエネルギー関数により、各配座の様々なエネルギー値を計算する。
なお、ここで用いられるエネルギー関数は、スコアリング関数を構成するエネルギー項を用いることが可能である。スコアリング関数としては、分子力場ベースのスコアリング関数の場合、AutoDock,D−Score,G−Score等があり、経験的スコアリング関数の場合、LigScore,PLP,PMF,LUDI,F−Score,ChemScore,X−Score等を用いることができる。また、スコアリング関数を構成する各エネルギー項は、一般的なドッキングソフトウェアにより計算することができる。例えば、ドッキングソフトウェアFlexXのスコアリング関数F−Scoreを構成するエネルギー項の計算方法は、非特許文献1に記載されている。
エネルギー計算手段22で算出されたエネルギー値は、蛋白質との複合体を形成するリガンド分子のエネルギー値については、訓練用エネルギーデータ記憶部34に記憶され、予測用分子のエネルギー値については、予測用エネルギーデータ記憶部35に記憶される。
学習手段23では、訓練用エネルギーデータ記憶部34から各配座のエネルギー値及びRMSDを入力し、教師付き学習を行う。
教師付き学習の方法としては、サポートベクターマシンやアンサンブル学習であるブースティングやバギングがあり、いずれを用いてもよい。ブースティング、バギングについては、それぞれ、非特許文献2、3に記載されている。また、バギングを発展させたものとして、ランダムフォレスト、反復バギング、確率勾配ブースティング等があり、それぞれ、非特許文献4〜6に記載されている。
[非特許文献2] Yoav Freund, Robert E. Schapire, A decision−theoretic generalization of on−line learning and an application to boosting, Journal of Computer and System Sciences 1997 vol.55 119−139
[非特許文献3] Leo Breiman, Bagging Predictors, Machine Learning 1996 vol.24 123−140
[非特許文献4] Leo Breiman, Random Forests, Machine Learning 2001 vol.45 5−32
[非特許文献5] Leo Breiman, Using Iterated Bagging to Debias Regressions, Machine Learning 2001 vol.45 261−277
[非特許文献6] Jerome H. Friedman, Stochastic gradient boosting, Computational Statistics and Data Analysis 2002 vol.38 367−378
ここでは、上記のランダムフォレストあるいは反復ランダムフォレストによる教師付き学習を行い、学習した予測モデルを予測モデル記憶部36に記憶する。なお、エネルギー値は、分子構造から直接計算できる記述子を含めることが可能である。
予測スコア計算手段24では、予測用エネルギーデータ記憶部35及び予測モデル記憶部36から、予測用分子の複数のスコア(エネルギー値)と予測モデルとを入力し、予測スコアの計算を行う。予測結果は、出力装置4から出力される。
続いて、図3を参照して、具体的なランダムフォレストの学習方法について説明する。図3は、本実施形態における予測モデルの学習の流れを示したフローチャートである。
まず、訓練用エネルギーデータ記憶部34から、スコアリング関数を構成するエネルギー値及びRMSDの組をN個含む集合Dが入力される(ステップS201)。集合Dは、下記式により表される。ここで、xは複数のスコア関数の集合、yはRMSDである。
D={(x1,y1),…,(xN,yN)}
次に、分岐候補数m、ブートストラップ回数Bを設定し(ステップS202)、データセットを学習するラウンド数bをb=1として初期化する(ステップS203)。そして、データ集合Dから、重複を許してN回無作為にリサンプリングを行う。このリサンプリング操作をB回行い、B個のデータセット(ブートストラップサンプル)を生成する(ステップS204)。
続いて、各ブートストラップサンプルについて、回帰木を用いて学習する。すなわち、学習過程の各ノードにおいて、m個のスコア関数を無作為に選択し、その中で平均二乗誤差が最小となるような変数により分岐させる(ステップS205)。そして、ラウンド数bに1を加算し(ステップS206)、bがBに達するまで次のラウンドの学習を行う(ステップS207/NO、ステップS205)。
また、本実施形態では、上述したようにRMSDに対する回帰モデルを学習するほか、あるRMSDを閾値とするような問題設定をすることで分類モデルの学習を行うことも可能である。この場合、単純に予測されたクラスラベルの結果ではなく、ラベルに対する確信度が最大となる配座を結合配座に対する予測結果とすることができる。
先に述べてきたように、本実施形態では、スコアリング関数を構成するエネルギー項のみを計算すればよいため、複数のスコアリング関数を計算して結合能を予測する場合よりも計算時間を短縮できる。
次に、本実施形態について、具体的な実施例により詳細に説明する。かかる実施例は、上述した実施形態に対応するものである。本実施例は、入力装置としてキーボードを、処理装置としてパーソナルコンピュータを、記憶装置として磁気ディスク記憶装置を、出力装置としてディスプレイを具備している。
パーソナルコンピュータは、配座サンプリング手段、スコア計算手段、学習手段、及び予測スコア計算手段を有している。また、磁気ディスク記憶装置は、訓練用構造データ記憶部、予測用構造データ記憶部、配座データ記憶部、訓練用エネルギーデータ記憶部、予測用エネルギーデータ記憶部、及び予測モデル記憶部を有する。
本実施例では、非特許文献1で用いられた98種類の蛋白質・リガンドの複合体の実験結合構造(X線結晶構造)と、コンピュータにより各リガンドについて生成した100個の計算構造を用いて、最安定構造であると予測された構造と実験結合構造間のRMSDについて、予測を行うことで性能評価を行った。
実験結合構造は、Protein Data Bank(http://www.rcsb.org/pdb/)に登録されている構造である。また、各リガンドの100個の計算構造は、非特許文献1において用いられたドッキングシミュレーションソフトウェアAutoDockにより、生成された配座データを用いた。そして、エネルギー関数としては、次の式で表されるFlexXのスコアリング関数の各エネルギー項を用いた。
ΔG=ΔGmatchΣFmatch+ΔGlipoΣFlipo+ΔGambigΣFambig+ΔGclashΣFclash+ΔGrotΣFrot+ΔG0
ここで、Fiはリガンドの一に依存する関数、ΔGiはエネルギー項の係数、Σは相互作用に関わる全ての原子対の和を表す。matchは水素結合、金属コンタクト、芳香族間の相互作用からなるエネルギー項である。また、lipoは疎水性相互作用、ambigは極性原子と非極性原子の相互作用を表すエネルギー項、clashは原子の衝突に対するペナルティ項、rotは化合物が蛋白質と結合することによって失うエントロピー項を表す。nrotは化合物の回転可能単結合数である。本実施形態で用いたエネルギー項は、ΔGmatch,ΔGlipo,ΔGambig,ΔGclashであり、これらを説明属性として用いた。
教師付き学習の方法として、ランダムフォレストを用い、RMSDに関する回帰モデルとRMSD1Åを閾値とした分類モデル、RMSDが2Åを閾値とした分類モデルについて予測モデルの学習を行った。性能評価の方法として、交差確認法と同等の結果が得られるOut−Of−Bagによる未知データに対する予測精度の評価を行い、FlexXのスコアリング関数の結果と比較した。交差確認法とOut−Of−Bagが同等の結果が得られることは、上記の非特許文献4に示されている。
RMSDを1.0Å〜3.0Åまで、1Åごとに区切った正解率を予測性能の比較結果の表を図4に示す。本発明による方法をOSF(Optimized Scoring Function)と略記し、最も高い予測性能が得られた結果について太文字で示した。OSF1はRMSD1Åを閾値とした分類モデル、OSF2はRMSD2Åを閾値とした分類モデル、OSF3はRMSDに対する回帰モデルである。図4から、FlexXの結果と本発明の結果とを比較すると、本発明による方法は高い予測性能を有することが分かる。
なお、上述する実施形態は、本発明の好適な実施形態であり、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
すなわち、上記した実施形態の仮想スクリーニング装置は、プログラムの命令によりデータ処理装置内のCPU等で実行される処理等によって動作する。当該プログラムは、データ処理装置の各構成要素に指令を送り、先に述べたような所定の処理、例えば、データ処理装置のCPUにより、記憶装置内の各記憶部が保持する諸データを用いて、エネルギー値の計算や教師付き学習を行わせる。このように、上記実施形態の仮想スクリーニング装置における各処理は、プログラム(ソフトウェア)とコンピュータ(ハードウェア)とが協働した具体的手段によって実現されるものである。
そして、上記実施形態の機能を実現するソフトウェアのプログラムコードを記録したコンピュータ読み取り可能な記録媒体、すなわち記憶メディアを介して、仮想スクリーニング装置のCPUが記憶メディアに格納されたプログラムコードを読み出し実行することによっても、本発明の目的は達成される。また、プログラムは、記録メディアを介さず、通信回線を通じて直接に仮想スクリーニング装置のCPUにロードし実行することもでき、これによっても同様に本発明の目的は達成される。
この場合、記憶メディアから読み出された又は通信回線を通じてロードし実行されたプログラムコード自体が前述の実施形態の処理機能を実現することになる。そして、そのプログラムコードを記憶した記憶メディアは本発明を構成する。なお、プログラムコードを供給するための記憶メディアとしては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、不揮発性のメモリカード、ROM、磁気テープ等を用いることができる。
本発明の実施形態に係る化合物の仮想スクリーニング装置の概略構成図である。 本発明の実施形態における予測動作の処理手順を示すフローチャートである。 本発明の実施形態におけるランダムフォレストの処理手順を示すフローチャートである。 本発明の実施形態での予測性能と従来技術での予測性能の比較結果を示した図である。
符号の説明
1 入力装置
2 データ処理装置
3 記憶装置
4 出力装置
21 配座サンプリング手段
22 エネルギー計算手段
23 学習手段
24 予測スコア計算手段
31 訓練用構造データ記憶部
32 予測用構造データ記憶部
33 配座データ記憶部
34 訓練用エネルギーデータ記憶部
35 予測用エネルギーデータ記憶部
36 予測モデル記憶部

Claims (8)

  1. 標的蛋白質と結合する化合物の結合能及び結合配座を予測する化合物の仮想スクリーニング方法において、
    エネルギー計算手段が、前記化合物の結合能を評価するスコアリング関数を構成するエネルギー項を用いて、コンピュータにより生成された前記化合物の配座に対するエネルギー値を計算し、
    学習手段が、該計算で得られたエネルギー値と、前記標的蛋白質及び前記化合物の間における、実験的に決定された前記化合物の結合配座とコンピュータにより生成された前記化合物の計算配座との間のRMSD(Root Mean Squared Deviation:根平均二乗変位)とについて教師付き学習を行って予測モデルを求め、
    予測スコア計算手段が、該予測モデルを前記化合物に適用することにより、前記化合物の結合能及び結合配座を予測する
    ことを特徴とする化合物の仮想スクリーニング方法。
  2. 配座サンプリング手段は、前記標的蛋白質と化合物との、実験的に決定された実験結合構造と、前記化合物のコンピュータにより生成された計算構造とに基づいて、前記化合物の配座データを生成し、
    前記エネルギー計算手段は、前記エネルギー項と前記生成された配座データとを用いて、前記化合物の配座に対するエネルギー値を計算する請求項1に記載の化合物の仮想スクリーニング方法。
  3. 前記学習手段は、前記RMSDに対する回帰モデルを予測モデルとして生成する請求項1または請求項2記載の化合物の仮想スクリーニング方法。
  4. 前記学習手段は、前記RMSDを閾値とする分類モデルを予測モデルとして生成する請求項1または請求項2記載の化合物の仮想スクリーニング方法。
  5. 標的蛋白質と結合する化合物の結合能及び結合配座を予測する化合物の仮想スクリーニング装置において、
    前記化合物の結合能を評価するスコアリング関数を構成するエネルギー項を用いて、コンピュータにより生成された前記化合物の配座に対するエネルギー値を計算するエネルギー計算手段と、
    該計算で得られたエネルギー値と、前記標的蛋白質及び前記化合物の間における、実験的に決定された前記化合物の結合配座とコンピュータにより生成された前記化合物の計算配座との間のRMSD(Root Mean Squared Deviation:根平均二乗変位)とについて教師付き学習を行うことにより予測モデルを生成する学習手段と、
    前記生成された予測モデルを前記化合物に適用することにより、前記化合物の結合能及び結合配座を予測する予測スコア計算手段と
    を備える化合物の仮想スクリーニング装置。
  6. 前記標的蛋白質と化合物との、実験的に決定された実験結合構造と、前記化合物のコンピュータにより生成された計算構造とに基づいて、前記化合物の配座データを生成する配座サンプリング手段をさらに備え、
    前記エネルギー計算手段は、前記エネルギー項と前記生成された配座データとを用いて、前記化合物の配座に対するエネルギー値を計算する請求項5に記載の化合物の仮想スクリーニング装置。
  7. 前記学習手段は、前記RMSDに対する回帰モデルを予測モデルとして生成する請求項5または請求項6記載の化合物の仮想スクリーニング装置。
  8. 前記学習手段は、前記RMSDを閾値とする分類モデルを予測モデルとして生成する請求項5または請求項6記載の化合物の仮想スクリーニング装置。
JP2007010581A 2007-01-19 2007-01-19 化合物の仮想スクリーニング方法及び装置 Expired - Fee Related JP5211486B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007010581A JP5211486B2 (ja) 2007-01-19 2007-01-19 化合物の仮想スクリーニング方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007010581A JP5211486B2 (ja) 2007-01-19 2007-01-19 化合物の仮想スクリーニング方法及び装置

Publications (2)

Publication Number Publication Date
JP2008174503A JP2008174503A (ja) 2008-07-31
JP5211486B2 true JP5211486B2 (ja) 2013-06-12

Family

ID=39701793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007010581A Expired - Fee Related JP5211486B2 (ja) 2007-01-19 2007-01-19 化合物の仮想スクリーニング方法及び装置

Country Status (1)

Country Link
JP (1) JP5211486B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5243888B2 (ja) * 2008-08-18 2013-07-24 日本放送協会 データ分類装置及びデータ分類プログラム
CA2976947C (en) * 2015-02-18 2023-02-28 Siemens Healthcare Diagnostics Inc. Locality-based detection of tray slot types and tube types in a vision system
CN111613275B (zh) * 2020-05-26 2021-03-16 中国海洋大学 一种基于rmsd多特征的药物分子动力学结果分析方法
CN114708931B (zh) * 2022-04-22 2023-01-24 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法

Also Published As

Publication number Publication date
JP2008174503A (ja) 2008-07-31

Similar Documents

Publication Publication Date Title
Sacha et al. Molecule edit graph attention network: modeling chemical reactions as sequences of graph edits
Lee et al. Ab initio protein structure prediction
Grechishnikova Transformer neural network for protein-specific de novo drug generation as a machine translation problem
Zimmerman et al. Choice of adaptive sampling strategy impacts state discovery, transition probabilities, and the apparent mechanism of conformational changes
Li et al. istar: A web platform for large-scale protein-ligand docking
Nakajima et al. Multicanonical ensemble generated by molecular dynamics simulation for enhanced conformational sampling of peptides
Shukla et al. Molecular dynamics simulation in drug discovery: opportunities and challenges
Kirillova et al. An NMA‐guided path planning approach for computing large‐amplitude conformational changes in proteins
Shamsi et al. Enhanced unbiased sampling of protein dynamics using evolutionary coupling information
Oferkin et al. Evaluation of Docking Target Functions by the Comprehensive Investigation of Protein‐Ligand Energy Minima
JP5211458B2 (ja) 化合物の仮想スクリーニング方法および装置
Zhang et al. Identification of DNA–protein binding sites by bootstrap multiple convolutional neural networks on sequence information
JP7317815B2 (ja) 代替コアを有する化合物の活性セットを予測する方法、およびそれを伴う創薬方法
JP5211486B2 (ja) 化合物の仮想スクリーニング方法及び装置
Ismi et al. Deep learning for protein secondary structure prediction: Pre and post-AlphaFold
CN114446383B (zh) 一种基于量子计算的配体-蛋白相互作用的预测方法
Zhao et al. Discriminative learning for protein conformation sampling
Jaume-Santero et al. Transformer performance for chemical reactions: Analysis of different predictive and evaluation scenarios
Tian et al. LAST: Latent Space-Assisted Adaptive Sampling for Protein Trajectories
Kalayan et al. Thermodynamic origin of differential excipient-lysozyme interactions
Martin et al. High-Throughput Structure-Based Drug Design (HT-SBDD) Using Drug Docking, Fragment Molecular Orbital Calculations, and Molecular Dynamic Techniques
Childers et al. Molecular dynamics methods for antibody design
Gao et al. Co-supervised Pre-training of Pocket and Ligand
Ajagekar et al. Molecular design with automated quantum computing-based deep learning and optimization
JP5262709B2 (ja) 分子構造予測システム、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091214

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130211

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees