JP2009007302A - 仮想スクリーニング方法及び装置 - Google Patents
仮想スクリーニング方法及び装置 Download PDFInfo
- Publication number
- JP2009007302A JP2009007302A JP2007170540A JP2007170540A JP2009007302A JP 2009007302 A JP2009007302 A JP 2009007302A JP 2007170540 A JP2007170540 A JP 2007170540A JP 2007170540 A JP2007170540 A JP 2007170540A JP 2009007302 A JP2009007302 A JP 2009007302A
- Authority
- JP
- Japan
- Prior art keywords
- compound
- conformation
- binding
- protein
- compounds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
Landscapes
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medicinal Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
【課題】タンパク質と結合する化合物を探索する仮想スクリーニング方法において、結合予測に適したスコアリング関数を選択し、予測精度を高める。
【解決手段】タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用い、計算機により生成された化合物の配座に対するスコア値を計算し、スコア値とタンパク質・化合物間の結合指標とに基づいて、複数のスコアリング関数に対する選択を行い、選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う。
【選択図】 図2
【解決手段】タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用い、計算機により生成された化合物の配座に対するスコア値を計算し、スコア値とタンパク質・化合物間の結合指標とに基づいて、複数のスコアリング関数に対する選択を行い、選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う。
【選択図】 図2
Description
本発明は、タンパク質立体構造に基づく化合物の仮想スクリーニング方法及び装置に関する。
近年、薬物候補分子を実験的に探索するのに要する膨大な費用と労力を削減するため、各種の計算機シミュレーション手法が実行されるようになってきた。薬物候補分子の端宅とは、標的疾患(ターゲットとする疾患)に関与するタンパク質に対して強く相互作用する化合物(リガンド)を薬物候補として探索することである。そこで、計算機によるタンパク質立体構造に基づく化合物の仮想スクリーニングが活発に行われている。
仮想スクリーニングでは、化合物の最安定配座、特にタンパク質と相互作用した状態での最安定配座をエネルギー関数によって評価することにより、結合配座や結合能を予測する。分子の最安定配座を予測する方法として、分子軌道法(MO法)、分子力場法(MM法)、分子動力学法(MD法)、ドッキングシミュレーションなど、計算の近似レベルによって、様々なものがある。これらの方法は、エネルギー最小となる配座の探索を行い、探索された最安定配座によって、タンパク質と化合物(リガンド)との結合配座や結合能を予測する。
現実に存在する化合物(あるいは存在しうる化合物)は数百万以上の膨大な数に上るため、仮想スクリーニングにおいては、分子の最安定配座を予測する際に、スクリーニング速度を重視したドッキングシミュレーションが用いられることが多い。ドッキングシミュレーションは、化合物の配座を計算機により多数発生させ、各配座をスコアリング関数により評価することで、最も良いスコア値を持つ配座を探索する手法である。スコアリング関数は、タンパク質・化合物間の結合自由エネルギーを評価し、その評価結果をスコア値の形で示す関数である。しかしながらドッキングシミュレーションでは、高速化を優先するため、スコアリング関数に用いるモデルの粗視化レベルが高く、各スコアリング関数の予測性能は、結合能を予測するタンパク質や化合物の性質に大きく依存する。したがってドッキングシミュレーションは、使用するスコアリング関数まで考慮すると、必ずしも汎用性が高いとは言いがたい。
そのため、複数のスコアリング関数を用いるコンセンサススコアリングが提案されている。コンセンサススコアリングでは、スコアリング関数によるスコア値の平均や順位和により、タンパク質・化合物間の結合確度の降順に順位付けを行い、性能を向上させている。コンセンサススコアリング及び主なスコアリング関数の性能については、例えば、非特許文献1、2に記載されている。
なお本発明の関連技術として、次のようなものがある。特許文献1には、仮想スクリーニングにおける一般的技術として、配座解析、高速ドッキングスタディ、結合自由エネルギーの算出、化合物と標的タンパク質との結合モデルの作成などが開示されている。特許文献2は、コンピュータネットワークの運用技術に関するものであるが、重回帰分析を用いて、他の稼動情報の中からある特定の情報(例えば、サービス応答時間)に関連の高い稼動情報を選定する技術を開示している。特許文献3は、Gタンパク質(グアニンヌクレオチド結合タンパク質)に特異的に結合する化合物であるGタンパク質共役型受容体を探索するために、サポートベクトルマシンを用いてGタンパク質共役型受容体判別モデルを生成することを開示している。サポートベクトルマシン自体については、例えば、非特許文献3に開示されている。特許文献4は、タンパク質などの受容体とこの受容体に結合するリガンドとからなる受容体−リガンド安定複合体構造を探索するために、そのような安定複合体となる可能性がある配置を見出し、これらの配置のリストをスコア順に並び替えることを開示している。
WO2003/038672
特開2002−432182号公報
特開2006−003970号公報
特開2006−113878号公報
Douglas B. Kitchen, Helene Decornez, John R. Furr and Jurgen Bajorath, "Docking and scoring in virtual screening for drug discovery: methods and applications," Nature Review Drug Discovery, 2004, 935-949.
Wang R, Lu Y, Wang S., "Comparative evaluation of 11 scoring functions for molecular docking," J. Med. Chem., 2003, Jun 5; 46(12): 2287-303.
Hattis Drucker, Chris J.C. Burges, Linda Kaufman, Alex Smola and Vladimir Vapnik, "Support vector regression machines," Advances in Neural Information Processing Systems, 1996.
非特許文献1、2に記載にされているコンセンサススコアリングでは、第1に、コンセンサススコアリングに用いるスコアリング関数の組み合わせによっては、高い性能が得られない、第2に、既知活性化合物(タンパク質に対して強く相互作用することが知られているリガンド)の情報が少数しか利用できない場合には、ドッキングプログラムや標的タンパク質に適したスコアリング関数の選択を行うことが困難である、といった課題が残されている。
本発明は、上述した問題点に鑑み、結合予測に適したスコアリング関数を選択し、予測精度の高い仮想スクリーニングを実現する方法及び装置を提供することを目的とする。
本発明の仮想スクリーニング方法は、タンパク質と結合する化合物を探索する仮想スクリーニング方法であって、タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用い、計算機により生成された化合物の配座に対するスコア値を計算することと、スコア値とタンパク質・化合物間の結合指標とに基づいて、複数のスコアリング関数の選択を行うことと、選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行うことと、を有する。
本発明の仮想スクリーニング装置は、タンパク質・化合物複合体の立体構造に基づいてタンパク質と結合する化合物を探索する仮想スクリーニング装置において、
化合物の複数の配座であって、計算により生成された配座の配座情報を記憶する配座データ記憶部と、タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用いて、配座データ記憶部に記憶されている配座情報に対するスコア値を計算するスコア計算手段と、スコア値を記憶するスコアデータ記憶部と、スコアデータ記憶部に記憶されたスコア値とタンパク質・化合物間の結合指標とに基づいて、複数のスコアリング関数に対する属性選択を行う属性選択手段と、属性選択手段で選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う順位付け手段と、を有する。
化合物の複数の配座であって、計算により生成された配座の配座情報を記憶する配座データ記憶部と、タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用いて、配座データ記憶部に記憶されている配座情報に対するスコア値を計算するスコア計算手段と、スコア値を記憶するスコアデータ記憶部と、スコアデータ記憶部に記憶されたスコア値とタンパク質・化合物間の結合指標とに基づいて、複数のスコアリング関数に対する属性選択を行う属性選択手段と、属性選択手段で選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う順位付け手段と、を有する。
本発明によれば、タンパク質と複合体を形成するリガンドの計算配座を用いてスコアリング関数の属性選択を行うことで、所与のスコアリング関数から結合予測に適したスコアリング関数を選択することが可能になる。これにより、タンパク質・化合物間の結合能を実験によって測定しあるいは結合配座の実験によって決定するために要する費用、労力、時間を大幅に削減することができ、タンパク質と結合する化合物の探索・スクリーニングを効率よく行えるようになる。
図1は、実施の一形態の仮想スクリーニング装置の構成を示している。この仮想スクリーニング装置は、タンパク質と複合体を形成する化合物(リガンド)の配座を計算によって求め、所与の複数のスコアリング関数を用いた属性選択を行い、結合予測に適したスコアリング関数を選択することによって、タンパク質・化合物間の結合配座や結合能を予測するものである。具体的には、本実施形態では、タンパク質立体構造に基づく低分子化合物のドッキングシミュレーションを行う場合に、タンパク質・リガンド複合体立体構造情報を用いて、ドッキングプログラムにより計算機によって複数の化合物の配座を生成し、生成された配座に対して複数のスコアリング関数を用いてスコア値を算出し、スコア値と結合指標とを用いた教師あり学習に基づく属性選択を行って、結合化合物や結合配座・結合エネルギーの予測に最適なスコアリング関数を選択する。そして選択されたスコアリング関数を用いて複数の化合物のスクリーニングを実行する。結合指標としては、例えば、対象とするタンパク質・化合物間において実験的に決定された数値に基づくものを使用することができ、具体的には、解離定数などの結合強度によって表される結合能や、あるいは、実験的に決定された化合物の結合配座と計算機によって生成された化合物の配座との間のRMSD(Root Mean Squared Deviation;根平均二乗変位)などを用いることができる。以下では、結合指標としてRMSDを用いた場合を説明する。
図1に示す仮想スクリーニング装置は、例えば、キーボード等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置などの出力装置4から構成されている。
データ処理装置2は、タンパク質立体構造とリガンドの分子構造に基づいてドッキングプログラムによって多様な配座情報を生成する配座サンプリング部21と、配座ごとに複数のスコアリング関数を用いることにより各配座の各スコア値を計算するスコア計算部22と、実験的に決定された配座と配座サンプリング部21で生成された配座との間のRMSDを求め、このRMSDとスコア値との組から教師あり学習による属性選択によりスコアリング関数を選択する属性選択部23と、属性選択部23で選択されたスコアリング関数を用いて、結合確度の降順に化合物を順位付けする順位付け部24と、を含んでいる。ここで、実験的に決定された配座(実験配座)は、例えば、X線結晶構造解析などによって得られた配座データである。
記憶装置3は、タンパク質・リガンド複合体の立体構造情報を格納する訓練用構造データ記憶部31と、予測用の分子構造を記憶する予測用分子構造データ記憶部32と、配座サンプリング部21によってタンパク質立体構造と分子構造から生成された配座情報を格納する配座データ記憶部33と、スコアデータ記憶部34と、を含んでいる。ここでスコアデータ記憶部34には、タンパク質と複合体を形成する訓練用構造データの分子の配座について複数のスコアリング関数を用いて算出されたスコア値と、RMSDデータと、予測用分子の配座から算出されたスコア値とが格納される。
次に、この仮想スクリーニング装置の動作を説明する。図2はこの仮想スクリーニング装置の動作の一例を示すフローチャートである。
入力装置1によって実行指示が与えられ、データ処理装置2が起動すると、まず、ステップA1において、訓練用構造データ記憶部31及び予測用分子構造データ記憶部32から、タンパク質・リガンド複合体の立体構造情報及び予測用の分子構造がデータ処理装置2に入力される。その結果、ステップA2において、データ処理装置2の配座サンプリング部21は、分子の多様な配座を生成する。生成されたこれらの立体配座に関する配座情報は、配座データ記憶部33に記憶される。配座のサンプリング方法としては、スコアリング関数の最適解を探索する遺伝的アルゴリズムやモンテカルロ法があり、その他の最適解探索方法を用いことが可能である。
次にスコア計算部22が、ステップA3において、配座データ記憶部33から分子の配座情報を受け取り、所与の複数のスコアリング関数により、各配座のスコア値を計算する。スコア値は、一般的なドッキングソフトウェアにより計算することができ、スコアリング関数としては、分子力場ベースのスコアリング関数を用いる場合であれば、AutoDock,D−Score,G−Scoreなどを用いることができ、経験的スコアリング関数を用いる場合であれば、LigScore,PLP,PMF,LUDI,F−Score,ChemScore,X−Scoreなどを用いることができる。分子力場ベースのスコアリング関数と経験的スコアリング関数とを混在して使用することもできる。すなわち、本実施形態においては、化合物の配座を評価するスコアリング関数が、分子力場あるいは経験的なモデルに基づくスコアリング関数を用いることができる。これらのスコアリング関数のうち、F−Score、G−Score、D−Score、PMF、ChemScoreの計算方法は、非特許文献2に記載されている。このようにして各配座から算出されたスコア値は、スコアデータ記憶部34に記憶される。
次に、属性選択部23が、ステップA4において、スコアデータ記憶部34から各配座のRMSDとスコア値とを受け取って、教師あり学習を行い、スコアリング関数の寄与度からバーチャルスクリーニングに用いるスコアリング関数を選択する。教師あり学習の方法としては、サポートベクトルマシンや、アンサンブル学習であるブースティングやバギングなどを用いることができる。また、教師あり学習として回帰学習を用いる場合には、線形カーネルを用いたサポートベクトル回帰の学習により得られる説明変数の係数から、スコアリング関数の寄与の大きさと符号とを陽に求めることができる。サポートベクトル回帰については、非特許文献3に記載されている。
サポートベクトル回帰の中でも非特許文献3で示されているε−SVRと呼ばれるアルゴリズムでは、次の関数の推定を行う。
f(x)=w・x+b,(w,x∈RN,b∈R)
ここで、f(x)は目的関数、xは説明変数、wは重みベクトル、bは定数項である。訓練データの学習は、次の損失関数を最小化することで行う。
ここで、f(x)は目的関数、xは説明変数、wは重みベクトル、bは定数項である。訓練データの学習は、次の損失関数を最小化することで行う。
Rr emp[f]は次式で表される。
ここで、|y−f(x)|r=max[0,|y−f(x)|−ε]であり、事前に与えられるε>0より小さい誤差にペナルティを与えないことを表す。σ*は−ε方向の緩和関数となる。また、Cは正則化項の係数であり、訓練誤差とモデルの複雑さの均衡を決定する。損失関数の最小化は、
を条件として、次の凸2次計画問題を解くことで行われる。
ここで、添え字(*)は添え字*の有無に関わらないことを表す。この最適化問題を解くことで得られる回帰式は、次のように書ける。
この関数は線形関数であるので、陽に説明変数の係数の寄与を求めることができる。上記の定式化において、内積xi・xjをカーネル関数k(xi,xj)に置き換えることで、非線形化することができる。本実施形態では、陽にスコアリング関数の選択を行うため、非線形化を行わないが、多項式カーネルk(xi,xj)=(xi・xj+a)dなどを用いて、スコアリング関数の組み合わせを考慮することも可能である。ここで、aは定数、dは多項式の次数を決定するパラメータである。
属性選択部23における属性選択は、重みベクトルwの要素の符号及び大きさを利用することで実現できる。例えば、重みベクトルwの要素の中で値が正であるものの中から、降順にスコアリング関数の選択を決定することができる。属性選択の方法としては、スコアリング関数の寄与が算出可能であれば、重回帰分析などの他の学習方法を用いることができる。また、目的関数をしきい値などにより離散化することで、サポートベクトルマシンや線形判別分析などの分類学習の手法も用いることができる。
以上、属性選択部23における処理を説明したが、上述のステップA4を実行する段階で、スコアデータ記憶部34にRMSDが格納されていない場合があるが、そのような場合には、属性選択部23は、実験的に決定された配座と配座サンプリング部21で生成された配座との間のRMSDを計算し、計算されたRMSDを用いて上述した属性選択を行うとともに、計算されたRMSDをスコアデータ記憶部34に格納する。
次に、順位付け部24は、ステップA5において、属性選択部23において選択されたスコアリング関数を用いて、複数の化合物(予測用分子)についてコンセンサススコアリングなどを行って、各化合物と標的タンパク質との結合確度を算出し、結合確度の降順で化合物の順位付けを行う。コンセンサススコアリングについては、非特許文献1、2に記載されている。この際、選択されたスコアリング関数が1つの場合は、選択されたスコアリング関数でのスコア値をそのまま用いて、化合物を順位付けすることができる。その後、化合物の順位付けの結果が、仮想スクリーニング結果として、順位付け部24から出力装置4に出力される。ここでの化合物の順位付けでは、結合確度が高いすなわち標的タンパク質と相互作用しやすいと考えられる化合物に対して、より優先度の高い順位が与えられているので、そのような化合物について優先的に検討を加えることにより、標的タンパク質に対して特異的に作用する化合物を探索を効率的に行うことができるようになる。
以上説明した実施形態では、属性選択部23において、RMSDに対する回帰モデルを用いて属性選択を行っているが、属性選択の方法はこれに限られるものではない。別の実施形態においては、例えば、所与のRMSDをしきい値に設定して分類モデルによる教師あり学習あるいは教師なし学習を利用することもできる。
次に、実施例を用いて本発明をさらに詳しく説明する。ここでは上述した実施形態に対応する実施例を説明する。本実施例において、仮想スクリーニング装置は、入力装置1としてキーボードを、データ処理装置2としてパーソナルコンピュータを、記憶装置3として磁気ディスク記憶装置を、出力装置4としてディスプレイを、それぞれ備えている。
パーソナルコンピュータは、配座サンプリング部とスコア計算部と属性選択部と順位付け部として機能する中央処理装置(CPU)を有しており、磁気ディスク記憶装置は、訓練用構造データ記憶部と予測用分子構造データ記憶部と配座データ記憶部とスコアデータ記憶部として機能する。
本実施例では、仮想スクリーニングのベンチマークデータベースDUDを用いて、標的タンパク質としてアセチルコリン・エステラーゼ(acetylcholine esterase:AChE)とペルオキシゾーム増殖剤活性化受容体γ(peroxisome proliferator-activated receptor gamma:PPAR)とに対して性能評価を行った。データベースDUDは、インターネット上において、URL:http://blaster.docking.org/dud/において公開されている。
計算配座を発生させるドッキングプログラムとしてFlexSISを使用し、スコアリング関数として、F−Score,D−Score,G−Score,PMF,ChemScoreを用いた。教師あり学習の方法として、線形カーネルのサポートベクトル回帰を用い、RMSDに関する回帰学習を行い、係数が正かつ降順に3つまでのスコアリング関数を選択した。化合物の順位付け方法として、コンセンサススコアリング方法の1つのRCS(rank-by-rank-based consensus scoring;順位ごとベースのコンセンサススコアリング)を用いた。RCSは次式で計算する。
ここでRiは、化合物におけるi番目のスコアリング関数で最も高いスコアとなった配座のスクリーニング対象の化合物中の順位である。また、Nはスコアリング関数の個数である。選択されたスコアリング関数が1〜3個の場合はそれぞれ、RCS(単一),RCS(二重),RCS(三重)とした。対照手法として、全てのスコアリング関数を用いたRCS(全部)を用いた。
まず、AChE,PPARにおいて、タンパク質・リガンド複合体の立体構造(PDBコード:1eve,1fm9)を用いて、リガンドの配座サンプリングをFlexSISにより行った。ここでPDBコードとは、インターネット上でアクセス可能であるタンパク質に関するデータベースであるProtein Data Bank(URL:http://www.rcsb.org/pdb/)における、立体構造を特定するためのコード番号である。
上述の実施形態に記載されているように、サンプリングされた配座のRMSDに対してスコアリング関数を用いて、サポートベクトル回帰による学習を行うことにより、AChE,PPARのそれぞれについて、以下の回帰式を得た。
AChEについて:
(正規化)RMSD=0.2317×(正規化)D-Score+0.0704×(正規化)PMF+0.068×(正規化)G-Score+0.1501×(正規化)ChemScore−0.3416×(正規化)F-Score+0.2647
PPARについて:
(正規化)RMSD=1.0087×(正規化)D-Score+0.2282×(正規化)PMF−0.4421×(正規化)G-Score+0.5588×(正規化)ChemScore−0.2796×(正規化)F-Score−0.0463
ここで、「(正規化)」は、RMSD値や各スコア値が正規化されたものであることを意味し、したがって、全変数は正規化されている。また、10分割交差確認法によるサポートベクトル回帰の性能は以下の通りであった。
(正規化)RMSD=0.2317×(正規化)D-Score+0.0704×(正規化)PMF+0.068×(正規化)G-Score+0.1501×(正規化)ChemScore−0.3416×(正規化)F-Score+0.2647
PPARについて:
(正規化)RMSD=1.0087×(正規化)D-Score+0.2282×(正規化)PMF−0.4421×(正規化)G-Score+0.5588×(正規化)ChemScore−0.2796×(正規化)F-Score−0.0463
ここで、「(正規化)」は、RMSD値や各スコア値が正規化されたものであることを意味し、したがって、全変数は正規化されている。また、10分割交差確認法によるサポートベクトル回帰の性能は以下の通りであった。
AChE: 相関係数:0.71、根平均二乗誤差:1.79
PPAR: 相関係数:0.96、根平均二乗誤差:1.32
性能評価の指標として、エンリッチメントスコアEFを用いた。EFの定義式を以下に記す。
PPAR: 相関係数:0.96、根平均二乗誤差:1.32
性能評価の指標として、エンリッチメントスコアEFを用いた。EFの定義式を以下に記す。
ここで、Hitssampled x%は上位x%までに発見された既知活性化合物数であり、Nsampled x%は上位x%までのスクリーニングされたリガンド数、Hitstotalは既知活性化合物数であり、Ntotalはスクリーニング対象の全ての化合物数である。Xを1,2,5,10,20に設定して、性能比較を行った。EFの値が大きいほど、既知活性化合物が早期に得られることを意味し、タンパク質に結合するリガンドを探索するという立場からは、予測性能が高い、ということを意味する。AChE,PPARのそれぞれについてのエンリッチメントスコアを表1、表2に示す。表1、表2において、また、AChE,PPARのそれぞれについての既知活性化合物の順位付けのグラフを図3、図4に示した。
図3では、縦軸に、見つかった既知活性化合物の割合を示し、横軸に、データベース中での順位付けされたものの割合を示している。図においてランダムは、データベースの中から無作為に既知活性化合物を取り出す場合を示している。図に示されるようにAChEに対する場合、RCS(単一)、RCS(二重)、RCS(三重)としたときに、対照手法であるランダムやRCS(全部)のときと比べ、データベース中の既知活性化合物が比較的早期に数多く見つかっている。また図4では、縦軸に、見つかった既知活性化合物の割合を示し、横軸に、データベース中でのスクリーニングされたものの割合を示している。このときも、RCS(単一)、RCS(二重)、RCS(三重)としたときに、対照手法であるランダムのときと比べ、データベース中の既知活性化合物が比較的早期に数多く見つかっている。表1、表2、図3及び図4に示すように、本実施例によれば、タンパク質と相互作用するリガンド(化合物)についての高い予測性能が得られる。
1 入力装置
2 データ処理装置
3 記憶装置
4 出力装置
21 配置サンプリング部
22 スコア計算部
23 属性選択部
24 順位付け部
31 訓練用構造データ記憶部
32 予測用構造データ記憶部
33 配座データ記憶部
34 スコアデータ記憶部
2 データ処理装置
3 記憶装置
4 出力装置
21 配置サンプリング部
22 スコア計算部
23 属性選択部
24 順位付け部
31 訓練用構造データ記憶部
32 予測用構造データ記憶部
33 配座データ記憶部
34 スコアデータ記憶部
Claims (12)
- タンパク質と結合する化合物を探索する仮想スクリーニング方法であって、
タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用い、計算機により生成された化合物の配座に対するスコア値を計算し、
前記スコア値とタンパク質・化合物間の結合指標とに基づいて、前記複数のスコアリング関数に対する選択を行い、
選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う、
仮想スクリーニング方法。 - 前記結合指標に対する回帰モデルあるいは所与の結合指標値をしきい値に設定した分類モデルに対する、教師あり学習あるいは教師なし学習を利用して、前記複数のスコアリング関数に対する選択を行う、請求項1に記載の仮想スクリーニング方法。
- 前記複数のスコアリング関数に対する選択において、前記教師あり学習であるサポートベクトル回帰あるいは重回帰分析を用いる、請求項2に記載の仮想スクリーニング方法。
- 複数のスコアリング関数を選択し、当該複数のスコアリング関数を用いるコンセンサススコアリングによって、前記化合物の順位付けを行う、請求項1乃至3のいずれか1項に記載の仮想スクリーニング方法。
- 前記スコアリング関数が、分子力場あるいは経験的なモデルに基づく関数である、請求項1乃至4のいずれか1項に記載の仮想スクリーニング方法。
- 前記結合指標は、実験によって決定された数値に基づくものである、請求項1乃至5のいずれか1項に記載の仮想スクリーニング方法。
- 前記結合指標は、実験的に決定された前記化合物の結合配座と前記計算機により生成された化合物の配座との間の根平均二乗変位である、請求項6に記載の仮想スクリーニング方法。
- 前記結合指標は、タンパク質・化合物間の解離定数である、請求項6に記載の仮想スクリーニング方法。
- タンパク質・化合物複合体の立体構造に基づいてタンパク質と結合する化合物を探索する仮想スクリーニング装置において、
化合物の複数の配座であって、計算により生成された配座の配座情報を記憶する配座データ記憶部と、
タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用いて、前記配座データ記憶部に記憶されている前記配座情報に対するスコア値を計算するスコア計算手段と、
前記スコア値を記憶するスコアデータ記憶部と、
前記スコアデータ記憶部に記憶された前記スコア値とタンパク質・化合物間の結合指標とに基づいて、前記複数のスコアリング関数に対する属性選択を行う属性選択手段と、
前記属性選択手段で選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う順位付け手段と、
を有する仮想スクリーニング装置。 - タンパク質・化合物複合体の立体構造情報を記憶する訓練用データ記憶部と、
予測用の分子構造を記憶する予測用構造データ記憶部と、
前記訓練用データ記憶部に記憶された前記立体構造情報と前記予測用構造データ記憶部に記憶された分子構造とから、ドッキングプログラムにより、前記化合物の複数の配座を生成する配座サンプリング手段と、
をさらに備え、前記配座サンプリング手段で生成された配座の配座情報が前記配座データ記憶部に記憶される、請求項9に記載の仮想スクリーニング装置。 - タンパク質と結合する化合物を探索する仮想スクリーニングを実行するコンピュータに、
タンパク質・化合物間の結合自由エネルギーを評価する複数のスコアリング関数を用い、生成された化合物の配座に対するスコア値を計算する処理と、
前記スコア値とタンパク質・化合物間の結合指標とに基づいて、前記複数のスコアリング関数に対する選択を行う処理と、
選択されたスコアリング関数を用いてタンパク質・化合物間の結合確度を算出し、算出された結合確度の降順に化合物の順位付けを行う処理と、
を実行させる、プログラム。 - 複数の前記化合物の配座を生成する処理をさらに前記コンピュータに実行させる、請求項11に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007170540A JP2009007302A (ja) | 2007-06-28 | 2007-06-28 | 仮想スクリーニング方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007170540A JP2009007302A (ja) | 2007-06-28 | 2007-06-28 | 仮想スクリーニング方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009007302A true JP2009007302A (ja) | 2009-01-15 |
Family
ID=40322752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007170540A Pending JP2009007302A (ja) | 2007-06-28 | 2007-06-28 | 仮想スクリーニング方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009007302A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509502A (zh) * | 2011-11-28 | 2012-06-20 | 北京师范大学 | 一种凸透镜成像虚拟实验制作方法 |
WO2014034577A1 (ja) | 2012-08-27 | 2014-03-06 | 株式会社京都コンステラ・テクノロジーズ | 化合物設計装置、化合物設計方法、及びコンピュータプログラム |
JP2017520868A (ja) * | 2014-05-05 | 2017-07-27 | アトムワイズ,インコーポレイテッド | 結合親和性予測システム及び方法 |
CN110164511A (zh) * | 2019-05-08 | 2019-08-23 | 重庆科技学院 | 一种快速筛选PPARα/δ双重激动剂的方法 |
US10482355B2 (en) | 2014-05-05 | 2019-11-19 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
CN110503043A (zh) * | 2019-08-24 | 2019-11-26 | 东莞市强艺体育器材有限公司 | 基于深度相机采集人体运动数据的降噪回归方法及系统 |
US11017314B2 (en) | 2015-11-04 | 2021-05-25 | Samsung Electronics Co., Ltd. | Method and device for searching new material |
JP2021138720A (ja) * | 2015-09-17 | 2021-09-16 | ヒスタイド アクツィエンゲゼルシャフト | 腫瘍細胞を非腫瘍細胞に変換するための医薬的連合体及びその使用 |
CN115631785A (zh) * | 2022-11-09 | 2023-01-20 | 成都诺和晟泰生物科技有限公司 | 一种先导化合物筛选模型的构建方法及应用 |
WO2023108465A1 (zh) * | 2021-12-15 | 2023-06-22 | 深圳晶泰科技有限公司 | 虚拟筛选方法、装置及电子设备 |
-
2007
- 2007-06-28 JP JP2007170540A patent/JP2009007302A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509502A (zh) * | 2011-11-28 | 2012-06-20 | 北京师范大学 | 一种凸透镜成像虚拟实验制作方法 |
WO2014034577A1 (ja) | 2012-08-27 | 2014-03-06 | 株式会社京都コンステラ・テクノロジーズ | 化合物設計装置、化合物設計方法、及びコンピュータプログラム |
JP2017520868A (ja) * | 2014-05-05 | 2017-07-27 | アトムワイズ,インコーポレイテッド | 結合親和性予測システム及び方法 |
US10482355B2 (en) | 2014-05-05 | 2019-11-19 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
US11080570B2 (en) | 2014-05-05 | 2021-08-03 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
JP2021138720A (ja) * | 2015-09-17 | 2021-09-16 | ヒスタイド アクツィエンゲゼルシャフト | 腫瘍細胞を非腫瘍細胞に変換するための医薬的連合体及びその使用 |
JP7261499B2 (ja) | 2015-09-17 | 2023-04-20 | ヒスタイド アクツィエンゲゼルシャフト | 腫瘍細胞を非腫瘍細胞に変換するための医薬的連合体及びその使用 |
US11017314B2 (en) | 2015-11-04 | 2021-05-25 | Samsung Electronics Co., Ltd. | Method and device for searching new material |
CN110164511A (zh) * | 2019-05-08 | 2019-08-23 | 重庆科技学院 | 一种快速筛选PPARα/δ双重激动剂的方法 |
CN110503043A (zh) * | 2019-08-24 | 2019-11-26 | 东莞市强艺体育器材有限公司 | 基于深度相机采集人体运动数据的降噪回归方法及系统 |
WO2023108465A1 (zh) * | 2021-12-15 | 2023-06-22 | 深圳晶泰科技有限公司 | 虚拟筛选方法、装置及电子设备 |
CN115631785A (zh) * | 2022-11-09 | 2023-01-20 | 成都诺和晟泰生物科技有限公司 | 一种先导化合物筛选模型的构建方法及应用 |
CN115631785B (zh) * | 2022-11-09 | 2023-08-18 | 成都诺和晟泰生物科技有限公司 | 一种先导化合物筛选模型的构建方法及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009007302A (ja) | 仮想スクリーニング方法及び装置 | |
Gagnon et al. | Flexible CDOCKER: Development and application of a pseudo‐explicit structure‐based docking method within CHARMM | |
Karlov et al. | graphDelta: MPNN scoring function for the affinity prediction of protein–ligand complexes | |
Maggiora et al. | Molecular similarity in medicinal chemistry: miniperspective | |
Floudas et al. | Advances in protein structure prediction and de novo protein design: A review | |
Brylinski et al. | e FindSite: Improved prediction of ligand binding sites in protein models using meta-threading, machine learning and auxiliary ligands | |
Ashtawy et al. | Machine-learning scoring functions for identifying native poses of ligands docked to known and novel proteins | |
Katritch et al. | Ligand-guided receptor optimization | |
Yugandhar et al. | Feature selection and classification of protein–protein complexes based on their binding affinities using machine learning approaches | |
JP5211458B2 (ja) | 化合物の仮想スクリーニング方法および装置 | |
de Almeida Paiva et al. | Protein structural bioinformatics: An overview | |
Tropsha et al. | Integrating QSAR modelling and deep learning in drug discovery: the emergence of deep QSAR | |
Kadukova et al. | Docking of small molecules to farnesoid X receptors using AutoDock Vina with the Convex-PL potential: lessons learned from D3R Grand Challenge 2 | |
Pencheva et al. | AMMOS: automated molecular mechanics optimization tool for in silico screening | |
Oldfield et al. | Computational prediction of secondary and supersecondary structures from protein sequences | |
Abual-Rub et al. | A hybrid harmony search algorithm for ab initio protein tertiary structure prediction | |
Kuntz et al. | Machine learning, artificial intelligence, and chemistry: How smart algorithms are reshaping simulation and the laboratory | |
Loeffler et al. | Reinvent 4: Modern AI–driven generative molecule design | |
Teramoto et al. | Prediction of protein–ligand binding affinities using multiple instance learning | |
Balakin et al. | Structure-based versus property-based approaches in the design of G-protein-coupled receptor-targeted libraries | |
Fan et al. | Investigation of machine intelligence in compound cell activity classification | |
Czaplewski et al. | Coarse-grained models of proteins: theory and applications | |
US20230245713A1 (en) | Systems and Methods to Predict Structures and Properties of Biomolecule-Ligand Complexes and Uses Thereof | |
Mitchell et al. | Large-scale integrated super-computing platform for next generation virtual drug discovery | |
Laeeq et al. | An overview of the computer aided drug designing |