JP5211458B2 - 化合物の仮想スクリーニング方法および装置 - Google Patents
化合物の仮想スクリーニング方法および装置 Download PDFInfo
- Publication number
- JP5211458B2 JP5211458B2 JP2006262595A JP2006262595A JP5211458B2 JP 5211458 B2 JP5211458 B2 JP 5211458B2 JP 2006262595 A JP2006262595 A JP 2006262595A JP 2006262595 A JP2006262595 A JP 2006262595A JP 5211458 B2 JP5211458 B2 JP 5211458B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- conformation
- prediction
- storage unit
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 82
- 238000003041 virtual screening Methods 0.000 title claims description 40
- 150000001875 compounds Chemical class 0.000 title claims description 36
- 230000006870 function Effects 0.000 claims description 62
- 102000004169 proteins and genes Human genes 0.000 claims description 43
- 108090000623 proteins and genes Proteins 0.000 claims description 43
- 238000013500 data storage Methods 0.000 claims description 35
- 238000007637 random forest analysis Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 24
- 230000027455 binding Effects 0.000 claims description 22
- 238000000547 structure data Methods 0.000 claims description 20
- 239000003446 ligand Substances 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 10
- 238000006073 displacement reaction Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 17
- 238000003032 molecular docking Methods 0.000 description 11
- 238000004088 simulation Methods 0.000 description 9
- 238000012952 Resampling Methods 0.000 description 5
- 229940000406 drug candidate Drugs 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000004219 molecular orbital method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
Landscapes
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medicinal Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
ここで、xは複数のスコア関数の集合、yはRMSDである。ステップB2において分岐候補数mとブートストラップ回数Bとを設定し、ステップB3において、データセットのラウンド数bをb=1で初期化する。次に、ステップB4において、データ集合Dから重複を許してN回無作為にリサンプリングを行う。この操作をB回行い、ブートストラップサンプルをB個生成する。
2 データ処理装置
3 記憶装置
4 出力装置
21 配座サンプリング部
22 スコア計算部
23 学習部
24 予測スコア計算部
31 訓練用構造データ記憶部
32 予測用分子構造データ記憶部
33 配座データ記憶部
34 訓練用スコアデータ記憶部
35 予測用スコアデータ記憶部
36 予測モデル記憶部
Claims (11)
- タンパク質と結合する化合物を探索する仮想スクリーニング方法において、
タンパク質・リガンド複合体の立体構造情報に対し、配座サンプリング手段が、対応する分子の立体配座を生成する段階と、
複数のスコア関数を用いて、スコア計算手段が、前記配座サンプリング手段により生成された配座のエネルギーを各スコア関数ごとのスコア値として計算する段階と、
得られたスコア値とタンパク質・化合物間の結合指標とに基づいて、学習手段が、予測モデルの教師付き学習を行う段階と、
予測用の分子構造に対し、前記配座サンプリング手段が、対応する分子の立体配座を生成する段階と、
前記予測用の分子構造から得られた前記立体配座に対して、前記スコア計算手段が、前記複数のスコア関数を用いて、配座のエネルギーを各スコア関数ごとのスコア値として計算する段階と、
予測スコア計算手段が、前記予測用の分子構造に対する前記各スコア値を前記教師付き学習が行われた予測モデルに適用して予測スコア値を計算する段階と、
を有し、
前記結合指標は、対応する分子について実験的に決定された配座と前記配座サンプリング手段によって決定された配座との間の根平均二乗変位値であり、
前記予測スコアに基づいて化合物の配座を予測することを特徴とする化合物の仮想スクリーニング方法。 - 前記化合物の配座のエネルギーを、分子力場あるいは経験的なモデルに基づくスコア関数を用いて計算する請求項1に記載の仮想スクリーニング方法。
- 前記教師付き学習を行う段階において、前記根平均二乗変位値に対する回帰モデルあるいは一定のしきい値により前記根平均二乗変位値を離散化した分類モデルを学習する、請求項1または2に記載の仮想スクリーニング方法。
- 前記教師付き学習は、アンサンブル学習であるブースティングあるいはバギングを用いる学習である、請求項1乃至3のいずれか1項に記載の仮想スクリーニング方法。
- 前記教師付き学習は、ランダムフォレストによる学習である、請求項1乃至4のいずれか1項に記載の仮想スクリーニング方法。
- 前記教師付き学習を行う段階において、反復バギング法のバギングをランダムフォレストにより構成する、請求項1乃至5のいずれか1項に記載の仮想スクリーニング方法。
- 前記教師付き学習を行う段階において、確率勾配ブースティング法の勾配が反復ランダムフォレスト法に適用される、請求項1乃至6のいずれか1項に記載の仮想スクリーニング方法。
- 教師付き学習方法が分類モデルの場合に、少数クラスのデータ数と同数あるいは同じオーダーのデータを多数クラスからリサンプリングする、請求項1乃至3のいずれか1項に記載の仮想スクリーニング方法。
- 教師付き学習方法が分類モデルの場合に、少数クラスに重み付き学習を行う、請求項1乃至3のいずれか1項に記載の仮想スクリーニング方法。
- タンパク質・化合物複合体の立体構造に基づき、タンパク質と結合する化合物を探索するために用いられる仮想スクリーニング装置において、
タンパク質・リガンド複合体の立体構造情報を記憶する訓練用構造データ記憶部と、
予測用の分子構造を記憶する予測用分子構造データ記憶部と、
前記訓練用構造データ記憶部内の前記立体構造情報及び前記予測用分子構造データ記憶部内の前記分子構造の各々に対し、対応する分子の立体配座を計算により生成する配座サンプリング手段と、
前記配座サンプリング手段によって生成された配座の配座情報を記憶する配座データ記憶部と、
前記配座データ記憶部に格納されたタンパク質立体構造と配座に対して、複数のスコア関数を用いて各スコア関数に対応するスコア値を計算するスコア計算手段と、
タンパク質と複合体を形成する分子の各配座の前記スコア値と対応するRMSDとを記憶する訓練用スコアデータ記憶部と、
予測用の分子の前記スコア値を予測用スコアデータとして記憶する予測用スコアデータ記憶部と、
前記訓練用スコアデータ記憶部に記憶された前記RMSDと複数のスコア値とに基づき、予測モデルの教師付き学習を行う学習手段と、
前記学習手段によって学習された前記予測モデルを記憶する予測モデル記憶部と、
前記予測用スコアデータに対して前記予測モデルを適用し、予測スコア値を計算する予測スコア計算手段と、
を有し、前記RMSDは、対応する分子について実験的に決定された配座と前記配座サンプリング手段によって決定された配座との間の根平均二乗変位であることを特徴とする仮想スクリーニング装置。 - タンパク質と結合する化合物を探索する仮想スクリーニングを実行するコンピュータを、
タンパク質・リガンド複合体の立体構造情報を記憶する訓練用構造データ記憶部内の前記立体構造情報及び予測用の分子構造を記憶する予測用分子構造データ記憶部内の前記分子構造の各々に対し、対応する分子の立体配座を計算により生成する配座サンプリング手段と、
前記配座サンプリング手段によって生成された配座の配座情報を記憶する配座データ記憶部に格納されたタンパク質立体構造と配座に対して、複数のスコア関数を用いて各スコア関数に対応するスコア値を計算するスコア計算手段と、
タンパク質と複合体を形成する分子の各配座の前記スコア値と対応するRMSDとを記憶する訓練用スコアデータ記憶部に記憶された前記RMSDと複数のスコア値とに基づき、予測モデルの教師付き学習を行う学習手段と、
前記予測用の分子の前記スコア値である予測用スコアデータに対して前記予測モデルを適用し、予測スコア値を計算する予測スコア計算手段と、
して機能させ、前記RMSDは、対応する分子について実験的に決定された配座と前記配座サンプリング手段によって決定された配座との間の根平均二乗変位である、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006262595A JP5211458B2 (ja) | 2006-09-27 | 2006-09-27 | 化合物の仮想スクリーニング方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006262595A JP5211458B2 (ja) | 2006-09-27 | 2006-09-27 | 化合物の仮想スクリーニング方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008081435A JP2008081435A (ja) | 2008-04-10 |
JP5211458B2 true JP5211458B2 (ja) | 2013-06-12 |
Family
ID=39352639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006262595A Expired - Fee Related JP5211458B2 (ja) | 2006-09-27 | 2006-09-27 | 化合物の仮想スクリーニング方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5211458B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5946045B2 (ja) | 2012-08-27 | 2016-07-05 | 国立大学法人京都大学 | 化合物設計装置、化合物設計方法、及びコンピュータプログラム |
JP7304778B2 (ja) | 2019-09-05 | 2023-07-07 | 株式会社日立製作所 | 材料特性予測システムおよび情報処理方法 |
CN111402967B (zh) * | 2020-03-12 | 2023-04-07 | 中南大学 | 一种基于机器学习算法提升对接软件虚拟筛选能力的方法 |
CN111613275B (zh) * | 2020-05-26 | 2021-03-16 | 中国海洋大学 | 一种基于rmsd多特征的药物分子动力学结果分析方法 |
CN112086145B (zh) * | 2020-09-02 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 一种化合物活性预测方法、装置、电子设备和存储介质 |
WO2023108465A1 (zh) * | 2021-12-15 | 2023-06-22 | 深圳晶泰科技有限公司 | 虚拟筛选方法、装置及电子设备 |
CN115881243A (zh) * | 2022-01-04 | 2023-03-31 | 上海智峪生物科技有限公司 | 复合物的结合强度评估方法、装置及计算机设备 |
CN114708931B (zh) * | 2022-04-22 | 2023-01-24 | 中国海洋大学 | 结合机器学习和构象计算提高药-靶活性预测精度的方法 |
-
2006
- 2006-09-27 JP JP2006262595A patent/JP5211458B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008081435A (ja) | 2008-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Karimi et al. | De novo protein design for novel folds using guided conditional wasserstein generative adversarial networks | |
Lee et al. | Ab initio protein structure prediction | |
JP5211458B2 (ja) | 化合物の仮想スクリーニング方法および装置 | |
Ashtawy et al. | Task-specific scoring functions for predicting ligand binding poses and affinity and for screening enrichment | |
Schindler et al. | Fully blind peptide-protein docking with pepATTRACT | |
Freddolino et al. | Force field bias in protein folding simulations | |
Kirillova et al. | An NMA‐guided path planning approach for computing large‐amplitude conformational changes in proteins | |
US20050278124A1 (en) | Methods for molecular property modeling using virtual data | |
Thomas et al. | Integrating structure-based approaches in generative molecular design | |
Tropsha et al. | Integrating QSAR modelling and deep learning in drug discovery: the emergence of deep QSAR | |
Zaborowski et al. | A maximum-likelihood approach to force-field calibration | |
JP2009007302A (ja) | 仮想スクリーニング方法及び装置 | |
Wang et al. | Yuel: improving the generalizability of structure-free compound–protein interaction prediction | |
Ismi et al. | Deep learning for protein secondary structure prediction: Pre and post-AlphaFold | |
Oldfield et al. | Computational prediction of secondary and supersecondary structures from protein sequences | |
Villalobos-Alva et al. | Protein science meets artificial intelligence: a systematic review and a biochemical meta-analysis of an inter-field | |
Fung et al. | Computational de novo peptide and protein design: rigid templates versus flexible templates | |
Zhao et al. | Discriminative learning for protein conformation sampling | |
König et al. | Enhanced sampling in free energy calculations: combining SGLD with the Bennett’s acceptance ratio and enveloping distribution sampling methods | |
Özçelik et al. | Structure-based drug discovery with deep learning | |
CN116635940A (zh) | 使用简化多序列比对来训练蛋白结构预测神经网络 | |
JP5211486B2 (ja) | 化合物の仮想スクリーニング方法及び装置 | |
JP2020129270A (ja) | 結合自由エネルギー計算の前処理方法、前処理装置及び前処理プログラム、並びに、結合自由エネルギーの算出方法 | |
Ward et al. | Benchmarking deep graph generative models for optimizing new drug molecules for covid-19 | |
Talluri | Algorithms for protein design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130211 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |