JP6671348B2 - 結合親和性予測システム及び方法 - Google Patents
結合親和性予測システム及び方法 Download PDFInfo
- Publication number
- JP6671348B2 JP6671348B2 JP2017510709A JP2017510709A JP6671348B2 JP 6671348 B2 JP6671348 B2 JP 6671348B2 JP 2017510709 A JP2017510709 A JP 2017510709A JP 2017510709 A JP2017510709 A JP 2017510709A JP 6671348 B2 JP6671348 B2 JP 6671348B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- input data
- input
- geometric
- binding affinity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000027455 binding Effects 0.000 title claims description 105
- 238000000034 method Methods 0.000 title claims description 61
- 102000004169 proteins and genes Human genes 0.000 claims description 97
- 108090000623 proteins and genes Proteins 0.000 claims description 97
- 239000003446 ligand Substances 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012905 input function Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 7
- 238000000844 transformation Methods 0.000 claims description 5
- 230000036961 partial effect Effects 0.000 claims description 4
- 239000002904 solvent Substances 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims 4
- 239000003814 drug Substances 0.000 description 42
- 229940079593 drug Drugs 0.000 description 39
- 230000006870 function Effects 0.000 description 38
- 125000004429 atom Chemical group 0.000 description 36
- 230000000694 effects Effects 0.000 description 30
- 239000010410 layer Substances 0.000 description 18
- 238000013135 deep learning Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 11
- 150000001875 compounds Chemical class 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 9
- 231100000419 toxicity Toxicity 0.000 description 9
- 230000001988 toxicity Effects 0.000 description 9
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 229940000406 drug candidate Drugs 0.000 description 8
- 230000035772 mutation Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 239000000126 substance Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 229910052739 hydrogen Inorganic materials 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 239000011230 binding agent Substances 0.000 description 5
- 239000001257 hydrogen Substances 0.000 description 5
- 239000000575 pesticide Substances 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 206010059866 Drug resistance Diseases 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 244000052769 pathogen Species 0.000 description 4
- 229920000642 polymer Polymers 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- BNRNXUUZRGQAQC-UHFFFAOYSA-N sildenafil Chemical compound CCCC1=NN(C)C(C(N2)=O)=C1N=C2C(C(=CC=1)OCC)=CC=1S(=O)(=O)N1CCN(C)CC1 BNRNXUUZRGQAQC-UHFFFAOYSA-N 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000000370 acceptor Substances 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 3
- 125000001309 chloro group Chemical group Cl* 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000006225 natural substrate Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 150000003384 small molecules Chemical class 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 229920000271 Kevlar® Polymers 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 125000003118 aryl group Chemical group 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008236 biological pathway Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- XWVFVITVPYKIMH-UHFFFAOYSA-N ethyl n-[4-[benzyl(2-phenylethyl)amino]-2-(2-fluorophenyl)-1h-imidazo[4,5-c]pyridin-6-yl]carbamate Chemical compound N=1C(NC(=O)OCC)=CC=2NC(C=3C(=CC=CC=3)F)=NC=2C=1N(CC=1C=CC=CC=1)CCC1=CC=CC=C1 XWVFVITVPYKIMH-UHFFFAOYSA-N 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003092 force field based scoring function Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000003112 inhibitor Substances 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 239000004761 kevlar Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004001 molecular interaction Effects 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 230000009437 off-target effect Effects 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000012876 topography Methods 0.000 description 2
- 238000002424 x-ray crystallography Methods 0.000 description 2
- 241000256837 Apidae Species 0.000 description 1
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 241000254171 Curculionidae Species 0.000 description 1
- 102000010907 Cyclooxygenase 2 Human genes 0.000 description 1
- 108010037462 Cyclooxygenase 2 Proteins 0.000 description 1
- 102000002004 Cytochrome P-450 Enzyme System Human genes 0.000 description 1
- 108010015742 Cytochrome P-450 Enzyme System Proteins 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010013710 Drug interaction Diseases 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 208000010228 Erectile Dysfunction Diseases 0.000 description 1
- 108010074860 Factor Xa Proteins 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 102000008300 Mutant Proteins Human genes 0.000 description 1
- 108010021466 Mutant Proteins Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 102000001708 Protein Isoforms Human genes 0.000 description 1
- 108010029485 Protein Isoforms Proteins 0.000 description 1
- 102000001253 Protein Kinase Human genes 0.000 description 1
- 206010041925 Staphylococcal infections Diseases 0.000 description 1
- 206010047281 Ventricular arrhythmia Diseases 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 229960001138 acetylsalicylic acid Drugs 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003281 allosteric effect Effects 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 239000003146 anticoagulant agent Substances 0.000 description 1
- 229940127219 anticoagulant drug Drugs 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000008512 biological response Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000036996 cardiovascular health Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000973 chemotherapeutic effect Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 229910052801 chlorine Inorganic materials 0.000 description 1
- 239000000460 chlorine Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000368 destabilizing effect Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000003255 drug test Methods 0.000 description 1
- 230000008406 drug-drug interaction Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000003003 empirical scoring function Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000002440 hepatic effect Effects 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 239000005555 hypertensive agent Substances 0.000 description 1
- 201000001881 impotence Diseases 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000002147 killing effect Effects 0.000 description 1
- 229940043355 kinase inhibitor Drugs 0.000 description 1
- 238000003095 knowledge based scoring function Methods 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 208000015688 methicillin-resistant staphylococcus aureus infectious disease Diseases 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 230000009149 molecular binding Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000003285 pharmacodynamic effect Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 239000003757 phosphotransferase inhibitor Substances 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 108060006633 protein kinase Proteins 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 229960003310 sildenafil Drugs 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000007614 solvation Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 231100000820 toxicity test Toxicity 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 231100000402 unacceptable toxicity Toxicity 0.000 description 1
- 238000012418 validation experiment Methods 0.000 description 1
- 229940094720 viagra Drugs 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computing Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
入力データの受取りと幾何学的な表現へのコード化のステップ22では、アナライザー10はデータベース12及び/またはリモートシステム13から多くのインプットを受取り得、データエンコーダーモジュール14を使用して、一実施形態では可視化された現実空間である幾何学的表現を作成するデータ表現(例えば、データ構造)を開発する。
予測モデルモジュール18は、ステップ24において予測モデルを開発するために、データエンコーダーモジュール14からの幾何学的なデータの出力を使用するためのディープラーニング法を利用するように構成され得る。ディープラーニング法は、様々な実施形態によれば、監視される、または監視されない方法であり得る。
予測モデルモジュール18内の予測モデルを開発する際に、次いで、アナライザー10は、1つまたは複数のデータベース12及び/または1つまたは複数のリモートシステム13から、予測モデルとともに分析のために選択されるタンパク質標的を記載する1つまたは複数のデータセットの入力を受取り得る。データベース12からの入力は、分析される分子のセットを含み得る。
ディープラーニング技術は、時間とともに予測の精度を向上させるためのトレーニングステップ28を有し得る。
以下は、いくつかの実施形態のいくつかのアプリケーションを記載する、例示の目的のみのために提供されるサンプルユースケースである。他の用途が考慮されてもよく、下記の実施例は、非限定的であり、変形、省略を受けてもよく、または追加の要素を含んでもよい。
本明細書に記載の実施形態の他の変形例も、本発明の範囲から逸脱することなく実施され得ることが、当業者によって理解されるであろう。従って、他の改変が可能である。
Claims (14)
- 1つの標的タンパク質に対する1つの分子の結合親和性を予測するためのシステムであって、
入力データを反映する記録を格納するように構成された少なくとも1つの電子データストア(12)と、
データエンコーダーモジュール(14)と、
予測モデルモジュール(18)と、
を備え、
前記データエンコーダーモジュール(14)は、
結合の入力機能の幾何学的表現を提供するデータ構造であって、前記少なくとも1つの電子データストア(12)に格納された入力データから、前記データ構造を構築するステップであって、
前記格納された入力データの1つまたは複数の予め定義された変換を適用して前記格納された入力データの追加のインスタンスを生成することにより、前記格納された入力データを増強することであって、これにより幾何学的データが得られ、前記格納された入力データの1つまたは複数の予め定義された変換が、前記格納された入力データの3つのX、Y及びZ平面の任意の組合せにおいて回転、並進、及びミラーリング演算子の組合せを含む、前記格納された入力データを増強することと、
境界ボックス内に収まるように、前記幾何学的データにおける前記格納された入力データの各インスタンスを切り捨てることと、を含む、前記構築するステップ、及び
前記1つの分子及び前記1つの標的タンパク質に関連するデータをコード化することにより、前記データ構造を取込むステップであって、
前記幾何学的データにおける前記境界ボックス内に収まれた前記格納された入力データの各インスタンスに対して、前記幾何学的データにおいて、整数のボクセルを与える間隔を使用して、前記境界ボックス内に収まれた前記入力データの前記インスタンスを、規則的に配置したキューブボクセルの離散集合に変換することにより、前記幾何学的データにおける前記境界ボックス内に収まれた前記格納された入力データの前記インスタンスを、対応するボクセル格子に分割することであって、各ボクセル格子内の各ボクセルは、それぞれ、前記各ボクセル格子内の各ボクセルによって表される原子のタイプをコード化する1つ以上の入力チャンネルを含む、前記分割することにより、前記データ構造を取込むステップ、
を含む方法を行うように構成され、
前記予測モデルモジュール(18)は、
前記データ構造によって表される前記1つの標的タンパク質に対する前記1つの分子の結合親和性の指標を生成するために、前記データ構造に予測モデルを適用するように構成され、
前記予測モデルは、関数演算素子のセットを含む畳み込みフィルター層を備える、ディープニューラルネットワークまたは畳み込みニューラルネットワークであって、前記関数演算素子のそれぞれが前記データ構造またはその畳み込み関数内の各ボクセル格子から空間的に隣接するボクセルの領域を入力として受け取り、
前記結合親和性の指標は、予測モデルの出力である、
システム。 - 前記幾何学的表現は、複数の原子中心の座標を含む、請求項1に記載のシステム。
- 前記幾何学的表現は、0.1Åと10Åの間の分解能を有する、請求項1または2に記載のシステム。
- 前記幾何学的表現は、1Åの分解能を有する、請求項3に記載のシステム。
- 前記予測モデルモジュール(18)は、時間とともに前記予測モデルをトレーニングする(28)ように構成されている、請求項1〜4のいずれか1項に記載のシステム。
- 前記入力データを反映する記録は、少なくとも1つの原子、リガンド分子、有機補因子、無機補因子、及びタンパク質に関連する入力データを反映する記録を含む、請求項1〜5のいずれか1項に記載のシステム。
- 前記1つ以上の入力チャンネルは、複数の入力チャンネルであり、
当該複数の入力チャンネルは、前記各ボクセル格子内の各ボクセルによって表される部分電荷、分極率、電気陰性度、溶媒アクセス可能空間、または電子密度を指定する入力チャンネルをさらに含む、請求項1〜6のいずれか1項に記載のシステム。 - 1つ以上の原子のタイプが、前記1つ以上の入力チャンネルにおいて、同じ入力チャンネルを共有する、請求項1〜6のいずれか1項に記載のシステム。
- 1つの標的タンパク質に対する1つの分子の結合親和性を予測するためのコンピューター実装方法であって、
少なくとも1つの電子データストアに、入力データを反映した記録を格納する(12)こと、
データエンコーダーモジュール(14)に、結合の入力機能の幾何学的表現を提供するデータ構造であって、前記少なくとも1つの電子データストア(12)に格納された入力データから、前記データ構造を構築すること、
前記データエンコーダーモジュール(14)に、前記1つの分子及び前記1つの標的タンパク質に関連するデータをコード化することによりデータ構造を取込むこと、及び
前記データ構造によって表される前記1つの標的タンパク質に対する前記1つの分子の結合親和性の指標を生成するために、前記データ構造に予測モデルを適用すること、
を含み、
前記構築することは、
前記格納された入力データの1つまたは複数の予め定義された変換を適用して前記格納された入力データの追加のインスタンスを生成することにより、前記格納された入力データを増強することであって、これにより幾何学的データが得られ、前記格納された入力データの1つまたは複数の予め定義された変換が、前記格納された入力データの3つのX、Y及びZ平面の任意の組合せにおいて回転、並進、及びミラーリング演算子の組合せを含む、前記格納された入力データを増強することと、
境界ボックス内に収まるように、前記幾何学的データにおける前記格納された入力データの各インスタンスを切り捨てることと、を含み、
前記取込むことは、
前記幾何学的データにおける前記境界ボックス内に収まれた前記格納された入力データの各インスタンスに対して、前記幾何学的データにおいて、整数のボクセルを与える間隔を使用して、前記境界ボックス内に収まれた前記入力データの前記インスタンスを、規則的に配置したキューブボクセルの離散集合に変換することにより、前記幾何学的データにおける前記境界ボックス内に収まれた前記格納された入力データの前記インスタンスを、対応するボクセル格子に分割することであって、各ボクセル格子内の各ボクセルは、それぞれ、前記各ボクセル格子内の各ボクセルによって表される原子のタイプをコード化する1つ以上の入力チャンネルを含む、前記分割することにより、前記データ構造を取込み、
前記適用することにおいて、
前記予測モデルは、関数演算素子のセットを含む畳み込みフィルター層を備える、ディープニューラルネットワークまたは畳み込みニューラルネットワークであって、前記関数演算素子のそれぞれが前記データ構造またはその畳み込み関数内の各ボクセル格子から空間的に隣接するボクセルの領域を入力として受け取り、
前記結合親和性の指標は、予測モデルの出力である、
方法。 - 前記幾何学的表現は、複数の原子中心の座標を含む、請求項9に記載の方法。
- 前記幾何学的表現は、0.1Åと10Åの間の分解能を有する、請求項9または10に記載の方法。
- 前記幾何学的表現は、1Åの分解能を有する、請求項11に記載の方法。
- 前記予測モジュールは、時間とともに前記予測モデルをトレーニングする(28)ように構成されている、請求項9〜12のいずれか1項に記載の方法。
- 前記入力データの記録は、少なくとも1つの原子、リガンド分子、有機補因子、無機補因子、タンパク質に関連する入力データを反映する記録を含む、請求項9〜13のいずれか1項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461988510P | 2014-05-05 | 2014-05-05 | |
US61/988,510 | 2014-05-05 | ||
PCT/CA2015/000296 WO2015168774A1 (en) | 2014-05-05 | 2015-05-05 | Binding affinity prediction system and method |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017520868A JP2017520868A (ja) | 2017-07-27 |
JP2017520868A5 JP2017520868A5 (ja) | 2018-06-14 |
JP6671348B2 true JP6671348B2 (ja) | 2020-03-25 |
Family
ID=54391892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017510709A Active JP6671348B2 (ja) | 2014-05-05 | 2015-05-05 | 結合親和性予測システム及び方法 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP3140763B1 (ja) |
JP (1) | JP6671348B2 (ja) |
CN (1) | CN106575320B (ja) |
SG (1) | SG11201609238VA (ja) |
WO (1) | WO2015168774A1 (ja) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9373059B1 (en) | 2014-05-05 | 2016-06-21 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
CN106951961B (zh) * | 2017-02-24 | 2019-11-26 | 清华大学 | 一种粗粒度可重构的卷积神经网络加速器及系统 |
US10546237B2 (en) | 2017-03-30 | 2020-01-28 | Atomwise Inc. | Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel |
JP7048065B2 (ja) * | 2017-08-02 | 2022-04-05 | 学校法人立命館 | 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法 |
CN107423570B (zh) * | 2017-08-02 | 2021-01-08 | 南昌立德生物技术有限公司 | 快速准确计算蛋白酶与药物分子之间亲和自由能的算法 |
CN111279419B (zh) * | 2017-10-17 | 2023-10-10 | 富士胶片株式会社 | 特征量计算方法、筛选方法、以及化合物创建方法 |
EP3483619A1 (en) * | 2017-11-13 | 2019-05-15 | Technische Universität München | Automated noninvasive determining the sex of an embryo of and the fertility of a bird's egg |
KR20200111158A (ko) * | 2017-11-22 | 2020-09-28 | 사이클리카 인코포레이티드 | 감별 약물 발견을 위한 방법 및 시스템 |
CN108614957B (zh) * | 2018-03-22 | 2021-06-18 | 浙江工业大学 | 一种基于香农熵的多阶段蛋白质结构预测方法 |
CN109036580B (zh) * | 2018-07-06 | 2021-08-20 | 华东师范大学 | 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 |
KR102213670B1 (ko) | 2018-08-09 | 2021-02-08 | 광주과학기술원 | 약물-표적 상호 작용 예측을 위한 방법 |
WO2020081292A1 (en) | 2018-10-17 | 2020-04-23 | Becton, Dickinson And Company | Adaptive sorting for particle analyzers |
CN111128314B (zh) * | 2018-10-30 | 2023-07-21 | 深圳市云网拜特科技有限公司 | 一种药物发现方法和系统 |
CN111312340A (zh) * | 2018-12-12 | 2020-06-19 | 深圳市云网拜特科技有限公司 | 一种基于smiles的定量构效方法和装置 |
CN113728390A (zh) * | 2019-01-04 | 2021-11-30 | 思科利康有限公司 | 使用合成数据预测药物结合的方法和系统 |
CN110010199B (zh) * | 2019-03-27 | 2021-01-01 | 华中师范大学 | 一种分析识别蛋白质特异性药物结合口袋的方法 |
CN113711035A (zh) * | 2019-04-16 | 2021-11-26 | 富士胶片株式会社 | 特征量计算方法、特征量计算程序、特征量计算装置、筛选方法、筛选程序及化合物创建方法 |
CN110265092B (zh) * | 2019-05-10 | 2021-08-24 | 江苏理工学院 | 基于人工智能的抗体-抗原分子对接评价方法和系统 |
CN110428864A (zh) * | 2019-07-17 | 2019-11-08 | 大连大学 | 用于构建蛋白质和小分子的亲和力预测模型的方法 |
CN110689919B (zh) * | 2019-08-13 | 2023-03-17 | 复旦大学 | 一种基于结构和等级分类的药物蛋白结合率预测方法及系统 |
CN111429972A (zh) * | 2019-09-05 | 2020-07-17 | 中国海洋大学 | 一种基于深度学习的蛋白质小分子对接打分方案 |
CN110910964A (zh) * | 2019-11-08 | 2020-03-24 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
CN110867254A (zh) * | 2019-11-18 | 2020-03-06 | 北京市商汤科技开发有限公司 | 预测方法及装置、电子设备和存储介质 |
CN110890137A (zh) * | 2019-11-18 | 2020-03-17 | 上海尔云信息科技有限公司 | 一种化合物毒性预测模型建模方法、装置及其应用 |
CN112053742A (zh) * | 2020-07-23 | 2020-12-08 | 中南大学湘雅医院 | 分子靶标蛋白的筛选方法、装置、计算机设备和存储介质 |
US20230326545A1 (en) * | 2020-09-18 | 2023-10-12 | Peptris Technologies Private Limited | System and method for predicting biological activity of chemical or biological molecules and evidence thereof |
JP7483913B2 (ja) | 2020-09-30 | 2024-05-15 | 富士フイルム株式会社 | 特徴量算出方法、スクリーニング方法、及び化合物創出方法 |
WO2022082739A1 (zh) * | 2020-10-23 | 2022-04-28 | 深圳晶泰科技有限公司 | 基于卷积神经网络预测蛋白和配体分子结合自由能的方法 |
CN112489722B (zh) * | 2020-11-27 | 2023-07-07 | 江苏理工学院 | 药物靶点结合能预测方法及装置 |
US20220270706A1 (en) * | 2021-02-25 | 2022-08-25 | International Business Machines Corporation | Automatically designing molecules for novel targets |
CN113517038A (zh) * | 2021-03-02 | 2021-10-19 | 阿里巴巴新加坡控股有限公司 | 药物与靶点之间亲和力的预测方法、装置及设备 |
CN113488102A (zh) * | 2021-06-30 | 2021-10-08 | 中国石油大学(华东) | 基于遗传算法集成深度学习网络的药物推荐系统、计算机设备、存储介质 |
CN114944204A (zh) * | 2022-05-13 | 2022-08-26 | 北京字节跳动网络技术有限公司 | 用于管理分子预测的方法、装置、设备和介质 |
CN115171774A (zh) * | 2022-05-17 | 2022-10-11 | 慧壹科技(上海)有限公司 | 一种抗体/大分子药物的亲和力改造系统和方法 |
CN117037946B (zh) * | 2022-11-14 | 2024-05-10 | 合肥微观纪元数字科技有限公司 | 基于蛋白质结合口袋的优化化合物结构的方法 |
SE2350013A1 (en) | 2023-01-11 | 2024-07-12 | Anyo Labs Ab | Ligand candidate screen and prediction |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2346588A1 (en) * | 2000-05-08 | 2001-11-08 | Molecular Simulations Inc. | Methods and systems for estimating binding affinity |
US20020090631A1 (en) * | 2000-11-14 | 2002-07-11 | Gough David A. | Method for predicting protein binding from primary structure data |
KR101239466B1 (ko) * | 2003-10-14 | 2013-03-07 | 베르선 코포레이션 | 분자 분해를 위한 방법 및 장치 |
US7236615B2 (en) * | 2004-04-21 | 2007-06-26 | Nec Laboratories America, Inc. | Synergistic face detection and pose estimation with energy-based models |
ES2432753T3 (es) * | 2005-03-11 | 2013-12-05 | Schrödinger, Llc | Función de puntuación predictiva para estimar la afinidad de unión |
JP2009007302A (ja) * | 2007-06-28 | 2009-01-15 | Nec Corp | 仮想スクリーニング方法及び装置 |
JP2010113473A (ja) * | 2008-11-05 | 2010-05-20 | Saitama Univ | ペプチドとタンパク質の結合部位を予測する方法、装置、およびプログラム |
CA2868827C (en) * | 2012-04-24 | 2022-05-10 | Laboratory Corporation Of America Holdings | Methods and systems for identification of a protein binding site |
CN102930181B (zh) * | 2012-11-07 | 2015-05-27 | 四川大学 | 基于分子描述符的蛋白质-配体亲和力预测方法 |
-
2015
- 2015-05-05 SG SG11201609238VA patent/SG11201609238VA/en unknown
- 2015-05-05 JP JP2017510709A patent/JP6671348B2/ja active Active
- 2015-05-05 CN CN201580036059.9A patent/CN106575320B/zh active Active
- 2015-05-05 EP EP15789480.9A patent/EP3140763B1/en active Active
- 2015-05-05 WO PCT/CA2015/000296 patent/WO2015168774A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
SG11201609238VA (en) | 2016-12-29 |
CN106575320A (zh) | 2017-04-19 |
EP3140763B1 (en) | 2020-05-20 |
CN106575320B (zh) | 2019-03-26 |
EP3140763A4 (en) | 2018-02-07 |
EP3140763A1 (en) | 2017-03-15 |
WO2015168774A1 (en) | 2015-11-12 |
JP2017520868A (ja) | 2017-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6671348B2 (ja) | 結合親和性予測システム及び方法 | |
JP7121725B2 (ja) | 分類子出力を並行して評価することによる第1の分類子の誤差の訂正 | |
US11080570B2 (en) | Systems and methods for applying a convolutional network to spatial data | |
JP6975140B2 (ja) | 畳み込みネットワークを空間データに適用するためのシステム及び方法 | |
Lee et al. | High-throughput screening approach for nanoporous materials genome using topological data analysis: application to zeolites | |
Lengauer et al. | Novel technologies for virtual screening | |
Verma et al. | 3D-QSAR in drug design-a review | |
Ekins et al. | Evolving molecules using multi-objective optimization: applying to ADME/Tox | |
WO2007139037A1 (ja) | ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計 | |
Swann et al. | Representing molecular and materials data for unsupervised machine learning | |
US20120290624A1 (en) | Defining and mining a joint pharmacophoric space through geometric features | |
Schneider et al. | De novo design: from models to molecules | |
JP2024537793A (ja) | 負のポーズデータ及びモデルコンディショニングを使用した化合物とポリマーとの間の相互作用の特徴付け | |
WO2023212463A1 (en) | Characterization of interactions between compounds and polymers using pose ensembles | |
Berenger et al. | 3D-sensitive encoding of pharmacophore features | |
Bumble | Computer generated physical properties | |
Criscuolo et al. | The surprising ineffectiveness of molecular dynamics coordinates for predicting bioactivity with machine learning | |
Tripathi | Next-Gen Pharma: A Roadmap Through Computational Drug Discovery | |
Ahmadreza et al. | Instantaneous generation of protein hydration properties from static structures | |
Creighton et al. | Informatics Tools for Functional Pathway Analysis Using Genomics and Proteomics | |
WO2009146735A1 (en) | Descriptors of three-dimensional objects, uses thereof and a method to generate the same | |
CA2633179A1 (en) | Descriptors of three-dimensional objects, uses thereof and a method to generate the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180502 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180502 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190625 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6671348 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |