JP2010165230A - 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム - Google Patents
薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム Download PDFInfo
- Publication number
- JP2010165230A JP2010165230A JP2009007697A JP2009007697A JP2010165230A JP 2010165230 A JP2010165230 A JP 2010165230A JP 2009007697 A JP2009007697 A JP 2009007697A JP 2009007697 A JP2009007697 A JP 2009007697A JP 2010165230 A JP2010165230 A JP 2010165230A
- Authority
- JP
- Japan
- Prior art keywords
- protein
- ppi
- interaction
- drug
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004850 protein–protein interaction Effects 0.000 title claims abstract description 149
- 239000003596 drug target Substances 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 36
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 164
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 143
- 239000003814 drug Substances 0.000 claims abstract description 59
- 229940079593 drug Drugs 0.000 claims abstract description 58
- 150000001875 compounds Chemical class 0.000 claims abstract description 57
- 230000008827 biological function Effects 0.000 claims abstract description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 20
- 238000013178 mathematical model Methods 0.000 claims abstract description 7
- 150000001413 amino acids Chemical class 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 12
- 201000010099 disease Diseases 0.000 claims description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 12
- 239000000470 constituent Substances 0.000 claims description 11
- 229910052739 hydrogen Inorganic materials 0.000 claims description 10
- 239000001257 hydrogen Substances 0.000 claims description 10
- 238000011160 research Methods 0.000 claims description 10
- 230000037361 pathway Effects 0.000 claims description 9
- 206010028980 Neoplasm Diseases 0.000 claims description 8
- 230000036541 health Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 229960000074 biopharmaceutical Drugs 0.000 claims description 5
- 235000013305 food Nutrition 0.000 claims description 5
- 229940126586 small molecule drug Drugs 0.000 claims description 5
- 229940124602 FDA-approved drug Drugs 0.000 claims description 4
- 201000011510 cancer Diseases 0.000 claims description 4
- 210000000056 organ Anatomy 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 239000002904 solvent Substances 0.000 claims description 4
- 230000012010 growth Effects 0.000 claims description 3
- 235000014106 fortified food Nutrition 0.000 claims description 2
- 108020004707 nucleic acids Proteins 0.000 description 22
- 102000039446 nucleic acids Human genes 0.000 description 22
- 150000007523 nucleic acids Chemical class 0.000 description 22
- 108010020062 Peptidylprolyl Isomerase Proteins 0.000 description 16
- 229920000333 poly(propyleneimine) Polymers 0.000 description 16
- 238000012360 testing method Methods 0.000 description 15
- 239000003446 ligand Substances 0.000 description 14
- 108090000765 processed proteins & peptides Proteins 0.000 description 14
- 229920001184 polypeptide Polymers 0.000 description 13
- 102000004196 processed proteins & peptides Human genes 0.000 description 13
- 150000003384 small molecules Chemical class 0.000 description 11
- 230000002401 inhibitory effect Effects 0.000 description 10
- 230000035945 sensitivity Effects 0.000 description 10
- 238000011161 development Methods 0.000 description 9
- 238000002790 cross-validation Methods 0.000 description 6
- 238000000126 in silico method Methods 0.000 description 6
- 239000002547 new drug Substances 0.000 description 6
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 5
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 5
- 102100032305 Bcl-2 homologous antagonist/killer Human genes 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000001727 in vivo Methods 0.000 description 4
- -1 small molecule compounds Chemical class 0.000 description 4
- 102000012199 E3 ubiquitin-protein ligase Mdm2 Human genes 0.000 description 3
- 108050002772 E3 ubiquitin-protein ligase Mdm2 Proteins 0.000 description 3
- 101001046870 Homo sapiens Hypoxia-inducible factor 1-alpha Proteins 0.000 description 3
- 101000602930 Homo sapiens Nuclear receptor coactivator 2 Proteins 0.000 description 3
- 102100022875 Hypoxia-inducible factor 1-alpha Human genes 0.000 description 3
- 102100037226 Nuclear receptor coactivator 2 Human genes 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 3
- 230000008236 biological pathway Effects 0.000 description 3
- 108091007999 druggable proteins Proteins 0.000 description 3
- 102000038037 druggable proteins Human genes 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 102100021975 CREB-binding protein Human genes 0.000 description 2
- 102100025580 Calmodulin-1 Human genes 0.000 description 2
- 102100038595 Estrogen receptor Human genes 0.000 description 2
- 101100218425 Gallus gallus BCL2L1 gene Proteins 0.000 description 2
- 101000896987 Homo sapiens CREB-binding protein Proteins 0.000 description 2
- 101000984164 Homo sapiens Calmodulin-1 Proteins 0.000 description 2
- 101000882584 Homo sapiens Estrogen receptor Proteins 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 108091023040 Transcription factor Proteins 0.000 description 2
- 102000040945 Transcription factor Human genes 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 235000015872 dietary supplement Nutrition 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 230000003834 intracellular effect Effects 0.000 description 2
- 230000004879 molecular function Effects 0.000 description 2
- 235000000346 sugar Nutrition 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 102100021569 Apoptosis regulator Bcl-2 Human genes 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 102100035682 Axin-1 Human genes 0.000 description 1
- 108091012583 BCL2 Proteins 0.000 description 1
- 102000000584 Calmodulin Human genes 0.000 description 1
- 108010041952 Calmodulin Proteins 0.000 description 1
- 102000011068 Cdc42 Human genes 0.000 description 1
- 102000013446 GTP Phosphohydrolases Human genes 0.000 description 1
- 102100029974 GTPase HRas Human genes 0.000 description 1
- 108091006109 GTPases Proteins 0.000 description 1
- 108010051975 Glycogen Synthase Kinase 3 beta Proteins 0.000 description 1
- 102100038104 Glycogen synthase kinase-3 beta Human genes 0.000 description 1
- 102100036241 HLA class II histocompatibility antigen, DQ beta 1 chain Human genes 0.000 description 1
- 108010065026 HLA-DQB1 antigen Proteins 0.000 description 1
- GVGLGOZIDCSQPN-PVHGPHFFSA-N Heroin Chemical compound O([C@H]1[C@H](C=C[C@H]23)OC(C)=O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4OC(C)=O GVGLGOZIDCSQPN-PVHGPHFFSA-N 0.000 description 1
- 108090000246 Histone acetyltransferases Proteins 0.000 description 1
- 102000003893 Histone acetyltransferases Human genes 0.000 description 1
- 102100034889 Homeobox protein Hox-B1 Human genes 0.000 description 1
- 101000874566 Homo sapiens Axin-1 Proteins 0.000 description 1
- 101000798320 Homo sapiens Bcl-2 homologous antagonist/killer Proteins 0.000 description 1
- 101000584633 Homo sapiens GTPase HRas Proteins 0.000 description 1
- 101001019745 Homo sapiens Homeobox protein Hox-B1 Proteins 0.000 description 1
- 101001011382 Homo sapiens Interferon regulatory factor 3 Proteins 0.000 description 1
- 101001060744 Homo sapiens Peptidyl-prolyl cis-trans isomerase FKBP1A Proteins 0.000 description 1
- 101000610107 Homo sapiens Pre-B-cell leukemia transcription factor 1 Proteins 0.000 description 1
- 101000856728 Homo sapiens Rho GDP-dissociation inhibitor 1 Proteins 0.000 description 1
- 101001026230 Homo sapiens Small conductance calcium-activated potassium channel protein 2 Proteins 0.000 description 1
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 102000003839 Human Proteins Human genes 0.000 description 1
- 102100029843 Interferon regulatory factor 3 Human genes 0.000 description 1
- 102000014150 Interferons Human genes 0.000 description 1
- 108010050904 Interferons Proteins 0.000 description 1
- 108010038453 Interleukin-2 Receptors Proteins 0.000 description 1
- 102000010789 Interleukin-2 Receptors Human genes 0.000 description 1
- 102000004310 Ion Channels Human genes 0.000 description 1
- 108090000862 Ion Channels Proteins 0.000 description 1
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- 235000006679 Mentha X verticillata Nutrition 0.000 description 1
- 235000002899 Mentha suaveolens Nutrition 0.000 description 1
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 1
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 102100027913 Peptidyl-prolyl cis-trans isomerase FKBP1A Human genes 0.000 description 1
- 102000009097 Phosphorylases Human genes 0.000 description 1
- 108010073135 Phosphorylases Proteins 0.000 description 1
- 102100040171 Pre-B-cell leukemia transcription factor 1 Human genes 0.000 description 1
- 102000004913 RYR1 Human genes 0.000 description 1
- 108060007240 RYR1 Proteins 0.000 description 1
- 102100023320 Ral guanine nucleotide dissociation stimulator Human genes 0.000 description 1
- 101150015043 Ralgds gene Proteins 0.000 description 1
- 102100025642 Rho GDP-dissociation inhibitor 1 Human genes 0.000 description 1
- 102100037446 Small conductance calcium-activated potassium channel protein 2 Human genes 0.000 description 1
- 102100033456 TGF-beta receptor type-1 Human genes 0.000 description 1
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 1
- 108010011702 Transforming Growth Factor-beta Type I Receptor Proteins 0.000 description 1
- 102000002015 Transforming Protein 1 Src Homology 2 Domain-Containing Human genes 0.000 description 1
- 108010040625 Transforming Protein 1 Src Homology 2 Domain-Containing Proteins 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- 102000001742 Tumor Suppressor Proteins Human genes 0.000 description 1
- 108010040002 Tumor Suppressor Proteins Proteins 0.000 description 1
- 102000000504 Tumor Suppressor p53-Binding Protein 1 Human genes 0.000 description 1
- 108010041385 Tumor Suppressor p53-Binding Protein 1 Proteins 0.000 description 1
- ZVNYJIZDIRKMBF-UHFFFAOYSA-N Vesnarinone Chemical compound C1=C(OC)C(OC)=CC=C1C(=O)N1CCN(C=2C=C3CCC(=O)NC3=CC=2)CC1 ZVNYJIZDIRKMBF-UHFFFAOYSA-N 0.000 description 1
- 229960001138 acetylsalicylic acid Drugs 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 235000001014 amino acid Nutrition 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 229940110331 bextra Drugs 0.000 description 1
- 239000012620 biological material Substances 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 229920001222 biopolymer Polymers 0.000 description 1
- 108010051348 cdc42 GTP-Binding Protein Proteins 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 210000003855 cell nucleus Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000013043 chemical agent Substances 0.000 description 1
- 229960003920 cocaine Drugs 0.000 description 1
- 239000005515 coenzyme Substances 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229960002069 diamorphine Drugs 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 108091006104 gene-regulatory proteins Proteins 0.000 description 1
- 102000034356 gene-regulatory proteins Human genes 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 239000002117 illicit drug Substances 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 229940079322 interferon Drugs 0.000 description 1
- 108010027445 interleukin-22 receptor Proteins 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 108020004084 membrane receptors Proteins 0.000 description 1
- 102000006240 membrane receptors Human genes 0.000 description 1
- 239000002417 nutraceutical Substances 0.000 description 1
- 235000021436 nutraceutical agent Nutrition 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- RZJQGNCSTQAWON-UHFFFAOYSA-N rofecoxib Chemical compound C1=CC(S(=O)(=O)C)=CC=C1C1=C(C=2C=CC=CC=2)C(=O)OC1 RZJQGNCSTQAWON-UHFFFAOYSA-N 0.000 description 1
- 102000034285 signal transducing proteins Human genes 0.000 description 1
- 108091006024 signal transducing proteins Proteins 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000004960 subcellular localization Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000000225 tumor suppressor protein Substances 0.000 description 1
- LNPDTQAFDNKSHK-UHFFFAOYSA-N valdecoxib Chemical compound CC=1ON=C(C=2C=CC=CC=2)C=1C1=CC=C(S(N)(=O)=O)C=C1 LNPDTQAFDNKSHK-UHFFFAOYSA-N 0.000 description 1
- 229940087652 vioxx Drugs 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】薬剤の標的となるタンパク質−タンパク質相互作用を予測する方法及びシステムを提供する。
【解決手段】タンパク質−タンパク質相互作用の立体構造の属性、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、及び該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を有するタンパク質−タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的としての可能性を有するタンパク質−タンパク質相互作用を予測する数学モデルを構築する。
【選択図】図3
【解決手段】タンパク質−タンパク質相互作用の立体構造の属性、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、及び該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を有するタンパク質−タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的としての可能性を有するタンパク質−タンパク質相互作用を予測する数学モデルを構築する。
【選択図】図3
Description
本発明は、創薬の分野に関する。より詳細には、薬剤標的となるタンパク質−タンパク質相互作用(Protein−Protein Interactions:PPI)を予測する方法及びシステムに関する。
生体の生物学的及び生理学的機能は、生体物質、特に、タンパク質の機能及びタンパク質同士の機能的ネットワークの働きにより担われ、制御、維持されている。とりわけ、PPIは、生体内で起こる様々な生物学的現象において、基本的かつ重要な役割を担っている。実際、腫瘍抑制タンパク質であるTP53とその制御タンパク質MDM2間の相互作用が、腫瘍の発現に重要な影響を与えることなど、PPIと疾患との関係について、多くの知見が蓄積されつつある。
従って、PPIを制御することができる化合物、特に、低分子の化学薬剤を見つけることができれば、これまでに治療法が確立されていない、又は困難とされている多くの疾患を克服するための薬剤開発に大きく貢献することとなる。
これまで、PPIの境界面の多くは平坦で表面積が広いことから、PPIを低分子化合物で阻害することは難しいと考えられてきた。しかし、PPIのなかには、境界面に凹凸があり、かつ境界面のごく一部の領域のみが相互作用にとって重要な働きを担っているようなPPIが存在することが、これまでの研究により明らかとなってきた。このようなPPIに対して、現在、薬剤標的としての研究が盛んに行われている。これまでにも、MDM2/TP53、BCL−XL(BCL−2)/BAK及びIL2/IL2受容体αなど30以上のPPIが阻害低分子化合物の標的として研究されてきた。実際に、BCL−XL(BCL−2)/BAKのように、がんの治療におけるPPI阻害低分子化合物の高い阻害効果が、インビトロ及びインビボにおいて実験的に証明されており、製薬企業によって阻害薬の臨床開発が進められている例もある(http://www.nature.com/cdd/journal/vaop/ncurrent/abs/cdd2008137a.html)。これらの研究は、低分子阻害薬開発における標的としてのPPIの有用性を強く支持するものである。
これまで、PPIの境界面の多くは平坦で表面積が広いことから、PPIを低分子化合物で阻害することは難しいと考えられてきた。しかし、PPIのなかには、境界面に凹凸があり、かつ境界面のごく一部の領域のみが相互作用にとって重要な働きを担っているようなPPIが存在することが、これまでの研究により明らかとなってきた。このようなPPIに対して、現在、薬剤標的としての研究が盛んに行われている。これまでにも、MDM2/TP53、BCL−XL(BCL−2)/BAK及びIL2/IL2受容体αなど30以上のPPIが阻害低分子化合物の標的として研究されてきた。実際に、BCL−XL(BCL−2)/BAKのように、がんの治療におけるPPI阻害低分子化合物の高い阻害効果が、インビトロ及びインビボにおいて実験的に証明されており、製薬企業によって阻害薬の臨床開発が進められている例もある(http://www.nature.com/cdd/journal/vaop/ncurrent/abs/cdd2008137a.html)。これらの研究は、低分子阻害薬開発における標的としてのPPIの有用性を強く支持するものである。
ヒトゲノム配列プロジェクト完成以来、新規の薬剤標的タンパク質を発見することを目的とする様々なインシリコの手法が提案されてきた。例えば、既知の標的タンパク質の生物学的情報、関連薬剤情報及び物理化学的特徴に関する情報に基づいて機械学習を利用した方法(非特許文献1〜5)など、全てのヒトタンパク質から新規薬剤標的タンパク質をインシリコの手法によって発見する試みが、いくつか報告されている(特許文献1、非特許文献6及び7)。
一方、単一タンパク質ではなく、PPIの薬剤標的としての可能性を評価するための方法論は、現段階においては、未だ開発途上にある。
これまでに、任意に与えられた2つのタンパク質が相互作用するかどうかを予測する方法に関しては、幾つかの報告が存在する(特許文献2〜4)。また、PPIの薬剤標的性を予測する方法については、PPIの物理化学的特徴や機能的/薬剤関連情報を利用した方法(特許文献5)が報告されている。
発明者らは、相互作用に関わる機能ドメインを見つけ、遺伝子オントロジー(Gene Ontology:GO)を使用して相互作用タンパク質間の生物学的機能の一致度を評価し、タンパク質表面の低分子化合物結合ポケットを見出すことによって、薬剤標的PPIを発見するためのインシリコ手法をこれまでに報告した(非特許文献8)。
これまでに、任意に与えられた2つのタンパク質が相互作用するかどうかを予測する方法に関しては、幾つかの報告が存在する(特許文献2〜4)。また、PPIの薬剤標的性を予測する方法については、PPIの物理化学的特徴や機能的/薬剤関連情報を利用した方法(特許文献5)が報告されている。
発明者らは、相互作用に関わる機能ドメインを見つけ、遺伝子オントロジー(Gene Ontology:GO)を使用して相互作用タンパク質間の生物学的機能の一致度を評価し、タンパク質表面の低分子化合物結合ポケットを見出すことによって、薬剤標的PPIを発見するためのインシリコ手法をこれまでに報告した(非特許文献8)。
Bao及びSun,FEBS Lett.521:109−114.2002.
Zhengら,Pharmacol. Rev.58:259−279.2006.
Hanら,Drug Discov.Today 12:304−313.2007.
Li及びLai,BMC Bioinformatics 8: 353.2007.
Yao及びRzhetsky,Genome Res.18:206−213.2008.
Kramer及びCohen,Nature Rev. Drug Discov.3:965−972.2004.
Ekinsら,Br.J.Pharmacol.152:21−37.2007.
Sugayaら,BMC Pharmacol.7:10.2007.
以上のように、PPIの薬剤標的としての可能性は非常に期待されるものであるが、これまでの方法は、PPIの薬剤標的としての可能性を評価するための基準について、例えば、PPIの物理化学的特徴のみ、あるいは生物学的機能に関する特徴のみなど、限定的な基準を使用するに留まっていた。また、阻害化合物の研究例があるPPIについては、その薬剤標的としての可能性の評価は研究者個人に依存してきた。そのため、現在急速に蓄積されつつある膨大な量のPPIデータから、PPIに関する、物理化学的特徴と生物学的機能に関する特徴の両方を含む様々な情報(属性)を利用し、統合的かつ効率的に薬剤標的としての可能性を評価する方法論の開発が強く望まれていた。
本発明者は、上記事情に鑑み、非特許文献8に報告の手法をさらに発展させ、PPIの立体構造情報、PPIを構成する各相互作用タンパク質に対して作用を有する既存薬剤/化合物の情報、並びに、PPIを構成する各相互作用タンパク質の生物学的機能に関する情報から選択した属性を特徴ベクトルとして使用し、機械学習法を導入することによって、統合的で効率的な薬剤標的候補の予測方法の確立に成功し、本発明を完成させた。
従って、本発明は、膨大なPPIデータから薬剤標的となり得るPPIを、機械学習法を適用して予測する、統合的かつ効率的な薬剤標的PPIの予測方法及びシステムの提供を目的とする。
従って、本発明は、膨大なPPIデータから薬剤標的となり得るPPIを、機械学習法を適用して予測する、統合的かつ効率的な薬剤標的PPIの予測方法及びシステムの提供を目的とする。
本発明は、以下の(a)〜(c)に示す属性を有するPPIのデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的候補となるPPIを予測する数学モデルを構築する方法である。
(a)PPIの立体構造の属性、
(b)該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該PPIを構成する各タンパク質の生物学的機能の属性
さらに、本発明は、PPIの立体構造の属性、該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、並びに、該PPIを構成する各タンパク質の生物学的機能の属性を入力する手段と、
該属性を特徴ベクトルとして機械学習によって作成された、薬剤標的PPIとそれ以外のPPIを判別する数学モデルを、予測対象のPPIへ適用する処理部と、
処理結果を表示する表示部を備えることを特徴とする、薬剤標的候補PPIの予測システムである。
(a)PPIの立体構造の属性、
(b)該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該PPIを構成する各タンパク質の生物学的機能の属性
さらに、本発明は、PPIの立体構造の属性、該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、並びに、該PPIを構成する各タンパク質の生物学的機能の属性を入力する手段と、
該属性を特徴ベクトルとして機械学習によって作成された、薬剤標的PPIとそれ以外のPPIを判別する数学モデルを、予測対象のPPIへ適用する処理部と、
処理結果を表示する表示部を備えることを特徴とする、薬剤標的候補PPIの予測システムである。
本発明によれば、膨大なPPIデータから、薬剤標的となり得るPPIを容易かつ迅速に、高い精度で選択することができる。発明者は、PPIの薬剤標的としての可能性を評価するために、PPIの立体構造情報、各相互作用タンパク質に対して作用を有する既存薬剤/化合物の情報、及び各相互作用タンパク質の生物学的機能に関する情報から幾つかの属性を選択し、それらを特徴ベクトルとして使用し、機械学習法を適用した。本発明の方法を、既知の30の標的PPIと、立体構造が解かれている1,295のヒトPPIに対して適用したところ、機械学習法によって構築した最適な数学モデルにおいては、既知の標的PPIを81%の正確性(感度、82% 特異性、79%)で他のPPIと区別することができた。
本発明によれば、薬剤標的となり得るPPIを予測するためのインシリコにおける統合的なシステムを構築することが可能となる。
本発明における薬剤標的PPIを予測する方法は、PPIの薬剤標的としての可能性を機械学習法によって評価し、薬剤標的PPIを同定するインシリコの方法である。
本発明の実施態様の1つは、以下の(a)〜(c)に示す属性を有するPPIデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的候補となるPPIを予測する数学モデルを作成する方法である。
(a)PPIの立体構造の属性、
(b)該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該PPIを構成する各タンパク質の生物学的機能の属性
本発明の実施態様の1つは、以下の(a)〜(c)に示す属性を有するPPIデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的候補となるPPIを予測する数学モデルを作成する方法である。
(a)PPIの立体構造の属性、
(b)該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該PPIを構成する各タンパク質の生物学的機能の属性
ここで機械学習法とは、既存のデータに基づき、データの分類基準を獲得する方法で、該方法を適用することにより未知のデータの分類結果を予測することができる。本発明に使用される機械学習法としては、特に限定されるものではなく、例えば、ランダムフォレスト法、ブースティング法、ベイズ推定に基づく方法などを挙げることができ、サポートベクターマシン(Support Vector Machine:SVM)法などが好適に利用可能である。
本発明に使用される機械学習法では、PPIに関する立体構造、各相互作用タンパク質に対して作用を有する既存薬剤/化合物、及び各相互作用タンパク質の生物学的機能から選択された情報をPPIの属性として定義し、これを機械学習への入力となる特徴ベクトルとして使用する。
立体構造に関する属性とは、タンパク質の表面に存在する(潜在的)リガンド結合ポケット(リガンドが結合する又は結合すると予測されるタンパク質分子表面上に存在する領域)の物理化学的特性のことであり、例えば、リガンド結合ポケットの体積、構成原子の数、溶媒露出表面積(Accessible Surface Area:ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、疎水性度、水素結合供与原子の数、水素結合受容原子の数、リガンド結合ポケット表面上に出現するアミノ酸の頻度(アミノ酸組成)などから、1又は複数の特性を属性として使用することができる。ここでリガンドとは、特に限定されることはなく、例えば、タンパク質に結合する可能性のある低分子化合物、ペプチド、核酸、アミノ酸、糖、補酵素、イオン、タンパク質などを含む。
本発明に使用される機械学習法では、PPIに関する立体構造、各相互作用タンパク質に対して作用を有する既存薬剤/化合物、及び各相互作用タンパク質の生物学的機能から選択された情報をPPIの属性として定義し、これを機械学習への入力となる特徴ベクトルとして使用する。
立体構造に関する属性とは、タンパク質の表面に存在する(潜在的)リガンド結合ポケット(リガンドが結合する又は結合すると予測されるタンパク質分子表面上に存在する領域)の物理化学的特性のことであり、例えば、リガンド結合ポケットの体積、構成原子の数、溶媒露出表面積(Accessible Surface Area:ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、疎水性度、水素結合供与原子の数、水素結合受容原子の数、リガンド結合ポケット表面上に出現するアミノ酸の頻度(アミノ酸組成)などから、1又は複数の特性を属性として使用することができる。ここでリガンドとは、特に限定されることはなく、例えば、タンパク質に結合する可能性のある低分子化合物、ペプチド、核酸、アミノ酸、糖、補酵素、イオン、タンパク質などを含む。
リガンド結合ポケットに関する情報の取得源及び取得手段は、特に限定されることはなく、例えば、タンパク質立体構造データベースPDB(Bermanら,Nucleic Acids Res.28:235−242.2000.)中の各タンパク質・ポリペプチド鎖に対し、例えば、Molecular Operating Environment(以下、MOE)(http://www.chemcomp.com/)ソフトウェアパッケージに含まれるコンピュータプログラムAlpha Site Finder(以下、ASF)、Castp(Dundasら,Nucleic Acids Res.34:W116−W118.2006.)、LIGSITECSC(Huang及びSchroeder,BMC Struct.Biol.6:19.2006.)、Pocket−Finder(Hendlichら,J.Mol.Graph.Model.15:359−363.1997.)などのプログラム・ソフトウェアによって、タンパク質・ポリペプチド鎖の表面上のポケットを検出し、取得することができる。ここで、ポケットを特定する方法としては、特に限定はしないが、例えば、1つのポケットを構成しているアミノ酸残基の50%又はそれ以上が他のポケットを構成するアミノ酸残基と共有される場合、この2つのポケットを融合して一つのポケットとして考慮するなど、目的に応じて適宜ポケットの同定条件を設定してもよい。従って、例えば、後述の実施例において示すように検出された全てのポケットのうち、PPI境界面とオーバーラップする最大の領域を持つポケットのみを属性の対象として考慮してもよい。PPI境界面を構成するアミノ酸に関する情報は、例えば、PDBsum(Laskowski,Nucleic Acids Res.37:D355−D359.2009.本発明の実施例において使用)、PDB、Pfam(Finnら,Nucleic Acids Res.36:D281−D288.2008.)などのデータベースから抽出することができる。
リガンド結合ポケットの体積は、MOEで計算し、PPI属性の1つとして使用することができる。リガンドがポケットと結合するかどうかを評価する際、体積は、ポケット評価のための必須の特性の1つとなり得る。ポケット体積が小さすぎると、リガンドがポケットに結合することができなくなり、逆にポケット体積が大きすぎると、様々なタイプのリガンドが非特異的にポケットに結合する確率が高くなる。
リガンド結合ポケットの体積に代わる属性として、ポケット構成原子の数を利用することができる。ポケット構成原子の数は、MOEによって計算することができる。
リガンド結合ポケットのASAに関係する属性を1又は複数選択してもよい。ポケットASAもポケットが薬剤標的としてより適切かどうかを評価するために重要な属性となり得る。体積と同様に、リガンドが高い親和性でポケットに結合するには、適当なサイズのASAが必要である。選択可能な属性としては、例えば、ポケット表面のASAの値、あるいはポケットが検出されたタンパク質・ポリペプチド鎖の全表面のASAに対するポケット表面のASAの面積比などを挙げることができる。ここで、ポケット表面のASA、及びポケットが検出されたタンパク質・ポリペプチド鎖の全表面のASAに対するポケット表面のASAの面積比を属性として選択する場合、全表面のASAは、タンパク質・ポリペプチド鎖を構成するアミノ酸のうち、溶媒に露出した全てのアミノ酸のASAの合計として計算してもよい。タンパク質・ポリペプチド鎖の各アミノ酸のASAは、例えば、MOE、DSSPプログラム(Kabsch及びSander,Biopolymers 22:2577−2637.1983.本発明の実施例)で計算することができる。計算による、あるアミノ酸のASAが、そのアミノ酸のASAの絶対値より15%以上大きい場合、該アミノ酸は溶媒に露出されていると判断される。
ポケットを構成する原子の配置が、立体的空間においてどの程度コンパクトな状態になっているかを表現するものとして、例えば、Hajdukら(Hajdukら,J.Med.Chem.48:2518−2525.2005.)の「コンパクト性(compactness)」を属性として使用することができる。ポケットの「コンパクト性」はポケットのASAでポケットの体積を除した値として定義される(Hajdukら,J.Med.Chem.48:2518−2525.2005.)。
これまで、PPI境界面の多くは平坦に近いと考えられてきたが、低分子化合物の標的として研究されているPPIの多くは、PPIの境界面が平坦というよりはむしろ凹んでいる傾向にあることが明らかとなってきた。そこで、ポケットの平坦さを表す指標を属性として選択してもよい。例えば、発明者は、独自の指標として、平面性「planarity」(図1)を本実施例において使用しているが、これに限定されるものではない。平面性「planarity」は、ポケット構成原子の三次元座標データに基づいて計算され、以下の式1ように定義される
ここで、d1は、ポケット原子の三次元座標の最小自乗平面(Least−Squares Plane:LSP)とLSPより「上」(‘above’)の原子間の最大距離、d2は、LSPとLSPより「下」(‘below’)の原子間の最大距離、max(dij)は、ポケットを構成する任意の2つの原子i及びj間の距離のうち、最大の距離である。「planarity」は、0(凹んでいる)から1(完全に平坦)の範囲にある。さらに、距離d1+d2も属性として選択できる。ポケットに結合する低分子化合物のインシリコでの探索・設計においては、ポケットを構成する原子間の実際の距離、並びに、距離比は、しばしば、重要なファクターとなる。
ここで、d1は、ポケット原子の三次元座標の最小自乗平面(Least−Squares Plane:LSP)とLSPより「上」(‘above’)の原子間の最大距離、d2は、LSPとLSPより「下」(‘below’)の原子間の最大距離、max(dij)は、ポケットを構成する任意の2つの原子i及びj間の距離のうち、最大の距離である。「planarity」は、0(凹んでいる)から1(完全に平坦)の範囲にある。さらに、距離d1+d2も属性として選択できる。ポケットに結合する低分子化合物のインシリコでの探索・設計においては、ポケットを構成する原子間の実際の距離、並びに、距離比は、しばしば、重要なファクターとなる。
BCL−2/BAK,ESR1/NCOA2,MDM2/TP53及びTHRB/NCOA2などのように詳細に研究された標的PPIのいくつかにおいては、天然のタンパク質/タンパク質複合体において、一方のタンパク質由来のα−へリックスが他方のタンパク質のポケットに相互作用する。このようなポケットに関しては、ポケットを鳥瞰した場合、細長い形状であることが多い。そこで、このポケットの細長さも属性として選択してもよい。例えば、発明者は、独自の測定方法として、細長さ「narrowness」(図2)を本実施例において使用しているが、これに限定されるものではない。
まず、全てのポケット原子を原子のLSPに射影し(図2を参照のこと)、射影された座標データを計算に使用する。「narrowness」は、以下の式2ように定義される。
ここで、d3はLSPに射影された射影原子間の距離のうち、最大の距離である。d4及びd5は以下の通りである。d3を与える射影原子i及びjを通る直線をlijと仮定した場合、d4はlijより「右」(‘right’)側に位置する射影原子とlijとの最大距離である。d5は、lijより「左」(‘left’)側に位置する射影原子とlijとの最大距離である。「narrowness」は0(完全な円形)から1(直線状)の範囲にある。「planarity」と同様に、距離d4+d5も属性として使用できる。
まず、全てのポケット原子を原子のLSPに射影し(図2を参照のこと)、射影された座標データを計算に使用する。「narrowness」は、以下の式2ように定義される。
ここで、d3はLSPに射影された射影原子間の距離のうち、最大の距離である。d4及びd5は以下の通りである。d3を与える射影原子i及びjを通る直線をlijと仮定した場合、d4はlijより「右」(‘right’)側に位置する射影原子とlijとの最大距離である。d5は、lijより「左」(‘left’)側に位置する射影原子とlijとの最大距離である。「narrowness」は0(完全な円形)から1(直線状)の範囲にある。「planarity」と同様に、距離d4+d5も属性として使用できる。
ポケットの曲率は、ポケットがどの程度凹んでいるかを表す指標として有用であり、これをPPIの属性として利用することもできる。ポケットの曲率は、ポケット構成原子の最小自乗球面の半径をrとすると、1/rで定義される(Colemanら,Proteins.61:1068−1074.2005.)。
タンパク質表面上に存在するリガンド結合ポケットの表面は、その他の表面に対して疎水性アミノ酸残基が多く存在していることが、これまでの研究により明らかにされている。従ってポケットの疎水性度も立体構造情報として有用であり、属性の1つとして採用しても良い。
加えて、ポケットの表面上に存在する水素結合受容原子と水素結合供与原子の数は、ポケットがどのような化学的性質を有するリガンドと相互作用する可能性があるかを知る上で、必要な情報となる。従って、ポケット構成原子中に存在する水素結合受容原子と水素結合供与原子の数を、PPI属性の一つとして利用することもできる。
さらに、これまでの研究により、PPI境界面においては、トリプトファン、フェニルアラニン、アルギニンなどの特定のアミノ酸がより好まれることが報告されている。そこで、タンパク質・ポリペプチド鎖の全表面上のアミノ酸頻度に対するポケット表面上のアミノ酸頻度(アミノ酸組成)の割合を属性として採用してもよい。
PPIを構成する相互作用タンパク質には、米国食品医薬品局(Food and Drug Administration:FDA)承認薬によってすでに標的とされているものもあれば、FDA承認薬が標的としていないタンパク質も含まれる。そこで、本発明の属性として、既存の薬剤に関する情報から選択することもできる。各相互作用タンパク質に対して作用を有する既存薬剤/化合物に関する情報は、当業者において周知の如何なる取得源及び取得方法によってもよいが、例えば、低分子薬の数、FDA承認薬の数、バイオ医薬(例えば、抗体製剤など)の数、標的タンパク質に結合し得る研究段階化合物(研究段階化合物とは、まだ承認されていないが薬としての可能性を検証する研究が行われている化合物のことである。)の数、治験段階化合物(治験段階化合物とは、薬としての臨床開発が行われている段階の化合物のことである。)の数、栄養補強食品含有化合物(栄養補強食品含有化合物とは、栄養補強食品に含まれるアミノ酸、ビタミン及び糖などのことである。)の数、市場撤退医薬の数(市場撤退医薬とは、何らかの安全上の理由により市場から撤退した医薬品のことである。例:Vioxx,Bextra)、不法医薬(不法医薬とは、多くの先進国に於いて法的に禁止されている医薬品のことである。例:コカイン、ヘロイン)の数などの薬剤及び化合物に関する情報をDrugBank(Wishartら,Nucleic Acids Res.36:D901−D906.2008.)、KEGG DRUG(Kanehisaら,Nucleic Acids Res.36:D480−D484.2008.)などのデータベースから抽出することができる。例えば、DrugBankデータベースでは、各薬剤又は化合物は8つの薬剤タイプ(‘small molecule’(低分子薬),‘biotech’(バイオ医薬),‘approved’(承認薬),‘experimental’(研究段階化合物),‘investigational’(治験段階化合物),‘nutraceutical’(栄養補強食品含有化合物),‘withdrawn’(市場撤退医薬),及び‘illicit’(不法医薬))に分類されている。例えば、「アスピリン」は‘small molecule’と‘approved’に分類され、「インターフェロンα−n3」は、‘biotech’,‘approved’及び‘investigational’に分類される。1つのPPIについて、各相互作用タンパク質を標的とする薬剤及び化合物の数を、薬剤タイプごとにカウントする。薬剤の数は各相互作用タンパク質に対してカウントされるため、各PPIは2つの数を属性として持つことになる。そこで、これら2つの数のうち、例えば、大きい方を‘large’、小さい方を‘small’などの用語を使用して識別する。2つの数が同じ場合、‘large’及び‘small’に対する同じ数を使用することができる。
さらに、生物学的機能に関する属性は、例えば、以下のように選択することができる。
まず、HGMD(Stensonら,J.Med.Genet.45:124−126.2008.)、OMIM(Hamoshら,Nucleic Acids Res.33:D514−D517.2005.)などのデータベースに登録されたヒト疾患に関する情報から対象PPIの関連疾患の有無などの属性を選択することができる。タンパク質が遺伝的に変異して引き起こされるヒト疾患に関する情報は、タンパク質の薬剤標的性を評価するためには重要な情報の1つである。この属性は、例えば、二値情報(1又は0)として表示される。例えば、PPIの相互作用タンパク質の両方がOMIM登録疾患(同一の疾患に限定しない)に関係している場合、PPIのスコアを1とし、一方の相互作用タンパク質のみが関係して他方は関係しない場合、又は両方の相互作用タンパク質共に関係しない場合、PPIのスコアは0として処理することができる。
まず、HGMD(Stensonら,J.Med.Genet.45:124−126.2008.)、OMIM(Hamoshら,Nucleic Acids Res.33:D514−D517.2005.)などのデータベースに登録されたヒト疾患に関する情報から対象PPIの関連疾患の有無などの属性を選択することができる。タンパク質が遺伝的に変異して引き起こされるヒト疾患に関する情報は、タンパク質の薬剤標的性を評価するためには重要な情報の1つである。この属性は、例えば、二値情報(1又は0)として表示される。例えば、PPIの相互作用タンパク質の両方がOMIM登録疾患(同一の疾患に限定しない)に関係している場合、PPIのスコアを1とし、一方の相互作用タンパク質のみが関係して他方は関係しない場合、又は両方の相互作用タンパク質共に関係しない場合、PPIのスコアは0として処理することができる。
PPIのネットワークに関する情報から2つの属性を選択することができる。薬剤によって疾患状態を抑制するためには、PPIネットワーク又は生物学的パスウェイにおいて中心的な機能を担うタンパク質を標的とすることが好ましい場合がある。あるいは、ネットワーク又はパスウェイの辺縁領域で機能するタンパク質が、標的としてより適切である場合もある。そこで、PPIネットワークを、例えば、Entrez Gene(Maglottら,Nucleic Acids Res.35:D26−D31.2007.)、BOND(http://bond.unleashedinformatics.com/index.jsp?pg=0)、DIP(Salwinskiら,Nucleic Acids Res.32:D449−D451.2004.)、MINT(Chatr−aryamontriら,Nucleic Acids Res.35:D572−D574.2007.)、STRING(Jensenら,Nucleic Acids Res.37:D412−D416.2009.)、HPRD(Keshava Prasadら,Nucleic Acids Res.37:D767−D772.2009.)、BioGRID(Breitkreutzら,Nucleic Acids Res.36:D637−D640.2008.)などのデータベース中のヒトPPIデータに基づいて構築した後、全ての相互作用タンパク質の数をカウントし、その数を本発明の属性として使用してもよい。各相互作用タンパク質に対して作用を有する既存薬剤/化合物の情報の属性と同様に、相互作用タンパク質は2つの数を属性として持つ。2つの数は、例えば、大きい方を‘large’小さい方を‘small’などの用語を使用して識別する。2つの数が同じ場合、‘large’及び‘small’に対して同じ数を属性として使用することができる。
さらに、3つの属性をKEGG PATHWAY(Kanehisaら,Nucleic Acids Res.36:D480−D484.2008.)、BioCarta(http://www.biocarta.com/genes/index.asp)、Reactome(Matthewsら,Nucleic Acids Res.37:D619−D622.2009.)、Pathway Interaction Database(Schaeferら,Nucleic Acids Res.37:D674−D679.2009.)などのデータベースに登録されている生物学的パスウェイに関する情報から選択することができる。任意のPPIに対し、相互作用する各タンパク質のそれぞれが関与するパスウェイの数をカウントし、本発明の属性として使用することができる。1つのPPIは、2つの数を属性として持ち、それらを、例えば、‘large’ 及び‘small’などの用語を用いて識別することができる。さらに、相互作用タンパク質の両方が関与するパスウェイの数をカウントする。そして、この数も属性として使用することができる。
相互作用タンパク質間の生物学的機能の一致度も本発明の属性として使用することができる。一致度を評価するにあたり、例えば、GOを利用することができる。GOのデータベースは、生物学的ターム(用語)を、(1)分子機能(molecular function)、(2)生体内における役割(biological process)、(3)細胞内構造及び分布(cellular component)の3つのカテゴリーに分けて階層的・体系的に記述している。従って、生物学に関連した多くのタームをコンピューター上で統合的に利用することが可能となる。さらに、生物学の専門家による検証及び修正が行われているため、その信頼性も高い。GOデータベースとしては、例えば、the GeneOntology(http://www.geneontology.org/),QuickGO(http://www.ebi.ac.uk/ego/),Entrez Geneなどが利用可能である。相互作用タンパク質に割り当てられたGOタームに基づいて、3つの属性を計算し、これらを本発明の属性として利用することができる。2つの相互作用タンパク質間のGOタームの一致度スコアを計算する場合、相互作用タンパク質ペアi間の一致度スコア(S(i)GO)は、以下の式3のように定義することができる。
ここでLjは、GOのj番目の階層であり(例えば、最上位階層(Lj=1)から下位の階層(Lj>1)へ、Lj=1,2,3,・・・・・,20となる)、nijは、あるタンパク質ペアiのj番目の階層において共有されている同一のGOタームの数である。3つのGOカテゴリー、すなわち、分子機能、生体内における役割、細胞内構造及び分布に対する一致度スコアを計算する。
ここでLjは、GOのj番目の階層であり(例えば、最上位階層(Lj=1)から下位の階層(Lj>1)へ、Lj=1,2,3,・・・・・,20となる)、nijは、あるタンパク質ペアiのj番目の階層において共有されている同一のGOタームの数である。3つのGOカテゴリー、すなわち、分子機能、生体内における役割、細胞内構造及び分布に対する一致度スコアを計算する。
さらに、4つの属性を同一ファミリーに属するタンパク質(パラログ)の数に基づいて選択してもよい。標的タンパク質と同一のファミリーに含まれる非標的タンパク質への薬剤の結合によって引き起こされる副作用を考慮する場合、同一ファミリーに属するタンパク質の数は、あるタンパク質を薬剤標的として選択するか否かを決定する重要な因子の1つとなり得る。標的タンパク質に多くの同一ファミリータンパク質が有るほど、そのタンパク質を標的とする薬剤はより重篤な副作用を引き起こす可能性がある。同一ファミリーに含まれるタンパク質に関する情報は、KEGG ORTHOLOGY(Kanehisaら,Nucleic Acids Res.36:D480−D484.2008.)、PIRSF(Wuら,Nucleic Acids Res.32:D112−D114.2004.)、Inparanoid(Berglundら,Nucleic Acids Res.36:D263−D266.2008.)などのデータベースから抽出することができる。データベース毎に、2つの相互作用タンパク質のパラログの数をカウントする。その数は、例えば、‘large’ 及び‘small’などの用語を使用して識別する。
さらに、12の属性をUniGene(Pontiusら,The NCBI handbook.pp.21.1−21.12 2003.)、BodyMap−Xs(Ogasawaraら,Nucleic Acids Res.34:D628−D631.2006.)、Gene Expression Omnibus(Barrettら,Nucleic Acids Res.35:D760−D765.2007.)、ArrayExpress(Parkinsonら,Nucleic Acids Res.37:D868−D872.2009.)などのデータベースに登録された、遺伝子発現パターンに関する情報から選択してもよい。薬剤標的として選択されるタンパク質が、限られた数の組織/器官において機能する場合に、そのタンパク質をコードする遺伝子の発現パターン情報の利用はより効果的である。例えば、UniGeneでは、遺伝子ごとに「健康状態(腫瘍・がん組織)」、「体の部位(組織/器官)」、「発達段階(成長段階)」に基づいた3つの遺伝子発現パターンが提供される。相互作用タンパク質をコードする遺伝子について、その遺伝子を発現している「健康状態」、「体の部位」、「発達段階」を数える。PPIは、2つの数を持つことになるので、これらの数を、例えば、‘large’ 及び‘small’などの用語で識別して使用することができる。さらに、両方の遺伝子が発現している「健康状態」、「体の部位」、「発達段階」も数えて、属性として使用することができる。遺伝子発現パターンに限定されることなく、タンパク質そのものの発現パターンを利用してもよい。
さらに、2つの相互作用タンパク質をコードする遺伝子間の発現パターンの類似度を計算し、本発明において属性として考慮してもよい。具体的には、発現パターンを二値情報(発現している場合:1、発現していない場合:0)に変換し、遺伝子ペアi(遺伝子aとbから構成される)の類似度スコア(S(i)expression)を、Dice’s coefficient (van Rijsbergen,Information retrieval.1979.)に基づいて、以下の式4のように定義し、求めることができる。
ここでna=1,b=1は、両遺伝子(a及びb)が発現している(a=1,b=1)、健康状態、体の部位、又は発達段階の数であり、na=1,b=0は、一方が発現され、他方が発現されない場合、na=0,b=1は、その逆の場合の数である。スコアは0(非類似)から1(類似)の範囲にある。スコアは3つの発現パターン(健康状態、体の部位、発達段階)毎に計算できる。
ここでna=1,b=1は、両遺伝子(a及びb)が発現している(a=1,b=1)、健康状態、体の部位、又は発達段階の数であり、na=1,b=0は、一方が発現され、他方が発現されない場合、na=0,b=1は、その逆の場合の数である。スコアは0(非類似)から1(類似)の範囲にある。スコアは3つの発現パターン(健康状態、体の部位、発達段階)毎に計算できる。
以下に実施例を示すが、本発明はこれに限定されるものではない。
1.方法
本実施例の概念図を図3に示す。
1−1.正例
PPIが以下の基準のいずれも満たす場合に、SVMによる機械学習に用いる正例として使用した。
第1に、PPIを阻害する効果を有する低分子化合物が発見・開発されていること。
第2に、PPI阻害低分子化合物が結合し得るポケットがすでに同定され、それがPPIの境界面と重なっていること。
第3に、PPI阻害低分子化合物の阻害活性が、標的PPIの各タンパク質を用いたインビトロ及び/又はインビボにおける実験によって実証されていること。
以上の基準を満たすPPIとして、薬剤標的PPIに関するこれまでの報告(Toogood,J.Med.Chem.45:1543−1558.2002.;Arkin及びWells,Nature Rev.Drug Discov.3:301−317.2004.;Pagliaroら,Curr.Opin.Chem.Biol.8:442−449.2004;Loregianら,J.Cell Physiol.204:750−762.2005.:Zhao及びChmielewski,Curr.Opin.Struct.Biol.15:31−34.2005.:Fletcher及びHamilton,Curr.Top.Med.Chem.7:922−927.2007.:Wells及びMcClendon,Nature 450:1001−1009.2007.)から,30のPPIを正例として選択した(表1、より詳細には表2〜表10を参照のこと)。
本実施例の概念図を図3に示す。
1−1.正例
PPIが以下の基準のいずれも満たす場合に、SVMによる機械学習に用いる正例として使用した。
第1に、PPIを阻害する効果を有する低分子化合物が発見・開発されていること。
第2に、PPI阻害低分子化合物が結合し得るポケットがすでに同定され、それがPPIの境界面と重なっていること。
第3に、PPI阻害低分子化合物の阻害活性が、標的PPIの各タンパク質を用いたインビトロ及び/又はインビボにおける実験によって実証されていること。
以上の基準を満たすPPIとして、薬剤標的PPIに関するこれまでの報告(Toogood,J.Med.Chem.45:1543−1558.2002.;Arkin及びWells,Nature Rev.Drug Discov.3:301−317.2004.;Pagliaroら,Curr.Opin.Chem.Biol.8:442−449.2004;Loregianら,J.Cell Physiol.204:750−762.2005.:Zhao及びChmielewski,Curr.Opin.Struct.Biol.15:31−34.2005.:Fletcher及びHamilton,Curr.Top.Med.Chem.7:922−927.2007.:Wells及びMcClendon,Nature 450:1001−1009.2007.)から,30のPPIを正例として選択した(表1、より詳細には表2〜表10を参照のこと)。
この30PPIについて、タンパク質/化合物複合体の立体構造がすでに解析されているか、又は仮想的に構築されたタンパク質/化合物複合体のモデル構造が論文中に掲載されているかどうかを調査した。タンパク質/化合物複合体の立体構造がすでに解かれている12PPIについては、タンパク質/化合物複合体の立体構造に基づいて化合物結合ポケットを検出した。タンパク質/化合物複合体の立体構造がまだ解かれていない18PPIの場合には、タンパク質/タンパク質複合体の立体構造に基づいて、化合物結合ポケットを検出した。この場合、BLASTPプログラム(Altschulら,Nucleic Acids Res.25:3389−3402.1997.)によるアミノ酸配列類似性検索をPDBに対して行い、PPIが複数のPDBエントリーに対してアミノ酸配列類似性を有している場合、全てのPDBエントリーを考慮した。その結果、ポケットを検出するために使用したPDBエントリーの数は、41エントリーであった。1つのPPIが複数のPDBエントリーに類似性を示した場合、全てのPDBエントリーを考慮し、最終的に98のデータ例を正例として使用した。ポケット検出はMOE ASFにより行った。検出されたポケットが、原論文中のタンパク質/化合物複合体のモデル構造に記載されるものと同等かどうか、目視によりチェックした。化合物結合ポケットが、2つの別個なポケットとして、各々重なり合わないものとして同定された場合、両ポケットは別々のものとして解析を行った。検出したポケットに関し、立体構造の各属性を計算した。各相互作用タンパク質に対して作用を有する既存薬剤/化合物、並びに、各相互作用タンパク質の生物学的機能に関する属性は前述のように計算した。
1−2.テスト例
SVMによる機械学習に用いるテストデータと、そこから作成されるテスト例(予測対象例)を以下のようにして準備した。28,077のヒトPPIをEntrez Geneデータベースから抽出した。本発明の方法では、タンパク質/タンパク質複合体の物理化学的/立体構造的特性を考慮するため、テストデータは、タンパク質/タンパク質複合体の立体構造がすでに解析されているヒトPPIを使用した。タンパク質/タンパク質複合体の立体構造が解かれているPPIを抽出するため、PDBに対して、BLASTPプログラムによってアミノ酸配列の類似性検索を行った。PPIのそれぞれの相互作用タンパク質が、同一のPDBエントリー中の異なるポリペプチド鎖に対し、80%以上のアミノ酸配列類似性を示し、2つのポリペプチド鎖がタンパク質/タンパク質複合体の立体構造中で互いに物理的に接触している場合、そのPPIを本実施例のテストデータとして使用した。正例として使用されるPPIを除き、PDB中に類似の立体構造が存在するのは、1,295PPIであった。これらを本実施例においてテストデータとした。1,295PPIとアミノ酸配列の類似性を示すPDBエントリーの総数は、6,656である。PPIが複数の立体構造に対してアミノ酸配列類似性を有している場合、全ての立体構造を考慮した。その結果、10,915データ例をテスト例(例えば、表11〜表19を参照のこと)として使用した。
SVMによる機械学習に用いるテストデータと、そこから作成されるテスト例(予測対象例)を以下のようにして準備した。28,077のヒトPPIをEntrez Geneデータベースから抽出した。本発明の方法では、タンパク質/タンパク質複合体の物理化学的/立体構造的特性を考慮するため、テストデータは、タンパク質/タンパク質複合体の立体構造がすでに解析されているヒトPPIを使用した。タンパク質/タンパク質複合体の立体構造が解かれているPPIを抽出するため、PDBに対して、BLASTPプログラムによってアミノ酸配列の類似性検索を行った。PPIのそれぞれの相互作用タンパク質が、同一のPDBエントリー中の異なるポリペプチド鎖に対し、80%以上のアミノ酸配列類似性を示し、2つのポリペプチド鎖がタンパク質/タンパク質複合体の立体構造中で互いに物理的に接触している場合、そのPPIを本実施例のテストデータとして使用した。正例として使用されるPPIを除き、PDB中に類似の立体構造が存在するのは、1,295PPIであった。これらを本実施例においてテストデータとした。1,295PPIとアミノ酸配列の類似性を示すPDBエントリーの総数は、6,656である。PPIが複数の立体構造に対してアミノ酸配列類似性を有している場合、全ての立体構造を考慮した。その結果、10,915データ例をテスト例(例えば、表11〜表19を参照のこと)として使用した。
1−3.PPIの属性
本発明で使用されるPPIの69属性は、PPIの立体構造情報、各相互作用タンパク質に作用を有する既存薬剤/化合物情報、及び各相互作用タンパク質の生物的機能情報から選択される(表20)。
従来の機械学習法による新規標的タンパク質の予測研究で利用されたタンパク質の特性は、タンパク質の物理化学的/構造的特性、又は機能的/薬剤関連特性のカテゴリーのいずれかに偏っていたが、これら従来の研究結果から、いずれのカテゴリーに属する特性も、標的タンパク質の薬剤標的性評価において欠くことの出来ない情報を含んでいることが強く示唆されている。従って、PPIの薬剤標的としての可能性をSVMによって評価するにあたり、物理化学的/構造的特性及び機能的/薬剤関連特性の両方をPPIの属性として利用した。
本発明で使用されるPPIの69属性は、PPIの立体構造情報、各相互作用タンパク質に作用を有する既存薬剤/化合物情報、及び各相互作用タンパク質の生物的機能情報から選択される(表20)。
従来の機械学習法による新規標的タンパク質の予測研究で利用されたタンパク質の特性は、タンパク質の物理化学的/構造的特性、又は機能的/薬剤関連特性のカテゴリーのいずれかに偏っていたが、これら従来の研究結果から、いずれのカテゴリーに属する特性も、標的タンパク質の薬剤標的性評価において欠くことの出来ない情報を含んでいることが強く示唆されている。従って、PPIの薬剤標的としての可能性をSVMによって評価するにあたり、物理化学的/構造的特性及び機能的/薬剤関連特性の両方をPPIの属性として利用した。
立体構造情報について、28の属性を選択した。これらの属性はPPIの境界面上に検出されるポケットの物理化学的特徴に関連している。これらの特徴は、ポケットの体積、ポケットのASA、タンパク質・ポリペプチド鎖全体のASAに対するポケットのASAの比、ポケットのコンパクト性、ポケットの平面性、ポケットの平面性の計算に使用する原子間距離d1+d2、ポケットの細長さ、ポケットの細長さの計算に使用する原子間距離d4+d5、及びタンパク質・ポリペプチド鎖表面上のアミノ酸頻度に対するポケット表面上のアミノ酸頻度の比(20のアミノ酸について計算)である。PPI境界面上に位置するポケットは、MOE ASFによって検出した。ポケットの検出は、タンパク質/化合物又はタンパク質/タンパク質複合体を構成する全てのタンパク質・ポリペプチド鎖について行い、ポケットがタンパク質・ポリペプチド鎖上に見出されなかった場合には、そのタンパク質・ポリペプチド鎖は解析対象から除外した。正例については、PPI阻害化合物が結合しているポケットを立体構造情報の属性の対象とし、テスト例については、PPIの境界面とのオーバーラップが最も大きいポケットを立体構造情報の属性の対象とした。
また、PPIを構成する相互作用タンパク質に対して作用を有する既存薬剤/化合物情報について、DrugBankに基づいて16の属性を選択した。これらの属性は、低分子薬の数、バイオ医薬品の数、FDA承認薬の数パターンリーに含まれるタンパク質くしつ用タンパク質の数(属、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、市場撤退医薬品の数、及び不法医薬品の数である。それぞれの属性について、1つのPPIについて、これを構成する2つのタンパク質に対応する数があるため、その大きいほうを‘large’、小さいほうを‘small’と定義して使用した。2つのタンパク質に対応する数が同一の場合には、‘large’と‘small’に対して同じ数を使用した。
生物学的機能情報からは、25の属性を使用した。属性の1つは、OMIM中の疾患情報(関連疾患の有無)に関連する。他の属性は、ヒトPPIネットワーク中の相互作用タンパク質の数(2つの相互作用タンパク質に対応して、‘large’と‘small’を使用)、KEGG PATHWAYに基づく生物学的パスウェイの数(2つの相互作用タンパク質に対応した‘large’と‘small’と、2つのタンパク質が同時に含まれるパスウェイの数を使用)、GOタームの一致度スコア(3つのGOカテゴリーごとに計算)、KEGG ORTHOLOGY及びPIRSFに基づいた同一ファミリーに属するタンパク質(パラログ)の数(KEGG ORTHOLOGYとPIRSFのそれぞれに対して、2つの相互作用タンパク質に対応した‘large’と‘small’を使用)、UniGene中の遺伝子発現パターンに基づいて計数される、各遺伝子を発現している健康状態、体の部位、及び発達段階の数(相互作用タンパク質をコードする2つの遺伝子に対応して、‘large’と‘small’を使用。加えて、2つの遺伝子が同時に発現している場合の数も使用)、及び遺伝子発現パターンの類似性スコア(UniGeneの3つの遺伝子発現パターンごとに計算)である。
また、PPIを構成する相互作用タンパク質に対して作用を有する既存薬剤/化合物情報について、DrugBankに基づいて16の属性を選択した。これらの属性は、低分子薬の数、バイオ医薬品の数、FDA承認薬の数パターンリーに含まれるタンパク質くしつ用タンパク質の数(属、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、市場撤退医薬品の数、及び不法医薬品の数である。それぞれの属性について、1つのPPIについて、これを構成する2つのタンパク質に対応する数があるため、その大きいほうを‘large’、小さいほうを‘small’と定義して使用した。2つのタンパク質に対応する数が同一の場合には、‘large’と‘small’に対して同じ数を使用した。
生物学的機能情報からは、25の属性を使用した。属性の1つは、OMIM中の疾患情報(関連疾患の有無)に関連する。他の属性は、ヒトPPIネットワーク中の相互作用タンパク質の数(2つの相互作用タンパク質に対応して、‘large’と‘small’を使用)、KEGG PATHWAYに基づく生物学的パスウェイの数(2つの相互作用タンパク質に対応した‘large’と‘small’と、2つのタンパク質が同時に含まれるパスウェイの数を使用)、GOタームの一致度スコア(3つのGOカテゴリーごとに計算)、KEGG ORTHOLOGY及びPIRSFに基づいた同一ファミリーに属するタンパク質(パラログ)の数(KEGG ORTHOLOGYとPIRSFのそれぞれに対して、2つの相互作用タンパク質に対応した‘large’と‘small’を使用)、UniGene中の遺伝子発現パターンに基づいて計数される、各遺伝子を発現している健康状態、体の部位、及び発達段階の数(相互作用タンパク質をコードする2つの遺伝子に対応して、‘large’と‘small’を使用。加えて、2つの遺伝子が同時に発現している場合の数も使用)、及び遺伝子発現パターンの類似性スコア(UniGeneの3つの遺伝子発現パターンごとに計算)である。
1−4.交差検定
正例とテスト例に対し、立体構造、薬剤/化合物、及び生物学的機能に関する各情報について69の属性を計算し、SVM法における特徴ベクトルとして使用した(表20)。SVMによる機械学習にはLibsvm(バージョン2.86)(http://www.csie.ntu.edu.tw/〜cjlin/libsvm/)プログラムパッケージを使用した。PPIの薬剤標的性を評価する上で最適のSVMモデルを、10倍交差検定(データの90%を学習に使用し、残りをテストに使用)を用いて検討した。交差検定には、3つのタイプの学習データ(正例:負例=1:1、1:2、1:3)を使用し、Libsvmに実装されている4つのカーネル関数(線形、多項式、Radial Basis Function(以下、RBF)、シグモイド)を用いて行った。
10,000のランダム学習データセット(ランダムに選択した正例と負例によって構成される)を作成し、この学習データセットに対して交差検定を行った。学習データセットの作成に際しては、正例中の類似例の重複に起因する過剰学習を回避するために、学習データ中の30の正例は、以下のルールに従い、98の正例からランダムに選択した。CD4/HLA−DQB1及びHOXB1/PBX1などのように、PPIが1例のみを有する場合、この1例は学習データを作成するために常に選択される。一方、複数の類似立体構造の存在によって、PPIが複数例を有する場合(BCL2/BAK1,ESR1/NCOA2,及びFKBP1A/TGFBR1など)、類似例の重複を避けるため、複数例から1例のみをランダムに選択した。負例については、学習データにおける正例と負例の比に応じて、30(1:1の場合),60(1:2の場合)又は90例(1:3の場合)を10,915のテスト例からランダムに選択し、これを仮想的に交差検定における負例として使用した。各ランダム学習データに対し、カーネル関数中の最適なパラメータをLibsvmパッケージ中のパラメータ選択プログラムによって評価し、その後、交差検定を行った。交差検定の結果に基づき、正確性、感度、及び特異性を計算した。これらは、
正確性=(TP+TN)/(TP+TN+FP+FN),
感度=TP/(TP+FN),
特異性=TN/(TN+FP),
で定義され、ここで、TP,TN,FP及びFNは、各々、真陽性、真陰性、偽陽性、偽陰性の数を表す。10,000の学習データセットを用いて、10,000回の交差検定を行い、感度、特異性及び正確性の平均値を計算した。
正例とテスト例に対し、立体構造、薬剤/化合物、及び生物学的機能に関する各情報について69の属性を計算し、SVM法における特徴ベクトルとして使用した(表20)。SVMによる機械学習にはLibsvm(バージョン2.86)(http://www.csie.ntu.edu.tw/〜cjlin/libsvm/)プログラムパッケージを使用した。PPIの薬剤標的性を評価する上で最適のSVMモデルを、10倍交差検定(データの90%を学習に使用し、残りをテストに使用)を用いて検討した。交差検定には、3つのタイプの学習データ(正例:負例=1:1、1:2、1:3)を使用し、Libsvmに実装されている4つのカーネル関数(線形、多項式、Radial Basis Function(以下、RBF)、シグモイド)を用いて行った。
10,000のランダム学習データセット(ランダムに選択した正例と負例によって構成される)を作成し、この学習データセットに対して交差検定を行った。学習データセットの作成に際しては、正例中の類似例の重複に起因する過剰学習を回避するために、学習データ中の30の正例は、以下のルールに従い、98の正例からランダムに選択した。CD4/HLA−DQB1及びHOXB1/PBX1などのように、PPIが1例のみを有する場合、この1例は学習データを作成するために常に選択される。一方、複数の類似立体構造の存在によって、PPIが複数例を有する場合(BCL2/BAK1,ESR1/NCOA2,及びFKBP1A/TGFBR1など)、類似例の重複を避けるため、複数例から1例のみをランダムに選択した。負例については、学習データにおける正例と負例の比に応じて、30(1:1の場合),60(1:2の場合)又は90例(1:3の場合)を10,915のテスト例からランダムに選択し、これを仮想的に交差検定における負例として使用した。各ランダム学習データに対し、カーネル関数中の最適なパラメータをLibsvmパッケージ中のパラメータ選択プログラムによって評価し、その後、交差検定を行った。交差検定の結果に基づき、正確性、感度、及び特異性を計算した。これらは、
正確性=(TP+TN)/(TP+TN+FP+FN),
感度=TP/(TP+FN),
特異性=TN/(TN+FP),
で定義され、ここで、TP,TN,FP及びFNは、各々、真陽性、真陰性、偽陽性、偽陰性の数を表す。10,000の学習データセットを用いて、10,000回の交差検定を行い、感度、特異性及び正確性の平均値を計算した。
2.結果
2−1.最適なSVMモデルの選択
4つのカーネル関数によって構築された各SVMモデルのうち、RBFカーネルによるモデルは、4つのカーネル関数の中で最も高い正確性と特異性を示した(表21)。線形、又は多項式のカーネルは、RBFカーネルより若干低い正確性を示し、シグモイドカーネルによる正確性が、最も低かった。感度については、正例:負例=1:1の学習データの場合には、RBFカーネルによって構築されたSVMモデルにおいて、正例:負例=1:2及び1:3の学習データの場合には、線形カーネルによって構築されたSVMモデルにおいて、最も高い値が得られた。全体として、RBFカーネルによるモデルが、正確性、感度、及び特異性について、比較的高い値を示し、本実施例においては、正例及び負例を区別するのにより適しているようであった。正例:負例=1:1の学習データを使用したSVMモデルによるReceiver Operating Characteristic(以下、ROC)曲線は、この結果を支持している(図4)。すなわち、RBFカーネルによるSVMモデルのROC曲線が最も広いArea Under Curve(以下、AUC)の値を持ち、多項式と線形がこれに次ぐことを示している。
表21はまた、学習データ中により多くの負例が含まれる程、交差検定において、より高い正確性が得られることを示している。しかしながら、感度と特異性は、正例:負例=1:2及び1:3の学習データにおいて不均衡な結果(感度と特異性が大きくかけ離れた値をとっている)を示した。特異性は、全てのカーネルにおいて徐々に増加するのに対し、感度は、劇的に減少している。このことは、SVMモデルがより多くの負例によって学習された場合、元々の負例を「負」であると判断する性能は高くなる一方、元々の正例を「正」であると判断する性能が、顕著に減少することを示唆している。本実施例においては、正例:負例=1:1の学習データを使用するRBFカーネルによって構築されたSVMモデルの感度と特異性は、均衡関係にあることから、このモデルをPPIの薬剤標的性の評価に対してより適したSVMモデルと判断した。
2−1.最適なSVMモデルの選択
4つのカーネル関数によって構築された各SVMモデルのうち、RBFカーネルによるモデルは、4つのカーネル関数の中で最も高い正確性と特異性を示した(表21)。線形、又は多項式のカーネルは、RBFカーネルより若干低い正確性を示し、シグモイドカーネルによる正確性が、最も低かった。感度については、正例:負例=1:1の学習データの場合には、RBFカーネルによって構築されたSVMモデルにおいて、正例:負例=1:2及び1:3の学習データの場合には、線形カーネルによって構築されたSVMモデルにおいて、最も高い値が得られた。全体として、RBFカーネルによるモデルが、正確性、感度、及び特異性について、比較的高い値を示し、本実施例においては、正例及び負例を区別するのにより適しているようであった。正例:負例=1:1の学習データを使用したSVMモデルによるReceiver Operating Characteristic(以下、ROC)曲線は、この結果を支持している(図4)。すなわち、RBFカーネルによるSVMモデルのROC曲線が最も広いArea Under Curve(以下、AUC)の値を持ち、多項式と線形がこれに次ぐことを示している。
表21はまた、学習データ中により多くの負例が含まれる程、交差検定において、より高い正確性が得られることを示している。しかしながら、感度と特異性は、正例:負例=1:2及び1:3の学習データにおいて不均衡な結果(感度と特異性が大きくかけ離れた値をとっている)を示した。特異性は、全てのカーネルにおいて徐々に増加するのに対し、感度は、劇的に減少している。このことは、SVMモデルがより多くの負例によって学習された場合、元々の負例を「負」であると判断する性能は高くなる一方、元々の正例を「正」であると判断する性能が、顕著に減少することを示唆している。本実施例においては、正例:負例=1:1の学習データを使用するRBFカーネルによって構築されたSVMモデルの感度と特異性は、均衡関係にあることから、このモデルをPPIの薬剤標的性の評価に対してより適したSVMモデルと判断した。
本実施例における最適のSVMモデルは、すでに既知の薬剤標的PPI(正例)とその他のPPI(負例)を81%の正確性で区別することができる(表21)。この値は、単一の薬剤標的タンパク質の予測に関する従来の研究において得られた正確性の値(75〜85%)と同等である(非特許文献1〜5)。この結果は、対象となるPPIに関する立体構造情報、薬剤/化合物情報、生物学的機能情報に関する種々の情報源からPPIの属性を取得し利用する、本発明における手法が、従来の薬剤標的タンパク質の予測手法と同等もしくはそれ以上の正確性をもって、薬剤標的PPIを予測することが可能であることを示唆している。
2−2.新規の薬剤標的PPIの予測
10,000のランダムな学習データセットを使用し、上述の最適SVMモデルを適用して新規な薬剤標的PPIを予測した。SVMモデルを、各ランダム学習データによって構築し、正例及びテスト例に適用した。この工程を、10,000回繰り返し行った。10,000回の学習−予測の繰り返しにおいて、各例をSVMモデルによって「正」であると判断した回数をカウントした。この回数が10,000に近いほど、その例が正例に類似していることを表している。
SVMモデルによって「正」であると判断された回数の度数分布によれば、正例及びテスト例は、本SVMモデルによって有効に分離されることが示された(図5)。10,915テスト例中、69例(42PPI)が、9,000回以上「正」であると判断された(表22及び表23(左:正例、右:テスト例))。9,000という閾値は、正例の度数分布の平均に基づいて設定した。
10,000のランダムな学習データセットを使用し、上述の最適SVMモデルを適用して新規な薬剤標的PPIを予測した。SVMモデルを、各ランダム学習データによって構築し、正例及びテスト例に適用した。この工程を、10,000回繰り返し行った。10,000回の学習−予測の繰り返しにおいて、各例をSVMモデルによって「正」であると判断した回数をカウントした。この回数が10,000に近いほど、その例が正例に類似していることを表している。
SVMモデルによって「正」であると判断された回数の度数分布によれば、正例及びテスト例は、本SVMモデルによって有効に分離されることが示された(図5)。10,915テスト例中、69例(42PPI)が、9,000回以上「正」であると判断された(表22及び表23(左:正例、右:テスト例))。9,000という閾値は、正例の度数分布の平均に基づいて設定した。
潜在的に薬剤標的性があると判断されたPPIは、生物学的機能及び細胞内局在の点において、広範囲に及び、例えば、膜受容体/シグナル伝達タンパク質(CD247/SHC1)、カルモジュリン/イオンチャンネル(CALM1/KCNN2及びCALM1/RYR1)(以上、細胞膜上及び細胞膜近傍で機能)、GTPアーゼ/その調節因子(ARHGDIA/CDC42、HRAS/RALGDSなど)、リン酸化酵素/その調節因子(GSK3B/AXIN1)(以上、細胞質内で機能)、ヒストンアセチル基転移酵素/転写因子(CREBBP/HIF1A、CREBBP/IRF3,EP300/HIF1Aなど)及び転写因子間のPPI(MAX/MYC,S100B/TP53,TP53/TP53BP1など)(以上、細胞核内で機能)などである(表22)。ここに示したPPIのうち、約半分は正例に含まれるタンパク質とその他のタンパク質との相互作用であるが、残りの半分は正例に含まれていないタンパク質同士の相互作用である。従って、本実施例で示したSVMモデルは、正例による過剰学習を受けておらず、新規の薬剤標的を予測するのに適していると考えられる。興味深いことに、このSVMモデルは、MYC/MAX及びEP300/HIF1Aなどの、阻害低分子化合物が既に見出されているPPIを薬剤標的PPIとして予測することに成功している(本実施例においては、これらのPPIはタンパク質/化合物複合体の立体構造及びモデル構造が解かれていないために、正例には加えていない)。この結果は、我々のアプローチが薬剤標的PPIの予測において非常に効果的であることを強く示唆するものである。
本発明によれば、薬剤標的の候補となり得るPPIを、膨大なPPIデータから、容易かつ迅速に選択することが可能となるため、創薬研究における新規なリード化合物の探索及び新薬の開発の促進に多大なる効果をもたらすものである。
Claims (10)
- 以下の(a)〜(c)に示す属性を有するタンパク質−タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的となるタンパク質−タンパク質相互作用を予測する数学モデルを構築する方法。
(a)タンパク質−タンパク質相互作用の立体構造の属性、
(b)該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性 - 前記正例が、薬剤標的であることが既知のタンパク質−タンパク質相互作用の前記(a)〜(c)に示す属性を有するデータセットであり、前記負例が、薬剤標的であることが既知のタンパク質−タンパク質相互作用以外のタンパク質−タンパク質相互作用に関する前記(a)〜(c)の属性を有するデータセットであることを特徴とする請求項1に記載の方法。
- 前記立体構造の属性が、前記タンパク質−タンパク質相互作用の相互作用境界面に存在するポケットの体積、構成原子の数、溶媒露出表面積(ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、水素結合供与原子の数、水素結合受容原子の数、疎水性度、及びアミノ酸頻度からなるグループより選択される1又は複数であることを特徴とする請求項1又は2に記載の方法。
- 前記薬剤/化合物の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する低分子薬の数、バイオ医薬品の数、米国食品医薬品局(Food and Drug Administration:FDA)承認薬の数、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、撤退医薬品の数、不法医薬品の数からなるグループより選択される1又は複数であることを特徴とする請求項1又は2に記載の方法。
- 前記生物学的機能の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に関する、関連疾患の有無、相互作用するタンパク質の数、各タンパク質が含まれるパスウェイの数、相互作用タンパク質間の生物学的機能の一致度、同一ファミリーに属するタンパク質の数、各相互作用タンパク質をコードする遺伝子を発現している個体の健康状態(腫瘍・がん組織)の数と体の部位(組織/器官)の数及び発達段階(成長段階)の数、各相互作用タンパク質をコードする遺伝子間の発現パターンの類似度からなるグループより選択される1又は複数であることを特徴とする請求項1又は2に記載の方法。
- 請求項1乃至5のいずれかの方法により作成された薬剤標的候補となるタンパク質−タンパク質相互作用のモデルを使用して、薬剤標的タンパク質−タンパク質相互作用を予測する方法。
- タンパク質−タンパク質相互作用の立体構造の属性、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、並びに、該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を入力する手段と、
該属性を特徴ベクトルとして機械学習によって作成された、薬剤標的タンパク質−タンパク質相互作用とそれ以外のタンパク質−タンパク質相互作用を判別する数学モデルを、予測対象のタンパク質−タンパク質相互作用へ適用する処理部と、
処理結果を表示する表示部を備えることを特徴とする、薬剤標的候補タンパク質−タンパク質相互作用の予測システム。 - 前記立体構造の属性が、前記タンパク質−タンパク質相互作用の相互作用境界面に存在するポケットの体積、構成原子の数、溶媒露出表面積(ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、水素結合供与原子の数、水素結合受容原子の数、疎水性度、及びアミノ酸頻度からなるグループより選択される1又は複数であることを特徴とする請求項7に記載の予測システム。
- 前記薬剤/化合物の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する低分子薬の数、バイオ医薬品の数、FDA承認薬の数、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、撤退医薬品の数、不法医薬品の数からなるグループより選択される1又は複数であることを特徴とする請求項7に記載の予測システム。
- 前記生物学的機能の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に関する、関連疾患の有無、相互作用するタンパク質の数、各タンパク質が含まれるパスウェイの数、相互作用タンパク質間の生物学的機能の一致度、同一ファミリーに属するタンパク質の数、各相互作用タンパク質をコードする遺伝子を発現している個体の健康状態(腫瘍・がん組織)の数と体の部位(組織/器官)の数及び発達段階(成長段階)の数、各相互作用タンパク質をコードする遺伝子間の発現パターンの類似度からなるグループより選択される1又は複数であることを特徴とする請求項7に記載の予測システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009007697A JP2010165230A (ja) | 2009-01-16 | 2009-01-16 | 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009007697A JP2010165230A (ja) | 2009-01-16 | 2009-01-16 | 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010165230A true JP2010165230A (ja) | 2010-07-29 |
Family
ID=42581326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009007697A Pending JP2010165230A (ja) | 2009-01-16 | 2009-01-16 | 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010165230A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013188437A2 (en) * | 2012-06-11 | 2013-12-19 | XPD Consulting, LLC | Ex vivo methods to identify circulating drug metabolites with drug interaction potential |
JP2014071836A (ja) * | 2012-10-01 | 2014-04-21 | Japan Science & Technology Agency | 承認予測装置、承認予測方法、および、プログラム |
US9141755B2 (en) | 2010-08-26 | 2015-09-22 | National Institute Of Biomedical Innovation | Device and method for selecting genes and proteins |
JP2016528565A (ja) * | 2013-06-28 | 2016-09-15 | ナントミクス,エルエルシー | 診断テストを特定するための経路分析 |
CN106778065A (zh) * | 2016-12-30 | 2017-05-31 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
JP2018092575A (ja) * | 2016-10-27 | 2018-06-14 | 武田薬品工業株式会社 | 化合物の生物活性を予測するためのプログラム、装置及び方法 |
CN110265085A (zh) * | 2019-07-29 | 2019-09-20 | 安徽工业大学 | 一种蛋白质相互作用位点识别方法 |
JP2019197549A (ja) * | 2013-06-24 | 2019-11-14 | サイランス・インコーポレイテッドCylance Inc. | 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム |
CN112086145A (zh) * | 2020-09-02 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种化合物活性预测方法、装置、电子设备和存储介质 |
CN115458046A (zh) * | 2022-10-09 | 2022-12-09 | 兰州大学 | 基于并行式深层细粒度模型预测药物靶标结合性的方法 |
US11615125B2 (en) | 2019-04-25 | 2023-03-28 | Fujitsu Limited | Relevance searching method, relevance searching apparatus, and storage medium |
-
2009
- 2009-01-16 JP JP2009007697A patent/JP2010165230A/ja active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9141755B2 (en) | 2010-08-26 | 2015-09-22 | National Institute Of Biomedical Innovation | Device and method for selecting genes and proteins |
WO2013188437A3 (en) * | 2012-06-11 | 2014-04-10 | XPD Consulting, LLC | Ex vivo methods to identify circulating drug metabolites with drug interaction potential |
US9085793B2 (en) | 2012-06-11 | 2015-07-21 | XPD Consulting, LLC | Ex vivo methods to identify circulating drug metabolites with drug interaction potential |
WO2013188437A2 (en) * | 2012-06-11 | 2013-12-19 | XPD Consulting, LLC | Ex vivo methods to identify circulating drug metabolites with drug interaction potential |
JP2014071836A (ja) * | 2012-10-01 | 2014-04-21 | Japan Science & Technology Agency | 承認予測装置、承認予測方法、および、プログラム |
JP2019197549A (ja) * | 2013-06-24 | 2019-11-14 | サイランス・インコーポレイテッドCylance Inc. | 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム |
US11657317B2 (en) | 2013-06-24 | 2023-05-23 | Cylance Inc. | Automated systems and methods for generative multimodel multiclass classification and similarity analysis using machine learning |
US11011273B2 (en) | 2013-06-28 | 2021-05-18 | Nantomics, Llc | Pathway analysis for identification of diagnostic tests |
JP2016528565A (ja) * | 2013-06-28 | 2016-09-15 | ナントミクス,エルエルシー | 診断テストを特定するための経路分析 |
JP2018092575A (ja) * | 2016-10-27 | 2018-06-14 | 武田薬品工業株式会社 | 化合物の生物活性を予測するためのプログラム、装置及び方法 |
JP7126337B2 (ja) | 2016-10-27 | 2022-08-26 | 武田薬品工業株式会社 | 化合物の生物活性を予測するためのプログラム、装置及び方法 |
CN106778065B (zh) * | 2016-12-30 | 2019-02-01 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
CN106778065A (zh) * | 2016-12-30 | 2017-05-31 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
US11615125B2 (en) | 2019-04-25 | 2023-03-28 | Fujitsu Limited | Relevance searching method, relevance searching apparatus, and storage medium |
CN110265085A (zh) * | 2019-07-29 | 2019-09-20 | 安徽工业大学 | 一种蛋白质相互作用位点识别方法 |
CN112086145A (zh) * | 2020-09-02 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种化合物活性预测方法、装置、电子设备和存储介质 |
CN115458046A (zh) * | 2022-10-09 | 2022-12-09 | 兰州大学 | 基于并行式深层细粒度模型预测药物靶标结合性的方法 |
CN115458046B (zh) * | 2022-10-09 | 2023-08-11 | 兰州大学 | 基于并行式深层细粒度模型预测药物靶标结合性的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010165230A (ja) | 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム | |
Wang et al. | Predicting human intestinal absorption with modified random forest approach: a comprehensive evaluation of molecular representation, unbalanced data, and applicability domain issues | |
Macalino et al. | Evolution of in silico strategies for protein-protein interaction drug discovery | |
Petrey et al. | Structural bioinformatics of the interactome | |
An et al. | Comprehensive identification of “druggable” protein ligand binding sites | |
Yu et al. | Site-identification by ligand competitive saturation (SILCS) assisted pharmacophore modeling | |
US8949157B2 (en) | Estimation of protein-compound interaction and rational design of compound library based on chemical genomic information | |
Liu et al. | Identifying druggable targets by protein microenvironments matching: application to transcription factors | |
Feldman et al. | Pocket similarity: are α carbons enough? | |
Qureshi et al. | Computational methods for the analysis and prediction of egfr-mutated lung cancer drug resistance: Recent advances in drug design, challenges and future prospects | |
Ramaprasad et al. | Defining the protein interaction network of human malaria parasite Plasmodium falciparum | |
Mintz et al. | Generation and analysis of a protein–protein interface data set with similar chemical and spatial patterns of interactions | |
Ye et al. | Ranking novel cancer driving synthetic lethal gene pairs using TCGA data | |
Athar et al. | Fundamental physical and chemical concepts behind “drug-likeness” and “natural product-likeness” | |
Sowmya et al. | Protein-protein interactions and prediction: a comprehensive overview | |
Zhang et al. | Calmodulin (CaM) activates PI3Kα by targeting the “soft” CaM-binding motifs in both the nSH2 and cSH2 domains of p85α | |
Huang et al. | Prediction of cancer proteins by integrating protein interaction, domain frequency, and domain interaction data using machine learning algorithms | |
Sieradzan et al. | Introduction of phosphorylated residues into the UNRES coarse-grained model: toward modeling of signaling processes | |
Sonavane et al. | Prediction of active site cleft using support vector machines | |
Sarkar et al. | Elucidating protein-protein interactions through computational approaches and designing small molecule inhibitors against them for various diseases | |
Nguyen et al. | Discovering putative protein targets of small molecules: a study of the p53 activator nutlin | |
Herrington et al. | Exploring the Druggable Conformational Space of Protein Kinases Using AI-Generated Structures | |
Zheng et al. | Epimix is an integrative tool for epigenomic subtyping using dna methylation | |
Thangakani et al. | Distinct position-specific sequence features of hexa-peptides that form amyloid-fibrils: application to discriminate between amyloid fibril and amorphous β-aggregate forming peptide sequences | |
Randhawa et al. | A systematic approach to prioritize drug targets using machine learning, a molecular descriptor-based classification model, and high-throughput screening of plant derived molecules: a case study in oral cancer |