CN116469485A - 一种针对多种病毒的新型活性化合物计算筛选方法 - Google Patents
一种针对多种病毒的新型活性化合物计算筛选方法 Download PDFInfo
- Publication number
- CN116469485A CN116469485A CN202310271258.4A CN202310271258A CN116469485A CN 116469485 A CN116469485 A CN 116469485A CN 202310271258 A CN202310271258 A CN 202310271258A CN 116469485 A CN116469485 A CN 116469485A
- Authority
- CN
- China
- Prior art keywords
- virus
- classification model
- antiviral
- compounds
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 34
- 241000700605 Viruses Species 0.000 title claims abstract description 32
- 238000012216 screening Methods 0.000 title claims abstract description 21
- 238000004364 calculation method Methods 0.000 title claims description 10
- 230000000840 anti-viral effect Effects 0.000 claims abstract description 38
- 238000013145 classification model Methods 0.000 claims abstract description 33
- 239000003814 drug Substances 0.000 claims abstract description 23
- 230000000694 effects Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 29
- 229940079593 drug Drugs 0.000 claims description 19
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 241000282414 Homo sapiens Species 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 241000700721 Hepatitis B virus Species 0.000 claims description 6
- 241001502567 Chikungunya virus Species 0.000 claims description 4
- 241000701022 Cytomegalovirus Species 0.000 claims description 4
- 241000711549 Hepacivirus C Species 0.000 claims description 4
- 241000725643 Respiratory syncytial virus Species 0.000 claims description 4
- 241000700618 Vaccinia virus Species 0.000 claims description 4
- 241000711975 Vesicular stomatitis virus Species 0.000 claims description 4
- 241001529453 unidentified herpesvirus Species 0.000 claims description 4
- 241000711573 Coronaviridae Species 0.000 claims description 3
- 241000712461 unidentified influenza virus Species 0.000 claims description 3
- 241001493065 dsRNA viruses Species 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 241000580858 Simian-Human immunodeficiency virus Species 0.000 claims 1
- 239000003443 antiviral agent Substances 0.000 abstract description 5
- 150000002611 lead compounds Chemical class 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 description 10
- 238000002790 cross-validation Methods 0.000 description 7
- 239000000126 substance Substances 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000007877 drug screening Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 241000725303 Human immunodeficiency virus Species 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000009509 drug development Methods 0.000 description 3
- 238000007876 drug discovery Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- QDGZDCVAUDNJFG-FXQIFTODSA-N entecavir (anhydrous) Chemical compound C1=2NC(N)=NC(=O)C=2N=CN1[C@H]1C[C@H](O)[C@@H](CO)C1=C QDGZDCVAUDNJFG-FXQIFTODSA-N 0.000 description 3
- 229940126586 small molecule drug Drugs 0.000 description 3
- 150000003384 small molecules Chemical class 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009385 viral infection Effects 0.000 description 3
- 208000030507 AIDS Diseases 0.000 description 2
- 102000014150 Interferons Human genes 0.000 description 2
- 108010050904 Interferons Proteins 0.000 description 2
- 208000036142 Viral infection Diseases 0.000 description 2
- 229960001997 adefovir Drugs 0.000 description 2
- WOZSCQDILHKSGG-UHFFFAOYSA-N adefovir depivoxil Chemical compound N1=CN=C2N(CCOCP(=O)(OCOC(=O)C(C)(C)C)OCOC(=O)C(C)(C)C)C=NC2=C1N WOZSCQDILHKSGG-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- IQFYYKKMVGJFEH-UHFFFAOYSA-N beta-L-thymidine Natural products O=C1NC(=O)C(C)=CN1C1OC(CO)C(O)C1 IQFYYKKMVGJFEH-UHFFFAOYSA-N 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 238000002648 combination therapy Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 229960000980 entecavir Drugs 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 229940079322 interferon Drugs 0.000 description 2
- 229960001627 lamivudine Drugs 0.000 description 2
- JTEGQNOMFQHVDC-NKWVEPMBSA-N lamivudine Chemical compound O=C1N=C(N)C=CN1[C@H]1O[C@@H](CO)SC1 JTEGQNOMFQHVDC-NKWVEPMBSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 229960005311 telbivudine Drugs 0.000 description 2
- IQFYYKKMVGJFEH-CSMHCCOUSA-N telbivudine Chemical compound O=C1NC(=O)C(C)=CN1[C@H]1O[C@@H](CO)[C@H](O)C1 IQFYYKKMVGJFEH-CSMHCCOUSA-N 0.000 description 2
- 229960004556 tenofovir Drugs 0.000 description 2
- VCMJCVGFSROFHV-WZGZYPNHSA-N tenofovir disoproxil fumarate Chemical compound OC(=O)\C=C\C(O)=O.N1=CN=C2N(C[C@@H](C)OCP(=O)(OCOC(=O)OC(C)C)OCOC(=O)OC(C)C)C=NC2=C1N VCMJCVGFSROFHV-WZGZYPNHSA-N 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 229940043263 traditional drug Drugs 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 229960005486 vaccine Drugs 0.000 description 2
- IYCUOURYSAUEEG-DHZHZOJOSA-N 2-[6-chloro-4-(2-chlorophenyl)-2-oxo-1h-quinolin-3-yl]ethyl (e)-3-[3-(trifluoromethyl)phenyl]prop-2-enoate Chemical compound FC(F)(F)C1=CC=CC(\C=C\C(=O)OCCC=2C(NC3=CC=C(Cl)C=C3C=2C=2C(=CC=CC=2)Cl)=O)=C1 IYCUOURYSAUEEG-DHZHZOJOSA-N 0.000 description 1
- HNZFWMILMKVQHF-UHFFFAOYSA-N 2-[6-chloro-4-(2-chlorophenyl)-2-oxo-1h-quinolin-3-yl]ethyl 1,7,7-trimethyl-2-oxo-3-oxabicyclo[2.2.1]heptane-4-carboxylate Chemical compound CC1(C)C(C(O2)=O)(C)CCC12C(=O)OCCC(C(NC1=CC=C(Cl)C=C11)=O)=C1C1=CC=CC=C1Cl HNZFWMILMKVQHF-UHFFFAOYSA-N 0.000 description 1
- GAWWTPLSFCITMK-UHFFFAOYSA-N 3-amino-6-chloro-4-(2-chlorophenyl)-1h-quinolin-2-one Chemical compound C12=CC(Cl)=CC=C2NC(=O)C(N)=C1C1=CC=CC=C1Cl GAWWTPLSFCITMK-UHFFFAOYSA-N 0.000 description 1
- WSBLFHVZURHTOZ-UHFFFAOYSA-N 6-chloro-4-(2-chlorophenyl)-2,3-dihydrofuro[2,3-b]quinoline Chemical compound C12=CC(Cl)=CC=C2N=C2OCCC2=C1C1=CC=CC=C1Cl WSBLFHVZURHTOZ-UHFFFAOYSA-N 0.000 description 1
- 101100385358 Alicyclobacillus acidoterrestris (strain ATCC 49025 / DSM 3922 / CIP 106132 / NCIMB 13137 / GD3B) cas12b gene Proteins 0.000 description 1
- 201000004569 Blindness Diseases 0.000 description 1
- 241001678559 COVID-19 virus Species 0.000 description 1
- 241000709675 Coxsackievirus B3 Species 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000700588 Human alphaherpesvirus 1 Species 0.000 description 1
- 241000701074 Human alphaherpesvirus 2 Species 0.000 description 1
- 241000701085 Human alphaherpesvirus 3 Species 0.000 description 1
- 241000701024 Human betaherpesvirus 5 Species 0.000 description 1
- 241000713772 Human immunodeficiency virus 1 Species 0.000 description 1
- 241000713340 Human immunodeficiency virus 2 Species 0.000 description 1
- 241000712431 Influenza A virus Species 0.000 description 1
- 241000713196 Influenza B virus Species 0.000 description 1
- 102100034343 Integrase Human genes 0.000 description 1
- 206010034133 Pathogen resistance Diseases 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- KAHQECZIGCHGRA-VQVTYTSYSA-N [(2r,3r,5s)-5-[2-amino-6-(methylamino)purin-9-yl]-3-azidooxolan-2-yl]methanol Chemical compound C1=NC=2C(NC)=NC(N)=NC=2N1[C@@H]1C[C@@H](N=[N+]=[N-])[C@H](CO)O1 KAHQECZIGCHGRA-VQVTYTSYSA-N 0.000 description 1
- MWINWGQRSUMWFP-UHFFFAOYSA-N [2-[(4-chlorophenyl)carbamoyl]phenyl] acetate Chemical compound CC(=O)OC1=CC=CC=C1C(=O)NC1=CC=C(Cl)C=C1 MWINWGQRSUMWFP-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000011281 clinical therapy Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000011067 equilibration Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000005182 global health Effects 0.000 description 1
- 208000002672 hepatitis B Diseases 0.000 description 1
- 208000010710 hepatitis C virus infection Diseases 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 238000001794 hormone therapy Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000010534 mechanism of action Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- NDHAIXPXQVVGOS-UHFFFAOYSA-N n-(5-bromo-1,3-thiazol-2-yl)-5-chloro-2-hydroxybenzamide Chemical compound OC1=CC=C(Cl)C=C1C(=O)NC1=NC=C(Br)S1 NDHAIXPXQVVGOS-UHFFFAOYSA-N 0.000 description 1
- RONSYAFZASVISE-UHFFFAOYSA-N n-(5-chloro-2-methyl-4-nitrophenyl)-2-hydroxybenzamide Chemical compound CC1=CC([N+]([O-])=O)=C(Cl)C=C1NC(=O)C1=CC=CC=C1O RONSYAFZASVISE-UHFFFAOYSA-N 0.000 description 1
- MDUJGGWXRNJXDC-UHFFFAOYSA-N n-(5-cyano-1,3-thiazol-2-yl)-2-hydroxybenzamide Chemical compound OC1=CC=CC=C1C(=O)NC1=NC=C(C#N)S1 MDUJGGWXRNJXDC-UHFFFAOYSA-N 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000009437 off-target effect Effects 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000003620 semiochemical Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- UNXRWKVEANCORM-UHFFFAOYSA-N triphosphoric acid Chemical class OP(O)(=O)OP(O)(=O)OP(O)(O)=O UNXRWKVEANCORM-UHFFFAOYSA-N 0.000 description 1
- 230000029812 viral genome replication Effects 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medicinal Chemistry (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种针对多种病毒的新型活性化合物计算筛选方法,该方法通过获取待筛选化合物的SMILES字符串,依据字符串计算对应的FP2分子指纹,将FP2分子指纹输入至训练好的分类模型,根据分类模型的输出结果筛选获得针对多种病毒的新型活性化合物;同时可计算与抗病毒活性化合物数据集的分子指纹相似性,并以此判断待测药物的结构新颖性。本发明的抗病毒化合物活性筛选方法成本低、效率高,在抗病毒药物的重定位和先导化合物确定具有广阔的应用前景。
Description
技术领域
本发明涉及化学信息学与药物筛选技术领域,具体涉及一种基于机器学习结合化学信息学的针对多种病毒的新型活性化合物计算筛选方法。
背景技术
急性病毒感染爆发和全球范围内日益增多的慢性病毒感染仍然是公共卫生安全的主要威胁之一,急需研发出新型抗病毒活性化合物。这不仅是为了应对当前的全球健康危机,也是为新出现和再次出现的病毒性传染病爆发做好准备。
据统计,目前能够感染人类的病毒已达到219种,但仅有9种病毒有针对性的批准临床治疗药物,对于许多具有高度传染性和致病性的病毒,目前还没有有效的治疗方法。目前已有的抗病毒小分子结构单一,缺乏结构多样性,大多数药物类型为核苷酸类似物,作用机制单一,而且很多药物都是作用于病毒的同一个靶蛋白。比如目前FDA已批准了5种小分子药物用于治疗乙肝病毒(HBV)感染:拉米夫定(lamivudine)、阿德福韦(adefovir)、恩替卡韦(entecavir)、替比夫定(telbivudine)和替诺福韦(tenofovir),这些核苷酸类似物作用机制被认为是通过其细胞代谢转化后形成的三磷酸盐衍生物作为底物或抑制剂与HBVDNA聚合酶或逆转录酶进行相互作用,从而抑制病毒复制。由于病毒的持续复制和频繁基因重组以及抗病毒药物的长期使用,现有的抗病毒小分子药物治疗方法并不总是有效或耐药性良好。为了改善耐药性,患者经常需要使用2种或2种以上的药物进行联合治疗,如HIV患者的鸡尾酒联合疗法,但是这种疗法一般不能治愈,只能终身服用抗病毒药物,最终也会增加病毒的耐药性。尽管特异性疫苗、干扰素和激素疗法在治疗方面取得一定效果,但仍然存在疫苗只能预防不能起到治疗作用以及干扰素疗法脱靶和激素疗法副作用强等问题。因此,研发出具有抗病毒活性的新型化合物才是解决上述问题的关键。
识别具有生物活性的新型化合物是药物发现的基础,受到成本、研发时间、通量的制约,基于传统生物学实验的筛查方法难以开展。根据Tufts药物研发中心统计,每个药物研发成本约26亿美元,周期大概十年。传统的抗病毒药物发现依赖高通量筛选,缺少前期必要的计算筛选过程,具有很大的盲目性,耗时耗力,难于进行临床转化。虽然目前已有一些研究尝试开发抗病毒化合物的计算筛选方法,但存在很多准确性低、适用范围小等缺点。因此,需要开发新的计算方法对多种病毒进行活性化合物筛选。
机器学习是指计算机通过大量数据训练和分析来模拟人类的学习行为从而获得新的知识和技能,其已经成功应用于计算机视觉、语音和手写识别以及无人驾驶众多领域。随着信息技术在生物医药行业领域的应用,制药行业的数字化技术快速发展,与药物相关的数据库不断涌现和完善,相关化合物实验活性数据量也在不断积累。同时已知的成药化合物空间巨大,据估计已达到了10^60个分子。庞大复杂的数据激发了机器学习在药物研发的应用,其已经广泛应用于新药发现和开发的所有阶段,基于机器学习的药物筛选效率远远领先于传统的药物筛选过程,尤其是先导化合物的筛选。为此,可以充分利用机器学习算法和化学信息学针对多种病毒进行新型活性化合物筛选,从而提高药物研发的成功率。
发明内容
本发明的目的在于降低病毒感染的威胁和克服现有传统药物筛选技术的缺陷而提供一种基于机器学习结合化学信息学针对多种病毒新型活性化合物计算筛选方法。
本发明的目的是通过以下技术方案来实现的:
一种针对多种病毒的新型活性化合物计算筛选方法,具体为:
获取待筛选化合物的SMILES字符串,依据字符串计算对应的FP2分子指纹,将FP2分子指纹输入至训练好的分类模型,根据分类模型的输出结果筛选获得新型活性化合物;
所述分类模型通过如下方法训练获得:
(1)构建训练数据集,所述训练数据集的每一样本包括针对特定病毒具有活性的化合物的FP2分子指纹和活性标签,其中活性标签依据设定的药物浓度IC50阈值设置,其中药物浓度IC50小于阈值的化合物为抗病毒活性化合物标签,药物浓度IC50大于阈值的化合物为抗病毒非活性化合物标签;
(2)构建分类模型,以训练数据集的每一样本的FP2分子指纹作为输入,通过最小化分类模型的输出与活性标签的误差为目标进行训练,获得训练好的分类模型。
进一步地,所述步骤(1)中,还包括:通过SMOTE算法对训练数据集进行平衡处理。
进一步地,所述步骤(2)中,分类模型训练的过程中通过格点搜索策略进行参数优化。
进一步地,还包括:将筛选获得的针对多种病毒的新型活性化合物与抗病毒活性化合物数据集的计算分子指纹相似性,并以此判断待测药物的结构新颖性。
进一步地,分子指纹相似性采用谷本系数度量。
进一步地,所述病毒包括:
DNA病毒:乙型肝炎病毒、巨细胞病毒、人疱疹病毒(1型,2型,3型,5型)或牛痘病毒中的一种;
RNA病毒:新型冠状病毒、艾滋病病毒(1型、2型)、基孔肯亚病毒、丙型肝炎病毒、流感病毒(A型,B型)、呼吸道合胞病毒、水疱性口炎病毒、人柯萨奇B3病毒中的一种。
进一步地,所述训练数据集从ChEMBL和PubChem数据库中获取信息构建获得。
进一步地,所述分类模型为支持向量机和/或随机森林。
进一步地,所述分类模型为支持向量机和随机森林,若支持向量机和随机森林输出的结果均为活性,则认为待预测化合物具有抗病毒活性。
本发明的有益效果是:本发明的抗病毒化合物活性预测方法可针对包括DNA或RNA共17种病毒,以FP2分子指纹作为支持向量机和随机森林算法的输入特征,模型准确性较高,并可利用模型对大型化合物数据库进行大批量筛选,具有成本低、效率高的优点,该方法在抗病毒药物的重定位和先导化合物发现具有广阔的应用前景。
附图说明
图1为抗病毒化合物活性预测模型一般构建流程图;
图2为本发明提出的一种可选的实施例中抗HBV化合物活性分类预测模型中SVM算法惩罚系数参数C的格点搜索及10折交叉验证;
图3为本发明提出的一种可选的实施例中抗HBV化合物活性分类预测模型中RF算法决策树数目参数n_estimators的格点搜索及10折交叉验证;
图4为本发明提出的一种可选的实施例中所有抗病毒化合物活性分类预测模型中SVM和RF模型的AUC得分;
图5为本发明提出的一种可选的实施例中所有抗病毒化合物活性分类预测模型中SVM和RF模型的分类指标得分;
具体实施方式
为更好的说明本发明的目的、技术方案和优点,下面将结合具体实施例对本发明作进一步说明。
本发明提供了一种针对多种病毒的新型活性化合物计算筛选方法,通过利用训练好的分类模型,根据分类模型的输出结果筛选获得针对多种病毒的新型活性化合物;一般情况下,先训练分类模型,如图1所示,分类模型的训练方法如下:
(1)构建训练数据集,所述训练数据集的每一样本包括针对病毒具有活性的化合物的FP2分子指纹和活性标签。
具体地,包括以下子步骤:
(1.1)收集数据并标记标签:
本发明实施例从ChEMBL(https://www.ebi.ac.uk/chembl/)药物数据库中下载多种病毒如乙型肝炎病毒、巨细胞病毒、人疱疹病毒(1型,2型,3型,5型)、牛痘病毒、新型冠状病毒、艾滋病病毒(1型,2型)、基孔肯亚病毒、丙型肝炎病毒、流感病毒(A型,B型)、呼吸道合胞病毒、水疱性口炎病毒、人柯萨奇B3病毒的抗病毒化合物生物活性数据,同时获取化合物的SMILES字符串信息。SMILES指简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。并依据设定的药物浓度IC50阈值设置活性标签,例如按照化合物药物浓度IC50小于10μmol/L设定为抗病毒活性化合物并标记对应标签,将化合物大100μmol/L设定为抗病毒非活性化合物并标记对应标签。收集的情况如表1所示。
表1:17种病毒的数据统计情况
CN_Name | EN_Name | Type | Active_Number | Inactive_Number |
巨细胞病毒 | Cytomegalovirus | DNA | 52 | 67 |
乙型肝炎病毒 | Hepatitis B virus | DNA | 825 | 470 |
人疱疹病毒1型 | Human herpesvirus 1 | DNA | 423 | 903 |
人疱疹病毒2型 | Human herpesvirus 2 | DNA | 238 | 266 |
人疱疹病毒3型 | Human herpesvirus 3 | DNA | 267 | 147 |
人疱疹病毒5型 | Human herpesvirus 5 | DNA | 708 | 585 |
牛痘病毒 | Vaccinia virus | DNA | 220 | 483 |
基孔肯亚病毒 | Chikungunya virus | RNA | 99 | 83 |
丙型肝炎病毒 | Hepatitis C virus | RNA | 6156 | 331 |
艾滋病1型 | Human immunodeficiency virus 1 | RNA | 10900 | 1468 |
艾滋病2型 | Human immunodeficiency virus 2 | RNA | 479 | 712 |
流感A病毒 | Influenza A virus | RNA | 759 | 404 |
流感B病毒 | Influenza B virus | RNA | 60 | 125 |
呼吸道合胞病毒 | Respiratory syncytial virus | RNA | 688 | 296 |
新型冠状病毒 | SARS-CoV-2 | RNA | 105 | 109 |
水疱性口炎病毒 | Vesicular stomatitis virus | RNA | 83 | 326 |
人柯萨奇B3病毒 | Human coxsackievirus B3 | RNA | 199 | 52 |
进一步地,把同时出现在抗病毒活性化合物和抗病非活性化合物的数据集中的化合物进行去除。
(1.2)计算收集的化合物的FP2分子指纹:
通过Python化学信息软件包Pybel根据化合物的SMILES字符串计算FP2分子指纹,并以1024bits进行表征化合物。
(1.3)去除相似度大的化合物:
然后对抗病毒活性化合物和抗病非活性化合物的两组数据集的化合物计算两两结构相似性,结构相似性用谷本系数(Tanimoto Coefficient,TC)度量。TC值介于0到1之间,TC值越大表示两化合物之间共有结构特征越多。TC值的计算公式为TC=C(i,j)/U(i,j),其中C(i,j)表示两个小分子i和j的分子指纹中共有特征的数目,U(i,j)表示两个小分子i和j的分子指纹中所有特征的数目。TC值小于0.5意味着两个化合物相似性低。因此,把TC值大于0.9的化合物进行去除,最后将化合物的FP2分子指纹和活性标签一一组对,得到训练数据集。构建的训练数据集的部分样本如表2所示。
表2:训练数据集的部分样本
SMILES | CHEMBL_ID | CLASS |
N#Cc1cnc(NC(=O)c2ccccc2O)s1 | CHEMBL1801516 | 1 |
CC(=O)Oc1ccccc1C(=O)Nc1ccc(Cl)cc1 | CHEMBL238035 | 1 |
O=C(Nc1ncc(Br)s1)c1cc(Cl)ccc1O | CHEMBL1801509 | 1 |
Cc1cc([N+](=O)[O-])c(Cl)cc1NC(=O)c1ccccc1O | CHEMBL1802240 | 1 |
C=C1[C@@H](n2cnc3c(=O)[nH]c(N)nc32)C[C@H](O)[C@H]1CO | CHEMBL713 | 1 |
O=C(/C=C/c1cccc(C(F)(F)F)c1)OCCc1c(-c2ccccc2Cl)c2cc(Cl)ccc2[nH]c1=O | CHEMBL1652526 | 0 |
CNc1nc(N)nc2c1ncn2[C@@H]1C[C@@H](N=[N+]=[N-])[C@H](CO)O1 | CHEMBL1830928 | 0 |
Nc1c(-c2ccccc2Cl)c2cc(Cl)ccc2[nH]c1=O | CHEMBL462323 | 0 |
CC12CCC(C(=O)OCCc3c(-c4ccccc4Cl)c4cc(Cl)ccc4[nH]c3=O)(OC1=O)C2(C)C | CHEMBL1652511 | 0 |
Clc1ccc2nc3c(c(-c4ccccc4Cl)c2c1)CCO3 | CHEMBL1652496 | 0 |
表中,1表示抗病毒活性化合物,0表示抗病毒非活性化合物;
作为一种优选方案,获得用于训练模型的训练数据集后,对于阳性数据和阴性数据样本数目不平衡的情形可以通过SMOTE算法对训练数据集进行平衡处理,得到平衡的基准数据集,即活性和非活性化合物的数目是相同的。
另外,本实施例对每一种病毒的基准数据集使用Python机器学习框架软件包scikit-learn的train_test_split函数按照训练集:测试集=75%:25%的比例进行划分,其中对于数据集的正样本和负样本进行分层抽样以使活性化合物和非活性化合物的比例在训练集和测试集中相同。
(2)构建分类模型,以训练数据集的每一样本的FP2分子指纹作为输入,通过最小化分类模型的输出与活性标签的误差为目标进行训练,获得训练好的分类模型。本发明的分类模型可以常规的机器学习模型,本实施例中,包括:
基于支持向量机构建和训练的分类模型:支持向量机是一种监督式学习的方法,可广泛地应用于统计分类和回归分析。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。对于二元分类问题,首先选择核函数“rbf”,然后再进行格点搜索确定惩罚参数C,参数选择为0.5和1,以及范围为50到1000,步长为50,同时对每一个格点进行10折交叉验证。利用基于Python的机器学习模块库Scikit-learn中封装的libsvm27完成支持向量机模型的构建。根据最高平均AUC来选择最佳模型和参数C,其它参数默认。例如图2为抗乙型肝炎病毒化合物活性支持向量机预测模型的十折交叉验证来确定参数C。
基于随机森林构建的分类模型:随机森林是一种利用多棵决策树对样本进行训练并预测的分类器。决策树数目很大程度影响算法的准确性,所以利用格点搜索策略确定决策树数目参数n_estimators,参数选择范围为50到1000,步长为50,同时对每一个estimators进行10折交叉验证。利用基于Python的机器学习模块库Scikit-learn中的随机森林分类器对样本进行训练和预测。根据最高平均AUC来选择最佳模型和参数estimators,其它参数采用默认设置。例如图3为抗乙型肝炎病毒化合物活性随机森林预测模型的十折交叉验证来确定参数n_estimators。
17种抗病毒化合物活性预测模型中RF和SVM的最佳参数及AUC得分如表3和图4所示。
表3:17种抗病毒化合物活性预测模型中RF和SVM的最佳参数及AUC得分(图4)
最后,利用测试集对最佳参数构建的所有模型都采用10折交叉验证方法来评估它们的分类性能。每种模型再用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1 Score)四种指标来评价。它们的计算公式如下,其中TP为真阳性,TN为真阴性,FP为假阳性,FN为假阴性。
结果如图5所示,本发明构建的17种抗病毒化合物的分类模型均具有良好的分类性能。利用训练好的分类模型可对现有化合物数据库进行筛选,从而发掘抗病毒新型活性化合物。
首先,从DrugBank药物数据库中下载所有的上市药物及其化学结构信息,一共包括2485个小分子药物。获取待筛选化合物的SMILES字符串,依据字符串计算对应的FP2分子指纹,将FP2分子指纹输入至训练好的分类模型,根据分类模型的输出结果,输出为具有活性的即为潜在的抗病毒化合物。
进一步地,将筛选的潜在的抗病毒化合物与抗病毒活性数据集进行结构比较,同样地,可通过谷本系数度量潜在的抗病毒化合物与抗病毒活性化合物数据集的分子指纹相似性,进而发掘具有潜在抗病毒活性且新颖的药物。筛选结果如下表:
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。
Claims (9)
1.一种针对多种病毒的新型活性化合物计算筛选方法,其特征在于,具体为:
获取待筛选化合物的SMILES字符串,依据字符串计算对应的FP2分子指纹,将FP2分子指纹输入至训练好的分类模型,根据分类模型的输出结果筛选获得新型活性化合物;
所述分类模型通过如下方法训练获得:
(1)构建训练数据集,所述训练数据集的每一样本包括针对特定病毒具有活性的化合物的FP2分子指纹和活性标签,其中活性标签依据设定的药物浓度IC50阈值设置,其中药物浓度IC50小于阈值的化合物为抗病毒活性化合物标签,药物浓度IC50大于阈值的化合物为抗病毒非活性化合物标签;
(2)构建分类模型,以训练数据集的每一样本的FP2分子指纹作为输入,通过最小化分类模型的输出与活性标签的误差为目标进行训练,获得训练好的分类模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,还包括:通过SMOTE算法对训练数据集进行平衡处理。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)中,分类模型训练的过程中通过格点搜索策略进行参数优化。
4.根据权利要求1所述的方法,其特征在于,还包括:将筛选获得的新型活性化合物与抗病毒活性化合物数据集的计算分子指纹相似性,并以此判断待测药物的结构新颖性。
5.根据权利要求4所述的方法,其特征在于,分子指纹相似性采用谷本系数度量。
6.根据权利要求1所述的方法,其特征在于,所述病毒包括:
DNA病毒:乙型肝炎病毒、巨细胞病毒、人疱疹病毒或牛痘病毒中的一种;
RNA病毒:新型冠状病毒、艾滋病病毒、基孔肯亚病毒、丙型肝炎病毒、流感病毒、呼吸道合胞病毒、水疱性口炎病毒、人柯萨奇B3病毒中的一种。
7.根据权利要求1所述的方法,其特征在于,所述训练数据集从ChEMBL和PubChem数据库中获取信息构建获得。
8.根据权利要求1所述的方法,其特征在于,所述分类模型为支持向量机和/或随机森林。
9.根据权利要求8所述的方法,其特征在于,所述分类模型为支持向量机和随机森林,若支持向量机和随机森林输出的结果均为活性,则认为待预测化合物具有抗病毒活性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310271258.4A CN116469485A (zh) | 2023-03-20 | 2023-03-20 | 一种针对多种病毒的新型活性化合物计算筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310271258.4A CN116469485A (zh) | 2023-03-20 | 2023-03-20 | 一种针对多种病毒的新型活性化合物计算筛选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116469485A true CN116469485A (zh) | 2023-07-21 |
Family
ID=87177928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310271258.4A Pending CN116469485A (zh) | 2023-03-20 | 2023-03-20 | 一种针对多种病毒的新型活性化合物计算筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469485A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314908A (zh) * | 2023-11-29 | 2023-12-29 | 四川省烟草公司凉山州公司 | 一种烤烟病毒溯源方法、介质及系统 |
-
2023
- 2023-03-20 CN CN202310271258.4A patent/CN116469485A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314908A (zh) * | 2023-11-29 | 2023-12-29 | 四川省烟草公司凉山州公司 | 一种烤烟病毒溯源方法、介质及系统 |
CN117314908B (zh) * | 2023-11-29 | 2024-03-01 | 四川省烟草公司凉山州公司 | 一种烤烟病毒溯源方法、介质及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731309B (zh) | 一种药物活性的预测方法及其应用 | |
CN111785328B (zh) | 基于门控循环单元神经网络的冠状病毒序列识别方法 | |
CN102884203B (zh) | 用于对查询序列的基因型与亚型进行分类的方法 | |
Bustamam et al. | Application of k-means clustering algorithm in grouping the DNA sequences of hepatitis B virus (HBV) | |
CN116469485A (zh) | 一种针对多种病毒的新型活性化合物计算筛选方法 | |
US20150310168A1 (en) | Method for predicting gene cluster including secondary metabolism-related genes, prediction program, and prediction device | |
RU2018109529A (ru) | Многоуровневая архитектура распознавания паттернов в биологических данных | |
Mutlu et al. | Accelerating genome analysis via algorithm-architecture co-design | |
Chen et al. | PACVP: prediction of anti-coronavirus peptides using a stacking learning strategy with effective feature representation | |
Muflikhah et al. | Profiling DNA sequence of SARS-Cov-2 virus using machine learning algorithm | |
Modak et al. | Application of support vector machines in viral biology | |
KR101953651B1 (ko) | 쿼리 서열의 유전형 또는 아형 분류 방법 | |
Al Kindhi et al. | Pattern matching performance comparisons as big data analysis recommendations for hepatitis C virus (HCV) sequence DNA | |
Nawaz et al. | S-PDB: Analysis and classification of SARS-CoV-2 Spike protein structures | |
Bulla et al. | Improving Hidden Markov Models for classification of human immunodeficiency virus-1 subtypes through linear classifier learning | |
Muhammad et al. | Classification of covid-19 variants using boosting algorithm | |
Behera et al. | Analysis of gene expression data by evolutionary clustering algorithm | |
Chrysostomou et al. | Signal-processing-based bioinformatics approach for the identification of influenza A virus subtypes in Neuraminidase genes | |
Periwal et al. | A novel binary k-mer approach for classification of coding and non-coding RNAs across diverse species | |
Abadi et al. | An Assessment of PC-mer's Performance in Alignment-Free Phylogenetic Tree Construction | |
Parvez et al. | The Role of AI, Fuzzy Logic System in Computational Biology and Bioinformatics | |
Begum et al. | Bioactivity Classification of SARS-CoV-2 Proteinase Using Machine Learning Approaches | |
CN114242171B (zh) | 一种逻辑回归与多示例学习相结合的bcr分类方法 | |
Kalaiselvi et al. | Efficiency of Using Sequence Discovery for Polymorphism in DNA Sequence | |
Iskandar et al. | Short segment search method for phylogenetic analysis using nested sliding windows |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |