CN117708679A - 一种基于神经网络的药物筛选方法及装置 - Google Patents
一种基于神经网络的药物筛选方法及装置 Download PDFInfo
- Publication number
- CN117708679A CN117708679A CN202410159821.3A CN202410159821A CN117708679A CN 117708679 A CN117708679 A CN 117708679A CN 202410159821 A CN202410159821 A CN 202410159821A CN 117708679 A CN117708679 A CN 117708679A
- Authority
- CN
- China
- Prior art keywords
- drug screening
- virus
- training
- network model
- drug
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007877 drug screening Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 29
- 241000127282 Middle East respiratory syndrome-related coronavirus Species 0.000 claims abstract description 51
- 239000003814 drug Substances 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 49
- 241000315672 SARS coronavirus Species 0.000 claims abstract description 42
- 241000711573 Coronaviridae Species 0.000 claims abstract description 40
- 229940079593 drug Drugs 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 13
- 239000003443 antiviral agent Substances 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 150000003384 small molecules Chemical class 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 201000003176 Severe Acute Respiratory Syndrome Diseases 0.000 abstract description 12
- 238000011160 research Methods 0.000 abstract description 12
- 208000025370 Middle East respiratory syndrome Diseases 0.000 abstract description 11
- 101000674278 Homo sapiens Serine-tRNA ligase, cytoplasmic Proteins 0.000 abstract description 9
- 101000674040 Homo sapiens Serine-tRNA ligase, mitochondrial Proteins 0.000 abstract description 9
- 102100040597 Serine-tRNA ligase, mitochondrial Human genes 0.000 abstract description 9
- 102100040516 Serine-tRNA ligase, cytoplasmic Human genes 0.000 abstract description 8
- 230000008506 pathogenesis Effects 0.000 abstract description 4
- 230000000840 anti-viral effect Effects 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 150000001875 compounds Chemical class 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000009510 drug design Methods 0.000 description 8
- 241000700605 Viruses Species 0.000 description 7
- 238000007876 drug discovery Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000012827 research and development Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 208000001528 Coronaviridae Infections Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 208000025721 COVID-19 Diseases 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000003446 ligand Substances 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 101800000535 3C-like proteinase Proteins 0.000 description 2
- 101800002396 3C-like proteinase nsp5 Proteins 0.000 description 2
- 101100151946 Caenorhabditis elegans sars-1 gene Proteins 0.000 description 2
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 229940121657 clinical drug Drugs 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- -1 small molecule compounds Chemical class 0.000 description 2
- 229940126586 small molecule drug Drugs 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000011701 zinc Substances 0.000 description 2
- 229910052725 zinc Inorganic materials 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 101000741396 Chlamydia muridarum (strain MoPn / Nigg) Probable oxidoreductase TC_0900 Proteins 0.000 description 1
- 101000741399 Chlamydia pneumoniae Probable oxidoreductase CPn_0761/CP_1111/CPj0761/CpB0789 Proteins 0.000 description 1
- 101000741400 Chlamydia trachomatis (strain D/UW-3/Cx) Probable oxidoreductase CT_610 Proteins 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 239000004378 Glycyrrhizin Substances 0.000 description 1
- 102000002227 Interferon Type I Human genes 0.000 description 1
- 108010014726 Interferon Type I Proteins 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- XUZMWHLSFXCVMG-UHFFFAOYSA-N baricitinib Chemical compound C1N(S(=O)(=O)CC)CC1(CC#N)N1N=CC(C=2C=3C=CNC=3N=CN=2)=C1 XUZMWHLSFXCVMG-UHFFFAOYSA-N 0.000 description 1
- 229950000971 baricitinib Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000012362 drug development process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- LPLVUJXQOOQHMX-UHFFFAOYSA-N glycyrrhetinic acid glycoside Natural products C1CC(C2C(C3(CCC4(C)CCC(C)(CC4C3=CC2=O)C(O)=O)C)(C)CC2)(C)C2C(C)(C)C1OC1OC(C(O)=O)C(O)C(O)C1OC1OC(C(O)=O)C(O)C(O)C1O LPLVUJXQOOQHMX-UHFFFAOYSA-N 0.000 description 1
- UYRUBYNTXSDKQT-UHFFFAOYSA-N glycyrrhizic acid Natural products CC1(C)C(CCC2(C)C1CCC3(C)C2C(=O)C=C4C5CC(C)(CCC5(C)CCC34C)C(=O)O)OC6OC(C(O)C(O)C6OC7OC(O)C(O)C(O)C7C(=O)O)C(=O)O UYRUBYNTXSDKQT-UHFFFAOYSA-N 0.000 description 1
- 229960004949 glycyrrhizic acid Drugs 0.000 description 1
- 235000019410 glycyrrhizin Nutrition 0.000 description 1
- LPLVUJXQOOQHMX-QWBHMCJMSA-N glycyrrhizinic acid Chemical compound O([C@@H]1[C@@H](O)[C@H](O)[C@H](O[C@@H]1O[C@@H]1C([C@H]2[C@]([C@@H]3[C@@]([C@@]4(CC[C@@]5(C)CC[C@@](C)(C[C@H]5C4=CC3=O)C(O)=O)C)(C)CC2)(C)CC1)(C)C)C(O)=O)[C@@H]1O[C@H](C(O)=O)[C@@H](O)[C@H](O)[C@H]1O LPLVUJXQOOQHMX-QWBHMCJMSA-N 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000013090 high-throughput technology Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 229930014626 natural product Natural products 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 229940124597 therapeutic agent Drugs 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001018 virulence Effects 0.000 description 1
- 230000006394 virus-host interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biotechnology (AREA)
- Toxicology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种基于神经网络的药物筛选方法及装置,包括:构建MERS病毒和SARS病毒的药物筛选网络模型;分别对MERS病毒和SARS病毒的药物筛选网络模型进行训练;将完成训练后的MERS病毒和SARS病毒的药物筛选网络模型进行合并,并增加神经网络的卷积层和连接层,构建新冠病毒的药物筛选网络模型;对新冠病毒的药物筛选网络模型进行训练;利用训练完成的新冠病毒的药物筛选网络模型筛选出新冠病毒的药物;MERS与SARS2具有相似的临床表征,SARS1和SARS2具有高相似的致病机理;其后在两类模型的基础之上进行微调使其既符合生化研究路线,又保证了数学逻辑推理的正确性。
Description
技术领域
本申请涉及药物筛选技术领域,尤其涉及一种基于神经网络的药物筛选方法及装置。
背景技术
近来,随着病毒、细菌等病原体的不断进化,药物作为缓解、治疗或预防疾病的物质,如图 1所示,在药物研发过程中一般需要经历:药物发现、药物临床前研究、药物临床研究、药物上市等多个阶段,研发过程中的每个阶段前后关联,后续研究的失败常常导致前期巨大的沉没成本。也正是这样的风险叠加,形成了药物研发过程复杂、周期性长、成本高昂等特点,加剧了药物研发过程与人类生活健康需求之间的潜在矛盾。在高昂研发成本的驱使下,制药公司目前正在寻找可以提高研发效率和转化成功率的新技术。
传统的药物发现方式主要是利用人工湿法实验的方式进行验证,由于实验环境、操作等不可控因素的影响,该方式费事、费力且容易造成实验结果不准确等问题;其后随着科学技术的进步,越来越多的实验室采用高通量实验的方式进行较大规模的药物合成与发现研究,该方式相较于人工实验效率得到了一定的提升,但成本较高;为了进一步优化和提升实验效率,计算机辅助药物设计研究工作逐渐成为了主流的研究方式,早期研究主要集中于计算化学中的量子和分子动力学模拟工作,但其计算量较大且各参数变量之间常常存在较为隐蔽不易发觉的潜在规则;为了能够发现和挖掘其中的潜在规律,人工智能技术成为了首选的解决方案。
目前主要采用计算机辅助药物设计(Computer Aided Drug Design,CADD)来实现药物发现,在药物发现时可以对靶标蛋白质与配体分子结合过程进行计算模拟,开展药物分子的发现与优化;由于高通量技术的发展和应用,产生了丰富的药物、疾病、基因和蛋白等数据,这都使得开展人工智能药物发现成为可能。相较于传统药物研发方式,人工智能(AI)辅助药物发现深刻改变了药物发现的方法和途径,提升药物研发的成功率,缩短研发周期,提供了新的思路和研究方向。以席卷全球的新冠病毒为例,通常计算式药物研发系统由三个单元组成:①靶点发现;②小分子药物发现;③预测临床试验结果。
但是,新型冠状病毒感染(COVID-19)是由严重急性呼吸综合征冠状病毒2型(SARS-CoV-2)引起的急性呼吸道传染病,众多研究人员在使用人工智能(AI)辅助药物发现来鉴定用于治疗COVID-19的候选药物方面做出了重大努力。
在候选药物筛选时,首先是基于AI或机器学习(ML)的COVID-19治疗药物重定位方法,包括基于网络的算法,基于表型的算法和分子对接模拟算法;或利用一种特殊的网络标签传播方法与基于正则化拉普拉斯算子(Regularized Laplacian,RL)的半监督学习方法相结合,对病毒-宿主相互作用组进行识别,以识别额外的SARS-CoV-2相互作用者。
或将转录组数据输入基于AI的平台Infinity Phenotype,以揭示天然产物的功效。实验结果表明,甘草素通过模仿I型干扰素发挥抗病毒作用,可作为治疗COVID-19的竞争候选药物。
或利用了数学姿势和卷积神经网络来预测SARS-CoV-2 3CL蛋白酶的空间结构和蛋白质-配体结合亲和力,预测出15种潜在的高活性小分子化合物,这为药物再利用提供了关键信息。
或基于神经网络进行药物重新定位,确定出了16种潜在的抗人类感冒冠状病毒药物作为新冠病毒感染药物。
或通过利用目标蛋白的晶体结构和同源模型的知识,提出了一种分子生成式化学管线来设计针对COVID-19的抑制剂,并通过深度学习中的生成自动编码器、生成对抗网络、遗传算法和语言模型来研究药物的化学性质,产生了几种新的药物化合物以供进一步开发。
或通过结合蒙特卡洛树搜索算法和多任务神经网络,提出了一种计算方法来发现治疗 COVID-19的新治疗剂。
此外,企业也积极参与其中。英国AI制药公司Benevolent AI通过知识网络图谱分析与识别,预测了巴瑞替尼(Baricitinib)或可用于治疗新冠病毒感染,国内生物医药公司英矽智能已发现一款靶向主蛋白酶(3CL)的全新临床前候选药物,用于治疗新型冠状病毒感染引起的肺炎。尽管现在病毒毒力变弱,致死率大大降低,但传染性较强,且尚未发现特效药。
但是目前由于没有新冠病毒的药物,因此在采用人工智能进行药物发现时,并不能够通过训练和具体的算法来获得正确的药物,给新冠病毒的药物研发带来了极大的困难。
发明内容
为解决上述的技术问题本申请提供一种针对新型冠状病毒3CLPro(主蛋白酶)靶标,基于MPNN(消息传递)图神经网络的药物筛选网络模型。该筛选模型通过Pre-train(预训练)和Fine-tune(微调)两阶段方式,借鉴MERS(中东呼吸综合征冠状病毒)和SARS1的抗病毒信息,实现对小分子药物筛选的基于神经网络的药物筛选方法及装置;
本申请是通过以下技术方案实现的,一种基于神经网络的药物筛选方法,包括:
分别构建MERS病毒和SARS病毒的药物筛选网络模型;
分别对MERS病毒和SARS病毒的药物筛选网络模型进行训练;
将完成训练后的MERS病毒和SARS病毒的药物筛选网络模型进行合并,并在合并后的网络模型中增加神经网络的卷积层和连接层,构建新冠病毒的药物筛选网络模型;
对新冠病毒的药物筛选网络模型进行训练;
利用训练完成的新冠病毒的药物筛选网络模型筛选出新冠病毒的药物。
进一步的,对MERS病毒和SARS病毒的药物筛选网络模型进行训练的方法包括:
获取MERS病毒和SARS病毒的小分子抗病毒药物数据集;
对获取的数据集进行清洗,剔除错误数据;
获取清洗后的数据集中的代表性指标,并利用设定的阈值对清洗后的数据进行二值化转化,获取转化后的二值化数据集作为训练的训练集;
分别利用得到的训练集对MERS病毒和SARS病毒的药物筛选网络模型进行分别训练。
进一步的,在对清洗后的数据进行二值化转化后还包括:
对不同来源的二值化数据进行融合,获得融合后的数据;
对融合后的数据进行平衡化得到训练集。
进一步的,在对MERS病毒和SARS病毒的药物筛选网络模型进行训练时采用的训练方式为:K折和网格搜索的训练方式。
进一步的,所述MERS病毒和SARS病毒的药物筛选网络模型采用Chemprop模型。
进一步的,获取MERS病毒和SARS病毒的小分子抗病毒药物数据的方法包括:
通过ChEMBL、DrugBank、TDC和相关文献资料收集小分子抗病毒药物数据。
一种基于神经网络的药物筛选装置,包括:
初始网络模型构建模块:用于分别构建MERS病毒和SARS病毒的药物筛选网络模型;
初始网络模型训练模块:用于对MERS病毒和SARS病毒的药物筛选网络模型进行训练;
新冠病毒的药物筛选网络模型构建模块:用于将完成训练后的MERS病毒和SARS病毒的药物筛选网络模型进行合并,并在合并后的网络模型中增加神经网络的卷积层和连接层,构建新冠病毒的药物筛选网络模型;
新冠病毒的药物筛选网络模型的训练模块:用于对新冠病毒的药物筛选网络模型进行训练;
药物筛选模块:利用训练完成的新冠病毒的药物筛选网络模型筛选出新冠病毒的药物。
本申请的有益效果是:
模型基于MPNN框架的Chemprop(消息传播图神经网络模型)化学图神经网络设计,采用Pre-train(预训练)和Fine-tune(微调)两阶段的方式,利用MERS和SARS1的抗病毒药物数据对网络进行Pre-train(预训练),其后再针对SARS2病毒3CLPro靶标的抗病毒数据进行Fine-tune(微调),能够通过借鉴已知的MERS和SARS1的抗病毒信息分析挖掘SARS2潜在的抗病毒药物;在筛选小分子广谱抗病毒药物时具有较大优势。
利用深度学习算法对大规模小分子化合物进行筛选,一方面能够大大降低人力成本、提升效率;另一方面对于新病毒可以在不了解其致病机理的情况下快速响应,为后续生化实验工作提供辅助判断;区别于以往的人工智能模型,更加重视从生化领域中寻找抗病毒信息之间的关系,并借鉴该关系发现新的抗病毒信息。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明中背景技术中提出的本技术领域传统的药物研发流程示意图;
图2是传统药物发现技术路线的图示;
图3是本发明中的新冠病毒的药物筛选网络模型的结构图;
图4是本发明中基于神经网络的药物筛选方法的流程图;
图5是本发明中对MERS病毒和SARS病毒的药物筛选网络模型进行训练方法的流程图;
图6是本发明中药物筛选网络模型的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请中的实施例作出进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
实施例
传统药物发现技术路线如图 2所示,主要可以分为基于靶点的药物发现(TDD)和基于表型药物发现(PDD);其中TDD又可以分为基于结构的药物设计(SBDD)、基于机理的药物设计(MBDD)、基于性质的药物设计(PBDD);SBDD包括基于受体结构的药物设计(TSBDD)和基于配体结构的药物设计(LSBDD)两类,其中基于片段的药物设计(FBDD)作为TSBDD最重要的类型之一。本实施主要采用LSBDD的技术路线进行设计;
已知广泛传播且宿主为人的冠状病毒主要包括7类,如表 1中所示为按照病毒类别进行分类的7类冠状病毒。为了使模型能够学习并掌握更加全面的抗病毒信息,分别从致病机理和临床表征两个角度选择SARS-CoV-1(简称:SARS1)和MERS-CoV(简称:MERS)两类抗病毒药物数据进行“迁移”学习,使其能够预测SARS-CoV-2(简称:SARS2)的小分子抗病毒化合物;
表1表示冠状病毒分类:
基于上述所述,设计了如图 3所示模型,该模型由特征提取网络Chemprop(Chemprop 模型是一种消息传播图神经网络模型,能够筛选出高效安全的药物模型)和特征聚合网络CNN(卷积神经网络)构建。特征提取网络是利用MERS和SARS1的小分子抗病毒药物数据进行Pre-train,其后利用基于3CLPro靶标的SARS2小分子抗病毒药物数据对特征提取网络Chemprop和全连接层进行模型Fine-tune。
具体在实施过程中,如图4所示,一种基于神经网络的药物筛选方法,包括:
分别构建MERS病毒和SARS病毒的药物筛选网络模型;在构建该MERS病毒和SARS病毒的药物筛选网络模型时,采用的网络模型是Chemprop模型;在完成MERS病毒和SARS病毒的药物筛选网络模型建立后,需要对该两个模型分别进行训练来获取训练后的模型;
具体在训练时,如图5所示,获取MERS病毒和SARS病毒的小分子抗病毒药物数据,在获取时通过ChEMBL(临床药物数据库)、DrugBank(综合性药物数据库)、TDC(Therapeutics Data Commons)和阅读相关文献资料四种方式,收集并整理有关MERS、SARS1和SARS2_3CLpro的小分子抗病毒药物数据,用于模型训练和评估。此外,从Zinc平台获取大规模小分子化合物数据集,用于后续的小分子药物筛选工作。
利用RDKit(用C ++和Python编写的化学信息学和机器学习软件集)工具对不同数据源的SMILES分子式进行判定,剔除错误数据;
针对从ChEMBL中获得的数据,首先从数据中选择具有代表性的指标,例如:Inhibition、IC50、EC50等;其次根据指标含义设定阈值,并根据阈值范围进行指标二值化转换;最后将转换后的二值标签作为最终实验的训练依据;
具体的是从TDC、DrugBank、ChEMBL和研究文献四种方式中收集了小分子SARS1、SARS2和MERS的数据;由于不同来源数据格式、阈值等参数指标的不同,按照如下标准对数据进行了统一的标签转换,将连续性标签数值转化为二值化标签,并将四个不同来源的数据融合成一个数据集;
进行指标二值化转换的方法如下:
由于小分子药物的抗病毒数据一般存在不平衡问题,即具有抗病毒效果的小分子药物比例较少(正样本较少),而不具有抗病毒效果的小分子药物比例较大(负样本较多),故一般需要进行数据平衡化处理,本实施例采用SMOTE(数据增强算法)对正样本过采样的方式进行平衡化。此外,为了获得更加充分且具有代表性的SMILES分子式特征,利用RDKit工具提取分子指纹特征,并将其融入后续的实验当中进行数据增广,提升数据质量;
利用得到的训练集即MERS病毒的小分子药物数据集和SARS病毒的小分子药物数据集分别对MERS病毒和SARS病毒的药物筛选网络模型进行训练;
同时在训练时,用Pre-train和Fine-tune两阶段的方式完成模型训练工作。
利用MERS病毒的小分子药物数据集和SARS病毒的小分子药物数据集,采用K折和网格搜索的训练方式,对Chemprop图神经网络进行训练,候选参数如表 2所示。
表 2表示网格搜索参数阈值:
完成训练后,依据AU/ROC值判定各模型的优劣,该数值越大说明模型效果越佳;依据K折AU/ROC值的标准差(STD)判断模型的鲁棒性,该数值越小说明模型越稳定,泛化能力越强。为了能够获得统一的评价标准,本项目先对K折AU/ROC值的标准差(STD)进行Min-Max归一化操作,统一两个评价指标的量纲;其后采用欧式距离计算Distance(距离);选择Distance最大对应的模型作为最终模型,分别获得MERS_Pre_train_mode1(MERS病毒的药物筛选网络模型)和SARS1_Pre_train_model(SARS病毒的药物筛选网络模型)。
将完成训练后的MERS病毒和SARS病毒的药物筛选网络模型进行合并,并在合并后的药物筛选网络模型中增加神经网络的卷积层和连接层,构建新筛选药物筛选网络模型;在MERS_Pre_train_model和SARS1_Pre_train_model特征提取模型的基础上,利用SARS2_3CLpro的小分子抗病毒药物数据,采用K折和网格搜索的训练方式,Fine-tune基于CNN(图卷积神经网络)和FCL(全连接层网络)的预测模型,并最终依据Distance选择并保存最优模型C_Chemprop得到新筛选药物筛选网络模型;
如图6所示的药物筛选网络模型,其中抗SARS1特征提取模型为10个同质的MPNN基学习器;抗MERS特征提取网络为5个同质MPNN基学习器;为了能够有效的融合上述15个基学习器的特征向量,本模型采用一维CNN网络对上述15维特征向量进行压缩和特征提取,经过处理后由CNN输出一维特征向量;利用3层全连接层网络对一维特征向量映射,使网络收敛并获得2维概率;最终获得模型预测结果。
采用横向评估和纵向评估的方式验证模型的有效性,横向评估主要用于验证模型相较于其他算法模型的优越性,纵向评估则用于证明本研究成果相较于原有成果的进步性;
将C_Chemprop模型应用于抗新冠病毒3CL靶标的小分子化合物筛选工作当中,其中小分子化合物数据来源于Zinc平台的8.2亿个小分子化合物,并对筛选后的小分子化合物进行湿法实验的验证。
利用SARS2_S靶标、SARS2_ACE2靶标等数据,对已有的C_Chemprop模型进一步Fine-tune,扩展其应用场景,使其能够筛选针对不同病毒、不同靶标的小分子化合物。
将C_Chemprop打包为基于浏览器端的Web服务并部署于云端,使其能够持续的为后续相应的药物研发工作提供助力。
本实施例提供的药物筛选方法通过研究对比选择利用MERS和SARS1两种的抗病毒信息进行“迁移”学习,MERS与SARS2具有相似的临床表征,SARS1和SARS2具有高相似的致病机理;其后在两类模型的基础之上进行微调,保证了数学逻辑推理的正确性。
为了证明模型效果,分别设计了横向和纵向(消融性实验)对比实验。
表3:横向对比实验的结果表
表3是模型(C_Chemporp)与XGBoost模型(极致梯度提升网络)和GCN(图卷积神经网络)两个模型进行的多个参数数据的对比结果,其中std为结果标准差,该指标越低说明实验效果越佳,除此之外其余指标越高说明模型效果越佳。故从表中,不难看出模型(C_Chemporp)在多个参数指标中领先其它模型。
表4:消融性实验对比表
如表4所示,为了说明本模型中每个独立模块均发挥作用,利用消融性实验对每个独立模块进行测试,该实验共测试了三个不同的数据集和四个不同的模型,最终的实验结果显示本模型在性能上有领先优势。
一种基于神经网络的药物筛选装置,包括:
初始网络模型构建模块:用于分别构建MERS病毒和SARS病毒的药物筛选网络模型;
初始网络模型训练模块:用于对MERS病毒和SARS病毒的药物筛选网络模型进行训练;
新冠病毒的药物筛选网络模型构建模块:用于将完成训练后的MERS病毒和SARS病毒的药物筛选网络模型进行合并,并在合并后的网络模型中增加神经网络的卷积层和连接层,构建新冠病毒的药物筛选网络模型;
新冠病毒的药物筛选网络模型的训练模块:用于对新冠病毒的药物筛选网络模型进行训练;
药物筛选模块:利用训练完成的新冠病毒的药物筛选网络模型筛选出新冠病毒的药物。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (7)
1.一种基于神经网络的药物筛选方法,其特征在于,包括:
分别构建MERS病毒和SARS病毒的药物筛选网络模型;
分别对MERS病毒和SARS病毒的药物筛选网络模型进行训练;
将完成训练后的MERS病毒和SARS病毒的药物筛选网络模型进行合并,并在合并后的网络模型中增加神经网络的卷积层和连接层,构建新冠病毒的药物筛选网络模型;
对新冠病毒的药物筛选网络模型进行训练;
利用训练完成的新冠病毒的药物筛选网络模型筛选出新冠病毒的药物。
2.根据权利要求1所述的一种基于神经网络的药物筛选方法,其特征在于;
对MERS病毒和SARS病毒的药物筛选网络模型进行训练的方法包括:
获取MERS病毒和SARS病毒的小分子抗病毒药物数据集;
对获取的数据集进行清洗,剔除错误数据;
获取清洗后的数据集中的代表性指标,并利用设定的阈值对清洗后的数据进行二值化转化,获取转化后的二值化数据集作为训练的训练集;
分别利用得到的训练集对MERS病毒和SARS病毒的药物筛选网络模型进行分别训练。
3.根据权利要求2所述的一种基于神经网络的药物筛选方法,其特征在于,在对清洗后的数据进行二值化转化后还包括:
对不同来源的二值化数据进行融合,获得融合后的数据;
对融合后的数据进行平衡化得到训练集。
4.根据权利要求2或3所述的一种基于神经网络的药物筛选方法,其特征在于,在对MERS病毒和SARS病毒的药物筛选网络模型进行训练时采用的训练方式为:K折和网格搜索的训练方式。
5.根据权利要求1所述的一种基于神经网络的药物筛选方法,其特征在于,所述MERS病毒和SARS病毒的药物筛选网络模型采用Chemprop模型。
6.根据权利要求2所述的一种基于神经网络的药物筛选方法,其特征在于:获取MERS病毒和SARS病毒的小分子抗病毒药物数据的方法包括:
通过ChEMBL、DrugBank、TDC和相关文献资料收集小分子抗病毒药物数据。
7.一种基于神经网络的药物筛选装置,其特征在于,包括:
初始网络模型构建模块:用于分别构建MERS病毒和SARS病毒的药物筛选网络模型;
初始网络模型训练模块:用于对MERS病毒和SARS病毒的药物筛选网络模型进行训练;
新冠病毒的药物筛选网络模型构建模块:用于将完成训练后的MERS病毒和SARS病毒的药物筛选网络模型进行合并,并在合并后的网络模型中增加神经网络的卷积层和连接层,构建新冠病毒的药物筛选网络模型;
新冠病毒的药物筛选网络模型的训练模块:用于对新冠病毒的药物筛选网络模型进行训练;
药物筛选模块:利用训练完成的新冠病毒的药物筛选网络模型筛选出新冠病毒的药物。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410159821.3A CN117708679B (zh) | 2024-02-04 | 2024-02-04 | 一种基于神经网络的药物筛选方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410159821.3A CN117708679B (zh) | 2024-02-04 | 2024-02-04 | 一种基于神经网络的药物筛选方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117708679A true CN117708679A (zh) | 2024-03-15 |
CN117708679B CN117708679B (zh) | 2024-04-26 |
Family
ID=90159307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410159821.3A Active CN117708679B (zh) | 2024-02-04 | 2024-02-04 | 一种基于神经网络的药物筛选方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708679B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447322A (zh) * | 2015-12-11 | 2016-03-30 | 北京工业大学 | 一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法 |
CN111081316A (zh) * | 2020-03-25 | 2020-04-28 | 元码基因科技(北京)股份有限公司 | 用于筛选新冠肺炎候选药物的方法及装置 |
CN111916145A (zh) * | 2020-07-24 | 2020-11-10 | 湖南大学 | 基于图表示学习的新冠病毒靶标预测和药物发现方法 |
CN111986817A (zh) * | 2020-08-21 | 2020-11-24 | 南通大学 | 一种通过ace2筛选新冠covid-19治疗药物的方法 |
CN113921106A (zh) * | 2021-07-16 | 2022-01-11 | 湖南工业大学 | 一种基于有界核范数正则化的新冠肺炎药物筛选模型 |
CN113948160A (zh) * | 2020-07-15 | 2022-01-18 | 武汉Tcl集团工业研究院有限公司 | 一种药物筛选方法、设备及存储介质 |
CN114822716A (zh) * | 2021-01-27 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 目标药物筛选方法、装置、电子设备及存储介质 |
CN115019905A (zh) * | 2022-06-01 | 2022-09-06 | 深圳技术大学 | 基于ai的新型冠状病毒的全新小分子药物筛选分析系统 |
CN116631537A (zh) * | 2023-07-24 | 2023-08-22 | 中国人民解放军总医院 | 基于模糊学习的抗病毒药物筛选方法、系统及存储介质 |
WO2023240720A1 (zh) * | 2022-06-16 | 2023-12-21 | 慧壹科技(上海)有限公司 | 药物筛选模型构建方法及装置、筛选方法、设备和介质 |
-
2024
- 2024-02-04 CN CN202410159821.3A patent/CN117708679B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447322A (zh) * | 2015-12-11 | 2016-03-30 | 北京工业大学 | 一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法 |
CN111081316A (zh) * | 2020-03-25 | 2020-04-28 | 元码基因科技(北京)股份有限公司 | 用于筛选新冠肺炎候选药物的方法及装置 |
CN113948160A (zh) * | 2020-07-15 | 2022-01-18 | 武汉Tcl集团工业研究院有限公司 | 一种药物筛选方法、设备及存储介质 |
CN111916145A (zh) * | 2020-07-24 | 2020-11-10 | 湖南大学 | 基于图表示学习的新冠病毒靶标预测和药物发现方法 |
CN111986817A (zh) * | 2020-08-21 | 2020-11-24 | 南通大学 | 一种通过ace2筛选新冠covid-19治疗药物的方法 |
CN114822716A (zh) * | 2021-01-27 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 目标药物筛选方法、装置、电子设备及存储介质 |
CN113921106A (zh) * | 2021-07-16 | 2022-01-11 | 湖南工业大学 | 一种基于有界核范数正则化的新冠肺炎药物筛选模型 |
CN115019905A (zh) * | 2022-06-01 | 2022-09-06 | 深圳技术大学 | 基于ai的新型冠状病毒的全新小分子药物筛选分析系统 |
WO2023240720A1 (zh) * | 2022-06-16 | 2023-12-21 | 慧壹科技(上海)有限公司 | 药物筛选模型构建方法及装置、筛选方法、设备和介质 |
CN116631537A (zh) * | 2023-07-24 | 2023-08-22 | 中国人民解放军总医院 | 基于模糊学习的抗病毒药物筛选方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117708679B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jain et al. | Prediction modelling of COVID using machine learning methods from B-cell dataset | |
CN109887540A (zh) | 一种基于异构网络嵌入的药物靶标相互作用预测方法 | |
CN103065066B (zh) | 基于药物组合网络的药物联合作用预测方法 | |
TWI766618B (zh) | 關鍵點檢測方法、電子設備及電腦可讀儲存介質 | |
Shaukat et al. | Dengue fever prediction: A data mining problem | |
CN105653846A (zh) | 基于集成的相似性度量和双向随机游走的药物重定位方法 | |
Zou et al. | Approaches for recognizing disease genes based on network | |
Manivannan et al. | Dengue fever prediction using K-means clustering algorithm | |
Chu et al. | Hierarchical graph representation learning for the prediction of drug-target binding affinity | |
CN113470741B (zh) | 药物靶标关系预测方法、装置、计算机设备及存储介质 | |
CN114093527B (zh) | 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和系统 | |
CN112905801A (zh) | 基于事件图谱的行程预测方法、系统、设备及存储介质 | |
CN111696685A (zh) | 面向新冠病毒治疗药物的药物重定位方法及其应用 | |
CN113488104B (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
WO2024011837A1 (zh) | 药物筛选方法及系统 | |
CN115240762A (zh) | 多尺度小分子虚拟筛选方法及系统 | |
CN112652355A (zh) | 一种基于深度森林和pu学习的药物-靶标关系预测方法 | |
CN114842927A (zh) | 一种知识图谱注意力网络的药物与通路的关联预测方法 | |
CN116206775A (zh) | 一种融合多维度特征的药物-靶点相互作用预测方法 | |
CN113223609B (zh) | 基于异质信息网络的药物靶标相互作用预测方法 | |
Wang et al. | MVIL6: Accurate identification of IL-6-induced peptides using multi-view feature learning | |
CN117457064A (zh) | 基于图结构自适应的药物-药物相互作用预测方法及装置 | |
Karagoz et al. | Assessment of high-confidence protein–protein interactome in yeast | |
CN117708679B (zh) | 一种基于神经网络的药物筛选方法及装置 | |
KR102221263B1 (ko) | 뇌기능 지식 베이스 자가 성장 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |