CN116705148A - 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 - Google Patents
基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 Download PDFInfo
- Publication number
- CN116705148A CN116705148A CN202310910411.3A CN202310910411A CN116705148A CN 116705148 A CN116705148 A CN 116705148A CN 202310910411 A CN202310910411 A CN 202310910411A CN 116705148 A CN116705148 A CN 116705148A
- Authority
- CN
- China
- Prior art keywords
- similarity matrix
- virus
- matrix
- drug
- medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 239000003443 antiviral agent Substances 0.000 title claims abstract description 24
- 238000007877 drug screening Methods 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 245
- 239000003814 drug Substances 0.000 claims abstract description 154
- 229940079593 drug Drugs 0.000 claims abstract description 111
- 241000700605 Viruses Species 0.000 claims abstract description 84
- 230000010354 integration Effects 0.000 claims abstract description 50
- 230000006870 function Effects 0.000 claims abstract description 43
- 239000000126 substance Substances 0.000 claims abstract description 42
- 230000003612 virological effect Effects 0.000 claims abstract description 27
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 34
- 238000010276 construction Methods 0.000 claims description 18
- 108700005077 Viral Genes Proteins 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 238000002826 magnetic-activated cell sorting Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 229940126585 therapeutic drug Drugs 0.000 abstract description 2
- 230000004048 modification Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 230000006872 improvement Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 4
- 241000711573 Coronaviridae Species 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241001678559 COVID-19 virus Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000009511 drug repositioning Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- WHTVZRBIWZFKQO-AWEZNQCLSA-N (S)-chloroquine Chemical compound ClC1=CC=C2C(N[C@@H](C)CCCN(CC)CC)=CC=NC2=C1 WHTVZRBIWZFKQO-AWEZNQCLSA-N 0.000 description 1
- QGJZLNKBHJESQX-UHFFFAOYSA-N 3-Epi-Betulin-Saeure Natural products C1CC(O)C(C)(C)C2CCC3(C)C4(C)CCC5(C(O)=O)CCC(C(=C)C)C5C4CCC3C21C QGJZLNKBHJESQX-UHFFFAOYSA-N 0.000 description 1
- CLOUCVRNYSHRCF-UHFFFAOYSA-N 3beta-Hydroxy-20(29)-Lupen-3,27-oic acid Natural products C1CC(O)C(C)(C)C2CCC3(C)C4(C(O)=O)CCC5(C)CCC(C(=C)C)C5C4CCC3C21C CLOUCVRNYSHRCF-UHFFFAOYSA-N 0.000 description 1
- OLROWHGDTNFZBH-XEMWPYQTSA-N Alisporivir Chemical compound CC[C@@H]1NC(=O)[C@H]([C@H](O)[C@H](C)C\C=C\C)N(C)C(=O)[C@H](C(C)C)N(C)C(=O)[C@H](CC(C)C)N(C)C(=O)[C@H](CC(C)C)N(C)C(=O)[C@@H](C)NC(=O)[C@H](C)NC(=O)[C@H](CC(C)C)N(C)C(=O)[C@H](C(C)C)NC(=O)[C@H](C(C)C)N(CC)C(=O)[C@@H](C)N(C)C1=O OLROWHGDTNFZBH-XEMWPYQTSA-N 0.000 description 1
- DIZWSDNSTNAYHK-XGWVBXMLSA-N Betulinic acid Natural products CC(=C)[C@@H]1C[C@H]([C@H]2CC[C@]3(C)[C@H](CC[C@@H]4[C@@]5(C)CC[C@H](O)C(C)(C)[C@@H]5CC[C@@]34C)[C@@H]12)C(=O)O DIZWSDNSTNAYHK-XGWVBXMLSA-N 0.000 description 1
- 241000579895 Chlorostilbon Species 0.000 description 1
- 206010013710 Drug interaction Diseases 0.000 description 1
- VTAJIXDZFCRWBR-UHFFFAOYSA-N Licoricesaponin B2 Natural products C1C(C2C(C3(CCC4(C)CCC(C)(CC4C3=CC2)C(O)=O)C)(C)CC2)(C)C2C(C)(C)CC1OC1OC(C(O)=O)C(O)C(O)C1OC1OC(C(O)=O)C(O)C(O)C1O VTAJIXDZFCRWBR-UHFFFAOYSA-N 0.000 description 1
- HZQDCMWJEBCWBR-UUOKFMHZSA-N Mizoribine Chemical compound OC1=C(C(=O)N)N=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 HZQDCMWJEBCWBR-UUOKFMHZSA-N 0.000 description 1
- XCUAIINAJCDIPM-XVFCMESISA-N N(4)-hydroxycytidine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=NO)C=C1 XCUAIINAJCDIPM-XVFCMESISA-N 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- IWUCXVSUMQZMFG-AFCXAGJDSA-N Ribavirin Chemical compound N1=C(C(=O)N)N=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 IWUCXVSUMQZMFG-AFCXAGJDSA-N 0.000 description 1
- YQNQNVDNTFHQSW-UHFFFAOYSA-N acetic acid [2-[[(5-nitro-2-thiazolyl)amino]-oxomethyl]phenyl] ester Chemical compound CC(=O)OC1=CC=CC=C1C(=O)NC1=NC=C([N+]([O-])=O)S1 YQNQNVDNTFHQSW-UHFFFAOYSA-N 0.000 description 1
- 229950004789 alisporivir Drugs 0.000 description 1
- 108010058359 alisporivir Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- DKNWSYNQZKUICI-UHFFFAOYSA-N amantadine Chemical compound C1C(C2)CC3CC2CC1(N)C3 DKNWSYNQZKUICI-UHFFFAOYSA-N 0.000 description 1
- 229960003805 amantadine Drugs 0.000 description 1
- 229960004191 artemisinin Drugs 0.000 description 1
- BLUAFEHZUWYNDE-NNWCWBAJSA-N artemisinin Chemical compound C([C@](OO1)(C)O2)C[C@H]3[C@H](C)CC[C@@H]4[C@@]31[C@@H]2OC(=O)[C@@H]4C BLUAFEHZUWYNDE-NNWCWBAJSA-N 0.000 description 1
- 229930101531 artemisinin Natural products 0.000 description 1
- 229960004991 artesunate Drugs 0.000 description 1
- FIHJKUPKCHIPAT-AHIGJZGOSA-N artesunate Chemical compound C([C@](OO1)(C)O2)C[C@H]3[C@H](C)CC[C@@H]4[C@@]31[C@@H]2O[C@@H](OC(=O)CCC(O)=O)[C@@H]4C FIHJKUPKCHIPAT-AHIGJZGOSA-N 0.000 description 1
- YBHILYKTIRIUTE-UHFFFAOYSA-N berberine Chemical compound C1=C2CC[N+]3=CC4=C(OC)C(OC)=CC=C4C=C3C2=CC2=C1OCO2 YBHILYKTIRIUTE-UHFFFAOYSA-N 0.000 description 1
- 229940093265 berberine Drugs 0.000 description 1
- QISXPYZVZJBNDM-UHFFFAOYSA-N berberine Natural products COc1ccc2C=C3N(Cc2c1OC)C=Cc4cc5OCOc5cc34 QISXPYZVZJBNDM-UHFFFAOYSA-N 0.000 description 1
- QGJZLNKBHJESQX-FZFNOLFKSA-N betulinic acid Chemical compound C1C[C@H](O)C(C)(C)[C@@H]2CC[C@@]3(C)[C@]4(C)CC[C@@]5(C(O)=O)CC[C@@H](C(=C)C)[C@@H]5[C@H]4CC[C@@H]3[C@]21C QGJZLNKBHJESQX-FZFNOLFKSA-N 0.000 description 1
- XASIMHXSUQUHLV-UHFFFAOYSA-N camostat Chemical compound C1=CC(CC(=O)OCC(=O)N(C)C)=CC=C1OC(=O)C1=CC=C(N=C(N)N)C=C1 XASIMHXSUQUHLV-UHFFFAOYSA-N 0.000 description 1
- 229960000772 camostat Drugs 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 229960003677 chloroquine Drugs 0.000 description 1
- WHTVZRBIWZFKQO-UHFFFAOYSA-N chloroquine Natural products ClC1=CC=C2C(NC(C)CCCN(CC)CC)=CC=NC2=C1 WHTVZRBIWZFKQO-UHFFFAOYSA-N 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- PZXJOHSZQAEJFE-UHFFFAOYSA-N dihydrobetulinic acid Natural products C1CC(O)C(C)(C)C2CCC3(C)C4(C)CCC5(C(O)=O)CCC(C(C)C)C5C4CCC3C21C PZXJOHSZQAEJFE-UHFFFAOYSA-N 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- ZCGNOVWYSGBHAU-UHFFFAOYSA-N favipiravir Chemical compound NC(=O)C1=NC(F)=CNC1=O ZCGNOVWYSGBHAU-UHFFFAOYSA-N 0.000 description 1
- 229950008454 favipiravir Drugs 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- SDUQYLNIPVEERB-QPPQHZFASA-N gemcitabine Chemical compound O=C1N=C(N)C=CN1[C@H]1C(F)(F)[C@H](O)[C@@H](CO)O1 SDUQYLNIPVEERB-QPPQHZFASA-N 0.000 description 1
- 229960005277 gemcitabine Drugs 0.000 description 1
- LPLVUJXQOOQHMX-UHFFFAOYSA-N glycyrrhetinic acid glycoside Natural products C1CC(C2C(C3(CCC4(C)CCC(C)(CC4C3=CC2=O)C(O)=O)C)(C)CC2)(C)C2C(C)(C)C1OC1OC(C(O)=O)C(O)C(O)C1OC1OC(C(O)=O)C(O)C(O)C1O LPLVUJXQOOQHMX-UHFFFAOYSA-N 0.000 description 1
- 229960004949 glycyrrhizic acid Drugs 0.000 description 1
- UYRUBYNTXSDKQT-UHFFFAOYSA-N glycyrrhizic acid Natural products CC1(C)C(CCC2(C)C1CCC3(C)C2C(=O)C=C4C5CC(C)(CCC5(C)CCC34C)C(=O)O)OC6OC(C(O)C(O)C6OC7OC(O)C(O)C(O)C7C(=O)O)C(=O)O UYRUBYNTXSDKQT-UHFFFAOYSA-N 0.000 description 1
- 239000001685 glycyrrhizic acid Substances 0.000 description 1
- 235000019410 glycyrrhizin Nutrition 0.000 description 1
- LPLVUJXQOOQHMX-QWBHMCJMSA-N glycyrrhizinic acid Chemical compound O([C@@H]1[C@@H](O)[C@H](O)[C@H](O[C@@H]1O[C@@H]1C([C@H]2[C@]([C@@H]3[C@@]([C@@]4(CC[C@@]5(C)CC[C@@](C)(C[C@H]5C4=CC3=O)C(O)=O)C)(C)CC2)(C)CC1)(C)C)C(O)=O)[C@@H]1O[C@H](C(O)=O)[C@@H](O)[C@H](O)[C@H]1O LPLVUJXQOOQHMX-QWBHMCJMSA-N 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- BUGYDGFZZOZRHP-UHFFFAOYSA-N memantine Chemical compound C1C(C2)CC3(C)CC1(C)CC2(N)C3 BUGYDGFZZOZRHP-UHFFFAOYSA-N 0.000 description 1
- 229960004640 memantine Drugs 0.000 description 1
- HPNSFSBZBAHARI-UHFFFAOYSA-N micophenolic acid Natural products OC1=C(CC=C(C)CCC(O)=O)C(OC)=C(C)C2=C1C(=O)OC2 HPNSFSBZBAHARI-UHFFFAOYSA-N 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 229950000844 mizoribine Drugs 0.000 description 1
- HPNSFSBZBAHARI-RUDMXATFSA-N mycophenolic acid Chemical compound OC1=C(C\C=C(/C)CCC(O)=O)C(OC)=C(C)C2=C1C(=O)OC2 HPNSFSBZBAHARI-RUDMXATFSA-N 0.000 description 1
- 229960000951 mycophenolic acid Drugs 0.000 description 1
- MQYXUWHLBZFQQO-UHFFFAOYSA-N nepehinol Natural products C1CC(O)C(C)(C)C2CCC3(C)C4(C)CCC5(C)CCC(C(=C)C)C5C4CCC3C21C MQYXUWHLBZFQQO-UHFFFAOYSA-N 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- RJMUSRYZPJIFPJ-UHFFFAOYSA-N niclosamide Chemical compound OC1=CC=C(Cl)C=C1C(=O)NC1=CC=C([N+]([O-])=O)C=C1Cl RJMUSRYZPJIFPJ-UHFFFAOYSA-N 0.000 description 1
- 229960001920 niclosamide Drugs 0.000 description 1
- 229960002480 nitazoxanide Drugs 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- RWWYLEGWBNMMLJ-MEUHYHILSA-N remdesivir Drugs C([C@@H]1[C@H]([C@@H](O)[C@@](C#N)(O1)C=1N2N=CN=C(N)C2=CC=1)O)OP(=O)(N[C@@H](C)C(=O)OCC(CC)CC)OC1=CC=CC=C1 RWWYLEGWBNMMLJ-MEUHYHILSA-N 0.000 description 1
- RWWYLEGWBNMMLJ-YSOARWBDSA-N remdesivir Chemical compound NC1=NC=NN2C1=CC=C2[C@]1([C@@H]([C@@H]([C@H](O1)CO[P@](=O)(OC1=CC=CC=C1)N[C@H](C(=O)OCC(CC)CC)C)O)O)C#N RWWYLEGWBNMMLJ-YSOARWBDSA-N 0.000 description 1
- 229960000329 ribavirin Drugs 0.000 description 1
- HZCAHMRRMINHDJ-DBRKOABJSA-N ribavirin Natural products O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1N=CN=C1 HZCAHMRRMINHDJ-DBRKOABJSA-N 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- KCFYEAOKVJSACF-UHFFFAOYSA-N umifenovir Chemical compound CN1C2=CC(Br)=C(O)C(CN(C)C)=C2C(C(=O)OCC)=C1CSC1=CC=CC=C1 KCFYEAOKVJSACF-UHFFFAOYSA-N 0.000 description 1
- 229960004626 umifenovir Drugs 0.000 description 1
- 238000003041 virtual screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Biotechnology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Bioethics (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Toxicology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统,属于生物信息学、计算生物学与人工智能交叉技术领域,方法通过系统实现,方法包括:S1.构建病毒‑药物关联的邻接矩阵;S2.计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;S3.计算病毒基因序列相似矩阵和药物化学结构相似矩阵;S4.使用快速核学习方法,整合得到病毒整合相似矩阵和药物整合相似矩阵;S5.使用拉普拉斯正则化最小二乘法,构造损失函数;S6.求解损失函数,得到病毒‑药物预测得分矩阵;S7.基于所述病毒‑药物预测得分矩阵,筛选、排序后得到最终预测结果。本发明能高效地筛选出病毒有效治疗药物,为特定情况下应急解决方案提供思路。
Description
技术领域
本发明涉及生物信息学、计算生物学与人工智能交叉的技术领域,尤其是涉及基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统。
背景技术
新药的研发过程复杂,技术含量高、投入大并且风险高,通常需要十年时间、数十亿美元的投入。因此,如果能够通过现有药品再利用,使其应用于新的疾病或不同的适应症,那么这将成为应对疾病的一种有效手段,即药物重定位是一种事半功倍的方法。在新发病毒爆发时,通过计算模型来辅助筛选抗病毒药物,可在短时间内为医药领域研究人员提供备选库,进而大大加速药物研发过程。
通常来说,传统的计算机辅助药物筛选工作存在耗费时间长、对算力要求高等不足。例如,华为云EI医疗智能体团队针对新冠病毒的所有靶标蛋白基于超大规模的分子化合物进行了蛋白结构同源建模,完成计算机辅助药物筛选工作。此外,如国防科技大学天河超算团队提出的基于自由能微扰-绝对结合自由能方法的新冠药物虚拟筛选技术。目前,已有基于人工智能算法改进的药物筛选方法报道,如预测新冠病毒适应药物的药物重定位方法(CN114913916A)、基于超图自适应归纳矩阵补全的病毒-药物关联预测方法(CN115346689A)。AI辅助药物筛查速度快、准确率高,能显著缩小优选药物的备选范围,进而缩短抗病毒药物研发的实验周期。
发明内容
本发明提供基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统,可以根据病毒-药物关联、病毒基因组序列和药物化学结构数据,准确高效地筛选出抗病毒药物。
本说明书实施例的第一方面公开了基于拉普拉斯最小二乘法的抗病毒药物筛选方法,包括如下步骤:
S1.构建病毒-药物关联的邻接矩阵;
S2.基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
S3.基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
S4.基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
S5.基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法构造损失函数;
S6.求解所述损失函数,得到病毒-药物预测得分矩阵;
S7.基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果。
在本说明书公开的实施例中,在S1中:
输入已知的病毒-药物关联对,构建病毒-药物关联的邻接矩阵A;
若为已知关联对,则对应位置为1,否则为0;
所述邻接矩阵A的行数为病毒数量nv,列数为药物数量nd。
在本说明书公开的实施例中,在S2中:
若药物d(i)与某个病毒之间存在关联,则对应位置记为1,否则记为0,形成一个1×nv大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),然后计算药物d(i)和d(j)之间的高斯距离相似性:
;
上式中,参数γd用于控制核带宽,通过归一化新带宽参数γ’d获得:
;
以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,得到1×nd大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i)),计算病毒v(i)和v(j)之间的高斯距离相似性:
;
参数γv用于控制核带宽,通过归一化新带宽参数γ’v获得:
;
以上γ’d和γ’v都是常数。
在本说明书公开的实施例中,在S3中:
基于病毒基因组序列,使用多序列比方法计算病毒基因序列相似矩阵;
基于药物的化学结构,得到药物MACCS指纹,采用谷本系数(即Jaccard相似度)计算药物化学结构相似矩阵。
在本说明书公开的实施例中,在S4中:
所述快速核学习方法的半正定规划式为:
;
式中,第一项为重构损失范数项,表示相似矩阵的整合误差大小;第二项/>为正则化项,作用是避免过拟合;其中A为病毒-药物关联邻接矩阵,Sj v(j=1,2)分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵,μv为正则化参数,λv∈R1×2为待求解的系数,通过λv得到病毒整合相似矩阵:
;
同理,按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λd∈R1×2,然后计算药物整合相似矩阵:
;
其中Sj d(j=1,2)分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵。
在本说明书公开的实施例中,在S5中:
基于病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法,构造损失函数。
使用拉普拉斯最小二乘法构造病毒视角的损失函数:,其中F v 为病毒视角得分矩阵,病毒拉普拉斯归一化项,对角矩阵D v 的元素D v (i,i)是病毒整合相似矩阵S v 的第i行求和,η V 为权重系数,||·|| F 是Frobenius范数,T表示矩阵转置;使用拉普拉斯最小二乘法构造药物视角的损失函数:/>,其中F d 为药物视角得分矩阵,药物拉普拉斯归一化项/>,对角矩阵D d 的元素D d (i,i)是药物整合相似矩阵S d 的第i行求和,η D 为权重系数。
在本说明书公开的实施例中,在S6中:
损失函数的求解公式如下:
;
;
计算以上两式即可得病毒视角得分矩阵F v *和药物视角得分矩阵F d *,然后计算病毒-药物关联对预测分数,其中w为权重参数。
本发明实施例的第二方面公开了基于拉普拉斯最小二乘法的抗病毒药物筛选系统,包括:
邻接矩阵构建模块,用于构建病毒-药物关联的邻接矩阵;
高斯距离相似矩阵计算模块,用于基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块,用于基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
整合相似矩阵计算模块,用于基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
损失函数构造模块,用于基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法构造损失函数;
损失函数求解模块,用于求解所述损失函数,得到病毒-药物预测得分矩阵;
预测模块,用于基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果。
在本说明书公开的实施例中,所述基于拉普拉斯最小二乘法的抗病毒药物筛选系统还包括:
处理器,分别与所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块连接;
存储器,与所述处理器连接,并存储有可在所述处理器上运行的计算机程序;
其中,当所述处理器执行所述计算机程序时,所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块工作,以实现上述中任意一项所述的基于拉普拉斯最小二乘法的抗病毒药物筛选方法。
综上所述,本发明至少具有以下有益效果:
本发明构通过构建病毒-药物关联的邻接矩阵,分别计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;使用病毒基因组序列计算病毒基因序列相似矩阵,使用药物的化学结构信息计算药物化学结构相似矩阵;使用快速核学习法计算病毒整合相似矩阵、药物整合相似矩阵;使用拉普拉斯正则化最小二乘法构建损失函数,迭代求解得到病毒-药物关联预测得分矩阵,筛选、排序得到最终结果。本发明能快速、高效地筛选出病毒有效治疗药物,弥补生物医学实验方法耗时长、成本高的不足,为特定情况下应急解决方案提供了思路。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中所涉及的基于拉普拉斯最小二乘法的抗病毒药物筛选方法的步骤示意图。
图2为本发明中所涉及的基于拉普拉斯最小二乘法的抗病毒药物筛选方法的流程示意图。
图3为本发明中所涉及的基于拉普拉斯最小二乘法的抗病毒药物筛选方法与基线方法五折交叉验证的结果比较图。
图4为本发明中所涉及的基于拉普拉斯最小二乘法的抗病毒药物筛选系统的示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明实施例的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
下文的公开提供了许多不同的实施方式或例子用来实现本发明实施例的不同结构。为了简化本发明实施例的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明实施例。此外,本发明实施例可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
下面结合附图对本发明的实施例进行详细说明。
需要注意的是,本说明书的实施例中所使用的已知人类药物-病毒关联数据是从有关文献中收集的,先使用文本挖掘技术对文献报道的经过实验验证的药物-病毒相互作用对进行整理后,获得455个已证实的人类病毒-药物相互作用,涉及34种病毒与219种药物(文献DOI:10.1016/j.asoc.2021.107135);药物化学结构从DrugBank数据库下载,病毒基因组核苷酸序列从美国国家生物技术信息中心NCBI数据库获得。
如图1和图2所示,本说明书实施例的第一方面公开了基于拉普拉斯最小二乘法的抗病毒药物筛选方法,包括如下步骤:
S1.构建病毒-药物关联的邻接矩阵。
输入已知的病毒-药物关联对,构建病毒-药物关联的邻接矩阵A;
;
得到的邻接矩阵A元素为0或1,大小为34行×219列,i与j的取值范围满足1≤i≤34,1≤j≤219。
S2.基于病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵。
若药物d(i)与某个病毒之间存在关联,则对应位置记为1,否则记为0,形成一个1×34大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),然后计算药物d(i)和d(j)之间的高斯距离相似性:
;
上式中,IP(d(j))为药物d(j)的向量谱;参数γd用于控制核带宽,通过归一化新带宽参数γ’d获得:
;
以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,若某一个病毒v(i)与某药物之间存在关联,则对应位置记为1,否则记为0,形成一个1×219大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i)),然后计算病毒v(i)和v(j)之间的高斯距离相似性:
;
上式中IP(v(j))为病毒v(j)的向量谱,参数γv用于控制核带宽,通过归一化新带宽参数γ’v获得:
;
以上γ’d和γ’v都是常数,取γ’d=γ’v=1。
其中nv表示病毒的数量,此例中为34,nd表示药物的数量,此例中为219,此步计算后得到大小为34×34的对称矩阵S1 v(病毒高斯距离相似矩阵)和大小为219×219的对称矩阵S1 d(药物高斯距离相似矩阵),且这两个矩阵元素值全都在0到1之间。
S3.基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵。
输入病毒基因组序列,使用多序列比对工具MAFFT计算得到病毒基因序列相似矩阵S2 v;输入SMILES编码表示的药物化学结构,然后用化学信息学软件RDKit或Open Babel获得药物的分子访问系统指纹(MACCS),再使用R包RxnSim计算Tanimoto相似度,得到药物化学结构相似矩阵S2 d,具体计算方法是,对d(i)和d(j)两种药物,将此两种药物的MACCS片段二进制表示的字符串集分别记为D(i)和D(j),d(i)和d(j)间的相似度Sd ij值可以用下面公式计算:
。
S4.基于病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵。
使用快速核学习方法整合病毒基因序列相似矩阵和病毒高斯距离相似矩阵,具体是通过求解下面的半正定规划式:
;
式中,第一项为重构损失范数项,表示相似矩阵的整合误差大小;第二项/>为正则化项,作用是避免过拟合;其中A为病毒-药物关联邻接矩阵,Sj v(j=1,2)分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵,μv为正则化参数,λv∈R1×2为待求解的系数,使用Matlab软件中的CVX工具箱求解得到病毒整合相似矩阵:
;
同理,按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λd∈R1×2,然后计算药物整合相似矩阵:
;
其中Sj d(j=1,2)分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵。
S5.基于病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法,构造损失函数。
使用拉普拉斯最小二乘法构造病毒视角的损失函数:,其中F v 为病毒视角得分矩阵,病毒拉普拉斯归一化项/>,对角矩阵D v 的元素D v (i,i)是病毒整合相似矩阵S v 的第i行求和,η V 为权重系数,||·|| F 是Frobenius范数,T表示矩阵转置;使用拉普拉斯最小二乘法构造药物视角的损失函数:,其中F d 为药物视角得分矩阵,药物拉普拉斯归一化项/>,对角矩阵D d 的元素D d (i,i)是药物整合相似矩阵S d 的第i行求和,η D 为权重系数。
S6.求解损失函数,得到病毒-药物预测得分矩阵。
求损失函数的导数令之为0再反解,得求解公式如下:
;
;
计算以上两式即可得病毒视角得分矩阵F v *(34行×219列)和药物视角得分矩阵F d *(219行×34列),然后计算病毒-药物关联对预测分数,其中w为权重参数。
S7.根据病毒-药物关联对预测分数F *(34行×219列),筛选出目标病毒所在行的得分,排序后得到最终预测结果。
使用Matlab编程实现上述算法,经初步优化后选取正则化参数w=0.5、η V =η D =0.3。
本发明的有效性验证:
如图1和图2所示的基于拉普拉斯最小二乘法的抗病毒药物筛选方法,采用五重交叉验证进行预测性能评估,具体实施方式为:先将所有已知的药物-病毒关联随机平均分成5组,再将5组中的每一组依次设为测试样本,其他组作为训练样本(测试样本选取情况不同时,依赖测试样本计算所得的高斯距离相似矩阵亦随之改变)。使用训练样本作为本方法的输入得到预测结果,最后将该组中每个测试样本的预测分数与候选样本的分数进行比较。为了减少生成测试样本的过程中随机划分对结果造成的影响,进行了100次五折交叉验证。
使用Matlab编程计算后获得了如下数据,如图3所示为本方法LapRLSVDA与现已报道的几种病毒-药物筛选模型之间的AUROC(ROC曲线下面积)值比较。本方法在五折交叉验证中取得了0.8517±0.0039的AUROC值,表现出了比几种经典模型更加出色的预测性能。
另外一方面,对具体某种病毒,如新型冠状病毒(SARS-CoV-2)使用本方法来做预测,筛选评分矩阵中SARS-CoV-2对应的行即取得新冠相关药物的预测得分,将其降序排列后中前20个药物有18个能够得到已报道文献的支持。
下表展示了预测结果前20个药物名称和支持的文献PMID。
序号 | 药物名称 | 支持证据 |
1 | Ribavirin | PMID:33689451 |
2 | Chloroquine | PMID:33906514 |
3 | Nitazoxanide | PMID:36332361 |
4 | N4-Hydroxycytidine | PMID:35492218 |
5 | Camostat | PMID:35692220 |
6 | Amantadine | PMID:35390511 |
7 | Niclosamide | PMID:34664162 |
8 | Mizoribine | PMID:17336519 |
9 | Mycophenolic Acid | PMID:32579258 |
10 | Gemcitabine | PMID:32432977 |
11 | Berberine | PMID:36183284 |
12 | Betulinic Acid | 暂未找到 |
13 | Glycyrrhizic Acid | PMID:33041173 |
14 | Remdesivir | PMID:32251767,35221670 |
15 | Umifenovir | PMID:36245851 |
16 | Favipiravir | PMID:35692220,36332361 |
17 | Artemisinin | PMID:34272426 |
18 | Artesunate | 暂未找到 |
19 | Alisporivir | PMID:32376613 |
20 | Memantine | PMID:32828269 |
综上,本发明的优点:通过计算拉普拉斯归一化项,捕获了数据的局部流形结构,能高效利用阴性样本信息从而提升筛选预测性能。
如图4所示,本发明实施例的第二方面公开了基于拉普拉斯最小二乘法的抗病毒药物筛选系统,包括:
邻接矩阵构建模块,用于构建病毒-药物关联的邻接矩阵;
高斯距离相似矩阵计算模块,用于基于病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块,用于基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
整合相似矩阵计算模块,用于基于病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
损失函数构造模块,用于基于病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法,构造损失函数;
损失函数求解模块,用于求解损失函数,得到病毒-药物预测得分矩阵;
预测模块,用于基于病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果。
在本说明书公开的实施例中,基于拉普拉斯最小二乘法的抗病毒药物筛选系统还包括:
处理器,分别与邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块连接;
存储器,与处理器连接,并存储有可在处理器上运行的计算机程序;
其中,当处理器执行计算机程序时,处理器控制邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块工作,以实现上述中任意一项的基于拉普拉斯最小二乘法的抗病毒药物筛选方法。
以上所述实施例是用以说明本发明,并非用以限制本发明,所以举例数值的变更或等效元件的置换仍应隶属本发明的范畴。
由以上详细说明,可使本领域普通技术人员明了本发明的确可达成前述目的,实已符合专利法的规定。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应当注意的是,上述有关流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
上文已对基本概念做了描述,显然,对于阅读此申请后的本领域的普通技术人员来说,上述发明披露仅作为示例,并不构成对本申请的限制。虽然此处并未明确说明,但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例有关的某一特征、结构或特性。因此,应当强调并注意的是,本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域的普通技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的过程、机器、产品或物质的组合,或对其任何新的和有用的改进。因此,本申请的各个方面可以完全由硬件实施、可以完全由软件(包括固件、常驻软件、微代码等)实施、也可以由硬件和软件组合实施。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外,本申请的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,其中计算机可读程序代码包含在其中。
本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写,包括如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等的面向对象程序设计语言、如C程序设计语言、VisualBasic、Fortran2103、Perl、COBOL2102、PHP、ABAP的常规程序化程序设计语言、如Python、Ruby和Groovy的动态程序设计语言或其它程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,尽管上述各种组件的实现可以体现在硬件设备中,但是它也可以实现为纯软件解决方案,例如,在现有服务器或移动设备上的安装。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请的实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。然而,本申请的该方法不应被解释为反映所申明的客体需要比每个权利要求中明确记载的更多特征的意图。相反,发明的主体应具备比上述单一实施例更少的特征。
Claims (2)
1.基于拉普拉斯最小二乘法的抗病毒药物筛选方法,其特征在于,包括如下步骤:
S1.构建病毒-药物关联的邻接矩阵;
S2.基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
S3.基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
S4.基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
S5.基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法,构造损失函数;
S6.求解所述损失函数,得到病毒-药物预测得分矩阵;
S7.基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果;
所述S1的具体实现方法为:
输入已知的病毒-药物关联对,构建病毒-药物关联的邻接矩阵A;
若为已知关联对,则对应位置为1,否则为0;
所述邻接矩阵A的行数为病毒数量nv,列数为药物数量nd;
所述S2的具体实现方法为:
若药物d(i)与某个病毒之间存在关联,则对应位置记为1,否则记为0,形成一个1×nv大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),nv为病毒数量;然后计算药物d(i)和d(j)之间的高斯距离相似性:
;
上式中,IP(d(j))为药物d(j)的向量谱;参数γd用于控制核带宽,通过归一化新带宽参数γ’d获得:
;
其中,nd为药物数量;以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,得到1×nd大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i)),计算病毒v(i)和v(j)之间的高斯距离相似性:
;
其中,IP(v(j))为病毒v(j)的向量谱;参数γv用于控制核带宽,通过归一化新带宽参数γ’v获得:
;
以上γ’d和γ’v都是常数;
所述S3的具体实现方法为:
基于病毒基因组序列,使用多序列比方法计算病毒基因序列相似矩阵;
基于药物的化学结构,得到药物MACCS指纹,采用谷本系数计算药物化学结构相似矩阵;
所述S4的具体实现方法为:
所述快速核学习方法的半正定规划式为:
;
式中,第一项为重构损失范数项,表示相似矩阵的整合误差大小;第二项/>为正则化项,作用是避免过拟合;其中A为病毒-药物关联邻接矩阵,Sj v(j=1,2)分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵,μv为正则化参数,λv∈R1×2为待求解的系数,通过λv得到病毒整合相似矩阵Sv:
;
同理,按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λd∈R1×2,然后计算药物整合相似矩阵Sd:
;
其中Sj d(j=1,2)分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵;
所述S5的具体实现方法为:
使用拉普拉斯最小二乘法构造病毒视角的损失函数:,其中F v 为病毒视角得分矩阵,病毒拉普拉斯归一化项/>,对角矩阵D v 的元素D v (i,i)是病毒整合相似矩阵S v 的第i行求和,η V 为权重系数,||·|| F 是Frobenius范数,T表示矩阵转置;使用拉普拉斯最小二乘法构造药物视角的损失函数:,其中F d 为药物视角得分矩阵,药物拉普拉斯归一化项/>,对角矩阵D d 的元素D d (i,i)是药物整合相似矩阵S d 的第i行求和,η D 为权重系数;
所述S6的具体实现方法为:
损失函数的求解公式如下:
;
;
计算以上两式即可得病毒视角得分矩阵F v *和药物视角得分矩阵F d *,然后计算病毒-药物关联对预测分数,其中w为权重参数。
2.基于拉普拉斯最小二乘法的抗病毒药物筛选系统,其特征在于,包括:
邻接矩阵构建模块,用于构建病毒-药物关联的邻接矩阵;
高斯距离相似矩阵计算模块,用于基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块,用于基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
整合相似矩阵计算模块,用于基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
损失函数构造模块,用于基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法构造损失函数;
损失函数求解模块,用于求解所述损失函数,得到病毒-药物预测得分矩阵;
预测模块,用于基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果;
处理器,分别与所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块连接;
存储器,与所述处理器连接,并存储有可在所述处理器上运行的计算机程序;
其中,当所述处理器执行所述计算机程序时,所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块工作,以实现如权利要求1所述的基于拉普拉斯最小二乘法的抗病毒药物筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310910411.3A CN116705148B (zh) | 2023-07-24 | 2023-07-24 | 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310910411.3A CN116705148B (zh) | 2023-07-24 | 2023-07-24 | 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116705148A true CN116705148A (zh) | 2023-09-05 |
CN116705148B CN116705148B (zh) | 2023-10-27 |
Family
ID=87829507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310910411.3A Active CN116705148B (zh) | 2023-07-24 | 2023-07-24 | 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705148B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838342A (zh) * | 2019-11-13 | 2020-02-25 | 中南大学 | 基于相似性的病毒-受体相互作用关系预测方法和装置 |
CN111477344A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于自加权多核学习的药物副作用识别方法 |
CN114093425A (zh) * | 2021-11-29 | 2022-02-25 | 湖南大学 | 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法 |
US20220165352A1 (en) * | 2020-11-25 | 2022-05-26 | Northeastern Univesity | Network Medicine Framework for Identifying Drug Repurposing Opportunities |
CN115966252A (zh) * | 2023-02-12 | 2023-04-14 | 汤永 | 基于l1范数图的抗病毒药物筛选方法 |
CN116092598A (zh) * | 2023-01-31 | 2023-05-09 | 汤永 | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 |
CN116189760A (zh) * | 2023-04-19 | 2023-05-30 | 中国人民解放军总医院 | 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质 |
-
2023
- 2023-07-24 CN CN202310910411.3A patent/CN116705148B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838342A (zh) * | 2019-11-13 | 2020-02-25 | 中南大学 | 基于相似性的病毒-受体相互作用关系预测方法和装置 |
CN111477344A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于自加权多核学习的药物副作用识别方法 |
US20220165352A1 (en) * | 2020-11-25 | 2022-05-26 | Northeastern Univesity | Network Medicine Framework for Identifying Drug Repurposing Opportunities |
CN114093425A (zh) * | 2021-11-29 | 2022-02-25 | 湖南大学 | 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法 |
CN116092598A (zh) * | 2023-01-31 | 2023-05-09 | 汤永 | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 |
CN115966252A (zh) * | 2023-02-12 | 2023-04-14 | 汤永 | 基于l1范数图的抗病毒药物筛选方法 |
CN116189760A (zh) * | 2023-04-19 | 2023-05-30 | 中国人民解放军总医院 | 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
徐纹: "基于矩阵填充的药物-靶标相互作用预测", 中国优秀硕士学位论文全文数据库医药卫生科技辑, no. 03, pages 1 - 62 * |
Also Published As
Publication number | Publication date |
---|---|
CN116705148B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116189760B (zh) | 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质 | |
CN116153391B (zh) | 基于联合投影的抗病毒药物筛选方法、系统及存储介质 | |
CN116092598B (zh) | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 | |
CN115966252B (zh) | 基于l1范数图的抗病毒药物筛选方法 | |
CN108062556B (zh) | 一种药物-疾病关系识别方法、系统和装置 | |
CN116230077B (zh) | 基于重启超图双随机游走的抗病毒药物筛选方法 | |
CN116631537B (zh) | 基于模糊学习的抗病毒药物筛选方法、系统及存储介质 | |
CN114913916A (zh) | 预测新冠病毒适应药物的药物重定位方法 | |
CN115116580A (zh) | 一种基于矩阵分解和异构图推理的病毒-药物关联预测方法 | |
CN113921106A (zh) | 一种基于有界核范数正则化的新冠肺炎药物筛选模型 | |
CN116705148B (zh) | 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 | |
Sekaran et al. | A systematic review of artificial intelligence-based COVID-19 modeling on multimodal genetic information | |
CN116798545B (zh) | 基于非负矩阵的抗病毒药物筛选方法、系统及存储介质 | |
CN116759015B (zh) | 基于超图矩阵三分解的抗病毒药物筛选方法及系统 | |
CN116759016A (zh) | 基于最小二乘法的抗病毒药物筛选方法、系统及存储介质 | |
CN115831390A (zh) | 多属性特征填充的药物间不良反应预测方法、系统及介质 | |
Qu et al. | A new integrated framework for the identification of potential virus–drug associations | |
Mehta et al. | Deep CNN and LSTM Architecture-Based Approach for COVID-19 Detection | |
CN116631502A (zh) | 基于超图学习的抗病毒药物筛选方法、系统及存储介质 | |
He et al. | Analysis of Drug Repositioning and Prediction Techniques: A Concise Review | |
Lau et al. | Drug repurposing for Leishmaniasis with Hyperbolic Graph Neural Networks | |
Testa et al. | A Non-Negative Matrix Tri-Factorization Based Method for Predicting Antitumor Drug Sensitivity | |
Zaeri | Drug discovery for COVID-19 and related mutations using artificial intelligence | |
Jagadeeswari | AI BASED MACHINE LEARNING DESIGN FOR GENOTYPE PREDICTION AGAINST COVID 19 VIRUS | |
Hashemi et al. | Antivirals for Monkeypox Virus: Proposing an Effective Machine/Deep Learning Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |