CN116631537A - 基于模糊学习的抗病毒药物筛选方法、系统及存储介质 - Google Patents
基于模糊学习的抗病毒药物筛选方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116631537A CN116631537A CN202310910322.9A CN202310910322A CN116631537A CN 116631537 A CN116631537 A CN 116631537A CN 202310910322 A CN202310910322 A CN 202310910322A CN 116631537 A CN116631537 A CN 116631537A
- Authority
- CN
- China
- Prior art keywords
- virus
- similarity matrix
- matrix
- medicine
- drug
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000003443 antiviral agent Substances 0.000 title claims abstract description 25
- 238000007877 drug screening Methods 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 238
- 239000003814 drug Substances 0.000 claims abstract description 191
- 241000700605 Viruses Species 0.000 claims abstract description 127
- 229940079593 drug Drugs 0.000 claims abstract description 106
- 230000010354 integration Effects 0.000 claims abstract description 50
- 230000006870 function Effects 0.000 claims abstract description 44
- 239000000126 substance Substances 0.000 claims abstract description 43
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 21
- 230000003612 virological effect Effects 0.000 claims abstract description 21
- 238000012843 least square support vector machine Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 46
- 238000010276 construction Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 108700005077 Viral Genes Proteins 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000004378 air conditioning Methods 0.000 claims description 3
- 230000000840 anti-viral effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000002826 magnetic-activated cell sorting Methods 0.000 claims 1
- 238000012706 support-vector machine Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 229940126585 therapeutic drug Drugs 0.000 abstract description 2
- 230000004048 modification Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 241001678559 COVID-19 virus Species 0.000 description 2
- 241000711573 Coronaviridae Species 0.000 description 2
- NKANXQFJJICGDU-QPLCGJKRSA-N Tamoxifen Chemical compound C=1C=CC=CC=1C(/CC)=C(C=1C=CC(OCCN(C)C)=CC=1)/C1=CC=CC=C1 NKANXQFJJICGDU-QPLCGJKRSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- AUZONCFQVSMFAP-UHFFFAOYSA-N disulfiram Chemical compound CCN(CC)C(=S)SSC(=S)N(CC)CC AUZONCFQVSMFAP-UHFFFAOYSA-N 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- XEEQGYMUWCZPDN-DOMZBBRYSA-N (-)-(11S,2'R)-erythro-mefloquine Chemical compound C([C@@H]1[C@@H](O)C=2C3=CC=CC(=C3N=C(C=2)C(F)(F)F)C(F)(F)F)CCCN1 XEEQGYMUWCZPDN-DOMZBBRYSA-N 0.000 description 1
- WHTVZRBIWZFKQO-AWEZNQCLSA-N (S)-chloroquine Chemical compound ClC1=CC=C2C(N[C@@H](C)CCCN(CC)CC)=CC=NC2=C1 WHTVZRBIWZFKQO-AWEZNQCLSA-N 0.000 description 1
- WYXSYVWAUAUWLD-SHUUEZRQSA-N 6-azauridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=N1 WYXSYVWAUAUWLD-SHUUEZRQSA-N 0.000 description 1
- OLROWHGDTNFZBH-XEMWPYQTSA-N Alisporivir Chemical compound CC[C@@H]1NC(=O)[C@H]([C@H](O)[C@H](C)C\C=C\C)N(C)C(=O)[C@H](C(C)C)N(C)C(=O)[C@H](CC(C)C)N(C)C(=O)[C@H](CC(C)C)N(C)C(=O)[C@@H](C)NC(=O)[C@H](C)NC(=O)[C@H](CC(C)C)N(C)C(=O)[C@H](C(C)C)NC(=O)[C@H](C(C)C)N(CC)C(=O)[C@@H](C)N(C)C1=O OLROWHGDTNFZBH-XEMWPYQTSA-N 0.000 description 1
- OVCDSSHSILBFBN-UHFFFAOYSA-N Amodiaquine Chemical compound C1=C(O)C(CN(CC)CC)=CC(NC=2C3=CC=C(Cl)C=C3N=CC=2)=C1 OVCDSSHSILBFBN-UHFFFAOYSA-N 0.000 description 1
- 241000579895 Chlorostilbon Species 0.000 description 1
- 206010013710 Drug interaction Diseases 0.000 description 1
- KJHKTHWMRKYKJE-SUGCFTRWSA-N Kaletra Chemical compound N1([C@@H](C(C)C)C(=O)N[C@H](C[C@H](O)[C@H](CC=2C=CC=CC=2)NC(=O)COC=2C(=CC=CC=2C)C)CC=2C=CC=CC=2)CCCNC1=O KJHKTHWMRKYKJE-SUGCFTRWSA-N 0.000 description 1
- HZQDCMWJEBCWBR-UUOKFMHZSA-N Mizoribine Chemical compound OC1=C(C(=O)N)N=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 HZQDCMWJEBCWBR-UUOKFMHZSA-N 0.000 description 1
- XCUAIINAJCDIPM-XVFCMESISA-N N(4)-hydroxycytidine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=NO)C=C1 XCUAIINAJCDIPM-XVFCMESISA-N 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- IWUCXVSUMQZMFG-AFCXAGJDSA-N Ribavirin Chemical compound N1=C(C(=O)N)N=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 IWUCXVSUMQZMFG-AFCXAGJDSA-N 0.000 description 1
- QJJXYPPXXYFBGM-LFZNUXCKSA-N Tacrolimus Chemical compound C1C[C@@H](O)[C@H](OC)C[C@@H]1\C=C(/C)[C@@H]1[C@H](C)[C@@H](O)CC(=O)[C@H](CC=C)/C=C(C)/C[C@H](C)C[C@H](OC)[C@H]([C@H](C[C@H]2C)OC)O[C@@]2(O)C(=O)C(=O)N2CCCC[C@H]2C(=O)O1 QJJXYPPXXYFBGM-LFZNUXCKSA-N 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 229950004789 alisporivir Drugs 0.000 description 1
- 108010058359 alisporivir Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 229960001444 amodiaquine Drugs 0.000 description 1
- 230000008275 binding mechanism Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- XASIMHXSUQUHLV-UHFFFAOYSA-N camostat Chemical compound C1=CC(CC(=O)OCC(=O)N(C)C)=CC=C1OC(=O)C1=CC=C(N=C(N)N)C=C1 XASIMHXSUQUHLV-UHFFFAOYSA-N 0.000 description 1
- 229960000772 camostat Drugs 0.000 description 1
- 229960003677 chloroquine Drugs 0.000 description 1
- WHTVZRBIWZFKQO-UHFFFAOYSA-N chloroquine Natural products ClC1=CC=C2C(NC(C)CCCN(CC)CC)=CC=NC2=C1 WHTVZRBIWZFKQO-UHFFFAOYSA-N 0.000 description 1
- ZPEIMTDSQAKGNT-UHFFFAOYSA-N chlorpromazine Chemical compound C1=C(Cl)C=C2N(CCCN(C)C)C3=CC=CC=C3SC2=C1 ZPEIMTDSQAKGNT-UHFFFAOYSA-N 0.000 description 1
- 229960001076 chlorpromazine Drugs 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 229960002563 disulfiram Drugs 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- SDUQYLNIPVEERB-QPPQHZFASA-N gemcitabine Chemical compound O=C1N=C(N)C=CN1[C@H]1C(F)(F)[C@H](O)[C@@H](CO)O1 SDUQYLNIPVEERB-QPPQHZFASA-N 0.000 description 1
- 229960005277 gemcitabine Drugs 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 229960004525 lopinavir Drugs 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229960001962 mefloquine Drugs 0.000 description 1
- BUGYDGFZZOZRHP-UHFFFAOYSA-N memantine Chemical compound C1C(C2)CC3(C)CC1(C)CC2(N)C3 BUGYDGFZZOZRHP-UHFFFAOYSA-N 0.000 description 1
- 229960004640 memantine Drugs 0.000 description 1
- HPNSFSBZBAHARI-UHFFFAOYSA-N micophenolic acid Natural products OC1=C(CC=C(C)CCC(O)=O)C(OC)=C(C)C2=C1C(=O)OC2 HPNSFSBZBAHARI-UHFFFAOYSA-N 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 229950000844 mizoribine Drugs 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- HPNSFSBZBAHARI-RUDMXATFSA-N mycophenolic acid Chemical compound OC1=C(C\C=C(/C)CCC(O)=O)C(OC)=C(C)C2=C1C(=O)OC2 HPNSFSBZBAHARI-RUDMXATFSA-N 0.000 description 1
- 229960000951 mycophenolic acid Drugs 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- RJMUSRYZPJIFPJ-UHFFFAOYSA-N niclosamide Chemical compound OC1=CC=C(Cl)C=C1C(=O)NC1=CC=C([N+]([O-])=O)C=C1Cl RJMUSRYZPJIFPJ-UHFFFAOYSA-N 0.000 description 1
- 229960001920 niclosamide Drugs 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- RWWYLEGWBNMMLJ-MEUHYHILSA-N remdesivir Drugs C([C@@H]1[C@H]([C@@H](O)[C@@](C#N)(O1)C=1N2N=CN=C(N)C2=CC=1)O)OP(=O)(N[C@@H](C)C(=O)OCC(CC)CC)OC1=CC=CC=C1 RWWYLEGWBNMMLJ-MEUHYHILSA-N 0.000 description 1
- RWWYLEGWBNMMLJ-YSOARWBDSA-N remdesivir Chemical compound NC1=NC=NN2C1=CC=C2[C@]1([C@@H]([C@@H]([C@H](O1)CO[P@](=O)(OC1=CC=CC=C1)N[C@H](C(=O)OCC(CC)CC)C)O)O)C#N RWWYLEGWBNMMLJ-YSOARWBDSA-N 0.000 description 1
- 229960000329 ribavirin Drugs 0.000 description 1
- HZCAHMRRMINHDJ-DBRKOABJSA-N ribavirin Natural products O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1N=CN=C1 HZCAHMRRMINHDJ-DBRKOABJSA-N 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 229960001967 tacrolimus Drugs 0.000 description 1
- QJJXYPPXXYFBGM-SHYZHZOCSA-N tacrolimus Natural products CO[C@H]1C[C@H](CC[C@@H]1O)C=C(C)[C@H]2OC(=O)[C@H]3CCCCN3C(=O)C(=O)[C@@]4(O)O[C@@H]([C@H](C[C@H]4C)OC)[C@@H](C[C@H](C)CC(=C[C@@H](CC=C)C(=O)C[C@H](O)[C@H]2C)C)OC QJJXYPPXXYFBGM-SHYZHZOCSA-N 0.000 description 1
- 229960001603 tamoxifen Drugs 0.000 description 1
- 229960005026 toremifene Drugs 0.000 description 1
- XFCLJVABOIYOMF-QPLCGJKRSA-N toremifene Chemical compound C1=CC(OCCN(C)C)=CC=C1C(\C=1C=CC=CC=1)=C(\CCCl)C1=CC=CC=C1 XFCLJVABOIYOMF-QPLCGJKRSA-N 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Bioethics (AREA)
- Mathematical Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Epidemiology (AREA)
- Analytical Chemistry (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了基于模糊学习的抗病毒药物筛选方法、系统及存储介质,属于生物信息学、计算生物学与人工智能交叉技术领域,方法包括:S1.构建病毒‑药物关联的邻接矩阵;S2.计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;S3.计算病毒基因序列相似矩阵和药物化学结构相似矩阵;S4.使用快速核学习方法整合得到病毒整合相似矩阵和药物整合相似矩阵;S5.基于前述整合相似矩阵计算病毒的模糊隶属度及药物的模糊隶属度;S6.使用模糊最小二乘支持向量机构造损失函数,求解得到病毒‑药物预测得分矩阵;S7.基于所述病毒‑药物预测得分矩阵,筛选排序后得到最终预测结果。本发明能高效、迅速地筛选出病毒有效治疗药物。
Description
技术领域
本发明涉及生物信息学、计算生物学与人工智能交叉的技术领域,尤其涉及基于模糊学习的抗病毒药物筛选方法、系统及存储介质。
背景技术
随着新型冠状病毒疫情的爆发,全球对抗病毒药物的需求变得更加紧迫。然而,开发新的抗病毒药物是一个漫长而昂贵的过程,需要耗费数年时间和数亿资金。因此,从现有药物中寻找特异性药物来治疗病毒感染成为一种可行的策略。传统方法开发抗病毒药物耗时费力,使用计算模型做药物初筛可以降低时间和费用成本消耗。
目前,用于初步筛选抗病毒药物的计算药物再利用方法可大致分为3类:基于结构的方法、基于深度学习的方法和基于网络的方法。基于结构的方法旨在通过分子对接、分子动力学模拟来了解化合物与病毒靶标的结合机制。然而,这些方法需要大量的计算资源,且结果准确性难以保证。基于深度学习的方法可以通过训练模型利用已经积累的生物医学数据和专业知识来预测化合物与病毒靶标的相互作用,但存在解释性较差的不足。基于网络的方法可以通过整合各种可用的生物医学知识来帮助科学家推理药物有效性,但是需要大量的人力和时间来做标注。因此,需要一种新的药物筛选计算方法来克服这些不足,提高药物筛选的准确性和效率。
发明内容
本发明提供基于模糊学习的抗病毒药物筛选方法、系统及存储介质,可以根据病毒-药物关联、病毒基因组序列和药物化学结构数据,准确高效地筛选出抗病毒药物。
本说明书实施例的第一方面公开了基于模糊学习的抗病毒药物筛选方法,包括如下步骤:
S1.构建病毒-药物关联的邻接矩阵;
S2.基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
S3.基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
S4.基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
S5.基于所述病毒整合相似矩阵和药物整合相似矩阵,计算病毒的模糊隶属度及药物的模糊隶属度;
S6.基于病毒的模糊隶属度及药物的模糊隶属度,使用模糊最小二乘支持向量机构造损失函数,求解得到病毒-药物预测得分矩阵;
S7.基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果。
在本说明书公开的实施例中,在S1中:
输入已知的病毒-药物关联对,构建病毒-药物关联的邻接矩阵A;
若为已知关联对,则对应位置为1,否则为0;
所述邻接矩阵A的行数为病毒数量nv,列数为药物数量nd。
在本说明书公开的实施例中,在S2中:
若药物d(i)与某个病毒之间存在关联,则对应位置记为1,否则记为0,形成一个1×nv大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),然后计算药物d(i)和d(j)之间的高斯距离相似性:
;
上式中,参数γd用于控制核带宽,通过归一化新带宽参数γ’d获得:
;
以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,得到1×nd大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i)),计算病毒v(i)和v(j)之间的高斯距离相似性:
;
参数γv用于控制核带宽,通过归一化新带宽参数γ’v获得:
;
以上γ’d和γ’v都是常数。
在本说明书公开的实施例中,在S3中:
基于病毒基因组序列,使用多序列比方法计算病毒基因序列相似矩阵;
基于药物的化学结构,得到药物MACCS指纹,采用谷本系数(即Jaccard相似度)计算药物化学结构相似矩阵。
在本说明书公开的实施例中,在S4中:
所述快速核学习方法的半正定规划式为:
;
式中,第一项为重构损失范数项,表示相似矩阵的整合误差大小;第二项/>为正则化项,作用是避免过拟合;其中A为病毒-药物关联邻接矩阵,Sj v(j=1,2)分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵,μv为正则化参数,λv∈R1×2为待求解的系数,通过λv得到病毒整合相似矩阵:
;
同理,按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λd∈R1×2,然后计算药物整合相似矩阵:
;
其中Sj d(j=1,2)分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵。
在本说明书公开的实施例中,在S5中:
基于病毒整合相似矩阵S v 、药物整合相似矩阵S d ,分别计算病毒的模糊隶属度及药物的模糊隶属度:
对于病毒q,定义模糊隶属分数如下:
其中nv表示病毒数目,表示第q和j个病毒之间的相似性,y q v 、y j v 表示第q和j个病毒在病毒-药物关联矩阵A中所对应的标签;
对于药物p定义模糊隶属分数如下:
其中nd表示药物数目,表示第p和i个药物之间的相似性,y p d 、y i d 表示第p和i个药物在病毒-药物关联矩阵A中所对应的标签。
使用将模糊隶属分数score映射到模糊隶属度μ(范围0~1)。
在本说明书公开的实施例中,在S6中:
使用模糊最小二乘支持向量机构造损失函数,求解得到病毒-药物预测得分矩阵;
首先基于模糊最小二乘支持向量机构造损失函数如下:
;
;
其中,是权重w的L2范数约束项,为了控制模型的复杂度;b为截距项;为松弛项,μ i 表示前述与训练样本x i 相关的模糊隶属度,0≤μ i ≤1,ξ i 是训练样本x i 相对超平面的损失,C是惩罚参数,用来平衡最优超平面和最小偏差的权重,l表示样本的数量;/>表示样本xi的核函数,yi为样本xi所对应的标签。
求解方程式,引入拉格朗日乘子构造拉格朗日函数如下:
;
其中是拉格朗日系数。
分别求L关于w、b、ξ i 及α i 的偏导数并将其设为0:
;
;
;
;
消除w和ξ i 得到以下线性方程:
;
其中,K是核矩阵/>,/>表示样本xi的核函数。S是对角矩阵,值由/>给出。
最后,得出对应预测得分的计算方式如下:
;
将已知的病毒-药物关联矩阵A中对应病毒所在行(或对应药物所在列)作为输出变量、将病毒整合相似矩阵S v (或药物整合相似矩阵S d )作为输入变量,分别使用模糊最小二乘支持向量机构建所述损失函数并求解,得到每行所对应病毒(或每列所对应药物)的预测得分,然后按行(或列)拼接恢复得到矩阵F v 和F d ,计算得到预测病毒-药物关联评分矩阵F。
在本说明书公开的实施例中,在S7中:
根据病毒-药物关联对预测分数,筛选出目标病毒所在行的得分,排序后得到最终预测结果。
本发明实施例的第二方面公开了基于模糊学习的抗病毒药物筛选系统,包括:
邻接矩阵构建模块,用于构建病毒-药物关联的邻接矩阵;
高斯距离相似矩阵计算模块,用于基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块,用于基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
整合相似矩阵计算模块,用于基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
病毒的模糊隶属度及药物的模糊隶属度计算模块,用于基于所述病毒整合相似矩阵和药物整合相似矩阵,计算病毒的模糊隶属度及药物的模糊隶属度;
损失函数构造模块,用于基于所述病毒的模糊隶属度及药物的模糊隶属度,使用模糊最小二乘支持向量机构造损失函数;
损失函数求解模块,用于求解所述损失函数,得到病毒-药物预测得分矩阵;
预测模块,用于基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果;
处理器,分别与所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、病毒的模糊隶属度及药物的模糊隶属度计算模块、损失函数构造模块、损失函数求解模块和预测模块连接;
存储器,与所述处理器连接,并存储有可在所述处理器上运行的计算机程序;
其中,当所述处理器执行所述计算机程序时,所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、病毒的模糊隶属度及药物的模糊隶属度计算模块、损失函数构造模块、损失函数求解模块和预测模块工作,以实现如上所述的基于模糊学习的抗病毒药物筛选方法。
本发明实施例的第三方面公开了一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取所述计算机指令时,所述计算机执行上述中任意一项所述的基于模糊学习的抗病毒药物筛选方法。
综上所述,本发明至少具有以下有益效果:
本发明构通过构建病毒-药物关联的邻接矩阵,分别计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;使用病毒基因组序列计算病毒基因序列相似矩阵,使用药物的化学结构信息计算药物化学结构相似矩阵;使用快速核学习法计算病毒整合相似矩阵、药物整合相似矩阵;计算病毒的模糊隶属度及药物的模糊隶属度;结合模糊最小二乘支持向量机构建损失函数,迭代求解得到病毒-药物关联预测得分矩阵,筛选、排序得到最终结果。本发明能快速、高效地筛选出病毒有效治疗药物,弥补生物医学实验方法耗时长、成本高的不足,为特定情况下应急解决方案提供了思路。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中所涉及的基于模糊学习的抗病毒药物筛选方法的步骤示意图。
图2为本发明中所涉及的基于模糊学习的抗病毒药物筛选方法的流程示意图。
图3为本发明中所涉及的基于模糊学习的抗病毒药物筛选方法与基线方法五折交叉验证的结果比较图。
图4为本发明中所涉及的基于模糊学习的抗病毒药物筛选系统的示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明实施例的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
下文的公开提供了许多不同的实施方式或例子用来实现本发明实施例的不同结构。为了简化本发明实施例的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明实施例。此外,本发明实施例可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
下面结合附图对本发明的实施例进行详细说明。
需要注意的是,本说明书的实施例中所使用的已知人类药物-病毒关联数据是从有关文献中收集的,先使用文本挖掘技术对文献报道的经过实验验证的药物-病毒相互作用对进行整理后,获得455个已证实的人类病毒-药物相互作用,涉及34种病毒与219种药物(文献DOI:10.1016/j.asoc.2021.107135);药物化学结构从DrugBank数据库下载,病毒基因组核苷酸序列从美国国家生物技术信息中心NCBI数据库获得。
如图1和图2所示,本说明书实施例的第一方面公开了基于模糊学习的抗病毒药物筛选方法,包括如下步骤:
S1.构建病毒-药物关联的邻接矩阵。
输入已知的病毒-药物关联对,构建病毒-药物关联的邻接矩阵A;
;
得到的邻接矩阵A元素为0或1,大小为34行×219列,i与j的取值范围满足1≤i≤34,1≤j≤219。
S2.基于病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵。
若药物d(i)与某个病毒之间存在关联,则对应位置记为1,否则记为0,形成一个1×34大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),然后计算药物d(i)和d(j)之间的高斯距离相似性:
;
上式中,IP(d(j))为药物d(j)的向量谱;参数γd用于控制核带宽,通过归一化新带宽参数γ’d获得:
;
以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,若某一个病毒v(i)与某药物之间存在关联,则对应位置记为1,否则记为0,形成一个1×219大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i)),然后计算病毒v(i)和v(j)之间的高斯距离相似性:
;
上式中IP(v(j))为病毒v(j)的向量谱,参数γv用于控制核带宽,通过归一化新带宽参数γ’v获得:
;
以上γ’d和γ’v都是常数,取γ’d=γ’v=1。
其中nv表示病毒的数量,此例中为34,nd表示药物的数量,此例中为219,此步计算后得到大小为34×34的对称矩阵S1 v(病毒高斯距离相似矩阵)和大小为219×219的对称矩阵S1 d(药物高斯距离相似矩阵),且这两个矩阵元素值全都在0到1之间。
S3.基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵。
输入病毒基因组序列,使用多序列比对工具MAFFT计算得到病毒基因序列相似矩阵S2 v;输入SMILES编码表示的药物化学结构,然后用化学信息学软件RDKit或Open Babel获得药物的分子访问系统指纹(MACCS),再使用R包RxnSim计算Tanimoto相似度,得到药物化学结构相似矩阵S2 d,具体计算方法是,对d(i)和d(j)两种药物,将此两种药物的MACCS片段二进制表示的字符串集分别记为D(i)和D(j),d(i)和d(j)间的相似度Sd ij值可以用下面公式计算:
;
S4.基于病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵。
使用快速核学习方法整合病毒基因序列相似矩阵和病毒高斯距离相似矩阵,具体是通过求解下面的半正定规划式:
;
式中,第一项为重构损失范数项,表示相似矩阵的整合误差大小;第二项/>为正则化项,作用是避免过拟合;其中A为病毒-药物关联邻接矩阵,Sj v(j=1,2)分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵,μv为正则化参数,λv∈R1×2为待求解的系数,使用Matlab软件中的CVX工具箱求解得到病毒整合相似矩阵:
;
同理,按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λd∈R1×2,然后计算药物整合相似矩阵:
;
其中Sj d(j=1,2)分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵。
S5.基于病毒整合相似矩阵S v 、药物整合相似矩阵S d ,分别计算病毒的模糊隶属度及药物的模糊隶属度:
对于病毒q,定义模糊隶属分数如下:
;
其中nv表示病毒数目,表示第q和j个病毒之间的相似性,y q v 、y j v 表示第q和j个病毒在病毒-药物关联矩阵A中所对应的标签;
对于药物p定义模糊隶属分数如下:
;
其中nd表示药物数目,表示第p和i个药物之间的相似性,y p d 、y i d 表示第p和i个药物在病毒-药物关联矩阵A中所对应的标签。
使用将模糊隶属分数score映射到模糊隶属度μ(范围0~1)。 S6.基于病毒的模糊隶属度及药物的模糊隶属度,使用模糊最小二乘支持向量机构造损失函数,求解得到病毒-药物预测得分矩阵; 首先基于模糊最小二乘支持向量机构造损失函数如下:
;
;
其中,是权重w的L2范数约束项,为了控制模型的复杂度;b为截距项;为松弛项,μ i 表示前述与训练样本x i 相关的模糊隶属度,0≤μ i ≤1,ξ i 是训练样本x i 相对超平面的损失,C是惩罚参数,用来平衡最优超平面和最小偏差的权重,l表示样本的数量;/>表示样本xi的核函数,yi为样本xi所对应的标签;
求解方程式,引入拉格朗日乘子构造拉格朗日函数如下:
;
其中是拉格朗日系数。
分别求L关于w、b、ξ i 及α i 的偏导数并将其设为0:
;
;
;
;
消除w和ξ i 得到以下线性方程:
;
其中,K是核矩阵/>,/>表示样本xi的核函数。S是对角矩阵,值由/>给出。
最后,得出预测得分计算方式如下:
;
将已知的病毒-药物关联矩阵A中对应病毒所在行(或对应药物所在列)作为输出变量、将病毒整合相似矩阵S v (或药物整合相似矩阵S d )作为输入变量,分别使用模糊最小二乘支持向量机构建所述损失函数并求解,得到每行所对应病毒(或每列所对应药物)的预测得分,然后按行(或列)拼接恢复得到矩阵F v 和F d ,计算得到预测病毒-药物关联评分矩阵F。
S7.根据病毒-药物关联对预测分数,筛选出目标病毒所在行的得分,排序后得到最终预测结果。
在上述算法使用Matlab编程实现过程中,惩罚参数C使用了网格搜寻法从{2-5, 2-4, ..., 2-0, ..., 25}范围寻找,最终病毒视角惩罚参数C v 取4,药物视角惩罚参数C d 取2。
本发明的有效性验证:
如图1和图2所示的基于模糊学习的抗病毒药物筛选方法,采用五重交叉验证进行预测性能评估,具体实施方式为:先将所有已知的药物-病毒关联随机平均分成5组,再将5组中的每一组依次设为测试样本,其他组作为训练样本(测试样本选取情况不同时,依赖测试样本计算所得的高斯距离相似矩阵亦随之改变)。使用训练样本作为本方法的输入得到预测结果,最后将该组中每个测试样本的预测分数与候选样本的分数进行比较。为了减少生成测试样本的过程中随机划分对结果造成的影响,进行了100次五折交叉验证。
使用Matlab编程计算后获得了如下数据,如图3所示为本方法FBLMVDA与现已报道的几种病毒-药物筛选模型之间的AUROC(ROC曲线下面积)值比较。本方法在五折交叉验证中取得了0.9271±0.0049的AUROC值,表现出了比几种经典模型更加出色的预测性能。
另外一方面,对具体某种病毒,如新型冠状病毒(SARS-CoV-2)使用本方法来做预测,筛选评分矩阵中SARS-CoV-2对应的行即取得新冠相关药物的预测得分,将其降序排列后中前20个药物有18个能够得到已报道文献的支持。
下表展示了预测结果前20个药物名称和支持文献的PMID号或DOI号。
序号 | 药物名称 | 支持证据 |
1 | Chloroquine | PMID:33906514 |
2 | Ribavirin | PMID:33689451 |
3 | Camostat | PMID:35692220 |
4 | N4-Hydroxycytidine | PMID:35492218 |
5 | Mycophenolic Acid | PMID:32579258 |
6 | Alisporivir | PMID:32376613 |
7 | Niclosamide | PMID:34664162 |
8 | Mizoribine | PMID:17336519 |
9 | Gemcitabine | PMID:32432977 |
10 | 6-Azauridine | 暂未发现 |
11 | Remdesivir | PMID:32251767,35221670 |
12 | Lopinavir | PMID:32251767 |
13 | Disulfiram | PMID:33855277 |
14 | Memantine | PMID:32828269 |
15 | Amodiaquine | PMID:36332361 |
16 | Mefloquine | PMID:35620103 |
17 | Toremifene | PMID:35733297 |
18 | Tamoxifen | PMID:34934049 |
19 | Chlorpromazine | PMID:37006620 |
20 | Tacrolimus | 暂未发现 |
综上,本发明具有如下优点:将模糊隶属度与训练样本关联,使不同的训练样本对最终决策模型的贡献不同。通过在最小二乘支持向量机中引入模糊隶属度,有助于去除噪声,提高病毒-药物关联预测性能,使预测结果更具有鲁棒性。
如图4所示,本发明实施例的第二方面公开了基于模糊学习的抗病毒药物筛选系统,包括:
邻接矩阵构建模块,用于构建病毒-药物关联的邻接矩阵;
高斯距离相似矩阵计算模块,用于基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块,用于基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
整合相似矩阵计算模块,用于基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
病毒的模糊隶属度及药物的模糊隶属度计算模块,用于基于所述病毒整合相似矩阵和药物整合相似矩阵,计算病毒的模糊隶属度及药物的模糊隶属度;
损失函数构造模块,用于基于所述病毒的模糊隶属度及药物的模糊隶属度,使用模糊最小二乘支持向量机构造损失函数;
损失函数求解模块,用于求解所述损失函数,得到病毒-药物预测得分矩阵;
预测模块,用于基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果;
处理器,分别与所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、病毒的模糊隶属度及药物的模糊隶属度计算模块、损失函数构造模块、损失函数求解模块和预测模块连接;
存储器,与所述处理器连接,并存储有可在所述处理器上运行的计算机程序;
其中,当所述处理器执行所述计算机程序时,所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、病毒的模糊隶属度及药物的模糊隶属度计算模块、损失函数构造模块、损失函数求解模块和预测模块工作,以实现如上所述的基于模糊学习的抗病毒药物筛选方法。
本发明实施例的第三方面公开了一种计算机可读存储介质,存储介质存储计算机指令,当计算机读取计算机指令时,计算机执行上述中任意一项的基于模糊学习的抗病毒药物筛选方法。
以上所述实施例是用以说明本发明,并非用以限制本发明,所以举例数值的变更或等效元件的置换仍应隶属本发明的范畴。
由以上详细说明,可使本领域普通技术人员明了本发明的确可达成前述目的,实已符合专利法的规定。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应当注意的是,上述有关流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
上文已对基本概念做了描述,显然,对于阅读此申请后的本领域的普通技术人员来说,上述发明披露仅作为示例,并不构成对本申请的限制。虽然此处并未明确说明,但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例有关的某一特征、结构或特性。因此,应当强调并注意的是,本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域的普通技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的过程、机器、产品或物质的组合,或对其任何新的和有用的改进。因此,本申请的各个方面可以完全由硬件实施、可以完全由软件(包括固件、常驻软件、微代码等)实施、也可以由硬件和软件组合实施。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外,本申请的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,其中计算机可读程序代码包含在其中。
本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写,包括如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等的面向对象程序设计语言、如C程序设计语言、VisualBasic、Fortran2103、Perl、COBOL2102、PHP、ABAP的常规程序化程序设计语言、如Python、Ruby和Groovy的动态程序设计语言或其它程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,尽管上述各种组件的实现可以体现在硬件设备中,但是它也可以实现为纯软件解决方案,例如,在现有服务器或移动设备上的安装。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请的实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。然而,本申请的该方法不应被解释为反映所申明的客体需要比每个权利要求中明确记载的更多特征的意图。相反,发明的主体应具备比上述单一实施例更少的特征。
Claims (3)
1.基于模糊学习的抗病毒药物筛选方法,其特征在于,包括如下步骤:
S1.构建病毒-药物关联的邻接矩阵;
S2.基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
S3.基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
S4.基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
S5.基于所述病毒整合相似矩阵和药物整合相似矩阵,计算病毒的模糊隶属度及药物的模糊隶属度;
S6.基于所述病毒的模糊隶属度及药物的模糊隶属度,使用模糊最小二乘支持向量机构造损失函数,求解得到病毒-药物预测得分矩阵;
S7.基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果;
所述S1的具体实现方法为:
输入已知的病毒-药物关联对,构建病毒-药物关联的邻接矩阵A;
若为已知关联对,则对应位置为1,否则为0;
所述邻接矩阵A的行数为病毒数量nv,列数为药物数量nd;
所述S2的具体实现方法为:
若药物d(i)与某个病毒之间存在关联,则对应位置记为1,否则记为0,形成一个1×nv大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),nv为病毒数量;然后计算药物d(i)和d(j)之间的高斯距离相似性:
;
上式中,IP(d(j))为药物d(j)的向量谱;参数γd用于控制核带宽,通过归一化新带宽参数γ’d获得:
;
其中,nd为药物数量;以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,得到1×nd大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i)),计算病毒v(i)和v(j)之间的高斯距离相似性:
;
其中,IP(v(j))为病毒v(j)的向量谱;参数γv用于控制核带宽,通过归一化新带宽参数γ’v获得:
;
以上γ’d和γ’v都是常数;
所述S3的具体实现方法为:
基于病毒基因组序列,使用多序列比方法计算病毒基因序列相似矩阵;
基于药物的化学结构,得到药物MACCS指纹,采用谷本系数计算药物化学结构相似矩阵;
所述S4的具体实现方法为:
所述快速核学习方法的半正定规划式为:
;
式中,第一项为重构损失范数项,表示相似矩阵的整合误差大小;第二项/>为正则化项,作用是避免过拟合;其中A为病毒-药物关联邻接矩阵,Sj v(j=1,2)分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵,μv为正则化参数,λv∈R1×2为待求解的系数,通过λv得到病毒整合相似矩阵Sv:
;
同理,按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λd∈R1×2,然后计算药物整合相似矩阵Sd:
;
其中Sj d(j=1,2)分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵;
所述S5的具体实现方法为:
基于病毒整合相似矩阵Sv、药物整合相似矩阵Sd,分别计算病毒的模糊隶属度及药物的模糊隶属度;
对于病毒q定义模糊隶属分数如下:
;
其中nv表示病毒数目,表示第q和j个病毒之间的相似性,y q v 、y j v 表示第q和j个病毒在病毒-药物关联矩阵A中所对应的标签;
对于药物p定义模糊隶属分数如下:
;
其中nd表示药物数目,表示第p和i个药物之间的相似性,y p d 、y i d 表示第p和i个药物在病毒-药物关联矩阵A中所对应的标签;
计算将所述模糊隶属分数score映射到模糊隶属度μ,μ的范围为0~1;
在S6中,使用模糊最小二乘支持向量机构造损失函数如下:
;
;
其中,是权重w的L2范数约束项,为了控制模型的复杂度;b为截距项;/>为松弛项,μ i 表示前述与训练样本x i 相关的模糊隶属度,0≤μ i ≤1,ξ i 是训练样本x i 相对超平面的损失,C是惩罚参数,用来平衡最优超平面和最小偏差的权重,l表示样本的数量;/>表示样本xi的核函数,yi为样本xi所对应的标签;求解方程式,引入拉格朗日乘子构造拉格朗日函数如下:
;
其中,是拉格朗日系数;分别求L关于w、b、ξ i 及α i 的偏导数并将其设为0:
;
;
;
;
消除w和ξ i 得到以下线性方程:
;
其中,,K是核矩阵/>;S是对角矩阵,值由/>给出;
最后得出预测得分计算方式如下:
;
将已知的病毒-药物关联矩阵A中对应病毒所在行或对应药物所在列作为输出变量、将病毒整合相似矩阵S v 或药物整合相似矩阵S d 作为输入变量,分别使用模糊最小二乘支持向量机构造所述损失函数并求解,得到每行所对应病毒或每列所对应药物的预测得分,然后按行或列拼接恢复得到矩阵F v 和F d ,计算得到预测病毒-药物关联评分矩阵F。
2.基于模糊学习的抗病毒药物筛选系统,其特征在于,包括:
邻接矩阵构建模块,用于构建病毒-药物关联的邻接矩阵;
高斯距离相似矩阵计算模块,用于基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块,用于基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
整合相似矩阵计算模块,用于基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
病毒的模糊隶属度及药物的模糊隶属度计算模块,用于基于所述病毒整合相似矩阵和药物整合相似矩阵,计算病毒的模糊隶属度及药物的模糊隶属度;
损失函数构造模块,用于基于所述病毒的模糊隶属度及药物的模糊隶属度,使用模糊最小二乘支持向量机构造损失函数;
损失函数求解模块,用于求解所述损失函数,得到病毒-药物预测得分矩阵;
预测模块,用于基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果;
处理器,分别与所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、病毒的模糊隶属度及药物的模糊隶属度计算模块、损失函数构造模块、损失函数求解模块和预测模块连接;
存储器,与所述处理器连接,并存储有可在所述处理器上运行的计算机程序;
其中,当所述处理器执行所述计算机程序时,所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、病毒的模糊隶属度及药物的模糊隶属度计算模块、损失函数构造模块、损失函数求解模块和预测模块工作,以实现如权利要求1所述的基于模糊学习的抗病毒药物筛选方法。
3.一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当计算机读取所述计算机指令时,所述计算机执行如权利要求1所述的基于模糊学习的抗病毒药物筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310910322.9A CN116631537B (zh) | 2023-07-24 | 2023-07-24 | 基于模糊学习的抗病毒药物筛选方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310910322.9A CN116631537B (zh) | 2023-07-24 | 2023-07-24 | 基于模糊学习的抗病毒药物筛选方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631537A true CN116631537A (zh) | 2023-08-22 |
CN116631537B CN116631537B (zh) | 2023-10-20 |
Family
ID=87603001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310910322.9A Active CN116631537B (zh) | 2023-07-24 | 2023-07-24 | 基于模糊学习的抗病毒药物筛选方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631537B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708679A (zh) * | 2024-02-04 | 2024-03-15 | 西北工业大学 | 一种基于神经网络的药物筛选方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140274935A1 (en) * | 2013-03-15 | 2014-09-18 | Laboratory Corporation Of America Holdings | Methods for determining viral sensitivity to viral inhibitors |
CN113140327A (zh) * | 2021-04-15 | 2021-07-20 | 广东工业大学 | 药物-疾病关联预测方法及系统 |
CN115966252A (zh) * | 2023-02-12 | 2023-04-14 | 汤永 | 基于l1范数图的抗病毒药物筛选方法 |
CN116092598A (zh) * | 2023-01-31 | 2023-05-09 | 汤永 | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 |
CN116189760A (zh) * | 2023-04-19 | 2023-05-30 | 中国人民解放军总医院 | 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质 |
CN116230077A (zh) * | 2023-02-20 | 2023-06-06 | 汤永 | 基于重启超图双随机游走的抗病毒药物筛选方法 |
-
2023
- 2023-07-24 CN CN202310910322.9A patent/CN116631537B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140274935A1 (en) * | 2013-03-15 | 2014-09-18 | Laboratory Corporation Of America Holdings | Methods for determining viral sensitivity to viral inhibitors |
CN113140327A (zh) * | 2021-04-15 | 2021-07-20 | 广东工业大学 | 药物-疾病关联预测方法及系统 |
CN116092598A (zh) * | 2023-01-31 | 2023-05-09 | 汤永 | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 |
CN115966252A (zh) * | 2023-02-12 | 2023-04-14 | 汤永 | 基于l1范数图的抗病毒药物筛选方法 |
CN116230077A (zh) * | 2023-02-20 | 2023-06-06 | 汤永 | 基于重启超图双随机游走的抗病毒药物筛选方法 |
CN116189760A (zh) * | 2023-04-19 | 2023-05-30 | 中国人民解放军总医院 | 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
刘文斌;吴倩;杜玉改;方刚;石晓龙;许鹏;: "基于个性化网络标志物的药物推荐方法研究", 电子与信息学报, no. 06, pages 41 - 48 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708679A (zh) * | 2024-02-04 | 2024-03-15 | 西北工业大学 | 一种基于神经网络的药物筛选方法及装置 |
CN117708679B (zh) * | 2024-02-04 | 2024-04-26 | 西北工业大学 | 一种基于神经网络的药物筛选方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116631537B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116189760B (zh) | 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质 | |
CN116153391B (zh) | 基于联合投影的抗病毒药物筛选方法、系统及存储介质 | |
Goh et al. | Deep learning for computational chemistry | |
Liu et al. | Neighborhood regularized logistic matrix factorization for drug-target interaction prediction | |
CN115966252B (zh) | 基于l1范数图的抗病毒药物筛选方法 | |
Mahmud et al. | Prediction of drug-target interaction based on protein features using undersampling and feature selection techniques with boosting | |
CN116092598B (zh) | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 | |
Jiang et al. | Deep learning and machine learning with grid search to predict later occurrence of breast Cancer metastasis using clinical data | |
Sathya et al. | [Retracted] Cancer Categorization Using Genetic Algorithm to Identify Biomarker Genes | |
CN116631537B (zh) | 基于模糊学习的抗病毒药物筛选方法、系统及存储介质 | |
CN116230077B (zh) | 基于重启超图双随机游走的抗病毒药物筛选方法 | |
CN114913916A (zh) | 预测新冠病毒适应药物的药物重定位方法 | |
Lin et al. | Machine learning in neural networks | |
CN116798545B (zh) | 基于非负矩阵的抗病毒药物筛选方法、系统及存储介质 | |
CN116705148B (zh) | 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 | |
Nguyen et al. | A matrix completion method for drug response prediction in personalized medicine | |
Ren et al. | De novo prediction of Cell-Drug sensitivities using deep learning-based graph regularized matrix factorization | |
CN116759015B (zh) | 基于超图矩阵三分解的抗病毒药物筛选方法及系统 | |
Husna et al. | The drug design for diabetes mellitus type II using rotation forest ensemble classifier | |
CN116759016A (zh) | 基于最小二乘法的抗病毒药物筛选方法、系统及存储介质 | |
Li et al. | Understanding sequence conservation with deep learning | |
CN116631502A (zh) | 基于超图学习的抗病毒药物筛选方法、系统及存储介质 | |
EP4315190A1 (en) | Graph database techniques for machine learning | |
CN114842924A (zh) | 一种优化的从头药物设计方法 | |
Bogojeska et al. | Hierarchical Bayes model for predicting effectiveness of HIV combination therapies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |