CN116705148A - 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 - Google Patents

基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 Download PDF

Info

Publication number
CN116705148A
CN116705148A CN202310910411.3A CN202310910411A CN116705148A CN 116705148 A CN116705148 A CN 116705148A CN 202310910411 A CN202310910411 A CN 202310910411A CN 116705148 A CN116705148 A CN 116705148A
Authority
CN
China
Prior art keywords
similarity matrix
virus
matrix
drug
medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310910411.3A
Other languages
English (en)
Other versions
CN116705148B (zh
Inventor
王珊
李顺飞
刘建超
刘丽华
汤永
高笠雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese PLA General Hospital
Original Assignee
Chinese PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese PLA General Hospital filed Critical Chinese PLA General Hospital
Priority to CN202310910411.3A priority Critical patent/CN116705148B/zh
Publication of CN116705148A publication Critical patent/CN116705148A/zh
Application granted granted Critical
Publication of CN116705148B publication Critical patent/CN116705148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Toxicology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统,属于生物信息学、计算生物学与人工智能交叉技术领域,方法通过系统实现,方法包括:S1.构建病毒‑药物关联的邻接矩阵;S2.计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;S3.计算病毒基因序列相似矩阵和药物化学结构相似矩阵;S4.使用快速核学习方法,整合得到病毒整合相似矩阵和药物整合相似矩阵;S5.使用拉普拉斯正则化最小二乘法,构造损失函数;S6.求解损失函数,得到病毒‑药物预测得分矩阵;S7.基于所述病毒‑药物预测得分矩阵,筛选、排序后得到最终预测结果。本发明能高效地筛选出病毒有效治疗药物,为特定情况下应急解决方案提供思路。

Description

基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统
技术领域
本发明涉及生物信息学、计算生物学与人工智能交叉的技术领域,尤其是涉及基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统。
背景技术
新药的研发过程复杂,技术含量高、投入大并且风险高,通常需要十年时间、数十亿美元的投入。因此,如果能够通过现有药品再利用,使其应用于新的疾病或不同的适应症,那么这将成为应对疾病的一种有效手段,即药物重定位是一种事半功倍的方法。在新发病毒爆发时,通过计算模型来辅助筛选抗病毒药物,可在短时间内为医药领域研究人员提供备选库,进而大大加速药物研发过程。
通常来说,传统的计算机辅助药物筛选工作存在耗费时间长、对算力要求高等不足。例如,华为云EI医疗智能体团队针对新冠病毒的所有靶标蛋白基于超大规模的分子化合物进行了蛋白结构同源建模,完成计算机辅助药物筛选工作。此外,如国防科技大学天河超算团队提出的基于自由能微扰-绝对结合自由能方法的新冠药物虚拟筛选技术。目前,已有基于人工智能算法改进的药物筛选方法报道,如预测新冠病毒适应药物的药物重定位方法(CN114913916A)、基于超图自适应归纳矩阵补全的病毒-药物关联预测方法(CN115346689A)。AI辅助药物筛查速度快、准确率高,能显著缩小优选药物的备选范围,进而缩短抗病毒药物研发的实验周期。
发明内容
本发明提供基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统,可以根据病毒-药物关联、病毒基因组序列和药物化学结构数据,准确高效地筛选出抗病毒药物。
本说明书实施例的第一方面公开了基于拉普拉斯最小二乘法的抗病毒药物筛选方法,包括如下步骤:
S1.构建病毒-药物关联的邻接矩阵;
S2.基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
S3.基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
S4.基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
S5.基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法构造损失函数;
S6.求解所述损失函数,得到病毒-药物预测得分矩阵;
S7.基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果。
在本说明书公开的实施例中,在S1中:
输入已知的病毒-药物关联对,构建病毒-药物关联的邻接矩阵A;
若为已知关联对,则对应位置为1,否则为0;
所述邻接矩阵A的行数为病毒数量nv,列数为药物数量nd。
在本说明书公开的实施例中,在S2中:
若药物d(i)与某个病毒之间存在关联,则对应位置记为1,否则记为0,形成一个1×nv大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),然后计算药物d(i)和d(j)之间的高斯距离相似性:
上式中,参数γd用于控制核带宽,通过归一化新带宽参数γ’d获得:
以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,得到1×nd大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i)),计算病毒v(i)和v(j)之间的高斯距离相似性:
参数γv用于控制核带宽,通过归一化新带宽参数γ’v获得:
以上γ’d和γ’v都是常数。
在本说明书公开的实施例中,在S3中:
基于病毒基因组序列,使用多序列比方法计算病毒基因序列相似矩阵;
基于药物的化学结构,得到药物MACCS指纹,采用谷本系数(即Jaccard相似度)计算药物化学结构相似矩阵。
在本说明书公开的实施例中,在S4中:
所述快速核学习方法的半正定规划式为:
式中,第一项为重构损失范数项,表示相似矩阵的整合误差大小;第二项/>为正则化项,作用是避免过拟合;其中A为病毒-药物关联邻接矩阵,Sj v(j=1,2)分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵,μv为正则化参数,λv∈R1×2为待求解的系数,通过λv得到病毒整合相似矩阵:
同理,按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λd∈R1×2,然后计算药物整合相似矩阵:
其中Sj d(j=1,2)分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵。
在本说明书公开的实施例中,在S5中:
基于病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法,构造损失函数。
使用拉普拉斯最小二乘法构造病毒视角的损失函数:,其中F v 为病毒视角得分矩阵,病毒拉普拉斯归一化项,对角矩阵D v 的元素D v (i,i)是病毒整合相似矩阵S v 的第i行求和,η V 为权重系数,||·|| F 是Frobenius范数,T表示矩阵转置;使用拉普拉斯最小二乘法构造药物视角的损失函数:/>,其中F d 为药物视角得分矩阵,药物拉普拉斯归一化项/>,对角矩阵D d 的元素D d (i,i)是药物整合相似矩阵S d 的第i行求和,η D 为权重系数。
在本说明书公开的实施例中,在S6中:
损失函数的求解公式如下:
计算以上两式即可得病毒视角得分矩阵F v *和药物视角得分矩阵F d *,然后计算病毒-药物关联对预测分数,其中w为权重参数。
本发明实施例的第二方面公开了基于拉普拉斯最小二乘法的抗病毒药物筛选系统,包括:
邻接矩阵构建模块,用于构建病毒-药物关联的邻接矩阵;
高斯距离相似矩阵计算模块,用于基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块,用于基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
整合相似矩阵计算模块,用于基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
损失函数构造模块,用于基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法构造损失函数;
损失函数求解模块,用于求解所述损失函数,得到病毒-药物预测得分矩阵;
预测模块,用于基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果。
在本说明书公开的实施例中,所述基于拉普拉斯最小二乘法的抗病毒药物筛选系统还包括:
处理器,分别与所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块连接;
存储器,与所述处理器连接,并存储有可在所述处理器上运行的计算机程序;
其中,当所述处理器执行所述计算机程序时,所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块工作,以实现上述中任意一项所述的基于拉普拉斯最小二乘法的抗病毒药物筛选方法。
综上所述,本发明至少具有以下有益效果:
本发明构通过构建病毒-药物关联的邻接矩阵,分别计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;使用病毒基因组序列计算病毒基因序列相似矩阵,使用药物的化学结构信息计算药物化学结构相似矩阵;使用快速核学习法计算病毒整合相似矩阵、药物整合相似矩阵;使用拉普拉斯正则化最小二乘法构建损失函数,迭代求解得到病毒-药物关联预测得分矩阵,筛选、排序得到最终结果。本发明能快速、高效地筛选出病毒有效治疗药物,弥补生物医学实验方法耗时长、成本高的不足,为特定情况下应急解决方案提供了思路。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中所涉及的基于拉普拉斯最小二乘法的抗病毒药物筛选方法的步骤示意图。
图2为本发明中所涉及的基于拉普拉斯最小二乘法的抗病毒药物筛选方法的流程示意图。
图3为本发明中所涉及的基于拉普拉斯最小二乘法的抗病毒药物筛选方法与基线方法五折交叉验证的结果比较图。
图4为本发明中所涉及的基于拉普拉斯最小二乘法的抗病毒药物筛选系统的示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明实施例的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
下文的公开提供了许多不同的实施方式或例子用来实现本发明实施例的不同结构。为了简化本发明实施例的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明实施例。此外,本发明实施例可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
下面结合附图对本发明的实施例进行详细说明。
需要注意的是,本说明书的实施例中所使用的已知人类药物-病毒关联数据是从有关文献中收集的,先使用文本挖掘技术对文献报道的经过实验验证的药物-病毒相互作用对进行整理后,获得455个已证实的人类病毒-药物相互作用,涉及34种病毒与219种药物(文献DOI:10.1016/j.asoc.2021.107135);药物化学结构从DrugBank数据库下载,病毒基因组核苷酸序列从美国国家生物技术信息中心NCBI数据库获得。
如图1和图2所示,本说明书实施例的第一方面公开了基于拉普拉斯最小二乘法的抗病毒药物筛选方法,包括如下步骤:
S1.构建病毒-药物关联的邻接矩阵。
输入已知的病毒-药物关联对,构建病毒-药物关联的邻接矩阵A;
得到的邻接矩阵A元素为0或1,大小为34行×219列,i与j的取值范围满足1≤i≤34,1≤j≤219。
S2.基于病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵。
若药物d(i)与某个病毒之间存在关联,则对应位置记为1,否则记为0,形成一个1×34大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),然后计算药物d(i)和d(j)之间的高斯距离相似性:
上式中,IP(d(j))为药物d(j)的向量谱;参数γd用于控制核带宽,通过归一化新带宽参数γ’d获得:
以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,若某一个病毒v(i)与某药物之间存在关联,则对应位置记为1,否则记为0,形成一个1×219大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i)),然后计算病毒v(i)和v(j)之间的高斯距离相似性:
上式中IP(v(j))为病毒v(j)的向量谱,参数γv用于控制核带宽,通过归一化新带宽参数γ’v获得:
以上γ’d和γ’v都是常数,取γ’d=γ’v=1。
其中nv表示病毒的数量,此例中为34,nd表示药物的数量,此例中为219,此步计算后得到大小为34×34的对称矩阵S1 v(病毒高斯距离相似矩阵)和大小为219×219的对称矩阵S1 d(药物高斯距离相似矩阵),且这两个矩阵元素值全都在0到1之间。
S3.基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵。
输入病毒基因组序列,使用多序列比对工具MAFFT计算得到病毒基因序列相似矩阵S2 v;输入SMILES编码表示的药物化学结构,然后用化学信息学软件RDKit或Open Babel获得药物的分子访问系统指纹(MACCS),再使用R包RxnSim计算Tanimoto相似度,得到药物化学结构相似矩阵S2 d,具体计算方法是,对d(i)和d(j)两种药物,将此两种药物的MACCS片段二进制表示的字符串集分别记为D(i)和D(j),d(i)和d(j)间的相似度Sd ij值可以用下面公式计算:
S4.基于病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵。
使用快速核学习方法整合病毒基因序列相似矩阵和病毒高斯距离相似矩阵,具体是通过求解下面的半正定规划式:
式中,第一项为重构损失范数项,表示相似矩阵的整合误差大小;第二项/>为正则化项,作用是避免过拟合;其中A为病毒-药物关联邻接矩阵,Sj v(j=1,2)分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵,μv为正则化参数,λv∈R1×2为待求解的系数,使用Matlab软件中的CVX工具箱求解得到病毒整合相似矩阵:
同理,按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λd∈R1×2,然后计算药物整合相似矩阵:
其中Sj d(j=1,2)分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵。
S5.基于病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法,构造损失函数。
使用拉普拉斯最小二乘法构造病毒视角的损失函数:,其中F v 为病毒视角得分矩阵,病毒拉普拉斯归一化项/>,对角矩阵D v 的元素D v (i,i)是病毒整合相似矩阵S v 的第i行求和,η V 为权重系数,||·|| F 是Frobenius范数,T表示矩阵转置;使用拉普拉斯最小二乘法构造药物视角的损失函数:,其中F d 为药物视角得分矩阵,药物拉普拉斯归一化项/>,对角矩阵D d 的元素D d (i,i)是药物整合相似矩阵S d 的第i行求和,η D 为权重系数。
S6.求解损失函数,得到病毒-药物预测得分矩阵。
求损失函数的导数令之为0再反解,得求解公式如下:
计算以上两式即可得病毒视角得分矩阵F v *(34行×219列)和药物视角得分矩阵F d *(219行×34列),然后计算病毒-药物关联对预测分数,其中w为权重参数。
S7.根据病毒-药物关联对预测分数F *(34行×219列),筛选出目标病毒所在行的得分,排序后得到最终预测结果。
使用Matlab编程实现上述算法,经初步优化后选取正则化参数w=0.5、η V =η D =0.3。
本发明的有效性验证:
如图1和图2所示的基于拉普拉斯最小二乘法的抗病毒药物筛选方法,采用五重交叉验证进行预测性能评估,具体实施方式为:先将所有已知的药物-病毒关联随机平均分成5组,再将5组中的每一组依次设为测试样本,其他组作为训练样本(测试样本选取情况不同时,依赖测试样本计算所得的高斯距离相似矩阵亦随之改变)。使用训练样本作为本方法的输入得到预测结果,最后将该组中每个测试样本的预测分数与候选样本的分数进行比较。为了减少生成测试样本的过程中随机划分对结果造成的影响,进行了100次五折交叉验证。
使用Matlab编程计算后获得了如下数据,如图3所示为本方法LapRLSVDA与现已报道的几种病毒-药物筛选模型之间的AUROC(ROC曲线下面积)值比较。本方法在五折交叉验证中取得了0.8517±0.0039的AUROC值,表现出了比几种经典模型更加出色的预测性能。
另外一方面,对具体某种病毒,如新型冠状病毒(SARS-CoV-2)使用本方法来做预测,筛选评分矩阵中SARS-CoV-2对应的行即取得新冠相关药物的预测得分,将其降序排列后中前20个药物有18个能够得到已报道文献的支持。
下表展示了预测结果前20个药物名称和支持的文献PMID。
序号 药物名称 支持证据
1 Ribavirin PMID:33689451
2 Chloroquine PMID:33906514
3 Nitazoxanide PMID:36332361
4 N4-Hydroxycytidine PMID:35492218
5 Camostat PMID:35692220
6 Amantadine PMID:35390511
7 Niclosamide PMID:34664162
8 Mizoribine PMID:17336519
9 Mycophenolic Acid PMID:32579258
10 Gemcitabine PMID:32432977
11 Berberine PMID:36183284
12 Betulinic Acid 暂未找到
13 Glycyrrhizic Acid PMID:33041173
14 Remdesivir PMID:32251767,35221670
15 Umifenovir PMID:36245851
16 Favipiravir PMID:35692220,36332361
17 Artemisinin PMID:34272426
18 Artesunate 暂未找到
19 Alisporivir PMID:32376613
20 Memantine PMID:32828269
综上,本发明的优点:通过计算拉普拉斯归一化项,捕获了数据的局部流形结构,能高效利用阴性样本信息从而提升筛选预测性能。
如图4所示,本发明实施例的第二方面公开了基于拉普拉斯最小二乘法的抗病毒药物筛选系统,包括:
邻接矩阵构建模块,用于构建病毒-药物关联的邻接矩阵;
高斯距离相似矩阵计算模块,用于基于病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块,用于基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
整合相似矩阵计算模块,用于基于病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
损失函数构造模块,用于基于病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法,构造损失函数;
损失函数求解模块,用于求解损失函数,得到病毒-药物预测得分矩阵;
预测模块,用于基于病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果。
在本说明书公开的实施例中,基于拉普拉斯最小二乘法的抗病毒药物筛选系统还包括:
处理器,分别与邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块连接;
存储器,与处理器连接,并存储有可在处理器上运行的计算机程序;
其中,当处理器执行计算机程序时,处理器控制邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块工作,以实现上述中任意一项的基于拉普拉斯最小二乘法的抗病毒药物筛选方法。
以上所述实施例是用以说明本发明,并非用以限制本发明,所以举例数值的变更或等效元件的置换仍应隶属本发明的范畴。
由以上详细说明,可使本领域普通技术人员明了本发明的确可达成前述目的,实已符合专利法的规定。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应当注意的是,上述有关流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
上文已对基本概念做了描述,显然,对于阅读此申请后的本领域的普通技术人员来说,上述发明披露仅作为示例,并不构成对本申请的限制。虽然此处并未明确说明,但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例有关的某一特征、结构或特性。因此,应当强调并注意的是,本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域的普通技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的过程、机器、产品或物质的组合,或对其任何新的和有用的改进。因此,本申请的各个方面可以完全由硬件实施、可以完全由软件(包括固件、常驻软件、微代码等)实施、也可以由硬件和软件组合实施。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外,本申请的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,其中计算机可读程序代码包含在其中。
本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写,包括如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等的面向对象程序设计语言、如C程序设计语言、VisualBasic、Fortran2103、Perl、COBOL2102、PHP、ABAP的常规程序化程序设计语言、如Python、Ruby和Groovy的动态程序设计语言或其它程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,尽管上述各种组件的实现可以体现在硬件设备中,但是它也可以实现为纯软件解决方案,例如,在现有服务器或移动设备上的安装。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请的实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。然而,本申请的该方法不应被解释为反映所申明的客体需要比每个权利要求中明确记载的更多特征的意图。相反,发明的主体应具备比上述单一实施例更少的特征。

Claims (2)

1.基于拉普拉斯最小二乘法的抗病毒药物筛选方法,其特征在于,包括如下步骤:
S1.构建病毒-药物关联的邻接矩阵;
S2.基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
S3.基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
S4.基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
S5.基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法,构造损失函数;
S6.求解所述损失函数,得到病毒-药物预测得分矩阵;
S7.基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果;
所述S1的具体实现方法为:
输入已知的病毒-药物关联对,构建病毒-药物关联的邻接矩阵A;
若为已知关联对,则对应位置为1,否则为0;
所述邻接矩阵A的行数为病毒数量nv,列数为药物数量nd;
所述S2的具体实现方法为:
若药物d(i)与某个病毒之间存在关联,则对应位置记为1,否则记为0,形成一个1×nv大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),nv为病毒数量;然后计算药物d(i)和d(j)之间的高斯距离相似性:
上式中,IP(d(j))为药物d(j)的向量谱;参数γd用于控制核带宽,通过归一化新带宽参数γ’d获得:
其中,nd为药物数量;以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,得到1×nd大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i)),计算病毒v(i)和v(j)之间的高斯距离相似性:
其中,IP(v(j))为病毒v(j)的向量谱;参数γv用于控制核带宽,通过归一化新带宽参数γ’v获得:
以上γ’d和γ’v都是常数;
所述S3的具体实现方法为:
基于病毒基因组序列,使用多序列比方法计算病毒基因序列相似矩阵;
基于药物的化学结构,得到药物MACCS指纹,采用谷本系数计算药物化学结构相似矩阵;
所述S4的具体实现方法为:
所述快速核学习方法的半正定规划式为:
式中,第一项为重构损失范数项,表示相似矩阵的整合误差大小;第二项/>为正则化项,作用是避免过拟合;其中A为病毒-药物关联邻接矩阵,Sj v(j=1,2)分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵,μv为正则化参数,λv∈R1×2为待求解的系数,通过λv得到病毒整合相似矩阵Sv
同理,按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λd∈R1×2,然后计算药物整合相似矩阵Sd
其中Sj d(j=1,2)分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵;
所述S5的具体实现方法为:
使用拉普拉斯最小二乘法构造病毒视角的损失函数:,其中F v 为病毒视角得分矩阵,病毒拉普拉斯归一化项/>,对角矩阵D v 的元素D v (i,i)是病毒整合相似矩阵S v 的第i行求和,η V 为权重系数,||·|| F 是Frobenius范数,T表示矩阵转置;使用拉普拉斯最小二乘法构造药物视角的损失函数:,其中F d 为药物视角得分矩阵,药物拉普拉斯归一化项/>,对角矩阵D d 的元素D d (i,i)是药物整合相似矩阵S d 的第i行求和,η D 为权重系数;
所述S6的具体实现方法为:
损失函数的求解公式如下:
计算以上两式即可得病毒视角得分矩阵F v *和药物视角得分矩阵F d *,然后计算病毒-药物关联对预测分数,其中w为权重参数。
2.基于拉普拉斯最小二乘法的抗病毒药物筛选系统,其特征在于,包括:
邻接矩阵构建模块,用于构建病毒-药物关联的邻接矩阵;
高斯距离相似矩阵计算模块,用于基于所述病毒-药物关联的邻接矩阵,计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵;
病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块,用于基于病毒基因组序列计算病毒基因序列相似矩阵,基于药物化学结构计算药物化学结构相似矩阵;
整合相似矩阵计算模块,用于基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵,使用快速核学习方法,整合得到病毒整合相似矩阵;基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵,使用快速核学习方法,整合得到药物整合相似矩阵;
损失函数构造模块,用于基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵,使用拉普拉斯最小二乘法构造损失函数;
损失函数求解模块,用于求解所述损失函数,得到病毒-药物预测得分矩阵;
预测模块,用于基于所述病毒-药物预测得分矩阵,筛选出目标病毒所在行的得分,排序后得到最终预测结果;
处理器,分别与所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块连接;
存储器,与所述处理器连接,并存储有可在所述处理器上运行的计算机程序;
其中,当所述处理器执行所述计算机程序时,所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块工作,以实现如权利要求1所述的基于拉普拉斯最小二乘法的抗病毒药物筛选方法。
CN202310910411.3A 2023-07-24 2023-07-24 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统 Active CN116705148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310910411.3A CN116705148B (zh) 2023-07-24 2023-07-24 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310910411.3A CN116705148B (zh) 2023-07-24 2023-07-24 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统

Publications (2)

Publication Number Publication Date
CN116705148A true CN116705148A (zh) 2023-09-05
CN116705148B CN116705148B (zh) 2023-10-27

Family

ID=87829507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310910411.3A Active CN116705148B (zh) 2023-07-24 2023-07-24 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统

Country Status (1)

Country Link
CN (1) CN116705148B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110838342A (zh) * 2019-11-13 2020-02-25 中南大学 基于相似性的病毒-受体相互作用关系预测方法和装置
CN111477344A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于自加权多核学习的药物副作用识别方法
CN114093425A (zh) * 2021-11-29 2022-02-25 湖南大学 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
US20220165352A1 (en) * 2020-11-25 2022-05-26 Northeastern Univesity Network Medicine Framework for Identifying Drug Repurposing Opportunities
CN115966252A (zh) * 2023-02-12 2023-04-14 汤永 基于l1范数图的抗病毒药物筛选方法
CN116092598A (zh) * 2023-01-31 2023-05-09 汤永 基于流形正则化非负矩阵分解的抗病毒药物筛选方法
CN116189760A (zh) * 2023-04-19 2023-05-30 中国人民解放军总医院 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110838342A (zh) * 2019-11-13 2020-02-25 中南大学 基于相似性的病毒-受体相互作用关系预测方法和装置
CN111477344A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于自加权多核学习的药物副作用识别方法
US20220165352A1 (en) * 2020-11-25 2022-05-26 Northeastern Univesity Network Medicine Framework for Identifying Drug Repurposing Opportunities
CN114093425A (zh) * 2021-11-29 2022-02-25 湖南大学 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
CN116092598A (zh) * 2023-01-31 2023-05-09 汤永 基于流形正则化非负矩阵分解的抗病毒药物筛选方法
CN115966252A (zh) * 2023-02-12 2023-04-14 汤永 基于l1范数图的抗病毒药物筛选方法
CN116189760A (zh) * 2023-04-19 2023-05-30 中国人民解放军总医院 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐纹: "基于矩阵填充的药物-靶标相互作用预测", 中国优秀硕士学位论文全文数据库医药卫生科技辑, no. 03, pages 1 - 62 *

Also Published As

Publication number Publication date
CN116705148B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN116189760B (zh) 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质
CN116153391B (zh) 基于联合投影的抗病毒药物筛选方法、系统及存储介质
CN116092598B (zh) 基于流形正则化非负矩阵分解的抗病毒药物筛选方法
CN115966252B (zh) 基于l1范数图的抗病毒药物筛选方法
CN108062556B (zh) 一种药物-疾病关系识别方法、系统和装置
CN116230077B (zh) 基于重启超图双随机游走的抗病毒药物筛选方法
CN116631537B (zh) 基于模糊学习的抗病毒药物筛选方法、系统及存储介质
CN114913916A (zh) 预测新冠病毒适应药物的药物重定位方法
CN115116580A (zh) 一种基于矩阵分解和异构图推理的病毒-药物关联预测方法
CN113921106A (zh) 一种基于有界核范数正则化的新冠肺炎药物筛选模型
CN116705148B (zh) 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统
Sekaran et al. A systematic review of artificial intelligence-based COVID-19 modeling on multimodal genetic information
CN116798545B (zh) 基于非负矩阵的抗病毒药物筛选方法、系统及存储介质
CN116759015B (zh) 基于超图矩阵三分解的抗病毒药物筛选方法及系统
CN116759016A (zh) 基于最小二乘法的抗病毒药物筛选方法、系统及存储介质
CN115831390A (zh) 多属性特征填充的药物间不良反应预测方法、系统及介质
Qu et al. A new integrated framework for the identification of potential virus–drug associations
Mehta et al. Deep CNN and LSTM Architecture-Based Approach for COVID-19 Detection
CN116631502A (zh) 基于超图学习的抗病毒药物筛选方法、系统及存储介质
He et al. Analysis of Drug Repositioning and Prediction Techniques: A Concise Review
Lau et al. Drug repurposing for Leishmaniasis with Hyperbolic Graph Neural Networks
Testa et al. A Non-Negative Matrix Tri-Factorization Based Method for Predicting Antitumor Drug Sensitivity
Zaeri Drug discovery for COVID-19 and related mutations using artificial intelligence
Jagadeeswari AI BASED MACHINE LEARNING DESIGN FOR GENOTYPE PREDICTION AGAINST COVID 19 VIRUS
Hashemi et al. Antivirals for Monkeypox Virus: Proposing an Effective Machine/Deep Learning Framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant