CN115985520A - 基于图正则化矩阵分解的药物疾病关联关系的预测方法 - Google Patents

基于图正则化矩阵分解的药物疾病关联关系的预测方法 Download PDF

Info

Publication number
CN115985520A
CN115985520A CN202211615901.2A CN202211615901A CN115985520A CN 115985520 A CN115985520 A CN 115985520A CN 202211615901 A CN202211615901 A CN 202211615901A CN 115985520 A CN115985520 A CN 115985520A
Authority
CN
China
Prior art keywords
disease
drug
matrix
similarity
diseases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211615901.2A
Other languages
English (en)
Inventor
李臻
张元明
赵海光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN202211615901.2A priority Critical patent/CN115985520A/zh
Publication of CN115985520A publication Critical patent/CN115985520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法。本发明方法根据各疾病的向无环图提取各疾病之间的语义相似性,再结合现有数据库中各疾病与药物之间的关联关系,利用图卷积方法提取疾病特征构建疾病特征矩阵,确定各疾病之间的余弦相似性并与语义相似性相融合,得到基于有向无环图的疾病关联关系后,再根据现有数据库中的药物特征构建药物特征矩阵,结合疾病特征矩阵,建立药物分子与疾病之间的关联矩阵,基于图正则化与核方法的矩阵分解算法对关联矩阵进行特征分解,通过构建目标函数,优化药物相似性网络和疾病相似性网络中节点的近邻关系,充分利用了疾病特征和药物特征,实现了对药物与疾病之间关联关系的精确预测。

Description

基于图正则化矩阵分解的药物疾病关联关系的预测方法
技术领域
本发明涉及药物疾病关联性预测技术领域,具体涉及一种基于图正则化矩阵分解的药物疾病关联关系的预测方法。
背景技术
随着计算机辅助药物设计、网络药理学、生物信息学、人工智能等技术的发展,将计算机技术应用于药物疾病关联关系预测研究中,在已知药物中预筛出针对某些疾病具有一定活性的药物分子,能够有效提升药物研发的成功率,降低药物研发的成本,提升药物研发的速度。
基于药物-疾病关联关系网络批量获取已知药物与疾病之间的关系,充分利用药物-疾病关联关系网络融合其他信息,能够有效促进药物疾病关联关系预测的准确率。此外,各种药物和疾病知识数据库的出现,也进一步促进了新算法的快速发展。
基于网络的推理方法作为目前应用最为广泛的方法。HeTDR采用了一种基于异构网络和文本挖掘的药物疾病关联关系预测方法,利用药物相关网络提取药物特征以及利用生物医学语料库提取疾病特征,并与已知的药物-疾病关联网络相结合,预测药物与疾病之间的相关性。MNBDR设计了基于模块网络的药物筛选方法,利用现有药物样本和疾病样本的基因表达数据集,使用随机游走算法捕捉疾病发展中的基本模块,筛选给定疾病的潜在药物。DRHN构建了一种面向异构网络的计算方法,利用相似性计算和实验验证的药物-疾病关联关系建立药物-疾病二分网络,迭代更新网络中未连接的药物疾病节点权重直到稳定,确定每对药物-疾病的最终亲和力。
随着深度学习的发展,将深度学习应用于药物疾病关联网络图中已成为目前研究的重点。Xuan等人提出了一个基于卷积神经网络和双向长短期记忆网络的深度学习框架来获取药物疾病对的原始特征和路径特征,实现了药物重定位。Metapath2vec基于元路径和随机游走学习异构网络中的嵌入节点表示,并利用异构跳跃图策略实现药物疾病关联预测。由于药物疾病关联网络图为图结构,因此相关学者针对图卷积进行了深入研究。GFPred整合了药物疾病之间的关系、疾病相似性以及药物相似性,提出了一种基于图卷积自动编码器全连接预测方法,融合注意力机制预测与药物相关的疾病。Yu等人提出了一种层注意图卷积网络,针对不同网络使用注意力机制将来自多个图卷积层的特征编码进行组合后,观察药物疾病关联并进行评分。BiFusion利用双向图卷积网络模型对异构信息进行融合,通过蛋白质互作用网络对药物疾病预测结果进行改进,提供了准确的药物重定位算法。
但是,现有的基于网络推理的药物疾病关联关系预测方法所采用的网络结构过于复杂,且并未考虑多种元素融合进行预测分析,无法精确提取药物与疾病之间的关联关系,存在因多种信息导致的异构性以及计算复杂性的问题。因此,亟需提出一种基于图正则化矩阵分解的药物疾病关联关系的预测方法,实现对药物疾病关联关系的精确预测。
发明内容
本发明针对现阶段基于网络推理的药物疾病关联关系预测方法难以精确预测药物疾病关联关系的问题,提出了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法,基于有向无环图获取疾病关联关系,结合药物分子相似性网络构建药物分子与疾病之间的关联矩阵,并基于图正则化与核方法的矩阵分解算法预测药物疾病之间的关联,实现了对药物与疾病之间关联关系的准确预测。
本发明采用以下的技术方案:
基于图正则化矩阵分解的药物疾病关联关系的预测方法,其特征在于,包括以下步骤:
步骤1,根据疾病的分类信息,分别针对各疾病构建有向无环图,基于各疾病的有向无环图提取各疾病之间的语义相似性,再结合现有数据库获取各疾病与药物之间的关联关系,利用图卷积方法在各疾病的有向无环图中提取疾病特征,构建疾病特征矩阵,计算各疾病之间的余弦相似性,通过将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系;
步骤2,提取现有数据库中各药物分子的药物特征,得到药物特征矩阵,通过计算各药物特征之间的余弦相似性,得到药物分子相似性网络;
步骤3,根据疾病特征矩阵和药物特征矩阵,建立药物分子与疾病之间的关联矩阵;
步骤4,基于图正则化与核方法的矩阵分解算法,对药物分子与疾病之间的关联矩阵进行特征分解,结合现有数据库的药物疾病关系图网络,构建目标函数,优化药物相似性网络和疾病相似性网络中节点的近邻关系,预测药物分子与疾病之间的关联。
优选地,所述步骤1中,具体包括以下步骤:
步骤1.1,根据疾病的分类信息,分别针对各疾病构建有向无环图,获取各疾病有向无环图中所有节点的语义值;
所述有向无环图内设置有多个节点,将疾病d本身作为子节点、将于疾病d相关的疾病作为父辈节点,分别针对各疾病构建有向无环图,有向无环图表示为:
DAG(d)=(N(d),E(d)) (1)
式中,d为疾病名称,DAG(·)为疾病的有向无环图,N(·)为有向无环图中与疾病有关的父辈节点,E(·)为有向无环图中父辈节点与子节点之间的连接关系;
分别计算各疾病有向无环图中所有节点的语义值,如公式(2)所示:
Figure BDA0004000327290000031
式中,n为节点编号,n'为节点n的子节点,Cd(·)为节点相对于疾病d的语义值,Δ为语义贡献因子;
分别根据各疾病有向无环图中所有节点的语义值,确定各疾病的语义值,如公式(3)所示:
DV(d)=∑n∈N(d)Cd(n) (3)
式中,DV(·)为疾病的语义值;
步骤1.2,根据各疾病的语义值,计算疾病之间的语义相似性,如公式(4)所示:
Figure BDA0004000327290000032
式中,
Figure BDA0004000327290000033
为疾病i与疾病j之间的语义相似性,x为疾病i与疾病j的有向无环图均含有的节点,
Figure BDA0004000327290000034
为节点x相对于疾病i的语义值,
Figure BDA0004000327290000035
为节点x相对于疾病j的语义值,
Figure BDA0004000327290000036
为节点n相对于疾病di的语义值,DV(di)为疾病i的语义值,DV(dj)为疾病j的语义值;
步骤1.3,基于现有数据库获取治疗各疾病所采用的药物,分别针对各疾病确定疾病与药物之间的关联关系,提取疾病与药物之间的关联关系并作为描述符,(所述描述符为二进制向量,描述符的长度为数据库中药物的数量)若疾病与药物相关联,则将描述符的取值设置为1,若疾病与药物之间不存在关联,则将描述符的取值设置为0;
分别针对各疾病,利用图卷积方法在各有向无环图中提取疾病特征,构建疾病特征矩阵,确定各疾病特征的特征值,如公式(5)所示:
Figure BDA0004000327290000037
式中,Xd为描述符值,
Figure BDA0004000327290000041
为有向无环图中所有节点卷积计算后的特征值,GCN(·)为图卷积函数,Vd为疾病特征的特征值,Pool(·)为聚合函数;
步骤1.4,根据各疾病特征,计算疾病之间的余弦相似性,如公式(6)所示:
Figure BDA0004000327290000042
式中,
Figure BDA0004000327290000043
为疾病i与疾病j之间的余弦相似性,m为疾病特征的编号,M为疾病特征的总数,
Figure BDA0004000327290000044
为第m个疾病特征相对于疾病i的特征值,
Figure BDA0004000327290000045
为第m个疾病特征相对于疾病j的特征值;
步骤1.5,将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系,如公式(7)所示:
Figure BDA0004000327290000046
式中,
Figure BDA0004000327290000047
为疾病i与疾病j之间的关联度,α为融合系数。
优选地,所述步骤1.3中,所述描述符为二进制向量,描述符的长度为数据库中药物的数量。
优选地,所述步骤2中,根据现有数据库中所有药物的分子结构,确定数据库中所包含的药物分子,利用摩根指纹提取现有数据库中所有药物分子的药物特征,建立药物特征矩阵,并计算药物特征矩阵中各药物特征之间的余弦相似性,得到药物分子相似性网络。
优选地,所述步骤3中,药物分子与疾病之间的关联矩阵为:
Figure BDA0004000327290000048
式中,Y为药物分子与疾病之间的关联矩阵,D为疾病特征矩阵,G为药物分子特征矩阵。
优选地,所述步骤4中,利用核方法对药物分子与疾病之间的关联矩阵进行特征分解,得到药物相似性矩阵A和疾病相似性矩阵B,药物相似性矩阵A和疾病相似性矩阵B之间的关联函数为:
f(I,J)=∑m,nλm,nκG(<aI,am>)κD(<bJ,bn>)(9)
式中,f为药物相似性矩阵A和疾病相似性矩阵B之间的关联函数,I为关联矩阵Y内向量的行序号,用于表示关联矩阵内的药物分子名称,J为关联矩阵Y内向量的列序号,用于表示关联矩阵内的疾病名称;am为药物相似性矩阵A中第m行的数值,bn为疾病相似性矩阵B中第n行的数值,κg为药物向量核函数,κD为疾病向量核函数,aI为药物相似性矩阵A中第I行的数值,bJ为疾病相似性矩阵B中第J行的数值;
基于Kronecker最小二乘法,利用药物向量核函数和疾病向量核函数的Kronecker积加速计算过程,分别对药物向量核函数和疾病向量核函数进行特征分解,获取药物分子与疾病之间的关联函数为:
Figure BDA0004000327290000051
其中,
Figure BDA0004000327290000052
式中,QG为药物相似性矩阵,QD为疾病相似性矩阵,T为转置矩阵;
根据现有数据库药物疾病关系图网络中药物分子与疾病之间的关联,合并特征分解得到的药物相似性矩阵和疾病相似性矩阵构建目标函数,如公式(12)所示:
Figure BDA0004000327290000053
式中,ym,n为现有数据库中药物分子m与疾病n之间的关系,SG*为药物的近邻相似性矩阵,SD*为疾病的近邻相似性矩阵,
Figure BDA0004000327290000054
为关联函数f在核K相关的Hilbert空间上的范数,λ、β均为正则化参数;
根据药物相似性矩阵和疾病相似性矩阵,构建药物相似性网络和疾病相似性网络,基于图正则化处理药物相似性网络和疾病相似性网络,分别保留药物相似性网络和疾病相似性网络中各节点相邻节点的几何结构信息,计算得到药物相似性权重和疾病相似性权重,如公式(13)所示:
Figure BDA0004000327290000055
式中,WG为药物相似性权重,WD为疾病相似性权重,Np(·)为节点P周围节点的集合;
根据药物相似性权重和疾病相似性权重,计算得到药物近邻相似性矩阵以及疾病近邻相似性矩阵,如公式(14)所示:
Figure BDA0004000327290000061
式中,SG*为药物近邻相似性矩阵,SG为药物相似性矩阵;SD*为疾病近邻相似性矩阵,SD为疾病相似性矩阵;
由于药物近邻相似性矩阵与药物相似性矩阵、疾病近邻相似性矩阵与疾病相似性矩阵的几何结构一致,基于药物近邻相似性矩阵和疾病近邻相似性矩阵,利用构建目标函数预测药物分子与疾病之间的关联。
本发明具有如下有益效果:
本发明方法提出了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法,根据疾病的有向无环图获取各疾病之间的语义相似性,将疾病的语义相似性与余弦相似性相融合,基于疾病特征与相似性计算方法获取各疾病之间的关联关系,充分考虑了各疾病的特征。
同时,本发明方法还基于图正则化矩阵对药物与疾病之间的关联关系进行分解,结合基于核方法的矩阵分解方法,充分挖掘疾病和药物对药物疾病关联矩阵矩阵分解的影响,将药物相似性网络和疾病相似性网络中节点的近邻关系作为优化目标,分解过程中保留网络中节点原有的几何结构信息,配合Kronecker最小二乘法加快计算速率,实现了对药物与疾病之间关联关系的精准预测。
附图说明
图1为基于图正则化矩阵分解的药物疾病关联关系预测方法的示意图。
图2为基于有向无环图的疾病关联关系图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明:
本发明提出了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法,如图1所示,包括以下步骤:
步骤1,根据疾病的分类信息,分别针对各疾病构建有向无环图(DAG),基于各疾病的有向无环图提取各疾病之间的语义相似性,再结合现有数据库获取各疾病与药物之间的关联关系,利用图卷积方法在各疾病的有向无环图中提取疾病特征,构建疾病特征矩阵,计算各疾病之间的余弦相似性,通过将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系,如图2所示,具体包括以下步骤:
步骤1.1,根据疾病的分类信息,分别针对各疾病构建有向无环图,获取各疾病有向无环图中所有节点的语义值。
所述有向无环图内设置有多个节点,将疾病d本身作为子节点、将于疾病d相关的疾病作为父辈节点,用于连接节点的单向边对应各疾病之间的关联关系,分别针对各疾病构建有向无环图,有向无环图表示为:
DAG(d)=(N(d),E(d)) (1)
式中,d为疾病名称,DAG(·)为疾病的有向无环图,N(·)为有向无环图中与疾病有关的父辈节点,E(·)为有向无环图中父辈节点与子节点之间的连接关系。
分别计算各疾病有向无环图中所有节点的语义值,如公式(2)所示:
Figure BDA0004000327290000071
式中,n为节点编号,n'为节点n的子节点,Cd(·)为节点相对于疾病d的语义值,Δ为语义贡献因子。
分别根据各疾病有向无环图中所有节点的语义值,确定各疾病的语义值,如公式(3)所示:
DV(d)=∑n∈N(d)Cd(n) (3)
式中,DV(·)为疾病的语义值。
步骤1.2,当两种疾病拥有大量的祖先节点时,证明这两种疾病之间具有较高的语义相似性,所以根据各疾病的语义值,计算疾病之间的语义相似性,如公式(4)所示:
Figure BDA0004000327290000072
式中,
Figure BDA0004000327290000073
为疾病i与疾病j之间的语义相似性,x为疾病i与疾病j的有向无环图均含有的节点,Cdi(x)为节点x相对于疾病i的语义值,
Figure BDA0004000327290000074
为节点x相对于疾病j的语义值,
Figure BDA0004000327290000075
为节点n相对于疾病di的语义值,DV(di)为疾病i的语义值,DV(dj)为疾病j的语义值。
步骤1.3,由于仅仅依靠疾病之间的语义相似性无法深度挖掘各疾病之间的关联关系,所以本申请技术方案引入了疾病与药物之间的关系,本实施例中基于ComparativeToxicogenics数据库获取治疗各疾病所采用的药物,该数据库中包含已知的708个药物与5603个疾病之间的关联关系,且每个药物都至少能关联一个以上的疾病,分别针对各疾病确定疾病与药物之间的关联关系,提取疾病与药物之间的关联关系并作为描述符,描述符为二进制向量,描述符的长度为数据库中药物的数量;若疾病与药物相关联,则将描述符的取值设置为1,若疾病与药物之间不存在关联,则将描述符的取值设置为0。
分别针对各疾病,利用图卷积方法在各有向无环图中提取疾病特征,构建疾病特征矩阵,确定各疾病特征的特征值,如公式(5)所示:
Figure BDA0004000327290000081
式中,Xd为描述符值,
Figure BDA0004000327290000082
为有向无环图中所有节点卷积计算后的特征值,GCN(·)为图卷积函数,Vd为疾病特征的特征值,Pool(·)为聚合函数。
步骤1.4,根据各疾病特征,计算疾病之间的余弦相似性,如公式(6)所示:
Figure BDA0004000327290000083
式中,
Figure BDA0004000327290000084
为疾病i与疾病j之间的余弦相似性,m为疾病特征的编号,M为疾病特征的总数,
Figure BDA0004000327290000085
为第m个疾病特征相对于疾病i的特征值,
Figure BDA0004000327290000086
为第m个疾病特征相对于疾病j的特征值。
步骤1.5,将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系,如公式(7)所示:
Figure BDA0004000327290000087
式中,
Figure BDA0004000327290000088
为疾病i与疾病j之间的关联度,α为融合系数。
步骤2,根据Comparative Toxicogenics数据库中各药物的分子结构,确定Comparative Toxicogenics数据库中所包含的药物分子,利用摩根指纹提取现有数据库中所有药物分子的药物特征,建立药物特征矩阵,并计算药物特征矩阵中各药物特征之间的余弦相似性,得到药物分子相似性网络。本实施例中基于现有数据库利用摩根指纹提取药物分子的特征构建药物分子相似性网络为本领域的现有技术。
步骤3,根据疾病特征矩阵和药物特征矩阵,建立药物分子与疾病之间的关联矩阵,如公式(8)所示:
Figure BDA0004000327290000091
式中,Y为药物分子与疾病之间的关联矩阵,D为疾病特征矩阵,G为药物分子特征矩阵。
步骤4,基于图正则化与核方法的矩阵分解算法对药物分子与疾病之间的关联矩阵进行特征分解,预测药物与疾病之间的关联关系,对于标准的非负矩阵分解目的是要找到两个低秩的分解矩阵,他们之间的乘积应该尽可能的接近原始矩阵,在药物与疾病之间关联关系的预测中这两个矩阵分别为药物相似性矩阵与疾病相似性矩阵。
为了避免过拟合提高预测结果的准确性,将核方法引入药物分子与疾病之间的关联矩阵的分解过程中,利用核方法对药物分子与疾病之间的关联矩阵进行特征分解,得到药物相似性矩阵A和疾病相似性矩阵B,药物相似性矩阵A和疾病相似性矩阵B之间的关联函数为:
f(I,J)=∑m,nλm,nκG(<aI,am>)κD(<bJ,bn>) (9)
式中,f为药物相似性矩阵A和疾病相似性矩阵B之间的关联函数,I为关联矩阵Y内向量的行序号,用于表示关联矩阵内的药物分子名称,J为关联矩阵Y内向量的列序号,用于表示关联矩阵内的疾病名称;am为药物相似性矩阵A中第m行的数值,bn为疾病相似性矩阵B中第n行的数值,κG为药物向量核函数,κD为疾病向量核函数,aI为药物相似性矩阵A中第I行的数值,bJ为疾病相似性矩阵B中第J行的数值。
基于Kronecker最小二乘法,利用药物向量核函数和疾病向量核函数的Kronecker积加速计算过程,将药物向量核函数κG设为
Figure BDA0004000327290000092
疾病向量核函数κD设为
Figure BDA0004000327290000093
分别对药物向量核函数和疾病向量核函数进行特征分解,获取药物分子与疾病之间的关联函数为:
Figure BDA0004000327290000094
其中,
Figure BDA0004000327290000095
式中,QG为药物相似性矩阵,QD为疾病相似性矩阵,T为转置矩阵。
根据现有数据库药物疾病关系图网络中药物分子与疾病之间的关联,合并特征分解得到的药物相似性矩阵和疾病相似性矩阵构建目标函数,如公式(12)所示:
Figure BDA0004000327290000096
式中,ym,n为现有数据库中药物分子m与疾病n之间的关系,SG*为药物的近邻相似性矩阵,SD*为疾病的近邻相似性矩阵,
Figure BDA0004000327290000104
为关联函数f在核K相关的Hilbert空间上的范数,λ、β均为正则化参数。
目标函数中
Figure BDA0004000327290000101
保证了药物近邻相似性矩阵与药物相似性矩阵以及疾病近邻相似性矩阵与疾病相似性矩阵的几何结构具有一致性。
根据药物相似性矩阵和疾病相似性矩阵,构建药物相似性网络和疾病相似性网络,基于图正则化处理药物相似性网络和疾病相似性网络,分别保留药物相似性网络和疾病相似性网络中各节点相邻节点的几何结构信息,计算得到药物相似性权重和疾病相似性权重,如公式(13)所示:
Figure BDA0004000327290000102
式中,WG为药物相似性权重,WD为疾病相似性权重,Np(·)为节点P周围节点的集合。
根据药物相似性权重和疾病相似性权重,计算得到药物近邻相似性矩阵以及疾病近邻相似性矩阵,如公式(14)所示:
Figure BDA0004000327290000103
式中,SG*为药物近邻相似性矩阵,SG为药物相似性矩阵;SD*为疾病近邻相似性矩阵,SD为疾病相似性矩阵。
由于药物近邻相似性矩阵与药物相似性矩阵、疾病近邻相似性矩阵与疾病相似性矩阵的几何结构一致,基于药物近邻相似性矩阵和疾病近邻相似性矩阵,利用构建目标函数预测药物分子与疾病之间的关联。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (6)

1.基于图正则化矩阵分解的药物疾病关联关系的预测方法,其特征在于,包括以下步骤:
步骤1,根据疾病的分类信息,分别针对各疾病构建有向无环图,基于各疾病的有向无环图提取各疾病之间的语义相似性,再结合现有数据库获取各疾病与药物之间的关联关系,利用图卷积方法在各疾病的有向无环图中提取疾病特征,构建疾病特征矩阵,计算各疾病之间的余弦相似性,通过将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系;
步骤2,提取现有数据库中各药物分子的药物特征,得到药物特征矩阵,通过计算各药物特征之间的余弦相似性,得到药物分子相似性网络;
步骤3,根据疾病特征矩阵和药物特征矩阵,建立药物分子与疾病之间的关联矩阵;
步骤4,基于图正则化与核方法的矩阵分解算法,对药物分子与疾病之间的关联矩阵进行特征分解,结合现有数据库的药物疾病关系图网络,构建目标函数,优化药物相似性网络和疾病相似性网络中节点的近邻关系,预测药物分子与疾病之间的关联。
2.根据权利要求1所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法,其特征在于,所述步骤1中,具体包括以下步骤:
步骤1.1,根据疾病的分类信息,分别针对各疾病构建有向无环图,获取各疾病有向无环图中所有节点的语义值;
所述有向无环图内设置有多个节点,将疾病d本身作为子节点、将于疾病d相关的疾病作为父辈节点,分别针对各疾病构建有向无环图,有向无环图表示为:
DAG(d)=(N(d),E(d)) (1)
式中,d为疾病名称,DAG(·)为疾病的有向无环图,N(·)为有向无环图中与疾病有关的父辈节点,E(·)为有向无环图中父辈节点与子节点之间的连接关系;
分别计算各疾病有向无环图中所有节点的语义值,如公式(2)所示:
Figure FDA0004000327280000011
式中,n为节点编号,n'为节点n的子节点,Cd(·)为节点相对于疾病d的语义值,Δ为语义贡献因子;
分别根据各疾病有向无环图中所有节点的语义值,确定各疾病的语义值,如公式(3)所示:
DV(d)=∑n∈N(d)Cd(n) (3)
式中,DV(·)为疾病的语义值;
步骤1.2,根据各疾病的语义值,计算疾病之间的语义相似性,如公式(4)所示:
Figure FDA0004000327280000021
式中,
Figure FDA0004000327280000022
为疾病i与疾病j之间的语义相似性,x为疾病i与疾病j的有向无环图均含有的节点,
Figure FDA0004000327280000023
为节点x相对于疾病i的语义值,
Figure FDA0004000327280000024
为节点x相对于疾病j的语义值,
Figure FDA0004000327280000025
为节点n相对于疾病di的语义值,DV(di)为疾病i的语义值,DV(dj)为疾病j的语义值;
步骤1.3,基于现有数据库获取治疗各疾病所采用的药物,分别针对各疾病确定疾病与药物之间的关联关系,提取疾病与药物之间的关联关系并作为描述符,(所述描述符为二进制向量,描述符的长度为数据库中药物的数量)若疾病与药物相关联,则将描述符的取值设置为1,若疾病与药物之间不存在关联,则将描述符的取值设置为0;
分别针对各疾病,利用图卷积方法在各有向无环图中提取疾病特征,构建疾病特征矩阵,确定各疾病特征的特征值,如公式(5)所示:
Figure FDA0004000327280000026
式中,Xd为描述符值,
Figure FDA0004000327280000027
为有向无环图中所有节点卷积计算后的特征值,GCN(·)为图卷积函数,Vd为疾病特征的特征值,Pool(·)为聚合函数;
步骤1.4,根据各疾病特征,计算疾病之间的余弦相似性,如公式(6)所示:
Figure FDA0004000327280000028
式中,
Figure FDA0004000327280000029
为疾病i与疾病j之间的余弦相似性,m为疾病特征的编号,M为疾病特征的总数,
Figure FDA00040003272800000210
为第m个疾病特征相对于疾病i的特征值,
Figure FDA00040003272800000211
为第m个疾病特征相对于疾病j的特征值;
步骤1.5,将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系,如公式(7)所示:
Figure FDA0004000327280000031
式中,
Figure FDA0004000327280000032
为疾病i与疾病j之间的关联度,α为融合系数。
3.根据权利要求2所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法,其特征在于,所述步骤1.3中,所述描述符为二进制向量,描述符的长度为数据库中药物的数量。
4.根据权利要求2所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法,其特征在于,所述步骤2中,根据现有数据库中所有药物的分子结构,确定数据库中所包含的药物分子,利用摩根指纹提取现有数据库中所有药物分子的药物特征,建立药物特征矩阵,并计算药物特征矩阵中各药物特征之间的余弦相似性,得到药物分子相似性网络。
5.根据权利要求4所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法,其特征在于,所述步骤3中,药物分子与疾病之间的关联矩阵为:
Figure FDA0004000327280000033
式中,Y为药物分子与疾病之间的关联矩阵,D为疾病特征矩阵,G为药物分子特征矩阵。
6.根据权利要求1所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法,其特征在于,所述步骤4中,利用核方法对药物分子与疾病之间的关联矩阵进行特征分解,得到药物相似性矩阵A和疾病相似性矩阵B,药物相似性矩阵A和疾病相似性矩阵B之间的关联函数为:
f(I,J)=∑m,nλm,nκG(<aI,am>)κD(<bJ,bn>) (9)
式中,f为药物相似性矩阵A和疾病相似性矩阵B之间的关联函数,I为关联矩阵Y内向量的行序号,用于表示关联矩阵内的药物分子名称,J为关联矩阵Y内向量的列序号,用于表示关联矩阵内的疾病名称;am为药物相似性矩阵A中第m行的数值,bn为疾病相似性矩阵B中第n行的数值,κG为药物向量核函数,κD为疾病向量核函数,aI为药物相似性矩阵A中第I行的数值,bJ为疾病相似性矩阵B中第J行的数值;
基于Kronecker最小二乘法,利用药物向量核函数和疾病向量核函数的Kronecker积加速计算过程,分别对药物向量核函数和疾病向量核函数进行特征分解,获取药物分子与疾病之间的关联函数为:
Figure FDA0004000327280000034
其中,
Figure FDA0004000327280000035
式中,QG为药物相似性矩阵,QD为疾病相似性矩阵,T为转置矩阵;
根据现有数据库药物疾病关系图网络中药物分子与疾病之间的关联,合并特征分解得到的药物相似性矩阵和疾病相似性矩阵构建目标函数,如公式(12)所示:
Figure FDA0004000327280000041
式中,ym,n为现有数据库中药物分子m与疾病n之间的关系,SG*为药物的近邻相似性矩阵,SD*为疾病的近邻相似性矩阵,
Figure FDA0004000327280000042
为关联函数f在核K相关的Hilbert空间上的范数,λ、β均为正则化参数;
根据药物相似性矩阵和疾病相似性矩阵,构建药物相似性网络和疾病相似性网络,基于图正则化处理药物相似性网络和疾病相似性网络,分别保留药物相似性网络和疾病相似性网络中各节点相邻节点的几何结构信息,计算得到药物相似性权重和疾病相似性权重,如公式(13)所示:
Figure FDA0004000327280000043
式中,WG为药物相似性权重,WD为疾病相似性权重,Np(·)为节点P周围节点的集合;
根据药物相似性权重和疾病相似性权重,计算得到药物近邻相似性矩阵以及疾病近邻相似性矩阵,如公式(14)所示:
Figure FDA0004000327280000044
式中,SG*为药物近邻相似性矩阵,SG为药物相似性矩阵;SD*为疾病近邻相似性矩阵,SD为疾病相似性矩阵;
由于药物近邻相似性矩阵与药物相似性矩阵、疾病近邻相似性矩阵与疾病相似性矩阵的几何结构一致,基于药物近邻相似性矩阵和疾病近邻相似性矩阵,利用构建目标函数预测药物分子与疾病之间的关联。
CN202211615901.2A 2022-12-15 2022-12-15 基于图正则化矩阵分解的药物疾病关联关系的预测方法 Pending CN115985520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211615901.2A CN115985520A (zh) 2022-12-15 2022-12-15 基于图正则化矩阵分解的药物疾病关联关系的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211615901.2A CN115985520A (zh) 2022-12-15 2022-12-15 基于图正则化矩阵分解的药物疾病关联关系的预测方法

Publications (1)

Publication Number Publication Date
CN115985520A true CN115985520A (zh) 2023-04-18

Family

ID=85958794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211615901.2A Pending CN115985520A (zh) 2022-12-15 2022-12-15 基于图正则化矩阵分解的药物疾病关联关系的预测方法

Country Status (1)

Country Link
CN (1) CN115985520A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189760A (zh) * 2023-04-19 2023-05-30 中国人民解放军总医院 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质
CN116798545A (zh) * 2023-08-21 2023-09-22 中国人民解放军总医院 基于非负矩阵的抗病毒药物筛选方法、系统及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189760A (zh) * 2023-04-19 2023-05-30 中国人民解放军总医院 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质
CN116798545A (zh) * 2023-08-21 2023-09-22 中国人民解放军总医院 基于非负矩阵的抗病毒药物筛选方法、系统及存储介质
CN116798545B (zh) * 2023-08-21 2023-11-14 中国人民解放军总医院 基于非负矩阵的抗病毒药物筛选方法、系统及存储介质

Similar Documents

Publication Publication Date Title
Chen et al. MUFFIN: multi-scale feature fusion for drug–drug interaction prediction
Vo et al. On the road to explainable AI in drug-drug interactions prediction: A systematic review
CN108733742B (zh) 全局归一化阅读器系统和方法
Lipinski et al. Advances and perspectives in applying deep learning for drug design and discovery
Zhang et al. Applications of transformer-based language models in bioinformatics: a survey
Ata et al. Recent advances in network-based methods for disease gene prediction
Soman et al. Machine learning with SVM and other kernel methods
Zheng et al. A deep and autoregressive approach for topic modeling of multimodal data
CN115985520A (zh) 基于图正则化矩阵分解的药物疾病关联关系的预测方法
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN114093527B (zh) 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和系统
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
CN112420126A (zh) 一种基于多源数据融合和网络结构扰动的药物靶标预测方法
CN116798652A (zh) 一种基于多任务学习的抗癌药物反应预测方法
CN114420201A (zh) 一种多源数据高效融合的药物靶标相互作用的预测方法
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN115019878A (zh) 一种基于图表示和深度学习的药物发现方法
Bhardwaj et al. Computational biology in the lens of CNN
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
Xu et al. Dilated convolution capsule network for apple leaf disease identification
Tian et al. GTAMP-DTA: Graph transformer combined with attention mechanism for drug-target binding affinity prediction
Iraji et al. Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method
Esmail Zadeh Nojoo Kambar et al. Chemical-gene relation extraction with graph neural networks and bert encoder
Peng et al. Pocket-specific 3d molecule generation by fragment-based autoregressive diffusion models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination