CN115985520A

CN115985520A - 基于图正则化矩阵分解的药物疾病关联关系的预测方法

Info

Publication number: CN115985520A
Application number: CN202211615901.2A
Authority: CN
Inventors: 李臻; 张元明; 赵海光
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-18

Abstract

本发明公开了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法。本发明方法根据各疾病的向无环图提取各疾病之间的语义相似性，再结合现有数据库中各疾病与药物之间的关联关系，利用图卷积方法提取疾病特征构建疾病特征矩阵，确定各疾病之间的余弦相似性并与语义相似性相融合，得到基于有向无环图的疾病关联关系后，再根据现有数据库中的药物特征构建药物特征矩阵，结合疾病特征矩阵，建立药物分子与疾病之间的关联矩阵，基于图正则化与核方法的矩阵分解算法对关联矩阵进行特征分解，通过构建目标函数，优化药物相似性网络和疾病相似性网络中节点的近邻关系，充分利用了疾病特征和药物特征，实现了对药物与疾病之间关联关系的精确预测。

Description

基于图正则化矩阵分解的药物疾病关联关系的预测方法

技术领域

本发明涉及药物疾病关联性预测技术领域，具体涉及一种基于图正则化矩阵分解的药物疾病关联关系的预测方法。

背景技术

随着计算机辅助药物设计、网络药理学、生物信息学、人工智能等技术的发展，将计算机技术应用于药物疾病关联关系预测研究中，在已知药物中预筛出针对某些疾病具有一定活性的药物分子，能够有效提升药物研发的成功率，降低药物研发的成本，提升药物研发的速度。

基于药物-疾病关联关系网络批量获取已知药物与疾病之间的关系，充分利用药物-疾病关联关系网络融合其他信息，能够有效促进药物疾病关联关系预测的准确率。此外，各种药物和疾病知识数据库的出现，也进一步促进了新算法的快速发展。

基于网络的推理方法作为目前应用最为广泛的方法。HeTDR采用了一种基于异构网络和文本挖掘的药物疾病关联关系预测方法，利用药物相关网络提取药物特征以及利用生物医学语料库提取疾病特征，并与已知的药物-疾病关联网络相结合，预测药物与疾病之间的相关性。MNBDR设计了基于模块网络的药物筛选方法，利用现有药物样本和疾病样本的基因表达数据集，使用随机游走算法捕捉疾病发展中的基本模块，筛选给定疾病的潜在药物。DRHN构建了一种面向异构网络的计算方法，利用相似性计算和实验验证的药物-疾病关联关系建立药物-疾病二分网络，迭代更新网络中未连接的药物疾病节点权重直到稳定，确定每对药物-疾病的最终亲和力。

随着深度学习的发展，将深度学习应用于药物疾病关联网络图中已成为目前研究的重点。Xuan等人提出了一个基于卷积神经网络和双向长短期记忆网络的深度学习框架来获取药物疾病对的原始特征和路径特征，实现了药物重定位。Metapath2vec基于元路径和随机游走学习异构网络中的嵌入节点表示，并利用异构跳跃图策略实现药物疾病关联预测。由于药物疾病关联网络图为图结构，因此相关学者针对图卷积进行了深入研究。GFPred整合了药物疾病之间的关系、疾病相似性以及药物相似性，提出了一种基于图卷积自动编码器全连接预测方法，融合注意力机制预测与药物相关的疾病。Yu等人提出了一种层注意图卷积网络，针对不同网络使用注意力机制将来自多个图卷积层的特征编码进行组合后，观察药物疾病关联并进行评分。BiFusion利用双向图卷积网络模型对异构信息进行融合，通过蛋白质互作用网络对药物疾病预测结果进行改进，提供了准确的药物重定位算法。

但是，现有的基于网络推理的药物疾病关联关系预测方法所采用的网络结构过于复杂，且并未考虑多种元素融合进行预测分析，无法精确提取药物与疾病之间的关联关系，存在因多种信息导致的异构性以及计算复杂性的问题。因此，亟需提出一种基于图正则化矩阵分解的药物疾病关联关系的预测方法，实现对药物疾病关联关系的精确预测。

发明内容

本发明针对现阶段基于网络推理的药物疾病关联关系预测方法难以精确预测药物疾病关联关系的问题，提出了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法，基于有向无环图获取疾病关联关系，结合药物分子相似性网络构建药物分子与疾病之间的关联矩阵，并基于图正则化与核方法的矩阵分解算法预测药物疾病之间的关联，实现了对药物与疾病之间关联关系的准确预测。

本发明采用以下的技术方案：

基于图正则化矩阵分解的药物疾病关联关系的预测方法，其特征在于，包括以下步骤：

步骤1，根据疾病的分类信息，分别针对各疾病构建有向无环图，基于各疾病的有向无环图提取各疾病之间的语义相似性，再结合现有数据库获取各疾病与药物之间的关联关系，利用图卷积方法在各疾病的有向无环图中提取疾病特征，构建疾病特征矩阵，计算各疾病之间的余弦相似性，通过将各疾病之间的语义相似性和余弦相似性相融合，得到基于有向无环图的疾病关联关系；

步骤2，提取现有数据库中各药物分子的药物特征，得到药物特征矩阵，通过计算各药物特征之间的余弦相似性，得到药物分子相似性网络；

步骤3，根据疾病特征矩阵和药物特征矩阵，建立药物分子与疾病之间的关联矩阵；

步骤4，基于图正则化与核方法的矩阵分解算法，对药物分子与疾病之间的关联矩阵进行特征分解，结合现有数据库的药物疾病关系图网络，构建目标函数，优化药物相似性网络和疾病相似性网络中节点的近邻关系，预测药物分子与疾病之间的关联。

优选地，所述步骤1中，具体包括以下步骤：

步骤1.1，根据疾病的分类信息，分别针对各疾病构建有向无环图，获取各疾病有向无环图中所有节点的语义值；

所述有向无环图内设置有多个节点，将疾病d本身作为子节点、将于疾病d相关的疾病作为父辈节点，分别针对各疾病构建有向无环图，有向无环图表示为：

DAG(d)＝(N(d),E(d)) (1)

式中，d为疾病名称，DAG(·)为疾病的有向无环图，N(·)为有向无环图中与疾病有关的父辈节点，E(·)为有向无环图中父辈节点与子节点之间的连接关系；

分别计算各疾病有向无环图中所有节点的语义值，如公式(2)所示：

式中，n为节点编号，n'为节点n的子节点，C_d(·)为节点相对于疾病d的语义值，Δ为语义贡献因子；

分别根据各疾病有向无环图中所有节点的语义值，确定各疾病的语义值，如公式(3)所示：

DV(d)＝∑_n∈N(d)C_d(n) (3)

式中，DV(·)为疾病的语义值；

步骤1.2，根据各疾病的语义值，计算疾病之间的语义相似性，如公式(4)所示：

式中，

为疾病i与疾病j之间的语义相似性，x为疾病i与疾病j的有向无环图均含有的节点，

为节点x相对于疾病i的语义值，

为节点x相对于疾病j的语义值，

为节点n相对于疾病d_i的语义值，DV(d_i)为疾病i的语义值，DV(d_j)为疾病j的语义值；

步骤1.3，基于现有数据库获取治疗各疾病所采用的药物，分别针对各疾病确定疾病与药物之间的关联关系，提取疾病与药物之间的关联关系并作为描述符，(所述描述符为二进制向量，描述符的长度为数据库中药物的数量)若疾病与药物相关联，则将描述符的取值设置为1，若疾病与药物之间不存在关联，则将描述符的取值设置为0；

分别针对各疾病，利用图卷积方法在各有向无环图中提取疾病特征，构建疾病特征矩阵，确定各疾病特征的特征值，如公式(5)所示：

式中，X_d为描述符值，

为有向无环图中所有节点卷积计算后的特征值，GCN(·)为图卷积函数，V_d为疾病特征的特征值，Pool(·)为聚合函数；

步骤1.4，根据各疾病特征，计算疾病之间的余弦相似性，如公式(6)所示：

式中，

为疾病i与疾病j之间的余弦相似性，m为疾病特征的编号，M为疾病特征的总数，

为第m个疾病特征相对于疾病i的特征值，

为第m个疾病特征相对于疾病j的特征值；

步骤1.5，将各疾病之间的语义相似性和余弦相似性相融合，得到基于有向无环图的疾病关联关系，如公式(7)所示：

式中，

为疾病i与疾病j之间的关联度，α为融合系数。

优选地，所述步骤1.3中，所述描述符为二进制向量，描述符的长度为数据库中药物的数量。

优选地，所述步骤2中，根据现有数据库中所有药物的分子结构，确定数据库中所包含的药物分子，利用摩根指纹提取现有数据库中所有药物分子的药物特征，建立药物特征矩阵，并计算药物特征矩阵中各药物特征之间的余弦相似性，得到药物分子相似性网络。

优选地，所述步骤3中，药物分子与疾病之间的关联矩阵为：

式中，Y为药物分子与疾病之间的关联矩阵，D为疾病特征矩阵，G为药物分子特征矩阵。

优选地，所述步骤4中，利用核方法对药物分子与疾病之间的关联矩阵进行特征分解，得到药物相似性矩阵A和疾病相似性矩阵B，药物相似性矩阵A和疾病相似性矩阵B之间的关联函数为：

f(I,J)＝∑_m,nλ_m,nκ_G(＜a_I,a_m＞)κ_D(＜b_J,b_n＞)(9)

式中，f为药物相似性矩阵A和疾病相似性矩阵B之间的关联函数，I为关联矩阵Y内向量的行序号，用于表示关联矩阵内的药物分子名称，J为关联矩阵Y内向量的列序号，用于表示关联矩阵内的疾病名称；a_m为药物相似性矩阵A中第m行的数值，b_n为疾病相似性矩阵B中第n行的数值，κ_g为药物向量核函数，κ_D为疾病向量核函数，a_I为药物相似性矩阵A中第I行的数值，b_J为疾病相似性矩阵B中第J行的数值；

基于Kronecker最小二乘法，利用药物向量核函数和疾病向量核函数的Kronecker积加速计算过程，分别对药物向量核函数和疾病向量核函数进行特征分解，获取药物分子与疾病之间的关联函数为：

其中，

式中，Q_G为药物相似性矩阵，Q_D为疾病相似性矩阵，T为转置矩阵；

根据现有数据库药物疾病关系图网络中药物分子与疾病之间的关联，合并特征分解得到的药物相似性矩阵和疾病相似性矩阵构建目标函数，如公式(12)所示：

式中，y_m,n为现有数据库中药物分子m与疾病n之间的关系，S^G*为药物的近邻相似性矩阵，S^D*为疾病的近邻相似性矩阵，

为关联函数f在核K相关的Hilbert空间上的范数，λ、β均为正则化参数；

根据药物相似性矩阵和疾病相似性矩阵，构建药物相似性网络和疾病相似性网络，基于图正则化处理药物相似性网络和疾病相似性网络，分别保留药物相似性网络和疾病相似性网络中各节点相邻节点的几何结构信息，计算得到药物相似性权重和疾病相似性权重，如公式(13)所示：

式中，W^G为药物相似性权重，W^D为疾病相似性权重，N_p(·)为节点P周围节点的集合；

根据药物相似性权重和疾病相似性权重，计算得到药物近邻相似性矩阵以及疾病近邻相似性矩阵，如公式(14)所示：

式中，S^G*为药物近邻相似性矩阵，S^G为药物相似性矩阵；S^D*为疾病近邻相似性矩阵，S^D为疾病相似性矩阵；

由于药物近邻相似性矩阵与药物相似性矩阵、疾病近邻相似性矩阵与疾病相似性矩阵的几何结构一致，基于药物近邻相似性矩阵和疾病近邻相似性矩阵，利用构建目标函数预测药物分子与疾病之间的关联。

本发明具有如下有益效果：

本发明方法提出了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法，根据疾病的有向无环图获取各疾病之间的语义相似性，将疾病的语义相似性与余弦相似性相融合，基于疾病特征与相似性计算方法获取各疾病之间的关联关系，充分考虑了各疾病的特征。

同时，本发明方法还基于图正则化矩阵对药物与疾病之间的关联关系进行分解，结合基于核方法的矩阵分解方法，充分挖掘疾病和药物对药物疾病关联矩阵矩阵分解的影响，将药物相似性网络和疾病相似性网络中节点的近邻关系作为优化目标，分解过程中保留网络中节点原有的几何结构信息，配合Kronecker最小二乘法加快计算速率，实现了对药物与疾病之间关联关系的精准预测。

附图说明

图1为基于图正则化矩阵分解的药物疾病关联关系预测方法的示意图。

图2为基于有向无环图的疾病关联关系图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明：

本发明提出了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法，如图1所示，包括以下步骤：

步骤1，根据疾病的分类信息，分别针对各疾病构建有向无环图(DAG)，基于各疾病的有向无环图提取各疾病之间的语义相似性，再结合现有数据库获取各疾病与药物之间的关联关系，利用图卷积方法在各疾病的有向无环图中提取疾病特征，构建疾病特征矩阵，计算各疾病之间的余弦相似性，通过将各疾病之间的语义相似性和余弦相似性相融合，得到基于有向无环图的疾病关联关系，如图2所示，具体包括以下步骤：

步骤1.1，根据疾病的分类信息，分别针对各疾病构建有向无环图，获取各疾病有向无环图中所有节点的语义值。

所述有向无环图内设置有多个节点，将疾病d本身作为子节点、将于疾病d相关的疾病作为父辈节点，用于连接节点的单向边对应各疾病之间的关联关系，分别针对各疾病构建有向无环图，有向无环图表示为：

DAG(d)＝(N(d),E(d)) (1)

式中，d为疾病名称，DAG(·)为疾病的有向无环图，N(·)为有向无环图中与疾病有关的父辈节点，E(·)为有向无环图中父辈节点与子节点之间的连接关系。

式中，n为节点编号，n'为节点n的子节点，C_d(·)为节点相对于疾病d的语义值，Δ为语义贡献因子。

DV(d)＝∑_n∈N(d)C_d(n) (3)

式中，DV(·)为疾病的语义值。

步骤1.2，当两种疾病拥有大量的祖先节点时，证明这两种疾病之间具有较高的语义相似性，所以根据各疾病的语义值，计算疾病之间的语义相似性，如公式(4)所示：

式中，

为疾病i与疾病j之间的语义相似性，x为疾病i与疾病j的有向无环图均含有的节点，C_di(x)为节点x相对于疾病i的语义值，

为节点x相对于疾病j的语义值，

为节点n相对于疾病d_i的语义值，DV(d_i)为疾病i的语义值，DV(d_j)为疾病j的语义值。

步骤1.3，由于仅仅依靠疾病之间的语义相似性无法深度挖掘各疾病之间的关联关系，所以本申请技术方案引入了疾病与药物之间的关系，本实施例中基于ComparativeToxicogenics数据库获取治疗各疾病所采用的药物，该数据库中包含已知的708个药物与5603个疾病之间的关联关系，且每个药物都至少能关联一个以上的疾病，分别针对各疾病确定疾病与药物之间的关联关系，提取疾病与药物之间的关联关系并作为描述符，描述符为二进制向量，描述符的长度为数据库中药物的数量；若疾病与药物相关联，则将描述符的取值设置为1，若疾病与药物之间不存在关联，则将描述符的取值设置为0。

式中，X_d为描述符值，

为有向无环图中所有节点卷积计算后的特征值，GCN(·)为图卷积函数，V_d为疾病特征的特征值，Pool(·)为聚合函数。

式中，

为第m个疾病特征相对于疾病i的特征值，

为第m个疾病特征相对于疾病j的特征值。

式中，

为疾病i与疾病j之间的关联度，α为融合系数。

步骤2，根据Comparative Toxicogenics数据库中各药物的分子结构，确定Comparative Toxicogenics数据库中所包含的药物分子，利用摩根指纹提取现有数据库中所有药物分子的药物特征，建立药物特征矩阵，并计算药物特征矩阵中各药物特征之间的余弦相似性，得到药物分子相似性网络。本实施例中基于现有数据库利用摩根指纹提取药物分子的特征构建药物分子相似性网络为本领域的现有技术。

步骤3，根据疾病特征矩阵和药物特征矩阵，建立药物分子与疾病之间的关联矩阵，如公式(8)所示：

步骤4，基于图正则化与核方法的矩阵分解算法对药物分子与疾病之间的关联矩阵进行特征分解，预测药物与疾病之间的关联关系，对于标准的非负矩阵分解目的是要找到两个低秩的分解矩阵，他们之间的乘积应该尽可能的接近原始矩阵，在药物与疾病之间关联关系的预测中这两个矩阵分别为药物相似性矩阵与疾病相似性矩阵。

为了避免过拟合提高预测结果的准确性，将核方法引入药物分子与疾病之间的关联矩阵的分解过程中，利用核方法对药物分子与疾病之间的关联矩阵进行特征分解，得到药物相似性矩阵A和疾病相似性矩阵B，药物相似性矩阵A和疾病相似性矩阵B之间的关联函数为：

f(I,J)＝∑_m,nλ_m,nκ_G(<a_I,a_m>)κ_D(<b_J,b_n>) (9)

式中，f为药物相似性矩阵A和疾病相似性矩阵B之间的关联函数，I为关联矩阵Y内向量的行序号，用于表示关联矩阵内的药物分子名称，J为关联矩阵Y内向量的列序号，用于表示关联矩阵内的疾病名称；a_m为药物相似性矩阵A中第m行的数值，b_n为疾病相似性矩阵B中第n行的数值，κ_G为药物向量核函数，κ_D为疾病向量核函数，a_I为药物相似性矩阵A中第I行的数值，b_J为疾病相似性矩阵B中第J行的数值。

基于Kronecker最小二乘法，利用药物向量核函数和疾病向量核函数的Kronecker积加速计算过程，将药物向量核函数κ_G设为

疾病向量核函数κ_D设为

分别对药物向量核函数和疾病向量核函数进行特征分解，获取药物分子与疾病之间的关联函数为：

其中，

式中，Q_G为药物相似性矩阵，Q_D为疾病相似性矩阵，T为转置矩阵。

为关联函数f在核K相关的Hilbert空间上的范数，λ、β均为正则化参数。

目标函数中

保证了药物近邻相似性矩阵与药物相似性矩阵以及疾病近邻相似性矩阵与疾病相似性矩阵的几何结构具有一致性。

式中，W^G为药物相似性权重，W^D为疾病相似性权重，N_p(·)为节点P周围节点的集合。

式中，S^G*为药物近邻相似性矩阵，S^G为药物相似性矩阵；S^D*为疾病近邻相似性矩阵，S^D为疾病相似性矩阵。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.基于图正则化矩阵分解的药物疾病关联关系的预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法，其特征在于，所述步骤1中，具体包括以下步骤：

DAG(d)＝(N(d),E(d)) (1)

DV(d)＝∑_n∈N(d)C_d(n) (3)

式中，DV(·)为疾病的语义值；

式中，

为节点x相对于疾病i的语义值，

为节点x相对于疾病j的语义值，

式中，X_d为描述符值，

式中，

为第m个疾病特征相对于疾病i的特征值，

为第m个疾病特征相对于疾病j的特征值；

式中，

为疾病i与疾病j之间的关联度，α为融合系数。

3.根据权利要求2所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法，其特征在于，所述步骤1.3中，所述描述符为二进制向量，描述符的长度为数据库中药物的数量。

4.根据权利要求2所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法，其特征在于，所述步骤2中，根据现有数据库中所有药物的分子结构，确定数据库中所包含的药物分子，利用摩根指纹提取现有数据库中所有药物分子的药物特征，建立药物特征矩阵，并计算药物特征矩阵中各药物特征之间的余弦相似性，得到药物分子相似性网络。

5.根据权利要求4所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法，其特征在于，所述步骤3中，药物分子与疾病之间的关联矩阵为：

6.根据权利要求1所述的基于图正则化矩阵分解的药物疾病关联关系的预测方法，其特征在于，所述步骤4中，利用核方法对药物分子与疾病之间的关联矩阵进行特征分解，得到药物相似性矩阵A和疾病相似性矩阵B，药物相似性矩阵A和疾病相似性矩阵B之间的关联函数为：

f(I,J)＝∑_m,nλ_m,nκ_G(＜a_I,a_m＞)κ_D(＜b_J,b_n＞) (9)

其中，