CN113362963A

CN113362963A - 基于多源异构网络的预测药物之间副作用的方法及系统

Info

Publication number: CN113362963A
Application number: CN202110583454.6A
Authority: CN
Inventors: 王红; 庄鲁贺; 张慧; 李威; 韩书; 杨杰; 王正军; 杨雪; 滑美芳
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-07
Anticipated expiration: 2041-05-27
Also published as: CN113362963B

Abstract

本发明属于数据分析挖掘技术领域，提供了一种基于多源异构网络的预测药物之间副作用的方法及系统。其中，该方法包括获取药物之间副作用的数据、药物和副作用之间对应关系的数据及药物和不同生物模态之间对应关系的数据，构建不同药物之间相互作用的符号网络；针对不同生物模态，对药物之间相互作用的符号网络进行图卷积，得到相应特征矩阵，并融合所有生物模态下的特征矩阵；通过解码矩阵对融合的特征矩阵中的药物编码进行解码，得到重构的药物之间的副作用网络；根据重构的药物之间的副作用网络中的信息得到邻接矩阵，根据邻接矩阵计算预测药物之间的副作用的准确率。

Description

基于多源异构网络的预测药物之间副作用的方法及系统

技术领域

本发明属于数据分析挖掘技术领域，尤其涉及一种基于多源异构网络的预测药物之间副作用的方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

最近几年来，需要联合用药来治疗疾病的人数变得越来越多，但是，一起服用多种药物时可能会导致药物间产生相互作用，产生的相互作用可能是副作用。因此，预测药物之间的副作用就成了一项并不可少的并且具有挑战性的工作。同时服用多种药物产生副作用的概率要比服用一种药物产生副作用的概率大的多。多药副作用的产生是由于药物之间的相互作用而出现的，如果一种药物与另外一种药物合用，那么其中一种药物的活性可能会向不利的方向发展。由于药物之间的复杂关系是非常少见的，所以药物之间的复杂关系很有限，并且一般来说，在相对较少的临床测试中观察不到。因此发现药物之间的不良反应是一项具有挑战性的工作，发现药物之间的副作用可以有效降低发病率和死亡率。

如果通过实施实验的方法来发现药物之间的副作用会非常费时费力。目前来看，出于对时间和成本的考虑，已经出现了很多机器学习方法来对药物之间的副作用进行预测。具体而言，用机器学习方法表示的药物都必须带有化学分子结构或者是其他的生物信息，得到药物的特征表示之后，然后对药物之间的副作用进行预测。发明人发现，尽管这些机器学习方法已经取得了相对成功的结果，但仍然存在以下问题：首先，只考虑了药物之间的单一类型的关系，而忽略了药物之间的隐性关系或者间接关系；其次，尽管一些机器学习方法的研究考虑了药物之间的隐性关系，但是这些方法并未考虑潜在的语义信息。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于多源异构网络的预测药物之间副作用的方法及系统，其对各个生物特征方面的药物特征向量表达进行融合，这种融合方式可以使药物的最终向量表达更加准确，能够提高药物之间副作用的预测准确性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于多源异构网络的预测药物之间副作用的方法。

一种基于多源异构网络的预测药物之间副作用的方法，其包括：

获取药物之间副作用的数据、药物和副作用之间对应关系的数据及药物和不同生物模态之间对应关系的数据，构建不同药物之间相互作用的符号网络；

针对不同生物模态，对药物之间相互作用的符号网络进行图卷积，得到相应特征矩阵，并融合所有生物模态下的特征矩阵；

通过解码矩阵对融合的特征矩阵中的药物编码进行解码，得到重构的药物之间的副作用网络；

根据重构的药物之间的副作用网络中的信息得到邻接矩阵，根据邻接矩阵计算预测药物之间的副作用的准确率。

本发明的第二个方面提供一种基于多源异构网络的预测药物之间副作用的系统。

一种基于多源异构网络的预测药物之间副作用的系统，其包括：

符号网络构建模块，其用于获取药物之间副作用的数据、药物和副作用之间对应关系的数据及药物和不同生物模态之间对应关系的数据，构建不同药物之间相互作用的符号网络；

特征矩阵融合模块，其用于针对不同生物模态，对药物之间相互作用的符号网络进行图卷积，得到相应特征矩阵，并融合所有生物模态下的特征矩阵；

副作用网络重构模块，其用于通过解码矩阵对融合的特征矩阵中的药物编码进行解码，得到重构的药物之间的副作用网络；

副作用准确率预测模块，其用于根据重构的药物之间的副作用网络中的信息得到邻接矩阵，根据邻接矩阵计算预测药物之间的副作用的准确率。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于多源异构网络的预测药物之间副作用的方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于多源异构网络的预测药物之间副作用的方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明提供的基于多源异构网络的预测药物之间副作用的方法，考虑了药物之间副作用的数据、药物和副作用之间对应关系的数据及药物和不同生物模态之间对应关系的数据多种生物特征信息，对于药物特征向量的表达更加全面，而且分考虑到了现实世界中的关于药物的语义信息，预测药物之间的副作用准确率过程中所应用的模型的可解释性；

(2)本发明借助与药物相关的异构信息，搭建起了药物相互作用符号网络，该网络中包含了丰富的语义关系，再通过图卷积过程，最终得到药物的特征向量表达，在多源异构网络上，因此卷积完成之后在各个异构信息方面也就是在各个生物特征方面都会得到药物的特征向量表达，对各个生物特征方面的药物特征向量表达进行融合，这种融合方式使药物的最终向量表达更加准确，从而提高了药物之间副作用的预测准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例的基于多源异构网络的预测药物之间副作用的方法流程图；

图2为本发明实施例的药物符号网络搭建过程流程图；

图3(a)为药物符号网络示例1；

图3(b)为药物符号网络示例2；

图4为本发明实施例的药物之间的拓展平衡理论示意图；

图5为本发明实施例的图卷积神经网络卷积过程流程图；

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例采用的数据包括548个药物节点，129种酶，4897种适用症，4897 种副作用，78种转运子。药物之间副作用网络的尺寸为548×548×1316(1316 个种副作用)。如果药物对之间发生副作用，则药物之间副作用网络数据集中的相应元素标记为1。这里，我们集中研究1316种常见副作用，并且每种副作用至少出现在500种药物中。药物数据统计如表1所示。

表1药物数据统计

如图1所示，本实施例提供了一种基于多源异构网络的预测药物之间副作用的方法，其具体包括如下步骤：

步骤S101：获取药物之间副作用的数据、药物和副作用之间对应关系的数据及药物和不同生物模态之间对应关系的数据，构建不同药物之间相互作用的符号网络，如图2所示。

本实施例使用的数据分布在三个数据集中。从包括DrugBank和SIDER的数据库中收集了与毒品有关的数据。DrugBank数据库是具有药物靶标，药物酶和药物转运蛋白的生物信息学资源。SIDER数据库包含1430种药物和5880种副作用术语，这些术语是根据公共文档和包装说明书汇编而成的。物副作用和适应症可在SIDER中获得。药物-药物副作用数据集为：

http://snap.stanford.edu/decagon中使用的药物-药物副作用数据集。

药物-药物副作用数据集的大小为548×548×1316(1316ADR事件)。

需要说明的是，所述生物模态包括但不限于途径、酶、适应症和转运蛋白。

根据不同的生物模态(酶，适应症等)，搭建不同的药物之间相互作用的符号网络，如图2所示：

药物之间是否有积极作用，取决于它们在生物学方式上的相似性。

药物之间的相似性是通过Jaccard相似性标准来计算的。

定义药物之间正作用，在这里我们采用的相似度阈值为0.95。

药物之间的副作用网络被认为是由于联合用药引起的某些不良影响。这些不良反应大多数是天然药理作用。药物之间的药物之间的副作用关系可以通过矩阵A_DDI-ADR来描述，其元素定义为公式(1)。也就是说，如果药物i和药物j 之间有副作用，则A_DDI-ADR(i，j)为1，并且如果药物i和药物j之间的副作用未知，则A_DDI-ADR(i，j)为0。

定义药物之间的正作用步骤：药物之间的副作用关系由矩阵A_PE描述，其元素定义为公式(2)。

在此，S_ij表示药物i和药物j之间的归一化相似度，并且μ∈[0，1)是阈值。换句话说，如果S_ij＞μ，则在药物i和药物j之间有积极作用。否则，如果S_ij＜μ，则在药物i和药物j之间没有积极作用。综上所述，这两种药物是否有积极作用，取决于它们在生物学方式上的相似性。此处，药物i和药物j之间的相似性由式(3)定义。

给定一个具有特征向量V_i和V_j的药物i和药物j，尽管可以使用其他标准，但这里的i和j之间的相似性是通过Jaccard相似性标准来计算的。在公式(2) 中，M₁₁是其中V_i和V_j的值都为1的维数；M₀₁是V_i和V_j的值分别为0和1的维数； M₁₀是V_i和V_j的值分别为1和0的维数。

符号网络(DDISN)形式化为G_DDISN＝(V，E，A_PE，A_ADR)，其中V是所有节点的集合，其中节点代表药物)；E是所有节点之间的所有关系的集合；A_ADR是网络G_ADR的邻接矩阵；A_PE是网络G_DDPE的邻接矩阵。在不失一般性的前提下，我们假设e(i，j)＝e(j，i)。邻接矩阵A_DDIPN的元素A_DDIPN(i，j)被表示为公式(4)。

符号传播步骤：根据扩展的结构平衡理论，我们可以在DDISN中执行符号传播。在图3(a)和图3(b)中，实线表示符号代表已知边缘，虚线代表预测边缘的符号。在反复使用以上理论之后，将传播DDIPN中的符号，并获得更高阶的DDI信息。

符号传播过程是基于符号传播矩阵(SPM)来完成的，该符号传播矩阵由 A_DDISN在上面的部分中初始化。然后，根据结构平衡理论，使用传播操作迭代更新SPM。详细的迭代过程基于公式(5)和(6)。

SPM₀＝I

SPM₁＝A_DDISN (7)

在这里，I∈R^N×N是一个单位矩阵。

其中，Sign(x)是公式9所示的符号函数。

在DDISN中的符号传播过程之后，我们在DDISN中获得M阶符号传播矩阵(SPM_m)。得到的SPM_m就是药物特征网络。

步骤S102：针对不同生物模态，对药物之间相互作用的符号网络进行图卷积，得到相应特征矩阵，并融合所有生物模态下的特征矩阵。

针对不同的生物模态，对药物的之间的符号网络进行图卷积，如图4所示：

利用深度神经网络对所有生物模态下的特征矩阵进行融合。

图卷积神经网络的配置参数，定义一个图卷积神经网络。在这里，图卷积神经网络一共有两个隐藏层，第一个隐藏层是32维的，第二个隐藏层是16维的。我们将tanh函数用作第一层和第二个隐藏层之间的后激活函数。

利用定义好的图卷积神经网络对药物相互作用网络和已知的药物之间的副作用网络进行卷积。

上述卷积过程分别用于所有类型的生物学特征，例如途径，酶，适应症和转运蛋白。

针对不同的生物模态，对药物的之间的符号网络进行图卷积的具体步骤为：输入：不良药物反应相互作用网络的邻接矩阵A_rDDI-ADR；培训模型的交互E_p的数量；卷积神经网络的层数L。

输出：药物特征矩阵H^(l)

融合所有生物模态下通过图卷积得到的特征矩阵，如图5所示：

设置深度神经网络的配置参数，定义一个深度神经网络。这里采用的深度神经网络的隐藏层采用了三个全连接层。

利用定义好的深度神经网络融合所有生物模态下通过图卷积得到的特征矩阵。

融合所有生物模态下通过图卷积得到的特征矩阵的具体步骤为：

这里采用深层神经网络来融合各个生物特征模态下的特征矩阵，深层神经网络是一种神经网络，具有许多隐藏层，大致分为三个类别，输入层，隐藏层和输出层。通常，第一层是输入层，最后一层是输出层，并且所有中间层都是隐藏层。隐藏层通常完全连接，即，第i层中的任何神经元必须连接到I+1层层中的任何神经元。虽然深层神经网络看起来很复杂，但它与来自小本地模型的 Perceptron仍然是相同的，即，线性关系z＝∑ω_ix_i+b加上激活函数σ(x)。

步骤S103：通过解码矩阵对融合的特征矩阵中的药物编码进行解码，得到重构的药物之间的副作用网络。

对药物之间的副作用进行预测的具体步骤为：通过具有特定维度的初始化时随机定义并且后期会不断优化的解码矩阵X_r对融合的特征矩阵中的药物编码进行解码得到重构的药物之间的副作用网络。具体过程为：

步骤S104：根据重构的药物之间的副作用网络中的信息得到邻接矩阵，根据邻接矩阵计算预测药物之间的副作用的准确率。

具体地，在重构的药物之间的副作用网络中，若一对药物之间有副作用，则在邻接矩阵中该药物对的对应位置上的数字为1。

在重构的药物之间的副作用网络中，若一对药物之间没有副作用或副作用未知，则在邻接矩阵中该药物对的对应位置上的数字为0。

对提出的预测药物之间的副作用模型进行测试：

为了评估提出的预测药物之间的副作用模型，我们使用三个常用指标来评估模型性能：接收者工作特性曲线(AUROC)下的面积，准确度调用曲线 (AUPRC)下的面积和F1(F1同时考虑分类模型的准确性和召回率)。三个评估标准和相关概念定义如下。

首先，对于两个分类问题，分类结果为正(P)或负(N)。

1)真实正值(TP)：预测值为P，实际值也为P。

2)误报率(FP)：预测值为P，实际值为N。

3)真负(TN)：预测为N，实际值也为N。

4)假阴性(FN)：预测值为N，但实际值为P。

真实阳性率(TPR)是所有阳性样品中阳性样品的概率，即模型对阳性样品的敏感性。假阳性率(FPR)是所有阴性样品中阳性样品的概率，即模型对阴性样品的敏感性。TPR和FPR定义如下。

以FDR为x轴，以TPR为y轴，可以通过设置不同的分类阈值来获得接收器工作特性曲线(ROC)。AUROC值越大，模型的识别性能越好。当测试集中正样本和负样本的分布发生变化时，ROC曲线可以保持稳定。因此，AUROC 值保持稳定。因此，AUROC指数非常稳定。

其次，准确性的概念是正确分类的样本占样本总数的比例。召回的定义与 TPR相同，后者是阳性样本的概率。精度和召回率的定义如下。

以召回率作为x轴，以精度作为y轴，可以通过设置不同的分类阈值来获得精确召回曲线(PRC)。AUPRC是PR曲线下面积。注意，当正样本和负样本的比例完全不同时，AUPRC可以反映实际的分类性能。因此，与AUROC(ROC 曲线下面积)值相比，AUPRC值可以更好地反映分类器的质量。

在这里，Precision(i)是i在测试集预测结果的排名列表中的位置之前的精度。F1分数的计算方式如下：

我们提出的预测药物之间的副作用模型的三个指标的成绩如表2所示：

表2提出的预测药物之间的副作用模型的成绩

AUROC	AUPRC	F1
			0.97302	0.98285	0.93083

实施例二

本实施例提供了一种基于多源异构网络的预测药物之间副作用的系统，其具体包括如下模块：

此处需要说明的是，本实施例的基于多源异构网络的预测药物之间副作用的系统中的各个模块，与实施例一中的基于多源异构网络的预测药物之间副作用的方法中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于多源异构网络的预测药物之间副作用的方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于多源异构网络的预测药物之间副作用的方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多源异构网络的预测药物之间副作用的方法，其特征在于，包括：

2.如权利要求1所述的基于多源异构网络的预测药物之间副作用的方法，其特征在于，在重构的药物之间的副作用网络中，若一对药物之间有副作用，则在邻接矩阵中该药物对的对应位置上的数字为1。

3.如权利要求1所述的基于多源异构网络的预测药物之间副作用的方法，其特征在于，在重构的药物之间的副作用网络中，若一对药物之间没有副作用或副作用未知，则在邻接矩阵中该药物对的对应位置上的数字为0。

4.如权利要求1所述的基于多源异构网络的预测药物之间副作用的方法，其特征在于，利用深度神经网络对所有生物模态下的特征矩阵进行融合。

5.如权利要求1所述的基于多源异构网络的预测药物之间副作用的方法，其特征在于，所述生物模态包括途径、酶、适应症和转运蛋白。

6.如权利要求1所述的基于多源异构网络的预测药物之间副作用的方法，其特征在于，药物之间是否有积极作用，取决于它们在生物学方式上的相似性。

7.如权利要求6所述的基于多源异构网络的预测药物之间副作用的方法，其特征在于，药物之间的相似性是通过Jaccard相似性标准来计算的。

8.一种基于多源异构网络的预测药物之间副作用的系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于多源异构网络的预测药物之间副作用的方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于多源异构网络的预测药物之间副作用的方法中的步骤。