CN108520166B

CN108520166B - 一种基于多重相似性网络游走的药物靶标预测方法

Info

Publication number: CN108520166B
Application number: CN201810253951.8A
Authority: CN
Inventors: 石越; 常会友
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2022-04-08
Anticipated expiration: 2038-03-26
Also published as: CN108520166A

Abstract

本发明涉及一种基于多重相似性网络游走的药物靶标预测方法，包括以下步骤：S1.从相关数据库中获取药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系，并构建成对应的邻接矩阵；S2.通过计算邻接矩阵中各个节点之间的杰卡德相似度,从而构建出各个邻接矩阵对应的相似性网络；S3.使用node2vec方法对各个相似性网络进行游走和训练，生成对应的网络特征向量；S4.将S3得到的各个网络的特征向量进行拼接，得到药物和靶标的多重网络的组合特征向量；S5.根据现有的药物靶标关系，得到药物靶标对的正样本，同时随机组合生成与正样本等量的负样本，将S4得到的药物特征向量和靶标特征向量，按照正负样本的组合情况进行拼接，从而得到药物靶标对的最终特征向量；S6.用随机森林算法对S5中的正负样本进行训练以及十折交叉检验和分类预测。

Description

一种基于多重相似性网络游走的药物靶标预测方法

技术领域

本发明涉及生物信息学与计算机学科的交叉领域，更具体地，涉及一种基于多重相似性网络游走的药物靶标预测方法。

背景技术

用计算机领域的方法对药物靶标关系进行预测已经成为发现新药和药物重定位过程中一个非常重要的步骤。通过机器学习的方法识别出的潜在的药物靶标关系能够给生化或临床实验中提供引导，从而大大降低生化实验的耗时和花费。

在传统的机器学习领域中，特征的提取与选择是非常关键的一个部分，特征表示的好与坏通常决定了机器学习方法的性能。而特征的选择需要特定领域的专家才能有效的完成，所以在进行生物信息学这些交叉学科的研究时，不仅需要有机器学习的相关知识，还需要有任务相关领域的专家帮助设计特征，这使得研究存在一个比较高的门槛。同时，特征设计的过程十分消耗时间和精力，因为从数据中抽取和组织区分性强的信息是非常困难的，这也是传统机器学习的弱点。

随着表示学习的提出和发展，这个问题得到了改善。表示学习是一种让抽取供其他预测模型使用的特征信息更加简易的数据表示的学习方法，其中比较经典的就是网络表示学习(network representation learning)，它是基于图论，用低维、稠密、实值的向量表示网络中的节点，用来代表节点在网络中的拓扑特征。

现有的药物靶标预测方法大多是基于药物的化学结构以及靶标的原始序列进行特征的学习和提取。但是如果只关注生物化学特征，可能会忽略药物与靶标网络中的相互关系以及网络拓扑特征。而网络拓扑特征所蕴含的信息量是非常大的，比如在一个社交网络中，可以根据两个人的共同好友数来推断两人之间的关系，从而对两人的兴趣、爱好、社交团体进行预测和推荐。

有少量的预测方法也考虑到了网络拓扑特征，但是都只是浅尝辄止，将现有的药物和靶标的对应关系直接转换成特征向量，或者只是对关系网络进行了简单的随机游走。这些处理并不能很好地得到有信息量和区分性的有效网络拓扑特征。

所以从图论的角度构建多重的药物和靶标的关系网络，计算网络中各个节点的相似性，通过对相似性网络的深度游走提取两者的网络拓扑特征，考虑网络中相似位置的节点之间的关系，这样可以更好的提高药物靶标预测的准确率。

发明内容

本发明为解决现有技术提供的药物靶标预测方法忽略药物与靶标网络中的相互关系以及网络拓扑特征而导致的预测准确率低下的技术缺陷，提供了一种基于多重相似性网络游走的药物靶标预测方法，该方法较传统的药物靶标预测方法而言，更加充分的挖掘了各个相似性网络中所包含的特征，为预测分类器提供了更加充分的网络信息，从而提高预测的准确率。

为实现以上发明目的，采用的技术方案是：

一种基于多重相似性网络游走的药物靶标预测方法，包括以下步骤：

S1.从相关数据库中获取药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系，并构建成对应的邻接矩阵；

S2.通过计算邻接矩阵中各个节点之间的杰卡德相似度,从而构建出各个邻接矩阵对应的相似性网络；

S3.使用node2vec方法对各个相似性网络进行游走和训练，生成对应的网络特征向量；

S4.将S3得到的各个网络的特征向量进行拼接，得到药物和靶标的多重网络的组合特征向量；

S5.根据现有的药物靶标关系，得到药物靶标对的正样本，同时随机组合生成与正样本等量的负样本，将S4得到的药物特征向量和靶标特征向量，按照正负样本的组合情况进行拼接，从而得到药物靶标对的最终特征向量；

S6.用随机森林算法对S5中的正负样本进行训练以及十折交叉检验和分类预测。

优选地，所述步骤S3首先对网络中各个节点进行带偏置的随机游走，生成大量定长的节点序列，然后将生成的节点序列作为输入，用word2vec中的skip-gram模型进行训练，得到低维、稠密的网络特征向量。

优选地，所述步骤S1从DrugBank数据库中获取药物信息，从HPRD数据库中获取蛋白质信息，从Comparative Toxicogenomics Database数据库获取疾病信息，从SIDER数据库获取药物副作用信息；根据获取的信息得到药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系。

与现有技术相比，本发明的有益效果是：

1)现有的基于生物化学特征的预测方法在特征选择的阶段需要消耗大量的时间和经历，因为要从成千上万维的特征向量中挑取出有信息量、有辨识度的特征信息是非常困难的。而基于网络拓扑特征的预测主要关注于药物与靶标所处的网络中各个节点之间的关联，相比于冗杂的生物化学特征信息更加的精炼、易于处理。

2)现有的提取药物靶标网络特征的方法主要是将已有的药物和靶标的对应关系直接转换成特征向量，或者只是对关系网络进行了简单的随机游走。这些处理并不能很好地得到有信息量和区分性的有效网络拓扑特征。而使用node2vec算法对网络进行深度游走训练，能够更好的将节点的网络拓扑特征提取出来并映射成为低维稠密的特征向量。

3)本发明整合了药物、靶标、疾病、副作用等多重的相互关系网络，可以从各个网络中得到多种丰富的网络信息特征，这些多样的信息能够更加充分地帮助药物靶标预测。

附图说明

图1为方法的流程示意图。

图2为node2vec中的带偏置的随机游走策略图。

图3为word2vec中的skip-gram模型示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，本发明提供的方法包括有以下步骤：

第一步、从DrugBank数据库中获取药物信息，从HPRD数据库中获取蛋白质信息，从Comparative Toxicogenomics Database数据库获取疾病信息，从SIDER数据库获取药物副作用信息。根据获取的信息得到药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系，并构建成对应的邻接矩阵。即有相互作用关系则为1，没有关系则为0。

第二步、对于第一步中的每一个邻接矩阵，都以药物和靶标节点为一个集合，副作用和疾病等作为集合内的属性，计算网络中各个节点的杰卡德相似性系数，然后生成对应的杰卡德相似性网络。杰卡德相似度是统计学中用来刻画两个对象的集合之间相似性的度量方法，以药物与疾病的关系网络为例，两种药物之间的相似度计算公式如下：

其中SE_i表示药物i的副作用的集合，这样计算后得到的相似性网络横纵坐标都是药物或者靶标，是一个中心对称的矩阵。

第三步、将第二步得到的相似性网络作为node2vec算法的输入，进行深度游走和训练：

首先是对网络进行带偏置的随机游走，游走策略如图2所示。

假设一次随机游走的过程是从点t走到点v，然后现在从点v开始下一步游走，与点v邻接的节点x的之间边的权重(转移概率)取决于点x和上一步的点t之间的最短路径距离d_tx，其中：

按照以上游走策略，随机的对网络中所有的节点进行游走，生成大量的固定长度的节点序列。

然后利用wrod2vec中的基于Hierarchical softmax的skip-gram模型，把上一步所得到的大量节点序列当做句子输入，进行联合训练。具体如图3所示。

skip-gram是一种可以使句子中出现在窗口w中的单词之间共现率最大化的语言模型。它使用独立假设近似目标函数的条件概率：

在模型利用随机梯度下降进行训练完成之后，中间的隐藏层所对应的权重矩阵即可作为每个节点训练出来的低维、稠密的特征向量矩阵。

第四步、将第三步中对多个网络游走训练得到的多个药物特征向量矩阵进行横向的拼接，同样也对多个靶标的特征向量矩阵进行拼接，进而得到药物和靶标的多重网络的组合特征向量。

第五步、根据从DrugBank数据库获取的药物靶标关系信息，将有效的药物靶标对作为正样本，同时从不会发生作用的药物靶标之中随机组合生成与正样本等量的负样本用于后续分类预测训练。由于一个样本是由一对药物靶标对构成的，所以还需要将第四步中得到的最终的，独立的药物特征向量和靶标特征向量，按照正负样本的组合情况进行拼接，从而得到药物靶标对的最终特征向量。

第六步、将第五步中得到的正负样本，作为随机森林算法的输入，进行训练，并对结果进行十折交叉验证。

随机森林利用随机的方式将许多决策树组合成一个森林，每个决策树在分类的时候投票决定测试样本的最终类别。算法主要包括4个部分：随机选择样本、随机选择特征、构建决策树和随机森林投票分类。

十折交叉验证则是把样本随机分成10份，每一次取其中的1份作为测试集，而其余的9份作为训练集进行训练，循环训练10次，直到每一份样本都作为测试集训练测试过了，然后将10次训练测试的结果整合起来计算均值。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多重相似性网络游走的药物靶标预测方法，其特征在于：包括以下步骤：

以药物与疾病的关系网络，两种药物之间的相似度计算公式如下：

其中，SE_i表示药物i的相关疾病的集合，SE_j表示药物j的相关疾病的集合，S(i,j)表示药物i和药物j之间的相似度；计算后得到的相似性网络横纵坐标都是药物或者靶标，是一个中心对称的矩阵；

S6.用随机森林算法对S5中的正负样本进行训练以及十折交叉检验和分类预测；所述步骤S3首先对网络中各个节点进行带偏置的随机游走，生成大量定长的节点序列，然后将生成的节点序列作为输入，用word2vec中的skip-gram模型进行训练，得到低维、稠密的网络特征向量；

设一次随机游走的过程是从点t走到点v，然后现在从点v开始下一步游走，与点v邻接的节点x的边的权重取决于点x和上一步的点t之间的最短路径距离d_tx，其中：

其中，p和q控制了游走过程中访问和离开邻居节点的速度也即α_pq(t,x)；p为返回参数，控制了直接返回上一个节点的可能性；q为出入度参数，能够在游走时区分是内部节点还是外部节点；

按照以上游走策略，随机的对网络中所有的节点进行游走，生成大量的固定长度的节点序列；

然后利用wrod2vec中的基于Hierarchical softmax的skip-gram模型，把上一步所得到的大量节点序列当做句子输入，进行联合训练；

skip-gram是一种使句子中出现在窗口w中的单词之间共现率最大化的语言模型；它使用独立假设近似目标函数的条件概率：

其中，P_r表示条件概率，指在窗口w中，句子中的单词之间的共现概率；v_i表示一个句子中的第i个单词；v_i-w表示句子中第i-w个单词，v_i+w表示句子中的第i+w个单词，v_j表示句子中的第j个单词；Φ(v_i)为节点v_i映射到其当前的向量表示；

2.根据权利要求1所述的基于多重相似性网络游走的药物靶标预测方法，其特征在于：所述步骤S1从DrugBank数据库中获取药物信息，从HPRD数据库中获取蛋白质信息，从Comparative Toxicogenomics Database数据库获取疾病信息，从SIDER数据库获取药物副作用信息；根据获取的信息得到药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系。