CN110246550B

CN110246550B - 基于药物相似性网络数据的药物组合预测方法

Info

Publication number: CN110246550B
Application number: CN201910507279.5A
Authority: CN
Inventors: 鱼亮; 夏明飞
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2022-12-06
Anticipated expiration: 2039-06-12
Also published as: CN110246550A

Abstract

本发明公开了一种基于药物相似性网络的药物组合预测算法，主要解决现有技术对药物组合预测结果不准确的问题。其方案是：从药物数据库中下载数据，构建药物的相似性网络；从药物组合数据库中下载数据；基于药物组合数据和药物相似性网络，得到网络的重要性分数；使用有偏随机游走算法，得到多个网络的随机游走路径的总集合，并对随机游走路径的总集合进行训练，得到药物节点特征向量；使用随机森林模型训练药物组合数据和药物节点特征向量，得到药物组合预测模型；将药物对数据输入到药物组合预测模型，得到药物对得分，将得分大于0.5的药物对视为协同药物组合。本发明提高了药物组合预测准确率，可用于预测协同的药物组合候选。

Description

基于药物相似性网络数据的药物组合预测方法

技术领域

本发明属于生物信息学技术领域，特别涉及一种药物组合预测方法，可用于为药物组合实验提供候选的药物组合参考。

背景技术

药物组合治疗是指疾病患者使用两种或者两种以上的药物同时进行治疗。根据药物组合治疗的效果可以将药物组合治疗的关系分为三类：第一类，同时使用两种药物在很少的剂量时可以达到单种药物高剂量时的效果，这样的药物组合关系称之为协同。第二类，两种药物同时服用导致了很强的副作用或者得到的治疗效果少于服用单种药物，这样的药物组合关系称之为拮抗。第三类，两种药物共同服用和单独服用两种药物效果相近，称之为累加。药物组合预测主要研究目标是找到潜在的协同的药物组合。

药物组合是治疗复杂疾病的重要手段。复杂疾病的致病机理复杂，通常同时由多条疾病通路所引起。如果只使用一种药物进行治疗，只能阻断部分的疾病通路，剩余的疾病通路仍然可能导致疾病，但是协同的药物组合可以同时影响多条疾病通路，从而达到更好的复杂疾病治疗效果。

药物组合的效果需要生物实验的方式进行验证。由于药物数众多，其组合方式多样，通过生物实验方法找寻协同的药物组合需要花费的时间和金钱巨大，并且对于药物协同的机理目前仍然不清楚。因此迫切需要一种计算的方法来找到潜在的协同药物组合，有助于减少药物组合实验的范围。

根据不同的理论假设与数据，目前药物组合预测方法主要分为以下四大类：

一.基于基因表达数据的药物组合预测方法。

随着测序技术的发展，大大加快了探索人类基因组秘密的速度。测序产生的基因表达数据的增加，使得从基因组学数据层面研究药物组合成为了可能。此类方法的主要流程是：首先对来自DREAM数据库中14种药物作用于癌症细胞系的基因表达值数据进行处理，得到药物作用的癌症细胞系每个基因的差异表达值，设定阈值t，大于阈值t的基因得分为1，小于阈值的基因得分为-1，药物组合的每一个基因得分等于两个药物的该基因的得分乘积，两个药物的组合分数等于所有的基因得分之和。得分越大，则认为这两个药物形成的药物组合治疗效果越可能协同。此类方法的优点是从基因层面进行药物组合研究，缺点是没有考虑到生物分子之间的相互作用关系等，结果的准确率有待提升。

二.基于蛋白质相互作用网络的药物组合预测方法。

药物分子作用于蛋白质上才能发挥其治疗效果，蛋白质相互作用网络体现了蛋白质之间的相互关系。使用蛋白质相互作用网络来预测药物组合的关系，不仅考虑了药物的靶标信息，还考虑了蛋白质分子之间的关系。此类方法的主要流程是：首先从DrugBank数据库中下载得到药物与靶标关系的数据，从HURM数据库下载蛋白质相互作用关系数据，然后将每个药物对应的靶标数据投射到蛋白质相互作用网络，再计算两个药物的靶标在蛋白质网络上的最短距离，作为两个药物的组合分数，距离越小，则两个药物越有可能是协同的药物组合。此类方法的优点是从药物靶标和蛋白质层面进行药物组合，比较直观，缺点是没有考虑到药物的其他相关信息，比如药物的化学结构信息和副作用数据等。

三.基于生物通路的药物组合预测方法。

疾病的产生与生物通路高度相关，生物通路是基因的集合。通过影响生物通路中的基因可以调控疾病通路。已有研究表明协同的药物组合通常影响功能相近的生物通路。该类方法的一般流程是：首先从DrugBank数据库下载药物以及其靶标的数据，从KEGG数据库下载生物通路数据，使用Davaid工具将药物靶标和生物通路进行富集分析，两个药物富集到的生物通路功能越相近，其更有可能是协同的药物组合。此类方法的优点是考虑了生物通路数据和药物靶标数据，缺点是目前生物通路数据不完善，得到的结果准确率低。

四.基于药物相似性的药物组合预测方法

药物的相似性数据可以体现两个药物之间的相似程度。通过两个药物的相似性关系可以刻画两个药物之间的关系。已有研究表明协同的药物组合通常两个药物更加相似。该类方法的一般流程是：首先从药物相关的数据库下载药物的多组学数据，然后基于这些数据构建有权的药物相似性网络，再将两个药物的相似性权值作为药物组合的特征，利用已知的药物组合数据和药物组合特征训练模型进行预测。该类方法很好的利用了药物的多组学数据，但是其构建的药物组合特征没有体现药物相似性网络拓扑信息，并且构建的药物组合特征维度固定，得到的结果准确率低。

发明内容

本发明的目的在于克服上述基于药物相似性的药物组合预测方法的不足，提出一种基于药物相似性网络数据的药物组合预测方法，通过构建包含药物相似性网络拓扑信息的药物组合特征和不固定药物组合特征维度，提高预测结果准确率。

本发明的技术思路是：通过使用药物的多组学数据构建多个药物相似性网络，利用一部分已知的药物组合数据对多个药物相似性网络进行每个网络重要性评估，然后采用有偏随机游走算法对网络进行采样得到随机游走路径，使用Skip-Gram方法和随机游走路径得到药物节点特征向量，使用所有已知的药物组合数据和药物节点特征向量训练随机森林分类模型，并利用该模型预测其他的药物组合得分，其技术方案包括如下步骤：

(1)下载药物的数据，构建药物相似性网络：

(1a)从与药物化学结构相关的任意一个数据库下载n个药物的数据CH_n，构建药物化学结构相似性网络

(1b)从与药物副作用相关的任意一个数据库下载n个药物和这n个药物所对应的m个副作用的药物副作用数据，得到药物与副作用矩阵

构建药物副作用相似性网络

(1c)从与药物分类相关的任意一个数据库下载n个药物和这n个药物所对应的k个药物分类的药物分类数据，得到药物与药物分类矩阵

构建药物分类相似性网络

(1d)从与药物靶标相关的任意一个数据库下载n个药物的数据TA_n，构建药物靶标距离相似性网络

(1e)从与药物文本挖掘相关的任意一个数据库下载n个药物的药物文本挖掘相似性网络

(2)从与药物组合相关的任意一个数据库中下载q个药物组合数据G_q；

(3)评估每个药物相似性网络重要性，得到网络重要性分数：

(3a)随机选取20％的药物组合数据G_q为网络重要性评估数据G′；

(3b)分别从(1)构建的5个相似性网络中随机选取100000次网络中边的权值，分别得到药物化学结构相似性网络

的随机权值分布D_ch、药物副作用相似性网络

的随机权值分布D_se、药物分类相似性网络

的随机权值分布D_ca、药物靶标距离相似性网络

的随机权值分布D_ta和药物文本挖掘相似性网络

的随机权值分布D_tm；

(3c)分别将网络重要性评估数据G′投射到(1)构建的5个相似性网络中，得到

对应的药物组合权值分布D_ch′、

对应的药物组合权值分布D_se′、

对应的药物组合权值分布D_ca′、

对应的药物组合权值分布D_ta′和

对应的药物组合权值分布D_tm′；

(3d)分别基于多个网络对应的随机权值分布和药物组合权值分布，使用秩和检验方法，计算得到

网络的显著性分数P_ch、

网络的显著性分数P_se、

网络的显著性分数P_ca、

网络的显著性分数P_ta和

网络的显著性分数P_tm；

(3e)基于(1)构建的5个相似性网络

和

以及这五个网络所对应的显著性分数P_ch、P_se、P_ca、P_ta和P_tm，分别得到药物化学结构相似性网络

的重要性分数L_ch、药物副作用相似性网络

的重要性分数L_se、药物分类相似性网络

的重要性分数L_ca、药物靶标距离相似性网络

的重要性分数L_ta和药物文本挖掘相似性网络

的重要性分数L_tm；

(4)基于多个药物相似性网络和其对应的重要性分数，使用有偏随机游走算法得到多个网络的随机游走路径总集合PT：

PT＝PT_ch+PT_se+PT_ca+PT_ta+PT_tm

其中，PT_ch是药物化学结构相似性网络的随机游走路径集合，PT_se是药物副作用相似性网络的随机游走路径集合，PT_ca是药物分类相似性网络的随机游走路径集合，PT_ta是药物靶标距离相似性网络的随机游走路径集合，PT_tm是药物文本挖掘相似性网络的随机游走路径集合；

(5)利用多个网络的随机游走路径总集合PT，使用Skip-Gram方法，得到n个药物特征向量V_n；

(6)基于药物特征向量V_n和药物组合数据G_q，对随机森林分类模型进行训练，得到药物组合预测模型；

(7)将n个药物两两进行组合，得到n²个药物对，将药物特征向量V_n和n²个药物对，输入到药物组合预测模型中，得到每对药物的分数输出，对于药物对的分数大于0.5的组合，则为协同药物组合，可以使用，否则，该药物对属于拮抗或累加的药物组合，不能使用。

本发明与现有技术相比，具有以下优点：

1、本发明通过评估了每个药物相似性网络重要性，得到网络重要性分数，相较于目前方法中同等的对待每个药物相似性网络，不仅有效的提高了药物组合准确率，而且表征了不同药物相似性网络对药物组合的不同重要性。

2、本发明基于得到的网络重要性分数，使用有偏随机游走在多个网络上进行随机游走，得到多个网络的随机游走路径集合，再训练Skip-Gram模型得到药物的节点特征向量，相较于目前方法中药物组合特征维度固定以及药物组合特征不同体现网络拓扑结构，不仅可以控制药物组合特征维度，而且构建的特征体现了网络的拓扑结构属性。

附图说明

图1是本发明的实现总流程图；

图2是本发明实施例的药物组合结果准确率曲线仿真图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1、本实例的实现步骤如下：

步骤1，下载药物的数据，构建五个药物相似性网络。

1a)以DrugBank数据库为例，建药物化学结构相似性网络N^ch：

1a1)从DrugBank数据库下载1284个药物的化学结构数据CH₁₂₈₄；

1a2)基于药物的化学结构数据CH₁₂₈₄，使用PaDEL-Descriptor软件，得到药物的化学结构特征集合

集合有1284个药物化学结构特征；

1a3)基于药物化学结构特征集合

得到药物化学结构相似性网络N^ch，该网络中的任意一个元素计算方式如下：

其中，F_i ^ch代表第i个药物的化学结构特征，

代表第j个药物的化学结构特征，i＝1,2,3,...,1284，j＝1,2,3,...,1284；

1b)以SIDER数据库为例，建药物副作用相似性网络N^se：

1b1)从SIDER数据库下载1284个药物和这1284个药物所对应的5745个副作用的药物副作用数据，得到药物与副作用矩阵M^se，矩阵M^se有1284行和5745列，其中行表示药物，列表示副作用；

1b2)将药物副作用矩阵M^se的每一行作为一个药物的副作用特征，得到药物的副作用特征集合：

1b3)基于药物副作用特征集合

得到药物副作用相似性网络N^se，该网络中的任意一个元素计算方式如下：

其中，F_i ^se代表第i个药物的副作用特征，

代表第j个药物的副作用特征，i＝1,2,3,...,1284，j＝1,2,3,...,1284；

1c)以DrugBank数据库为例，建药物分类相似性网络N^ca：

1c1)从DrugBank数据库下载1284个药物和这1284个药物所对应的2697个药物分类数据，得到药物与药物分类矩阵M^ca，矩阵M^ca有1284行和2697列，其中行表示药物，列表示药物分类；

1c2)将药物分类矩阵M^ca的每一行作为一个药物的分类特征，得到药物的分类特征集合：

1c3)基于药物分类特征集合

得到药物分类相似性网络N^ca，该网络中的任意一个元素计算方式如下：

其中，F_i ^ca代表第i个药物的分类特征，

代表第j个药物的分类特征，i＝1,2,3,...,1284，j＝1,2,3,...,1284；

1d)以DrugBank数据库为例，建药物靶标距离相似性网络N^ta：

1d1)从DrugBank数据库下载1284个药物的数据TA；

1d2)从HPRD数据库下载11117个蛋白质之间的关系，得到蛋白质相互作用矩阵M^ta，矩阵M^ta有11117行，11117列，行表示蛋白质，列也表示蛋白质；

1d3)将1284个药物的靶标数据TA映射到蛋白质相互作用矩阵M^ta，得到药物的靶标基因集合：[U₁,U₂,U₃,...,U₁₂₈₄]；

1d4)基于药物的靶标基因集合[U₁,U₂,U₃,...,U₁₂₈₄]，得到药物靶标距离相似性网络N^ta，该网络中的任意一个元素计算方式：

其中，U_i代表第i个药物的靶标基因集合，U_j代表第j个药物的靶标基因集合，i＝1,2,3,...,1284，j＝1,2,3,...,1284，g_i和g_j分别表示两个靶标基因，dis(g₁,g₂)表示最短距离算法计算两个基因g_i和g_j在蛋白质相互作用网络上的距离；

1e)从STITCH数据库下载1284个药物的药物文本挖掘相似性网络N^tm。

步骤2，下载药物组合数据。

本步骤以DCDB和FDA数据库为例，从DCDB数据库中下载241个药物组合数据，从FDA数据库下载275个药物组合数据，共计516个不同的药物组合数据，记为G。

步骤3，评估每个药物相似性网络重要性，得到网络重要性分数。

3a)从药物组合数据G中随机选取20％的数据最为网络重要性评估数据G′，本实例取G′有103个药物组合；

3b)分别从步骤1构建的5个相似性网络中随机选取100000次网络中边的权值，分别得到药物化学结构相似性网络N^ch的随机权值分布D_ch、药物副作用相似性网络N^se的随机权值分布D_se、药物分类相似性网络N^ca的随机权值分布D_ca、药物靶标距离相似性网络N^ta的随机权值分布D_ta和药物文本挖掘相似性网络N^tm的随机权值分布D_tm；

3c)分别将网络重要性评估数据G′投射到步骤1构建的5个相似性网络中，得到N^ch对应的药物组合权值分布D_ch′、N^se对应的药物组合权值分布D_se′、N^ca对应的药物组合权值分布D_ca′、N^ta对应的药物组合权值分布D_ta′和N^tm对应的药物组合权值分布D_tm′，每一个药物组合权值分布都包含103个数值；

3d)分别基于多个网络对应的随机权值分布和药物组合权值分布，计算N^ch网络的显著性分数P_ch、N^se网络的显著性分数P_se、N^ca网络的显著性分数P_ca、N^ta网络的显著性分数P_ta和N^tm网络的显著性分数P_tm，计算公式如下：

P_ch＝ranksum(D_ch,D_ch′)

P_se＝ranksum(D_se,D_se′)

P_ca＝ranksum(D_ca,D_ca′)

P_ta＝ranksum(D_ta,D_ta′)

P_tm＝ranksum(D_tm,D_tm′)

其中，ranksum是秩和检验方法，D_ch是N^ch的随机权值分布，D_ch′是N^ch的药物组合权值分布，D_se是N^se的随机权值分布，D_se′是N^se的药物组合权值分布，D_ca是N^ca的随机权值分布，D_ca′是N^ca的药物组合权值分布，D_ta是N^ta的随机权值分布，D_ta′是N^ta的药物组合权值分布，D_tm是N^tm的随机权值分布，D_tm′是N^tm的药物组合权值分布，本实例中，P_ch取5、P_se取8、P_ca取10、P_ta取12和P_tm取15；

3e)基于步骤1构建的5个相似性网络N^ch、N^se、N^ca、N^ta和N^tm以及这五个网络所对应的显著性分数P_ch、P_se、P_ca、P_ta和P_tm，按照网络的显著性越大，其重要性分数越小的规则进行，分别得到药物化学结构相似性网络N^ch的重要性分数L_ch、药物副作用相似性网络N^se的重要性分数L_se、药物分类相似性网络N^ca的重要性分数L_ca、药物靶标距离相似性网络N^ta的重要性分数L_ta和药物文本挖掘相似性网络N^tm的重要性分数L_tm，且需要满足如下条件：

步骤4，基于多个药物相似性网络和其对应的重要性分数，得到多个网络的随机游走路径总集合PT。

4a)通过如下公式获得各网络的随机游走路径集：

其中，i表示网络中第i个药物节点，brw是有偏随机游走算法，L_ch是药物化学结构相似性网络N^ch的重要性分数，L_se是药物副作用相似性网络N^se的重要性分数，L_ca是药物分类相似性网络N^ca的重要性分数，L_ta是药物靶标距离相似性网络N^ta的重要性分，L_tm是药物文本挖掘相似性网络N^tm的重要性分数，PT_ch是药物化学结构相似性网络的随机游走路径集合，PT_se是药物副作用相似性网络的随机游走路径集合，PT_ca是药物分类相似性网络的随机游走路径集合，PT_ta是药物靶标距离相似性网络的随机游走路径集合，PT_tm是药物文本挖掘相似性网络的随机游走路径集合；本实例中随机游走路径长度都是80；

4b)根据4a)中得到的各个网络的随机游走路径集合，得到多个网络的随机游走路径总集合PT：

PT＝PT_ch+PT_se+PT_ca+PT_ta+PT_tm。

步骤5，利用多个网络的随机游走路径总集合PT，得到1284个药物特征向量V₁₂₈₄。

5a)对多个网络的随机游走路径总集合PT中每一条随机游走路径，使用滑动窗口在随机游走路径上移动，滑动窗口内部任意两个节点形成药物节点分类正样本，本实例使用的滑动窗口，窗口大小为4；

5b)统计多个网络的随机游走路径总集合PT中每一个节点出现频率，得到1284个药物节点的频率P₁₂₈₄；

5c)从1284个药物节点中选择两个药物节点，按照节点被选择概率等于节点频率P₁₂₈₄的规则，得到药物节点分类负样本；

5d)设Skip-Gram模型的输入层和输出层均有1284个神经元，且只有一个隐藏层，该隐藏层有5个神经元；

5e)使用药物节点分类负样本和正样本对Skip-Gram模型进行训练，得到输入层到隐藏层参数矩阵为W_1284×5，参数矩阵W_1284×5有1284行和5列，该参数矩阵W_1284×5的第i行为第i个药物的特征向量V_i，i＝1,2,3,...,1284。

步骤6，基于药物特征向量V₁₂₈₄和药物组合数据G，得到药物组合预测模型。

6a)将516个药物组合数据G视为药物组合正样本

6b)将1284个药物两两进行组合，得到1648656个药物对，随机从中选择1032个药物对作为药物组合负样本

6c)基于药物特征向量V₁₂₈₄和药物组合正样本G^T以及药物组合负样本G^F，得到药物组合正样本特征

和药物组合负样本特征

其中，i表示1284个药物中的第i个药物，j表示1284个药物中的第j个药物，V_i表示第i个药物的特征向量，V_j表示第j个药物的特征向量，

表示第a个药物组合正样本的特征，

表示第b个药物组合负样本的特征；

6d)使用药物组合正样本特征

和药物组合负样本特征

对带有100棵分类回归树的随机森林分类模型进行训练，得到药物组合预测模型DCM：

其中，

是药物组合正样本特征，

是药物组合负样本特征，RF是随机森林分类模型。

步骤7，将1284个药物两两进行组合，得到1648656个药物对，将药物特征向量V_n和1648656个药物对，输入到药物组合预测模型中，得到每对药物的分数输出，对于药物对的分数大于0.5的组合，则为协同药物组合，可以使用，否则，该药物对属于拮抗或累加的药物组合，不能使用。

以下结合仿真实验，对本发明的技术效果作进一步说明：

1.仿真条件

仿真实验在Intel(R)Core(TM)i7-8700k CPU、主频3.70GHz，内存48G，Ubuntu平台上的Python 3.6.5上进行。

2.仿真内容：

仿真1，为了证明本发明中步骤3评估网络重要性分数，提高准确率，在构建的药物组合正样本和负样本上，使用随机森林模型，并采用5倍交叉验证，其结果如图2所示，其中，equal曲线表示每一个网络给与相同的重要性分数，且该分数等于10，not_equal曲线表示按照本实例计算的网络重要性分数，ROC是接受者操作特性曲线。

从图2可见，本发明使用网络重要性分数可以有效提高准确率。

仿真2，对药物组合排名前6的预测结果进行分析验证，结果如表1所示。

表1

药物ID	药物ID	药物组合得分排名	PMID
				DB00515	DB01229	1	12376205
DB00232	DB00999	2
				DB00790	DB00999	3	9048272
DB00530	DB01101	4	23393373
				DB00530	DB01229	5	20332457
DB00999	DB04861	6	20556921

表1中，PMID是指在PubMed数据库中的文章索引。

表1中的是仿真实验预测结果排名前6的药物组合，其中有5个药物组合已经被文献所报道，这些文献已经在临床实验中验证了这两种药物组合治疗效果是协同的，说明了本发明的预测结果准确。

Claims

1.一种基于药物相似性网络数据的药物组合预测方法，其特征在于，包括如下：

(1)下载药物的数据，构建药物相似性网络：

构建药物副作用相似性网络

构建药物分类相似性网络

(2)从与药物组合相关的数据库中下载q个药物组合数据G_q；

(3)评估每个药物相似性网络重要性，得到网络重要性分数：

(3a)从药物组合数据G中随机选取20％的数据G_q为网络重要性评估数据G′；

的随机权值分布D_ch、药物副作用相似性网络

的随机权值分布D_se、药物分类相似性网络

的随机权值分布D_ca、药物靶标距离相似性网络

的随机权值分布D_ta和药物文本挖掘相似性网络

的随机权值分布D_tm；

对应的药物组合权值分布D_ch′、

对应的药物组合权值分布D_se′、

对应的药物组合权值分布D_ca′、

对应的药物组合权值分布D_ta′和

对应的药物组合权值分布D_tm′；

网络的显著性分数P_ch、

网络的显著性分数P_se、

网络的显著性分数P_ca、

网络的显著性分数P_ta和

网络的显著性分数P_tm；

(3e)基于(1)构建的5个相似性网络

和

的重要性分数L_ch、药物副作用相似性网络

的重要性分数L_se、药物分类相似性网络

的重要性分数L_ca、药物靶标距离相似性网络

的重要性分数L_ta和药物文本挖掘相似性网络

的重要性分数L_tm；

PT＝PT_ch+PT_se+PT_ca+PT_ta+PT_tm

(7)将n个药物两两进行组合，得到n²个药物对，将药物特征向量V_n和n²个药物对，输入到药物组合预测模型中，得到每对药物的分数输出，设定阈值R，对于药物对的分数大于R的组合，则为协同药物组合，可以使用，否则，该药物对属于拮抗或累加的药物组合，不能使用。

2.根据权利要求1所述的方法，其特征在于，步骤(1a)中构建药物化学结构相似性网络

实现如下：

(1a1)将n个药物的化学结构数据CH_n，使用PaDEL-Descriptor软件，得到药物的化学结构特征集合：

(1a2)基于药物化学结构特征集合

得到药物化学结构相似性网络

该网络中的任意一个元素计算方式如下：

其中，F_i ^ch代表第i个药物的化学结构特征，

代表第j个药物的化学结构特征，i＝1,2,3,...,n，j＝1,2,3,...,n。

3.根据权利要求1所述的方法，其特征在于，步骤(1b)中构建药物副作用相似性网络

实现如下：

(1b1)将药物副作用矩阵

的每一行作为一个药物的副作用特征，得到药物的副作用特征集合：

(1b2)基于药物副作用特征集合

得到药物副作用相似性网络

该网络中的任意一个元素计算方式如下：

其中，F_i ^se代表第i个药物的副作用特征，

代表第j个药物的副作用特征，i＝1,2,3,...,n，j＝1,2,3,...,n。

4.根据权利要求1所述的方法，其特征在于，步骤(1c)中构建药物分类相似性网络

实现如下：

(1c1)将药物分类矩阵

的每一行作为一个药物的分类特征，得到药物的分类特征集合：

(1c2)基于药物分类特征集合

得到药物分类相似性网络

该网络中的任意一个元素计算方式如下：

其中，F_i ^ca代表第i个药物的分类特征，

代表第j个药物的分类特征，i＝1,2,3,...,n，j＝1,2,3,...,n。

5.根据权利要求1所述的方法，其特征在于，步骤(1d)中构建药物靶标距离相似性网络

实现如下：

(1d1)从与蛋白质相互作用相关的任意一个数据库下载p个蛋白质之间的关系，得到蛋白质相互作用矩阵

(1d2)将n个药物的靶标数据TA_n映射到蛋白质相互作用矩阵

得到药物的靶标基因集合：[U₁,U₂,U₃,...,U_n]；

(1d3)基于药物的靶标基因集合[U₁,U₂,U₃,...,U_n]，得到药物靶标距离相似性网络

该网络中的任意一个元素计算方式：

其中，U_i代表第i个药物的靶标基因集合，U_j代表第j个药物的靶标基因集合，i＝1,2,3,...,n，j＝1,2,3,...,n，g_i和g_j分别表示两个靶标基因，dis(g₁,g₂)表示最短距离算法计算两个基因g_i和g_j在蛋白质相互作用网络上的距离。

6.根据权利要求1所述的方法，其特征在于，所述(3d)的计算公式如下：

P_ch＝ranksum(D_ch,D_ch′)

P_se＝ranksum(D_se,D_se′)

P_ca＝ranksum(D_ca,D_ca′)

P_ta＝ranksum(D_ta,D_ta′)

P_tm＝ranksum(D_tm,D_tm′)

其中，ranksum是秩和检验方法，D_ch是

的随机权值分布，D_ch′是

的药物组合权值分布，D_se是

的随机权值分布，D_se′是

的药物组合权值分布，D_ca是

的随机权值分布，D_ca′是

的药物组合权值分布，D_ta是

的随机权值分布，D_ta′是

的药物组合权值分布，D_tm是

的随机权值分布，D_tm′是

的药物组合权值分布。

7.根据权利要求1所述的方法，其特征在于，所述步骤(3e)的获得各网络重要性分数，按照网络的显著性越大，其重要性分数越小的规则进行，且需要满足如下条件：

其中，L_ch是药物化学结构相似性网络

的重要性分数，L_se是药物副作用相似性网络

的重要性分数，L_ca是药物分类相似性网络

的重要性分数、L_ta是药物靶标距离相似性网络

的重要性分数，L_tm是药物文本挖掘相似性网络

的重要性分数。

8.根据权利要求1所述的方法，其特征在于，步骤(4)中获得各网络的随机游走路径集合，通过如下公式进行：

其中，i表示网络中第i个药物节点，brw是有偏随机游走算法，L_ch是药物化学结构相似性网络

的重要性分数，L_se是药物副作用相似性网络

的重要性分数，L_ca是药物分类相似性网络

的重要性分数、L_ta是药物靶标距离相似性网络

的重要性分数，L_tm是药物文本挖掘相似性网络

的重要性分数。

9.根据权利要求1所述的方法，其特征在于，步骤(5)中使用Skip-Gram方法，获得n个药物的特征向量V_n，实现过程如下：

(5a)对多个网络的随机游走路径总集合PT中每一条随机游走路径，使用滑动窗口在随机游走路径上移动，滑动窗口内部任意两个节点形成药物节点分类正样本；

(5b)统计多个网络的随机游走路径总集合PT中每一个节点出现频率，得到n个药物节点的频率P_n；

(5c)从n个药物节点中选择两个药物节点，得到药物节点分类负样本，节点选择概率等于该节点频率P_n；

(5d)设Skip-Gram模型的输入层和输出层均有n个神经元，且只有一个隐藏层，隐藏层有l个神经元；

(5e)使用药物节点分类负样本和正样本对Skip-Gram模型进行训练，得到输入层到隐藏层参数矩阵为W_n×l，该参数矩阵W_n×l的第i行为第i个药物的特征向量V_i，i＝1,2,3,...,n。

10.根据权利要求1所述的方法，其特征在于，步骤(6)中得到药物组合预测模型，实现过程如下：

(6a)将q个药物组合数据G_q视为药物组合正样本

(6b)将n个药物两两进行组合，得到n²个药物对，随机从中选择e个药物对作为药物组合负样本

e的计算公式如下：

e＝2×q

其中，q是药物组合数据G_q的数据个数；

(6c)基于药物特征向量V_n和药物组合正样本

以及药物组合负样本

得到药物组合正样本特征

和药物组合负样本特征

其中，i表示n个药物中的第i个药物，j表示n个药物中的第j个药物，V_i表示第i个药物的特征向量，V_j表示第j个药物的特征向量，

表示第a个药物组合正样本的特征，

表示第b个药物组合负样本的特征；

(6d)使用药物组合正样本特征

和药物组合负样本特征

其中，

是药物组合正样本特征，

是药物组合负样本特征，RF是随机森林分类模型。