CN103065066A

CN103065066A - 基于药物组合网络的药物联合作用预测方法

Info

Publication number: CN103065066A
Application number: CN2013100224667A
Authority: CN
Inventors: 邹俊; 杨胜勇; 魏于全; 张康; 苏智广
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2013-01-22
Filing date: 2013-01-22
Publication date: 2013-04-24
Anticipated expiration: 2033-01-22
Also published as: CN103065066B

Abstract

本发明公开了一种基于药物组合网络的药物联合作用预测方法。构建药物组合网络DCN，利用药物组合网络DCN整合药物协同作用组合信息、药物-靶标相互作用信息、以及靶标蛋白质-蛋白质相互作用信息；将两种药物的靶标分别映射到药物组合网络DCN上，确定联合作用药物在药物组合网络中的邻接群，确定邻接群的拓扑网络特征和生物学功能关系特征。将邻接群的拓扑网络特征和生物学功能关系特征进行整合。确定基于整合的邻接群的特征向量，建立基于支持向量机SVM的药物联合作用效果预测模型，采用支持向量机分类算法，用于预测两种药物的组合是否产生协同作用。本方法可准确地预测新的药物联合作用，对于加快开发新型药物联合治疗方案具有重要价值。

Description

基于药物组合网络的药物联合作用预测方法

一、技术领域

本发明涉及计算机辅助药物分子设计领域，特别涉及一种基于药物组合网络的药物联合作用预测方法。

二、背景技术

单一组分的分子靶向药物的疾病治疗效果通常不能长期维持，在短期内疾病虽然可以得到一定控制，但经过一定时间之后往往又会出现复发，很难达到预期疗效。这主要是因为细胞中通常都存在有多个复杂的冗余信号调控通路，通过这些途径细胞可以产生抗药性以耐受药物处理。因此，多组分药物联合治疗由于其通过同时调节疾病网络系统中的多个生物靶标分子而能够更有效地控制细胞信号调控通路，可以克服单靶标单药物在复杂疾病治疗中的局限性，从而被认为是取得疾病最佳治疗效果的重要策略之一。事实上，联合治疗策略最近已在临床中，尤其是在复杂疾病如癌症和传染性疾病的治疗中得到较为广泛的应用，这些成功鼓励研究者继续开发分子靶向药物的最佳组合治疗策略。寻找组合治疗策略中最重要的一个步骤是通过实验方法筛选确证两个药物同时应用时是否可以取得增强的效果。但常规实验筛选方法存在组合爆炸问题，即可能的药物组合数量将与选用的单个药物数量成几何倍数增加。因此，通过实验方法对所有可能的药物组合进行测试筛选将耗费大量财力人力物力，在目前大规模采用此方法显然是不现实的。为解决这一问题，在过去几年中，许多研究者已经提出了一个新的思路，即整合基于计算的合理设计方法，将其用于指导后续的实验筛选和验证，进而降低组合治疗策略的研发成本。

近年来，采用计算系统生物学方法进行药物组合的合理设计已取得较大的进展。该方法的核心在于建立基于常微分方程组的生物化学反应数学模型，然后利用这些动态模型来模拟药物组合对细胞调控网络的作用，评估哪种药物组合方案可能会达到最好的疗效，产生可用于后期实验测试验证的组合干预方案，从而降低实验的工作量。但是，动态模拟方法在广泛应用于药物组合合理设计上任然受到限制，这主要是由于其固有的缺点，即大量生化反应过程的动力学参数和中间产物浓度数据均未知，导致目前的动态模型仅局限于非常小的规模。因此，这种动态模型仅仅适合用于研究组合药物的分子作用机制，并不适合用于促进最佳药物组合的合理发现。这表明，当前迫切需要建立新的、有效的用于指导和加快药物组合治疗策略发现的计算方法。

三、发明内容

本发明的目的是：利用计算机辅助药物设计，提供一种新的基于网络生物学和网络药理学的药物联合作用预测的计算方法，实现只需要利用药物的靶标信息就可以准确地预测出两个药物联合使用是否产生协同作用的目的。

本发明的基本思路是：在仅仅知道药物的靶标信息时，通过构建药物组合网络（Drugcombination network，DCN），由DCN网络整合药物协同作用组合关系信息、药物-靶标相互作用信息、以及靶标蛋白质-蛋白质相互作用信息；将两种药物的靶标分别映射到药物组合网络DCN上，确定两种药物的靶标在药物组合网络DCN中的邻接群（Neighborcommunity，NC）；计算邻接群的拓扑网络特征和生物学功能关系特征；采用支持向量机（Support vector machine，SVM）分类算法将所述邻接群的两种特征进行整合，并基于整合后的特征建立能够判断两种药物的组合是否产生协同作用的预测系统。

本发明思路的基本理论是基于：（1）研究表明，具有协同作用的两种药物很少会有相同的靶标，而且药物靶标之间也很少会形成直接蛋白质相互作用，但是药物靶标的相关性可以体现在生物通路水平上，因此通过构建的药物组合网络DCN可以从靶标分子网络水平研究组合药物之间的关系；（2）通过分析药物靶标与邻接群蛋白质所形成网络相互作用的拓扑网络特征和生物学功能关系特征，揭示两种药物之间的潜在关系和分子机制，从而预测其组合是否存在协同作用；（3）拓扑网络特征和生物学功能关系特征分别提供了关于生物网络结构和分子功能这两类互补的信息，将其进行整合能够更有利于研究药物组合网络中的机制；（4）随着蛋白质组学和化学生物学的发展，绝大多数药物的靶标已被测定，大量蛋白质-蛋白质相互作用数据库逐渐增多，这些数据为本发明奠定更加实用的基础。

本发明的目的是这样达到的：构建药物组合网络DCN，利用药物组合网络DCN整合药物协同作用组合信息、药物-靶标相互作用信息、以及靶标蛋白质-蛋白质相互作用信息；将两种药物的靶标分别映射到药物组合网络DCN上，确定联合作用药物在药物组合网络中的邻接群，确定邻接群的拓扑网络特征和生物学功能关系特征；将邻接群的拓扑网络特征和生物学功能关系特征进行整合；确定基于整合的邻接群的特征向量，建立基于支持向量机SVM的药物联合作用效果预测模型，采用支持向量机分类算法，用于预测两种药物的组合是否产生协同作用。

步骤如下：

步骤一、获取用于建立效果预测模型的药物联合作用信息；

包括两个联合作用药物的名称、联合作用类型和作用效果，这些数据将作为用于构建分类预测系统的阳性数据集；

步骤二、获取药物和靶标相互作用信息；

步骤三、获取靶标蛋白质-蛋白质相互作用信息；

步骤四、根据“步骤一~步骤三”获取的信息进行整合，建立药物组合网络；

步骤五、确定联合作用药物在药物组合网络中的邻接群；

步骤六、计算邻接群的拓扑网络特征；

步骤七、计算邻接群的功能关系特征；

步骤八、建立支持向量机的药物联合作用效果预测模型。

所述在步骤四中建立药物组合网络DCN，其药物组合网络DCN是一个无方向的、非加权的药物、靶标和蛋白质相互作用网络，使用对称邻接矩阵A＝[a(·,·)]对其进行表示，若网络中的两个节点有连接，即定义存在物理相互作用，则邻接矩阵中的元素a(·,·)=1。两个节点之间不存在相互作用，则邻接矩阵元素a(·,·)=0；定义存在联合作用的两个药物用D_i和D_j表示，定义药物D_i和D_j作用的靶标蛋白质分别用T_i和T_j表示，使用a(D_i，T_i)和a(D_j,T_j)分别表示药物与靶标的相互作用，有a(D_i,T_i)=1，a(D_j,T_j)=1；药物靶标蛋白质T_i参与的蛋白质相互作用定义为a(T_i，P_k)=1，其它蛋白质相互作用定义为a(P_k,P_l)=1，其中P_k和P_l代表非靶标蛋白质。合建立的药物组合网络DCN的“节点”包括药物D、靶标蛋白质T和非靶标蛋白质P，即[D,T,P]；所述DCN网络的“边”由药物联合作用、药物-靶标蛋白质相互作用以及靶标蛋白质-蛋白质相互作用构成，即[a(D,D),a(D,T),a(T,P),a(P,P)]。

所述在步骤五中确定联合作用药物在药物组合网络中的邻接群，其邻接群是指联合作用药物的靶标之间在药物组合网络中所拥有的共同邻接蛋白质分子，通过邻接群可以从药物组合网络水平上将联合作用药物的靶标分子联系起来。

对于两个具有联合作用的药物D_i和D_j，以及其分别作用的靶标蛋白质T_i和T_j，均为药物组合网络[a(·,·)]中的两个节点，NC_ij表示药物靶标节点T_i和节点T_j的邻接群，则可以定义NC_ij为所述网络中的一组节点集{(P_k,P_l)}，且NC_ij不包含节点T_i和节点T_j自身，其到网络节点T_i和节点T_j均可连通，路径总长度小于或等于定长L,采用公式表述为：

NC_ij≡{(P_k,P_l)|a(T_i,P_k)=1,a(T_j,P_l)=1,dist(P_k,P_l)=L}

其中a(T_i，P_k)=1和a(T_j,P_l)=1分别表示靶标节点T_i和蛋白质节点P_k、以及T_j和P_l在药物组合网络中形成直接相互作用，最短路径长度dist(P_k,P_l)代表组成连接网络非靶标蛋白质节点P_k和P_l之间路径的边的最小数量。

所述邻接群定义了三种：①第一度邻接群，包含与靶标节点T_i和靶标节点T_j均形成直接相互作用的非靶标蛋白质节点P，此时P_k与P_l相同，最短路径长度dist(P_k,P_l)=0；②第二度邻接群，包含的非靶标蛋白质节点P_k和P_l分别与靶标节点T_i和T_j形成直接相互作用、且P_k和P_l具有直接相互作用，此时最短路径长度dist(P_k,P_l)=1；③第三度邻接群，包含的非靶标蛋白质节点P_k和P_l分别与靶标节点T_i和T_j形成直接相互作用、且P_k和P_l形成最短路径长度为2的间接相互连通，此时最短路径长度dist(P_k,P_l)=2。

所述在步骤六中计算邻接群的拓扑网络特征包括：

（1）接近中心度：节点到与其直接或间接相连的所有节点之间的最短路径长度的平均值；

（2）节点连接度：与该节点直接相连的邻接节点的数目；

（3）边的中介中心度：表示网络中两个蛋白质节点之间的中心性，定义为通过该边两个节点的所有其他蛋白质节点之间最短路径总数除以网络中所有最短路径总数；

（4）聚类系数：用于测量两个蛋白质节点的邻接群节点的局部相互作用密度；

（5）拓扑重叠度：反映两个蛋白质节点之间相互连接的相对程度。

所述在步骤七中计算邻接群的功能关系特征包括采用Gene Ontology（简称GO）描述的生物过程、分子功能和细胞成分这三个本体论域属性；Gene Ontology是指一套统一化的文字用于描述蛋白质在细胞内所具有的功能；

计算过程包括：

（1）建立GO层次结构树

蛋白质的生物学功能关系特征是基于GO层次结构树进行计算的，包括生物过程描述、分子功能描述和细胞成分描述三项；

（2）获取药物靶标和非靶标蛋白质的GO信息

每个蛋白质对应的GO注释信息可通过数据库UniProt数据库检索获得；

（3）计算两个GO描述项的相似性

定义每个GO描述项g在GO层次结构树中的深度Depth(g)为GO描述项g到GO层次结构树根节点的最长路径的距离，则两个GO描述项g_i和g_j的相似性SimGO(g_i,g_j)可被定义为离它们最近的共同父节点描述项在GO层次结构树中的深度：

SimGO (g_{i}, g_{j}) = \max_{g_{c} &Element; P (g_{i}, g_{j})} {Depth (g_{c})}

其中，P(g_i,g_j)表示由g_i和g_j的共同父节点GO描述项构成的集合。

（4）计算两个蛋白质分子的功能相关性

分别代表蛋白质i和j的生物学功能特征GO描述项集合G_i和G_j，这两个蛋白质之间的生物学功能相似性SimP(G_i，G_j)由函数SimGO(·，·)的值来定义，使用以下三个GO描述项相似性组合函数：

①Max：取所有GO描述项成对相似性的最高得分值；

②Mean：取所有GO描述项成对相似性的平均得分值；

③MaxMean：取所有GO描述项正向和反向成对相似性最大值的平均值；

（5）药物靶标的邻接群的功能关系特征通过本发明上述公式计算药物靶标及其共同邻接蛋白质之间的GO相似性获得。

所述在步骤八建立支持向量机的药物联合作用效果预测模型流程是：

（1）将步骤六计算的组合药物邻接群的拓扑网络特征和步骤七计算的功能关系特征整合在一起，得到训练数据集D：

D : = {(X_{i}, y_{i}) | X_{i} &Element; R^{m}, y_{i} &Element; {- 1,1}}_{i = 1}^{n}

其中n代表药物联合作用信息的数量，m代表上述整合后邻接群特征向量的特征数量；R^m为m维欧氏空间；X_i表示第i个药物联合作用的整合后的邻接群特征向量；y_i表明X_i对应的第i个药物联合作用所属的药物联合作用效果，当y_i=1时表明其属于具有协同或加和作用的药物组合，当y_i=-1时表明其属于药物随机配伍；药物随机配伍作为分类预测算法的阴性对照。

（2）引入高斯径向基核函数，K(X_i,X_j)＝exp(-γ||X_i-X_j||²),服从限定条件：γ>0组合药物邻接群的特征向量X_i映射到高维向量空间；

（3）采用序列最小优化方法求解等价的拉格朗日对偶问题，从而在高维空间中构造出一个超平面作为决策平面，使得特征空间中两类模式之间的距离最大；

\max_{α} {Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (X_{i}, X_{j})}

服从条件：α_i≥0和

Σ_{i = 1}^{n} α_{i} y_{i} = 0

（4）得到用于预测两种药物的组合是否产生协同相互作用的支持向量机SVM两分类确定函数：

f (x) = sgn (Σ_{i = 1}^{N} α_{i}^{*} y_{i} K (X_{i}^{*}, X) + b)

其中，X*是支持向量，N是支持向量的数量，向量α*是最大化解，对于两个未在训练集的药物D_p和药物D_q的组合，通过“步骤五”获得其在药物组合网络DCN中的邻接群NC_pq，通过步骤六和步骤七计算其邻接群的拓扑网络特征值和功能关系特征值，最后将整合的邻接群特征值X代入上式中，计算出f(D_p,D_q)的值；

若f(D_p,D_q)=1时表明本发明方法预测D_p和D_q药物联合具有协同作用，提示可以对其做进一步实验验证；当f(D_p,D_q)=-1时表明本发明方法预测D_p和D_q药物联合没有协同或加和作用。

在步骤一获取用于建立效果预测模型的药物联合作用信息，是获取作用类型为药效学的药物联合作用信息和作用效果为协同或加和作用的药物联合作用信息。

在计算邻接群的拓扑网络特征中，所述接近中心度是指蛋白质节点i到与其直接或间接相连的所有节点之间的最短路径长度的平均值；

节点连接度其蛋白质节点i的节点连接度k_i被定义为与该节点直接相连的邻接节点的数目，表示为：

k_{i} = \underset{j &NotEqual; i}{Σ} α_{ij}

边的中介中心度是表示网络中两个蛋白质节点之间的中心性，定义为通过该边两个节点的所有其他蛋白质节点之间最短路径总数除以网络中所有最短路径总数，其计算公式如下：

{EBC}_{ij} = \frac{λ}{γ} = \frac{\underset{i &NotEqual; j, s &NotEqual; t}{Σ} σ_{st} (ij)}{\underset{s &NotEqual; t}{Σ} σ_{st}}

其中γ是网络中所有最短路径总数，若从节点s到节点t存在最短路径则

σ_st=1；λ表示网络中通过节点i和j的所有其他节点之间的最短路径总数，若从节点s到节点t存在最短路径且该路径同时通过节点i和节点j,则σ_st(ij)=1；

聚类系数用于测量蛋白质节点i和蛋白质节点j的邻接群节点的局部相互作用密

度，计算方法如下：

{CC}_{ij} = \frac{χ}{δ} = \frac{\underset{m, n &Element; N_{ij}, m &NotEqual; n}{Σ} a_{mn}}{\frac{1}{2} | N_{ij} | \cdot (| N_{ij} | - 1)}

其中χ等于蛋白质节点i和蛋白质节点j的邻接群N_ij的节点之间形成的直接蛋白质-蛋白质相互作用的数量，δ等于邻接群N_ij的节点之间最大可能形成的连接的数量；|N_ij|代表邻接群N_ij中蛋白质节点的数量，当且仅当节点i和节点j的邻接群N_ij中的所有节点之间均形成互相连接时，聚类系数CC_ij=1；

拓扑重叠度反映蛋白质节点i和蛋白质节点j之间相互连接的相对程度，对于第一度邻接群，其拓扑重叠度计算方式为：

{TO}_{ij} = \frac{| N_{ij} | + a_{ij}}{\min {k_{i}, k_{j}} + 1}

对于第二度邻接群和第三度邻接群，其拓扑重叠度计算方式为：

{TO}_{ij} = \frac{| N_{ij} | + a_{ij}}{(k_{i} + k_{j}) + 1}

其中|N_ij|代表邻接群N_ij中蛋白质节点的数量；k_i和k_j表示节点i和节点j的节点连接度，在此种情况下，如果节点i和节点j同时满足以下两个条件则其TO_ij=1：其所有邻接蛋白质节点包含在其邻接群N_ij中，②这些节点之间均形成直接相互作用连接。所述GO描述项成对相似性的最高得分值Max的计算公式为：

{SimP}_{Max} (G_{i}, G_{j}) = \max_{g_{i} &Element; G_{i}, g_{j} &Element; G_{j}} {SimGO (g_{i}, g_{j})}

其中，GO描述项g_i是蛋白质i的生物学功能特征描述项集合G_i中的一个元素，GO描述项g_j是蛋白质j的生物学功能特征描述项集合G_j中的一个元素；

所述所有GO描述项成对相似性的平均得分值Mean的计算公式为：

{SimP}_{Mean} (G_{i}, G_{j}) = \frac{\underset{g_{i} &Element; G_{i}, g_{j} &Element; G_{j}}{Σ} SimGO (g_{i}, g_{j})}{| G_{i} | \cdot | G_{j} |}

其中，|G_i|和|G_j|表示GO描述项集合G_i和G_j中描述项的元素个数；

所有GO描述项正向和反向成对相似性最大值的平均值MaxMean的计算公式为：

{SimP}_{MaxMean} (G_{i}, G_{j}) = \frac{\underset{g_{i} &Element; G_{i}}{Σ} \max_{g_{j} &Element; G_{j}} {SimGO (g_{i}, g_{j})} + \underset{g_{j} &Element; G_{j}}{Σ} \max_{g_{i} &Element; G_{i}} {SimGO (g_{i}, g_{j})}}{| G_{i} | + | G_{j} |}

本发明的积极效果是：常规的采用计算系统生物学方法进行药物组合的合理设计只能在小规模上展开，而本发明充分利用药物靶标的相互作用信息，通过药物组合网络实现了大规模的药物协同作用预测，为药物组合的研发提供了新的思路和方法。本发明将药物靶标在药物组合网络DCN中的邻接群（Neighbor community）的拓扑网络特征和生物学功能关系特征进行整合，对于研究协同药物之间的关系相当重要，而且基于整合特征的药物协同作用预测方法被证明结果更准确、更可靠，具有显著优势。本发明的预测方法最终给出潜在的协同药物组合方案，为进一步试验验证提供有效、合理的依据，为加快药物组合试验研究的进度，解决现有药物组合治疗策略发现的瓶颈问题，发展新型有开发前景的药物联合治疗方案具有重要价值。

四、附图说明

图1是本发明方法的具体实施过程的流程图。

图2是本发明方法定义的邻接群及其特征向量计算过程图。

图3是图2的图标说明示意。

图4是实施例的预测性能评估中，真阳性率TPR与真阴性率TNR关系示意图。

图5是实施例的预测性能评估中，假阳性率FPR与真阳性率TPR关系示意图。

图6是实施例的预测性能评估中，真阳性率TPR与阳性预测值PPV关系示意图。

五、具体实施方式

为了使本发明的内容更容易被清楚的理解，下面根据具体实施例并结合附图，对本发明作进一步详细说明。

按照本发明的方法，本实施例采用了如下的步骤：

1）获取用于建模的药物联合作用信息

本发明实施例所使用的药物联合作用信息从公共药物数据库TTD（Therapeutictarget database，http://bidd.nus.edu.sg/group/ttd/）和公共药物相互作用数据库DCDB（Drug combination database，http://www.cls.zju.edu.cn/dcdb/）获得，该数据将作为用于构建分类预测系统的阳性数据集。获取的字段包括两个药物的名称、联合作用类型、作用效果。其中作用类型字段的值包含“药效学”和“药动学”，由于药动学类型的药物联合作用并不一定是由于药物的靶点相关造成，因此本发明实施例仅使用了作用类型字段值为“药效学”的药物联合作用信息，而排除了为“药动学”的数据。其中作用效果字段的值包含“协同相互作用”、“加和相互作用”、“拮抗相互作用”，由于本发明主要目的是发现能够增强两个药物效果的联合作用，因此实施例仅使用了作用效果字段值为“协同相互作用”或“加和相互作用”的药物联合作用信息，而排除了为“拮抗相互作用”的数据。本实施例最终获得了345个药物联合作用信息，部分数据见表1。

2）获取药物和靶标相互作用信息

上述联合作用信息中对应药物的靶标信息从数据库DrugBank（http://www.drugbank.ca/）、ChEMBL（https://www.ebi.ac.uk/chembldb/）和TTD获得。本实施例在使用DrugBank数据库时，其中字段Drug_Name定义了药物名称；字段UniProt_ID定义了药物的靶点。使用ChEMBL数据库时，其中字段MOLREGNO和字段COMPOUND_NAME定义了药物名称，字段PROTEIN_ACCESSION定义了药物的靶点；字段TARGET_TYPE定义了靶点类型，限定该字段取值为Protein的记录；字段ORGANISM定义了靶点的物种特征，限定该字段取值为Homo sapiens的记录；字段ACTIVITY_STANDARD_VALUE限定了药物对靶点的活性关系。本例限定活性优于10微摩尔为药物-靶点关系，因此限定该字段取值小于10，000nM的记录。使用TTD数据库时，其中字段Drug_Name定义了药物名称，字段Target_Info定义了药物的靶点。本实施例共获得到1293个有实验活性证据的药物-靶标蛋白质相互作用信息，部分数据见表1。

3）获取靶标蛋白质-蛋白质相互作用信息

本实施例使用的药物靶标蛋白质-蛋白质相互作用数据由公共数据库BioGrid（http://thebiogrid.org/）、IntAct（http://www.ebi.ac.uk/intact/）、HPRD（http://www.hprd.org/）和MINT（http://mint.bio.uniroma2.it/mint/）获得，这些数据均为经实验方法验证的。其中数据库BioGrid的字段Entrez_Gene表示参与相互作用的蛋白质的基因编号，通过使用在线PICR服务（http://www.ebi.ac.uk/Tools/picr/）将其进行映射匹配为UniProtAC蛋白质编号；数据库IntAct、HPRD和MINT使用字段UniProtAC表示参与相互作用的蛋白质。数据库BioGrid、IntAct和MINT的字段Interactor_Organism（Taxid）定义了该蛋白质相互作用的物种信息，本实施例只关注人体蛋白质的信息，因此限定该字段取值为9606（Homo sapiens）的记录；数据库HPRD中只包含有人体蛋白质相互作用信息，无需进行记录限定。最后将以上四个数据库的数据进行整合并去掉冗余重复记录，本实施例最终获得了包含89913个蛋白质-蛋白质相互作用的分子网络，部分数据见表1。

表1

表2

4）建立药物组合网络

根据步骤1）~步骤3）获取的药物联合作用信息、药物和靶标相互作用信息、靶标蛋白质-蛋白质相互作用信息，发明人提出了一种将上述信息进行整合得到药物组合网络（Drug combination network，DCN），并首次将其应用于药物联合作用预测的方法。

由于本发明提出的药物组合网络DCN是一个无方向的、非加权的药物、靶标和蛋白质相互作用网络，可以使用对称邻接矩阵A=[a(·,·)]对其进行表示。如果网络中的两个节点有连接，即存在物理相互作用，则邻接矩阵中的元素a(·,·)=1；若两个节点之间不存在相互作用，则邻接矩阵元素a(·,·)=0。

对于两个药物D_i和D_j，若这两个药物存在协同相互作用或加和相互作用，则使用a(D_i，D_j)表示所述两个药物的联合作用，定义a(D_i，D_j)=1，a(D_j,D_i)=1。定义药物D_i和D_j作用的靶标蛋白质分别用T_i和T_j表示，使用a(D_i,T_i)和a(D_j,T_j)分别表示药物与靶标的相互作用，有a(D_i,T_i)=1，a(D_j,T_j)=1；药物靶标蛋白质T_i参与的蛋白质相互作用定义为a(T_i，P_k)=1，其它蛋白质相互作用定义为a(P_k，P_l)=1，其中P_k和P_l代表非靶标蛋白质。基于上述定义，本发明整合建立的药物组合网络DCN的“节点”包括药物D、靶标蛋白质T和非靶标蛋白质P，即[D,T,P]；所述DCN网络的“边”由药物联合作用、药物-靶标蛋白质相互作用以及靶标蛋白质-蛋白质相互作用构成，即[a(D,D),a(D,T),a(T,P),a(P,P)]。本发明实施例最终获得的药物组合网络DCN包含350个药物，12841个蛋白质（其中450个为靶标蛋白质），345个药物联合作用，1293个药物-靶标蛋白质相互作用，以及89913个靶标蛋白质-蛋白质相互作用。

5）确定联合作用药物在药物组合网络中的邻接群

参见附图2。本发明人提出了“邻接群”这一概念，是指联合作用药物的靶标之间在所述药物组合网络中所拥有的共同邻接蛋白质分子，通过邻接群可以从药物组合网络水平上将联合作用药物的靶标分子联系起来。

对于两个具有联合作用的药物D_i和D_j，以及药物D_i作用的靶标蛋白质之一T_i和药物D_j作用的靶标蛋白质之一T_j，T_i和T_j为网络[a(·,·)]中的两个节点。设NC_ij为网络中的一组节点集{(P_k,P_l)}，且NC_ij不包含节点T_i和节点T_j自身，其到网络节点T_i和节点T_j均可连通，路径总长度小于或等于定长L。药物靶标节点T_i和节点T_j的邻接群（Neighborcommunity）NC_ij则可以定义为：

NC_ij≡{(P_k,P_l)|a(T_i,P_k)=1,a(T_j,P_l)=1,dist(P_k,P_l)=L}

式中a(T_i，P_k)=1表示靶标节点T_i和蛋白质节点P_k在药物组合网络中形成直接相互作用，同理a(T_j,P_l)=1表示靶标节点T_j和蛋白质节点P_l形成直接相互作用，最短路径长度dist(P_k,P_l)代表组成连接网络非靶标蛋白质节点P_k和P_l之间路径的边的最小数量。研究证明，药物组合网络中绝大多数靶标蛋白质之间的最短路径长度介于2与4之间，因此定义三种邻接群：①第一度邻接群，包含与靶标节点T_i和靶标节点T_j均形成直接相互作用的非靶标蛋白质节点P，此时经过蛋白质节点P且连接靶标节点T_i和T_j的最短路径长度为2，上式中蛋白质节点P_k与P_l相同，最短路径长度dist(P_k,P_l)为0，即定长L＝0；②第二度邻接群，包含的非靶标蛋白质节点P_k和P_l分别与靶标节点T_i和靶标节点T_j形成直接相互作用、且两个蛋白质节点P_k和P_l具有直接相互作用，此时经过蛋白质节点P_k和P_l且连接靶标节点T_i和T_j的最短路径长度为3，上式中最短路径长度dist(P_k,P_l)为1，即a(P_k，P_l)=1，定长L＝1；③第三度邻接群，包含的非靶标蛋白质节点P_k和P_l分别与靶标节点T_i和靶标节点T_j形成直接相互作用、且两个蛋白质节点P_k和P_l仅形成最短路径长度为2的间接相互连通，此时经过蛋白质节点P_k和P_l且连接靶标节点T_i和T_j的最短路径长度为4，上式中最短路径长度dist(P_k,P_l)为2，即a(P_k，P_l)=0，定长L＝2。

6）计算邻接群的拓扑网络特征

根据步骤5）获得的药物靶标的邻接群NC_ij，反映了药物靶标节点T和非靶标蛋白质节点P在药物组合网络中形成的直接物理相互作用。通过计算该相互作用的拓扑网络特征，可以获得联合作用药物的靶标在药物组合网络中的关系特征，进一步用于预测药物的联合作用效果。本发明计算的拓扑网络特征包括接近中心度、节点连接度、边的中介中心度、聚类系数以及拓扑重叠度，其定义和计算方法如下：

（1）接近中心度（Closeness centrality）被定义为蛋白质节点i到与其直接或间接相连的所有节点之间的最短路径长度的平均值。

（2）蛋白质节点i的节点连接度（Connectivity）k_i被定义为与该节点直接相连的邻接节点的数目：

k_{i} = \underset{j &NotEqual; i}{Σ} α_{ij}

（3）边的中介中心度（Edge betweenness centrality，EBC）表示网络中两个蛋白质节点之间的中心性，定义为通过该边两个节点的所有其他蛋白质节点之间最短路径总数除以网络中所有最短路径总数，其计算公式如下：

{EBC}_{ij} = \frac{λ}{γ} = \frac{\underset{i &NotEqual; j, s &NotEqual; t}{Σ} σ_{st} (ij)}{\underset{s &NotEqual; t}{Σ} σ_{st}}

其中γ是网络中所有最短路径总数，若从节点s到节点t存在最短路径则σ_st=1。在本发明建立的特定药物组合网络中，γ是定值，不随选取的节点i和节点j的不同而改变。λ表示网络中通过该边两个节点i和j的所有其他节点之间的最短路径总数，若从节点s到节点t存在最短路径且该路径同时通过节点i和节点j，则σ_st(ij)=1。

（4）聚类系数（Clustering coefficient，CC）用于测量蛋白质节点i和蛋白质节点j的邻接群节点的局部相互作用密度，具体计算方法如下：

{CC}_{ij} = \frac{χ}{δ} = \frac{\underset{m, n &Element; N_{ij}, m &NotEqual; n}{Σ} a_{mn}}{\frac{1}{2} | N_{ij} | \cdot (| N_{ij} | - 1)}

其中χ等于蛋白质节点i和蛋白质节点j的邻接群N_ij的节点之间形成的直接蛋白质-蛋白质相互作用的数量，δ等于邻接群N_ij的节点之间最大可能形成的连接的数量；|N_ij|代表邻接群N_ij中蛋白质节点的数量。当且仅当节点i和节点j的邻接群N_ij中的所有节点之间均形成互相连接时，聚类系数CC_ij=1。

（5）拓扑重叠度（Topological overlap，TO）反映蛋白质节点i和蛋白质节点j之间相互连接的相对程度。对于第一度邻接群，其拓扑重叠度计算方式为：

{TO}_{ij} = \frac{| N_{ij} | + a_{ij}}{\min {k_{i}, k_{j}} + 1}

{TO}_{ij} = \frac{| N_{ij} | + a_{ij}}{(k_{i} + k_{j}) + 1}

其中|N_ij|代表邻接群N_ij中蛋白质节点的数量；k_i和k_j表示节点i和节点j的节点连接度。在此种情况下，如果节点i和节点j同时满足以下两个条件则其TO_ij=1：①其所有邻接蛋白质节点包含在其邻接群N_ij中，②这些节点之间均形成直接相互作用连接。相比之下，如果节点i和节点j不相连且这两个节点不存在任何共同的邻居节点，则TO_ij=0。

7）计算邻接群的功能关系特征

根据步骤5）获得的药物靶标的邻接群NC_ij，反映了药物靶标节点T和非靶标蛋白质节点P在药物组合网络中形成的直接物理相互作用。除了通过步骤6）计算该相互作用的拓扑网络特征外，本发明还计算该相互作用的功能关系特征，可以进一步获得联合作用药物的靶标在药物组合网络中的功能特征，给出蛋白质节点相互作用的生物学意义，由此提高药物联合作用效果的预测能力。本发明计算的功能关系特征包括采用GeneOntology描述的生物过程、分子功能和细胞成分这三个本体论域属性，其定义和计算方法如下：

（1）建立GO层次结构树

本发明中蛋白质-蛋白质之间的生物学功能关系特征是基于Gene Ontology(GO)的整个层次结构树的基础上进行计算和评估的。本发明实施例首先从GO数据库（http://www.geneontology.org/）中获取GO层次结构树，该结构树由三类GO描述项组成，包含①生物过程（Biological process，BP）的描述项、②分子功能（MF，Molecularfunction）的描述项和③细胞成分（Cellular component，CC）的描述项。

（2）获取药物靶标和非靶标蛋白质的GO信息

每个蛋白质对应的GO注释信息可通过数据库UniProt数据库检索获得（http://www.uniprot.org），包含该生物分子的生物过程、分子功能和细胞成分三类GO描述项。

（3）计算两个GO描述项的相似性

首先，本发明人定义每个GO描述项g在GO层次结构树中的深度Depth(g)为GO描述项g到GO层次结构树根节点的最长路径的距离，其中GO层次结构树根节点包括三个GO描述项，其值分别是①对应于生物过程类别的根节点GO:0008150，②对应于分子功能类别的根节点GO:0003674和③对应于细胞成分类别的根节点GO:0005575。两个GO描述项g_i和g_j的相似性可被定义为离它们最近的共同父节点描述项在GO层次结构树中的深度，其计算公式如下：

SimGO (g_{i}, g_{j}) = \max_{g_{c} &Element; P (g_{i}, g_{j})} {Depth (g_{c})}

其中，P(g_i，g_j)表示一组由g_i和g_j的共同父节点GO描述项构成的集合。若g_i和g_j相同时，其共同父节点也包括其自身，此时有Depth(g_c)=Depth(g_i)=Depth(g_j)。

（4）计算两个蛋白质分子的功能相关性

考虑分别代表蛋白质i和蛋白质j的生物学功能特征GO描述项集合G_i和G_j，这两个蛋白质之间的生物学功能相似性SimP(G_i,G_j)可以由函数SimGO(·，·)的值来定义，本发明使用以下三个GO描述项相似性组合函数：

①Max：取所有GO描述项成对相似性的最高得分值。

{SimP}_{Max} (G_{i}, G_{j}) = \max_{g_{i} &Element; G_{i}, g_{j} &Element; G_{j}} {SimGO (g_{i}, g_{j})}

其中，GO描述项g_i是蛋白质i的生物学功能特征描述项集合G_i中的一个元素，GO描述项g_j是蛋白质j的生物学功能特征描述项集合G_j中的一个元素。

②Mean：取所有GO描述项成对相似性的平均得分值。

{SimP}_{Mean} (G_{i}, G_{j}) = \frac{\underset{g_{i} &Element; G_{i}, g_{j} &Element; G_{j}}{Σ} SimGO (g_{i}, g_{j})}{| G_{i} | \cdot | G_{j} |}

其中，|G_i|和|G_j|表示GO描述项集合G_i和G_j中描述项的元素个数。

③MaxMean：取所有GO描述项前向成对相似性和反向成对相似性的最大值的平均值

{SimP}_{MaxMean} (G_{i}, G_{j}) = \frac{\underset{g_{i} &Element; G_{i}}{Σ} \max_{g_{j} &Element; G_{j}} {SimGO (g_{i}, g_{j})} + \underset{g_{j} &Element; G_{j}}{Σ} \max_{g_{i} &Element; G_{i}} {SimGO (g_{i}, g_{j})}}{| G_{i} | + | G_{j} |}

（5）药物靶标的邻接群的功能关系特征可以通过本发明上述公式计算药物靶标及其共同邻接蛋白质之间的GO相似性获得。

8）建立药物联合作用效果预测模型

将上述步骤6）计算的邻接群的拓扑网络特征和上述步骤7）计算的邻接群的功能关系特征整合在一起，利用整合的邻接群特征值建立用于预测两种药物的组合是否产生协同相互作用的两分类支持向量机（Support vector machine，SVM）分类算法。支持向量机是一种基于统计学习理论的机器学习方法，其核心思想是通过引入核函数，将特征向量映射到高维向量空间，然后通过求解等价的线性约束二次规划问题，从而在此高维空间中构造出一个超平面作为决策平面，使得特征空间中两类模式之间的距离最大，以达到分类的目的。本发明建立SVM分类算法的具体流程如下：

给定一个训练数据集D,即：

D : = {(X_{i}, y_{i}) | X_{i} &Element; R^{m}, y_{i} &Element; {- 1,1}}_{i = 1}^{n}

其中n代表药物联合作用信息的数量，m代表上述步骤6）和步骤7）计算得到的组合药物的邻接群拓扑网络特征和功能关系特征、并经整合后的特征向量的特征数量；R^m为m维欧氏空间；X_i表示第i个药物联合作用的整合后的邻接群特征向量；y_i表明X_i对应的第i个药物联合作用所属的药物联合作用效果，当y_i=1时表明其属于具有协同或加和作用的药物组合，当y_i=-1时表明其属于药物随机配伍；药物随机配伍作为分类预测算法的阴性对照，是通过将单个药物进行随机配对并且去掉具有协同或加和作用的药物联合得到。

本发明中构建支持向量机SVM分类器的目的是通过求解如下优化问题，找到一个超平面能够将具有协同作用的药物组合与随机药物配伍分离开，即使这两类分别位于该超平面的两侧：

服从限定条件：y_i(w·X_i-b)≥1（i=1,2,...,n）

上式最小化优化问题通过其拉格朗日（Lagrangian）对偶问题求解：

\max_{α} {Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (X_{i}, X_{j})}

服从条件：α_i≥0和

Σ_{i = 1}^{n} α_{i} y_{i} = 0

支持向量机SVM分类算法的内核由高斯径向基函数（Radial basis function，RBF）定义：

K(X_i,X_j)＝exp(-γ||X_i-X_j||²)服从限定条件：γ>0

上述拉格朗日对偶问题通过序列最小优化方法（Sequential minimal optimization，SMO）求解。当获得其拉格朗日对偶问题的最大化解后，即得到向量α*,分类确定函数则定义为：

f (x) = sgn (Σ_{i = 1}^{N} α_{i}^{*} y_{i} K (X_{i}^{*}, X) + b)

其中X*是支持向量，N是支持向量的数量，X是用于预测是否是药物组合的邻接群的拓扑网络特征值和功能关系特征值。对于两个未在训练集的药物D_p和药物D_q，通过步骤5）获得其在药物组合网络中的邻接群NC_pq，通过步骤6）和步骤7）计算其邻接群的拓扑网络特征值和功能关系特征值，最后将拓扑网络特征值和功能关系特征值进行整合得到X,代入步骤8）的公式（18）中，可以计算出f(D_p,D_q)的值，若f(D_p,D_q)=1时表明本发明方法预测该药物D_p和D_q属于具有协同或加和作用的药物组合，提示可以对其进行进一步的实验验证；当f(D_p,D_q)=-1时表明本发明方法预测该药物D_p和D_q的组合将没有协同或加和作用。

9）本发明预测方法的性能评估和有效性验证

为了检验本发明的药物联合作用预测方法的性能，发明人进行了留一法交叉验证（Leave one out cross validation，LOOCV），使用本实施例步骤1）中获得的345个药物联合作用作为阳性数据集，使用本实施例的步骤8）中获得的1000个药物随机配伍作为阴性数据集。然后用本发明的上述药物联合作用预测算法进行打分。阳性数据集中预测值f(D_p,D_q)=1的为真阳性（TP），阳性数据集中预测值f(D_p,D_q)=-1的为假阴性（FN）；阴性数据集中预测值f(D_p,D_q)=-1的为真阴性（TN），阴性数据集中预测值f(D_p,D_q)=1的为假阳性（FP）。则本发明的药物联合作用预测方法的性能可采用以下公式评估：

TPR = \frac{TP}{TP + FN}

TNR = \frac{TN}{FP + TN}

FPR = \frac{FP}{FP + TN}

PPV = \frac{TP}{TP + FP}

其中TPR代表真阳性率（True positive rate），或称敏感度（Sensitivity），是指己知药物联合作用中被本发明方法正确预测出来的部分所占比重。TNR代表真阴性率（True negative rate），或称特异性（Specificity），是指本发明方法预测出来的药物联合作用中识别正确的部分所占比重。FPR代表假阳性率（False positive rate）；PPV代表阳性预测值（Positive predictive value）。TP代表真阳性数量，TN代表真阴性数量，FP代表假阳性数量，FN代表假阴性数量。发明人对所有药物组合对进行了1345次独立重复试验，留一法交叉验证得到的结果显示，训练的SVM分类器可以实现阳性数据集（药物组合）88%的正确预测率，阴性数据集（随机配伍）92%的正确预测率，如图4所示。受试者工作特征（ROC）曲线下面积（AUC）为0.95，表明本发明的药物联合作用预测方法具有很高的可靠性。本发明预测方法在正确预测出60%真阳性时，其假阳性率只有2.7%，如图5所示。当将敏感度（即真阳性率）的阀值设置为60%时，本发明方法的阳性预测值（即在预测的药物组合中真阳性部分所占的比例）始终大于90%，如图6所示。上述性能评估表明本发明的药物联合作用预测方法在正确区分药物组合和随机配对的同时具有较好的敏感度和特异性。

本发明药物联合作用预测方法有效性验证见表3。

表3

进一步地，本发明的药物联合作用预测方法还被用于发现不存在于训练数据集中的已批准或实验性药物的新组合。对于每一对药物的新组合，都通过本发明的方法确定出药物的靶标并将其映射到药物组合网络中，进一步确定出每一对药物新组合在药物组合网络中的邻接群，并计算邻接群的拓扑网络特征值和功能关系特征值，从而得到整合的邻接群特征向量，最后利用本发明建立的SVM分类器对其进行打分，得出该药物新组合是否可能产生联合作用效果。我们选取打分为1（即预测为具有联合作用效果）的药物新组合进行分析，结果发现，通过本发明方法预测得到的可能性较高的药物组合部分已在最新文献报道中已得到实验验证（部分数据见表3）。举例如下：AZD6244协同增强Foretinib抑制癌细胞生长的作用，Vemurafenib和吉非替尼联合治疗结肠癌，以及BI-2536与伊马替尼的联合则通过体外细胞活性抑制实验得以验证。上述实施例充分说明：本发明发展的基于邻接群的计算机辅助药物分子设计算法，作为一种新的药物联合作用预测方法，为合理设计和优化协同药物组合提供了可靠手段，为显著提高药物组合的发现效率提供了理想解决方案。

Claims

1.一种基于药物组合网络的药物联合作用预测方法，其特征在于：构建药物组合网络DCN，利用药物组合网络DCN整合药物协同作用组合信息、药物-靶标相互作用信息、以及靶标蛋白质-蛋白质相互作用信息；将两种药物的靶标分别映射到药物组合网络DCN上，确定联合作用药物在药物组合网络中的邻接群，确定邻接群的拓扑网络特征和生物学功能关系特征；将邻接群的拓扑网络特征和生物学功能关系特征进行整合；确定基于整合的邻接群的特征向量，建立基于支持向量机SVM的药物联合作用效果预测模型，采用支持向量机分类算法，用于预测两种药物的组合是否产生协同作用；步骤如下：

步骤一、获取用于建立效果预测模型的药物联合作用信息；包括两个联合作用药物的名称、联合作用类型和作用效果，这些数据将作为用于构建分类预测系统的阳性数据集；

步骤二、获取药物和靶标相互作用信息；

步骤三、获取靶标蛋白质-蛋白质相互作用信息；

步骤五、确定联合作用药物在药物组合网络中的邻接群；

步骤六、计算邻接群的拓扑网络特征；

步骤七、计算邻接群的功能关系特征；

步骤八、建立支持向量机的药物联合作用效果预测模型。

2.如权利要求1所述的药物联合作用预测方法，其特征在于：所述在步骤四中建立药物组合网络DCN，其药物组合网络DCN是一个无方向的、非加权的药物、靶标和蛋白质相互作用网络，使用对称邻接矩阵A=[a(·,·)]对其进行表示，若网络中的两个节点有连接，即定义存在物理相互作用，则邻接矩阵中的元素a(·,·)=1；若两个节点之间不存在相互作用，则邻接矩阵元素a(·,·)=0；定义存在联合作用的两个药物用D_i和D_j表示，定义药物D_i和D_j作用的靶标蛋白质分别用T_i和T_j表示，使用a(D_i,T_i)和a(D_j,T_j)分别表示药物与靶标的相互作用，有a(D_i,T_i)=1，a(D_j,T_j)=1；药物靶标蛋白质T_i参与的蛋白质相互作用定义为a(T_i,P_k)=1，其它蛋白质相互作用定义为a(P_k,P_l)=1，其中P_k和P_l代表非靶标蛋白质；整合建立的药物组合网络DCN的“节点”包括药物D、靶标蛋白质T和非靶标蛋白质P，即[D,T,P]；所述DCN网络的“边”由药物联合作用、药物-靶标蛋白质相互作用以及靶标蛋白质-蛋白质相互作用构成，即[a(D,D),a(D,T),a(T,P),a(P,P)]。

3.如权利要求1所述的药物联合作用预测方法，其特征在于：所述在步骤五中确定联合作用药物在药物组合网络中的邻接群，其邻接群是指联合作用药物的靶标之间在药物组合网络中所拥有的共同邻接蛋白质分子，通过邻接群可以从药物组合网络水平上将联合作用药物的靶标分子联系起来；

对于两个具有联合作用的药物D_i和D_j，以及其分别作用的靶标蛋白质T_i和T_j，均为药物组合网络[a(·,·)]中的两个节点，NC_ij表示药物靶标节点T_i和节点T_j的邻接群，则可以定义NC_ij为所述网络中的一组节点集{(P_k，P_l)}，且NC_ij不包含节点T_i和节点T_j自身，其到网络节点T_i和节点T_j均可连通，路径总长度小于或等于定长L，采用公式表述为：

NC_ij≡{(P_k,P_l)|a(T_i,P_k)=1,a(T_j,P_l)=1,dist(P_k,P_l)=L}

其中a(T_i,P_k)=1和a(T_j,P_l)=1分别表示靶标节点T_i和蛋白质节点P_k、以及T_j和P_l在药物组合网络中形成直接相互作用，最短路径长度dist(P_k,P_l)代表组成连接网络非靶标蛋白质节点P_k和P_l之间路径的边的最小数量。

4.如权利要求3所述的方法，其特征在于：所述邻接群定义了三种：①第一度邻接群，包含与靶标节点T_i和靶标节点T_j均形成直接相互作用的非靶标蛋白质节点P，此时P_k与P_l相同，最短路径长度dist(P_k,P_l)=0；②第二度邻接群，包含的非靶标蛋白质节点P_k和P_l分别与靶标节点T_i和T_j形成直接相互作用、且P_k和P_l具有直接相互作用，此时最短路径长度dist(P_k,P_l)=1；③第三度邻接群，包含的非靶标蛋白质节点P_k和P_l分别与靶标节点T_i和T_j形成直接相互作用、且P_k和P_l形成最短路径长度为2的间接相互连通，此时最短路径长度dist(P_k,P_l)=2。

5.如权利要求1所述的药物联合作用预测方法，其特征在于：所述在步骤六中计算邻接群的拓扑网络特征包括：

（2）节点连接度：与该节点直接相连的邻接节点的数目；

6.如权利要求1所述的药物联合作用预测方法，其特征在于：所述在步骤七中计算邻接群的功能关系特征包括采用Gene Ontology，简称GO描述的生物过程、分子功能和细胞成分这三个本体论域属性，Gene Ontology是指一套统一化的文字用于描述蛋白质在细胞内所具有的功能；即生物过程、分子功能和细胞成分这三个本体论域属性；

计算过程包括：

（1）建立GO层次结构树

（2）获取药物靶标和非靶标蛋白质的GO信息

3）计算两个GO描述项的相似性

SimGO (g_{i}, g_{j}) = \max_{g_{c} &Element; P (g_{i}, g_{j})} {Depth (g_{c})}

其中，P(g_i,g_j)表示由g_i和g_j的共同父节点GO描述项构成的集合；

（4）计算两个蛋白质分子的功能相关性

分别代表蛋白质i和j的生物学功能特征GO描述项集合G_i和G_j，这两个蛋白质之间的生物学功能相似性SimP(G_i,G_j)由函数SimGO(·,·)的值来定义，使用以下三个GO描述项相似性组合函数：

①Max：取所有GO描述项成对相似性的最高得分值；

②Mean：取所有GO描述项成对相似性的平均得分值；

7.如权利要求1所述的药物联合作用预测方法，其特征在于：所述在步骤八建立支持向量机的药物联合作用效果预测模型流程是：

D : = {(X_{i}, y_{i}) | X_{i} &Element; R^{m}, y_{i} &Element; {- 1,1}}_{i = 1}^{n}

其中n代表药物联合作用信息的数量，m代表上述整合后邻接群特征向量的特征数量；R^m为m维欧氏空间；X_i表示第i个药物联合作用的整合后的邻接群特征向量；y_i表明X_i对应的第i个药物联合作用所属的药物联合作用效果，当y_i=1时表明其属于具有协同或加和作用的药物组合，当y_i=-1时表明其属于药物随机配伍；药物随机配伍作为分类预测算法的阴性对照；

（2）引入高斯径向基核函数，K(X_i,X_j)＝exp(-γ||X_i-X_j||²)，服从限定条件：γ>0组合药物邻接群的特征向量X_i映射到高维向量空间；

\max_{α} {Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (X_{i}, X_{j})}

服从条件：α_i≥0和

Σ_{i = 1}^{n} α_{i} y_{i} = 0

f (x) = sgn (Σ_{i = 1}^{N} α_{i}^{*} y_{i} K (X_{i}^{*}, X) + b)

若f(D_p,D_q)=1时表明本发明方法预测D_p和D_q药物联合具有协同作用，提示可以对其做进一步实验验证；当f(D_p,D_q)=1时表明本发明方法预测D_p和D_q药物联合没有协同或加和作用。

8.如权利要求5所述的的药物联合作用预测方法，其特征在于：在计算邻接群的拓扑网络特征中，所述接近中心度是指蛋白质节点i到与其直接或间接相连的所有节点之间的最短路径长度的平均值；

所述节点连接度其蛋白质节点i的节点连接度k_i被定义为与该节点直接相连的邻接节点的数目，表示为：

k_{i} = \underset{j &NotEqual; i}{Σ} a_{ij}

所述边的中介中心度是表示网络中两个蛋白质节点之间的中心性，定义为通过该边两个节点的所有其他蛋白质节点之间最短路径总数除以网络中所有最短路径总数，其计算公式如下：

其中γ是网络中所有最短路径总数，若从节点s到节点t存在最短路径则σ_st=1，λ表示网络中通过节点i和j的所有其他节点之间的最短路径总数，若从节点s到节点t存在最短路径且该路径同时通过节点i和节点j，则σ_st(ij)=1；

所述聚类系数用于测量蛋白质节点i和蛋白质节点j的邻接群节点的局部相互作用密度，计算方法如下：

{CC}_{ij} = \frac{χ}{δ} = \frac{\underset{m, n &Element; N_{ij}, m &NotEqual; n}{Σ} a_{mn}}{\frac{1}{2} | N_{ij} | \cdot (| N_{ij} | - 1)}

所述拓扑重叠度反映蛋白质节点i和蛋白质节点j之间相互连接的相对程度，对于第一度邻接群，其拓扑重叠度计算方式为：

{TO}_{ij} = \frac{| N_{ij} | + a_{ij}}{(k_{i} + k_{j}) + 1}

其中|N_ij|代表邻接群N_ij中蛋白质节点的数量；k_i和k_j表示节点i和节点j的节点连接度，在此种情况下，如果节点i和节点j同时满足以下两个条件则其TO_ij=1：其所有邻接蛋白质节点包含在其邻接群N_ij中，②这些节点之间均形成直接相互作用连接。

9.如权利要求6所述的的药物联合作用预测方法，其特征在于：所述GO描述项成对相似性的最高得分值Max的计算公式为：

{SimP}_{Max} (G_{i}, G_{j}) = \max_{g_{i} &Element; G_{i}, g_{j} &Element; G_{j}} {SimGO (g_{i}, g_{j})}

{SimP}_{Mean} (G_{i}, G_{j}) = \frac{\underset{g_{i} &Element; G_{i}, g_{j} &Element; G_{j}}{Σ} SimGO (g_{i}, g_{j})}{| G_{i} | \cdot | G_{j} |}

所述所有GO描述项正向和反向成对相似性最大值的平均值MaxMean的计算公式为：

{SimP}_{MaxMean} (G_{i}, G_{j}) = \frac{\underset{g_{i} &Element; G_{i}}{Σ} \max_{g_{j} &Element; G_{j}} {SimGO (g_{i}, g_{j})} + \underset{g_{j} &Element; G_{j}}{Σ} \max_{g_{i} &Element; G_{i}} {SimGO (g_{i}, g_{j})}}{| G_{i} | + | G_{j} |} .

10.如权利要求1所述的药物联合作用预测方法，其特征在于：所述在步骤一获取用于建立效果预测模型的药物联合作用信息，是获取作用类型为药效学的药物联合作用信息和作用效果为协同或加和作用的药物联合作用信息。