CN105138862B

CN105138862B - 一种协同抗癌症药物组合预测方法及药物组合物

Info

Publication number: CN105138862B
Application number: CN201510464329.8A
Authority: CN
Inventors: 曹志伟; 费俭; 孙怡; 刘琦; 盛振
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2017-12-26
Anticipated expiration: 2035-07-31
Also published as: CN105138862A

Abstract

本发明涉及一种协同抗癌症药物组合预测方法及药物组合物，包括以下步骤：1)数据收集：根据药物组合的疾病治疗效果不同，分类得到已知协同抗癌症药物组合以及相应的靶点；2)模型建立：对于已知协同抗癌症药物组合以及未知药物组合，计算协同抗癌症药物组合的特征，建立协同抗癌症药物组合预测模型；3)结果过滤：利用药物表达谱信息，探索归纳已知协同抗癌症药物组合的特征，对步骤2)的预测结果进行筛除。基于该方法得到抗乳腺癌药物组合物和抗肺癌药物组合物。与现有技术相比，本发明综合运用药物组合的各种特征，设计巧妙，预测准确，并具有重要的实际应用价值，适用于大规模推广应用。

Description

一种协同抗癌症药物组合预测方法及药物组合物

技术领域

本发明涉及一种抗癌症药物组合预测方法，尤其是涉及一种基于药物靶点网络特征与表达谱信息特征的协同抗癌症药物组合预测方法及药物组合物。

背景技术

随着对疾病机理研究的深入，人们越来越认识到大多数疾病都是由多种致病因素共同影响、导致调控网络失去平衡的结果。在很多情况下，抑制一个靶点并不会引起表型的改变，甚至可能激活疾病系统中的其它因素，以保护系统的稳定，从而导致药物失去功效或者产生毒副作用。临床上常将两种或者两种以上药物进行联合应用，达到多种治疗目的、产生协同增效作用或者减少不良反应。相比传统的单一成分、单一靶点的药物，药物组合具有多成分、多个作用靶点的特点，能够更有效的对复杂的疾病网络进行整体的调节，在疾病的治疗方面具有很大的优势与潜力。

但是，药物组合在成功上市成为批准用药前，需要经历不同浓度、不同细胞系的筛选，继而进入各个临床测试阶段，这其中要耗费大量的人力物力和时间。因此，建立大规模的筛选模型对于药物组合研究具有重要意义。然而，目前的预测模型缺效率普遍较低，国际组织the Dialogue for Reverse Engineering Assessments and Methods(DREAM)发布的最新结果显示，现有最好的预测方法仅比随机猜测略好一点点(Nat Biotechnol 32，1213-1222(2014))。因此，很有必要研发新方法引导加快协同作用药物的筛选。

另一方面，有报道提示药物协同作用机制可以包括不同的药物作用于相同的靶点、同一通路中的不同靶点、交叉通路中的不同靶点、相互作用通路中的不同靶点等，从而产生整体增强的作用。也有研究表明有效药物组合的靶蛋白倾向于在蛋白相互作用网络中距离很近，倾向于参与到相同的生物通路中，倾向于执行相似的生物功能。本方法基于现有知识积累，找出已知协同药物组合具有的多种模式特征，将这些特征应用于预测方法以提高药物组合预测的准确性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种协同抗癌症药物组合预测方法。

本发明的目的可以通过以下技术方案来实现：

一种协同抗癌症药物组合预测方法，其特征在于，包括以下步骤：

1)数据收集：构建待筛选的未知药物组合，以及每个药物相应的靶点数据集；

2)模型建立：对于已知协同抗癌症药物组合以及未知药物组合，筛选差异特征，建立协同抗癌症药物组合预测模型；

3)结果过滤：利用药物表达谱的特征，对步骤2)的预测结果进行筛除。

所述的步骤1)为：

设计系列特征，筛选能够显著区分协同抗癌症药物组合的描述性特征；整理待预测协同抗癌的药物，收集药物作用靶点；将待预测药物随机组合成未知药物组合数据集。

所述的步骤1)具体为：

(1)收集已知的抗癌药物组合，提取每个药物的靶点信息(可从公共数据库或者自己试验获得)；

(2)收集设计系列特征，通过统计检验，筛选能显著区分协同抗癌症药物组合的描述性特征。

所述的统计检验具体为：

首先由已知的协同抗癌症药物组合构成正样本，假设有N组，计算这N组的特征值，计算平均值；

由正样本中的药物随机组合，并去除已知协同抗癌症药物组合，构成背景样本，假设有M组，每次从M组中随机抽取N组，计算特征值的平均值，重复多次，得到多个平均值；

利用统计检验(Z-test)，验证这个特征值是否在正样本与随机抽取的样本中有显著的差异，保留具有显著差异的特征。

所述的显著差异的特征包括：

药物互信息，用于衡量两个药物的靶点群所调控的生物过程的相似性，如果计算得到的特征值越大，表示这两个药物的靶点群所调控的生物过程更为相近；

药靶群距离，通过计算两个药物的靶点群之间的平均最短距离，来衡量药物之间距离的远近，如果计算所得特征值越小表示这两个药靶群之间的距离越近；

组合药物对靶网络的干预性，用于衡量药物联合使用相对分别单独使用时对癌症网络信号传递效率的干扰程度，如果计算得到的特征值为正值，那么说明组合用药相比单独用药对癌症网络信号传递效率的扰动更大；

组合药物效能，结合了药物靶点在癌症网络内外的分布以及网络参数，来衡量药物组合的效能，如果计算所得的特征值越大，则暗示药物组合的效能更佳；

药靶群调控的通路群关系，通过对药物各自靶向通路之间的不同关系进行分类，进一步分为：

同一条通路，即两条通路完全一样；

重叠通路，即两条通路不完全一样，但至少有一个点相同；

相互作用通路，即两条通路没有共同点，但是至少存在两个点之间有蛋白相互作用关系；

不相关通路，即不满足前面三种情况的通路。

所述的预测模型采用机器学习方法中的半监督学习建立，将收集的正样本作为训练集，未知样本作为测试集；将每个组合计算所得的特征值作为模型的输入，根据与训练集中药物组合的关联，测试集中药物组合将被排序，排在越前面的组合越可能是潜在的协同抗癌症药物组合；在测试集中混入部分已知的正样本用于检验预测模型的有效性。

所述的步骤3)具体为：

(1)构建表达谱数据特征：分析药物的差异表达基因，通过统计检验，提取能显著区别协同抗癌症药物组合和未知组合效果组合药物的描述性特征；

(2)整理特征，建立过滤系统，对预测模型的输出结果进行过滤，删除不满足条件的药物组合。

所述的显著性检验：第一步，首先对每一组正样本，设定药物x和y有差异表达基因分别为M与N个，计算特征值；以表达谱中所有基因作为背景集合，每次随机抽取M与N个基因，同样计算这个特征值；重复这个过程多次，得到多个值；统计这些值中大于真实特征值的次数，由此计算真实特征值出现的概率；仅当概率值小于0.05，才认定这个特征值在这个正样本与随机样本中是有显著区别的；

第二步，对这种显著性是否在正样本有富集性进行检验，由正样本中的药物随机组合，构成背景样本，计算正样本K组中特征值有显著性的组数，背景样本中特征值有显著性的组数，将这4个值代入超几何分布，计算概率值，仅当概率值小于0.05，才判定这个特征值在正样本中的显著性是有富集性的；

构成过滤系统的两个特征如下：

差异基因的重合度(DEG_Overlap)：

其中A，B分别表示药物x与药物y的差异表达基因；

对特定癌症网络的覆盖度(Pathway_Coverage)：

其中A，B分别表示药物x与药物y的差异表达基因，N代表待检测癌症的网络(比如乳腺癌网络)中的基因个数。

一种基于上述方法得到的抗乳腺癌药物组合物，其特征在于，包括以下几种药物组合物：

(1)吉非替尼和依维莫司按以下条件进行组合：

吉非替尼和依维莫司的浓度范围分别是：6μM～50μM，2μM～25μM；

(2)吉非替尼和沙利多胺按以下条件进行组合：

吉非替尼和沙利多胺的浓度范围分别是：6μM～50μM，50μM～320μM；

(3)吉非替尼和他莫昔芬按以下条件进行组合：

吉非替尼和他莫昔芬的浓度范围分别是：6μM～50μM，150μM～1200μM；

(4)盐酸埃罗替尼和他莫昔芬按以下条件进行组合：

盐酸埃罗替尼和他莫昔芬的浓度范围分别是：42μM～240μM，150μM～1200μM；

(5)索拉非尼和他莫昔芬按以下条件进行组合：

索拉非尼和他莫昔芬的浓度范围分别是：5μM～40μM，150μM～1200μM；

(6)吉非替尼和枸橼酸托瑞米芬按以下条件进行组合：

吉非替尼和他莫昔芬的浓度范围分别是：6μM～50μM，30μM～240μM；

(7)厄洛替尼和索拉非尼按以下条件进行组合：

厄洛替尼和索拉非尼的浓度范围分别是：30μM～240μM，5μM～40μM；

(8)索拉非尼和达沙替尼按以下条件进行组合：

索拉非尼和达沙替尼的浓度范围分别是：5μM～40μM，150μM～1000μM；

(9)吉非替尼和PD98059按以下条件进行组合：

吉非替尼和PD98059的浓度范围分别是：6μM～50μM，30μM～250μM。

各药物组合物的优选浓度范围如下：

(1)当吉非替尼和依维莫司的浓度范围分别为：7.5～9.0μM，15～20μM时，协同效果最强；

(2)当吉非替尼和沙利多胺的浓度范围分别为：15～18μM，170～190μM时，协同效果最强；

(3)当吉非替尼和他莫昔芬的浓度范围分别为：15～27μM，360～420μM时，协同效果最强；

(4)当盐酸埃罗替尼和他莫昔芬的浓度范围分别为：120～135μM，360～450μM时，协同效果最强；

(5)当索拉非尼和他莫昔芬的浓度范围分别为：5～8μM，720～920μM时，协同效果最强；

(6)当吉非替尼和他莫昔芬的浓度范围分别为：24～27μM，75～100μM时，协同效果最强；

(7)当厄洛替尼和索拉非尼的浓度范围分别为：36～100μM，16～27μM时，协同效果最强；

(8)当索拉非尼和达沙替尼的浓度范围分别为：16～20μM，320～350μM时，协同效果最强；

(9)当吉非替尼和PD98059的浓度范围分别为：32～35μM，40～52μM时，协同效果最强。

每组药物组合(A，B)有4种配对，4:1，3:2，2:3，4:1，当四种情况下都产生协同，才认为这个药物组合协同。相应的，在四种情况下，药物A的浓度为4/5，3/5，2/5，1/5倍的A药初始浓度，而B药则对应为1/5，2/5，3/5，4/5倍的B药初始浓度。

一种抗肺癌药物组合物，其特征在于，包括以下几种药物组合物：

(1)盐酸埃罗替尼和氮芥喹吖因按以下条件进行组合：

盐酸埃罗替尼和氮芥喹吖因的浓度范围分别是：15μM～120μM，15μM～120μM；

(2)吉非替尼和氮芥喹吖因按以下条件进行组合：

吉非替尼和氮芥喹吖因的浓度范围分别是：15μM～120μM，15μM～120μM。

各药物组合物的优选浓度范围如下：

(1)当盐酸埃罗替尼和氮芥喹吖因的浓度范围分别为：15～45μM，50～90μM时，协同效果最强；

(2)当吉非替尼和氮芥喹吖因的浓度范围分别为：55～65μM，30～45μM时，协同效果最强。

与现有技术相比，本发明具有以下优点：

传统的药物组合筛选实验以一个一个的药物组合作为研究对象，设计实验，这其中需要耗费大量的人力物力和时间。通过计算机辅助方法，建立大规模的筛选模型可以大大加快相关实验工作，对药物组合研究具有重要意义。本发明基于药物靶点与表达谱信息预测协同抗癌症药物组合，以药物的作用靶蛋白以及药物干预前后的癌症细胞中基因的差异表达信息为基础。相比较以往的研究工作，本发明中的方法最大创新点是充分利用已知协同抗癌症药物组合，以药物的靶点和表达谱信息作为基础，通过统计学方法筛选描述性特征，建立预测模型以及过滤系统。本发明综合运用药物组合的各种特征，设计巧妙，预测准确，并具有重要的实际应用价值，适用于大规模推广应用。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，本发明具体过程如下：

1.数据收集：根据药物组合的疾病治疗效果不同，分类得到已知协同抗癌症药物组合以及相应的靶点。全面收集现有特征以及设计新特征，筛选能够显著区分已知协同抗癌症药物组合的描述性特征。收集药物，两两配对构成未知药物组合数据集，并收集相应的靶点。

具体：

(1)从公共数据库、文献或者通过自己的实验中收集药物组合数据，根据每组药物组合对疾病的治疗效果不同，仅选择对癌症有协同作用效果的药物组合。然后，获得药物的靶点信息(可从数据库文献，或者自己实验获得)。

(2)从现有知识积累中全面收集并设计系列特征参数，通过统计检验，筛选能显著区分已知协同抗癌症药物组合的描述性特征。对每一个特征分别进行统计检验，验证这个特征值是否在正样本与随机抽取的样本中有显著的差异。保留具有显著差异的特征。接下来，将每一组已知协同抗癌症药物组合以及未知药物组合，用上述挑选出来的显著特征来表示。之后，我们选择合适的计算方法，将计算得到的药物组合的特征值作为输入，建立预测模型。

挑选出来的特征：

首先，可利用公共数据库或者文献资料提取癌症通路中的基因作为癌症相关基因，对这些基因做功能富集分析，提取到癌症相关基因显著富集到的生物功能条目，作为与癌症相关的生物功能。将这些生物功能条目的顺序固定。然后，分别对每个药物的靶点群做同样的富集分析，提取出显著富集到的条目。将每个药物的靶点群显著富集到的条目与癌症相关的条目作对照，并由此对每个药物构建出一个向量。如果这个药物的靶点群显著富集到了第i个与癌症相关的条目，则在该药物的向量中对应第i个元素标为1，反之则标记为0。将任意两个药物对应的向量代入公式I来计算两个药物x，y的靶点群所影响的生物功能的相似性，

其中，P(x)、P(y)分别是药物x、y的靶点群显著富集到的条目在癌症相关条目中所占的比例。P(x，y)是这两个药物的靶点群都显著富集到的条目在癌症相关条目中所占的比例。

特征二：药靶群距离(Dis:Drug Distance)。该特征通过计算两个药物的靶点群之间的平均最短距离，来衡量药物之间距离的远近。如果计算所得特征值越小表示这两个药物之间的距离越近。

首先，可从公共蛋白-蛋白相互作用数据库或者文献中整理蛋白-蛋白相互作用信息，并构建背景蛋白相互作用网络，将药物的靶点映射到背景网络上，通过公式II来计算两个药物之间的距离，

其中，dis(i，j)表示在构建的背景网络中药物x的第i个靶点到药物y的第j个靶点之间的最短距离，M和N分别是药物x和药物y的靶点数目。

特征三：组合药物对靶网络的干预性(DCI:Drug-combination Interference)。该特征衡量药物联合使用相对分别单独使用时对癌症网络信号传递效率的干扰程度。如果计算得到的特征值为正值，那么说明组合用药相比单独用药对癌症网络信号传递效率的扰动更大，并且值越大代表产生的干扰性差异越大。

首先，将癌症相关基因通过蛋白相互作用，将与这些基因有相互作用的基因提取出来，通过一步扩张构建成癌症网络；DCI值的计算是基于药物作用前后，癌症网络中信息传递效率的相对变化情况(ΔE)

DCI(x,y)＝ΔE_x+y-(ΔE_x+ΔE_y) (III)

举例来说，药物x作用前后，癌症网络中信息传递效率的相对变化情况(ΔEx)可计算为：

其中，E是癌症网络中的所有节点之间的最短距离的倒数值的算数平均值。E_x是去除药物x的所有靶点以及靶点的相互作用关系后，癌症网络中剩余的所有节点的最短距离的倒数值的算数平均值。E_y则是药物y作用前后的癌症网络信息传递效率的变化值，E_x+y则是联用药物(x与y)作用前后的癌症网络信息传递效率的变化值。

特征四、五、六：组合药物效能(Eff.D，Eff.B，Eff.E:Drug Efficacy)。对于一个好的药物组合，我们期望它能达到最大化的治疗作用，同时最小化其它的附加效应(比如毒副作用等)。如果计算所得的特征值越大，则暗示药物组合的治疗效用更佳。

首先，利用已构建好的背景蛋白相互作用网络和癌症网络，可以对网络中的每个点赋予两个属性：第一个属性是位置，结点位于癌症网络中，或是在背景蛋白相互作用网络中而不在癌症网络中；第二个属性是药物靶结点在网络中的重要性(用网络参数来衡量)。我们假定只有处于癌症网络中的药物作用靶点才与药物的抗癌作用有关，而不处于其中的靶点则可能与它的治疗作用相关不高，甚至可能与副作用的产生有关。而网络参数则可以衡量每个药物靶点在网络中的重要性。我们引入公式V来平衡这两类靶点对药物组合治疗效果的影响，综合体现药物组合的治疗效用，

其中，CN表示位于癌症网络中的药物靶点，BD表示癌症网络中的所有结点，NCN表示处于背景蛋白相互作用网络而不位于癌症网络中的药物靶点，V表示背景蛋白相互作用网络中的所有结点，λ是可调节参数，取值区间为[0，1]，W_i是结点的网络参数(比如，节点的度中心性，介数中心性，特征向量中心性等)。

特征七：药靶群调控的不相关通路(MP.U:Unrelated mapped pathways)。该特征通过对两条通路之间的不同关系进行分类，查看两个药物的靶点群调控的作用通路之间的关系。

首先，对癌症相关基因做生物通路富集分析，作为与癌症相关的生物通路。对于药物x，利用它的靶点信息，可以将这个药物作用到的癌症相关的生物通路找出来。对任意两个药物，可以得到两套生物通路的集合。对任意两条通路之间的关系可以分为4类：

1.同一条癌症相关通路(Identical pathways)；

2.有交集的癌症相关通路(Cross-talking pathways)：不满足1，但是这两条通路至少有一个共同点；

3.相互作用的癌症相关通路(Interacting pathways)：不满足1和2，但是其中一条通路中至少有一个点能与另一条通路中的至少一个点存在蛋白-蛋白相互作用关系；

4.不相关/平行的癌症相关通路(Unrelated pathways)：不满足前3点的两条通路。

对于药物x与y，这四种类型的通路关系所占的比例都可以计算得到。经统计检验发现，已知协同抗癌症药物组合中的两个药物更倾向于靶向与癌症相关的通路中的不相关/平行通路(unrelated pathways)。

(3)通过公共数据库以及文献来收集药物以及相应的靶点数据。将这些药物两两配对，去除正样本数据，构成未知药物组合数据集。

2.模型建立：对于已知协同抗癌症药物组合以及未知药物组合，计算上述特征，建立协同抗癌症药物组合预测模型；

计算模型：选用计算方法为机器学习方法中的半监督学习(semi-supervisedlearning approach)模型建立预测模型，这种学习方法适用于只知道正样本与未知样本，而无法获取负样本的数据集；将收集的正样本作为训练集合，未知样本作为测试集合；将每个组合计算所得的特征值作为方法的输入，根据与训练集中药物组合的关联，测试集合中药物组合将被排序，排在前面的组合认为是潜在的协同抗癌症药物组合。

方法如下：给定数据集前q个正样本构成query集合，剩余的样本作为测试数据将被排序。在本模型中，每个研究样本是一个联用药物对。利用欧式距离计算得到每两组药对x_i，x_j之间的距离d(x_i，x_j)，计算任意两组药对之间的距离，最终得到距离矩阵d:X×X→R。期望学得函数f:X→R可以准确地对每个药对预测出产生协同作用的可能性/分值f_i。最终，对所有药对进行预测后，得到向量f＝[f₁，…，f_n]^T。y:X→R为指示函数，其中，如果x_i是query集合中的药对，那么对应的y_i＝1，反之，y_i＝0。可以得到向量y＝[y₁，…，y_n]^T。然后，测试数据将被按照其与query集合中的药对的相似性进行排序，方法具体如下：

1.计算每两组药对x_i，x_j之间的欧式距离d(x_i，x_j)，将距离的倒数值作为这两组药对之间的相似性W_ij＝1/d(x_i，x_j)，最终得到相似性矩阵W。

2.将相似性矩阵W进行对称正规化S＝D^-1/2WD^-1/2，其中是D对角矩阵，矩阵中的第(i，i)个元素等于相似矩阵W中第i行元素的加和值。

3.迭代f(t+1)＝αSf(t)+(1-α)y直到收敛，其中α处于区间[0，1)。在本工作中，α设定为0.9。

4.测试集中的每个药对x_i都将得到一个分值f_i*，按照这个分值对所有药对进行排序，分值大的药对产生协同作用的可能性更大，排序靠前。

3.过滤系统：利用药物表达谱信息，探索归纳已知协同抗癌症药物组合的特征，对上一步预测结果进行筛除。

(1)可从数据库、文献、或者实验中，收集药物的表达谱数据，分析药物的差异表达基因，通过统计检验，探索能显著区别已知协同抗癌症药物组合的描述性特征。

构成过滤系统的两个特征如下：

差异基因的重合度(DEG_Overlap)：

其中A，B分别表示药物x与药物y的差异表达基因；

对特定癌症网络的覆盖度(Pathway_Coverage)：

具体的实施例:

为了测试我们的模型的预测能力，我们在癌症细胞系上进行了协同抗癌症药物组合的预测。因为考虑到乳腺癌MCF7细胞系上的表达谱数据较多，故我们选择了乳腺癌细胞系MCF7来做预测。我们收集了118个药物(具有靶点信息)，这些单药在人类乳腺癌MCF7细胞系上的基因表达谱数据来自CMAP，GEO以及ArrayExpress数据库(并不是每个药物都收集到了表达谱数据，表达谱数据缺失的药物就没有用过滤系统进行过滤)。将这118个药物两两配对构成测试药对。利用我们的模型进行预测，我们选取预测结果中排序在前1％的41个药物组合作为潜在的协同抗癌症药物组合(表1)。经过第二步的参数过滤之后，剩余33个药物组合作为候选药物组合(表1)，并且将进一步进行MCF7细胞系上的实验验证，其中表1为预测的在人类乳腺癌细胞系MCF7上可能产生协同作用的药物组合。

表1

首先，我们通过阅读文献资料，查询这33个药物组合是否已经在前人的工作中验证出具有协同作用效果。结果发现，其中的5个药物组合已经被报道具有协同抗癌症的作用效果。这5个药物组合包括curcumin与resveratrol的组合(结肠直肠癌)，trastuzumab与erlotinib的组合(乳腺癌)，topotecan与vorinostat的组合(小细胞肺癌)，estramustine与docetaxel的组合(乳腺癌)，以及bleomycin与etoposide的组合(子宫内膜癌)。

对剩余的药物组合，我们将通过MCF7细胞系上的实验来验证这些药物组合是否真的能够产生协同作用效果。其中有些药物组合中涉及到抗体药物或者无法购买到，而没有进行下一步的细胞系实验验证。最终，17对药物组合在人类乳腺癌细胞系MCF7上进行了验证实验。

对每一组药物组合，设计了4组浓度配比，两个药物的浓度比分别为4:1，3:2，2:3，以及1:4。我们采用由Chou and Talalay提出的得到广泛应用的combination index(CI)来判定药物间的作用效果关系。在本项工作中，我们设定了更为严格的判定规则，只有当这组药对在四种浓度配比情况下都产生协同作用效果(CI<0.9)，才认为这个药物组合能够产生协同作用。经过实验，发现验证的17组药物组合中的9组能够产生协同作用，占到52.94％。在这9组验证为协同的药物组合中，出现频率最高的药物为吉非替尼/易瑞沙(Gefitinib)。这个药物已被FDA批准用于非小细胞肺癌的治疗。此外，出现频率第二高的药物为他莫昔芬(tamoxifen)，这个药物是最常用于乳腺癌治疗的药物。此外，值得注意的是，这9组协同药对中的4组(44.44％)，检测到它们产生了强协同作用效果(CI<0.3)。算上文献中已经报道的那5组协同药对，最终预测为最有可能产生协同作用的药物组合中有63.64％(14/22)经过验证确实能够产生协同作用效果，其中有57.89％(11/19)是在乳腺癌MCF7细胞系上验证出来的。我们还发现，总的来说，不管是来自文献还是细胞实验的证据表明，能够产生协同作用的药物组合在我们的预测的排序结果中排在前5‰。更加有意思的是，实验中发现能够产生强协同作用效果的这些药物组合排序在预测结果的前2‰。这表明我们的预测模型可以将药物组合按照它们对应产生的协同作用效果的强弱来进行排序。另外，我们在肺癌上面测试了有11个药物组成的55个药对。对其中排序最靠前的6对药对进行了肺癌A549细胞系上的实验验证。其中，有两对药对验证为协同。

具体实验方法：

加药：每一对药物实验将设置空白对照组、单药处理组以及不同药物配比的联用组。为了计算每组药物的半抑制率(IC50)，实验组每个药物配比(包括单药组以及联用组)都将稀释3个浓度梯度以上，每个配比浓度将设3个孔作为平行孔。每组实验将进行至少3次重复实验。

MTT法检测细胞毒性：在加药用含MTT的培养液替换所有孔内的细胞培养液，静置培养4个小时再加入溶解液溶解约4个小时，在570纳米处测试每孔的吸光度。

药物相互作用的评价：假定药物A和药物B在单用时对细胞的半抑制率分别为A’和B’，药物A和药物B联用时的半抑制率分别为a和b，计算CI指数：

当CI<0.9时，认为这两个药物协同；当0.9<CI<1.1时，认为这两个药物加和；当CI>1.1时，认为这两个药物拮抗。

根据上述方法得到抗乳腺癌药物组合物，包括以下几种药物组合物：

(1)吉非替尼依维莫司

(2)吉非替尼沙利多胺Thalidomide

(3)吉非替尼他莫昔芬

(4)盐酸埃罗替尼他莫昔芬

(5)索拉非尼Sorafenib他莫昔芬

(6)吉非替尼Toremifene枸橼酸托瑞米芬

(7)Erlotinib厄洛替尼，索拉非尼

(8)索拉非尼Dasatinib达沙替尼

(9)吉非替尼PD98059

其中：(1)吉非替尼和依维莫司组合：

吉非替尼和依维莫司的浓度范围分别是：6μM～50μM，2μM～25μM

尤其是当吉非替尼和依维莫司的浓度范围分别为：7.5～9.0μM，15～20μM时，协同效果最强；

(2)吉非替尼和沙利多胺组合：

吉非替尼和沙利多胺的浓度范围分别是：6μM～50μM，50μM～320μM

尤其是当吉非替尼和沙利多胺的浓度范围分别为：15～18μM，170～190μM时，协同效果最强；

(3)吉非替尼和他莫昔芬组合

吉非替尼和他莫昔芬的浓度范围分别是：6μM～50μM，150μM～1200μM

尤其是当吉非替尼和他莫昔芬的浓度范围分别为：15～27μM，360～420μM时，协同效果最强；

(4)盐酸埃罗替尼和他莫昔芬组合

盐酸埃罗替尼和他莫昔芬的浓度范围分别是：42μM～240μM，150μM～1200μM

尤其是当盐酸埃罗替尼和他莫昔芬的浓度范围分别为：120～135μM，360～450μM时，协同效果最强；

(5)索拉非尼和他莫昔芬组合

索拉非尼和他莫昔芬的浓度范围分别是：5μM～40μM，150μM～1200μM

尤其是当索拉非尼和他莫昔芬的浓度范围分别为：5～8μM，720～920μM时，协同效果最强；

(6)吉非替尼和枸橼酸托瑞米芬组合

吉非替尼和他莫昔芬的浓度范围分别是：6μM～50μM，30μM～240μM

尤其是当吉非替尼和他莫昔芬的浓度范围分别为：24～27μM，75～100μM时，协同效果最强；

(6)厄洛替尼和索拉非尼组合

厄洛替尼和索拉非尼的浓度范围分别是：30μM～240μM，5μM～40μM

尤其是当厄洛替尼和索拉非尼的浓度范围分别为：36～100μM，16～27μM时，协同效果最强；

(7)索拉非尼和达沙替尼组合

索拉非尼和达沙替尼的浓度范围分别是：5μM～40μM，150μM～1000μM

尤其是当索拉非尼和达沙替尼的浓度范围分别为：16～20μM，320～350μM时，协同效果最强；

(8)索拉非尼和达沙替尼组合：

(9)吉非替尼和PD98059组合

吉非替尼和PD98059的浓度范围分别是：6μM～50μM，30μM～250μM，

尤其是当吉非替尼和PD98059的浓度范围分别为：32～35μM，40～52μM时，协同效果最强；

表2 为预测的在人类乳腺癌细胞系MCF7上产生协同作用的药物组合及其结果：

结果表明，上述药物组合在治疗乳腺癌上有优异的协同效果。

每组药物组合(药物1，药物2)有4种配对，4:1，3:2，2:3，4:1，当四种情况下都产生协同，才认为这个药物组合协同。相应的，在四种情况下，药物1的浓度为4/5，3/5，2/5，1/5倍的A药初始浓度，而药物2则对应为1/5，2/5，3/5，4/5倍的B药初始浓度。

还得到了抗肺癌药物组合物，包括以下几种药物组合物：

(1)盐酸埃罗替尼、氮芥喹吖因

(2)吉非替尼和氮芥喹吖因。

其中：(1)盐酸埃罗替尼和氮芥喹吖因组合；

尤其是当盐酸埃罗替尼和氮芥喹吖因的浓度范围分别为：15～45μM，50～90μM时，协同效果最强；

(2)吉非替尼和氮芥喹吖因组合：

吉非替尼和氮芥喹吖因的浓度范围分别是：15μM～120μM，15μM～120μM；

尤其是当吉非替尼和氮芥喹吖因的浓度范围分别为：55～65μM，30～45μM时，协同效果最强。

结果表明，上述药物组合在治疗肺癌上有优异的协同效果。

上述各药物为：依维莫司Everolimus，索拉非尼Sorafenib，沙利多胺Thalidomide，吉非替尼Toremifene，厄洛替尼Erlotinib，达沙替尼Dasatinib，氮芥喹吖因Quinacrine

gefitinib:吉非替尼/商标易瑞沙(被阿斯利康和梯瓦公司销售)是一种药物用于某些乳腺癌、肺癌和其他癌症。

erlotinib:盐酸埃罗替尼(贸易名字特罗凯)是一种药物用于治疗非小细胞肺癌(nsclc)、胰腺癌和其他癌症的类型。

tomoxifen:他莫昔芬也叫枸橼酸他莫昔芬，英文商品名为Nolvadex。

Claims

1.一种协同抗癌症药物组合预测方法，其特征在于，包括以下步骤：

3)结果过滤：利用药物表达谱的特征，对步骤2)的预测结果进行筛除；

所述的步骤1)为：

设计系列特征，筛选能够显著区分协同抗癌症药物组合的描述性特征；整理待预测协同抗癌的药物，收集药物作用靶点；将待预测药物随机组合成未知药物组合数据集；

所述的步骤1)具体为：

(1)收集已知的抗癌药物组合，提取每个药物的靶点信息；

(2)收集设计系列特征，通过统计检验，筛选能显著区分协同抗癌症药物组合的描述性特征；

所述的统计检验具体为：

利用统计检验，验证这个特征值是否在正样本与随机抽取的样本中有显著的差异，保留具有显著差异的特征；

所述的显著差异的特征包括：

药靶群调控的通路群关系，通过对药物各自靶向通路之间的不同关系进行分类，进一步分为：同一条通路，即两条通路完全一样；

重叠通路，即两条通路不完全一样，但至少有一个点相同；

不相关通路，即不满足前面三种情况的通路；

所述显著的检验：第一步，首先对每一组正样本，设定药物x和y有差异表达基因分别为m与n个，计算特征值；以表达谱中所有基因作为背景集合，每次随机抽取m与n个基因，同样计算这个特征值；重复这个过程多次，得到多个值；统计这些值中大于真实特征值的次数，由此计算真实特征值出现的概率；仅当概率值小于0.05，才认定这个特征值在这个正样本与随机样本中是有显著区别的；

构成过滤系统的两个特征如下：

差异基因的重合度DEG_Overlap：

<mrow> <mi>D</mi> <mi>E</mi> <mi>G</mi> <mo>_</mo> <mi>O</mi> <mi>v</mi> <mi>e</mi> <mi>r</mi> <mi>l</mi> <mi>a</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mo>|</mo> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> <mo>|</mo> <mo>)</mo> </mrow> <mo>/</mo> <msqrt> <mrow> <mo>(</mo> <mo>|</mo> <mi>A</mi> <mo>|</mo> <mo>&times;</mo> <mo>|</mo> <mi>B</mi> <mo>|</mo> <mo>)</mo> </mrow> </msqrt> </mrow>

其中A，B分别表示药物x与药物y的差异表达基因；

对特定癌症网络的覆盖度Pathway_Coverage：

其中A，B分别表示药物x与药物y的差异表达基因，n代表待检测癌症的网络中的基因个数。

2.根据权利要求1所述的一种协同抗癌症药物组合预测方法，其特征在于，所述的预测模型采用机器学习方法中的半监督学习建立，将收集的正样本作为训练集，未知样本作为测试集；将每个组合计算所得的系列特征值作为模型的输入，根据与训练集中药物组合的关联，测试集中药物组合将被排序，排在越前面的组合越有可能是潜在的协同抗癌症药物组合。

3.根据权利要求1所述的一种协同抗癌症药物组合预测方法，其特征在于，所述的步骤3)具体为：

4.一种基于权利要求1所述的方法得到的抗乳腺癌药物组合物，其特征在于，包括以下几种药物组合物：

(1)吉非替尼和依维莫司按以下条件进行组合：

(2)吉非替尼和沙利多胺按以下条件进行组合：

(3)吉非替尼和他莫昔芬按以下条件进行组合：

(4)盐酸埃罗替尼和他莫昔芬按以下条件进行组合：

(5)索拉非尼和他莫昔芬按以下条件进行组合：

(6)吉非替尼和枸橼酸托瑞米芬按以下条件进行组合：

(7)厄洛替尼和索拉非尼按以下条件进行组合：

(8)索拉非尼和达沙替尼按以下条件进行组合：

(9)吉非替尼和PD98059按以下条件进行组合：

5.根据权利要求4所述的抗乳腺癌药物组合物，其特征在于，各药物组合物的优选浓度范围如下：

6.一种基于权利要求1所述的方法得到的抗肺癌药物组合物，其特征在于，包括以下几种药物组合物：

(1)盐酸埃罗替尼和氮芥喹吖因按以下条件进行组合：

(2)吉非替尼和氮芥喹吖因按以下条件进行组合：

7.根据权利要求6所述的抗肺癌药物组合物，其特征在于，各药物组合物的优选浓度范围如下：