CN105138862B - 一种协同抗癌症药物组合预测方法及药物组合物 - Google Patents
一种协同抗癌症药物组合预测方法及药物组合物 Download PDFInfo
- Publication number
- CN105138862B CN105138862B CN201510464329.8A CN201510464329A CN105138862B CN 105138862 B CN105138862 B CN 105138862B CN 201510464329 A CN201510464329 A CN 201510464329A CN 105138862 B CN105138862 B CN 105138862B
- Authority
- CN
- China
- Prior art keywords
- drug
- cancer
- concentration ranges
- gefitinib
- synergistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000890 drug combination Substances 0.000 title claims abstract description 67
- 230000007761 synergistic anti-cancer Effects 0.000 title claims abstract description 46
- 239000008194 pharmaceutical composition Substances 0.000 title claims abstract description 23
- 201000010099 disease Diseases 0.000 title abstract description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title abstract description 8
- 238000013277 forecasting method Methods 0.000 title 1
- 239000003814 drug Substances 0.000 claims abstract description 167
- 229940079593 drug Drugs 0.000 claims abstract description 152
- 239000012635 anticancer drug combination Substances 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims abstract description 20
- 206010006187 Breast cancer Diseases 0.000 claims abstract description 17
- 208000026310 Breast neoplasm Diseases 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 9
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims abstract description 8
- 238000013461 design Methods 0.000 claims abstract description 8
- 201000005202 lung cancer Diseases 0.000 claims abstract description 8
- 208000020816 lung neoplasm Diseases 0.000 claims abstract description 8
- 238000013480 data collection Methods 0.000 claims abstract description 4
- NKANXQFJJICGDU-QPLCGJKRSA-N Tamoxifen Chemical compound C=1C=CC=CC=1C(/CC)=C(C=1C=CC(OCCN(C)C)=CC=1)/C1=CC=CC=C1 NKANXQFJJICGDU-QPLCGJKRSA-N 0.000 claims description 79
- 239000005411 L01XE02 - Gefitinib Substances 0.000 claims description 67
- XGALLCVXEZPNRQ-UHFFFAOYSA-N gefitinib Chemical compound C=12C=C(OCCCN3CCOCC3)C(OC)=CC2=NC=NC=1NC1=CC=C(F)C(Cl)=C1 XGALLCVXEZPNRQ-UHFFFAOYSA-N 0.000 claims description 67
- 229960002584 gefitinib Drugs 0.000 claims description 65
- 230000002195 synergetic effect Effects 0.000 claims description 61
- 206010028980 Neoplasm Diseases 0.000 claims description 49
- 201000011510 cancer Diseases 0.000 claims description 48
- 229960001603 tamoxifen Drugs 0.000 claims description 39
- MLDQJTXFUGDVEO-UHFFFAOYSA-N BAY-43-9006 Chemical compound C1=NC(C(=O)NC)=CC(OC=2C=CC(NC(=O)NC=3C=C(C(Cl)=CC=3)C(F)(F)F)=CC=2)=C1 MLDQJTXFUGDVEO-UHFFFAOYSA-N 0.000 claims description 35
- 239000005511 L01XE05 - Sorafenib Substances 0.000 claims description 35
- 229960003787 sorafenib Drugs 0.000 claims description 35
- 230000037361 pathway Effects 0.000 claims description 33
- 108090000623 proteins and genes Proteins 0.000 claims description 30
- 229960005073 erlotinib hydrochloride Drugs 0.000 claims description 21
- GTTBEUCJPZQMDZ-UHFFFAOYSA-N erlotinib hydrochloride Chemical compound [H+].[Cl-].C=12C=C(OCCOC)C(OCCOC)=CC2=NC=NC=1NC1=CC=CC(C#C)=C1 GTTBEUCJPZQMDZ-UHFFFAOYSA-N 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 20
- 229960000901 mepacrine Drugs 0.000 claims description 19
- GPKJTRJOBQGKQK-UHFFFAOYSA-N quinacrine Chemical compound C1=C(OC)C=C2C(NC(C)CCCN(CC)CC)=C(C=CC(Cl)=C3)C3=NC2=C1 GPKJTRJOBQGKQK-UHFFFAOYSA-N 0.000 claims description 19
- 239000003596 drug target Substances 0.000 claims description 18
- ZBNZXTGUTAYRHI-UHFFFAOYSA-N Dasatinib Chemical compound C=1C(N2CCN(CCO)CC2)=NC(C)=NC=1NC(S1)=NC=C1C(=O)NC1=C(C)C=CC=C1Cl ZBNZXTGUTAYRHI-UHFFFAOYSA-N 0.000 claims description 15
- 239000005551 L01XE03 - Erlotinib Substances 0.000 claims description 15
- 239000002067 L01XE06 - Dasatinib Substances 0.000 claims description 15
- 229960002448 dasatinib Drugs 0.000 claims description 15
- AAKJLRGGTJKAMG-UHFFFAOYSA-N erlotinib Chemical compound C=12C=C(OCCOC)C(OCCOC)=CC2=NC=NC=1NC1=CC=CC(C#C)=C1 AAKJLRGGTJKAMG-UHFFFAOYSA-N 0.000 claims description 15
- 229960001433 erlotinib Drugs 0.000 claims description 14
- UEJJHQNACJXSKW-UHFFFAOYSA-N 2-(2,6-dioxopiperidin-3-yl)-1H-isoindole-1,3(2H)-dione Chemical compound O=C1C2=CC=CC=C2C(=O)N1C1CCC(=O)NC1=O UEJJHQNACJXSKW-UHFFFAOYSA-N 0.000 claims description 11
- HKVAMNSJSFKALM-GKUWKFKPSA-N Everolimus Chemical compound C1C[C@@H](OCCO)[C@H](OC)C[C@@H]1C[C@@H](C)[C@H]1OC(=O)[C@@H]2CCCCN2C(=O)C(=O)[C@](O)(O2)[C@H](C)CC[C@H]2C[C@H](OC)/C(C)=C/C=C/C=C/[C@@H](C)C[C@@H](C)C(=O)[C@H](OC)[C@H](O)/C(C)=C/[C@@H](C)C(=O)C1 HKVAMNSJSFKALM-GKUWKFKPSA-N 0.000 claims description 11
- 229960005167 everolimus Drugs 0.000 claims description 11
- 238000000528 statistical test Methods 0.000 claims description 11
- 229960003433 thalidomide Drugs 0.000 claims description 11
- 230000006916 protein interaction Effects 0.000 claims description 9
- 230000001105 regulatory effect Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 230000008054 signal transmission Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- IWEQQRMGNVVKQW-OQKDUQJOSA-N Toremifene citrate Chemical compound OC(=O)CC(O)(C(O)=O)CC(O)=O.C1=CC(OCCN(C)C)=CC=C1C(\C=1C=CC=CC=1)=C(\CCCl)C1=CC=CC=C1 IWEQQRMGNVVKQW-OQKDUQJOSA-N 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 4
- 230000031018 biological processes and functions Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 229960004167 toremifene citrate Drugs 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- JCKYGMPEJWAADB-UHFFFAOYSA-N chlorambucil Chemical compound OC(=O)CCCC1=CC=C(N(CCCl)CCCl)C=C1 JCKYGMPEJWAADB-UHFFFAOYSA-N 0.000 claims 2
- 229960004630 chlorambucil Drugs 0.000 claims 2
- 230000008685 targeting Effects 0.000 claims 1
- 239000000523 sample Substances 0.000 description 17
- 229960004961 mechlorethamine Drugs 0.000 description 15
- HAWPXGHAZFHHAD-UHFFFAOYSA-N mechlorethamine Chemical class ClCCN(C)CCCl HAWPXGHAZFHHAD-UHFFFAOYSA-N 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 12
- 230000001225 therapeutic effect Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 239000002246 antineoplastic agent Substances 0.000 description 5
- 230000008827 biological function Effects 0.000 description 5
- 230000008236 biological pathway Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 229940041181 antineoplastic drug Drugs 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 229940000425 combination drug Drugs 0.000 description 3
- 238000010201 enrichment analysis Methods 0.000 description 3
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 3
- 230000004850 protein–protein interaction Effects 0.000 description 3
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- VFLDPWHFBUODDF-FCXRPNKRSA-N curcumin Chemical compound C1=C(O)C(OC)=CC(\C=C\C(=O)CC(=O)\C=C\C=2C=C(OC)C(O)=CC=2)=C1 VFLDPWHFBUODDF-FCXRPNKRSA-N 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 229940084651 iressa Drugs 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 229960005026 toremifene Drugs 0.000 description 2
- XFCLJVABOIYOMF-QPLCGJKRSA-N toremifene Chemical compound C1=CC(OCCN(C)C)=CC=C1C(\C=1C=CC=CC=1)=C(\CCCl)C1=CC=CC=C1 XFCLJVABOIYOMF-QPLCGJKRSA-N 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 108010006654 Bleomycin Proteins 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 102100028188 Cystatin-F Human genes 0.000 description 1
- 101710169749 Cystatin-F Proteins 0.000 description 1
- 206010013710 Drug interaction Diseases 0.000 description 1
- 206010014733 Endometrial cancer Diseases 0.000 description 1
- 206010014759 Endometrial neoplasm Diseases 0.000 description 1
- ZDZOTLJHXYCWBA-VCVYQWHSSA-N N-debenzoyl-N-(tert-butoxycarbonyl)-10-deacetyltaxol Chemical compound O([C@H]1[C@H]2[C@@](C([C@H](O)C3=C(C)[C@@H](OC(=O)[C@H](O)[C@@H](NC(=O)OC(C)(C)C)C=4C=CC=CC=4)C[C@]1(O)C3(C)C)=O)(C)[C@@H](O)C[C@H]1OC[C@]12OC(=O)C)C(=O)C1=CC=CC=C1 ZDZOTLJHXYCWBA-VCVYQWHSSA-N 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- QNVSXXGDAPORNA-UHFFFAOYSA-N Resveratrol Natural products OC1=CC=CC(C=CC=2C=C(O)C(O)=CC=2)=C1 QNVSXXGDAPORNA-UHFFFAOYSA-N 0.000 description 1
- 206010041067 Small cell lung cancer Diseases 0.000 description 1
- LUKBXSAWLPMMSZ-OWOJBTEDSA-N Trans-resveratrol Chemical compound C1=CC(O)=CC=C1\C=C\C1=CC(O)=CC(O)=C1 LUKBXSAWLPMMSZ-OWOJBTEDSA-N 0.000 description 1
- 238000001801 Z-test Methods 0.000 description 1
- 238000002835 absorbance Methods 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000001093 anti-cancer Effects 0.000 description 1
- 229940125644 antibody drug Drugs 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229960001561 bleomycin Drugs 0.000 description 1
- OYVAGSVQBOHSSS-UAPAGMARSA-O bleomycin A2 Chemical compound N([C@H](C(=O)N[C@H](C)[C@@H](O)[C@H](C)C(=O)N[C@@H]([C@H](O)C)C(=O)NCCC=1SC=C(N=1)C=1SC=C(N=1)C(=O)NCCC[S+](C)C)[C@@H](O[C@H]1[C@H]([C@@H](O)[C@H](O)[C@H](CO)O1)O[C@@H]1[C@H]([C@@H](OC(N)=O)[C@H](O)[C@@H](CO)O1)O)C=1N=CNC=1)C(=O)C1=NC([C@H](CC(N)=O)NC[C@H](N)C(N)=O)=NC(N)=C1C OYVAGSVQBOHSSS-UAPAGMARSA-O 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 239000006143 cell culture medium Substances 0.000 description 1
- 229940109262 curcumin Drugs 0.000 description 1
- 235000012754 curcumin Nutrition 0.000 description 1
- 239000004148 curcumin Substances 0.000 description 1
- 231100000135 cytotoxicity Toxicity 0.000 description 1
- 230000003013 cytotoxicity Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- VFLDPWHFBUODDF-UHFFFAOYSA-N diferuloylmethane Natural products C1=C(O)C(OC)=CC(C=CC(=O)CC(=O)C=CC=2C=C(OC)C(O)=CC=2)=C1 VFLDPWHFBUODDF-UHFFFAOYSA-N 0.000 description 1
- 229960003668 docetaxel Drugs 0.000 description 1
- 102000038037 druggable proteins Human genes 0.000 description 1
- 108091007999 druggable proteins Proteins 0.000 description 1
- VJJPUSNTGOMMGY-MRVIYFEKSA-N etoposide Chemical compound COC1=C(O)C(OC)=CC([C@@H]2C3=CC=4OCOC=4C=C3[C@@H](O[C@H]3[C@@H]([C@@H](O)[C@@H]4O[C@H](C)OC[C@H]4O3)O)[C@@H]3[C@@H]2C(OC3)=O)=C1 VJJPUSNTGOMMGY-MRVIYFEKSA-N 0.000 description 1
- 229960005420 etoposide Drugs 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000001963 growth medium Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 229940085033 nolvadex Drugs 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 229940016667 resveratrol Drugs 0.000 description 1
- 235000021283 resveratrol Nutrition 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 208000000587 small cell lung carcinoma Diseases 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 229960003454 tamoxifen citrate Drugs 0.000 description 1
- FQZYTYWMLGAPFJ-OQKDUQJOSA-N tamoxifen citrate Chemical compound [H+].[H+].[H+].[O-]C(=O)CC(O)(CC([O-])=O)C([O-])=O.C=1C=CC=CC=1C(/CC)=C(C=1C=CC(OCCN(C)C)=CC=1)/C1=CC=CC=C1 FQZYTYWMLGAPFJ-OQKDUQJOSA-N 0.000 description 1
- 229940120982 tarceva Drugs 0.000 description 1
- UCFGDBYHRUNTLO-QHCPKHFHSA-N topotecan Chemical compound C1=C(O)C(CN(C)C)=C2C=C(CN3C4=CC5=C(C3=O)COC(=O)[C@]5(O)CC)C4=NC2=C1 UCFGDBYHRUNTLO-QHCPKHFHSA-N 0.000 description 1
- 229960000303 topotecan Drugs 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 229940043263 traditional drug Drugs 0.000 description 1
- 229960000575 trastuzumab Drugs 0.000 description 1
- WAEXFXRVDQXREF-UHFFFAOYSA-N vorinostat Chemical compound ONC(=O)CCCCCCC(=O)NC1=CC=CC=C1 WAEXFXRVDQXREF-UHFFFAOYSA-N 0.000 description 1
- 229960000237 vorinostat Drugs 0.000 description 1
Landscapes
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
- Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)
Abstract
本发明涉及一种协同抗癌症药物组合预测方法及药物组合物,包括以下步骤:1)数据收集:根据药物组合的疾病治疗效果不同,分类得到已知协同抗癌症药物组合以及相应的靶点;2)模型建立:对于已知协同抗癌症药物组合以及未知药物组合,计算协同抗癌症药物组合的特征,建立协同抗癌症药物组合预测模型;3)结果过滤:利用药物表达谱信息,探索归纳已知协同抗癌症药物组合的特征,对步骤2)的预测结果进行筛除。基于该方法得到抗乳腺癌药物组合物和抗肺癌药物组合物。与现有技术相比,本发明综合运用药物组合的各种特征,设计巧妙,预测准确,并具有重要的实际应用价值,适用于大规模推广应用。
Description
技术领域
本发明涉及一种抗癌症药物组合预测方法,尤其是涉及一种基于药物靶点网络特征与表达谱信息特征的协同抗癌症药物组合预测方法及药物组合物。
背景技术
随着对疾病机理研究的深入,人们越来越认识到大多数疾病都是由多种致病因素共同影响、导致调控网络失去平衡的结果。在很多情况下,抑制一个靶点并不会引起表型的改变,甚至可能激活疾病系统中的其它因素,以保护系统的稳定,从而导致药物失去功效或者产生毒副作用。临床上常将两种或者两种以上药物进行联合应用,达到多种治疗目的、产生协同增效作用或者减少不良反应。相比传统的单一成分、单一靶点的药物,药物组合具有多成分、多个作用靶点的特点,能够更有效的对复杂的疾病网络进行整体的调节,在疾病的治疗方面具有很大的优势与潜力。
但是,药物组合在成功上市成为批准用药前,需要经历不同浓度、不同细胞系的筛选,继而进入各个临床测试阶段,这其中要耗费大量的人力物力和时间。因此,建立大规模的筛选模型对于药物组合研究具有重要意义。然而,目前的预测模型缺效率普遍较低,国际组织the Dialogue for Reverse Engineering Assessments and Methods(DREAM)发布的最新结果显示,现有最好的预测方法仅比随机猜测略好一点点(Nat Biotechnol 32,1213-1222(2014))。因此,很有必要研发新方法引导加快协同作用药物的筛选。
另一方面,有报道提示药物协同作用机制可以包括不同的药物作用于相同的靶点、同一通路中的不同靶点、交叉通路中的不同靶点、相互作用通路中的不同靶点等,从而产生整体增强的作用。也有研究表明有效药物组合的靶蛋白倾向于在蛋白相互作用网络中距离很近,倾向于参与到相同的生物通路中,倾向于执行相似的生物功能。本方法基于现有知识积累,找出已知协同药物组合具有的多种模式特征,将这些特征应用于预测方法以提高药物组合预测的准确性。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种协同抗癌症药物组合预测方法。
本发明的目的可以通过以下技术方案来实现:
一种协同抗癌症药物组合预测方法,其特征在于,包括以下步骤:
1)数据收集:构建待筛选的未知药物组合,以及每个药物相应的靶点数据集;
2)模型建立:对于已知协同抗癌症药物组合以及未知药物组合,筛选差异特征,建立协同抗癌症药物组合预测模型;
3)结果过滤:利用药物表达谱的特征,对步骤2)的预测结果进行筛除。
所述的步骤1)为:
设计系列特征,筛选能够显著区分协同抗癌症药物组合的描述性特征;整理待预测协同抗癌的药物,收集药物作用靶点;将待预测药物随机组合成未知药物组合数据集。
所述的步骤1)具体为:
(1)收集已知的抗癌药物组合,提取每个药物的靶点信息(可从公共数据库或者自己试验获得);
(2)收集设计系列特征,通过统计检验,筛选能显著区分协同抗癌症药物组合的描述性特征。
所述的统计检验具体为:
首先由已知的协同抗癌症药物组合构成正样本,假设有N组,计算这N组的特征值,计算平均值;
由正样本中的药物随机组合,并去除已知协同抗癌症药物组合,构成背景样本,假设有M组,每次从M组中随机抽取N组,计算特征值的平均值,重复多次,得到多个平均值;
利用统计检验(Z-test),验证这个特征值是否在正样本与随机抽取的样本中有显著的差异,保留具有显著差异的特征。
所述的显著差异的特征包括:
药物互信息,用于衡量两个药物的靶点群所调控的生物过程的相似性,如果计算得到的特征值越大,表示这两个药物的靶点群所调控的生物过程更为相近;
药靶群距离,通过计算两个药物的靶点群之间的平均最短距离,来衡量药物之间距离的远近,如果计算所得特征值越小表示这两个药靶群之间的距离越近;
组合药物对靶网络的干预性,用于衡量药物联合使用相对分别单独使用时对癌症网络信号传递效率的干扰程度,如果计算得到的特征值为正值,那么说明组合用药相比单独用药对癌症网络信号传递效率的扰动更大;
组合药物效能,结合了药物靶点在癌症网络内外的分布以及网络参数,来衡量药物组合的效能,如果计算所得的特征值越大,则暗示药物组合的效能更佳;
药靶群调控的通路群关系,通过对药物各自靶向通路之间的不同关系进行分类,进一步分为:
同一条通路,即两条通路完全一样;
重叠通路,即两条通路不完全一样,但至少有一个点相同;
相互作用通路,即两条通路没有共同点,但是至少存在两个点之间有蛋白相互作用关系;
不相关通路,即不满足前面三种情况的通路。
所述的预测模型采用机器学习方法中的半监督学习建立,将收集的正样本作为训练集,未知样本作为测试集;将每个组合计算所得的特征值作为模型的输入,根据与训练集中药物组合的关联,测试集中药物组合将被排序,排在越前面的组合越可能是潜在的协同抗癌症药物组合;在测试集中混入部分已知的正样本用于检验预测模型的有效性。
所述的步骤3)具体为:
(1)构建表达谱数据特征:分析药物的差异表达基因,通过统计检验,提取能显著区别协同抗癌症药物组合和未知组合效果组合药物的描述性特征;
(2)整理特征,建立过滤系统,对预测模型的输出结果进行过滤,删除不满足条件的药物组合。
所述的显著性检验:第一步,首先对每一组正样本,设定药物x和y有差异表达基因分别为M与N个,计算特征值;以表达谱中所有基因作为背景集合,每次随机抽取M与N个基因,同样计算这个特征值;重复这个过程多次,得到多个值;统计这些值中大于真实特征值的次数,由此计算真实特征值出现的概率;仅当概率值小于0.05,才认定这个特征值在这个正样本与随机样本中是有显著区别的;
第二步,对这种显著性是否在正样本有富集性进行检验,由正样本中的药物随机组合,构成背景样本,计算正样本K组中特征值有显著性的组数,背景样本中特征值有显著性的组数,将这4个值代入超几何分布,计算概率值,仅当概率值小于0.05,才判定这个特征值在正样本中的显著性是有富集性的;
构成过滤系统的两个特征如下:
差异基因的重合度(DEG_Overlap):
其中A,B分别表示药物x与药物y的差异表达基因;
对特定癌症网络的覆盖度(Pathway_Coverage):
其中A,B分别表示药物x与药物y的差异表达基因,N代表待检测癌症的网络(比如乳腺癌网络)中的基因个数。
一种基于上述方法得到的抗乳腺癌药物组合物,其特征在于,包括以下几种药物组合物:
(1)吉非替尼和依维莫司按以下条件进行组合:
吉非替尼和依维莫司的浓度范围分别是:6μM~50μM,2μM~25μM;
(2)吉非替尼和沙利多胺按以下条件进行组合:
吉非替尼和沙利多胺的浓度范围分别是:6μM~50μM,50μM~320μM;
(3)吉非替尼和他莫昔芬按以下条件进行组合:
吉非替尼和他莫昔芬的浓度范围分别是:6μM~50μM,150μM~1200μM;
(4)盐酸埃罗替尼和他莫昔芬按以下条件进行组合:
盐酸埃罗替尼和他莫昔芬的浓度范围分别是:42μM~240μM,150μM~1200μM;
(5)索拉非尼和他莫昔芬按以下条件进行组合:
索拉非尼和他莫昔芬的浓度范围分别是:5μM~40μM,150μM~1200μM;
(6)吉非替尼和枸橼酸托瑞米芬按以下条件进行组合:
吉非替尼和他莫昔芬的浓度范围分别是:6μM~50μM,30μM~240μM;
(7)厄洛替尼和索拉非尼按以下条件进行组合:
厄洛替尼和索拉非尼的浓度范围分别是:30μM~240μM,5μM~40μM;
(8)索拉非尼和达沙替尼按以下条件进行组合:
索拉非尼和达沙替尼的浓度范围分别是:5μM~40μM,150μM~1000μM;
(9)吉非替尼和PD98059按以下条件进行组合:
吉非替尼和PD98059的浓度范围分别是:6μM~50μM,30μM~250μM。
各药物组合物的优选浓度范围如下:
(1)当吉非替尼和依维莫司的浓度范围分别为:7.5~9.0μM,15~20μM时,协同效果最强;
(2)当吉非替尼和沙利多胺的浓度范围分别为:15~18μM,170~190μM时,协同效果最强;
(3)当吉非替尼和他莫昔芬的浓度范围分别为:15~27μM,360~420μM时,协同效果最强;
(4)当盐酸埃罗替尼和他莫昔芬的浓度范围分别为:120~135μM,360~450μM时,协同效果最强;
(5)当索拉非尼和他莫昔芬的浓度范围分别为:5~8μM,720~920μM时,协同效果最强;
(6)当吉非替尼和他莫昔芬的浓度范围分别为:24~27μM,75~100μM时,协同效果最强;
(7)当厄洛替尼和索拉非尼的浓度范围分别为:36~100μM,16~27μM时,协同效果最强;
(8)当索拉非尼和达沙替尼的浓度范围分别为:16~20μM,320~350μM时,协同效果最强;
(9)当吉非替尼和PD98059的浓度范围分别为:32~35μM,40~52μM时,协同效果最强。
每组药物组合(A,B)有4种配对,4:1,3:2,2:3,4:1,当四种情况下都产生协同,才认为这个药物组合协同。相应的,在四种情况下,药物A的浓度为4/5,3/5,2/5,1/5倍的A药初始浓度,而B药则对应为1/5,2/5,3/5,4/5倍的B药初始浓度。
一种抗肺癌药物组合物,其特征在于,包括以下几种药物组合物:
(1)盐酸埃罗替尼和氮芥喹吖因按以下条件进行组合:
盐酸埃罗替尼和氮芥喹吖因的浓度范围分别是:15μM~120μM,15μM~120μM;
(2)吉非替尼和氮芥喹吖因按以下条件进行组合:
吉非替尼和氮芥喹吖因的浓度范围分别是:15μM~120μM,15μM~120μM。
各药物组合物的优选浓度范围如下:
(1)当盐酸埃罗替尼和氮芥喹吖因的浓度范围分别为:15~45μM,50~90μM时,协同效果最强;
(2)当吉非替尼和氮芥喹吖因的浓度范围分别为:55~65μM,30~45μM时,协同效果最强。
与现有技术相比,本发明具有以下优点:
传统的药物组合筛选实验以一个一个的药物组合作为研究对象,设计实验,这其中需要耗费大量的人力物力和时间。通过计算机辅助方法,建立大规模的筛选模型可以大大加快相关实验工作,对药物组合研究具有重要意义。本发明基于药物靶点与表达谱信息预测协同抗癌症药物组合,以药物的作用靶蛋白以及药物干预前后的癌症细胞中基因的差异表达信息为基础。相比较以往的研究工作,本发明中的方法最大创新点是充分利用已知协同抗癌症药物组合,以药物的靶点和表达谱信息作为基础,通过统计学方法筛选描述性特征,建立预测模型以及过滤系统。本发明综合运用药物组合的各种特征,设计巧妙,预测准确,并具有重要的实际应用价值,适用于大规模推广应用。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,本发明具体过程如下:
1.数据收集:根据药物组合的疾病治疗效果不同,分类得到已知协同抗癌症药物组合以及相应的靶点。全面收集现有特征以及设计新特征,筛选能够显著区分已知协同抗癌症药物组合的描述性特征。收集药物,两两配对构成未知药物组合数据集,并收集相应的靶点。
具体:
(1)从公共数据库、文献或者通过自己的实验中收集药物组合数据,根据每组药物组合对疾病的治疗效果不同,仅选择对癌症有协同作用效果的药物组合。然后,获得药物的靶点信息(可从数据库文献,或者自己实验获得)。
(2)从现有知识积累中全面收集并设计系列特征参数,通过统计检验,筛选能显著区分已知协同抗癌症药物组合的描述性特征。对每一个特征分别进行统计检验,验证这个特征值是否在正样本与随机抽取的样本中有显著的差异。保留具有显著差异的特征。接下来,将每一组已知协同抗癌症药物组合以及未知药物组合,用上述挑选出来的显著特征来表示。之后,我们选择合适的计算方法,将计算得到的药物组合的特征值作为输入,建立预测模型。
挑选出来的特征:
首先,可利用公共数据库或者文献资料提取癌症通路中的基因作为癌症相关基因,对这些基因做功能富集分析,提取到癌症相关基因显著富集到的生物功能条目,作为与癌症相关的生物功能。将这些生物功能条目的顺序固定。然后,分别对每个药物的靶点群做同样的富集分析,提取出显著富集到的条目。将每个药物的靶点群显著富集到的条目与癌症相关的条目作对照,并由此对每个药物构建出一个向量。如果这个药物的靶点群显著富集到了第i个与癌症相关的条目,则在该药物的向量中对应第i个元素标为1,反之则标记为0。将任意两个药物对应的向量代入公式I来计算两个药物x,y的靶点群所影响的生物功能的相似性,
其中,P(x)、P(y)分别是药物x、y的靶点群显著富集到的条目在癌症相关条目中所占的比例。P(x,y)是这两个药物的靶点群都显著富集到的条目在癌症相关条目中所占的比例。
特征二:药靶群距离(Dis:Drug Distance)。该特征通过计算两个药物的靶点群之间的平均最短距离,来衡量药物之间距离的远近。如果计算所得特征值越小表示这两个药物之间的距离越近。
首先,可从公共蛋白-蛋白相互作用数据库或者文献中整理蛋白-蛋白相互作用信息,并构建背景蛋白相互作用网络,将药物的靶点映射到背景网络上,通过公式II来计算两个药物之间的距离,
其中,dis(i,j)表示在构建的背景网络中药物x的第i个靶点到药物y的第j个靶点之间的最短距离,M和N分别是药物x和药物y的靶点数目。
特征三:组合药物对靶网络的干预性(DCI:Drug-combination Interference)。该特征衡量药物联合使用相对分别单独使用时对癌症网络信号传递效率的干扰程度。如果计算得到的特征值为正值,那么说明组合用药相比单独用药对癌症网络信号传递效率的扰动更大,并且值越大代表产生的干扰性差异越大。
首先,将癌症相关基因通过蛋白相互作用,将与这些基因有相互作用的基因提取出来,通过一步扩张构建成癌症网络;DCI值的计算是基于药物作用前后,癌症网络中信息传递效率的相对变化情况(ΔE)
DCI(x,y)=ΔEx+y-(ΔEx+ΔEy) (III)
举例来说,药物x作用前后,癌症网络中信息传递效率的相对变化情况(ΔEx)可计算为:
其中,E是癌症网络中的所有节点之间的最短距离的倒数值的算数平均值。Ex是去除药物x的所有靶点以及靶点的相互作用关系后,癌症网络中剩余的所有节点的最短距离的倒数值的算数平均值。Ey则是药物y作用前后的癌症网络信息传递效率的变化值,Ex+y则是联用药物(x与y)作用前后的癌症网络信息传递效率的变化值。
特征四、五、六:组合药物效能(Eff.D,Eff.B,Eff.E:Drug Efficacy)。对于一个好的药物组合,我们期望它能达到最大化的治疗作用,同时最小化其它的附加效应(比如毒副作用等)。如果计算所得的特征值越大,则暗示药物组合的治疗效用更佳。
首先,利用已构建好的背景蛋白相互作用网络和癌症网络,可以对网络中的每个点赋予两个属性:第一个属性是位置,结点位于癌症网络中,或是在背景蛋白相互作用网络中而不在癌症网络中;第二个属性是药物靶结点在网络中的重要性(用网络参数来衡量)。我们假定只有处于癌症网络中的药物作用靶点才与药物的抗癌作用有关,而不处于其中的靶点则可能与它的治疗作用相关不高,甚至可能与副作用的产生有关。而网络参数则可以衡量每个药物靶点在网络中的重要性。我们引入公式V来平衡这两类靶点对药物组合治疗效果的影响,综合体现药物组合的治疗效用,
其中,CN表示位于癌症网络中的药物靶点,BD表示癌症网络中的所有结点,NCN表示处于背景蛋白相互作用网络而不位于癌症网络中的药物靶点,V表示背景蛋白相互作用网络中的所有结点,λ是可调节参数,取值区间为[0,1],Wi是结点的网络参数(比如,节点的度中心性,介数中心性,特征向量中心性等)。
特征七:药靶群调控的不相关通路(MP.U:Unrelated mapped pathways)。该特征通过对两条通路之间的不同关系进行分类,查看两个药物的靶点群调控的作用通路之间的关系。
首先,对癌症相关基因做生物通路富集分析,作为与癌症相关的生物通路。对于药物x,利用它的靶点信息,可以将这个药物作用到的癌症相关的生物通路找出来。对任意两个药物,可以得到两套生物通路的集合。对任意两条通路之间的关系可以分为4类:
1.同一条癌症相关通路(Identical pathways);
2.有交集的癌症相关通路(Cross-talking pathways):不满足1,但是这两条通路至少有一个共同点;
3.相互作用的癌症相关通路(Interacting pathways):不满足1和2,但是其中一条通路中至少有一个点能与另一条通路中的至少一个点存在蛋白-蛋白相互作用关系;
4.不相关/平行的癌症相关通路(Unrelated pathways):不满足前3点的两条通路。
对于药物x与y,这四种类型的通路关系所占的比例都可以计算得到。经统计检验发现,已知协同抗癌症药物组合中的两个药物更倾向于靶向与癌症相关的通路中的不相关/平行通路(unrelated pathways)。
(3)通过公共数据库以及文献来收集药物以及相应的靶点数据。将这些药物两两配对,去除正样本数据,构成未知药物组合数据集。
2.模型建立:对于已知协同抗癌症药物组合以及未知药物组合,计算上述特征,建立协同抗癌症药物组合预测模型;
计算模型:选用计算方法为机器学习方法中的半监督学习(semi-supervisedlearning approach)模型建立预测模型,这种学习方法适用于只知道正样本与未知样本,而无法获取负样本的数据集;将收集的正样本作为训练集合,未知样本作为测试集合;将每个组合计算所得的特征值作为方法的输入,根据与训练集中药物组合的关联,测试集合中药物组合将被排序,排在前面的组合认为是潜在的协同抗癌症药物组合。
方法如下:给定数据集前q个正样本构成query集合,剩余的样本作为测试数据将被排序。在本模型中,每个研究样本是一个联用药物对。利用欧式距离计算得到每两组药对xi,xj之间的距离d(xi,xj),计算任意两组药对之间的距离,最终得到距离矩阵d:X×X→R。期望学得函数f:X→R可以准确地对每个药对预测出产生协同作用的可能性/分值fi。最终,对所有药对进行预测后,得到向量f=[f1,…,fn]T。y:X→R为指示函数,其中,如果xi是query集合中的药对,那么对应的yi=1,反之,yi=0。可以得到向量y=[y1,…,yn]T。然后,测试数据将被按照其与query集合中的药对的相似性进行排序,方法具体如下:
1.计算每两组药对xi,xj之间的欧式距离d(xi,xj),将距离的倒数值作为这两组药对之间的相似性Wij=1/d(xi,xj),最终得到相似性矩阵W。
2.将相似性矩阵W进行对称正规化S=D-1/2WD-1/2,其中是D对角矩阵,矩阵中的第(i,i)个元素等于相似矩阵W中第i行元素的加和值。
3.迭代f(t+1)=αSf(t)+(1-α)y直到收敛,其中α处于区间[0,1)。在本工作中,α设定为0.9。
4.测试集中的每个药对xi都将得到一个分值fi*,按照这个分值对所有药对进行排序,分值大的药对产生协同作用的可能性更大,排序靠前。
3.过滤系统:利用药物表达谱信息,探索归纳已知协同抗癌症药物组合的特征,对上一步预测结果进行筛除。
(1)可从数据库、文献、或者实验中,收集药物的表达谱数据,分析药物的差异表达基因,通过统计检验,探索能显著区别已知协同抗癌症药物组合的描述性特征。
(2)整理特征,建立过滤系统,对预测模型的输出结果进行过滤,删除不满足条件的药物组合。
构成过滤系统的两个特征如下:
差异基因的重合度(DEG_Overlap):
其中A,B分别表示药物x与药物y的差异表达基因;
对特定癌症网络的覆盖度(Pathway_Coverage):
其中A,B分别表示药物x与药物y的差异表达基因,N代表待检测癌症的网络(比如乳腺癌网络)中的基因个数。
具体的实施例:
为了测试我们的模型的预测能力,我们在癌症细胞系上进行了协同抗癌症药物组合的预测。因为考虑到乳腺癌MCF7细胞系上的表达谱数据较多,故我们选择了乳腺癌细胞系MCF7来做预测。我们收集了118个药物(具有靶点信息),这些单药在人类乳腺癌MCF7细胞系上的基因表达谱数据来自CMAP,GEO以及ArrayExpress数据库(并不是每个药物都收集到了表达谱数据,表达谱数据缺失的药物就没有用过滤系统进行过滤)。将这118个药物两两配对构成测试药对。利用我们的模型进行预测,我们选取预测结果中排序在前1%的41个药物组合作为潜在的协同抗癌症药物组合(表1)。经过第二步的参数过滤之后,剩余33个药物组合作为候选药物组合(表1),并且将进一步进行MCF7细胞系上的实验验证,其中表1为预测的在人类乳腺癌细胞系MCF7上可能产生协同作用的药物组合。
表1
首先,我们通过阅读文献资料,查询这33个药物组合是否已经在前人的工作中验证出具有协同作用效果。结果发现,其中的5个药物组合已经被报道具有协同抗癌症的作用效果。这5个药物组合包括curcumin与resveratrol的组合(结肠直肠癌),trastuzumab与erlotinib的组合(乳腺癌),topotecan与vorinostat的组合(小细胞肺癌),estramustine与docetaxel的组合(乳腺癌),以及bleomycin与etoposide的组合(子宫内膜癌)。
对剩余的药物组合,我们将通过MCF7细胞系上的实验来验证这些药物组合是否真的能够产生协同作用效果。其中有些药物组合中涉及到抗体药物或者无法购买到,而没有进行下一步的细胞系实验验证。最终,17对药物组合在人类乳腺癌细胞系MCF7上进行了验证实验。
对每一组药物组合,设计了4组浓度配比,两个药物的浓度比分别为4:1,3:2,2:3,以及1:4。我们采用由Chou and Talalay提出的得到广泛应用的combination index(CI)来判定药物间的作用效果关系。在本项工作中,我们设定了更为严格的判定规则,只有当这组药对在四种浓度配比情况下都产生协同作用效果(CI<0.9),才认为这个药物组合能够产生协同作用。经过实验,发现验证的17组药物组合中的9组能够产生协同作用,占到52.94%。在这9组验证为协同的药物组合中,出现频率最高的药物为吉非替尼/易瑞沙(Gefitinib)。这个药物已被FDA批准用于非小细胞肺癌的治疗。此外,出现频率第二高的药物为他莫昔芬(tamoxifen),这个药物是最常用于乳腺癌治疗的药物。此外,值得注意的是,这9组协同药对中的4组(44.44%),检测到它们产生了强协同作用效果(CI<0.3)。算上文献中已经报道的那5组协同药对,最终预测为最有可能产生协同作用的药物组合中有63.64%(14/22)经过验证确实能够产生协同作用效果,其中有57.89%(11/19)是在乳腺癌MCF7细胞系上验证出来的。我们还发现,总的来说,不管是来自文献还是细胞实验的证据表明,能够产生协同作用的药物组合在我们的预测的排序结果中排在前5‰。更加有意思的是,实验中发现能够产生强协同作用效果的这些药物组合排序在预测结果的前2‰。这表明我们的预测模型可以将药物组合按照它们对应产生的协同作用效果的强弱来进行排序。另外,我们在肺癌上面测试了有11个药物组成的55个药对。对其中排序最靠前的6对药对进行了肺癌A549细胞系上的实验验证。其中,有两对药对验证为协同。
具体实验方法:
加药:每一对药物实验将设置空白对照组、单药处理组以及不同药物配比的联用组。为了计算每组药物的半抑制率(IC50),实验组每个药物配比(包括单药组以及联用组)都将稀释3个浓度梯度以上,每个配比浓度将设3个孔作为平行孔。每组实验将进行至少3次重复实验。
MTT法检测细胞毒性:在加药用含MTT的培养液替换所有孔内的细胞培养液,静置培养4个小时再加入溶解液溶解约4个小时,在570纳米处测试每孔的吸光度。
药物相互作用的评价:假定药物A和药物B在单用时对细胞的半抑制率分别为A’和B’,药物A和药物B联用时的半抑制率分别为a和b,计算CI指数:
当CI<0.9时,认为这两个药物协同;当0.9<CI<1.1时,认为这两个药物加和;当CI>1.1时,认为这两个药物拮抗。
根据上述方法得到抗乳腺癌药物组合物,包括以下几种药物组合物:
(1)吉非替尼依维莫司
(2)吉非替尼沙利多胺Thalidomide
(3)吉非替尼他莫昔芬
(4)盐酸埃罗替尼他莫昔芬
(5)索拉非尼Sorafenib他莫昔芬
(6)吉非替尼Toremifene枸橼酸托瑞米芬
(7)Erlotinib厄洛替尼,索拉非尼
(8)索拉非尼Dasatinib达沙替尼
(9)吉非替尼PD98059
其中:(1)吉非替尼和依维莫司组合:
吉非替尼和依维莫司的浓度范围分别是:6μM~50μM,2μM~25μM
尤其是当吉非替尼和依维莫司的浓度范围分别为:7.5~9.0μM,15~20μM时,协同效果最强;
(2)吉非替尼和沙利多胺组合:
吉非替尼和沙利多胺的浓度范围分别是:6μM~50μM,50μM~320μM
尤其是当吉非替尼和沙利多胺的浓度范围分别为:15~18μM,170~190μM时,协同效果最强;
(3)吉非替尼和他莫昔芬组合
吉非替尼和他莫昔芬的浓度范围分别是:6μM~50μM,150μM~1200μM
尤其是当吉非替尼和他莫昔芬的浓度范围分别为:15~27μM,360~420μM时,协同效果最强;
(4)盐酸埃罗替尼和他莫昔芬组合
盐酸埃罗替尼和他莫昔芬的浓度范围分别是:42μM~240μM,150μM~1200μM
尤其是当盐酸埃罗替尼和他莫昔芬的浓度范围分别为:120~135μM,360~450μM时,协同效果最强;
(5)索拉非尼和他莫昔芬组合
索拉非尼和他莫昔芬的浓度范围分别是:5μM~40μM,150μM~1200μM
尤其是当索拉非尼和他莫昔芬的浓度范围分别为:5~8μM,720~920μM时,协同效果最强;
(6)吉非替尼和枸橼酸托瑞米芬组合
吉非替尼和他莫昔芬的浓度范围分别是:6μM~50μM,30μM~240μM
尤其是当吉非替尼和他莫昔芬的浓度范围分别为:24~27μM,75~100μM时,协同效果最强;
(6)厄洛替尼和索拉非尼组合
厄洛替尼和索拉非尼的浓度范围分别是:30μM~240μM,5μM~40μM
尤其是当厄洛替尼和索拉非尼的浓度范围分别为:36~100μM,16~27μM时,协同效果最强;
(7)索拉非尼和达沙替尼组合
索拉非尼和达沙替尼的浓度范围分别是:5μM~40μM,150μM~1000μM
尤其是当索拉非尼和达沙替尼的浓度范围分别为:16~20μM,320~350μM时,协同效果最强;
(8)索拉非尼和达沙替尼组合:
索拉非尼和达沙替尼的浓度范围分别是:5μM~40μM,150μM~1000μM
尤其是当索拉非尼和达沙替尼的浓度范围分别为:16~20μM,320~350μM时,协同效果最强;
(9)吉非替尼和PD98059组合
吉非替尼和PD98059的浓度范围分别是:6μM~50μM,30μM~250μM,
尤其是当吉非替尼和PD98059的浓度范围分别为:32~35μM,40~52μM时,协同效果最强;
表2 为预测的在人类乳腺癌细胞系MCF7上产生协同作用的药物组合及其结果:
结果表明,上述药物组合在治疗乳腺癌上有优异的协同效果。
每组药物组合(药物1,药物2)有4种配对,4:1,3:2,2:3,4:1,当四种情况下都产生协同,才认为这个药物组合协同。相应的,在四种情况下,药物1的浓度为4/5,3/5,2/5,1/5倍的A药初始浓度,而药物2则对应为1/5,2/5,3/5,4/5倍的B药初始浓度。
还得到了抗肺癌药物组合物,包括以下几种药物组合物:
(1)盐酸埃罗替尼、氮芥喹吖因
(2)吉非替尼和氮芥喹吖因。
其中:(1)盐酸埃罗替尼和氮芥喹吖因组合;
盐酸埃罗替尼和氮芥喹吖因的浓度范围分别是:15μM~120μM,15μM~120μM;
尤其是当盐酸埃罗替尼和氮芥喹吖因的浓度范围分别为:15~45μM,50~90μM时,协同效果最强;
(2)吉非替尼和氮芥喹吖因组合:
吉非替尼和氮芥喹吖因的浓度范围分别是:15μM~120μM,15μM~120μM;
尤其是当吉非替尼和氮芥喹吖因的浓度范围分别为:55~65μM,30~45μM时,协同效果最强。
结果表明,上述药物组合在治疗肺癌上有优异的协同效果。
上述各药物为:依维莫司Everolimus,索拉非尼Sorafenib,沙利多胺Thalidomide,吉非替尼Toremifene,厄洛替尼Erlotinib,达沙替尼Dasatinib,氮芥喹吖因Quinacrine
gefitinib:吉非替尼/商标易瑞沙(被阿斯利康和梯瓦公司销售)是一种药物用于某些乳腺癌、肺癌和其他癌症。
erlotinib:盐酸埃罗替尼(贸易名字特罗凯)是一种药物用于治疗非小细胞肺癌(nsclc)、胰腺癌和其他癌症的类型。
tomoxifen:他莫昔芬也叫枸橼酸他莫昔芬,英文商品名为Nolvadex。
Claims (7)
1.一种协同抗癌症药物组合预测方法,其特征在于,包括以下步骤:
1)数据收集:构建待筛选的未知药物组合,以及每个药物相应的靶点数据集;
2)模型建立:对于已知协同抗癌症药物组合以及未知药物组合,筛选差异特征,建立协同抗癌症药物组合预测模型;
3)结果过滤:利用药物表达谱的特征,对步骤2)的预测结果进行筛除;
所述的步骤1)为:
设计系列特征,筛选能够显著区分协同抗癌症药物组合的描述性特征;整理待预测协同抗癌的药物,收集药物作用靶点;将待预测药物随机组合成未知药物组合数据集;
所述的步骤1)具体为:
(1)收集已知的抗癌药物组合,提取每个药物的靶点信息;
(2)收集设计系列特征,通过统计检验,筛选能显著区分协同抗癌症药物组合的描述性特征;
所述的统计检验具体为:
首先由已知的协同抗癌症药物组合构成正样本,假设有N组,计算这N组的特征值,计算平均值;
由正样本中的药物随机组合,并去除已知协同抗癌症药物组合,构成背景样本,假设有M组,每次从M组中随机抽取N组,计算特征值的平均值,重复多次,得到多个平均值;
利用统计检验,验证这个特征值是否在正样本与随机抽取的样本中有显著的差异,保留具有显著差异的特征;
所述的显著差异的特征包括:
药物互信息,用于衡量两个药物的靶点群所调控的生物过程的相似性,如果计算得到的特征值越大,表示这两个药物的靶点群所调控的生物过程更为相近;
药靶群距离,通过计算两个药物的靶点群之间的平均最短距离,来衡量药物之间距离的远近,如果计算所得特征值越小表示这两个药靶群之间的距离越近;
组合药物对靶网络的干预性,用于衡量药物联合使用相对分别单独使用时对癌症网络信号传递效率的干扰程度,如果计算得到的特征值为正值,那么说明组合用药相比单独用药对癌症网络信号传递效率的扰动更大;
组合药物效能,结合了药物靶点在癌症网络内外的分布以及网络参数,来衡量药物组合的效能,如果计算所得的特征值越大,则暗示药物组合的效能更佳;
药靶群调控的通路群关系,通过对药物各自靶向通路之间的不同关系进行分类,进一步分为:同一条通路,即两条通路完全一样;
重叠通路,即两条通路不完全一样,但至少有一个点相同;
相互作用通路,即两条通路没有共同点,但是至少存在两个点之间有蛋白相互作用关系;
不相关通路,即不满足前面三种情况的通路;
所述显著的检验:第一步,首先对每一组正样本,设定药物x和y有差异表达基因分别为m与n个,计算特征值;以表达谱中所有基因作为背景集合,每次随机抽取m与n个基因,同样计算这个特征值;重复这个过程多次,得到多个值;统计这些值中大于真实特征值的次数,由此计算真实特征值出现的概率;仅当概率值小于0.05,才认定这个特征值在这个正样本与随机样本中是有显著区别的;
第二步,对这种显著性是否在正样本有富集性进行检验,由正样本中的药物随机组合,构成背景样本,计算正样本K组中特征值有显著性的组数,背景样本中特征值有显著性的组数,将这4个值代入超几何分布,计算概率值,仅当概率值小于0.05,才判定这个特征值在正样本中的显著性是有富集性的;
构成过滤系统的两个特征如下:
差异基因的重合度DEG_Overlap:
<mrow>
<mi>D</mi>
<mi>E</mi>
<mi>G</mi>
<mo>_</mo>
<mi>O</mi>
<mi>v</mi>
<mi>e</mi>
<mi>r</mi>
<mi>l</mi>
<mi>a</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mi>A</mi>
<mo>&cap;</mo>
<mi>B</mi>
<mo>|</mo>
<mo>)</mo>
</mrow>
<mo>/</mo>
<msqrt>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mi>A</mi>
<mo>|</mo>
<mo>&times;</mo>
<mo>|</mo>
<mi>B</mi>
<mo>|</mo>
<mo>)</mo>
</mrow>
</msqrt>
</mrow>
其中A,B分别表示药物x与药物y的差异表达基因;
对特定癌症网络的覆盖度Pathway_Coverage:
<mrow>
<mi>P</mi>
<mi>a</mi>
<mi>t</mi>
<mi>h</mi>
<mi>w</mi>
<mi>a</mi>
<mi>y</mi>
<mo>_</mo>
<mi>C</mi>
<mi>o</mi>
<mi>v</mi>
<mi>e</mi>
<mi>r</mi>
<mi>a</mi>
<mi>g</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>&cup;</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>&cap;</mo>
<mi>n</mi>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>n</mi>
<mo>|</mo>
</mrow>
</mfrac>
</mrow>
其中A,B分别表示药物x与药物y的差异表达基因,n代表待检测癌症的网络中的基因个数。
2.根据权利要求1所述的一种协同抗癌症药物组合预测方法,其特征在于,所述的预测模型采用机器学习方法中的半监督学习建立,将收集的正样本作为训练集,未知样本作为测试集;将每个组合计算所得的系列特征值作为模型的输入,根据与训练集中药物组合的关联,测试集中药物组合将被排序,排在越前面的组合越有可能是潜在的协同抗癌症药物组合。
3.根据权利要求1所述的一种协同抗癌症药物组合预测方法,其特征在于,所述的步骤3)具体为:
(1)构建表达谱数据特征:分析药物的差异表达基因,通过统计检验,提取能显著区别协同抗癌症药物组合和未知组合效果组合药物的描述性特征;
(2)整理特征,建立过滤系统,对预测模型的输出结果进行过滤,删除不满足条件的药物组合。
4.一种基于权利要求1所述的方法得到的抗乳腺癌药物组合物,其特征在于,包括以下几种药物组合物:
(1)吉非替尼和依维莫司按以下条件进行组合:
吉非替尼和依维莫司的浓度范围分别是:6μM~50μM,2μM~25μM;
(2)吉非替尼和沙利多胺按以下条件进行组合:
吉非替尼和沙利多胺的浓度范围分别是:6μM~50μM,50μM~320μM;
(3)吉非替尼和他莫昔芬按以下条件进行组合:
吉非替尼和他莫昔芬的浓度范围分别是:6μM~50μM,150μM~1200μM;
(4)盐酸埃罗替尼和他莫昔芬按以下条件进行组合:
盐酸埃罗替尼和他莫昔芬的浓度范围分别是:42μM~240μM,150μM~1200μM;
(5)索拉非尼和他莫昔芬按以下条件进行组合:
索拉非尼和他莫昔芬的浓度范围分别是:5μM~40μM,150μM~1200μM;
(6)吉非替尼和枸橼酸托瑞米芬按以下条件进行组合:
吉非替尼和他莫昔芬的浓度范围分别是:6μM~50μM,30μM~240μM;
(7)厄洛替尼和索拉非尼按以下条件进行组合:
厄洛替尼和索拉非尼的浓度范围分别是:30μM~240μM,5μM~40μM;
(8)索拉非尼和达沙替尼按以下条件进行组合:
索拉非尼和达沙替尼的浓度范围分别是:5μM~40μM,150μM~1000μM;
(9)吉非替尼和PD98059按以下条件进行组合:
吉非替尼和PD98059的浓度范围分别是:6μM~50μM,30μM~250μM。
5.根据权利要求4所述的抗乳腺癌药物组合物,其特征在于,各药物组合物的优选浓度范围如下:
(1)当吉非替尼和依维莫司的浓度范围分别为:7.5~9.0μM,15~20μM时,协同效果最强;
(2)当吉非替尼和沙利多胺的浓度范围分别为:15~18μM,170~190μM时,协同效果最强;
(3)当吉非替尼和他莫昔芬的浓度范围分别为:15~27μM,360~420μM时,协同效果最强;
(4)当盐酸埃罗替尼和他莫昔芬的浓度范围分别为:120~135μM,360~450μM时,协同效果最强;
(5)当索拉非尼和他莫昔芬的浓度范围分别为:5~8μM,720~920μM时,协同效果最强;
(6)当吉非替尼和他莫昔芬的浓度范围分别为:24~27μM,75~100μM时,协同效果最强;
(7)当厄洛替尼和索拉非尼的浓度范围分别为:36~100μM,16~27μM时,协同效果最强;
(8)当索拉非尼和达沙替尼的浓度范围分别为:16~20μM,320~350μM时,协同效果最强;
(9)当吉非替尼和PD98059的浓度范围分别为:32~35μM,40~52μM时,协同效果最强。
6.一种基于权利要求1所述的方法得到的抗肺癌药物组合物,其特征在于,包括以下几种药物组合物:
(1)盐酸埃罗替尼和氮芥喹吖因按以下条件进行组合:
盐酸埃罗替尼和氮芥喹吖因的浓度范围分别是:15μM~120μM,15μM~120μM;
(2)吉非替尼和氮芥喹吖因按以下条件进行组合:
吉非替尼和氮芥喹吖因的浓度范围分别是:15μM~120μM,15μM~120μM。
7.根据权利要求6所述的抗肺癌药物组合物,其特征在于,各药物组合物的优选浓度范围如下:
(1)当盐酸埃罗替尼和氮芥喹吖因的浓度范围分别为:15~45μM,50~90μM时,协同效果最强;
(2)当吉非替尼和氮芥喹吖因的浓度范围分别为:55~65μM,30~45μM时,协同效果最强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510464329.8A CN105138862B (zh) | 2015-07-31 | 2015-07-31 | 一种协同抗癌症药物组合预测方法及药物组合物 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510464329.8A CN105138862B (zh) | 2015-07-31 | 2015-07-31 | 一种协同抗癌症药物组合预测方法及药物组合物 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105138862A CN105138862A (zh) | 2015-12-09 |
CN105138862B true CN105138862B (zh) | 2017-12-26 |
Family
ID=54724207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510464329.8A Active CN105138862B (zh) | 2015-07-31 | 2015-07-31 | 一种协同抗癌症药物组合预测方法及药物组合物 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105138862B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI622012B (zh) * | 2016-11-18 | 2018-04-21 | 財團法人資訊工業策進會 | 藥物組合預測系統及藥物組合預測方法 |
CN106709272B (zh) * | 2016-12-26 | 2019-07-02 | 西安石油大学 | 基于决策模板预测药物靶蛋白相互作用关系的方法和系统 |
CN107609326A (zh) * | 2017-07-26 | 2018-01-19 | 同济大学 | 癌症精准医疗中的药物敏感性预测方法 |
CN107475346B (zh) * | 2017-08-11 | 2021-08-06 | 北京汉典制药有限公司 | 一种体外筛选糖尿病肾病药物的方法 |
CN107832587B (zh) * | 2017-11-20 | 2019-02-15 | 西南大学 | 基于代理的多尺度药物协同预测方法 |
CN109411019B (zh) * | 2018-12-12 | 2020-05-05 | 中国人民解放军军事科学院军事医学研究院 | 一种药物预测方法、装置、服务器及存储介质 |
CN109711469B (zh) * | 2018-12-27 | 2023-06-20 | 苏州大学 | 一种基于半监督邻域判别指数的乳腺癌诊断系统 |
US11721441B2 (en) * | 2019-01-15 | 2023-08-08 | Merative Us L.P. | Determining drug effectiveness ranking for a patient using machine learning |
CN109935341B (zh) * | 2019-04-09 | 2021-04-13 | 北京深度制耀科技有限公司 | 一种药物新适应症的预测方法及装置 |
CA3190278A1 (en) * | 2020-07-30 | 2022-02-03 | Delta 4 Gmbh | Antiviral use of liraglutide and gefitinib |
CN112652358A (zh) * | 2020-12-29 | 2021-04-13 | 中国石油大学(华东) | 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质 |
CN112820417B (zh) * | 2021-01-26 | 2022-12-23 | 四川大学 | 一种基于转录组学的前列腺癌药物组合预测的方法 |
CN112927766B (zh) * | 2021-03-29 | 2022-11-01 | 天士力国际基因网络药物创新中心有限公司 | 一种疾病组合药物筛选的方法 |
CN115011694A (zh) * | 2022-06-08 | 2022-09-06 | 中国科学院苏州生物医学工程技术研究所 | 用于鉴定样本中失调基因的方法、试剂盒 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120283956A1 (en) * | 2011-03-02 | 2012-11-08 | Ramot At Tel-Aviv University Ltd. | Method and system for predicting selective cancer drug targets |
CN103065066A (zh) * | 2013-01-22 | 2013-04-24 | 四川大学 | 基于药物组合网络的药物联合作用预测方法 |
-
2015
- 2015-07-31 CN CN201510464329.8A patent/CN105138862B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120283956A1 (en) * | 2011-03-02 | 2012-11-08 | Ramot At Tel-Aviv University Ltd. | Method and system for predicting selective cancer drug targets |
CN103065066A (zh) * | 2013-01-22 | 2013-04-24 | 四川大学 | 基于药物组合网络的药物联合作用预测方法 |
Non-Patent Citations (3)
Title |
---|
Prediction of Drug Combinations by Integrating Molecular and Pharmacological Data;XingMing Zhao et al;《Plos Computational Biology》;20111229;第7卷(第12期);1-7 * |
药物-靶标相互作用及药物对组合研究;赵明珠;《万方学位论文库》;20150401;第3.3.2节,第4-1-4.4节 * |
药物-靶标相互作用网络预测方法研究;余蔚明;《中国优秀硕士学位论文全文数据库(电子期刊)医药卫生科技辑》;20121215;第2012年卷(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN105138862A (zh) | 2015-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105138862B (zh) | 一种协同抗癌症药物组合预测方法及药物组合物 | |
Huang et al. | Shrink: a structural clustering algorithm for detecting hierarchical communities in networks | |
Han et al. | Developing and validating predictive decision tree models from mining chemical structural fingerprints and high–throughput screening data in PubChem | |
Sun et al. | gskeletonclu: Density-based network clustering via structure-connected tree division or agglomeration | |
CN105956413B (zh) | 识别生物分子网络中关键模块或关键节点的方法 | |
Zhang et al. | Detecting overlapping protein complexes based on a generative model with functional and topological properties | |
Ball et al. | Can network analysis improve pattern recognition among adverse events following immunization reported to VAERS? | |
Wen et al. | Node similarity measuring in complex networks with relative entropy | |
Odibat et al. | Ranking differential hubs in gene co-expression networks | |
Zhang et al. | A combinatorial model and algorithm for globally searching community structure in complex networks | |
CN103678954A (zh) | 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法 | |
Zhang et al. | A graph attention network-based link prediction method using link value estimation | |
Xia et al. | TransCDR: a deep learning model for enhancing the generalizability of drug activity prediction through transfer learning and multimodal data fusion | |
Paik et al. | Integrating clinical phenotype and gene expression data to prioritize novel drug uses | |
Li et al. | Dual-view jointly learning improves personalized drug synergy prediction | |
Hu et al. | An algorithm J-SC of detecting communities in complex networks | |
Xu et al. | Graph-based algorithm for exploring collaboration mechanisms and hidden patterns among top scholars | |
Xu et al. | DDI-GPT: Explainable Prediction of Drug-Drug Interactions using Large Language Models enhanced with Knowledge Graphs | |
CN109637595A (zh) | 一种药物重定位方法、装置、电子设备及存储介质 | |
Xie et al. | Interpretable Drug Response Prediction through Molecule Structure-aware and Knowledge-Guided Visible Neural Network | |
Wang et al. | A new risk assessment model of venous thromboembolism by considering fuzzy population | |
Park et al. | Lower Ricci Curvature for Efficient Community Detection | |
CN107220526A (zh) | 一种基于padog识别基因通路的方法 | |
Palla et al. | k-clique Percolation and Clustering | |
da Cruz Pinto | Communities’ Susceptibility to Collusion in the Portuguese Procurement System: An Analysis of Communities Generated in a Co-Bidding Firm-to-Firm Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |