CN113555070B - 机器学习算法构建急性髓系白血病药敏相关基因分类器 - Google Patents
机器学习算法构建急性髓系白血病药敏相关基因分类器 Download PDFInfo
- Publication number
- CN113555070B CN113555070B CN202110605148.8A CN202110605148A CN113555070B CN 113555070 B CN113555070 B CN 113555070B CN 202110605148 A CN202110605148 A CN 202110605148A CN 113555070 B CN113555070 B CN 113555070B
- Authority
- CN
- China
- Prior art keywords
- algorithm
- gene
- model
- data
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 174
- 239000003814 drug Substances 0.000 title claims abstract description 112
- 229940079593 drug Drugs 0.000 title claims abstract description 103
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 101
- 230000035945 sensitivity Effects 0.000 title claims abstract description 46
- 208000031261 Acute myeloid leukaemia Diseases 0.000 title claims abstract description 28
- 208000033776 Myeloid Acute Leukemia Diseases 0.000 title claims abstract description 27
- 238000010801 machine learning Methods 0.000 title claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 67
- 238000007477 logistic regression Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000011987 methylation Effects 0.000 claims abstract description 20
- 238000007069 methylation reaction Methods 0.000 claims abstract description 20
- 238000002790 cross-validation Methods 0.000 claims abstract description 15
- 238000003064 k means clustering Methods 0.000 claims abstract description 13
- 238000012706 support-vector machine Methods 0.000 claims description 55
- 239000000523 sample Substances 0.000 claims description 50
- 230000014509 gene expression Effects 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 41
- 238000012360 testing method Methods 0.000 claims description 37
- 238000004458 analytical method Methods 0.000 claims description 29
- 238000012795 verification Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 13
- 239000013610 patient sample Substances 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 229940044683 chemotherapy drug Drugs 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000004393 prognosis Methods 0.000 claims description 9
- 230000004083 survival effect Effects 0.000 claims description 9
- 230000005764 inhibitory process Effects 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- UHDGCWIWMRVCDJ-CCXZUQQUSA-N Cytarabine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@@H](O)[C@H](O)[C@@H](CO)O1 UHDGCWIWMRVCDJ-CCXZUQQUSA-N 0.000 claims description 6
- 238000003559 RNA-seq method Methods 0.000 claims description 6
- 229960000684 cytarabine Drugs 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000000338 in vitro Methods 0.000 claims description 5
- 238000000611 regression analysis Methods 0.000 claims description 5
- ZBNZXTGUTAYRHI-UHFFFAOYSA-N Dasatinib Chemical compound C=1C(N2CCN(CCO)CC2)=NC(C)=NC=1NC(S1)=NC=C1C(=O)NC1=C(C)C=CC=C1Cl ZBNZXTGUTAYRHI-UHFFFAOYSA-N 0.000 claims description 4
- 239000002067 L01XE06 - Dasatinib Substances 0.000 claims description 4
- DZBUGLKDJFMEHC-UHFFFAOYSA-N acridine Chemical compound C1=CC=CC2=CC3=CC=CC=C3N=C21 DZBUGLKDJFMEHC-UHFFFAOYSA-N 0.000 claims description 4
- -1 ambridine Chemical compound 0.000 claims description 4
- 229960002448 dasatinib Drugs 0.000 claims description 4
- HYFHYPWGAURHIV-UHFFFAOYSA-N homoharringtonine Natural products C1=C2CCN3CCCC43C=C(OC)C(OC(=O)C(O)(CCCC(C)(C)O)CC(=O)OC)C4C2=CC2=C1OCO2 HYFHYPWGAURHIV-UHFFFAOYSA-N 0.000 claims description 4
- 229960002230 omacetaxine mepesuccinate Drugs 0.000 claims description 4
- HYFHYPWGAURHIV-JFIAXGOJSA-N omacetaxine mepesuccinate Chemical compound C1=C2CCN3CCC[C@]43C=C(OC)[C@@H](OC(=O)[C@@](O)(CCCC(C)(C)O)CC(=O)OC)[C@H]4C2=CC2=C1OCO2 HYFHYPWGAURHIV-JFIAXGOJSA-N 0.000 claims description 4
- MLDQJTXFUGDVEO-UHFFFAOYSA-N BAY-43-9006 Chemical compound C1=NC(C(=O)NC)=CC(OC=2C=CC(NC(=O)NC=3C=C(C(Cl)=CC=3)C(F)(F)F)=CC=2)=C1 MLDQJTXFUGDVEO-UHFFFAOYSA-N 0.000 claims description 3
- PTOAARAWEBMLNO-KVQBGUIXSA-N Cladribine Chemical compound C1=NC=2C(N)=NC(Cl)=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 PTOAARAWEBMLNO-KVQBGUIXSA-N 0.000 claims description 3
- 239000005511 L01XE05 - Sorafenib Substances 0.000 claims description 3
- 229940045799 anthracyclines and related substance Drugs 0.000 claims description 3
- 229960002436 cladribine Drugs 0.000 claims description 3
- 229960005420 etoposide Drugs 0.000 claims description 3
- VJJPUSNTGOMMGY-MRVIYFEKSA-N etoposide Chemical compound COC1=C(O)C(OC)=CC([C@@H]2C3=CC=4OCOC=4C=C3[C@@H](O[C@H]3[C@@H]([C@@H](O)[C@@H]4O[C@H](C)OC[C@H]4O3)O)[C@@H]3[C@@H]2C(OC3)=O)=C1 VJJPUSNTGOMMGY-MRVIYFEKSA-N 0.000 claims description 3
- 229960000390 fludarabine Drugs 0.000 claims description 3
- GIUYCYHIANZCFB-FJFJXFQQSA-N fludarabine phosphate Chemical compound C1=NC=2C(N)=NC(F)=NC=2N1[C@@H]1O[C@H](COP(O)(O)=O)[C@@H](O)[C@@H]1O GIUYCYHIANZCFB-FJFJXFQQSA-N 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 229960003787 sorafenib Drugs 0.000 claims description 3
- HJTAZXHBEBIQQX-UHFFFAOYSA-N 1,5-bis(chloromethyl)naphthalene Chemical compound C1=CC=C2C(CCl)=CC=CC2=C1CCl HJTAZXHBEBIQQX-UHFFFAOYSA-N 0.000 claims description 2
- XAUDJQYHKZQPEU-KVQBGUIXSA-N 5-aza-2'-deoxycytidine Chemical compound O=C1N=C(N)N=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 XAUDJQYHKZQPEU-KVQBGUIXSA-N 0.000 claims description 2
- NMUSYJAQQFHJEW-KVTDHHQDSA-N 5-azacytidine Chemical compound O=C1N=C(N)N=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 NMUSYJAQQFHJEW-KVTDHHQDSA-N 0.000 claims description 2
- STQGQHZAVUOBTE-UHFFFAOYSA-N 7-Cyan-hept-2t-en-4,6-diinsaeure Natural products C1=2C(O)=C3C(=O)C=4C(OC)=CC=CC=4C(=O)C3=C(O)C=2CC(O)(C(C)=O)CC1OC1CC(N)C(O)C(C)O1 STQGQHZAVUOBTE-UHFFFAOYSA-N 0.000 claims description 2
- CMSMOCZEIVJLDB-UHFFFAOYSA-N Cyclophosphamide Chemical compound ClCCN(CCCl)P1(=O)NCCCO1 CMSMOCZEIVJLDB-UHFFFAOYSA-N 0.000 claims description 2
- 241000196324 Embryophyta Species 0.000 claims description 2
- 239000002137 L01XE24 - Ponatinib Substances 0.000 claims description 2
- 241001495452 Podophyllum Species 0.000 claims description 2
- 229930188522 aclacinomycin Natural products 0.000 claims description 2
- USZYSDMBJDPRIF-SVEJIMAYSA-N aclacinomycin A Chemical compound O([C@H]1[C@@H](O)C[C@@H](O[C@H]1C)O[C@H]1[C@H](C[C@@H](O[C@H]1C)O[C@H]1C[C@]([C@@H](C2=CC=3C(=O)C4=CC=CC(O)=C4C(=O)C=3C(O)=C21)C(=O)OC)(O)CC)N(C)C)[C@H]1CCC(=O)[C@H](C)O1 USZYSDMBJDPRIF-SVEJIMAYSA-N 0.000 claims description 2
- 229960004176 aclarubicin Drugs 0.000 claims description 2
- 229940100198 alkylating agent Drugs 0.000 claims description 2
- 239000002168 alkylating agent Substances 0.000 claims description 2
- 230000000340 anti-metabolite Effects 0.000 claims description 2
- 229940100197 antimetabolite Drugs 0.000 claims description 2
- 239000002256 antimetabolite Substances 0.000 claims description 2
- GOLCXWYRSKYTSP-UHFFFAOYSA-N arsenic trioxide Inorganic materials O1[As]2O[As]1O2 GOLCXWYRSKYTSP-UHFFFAOYSA-N 0.000 claims description 2
- 229960002756 azacitidine Drugs 0.000 claims description 2
- 229960004397 cyclophosphamide Drugs 0.000 claims description 2
- 229960000975 daunorubicin Drugs 0.000 claims description 2
- STQGQHZAVUOBTE-VGBVRHCVSA-N daunorubicin Chemical compound O([C@H]1C[C@@](O)(CC=2C(O)=C3C(=O)C=4C=CC=C(C=4C(=O)C3=C(O)C=21)OC)C(C)=O)[C@H]1C[C@H](N)[C@H](O)[C@H](C)O1 STQGQHZAVUOBTE-VGBVRHCVSA-N 0.000 claims description 2
- 229960003603 decitabine Drugs 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- SFNSLLSYNZWZQG-VQIMIIECSA-N glasdegib Chemical compound N([C@@H]1CCN([C@H](C1)C=1NC2=CC=CC=C2N=1)C)C(=O)NC1=CC=C(C#N)C=C1 SFNSLLSYNZWZQG-VQIMIIECSA-N 0.000 claims description 2
- 229950003566 glasdegib Drugs 0.000 claims description 2
- XZWYZXLIPXDOLR-UHFFFAOYSA-N metformin Chemical compound CN(C)C(=N)NC(N)=N XZWYZXLIPXDOLR-UHFFFAOYSA-N 0.000 claims description 2
- 229960003105 metformin Drugs 0.000 claims description 2
- 229960001156 mitoxantrone Drugs 0.000 claims description 2
- KKZJGLLVHKMTCM-UHFFFAOYSA-N mitoxantrone Chemical compound O=C1C2=C(O)C=CC(O)=C2C(=O)C2=C1C(NCCNCCO)=CC=C2NCCNCCO KKZJGLLVHKMTCM-UHFFFAOYSA-N 0.000 claims description 2
- YJGVMLPVUAXIQN-XVVDYKMHSA-N podophyllotoxin Chemical compound COC1=C(OC)C(OC)=CC([C@@H]2C3=CC=4OCOC=4C=C3[C@H](O)[C@@H]3[C@@H]2C(OC3)=O)=C1 YJGVMLPVUAXIQN-XVVDYKMHSA-N 0.000 claims description 2
- 229960001131 ponatinib Drugs 0.000 claims description 2
- PHXJVRSECIGDHY-UHFFFAOYSA-N ponatinib Chemical compound C1CN(C)CCN1CC(C(=C1)C(F)(F)F)=CC=C1NC(=O)C1=CC=C(C)C(C#CC=2N3N=CC=CC3=NC=2)=C1 PHXJVRSECIGDHY-UHFFFAOYSA-N 0.000 claims description 2
- 229940121358 tyrosine kinase inhibitor Drugs 0.000 claims description 2
- 229960001183 venetoclax Drugs 0.000 claims description 2
- LQBVNQSMGBZMKD-UHFFFAOYSA-N venetoclax Chemical compound C=1C=C(Cl)C=CC=1C=1CC(C)(C)CCC=1CN(CC1)CCN1C(C=C1OC=2C=C3C=CNC3=NC=2)=CC=C1C(=O)NS(=O)(=O)C(C=C1[N+]([O-])=O)=CC=C1NCC1CCOCC1 LQBVNQSMGBZMKD-UHFFFAOYSA-N 0.000 claims description 2
- 229930013930 alkaloid Natural products 0.000 claims 1
- 238000011254 conventional chemotherapy Methods 0.000 claims 1
- 239000012649 demethylating agent Substances 0.000 claims 1
- 238000013461 design Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 claims 1
- 230000000717 retained effect Effects 0.000 abstract description 7
- 206010059866 Drug resistance Diseases 0.000 description 10
- 208000032839 leukemia Diseases 0.000 description 10
- 238000011282 treatment Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000002512 chemotherapy Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000001353 Chip-sequencing Methods 0.000 description 3
- 239000002246 antineoplastic agent Substances 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- AOJJSUZBOXZQNB-TZSSRYMLSA-N Doxorubicin Chemical compound O([C@H]1C[C@@](O)(CC=2C(O)=C3C(=O)C=4C=CC=C(C=4C(=O)C3=C(O)C=21)OC)C(=O)CO)[C@H]1C[C@H](N)[C@H](O)[C@H](C)O1 AOJJSUZBOXZQNB-TZSSRYMLSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- NYNZQNWKBKUAII-KBXCAEBGSA-N (3s)-n-[5-[(2r)-2-(2,5-difluorophenyl)pyrrolidin-1-yl]pyrazolo[1,5-a]pyrimidin-3-yl]-3-hydroxypyrrolidine-1-carboxamide Chemical compound C1[C@@H](O)CCN1C(=O)NC1=C2N=C(N3[C@H](CCC3)C=3C(=CC=C(F)C=3)F)C=CN2N=C1 NYNZQNWKBKUAII-KBXCAEBGSA-N 0.000 description 1
- 208000002250 Hematologic Neoplasms Diseases 0.000 description 1
- XDXDZDZNSLXDNA-TZNDIEGXSA-N Idarubicin Chemical compound C1[C@H](N)[C@H](O)[C@H](C)O[C@H]1O[C@@H]1C2=C(O)C(C(=O)C3=CC=CC=C3C3=O)=C3C(O)=C2C[C@@](O)(C(C)=O)C1 XDXDZDZNSLXDNA-TZNDIEGXSA-N 0.000 description 1
- 239000002144 L01XE18 - Ruxolitinib Substances 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010034133 Pathogen resistance Diseases 0.000 description 1
- PYKYMHQGRFAEBM-UHFFFAOYSA-N anthraquinone Natural products CCC(=O)c1c(O)c2C(=O)C3C(C=CC=C3O)C(=O)c2cc1CC(=O)OC PYKYMHQGRFAEBM-UHFFFAOYSA-N 0.000 description 1
- 150000004056 anthraquinones Chemical class 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000000973 chemotherapeutic effect Effects 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001335 demethylating effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229960004679 doxorubicin Drugs 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000003255 drug test Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 229960000908 idarubicin Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011419 induction treatment Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000011221 initial treatment Methods 0.000 description 1
- 229950003970 larotrectinib Drugs 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004879 molecular function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- HFNKQEVNSGCOJV-OAHLLOKOSA-N ruxolitinib Chemical compound C1([C@@H](CC#N)N2N=CC(=C2)C=2C=3C=CNC=3N=CN=2)CCCC1 HFNKQEVNSGCOJV-OAHLLOKOSA-N 0.000 description 1
- 229960000215 ruxolitinib Drugs 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 230000004797 therapeutic response Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种机器学习算法构建急性髓系白血病药敏相关基因分类器,其特征在于包括样本聚类、基因筛选;所述样本聚类是利用K‑means聚类算法分别对24种药物的病人敏感度进行聚类;所述基因筛选是根据病人的聚类结果利用特征选择模型对24种药物的甲基化和转录组数据进行基因的筛选与验证。本申请采用逻辑回归、岭回归、RFECV‑SVM、RFECV‑RF算法实现对目的基因的最终筛选。逻辑回归与岭回归使用4折分层交叉验证进行参数优选,设定特征选择的阈值为特征权重的平均值,即特征权重大于平均值的特征将会被保留。而RFECV算法则使用不同的学习模型SVM、RF进行筛选。
Description
技术领域
本发明涉及白血病研究领域,尤其涉及机器学习算法构建急性髓系白血病药敏相关基因分类器。
背景技术
急性髓系白血病(AML)作为一组具有高度异质性的血液系统恶性疾病,约占白血病总发病人数的70%,20%~40%的患者难以取得完全缓解(CR),2疗程化疗不缓解即为难治性AML。AML基本化疗方案为蒽环/蒽醌类药物联合阿糖胞苷(Ara-C)组成的方案,国内一线治疗药物还包括高三尖杉酯碱(HHT);而难治复发AML缺乏公认、高效的再诱导治疗方案,这些患者再次CR的比例30-68%不等。随着分子靶向药物的临床应用部分患者的疗效有所改善,但只是解决了部分患者的问题
随着大数据时代的进展,人工智能机器学习算法可以辅助研究人员在分子层面深入分析和解读白血病相关的基因测序数据,进而实现对AML预后及耐药的关键分子功能的探索。本专利旨在对不同疾病状态下的AML进行转录组和甲基化组学测序,构建机器学习算法基因分类器模型,筛查并分析不同药物相关的关键基因。根据分类器寻找出药敏相关基因,可形成对病人临床药物治疗反应和预后较为精准的判断,制定更加个体化有效的化疗方案,提高患者的生存期。
目前解释AML患者耐药问题,主要认为是白血病细胞交叉耐药,即对多个化疗药物靶点产生耐药性。但采用的研究手段多为对单一基因的某几个药物分子表型分析,其主要问题在于缺乏对白血病耐药分子及其耐药通路整体性规律探索。
大数据时代下,生物信息数据库如GDSC等对于筛选药物敏感性基因则局限于利用细胞系基因表达谱数据与药物分子治疗反应关联的预测模型。其主要原理为运用pRRophetic算法,根据GDSC数据库细胞系基因表达谱和病人转录组表达谱构建岭回归模型预测药物IC50,IC50越高代表细胞系对于药物越不敏感,从而揭示基因表达谱和药敏的联系。
考虑白血病患者具有极强的异质性,且AML细胞系药物敏感性的评估仅参考白血病细胞系拟合IC50值,并未纳入实际临床治疗剂量下细胞的反应,故细胞系数据库预测方法对于白血病病人实际治疗反应的符合度较低。与此同时,目前细胞系数据库也缺乏从表观遗传到转录表达的耐药一致性规律的研究。基于以上问题,本申请选用基于白血病病人原代标本进行体外药物敏感性高通量测序,构建机器学习算法模型,用于填补实际白血病化疗患者临床治疗反应的空白。
发明内容
根据以上技术问题,本发明提供一种机器学习算法构建急性髓系白血病药敏相关基因分类器,其特征在于包括样本聚类、基因筛选;
所述样本聚类是利用K-means聚类算法分别对24种药物的病人敏感度进行聚类;所述基因筛选是根据病人的聚类结果利用特征选择模型对24种药物的甲基化和转录组数据进行基因的筛选与验证。
一种机器学习算法构建急性髓系白血病药敏相关基因分类器,其具体算法为:Step1:对药物进行聚类分析
K-means聚类算法是一种无监督的学习算法,它最早由MacQueen于1967年提出。聚类算法与有监督学习不同,不需要对数据进行事先分类,它可以对人们事先不了解的数据集进行分组,使得组内的差异尽可能地小,而组间的差异尽可能的大。K-means算法因其原理清晰、实现简单,在科学研究和工业应用等领域被广泛采用。
基于病人体外药物敏感性实验设计,分别计算出每种药物的GI50和100%PPC抑制率指标,利用K-means聚类算法实现对病人药物敏感度分组(K=2),从而将病人划分为2组,为后续利用监督学习算法筛选药敏基因提供带有分类标签的数据集。
K-Means算法具体步骤
(1)从处理好的样本中随机选择2个样本C1,C2作为初始的聚类中心。
(2)根据每个样本的数据,计算每个样本与2个聚类中心的距离,并将其划分到距离最小的聚类中心所对应的类中。
样本与聚类中心的距离度量为欧氏距离:
其中,x代表每个病人样本拟合的GI50数据,y代表着样本中的100%PPC抑制率数据。
(3)针对每个类别C1,C2,重新计算其聚类中心
(4)重复(2)(3)步骤,直到算法收敛。
完成聚类后,根据聚类中心的数值来确定每一类别的具体含义,通过数据处理,使得横纵坐标值越大,代表着病人对药物越敏感。故对于K-means聚类结果的划分可划分为:计算聚类中心离原点的距离,距离大者,该聚类中心所对应的类中所包含的样本为敏感组,反之,为耐药组。
Step2:多种基因筛选模型建立
目前生物信息学分析多采用对测序数据的基因表达量进行组间差异分析并筛选出差异基因,例如转录组学采用DEseq2分析差异表达基因DEG(differential expressedgene)或甲基化组学采用ChAMP分析DMP(Differentially Methylated Position),而差异筛选指标通常参考差异变化倍数FC(fold change)/deltaβ及BH检验后的P值,但对于指标的重要性程度没有明确的注释。FC/deltaβ对于分析组间差异有较好的注释作用,但按其进行筛选排序会造成对于特征选择偏倚:认为FC/deltaβ绝对值较大的基因,即组间波动变化较大的基因为较重要的基因。故尝试采用结合机器学习算法来完成对基因的筛选。
考虑数据集特性,所选算法需在小样本、多特征的情形下完成特征基因筛选,且筛选主要特征需对特征基因数据做基因重要性排序,进而选出关键耐药基因。主要选择的机器学习算法有逻辑回归、岭回归、支持向量机(SVM)、随机森林(Random Forest)、以及基于交叉验证的递归特征消除算法(recursive feature elimination cross validation,RFECV)。其中,SVM,RF则是作为RFECV底层算法的学习模型。
SVM(Support Vector Machine)支持向量机,是一种常用的分类模型,SVM核心思想是寻找最大间隔的划分超平面,从而可以更好地匹配样本数据,容忍随机扰动,提高模型的泛化能力。Schoelkopf等人认为SVM做分类器时,它的参数取决于样本的数量而非特征的数量,与样本-特征的数量比值几乎无关,这样的模型因此可以很好地适应高维小样本数据。
RFE算法由Guyou提出,是特征选择方法的一种,RFE基于分类器模型进行特征选择,要求分类器需要能计算特征的重要性或权重,也基于此,本申请选择的分类器模型是SVM和RF。RFE算法的核心思想是利用权重可以用来对特征进行排序,从最重要的依次递减,RFE算法每次删除权重排名最后的一个特征,迭代直到剩下想要留下的特征数目为止。
RFECV是基于交叉验证的RFE算法,它则能够自动选择和调整需要保留的基因数目,该算法利用k折交叉验证方法,在每一次迭代中,采用分层采样将数据划分为k等份,确保训练集,测试集中各类别样本的比例与原始数据集中相同,利用其中的k-1等份对学习模型(本申请使用多种模型如SVM,随机森林,)进行训练,用剩下的一份数据集进行验证。
结合基因筛选任务,RFECV的具体步骤如下:
(1)利用分层采样将原始数据集划分为k等份,当前特征基因包含所有基因
(2)选择k-1个等份作为训练集,剩下的一个等份作为验证集,在学习模型(SVM、RF)上进行训练。
(3)在测试集上运行分类器,计算分类结果评价指标。
(4)根据训练集上的基重要性因排序,删去排名最后的m个特征。
(5)进入下一轮训练迭代,重复(2)、(3)、(4)直到训练集剩下的基因为空。
(6)重复步骤(2)k次,保证每一次的验证集都不同。
(7)选择在k次测试集上评价指标平均最高的一轮迭代,并基于这轮迭代保留的基因数目N*再次对整个数据集进行RFE迭代筛选,直到留下的基因数目为N*,最终得到筛选后的基因结果。
逻辑回归(Logistic Regression)
logistic回归是常用的处理因变量为分类变量的回归问题,因而实际为一个分类算法,常用于二分类问题。
logistic回归利用了Logistic函数,其函数形式为:
岭回归(Ridge Regression)
在实验中,特征基因的数目大于样本数,因此考虑使用解决这类问题的常用回归算法:岭回归。
岭回归实际上是带L2范数惩罚的最小二乘回归。设常见的回归矩阵形式为:
其中,xj表示为病人样本x的第j个特征基因的表达量,y则是样本x的对应药敏分类结果。βj和β0则是待求参数,其中βj为特征权重。
通常情况下,利用最小二乘回归求解此类问题是最小化表达式:
式中,i=1,…,N则表示训练集中的N个样本。
其中,λ为待求参数;
本申请中,共收纳复发难治AML和初诊AML病人共41例,同时进行转录组RNA-seq测序和甲基化组学850K芯片测序。甲基化的基因探针位点共涉及598243个,转录组共涉及23710个基因,考虑样本数量有限,样本特征基因数量较多,选用全部基因特征数据建模,易出现高维特征的失效,从而导致丧失模型学习的准确性。因此,首先考虑对基因特征进行差异分析,再进行不同算法模式降维处理。
利用ChAMP方法对甲基化组学进行差异分析以及DESeq2方法对转录组数据进行差异分析。之后基于差异分析对原始数据的特征降维,将处理后的数据进行Logistics回归、岭回归、RFECV-SVM、RFECV-RF等多种特征选择模型中,通过K折分层交叉验证优选模型参数,在优选的模型上进行训练得到最终筛选的基因。
为比较验证各模型的筛选效果以及所筛选基因的有效性,基于最终筛选的基因重新处理数据,并利用常用的机器学习分类模型进行训练验证。为了避免分类模型本身的影响,分别采用了SVM、RF、logistic回归、KNN、决策树等多个机器学习算法反复验证,比较不同算法的分类效果。
采用逻辑回归、岭回归、RFECV-SVM、RFECV-RF算法实现对目的基因的最终筛选。逻辑回归与岭回归使用4折分层交叉验证进行参数优选,设定特征选择的阈值为特征权重的平均值,即特征权重大于平均值的特征将会被保留。而RFECV算法则使用不同的学习模型SVM、RF进行筛选。RFECV的参数如下表所示:
RFECV模型参数表
运用在RFECV中的学习模型SVM的参数如下表所示,由于样本维度远小于特征维度,因此,采用线性核作为核函数,其次,由于敏感与不敏感两类样本数量不平衡,通过指定class_weight参数为balanced可以根据病例类别比例赋予相反的权重,从而一定程度上减轻病例样本不平衡带来的影响,同时指定shrinking参数,启用shrinking heuristic方法,以加快收敛速度。
学习模型SVM参数表
对于随机森林模型,其参数设定如下表所示
学习模型RF参数表
Step 3:基因筛选模型的验证
1.检验效能评价
为了检验最终模型的性能以及所筛选特征的有效性,将甲基化和转录组的数据集均按照75%、25%的比例分为训练集和测试集,由于样本类别不平衡,因此利用分层采样划分,保证训练集,测试集中各类别样本的比例与原始数据集中相同。为消除测试模型本身的影响,基于各筛选模型处理后的数据,利用SVM、RF、logistic回归、KNN算法、决策树算法等多个常用的分类算法在测试集进行训练,以验证各模型的筛选特征结果是否具有分类意义。
本申请选择逻辑回归、岭回归、RFECV-SVM、RFECV-RF这4类算法作为基因筛选模型,选用以下评价指标评估并选出最优模型:
1)召回率,精确率和F1 Score
由于个别药物组间样本类别数目不平衡,利用F1指标评价模型。F1的计算方式如下:
公式中,TP表示正确地把敏感病例预测为敏感,FP表示错误地把不敏感病例预测为敏感病,FN表示错误地把敏感病例预测为不敏感病例。P为精确率(Precision Rate),R为召回率(Recall Rate),F1为精确率和召回率的调和平均值。F1值区间范围[0,1],目前认为F1值越大,分类器模型越可靠。
2)AUC(Area under curve)
AUC目前主要用于二分类模型的评价,是基于样本的真实类别和预测概率,以FP为横坐标,TP为纵坐标算出的曲线下面积。由于AUC对样本类别是否均衡并不敏感,故对于组间不均衡样本可选用AUC评价分类,并通过优化AUC值训练分类器模型。
2.GDSC数据库验证筛选基因药敏预测准确性,其原理及步骤如下:
1)对CGP数据库和待预测的表达矩阵分别做标准化处理,将训练集和测试集合并,同时去除低表达量基因,细胞系基因表达矩阵作为训练集,临床病人基因表达矩阵作为测试集;
2)使用基因表达数据作为输入训练集预测值,药物IC50值car包的powerTransform函数进行转换作为结果变量,模型运用pRRopheticPredict函数,岭回归分析来预测测试集每一个病人的药物反应情况;
3)预测过程默认采取10折交叉,以增加可信度;
4)基于预测的病人药物敏感性,按照平均IC50值作为节点将病人划分成敏感组和耐药组两个组别,进而实现预测病人临床化疗药物反应功能;
3.TCGA数据库药敏相关基因生存分析验证,其具体步骤如下:
1)从TCGA官网下载RNA-seq数据及病人临床信息;
2)基因表达谱矩阵整合:将数据整理为基因×病人矩阵,为方便不同测序平台比较,选用FPKM转为TPM标准化模式,“sva”包Combat函数去除批次化效应;
3)生存预后分析:取表达量为0的样本数目小于总样本数pct%的样本,表达量方差大于1的基因,组成表达矩阵。
所述24种药物包括靶向药物9种,传统化疗药物15种。
所述24种药物由蒽环类、抗代谢药物、植物碱类、烷化剂、去甲基化药物、鬼臼类药物、吖啶类药物、小分子TKI、其他组成。
所述24种药物包括柔红霉素、去甲氧柔红霉素、米托蒽醌、阿克拉霉素、阿糖胞苷、氟达拉滨、克拉曲滨、高三尖杉酯碱、环磷酰胺、地西他滨、阿扎胞苷、依托泊苷、安丫啶、ABT-199、达沙替尼、泊纳替尼、芦可替尼、索拉菲尼、Glasdegib、Larotrectinib、恩西地平、西达苯胺、三氧化二砷、二甲双胍。
本发明的有益效果为:本申请采用逻辑回归、岭回归、RFECV-SVM、RFECV-RF算法实现对目的基因的最终筛选。逻辑回归与岭回归使用4折分层交叉验证进行参数优选,设定特征选择的阈值为特征权重的平均值,即特征权重大于平均值的特征将会被保留。而RFECV算法则使用不同的学习模型SVM、RF进行筛选。
为比较验证各模型的筛选效果以及所筛选基因的有效性,本申请基于最终筛选的基因重新处理数据,并利用常用的机器学习分类模型进行训练验证。为了避免分类模型本身的影响,分别采用了SVM、RF、logistic回归、KNN、决策树等多个机器学习算法反复验证,比较不同算法的分类效果。
本申请基于转录组或是甲基化不同特征的数据,横向比较不同分类器算法模型,SVM算法在所有分类模型中都表现出了比较大的优势。这表明SVM模型针对小样本高维度的基因特征数据能够表现出强大的分类能力。同时,比较了原始基因筛选RFE_SVM算法和差异基因分析后的RFE_SVM算法筛选结果,无论从算法鲁棒性(Robust)还是特征值筛选特异性上来说,均发现生物学分析DESeq2/ChAMP做差异分析具有强大的分类能力,也验证了生物信息分析的可靠性。
附图说明
图1为24种化疗药物筛选后经算法聚类敏感组和非敏感组标本数划分具体数目;
图2为展示利用5种分类算法:SVM,RF,KNN,Logistics Regression和DecisionTree测试SVM筛选特征变量的AUC数值;
图3为展示利用5种分类算法:SVM,RF,KNN,Logistics Regression和DecisionTree测试SVM筛选特征变量的召回率数值;
图4:展示利用5种分类算法:SVM,RF,KNN,Logistics Regression和DecisionTree测试SVM筛选特征变量的准确率数值;
图5为GDSC数据库验证常见化疗药物初诊组和复发难治组IC50差异;
图6为阿糖胞苷耐药组和敏感组IC50差异;
图7为LASSO回归后,其中下横坐标为λ,上横标为基因筛选个数。
图8为高危组和低危组对于AML生存预后的影响;
如图,Gene Raw Data基因的原始数据、Differential analysis差分析、Feature-selection特征筛选、Data数据、Model模型、Stratified-KFold-CV分层交叉验证、Retrained Model重新训练模型、Final Data最终数据、Iteration迭代、Training folds培训折叠、choose the parameters whose model has the best score result选择的参数模型具有最好的得分结果、training set训练集、classification Model分类模型、validation验证。
具体实施方式
实施例1
一种机器学习算法构建急性髓系白血病药敏相关基因分类器,其具体算法为:
对药物进行聚类分析
利用K-means聚类算法实现对病人药物敏感度分组(K=2),从而将病人划分为2组,为后续利用监督学习算法筛选药敏基因提供带有分类标签的数据集。
K-Means算法具体步骤
(1)从处理好的样本中随机选择2个样本C1,C2作为初始的聚类中心。
(2)根据每个样本的数据,计算每个样本与2个聚类中心的距离,并将其划分到距离最小的聚类中心所对应的类中。
其中,x代表每个病人样本拟合的GI50数据,y代表着样本中的100%PPC抑制率数据。
(4)重复(2)(3)步骤,直到算法收敛。
完成聚类后,根据聚类中心的数值来确定每一类别的具体含义,通过数据处理,使得横纵坐标值越大,代表着病人对药物越敏感。故对于K-means聚类结果的划分可划分为:计算聚类中心离原点的距离,距离大者,该聚类中心所对应的类中所包含的样本为敏感组,反之,为耐药组。
.多种基因筛选模型建立
结合基因筛选任务,RFECV的具体步骤如下:
(1)利用分层采样将原始数据集划分为k等份,当前特征基因包含所有基因
(2)选择k-1个等份作为训练集,剩下的一个等份作为验证集,在学习模型(SVM、RF)上进行训练。
(3)在测试集上运行分类器,计算分类结果评价指标。
(4)根据训练集上的基重要性因排序,删去排名最后的m个特征。
(5)进入下一轮训练迭代,重复(2)、(3)、(4)直到训练集剩下的基因为空。
(6)重复步骤(2)k次,保证每一次的验证集都不同。
(7)选择在k次测试集上评价指标平均最高的一轮迭代,并基于这轮迭代保留的基因数目N*再次对整个数据集进行RFE迭代筛选,直到留下的基因数目为N*,最终得到筛选后的基因结果。
逻辑回归(Logistic Regression)
logistic回归是常用的处理因变量为分类变量的回归问题,因而实际为一个分类算法,常用于二分类问题。
logistic回归利用了Logistic函数,其函数形式为:
岭回归(Ridge Regression)
在实验中,特征基因的数目大于样本数,因此考虑使用解决这类问题的常用回归算法:岭回归。
岭回归实际上是带L2范数惩罚的最小二乘回归。设常见的回归矩阵形式为:
其中,xj表示为病人样本x的第j个特征基因的表达量,y则是样本x的对应药敏分类结果。βj和β0则是待求参数,其中βj为特征权重。
通常情况下,利用最小二乘回归求解此类问题是最小化表达式:
式中,i=1,…,N则表示训练集中的N个样本。
其中,λ为待求参数;
本申请研究中,共收纳复发难治AML和初诊AML病人共41例,同时进行转录组RNA-seq测序和甲基化组学850K芯片测序。甲基化的基因探针位点共涉及598243个,转录组共涉及23710个基因,考虑样本数量有限,样本特征基因数量较多,选用全部基因特征数据建模,易出现高维特征的失效,从而导致丧失模型学习的准确性。因此,首先考虑对基因特征进行差异分析,再进行不同算法模式降维处理。
利用ChAMP方法对甲基化组学进行差异分析以及DESeq2方法对转录组数据进行差异分析。之后基于差异分析对原始数据的特征降维,将处理后的数据进行Logistics回归、岭回归、RFECV-SVM、RFECV-RF等多种特征选择模型中,通过K折分层交叉验证优选模型参数,在优选的模型上进行训练得到最终筛选的基因。
为比较验证各模型的筛选效果以及所筛选基因的有效性,基于最终筛选的基因重新处理数据,并利用常用的机器学习分类模型进行训练验证。为了避免分类模型本身的影响,分别采用了SVM、RF、logistic回归、KNN、决策树等多个机器学习算法反复验证,比较不同算法的分类效果。
采用逻辑回归、岭回归、RFECV-SVM、RFECV-RF算法实现对目的基因的最终筛选。逻辑回归与岭回归使用4折分层交叉验证进行参数优选,设定特征选择的阈值为特征权重的平均值,即特征权重大于平均值的特征将会被保留。而RFECV算法则使用不同的学习模型SVM、RF进行筛选。RFECV的参数如下表所示:
RFECV模型参数表
运用在RFECV中的学习模型SVM的参数如下表所示,由于样本维度远小于特征维度,因此,采用线性核作为核函数,其次,由于敏感与不敏感两类样本数量不平衡,通过指定class_weight参数为balanced可以根据病例类别比例赋予相反的权重,从而一定程度上减轻病例样本不平衡带来的影响,同时指定shrinking参数,启用shrinking heuristic方法,以加快收敛速度。
学习模型SVM参数表
对于随机森林模型,其参数设定如下表所示
学习模型RF参数表
基因筛选模型的验证
本申请选择逻辑回归、岭回归、RFECV-SVM、RFECV-RF这4类算法作为基因筛选模型,选用以下评价指标评估并选出最优模型:
1)召回率,精确率和F1 Score
公式中,TP表示正确地把敏感病例预测为敏感,FP表示错误地把不敏感病例预测为敏感病,FN表示错误地把敏感病例预测为不敏感病例。P为精确率(Precision Rate),R为召回率(Recall Rate),F1为精确率和召回率的调和平均值。F1值区间范围[0,1],目前认为F1值越大,分类器模型越可靠。
2)AUC(Area under curve)
AUC目前主要用于二分类模型的评价,是基于样本的真实类别和预测概率,以FP为横坐标,TP为纵坐标算出的曲线下面积。由于AUC对样本类别是否均衡并不敏感,故对于组间不均衡样本可选用AUC评价分类,并通过优化AUC值训练分类器模型。
实施例2
本实施例中共收纳复发难治AML和初诊AML病人共41例,同时进行转录组RNA-seq测序和甲基化组学850K芯片测序。甲基化的基因探针位点共涉及598243个,转录组共涉及23710个基因,考虑样本数量有限,样本特征基因数量较多,选用全部基因特征数据建模,易出现高维特征的失效,从而导致丧失模型学习的准确性。因此,首先考虑对基因特征进行差异分析,再进行不同算法模式降维处理。
利用ChAMP方法对甲基化组学进行差异分析以及DESeq2方法对转录组数据进行差异分析。之后基于差异分析对原始数据的特征降维,将处理后的数据进行Logistics回归、岭回归、RFECV-SVM、RFECV-RF等多种特征选择模型中,通过K折分层交叉验证优选模型参数,在优选的模型上进行训练得到最终筛选的基因。
为比较验证各模型的筛选效果以及所筛选基因的有效性,基于最终筛选的基因重新处理数据,并利用常用的机器学习分类模型进行训练验证。为了避免分类模型本身的影响,分别采用了SVM、RF、logistic回归、KNN、决策树等多个机器学习算法反复验证,比较不同算法的分类效果。
实施例3
GDSC数据库验证筛选基因药敏预测准确性
GDSC数据库药物在细胞系中疗效反应主要评价指标为IC50(半数抑制浓度)采用R包pRRophetic 0.5版本,用于获取并整合计算GDSC数据库。pRRophetic包是2014年由PaulGeeleher开发,选取了Cancer Genome Project(CGP)数据库里面收录的700多种细胞系的138种药物的临床反应情况,开发了用CGP数据库的表达矩阵进行药物反应预测算法,数据集里面验证了其算法的可靠性。基本原理及步骤如下:
1)对CGP数据库(细胞系基因表达矩阵作为训练集)和待预测的表达矩阵(临床病人基因表达矩阵作为测试集分别做标准化处理,将训练集和测试集合并,,同时去除低表达量基因。2)使用基因表达数据作为输入训练集预测值,药物IC50值car包的powerTransform函数进行转换作为结果变量,模型运用pRRopheticPredict函数,岭回归分析来预测测试集每一个病人的药物反应情况。
3)预测过程默认采取10折交叉,以增加可信度。
4)基于预测的病人药物敏感性,按照平均IC50值作为节点将病人划分成敏感组和耐药组两个组别,进而实现预测病人临床化疗药物反应功能。具体参数设置如下表:
pRRophetic 0.5参数表
基于本实验研究需求,采取RFE_SVM筛选的转录组基因表达量矩阵与GDSC数据库中AML细胞系常用化疗药物IC50值关联,来预测病人标本组间IC50值差异,并根据预测值比较组间样本的药物敏感性。
选用与数据库中重叠的化疗药物:阿糖胞苷,达沙替尼,多柔比星,依托泊苷,索拉菲尼,分别计算在初诊组和复发难治组的IC50差异(图5)。从以上结果可以看出,发现耐药组合基因在初诊组IC50低于复发难治组,这也说明筛选的耐药基因具有良好的预示耐药功能。
为了进一步探究筛选的基因预测耐药能力,选用GDSC数据库中细胞系基因表达及细胞系药敏IC50作为验证集,将耐药基因集利用岭回归分析,分别预测不同药物在细胞系中耐药组和敏感组IC50,发现敏感组IC50值均低于耐药组(图6),故再次证明筛选的耐药基因靶点具有良好的预测性。
TCGA数据库药敏相关基因生存分析验证
目的为探索筛选出的目的基因表达量与AML病人生存预后相关,选取截至2019年7月的151例AML病人数据。其具体步骤如下:
1)从TCGA官网下载RNA-seq数据及病人临床信息。(https://gdc.xenahubs.net)
2)基因表达谱矩阵整合:将数据整理为基因×病人矩阵,为方便不同测序平台比较,选用FPKM转为TPM标准化模式。“sva”包Combat函数去除批次化效应。
3)生存预后分析:取表达量为0的样本数目小于总样本数pct%的样本,表达量方差大于1的基因,组成表达矩阵。采用“survival”,“KMsurv”和“surminer”等R包对这部分基因按照表达量进行从高到低进行排序,选用“surminer”包中res.cut函数对数据集进行划分,其中设置组内最少人数minprop=0.2,对每个基因做KM生存分析和累积事件发生率分析。
在TCGA病人队列中对646个RFECV-SVM算法筛选基因进行cox单因素分析,并进行LASSO回归分析,10倍交叉验证,算出λ最小值,经过迭代后选出最小λ=0.208,选取17个基因作为预后相关基因(图7)。接着用LASSO计算并输出每个signature基因的系数,然后将每个signature表达量*相关系数加权和得出每一个病人标本risk score评分。按照riskscore中位值划分高风险和低风险组,其中高风险组较低风险组基因组生存曲线有显著差异P<0.001(HR=2.65;95%CI=1.74-4.04)。算法筛选的药敏相关基因对于AML队列具有较好的区分预后的作用(图8)。
实施例4
1、K-Means样本总体聚类
K-Means算法具体步骤
(1)从处理好的样本中随机选择2个样本C1,C2作为初始的聚类中心。
(2)根据每个样本的数据,计算每个样本与2个聚类中心的距离,并将其划分到距离最小的聚类中心所对应的类中。
其中,x代表每个病人样本拟合的GI50数据,y代表着样本中的100%PPC抑制率数据。
(4)重复(2)(3)步骤,直到算法收敛。
完成聚类后,根据聚类中心的数值来确定每一类别的具体含义,通过数据处理,使得横纵坐标值越大,代表着病人对药物越敏感。故对于K-means聚类结果的划分可划分为:计算聚类中心离原点的距离,距离大者,该聚类中心所对应的类中所包含的样本为敏感组,反之,为耐药组。
2、样本总体聚类结果分析:
完成聚类后,根据聚类中心的数值来确定每一类别的具体含义,前述通过数据处理,使得横纵坐标值越大,代表着病人对药物越敏感。故对于K-means聚类结果的划分可划分为计算聚类中心离原点的距离,距离大者,该聚类中心所对应的类中所包含的样本为高敏病人,反之为低敏病人。
24个药物的聚类分类标本情况见表4和图1。
表4:聚类分类结果
横坐标为病人标本细胞体外药敏实验7个浓度梯度拟合GI50值,经归一化处理后,线性转换所得数值。纵坐标为100%PPC浓度梯度时体外药敏实验细胞抑制率情况。经K-Means(K=2)划分后样本聚类情况。
3.差异分析及数据预处理结果:
利用的数据主要是24个药物的甲基化表达量矩阵和转录组的count值,而数据的分类标签则是前文通过聚类得到的病人药敏结果。
甲基化组学数据预处理
甲基化实验数据由40例病人的598243个基因表达组成,数据维度为40x598243,以24类药物的聚类药敏结果作为学习目标,分为敏感和不敏感(高敏和低敏)两类。首先利用ChAMP处理时的标准化数据以及根据adj p value<0.05和|deltaBeta|>0.1得到传统方法筛选后的基因,各药物筛选后的基因情况如下表所示。
表5 24个药物的甲基化ChAMP筛选基因数目
最后,再利用Z-score标准化方法对数据进行标准化处理,从而得到最终的甲基化数据集。
转录组学
转录组实验数据由41例病人的23710个count数据组成,数据维度为41x23710,以24类药物的聚类药敏结果作为学习目标,分为敏感和不敏感两类。首先利用DESeq2处理时的标准化数据以及根据adjust P<0.05和|logFC|>1得到第一次筛选的基因,各药物的筛选基因数目如表6所示。
表6 24个药物的转录组DESeq2筛选基因数目
同样地,对筛选后的基因数据进行Z-score标准化处理。
基因筛选结果(表7)从上述甲基化基因筛选的基因数目来看,RFECV_SVM在多个药物对应的情况下所保留的基因数目最少,或接近最少;而在氟达拉滨等药物,所保留的基因数目甚至比其他模型削减了一个数量级,RFECV_SVM算法更具有特异性。
表7:各模型甲基化基因筛选数目表
从转录组筛选的基因数目来看,RFECV_SVM同样倾向于保留最少的基因数目,而在Cladribine、Dasatinib、Ruxolitinib、Larotrectinib等药物,与其他模型所保留的基因数目差距达到一个数量级,进而增加算法的特异性(表8)。
表8:各模型转录组基因筛选数目表
基因验证
完成了基因筛选后,需要对各模型筛选的基因进行验证比较。为全方面比较基因筛选前后的效果,加入了对原始数据基因,以及单独差异分析后的基因数据的验证比较。同时由于所有模型都涉及到对24个不同药物药敏结果的训练验证,因此,取24个药物测试结果的平均F1值以在不同模型之间进行比较(表9,表10)。并在验证集上分别比较不同算法AUC,召回率及准确率(图2-4)。
表9:甲基化基因数据测试平均F1结果
表10:转录组基因数据测试平均F1结果
成果总结:
从甲基化和转录组的结果比较来看,通过对比差异分析前后基因数据的模型测试结果,经过差异分析后的基因对于模型分类能力提升均有质的影响,表明差异分析的初筛去除了大部分无效特征以及干扰特征,保留了对分类结果有重要影响的特征基因。
在经历了差异分析的初筛后,利用机器学习算法再度进行筛选,可以看到机器学习算法筛选的基因数据进一步在测试模型上取得了更好的效果。其中基于SVM的RFECV算法筛选的基因数据在所有分类模型上都达到了最优;同时通过上文基因筛选结果的分析,RFECV_SVM的筛选数量在多个模型的对比中,都处于比较低的水平。
RFECV_SVM以较少的特征实现最优的结果,足以表明通过差异分析以及RFECV_SVM算法能够去除绝大部分无效特征,保留对分类最具影响,最有效果的特征,从而实现较为理想的基因筛选。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本发明提到的各个部件为现有领域常见技术,本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种机器学习算法构建急性髓系白血病药敏相关基因分类器,其特征在于包括样本聚类、基因筛选;
所述样本聚类是利用K-means聚类算法分别对24种药物的病人敏感度进行聚类;
所述基因筛选是根据病人的聚类结果利用特征选择模型对24种药物的甲基化和转录组数据进行基因的筛选与验证;
其具体算法为:Step1:利用K-means聚类算法对药物进行聚类分析;
病人体外药物敏感性实验设计,分别计算出每种药物的GI50和100%PPC抑制率指
标,
利用K-means聚类算法实现对病人药物敏感度分组(K≥2),从而将病人划分为多组,为后续利用监督学习算法筛选药敏基因提供带有分类标签的数据集;
所述K-Means算法具体步骤为:
(1)从处理好的样本中随机选择2个样本C1,C2作为初始的聚类中心;
(2)根据每个样本的数据,计算每个样本与2个聚类中心的距离,并将其划分到距离最小的聚类中心所对应的类中;
样本与聚类中心的距离度量为欧氏距离:
其中,x代表每个病人样本拟合的GI50数据,y代表着样本中的100%PPC抑制率数据;
(3)针对每个类别C1,C2,重新计算其聚类中心
(4)重复(2)(3)步骤,直到算法收敛;
完成聚类后,根据聚类中心的数值来确定每一类别的具体含义,通过数据处理,使得横纵坐标值越大,代表着病人对药物越敏感,故对于K-means聚类结果的划分可划分为:计算聚类中心离原点的距离,距离大者,该聚类中心所对应的类中所包含的样本为敏感组,反之,为耐药组;
Step2:多种基因筛选模型建立;
多种基因筛选模型建立采用Logistic回归、岭回归、支持向量机SVM、随机森林RandomForest、基于交叉验证的递归特征消除算法RFECV反复验证;所述SVM、Random Forest则是作为RFECV底层算法的学习模型;
Logistic回归与岭回归使用4折分层交叉验证进行参数优选,设定特征选择的阈值为特征权重的平均值,即特征权重大于平均值的特征将会被保留;
SVM(Support Vector Machine)支持向量机,是一种常用的分类模型,SVM核心思想是寻找最大间隔的划分超平面,从而可以更好地匹配样本数据,容忍随机扰动,提高模型的泛化能力,SVM做分类器时,它的参数取决于样本的数量而非特征的数量,与样本-特征的数量比值几乎无关,这样的模型因此可以很好地适应高维小样本数据;
RFE基于分类器模型进行特征选择,要求分类器需要能计算特征的重要性或权重;RFE算法的核心思想是利用权重可以用来对特征进行排序,从最重要的依次递减,RFE算法每次删除权重排名最后的一个特征,迭代直到剩下想要留下的特征数目为止;
RFECV是基于交叉验证的RFE算法,它则能够自动选择和调整需要保留的基因数目,该算法利用k折交叉验证方法,在每一次迭代中,采用分层采样将数据划分为k等份,确保训练集,测试集中各类别样本的比例与原始数据集中相同,利用其中的k-1等份对学习模型进行训练,用剩下的一份数据集进行验证;
Step3:基因筛选模型的验证;
为了检验最终模型的性能以及所筛选特征的有效性,将甲基化和转录组的数据集均按照75%、25%的比例分为训练集和测试集,由于样本类别不平衡,因此利用分层采样划分,保证训练集,测试集中各类别样本的比例与原始数据集中相同,为消除测试模型本身的影响,基于各筛选模型处理后的数据,利用SVM、RF、logistic回归、KNN算法、决策树算法在测试集进行训练,以验证各模型的筛选特征结果是否具有分类意义;
选择逻辑回归、岭回归、RFECV-SVM、RFECV-RF这4类算法作为基因筛选模型,选用以下评价指标评估并选出最优模型:
1)召回率,精确率和F1 Score
由于个别药物组间样本类别数目不平衡,利用F1指标评价模型,F1的计算方式如下:
公式中,TP表示正确地把敏感病例预测为敏感,FP表示错误地把不敏感病例预测为敏感病,FN表示错误地把敏感病例预测为不敏感病例,P为精确率(Precision Rate),R为召回率(Recall Rate),F1为精确率和召回率的调和平均值,F1值区间范围[0,1],目前认为F1值越大,分类器模型越可靠;
2)AUC(Area under curve)
AUC目前主要用于二分类模型的评价,是基于样本的真实类别和预测概率,以FP为横坐标,TP为纵坐标算出的曲线下面积,由于AUC对样本类别是否均衡并不敏感,故对于组间不均衡样本可选用AUC评价分类,并通过优化AUC值训练分类器模型;
Step4:GDSC数据库验证筛选基因药敏预测准确性
其原理及步骤如下:
1)对CGP数据库和待预测的表达矩阵分别做标准化处理,将训练集和测试集合并,同时去除低表达量基因,细胞系基因表达矩阵作为训练集,临床病人基因表达矩阵作为测试集;
2)使用基因表达数据作为输入训练集预测值,药物IC50值car包的powerTransform函数进行转换作为结果变量,模型运用pRRopheticPredict函数,岭回归分析来预测测试集每一个病人的药物反应情况;
3)预测过程默认采取10折交叉,以增加可信度;
4)基于预测的病人药物敏感性,按照平均IC50值作为节点将病人划分成敏感组和耐药组两个组别,进而实现预测病人临床化疗药物反应功能;
其具体步骤如下:
1)从TCGA官网下载RNA-seq数据及病人临床信息;
2)基因表达谱矩阵整合:将数据整理为基因×病人矩阵,为方便不同测序平台比较,选用FPKM转为TPM标准化模式,“sva”包Combat函数去除批次化效应;
3)生存预后分析:取表达量为0的样本数目小于总样本数pct%的样本,表达量方差大于1的基因,组成表达矩阵。
2.按照权利要求1所述的一种机器学习算法构建急性髓系白血病药敏相关基因分类器,其特征在于所述RFECV的具体步骤如下:
(1)利用分层采样将原始数据集划分为k等份,当前特征基因包含所有基因;
(2)选择k-1个等份作为训练集,剩下的一个等份作为验证集,在学习模型SVM、RF上进行训练;
(3)在测试集上运行分类器,计算分类结果评价指标;
(4)根据训练集上的基重要性因排序,删去排名最后的m个特征;
(5)进入下一轮训练迭代,重复(2)、(3)、(4)直到训练集剩下的基因为空;
(6)重复步骤(2)k次,保证每一次的验证集都不同;
(7)选择在k次测试集上评价指标平均最高的一轮迭代,并基于这轮迭代保留的基因数目N*再次对整个数据集进行RFE迭代筛选,直到留下的基因数目为N*,最终得到筛选后的基因结果。
3.按照权利要求1所述的一种机器学习算法构建急性髓系白血病药敏相关基因分类器,其特征在于所述24种药物包括靶向药物9种,传统化疗药物15种。
4.按照权利要求1所述的一种机器学习算法构建急性髓系白血病药敏相关基因分类器,其特征在于所述24种药物由蒽环类、抗代谢药物、植物碱类、烷化剂、去甲基化药物、鬼臼类药物、吖啶类药物、小分子TKI、其他组成。
5.按照权利要求1所述的一种机器学习算法构建急性髓系白血病药敏相关基因分类器,其特征在于所述24种药物包括柔红霉素、去甲氧柔红霉素、米托蒽醌、阿克拉霉素、阿糖胞苷、氟达拉滨、克拉曲滨、高三尖杉酯碱、环磷酰胺、地西他滨、阿扎胞苷、依托泊苷、安丫啶、ABT-199、达沙替尼、索拉菲尼、泊纳替尼、芦可替尼、Glasdegib、Larotrectinib、恩西地平、西达苯胺、三氧化二砷、二甲双胍。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605148.8A CN113555070B (zh) | 2021-05-31 | 2021-05-31 | 机器学习算法构建急性髓系白血病药敏相关基因分类器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605148.8A CN113555070B (zh) | 2021-05-31 | 2021-05-31 | 机器学习算法构建急性髓系白血病药敏相关基因分类器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113555070A CN113555070A (zh) | 2021-10-26 |
CN113555070B true CN113555070B (zh) | 2022-09-23 |
Family
ID=78101926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110605148.8A Active CN113555070B (zh) | 2021-05-31 | 2021-05-31 | 机器学习算法构建急性髓系白血病药敏相关基因分类器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113555070B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114388062A (zh) * | 2021-12-17 | 2022-04-22 | 予果生物科技(北京)有限公司 | 基于机器学习预测抗生素抗性表型的方法、设备及应用 |
CN114596924B (zh) * | 2022-03-11 | 2024-09-27 | 厦门大学 | 一种生物医用β钛合金的杨氏模量的机器学习预测方法 |
CN114860298B (zh) * | 2022-03-25 | 2024-09-13 | 上海师范大学 | 一种基于RFECV特征选择的Bayes-LightGBM软件缺陷预测方法 |
CN115083519B (zh) * | 2022-05-18 | 2024-06-14 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于多来源基因数据库的基因相关特征融合预测方法 |
CN114883007A (zh) * | 2022-07-12 | 2022-08-09 | 南昌大学第一附属医院 | 基于大数据的数据模型构建方法、系统、介质及计算机 |
CN115271067B (zh) * | 2022-08-25 | 2024-02-23 | 天津大学 | 基于特征关系评估的安卓对抗样本攻击方法 |
CN115358351A (zh) * | 2022-10-18 | 2022-11-18 | 中国地质大学(北京) | 基于乳腺癌变量的分类模型建立方法及系统、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010138963A2 (en) * | 2009-05-29 | 2010-12-02 | Precision Therapeutics, Inc. | Methods and systems for evaluating the sensitivity or resistance of tumor specimens to chemotherapeutic agents |
CN111223577A (zh) * | 2020-01-17 | 2020-06-02 | 江苏大学 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
KR20200068305A (ko) * | 2018-12-05 | 2020-06-15 | 건국대학교 글로컬산학협력단 | 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법 |
CN114067912A (zh) * | 2021-11-23 | 2022-02-18 | 天津金匙医学科技有限公司 | 基于机器学习筛选细菌耐药表型相关重要特征基因的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111613324A (zh) * | 2020-05-15 | 2020-09-01 | 高春芳 | 一种机器学习模型高通量分析乙型肝炎病毒基因组rt/s区序列特征预测肝癌风险的方法 |
CN111640508B (zh) * | 2020-05-28 | 2023-08-01 | 上海市生物医药技术研究院 | 基于高通量测序数据和临床表型构建的泛肿瘤靶向药敏感性状态评估模型的方法及应用 |
CN111863119A (zh) * | 2020-05-28 | 2020-10-30 | 上海朴岱生物科技合伙企业(有限合伙) | 基于pdc/pdx药敏实验和多组学检测分析的伴随诊断模型及应用 |
CN112435754B (zh) * | 2020-09-30 | 2022-04-08 | 天津大学 | 基于深度因子分解机的预测药物敏感度方法 |
-
2021
- 2021-05-31 CN CN202110605148.8A patent/CN113555070B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010138963A2 (en) * | 2009-05-29 | 2010-12-02 | Precision Therapeutics, Inc. | Methods and systems for evaluating the sensitivity or resistance of tumor specimens to chemotherapeutic agents |
KR20200068305A (ko) * | 2018-12-05 | 2020-06-15 | 건국대학교 글로컬산학협력단 | 메타분석 및 생물경로 기반 기계 학습을 이용한 맞춤형 항암제 내성 예측 방법 |
CN111223577A (zh) * | 2020-01-17 | 2020-06-02 | 江苏大学 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
CN114067912A (zh) * | 2021-11-23 | 2022-02-18 | 天津金匙医学科技有限公司 | 基于机器学习筛选细菌耐药表型相关重要特征基因的方法 |
Non-Patent Citations (1)
Title |
---|
Machine Learning Algorithm on Chemotherapeutic Drug Resistance Related Gene Classifier in Acute Myeloid Leukemia;Yang Song et al.;《American Society of Hematology》;20201105;第1页第2段-第2页第6段,图1 * |
Also Published As
Publication number | Publication date |
---|---|
CN113555070A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113555070B (zh) | 机器学习算法构建急性髓系白血病药敏相关基因分类器 | |
Califano et al. | Analysis of gene expression microarrays for phenotype classification. | |
Li et al. | Discovery of significant rules for classifying cancer diagnosis data | |
CN112927757B (zh) | 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法 | |
CN110853756B (zh) | 基于som神经网络和svm的食管癌风险预测方法 | |
EP2387758A1 (en) | Evolutionary clustering algorithm | |
CN117594243A (zh) | 基于跨模态视图关联发现网络的卵巢癌预后预测方法 | |
Chamlal et al. | A graph based preordonnances theoretic supervised feature selection in high dimensional data | |
CN109033747B (zh) | 基于pls多扰动集成基因选择的肿瘤特异基因识别方法 | |
WO2005024648A1 (en) | Methods of processing biological data | |
Zhang et al. | Elastic net regularized softmax regression methods for multi-subtype classification in cancer | |
Shi et al. | An application based on bioinformatics and machine learning for risk prediction of sepsis at first clinical presentation using transcriptomic data | |
Shahweli et al. | In Silico Molecular Classification of Breast and Prostate Cancers using Back Propagation Neural Network | |
Tang et al. | Multi-category multi-state information ensemble-based classification method for precise diagnosis of three cancers | |
Thenmozhi et al. | Distribution based fuzzy estimate spectral clustering for Cancer detection with protein sequence and structural motifs | |
Chen et al. | Gene expression analyses using genetic algorithm based hybrid approaches | |
Akhavan-Safar et al. | Colorectal cancer driver gene detection in human gene regulatory network using an independent cascade diffusion model | |
Anand et al. | Building an intelligent integrated method of gene selection for facioscapulohumeral muscular dystrophy diagnosis | |
Tian et al. | Identification of genes involved in breast cancer metastasis by integrating protein–protein interaction information with expression data | |
Francis et al. | Ensemble approach for predicting genetic disease through case-control study | |
Mendonça Neto | A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification | |
Sujithra et al. | Review of Classification and Feature Selection Methods for Genome‐Wide Association SNP for Breast Cancer | |
Kavousi et al. | A post-method condition analysis of using ensemble machine learning for cancer prognosis and diagnosis: a systematic review | |
Duan et al. | Statistical Methodologies for Analyzing Genomic Data | |
Menand | Machine learning based novel biomarkers discovery for therapeutic use in" pan-gyn" cancers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |