CN111863126B - 构建结直肠肿瘤状态评估模型的方法及应用 - Google Patents
构建结直肠肿瘤状态评估模型的方法及应用 Download PDFInfo
- Publication number
- CN111863126B CN111863126B CN202010470684.7A CN202010470684A CN111863126B CN 111863126 B CN111863126 B CN 111863126B CN 202010470684 A CN202010470684 A CN 202010470684A CN 111863126 B CN111863126 B CN 111863126B
- Authority
- CN
- China
- Prior art keywords
- gene
- regulation
- colorectal tumor
- tumor
- marker combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 156
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000013210 evaluation model Methods 0.000 title abstract description 17
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 402
- 239000003550 marker Substances 0.000 claims abstract description 170
- 238000001514 detection method Methods 0.000 claims abstract description 96
- 238000011156 evaluation Methods 0.000 claims abstract description 85
- 230000000694 effects Effects 0.000 claims abstract description 71
- 238000011282 treatment Methods 0.000 claims abstract description 71
- 238000004393 prognosis Methods 0.000 claims abstract description 63
- 206010009944 Colon cancer Diseases 0.000 claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims abstract description 38
- 238000005065 mining Methods 0.000 claims abstract description 37
- 238000012165 high-throughput sequencing Methods 0.000 claims abstract description 20
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 143
- 201000010099 disease Diseases 0.000 claims description 138
- 239000003814 drug Substances 0.000 claims description 92
- 229940079593 drug Drugs 0.000 claims description 90
- 238000012216 screening Methods 0.000 claims description 69
- 239000000523 sample Substances 0.000 claims description 68
- 238000004422 calculation algorithm Methods 0.000 claims description 64
- 230000002159 abnormal effect Effects 0.000 claims description 61
- 230000005861 gene abnormality Effects 0.000 claims description 48
- -1 ato 1 Proteins 0.000 claims description 45
- 230000007614 genetic variation Effects 0.000 claims description 36
- 230000014509 gene expression Effects 0.000 claims description 32
- 230000002068 genetic effect Effects 0.000 claims description 32
- 230000008901 benefit Effects 0.000 claims description 29
- 230000001105 regulatory effect Effects 0.000 claims description 29
- 102100030386 Granzyme A Human genes 0.000 claims description 28
- 101001009599 Homo sapiens Granzyme A Proteins 0.000 claims description 28
- 101000987581 Homo sapiens Perforin-1 Proteins 0.000 claims description 27
- 102100028467 Perforin-1 Human genes 0.000 claims description 27
- 230000035772 mutation Effects 0.000 claims description 27
- 230000001575 pathological effect Effects 0.000 claims description 26
- 230000004083 survival effect Effects 0.000 claims description 24
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 claims description 23
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 claims description 23
- 230000007170 pathology Effects 0.000 claims description 23
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 claims description 21
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 21
- 238000002512 chemotherapy Methods 0.000 claims description 21
- 102100030708 GTPase KRas Human genes 0.000 claims description 20
- 101000628562 Homo sapiens Serine/threonine-protein kinase STK11 Proteins 0.000 claims description 20
- 102100026715 Serine/threonine-protein kinase STK11 Human genes 0.000 claims description 20
- 238000010276 construction Methods 0.000 claims description 20
- 102100039788 GTPase NRas Human genes 0.000 claims description 18
- 206010064571 Gene mutation Diseases 0.000 claims description 18
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 claims description 18
- 102100021943 C-C motif chemokine 2 Human genes 0.000 claims description 16
- 102100032367 C-C motif chemokine 5 Human genes 0.000 claims description 16
- 102100025248 C-X-C motif chemokine 10 Human genes 0.000 claims description 16
- 102100036170 C-X-C motif chemokine 9 Human genes 0.000 claims description 16
- 102100027207 CD27 antigen Human genes 0.000 claims description 16
- 102100031011 Chemerin-like receptor 1 Human genes 0.000 claims description 16
- 102100039498 Cytotoxic T-lymphocyte protein 4 Human genes 0.000 claims description 16
- 102100030385 Granzyme B Human genes 0.000 claims description 16
- 102100036242 HLA class II histocompatibility antigen, DQ alpha 2 chain Human genes 0.000 claims description 16
- 102100040485 HLA class II histocompatibility antigen, DRB1 beta chain Human genes 0.000 claims description 16
- 108010086786 HLA-DQA1 antigen Proteins 0.000 claims description 16
- 108010039343 HLA-DRB1 Chains Proteins 0.000 claims description 16
- 102100034458 Hepatitis A virus cellular receptor 2 Human genes 0.000 claims description 16
- 101000897480 Homo sapiens C-C motif chemokine 2 Proteins 0.000 claims description 16
- 101000797762 Homo sapiens C-C motif chemokine 5 Proteins 0.000 claims description 16
- 101000858088 Homo sapiens C-X-C motif chemokine 10 Proteins 0.000 claims description 16
- 101000947172 Homo sapiens C-X-C motif chemokine 9 Proteins 0.000 claims description 16
- 101000914511 Homo sapiens CD27 antigen Proteins 0.000 claims description 16
- 101000919756 Homo sapiens Chemerin-like receptor 1 Proteins 0.000 claims description 16
- 101000889276 Homo sapiens Cytotoxic T-lymphocyte protein 4 Proteins 0.000 claims description 16
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 claims description 16
- 101001009603 Homo sapiens Granzyme B Proteins 0.000 claims description 16
- 101001068133 Homo sapiens Hepatitis A virus cellular receptor 2 Proteins 0.000 claims description 16
- 101001037256 Homo sapiens Indoleamine 2,3-dioxygenase 1 Proteins 0.000 claims description 16
- 101000599940 Homo sapiens Interferon gamma Proteins 0.000 claims description 16
- 101001055222 Homo sapiens Interleukin-8 Proteins 0.000 claims description 16
- 101001137987 Homo sapiens Lymphocyte activation gene 3 protein Proteins 0.000 claims description 16
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 claims description 16
- 101001117317 Homo sapiens Programmed cell death 1 ligand 1 Proteins 0.000 claims description 16
- 101001117312 Homo sapiens Programmed cell death 1 ligand 2 Proteins 0.000 claims description 16
- 101000836075 Homo sapiens Serpin B9 Proteins 0.000 claims description 16
- 101000951145 Homo sapiens Succinate dehydrogenase [ubiquinone] cytochrome b small subunit, mitochondrial Proteins 0.000 claims description 16
- 101000685323 Homo sapiens Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Proteins 0.000 claims description 16
- 101000874160 Homo sapiens Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Proteins 0.000 claims description 16
- 101000934888 Homo sapiens Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Proteins 0.000 claims description 16
- 101000831007 Homo sapiens T-cell immunoreceptor with Ig and ITIM domains Proteins 0.000 claims description 16
- 101000946843 Homo sapiens T-cell surface glycoprotein CD8 alpha chain Proteins 0.000 claims description 16
- 101000946833 Homo sapiens T-cell surface glycoprotein CD8 beta chain Proteins 0.000 claims description 16
- 101000664703 Homo sapiens Transcription factor SOX-10 Proteins 0.000 claims description 16
- 101000635938 Homo sapiens Transforming growth factor beta-1 proprotein Proteins 0.000 claims description 16
- 102100040061 Indoleamine 2,3-dioxygenase 1 Human genes 0.000 claims description 16
- 102100037850 Interferon gamma Human genes 0.000 claims description 16
- 102100026236 Interleukin-8 Human genes 0.000 claims description 16
- 102000017578 LAG3 Human genes 0.000 claims description 16
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 claims description 16
- 102100024216 Programmed cell death 1 ligand 1 Human genes 0.000 claims description 16
- 102100024213 Programmed cell death 1 ligand 2 Human genes 0.000 claims description 16
- 102100040678 Programmed cell death protein 1 Human genes 0.000 claims description 16
- 108010044012 STAT1 Transcription Factor Proteins 0.000 claims description 16
- 102100025517 Serpin B9 Human genes 0.000 claims description 16
- 102100029904 Signal transducer and activator of transcription 1-alpha/beta Human genes 0.000 claims description 16
- 102100038014 Succinate dehydrogenase [ubiquinone] cytochrome b small subunit, mitochondrial Human genes 0.000 claims description 16
- 102100023155 Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Human genes 0.000 claims description 16
- 102100035726 Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Human genes 0.000 claims description 16
- 102100025393 Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Human genes 0.000 claims description 16
- 102100024834 T-cell immunoreceptor with Ig and ITIM domains Human genes 0.000 claims description 16
- 102100034922 T-cell surface glycoprotein CD8 alpha chain Human genes 0.000 claims description 16
- 102100034928 T-cell surface glycoprotein CD8 beta chain Human genes 0.000 claims description 16
- 102100038808 Transcription factor SOX-10 Human genes 0.000 claims description 16
- 102100030742 Transforming growth factor beta-1 proprotein Human genes 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 16
- 102100025618 C-X-C chemokine receptor type 6 Human genes 0.000 claims description 15
- 102100028970 HLA class I histocompatibility antigen, alpha chain E Human genes 0.000 claims description 15
- 101000834898 Homo sapiens Alpha-synuclein Proteins 0.000 claims description 15
- 101000856683 Homo sapiens C-X-C chemokine receptor type 6 Proteins 0.000 claims description 15
- 101000986085 Homo sapiens HLA class I histocompatibility antigen, alpha chain E Proteins 0.000 claims description 15
- 101000611936 Homo sapiens Programmed cell death protein 1 Proteins 0.000 claims description 15
- 101001124792 Homo sapiens Proteasome subunit beta type-10 Proteins 0.000 claims description 15
- 101000979599 Homo sapiens Protein NKG7 Proteins 0.000 claims description 15
- 101000652359 Homo sapiens Spermatogenesis-associated protein 2 Proteins 0.000 claims description 15
- 102100029081 Proteasome subunit beta type-10 Human genes 0.000 claims description 15
- 102100023370 Protein NKG7 Human genes 0.000 claims description 15
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 238000009169 immunotherapy Methods 0.000 claims description 14
- 102000007530 Neurofibromin 1 Human genes 0.000 claims description 13
- 108010085793 Neurofibromin 1 Proteins 0.000 claims description 13
- 238000007689 inspection Methods 0.000 claims description 13
- 108010079362 Core Binding Factor Alpha 3 Subunit Proteins 0.000 claims description 12
- 102100023416 G-protein coupled receptor 15 Human genes 0.000 claims description 12
- 101000829794 Homo sapiens G-protein coupled receptor 15 Proteins 0.000 claims description 12
- 101000986810 Homo sapiens P2Y purinoceptor 8 Proteins 0.000 claims description 12
- 101000669402 Homo sapiens Toll-like receptor 7 Proteins 0.000 claims description 12
- 101000633045 Homo sapiens Zinc finger protein SNAI3 Proteins 0.000 claims description 12
- 102100028069 P2Y purinoceptor 8 Human genes 0.000 claims description 12
- 102100025369 Runt-related transcription factor 3 Human genes 0.000 claims description 12
- 102100039390 Toll-like receptor 7 Human genes 0.000 claims description 12
- 102100029573 Zinc finger protein SNAI3 Human genes 0.000 claims description 12
- 238000009104 chemotherapy regimen Methods 0.000 claims description 12
- 238000002626 targeted therapy Methods 0.000 claims description 12
- 101000868472 Homo sapiens Sialoadhesin Proteins 0.000 claims description 11
- 102100032855 Sialoadhesin Human genes 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 10
- 230000036438 mutation frequency Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 8
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 claims description 7
- 102000037984 Inhibitory immune checkpoint proteins Human genes 0.000 claims description 7
- 108091008026 Inhibitory immune checkpoint proteins Proteins 0.000 claims description 7
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 claims description 7
- 230000001225 therapeutic effect Effects 0.000 claims description 7
- 238000011497 Univariate linear regression Methods 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 5
- 238000011285 therapeutic regimen Methods 0.000 claims description 5
- 239000000439 tumor marker Substances 0.000 claims description 5
- YXTKHLHCVFUPPT-YYFJYKOTSA-N (2s)-2-[[4-[(2-amino-5-formyl-4-oxo-1,6,7,8-tetrahydropteridin-6-yl)methylamino]benzoyl]amino]pentanedioic acid;(1r,2r)-1,2-dimethanidylcyclohexane;5-fluoro-1h-pyrimidine-2,4-dione;oxalic acid;platinum(2+) Chemical compound [Pt+2].OC(=O)C(O)=O.[CH2-][C@@H]1CCCC[C@H]1[CH2-].FC1=CNC(=O)NC1=O.C1NC=2NC(N)=NC(=O)C=2N(C=O)C1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 YXTKHLHCVFUPPT-YYFJYKOTSA-N 0.000 claims description 4
- 101000701142 Homo sapiens Transcription factor ATOH1 Proteins 0.000 claims description 4
- 102100029373 Transcription factor ATOH1 Human genes 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 4
- JYEFSHLLTQIXIO-SMNQTINBSA-N folfiri regimen Chemical compound FC1=CNC(=O)NC1=O.C1NC=2NC(N)=NC(=O)C=2N(C=O)C1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1.C1=C2C(CC)=C3CN(C(C4=C([C@@](C(=O)OC4)(O)CC)C=4)=O)C=4C3=NC2=CC=C1OC(=O)N(CC1)CCC1N1CCCCC1 JYEFSHLLTQIXIO-SMNQTINBSA-N 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 238000002560 therapeutic procedure Methods 0.000 claims description 4
- 102000037982 Immune checkpoint proteins Human genes 0.000 claims description 3
- 108091008036 Immune checkpoint proteins Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 101150040459 RAS gene Proteins 0.000 claims description 2
- 101150076031 RAS1 gene Proteins 0.000 claims description 2
- 230000002980 postoperative effect Effects 0.000 claims description 2
- 102000016914 ras Proteins Human genes 0.000 claims description 2
- 101150117081 51 gene Proteins 0.000 claims 1
- 101000825162 Mus musculus Transcription factor Spi-C Proteins 0.000 claims 1
- 108700026223 Neurofibromatosis 1 Genes Proteins 0.000 claims 1
- 230000000392 somatic effect Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 51
- 230000007246 mechanism Effects 0.000 abstract description 9
- 239000000090 biomarker Substances 0.000 abstract description 5
- 206010028980 Neoplasm Diseases 0.000 description 99
- 208000008900 Pancreatic Ductal Carcinoma Diseases 0.000 description 69
- 201000008129 pancreatic ductal adenocarcinoma Diseases 0.000 description 69
- 230000035945 sensitivity Effects 0.000 description 67
- 230000008685 targeting Effects 0.000 description 52
- 108020004414 DNA Proteins 0.000 description 17
- STUWGJZDJHPWGZ-LBPRGKRZSA-N (2S)-N1-[4-methyl-5-[2-(1,1,1-trifluoro-2-methylpropan-2-yl)-4-pyridinyl]-2-thiazolyl]pyrrolidine-1,2-dicarboxamide Chemical compound S1C(C=2C=C(N=CC=2)C(C)(C)C(F)(F)F)=C(C)N=C1NC(=O)N1CCC[C@H]1C(N)=O STUWGJZDJHPWGZ-LBPRGKRZSA-N 0.000 description 15
- 229950010482 alpelisib Drugs 0.000 description 15
- 229960005395 cetuximab Drugs 0.000 description 13
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 11
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 11
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 description 10
- 102100033254 Tumor suppressor ARF Human genes 0.000 description 10
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 9
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 description 8
- 102100025725 Mothers against decapentaplegic homolog 4 Human genes 0.000 description 8
- 229950001969 encorafenib Drugs 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- CMJCXYNUCSMDBY-ZDUSSCGKSA-N lgx818 Chemical compound COC(=O)N[C@@H](C)CNC1=NC=CC(C=2C(=NN(C=2)C(C)C)C=2C(=C(NS(C)(=O)=O)C=C(Cl)C=2)F)=N1 CMJCXYNUCSMDBY-ZDUSSCGKSA-N 0.000 description 8
- 102000052609 BRCA2 Human genes 0.000 description 7
- 108700020462 BRCA2 Proteins 0.000 description 7
- 101150008921 Brca2 gene Proteins 0.000 description 7
- 206010061818 Disease progression Diseases 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 7
- 230000005750 disease progression Effects 0.000 description 7
- 229960003444 immunosuppressant agent Drugs 0.000 description 7
- 239000003018 immunosuppressive agent Substances 0.000 description 7
- 230000037361 pathway Effects 0.000 description 7
- 102100034540 Adenomatous polyposis coli protein Human genes 0.000 description 6
- 108700020463 BRCA1 Proteins 0.000 description 6
- 102000036365 BRCA1 Human genes 0.000 description 6
- 101150072950 BRCA1 gene Proteins 0.000 description 6
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 6
- 102100028914 Catenin beta-1 Human genes 0.000 description 6
- ZEOWTGPWHLSLOG-UHFFFAOYSA-N Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F Chemical compound Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F ZEOWTGPWHLSLOG-UHFFFAOYSA-N 0.000 description 6
- 108010079245 Cystic Fibrosis Transmembrane Conductance Regulator Proteins 0.000 description 6
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 6
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 6
- 102100031480 Dual specificity mitogen-activated protein kinase kinase 1 Human genes 0.000 description 6
- 102100023266 Dual specificity mitogen-activated protein kinase kinase 2 Human genes 0.000 description 6
- 102100028138 F-box/WD repeat-containing protein 7 Human genes 0.000 description 6
- 101710105178 F-box/WD repeat-containing protein 7 Proteins 0.000 description 6
- 102100023593 Fibroblast growth factor receptor 1 Human genes 0.000 description 6
- 101710182386 Fibroblast growth factor receptor 1 Proteins 0.000 description 6
- 102100023600 Fibroblast growth factor receptor 2 Human genes 0.000 description 6
- 101710182389 Fibroblast growth factor receptor 2 Proteins 0.000 description 6
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 6
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 6
- 102100031561 Hamartin Human genes 0.000 description 6
- 102100035108 High affinity nerve growth factor receptor Human genes 0.000 description 6
- 101000924577 Homo sapiens Adenomatous polyposis coli protein Proteins 0.000 description 6
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 6
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 6
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 6
- 101000795643 Homo sapiens Hamartin Proteins 0.000 description 6
- 101000596894 Homo sapiens High affinity nerve growth factor receptor Proteins 0.000 description 6
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 6
- 101000738901 Homo sapiens PMS1 protein homolog 1 Proteins 0.000 description 6
- 101001120056 Homo sapiens Phosphatidylinositol 3-kinase regulatory subunit alpha Proteins 0.000 description 6
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 6
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 6
- 101000579425 Homo sapiens Proto-oncogene tyrosine-protein kinase receptor Ret Proteins 0.000 description 6
- 101000702545 Homo sapiens Transcription activator BRG1 Proteins 0.000 description 6
- 101000795659 Homo sapiens Tuberin Proteins 0.000 description 6
- 101000997832 Homo sapiens Tyrosine-protein kinase JAK2 Proteins 0.000 description 6
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 6
- 108010068342 MAP Kinase Kinase 1 Proteins 0.000 description 6
- 108010068353 MAP Kinase Kinase 2 Proteins 0.000 description 6
- 229910015837 MSH2 Inorganic materials 0.000 description 6
- 208000032818 Microsatellite Instability Diseases 0.000 description 6
- 101150097381 Mtor gene Proteins 0.000 description 6
- 102000013609 MutL Protein Homolog 1 Human genes 0.000 description 6
- 108010026664 MutL Protein Homolog 1 Proteins 0.000 description 6
- 102100037482 PMS1 protein homolog 1 Human genes 0.000 description 6
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 6
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 6
- 102100026169 Phosphatidylinositol 3-kinase regulatory subunit alpha Human genes 0.000 description 6
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 6
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 6
- 102100028286 Proto-oncogene tyrosine-protein kinase receptor Ret Human genes 0.000 description 6
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 6
- 108700028341 SMARCB1 Proteins 0.000 description 6
- 102000052049 SMARCB1 Human genes 0.000 description 6
- 101150008214 SMARCB1 gene Proteins 0.000 description 6
- 102100023085 Serine/threonine-protein kinase mTOR Human genes 0.000 description 6
- 102100031027 Transcription activator BRG1 Human genes 0.000 description 6
- 102100031638 Tuberin Human genes 0.000 description 6
- 102100033444 Tyrosine-protein kinase JAK2 Human genes 0.000 description 6
- 230000003013 cytotoxicity Effects 0.000 description 6
- 231100000135 cytotoxicity Toxicity 0.000 description 6
- 230000008482 dysregulation Effects 0.000 description 6
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 6
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000001861 immunosuppressant effect Effects 0.000 description 6
- 102000008371 intracellularly ATP-gated chloride channel activity proteins Human genes 0.000 description 6
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 6
- 238000013077 scoring method Methods 0.000 description 6
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 5
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 description 5
- 102100037480 Mismatch repair endonuclease PMS2 Human genes 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000008595 infiltration Effects 0.000 description 5
- 238000001764 infiltration Methods 0.000 description 5
- 238000011269 treatment regimen Methods 0.000 description 5
- 102100025422 Bone morphogenetic protein receptor type-2 Human genes 0.000 description 4
- 102100035082 Homeobox protein TGIF2 Human genes 0.000 description 4
- 101000934635 Homo sapiens Bone morphogenetic protein receptor type-2 Proteins 0.000 description 4
- 101000596938 Homo sapiens Homeobox protein TGIF2 Proteins 0.000 description 4
- 101001030211 Homo sapiens Myc proto-oncogene protein Proteins 0.000 description 4
- 101001027324 Homo sapiens Progranulin Proteins 0.000 description 4
- 101000666385 Homo sapiens Transcription factor Dp-2 Proteins 0.000 description 4
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 4
- 102100037632 Progranulin Human genes 0.000 description 4
- 102100038312 Transcription factor Dp-2 Human genes 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 229960005277 gemcitabine Drugs 0.000 description 4
- SDUQYLNIPVEERB-QPPQHZFASA-N gemcitabine Chemical compound O=C1N=C(N)C=CN1[C@H]1C(F)(F)[C@H](O)[C@@H](CO)O1 SDUQYLNIPVEERB-QPPQHZFASA-N 0.000 description 4
- UWKQSNNFCGGAFS-XIFFEERXSA-N irinotecan Chemical compound C1=C2C(CC)=C3CN(C(C4=C([C@@](C(=O)OC4)(O)CC)C=4)=O)C=4C3=NC2=CC=C1OC(=O)N(CC1)CCC1N1CCCCC1 UWKQSNNFCGGAFS-XIFFEERXSA-N 0.000 description 4
- 229960004768 irinotecan Drugs 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 210000001082 somatic cell Anatomy 0.000 description 4
- 101150024461 86 gene Proteins 0.000 description 3
- 206010069754 Acquired gene mutation Diseases 0.000 description 3
- 102000004887 Transforming Growth Factor beta Human genes 0.000 description 3
- 108090001012 Transforming Growth Factor beta Proteins 0.000 description 3
- ACWZRVQXLIRSDF-UHFFFAOYSA-N binimetinib Chemical compound OCCONC(=O)C=1C=C2N(C)C=NC2=C(F)C=1NC1=CC=C(Br)C=C1F ACWZRVQXLIRSDF-UHFFFAOYSA-N 0.000 description 3
- 229950003054 binimetinib Drugs 0.000 description 3
- 238000001647 drug administration Methods 0.000 description 3
- 238000011065 in-situ storage Methods 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 230000037439 somatic mutation Effects 0.000 description 3
- ZRKFYGHZFMAOKI-QMGMOQQFSA-N tgfbeta Chemical compound C([C@H](NC(=O)[C@H](C(C)C)NC(=O)CNC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CC(C)C)NC(=O)CNC(=O)[C@H](C)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](C)NC(=O)[C@H](C)NC(=O)[C@@H](NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CCSC)C(C)C)[C@@H](C)CC)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](C)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N[C@@H](CC(C)C)C(=O)N1[C@@H](CCC1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(O)=O)C1=CC=C(O)C=C1 ZRKFYGHZFMAOKI-QMGMOQQFSA-N 0.000 description 3
- 238000007671 third-generation sequencing Methods 0.000 description 3
- IEYOHYVYEJVEJJ-SKDRFNHKSA-N (4s,5r)-3-[6-[2-amino-4-(trifluoromethyl)pyrimidin-5-yl]-2-morpholin-4-ylpyrimidin-4-yl]-4-(hydroxymethyl)-5-methyl-1,3-oxazolidin-2-one Chemical compound OC[C@H]1[C@@H](C)OC(=O)N1C1=CC(C=2C(=NC(N)=NC=2)C(F)(F)F)=NC(N2CCOCC2)=N1 IEYOHYVYEJVEJJ-SKDRFNHKSA-N 0.000 description 2
- CDKIEBFIMCSCBB-UHFFFAOYSA-N 1-(6,7-dimethoxy-3,4-dihydro-1h-isoquinolin-2-yl)-3-(1-methyl-2-phenylpyrrolo[2,3-b]pyridin-3-yl)prop-2-en-1-one;hydrochloride Chemical compound Cl.C1C=2C=C(OC)C(OC)=CC=2CCN1C(=O)C=CC(C1=CC=CN=C1N1C)=C1C1=CC=CC=C1 CDKIEBFIMCSCBB-UHFFFAOYSA-N 0.000 description 2
- 102000010400 1-phosphatidylinositol-3-kinase activity proteins Human genes 0.000 description 2
- 101150101112 7 gene Proteins 0.000 description 2
- 102100035682 Axin-1 Human genes 0.000 description 2
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 2
- 102100038631 E3 ubiquitin-protein ligase SMURF1 Human genes 0.000 description 2
- 101000874566 Homo sapiens Axin-1 Proteins 0.000 description 2
- 101000664993 Homo sapiens E3 ubiquitin-protein ligase SMURF1 Proteins 0.000 description 2
- 101001006892 Homo sapiens Krueppel-like factor 10 Proteins 0.000 description 2
- 101001006895 Homo sapiens Krueppel-like factor 11 Proteins 0.000 description 2
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 2
- 101000595669 Homo sapiens Pituitary homeobox 2 Proteins 0.000 description 2
- 101000772905 Homo sapiens Polyubiquitin-B Proteins 0.000 description 2
- 101001095320 Homo sapiens Serine/threonine-protein phosphatase PP1-beta catalytic subunit Proteins 0.000 description 2
- 101000688996 Homo sapiens Ski-like protein Proteins 0.000 description 2
- 101000895882 Homo sapiens Transcription factor E2F4 Proteins 0.000 description 2
- 101001028730 Homo sapiens Transcription factor JunB Proteins 0.000 description 2
- 101001050297 Homo sapiens Transcription factor JunD Proteins 0.000 description 2
- 102100027798 Krueppel-like factor 10 Human genes 0.000 description 2
- 102100027797 Krueppel-like factor 11 Human genes 0.000 description 2
- 102100020679 Krueppel-like factor 6 Human genes 0.000 description 2
- 108091054455 MAP kinase family Proteins 0.000 description 2
- 102000043136 MAP kinase family Human genes 0.000 description 2
- 102100025744 Mothers against decapentaplegic homolog 1 Human genes 0.000 description 2
- 102100025748 Mothers against decapentaplegic homolog 3 Human genes 0.000 description 2
- 101710143111 Mothers against decapentaplegic homolog 3 Proteins 0.000 description 2
- 102100028448 Nuclear receptor subfamily 2 group C member 2 Human genes 0.000 description 2
- 108091007960 PI3Ks Proteins 0.000 description 2
- 102100036090 Pituitary homeobox 2 Human genes 0.000 description 2
- 102100030432 Polyubiquitin-B Human genes 0.000 description 2
- 101700032040 SMAD1 Proteins 0.000 description 2
- 102100037764 Serine/threonine-protein phosphatase PP1-beta catalytic subunit Human genes 0.000 description 2
- 102100024451 Ski-like protein Human genes 0.000 description 2
- 102100021783 Transcription factor E2F4 Human genes 0.000 description 2
- 102100037168 Transcription factor JunB Human genes 0.000 description 2
- 102100023118 Transcription factor JunD Human genes 0.000 description 2
- 238000011226 adjuvant chemotherapy Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000010171 animal model Methods 0.000 description 2
- 230000000973 chemotherapeutic effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000857 drug effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 210000002865 immune cell Anatomy 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 150000007523 nucleic acids Chemical group 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 108091008743 testicular receptors 4 Proteins 0.000 description 2
- 101150033839 4 gene Proteins 0.000 description 1
- 101150111660 53 gene Proteins 0.000 description 1
- 101100215673 Arabidopsis thaliana AGL11 gene Proteins 0.000 description 1
- 101100322915 Caenorhabditis elegans akt-1 gene Proteins 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 208000002699 Digestive System Neoplasms Diseases 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 101000883798 Homo sapiens Probable ATP-dependent RNA helicase DDX53 Proteins 0.000 description 1
- 101000714243 Homo sapiens Transcription factor IIIB 90 kDa subunit Proteins 0.000 description 1
- 206010061598 Immunodeficiency Diseases 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102100030610 Mothers against decapentaplegic homolog 5 Human genes 0.000 description 1
- 101710143113 Mothers against decapentaplegic homolog 5 Proteins 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 102100038236 Probable ATP-dependent RNA helicase DDX53 Human genes 0.000 description 1
- 101710089372 Programmed cell death protein 1 Proteins 0.000 description 1
- 108091008611 Protein Kinase B Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 101150073911 STK gene Proteins 0.000 description 1
- 108010029176 Sialic Acid Binding Ig-like Lectin 1 Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102100036535 Transcription factor IIIB 90 kDa subunit Human genes 0.000 description 1
- 239000002671 adjuvant Substances 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001506 immunosuppresive effect Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012177 large-scale sequencing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 102000027540 membrane-bound PRRs Human genes 0.000 description 1
- 108091008872 membrane-bound PRRs Proteins 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000002625 monoclonal antibody therapy Methods 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000011275 oncology therapy Methods 0.000 description 1
- 210000000277 pancreatic duct Anatomy 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
Abstract
本发明涉及基因检测及生物信息学领域,公开了一种应用在结直肠肿瘤状态评估中的基于高通量测序数据和临床表型构建的状态评估模型的运行系统,公开了基于转录组数据、外显子组/基因组数据和临床表型挖掘结直肠癌标志物的方法,设计了一套整合高通量测序数据和临床表型构建结直肠癌状态评估模型的计算方法,筛选到了结直肠癌相关的生物标志物,形成了相应的状态评估模型。通过本发明方法的模型和系统,构建得到准确性与机制解释性兼顾的标志物,用于结直肠癌预后评估、治疗效果预测及治疗方案辅助决策等。
Description
技术领域
本发明涉及基因检测及生物信息学技术领域,具体涉及一种基于高通量测序数据和临床表型构建结直肠癌状态评估方法,及其相关检测panel设计和实施应用案例。
背景技术
第一代测序技术,通过双脱氧末端终止法或化学切割法,获得序列特定位置的碱基信息,利用电泳和显影读取核酸序列。基因芯片技术,通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,实现了高通量并行化,缺点在于可重复性和灵敏度有待增强,分析范围不够广泛。二代测序技术,又称新一代测序技术(next-generation sequencing,NGS),与第一代测序不同,通过体外片段扩增和边合成边测序,实现了高通量并行化测序,主要缺点是读长短。第三代测序技术,又称单分子测序技术,无需扩增,直接通过检测模板序列的荧光信号或电信号,不受读长限制地直接读取模板序列信息。高通量测序数据(第二代或第三代测序技术生成),在DNA层面可以高通量检测突变,包括点突变、插入缺失突变、基因融合、拷贝数变异等,在RNA层面则可高通量检测基因定量表达水平、可变基因剪切与融合等,对于精准医学发展起到重要推动作用。
以肿瘤、心脑血管疾病、代谢类疾病为代表的复杂疾病是人类健康的重大威胁,目前对复杂疾病致病机制的研究,得益于生物技术的快速发展,有了长足进步。基于复杂疾病样本的高通量测序数据,可以从分子水平阐释复杂疾病的发生、进展、转归、治疗和预后的规律,辅助有效评估肿瘤状态,为制定精准有效的治疗方案提供指导。肿瘤是复杂疾病的典型代表,其导致的可检测的突变或异常表达基因,同具体肿瘤临床表型密切相关时,即有可能作为分子肿瘤标志物,用于诊断、风险评估、预后、指导治疗、进展和安全性评估等。
基于高通量测序数据的复杂疾病标志物发现技术和相关标志物检测评估方案已经取得长足进步,但仍面临如下不足有待克服:1)标志物挖掘方法相对简单,准确性和可解释性亟需增强。对于多基因相关的复杂疾病,基于单个基因的标志物难以达到高准确性;相对于提高准确性,对标志物的机制可解释性关注更为不足。这既不符合循证医学理念以及理解标志物关键原理,也不利于实现标志物的理论最优组合,从而提高其鲁棒性和可重复性。2)检测和评估内容相对单一,功能有限。目前,由于基因收集筛选能力和测序成本,同一标志物检测方案覆盖的基因相对较少,实际应用中以单位点或小片段突变为主要评估指标,近年来以基因表达水平和检测panel中所有基因整体突变水平作为标志物评估的方案日益受到关注;在功能方面,以位点或基因相关靶向药效果预测为主,对于更广泛的手术、化疗、放疗、免疫治疗等指导意义有限。3)标志物设计及配套数据分析工具,对多元信息的利用不够充分。目前多数设计方案仅针对药物指南、标签以及有限的文献收集,技术路线侧重于单一组学层面,基于大规模测序结果、公共数据库及文本挖掘技术综合分析较少,对涵盖多种分子组学和临床表型信息的多元数据整合分析严重不足。
发明内容
为了解决上述问题,本发明提出了一种基于转录组数据、外显子组/基因组数据和临床表型挖掘结直肠癌标志物的方法,设计了一套整合高通量测序数据和临床表型构建结直肠癌状态评估模型的计算方法,筛选到了结直肠癌相关的生物标志物,形成了相应的疾病状态评估模型。
通过本发明建立的方法挖掘到的结直肠癌标志物,兼顾标志物准确性与机制解释性;本发明所设计的结直肠癌状态评估模型构建方法,对多元信息利用充分,评价指标丰富,功能系统全面实用,涵盖筛选挖掘、建模评分与检测panel设计等。以上技术创新能在结直肠癌标志物挖掘和状态评估模型构建中进行了具体实施。
本发明提出了一种基于转录组数据、外显子组数据和临床表型挖掘复杂疾病标志物的方法,包括以下步骤:
步骤1)对复杂疾病病例信息分类整理:
步骤1.1)将所述复杂疾病病例信息分为转录组数据、外显子组/基因组数据和临床信息;
步骤1.2)将所述复杂疾病病例信息按照疾病状态分类并进行配对整理;以上信息分类将用于步骤2三种方法模式的选择。
步骤2)构建复杂疾病标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述复杂疾病病例信息仅涉及转录组数据与临床信息,则执行步骤2.1)基于转录组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因异常调控关系标志物组合;
若所述复杂疾病病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因变异标志物组合;
若所述复杂疾病病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤2.1)包括以下子步骤:
步骤2.1.1)构建参考基因调控网络:从公共数据资源中可获取的转录调控关系信息以及人类编码基因启动子序列出发,识别潜在的转录因子(transcriptional factor,TF)与靶基因(target)关系对,构建参考基因调控网络(Reference Gene RegulationNetwork,rGRN)。
步骤2.1.2)基于特定疾病状态下的转录组表达数据以及rGRN中的TF-target关系,构建特定疾病状态下的,即条件特异的基因调控网络(Conditional Gene RegulationNetwork,cGRN)。步骤2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异的基因调控网络,即特定疾病状态的基因调控网络。
步骤2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异:采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异的基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异的基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异。
步骤2.1.4)筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系:
整合三方面与基因调控相关的因素,筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化,以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序。
步骤2.1.5)基于基因异常调控关系,构建复杂疾病状态(如疾病进展阶段、预后、治疗方案敏感性)相关的基因异常调控关系标志物组合,该标志物组合可用于疾病进展评估、预后评估、治疗方案辅助决策。
步骤2.1.5从基因异常调控关系出发,采用Cox回归模型筛选与疾病状态,如疾病进展阶段、预后、治疗方案敏感性相关的标志物组合。其中,涉及每个异常调控基因对的Cox模型构建及其C-index比较、基于贪婪算法的异常调控基因对逐次增加迭代,以及基于遗传算法的进化式迭代。
具体地,所述步骤2.2)包括以下子步骤:
步骤2.2)基于外显子组/基因组数据与临床信息的标志物挖掘;
步骤2.2.1)识别与复杂疾病相关的基因变异;其中,与疾病状态相关的DNA变异包括基因拷贝数与体细胞突变,包括但不限于单个碱基多态性(SNP)、插入与缺失(Indel)、拷贝数变异(CNV)、基因融合(fusion)、基因重排(rearrangement)等高通量测序技术可以检测的变异;
步骤2.2.2)采用数据驱动和/或先验知识驱动定量筛选复杂疾病状态相关的重要基因变异;其中,数据定量过滤筛选,涉及体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的复杂疾病相关基因;
步骤2.2.3)基于步骤2.2.2)得到的复杂疾病状态相关的重要基因变异,构建复杂疾病状态(如疾病进展阶段、预后、治疗方案敏感性)相关的DNA变异标志物组合,该标志物组合可用于疾病进展评估、预后评估、治疗方案辅助决策。其中,采用Cox回归模型筛选与疾病状态,如疾病进展阶段、预后、治疗方案敏感性相关的DNA变异标志物组合。其中,涉及每个变异的Cox模型构建及其C-index比较、基于贪婪算法的重要变异逐次增加迭代,以及基于遗传算法的进化式迭代。以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建复杂疾病相关的基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤2.3)包括以下子步骤:
步骤2.3.1)对于同时具备转录组数据和外显子组/基因组数据的复杂疾病数据集,利用步骤2.1.1~2.1.4筛选疾病状态相关的基因异常调控关系,同时利用步骤2.2.1~2.2.2挖掘疾病状态相关的重要基因变异,分别得到复杂疾病相关的基因异常调控关系和重要基因变异;
步骤2.3.2)随后采纳步骤2.1.5和步骤2.2.3中,基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,整合RNA和DNA信息,构建复杂疾病相关的基因异常调控关系和基因变异标志物组合。
基于上述方法得到的复杂疾病标志物,本发明提出了一种复杂疾病综合状态评分方法,包括以下步骤:
步骤3.1)针对已知先验知识,筛选复杂疾病状态相关的临床信息(如疾病进展阶段、预后、治疗方案敏感性)及检验和病理指标;
步骤3.2)从复杂疾病队列中病例信息出发,筛选复杂疾病状态相关的临床信息及检验和病理指标;
步骤3.3)将本发明方法得到的复杂疾病相关的基因异常调控关系和/或基因变异标志物组合,同步骤3.1和3.2筛选所得复杂疾病状态相关的临床信息及检验和病理指标整合,优化成为复杂疾病多元标志物组合,构建复杂疾病综合状态评分模型;所述模型用于复杂疾病综合状态评分计算。其中,利用基于贪婪算法的逐次增加迭代和/或基于遗传算法的进化迭代,将复杂疾病相关的基因异常调控关系和/或基因变异标志物组合、复杂疾病相关临床信息及检验和病理指标,整合优化精简特征后形成复杂疾病多元标志物组合,包含复杂疾病相关的基因异常调控关系、基因变异、临床信息、检验和病例指标;进而利用统计回归和机器学习算法,针对复杂疾病预后评估、治疗效果预测及治疗方案辅助决策,构建复杂疾病综合状态评分模型。
具体地,步骤3.1采用公开渠道可获得的国内外最新临床指南、专家共识和推荐意见,药物临床应用指南,来自中国临床肿瘤学会(CSCO)、美国国家综合癌症网络(NCCN)、美国临床肿瘤学会(ASCO)、欧洲肿瘤内科学会(ESMO)和日本肿瘤学会(JSC)的临床实践指南,以及通用知识库中的复杂疾病相关各类检验指标,结合复杂疾病相关知名本体库和公开发表的权威文献,系统检索和挖掘同复杂疾病进展、治疗方案敏感性和预后高度关联的检验指标,去除冗余后,纳入后续模型及工具开发。
具体地,步骤3.2基于可以得到的复杂疾病队列数据,整合复杂疾病状态评估相关检验指标和临床信息构建模型,利用预测评估指标(如C-index、AUC),采用机器学习特征选择策略,如Boruta、Bayes、NMF、单变量线性回归,筛选对临床信息预测效果位于前列的检验指标。
具体地,步骤3.3利用统计建模或机器学习手段,将前文所述测序组学标志物、临床检验指标,以及基于疾病队列信息筛选到的指标,结合病例临床信息,训练实现复杂疾病状态评估模型;并以更为准确可靠地预测复杂疾病患者预后状态和治疗方案受益情况为目标,综合使用各类指标(如生存曲线、C-index、AUC等)精简特征组合(最优组合目标是特征数量少,准确可靠,机制可解释性强),迭代优化状态评估模型。
本发明提出了一种复杂疾病综合状态评分计算系统,采用本发明复杂疾病综合状态评分方法,将复杂疾病综合状态评分模型开发封装为方便使用的复杂疾病综合状态评分计算系统(如软件、在线服务器形式)。其中,必须包括实用方便的输入和输出模块和评分模型,其中输出内容应至少包括复杂疾病的分类及风险评分以及对应的治疗受益预测提示等信息。
本发明提出了一种基因检测panel设计方法,包括以下步骤:
步骤4.1)基于本发明方法筛选得到复杂疾病相关的基因异常调控关系和/或基因变异标志物组合,并最终纳入本发明所述复杂疾病综合状态评分方法的基因集,梳理基因集中基因相关信息,去除冗余,确定标准基因名;
步骤4.2)针对步骤4.1)中梳理后的基因,选择用于复杂疾病检测设计的靶基因目标区域,可用于探针设计或引物设计;
步骤4.3)根据步骤4.2)中的靶基因目标区域,设计相应的探针和/或引物序列,并记录重要注释;
步骤4.4)针对步骤4.2)中的靶基因目标区域,参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域进行优化设计,使探针和/或引物能均匀捕获覆盖目标区域;
步骤4.5)将步骤4.3和4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对,获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案;
步骤4.6)基于步骤4.5设计的靶基因目标区域相关探针和/或引物,制作出用于充分进行复杂疾病状态评估的基因检测panel。
具体地,步骤4.2选择探针设计的基因目标区域时,采取精准优先、逐步扩大的原则,首先采用变异位点区域,次优选择变异位点所在外显子区域,最后可采用变异基因的全部可变剪切区域。其中,选择用于复杂疾病检测的探针和/或引物设计的靶基因目标区域,遵循以下原则:对于变异位点信息明确具体且该变异位点序列前后各100bp范围内无其它变异位点,则将此已明确的基因位点覆盖区域作为靶基因目标区域;对于变异位点较集中或密集的基因区域,即两个变异位点相邻且间隔不超过100bp,则选择该组变异位点的外显子作为靶基因目标区域;对于步骤4.1)确定的信息非常多样的重要基因,在前两项设计不适用的情况下,则选择该基因全部可变剪切类型的区域作为靶基因目标区域。
具体地,步骤4.3)中的设计是指采用对步骤4.2)中的靶基因目标区域两端延伸,合并延伸后的全部目标区域并去除冗余;以合适的文件格式记录探针和/或引物设计的靶基因目标区域的重要信息,包括靶基因目标区域的染色体编号、靶基因目标区域的起始位置、靶基因目标区域的终止位置、突变位点信息、自定义信息,如引物设计所需3’端信息。
具体地,步骤4.4)中参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域设计的探针和/或引物覆盖深度进行加权,并基于人类全基因组测序数据预测其探针和/或引物覆盖深度后,在全探针和/或引物数据集进行调整,使探针和/或引物能均匀捕获覆盖目标区域。
具体地,步骤4.5综合比对步骤4.3和步骤4.4所生成的探针设计区域,并同时测评探针对重要变异位点和全部目标区域的覆盖度,获取具有最优覆盖度的探针设计方案。其中,步骤4.5)中靶基因目标区域相关探针和/或引物的最优覆盖度是指计算探针和/或引物对步骤4.1)所述重要基因变异位点的覆盖度和全部靶基因目标区域的覆盖度,计算公式为:覆盖度=比对上的读长数/目标测序读长数;通过靶基因目标区域附近的优化,使得最终设计的探针和/或引物,对全部靶基因目标区域的覆盖度≥90%,同时对步骤4.1)所述重要基因变异位点的覆盖度≥97%。
本发明中,步骤4.1至4.6整体上是一个综合流程,可以根据具体检测中采用的检测平台,如PCR、NGS、三代测序、NanoString等。针对不同领域和技术经验规范,可进行相应的调整优化。
本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法,基于复杂疾病状态评估基因检测panel同综合状态评分计算系统的联用进行评估,包括以下步骤:
步骤5.1)基于本发明所述方法设计的基因检测panel,得到复杂疾病相关的基因异常调控关系和/或基因变异标志物组合的定量值,本发明所述的复杂疾病综合状态评分计算系统;
步骤5.2)将获取本发明所述复杂疾病状态相关的临床信息及检验和病理指标的定量值,输入本发明所述的复杂疾病综合状态评分计算系统;
步骤5.3)将步骤5.1)和5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求可以完成检测、信息输入、计算评估和结果获取,顺利获得评估状态和提示建议输出等有效信息。
本发明中,步骤5.1采用适应具体应用需求的方式,如检测装置或试剂盒,灵活获取DNA和RNA层面包括但不限于拷贝数、基因变异和基因表达在内的多种组学信息,以得到输入综合状态评分计算系统的定量数值为目标,并确定规范输入方式。
本发明中,步骤5.2采用适合应用场景,并与步骤5.1中基因检测panel配套的硬件或软件模块,以自动化或人工方式从HIS或EMR等医学信息系统中获取可以输入综合状态评分计算系统的病例检测指标和临床信息,并确定规范输入方式。
本发明中,步骤5.3构建的基因检测panel同综合评分系统的联用方法,以符合应用需求为目标,组合形式灵活多样,包括但不限于试剂盒/软件,检测装置/数据处理一体机,试剂盒/检测装置/数据在线分析平台等形式;使用者可以按说明文档,以最方便友好和高效的形式,输入个体病例的必要信息,包括复杂疾病相关的基因异常调控关系和/或基因变异标志物组合、复杂疾病相关临床信息及检验和病理指标,自动化或半自动化进行数据汇总统计和预处理之后,完成计算评估,并输出该个体病例的分类及风险评分以及对应的治疗受益预测提示等信息;最终可以实现对复杂疾病个体病例状态的评估,辅助临床决策等功能。
本发明所述的方法在构建基于高通量测序数据和临床表型构建复杂疾病状态评估模型中的应用,包括在筛选复杂疾病综合状态评估标志物组合中的应用;在筛选肿瘤综合状态评估标志物组合中的应用;在复杂疾病预后评估、治疗效果预测及治疗方案辅助决策中的应用。
本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估模型方法在结直肠肿瘤状态评估模型中的应用(包括:结直肠肿瘤状态评估模型构建方法;结直肠肿瘤状态评估panel设计方法;结直肠肿瘤状态评估方法、等),包括基因对应DNA突变及RNA表达信息,适用于预后、化疗、靶向和免疫治疗的状态评估,所述应用包括以下步骤:
步骤14.1)获取结直肠肿瘤病例信息,包括高通量测序数据和临床信息,根据结直肠肿瘤病例状态分类并进行配对整理,并确定挖掘模式;
步骤14.2)构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合;
步骤14.3)筛选结直肠肿瘤相关的临床信息及检验和病理指标;参考结直肠肿瘤相关的基因异常调控关系和步骤14.2所得基因变异标志物组合,整合优化为结直肠肿瘤多元标志物组合,用于构建结直肠肿瘤综合状态评分模型,并开发封装为结直肠肿瘤综合状态评分计算系统;
步骤14.4)基于步骤14.2所得结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合,设计结直肠肿瘤综合状态评估的靶基因目标区域相关探针和/或引物,用作结直肠肿瘤综合状态评估基因检测panel;
步骤14.5)构建一套结直肠肿瘤综合状态评估基因检测panel和综合状态评分计算系统联用流程,使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤14.1中,对结直肠肿瘤病例信息进行分类整理:
步骤14.1.1)将所述结直肠肿瘤病例信息分为转录组数据、外显子组/基因组数据和临床信息;
步骤14.1.2)将所述结直肠肿瘤病例信息按照疾病状态分类并进行配对整理。
具体地,步骤14.2中,构建结直肠肿瘤标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述结直肠肿瘤病例信息仅涉及转录组数据与临床信息,则执行步骤14.2.1)基于转录组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因异常调控关系标志物组合;
若所述结直肠肿瘤病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤14.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因变异标志物组合;
若所述结直肠肿瘤病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤14.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤14.2.1)具体包括以下子步骤:
步骤14.2.1.1)构建参考基因调控网络;
步骤14.2.1.2)基于结直肠肿瘤特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系,构建条件特异的基因调控网络;
步骤14.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异;
步骤14.2.1.4)筛选不同结直肠肿瘤疾病状态下的条件特异的基因调控网络之间的基因异常调控关系;
步骤14.2.1.5)基于步骤14.2.1.4)得到的基因异常调控关系,构建结直肠肿瘤相关的基因异常调控关系标志物组合。
具体地,步骤14.2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异,即结直肠肿瘤特定疾病状态的基因调控网络。
具体地,步骤14.2.1.3)中,采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异。
具体地,步骤14.2.1.4)中,整合三方面与基因调控相关的因素,筛选结直肠肿瘤不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化,以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序。
具体地,步骤14.2.1.5)中以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建结直肠肿瘤相关的基因异常调控关系标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤14.2.2)具体包括以下子步骤:
步骤14.2.2.1)识别与结直肠肿瘤相关的基因变异;
步骤14.2.2.2)采用数据驱动和/或先验知识驱动定量筛选结直肠肿瘤状态相关的重要基因变异;
步骤14.2.2.3)基于步骤14.2.2.2)得到的结直肠肿瘤状态相关的重要基因变异,构建结直肠肿瘤相关的基因变异标志物组合。
具体地,步骤14.2.2.2)中,数据定量过滤筛选,涉及体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的结直肠肿瘤相关基因。
具体地,步骤14.2.2.3)中,以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建结直肠肿瘤相关的基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤14.2.3)具体包括以下子步骤:
步骤14.2.3.1)对于同时具备转录组数据和外显子组/基因组数据的结直肠肿瘤数据集,利用步骤14.2.1.1~14.2.1.4筛选疾病状态相关的基因异常调控关系,同时利用步骤14.2.2.1~14.2.2.2挖掘疾病状态相关的重要基因变异,分别得到结直肠肿瘤相关的基因异常调控关系和重要基因变异;
步骤14.2.3.2)随后采纳步骤14.2.1.5和步骤14.2.2.3中,基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,整合RNA和DNA信息,构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤14.3中,筛选结直肠肿瘤相关的临床信息及检验和病理指标包括以下步骤:
步骤14.3.1)针对已知先验知识,筛选结直肠肿瘤状态相关的临床信息及检验和病理指标;
步骤14.3.2)从结直肠肿瘤队列中病例信息出发,筛选结直肠肿瘤状态相关的临床信息及检验和病理指标。
具体地,所述步骤14.3中,结直肠肿瘤相关基因异常调控关系通过以下方法得到:
将得到的结直肠肿瘤相关的基因异常调控关系和/或基因变异标志物组合,同步骤14.3.1和14.3.2筛选所得结直肠肿瘤状态相关的临床信息及检验和病理指标整合,优化为结直肠肿瘤多元标志物组合。
具体地,所述步骤14.4中,基因检测panel设计包括以下步骤:
步骤14.4.1)基于筛选得到结直肠肿瘤相关基因异常调控关系和/或基因变异标志物组合,并最终纳入结直肠肿瘤综合状态评分方法的基因集,梳理基因集中基因相关信息,去除冗余,确定标准基因名;
步骤14.4.2)针对步骤14.4.1)中梳理后的基因,选择用于结直肠肿瘤检测设计的靶基因目标区域,可用于探针设计或引物设计;
步骤14.4.3)根据步骤14.4.2)中的靶基因目标区域,设计相应的探针和/或引物序列,并记录重要注释;
步骤14.4.4)针对步骤14.4.2)中的靶基因目标区域,参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域进行优化设计,使探针和/或引物能均匀捕获覆盖目标区域;
步骤14.4.5)将步骤14.4.3和14.4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对,获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案;
步骤14.4.6)基于步骤14.4.5设计的靶基因目标区域相关探针和/或引物,制作出用于充分进行结直肠肿瘤状态评估的基因检测panel。
具体地,步骤14.5中,所述联用流程包括以下步骤:
步骤14.5.1)基于本发明所述方法设计的基因检测panel,得到结直肠肿瘤相关基因异常调控关系和/或基因变异标志物组合的定量值,输入结直肠肿瘤综合状态评分计算系统;
步骤14.5.2)将获取的结直肠肿瘤状态相关的临床信息及检验和病理指标的定量值,输入结直肠肿瘤综合状态评分计算系统;
步骤14.5.3)将步骤14.5.1)和14.5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤14.2)中结直肠肿瘤相关基因异常调控关系和基因变异标志物组合,具体基因集包括以下53个基因:RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1、KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E之任一及其组合;具体地,所有53个基因组合可用于生存预后评估;RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1用于化疗方案效果预测;KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1用于靶向治疗方案效果预测,PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,以及免疫检查点抑制剂治疗效果预测。
步骤14.3中结直肠肿瘤相关的临床信息及检验和病理指标,同结直肠肿瘤相关基因异常调控关系和基因变异标志物组合的53个基因,一起组成结直肠肿瘤多元标志物组合,用于预后效果、化疗、靶向治疗和免疫治疗效果预测,辅助临床决策;具体地,所有53个基因均用于生存预后评估,其低评分组预示病例预后效果较好;其中RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1用于化疗方案效果预测(特别是术后场景),包括5-FU和联合ADJC(包括FOLFIRI、FOLFOX和FUFOL),为基于病理分期的半定量化疗方案选择,提供定量评分,低评分组病例更能从化疗中受益;KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1用于靶向治疗方案效果预测,其相应基因表达或变异评分,同靶向药受益密切相关,如HER2高评分病例,更可能从HER2单抗药物治疗获益;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,以上基因评分的免疫低风险亚型,免疫细胞浸润程度高,免疫细胞毒性强,免疫检查点激活程度高,更易从免疫检查点抑制剂治疗中受益。
具体地,步骤14.4中设计的结直肠肿瘤综合状态评估的53个靶基因目标区域相关探针和/或引物,对靶基因目标区域覆盖度不低于95%,对其中重要基因变异位点的覆盖度不低于97%;以上53个靶基因目标区域,既可整体作为一个检测panel,也根据具体用途分为3个检测panel,包括化疗状态评估检测panel(包括RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1等基因,),靶向治疗状态评估检测panel(包括RAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1等基因)和免疫治疗状态评估检测panel(包括PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E)。
本发明步骤14.1所述数据获取整理,充分涵盖已公开结直肠肿瘤数据集,包括但不限于TCGA、GEO、ICGC等,并纳入生存、用药治疗效果等信息,并实现对以上信息相关转录组和外显子组标志物的系统挖掘。
本发明步骤14.2所述方法,整合三方面与基因调控相关的因素,筛选结直肠肿瘤cGRN之间的基因异常调控关系,包括:TF-target调控强度显著变化、target表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致。同时,可根据调控强度的差异程度,对筛选到的基因异常调控关系进行排序;并基于对病例预后生存和治疗方案效果预测能力,采用基于贪婪算法的逐次增加迭代,挖掘转录组相关标志物,且该标志物组合具有准确可靠,机制可解释性强的特点。
本发明步骤14.2所述方法,综合采用数据驱动和先验知识驱动的定量筛选策略,使用了基于遗传算法的进化迭代方法,筛选结直肠肿瘤状态如进展阶段、预后生存、治疗方案敏感性相关的高频DNA变异标志物组合,且该标志物组合具有准确可靠,机制可解释性强的特点。
本发明步骤14.3所述基因集和模型系统,可以实现结直肠癌病人的综合状态评分,且该评分同结直肠肿瘤预后生存和治疗手段(包括但不限于化疗、靶向、免疫抑制剂等)效果有较高相关性。具体来看,所有输入特征均对生存预后有所贡献;但对治疗手段效果预测的权重有所不同,其中RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1的贡献集中在化疗方案效果预测,包括5-FU和联合ADJC(包括FOLFIRI、FOLFOX和FUFOL),为基于病理分期的半定量化疗方案选择,提供有效的定量评分支持;KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1的贡献侧重于靶向治疗方案效果预测,而PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E侧重于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,对免疫抑制剂治疗方案效果预测贡献较大;手术情况(有/无)、病理级别(I-IV)和微卫星不稳定(MSI)等信息对于预后和治疗效果预测均有贡献。
本发明步骤14.4和14.5所述panel设计及评估系统联用流程,可实现探针设计捕获效率和目标区域覆盖度均较高,panel和评分模块可以根据需求灵活调整,用于结直肠肿瘤病人综合状态评估,并辅助临床决策包括但不限于辅助手术方案、化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。panel和评分模块的灵活调整,示例如下:仅使用异常调控4-DysReg涵盖的7个基因(RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1)标志物组合,可以作为一个小panel,并保留相关的状态评分模型即可组成一个定位于结直肠癌辅助化疗方案状态评估流程。以上思路,同样适用于靶向治疗和免疫抑制剂治疗方案状态评估流程的单独提取,缩小panel,降低检测成本。
本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法在胰腺导管癌状态评估中的应用,包括以下步骤:
步骤15.1)获取胰腺导管癌病例信息,包括高通量测序数据和临床信息,根据胰腺导管癌病例状态分类并进行配对整理;
步骤15.2)构建胰腺导管癌相关的基因异常调控关系和基因变异标志物组合;
步骤15.3)筛选胰腺导管癌相关的临床信息及检验和病理指标;参考胰腺导管癌相关的基因异常调控关系和同步骤15.2所得胰腺导管癌相关的基因异常调控关系和基因变异标志物组合,整合优化为胰腺导管癌多元标志物组合,用于构建胰腺导管癌综合状态评分模型,并开发封装为胰腺导管癌综合状态评分计算系统;
步骤15.4)基于步骤15.2所得胰腺导管癌相关基因异常调控关系和基因变异标志物组合,设计胰腺导管癌综合状态评估的靶基因目标区域相关探针和/或引物,用作胰腺导管癌综合状态评估基因检测panel;
步骤15.5)构建一套胰腺导管癌综合状态评估基因检测panel和综合状态评分计算系统联用流程,使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤15.1中,对胰腺导管癌病例信息进行分类整理:
步骤15.1.1)将所述胰腺导管癌病例信息分为转录组数据、外显子组/基因组数据和临床信息;
步骤15.1.2)将所述胰腺导管癌病例信息按照疾病状态分类并进行配对整理。
具体地,步骤15.2中,构建胰腺导管癌标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述胰腺导管癌病例信息仅涉及转录组数据与临床信息,则执行步骤15.2.1)基于转录组数据与临床信息进行标志物挖掘,构建胰腺导管癌相关的基因异常调控关系标志物组合;
若所述胰腺导管癌病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤15.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建胰腺导管癌相关基因变异标志物组合;
若所述胰腺导管癌病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤15.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建胰腺导管癌相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤15.2.1)具体包括以下子步骤:
步骤15.2.1.1)构建参考基因调控网络;
步骤15.2.1.2)基于胰腺导管癌特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系,构建条件特异的基因调控网络;
步骤15.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异;
步骤15.2.1.4)筛选胰腺导管癌不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系;
步骤15.2.1.5)基于步骤15.2.1.4)得到的基因异常调控关系,构建胰腺导管癌相关的基因异常调控关系标志物组合。
具体地,步骤15.2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异,即胰腺导管癌特定疾病状态的基因调控网络。
具体地,步骤15.2.1.3)中,采用多元线性回归模型量化条件特异基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异。
具体地,步骤15.2.1.4)中,整合三方面与基因调控相关的因素,筛选胰腺导管癌不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序。
具体地,步骤15.2.1.5)中以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建胰腺导管癌相关基因异常调控关系标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤15.2.2)具体包括以下子步骤:
步骤15.2.2.1)识别与胰腺导管癌相关的基因变异;
步骤15.2.2.2)采用数据驱动和/或先验知识驱动定量筛选胰腺导管癌状态相关的重要基因变异;
步骤15.2.2.3)基于步骤15.2.2.2)得到的胰腺导管癌状态相关的重要基因变异,构建胰腺导管癌相关的基因变异标志物组合。
具体地,步骤15.2.2.2)中,数据定量过滤筛选,涉及体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的胰腺导管癌相关基因。
具体地,步骤15.2.2.3)中,以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建胰腺导管癌相关的基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤15.2.3)具体包括以下子步骤:
步骤15.2.3.1)对于同时具备转录组数据和外显子组/基因组数据的胰腺导管癌数据集,利用步骤15.2.1.1~15.2.1.4筛选疾病状态相关的基因异常调控关系,同时利用步骤15.2.2.1~15.2.2.2挖掘疾病状态相关的重要基因变异,分别得到胰腺导管癌相关的基因异常调控关系和重要基因变异;
步骤15.2.3.2)随后采纳步骤15.2.1.5和步骤15.2.2.3中,基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,整合RNA和DNA信息,构建胰腺导管癌相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤15.3中,筛选胰腺导管癌相关的临床信息及检验和病理指标包括以下步骤:
步骤15.3.1)针对已知先验知识,筛选胰腺导管癌状态相关的临床信息及检验和病理指标;
步骤15.3.2)从胰腺导管癌队列中病例信息出发,筛选胰腺导管癌状态相关的临床信息及检验和病理指标。
具体地,所述步骤15.3中,胰腺导管癌相关基因异常调控关系通过以下方法得到:
将得到的胰腺导管癌相关基因异常调控关系和/或基因变异标志物组合,同步骤15.3.1和15.3.2筛选所得胰腺导管癌状态相关的临床信息及检验和病理指标整合,优化为胰腺导管癌多元标志物组合。
具体地,所述步骤15.4中,基因检测panel设计包括以下步骤:
步骤15.4.1)基于筛选得到胰腺导管癌相关基因异常调控关系和/或基因变异标志物组合,并最终纳入胰腺导管癌综合状态评分方法的基因集,梳理基因集中基因相关信息,去除冗余,确定标准基因名;
步骤15.4.2)针对步骤15.4.1)中梳理后的基因,选择用于胰腺导管癌检测设计的靶基因目标区域,可用于探针设计或引物设计;
步骤15.4.3)根据步骤15.4.2)中的靶基因目标区域,设计相应的探针和/或引物序列,并记录重要注释;
步骤15.4.4)针对步骤15.4.2)中的靶基因目标区域,参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域进行优化设计,使探针和/或引物能均匀捕获覆盖目标区域;
步骤15.4.5)将步骤15.4.3和15.4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对,获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案;
步骤15.4.6)基于步骤15.4.5设计的靶基因目标区域相关探针和/或引物,制作出用于充分进行胰腺导管癌状态评估的基因检测panel。
具体地,步骤15.5中,所述联用流程包括以下步骤:
步骤15.5.1)基于本发明所述方法设计的基因检测panel,得到胰腺导管癌相关基因异常调控关系和/或基因变异标志物组合的定量值,输入胰腺导管癌综合状态评分计算系统;
步骤15.5.2)将获取的胰腺导管癌状态相关的临床信息及检验和病理指标的定量值,输入胰腺导管癌综合状态评分计算系统;
步骤15.5.3)将步骤15.5.1)和15.5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤15.2中胰腺导管癌相关基因异常调控关系和基因变异标志物组合,具体基因集包括以下86个基因:AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E之任一或其组合。具体的,所有86个基因组合可用于生存预后评估;KRAS/TP53/CDKN2A及所有基因拷贝数变异用于手术方案效果预测;所有基因拷贝数变异用于化疗方案效果预测;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估,以及免疫检查点抑制剂治疗效果预测;AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11用于潜在靶向治疗效果预测。
具体地,步骤15.3中胰腺导管癌相关的临床信息及检验和病理指标,主要包括胰腺导管癌病人的年龄、性别、血液生化及免疫检测指标、手术情况(有/无)、病理级别(I-IV)和肿瘤病人移植动物模型(PDX)建模情况(快/慢/无)等临床信息,同本发明所述胰腺导管癌相关基因异常调控关系和基因变异标志物组合的86个基因,一起组成胰腺导管癌多元标志物组合,用于预后效果、化疗、免疫治疗和潜在靶向治疗效果预测,辅助临床决策。具体的,所有86个基因组合可用于生存预后评估,其低评分组预示病例预后效果较好;KRAS/TP53/CDKN2A及所有基因拷贝数变异用于手术方案效果预测,其中低风险分类病例更易从R0范式手术治疗受益;所有86个基因拷贝数变异用于化疗方案效果预测,拷贝变异评分越高的病例越易从吉西他滨(gemcitabine)治疗受益,拷贝变异评分越低的病例越易从伊立替康(irinotecan)治疗受益;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估,以及免疫检查点抑制剂治疗效果预测,以上基因评分的免疫低风险亚型病例,免疫细胞浸润程度高,免疫细胞毒性强,免疫检查点激活程度高,更易从免疫检查点抑制剂治疗中受益;AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11用于潜在靶向治疗效果预测,其相应基因表达或变异评分,同靶向药受益密切相关,如KRAS、NRAS、AKT、BRCA2等突变病例,预测更难以从抗EGFR单抗治疗中获益。肿瘤病人移植动物模型(PDX)建模情况,可用于手术方案效果预测,造模不成功病例更易从手术中受益。
具体地,步骤15.4中设计的胰腺导管癌综合状态评估的86个靶基因目标区域相关探针和/或引物,对靶基因目标区域覆盖度不低于95%,对其中重要基因变异位点的覆盖度不低于97%;以上86个靶基因目标区域,既可整体作为一个检测panel(用于预后状态评估和化疗状态评估预测),也根据具体用途分为3个检测panel,包括手术状态评估检测panel(KRAS/TP53/CDKN2A及所有基因拷贝数变异),免疫治疗状态评估检测panel(PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E),潜在靶向治疗状态评估检测panel(AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11)。
本发明中,胰腺导管癌病人的年龄、性别、病理级别、血液生化及免疫指标(如CA199血清浓度等)、手术情况R0-R2、PDX建模情况作为补充临床信息,也可纳入评分模型的输入范围。
本发明中,步骤15.2综合采用数据驱动和先验知识驱动的定量筛选策略,筛选胰腺导管状态如进展阶段、预后生存、治疗方案敏感性相关的高频DNA变异标志物组合,可包括基因变异、临床病理和PDX建模数据等信息,且该标志物组合具有准确可靠,机制可解释性强的特点。同时在标志物组合优化阶段,根据需要,灵活采用基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,提升效果。
本发明中,步骤15.3所述基因集和模型系统,可以实现胰腺导管癌病人的综合状态评分,且该评分同胰腺导管癌病人的预后生存和治疗手段(包括但不限于手术范式、化疗、靶向、免疫抑制剂等)效果有较高相关性。所有输入特征均对生存预后有所贡献;但对治疗手段效果预测的权重有所不同,其中KRAS/TP53/CDKN2A及所有基因拷贝数变异的贡献集中在手术方案效果预测;所有基因拷贝数变异的贡献侧重于化疗方案效果预测,特别是吉西他滨(gemcitabine)和伊立替康(irinotecan)的疗效预测;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E侧重于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估,对免疫抑制剂治疗方案效果预测贡献较大;另外,对于部分处于临床试验中的可能用于胰腺导管癌治疗的靶向药,AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11的突变情况可以提供有价值的参考。不仅胰腺导管癌病人的年龄、性别、病理级别、血液生化及免疫指标(如CA199血清浓度等)、手术情况R0-R2等临床信息,而且病例的PDX建模情况,对于病例的预后效果预测均有贡献。
本发明中,步骤15.4和15.5所述panel设计及评估系统联用流程,可实现探针设计捕获效率和目标区域覆盖度均较高,panel和评分模块可以根据需求灵活调整,用于胰腺导管癌病人综合状态评估,并辅助临床决策包括但不限于手术方案、辅助化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。Panel和评分模块的灵活调整示例如下,选取43个基因,包括AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、STK11、TP53、TSC1、TSC2、SMARCB1、SMAD4等组成一个小panel并保留相关的状态评分模型,即可形成一个胰腺导管癌病例手术和辅助化疗方案状态评估流程。以上思路,同样适用于胰腺导管癌预后和免疫抑制剂治疗方案等状态评估流程的单独提取构建,缩小panel,降低检测成本。
本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法在泛肿瘤靶向药敏感性状态评估中的应用,包括以下步骤:
步骤16.1)获取泛肿瘤癌病例信息,包括高通量测序数据和临床信息,根据泛肿瘤病例状态分类并进行配对整理,并确定挖掘模式;
步骤16.2)构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系标志物组合;
步骤16.3)筛选泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的临床信息及检验和病理指标;参考泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系和步骤16.2所得泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系标志物组合,整合优化为泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关多元标志物组合,用于构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评分模型,并开发封装为泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评分计算系统;
步骤16.4)基于步骤16.2所得泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合,设计泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评估的靶基因目标区域相关探针和/或引物,用作泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评估基因检测panel。
步骤16.5)构建一套泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评估基因检测panel和综合状态评分计算系统联用流程,使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤16.1中,对泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息进行分类整理:
步骤16.1.1)将所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息分为转录组数据、外显子组/基因组数据和临床信息;
步骤16.1.2)将所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息按照疾病状态分类并进行配对整理。
具体地,步骤16.2中,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息仅涉及转录组数据与临床信息,则执行步骤16.2.1)基于转录组数据与临床信息进行标志物挖掘,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合;
若所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤16.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因变异标志物组合;
若所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤16.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系和基因变异标志物组合。
具体地,所述步骤16.2.1)具体包括以下子步骤:
步骤16.2.1.1)构建参考基因调控网络;
步骤16.2.1.2)基于特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系,构建条件特异的基因调控网络;
步骤16.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异;
步骤16.2.1.4)筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系;
步骤16.2.1.5)基于步骤16.2.1.4)得到的基因异常调控关系,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系标志物组合。
具体地,步骤16.2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异,即特定疾病状态的基因调控网络。
具体地,步骤16.2.1.3)中,采用多元线性回归模型量化条件特异基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异。
具体地,步骤16.2.1.4)中,整合三方面与基因调控相关的因素,筛选不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序。
具体地,步骤16.2.1.5)中以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤16.2.2)具体包括以下子步骤:
步骤16.2.2.1)识别与泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因变异;
步骤16.2.2.2)采用数据驱动和/或先验知识驱动定量筛选泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性状态相关的重要基因变异;
步骤16.2.2.3)基于步骤16.2.2.2)得到的泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性状态相关的重要基因变异,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因变异标志物组合。
具体地,步骤16.2.2.2)中,数据定量过滤筛选,涉及体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因。
具体地,步骤16.2.2.3)中,以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤16.2.3)具体包括以下子步骤:
步骤16.2.3.1)对于同时具备转录组数据和外显子组/基因组数据的泛肿瘤靶向药敏感性数据集,利用步骤16.2.1.1~16.2.1.4筛选疾病状态相关的基因异常调控关系,同时利用步骤16.2.2.1~16.2.2.2挖掘疾病状态相关的重要基因变异,分别得到泛肿瘤靶向药敏感性相关的基因异常调控关系和重要基因变异;
步骤16.2.3.2)随后采纳步骤16.2.1.5和步骤16.2.2.3中,基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,整合RNA和DNA信息,构建泛肿瘤靶向药敏感性相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤16.3中,筛选泛肿瘤靶向药敏感性相关的临床信息及检验和病理指标包括以下步骤:
步骤16.3.1)针对已知先验知识,筛选泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标;
步骤16.3.2)从泛肿瘤靶向药敏感性队列中病例信息出发,筛选泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标。
具体地,所述步骤16.3中,泛肿瘤靶向药敏感性相关基因异常调控关系通过以下方法得到:
将得到的泛肿瘤靶向药敏感性相关基因异常调控关系和/或基因变异标志物组合,同步骤16.3.1和16.3.2筛选所得泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标整合,优化为泛肿瘤靶向药敏感性多元标志物组合。
具体地,所述步骤16.4中,基因检测panel设计包括以下步骤:
步骤16.4.1)基于筛选得到泛肿瘤靶向药敏感性相关基因异常调控关系和/或基因变异标志物组合,并最终纳入泛肿瘤靶向药敏感性综合状态评分方法的基因集,梳理基因集中基因相关信息,去除冗余,确定标准基因名;
步骤16.4.2)针对步骤16.4.1)中梳理后的基因,选择用于泛肿瘤靶向药敏感性检测设计的靶基因目标区域,可用于探针设计或引物设计;
步骤16.4.3)根据步骤16.4.2)中的靶基因目标区域,设计相应的探针和/或引物序列,并记录重要注释;
步骤16.4.4)针对步骤16.4.2)中的靶基因目标区域,参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域进行优化设计,使探针和/或引物能均匀捕获覆盖目标区域;
步骤16.4.5)将步骤16.4.3和16.4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对,获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案;
步骤16.4.6)基于步骤16.4.5设计的靶基因目标区域相关探针和/或引物,制作出用于充分进行泛肿瘤靶向药敏感性状态评估的基因检测panel。
具体地,步骤16.5中,所述联用流程包括以下步骤:
步骤16.5.1)基于本发明所述方法设计的基因检测panel,得到泛肿瘤靶向药敏感性相关基因异常调控关系和/或基因变异标志物组合的定量值,输入泛肿瘤靶向药敏感性综合状态评分计算系统;
步骤16.5.2)将获取的泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标的定量值,输入泛肿瘤靶向药敏感性综合状态评分计算系统;
步骤16.5.3)将步骤16.5.1)和16.5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤16.2中泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合,特别适用于TGFbeta通路、MAPK通路和PI3K通路相关的11种靶向用药治疗方案,包括binimetinib、BKM120、BYL719、BYL719+cetuximab、BYL719+cetuximab+encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab、cetuximab+encorafenib、CLR457、encorafenib,具体基因集包括以下24个基因:AXIN1、JUNB、MYC、SMAD5、SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、NR2C2、PPP1CB、SKIL、SMURF1、SP1、TP53、PITX2、TFDP2、E2F4、SMAD1、KLF6、SMAD3、KLF11。同时,对于胃肠道肿瘤TGFbeta通路相关靶向用药,BMPR2、MYC、TFDP2、TGIF2等四个基因可以作为一个基因异常调控关系标志物组合。
具体地,步骤16.3中泛肿瘤靶向药敏感性多元标志物组合构建方法,利用基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,进行多元标志物组合优化,通过机器学习分类算法,决策树、随机森林、SVM均可采用,构建泛肿瘤靶向药敏感性综合状态评分模型,并开发封装为泛肿瘤靶向药敏感性综合状态评分计算系统,用于泛肿瘤病例靶向用药效果预测。
具体地,步骤16.3中泛肿瘤病人靶向用药相关的临床信息及检验和病理指标,主要包括肿瘤病人的年龄、性别、血液生化及免疫检测指标、手术情况(有/无)、病理级别(分化程度/TNM分期)、转移和治疗等临床信息,同本发明所述泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合的24个基因,一起组成泛肿瘤靶向药敏感性多元标志物组合,用于泛肿瘤靶向药敏感性治疗效果预测,特别是TGFbeta-MAPK-PI3K三通路靶向用药治疗效果预测,辅助临床决策。具体地,可基于泛肿瘤靶向药敏感性多元标志物组合,构建开发泛肿瘤靶向药敏感性综合状态评分计算系统,用于泛肿瘤病例TGFbeta-MAPK-PI3K三通路相关6种单药治疗方案(包括binimetinib、BKM120、BYL719、cetuximab、CLR457和encorafenib)和5种联合治疗方案(包括BYL719+cetuximab、BYL719+cetuximab+encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab+encorafenib)的治疗受益情况预测,辅助临床决策。
具体地,步骤16.4中设计的泛肿瘤靶向药敏感性状态评估的24个靶基因目标区域相关探针和/或引物,对靶基因目标区域覆盖度不低于95%,对其中重要基因变异位点的覆盖度不低于97%。
本发明泛肿瘤靶向用药方案状态评估方法及应用,步骤16.1所述数据收集整理,充分涵盖已公开泛肿瘤用药数据集,充分利用病人队列和动物实验数据,包括但不限于TCGA、GEO、NIBR PDXE等。
本发明泛肿瘤靶向用药方案状态评估方法及应用,步骤16.2所述方法,整合三方面与基因调控相关的因素,筛选泛肿瘤辅助用药专属cGRN之间的基因异常调控关系,包括:TF-target调控强度显著变化、target表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致。同时,可根据调控强度的差异程度,对筛选到的基因异常调控关系进行排序;并基于对收集到的所有用药方案(包括但不限于靶向药单用、靶向药联合用药等)效果预测能力,挖掘转录组相关标志物及组合,且该标志物组合具有准确可靠,机制可解释性强的特点。同时综合采用数据驱动和先验知识驱动的定量筛选策略,并在标志物组合优化阶段,根据需要,灵活采用基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,提升效果。
本发明泛肿瘤靶向用药方案状态评估方法及应用,步骤16.3所述方法,可以实现基于生物通路的泛肿瘤靶向药治疗方案效果评估基因集构建,并可实现对泛肿瘤病人的辅助用药治疗综合状态评分,且该评分同泛肿瘤靶向药治疗效果密切相关。此处富集到了TGFbeta通路、MAPK通路和PI3K通路的11种靶向用药治疗方案,包括binimetinib、BKM120、BYL719、BYL719+cetuximab、BYL719+cetuximab+encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab、cetuximab+encorafenib、CLR457、encorafenib,该评估模型所用基因集,包括24个基因,即包括,AXIN1、JUNB、MYC、SMAD5、SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、NR2C2、PPP1CB、SKIL、SMURF1、SP1、TP53、PITX2、TFDP2、E2F4、SMAD1、KLF6、SMAD3、KLF11等。
本发明泛肿瘤靶向用药方案状态评估方法及应用,步骤16.4和16.5所述panel设计及评估系统联用流程,可实现探针设计捕获效率和目标区域覆盖度均较高,panel和评分模块可以根据需求灵活调整,实现对泛肿瘤病人辅助用药治疗综合状态评分,有效辅助临床决策,提升治疗效果。Panel和评分模块的灵活调整示例如下,BMPR2、MYC、TFDP2、TGIF2等4个基因组成的小panel,可以用PCR检测表达量,配合相应评分模型,用于对胃肠道相关肿瘤Cetuximab治疗状态评估。以上思路也适用于,针对其它肿瘤类型和用药方案,定制化单独提取特征基因和临床信息,缩小panel,降低检测成本。
本发明的有益效果包括通过基于转录组表达数据,构建条件特异的基因调控网络,能够识别基因异常调控关系;且包含不止一种识别策略;能够由基因异常调控关系构建标志物;且此构建过程包括两种筛选策略,即基于贪婪算法的逐次增加迭代和基于遗传算法的进化迭代,最终构建准确性与机制解释性兼顾的标志物可用于复杂疾病预后评估、治疗效果预测及治疗方案辅助决策等。
本发明的有益效果也包括通过识别复杂疾病相关重要基因变异;且具备不同识别策略,如数据驱动的定量筛选和知识库过滤筛选及其联用;能够由复杂疾病相关DNA层面重要变异基因构建标志物;且此构建过程包括两种筛选策略,即基于贪婪算法的逐次增加迭代和基于遗传算法的进化迭代,最终构建的标志物可用于复杂疾病预后评估、治疗效果预测及治疗方案辅助决策等;且可实现RNA数据和DNA数据的整合利用,方法灵活多样,标志物组合系统,准确性与机制解释性兼备。
本发明的有益效果还包括可利用丰富的技术手段,充分整合高通量测序数据、临床信息和知识库来源的多元信息构建综合评分系统;且包括临床及药物指南和公开文献的系统挖掘检索,临床信息的有效利用,综合评分计算系统构建等策略及功能;同时提供了综合评分计算系统配套的基因检测panel设计方案;且包括基因探针目标区域设计,探针覆盖度设计,基于覆盖度的质量控制;并提出了基因检测panel同综合评分系统的联用流程,且包括综合状态评估模型功能,输入输出功能及可能构思,组合联用形式及可能构思。
本发明的有益效果亦包括提出了一种结直肠肿瘤状态评估模型构建及panel设计方案;包括充分利用多元信息,含DNA、RNA测序及临床信息等,通过较少的基因和实用可靠的检测评估手段;且实现结直肠肿瘤病例综合状态评估,包括病例预后计算评估,化疗、靶向和免疫治疗等方案治疗效果预测;并辅助临床决策包括但不限于辅助手术方案、化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。
附图说明
附图1为4-DysReg与其他预后标志物之间的准确性比较。
附图2为结直肠肿瘤综合状态评估流程应用示意图。
具体实施方式
以下结合实施例和附图进一步阐述本发明。应理解,这些实施例仅用于说明本发明,而非限制本发明的范围。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书及等同内容为保护范围。
本发明的实施例应用于结直肠肿瘤状态评估模型构建及panel设计的全过程,结合具体实施例对本发明做进一步详细说明,应理解,以下实施例仅用于说明本发明而非用于限定本发明的范围。其具体步骤如下:
S1.1结直肠肿瘤测序数据和临床表型信息的获取与整理
TCGA-CRC的mRNA数据和临床数据从UCSC xena数据库下载。380个原位肿瘤样本和51个癌旁样本被挑选出来。mRNA数据的表达水平以TPM量化。当TPM的值小于1时,看作是缺失值。对于一个基因,如果缺失值的数量大于样本量的20%,就把该基因去除。剩下的缺失值用K最小近邻法(k-Nearest Neighbor,kNN)进行填充,并做log2转化。在这些样本中,32对配对的肿瘤样本和癌旁样本用于做基因异常调控分析。包括完整的总生存时间(overallsurvival,OS)、无进展生存期(recurrent free survival,RFS)、年龄、性别、病理级别的350个原位肿瘤样本用于后续标志物挖掘。
GSE39582和GSE17538两CRC数据集的表达谱数据和临床数据从GEO(http://www.ncbi.nlm.nih.gov/geo/)下载。GSE39582包含566个肿瘤样本和19个正常的样本,GSE17538包含238肿瘤样本,这两个数据集都基于GPL570表达谱芯片平台。对于一个探针能够映射多个基因的情况,将相应的探针从数据集中去除;对于多个探针映射到一个基因的情况,用每个样本中的相应的多个探针的最大值作为该基因在每个样本中的表达值。缺失值的处理方式与TCGA-CRC中缺失值的处理方式一致。最后利用分位数方法做样本间的标准化,并做log2转化。GSE39582数据集中有563个样本拥有完整的如上所述的临床信息,GSE17538数据集中有200个样本拥完整的临床信息,这些样本用于后续标志物挖掘。
TCGA-CRC的体细胞突变数据(somatic mutation)和拷贝数变异(CNV),也由UCSCxena数据库下载,其中体细胞突变数据来自VarScan2识别,拷贝数变异以log2(copy-number/2)为单位,病例选择同转录组数据取交集,共得到包括完整的总生存时间(overallsurvival,OS)、无进展生存期(recurrent free survival,RFS)、年龄、性别、病理级别的350个原位肿瘤样本用于后续标志物挖掘。
因为本实施例同时包括转录组数据、DNA测序数据与临床信息,因此执行步骤2.3,分别挖掘转录组和DNA变异标志物。
S1.2基于结直肠肿瘤转录组中的基因异常调控关系挖掘生物标志物
S1.2.1构建结直肠肿瘤基因调控网络并识别基因异常调控关系
基于步骤S1中整理到的TCGA-CRC数据集中,32对配对的肿瘤样本和癌旁样本,参考步骤2.1.1-2.1.4,利用Boruta算法分别构建正常条件和癌症条件的GRN,正常条件下的GRN有30186个调控关系,癌症条件下的GRN有15665个调控关系。利用de-biased LASSO方法对调控关系的调控强度进行度量,并获得调控强度的95%置信区间。随后,根据调控强度差异显著、靶基因表达水平差异显著、调控强度变化方向与靶基因表达水平变化方向一致三个因素筛选异常调控关系,最终筛选出389个基因异常调控关系。
S1.2.2由识别到的基因异常调控关系构建标志物
此处采用步骤2.1.5中基于贪婪算法的逐次增加迭代方法,筛选最优标志物组合。具体步骤如下:
首先,在TCGA-CRC数据集中,对每个异常调控关系结合临床数据(包括年龄、性别、病理级别)对OS拟合cox模型,并用C-Index量化模型对预后的准确性。其中,异常调控关系RUNX3-GPR15对应的模型的C-Index最大,达到0.763,遂用作迭代起始。
其次,根据步骤2.1.5所述基于贪婪算法的逐次增加迭代方法,一个包括4个异常调控关系的预后标志物(4-DysReg),即RUNX3-GPR15、RUNX3-P2RY8、SNAI3-TLR7、ATOH1-SIGLEC1作为最优组合。
再次,基于4个异常调控关系(4-DysReg)中的7个基因的表达数据,结合TCGA-CRC数据集的年龄、性别、病理分期临床信息,我们在TCGA-CRC数据集上建立了OS cox模型。该模型的C-Index为0.79(SE=0.038)。
最后,在TCGA-CRC和GSE39582数据集上,将4-DysReg的预测效果同已报道的CRC标志物如RUNX3、ColoPrint(包含18个基因)、ColoGuideEx(包含13个基因)、ColoGuidePro(包含7个基因)、ColoFinder(包含9个基因)、一个7-gene标志物、和一个4-gene标志物等进行比较,结果表明4-DysReg对预后具有更为稳定良好的预测能力。见附图1,4-DysReg与其他预后标志物之间的准确性比较。
S1.2.3结直肠肿瘤辅助化疗状态评估标志物挖掘及模型构建
辅助化疗(Adjuvant chemotherapy,ADJC)在治疗CRC患者的过程中被广泛采用。ADJC的指导原则建立在病理级别上。III期和IV期CRC患者常规治疗接受ADJC治疗;具有高复发风险的二期CRC患者也考虑接受ADJC。相对目前以经验为主的半定量ADJC指导方案,亟需一套ADJC相关肿瘤状态评估方案。
利用GSE39582中321个没有接受ADJC的样本作为训练集,以这4-DysReg中的7个基因作为自变量拟合一个OS cox模型,利用该模型计算232个接受ADJC的样本的风险评分。结果显示,风险评分为负的样本具有更好的预后(HR=0.432,95%CI:0.269~0.693)。
4-DysReg对特定化疗类型疗效的预测能力,包括5-FU和联合ADJC(包括FOLFIRI、FOLFOX和FUFOL)。结果显示,风险评分为负的样本在联合ADJC(n=84,HR=0.380;95%CI:0.178~0.813)和5-FU(n=79,HR=0.437,95%CI:0.181~1.055)中都有更好的预后。利用timeROC评估标志物对联合ADJC预测的准确性,3年和5年总生存期的AUC分别达到0.71和0.74,高于病理分期模型的AUC 0.65和0.69。这些结果表明,该项研究构建的标志物4-DysReg对ADJC的治疗效果具有预测能力,不仅对单独的5-FU或联合ADJC具有预测能力,而且对所有类型的ADJC的整体结果也有预测能力。
S1.3基于结直肠肿瘤DNA测序数据中的基因变异挖掘生物标志物
S1.3.1利用步骤2.2.2疾病状态相关DNA变异的定量化及筛选(如基因拷贝数与体细胞突变,SNP、Indel、CNV、Fusion等)所述方法,基于TCGA-CRC数据集筛选高频变异基因,并经过“预后”AND“结直肠癌”AND“药物”等关键词组合的知识库(PharmGKB、NCCN、CSCO、FDA、NMPA、EMA、NCBI Pubmed)过滤,得到581个候选标志物基因。
S1.3.2采用步骤2.2.3所述基于遗传算法的进化迭代方法,筛选到包括45个基因及其变异的标志物组合,具体基因集包括:KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E。
S1.3.3对以上DNA层面生物标志物组合,在TCGA-CRC数据集进行检验,利用timeROC评估该组合的准确性,1年、3年和5年的生存期预测准确率(AUC)分别达到0.87、0.83和0.80。采用风险评分的中位数将样本分为高、低两组做KM分析,结果显示低评分组患者预后更好(p-value=4.52e-8)。同时,在CPTAC-2 colon cancer(110例)、ICGC的COAD-US(402例)和COAD-CN(321例)数据集上进行生存期预测,基因组合准确率AUC达到0.81.
S1.4结直肠肿瘤综合状态评估基因集及评分系统开发
S1.4.1确定4-DysReg中7个基因和筛选到的45个结直肠癌重要变异基因,共计53个基因,作为结直肠肿瘤综合状态评估基因集。
S1.4.2综合纳入结直肠癌病人的年龄、性别、手术情况(有/无)、病理级别(I-IV)和微卫星不稳定(MSI)等作为结直肠肿瘤综合状态评分系统的输入信息。
S1.4.3根据步骤3.3多元信息的充分整合构建综合评分系统中所述方法,采用随机森林与权重投票器的机器学习方案,以python语言开发了结直肠肿瘤综合状态评分系统的原型。
S1.4.4该系统可以输出结直肠癌病人的综合状态评分,该评分同其预后和治疗手段(化疗、靶向、免疫抑制剂)等效果有一定相关性,可以提供参考指导。
对该评分系统解析可以发现,所有输入特征均对生存预后有所贡献;但对治疗手段效果预测的权重有所不同,其中RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1的贡献集中在化疗方案效果预测,KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1的贡献侧重于靶向治疗方案效果预测,而PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E侧重于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,对免疫抑制剂治疗方案效果预测贡献较大;手术情况(有/无)、病理级别(I-IV)和微卫星不稳定(MSI)等信息对于预后和治疗效果预测均有贡献。
S1.5结直肠肿瘤检测panel设计与评估系统构建
S1.5.1梳理上述53个基因的检测信息(如RNA表达值,拷贝数CNV,基因变异包括SNP、Indel、Fusion等),然后通过NCBI office name或HGNC approved Official Symbol系统确定标准基因名。
S1.5.2参考步骤4基因检测panel设计方法,完成结直肠肿瘤检测panel的设计,并根据PCR或高通量测序平台做相应优化,比如RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1等7个基因组成的小panel即DysReg4,可以用PCR检测表达量;所有53个基因,可以利用panel设计捕获相关序列,利用高通量测序技术进行检测。捕获效率一般在30%~60%之间,全部基因目标区域覆盖度不低于95%,因此可认定探针设计合格。
S1.5.3根据panel检测数值和病例临床信息输入方式,对结直肠肿瘤综合状态评分系统进行优化,比如小panel即DysReg4,就可以仅保留该panel相关的功能模块,删掉45个变异基因的相关特征及预测功能模块。相应基因检测panel和该软件系统中对应功能模块,可以组合为一套配套联用流程,包括但不限于试剂盒/软件,检测装置/数据处理一体机,试剂盒/检测装置/数据在线分析平台等形式,用于结直肠肿瘤病人综合状态评估,并辅助临床决策包括但不限于辅助手术方案、化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。
Claims (11)
1.一种应用在结直肠肿瘤状态评估中的基于高通量测序数据和临床表型构建的状态评估模型的运行系统,其特征在于,包括以下步骤:
步骤14.1) 获取结直肠肿瘤病例信息,包括高通量测序数据和临床信息,根据结直肠肿瘤病例状态分类并进行配对整理;
步骤14.2) 构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合;其中,所述标志物组合具体基因集包括以下51个基因:RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1、KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E;
步骤14.3) 筛选结直肠肿瘤相关的临床信息及检验和病理指标;参考结直肠肿瘤相关的基因异常调控关系和步骤14.2)所得基因变异标志物组合,整合优化为结直肠肿瘤多元标志物组合,用于构建结直肠肿瘤综合状态评分模型,并开发封装为结直肠肿瘤综合状态评分计算系统;
步骤14.4) 基于步骤14.2)所得结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合,设计结直肠肿瘤综合状态评估的靶基因目标区域相关探针和/或引物,用作结直肠肿瘤综合状态评估基因检测panel;
步骤14.5)构建一套结直肠肿瘤综合状态评估基因检测panel和综合状态评分计算系统联用流程,使得用户根据需求依此流程完成检测、信息输入、计算评估和结果获取。
2.如权利要求1所述的运行系统,其特征在于,步骤14.2)中,构建结直肠肿瘤标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述结直肠肿瘤病例信息仅涉及转录组数据与临床信息,则执行步骤14.2.1)基于转录组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因异常调控关系标志物组合;
若所述结直肠肿瘤病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤14.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因变异标志物组合;
若所述结直肠肿瘤病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤14.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合。
3.如权利要求2所述的运行系统,其特征在于,所述步骤14.2.1)包括以下子步骤:
步骤14.2.1.1) 构建参考基因调控网络;
步骤14.2.1.2) 基于结直肠肿瘤特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系,构建条件特异的基因调控网络;
步骤14.2.1.3) 量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异;
步骤14.2.1.4) 筛选不同结直肠肿瘤疾病状态下的条件特异的基因调控网络之间的基因异常调控关系;
步骤14.2.1.5) 基于步骤14.2.1.4)得到的基因异常调控关系,构建结直肠肿瘤相关的基因异常调控关系标志物组合。
4.如权利要求3所述的运行系统,其特征在于,步骤14.2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Naïve Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异,即结直肠肿瘤特定疾病状态的基因调控网络;和/或,
步骤14.2.1.3)中,采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异;和/或,
步骤14.2.1.4)中,整合三方面与基因调控相关的因素,筛选结直肠肿瘤不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化,以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序;和/或,
步骤14.2.1.5)中以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建结直肠肿瘤相关的基因异常调控关系标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
5.如权利要求2所述的运行系统,其特征在于,所述步骤14.2.2)包括以下子步骤:
步骤14.2.2.1) 识别与结直肠肿瘤相关的基因变异;
步骤14.2.2.2) 采用数据驱动和/或先验知识驱动定量筛选结直肠肿瘤状态相关的重要基因变异;
步骤14.2.2.3) 基于步骤14.2.2.2)得到的结直肠肿瘤状态相关的重要基因变异,构建结直肠肿瘤相关的基因变异标志物组合。
6.如权利要求5所述的运行系统,其特征在于,步骤14.2.2.2)中,数据定量过滤筛选,涉及体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的结直肠肿瘤相关基因;和/或,
步骤14.2.2.3)中,以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建结直肠肿瘤相关的基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
7.如权利要求1所述的运行系统,其特征在于,所述步骤14.3)中,结直肠肿瘤相关基因异常调控关系通过以下方法得到:
将得到的结直肠肿瘤相关的基因异常调控关系和/或基因变异标志物组合,同步骤14.3.1)和14.3.2)筛选所得结直肠肿瘤状态相关的临床信息及检验和病理指标整合,优化为结直肠肿瘤多元标志物组合。
8.如权利要求1所述的运行系统,其特征在于,步骤14.5)中,所述联用流程包括以下步骤:
步骤14.5.1) 基于基因检测panel,得到结直肠肿瘤相关基因异常调控关系和/或基因变异标志物组合的定量值,输入结直肠肿瘤综合状态评分计算系统;
步骤14.5.2) 将获取的结直肠肿瘤状态相关的临床信息及检验和病理指标的定量值,输入结直肠肿瘤综合状态评分计算系统;
步骤14.5.3) 将步骤14.5.1)和14.5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求完成检测、信息输入、计算评估和结果获取。
9.如权利要求1所述的运行系统,其特征在于,步骤14.2)中,所有51个基因组合用于生存预后评估;RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1用于化疗方案效果预测;KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1用于靶向治疗方案效果预测,PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,以及免疫检查点抑制剂治疗效果预测。
10.如权利要求1所述的运行系统,其特征在于,步骤14.3)中,结直肠肿瘤相关的临床信息及检验和病理指标,同结直肠肿瘤相关基因异常调控关系和基因变异标志物组合的51个基因,一起组成结直肠肿瘤多元标志物组合,用于预后效果、化疗、靶向治疗和免疫治疗效果预测,辅助临床决策;所有51个基因均用于生存预后评估,其低评分组预示病例预后效果较好;其中,RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1用于化疗方案效果预测,包括5-FU和联合ADJC,所述联合ADJC包括FOLFIRI、FOLFOX和FUFOL,为基于病理分期的半定量化疗方案选择,提供定量评分,低评分组病例能从化疗中受益;所述化疗方案效果预测包括术后场景;KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1用于靶向治疗方案效果预测,其相应基因表达或变异评分,同靶向药受益相关,从HER2单抗药物治疗获益;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,以上基因评分的免疫低风险亚型,免疫细胞浸润程度高,免疫细胞毒性强,免疫检查点激活程度高,易从免疫检查点抑制剂治疗中受益。
11.如权利要求1所述的运行系统,其特征在于,步骤14.4)中,设计的结直肠肿瘤综合状态评估的51个靶基因目标区域相关探针和/或引物,对靶基因目标区域覆盖度不低于95%,对其中重要基因变异位点的覆盖度不低于97%;以上51个靶基因目标区域,既整体作为一个检测panel,也根据用途分为3个检测panel,包括化疗状态评估检测panel,靶向治疗状态评估检测panel和免疫治疗状态评估检测panel;
所述化疗状态评估检测panel包括RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1基因;
所述靶向治疗状态评估检测panel包括RAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1基因;
所述免疫治疗状态评估检测panel包括PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010470684.7A CN111863126B (zh) | 2020-05-28 | 2020-05-28 | 构建结直肠肿瘤状态评估模型的方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010470684.7A CN111863126B (zh) | 2020-05-28 | 2020-05-28 | 构建结直肠肿瘤状态评估模型的方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111863126A CN111863126A (zh) | 2020-10-30 |
CN111863126B true CN111863126B (zh) | 2024-03-26 |
Family
ID=72985848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010470684.7A Active CN111863126B (zh) | 2020-05-28 | 2020-05-28 | 构建结直肠肿瘤状态评估模型的方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111863126B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597981B (zh) * | 2021-03-04 | 2021-06-01 | 四川大学 | 基于深度神经网络的肠镜退镜质量智能监控系统及方法 |
CN113278611B (zh) * | 2021-03-07 | 2022-11-25 | 华中科技大学同济医学院附属协和医院 | 捕获测序探针及其用途 |
CN114664413B (zh) * | 2022-04-06 | 2022-12-20 | 中国医学科学院肿瘤医院 | 在治疗前对直肠癌治疗抵抗及其分子机制的预测系统 |
CN115954045B (zh) * | 2022-12-02 | 2023-09-08 | 上海爱谱蒂康生物科技有限公司 | 一种肠癌个性化治疗决策方法、系统及含其的存储介质 |
CN117159596A (zh) * | 2023-07-17 | 2023-12-05 | 浙江大学 | 肠乳杆菌atcc 49335在预防和/或治疗结直肠癌产品制备中的应用 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006113747A2 (en) * | 2005-04-19 | 2006-10-26 | Prediction Sciences Llc | Diagnostic markers of breast cancer treatment and progression and methods of use thereof |
EP2281063A1 (en) * | 2008-04-29 | 2011-02-09 | Siemens Healthcare Diagnostics GmbH | A method for predicting a clinical response of a patient suffering from or at risk of developing cancer towards a given mode of treatment |
CN103492590A (zh) * | 2011-02-22 | 2014-01-01 | 卡里斯生命科学卢森堡控股有限责任公司 | 循环生物标志物 |
CN104703620A (zh) * | 2012-07-20 | 2015-06-10 | 拉筹伯大学 | 诊断和治疗方法 |
CN107787373A (zh) * | 2015-08-17 | 2018-03-09 | 库拉肿瘤学公司 | 使用法尼基转移酶抑制剂治疗癌症患者的方法 |
CN108611416A (zh) * | 2018-05-09 | 2018-10-02 | 中国科学院昆明动物研究所 | 一种基于多基因表达特征谱的宫颈癌个性化预后评估方法 |
CN108624650A (zh) * | 2018-05-14 | 2018-10-09 | 乐普(北京)医疗器械股份有限公司 | 判断实体瘤是否适合免疫治疗的方法和检测试剂盒 |
CN109073659A (zh) * | 2016-02-16 | 2018-12-21 | 新加坡科技研究局 | 表观基因组分析揭示了原发性胃腺癌的体细胞启动子局面 |
CN109385666A (zh) * | 2017-08-02 | 2019-02-26 | 深圳华大基因股份有限公司 | 淋巴瘤基因捕获芯片及其应用 |
CN109609647A (zh) * | 2019-01-25 | 2019-04-12 | 臻悦生物科技江苏有限公司 | 基于二代测序的用于泛癌种靶向、化疗及免疫用药的检测Panel、检测试剂盒及其应用 |
CN110079599A (zh) * | 2013-03-15 | 2019-08-02 | 豪夫迈·罗氏有限公司 | 治疗pd-1和pd-l1相关疾患的生物标志物和方法 |
CN110582579A (zh) * | 2017-05-03 | 2019-12-17 | 南托米克斯有限责任公司 | 相对于相匹配的正常cfRNA的肿瘤 |
CN110678930A (zh) * | 2017-12-01 | 2020-01-10 | 伊鲁米那股份有限公司 | 用于评估药物效力的系统和方法 |
CN110904235A (zh) * | 2019-12-20 | 2020-03-24 | 深圳市新合生物医疗科技有限公司 | 检测肿瘤靶向药物相关基因突变的基因panel、方法、应用和试剂盒 |
CN111816315A (zh) * | 2020-05-28 | 2020-10-23 | 上海生物信息技术研究中心 | 胰腺导管癌状态评估模型构建方法及应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060195266A1 (en) * | 2005-02-25 | 2006-08-31 | Yeatman Timothy J | Methods for predicting cancer outcome and gene signatures for use therein |
-
2020
- 2020-05-28 CN CN202010470684.7A patent/CN111863126B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006113747A2 (en) * | 2005-04-19 | 2006-10-26 | Prediction Sciences Llc | Diagnostic markers of breast cancer treatment and progression and methods of use thereof |
EP2281063A1 (en) * | 2008-04-29 | 2011-02-09 | Siemens Healthcare Diagnostics GmbH | A method for predicting a clinical response of a patient suffering from or at risk of developing cancer towards a given mode of treatment |
CN103492590A (zh) * | 2011-02-22 | 2014-01-01 | 卡里斯生命科学卢森堡控股有限责任公司 | 循环生物标志物 |
CN104703620A (zh) * | 2012-07-20 | 2015-06-10 | 拉筹伯大学 | 诊断和治疗方法 |
CN110079599A (zh) * | 2013-03-15 | 2019-08-02 | 豪夫迈·罗氏有限公司 | 治疗pd-1和pd-l1相关疾患的生物标志物和方法 |
CN107787373A (zh) * | 2015-08-17 | 2018-03-09 | 库拉肿瘤学公司 | 使用法尼基转移酶抑制剂治疗癌症患者的方法 |
CN108371711A (zh) * | 2015-08-17 | 2018-08-07 | 库拉肿瘤学公司 | 使用法尼基转移酶抑制剂治疗癌症患者的方法 |
CN109073659A (zh) * | 2016-02-16 | 2018-12-21 | 新加坡科技研究局 | 表观基因组分析揭示了原发性胃腺癌的体细胞启动子局面 |
CN110582579A (zh) * | 2017-05-03 | 2019-12-17 | 南托米克斯有限责任公司 | 相对于相匹配的正常cfRNA的肿瘤 |
CN109385666A (zh) * | 2017-08-02 | 2019-02-26 | 深圳华大基因股份有限公司 | 淋巴瘤基因捕获芯片及其应用 |
CN110678930A (zh) * | 2017-12-01 | 2020-01-10 | 伊鲁米那股份有限公司 | 用于评估药物效力的系统和方法 |
CN108611416A (zh) * | 2018-05-09 | 2018-10-02 | 中国科学院昆明动物研究所 | 一种基于多基因表达特征谱的宫颈癌个性化预后评估方法 |
CN108624650A (zh) * | 2018-05-14 | 2018-10-09 | 乐普(北京)医疗器械股份有限公司 | 判断实体瘤是否适合免疫治疗的方法和检测试剂盒 |
CN109609647A (zh) * | 2019-01-25 | 2019-04-12 | 臻悦生物科技江苏有限公司 | 基于二代测序的用于泛癌种靶向、化疗及免疫用药的检测Panel、检测试剂盒及其应用 |
CN110904235A (zh) * | 2019-12-20 | 2020-03-24 | 深圳市新合生物医疗科技有限公司 | 检测肿瘤靶向药物相关基因突变的基因panel、方法、应用和试剂盒 |
CN111816315A (zh) * | 2020-05-28 | 2020-10-23 | 上海生物信息技术研究中心 | 胰腺导管癌状态评估模型构建方法及应用 |
Non-Patent Citations (2)
Title |
---|
Hatakeyama, K .Tumor mutational burden analysis of 2,000 Japanese cancer genomes using whole exome and targeted gene panel sequencing.BIOMEDICAL RESEARCH-TOKYO.2018,第39卷(第3期),159. * |
肿瘤免疫结构的研究进展及在子宫内膜癌中的应用价值;郭建宾;张颖;钱海利;段华;;中国妇产科临床杂志(第05期);25-29 * |
Also Published As
Publication number | Publication date |
---|---|
CN111863126A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111640508B (zh) | 基于高通量测序数据和临床表型构建的泛肿瘤靶向药敏感性状态评估模型的方法及应用 | |
CN111863126B (zh) | 构建结直肠肿瘤状态评估模型的方法及应用 | |
CN111863137B (zh) | 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用 | |
Liu et al. | DNA methylation-calling tools for Oxford Nanopore sequencing: a survey and human epigenome-wide evaluation | |
US11621083B2 (en) | Cancer evolution detection and diagnostic | |
CN111816315B (zh) | 胰腺导管癌状态评估模型构建方法及应用 | |
TWI814753B (zh) | 用於標靶定序之模型 | |
JP2022521492A (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
CN111128299B (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
US20150038376A1 (en) | Thyroid cancer biomarker | |
CN113186287B (zh) | 用于非小细胞肺癌分型的生物标志物及其应用 | |
Liu et al. | 5-methylcytosine RNA methylation regulators affect prognosis and tumor microenvironment in lung adenocarcinoma | |
Zafari et al. | Integrated analysis of multi-omics data for the discovery of biomarkers and therapeutic targets for colorectal cancer | |
US20210343363A1 (en) | Methods for classifying genetic mutations detected in cell-free nucleic acids as tumor or non-tumor origin | |
US20230366037A1 (en) | Prediction tool for judging drug sensitivity and long-term prognosis of liver cancer based on gene detection and use thereof | |
US20190112729A1 (en) | Novel set of biomarkers useful for predicting lung cancer survival | |
Yu et al. | Construction of prognostic risk model of patients with skin cutaneous melanoma based on TCGA-SKCM methylation cohort | |
Nono et al. | Computational prediction of genetic drivers in cancer | |
Wang et al. | Enhanced Detection of Landmark Minimal Residual Disease in Lung Cancer Using Cell-free DNA Fragmentomics | |
CN116042820B (zh) | 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用 | |
WO2023093782A1 (en) | Molecular analyses using long cell-free dna molecules for disease classification | |
de Leng et al. | Sequencing Approaches for Personalized Cancer Therapy Selection in Pathology | |
Codex | Advancements in Novel Biomarkers for Prognosis and Treatment Response Prediction in B-Cell Precursor Acute Lymphoblastic Leukemia (BCP-ALL) | |
Cao et al. | MSI-XGNN: an explainable GNN computational framework integrating transcription-and methylation-level biomarkers for microsatellite instability detection | |
Zhou et al. | Developing high-resolution metastasis signatures for improved cancer prognosis using single-cell RNA sequencing data: A case study in lung adenocarcinoma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220208 Address after: 200032 Shanghai Xuhui District Xietu Road No. 2140 Applicant after: Shanghai Institute of biomedical technology Address before: 201203 floor 2, No. 1278, Keyuan Road, Pudong New Area, Shanghai Applicant before: SHANGHAI CENTER FOR BIOINFORMATION TECHNOLOGY |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |