CN111863137A - 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用 - Google Patents
一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用 Download PDFInfo
- Publication number
- CN111863137A CN111863137A CN202010469452.XA CN202010469452A CN111863137A CN 111863137 A CN111863137 A CN 111863137A CN 202010469452 A CN202010469452 A CN 202010469452A CN 111863137 A CN111863137 A CN 111863137A
- Authority
- CN
- China
- Prior art keywords
- gene
- regulation
- complex disease
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 222
- 201000010099 disease Diseases 0.000 title claims abstract description 215
- 238000011156 evaluation Methods 0.000 title claims abstract description 95
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 26
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 543
- 239000003550 marker Substances 0.000 claims abstract description 200
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 129
- 239000003814 drug Substances 0.000 claims abstract description 121
- 229940079593 drug Drugs 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 110
- 238000001514 detection method Methods 0.000 claims abstract description 90
- 230000000694 effects Effects 0.000 claims abstract description 90
- 238000011282 treatment Methods 0.000 claims abstract description 81
- 238000004393 prognosis Methods 0.000 claims abstract description 70
- 238000005065 mining Methods 0.000 claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 37
- 230000033228 biological regulation Effects 0.000 claims description 278
- 230000002159 abnormal effect Effects 0.000 claims description 117
- 239000000523 sample Substances 0.000 claims description 99
- 238000012216 screening Methods 0.000 claims description 84
- 238000013461 design Methods 0.000 claims description 82
- 238000004422 calculation algorithm Methods 0.000 claims description 77
- 230000001575 pathological effect Effects 0.000 claims description 47
- 230000014509 gene expression Effects 0.000 claims description 39
- 230000002068 genetic effect Effects 0.000 claims description 35
- 230000008901 benefit Effects 0.000 claims description 30
- 230000007614 genetic variation Effects 0.000 claims description 27
- 230000008859 change Effects 0.000 claims description 23
- 238000010276 construction Methods 0.000 claims description 23
- 108020004414 DNA Proteins 0.000 claims description 22
- 230000005861 gene abnormality Effects 0.000 claims description 22
- 238000007689 inspection Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 21
- 238000012163 sequencing technique Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 19
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000013077 scoring method Methods 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 6
- 238000011497 Univariate linear regression Methods 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 108700024394 Exon Proteins 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 2
- 230000000392 somatic effect Effects 0.000 claims 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 abstract description 98
- 208000008900 Pancreatic Ductal Carcinoma Diseases 0.000 abstract description 97
- 201000008129 pancreatic ductal adenocarcinoma Diseases 0.000 abstract description 96
- 206010009944 Colon cancer Diseases 0.000 abstract description 31
- 230000007246 mechanism Effects 0.000 abstract description 9
- 239000000090 biomarker Substances 0.000 abstract description 7
- -1 KIT Proteins 0.000 description 37
- 230000004083 survival effect Effects 0.000 description 35
- 230000035945 sensitivity Effects 0.000 description 31
- 102100030386 Granzyme A Human genes 0.000 description 29
- 101001009599 Homo sapiens Granzyme A Proteins 0.000 description 29
- 101001117317 Homo sapiens Programmed cell death 1 ligand 1 Proteins 0.000 description 28
- 102100024216 Programmed cell death 1 ligand 1 Human genes 0.000 description 28
- 102100030708 GTPase KRas Human genes 0.000 description 25
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 25
- 101000987581 Homo sapiens Perforin-1 Proteins 0.000 description 24
- 102100028467 Perforin-1 Human genes 0.000 description 24
- 238000002512 chemotherapy Methods 0.000 description 23
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 20
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 20
- 230000035772 mutation Effects 0.000 description 20
- 229960005395 cetuximab Drugs 0.000 description 19
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 description 18
- 102100033254 Tumor suppressor ARF Human genes 0.000 description 18
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 17
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 17
- 102100039788 GTPase NRas Human genes 0.000 description 16
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 16
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 15
- 102100030385 Granzyme B Human genes 0.000 description 15
- 101001009603 Homo sapiens Granzyme B Proteins 0.000 description 15
- 101001037256 Homo sapiens Indoleamine 2,3-dioxygenase 1 Proteins 0.000 description 15
- 101000599940 Homo sapiens Interferon gamma Proteins 0.000 description 15
- 101000831007 Homo sapiens T-cell immunoreceptor with Ig and ITIM domains Proteins 0.000 description 15
- 101000946843 Homo sapiens T-cell surface glycoprotein CD8 alpha chain Proteins 0.000 description 15
- 102100040061 Indoleamine 2,3-dioxygenase 1 Human genes 0.000 description 15
- 102100037850 Interferon gamma Human genes 0.000 description 15
- 102100024834 T-cell immunoreceptor with Ig and ITIM domains Human genes 0.000 description 15
- 102100034922 T-cell surface glycoprotein CD8 alpha chain Human genes 0.000 description 15
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 15
- 102100036243 HLA class II histocompatibility antigen, DQ alpha 1 chain Human genes 0.000 description 14
- 108010086786 HLA-DQA1 antigen Proteins 0.000 description 14
- 101000628562 Homo sapiens Serine/threonine-protein kinase STK11 Proteins 0.000 description 14
- 101000685323 Homo sapiens Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Proteins 0.000 description 14
- 101000635938 Homo sapiens Transforming growth factor beta-1 proprotein Proteins 0.000 description 14
- 102100026715 Serine/threonine-protein kinase STK11 Human genes 0.000 description 14
- 102100023155 Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Human genes 0.000 description 14
- 102100030742 Transforming growth factor beta-1 proprotein Human genes 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 14
- 201000011510 cancer Diseases 0.000 description 14
- 230000008595 infiltration Effects 0.000 description 14
- 238000001764 infiltration Methods 0.000 description 14
- 230000037361 pathway Effects 0.000 description 14
- STUWGJZDJHPWGZ-LBPRGKRZSA-N (2S)-N1-[4-methyl-5-[2-(1,1,1-trifluoro-2-methylpropan-2-yl)-4-pyridinyl]-2-thiazolyl]pyrrolidine-1,2-dicarboxamide Chemical compound S1C(C=2C=C(N=CC=2)C(C)(C)C(F)(F)F)=C(C)N=C1NC(=O)N1CCC[C@H]1C(N)=O STUWGJZDJHPWGZ-LBPRGKRZSA-N 0.000 description 13
- 102100026882 Alpha-synuclein Human genes 0.000 description 13
- 102100039498 Cytotoxic T-lymphocyte protein 4 Human genes 0.000 description 13
- 102100028970 HLA class I histocompatibility antigen, alpha chain E Human genes 0.000 description 13
- 101000834898 Homo sapiens Alpha-synuclein Proteins 0.000 description 13
- 101000889276 Homo sapiens Cytotoxic T-lymphocyte protein 4 Proteins 0.000 description 13
- 101000986085 Homo sapiens HLA class I histocompatibility antigen, alpha chain E Proteins 0.000 description 13
- 101001117312 Homo sapiens Programmed cell death 1 ligand 2 Proteins 0.000 description 13
- 101000611936 Homo sapiens Programmed cell death protein 1 Proteins 0.000 description 13
- 101000652359 Homo sapiens Spermatogenesis-associated protein 2 Proteins 0.000 description 13
- 102100024213 Programmed cell death 1 ligand 2 Human genes 0.000 description 13
- 229950010482 alpelisib Drugs 0.000 description 13
- 238000013210 evaluation model Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 102100021943 C-C motif chemokine 2 Human genes 0.000 description 12
- 102100032367 C-C motif chemokine 5 Human genes 0.000 description 12
- 102100025618 C-X-C chemokine receptor type 6 Human genes 0.000 description 12
- 102100025248 C-X-C motif chemokine 10 Human genes 0.000 description 12
- 102100036170 C-X-C motif chemokine 9 Human genes 0.000 description 12
- 102100027207 CD27 antigen Human genes 0.000 description 12
- 102100031011 Chemerin-like receptor 1 Human genes 0.000 description 12
- 102100040485 HLA class II histocompatibility antigen, DRB1 beta chain Human genes 0.000 description 12
- 108010039343 HLA-DRB1 Chains Proteins 0.000 description 12
- 102100034458 Hepatitis A virus cellular receptor 2 Human genes 0.000 description 12
- 101000897480 Homo sapiens C-C motif chemokine 2 Proteins 0.000 description 12
- 101000797762 Homo sapiens C-C motif chemokine 5 Proteins 0.000 description 12
- 101000856683 Homo sapiens C-X-C chemokine receptor type 6 Proteins 0.000 description 12
- 101000858088 Homo sapiens C-X-C motif chemokine 10 Proteins 0.000 description 12
- 101000947172 Homo sapiens C-X-C motif chemokine 9 Proteins 0.000 description 12
- 101000914511 Homo sapiens CD27 antigen Proteins 0.000 description 12
- 101000919756 Homo sapiens Chemerin-like receptor 1 Proteins 0.000 description 12
- 101001068133 Homo sapiens Hepatitis A virus cellular receptor 2 Proteins 0.000 description 12
- 101001055222 Homo sapiens Interleukin-8 Proteins 0.000 description 12
- 101001137987 Homo sapiens Lymphocyte activation gene 3 protein Proteins 0.000 description 12
- 101001124792 Homo sapiens Proteasome subunit beta type-10 Proteins 0.000 description 12
- 101000979599 Homo sapiens Protein NKG7 Proteins 0.000 description 12
- 101000836075 Homo sapiens Serpin B9 Proteins 0.000 description 12
- 101000874160 Homo sapiens Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Proteins 0.000 description 12
- 101000946833 Homo sapiens T-cell surface glycoprotein CD8 beta chain Proteins 0.000 description 12
- 101000664703 Homo sapiens Transcription factor SOX-10 Proteins 0.000 description 12
- 102100026236 Interleukin-8 Human genes 0.000 description 12
- 102000017578 LAG3 Human genes 0.000 description 12
- 102100029081 Proteasome subunit beta type-10 Human genes 0.000 description 12
- 102100023370 Protein NKG7 Human genes 0.000 description 12
- 108010044012 STAT1 Transcription Factor Proteins 0.000 description 12
- 102100025517 Serpin B9 Human genes 0.000 description 12
- 102100029904 Signal transducer and activator of transcription 1-alpha/beta Human genes 0.000 description 12
- 102100035726 Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Human genes 0.000 description 12
- 102100034928 T-cell surface glycoprotein CD8 beta chain Human genes 0.000 description 12
- 102100038808 Transcription factor SOX-10 Human genes 0.000 description 12
- 229950001969 encorafenib Drugs 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 12
- 238000009169 immunotherapy Methods 0.000 description 12
- CMJCXYNUCSMDBY-ZDUSSCGKSA-N lgx818 Chemical compound COC(=O)N[C@@H](C)CNC1=NC=CC(C=2C(=NN(C=2)C(C)C)C=2C(=C(NS(C)(=O)=O)C=C(Cl)C=2)F)=N1 CMJCXYNUCSMDBY-ZDUSSCGKSA-N 0.000 description 12
- 101000738901 Homo sapiens PMS1 protein homolog 1 Proteins 0.000 description 11
- 101000934888 Homo sapiens Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Proteins 0.000 description 11
- 102100037482 PMS1 protein homolog 1 Human genes 0.000 description 11
- 102100025393 Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Human genes 0.000 description 11
- 230000001105 regulatory effect Effects 0.000 description 11
- 102100025422 Bone morphogenetic protein receptor type-2 Human genes 0.000 description 10
- 102100031480 Dual specificity mitogen-activated protein kinase kinase 1 Human genes 0.000 description 10
- 102100035082 Homeobox protein TGIF2 Human genes 0.000 description 10
- 101000934635 Homo sapiens Bone morphogenetic protein receptor type-2 Proteins 0.000 description 10
- 101000596938 Homo sapiens Homeobox protein TGIF2 Proteins 0.000 description 10
- 101001030211 Homo sapiens Myc proto-oncogene protein Proteins 0.000 description 10
- 108010068342 MAP Kinase Kinase 1 Proteins 0.000 description 10
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 10
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 10
- 102000040945 Transcription factor Human genes 0.000 description 10
- 108091023040 Transcription factor Proteins 0.000 description 10
- 238000012217 deletion Methods 0.000 description 10
- 230000037430 deletion Effects 0.000 description 10
- 229960005277 gemcitabine Drugs 0.000 description 10
- SDUQYLNIPVEERB-QPPQHZFASA-N gemcitabine Chemical compound O=C1N=C(N)C=CN1[C@H]1C(F)(F)[C@H](O)[C@@H](CO)O1 SDUQYLNIPVEERB-QPPQHZFASA-N 0.000 description 10
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 10
- 201000002528 pancreatic cancer Diseases 0.000 description 10
- 208000008443 pancreatic carcinoma Diseases 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 9
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 description 9
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 9
- 101000951145 Homo sapiens Succinate dehydrogenase [ubiquinone] cytochrome b small subunit, mitochondrial Proteins 0.000 description 9
- 101000666385 Homo sapiens Transcription factor Dp-2 Proteins 0.000 description 9
- 102100025725 Mothers against decapentaplegic homolog 4 Human genes 0.000 description 9
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 description 9
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 description 9
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 9
- 102100028286 Proto-oncogene tyrosine-protein kinase receptor Ret Human genes 0.000 description 9
- 238000003559 RNA-seq method Methods 0.000 description 9
- 102100038014 Succinate dehydrogenase [ubiquinone] cytochrome b small subunit, mitochondrial Human genes 0.000 description 9
- 102100038312 Transcription factor Dp-2 Human genes 0.000 description 9
- 230000000973 chemotherapeutic effect Effects 0.000 description 9
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 9
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 9
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 9
- 102100034540 Adenomatous polyposis coli protein Human genes 0.000 description 8
- 108700020463 BRCA1 Proteins 0.000 description 8
- 102000036365 BRCA1 Human genes 0.000 description 8
- 101150072950 BRCA1 gene Proteins 0.000 description 8
- 102000052609 BRCA2 Human genes 0.000 description 8
- 108700020462 BRCA2 Proteins 0.000 description 8
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 8
- 101150008921 Brca2 gene Proteins 0.000 description 8
- 102100028914 Catenin beta-1 Human genes 0.000 description 8
- 206010061818 Disease progression Diseases 0.000 description 8
- 102100031561 Hamartin Human genes 0.000 description 8
- 101000924577 Homo sapiens Adenomatous polyposis coli protein Proteins 0.000 description 8
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 8
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 8
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 8
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 8
- 101150097381 Mtor gene Proteins 0.000 description 8
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 8
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 8
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 8
- 102100023085 Serine/threonine-protein kinase mTOR Human genes 0.000 description 8
- 102000004887 Transforming Growth Factor beta Human genes 0.000 description 8
- 108090001012 Transforming Growth Factor beta Proteins 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 8
- 230000005750 disease progression Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- UWKQSNNFCGGAFS-XIFFEERXSA-N irinotecan Chemical compound C1=C2C(CC)=C3CN(C(C4=C([C@@](C(=O)OC4)(O)CC)C=4)=O)C=4C3=NC2=CC=C1OC(=O)N(CC1)CCC1N1CCCCC1 UWKQSNNFCGGAFS-XIFFEERXSA-N 0.000 description 8
- 229960004768 irinotecan Drugs 0.000 description 8
- 238000002626 targeted therapy Methods 0.000 description 8
- 230000008685 targeting Effects 0.000 description 8
- ZRKFYGHZFMAOKI-QMGMOQQFSA-N tgfbeta Chemical compound C([C@H](NC(=O)[C@H](C(C)C)NC(=O)CNC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CC(C)C)NC(=O)CNC(=O)[C@H](C)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](C)NC(=O)[C@H](C)NC(=O)[C@@H](NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CCSC)C(C)C)[C@@H](C)CC)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](C)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N[C@@H](CC(C)C)C(=O)N1[C@@H](CCC1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(O)=O)C1=CC=C(O)C=C1 ZRKFYGHZFMAOKI-QMGMOQQFSA-N 0.000 description 8
- 238000011269 treatment regimen Methods 0.000 description 8
- 108010079362 Core Binding Factor Alpha 3 Subunit Proteins 0.000 description 7
- 101001120056 Homo sapiens Phosphatidylinositol 3-kinase regulatory subunit alpha Proteins 0.000 description 7
- 101000579425 Homo sapiens Proto-oncogene tyrosine-protein kinase receptor Ret Proteins 0.000 description 7
- 102000007530 Neurofibromin 1 Human genes 0.000 description 7
- 108010085793 Neurofibromin 1 Proteins 0.000 description 7
- 102100026169 Phosphatidylinositol 3-kinase regulatory subunit alpha Human genes 0.000 description 7
- 102100025369 Runt-related transcription factor 3 Human genes 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- 229960003444 immunosuppressant agent Drugs 0.000 description 7
- 230000001861 immunosuppressant effect Effects 0.000 description 7
- 239000003018 immunosuppressive agent Substances 0.000 description 7
- 230000007170 pathology Effects 0.000 description 7
- 230000001225 therapeutic effect Effects 0.000 description 7
- ZEOWTGPWHLSLOG-UHFFFAOYSA-N Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F Chemical compound Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F ZEOWTGPWHLSLOG-UHFFFAOYSA-N 0.000 description 6
- 238000001712 DNA sequencing Methods 0.000 description 6
- 102100023266 Dual specificity mitogen-activated protein kinase kinase 2 Human genes 0.000 description 6
- 102100023593 Fibroblast growth factor receptor 1 Human genes 0.000 description 6
- 101710182386 Fibroblast growth factor receptor 1 Proteins 0.000 description 6
- 102100023416 G-protein coupled receptor 15 Human genes 0.000 description 6
- 102100035108 High affinity nerve growth factor receptor Human genes 0.000 description 6
- 101000829794 Homo sapiens G-protein coupled receptor 15 Proteins 0.000 description 6
- 101000596894 Homo sapiens High affinity nerve growth factor receptor Proteins 0.000 description 6
- 101000986810 Homo sapiens P2Y purinoceptor 8 Proteins 0.000 description 6
- 101000868472 Homo sapiens Sialoadhesin Proteins 0.000 description 6
- 101000669402 Homo sapiens Toll-like receptor 7 Proteins 0.000 description 6
- 101000701142 Homo sapiens Transcription factor ATOH1 Proteins 0.000 description 6
- 101000633045 Homo sapiens Zinc finger protein SNAI3 Proteins 0.000 description 6
- 108010068353 MAP Kinase Kinase 2 Proteins 0.000 description 6
- 208000032818 Microsatellite Instability Diseases 0.000 description 6
- 102100025744 Mothers against decapentaplegic homolog 1 Human genes 0.000 description 6
- 102000013609 MutL Protein Homolog 1 Human genes 0.000 description 6
- 108010026664 MutL Protein Homolog 1 Proteins 0.000 description 6
- 102100028069 P2Y purinoceptor 8 Human genes 0.000 description 6
- 101700032040 SMAD1 Proteins 0.000 description 6
- 102100032855 Sialoadhesin Human genes 0.000 description 6
- 102100039390 Toll-like receptor 7 Human genes 0.000 description 6
- 102100029373 Transcription factor ATOH1 Human genes 0.000 description 6
- 102100029573 Zinc finger protein SNAI3 Human genes 0.000 description 6
- 210000002865 immune cell Anatomy 0.000 description 6
- IEYOHYVYEJVEJJ-SKDRFNHKSA-N (4s,5r)-3-[6-[2-amino-4-(trifluoromethyl)pyrimidin-5-yl]-2-morpholin-4-ylpyrimidin-4-yl]-4-(hydroxymethyl)-5-methyl-1,3-oxazolidin-2-one Chemical compound OC[C@H]1[C@@H](C)OC(=O)N1C1=CC(C=2C(=NC(N)=NC=2)C(F)(F)F)=NC(N2CCOCC2)=N1 IEYOHYVYEJVEJJ-SKDRFNHKSA-N 0.000 description 5
- 102000010400 1-phosphatidylinositol-3-kinase activity proteins Human genes 0.000 description 5
- CWHUFRVAEUJCEF-UHFFFAOYSA-N BKM120 Chemical compound C1=NC(N)=CC(C(F)(F)F)=C1C1=CC(N2CCOCC2)=NC(N2CCOCC2)=N1 CWHUFRVAEUJCEF-UHFFFAOYSA-N 0.000 description 5
- 101001027324 Homo sapiens Progranulin Proteins 0.000 description 5
- 108091054455 MAP kinase family Proteins 0.000 description 5
- 102000043136 MAP kinase family Human genes 0.000 description 5
- 108091007960 PI3Ks Proteins 0.000 description 5
- 102100037632 Progranulin Human genes 0.000 description 5
- 102100031638 Tuberin Human genes 0.000 description 5
- 239000002671 adjuvant Substances 0.000 description 5
- 238000009412 basement excavation Methods 0.000 description 5
- ACWZRVQXLIRSDF-UHFFFAOYSA-N binimetinib Chemical compound OCCONC(=O)C=1C=C2N(C)C=NC2=C(F)C=1NC1=CC=C(Br)C=C1F ACWZRVQXLIRSDF-UHFFFAOYSA-N 0.000 description 5
- 229950003054 binimetinib Drugs 0.000 description 5
- 210000004369 blood Anatomy 0.000 description 5
- 239000008280 blood Substances 0.000 description 5
- 229950003628 buparlisib Drugs 0.000 description 5
- 230000003013 cytotoxicity Effects 0.000 description 5
- 231100000135 cytotoxicity Toxicity 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011065 in-situ storage Methods 0.000 description 5
- 108020004999 messenger RNA Proteins 0.000 description 5
- 101150024461 86 gene Proteins 0.000 description 4
- 206010069754 Acquired gene mutation Diseases 0.000 description 4
- 102100035682 Axin-1 Human genes 0.000 description 4
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 4
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 4
- 102100038631 E3 ubiquitin-protein ligase SMURF1 Human genes 0.000 description 4
- 102100028138 F-box/WD repeat-containing protein 7 Human genes 0.000 description 4
- 101710105178 F-box/WD repeat-containing protein 7 Proteins 0.000 description 4
- 102000036353 FBXWs Human genes 0.000 description 4
- 108091007023 FBXWs Proteins 0.000 description 4
- 102100023600 Fibroblast growth factor receptor 2 Human genes 0.000 description 4
- 101710182389 Fibroblast growth factor receptor 2 Proteins 0.000 description 4
- 206010064571 Gene mutation Diseases 0.000 description 4
- 101000874566 Homo sapiens Axin-1 Proteins 0.000 description 4
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 4
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 4
- 101000664993 Homo sapiens E3 ubiquitin-protein ligase SMURF1 Proteins 0.000 description 4
- 101000795643 Homo sapiens Hamartin Proteins 0.000 description 4
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 4
- 101001095320 Homo sapiens Serine/threonine-protein phosphatase PP1-beta catalytic subunit Proteins 0.000 description 4
- 101000702545 Homo sapiens Transcription activator BRG1 Proteins 0.000 description 4
- 101001028730 Homo sapiens Transcription factor JunB Proteins 0.000 description 4
- 101001050297 Homo sapiens Transcription factor JunD Proteins 0.000 description 4
- 101000997832 Homo sapiens Tyrosine-protein kinase JAK2 Proteins 0.000 description 4
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 4
- 102000037984 Inhibitory immune checkpoint proteins Human genes 0.000 description 4
- 108091008026 Inhibitory immune checkpoint proteins Proteins 0.000 description 4
- 102000042838 JAK family Human genes 0.000 description 4
- 108091082332 JAK family Proteins 0.000 description 4
- 229910015837 MSH2 Inorganic materials 0.000 description 4
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 description 4
- 102100037480 Mismatch repair endonuclease PMS2 Human genes 0.000 description 4
- 102100030610 Mothers against decapentaplegic homolog 5 Human genes 0.000 description 4
- 101710143113 Mothers against decapentaplegic homolog 5 Proteins 0.000 description 4
- 102100028448 Nuclear receptor subfamily 2 group C member 2 Human genes 0.000 description 4
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 4
- 108700028341 SMARCB1 Proteins 0.000 description 4
- 102000052049 SMARCB1 Human genes 0.000 description 4
- 101150008214 SMARCB1 gene Proteins 0.000 description 4
- 102100037764 Serine/threonine-protein phosphatase PP1-beta catalytic subunit Human genes 0.000 description 4
- 102100031027 Transcription activator BRG1 Human genes 0.000 description 4
- 102100037168 Transcription factor JunB Human genes 0.000 description 4
- 102100023118 Transcription factor JunD Human genes 0.000 description 4
- 102100033444 Tyrosine-protein kinase JAK2 Human genes 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000012854 evaluation process Methods 0.000 description 4
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 210000001082 somatic cell Anatomy 0.000 description 4
- 230000037439 somatic mutation Effects 0.000 description 4
- 238000001356 surgical procedure Methods 0.000 description 4
- 108091008743 testicular receptors 4 Proteins 0.000 description 4
- YXTKHLHCVFUPPT-YYFJYKOTSA-N (2s)-2-[[4-[(2-amino-5-formyl-4-oxo-1,6,7,8-tetrahydropteridin-6-yl)methylamino]benzoyl]amino]pentanedioic acid;(1r,2r)-1,2-dimethanidylcyclohexane;5-fluoro-1h-pyrimidine-2,4-dione;oxalic acid;platinum(2+) Chemical compound [Pt+2].OC(=O)C(O)=O.[CH2-][C@@H]1CCCC[C@H]1[CH2-].FC1=CNC(=O)NC1=O.C1NC=2NC(N)=NC(=O)C=2N(C=O)C1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 YXTKHLHCVFUPPT-YYFJYKOTSA-N 0.000 description 3
- CDKIEBFIMCSCBB-UHFFFAOYSA-N 1-(6,7-dimethoxy-3,4-dihydro-1h-isoquinolin-2-yl)-3-(1-methyl-2-phenylpyrrolo[2,3-b]pyridin-3-yl)prop-2-en-1-one;hydrochloride Chemical compound Cl.C1C=2C=C(OC)C(OC)=CC=2CCN1C(=O)C=CC(C1=CC=CN=C1N1C)=C1C1=CC=CC=C1 CDKIEBFIMCSCBB-UHFFFAOYSA-N 0.000 description 3
- 101001029175 Bacillus subtilis (strain 168) Intracellular iron chaperone frataxin Proteins 0.000 description 3
- 108010079245 Cystic Fibrosis Transmembrane Conductance Regulator Proteins 0.000 description 3
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 3
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 3
- 101100238555 Haemophilus influenzae (strain ATCC 51907 / DSM 11121 / KW20 / Rd) msbA gene Proteins 0.000 description 3
- 101001006892 Homo sapiens Krueppel-like factor 10 Proteins 0.000 description 3
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 3
- 101000772905 Homo sapiens Polyubiquitin-B Proteins 0.000 description 3
- 101000895882 Homo sapiens Transcription factor E2F4 Proteins 0.000 description 3
- 101000795659 Homo sapiens Tuberin Proteins 0.000 description 3
- 102100027798 Krueppel-like factor 10 Human genes 0.000 description 3
- 102100020679 Krueppel-like factor 6 Human genes 0.000 description 3
- 102100025748 Mothers against decapentaplegic homolog 3 Human genes 0.000 description 3
- 101710143111 Mothers against decapentaplegic homolog 3 Proteins 0.000 description 3
- 101000825162 Mus musculus Transcription factor Spi-C Proteins 0.000 description 3
- 102100030432 Polyubiquitin-B Human genes 0.000 description 3
- 102100021783 Transcription factor E2F4 Human genes 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 230000007541 cellular toxicity Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- JYEFSHLLTQIXIO-SMNQTINBSA-N folfiri regimen Chemical compound FC1=CNC(=O)NC1=O.C1NC=2NC(N)=NC(=O)C=2N(C=O)C1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1.C1=C2C(CC)=C3CN(C(C4=C([C@@](C(=O)OC4)(O)CC)C=4)=O)C=4C3=NC2=CC=C1OC(=O)N(CC1)CCC1N1CCCCC1 JYEFSHLLTQIXIO-SMNQTINBSA-N 0.000 description 3
- 102000008371 intracellularly ATP-gated chloride channel activity proteins Human genes 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000011275 oncology therapy Methods 0.000 description 3
- 210000000277 pancreatic duct Anatomy 0.000 description 3
- 230000003285 pharmacodynamic effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 210000002966 serum Anatomy 0.000 description 3
- 230000033772 system development Effects 0.000 description 3
- 229940126585 therapeutic drug Drugs 0.000 description 3
- 238000007671 third-generation sequencing Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- 101150098879 43 gene Proteins 0.000 description 2
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 2
- 208000006402 Ductal Carcinoma Diseases 0.000 description 2
- 108091008794 FGF receptors Proteins 0.000 description 2
- 101001006895 Homo sapiens Krueppel-like factor 11 Proteins 0.000 description 2
- 101000595669 Homo sapiens Pituitary homeobox 2 Proteins 0.000 description 2
- 101000842302 Homo sapiens Protein-cysteine N-palmitoyltransferase HHAT Proteins 0.000 description 2
- 101000688996 Homo sapiens Ski-like protein Proteins 0.000 description 2
- 102000037982 Immune checkpoint proteins Human genes 0.000 description 2
- 108091008036 Immune checkpoint proteins Proteins 0.000 description 2
- 102100027797 Krueppel-like factor 11 Human genes 0.000 description 2
- 101100334745 Mus musculus Fgfr4 gene Proteins 0.000 description 2
- 101100115705 Mus musculus Stfa1 gene Proteins 0.000 description 2
- 208000035823 Non-specific autoimmune cerebellar ataxia without characteristic antibodies Diseases 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 102100036090 Pituitary homeobox 2 Human genes 0.000 description 2
- 102100030616 Protein-cysteine N-palmitoyltransferase HHAT Human genes 0.000 description 2
- 101100042881 Sambucus nigra SNA-I gene Proteins 0.000 description 2
- 108010047827 Sialic Acid Binding Immunoglobulin-like Lectins Proteins 0.000 description 2
- 102000007073 Sialic Acid Binding Immunoglobulin-like Lectins Human genes 0.000 description 2
- 102100024451 Ski-like protein Human genes 0.000 description 2
- 108020000411 Toll-like receptor Proteins 0.000 description 2
- 102000002689 Toll-like receptor Human genes 0.000 description 2
- 238000011226 adjuvant chemotherapy Methods 0.000 description 2
- 238000010171 animal model Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000009104 chemotherapy regimen Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001647 drug administration Methods 0.000 description 2
- 230000008482 dysregulation Effects 0.000 description 2
- 102000052178 fibroblast growth factor receptor activity proteins Human genes 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 150000007523 nucleic acids Chemical group 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 238000011285 therapeutic regimen Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000000439 tumor marker Substances 0.000 description 2
- 108700026220 vif Genes Proteins 0.000 description 2
- 101150033839 4 gene Proteins 0.000 description 1
- 101150111660 53 gene Proteins 0.000 description 1
- 101150101112 7 gene Proteins 0.000 description 1
- 208000004476 Acute Coronary Syndrome Diseases 0.000 description 1
- 101100215673 Arabidopsis thaliana AGL11 gene Proteins 0.000 description 1
- 101100455868 Arabidopsis thaliana MKK2 gene Proteins 0.000 description 1
- 101000651671 Bombyx mori Sex-specific storage-protein 2 Proteins 0.000 description 1
- CLRSLRWKONPSRQ-IIPSPAQQSA-N C1([C@@H]2N(C(=O)CC=3C=C(C(=CC=32)OC(C)C)OC)C=2C=CC(=CC=2)N(C)C[C@@H]2CC[C@H](CC2)N2CC(=O)N(C)CC2)=CC=C(Cl)C=C1 Chemical compound C1([C@@H]2N(C(=O)CC=3C=C(C(=CC=32)OC(C)C)OC)C=2C=CC(=CC=2)N(C)C[C@@H]2CC[C@H](CC2)N2CC(=O)N(C)CC2)=CC=C(Cl)C=C1 CLRSLRWKONPSRQ-IIPSPAQQSA-N 0.000 description 1
- 101100123850 Caenorhabditis elegans her-1 gene Proteins 0.000 description 1
- 101100095226 Caenorhabditis elegans sdha-1 gene Proteins 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000002699 Digestive System Neoplasms Diseases 0.000 description 1
- 102000001301 EGF receptor Human genes 0.000 description 1
- 101000851181 Homo sapiens Epidermal growth factor receptor Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 101710095205 Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 101100043050 Mus musculus Sox4 gene Proteins 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 101100352420 Pithecopus oreades psn4 gene Proteins 0.000 description 1
- 101150040459 RAS gene Proteins 0.000 description 1
- 101150076031 RAS1 gene Proteins 0.000 description 1
- 108020004518 RNA Probes Proteins 0.000 description 1
- 239000003391 RNA probe Substances 0.000 description 1
- 102100021688 Rho guanine nucleotide exchange factor 5 Human genes 0.000 description 1
- 101150073911 STK gene Proteins 0.000 description 1
- 101710149792 Triosephosphate isomerase, chloroplastic Proteins 0.000 description 1
- 101710195516 Triosephosphate isomerase, glycosomal Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 229940127085 adjuvant medication Drugs 0.000 description 1
- 238000013103 analytical ultracentrifugation Methods 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 229940044683 chemotherapy drug Drugs 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000002648 combination therapy Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 231100000433 cytotoxic Toxicity 0.000 description 1
- 230000001472 cytotoxic effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 229940121647 egfr inhibitor Drugs 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000011354 first-line chemotherapy Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000005934 immune activation Effects 0.000 description 1
- 230000001506 immunosuppresive effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012177 large-scale sequencing Methods 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 229940125645 monoclonal antibody drug Drugs 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 229920000371 poly(diallyldimethylammonium chloride) polymer Polymers 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 208000037821 progressive disease Diseases 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 102000016914 ras Proteins Human genes 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- AGBSXNCBIWWLHD-FQEVSTJZSA-N siremadlin Chemical compound COC1=NC(OC)=NC=C1C(N1C(C)C)=NC2=C1[C@H](C=1C=CC(Cl)=CC=1)N(C=1C(N(C)C=C(Cl)C=1)=O)C2=O AGBSXNCBIWWLHD-FQEVSTJZSA-N 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 238000011277 treatment modality Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及基因检测及生物信息学领域,公开了一种基于转录组数据、外显子组/基因组数据和临床表型挖掘复杂疾病标志物的方法,设计了一套整合高通量测序数据和临床表型构建复杂疾病状态评估模型的计算方法,并将其应用于结直肠癌、胰腺导管癌、泛肿瘤靶向用药,分别筛选到了疾病相关的生物标志物,形成了相应的疾病状态评估模型。通过本发明方法构建得到准确性与机制解释性兼顾的标志物,可用于复杂疾病预后评估、治疗效果预测及治疗方案辅助决策等。
Description
技术领域
本发明涉及基因检测及生物信息学技术领域,具体涉及一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法,及其相关检测panel设计和实施应用案例。
背景技术
第一代测序技术,通过双脱氧末端终止法或化学切割法,获得序列特定位置的碱基信息,利用电泳和显影读取核酸序列。基因芯片技术,通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,实现了高通量并行化,缺点在于可重复性和灵敏度有待增强,分析范围不够广泛。二代测序技术,又称新一代测序技术(next-generation sequencing,NGS),与第一代测序不同,通过体外片段扩增和边合成边测序,实现了高通量并行化测序,主要缺点是读长短。第三代测序技术,又称单分子测序技术,无需扩增,直接通过检测模板序列的荧光信号或电信号,不受读长限制地直接读取模板序列信息。高通量测序数据(第二代或第三代测序技术生成),在DNA层面可以高通量检测突变,包括点突变、插入缺失突变、基因融合、拷贝数变异等,在RNA层面则可高通量检测基因定量表达水平、可变基因剪切与融合等,对于精准医学发展起到重要推动作用。
以肿瘤、心脑血管疾病、代谢类疾病为代表的复杂疾病是人类健康的重大威胁,目前对复杂疾病致病机制的研究,得益于生物技术的快速发展,有了长足进步。基于复杂疾病样本的高通量测序数据,可以从分子水平阐释复杂疾病的发生、进展、转归、治疗和预后的规律,辅助有效评估肿瘤状态,为制定精准有效的治疗方案提供指导。肿瘤是复杂疾病的典型代表,其导致的可检测的突变或异常表达基因,同具体肿瘤临床表型密切相关时,即有可能作为分子肿瘤标志物,用于诊断、风险评估、预后、指导治疗、进展和安全性评估等。
基于高通量测序数据的复杂疾病标志物发现技术和相关标志物检测评估方案已经取得长足进步,但仍面临如下不足有待克服:1)标志物挖掘方法相对简单,准确性和可解释性亟需增强。对于多基因相关的复杂疾病,基于单个基因的标志物难以达到高准确性;相对于提高准确性,对标志物的机制可解释性关注更为不足。这既不符合循证医学理念以及理解标志物关键原理,也不利于实现标志物的理论最优组合,从而提高其鲁棒性和可重复性。2)检测和评估内容相对单一,功能有限。目前,由于基因收集筛选能力和测序成本,同一标志物检测方案覆盖的基因相对较少,实际应用中以单位点或小片段突变为主要评估指标,近年来以基因表达水平和检测panel中所有基因整体突变水平作为标志物评估的方案日益受到关注;在功能方面,以位点或基因相关靶向药效果预测为主,对于更广泛的手术、化疗、放疗、免疫治疗等指导意义有限。3)标志物设计及配套数据分析工具,对多元信息的利用不够充分。目前多数设计方案仅针对药物指南、标签以及有限的文献收集,技术路线侧重于单一组学层面,基于大规模测序结果、公共数据库及文本挖掘技术综合分析较少,对涵盖多种分子组学和临床表型信息的多元数据整合分析严重不足。
发明内容
为了解决上述问题,本发明提出了一种基于转录组数据、外显子组/基因组数据和临床表型挖掘复杂疾病标志物的方法,设计了一套整合高通量测序数据和临床表型构建复杂疾病状态评估模型的计算方法,并将其应用于结直肠癌、胰腺导管癌、泛肿瘤,分别筛选到了疾病相关的生物标志物,形成了相应的疾病状态评估模型。
通过本发明建立的方法挖掘到的复杂疾病标志物,兼顾标志物准确性与机制解释性;本发明所设计的复杂疾病状态评估模型构建方法,对多元信息利用充分,评价指标丰富,功能系统全面实用,涵盖筛选挖掘、建模评分与检测panel设计等。以上技术创新能为复杂疾病标志物筛选和状态评估模型构建提供可靠通用的计算支持,并在结直肠癌、胰腺导管癌和泛肿瘤标志物挖掘中进行了具体实施。
本发明提出了一种基于转录组数据、外显子组数据和临床表型挖掘复杂疾病标志物的方法,包括以下步骤:
步骤1)对复杂疾病病例信息分类整理:
步骤1.1)将所述复杂疾病病例信息分为转录组数据、外显子组/基因组数据和临床信息;
步骤1.2)将所述复杂疾病病例信息按照疾病状态分类并进行配对整理;以上信息分类将用于步骤2三种方法模式的选择。
步骤2)构建复杂疾病标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述复杂疾病病例信息仅涉及转录组数据与临床信息,则执行步骤2.1) 基于转录组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因异常调控关系标志物组合;
若所述复杂疾病病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因变异标志物组合;
若所述复杂疾病病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤2.1)包括以下子步骤:
步骤2.1.1)构建参考基因调控网络:从公共数据资源中可获取的转录调控关系信息以及人类编码基因启动子序列出发,识别潜在的转录因子 (transcriptional factor,TF)与靶基因(target)关系对,构建参考基因调控网络(Reference Gene RegulationNetwork,rGRN)。
步骤2.1.2)基于特定疾病状态下的转录组表达数据以及rGRN中的 TF-target关系,构建特定疾病状态下的,即条件特异的基因调控网络 (Conditional Gene RegulationNetwork,cGRN)。步骤2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异的基因调控网络,即特定疾病状态的基因调控网络。
步骤2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异:采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异的基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异的基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异。
步骤2.1.4)筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系:
整合三方面与基因调控相关的因素,筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化,以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序。
步骤2.1.5)基于基因异常调控关系,构建复杂疾病状态(如疾病进展阶段、预后、治疗方案敏感性)相关的基因异常调控关系标志物组合,该标志物组合可用于疾病进展评估、预后评估、治疗方案辅助决策。
步骤2.1.5从基因异常调控关系出发,采用Cox回归模型筛选与疾病状态,如疾病进展阶段、预后、治疗方案敏感性相关的标志物组合。其中,涉及每个异常调控基因对的Cox模型构建及其C-index比较、基于贪婪算法的异常调控基因对逐次增加迭代,以及基于遗传算法的进化式迭代。
具体地,所述步骤2.2)包括以下子步骤:
步骤2.2)基于外显子组/基因组数据与临床信息的标志物挖掘;
步骤2.2.1)识别与复杂疾病相关的基因变异;其中,与疾病状态相关的DNA 变异包括基因拷贝数与体细胞突变,包括但不限于单个碱基多态性(SNP)、插入与缺失(Indel)、拷贝数变异(CNV)、基因融合(fusion)、基因重排(rearrangement) 等高通量测序技术可以检测的变异;
步骤2.2.2)采用数据驱动和/或先验知识驱动定量筛选复杂疾病状态相关的重要基因变异;其中,数据定量过滤筛选,涉及体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的复杂疾病相关基因;
步骤2.2.3)基于步骤2.2.2)得到的复杂疾病状态相关的重要基因变异,构建复杂疾病状态(如疾病进展阶段、预后、治疗方案敏感性)相关的DNA变异标志物组合,该标志物组合可用于疾病进展评估、预后评估、治疗方案辅助决策。其中,采用Cox回归模型筛选与疾病状态,如疾病进展阶段、预后、治疗方案敏感性相关的DNA变异标志物组合。其中,涉及每个变异的Cox模型构建及其 C-index比较、基于贪婪算法的重要变异逐次增加迭代,以及基于遗传算法的进化式迭代。以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建复杂疾病相关的基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤2.3)包括以下子步骤:
步骤2.3.1)对于同时具备转录组数据和外显子组/基因组数据的复杂疾病数据集,利用步骤2.1.1~2.1.4筛选疾病状态相关的基因异常调控关系,同时利用步骤2.2.1~2.2.2挖掘疾病状态相关的重要基因变异,分别得到复杂疾病相关的基因异常调控关系和重要基因变异;
步骤2.3.2)随后采纳步骤2.1.5和步骤2.2.3中,基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,整合RNA和DNA信息,构建复杂疾病相关的基因异常调控关系和基因变异标志物组合。
基于上述方法得到的复杂疾病标志物,本发明提出了一种复杂疾病综合状态评分方法,包括以下步骤:
步骤3.1)针对已知先验知识,筛选复杂疾病状态相关的临床信息(如疾病进展阶段、预后、治疗方案敏感性)及检验和病理指标;
步骤3.2)从复杂疾病队列中病例信息出发,筛选复杂疾病状态相关的临床信息及检验和病理指标;
步骤3.3)将本发明方法得到的复杂疾病相关的基因异常调控关系和/或基因变异标志物组合,同步骤3.1和3.2筛选所得复杂疾病状态相关的临床信息及检验和病理指标整合,优化成为复杂疾病多元标志物组合,构建复杂疾病综合状态评分模型;所述模型用于复杂疾病综合状态评分计算。其中,利用基于贪婪算法的逐次增加迭代和/或基于遗传算法的进化迭代,将复杂疾病相关的基因异常调控关系和/或基因变异标志物组合、复杂疾病相关临床信息及检验和病理指标,整合优化精简特征后形成复杂疾病多元标志物组合,包含复杂疾病相关的基因异常调控关系、基因变异、临床信息、检验和病例指标;进而利用统计回归和机器学习算法,针对复杂疾病预后评估、治疗效果预测及治疗方案辅助决策,构建复杂疾病综合状态评分模型。
具体地,步骤3.1采用公开渠道可获得的国内外最新临床指南、专家共识和推荐意见,药物临床应用指南,来自中国临床肿瘤学会(CSCO)、美国国家综合癌症网络(NCCN)、美国临床肿瘤学会(ASCO)、欧洲肿瘤内科学会(ESMO)和日本肿瘤学会(JSC)的临床实践指南,以及通用知识库中的复杂疾病相关各类检验指标,结合复杂疾病相关知名本体库和公开发表的权威文献,系统检索和挖掘同复杂疾病进展、治疗方案敏感性和预后高度关联的检验指标,去除冗余后,纳入后续模型及工具开发。
具体地,步骤3.2基于可以得到的复杂疾病队列数据,整合复杂疾病状态评估相关检验指标和临床信息构建模型,利用预测评估指标(如C-index、AUC),采用机器学习特征选择策略,如Boruta、 Bayes、NMF、单变量线性回归,筛选对临床信息预测效果位于前列的检验指标。
具体地,步骤3.3利用统计建模或机器学习手段,将前文所述测序组学标志物、临床检验指标,以及基于疾病队列信息筛选到的指标,结合病例临床信息,训练实现复杂疾病状态评估模型;并以更为准确可靠地预测复杂疾病患者预后状态和治疗方案受益情况为目标,综合使用各类指标(如生存曲线、C-index、AUC 等)精简特征组合(最优组合目标是特征数量少,准确可靠,机制可解释性强),迭代优化状态评估模型。
本发明提出了一种复杂疾病综合状态评分计算系统,采用本发明复杂疾病综合状态评分方法,将复杂疾病综合状态评分模型开发封装为方便使用的复杂疾病综合状态评分计算系统(如软件、在线服务器形式)。其中,必须包括实用方便的输入和输出模块和评分模型,其中输出内容应至少包括复杂疾病的分类及风险评分以及对应的治疗受益预测提示等信息。
本发明提出了一种基因检测panel设计方法,包括以下步骤:
步骤4.1)基于本发明方法筛选得到复杂疾病相关的基因异常调控关系和/ 或基因变异标志物组合,并最终纳入本发明所述复杂疾病综合状态评分方法的基因集,梳理基因集中基因相关信息,去除冗余,确定标准基因名;
步骤4.2)针对步骤4.1)中梳理后的基因,选择用于复杂疾病检测设计的靶基因目标区域,可用于探针设计或引物设计;
步骤4.3)根据步骤4.2)中的靶基因目标区域,设计相应的探针和/或引物序列,并记录重要注释;
步骤4.4)针对步骤4.2)中的靶基因目标区域,参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域进行优化设计,使探针和/或引物能均匀捕获覆盖目标区域;
步骤4.5)将步骤4.3和4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对,获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案;
步骤4.6)基于步骤4.5设计的靶基因目标区域相关探针和/或引物,制作出用于充分进行复杂疾病状态评估的基因检测panel。
具体地,步骤4.2选择探针设计的基因目标区域时,采取精准优先、逐步扩大的原则,首先采用变异位点区域,次优选择变异位点所在外显子区域,最后可采用变异基因的全部可变剪切区域。其中,选择用于复杂疾病检测的探针和/或引物设计的靶基因目标区域,遵循以下原则:对于变异位点信息明确具体且该变异位点序列前后各100bp范围内无其它变异位点,则将此已明确的基因位点覆盖区域作为靶基因目标区域;对于变异位点较集中或密集的基因区域,即两个变异位点相邻且间隔不超过100bp,则选择该组变异位点的外显子作为靶基因目标区域;对于步骤4.1)确定的信息非常多样的重要基因,在前两项设计不适用的情况下,则选择该基因全部可变剪切类型的区域作为靶基因目标区域。
具体地,步骤4.3)中的设计是指采用对步骤4.2)中的靶基因目标区域两端延伸,合并延伸后的全部目标区域并去除冗余;以合适的文件格式记录探针和/ 或引物设计的靶基因目标区域的重要信息,包括靶基因目标区域的染色体编号、靶基因目标区域的起始位置、靶基因目标区域的终止位置、突变位点信息、自定义信息,如引物设计所需3’端信息。
具体地,步骤4.4)中参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域设计的探针和/或引物覆盖深度进行加权,并基于人类全基因组测序数据预测其探针和/或引物覆盖深度后,在全探针和/或引物数据集进行调整,使探针和/或引物能均匀捕获覆盖目标区域。
具体地,步骤4.5综合比对步骤4.3和步骤4.4所生成的探针设计区域,并同时测评探针对重要变异位点和全部目标区域的覆盖度,获取具有最优覆盖度的探针设计方案。其中,步骤4.5)中靶基因目标区域相关探针和/或引物的最优覆盖度是指计算探针和/或引物对步骤4.1)所述重要基因变异位点的覆盖度和全部靶基因目标区域的覆盖度,计算公式为:覆盖度=比对上的读长数/目标测序读长数;通过靶基因目标区域附近的优化,使得最终设计的探针和/或引物,对全部靶基因目标区域的覆盖度≥90%,同时对步骤4.1)所述重要基因变异位点的覆盖度≥97%。
本发明中,步骤4.1至4.6整体上是一个综合流程,可以根据具体检测中采用的检测平台,如PCR、NGS、三代测序、NanoString等。针对不同领域和技术经验规范,可进行相应的调整优化。
本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法,基于复杂疾病状态评估基因检测panel同综合状态评分计算系统的联用进行评估,包括以下步骤:
步骤5.1)基于本发明所述方法设计的基因检测panel,得到复杂疾病相关的基因异常调控关系和/或基因变异标志物组合的定量值,本发明所述的复杂疾病综合状态评分计算系统;
步骤5.2)将获取本发明所述复杂疾病状态相关的临床信息及检验和病理指标的定量值,输入本发明所述的复杂疾病综合状态评分计算系统;
步骤5.3)将步骤5.1)和5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求可以完成检测、信息输入、计算评估和结果获取,顺利获得评估状态和提示建议输出等有效信息。
本发明中,步骤5.1采用适应具体应用需求的方式,如检测装置或试剂盒,灵活获取DNA和RNA层面包括但不限于拷贝数、基因变异和基因表达在内的多种组学信息,以得到输入综合状态评分计算系统的定量数值为目标,并确定规范输入方式。
本发明中,步骤5.2采用适合应用场景,并与步骤5.1中基因检测panel配套的硬件或软件模块,以自动化或人工方式从HIS或EMR等医学信息系统中获取可以输入综合状态评分计算系统的病例检测指标和临床信息,并确定规范输入方式。
本发明中,步骤5.3构建的基因检测panel同综合评分系统的联用方法,以符合应用需求为目标,组合形式灵活多样,包括但不限于试剂盒/软件,检测装置/数据处理一体机,试剂盒/检测装置/数据在线分析平台等形式;使用者可以按说明文档,以最方便友好和高效的形式,输入个体病例的必要信息,包括复杂疾病相关的基因异常调控关系和/或基因变异标志物组合、复杂疾病相关临床信息及检验和病理指标,自动化或半自动化进行数据汇总统计和预处理之后,完成计算评估,并输出该个体病例的分类及风险评分以及对应的治疗受益预测提示等信息;最终可以实现对复杂疾病个体病例状态的评估,辅助临床决策等功能。
本发明所述的方法在构建基于高通量测序数据和临床表型构建复杂疾病状态评估模型中的应用,包括在筛选复杂疾病综合状态评估标志物组合中的应用;在筛选肿瘤综合状态评估标志物组合中的应用;在复杂疾病预后评估、治疗效果预测及治疗方案辅助决策中的应用。
本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估模型方法在结直肠肿瘤状态评估中的应用(包括:结直肠肿瘤状态评估模型构建方法;结直肠肿瘤状态评估panel设计方法;结直肠肿瘤状态评估方法、等),包括以下步骤:
步骤14.1)获取结直肠肿瘤病例信息,包括高通量测序数据和临床信息,根据结直肠肿瘤病例状态分类并进行配对整理,并确定挖掘模式;
步骤14.2)构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合;
步骤14.3)筛选结直肠肿瘤相关的临床信息及检验和病理指标;参考结直肠肿瘤相关的基因异常调控关系和步骤14.2所得基因变异标志物组合,整合优化为结直肠肿瘤多元标志物组合,用于构建结直肠肿瘤综合状态评分模型,并开发封装为结直肠肿瘤综合状态评分计算系统;
步骤14.4)基于步骤14.2所得结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合,设计结直肠肿瘤综合状态评估的靶基因目标区域相关探针和/ 或引物,用作结直肠肿瘤综合状态评估基因检测panel;
步骤14.5)构建一套结直肠肿瘤综合状态评估基因检测panel和综合状态评分计算系统联用流程,使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤14.1中,对结直肠肿瘤病例信息进行分类整理:
步骤14.1.1)将所述结直肠肿瘤病例信息分为转录组数据、外显子组/基因组数据和临床信息;
步骤14.1.2)将所述结直肠肿瘤病例信息按照疾病状态分类并进行配对整理。
具体地,步骤14.2中,构建结直肠肿瘤标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述结直肠肿瘤病例信息仅涉及转录组数据与临床信息,则执行步骤 14.2.1)基于转录组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因异常调控关系标志物组合;
若所述结直肠肿瘤病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤14.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因变异标志物组合;
若所述结直肠肿瘤病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤14.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤14.2.1)具体包括以下子步骤:
步骤14.2.1.1)构建参考基因调控网络;
步骤14.2.1.2)基于结直肠肿瘤特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系,构建条件特异的基因调控网络;
步骤14.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异;
步骤14.2.1.4)筛选不同结直肠肿瘤疾病状态下的条件特异的基因调控网络之间的基因异常调控关系;
步骤14.2.1.5)基于步骤14.2.1.4)得到的基因异常调控关系,构建结直肠肿瘤相关的基因异常调控关系标志物组合。
具体地,步骤14.2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异,即结直肠肿瘤特定疾病状态的基因调控网络。
具体地,步骤14.2.1.3)中,采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异。
具体地,步骤14.2.1.4)中,整合三方面与基因调控相关的因素,筛选结直肠肿瘤不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化,以及TF对target 的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序。
具体地,步骤14.2.1.5)中以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建结直肠肿瘤相关的基因异常调控关系标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC 为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤14.2.2)具体包括以下子步骤:
步骤14.2.2.1)识别与结直肠肿瘤相关的基因变异;
步骤14.2.2.2)采用数据驱动和/或先验知识驱动定量筛选结直肠肿瘤状态相关的重要基因变异;
步骤14.2.2.3)基于步骤14.2.2.2)得到的结直肠肿瘤状态相关的重要基因变异,构建结直肠肿瘤相关的基因变异标志物组合。
具体地,步骤14.2.2.2)中,数据定量过滤筛选,涉及体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的结直肠肿瘤相关基因。
具体地,步骤14.2.2.3)中,以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建结直肠肿瘤相关的基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤14.2.3)具体包括以下子步骤:
步骤14.2.3.1)对于同时具备转录组数据和外显子组/基因组数据的结直肠肿瘤数据集,利用步骤14.2.1.1~14.2.1.4筛选疾病状态相关的基因异常调控关系,同时利用步骤14.2.2.1~14.2.2.2挖掘疾病状态相关的重要基因变异,分别得到结直肠肿瘤相关的基因异常调控关系和重要基因变异;
步骤14.2.3.2)随后采纳步骤14.2.1.5和步骤14.2.2.3中,基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,整合RNA和DNA信息,构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤14.3中,筛选结直肠肿瘤相关的临床信息及检验和病理指标包括以下步骤:
步骤14.3.1)针对已知先验知识,筛选结直肠肿瘤状态相关的临床信息及检验和病理指标;
步骤14.3.2)从结直肠肿瘤队列中病例信息出发,筛选结直肠肿瘤状态相关的临床信息及检验和病理指标。
具体地,所述步骤14.3中,结直肠肿瘤相关基因异常调控关系通过以下方法得到:
将得到的结直肠肿瘤相关的基因异常调控关系和/或基因变异标志物组合,同步骤14.3.1和14.3.2筛选所得结直肠肿瘤状态相关的临床信息及检验和病理指标整合,优化为结直肠肿瘤多元标志物组合。
具体地,所述步骤14.4中,基因检测panel设计包括以下步骤:
步骤14.4.1)基于筛选得到结直肠肿瘤相关基因异常调控关系和/或基因变异标志物组合,并最终纳入结直肠肿瘤综合状态评分方法的基因集,梳理基因集中基因相关信息,去除冗余,确定标准基因名;
步骤14.4.2)针对步骤14.4.1)中梳理后的基因,选择用于结直肠肿瘤检测设计的靶基因目标区域,可用于探针设计或引物设计;
步骤14.4.3)根据步骤14.4.2)中的靶基因目标区域,设计相应的探针和/ 或引物序列,并记录重要注释;
步骤14.4.4)针对步骤14.4.2)中的靶基因目标区域,参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域进行优化设计,使探针和/或引物能均匀捕获覆盖目标区域;
步骤14.4.5)将步骤14.4.3和14.4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对,获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案;
步骤14.4.6)基于步骤14.4.5设计的靶基因目标区域相关探针和/或引物,制作出用于充分进行结直肠肿瘤状态评估的基因检测panel。
具体地,步骤14.5中,所述联用流程包括以下步骤:
步骤14.5.1)基于本发明所述方法设计的基因检测panel,得到结直肠肿瘤相关基因异常调控关系和/或基因变异标志物组合的定量值,输入结直肠肿瘤综合状态评分计算系统;
步骤14.5.2)将获取的结直肠肿瘤状态相关的临床信息及检验和病理指标的定量值,输入结直肠肿瘤综合状态评分计算系统;
步骤14.5.3)将步骤14.5.1)和14.5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤14.2)中结直肠肿瘤相关基因异常调控关系和基因变异标志物组合,具体基因集包括以下53个基因:RUNX3、GPR15、P2RY8、SNAI3、TLR7、 ATOH1、SIGLEC1、KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、 SDHD、NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、 PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、 GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E之任一及其组合;具体地,所有53个基因组合可用于生存预后评估;RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1 用于化疗方案效果预测;KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、 SDHC、SDHD、NF1用于靶向治疗方案效果预测,PD1、PDL1、PDL2、CTLA4、TIGIT、 TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、 SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、 NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,以及免疫检查点抑制剂治疗效果预测。
步骤14.3中结直肠肿瘤相关的临床信息及检验和病理指标,同结直肠肿瘤相关基因异常调控关系和基因变异标志物组合的53个基因,一起组成结直肠肿瘤多元标志物组合,用于预后效果、化疗、靶向治疗和免疫治疗效果预测,辅助临床决策;具体地,所有53个基因均用于生存预后评估,其低评分组预示病例预后效果较好;其中RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1用于化疗方案效果预测(特别是术后场景),包括5-FU和联合ADJC(包括FOLFIRI、 FOLFOX和FUFOL),为基于病理分期的半定量化疗方案选择,提供定量评分,低评分组病例更能从化疗中受益;KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、 SDHB、SDHC、SDHD、NF1用于靶向治疗方案效果预测,其相应基因表达或变异评分,同靶向药受益密切相关,如HER2高评分病例,更可能从HER2单抗药物治疗获益;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、 CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、 PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、 HLA-DQA1、HLA-DRB1、HLA-E用于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,以上基因评分的免疫低风险亚型,免疫细胞浸润程度高,免疫细胞毒性强,免疫检查点激活程度高,更易从免疫检查点抑制剂治疗中受益。
具体地,步骤14.4中设计的结直肠肿瘤综合状态评估的53个靶基因目标区域相关探针和/或引物,对靶基因目标区域覆盖度不低于95%,对其中重要基因变异位点的覆盖度不低于97%;以上53个靶基因目标区域,既可整体作为一个检测panel,也根据具体用途分为3个检测panel,包括化疗状态评估检测 panel(包括RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1等基因,),靶向治疗状态评估检测panel(包括RAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、 SDHB、SDHC、SDHD、NF1等基因)和免疫治疗状态评估检测panel(包括PD1、PDL1、 PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、 CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、 CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、 HLA-E)。
本发明步骤14.1所述数据获取整理,充分涵盖已公开结直肠肿瘤数据集,包括但不限于TCGA、GEO、ICGC等,并纳入生存、用药治疗效果等信息,并实现对以上信息相关转录组和外显子组标志物的系统挖掘。
本发明步骤14.2所述方法,整合三方面与基因调控相关的因素,筛选结直肠肿瘤cGRN之间的基因异常调控关系,包括:TF-target调控强度显著变化、 target表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致。同时,可根据调控强度的差异程度,对筛选到的基因异常调控关系进行排序;并基于对病例预后生存和治疗方案效果预测能力,采用基于贪婪算法的逐次增加迭代,挖掘转录组相关标志物,且该标志物组合具有准确可靠,机制可解释性强的特点。
本发明步骤14.2所述方法,综合采用数据驱动和先验知识驱动的定量筛选策略,使用了基于遗传算法的进化迭代方法,筛选结直肠肿瘤状态如进展阶段、预后生存、治疗方案敏感性相关的高频DNA变异标志物组合,且该标志物组合具有准确可靠,机制可解释性强的特点。
本发明步骤14.3所述基因集和模型系统,可以实现结直肠癌病人的综合状态评分,且该评分同结直肠肿瘤预后生存和治疗手段(包括但不限于化疗、靶向、免疫抑制剂等)效果有较高相关性。具体来看,所有输入特征均对生存预后有所贡献;但对治疗手段效果预测的权重有所不同,其中RUNX3、GPR15、P2RY8、SNAI3、 TLR7、ATOH1、SIGLEC1的贡献集中在化疗方案效果预测,包括5-FU和联合ADJC(包括FOLFIRI、FOLFOX和FUFOL),为基于病理分期的半定量化疗方案选择,提供有效的定量评分支持;KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、 SDHC、SDHD、NF1的贡献侧重于靶向治疗方案效果预测,而PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、 TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、 CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、 HLA-E侧重于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,对免疫抑制剂治疗方案效果预测贡献较大;手术情况(有/无)、病理级别(I-IV)和微卫星不稳定(MSI) 等信息对于预后和治疗效果预测均有贡献。
本发明步骤14.4和14.5所述panel设计及评估系统联用流程,可实现探针设计捕获效率和目标区域覆盖度均较高,panel和评分模块可以根据需求灵活调整,用于结直肠肿瘤病人综合状态评估,并辅助临床决策包括但不限于辅助手术方案、化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。panel 和评分模块的灵活调整,示例如下:仅使用异常调控4-DysReg涵盖的7个基因 (RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1)标志物组合,可以作为一个小panel,并保留相关的状态评分模型即可组成一个定位于结直肠癌辅助化疗方案状态评估流程。以上思路,同样适用于靶向治疗和免疫抑制剂治疗方案状态评估流程的单独提取,缩小panel,降低检测成本。
本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法在胰腺导管癌状态评估中的应用,包括以下步骤:
步骤15.1)获取胰腺导管癌病例信息,包括高通量测序数据和临床信息,根据胰腺导管癌病例状态分类并进行配对整理;
步骤15.2)构建胰腺导管癌相关的基因异常调控关系和基因变异标志物组合;
步骤15.3)筛选胰腺导管癌相关的临床信息及检验和病理指标;参考胰腺导管癌相关的基因异常调控关系和同步骤15.2所得胰腺导管癌相关的基因异常调控关系和基因变异标志物组合,整合优化为胰腺导管癌多元标志物组合,用于构建胰腺导管癌综合状态评分模型,并开发封装为胰腺导管癌综合状态评分计算系统;
步骤15.4)基于步骤15.2所得胰腺导管癌相关基因异常调控关系和基因变异标志物组合,设计胰腺导管癌综合状态评估的靶基因目标区域相关探针和/或引物,用作胰腺导管癌综合状态评估基因检测panel;
步骤15.5)构建一套胰腺导管癌综合状态评估基因检测panel和综合状态评分计算系统联用流程,使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤15.1中,对胰腺导管癌病例信息进行分类整理:
步骤15.1.1)将所述胰腺导管癌病例信息分为转录组数据、外显子组/基因组数据和临床信息;
步骤15.1.2)将所述胰腺导管癌病例信息按照疾病状态分类并进行配对整理。
具体地,步骤15.2中,构建胰腺导管癌标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述胰腺导管癌病例信息仅涉及转录组数据与临床信息,则执行步骤 15.2.1)基于转录组数据与临床信息进行标志物挖掘,构建胰腺导管癌相关的基因异常调控关系标志物组合;
若所述胰腺导管癌病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤15.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建胰腺导管癌相关基因变异标志物组合;
若所述胰腺导管癌病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤15.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建胰腺导管癌相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤15.2.1)具体包括以下子步骤:
步骤15.2.1.1)构建参考基因调控网络;
步骤15.2.1.2)基于胰腺导管癌特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系,构建条件特异的基因调控网络;
步骤15.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异;
步骤15.2.1.4)筛选胰腺导管癌不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系;
步骤15.2.1.5)基于步骤15.2.1.4)得到的基因异常调控关系,构建胰腺导管癌相关的基因异常调控关系标志物组合。
具体地,步骤15.2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异,即胰腺导管癌特定疾病状态的基因调控网络。
具体地,步骤15.2.1.3)中,采用多元线性回归模型量化条件特异基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异。
具体地,步骤15.2.1.4)中,整合三方面与基因调控相关的因素,筛选胰腺导管癌不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序。
具体地,步骤15.2.1.5)中以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建胰腺导管癌相关基因异常调控关系标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤15.2.2)具体包括以下子步骤:
步骤15.2.2.1)识别与胰腺导管癌相关的基因变异;
步骤15.2.2.2)采用数据驱动和/或先验知识驱动定量筛选胰腺导管癌状态相关的重要基因变异;
步骤15.2.2.3)基于步骤15.2.2.2)得到的胰腺导管癌状态相关的重要基因变异,构建胰腺导管癌相关的基因变异标志物组合。
具体地,步骤15.2.2.2)中,数据定量过滤筛选,涉及体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的胰腺导管癌相关基因。
具体地,步骤15.2.2.3)中,以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建胰腺导管癌相关的基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤15.2.3)具体包括以下子步骤:
步骤15.2.3.1)对于同时具备转录组数据和外显子组/基因组数据的胰腺导管癌数据集,利用步骤15.2.1.1~15.2.1.4筛选疾病状态相关的基因异常调控关系,同时利用步骤15.2.2.1~15.2.2.2挖掘疾病状态相关的重要基因变异,分别得到胰腺导管癌相关的基因异常调控关系和重要基因变异;
步骤15.2.3.2)随后采纳步骤15.2.1.5和步骤15.2.2.3中,基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,整合RNA和DNA信息,构建胰腺导管癌相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤15.3中,筛选胰腺导管癌相关的临床信息及检验和病理指标包括以下步骤:
步骤15.3.1)针对已知先验知识,筛选胰腺导管癌状态相关的临床信息及检验和病理指标;
步骤15.3.2)从胰腺导管癌队列中病例信息出发,筛选胰腺导管癌状态相关的临床信息及检验和病理指标。
具体地,所述步骤15.3中,胰腺导管癌相关基因异常调控关系通过以下方法得到:
将得到的胰腺导管癌相关基因异常调控关系和/或基因变异标志物组合,同步骤15.3.1和15.3.2筛选所得胰腺导管癌状态相关的临床信息及检验和病理指标整合,优化为胰腺导管癌多元标志物组合。
具体地,所述步骤15.4中,基因检测panel设计包括以下步骤:
步骤15.4.1)基于筛选得到胰腺导管癌相关基因异常调控关系和/或基因变异标志物组合,并最终纳入胰腺导管癌综合状态评分方法的基因集,梳理基因集中基因相关信息,去除冗余,确定标准基因名;
步骤15.4.2)针对步骤15.4.1)中梳理后的基因,选择用于胰腺导管癌检测设计的靶基因目标区域,可用于探针设计或引物设计;
步骤15.4.3)根据步骤15.4.2)中的靶基因目标区域,设计相应的探针和/ 或引物序列,并记录重要注释;
步骤15.4.4)针对步骤15.4.2)中的靶基因目标区域,参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域进行优化设计,使探针和/或引物能均匀捕获覆盖目标区域;
步骤15.4.5)将步骤15.4.3和15.4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对,获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案;
步骤15.4.6)基于步骤15.4.5设计的靶基因目标区域相关探针和/或引物,制作出用于充分进行胰腺导管癌状态评估的基因检测panel。
具体地,步骤15.5中,所述联用流程包括以下步骤:
步骤15.5.1)基于本发明所述方法设计的基因检测panel,得到胰腺导管癌相关基因异常调控关系和/或基因变异标志物组合的定量值,输入胰腺导管癌综合状态评分计算系统;
步骤15.5.2)将获取的胰腺导管癌状态相关的临床信息及检验和病理指标的定量值,输入胰腺导管癌综合状态评分计算系统;
步骤15.5.3)将步骤15.5.1)和15.5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤15.2中胰腺导管癌相关基因异常调控关系和基因变异标志物组合,具体基因集包括以下86个基因:AKT1、BRCA2、ERBB2、IDH1、MAP2K2、 MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、 FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、 PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、 TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、 NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、 CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、 PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、 HLA-DQA1、HLA-DRB1、HLA-E之任一或其组合。具体的,所有86个基因组合可用于生存预后评估;KRAS/TP53/CDKN2A及所有基因拷贝数变异用于手术方案效果预测;所有基因拷贝数变异用于化疗方案效果预测;PD1、PDL1、PDL2、CTLA4、 TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、 CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估,以及免疫检查点抑制剂治疗效果预测;AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、 NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、 HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11用于潜在靶向治疗效果预测。
具体地,步骤15.3中胰腺导管癌相关的临床信息及检验和病理指标,主要包括胰腺导管癌病人的年龄、性别、血液生化及免疫检测指标、手术情况(有/ 无)、病理级别(I-IV)和肿瘤病人移植动物模型(PDX)建模情况(快/慢/无)等临床信息,同本发明所述胰腺导管癌相关基因异常调控关系和基因变异标志物组合的86个基因,一起组成胰腺导管癌多元标志物组合,用于预后效果、化疗、免疫治疗和潜在靶向治疗效果预测,辅助临床决策。具体的,所有86个基因组合可用于生存预后评估,其低评分组预示病例预后效果较好;KRAS/TP53/CDKN2A 及所有基因拷贝数变异用于手术方案效果预测,其中低风险分类病例更易从R0 范式手术治疗受益;所有86个基因拷贝数变异用于化疗方案效果预测,拷贝变异评分越高的病例越易从吉西他滨(gemcitabine)治疗受益,拷贝变异评分越低的病例越易从伊立替康(irinotecan)治疗受益;PD1、PDL1、PDL2、CTLA4、TIGIT、 TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、 SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、 NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估,以及免疫检查点抑制剂治疗效果预测,以上基因评分的免疫低风险亚型病例,免疫细胞浸润程度高,免疫细胞毒性强,免疫检查点激活程度高,更易从免疫检查点抑制剂治疗中受益;AKT1、BRCA2、 ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、 PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、 KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、 TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、 SDHC、SDHD、NF1、STK11用于潜在靶向治疗效果预测,其相应基因表达或变异评分,同靶向药受益密切相关,如KRAS、NRAS、AKT、BRCA2等突变病例,预测更难以从抗EGFR单抗治疗中获益。肿瘤病人移植动物模型(PDX)建模情况,可用于手术方案效果预测,造模不成功病例更易从手术中受益。
具体地,步骤15.4中设计的胰腺导管癌综合状态评估的86个靶基因目标区域相关探针和/或引物,对靶基因目标区域覆盖度不低于95%,对其中重要基因变异位点的覆盖度不低于97%;以上86个靶基因目标区域,既可整体作为一个检测panel(用于预后状态评估和化疗状态评估预测),也根据具体用途分为3个检测panel,包括手术状态评估检测panel(KRAS/TP53/CDKN2A及所有基因拷贝数变异),免疫治疗状态评估检测panel(PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、 LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、 CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E),潜在靶向治疗状态评估检测panel(AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、 NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、 HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11)。
本发明中,胰腺导管癌病人的年龄、性别、病理级别、血液生化及免疫指标 (如CA199血清浓度等)、手术情况R0-R2、PDX建模情况作为补充临床信息,也可纳入评分模型的输入范围。
本发明中,步骤15.2综合采用数据驱动和先验知识驱动的定量筛选策略,筛选胰腺导管状态如进展阶段、预后生存、治疗方案敏感性相关的高频DNA变异标志物组合,可包括基因变异、临床病理和PDX建模数据等信息,且该标志物组合具有准确可靠,机制可解释性强的特点。同时在标志物组合优化阶段,根据需要,灵活采用基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,提升效果。
本发明中,步骤15.3所述基因集和模型系统,可以实现胰腺导管癌病人的综合状态评分,且该评分同胰腺导管癌病人的预后生存和治疗手段(包括但不限于手术范式、化疗、靶向、免疫抑制剂等)效果有较高相关性。所有输入特征均对生存预后有所贡献;但对治疗手段效果预测的权重有所不同,其中 KRAS/TP53/CDKN2A及所有基因拷贝数变异的贡献集中在手术方案效果预测;所有基因拷贝数变异的贡献侧重于化疗方案效果预测,特别是吉西他滨 (gemcitabine)和伊立替康(irinotecan)的疗效预测;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、 SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、 CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E侧重于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估,对免疫抑制剂治疗方案效果预测贡献较大;另外,对于部分处于临床试验中的可能用于胰腺导管癌治疗的靶向药,AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、 NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、 BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、 HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11的突变情况可以提供有价值的参考。不仅胰腺导管癌病人的年龄、性别、病理级别、血液生化及免疫指标(如CA199血清浓度等)、手术情况R0-R2等临床信息,而且病例的PDX 建模情况,对于病例的预后效果预测均有贡献。
本发明中,步骤15.4和15.5所述panel设计及评估系统联用流程,可实现探针设计捕获效率和目标区域覆盖度均较高,panel和评分模块可以根据需求灵活调整,用于胰腺导管癌病人综合状态评估,并辅助临床决策包括但不限于手术方案、辅助化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。Panel 和评分模块的灵活调整示例如下,选取43个基因,包括AKT1、BRCA2、ERBB2、 IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、 AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、 STK11、TP53、TSC1、TSC2、SMARCB1、SMAD4等组成一个小panel并保留相关的状态评分模型,即可形成一个胰腺导管癌病例手术和辅助化疗方案状态评估流程。以上思路,同样适用于胰腺导管癌预后和免疫抑制剂治疗方案等状态评估流程的单独提取构建,缩小panel,降低检测成本。
本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法在泛肿瘤靶向药敏感性状态评估中的应用,包括以下步骤:
步骤16.1)获取泛肿瘤癌病例信息,包括高通量测序数据和临床信息,根据泛肿瘤病例状态分类并进行配对整理,并确定挖掘模式;
步骤16.2)构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系标志物组合;
步骤16.3)筛选泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的临床信息及检验和病理指标;参考泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系和步骤16.2所得泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系标志物组合,整合优化为泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关多元标志物组合,用于构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评分模型,并开发封装为泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评分计算系统;
步骤16.4)基于步骤16.2所得泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合,设计泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评估的靶基因目标区域相关探针和/或引物,用作泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评估基因检测panel。
步骤16.5)构建一套泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评估基因检测panel和综合状态评分计算系统联用流程,使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤16.1中,对泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息进行分类整理:
步骤16.1.1)将所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息分为转录组数据、外显子组/基因组数据和临床信息;
步骤16.1.2)将所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息按照疾病状态分类并进行配对整理。
具体地,步骤16.2中,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息仅涉及转录组数据与临床信息,则执行步骤16.2.1)基于转录组数据与临床信息进行标志物挖掘,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合;
若所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息仅涉及外显子组/ 基因组数据与临床信息,则执行步骤16.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因变异标志物组合;
若所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤16.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系和基因变异标志物组合。
具体地,所述步骤16.2.1)具体包括以下子步骤:
步骤16.2.1.1)构建参考基因调控网络;
步骤16.2.1.2)基于特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系,构建条件特异的基因调控网络;
步骤16.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异;
步骤16.2.1.4)筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系;
步骤16.2.1.5)基于步骤16.2.1.4)得到的基因异常调控关系,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系标志物组合。
具体地,步骤16.2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异,即特定疾病状态的基因调控网络。
具体地,步骤16.2.1.3)中,采用多元线性回归模型量化条件特异基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异。
具体地,步骤16.2.1.4)中,整合三方面与基因调控相关的因素,筛选不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序。
具体地,步骤16.2.1.5)中以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤16.2.2)具体包括以下子步骤:
步骤16.2.2.1)识别与泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因变异;
步骤16.2.2.2)采用数据驱动和/或先验知识驱动定量筛选泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性状态相关的重要基因变异;
步骤16.2.2.3)基于步骤16.2.2.2)得到的泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性状态相关的重要基因变异,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因变异标志物组合。
具体地,步骤16.2.2.2)中,数据定量过滤筛选,涉及体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因。
具体地,步骤16.2.2.3)中,以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
具体地,所述步骤16.2.3)具体包括以下子步骤:
步骤16.2.3.1)对于同时具备转录组数据和外显子组/基因组数据的泛肿瘤靶向药敏感性数据集,利用步骤16.2.1.1~16.2.1.4筛选疾病状态相关的基因异常调控关系,同时利用步骤16.2.2.1~16.2.2.2挖掘疾病状态相关的重要基因变异,分别得到泛肿瘤靶向药敏感性相关的基因异常调控关系和重要基因变异;
步骤16.2.3.2)随后采纳步骤16.2.1.5和步骤16.2.2.3中,基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,整合RNA和DNA信息,构建泛肿瘤靶向药敏感性相关的基因异常调控关系和基因变异标志物组合。
具体地,所述步骤16.3中,筛选泛肿瘤靶向药敏感性相关的临床信息及检验和病理指标包括以下步骤:
步骤16.3.1)针对已知先验知识,筛选泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标;
步骤16.3.2)从泛肿瘤靶向药敏感性队列中病例信息出发,筛选泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标。
具体地,所述步骤16.3中,泛肿瘤靶向药敏感性相关基因异常调控关系通过以下方法得到:
将得到的泛肿瘤靶向药敏感性相关基因异常调控关系和/或基因变异标志物组合,同步骤16.3.1和16.3.2筛选所得泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标整合,优化为泛肿瘤靶向药敏感性多元标志物组合。
具体地,所述步骤16.4中,基因检测panel设计包括以下步骤:
步骤16.4.1)基于筛选得到泛肿瘤靶向药敏感性相关基因异常调控关系和/ 或基因变异标志物组合,并最终纳入泛肿瘤靶向药敏感性综合状态评分方法的基因集,梳理基因集中基因相关信息,去除冗余,确定标准基因名;
步骤16.4.2)针对步骤16.4.1)中梳理后的基因,选择用于泛肿瘤靶向药敏感性检测设计的靶基因目标区域,可用于探针设计或引物设计;
步骤16.4.3)根据步骤16.4.2)中的靶基因目标区域,设计相应的探针和/ 或引物序列,并记录重要注释;
步骤16.4.4)针对步骤16.4.2)中的靶基因目标区域,参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域进行优化设计,使探针和/或引物能均匀捕获覆盖目标区域;
步骤16.4.5)将步骤16.4.3和16.4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对,获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案;
步骤16.4.6)基于步骤16.4.5设计的靶基因目标区域相关探针和/或引物,制作出用于充分进行泛肿瘤靶向药敏感性状态评估的基因检测panel。
具体地,步骤16.5中,所述联用流程包括以下步骤:
步骤16.5.1)基于本发明所述方法设计的基因检测panel,得到泛肿瘤靶向药敏感性相关基因异常调控关系和/或基因变异标志物组合的定量值,输入泛肿瘤靶向药敏感性综合状态评分计算系统;
步骤16.5.2)将获取的泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标的定量值,输入泛肿瘤靶向药敏感性综合状态评分计算系统;
步骤16.5.3)将步骤16.5.1)和16.5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。
具体地,步骤16.2中泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合,特别适用于TGFbeta通路、MAPK通路和PI3K通路相关的11种靶向用药治疗方案,包括binimetinib、BKM120、BYL719、BYL719+cetuximab、BYL719+ cetuximab+encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab、 cetuximab+encorafenib、CLR457、encorafenib,具体基因集包括以下24个基因:AXIN1、JUNB、MYC、SMAD5、SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、NR2C2、PPP1CB、SKIL、SMURF1、SP1、TP53、PITX2、TFDP2、E2F4、SMAD1、 KLF6、SMAD3、KLF11。同时,对于胃肠道肿瘤TGFbeta通路相关靶向用药,BMPR2、MYC、TFDP2、TGIF2等四个基因可以作为一个基因异常调控关系标志物组合。
具体地,步骤16.3中泛肿瘤靶向药敏感性多元标志物组合构建方法,利用基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,进行多元标志物组合优化,通过机器学习分类算法,决策树、随机森林、SVM均可采用,构建泛肿瘤靶向药敏感性综合状态评分模型,并开发封装为泛肿瘤靶向药敏感性综合状态评分计算系统,用于泛肿瘤病例靶向用药效果预测。
具体地,步骤16.3中泛肿瘤病人靶向用药相关的临床信息及检验和病理指标,主要包括肿瘤病人的年龄、性别、血液生化及免疫检测指标、手术情况(有/ 无)、病理级别(分化程度/TNM分期)、转移和治疗等临床信息,同本发明所述泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合的24个基因,一起组成泛肿瘤靶向药敏感性多元标志物组合,用于泛肿瘤靶向药敏感性治疗效果预测,特别是TGFbeta-MAPK-PI3K三通路靶向用药治疗效果预测,辅助临床决策。具体地,可基于泛肿瘤靶向药敏感性多元标志物组合,构建开发泛肿瘤靶向药敏感性综合状态评分计算系统,用于泛肿瘤病例TGFbeta-MAPK-PI3K三通路相关6种单药治疗方案(包括binimetinib、BKM120、BYL719、cetuximab、CLR457和encorafenib)和5种联合治疗方案(包括BYL719+cetuximab、BYL719+cetuximab+ encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab+encorafenib) 的治疗受益情况预测,辅助临床决策。
具体地,步骤16.4中设计的泛肿瘤靶向药敏感性状态评估的24个靶基因目标区域相关探针和/或引物,对靶基因目标区域覆盖度不低于95%,对其中重要基因变异位点的覆盖度不低于97%。
本发明泛肿瘤靶向用药方案状态评估方法及应用,步骤16.1所述数据收集整理,充分涵盖已公开泛肿瘤用药数据集,充分利用病人队列和动物实验数据,包括但不限于TCGA、GEO、NIBR PDXE等。
本发明泛肿瘤靶向用药方案状态评估方法及应用,步骤16.2所述方法,整合三方面与基因调控相关的因素,筛选泛肿瘤辅助用药专属cGRN之间的基因异常调控关系,包括:TF-target调控强度显著变化、target表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致。同时,可根据调控强度的差异程度,对筛选到的基因异常调控关系进行排序;并基于对收集到的所有用药方案(包括但不限于靶向药单用、靶向药联合用药等)效果预测能力,挖掘转录组相关标志物及组合,且该标志物组合具有准确可靠,机制可解释性强的特点。同时综合采用数据驱动和先验知识驱动的定量筛选策略,并在标志物组合优化阶段,根据需要,灵活采用基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,提升效果。
本发明泛肿瘤靶向用药方案状态评估方法及应用,步骤16.3所述方法,可以实现基于生物通路的泛肿瘤靶向药治疗方案效果评估基因集构建,并可实现对泛肿瘤病人的辅助用药治疗综合状态评分,且该评分同泛肿瘤靶向药治疗效果密切相关。此处富集到了TGFbeta通路、MAPK通路和PI3K通路的11种靶向用药治疗方案,包括binimetinib、BKM120、BYL719、BYL719+cetuximab、BYL719 +cetuximab+encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab、 cetuximab+encorafenib、CLR457、encorafenib,该评估模型所用基因集,包括24个基因,即包括,AXIN1、JUNB、MYC、SMAD5、SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、NR2C2、PPP1CB、SKIL、SMURF1、SP1、TP53、PITX2、TFDP2、 E2F4、SMAD1、KLF6、SMAD3、KLF11等。
本发明泛肿瘤靶向用药方案状态评估方法及应用,步骤16.4和16.5所述 panel设计及评估系统联用流程,可实现探针设计捕获效率和目标区域覆盖度均较高,panel和评分模块可以根据需求灵活调整,实现对泛肿瘤病人辅助用药治疗综合状态评分,有效辅助临床决策,提升治疗效果。Panel和评分模块的灵活调整示例如下,BMPR2、MYC、TFDP2、TGIF2等4个基因组成的小panel,可以用 PCR检测表达量,配合相应评分模型,用于对胃肠道相关肿瘤Cetuximab治疗状态评估。以上思路也适用于,针对其它肿瘤类型和用药方案,定制化单独提取特征基因和临床信息,缩小panel,降低检测成本。
本发明的有益效果包括通过基于转录组表达数据,构建条件特异的基因调控网络,能够识别基因异常调控关系;且包含不止一种识别策略;能够由基因异常调控关系构建标志物;且此构建过程包括两种筛选策略,即基于贪婪算法的逐次增加迭代和基于遗传算法的进化迭代,最终构建准确性与机制解释性兼顾的标志物可用于复杂疾病预后评估、治疗效果预测及治疗方案辅助决策等。
本发明的有益效果也包括通过识别复杂疾病相关重要基因变异;且具备不同识别策略,如数据驱动的定量筛选和知识库过滤筛选及其联用;能够由复杂疾病相关DNA层面重要变异基因构建标志物;且此构建过程包括两种筛选策略,即基于贪婪算法的逐次增加迭代和基于遗传算法的进化迭代,最终构建的标志物可用于复杂疾病预后评估、治疗效果预测及治疗方案辅助决策等;且可实现RNA数据和DNA数据的整合利用,方法灵活多样,标志物组合系统,准确性与机制解释性兼备。
本发明的有益效果还包括可利用丰富的技术手段,充分整合高通量测序数据、临床信息和知识库来源的多元信息构建综合评分系统;且包括临床及药物指南和公开文献的系统挖掘检索,临床信息的有效利用,综合评分计算系统构建等策略及功能;同时提供了综合评分计算系统配套的基因检测panel设计方案;且包括基因探针目标区域设计,探针覆盖度设计,基于覆盖度的质量控制;并提出了基因检测panel同综合评分系统的联用流程,且包括综合状态评估模型功能,输入输出功能及可能构思,组合联用形式及可能构思。
本发明的有益效果亦包括提出了一种结直肠肿瘤状态评估模型构建及panel 设计方案;包括充分利用多元信息,含DNA、RNA测序及临床信息等,通过较少的基因和实用可靠的检测评估手段;且实现结直肠肿瘤病例综合状态评估,包括病例预后计算评估,化疗、靶向和免疫治疗等方案治疗效果预测;并辅助临床决策包括但不限于辅助手术方案、化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。
本发明的有益效果亦包括提出了一种胰腺导管癌状态评估模型构建及panel 设计方案,充分利用多元信息,含DNA、RNA测序及临床信息等,通过较少的基因和实用可靠的检测评估手段;且实现胰腺导管癌综合状态评估,包括病例预后计算评估,手术、化疗和免疫及潜在靶向治疗等方案治疗效果预测;并可辅助临床决策包括但不限于辅助手术方案和化疗方案选择、免疫疗法参考、预后状态评估等。
本发明的有益效果亦包括提出了泛肿瘤辅助用药标志物挖掘及评估模型构建和panel设计方案;且可最终用于TGFbeta通路、MAPK通路和PI3K通路靶向用药方案状态评估,包括11种治疗方案,含单药和联合治疗;且可用于包括结直肠肿瘤、肝癌、肺癌等多种肿瘤的TGFbeta-MAPK-PI3K通路相关靶向治疗方案的辅助决策。
附图说明
附图1为基于高通量测序数据和临床表型构建复杂疾病状态评估模型方法流程框架示意图。
附图2为基因检测panel设计流程图。
附图3为复杂疾病状态评估基因检测panel同综合状态评分计算系统的联用流程图。
附图4为4-DysReg与其他预后标志物之间的准确性比较。
附图5为结直肠肿瘤综合状态评估流程应用示意图。
附图6为胰腺导管癌候选标志物效果展示。
附图7为胰腺导管癌综合状态评估流程应用示意图。
附图8为DysReg识别的异常调控关系的预后效应。
附图9为基因异常调控关系对泛肿瘤药敏结果的预测能力。
附图10为BMPR2/MYC/TFDP2/TGIF2等TGFbeta通路基因在CRC PDX和 GSE5851数据集对Cetuximab的药敏预测结果。
附图11为泛肿瘤靶向药敏感性综合状态评估流程应用示意图。
附表1为18种治疗药物的信息及其异常调控关系识别情况。
具体实施方式
以下结合实施例和附图进一步阐述本发明。应理解,这些实施例仅用于说明本发明,而非限制本发明的范围。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书及等同内容为保护范围。
实施例1
实施例1本发明应用于结直肠肿瘤状态评估模型构建及panel设计的全过程,结合具体实施例对本发明做进一步详细说明,应理解,以下实施例仅用于说明本发明而非用于限定本发明的范围。其具体步骤如下:
S1.1结直肠肿瘤测序数据和临床表型信息的获取与整理
TCGA-CRC的mRNA数据和临床数据从UCSC xena数据库下载。380个原位肿瘤样本和51个癌旁样本被挑选出来。mRNA数据的表达水平以TPM量化。当TPM 的值小于1时,看作是缺失值。对于一个基因,如果缺失值的数量大于样本量的 20%,就把该基因去除。剩下的缺失值用K最小近邻法(k-Nearest Neighbor,kNN) 进行填充,并做log2转化。在这些样本中,32对配对的肿瘤样本和癌旁样本用于做基因异常调控分析。包括完整的总生存时间(overallsurvival,OS)、无进展生存期(recurrent free survival,RFS)、年龄、性别、病理级别的350个原位肿瘤样本用于后续标志物挖掘。
GSE39582和GSE17538两CRC数据集的表达谱数据和临床数据从 GEO(http://www.ncbi.nlm.nih.gov/geo/)下载。GSE39582包含566个肿瘤样本和19个正常的样本,GSE17538包含238肿瘤样本,这两个数据集都基于GPL570 表达谱芯片平台。对于一个探针能够映射多个基因的情况,将相应的探针从数据集中去除;对于多个探针映射到一个基因的情况,用每个样本中的相应的多个探针的最大值作为该基因在每个样本中的表达值。缺失值的处理方式与TCGA-CRC 中缺失值的处理方式一致。最后利用分位数方法做样本间的标准化,并做log2 转化。GSE39582数据集中有563个样本拥有完整的如上所述的临床信息,GSE17538数据集中有200个样本拥完整的临床信息,这些样本用于后续标志物挖掘。
TCGA-CRC的体细胞突变数据(somatic mutation)和拷贝数变异(CNV),也由 UCSCxena数据库下载,其中体细胞突变数据来自VarScan2识别,拷贝数变异以log2(copy-number/2)为单位,病例选择同转录组数据取交集,共得到包括完整的总生存时间(overallsurvival,OS)、无进展生存期(recurrent free survival,RFS)、年龄、性别、病理级别的350个原位肿瘤样本用于后续标志物挖掘。
因为本实施例同时包括转录组数据、DNA测序数据与临床信息,因此执行步骤2.3,分别挖掘转录组和DNA变异标志物。
S1.2基于结直肠肿瘤转录组中的基因异常调控关系挖掘生物标志物
S1.2.1构建结直肠肿瘤基因调控网络并识别基因异常调控关系
基于步骤S1中整理到的TCGA-CRC数据集中,32对配对的肿瘤样本和癌旁样本,参考步骤2.1.1-2.1.4,利用Boruta算法分别构建正常条件和癌症条件的GRN,正常条件下的GRN有30186个调控关系,癌症条件下的GRN有15665个调控关系。利用de-biased LASSO方法对调控关系的调控强度进行度量,并获得调控强度的95%置信区间。随后,根据调控强度差异显著、靶基因表达水平差异显著、调控强度变化方向与靶基因表达水平变化方向一致三个因素筛选异常调控关系,最终筛选出389个基因异常调控关系。
S1.2.2由识别到的基因异常调控关系构建标志物
此处采用步骤2.1.5中基于贪婪算法的逐次增加迭代方法,筛选最优标志物组合。具体步骤如下:
首先,在TCGA-CRC数据集中,对每个异常调控关系结合临床数据(包括年龄、性别、病理级别)对OS拟合cox模型,并用C-Index量化模型对预后的准确性。其中,异常调控关系RUNX3-GPR15对应的模型的C-Index最大,达到0.763,遂用作迭代起始。
其次,根据步骤2.1.5所述基于贪婪算法的逐次增加迭代方法,一个包括4 个异常调控关系的预后标志物(4-DysReg),即RUNX3-GPR15、RUNX3-P2RY8、 SNAI3-TLR7、ATOH1-SIGLEC1作为最优组合。
再次,基于4个异常调控关系(4-DysReg)中的7个基因的表达数据,结合 TCGA-CRC数据集的年龄、性别、病理分期临床信息,我们在TCGA-CRC数据集上建立了OS cox模型。该模型的C-Index为0.79(SE=0.038)。
最后,在TCGA-CRC和GSE39582数据集上,将4-DysReg的预测效果同已报道的CRC标志物如RUNX3、ColoPrint(包含18个基因)、ColoGuideEx(包含13 个基因)、ColoGuidePro(包含7个基因)、ColoFinder(包含9个基因)、一个 7-gene标志物、和一个4-gene标志物等进行比较,结果表明4-DysReg对预后具有更为稳定良好的预测能力。见附图4,4-DysReg与其他预后标志物之间的准确性比较。
S1.2.3结直肠肿瘤辅助化疗状态评估标志物挖掘及模型构建
辅助化疗(Adjuvant chemotherapy,ADJC)在治疗CRC患者的过程中被广泛采用。ADJC的指导原则建立在病理级别上。III期和IV期CRC患者常规治疗接受ADJC治疗;具有高复发风险的二期CRC患者也考虑接受ADJC。相对目前以经验为主的半定量ADJC指导方案,亟需一套ADJC相关肿瘤状态评估方案。
利用GSE39582中321个没有接受ADJC的样本作为训练集,以这4-DysReg 中的7个基因作为自变量拟合一个OS cox模型,利用该模型计算232个接受ADJC 的样本的风险评分。结果显示,风险评分为负的样本具有更好的预后(HR=0.432, 95%CI:0.269~0.693)。
4-DysReg对特定化疗类型疗效的预测能力,包括5-FU和联合ADJC(包括 FOLFIRI、FOLFOX和FUFOL)。结果显示,风险评分为负的样本在联合ADJC(n=84, HR=0.380;95%CI:0.178~0.813)和5-FU(n=79,HR=0.437,95%CI: 0.181~1.055)中都有更好的预后。利用timeROC评估标志物对联合ADJC预测的准确性,3年和5年总生存期的AUC分别达到0.71和0.74,高于病理分期模型的AUC 0.65和0.69。这些结果表明,该项研究构建的标志物4-DysReg对ADJC 的治疗效果具有预测能力,不仅对单独的5-FU或联合ADJC具有预测能力,而且对所有类型的ADJC的整体结果也有预测能力。
S1.3基于结直肠肿瘤DNA测序数据中的基因变异挖掘生物标志物
S1.3.1利用步骤2.2.2疾病状态相关DNA变异的定量化及筛选(如基因拷贝数与体细胞突变,SNP、Indel、CNV、Fusion等)所述方法,基于TCGA-CRC数据集筛选高频变异基因,并经过“预后”AND“结直肠癌”AND“药物”等关键词组合的知识库(PharmGKB、NCCN、CSCO、FDA、NMPA、EMA、NCBI Pubmed)过滤,得到581个候选标志物基因。
S1.3.2采用步骤2.2.3所述基于遗传算法的进化迭代方法,筛选到包括45 个基因及其变异的标志物组合,具体基因集包括:KRAS、NRAS、BRAF、HER2、KIT、 PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、 LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、 CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、 IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E。
S1.3.3对以上DNA层面生物标志物组合,在TCGA-CRC数据集进行检验,利用timeROC评估该组合的准确性,1年、3年和5年的生存期预测准确率(AUC) 分别达到0.87、0.83和0.80。采用风险评分的中位数将样本分为高、低两组做 KM分析,结果显示低评分组患者预后更好(p-value=4.52e-8)。同时,在CPTAC-2 colon cancer(110例)、ICGC的COAD-US(402例)和COAD-CN(321例)数据集上进行生存期预测,基因组合准确率AUC达到0.81.
S1.4结直肠肿瘤综合状态评估基因集及评分系统开发
S1.4.1确定4-DysReg中7个基因和筛选到的45个结直肠癌重要变异基因,共计53个基因,作为结直肠肿瘤综合状态评估基因集。
S1.4.2综合纳入结直肠癌病人的年龄、性别、手术情况(有/无)、病理级别 (I-IV)和微卫星不稳定(MSI)等作为结直肠肿瘤综合状态评分系统的输入信息。
S1.4.3根据步骤3.3多元信息的充分整合构建综合评分系统中所述方法,采用随机森林与权重投票器的机器学习方案,以python语言开发了结直肠肿瘤综合状态评分系统的原型。
S1.4.4该系统可以输出结直肠癌病人的综合状态评分,该评分同其预后和治疗手段(化疗、靶向、免疫抑制剂)等效果有一定相关性,可以提供参考指导。
对该评分系统解析可以发现,所有输入特征均对生存预后有所贡献;但对治疗手段效果预测的权重有所不同,其中RUNX3、GPR15、P2RY8、SNAI3、TLR7、 ATOH1、SIGLEC1的贡献集中在化疗方案效果预测,KRAS、NRAS、BRAF、HER2、 KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1的贡献侧重于靶向治疗方案效果预测,而PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、 PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、 STK11、HLA-DQA1、HLA-DRB1、HLA-E侧重于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估,对免疫抑制剂治疗方案效果预测贡献较大;手术情况(有/无)、病理级别(I-IV)和微卫星不稳定(MSI)等信息对于预后和治疗效果预测均有贡献。
S1.5结直肠肿瘤检测panel设计与评估系统构建
S1.5.1梳理上述53个基因的检测信息(如RNA表达值,拷贝数CNV,基因变异包括SNP、Indel、Fusion等),然后通过NCBI office name或HGNC approved Official Symbol系统确定标准基因名。
S1.5.2参考步骤4基因检测panel设计方法,完成结直肠肿瘤检测panel 的设计,并根据PCR或高通量测序平台做相应优化,比如RUNX3、GPR15、P2RY8、 SNAI3、TLR7、ATOH1、SIGLEC1等7个基因组成的小panel即DysReg4,可以用 PCR检测表达量;所有53个基因,可以利用panel设计捕获相关序列,利用高通量测序技术进行检测。捕获效率一般在30%~60%之间,全部基因目标区域覆盖度不低于95%,因此可认定探针设计合格。
S1.5.3根据panel检测数值和病例临床信息输入方式,对结直肠肿瘤综合状态评分系统进行优化,比如小panel即DysReg4,就可以仅保留该panel相关的功能模块,删掉45个变异基因的相关特征及预测功能模块。相应基因检测panel 和该软件系统中对应功能模块,可以组合为一套配套联用流程,包括但不限于试剂盒/软件,检测装置/数据处理一体机,试剂盒/检测装置/数据在线分析平台等形式,用于结直肠肿瘤病人综合状态评估,并辅助临床决策包括但不限于辅助手术方案、化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。
实施例2
实施例2本发明应用于胰腺导管癌状态评估模型构建及panel设计的全过程,结合具体实施例对本发明做进一步详细说明,应理解,以下实施例仅用于说明本发明而非用于限定本发明的范围。具体步骤如下:
S2.1胰腺导管癌测序数据和临床表型信息的获取与整理
S2.1.1自主获得了71例胰腺导管癌临床病例的测序数据(外显子测序和 RNA-Seq)和临床表型信息(包括年龄、性别、病理级别、手术情况R0-R2、PDX 建模情况、生存情况含OS和DFS);其中39例成功建立PDX模型,并在此基础上获得了2种一线化疗药物治疗方案的标准药效数据,包括吉西他滨 (gemcitabine)和伊立替康(irinotecan)。
S2.1.2来自ICGC的194例胰腺导管癌病例(PACA-AU和PACA-CA)和来自TCGA 的148例胰腺导管癌病例(TCGA-PDAC),包括其测序数据(外显子测序和RNA-Seq) 和临床表型(包括年龄、性别、病理级别、无病生存期即DFS)。
本实施例同时包括转录组数据、DNA测序数据与临床信息,因此执行步骤2.3,分别挖掘转录组和DNA变异标志物。
S2.2胰腺导管癌预后生存预测标志物挖掘
S2.2.1参考步骤2.2整合DNA测序数据与临床信息挖掘预后生存标志物。采用基于贪婪算法的逐次增加迭代的方法,发现KRAS/TP53/CDKN2A/SMAD4的突变和病例整体拷贝数变异(后续范围缩小至43个基因),在ICGC、TCGA和自主建立的胰腺导管癌数据集上同病例预后生存情况密切相关,其中拷贝数变异的相关性也在转录组层面得到了进一步验证,以上指标的C-index均大于0.65。这43 个基因包括AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、 BRCA1、EGFR、MAP2K1、SMARCA4、STK11、TP53、TSC1、TSC2、SMARCB1、SMAD4。
S2.2.2可发现预测最为有效的组合是KRAS/TP53/CDKN2A突变加43个基因拷贝数。43个基因拷贝数变异<2评分记为0,拷贝数变异>2则评分记为1; KRAS/TP53/CDKN2A无突变和拷贝数变异评分记为0,存在突变或拷贝数变异则记为1;据此将胰腺导管病例,分为低风险(0),中风险(1~2),高风险(3~4)三类。在194例ICGC胰腺导管癌数据中低风险,中风险和高风险对应的DFS中位值分别为608天,370天和252天,log-rank p-value<0.001;在148例TCGA胰腺导管癌病例中低风险,中风险和高风险对应的DFS中位值分别为28.6个月,13.7个月和12.9个月,log-rank p-value=0.01。可见附图6胰腺导管癌候选标志物效果展示。
S2.2.3参考步骤3.2可以发现PDX建模情况同预后生存密切相关,可以纳入综合状态评估特征。PDX建模成功的病例,其总生存期OS(log-rank p-value<0.001)和无病生存期DFS(log-rank p-value=0.001)均短于PDX建模未成功病例。
S2.2.4采用步骤2.2.2中知识库过滤筛选思路,经过“预后”AND“胰腺导管癌”AND(“药物”OR“手术”OR“免疫”)等关键词组合的知识库(PharmGKB、 NCCN、CSCO、FDA、NMPA、EMA、NCBI Pubmed)过滤得到候选标志物基因,采用步骤2.2.3所述基于遗传算法的进化迭代构建方法,筛选到包括45个基因及其变异的预后标志物组合,具体基因集包括:KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、 SDHA、SDHB、SDHC、SDHD、NF1;PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、 IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、 CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、 IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E。
S2.3胰腺导管癌治疗效果预测标志物挖掘
S2.3.1在自主建立的胰腺导管癌数据集71个病例上,发现 KRAS/TP53/CDKN2A突变加86个基因拷贝数的风险评分,同手术范式(R0\R1\R2) 的预后效果密切相关。86个基因拷贝数变异<4评分记为0,拷贝数变异>4则评分记为1;KRAS/TP53/CDKN2A无突变和拷贝数变异评分记为0,存在突变或拷贝数变异则记为1;据此将胰腺导管病例,分为低风险(0),中风险(1~2),高风险 (3~4)三类。具体情况如下:低风险(得分为0)病例R0范式后的DFS中位值大于 20个月,R1和R2范式后的DFS中位值不足10个月;中风险(得分为1~2)病例 R0范式后的DFS中位值接近20个月,R1和R2范式后的DFS中位值约10个月;高风险(得分为3~4)病例R0/R1/R2三种手术范式的DFS并无区别,均在10个月左右。可见附图7胰腺导管癌候选标志物效果展示。
S2.3.2在自主建立的胰腺导管癌数据集71个病例的一线化疗药物治疗方案的标准药效数据预测,包括吉西他滨(gemcitabine)和伊立替康(irinotecan),结果显示,86个基因拷贝数变异越高的病例对吉西他宾更为敏感,基本阈值约为4,即拷贝数大于4的病例,更易从化疗特别是吉西他滨方案中受益。
最后,综上所述以上86个基因可以用于胰腺导管癌化疗前状态评估,为手术和用药方案提供参考。可见附图6胰腺导管癌候选标志物效果展示。
S2.4胰腺导管癌综合状态评估基因集及评分系统开发
S2.4.1将86个基因的拷贝数和突变情况,纳入胰腺导管癌的综合状态评估基因集,具体包括AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、 NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、 BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、 HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1;PD1、PDL1、PDL2、CTLA4、 TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、 SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、 CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E。
S2.4.2将胰腺导管癌病人的年龄、性别、病理级别、血液生化及免疫指标(如CA199血清浓度等)、手术情况R0-R2、PDX建模情况作为补充临床信息,纳入胰腺导管癌综合状态评分系统的信息输入范围。
S2.4.3根据步骤3.3多元信息的充分整合构建综合评分系统中所述方法,采用评分分类的机器学习方案,以python语言开发了胰腺导管癌综合状态评分系统的原型。
S2.4.4该系统可以输出胰腺导管癌病人的综合状态评分,该评分同其预后和治疗手段(手术、化疗、免疫抑制剂)等效果有一定相关性,可以提供参考指导。
对该评分系统解析可以发现,所有输入特征均对生存预后有所贡献;但对治疗手段效果预测的权重有所不同,其中KRAS/TP53/CDKN2A及基因拷贝数变异的贡献集中在手术方案效果预测,基因拷贝数变异的贡献侧重于化疗方案效果预测,而PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、 CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、 PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、 HLA-DQA1、HLA-DRB1、HLA-E侧重于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估,对免疫抑制剂治疗方案效果预测贡献较大;另外,对于部分处于临床试验中的可能用于胰腺导管癌治疗的靶向药,AKT1、BRCA2、ERBB2、IDH1、MAP2K2、 MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、 FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、 PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、 TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、 NF1、STK11的突变情况可以提供有价值的参考。
以上系统框架,可见图7胰腺导管癌综合状态评估模型框架示意图。
S2.5胰腺导管癌检测panel设计与评估系统构建
S2.5.1梳理上述86个基因的检测信息(如RNA表达值,拷贝数CNV,基因变异包括SNP、Indel、Fusion等),然后通过NCBI office name或HGNC approved Official Symbol系统确定标准基因名。以上86个基因,如果明确具体变异位置,则根据已明确的基因位点覆盖区域来选择目标区域;对于位置较集中或密集的基因区域,则选择外显子作为目标区域;对于与复杂疾病状态评估高度相关且信息非常多样的重要基因,在前两项设计不适用的情况下,则选择全部可变剪切类型的区域作为目标区域。
S2.5.1参考步骤4基因检测panel设计方法,完成胰腺癌导管癌检测panel 的设计,并根据具体采用的高通量测序平台做相应优化,使得理论探针覆盖深度比较均匀,且全部基因覆盖度≥90%、重要位点覆盖度≥99%;在探针两端添加固定的扩增序列,合成DNA单链,PCR扩增,转录成RNA探针,添加生物素标记,合成后得到用于胰腺导管癌综合状态评估的基因检测panel。合成后的panel探针,通过测序测试发现捕获效率大约在50%,全部基因目标区域覆盖度不低于 95%,因此可认定探针设计合格。
S2.5.3根据panel检测数值和病例临床信息输入方式,对胰腺导管癌综合状态评分系统进行优化后,包括信息输入、状态评分、参考建议与报告输出等功能模块,并将以上功能模块打包封装在一个软件系统之内,设置判断参数方便配套 panel供用户使用。未来86个基因检测panel和该软件系统,可以组合为一套配套联用流程,包括但不限于试剂盒/软件,检测装置/数据处理一体机,试剂盒 /检测装置/数据在线分析平台等形式,用于胰腺导管癌综合状态评估,并辅助临床决策包括但不限于辅助手术方案和化疗方案选择、免疫疗法参考、预后状态评估等。
实施例3
本发明应用于泛肿瘤预后标志物挖掘,结合具体实施例对本发明做进一步详细说明,应理解,以下实施例仅用于说明本发明而非用于限定本发明的范围。具体步骤如下:
S3.1泛肿瘤测序和临床表型数据集收集
TCGA pan-cancer的mRNA数据和临床数据从UCSC xena下载。mRNA数据来源于TOILRNA-seq分析流程产生的数据,基因的表达水平以TPM量化。对于每一种癌症类型,选出原位肿瘤样本和癌旁样本。原位肿瘤样本和癌旁样本的配对数量大于或约等于20的癌症类型被选出来用作异常调控分析,最终选出14种癌症类型。对于每一种癌症类型的mRNA数据,TPM值小于1的时候作为缺失值,当缺失值的数量大于样本量20%的时候,去除该基因。剩下的缺失值用kNN方法填充。最后,对表达谱数据做log2转化,用作后续标志物挖掘。
S3.2基于转录组和临床表型挖掘预后状态评估生物标志物
S3.2.1对于TCGA pan-cancer数据集,依据步骤2.1转录组数据与临床信息挖掘,利用Boruta算法分别构建正常条件和癌症条件的GRN,用de-biased LASSO 方法对每个调控关系的调节强度及其置信区间进行量化,通过整合调控强度显著改变、target差异表达、TF为target的关键调控因子三个特性来识别基因异常调控关系。
进而,参考步骤2.1.5中的基于遗传算法的进化迭代构建预后状态评估标志物组合,在具体实施过程中使用R survival包 (https://cran.r-project.org/web/packages/survival/)拟合八种cox模型: (1)exp+clin_OS:异常调控关系的两个基因和临床因素年龄、性别、病理级别作为自变量,以总生存期(overall survival,OS)作为应变量拟合cox模型;(2) exp_OS:异常调控关系的两个基因作为自变量,以OS作为应变量拟合cox模型; (3)exp+clin_DSS:异常调控关系的两个基因和临床因素年龄、性别、病理级别作为自变量,以疾病特定生存期(disease-specific survival,DSS)作为应变量拟合cox模型;(4)exp_DSS:异常调控关系的两个基因作为自变量,以DSS作为应变量拟合cox模型;(5)exp+clin_DFI:异常调控关系的两个基因和临床因素年龄、性别、病理级别作为自变量,以无疾病生存期(disease-free interval, DFI)作为应变量拟合cox模型;(6)exp_DFI:异常调控关系的两个基因作为自变量,以DFI作为应变量拟合cox模型;(7)exp+clin_PFI:异常调控关系的两个基因和临床因素年龄、性别、病理级别作为自变量,以无进展生存期 (progress-freeinterval,PFI)作为应变量拟合cox模型;(8)exp_PFI:异常调控关系的两个基因作为自变量,以PFI作为应变量拟合cox模型。对于每个 cox模型,利用C-Index衡量预测精度。类似的实施方案,也用于DiffCor和 DiffCor++识别到的异常调控关系,进一步用于比较本发明所提出方案的优效性。
S3.2.2在四种常见癌症类型LIHC、LUAD、LUSC和STAD中,根据OS、DSS、 DFI、PFI等四种临床表型预后,基于8种COX回归模型的预测效果,经Wilcox 检验显示DysReg识别的异常调控关系对应的C-Index与两种随机对照相比,总体来说有着稳定的效果提升。可见附图8DysReg识别的异常调控关系的预后效应。
S3.2.3在四种常见癌症类型LIHC、LUAD、LUSC和STAD中,根据OS、DSS、 DFI、PFI等四种临床表型预后,基于8种COX回归模型的预测效果,经Wilcox 检验显示DysReg的预后效应预测效果(准确性和稳定性)要优于DiffCor和 DiffCor++。
实施例4
本发明应用于泛肿瘤辅助用药标志物挖掘及评估模型构建和panel设计,结合具体实施例对本发明做进一步详细说明,应理解,以下实施例仅用于说明本发明而非用于限定本发明的范围。具体步骤如下:
S4.1泛肿瘤测序和临床药效表型数据集收集
S4.1.1从诺华的NIBR PDXE数据集中获取CRC PDX模型的RNA-seq数据和药敏反应数据,最终获得了51个同时具有RNA-seq数据和药敏反应数据的样本,其中包括21种不同的药物治疗。RNA-seq数据以FPKM定量基因的表达水平,FPKM 值小于0.1作为缺失值处理。当缺失值大于总样本量的20%时,该基因被删除,剩余缺失数据采用kNN方法进行填补。最后对RNA-seq数据做log2(RNA-seq+1) 转换,用于后续的标志物挖掘。
S4.1.2包含EGFR抑制剂Cetuximab药效的CRC数据集GSE5851从 GEO(https://www.ncbi.nlm.nih.gov/geo/)下载,对于一个探针能够映射多个基因的情况,将相应的探针从数据集中去除;对于多个探针映射到一个基因的情况,用每个样本中的相应的多个探针的最大值作为该基因在每个样本中的表达值。表达值小于1作为缺失值处理,当缺失值大于总样本量的20%时,该基因被删除,剩余缺失数据采用kNN方法进行填补;利用分位数方法做样本间的标准,并做 log2转换后,用于对CRC PDX模型所筛选标志物的验证。Cetuximab药敏级别记录为“complete response”、“partial response”、“stabledisease”(三者归并为响应组),“progressive disease”(记录为未响应组),“unable tobe determined”(去除掉此类样本)。
S4.2基于基因异常调控关系挖掘泛肿瘤辅助用药评估生物标志物
S4.2.1对诺华的NIBR PDXE数据集中药物效果划为四个级别,分别是完全缓解(CR)、部分缓解(PR)、疾病稳定(SD)和疾病进展(PD),CR、PR、SD分为响应组,PD分为无响应组;选出响应组和无响应组均大于10个样本的药物,最终选出18种治疗方案。
S4.2.2参考步骤2.1转录组数据与临床信息挖掘,利用Boruta算法分别构建响应条件和无响应条件的GRN,用de-biased LASSO方法对每个调控关系的调节强度及其置信区间进行量化,通过整合调控强度显著改变、target差异表达、 TF为target的关键调控因子三个特性来识别基因异常调控关系。这18种治疗药物的信息及其异常调控关系情况,见附表118种治疗药物的信息及其异常调控关系识别情况。
S4.2.3参考步骤2.1.5中的基于贪婪算法的逐次增加迭代构建预后状态评估标志物组合,并进行交叉验证,比较依据本发明提出方案识别的异常调控关系对药敏预测的准确性是否显著地高于不同类型随机抽取的两个基因对药敏预测的准确性。在18种治疗中,有13种治疗识别出的异常调控关系对药效预测的准确性都要显著大于四种对照,这些治疗包括binimetinib、BKM120+LJC049、 BYL719、BYL719+cetuximab、BYL719+cetuximab+encorafenib、 BYL719+encorafenib、BYL719+LJM716、cetuximab、CGM097、CLR457、encorafenib、 HDM201、LKA136。结果可见附图9基因异常调控关系对泛肿瘤药敏结果的预测能力。
S4.2.4通过步骤2中的基于贪婪算法的逐次增加迭代,配合异常调控关系对的通路富集分析可以发现,11种用药方案富集到TGFbeta通路、MAPK通路和PI3K 通路,大大提升了标志物的可解释性和循证医学可靠性。这11种用药方案具体包括binimetinib、BKM120、BYL719、BYL719+cetuximab、BYL719+cetuximab +encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab、cetuximab +encorafenib、CLR457、encorafenib;利用ROC曲线,计算AUC,获得组合优化后的肿瘤用药状态评估标志物由以下基因组成,包括AXIN1、JUNB、MYC、SMAD5、 SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、NR2C2、PPP1CB、SKIL、SMURF1、 SP1、TP53、PITX2、TFDP2、E2F4、SMAD1、KLF6、SMAD3、KLF11等,以上基因至少对一种用药治疗方案效果预测AUC达到0.7以上。
S4.2.5在GSE5851数据集中验证以上标志物对Cetuximab治疗效果的预测能力,发现BMPR2、MYC、TFDP2、TGIF2等四个基因不仅在NIBR PDXE中CRC PDX 上表现出色,同时在GSE5851数据集对Cetuximab药效预测有着优良表现。以上结果可见附图10BMPR2/MYC/TFDP2/TGIF2等TGFbeta通路基因在CRC PDX和GSE5851数据集对Cetuximab的药敏预测结果。
S4.3 TGFbeta通路、MAPK通路和PI3K通路靶向用药方案状态评估基因集的 panel设计与综合评分系统开发
S4.3.1梳理S4.2.4筛选到的24个基因的检测信息,然后通过NCBI office name或HGNC approved Official Symbol系统确定标准基因名。具体基因集包括,AXIN1、JUNB、MYC、SMAD5、SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、 NR2C2、PPP1CB、SKIL、SMURF1、SP1、TP53、PITX2、TFDP2、E2F4、SMAD1、KLF6、 SMAD3、KLF11等。
S4.3.2参考步骤4基因检测panel设计方法,完成TGFbeta-MAPK-PI3K三通路检测panel的设计,并根据PCR或高通量测序平台做相应优化,比如BMPR2、 MYC、TFDP2、TGIF2等4个基因组成的小panel,可以用PCR检测表达量;所有 24个基因,可以利用panel设计捕获相关序列,利用高通量测序技术进行检测。捕获效率一般在30%~60%之间,全部基因目标区域覆盖度不低于95%,因此可认定探针设计合格。
S4.3.3根据panel检测数值和病例临床信息输入方式,对 TGFbeta-MAPK-PI3K三通路靶向用药综合状态评分系统,采用SVM以python语言进行开发,并根据4基因和24基因分别训练两个模型,打包封装在一个软件系统之内,设置判断参数方便配套panel供用户使用。使得工具使用者可以按说明文档,输入个体病例的必要信息(即panel检测表达值、检验指标和临床信息等),该软件系统即可利用评估模型完成计算,并输出该待评估个体病例的TGFbeta-MAPK-PI3K三通路靶向用药综合状态评分以及对应的治疗受益预测提示等信息,辅助临床决策,提升治疗效果。
附表1 18种治疗药物的信息及其异常调控关系识别情况
Claims (12)
1.一种基于转录组数据、外显子组数据和临床表型挖掘复杂疾病标志物的方法,其特征在于,包括以下步骤:
步骤1)对复杂疾病病例信息进行分类整理:
步骤1.1)将所述复杂疾病病例信息分为转录组数据、外显子组/基因组数据和临床信息;
步骤1.2)将所述复杂疾病病例信息按照疾病状态分类并进行配对整理;
步骤2)构建复杂疾病标志物组合,使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选:
若所述复杂疾病病例信息仅涉及转录组数据与临床信息,则执行步骤2.1)基于转录组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因异常调控关系标志物组合;
若所述复杂疾病病例信息仅涉及外显子组/基因组数据与临床信息,则执行步骤2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因变异标志物组合;
若所述复杂疾病病例信息同时包含转录组数据、外显子组/基因组数据与临床信息,则执行步骤2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘,构建复杂疾病相关的基因异常调控关系和基因变异标志物组合。
2.如权利要求1所述的方法,其特征在于,所述步骤2.1)具体包括以下子步骤:
步骤2.1.1)构建参考基因调控网络;
步骤2.1.2)基于特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系,构建条件特异的基因调控网络;
步骤2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异;
步骤2.1.4)筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系;
步骤2.1.5)基于步骤2.1.4)得到的基因异常调控关系,构建复杂疾病相关的基因异常调控关系标志物组合。
3.如权利要求2所述的方法,其特征在于,步骤2.1.2)中,采用基于机器学习的特征选择算法,包括Boruta、Bayes、NMF、单变量线性回归,并通过异构计算或并行化方法实现加速,筛选在疾病状态下对TF-target关系贡献显著的TFs,形成条件特异的基因调控网络,即特定疾病状态的基因调控网络;和/或,
步骤2.1.3)中,采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度;
采用De-biased LASSO方法进行回归,求解得到每一个基因调控关系的调控强度及其置信区间,通过比较不同条件特异的基因调控网络中同一调控关系的置信区间是否有重叠,判定其调控差异是否显著;或通过比较不同条件特异的基因调控网络中同一调控关系的强度均值变化,无需计算置信区间,直接量化其调控差异;和/或,
步骤2.1.4)中,整合三方面与基因调控相关的因素,筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系,包括:基因调控强度显著变化、调控目标基因表达水平显著变化,以及TF对target的调控强度变化方向与target表达水平变化方向一致;同时,根据调控强度在不同疾病状态间的差异程度,对筛选到的基因异常调控关系进行排序;和/或,
步骤2.1.5)中以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建复杂疾病相关的基因异常调控关系标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
4.如权利要求1所述的方法,其特征在于,所述步骤2.2)具体包括以下子步骤:
步骤2.2.1)识别与复杂疾病相关的基因变异;
步骤2.2.2)采用数据驱动和/或先验知识驱动定量筛选复杂疾病状态相关的重要基因变异;
步骤2.2.3)基于步骤2.2.2)得到的复杂疾病状态相关的重要基因变异,构建复杂疾病相关的基因变异标志物组合。
5.如权利要求4所述的方法,其特征在于,步骤2.2.2)中,数据定量过滤筛选,包括体细胞基因变异频率计算、排序,以及高频变异基因识别,其中基因变异频率≥5%的基因进一步用于先验知识过滤;先验知识过滤筛选,包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的复杂疾病相关基因;和,
步骤2.2.3)中,以基于贪婪算法的逐次增加迭代,和/或基于遗传算法的进化迭代,构建复杂疾病相关的基因变异标志物组合;对上述标志物组合,以C-index为指标衡量其对疾病预后状态的预测效果,或以AUC为指标衡量其对治疗方案受益状态的预测效果。
6.如权利要求1所述的方法,其特征在于,所述步骤2.3)具体包括以下子步骤:
步骤2.3.1)对于同时具备转录组数据和外显子组/基因组数据的复杂疾病数据集,利用步骤2.1.1~2.1.4筛选疾病状态相关的基因异常调控关系,同时利用步骤2.2.1~2.2.2挖掘疾病状态相关的重要基因变异,分别得到复杂疾病相关的基因异常调控关系和重要基因变异;
步骤2.3.2)随后采纳步骤2.1.5和步骤2.2.3中,基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代,整合RNA和DNA信息,构建复杂疾病相关的基因异常调控关系和基因变异标志物组合。
7.一种复杂疾病综合状态评分方法,包括以下步骤:
步骤3.1)针对已知先验知识,筛选复杂疾病状态相关的临床信息及检验和病理指标;
步骤3.2)从复杂疾病队列中病例信息出发,筛选复杂疾病状态相关的临床信息及检验和病理指标;
步骤3.3)将如权利要求1所述方法得到的复杂疾病相关的基因异常调控关系和/或基因变异标志物组合,同步骤3.1)和3.2)筛选所得复杂疾病状态相关的临床信息及检验和病理指标整合,优化成为复杂疾病多元标志物组合,构建复杂疾病综合状态评分模型;所述模型用于复杂疾病综合状态评分计算。
8.如权利要求7所述的方法,其特征在于,步骤3.3)中,利用基于贪婪算法的逐次增加迭代和/或基于遗传算法的进化迭代,将复杂疾病相关的基因异常调控关系和/或基因变异标志物组合、复杂疾病相关临床信息及检验和病理指标,整合形成复杂疾病多元标志物组合,包含复杂疾病相关的基因异常调控关系、基因变异、临床信息、检验和病例指标;进而利用统计回归和机器学习算法,针对复杂疾病预后评估、治疗效果预测及治疗方案辅助决策,构建复杂疾病综合状态评分模型。
9.基于复杂疾病相关的基因异常调控关系和/或基因变异标志物组合构建一种基因检测panel设计方法,其特征在于,包括以下步骤:
步骤4.1)基于权利要求1所述方法筛选得到复杂疾病相关的基因异常调控关系和/或基因变异标志物组合,并纳入权利要求7所述复杂疾病综合状态评分方法的基因集,梳理基因集中基因相关信息,去除冗余,确定标准基因名;
步骤4.2)针对步骤4.1)中梳理后的基因,选择用于复杂疾病检测设计的靶基因目标区域,用于探针设计或引物设计;
步骤4.3)根据步骤4.2)中的靶基因目标区域,设计相应的探针和/或引物序列,并记录重要注释;
步骤4.4)针对步骤4.2)中的靶基因目标区域,参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域进行优化设计,使探针和/或引物能均匀捕获覆盖目标区域;
步骤4.5)将步骤4.3和4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对,获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案;
步骤4.6)基于步骤4.5设计的靶基因目标区域相关探针和/或引物,制作出用于充分进行复杂疾病状态评估的基因检测panel。
10.如权利要求9所述的方法,其特征在于,步骤4.2)中,选择用于复杂疾病检测的探针和/或引物设计的靶基因目标区域,遵循以下原则:对于变异位点信息明确具体且该变异位点序列前后各100bp范围内无其它变异位点,则将此已明确的基因位点覆盖区域作为靶基因目标区域;对于变异位点较集中或密集的基因区域,即两个变异位点相邻且间隔不超过100bp,则选择该组变异位点的外显子作为靶基因目标区域;对于步骤4.1)确定的重要基因,在前两项设计不适用的情况下,则选择该基因全部可变剪切类型的区域作为靶基因目标区域;和/或,
步骤4.3)中的设计是指采用对步骤4.2)中的靶基因目标区域两端延伸,合并延伸后的全部目标区域并去除冗余;记录探针和/或引物设计的靶基因目标区域的重要信息,包括靶基因目标区域的染色体编号、靶基因目标区域的起始位置、靶基因目标区域的终止位置、自定义信息,如引物设计所需3’端信息;和/或,
步骤4.4)中参考人类基因组中可设计探针和/或引物数据集,对靶基因目标区域设计的探针和/或引物覆盖深度进行加权,并基于人类全基因组测序数据预测其探针和/或引物覆盖深度后,在全探针和/或引物数据集进行调整,使探针和/或引物能均匀捕获覆盖目标区域;和/或,
步骤4.5)中靶基因目标区域相关探针和/或引物的最优覆盖度是指计算探针和/或引物对步骤4.1所述重要基因变异位点的覆盖度和全部靶基因目标区域的覆盖度,计算公式为:覆盖度=比对上的读长数/目标测序读长数;通过靶基因目标区域附近的优化,使得最终设计的探针和/或引物,对全部靶基因目标区域的覆盖度≥90%,同时对步骤4.1所述重要基因变异位点的覆盖度≥97%。
11.一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法,其特征在于,基于复杂疾病状态评估基因检测panel同综合状态评分计算系统的联用进行评估,包括以下步骤:
步骤5.1)基于如权利要求9所述方法设计的基因检测panel,得到复杂疾病相关的基因异常调控关系和/或基因变异标志物组合的定量值,输入复杂疾病综合状态评分计算系统;
步骤5.2)将获取权利要求5所述复杂疾病状态相关的临床信息及检验和病理指标的定量值,输入复杂疾病综合状态评分计算系统;
步骤5.3)将步骤5.1)和5.2)所涉及的硬件、软件和/或在线工具,组合为一套配套联用的流程,使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。
12.如权利要求1-11之任一项所述的方法在构建基于高通量测序数据和临床表型构建复杂疾病状态评估模型中的应用,包括在筛选复杂疾病综合状态评估标志物组合中的应用;在筛选肿瘤综合状态评估标志物组合中的应用;在复杂疾病预后评估、治疗效果预测及治疗方案辅助决策中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469452.XA CN111863137B (zh) | 2020-05-28 | 2020-05-28 | 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469452.XA CN111863137B (zh) | 2020-05-28 | 2020-05-28 | 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111863137A true CN111863137A (zh) | 2020-10-30 |
CN111863137B CN111863137B (zh) | 2024-01-02 |
Family
ID=72985465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010469452.XA Active CN111863137B (zh) | 2020-05-28 | 2020-05-28 | 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111863137B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365988A (zh) * | 2020-11-10 | 2021-02-12 | 杭州市肿瘤医院 | 一种预后预测系统 |
CN114003734A (zh) * | 2021-11-22 | 2022-02-01 | 四川大学华西医院 | 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法 |
CN115995262A (zh) * | 2023-03-21 | 2023-04-21 | 济南大学 | 基于随机森林及lasso回归解析玉米遗传机理的方法 |
WO2023071877A1 (zh) * | 2021-10-28 | 2023-05-04 | 广州医科大学附属第一医院(广州呼吸中心) | 泌尿系统结石术后复发风险预测模型、评估系统及方法 |
CN116805513A (zh) * | 2023-08-23 | 2023-09-26 | 成都信息工程大学 | 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法 |
CN116863998A (zh) * | 2023-06-21 | 2023-10-10 | 扬州大学 | 一种基于遗传算法的全基因组预测方法及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577921A (zh) * | 2017-08-25 | 2018-01-12 | 云壹生物技术(大连)有限公司 | 一种肿瘤靶向基因测序数据解析方法 |
CN108982789A (zh) * | 2018-06-15 | 2018-12-11 | 上海朴岱生物科技合伙企业(有限合伙) | 肿瘤移植模型的药敏反应分析方法、分析系统及其应用 |
CN110592213A (zh) * | 2019-09-02 | 2019-12-20 | 深圳市新合生物医疗科技有限公司 | 预测新抗原负荷和检测基因组突变的基因panel |
CN111052247A (zh) * | 2017-06-13 | 2020-04-21 | 波士顿基因公司 | 用于由经归一化生物标志物评分鉴定癌症治疗的系统和方法 |
-
2020
- 2020-05-28 CN CN202010469452.XA patent/CN111863137B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111052247A (zh) * | 2017-06-13 | 2020-04-21 | 波士顿基因公司 | 用于由经归一化生物标志物评分鉴定癌症治疗的系统和方法 |
CN107577921A (zh) * | 2017-08-25 | 2018-01-12 | 云壹生物技术(大连)有限公司 | 一种肿瘤靶向基因测序数据解析方法 |
CN108982789A (zh) * | 2018-06-15 | 2018-12-11 | 上海朴岱生物科技合伙企业(有限合伙) | 肿瘤移植模型的药敏反应分析方法、分析系统及其应用 |
CN110592213A (zh) * | 2019-09-02 | 2019-12-20 | 深圳市新合生物医疗科技有限公司 | 预测新抗原负荷和检测基因组突变的基因panel |
Non-Patent Citations (2)
Title |
---|
CHANDRAMOULI RATHNAM ET AL.: "An algorithm for direct causal learning of influences on patient outcomes", 《ARTIFICIAL INTELLIGENCE IN MEDICINE》, pages 1 - 15 * |
潘蕾: "基于高通量测序数据的癌症驱动基因集筛选方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 140 - 137 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365988A (zh) * | 2020-11-10 | 2021-02-12 | 杭州市肿瘤医院 | 一种预后预测系统 |
CN112365988B (zh) * | 2020-11-10 | 2023-08-04 | 杭州市肿瘤医院 | 一种预后预测系统 |
WO2023071877A1 (zh) * | 2021-10-28 | 2023-05-04 | 广州医科大学附属第一医院(广州呼吸中心) | 泌尿系统结石术后复发风险预测模型、评估系统及方法 |
CN114003734A (zh) * | 2021-11-22 | 2022-02-01 | 四川大学华西医院 | 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法 |
CN114003734B (zh) * | 2021-11-22 | 2023-06-30 | 四川大学华西医院 | 乳腺癌风险因素知识体系系统、知识图谱系统及构建方法 |
CN115995262A (zh) * | 2023-03-21 | 2023-04-21 | 济南大学 | 基于随机森林及lasso回归解析玉米遗传机理的方法 |
CN116863998A (zh) * | 2023-06-21 | 2023-10-10 | 扬州大学 | 一种基于遗传算法的全基因组预测方法及其应用 |
CN116863998B (zh) * | 2023-06-21 | 2024-04-05 | 扬州大学 | 一种基于遗传算法的全基因组预测方法及其应用 |
CN116805513A (zh) * | 2023-08-23 | 2023-09-26 | 成都信息工程大学 | 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法 |
CN116805513B (zh) * | 2023-08-23 | 2023-10-31 | 成都信息工程大学 | 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111863137B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111863137A (zh) | 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用 | |
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
CN111640508B (zh) | 基于高通量测序数据和临床表型构建的泛肿瘤靶向药敏感性状态评估模型的方法及应用 | |
CN111863126B (zh) | 构建结直肠肿瘤状态评估模型的方法及应用 | |
Hansen et al. | Shimmer: detection of genetic alterations in tumors using next-generation sequence data | |
TWI814753B (zh) | 用於標靶定序之模型 | |
CA3160566A1 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
CN111816315B (zh) | 胰腺导管癌状态评估模型构建方法及应用 | |
Barefoot et al. | Detection of cell types contributing to cancer from circulating, cell-free methylated DNA | |
US20190073445A1 (en) | Identifying false positive variants using a significance model | |
Wu et al. | Identification and validation of an immune-related RNA signature to predict survival of patients with head and neck squamous cell carcinoma | |
Wang et al. | Integrative modeling of multiomics data for predicting tumor mutation burden in patients with lung cancer | |
Zhong et al. | Alternative splicing and alternative polyadenylation define tumor immune microenvironment and pharmacogenomic landscape in clear cell renal carcinoma | |
Zhang et al. | An integrated model of FTO and METTL3 expression that predicts prognosis in lung squamous cell carcinoma patients | |
Bock et al. | Genome-wide mapping of DNA methylation: a quantitative technology comparison | |
Liu et al. | Determining the prognostic value of spliceosome-related genes in hepatocellular carcinoma patients | |
Lee et al. | Machine learning with in silico analysis markedly improves survival prediction modeling in colon cancer patients | |
Al-Fatlawi et al. | NetRank recovers known cancer hallmark genes as universal biomarker signature for cancer outcome prediction | |
Hobbs et al. | Biostatistics and bioinformatics in clinical trials | |
Shivarov et al. | MicroRNA expression-based outcome prediction in acute myeloid leukemia: novel insights through cross-platform integrative analyses | |
De Groot et al. | Multigene sets for clinical application in glioma | |
Shroff et al. | Gene co-expression analysis predicts genetic variants associated with drug responsiveness in lung cancer | |
Sato et al. | Biostatistic tools in pharmacogenomics-advances, challenges, potential | |
Cai et al. | Population effect model identifies gene expression predictors of survival outcomes in lung adenocarcinoma for both Caucasian and Asian patients | |
CN113257354B (zh) | 基于高通量实验数据挖掘进行关键rna功能挖掘的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |