CN116312785A - 乳腺癌诊断标志基因及其筛查方法 - Google Patents
乳腺癌诊断标志基因及其筛查方法 Download PDFInfo
- Publication number
- CN116312785A CN116312785A CN202310058165.3A CN202310058165A CN116312785A CN 116312785 A CN116312785 A CN 116312785A CN 202310058165 A CN202310058165 A CN 202310058165A CN 116312785 A CN116312785 A CN 116312785A
- Authority
- CN
- China
- Prior art keywords
- breast cancer
- genes
- luminal
- gene
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 207
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 115
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 115
- 238000012216 screening Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000003550 marker Substances 0.000 title claims abstract description 24
- 238000003745 diagnosis Methods 0.000 title claims abstract description 15
- 208000026534 luminal B breast carcinoma Diseases 0.000 claims abstract description 65
- 238000004458 analytical method Methods 0.000 claims abstract description 46
- 238000007637 random forest analysis Methods 0.000 claims abstract description 6
- 238000000611 regression analysis Methods 0.000 claims abstract description 4
- 230000014509 gene expression Effects 0.000 claims description 75
- 108020004999 messenger RNA Proteins 0.000 claims description 52
- 102000004169 proteins and genes Human genes 0.000 claims description 40
- 108020005198 Long Noncoding RNA Proteins 0.000 claims description 24
- 102100037362 Fibronectin Human genes 0.000 claims description 21
- 101001027128 Homo sapiens Fibronectin Proteins 0.000 claims description 20
- 108091070501 miRNA Proteins 0.000 claims description 18
- 239000002679 microRNA Substances 0.000 claims description 17
- 102100032396 Coiled-coil domain-containing protein 24 Human genes 0.000 claims description 16
- 101000868756 Homo sapiens Coiled-coil domain-containing protein 24 Proteins 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 14
- -1 SLC2a12 Proteins 0.000 claims description 13
- 102100022464 5'-nucleotidase Human genes 0.000 claims description 12
- 102100031611 Collagen alpha-1(III) chain Human genes 0.000 claims description 12
- 101000678236 Homo sapiens 5'-nucleotidase Proteins 0.000 claims description 12
- 101000993285 Homo sapiens Collagen alpha-1(III) chain Proteins 0.000 claims description 12
- 101000740759 Homo sapiens Voltage-dependent calcium channel subunit alpha-2/delta-2 Proteins 0.000 claims description 12
- 102100037058 Voltage-dependent calcium channel subunit alpha-2/delta-2 Human genes 0.000 claims description 12
- 239000003153 chemical reaction reagent Substances 0.000 claims description 12
- 239000000439 tumor marker Substances 0.000 claims description 12
- 102100031502 Collagen alpha-2(V) chain Human genes 0.000 claims description 11
- 102000055157 Complement C1 Inhibitor Human genes 0.000 claims description 11
- 108700040183 Complement C1 Inhibitor Proteins 0.000 claims description 11
- 102100035432 Complement factor H Human genes 0.000 claims description 11
- 102100032029 Epidermal growth factor-like protein 6 Human genes 0.000 claims description 11
- 102100026546 Fibronectin type III domain-containing protein 1 Human genes 0.000 claims description 11
- 102100023830 Homeobox protein EMX2 Human genes 0.000 claims description 11
- 101000941594 Homo sapiens Collagen alpha-2(V) chain Proteins 0.000 claims description 11
- 101000737574 Homo sapiens Complement factor H Proteins 0.000 claims description 11
- 101000921196 Homo sapiens Epidermal growth factor-like protein 6 Proteins 0.000 claims description 11
- 101000913643 Homo sapiens Fibronectin type III domain-containing protein 1 Proteins 0.000 claims description 11
- 101001048970 Homo sapiens Homeobox protein EMX2 Proteins 0.000 claims description 11
- 101000917858 Homo sapiens Low affinity immunoglobulin gamma Fc region receptor III-A Proteins 0.000 claims description 11
- 101000896414 Homo sapiens Nuclear nucleic acid-binding protein C1D Proteins 0.000 claims description 11
- 101001043564 Homo sapiens Prolow-density lipoprotein receptor-related protein 1 Proteins 0.000 claims description 11
- 101000580043 Homo sapiens Ras-specific guanine nucleotide-releasing factor 2 Proteins 0.000 claims description 11
- 101000622236 Homo sapiens Transcription cofactor vestigial-like protein 3 Proteins 0.000 claims description 11
- 102100029193 Low affinity immunoglobulin gamma Fc region receptor III-A Human genes 0.000 claims description 11
- 102100021923 Prolow-density lipoprotein receptor-related protein 1 Human genes 0.000 claims description 11
- 102100027555 Ras-specific guanine nucleotide-releasing factor 2 Human genes 0.000 claims description 11
- 101150097162 SERPING1 gene Proteins 0.000 claims description 11
- 102100023476 Transcription cofactor vestigial-like protein 3 Human genes 0.000 claims description 11
- 102100037293 Atrial natriuretic peptide-converting enzyme Human genes 0.000 claims description 9
- 101710133555 Atrial natriuretic peptide-converting enzyme Proteins 0.000 claims description 9
- 102100022308 Ras-related protein Rab-3A Human genes 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 108010046566 rab3A GTP Binding Protein Proteins 0.000 claims description 9
- 102000002274 Matrix Metalloproteinases Human genes 0.000 claims description 8
- 108010000684 Matrix Metalloproteinases Proteins 0.000 claims description 8
- 239000002299 complementary DNA Substances 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 101100314454 Caenorhabditis elegans tra-1 gene Proteins 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 102100024365 Arf-GAP domain and FG repeat-containing protein 1 Human genes 0.000 claims description 3
- 101000833314 Homo sapiens Arf-GAP domain and FG repeat-containing protein 1 Proteins 0.000 claims description 3
- 101000746496 Schizosaccharomyces pombe (strain 972 / ATCC 24843) GTP-binding protein ypt3 Proteins 0.000 claims description 3
- 102000048850 Neoplasm Genes Human genes 0.000 claims description 2
- 108700019961 Neoplasm Genes Proteins 0.000 claims description 2
- 238000007621 cluster analysis Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000005315 distribution function Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 101001013150 Homo sapiens Interstitial collagenase Proteins 0.000 claims 3
- 102000000380 Matrix Metalloproteinase 1 Human genes 0.000 claims 3
- 238000004393 prognosis Methods 0.000 abstract description 23
- 238000011282 treatment Methods 0.000 abstract description 23
- 238000010200 validation analysis Methods 0.000 abstract description 4
- 238000003759 clinical diagnosis Methods 0.000 abstract description 2
- 238000013399 early diagnosis Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 abstract 1
- 206010028980 Neoplasm Diseases 0.000 description 45
- 201000011510 cancer Diseases 0.000 description 24
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 22
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 21
- 230000037361 pathway Effects 0.000 description 19
- 101000819111 Homo sapiens Trans-acting T-cell-specific transcription factor GATA-3 Proteins 0.000 description 14
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 13
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 13
- 102100021386 Trans-acting T-cell-specific transcription factor GATA-3 Human genes 0.000 description 13
- 230000011987 methylation Effects 0.000 description 13
- 238000007069 methylation reaction Methods 0.000 description 13
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 12
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 12
- 210000004027 cell Anatomy 0.000 description 11
- 230000007067 DNA methylation Effects 0.000 description 10
- 230000035772 mutation Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 206010069754 Acquired gene mutation Diseases 0.000 description 9
- 230000037439 somatic mutation Effects 0.000 description 9
- 230000004083 survival effect Effects 0.000 description 9
- 102100038595 Estrogen receptor Human genes 0.000 description 8
- 101000882584 Homo sapiens Estrogen receptor Proteins 0.000 description 8
- 108010058546 Cyclin D1 Proteins 0.000 description 7
- 102100024165 G1/S-specific cyclin-D1 Human genes 0.000 description 7
- 230000022131 cell cycle Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 238000002512 chemotherapy Methods 0.000 description 7
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 6
- 238000001793 Wilcoxon signed-rank test Methods 0.000 description 6
- 230000002124 endocrine Effects 0.000 description 6
- 230000007705 epithelial mesenchymal transition Effects 0.000 description 6
- 101000775102 Homo sapiens Transcriptional coactivator YAP1 Proteins 0.000 description 5
- 238000003559 RNA-seq method Methods 0.000 description 5
- 102100031873 Transcriptional coactivator YAP1 Human genes 0.000 description 5
- 238000009261 endocrine therapy Methods 0.000 description 5
- 229940034984 endocrine therapy antineoplastic and immunomodulating agent Drugs 0.000 description 5
- 238000010201 enrichment analysis Methods 0.000 description 5
- 230000019491 signal transduction Effects 0.000 description 5
- 102100034065 Atypical chemokine receptor 4 Human genes 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 4
- 238000000729 Fisher's exact test Methods 0.000 description 4
- 101000798902 Homo sapiens Atypical chemokine receptor 4 Proteins 0.000 description 4
- 102000043276 Oncogene Human genes 0.000 description 4
- 108700020796 Oncogene Proteins 0.000 description 4
- 108091006310 SLC2A12 Proteins 0.000 description 4
- 102100039671 Solute carrier family 2, facilitated glucose transporter member 12 Human genes 0.000 description 4
- 238000000546 chi-square test Methods 0.000 description 4
- 230000002860 competitive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 210000002889 endothelial cell Anatomy 0.000 description 4
- 108010038795 estrogen receptors Proteins 0.000 description 4
- 210000002950 fibroblast Anatomy 0.000 description 4
- 230000001575 pathological effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 101100319886 Caenorhabditis elegans yap-1 gene Proteins 0.000 description 3
- 208000003721 Triple Negative Breast Neoplasms Diseases 0.000 description 3
- 210000000270 basal cell Anatomy 0.000 description 3
- 230000008827 biological function Effects 0.000 description 3
- 230000031018 biological processes and functions Effects 0.000 description 3
- 210000001185 bone marrow Anatomy 0.000 description 3
- 210000000481 breast Anatomy 0.000 description 3
- 230000008235 cell cycle pathway Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 231100000433 cytotoxic Toxicity 0.000 description 3
- 230000001472 cytotoxic effect Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 210000004443 dendritic cell Anatomy 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 3
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 3
- 238000011223 gene expression profiling Methods 0.000 description 3
- 230000004547 gene signature Effects 0.000 description 3
- 108091008039 hormone receptors Proteins 0.000 description 3
- 210000002865 immune cell Anatomy 0.000 description 3
- 230000028993 immune response Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 210000004698 lymphocyte Anatomy 0.000 description 3
- 230000002503 metabolic effect Effects 0.000 description 3
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003498 protein array Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 101150022985 sgcE gene Proteins 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 208000022679 triple-negative breast carcinoma Diseases 0.000 description 3
- 210000004881 tumor cell Anatomy 0.000 description 3
- 101150098072 20 gene Proteins 0.000 description 2
- 102100034580 AT-rich interactive domain-containing protein 1A Human genes 0.000 description 2
- 102100040202 Apolipoprotein B-100 Human genes 0.000 description 2
- 102100028002 Catenin alpha-2 Human genes 0.000 description 2
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 2
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 2
- 108010077544 Chromatin Proteins 0.000 description 2
- 230000033616 DNA repair Effects 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 101000924266 Homo sapiens AT-rich interactive domain-containing protein 1A Proteins 0.000 description 2
- 101000889953 Homo sapiens Apolipoprotein B-100 Proteins 0.000 description 2
- 101000859073 Homo sapiens Catenin alpha-2 Proteins 0.000 description 2
- 101000691463 Homo sapiens Placenta-specific protein 1 Proteins 0.000 description 2
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 2
- 101000825086 Homo sapiens Transcription factor SOX-11 Proteins 0.000 description 2
- 108090000144 Human Proteins Proteins 0.000 description 2
- 102000003839 Human Proteins Human genes 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 2
- 108091030146 MiRBase Proteins 0.000 description 2
- 101100013967 Mus musculus Gata3 gene Proteins 0.000 description 2
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 2
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 2
- 102100026181 Placenta-specific protein 1 Human genes 0.000 description 2
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 2
- 102100022873 Ras-related protein Rab-11A Human genes 0.000 description 2
- 210000001744 T-lymphocyte Anatomy 0.000 description 2
- 102100022415 Transcription factor SOX-11 Human genes 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000008236 biological pathway Effects 0.000 description 2
- 210000003483 chromatin Anatomy 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000002074 deregulated effect Effects 0.000 description 2
- 102000015694 estrogen receptors Human genes 0.000 description 2
- 208000026535 luminal A breast carcinoma Diseases 0.000 description 2
- 210000002540 macrophage Anatomy 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 231100000590 oncogenic Toxicity 0.000 description 2
- 230000002246 oncogenic effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000010627 oxidative phosphorylation Effects 0.000 description 2
- 238000010837 poor prognosis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000392 somatic effect Effects 0.000 description 2
- CCEKAJIANROZEO-UHFFFAOYSA-N sulfluramid Chemical group CCNS(=O)(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F CCEKAJIANROZEO-UHFFFAOYSA-N 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 229960000575 trastuzumab Drugs 0.000 description 2
- 230000004614 tumor growth Effects 0.000 description 2
- 230000003827 upregulation Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- 101150042997 21 gene Proteins 0.000 description 1
- 102100024420 39S ribosomal protein S30, mitochondrial Human genes 0.000 description 1
- 101100086302 Arabidopsis thaliana RABA1B gene Proteins 0.000 description 1
- 102100021631 B-cell lymphoma 6 protein Human genes 0.000 description 1
- 108700020463 BRCA1 Proteins 0.000 description 1
- 102000036365 BRCA1 Human genes 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- 108091007743 BRCA1/2 Proteins 0.000 description 1
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 102100029894 Bromodomain testis-specific protein Human genes 0.000 description 1
- 102000014835 CACNA1H Human genes 0.000 description 1
- 102100024155 Cadherin-11 Human genes 0.000 description 1
- 102100036364 Cadherin-2 Human genes 0.000 description 1
- 102100025338 Calcium-binding tyrosine phosphorylation-regulated protein Human genes 0.000 description 1
- 102100033601 Collagen alpha-1(I) chain Human genes 0.000 description 1
- 102100031457 Collagen alpha-1(V) chain Human genes 0.000 description 1
- 108091029523 CpG island Proteins 0.000 description 1
- 108091029430 CpG site Proteins 0.000 description 1
- 102100032857 Cyclin-dependent kinase 1 Human genes 0.000 description 1
- 101710106279 Cyclin-dependent kinase 1 Proteins 0.000 description 1
- 102100038111 Cyclin-dependent kinase 12 Human genes 0.000 description 1
- 102100028202 Cytochrome c oxidase subunit 6C Human genes 0.000 description 1
- 102000004127 Cytokines Human genes 0.000 description 1
- 108090000695 Cytokines Proteins 0.000 description 1
- 230000003350 DNA copy number gain Effects 0.000 description 1
- 230000005971 DNA damage repair Effects 0.000 description 1
- 230000026641 DNA hypermethylation Effects 0.000 description 1
- 230000006429 DNA hypomethylation Effects 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 102100035784 Decorin Human genes 0.000 description 1
- 102100031480 Dual specificity mitogen-activated protein kinase kinase 1 Human genes 0.000 description 1
- 102100023274 Dual specificity mitogen-activated protein kinase kinase 4 Human genes 0.000 description 1
- 102100036109 Dual specificity protein kinase TTK Human genes 0.000 description 1
- 102100030323 Epigen Human genes 0.000 description 1
- 102100021793 Epsilon-sarcoglycan Human genes 0.000 description 1
- 108010067306 Fibronectins Proteins 0.000 description 1
- 102100037858 G1/S-specific cyclin-E1 Human genes 0.000 description 1
- 238000011460 HER2-targeted therapy Methods 0.000 description 1
- 102100027755 Histone-lysine N-methyltransferase 2C Human genes 0.000 description 1
- 102100029235 Histone-lysine N-methyltransferase NSD3 Human genes 0.000 description 1
- 101000689854 Homo sapiens 39S ribosomal protein S30, mitochondrial Proteins 0.000 description 1
- 101000971234 Homo sapiens B-cell lymphoma 6 protein Proteins 0.000 description 1
- 101000794028 Homo sapiens Bromodomain testis-specific protein Proteins 0.000 description 1
- 101000762236 Homo sapiens Cadherin-11 Proteins 0.000 description 1
- 101000714537 Homo sapiens Cadherin-2 Proteins 0.000 description 1
- 101000935132 Homo sapiens Calcium-binding tyrosine phosphorylation-regulated protein Proteins 0.000 description 1
- 101000941708 Homo sapiens Collagen alpha-1(V) chain Proteins 0.000 description 1
- 101000884345 Homo sapiens Cyclin-dependent kinase 12 Proteins 0.000 description 1
- 101000861049 Homo sapiens Cytochrome c oxidase subunit 6C Proteins 0.000 description 1
- 101001000206 Homo sapiens Decorin Proteins 0.000 description 1
- 101001115395 Homo sapiens Dual specificity mitogen-activated protein kinase kinase 4 Proteins 0.000 description 1
- 101000659223 Homo sapiens Dual specificity protein kinase TTK Proteins 0.000 description 1
- 101000938352 Homo sapiens Epigen Proteins 0.000 description 1
- 101000616437 Homo sapiens Epsilon-sarcoglycan Proteins 0.000 description 1
- 101000738568 Homo sapiens G1/S-specific cyclin-E1 Proteins 0.000 description 1
- 101001008892 Homo sapiens Histone-lysine N-methyltransferase 2C Proteins 0.000 description 1
- 101000634046 Homo sapiens Histone-lysine N-methyltransferase NSD3 Proteins 0.000 description 1
- 101001037256 Homo sapiens Indoleamine 2,3-dioxygenase 1 Proteins 0.000 description 1
- 101001050275 Homo sapiens Keratin, type I cuticular Ha1 Proteins 0.000 description 1
- 101001052493 Homo sapiens Mitogen-activated protein kinase 1 Proteins 0.000 description 1
- 101001133056 Homo sapiens Mucin-1 Proteins 0.000 description 1
- 101001038051 Homo sapiens Phlorizin hydrolase Proteins 0.000 description 1
- 101001073422 Homo sapiens Pigment epithelium-derived factor Proteins 0.000 description 1
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 description 1
- 101001117317 Homo sapiens Programmed cell death 1 ligand 1 Proteins 0.000 description 1
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 1
- 101000795918 Homo sapiens Testis-expressed protein 101 Proteins 0.000 description 1
- 101000687905 Homo sapiens Transcription factor SOX-2 Proteins 0.000 description 1
- 101000611183 Homo sapiens Tumor necrosis factor Proteins 0.000 description 1
- 101000764263 Homo sapiens Tumor necrosis factor ligand superfamily member 4 Proteins 0.000 description 1
- 101000801234 Homo sapiens Tumor necrosis factor receptor superfamily member 18 Proteins 0.000 description 1
- 101000860430 Homo sapiens Versican core protein Proteins 0.000 description 1
- 101000932804 Homo sapiens Voltage-dependent T-type calcium channel subunit alpha-1H Proteins 0.000 description 1
- 102100040061 Indoleamine 2,3-dioxygenase 1 Human genes 0.000 description 1
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 1
- 102100023131 Keratin, type I cuticular Ha1 Human genes 0.000 description 1
- 102000011782 Keratins Human genes 0.000 description 1
- 108010076876 Keratins Proteins 0.000 description 1
- 102100022743 Laminin subunit alpha-4 Human genes 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 108010068342 MAP Kinase Kinase 1 Proteins 0.000 description 1
- 102100024193 Mitogen-activated protein kinase 1 Human genes 0.000 description 1
- 108020005497 Nuclear hormone receptor Proteins 0.000 description 1
- 102100040402 Phlorizin hydrolase Human genes 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 102100035846 Pigment epithelium-derived factor Human genes 0.000 description 1
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 description 1
- 102100024216 Programmed cell death 1 ligand 1 Human genes 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 101150060955 RAB11A gene Proteins 0.000 description 1
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 1
- 101710136851 Ras-related protein Rab-11A Proteins 0.000 description 1
- 230000010799 Receptor Interactions Effects 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 102100031738 Testis-expressed protein 101 Human genes 0.000 description 1
- 102100024270 Transcription factor SOX-2 Human genes 0.000 description 1
- 108010078184 Trefoil Factor-3 Proteins 0.000 description 1
- 102100039145 Trefoil factor 3 Human genes 0.000 description 1
- 102100040247 Tumor necrosis factor Human genes 0.000 description 1
- 102100026890 Tumor necrosis factor ligand superfamily member 4 Human genes 0.000 description 1
- 102100033728 Tumor necrosis factor receptor superfamily member 18 Human genes 0.000 description 1
- 102100028437 Versican core protein Human genes 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 108010029483 alpha 1 Chain Collagen Type I Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000033115 angiogenesis Effects 0.000 description 1
- 230000001833 anti-estrogenic effect Effects 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000005907 cancer growth Effects 0.000 description 1
- 108700021031 cdc Genes Proteins 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 229940044683 chemotherapy drug Drugs 0.000 description 1
- 238000009104 chemotherapy regimen Methods 0.000 description 1
- QZXCCPZJCKEPSA-UHFFFAOYSA-N chlorfenac Chemical compound OC(=O)CC1=C(Cl)C=CC(Cl)=C1Cl QZXCCPZJCKEPSA-UHFFFAOYSA-N 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000004186 co-expression Effects 0.000 description 1
- 238000009096 combination chemotherapy Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 108010057085 cytokine receptors Proteins 0.000 description 1
- 102000003675 cytokine receptors Human genes 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003831 deregulation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 239000000328 estrogen antagonist Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010199 gene set enrichment analysis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- 230000034659 glycolysis Effects 0.000 description 1
- 230000006545 glycolytic metabolism Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007417 hierarchical cluster analysis Methods 0.000 description 1
- 230000008088 immune pathway Effects 0.000 description 1
- 230000002055 immunohistochemical effect Effects 0.000 description 1
- 230000036046 immunoreaction Effects 0.000 description 1
- 230000002601 intratumoral effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 108010008094 laminin alpha 3 Proteins 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 235000011475 lollipops Nutrition 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 230000006679 metabolic signaling pathway Effects 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 210000000822 natural killer cell Anatomy 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 102000006255 nuclear receptors Human genes 0.000 description 1
- 108020004017 nuclear receptors Proteins 0.000 description 1
- 230000004650 oncogenic pathway Effects 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 210000004990 primary immune cell Anatomy 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000002062 proliferating effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 108700039148 rab11 Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000011521 systemic chemotherapy Methods 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000001550 testis Anatomy 0.000 description 1
- 230000004797 therapeutic response Effects 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 230000004565 tumor cell growth Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Pathology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Analytical Chemistry (AREA)
- Databases & Information Systems (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Oncology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Hospice & Palliative Care (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及本发明属于基因组学核生物医学技术领域,公开了乳腺癌诊断标志基因及其筛查方法,通过采用差异分析、Lasso回归分析、随机森林以及Cox分析等技术确定与Luminal B型乳腺癌亚型诊断相关的标志基因。基于这些标志基因,将Luminal B型乳腺癌划分成了两个新的亚型并在两个验证集上对两个新亚型进行了验证。被验证的Luminal B型乳腺癌亚型标志基因可用于临床上Luminal B型乳腺癌亚型筛查和诊断,同时可以联合其他临床检查结果完成临床诊治决策,实现不同亚型Luminal B型乳腺癌的早发现、早诊断和早治疗,从而大大改善Luminal B型乳腺癌患者的预后。
Description
技术领域
本发明属于基因组学和生物医学技术领域,尤其是涉及一种乳腺癌特征基因的标志基因及其筛选方法。
背景技术
乳腺癌作为高度分子异质性疾病,沿用的解剖学分期和组织学分类已不能满足其目前的临床诊治需求,尤其缺少能够标志肿瘤生物学行为并对临床治疗提供指导作用的乳腺癌组织学分类方法。因此,探求乳腺癌的致病机制,开发精准的乳腺癌筛查和治疗方法,仍然是保护女性健康的重要课题。
近年来,高通量的癌症基因组学证实,乳腺癌并非单一疾病,而是由多种亚型组成的疾病,目前通过基因表达谱对乳腺癌几个亚型(PAM50,专利号WO2009158143 A1):即管腔上皮(表达正常乳腺管腔上皮激素受体、细胞角蛋白和相关基因)A型(Luminal A)、管腔上皮B型(Luminal B,较A型激素受体水平低,组织学级别高)、HER-2过表达型和基底样型(basal-like,表达乳腺上皮基底样或干细胞相关基因),以及类正常细胞型。这几种类型在之后大量的临床研究中,证实了它们在预后和治疗反应等方面具有特异性。比如,管腔A型,侵袭性与转移性比较弱,术后复发转移风险相对低,对内分泌治疗比较敏感;管腔B型预后中等,需要内分泌治疗联合化疗;HER2阳性型和基底细胞型则预后很差;HER2阳性型,一般用抗HER2靶向治疗(曲妥珠单抗)联合化疗和(或)内分泌治疗;基底细胞型预后最差,需要化疗治疗。另外一种技术(Oncotype Dx)是对专门针对雌激素受体阳性及淋巴结阴性的乳腺癌病人,用21个基因表达量来计算复发分数,复发分数低的病人只需要内分泌治疗,复发分数高的病人则需要化疗。然而,以上两种基因分型技术均存在一些问题。PAM50分子分型不够精准,比如是否存在类正常细胞型还存在争论,各亚型之间的比例也不确定;另外,PAM50无法精确地证实哪种亚型需要用具体的化疗药物;Oncotype Dx只是针对雌激素受体阳性的乳腺癌病人,而不适用于雌激素受体阴性的病人。在专利108949983A中提供一组乳腺癌分型基因群,可将乳腺癌分为间质型、增殖型和代谢型三种亚型,不同亚型的乳腺癌具有不同的基因表达谱。不同亚型的乳腺癌病人对内分泌治疗药物和化疗药物有不同的反应,据此采用合适的药物将极大的提高乳腺癌病人的生存率。
虽然乳腺癌的发病率在上升,但乳腺癌的死亡率却在下降。这不仅仅因为靶向药物治疗的研究不断深入,乳腺癌预后得以改善,复发率降低,也是基于多种乳腺癌分子标志物的不但深入研究在早期乳腺癌诊断及预后中的应用。在专利CN104805197A中公开一种乳腺癌分子标志物S100A8/A9用于乳腺癌诊断和预后评估的方法,明确了分子标志物S100A8/A9在不同分子病理亚型的乳腺癌患者中表达存在差异,其中在基底细胞型(basal-like)和Her-2过表达型(Her-2amplified)中高表达,而在管腔上皮A型(Luminal A)和管腔上皮B型(Luminal B)亚型中表达量较低,有显著统计学差异。在专利CN111424090A中涉及SGCE基因作为三阴性乳腺的标志物的应用,结果证实SGCE在三阴性乳腺癌组织或细胞中高表达,且生存分析表明SGCE基因的表达与三阴性乳腺癌的预后密切相关,说明SGCE基因可作为三阴性乳腺癌诊断或预后评估的标志物。
近年来,研究发现在乳腺癌的所有分型中,Luminal B型所占比例较高,约占40%,该类型乳腺癌临床病理特征复杂,具有肿块较大、淋巴结转移率高、组织学分化低、内分泌治疗不敏感等特点,其预后较Luminal A型差。由于Luminal B型乳腺癌本身的异质性,导致患者预后存在较大差异,部分患者的预后甚至与HER-2阳性以及三阴型相似,因此LuminalB型乳腺癌在诊断和治疗方面更复杂。2011年第12届St.Gallen专家共识强调:对于LuminalB型中Ki-67高表达的患者可以考虑内分泌治疗联合化疗,是否联合化疗及化疗方案选择取决于激素受体表达水平、高危因素及患者一般状况。对于Luminal B型中HER-2阳性患者强烈推荐全身化疗、内分泌治疗及曲妥珠单抗的靶向治疗。Luminal B型乳腺癌HER-2高表达、Ki-67高表达、内分泌治疗不敏感等均是造成其生存率及预后较Luminal A型乳腺癌偏低的原因。Blows等的协作组分析了12个研究共10159名乳腺癌患者在诊断前5年里Luminal B型预后较差。综上所述,Luminal B型乳腺癌临床特征复杂,治疗效果不佳,迫切需要使用生物标志物来细化Luminal B型乳腺癌的分子分型进而找到新的治疗方案,实现该类型乳腺癌的精准治疗,从而改善其预后及提高疗效预测。
有创的肿瘤基因表达谱(Gene Expression Profiling,GEP)检测从生物信息学角度提供了一种寻找肿瘤相关基因及其表达特征的手段。GEP数据中记录了组织细胞中所有可测基因的表达水平,但实际上只有少数基因才真正同样本类别相关,它们包含了样本分类的信息。因此筛选出关键基因是肿瘤GEP分析的核心内容。而如何在高维的GEP数据中有效筛选出关键的基因,一直是肿瘤GEP分析中的难点所在。因此本发明基于乳腺癌GEP数据,利用多种数据分析方法提出了一种Luminal B型乳腺癌的诊断标志基因筛查方法和Luminal B型乳腺癌诊断标志基因。
发明内容
为填补临床上缺少Luminal B型乳腺癌亚型筛查和诊断方法的空白,同时提高不同Luminal B型亚型乳腺癌的预后评估,本发明提供了一种Luminal B型乳腺癌亚型诊断标志基因筛查方法和乳腺癌诊断标志基因。
第一方面,本发明提供一种Luminal B型乳腺癌亚型诊断标志基因筛查方法,所述方法操作步骤如下:
S01从TCGA数据库等获得乳腺癌mRNA、miRNA和lncRNA的HTSeq数据;
S02将样本在乳腺癌基因上的表达数据预处理;其中利用sva包检验并移除测序数据中的批次效应的影响和对基因表达数据进行缺失值和异常值检测和处理。
S02识别乳腺癌癌症样本和正常基因的差异:采用DESeq2包对乳腺癌样本和正常样本的基因表达矩阵进行差异分析,得到差异基因;
S03对得到的差异基因进行PCA分析,产生两个亚型ClusterA和ClusterB;
S04通过样本的表达数据确定了这两个亚型之间的差异基因,依据Luminal B型乳腺癌样本两个亚型之间基因表达的差异条件筛选出Luminal B型乳腺癌样本。
S05利用机器学习算法对Luminal B型乳腺癌进行分型。利用主成分分析(principal components analysis,PCA)获得Luminal B型乳腺癌的最佳聚类簇数;再利用ConsensusClusterPlus函数Luminal B型乳腺癌样本的基因表达矩阵进行了聚类分析,根据聚类k=2,3,4,5时的矩阵热图、一致性累积分布函数图以及Delta Area Plot图进一步确定聚类簇数。
S06筛选出Luminal B型乳腺癌新亚型的标志基因:利用DESeq2对Luminal B型乳腺癌各个新亚型的基因表达矩阵进行差异分析筛选新亚型之间的具有显著差异的基因;
S07通过Lasso回归分析、随机森林以及Cox分析算法进一步筛选出Luminal B型乳腺癌新亚型之间的差异基因,所述特征基因包括以下基因及2种或2种以上的组合:FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A。
进一步的,所述乳腺癌癌症样本和正常基因的差异,其差异基因的筛选条件为padj<0.05,|log2FoldChange|>1。
进一步的,所述Luminal B型乳腺癌样本两个亚型之间基因筛选的差异条件包括:ER阳性,PR阴性或低表达、HER2阴性,ki-67不低于14%的患者和ER阳性,HER2阳性,PR和ki-67指标不限的患者。
进一步的,所述Luminal B型乳腺癌新亚型的标志基因差异基因的筛选条件是padj<0.05,|log2FoldChange|>1。
第二方面,本发明提供用于Luminal B型乳腺癌诊断的标志基因,所述标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的一种或2种以上的基因组合。
第三方面,本发明提供一种制备诊断Luminal B型乳腺癌试剂中的用途。
进一步的,所述用途包括评估患Luminal B型乳腺癌的风险和对Luminal B型乳腺癌患者的预后评估。
进一步的,所述预后评估为乳腺癌患者经过内分泌治疗和/或化疗治疗后的效果评估。
进一步的,所述用途优选检测Luminal B型乳腺癌标志基因、mRNA、cDNA或蛋白的试剂在诊断Luminal B型乳腺癌试剂盒中的应用。
进一步的,所述Luminal B型乳腺癌标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。
进一步的,所述mRNA、cDNA或蛋白来自Luminal B型乳腺癌标志基因,如FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。
进一步的,所述试剂盒进一步包括检测Luminal B型乳腺癌标志基因的mRNA、cDNA或蛋白的试剂、说明书等。
第四方面,本发明提供一种诊断Luminal B型乳腺癌的试剂盒,所述试剂盒包括具有检测Luminal B型乳腺癌标志性基因的mRNA、cDNA或蛋白的试剂、说明书等。
进一步的,所述Luminal B型乳腺癌标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。
进一步的,所述mRNA、cDNA或蛋白来自Luminal B型乳腺癌标志基因,如FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。
进一步的,当试剂盒中检测到样本含有Luminal B型乳腺癌标志性基因的mRNA、cDNA或蛋白时,说明患Luminal B型乳腺癌的风险较高或者Luminal B型乳腺癌患者的预后较差。
进一步的,所述Luminal B型乳腺癌患者的预后差是指乳腺癌患者经过内分泌治疗和/或化疗治疗后,癌细胞生长没有得到控制。
附图说明
图1.Luminal B的蛋白质组学可视化。
(A)研究概况显示了本队列中入选的Luminal B患者的临床特征(n=187)以及具有全基因组测序、DNA甲基化数据、包括lncRNAs、miRNAs和mRNAs的RNA-seq和反相蛋白阵列(RPPA)数据的样本数量。所有数据的丰度都经过批次效应的校正,并在下游分析前对缺失值进行了估算。(B)以对数中值强度衡量的mRNA定量分布,按其检测到的样品数量进行计算。上面的柱状图显示了在不同数量的样品中量化的mRNAs的总计数,并将癌症相关的或生物学上重要的基因的名字被标记出来。(C)使用前1000个基因对187个样本(k=2)进行无监督层次聚类并将每个病人的临床协变量显示在热图中。此外热图中包括在Cluster A和Cluster B之间具有差异的mRNA(n=537)、miRNA(n=9)或lncRNA(n=153),蛋白质表达值(n=19)和DNA甲基化值(n=26284)并将癌症相关基因的名称在右边标注。根据*<0.05,**<0.01,***<0.001对Fisher's精确检验的结果进行标注.(D)Cluster A和Cluster B之间ER、PR和HER2表达状态的不同亚型,卡方检验P=0.121。(E)Cluster A和Cluster B之间Ki-67mRNA表达的四个量级,卡方检验P=0.123。(F)通过小提琴图显示A组和B组之间Ki-67mRNA的表达情况,t test p-value=0.510。(G)两种Luminal B亚型之间患者总生存期的差异(log rank p-value)。
图2.两个亚型中确定了差异基因。
(A)PCA(主成分分析)图显示了1,170个样本中所有mRNAs的表达的37个批次。(B)从19,665个基因中发现了4248个在normal(n=98)和tumor(n=1,072)样本之间具有差异的基因。(C)散点图显示了基于log表达的平均值和标准差的前1000个基因。(D)PCA图显示了187名Luminal B患者在前1000个基因上的两个聚类。(E)Volcano图显示了Cluster A(n=100)和Cluster B(n=87)之间的537个差异基因,显著上调的基因在Cluster A(红色)有320个,在Cluster B(蓝色)有217个。(F)火山图显示了Cluster A(n=98)和Cluster B(n=83)之间在155个miRNAs上的9个差异miRNAs,显著上调的基因在Cluster A(红色)中有6个,在Cluster B(蓝色)中有3个。(G)Volcano图显示了Cluster A(n=100)和Cluster B(n=87)之间1,521个lncRNAs的153个差异lncRNAs,显著上调的基因在Cluster A(红色)有46个,在Cluster B(蓝色)有107个。
图3.与分类相关的基因的鉴定。
(A)随着LASSO算法中lambda的改变,在Luminal B中观察到每个预后相关候选基因的系数轨迹,并将37个中心基因被标在右边。(B)通过随机森林(RF)识别出前19个重要基因,并使用平均下降精度和基尼指数计算每个变量的重要性得分。(C)对RNA-seq分析的20个不同表达的基因在Cluster A和Cluster B之间进行无监督层次聚类,通过基因|foldchange|≥2和(FDR)q≤0.05来筛选差异基因。
图4.在另外两个独立的Luminal B数据集中验证了两亚型的分类方法。
(A)研究概况显示了另外两个独立队列中Luminal B患者的临床特征。METABRIC/Nature 2012(n=263)和GSE96058(n=656)。(B)基于RNA-seq数据,对METABRIC/Nature2012和GSE96058的相同特征(20个差异基因)进行无监督层次聚类。(C)顶部散点图显示了METABRIC/Nature 2012数据集中Cluster A和Cluster B之间每个样本的Ki-67mRNA表达。饼状图表示两个亚型之间Ki67表达值的数量分布,并通过fisher test计算P值,底部条形图显示了GSE96058中Luminal B患者Ki-67的免疫组化状态,并通过fisher test计算Ki67高组和低组之间的P值。(D)两个测试组中两个亚型的Kaplan-Meier生存分析。
图5.两个亚型患者的体细胞突变和染色体情况。
(A)两个亚型患者的体细胞基因组改变。底部面板显示按患者(列)和按基因(行)分列的体细胞突变和基因水平拷贝数的改变,中间的轨道显示了两个聚类,上面的直方图显示了每个样本中36个列出的基因上累积的改变数量,右边的柱状图表示两个亚型之间的改变率。Pvalue通过Fisher精确检验计算,并根据*<0.05,**<0.01,***<0.001进行标记。(B)TP53、PIK3CA、GATA3和ERBB2的体细胞突变在两个亚型之间的位置。(C)Luminal B两个亚型的拷贝数图谱,红色为增益,蓝色为损失。Cluster A和Cluster B之间拷贝数改变频率不同的区域用浅橙色矩形阴影显示,其中标有癌症生物学内重要基因的名称。(D)ClusterA和B之间的拷贝数增加(红色)和损失(蓝色)。小提琴中的方框图(黑色)代表四分位数范围(IQR)和肿瘤负担中值,琴形图中的点描述的是每个亚型的样本。
图6.Cluster A和Cluster B之间的DNA甲基化分析。
箱形图显示了Cluster A(n=65)和Cluster B(n=64)在26284个甲基化位点上的不同甲基化值,琴形图中的点描述了每个亚型的样本。(B)对128个两个亚型样本在85个关键基因上的数据进行无监督聚类并将与癌症相关的差异基因标在右边。(C)模型描述了COL1A1、FN1、YAP1、EGFR、SOX11、GATA3、CCND1、CCDC24和ESR1基因在两个亚型的染色质上的甲基化位点变化。(D)小提琴图显示了Cluster A(红色)和Cluster B(蓝色)之间9个基因的不同甲基化值。琴形图中的方框图(黑色)代表四分位数范围(IQR)和甲基化中值。琴形图中的点描述的是每个亚型的样本。
图7.富集的癌症相关通路、免疫图谱和Luminal B患者中两个集群之间的通路的特异性分子。(A)路径富集分析确定了由MSigDB数据库中的癌症标志和KEGG富集在ClusterA和B中的前10条生物通路。选定的通路按其生物学功能进行着色,其中q-value的阈值设置为0.05。(B)由MCP-counter推断出的两个亚型之间的成纤维细胞、内皮细胞、细胞毒性淋巴细胞和骨髓树突细胞的绝对丰度。(C)通过CIBERSORT方法推断出的两个亚型之间的巨噬细胞M1的相对比例。(D)在两个集群之间显示了39个具有已知功能的表达基因的热图,并在顶部轨道上标出了肿瘤特异性标志物(如YAP1、FN1、EGFR、GATA3、ERBB2和ESR1)用于样本分类,子组分类和基因名称在左边被注释,相应的轨道颜色按功能类别编码,右侧直方图显示每个列出的基因在检测到基因表达的样本(n=187)的比例(Y轴在顶部),红点表示每个基因在187个样本中的平均表达量(Y轴在底部,经Log2转换)。(E)在两个集群之间显示了19个具有已知功能的蛋白质的热图,并在在顶部轨道上标注出了肿瘤特异性标志物(如YAP1、FN1、MAPK1/3、MAP2K1/2和ESR1)用于样本分类,子组分类和蛋白质名称在左边被注释,相应的轨道按功能类别用颜色编码,右侧直方图显示每个列出的蛋白质,检测到蛋白质表达的样本(n=160)的比例(Y轴在顶部)。红点表示160个样本中每个蛋白质的平均表达量(y轴在底部,经Log2转换)。(F)蛋白质和mRNA表达之间的相关性分析。利用spearman'scorrelation进行分析并标注了相关系数(r)和p值。(G)具有一致的mRNA和蛋白表达的基因特征。并根据mRNA和蛋白表达的整体分布,分别将其分为4个亚组(Q1-4)。冲积图显示了每组基因的蛋白质和mRNA表达的相关性,此外,将两个平台上表达量一致的基因(n=20)或低的基因(n=14)突出显示出来(黄色条),并将与癌症相关的基因标记出来,用于后续分析。(H)对mRNA和蛋白表达不一致的基因进行定性。这些基因根据其mRNA和蛋白表达的整体分布,分别被分为4个亚组(Q1-4)。冲积图显示了每组基因的蛋白质和mRNA表达的相关性,高表达不一致的基因被突出显示(黄色条),与癌症相关的基因被标记为后续分析。
图8.A群和B群之间富集的癌症相关通路与重要基因。(A-B)通路富集分析确定了由MSigDB数据库中的癌症标志和KEGG集于Cluster A和B的生物通路,并对选定的通路按其生物功能进行了着色,其中q值阈值为0.05(5% FDR)。(C)维恩图显示了来自人类蛋白质图谱(HPA)的正常乳腺组织中的蛋白质作为对照来选择肿瘤特异性蛋白质。(D)维恩图显示两个集群之间的差异基因和差异蛋白。
图9.与TP53、PIK3CA、ERBB2和GATA3的异常表达相关的不同表达特征和信号通路。
(A)热图显示TP53、PIK3CA、ERBB2和GATA3在高组和低组之间表达不同的mRNAs,并将重要的与癌症相关基因被列在左边。这四个基因的中位表达值(187个样本)被用来定义high(>中位)和low(≤中位)。其他轨道包括由WES鉴定的每个基因的体细胞突变,基于mRNA的亚组分类与上述相同。上图中的弧线表示所有样本中每个特定基因的mRNA和蛋白表达水平。(B)TP53、PIK3CA、ERBB2和GATA3在高组和低组之间表达的信号通路。
图10.与Luminal B患者亚型相关的竞争性内源性RNA(ceRNAs)。
(A-C)基于平均表达值的(A)lncRNAs和miRNAs之间的相关性,(B)lncRNAs和mRNAs之间的相关性,(C)miRNAs和mRNAs之间的相关性。节点大小与基因间相关系数的意义有关。(D)在每个亚型中选择富集明显较高的通路。富集的通路用颜色表示。(E)ceRNAs网络显示了Cluster A和Cluster B之间不同的激活通路特征,共有12个lncRNAs,8个miRNAs和574个mRNAs(42/574个基因在蛋白质表达的两个亚型之间有意义)被纳入网络,边缘代表了基因之间的相互关联性,节点的大小和颜色反映了不同的RNA类型(浅紫色:lncRNA;浅粉色:miRNA;浅黄色:靶向mRNA;浅绿色:Cluster A和B之间的显著mRNA;浅灰色:mRNA)。显示了不同激活的ceRNAs的最大的相互连接的调控子网络,网络中心显示了与癌症有关的或生物功能的途径,富集的途径用不同的颜色标示(浅蓝色。细胞周期和细胞凋亡;黑色:致癌信号;粉红色:癌症免疫途径)。
具体实施方式
实施例1基于mRNA数据的样本分类和验证
1.1从TCGA数据库内获得1170例样本在19641个基因上的表达数据,为避免批次效应导致的生物学差异,利用sva包检验并移除测序数据中的批次效应的影响;为避免缺失值和异常值对实验结果造成影响,对基因表达数据进行缺失值和异常值检测和处理,得到1170例样本在16875个基因上的表达数据。
1.2利用DESeq2包在normal(n=98)和tumor(n=1072)之间进行差异分析,并从4248个差异基因中选出前1000个基因。以评估样本的分布情况,利用主成分分析方法对以上1000个基因表达数据进行了评估分析,并利用层次聚类算法探索得到了最佳的两个集群(ClusterA和ClusterB)。
实施例2识别差异基因和富集的信号通路
2.1从TCGA数据集下载了mRNA、miRNA和lncRNA的HTSeq原始数据;
2.2利用DESeq2方法对以上数据进行处理,以确定A组和B组之间的差异基因;为得到更多的差异基因,将差异基因的筛选条件定义为padj<0.05,|log2FoldChange|>2,并根据所有基因的DESeq2分析结果中的FDR q-value得到一个基因排序列表;
2.3利用基因集富集分析方法(GSEA)对来自MSigDB数据库的基因集进行处理,并根据FDR q-value≤0.05筛选出明显富集的信号通路。
实施例3突变特征分析
3.1为分析样本的突变特征,从cBioPortal for Cancer Genomics(https://www.cbioportal.org/)数据库内下载了样本的体细胞突变数据。然后利用Oncoprint图显示了突变特征的概况,并在ClusterA和ClusterB之间进行比较。
3.2使用了DNA突变分析所用的瀑布图和棒棒糖图,将突变的氨基酸确定为各种癌症类型的肿瘤样本的复发性热点。
实施例4DNA拷贝数分析
为对ClusterA和ClusterB样本之间的DNA拷贝数进行分析,从TCGA(https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)内下载了DNA拷贝数文件,然后将其加载到IGV内进行可视化。并利“CNTools”(v1.24.0)R软件包来识别基因水平的拷贝数增加(log2 copy ratios>0.3)或损失(log2 copy ratios<-0.3),其中每个样本的拷贝数增加或损失的基因总数由拷贝数增加或损失的负担来定义,基因组变化的部分被确定为有拷贝数增加或损失的基因组与有拷贝数分析的基因组的总长度的比例。
实施例5DNA甲基化分析
为对ClusterA和ClusterB样本之间的DNA甲基化数据进行分析,从TCGA(https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)数据库内下载129名Luminal B患者的DNA甲基化原始数据。然后利用“ChAMP(The ChipAnalysis Methylation Pipeline)”R软件包对ClusterA(n=65)和ClusterB(n=64)样本在485577个DNA甲基化位点上的数据进行分析,发现了26284个具有明显差异的甲基化位点。其中,根据以上分析得到的突变特征,选择了与癌症相关的基因。为了显示染色体上的甲基化位点和这些位点附近的CpG岛,利用R软件包“methyAnalysis”来确定ClusterA和ClusterB之间的重要生物学基因。
实施例6Luminal B样本的细胞组成
采用两种方法来评估Luminal B样本的免疫浸润情况,其中,MCP-counter被应用于生成8种主要免疫细胞类型(中性粒细胞、骨髓树突状细胞、单核细胞系细胞、B淋巴细胞、NK细胞、CD3+T细胞、CD8+T细胞和细胞毒性淋巴细胞)、成纤维细胞和内皮细胞的绝对丰度分数;CIBERSORT算法是为了评估22种免疫细胞类型的相对细胞部分。Luminal B样本的log2-transformed HTSeq矩阵被用作两种算法的输入数据,其中CIBERSORT使用LM22基因签名。此外利用分层聚类方法对两个聚类之间以及HER2和HER2+组之间进行比较。
实施例7反相蛋白阵列(RPPA)数据分析
从The Cancer Proteome Atlas(TCPA,https://www.tcpaportal.org/tcpa/)下载了包括244种蛋白质的RPPA数据(level 4)。正常乳腺组织中的蛋白质表达数据从人类蛋白质图谱(HPA,https://www.proteinatlas.org/)中下载,为选择癌症特定的蛋白质将具有median(n=9677)或high(n=2888)的蛋白质被定义为对照组。通过缺失值和异常值处理得到Luminal B样本在175个蛋白质上的数据,在该数据的基础上利用R软件包“limma”得到在ClusterA(n=84)和ClusterB(n=76)之间的具有表达差异(fold change≥2且FDR q-value<0.05)的19个蛋白。
实施例8lncRNA-miRNA-mRNA竞争性内源性RNA(ceRNA)网络
为构建ceRNA网络,应用差异分析选择了ClusterA和ClusterB之间的候选基因(12个lncRNAs,8个miRNAs,574个mRNAs)。并选择starBase,LncRNA2Traget v2.0,LncTarD andlncRNADisease_v2.0数据库来预测lncRNAs和mRNAs之间的相互作用。利用LncBase_Predicted_v2数据库来探索lncRNAs和miRNAs之间的相互作用。此外,miRbase数据库被用来验证miRNA和mRNA之间的相互作用(score≥80)。最后,通过计算属于每个ceRNA网络的Spearman相关系数来评估ceRNA网络,通过Cytoscape软件3.7.2对包括lncRNAs、靶向miRNAs和靶向mRNAs的最终ceRNA网络进行可视化。
实施例9实验结果分析
9.1Luminal B的多组学分类
为了解Luminal B的生物信息工作流程,从TCGA的1027个乳腺癌样本中收集了187个临床同质性的Luminal B队列,包括正常对照(图1A)。表1-3总结了参加这项研究的样本的临床和病理学特征,其中共有182名患者接受了手术治疗,中位随访生存期为23.92(95%CI:20.24-32.03)月(表1)。对初步诊断和治疗的Luminal B患者进行基于阵列的拷贝数畸变(CNA)分析和全基因组测序以检测基因组改变,RNA测序(RNA-seq)以检测lncRNAs、miRNAs和mRNAs的表达,DNA甲基化以评估表观基因组,反相蛋白阵列(RPPA)以量化蛋白质表达。
表1TCGA和其他2个测试集的临床治疗分析Table 1The clinical treatment ofTCGA and the other 2testing sets
表2TCGA与其他2个测试集之间的相似临床特征
Table 2The similar clinical characteristics between TCGA and theother 2testing sets
Factors | TCGA | Nature2012 | GSE96058 | p_value |
Age | 1.14E-10 | |||
<=60 | 106 | 70 | 217 | |
>60 | 81 | 193 | 439 | |
ER status | 0.0001408 | |||
Negative | 2 | 7 | ||
Positive | 173 | 254 | 655 | |
Na | 12 | 2 | 1 |
表3 1型和2型之间的临床因素分析
表4METABRIC/Nature2012中1型和2型的临床因素分析
表5GSE96058中1型和2型之间的临床因素分析
在所有样本(n=1170)中,检测到mRNA中的16875个基因,为避免批次效应导致的生物学差异,利用sva包检验并移除测序数据中的批次效应的影响(图2A)。然后利用差异分析得到了在normal和tumor之间具有差异的4248个基因(图2B)。在187个样本中共检测并量化了2762个基因(图1B,顶部),包括那些对应于经典的与乳腺癌相关基因,如细胞周期基因CCND1、靶向治疗基因ERBB2、家族遗传基因BRCA1/2和腔细胞转录程序指定基因GATA3。根据丰度的中位数将4248个基因组分为十级(图1B,底部)。正如预期的那样,高丰度的mRNAs在较大一部分病人中被观察到,大多数乳腺癌衍生基因在超过70%的Luminal B样本中被检测到,包括APOB、KRT31/75和ROS1等等。
为了定义Luminal B的分子亚群,首先对Luminal B数据进行了无监督聚类,并整合了这些结果,产生了两组患者(ClusterA和ClusterB,图1C)。对标记的前1000个基因进行PCA分析,产生了两个亚型(ClusterA和ClusterB,图2C-D)。根据每个样本的表达数据确定了这两个亚型之间的差异基因,并整合了层次聚类分析的结果(图1C和图2E-G)。通过进一步检查基于多组学的分类指示肿瘤异质性的临床特征发现CNA≤0.2525的患者在ClusterA中明显多于ClusterB(70%vs.30%,Fisher test p=0.021),但HER2+的患者在ClusterB中明显多于ClusterA(77%vs.23%,Fisher test p<0.001,图1C和表3)。三基因亚型在ClusterA和ClusterB之间没有显著差异(Chi-square test p=0.121,图1D)。为了获得Ki-67的mRNA表达,将数据分为了四个量级(即Q1、Q2、Q3和Q4),根据Ki-67表达的总体分布情况,两个亚组之间没有达到统计学意义(Chi-square test p=0.123,图1E),因此Ki-67的表达在两个亚组之间没有明显差异(t检验p=0.510,图1F);还发现B组患者的生存期有明显缩短的趋势(HR=2.132,95%CI:1.014-4.484;Renyi检验p=0.013,图1G)。B组的5年OS率为57%(95%CI:41%-78%),明显低于A组的90%(95%CI:80%-100%)。所有以上结果表明,对187例Luminal B所确定的两种分型具有不同的多组学和临床特征。
9.2 20个基因可将Luminal B患者分为两个亚组
新的Luminal B分类,对ClusterA和ClusterB之间的537个重要的差异基因进行了Lasso Cox回归分析,发现有37个基因没有多变量的关联性(图3A),其中,根据随机森林算法的平均下降准确率和平均下降Gini得分,得到了20个重要基因(图3B)。在TCGA数据中,这20个基因可以将Luminal B患者分成两个亚组(ClusterA和ClusterB),并具有明显的预后(图4C)。在以上20个基因中,包括CACNA2D2、CCDC24和RAB3A在内的三个基因在Cluster A中明显上调,而其他17个签名基因在Cluster B中明显上调(p<0.05)。
为了证实这个新的分类,选择了另外两个包括Luminal B的独立数据集(METABRIC/Nature2012,n=263和GSE96058,n=656)来完成这个验证。患者的详细临床和病理特征显示在图4A和表2-5中,与TCGA的数据一致。同时,将Luminal B患者分为两个相似的亚组(Cluster A和B),在每个独立的队列中都有明显的预后差异,且这20个基因在两个验证集群中的分布与TCGA数据集一致(图4B)。对于Ki-67蛋白的表达,Cluster A和B在表达的平均值(U test p=0.130)和四分位数范围(Fisher exact test p=0.946)上没有明显差异,Ki-67基因表达也是如此(Fisher exact test p=0.130,图4C)。根据TCGA的生存分析,METABRIC/Nature2012数据中的Luminal B患者(n=130)的风险(HR=1.551,95%CI:1.014-2.035,Renyi test p=0.001)明显高于Cluster A(n=133),而Cluster B的5年总生存(OS)率49%(95%CI:41%-58%)低于Cluster A的64%(95%CI:56%-73%)(图S3D上方)。GSE96058中基于20个基因签名的花药群分类也产生了类似的结果(图4D下)。该队列的HR(Cluster B与Cluster A)为1.703(95%CI:1.100-2.637)。此外,在GSE96058中,ClusterB的5年OS率为79%(95%CI:73%-86%),与Cluster A的88%(95%CI:84%-92%)相比明显较差(Renyi test p=0.017)。综合来看,20个基因特征可以将Luminal B患者分为两组,并有明显的预后差异。
9.3两个Luminal B集群之间的体细胞突变分析
为了探索体细胞突变情况,进行了WES分析,在187个Luminal B样本中确定了体细胞DNA改变,包括截断、错义、融合、扩增、低拷贝增益、深度缺失和浅度缺失。观察到TP53是Cluster A和Cluster B之间最常改变的基因(25%vs.54%),其次是PIK3CA(22%vs.41%)、NSD3(30%vs.20%)、CDK12(10%vs.18%)、ERBB2(7%vs.18%)和GATA3(27%vs.14%)(图5A和表6)。与Cluster A相比,Cluster B患者在TP53(p=7.845e-05)和PIK3CA(p=0.007)中的错义或截断突变以及ERBB2的扩增(p=0.025)明显增多,但GATA3的截断突变较少(Fisher test p=0.031),这与Cluster B患者的预后明显不佳有潜在关系。还观察到以前报道的乳腺癌中几个基因的复发性突变,包括其他已知的致癌基因、染色质修饰和DNA损伤修复基因的突变,如KMT2C(9%vs.13%)、RB1(4%vs.11%)、APOB(2%vs.8%)、PTEN(6%vs.8%)、BRCA2(9%vs.6%)、ARID1A(7%vs.5%)、CDH1(6%vs.5%)等,尽管在Cluster A和B之间没有达到统计学意义。然后,检查了拷贝数的变化,发现ARID1A和PTEN的缺失主要在Cluster A的患者中观察到,但TP53和MAP2K4在Cluster B中观察到(图5C)。在Cluster B中观察到PIK3CA的低拷贝数增益,但在Cluster A中观察到BRCA1。Cluster A的患者拷贝数增加的负担急剧增加(Wilcoxon test p=0.048,图5D),但两个亚组之间的损失没有明显的改变(Wilcoxon test p=0.420)。而拷贝数变化的负担增加不太可能是由于两个亚组样本之间的肿瘤细胞的差异造成的。总的来说,这些结果表明Cluster A和B之间Luminal B患者的瘤内异质性。
表6聚类A和B之间的突变映射图的突变数据Table 6Mutation data formutation mapper plot between cluster A and B
9.4Luminal B的Cluster A和Cluster B之间的DNA甲基化情况
为了解129名患者在Cluster A(n=65)和B(n=64)之间甲基化的差异,使用ChAMP进行了差异甲基化区域的分布分析,发现Cluster A的患者比Cluster B的患者有明显的高甲基化(Wilcoxon test p=7.60e-04)。在Cluster A中,一些致癌基因(COL1A1、SOX11、FN1和YAP1)有更广泛的DNA低甲基化区域,但在Cluster B中,一些致癌基因(GATA3、CCDC24、CCND1和ESR1)(图6B)有更广泛的DNA高甲基化区域,虽然DNA甲基化在整个CpG位点都比较弱(图6C),但这些结果表明这些基因在某个染色体位置含有明显最高数量的差异。与这些结果一致,Cluster A的患者对这四个致癌基因的表达量明显较低,但对GATA3、CCDC24、CCND1和ESR1基因的表达量较高(Wilcoxon test p<0.0001,图6D)。一般来说,对DNA甲基化和mRNA表达数据的综合分析显示,这8个基因被DNA甲基化沉默了,这与乳腺癌的发展有关,以前也有报道说在其他癌症中被改变。
9.5Luminal B两个亚群之间失调的信号通路和潜在的可药用基因
为了解两个集群之间的生物功能差异,进行了通路富集分析,以确定基因组学数据中失调的分子过程。Cluster A主要由细胞周期和代谢途径组成(图7A和图8B),如E2F目标、G2M检查点、细胞周期和糖酵解途径。通过类似的方法,发现Cluster B主要是致癌和癌症免疫反应信号(图7A和图8A),包括上皮间质转化(EMT),通过NFKB的TNFA信号,细胞因子和细胞因子受体相互作用,和IL6-JAK-STAT3信号。然后,应用MCP-counter来产生8种主要免疫细胞、内皮细胞和成纤维细胞的绝对丰度分数,以及CIBERSORT来评估22种免疫细胞类型的相对细胞分数。在MCP-counter的10种细胞类型中,Cluster B的成纤维细胞、内皮细胞、细胞毒性淋巴细胞和骨髓树突状细胞的丰度分数明显高于Cluster A(Wilcoxon testp<0.007,图7B),以及CIBERSORT产生的巨噬细胞M1的相对细胞分数(Wilcoxon test p<3.831e-04,图7C)。结果表明,肿瘤细胞可能重新规划了TME中的免疫相关反应,以促进Cluster B患者的进展。
通过逐步筛选选择了39个肿瘤特异性、高丰度和显著富集的基因,这些基因被注释为在癌症发展中具有重要功能(图7D),包括PLAC1、BRDT、CABYR、CTNNA2和TEX101、FN1、CDH2、CDH11、PDGFRA。COL3A1和LAMA3,三个检查点分子TNFRSF18、TNFSF4和IDO1,CCND1与细胞周期相关,COX6C和MRPS30出现在氧化磷酸化(OXPHOS),DCN、COL5A1、VCAN、NT5E、TFF3、LCT和CACNA1H用于糖酵解代谢,以及SERPINF1和EPGN用于血管生成。基于肿瘤特异性差异的典型标志物(YAP1、FN1和ESR1)的分析也支持两种分类且预后明显不同。
为了探索两个集群之间的不同表达蛋白,进行了蛋白组的差异分析,在160名Luminal B患者中发现了19个重要的差异蛋白。它们包括参与肿瘤生长的代谢酶(MYOSINIIA、FIBRONECTIN、DJ1和RAB11),对抗雌激素治疗有良好反应的配体依赖性核受体ERALPHA,通过促进肿瘤细胞生长与乳腺癌预后不良相关的转录调节因子YAP_pS127,一些调节癌症特征的激酶(MAPK_pT202Y204、MEK1_pS217S221、AKT_pS473、SRC_pY416、ARAF_pS299、BAP1C4和P27),如肿瘤的生长、生存和肿瘤细胞的侵袭性。与上述结果一致,肿瘤特异性DEP(YAP1、FN1和ESR1)在两个集群之间具有类似的差异表达。
为了评估mRNA和蛋白质数据之间的互补价值,在219个mRNA和蛋白质数据中进行了相关分析,发现有适度的相关性(Spearman r=0.039,p=0.002;图7F)。然后根据这些mRNA和蛋白质数据的总体分布情况,将其分为四个量级(即Q1、Q2、Q3和Q4)。在Q4的持续高表达基因中(n=20),发现FN1和RAB11是参与EMT途径的酶,CCND1与细胞周期途径相关,ESR1是促进各种癌症生长的雌激素受体。然而,在Q1中持续低表达的基因中(n=14),发现CCNE1以细胞周期相关过程为主(图7G)。RNA和蛋白表达不一致的基因包括潜在的有趣的治疗目标,特别是免疫相关蛋白PDL1,肿瘤基因包括AKT1、CDH1、YAP1和PIK3CA(图7H)。综合结果提供了补充信息,使人们对Luminal B的Cluster A和Cluster B之间失调的分子过程有了更好的了解。
9.6与TP53、PIK3CA、ERBB2和GATA3的体细胞突变相关的基因组分析
为了研究TP53、PIK3CA、ERBB2和GATA3经常发生体细胞突变的患者的基因组特征,对基因组数据进行了关联和通路富集的分析,以筛选TP53、PIK3CA、ERBB2和GATA3体细胞改变的样本中,按这四个典型标志物的中位值分为两组,其中三个是可药用的(图9A)。有趣的是,高分组和低分组之间具有生物学意义的二基因包括临床试验中的六个可药用基因MUC1、SOX2、ROS1、TTK、ERBB2和EGFR,两个癌症睾丸抗原PLAC1和CTNNA2,以及其他癌症相关基因如CCND1、YAP1、CDK1、CCDC24、FN1和BCL6。路径富集分析发现TP53、ERBB2和GATA3高的亚组中细胞周期和代谢信号通路上调,但ERBB2和GATA3低的亚组中EMT和免疫反应通路上调,TP53低的亚组中主要是代谢重编程(图9B)。与这些结果相反,致癌途径在PIK3CA高组中占主导地位,但在PIK3CA低组中则是细胞周期和DNA修复信号。这些结果表明,潜在的可药用目标与不同的突变谱有关。
9.7识别与Luminal B分类相关的新型lncRNA-miRNA-mRNA竞争性内源性RNA网络
为了探索差异表达的lncRNAs,对17948个lncRNAs进行了差异分析,在乳腺癌和正常对照之间确定了1521个具有差异的lncRNAs。然后根据上述结果,在Cluster A和ClusterB之间筛选出12个重要的差异lncRNAs。同样,得到了9个miRNAs和20个mRNAs(Spearman|r|≥0.3,q value<0.01;图10A-B)。而在9个重要的miRNA中,有6个被miRbase预测为ClusterA和Cluster B之间的16个重要mRNA的靶标(Spearman|r|≥0.3,q value<0.01;图10C)。进一步进行了路径富集分析,以探索由114个与两个亚群之间的显著差异lncRNAs强相关的mRNAs的失调分子过程。与上述结果一致,Cluster A主要由细胞周期和DNA修复信号组成,但Cluster B则是EMT和免疫反应途径(图10D)。最终,根据差异分析的结果构建了lncRNA-miRNA-mRNA竞争性内源RNA(ceRNA)网络,包括12个lncRNAs、8个miRNA和594个mRNA(图10E)。此外,预测共有532个表达量明显不同的mRNAs被这8个miRNAs靶向,而这12个lncRNAs的44个靶向mRNAs在两个亚组之间具有差异。通过将共表达网络解析为不同的基于枢纽的子网络,观察到8个以lncRNA/miRNA为中心的子网络具有信号通路的富集性,这也揭示了由细胞周期、EMT和免疫反应组成的主要通路。总的来说,结果表明,ceRNA网络中的每个成分都在LBBC患者的两个集群的预后有明显的关系。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (10)
1.一种Luminal B型乳腺癌亚型诊断标志基因筛查方法,所述方法操作步骤如下:S01从TCGA数据库等获得乳腺癌mRNA、miRNA和lncRNA的HTSeq数据;
S02将样本在乳腺癌基因上的表达数据预处理;其中利用sva包检验并移除测序数据中的批次效应的影响和对基因表达数据进行缺失值和异常值检测和处理。
S02识别乳腺癌癌症样本和正常基因的差异:采用DESeq2包对乳腺癌样本和正常样本的基因表达矩阵进行差异分析,得到差异基因;
S03对得到的差异基因进行PCA分析,产生两个亚型ClusterA和ClusterB;
S04通过样本的表达数据确定了这两个亚型之间的差异基因,依据Luminal B型乳腺癌样本两个亚型之间基因表达的差异条件筛选出Luminal B型乳腺癌样本。
S05利用机器学习算法对Luminal B型乳腺癌进行分型。利用主成分分析(principalcomponents analysis,PCA)获得Luminal B型乳腺癌的最佳聚类簇数;再利用ConsensusClusterPlus函数Luminal B型乳腺癌样本的基因表达矩阵进行了聚类分析,根据聚类k=2,3,4,5时的矩阵热图、一致性累积分布函数图以及Delta Area Plot图进一步确定聚类簇数。
S06筛选出Luminal B型乳腺癌新亚型的标志基因:利用DESeq2对Luminal B型乳腺癌各个新亚型的基因表达矩阵进行差异分析筛选新亚型之间的具有显著差异的基因;
S07通过Lasso回归分析、随机森林以及Cox分析算法进一步筛选出Luminal B型乳腺癌新亚型之间的差异基因,所述特征基因包括以下基因及2种或2种以上的组合:FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A。
2.如权利要求1所述一种Luminal B型乳腺癌亚型诊断标志基因筛查方法,其特征在于,所述乳腺癌癌症样本和正常基因的差异,其差异基因的筛选条件为padj<0.05,|log2FoldChange|>1。
3.如权利要求1所述一种Luminal B型乳腺癌亚型诊断标志基因筛查方法,其特征在,所述Luminal B型乳腺癌样本两个亚型之间基因筛选的差异条件包括:ER阳性,PR阴性或低表达、HER2阴性,ki-67不低于14%的患者和ER阳性,HER2阳性,PR和ki-67指标不限的患者。
4.Luminal B型乳腺癌诊断标志基因,所述标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。
5.权利要求4所述标志性基因在制备诊断Luminal B型乳腺癌试剂中的用途。
6.如权利要求5所述的用途,其特征在于所述用途包括检测患Luminal B型乳腺癌的风险和Luminal B型乳腺癌患者的预后评估。
7.如权利要求5所述的用途,其特征在于,所述用途是检测Luminal B型乳腺癌标志基因、mRNA、cDNA或蛋白的试剂在诊断Luminal B型乳腺癌试剂盒中的应用。
8.如权利要求5所述的用途,其特征在于,所述Luminal B型乳腺癌标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。
9.如权利要求5所述的用途,其特征在于,所述mRNA、cDNA或蛋白来自Luminal B型乳腺癌标志基因如FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。
10.一种诊断Luminal B型乳腺癌的试剂盒,所述试剂盒包括具有检测Luminal B型乳腺癌标志性基因、mRNA、cDNA或蛋白的试剂、说明书等,所述Luminal B型乳腺癌标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310058165.3A CN116312785A (zh) | 2023-01-19 | 2023-01-19 | 乳腺癌诊断标志基因及其筛查方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310058165.3A CN116312785A (zh) | 2023-01-19 | 2023-01-19 | 乳腺癌诊断标志基因及其筛查方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116312785A true CN116312785A (zh) | 2023-06-23 |
Family
ID=86826478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310058165.3A Pending CN116312785A (zh) | 2023-01-19 | 2023-01-19 | 乳腺癌诊断标志基因及其筛查方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312785A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117589991A (zh) * | 2024-01-18 | 2024-02-23 | 天津云检医学检验所有限公司 | 一种用于乳腺癌患者her2表达状态鉴定的生物标志物、模型、试剂盒及用途 |
CN117746983A (zh) * | 2023-12-19 | 2024-03-22 | 南昌大学 | 一种老年乳腺癌衰老评分模型的构建方法及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307427A1 (en) * | 2005-04-19 | 2011-12-15 | Steven Linke | Molecular markers predicting response to adjuvant therapy, or disease progression, in breast cancer |
CN107729718A (zh) * | 2017-10-17 | 2018-02-23 | 北京工业大学 | 一种乳腺癌发生相关特征基因筛选方法 |
CN109913554A (zh) * | 2019-04-15 | 2019-06-21 | 德阳市人民医院 | 一种与乳腺癌相关的lncRNA标志物 |
CN111679072A (zh) * | 2020-06-15 | 2020-09-18 | 温州医科大学 | Kdm6b蛋白在乳腺癌预后评估试剂盒、诊断试剂盒中的应用 |
-
2023
- 2023-01-19 CN CN202310058165.3A patent/CN116312785A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307427A1 (en) * | 2005-04-19 | 2011-12-15 | Steven Linke | Molecular markers predicting response to adjuvant therapy, or disease progression, in breast cancer |
CN107729718A (zh) * | 2017-10-17 | 2018-02-23 | 北京工业大学 | 一种乳腺癌发生相关特征基因筛选方法 |
CN109913554A (zh) * | 2019-04-15 | 2019-06-21 | 德阳市人民医院 | 一种与乳腺癌相关的lncRNA标志物 |
CN111679072A (zh) * | 2020-06-15 | 2020-09-18 | 温州医科大学 | Kdm6b蛋白在乳腺癌预后评估试剂盒、诊断试剂盒中的应用 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746983A (zh) * | 2023-12-19 | 2024-03-22 | 南昌大学 | 一种老年乳腺癌衰老评分模型的构建方法及其应用 |
CN117589991A (zh) * | 2024-01-18 | 2024-02-23 | 天津云检医学检验所有限公司 | 一种用于乳腺癌患者her2表达状态鉴定的生物标志物、模型、试剂盒及用途 |
CN117589991B (zh) * | 2024-01-18 | 2024-03-29 | 天津云检医学检验所有限公司 | 一种用于乳腺癌患者her2表达状态鉴定的生物标志物、模型、试剂盒及用途 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | FACER: comprehensive molecular and functional characterization of epigenetic chromatin regulators | |
Pusztai et al. | Molecular classification of breast cancer: limitations and potential | |
Lal et al. | Molecular signatures in breast cancer | |
Liao et al. | The molecular landscape of premenopausal breast cancer | |
Zhou et al. | Relapse-related long non-coding RNA signature to improve prognosis prediction of lung adenocarcinoma | |
Chuang et al. | Network‐based classification of breast cancer metastasis | |
Hofree et al. | Network-based stratification of tumor mutations | |
Kao et al. | Correlation of microarray-based breast cancer molecular subtypes and clinical outcomes: implications for treatment optimization | |
Tran et al. | Inferring causal genomic alterations in breast cancer using gene expression data | |
Milanez-Almeida et al. | Cancer prognosis with shallow tumor RNA sequencing | |
Green et al. | Identification of key clinical phenotypes of breast cancer using a reduced panel of protein biomarkers | |
CN116312785A (zh) | 乳腺癌诊断标志基因及其筛查方法 | |
KR102170726B1 (ko) | 바이오마커의 선별 방법 및 이를 이용한 암의 진단을 위한 정보제공방법 | |
Zhao et al. | Identification of pan-cancer prognostic biomarkers through integration of multi-omics data | |
Liu et al. | Prioritizing cancer-related genes with aberrant methylation based on a weighted protein-protein interaction network | |
Amiri Souri et al. | Cancer Grade Model: a multi-gene machine learning-based risk classification for improving prognosis in breast cancer | |
Kulshrestha et al. | Network analysis reveals potential markers for pediatric adrenocortical carcinoma | |
Voigt et al. | Phenotype in combination with genotype improves outcome prediction in acute myeloid leukemia: a report from Children’s Oncology Group protocol AAML0531 | |
Pan et al. | Prognostic and predictive value of a long non-coding RNA signature in glioma: a lncRNA expression analysis | |
Wang et al. | Identification of prognosis biomarkers for high-grade serous ovarian cancer based on stemness | |
Epsi et al. | pathCHEMO, a generalizable computational framework uncovers molecular pathways of chemoresistance in lung adenocarcinoma | |
Liu et al. | Identification of a seven-gene prognostic signature using the gene expression profile of osteosarcoma | |
Campos-Laborie et al. | DECO: decompose heterogeneous population cohorts for patient stratification and discovery of sample biomarkers using omic data profiling | |
Gormley et al. | Prediction potential of candidate biomarker sets identified and validated on gene expression data from multiple datasets | |
US20150126392A1 (en) | Method, system, and kit for characterizing a cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |