CN116312814A - 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒 - Google Patents
一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒 Download PDFInfo
- Publication number
- CN116312814A CN116312814A CN202111459974.2A CN202111459974A CN116312814A CN 116312814 A CN116312814 A CN 116312814A CN 202111459974 A CN202111459974 A CN 202111459974A CN 116312814 A CN116312814 A CN 116312814A
- Authority
- CN
- China
- Prior art keywords
- lung adenocarcinoma
- center point
- col11a1
- genes
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 title claims abstract description 201
- 201000005249 lung adenocarcinoma Diseases 0.000 title claims abstract description 200
- 238000010276 construction Methods 0.000 title claims abstract description 16
- 230000014509 gene expression Effects 0.000 claims abstract description 146
- 102100033825 Collagen alpha-1(XI) chain Human genes 0.000 claims abstract description 87
- 101000710623 Homo sapiens Collagen alpha-1(XI) chain Proteins 0.000 claims abstract description 87
- 101000633605 Homo sapiens Thrombospondin-2 Proteins 0.000 claims abstract description 77
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 69
- 102100029529 Thrombospondin-2 Human genes 0.000 claims abstract description 69
- 238000004393 prognosis Methods 0.000 claims abstract description 47
- 230000003176 fibrotic effect Effects 0.000 claims abstract description 8
- 239000003112 inhibitor Substances 0.000 claims abstract description 7
- 238000003745 diagnosis Methods 0.000 claims abstract description 6
- 238000010837 poor prognosis Methods 0.000 claims abstract description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 208
- 238000000034 method Methods 0.000 claims description 52
- 102000004169 proteins and genes Human genes 0.000 claims description 51
- 102100033601 Collagen alpha-1(I) chain Human genes 0.000 claims description 42
- 108010029483 alpha 1 Chain Collagen Type I Proteins 0.000 claims description 39
- 239000003153 chemical reaction reagent Substances 0.000 claims description 36
- 101000983077 Homo sapiens Phospholipase A2 Proteins 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 22
- 102100027473 Cartilage oligomeric matrix protein Human genes 0.000 claims description 16
- 101710176668 Cartilage oligomeric matrix protein Proteins 0.000 claims description 16
- 102100026918 Phospholipase A2 Human genes 0.000 claims description 15
- 101150045640 VWF gene Proteins 0.000 claims description 15
- 102100035888 Caveolin-1 Human genes 0.000 claims description 14
- 102100038909 Caveolin-2 Human genes 0.000 claims description 14
- 102100031611 Collagen alpha-1(III) chain Human genes 0.000 claims description 14
- 102100031502 Collagen alpha-2(V) chain Human genes 0.000 claims description 14
- 102100024334 Collagen alpha-6(VI) chain Human genes 0.000 claims description 14
- 101000715467 Homo sapiens Caveolin-1 Proteins 0.000 claims description 14
- 101000740981 Homo sapiens Caveolin-2 Proteins 0.000 claims description 14
- 101000993285 Homo sapiens Collagen alpha-1(III) chain Proteins 0.000 claims description 14
- 101000941594 Homo sapiens Collagen alpha-2(V) chain Proteins 0.000 claims description 14
- 101000909495 Homo sapiens Collagen alpha-6(VI) chain Proteins 0.000 claims description 14
- 101001078151 Homo sapiens Integrin alpha-11 Proteins 0.000 claims description 14
- 101000626163 Homo sapiens Tenascin-X Proteins 0.000 claims description 14
- 101000742599 Homo sapiens Vascular endothelial growth factor D Proteins 0.000 claims description 14
- 102100025320 Integrin alpha-11 Human genes 0.000 claims description 14
- 102100022743 Laminin subunit alpha-4 Human genes 0.000 claims description 14
- 101710168942 Sphingosine-1-phosphate phosphatase 1 Proteins 0.000 claims description 14
- 102100024549 Tenascin-X Human genes 0.000 claims description 14
- 102100038234 Vascular endothelial growth factor D Human genes 0.000 claims description 14
- 108010008094 laminin alpha 3 Proteins 0.000 claims description 14
- 101150101563 COL11A1 gene Proteins 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 101000659879 Homo sapiens Thrombospondin-1 Proteins 0.000 claims description 8
- 102100036034 Thrombospondin-1 Human genes 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000003556 assay Methods 0.000 claims description 4
- 238000012502 risk assessment Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 2
- 102100030684 Sphingosine-1-phosphate phosphatase 1 Human genes 0.000 claims 7
- 208000024312 invasive carcinoma Diseases 0.000 abstract description 53
- 208000009458 Carcinoma in Situ Diseases 0.000 abstract description 20
- 201000004933 in situ carcinoma Diseases 0.000 abstract description 16
- 238000009098 adjuvant therapy Methods 0.000 abstract description 5
- 239000003814 drug Substances 0.000 abstract description 5
- 229940079593 drug Drugs 0.000 abstract description 5
- 230000002980 postoperative effect Effects 0.000 abstract description 5
- 238000013459 approach Methods 0.000 abstract description 2
- 238000011065 in-situ storage Methods 0.000 description 70
- 230000004083 survival effect Effects 0.000 description 26
- 230000037361 pathway Effects 0.000 description 24
- 210000001650 focal adhesion Anatomy 0.000 description 23
- 210000001519 tissue Anatomy 0.000 description 19
- 239000000523 sample Substances 0.000 description 17
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 11
- 201000011510 cancer Diseases 0.000 description 11
- 238000009826 distribution Methods 0.000 description 11
- 201000005202 lung cancer Diseases 0.000 description 11
- 208000020816 lung neoplasm Diseases 0.000 description 11
- 230000035772 mutation Effects 0.000 description 11
- 206010064571 Gene mutation Diseases 0.000 description 10
- 210000004027 cell Anatomy 0.000 description 10
- 238000001764 infiltration Methods 0.000 description 9
- 101150033395 THBS2 gene Proteins 0.000 description 8
- 102100036168 CXXC-type zinc finger protein 1 Human genes 0.000 description 7
- 208000009956 adenocarcinoma Diseases 0.000 description 7
- 230000036438 mutation frequency Effects 0.000 description 7
- 230000001575 pathological effect Effects 0.000 description 7
- 230000008595 infiltration Effects 0.000 description 6
- 210000004072 lung Anatomy 0.000 description 6
- 238000000513 principal component analysis Methods 0.000 description 6
- 101150008656 COL1A1 gene Proteins 0.000 description 5
- 241000976806 Genea <ascomycete fungus> Species 0.000 description 5
- 210000002950 fibroblast Anatomy 0.000 description 5
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 4
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 4
- 230000008827 biological function Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 102100036537 von Willebrand factor Human genes 0.000 description 4
- 102100040807 CUB and sushi domain-containing protein 3 Human genes 0.000 description 3
- 102100032249 Dystonin Human genes 0.000 description 3
- 102100036070 Fibrous sheath CABYR-binding protein Human genes 0.000 description 3
- 101000892045 Homo sapiens CUB and sushi domain-containing protein 3 Proteins 0.000 description 3
- 101001016186 Homo sapiens Dystonin Proteins 0.000 description 3
- 101001021962 Homo sapiens Fibrous sheath CABYR-binding protein Proteins 0.000 description 3
- 101001052076 Homo sapiens Maltase-glucoamylase Proteins 0.000 description 3
- 101000645320 Homo sapiens Titin Proteins 0.000 description 3
- 102100024295 Maltase-glucoamylase Human genes 0.000 description 3
- 101000832669 Rattus norvegicus Probable alcohol sulfotransferase Proteins 0.000 description 3
- 102100026260 Titin Human genes 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010201 enrichment analysis Methods 0.000 description 3
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 3
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000869 mutational effect Effects 0.000 description 3
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 3
- 108091005981 phosphorylated proteins Proteins 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 201000007490 Adenocarcinoma in Situ Diseases 0.000 description 2
- 201000009030 Carcinoma Diseases 0.000 description 2
- 206010061818 Disease progression Diseases 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 2
- 101000805941 Homo sapiens Usherin Proteins 0.000 description 2
- 206010025035 Lung adenocarcinoma stage I Diseases 0.000 description 2
- 102000004912 RYR2 Human genes 0.000 description 2
- 108060007241 RYR2 Proteins 0.000 description 2
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 2
- 102100037930 Usherin Human genes 0.000 description 2
- 230000001464 adherent effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 230000005750 disease progression Effects 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 239000013610 patient sample Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 101150063780 spp1 gene Proteins 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 102100036818 Ankyrin-2 Human genes 0.000 description 1
- 102000004000 Aurora Kinase A Human genes 0.000 description 1
- 108090000461 Aurora Kinase A Proteins 0.000 description 1
- 102100021663 Baculoviral IAP repeat-containing protein 5 Human genes 0.000 description 1
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 1
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 1
- 102100038165 Chromodomain-helicase-DNA-binding protein 8 Human genes 0.000 description 1
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 description 1
- 102100032857 Cyclin-dependent kinase 1 Human genes 0.000 description 1
- 101710106279 Cyclin-dependent kinase 1 Proteins 0.000 description 1
- 102100036329 Cyclin-dependent kinase 3 Human genes 0.000 description 1
- 102100023226 Early growth response protein 1 Human genes 0.000 description 1
- 102100033902 Endothelin-1 Human genes 0.000 description 1
- 102000010834 Extracellular Matrix Proteins Human genes 0.000 description 1
- 108010037362 Extracellular Matrix Proteins Proteins 0.000 description 1
- 206010016654 Fibrosis Diseases 0.000 description 1
- 102100026560 Filamin-C Human genes 0.000 description 1
- 238000000729 Fisher's exact test Methods 0.000 description 1
- 102100033201 G2/mitotic-specific cyclin-B2 Human genes 0.000 description 1
- 102100030708 GTPase KRas Human genes 0.000 description 1
- 101000928344 Homo sapiens Ankyrin-2 Proteins 0.000 description 1
- 101000883545 Homo sapiens Chromodomain-helicase-DNA-binding protein 8 Proteins 0.000 description 1
- 101000945639 Homo sapiens Cyclin-dependent kinase inhibitor 3 Proteins 0.000 description 1
- 101001049697 Homo sapiens Early growth response protein 1 Proteins 0.000 description 1
- 101000925493 Homo sapiens Endothelin-1 Proteins 0.000 description 1
- 101000913557 Homo sapiens Filamin-C Proteins 0.000 description 1
- 101000713023 Homo sapiens G2/mitotic-specific cyclin-B2 Proteins 0.000 description 1
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 1
- 101000984620 Homo sapiens Low-density lipoprotein receptor-related protein 1B Proteins 0.000 description 1
- 101000990902 Homo sapiens Matrix metalloproteinase-9 Proteins 0.000 description 1
- 101000624956 Homo sapiens Nesprin-2 Proteins 0.000 description 1
- 101000861454 Homo sapiens Protein c-Fos Proteins 0.000 description 1
- 101000609959 Homo sapiens Protein piccolo Proteins 0.000 description 1
- 101000742859 Homo sapiens Retinoblastoma-associated protein Proteins 0.000 description 1
- 101000651890 Homo sapiens Slit homolog 2 protein Proteins 0.000 description 1
- 101000651893 Homo sapiens Slit homolog 3 protein Proteins 0.000 description 1
- 101000881267 Homo sapiens Spectrin alpha chain, erythrocytic 1 Proteins 0.000 description 1
- 101000807354 Homo sapiens Ubiquitin-conjugating enzyme E2 C Proteins 0.000 description 1
- 101000804908 Homo sapiens Xin actin-binding repeat-containing protein 2 Proteins 0.000 description 1
- 101150056032 Igsf10 gene Proteins 0.000 description 1
- 102100021033 Immunoglobulin superfamily member 10 Human genes 0.000 description 1
- 102000004889 Interleukin-6 Human genes 0.000 description 1
- 108090001005 Interleukin-6 Proteins 0.000 description 1
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 1
- 208000030514 Leukocyte adhesion deficiency type II Diseases 0.000 description 1
- 102100027121 Low-density lipoprotein receptor-related protein 1B Human genes 0.000 description 1
- 102100030412 Matrix metalloproteinase-9 Human genes 0.000 description 1
- 102100023305 Nesprin-2 Human genes 0.000 description 1
- -1 PCDH X Proteins 0.000 description 1
- 239000012807 PCR reagent Substances 0.000 description 1
- 102100027584 Protein c-Fos Human genes 0.000 description 1
- 102100039154 Protein piccolo Human genes 0.000 description 1
- 238000002123 RNA extraction Methods 0.000 description 1
- 102000004913 RYR1 Human genes 0.000 description 1
- 108060007240 RYR1 Proteins 0.000 description 1
- 102000004914 RYR3 Human genes 0.000 description 1
- 108060007242 RYR3 Proteins 0.000 description 1
- 102100038042 Retinoblastoma-associated protein Human genes 0.000 description 1
- 101150075200 S-2 gene Proteins 0.000 description 1
- 101150027674 S1 gene Proteins 0.000 description 1
- 102100027340 Slit homolog 2 protein Human genes 0.000 description 1
- 102100037608 Spectrin alpha chain, erythrocytic 1 Human genes 0.000 description 1
- 108010002687 Survivin Proteins 0.000 description 1
- 102100033254 Tumor suppressor ARF Human genes 0.000 description 1
- 102100037256 Ubiquitin-conjugating enzyme E2 C Human genes 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 102100036955 Xin actin-binding repeat-containing protein 2 Human genes 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001093 anti-cancer Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000006696 biosynthetic metabolic pathway Effects 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000004709 cell invasion Effects 0.000 description 1
- 230000012292 cell migration Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 230000001086 cytosolic effect Effects 0.000 description 1
- 230000009274 differential gene expression Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 210000002744 extracellular matrix Anatomy 0.000 description 1
- 230000004761 fibrosis Effects 0.000 description 1
- 108091008053 gene clusters Proteins 0.000 description 1
- 230000000762 glandular Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 201000008103 leukocyte adhesion deficiency 3 Diseases 0.000 description 1
- 238000001325 log-rank test Methods 0.000 description 1
- 210000005265 lung cell Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 1
- JMANVNJQNLATNU-UHFFFAOYSA-N oxalonitrile Chemical compound N#CC#N JMANVNJQNLATNU-UHFFFAOYSA-N 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000013777 protein digestion Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 206010041823 squamous cell carcinoma Diseases 0.000 description 1
- 239000003270 steroid hormone Substances 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- 239000000439 tumor marker Substances 0.000 description 1
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57423—Specifically defined cancers of lung
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57484—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- Organic Chemistry (AREA)
- Cell Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Evolutionary Biology (AREA)
- Hospice & Palliative Care (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Oncology (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
Abstract
本发明涉及生物技术领域,具体涉及肺腺癌亚型分子分型模型构建方法、分型设备、装置以及试剂盒。通过测定肺腺癌患者肿瘤组织COL11A1和THBS2等基因表达值,基于PAM算法构建肺腺癌患者进行分子分型模型,根据不同分型的预后特点进行,临床个性化诊疗。本发明的优点:能够将肺腺癌患者分成稳定的两类亚型,S1(预后好)和S2(预后差),S1亚型的分子趋近原位癌/微浸润癌,而S2亚型与原位癌/微浸润癌分子差异明显。S2亚型拥有更活跃的肿瘤纤维化细胞(CAF),可以使用CAF抑制剂进行术后辅助治疗,为临床医生匹配药物和精准选择治疗方案提供了依据。
Description
技术领域
本发明属于生物技术领域,具体涉及肺腺癌分子分型模型的构建方法、设 备、装置以及肺腺癌分子分型的试剂盒和应用。
背景技术
肺癌是世界上发病率和死亡率最高的肿瘤之一。肺腺癌作为肺癌最常见的 组织学亚型之一,其不同病理分期患者预后差异明显。原位癌为肺腺癌的癌前 病变阶段,肿瘤直径小于3cm,未突破基底膜,原位癌进一步发展成为微浸润 癌,其肿瘤直径小于3cm,并突破基底膜且浸润深度不超过5mm。原位癌和微 浸润癌术后几乎可达到治愈。而当肺腺癌发展到浸润期,即使是处于病理学I 期的肺腺癌患者,其5年生存率也出现了明显的下降,约有20%的患者会死亡。
CN105154542A提供了一种用于肺癌分子分型的试剂盒,其利用30个肺癌 标志基因对肺癌患者进行分型,但该方法只能用于区分肺腺癌和肺鳞癌两大类 肺癌亚型。KeweiNi等(Kewei N,et al.,“The identification of key biomarkers in patients withlung adenocarcinoma based on bioinformatics”,Mathematical Biosciences andEngineering,2019)公开了IL6、MMP9、EDN1、FOS、CDK1、 CDH1、BIRC5、VWF、UBE2C、CDKN3、CDKN2A、CD34、AURKA、CCNB2 和EGR1有望成为肺腺癌的治疗靶点,是潜在的肺腺癌分型和预后分析标志物。 WO2021/037134A1提供了一种对肺腺癌分子分型及生存风险评估的基因群以及 检测试剂盒,其利用69个增殖相关基因、73个免疫相关基因以及38个细胞间 质相关基因将肺腺癌患者分为LAD1、LAD2、LAD3、LAD4和LAD5以及混合 型。然而,上述方法均是通过筛选预后相关的基因,或是通过训练的方式构建 模型,将肺腺癌分成高风险组和低风险组,这种方式容易引入过拟合,导致模 型在其他数据集中失去预测效能。且现有技术所使用基因数量较多,临床应用 成本高。
现有技术中并没有提供简便且高效的,针对肺腺癌患者,特别是肺腺癌I 期患者,来判断患者预后和指导诊疗方案的分子分型方法。当前病理分期并不 能很好地指导患者术后辅助治疗和预测患者预后情况,因此急需更加精准的分 型,以区分出患者中有较高风险会复发或死亡的患者,以便有针对性地对高风 险患者术后使用辅助治疗等干预手段以提高其生存率。
发明内容
针对上述问题,本发明提供了一种肺腺癌分子分型模型的构建方法、装置、 终端设备、可读存储介质以及肺腺癌分子分型的试剂及试剂盒和应用,有效解 决现有方法不能对肺腺癌患者进行简便且高效的分子分型、预后预测以及指导 诊疗等技术问题。
为实现上述目的,本发明采用的技术方案为:
一种肺腺癌分子分型模型的构建方法,使控制程序利用PAM(PartitioningAround Medoids)算法对肺腺癌患者进行分子分型,控制软件执行如下操作:
以COL11A1基因的表达值作为X轴、THBS2基因的表达值作为Y轴,任 选的,以COL1A1、COL3A1、COL5A2、COL6A6、CAV1、CAV2、COMP、ITGA11、 LAMA3、SPP1、TNXB、VEGFD和VWF基因中的任意1种或多种的表达值作 为3-15维空间的坐标轴Z轴、T1、T2...T12轴,将n个样本依据上述2-15个基 因的表达值在空间直角坐标系中找到其对应的位置;
2)从上述n个样本中随机选取K个样本,以其在2-15维空间直角坐标系 中的位置作为中心点1和中心点2...中心点K,并基于各中心点的标记,将上述 样本分为K种类型,命名为A1、A2...AK;
(3)测定其余n-K个样本到中心点1、中心点2...以及中心点K的欧氏距 离,比较上述欧式距离的大小,样本离哪个中心点的欧氏距离更小就属于哪一 类分型;
(4)根据分型结果,测定n-K个样本距离所在分型中心点的欧式距离,若 样本被分为S1型,则计算该样本距离中心点1的欧式距离;若样本被分为S2 型,则计算该样本距离中心点2的欧式距离;...若样本被分为SK型,则计算该 样本距离中心点K的欧式距离,计算上述欧式距离之和,并把该数值称为损失值;
(5)选择K种样本以外的样本,并将该样本在2-15维空间直角坐标系中 的位置作为新的中心点替换中心点1、中心点2...或中心点K中的任意一个;
(6)重复步骤(1)-(4),并计算出新的损失值,如果新的损失值与原有 损失值相比增大,那么原有中心点不被替换,如果损失变小,用新中心点替换 原有中心点,则;
(7)循环替换所有样本,直至收敛,即各中心点不再改变,则分型模型构 建完毕。
优选的,步骤(1)中的基因为2个、3个、4个、5个、6个、7个、8个、 9个、10个、11个、12个、13个、14个或15个。
一种肺腺癌分子分型模型的构建方法,使控制程序利用PAM(PartitioningAround Medoids)算法对肺腺癌患者进行分型,控制软件执行如下操作:
(1)以COL11A1基因或COL1A1基因的表达值作为X轴、THBS2基因的表 达值作为Y轴,将n(n>10的自然数)个样本依据上述两个基因的表达值在X-Y 直角坐标系中找到其对应的位置;
(2)从上述n个样本中随机选取K个样本,以其在X-Y直角坐标系中的位置 作为中心点1和中心点2...中心点K,并基于各中心点的标记,将上述样本分为K种类型(K为大于等于2,小于n的自然数),命名为A1、A2...AK;
(3)测定其余n-K个样本到中心点1、中心点2...以及中心点K的欧氏距离, 比较上述欧式距离的大小,样本离哪个中心点的欧氏距离更小就属于哪一类分 型;
(4)根据分型结果,测定n-K个样本距离所在分型中心点的欧式距离,若样本 被分为S1型,则计算该样本距离中心点1的欧式距离;若样本被分为S2型, 则计算该样本距离中心点2的欧式距离;若样本被分为SK型,则计算该样本距 离中心点K的欧式距离,计算上述欧式距离之和,并把该数值称为损失值;
(5)选择K种样本以外的样本,并将该样本在X-Y直角坐标系中的位置作为 新的中心点替换中心点1、中心点2...或中心点K中的任意一个;
(6)重复步骤(1)-(4),并计算出新的损失值,如果新的损失值与原有损失 值相比增大,那么原有中心点不被替换,如果损失变小,用新中心点替换原有 中心点,则;
(7)循环替换所有样本,直至收敛,即各中心点不再改变,则分型模型构建完 毕,其中n为>10的自然数,K为大于等于2,小于n的自然数。
进一步的,K选自2-10的整数,优选的K=2。
一方面,我们提供一种肺腺癌分子分型模型的构建方法,使控制程序利用 PAM(Partitioning Around Medoids)算法对肺腺癌患者进行分子分型,控制软件 执行如下操作:
(1)以COL11A1基因或COL1A1基因的表达值作为X轴、THBS2基因的表 达值作为Y轴,将n(n>10的整数)个样本依据上述两个基因的表达值在X-Y 直角坐标系中找到其对应的位置;
(2)从上述n个样本中随机选取2个样本,以其在X-Y直角坐标系中的位置作 为中心点1和中心点2,并基于各中心点的标记,将上述样本分为A1和A2型;
(3)测定其余n-2个样本到中心点1和中心点2的欧氏距离,比较上述两个欧式 距离的大小,样本离哪个中心点的欧氏距离更小就属于哪一类分型,若样本离 中心点1距离更小,则该样本属于A1型,样本离中心点2距离更小,则该样本 属于A2型;
(4)根据分型结果,测定n-2个样本距离所在分型中心点的欧式距离,并计算 上述欧式距离之和,把该数值称为损失值;
(5)选择步骤(2)样本以外的样本,并将该样本在X-Y直角坐标系中的位置 作为新的中心点3替换中心点1或中心点2;
(6)重复步骤(1)-(4),并计算出新的损失值,如果新的损失值与原有损失 值相比增大,那么原有中心点不被替换,如果损失变小,用中心点3替换中心 点1或2;
(7)循环替换所有样本,直至收敛,即各中心点不再改变,则分型模型构建完 毕。
进一步的还包括如下步骤:基于中心点的数量确定肺腺癌的最终分型数量, 即:当使用M个中心点进行分型时,其中2≤M≤K,在此情况下计算出的损失 值最小,就将n个样本分为M种类型。
一方面,提供一种肺腺癌分子分型装置,其特征在于,包括:基因表达量 测定模块,用于获取肺腺癌患者肿瘤组织COL11A1和THBS2的基因表达量, 或COL1A1和THBS2的基因表达量;分型模块,采用本发明的肺腺癌分子分型 模型方法进行构建;预后分析模块,用于比较肿瘤组织中的COL11A1和THBS2 的基因表达量,或COL1A1和THBS2的基因表达量,其中COL11A1和THBS2 基因表达量,或COL1A1和THBS2的基因表达量的平均值均低的亚型为S1型, 其预后好;其中COL11A1和THBS2基因表达量,或COL1A1和THBS2的基 因表达量的平均值均高的亚型为S2型,其预后差。
一方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中 并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计 算机程序包括实现本发明肺腺癌分子分型模型构建方法的步骤。
进一步上述计算机程序包括执行预后分析步骤,其实现操作:比较不同样 品中的COL11A1和THBS2基因的表达量,或COL1A1和THBS2的基因表达 量,并将COL11A1和THBS2基因表达量,或COL1A1和THBS2的基因表达 量的平均值低的亚型分为S1型,其预后好;其中COL11A1和THBS2基因表达 量,或COL1A1和THBS2的基因表达量的平均值高的亚型分为S2型,其预后 差。
一方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计 算机程序,其特征在于,所述计算机程序被处理器执行时实现本发明分子分型 模型构建方法的步骤。
一方面提供一种肺腺癌的分子分型试剂,其包括检测CAV1,CAV2, COL11A1,COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3, SPP1,THBS2,TNXB,VEGFD或VWF基因或蛋白表达量的试剂。
进一步的,上述试剂至少包括检测COL11A1和THBS2基因或蛋白表达量 的试剂。
进一步的,上述试剂至少包括检测COL1A1和THBS2基因的基因或蛋白表 达量的试剂。进一步的,上述试剂是RNA提取试剂、引物或探针、PCR试剂或 其他进行表达量分析的试剂。
一方面提供一种肺腺癌的分子分型试剂盒,其包括检测CAV1,CAV2,COL11A1,COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3, SPP1,THBS2,TNXB,VEGFD或VWF基因或蛋白表达量的试剂。
所述试剂盒包含检测选自CAV1,CAV2,COL11A1,COL1A1,COL3A1, COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1,THBS2,TNXB,VEGFD 或VWF中至少两种基因,至少包含3种基因,至少包含四种基因,至少包含5 种基因,至少包含6种基因、至少包含7种基因、至少包含8种基因、至少包 含9种基因、至少包含10种基因、至少包含11种基因、至少包含12种基因、 至少包含13种基因、至少包含14种基因或至少包含15种基因,这些基因的基 因或蛋白表达量的试剂。
进一步的,上述试剂盒至少包括检测COL11A1和THBS2基因或蛋白表达 量的试剂。
进一步的,上述试剂盒至少包括检测COL1A1和THBS2基因的基因或蛋白 表达量的试剂。
进一步的,上述试剂盒至少包括检测COL11A1、COL1A1或THBS2基因 的基因或蛋白表达量的试剂。
一方面提供一种肺腺癌的分子分型方法,测定患者肿瘤组织中COL11A1和 THBS2,或COL1A1和THBS2的基因或蛋白的表达量,其中COL11A1和THBS2, 或COL1A1和THBS2的基因或蛋白表达量低于特定阈值的,则患者属于S1型; 其中COL11A1和THBS2,或,或COL1A1和THBS2的基因或蛋白表达量高于 或等于特定阈值的,则患者属于S2型。
进一步的,患者肿瘤组织中COL11A1和THBS2,或COL1A1和THBS2的 基因或蛋白表达量的特定阈值取决于所用的表达量检测试剂和方法。
进一步的,提供一种肺腺癌的分子分型方法,测定患者肿瘤组织中COL11A1 和PLA2G1B基因或蛋白的表达量,比较COL11A1和PLA2G1B基因或蛋白表 达量,若COL11A1基因或蛋白表达量小于PLA2G1B的表达量,则该患者属于 S1型;若COL11A1基因或蛋白表达量大于等于PLA2G1B的表达量,则该患者 属于S2型。
一方面提供一种诊断或测量方法,包括在肺腺癌患者样本中测量COL11A1 和THBS2,或COL1A1和THBS2基因或蛋白表达量。
进一步的,测量基因或蛋白表达量的基因包括:CAV1,CAV2,COL11A1, COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1, THBS2,TNXB,VEGFD或VWF中至少两种基因,至少包含3种基因,至少 包含四种基因,至少包含5种基因,至少包含6种基因、至少包含7种基因、 至少包含8种基因、至少包含9种基因、至少包含10种基因、至少包含11种 基因、至少包含12种基因、至少包含13种基因、至少包含14种基因或至少包 含15种基因。
进一步的,所述诊断或测量方法用于提供预测肺腺癌患者预后状况及/或肺 腺癌患者术后辅助治疗建议。
一方面提供一种预测肺腺癌患者预后的方法,测定患者肿瘤组织中 COL11A1和PLA2G1B基因或蛋白的表达量,比较COL11A1和PLA2G1B基因 或蛋白表达量,若COL11A1基因或蛋白表达量小于PLA2G1B的表达量,则该 肺腺癌患者预后较好;若COL11A1基因或蛋白表达量大于等于PLA2G1B的表 达量,则该肺腺癌患者预后较差。
一方面提供一种肺腺癌的分子分型基因组合物,其包括CAV1,CAV2, COL11A1,COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1,THBS2,TNXB,VEGFD或VWF基因。
所述基因组合物至少包含两种基因,至少包含3种基因,至少包含四种基 因,至少包含5种基因,至少包含6种基因、至少包含7种基因、至少包含8 种基因、至少包含9种基因、至少包含10种基因、至少包含11种基因、至少 包含12种基因、至少包含13种基因、至少包含14种基因或至少包含15种基 因。
另一方面提供一种肺腺癌的预后分析试剂或试剂盒,其包括检测COL11A1 和PLA2G1B基因或蛋白表达量的试剂。
进一步的,提供一种肺腺癌的预后分析试剂或试剂盒,其包括检测THBS2、COL11A1和PLA2G1B基因或蛋白表达量的试剂。
一方面,提供一种肺腺癌的分子分型试剂或试剂盒的用途,所述试剂盒用 于肺腺癌患者的肿瘤分子分型,预后风险评估,或指导临床用药。
进一步的,所述分子分型或评估采用本发明的分子分型设备或装置来完成。
另一方面,提供一种S2型肺腺癌的治疗方法,首先采用本发明的设备或装 置对肿瘤患者进行分型,如果患者属于S2型,则可能可以使用肿瘤相关纤维化 细胞(CAF)抑制剂进行治疗。
进一步的,提供一种诊断和治疗肺腺癌的试剂盒,所述试剂盒包含权利要 求8-10任一项所述分型试剂以及肿瘤相关纤维化细胞(CAF)抑制剂。
本发明所称的肺腺癌,包括根据国际肺癌TNM分期规则确定的I期、II期、 III期和IV期的各期肺腺癌。
进一步的,本发明所称的肺腺癌优选I期肺腺癌。
本发明至少能够带来以下有益效果:
本发明通过分析原位癌到浸润肺腺癌全过程基因组和转录组变化,鉴定出 肺腺癌进展过程中起关键作用的通路和基因,将生物学和临床意义充分结合, 筛选出与肺腺癌进展过程密切相关的基因COL11A1和THBS2,避免采取训练的 方式获取基因集,有效避免引入过拟合,且相较于现有技术中使用多种基因进 行分型和预后的方法,节约了成本。
本发明能够将肺腺癌患者分成稳定的两型,S1(预后好)和S2(预后差), S1分子特点趋近原位癌/微浸润癌,而S2与原位癌/微浸润癌分子特点差异明显。 S2拥有更活跃的肿瘤相关纤维化细胞(CAF),可能可以使用CAF抑制剂进行术 后辅助治疗,为临床医生匹配药物和精准选择治疗方案提供了依据。尤其是, 对于I期肺腺癌患者,以往缺少较为精准有效的预后预测手段,可通过本发明的 分子分型方法指导患者术后用药并判断其预后情况,具有重要的临床价值和意 义。
附图说明
图1:肺腺癌分子亚型鉴定及分子特征分析流程。(A)原位/微浸润癌和浸 润性肺腺癌患者入组。(B)收集组织样本进行全外显子组和转录组测序。原位/ 微浸润癌和浸润性肺腺癌之间的差异表达基因和差异突变基因鉴定。(C)KEGG 富集分析确定差异表达基因和差异突变基因都富集在FA(Focal Adhesion)通路。 (D)保留COL11A1和THBS2构建聚类模型,利用COL11A1和THBS2表达 进行PAM共识聚类,并将肺腺癌分为S1和S2亚型。(E)内部数据(FUSCC) 和外部数据中探讨S1和S2亚型之间在多组学分子特征、肿瘤微环境(TME) 和临床结果方面的广泛差异。
图2:FA通路中的COL11A1和THBS2是浸润肺腺癌偏离原位/微浸润状态 的关键决定因素。(A)基于39476个基因的表达谱对197对肺腺癌样本进行主 成分分析,其中包括24对原位癌、74对微浸润癌和99对浸润肺腺癌。(B)火 山图显示浸润肺腺癌和原位/微浸润癌之间的差异基因表达分布。(C)原位/微浸 润癌和浸润肺腺癌之间的基因突变频率比较。共有25个基因在原位/浸润肺腺癌 之间显示出明显不同的突变频率。(D)维恩图显示差异突变基因和差异表达基 因富集的通路,其中差异突变基因和差异表达基因都在FA通路富集。(E)原位 /微浸润癌和浸润肺腺癌之间15个FA通路上的差异表达基因表达分布。(F)维 恩图显示原位/微浸润癌和浸润肺腺癌之间FA通路上15个差异表达基因和25 个差异突变基因的交集。(G)FA通路上的15个差异表达基因的差异倍数分布, 其中两组比较分别为浸润肺腺癌和原位/微浸润癌(顶部)和原位/微浸润癌和正 常(底部)。(H)维恩图显示从原位/微浸润癌到浸润肺腺癌表达量明显增加, 但原位/微浸润癌和正常之间没有明显差异的基因。(I)箱线图展示COL11A1 和THBS2从正常到IIIa期肺腺癌的表达。(***P<0.001)
图3:原位/微浸润肺腺癌和浸润肺腺癌之间的转录组和基因组学改变。(A) 原位癌和微浸润癌之间基因突变频率分布。(B)原位癌和微浸润癌之间基因表 达分布。(C、D)瀑布图展示了原位/微浸润肺腺癌和浸润肺腺癌之间差异突变 基因的体细胞变异情况。(E)原位/微浸润肺腺癌和浸润肺腺癌之间差异表达基 因的KEGG通路富集情况。(F)原位/微浸润肺腺癌和浸润肺腺癌之间差异突变 基因的KEGG通路富集情况。
图4:I期肺腺癌样本及所有样本进行分子分型。(A)基于COL11A1和 THBS2表达将I期样本进行2到10个亚型划分。(B)通过最大AWS值确定I 期肺腺癌样本最佳亚型数量为2。(C)通过最大AWS值确定所有394个样本中 最佳亚型的数量为2。(D、E)从正常到III期肺腺癌不同病理类型的样本,被 划分为S1和S2亚型的分布情况。
图5:确定肺腺癌的分子亚型及其相关的不同基因组和转录组特征。(A)I 期肺腺癌分为S1和S2亚型。原位/微浸润癌到IIIA肺腺癌中原位/微浸润癌、 S1和S2之间的差异突变基因突变分布。(B)原位/微浸润癌、S1和S2之间差 异突变基因的突变频率。原位/微浸润癌的EGFR和MGAM突变频率比S1和 S2低。TP53、TTN、CSMD3、DST和FSCB的基因突变频率从原位/微浸润癌 到S2明显增加。(C)箱线图显示S2的肿瘤突变负荷高于S1和原位/微浸润癌。(D)箱线图显示S2的APOBEC相关突变高于原位/微浸润癌。(E)基于39476 个基因的表达谱对原位/微浸润癌、S1和S2进行主成分分析。(F)火山图显示 原位/微浸润癌、S1和S2基因表达差异。(G)原位/微浸润癌、S1和S2之间差 异表达基因的富集分数。(H)箱线图显示不同病理阶段的肿瘤纤维化细胞,其 中I期被分为S1和S2。(*P<0.05,**P<0.01,***P<0.001)
图6:S1和S2在转录组学、蛋白质组学和磷酸化蛋白质组学方面的差异。 (A)I期肺腺癌样本中2-10个亚型(聚类)的AWS提示最佳聚类数为2。(B) 将所有样本按照病理分组,其中I期又分为S1和S2亚型。热图展示了S1和S2 之间的差异表达基因、蛋白、磷酸化蛋白表达。(C)火山图展示了S1和S2之 间的差异表达基因、蛋白、磷酸化蛋白分布趋势。(D)箱线图展示了从正常、 S1、S2、IIA、IIB以及III-IV期肿瘤相关纤维化细胞比例,其中S2显著高于S1。 (E)箱线图展示了从正常、S1、S2、IIA、IIB以及III-IV期COL11A1和THBS2 基因表达分布。(F)箱线图展示了从正常、S1、S2、IIA、IIB以及III-IV期COL11A1 和THBS2蛋白表达分布。(*P<0.05,***P<0.001,****P<0.0001)
图7:S1和S2亚型之间的蛋白基因组学关系。(A)I期肺腺癌分为S1和S2 亚型。I到IV期肺腺癌中S1和S2之间的差异突变基因突变分布。(B)S2的基 因突变频率显著高于S1。(C)S1和S2之间拷贝数变异扩增峰。(D)热图显示差 异表达基因、蛋白以及同时富集与差异表达基因和差异表达蛋白的五条通路。(E) 散点图显示了COL11A1和THBS2的RNA和蛋白表达之间的相关性。(F)在Xu 等人的数据集中,基于COL11A1和THBS2蛋白表达将I期肺腺癌分为S1和 S2亚型,其中S1的无复发生存显著好于S2。
图8:11个已发表的数据集中确定最佳的亚型数量。Y轴展示了亚型数量 为2-10的AWS值,其中11个已发表的数据集最佳亚型的数量都为2。
图9:12个队列1368个I期肺腺癌患者中S1和S2亚型的生存分析。I期 和Ia期中S1亚型患者最终生存和无复发生存都显著优于S2亚型患者。
图10:由15个FA通路差异表达基因组成的FA15模型对I期肺腺癌患者 进行分型。(A)基于15个FA基因表达,用PAM聚类的方法将I期肺腺癌患者 分为了2-10种亚型。(B)I期肺腺癌可以分为S1和S2。瀑布图展示了差异突 变基因在原位/微浸润性肺腺癌、S1和S2之间的基因突变分布。热图展示了FA 通路中S1和S2之间15个差异表达基因的基因表达情况。(C)主成分分析图 (PCA),基于15个FA的基因表达,分出的S1和S2亚型。(D)S2的肿瘤突 变负荷(TMB)显著高于S1和原位/微浸润肺腺癌。(E)S2的APOBEC相关突 变显著高于S1和原位/微浸润肺腺癌。(*P<0.05,**P<0.01,****P<0.0001)
图11:基于FA15模型将12个数据集中1368个I期肺腺癌患者分出S1和 S2亚型,然后对S1和S2进行生存分析。I期和Ia期患者S1亚型最终生存和无 复发生存都显著优于S2亚型。
图12:区分S1和S2亚型基因对COL11A1-PLA2G1B。(A)从正常肺组织 到IIIa期肺腺癌COL11A1和PLA2G1B表达秩序关系。(B)从正常肺组织到IIIa 期肺腺癌,S1(COL11A1<PLA2G1B)和S2(COL11A1≥PLA2G1B)患者比例分布, 从正常肺组织到IIIa期肺腺癌S2亚型比例逐步升高。(C)在I期和Ia期肺腺癌 患者中,从最终生存和无复发生存比较,S1亚型患者预后显著好于S2亚型患者。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,以下实施例对本发 明的作进一步详细描述,以下实施例仅用于说明发明,但不用来限制本发明的 范围。
本发明所称的“分子分型”,是指通过检测肿瘤中分子标志物的表达或突变 情况,来对在传统病理组织分类方法下归为某一相同类型的肿瘤进行新的亚型 分类和/或区别划分的方法,以提供判断患者预后和指导诊疗的个性化精准医学 诊疗方案。这里说的“分型”特指区分出新的肿瘤类型,而不是对已知肿瘤类 型、分期、级别等现有划分标准提供新的分子检测手段。
本发明所说的肺腺癌分期标准依据的目前临床使用的国际抗癌联盟(Union forInternational Cancer Control,UICC)于2009年1月颁布的肺癌TNM分期第 七版,根据肿瘤TNM评分系统,将肺癌分为隐匿期、0期、Ia期、Ib期、IIa 期、IIb期、IIIa期、IIIb期和IV期。本发明中所说的I期肺腺癌包括Ia期肺腺 癌和Ib期肺腺癌。
依据非小细胞肺癌的NCCN指南(2021年3月3日,第4版),本发明中 所提及的几种已知的肺腺癌类型的定义如下。
原位肺腺癌(adenocarcinoma in situ,AIS),一种局限性小结节(≤3厘米), 呈贴壁样生长,多数为非粘液性,但也可出现粘液型。也可以发生多个同期的 AIS肿瘤。
微浸润肺腺癌(minimally invasive adenocarcinoma,MIA),一种小的(≤3 厘米)孤立性腺癌,以贴壁为主,最大侵犯范围≤5mm。MIA通常是非粘液性 的,但也有罕见的粘液性。根据定义,微浸润腺癌是孤立的、分散的。
浸润肺腺癌(Invasive lung adenocarcinoma,IAC):具有腺体分化、粘蛋白 产生或肺细胞标志物表达的恶性上皮性肿瘤。肿瘤呈腺泡状、乳头状、微乳头 状、贴壁或实性生长,有粘蛋白或肺泡细胞标记物表达。浸润性腺癌成分应至 少存在于一个最大径>5mm的病灶。
以上三种肺腺癌类型中,AIS和MIA不被认为是已进展至I期,IAC则被 认为已进展至I期或更后期。
本发明的肺腺癌分子分型方法、模型、装置、试剂盒、试剂等可用于以上 任意一期的肺腺癌患者,尤其是对于I期(包括Ia和Ib期)的肺腺癌患者,可 以对患者的预后作出精确预测,并能指定术后用药方案,因此具有特别重要的 临床价值和意义。
本发明中,“表达量”和“表达值”都指的是某个基因在肿瘤组织中的表达 水平,具有同样的意义,可相互替换使用。
实施例一肺腺癌分子分型及生存风险相关基因的筛选
患者
我们共收集了197个患者样本,包括原位肺腺癌(Adenocarcinoma in situ,AIS)、微浸润肺腺癌(Minimally invasive adenocarcinoma,MIA)、浸润肺腺癌I 期和IIIa期患者。患者在手术前均未接受过放化疗。根据临床或电话随访记录 无复发生存期(RFS)和总生存期(OS)。其中,24例为原位肺腺癌,74例为微 浸润肺腺癌,83例为I期肺腺癌,16例为IIIa期肺腺癌,合计197例患者。
方法
实验设计方案和工作流程如图1所示。我们从临床收集原位/微浸润癌、I 期、IIIa期肺腺癌组织样本,通过全外显子组和转录组测序获取肿瘤组织中基因 突变和基因表达谱数据。通过差异表达分析和差异突变分析,鉴定出原位/微浸 润肺腺癌和浸润肺腺癌之间基因突变和基因表达的差异情况,利用通路富集的 方法确认差异突变基因和差异表达基因所属关键通路。
全外显子组和转录组测序使用的测序仪为:Illumina HiSeq X Ten,测序样本 库制备用试剂盒为NEBNext Ultra Directional RNA Library Prep Kit for Illumina(NEB,Ipswich,USA)。
结果
基于基因表达的主成分分析结果表明,正常组织、原位/微浸润癌以及浸润 肺腺癌之间存在着明显差异,但是原位癌和微浸润癌之间难以区分(图2A)。 同时,原位癌和微浸润肺腺癌之间几乎没有发现基因突变谱和基因表达谱上的 差异(图3A和3B),这表明原位癌和微浸润肺腺癌在基因组和转录组学上具有 高度的相似性,因此在后续的分析中我们将原位癌和微浸润癌合并在一起。
我们首先通过检测原位/微浸润癌和浸润肺腺癌之间的差异表达基因和差异 突变基因,来确定重要和可靠的疾病进展相关通路。因此,我们确定了264个 差异表达基因(|log2FC|>=1且P<0.05)和25个差异突变基因(P<0.05)(图 2B、2C、3C和3D)。除了BRAF(原位/微浸润vs浸润,8%vs 1%),其他24 个差异突变基因,在浸润肺腺癌中的突变频率远高于原位/微浸润癌(图2C、3C 和3D),如TP53(原位/微浸润vs浸润,6%vs 38%)。25个差异突变基因为: EGFR,BRAF,TP53,TTN,RYR2,CSMD3,LRP1B,RB1,MGAM,PCLO, RYR1,USH2A,SPTA1,DST,FSCB,PCDH11X,ANK2,CHD8,COL11A1, FLNC,IGSF10,RYR3,SLIT2,SYNE2。我们分别用264个差异表达基因和 25差异突变基因组进行了KEGG(Kyoto Encyclopedia ofGenes and Genomes) 富集分析。其中,FA(Focal Adhesion)通路同时出现在11个差异表达基因富集 的通路和35个差异突变基因富集的通路(图2D、3E和3F)中。据报道,FA 通路复合体是细胞和细胞外基质之间的桥梁,在细胞增殖、侵袭和迁移中发挥 着重要作用。我们从MsigDB数据库中确定了FA通路上的199个基因,进一步 确定了15个差异表达基因,分别是CAV1,CAV2,COL11A1,COL1A1,COL3A1, COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1,THBS2,TNXB,VEGFD 和VWF(图2E)。其中,COL11A1是FA通路中的15个差异表达基因和25个 差异突变基因唯一相同的基因,这说明COL11A1在原位/微浸润癌向浸润肺腺 癌的进展中发挥重要作用(图2F)。
我们假设,如果存在一些基因,他们的表达量只从原位/微浸润到浸润状态 (分别对应好的和坏的预后)显著增加,而正常到原位/微浸润状态(都有好的 预后)无显著变化,那么其表达可能在疾病进展和预后中发挥更突出的作用。 因此,通过设置原位/微浸润癌和浸润肺腺癌之间差异表达基因更严格的阈值 (log2FC>1.5),我们保留了5个基因(SPP1、COL11A1、COL1A1、COMP 和THBS2),其表达水平从原位/微浸润到浸润期明显增加。然而,其中两个(SPP1 和COMP)在原位/微浸润期表达水平已经明显高于正常,因此在后续分型分析中可以予以剔除(图2G)。通过上述筛选流程,最终保留三个基因,即COL11A1、 THBS2和COL1A1(图2H)。我们优先选择COL11A1和THBS2来进行I期肺 腺癌的后续分子分型分析。考虑到COL1A1和COL11A1来自同一个基因家族, 具有相似功能,COL1A1和THBS2组合也可达到同样分型效果。我们发现 COL11A1和THBS2的表达水平从正常/原位癌微浸润癌到Ia期有显著增加(图 2I),而从正常到原位癌再到微浸润癌过程中,其表达量无显著变化。
实施例二肺腺癌分子分型模型的构建
方法
无监督的围绕中心点的共识聚类方法PAM(Partition Around Medoids)用 于聚类分析,聚类所使用的距离是基于COL11A1和THBS2的表达所计算的欧 式距离,聚类所得到的分子亚型数量会从2到10逐一评估,基于各个亚型内部 差异最小,亚型间差异最大原则,通过最大AWS(Average Silhouette Width)确 定最优数量分子亚型。
结果
我们假设I期肺腺癌患者可进一步分为多个分子亚型,不同分子亚型在不同 程度上会表现出与原位/微浸润癌相似或者不相似的分子特征,而这种特征在关 键分子(COL11A1和THBS2)上表现尤为突出。因此,我们使用了无监督的 PAM共识聚类方法,结合COL11A1和THBS2的表达对I期肺腺癌患者进行聚 类。在对2至10个亚型进行评估后,我们确定了AWS最大的两个亚型,命名 为S1(COL11A1和THBS2的低表达)和S2(COL11A1和THBS2的高表达) (图4A和4B)。
为了验证包括正常、原位癌、微浸润癌和浸润肺腺癌的所有394个样本分 子亚型(涵盖了正常组织样本,I期肺腺癌组织和III期肺腺癌组织等不同病理 分期的组织样本),我们利用COL11A1和THBS2的表达对394个样本进行了 PAM聚类。与以上I期肺腺癌聚类分型的结果一致,AWS结果表明最佳的亚型 (聚类)数量是2个(图4C)。有趣且令人欣慰的是,100%的正常人、95.8%的 AIS、94.6%的MIA、64.3%的IA、40.7%的IB和37.5%的IIIA呈现为S1型(图 4D和4E)。这些结果表明,S1型的肿瘤更接近于原位/微浸润癌,随着疾病阶段的进展,越来越多的患者的肿瘤成为S2型。
实施例三I期肺腺癌中S1亚型和S2亚型的分子特征分析
方法
从差异突变基因和差异表达基因层面,我们根据实施例二中所说的分子分 型方法,取I期肺腺癌样本将其分成S1和S2两个亚型,并将原位/微浸润癌样 本作为对比进行了基因突变频率和基因表达差异比较。通过基因集变异分析 (Get Set VariationAnalysis,GSVA)方法,分析从原位/微浸润癌、I期肺腺癌中 的S1亚型和I期肺腺癌中的S2亚型的肿瘤相关通路/功能富集评分。从差异蛋 白层面,我们比较了S1亚型肿瘤和S2亚型肿瘤之间蛋白的差异。同时我们通 过去卷积的方法对数据集中的肿瘤微环境进行了分析,比较了原位/微浸润癌,I 期肺腺癌中的S1亚型和I期肺腺癌中的S2亚型之间肿瘤微环境的差异。
结果
我们广泛探讨了I期肺腺癌内S1和S2亚型之间的分子特征差异,并在随 后的分析中将原位/微浸润癌作为对照组。我们使用Fisher's精确检验确定了7 个在原位/微浸润癌、S1和S2之间突变频率有明显差异的基因(图5A)。除了 EGFR和MGAM,其他五个基因(TP53、TTN、CSMD3、DST和FSCB)的突 变频率在S2显著增高(图5B)。同样,肿瘤突变符合(TMB)从原位/微浸润 癌到S1再到S2逐渐增加(图5C)。同样的趋势也出现在APOBEC酶家族基因 相关的突变中(图5D)。这些结果表明,S1在基因组层面比S2更接近原位癌和 微浸润癌。
与基因组特征的趋势一致,转录组分析也表明,S1与原位/微浸润癌相似。 基于基因表达的主成分分析表明S1的基因表达谱比S2更接近原位/微浸润癌(图5E)。我们进一步比较了原位/微浸润癌、S1和S2之间的表达谱,发现原位/微 浸润癌和S1之间有83个差异表达基因,原位/微浸润癌和S2之间有881个差异 表达基因,而S1和S2之间有383个差异表达基因(图5F)。我们用基因集变 异分析(GSVA)进一步探讨了原位/微浸润癌、S1和S2之间差异表达基因的癌 症相关生物学功能,利用这些差异表达基因,我们从MSigDB数据中鉴定出22 个癌症相关生物学功能,这些确定的生物学功能富集评分表明从原位/微浸润癌、 I期S1亚型、I期S2亚型到IIIa期是肿瘤发生功能层面连续的过程,从而说明 I期肺腺癌中的S1亚型可能是原位/微浸润癌发展到I期肺腺癌中的S2亚型,甚 至是更晚期的或肺腺癌IIIa期的一个中间生物学阶段。
我们进一步探讨了原位/微浸润癌、I期肺腺癌S1亚型和I期肺腺癌S2亚型 之间肿瘤微环境(TME)的差异。我们使用EPIC和MCP-counter这两个广泛使 用的软件包来分析肿瘤微环境的组成。我们观察到肿瘤相关纤维化细胞(CAF) 和S1、S2分子亚型之间的关联,即具有COL11A1上调的S2亚型比S1亚型有 更多激活的肿瘤相关纤维化细胞(图5H)。许多有关抑制肿瘤相关纤维化细胞 和肿瘤之间相互作用的临床研究正在进行。因此,与S1和原位/微浸润癌相比, 拥有更加活跃肿瘤纤维化细胞的S2亚型患者会对肿瘤纤维化细胞抑制剂敏感。
我们随后重新分析了Gittelle等人(Gillette,M.A.,et al.ProteogenomicCharacterization Reveals Therapeutic Vulnerabilities in LungAdenocarcinoma.Cell 182,200-225.e235(2020))的多组学数据,以探索S1和S2亚型之间蛋白基因组 学的差异。在这个数据集中,同样利用COL11A1和THBS2表达结合PAM共识 聚类对I期肺腺癌进行分型。基于分子亚型从2到10进行AWS评估后,确定 最佳的亚型(聚类)数量为2个,即S1亚型和S2亚型(图6A)。因此,根据I 期患者COL11A1和THBS2的表达情况,进行了PAM共识聚类以确定2个分子 亚型,即前述的S1亚型和S2亚型。与我们的FUSCC数据集中结论一致,S2 比S1表现出更多的突变事件,更多的死亡或复发事件(图7A和7B)。S2的TP53、RYR2、USH2A、KRAS和XIRP2的突变频率远远高于S1(图7B)。此外,S1 的拷贝数变异的事件(如扩增峰)比S2少见(图7C)。总结来说,Gittelle等数 据集中S1和S2的分子特点与我们FUSCC数据集一致,即S1的基因组比S2 相对更简单。
运用以上分子分型方法,我们进一步对I期肺腺癌中区分出的S1亚型和S2 亚型的肿瘤样本开展了定量组学研究,包括转录组学、蛋白质组学和磷酸化蛋 白质组学分析。我们在I期肺腺癌的S1亚型和S2亚型之间进行了多组学的差 异表达分析,确定了371个差异表达基因,64个差异表达蛋白和121个差异表 达的磷酸化蛋白(图6C)。为了进一步探索与差异表达基因、蛋白相关的生物学 功能,我们进行了KEGG富集分析。我们发现S1和S2之间的差异表达基因、 蛋白都富集在蛋白质消化和吸收、ECM-受体相互作用、FA、膀胱癌和类固醇激 素生物合成通路中(图7D)。同时,我们还发现,S2比S1显示出更多的肿瘤相 关纤维化细胞(图6D),这与我们FUSCC数据集中的结论一致。
与此同时,我们观察到COL11A1和THBS2的基因和蛋白表达水平之间有 很强的相关性(图6E、6F和7E),这表明COL11A1和THBS2的蛋白表达同样 可以用于肺腺癌的分子分型。为了验证我们的猜想,我们从Xu等人(Xu,J.Y.,et al.Integrative ProteomicCharacterization of Human Lung Adenocarcinoma.Cell 182, 245-261.e217(2020))的研究中下载了蛋白质组学数据和相应的临床信息,结合 COL11A1和THBS2的蛋白表达和PAM聚类,我们将I期肺腺癌患者分为两个 亚型S1和S2。最终,我们发现这两个亚型与无复发生存期(RFS)密切相关(P <0.001,图7F)。
实施例四I期肺腺癌中S1亚型和S2亚型的预后差异
方法
R包survival(v3.1-8)和survminer(0.4.8)用于进行生存和COX回归分析。Kaplan-Meier生存分析结合对数秩检验用于分析最终生存(OS)和无复发生存 (RFS)。
结果
I期肺腺癌中的S1亚型和原位/微浸润癌之间分子特点的相似性表明该类肿 瘤将会和原位/微浸润癌一样有非常好的预后。除了我们自己的数据集,我们分 析11个已经发表的I期肺腺癌基因表达数据集,同时结合其对应的临床信息。 我们对11个已经发表数据集采取同样的分型方式,首先通过AWS值评估每一 个数据集最佳亚型数量,结果发现所有数据集最佳亚型数量都是2(图8)。因 此,我们本发明优选的COL11A1和THBS2的表达将每个数据集I期肺腺癌患 者分为S1和S2两个亚型。分完型之后我们将12个数据集的患者进行合并,进 一步做生存分析验证。最终我们用12个数据集中1368个I期肺腺癌患者分析了 S1和S2亚型患者预后。与S1/S2分型结论一致,从最终生存和无复发生存评估, I期肺腺癌患者中S1亚型预后都显著好于S2(图9A和9C),同时在I期肺腺癌 患者中S1亚型预后同样显著好于S2(图9B和9D)。结果表明我们的分型方法 可以将I期肺腺癌患者分为预后显著不同的S1和S2亚型,S2亚型是一个高风 险人群,术后更应该接受积极治疗。
实施例五15个FA通路基因构建I期肺腺癌分子分型
方法
FA通路共包含199个基因,其中有15个基因在原位/微浸润肺腺癌与浸润 肺腺癌之间差异表达,这15个基因可能在肺腺癌进展过程中起关键作用。我们 利用无监督聚类(PAM)算法结合15个FA通路基因的表达值对I期肺腺癌样 本进行聚类分型。
结果
为了获取稳定的分子亚型,将I期肺腺癌患者分为2-10个亚型,我们使用 FocalAdhesion(FA)通路中15个差异表达基因的表达谱对I期肺腺癌进行了 PAM聚类。在评估了2-10个亚型的簇数后,和前述实施例中的结果一样,我们 同样确定2个亚型是最佳的分类方法,即前述的S1亚型和S2亚型,它们与临 床预后具有显著相关性并且亚型之间的边界最为清晰(图10A和10B)。主成分 分析基于15个FA基因也清楚地分出了S1和S2(图10C)。我们比较了原位/ 微浸润肺腺癌、S1和S2之间的肿瘤突变负荷(TMB)和APOBEC酶家族基因 的相关突变,发现从原位癌/微浸润性肺腺癌到S2有显著增加的趋势(图10D 和10E)。
最终我们用12个数据集中1368个I期肺腺癌患者分析了S1和S2亚型患 者预后。15个基因的分型结果与2个基因分型结果一致,从最终生存和无复发 生存评估,I期肺腺癌患者中S1亚型预后都显著好于S2(图11A和11C),同 时在I期肺腺癌患者中S1亚型预后同样显著好于S2(图11B和11D)。
实施例六肺腺癌分型模型的简化
方法
利用原位/微浸润癌和浸润癌229个特异性差异表达基因构建基因对,两两 组合,肺腺癌患者中,如出现基因表达量GeneA<GeneB,那么该患者定义为S1, 如GeneA≥GeneB,该患者定义为S2。利用相似系数Jaccard Index评估基因对 分型结果和FA2模型(COL11A1和THBS2表达结合PAM聚类方法)分型结果 一致性。
结果
为了更加方便临床应用,我们期望进一步简化分型模型。通过COL11A1和 THBS2表达结合PAM聚类方法(FA2)将1368个I期患者分为了S1和S2,我 们期望能够找到一个基因对GeneA和GeneB,当基因表达量上GeneA<GeneB 时,该患者就是S1,而当GeneA≥GeneB时,该患者就是S2。因此,我们从原 位/微浸润癌和浸润肺腺癌之间特异性的229个差异基因中组合了26106基因对。 我们逐一比较了26106基因对分型结果和FA2模型分型结果的一致性,结果发 现COL11A1和PLA2G1B组成的基因对与FA2分型结果一致性最高(相似系数 JaccardIndex=0.75)。我们比较了所有394个样本中COL11A1和PLA2G1B的 表达关系,发现正常样本,原位癌及微浸润癌基本所有样本都是COL11A1<PLA 2G1B(图12A),进一步统计发现100%的正常人、91.7%的AIS、93.2%的MIA、 55.4%的IA、37.0%的IB和25%的IIIA被分配到COL11A1<PLA 2G1B(图12B)。 这些结果表明,COL11A1<PLA 2G1B更接近于原位/微浸润癌,随着疾病阶段 的进展,越来越多的患者出现COL11A1≥PLA 2G1B,这与FA2分型结果高度 一致。因此我们采用COL11A1和PLA2G1B组成的基因对也能够对肺腺癌进行 分型,将COL11A1<PLA 2G1B定义为S1,而COL11A1≥PLA 2G1B定义为 S2,这与实施例二中获得的分型结果是一致的。最终我们用12个数据集中1368 个I期肺腺癌患者分析了S1和S2亚型患者预后。从最终生存和无复发生存评 估,I期肺腺癌患者中S1亚型预后都显著好于S2(图12C),同时在I期肺腺癌 患者中S1亚型预后同样显著好于S2(图12C)。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施 方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进 行多种变换,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征和 步骤,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必 要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不 违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (26)
1.一种肺腺癌分子分型模型的构建方法,使控制程序利用PAM(Partitioning AroundMedoids)算法对肺腺癌患者进行分子分型,控制软件执行如下操作:
(1)以COL11A1的表达值作为X轴、THBS2的基因表达值作为Y轴,任选的,以COL1A1、COL3A1、COL5A2、COL6A6、CAV1、CAV2、COMP、ITGA11、LAMA3、SPP1、TNXB、VEGFD和VWF基因中的任意1种或多种的表达值作为3-15维空间的坐标轴Z轴、T1、T2...T12轴,将n个样本依据上述2-15个基因的表达值在空间直角坐标系中找到其对应的位置;
2)从上述n个样本中随机选取K个样本,以其在2-15维空间直角坐标系中的位置作为中心点1和中心点2...中心点K,并基于各中心点的标记,将上述样本分为K种类型,命名为A1、A2...AK;
(3)测定其余n-K个样本到中心点1、中心点2...以及中心点K的欧氏距离,比较上述欧式距离的大小,样本离哪个中心点的欧氏距离更小就属于哪一类分型;
(4)根据分型结果,测定n-K个样本距离所在分型中心点的欧式距离,若样本被分为S1型,则计算该样本距离中心点1的欧式距离;若样本被分为S2型,则计算该样本距离中心点2的欧式距离;若样本被分为SK型,则计算该样本距离中心点K的欧式距离,计算上述欧式距离之和,并把该数值称为损失值;
(5)选择K种样本以外的样本,并将该样本在2-15维空间直角坐标系中的位置作为新的中心点替换中心点1、中心点2...或中心点K中的任意一个;
(6)重复步骤(1)-(4),并计算出新的损失值,如果新的损失值与原有损失值相比增大,那么原有中心点不被替换,如果损失变小,用新中心点替换原有中心点,
(7)循环替换所有样本,直至收敛,即各中心点不再改变,则分型模型构建完毕。
2.如权利要求1所述的方法,其中K选自2-10的整数,优选的K=2。
3.如权利要求1或2所述的方法,其中步骤(1)中的基因为2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个或15个。
4.如权利要求3所述的方法,其中步骤(1)中的基因为2个-15个。
5.如权利要求3所述的方法,其中步骤(1)中的所述表达值为基因表达值或蛋白表达值。
6.一种肺腺癌分子分型模型的构建方法,使控制程序利用PAM(Partitioning AroundMedoids)算法对肺腺癌患者进行分型,控制软件执行如下操作:
(1)以COL11A1或COL1A1的基因表达值作为X轴、THBS2的基因表达值作为Y轴,将n(n>10的整数)个样本依据上述两个基因的表达值在X-Y直角坐标系中找到其对应的位置;
(2)从上述n个样本中随机选取2个样本,以其在X-Y直角坐标系中的位置作为中心点1和中心点2,并基于各中心点的标记,将上述样本分为A1和A2型;
(3)测定其余n-2个样本到中心点1和中心点2的欧氏距离,比较上述两个欧式距离的大小,样本离哪个中心点的欧氏距离更小就属于哪一类分型,若样本离中心点1距离更小,则该样本属于A1型,样本离中心点2距离更小,则该样本属于A2型;
(4)根据分型结果,测定n-2个样本距离所在分型中心点的欧式距离,并计算上述欧式距离之和,把该数值称为损失值;
(5)选择步骤(2)样本以外的样本,并将该样本在X-Y直角坐标系中的位置作为新的中心点3替换中心点1或中心点2;
(6)重复步骤(1)-(4),并计算出新的损失值,如果新的损失值与原有损失值相比增大,那么原有中心点不被替换,如果损失变小,用中心点3替换中心点1或2;
(7)循环替换所有样本,直至收敛,即各中心点不再改变,则分型模型构建完毕。
7.如权利要求1或6所述方法,其还包括如下步骤:基于中心点的数量确定肺腺癌的最终分型数量,即:当使用M个中心点进行分型时,其中2≤M≤K,在此情况下计算出的损失值最小,就将n个样本分为M种类型。
8.一种肺腺癌分子分型装置,其特征在于,包括:
基因表达量测定模块,用于获取肺腺癌患者肿瘤组织COL11A1和THBS2,或COL1A1和THBS2的基因表达量,
分型模块,采用权利要求1-7任一项所述方法进行构建,
预后分析模块,用于比较肿瘤组织中的COL11A1和THBS2,或COL1A1和THBS2的基因表达值,其中COL11A1和THBS2,或COL1A1和THBS2的基因表达量的平均值均低的亚型为S1型,其预后好;其中COL11A1和THBS2,或COL1A1和THBS2的基因表达量的平均值均高的亚型为S2型,其预后差。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序包括实现如权利要求1-7任一项中所述肺腺癌分型模型构建方法的步骤。
10.如权利要求9所述终端设备,所述计算机程序进一步包括执行预后分析步骤,其实现操作:比较不同样品中的COL11A1和THBS2,或COL1A1和THBS2的的基因表达值,并将COL11A1和THBS2,或COL1A1和THBS2的基因表达量的平均值均低的亚型为S1型,其预后好;其中COL11A1和THBS2,或COL1A1和THBS2的基因表达量的平均值均高的亚型为S2型,其预后差。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项方法的步骤。
12.一种肺腺癌的分子分型基因组合物,其包括CAV1,CAV2,COL11A1,COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1,THBS2,TNXB,VEGFD或VWF基因。
13.一种肺腺癌的分子分型基因组合物,其包括选自CAV1,CAV2,COL11A1,COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1,THBS2,TNXB,VEGFD或VWF基因中的至少两种基因,至少3种、至少四种、至少5种、至少6种、至少七种、至少八种、至少9种、至少十种。
14.一种肺腺癌的分子分型基因组合物,其包括CAV1,CAV2,COL11A1,COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1,THBS2,TNXB,VEGFD和VWF基因。
15.一种肺腺癌的分子分型或预后分析试剂,其包括检测CAV1,CAV2,COL11A1,COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1,THBS2,TNXB,VEGFD或VWF基因或蛋白表达量的试剂。
16.如权利要求15所述的试剂,其包括选自CAV1,CAV2,COL11A1,COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1,THBS2,TNXB,VEGFD或VWF基因中至少两种或三种或四种或十五种基因或蛋白表达量的试剂。
17.如权利要求16所述的试剂,其至少包括检测COL11A1和THBS2,或COL1A1和THBS2的基因或蛋白表达量的试剂。
18.如权利要求17所述的试剂,其还包括CAV1,CAV2,COL11A1,COL1A1,COL3A1,COL5A2,COL6A6,COMP,ITGA11,LAMA3,SPP1,THBS2,TNXB,VEGFD和VWF基因。
19.一种肺腺癌的分子分型或预后分析的试剂盒,其包括权利要求15-18任一项所述试剂。
20.权利要求15-18任一项所述的试剂或权利要求19所述试剂盒在制备肺腺癌的分子分型或风险评估的试剂或试剂盒中的用途。
21.如权利要求21所述用途,所述分子分型或评估采用权利要求8所述装置或权利要求9-10所述设备来完成。
22.一种诊断和治疗肺腺癌的试剂盒,所述试剂盒包含权利要求15-18任一项所述分型试剂以及肿瘤相关纤维化细胞(CAF)抑制剂。
23.如权利要求22所述试剂盒,其中所述肿瘤相关纤维化细胞(CAF)抑制剂给予S2型患者。
24.一种肺腺癌分子分型或预后分析试剂或试剂盒,其包括检测COL11A1和PLA2G1B基因或蛋白表达量的试剂。
25.一种肺腺癌的分型方法,测定患者肿瘤组织中COL11A1和PLA2G1B基因或蛋白的表达量,比较COL11A1和PLA2G1B基因或蛋白表达量,若COL11A1基因或蛋白表达量小于PLA2G1B的表达量,则该患者属于S1型;若COL11A1基因或蛋白表达量大于等于PLA2G1B的表达量,则该患者属于S2型。
26.一种预测肺腺癌患者预后的方法,测定患者肿瘤组织中COL11A1和PLA2G1B基因或蛋白的表达量,比较COL11A1和PLA2G1B基因或蛋白表达量,若COL11A1基因或蛋白表达量小于PLA2G1B的表达量,则该患者预后较好;若COL11A1基因或蛋白表达量大于等于PLA2G1B的表达量,则该患者预后较差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111459974.2A CN116312814B (zh) | 2021-12-02 | 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111459974.2A CN116312814B (zh) | 2021-12-02 | 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116312814A true CN116312814A (zh) | 2023-06-23 |
CN116312814B CN116312814B (zh) | 2024-09-27 |
Family
ID=
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110119776A1 (en) * | 2007-02-05 | 2011-05-19 | Wong Kwok-Kin | Methods of diagnosing and prognosing lung cancer |
CN103733065A (zh) * | 2011-06-02 | 2014-04-16 | 阿尔玛克诊断有限公司 | 用于癌症的分子诊断试验 |
US20150322530A1 (en) * | 2012-10-17 | 2015-11-12 | Cedars-Sinai Medical Center | Molecular signatures of ovarian cancer |
CN105087568A (zh) * | 2015-09-01 | 2015-11-25 | 杭州源清生物科技有限公司 | 一组用于肿瘤分子分型的基因及其应用 |
CN105154542A (zh) * | 2015-09-01 | 2015-12-16 | 杭州源清生物科技有限公司 | 一组用于肺癌分子分型的基因及其应用 |
US20190076399A1 (en) * | 2016-03-16 | 2019-03-14 | The Regents Of The University Of California | Detection and treatment of anti-pd-1 therapy resistant metastatic melanomas |
CN112391470A (zh) * | 2020-11-11 | 2021-02-23 | 广东医科大学 | 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法 |
WO2021037134A1 (zh) * | 2019-08-27 | 2021-03-04 | 上海善准生物科技有限公司 | 肺腺癌分子分型及生存风险基因群及诊断产品和应用 |
CN112553335A (zh) * | 2020-12-17 | 2021-03-26 | 核工业总医院 | 肾细胞癌生物标志物及其应用 |
CN113140258A (zh) * | 2021-04-28 | 2021-07-20 | 上海海事大学 | 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 |
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110119776A1 (en) * | 2007-02-05 | 2011-05-19 | Wong Kwok-Kin | Methods of diagnosing and prognosing lung cancer |
CN103733065A (zh) * | 2011-06-02 | 2014-04-16 | 阿尔玛克诊断有限公司 | 用于癌症的分子诊断试验 |
US20150322530A1 (en) * | 2012-10-17 | 2015-11-12 | Cedars-Sinai Medical Center | Molecular signatures of ovarian cancer |
CN105087568A (zh) * | 2015-09-01 | 2015-11-25 | 杭州源清生物科技有限公司 | 一组用于肿瘤分子分型的基因及其应用 |
CN105154542A (zh) * | 2015-09-01 | 2015-12-16 | 杭州源清生物科技有限公司 | 一组用于肺癌分子分型的基因及其应用 |
US20190076399A1 (en) * | 2016-03-16 | 2019-03-14 | The Regents Of The University Of California | Detection and treatment of anti-pd-1 therapy resistant metastatic melanomas |
WO2021037134A1 (zh) * | 2019-08-27 | 2021-03-04 | 上海善准生物科技有限公司 | 肺腺癌分子分型及生存风险基因群及诊断产品和应用 |
CN112442535A (zh) * | 2019-08-27 | 2021-03-05 | 上海善准生物科技有限公司 | 原发性肺腺癌分子分型及生存风险基因群及诊断产品和应用 |
CN112391470A (zh) * | 2020-11-11 | 2021-02-23 | 广东医科大学 | 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法 |
CN112553335A (zh) * | 2020-12-17 | 2021-03-26 | 核工业总医院 | 肾细胞癌生物标志物及其应用 |
CN113140258A (zh) * | 2021-04-28 | 2021-07-20 | 上海海事大学 | 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 |
Non-Patent Citations (4)
Title |
---|
KIM H, ET AL.: "Multi-cancer computational analysis reveals invasion-associated variant of desmoplastic reaction involving INHBA, THBS2 and COL11A1", BMC MEDICAL GENOMICS, 3 November 2010 (2010-11-03), pages 1 - 11 * |
SHANG J, ET AL.: "Poor prognosis of stage I lung adenocarcinoma patients determined by elevated expression over pre/minimally invasive status of COL11A1 and THBS2 in the focal adhesion pathway", MEDRXIV, 17 December 2021 (2021-12-17), pages 1 - 28 * |
WANG Y, ET AL.: "Identification of significant genes in lung cancer of nonsmoking women via bioinformatics analysis", BIOMED RESEARCH INTERNATIONAL, 11 October 2021 (2021-10-11), pages 1 - 12 * |
韩瑛;李淑敏;: "分子诊断技术在卵巢癌个体化诊治中应用的现状与进展", 癌症进展, no. 01, 20 January 2015 (2015-01-20), pages 19 - 23 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | Intratumoral and intertumoral genomic heterogeneity of multifocal localized prostate cancer impacts molecular classifications and genomic prognosticators | |
CN110958853B (zh) | 用于鉴定或监测肺病的方法和系统 | |
EP3801623A1 (en) | Convolutional neural network systems and methods for data classification | |
JP7340021B2 (ja) | 予測腫瘍遺伝子変異量に基づいた腫瘍分類 | |
CN109906276A (zh) | 用于检测早期癌症中体细胞突变特征的识别方法 | |
CN110305965A (zh) | 一种预测非小细胞肺癌(nsclc)患者对免疫疗法的敏感性的方法 | |
JP2023504529A (ja) | がん予測パイプラインにおけるrna発現コールを自動化するためのシステムおよび方法 | |
US20090197259A1 (en) | Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer | |
CN112143810B (zh) | 一组用于预测癌症免疫治疗效果的基因标志物及其应用 | |
JP7499239B2 (ja) | 体細胞変異のための方法およびシステム、ならびにそれらの使用 | |
Ghosh et al. | AI-assisted discovery of an ethnicity-influenced driver of cell transformation in esophageal and gastroesophageal junction adenocarcinomas | |
CN110004229A (zh) | 多基因作为egfr单克隆抗体类药物耐药标志物的应用 | |
CN109735619B (zh) | 与非小细胞肺癌预后相关的分子标志物及其应用 | |
TWI671653B (zh) | 三陰性乳癌的次分類及方法 | |
EP4428864A1 (en) | Method for diagnosing cancer by using sequence frequency and size at each position of cell-free nucleic acid fragment | |
CN116312814B (zh) | 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒 | |
EP4318493A1 (en) | Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same | |
CN110408706A (zh) | 一种评估鼻咽癌复发的生物标志物及其应用 | |
CN116312814A (zh) | 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒 | |
JP2023531572A (ja) | 前立腺癌の分子分類器 | |
Kuznetsov et al. | Statistically weighted voting analysis of microarrays for molecular pattern selection and discovery cancer genotypes | |
CN117153392B (zh) | 一种胃癌预后预测的标志物、评估模型及其构建方法 | |
Chieruzzi | Identification of RAS co-occurrent mutations in colorectal cancer patients: workflow assessment and enhancement | |
JP2022546649A (ja) | Dnaデータを解析するためのリード層固有ノイズモデル | |
WO2022120076A1 (en) | Clinical classifiers and genomic classifiers and uses thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |