CN116656829B - 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统 - Google Patents
一种预测胃癌不良预后的基因标志物组合、试剂盒及系统 Download PDFInfo
- Publication number
- CN116656829B CN116656829B CN202310952768.8A CN202310952768A CN116656829B CN 116656829 B CN116656829 B CN 116656829B CN 202310952768 A CN202310952768 A CN 202310952768A CN 116656829 B CN116656829 B CN 116656829B
- Authority
- CN
- China
- Prior art keywords
- gene
- gastric cancer
- marker combination
- expression level
- prognosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 140
- 208000005718 Stomach Neoplasms Diseases 0.000 title claims abstract description 50
- 206010017758 gastric cancer Diseases 0.000 title claims abstract description 50
- 201000011549 stomach cancer Diseases 0.000 title claims abstract description 50
- 239000003550 marker Substances 0.000 title claims abstract description 31
- 238000004393 prognosis Methods 0.000 title claims abstract description 29
- 102100030374 Actin, cytoplasmic 2 Human genes 0.000 claims abstract description 11
- 108010019099 Aldo-Keto Reductase Family 1 member B10 Proteins 0.000 claims abstract description 11
- 102100026451 Aldo-keto reductase family 1 member B10 Human genes 0.000 claims abstract description 11
- 102100033044 Glutathione peroxidase 2 Human genes 0.000 claims abstract description 11
- 102100023919 Histone H2A.Z Human genes 0.000 claims abstract description 11
- 101000773237 Homo sapiens Actin, cytoplasmic 2 Proteins 0.000 claims abstract description 11
- 101000871129 Homo sapiens Glutathione peroxidase 2 Proteins 0.000 claims abstract description 11
- 101001045791 Homo sapiens High mobility group protein B2 Proteins 0.000 claims abstract description 11
- 101000905054 Homo sapiens Histone H2A.Z Proteins 0.000 claims abstract description 11
- 101000972282 Homo sapiens Mucin-5AC Proteins 0.000 claims abstract description 11
- 101000585555 Homo sapiens PCNA-associated factor Proteins 0.000 claims abstract description 11
- 101000831940 Homo sapiens Stathmin Proteins 0.000 claims abstract description 11
- 102100022496 Mucin-5AC Human genes 0.000 claims abstract description 11
- 102100029879 PCNA-associated factor Human genes 0.000 claims abstract description 11
- 102100024237 Stathmin Human genes 0.000 claims abstract description 11
- 108010088412 Trefoil Factor-1 Proteins 0.000 claims abstract description 11
- 102000008817 Trefoil Factor-1 Human genes 0.000 claims abstract description 11
- 101000838456 Homo sapiens Tubulin alpha-1B chain Proteins 0.000 claims abstract description 10
- 102100028969 Tubulin alpha-1B chain Human genes 0.000 claims abstract description 10
- 102000055341 HMGB2 Human genes 0.000 claims abstract 2
- 230000014509 gene expression Effects 0.000 claims description 51
- 239000003153 chemical reaction reagent Substances 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 24
- 238000003559 RNA-seq method Methods 0.000 claims description 20
- 238000010837 poor prognosis Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 13
- 238000010199 gene set enrichment analysis Methods 0.000 claims description 12
- 238000001353 Chip-sequencing Methods 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 4
- 210000004027 cell Anatomy 0.000 description 66
- 239000000523 sample Substances 0.000 description 33
- 238000012163 sequencing technique Methods 0.000 description 23
- 206010028980 Neoplasm Diseases 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 13
- 210000004881 tumor cell Anatomy 0.000 description 13
- 239000000090 biomarker Substances 0.000 description 10
- 102000004169 proteins and genes Human genes 0.000 description 10
- 102100022128 High mobility group protein B2 Human genes 0.000 description 9
- 230000004083 survival effect Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000012174 single-cell RNA sequencing Methods 0.000 description 8
- 230000037361 pathway Effects 0.000 description 7
- 201000011510 cancer Diseases 0.000 description 6
- 230000007705 epithelial mesenchymal transition Effects 0.000 description 6
- 239000013610 patient sample Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000000018 DNA microarray Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 3
- 101150072531 10 gene Proteins 0.000 description 3
- 238000002123 RNA extraction Methods 0.000 description 3
- 238000011529 RT qPCR Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 210000002919 epithelial cell Anatomy 0.000 description 3
- 210000003470 mitochondria Anatomy 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000035755 proliferation Effects 0.000 description 3
- 230000006916 protein interaction Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 108091028075 Circular RNA Proteins 0.000 description 2
- 230000005778 DNA damage Effects 0.000 description 2
- 231100000277 DNA damage Toxicity 0.000 description 2
- 239000013614 RNA sample Substances 0.000 description 2
- 238000003766 bioinformatics method Methods 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 210000002540 macrophage Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012049 whole transcriptome sequencing Methods 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- 101150084750 1 gene Proteins 0.000 description 1
- 102000010792 Chromogranin A Human genes 0.000 description 1
- 108010038447 Chromogranin A Proteins 0.000 description 1
- 101150050146 DNMBP gene Proteins 0.000 description 1
- 208000002699 Digestive System Neoplasms Diseases 0.000 description 1
- 102100024821 Dynamin-binding protein Human genes 0.000 description 1
- 102000012804 EPCAM Human genes 0.000 description 1
- 101150084967 EPCAM gene Proteins 0.000 description 1
- 101000998020 Homo sapiens Keratin, type I cytoskeletal 18 Proteins 0.000 description 1
- 101000665442 Homo sapiens Serine/threonine-protein kinase TBK1 Proteins 0.000 description 1
- 102100033421 Keratin, type I cytoskeletal 18 Human genes 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 241001590997 Moolgarda engeli Species 0.000 description 1
- 206010061309 Neoplasm progression Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 238000012228 RNA interference-mediated gene silencing Methods 0.000 description 1
- 102100038192 Serine/threonine-protein kinase TBK1 Human genes 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 101150057140 TACSTD1 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 239000002671 adjuvant Substances 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000002771 cell marker Substances 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 208000006990 cholangiocarcinoma Diseases 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000003890 endocrine cell Anatomy 0.000 description 1
- 210000002889 endothelial cell Anatomy 0.000 description 1
- NYPJDWWKZLNGGM-RPWUZVMVSA-N esfenvalerate Chemical compound C=1C([C@@H](C#N)OC(=O)[C@@H](C(C)C)C=2C=CC(Cl)=CC=2)=CC=CC=1OC1=CC=CC=C1 NYPJDWWKZLNGGM-RPWUZVMVSA-N 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 201000006585 gastric adenocarcinoma Diseases 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000009368 gene silencing by RNA Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 210000003630 histaminocyte Anatomy 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 238000002649 immunization Methods 0.000 description 1
- 230000003053 immunization Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 201000007450 intrahepatic cholangiocarcinoma Diseases 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 231100000590 oncogenic Toxicity 0.000 description 1
- 230000002246 oncogenic effect Effects 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002206 pro-fibrotic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- -1 rRNA Proteins 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 238000013058 risk prediction model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 101150103035 tubA gene Proteins 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57446—Specifically defined cancers of stomach or intestine
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57484—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Public Health (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Urology & Nephrology (AREA)
- Hematology (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Analytical Chemistry (AREA)
- Cell Biology (AREA)
- Hospice & Palliative Care (AREA)
- Software Systems (AREA)
- Biochemistry (AREA)
- Oncology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Microbiology (AREA)
- Bioethics (AREA)
- Organic Chemistry (AREA)
Abstract
本发明公开了一种预测胃癌不良预后的基因标志物组合、试剂盒及系统,属于医学分子生物学领域。其中,所述基因标志物组合包括ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1和TUBA1B,充分考虑了基因相互作用和基因的实际作用,对胃癌的不良预后评估更为全面,具有十分重要的临床应用价值。
Description
技术领域
本发明属于医学分子生物学领域,具体地,一种预测胃癌预后的基因标志物组合及其应用。
背景技术
胃癌是一种危害严重的消化系统肿瘤,其预后取决于多个因素,包括肿瘤的分化程度、淋巴结转移、浸润深度等。目前,胃癌治疗的主要方式包括手术切除、放疗和化疗等,然而预后仍然不尽如人意。因此,寻找更加准确的生物标志物,用于预测胃癌患者的不良预后,对于改善治疗效果具有重要意义。
在肿瘤领域,越来越多的研究表明,基于分子表达水平的分析,可以预测患者的临床预后。然而,传统的单基因检测方法存在许多局限性,比如单一指标的不够准确,缺乏综合评估,不能充分发挥基因组数据的信息量等。因此,近年来,研究者们开始探索利用多个基因的表达数据来预测胃癌的预后,从而提高预测准确度。例如研究者通过分析样本中环状RNA(circular RNAs)的表达,开发了一个基于8个circRNAs的风险预测模型,用于GC的诊断,可以评估胃癌患者的不良预后(Souvick Roy, Mitsuro Kanda, Diagnostic efficacyof circular RNAs as noninvasive, liquid biopsy biomarkers for early detectionof gastric cancer. Mol Cancer. 2022 Feb 9;21(1):42. doi: 10.1186/s12943-022-01527-7.)。但是由于circRNA可能没有直接参与胃癌肿瘤细胞的调控,影响其对诊断的准确性。
目前来说,针对胃癌的预后风险评估出现了大量的研究,根据使用的方法与技术特点,从两个角度指出其存在的不足。
一、众多的单基因评估胃癌预后风险的分析,存在着以下缺陷与不足:
1、忽略了基因相互关系:单基因没有考虑到不同基因之间的相互作用,因此可能会导致失去预测模型的准确性。在肿瘤中,往往多种基因共同参与,基因间的相互作用非常复杂,因此单基因评估模型不能充分考虑这种复杂性。
2、数据量不足:单基因评估胃癌预后风险的结果需要充分的数据支持。但是,受限于数据量,无法准确评估每个基因的作用。这可能导致在实践中过多依赖少数基因的结果,忽略其他基因的作用。
3、结果不可靠:单基因评估胃癌预后风险的结果可能会出现偏差,这可能导致临床上做出错误的决策。例如,如果选择的基因与肿瘤没有充分的相关性,则可能会得出不准确的结论。
4、不利于治疗:单基因评估胃癌预后风险可能会导致医生过分关注患者的基因组数据,而忽略了患者的实际病情。这可能会导致过度治疗或低效治疗,从而影响患者的生活质量。
综上所述,单基因评估胃癌预后风险虽然是一种常用的方法,但其缺点也不容忽视。
二、没有精确地针对肿瘤细胞,忽略了肿瘤细胞的调控机制
之前的分析基于批量RNA测序,是一种广泛用于分析生物样本中基因表达的方法。生成的数据提供了样本中基因表达的整体情况。尽管广受欢迎,但RNA测序有一些局限性,可能会影响结果的解释。
1、细胞异质性信息的丢失:RNA测序的主要缺点之一是细胞异质性信息的丢失。测序数据代表样本中所有细胞的平均基因表达水平。这意味着不会捕获单个细胞的表达水平,并且可能会完全遗漏稀有细胞群。这在包含多种细胞类型的样本中尤其成问题,例如肿瘤样本,其中不同的细胞群可能具有不同的基因表达谱。另外RNA测序可以掩盖细胞间基因表达的重要差异,从而导致关于样本生物学的不准确结论。
2、识别稀有转录本的能力有限:RNA测序在识别稀有转录本方面不如单细胞RNA测序(scRNA-Seq)敏感。scRNA-Seq能够检测低表达的基因,而RNA测序可能会遗漏这些基因。因此,RNA测序可能无法提供转录组的完整特征,并且可能会遗漏可用于疾病诊断或预后的重要生物标志物。
综上所述,虽然RNA测序是一种广泛使用且有价值的基因表达分析工具,但它有几个可能影响结果解释的局限性。
发明内容
为了解决上述技术问题中的至少一个,本发明通过单细胞测序技术,从肿瘤细胞的角度全面解析了分子特征,意外地发现了具有预测预后价值的生物标志物组合,从而完成本发明。
本发明第一方面提供一种用于预测胃癌不良预后的基因标志物组合,所述基因标志物组合包括ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1和TUBA1B。
在本发明中,所述基因标志物组合还可以选自上述10个其中的一种或几种。需要说明的是,虽然上述基因都是已知的基因,但是作为标志物组合却是本领域技术人员无法预期的。上述基因标志物组合中的各基因在预测胃癌不良预后中均具有一定的价值,本领域技术人员可以选择任一组合,例如其中任意1个基因、任意2个基因、任意3个基因、任意4个基因、任意5个基因、……、任意10个基因进行预测。尽管本发明实施例仅示例性给出部分组合预测肿瘤进展的结果,但实际上上述任一组合均可以取得良好的预测效果。
本发明第二方面提供本发明第一方面所述的基因标志物组合的表达水平的检测试剂在制备用于预测胃癌不良预后的试剂盒中的应用。
在本发明的一些实施方案中,所述表达水平的检测试剂是指能够检测所述基因转录水平和蛋白水平的试剂。例如靶向基因转录产物的引物和/或探针,或者特异性结合相应蛋白的抗体。进一步地,利用包括全转录组测序、捕获测序和qRT-PCR的组中的至少一种方法获得所述基因标志物组合的表达水平。例如,本领域技术人员可以针对所述基因标志物组合中各基因设计探针,并将探针制备成基因芯片,利用基因芯片进行捕获测序。再如,可以针对所述基因标志物组合中各基因设计引物,进行PCR扩增后进行测序。又如,可以针对所述基因标志物组合中各基因设计引物和探针,利用qRT-PCR方法检测各基因的表达水平。特别地,也可以直接进行全转录组高通量测序,获得测序数据后,与人类参考基因组进行比较,并进行表达定量,获得表达谱信息。当然,本领域技术人员也可以利用其他任意方法获得所述基因标志物组合中各基因的表达水平。
在本发明中,所述表达水平基于RNA样本进行检测。具体地,可以在获得生物样本后,提取RNA样本进行检测,例如通过全转录组测序、捕获测序或qRT-PCR进行检测。在本发明的另一些实施方案中,也可以利用单细胞RNA测序(scRNA-seq)获得单个肿瘤细胞中所述各基因的表达水平。
在本发明的一些实施方案中,利用单样本基因集富集分析方法(single-samplegene set enrichment analysis,ssGSEA)基于所述基因标志物组合的表达水平获得组合得分,若组合得分超过预设阈值,则具有不良预后的风险。
ssGSEA通过将每个样本的基因表达数据与特定的基因集(免疫细胞基因集)进行比较,来估计该基因集在该样本中的相对富集程度。具体而言,ssGSEA首先将所有基因按照其表达量从大到小进行排序,并计算在某个基因集内,基因表达量较高的基因的累积分布函数。这个累积分布函数被称为基因集富集得分(gene set enrichment score,GSE)。然后,对于每个样本,将该样本中的所有基因的表达量按照从大到小的顺序排列,计算每个位置上所对应的基因集富集得分。最后,将这些位置上的得分进行平均或加权平均,得到该样本在该基因集上的ssGSEA得分。
在本发明的一些实施方案中,所述预设阈值是群体正常样本的代表值,包括但不限于极大值、第三四分位数。在本发明的另一些实施方案中,所述预设阈值是群体胃癌预后不良样本的代表值,包括但不限于极小值、第一四分位数。
在本发明的一些优选实施方案中,所述群体样本包括20个以上样本,例如30个、50个、80个、100个、150个、200个、300个、500个或更多。
在本发明的一些实施方案中,不同的检测试剂对应不同的阈值。在本发明的一些具体实施方案中,所述检测试剂为RNA测序试剂,所述预设阈值为2.02~2.24,优选地所述预设阈值为2.02,即当组合得分超过2.02时,具有不良预后的风险。在本发明的另一些具体实施方案中,所述检测试剂为芯片测序试剂,所述预设阈值为0.75~1.59,优选地所述预设阈值为0.75,即当组合得分超过0.75时,具有不良预后的风险。
转录组代表存在于细胞中RNA的全部类型,包括mRNA、rRNA、tRNA以及其它各种非编码RNA等。DNA微阵列(DNA Microarrays)技术或称基因芯片(Genechip)测序技术和RNA测序技术(RNA sequencing,RNA-seq)是转录组分析中的两种主要技术。它们的主要区别在于,DNA微阵列基于预先设计的标记探针与目标cDNA序列的杂交,而RNA-seq通过测序技术对cDNA链进行直接测序。
在本发明的一些实施方案中,所述RNA测序试剂包括但不限于RNA提取试剂及文库构建试剂,所述芯片测序试剂包括但不限于RNA提取试剂,以及基因芯片即DNA微阵列。本发明第三方面提供一种用于预测胃癌不良预后的试剂盒,包括本发明第一方面任一所述的基因标志物组合的表达水平的检测试剂。
在本发明的一些实施方案中,所述表达水平的检测试剂是指能够检测所述基因转录水平和蛋白水平的试剂。例如靶向基因转录产物的引物和/或探针,或者特异性结合相应蛋白的抗体。
在本发明的一些实施方案中,还包括RNA提取试剂。
本发明第四方面提供一种预测胃癌不良预后的系统,包括:
数据输入模块,用于获得本发明第一方面所述基因标志物组合中各基因的表达水平;
预测模块,与所述数据输入模块连接,用于根据所述各基因的表达水平,利用单样本基因集富集分析方法预测胃癌不良预后。
在本发明的一些实施方案中,所述预测模块中,利用单样本基因集富集分析方法基于所述基因标志物组合的表达水平获得组合得分,若组合得分超过预设阈值,则具有不良预后的风险。
在本发明的一些实施方案中,所述系统还包括参数存储模块,与所述预测模块连接,用于存储所述预设阈值,所述预设阈值是利用群体样本得到的。
在本发明的一些实施方案中,所述参数存储模块中的所述预设阈值根据所述预测模块中的预测结果进行更新。
本发明还公开一种筛选用于预测癌症不良预后的基因标志物组合的方法,包括以下步骤:
S1,获得群体癌症样本的单细胞测序数据,并进行质控:除表达基因数量低于200、UMI数量低于4500、MT基因表达量比例高于20%的基因;
S2,对单细胞测序数据进行标准化:将每个细胞的每个基因的计数除以该细胞中全部基因的总计数,然后进行对数转换;
S3,高变基因鉴定:使用loss拟合平滑曲线模型,获取模型计算的参数,按照由高到低进行排序,选取前1000~3000个基因做为高变基因;
S4,数据归一化:转换每个基因的表达值,使每个细胞的平均表达为0,转换每个基因的表达值,使细胞间的方差为1;
S5,主成分分析:使用JackStraw算法确定数据维度,选择显著性最高的前10个维度。
S6,细胞聚类:使用KNN算法进行聚类,基于步骤S5获得的主成分将细胞分为不同的簇;
S7,利用差异表达分析算法,筛选特异性细胞类型中的显著差异基因。
在本发明的一些实施方案中,进一步根据蛋白关系和/或基因表达比例筛选基因。
在本发明的一些实施方案中,所述癌症为胃癌,所述特异性细胞类型为PLF细胞。
本发明的有益效果
相对于现有技术,本发明的有益效果如下:
本发明利用单细胞测序的方法,结合生物信息学分析方法,发现了一组基于胃癌肿瘤细胞的生物标志物,包括ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B。该生物标志物组合可以预测胃癌患者的不良预后。
本发明的基因标志物组合,充分考虑了基因相互作用和基因的实际作用,对胃癌的预后评估更为全面,具有十分重要的临床应用价值。
附图说明
图1示出了本发明实施例1胃癌细胞的不同细胞类型。
图2示出了本发明实施例1获得的10个基因标志物的蛋白互作网络。
图3示出了本发明实施例1获得的10个基因标志物在胃癌特异性细胞亚群中的表达比例。
图4示出了本发明实施例2中的生存分析结果。图4A示出了利用TCGA数据库得到的生存分析结果;图4B示出了利用GEO数据库GSE84433得到的生存分析结果。
具体实施方式
除非另有说明、从上下文暗示或属于现有技术的惯例,否则本申请中所有的份数和百分比都基于重量,且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下,本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考,且其等价的同族专利也引入作为参考,特别这些文献所披露的关于本领域中的相关术语的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致,则以本申请中提供的术语定义为准。
本申请中的数字范围是近似值,因此除非另有说明,否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值,条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。对于包含小于1的数值或者包含大于1的分数(例如1.1,1.5等)的范围,则适当地将1个单位看作0.0001,0.001,0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围,通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例,并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。
术语“包含”,“包括”,“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在,且与这些其它的组分、步骤或过程是否在本申请中披露无关。为消除任何疑问,除非明确说明,否则本申请中所有使用术语“包含”,“包括”,或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反,出来对操作性能所必要的那些,术语“基本上由……组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由……组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明,否则术语“或”指列出的单独成员或其任何组合。
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
实施例
以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。
除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。
那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。
实施例 1 细胞类型标志基因的获取
一、数据收集与处理
发明人在公共数据库收集了目前已知的所有胃癌单细胞测序数据,按照以下步骤进行预处理:
1、数据质控:去除表达基因数量低于200、UMI数量低于4500、线粒体(MT,mitochondrion)基因表达量比例高于20%的基因,以保证后续分析的准确性。
2、数据标准化:由于在测序之前,会对捕获的RNA片段进行PCR扩增,所以考虑到文库深度对测序的影响,需要对得到的矩阵进行均一化处理。具体地,将每个细胞的每个基因的计数(counts)除以该细胞中全部基因的总计数,然后对结果进行对数转换,得到标准化之后的结果,进入下一步分析。
3、高变基因鉴定:主要是为了计算数据集中表现出高细胞间变异的特征基因(在某些细胞中高表达,而在其他细胞中低表达)。首先使用loss拟合平滑曲线模型,获取模型计算的参数,按照由高到低进行排序,本实施例使用前2000个基因做为高变基因。
4、数据归一化:线性变换“缩放”,是在降维之前的一个标准预处理步骤。转换每个基因的表达值,使每个细胞的平均表达为0,转换每个基因的表达值,使细胞间的方差为1。
5、线性降维:对缩放的数据执行主成分分析(Principal Component Analysis,PCA),将第3步得到的前2000个高可变基因作为RunPCA函数中features参数的输入,用于PC的确定,本实施例使用JackStraw算法,JackStraw计算出显著相关的维度。本实施例中,发明人发现,在10个维度之后,数据显著性大幅下降,其含义是10个维度包含了大部分的样本信息,因此发明人选择10个主成成分作为参数用于后续分析。
6、细胞聚类:细胞聚类是单细胞RNA测序数据分析的核心步骤之一,可以将相似的细胞聚为一类。在本实施例中,使用KNN算法进行聚类,将细胞分为不同的簇。聚类的结果可以通过t-SNE等算法进行可视化。
在鉴定出不同的细胞簇后,需要对其进行注释,确定它们的生物学意义,主要有两种方法进行细胞注释:
(1)利用SingleR软件包:SingleR是一个用于对单细胞RNA-seq测序数据进行细胞类型自动注释的R包(Dvir Aran, Reference-based analysis of lung single-cellsequencing reveals a transitional profibrotic macrophage, Nat Immunol . 2019Feb;20(2):163-172. doi: 10.1038/s41590-018-0276-y. Epub 2019 Jan 14.)。依据已知类型标签的细胞样本作为参考数据集,对测试数据集中的细胞进行标记注释。
(2)利用细胞标志物:B细胞(CD79A、MS4A1);T细胞(CD2、CD3D、CD3E);内分泌细胞(CHGA);内皮细胞(ENG、VWF);上皮细胞(EPCAM、KRT18、KRT8);成纤维细胞(COL1A2、ACTA2);巨噬细胞(CD14、LYZ、CD163);肥大细胞(CPA3)(Zhang M, Dissecting transcriptionalheterogeneity in primary gastric adenocarcinoma by single cell RNAsequencing, Gut. 2021 Mar;70(3):464-475. doi: 10.1136/gutjnl-2019-320368.Epub 2020 Jun 12.)。
本发明主要关注上皮细胞来源的肿瘤细胞,因此后续的分析都只针对该上皮细胞来源的肿瘤细胞,本实施例利用细胞标志物的方法鉴定不同细胞类型,共获得:
GSE167297中的8个患者样本,15480个细胞;
GSE150290中的21个患者样本,49578个细胞;
Anuja数据集中的9个患者样本,15113个细胞;
CRA002586中的9个患者样本,19247个细胞;
GSE183904中的26个患者样本,112983个细胞;
GSE206785中的23个患者样本,62605个细胞。
另外,发明人还收集了胃癌患者的分析数据,包括TCGA-STAD的382个患者RNA测序数据,GSE84433的238个患者RNA测序数据。
二、计算差异表达基因
发明人针对肿瘤细胞进行分析,将鉴定好的肿瘤细胞类型,基于已发表的50个肿瘤关键HALLMARK通路(Hanahan D, Weinberg RA. “Hallmarks of cancer: the nextgeneration.” Cell. 2011 Mar 4;144(5):646-74. doi: 10.1016/j.cell.2011.02.013.)进行分析。这50个肿瘤相关通路行使不同的功能,又可归成8个大类,包括细胞组分(cellular component)、发育(development)、DNA损伤(DNA damage)、免疫(immune)、代谢(metabolic)、通路(pathway)、增殖(proliferation)和信号(signaling)共8个大类(Jian Lin, Yuting Dai et al. “Multimodule characterization of immunesubgroups in intrahepatic cholangiocarcinoma reveals distinct therapeuticvulnerabilities” J Immunother Cancer . 2022 Jul;10(7):e004892. doi: 10.1136/jitc-2022-004892.)。使用单样本基因集富集分析(single sample gene set enrichmentanalysis, ssGSEA)评估通路得分。ssGSEA是GSEA方法的扩展,计算每个样本和基因集配对的富集分数,每个ssGSEA富集评分代表了样本中特定基因集的成员被协调上调或下调的程度(Barbie, David A et al. “Systematic RNA interference reveals that oncogenicKRAS-driven cancers require TBK1.”Nature vol. 462,7269 (2009): 108-12.)。本实施例用ssGSEA为每个肿瘤细胞计算HALLMARK得分,根据无监督聚类,将肿瘤细胞细分成6种类型,如图1所示。其中,PLF型(ProLiFeration)主要富集增殖相关的通路;pre-PLF型富集的增殖得分低于PLF型,但是又高于其他细胞类型;EMT型(Epithelial MesenchymalTransition)主要富集上皮间质转化,肿瘤转移相关通路;pre-EMT型的上皮间质转化得分低于EMT型,又高于其他细胞类型;而TSL型(TranSitionaL)的各种信号通路得分都显著上升,是一种过渡型;NLT型(Normal Like Tumor)各种通路得分都很低,表现出与正常细胞相似的特征。而PLF型细胞是胃癌细胞的特异性细胞类型。
差异基因计算是单细胞RNA测序分析中的一个重要任务。发明人使用Seurat包的差异表达分析(DE)算法,找出PLF细胞类型中的显著差异基因。共得到56个Foldchange>1.5的差异基因,如表1所示:
表1 PLF细胞中差异基因
将差异基因按Foldchange从高到低进行排序。进一步,发明人使用STRING数据库分析了基因的蛋白互作关系,STRING数据库(https://string-db.org/)是一个搜寻蛋白质之间相互作用的数据库,数据库中既包括蛋白质之间的直接物理相互作用,也包括蛋白质之间的间接功能相关性,它可以选择不同方式去查找互作网络,可通过输入单个或者多个蛋白名称、氨基酸序列查找其互作网络。本实施例探究了Foldchange Top10的基因(ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B)的蛋白调控网络(图2)。分析发现KIAA0101、H2AFZ、HMGB2、ACTG1、STMN1、TUBA1B在同一个调控网络中。另外还发现GPX2与AKR1B10存在着互作关系,MUC5AC与TFF1存在着互作关系。最后对于上述top10基因表达比例的统计,发现了所有基因均在PLF细胞中特异性表达,每个基因在PLF细胞中的表达比例均高于80%(图3)。上述结果说明Top10基因组成了多个蛋白互作网络,又都同时调控PLF细胞,是PLF细胞执行生物学功能的关键分子。
实施例2 生存分析
使用Kaplan-Meier曲线绘制生存曲线。Kaplan-Meier曲线显示患者在不同时间点的生存率,可以用来比较不同治疗组或不同临床特征组之间的生存差异。
本实施例使用单样本基因集富集分析(single sample gene set enrichmentanalysis,ssGSEA)算法评估胃癌预后风险得分模型与,计算ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B的组合得分,作为预后评估的指标。
(1)针对TCGA数据库,使用的测序类型是RNA-seq,经过计算得分值大于2.02时,具有预测不良预后的功能。即在胃癌患者中ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B的组合基因模型得分,大于2.02时标记为胃癌不良预后高风险人群(在本实施例中,最高为2.24),具体表现为这类胃癌患者的生存时间较短,图4A。
(2)针对GEO数据库GSE84433,使用的是芯片测序,经过计算发现得分值大于1.59时,计算胃癌患者中ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B的组合基因模型得分。得分大于1.59时,标记为胃癌不良预后高风险人群(在本实施例中,最高为1.75),具体表现为这类胃癌患者的生存时间较短,如图4B。
由此可见,针对不同的测序平台类型,使用不同的分组阈值,ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B的组合均可以预测胃癌患者的不良预后,并且表现出了较高的稳定性。
综上所述,本发明利用单细胞测序的方法,结合生物信息学分析方法,发现了一组基于胃癌肿瘤细胞的生物标志物,包括ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1、TUBA1B。该生物标志物组合可以预测胃癌患者的不良预后。同时针对于不同的测序平台,本发明提出了不同的检测范围,RNA-seq的有效范围是2.02~2.24,芯片测序的有效范围是1.59~1.75。本发明的10基因的生物标志物组合对于预测胃癌患者的不良预后有重要的临床价值。
本发明的上述方法一种预测胃癌不良预后的系统,包括:
数据输入模块,用于上述基因标志物组合中各基因的表达水平;
预测模块,与数据输入模块连接,利用单样本基因集富集分析方法基于所述基因标志物组合的表达水平获得组合得分,若组合得分超过预设阈值,则具有不良预后的风险。
还包括参数存储模块,与预测模块连接,用于存储预设阈值。
另外,参数存储模块中的预设阈值还可以根据预测模块中的预测结果进行更新。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
Claims (5)
1.基因标志物组合的表达水平的检测试剂在制备用于预测胃癌不良预后的试剂盒中的应用,其中,所述基因标志物组合为ACTG1、AKR1B10、GPX2、H2AFZ、HMGB2、KIAA0101、MUC5AC、STMN1、TFF1和TUBA1B。
2.根据权利要求1所述的应用,其特征在于,利用单样本基因集富集分析方法基于所述基因标志物组合的表达水平获得组合得分,若组合得分超过预设阈值,则具有不良预后的风险。
3.根据权利要求2所述的应用,其特征在于,所述检测试剂为RNA测序试剂,所述预设阈值为2.02~2.24。
4.根据权利要求2所述的应用,其特征在于,所述检测试剂为芯片测序试剂,所述预设阈值为0.75~1.59。
5.一种预测胃癌不良预后的系统,其特征在于,
包括:
数据输入模块,用于获得权利要求1所述基因标志物组合中各基因的表达水平;
预测模块,与所述数据输入模块连接,用于根据所述各基因的表达水平,利用单样本基因集富集分析方法预测胃癌不良预后,
所述预测模块中,利用单样本基因集富集分析方法基于所述基因标志物组合的表达水平获得组合得分,若组合得分超过预设阈值,则具有不良预后的风险,当所述各基因的表达水平利用RNA测序试剂得到,所述预设阈值为2.02~2.24;当所述各基因的表达水平利用芯片测序试剂得到,所述预设阈值为0.75~1.59。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310952768.8A CN116656829B (zh) | 2023-08-01 | 2023-08-01 | 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310952768.8A CN116656829B (zh) | 2023-08-01 | 2023-08-01 | 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116656829A CN116656829A (zh) | 2023-08-29 |
CN116656829B true CN116656829B (zh) | 2024-04-12 |
Family
ID=87721052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310952768.8A Active CN116656829B (zh) | 2023-08-01 | 2023-08-01 | 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116656829B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110499364A (zh) * | 2019-07-30 | 2019-11-26 | 北京凯昂医学诊断技术有限公司 | 一种用于检测扩展型遗传病全外显子的探针组及其试剂盒和应用 |
CN114875149A (zh) * | 2022-06-02 | 2022-08-09 | 中国人民解放军空军军医大学 | 检测生物标志物的试剂在制备预测胃癌预后产品中的应用 |
CN115747329A (zh) * | 2022-09-03 | 2023-03-07 | 昂凯生命科技(苏州)有限公司 | 用于预测肿瘤进展及预后的基因标志物组合、试剂盒及系统 |
-
2023
- 2023-08-01 CN CN202310952768.8A patent/CN116656829B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110499364A (zh) * | 2019-07-30 | 2019-11-26 | 北京凯昂医学诊断技术有限公司 | 一种用于检测扩展型遗传病全外显子的探针组及其试剂盒和应用 |
CN114875149A (zh) * | 2022-06-02 | 2022-08-09 | 中国人民解放军空军军医大学 | 检测生物标志物的试剂在制备预测胃癌预后产品中的应用 |
CN115747329A (zh) * | 2022-09-03 | 2023-03-07 | 昂凯生命科技(苏州)有限公司 | 用于预测肿瘤进展及预后的基因标志物组合、试剂盒及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116656829A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7666595B2 (en) | Biomarkers for predicting prostate cancer progression | |
JP2022521492A (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
CN105219844B (zh) | 一种筛查十一种疾病的基因标志物组合、试剂盒以及疾病风险预测模型 | |
CN106778073B (zh) | 一种评估肿瘤负荷变化的方法和系统 | |
US20200219587A1 (en) | Systems and methods for using fragment lengths as a predictor of cancer | |
KR101672531B1 (ko) | 조기 유방암 예후 예측 진단용 유전자 마커 및 이의 용도 | |
EP3094747A1 (en) | Gene expression panel for prognosis of prostate cancer recurrence | |
US11929148B2 (en) | Systems and methods for enriching for cancer-derived fragments using fragment size | |
CN110423816B (zh) | 乳腺癌预后量化评估系统及应用 | |
CN109337978B (zh) | miRNA在制备高级浆液性上皮性卵巢癌化疗耐药性评价试剂盒中的应用 | |
CN116656829B (zh) | 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统 | |
JP2006101701A5 (zh) | ||
CN113470754A (zh) | 一种用于肿瘤预后评估的基因标志物、评估产品及应用 | |
CN113241181A (zh) | 一种用于肝癌患者的预后风险评估模型及评估装置 | |
CN113450917A (zh) | 生物标志物在预测肝癌预后中的应用 | |
CN115472294B (zh) | 预测小细胞转化肺腺癌患者转化速度的模型及其构建方法 | |
WO2024062867A1 (ja) | 対象のがん罹患の可能性を分析する方法 | |
CN118016313A (zh) | 一种前列腺神经内分泌癌预测模型的训练方法 | |
WO2022170133A1 (en) | Micro rna liver cancer markers and uses thereof | |
CN115961042A (zh) | Igfbp1基因或chaf1a基因在作为胃腺癌预后分子标志物中的应用 | |
CN116904575A (zh) | 与矽肺患者体能衰退相关的生物标志物及其用途 | |
WO2023096699A1 (en) | Compositions and methods for identifying transplant rejection or the risk thereof | |
CN117070628A (zh) | 胰腺癌预后预测的产品、模型、系统、装置及其应用 | |
EP4278015A1 (en) | Methods for determining cancer | |
CA3239042A1 (en) | Compositions and methods for identifying transplant rejection or the risk thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |