CN115424728A - 一种肿瘤恶性细胞基因预后风险模型构建方法 - Google Patents
一种肿瘤恶性细胞基因预后风险模型构建方法 Download PDFInfo
- Publication number
- CN115424728A CN115424728A CN202211359084.9A CN202211359084A CN115424728A CN 115424728 A CN115424728 A CN 115424728A CN 202211359084 A CN202211359084 A CN 202211359084A CN 115424728 A CN115424728 A CN 115424728A
- Authority
- CN
- China
- Prior art keywords
- cell
- malignant
- tumor
- cells
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 92
- 230000003211 malignant effect Effects 0.000 title claims abstract description 75
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 71
- 238000004393 prognosis Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 22
- 230000008506 pathogenesis Effects 0.000 claims abstract description 17
- 210000004027 cell Anatomy 0.000 claims description 128
- 230000014509 gene expression Effects 0.000 claims description 29
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 26
- 206010017758 gastric cancer Diseases 0.000 claims description 26
- 201000011549 stomach cancer Diseases 0.000 claims description 26
- 201000011510 cancer Diseases 0.000 claims description 20
- 210000002919 epithelial cell Anatomy 0.000 claims description 19
- 239000003550 marker Substances 0.000 claims description 17
- 238000012049 whole transcriptome sequencing Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000000611 regression analysis Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 239000000523 sample Substances 0.000 claims description 4
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 claims description 3
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 claims description 3
- 101000971513 Homo sapiens Natural killer cells antigen CD94 Proteins 0.000 claims description 3
- 101000620348 Homo sapiens Plasmalemma vesicle-associated protein Proteins 0.000 claims description 3
- 101000946843 Homo sapiens T-cell surface glycoprotein CD8 alpha chain Proteins 0.000 claims description 3
- 101000801255 Homo sapiens Tumor necrosis factor receptor superfamily member 17 Proteins 0.000 claims description 3
- 102100021462 Natural killer cells antigen CD94 Human genes 0.000 claims description 3
- 102100022427 Plasmalemma vesicle-associated protein Human genes 0.000 claims description 3
- 102100034922 T-cell surface glycoprotein CD8 alpha chain Human genes 0.000 claims description 3
- 102100033726 Tumor necrosis factor receptor superfamily member 17 Human genes 0.000 claims description 3
- 210000002889 endothelial cell Anatomy 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 210000002950 fibroblast Anatomy 0.000 claims description 3
- 210000003630 histaminocyte Anatomy 0.000 claims description 3
- 210000002540 macrophage Anatomy 0.000 claims description 3
- 108091064355 mitochondrial RNA Proteins 0.000 claims description 3
- 210000000822 natural killer cell Anatomy 0.000 claims description 3
- 201000009030 Carcinoma Diseases 0.000 claims description 2
- 238000013332 literature search Methods 0.000 claims description 2
- 239000013610 patient sample Substances 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims 2
- 230000002496 gastric effect Effects 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract description 4
- 238000003745 diagnosis Methods 0.000 abstract description 4
- 239000000090 biomarker Substances 0.000 abstract description 3
- 238000003759 clinical diagnosis Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 3
- 239000003814 drug Substances 0.000 abstract description 3
- 229940079593 drug Drugs 0.000 abstract description 3
- 238000009472 formulation Methods 0.000 abstract description 3
- 239000000203 mixture Substances 0.000 abstract description 3
- 238000012795 verification Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 210000002784 stomach Anatomy 0.000 description 3
- 206010020718 hyperplasia Diseases 0.000 description 2
- 230000000998 lymphohematopoietic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 239000000107 tumor biomarker Substances 0.000 description 2
- 102100027265 Aldo-keto reductase family 1 member B1 Human genes 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 102100030004 Calpain-8 Human genes 0.000 description 1
- 102100038447 Claudin-4 Human genes 0.000 description 1
- 102100037364 Craniofacial development protein 1 Human genes 0.000 description 1
- 102000004328 Cytochrome P-450 CYP3A Human genes 0.000 description 1
- 108010081668 Cytochrome P-450 CYP3A Proteins 0.000 description 1
- 102100034582 E3 ubiquitin/ISG15 ligase TRIM25 Human genes 0.000 description 1
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 1
- 201000008808 Fibrosarcoma Diseases 0.000 description 1
- 102100031416 Gastric triacylglycerol lipase Human genes 0.000 description 1
- 101000836540 Homo sapiens Aldo-keto reductase family 1 member B1 Proteins 0.000 description 1
- 101000793675 Homo sapiens Calpain-8 Proteins 0.000 description 1
- 101000882890 Homo sapiens Claudin-4 Proteins 0.000 description 1
- 101000880187 Homo sapiens Craniofacial development protein 1 Proteins 0.000 description 1
- 101000848655 Homo sapiens E3 ubiquitin/ISG15 ligase TRIM25 Proteins 0.000 description 1
- 101000941284 Homo sapiens Gastric triacylglycerol lipase Proteins 0.000 description 1
- 101001044940 Homo sapiens Insulin-like growth factor-binding protein 2 Proteins 0.000 description 1
- 101000606728 Homo sapiens Pepsin A-3 Proteins 0.000 description 1
- 101000606745 Homo sapiens Pepsin A-4 Proteins 0.000 description 1
- 101000606748 Homo sapiens Pepsin A-5 Proteins 0.000 description 1
- 101000738776 Homo sapiens Pituitary tumor-transforming gene 1 protein-interacting protein Proteins 0.000 description 1
- 101001126471 Homo sapiens Plectin Proteins 0.000 description 1
- 101001000368 Homo sapiens Proline, histidine and glycine-rich protein 1 Proteins 0.000 description 1
- 101001068552 Homo sapiens Proline-rich protein 15-like protein Proteins 0.000 description 1
- 101000706160 Homo sapiens Syntaxin-10 Proteins 0.000 description 1
- 101000644174 Homo sapiens Uridine phosphorylase 1 Proteins 0.000 description 1
- 101000860430 Homo sapiens Versican core protein Proteins 0.000 description 1
- -1 IMPACT Proteins 0.000 description 1
- 102100022710 Insulin-like growth factor-binding protein 2 Human genes 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010027406 Mesothelioma Diseases 0.000 description 1
- 208000034578 Multiple myelomas Diseases 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 102100039657 Pepsin A-3 Human genes 0.000 description 1
- 102100039655 Pepsin A-4 Human genes 0.000 description 1
- 102100039652 Pepsin A-5 Human genes 0.000 description 1
- 102100037419 Pituitary tumor-transforming gene 1 protein-interacting protein Human genes 0.000 description 1
- 206010035226 Plasma cell myeloma Diseases 0.000 description 1
- 102100030477 Plectin Human genes 0.000 description 1
- 102100035871 Proline, histidine and glycine-rich protein 1 Human genes 0.000 description 1
- 102100033950 Proline-rich protein 15-like protein Human genes 0.000 description 1
- 108091006285 SLC17A9 Proteins 0.000 description 1
- 206010039491 Sarcoma Diseases 0.000 description 1
- 102100023106 Solute carrier family 17 member 9 Human genes 0.000 description 1
- 102100031099 Syntaxin-10 Human genes 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 102100020892 Uridine phosphorylase 1 Human genes 0.000 description 1
- 102100028437 Versican core protein Human genes 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 230000008614 cellular interaction Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000035474 group of disease Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 206010024627 liposarcoma Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 210000004324 lymphatic system Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 201000008968 osteosarcoma Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- KSIRMUMXJFWKAC-FHJHOUOTSA-N prostaglandin A3 Chemical compound CC\C=C/C[C@H](O)\C=C\[C@H]1C=CC(=O)[C@@H]1C\C=C/CCCC(O)=O KSIRMUMXJFWKAC-FHJHOUOTSA-N 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Zoology (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Immunology (AREA)
- Wood Science & Technology (AREA)
- Hospice & Palliative Care (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Oncology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Biochemistry (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种肿瘤恶性细胞基因预后风险模型构建方法,应用生物信息学,选择肿瘤患者群体作为研究对象,通过整合单细胞转录组测序数据集和全转录组测序数据集识别肿瘤致病相关的恶性细胞预后基因,并构建预后风险模型,有利于不同肿瘤诊断生物标志物的应用手册制定与靶向药物的设计,为肿瘤的临床诊断与治疗提供新的思路。
Description
技术领域
本发明涉及生物技术领域,具体涉及一种肿瘤恶性细胞基因预后风险模型构建方法。
背景技术
恶性肿瘤是严重危及人类健康的一类疾病,根据恶性肿瘤的起源不同可分为不同类型,包括来源于上皮细胞的恶性克隆性增生、间叶源性的恶性肿瘤以及淋巴造血系统的恶性疾病,来源于上皮细胞的恶性克隆性增生称为癌症,如肺癌、胃癌、乳腺癌、食管癌等,来源于间叶源性的恶性肿瘤可以称为肉瘤,如脂肪肉瘤、纤维肉瘤、骨肉瘤、间皮瘤等,淋巴造血系统的恶性疾病起源于淋巴系统的恶性肿瘤以及部分血液系统疾病,如白血病、多发性骨髓瘤等。不同的恶性肿瘤存在着特异的分子亚型与临床表现,虽然肿瘤的早期治愈率很高,但由于大部分肿瘤早期症状不明显,患者就诊时往往已处于中晚期,生存预后情况也不容乐观,临床上常用的肿瘤生物标志物特异性并不高,在不同肿瘤、年龄、性别的患者间均有较大的差异,不利于诊断与治疗,寻找与某类肿瘤起源相关的某种特定类型细胞基因,有利于不同肿瘤诊断生物标志物的应用手册制定与靶向药物的设计,具有较大的现实意义和学术意义。
随着高通量测序技术的发展与应用,恶性肿瘤的发病机制探索拥有了新的手段与方法,大大加快了人类肿瘤分子特征研究的步伐。传统的全转录组测序虽然可以提供海量的基因表达谱数据,但无法区分不同细胞谱系与细胞相互作用之间的关系,单细胞转录组测序的出现弥补了全转录组测序的不足,它提供了一种可以表征单个细胞转录状态的方法,可以根据恶性肿瘤的起源或具体特征选择合适的细胞类型进行深入研究。
发明内容
为此,本发明提供一种肿瘤恶性细胞基因预后风险模型构建方法,以联合单细胞转录组测序和全转录组测序数据寻找肿瘤恶性细胞基因并构建预后风险模型,为肿瘤的临床诊断与治疗提供新的思路。
为了实现上述目的,本发明提供如下技术方案:一种肿瘤恶性细胞基因预后风险模型构建方法,所述方法包括:
步骤一:从多个数据库中获取肿瘤患者的肿瘤组织、癌旁组织与正常组织的单细胞转录组测序数据集和全转录组测序数据集;
步骤二:对单细胞转录组测序数据集进行预处理,筛选符合设定标准的细胞并获取其测序数据;
步骤三:对预处理得到的单细胞转录组测序数据进行标准化和归一化,通过锚点整合并进行降维和聚类得到不同细胞群;
步骤四:获取不同细胞类型的标志基因,根据标志基因在不同细胞群中的分布情况对不同细胞群进行细胞类型注释;
步骤五:将其中一种注释为设定细胞类型的细胞群提取出来,并区分为恶性与非恶性细胞,并对恶性与非恶性细胞进行差异表达基因分析,获得恶性与非恶性细胞的差异表达基因;
步骤六:对全转录组测序数据集进行肿瘤组织与癌旁组织、正常组织的差异表达基因分析,然后进行取交集处理,获得肿瘤致病相关的恶性基因;
步骤七:将得到的恶性与非恶性细胞的差异表达基因与获得的肿瘤致病相关的恶性基因取交集处理,获得肿瘤致病相关的恶性细胞基因;
步骤八:对得到的肿瘤致病相关的恶性细胞基因进行单因素Cox回归分析、Lasso回归分析和多因素Cox回归分析,筛选出与预后相关的恶性细胞基因,并构建预后风险模型。
进一步地,所述步骤一,具体包括:
从GEO数据库获得单细胞转录组测序数据集,从TCGA、GEO、GTEx数据库获得全转录组测序数据集;
纳入的数据集需满足以下条件:使用人类肿瘤组织样本,包括:人类正常组织样本、肿瘤组织样本和癌旁组织样本;每个数据集至少包含预设个数的样本。
进一步地,所述步骤一中,单细胞转录组测序数据集样本为具有配对原发性肿瘤和癌旁组织的患者样本;全转录组测序数据集包括:TCGA-STAD数据集,含有多个胃癌组织样本和多个癌旁组织样本;GTEx-stomach数据集,含有多个正常胃组织样本;GSE15459数据集,含有多个胃癌组织样本;GSE29272数据集,含有多个胃癌组织样本和多个癌旁组织样本;GSE57303数据集,含有多个胃癌组织样本;GSE62254数据集,含有多个胃癌组织样本;GSE66229数据集,含有多个胃癌组织样本和多个癌旁组织样本。
进一步地,所述步骤二中,筛选标准包括:每个基因有三个或三个以上的细胞表达;每个细胞表达500-6000个基因;线粒体RNA含量小于20%。
进一步地,所述步骤三具体还包括:
对不同细胞群进行差异表达基因分析,获得不同细胞群的差异表达基因,其中差异表达基因是采用R软件中的“Seurat”包来识别的。
进一步地,所述步骤四中具体包括:
使用R软件中的“SingleR”包或通过文献检索获得不同细胞类型的标志基因,并将细胞群中表达最高的标志基因所对应的细胞类型注释为细胞群的细胞类型。
进一步地,所述步骤四中,不同细胞类型的标志基因具体包括,上皮细胞:CDH1;内皮细胞:PLVAP;成纤维细胞:FN1;T细胞:CD8A;B细胞:TNFRSF17;巨噬细胞:CD163;NK细胞:KLRD1;肥大细胞:KIT。
进一步地,所述步骤五中,采用R软件中的“InferCNV”包来区分恶性与非恶性细胞,以癌旁组织细胞作为参照,对肿瘤组织细胞的基因拷贝数变异情况进行分析,采用kmeans算法聚类并计算基因拷贝数变异得分值,将高于平均得分值的类群定义为恶性细胞,不高于平均得分值的类群定义为非恶性细胞。
进一步地,所述步骤六和步骤七中,采用R软件中的“Venn”包进行取交集处理。
进一步地,所述步骤八中,以TCGA-STAD数据集作为训练集,GSE62254数据集作为验证集,所构建的预后风险模型在训练集与验证集的预测能力评价标准ROC大于设定值,证明模型性能良好。
本发明具有如下优点:
本发明提出的一种肿瘤恶性细胞基因预后风险模型构建方法,应用生物信息学,选择肿瘤患者群体作为研究对象,通过整合单细胞转录组测序数据集和全转录组测序数据集识别肿瘤致病相关的恶性细胞预后基因,并构建预后风险模型,有利于不同肿瘤诊断生物标志物的应用手册制定与靶向药物的设计,为肿瘤的临床诊断与治疗提供新的思路。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的一种肿瘤恶性细胞基因预后风险模型构建方法的流程示意图;
图2为本发明实施例提供的一种肿瘤恶性细胞基因预后风险模型构建方法中得到的胃癌致病相关的恶性基因示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于单细胞和全转录组测序数据的胃癌恶性上皮细胞基因预后风险模型构建方法,该方法具体包括:
从肿瘤基因组图谱(TCGA, https://portal.gdc.cancer.gov/)基因表达综合数据库(GEO, https://www.ncbi.nlm.nih.gov/GEO/)和基因型组织表达数据库(GTEx,https://gtexportal.org/home/)中获得肿瘤患者的肿瘤组织、癌旁组织与正常组织的单细胞和全转录组测序数据集,包括TCGA-STAD、GTEx-stomach、GSE15459、GSE29272、GSE57303、GSE62254、GSE66229和GSE183904。
单细胞转录组测序数据集选择9名具有配对原发性肿瘤和癌旁组织的患者共18个样本进行深入研究,全转录组测序数据集TCGA-STAD含有375个胃癌组织样本和32个癌旁组织样本,GTEx-stomach含有217个正常胃组织样本,GSE15459含有192个胃癌组织样本,GSE29272含有134个胃癌组织样本和134个癌旁组织样本,GSE57303含有70个胃癌组织样本,GSE62254含有300个胃癌组织样本,GSE66229含有300个胃癌组织样本和100个癌旁组织样本。
对单细胞转录组测序数据集进行质量控制,选择符合标准的细胞用于后续研究,质量控制标准如下:1)每个基因有三个或三个以上的细胞表达;2)每个细胞表达500-6000个基因;3)线粒体RNA含量小于20%,用于后续研究的细胞共49994个。
使用R软件中的“Seurat”包对预处理后的单细胞数据进行标准化和归一化,通过锚点整合并进行降维聚类,降维时所采用的PC数为10,聚类时所采用的分辨率为1.0,共降维聚类得到33个细胞群(cluster)。对不同细胞群进行差异表达基因分析,获得不同细胞群的差异表达基因,差异表达基因的|log2FC| > 0.25且adj.P < 0.05。
通过文献检索获得不同细胞类型的标志(marker)基因,根据标志基因在不同细胞群中的分布情况对不同细胞群进行细胞类型注释,不同细胞cluster类型注释时的marker基因需在该cluster中表达最高才可注释为该marker基因所对应的细胞类型。
不同细胞类型的标志基因具体如下:1)上皮细胞:CDH1;2)内皮细胞:PLVAP;3)成纤维细胞:FN1;4)T细胞:CD8A;5)B细胞:TNFRSF17;6)巨噬细胞:CD163;7)NK细胞:KLRD1;8)肥大细胞:KIT,共注释得到8种类型的细胞。
将其中注释为上皮细胞的细胞群提取出来,使用R软件中的“InferCNV”包区分恶性与非恶性上皮细胞,以癌旁组织细胞作为参照,对肿瘤组织细胞的基因拷贝数变异情况进行分析,采用kmeans算法聚类并计算基因拷贝数变异得分值,将高于平均得分值0.00124的类群定义为恶性上皮细胞,然后使用R软件中的“Seurat”包对恶性与非恶性上皮细胞进行差异表达基因分析,获得恶性与非恶性上皮细胞的差异表达基因,差异表达基因的|log2FC| > 0.25且adj.P < 0.05,排行前五的恶性与非恶性上皮细胞差异表达基因如下:1)恶性上皮细胞:CAPN8、CLDN4、CYP3A5、PHGR1和PLEC;2)非恶性上皮细胞:IGFBP2、LIPF、PGA3、PGA4和PGA5。
对TCGA-STAD和GTEx-stomach数据集以及GSE15459、GSE57303和GSE66229数据集进行去批次效应整合,得到基因表达矩阵,对多个全转录组测序数据集使用R软件中的“limma”包进行肿瘤组织与癌旁组织、正常胃组织的差异表达基因分析,差异表达基因的|log2FC| > 1.0且adj.P < 0.05,然后使用R软件中的“Venn”包进行取交集处理,获得胃癌致病相关的恶性基因,共获得92个上调基因和75个下调基因,如图2所示。
使用R软件中的“Venn”包将单细胞转录组测序数据获得的恶性上皮细胞基因与胃癌致病相关的恶性基因进行取交集处理,获得胃癌致病相关的恶性上皮细胞基因共146个。
以TCGA-STAD数据集作为训练集,GSE62254数据集作为验证集,使用R软件中的“survival”包、“survminer”包、“rms”包和“timeROC”包对胃癌致病相关的恶性上皮细胞基因进行单因素Cox回归分析、Lasso回归分析和多因素Cox回归分析,筛选出与预后相关的恶性上皮细胞基因,构建预后风险模型,最终构建出一个包括10个胃癌致病相关的恶性上皮细胞基因预后风险模型,基因具体如下:AKR1B1、CFDP1、IMPACT、PRR15L、PTTG1IP、SLC17A9、STX10、TRIM25、UPP1和VCAN,所构建的预后风险模型在训练集与验证集的预测能力评价标准ROC均大于0.5,模型性能良好。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述方法包括:
步骤一:从多个数据库中获取肿瘤患者的肿瘤组织、癌旁组织与正常组织的单细胞转录组测序数据集和全转录组测序数据集;
步骤二:对单细胞转录组测序数据集进行预处理,筛选符合设定标准的细胞并获取其测序数据;
步骤三:对预处理得到的单细胞转录组测序数据进行标准化和归一化,通过锚点整合并进行降维和聚类得到不同细胞群;
步骤四:获取不同细胞类型的标志基因,根据标志基因在不同细胞群中的分布情况对不同细胞群进行细胞类型注释;
步骤五:将其中一种注释为设定细胞类型的细胞群提取出来,并区分为恶性与非恶性细胞,并对恶性与非恶性细胞进行差异表达基因分析,获得恶性与非恶性细胞的差异表达基因;
步骤六:对全转录组测序数据集进行肿瘤组织与癌旁组织、正常组织的差异表达基因分析,然后进行取交集处理,获得肿瘤致病相关的恶性基因;
步骤七:将得到的恶性与非恶性细胞的差异表达基因与获得的肿瘤致病相关的恶性基因取交集处理,获得肿瘤致病相关的恶性细胞基因;
步骤八:对得到的肿瘤致病相关的恶性细胞基因进行单因素Cox回归分析、Lasso回归分析和多因素Cox回归分析,筛选出与预后相关的恶性细胞基因,并构建预后风险模型。
2.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤一,具体包括:
从GEO数据库获得单细胞转录组测序数据集,从TCGA、GEO、GTEx数据库获得全转录组测序数据集;
纳入的数据集需满足以下条件:使用人类肿瘤组织样本,包括:人类正常组织样本、肿瘤组织样本和癌旁组织样本;每个数据集至少包含预设个数的样本。
3.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤一中,单细胞转录组测序数据集样本为具有配对原发性肿瘤和癌旁组织的患者样本;全转录组测序数据集包括:TCGA-STAD数据集,含有多个胃癌组织样本和多个癌旁组织样本;GTEx-stomach数据集,含有多个正常胃组织样本;GSE15459数据集,含有多个胃癌组织样本;GSE29272数据集,含有多个胃癌组织样本和多个癌旁组织样本;GSE57303数据集,含有多个胃癌组织样本;GSE62254数据集,含有多个胃癌组织样本;GSE66229数据集,含有多个胃癌组织样本和多个癌旁组织样本。
4.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤二中,筛选标准包括:每个基因有三个或三个以上的细胞表达;每个细胞表达500-6000个基因;线粒体RNA含量小于20%。
5.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤三具体还包括:
对不同细胞群进行差异表达基因分析,获得不同细胞群的差异表达基因,其中差异表达基因是采用R软件中的“Seurat”包来识别的。
6.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤四中具体包括:
使用R软件中的“SingleR”包或通过文献检索获得不同细胞类型的标志基因,并将细胞群中表达最高的标志基因所对应的细胞类型注释为细胞群的细胞类型。
7.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤四中,不同细胞类型的标志基因具体包括,上皮细胞:CDH1;内皮细胞:PLVAP;成纤维细胞:FN1;T细胞:CD8A;B细胞:TNFRSF17;巨噬细胞:CD163;NK细胞:KLRD1;肥大细胞:KIT。
8.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤五中,采用R软件中的“InferCNV”包来区分恶性与非恶性细胞,以癌旁组织细胞作为参照,对肿瘤组织细胞的基因拷贝数变异情况进行分析,采用kmeans算法聚类并计算基因拷贝数变异得分值,将高于平均得分值的类群定义为恶性细胞,不高于平均得分值的类群定义为非恶性细胞。
9.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤六和步骤七中,采用R软件中的“Venn”包进行取交集处理。
10.根据权利要求3所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤八中,以TCGA-STAD数据集作为训练集,GSE62254数据集作为验证集,所构建的预后风险模型在训练集与验证集的预测能力评价标准ROC大于设定值,证明模型性能良好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211359084.9A CN115424728A (zh) | 2022-11-02 | 2022-11-02 | 一种肿瘤恶性细胞基因预后风险模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211359084.9A CN115424728A (zh) | 2022-11-02 | 2022-11-02 | 一种肿瘤恶性细胞基因预后风险模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115424728A true CN115424728A (zh) | 2022-12-02 |
Family
ID=84207744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211359084.9A Pending CN115424728A (zh) | 2022-11-02 | 2022-11-02 | 一种肿瘤恶性细胞基因预后风险模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424728A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798723A (zh) * | 2023-01-18 | 2023-03-14 | 北京泽桥医疗科技股份有限公司 | 一种癌症复发风险预测模型构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020094569A1 (en) * | 2018-11-06 | 2020-05-14 | Stichting Het Nederlands Kanker Instituut-Antoni van Leeuwenhoek Ziekenhuis | Method for determining cellular composition of a tumor |
CN112481378A (zh) * | 2020-11-30 | 2021-03-12 | 中国医科大学附属盛京医院 | 基于乳腺癌单细胞转录组测序分析的乳腺癌患者复发风险20基因预测模型 |
WO2021078799A1 (en) * | 2019-10-21 | 2021-04-29 | The University Court Of The University Of Glasgow | Diagnostic and prognostic biomarkers of disease remission in rheumatoid arthritis |
-
2022
- 2022-11-02 CN CN202211359084.9A patent/CN115424728A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020094569A1 (en) * | 2018-11-06 | 2020-05-14 | Stichting Het Nederlands Kanker Instituut-Antoni van Leeuwenhoek Ziekenhuis | Method for determining cellular composition of a tumor |
WO2021078799A1 (en) * | 2019-10-21 | 2021-04-29 | The University Court Of The University Of Glasgow | Diagnostic and prognostic biomarkers of disease remission in rheumatoid arthritis |
CN112481378A (zh) * | 2020-11-30 | 2021-03-12 | 中国医科大学附属盛京医院 | 基于乳腺癌单细胞转录组测序分析的乳腺癌患者复发风险20基因预测模型 |
Non-Patent Citations (1)
Title |
---|
ZHIHONG HUANG等: ""Single-Cell and Bulk RNA Sequencing Reveal Malignant Epithelial Cell Heterogeneity and Prognosis Signatures in Gastric Carcinoma"", 《CELLS》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798723A (zh) * | 2023-01-18 | 2023-03-14 | 北京泽桥医疗科技股份有限公司 | 一种癌症复发风险预测模型构建方法 |
CN115798723B (zh) * | 2023-01-18 | 2023-09-15 | 北京泽桥医疗科技股份有限公司 | 一种癌症复发风险预测模型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112048559B (zh) | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 | |
EP4073805B1 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
CN111128299B (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
CN113450873B (zh) | 一种预测胃癌预后和免疫治疗适用性的标志物及其应用 | |
JP2022521492A (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
Zhao et al. | Twenty-gene-based prognostic model predicts lung adenocarcinoma survival | |
CN112133365A (zh) | 评估肿瘤微环境的基因集、评分模型及其应用 | |
CN107022605B (zh) | 一种活动性肺结核的生物标志物 | |
WO2020224504A1 (zh) | 一种cfDNA分类方法、装置和用途 | |
Titus et al. | Unsupervised deep learning with variational autoencoders applied to breast tumor genome-wide DNA methylation data with biologic feature extraction | |
CN106250717B (zh) | 急性髓性白血病的miRNA与转录因子的系统及其构建方法和应用 | |
CN112002372A (zh) | 人胶质母细胞瘤的预后靶点基因的筛选方法及应用 | |
CN115424728A (zh) | 一种肿瘤恶性细胞基因预后风险模型构建方法 | |
Natri et al. | Genetic architecture of gene regulation in Indonesian populations identifies QTLs associated with global and local ancestries | |
Wu et al. | Identification and characterization of extrachromosomal circular DNA in plasma of lung adenocarcinoma patients | |
Han et al. | Characterization of m6A regulator‐mediated methylation modification patterns and tumor microenvironment infiltration in acute myeloid leukemia | |
CN115482935B (zh) | 预测小细胞转化的肺腺癌患者预后模型及其建立方法 | |
Guo et al. | Using naive Bayes algorithm to estimate the response to drug in lung cancer patients | |
CN110408706A (zh) | 一种评估鼻咽癌复发的生物标志物及其应用 | |
US20240153588A1 (en) | Systems and methods for identifying microbial biosynthetic genetic clusters | |
US20240068041A1 (en) | Free dna-based disease prediction model and construction method therefor and application thereof | |
Devall et al. | Controlling for cellular heterogeneity using single-cell deconvolution of gene expression reveals novel markers of colorectal tumors exhibiting microsatellite instability | |
Yun et al. | Identification of a Four‐lncRNA Prognostic Signature for Colon Cancer Based on Genome Instability | |
CN112746108A (zh) | 用于肿瘤预后分层评估的基因标志物、评估方法及应用 | |
Jiao et al. | Bioinformatics analysis and identification of hub genes associated with female acute myocardial infarction patients by using weighted gene co-expression networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221202 |
|
RJ01 | Rejection of invention patent application after publication |