CN115527681A - 一种结直肠癌预后预测模型构建方法及装置 - Google Patents
一种结直肠癌预后预测模型构建方法及装置 Download PDFInfo
- Publication number
- CN115527681A CN115527681A CN202211412149.1A CN202211412149A CN115527681A CN 115527681 A CN115527681 A CN 115527681A CN 202211412149 A CN202211412149 A CN 202211412149A CN 115527681 A CN115527681 A CN 115527681A
- Authority
- CN
- China
- Prior art keywords
- genes
- immune
- tissue sample
- tumor tissue
- prognosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004393 prognosis Methods 0.000 title claims abstract description 96
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 46
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 39
- 238000010276 construction Methods 0.000 title abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 206
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 88
- 230000014509 gene expression Effects 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012216 screening Methods 0.000 claims abstract description 29
- 102100036189 C-X-C motif chemokine 3 Human genes 0.000 claims description 13
- 101000947193 Homo sapiens C-X-C motif chemokine 3 Proteins 0.000 claims description 13
- 101150054149 ANGPTL4 gene Proteins 0.000 claims description 12
- 102000045205 Angiopoietin-Like Protein 4 Human genes 0.000 claims description 12
- 108700042530 Angiopoietin-Like Protein 4 Proteins 0.000 claims description 12
- 101000840545 Bacillus thuringiensis L-isoleucine-4-hydroxylase Proteins 0.000 claims description 12
- 101001037256 Homo sapiens Indoleamine 2,3-dioxygenase 1 Proteins 0.000 claims description 12
- 101000852965 Homo sapiens Interleukin-1 receptor-like 2 Proteins 0.000 claims description 12
- 101001017968 Homo sapiens Leukotriene B4 receptor 1 Proteins 0.000 claims description 12
- 101001128158 Homo sapiens Nanos homolog 2 Proteins 0.000 claims description 12
- 101001124991 Homo sapiens Nitric oxide synthase, inducible Proteins 0.000 claims description 12
- 102100040061 Indoleamine 2,3-dioxygenase 1 Human genes 0.000 claims description 12
- 102100036697 Interleukin-1 receptor-like 2 Human genes 0.000 claims description 12
- 102100033374 Leukotriene B4 receptor 1 Human genes 0.000 claims description 12
- 102000004019 NADPH Oxidase 1 Human genes 0.000 claims description 12
- 108090000424 NADPH Oxidase 1 Proteins 0.000 claims description 12
- 102100029438 Nitric oxide synthase, inducible Human genes 0.000 claims description 12
- 101001037255 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) Indoleamine 2,3-dioxygenase Proteins 0.000 claims description 12
- 102100025218 B-cell differentiation antigen CD72 Human genes 0.000 claims description 8
- 101000934359 Homo sapiens B-cell differentiation antigen CD72 Proteins 0.000 claims description 8
- 101000595340 Homo sapiens Nucleoside diphosphate-linked moiety X motif 6 Proteins 0.000 claims description 8
- 102100036023 Nucleoside diphosphate-linked moiety X motif 6 Human genes 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000001793 Wilcoxon signed-rank test Methods 0.000 claims description 7
- 238000013058 risk prediction model Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 7
- 230000036039 immunity Effects 0.000 claims description 6
- 208000029742 colonic neoplasm Diseases 0.000 abstract description 42
- 201000010897 colon adenocarcinoma Diseases 0.000 abstract description 35
- 238000004458 analytical method Methods 0.000 abstract description 30
- 239000000092 prognostic biomarker Substances 0.000 abstract description 4
- 230000001225 therapeutic effect Effects 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 91
- 210000001519 tissue Anatomy 0.000 description 78
- 230000004083 survival effect Effects 0.000 description 71
- 238000012549 training Methods 0.000 description 14
- 239000000090 biomarker Substances 0.000 description 12
- 238000012360 testing method Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 239000013610 patient sample Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 201000011510 cancer Diseases 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000000556 factor analysis Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 4
- 108010083123 CDX2 Transcription Factor Proteins 0.000 description 3
- 102000006277 CDX2 Transcription Factor Human genes 0.000 description 3
- 238000003559 RNA-seq method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- -1 TIMPI Proteins 0.000 description 2
- 101710173415 UL16-binding protein 2 Proteins 0.000 description 2
- 102100032336 Voltage-dependent calcium channel gamma-like subunit Human genes 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010837 poor prognosis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- CCEKAJIANROZEO-UHFFFAOYSA-N sulfluramid Chemical group CCNS(=O)(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F CCEKAJIANROZEO-UHFFFAOYSA-N 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 102100031786 Adiponectin Human genes 0.000 description 1
- 102100035683 Axin-2 Human genes 0.000 description 1
- 102100024881 C3 and PZP-like alpha-2-macroglobulin domain-containing protein 8 Human genes 0.000 description 1
- 102100030074 Dickkopf-related protein 1 Human genes 0.000 description 1
- 206010061819 Disease recurrence Diseases 0.000 description 1
- 102100036992 Ecto-ADP-ribosyltransferase 5 Human genes 0.000 description 1
- 102100021604 Ephrin type-A receptor 6 Human genes 0.000 description 1
- 101150043847 FOXD1 gene Proteins 0.000 description 1
- 102100030431 Fatty acid-binding protein, adipocyte Human genes 0.000 description 1
- 102100037057 Forkhead box protein D1 Human genes 0.000 description 1
- 102100038806 Histone H2B type 3-B Human genes 0.000 description 1
- 101000775469 Homo sapiens Adiponectin Proteins 0.000 description 1
- 101000874569 Homo sapiens Axin-2 Proteins 0.000 description 1
- 101000864646 Homo sapiens Dickkopf-related protein 1 Proteins 0.000 description 1
- 101001024570 Homo sapiens Ecto-ADP-ribosyltransferase 5 Proteins 0.000 description 1
- 101000898696 Homo sapiens Ephrin type-A receptor 6 Proteins 0.000 description 1
- 101001062864 Homo sapiens Fatty acid-binding protein, adipocyte Proteins 0.000 description 1
- 101001031390 Homo sapiens Histone H2B type 3-B Proteins 0.000 description 1
- 101001138121 Homo sapiens Immunoglobulin kappa variable 1-33 Proteins 0.000 description 1
- 101000978133 Homo sapiens Immunoglobulin lambda variable 6-57 Proteins 0.000 description 1
- 101000977692 Homo sapiens Iroquois-class homeodomain protein IRX-6 Proteins 0.000 description 1
- 101000636209 Homo sapiens Matrix-remodeling-associated protein 5 Proteins 0.000 description 1
- 101000638289 Homo sapiens NADH-cytochrome b5 reductase 1 Proteins 0.000 description 1
- 101000798076 Homo sapiens T cell receptor delta constant Proteins 0.000 description 1
- 101000868549 Homo sapiens Voltage-dependent calcium channel gamma-like subunit Proteins 0.000 description 1
- 102100020901 Immunoglobulin kappa variable 1-33 Human genes 0.000 description 1
- 102100023747 Immunoglobulin lambda variable 6-57 Human genes 0.000 description 1
- 102100027004 Inhibin beta A chain Human genes 0.000 description 1
- 102100023527 Iroquois-class homeodomain protein IRX-6 Human genes 0.000 description 1
- 102000014021 KCNQ1 Potassium Channel Human genes 0.000 description 1
- 108010011185 KCNQ1 Potassium Channel Proteins 0.000 description 1
- 108020005198 Long Noncoding RNA Proteins 0.000 description 1
- 102100030776 Matrix-remodeling-associated protein 5 Human genes 0.000 description 1
- 102100032083 NADH-cytochrome b5 reductase 1 Human genes 0.000 description 1
- 108010082699 NADPH Oxidase 4 Proteins 0.000 description 1
- 102100021872 NADPH oxidase 4 Human genes 0.000 description 1
- 108010032605 Nerve Growth Factor Receptors Proteins 0.000 description 1
- 102100032272 T cell receptor delta constant Human genes 0.000 description 1
- 102100033725 Tumor necrosis factor receptor superfamily member 16 Human genes 0.000 description 1
- 102100039989 UL16-binding protein 2 Human genes 0.000 description 1
- 108010003205 Vasoactive Intestinal Peptide Proteins 0.000 description 1
- 101710157388 Voltage-dependent calcium channel gamma-like subunit Proteins 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000000112 colonic effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008995 epigenetic change Effects 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 108010019691 inhibin beta A subunit Proteins 0.000 description 1
- 238000001325 log-rank test Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000011248 postoperative chemotherapy Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 210000000664 rectum Anatomy 0.000 description 1
- 238000011272 standard treatment Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biochemistry (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种结直肠癌预后预测模型构建方法及装置,涉及生物医学技术领域。包括:通过最小绝对值收敛和选择算子算法LASSO回归,对差异表达的免疫相关基因进行筛选;根据筛选后的免疫相关基因以及比例风险Cox回归模型,得到多个预后相关的免疫基因;计算出每个肿瘤组织样本的Risk score值,计算多个肿瘤组织样本的中位值,将每个肿瘤组织样本划分为高风险组和低风险组。本发明筛选出结直肠正常组织和肿瘤组织之间的差异表达基因,并通过LASSO回归和多因素Cox分析确定了一种与免疫基因相关的预后特征,此特征可以对结肠腺癌患者的预后进行预测,是一种独立预后因素。找到的免疫基因是结直肠癌潜在的预后生物标记物和治疗的靶点,给临床应用提供一个新的思路。
Description
技术领域
本发明涉及生物医学技术领域,特别是指一种结直肠癌预后预测模型构建方法及装置。
背景技术
根据2020年发布的全球的癌症统计数据,结直肠癌在癌症发病率中排在第三位,在癌症死亡率中排在第二位。从性别上看,结直肠癌是男性和女性癌症死亡的第二大常见原因。根据预测,到2030年,结直肠癌的新增病例将达到220多万,死亡病例将达到110万。结直肠癌通常发生在结肠或直肠的内壁。根据组织学分类,结肠腺癌是结直肠癌的主要类型,正常结肠上皮转变为结肠腺癌的原因主要是由于遗传和表观遗传改变。目前,对结肠腺癌采取的治疗方法主要是手术结合术后化疗,即使接受了标准治疗,晚期结肠癌患者的预后仍然很差。因此,使用简单的常规因素(如临床病理分期)不足以准确预测结肠腺癌患者的预后,迫切需要寻找新的生物标记物来预测患者的预后和改善治疗结果,这具有非常重要的现实意义。
近年来,生物信息学的快速发展使得研究人员可以快速识别癌症相关的生物标记物。例如,Dalerba等人发现CDX2(caudaltype homeobox transcription factor 2)可以作为结直肠癌的预后生物标记物,CDX2的表达缺失与Ⅱ期或Ⅲ期的结直肠癌患者的不良预后相关。Li等人认为免疫基因ULBP2(UL16-binding protein 2)是结肠癌潜在的预后生物标记物,TMEM37(Transmembrane Protein 37)和免疫基因GRP(Gastrin Releasing Peptide)可能是结肠癌的独立预后基因。Wang等人发现MXRA5在结直肠癌组织中异常表达,是结直肠癌早期检测的潜在生物标记物。Den Uil等人发现KCNQ1是预测Ⅱ期和Ⅲ期结肠癌患者疾病复发的预后生物标记物。Woischke等人发现CYB5R1与结直肠癌的预后不良密切相关。Kandimalla等人发现AXIN2和DKK1的甲基化是II期结肠癌患者复发的有力标记物。
与单个生物标记物相比,将多个生物标记物整合到模型中,将更加准确地预测患者的预后。目前免疫相关疗法在改善肿瘤预后方面显示出巨大潜力,且越来越多的研究表明免疫相关基因的表达可能与癌症患者的预后相关。例如Lin等人基于与结肠癌预后相关的9个lncRNA,包括AC008760.1、AC083809.1、AL445645.1、AC009237.14、AL391422.4、LINC01234、LINC02381、LINC01063和AC016027.1,提出了一种新的预后风险评分特征,这一特征对于改善结肠癌患者的预测结果具有重要的临床意义,这些lncRNA可能是影响预后的生物标记物。Zuo等人通过单因素和多因素的Cox分析,找到与结直肠癌患者预后相关的6种基因,分别是EPHA6、TIMPI、IRX6、ART5、HIST3H2BB和FOXD1,基于这些基因构建的预后特征可以作为预测结直肠癌患者生存率的独立生物标记物。根据Miao等人的研究,找到了与结肠腺癌患者预后相关的12个免疫基因(SLC10A2、CXCL3、NOX4、FABP4、ADIPOQ、IGKV1-33、IGLV6-57、INHBA、UCN、VIP、NGFR和TRDC),通过单因素和多因素Cox分析建立预后模型,计算出的风险评分是独立预后因素,证实这些基因可能是结肠腺癌诊断和治疗的潜在生物标记物。因此识别与结肠腺癌相关的免疫基因,可以促进结肠腺癌免疫治疗的发展。
上述方法在寻找正常样本和肿瘤样本之间的差异表达基因时,使用的是TCGA数据库中的正常样本和肿瘤样本。但TCGA数据库中这两种样本的数量往往差别很大,比如肿瘤样本有几百个,但正常样本只有几十个,这样会导致找到的差异基因可能不太准确。同时,如何确定与结直肠癌患者预后相关的免疫基因特征,以提高患者的预后风险评分准确性,是现有技术亟需解决的问题。
发明内容
本发明针对如何确定与结直肠癌患者预后相关的免疫基因特征,以提高患者的预后风险评分准确性的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种结直肠癌预后预测模型构建方法,该方法由电子设备实现,该方法包括:
S1、获取差异表达的免疫相关基因。
S2、通过最小绝对值收敛和选择算子算法LASSO回归,对差异表达的免疫相关基因进行筛选,得到筛选后的免疫相关基因。
S3、根据筛选后的免疫相关基因以及比例风险Cox回归模型,得到多个预后相关的免疫基因。
S4、根据多个预后相关的免疫基因的表达量和多个预后相关的免疫基因对应的回归系数,计算出每个肿瘤组织样本的Risk score值。
S5、基于每个肿瘤组织样本的Risk score值,计算多个肿瘤组织样本的中位值,根据中位值将每个肿瘤组织样本划分为高风险组和低风险组。
可选地,S3中的多个预后相关的免疫基因包括: CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。
可选地,S1中的获取差异表达的免疫相关基因包括:
S11、从GTEx数据库获取正常组织样本,从TCGA数据库获取肿瘤组织样本,从IMMPORT数据库获取免疫相关基因的列表。
S12、筛选出正常组织样本和肿瘤组织样本之间的差异表达基因,得到差异表达基因的列表。
S13、将差异表达基因的列表与免疫相关基因的列表取交集,得到差异表达的免疫相关基因。
可选地,S12中的筛选出正常组织样本和肿瘤组织样本之间的差异表达基因,得到差异表达基因的列表包括:
将正常组织样本与肿瘤组织样本合并,使用wilcoxon检验筛选正常样本和肿瘤样本之间的差异表达基因,得到差异表达基因的列表。
可选地,S4中的每个肿瘤组织样本的Risk score值的计算方法,如下式(1)所示:
可选地,方法还包括:
绘制受试者工作特征ROC曲线,对风险预测模型的准确性进行评估。
另一方面,本发明提供了一种结直肠癌预后预测模型构建装置,该装置应用于实现结直肠癌预后预测方法,该装置包括:
获取模块,用于获取差异表达的免疫相关基因;
筛选模块,用于通过最小绝对值收敛和选择算子算法LASSO回归,对差异表达的免疫相关基因进行筛选,得到筛选后的免疫相关基因;
免疫基因获取模块,用于根据筛选后的免疫相关基因以及比例风险Cox回归模型,得到多个预后相关的免疫基因;
计算模块,用于根据多个预后相关的免疫基因的表达量和多个预后相关的免疫基因对应的回归系数,计算出每个肿瘤组织样本的Risk score值;
输出模块,用于基于每个肿瘤组织样本的Risk score值,计算多个肿瘤组织样本的中位值,根据中位值将每个肿瘤组织样本划分为高风险组和低风险组。
可选地,多个预后相关的免疫基因包括: CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。
可选地,获取模块,进一步用于:
S11、从GTEx数据库获取正常组织样本,从TCGA数据库获取肿瘤组织样本,从IMMPORT数据库获取免疫相关基因的列表。
S12、筛选出正常组织样本和肿瘤组织样本之间的差异表达基因,得到差异表达基因的列表。
S13、将差异表达基因的列表与免疫相关基因的列表取交集,得到差异表达的免疫相关基因。
可选地,获取模块,进一步用于:
将正常组织样本与肿瘤组织样本合并,使用wilcoxon检验筛选正常样本和肿瘤样本之间的差异表达基因,得到差异表达基因的列表。
可选地,每个肿瘤组织样本的Risk score值的计算方法,如下式(1)所示:
可选地,还包括:
绘制受试者工作特征ROC曲线,对风险预测模型的准确性进行评估。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述结直肠癌预后预测模型构建方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述结直肠癌预后预测模型构建方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,在寻找差异基因时,使用的是GTEx数据库中的正常组织样本和TCGA数据库中的肿瘤组织样本,二者的样本量分别为308和473,加大正常组织的样本量后找到的差异基因更加准确。接下来本申请通过LASSO回归和多因素Cox分析,基于多个免疫相关基因构建风险模型,该模型能够准确预测患者预后,这将具有重要的临床意义,并且模型中的免疫相关基因可以作为潜在的生物标记物。
本申请从GTEx下载了结直肠正常组织中的转录组数据,从TCGA下载了结肠腺癌患者的转录组数据和临床数据。根据正常样本和肿瘤样本之间的差异表达基因,找到了与预后相关的免疫基因。根据预后相关免疫基因(CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6)建立了结肠腺癌患者的免疫相关预后评分,该评分将结肠腺癌患者分为高风险组和低风险组。通过验证数据集进一步证明该评分的准确性,对预测结肠腺癌患者的预后具有重要意义。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的结直肠癌预后预测模型构建方法流程示意图;
图2是本发明实施例提供的结直肠癌预后预测模型构建方法流程示意图;
图3是本发明实施例提供的正常组织和肿瘤组织的528个差异表达免疫基因的热图;
图4是本发明实施例提供的正常组织和肿瘤组织的基因表达的火山图;
图5是本发明实施例提供的LASSO回归结果示意图(一);
图6是本发明实施例提供的LASSO回归结果示意图(二);
图7是本发明实施例提供的TCGA训练集高风险组和低风险组之间的生存分析结果图;
图8是本发明实施例提供的TCGA测试集高风险组和低风险组之间的生存分析结果图;
图9是本发明实施例提供的TCGA整个数据集高风险组和低风险组之间的生存分析结果图;
图10是本发明实施例提供的TCGA训练集的时间(1年)依赖性ROC曲线;
图11是本发明实施例提供的TCGA训练集的时间(3年)依赖性ROC曲线;
图12是本发明实施例提供的TCGA训练集的时间(5年)依赖性ROC曲线;
图13是本发明实施例提供的TCGA训练集生存状态的分布图;
图14是本发明实施例提供的TCGA训练集基因表达数据的分布图;
图15是本发明实施例提供的TCGA测试集时间为1年的时间依赖性ROC曲线;
图16是本发明实施例提供的TCGA整个数据集时间为1年的时间依赖性ROC曲线;
图17是本发明实施例提供的TCGA整个数据集时间为3年的时间依赖性ROC曲线;
图18是本发明实施例提供的TCGA整个数据集时间为5年的时间依赖性ROC曲线;
图19是本发明实施例提供的结直肠癌预后预测模型构建装置框图;
图20是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种结直肠癌预后预测模型构建方法,该方法可以由电子设备实现。如图1所示的结直肠癌预后预测模型构建方法流程图,该方法的处理流程可以包括如下的步骤:
S11、获取差异表达的免疫相关基因。
可选地,上述步骤S11可以包括如下步骤S111-S113:
S111、从GTEx数据库获取正常组织样本,从TCGA数据库获取肿瘤组织样本,从IMMPORT数据库获取免疫相关基因的列表。
一种可行的实施方式中,在TCGA的官方网站(https://portal.gdc.cancer.gov/),下载473名结肠腺癌患者的RNA-Seq FPKM数据并提取出mRNA,下载452名结直肠癌患者的临床数据。
从UCSC官网(https://xenabrowser.net/ )下载GTEx数据库中的正常组织RNA-Seq数据,从中提取结直肠正常组织中的数据,并转换为FPKM值,共有308个正常样本。
从IMMPORT数据库(https://www.immport.org/home)下载免疫相关基因的列表,共包括2483个免疫相关基因。
S112、将正常组织样本与肿瘤组织样本合并,使用wilcoxon检验筛选正常样本和肿瘤样本之间的差异表达基因,得到差异表达基因的列表。
一种可行的实施方式中,将GTEx数据集和TCGA数据集合并,使用wilcoxon检验筛
选正常样本和肿瘤样本之间的差异表达基因。筛选的标准是校正后的p值,
且。得到差异表达基因的列表后,与免疫相关基因列表取交
集,得到差异表达的免疫相关基因。
S113、将差异表达基因的列表与免疫相关基因的列表取交集,得到差异表达的免疫相关基因。
S12、通过最小绝对值收敛和选择算子算法LASSO回归,对差异表达的免疫相关基因进行筛选,得到筛选后的免疫相关基因。
一种可行的实施方式中,现有技术在筛选与患者预后相关的变量时,通常先进行单因素Cox分析筛选出相关变量,然后构建多因素模型进一步确认变量与生存的关联是否独立。但是这种做法没有考虑到变量之间多重共线性的影响,会出现单因素Cox回归和多因素Cox回归得到的HR(Hazard Ratio,风险比)矛盾的现象,导致模型失真。并且当变量个数大于样本量时,传统的Cox回归的逐步回归、前进法、后退法等变量筛选方法都不再适用。
由于本申请得到的差异表达免疫相关基因的数量大于样本量,所以本申请选择首先用LASSO(Least absolute shrinkage and selection operator,最小绝对值收敛和选择算子算法)回归进行变量的筛选,然后通过Cox回归模型构建预后特征。LASSO回归是由Tibshirani提出的,使用L1范数进行收缩惩罚,将一些不太重要的变量的系数压缩为0,保留重要变量的系数大于0,以减少Cox回归中协变量的个数。选择LASSO回归中系数不为0的基因来进一步计算风险评分。
进一步地,将缺少生存数据或随访时间小于90天的TCGA结肠腺癌患者的样本删除,得到TCGA患者的生存数据及差异表达免疫基因的表达数据。391名患者的样本被随机分成训练集和测试集,训练集占数据集的70%(273个样本),测试集占数据集的30%(118个样本)。使用训练集中的数据进行LASSO回归,目的是最小化过度拟合(消除可能会过度拟合模型的基因),并筛选出与生存显著相关的差异表达免疫相关基因。
S13、根据筛选后的免疫相关基因以及比例风险Cox回归模型,得到多个预后相关的免疫基因。
可选地,S13中的多个预后相关的免疫基因包括: CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。
一种可行的实施方式中,Cox回归模型,又称“比例风险回归模型(proportionalhazards model,简称Cox模型)”,是由英国统计学家D.R.Cox提出的一种半参数回归模型。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。由于上述优良性质,该模型自问世以来,在医学随访研究中得到广泛的应用。
Cox回归模型的基本形式为如下式(2)所示:
上式(3)得到的暴露组与非暴露组的风险率之比,称为RR(Relative Risk,相对危险度),在生存分析中RR也称为HR(Hazard Ratio,风险比)。
S14、根据多个预后相关的免疫基因的表达量和多个预后相关的免疫基因对应的回归系数,计算出每个肿瘤组织样本的Risk score值。
可选地,使用多因素Cox回归模型构建免疫基因相关的预后特征,计算出每个肿瘤组织样本的Risk score值,计算方法如下式(5)所示:
S15、基于每个肿瘤组织样本的Risk score值,计算多个肿瘤组织样本的中位值,根据中位值将每个肿瘤组织样本划分为高风险组和低风险组。
一种可行的实施方式中,根据Risk score的中位值,将患者分为两组,Risk score大于中位值的为高风险组,Risk score小于中位值的为低风险组。
可选地,方法还包括:
绘制受试者工作特征ROC曲线,对风险预测模型的准确性进行评估。
一种可行的实施方式中,Kaplan-Meier曲线又称生存曲线,是生存分析常用的一种方法,主要分析单一因素对生存期的影响,用于估计患者生存率和绘制生存曲线。生存曲线以生存时间为横轴,生存率为纵轴,绘制而成的连续型的阶梯形曲线,用以说明生存时间与生存率之间的关系。
通过Kaplan-Meier生存分析,使用对数秩检验评估两组之间的生存差异,比较两组之间的总体生存率。绘制ROC(Receiver Operating Characteristic,受试者工作特征)曲线,并计算ROC曲线下面积,即AUC(Area Under Curve)值,以评估预后模型的准确性。
进一步地,独立性验证:对具有临床相关特征的患者样本进行单因素和多因素分析,评估Risk score的预后价值。基于单因素和多因素分析,p<0.05的特征能够作为独立预后因素。
进一步地,模型验证:使用TCGA的整个数据集(391个样本)、测试集(118个样本)对模型进行验证。根据相同的公式计算出每个样本的Risk score值,然后根据中位值对样本进行分组,分成高风险组和低风险组。对这两组进行生存分析,评估两组之间的生存差异。绘制ROC曲线及计算AUC值。
本发明实施例中,在寻找差异基因时,使用的是GTEx数据库中的正常组织样本和TCGA数据库中的肿瘤组织样本,二者的样本量分别为308和473,加大正常组织的样本量后找到的差异基因更加准确。接下来本申请通过LASSO回归和多因素Cox分析,基于多个免疫相关基因构建风险模型,该模型能够准确预测患者预后,这将具有重要的临床意义,并且模型中的免疫相关基因可以作为潜在的生物标记物。
本申请从GTEx下载了结直肠正常组织中的转录组数据,从TCGA下载了结肠腺癌患者的转录组数据和临床数据。根据正常样本和肿瘤样本之间的差异表达基因,找到了与预后相关的免疫基因。根据预后相关免疫基因(CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6)建立了结肠腺癌患者的免疫相关预后评分,该评分将结肠腺癌患者分为高风险组和低风险组。通过验证数据集进一步证明该评分的准确性,对预测结肠腺癌患者的预后具有重要意义。
举例来说,如图2所示,本发明实施例提供了一种结直肠癌预后预测模型构建方法,该方法可以由电子设备实现。如图2所示的结直肠癌预后预测模型构建方法流程图,该方法的处理流程可以包括如下的步骤:
S21、获取基因表达数据。
一种可行的实施方式中,从UCSC网站下载GTEx数据库中的正常组织RNA-Seq数据,从中提取结直肠正常组织中的数据,并转换为FPKM值。共提取出308个正常样本的基因表达数据,去除低表达基因后,得到22116个基因在308个正常样本中的表达量。
从TCGA网站下载473个结肠腺癌患者样本的基因表达数据,从中提取mRNA并去除低表达的mRNA,得到14791个基因在473个肿瘤样本中的表达量。
将GTEx数据集和TCGA数据集合并,得到14306个交集基因。
S22、筛选正常样本和肿瘤样本间的差异表达基因。
一种可行的实施方式中,通过wilcoxon检验,筛选在GTEx正常样本和TCGA肿瘤样
本中差异表达的基因,筛选的标准是且。与正
常组织相比,得到7644个差异表达的基因。其中,6343个基因是下调的,1301个是上调的。
进一步地,从IMMPORT数据库中下载了2483个免疫相关基因的列表,与差异表达基
因取交集,得到528个差异表达的免疫相关基因。其中,381个基因是下调的,147个基因是上
调的,热图和火山图如补充材料中的图3和图4所示。其中,图3横坐标代表样本,纵坐标代表
基因。图4横坐标是,纵坐标是。
S23、通过LASSO回归得到筛选后的免疫相关基因。
一种可行的实施方式中,从TCGA数据库下载了452名结肠腺癌患者的临床相关数据,结肠腺癌患者临床数据的详细信息如下表1 TCGA所示。
表1
进一步地,将缺少生存数据或生存时间小于90天的样本删除,将差异表达的免疫相关基因的表达数据和生存数据合并,得到391个样本的生存数据及差异表达免疫相关基因的表达数据。将391个样本随机分成训练集和测试集,训练集的样本量为总样本量的70%(273个),测试集的样本量为总样本量的30%(118个)。
为了确定与预后相关的差异表达免疫相关基因,使用训练集样本,通过LASSO回归,得到14个候选基因。如图5、6所示,图5中横坐标是Log Lambda值,Lambda值是惩罚系数,Lambda值控制LASSO回归的复杂度。如果Lambda值越大,惩罚力度就越大。纵坐标是系数,Lambda值越大,系数越少,相当于基因的数目越少。如果某个基因的系数为0,那这个基因就不参与后续分析。图6中横坐标是Log Lambda值,纵坐标是交叉验证的误差。当误差最小的时候,会在图6中找到一个Lambda值。找到这个Lambda值后,再看图5找到对应的基因的数目。
S24、通过多因素Cox分析构建模型。
一种可行的实施方式中,通过多因素Cox分析,对这14个基因进行进一步筛选,最终得到9个关键基因(表2)。根据这9个免疫相关基因的表达量及其对应的回归系数计算Risk score值,计算公式如下:
进一步地,根据Risk score的中位值,将训练集中的273名结肠腺癌患者分为两组,Risk score值小于中位值的为低风险组(n=137),Risk score值大于中位值的为高风险组(n=136)。
多因素Cox分析的结果如下表2所示:
表2
S25、生存分析及ROC曲线的绘制。
一种可行的实施方式中,将患者分为高风险组和低风险组之后,通过Kaplan-
Meier生存分析,比较两组之间的生存差异。生存分析的结果表明,高风险组与低风险组的
生存是有差异的,高风险组的总体生存率更低、预后更差。从结果
可以观察到,低风险组的中位生存时间大于10年,高风险组的中位生存时间大约是4年。低
风险组的3年和5年生存率大约是91%和84%,高风险组的3年和5年生存率大约是63%和40%。
进一步地,绘制ROC曲线来评估预后模型的准确性。总生存率为1年、3年和5年的AUC值分别为0.800、0.821和0.875(图10-12),表明预后模型的准确性较高。两组的生存状态分布如图13所示,横坐标是样本,并按照Risk score值从大到小排序,纵坐标是样本的生存时间。随着Risk score值的增大,死亡的病人有所增加、生存时间有所下降,即高风险组的病人死亡人数较高、生存率较低。纳入模型的9个免疫基因的热图如图14所示,横坐标代表样本,纵坐标代表基因。可以看出基因在高风险组和低风险组中的表达情况。
S26、独立性验证。
一种可行的实施方式中,通过单因素和多因素独立预后分析评估模型及临床特征的独立预测能力。从TCGA数据库下载结肠腺癌患者的临床数据,共有452个样本。将缺少相应临床数据的样本删除,得到341个样本及其相应的临床数据,分别是Age、Gender、Stage、T、M、N、Risk score。
训练集的单因素分析表明,Age、Stage、T、M、N、Risk score的p值均小于0.05,是与预后密切相关的临床因素(表3 TCGA训练集单因素和多因素独立预后分析结果)。多因素分析表明,Age、T、Risk score的p值均小于0.05,是独立预后因素(表3),可以独立预测患者的预后。且Risk score值的HR(Hazard Ratio)值大于1,说明Risk score值是高风险因素,Risk score值越高,病人的风险越大。从表中可以看出,单因素分析和多因素分析的p值均小于0.05的因素有Age、T、Risk score。
表3
S27、模型验证。
一种可行的实施方式中,测试集(118个样本)和整个TCGA数据集(391个样本),作为预后模型的验证集,以评估模型的准确性。
在测试集中,共包括118个结肠腺癌患者样本。根据相同的计算公式,计算出每个
样本的Risk score值。按照Risk score的中位值,将118个患者样本分为两组,分别是高风
险组(n=59)和低风险组(n=59)。通过Kaplan-Meier生存分析,比较高风险组和低风险组之
间的生存差异。生存分析的结果表明,两组之间的生存是有差异的,高
风险组的总体生存率更低、预后更差。低风险组的中位生存时间大于6年,高风险组的中位
生存时间为4年。低风险组的3年和5年生存率分别是88%和70%,高风险组的3年生存率低于
65%,5年生存率低于50%。生存曲线出现交点的原因,可能是样本量过少。测试集的ROC曲线
如图15所示,总生存率为1年的AUC值为0.703。由于样本量少,总生存率为3年和5年的样本
也比较少,所以没有绘制相对应的ROC曲线。
在整个数据集中,共包括391个结肠腺癌患者样本。根据相同的计算公式,计算出
每个样本的Risk score值。按照Risk score的中位值,将391个患者样本分为两组,分别是
高风险组(n=195)和低风险组(n=196)。通过Kaplan-Meier生存分析,比较高风险组和低风
险组之间的生存差异。生存分析的结果表明,两组之间的生存是有差异的,高风险组的总体生存率更低、预后更差。低风险组的中位生存时间
大于10年,高风险组的中位生存时间为4年。低风险组的3年和5年生存率大约分别是91%和
85%,高风险组的3年生存率和5年生存率大约分别是64%和42%。整个TCGA数据集的ROC曲线
如图5的16-18所示,总生存率为1年、3年和5年的AUC值分别为0.763、0.755和0.820,表明预
后模型的准确性较高。
综上,在本研究中,基于TCGA数据库中的基因表达数据和临床数据,本申请确定了包括CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6在内的免疫相关预后特征并进行了验证。
首先,从GTEx数据库下载结直肠正常组织的基因表达数据,从TCGA下载结肠腺癌患者的基因表达数据,筛选得到了7644个差异表达基因。从IMMPORT数据库下载了免疫相关基因列表,包括2483个免疫相关基因,与差异表达基因取交集,得到528个差异表达的免疫相关基因。对这些基因进行LASSO回归和多变量Cox分析,建立了基于9个免疫相关基因的预后特征,分别是CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。通过这些基因的表达量和相关系数,计算出每个患者样本的Risk score值,并按照中位值将这些患者分为高风险组和低风险组。通过生存分析发现高风险组的总体生存率较低,预后较差。为了验证模型的预后价值,本申请绘制了ROC曲线,总生存率为1年、3年和5年的AUC值分别为0.800、0.821和0.875,表明对患者预后的预测效果较好。通过单因素和多因素分析,证实Risk score值是一个独立预后因素。
为了验证模型的准确性,本申请将TCGA数据集分为训练集和测试集,根据模型计算出每个患者样本的Risk score值,并根据中位值分为高风险组和低风险组。测试集和整个数据集的生存分析的结果都表明,高风险组和低风险组之间的生存是有差异的,高风险组的预后更差。
本发明实施例中,在寻找差异基因时,使用的是GTEx数据库中的正常组织样本和TCGA数据库中的肿瘤组织样本,二者的样本量分别为308和473,加大正常组织的样本量后找到的差异基因更加准确。接下来本申请通过LASSO回归和多因素Cox分析,基于多个免疫相关基因构建风险模型,该模型能够准确预测患者预后,这将具有重要的临床意义,并且模型中的免疫相关基因可以作为潜在的生物标记物。
本申请从GTEx下载了结直肠正常组织中的转录组数据,从TCGA下载了结肠腺癌患者的转录组数据和临床数据。根据正常样本和肿瘤样本之间的差异表达基因,找到了与预后相关的免疫基因。根据预后相关免疫基因(CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6)建立了结肠腺癌患者的免疫相关预后评分,该评分将结肠腺癌患者分为高风险组和低风险组。通过验证数据集进一步证明该评分的准确性,对预测结肠腺癌患者的预后具有重要意义。
如图19所示,本发明实施例提供了一种结直肠癌预后预测模型构建装置1900,该装置1900应用于实现结直肠癌预后预测模型构建方法,该装置1900包括:
获取模块1910,用于获取差异表达的免疫相关基因;
筛选模块1920,用于通过最小绝对值收敛和选择算子算法LASSO回归,对差异表达的免疫相关基因进行筛选,得到筛选后的免疫相关基因;
免疫基因获取模块1930,用于根据筛选后的免疫相关基因以及比例风险Cox回归模型,得到多个预后相关的免疫基因;
计算模块1940,用于根据多个预后相关的免疫基因的表达量和多个预后相关的免疫基因对应的回归系数,计算出每个肿瘤组织样本的Risk score值;
输出模块1950,用于基于每个肿瘤组织样本的Risk score值,计算多个肿瘤组织样本的中位值,根据中位值将每个肿瘤组织样本划分为高风险组和低风险组。
可选地,多个预后相关的免疫基因包括: CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。
可选地,获取模块1910,进一步用于:
S11、从GTEx数据库获取正常组织样本,从TCGA数据库获取肿瘤组织样本,从IMMPORT数据库获取免疫相关基因的列表。
S12、筛选出正常组织样本和肿瘤组织样本之间的差异表达基因,得到差异表达基因的列表。
S13、将差异表达基因的列表与免疫相关基因的列表取交集,得到差异表达的免疫相关基因。
可选地,获取模块1910,进一步用于:
将正常组织样本与肿瘤组织样本合并,使用wilcoxon检验筛选正常样本和肿瘤样本之间的差异表达基因,得到差异表达基因的列表。
可选地,每个肿瘤组织样本的Risk score值的计算方法,如下式(1)所示:
可选地,还包括:
绘制受试者工作特征ROC曲线,对风险预测模型的准确性进行评估。
本发明实施例中,在寻找差异基因时,使用的是GTEx数据库中的正常组织样本和TCGA数据库中的肿瘤组织样本,二者的样本量分别为308和473,加大正常组织的样本量后找到的差异基因更加准确。接下来本申请通过LASSO回归和多因素Cox分析,基于多个免疫相关基因构建风险模型,该模型能够准确预测患者预后,这将具有重要的临床意义,并且模型中的免疫相关基因可以作为潜在的生物标记物。
本申请从GTEx下载了结直肠正常组织中的转录组数据,从TCGA下载了结肠腺癌患者的转录组数据和临床数据。根据正常样本和肿瘤样本之间的差异表达基因,找到了与预后相关的免疫基因。根据预后相关免疫基因(CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6)建立了结肠腺癌患者的免疫相关预后评分,该评分将结肠腺癌患者分为高风险组和低风险组。通过验证数据集进一步证明该评分的准确性,对预测结肠腺癌患者的预后具有重要意义。
图20是本发明实施例提供的一种电子设备2000的结构示意图,该电子设备2000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)2001和一个或一个以上的存储器2002,其中,存储器2002中存储有至少一条指令,至少一条指令由处理器2001加载并执行以实现下述结直肠癌预后预测模型构建方法:
S1、获取待预测患者的肿瘤组织数据。
S2、将肿瘤组织数据输入到构建好的风险预测模型;其中,风险预测模型包括多个预后相关的免疫基因。
S3、根据肿瘤组织数据以及多个预后相关的免疫基因,得到待预测患者的风险评分,进而得到待预测患者的结直肠癌预后预测结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述结直肠癌预后预测模型构建方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种结直肠癌预后预测模型构建方法,其特征在于,所述方法包括:
S1、获取差异表达的免疫相关基因;
S2、通过最小绝对值收敛和选择算子算法LASSO回归,对所述差异表达的免疫相关基因进行筛选,得到筛选后的免疫相关基因;
S3、根据所述筛选后的免疫相关基因以及比例风险Cox回归模型,得到多个预后相关的免疫基因;
S4、根据所述多个预后相关的免疫基因的表达量和所述多个预后相关的免疫基因对应的回归系数,计算出每个肿瘤组织样本的Risk score值;
S5、基于所述每个肿瘤组织样本的Risk score值,计算多个肿瘤组织样本的中位值,根据所述中位值将每个肿瘤组织样本划分为高风险组和低风险组。
2.根据权利要求1所述的方法,其特征在于,所述S3中的多个预后相关的免疫基因包括: CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。
3.根据权利要求1所述的方法,其特征在于,所述S1中的获取差异表达的免疫相关基因包括:
S11、从GTEx数据库获取正常组织样本,从TCGA数据库获取肿瘤组织样本,从IMMPORT数据库获取免疫相关基因的列表;
S12、筛选出所述正常组织样本和肿瘤组织样本之间的差异表达基因,得到差异表达基因的列表;
S13、将所述差异表达基因的列表与免疫相关基因的列表取交集,得到差异表达的免疫相关基因。
4.根据权利要求3所述的方法,其特征在于,所述S12中的筛选出所述正常组织样本和肿瘤组织样本之间的差异表达基因,得到差异表达基因的列表包括:
将所述正常组织样本与肿瘤组织样本合并,使用wilcoxon检验筛选所述正常样本和肿瘤样本之间的差异表达基因,得到差异表达基因的列表。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
绘制受试者工作特征ROC曲线,对风险预测模型的准确性进行评估。
7.一种结直肠癌预后预测模型构建装置,其特征在于,所述装置包括:
获取模块,用于获取差异表达的免疫相关基因;
筛选模块,用于通过最小绝对值收敛和选择算子算法LASSO回归,对所述差异表达的免疫相关基因进行筛选,得到筛选后的免疫相关基因;
免疫基因获取模块,用于根据所述筛选后的免疫相关基因以及比例风险Cox回归模型,得到多个预后相关的免疫基因;
计算模块,用于根据所述多个预后相关的免疫基因的表达量和所述多个预后相关的免疫基因对应的回归系数,计算出每个肿瘤组织样本的Risk score值;
输出模块,用于基于所述每个肿瘤组织样本的Risk score值,计算多个肿瘤组织样本的中位值,根据所述中位值将每个肿瘤组织样本划分为高风险组和低风险组。
8.根据权利要求7所述的装置,其特征在于,所述多个预后相关的免疫基因包括:CD72、IL1RL2、ANGPTL4、LTB4R、IDO1、NOX1、CXCL3、NOS2和NUDT6。
9.根据权利要求7所述的装置,其特征在于,获取模块,进一步用于:
S11、从GTEx数据库获取正常组织样本,从TCGA数据库获取肿瘤组织样本,从IMMPORT数据库获取免疫相关基因的列表;
S12、筛选出所述正常组织样本和肿瘤组织样本之间的差异表达基因,得到差异表达基因的列表;
S13、将所述差异表达基因的列表与免疫相关基因的列表取交集,得到差异表达的免疫相关基因。
10.根据权利要求7所述的装置,其特征在于,获取模块,进一步用于:
将所述正常组织样本与肿瘤组织样本合并,使用wilcoxon检验筛选所述正常样本和肿瘤样本之间的差异表达基因,得到差异表达基因的列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211412149.1A CN115527681A (zh) | 2022-11-11 | 2022-11-11 | 一种结直肠癌预后预测模型构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211412149.1A CN115527681A (zh) | 2022-11-11 | 2022-11-11 | 一种结直肠癌预后预测模型构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115527681A true CN115527681A (zh) | 2022-12-27 |
Family
ID=84704975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211412149.1A Pending CN115527681A (zh) | 2022-11-11 | 2022-11-11 | 一种结直肠癌预后预测模型构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527681A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116013525A (zh) * | 2023-01-06 | 2023-04-25 | 中国人民解放军军事科学院军事医学研究院 | 一种基于铁死亡特征构建的结直肠癌预后模型及其构建方法 |
CN116646088A (zh) * | 2023-07-27 | 2023-08-25 | 广东省人民医院 | 一种预测方法、装置、设备及介质 |
CN116741271A (zh) * | 2023-06-09 | 2023-09-12 | 唐山市人民医院 | 一种食管鳞癌预后预测风险模型的构建方法及其应用 |
CN116844685A (zh) * | 2023-07-03 | 2023-10-03 | 广州默锐医药科技有限公司 | 一种免疫治疗效果评估方法、装置、电子设备及存储介质 |
CN117476097A (zh) * | 2023-10-25 | 2024-01-30 | 中山大学附属第六医院 | 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020178667A (ja) * | 2019-04-26 | 2020-11-05 | 国立大学法人 東京大学 | がん治療の効果および予後の予測方法および治療手段の選択方法 |
CN113066585A (zh) * | 2021-03-05 | 2021-07-02 | 中山大学附属第六医院 | 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法 |
CN113096739A (zh) * | 2021-04-09 | 2021-07-09 | 东南大学 | 一种卵巢癌的免疫预后诊断标志物组合的分析方法 |
-
2022
- 2022-11-11 CN CN202211412149.1A patent/CN115527681A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020178667A (ja) * | 2019-04-26 | 2020-11-05 | 国立大学法人 東京大学 | がん治療の効果および予後の予測方法および治療手段の選択方法 |
CN113066585A (zh) * | 2021-03-05 | 2021-07-02 | 中山大学附属第六医院 | 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法 |
CN113096739A (zh) * | 2021-04-09 | 2021-07-09 | 东南大学 | 一种卵巢癌的免疫预后诊断标志物组合的分析方法 |
Non-Patent Citations (1)
Title |
---|
常紫薇 等: "基于TCGA和LASSO回归的胃癌预后lncRNA预测模型构建", 《临床肿瘤学杂志》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116013525A (zh) * | 2023-01-06 | 2023-04-25 | 中国人民解放军军事科学院军事医学研究院 | 一种基于铁死亡特征构建的结直肠癌预后模型及其构建方法 |
CN116741271A (zh) * | 2023-06-09 | 2023-09-12 | 唐山市人民医院 | 一种食管鳞癌预后预测风险模型的构建方法及其应用 |
CN116844685A (zh) * | 2023-07-03 | 2023-10-03 | 广州默锐医药科技有限公司 | 一种免疫治疗效果评估方法、装置、电子设备及存储介质 |
CN116646088A (zh) * | 2023-07-27 | 2023-08-25 | 广东省人民医院 | 一种预测方法、装置、设备及介质 |
CN116646088B (zh) * | 2023-07-27 | 2023-12-01 | 广东省人民医院 | 一种预测方法、装置、设备及介质 |
CN117476097A (zh) * | 2023-10-25 | 2024-01-30 | 中山大学附属第六医院 | 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115527681A (zh) | 一种结直肠癌预后预测模型构建方法及装置 | |
US11041866B2 (en) | Pancreatic cancer biomarkers and uses thereof | |
US20120101002A1 (en) | Lung Cancer Biomarkers and Uses Thereof | |
AU2011378427B2 (en) | Lung cancer biomarkers and uses thereof | |
US20140073521A1 (en) | Mesothelioma Biomarkers and Uses Thereof | |
CN110423816B (zh) | 乳腺癌预后量化评估系统及应用 | |
CN113421609A (zh) | 一种基于lncRNA对的结肠癌预后预测模型及其构建方法 | |
CN115410713A (zh) | 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建 | |
CN113066585A (zh) | 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法 | |
CN115588507A (zh) | 一种肺腺癌emt相关基因的预后模型及构建方法和应用 | |
CN110760585B (zh) | 前列腺癌生物标志物及其应用 | |
CN115497552A (zh) | 一种基于内质网应激特征基因的胃癌预后风险模型和应用 | |
CN114317532A (zh) | 用于预测白血病预后的评估基因集、试剂盒、系统及应用 | |
Qi et al. | Five EMT-related gene signatures predict acute myeloid leukemia patient outcome | |
CN112037863A (zh) | 一种早期nsclc预后预测系统 | |
US20210215700A1 (en) | Personalized treatment of pancreatic cancer | |
CN113234823B (zh) | 胰腺癌预后风险评估模型及其应用 | |
US20220065872A1 (en) | Lung Cancer Biomarkers and Uses Thereof | |
JP2020028278A (ja) | 被検体に生じるイベントを予測するための判別器の生成方法、及び前記判別器を用いた被検体の層別化方法 | |
CN117438097B (zh) | 一种用于早期肝癌术后复发风险预测的方法及系统 | |
Meng et al. | Identification and validation of a novel prognostic gene model for colorectal cancer | |
CN113593648A (zh) | 基于自噬相关lncRNA模型的乳腺癌预后评估方法及系统 | |
Tong et al. | SIMarker: Cellular similarity detection and its application to diagnosis and prognosis of liver cancer | |
CN117476097A (zh) | 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用 | |
Zhang et al. | The global landscape of immune-derived lncRNA signature in colorectal cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221227 |
|
RJ01 | Rejection of invention patent application after publication |