CN116153387A - 一种肺鳞癌患者总体生存率预后模型及应用 - Google Patents
一种肺鳞癌患者总体生存率预后模型及应用 Download PDFInfo
- Publication number
- CN116153387A CN116153387A CN202310055678.9A CN202310055678A CN116153387A CN 116153387 A CN116153387 A CN 116153387A CN 202310055678 A CN202310055678 A CN 202310055678A CN 116153387 A CN116153387 A CN 116153387A
- Authority
- CN
- China
- Prior art keywords
- lung squamous
- overall survival
- model
- prognosis
- squamous carcinoma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 210000004072 lung Anatomy 0.000 title claims abstract description 65
- 230000004083 survival effect Effects 0.000 title claims abstract description 61
- 238000004393 prognosis Methods 0.000 title claims abstract description 57
- 206010041823 squamous cell carcinoma Diseases 0.000 title claims abstract description 53
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 69
- 230000014509 gene expression Effects 0.000 claims abstract description 44
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 37
- 201000011510 cancer Diseases 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims abstract description 8
- 238000013518 transcription Methods 0.000 claims abstract description 6
- 230000035897 transcription Effects 0.000 claims abstract description 6
- 101150061927 BMP2 gene Proteins 0.000 claims abstract description 4
- 101100301808 Caenorhabditis elegans rgs-3 gene Proteins 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 19
- 201000005243 lung squamous cell carcinoma Diseases 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 12
- 239000000523 sample Substances 0.000 claims description 11
- 230000036962 time dependent Effects 0.000 claims description 6
- 238000003559 RNA-seq method Methods 0.000 claims description 5
- 238000000611 regression analysis Methods 0.000 claims description 5
- 101100333773 Rattus norvegicus Esrrg gene Proteins 0.000 claims description 4
- 102100024506 Bone morphogenetic protein 2 Human genes 0.000 claims description 3
- 101000762366 Homo sapiens Bone morphogenetic protein 2 Proteins 0.000 claims description 3
- 101000702691 Homo sapiens Zinc finger protein SNAI1 Proteins 0.000 claims description 3
- 102100030608 Mothers against decapentaplegic homolog 7 Human genes 0.000 claims description 3
- 101150017197 PID gene Proteins 0.000 claims description 3
- 102100037415 Regulator of G-protein signaling 3 Human genes 0.000 claims description 3
- 101710140411 Regulator of G-protein signaling 3 Proteins 0.000 claims description 3
- 101700026522 SMAD7 Proteins 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000013211 curve analysis Methods 0.000 claims description 3
- 102100030917 Zinc finger protein SNAI1 Human genes 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000002103 transcriptional effect Effects 0.000 claims description 2
- 102100023345 Tyrosine-protein kinase ITK/TSK Human genes 0.000 claims 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000013210 evaluation model Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 abstract description 2
- 230000007705 epithelial mesenchymal transition Effects 0.000 description 26
- 230000001105 regulatory effect Effects 0.000 description 5
- 206010027476 Metastases Diseases 0.000 description 4
- 230000009401 metastasis Effects 0.000 description 4
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 4
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 4
- 102000040945 Transcription factor Human genes 0.000 description 3
- 108091023040 Transcription factor Proteins 0.000 description 3
- 230000034994 death Effects 0.000 description 3
- 231100000517 death Toxicity 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 241000237858 Gastropoda Species 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 238000011529 RT qPCR Methods 0.000 description 2
- 238000011088 calibration curve Methods 0.000 description 2
- 230000009274 differential gene expression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- MZOFCQQQCNRIBI-VMXHOPILSA-N (3s)-4-[[(2s)-1-[[(2s)-1-[[(1s)-1-carboxy-2-hydroxyethyl]amino]-4-methyl-1-oxopentan-2-yl]amino]-5-(diaminomethylideneamino)-1-oxopentan-2-yl]amino]-3-[[2-[[(2s)-2,6-diaminohexanoyl]amino]acetyl]amino]-4-oxobutanoic acid Chemical compound OC[C@@H](C(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@H](CC(O)=O)NC(=O)CNC(=O)[C@@H](N)CCCCN MZOFCQQQCNRIBI-VMXHOPILSA-N 0.000 description 1
- GOZMBJCYMQQACI-UHFFFAOYSA-N 6,7-dimethyl-3-[[methyl-[2-[methyl-[[1-[3-(trifluoromethyl)phenyl]indol-3-yl]methyl]amino]ethyl]amino]methyl]chromen-4-one;dihydrochloride Chemical compound Cl.Cl.C=1OC2=CC(C)=C(C)C=C2C(=O)C=1CN(C)CCN(C)CC(C1=CC=CC=C11)=CN1C1=CC=CC(C(F)(F)F)=C1 GOZMBJCYMQQACI-UHFFFAOYSA-N 0.000 description 1
- 101150111197 76 gene Proteins 0.000 description 1
- 102000004127 Cytokines Human genes 0.000 description 1
- 108090000695 Cytokines Proteins 0.000 description 1
- 206010062016 Immunosuppression Diseases 0.000 description 1
- 238000010222 PCR analysis Methods 0.000 description 1
- 102000004887 Transforming Growth Factor beta Human genes 0.000 description 1
- 108090001012 Transforming Growth Factor beta Proteins 0.000 description 1
- 108060008682 Tumor Necrosis Factor Proteins 0.000 description 1
- 102000000852 Tumor Necrosis Factor-alpha Human genes 0.000 description 1
- 101100421768 Xenopus laevis snai1 gene Proteins 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013103 analytical ultracentrifugation Methods 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 210000000621 bronchi Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000021164 cell adhesion Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004547 gene signature Effects 0.000 description 1
- 230000001506 immunosuppresive effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 201000005296 lung carcinoma Diseases 0.000 description 1
- 210000004324 lymphatic system Anatomy 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 238000011119 multifactor regression analysis Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 208000000649 small cell carcinoma Diseases 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- ZRKFYGHZFMAOKI-QMGMOQQFSA-N tgfbeta Chemical compound C([C@H](NC(=O)[C@H](C(C)C)NC(=O)CNC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CC(C)C)NC(=O)CNC(=O)[C@H](C)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](C)NC(=O)[C@H](C)NC(=O)[C@@H](NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CCSC)C(C)C)[C@@H](C)CC)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](C)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N[C@@H](CC(C)C)C(=O)N1[C@@H](CCC1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(O)=O)C1=CC=C(O)C=C1 ZRKFYGHZFMAOKI-QMGMOQQFSA-N 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种肺鳞癌患者总体生存率预后模型及应用,属于生物工程及肿瘤标志物技术领域。本发明一种肺鳞癌患者总体生存率预后模型,通过检测肺鳞癌患者的数据样品中4种EMT相关基因的表达水平进行风险评分:风险评分=(0.000133*SNAI1的表达水平)+(0.007990*SMAD7的表达水平)+(0.003889*BMP2的表达水平)+(0.007473*RGS3的表达水平)。本发明提供获取多个肺鳞癌患者和多个参考人的转录谱表达数据,基于多个肺鳞癌患者和多个参考人的转录谱表达数据,筛选候选基因:基于候选基因,构建肺鳞癌患者总体生存率预后模型。本发明首次利用在LUSC中起重要作用的EMT相关基因构建预后评价模型,并在测试集中得到验证,预后模型具有精准全面的优点,在临床上可以为LUSC患者的临床治疗提供可靠依据。
Description
技术领域
本发明属于生物工程及肿瘤标志物技术领域,具体涉及一种肺鳞癌患者总体生存率预后模型及应用。
背景技术
肺癌是世界上最常见的癌症(11.6%),也是癌症死亡的主要原因(占癌症死亡总数的18.4%)。肺鳞状细胞癌(LUSC)是非小细胞肺癌(NSCLC)的常见病理类型,约占所有肺癌30%。LUSC通常发生在近端支气管和肺的肺门,并且更容易侵入较大血管。尽管在过去几十年中早期检测、靶向治疗和化疗方面的技术得到了显着改进,但LUSC患者的OS仍然很差。因此,迫切需要生物标志物和有效模型来预测LUSC的预后。
转移是肺鳞癌的主要特征,是约90%癌症患者死亡的主要原因。而上皮间质转化(EMT)已成为近年来经典的肿瘤转移理论,EMT发生后,细胞粘附减少,运动和侵袭能力增加,使肿瘤细胞从原发灶脱离并进入外周血管和淋巴系统,导致癌症转移和预后不良。它还具有促进肿瘤细胞恶性增殖、减少细胞凋亡和衰老、促进免疫抑制等作用。TGF-β和TNF-α是EMT过程中的关键细胞因子。经典的TGF-β信号可以通过Smad信号通路激活EMT相关的转录因子;TNF-α信号可通过激活NF-κB/Snail信号通路增强间充质表型。EMT激活是产生癌症干细胞(CSC)的主要机制,该过程由一组转录因子(EMT-TF)调控,包括Snail、Twist和Zeb家族的转录因子。
尽管有大量研究表明EMT表型与非小细胞肺癌的侵袭特性之间存在关联,例如Mark J Schliekelman等人发现EMT与非小细胞肺癌的转移有关,Byres等人基于EMT相关基因构建了76个基因特征探索肺小细胞癌患者对抑制剂的临床反应,但是在肺鳞癌中缺乏癌症表型与EMT之间关系的探讨,缺乏对EMT整体基因及其对LUSC的预后和治疗效果的系统研究。因此很必要对EMT相关基因在肺鳞癌中的表达和预后进行分析,为构建预后风险模型和治疗提供基础理论依据。
发明内容
针对上述技术问题,本发明提供了一种肺鳞癌患者总体生存率预后模型及应用。
为了达到上述目的,本发明采用了下列技术方案:
一种肺鳞癌患者总体生存率预后模型,所述模型基于4种EMT相关基因,分别为SNAI1,SMAD7,BMP2,RGS3。
进一步,所述预后模型通过检测肺鳞癌患者的数据样品中4种EMT相关基因的表达水平进行风险评分:风险评分=(0.000133*SNAI1的表达水平)+(0.007990*SMAD7的表达水平)+(0.003889*BMP2的表达水平)+(0.007473*RGS3的表达水平)。
一种肺鳞癌患者总体生存率预后模型的构建方法,包括以下步骤:
步骤1,获取多个肺鳞癌患者和多个参考人的转录谱表达数据:从基因表达综合数据库GEO和癌症基因组图谱数据库TCGA中下载标准化的RNA sequencing数据集和临床数据,所述RNA sequencing数据集包含来自502个肿瘤样品和49个非肿瘤样品并作为训练集,通过归一化处理后,使用R包org.Hs.eg.db将其中探针转化为基因名,对于多个探针对应的基因选取平均表达值最大的探针,得到多个肺鳞癌患者和多个参考人的转录谱表达数据;
步骤2,基于多个肺鳞癌患者和多个参考人的转录谱表达数据,筛选候选基因:从EMT基因数据库(http://dbemt.bioinfo-minzhao.org/download.cgi),以及分子特征数据库(MsigDB)(http://www.broad.mit.edu/gsea/msigdb/)获取EMT相关基因,使用R包limma分析在肿瘤组织和正常组织中差异表达的ERRG,P<0.05且差异倍数的绝对值>0.32作为筛选差异基因的截止值;筛选同时具有生存时间>3月和生存状态的肺鳞癌癌患者,使用Cox回归分析和生存分析对差异基因对进行预后分析,P<0.05作为筛选预后相关基因的截止值;
步骤3,基于候选基因,构建肺鳞癌患者总体生存率预后模型:使用初始候选ERRG,在训练集中进行最小绝对收缩和选择算子回归分析;确定用于构建所述肺鳞癌患者总体生存率预后模型的基因以及所述肺鳞癌患者总体生存率预后模型,使用每个基因的系数计算个体化的风险评分,完成肺鳞癌患者总体生存率预后模型的构建;
步骤4,基于训练集,评估肺鳞癌患者总体生存率预后模型的预测性能;
步骤5,获取验证集,基于验证集,验证肺鳞癌患者总体生存率预后模型的预测性能。
所述步骤4,基于训练集,评估肺鳞癌患者总体生存率预后模型的预测性能,具体包括以下步骤:
步骤4.1,基于肺鳞癌患者总体生存率预后模型计算所述训练集中的每个肺鳞癌癌患者的风险评分;
步骤4.2,使用训练集的时间依赖的肺鳞癌癌患者工作特征曲线分析评估肺鳞癌患者总体生存率预后模型的拟合优度;
步骤4.3,依据训练集的时间依赖的肺鳞癌癌患者工作特征曲线分析确定分组截断值,并根据分组截断值将训练集中的肺鳞癌癌患者分为高风险组与低风险组;
步骤4.4,使用Kaplan-Meier曲线评估训练集的高风险组与低风险组在生存情况方面是否具有显著差异。
所述获取验证集,基于验证集,验证肺鳞癌患者总体生存率预后模型的预测性能,具体包括以下步骤:
步骤5.1,基于肺鳞癌患者总体生存率预后模型计算所述验证集中的每个肺鳞癌癌患者的风险评分;
步骤5.2,使用验证集的时间依赖的肺鳞癌癌患者工作特征曲线分析验证肺鳞癌患者总体生存率预后模型的拟合优度;
步骤5.3,根据分组截断值将所述验证集中的肺鳞癌患者分为高风险组与低风险组,并使用验证集的Kaplan-Meier曲线验证所述高风险组与所述低风险组在生存情况方面是否具有显著差异。
所述EMT基因数据库(http://dbemt.bioinfo-minzhao.org/download.cgi),以及分子特征数据库(MsigDB)(http://www.broad.mit.edu/gsea/msigdb/)包括:Hallmark数据集(h.all.v7.2.symbols.gmt)、GO数据集(c5.bp.v7.2.symbols.gmt)、KEGG基因集(c2.cp.kegg.v7.2.symbols.gmt)、BioCar基因集(c2.cp.biocarta.v7.2.symbols.gmt)、PID基因集(c2.cp.pid.v7.2.symbols.gmt)和Reactome基因集(c2.cp.reactome.v7.2.symbols.gmt)。
与现有技术相比本发明具有以下优点:
本发明首次利用在LUSC中起重要作用的EMT相关基因构建预后评价模型,并在测试集中得到验证,预后模型具有精准全面的优点,在临床上可以为LUSC患者的临床治疗提供可靠依据。
附图说明
图1显示TCGA数据集的风险曲线(a)、散点图(b)、4个EMT相关差异基因表达量热图(c)、用以区分高低风险组的tSNE图(d)、生存曲线图(e)、ROC曲线图(f);
图2显示GEO数据集的风险曲线(a)、散点图(b)、4个EMT相关差异基因表达量热图(c)、用以区分高低风险组的tSNE图(d)、生存曲线图(e)、ROC曲线图(f);
图3显示TCGA(a)及GEO数据集(b)风险模型的独立预后分析森林图;
图4显示TCGA数据集基于多因素回归分析构建所得列线图(a)、诺模图(b);
图5显示在肺鳞癌与正常样本中4个EMT相关差异基因的PCR结果。
具体实施方式
实施例1筛选肺鳞癌预后相关基因
1、数据下载
在基因表达综合数据库(GEO)和癌症基因组图谱数据库(TCGA)中搜索公共基因表达数据和完整的临床注释。对于TCGA中的数据集,基因表达的RNA测序数据(FPKM值)和临床信息从UCSC Xena(https://gdc.xenahubs.net)下载。然后将FPKM值转化为每千碱基百万(TPM)值的转录本。从GEO数据库(http://www.ncbi.nlm.nih.gov/geo/)下载GSE73403的基因表达数据,并利用注释文件对其注释,多个探针对应同一个基因的取平均值作为其表达量,然后获得基因表达矩阵文件。其中,TCGA数据集作为发现队列,GEO数据集作为验证队列。再去除临床信息不完整的样本后,TCGA队列中包含的样本数为肿瘤组织:正常组织=469:49,GEO队列中包含肿瘤组织69个。
EMT相关基因列表是从EMT基因数据库(http://dbemt.bioinfo-minzhao.org/download.cgi),以及分子特征数据库(MsigDB)(http://www.broad.mit.edu/gsea/msigdb/)中的Hallmark数据集(h.all.v7.2.symbols.gmt)、GO数据集(c5.bp.v7.2.symbols.gmt)、KEGG基因集(c2.cp.kegg.v7.2.symbols.gmt)、BioCar基因集(c2.cp.biocarta.v7.2.symbols.gmt)、PID基因集(c2.cp.pid.v7.2.symbols.gmt)和Reactome基因集(c2.cp.reactome.v7.2.symbols.gmt)中获得的。
2、差异表达分析
使用R软件中的“limma”包进行差异表达分析,差异基因的筛选标准为adj.Pvalue<0.05,|log2FC|>0.32。在此标准下,TCGA中差异表达的基因有10994个,上调的差异表达基因有4968个,下调的差异表达基因有6026个。将差异基因和1384个EMT相关的基因取交集,共得到了1151个差异表达的EMT基因,上调基因464个,下调基因419个。
3、单因素Cox分析和LASSO Cox分析
对差异表达一致的1151个基因进行单因素Cox分析,P<0.05的基因被认为是对肺鳞癌患者的生存有影响。在此标准下,得到了108个与肺鳞癌预后相关的基因。在TCGA数据集中对108个基因进行LASSO Cox分析,筛选出基因组成预后genesignature。根据公式计算每个样本的风险评分,根据风险评分的中位数,将所有样本分为高风险组与低风险组(图1a-c)。使用ROC(the receiver operating characteristic)计算在多个时间点曲线下面积(AUC),以评估预后模型辨别能力。提出如下模型:
注:风险评分的计算公式,n为预后基因数,expi为基因i的表达值,βi为基因i的回归系数。
最终筛选确定的用于构建风险评分模型的基因包括以下四个基因:SNAI1,SMAD7,BMP2,RGS3。4个基因对应的风险评分模型表示为:风险评分=0.007*SNAI1基因表达水平+0.005*SMAD7基因表达水平+0.013*BMP2基因表达水平+0.065*RGS3基因表达水平。
用t-SNE分析,可有效区别高低风险组所得结果(图1d)。生存分析结果表明,高风险组患者的生存时间明显短于低风险组(图1e)。为了评估由4个基因组成的预后模型在预测肺鳞癌预后的准确性,进行了1年、3年和5年受试者工作特征(ROC)曲线分析,比较各自的AUC值。结果表明,1年、3年和5年的AUC分别是0.587、0.644、0.636(图1f)。AUC值表明,由4个基因组成的预后模型对肺鳞癌患者的预后具有较好的区分性能。
4、风险评分模型的验证
我们使用上述风险评分模型系数和临界值评估验证集中肺鳞癌患者风险评分,并将验证集中的患者分为高风险和低风险组(图2a-d)。在验证集中,我们验证以上4个基因的临床效用和判别力。生存分析显示,低风险组患者生存和高风险组患者的生存存在差异(P<0.001)(图2e),通过ROC曲线下面积对模型性能进行评估,验证集3、5、8年的AUC值分别为0.789、0.695、0.846,该模型具有较好的预测性能(图2f)。
5、风险评分作为肺鳞癌患者的独立预后因素
为了进一步探讨风险评分是否可以作为独立的临床预后因子,将单变量和多变量Cox比例风险回归分析应用于TCGA队列、GEO队列。在TCGA队列中,单因素分析、多因素分析发现riskscore和临床分期是肺鳞癌患者总生存率的独立风险因子(图3a);在GEO队列中,riskscore可作为肺鳞癌患者总生存率的独立风险因子(图3b)。因此,风险评分作为肺鳞癌患者的独立预后因素。
7、诺模图预测肺鳞癌患者的预后
诺模图是一种强大的工具,已被用于通过综合多种风险因素来定量确定临床环境中的个体风险,根据每个患者的风险评分和临床分期所对应的分数,分值相加后得到总评分。对于训练队列,总评分对应的1年、3年和5年生存率分别为肺鳞癌患者1年、3年和5年的预测生存率(图4a)。校准曲线显示实际和预期生存率匹配,包括1年、3年和5年复发期(图4b)。研究发现校准曲线显示实际和预期生存率具有较高的一致性,说明我们的预测模型具有较高的可信度。
8、PCR分析验证4个EMT相关差异基因在肺鳞癌与正常样本的表达量
针对10对手术切除的癌组织和邻近非肿瘤组织使用qRT-PCR验证所选EMT-RDG的mRNA表达水平,进行qRT-PCR测定靶基因的表达水平,以确定靶基因的表达水平(图5)。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (6)
1.一种肺鳞癌患者总体生存率预后模型,其特征在于:所述模型基于4种EMT相关基因,分别为SNAI1,SMAD7,BMP2,RGS3。
2.根据权利要求1所述的一种肺鳞癌患者总体生存率预后模型,其特征在于:所述预后模型通过检测肺鳞癌患者的数据样品中4种EMT相关基因的表达水平进行风险评分:风险评分=(0.000133*SNAI1的表达水平)+(0.007990*SMAD7的表达水平)+(0.003889*BMP2的表达水平)+(0.007473*RGS3的表达水平)。
3.一种如权利要求1所述的肺鳞癌患者总体生存率预后模型的构建方法,其特征在于:包括以下步骤:
步骤1,获取多个肺鳞癌患者和多个参考人的转录谱表达数据:从基因表达综合数据库GEO和癌症基因组图谱数据库TCGA中下载标准化的RNA sequencing数据集和临床数据,所述RNAsequencing数据集作为训练集,通过归一化处理后,使用R包org.Hs.eg.db将其中探针转化为基因名,对于多个探针对应的基因选取平均表达值最大的探针,得到多个肺鳞癌患者和多个参考人的转录谱表达数据;
步骤2,基于多个肺鳞癌患者和多个参考人的转录谱表达数据,筛选候选基因:从EMT基因数据库,以及分子特征数据库获取EMT相关基因,使用R包limma分析在肿瘤组织和正常组织中差异表达的ERRG,P<0.05且差异倍数的绝对值>0.32作为筛选差异基因的截止值;筛选同时具有生存时间>3月和生存状态的肺鳞癌癌患者,使用Cox回归分析和生存分析对差异基因对进行预后分析,P<0.05作为筛选预后相关基因的截止值;
步骤3,基于候选基因,构建肺鳞癌患者总体生存率预后模型:使用初始候选ERRG,在训练集中进行最小绝对收缩和选择算子回归分析;确定用于构建所述肺鳞癌患者总体生存率预后模型的基因以及所述肺鳞癌患者总体生存率预后模型,使用每个基因的系数计算个体化的风险评分,完成肺鳞癌患者总体生存率预后模型的构建;
步骤4,基于训练集,评估肺鳞癌患者总体生存率预后模型的预测性能;
步骤5,获取验证集,基于验证集,验证肺鳞癌患者总体生存率预后模型的预测性能。
4.根据权利要求3所述的肺鳞癌患者总体生存率预后模型的构建方法,其特征在于:所述步骤4,基于训练集,评估肺鳞癌患者总体生存率预后模型的预测性能,具体包括以下步骤:
步骤4.1,基于肺鳞癌患者总体生存率预后模型计算所述训练集中的每个肺鳞癌癌患者的风险评分;
步骤4.2,使用训练集的时间依赖的肺鳞癌癌患者工作特征曲线分析评估肺鳞癌患者总体生存率预后模型的拟合优度;
步骤4.3,依据训练集的时间依赖的肺鳞癌癌患者工作特征曲线分析确定分组截断值,并根据分组截断值将训练集中的肺鳞癌癌患者分为高风险组与低风险组;
步骤4.4,使用Kaplan-Meier曲线评估训练集的高风险组与低风险组在生存情况方面是否具有显著差异。
5.根据权利要求4所述的肺鳞癌患者总体生存率预后模型的构建方法,其特征在于:获取验证集,基于验证集,验证肺鳞癌患者总体生存率预后模型的预测性能,具体包括以下步骤:
步骤5.1,基于肺鳞癌患者总体生存率预后模型计算所述验证集中的每个肺鳞癌癌患者的风险评分;
步骤5.2,使用验证集的时间依赖的肺鳞癌癌患者工作特征曲线分析验证肺鳞癌患者总体生存率预后模型的拟合优度;
步骤5.3,根据分组截断值将所述验证集中的肺鳞癌患者分为高风险组与低风险组,并使用验证集的Kaplan-Meier曲线验证所述高风险组与所述低风险组在生存情况方面是否具有显著差异。
6.根据权利要求3所述的肺鳞癌患者总体生存率预后模型的构建方法,其特征在于:所述EMT基因数据库,以及分子特征数据库包括:Hallmark数据集、GO数据集、KEGG基因集、BioCar基因集、PID基因集和Reactome基因集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310055678.9A CN116153387A (zh) | 2023-01-16 | 2023-01-16 | 一种肺鳞癌患者总体生存率预后模型及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310055678.9A CN116153387A (zh) | 2023-01-16 | 2023-01-16 | 一种肺鳞癌患者总体生存率预后模型及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116153387A true CN116153387A (zh) | 2023-05-23 |
Family
ID=86350283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310055678.9A Withdrawn CN116153387A (zh) | 2023-01-16 | 2023-01-16 | 一种肺鳞癌患者总体生存率预后模型及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116153387A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959554A (zh) * | 2023-07-10 | 2023-10-27 | 中山大学孙逸仙纪念医院 | 一种基于CAFs相关基因的前列腺癌生化复发预测模型及其应用 |
-
2023
- 2023-01-16 CN CN202310055678.9A patent/CN116153387A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959554A (zh) * | 2023-07-10 | 2023-10-27 | 中山大学孙逸仙纪念医院 | 一种基于CAFs相关基因的前列腺癌生化复发预测模型及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Network-based approach identified cell cycle genes as predictor of overall survival in lung adenocarcinoma patients | |
CN109897899B (zh) | 一种用于局部晚期食管鳞癌预后判断的标志物及其应用 | |
Xu et al. | Development and clinical validation of a novel 9-gene prognostic model based on multi-omics in pancreatic adenocarcinoma | |
Hou et al. | m6A RNA methylation regulators have prognostic value in papillary thyroid carcinoma | |
KR101672531B1 (ko) | 조기 유방암 예후 예측 진단용 유전자 마커 및 이의 용도 | |
CN110423816B (zh) | 乳腺癌预后量化评估系统及应用 | |
CN110273003B (zh) | 一种乳头状肾细胞癌患者预后复发检测标志工具及其风险评估模型的建立 | |
CN110714078B (zh) | 一种用于ii期结直肠癌复发预测的标记基因及应用 | |
Chen et al. | Development and validation of a quantitative real-time polymerase chain reaction classifier for lung cancer prognosis | |
CN109971862A (zh) | C9orf139和MIR600HG作为胰腺癌预后标志物及其确立方法 | |
Chen et al. | The prognostic value of a seven-microRNA classifier as a novel biomarker for the prediction and detection of recurrence in glioma patients | |
CN115141887A (zh) | 基于分泌细胞富集特征的结肠癌预后及辅助化疗获益的评分模型、构建方法及应用 | |
Luo et al. | Development and validation of metabolism-related gene signature in prognostic prediction of gastric cancer | |
CN116153387A (zh) | 一种肺鳞癌患者总体生存率预后模型及应用 | |
Peng et al. | Identification of a novel prognostic signature of genome instability-related LncRNAs in early stage lung adenocarcinoma | |
Zhang et al. | Hallmark guided identification and characterization of a novel immune-relevant signature for prognostication of recurrence in stage I–III lung adenocarcinoma | |
CN111471773A (zh) | 预测胃腺癌患者预后的诊断生物标记物及其确定方法、应用 | |
Chen et al. | Identification and validation of a novel genomic instability-associated long non-coding RNA prognostic signature in head and neck squamous cell carcinoma | |
Huo et al. | A robust nine-gene prognostic signature associated with tumour doubling time for hepatocellular carcinoma | |
Liu et al. | Identification of SLITRK6 as a Novel Biomarker in hepatocellular carcinoma by comprehensive bioinformatic analysis | |
Yang et al. | An integrated model of clinical information and gene expression for prediction of survival in ovarian cancer patients | |
Yang et al. | Identification and analysis of an epigenetically regulated five-lncRNA signature associated with outcome and chemotherapy response in ovarian cancer | |
He et al. | Identification of a combined RNA prognostic signature in adenocarcinoma of the lung | |
CN114171200A (zh) | Ptc预后标志物及其应用、ptc的预后评估模型的构建方法 | |
Wu et al. | Prognostic significance of a 4-lncRNA glycolysis-related signature in oral squamous cell carcinoma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230523 |
|
WW01 | Invention patent application withdrawn after publication |