CN116741271A - 一种食管鳞癌预后预测风险模型的构建方法及其应用 - Google Patents
一种食管鳞癌预后预测风险模型的构建方法及其应用 Download PDFInfo
- Publication number
- CN116741271A CN116741271A CN202310679266.2A CN202310679266A CN116741271A CN 116741271 A CN116741271 A CN 116741271A CN 202310679266 A CN202310679266 A CN 202310679266A CN 116741271 A CN116741271 A CN 116741271A
- Authority
- CN
- China
- Prior art keywords
- prognosis
- esophageal squamous
- risk
- lncrna
- squamous carcinoma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004393 prognosis Methods 0.000 title claims abstract description 86
- 206010041823 squamous cell carcinoma Diseases 0.000 title claims abstract description 64
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract description 69
- 230000014509 gene expression Effects 0.000 claims abstract description 69
- 230000036542 oxidative stress Effects 0.000 claims abstract description 23
- 108091007769 SNHG1 Proteins 0.000 claims abstract description 12
- 108090000623 proteins and genes Proteins 0.000 claims description 26
- 208000036765 Squamous cell carcinoma of the esophagus Diseases 0.000 claims description 20
- 208000007276 esophageal squamous cell carcinoma Diseases 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 19
- 238000012216 screening Methods 0.000 claims description 18
- 238000000611 regression analysis Methods 0.000 claims description 15
- 206010061534 Oesophageal squamous cell carcinoma Diseases 0.000 claims description 13
- 239000000090 biomarker Substances 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000010195 expression analysis Methods 0.000 claims description 6
- 239000003153 chemical reaction reagent Substances 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000010837 poor prognosis Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 abstract description 8
- 238000011161 development Methods 0.000 abstract description 2
- 238000003766 bioinformatics method Methods 0.000 abstract 1
- 230000004083 survival effect Effects 0.000 description 23
- 239000000523 sample Substances 0.000 description 15
- 238000012549 training Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000013211 curve analysis Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 3
- 235000003181 Panax pseudoginseng Nutrition 0.000 description 3
- 244000131316 Panax pseudoginseng Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 208000036764 Adenocarcinoma of the esophagus Diseases 0.000 description 2
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 2
- 206010030137 Oesophageal adenocarcinoma Diseases 0.000 description 2
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 2
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 2
- 238000011088 calibration curve Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000028653 esophageal adenocarcinoma Diseases 0.000 description 2
- 201000004101 esophageal cancer Diseases 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 108091027963 non-coding RNA Proteins 0.000 description 2
- 102000042567 non-coding RNA Human genes 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 239000003642 reactive oxygen metabolite Substances 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108091008036 Immune checkpoint proteins Proteins 0.000 description 1
- 102000037982 Immune checkpoint proteins Human genes 0.000 description 1
- 238000000585 Mann–Whitney U test Methods 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 238000001793 Wilcoxon signed-rank test Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000011461 current therapy Methods 0.000 description 1
- 230000006718 epigenetic regulation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 229940126546 immune checkpoint molecule Drugs 0.000 description 1
- 238000011337 individualized treatment Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 239000000092 prognostic biomarker Substances 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Computing Systems (AREA)
- Pathology (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种食管鳞癌预后预测风险模型的构建方法及其应用,属于生物医学技术领域。本发明从生物信息学分析的角度出发,预测了与食管鳞癌相关的氧化应激差异表达lncRNA,从中筛选出调控食管鳞癌发生发展的标志物,所述食管鳞癌预后相关lncRNA包括CCR5AS、LINC01749、PCDH9‑AS1、TMEM220‑AS1、KCNMA1‑AS1、SNHG1、LINC01672中的一种或多种。基于上述标志物构建出风险模型,可快速、准确预测食管鳞癌患者预后情况。
Description
技术领域
本发明属于生物医学技术领域,具体涉及一种食管鳞癌预后预测风险模型的构建方法及其应用。
背景技术
食管癌(Esophageal cancer,EC)是第八大常见癌症,癌症相关死亡率排名第六。根据病理特征,EC通常分为食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)和食管腺癌(esophageal adenocarcinoma,EAC)。尽管目前的治疗方法包括手术、化学疗法、放射疗法等在内的多学科治疗,但是食管鳞癌患者仍然预后不良,ESCC的病死率高于EAC。因此,迫切需要寻找有效的筛查方法和风险分层来改善患者的预后。
非编码RNA(ncRNA)已成为鉴定预后生物标志物的非常有前途的资源。LncRNA是长度大于200个核苷酸的非编码RNA,代表了一类新的、有效的肿瘤调节RNA,具有多种功能,如基因调控、表观遗传调控等。氧化应激是一种由活性氧(ROS)积累引起的过程,在许多类型的肿瘤细胞中很常见。目前,以氧化应激相关LncRNA作为标志物探究食管鳞癌发生发展的情况未见相关报道。
发明内容
本发明提供了一种食管鳞癌预后预测风险模型的构建方法及其应用,该方法可快速、准确的对食管鳞癌患者预后进行评估。
为解决上述技术问题,本发明提供了以下技术方案:
本发明提供一种食管鳞癌预后预测风险模型的构建方法,其特征在于,包括如下步骤:(1)将食管鳞癌与正常样本进行差异表达分析,以adj.p.val<0.05、|log2FC|>1为筛选条件,获得差异表达lncRNA;(2)将所述差异表达lncRNA与氧化应激相关基因进行相关性分析,以cor>0.7、p<0.05为筛选条件,得到氧化应激相关差异表达lncRNA;(3)对所述氧化应激相关差异表达lncRNA进行单因素Cox回归分析和Lasso回归分析,筛选出预后相关lncRNA;(4)根据所述预后相关lncRNA的表达量和所述预后相关lncRNA对应的回归系数,计算出每个食管鳞癌组织样本的风险值;(5)基于所述每个食管鳞癌组织样本的风险值,计算多个食管鳞癌组织样本的中位值,根据所述中位值将每个食管鳞癌组织样本划分为高风险组和低风险组。
优选的,所述预后相关lncRNA包括CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672中的一种或多种。
优选的,所述食管鳞癌与正常样本来源于数据集编号GSE53625。
优选的,对所述氧化应激相关差异表达lncRNA进行单因素Cox回归分析,以HR≠1、p<0.05为筛选条件,获得初步预后相关lncRNA。
优选的,对所述初步预后相关lncRNA进行Lasso回归,根据lambda.min=0.04719635,进行交叉验证,最终得到回归系数没有被惩罚为0的基因为预后相关lncRNA。
优选的,所述风险值的计算方法如下式(1)所示:
其中,Risk score是风险值,n是预后相关lncRNA的数量;coefi是预后相关lncRNA的回归系数;expi是预后相关lncRNA的表达量。
优选的,所述风险值小于所述中位值,食管鳞癌组织样本为低风险,表明食管鳞癌患者预后良好,所述风险值大于等于所述中位数值,食管鳞癌组织样本为高风险,表明食管鳞癌患者预后差。
本发明提供所述构建方法获得的食管鳞癌预后预测风险模型,所述模型以所述预后相关lncRNA表达量作为输入变量,所述模型根据以下公式计算风险值:风险值=(-0.049993331×CCR5AS表达量)+(-0.000917922×LINC01749表达量)+(-0.023456133×PCDH9-AS1表达量)+(-0.068543123×TMEM220-AS1表达量)+(0.172214585×KCNMA1-AS1表达量)+(0.05726297×SNHG1表达量)+(0.850776742×LINC01672表达量)。
本发明提供所述食管鳞癌预后预测风险模型在评估食管鳞癌预后风险中的应用。
本发明提供检测生物标志物组合表达量的试剂在制备评估食管鳞癌预后风险产品中的应用,所述生物标志物组合是CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1和LINC01672的组合。
与现有技术相比,本发明具有如下有益效果:
本发明首次以CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672为预后标志物构建食管鳞癌预后预测风险模型,经所述方法构建的风险模型可快速、准确对食管鳞癌患者预后进行评估,判断出食管鳞癌患者预后风险情况,有利于分配医疗资源,制定合适的治疗方案,指导个体化治疗,在临床上具有较好的应用前景。
附图说明
图1差异表达lncRNA的火山图和热图(A是火山图,红色点表示上调基因,蓝色点表示下调基因,灰色表示无显著差异基因;B是热图,红色表示高表达,蓝色表示低表达)。
图2单因素Cox回归分析筛选预后相关基因的森林图。
图3LASSO回归分析结果(A:系数图,B交叉验证曲线)。
图4患者风险值分布和生存状态图(A:风险分数分布,B:生存状态分布图)。
图5训练集KM生存曲线(A)及ROC曲线(B)。
图6验证集KM生存曲线(A)及ROC曲线(B)。
图7临床指标箱线图。
图8CIBERSORT分析结果(A:CIBERSORT柱状堆叠图,B:差异免疫浸润细胞图)。
图9差异免疫检验点分子图。
图10预后相关lncRNA的表达分析图。
图11临床预后风险模型构建分析结果(A:单因素Cox分析预后临床指标;B:多因素Cox分析预后临床指标;C:列线图(Nomogram)预测食管鳞癌患者的生存率;D:1、3、5年期校准曲线评估预后模型,X轴代表列线图预测的生存率,Y轴代表实际的生存率)。
具体实施方式
本发明提供一种食管鳞癌预后预测风险模型的构建方法,包括如下步骤:(1)将食管鳞癌与正常样本进行差异表达分析,以adj.p.val<0.05、|log2FC|>1为筛选条件,获得差异表达lncRNA;(2)将所述差异表达lncRNA与氧化应激相关基因进行相关性分析,以cor>0.7、p<0.05为筛选条件,得到氧化应激相关差异表达lncRNA;(3)对所述氧化应激相关差异表达lncRNA进行单因素Cox回归分析和Lasso回归分析,筛选出预后相关lncRNA;(4)根据所述预后相关lncRNA的表达量和所述预后相关lncRNA对应的回归系数,计算出每个食管鳞癌组织样本的风险值;(5)基于所述每个食管鳞癌组织样本的风险值,计算多个食管鳞癌组织样本的中位值,根据所述中位值将每个食管鳞癌组织样本划分为高风险组和低风险组。本发明所述预后相关lncRNA包括CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672中的一种或多种。本发明所述CCR5AS、LINC01749、PCDH9-AS1和TMEM220-AS1为低风险因子,KCNMA1-AS1、SNHG1、LINC01672为高风险因子。
在本发明中,食管鳞癌与正常样本来源于数据集编号GSE53625。本发明所述数据集编号GSE53625含有358个样本,食管鳞癌组织样本作为实验组(ESCC,n=179),正常组织样本作为对照组(control,n=179)。本发明所述数据集编号GSE53625来源于GEO(GeneExpression Omnibus)数据库。本发明所述食管鳞癌与正常样本进行差异表达分析采用limma包分析。
在本发明中,所述氧化应激基因集来源于GO数据库(GO:0006979,GOBP_RESPONSE_TO_OXIDATIVE_STRESS),共436个。本发明所述差异表达lncRNA与氧化应激相关基因采用R语言“base”包中cor函数进行相关性分析。
在本发明中,基于食管鳞癌相关数据集GSE53625,采用R语言“survival”包中的coxph函数对筛选出的氧化应激相关差异表达lncRNA进行单因素COX分析,以HR≠1、p<0.05为因筛选条件,获得初步预后相关lncRNA,然后进行Lasso回归分析,根据lambda.min=0.04719635,进行交叉验证,最终得到回归系数没有被惩罚为0的基因为预后相关lncRNA,作为预后风险模型的标志物,同时从Lasso回归分析过程中获得预后相关lncRNA的回归系数(coef)和表达量(exp),构建出预后风险模型,基于构建的模型计算出每位患者的风险值,获得中位值。
在本发明中,所述风险模型中风险值的计算方法如下式(1)所示:
其中,Risk score是风险值,n是预后相关lncRNA的数量;coefi是预后相关lncRNA的回归系数;expi是预后相关lncRNA的表达量。本发明基于筛选的预后相关lncRNA以及对应的回归系数和表达量,所述风险值的计算方法如下式(2)所示:风险值=(-0.049993331×CCR5AS表达量)+(-0.000917922×LINC01749表达量)+(-0.023456133×PCDH9-AS1表达量)+(-0.068543123×TMEM220-AS1表达量)+(0.172214585×KCNMA1-AS1表达量)+(0.05726297×SNHG1表达量)+(0.850776742×LINC01672表达量)。
在本发明中,所述风险值小于所述中位值,食管鳞癌组织样本为低风险,表明食管鳞癌患者预后良好,所述风险值大于等于所述中位值,食管鳞癌组织样本为高风险,表明食管鳞癌患者预后差。本发明所述中位值为15.48506186。
在本发明中,基于风险模型中得到的风险值和患者的临床数据,使用Kaplan-Meier曲线和ROC曲线分析法评估预后风险模型预测食管鳞癌患者预后的准确性。本发明将GSE53625数据集随机三七分组,七分组作为训练集,三分组作为验证集。本发明对所述训练集使用Kaplan-Meier(KM)曲线对高低风险组患者的生存差异进行分析,Log-rank分析显示两组间的生存具有显著差异(p<0.05);同时采用ROC曲线分析法,对所述训练集的风险值用于预测患者生存状态性能进行评估,绘制1、3、5年ROC曲线,结果显示风险值可以较好的预测患者的生存状态。本发明对所述验证集使用Kaplan-Meier(KM)曲线对高低风险组患者的生存差异进行分析,Log-rank分析显示两组间的生存具有显著差异(p<0.05);同时采用ROC曲线分析法,对风险值用于预测患者生存状态性能进行评估,绘制1、3、5年ROC曲线,结果显示构建的风险模型有良好的预测能力。
本发明还提供所述构建方法获得的风险模型在评估食管鳞癌预后风险中的应用。本发明所述风险模型可快速、准确的对食管鳞癌患者预后进行评估。
本发明还提供检测生物标志物组合表达量的试剂在制备评估食管鳞癌预后风险产品中的应用,所述生物标志物组合是CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1和LINC01672的组合。本发明所述试剂包括引物、探针。
下面将结合本发明中的实施例,对本发明中的技术方案进行清楚、完整地描述。
实施例1
1.食管鳞癌中差异lncRNA的筛选
该实验使用的数据来源于GEO(Gene Expression Omnibus)数据库。训练集数据集编号GSE53625(芯片数据)。训练集包括358个样本,食管鳞癌组织样本作为实验组(ESCC,n=179),正常组织样本作为对照组(control,n=179)。
从GENCODE数据库获取基因的gtf注释文件,对GSE53625的基因进行类型注释,将注释到的lncRNA表达矩阵提取出来。使用R语言“limma”包,以adj.p.val<0.05,|log2FC|>1为筛选条件,对实验组(ESCC,n=179)和对照组(control,n=179)进行了差异lncRNA的鉴定。共鉴定得到332个差异lncRNA(ESCC VS.control),其中上调表达的基因共137个,下调表达的基因共195个。对差异lncRNA基因绘制火山图,并挑选|log2FC|最大的10个上调表达的lncRNA和10个下调表达lncRNA绘制热图。结果见图1。
2.氧化应激差异表达lncRNA筛选
氧化应激基因集来源于GO数据库(GO:0006979,GOBP_RESPONSE_TO_OXIDATIVE_STRESS),共436个。将步骤1得到的差异lncRNA与氧化应激相关基因采用R语言“base”包中cor函数进行相关性分析(cor>0.7,p<0.05),共得到174个氧化应激相关的差异lncRNA。
3.预后相关差异lncRNA风险模型构建
(1)单因素Cox回归
将GSE53625数据集采用R包caret进行三七分组,七分组作为训练集,三分组作为验证集,进行风险模型构建。将七分组训练集中的ESCC患者的临床信息与上述174个氧化应激相关的差异lncRNA相结合。使用R语言“survival”包中的coxph函数,进行单因素Cox回归,初步筛选到与预后相关的基因(HR≠1,p<0.05)。绘制单因素Cox回归分析筛选预后相关基因森林图,结果见图2。
(2)使用Rpackage glmnet,对单因素Cox回归分析初步筛选的预后相关基因进行Lasso回归分析。根据lambda.min=0.04719635,进行交叉验证,最终得到回归系数没有被惩罚为0的基因7个,分别是:CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672。结果见图3。
(3)风险模型构建
基于Lasso回归得到的7个基因的表达量,构建风险模型。将Lasso回归模型得到的线性部分(coef)作为系数,该风险值的计算公式如下:
Risk score=(-0.049993331×CCR5AS表达量)+(-0.000917922×LINC01749表达量)+(-0.023456133×PCDH9-AS1表达量)+(-0.068543123×TMEM220-AS1表达量)+(0.172214585×KCNMA1-AS1表达量)+(0.05726297×SNHG1表达量)+(0.850776742×LINC01672表达量)。
表1Lasso回归系数列表
Lasso基因 | 回归系数 |
LINC01672 | 0.850776742 |
SNHG1 | 0.05726297 |
KCNMA1-AS1 | 0.172214585 |
CCR5AS | -0.049993331 |
LINC01749 | -0.000917922 |
TMEM220-AS1 | -0.068543123 |
PCDH9-AS1 | -0.023456133 |
采用上述公式对七分组训练集中126名患者计算风险值,并计算出中位值,中位值为15.48506186,风险值小于15.48506186,食管鳞癌组织样本为低风险组(n=63),表明食管鳞癌患者预后良好,所述风险值大于等于15.48506186,食管鳞癌组织样本为高风险组(n=63),患者的风险值分布和生存状态如图4所示。
实施例2风险模型预测性能评估及相关性分析
1.将GSE53625数据集采用R包caret进行随机三七分组,七分组作为训练集,三分组作为验证集。
使用Kaplan-Meier(KM)曲线对训练集高低风险组患者的生存差异进行分析,结果如图5A所示,Log-rank分析显示两组间的生存具有显著差异(p<0.05)。同时采用ROC曲线分析法,对训练集患者的风险值用于预测患者生存状态性能进行评估,绘制1、3、5年ROC曲线,结果如图5B所示。结果显示,风险值可以较好的预测患者的生存状态。
使用Kaplan-Meier(KM)曲线对验证集高低风险组患者的生存差异进行分析,结果如图6A所示,Log-rank分析显示两组间的生存具有显著差异(p<0.05)。同时采用ROC曲线分析法,对验证集风险值用于预测患者生存状态性能进行评估,绘制1、3、5年ROC曲线,结果如图6B所示。结果显示,风险模型有良好的预测能力。
2.风险值与临床指标相关性分析
基于GSE53625数据集临床信息,根据上述构建的风险模型计算出风险值,将临床数据(Gender、T stage、N stage、TNM stage)合并,使用Wilcoxon检验,进行临床指标分析。结果如图7所示。结果显示,在不同的TNM stage、T.Stage、N Stage之间存在显著差异,在不同的Gender之间无显著差异(Wilcoxon,p<0.05)。
3.风险值与食管鳞癌免疫特征的相关性
(1)浸润性免疫细胞与高风险组和低风险组关系
CIBERSORT是利用反卷积的方法,利用单细胞RNA-seq的数据,基于GSE53625数据集临床信息,提取特征后,反推Bulk-seq各类细胞(22种)成分所占比例的方法。通过CIBERSORT分析了在高低风险组之间免疫浸润细胞的分布情况,鉴定出高低风险组之间的差异免疫浸润细胞。结果如图8所示,结果表明,2种免疫浸润细胞在高低风险组之间具有差异(wilcoxon,p<0.05)。
(2)免疫检查点分子与高风险组和低风险组关系
根据GSE53625数据集的高风险组和低风险组患者的每个免疫检验点分子的表达量,利用wilcoxon秩和检验方法分析了47个免疫检验点分子在高低风险组之间的差异。结果如图9所示。结果显示在高低风险组之间,共有14个免疫检验点分子有显著差异(wilcoxon,p<0.05)
4.表达分析
根据GSE53625数据集的高风险组和低风险组患者的预后相关lncRNA的表达量,利用R语言的“ggplot2”包分析了预后相关lncRNA在食管鳞癌和对照组中的表达情况,结果如图10所示。结果表明,7个lncRNA在实验组和对照组之间均显著差异表达(adj.p.val<0.05)。
5.临床预后模型构建与评估
根据GSE53625数据集,基于本发明构建的风险模型得到的风险值,以及患者的临床数据,使用单因素Cox回归和多因素Cox回归,将风险值与食管鳞癌患者的临床病理因素相结合进行分析,寻找食管鳞癌患者的独立危险因素(p<0.05),构建列线图(Nomogram,临床预后模型的一种图形表示方式),见图11C。利用构建的列线图对食管鳞癌患者进行个体化评分,得出患者的临床生存率;同时使用校准曲线对临床预后模型进行评估,结果如图11所示。结果表明,根据本发明构建的风险模型继续构建的临床预后模型验证结果与现有临床患者情况一致,证明该临床预后模型也可应用到临床。
综上所述:基于7个关键氧化应激相关差异表达lncRNA(CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1和LINC01672)所构建的预后风险模型可较好地预测食管鳞癌患者预后。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种食管鳞癌预后预测风险模型的构建方法,其特征在于,包括如下步骤:
(1)将食管鳞癌与正常样本进行差异表达分析,以adj.p.val<0.05、|log2FC|>1为筛选条件,获得差异表达lncRNA;
(2)将所述差异表达lncRNA与氧化应激相关基因进行相关性分析,以cor>0.7、p<0.05为筛选条件,得到氧化应激相关差异表达lncRNA;
(3)对所述氧化应激相关差异表达lncRNA进行单因素Cox回归分析和Lasso回归分析,筛选出预后相关lncRNA;
(4)根据所述预后相关lncRNA的表达量和所述预后相关lncRNA对应的回归系数,计算出每个食管鳞癌组织样本的风险值;
(5)基于所述每个食管鳞癌组织样本的风险值,计算多个食管鳞癌组织样本的中位值,根据所述中位值将每个食管鳞癌组织样本划分为高风险组和低风险组。
2.如权利要求1所述构建方法,其特征在于,所述预后相关lncRNA包括CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672中的一种或多种。
3.如权利要求1所述构建方法,其特征在于,所述食管鳞癌与正常样本来源于数据集编号GSE53625。
4.如权利要求1所述构建方法,其特征在于,对所述氧化应激差异表达lncRNA进行单因素Cox回归分析,以HR≠1、p<0.05为筛选条件,获得初步预后相关lncRNA。
5.如权利要求1所述构建方法,其特征在于,对所述初步预后相关lncRNA进行Lasso回归,根据lambda.min=0.04719635,进行交叉验证,最终得到回归系数没有被惩罚为0的基因为预后相关lncRNA。
6.如权利要求1所述构建方法,其特征在于,所述风险值的计算方法如下式(1)所示:
其中,Risk score是风险值,n是预后相关lncRNA的数量;coefi是预后相关lncRNA的回归系数;expi是预后相关lncRNA的表达量。
7.如权利要求1所述构建方法,其特征在于,所述风险值小于所述中位值,食管鳞癌组织样本为低风险,表明食管鳞癌患者预后良好,所述风险值大于等于所述中位数值,食管鳞癌组织样本为高风险,表明食管鳞癌患者预后差。
8.如权利要求1所述构建方法获得的食管鳞癌预后预测风险模型,其特征在于,所述模型以所述预后相关lncRNA表达量作为输入变量,所述模型根据以下公式计算风险值:风险值=(-0.049993331×CCR5AS表达量)+(-0.000917922×LINC01749表达量)+(-0.023456133×PCDH9-AS1表达量)+(-0.068543123×TMEM220-AS1表达量)+(0.172214585×KCNMA1-AS1表达量)+(0.05726297×SNHG1表达量)+(0.850776742×LINC01672表达量)。
9.如权利要求8所述食管鳞癌预后预测风险模型在评估食管鳞癌预后风险中的应用。
10.检测生物标志物组合表达量的试剂在制备评估食管鳞癌预后风险产品中的应用,其特征在于,所述生物标志物组合是CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1和LINC01672的组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310679266.2A CN116741271A (zh) | 2023-06-09 | 2023-06-09 | 一种食管鳞癌预后预测风险模型的构建方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310679266.2A CN116741271A (zh) | 2023-06-09 | 2023-06-09 | 一种食管鳞癌预后预测风险模型的构建方法及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116741271A true CN116741271A (zh) | 2023-09-12 |
Family
ID=87909094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310679266.2A Pending CN116741271A (zh) | 2023-06-09 | 2023-06-09 | 一种食管鳞癌预后预测风险模型的构建方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116741271A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859801A (zh) * | 2019-02-14 | 2019-06-07 | 辽宁省肿瘤医院 | 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法 |
CN109897899A (zh) * | 2019-03-01 | 2019-06-18 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种用于局部晚期食管鳞癌预后判断的标志物及其应用 |
CN112048559A (zh) * | 2020-09-10 | 2020-12-08 | 辽宁省肿瘤医院 | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 |
CN114592065A (zh) * | 2022-04-21 | 2022-06-07 | 青岛市市立医院 | 一组预测肝癌预后联合标志物及其应用 |
US20220228223A1 (en) * | 2019-05-28 | 2022-07-21 | Iucf-Hyu (Industry-University Cooperation Foundation Hanyang University) | Squamous cell carcinoma diagnostic or prognosis prediction marker and use thereof |
CN115527681A (zh) * | 2022-11-11 | 2022-12-27 | 北京科技大学 | 一种结直肠癌预后预测模型构建方法及装置 |
WO2023040102A1 (zh) * | 2021-09-16 | 2023-03-23 | 浙江大学 | 判断肝细胞肝癌患者预后的基因模型、构建方法和应用 |
CN116179701A (zh) * | 2023-01-20 | 2023-05-30 | 浙江省肿瘤医院 | 用于预测食管鳞癌免疫治疗疗效的标记基因及其应用 |
-
2023
- 2023-06-09 CN CN202310679266.2A patent/CN116741271A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859801A (zh) * | 2019-02-14 | 2019-06-07 | 辽宁省肿瘤医院 | 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法 |
CN109897899A (zh) * | 2019-03-01 | 2019-06-18 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种用于局部晚期食管鳞癌预后判断的标志物及其应用 |
US20220228223A1 (en) * | 2019-05-28 | 2022-07-21 | Iucf-Hyu (Industry-University Cooperation Foundation Hanyang University) | Squamous cell carcinoma diagnostic or prognosis prediction marker and use thereof |
CN112048559A (zh) * | 2020-09-10 | 2020-12-08 | 辽宁省肿瘤医院 | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 |
WO2023040102A1 (zh) * | 2021-09-16 | 2023-03-23 | 浙江大学 | 判断肝细胞肝癌患者预后的基因模型、构建方法和应用 |
CN114592065A (zh) * | 2022-04-21 | 2022-06-07 | 青岛市市立医院 | 一组预测肝癌预后联合标志物及其应用 |
CN115527681A (zh) * | 2022-11-11 | 2022-12-27 | 北京科技大学 | 一种结直肠癌预后预测模型构建方法及装置 |
CN116179701A (zh) * | 2023-01-20 | 2023-05-30 | 浙江省肿瘤医院 | 用于预测食管鳞癌免疫治疗疗效的标记基因及其应用 |
Non-Patent Citations (4)
Title |
---|
SHARMA, U等: "Circulating Long Non-coding RNAs LINC00324 and LOC100507053 as Potential Liquid Biopsy Markers for Esophageal Squamous Cell Carcinoma : A Pilot Study", 《FRONT》 * |
ZHENGDONG LUO等: "Identification of hub necroptosis-related INCRNAS for prognosis prediction of esophageal carcinoma", 《AGING》, vol. 15, no. 11 * |
赵明;陈思禹;王钰琦;: "食管鳞状细胞癌预后甲基化基因生物标志物筛选", 武警医学, no. 01 * |
黄向东等: "食管癌预后相关lncRNA的特征构建", 《医学信息》, vol. 36, no. 5 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109897899B (zh) | 一种用于局部晚期食管鳞癌预后判断的标志物及其应用 | |
US20180216199A1 (en) | Methods for predicting the prognosis of breast cancer patient | |
CN111394456B (zh) | 早期肺腺癌患者预后评估系统及其应用 | |
CN111128385B (zh) | 一种用于食管鳞癌的预后预警系统及其应用 | |
US8030060B2 (en) | Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer | |
CN111128299A (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
CN113355419B (zh) | 一种乳腺癌预后风险预测标志组合物及应用 | |
Luo et al. | A prognostic 4-lncRNA expression signature for lung squamous cell carcinoma | |
CN111564177B (zh) | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 | |
CN113066585A (zh) | 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法 | |
CN111653314B (zh) | 一种分析识别淋巴管浸润的方法 | |
JP2019535286A (ja) | 乳がん患者の化学治療の有用性を予測する方法 | |
CN110760585B (zh) | 前列腺癌生物标志物及其应用 | |
JP2022524484A (ja) | がん患者の生存率を予測する方法 | |
CN113450869A (zh) | 基于m6A相关的lncRNA网络结直肠癌预后模型的构建及其临床应用 | |
Keller et al. | Competitive learning suggests circulating miRNA profiles for cancers decades prior to diagnosis | |
CN115472217A (zh) | 用于预测胰腺癌患者预后系统 | |
CN113584175A (zh) | 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用 | |
CN116741271A (zh) | 一种食管鳞癌预后预测风险模型的构建方法及其应用 | |
CN116153387A (zh) | 一种肺鳞癌患者总体生存率预后模型及应用 | |
CN112746108B (zh) | 用于肿瘤预后分层评估的基因标志物、评估方法及应用 | |
CN115798703A (zh) | 基于新型脂肪酸代谢相关基因预测肾透明细胞癌预后的装置和计算机可读存储介质 | |
CN115841844B (zh) | Covid-19和肺癌标志物筛选及预后风险模型构建方法 | |
CN113444803B (zh) | 宫颈癌预后标志微生物及其在制备宫颈癌预后预测诊断产品中的应用 | |
CN105349665A (zh) | 评估奥沙利铂化疗后结直肠癌复发风险的试剂盒及其用途 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |