CN116741271A

CN116741271A - 一种食管鳞癌预后预测风险模型的构建方法及其应用

Info

Publication number: CN116741271A
Application number: CN202310679266.2A
Authority: CN
Inventors: 郑璇; 李景武; 王建功; 李玉凤; 王志武; 王磊; 张晓茹; 李丹; 王卓; 张峻
Original assignee: Tangshan people's hospital
Current assignee: Tangshan people's hospital
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-12

Abstract

本发明提供一种食管鳞癌预后预测风险模型的构建方法及其应用，属于生物医学技术领域。本发明从生物信息学分析的角度出发，预测了与食管鳞癌相关的氧化应激差异表达lncRNA，从中筛选出调控食管鳞癌发生发展的标志物，所述食管鳞癌预后相关lncRNA包括CCR5AS、LINC01749、PCDH9‑AS1、TMEM220‑AS1、KCNMA1‑AS1、SNHG1、LINC01672中的一种或多种。基于上述标志物构建出风险模型，可快速、准确预测食管鳞癌患者预后情况。

Description

一种食管鳞癌预后预测风险模型的构建方法及其应用

技术领域

本发明属于生物医学技术领域，具体涉及一种食管鳞癌预后预测风险模型的构建方法及其应用。

背景技术

食管癌(Esophageal cancer，EC)是第八大常见癌症，癌症相关死亡率排名第六。根据病理特征，EC通常分为食管鳞状细胞癌(esophageal squamous cell carcinoma，ESCC)和食管腺癌(esophageal adenocarcinoma，EAC)。尽管目前的治疗方法包括手术、化学疗法、放射疗法等在内的多学科治疗，但是食管鳞癌患者仍然预后不良，ESCC的病死率高于EAC。因此，迫切需要寻找有效的筛查方法和风险分层来改善患者的预后。

非编码RNA(ncRNA)已成为鉴定预后生物标志物的非常有前途的资源。LncRNA是长度大于200个核苷酸的非编码RNA，代表了一类新的、有效的肿瘤调节RNA，具有多种功能，如基因调控、表观遗传调控等。氧化应激是一种由活性氧(ROS)积累引起的过程，在许多类型的肿瘤细胞中很常见。目前，以氧化应激相关LncRNA作为标志物探究食管鳞癌发生发展的情况未见相关报道。

发明内容

本发明提供了一种食管鳞癌预后预测风险模型的构建方法及其应用，该方法可快速、准确的对食管鳞癌患者预后进行评估。

为解决上述技术问题，本发明提供了以下技术方案：

本发明提供一种食管鳞癌预后预测风险模型的构建方法，其特征在于，包括如下步骤：(1)将食管鳞癌与正常样本进行差异表达分析，以adj.p.val<0.05、|log2FC|>1为筛选条件，获得差异表达lncRNA；(2)将所述差异表达lncRNA与氧化应激相关基因进行相关性分析，以cor>0.7、p<0.05为筛选条件，得到氧化应激相关差异表达lncRNA；(3)对所述氧化应激相关差异表达lncRNA进行单因素Cox回归分析和Lasso回归分析，筛选出预后相关lncRNA；(4)根据所述预后相关lncRNA的表达量和所述预后相关lncRNA对应的回归系数，计算出每个食管鳞癌组织样本的风险值；(5)基于所述每个食管鳞癌组织样本的风险值，计算多个食管鳞癌组织样本的中位值，根据所述中位值将每个食管鳞癌组织样本划分为高风险组和低风险组。

优选的，所述预后相关lncRNA包括CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672中的一种或多种。

优选的，所述食管鳞癌与正常样本来源于数据集编号GSE53625。

优选的，对所述氧化应激相关差异表达lncRNA进行单因素Cox回归分析，以HR≠1、p<0.05为筛选条件，获得初步预后相关lncRNA。

优选的，对所述初步预后相关lncRNA进行Lasso回归，根据lambda.min＝0.04719635，进行交叉验证，最终得到回归系数没有被惩罚为0的基因为预后相关lncRNA。

优选的，所述风险值的计算方法如下式(1)所示：

其中，Risk score是风险值，n是预后相关lncRNA的数量；coef_i是预后相关lncRNA的回归系数；exp_i是预后相关lncRNA的表达量。

优选的，所述风险值小于所述中位值，食管鳞癌组织样本为低风险，表明食管鳞癌患者预后良好，所述风险值大于等于所述中位数值，食管鳞癌组织样本为高风险，表明食管鳞癌患者预后差。

本发明提供所述构建方法获得的食管鳞癌预后预测风险模型，所述模型以所述预后相关lncRNA表达量作为输入变量，所述模型根据以下公式计算风险值：风险值＝(-0.049993331×CCR5AS表达量)+(-0.000917922×LINC01749表达量)+(-0.023456133×PCDH9-AS1表达量)+(-0.068543123×TMEM220-AS1表达量)+(0.172214585×KCNMA1-AS1表达量)+(0.05726297×SNHG1表达量)+(0.850776742×LINC01672表达量)。

本发明提供所述食管鳞癌预后预测风险模型在评估食管鳞癌预后风险中的应用。

本发明提供检测生物标志物组合表达量的试剂在制备评估食管鳞癌预后风险产品中的应用，所述生物标志物组合是CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1和LINC01672的组合。

与现有技术相比，本发明具有如下有益效果：

本发明首次以CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672为预后标志物构建食管鳞癌预后预测风险模型，经所述方法构建的风险模型可快速、准确对食管鳞癌患者预后进行评估，判断出食管鳞癌患者预后风险情况，有利于分配医疗资源，制定合适的治疗方案，指导个体化治疗，在临床上具有较好的应用前景。

附图说明

图1差异表达lncRNA的火山图和热图(A是火山图，红色点表示上调基因，蓝色点表示下调基因，灰色表示无显著差异基因；B是热图，红色表示高表达，蓝色表示低表达)。

图2单因素Cox回归分析筛选预后相关基因的森林图。

图3LASSO回归分析结果(A：系数图，B交叉验证曲线)。

图4患者风险值分布和生存状态图(A：风险分数分布，B：生存状态分布图)。

图5训练集KM生存曲线(A)及ROC曲线(B)。

图6验证集KM生存曲线(A)及ROC曲线(B)。

图7临床指标箱线图。

图8CIBERSORT分析结果(A：CIBERSORT柱状堆叠图，B：差异免疫浸润细胞图)。

图9差异免疫检验点分子图。

图10预后相关lncRNA的表达分析图。

图11临床预后风险模型构建分析结果(A：单因素Cox分析预后临床指标；B：多因素Cox分析预后临床指标；C：列线图(Nomogram)预测食管鳞癌患者的生存率；D：1、3、5年期校准曲线评估预后模型，X轴代表列线图预测的生存率，Y轴代表实际的生存率)。

具体实施方式

本发明提供一种食管鳞癌预后预测风险模型的构建方法，包括如下步骤：(1)将食管鳞癌与正常样本进行差异表达分析，以adj.p.val<0.05、|log2FC|>1为筛选条件，获得差异表达lncRNA；(2)将所述差异表达lncRNA与氧化应激相关基因进行相关性分析，以cor>0.7、p<0.05为筛选条件，得到氧化应激相关差异表达lncRNA；(3)对所述氧化应激相关差异表达lncRNA进行单因素Cox回归分析和Lasso回归分析，筛选出预后相关lncRNA；(4)根据所述预后相关lncRNA的表达量和所述预后相关lncRNA对应的回归系数，计算出每个食管鳞癌组织样本的风险值；(5)基于所述每个食管鳞癌组织样本的风险值，计算多个食管鳞癌组织样本的中位值，根据所述中位值将每个食管鳞癌组织样本划分为高风险组和低风险组。本发明所述预后相关lncRNA包括CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672中的一种或多种。本发明所述CCR5AS、LINC01749、PCDH9-AS1和TMEM220-AS1为低风险因子，KCNMA1-AS1、SNHG1、LINC01672为高风险因子。

在本发明中，食管鳞癌与正常样本来源于数据集编号GSE53625。本发明所述数据集编号GSE53625含有358个样本，食管鳞癌组织样本作为实验组(ESCC，n＝179)，正常组织样本作为对照组(control，n＝179)。本发明所述数据集编号GSE53625来源于GEO(GeneExpression Omnibus)数据库。本发明所述食管鳞癌与正常样本进行差异表达分析采用limma包分析。

在本发明中，所述氧化应激基因集来源于GO数据库(GO:0006979，GOBP_RESPONSE_TO_OXIDATIVE_STRESS)，共436个。本发明所述差异表达lncRNA与氧化应激相关基因采用R语言“base”包中cor函数进行相关性分析。

在本发明中，基于食管鳞癌相关数据集GSE53625，采用R语言“survival”包中的coxph函数对筛选出的氧化应激相关差异表达lncRNA进行单因素COX分析，以HR≠1、p<0.05为因筛选条件，获得初步预后相关lncRNA，然后进行Lasso回归分析，根据lambda.min＝0.04719635，进行交叉验证，最终得到回归系数没有被惩罚为0的基因为预后相关lncRNA，作为预后风险模型的标志物，同时从Lasso回归分析过程中获得预后相关lncRNA的回归系数(coef)和表达量(exp)，构建出预后风险模型，基于构建的模型计算出每位患者的风险值，获得中位值。

在本发明中，所述风险模型中风险值的计算方法如下式(1)所示：

其中，Risk score是风险值，n是预后相关lncRNA的数量；coef_i是预后相关lncRNA的回归系数；exp_i是预后相关lncRNA的表达量。本发明基于筛选的预后相关lncRNA以及对应的回归系数和表达量，所述风险值的计算方法如下式(2)所示：风险值＝(-0.049993331×CCR5AS表达量)+(-0.000917922×LINC01749表达量)+(-0.023456133×PCDH9-AS1表达量)+(-0.068543123×TMEM220-AS1表达量)+(0.172214585×KCNMA1-AS1表达量)+(0.05726297×SNHG1表达量)+(0.850776742×LINC01672表达量)。

在本发明中，所述风险值小于所述中位值，食管鳞癌组织样本为低风险，表明食管鳞癌患者预后良好，所述风险值大于等于所述中位值，食管鳞癌组织样本为高风险，表明食管鳞癌患者预后差。本发明所述中位值为15.48506186。

在本发明中，基于风险模型中得到的风险值和患者的临床数据，使用Kaplan-Meier曲线和ROC曲线分析法评估预后风险模型预测食管鳞癌患者预后的准确性。本发明将GSE53625数据集随机三七分组，七分组作为训练集，三分组作为验证集。本发明对所述训练集使用Kaplan-Meier(KM)曲线对高低风险组患者的生存差异进行分析，Log-rank分析显示两组间的生存具有显著差异(p<0.05)；同时采用ROC曲线分析法，对所述训练集的风险值用于预测患者生存状态性能进行评估，绘制1、3、5年ROC曲线，结果显示风险值可以较好的预测患者的生存状态。本发明对所述验证集使用Kaplan-Meier(KM)曲线对高低风险组患者的生存差异进行分析，Log-rank分析显示两组间的生存具有显著差异(p<0.05)；同时采用ROC曲线分析法，对风险值用于预测患者生存状态性能进行评估，绘制1、3、5年ROC曲线，结果显示构建的风险模型有良好的预测能力。

本发明还提供所述构建方法获得的风险模型在评估食管鳞癌预后风险中的应用。本发明所述风险模型可快速、准确的对食管鳞癌患者预后进行评估。

本发明还提供检测生物标志物组合表达量的试剂在制备评估食管鳞癌预后风险产品中的应用，所述生物标志物组合是CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1和LINC01672的组合。本发明所述试剂包括引物、探针。

下面将结合本发明中的实施例，对本发明中的技术方案进行清楚、完整地描述。

实施例1

1.食管鳞癌中差异lncRNA的筛选

该实验使用的数据来源于GEO(Gene Expression Omnibus)数据库。训练集数据集编号GSE53625(芯片数据)。训练集包括358个样本，食管鳞癌组织样本作为实验组(ESCC，n＝179)，正常组织样本作为对照组(control，n＝179)。

从GENCODE数据库获取基因的gtf注释文件，对GSE53625的基因进行类型注释，将注释到的lncRNA表达矩阵提取出来。使用R语言“limma”包，以adj.p.val<0.05，|log2FC|>1为筛选条件，对实验组(ESCC，n＝179)和对照组(control，n＝179)进行了差异lncRNA的鉴定。共鉴定得到332个差异lncRNA(ESCC VS.control)，其中上调表达的基因共137个，下调表达的基因共195个。对差异lncRNA基因绘制火山图，并挑选|log2FC|最大的10个上调表达的lncRNA和10个下调表达lncRNA绘制热图。结果见图1。

2.氧化应激差异表达lncRNA筛选

氧化应激基因集来源于GO数据库(GO:0006979，GOBP_RESPONSE_TO_OXIDATIVE_STRESS)，共436个。将步骤1得到的差异lncRNA与氧化应激相关基因采用R语言“base”包中cor函数进行相关性分析(cor>0.7，p<0.05)，共得到174个氧化应激相关的差异lncRNA。

3.预后相关差异lncRNA风险模型构建

(1)单因素Cox回归

将GSE53625数据集采用R包caret进行三七分组，七分组作为训练集，三分组作为验证集，进行风险模型构建。将七分组训练集中的ESCC患者的临床信息与上述174个氧化应激相关的差异lncRNA相结合。使用R语言“survival”包中的coxph函数，进行单因素Cox回归，初步筛选到与预后相关的基因(HR≠1，p<0.05)。绘制单因素Cox回归分析筛选预后相关基因森林图，结果见图2。

(2)使用Rpackage glmnet，对单因素Cox回归分析初步筛选的预后相关基因进行Lasso回归分析。根据lambda.min＝0.04719635，进行交叉验证，最终得到回归系数没有被惩罚为0的基因7个，分别是：CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672。结果见图3。

(3)风险模型构建

基于Lasso回归得到的7个基因的表达量，构建风险模型。将Lasso回归模型得到的线性部分(coef)作为系数，该风险值的计算公式如下：

Risk score＝(-0.049993331×CCR5AS表达量)+(-0.000917922×LINC01749表达量)+(-0.023456133×PCDH9-AS1表达量)+(-0.068543123×TMEM220-AS1表达量)+(0.172214585×KCNMA1-AS1表达量)+(0.05726297×SNHG1表达量)+(0.850776742×LINC01672表达量)。

表1Lasso回归系数列表

Lasso基因	回归系数
		LINC01672	0.850776742
SNHG1	0.05726297
		KCNMA1-AS1	0.172214585
CCR5AS	-0.049993331
		LINC01749	-0.000917922
TMEM220-AS1	-0.068543123
		PCDH9-AS1	-0.023456133

采用上述公式对七分组训练集中126名患者计算风险值，并计算出中位值，中位值为15.48506186，风险值小于15.48506186，食管鳞癌组织样本为低风险组(n＝63)，表明食管鳞癌患者预后良好，所述风险值大于等于15.48506186，食管鳞癌组织样本为高风险组(n＝63)，患者的风险值分布和生存状态如图4所示。

实施例2风险模型预测性能评估及相关性分析

1.将GSE53625数据集采用R包caret进行随机三七分组，七分组作为训练集，三分组作为验证集。

使用Kaplan-Meier(KM)曲线对训练集高低风险组患者的生存差异进行分析，结果如图5A所示，Log-rank分析显示两组间的生存具有显著差异(p<0.05)。同时采用ROC曲线分析法，对训练集患者的风险值用于预测患者生存状态性能进行评估，绘制1、3、5年ROC曲线，结果如图5B所示。结果显示，风险值可以较好的预测患者的生存状态。

使用Kaplan-Meier(KM)曲线对验证集高低风险组患者的生存差异进行分析，结果如图6A所示，Log-rank分析显示两组间的生存具有显著差异(p<0.05)。同时采用ROC曲线分析法，对验证集风险值用于预测患者生存状态性能进行评估，绘制1、3、5年ROC曲线，结果如图6B所示。结果显示，风险模型有良好的预测能力。

2.风险值与临床指标相关性分析

基于GSE53625数据集临床信息，根据上述构建的风险模型计算出风险值，将临床数据(Gender、T stage、N stage、TNM stage)合并，使用Wilcoxon检验，进行临床指标分析。结果如图7所示。结果显示，在不同的TNM stage、T.Stage、N Stage之间存在显著差异，在不同的Gender之间无显著差异(Wilcoxon，p<0.05)。

3.风险值与食管鳞癌免疫特征的相关性

(1)浸润性免疫细胞与高风险组和低风险组关系

CIBERSORT是利用反卷积的方法，利用单细胞RNA-seq的数据，基于GSE53625数据集临床信息，提取特征后，反推Bulk-seq各类细胞(22种)成分所占比例的方法。通过CIBERSORT分析了在高低风险组之间免疫浸润细胞的分布情况，鉴定出高低风险组之间的差异免疫浸润细胞。结果如图8所示，结果表明，2种免疫浸润细胞在高低风险组之间具有差异(wilcoxon，p<0.05)。

(2)免疫检查点分子与高风险组和低风险组关系

根据GSE53625数据集的高风险组和低风险组患者的每个免疫检验点分子的表达量，利用wilcoxon秩和检验方法分析了47个免疫检验点分子在高低风险组之间的差异。结果如图9所示。结果显示在高低风险组之间，共有14个免疫检验点分子有显著差异(wilcoxon，p<0.05)

4.表达分析

根据GSE53625数据集的高风险组和低风险组患者的预后相关lncRNA的表达量，利用R语言的“ggplot2”包分析了预后相关lncRNA在食管鳞癌和对照组中的表达情况，结果如图10所示。结果表明，7个lncRNA在实验组和对照组之间均显著差异表达(adj.p.val<0.05)。

5.临床预后模型构建与评估

根据GSE53625数据集，基于本发明构建的风险模型得到的风险值，以及患者的临床数据，使用单因素Cox回归和多因素Cox回归，将风险值与食管鳞癌患者的临床病理因素相结合进行分析，寻找食管鳞癌患者的独立危险因素(p<0.05)，构建列线图(Nomogram，临床预后模型的一种图形表示方式)，见图11C。利用构建的列线图对食管鳞癌患者进行个体化评分，得出患者的临床生存率；同时使用校准曲线对临床预后模型进行评估，结果如图11所示。结果表明，根据本发明构建的风险模型继续构建的临床预后模型验证结果与现有临床患者情况一致，证明该临床预后模型也可应用到临床。

综上所述：基于7个关键氧化应激相关差异表达lncRNA(CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1和LINC01672)所构建的预后风险模型可较好地预测食管鳞癌患者预后。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种食管鳞癌预后预测风险模型的构建方法，其特征在于，包括如下步骤：

(1)将食管鳞癌与正常样本进行差异表达分析，以adj.p.val<0.05、|log2FC|>1为筛选条件，获得差异表达lncRNA；

(2)将所述差异表达lncRNA与氧化应激相关基因进行相关性分析，以cor>0.7、p<0.05为筛选条件，得到氧化应激相关差异表达lncRNA；

(3)对所述氧化应激相关差异表达lncRNA进行单因素Cox回归分析和Lasso回归分析，筛选出预后相关lncRNA；

(4)根据所述预后相关lncRNA的表达量和所述预后相关lncRNA对应的回归系数，计算出每个食管鳞癌组织样本的风险值；

(5)基于所述每个食管鳞癌组织样本的风险值，计算多个食管鳞癌组织样本的中位值，根据所述中位值将每个食管鳞癌组织样本划分为高风险组和低风险组。

2.如权利要求1所述构建方法，其特征在于，所述预后相关lncRNA包括CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1、LINC01672中的一种或多种。

3.如权利要求1所述构建方法，其特征在于，所述食管鳞癌与正常样本来源于数据集编号GSE53625。

4.如权利要求1所述构建方法，其特征在于，对所述氧化应激差异表达lncRNA进行单因素Cox回归分析，以HR≠1、p<0.05为筛选条件，获得初步预后相关lncRNA。

5.如权利要求1所述构建方法，其特征在于，对所述初步预后相关lncRNA进行Lasso回归，根据lambda.min＝0.04719635，进行交叉验证，最终得到回归系数没有被惩罚为0的基因为预后相关lncRNA。

6.如权利要求1所述构建方法，其特征在于，所述风险值的计算方法如下式(1)所示：

7.如权利要求1所述构建方法，其特征在于，所述风险值小于所述中位值，食管鳞癌组织样本为低风险，表明食管鳞癌患者预后良好，所述风险值大于等于所述中位数值，食管鳞癌组织样本为高风险，表明食管鳞癌患者预后差。

8.如权利要求1所述构建方法获得的食管鳞癌预后预测风险模型，其特征在于，所述模型以所述预后相关lncRNA表达量作为输入变量，所述模型根据以下公式计算风险值：风险值＝(-0.049993331×CCR5AS表达量)+(-0.000917922×LINC01749表达量)+(-0.023456133×PCDH9-AS1表达量)+(-0.068543123×TMEM220-AS1表达量)+(0.172214585×KCNMA1-AS1表达量)+(0.05726297×SNHG1表达量)+(0.850776742×LINC01672表达量)。

9.如权利要求8所述食管鳞癌预后预测风险模型在评估食管鳞癌预后风险中的应用。

10.检测生物标志物组合表达量的试剂在制备评估食管鳞癌预后风险产品中的应用，其特征在于，所述生物标志物组合是CCR5AS、LINC01749、PCDH9-AS1、TMEM220-AS1、KCNMA1-AS1、SNHG1和LINC01672的组合。