CN111128385B - 一种用于食管鳞癌的预后预警系统及其应用 - Google Patents

一种用于食管鳞癌的预后预警系统及其应用 Download PDF

Info

Publication number
CN111128385B
CN111128385B CN202010055442.1A CN202010055442A CN111128385B CN 111128385 B CN111128385 B CN 111128385B CN 202010055442 A CN202010055442 A CN 202010055442A CN 111128385 B CN111128385 B CN 111128385B
Authority
CN
China
Prior art keywords
points
esophageal squamous
value
survival rate
year survival
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010055442.1A
Other languages
English (en)
Other versions
CN111128385A (zh
Inventor
高社干
刘轲
王艺璇
许锋波
齐义军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Henan University of Science and Technology
Original Assignee
First Affiliated Hospital of Henan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Henan University of Science and Technology filed Critical First Affiliated Hospital of Henan University of Science and Technology
Priority to CN202010055442.1A priority Critical patent/CN111128385B/zh
Publication of CN111128385A publication Critical patent/CN111128385A/zh
Application granted granted Critical
Publication of CN111128385B publication Critical patent/CN111128385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息领域,具体涉及一种用于食管鳞癌的预后预警系统及其应用。所述的用于食管鳞癌的预后预警系统,包括数据输入模块、模型计算模块和结果输出模块;该系统以患者的年龄、TNM分期、TM9SF1基因表达值、PDZK1IP1基因表达值作为预测因素。本发明与TNM分期系统相比,在食管鳞癌病人的预后分期上更为精确,也更为直观。能够通过各项危险因素的分数方便直观的判断病人的1年、3年、4年生存率。

Description

一种用于食管鳞癌的预后预警系统及其应用
技术领域
本发明属于生物信息领域,具体涉及一种用于食管鳞癌的预后预警系统及其应用。
背景技术
食管鳞癌(ESCC)是全球第八大最常见的癌症,ESCC的特点是高侵袭性和预后差。尽管采取了手术、放疗、化疗等综合治疗,但患者5年生存率仍低于22%。显著的地理变异提示环境和遗传因素在食管鳞癌的发生发展中起重要作用。已知的食管鳞癌的危险因素包括吸烟和饮酒,而水果和蔬菜的摄入在预防食管鳞癌方面具有很高的可能性。目前,TNM分期系统被用来预测ESCC患者的预后,但都没有提供实质性的预后价值。考虑到ESCC患者在相同的临床分期时,其临床病程往往存在显著差异,因此需要一种新的ESCC分级系统来进行更精确的预后预测,从而实现一种更有针对性的治疗方法,改善该疾病的预后。同时,ESCC仍缺乏有效的靶向治疗,因此鉴定ESCC特异的基因标志物,将为开发ESCC分子靶向治疗奠定理论基础。
目前肿瘤预后的金标准仍然是TNM(肿瘤淋巴结转移)分期系统。最初在1953年由法国外科医生皮埃尔Denoix作为实体瘤预后的共同语言提出。然而,TNM分期有几个缺点。首先,它受到疾病解剖学进展与分期进展之间的相关性的限制。因此,具有相同解剖扩散但结果不同(复发或存活)的患者被迫进入同一分期。其次,TNM分期不能将肿瘤、淋巴结或转移纳入连续变量。这就形成了一个有限阶段的系统,使个体患者的预后判断复杂化。第三,TNM系统将预后与描述性变量联系起来,而不是决定性变量——它纯粹是说,如果你的疾病在发展过程中在解剖学上进展了,你的预后将会更糟,而不包括其他控制预后的变量(Balachandran VP,Gonen M,Smith JJ,Dematteo RP.Nomograms in oncology:more thanmeets the eye.Lancet Oncology 2015;16:el 73-e80)。鉴于TNM分期的局限性,统计预测模型己发展到适用于大多数癌症类型。这种预测工具之一是列线图,它创建一个简单的统计预测模型的图形来表示,该模型生成临床事件的数值概率。对于许多癌症来说,列线图与传统的TNM分期系统相比具有优势,其主要优势之一是能够根据患者和疾病特征评估个性化风险。因此被提出作为一种替代甚至一种新的标准。
近年来已有大量研究构建了列线图(Nomogram)来进一步预测各种恶性肿瘤患者的预后,包括肺癌、乳腺癌、前列腺癌、膀胱癌等。Nomogram不仅经常被用于预测所有类型癌症患者的生存,而且通过纳入和说明肿瘤预后的重要因素来成功地量化风险预测。Nomogram与TNM分期系统相比,在许多癌症中的应用更为精确,因此,Nomogram被认为是一种替代方法,甚至是一种新的标准。通过创建一个统计预测模型的直观图形,Nomogram产生了一个临床事件的数值概率,如总体生存(OS)。在食管癌中也有类似的研究,但仅仅构建了不同的炎症指标与食管鳞癌预后的列线图(Liu JS,Huang Y,Yang X,Feng JF.A nomogramto predict prognostic values of various inflammatory biomarkers in patientswith esophageal squamous cell carcinoma.American Joumal of Cancer Research2015;5:2180.),不具有代表性。我们假设结合多种临床病理特征和基因表达可以提高ESCC预后的整体预测,但可靠的基因标记物仍然缺乏。因此本研究中我们全面分析可能影响食管癌预后的各种因素,首次将基因标志物引入到食管癌列线图中,构建列线图以期更好的预测食管癌患者的预后。
从系统生物学角度来看,具有相同或相似功能的生物标志物或生物标志物组群的临床应用价值优于单个生物标志物(Wang M T,Chen G,An S J,et al.Prognosticsignificance of CyclinD 1and E—Cadherin in patients with esophageal squamouscell carcinoma:multiinstitutional retrospective analysis.Research Committeeon Malignancy of Esophageal Cancer,Japanese Society for Esophageal Diseases[J].Journal of the American College of Surgeons,2001,192(6):708-18.),能够更稳定、更精确的量化疾病发生发展过程,为疾病的分子分型和个体化医疗提供依据,阐明肿瘤发病的分子机制。
在理论研究上,美国的Wang(Wang Y,Klijn JG,Zhang Y,et al.Gene-expressionprofiles to predict distant metastasis of lymph-node-negative primary breastcancer.Lancet.2005,365(9460):671–679)等学者应用基因芯片技术分析了286例乳腺癌差异表达基因,建立的由76个基因组成的预后分子标志物组能够正确预测各组60-70%乳腺癌患者的预后,但是,构成这乳腺癌预后标志物分子中仅有3个重复基因,并且不能预测另外一组患者的预后。
中山大学邵建永(Jian-Yong Shao,Hai-Yun Wang,Bing-Yu Sun,et al.Eight-Signature Classifier for Prediction of Nasopharyngeal CarcinomaSurvival.JOURNAL OF CLINICAL ONCOLOGY.2011,34(29):4516-4526)教授对来自广东、广西、福建、香港和新加坡等地区的1268个鼻咽癌肿瘤组织标本进行研究,在18个前期研究或文献报道过的与鼻咽癌病因、浸润和转移、肿瘤血管生成等相关基因中,筛选出EB病毒潜伏膜蛋白1等8个与鼻咽癌病人生存预后最为密切的基因,结合鼻咽癌患者的性别参数,应用生物信息学方法,建立支持向量机预测模型,筛选出431名高危患者,其他归为低危组。研究人员临床5年随访追踪发现,两组患者的生存状况存在显著差异,被归类为低危组的鼻咽癌患者5年生存率达到87%,而高危组鼻咽癌患者5年生存率仅为37.7%。新研究确定的8个鼻咽癌相关基因不仅能够帮助从普通患者中检测出高危鼻咽癌患者,还可以预测鼻咽癌患者复发风险和生存预后,指导临床实施更有效的治疗方案。另一项结直肠癌基因表达谱数据的Meta分析表明,不同研究团队报道的由差异表达基因组成的分子标志物虽然在各自的训练组中具有较高的准确预测效率,但在独立测试组中却失去了临床应用价值(Tsuji S,Midorikawa Y,Takahashi T,et al.Potential responders to FOLFOX therapy forcolorectal cancer by Random Forests analysis.Br J Cancer.2012,106(1):126–132)。
鉴定与肿瘤发生发展密切相关的异常基因能够更特异敏感的诊断肿瘤、评估疗效及预后。很显然,高通量技术鉴定的大量差异表达分子所参与的生物学通路/功能更能够确切体现肿瘤发生发展的本质。但是,目前许多研究者仅考虑基因或者临床因素对食管癌的发生发展的影响,这样建立的预测模型具有局限性。因此,利用基因标志物及临床指标建立的Nomogram预后预警模型在肿瘤早期诊断和预后评估具有更好临床应用前景和价值。
发明内容
为了克服现有技术的不足和缺点,本发明的首要目的在于提供一种用于食管鳞癌的预后预警系统。
本发明的另一目的在于提供上述用于食管鳞癌的预后预警系统的应用。
本发明的目的通过下述技术方案实现:
一种用于食管鳞癌的预后预警系统,包括数据输入模块、模型计算模块和结果输出模块;该系统以患者的年龄、TNM分期、TM9SF1基因表达值、PDZK1IP1基因表达值作为预测因素;
其中,数据输入模块用于将食管鳞癌患者的年龄、TNM分期、TM9SF1基因表达值、PDZK1IP1基因表达值的检测结果输入模型计算模块;
模型计算模块用于根据食管鳞癌患者points(总分数)数值以及生存率模型计算食管鳞癌患者生存率;
模型计算模块,包括1年生存率模型、3年生存率模型和4年生存率模型中的至少一种;
1年生存率模型包括1年生存率计算公式,1年生存率计算公式如下:
P=-1.5e-08*points^3+-2.556e-06*points^2+0.000244802*points+0.955229796;
3年生存率模型包括3年生存率计算公式,3年生存率计算公式如下:
P=4.9e-08*points^3+-3.2936e-05*points^2+0.002797337*points+0.834350558;
4年生存率模型包括4年生存率计算公式,4年生存率计算公式如下:
P=4.9e-08*points^3+-3.0342e-05*points^2+0.001678317*points+0.873788964;
其中,食管鳞癌患者Points数值=年龄得分+TNM分期得分+TM9SF1基因表达值得分+PDZK1IP1基因表达值得分;
所述的年龄得分的规则:年龄≤60=0分,年龄>60=32.031分;
所述的TNM分期得分的规则:I期=0分,II期=53.643分,III期=92.717分;
所述的TM9SF1基因表达值得分的规则:TM9SF1基因表达值高=0分;TM9SF1表达值低=51.063分;
所述的PDZK1IP1基因表达值得分的规则:PDZK1IP1基因表达值高=100分;PDZK1IP1表达值低=0分;
利用survminer软件包的surv_cutpoint()函数确定TM9SF1和PDZK1IP1基因的cutoff值,表达值高于cutoff值的,则定义为高表达,低于cutoff值的则定义为低表达;
所述的基因表达值为转录组测序数据经注释处理后得到的数值;
结果输出模块,用于根据食管鳞癌患者生存率结果来判定食管鳞癌患者预后情况;食管鳞癌患者的生存概率越高,则提示该食管鳞癌患者预后良好、生存期长的可能性越大。
所述的4年生存率模型优选为:
根据食管鳞癌患者points数值直接快速评估食管鳞癌患者4年生存概率,其中,points数值为0~126,则4年生存概率为70%;points数值为127~189,则4年生存概率为44%;points数值为190~229,则4年生存概率为24%;points得分数值为≥230,则4年生存概率为12%;
所述的食管鳞癌的预后预警系统在制备食管鳞癌的预后预警产品中的应用;
在本发明中,我们通过三个阶段来挖掘和验证ESCC患者的预后相关基因和列线图。
挖掘阶段:本发明采用edgeR和rbsure算法处理了GSE53625的179例ESCC患者的转录组测序数据,该样本获取了16738个基因的测序数据。通过求取差异gene再将其进行关联生存数据的降维处理,得到与预后直接相关的基因集。
训练阶段:利用Cox单因素和多因素分析得到与预后直接相关的标记基因,利用Cox单因素分析得到与预后直接相关的临床因素。将上述因素加入到Nomogram模型中,建立4年OS的NOMOGRAM模型。
验证阶段:标记基因和列线图将在多中心进行验证(图1)。
①从GSE53625中随机选择了58例样本进行内部验证,其中随机赋值是利用随机赋值序列随机进行的。
②此外,进一步在公共、开放访问数据TCGA数据库中进行验证。从TCGA数据库下载的81个样本的转录组测序数据和随访数据作为外部测试样本1。
③为了获得临床广泛应用的结果,对来自两个独立中心的105个样本(福尔马林固定石蜡包埋样本,肿瘤细胞成分最低为80%),进行了外部验证。此样本作为外部测试样本2包含两个相对较小的数据集,即河南科技大学第四附属医院安阳肿瘤医院(ACH)的38个ESCC和河南科技大学第一附属医院肿瘤表观遗传学重点实验室(HKLCE)的67个ESCC作为测试队列。
本发明相对于现有技术具有如下的优点及效果:
本发明与TNM分期系统相比,在食管鳞癌病人的预后分期上更为精确,也更为直观。能够通过各项危险因素的分数方便直观的判断病人的1年、3年、4年生存率,是TNM分期无法办到的。因此,本发明是一种替代方法,甚至是一种新的标准。
附图说明
图1是本发明的流程图。
图2是TM9SF1基因的cutoff值结果图。
图3是PDZK1IP1基因的cutoff值结果图。
图4是Cox多因素分析训练样本的基因集和临床病理特征(N=179)。
图5是ESCC患者生存率模型Nomogram示意图;其中,要使用该nomogram,每个变量轴上都有一个病人的赋值,并且向上画一条线来确定每个变量值的点数;这些数字的总和位于总分轴上,然后向下画一条线到生存轴,以确定1年、3年和4年OS的可能性。
图6是利用内部测试样本和外部测试样本2进行Nomogram验证的C-index指数和校准曲线图;其中,(a):内部测试样本4年OS预测的校准曲线,(b):外部测试样本2的4年OS校准曲线。
图7是Nomogram验证中生存曲线结果图;其中,a~c:Nomogram评分组;d~f:TNM分期;g~i:TM9SF1生存期,j~l:PDZK1IP1生存期。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例中涉及的生物材料:
1.1样本来源及随访时间
训练样本:来自中国医学科学院癌症研究所179例不同的ESCC患者的食管癌组织,上述样本均来自手术切除的、术后标本,该179例样本的转录组(mRNA)测序数据从GEO数据库下载(编号为:GSE53625)。179例ESCC患者的中位生存期为34.7个月(范围为23.4~45.9个月)。
内部测试样本:我们从GSE53625中随机选择了58例样本进行内部验证,其中随机赋值是利用随机赋值序列随机进行的。
外部测试样本1:同时将TCGA数据库的81例ESCC样本作为外部验证。
外部测试样本2:在外部测试样本2中,在研究期间接受部分食管切除术的140例ESCC患者中,有105例符合纳入标准,中位生存期为35个月(95%CI,27.9~42年)。这105例ESCC患者来自两个独立中心,其中,38例来自河南科技大学第四附属医院安阳肿瘤医院,67例来自河南科技大学第一附属医院肿瘤表观遗传学重点实验室。研究方案经各研究中心伦理委员会批准,所有的105个样本都被病理学家重新评估和确认。
上述患者接受了48个月至72个月的随访。本研究根据4年生存期统计,术后48个月以上的患者为存活,结尾值大于48个月的为48个月。
实施例1食管鳞癌基因标志物挖掘
1.实验方法
1.1EdgeR算法寻找差异基因
首先对GSE53625原始数据(芯片数据)进行注释处理,得到基因ID和基因表达量矩阵(完整的基因表达值),再利用R软件的edgeR包筛选差异基因,最后利用survminer软件包的surv_cutpoint()函数确定基因的cutoff值(图2和图3),表达值高于cutoff值的为高表达,低于cutoff值的为低表达。差异基因的具体筛选步骤如下:
(1)构建DGEList对象
根据基因表达量矩阵以及样本分组信息,构建DGEList对象,具体命令为:
dgelist<-DGEList(counts=targets,group=group)
(2)过滤低表达的基因
输入的基因表达量矩阵文件中,可能会含有一些低表达量的基因(甚至还有一些被忽略的全部为0值的行),需要在执行差异分析前将它们剔除。原因在于,这些基因未表达到具有生物学意义的程度(从生物学角度,有生物学意义的基因的表达量必须高于某一个阈值);并且低表达量的基因受到随机因素影响比较大,故其统计结果也不可靠,还会影响p值校正过程;此外,过滤后的数据量降低,也能加快运行速率。
本发明根据CPM(count-per-million)值进行过滤,具体方法为:使用CPM值为1作为标准,即当某个基因在read count最低的样本(文库)中的count值大于(read count最低的样品count总数/1000000),则保留;对于基因i,其CPM(count-per-million)值计算公式:
Figure BDA0002372633470000071
(3)标准化
使用edgeR中的calcNormFactors()函数对数据标准化,以消除由于样品制备或建库测序过程中带来的影响;
(4)差异基因分析
本发明采用拟合负二项式广义对数线性模型(negative binomial generalizedlog-linear model),获取差异基因。该方法将某个偏离这个分布模型的基因定义为差异表达基因。该方法使用edgeR包中的函数glmFit()和glmLRT()实现,其中glmFit()用于将每个基因的read count值拟合到模型中,glmLRT()用于对给定系数进行统计检验。
1.2Rbsurv算法降维
在步骤1.1的基础上,在RSTUDIO VERSION 1.1.463软件中,进一步使用RBSURV对获得差异基因的基因表达量矩阵进行降维,其中,Rbsurv参数如表1所示:
表1 Rbsurv参数
Figure BDA0002372633470000081
关键代码如下:
##选取cox单因素分析有意义的进行鲁棒性检查
library(rbsurv)
##gene降维
x=sx_odd
time<-surv_odd$months
status<-surv_odd$survival
fit<-rbsurv(time=time,status=status,x=x,method="efron",max.n.genes=11,n.iter=10,n.fold=3,gene.ID=row.names(x))
##code chunk number 3
JIANGWEI=fit$model
#subset(fit$model$Gene,Selected='*')
#JIANGWEI$gene1[fit$model$Selected<NULL]<-JIANGWEI$gene
gene.list=fit$gene.list
gene.list#得到降维的gene
1.3 Cox单因素和多因素分析
对Rbsurv算法降维得到的基因进一步进行Cox单因素和多因素分析。其中单因素分析利用survfit()实现,多因素分析利用coxph()实现。
2.结果分析
本实施例采用edgeR包和rbsurv包两种算法筛选有意义的标记基因。首先,使用edgeR包找到1101个差异基因。然后,用rbsurv包计算差异基因的降维。我们使用这两种算法找到了9个基因,如表2所示,带有星号。
接下来,我们使用Cox单因素和多因素分析筛选训练样本中的标记基因(N=179)。分析结果见表3。在Cox单因素分析中,9个基因均与生存相关,选择p值小于0.001的6个基因进行多因素分析。多因素分析显示,PDZK1IP1(高表达vs低表达,p=0.031)和TM9SF1(高表达vs低表达,p<0.001)是OS的独立危险因素(表3),因此,将PDZK1IP1和TM9SF1定义为与预后直接相关的基因集。
表2降维后的基因
Figure BDA0002372633470000091
*代表选择
表3 9个基因的单因素和多因素分析
Figure BDA0002372633470000092
Figure BDA0002372633470000101
实施例2临床病理特征单因素分析
1.实验方法
我们初步确定了以前被证明与生存率相关的临床特征,并将这些作为候选特征:年龄、性别、吸烟、饮酒、肿瘤浸润、肿瘤分级、T分期、N分期、TNM分期、心律失常、肺炎、吻合口漏、辅助治疗。对于每个因素,使用Cox单因素分析对训练样本和内部测试样本进行分析,将p值都小于0.05的挑选出来,由于N分期和TNM分期存在一定的重复性,将N分期剔除。这样临床病理特征因素就只剩下年龄和TNM分期。
2.结果分析
2.1患者的临床病理特征
训练样本和内部测试样本患者的特征见表4。
2.2分析训练样本和内部测试样本的临床病理特征的独立预后因素
表4列出了测试样本和内部测试样本组患者的临床病理特征Cox单因素分析结果。其中,年龄小于60岁的(<60和>60P=0.015)和TNM I期得病人(I与II与III P<0.001)预后越好。年龄和TNM分期都与训练样本(n=179)和内部测试样本(n=58)的OS(overallsurvival)相关,所以年龄和TNM分期是独立预后因素。
表4. ESCC患者的人口学特征和临床病理特征Cox单因素分析
Figure BDA0002372633470000102
Figure BDA0002372633470000111
实施例3 Nomogram的构建和验证
1.实验方法
1.1 Cox多因素分析
实施例1通过edgeR和rbsure算法处理了GSE53625的179例ESCC患者的转录组测序数据,通过求取差异基因再将其进行关联生存数据的降维处理、Cox单因素和多因素分析,得到与预后直接相关的基因集;实施例2对临床特征因素的Cox单因素分析得到的预后不良临床病理特征。
本实施例在实施例1和实施例2的基础上,将上述因素加入到建立的Nomogram模型中,对基因集和临床病理特征进行了Cox多因素分析,进一步验证说明年龄(p=0.031)、TNM分期(p=0.004)、PDZK1IP1表达值(p=0.001)和TM9SF1表达值(p=0.001)是OS的独立危险因素。
1.2 Nomogram模型的建立
根据Cox多因素分析的结果,在RStudio Version 1.1.463软件中,将上述因素加入到Nomogram模型中,使用rms包nomogram()函数,建立1、3、4年OS的Nomogram模型。
1.3 Nomogram模型的验证
Nomogram验证分为几个阶段:
(1)利用内部测试样本进行内部测试:使用Nomogram对内部测试样本中的每个患者进行评估,并以每个患者的总分(points)作为独立因素进行Cox回归分析,通过回归分析得到C-index指数和校准曲线,其中,C-index计算通过R软件survcomp()函数包实现,主要代码如下所示;校准曲线使用Bootstrap重采样(1000重采样),以确定预测和观察到的生存概率是否一致。
Figure BDA0002372633470000112
Figure BDA0002372633470000121
(2)利用外部测试样本2进行外部验证:使用Nomogram对外部测试样本2中的每个患者进行评估,并以每个患者的总分作为独立因素进行Cox回归分析。通过回归分析得到C-index指数和校准曲线。其中,C-index计算在R软件survcomp函数包实现,主要代码同步骤(1);校准曲线使用Bootstrap重采样(1000重采样),以确定预测和观察到的生存概率是否一致。
1.4 Nomogram在病人风险分层中的表现
利用survminer软件包的surv_cutpoint()函数确定基因的cutoff值:表达值高于cutoff值的为高表达,低于cutoff值的为低表达;在对每一组患者应用cutoff值后,计算Nomogram总分;根据Nomogram总分将其179例训练样本中的患者分层为不同的风险子组:0~126、127~189、190~229、≥230,然后对不同风险子组绘制生存曲线,生存曲线采用Kaplan-Meier法估计,并与根据预后因素分层的log-rank检验进行比较。
1.5验证标记基因
对外部测试样本2进行了PCR定量,确定了PDZK1IP1和TM9SF1的表达值(mRNA表达水平)。利用survminer软件包的surv_cutpoint()函数确定基因的cutoff值,表达值高于cutoff值的为高表达,低于cutoff值的为低表达。分别按照PDZK1IP1基因和TM9SF1基因的表达高低对训练样本、外部测试样本1和外部测试样本2绘制生存曲线,同步骤1.4。
2.1结果分析
(1)分析训练样本的独立预后因素
Cox单因素分析得到的临床病理特征预后不良因素如下:≥60岁,TNM分期第二和第三阶段;Cox单因素和多因素分析得到的基因预后不良因素为:TM9SF1高表达和PDZK1IP1的低表达。我们对上述基因集和临床病理特征进行了Cox多因素分析,结果见图4。
从图4中可以看出,Cox多因素分析显示,年龄(p=0.031)、TNM分期(p=0.004)、PDZK1IP1表达值(p=0.001)和TM9SF1表达值(p=0.001)是OS的独立危险因素。
(2)Nomogram的开发和建立
根据Cox多因素分析的结果,我们在RStudio Version 1.1.463软件中,使用了survival包和rms包nomogram()函数建立了预测1年、3年和4年OS的nomogram(图5)。其中,年龄、TNM、PDZK1IP1和TM9SF1是多因素分析中预测生存的独立危险因素,这些变量被纳入nomogram。其中,根据nomogram获得表5生存率计算公式,单一变量对应的得分见表6。
表5 nomogram预后预测模型中生存率计算公式
Figure BDA0002372633470000131
其中,Points(总分数)=年龄得分+TNM分期得分+TM9SF1表达值得分+PDZK1IP1表达值得分;
表6单一变量对应的得分(point)
预测变量 得分(point)
年龄
<60 0
≥60 32.031
TNM分期
I 0
II 53.643
III 92.717
TM9SF1表达值
0
51.063
PDZK1IP1表达值
100
0
(3)Nomogram的验证
在对内部测试样本的验证中,以c指数衡量的4年OS预测c-index为0.74。用nomogram()函数绘制4年OS概率的校准图显示了实际观测结果与nomogram预测结果之间的良好相关性(图6a)。
Nomogram通过计算外部测试样本2中105例患者的bootstrap C统计量进行验证,校准图如图6b所示。外部验证阶段预测4年OS的nomogram的C-index为0.72(图6b),说明该模型具有较好的判别能力。标定曲线表明,该方法标定效果良好;4年OS与nomogram预测结果吻合较好。
(4)Nomogram在病人风险分层中的表现
利用survminer软件包的surv_cutpoint()函数确定基因的cutoff值:表达值高于cutoff值的为高表达,低于cutoff值的为低表达;在对每一组患者应用cutoff值后,计算Nomogram总分;根据Nomogram总分将其179例训练样本中的患者分层为不同的风险子组:0~126、127~189、190~229、≥230(表7),每一组患者的预后有明显差异,可以显著区分每一类患者的Kaplan-Meier生存结果(图7a~图7c)。生存曲线分组的结果显示:根据TNM分组有重大问题,Ⅰ期的存活率低于Ⅱ期(图7d~图7f)。nomogram评分组(0~126,127~189,190~229,≥230)四个组)生存曲线的P值(P<0.0001vs 0.00019,0.0093vs 0.01,<0.0001vs0.025)明显好于TNM分期组。
表7预后评分
Figure BDA0002372633470000141
Figure BDA0002372633470000151
(表格上得分数由训练样本构建的列线图得来)
(5)验证标记基因
为了证实标记基因的准确性,我们对训练样本和两个外部测试样本进行了验证分析。
在训练样本中,我们成功地将患者分为TM9SF1高表达组56例和TM9SF1低表达组123例(P<0.001;图7d)。相似的分析显示,在外部测试样本1中,18例高表达患者的预后较低,而63例低表达患者的预后较差(P=0.0021;图4f)在外部测试样本2中,65例高表达患者预后与40例低表达患者相比较差。
对另一个标记基因PDZK1IP1,在训练样本和两个外部测试样本中进行验证分析。在训练样本中,标记基因成功将28例患者按PDZK1IP1表达分为高表达组,151例分为低表达组(P=0.0014;图7g)。相似的分析显示,在外部测试样本1中,71例高表达患者的预后优于10例低表达患者(P=0.071;图7h);在外部测试样本2中,52例高表达患者预后优于53例低表达患者(P=0.0085;图7i)。
如图7g~图7l所示,3部分样本中PDZK1IP1基因低表达和TM9SF1基因高表达预后差且P值都小于0.05。由此可见PDZK1IP1和TM9SF1基因是与食管鳞癌预后直接相关的基因。因此,将PDZK1IP1和TM9SF1定义为与预后直接相关的标记基因并加入nomogram是可行的。
由于ESCC在个体患者生存方面存在显著的异质性,因此使用TNM分期系统预测生存是不精确的。尽管有几个先前报道的预后模型,ESCC的nomogram并没有利用基因表达值。因此,我们试图开发一种术后nomogram来预测具有标记基因表达值的可手术患者的生存期。
在本研究中,通过单因素分析和随后的多因素分析,我们确定年龄和TNM分期是独立的预后因素。这些发现与以前关于ESCC危险因素的报道高度一致。同时,我们使用edgeR包筛选发现队列中的差异基因,并使用rbsurv包筛选出9个重要基因。随后,我们在训练样本中将选择范围缩小到两个标记基因。最后,我们在一个内部测试样本和两个外部测试样本中验证标记基因,并使用TCGA数据。我们的数据验证表明,标记基因可以将ESCC分为两个不同的亚群,具有高或低的死亡风险。高表达的PDZK1IP1基因比低表达的预后差,PDZK1IP1是食管癌死亡的消极因素(图7g~i)。TM9SF1基因高表达比低表达预后更好,TM9SF1是食管癌死亡的一个积极因素(图7j~l)。因此,将PDZK1IP1和TM9SF1定义为与预后直接相关的标记基因。这些标记基因可能对ESCC患者的个体化随访和治疗策略具有临床意义。利用标记基因,低危患者可以避免辅助治疗的毒副作用。相反,高风险患者将接受积极的监测和强化方案,以防止肿瘤复发。此外,标记基因可能有助于指导ESCC患者的个性化随访计划:高风险患者可能需要持续4年的强化随访,而低风险患者可能需要较少的强化随访,甚至在切除后的前2年内。
nomogram旨在估:1、3、4年OS的概率,该模型包括2个临床变量和2个基因变量。基于大量患者实验,nomogram已被证实是预测这些患者生存的可靠工具,独立于治疗,并已被证明优于TNM分期。此外,我们纳入nomogram的临床变量将被任何照顾ESCC患者的医生记录下来,以增强其实际效用。
对nomogram的验证对于避免模型的过度拟合和确定可泛化性是至关重要的。在本研究中,校准图与实际观测值的一致性较好,保证了所建立的nomogram的重复性和可靠性。更重要的是,该模型也适用于TCGA队列,其中包括来自亚洲、美国和欧洲的患者;这支持了这个nomogram的全球使用,而不考虑种族和医疗保健的差异。在训练样本中,nomogram的C-index指数显著高于TNM分期系统。在外部测试样本中,鉴别能力仅略有下降。此外,通过使用训练样本的截断值将相同TNM类别的患者划分为四个风险组,我们将具有不同生存结果的患者分离。虽然训练样本的识别能力大小(nomogram的C-index为0.74,TNM分期系统的C-index为0.68;0.02差异)和外部测试样本1(nomogram的C-index为0.72,TNM分期系统为0.64;0.03差异)相似,外部测试样本2的分组2和分组3的患者存在生存曲线缠绕。我们认为样本大小是造成这种不显著性的主要原因。
近年来,研究人员利用nomograms来预测ESCC,与以往的研究相比,本研究有几个优势。首先,为了避免特异性,我们在多中心样本中对标记物进行了验证。其次,大多数研究在ESCC中没有利用mRNA。标记基因在ESCC的发生发展中起着重要的作用,其差异表达可促进或抑制ESCC的发生发展。第三,不像以前的研究只使用一种算法来选择标记,我们的研究使用了一种组合策略,将两种不同算法的基因表达结合在一起,尽可能少的丢失或忽略重要标记基因。
综上所述,本研究提出的nomogram能够客观准确的预测食管部分切除术后ESCC患者的预后。需要更多的研究来确定它是否可以应用于其他患者群体。同时我们发现了两个与食管癌预后直接相关的标记基因,为今后的研究提供了基础。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种用于食管鳞癌的预后预警系统,其特征在于包括数据输入模块、模型计算模块和结果输出模块;该系统以患者的年龄、TNM分期、TM9SF1基因表达值、PDZK1IP1基因表达值作为预测因素;
其中,数据输入模块用于将食管鳞癌患者的年龄、TNM分期、TM9SF1基因表达值、PDZK1IP1基因表达值的检测结果输入模型计算模块;
模型计算模块用于根据食管鳞癌患者points数值以及生存率模型计算食管鳞癌患者生存率;
模型计算模块,包括1年生存率模型、3年生存率模型和4年生存率模型中的至少一种;
1年生存率模型包括1年生存率计算公式,1年生存率计算公式如下:
P=-1.5e-08*points^3+-2.556e-06*points^2+0.000244802*points+0.955229796;
3年生存率模型包括3年生存率计算公式,3年生存率计算公式如下:
P=4.9e-08*points^3+-3.2936e-05*points^2+0.002797337*points+0.834350558;
4年生存率模型包括4年生存率计算公式,4年生存率计算公式如下:
P=4.9e-08*points^3+-3.0342e-05*points^2+0.001678317*points+0.873788964;
其中,食管鳞癌患者Points数值=年龄得分+TNM分期得分+TM9SF1基因表达值得分+PDZK1IP1基因表达值得分;
所述的年龄得分的规则:年龄≤60=0分,年龄>60=32.031分;
所述的TNM分期得分的规则:I期=0分,II期=53.643分,III期=92.717分;
所述的TM9SF1基因表达值得分的规则:TM9SF1基因表达值高=0分;TM9SF1表达值低=51.063分;
所述的PDZK1IP1基因表达值得分的规则:PDZK1IP1基因表达值高=100分;PDZK1IP1表达值低=0分;
结果输出模块,用于根据食管鳞癌患者生存率结果来判定食管鳞癌患者预后情况;食管鳞癌患者的生存概率越高,则提示该食管鳞癌患者预后良好、生存期长的可能性越大;
利用survminer软件包的surv_cutpoint()函数确定TM9SF1和PDZK1IP1基因的cutoff值,表达值高于cutoff值的,则定义为高表达,低于cutoff值的则定义为低表达。
2.根据权利要求1所述的用于食管鳞癌的预后预警系统,其特征在于:
所述的基因表达值为转录组测序数据经注释处理后得到的数值。
3.根据权利要求1所述的用于食管鳞癌的预后预警系统,其特征在于:
所述的4年生存率模型为:
根据食管鳞癌患者points数值直接快速评估食管鳞癌患者4年生存概率,其中,points数值为0~126,则4年生存概率为70%;points数值为127~189,则4年生存概率为44%;points数值为190~229,则4年生存概率为24%;points得分数值为≥230,则4年生存概率为12%。
CN202010055442.1A 2020-01-17 2020-01-17 一种用于食管鳞癌的预后预警系统及其应用 Active CN111128385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010055442.1A CN111128385B (zh) 2020-01-17 2020-01-17 一种用于食管鳞癌的预后预警系统及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010055442.1A CN111128385B (zh) 2020-01-17 2020-01-17 一种用于食管鳞癌的预后预警系统及其应用

Publications (2)

Publication Number Publication Date
CN111128385A CN111128385A (zh) 2020-05-08
CN111128385B true CN111128385B (zh) 2020-11-10

Family

ID=70491034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010055442.1A Active CN111128385B (zh) 2020-01-17 2020-01-17 一种用于食管鳞癌的预后预警系统及其应用

Country Status (1)

Country Link
CN (1) CN111128385B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724903B (zh) * 2020-06-29 2023-09-26 北京市肿瘤防治研究所 预测受试者胃癌预后的系统
CN112185549B (zh) * 2020-09-29 2022-08-02 郑州轻工业大学 基于临床表型和逻辑回归分析的食管鳞癌风险预测系统
CN112687394A (zh) * 2021-01-05 2021-04-20 四川大学华西医院 转移性去势抵抗性前列腺癌患者在阿比特龙治疗中的预后预测模型及其建立方法和应用
CN113270188A (zh) * 2021-05-10 2021-08-17 北京市肿瘤防治研究所 食管鳞癌根治术后患者预后预测模型构建方法及装置
CN113571194B (zh) * 2021-07-09 2022-05-13 清华大学 肝细胞癌远期预后预测的建模方法及装置
CN114141360A (zh) * 2021-12-02 2022-03-04 山东大学 基于惩罚cox回归的乳腺癌预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102676650A (zh) * 2011-03-09 2012-09-19 中国医学科学院肿瘤研究所 Cpt1a基因或蛋白的定量检测在食管鳞癌预后判断中的应用
CN103243161A (zh) * 2013-05-07 2013-08-14 中国医学科学院肿瘤医院 一种辅助预测食管鳞癌患者术后生存时间长短的产品
CN104762368A (zh) * 2014-01-02 2015-07-08 中国医学科学院肿瘤医院 一种用于辅助预测食管鳞癌患者术后生存时间的试剂盒
CN108320806A (zh) * 2018-05-09 2018-07-24 中国科学院昆明动物研究所 一种基于多基因表达特征谱的结肠癌个性化预后评估方法
CN109055548A (zh) * 2018-07-25 2018-12-21 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 基因hes2在食管鳞癌辅助诊断、预后判断和治疗中的应用
CN109897899A (zh) * 2019-03-01 2019-06-18 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种用于局部晚期食管鳞癌预后判断的标志物及其应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104774929B (zh) * 2015-03-18 2017-06-30 中山大学肿瘤防治中心 miR‑455‑3p在食管鳞状细胞癌中的诊断、治疗和预后的应用
CN108648826B (zh) * 2018-05-09 2022-04-15 中国科学院昆明动物研究所 一种基于多基因表达特征谱的胰腺癌个性化预后评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102676650A (zh) * 2011-03-09 2012-09-19 中国医学科学院肿瘤研究所 Cpt1a基因或蛋白的定量检测在食管鳞癌预后判断中的应用
CN103243161A (zh) * 2013-05-07 2013-08-14 中国医学科学院肿瘤医院 一种辅助预测食管鳞癌患者术后生存时间长短的产品
CN104762368A (zh) * 2014-01-02 2015-07-08 中国医学科学院肿瘤医院 一种用于辅助预测食管鳞癌患者术后生存时间的试剂盒
CN108320806A (zh) * 2018-05-09 2018-07-24 中国科学院昆明动物研究所 一种基于多基因表达特征谱的结肠癌个性化预后评估方法
CN109055548A (zh) * 2018-07-25 2018-12-21 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 基因hes2在食管鳞癌辅助诊断、预后判断和治疗中的应用
CN109897899A (zh) * 2019-03-01 2019-06-18 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种用于局部晚期食管鳞癌预后判断的标志物及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
食管癌多器官转移预后分析与列线图的建立;张子凡等;《中国实用内科杂志》;20190731;第39卷(第7期);全文 *

Also Published As

Publication number Publication date
CN111128385A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111128385B (zh) 一种用于食管鳞癌的预后预警系统及其应用
Yu et al. Association of omics features with histopathology patterns in lung adenocarcinoma
Ye et al. Predicting hepatitis B virus–positive metastatic hepatocellular carcinomas using gene expression profiling and supervised machine learning
Dupuy et al. Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting
CN113450873B (zh) 一种预测胃癌预后和免疫治疗适用性的标志物及其应用
CN111394456B (zh) 早期肺腺癌患者预后评估系统及其应用
CN111128299A (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
CN111653314B (zh) 一种分析识别淋巴管浸润的方法
CN111564214A (zh) 一种基于7个特殊基因的乳腺癌预后评估模型的建立与验证方法
CN101194166A (zh) 有关乳癌分类的材料和方法
CN115410713A (zh) 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建
CN114203256B (zh) 基于微生物丰度的mibc分型及预后预测模型构建方法
Zhu et al. Clinically applicable 53-Gene prognostic assay predicts chemotherapy benefit in gastric cancer: A multicenter study
CN110760585B (zh) 前列腺癌生物标志物及其应用
He et al. A novel RNA sequencing-based risk score model to predict papillary thyroid carcinoma recurrence
Richard et al. PenDA, a rank-based method for personalized differential analysis: Application to lung cancer
CN116259360B (zh) 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用
US20210215700A1 (en) Personalized treatment of pancreatic cancer
CN116153387A (zh) 一种肺鳞癌患者总体生存率预后模型及应用
CN114672569A (zh) 基于色氨酸代谢基因的肝癌预后评估方法
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
CN113584175A (zh) 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用
CN113436741A (zh) 基于组织特异增强子区域dna甲基化的肺癌复发预测方法
CN114507717A (zh) 一种联合多个mRNA预测胆管癌复发的方法及其应用
CN115678999B (zh) 标志物在肺癌复发预测中的应用和预测模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant