CN112635057A - 基于临床表型和lasso的食管鳞癌预后指数模型构建方法 - Google Patents

基于临床表型和lasso的食管鳞癌预后指数模型构建方法 Download PDF

Info

Publication number
CN112635057A
CN112635057A CN202011500328.1A CN202011500328A CN112635057A CN 112635057 A CN112635057 A CN 112635057A CN 202011500328 A CN202011500328 A CN 202011500328A CN 112635057 A CN112635057 A CN 112635057A
Authority
CN
China
Prior art keywords
survival
clinical phenotype
esophageal squamous
index
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011500328.1A
Other languages
English (en)
Other versions
CN112635057B (zh
Inventor
王延峰
朱传迁
王妍
凌丹
孙军伟
王英聪
黄春
张勋才
杨飞飞
姜素霞
王立东
宋昕
赵学科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202011500328.1A priority Critical patent/CN112635057B/zh
Publication of CN112635057A publication Critical patent/CN112635057A/zh
Application granted granted Critical
Publication of CN112635057B publication Critical patent/CN112635057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提出了一种基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其步骤为:首先,采集食管癌患者的M种临床表型指标信息和生存期信息,作为原始数据集;然后,利用Kaplan‑Meier法及log‑rank法研究获得食管癌患者临床表型指标与生存期信息的关系;再利用单因素COX回归与多因素COX回归分析影响患者生存预后的临床表型指标;然后,通过LASSO回归方法分析筛选与患者生存相关度更高的指标并构建患者预后生存评价模型预后指数,通过患者的临床表型指标求取患者的预后指数,进而判断患者预后生存风险的高低。本发明较为准确地预测食管鳞癌患者术后的生存状况,提高预后风险预测的能力,降低预后风险预测的成本。

Description

基于临床表型和LASSO的食管鳞癌预后指数模型构建方法
技术领域
本发明涉及癌症风险评估技术领域,特别是指一种基于临床表型和LASSO的食管鳞癌预后指数模型构建方法。
背景技术
食管癌是威胁全人类健康的主要恶性肿瘤之一,其发病率在全球恶性肿瘤中居第8位,死亡率居第6位,全世界每年死于食管癌的人数超过30万人,食管癌主要可分为食管鳞癌和食管腺癌。食管鳞癌主要分布在以中国为主的亚洲地区,食管腺癌主要分布在以美国为主的欧美地区。我国作为全球食管癌高发地之一,每年约有一半的食管癌病例发生在我国,食管癌已成为了影响我国人民身体健康的重要疾病。
食管癌发病较为隐匿,早期症状不明显,临床发现的食管癌患者以中晚期患者居多,且患者的预后较差。根据相关统计,中晚期患者的术后五年生存率只有10%-30%,而早期食管癌患者经过综合治疗,五年生存率高于70%。因此,食管癌是一种可防可治的疾病,筛查和早诊早治是降低我国高发地区人群食管癌疾病负担的有效措施。
随着现代医学的不断发展,医疗数据不断增多,从这些信息数据中获取对研究有益的数据就变得非常重要。疾病的风险评估模型是当前广泛应用的疾病高危人群评估工具。利用大量医学数据来构建疾病的风险评估模型是医学研究的热点方向,目前国内外已建立的食管癌风险评估模型多以食管发病风险预测模型为主,且用于构建风险评估模型的指标多以患者的生理信息以及生活习惯为主,各种指标的作用效果难以量化,医学意义难以解释。而临床检查作为体检人群和就诊病人都要进行的一项常规检查,不仅用于对病人身体状况的一般了解和对疾病的初步判断以及对治疗疗效的观察,而且各种临床表型指标的变化即可协助判断肌体各种组织器官的病变情况。
发明内容
针对现有的背景技术中存在的不足,本发明提出了一种基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,解决了现有评估模型的预测效果差,不能帮助患者判断预后效果的技术问题。
本发明的技术方案是这样实现的:
一种基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其步骤如下:
步骤一:获取食管鳞癌患者的M种临床表型指标、生存期信息和生存状态作为原始数据集;
步骤二:利用Kaplan-Meier法和log-rank法分别对M种临床表型指标与生存期信息和生存状态进行关系分析,将M种临床表型指标分为有用临床表型指标和无用临床表型指标;
步骤三:利用单因素COX回归分别对M种临床表型指标与生存期信息和生存状态进行回归分析,进一步得到了与步骤二相同的有用临床表型指标;
步骤四:利用多因素COX回归对有用临床表型指标与与生存期信息和生存状态进行回归分析,获得与食管鳞癌患者生存期相关的N种临床表型指标;
步骤五:通过LASSO回归方法对N种临床表型指标与与生存期信息和生存状态进行回归分析,得到与食管鳞癌患者生存期相关度高的临床表型指标以及食管鳞癌患者的生存期预后指数模型;
步骤六:构建与食管鳞癌患者生存期相关度高的临床表型指标的ROC曲线,通过ROC曲线获得预后生存风险阈值,判断食管鳞癌患者的生存期预后指数是否大于预后生存风险阈值,若是,食管鳞癌患者的预后生存风险为高风险,否则,食管鳞癌患者的预后生存风险为低风险。
所述临床表型指标包括白细胞计数、淋巴细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原、国际标准化比值、淋巴结阳性转移个数和淋巴结检查总数。
所述利用Kaplan-Meier法和log-rank法分别对M种临床表型指标与生存期信息和生存状态进行关系分析的方法为:
S2.1、根据X-tile软件分别计算每种临床表型指标的最佳临界值,并根据每种临床表型指标对应的最佳临界值将临床表型指标划分为高指标组和低指标组;
S2.2、对于某一临床表型,将该临床表型数据二分类后,进行Kaplan-Meier法的步骤如下:将高指标组的食管鳞癌患者记为甲组,低指标组的食管鳞癌患者记为乙组,p为生存概率,指单位时段开始存活的个体到该时段结束时仍然存活的可能性;S(t)为生存率,指观察对象活过t个单位时间的概率;
以月为单位时间,则月生存概率的计算公式为:
Figure BDA0002843434050000021
当数据中无删失值,生存率的计算公式为:
Figure BDA0002843434050000022
当数据中有删失值,需分时段计算不同单位时间的生存概率pi,i=1,2,…,k,然后利用概率乘法原理将pi相乘得到t时刻生存率,即:
S(t)=p1×p2×…×pi
绘制某一分组后临床表型数据的K-M生存曲线,根据计算出得不同时间点生存率,可以将随访时间作横坐标,生存率作纵坐标将各个时间点生存率连接在一起绘制该分组后临床表型数据的生存曲线,从生存曲线图中可以直观看出中位生存期;
S2.3、对于某一临床表型,将该临床表型数据二分类后,进行log-rank检验的步骤如下:将高指标组的食管鳞癌患者记为甲组,低指标组的食管鳞癌患者记为乙组,定义零和假设和备择假设:
H0:两组患者生存曲线分布相同
H1:两组患者生存曲线分布不同
α=0.05
当H0成立时,两组的生存分布相同,将两组数据混合,计算合并的死亡概率,以此计算相应的期望死亡人数;两组在不同时间点期初观察例数m1i、m2i,其合计为Mi=m1i+m2i,不同时间点两组的死亡人数为O1i、O2i,其合计为Oi=O1i+O2i
计算各组期望死亡人数S1i和S2i
Figure BDA0002843434050000031
分别将两组各时间点期望死亡人数相加,得到Sk,则两组实际总死亡数为
Figure BDA0002843434050000032
如果两组各时间点生存率都相同,那么两组总的期望死亡数Sk和总的实际死亡数Ck相差不大;检验实际数与期望数差别大小的统计量χ2
Figure BDA0002843434050000033
通过查χ2界值表得,若该χ2对应的显著性值P,将显著性值P小于0.05的临床表型指标作为有用临床表型指标,将显著性值P大于0.05的临床表型指标作为无用临床表型指标。
根据权利要求1所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述利用单因素COX回归分别对M种临床表型指标与生存期信息和生存状态进行回归分析的方法为:
COX比例风险回归模型的基本形式为:
h(t,z)=h0(t)exp(β1*z12*z2+…+βp*zp)
Figure BDA0002843434050000041
其中,h(t,z)表示具有临床表型z的食管鳞癌患者在t时刻的风险函数,表示生存时间达到t的食管鳞癌患者在t时刻的瞬时风险率,h0(t)称为基线风险函数,表示所有z都取值为0时的食管鳞癌患者在t时刻的瞬时风险率或死亡率;风险函数定义为具有临床表型z的食管鳞癌患者在生存了t时刻以后在t到t+△t这一段很短时间内死亡概率与△t之比的极限值,参数βi’为总体回归系数,i'=1,2,…,p;
对于COX比例风险回归模型,临床表型z1使食管鳞癌患者的风险函数由h0(t)增至h0(t)exp(β1);则p个临床表型z1,z2,…,zp的共同影响下的风险函数为h(t,z)=h0(t)·exp(β1z1)·exp(β2z2)…exp(βpzp),使得食管鳞癌患者风险函数由h0(t)exp(β1)增至h(t,z)=h0(t)·exp(β1z1)·exp(β2z2)…exp(βpzp);
任意两个患者风险函数之比,即相对危险度RR或风险比:
Figure BDA0002843434050000042
RR=exp[β1(zi'1-zj1)+β2(zi'2-zj2)+…+βp(zi'p-zjp)]
比值RR保持一个恒定比例,与时间t无关,称为比例风险假定,基线风险函数h0(t)与时间变化无关,从样本数据中求出回归系数,给定非零的z值时,患者的相对危险度为定值,即各个协变量与时间变量无关的相对危险度,模型中的回归系数利用部分似然函数用最大似然估计方法得到。
所述有用临床表型指标包括白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、国际标准化比值、凝血酶时间、纤维蛋白原、淋巴结阳性转移个数和淋巴结检查总数;无用临床表型指标包括淋巴细胞计数、血小板计数、总蛋白、白蛋白、球蛋白和活化部分凝血活酶时间。
所述利用多因素COX回归对有用临床表型指标与生存期信息和生存状态进行回归分析的方法为:
S4.1、将有用临床表型指标、生存期信息和生存状态录入IBM SPSS Statistics数据编辑器中,选择“分析”→“生存分析”→“COX回归”,进入选项设置界面;
S4.2、在选项设置界面中,选择主对话框设置:将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、凝血酶时间、纤维蛋白原、INR、淋巴结阳性转移个数、淋巴结检查总数”数据同时输入“协变量”框中→点击“方法”选择“输入”;
S4.3、在“图”选项设置要绘制生存曲线,在“图类型”项目栏中选择“生存分析”作为输出的图形;
S4.4、在“选项”设置中:选择“模型统计”项目栏中的“Exp(B)的置信区间”选项,选择“显示模型信息”项目栏中的“在最后一个步骤”选项,点击“确定”,输出“模型系数的Omnibus检验表”及“方程中的变量表”;
S4.5、从步骤S4.4中的“方程中的变量表”中得到有用临床表型指标的显著性值;
S4.6、将步骤S4.5中的显著性值小于0.05的有用临床表型指标保留,得到与食管鳞癌患者生存期相关的N种临床表型指标。
所述与食管鳞癌患者生存期相关的N种临床表型指标包括红细胞计数、血红蛋白浓度、凝血酶时间、国际标准化比值、淋巴结阳性转移个数和淋巴结检查总数。
所述通过LASSO回归方法对N种临床表型指标与生存期信息和生存状态进行回归分析的方法为:
S5.1、将食管鳞癌患者的生存期大于L年的食管鳞癌患者认定为低风险患者,将食管鳞癌患者的生存期小于L年的食管鳞癌患者认定为高风险患者;
S5.2、根据生存期信息将食管鳞癌患者分为两类,并对食管鳞癌患者的N种临床表型指标进行标注类别后作为样本集,样本集的80%作为训练集样本,其余样本集作为测试样本;
S5.3、将训练集样本输入LASSO回归模型中,得到与食管鳞癌患者生存期相关度高的临床表型指标以及食管鳞癌患者的生存期预后指数模型;
S5.4、利用测试样本对食管鳞癌患者的生存期预后指数模型进行验证。
所述与食管鳞癌患者生存期相关度高的临床表型指标包括淋巴结阳性转移个数和国际标准化比值。
所述食管鳞癌患者的生存期预后指数模型包括食管鳞癌患者三年生存期预后指数模型和食管鳞癌患者五年生存期预后指数模型;
所述食管鳞癌患者三年生存期预后指数模型为:
T=0.134×淋巴结阳性转移个数-0.272×INR
所述食管鳞癌患者五年生存期预后指数模型为:
T=0.043×淋巴结阳性转移个数-0.251×INR
其中,INR表示国际标准化比值。
本技术方案能产生的有益效果:本发明通过传统医学分析与LASSO结合,挑选出与患者生存状态有高相关性的临床表型指标,并构建预后风险评估模型,合理、方便、有效的对食管鳞癌患者的预后风险等级进行预测,帮助患者更好的判断预后效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的总体流程图;
图2本发明实施例提供的临床表型指标”白细胞计数”的Kaplan-Meier生存曲线分析图;
图3本发明实施例提供的训练集预后指数模型一得到的数据的ROC曲线分析图;
图4本发明实施例提供的训练集预后指数模型二得到的数据的ROC曲线分析图;
图5本发明实施例提供的训练集预后指数模型一得到的数据的Kaplan-Meier生存曲线分析图;
图6本发明实施例提供的训练集预后指数模型一得到的数据的Kaplan-Meier生存曲线分析图;
图7本发明实施例提供的总数据集预后指数模型一得到的数据的ROC曲线分析图;
图8本发明实施例提供的总数据集预后指数模型二得到的数据的ROC曲线分析图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,具体步骤如下:
步骤一:获取食管鳞癌患者的M种临床表型指标、生存期信息和生存状态作为原始数据集;
收集食管鳞癌患者的临床数据;临床数据来自郑州大学第一附属医院2007年至2018年的食管鳞癌手术的患者。病例选择标准为:患者确诊为食管鳞癌,治疗过程有完整的记录且患者术后随访时间至少6个月。最终得到2007年1月至2018年12月在郑州大学附属医院收治的食管鳞癌患者430例,其中男性患者268例(62.33%),女性患者162例(37.67%)。患者的年龄分布为45岁至80岁,平均年龄为61.19岁,年龄数据的选择符合正态分布。数据为食管癌患者术前7天常规检查记录的临床表型指标表达量。原始数据集包含430组样本数据,每组样本数据包括M种临床表型指标信息和生存期信息;所述M种血液指标的信息分别为白细胞计数(WBC count)、淋巴细胞计数(Lymphocyte count)、单核细胞计数(Monocytecount)、中性粒细胞计数(Neutrophil count)、红细胞计数(Red blood cell count)、血红蛋白浓度(Hemoglobin concentration)、血小板计数(Platelet count)、总蛋白(Totalprotein)、白蛋白(Albumin)、球蛋白(Globulin)、凝血酶原时间(PT)、活化部分凝血活酶时间(APTT)、凝血酶时间(TT)、纤维蛋白原(FIB)、国际标准化比值(INR)、淋巴结阳性转移个数、淋巴结检查总数。其中,M=17;所述生存期信息是指生存时间,生存期的范围为[0.26月,137.00月];生存状态是指截止到随访结束时患者的健在或者死亡的状态。
步骤二:利用Kaplan-Meier法和log-rank法分别对M种临床表型指标与生存期信息和生存状态进行关系分析,将M种临床表型指标分为有用临床表型指标和无用临床表型指标;所述有用临床表型指标包括白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、国际标准化比值、凝血酶时间、纤维蛋白原、淋巴结阳性转移个数和淋巴结检查总数;无用临床表型指标包括淋巴细胞计数、血小板计数、总蛋白、白蛋白、球蛋白和活化部分凝血活酶时间。
S2.1、根据X-tile软件分别计算每种临床表型指标的最佳临界值,并根据每种临床表型指标对应的最佳临界值将临床表型指标划分为高指标组和低指标组;
分析血液指标与患者生存预后的相关性需要先将连续数值型临床表型指标进行二分类。根据X-tile软件计算出血液指标预测总生存期的最佳临界值如表1所示。并按照临界值,将每种连续数值型临床表型指标分为两组,即高指标组和低指标组,便于下一步的研究分析。高值指标组、低值指标组为定性划分,高指标组记为”1”,低指标组记为”0”。
使用X-tile软件计算出血液指标预测总生存期的最佳临界值的操作流程如下:
S2.1.1、新建文本文档,将原始数据集中的生存状态、生存期及第m种临床表型指标复制到文本文档中,其中,m=1,2,…,M;
S2.1.2、打开X-tile软件点击Analyze,在“file”目录中选择“open”,选择打开步骤S21中已导入数据的文本文档;
S2.1.3、进行分析设置,选择“生存状态”数据,点击“Censor”下侧的“Load”,将“生存状态”数据导入“Censor”中,并将“input type”改为“AliveDead”;
S2.1.4、选择“生存期”数据,点击“Survival Time”下侧的“Load”,将“生存期”数据导入“Survival Time”中,并将“inter type”改为“Months”;
S2.1.5、选择“第m种临床表型指标”数据,点击“Marker1”下侧的“Load”,将“第m种临床表型指标”数据导入“Marker1”中;
S2.1.6、点击“do”操作,选择“Kaplan-Meier”—“Marker1”即可得到分解结果;
S2.1.7、点击“2Pop X-tile Plot”所指的矩形图,X-tile软件自动输出第m种临床表型指标的最佳临界值,根据最佳临界值将第m种临床表型指标的数据集分为高指标组和低指标组;
S2.1.8、循环执行步骤S2.1.1至步骤S2.1.7,直至遍历所有临床表型指标。
以白细胞计数为例,使用X-tile软件计算出最佳临界值的操作流程如下:首先,新建文本文档,将所有患者样本中的生存状态、生存期及白细胞计数值复制到文本文档中。打开X-tile软件点击Analyze,在“file”目录中选择“open”,选择打开已导入数据的文本文档。然后进行分析设置,选择“生存状态”数据,点击“Censor”下侧的“Load”,将“生存状态”数据导入“Censor”中,并将“input type”改为“AliveDead”。选择“生存期”数据,点击“Survival Time”下侧的“Load”,将“生存期”数据导入“Survival Time”中,并将“intertype”改为“Months”。选择“白细胞计数值”数据,点击“Marker1”下侧的“Load”,将“白细胞计数值”数据导入“Marker1”中。然后点左上角的“do”,选择“Kaplan-Meier”—“Marker1”即可。出现分析结果图后,点击“2Pop X-tile Plot”所指的矩形图,软件会自动找到最佳的二分类截断值,将白细胞计数值的数据集分为两部分。
表1最佳截断点数值表
Figure BDA0002843434050000081
Figure BDA0002843434050000091
S2.2、对于某一临床表型,将该临床表型数据二分类后,进行Kaplan-Meier法的步骤如下:将高指标组的食管鳞癌患者记为甲组,低指标组的食管鳞癌患者记为乙组,p为生存概率,指单位时段开始存活的个体到该时段结束时仍然存活的可能性;S(t)为生存率,指观察对象活过t个单位时间的概率;
以月为单位时间,则月生存概率的计算公式为:
Figure BDA0002843434050000092
当数据中无删失值,生存率的计算公式为:
Figure BDA0002843434050000093
当数据中有删失值,需分时段计算不同单位时间的生存概率pi,i=1,2,…,k,然后利用概率乘法原理将pi相乘得到t时刻生存率,即:
S(t)=p1×p2×…×pi
绘制某一分组后临床表型数据的K-M生存曲线,根据计算出得不同时间点生存率,可以将随访时间作横坐标,生存率作纵坐标将各个时间点生存率连接在一起绘制该分组后临床表型数据的生存曲线,从生存曲线图中可以直观看出中位生存期;
S2.3、对于某一临床表型,将该临床表型数据二分类后,进行log-rank检验的步骤如下:将高指标组的食管鳞癌患者记为甲组,低指标组的食管鳞癌患者记为乙组,定义零和假设和备择假设:
H0:两组患者生存曲线分布相同
H1:两组患者生存曲线分布不同
α=0.05
当H0成立时,两组的生存分布相同,将两组数据混合,计算合并的死亡概率,以此计算相应的期望死亡人数;两组在不同时间点期初观察例数m1i、m2i,其合计为Mi=m1i+m2i,不同时间点两组的死亡人数为O1i、O2i,其合计为Oi=O1i+O2i
计算各组期望死亡人数S1i和S2i
Figure BDA0002843434050000101
分别将两组各时间点期望死亡人数相加,得到Sk,则两组实际总死亡数为
Figure BDA0002843434050000102
如果两组各时间点生存率都相同,那么两组总的期望死亡数Sk和总的实际死亡数Ck相差不大;检验实际数与期望数差别大小的统计量χ2
Figure BDA0002843434050000103
通过查χ2界值表得,若该χ2对应的显著性值P,将显著性值P小于0.05的临床表型指标作为有用临床表型指标,将显著性值P大于0.05的临床表型指标作为无用临床表型指标。
使用SPSS软件对划分后的M种临床表型指标与生存期信息和生存状态进行Kaplan-Meier生存分析及log-rank检验,得到每种临床表型指标的显著性值;使用食管鳞癌患者的二分类后的分类型临床表型指标,通过Kaplan-Meier生存分析及log-rank法研究获得食管鳞癌患者血液指标与生存预后的关系。
使用SPSS软件进行Kaplan-Meier生存分析及log-rank检验的操作步骤为:
S2.2.1、将划分后的M种临床表型指标、生存期信息和生存状态录入IBM SPSSStatistics数据编辑器中,选择“分析”→“生存分析”→“Kaplan-Meier”,进入选项设置界面;
S2.2.2、在选项设置界面中,选择主对话框设置:将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“第m种临床表型指标”数据分组后送入“因子”框中;
S2.2.3、“比较因子”选项设置,在“比较因子”界面的“检验统计”项目栏内选择“秩的对数”作为检验高指标组和低指标组组间生存分布是否相同的组间比较方法;
S2.2.4、在“选项”设置界面的“统计”项目栏中选择“平均值和中位数生存分析函数”,在“图”项目栏选择“生存分析函数”,点击“确定”,输出“第m种临床表型指标”的“生存函数曲线图”、“分析事件的平均值和中位数表”及“总体比较表”;
S2.2.5、从步骤S2.2.4中的“总体比较表”中得到第m种临床表型指标的显著性值;
S2.2.6、循环执行步骤S2.2.1至步骤S2.2.5,直至遍历所有临床表型指标。
以“白细胞计数”为例,使用SPSS软件进行Kaplan-Meier生存分析及log-rank检验的操作步骤:首先,将数据录入IBM SPSS Statistics数据编辑器中。然后,选择“分析”→“生存分析”→“Kaplan-Meier”,进入选项设置界面。在选项设置界面中,选择主对话框设置:将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“白细胞计数”数据分组后送入“因子”框中。“比较因子”选项设置,在“比较因子”界面的“检验统计”项目栏内选择“秩的对数”(log-rank检验)作为检验指标高值组和低值组组间生存分布是否相同的组间比较方法,其他按默认选项。在“选项”设置界面的“统计”项目栏中选择“平均值和中位数生存分析函数”,在“图”项目栏选择“生存分析函数”。其他按默认选项。点击“确定”,软件输出分析结果,可以得到有关临床表型“白细胞计数”的“生存函数曲线图”、“分析事件的平均值和中位数表”及“总体比较表”,如表2和表3所示。
结果分析:以“白细胞计数”指标为例。
表2分析时间的平均值和中位数表
Figure BDA0002843434050000111
“生存分析时间的平均值和中位数”表格给出了生存时间估计的结果,显示该指标高值组与低值组两组患者的平均生存时间的估算值、标准错误和估算值的95%置信区间,以及中位生存时间的估算值、标准错误和估算值的95%置信区间。
表3总体比较表
Figure BDA0002843434050000112
“总体比较表”给出高值组与低值组的组间的整体比较,结果显示对两组生存曲线整体比较的log-rank检验结果为显著性(P)=0.018。按照log-rank检验的结果,可以认为两组患者的生存率有差异。
图2为临床表型指标“白细胞计数”的生存函数曲线图,直观地显示“白细胞计数”低值组患者的生存曲线高于“白细胞计数”高值组患者的生存曲线。
通过以上表2和表3信息可以得到最终结论为:“白细胞计数”指标的低值组患者的中位生存时间为67.251月,高值组患者的中位生存时间为56.146月。两组患者的生存曲线不同(log-rank P=0.0018<0.05),整体来看,两组患者的生存率有差异,低值组患者的预后生存效果要优于高值组患者。
Kaplan-Meier生存曲线可以直观的表现出临床表型指标的高值组和低值组患者的生存率或死亡率。再经过非参数检验方法log-rank检验,进行统计推断患者的临床表型指标与生存预后结果是否存在一定的关系。通过对各个临床表型指标的log-rank检验得到的P值结果如表4所示。
根据表4的结果显示,白细胞计数,单核细胞计数,中性粒细胞计数,红细胞计数,血红蛋白浓度,PT,INR,TT,FIB,淋巴结阳性转移个数、淋巴结检查总数的值越大患者生存时间更长(P<0.05),而淋巴细胞计数,血小板计数,总蛋白,白蛋白,球蛋白,APTT与食管癌患者的生存时间没有明显关系(P>0.05)。
表4Log-rank检验表
Figure BDA0002843434050000121
步骤三:利用单因素COX回归分别对M种临床表型指标与生存期信息和生存状态进行回归分析,进一步得到了与步骤二相同的有用临床表型指标;
所述利用单因素COX回归分别对M种临床表型指标与生存期信息和生存状态进行回归分析的方法为:
COX比例风险回归模型的基本形式为:
h(t,z)=h0(t)exp(β1*z12*z2+…+βp*zp)
Figure BDA0002843434050000131
其中,h(t,z)表示具有临床表型z的食管鳞癌患者在t时刻的风险函数,表示生存时间达到t的食管鳞癌患者在t时刻的瞬时风险率,h0(t)称为基线风险函数,表示所有z都取值为0时的食管鳞癌患者在t时刻的瞬时风险率或死亡率;风险函数定义为具有临床表型z的食管鳞癌患者在生存了t时刻以后在t到t+△t这一段很短时间内死亡概率与△t之比的极限值,参数βi'为总体回归系数,i'=1,2,…,p;
对于COX比例风险回归模型,临床表型z1使食管鳞癌患者的风险函数由h0(t)增至h0(t)exp(β1);则p个临床表型z1,z2,…,zp的共同影响下的风险函数为h(t,z)=h0(t)·exp(β1z1)·exp(β2z2)…exp(βpzp),使得食管鳞癌患者风险函数由h0(t)exp(β1)增至h(t,z)=h0(t)·exp(β1z1)·exp(β2z2)…exp(βpzp);
任意两个患者风险函数之比,即相对危险度RR或风险比:
Figure BDA0002843434050000132
RR=exp[β1(zi'1-zj1)+β2(zi'2-zj2)+…+βp(zi'p-zjp)]
比值RR保持一个恒定比例,与时间t无关,称为比例风险假定(PH假定),基线风险函数h0(t)与时间变化无关,从样本数据中求出回归系数,给定非零的z值时,患者的相对危险度为定值,即各个协变量与时间变量无关的相对危险度,模型中的回归系数利用部分似然函数用最大似然估计方法得到。
单因素COX回归分析的具体步骤如下:
S3.1、将原始数据集录入IBM SPSS Statistics数据编辑器中,选择“分析”→“生存分析”→“COX回归”,进入选项设置界面;
S3.2、在选项设置界面中,选择主对话框设置:将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“第m种临床表型指标”数据输入“协变量”框中→点击“方法”选择“输入”;
S3.3、在“图”选项设置要绘制生存曲线,在“图类型”项目栏中选择“生存分析”作为输出的图形;
S3.4、在“选项”设置中:选择“模型统计”项目栏中的“Exp(B)的置信区间”选项,选择“显示模型信息”项目栏中的“在最后一个步骤”选项,点击“确定”,输出“第m种临床表型指标”的“方程中的变量表”;
S3.5、从步骤S3.4中的“方程中的变量表”中得到第m种临床表型指标的显著性值;
S3.6、判断第m种临床表型指标的显著性值是否小于0.05,若是,将第m种临床表型指标作为有用临床表型指标,否则,将第m种临床表型指标作为无用临床表型指标;
S3.7、循环执行步骤S3.1至步骤S3.6,直至遍历所有临床表型指标。
以“白细胞计数”为例,使用SPSS软件进行单因素COX回归分析的操作步骤:首先,将数据录入IBM SPSS Statistics数据编辑器中。然后,选择“分析”→“生存分析”→“COX回归”,进入选项设置界面。在选项设置界面中,选择主对话框设置:将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“白细胞计数”数据输入“协变量”框中→点击“方法”选择“输入”。在“图”选项设置要绘制生存曲线,在“图类型”项目栏中选择“生存分析”作为输出的图形,其他按默认选项。在“选项”设置中:选择“模型统计”项目栏中的“Exp(B)的置信区间”选项。选择“显示模型信息”项目栏中的“在最后一个步骤”选项,其他按默认选项。点击“确定”,软件输出分析结果,可以得到有关临床表型“白细胞计数”的“方程中的变量表”,如表5所示。
在构建单因素COX比例风险回归模型时,只纳入一种临床表型到COX比例回归模型中进行拟合,若模型显示该指标对结局事件的效应值有统计学显著性,则可以认为该指标对于结局事件是一个影响因素。
单因素COX比例风险回归模型结果分析:以“白细胞计数”指标为例。
表5方程中的变量表
Figure BDA0002843434050000141
指标“白细胞计数”的显著性水平P=0.018<0.05,说明该因素能够显著影响患者术后的生存状况。HR及其95%置信区间:比如对于指标“白细胞计数”来说,Exp(B)=1.304,说明高值组患者发生死亡风险的概率是低值组的1.304倍。
分别对所有的临床表型建立单因素COX回归模型,单因素分析发现白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、凝血酶时间、纤维蛋白原、INR、淋巴结阳性转移个数、淋巴结检查总数这些临床表型是影响食管鳞癌患者的预后生存期的因素。对上述临床表型进一步进行多因素COX比例风险回归模型分析。
步骤四:利用多因素COX回归对有用临床表型指标与生存期信息和生存状态进行回归分析,获得与食管鳞癌患者生存期相关的N种临床表型指标;所述N种临床表型指标包括红细胞计数、血红蛋白浓度、凝血酶时间、国际标准化比值、淋巴结阳性转移个数和淋巴结检查总数。
S4.1、将有用临床表型指标、生存期信息和生存状态录入IBM SPSS Statistics数据编辑器中,选择“分析”→“生存分析”→“COX回归”,进入选项设置界面;
S4.2、在选项设置界面中,选择主对话框设置:将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、凝血酶时间、纤维蛋白原、INR、淋巴结阳性转移个数、淋巴结检查总数”数据同时输入“协变量”框中→点击“方法”选择“输入”;
S4.3、在“图”选项设置要绘制生存曲线,在“图类型”项目栏中选择“生存分析”作为输出的图形;
S4.4、在“选项”设置中:选择“模型统计”项目栏中的“Exp(B)的置信区间”选项,选择“显示模型信息”项目栏中的“在最后一个步骤”选项,点击“确定”,输出“模型系数的Omnibus检验表”及“方程中的变量表”;
S4.5、从步骤S4.4中的“方程中的变量表”中得到有用临床表型指标的显著性值;
S4.6、将步骤S4.5中的显著性值小于0.05的有用临床表型指标保留,得到与食管鳞癌患者生存期相关的N种临床表型指标。
对患者的临床表型构建多因素COX比例风险回归模型进行分析。使用SPSS软件进行COX回归分析的操作步骤:首先,将数据录入IBM SPSS Statistics数据编辑器中。然后,选择“分析”→“生存分析”→“COX回归”,进入选项设置界面。在选项设置界面中,选择主对话框设置:将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、凝血酶时间、纤维蛋白原、INR、淋巴结阳性转移个数、淋巴结检查总数”数据输入“协变量”框中→点击“方法”选择“输入”。在“图”选项设置要绘制生存曲线,在“图类型”项目栏中选择“生存分析”作为输出的图形,其他按默认选项。在“选项”设置中:选择“模型统计”项目栏中的“Exp(B)的置信区间”选项。选择“显示模型信息”项目栏中的“在最后一个步骤”选项,其他按默认选项。点击“确定”,软件输出分析结果,可以得到“模型系数的Omnibus检验表”及“方程中的变量表”,如表6和表7所示。
将需要研究的所有临床表型放到COX比例回归模型中去拟合,若模型显示处理临床表型对结局事件的效应值有统计学意义,则可认为“在调整了其他混杂因素的影响之后,该处理临床表型对于结局事件是一个独立的影响因素”。
多因素COX比例风险回归模型结果分析:
表6模型系数的Omnibus检验表
Figure BDA0002843434050000161
表6中显著性的值全部小于0.05,说明建立的多因素COX比例回归模型是有效的,即所有变量中至少存在一个自变量能够显著影响因变量。
表7方程中的变量表
Figure BDA0002843434050000162
COX回归分析方法给出统计学检验的P值,通过P值的大小判断结果。统计学根据显著性检验方法所得到的P值,一般以P<0.05为有统计学差异。且P值越小,该指标与生存期的不相关性越小,即相关性越大。表7中的显著性水平(P)中白细胞计数、单核细胞计数、中性粒细胞计数、凝血酶原时间、纤维蛋白原的值大于0.05,说明它们不会显著影响患者术后的生存状态的,其中INR、红细胞计数、血红蛋白浓度、凝血酶时间、最终阳性转移个数、最终淋巴结检查总数的显著性水平(P)的值小于0.05,说明这些指标能够显著影响患者术后的生存状态的。
根据潜在的风险指标建立COX回归模型,单因素分析发现白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、凝血酶时间、纤维蛋白原、INR、淋巴结阳性转移个数、淋巴结检查总数这些临床表型指标是影响食管鳞癌患者的预后生存时间的因素。在多因素COX比例风险回归模型分析中有意义的指标中进一步进行多因素COX比例风险回归模型分析,结果发现临床表型指标红细胞计数、血红蛋白浓度、TT、INR、淋巴结阳性转移个数、淋巴结检查总数依然影响着患者的生存预后。可以认为临床表型指标红细胞计数、血红蛋白浓度、凝血酶时间、INR、淋巴结阳性转移个数、淋巴结检查总数是影响食管鳞癌患者的预后生存时间独立因素。
通过单因素COX和多因素COX比例风险回归模型对食管鳞癌患者的17中临床表型指标进行回归分析,得到与食管癌患者生存期相关的N种临床表型指标信息;其中,N=6;所述与生存期相关的6种临床表型指标信息分别为:红细胞计数、血红蛋白浓度、凝血酶时间、INR、淋巴结阳性转移个数、淋巴结检查总数。
表8单因素及多因素COX比例风险回归分析
Figure BDA0002843434050000171
Figure BDA0002843434050000181
HR:风险系数;CI:置信区间;
步骤五:通过LASSO回归方法对N种临床表型指标与生存期信息和生存状态进行回归分析,得到与食管鳞癌患者生存期相关度高的临床表型指标以及食管鳞癌患者的生存期预后指数模型;
使用LASSO回归方法对训练集数据做进一步分析。LASSO通过构造惩罚函数对自变量的回归系数进行压缩控制,具有良好的收缩特性,能将一些自变量的回归系数压缩至0,最终得到一个稀疏化的模型,进而获得与食管鳞癌患者生存相关度更高的患者临床表型指标。
使用R语言中的LARS包实现LASSO模型的构建,LARS包中包含了函数lars,函数lars提供了通过回归变量X和因变量Y求解其回归模型的方法。具体步骤如下:在R语言程序运行界面,加载软件包openxlsx和lars,调用openxlsx软件包读取Excel表中需要分析的临床表型指标数据与结局变量的数据,调用lars软件包,分析筛选影响食管鳞癌患者生存预后的因素并构建回归模型,在函数lars(X,Y,type=“lasso”)中,type为模型的类型,选择为LASSO,X代表通过分析得到与食管癌患者生存期相关的6种临床表型指标的数据构成的回归变量矩阵,Y是一个代表食管鳞癌患者3年/5年生存状态的一维矩阵。
LASSO回归分析筛选影响食管鳞癌患者生存预后的因素并构建回归模型:
S5.1、将食管鳞癌患者的生存期大于L年的食管鳞癌患者认定为低风险患者,将食管鳞癌患者的生存期小于L年的食管鳞癌患者认定为高风险患者;
S5.2、根据生存期信息将食管鳞癌患者分为两类,并对食管鳞癌患者的N种临床表型指标进行标注类别后作为样本集,样本集的80%作为训练集样本,其余样本集作为测试样本;
S5.3、将训练集样本输入LASSO回归模型中,得到与食管鳞癌患者生存期相关度高的临床表型指标以及食管鳞癌患者的生存期预后指数模型;
S5.4、利用测试样本对食管鳞癌患者的生存期预后指数模型进行验证。
将食管鳞癌患者的N种临床表型指标信息和生存期信息的80%数据作为训练集样本,其余作为测试样本。将食管鳞癌患者预后生存期大于L年的患者认定为低风险患者,将食管鳞癌患者预后生存期小于L年的患者认定为高风险患者。其中,L的取值为3和5。分别以食管鳞癌患者的生存期大于/小于三年,大于/小于五年作为结局变量,通过LASSO回归方法,从N种食管鳞癌患者临床表型指标中挑出回归系数不为0的指标,并得到每个指标对应的回归系数。这些指标即为经过LASSO回归分析最终得到的与食管鳞癌患者三年生存期,五年生存期相关度较高的风险指标。最终得到的与食管鳞癌患者生存期相关度高的临床表型指标包括淋巴结阳性转移个数和国际标准化比值。
预后指数的构建:预后指数作为整合风险指标的一个风险指数可以为每一个食管鳞癌患者给出一个预后索引值(T),通过线性组合每个风险指标的表达量和回归系数的乘积得到。所述食管鳞癌患者的生存期预后指数模型包括食管鳞癌患者三年生存期预后指数模型和食管鳞癌患者五年生存期预后指数模型;故根据两种不同的结局事件可以得到两个回归模型:
模型一是食管鳞癌患者三年生存期预后指数模型:
T=0.134×淋巴结阳性转移个数-0.272×INR
食管鳞癌患者五年生存期预后指数模型:
T=0.043×淋巴结阳性转移个数-0.251×INR
其中,INR表示国际标准化比值。
步骤六:构建与食管鳞癌患者生存期相关度高的临床表型指标的ROC曲线,通过ROC曲线获得预后生存风险阈值,判断食管鳞癌患者的生存期预后指数是否大于预后生存风险阈值,若是,食管鳞癌患者的预后生存风险为高风险,否则,食管鳞癌患者的预后生存风险为低风险。
在得到食管鳞癌患者的三年生存期预后指数模型和五年生存期预后指数模型之后,将训练集中的患者样本通过预后指数计算得到预后值,并通过ROC曲线求取最佳截断值作为阈值,大于该阈值的病人认为是高风险病人即该患者术后生存期小于三年/五年,反之则认为是低风险病人样本即该患者术后生存期大于三年/五年。
ROC曲线通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标,(1-特异性)为横坐标绘制成曲线,曲线下面积越大,分类准确性越高;在受试者工作特征曲线上,最靠近坐标图左上方的点为敏感性和特异度都较高的临界值,即单个指标的最佳分类阈值,该阈值的选择通过约登指数来判定,其中约登指数的计算表达式为:约登指数=灵敏度+特异性-1。通过ROC曲线分析,图3为训练集患者的预后指数(3年)的ROC曲线分析图,灵敏度为40.34%,特异度为82.68%,约登指数=灵敏度+特异性-1=0.4032+0.8268-1=0.23,预后指数的最佳阈值为0.0654。图4为训练集患者的预后指数(5年)的ROC曲线分析图,灵敏度为41.11%,特异度为81.87%,约登指数=灵敏度+特异性-1=0.4111+0.8187-1=0.2298,预后指数的最佳阈值为-0.1189,
通过LASSO最终筛选出的临床表型指标以及其对应的回归系数,构成一个多元线性模型即预后指数T,不同患者的临床表型指标值不同,进而可以生成每个患者的预后指数,再根据预后指数以及相应的阈值将患者分类为高风险病人和低风险病人。T值越小病人的生存风险越低,反之病人的生存风险越高。使用测试集数据进行模型验证,看预后指数是否能够将高风险病人样本和低风险病人样本区分开来,
测试数据集中共包含食管鳞癌患者86例,且已知所有患者的术后三年/五年的生存状态,根据相关临床表型指标与预后指数判断的患者术后三年/五年的生存状态,测试结果为:三年的准确率为67.44%,五年的准确率为61.63%
通过Kaplan-Meier的方法将与病人样本高低风险的划分以及样本临床信息中的生存时间、状态相结合,作出测试集样本的生存曲线。如图5、图6所示:在生存曲线图中,高风险病人的生存曲线和低风险病人的生存曲线明显区分开来,而且log-rank检验P值小于0.05。综上所述说明他们之间生存具有显著性差异。
为了进一步求证该预后模型的科学合理性,通过ROC曲线来进一步佐证。其中ROC曲线如图7和8所示,根据食管鳞癌患者的实际情况,分别以3年、5年的生存时间进行分析,最后根据受试者的ROC曲线下面积(AUC)的大小来判断构造模型的优劣,如果AUC>0.5就表明该模型表现良好,而图7、图8的ROC图中AUC值分别为0.649、0.631,说明该方法构建的模型表现比较良好。
医学上常用的预后营养指标模型如下:
PNI=白蛋白+5×淋巴细胞计数
最后,通过预后指数模型与PNI模型各个评价指标的对比,如表9所示。综合各项风险评估指数,可以看出本发明建立的多变量概率预测模型具有较好的预测能力。
表9模型效果对比表
变量 P(log-rank检验) AUC
模型一 <0.001 0.649
模型二 <0.001 0.631
PNI 0.399 0.526
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,其步骤如下:
步骤一:获取食管鳞癌患者的M种临床表型指标、生存期信息和生存状态作为原始数据集;
步骤二:利用Kaplan-Meier法和log-rank法分别对M种临床表型指标与生存期信息和生存状态进行关系分析,将M种临床表型指标分为有用临床表型指标和无用临床表型指标;
步骤三:利用单因素COX回归分别对M种临床表型指标与生存期信息和生存状态进行回归分析,进一步得到了与步骤二相同的有用临床表型指标;
步骤四:利用多因素COX回归对有用临床表型指标与与生存期信息和生存状态进行回归分析,获得与食管鳞癌患者生存期相关的N种临床表型指标;
步骤五:通过LASSO回归方法对N种临床表型指标与与生存期信息和生存状态进行回归分析,得到与食管鳞癌患者生存期相关度高的临床表型指标以及食管鳞癌患者的生存期预后指数模型;
步骤六:构建与食管鳞癌患者生存期相关度高的临床表型指标的ROC曲线,通过ROC曲线获得预后生存风险阈值,判断食管鳞癌患者的生存期预后指数是否大于预后生存风险阈值,若是,食管鳞癌患者的预后生存风险为高风险,否则,食管鳞癌患者的预后生存风险为低风险。
2.根据权利要求1所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述临床表型指标包括白细胞计数、淋巴细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原、国际标准化比值、淋巴结阳性转移个数和淋巴结检查总数。
3.根据权利要求1所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述利用Kaplan-Meier法和log-rank法分别对M种临床表型指标与生存期信息和生存状态进行关系分析的方法为:
S2.1、根据X-tile软件分别计算每种临床表型指标的最佳临界值,并根据每种临床表型指标对应的最佳临界值将临床表型指标划分为高指标组和低指标组;
S2.2、对于某一临床表型,将该临床表型数据二分类后,进行Kaplan-Meier法的步骤如下:将高指标组的食管鳞癌患者记为甲组,低指标组的食管鳞癌患者记为乙组,p为生存概率,指单位时段开始存活的个体到该时段结束时仍然存活的可能性;S(t)为生存率,指观察对象活过t个单位时间的概率;
以月为单位时间,则月生存概率的计算公式为:
Figure FDA0002843434040000021
当数据中无删失值,生存率的计算公式为:
Figure FDA0002843434040000022
当数据中有删失值,需分时段计算不同单位时间的生存概率pi,i=1,2,…,k,然后利用概率乘法原理将pi相乘得到t时刻生存率,即:
S(t)=p1×p2×…×pi
绘制某一分组后临床表型数据的K-M生存曲线,根据计算出得不同时间点生存率,可以将随访时间作横坐标,生存率作纵坐标将各个时间点生存率连接在一起绘制该分组后临床表型数据的生存曲线,从生存曲线图中可以直观看出中位生存期;
S2.3、对于某一临床表型,将该临床表型数据二分类后,进行log-rank检验的步骤如下:将高指标组的食管鳞癌患者记为甲组,低指标组的食管鳞癌患者记为乙组,定义零和假设和备择假设:
H0:两组患者生存曲线分布相同
H1:两组患者生存曲线分布不同
α=0.05
当H0成立时,两组的生存分布相同,将两组数据混合,计算合并的死亡概率,以此计算相应的期望死亡人数;两组在不同时间点期初观察例数m1i、m2i,其合计为Mi=m1i+m2i,不同时间点两组的死亡人数为O1i、O2i,其合计为Oi=O1i+O2i
计算各组期望死亡人数S1i和S2i
Figure FDA0002843434040000023
分别将两组各时间点期望死亡人数相加,得到Sk,则两组实际总死亡数为
Figure FDA0002843434040000024
如果两组各时间点生存率都相同,那么两组总的期望死亡数Sk和总的实际死亡数Ck相差不大;检验实际数与期望数差别大小的统计量χ2
Figure FDA0002843434040000025
通过查χ2界值表得,若该χ2对应的显著性值P,将显著性值P小于0.05的临床表型指标作为有用临床表型指标,将显著性值P大于0.05的临床表型指标作为无用临床表型指标。
4.根据权利要求1所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述利用单因素COX回归分别对M种临床表型指标与生存期信息和生存状态进行回归分析的方法为:
COX比例风险回归模型的基本形式为:
h(t,z)=h0(t)exp(β1*z12*z2+…+βp*zp)
Figure FDA0002843434040000031
其中,h(t,z)表示具有临床表型z的食管鳞癌患者在t时刻的风险函数,表示生存时间达到t的食管鳞癌患者在t时刻的瞬时风险率,h0(t)称为基线风险函数,表示所有z都取值为0时的食管鳞癌患者在t时刻的瞬时风险率或死亡率;风险函数定义为具有临床表型z的食管鳞癌患者在生存了t时刻以后在t到t+△t这一段很短时间内死亡概率与△t之比的极限值,参数βi'为总体回归系数,i'=1,2,…,p;
对于COX比例风险回归模型,临床表型z1使食管鳞癌患者的风险函数由h0(t)增至h0(t)exp(β1);则p个临床表型z1,z2,…,zp的共同影响下的风险函数为h(t,z)=h0(t)·exp(β1z1)·exp(β2z2)…exp(βpzp),使得食管鳞癌患者风险函数由h0(t)exp(β1)增至h(t,z)=h0(t)·exp(β1z1)·exp(β2z2)…exp(βpzp);
任意两个患者风险函数之比,即相对危险度RR或风险比:
Figure FDA0002843434040000032
RR=exp[β1(zi'1-zj1)+β2(zi'2-zj2)+…+βp(zi'p-zjp)]
比值RR保持一个恒定比例,与时间t无关,称为比例风险假定,基线风险函数h0(t)与时间变化无关,从样本数据中求出回归系数,给定非零的z值时,患者的相对危险度为定值,即各个协变量与时间变量无关的相对危险度,模型中的回归系数利用部分似然函数用最大似然估计方法得到。
5.根据权利要求3或4所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述有用临床表型指标包括白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、国际标准化比值、凝血酶时间、纤维蛋白原、淋巴结阳性转移个数和淋巴结检查总数;无用临床表型指标包括淋巴细胞计数、血小板计数、总蛋白、白蛋白、球蛋白和活化部分凝血活酶时间。
6.根据权利要求5所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述利用多因素COX回归对有用临床表型指标与生存期信息和生存状态进行回归分析的方法为:
S4.1、将有用临床表型指标、生存期信息和生存状态录入IBM SPSS Statistics数据编辑器中,选择“分析”→“生存分析”→“COX回归”,进入选项设置界面;
S4.2、在选项设置界面中,选择主对话框设置:将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、凝血酶时间、纤维蛋白原、INR、淋巴结阳性转移个数、淋巴结检查总数”数据同时输入“协变量”框中→点击“方法”选择“输入”;
S4.3、在“图”选项设置要绘制生存曲线,在“图类型”项目栏中选择“生存分析”作为输出的图形;
S4.4、在“选项”设置中:选择“模型统计”项目栏中的“Exp(B)的置信区间”选项,选择“显示模型信息”项目栏中的“在最后一个步骤”选项,点击“确定”,输出“模型系数的Omnibus检验表”及“方程中的变量表”;
S4.5、从步骤S4.4中的“方程中的变量表”中得到有用临床表型指标的显著性值;
S4.6、将步骤S4.5中的显著性值小于0.05的有用临床表型指标保留,得到与食管鳞癌患者生存期相关的N种临床表型指标。
7.根据权利要求1或6所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述与食管鳞癌患者生存期相关的N种临床表型指标包括红细胞计数、血红蛋白浓度、凝血酶时间、国际标准化比值、淋巴结阳性转移个数和淋巴结检查总数。
8.根据权利要求1所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述通过LASSO回归方法对N种临床表型指标与生存期信息和生存状态进行回归分析的方法为:
S5.1、将食管鳞癌患者的生存期大于L年的食管鳞癌患者认定为低风险患者,将食管鳞癌患者的生存期小于L年的食管鳞癌患者认定为高风险患者;
S5.2、根据生存期信息将食管鳞癌患者分为两类,并对食管鳞癌患者的N种临床表型指标进行标注类别后作为样本集,样本集的80%作为训练集样本,其余样本集作为测试样本;
S5.3、将训练集样本输入LASSO回归模型中,得到与食管鳞癌患者生存期相关度高的临床表型指标以及食管鳞癌患者的生存期预后指数模型;
S5.4、利用测试样本对食管鳞癌患者的生存期预后指数模型进行验证。
9.根据权利要求8所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述与食管鳞癌患者生存期相关度高的临床表型指标包括淋巴结阳性转移个数和国际标准化比值。
10.根据权利要求9所述的基于临床表型和LASSO的食管鳞癌预后指数模型构建方法,其特征在于,所述食管鳞癌患者的生存期预后指数模型包括食管鳞癌患者三年生存期预后指数模型和食管鳞癌患者五年生存期预后指数模型;
所述食管鳞癌患者三年生存期预后指数模型为:
T=0.134×淋巴结阳性转移个数-0.272×INR
所述食管鳞癌患者五年生存期预后指数模型为:
T=0.043×淋巴结阳性转移个数-0.251×INR
其中,INR表示国际标准化比值。
CN202011500328.1A 2020-12-17 2020-12-17 基于临床表型和lasso的食管鳞癌预后指数模型构建方法 Active CN112635057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011500328.1A CN112635057B (zh) 2020-12-17 2020-12-17 基于临床表型和lasso的食管鳞癌预后指数模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011500328.1A CN112635057B (zh) 2020-12-17 2020-12-17 基于临床表型和lasso的食管鳞癌预后指数模型构建方法

Publications (2)

Publication Number Publication Date
CN112635057A true CN112635057A (zh) 2021-04-09
CN112635057B CN112635057B (zh) 2021-10-29

Family

ID=75316716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011500328.1A Active CN112635057B (zh) 2020-12-17 2020-12-17 基于临床表型和lasso的食管鳞癌预后指数模型构建方法

Country Status (1)

Country Link
CN (1) CN112635057B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096810A (zh) * 2021-04-29 2021-07-09 郑州轻工业大学 一种基于卷积神经网络的食管鳞癌患者生存风险预测方法
CN113161000A (zh) * 2021-05-06 2021-07-23 复旦大学附属中山医院 混合细胞型肝癌的预后评分模型及其构建方法
CN113270188A (zh) * 2021-05-10 2021-08-17 北京市肿瘤防治研究所 食管鳞癌根治术后患者预后预测模型构建方法及装置
CN113361822A (zh) * 2021-07-12 2021-09-07 上海交通大学医学院附属第九人民医院 大唾液腺癌患者生存预测系统、方法及终端
CN116030987A (zh) * 2023-02-20 2023-04-28 北京大学第三医院(北京大学第三临床医学院) 系统性硬化病食管动力的评估模型的构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170293856A1 (en) * 2016-04-07 2017-10-12 Xerox Corporation Clustering high dimensional data using gaussian mixture copula model with lasso based regularization
CN110634571A (zh) * 2019-09-20 2019-12-31 四川省人民医院 肝移植术后预后预测系统
CN111653314A (zh) * 2020-02-08 2020-09-11 广州医科大学附属肿瘤医院 一种分析识别淋巴管浸润的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170293856A1 (en) * 2016-04-07 2017-10-12 Xerox Corporation Clustering high dimensional data using gaussian mixture copula model with lasso based regularization
CN110634571A (zh) * 2019-09-20 2019-12-31 四川省人民医院 肝移植术后预后预测系统
CN111653314A (zh) * 2020-02-08 2020-09-11 广州医科大学附属肿瘤医院 一种分析识别淋巴管浸润的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林翼旻: "非手术治疗食管鳞癌患者的淋巴结分期与预后关系的研究", 《中国优秀硕士学位论文全文数据库(电子期刊)医药卫生科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096810A (zh) * 2021-04-29 2021-07-09 郑州轻工业大学 一种基于卷积神经网络的食管鳞癌患者生存风险预测方法
CN113161000A (zh) * 2021-05-06 2021-07-23 复旦大学附属中山医院 混合细胞型肝癌的预后评分模型及其构建方法
CN113161000B (zh) * 2021-05-06 2024-05-28 复旦大学附属中山医院 混合细胞型肝癌的预后评分模型及其构建方法
CN113270188A (zh) * 2021-05-10 2021-08-17 北京市肿瘤防治研究所 食管鳞癌根治术后患者预后预测模型构建方法及装置
CN113361822A (zh) * 2021-07-12 2021-09-07 上海交通大学医学院附属第九人民医院 大唾液腺癌患者生存预测系统、方法及终端
CN116030987A (zh) * 2023-02-20 2023-04-28 北京大学第三医院(北京大学第三临床医学院) 系统性硬化病食管动力的评估模型的构建方法
CN116030987B (zh) * 2023-02-20 2023-08-04 北京大学第三医院(北京大学第三临床医学院) 系统性硬化病食管动力的评估模型的构建方法

Also Published As

Publication number Publication date
CN112635057B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN112635057B (zh) 基于临床表型和lasso的食管鳞癌预后指数模型构建方法
CN112185549B (zh) 基于临床表型和逻辑回归分析的食管鳞癌风险预测系统
KR102094326B1 (ko) 위장암의 위험을 평가하는 방법 및 시스템
JP2018505392A (ja) 自動化されたフローサイトメトリ分析方法及びシステム
McDonnell et al. Utility of the immature platelet fraction in pediatric immune thrombocytopenia: Differentiating from bone marrow failure and predicting bleeding risk
Kim et al. Absolute quantification of tumor-infiltrating immune cells in high-grade glioma identifies prognostic and radiomics values
CN110634563A (zh) 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置
CN113270188B (zh) 食管鳞癌根治术后患者预后预测模型构建方法及装置
Duetz et al. Computational flow cytometry as a diagnostic tool in suspected‐myelodysplastic syndromes
CN116052770A (zh) 基于多基因突变的vte风险评估模型、构建方法及应用
CN115099331A (zh) 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统
Hoffmann et al. Identification of critical hemodilution by artificial intelligence in bone marrow assessed for minimal residual disease analysis in acute myeloid leukemia: The Cinderella method
CN116978582A (zh) 一种前列腺癌预测模型的建模方法及预测系统
Lotta et al. Prevalence of disease and relationships between laboratory phenotype and bleeding severity in platelet primary secretion defects
CN113096810A (zh) 一种基于卷积神经网络的食管鳞癌患者生存风险预测方法
Roussel et al. Toward new insights on the white blood cell differential by flow cytometry: A proof of concept study on the sepsis model
Kawai et al. Laboratory prognostic score for predicting 30-day mortality in terminally ill cancer patients
Virdee et al. Trends in the full blood count blood test and colorectal cancer detection: A longitudinal, case-control study of UK primary care patient data
Kim et al. Delta neutrophil index and symptomatic time are effective factors for predicting perforated appendicitis
Birindelli et al. Definition of the immune parameters related to COVID-19 severity
Deng et al. Characterizing risk of in-hospital mortality following subarachnoid hemorrhage using machine learning: a retrospective study
CN113782197B (zh) 基于可解释性机器学习算法的新冠肺炎患者转归预测方法
RU2647454C2 (ru) Способ прогнозирования риска прогрессирования первичных В-клеточных неходжкинских лимфом с поражением костного мозга
Shi et al. Flow cytometric assessment of chronic myeloid neoplasms
US20240038338A1 (en) System and method for automated flow cytometry data analysis and interpretation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant