CN112635056B - 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法 - Google Patents

基于Lasso的食管鳞癌患者风险预测列线图模型建立方法 Download PDF

Info

Publication number
CN112635056B
CN112635056B CN202011495288.6A CN202011495288A CN112635056B CN 112635056 B CN112635056 B CN 112635056B CN 202011495288 A CN202011495288 A CN 202011495288A CN 112635056 B CN112635056 B CN 112635056B
Authority
CN
China
Prior art keywords
esophageal squamous
model
variable
variables
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011495288.6A
Other languages
English (en)
Other versions
CN112635056A (zh
Inventor
凌丹
张桢桢
王延峰
王妍
孙军伟
王英聪
姜素霞
栗三一
黄春
李盼龙
杨飞飞
王立东
宋昕
赵学科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202011495288.6A priority Critical patent/CN112635056B/zh
Publication of CN112635056A publication Critical patent/CN112635056A/zh
Application granted granted Critical
Publication of CN112635056B publication Critical patent/CN112635056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了一种基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,用以评估食管鳞癌患者术后生存风险。其步骤为:首先,收集食管鳞癌患者的临床数据,利用单因素Cox、Lasso和多因素Cox回归分析方法对临床数据进行分析,获得重要特征变量,并建立特征维数不同的概率预测模型;其次,选择性能较优的概率预测模型并建立食管鳞癌患者术后风险预测列线图模型;最后,根据食管鳞癌患者术后风险预测列线图模型将患者分为高风险组和低风险组,通过KM生存曲线分析方法验证模型分类的可靠性和有效性。本发明较准确地预测食管鳞癌患者术后的生存风险,更好地为食管鳞癌患者的治疗提供参考,同时降低风险预测的成本。

Description

基于Lasso的食管鳞癌患者风险预测列线图模型建立方法
技术领域
本发明涉及机器学习的技术领域,特别是指一种基于Lasso的食管鳞癌患者风险预测列线图模型建立方法。
背景技术
风险预测模型对患者预后进行评估已经广泛应用于不同的疾病,在中国食管鳞癌的发病率比较高,食管鳞癌的早期发现和有效治疗是专家学者一直关心的问题,对食管鳞癌患者进行精准的预后依然是一项重大的挑战。食管鳞癌的发生并非是单个因素影响的结果,收集临床上食管鳞癌患者的数据又存在信息冗余、多噪声的特点,目前临床医疗手段无法完全改善患者的预后,但通过挖掘临床检测数据中的高风险因素或者建立新的肿瘤标志物,提前进行风险评估,可以降低食管癌患者的风险。近年来,很多研究者们致力于通过对食管癌患者的临床检测数据进行长期观察和研究,同时将各种机器学习和统计学的方法应用于临床研究,从而建立一些模型对食管癌患者风险进行评估。
目前最有效的处理方法是数学模型构建,而建模之初,通常会尽可能多的选择已知变量来克服缺少自变量带来的模型偏差,但是在实际建立数学模型的过程中需要寻找对因变量有重要影响的一些自变量,这个过程就是特征选择的过程,剔除冗余变量。其中,过滤法能够对每一个特征进行评分,设定阈值或者需要选择特征的个数选择特征,舍弃掉不理想的特征信息;皮尔森相关系数的计算也可以用来衡量变量之间的线性相关性,进而得到自变量与自变量之间、自变量与因变量之间的相关程度;方差选择法通过计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。上述方法都是通过常规的方法对已知的变量进行筛选然后建立数学模型,使得建立的数学模型判断准确率比较低,因此,亟需引入新的变量选择的方法构建有效的预测模型来准确判断患者预后风险。
发明内容
针对上述背景技术中存在的不足,本发明提出了一种基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,解决了现有预测模型由于特征选择过多或者过少造成的模型不可靠,识别率低的技术问题。
本发明的技术方案是这样实现的:
一种基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,其步骤如下:
步骤一:收集食管鳞癌患者的临床数据、生存期数据和随访数据,并将食管鳞癌患者的临床数据分为测试数据和验证数据;
步骤二:利用单因素Cox回归分析方法对测试数据和测试数据对应的生存期数据进行变量显著性分析,得到初步筛选特征变量;
步骤三:利用Lasso回归分析方法计算初步筛选特征变量的重要性,根据重要性对初步筛选特征变量进行排序,并将排序后的初步筛选特征变量作为与食管鳞癌患者生存风险显著相关的重要特征变量;
步骤四:采用逻辑回归方法建立基于步骤三中的重要特征变量的概率预测模型;
步骤五:采用多因素Cox回归分析方法对步骤三中的重要特征变量进行筛选,得到重要变量,并构建基于重要变量的概率预测模型;
步骤六:利用ROC曲线方法比较步骤四中的重要特征变量的概率预测模型和步骤五中的重要变量的概率预测模型,根据预测准确率和变量维度选择最优的概率预测模型,并利用验证数据对最优的概率预测模型进行测试,再基于最优的概率预测模型建立食管鳞癌患者术后风险预测列线图模型;
步骤七:利用ROC曲线对食管鳞癌患者术后风险预测列线图模型进行评估,将食管鳞癌患者分为高风险组和低风险组,根据随访数据分别计算高风险组和低风险组的食管鳞癌患者的生存率,并分别绘制高风险组和低风险组的食管鳞癌患者的生存率的KM生存曲线,根据KM生存曲线验证食管鳞癌患者术后风险预测列线图模型的可靠性和有效性。
所述食管鳞癌患者的临床数据包括性别、年龄、高低发区、吸烟史、饮酒史、家族史、肿瘤部位、分化程度、淋巴结阴阳性、最终阳性转移个数、最终淋巴结检查总数、T分期、N分期、M分期和开胸部位。
所述初步筛选特征变量包括年龄、肿瘤部位、分化程度、淋巴结转移阴阳性、阳性淋巴结转移个数、T分期、N分期和开胸部位。
所述利用Lasso回归分析方法计算初步筛选特征变量的重要性的方法为:
计算初步筛选特征变量的系数:
Figure BDA0002841971700000021
其中,
Figure BDA0002841971700000022
表示回归系数向量;i表示食管鳞癌患者,i∈{1,2,...,n},n表示食管鳞癌患者的总人数;yi表示第i个食管鳞癌患者的风险分类类别,yj∈{0,1};j表示初步筛选特征变量,j∈{1,2,...,m},m表示初步筛选特征变量的总数;θ0表示常数项,θj表示第j个初步筛选特征变量的系数,xij表示第i个食管鳞癌患者的第j个初步筛选特征变量的取值;λ是用来平衡正则化项
Figure BDA0002841971700000023
和风险分类yi的参数,且λ>0;将初步筛选特征变量的系数作为初步筛选特征变量的重要性。
所述重要特征变量是按照初步筛选特征变量的重要性从高到低进行排序,重要特征变量的顺序如下:T分期、开胸部位、淋巴结转移阴阳性、N分期、肿瘤部位、分化程度、年龄、阳性淋巴结转移个数。
所述重要特征变量的概率预测模型为:
Figure BDA0002841971700000031
其中,p表示食管鳞癌患者被划分为高风险的概率,X1表示第I个重要特征变量的取值,X2表示第II个重要特征变量的取值,Xk表示第k个重要特征变量的取值,k表示重要特征变量的概率预测模型中选取的重要特征变量的个数,β0表示概率预测模型中的常数项,β1表示概率预测模型中重要特征变量X1对应的系数,β2表示概率预测模型中重要特征变量X2对应的系数,βk表示概率预测模型中重要特征变量Xk对应的系数,k≤m。
所述重要变量包括年龄、肿瘤部位、分化程度、T分期和开胸部位。
所述重要变量的概率预测模型为:
Figure BDA0002841971700000032
其中,p'表示食管鳞癌患者被划分为高风险的概率,X1'表示第I个重要变量的取值,X2'表示第II个重要变量的取值,Xk′′表示第k'个重要变量的取值,k'表示重要变量的个数,β0'表示概率预测模型中的常数项,β1'表示概率预测模型中重要变量X1'对应的系数,β2'表示概率预测模型中重要变量X2'对应的系数,βk′′表示概率预测模型中重要变量Xk′′对应的系数,k'≤m。
所述食管鳞癌患者的生存率的计算方法为:
S(t)=S(t-1)S(t|t-1)
其中,S(t)表示t年的生存率,即食管鳞癌患者的生存时间大于t年的概率,S(t-1)表示t-1年的生存率,S(t|t-1)表示食管鳞癌患者生存了t-1年又生存t年的条件概率。
本技术方案能产生的有益效果:
(1)本发明利用单因素Cox和Lasso回归分析的方法对食管鳞癌患者的临床诊疗、病理和随访信息数据进行筛选特征变量,能够有效找到食管鳞癌患者术后生存的特征变量。
(2)本发明根据筛选的特征变量构建风险概率预测列线图模型,得到食管鳞癌患者的术后风险;又根据高风险和低风险组的食管鳞癌患者随访信息数据做生存曲线分析,分析两组患者的预后生存差异;利用多变量的预测模型进行食管鳞癌患者预后风险判断,可以较为精确地判断食管鳞癌患者术后的生存风险,提高风险预测的性能,降低风险预测的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的总体流程图;
图2是本发明实施例提供的Lasso方法的参数λ选择图;
图3是本发明实施例提供的Lasso变量系数图;
图4是本发明实施例提供的基于变量重要性的模型拟合度图;
图5是本发明实施例提供的本发明建立的不同概率预测模型的ROC曲线分析图;
图6是本发明实施例提供的本发明建立基于单因素和Cox分析方法建立的概率预测模型在测试组的生存曲线图;
图7是本发明实施例提供的本发明建立的概率预测列线图模型;
图8是本发明实施例提供的本发明建立的风险预测模型与传统模型的ROC曲线分析图;
图9是本发明实施例提供的食管鳞癌患者的生存曲线分析图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,具体步骤如下:
步骤一:收集食管鳞癌患者的临床数据、生存期数据和随访数据,并将食管鳞癌患者的临床数据分为测试数据和验证数据;所述食管鳞癌患者的临床数据包括性别、年龄、高低发区、吸烟史、饮酒史、家族史、肿瘤部位、分化程度、淋巴结阴阳性、最终阳性转移个数、最终淋巴结检查总数、T分期、N分期、M分期和开胸部位。本发明实施例共纳入5077例食管鳞癌患者的数据,其中,男性3149例(62.0%),女性1928例(38.0%);高发区4242例(83.6%),低发区835例(16.4%);吸烟2904例(57.1%),不吸烟2173例(42.9%);饮酒3767例(74.1%),不饮酒1310(25.8%);家族史阴性3175例(62.5%),家族史阳性1902例(37.5%);肿瘤部位发生在颈段的有14例(0.3%),肿瘤部位发生在胸上段的有832例(16.4%),肿瘤部位发生在胸中段的有3427例(67.5%),肿瘤部位发生在胸下段的有804例(15.8%),同时表明肿瘤大多发生在胸中段;肿瘤病理分化程度中高分化的有994例(19.6%),肿瘤病理分化程度中中分化的有3052例(60.1%),肿瘤病理分化程度中低分化的有1021例(20.1%),少部分(0.2%)处于未分化;肿瘤浸润程度是原位癌的有25例(0.5%),肿瘤浸润程度在粘膜层的有189例(3.7%),肿瘤浸润程度在粘膜下层的有345例(6.8%),肿瘤浸润程度在肌层的有1635例(32.2%),肿瘤浸润程度在纤维膜的有2883例(56.8%);淋巴结转移阴性的有3124例(61.5%),淋巴结转移阳性的有1953例(38.5%);手术开胸部位为左开胸的有4444例(87.6%),手术开胸部位为有右开胸的有663例(12.4%)。然后根据模型评估留出法,将患者病例分为测试组和验证组,测试组数据为3553例,验证组数据为1524例。
步骤二:利用单因素Cox回归分析方法对测试数据和测试数据对应的生存期数据进行变量显著性分析,得到初步筛选特征变量;利用单因素Cox回归分析方法对测试组数据进行特征变量的显著性分析的结果如表1所述。
表1单因素Cox回归分析结果
Figure BDA0002841971700000051
Figure BDA0002841971700000061
其中,表1中的P值是由单因素Cox回归分析得到的,根据统计学理论,如果P值小于0.05说明该变量与食管鳞癌患者术后风险分类相关性高,根据P值对鳞癌患者的临床数据包括性别、年龄、高低发区、吸烟史、饮酒史、家族史、肿瘤部位、分化程度、淋巴结阴阳性、最终阳性转移个数、最终淋巴结检查总数、T分期、N分期、M分期、开胸部位进行筛选,得到与食管鳞癌患者风险分类相关性高的初步特征变量有年龄、肿瘤部位、分化程度、淋巴结转移阴阳性、阳性淋巴结转移个数、T分期、N分期和开胸部位。
步骤三:利用Lasso回归分析方法计算初步筛选特征变量的重要性,根据重要性对初步筛选特征变量进行排序,并将排序后的初步筛选特征变量作为与食管鳞癌患者生存风险显著相关的重要特征变量;
计算初步筛选特征变量的系数:
Figure BDA0002841971700000062
其中,
Figure BDA0002841971700000063
表示回归系数向量;i表示食管鳞癌患者,i∈{1,2,...,n},n表示食管鳞癌患者的总人数;yi表示第i个食管鳞癌患者的风险分类类别,yj∈{0,1};j表示初步筛选特征变量,j∈{1,2,...,m},m表示初步筛选特征变量的总数;θ0表示常数项,θj表示第j个初步筛选特征变量的系数,xij表示第i个食管鳞癌患者的第j个初步筛选特征变量的取值;λ是用来平衡正则化项
Figure BDA0002841971700000064
和风险分类yi的参数,且λ>0。
实施例中的λ取值情况如图2所示,其中,λ的最优取值是0.0217,对应图2中横坐标的取值为log(λ)=log(0.0217)≈-3.8304;图3的纵坐标表示系数值,横坐标表示L1范数;根据Lasso回归分析方法具有筛选变量且线性建模的特点对变量的分析,初步筛选特征变量的系数即为初步筛选特征变量的重要性,按照初步筛选特征变量的重要性从高到低进行排序,获得的重要特征变量的顺序如下:T分期、开胸部位、淋巴结转移阴阳性、N分期、肿瘤部位、分化程度、年龄、阳性淋巴结转移个数。
步骤四:采用逻辑回归方法建立基于步骤三中的重要特征变量的概率预测模型;根据Lasso回归分析方法确定的变量重要性,然后根据变量个数分别建立不同的线性回归模型,模型拟合效果如图4所示,随着变量个数的增加,模型拟合效果越好;但是随着变量个数增加到第七个变量、八个变量的时候模型的拟合度不再增加。
所述重要特征变量的概率预测模型为:
Figure BDA0002841971700000071
其中,p表示食管鳞癌患者被划分为高风险的概率,X1表示第I个重要特征变量的取值,X2表示第II个重要特征变量的取值,Xk表示第k个重要特征变量的取值,k表示重要特征变量的概率预测模型中选取的重要特征变量的个数,β0表示概率预测模型中的常数项,β1表示概率预测模型中重要特征变量X1对应的系数,β2表示概率预测模型中重要特征变量X2对应的系数,βk表示概率预测模型中重要特征变量Xk对应的系数,k≤m。
根据变量重要性,然后根据变量个数不同建立的概率模型具体如下:
可以得到模型1为:
Figure BDA0002841971700000072
其中,p1表示食管鳞癌患者被划分为高风险的概率,X1表示T分期的取值;β0=-1.601表示逻辑回归模型的常数项,β1=0.424表示变量X1对应的系数。
可以得到模型2为:
Figure BDA0002841971700000073
其中,p2表示食管鳞癌患者被划分为高风险的概率,X1表示T分期的取值,X2表示开胸部位的取值;β0=-1.996表示逻辑回归模型的常数项,β1=0.412表示变量X1对应的系数,β2=0.376表示变量X2对应的系数。
可以得到模型3为:
Figure BDA0002841971700000074
其中,p3表示食管鳞癌患者被划分为高风险的概率,X1表示T分期的取值,X2表示开胸部位的取值,X3表示淋巴结转移阴阳性的取值;β0=-1.417表示逻辑回归模型的常数项,β1=0.346表示变量X1对应的系数,β2=0.382表示变量X2对应的系数,β3=-0.713表示变量X3对应的系数。
可以得到模型4为:
Figure BDA0002841971700000075
其中,p4表示食管鳞癌患者被划分为高风险的概率,X1表示T分期的取值,X2表示开胸部位的取值,X3表示淋巴结转移阴阳性的取值,X4表示N分期的取值;β0=-1.826表示逻辑回归模型的常数项,β1=0.337表示变量X1对应的系数,β2=0.376表示变量X2对应的系数,β3=-0.277表示变量X3对应的系数,β4=0.301表示变量X4对应的系数。
可以得到模型5为:
Figure BDA0002841971700000081
其中,p5表示食管鳞癌患者被划分为高风险的概率,X1表示T分期的取值,X2表示开胸部位的取值,X3表示淋巴结转移阴阳性的取值,X4表示N分期的取值,X5表示肿瘤部位的取值;β0=-1.468表示逻辑回归模型的常数项,β1=0.334表示变量X1对应的系数,β2=0.304表示变量X2对应的系数,β3=-0.275表示变量X3对应的系数,β4=0.311表示变量X4对应的系数,β5=-0.140表示变量X5对应的系数。
可以得到模型6为:
Figure BDA0002841971700000082
其中,p6表示食管鳞癌患者被划分为高风险的概率,X1表示T分期的取值,X2表示开胸部位的取值,X3表示淋巴结转移阴阳性的取值,X4表示N分期的取值,X5表示肿瘤部位的取值,X6表示分化程度的取值;β0=-1.579表示逻辑回归模型的常数项,β1=0.334表示变量X1对应的系数,β2=0.307表示变量X2对应的系数,β3=-0.294表示变量X3对应的系数,β4=0.285表示变量X4对应的系数,β5=-0.133表示变量X5对应的系数,β6=0.116表示变量X6对应的系数。
可以得到模型7为:
Figure BDA0002841971700000083
其中,p7表示食管鳞癌患者被划分为高风险的概率,X1表示T分期的取值,X2表示开胸部位的取值,X3表示淋巴结转移阴阳性的取值,X4表示N分期的取值,X5表示肿瘤部位的取值,X6表示分化程度的取值,X7表示年龄的取值;β0=-2.459表示逻辑回归模型的常数项,β1=0.332表示变量X1对应的系数,β2=0.276表示变量X2对应的系数,β3=-0.307表示变量X3对应的系数,β4=0.283表示变量X4对应的系数,β5=-0.164表示变量X5对应的系数,β6=0.145表示变量X6对应的系数,β7=0.017表示变量X7对应的系数。
可以得到模型8为:
Figure BDA0002841971700000091
其中,p8表示食管鳞癌患者被划分为高风险的概率,X1表示T分期的取值,X2表示开胸部位的取值,X3表示淋巴结转移阴阳性的取值,X4表示N分期的取值,X5表示肿瘤部位的取值,X6表示分化程度的取值,X7表示年龄的取值,X8表示阳性淋巴结转移个数的取值;β0=-2.535表示逻辑回归模型的常数项,β1=0.337表示变量X1对应的系数,β2=0.31表示变量X2对应的系数,β3=-0.324表示变量X3对应的系数,β4=0.227表示变量X4对应的系数,β5=-0.143表示变量X5对应的系数,β6=0.111表示变量X6对应的系数,β7=0.017表示变量X7对应的系数,β8=0.02表示变量X8对应的系数。
根据变量个数分别建立不同的回归模型1、模型2、模型3、模型4、模型5、模型6、模型7和模型8,模型拟合效果如图4所示,随着变量个数的增加,模型拟合效果越好;但是随着变量个数为7个变量或者8个变量的时候,模型的拟合度不再增加,因此选择模型7作为基于单因素Cox和Lasso回归分析方法建立的最优模型。
步骤五:基于Lasso筛选变量的基础上进一步采用多因素Cox回归分析方法对步骤三中的重要特征变量进行筛选,得到重要变量,并构建基于重要变量的概率预测模型;采用多因素Cox回归分析结果如表2所示。
表2多因素Cox回归分析结果
Figure BDA0002841971700000092
其中,表2中的P值是由多因素Cox回归分析得到的,根据统计学理论,如果P值小于0.05说明该变量与食管鳞癌患者术后风险分类相关性高,根据P值对初步筛选的特征变量包括T分期、开胸部位、淋巴结转移阴阳性、N分期、肿瘤部位、分化程度、年龄、阳性淋巴结个数进行多因素Cox回归分析如表2所示,得到与食管鳞癌患者风险分类相关性高的特征变量有年龄、肿瘤部位、分化程度、T分期、开胸部位。
其中建立的风险概率预测模型为:
Figure BDA0002841971700000101
其中,p'表示食管鳞癌患者被划分为高风险的概率,X1'表示第I个重要变量的取值,X2'表示第II个重要变量的取值,Xk′′表示第k'个重要变量的取值,k'表示重要变量的个数,β0'表示概率预测模型中的常数项,β1'表示概率预测模型中重要变量X1'对应的系数,β2'表示概率预测模型中重要变量X2'对应的系数,βk′′表示概率预测模型中重要变量Xk′′对应的系数,k'≤m。
所述重要变量的概率预测模型为模型9:
Figure BDA0002841971700000102
其中,p9表示食管鳞癌患者被划分为高风险的概率,X1'表示年龄的取值,X2'表示肿瘤部位的取值,X3'表示分化程度的取值,X4'表示T分期的取值,X5'表示开胸部位的取值;β0'=-2.860表示逻辑回归模型的常数项,β1'=0.022表示年龄X1'对应的系数,β2'=-0.102表示肿瘤部位X2'对应的系数,β3'=0.197表示分化程度X3'对应的系数,β4'=0.363表示T分期X4'对应的系数,β5'=0.274表示开胸部位X5'对应的系数。
步骤六:利用ROC曲线方法比较步骤四中的重要特征变量的概率预测模型和步骤五中的重要变量的概率预测模型,根据概率预测模型的预测准确率和变量维度选择最优的概率预测模型,并利用验证数据对最优的概率预测模型进行测试,再基于最优的概率预测模型建立食管鳞癌患者术后风险预测列线图模型;其中,最好的模型是模型7并将模型7作为风险预测模型。
根据基于单因素Cox和Lasso回归分析建立的最优模型7与基于Lasso和多因素Cox回归分析建立的模型9绘制的ROC曲线如图5所示,模型7的预测准确率为64.8%,模型9的预测准确率为61.4%,因此选择模型7作为最好的模型;根据验证组数据验证模型7的有效性如图6所示,建立的食管鳞癌患者术后风险预测列线图模型如图7所示。
根据模型7中各个变量对生存风险的贡献程度,也即回归系数的大小,给每个影响因素的每个取值水平进行赋分,然后再将各个评分组相加得到总分,最后通过总分与生存风险发生概率之间的函数转换关系,从而计算出生存风险的概率预测值。具体计算如下:
第一步,确定回归系数。已知模型7中的变量:T分期、开胸部位、淋巴结转移阴阳性、N分期、肿瘤部位、分化程度、年龄对应的回归系数的绝对值分别为0.332、0.276、0.307、0.283、0.164、0.145、0.017。
第二步,转换回归系数。转换后T分期的回归系数为:0.332×(4-0)=1.328,其中4和0分别是T分期取值的最大值和最小值;转换后开胸部位的回归系数为:0.276×(2-1)=0.276,其中2和1分别是开胸部位取值的最大值和最小值;转换后淋巴结转移阴阳性的回归系数为:0.307×(1-0)=0.307,其中1和0分别是淋巴结转移阴阳性取值的最大值和最小值;转换后N分期的回归系数为:0.283×(3-0)=0.849,其中3和0分别是N分期取值的最大值和最小值;转换后肿瘤部位的回归系数为:0.164×(3-0)=0.492,其中3和0分别是肿瘤部位取值的最大值和最小值;转换后分化程度的回归系数为:0.145×(3-0)=0.435,其中3和0分别是分化程度取值的最大值和最小值;转换后年龄的回归系数为:0.017×(85-25)=1.02,其中85和25分别是年龄取值的最大值和最小值。
第三步,根据转换结果赋分。因为回归系数的绝对值最大的变量是T分期,认为T分期的取值水平为1,T分期的赋分值为100分,即对应的分值取值范围是0到100分;接着,计算开胸部位的赋分值:
Figure BDA0002841971700000111
分,即对应的分值取值范围是0到21分;淋巴结转移阴阳性的赋分值:
Figure BDA0002841971700000112
分,即对应的分值取值范围是0到23分;N分期的赋分值:
Figure BDA0002841971700000113
分,即对应的分值取值范围是0到64分;肿瘤部位的赋分值:
Figure BDA0002841971700000114
分,即对应的分值取值范围是0到37分;分化程度的赋分值:
Figure BDA0002841971700000115
分,即对应的分值取值范围是0到33分;年龄的赋分值:
Figure BDA0002841971700000116
分,即对应的分值取值范围是0到77分。
第四步,根据赋分结果绘制列线图,列线图模型如图7所示。
将食管鳞癌患者术后风险预测列线图模型与LODDS模型、TNM模型的准确率进行对比,证明本发明建立的风险预测列线图模型的可靠性。模型准确率的计算公式如下:
Figure BDA0002841971700000117
其中,Acc表示分类模型的风险预测准确率,TP表示被正确地划分为高风险的个数,TN表示被错误地划分为高风险的个数,FN表示被错误地划分为低风险的个数,TN表示被正确地划分为低风险的个数。本发明建立的风险预测列线图模型的风险预测准确率高于LODDS模型、TNM模型的风险预测准确率。
本发明建立的概率预测列线图模型以及LODDS模型、TNM模型用于风险分类的ROC曲线如图8所示,其中LODDS模型如下:
Figure BDA0002841971700000121
根据统计学理论,ROC曲线下的面积值在1.0和0.5之间,曲线下面积值越大,模型预测效果越好;得到的概率模型预测风险的准确率为64.8%,传统LODDS模型的预测风险的准确率为58.4%,TNM分期模型的预测风险的准确率为61.2%,预测效果最好的模型是本发明建立的概率预测模型;根据ROC曲线分析方法对LODDS模型、TNM模型与本发明建立的风险预测列线图模型进行评估的结果表明,本发明建立的风险预测列线图模型用于风险分类的效果比较好。
步骤七:利用ROC曲线对食管鳞癌患者术后风险预测列线图模型进行评估,将食管鳞癌患者分为高风险组和低风险组,根据随访数据分别计算高风险组和低风险组的食管鳞癌患者的生存率,并分别绘制高风险组和低风险组的食管鳞癌患者的生存率的KM生存曲线,根据KM生存曲线验证了食管鳞癌患者术后风险预测列线图模型的可靠性和有效性。
所述食管鳞癌患者的生存率的计算方法为:
S(t)=S(t-1)S(t|t-1)
其中,S(t)表示t年的生存率,即食管鳞癌患者的生存时间大于t年的概率,S(t-1)表示t-1年的生存率,S(t|t-1)表示食管鳞癌患者生存了t-1年又生存t年的条件概率。生存率曲线是以时间t为横坐标,S(t)为纵坐标所绘制的曲线,它是一条下降的曲线,下降的坡度越陡,表示生存率越低或生存时间越短,其斜率表示死亡速率。
如图9所示,不同组间生存曲线分析显示,高风险组与低风险组食管鳞癌患者存在显著性差异,高风险组食管鳞癌患者预后生存时间显著少于低风险组食管鳞癌患者(P<0.001)。根据随访资料分析,低风险组3年生存率超过80%,而高风险组3年生存率为70.77%;低风险组5年生存率为74.21%,而高风险组5年生存率为50.38%;低风险组10年生存率为59.15%,而高风险组10年生存率为32.94%;低风险组20年生存率为39.70%,而高风险组20年生存率为13.99%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,其特征在于,其步骤如下:
步骤一:收集食管鳞癌患者的临床数据、生存期数据和随访数据,并将食管鳞癌患者的临床数据分为测试数据和验证数据;所述食管鳞癌患者的临床数据包括性别、年龄、高低发区、吸烟史、饮酒史、家族史、肿瘤部位、分化程度、淋巴结阴阳性、最终阳性转移个数、最终淋巴结检查总数、T分期、N分期、M分期和开胸部位;
步骤二:利用单因素Cox回归分析方法对测试数据和测试数据对应的生存期数据进行变量显著性分析,得到初步筛选特征变量;
步骤三:利用Lasso回归分析方法计算初步筛选特征变量的重要性,根据重要性对初步筛选特征变量进行排序,并将排序后的初步筛选特征变量作为与食管鳞癌患者生存风险显著相关的重要特征变量;
计算初步筛选特征变量的系数:
Figure FDA0003878139290000011
其中,
Figure FDA0003878139290000012
表示回归系数向量;i表示食管鳞癌患者,i∈{1,2,...,n},n表示食管鳞癌患者的总人数;yi表示第i个食管鳞癌患者的风险分类类别,yj∈{0,1};j表示初步筛选特征变量,j∈{1,2,...,m},m表示初步筛选特征变量的总数;θ0表示常数项,θj表示第j个初步筛选特征变量的系数,xij表示第i个食管鳞癌患者的第j个初步筛选特征变量的取值;λ是用来平衡正则化项
Figure FDA0003878139290000013
和风险分类yi的参数,且λ>0;将初步筛选特征变量的系数作为初步筛选特征变量的重要性;
步骤四:根据步骤三重新排序后的重要特征变量,采用逻辑回归方法建立不同变量维度的重要特征变量的概率预测模型,其中模型一包含第一重要特征变量,模型二包含第一重要特征变量和第二重要特征变量,依次类推,利用验证组数据计算各模型的拟合度,根据模型拟合度进一步筛选重要特征变量,降低步骤三获取的重要特征变量;
步骤五:采用多因素Cox回归分析方法对步骤三中的重要特征变量进行筛选,得到重要变量,并构建基于重要变量的概率预测模型;
步骤六:利用ROC曲线方法比较步骤四中的重要特征变量的概率预测模型和步骤五中的重要变量的概率预测模型,根据预测准确率和变量维度选择最优的概率预测模型,并利用验证数据对最优的概率预测模型进行测试,再利用列线图方法绘制最优的概率预测模型的食管鳞癌患者术后风险预测列线图模型;
所述最优的概率预测模型为:
Figure FDA0003878139290000021
其中,p表示食管鳞癌患者被划分为高风险的概率,X1表示T分期,X2表示开胸部位,X3表示淋巴结转移阴阳性,X4表示N分期,X5表示肿瘤部位,X6表示分化程度,X7表示年龄;β0,β1,…,β7是由逻辑回归分析方法确定的概率预测模型的系数;其中β0=-2.459表示逻辑回归模型的常数项,β1=0.332表示变量X1对应的系数,β2=0.276表示变量X2对应的系数,β3=-0.307表示变量X3对应的系数,β4=0.283表示变量X4对应的系数,β5=-0.164表示变量X5对应的系数,β6=0.145表示变量X6对应的系数,β7=0.017表示变量X7对应的系数;
步骤七:利用ROC曲线对食管鳞癌患者术后风险预测列线图模型进行评估,将食管鳞癌患者分为高风险组和低风险组,根据随访数据分别计算高风险组和低风险组的食管鳞癌患者的生存率,并分别绘制高风险组和低风险组的食管鳞癌患者的生存率的KM生存曲线,根据KM生存曲线验证食管鳞癌患者术后风险预测列线图模型的可靠性和有效性。
2.根据权利要求1所述的基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,其特征在于,所述初步筛选特征变量包括年龄、肿瘤部位、分化程度、淋巴结转移阴阳性、阳性淋巴结转移个数、T分期、N分期和开胸部位。
3.根据权利要求1所述的基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,其特征在于,所述重要特征变量是按照初步筛选特征变量的重要性从高到低进行排序,重要特征变量的顺序如下:T分期、开胸部位、淋巴结转移阴阳性、N分期、肿瘤部位、分化程度、年龄、阳性淋巴结转移个数。
4.根据权利要求3所述的基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,其特征在于,所述重要特征变量的概率预测模型为:
Figure FDA0003878139290000022
其中,p表示食管鳞癌患者被划分为高风险的概率,X1表示第I个重要特征变量的取值,X2表示第II个重要特征变量的取值,Xk表示第k个重要特征变量的取值,k表示重要特征变量的概率预测模型中选取的重要特征变量的个数,β0表示概率预测模型中的常数项,β1表示概率预测模型中重要特征变量X1对应的系数,β2表示概率预测模型中重要特征变量X2对应的系数,βk表示概率预测模型中重要特征变量Xk对应的系数,k≤m。
5.根据权利要求4所述的基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,其特征在于,所述重要变量包括年龄、肿瘤部位、分化程度、T分期和开胸部位。
6.根据权利要求5所述的基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,其特征在于,所述重要变量的概率预测模型为:
Figure FDA0003878139290000031
其中,p'表示食管鳞癌患者被划分为高风险的概率,X1'表示第I个重要变量的取值,X2'表示第II个重要变量的取值,Xk′′表示第k'个重要变量的取值,k'表示重要变量的个数,β0'表示概率预测模型中的常数项,β1'表示概率预测模型中重要变量X1'对应的系数,β2'表示概率预测模型中重要变量X2'对应的系数,βk′′表示概率预测模型中重要变量Xk′′对应的系数,k'≤m。
7.根据权利要求1所述的基于Lasso的食管鳞癌患者风险预测列线图模型建立方法,其特征在于,所述食管鳞癌患者的生存率的计算方法为:
S(t)=S(t-1)S(t|t-1)
其中,S(t)表示t年的生存率,即食管鳞癌患者的生存时间大于t年的概率,S(t-1)表示t-1年的生存率,S(t|t-1)表示食管鳞癌患者生存了t-1年又生存t年的条件概率。
CN202011495288.6A 2020-12-17 2020-12-17 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法 Active CN112635056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011495288.6A CN112635056B (zh) 2020-12-17 2020-12-17 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011495288.6A CN112635056B (zh) 2020-12-17 2020-12-17 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法

Publications (2)

Publication Number Publication Date
CN112635056A CN112635056A (zh) 2021-04-09
CN112635056B true CN112635056B (zh) 2022-11-25

Family

ID=75316335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011495288.6A Active CN112635056B (zh) 2020-12-17 2020-12-17 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法

Country Status (1)

Country Link
CN (1) CN112635056B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270188B (zh) * 2021-05-10 2024-07-02 北京市肿瘤防治研究所 食管鳞癌根治术后患者预后预测模型构建方法及装置
CN113517023B (zh) * 2021-05-18 2023-04-25 柳州市人民医院 与性别相关的肝癌预后标志性因素及筛选方法
CN113361822A (zh) * 2021-07-12 2021-09-07 上海交通大学医学院附属第九人民医院 大唾液腺癌患者生存预测系统、方法及终端
CN113707319A (zh) * 2021-08-30 2021-11-26 西安交通大学医学院第一附属医院 一种一氧化碳中毒迟发性脑病预测模型的构建方法
CN114974595A (zh) * 2022-05-13 2022-08-30 江苏省人民医院(南京医科大学第一附属医院) 一种克罗恩病患者黏膜愈合预测模型及方法
CN116030987B (zh) * 2023-02-20 2023-08-04 北京大学第三医院(北京大学第三临床医学院) 系统性硬化病食管动力的评估模型的构建方法
CN117198533A (zh) * 2023-09-11 2023-12-08 徐州医科大学 基于大数据分析的围术期患者麻醉风险评估和预警系统
CN117524486B (zh) * 2024-01-04 2024-04-05 北京市肿瘤防治研究所 用于预测术后患者无进展生存概率的tte模型建立方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374583A1 (en) * 2017-05-16 2018-12-27 Abraxis Bioscience, Llc Nomogram and survival predictions for pancreatic cancer
CN109859801B (zh) * 2019-02-14 2023-09-19 辽宁省肿瘤医院 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
CN109897899B (zh) * 2019-03-01 2023-11-03 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种用于局部晚期食管鳞癌预后判断的标志物及其应用
CN110232975A (zh) * 2019-05-20 2019-09-13 郑州大学第一附属医院 一种对糖尿病肾病患者3年内进入到肾脏替代治疗风险预测的方法
CN110305964B (zh) * 2019-07-26 2023-03-21 安徽医科大学第一附属医院 一种前列腺癌患者预后复发风险预测标志工具及其风险评估模型的建立
CN111383765A (zh) * 2020-03-13 2020-07-07 中国医学科学院肿瘤医院 一种食管鳞癌发病风险信息预测模型、构建方法及应用
CN111883209A (zh) * 2020-07-02 2020-11-03 南京邮电大学 一种筛选乳腺癌肿瘤微环境中免疫浸润相关预后基因的方法
CN112011616B (zh) * 2020-09-02 2022-10-14 上海顿慧医疗科技发展有限公司 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型
CN112017783A (zh) * 2020-09-14 2020-12-01 华中科技大学同济医学院附属协和医院 一种心脏术后肺部感染的预测模型及其构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Predictive Values of Preoperative Index Analysis in Patients with Esophageal Squamous Cell Carcinoma;Zhenzhen Zhang等;《Communications in Computer and Information Science》;20200402;全文 *

Also Published As

Publication number Publication date
CN112635056A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112635056B (zh) 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法
CN109859801B (zh) 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
CN112635063B (zh) 一种肺癌预后综合预测模型、构建方法及装置
CN112259221A (zh) 基于多种机器学习算法的肺癌诊断系统
CN112185549B (zh) 基于临床表型和逻辑回归分析的食管鳞癌风险预测系统
CN113355421B (zh) 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质
CN113851185B (zh) 一种用于非小细胞肺癌患者免疫治疗的预后评估方法
WO2020132544A1 (en) Anomalous fragment detection and classification
CN112530592A (zh) 一种基于机器学习的非小细胞肺癌风险预测方法
CN113270188A (zh) 食管鳞癌根治术后患者预后预测模型构建方法及装置
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
CN110760585B (zh) 前列腺癌生物标志物及其应用
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN115537467A (zh) 基于深度神经网络的卵巢癌生存预后预测分子模型的建立方法及其应用
CN117904289A (zh) 一种单碱基突变的肺癌早筛标志物、试剂盒、检测装置和计算机可读介质
CN116189909B (zh) 基于推举算法的临床医学判别方法及系统
CN114822827B (zh) 一种慢性阻塞性肺疾病急性加重预测系统和预测方法
CN115188475A (zh) 一种狼疮肾炎患者风险预测方法
CN114724706A (zh) 二型糖尿病合并癌症与常规化验指标相关性分析模型
CN114639482A (zh) 基于idpc和lasso的食管鳞癌预后生存风险评估方法
Patel et al. Predicting Mutation Status and Recurrence Free Survival in Non-Small Cell Lung Cancer: A Hierarchical ct Radiomics–Deep Learning Approach
KR102659915B1 (ko) 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용
Cheng An adaptive significance threshold criterion for massive multiple hypotheses testing
CN116287248B (zh) 一种用于肠腺瘤腺癌诊断的miRNA基因及应用
CN116344027B (zh) 基于外周血循环微核糖核酸及蛋白的肠腺瘤腺癌诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant