CN116153495A - 一种食管癌患者免疫治疗预后生存预测方法 - Google Patents

一种食管癌患者免疫治疗预后生存预测方法 Download PDF

Info

Publication number
CN116153495A
CN116153495A CN202211516055.9A CN202211516055A CN116153495A CN 116153495 A CN116153495 A CN 116153495A CN 202211516055 A CN202211516055 A CN 202211516055A CN 116153495 A CN116153495 A CN 116153495A
Authority
CN
China
Prior art keywords
data
prediction
model
training
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211516055.9A
Other languages
English (en)
Inventor
苏毓涵
林勤
陈忠
杨晨
林志阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202211516055.9A priority Critical patent/CN116153495A/zh
Publication of CN116153495A publication Critical patent/CN116153495A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种食管癌患者免疫治疗预后生存预测方法,包括以下步骤:第一步:创建原始数据集,并将数据传输至数据预处理模块,进行下一步处理;第二步:对原始数据进行预处理;第三步:对预处理后的数据分析其的内在结构,找出数据的结构特征信息,并用作训练预测模型的特征数据集;第四步:将步骤三中选择的食管癌患者各个生存指标信息作为训练样本,其余作为测试样本;第五步:采用级联预测模型框架,设置模型参数,接着将训练样本数据分别输入5个学习器当中分别进行特征提取与训练;第六步:获得每个子学习器对应的预测结果;第七步:输出最终预测结果。应用本技术方案可实现有效地预测食管癌患者免疫治疗预后的三年生存状况。

Description

一种食管癌患者免疫治疗预后生存预测方法
技术领域
本发明涉及癌症预后生存预测技术领域,特别是一种食管癌患者免疫治疗预后生存预测方法。
背景技术
近年来,随着智能医疗的发展和现代医学技术的进步,机器学习技术在疾病预测中已有广泛应用。使用机器学习构建预测模型对数据的类型和分布状态要求较低,可以同时处理分类变量和连续变量,结果简单、直观,便于临床诊断与预后分析。但是,基于机器学习和人工智能的食管癌医疗研究还处在初始发展阶段,特别是在食管癌免疫治疗预后生存预测领域。因此,在食管癌智能医疗研究中,还存在着许多亟待解决的问题,面临着诸多挑战。
食管癌病理复杂,其免疫治疗效果不仅需要考虑患者的多项体检指标、血液指标外,还要考虑到其恶性肿瘤病史,是否有局部治疗参与等因素。在实际的随访和记录的过程中,有些数据指标可能会存在记录误差或者删失、数据杂乱和数据量小等问题。因此,如何使用机器学习的智能算法在有限的预后随访数据下挖掘数据的内在规律,智能化地预测食管癌免疫治疗的预后效果是一个亟待解决的问题。
另一方面,真实世界的食管癌免疫治疗预后数据通常的特征规模较大,并且有时候会出现类别不平衡的情况。然而,在构建预测模型的时候巨大的特征维数,以及不平衡的类别数据都会严重影响模型的性能和复杂度。因此,建立适用于食管癌免疫治疗预后数据的大规模多目标进化特征提取方法,解决不平衡数据下,既要满足分类效果,又要尽可能降低特征数目的问题,是一个重要的研究方向。
发明内容
有鉴于此,本发明的目的在于提供一种食管癌患者免疫治疗预后生存预测方法,可以有效地预测食管癌患者免疫治疗预后的三年生存状况。
为实现上述目的,本发明采用如下技术方案:一种食管癌患者免疫治疗预后生存预测方法,包括以下步骤:
步骤1:收集食管癌患者的基本信息、疾病信息以及免疫治疗预后随访信息,作为原始数据集,并将数据传输至数据预处理模块,进行下一步处理;
步骤2:对原始数据进行预处理,通过初步加工、处理和过滤,清除无法直接利用的指标,同时根据各个指标的缺失率进行数据删除与补齐,并且将各个指标进行归一化处理,以消除不同指标间不同维度造成的信息不一致,接着将预处理后的数据传输至特征分析和选择模块,进行下一步处理;
步骤3:对预处理后的数据分析其的内在结构,找出数据的结构特征信息,并对数据的特征信息进一步的可视化分析,获得这些特征之间的相关性;根据特征相关性的结果,首先筛选出相关性较高的特征指标,然后筛选出与预后生存显著相关并且有预测价值的特征指标,最后基于所筛选出来的两组特征指标与特征相关性的结果进行特征选择,从中筛选出与生存状态最相关的若干个指标,确定为最终的指标体系,并用作训练预测模型的特征数据集;
步骤4:将步骤三中选择的食管癌患者各个生存指标信息作为训练样本,三年生存状态信息作为标签,输入训练模型进行训练,其中将原始数据的70%作为训练样本,其余作为测试样本;
步骤5:采用级联预测模型框架,将极度随机分类算法Exra Trees Classifier、自适应提升算法Ada Boost、支持向量机Support Vector Machine、随机森林算法RandomForest和梯度提升决策树Gradient Boosting Decision Tree5个学习器并联,组成子学习器,并且设置模型参数,接着将训练样本数据分别输入5个学习器当中分别进行特征提取与训练;
步骤6:获得每个子学习器对应的预测结果,并将五个子学习器输出的预测结果与原始数据的标签输入主学习器进行进一步训练预测,XGBoost模型作为主学习器;
步骤7:输出最终预测结果,使用测试样本数据对预测模型进行评估。
在一较佳的实施例中,步骤1中,收集接受免疫治疗的食管癌患者的一般情况信息、疾病情况信息、血液指标信息、免疫治疗情况信息和预后随访情况信息,作为原始数据集;原始数据集为92组数据;患者的基本信息包括患者的年龄、性别、五年内其他恶性肿瘤病史;所述疾病信息包括为ECOG评分、原发灶部位、疾病分期、是否寡转移、治疗前饮食、是否支持治疗;患者的血液指标信息包括:基线白细胞计数、基线中性粒细胞计数、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白、基线LDH;免疫治疗情况信息分别为免疫药物、免疫治疗周期数、免疫延迟情况、是否有局部治疗参与、局部治疗范围、局部治疗时间、治疗过程中的血液指标信息;预后随访情况信息包括是否出现疾病进展和患者的三年生存状态。
在一较佳的实施例中,步骤2中,首先将具有缺失值的指标进行预处理,具体如下:(1)从原始数据集中移除缺失率大于50%的指标变量;(2)对于缺失率小于50%的指标变量,使用平均值估算法对缺失数据进行补齐;其次,在构建预测模型之前对指标变量进行归一化,使用最大值最小值归一化方法,具体而言,对于第n组样本的第z个指标变量xn(z),根据以下公式进行处理:
Figure SMS_1
其中,x′n(z)表示归一化处理后的第n组样本的第z个指标变量。
在一较佳的实施例中,步骤3中,进行特征分析,根据已处理后的数据中的特征指标,分析各个指标之间的相关性,分别计算特征之间的相关系数,相关系数用来衡量定距变量间的线性关系;相关系数小于0.5;
进行特征选择,指的是从采集到的高维数据特征中选择最优的特征集合;使用SelectKBest特征分析法分析食管癌患者的一般情况信息、疾病情况信息、血液指标信息与预后随访情况信息中的三年生存情况的相关性,确定指标是否与生存显著相关,得到各个指标与生存状态相关性的结果,度量各个指标的重要性程度,对其进行特征选择;通过特征选择最终保留特征重要性前10的特征指标,其中包括年龄、性别、ECOG评分、疾病分期、治疗前饮食、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白及基线LDH。
在一较佳的实施例中,构建预测模型包括如下步骤:
步骤S1:获得与食管癌患者生存显著相关的10个指标;将这10个指标确定为最终的指标体系,并用作训练预测模型的特征数据集;
步骤S2:将特征数据集中随机选取的70%作为训练集对模型进行训练,原始数据集另外的30%作为测试集对模型性能进行测试;首先选取5个机器学习算法作为子学习器,分别为极度随机分类算法Exra Trees C l ass i f i er、自适应提升算法Ada Boost、支持向量机Support Vector Mach i ne、随机森林算法Random Forest和梯度提升决策树Grad i ent Boost i ng Deci s ion Tree,其中支持向量机Support Vector Machine属于线性分类算法,其他4个属于基于决策树的分类算法,这些算法使用相同的训练数据集进行训练;接着对训练模型的参数进行设置,提取4个基于决策树的分类算法对应的模型特征重要性;将每个5个预测模型的预测结果作为新的特征子集输入至主学习器,训练一个新的预测模型,该预测模型融合5个子学习器的特征重要性;
步骤S3:将5个子学习器的预测结果输入至主学习器中使用级联的方式进行级联预测,级联预测的主要思想是将多个子学习器输出的预测结构作为主学习器的特征子集,与原始数据的标签数据进行二次训练;使用XGBoost模型作为主学习器;XGBoost模型的核心思想就是将许多基分类器集成在一起形成一个强分类器;由于XGBoost模型是一种提升树模型,所以它将每个基分类器构建成树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差;当我们训练完成得到K棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值;具体方法为:
将每个子学习模型的预测结果与原始数据的标签作为XGBoost模型的输入训练样本,训练最终的预测模型;假设输入N组数据,数据集合为D={(xn,yn)},其中|D|=N,xn表示第n组训练样本的特征子集,yn表示第n组数据的标签,最终预测函数如下:
Figure SMS_2
其中,fk(xn)表示第k个基分类器对特征样本xn的预测模型,FK-1(xn)为训练完已经固定的前K-1个基模型,FK(xn)表示XGBoost模型对样本xn集成K个基分类器预测结果训练的最终预测值;
XGBoost模型的目标函数由两部分构成,一部分为损失函数,用来衡量预测分数和真实分数的差距,另一部分为正则化惩罚项,这样做的目的一定程度上防止过拟合,具体目标函数为:
Figure SMS_3
Figure SMS_4
其中,l[.]是对单个样本的损失函数,用来度量一次预测的性能;假设它为凸函数,Ω(·)为正则项;C为常数;正则化项定义模型的复杂程度,由如下公式所示:
Figure SMS_5
其中,J为基分类器fk的节点个数,ωj为节点j的节点权重;γ和λ为惩罚系数;
将目标函数在FK-1(xn)处进行二阶泰勒公式展开,得到如下函数:
Figure SMS_6
其中,gn和hn分别为损失函数在FK-1(xn)处的一阶和二阶导数,表示如下:
Figure SMS_7
由于前K-1个子模型已经确定,因此在式(6)中除了与fK(xn)相关的项均为常数,不影响最终的优化求解;故将常数项去掉,则目标函数转化为:
Figure SMS_8
由式(8)推出,在FK-1(xn)确定的情况下,对每个样本n都计算出一个gn和hn
将正则化项式(5)代入式(6),得到如下公式:
Figure SMS_9
将所有同一个节点上的样本重组,得到如下公式:
Figure SMS_10
其中Nj={xn|q(xn)=j}表示节点j上的样本集,q(xn)为将样本映射到节点上的索引函数,ωj=fK(xn)(n∈Nj)为节点j上的回归值;
Figure SMS_11
将目标函数改写成关于节点分数ωj的一个一元二次函数,为了使目标函数最小,令其导数为0,解得每个节点的最优预测分数为:
Figure SMS_12
将式(11)带入目标函数,得到最小损失为:
Figure SMS_13
XGBoost模型使用如下公式来评测节点分裂的优劣:
Figure SMS_14
其中,GL,HL,GR,HR表示分裂后不同子树的相应分数;结构评分Gain
表示就是分裂前的损失与分裂后的损失的差值,差值越大,表明分裂后损失越小,目标函数值越低,即效果越好;
步骤S4:训练结束,获得最终预测模型;
步骤S5:使用测试数据集对预测模型进行测试评估。
与现有技术相比,本发明具有以下有益效果:该方法首先针对真实世界数据分析各个指标对食管癌患者免疫治疗预后生存的影响,获取多个与预后生存显著相关并且有预测价值的指标;接着基于若干个预后生存高度相关的指标使用级联预测模型构建食管癌患者免疫治疗预后生存预测模型;最后使用测试数据对食管癌患者的免疫治疗预后三年生存状态预测模型进行评估。该模型可以有效地预测食管癌患者免疫治疗预后的三年生存状况
附图说明
图1为本发明优选实施例的预测方法的具体流程图;
图2为本发明优选实施例的特征之间的热力图;
图3为本发明优选实施例的特征指标的重要性图;
图4为本发明优选实施例的模型特征重要性图(一);
图5为本发明优选实施例的模型特征重要性图(二);
图6为本发明优选实施例的模型特征重要性图(三);
图7为本发明优选实施例的模型特征重要性图(四)。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
一种食管癌患者免疫治疗预后生存预测方法,流程如图1所示。该方法是一种结合多种机器学习技术的学习框架,从高维食管癌免疫治疗真实世界数据中筛选重要信息,从小样本数据中挖掘预后生存信息,对食管癌免疫治疗预后生存状态进行有效预测。
具体方法是:
步骤1:收集食管癌患者的一般情况(年龄、性别等)、疾病情况(基线)以及免疫治疗预后随访信息,作为原始数据集,并将数据传输至数据预处理模块,进行下一步处理;
步骤2:对原始数据进行预处理,通过初步加工、处理和过滤,清除一些无法直接利用的一些指标,同时根据各个指标的缺失率进行数据删除与补齐,并且将各个指标进行归一化处理,以消除不同指标间不同维度造成的信息不一致,接着将预处理后的数据传输至特征分析和选择模块,进行下一步处理;
步骤3:对预处理后的数据分析其的内在结构,找出数据的结构特征信息,并对数据的特征信息进一步的可视化分析,获得这些特征之间的相关性;根据特征相关性的结果,首先筛选出相关性较高的特征指标,然后筛选出与预后生存显著相关并且有预测价值的特征指标,最后基于所筛选出来的两组特征指标与特征相关性的结果进行特征选择,从中筛选出与生存状态最相关的若干个指标,确定为最终的指标体系,并用作训练预测模型的特征数据集;
步骤4:将步骤三中选择的食管癌患者各个生存指标信息作为训练样本,三年生存状态信息作为标签,输入训练模型进行训练,其中将原始数据的70%作为训练样本,其余作为测试样本;
步骤5:采用级联预测模型框架,将极度随机分类算法(Exra Trees Classifier)、自适应提升算法(Ada Boost)、支持向量机(Support Vector Machine,SVM)、随机森林算法(Random Forest)和梯度提升决策树(Gradient Boosting Decision Tree,GBDT)5个学习器并联,组成子学习器,并且设置模型参数,接着将训练样本数据分别输入5个学习器当中分别进行特征提取与训练;
步骤6:获得每个子学习器对应的预测结果,并将五个子学习器输出的预测结果与原始数据的标签输入主学习器进行进一步训练预测,本发明XGBoost模型作为主学习器;
步骤7:输出最终预测结果,使用测试样本数据对预测模型进行评估。
具体包括如下步骤:
步骤1中,收集接受免疫治疗的食管癌患者的一般情况信息、疾病情况信息、血液指标信息、免疫治疗情况信息和预后随访情况信息,作为原始数据集;原始数据集为92组数据;所述一般情况信息分别为患者的年龄、性别、五年内其他恶性肿瘤病史;所述疾病情况信息分别为ECOG评分、原发灶部位、疾病分期、是否寡转移、治疗前饮食、是否支持治疗;患者的血液指标信息信息包括:基线白细胞计数、基线中性粒细胞计数、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白、基线LDH;免疫治疗情况信息分别为免疫药物、免疫治疗周期数、免疫延迟情况、是否有局部治疗参与、局部治疗范围、局部治疗时间、治疗过程中的血液指标信息;预后随访情况信息包括是否出现疾病进展和患者的三年生存状态。
步骤2中,进行数据预处理,数据预处理是数据挖掘中的重要一步,因为只有高质量的数据才能组装成高质量的数据集。在本发明中,我们首先将具有缺失值的指标进行预处理,具体如下:(1)从原始数据集中移除缺失率大于50%的指标变量;(2)对于缺失率小于50%的指标变量,使用平均值估算法对缺失数据进行补齐。其次,为了消除不同维度的指标变量造成的信息不一致,需要在构建预测模型之前对指标变量进行归一化,本发明使用最大值最小值归一化方法,具体而言,对于第n组样本的第z个指标变量xn(z),根据以下公式进行处理:
Figure SMS_15
其中,x′n(z)表示归一化处理后的第n组样本的第z个指标变量。
步骤3中,进行特征分析,根据已处理后的数据中的特征指标,分析各个指标之间的相关性,分别计算特征之间的Pearson相关系数(Pearson Correlation Coefficient),该系数是用来衡量定距变量间的线性关系。用相关系数热力图直观表现不同特征之间的关系,如图2所示,热力图中颜色极深或极浅表示变量之间相关性很高。由热力图可以得出大部分变量的相关系数都小于0.5,且大部分相关系数小于0.3。由于变量之间的相关系数都不大,可以不考虑它们之间的共线性问题。
步骤3中,进行特征选择,该步骤指的是从采集到的高维数据特征中选择最优的特征集合,从而降低模型复杂度,提高模型准确率。特征选择方法主要分为两种:过滤式和封装式。过滤式特征选择方法按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征,其具有高效率的特点。封装式特征选择方法是在特征空间内进行搜索寻优,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。本发明使用过滤式特征选择方法。具体而言,由于本发明是对食管癌免疫治疗预后的生存状态进行预测,因此,对于每个指标,本发明使用SelectKBest特征分析法分析食管癌患者的一般情况信息、疾病情况信息、血液指标信息与预后随访情况信息中的三年生存情况的相关性,确定指标是否与生存显著相关,得到各个指标与生存状态相关性的结果,度量各个指标的重要性程度,对其进行特征选择,结果如图3所示。通过特征选择最终保留特征重要性前10的特征指标,其中包括年龄、性别、ECOG评分、疾病分期、治疗前饮食、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白、基线LDH。
构建预测模型包括如下步骤:
步骤S1:本发明获得了与食管癌患者生存显著相关的10个指标。将这10个指标确定为最终的指标体系,并用作训练预测模型的特征数据集。
步骤S2:将特征数据集中随机选取的70%作为训练集对模型进行训练,原始数据集另外的30%作为测试集对模型性能进行测试。首先选取了5个较为常用的机器学习算法作为子学习器,分别为Exra Trees Classifier、AdaBoost、SVM、Random Forest和GBDT,其中SVM属于线性分类算法,其他4个属于基于决策树的分类算法,这些算法使用相同的训练数据集进行训练。接着对训练模型的参数进行设置,可以提取4个基于决策树的分类算法对应的模型特征重要性,如图4-7所示。特征重要性在预测建模中起着非常重要作用,能够提供对数据、模型的见解,和如何进行降维和选择特征,并以此来提高预测模型的的效率和有效性。可以看出不同的算法对应的训练模型有着不同的特征重要性,因此本发明将每个5个预测模型的预测结果作为新的特征子集输入至主学习器,训练一个新的预测模型,该模型融合了5个子学习器的特征重要性,进一步强化了预测结果。
步骤S3:将5个子学习器的预测结果输入至主学习器中使用级联的方式进行级联预测,级联预测的主要思想是将多个子学习器输出的预测结构作为主学习器的特征子集,与原始数据的标签数据进行二次训练,从而提高模型的的准确性。本发明使用,本发明使用XGBoost模型作为主学习器,它是一个分布式梯度提升的开源框架,其并行计算效率、缺失值处理、预测性能上都非常强大,旨在有效地降低模型的误差。该模型的核心思想就是将许多基分类器集成在一起形成一个强分类器。由于XGBoost模型是一种提升树模型,所以它将每个基分类器构建成树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到K棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。具体方法为:
将每个子学习模型的预测结果与原始数据的标签作为XGBoost模型的输入训练样本,训练最终的预测模型。假设输入了N组数据,数据集合为D={(xn,yn)},其中|D|=N,xn表示第n组训练样本的特征子集,yn表示第n组数据的标签,最终预测函数如下:
Figure SMS_16
其中,fk(xn)表示第k个基分类器对特征样本xn的预测模型,FK-1(xn)为训练完已经固定了的前K-1个基模型,FK(xn)表示XGBoost模型对样本xn集成K个基分类器预测结果训练的最终预测值。
XGBoost模型的目标函数由两部分构成,一部分为损失函数,用来衡量预测分数和真实分数的差距,另一部分为正则化惩罚项,这样做的目的一定程度上防止了过拟合,具体目标函数为:
Figure SMS_17
Figure SMS_18
其中,l[.]是对单个样本的损失函数,用来度量一次预测的性能。假设它为凸函数,Ω(·)为正则项;C为常数。正则化项定义了模型的复杂程度,由如下公式所示:
Figure SMS_19
其中,J为基分类器fk的节点个数,ωj为节点j的节点权重;γ和λ为惩罚系数。这样,随着基分类器的复杂度增大,对应的目标函数也就变大,这样就有效防止了过拟合。
将目标函数在FK-1(xn)处进行二阶泰勒公式展开,可以得到如下函数:
Figure SMS_20
其中,gn和hn分别为损失函数在FK-1(xn)处的一阶和二阶导数,表示如下:
Figure SMS_21
由于前K-1个子模型已经确定了,因此在式(6)中除了与fK(xn)相关的项均为常数,不影响最终的优化求解。故可将常数项去掉,则目标函数可转化为:
Figure SMS_22
由式(8)可以推出,在FK-1(xn)确定了的情况下,对每个样本n都可以轻易计算出一个gn和hn
将正则化项式(5)代入式(6),可得到如下公式:
Figure SMS_23
将所有同一个节点上的样本重组,可得到如下公式:
Figure SMS_24
其中Nj={xn|q(xn)=j}表示节点j上的样本集,q(xn)为将样本映射到节点上的索引函数,ωj=fK(xn)(n∈Nj)为节点j上的回归值。
Figure SMS_25
可以将目标函数改写成关于节点分数ωj的一个一元二次函数,为了使目标函数最小,可以令其导数为0,解得每个节点的最优预测分数为:
Figure SMS_26
/>
将式(11)带入目标函数,得到最小损失为:
Figure SMS_27
XGBoost模型使用如下公式来评测节点分裂的优劣:
Figure SMS_28
其中,GL,HL,GR,HR表示分裂后不同子树的相应分数。结构评分Gain表示就是分裂前的损失与分裂后的损失的差值,差值越大,表明分裂后的损失越小,目标函数值越低,即效果越好。
步骤S4:训练结束,获得最终预测模型。
步骤S5:使用测试数据集对预测模型进行测试评估。

Claims (5)

1.一种食管癌患者免疫治疗预后生存预测方法,其特征在于,包括以下步骤:
步骤1:收集食管癌患者的基本信息、疾病信息以及免疫治疗预后随访信息,作为原始数据集,并将数据传输至数据预处理模块,进行下一步处理:
步骤2:对原始数据进行预处理,通过初步加工、处理和过滤,清除无法直接利用的指标,同时根据各个指标的缺失率进行数据删除与补齐,并且将各个指标进行归一化处理,以消除不同指标间不同维度造成的信息不一致,接着将预处理后的数据传输至特征分析和选择模块,进行下一步处理;
步骤3:对预处理后的数据分析其的内在结构,找出数据的结构特征信息,并对数据的特征信息进一步的可视化分析,获得这些特征之间的相关性;根据特征相关性的结果,首先筛选出相关性较高的特征指标,然后筛选出与预后生存显著相关并且有预测价值的特征指标,最后基于所筛选出来的两组特征指标与特征相关性的结果进行特征选择,从中筛选出与生存状态最相关的若干个指标,确定为最终的指标体系,并用作训练预测模型的特征数据集;
步骤4:将步骤三中选择的食管癌患者各个生存指标信息作为训练样本,三年生存状态信息作为标签,输入训练模型进行训练,其中将原始数据的70%作为训练样本,其余作为测试样本;
步骤5:采用级联预测模型框架,将极度随机分类算法Exra Trees Classifier、自适应提升算法Ada Boost、支持向量机Support Vector Machine、随机森林算法Random Forest和梯度提升决策树Gradient Boosting Decision Tree5个学习器并联,组成子学习器,并且设置模型参数,接着将训练样本数据分别输入5个学习器当中分别进行特征提取与训练;
步骤6:获得每个子学习器对应的预测结果,并将五个子学习器输出的预测结果与原始数据的标签输入主学习器进行进一步训练预测,XGBoost模型作为主学习器;
步骤7:输出最终预测结果,使用测试样本数据对预测模型进行评估。
2.根据权利要求1所述的一种食管癌患者免疫治疗预后生存预测方法,其特征在于,步骤1中,收集接受免疫治疗的食管癌患者的一般情况信息、疾病情况信息、血液指标信息、免疫治疗情况信息和预后随访情况信息,作为原始数据集;原始数据集为92组数据;患者的基本信息包括患者的年龄、性别、五年内其他恶性肿瘤病史;所述疾病信息包括为ECOG评分、原发灶部位、疾病分期、是否寡转移、治疗前饮食、是否支持治疗;患者的血液指标信息包括:基线白细胞计数、基线中性粒细胞计数、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白、基线LDH;免疫治疗情况信息分别为免疫药物、免疫治疗周期数、免疫延迟情况、是否有局部治疗参与、局部治疗范围、局部治疗时间、治疗过程中的血液指标信息;预后随访情况信息包括是否出现疾病进展和患者的三年生存状态。
3.根据权利要求1所述的一种食管癌患者免疫治疗预后生存预测方法,其特征在于,步骤2中,首先将具有缺失值的指标进行预处理,具体如下:(1)从原始数据集中移除缺失率大于50%的指标变量;(2)对于缺失率小于50%的指标变量,使用平均值估算法对缺失数据进行补齐;其次,在构建预测模型之前对指标变量进行归一化,使用最大值最小值归一化方法,具体而言,对于第n组样本的第z个指标变量xn(z),根据以下公式进行处理:
Figure FDA0003971010760000031
其中,x′n(z)表示归一化处理后的第n组样本的第z个指标变量。
4.根据权利要求1所述的一种食管癌患者免疫治疗预后生存预测方法,其特征在于,步骤3中,进行特征分析,根据已处理后的数据中的特征指标,分析各个指标之间的相关性,分别计算特征之间的相关系数,相关系数用来衡量定距变量间的线性关系;相关系数小于0.5;
进行特征选择,指的是从采集到的高维数据特征中选择最优的特征集合;使用SelectKBest特征分析法分析食管癌患者的一般情况信息、疾病情况信息、血液指标信息与预后随访情况信息中的三年生存情况的相关性,确定指标是否与生存显著相关,得到各个指标与生存状态相关性的结果,度量各个指标的重要性程度,对其进行特征选择;通过特征选择最终保留特征重要性前10的特征指标,其中包括年龄、性别、ECOG评分、疾病分期、治疗前饮食、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白及基线LDH。
5.根据权利要求1所述的一种食管癌患者免疫治疗预后生存预测方法,其特征在于,构建预测模型包括如下步骤:
步骤S1:获得与食管癌患者生存显著相关的10个指标;将这10个指标确定为最终的指标体系,并用作训练预测模型的特征数据集;
步骤S2:将特征数据集中随机选取的70%作为训练集对模型进行训练,原始数据集另外的30%作为测试集对模型性能进行测试;首先选取5个机器学习算法作为子学习器,分别为极度随机分类算法Exra Trees Classifier、自适应提升算法Ada Boost、支持向量机Support Vector Machine、随机森林算法Random Forest和梯度提升决策树GradientBoosting Decision Tree,其中支持向量机Support Vector Machine属于线性分类算法,其他4个属于基于决策树的分类算法,这些算法使用相同的训练数据集进行训练;接着对训练模型的参数进行设置,提取4个基于决策树的分类算法对应的模型特征重要性;将每个5个预测模型的预测结果作为新的特征子集输入至主学习器,训练一个新的预测模型,该预测模型融合5个子学习器的特征重要性;
步骤S3:将5个子学习器的预测结果输入至主学习器中使用级联的方式进行级联预测,级联预测的主要思想是将多个子学习器输出的预测结构作为主学习器的特征子集,与原始数据的标签数据进行二次训练;使用XGBoost模型作为主学习器;XGBoost模型的核心思想就是将许多基分类器集成在一起形成一个强分类器;由于XGBoost模型是一种提升树模型,所以它将每个基分类器构建成树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差;当我们训练完成得到K棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值;具体方法为:
将每个子学习模型的预测结果与原始数据的标签作为XGBoost模型的输入训练样本,训练最终的预测模型;假设输入N组数据,数据集合为D={(xn,yn)},其中|D|=N,xn表示第n组训练样本的特征子集,yn表示第n组数据的标签,最终预测函数如下:
Figure FDA0003971010760000051
其中,fk(xn)表示第k个基分类器对特征样本xn的预测模型,FK-1(xn)为训练完已经固定的前K-1个基模型,FK(xn)表示XGBoost模型对样本xn集成K个基分类器预测结果训练的最终预测值;
XGBoost模型的目标函数由两部分构成,一部分为损失函数,用来衡量预测分数和真实分数的差距,另一部分为正则化惩罚项,这样做的目的一定程度上防止过拟合,具体目标函数为:
Figure FDA0003971010760000052
Figure FDA0003971010760000053
其中,l[.]是对单个样本的损失函数,用来度量一次预测的性能;假设它为凸函数,Ω(·)为正则项;C为常数;正则化项定义模型的复杂程度,由如下公式所示:
Figure FDA0003971010760000054
其中,J为基分类器fk的节点个数,ωj为节点j的节点权重;γ和λ为惩罚系数;
将目标函数在FK-1(xn)处进行二阶泰勒公式展开,得到如下函数:
Figure FDA0003971010760000055
其中,gn和hn分别为损失函数在FK-1(xn)处的一阶和二阶导数,表示如下:
Figure FDA0003971010760000061
由于前K-1个子模型已经确定,因此在式(6)中除了与fK(xn)相关的项均为常数,不影响最终的优化求解;故将常数项去掉,则目标函数转化为:
Figure FDA0003971010760000062
由式(8)推出,在FK-1(xn)确定的情况下,对每个样本n都计算出一个gn和hn
将正则化项式(5)代入式(6),得到如下公式:
Figure FDA0003971010760000063
将所有同一个节点上的样本重组,得到如下公式:
Figure FDA0003971010760000064
其中Nj={xn|q(xn)=j}表示节点j上的样本集,q(xn)为将样本映射到节点上的索引函数,ωj=fK(xn) (n∈Nj)为节点j上的回归值;
Figure FDA0003971010760000065
将目标函数改写成关于节点分数ωj的一个一元二次函数,为了使目标函数最小,令其导数为0,解得每个节点的最优预测分数为:
Figure FDA0003971010760000066
将式(11)带入目标函数,得到最小损失为:
Figure FDA0003971010760000067
XGBoost模型使用如下公式来评测节点分裂的优劣:
Figure FDA0003971010760000071
其中,GL,HK,GR,HR表示分裂后不同子树的相应分数;结构评分Gain表示就是分裂前的损失与分裂后的损失的差值,差值越大,表明分裂后的损失越小,目标函数值越低,即效果越好;
步骤S4:训练结束,获得最终预测模型;
步骤S5:使用测试数据集对预测模型进行测试评估。
CN202211516055.9A 2022-11-29 2022-11-29 一种食管癌患者免疫治疗预后生存预测方法 Pending CN116153495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211516055.9A CN116153495A (zh) 2022-11-29 2022-11-29 一种食管癌患者免疫治疗预后生存预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211516055.9A CN116153495A (zh) 2022-11-29 2022-11-29 一种食管癌患者免疫治疗预后生存预测方法

Publications (1)

Publication Number Publication Date
CN116153495A true CN116153495A (zh) 2023-05-23

Family

ID=86353346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211516055.9A Pending CN116153495A (zh) 2022-11-29 2022-11-29 一种食管癌患者免疫治疗预后生存预测方法

Country Status (1)

Country Link
CN (1) CN116153495A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564524A (zh) * 2023-06-30 2023-08-08 之江实验室 一种伪标签演变趋势正则的预后预测装置
CN116798646A (zh) * 2023-08-17 2023-09-22 四川互慧软件有限公司 基于聚类算法的蛇伤预后预测方法、装置及电子设备
CN116881725A (zh) * 2023-09-07 2023-10-13 之江实验室 一种癌症预后预测模型训练装置、介质及电子设备
CN117373688A (zh) * 2023-11-07 2024-01-09 爱奥乐医疗器械(深圳)有限公司 慢性病数据处理方法、装置、电子设备和存储介质
CN117894468A (zh) * 2024-03-18 2024-04-16 天津市肿瘤医院(天津医科大学肿瘤医院) 基于人工智能的乳腺癌复发风险预测系统
CN117373688B (zh) * 2023-11-07 2024-06-04 爱奥乐医疗器械(深圳)有限公司 慢性病数据处理方法、装置、电子设备和存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564524A (zh) * 2023-06-30 2023-08-08 之江实验室 一种伪标签演变趋势正则的预后预测装置
CN116564524B (zh) * 2023-06-30 2023-10-03 之江实验室 一种伪标签演变趋势正则的预后预测装置
CN116798646A (zh) * 2023-08-17 2023-09-22 四川互慧软件有限公司 基于聚类算法的蛇伤预后预测方法、装置及电子设备
CN116798646B (zh) * 2023-08-17 2023-11-24 四川互慧软件有限公司 基于聚类算法的蛇伤预后预测方法、装置及电子设备
CN116881725A (zh) * 2023-09-07 2023-10-13 之江实验室 一种癌症预后预测模型训练装置、介质及电子设备
CN116881725B (zh) * 2023-09-07 2024-01-09 之江实验室 一种癌症预后预测模型训练装置、介质及电子设备
CN117373688A (zh) * 2023-11-07 2024-01-09 爱奥乐医疗器械(深圳)有限公司 慢性病数据处理方法、装置、电子设备和存储介质
CN117373688B (zh) * 2023-11-07 2024-06-04 爱奥乐医疗器械(深圳)有限公司 慢性病数据处理方法、装置、电子设备和存储介质
CN117894468A (zh) * 2024-03-18 2024-04-16 天津市肿瘤医院(天津医科大学肿瘤医院) 基于人工智能的乳腺癌复发风险预测系统

Similar Documents

Publication Publication Date Title
CN116153495A (zh) 一种食管癌患者免疫治疗预后生存预测方法
WO2022062419A1 (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN111105877A (zh) 基于深度置信网络的慢性病精确干预方法及系统
CN113871009A (zh) 一种重症监护病房中脓毒症预测系统、存储介质及设备
CN114757432A (zh) 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统
CN110827922A (zh) 基于循环神经网络的羊水蛋白质的预测方法
CN116805533A (zh) 一种基于数据收集与模拟的脑出血手术风险预测系统
CN115474939A (zh) 一种基于深度展开神经网络的孤独症谱系障碍识别模型
CN113705715B (zh) 一种基于lstm和多尺度fcn的时间序列分类方法
CN114580501A (zh) 骨髓细胞分类方法、系统、计算机设备及存储介质
CN116644378A (zh) 一种基于双层嵌套lstm的超长多维时间序列分类方法
CN116130105A (zh) 一种基于神经网络的健康风险预测方法
Singh et al. Apple Disease Classification Built on Deep Learning
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
Kotiyal et al. Diabetic Retinopathy Binary Image Classification Using Pyspark
CN109934352A (zh) 智能模型的自动进化方法
Begum et al. Diagnosis of leaf disease using enhanced convolutional neural network
CN115062969A (zh) 一种食品安全风险的预警方法
Rana et al. Comparative Study of Supervised Machine Learning Methods for Prediction of Heart Disease
CN114692773A (zh) 基于drs-vgg的端到端深度学习拉曼光谱数据分类方法
Satpute et al. Machine learning techniques for bioinformatics and computational biology—a survey
Song et al. A Hybrid CNN-LSTM Model for Video-Based Teaching Style Evaluation
Usha et al. Feature Selection Techniques in Learning Algorithms to Predict Truthful Data
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
KR102636461B1 (ko) 인공지능 모델 학습을 위한 오토 레이블링 자동화 방법, 장치 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination