CN112992346B - 重症脊髓损伤预后的预测模型的建立方法 - Google Patents

重症脊髓损伤预后的预测模型的建立方法 Download PDF

Info

Publication number
CN112992346B
CN112992346B CN202110384018.6A CN202110384018A CN112992346B CN 112992346 B CN112992346 B CN 112992346B CN 202110384018 A CN202110384018 A CN 202110384018A CN 112992346 B CN112992346 B CN 112992346B
Authority
CN
China
Prior art keywords
algorithm
feature selection
machine learning
data set
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110384018.6A
Other languages
English (en)
Other versions
CN112992346A (zh
Inventor
范国鑫
刘华清
戎利民
庞卯
刘斌
张良明
黄桂芳
韩蓝青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute Of Tsinghua Pearl River Delta
Third Affiliated Hospital Sun Yat Sen University
Original Assignee
Research Institute Of Tsinghua Pearl River Delta
Third Affiliated Hospital Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute Of Tsinghua Pearl River Delta, Third Affiliated Hospital Sun Yat Sen University filed Critical Research Institute Of Tsinghua Pearl River Delta
Priority to CN202110384018.6A priority Critical patent/CN112992346B/zh
Publication of CN112992346A publication Critical patent/CN112992346A/zh
Application granted granted Critical
Publication of CN112992346B publication Critical patent/CN112992346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了重症脊髓损伤预后的预测模型的建立方法,其特征在于包括下列步骤:提取诊断为脊髓损伤患者病例的临床数据,1)纳入以下临床特征;2)预处理临床特征:根据临床特征的类型,通过不同的填补方法处理缺失的数据;3)纳入特征选择方法*机器学习分类算法的算法组合:所述特征选择方法用于筛选具有显著预测价值的临床特征,将选定的临床特征用于训练机器学习分类算法;4)从步骤3)中的算法组合在训练数据集的预测表现,选出micro平均曲线下面积AUC最大的算法组合,利用堆叠法集成所述算法组合,得到预测模型。本发明用于预测重症脊髓损伤患者预后具有准确客观性能。

Description

重症脊髓损伤预后的预测模型的建立方法
技术领域
本发明涉及重症脊髓损伤预后的预测模型的建立方法。
背景技术
脊髓损伤患者常常因为重大创伤或者严重并发症住进重症监护室(ICU),因此其预后是临床医生和患者家属非常关心的问题。然而,如何准确预测重症脊髓损伤的预后是个临床难题。临床上,医生常常根据经验来判断患者的预后以制定诊治方案。然而,在与患者家属交代患者病情时常常不能给出一个客观可量化的预后判断概率。因此,需要一种准确客观的预测重症脊髓损伤患者预后的系统以辅助临床医生,而这种预测重症脊髓损伤患者预后的系统如何建立预测模型是核心技术。
发明内容
为了克服现有技术的缺陷,本发明的目的是提供一种重症脊髓损伤预后的预测模型的建立方法,用于预测重症脊髓损伤患者预后的系统中,具有准确客观性能,且可以一次性展示105个模型的预测准确性。
本发明通过以下技术路线来实现:
一种重症脊髓损伤预后的预测模型的建立方法,其特征在于包括下列步骤:提取诊断为脊髓损伤患者病例的临床数据,
1)纳入以下临床特征:人口统计信息包括种族、性别、年龄、体重指数、入院类型、ICU类型、入院来源、ICU时长、出ICU后住院时长等;生命体征包括呼吸频率、心率、收缩压和舒张压、平均动脉压;实验室数据包括白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧浓度分数FiO2、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖等;药物的使用和治疗情况包括机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素;
2)预处理临床特征:根据临床特征的类型,通过不同的填补方法处理缺失的数据,连续变量特征运用预测均值匹配方法填补,二元变量特征运用逻辑回归方法填补,多分类变量特征运用多项式回归方法填补,在步骤1)中缺失病例占总病例比重大于等于50%的临床特征,直接删除该临床特征,包括红细胞分布宽度RDW、氧分压PaO2,缺失病例数占总病例数比重大于0且小于50%的特征有种族、红细胞平均体积MCV、乳酸盐、硫酸吗啡,所述年龄、体重指数、白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖、呼吸频率、心率、收缩压、舒张压、平均动脉压、ICU时长、出ICU后住院时长、氧浓度分数FiO2、是连续变量特征,所述机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素是二元变量特征,所述种族、性别、ICU类型、入院来源等多分类变量特征转化为虚拟变量的形式;最终获得不同的特征,并按照合理的比例,随机划分为训练数据集验证数据集、和测试数据集;
3)纳入特征选择方法*机器学习分类算法的数量个算法组合:所述特征选择方法用于筛选具有显著预测价值的临床特征,将选定的临床特征用于训练机器学习分类算法,所述特征选择方法包括最大互信息系数MIC、随机森林RF、递归特征消除REF、嵌入线性支持向量分类器即嵌入LSVC、嵌入逻辑回归器即嵌入LR、嵌入树和最小冗余-最大相关度mRMR,所述机器学习分类算法包括逻辑回归、线性判别分析LDA、支持向量机SVM、K最近邻KNN、高斯朴素贝叶斯NB、决策树、额外决策树、随机森林、装袋算法Bagging、自适应增强AdaBoost、梯度提升决策树GBDT、极端梯度提升XGBoosting、轻型梯度提升机lightGBM、多层感知器MLP和深度神经网络DNN;
4)从步骤3)中的算法组合在验证数据集的预测表现,对micro平均曲线下面积AUC进行排序,选出micro平均曲线下面积AUC最佳的算法组合,利用堆叠法集成所述算法组合,得到预测模型,所述预测表现是指micro平均曲线下面积AUC的大小,越大说明预测表现越好,越小说明预测表现越差。
步骤4)中得到的预测模型称为第一集成模型,第一集成模型的特征数量大于10时,采用以下方法构建具有更高实用性的精简版集成模型,简称第二集成模型:基于测试数据集,采用置换特征重要性法评估第一集成模型所纳入的每一个特征的重要性,从大到小排序特征的重要性,仅保留第一集成模型中重要性最大的10个特征,抛弃其余特征,采用训练数据集重新训练,从而获得第二集成模型。
步骤2)中训练数据集验证数据集、和测试数据集占比分别是60%、、20%、20%。
选出患者出院终点的micro平均曲线下面积AUC的最佳三个算法组合进行构建最终预测模型,所述最佳三个算法组合是嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting;患者出院终点为预测目标,即构建的最终预测模型为出院终点模型,可一次性预测死亡、回家休养、继续专业康复护理治疗三个类别的概率,该模型由所述最佳三个算法组合构建。
步骤(3)中的筛选具有显著预测价值的临床特征,对于任意一种不限定特征选择数量的特征选择方法,设置一定的特征选择数量,用特征选择方法在训练数据集上筛选出的特征,以交叉验证的方式训练基础分类算法,获得基础分类算法在该组特征的预测表现,遍历设置不同的特征选择数量,重复以上操作,获得基础分类算法在不同特征选择数量情况下的预测表现,选出最佳特征选择数量,使得基础算法在该特征选择数量下具有最佳表现,此最佳特征选择数量,即设置为该特征选择方法的特征选择数量,所述预测表现是指micro平均曲线下面积AUC的大小,越大说明预测表现越好,越小说明预测表现越差。
所述基础分类算法是机器学习分类算法中的逻辑回归。
步骤3)中的训练机器学习分类算法中,对于任意一种特征选择算法和任一机器学习分类算法组合,机器学习分类算法的训练分为以下三个步骤:a)采用特征选择算法在训练数据集上筛选出的特征,通过网格搜索方法或者随机搜索方法,找出机器学习分类算法的最优超参数组合;b)根据所找到的最优超参数组合赋值给相应的机器学习分类算法,确定机器学习分类算法的结构;c)采用交叉验证方式训练该机器学习分类算法,获得该机器学习分类算法在训练数据集上的预测表现;
a)中各个机器学习分类算法的待搜索参数及其取值范围组合见如下表
Figure GDA0004104293950000041
Figure GDA0004104293950000051
注释:LR=逻辑回归,LDA=线性判别分析,SVM=支持向量机,KNN=k最近邻算法,Gaussian NB=高斯朴素贝叶斯,DT=决策树,ET=额外决策树,RF=随机森林,AdaBoost=自适应增强算法,袋装法=bagging,梯度提升决策树GBDT,极端梯度提升XGBoosting,轻型梯度提升机lightGBM,MLP=多层次感知,DNN=深度神经网络,clf=分类器,invscaling=反比例级联,relu=整流线性单元。
步骤3)中建立AUC矩阵,即所述训练数据集通过用特征选择算法选择且交叉验证后得到验证数据集的AUC矩阵,AUC矩阵的纵坐标是特征选择方法,横坐标是机器学习分类算法,然后构成(特征选择方法*机器学习分类算法)的数量个算法组合模型;根据(特征选择方法*机器学习分类算法)的数量个算法组合模型在验证数据集的预测表现,选出micro平均曲线下面积AUC最大的三个算法组合,利用所述堆叠法集成这三个算法组合,得到所述最终的预测模型。
本发明具有以下优点:
通过本发明所述技术方案,即通过特征选择方法用于筛选具有显著预测价值的临床特征,将选定的临床特征用于训练机器学习分类算法,因此可以构建精准的预测重症脊髓损伤患者预后的机器学习模型。
本发明通过建立机器学习分类算法在训练数据集上的预测表现即建立AUC矩阵,可以一次性展示105个模型的预测准确性。
本发明由于是基于重症脊髓损伤患者的临床数据而构建的新型预后预测模型,故可以以此建立一种准确客观的预测重症脊髓损伤患者预后的系统,用于辅助临床医生针对于重症脊髓损伤患者预后预测的判断概率。
附图说明
图1为本发明获得机器学习分类算法在训练数据集上的预测表现即AUC矩阵图。
具体实施方式
本发明是基于重症脊髓损伤患者的临床数据而构建的新型预后预测模型的方法。
本发明重症脊髓损伤预后预测模型的建立方法,在于提供基于重症脊髓损伤患者的临床数据而构建的新型预后预测模型,包括如下步骤:
(1)纳入患者具有潜在预测价值的临床特征:人口统计信息包括种族、性别、年龄、体重指数、入院类型、ICU类型、入院来源、ICU时长、出ICU后住院时长等;生命体征包括呼吸频率、心率、收缩压和舒张压、平均动脉压;实验室数据包括白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧浓度分数FiO2、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖等;药物的使用和治疗情况包括机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素;
(2)预处理临床特征:根据临床特征的类型,通过不同的填补方法处理缺失的数据。具体地,对于任意临床特征,当缺失病例占总病例比重大于50%时,直接删除该项临床特征。对于缺失病例占总病例比重小于50%以下的临床特征,根据临床特征的类型,采取R语言的拓展包“mice”进行填补,其中对于连续变量特征,运用预测均值匹配法(为现有技术)进行填补;对于二元变量特征,运用逻辑回归法(为现有技术)进行填补;对于分类变量特征,运用多项式回归法(为现有技术)填补。
(3)将填补后的特征数据中的所有多分类变量特征均转化为虚拟变量的形式,其中虚拟变量举例来说,例如,反映性别的虚拟变量可取为:男=(0,0);女=(1,0);不详=(0,1)。
(4)将预处理的临床数据集随机划分为训练数据集(占比60%)、验证数据集(占比20%)和测试数据集(占比20%)。
(5)纳入N*M的数量个算法组合:进行了N种常用特征选择方法,以筛选具有显著预测价值的临床特征。特征选择方法包括最大互信息系数(MIC),嵌入随机森林(RF),递归特征消除(REF),嵌入线性支持向量分类器(嵌入LSVC),嵌入逻辑回归器(嵌入LR),嵌入树和最小冗余-最大相关度(mRMR)。然后,将选定的特征用于训练M种机器学习分类算法,即逻辑回归,线性判别分析(LDA),支持向量机(SVM),K最近邻(KNN),高斯朴素贝叶斯(NB),决策树,额外决策树,随机森林,装袋算法(Bagging),自适应增强(AdaBoost),梯度提升决策树GBDT,极端梯度提升XGBoosting,轻型梯度提升机lightGBM,多层感知器(MLP)和深度神经网络(DNN)等,各特征选择方法均为现有技术,上述N为7,M为15,N*M的数量个算法组合即为105个算法组合。
初步集成学习构建最终模型:根据N*M个算法组合在验证数据集的预测表现,选出曲线下面积(AUC)最大的三个算法组合,利用堆叠法构建组合这三个模型的算法组合,得到一个而初步的集成模型(以下简称第一集成模型)。(堆叠法https://www.jianshu.com/p/7fc9aa03ec11)。所述最佳三个算法组合是嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting;患者出院终点为预测目标,即构建的集成模型为出院终点模型,可一次性预测死亡、回家休养、继续专业康复护理治疗三个类别的概率,该模型由所述最佳三个算法组合构建。
本发明流程实施例是:大量重症脊髓损伤患者的临床数据,经过预处理,将临床数据集随机划分为训练数据集(占比60%)、验证数据集(占比20%)和测试数据集(占比20%),训练数据集通过用特征选择算法选择且交叉验证后(该操作也称为P次K折交叉验证),对验证数据集建立AUC矩阵,对所述测试数据集建立AUC矩阵,AUC矩阵的纵坐标是七种特征选择方法,横坐标是15种机器学习分类算法,然后构成算法组合模型;在验证数据集和测试数据集中的预测表现,选出micro平均曲线下面积AUC最大的三个算法组合即TOP3算法组合,利用堆叠法集成这三个算法组合,得到最终预测模型。前述选出micro平均曲线下面积AUC最大的三个算法组合,利用堆叠法集成这三个算法组合,得到预测模型,更精确地说,是最初的105个模型中micro平均曲线下面积AUC最大的三个模型(这三个模型即嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting),然后将这三个表现最好的堆叠成最终预测模型;
当上一步所获得的集成模型纳入的特征数量大于10时,采用以下方法构建具有更高实用性的精简版集成模型(以下简称第二集成模型):基于测试数据集,采用置换特征重要性法评估步骤(5)的集成模型所纳入的每一个特征的重要性。从大到小排序特征的重要性,仅保留第一集成模型中重要性最大的10个特征,抛弃其余特征,采用训练数据集重新训练,从而获得第二集成模型。该模型仅纳入最重要的前十个特征,因此具有实用性高的优点。其中保留的10个特征为:住院时长、格拉斯总分、年龄、氧浓度分数FiO2、血糖、呼吸频率、红细胞分布宽度RDW、白蛋白、血尿素氮、诊断总数。抛弃的特征:血氯离子、乳酸、血糖、PTT凝血激活酶时间、动脉平均血压、白细胞、血小板、钠离子、心率、动脉收缩压、血红蛋白、机械通气、吗啡、头孢唑琳、氯化钾、ICU时长等。
所述步骤(3)中的筛选具有显著预测价值的临床特征:对于任意一种不限定特征选择数量的特征选择方法,设置一定的特征选择数量,用特征选择方法即前面提及的至少7种常用的特征选择方法:最大互信息系数(MIC),嵌入随机森林(RF),递归特征消除(REF),嵌入线性支持向量分类器(嵌入LSVC),嵌入逻辑回归器(嵌入LR),嵌入树和最小冗余-最大相关度(mRMR))在训练数据集上筛选出的特征,以交叉验证的方式训练基础分类算法(交叉验证是常用方法https://zhuanlan.zhihu.com/p/24825503refer=rdatamining),获得基础分类算法在该组特征的预测表现,该预测表现的技术内容就是看AUC的高低,越高说明预测表现越好,越低说明预测表现越差;遍历(遍历具体的技术过程就是每个环节都处理的意思)设置不同的特征选择数量,重复以上步骤,获得基础分类算法在不同特征选择数量情况下的预测表现,选出最佳的特征选择数量,使得基础算法在该特征选择数量下具有最佳表现。此最佳特征选择数量,即设置为该特征选择算法的特征选择数量。优选地,以逻辑回归算法作为基础分类算法。
所述步骤(3)中的训练M种机器学习分类算法,具体如下。对于任意一种特征选择算法和任一机器学习分类算法组合,其中机器学习分类算法的训练分为以下三个步骤:首先采用特征选择算法在训练数据集上筛选出的特征,通过网格搜索方法或者随机搜索方法,找出机器学习算法的最优超参数组合;然后根据所找到的最优超参数组合,确定机器学习分类算法的结构;最后,采用交叉验证方式训练该机器学习分类算法,获得该机器学习分类算法在训练数据集上的预测表现。
下面是进一步该处三个步骤的描述:
a:各个分类算法的待搜索参数及其取值范围组合见如下表。采用网格搜索或者随机搜索,在该组合限定范围内,寻找最优的参数取值组合。
超参数定义:超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。
超参数的优化:1、定义关于模型的更高层次的概念,如复杂性或学习能力;2、不能直接从标准模型培训过程中的数据中学习,需要预先定义;3、可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定。
Figure GDA0004104293950000091
Figure GDA0004104293950000101
LR=逻辑回归,LDA=线性判别分析,SVM=支持向量机,KNN=k最近邻算法,GaussianNB=高斯朴素贝叶斯,DT=决策树,ET=额外决策树,RF=随机森林,AdaBoost=自适应增强算法,梯度提升决策树GBDT,极端梯度提升XGBoosting,轻型梯度提升机lightGBM,MLP=多层次感知,DNN=深度神经网络,clf=分类器,invscaling=反比例级联,relu=整流线性单元。
b:确定机器学习分类算法的结构:将步骤a找到的最优参数取值组合赋值给相应的机器学习分类算法,从而确定了相应的机器学习分类算法的结构。
c:获得该机器学习分类算法在验证数据集上的预测表现,即构成一个AUC矩阵。如图1,纵坐标是7种特征选择方法,横坐标是15种机器学习算法,然后构成了105个模型,这105个模型的AUC值是图1里面每个空格对应的数值,AUC矩阵,其作用就是一次性展示105个模型的预测准确性,即AUC值大小体现。
本发明的提取或建立的诊断为脊髓损伤患者病例的临床数据是从公开的MIMIC-III-v1.4、MIMIC-IV-v0.4数据库和EICU-v2.0数据库中提取,患者病例共1566例。预测目标为患者出院去向,包括三个类别:在家休养、进一步医疗处理、死亡。
本发明在家休养即是回家,或称为回家休养,进一步医疗处理即是继续专业康复护理治疗。
下面更加详细描述:
针对于前述步骤1)中所述临床特征,根据临床特征的类型,通过不同的填补方法处理缺失的数据。其中缺失病例占总病例比重大于等于50%的特征,包括:红细胞分布宽度(RDW)、氧分压(PaO2),直接删除该临床特征。缺失病例数占总病例数比重大于0且小于50%的特征有种族、红细胞平均体积(MCV)、乳酸盐、硫酸吗啡。其中红细胞平均体积(MCV)、乳酸盐是连续变量特征,运用预测均值匹配方法填补;硫酸吗啡、多巴胺是二元变量特征,运用逻辑回归方法填补;种族是多分类变量特征,运用多项式回归方法填补,所述填补就是把空缺的数值填充上,该空缺的数值是机器学习训练不可或缺的信息。
前述步骤1)中所述临床特征中所述年龄、体重指数、白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖、呼吸频率、心率、收缩压和舒张压、平均动脉压、ICU时长、出ICU后住院时长、氧浓度分数FiO2是连续变量特征,所述机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素是二元变量特征。其中种族、性别、ICU类型、入院来源,将这些变量特征转化为虚拟变量的形式。最终获得共70个不同的特征:人口统计信息包括种族,性别,年龄,体重指数等;生命体征包括呼吸频率,心率,收缩压和舒张压,平均动脉压;实验室数据包括白细胞计数,红细胞计数(RBC),血小板计数,嗜碱性粒细胞,嗜酸性粒细胞,嗜中性粒细胞,淋巴细胞,单核细胞,红细胞分布宽度(RDW),血红蛋白,血细胞比容,平均红细胞血红蛋白量(MCH),红细胞平均血红蛋白浓度(MCHC),红细胞平均体积(MCV),凝血酶原时间(PT),活化部分凝血活酶时间(APTT),国际标准化比值(INR),氧分压(PaO2),二氧化碳分亚(PaCO2),氢离子浓度指数(PH),碳酸氢盐,乳酸盐,碱过量(BE),阴离子间隙,钾,钠,钙,镁,氯,磷酸盐,血尿素氮(BUN),肌酐,白蛋白,血糖等;药物的使用和治疗情况包括机械通气,硫酸吗啡,头孢唑林,氯化钾(Kcl),糖皮质激素,多巴胺,多巴酚丁胺,肾上腺素和去甲肾上腺素。
将预处理后的整个临床数据集,按照60%:20%:20%的比例随机划分为训练数据集、验证数据集和测试数据集。
如前述,特征选择方法包括最大互信息系数(MIC),嵌入随机森林(RF)、递归特征消除(RFE)、嵌入线性支持向量分类器(嵌入LSVC)、嵌入逻辑回归器(嵌入LR)、嵌入树和最小冗余-最大相关度(mRMR)。对于上述特征选择方法中的随机森林(RF)、嵌入线性支持向量分类器(嵌入LSVC)、嵌入逻辑回归器(嵌入LR)、嵌入树等特征选择算法,无需设定特征数量,算法均可选择出最佳的特征组合。因此,直接用这些特征选择算法选出最有特征组合即可。最终,随机森林(RF)、嵌入线性支持向量分类器(嵌入LSVC)、嵌入逻辑回归器(嵌入LR)、嵌入树分别选出了14、23、17、18、26个不同特征。对于上述特征选择方法中的最大互信息系数(MIC)、递归特征消除(RFE)、最小冗余-最大相关度(mRMR)这三种特征选择算法,均是不限定特征选择数量。因此,对于这三种特征选择方法,设置的特征选择数量为范围为5到70,从k=5开始,用特征选择算法在训练数据集上筛选出的k个特征,以逻辑回归作为基础分类算法,以交叉验证的方式训练基础分类算法,获得基础分类算法在该组k个特征的预测表现;遍历设置不同的特征选择数量,即分别令k=5,6,...70,重复以上步骤,获得基础分类算法在不同特征选择数量情况下的预测表现。选出最佳的特征选择数量kbest,使得基础算法在该特征选择数量下具有最佳表现。此最佳特征选择数量,即设置为该特征选择算法的特征选择数量。最终,最大互信息系数(MIC)、递归特征消除(RFE)、最小冗余-最大相关度(mRMR)的最佳特征数量分别是28、26、19。
将上一步骤将选定的特征用于训练13种机器学习分类算法,即逻辑回归、线性判别分析(LDA)、支持向量机(SVM)、K最近邻(KNN)、高斯朴素贝叶斯(NB)、决策树、额外决策树、随机森林、装袋算法(Bagging)、自适应增强(AdaBoost)、梯度提升决策树GBDT、极端梯度提升XGBoosting、轻型梯度提升机lightGBM、多层感知器(MLP)和深度神经网络(DNN)等。对于上述任意一种特征选择算法和上述任一机器学习分类算法组合,其中机器学习分类算法的训练分为以下三个步骤:首先采用特征选择算法在训练数据集上筛选出的特征,通过网格搜索方法或者随机搜索方法,找出机器学习算法的最优超参数组合;然后根据所找到的最优超参数组合,确定机器学习分类算法的结构;最后,采用交叉验证方式训练该机器学习分类算法,获得该机器学习分类算法在训练数据集上的预测表现。
集成学习构建最终模型:根据7个特征选择算法*15个机器学习分类算法组合在验证数据集的预测表现,选出micro平均曲线下面积(AUC)最佳三个组合分别为:
最佳算法组合1:嵌入树*梯度提升决策树GBDT;
最佳算法组合2:嵌入树*极端梯度提升XGBoosting;
最佳算法组合3:嵌入LSVC*极端梯度提升XGBoosting;
其中:
嵌入树筛选出来的特征包括:格拉斯总分、住院时长、机械通气、收缩压、舒张压、ICU时长、出ICU后住院时长、白蛋白、呼吸频率、头孢唑林、乳酸、碳酸氢盐、红细胞分布宽度RDW、动脉平均压、血红蛋白、年龄、HR心率、氯化钾、血尿素氮、诊断总数、吗啡、血氯离子、血糖、RBC白细胞、钠离子、氧浓度分数FiO2;
嵌入LSVC筛选出来的特征包含:肾上腺素、去甲肾上腺素、氧浓度分数FiO2、收缩压、头孢唑林、糖皮质激素、碳酸氢盐、格拉斯总分、住院时长、机械通气、血红蛋白、年龄、HR心率、白蛋白、氯化钾、血尿素氮、诊断总数、血氯离子、乳酸、凝血激活酶时间、动脉平均压、WBC白细胞、红细胞、血小板、血糖。
利用堆叠法方式集成以上三个算法组合,构建最终的预测模型。本发明中,micro平均曲线下面积AUC的大小就是AUC数值,从图形上看就是曲线下面积最大,从文字上理解就是AUC数值最大。
测试最终的预测模型在测试数据集上的预测表现即AUC的高低,AUC的高低是指AUC数值由大到小的排列,从图形上看就是曲线下面积的多少。

Claims (6)

1.一种重症脊髓损伤预后的预测模型的建立方法,其特征在于包括下列步骤:提取诊断为脊髓损伤患者病例的临床数据,
1)纳入以下临床特征:人口统计信息包括种族、性别、年龄、体重指数、入院类型、ICU类型、入院来源、ICU时长、出ICU后住院时长;生命体征包括呼吸频率、心率、收缩压和舒张压、平均动脉压;实验室数据包括白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧浓度分数FiO2、氧分压PaO2、二氧化碳分压PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖;药物的使用和治疗情况包括机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素;
2)预处理临床特征:根据临床特征的类型,通过不同的填补方法处理缺失的数据,连续变量特征运用预测均值匹配方法填补,二元变量特征运用逻辑回归方法填补,多分类变量特征运用多项式回归方法填补,在步骤1)中缺失病例占总病例比重大于等于50%的临床特征,直接删除该临床特征,包括红细胞分布宽度RDW、氧分压PaO2,缺失病例数占总病例数比重大于0且小于50%的特征有种族、红细胞平均体积MCV、乳酸盐、硫酸吗啡,所述年龄、体重指数、白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧分压PaO2、二氧化碳分压PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖、呼吸频率、心率、收缩压、舒张压、平均动脉压ICU时长、出ICU后住院时长、氧浓度分数FiO2是连续变量特征,所述机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素是二元变量特征,其中所述种族、性别、ICU类型、入院来源转化为虚拟变量的形式;最终获得不同的特征,并按照合理的比例,随机划分为训练数据集、验证数据集和测试数据集;
3)纳入特征选择方法*机器学习分类算法的数量个算法组合:所述特征选择方法用于筛选具有显著预测价值的临床特征,将选定的临床特征用于训练机器学习分类算法,所述特征选择方法包括最大互信息系数MIC、嵌入随机森林RF、递归特征消除REF、嵌入线性支持向量分类器即嵌入LSVC、嵌入逻辑回归器即嵌入LR、嵌入树和最小冗余-最大相关度mRMR,所述机器学习分类算法包括逻辑回归、线性判别分析LDA、支持向量机SVM、K最近邻KNN、高斯朴素贝叶斯NB、决策树、额外决策树、随机森林、装袋算法Bagging、自适应增强AdaBoost、梯度提升决策树GBDT、极端梯度提升XGBoosting、轻型梯度提升机lightGBM、多层感知器MLP和深度神经网络DNN;
4)从步骤3)中的算法组合在验证数据集的预测表现,对micro平均曲线下面积AUC进行排序组合,选出micro平均曲线下面积AUC最佳的算法组合,利用堆叠法集成所述算法组合,得到预测模型,所述预测表现是指AUC的高低,AUC的高低是指AUC数值由大到小的排列,具体而言指micro平均曲线下面积AUC的大小,越大说明预测表现越好,越小说明预测表现越差,其中所述验证数据集是训练数据集通过用特征选择算法选择且交叉验证后而得到;
步骤3)中建立AUC矩阵,即所述训练数据集通过用特征选择算法选择且交叉验证后得到验证数据集的AUC矩阵,AUC矩阵的纵坐标是特征选择方法,横坐标是机器学习分类算法,然后构成特征选择方法*机器学习分类算法的数量个算法组合模型;根据特征选择方法*机器学习分类算法的数量个算法组合模型在验证数据集的预测表现,选出micro平均曲线下面积AUC最大的三个算法组合,利用所述堆叠法集成这三个算法组合,得到所述最终的预测模型;根据7个特征选择算法*15个机器学习分类算法组合在验证数据集的预测表现,所述选出micro平均曲线下面积(AUC)最佳三个组合分别为:
最佳算法组合1:嵌入树*梯度提升决策树GBDT;
最佳算法组合2:嵌入树*极端梯度提升XGBoosting;
最佳算法组合3:嵌入LSVC*极端梯度提升XGBoosting;
其中:
嵌入树筛选出来的特征包括:格拉斯总分、住院时长、机械通气、收缩压、舒张压、ICU时长、出ICU后住院时长、白蛋白、呼吸频率、头孢唑林、乳酸、碳酸氢盐、红细胞分布宽度RDW、动脉平均压、血红蛋白、年龄、HR心率、氯化钾、血尿素氮、诊断总数、吗啡、血氯离子、血糖、RBC白细胞、钠离子、氧浓度分数FiO2;
嵌入LSVC筛选出来的特征包含:肾上腺素、去甲肾上腺素、氧浓度分数FiO2、收缩压、头孢唑林、糖皮质激素、碳酸氢盐、格拉斯总分、住院时长、机械通气、血红蛋白、年龄、HR心率、白蛋白、氯化钾、血尿素氮、诊断总数、血氯离子、乳酸、凝血激活酶时间、动脉平均压、WBC白细胞、红细胞、血小板、血糖;
选出患者出院终点的micro平均曲线下面积AUC的最佳三个算法组合进行构建最终预测模型,所述最佳三个算法组合是嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting;患者出院终点为最终预测模型的预测目标,即构建的最终预测模型为出院终点模型,用于一次性预测死亡、回家休养、继续专业康复护理治疗三个类别的概率。
2.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,步骤4)中得到的预测模型称为第一集成模型,第一集成模型的特征数量大于10时,采用以下方法构建具有更高实用性的精简版集成模型,简称第二集成模型:基于测试数据集,采用置换特征重要性法评估第一集成模型所纳入的每一个特征的重要性,从大到小排序特征的重要性,仅保留第一集成模型中重要性最大的10个特征,抛弃其余特征,采用训练数据集重新训练,从而获得第二集成模型。
3.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,步骤2)中训练数据集、验证数据集和测试数据集分别是60%、20%、20%。
4.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,步骤(3)中的筛选具有显著预测价值的临床特征,对于任意一种不限定特征选择数量的特征选择方法,设置一定的特征选择数量,用特征选择方法在训练数据集上筛选出的特征,以交叉验证的方式训练基础分类算法,获得基础分类算法在该组特征的预测表现,遍历设置不同的特征选择数量,重复以上操作,获得基础分类算法在不同特征选择数量情况下的预测表现,选出最佳特征选择数量,使得基础算法在该特征选择数量下具有最佳表现,此最佳特征选择数量,即设置为该特征选择方法的特征选择数量。
5.根据权利要求4所述重症脊髓损伤预后的预测模型的建立方法,其特征在于所述基础分类算法是机器学习分类算法中的逻辑回归。
6.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,步骤3)中的训练机器学习分类算法中,对于任意一种特征选择算法和任一机器学习分类算法组合,机器学习分类算法的训练分为以下三个步骤:a)采用特征选择算法在训练数据集上筛选出的特征,通过网格搜索方法或者随机搜索方法,找出机器学习分类算法的最优超参数组合;b)根据所找到的最优超参数组合赋值给相应的机器学习分类算法,确定机器学习分类算法的结构;c)采用交叉验证方式训练该机器学习分类算法,获得该机器学习分类算法在训练数据集上的预测表现。
CN202110384018.6A 2021-04-09 2021-04-09 重症脊髓损伤预后的预测模型的建立方法 Active CN112992346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110384018.6A CN112992346B (zh) 2021-04-09 2021-04-09 重症脊髓损伤预后的预测模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110384018.6A CN112992346B (zh) 2021-04-09 2021-04-09 重症脊髓损伤预后的预测模型的建立方法

Publications (2)

Publication Number Publication Date
CN112992346A CN112992346A (zh) 2021-06-18
CN112992346B true CN112992346B (zh) 2023-05-09

Family

ID=76339668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110384018.6A Active CN112992346B (zh) 2021-04-09 2021-04-09 重症脊髓损伤预后的预测模型的建立方法

Country Status (1)

Country Link
CN (1) CN112992346B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420298B (zh) * 2022-01-27 2023-08-25 首都医科大学附属北京天坛医院 一种多阶段的急性缺血性卒中血管内治疗无效再通预测系统、设备
CN114419619B (zh) * 2022-03-29 2022-06-10 北京小蝇科技有限责任公司 红细胞检测分类方法、装置、计算机存储介质及电子设备
CN115240854B (zh) * 2022-07-29 2023-10-03 中国医学科学院北京协和医院 一种胰腺炎预后数据的处理方法及其系统
CN115249543B (zh) * 2022-08-01 2023-06-23 中日友好医院(中日友好临床医学研究所) 一种预测ards患者预后的人工智能模型的建立方法
CN115374858B (zh) * 2022-08-24 2024-05-14 东北大学 基于混合集成模型的流程工业生产品质的智能诊断方法
CN115662613A (zh) * 2022-09-28 2023-01-31 中日友好医院(中日友好临床医学研究所) 一种气压伤的预测方法及装置
CN115409834B (zh) * 2022-10-30 2023-02-28 四川大学华西医院 一种用于跟腱病诊断的特征提取方法、系统和存储介质
CN115512780B (zh) * 2022-11-23 2023-04-07 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种PaCO2实时预警模型建立方法及系统
CN117577214B (zh) * 2023-05-19 2024-04-12 广东工业大学 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法
CN116564421B (zh) * 2023-06-08 2024-01-30 苏州卫生职业技术学院 一种急性髓系白血病患者铜死亡相关预后模型构建方法
CN117174313B (zh) * 2023-09-03 2024-05-10 南通市康复医院(南通市第二人民医院) 一种脑出血患者神经功能预后预测模型的建立方法及系统
CN117079059B (zh) * 2023-10-13 2023-12-19 云南师范大学 一种基于多源卫星图像的树种自动分类方法
CN117373584B (zh) * 2023-12-08 2024-03-12 北京大学第一医院 一种急性肾损伤的动态预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527435B1 (en) * 2003-07-01 2013-09-03 Cardiomag Imaging, Inc. Sigma tuning of gaussian kernels: detection of ischemia from magnetocardiograms
CN111243751A (zh) * 2020-01-17 2020-06-05 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
CN111640518A (zh) * 2020-06-02 2020-09-08 山东大学齐鲁医院 一种宫颈癌术后生存预测方法、系统、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119167B (zh) * 2018-07-11 2020-11-20 山东师范大学 基于集成模型的脓毒症死亡率预测系统
CN110051324B (zh) * 2019-03-14 2022-06-10 深圳大学 一种急性呼吸窘迫综合征死亡率预测方法及系统
CN111370126B (zh) * 2020-03-17 2023-04-25 杭州妞诺科技有限公司 基于惩罚集成模型的icu死亡率预测方法及系统
CN112185549B (zh) * 2020-09-29 2022-08-02 郑州轻工业大学 基于临床表型和逻辑回归分析的食管鳞癌风险预测系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527435B1 (en) * 2003-07-01 2013-09-03 Cardiomag Imaging, Inc. Sigma tuning of gaussian kernels: detection of ischemia from magnetocardiograms
CN111243751A (zh) * 2020-01-17 2020-06-05 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
CN111640518A (zh) * 2020-06-02 2020-09-08 山东大学齐鲁医院 一种宫颈癌术后生存预测方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112992346A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112992346B (zh) 重症脊髓损伤预后的预测模型的建立方法
CN112992368B (zh) 重症脊髓损伤预后的预测模型系统及存储介质
Liu et al. Mortality prediction based on imbalanced high-dimensional ICU big data
WO2021205828A1 (ja) 予後予測装置、及びプログラム
Mall et al. Heart diagnosis using deep neural network
CN111081381A (zh) 院内致命性消化道再出血预测关键指标的智能筛选方法
Shimaa Ouf A proposed paradigm for intelligent heart disease prediction system using data mining techniques
CN116682557A (zh) 一种基于小样本深度学习的慢性病并发症早期风险预警方法
Popkes et al. Interpretable outcome prediction with sparse Bayesian neural networks in intensive care
Chen et al. A novel method of heart failure prediction based on DPCNN-Xgboost model
CN114358169B (zh) 一种基于XGBoost的结直肠癌检测系统
Mansouri et al. Predicting hospital length of stay of neonates admitted to the NICU using data mining techniques
CN114038563A (zh) 一种临床撤机预测系统及其方法
Steinmeyer et al. Sampling methods and feature selection for mortality prediction with neural networks
KR102615261B1 (ko) 섬망 예측 방법 및 이의 장치
Srimedha et al. A comprehensive machine learning based pipeline for an accurate early prediction of sepsis in ICU
Zhang et al. Machine Learning Prediction Models for Postoperative Stroke in Elderly Patients: Analyses of the MIMIC Database
COŞKUN et al. Evaluation of performance of classification algorithms in prediction of heart failure disease
Umut et al. Prediction of sepsis disease by Artificial Neural Networks
CN113436745A (zh) 一种基于数据库分析的人工智能辅助诊断方法
Rahman et al. Phenotyping with prior knowledge using patient similarity
Aringhieri et al. Leveraging structured data in predictive process monitoring: the case of the ICD-9-CM in the scenario of the home hospitalization service
Qadri et al. Heart failure survival prediction using novel transfer learning based probabilistic features
Tasnim et al. Comparative Performance Analysis of Feature Selection for Mortality Prediction in ICU with Explainable Artificial Intelligence
AlNuaimi et al. Examining the effect of feature selection on improving patient deterioration prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant