CN112992346B

CN112992346B - 重症脊髓损伤预后的预测模型的建立方法

Info

Publication number: CN112992346B
Application number: CN202110384018.6A
Authority: CN
Inventors: 范国鑫; 刘华清; 戎利民; 庞卯; 刘斌; 张良明; 黄桂芳; 韩蓝青
Original assignee: Research Institute Of Tsinghua Pearl River Delta; Third Affiliated Hospital Sun Yat Sen University
Current assignee: Research Institute Of Tsinghua Pearl River Delta; Third Affiliated Hospital Sun Yat Sen University
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2023-05-09
Anticipated expiration: 2041-04-09
Also published as: CN112992346A

Abstract

本发明公开了重症脊髓损伤预后的预测模型的建立方法，其特征在于包括下列步骤：提取诊断为脊髓损伤患者病例的临床数据，1)纳入以下临床特征；2)预处理临床特征：根据临床特征的类型，通过不同的填补方法处理缺失的数据；3)纳入特征选择方法*机器学习分类算法的算法组合：所述特征选择方法用于筛选具有显著预测价值的临床特征，将选定的临床特征用于训练机器学习分类算法；4)从步骤3)中的算法组合在训练数据集的预测表现，选出micro平均曲线下面积AUC最大的算法组合，利用堆叠法集成所述算法组合，得到预测模型。本发明用于预测重症脊髓损伤患者预后具有准确客观性能。

Description

重症脊髓损伤预后的预测模型的建立方法

技术领域

本发明涉及重症脊髓损伤预后的预测模型的建立方法。

背景技术

脊髓损伤患者常常因为重大创伤或者严重并发症住进重症监护室(ICU)，因此其预后是临床医生和患者家属非常关心的问题。然而，如何准确预测重症脊髓损伤的预后是个临床难题。临床上，医生常常根据经验来判断患者的预后以制定诊治方案。然而，在与患者家属交代患者病情时常常不能给出一个客观可量化的预后判断概率。因此，需要一种准确客观的预测重症脊髓损伤患者预后的系统以辅助临床医生，而这种预测重症脊髓损伤患者预后的系统如何建立预测模型是核心技术。

发明内容

为了克服现有技术的缺陷，本发明的目的是提供一种重症脊髓损伤预后的预测模型的建立方法，用于预测重症脊髓损伤患者预后的系统中，具有准确客观性能，且可以一次性展示105个模型的预测准确性。

本发明通过以下技术路线来实现：

一种重症脊髓损伤预后的预测模型的建立方法，其特征在于包括下列步骤：提取诊断为脊髓损伤患者病例的临床数据，

1)纳入以下临床特征：人口统计信息包括种族、性别、年龄、体重指数、入院类型、ICU类型、入院来源、ICU时长、出ICU后住院时长等；生命体征包括呼吸频率、心率、收缩压和舒张压、平均动脉压；实验室数据包括白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧浓度分数FiO2、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖等；药物的使用和治疗情况包括机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素；

2)预处理临床特征：根据临床特征的类型，通过不同的填补方法处理缺失的数据，连续变量特征运用预测均值匹配方法填补，二元变量特征运用逻辑回归方法填补，多分类变量特征运用多项式回归方法填补，在步骤1)中缺失病例占总病例比重大于等于50％的临床特征，直接删除该临床特征，包括红细胞分布宽度RDW、氧分压PaO2，缺失病例数占总病例数比重大于0且小于50％的特征有种族、红细胞平均体积MCV、乳酸盐、硫酸吗啡，所述年龄、体重指数、白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖、呼吸频率、心率、收缩压、舒张压、平均动脉压、ICU时长、出ICU后住院时长、氧浓度分数FiO2、是连续变量特征，所述机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素是二元变量特征，所述种族、性别、ICU类型、入院来源等多分类变量特征转化为虚拟变量的形式；最终获得不同的特征，并按照合理的比例，随机划分为训练数据集验证数据集、和测试数据集；

3)纳入特征选择方法*机器学习分类算法的数量个算法组合：所述特征选择方法用于筛选具有显著预测价值的临床特征，将选定的临床特征用于训练机器学习分类算法，所述特征选择方法包括最大互信息系数MIC、随机森林RF、递归特征消除REF、嵌入线性支持向量分类器即嵌入LSVC、嵌入逻辑回归器即嵌入LR、嵌入树和最小冗余-最大相关度mRMR，所述机器学习分类算法包括逻辑回归、线性判别分析LDA、支持向量机SVM、K最近邻KNN、高斯朴素贝叶斯NB、决策树、额外决策树、随机森林、装袋算法Bagging、自适应增强AdaBoost、梯度提升决策树GBDT、极端梯度提升XGBoosting、轻型梯度提升机lightGBM、多层感知器MLP和深度神经网络DNN；

4)从步骤3)中的算法组合在验证数据集的预测表现，对micro平均曲线下面积AUC进行排序，选出micro平均曲线下面积AUC最佳的算法组合，利用堆叠法集成所述算法组合，得到预测模型，所述预测表现是指micro平均曲线下面积AUC的大小，越大说明预测表现越好，越小说明预测表现越差。

步骤4)中得到的预测模型称为第一集成模型，第一集成模型的特征数量大于10时，采用以下方法构建具有更高实用性的精简版集成模型，简称第二集成模型：基于测试数据集，采用置换特征重要性法评估第一集成模型所纳入的每一个特征的重要性，从大到小排序特征的重要性，仅保留第一集成模型中重要性最大的10个特征，抛弃其余特征，采用训练数据集重新训练，从而获得第二集成模型。

步骤2)中训练数据集验证数据集、和测试数据集占比分别是60％、、20％、20％。

选出患者出院终点的micro平均曲线下面积AUC的最佳三个算法组合进行构建最终预测模型，所述最佳三个算法组合是嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting；患者出院终点为预测目标，即构建的最终预测模型为出院终点模型，可一次性预测死亡、回家休养、继续专业康复护理治疗三个类别的概率，该模型由所述最佳三个算法组合构建。

步骤(3)中的筛选具有显著预测价值的临床特征，对于任意一种不限定特征选择数量的特征选择方法，设置一定的特征选择数量，用特征选择方法在训练数据集上筛选出的特征，以交叉验证的方式训练基础分类算法，获得基础分类算法在该组特征的预测表现，遍历设置不同的特征选择数量，重复以上操作，获得基础分类算法在不同特征选择数量情况下的预测表现，选出最佳特征选择数量，使得基础算法在该特征选择数量下具有最佳表现，此最佳特征选择数量，即设置为该特征选择方法的特征选择数量，所述预测表现是指micro平均曲线下面积AUC的大小，越大说明预测表现越好，越小说明预测表现越差。

所述基础分类算法是机器学习分类算法中的逻辑回归。

步骤3)中的训练机器学习分类算法中，对于任意一种特征选择算法和任一机器学习分类算法组合，机器学习分类算法的训练分为以下三个步骤：a)采用特征选择算法在训练数据集上筛选出的特征，通过网格搜索方法或者随机搜索方法，找出机器学习分类算法的最优超参数组合；b)根据所找到的最优超参数组合赋值给相应的机器学习分类算法，确定机器学习分类算法的结构；c)采用交叉验证方式训练该机器学习分类算法，获得该机器学习分类算法在训练数据集上的预测表现；

a)中各个机器学习分类算法的待搜索参数及其取值范围组合见如下表

注释：LR＝逻辑回归,LDA＝线性判别分析,SVM＝支持向量机,KNN＝k最近邻算法,Gaussian NB＝高斯朴素贝叶斯,DT＝决策树,ET＝额外决策树,RF＝随机森林,AdaBoost＝自适应增强算法,袋装法＝bagging,梯度提升决策树GBDT，极端梯度提升XGBoosting,轻型梯度提升机lightGBM，MLP＝多层次感知，DNN＝深度神经网络，clf＝分类器，invscaling＝反比例级联,relu＝整流线性单元。

步骤3)中建立AUC矩阵，即所述训练数据集通过用特征选择算法选择且交叉验证后得到验证数据集的AUC矩阵，AUC矩阵的纵坐标是特征选择方法，横坐标是机器学习分类算法，然后构成(特征选择方法*机器学习分类算法)的数量个算法组合模型；根据(特征选择方法*机器学习分类算法)的数量个算法组合模型在验证数据集的预测表现，选出micro平均曲线下面积AUC最大的三个算法组合，利用所述堆叠法集成这三个算法组合，得到所述最终的预测模型。

本发明具有以下优点：

通过本发明所述技术方案，即通过特征选择方法用于筛选具有显著预测价值的临床特征，将选定的临床特征用于训练机器学习分类算法，因此可以构建精准的预测重症脊髓损伤患者预后的机器学习模型。

本发明通过建立机器学习分类算法在训练数据集上的预测表现即建立AUC矩阵，可以一次性展示105个模型的预测准确性。

本发明由于是基于重症脊髓损伤患者的临床数据而构建的新型预后预测模型，故可以以此建立一种准确客观的预测重症脊髓损伤患者预后的系统，用于辅助临床医生针对于重症脊髓损伤患者预后预测的判断概率。

附图说明

图1为本发明获得机器学习分类算法在训练数据集上的预测表现即AUC矩阵图。

具体实施方式

本发明是基于重症脊髓损伤患者的临床数据而构建的新型预后预测模型的方法。

本发明重症脊髓损伤预后预测模型的建立方法，在于提供基于重症脊髓损伤患者的临床数据而构建的新型预后预测模型，包括如下步骤：

(1)纳入患者具有潜在预测价值的临床特征：人口统计信息包括种族、性别、年龄、体重指数、入院类型、ICU类型、入院来源、ICU时长、出ICU后住院时长等；生命体征包括呼吸频率、心率、收缩压和舒张压、平均动脉压；实验室数据包括白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧浓度分数FiO2、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖等；药物的使用和治疗情况包括机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素；

(2)预处理临床特征：根据临床特征的类型，通过不同的填补方法处理缺失的数据。具体地，对于任意临床特征，当缺失病例占总病例比重大于50％时，直接删除该项临床特征。对于缺失病例占总病例比重小于50％以下的临床特征，根据临床特征的类型，采取R语言的拓展包“mice”进行填补，其中对于连续变量特征，运用预测均值匹配法(为现有技术)进行填补；对于二元变量特征，运用逻辑回归法(为现有技术)进行填补；对于分类变量特征，运用多项式回归法(为现有技术)填补。

(3)将填补后的特征数据中的所有多分类变量特征均转化为虚拟变量的形式，其中虚拟变量举例来说，例如，反映性别的虚拟变量可取为：男＝(0，0)；女＝(1，0)；不详＝(0，1)。

(4)将预处理的临床数据集随机划分为训练数据集(占比60％)、验证数据集(占比20％)和测试数据集(占比20％)。

(5)纳入N*M的数量个算法组合：进行了N种常用特征选择方法，以筛选具有显著预测价值的临床特征。特征选择方法包括最大互信息系数(MIC)，嵌入随机森林(RF)，递归特征消除(REF)，嵌入线性支持向量分类器(嵌入LSVC)，嵌入逻辑回归器(嵌入LR)，嵌入树和最小冗余-最大相关度(mRMR)。然后，将选定的特征用于训练M种机器学习分类算法，即逻辑回归，线性判别分析(LDA)，支持向量机(SVM)，K最近邻(KNN)，高斯朴素贝叶斯(NB)，决策树，额外决策树，随机森林，装袋算法(Bagging)，自适应增强(AdaBoost)，梯度提升决策树GBDT，极端梯度提升XGBoosting，轻型梯度提升机lightGBM,多层感知器(MLP)和深度神经网络(DNN)等，各特征选择方法均为现有技术，上述N为7，M为15，N*M的数量个算法组合即为105个算法组合。

初步集成学习构建最终模型：根据N*M个算法组合在验证数据集的预测表现，选出曲线下面积(AUC)最大的三个算法组合，利用堆叠法构建组合这三个模型的算法组合，得到一个而初步的集成模型(以下简称第一集成模型)。(堆叠法https://www.jianshu.com/p/7fc9aa03ec11)。所述最佳三个算法组合是嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting；患者出院终点为预测目标，即构建的集成模型为出院终点模型，可一次性预测死亡、回家休养、继续专业康复护理治疗三个类别的概率，该模型由所述最佳三个算法组合构建。

本发明流程实施例是：大量重症脊髓损伤患者的临床数据，经过预处理，将临床数据集随机划分为训练数据集(占比60％)、验证数据集(占比20％)和测试数据集(占比20％)，训练数据集通过用特征选择算法选择且交叉验证后(该操作也称为P次K折交叉验证)，对验证数据集建立AUC矩阵，对所述测试数据集建立AUC矩阵，AUC矩阵的纵坐标是七种特征选择方法，横坐标是15种机器学习分类算法，然后构成算法组合模型；在验证数据集和测试数据集中的预测表现，选出micro平均曲线下面积AUC最大的三个算法组合即TOP3算法组合，利用堆叠法集成这三个算法组合，得到最终预测模型。前述选出micro平均曲线下面积AUC最大的三个算法组合，利用堆叠法集成这三个算法组合，得到预测模型，更精确地说，是最初的105个模型中micro平均曲线下面积AUC最大的三个模型(这三个模型即嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting)，然后将这三个表现最好的堆叠成最终预测模型；

当上一步所获得的集成模型纳入的特征数量大于10时，采用以下方法构建具有更高实用性的精简版集成模型(以下简称第二集成模型)：基于测试数据集，采用置换特征重要性法评估步骤(5)的集成模型所纳入的每一个特征的重要性。从大到小排序特征的重要性，仅保留第一集成模型中重要性最大的10个特征，抛弃其余特征，采用训练数据集重新训练，从而获得第二集成模型。该模型仅纳入最重要的前十个特征，因此具有实用性高的优点。其中保留的10个特征为：住院时长、格拉斯总分、年龄、氧浓度分数FiO2、血糖、呼吸频率、红细胞分布宽度RDW、白蛋白、血尿素氮、诊断总数。抛弃的特征：血氯离子、乳酸、血糖、PTT凝血激活酶时间、动脉平均血压、白细胞、血小板、钠离子、心率、动脉收缩压、血红蛋白、机械通气、吗啡、头孢唑琳、氯化钾、ICU时长等。

所述步骤(3)中的筛选具有显著预测价值的临床特征：对于任意一种不限定特征选择数量的特征选择方法，设置一定的特征选择数量，用特征选择方法即前面提及的至少7种常用的特征选择方法：最大互信息系数(MIC)，嵌入随机森林(RF)，递归特征消除(REF)，嵌入线性支持向量分类器(嵌入LSVC)，嵌入逻辑回归器(嵌入LR)，嵌入树和最小冗余-最大相关度(mRMR))在训练数据集上筛选出的特征，以交叉验证的方式训练基础分类算法(交叉验证是常用方法https://zhuanlan.zhihu.com/p/24825503refer＝rdatamining)，获得基础分类算法在该组特征的预测表现，该预测表现的技术内容就是看AUC的高低，越高说明预测表现越好，越低说明预测表现越差；遍历(遍历具体的技术过程就是每个环节都处理的意思)设置不同的特征选择数量，重复以上步骤，获得基础分类算法在不同特征选择数量情况下的预测表现，选出最佳的特征选择数量，使得基础算法在该特征选择数量下具有最佳表现。此最佳特征选择数量，即设置为该特征选择算法的特征选择数量。优选地，以逻辑回归算法作为基础分类算法。

所述步骤(3)中的训练M种机器学习分类算法，具体如下。对于任意一种特征选择算法和任一机器学习分类算法组合，其中机器学习分类算法的训练分为以下三个步骤：首先采用特征选择算法在训练数据集上筛选出的特征，通过网格搜索方法或者随机搜索方法，找出机器学习算法的最优超参数组合；然后根据所找到的最优超参数组合，确定机器学习分类算法的结构；最后，采用交叉验证方式训练该机器学习分类算法，获得该机器学习分类算法在训练数据集上的预测表现。

下面是进一步该处三个步骤的描述：

a：各个分类算法的待搜索参数及其取值范围组合见如下表。采用网格搜索或者随机搜索，在该组合限定范围内，寻找最优的参数取值组合。

超参数定义：超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。

超参数的优化：1、定义关于模型的更高层次的概念，如复杂性或学习能力；2、不能直接从标准模型培训过程中的数据中学习，需要预先定义；3、可以通过设置不同的值，训练不同的模型和选择更好的测试值来决定。

LR＝逻辑回归,LDA＝线性判别分析,SVM＝支持向量机,KNN＝k最近邻算法,GaussianNB＝高斯朴素贝叶斯,DT＝决策树,ET＝额外决策树,RF＝随机森林,AdaBoost＝自适应增强算法,梯度提升决策树GBDT，极端梯度提升XGBoosting，轻型梯度提升机lightGBM，MLP＝多层次感知，DNN＝深度神经网络，clf＝分类器，invscaling＝反比例级联,relu＝整流线性单元。

b：确定机器学习分类算法的结构：将步骤a找到的最优参数取值组合赋值给相应的机器学习分类算法，从而确定了相应的机器学习分类算法的结构。

c：获得该机器学习分类算法在验证数据集上的预测表现，即构成一个AUC矩阵。如图1，纵坐标是7种特征选择方法，横坐标是15种机器学习算法，然后构成了105个模型，这105个模型的AUC值是图1里面每个空格对应的数值，AUC矩阵，其作用就是一次性展示105个模型的预测准确性，即AUC值大小体现。

本发明的提取或建立的诊断为脊髓损伤患者病例的临床数据是从公开的MIMIC-III-v1.4、MIMIC-IV-v0.4数据库和EICU-v2.0数据库中提取，患者病例共1566例。预测目标为患者出院去向，包括三个类别：在家休养、进一步医疗处理、死亡。

本发明在家休养即是回家，或称为回家休养，进一步医疗处理即是继续专业康复护理治疗。

下面更加详细描述：

针对于前述步骤1)中所述临床特征，根据临床特征的类型，通过不同的填补方法处理缺失的数据。其中缺失病例占总病例比重大于等于50％的特征，包括：红细胞分布宽度(RDW)、氧分压(PaO2)，直接删除该临床特征。缺失病例数占总病例数比重大于0且小于50％的特征有种族、红细胞平均体积(MCV)、乳酸盐、硫酸吗啡。其中红细胞平均体积(MCV)、乳酸盐是连续变量特征，运用预测均值匹配方法填补；硫酸吗啡、多巴胺是二元变量特征，运用逻辑回归方法填补；种族是多分类变量特征，运用多项式回归方法填补，所述填补就是把空缺的数值填充上，该空缺的数值是机器学习训练不可或缺的信息。

前述步骤1)中所述临床特征中所述年龄、体重指数、白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖、呼吸频率、心率、收缩压和舒张压、平均动脉压、ICU时长、出ICU后住院时长、氧浓度分数FiO2是连续变量特征，所述机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素是二元变量特征。其中种族、性别、ICU类型、入院来源，将这些变量特征转化为虚拟变量的形式。最终获得共70个不同的特征：人口统计信息包括种族，性别，年龄，体重指数等；生命体征包括呼吸频率，心率，收缩压和舒张压，平均动脉压；实验室数据包括白细胞计数，红细胞计数(RBC)，血小板计数，嗜碱性粒细胞，嗜酸性粒细胞，嗜中性粒细胞，淋巴细胞，单核细胞，红细胞分布宽度(RDW)，血红蛋白，血细胞比容，平均红细胞血红蛋白量(MCH)，红细胞平均血红蛋白浓度(MCHC)，红细胞平均体积(MCV)，凝血酶原时间(PT)，活化部分凝血活酶时间(APTT)，国际标准化比值(INR)，氧分压(PaO2)，二氧化碳分亚(PaCO2)，氢离子浓度指数(PH)，碳酸氢盐，乳酸盐，碱过量(BE)，阴离子间隙，钾，钠，钙，镁，氯，磷酸盐，血尿素氮(BUN)，肌酐，白蛋白，血糖等；药物的使用和治疗情况包括机械通气，硫酸吗啡，头孢唑林，氯化钾(Kcl)，糖皮质激素，多巴胺，多巴酚丁胺，肾上腺素和去甲肾上腺素。

将预处理后的整个临床数据集，按照60％：20％：20％的比例随机划分为训练数据集、验证数据集和测试数据集。

如前述，特征选择方法包括最大互信息系数(MIC)，嵌入随机森林(RF)、递归特征消除(RFE)、嵌入线性支持向量分类器(嵌入LSVC)、嵌入逻辑回归器(嵌入LR)、嵌入树和最小冗余-最大相关度(mRMR)。对于上述特征选择方法中的随机森林(RF)、嵌入线性支持向量分类器(嵌入LSVC)、嵌入逻辑回归器(嵌入LR)、嵌入树等特征选择算法，无需设定特征数量，算法均可选择出最佳的特征组合。因此，直接用这些特征选择算法选出最有特征组合即可。最终，随机森林(RF)、嵌入线性支持向量分类器(嵌入LSVC)、嵌入逻辑回归器(嵌入LR)、嵌入树分别选出了14、23、17、18、26个不同特征。对于上述特征选择方法中的最大互信息系数(MIC)、递归特征消除(RFE)、最小冗余-最大相关度(mRMR)这三种特征选择算法，均是不限定特征选择数量。因此，对于这三种特征选择方法，设置的特征选择数量为范围为5到70，从k＝5开始，用特征选择算法在训练数据集上筛选出的k个特征，以逻辑回归作为基础分类算法，以交叉验证的方式训练基础分类算法，获得基础分类算法在该组k个特征的预测表现；遍历设置不同的特征选择数量，即分别令k＝5,6,...70，重复以上步骤，获得基础分类算法在不同特征选择数量情况下的预测表现。选出最佳的特征选择数量kbest，使得基础算法在该特征选择数量下具有最佳表现。此最佳特征选择数量，即设置为该特征选择算法的特征选择数量。最终，最大互信息系数(MIC)、递归特征消除(RFE)、最小冗余-最大相关度(mRMR)的最佳特征数量分别是28、26、19。

将上一步骤将选定的特征用于训练13种机器学习分类算法，即逻辑回归、线性判别分析(LDA)、支持向量机(SVM)、K最近邻(KNN)、高斯朴素贝叶斯(NB)、决策树、额外决策树、随机森林、装袋算法(Bagging)、自适应增强(AdaBoost)、梯度提升决策树GBDT、极端梯度提升XGBoosting、轻型梯度提升机lightGBM、多层感知器(MLP)和深度神经网络(DNN)等。对于上述任意一种特征选择算法和上述任一机器学习分类算法组合，其中机器学习分类算法的训练分为以下三个步骤：首先采用特征选择算法在训练数据集上筛选出的特征，通过网格搜索方法或者随机搜索方法，找出机器学习算法的最优超参数组合；然后根据所找到的最优超参数组合，确定机器学习分类算法的结构；最后，采用交叉验证方式训练该机器学习分类算法，获得该机器学习分类算法在训练数据集上的预测表现。

集成学习构建最终模型：根据7个特征选择算法*15个机器学习分类算法组合在验证数据集的预测表现，选出micro平均曲线下面积(AUC)最佳三个组合分别为：

最佳算法组合1：嵌入树*梯度提升决策树GBDT；

最佳算法组合2：嵌入树*极端梯度提升XGBoosting；

最佳算法组合3：嵌入LSVC*极端梯度提升XGBoosting；

其中：

嵌入树筛选出来的特征包括：格拉斯总分、住院时长、机械通气、收缩压、舒张压、ICU时长、出ICU后住院时长、白蛋白、呼吸频率、头孢唑林、乳酸、碳酸氢盐、红细胞分布宽度RDW、动脉平均压、血红蛋白、年龄、HR心率、氯化钾、血尿素氮、诊断总数、吗啡、血氯离子、血糖、RBC白细胞、钠离子、氧浓度分数FiO2；

嵌入LSVC筛选出来的特征包含：肾上腺素、去甲肾上腺素、氧浓度分数FiO2、收缩压、头孢唑林、糖皮质激素、碳酸氢盐、格拉斯总分、住院时长、机械通气、血红蛋白、年龄、HR心率、白蛋白、氯化钾、血尿素氮、诊断总数、血氯离子、乳酸、凝血激活酶时间、动脉平均压、WBC白细胞、红细胞、血小板、血糖。

利用堆叠法方式集成以上三个算法组合，构建最终的预测模型。本发明中，micro平均曲线下面积AUC的大小就是AUC数值，从图形上看就是曲线下面积最大，从文字上理解就是AUC数值最大。

测试最终的预测模型在测试数据集上的预测表现即AUC的高低，AUC的高低是指AUC数值由大到小的排列，从图形上看就是曲线下面积的多少。

Claims

1.一种重症脊髓损伤预后的预测模型的建立方法，其特征在于包括下列步骤：提取诊断为脊髓损伤患者病例的临床数据，

1)纳入以下临床特征：人口统计信息包括种族、性别、年龄、体重指数、入院类型、ICU类型、入院来源、ICU时长、出ICU后住院时长；生命体征包括呼吸频率、心率、收缩压和舒张压、平均动脉压；实验室数据包括白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧浓度分数FiO2、氧分压PaO2、二氧化碳分压PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖；药物的使用和治疗情况包括机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素；

2)预处理临床特征：根据临床特征的类型，通过不同的填补方法处理缺失的数据，连续变量特征运用预测均值匹配方法填补，二元变量特征运用逻辑回归方法填补，多分类变量特征运用多项式回归方法填补，在步骤1)中缺失病例占总病例比重大于等于50％的临床特征，直接删除该临床特征，包括红细胞分布宽度RDW、氧分压PaO2，缺失病例数占总病例数比重大于0且小于50％的特征有种族、红细胞平均体积MCV、乳酸盐、硫酸吗啡，所述年龄、体重指数、白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧分压PaO2、二氧化碳分压PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖、呼吸频率、心率、收缩压、舒张压、平均动脉压ICU时长、出ICU后住院时长、氧浓度分数FiO2是连续变量特征，所述机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素是二元变量特征，其中所述种族、性别、ICU类型、入院来源转化为虚拟变量的形式；最终获得不同的特征，并按照合理的比例，随机划分为训练数据集、验证数据集和测试数据集；

3)纳入特征选择方法*机器学习分类算法的数量个算法组合：所述特征选择方法用于筛选具有显著预测价值的临床特征，将选定的临床特征用于训练机器学习分类算法，所述特征选择方法包括最大互信息系数MIC、嵌入随机森林RF、递归特征消除REF、嵌入线性支持向量分类器即嵌入LSVC、嵌入逻辑回归器即嵌入LR、嵌入树和最小冗余-最大相关度mRMR，所述机器学习分类算法包括逻辑回归、线性判别分析LDA、支持向量机SVM、K最近邻KNN、高斯朴素贝叶斯NB、决策树、额外决策树、随机森林、装袋算法Bagging、自适应增强AdaBoost、梯度提升决策树GBDT、极端梯度提升XGBoosting、轻型梯度提升机lightGBM、多层感知器MLP和深度神经网络DNN；

4)从步骤3)中的算法组合在验证数据集的预测表现，对micro平均曲线下面积AUC进行排序组合，选出micro平均曲线下面积AUC最佳的算法组合，利用堆叠法集成所述算法组合，得到预测模型，所述预测表现是指AUC的高低，AUC的高低是指AUC数值由大到小的排列，具体而言指micro平均曲线下面积AUC的大小，越大说明预测表现越好，越小说明预测表现越差，其中所述验证数据集是训练数据集通过用特征选择算法选择且交叉验证后而得到；

步骤3)中建立AUC矩阵，即所述训练数据集通过用特征选择算法选择且交叉验证后得到验证数据集的AUC矩阵，AUC矩阵的纵坐标是特征选择方法，横坐标是机器学习分类算法，然后构成特征选择方法*机器学习分类算法的数量个算法组合模型；根据特征选择方法*机器学习分类算法的数量个算法组合模型在验证数据集的预测表现，选出micro平均曲线下面积AUC最大的三个算法组合，利用所述堆叠法集成这三个算法组合，得到所述最终的预测模型；根据7个特征选择算法*15个机器学习分类算法组合在验证数据集的预测表现，所述选出micro平均曲线下面积(AUC)最佳三个组合分别为：

最佳算法组合1：嵌入树*梯度提升决策树GBDT；

最佳算法组合2：嵌入树*极端梯度提升XGBoosting；

最佳算法组合3：嵌入LSVC*极端梯度提升XGBoosting；

其中：

嵌入LSVC筛选出来的特征包含：肾上腺素、去甲肾上腺素、氧浓度分数FiO2、收缩压、头孢唑林、糖皮质激素、碳酸氢盐、格拉斯总分、住院时长、机械通气、血红蛋白、年龄、HR心率、白蛋白、氯化钾、血尿素氮、诊断总数、血氯离子、乳酸、凝血激活酶时间、动脉平均压、WBC白细胞、红细胞、血小板、血糖；

选出患者出院终点的micro平均曲线下面积AUC的最佳三个算法组合进行构建最终预测模型，所述最佳三个算法组合是嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting；患者出院终点为最终预测模型的预测目标，即构建的最终预测模型为出院终点模型，用于一次性预测死亡、回家休养、继续专业康复护理治疗三个类别的概率。

2.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法，其特征在于，步骤4)中得到的预测模型称为第一集成模型，第一集成模型的特征数量大于10时，采用以下方法构建具有更高实用性的精简版集成模型，简称第二集成模型：基于测试数据集，采用置换特征重要性法评估第一集成模型所纳入的每一个特征的重要性，从大到小排序特征的重要性，仅保留第一集成模型中重要性最大的10个特征，抛弃其余特征，采用训练数据集重新训练，从而获得第二集成模型。

3.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法，其特征在于，步骤2)中训练数据集、验证数据集和测试数据集分别是60％、20％、20％。

4.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法，其特征在于，步骤(3)中的筛选具有显著预测价值的临床特征，对于任意一种不限定特征选择数量的特征选择方法，设置一定的特征选择数量，用特征选择方法在训练数据集上筛选出的特征，以交叉验证的方式训练基础分类算法，获得基础分类算法在该组特征的预测表现，遍历设置不同的特征选择数量，重复以上操作，获得基础分类算法在不同特征选择数量情况下的预测表现，选出最佳特征选择数量，使得基础算法在该特征选择数量下具有最佳表现，此最佳特征选择数量，即设置为该特征选择方法的特征选择数量。

5.根据权利要求4所述重症脊髓损伤预后的预测模型的建立方法，其特征在于所述基础分类算法是机器学习分类算法中的逻辑回归。

6.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法，其特征在于，步骤3)中的训练机器学习分类算法中，对于任意一种特征选择算法和任一机器学习分类算法组合，机器学习分类算法的训练分为以下三个步骤：a)采用特征选择算法在训练数据集上筛选出的特征，通过网格搜索方法或者随机搜索方法，找出机器学习分类算法的最优超参数组合；b)根据所找到的最优超参数组合赋值给相应的机器学习分类算法，确定机器学习分类算法的结构；c)采用交叉验证方式训练该机器学习分类算法，获得该机器学习分类算法在训练数据集上的预测表现。