CN109119167A

CN109119167A - 基于集成模型的脓毒症死亡率预测系统

Info

Publication number: CN109119167A
Application number: CN201810758910.4A
Authority: CN
Inventors: 王红; 刘海燕; 王露潼; 房有丽; 狄瑞彤; 周莹; 王倩; 宋永强; 张伟; 胡斌
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2019-01-01
Anticipated expiration: 2038-07-11
Also published as: CN109119167B

Abstract

本发明公开了基于集成模型的脓毒症死亡率预测系统，包括：输入器，用于获取被测者脓毒症相关检测项目的测量值；处理器，与输入器相连，所述处理器用于对输入器获取的数据进行处理，输出脓毒症死亡率的预测值；所述处理器，包括：数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块；数据预处理门口对数据进行预处理，多维特征选择模块对预处理后的特征进行特征选择，筛选出重要的特征，将重要的特征输入到集成模型构建模块构建的集成模型中，对集成模型进行训练，利用训练好的集成模型对预测及进行脓毒症死亡率的预测；本发明使得脓毒症病患的各项生理指标与死亡率建立联系，测试准确度高。

Description

基于集成模型的脓毒症死亡率预测系统

技术领域

本发明涉及医疗数据挖掘领域，特别是涉及基于集成模型的脓毒症死亡率预测系统。

背景技术

脓毒症是机体对感染的反应失调而导致的危及生命的器官功能障碍，是重症监护室的常见疾病及其患者死亡的主要原因之一，而且发病率和死亡率仍呈上升趋势。据统计，每年全球新增数百万脓毒症患者，其中超过四分之一的患者死亡。虽然全世界范围内的医学人士和专家都在积极进行临床研究，但是对于脓毒症临床指标的选取以及死亡率预测仍然缺乏有效的手段。选取合适的特征并进行死亡率预测是该疾病预后的一项重要工作，预测准确性越高，越有利于医生做出精准的临床决策，从而可以提高诊疗的效率。

目前，基于数据挖掘和机器学习相关理论，探索基于脓毒症多维临床指标的死亡率预测系统尚未出现。

发明内容

为了克服上述现有技术的不足，本发明提供了基于集成模型的脓毒症死亡率预测系统，基于加权投票的随机森林、GBDT和逻辑回归的集成模型，使得脓毒症病患的各项生理指标与死亡率建立联系，具有测试准确度高的有益效果。

本发明所采用的技术方案是：

基于集成模型的脓毒症死亡率预测系统，包括：

输入器，用于获取被测者脓毒症相关检测项目的测量值；

处理器，与输入器相连，所述处理器用于对输入器获取的数据进行处理，输出脓毒症死亡率的预测值；所述处理器，包括：数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块；

所述数据预处理模块，用于对被测者脓毒症相关检测项目测量值的噪声数据或缺失数据进行清洗，对清洗后的数据进行数据转换和归一化处理；

所述多维特征选择模块，用于建立与被测者脓毒症相关检测项目测量值相对应特征项，将特征项作为第一样本，通过基于改进的随机森林算法对所述第一样本进行特征选择，得到被测者脓毒症相关检测项目测量值的若干个主特征子集，将若干个主特征子集构成的样本集合作为第二样本；

所述集成模型构建模块，对随机森林、梯度提升树GBDT和逻辑回归三个基分类器，采用加权投票融合的方法，构建集成模型；

所述集成模型预测模块，将第二样本随机分为训练集和预测集，利用训练集对集成模型进行训练，然后利用预测集对训练好的集成模型进行测试，输出脓毒症死亡率预测值。

本发明基于加权投票的随机森林、GBDT和逻辑回归的集成模型，使得脓毒症病患的各项生理指标与死亡率建立联系，具有测试准确度高、可靠性强且较稳定的有益效果。

进一步的，所述脓毒症相关检测项目，包括：ICU停留ID、患者ID、住院ID、性别、入院时间、出院时间、年龄、种族、首次ICU类型、是否在入院时死亡、是否在入院30天内死亡、吸入氧气浓度、血氧饱和度、序贯器官衰竭评分、全身炎症反应综合评分、脓毒症确诊时间、乳酸清除率、用药时间、是否进行机械通气、治疗开始时间或治疗结束时间。

进一步的，所述数据预处理模块，包括：

数据筛选单元，用于对被测者脓毒症相关检测项目测量值进行筛选，对乳酸清除率测量缺失值进行填充，对测量噪音值进行剔除，测量噪音值主要包括记录错误的测量指标、单位不统一的测量指标、ICU停留ID、患者ID或住院ID。

数据转换单元，用于对经筛选、填充和剔除后的被测者脓毒症相关检测项目测量值进行格式转换；

数据归一化单元，用于采用被测者脓毒症相关检测项目测量值的最大值和最小值对格式转换后的被测者脓毒症相关检测项目测量值进行归一化处理。

进一步的，所述多维特征选择模块包括：

所述欠采样单元，在n条记录的脓毒症数据集中，引入区间参数m和n，在区间之间产生变量a，以有放回的形式随机从大类样本训练集中抽取n×a个大类实例，从小类样本训练集中抽取n×(1-a)个小类实例，所述大类实例是指存活样本；所述小类实例是指死亡样本；并将抽取的大类实例与小类实例随机组合获得多个平衡数据集。

所述随机森林特征选择单元，使用改进的随机森林算法，对平衡数据集中的特征进行特征选择，筛选出最重要的若干个特征作为最终分类的主特征子集。

进一步的，改进的随机森林算法的具体步骤为：

步骤(1)：采用10折交叉验证的方法，计算欠采样后得到的平衡数据集中每个特征的重要性；

步骤(2)：根据决策树所做的贡献来决定权重，基于多棵决策树的判定结果对一致性高的决策树分配高的权重；

步骤(3)：用每个特征重要性乘以每个决策树的权重，再将乘积结果求平均即获得最终的特征重要性度量值；对最终的特征重要性度量值从高到低进行排序，获取排序靠前的设定个特征作为最终分类的主特征子集。

进一步的，所述步骤(1)的具体步骤为：

每个特征重要性度量值FI_ij的计算公式如下：

其中，i代表第i个平衡数据集，j代表第j个特征，k代表第k层数据，第j个特征的特征重要性度量是由ACC和ACCF_j的差值决定的，ACC代表扰动属性值前的分类准确率，ACCF_j代表扰动第j个属性值后的分类准确率；ACC_ik表示第i个平衡数据集第k层数据扰动属性值前的分类准确率，ACCF_ijk表示第i个平衡数据集第k层数据扰动第j个属性值前的分类准确率。

进一步的，所述步骤(2)的具体步骤为：

在S条记录的测试数据集中，第i棵树的权重W_i：

其中T_ij表示第i棵树对第j个实例的预测结果，E_j表示对第j个实例的集成预测结果，ACCE表示集成预测的准确率。

进一步的，所述步骤(3)的具体步骤为：

通过每棵决策树确定所有特征的重要性度量值以后，乘以各树的权重，求平均即获得最终的特征重要性度量值FinalFI_j，对最终的特征重要性度量值从高到低进行排序，获取排序靠前的设定个特征作为最终分类的特征子集。

进一步的，所述集成模型构建模块，包括：基模型选取单元和集成单元；

基模型选取单元，选取随机森林、GBDT以及逻辑回归三个模型；

集成单元，按照加权融合的方法将三个模型构建集成预测模型；

加权融合公式为：

其中，w_t(x)是模型h_t(x)的权重，w_t(x)≥0，权重由交叉验证得到的准确率决定。

与现有技术相比，本发明的有益效果是：

本发明提出的基于集成模型的脓毒症死亡率预测系统提出了多维特征预测方法；

其次，提出了一种改进的随机森林算法实现对原始的多维特征提取，通过改进的随机森林算法提取特征子集作为主特征，提高了利用经验学习进行特征提取的弊端，使可以对特征子集进行交叉验证获取最优的特征组；

最后，提出基于加权投票的随机森林、GBDT和逻辑回归的集成模型，实现了基于多维特征脓毒症死亡率预测模型，可以在不破坏原始数据结构的前提下，充分挖掘患者电子病例的原有信息，提高模式分类精度，可以极大地降低治疗成本，并有效地保证了疾病诊断的实时性。本发明可用于脓毒症预后预测，帮助医生做出更加精准的临床决策。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明基于集成模型的脓毒症死亡率预测系统结构图；

图2为本发明早晚期液体输注的死亡率对比图；

图3为本发明早晚期液体输注的乳酸清除率对比图；

图4为本发明特征重要性排序；

图5为本发明不同分类器准确率对比图；

图6为本发明ROC对比图；

图7为本发明准确率对比图；

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本申请的一种典型的实施方式中，如图1所示，一种基于集成模型的脓毒症死亡率预测系统，该系统包括：输入器，用于获取被测者脓毒症相关检测项目及其测量值；处理器，与输入器相连，具有数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型测试模块；

所述数据预处理模块，用于对被测者脓毒症相关检测测量值的噪声数据、缺失数据进行清洗，对部分特征属性进行数据转换和归一化处理；

所述多维特征选择模块，用于建立与被测者脓毒症相关检测项目测量值相对应的原始多维特征项作为第一样本，通过基于改进的随机森林算法对所述第一样本进行特征降维，得到基于被测者脓毒症相关检测项目测量值的若干个主特征子集，建立以若干个主特征子集构成的样本集合作为第二样本；

所述集成模型构建模块，对随机森林、GBDT、逻辑回归这个三个基分类器采用加权投票融合的方法，构建集成模型；

所述集成模型测试模块，用于将所述第二样本随机分为训练集和预测集，训练集用于生成训练器，在训练器的基础上，根据每个基分类器进行交叉验证后的准确率为其分配权重，性能表现好的分类器会拥有更高的权重，然后利用预测集对集成模型进行测试。

本实施例从MIMIC-III数据库中提取了2464名年龄在18岁以上并且是首次进入ICU的脓毒症患者的临床信息构成初始数据集，总共包括5372个样本，每位患者需要检测的主要指标有22个，如表1所示。

进一步的，本系统还包括数据筛选单元，用于对所述被测者脓毒症相关检测项目及其测量值进行筛选，数据转换单元，用于对经筛选后的被测者脓毒症相关检测项目测量值进行格式转换。

首先，进行数据格式转换。对导入数据存在的部分列没有对齐的问题，以及多出列的情况，进行人工处理。再次，进行非需求数据清洗。

进一步的，所述多维特征选择模块包括欠采样单元和随机森林特征选择单元；

所述欠采样单元，用于在类别不平衡数据集中构建多个与小类实例数量相同的大类实例集，并将其组合获得多个平衡数据集；

所述随机森林特征选择单元，使用随机森林算法结合交叉验证将归约后的被测者脓毒症相关检测项目测量值的等价类特征中对分类不重要的特征剔除。

进一步的，所述随机森林特征选择单元还包括特征重要性度量子单元和权重子单元；

所述特征重要性度量子单元针对每个特征利用10折交叉验证和特征重要性计算公式计算每个特征的重要性；

所述权重子单元由决策树对集成所做的贡献决定权重，基于集成判定结果对一致性高的决策树分配更高的权重，通过每棵决策树确定所有特征的重要性度量值以后，乘以各树的权重，求平均即可获得最终的特征重要性度量值，获得最终分类的主特征子集。

该多维特征选择模块进行多维特征选择的具体步骤如下：

(1)欠采样单元：欠采样方法通过抽取多个与小类实例数量相同的大类实例将不平衡的数据集转化为平衡数据集，类别不平衡问题是指当训练数据集中的不同类别的样本数目差别悬殊时，小类样本易被误分为大类样本，从而导致较高的假阳性率，分类算法的性能也会出现明显下降。我们使用的脓毒症数据集就属于类别不平衡数据集，其中死亡样本为小类，存活样本为大类。欠采样方法是一种解决类别不平衡问题的有效方法。普通的欠采样方法需要在类别不平衡数据集中抽取多个与小类样本数量相同的大类样本，并将抽取的样本与小类样本随机组合获得多个平衡数据集；我们提出的改进的欠采样方法并不是取固定数量的与小类样本数量相等的大类样本，而是在有n条记录的数据集中，引入区间参数m和n，在区间之间产生变量a，以有放回的形式随机从大类样本训练集中抽取na个实例，从小类样本训练集中抽取n(1-a)个实例，并将其组合获得多个平衡数据集，这样使得大类和小类的取样数量可以根据需要进行调整。

(2)特征重要性度量子单元：在改进的随机森林算法采用10折交叉验证的方法来获取特征重要性度量值。单棵树的特征重要性度量值的计算公式如下：

其中i代表第i个数据集，j代表第j个特征，k代表第k层数据。第j个属性的特征重要性度量是有ACC和ACCF_j的差值决定的，ACC代表扰动属性值前的分类准确率，ACCF_j代表扰动第j个属性值后的分类准确率。

(3)权重子单元：与最终集成判定结果一致性高的决策树应该具有更高的权重，其所获得的特征重要性度量具有更好的可信度，在有S条记录的测试数据集中，第i棵树的权重可通过下列公式计算：

计算特征重要性时使用的是欠采样后的数据集，使用交叉验证方法获得单棵决策树在某一种欠采样数据上对特征重要程度的一个判断；而在计算权重时使用的是out-of-bag数据集，在构建每棵树时，我们对训练集使用了不同的bootstrap sample(随机且有放回地抽取)，所以对于每棵树而言(假设对于第k棵树)，大约有1/3的训练实例没有参与第k棵树的生成，它们称为第k棵树的袋外样本，然后由决策树对集成所做的贡献决定权重。通过每棵决策树确定所有特征的重要性度量值以后，乘以各树的权重，求平均即可获得最终的特征重要性度量值，获取最终分类的特征子集。

所述集成模型构建模块，包括基模型选取单元和集成单元，集成模型构建的具体步骤如下：

(1)基模型选取单元：选取三个模型随机森林、GBDT以及逻辑回归作为基模型；

(2)集成单元：按照加权融合的方法使用三个基模型构建集成预测模型；

加权融合公式为：

其中w_t(x)是h_t(x)的权重，w_t(x)≥0，权重由交叉验证得到的准确率决定。

实施例2：

表1Sepsis特征表

本实施例的目的是提供一种基于集成模型的脓毒症死亡率预测系统，其步骤包括：

(1)对获取的样本数据进行数据处理

第一步：首先，进行数据格式转换。对导入数据存在的部分列没有对齐的问题，以及多出列的情况，进行人工处理。

第二步：对原始数据进行筛选，数据中的住院ID、患者ID、ICU停留ID等与本发明无关，属于非需求数据，因此将其直接删除掉。

(2)对获取的样本数据进行数据分析

第一步：对数据进行分类，在脓毒症发作后六个小时内进行超过500ml液体输注(Bolus)的属于早期液体输注，在六个小时到十二个小时之间进行超过500ml液体输注的属于晚期液体输注；

第二步：分析液体输注时间对脓毒症患者的死亡率以及乳酸清除率的影响，并将相关性分析的结果进行可视化，如图2，图3所示。说明早期液体输注和更低的死亡率显著相关，并且可以提高乳酸清除率，这也印证了临床诊疗中早期乳酸清除率对脓毒症患者液体复苏治疗的指导作用。

(2)改进的随机森林算法进行多维特征选取

第一步：欠采样。数据集为不平衡数据集，其中死亡样本为小类，存活样本为大类，在有5372条记录的数据集中，引入区间参数m和n，在区间之间产生变量a，以有放回的形式随机从大类样本训练集中抽取na个实例，从小类样本训练集中抽取n(1-a)个实例，并将其组合获得多个平衡数据集，并且大类和小类的取样数量可以根据需要进行调整。

第二步：特征重要性度量。在改进的随机森林算法采用10折交叉验证的方法来获取特征重要性度量值。

第三步：权重度量。与最终集成判定结果一致性高的决策树应该具有更高的权重，使用公式计算每棵树的权重，权重高的树所获得的特征重要性度量具有更好的可信度。通过每棵决策树确定所有特征的重要性度量值以后，乘以各树的权重，求平均即可获得最终的特征重要性度量值。通过改进的随机森林算法获得了8个重要特征。特征权重归一化后，特征按权重排序如图4所示。提取的最优特征子集组合将作为集成模型的输入。

为了进一步说明改进的随机森林算法提取的特征子集的有效性，本发明对特征子集进行交叉验证，从表2结果可以看出这8个变量的检验统计量都大于即在其他7个变量不变的情况下，第8个变量对模型有着显著的影响，因此我们选取的这8个特征对于脓毒症死亡率预测具有一定的指导意义。

表2似然比检验表

变量	F3	F6	F7	F13	F14	F16	F17	F18
									G	4.1	6.9	7.6	11.4	5.9	10.7	3.9	4.7

(3)构建集成模型

第一步：基模型选取。为了获知分类器在本文数据集上的表现性能，我们首先选取了7个常用的分类器进行训练，其各自的平均准确率如图5所示，可以看出，随机森林、GBDT和逻辑回归三个分类器的表现性能是最好的且相差不大，我们选择这三个分类器进行集成预测。

第二步：模型集成。使用加权投票法进行模型集成，基模型的权重由交叉验证确定。(5)对集成模型进行测试

本发明将提出的基于集成模型的脓毒症死亡率预测系统与随机森林、GBDT、逻辑回归这三个单一分类器的预测结果来进行比较，本发明的基于集成模型的脓毒症死亡率预测系统在准确率、ROC、F₁值三个指标都取得了良好的效果，准确率、F1对比结果如表3，ROC对比结果如图6。

表3方法比较

方法	准确率	F1
			Logistic Regression	85.3％	82.9％
GBDT	87.5％	84.6％
			Random Forset	91.2％	88.4％
Ensembel Model	93.7％	90.3％

实施例三

为了验证模型的稳健性和可靠性，比较简单投票法和加权投票法的效果，我们将随机森林、GBDT和逻辑回归这三个分类器的预测结果通过简单投票法进行了处理，其与加权投票法的准确率对比如图7。由图中可以看出，加权投票法的准确率要明显优于简单投票法。简单投票法中每个分类器的权重是一样的，按照少数服从多数的原则，类别得票数高的作为分类结果，这种方式无法体现性能表现好的分类器的优势，而加权投票法中每个分类器的权重是不同的，分类性能高的分类器会被赋予更高的权重，有助于提高最终的分类效果。检验可知支持向量机模型具有一定的可靠性和稳健性，比较令人满意。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于集成模型的脓毒症死亡率预测系统，其特征是，包括：

输入器，用于获取被测者脓毒症相关检测项目的测量值；

2.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统，其特征是，所述脓毒症相关检测项目，包括：ICU停留ID、患者ID、住院ID、性别、入院时间、出院时间、年龄、种族、首次ICU类型、是否在入院时死亡、是否在入院30天内死亡、吸入氧气浓度、血氧饱和度、序贯器官衰竭评分、全身炎症反应综合评分、脓毒症确诊时间、乳酸清除率、用药时间、是否进行机械通气、治疗开始时间或治疗结束时间。

3.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统，其特征是，所述数据预处理模块，包括：

数据筛选单元，用于对被测者脓毒症相关检测项目测量值进行筛选，对乳酸清除率测量缺失值进行填充，对测量噪音值进行剔除，测量噪音值主要包括记录错误的测量指标、单位不统一的测量指标、ICU停留ID、患者ID或住院ID；

4.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统，其特征是，所述多维特征选择模块包括：

所述欠采样单元，在n条记录的脓毒症数据集中，引入区间参数m和n，在区间之间产生变量a，以有放回的形式随机从大类样本训练集中抽取n×a个大类实例，从小类样本训练集中抽取n×(1-a)个小类实例，所述大类实例是指存活样本；所述小类实例是指死亡样本；并将抽取的大类实例与小类实例随机组合获得多个平衡数据集；

5.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统，其特征是，改进的随机森林算法的具体步骤为：

6.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统，其特征是，所述步骤(1)的具体步骤为：

每个特征重要性度量值FI_ij的计算公式如下：

7.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统，其特征是，所述步骤(2)的具体步骤为：

在S条记录的测试数据集中，第i棵树的权重W_i：

8.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统，其特征是，所述步骤(3)的具体步骤为：

通过每棵决策树确定所有特征的重要性度量值以后，乘以各树的权重，求平均即获得最终的特征重要性度量值FinalFI_j，对最终的特征重要性度量值从高到低进行排序，获取排序靠前的设定个特征作为最终分类的特征子集；

9.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统，其特征是，所述集成模型构建模块，包括：基模型选取单元和集成单元；

集成单元，按照加权融合的方法将三个模型构建集成预测模型。

10.如权利要求9所述的基于集成模型的脓毒症死亡率预测系统，其特征是，加权融合公式为：