CN111370126A

CN111370126A - 基于惩罚集成模型的icu死亡率预测方法及系统

Info

Publication number: CN111370126A
Application number: CN202010188618.0A
Authority: CN
Inventors: 刘俊飙; 戴珅懿; 吴端坡
Original assignee: Hangzhou Neuro Technology Co ltd
Current assignee: Hangzhou Neuro Technology Co ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-03
Anticipated expiration: 2040-03-17
Also published as: CN111370126B

Abstract

本发明提供一种基于惩罚集成模型的ICU死亡率预测方法及系统，基于惩罚集成模型的ICU死亡率预测方法包括：从多维度获取ICU患者的多个原始数据特征；对获取的多个原始数据特征进行预处理；在原始数据特征的基础上挖掘并提取新的数据特征；基于集成模型内的算法对原始数据特征和新的数据特征进行选择，形成输入特征集；将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果，所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。

Description

基于惩罚集成模型的ICU死亡率预测方法及系统

技术领域

本发明涉及ICU死亡率预测领域，且特别涉及一种基于惩罚集成模型的ICU死亡率预测方法及系统。

背景技术

重症监护病房(ICU)集中了医院最先进的监控设备和急救设施，这使其在降低死亡率方面发挥了重要作用。预测ICU患者出院死亡率一方面有助于医院合理配置医疗资源，另一方面有助于临床医生制定诊断和治疗方案，进而降低ICU患者死亡率。但是，ICU设备形成的数据丰富且复杂，通常表现出高维、不平衡和时间异步的特征。因此，即使是经验丰富的临床医生也无法快速、准确地判断疾病的进展或疾病对患者的影响程度。如何构建一种高效、经济的ICU患者死亡率预测方法受到了越来越多的关注。

ICU患者死亡率预测传统的评分方法主要包括急性生理学和慢性健康评估(APACHE)、简化急性生理学评分(SAPS)、序贯性器官衰竭评估(SOFA)和死亡率概率模型(MPM)。这些评分方法有助于减轻临床医生压力，但考虑到它们都是建立在线性模型基础上，死亡率预测性能受到了一定的限制。另外，ICU患者出院存活人数与死亡人数差异较大，而传统方法并未考虑该差异所引起的数据分布不平衡对评分模型的影响。

发明内容

本发明为了克服现有技术的不足，提供一种采用权重惩罚策略来处理不平衡数据以提高ICU患者死亡率预测性能的基于惩罚集成模型的ICU死亡率预测方法及系统。

为了实现上述目的，本发明提供一种基于惩罚集成模型的ICU死亡率预测方法，其包括：

从多维度获取ICU患者的多个原始数据特征；

对获取的多个原始数据特征进行预处理；

在原始数据特征的基础上挖掘并提取新的数据特征；

基于集成模型内的算法对原始数据特征和新的数据特征进行选择，形成输入特征集；

将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果，所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。

根据本发明的一实施例，基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法中，权重的调整采用如下计算方式：

其中w_i表示属于第i类ICU患者的权重系数；NT表示特征集中所有ICU患者的数目；NC_i表示属于第i类ICU患者的数目；p_i表示属于第i类ICU患者的权重惩罚因子，可通过网格搜索和交叉验证方法确定最优解。

根据本发明的一实施例，将ICU患者分为存活患者和死亡患者两大类别，通过网格搜索和5折交叉验证方法获得基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法时，改进的逻辑回归算法中存活患者的权重惩罚因子p₁和死亡患者的权重惩罚因子p₂均为1，改进的LightGBM模型中的存活患者的权重惩罚因子p₁为1，死亡患者的权重惩罚因子p₂为10。

根据本发明的一实施例，基于权重投票策略集成基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法，权重投票策略计算方式为：

其中，

表示ICU患者的特征向量，

表示对ICU患者的特征向量

的加权投票策略预测结果，

表示学习算法h_j在第i类ICU患者中的概率，m_j表示学习算法h_j的权重。

根据本发明的一实施例，通过网格搜索和5折交叉验证方法获得基于权重投票策略集成基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法时，基于权重投票策略的逻辑回归算法的权重m₁为0.8，基于权重惩罚策略的LightGBM算法的权重m₂为0.2。

根据本发明的一实施例，在形成输入特征集时，对于集成模型内的基于权重惩罚策略的逻辑回归算法采用递归特征消除方法来提取；对于基于权重惩罚策略的LightGBM算法采用Kruskal-Wallis测试方法进行提取。

根据本发明的一实施例，获取ICU患者的多个原始数据特征时从人口统计学信息、ICU相关信息、手术相关信息、用药相关信息以及ICU设备产生的检测参数信息五个维度上去获取。

根据本发明的一实施例，对获取的多个原始数据特征进行预处理包括：

去除多个原始数据特征内的冗余数据；

根据预设的缺失比例处理规则对多个原始数据特征内的数据进行缺失处理；

对冗余处理和缺失处理后的数据进行归一化；

对类别型数据进行one-hot编码，将类别型数据转换成数值型数据。

相对应的，本发明还提供一种基于惩罚集成模型的ICU死亡率预测系统，其包括数据获取模块、预处理模块、数据挖掘模块、特征选择模块以及预测模块。数据获取模块从多维度获取ICU患者的多个原始数据特征。预处理模块对获取的多个原始数据特征进行预处理。数据挖掘模块在原始数据特征的基础上挖掘并提取新的数据特征。特征选择模块基于集成模型内的算法对原始数据特征和新的数据特征进行选择，形成输入特征集。预测模块将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果，所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。

综上所述，本发明提供的基于惩罚集成模型的ICU死亡率预测方法及系统在预测时集成模型通过基于权重惩罚策略的来增加死亡患者的权重以弥补传统机器学习模型中因死亡患者数量少而引起的数据不平衡，有效提高算法在不平衡数据中的分类性能。集成模型通过权重投票策略集成了以线性方式拟合各特征的逻辑回归算法和属于boosting集成分类算法的LightGBM算法，两种算法集成很好地弥补了单一算法的不足，提高集成模型的预测性能。此外，在特征提取时，在原始数据特征的基础上通过数据分析进一步挖掘并融入新的数据特征，进一步提高了集成模型的预测性能。

为让本发明的上述和其它目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合附图，作详细说明如下。

附图说明

图1所示为本发明一实施例提供的基于惩罚集成模型的ICU死亡率预测方法的流程图。

图2所示为图1所示的惩罚集成模型的ICU死亡率预测方法的原理示意图。

图3所示为采用5折正交验证法对集成模型进行训练的原理示意图。

图4所示为本发明一实施例提供的惩罚集成模型的ICU死亡率预测系统的原理框图。

具体实施方式

图1所示为本发明一实施例提供的基于惩罚集成模型的ICU死亡率预测方法的流程图。图2所示为图1所示的惩罚集成模型的ICU死亡率预测方法的原理示意图。图3所示为采用5折交叉验证法对集成模型进行训练的原理示意图。图4所示为本发明一实施例提供的惩罚集成模型的ICU死亡率预测系统的原理框图。请一并参阅图1至图4。

如图1和图2所示，本实施例提供的基于惩罚集成模型的ICU死亡率预测方法包括：从多维度获取ICU患者的多个原始数据特征(步骤S10)。对获取的多个原始数据特征进行预处理(步骤S20)。在原始数据特征的基础上挖掘并提取新的数据特征(步骤S30)。在原始数据特征的基础上挖掘并提取新的数据特征(步骤S40)。将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果，所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法(步骤S50)。以下将结合图1和图2来详细介绍本实施例提供的基于惩罚集成模型的ICU死亡率预测方法的工作原理。

本实施例提供的基于惩罚集成模型的ICU死亡率预测方法始于步骤S10，在该步骤中系统从多维度获取ICU患者的多个原始数据特征。于本实施例中，系统从人口统计学信息、ICU相关信息、手术相关信息、用药相关信息以及ICU设备产生的检测参数信息五个维度上去获取。然而，本发明对此不作任何限定。多维度的信息获取能更全面地了解ICU患者的信息并能从这些信息中也能挖掘出更多新的有利于ICU患者死亡率预测的特征。

具体而言，于本实施例中，①人口统计学信包括：患者的性别、年龄、婚姻状态、是否吸烟、是否饮酒，共5个特征。②ICU相关信息：入院时间、出院时间、入院科室、血型、是否转科、是否抢救、初步诊断、医疗总费用、抢救次数、是否签订拒绝或放弃医疗通知书、疾病类别、入院时意识、转科前意识、出院意识、室颤、房颤和诊断结果，共13个特征。③手术相关信息：手术等级、麻醉类型、伤口愈合等级、ASA级别、手术日期、手术名称、手术持续时间、手术过程中失血量、输血中红细胞量、输血中血浆量、输血中全血量、自体输血量、输血中白蛋白量、手术前意识和手术后意识，共15个特征。④用药相关信息：抗凝药种类、抗凝药服药时间、凝血药种类和凝血药服药时间，共4个特征。⑤ICU设备产生的检测参数信息：白细胞计数、中性粒细胞计数、淋巴细胞计数、单核细胞计数、嗜酸性粒细胞计数、嗜碱性粒细胞计数、红细胞计数、血红蛋白含量、血细胞比容、平均红细胞容量、平均血红蛋白含量、平均红细胞血红蛋白浓度、红细胞容量分布宽度、血小板计数、高敏C反应蛋白、凝血酶原时间、凝血酶原时间百分比、凝血酶原国际归一化比率、激活部分凝血活酶时间、纤维蛋白原浓度、凝血酶时间、D-二聚体、纤维蛋白原降解产物、中性粒细胞计数比、嗜碱性粒细胞计数比、嗜酸性粒细胞计数比、单核细胞计数比和淋巴细胞计数比，共28个特征。然而，本发明对此不作任何限定。

在获得上述五个维度的原始数据特征后，执行步骤S20，对获取的多个原始数据特征进行预处理。于本实施例中，所述预处理步骤包括：去除多个原始数据特征内的冗余数据(步骤S201)。根据预设的缺失比例处理规则对多个原始数据特征内的数据进行缺失处理(步骤S201)。对冗余处理和缺失处理后的数据进行归一化；对类别型数据进行one-hot编码，将类别型数据转换成数值型数据(步骤S203)。

首先，在步骤S201中，对收集的原始数据特征进行统计分析，按照预先设定的去冗余规则进行冗余数据的去除。譬如，对于多次进入的ICU患者的数据，只纳入其第一次的数据，其余排除；对于患者年龄低于15周岁的原始数据特征也排除。然而，本发明对去冗余规则的具体内容不作任何限定。

之后执行步骤S202，根据预设的缺失比例处理规则对多个原始数据特征内的数据进行缺失处理。具体而言，当缺失值比例低于10％时，使用众数填充；当缺失值比例在20％-50％之间时，数值型特征用-999填充，类别型特征用‘Unknow’填充；当缺失值比例超过50％时，将该特征直接删除。

在缺失处理后，对数值型数据进行z-score归一化处理(步骤S203)，将数值型特征范围限定在0-1内，减少不同量纲数据对机器学习算法的不利影响。最后执行步骤S204，对类别型数据进行one-hot编码，将类别型数据转换成数值型数据以作为后续机器学习算法的输入。

在预处理完成后执行步骤S30，在原始数据特征的基础上挖掘并提取新的数据特征，新的数据特征的挖掘可不断地优化并提高了模型的预测性能。于本实施例中，在原始数据特征的基础上，提取十个新的与ICU患者死亡率预测相关的特征，其包括中性粒细胞与淋巴细胞的比率、血小板至淋巴细胞比率、入院季节、手术次数、入院时间与手术时间间隔、第一次手术与第二次手术时间间隔、是否手术、凝血药类型数量、抗凝药类型数量及是否同时使用凝血药和抗凝药。然而，本发明对新的数据特征的个数以及具体的内容不作任何限定。

于本实施例提供的ICU死亡率预测方法是基于惩罚集成模型，惩罚集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。对于不同的机器学习算法，步骤S40采用不同的特征选择算法。具体而言，对于逻辑回归算法，使用递归特征消除方法进行特征选择，获得特征集一，数据特征的数量为87。针对LightGBM算法，使用Kruskal-Wallis测试方法进行特征选择，获得特征集二，数据特征的数量为93。然而，本发明对特征集内的数据特征的数量不作任何限定。

在获得特征集一和特征集二后执行步骤S50，将两者分别输入已训练且测试好的集成有基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法的惩罚集成算法内从而获得预测结果。

于本实施例中，逻辑回归算法和LightGBM算法均为基于权重惩罚策略的算法，以下简称为改进的逻辑回归算法和改进的LightGBM算法。对于权重惩罚策略而言，两种算法均采用如下公式来调整每类ICU患者的权重：

一般来说，ICU存活患者的数量要大于死亡患者的数量，在传统的预测模型中，两类数据的分布不平衡会使模型的结果产生较大的偏差。为解决这一数据分布不平衡的问题，于本实施例中，改进的逻辑回归算法或改进的LightGBM算法为死亡患者这一类别的ICU患者赋予更大的权重。具体而言，改进的逻辑回归算法中存活患者的权重惩罚因子p₁和死亡患者的权重惩罚因子p₂均为1，改进的LightGBM模型中的存活患者的权重惩罚因子p₁为1，死亡患者的权重惩罚因子p₂为10。然而，本发明对此不作任何限定。

于本实施例中，在集成模型内，改进的逻辑回归算法和改进的LightGBM算法是基于权重投票策略集成在一起，权重投票策略计算方式为：

其中，

表示ICU患者的特征向量，

表示对ICU患者的特征向量

的加权投票策略预测结果，

于本实施例中，采用网格搜索和5折交叉验证方法来获取两种算法集成时的权重。优选的，基于权重投票策略的逻辑回归算法的权重m₁为0.8，基于权重惩罚策略的LightGBM算法的权重m₂为0.2。

本实施提供的惩罚集成模型在原始的逻辑回归算法和原始的LightGBM算法基础上按照公式1分别构建了基于权重惩罚的逻辑回归算法和基于权重惩罚的LightGBM算法，以便能够处理ICU中的不平衡患者的数据分布问题。其中改进的逻辑回归算法通过线性方式拟合各特征，模型的表达能力相对较弱，但将通过递归特征消除方法进行特征选择后的特征输入到逻辑回归中，大大提高了每个特征的表达能力。改进的LightGBM则是一种boosting类的集成分类算法，在LightGBM中，各个基学习器存在强依赖关系，即先从初始样本训练集训练出一个基学习器，再根据基学习器的预测值与真实值之间的残差再训练下一个基学习器。如此重复，不断优化，直至达到事先设定的阈值条件，具有很强的非线性表达，模型拟合能力较强。

以下将结合图3来详细介绍本实施例提供的集成模型的训练过程。

首先，采用步骤S10至S40的方法在医院数据库中搜集多个历史ICU患者的数据并形成样本数据库。在样本数据库内获取多个数据样本以形成样本数据集，将样本数据集分成样本训练集、样本验证集和样本测试集。

于本实施例中，将样本训练集和样本验证集合并后输入改进的逻辑回归算法和改进的LightGBM算法中，使用网格搜索和5折交叉验证方法分别调整两个算法中的权重惩罚因子p₁和p₂及投票权重系数m₁和m₂。5折交叉验证方法的具体步骤为：①首先将样本训练集和样本验证集合并，然后均分成五个大小相同的互斥子集，每个子集尽量保证数据分布一致性。②每次用四个子集的并集作为训练子集，剩下的一个子集作为验证子集，重复这个操作五次，获得五组验证集。③五个验证集对算法的预测结果进行投票，票数最多的作为最终预测类别。接着，设置p₁、p₂、m₁和m₂的可能取值均为0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9，使用网格搜索寻找最优的p₁、p₂、m₁和m₂，其中每一次寻优都采用5折交叉验证方法。于本实施例中，改进的逻辑回归算法中存活患者的权重惩罚因子p₁和死亡患者的权重惩罚因子p₂均为1，改进的LightGBM模型中的存活患者的权重惩罚因子p₁为1，死亡患者的权重惩罚因子p₂为10，基于权重投票策略的逻辑回归算法的权重m₁为0.8，基于权重惩罚策略的LightGBM算法的权重m₂为0.2。之后，采用公式2所提供的权重投票策略将两种算法进行集成后输出最终的预测结果，形成训练好的集成模型。

最后，采用样本测试集对训练好的集成模型进行测试。

相对应的，本实施例还提供一种基于惩罚集成模型的ICU死亡率预测系统，其包括数据获取模块1、预处理模块2、数据挖掘模块3、特征选择模块4以及预测模块5。数据获取模块1从多维度获取ICU患者的多个原始数据特征。预处理模块2对获取的多个原始数据特征进行预处理。数据挖掘模块3在原始数据特征的基础上挖掘并提取新的数据特征。特征选择模块4基于集成模型内的算法对原始数据特征和新的数据特征进行选择，形成输入特征集。预测模块5将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果，所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。

本实施例提供的基于惩罚集成模型的ICU死亡率预测系统的工作原理如步骤S10至步骤S50所述，在此不作赘述。

综上所述，本发明提供的基于惩罚集成模型的ICU死亡率预测方法及系统在预测时集成模型通过基于权重惩罚策略的来增加死亡患者的权重以弥补传统机器学习模型中因死亡患者信息少而引起的数据不平衡，有效提高算法在不平衡数据中的分类性能。集成模型通过权重投票策略集成了以线性方式拟合各特征的逻辑回归算法和属于boosting集成分类算法的LightGBM算法，两种算法集成很好地弥补了单一算法的不足，提高集成模型的预测性能。此外，在特征提取时，在原始数据特征的基础上通过数据分析进一步挖掘并融入新的数据特征，进一步提高了集成模型的预测性能。

虽然本发明已由较佳实施例揭露如上，然而并非用以限定本发明，任何熟知此技艺者，在不脱离本发明的精神和范围内，可作些许的更动与润饰，因此本发明的保护范围当视权利要求书所要求保护的范围为准。

Claims

1.一种基于惩罚集成模型的ICU死亡率预测方法，其特征在于，包括：

从多维度获取ICU患者的多个原始数据特征；

对获取的多个原始数据特征进行预处理；

在原始数据特征的基础上挖掘并提取新的数据特征；

2.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法，其特征在于，基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法中，权重的调整采用如下计算方式：

其中w_i表示属于第i类ICU患者的权重系数；NT表示特征集中所有ICU患者的数目；NC_i表示属于第i类ICU患者的数目；p_i表示属于第i类ICU患者的权重惩罚因子，通过网格搜索和交叉验证方法确定最优解。

3.根据权利要求2所述的基于惩罚集成模型的ICU死亡率预测方法，其特征在于，将ICU患者分为存活患者和死亡患者两大类别，通过网格搜索和5折交叉验证方法获得基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法时，改进的逻辑回归算法中存活患者的权重惩罚因子p₁和死亡患者的权重惩罚因子p₂均为1，改进的LightGBM模型中的存活患者的权重惩罚因子p₁为1，死亡患者的权重惩罚因子p₂为10。

4.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法，其特征在于，基于权重投票策略集成基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法，权重投票策略计算方式为：

其中，

表示ICU患者的特征向量，

表示对ICU患者的特征向量

的加权投票策略预测结果，

5.根据权利要求4所述的基于惩罚集成模型的ICU死亡率预测方法，其特征在于，通过网格搜索和5折交叉验证方法获得基于权重投票策略集成基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法时，基于权重投票策略的逻辑回归算法的权重m₁为0.8，基于权重惩罚策略的LightGBM算法的权重m₂为0.2。

6.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法，其特征在于，在形成输入特征集时，对于集成模型内的基于权重惩罚策略的逻辑回归算法采用递归特征消除方法进行特征选择；对于基于权重惩罚策略的LightGBM算法采用Kruskal-Wallis测试方法进行特征选择。

7.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法，其特征在于，获取ICU患者的多个原始数据特征时从人口统计学信息、ICU相关信息、手术相关信息、用药相关信息以及ICU设备产生的检测参数信息五个维度上去获取。

8.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法，其特征在于，对获取的多个原始数据特征进行预处理包括：

去除多个原始数据特征内的冗余数据；

对冗余处理和缺失处理后的数据进行归一化；

9.一种基于惩罚集成模型的ICU死亡率预测系统，其特征在于，包括：

数据获取模块，从多维度获取ICU患者的多个原始数据特征；

预处理模块，对获取的多个原始数据特征进行预处理；

数据挖掘模块，在原始数据特征的基础上挖掘并提取新的数据特征；

特征选择模块，基于集成模型内的算法对原始数据特征和新的数据特征进行选择，形成输入特征集；

预测模块，将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果，所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。