CN111370126A - 基于惩罚集成模型的icu死亡率预测方法及系统 - Google Patents

基于惩罚集成模型的icu死亡率预测方法及系统 Download PDF

Info

Publication number
CN111370126A
CN111370126A CN202010188618.0A CN202010188618A CN111370126A CN 111370126 A CN111370126 A CN 111370126A CN 202010188618 A CN202010188618 A CN 202010188618A CN 111370126 A CN111370126 A CN 111370126A
Authority
CN
China
Prior art keywords
icu
weight
penalty
strategy
patients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010188618.0A
Other languages
English (en)
Other versions
CN111370126B (zh
Inventor
刘俊飙
戴珅懿
吴端坡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Neuro Technology Co ltd
Original Assignee
Hangzhou Neuro Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Neuro Technology Co ltd filed Critical Hangzhou Neuro Technology Co ltd
Priority to CN202010188618.0A priority Critical patent/CN111370126B/zh
Publication of CN111370126A publication Critical patent/CN111370126A/zh
Application granted granted Critical
Publication of CN111370126B publication Critical patent/CN111370126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于惩罚集成模型的ICU死亡率预测方法及系统,基于惩罚集成模型的ICU死亡率预测方法包括:从多维度获取ICU患者的多个原始数据特征;对获取的多个原始数据特征进行预处理;在原始数据特征的基础上挖掘并提取新的数据特征;基于集成模型内的算法对原始数据特征和新的数据特征进行选择,形成输入特征集;将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果,所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。

Description

基于惩罚集成模型的ICU死亡率预测方法及系统
技术领域
本发明涉及ICU死亡率预测领域,且特别涉及一种基于惩罚集成模型的ICU死亡率预测方法及系统。
背景技术
重症监护病房(ICU)集中了医院最先进的监控设备和急救设施,这使其在降低死亡率方面发挥了重要作用。预测ICU患者出院死亡率一方面有助于医院合理配置医疗资源,另一方面有助于临床医生制定诊断和治疗方案,进而降低ICU患者死亡率。但是,ICU设备形成的数据丰富且复杂,通常表现出高维、不平衡和时间异步的特征。因此,即使是经验丰富的临床医生也无法快速、准确地判断疾病的进展或疾病对患者的影响程度。如何构建一种高效、经济的ICU患者死亡率预测方法受到了越来越多的关注。
ICU患者死亡率预测传统的评分方法主要包括急性生理学和慢性健康评估(APACHE)、简化急性生理学评分(SAPS)、序贯性器官衰竭评估(SOFA)和死亡率概率模型(MPM)。这些评分方法有助于减轻临床医生压力,但考虑到它们都是建立在线性模型基础上,死亡率预测性能受到了一定的限制。另外,ICU患者出院存活人数与死亡人数差异较大,而传统方法并未考虑该差异所引起的数据分布不平衡对评分模型的影响。
发明内容
本发明为了克服现有技术的不足,提供一种采用权重惩罚策略来处理不平衡数据以提高ICU患者死亡率预测性能的基于惩罚集成模型的ICU死亡率预测方法及系统。
为了实现上述目的,本发明提供一种基于惩罚集成模型的ICU死亡率预测方法,其包括:
从多维度获取ICU患者的多个原始数据特征;
对获取的多个原始数据特征进行预处理;
在原始数据特征的基础上挖掘并提取新的数据特征;
基于集成模型内的算法对原始数据特征和新的数据特征进行选择,形成输入特征集;
将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果,所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。
根据本发明的一实施例,基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法中,权重的调整采用如下计算方式:
Figure BDA0002415071580000021
其中wi表示属于第i类ICU患者的权重系数;NT表示特征集中所有ICU患者的数目;NCi表示属于第i类ICU患者的数目;pi表示属于第i类ICU患者的权重惩罚因子,可通过网格搜索和交叉验证方法确定最优解。
根据本发明的一实施例,将ICU患者分为存活患者和死亡患者两大类别,通过网格搜索和5折交叉验证方法获得基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法时,改进的逻辑回归算法中存活患者的权重惩罚因子p1和死亡患者的权重惩罚因子p2均为1,改进的LightGBM模型中的存活患者的权重惩罚因子p1为1,死亡患者的权重惩罚因子p2为10。
根据本发明的一实施例,基于权重投票策略集成基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法,权重投票策略计算方式为:
Figure BDA0002415071580000022
其中,
Figure BDA0002415071580000023
表示ICU患者的特征向量,
Figure BDA0002415071580000024
表示对ICU患者的特征向量
Figure BDA0002415071580000025
的加权投票策略预测结果,
Figure BDA0002415071580000026
表示学习算法hj在第i类ICU患者中的概率,mj表示学习算法hj的权重。
根据本发明的一实施例,通过网格搜索和5折交叉验证方法获得基于权重投票策略集成基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法时,基于权重投票策略的逻辑回归算法的权重m1为0.8,基于权重惩罚策略的LightGBM算法的权重m2为0.2。
根据本发明的一实施例,在形成输入特征集时,对于集成模型内的基于权重惩罚策略的逻辑回归算法采用递归特征消除方法来提取;对于基于权重惩罚策略的LightGBM算法采用Kruskal-Wallis测试方法进行提取。
根据本发明的一实施例,获取ICU患者的多个原始数据特征时从人口统计学信息、ICU相关信息、手术相关信息、用药相关信息以及ICU设备产生的检测参数信息五个维度上去获取。
根据本发明的一实施例,对获取的多个原始数据特征进行预处理包括:
去除多个原始数据特征内的冗余数据;
根据预设的缺失比例处理规则对多个原始数据特征内的数据进行缺失处理;
对冗余处理和缺失处理后的数据进行归一化;
对类别型数据进行one-hot编码,将类别型数据转换成数值型数据。
相对应的,本发明还提供一种基于惩罚集成模型的ICU死亡率预测系统,其包括数据获取模块、预处理模块、数据挖掘模块、特征选择模块以及预测模块。数据获取模块从多维度获取ICU患者的多个原始数据特征。预处理模块对获取的多个原始数据特征进行预处理。数据挖掘模块在原始数据特征的基础上挖掘并提取新的数据特征。特征选择模块基于集成模型内的算法对原始数据特征和新的数据特征进行选择,形成输入特征集。预测模块将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果,所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。
综上所述,本发明提供的基于惩罚集成模型的ICU死亡率预测方法及系统在预测时集成模型通过基于权重惩罚策略的来增加死亡患者的权重以弥补传统机器学习模型中因死亡患者数量少而引起的数据不平衡,有效提高算法在不平衡数据中的分类性能。集成模型通过权重投票策略集成了以线性方式拟合各特征的逻辑回归算法和属于boosting集成分类算法的LightGBM算法,两种算法集成很好地弥补了单一算法的不足,提高集成模型的预测性能。此外,在特征提取时,在原始数据特征的基础上通过数据分析进一步挖掘并融入新的数据特征,进一步提高了集成模型的预测性能。
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。
附图说明
图1所示为本发明一实施例提供的基于惩罚集成模型的ICU死亡率预测方法的流程图。
图2所示为图1所示的惩罚集成模型的ICU死亡率预测方法的原理示意图。
图3所示为采用5折正交验证法对集成模型进行训练的原理示意图。
图4所示为本发明一实施例提供的惩罚集成模型的ICU死亡率预测系统的原理框图。
具体实施方式
图1所示为本发明一实施例提供的基于惩罚集成模型的ICU死亡率预测方法的流程图。图2所示为图1所示的惩罚集成模型的ICU死亡率预测方法的原理示意图。图3所示为采用5折交叉验证法对集成模型进行训练的原理示意图。图4所示为本发明一实施例提供的惩罚集成模型的ICU死亡率预测系统的原理框图。请一并参阅图1至图4。
如图1和图2所示,本实施例提供的基于惩罚集成模型的ICU死亡率预测方法包括:从多维度获取ICU患者的多个原始数据特征(步骤S10)。对获取的多个原始数据特征进行预处理(步骤S20)。在原始数据特征的基础上挖掘并提取新的数据特征(步骤S30)。在原始数据特征的基础上挖掘并提取新的数据特征(步骤S40)。将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果,所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法(步骤S50)。以下将结合图1和图2来详细介绍本实施例提供的基于惩罚集成模型的ICU死亡率预测方法的工作原理。
本实施例提供的基于惩罚集成模型的ICU死亡率预测方法始于步骤S10,在该步骤中系统从多维度获取ICU患者的多个原始数据特征。于本实施例中,系统从人口统计学信息、ICU相关信息、手术相关信息、用药相关信息以及ICU设备产生的检测参数信息五个维度上去获取。然而,本发明对此不作任何限定。多维度的信息获取能更全面地了解ICU患者的信息并能从这些信息中也能挖掘出更多新的有利于ICU患者死亡率预测的特征。
具体而言,于本实施例中,①人口统计学信包括:患者的性别、年龄、婚姻状态、是否吸烟、是否饮酒,共5个特征。②ICU相关信息:入院时间、出院时间、入院科室、血型、是否转科、是否抢救、初步诊断、医疗总费用、抢救次数、是否签订拒绝或放弃医疗通知书、疾病类别、入院时意识、转科前意识、出院意识、室颤、房颤和诊断结果,共13个特征。③手术相关信息:手术等级、麻醉类型、伤口愈合等级、ASA级别、手术日期、手术名称、手术持续时间、手术过程中失血量、输血中红细胞量、输血中血浆量、输血中全血量、自体输血量、输血中白蛋白量、手术前意识和手术后意识,共15个特征。④用药相关信息:抗凝药种类、抗凝药服药时间、凝血药种类和凝血药服药时间,共4个特征。⑤ICU设备产生的检测参数信息:白细胞计数、中性粒细胞计数、淋巴细胞计数、单核细胞计数、嗜酸性粒细胞计数、嗜碱性粒细胞计数、红细胞计数、血红蛋白含量、血细胞比容、平均红细胞容量、平均血红蛋白含量、平均红细胞血红蛋白浓度、红细胞容量分布宽度、血小板计数、高敏C反应蛋白、凝血酶原时间、凝血酶原时间百分比、凝血酶原国际归一化比率、激活部分凝血活酶时间、纤维蛋白原浓度、凝血酶时间、D-二聚体、纤维蛋白原降解产物、中性粒细胞计数比、嗜碱性粒细胞计数比、嗜酸性粒细胞计数比、单核细胞计数比和淋巴细胞计数比,共28个特征。然而,本发明对此不作任何限定。
在获得上述五个维度的原始数据特征后,执行步骤S20,对获取的多个原始数据特征进行预处理。于本实施例中,所述预处理步骤包括:去除多个原始数据特征内的冗余数据(步骤S201)。根据预设的缺失比例处理规则对多个原始数据特征内的数据进行缺失处理(步骤S201)。对冗余处理和缺失处理后的数据进行归一化;对类别型数据进行one-hot编码,将类别型数据转换成数值型数据(步骤S203)。
首先,在步骤S201中,对收集的原始数据特征进行统计分析,按照预先设定的去冗余规则进行冗余数据的去除。譬如,对于多次进入的ICU患者的数据,只纳入其第一次的数据,其余排除;对于患者年龄低于15周岁的原始数据特征也排除。然而,本发明对去冗余规则的具体内容不作任何限定。
之后执行步骤S202,根据预设的缺失比例处理规则对多个原始数据特征内的数据进行缺失处理。具体而言,当缺失值比例低于10%时,使用众数填充;当缺失值比例在20%-50%之间时,数值型特征用-999填充,类别型特征用‘Unknow’填充;当缺失值比例超过50%时,将该特征直接删除。
在缺失处理后,对数值型数据进行z-score归一化处理(步骤S203),将数值型特征范围限定在0-1内,减少不同量纲数据对机器学习算法的不利影响。最后执行步骤S204,对类别型数据进行one-hot编码,将类别型数据转换成数值型数据以作为后续机器学习算法的输入。
在预处理完成后执行步骤S30,在原始数据特征的基础上挖掘并提取新的数据特征,新的数据特征的挖掘可不断地优化并提高了模型的预测性能。于本实施例中,在原始数据特征的基础上,提取十个新的与ICU患者死亡率预测相关的特征,其包括中性粒细胞与淋巴细胞的比率、血小板至淋巴细胞比率、入院季节、手术次数、入院时间与手术时间间隔、第一次手术与第二次手术时间间隔、是否手术、凝血药类型数量、抗凝药类型数量及是否同时使用凝血药和抗凝药。然而,本发明对新的数据特征的个数以及具体的内容不作任何限定。
于本实施例提供的ICU死亡率预测方法是基于惩罚集成模型,惩罚集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。对于不同的机器学习算法,步骤S40采用不同的特征选择算法。具体而言,对于逻辑回归算法,使用递归特征消除方法进行特征选择,获得特征集一,数据特征的数量为87。针对LightGBM算法,使用Kruskal-Wallis测试方法进行特征选择,获得特征集二,数据特征的数量为93。然而,本发明对特征集内的数据特征的数量不作任何限定。
在获得特征集一和特征集二后执行步骤S50,将两者分别输入已训练且测试好的集成有基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法的惩罚集成算法内从而获得预测结果。
于本实施例中,逻辑回归算法和LightGBM算法均为基于权重惩罚策略的算法,以下简称为改进的逻辑回归算法和改进的LightGBM算法。对于权重惩罚策略而言,两种算法均采用如下公式来调整每类ICU患者的权重:
Figure BDA0002415071580000071
其中wi表示属于第i类ICU患者的权重系数;NT表示特征集中所有ICU患者的数目;NCi表示属于第i类ICU患者的数目;pi表示属于第i类ICU患者的权重惩罚因子,可通过网格搜索和交叉验证方法确定最优解。
一般来说,ICU存活患者的数量要大于死亡患者的数量,在传统的预测模型中,两类数据的分布不平衡会使模型的结果产生较大的偏差。为解决这一数据分布不平衡的问题,于本实施例中,改进的逻辑回归算法或改进的LightGBM算法为死亡患者这一类别的ICU患者赋予更大的权重。具体而言,改进的逻辑回归算法中存活患者的权重惩罚因子p1和死亡患者的权重惩罚因子p2均为1,改进的LightGBM模型中的存活患者的权重惩罚因子p1为1,死亡患者的权重惩罚因子p2为10。然而,本发明对此不作任何限定。
于本实施例中,在集成模型内,改进的逻辑回归算法和改进的LightGBM算法是基于权重投票策略集成在一起,权重投票策略计算方式为:
Figure BDA0002415071580000081
其中,
Figure BDA0002415071580000082
表示ICU患者的特征向量,
Figure BDA0002415071580000083
表示对ICU患者的特征向量
Figure BDA0002415071580000084
的加权投票策略预测结果,
Figure BDA0002415071580000085
表示学习算法hj在第i类ICU患者中的概率,mj表示学习算法hj的权重。
于本实施例中,采用网格搜索和5折交叉验证方法来获取两种算法集成时的权重。优选的,基于权重投票策略的逻辑回归算法的权重m1为0.8,基于权重惩罚策略的LightGBM算法的权重m2为0.2。
本实施提供的惩罚集成模型在原始的逻辑回归算法和原始的LightGBM算法基础上按照公式1分别构建了基于权重惩罚的逻辑回归算法和基于权重惩罚的LightGBM算法,以便能够处理ICU中的不平衡患者的数据分布问题。其中改进的逻辑回归算法通过线性方式拟合各特征,模型的表达能力相对较弱,但将通过递归特征消除方法进行特征选择后的特征输入到逻辑回归中,大大提高了每个特征的表达能力。改进的LightGBM则是一种boosting类的集成分类算法,在LightGBM中,各个基学习器存在强依赖关系,即先从初始样本训练集训练出一个基学习器,再根据基学习器的预测值与真实值之间的残差再训练下一个基学习器。如此重复,不断优化,直至达到事先设定的阈值条件,具有很强的非线性表达,模型拟合能力较强。
以下将结合图3来详细介绍本实施例提供的集成模型的训练过程。
首先,采用步骤S10至S40的方法在医院数据库中搜集多个历史ICU患者的数据并形成样本数据库。在样本数据库内获取多个数据样本以形成样本数据集,将样本数据集分成样本训练集、样本验证集和样本测试集。
于本实施例中,将样本训练集和样本验证集合并后输入改进的逻辑回归算法和改进的LightGBM算法中,使用网格搜索和5折交叉验证方法分别调整两个算法中的权重惩罚因子p1和p2及投票权重系数m1和m2。5折交叉验证方法的具体步骤为:①首先将样本训练集和样本验证集合并,然后均分成五个大小相同的互斥子集,每个子集尽量保证数据分布一致性。②每次用四个子集的并集作为训练子集,剩下的一个子集作为验证子集,重复这个操作五次,获得五组验证集。③五个验证集对算法的预测结果进行投票,票数最多的作为最终预测类别。接着,设置p1、p2、m1和m2的可能取值均为0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,使用网格搜索寻找最优的p1、p2、m1和m2,其中每一次寻优都采用5折交叉验证方法。于本实施例中,改进的逻辑回归算法中存活患者的权重惩罚因子p1和死亡患者的权重惩罚因子p2均为1,改进的LightGBM模型中的存活患者的权重惩罚因子p1为1,死亡患者的权重惩罚因子p2为10,基于权重投票策略的逻辑回归算法的权重m1为0.8,基于权重惩罚策略的LightGBM算法的权重m2为0.2。之后,采用公式2所提供的权重投票策略将两种算法进行集成后输出最终的预测结果,形成训练好的集成模型。
最后,采用样本测试集对训练好的集成模型进行测试。
相对应的,本实施例还提供一种基于惩罚集成模型的ICU死亡率预测系统,其包括数据获取模块1、预处理模块2、数据挖掘模块3、特征选择模块4以及预测模块5。数据获取模块1从多维度获取ICU患者的多个原始数据特征。预处理模块2对获取的多个原始数据特征进行预处理。数据挖掘模块3在原始数据特征的基础上挖掘并提取新的数据特征。特征选择模块4基于集成模型内的算法对原始数据特征和新的数据特征进行选择,形成输入特征集。预测模块5将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果,所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。
本实施例提供的基于惩罚集成模型的ICU死亡率预测系统的工作原理如步骤S10至步骤S50所述,在此不作赘述。
综上所述,本发明提供的基于惩罚集成模型的ICU死亡率预测方法及系统在预测时集成模型通过基于权重惩罚策略的来增加死亡患者的权重以弥补传统机器学习模型中因死亡患者信息少而引起的数据不平衡,有效提高算法在不平衡数据中的分类性能。集成模型通过权重投票策略集成了以线性方式拟合各特征的逻辑回归算法和属于boosting集成分类算法的LightGBM算法,两种算法集成很好地弥补了单一算法的不足,提高集成模型的预测性能。此外,在特征提取时,在原始数据特征的基础上通过数据分析进一步挖掘并融入新的数据特征,进一步提高了集成模型的预测性能。
虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此本发明的保护范围当视权利要求书所要求保护的范围为准。

Claims (9)

1.一种基于惩罚集成模型的ICU死亡率预测方法,其特征在于,包括:
从多维度获取ICU患者的多个原始数据特征;
对获取的多个原始数据特征进行预处理;
在原始数据特征的基础上挖掘并提取新的数据特征;
基于集成模型内的算法对原始数据特征和新的数据特征进行选择,形成输入特征集;
将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果,所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。
2.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法,其特征在于,基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法中,权重的调整采用如下计算方式:
Figure FDA0002415071570000011
其中wi表示属于第i类ICU患者的权重系数;NT表示特征集中所有ICU患者的数目;NCi表示属于第i类ICU患者的数目;pi表示属于第i类ICU患者的权重惩罚因子,通过网格搜索和交叉验证方法确定最优解。
3.根据权利要求2所述的基于惩罚集成模型的ICU死亡率预测方法,其特征在于,将ICU患者分为存活患者和死亡患者两大类别,通过网格搜索和5折交叉验证方法获得基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法时,改进的逻辑回归算法中存活患者的权重惩罚因子p1和死亡患者的权重惩罚因子p2均为1,改进的LightGBM模型中的存活患者的权重惩罚因子p1为1,死亡患者的权重惩罚因子p2为10。
4.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法,其特征在于,基于权重投票策略集成基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法,权重投票策略计算方式为:
Figure FDA0002415071570000021
其中,
Figure FDA0002415071570000022
表示ICU患者的特征向量,
Figure FDA0002415071570000023
表示对ICU患者的特征向量
Figure FDA0002415071570000024
的加权投票策略预测结果,
Figure FDA0002415071570000025
表示学习算法hj在第i类ICU患者中的概率,mj表示学习算法hj的权重。
5.根据权利要求4所述的基于惩罚集成模型的ICU死亡率预测方法,其特征在于,通过网格搜索和5折交叉验证方法获得基于权重投票策略集成基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法时,基于权重投票策略的逻辑回归算法的权重m1为0.8,基于权重惩罚策略的LightGBM算法的权重m2为0.2。
6.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法,其特征在于,在形成输入特征集时,对于集成模型内的基于权重惩罚策略的逻辑回归算法采用递归特征消除方法进行特征选择;对于基于权重惩罚策略的LightGBM算法采用Kruskal-Wallis测试方法进行特征选择。
7.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法,其特征在于,获取ICU患者的多个原始数据特征时从人口统计学信息、ICU相关信息、手术相关信息、用药相关信息以及ICU设备产生的检测参数信息五个维度上去获取。
8.根据权利要求1所述的基于惩罚集成模型的ICU死亡率预测方法,其特征在于,对获取的多个原始数据特征进行预处理包括:
去除多个原始数据特征内的冗余数据;
根据预设的缺失比例处理规则对多个原始数据特征内的数据进行缺失处理;
对冗余处理和缺失处理后的数据进行归一化;
对类别型数据进行one-hot编码,将类别型数据转换成数值型数据。
9.一种基于惩罚集成模型的ICU死亡率预测系统,其特征在于,包括:
数据获取模块,从多维度获取ICU患者的多个原始数据特征;
预处理模块,对获取的多个原始数据特征进行预处理;
数据挖掘模块,在原始数据特征的基础上挖掘并提取新的数据特征;
特征选择模块,基于集成模型内的算法对原始数据特征和新的数据特征进行选择,形成输入特征集;
预测模块,将形成的输入特征集输入已训练且测试好的集成模型内以获得ICU死亡率预测结果,所述集成模型集成了基于权重惩罚策略的逻辑回归算法和基于权重惩罚策略的LightGBM算法。
CN202010188618.0A 2020-03-17 2020-03-17 基于惩罚集成模型的icu死亡率预测方法及系统 Active CN111370126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010188618.0A CN111370126B (zh) 2020-03-17 2020-03-17 基于惩罚集成模型的icu死亡率预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010188618.0A CN111370126B (zh) 2020-03-17 2020-03-17 基于惩罚集成模型的icu死亡率预测方法及系统

Publications (2)

Publication Number Publication Date
CN111370126A true CN111370126A (zh) 2020-07-03
CN111370126B CN111370126B (zh) 2023-04-25

Family

ID=71211903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010188618.0A Active CN111370126B (zh) 2020-03-17 2020-03-17 基于惩罚集成模型的icu死亡率预测方法及系统

Country Status (1)

Country Link
CN (1) CN111370126B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897857A (zh) * 2020-08-06 2020-11-06 暨南大学附属第一医院(广州华侨医院) 主动脉夹层心脏手术后icu时长预测方法
CN112967803A (zh) * 2021-01-29 2021-06-15 成都一尧科技有限公司 基于集成模型的急诊患者早期死亡率预测方法及系统
CN112992346A (zh) * 2021-04-09 2021-06-18 中山大学附属第三医院(中山大学肝脏病医院) 重症脊髓损伤预后的预测模型的建立方法
CN115775633A (zh) * 2023-02-10 2023-03-10 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 基于多维数据的死亡率实时预测方法、系统及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110224565A1 (en) * 2010-03-15 2011-09-15 Singapore Health Services Pte Ltd. Method of predicting acute cardiopulmonary events and survivability of a patient
CN104134080A (zh) * 2014-08-01 2014-11-05 重庆大学 一种道路路基塌陷和边坡坍塌的自动检测方法及系统
CN108764597A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于集成学习的产品质量控制方法
CN109119167A (zh) * 2018-07-11 2019-01-01 山东师范大学 基于集成模型的脓毒症死亡率预测系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110224565A1 (en) * 2010-03-15 2011-09-15 Singapore Health Services Pte Ltd. Method of predicting acute cardiopulmonary events and survivability of a patient
CN104134080A (zh) * 2014-08-01 2014-11-05 重庆大学 一种道路路基塌陷和边坡坍塌的自动检测方法及系统
CN108764597A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于集成学习的产品质量控制方法
CN109119167A (zh) * 2018-07-11 2019-01-01 山东师范大学 基于集成模型的脓毒症死亡率预测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚开一: "基于神经网络的地震震相自动拾取方法", 《中国优秀硕士学位论文全文数据库电子期刊网》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897857A (zh) * 2020-08-06 2020-11-06 暨南大学附属第一医院(广州华侨医院) 主动脉夹层心脏手术后icu时长预测方法
CN112967803A (zh) * 2021-01-29 2021-06-15 成都一尧科技有限公司 基于集成模型的急诊患者早期死亡率预测方法及系统
CN112992346A (zh) * 2021-04-09 2021-06-18 中山大学附属第三医院(中山大学肝脏病医院) 重症脊髓损伤预后的预测模型的建立方法
CN115775633A (zh) * 2023-02-10 2023-03-10 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 基于多维数据的死亡率实时预测方法、系统及电子设备
CN115775633B (zh) * 2023-02-10 2023-05-09 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 基于多维数据的死亡率实时预测方法、系统及电子设备

Also Published As

Publication number Publication date
CN111370126B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN111370126A (zh) 基于惩罚集成模型的icu死亡率预测方法及系统
CN109785976B (zh) 一种基于Soft-Voting的痛风病分期预测系统
CN109119167B (zh) 基于集成模型的脓毒症死亡率预测系统
CN109036553B (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
CN108597601B (zh) 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法
US20220254493A1 (en) Chronic disease prediction system based on multi-task learning model
CN113080986B (zh) 一种基于可穿戴设备的运动性疲劳检测方法和系统
CN108877949B (zh) 基于孤立森林算法和投票机制的唐氏综合症筛查方法
CN110051324B (zh) 一种急性呼吸窘迫综合征死亡率预测方法及系统
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN108492877B (zh) 一种基于ds证据理论的心血管病辅助预测方法
CN108511056A (zh) 基于脑卒中患者相似性分析的治疗方案推荐方法及系统
CN112641451B (zh) 基于单通道脑电信号多尺度残差网络睡眠分期方法及系统
Choubey et al. GA_J48graft DT: a hybrid intelligent system for diabetes disease diagnosis
CN111951975A (zh) 一种基于深度学习模型gpt-2的脓毒症早期预警方法
Pillai Cardiac disease prediction with tabular neural network
CN115083604A (zh) 一种术后不良事件预测模型的构建方法、系统和预测装置
CN115240803A (zh) 模型训练方法、并发症预测方法及系统、设备和介质
Thaiparnit et al. A classification for patients with heart disease based on hoeffding tree
CN114724710A (zh) 突发事件的应急方案推荐方法、装置及存储介质
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
CN113539473A (zh) 一种仅使用血常规检验数据诊断布氏杆菌病的方法及系统
CN116130105A (zh) 一种基于神经网络的健康风险预测方法
CN114864086A (zh) 一种基于肺功能报告模板的疾病预测方法
CN113066584A (zh) 早发型败血症的预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant