CN109119167A - 基于集成模型的脓毒症死亡率预测系统 - Google Patents
基于集成模型的脓毒症死亡率预测系统 Download PDFInfo
- Publication number
- CN109119167A CN109119167A CN201810758910.4A CN201810758910A CN109119167A CN 109119167 A CN109119167 A CN 109119167A CN 201810758910 A CN201810758910 A CN 201810758910A CN 109119167 A CN109119167 A CN 109119167A
- Authority
- CN
- China
- Prior art keywords
- pyemia
- integrated model
- data
- value
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于集成模型的脓毒症死亡率预测系统,包括:输入器,用于获取被测者脓毒症相关检测项目的测量值;处理器,与输入器相连,所述处理器用于对输入器获取的数据进行处理,输出脓毒症死亡率的预测值;所述处理器,包括:数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块;数据预处理门口对数据进行预处理,多维特征选择模块对预处理后的特征进行特征选择,筛选出重要的特征,将重要的特征输入到集成模型构建模块构建的集成模型中,对集成模型进行训练,利用训练好的集成模型对预测及进行脓毒症死亡率的预测;本发明使得脓毒症病患的各项生理指标与死亡率建立联系,测试准确度高。
Description
技术领域
本发明涉及医疗数据挖掘领域,特别是涉及基于集成模型的脓毒症死亡率预测系统。
背景技术
脓毒症是机体对感染的反应失调而导致的危及生命的器官功能障碍,是重症监护室的常见疾病及其患者死亡的主要原因之一,而且发病率和死亡率仍呈上升趋势。据统计,每年全球新增数百万脓毒症患者,其中超过四分之一的患者死亡。虽然全世界范围内的医学人士和专家都在积极进行临床研究,但是对于脓毒症临床指标的选取以及死亡率预测仍然缺乏有效的手段。选取合适的特征并进行死亡率预测是该疾病预后的一项重要工作,预测准确性越高,越有利于医生做出精准的临床决策,从而可以提高诊疗的效率。
目前,基于数据挖掘和机器学习相关理论,探索基于脓毒症多维临床指标的死亡率预测系统尚未出现。
发明内容
为了克服上述现有技术的不足,本发明提供了基于集成模型的脓毒症死亡率预测系统,基于加权投票的随机森林、GBDT和逻辑回归的集成模型,使得脓毒症病患的各项生理指标与死亡率建立联系,具有测试准确度高的有益效果。
本发明所采用的技术方案是:
基于集成模型的脓毒症死亡率预测系统,包括:
输入器,用于获取被测者脓毒症相关检测项目的测量值;
处理器,与输入器相连,所述处理器用于对输入器获取的数据进行处理,输出脓毒症死亡率的预测值;所述处理器,包括:数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块;
所述数据预处理模块,用于对被测者脓毒症相关检测项目测量值的噪声数据或缺失数据进行清洗,对清洗后的数据进行数据转换和归一化处理;
所述多维特征选择模块,用于建立与被测者脓毒症相关检测项目测量值相对应特征项,将特征项作为第一样本,通过基于改进的随机森林算法对所述第一样本进行特征选择,得到被测者脓毒症相关检测项目测量值的若干个主特征子集,将若干个主特征子集构成的样本集合作为第二样本;
所述集成模型构建模块,对随机森林、梯度提升树GBDT和逻辑回归三个基分类器,采用加权投票融合的方法,构建集成模型;
所述集成模型预测模块,将第二样本随机分为训练集和预测集,利用训练集对集成模型进行训练,然后利用预测集对训练好的集成模型进行测试,输出脓毒症死亡率预测值。
本发明基于加权投票的随机森林、GBDT和逻辑回归的集成模型,使得脓毒症病患的各项生理指标与死亡率建立联系,具有测试准确度高、可靠性强且较稳定的有益效果。
进一步的,所述脓毒症相关检测项目,包括:ICU停留ID、患者ID、住院ID、性别、入院时间、出院时间、年龄、种族、首次ICU类型、是否在入院时死亡、是否在入院30天内死亡、吸入氧气浓度、血氧饱和度、序贯器官衰竭评分、全身炎症反应综合评分、脓毒症确诊时间、乳酸清除率、用药时间、是否进行机械通气、治疗开始时间或治疗结束时间。
进一步的,所述数据预处理模块,包括:
数据筛选单元,用于对被测者脓毒症相关检测项目测量值进行筛选,对乳酸清除率测量缺失值进行填充,对测量噪音值进行剔除,测量噪音值主要包括记录错误的测量指标、单位不统一的测量指标、ICU停留ID、患者ID或住院ID。
数据转换单元,用于对经筛选、填充和剔除后的被测者脓毒症相关检测项目测量值进行格式转换;
数据归一化单元,用于采用被测者脓毒症相关检测项目测量值的最大值和最小值对格式转换后的被测者脓毒症相关检测项目测量值进行归一化处理。
进一步的,所述多维特征选择模块包括:
所述欠采样单元,在n条记录的脓毒症数据集中,引入区间参数m和n,在区间之间产生变量a,以有放回的形式随机从大类样本训练集中抽取n×a个大类实例,从小类样本训练集中抽取n×(1-a)个小类实例,所述大类实例是指存活样本;所述小类实例是指死亡样本;并将抽取的大类实例与小类实例随机组合获得多个平衡数据集。
所述随机森林特征选择单元,使用改进的随机森林算法,对平衡数据集中的特征进行特征选择,筛选出最重要的若干个特征作为最终分类的主特征子集。
进一步的,改进的随机森林算法的具体步骤为:
步骤(1):采用10折交叉验证的方法,计算欠采样后得到的平衡数据集中每个特征的重要性;
步骤(2):根据决策树所做的贡献来决定权重,基于多棵决策树的判定结果对一致性高的决策树分配高的权重;
步骤(3):用每个特征重要性乘以每个决策树的权重,再将乘积结果求平均即获得最终的特征重要性度量值;对最终的特征重要性度量值从高到低进行排序,获取排序靠前的设定个特征作为最终分类的主特征子集。
进一步的,所述步骤(1)的具体步骤为:
每个特征重要性度量值FIij的计算公式如下:
其中,i代表第i个平衡数据集,j代表第j个特征,k代表第k层数据,第j个特征的特征重要性度量是由ACC和ACCFj的差值决定的,ACC代表扰动属性值前的分类准确率,ACCFj代表扰动第j个属性值后的分类准确率;ACCik表示第i个平衡数据集第k层数据扰动属性值前的分类准确率,ACCFijk表示第i个平衡数据集第k层数据扰动第j个属性值前的分类准确率。
进一步的,所述步骤(2)的具体步骤为:
在S条记录的测试数据集中,第i棵树的权重Wi:
其中Tij表示第i棵树对第j个实例的预测结果,Ej表示对第j个实例的集成预测结果,ACCE表示集成预测的准确率。
进一步的,所述步骤(3)的具体步骤为:
通过每棵决策树确定所有特征的重要性度量值以后,乘以各树的权重,求平均即获得最终的特征重要性度量值FinalFIj,对最终的特征重要性度量值从高到低进行排序,获取排序靠前的设定个特征作为最终分类的特征子集。
进一步的,所述集成模型构建模块,包括:基模型选取单元和集成单元;
基模型选取单元,选取随机森林、GBDT以及逻辑回归三个模型;
集成单元,按照加权融合的方法将三个模型构建集成预测模型;
加权融合公式为:
其中,wt(x)是模型ht(x)的权重,wt(x)≥0,权重由交叉验证得到的准确率决定。
与现有技术相比,本发明的有益效果是:
本发明提出的基于集成模型的脓毒症死亡率预测系统提出了多维特征预测方法;
其次,提出了一种改进的随机森林算法实现对原始的多维特征提取,通过改进的随机森林算法提取特征子集作为主特征,提高了利用经验学习进行特征提取的弊端,使可以对特征子集进行交叉验证获取最优的特征组;
最后,提出基于加权投票的随机森林、GBDT和逻辑回归的集成模型,实现了基于多维特征脓毒症死亡率预测模型,可以在不破坏原始数据结构的前提下,充分挖掘患者电子病例的原有信息,提高模式分类精度,可以极大地降低治疗成本,并有效地保证了疾病诊断的实时性。本发明可用于脓毒症预后预测,帮助医生做出更加精准的临床决策。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明基于集成模型的脓毒症死亡率预测系统结构图;
图2为本发明早晚期液体输注的死亡率对比图;
图3为本发明早晚期液体输注的乳酸清除率对比图;
图4为本发明特征重要性排序;
图5为本发明不同分类器准确率对比图;
图6为本发明ROC对比图;
图7为本发明准确率对比图;
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本申请的一种典型的实施方式中,如图1所示,一种基于集成模型的脓毒症死亡率预测系统,该系统包括:输入器,用于获取被测者脓毒症相关检测项目及其测量值;处理器,与输入器相连,具有数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型测试模块;
所述数据预处理模块,用于对被测者脓毒症相关检测测量值的噪声数据、缺失数据进行清洗,对部分特征属性进行数据转换和归一化处理;
所述多维特征选择模块,用于建立与被测者脓毒症相关检测项目测量值相对应的原始多维特征项作为第一样本,通过基于改进的随机森林算法对所述第一样本进行特征降维,得到基于被测者脓毒症相关检测项目测量值的若干个主特征子集,建立以若干个主特征子集构成的样本集合作为第二样本;
所述集成模型构建模块,对随机森林、GBDT、逻辑回归这个三个基分类器采用加权投票融合的方法,构建集成模型;
所述集成模型测试模块,用于将所述第二样本随机分为训练集和预测集,训练集用于生成训练器,在训练器的基础上,根据每个基分类器进行交叉验证后的准确率为其分配权重,性能表现好的分类器会拥有更高的权重,然后利用预测集对集成模型进行测试。
本实施例从MIMIC-III数据库中提取了2464名年龄在18岁以上并且是首次进入ICU的脓毒症患者的临床信息构成初始数据集,总共包括5372个样本,每位患者需要检测的主要指标有22个,如表1所示。
进一步的,本系统还包括数据筛选单元,用于对所述被测者脓毒症相关检测项目及其测量值进行筛选,数据转换单元,用于对经筛选后的被测者脓毒症相关检测项目测量值进行格式转换。
首先,进行数据格式转换。对导入数据存在的部分列没有对齐的问题,以及多出列的情况,进行人工处理。再次,进行非需求数据清洗。
进一步的,所述多维特征选择模块包括欠采样单元和随机森林特征选择单元;
所述欠采样单元,用于在类别不平衡数据集中构建多个与小类实例数量相同的大类实例集,并将其组合获得多个平衡数据集;
所述随机森林特征选择单元,使用随机森林算法结合交叉验证将归约后的被测者脓毒症相关检测项目测量值的等价类特征中对分类不重要的特征剔除。
进一步的,所述随机森林特征选择单元还包括特征重要性度量子单元和权重子单元;
所述特征重要性度量子单元针对每个特征利用10折交叉验证和特征重要性计算公式计算每个特征的重要性;
所述权重子单元由决策树对集成所做的贡献决定权重,基于集成判定结果对一致性高的决策树分配更高的权重,通过每棵决策树确定所有特征的重要性度量值以后,乘以各树的权重,求平均即可获得最终的特征重要性度量值,获得最终分类的主特征子集。
该多维特征选择模块进行多维特征选择的具体步骤如下:
(1)欠采样单元:欠采样方法通过抽取多个与小类实例数量相同的大类实例将不平衡的数据集转化为平衡数据集,类别不平衡问题是指当训练数据集中的不同类别的样本数目差别悬殊时,小类样本易被误分为大类样本,从而导致较高的假阳性率,分类算法的性能也会出现明显下降。我们使用的脓毒症数据集就属于类别不平衡数据集,其中死亡样本为小类,存活样本为大类。欠采样方法是一种解决类别不平衡问题的有效方法。普通的欠采样方法需要在类别不平衡数据集中抽取多个与小类样本数量相同的大类样本,并将抽取的样本与小类样本随机组合获得多个平衡数据集;我们提出的改进的欠采样方法并不是取固定数量的与小类样本数量相等的大类样本,而是在有n条记录的数据集中,引入区间参数m和n,在区间之间产生变量a,以有放回的形式随机从大类样本训练集中抽取na个实例,从小类样本训练集中抽取n(1-a)个实例,并将其组合获得多个平衡数据集,这样使得大类和小类的取样数量可以根据需要进行调整。
(2)特征重要性度量子单元:在改进的随机森林算法采用10折交叉验证的方法来获取特征重要性度量值。单棵树的特征重要性度量值的计算公式如下:
其中i代表第i个数据集,j代表第j个特征,k代表第k层数据。第j个属性的特征重要性度量是有ACC和ACCFj的差值决定的,ACC代表扰动属性值前的分类准确率,ACCFj代表扰动第j个属性值后的分类准确率。
(3)权重子单元:与最终集成判定结果一致性高的决策树应该具有更高的权重,其所获得的特征重要性度量具有更好的可信度,在有S条记录的测试数据集中,第i棵树的权重可通过下列公式计算:
其中Tij表示第i棵树对第j个实例的预测结果,Ej表示对第j个实例的集成预测结果,ACCE表示集成预测的准确率。
计算特征重要性时使用的是欠采样后的数据集,使用交叉验证方法获得单棵决策树在某一种欠采样数据上对特征重要程度的一个判断;而在计算权重时使用的是out-of-bag数据集,在构建每棵树时,我们对训练集使用了不同的bootstrap sample(随机且有放回地抽取),所以对于每棵树而言(假设对于第k棵树),大约有1/3的训练实例没有参与第k棵树的生成,它们称为第k棵树的袋外样本,然后由决策树对集成所做的贡献决定权重。通过每棵决策树确定所有特征的重要性度量值以后,乘以各树的权重,求平均即可获得最终的特征重要性度量值,获取最终分类的特征子集。
所述集成模型构建模块,包括基模型选取单元和集成单元,集成模型构建的具体步骤如下:
(1)基模型选取单元:选取三个模型随机森林、GBDT以及逻辑回归作为基模型;
(2)集成单元:按照加权融合的方法使用三个基模型构建集成预测模型;
加权融合公式为:
其中wt(x)是ht(x)的权重,wt(x)≥0,权重由交叉验证得到的准确率决定。
所述集成模型测试模块,用于将所述第二样本随机分为训练集和预测集,训练集用于生成训练器,在训练器的基础上,根据每个基分类器进行交叉验证后的准确率为其分配权重,性能表现好的分类器会拥有更高的权重,然后利用预测集对集成模型进行测试。
实施例2:
本实施例从MIMIC-III数据库中提取了2464名年龄在18岁以上并且是首次进入ICU的脓毒症患者的临床信息构成初始数据集,总共包括5372个样本,每位患者需要检测的主要指标有22个,如表1所示。
表1Sepsis特征表
本实施例的目的是提供一种基于集成模型的脓毒症死亡率预测系统,其步骤包括:
(1)对获取的样本数据进行数据处理
第一步:首先,进行数据格式转换。对导入数据存在的部分列没有对齐的问题,以及多出列的情况,进行人工处理。
第二步:对原始数据进行筛选,数据中的住院ID、患者ID、ICU停留ID等与本发明无关,属于非需求数据,因此将其直接删除掉。
(2)对获取的样本数据进行数据分析
第一步:对数据进行分类,在脓毒症发作后六个小时内进行超过500ml液体输注(Bolus)的属于早期液体输注,在六个小时到十二个小时之间进行超过500ml液体输注的属于晚期液体输注;
第二步:分析液体输注时间对脓毒症患者的死亡率以及乳酸清除率的影响,并将相关性分析的结果进行可视化,如图2,图3所示。说明早期液体输注和更低的死亡率显著相关,并且可以提高乳酸清除率,这也印证了临床诊疗中早期乳酸清除率对脓毒症患者液体复苏治疗的指导作用。
(2)改进的随机森林算法进行多维特征选取
第一步:欠采样。数据集为不平衡数据集,其中死亡样本为小类,存活样本为大类,在有5372条记录的数据集中,引入区间参数m和n,在区间之间产生变量a,以有放回的形式随机从大类样本训练集中抽取na个实例,从小类样本训练集中抽取n(1-a)个实例,并将其组合获得多个平衡数据集,并且大类和小类的取样数量可以根据需要进行调整。
第二步:特征重要性度量。在改进的随机森林算法采用10折交叉验证的方法来获取特征重要性度量值。
第三步:权重度量。与最终集成判定结果一致性高的决策树应该具有更高的权重,使用公式计算每棵树的权重,权重高的树所获得的特征重要性度量具有更好的可信度。通过每棵决策树确定所有特征的重要性度量值以后,乘以各树的权重,求平均即可获得最终的特征重要性度量值。通过改进的随机森林算法获得了8个重要特征。特征权重归一化后,特征按权重排序如图4所示。提取的最优特征子集组合将作为集成模型的输入。
为了进一步说明改进的随机森林算法提取的特征子集的有效性,本发明对特征子集进行交叉验证,从表2结果可以看出这8个变量的检验统计量都大于即在其他7个变量不变的情况下,第8个变量对模型有着显著的影响,因此我们选取的这8个特征对于脓毒症死亡率预测具有一定的指导意义。
表2似然比检验表
变量 | F3 | F6 | F7 | F13 | F14 | F16 | F17 | F18 |
G | 4.1 | 6.9 | 7.6 | 11.4 | 5.9 | 10.7 | 3.9 | 4.7 |
(3)构建集成模型
第一步:基模型选取。为了获知分类器在本文数据集上的表现性能,我们首先选取了7个常用的分类器进行训练,其各自的平均准确率如图5所示,可以看出,随机森林、GBDT和逻辑回归三个分类器的表现性能是最好的且相差不大,我们选择这三个分类器进行集成预测。
第二步:模型集成。使用加权投票法进行模型集成,基模型的权重由交叉验证确定。(5)对集成模型进行测试
本发明将提出的基于集成模型的脓毒症死亡率预测系统与随机森林、GBDT、逻辑回归这三个单一分类器的预测结果来进行比较,本发明的基于集成模型的脓毒症死亡率预测系统在准确率、ROC、F1值三个指标都取得了良好的效果,准确率、F1对比结果如表3,ROC对比结果如图6。
表3方法比较
方法 | 准确率 | F1 |
Logistic Regression | 85.3% | 82.9% |
GBDT | 87.5% | 84.6% |
Random Forset | 91.2% | 88.4% |
Ensembel Model | 93.7% | 90.3% |
实施例三
为了验证模型的稳健性和可靠性,比较简单投票法和加权投票法的效果,我们将随机森林、GBDT和逻辑回归这三个分类器的预测结果通过简单投票法进行了处理,其与加权投票法的准确率对比如图7。由图中可以看出,加权投票法的准确率要明显优于简单投票法。简单投票法中每个分类器的权重是一样的,按照少数服从多数的原则,类别得票数高的作为分类结果,这种方式无法体现性能表现好的分类器的优势,而加权投票法中每个分类器的权重是不同的,分类性能高的分类器会被赋予更高的权重,有助于提高最终的分类效果。检验可知支持向量机模型具有一定的可靠性和稳健性,比较令人满意。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.基于集成模型的脓毒症死亡率预测系统,其特征是,包括:
输入器,用于获取被测者脓毒症相关检测项目的测量值;
处理器,与输入器相连,所述处理器用于对输入器获取的数据进行处理,输出脓毒症死亡率的预测值;所述处理器,包括:数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块;
所述数据预处理模块,用于对被测者脓毒症相关检测项目测量值的噪声数据或缺失数据进行清洗,对清洗后的数据进行数据转换和归一化处理;
所述多维特征选择模块,用于建立与被测者脓毒症相关检测项目测量值相对应特征项,将特征项作为第一样本,通过基于改进的随机森林算法对所述第一样本进行特征选择,得到被测者脓毒症相关检测项目测量值的若干个主特征子集,将若干个主特征子集构成的样本集合作为第二样本;
所述集成模型构建模块,对随机森林、梯度提升树GBDT和逻辑回归三个基分类器,采用加权投票融合的方法,构建集成模型;
所述集成模型预测模块,将第二样本随机分为训练集和预测集,利用训练集对集成模型进行训练,然后利用预测集对训练好的集成模型进行测试,输出脓毒症死亡率预测值。
2.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述脓毒症相关检测项目,包括:ICU停留ID、患者ID、住院ID、性别、入院时间、出院时间、年龄、种族、首次ICU类型、是否在入院时死亡、是否在入院30天内死亡、吸入氧气浓度、血氧饱和度、序贯器官衰竭评分、全身炎症反应综合评分、脓毒症确诊时间、乳酸清除率、用药时间、是否进行机械通气、治疗开始时间或治疗结束时间。
3.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述数据预处理模块,包括:
数据筛选单元,用于对被测者脓毒症相关检测项目测量值进行筛选,对乳酸清除率测量缺失值进行填充,对测量噪音值进行剔除,测量噪音值主要包括记录错误的测量指标、单位不统一的测量指标、ICU停留ID、患者ID或住院ID;
数据转换单元,用于对经筛选、填充和剔除后的被测者脓毒症相关检测项目测量值进行格式转换;
数据归一化单元,用于采用被测者脓毒症相关检测项目测量值的最大值和最小值对格式转换后的被测者脓毒症相关检测项目测量值进行归一化处理。
4.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述多维特征选择模块包括:
所述欠采样单元,在n条记录的脓毒症数据集中,引入区间参数m和n,在区间之间产生变量a,以有放回的形式随机从大类样本训练集中抽取n×a个大类实例,从小类样本训练集中抽取n×(1-a)个小类实例,所述大类实例是指存活样本;所述小类实例是指死亡样本;并将抽取的大类实例与小类实例随机组合获得多个平衡数据集;
所述随机森林特征选择单元,使用改进的随机森林算法,对平衡数据集中的特征进行特征选择,筛选出最重要的若干个特征作为最终分类的主特征子集。
5.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,改进的随机森林算法的具体步骤为:
步骤(1):采用10折交叉验证的方法,计算欠采样后得到的平衡数据集中每个特征的重要性;
步骤(2):根据决策树所做的贡献来决定权重,基于多棵决策树的判定结果对一致性高的决策树分配高的权重;
步骤(3):用每个特征重要性乘以每个决策树的权重,再将乘积结果求平均即获得最终的特征重要性度量值;对最终的特征重要性度量值从高到低进行排序,获取排序靠前的设定个特征作为最终分类的主特征子集。
6.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述步骤(1)的具体步骤为:
每个特征重要性度量值FIij的计算公式如下:
其中,i代表第i个平衡数据集,j代表第j个特征,k代表第k层数据,第j个特征的特征重要性度量是由ACC和ACCFj的差值决定的,ACC代表扰动属性值前的分类准确率,ACCFj代表扰动第j个属性值后的分类准确率;ACCik表示第i个平衡数据集第k层数据扰动属性值前的分类准确率,ACCFijk表示第i个平衡数据集第k层数据扰动第j个属性值前的分类准确率。
7.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述步骤(2)的具体步骤为:
在S条记录的测试数据集中,第i棵树的权重Wi:
其中Tij表示第i棵树对第j个实例的预测结果,Ej表示对第j个实例的集成预测结果,ACCE表示集成预测的准确率。
8.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述步骤(3)的具体步骤为:
通过每棵决策树确定所有特征的重要性度量值以后,乘以各树的权重,求平均即获得最终的特征重要性度量值FinalFIj,对最终的特征重要性度量值从高到低进行排序,获取排序靠前的设定个特征作为最终分类的特征子集;
9.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述集成模型构建模块,包括:基模型选取单元和集成单元;
基模型选取单元,选取随机森林、GBDT以及逻辑回归三个模型;
集成单元,按照加权融合的方法将三个模型构建集成预测模型。
10.如权利要求9所述的基于集成模型的脓毒症死亡率预测系统,其特征是,加权融合公式为:
其中,wt(x)是模型ht(x)的权重,wt(x)≥0,权重由交叉验证得到的准确率决定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810758910.4A CN109119167B (zh) | 2018-07-11 | 2018-07-11 | 基于集成模型的脓毒症死亡率预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810758910.4A CN109119167B (zh) | 2018-07-11 | 2018-07-11 | 基于集成模型的脓毒症死亡率预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109119167A true CN109119167A (zh) | 2019-01-01 |
CN109119167B CN109119167B (zh) | 2020-11-20 |
Family
ID=64862079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810758910.4A Active CN109119167B (zh) | 2018-07-11 | 2018-07-11 | 基于集成模型的脓毒症死亡率预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109119167B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785973A (zh) * | 2019-01-25 | 2019-05-21 | 中国医学科学院阜外医院 | 一种手术患者在围手术期发生并发症的定量预测方法 |
CN109951444A (zh) * | 2019-01-29 | 2019-06-28 | 中国科学院信息工程研究所 | 一种加密匿名网络流量识别方法 |
CN110051324A (zh) * | 2019-03-14 | 2019-07-26 | 深圳大学 | 一种急性呼吸窘迫综合征死亡率预测方法及系统 |
CN110123274A (zh) * | 2019-04-29 | 2019-08-16 | 上海电气集团股份有限公司 | 一种脓毒血症的监测系统 |
CN110309862A (zh) * | 2019-06-11 | 2019-10-08 | 广东省人民医院(广东省医学科学院) | 基于集成机器学习的dme预后信息预测系统及其应用方法 |
CN110349666A (zh) * | 2019-07-04 | 2019-10-18 | 南京工业大学 | 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 |
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN111105160A (zh) * | 2019-12-20 | 2020-05-05 | 北京工商大学 | 一种基于倾向性异质装袋算法的钢材质量预测方法 |
CN111128295A (zh) * | 2019-12-26 | 2020-05-08 | 杭州纽安津生物科技有限公司 | 一种预测多肽毒性的方法 |
CN111261282A (zh) * | 2020-01-21 | 2020-06-09 | 南京航空航天大学 | 一种基于机器学习的脓毒症早期预测方法 |
CN111370126A (zh) * | 2020-03-17 | 2020-07-03 | 杭州妞诺科技有限公司 | 基于惩罚集成模型的icu死亡率预测方法及系统 |
CN111951975A (zh) * | 2020-08-19 | 2020-11-17 | 哈尔滨工业大学 | 一种基于深度学习模型gpt-2的脓毒症早期预警方法 |
CN112382342A (zh) * | 2020-11-24 | 2021-02-19 | 山西三友和智慧信息技术股份有限公司 | 一种基于集成特征选择的癌症甲基化数据分类方法 |
CN112447289A (zh) * | 2019-08-30 | 2021-03-05 | 希尔-罗姆服务公司 | 败血症监测系统 |
WO2021098842A1 (zh) * | 2019-11-21 | 2021-05-27 | 四川省人民医院 | 基于机器学习的通过体检指标预测健康状态的方法 |
CN112967803A (zh) * | 2021-01-29 | 2021-06-15 | 成都一尧科技有限公司 | 基于集成模型的急诊患者早期死亡率预测方法及系统 |
CN112992346A (zh) * | 2021-04-09 | 2021-06-18 | 中山大学附属第三医院(中山大学肝脏病医院) | 重症脊髓损伤预后的预测模型的建立方法 |
CN112992368A (zh) * | 2021-04-09 | 2021-06-18 | 中山大学附属第三医院(中山大学肝脏病医院) | 重症脊髓损伤预后的预测模型系统及记录媒体 |
CN113177613A (zh) * | 2021-05-25 | 2021-07-27 | 中国工商银行股份有限公司 | 系统资源数据分配方法及装置 |
CN113314227A (zh) * | 2021-04-16 | 2021-08-27 | 山东大学 | 一种预测新型冠状病毒感染的机器学习模型构建方法 |
WO2021179514A1 (zh) * | 2020-03-07 | 2021-09-16 | 华中科技大学 | 一种基于人工智能的新型冠状病毒患者病况分类系统 |
CN113593708A (zh) * | 2021-07-12 | 2021-11-02 | 杭州电子科技大学 | 基于集成学习算法的脓毒症预后预测方法 |
CN113671078A (zh) * | 2021-08-18 | 2021-11-19 | 郑州大学第一附属医院 | 一种基于代谢组学的脓毒症预后模型建立方法 |
CN113796877A (zh) * | 2021-08-17 | 2021-12-17 | 昆明同心医联科技有限公司 | 脑卒中预测值获取方法、装置及存储介质 |
CN113871006A (zh) * | 2021-09-03 | 2021-12-31 | 华中科技大学 | 基于脓毒症病人检测信息进行生存概率打分的方法及系统 |
CN113871009A (zh) * | 2021-09-27 | 2021-12-31 | 山东师范大学 | 一种重症监护病房中脓毒症预测系统、存储介质及设备 |
CN114724701A (zh) * | 2022-03-11 | 2022-07-08 | 梁娜 | 基于叠加集成算法和自动编码器的无创通气疗效预测系统 |
CN116309515A (zh) * | 2023-03-31 | 2023-06-23 | 广东省人民医院 | 一种肺部亚厘米结节侵袭性预测模型的构建方法及该诊断模型与诊断器 |
CN116646074A (zh) * | 2023-05-23 | 2023-08-25 | 天津大学 | 基于逻辑回归的脓毒症心力衰竭早期预测系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080154567A1 (en) * | 2006-12-22 | 2008-06-26 | Schering Corporation | Viral genotyping method |
CN106339593A (zh) * | 2016-08-31 | 2017-01-18 | 青岛睿帮信息技术有限公司 | 基于医疗数据建模的川崎病分类预测方法 |
KR20170067137A (ko) * | 2015-12-07 | 2017-06-15 | 엘지전자 주식회사 | 암 진단용 miRNA 바이오마커 발굴 방법 및 그 이용 |
CN106874663A (zh) * | 2017-01-26 | 2017-06-20 | 中电科软件信息服务有限公司 | 心脑血管疾病风险预测方法及系统 |
CN107408144A (zh) * | 2014-11-14 | 2017-11-28 | Zoll医疗公司 | 医疗先兆事件估计 |
CN107766883A (zh) * | 2017-10-13 | 2018-03-06 | 华中师范大学 | 一种基于加权决策树的优化随机森林分类方法及系统 |
CN107871537A (zh) * | 2017-11-22 | 2018-04-03 | 山东师范大学 | 一种基于多模态特征的抑郁倾向测评装置、系统 |
CN108257673A (zh) * | 2018-01-12 | 2018-07-06 | 南通大学 | 患病风险值预测方法及电子设备 |
-
2018
- 2018-07-11 CN CN201810758910.4A patent/CN109119167B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080154567A1 (en) * | 2006-12-22 | 2008-06-26 | Schering Corporation | Viral genotyping method |
CN107408144A (zh) * | 2014-11-14 | 2017-11-28 | Zoll医疗公司 | 医疗先兆事件估计 |
KR20170067137A (ko) * | 2015-12-07 | 2017-06-15 | 엘지전자 주식회사 | 암 진단용 miRNA 바이오마커 발굴 방법 및 그 이용 |
CN106339593A (zh) * | 2016-08-31 | 2017-01-18 | 青岛睿帮信息技术有限公司 | 基于医疗数据建模的川崎病分类预测方法 |
CN106874663A (zh) * | 2017-01-26 | 2017-06-20 | 中电科软件信息服务有限公司 | 心脑血管疾病风险预测方法及系统 |
CN107766883A (zh) * | 2017-10-13 | 2018-03-06 | 华中师范大学 | 一种基于加权决策树的优化随机森林分类方法及系统 |
CN107871537A (zh) * | 2017-11-22 | 2018-04-03 | 山东师范大学 | 一种基于多模态特征的抑郁倾向测评装置、系统 |
CN108257673A (zh) * | 2018-01-12 | 2018-07-06 | 南通大学 | 患病风险值预测方法及电子设备 |
Non-Patent Citations (5)
Title |
---|
STACEY J. WINHAM 等: "A weighted random forests approach to improve predictive performance", 《STATISTICAL ANALYSIS AND DATA MINING》 * |
VRUSHALI Y.KULKARNI 等: "Weighted Hybrid Decision Tree Model for Random Forest Classifier", 《JOURNAL OF THE INSTITUTION OF ENGINEERS:SERIES B》 * |
王宇燕 等: "改进随机森林的集成分类方法预测结直肠癌存活性", 《管理科学》 * |
马孝斌 等: "基于优化决策树的慢性阻塞性肺疾病预测方法", 《山东师范大学学报(自然科学版)》 * |
魏勋: "类别不平衡与代价敏感数据的集成分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785973B (zh) * | 2019-01-25 | 2021-02-09 | 中国医学科学院阜外医院 | 一种手术患者在围手术期发生并发症的定量预测方法 |
CN109785973A (zh) * | 2019-01-25 | 2019-05-21 | 中国医学科学院阜外医院 | 一种手术患者在围手术期发生并发症的定量预测方法 |
CN109951444A (zh) * | 2019-01-29 | 2019-06-28 | 中国科学院信息工程研究所 | 一种加密匿名网络流量识别方法 |
CN110051324A (zh) * | 2019-03-14 | 2019-07-26 | 深圳大学 | 一种急性呼吸窘迫综合征死亡率预测方法及系统 |
CN110051324B (zh) * | 2019-03-14 | 2022-06-10 | 深圳大学 | 一种急性呼吸窘迫综合征死亡率预测方法及系统 |
CN110123274A (zh) * | 2019-04-29 | 2019-08-16 | 上海电气集团股份有限公司 | 一种脓毒血症的监测系统 |
CN110309862A (zh) * | 2019-06-11 | 2019-10-08 | 广东省人民医院(广东省医学科学院) | 基于集成机器学习的dme预后信息预测系统及其应用方法 |
CN110349666B (zh) * | 2019-07-04 | 2022-12-16 | 南京工业大学 | 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 |
CN110349666A (zh) * | 2019-07-04 | 2019-10-18 | 南京工业大学 | 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 |
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN112447289A (zh) * | 2019-08-30 | 2021-03-05 | 希尔-罗姆服务公司 | 败血症监测系统 |
WO2021098842A1 (zh) * | 2019-11-21 | 2021-05-27 | 四川省人民医院 | 基于机器学习的通过体检指标预测健康状态的方法 |
CN111105160A (zh) * | 2019-12-20 | 2020-05-05 | 北京工商大学 | 一种基于倾向性异质装袋算法的钢材质量预测方法 |
CN111128295A (zh) * | 2019-12-26 | 2020-05-08 | 杭州纽安津生物科技有限公司 | 一种预测多肽毒性的方法 |
CN111261282A (zh) * | 2020-01-21 | 2020-06-09 | 南京航空航天大学 | 一种基于机器学习的脓毒症早期预测方法 |
WO2021179514A1 (zh) * | 2020-03-07 | 2021-09-16 | 华中科技大学 | 一种基于人工智能的新型冠状病毒患者病况分类系统 |
CN111370126A (zh) * | 2020-03-17 | 2020-07-03 | 杭州妞诺科技有限公司 | 基于惩罚集成模型的icu死亡率预测方法及系统 |
CN111951975B (zh) * | 2020-08-19 | 2022-03-25 | 哈尔滨工业大学 | 一种基于深度学习模型gpt-2的脓毒症早期预警方法 |
CN111951975A (zh) * | 2020-08-19 | 2020-11-17 | 哈尔滨工业大学 | 一种基于深度学习模型gpt-2的脓毒症早期预警方法 |
CN112382342A (zh) * | 2020-11-24 | 2021-02-19 | 山西三友和智慧信息技术股份有限公司 | 一种基于集成特征选择的癌症甲基化数据分类方法 |
CN112967803A (zh) * | 2021-01-29 | 2021-06-15 | 成都一尧科技有限公司 | 基于集成模型的急诊患者早期死亡率预测方法及系统 |
CN112992346A (zh) * | 2021-04-09 | 2021-06-18 | 中山大学附属第三医院(中山大学肝脏病医院) | 重症脊髓损伤预后的预测模型的建立方法 |
CN112992368A (zh) * | 2021-04-09 | 2021-06-18 | 中山大学附属第三医院(中山大学肝脏病医院) | 重症脊髓损伤预后的预测模型系统及记录媒体 |
CN112992368B (zh) * | 2021-04-09 | 2023-06-20 | 中山大学附属第三医院(中山大学肝脏病医院) | 重症脊髓损伤预后的预测模型系统及存储介质 |
CN113314227A (zh) * | 2021-04-16 | 2021-08-27 | 山东大学 | 一种预测新型冠状病毒感染的机器学习模型构建方法 |
CN113177613A (zh) * | 2021-05-25 | 2021-07-27 | 中国工商银行股份有限公司 | 系统资源数据分配方法及装置 |
CN113593708A (zh) * | 2021-07-12 | 2021-11-02 | 杭州电子科技大学 | 基于集成学习算法的脓毒症预后预测方法 |
CN113796877A (zh) * | 2021-08-17 | 2021-12-17 | 昆明同心医联科技有限公司 | 脑卒中预测值获取方法、装置及存储介质 |
CN113671078B (zh) * | 2021-08-18 | 2023-03-03 | 郑州大学第一附属医院 | 一种基于代谢组学的脓毒症预后模型建立方法 |
CN113671078A (zh) * | 2021-08-18 | 2021-11-19 | 郑州大学第一附属医院 | 一种基于代谢组学的脓毒症预后模型建立方法 |
CN113871006A (zh) * | 2021-09-03 | 2021-12-31 | 华中科技大学 | 基于脓毒症病人检测信息进行生存概率打分的方法及系统 |
CN113871006B (zh) * | 2021-09-03 | 2024-09-10 | 华中科技大学 | 基于脓毒症病人检测信息进行生存概率打分的方法及系统 |
CN113871009A (zh) * | 2021-09-27 | 2021-12-31 | 山东师范大学 | 一种重症监护病房中脓毒症预测系统、存储介质及设备 |
CN114724701A (zh) * | 2022-03-11 | 2022-07-08 | 梁娜 | 基于叠加集成算法和自动编码器的无创通气疗效预测系统 |
CN116309515A (zh) * | 2023-03-31 | 2023-06-23 | 广东省人民医院 | 一种肺部亚厘米结节侵袭性预测模型的构建方法及该诊断模型与诊断器 |
CN116646074A (zh) * | 2023-05-23 | 2023-08-25 | 天津大学 | 基于逻辑回归的脓毒症心力衰竭早期预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109119167B (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109119167A (zh) | 基于集成模型的脓毒症死亡率预测系统 | |
CN107403072A (zh) | 一种基于机器学习的2型糖尿病预测预警方法 | |
CN109509551A (zh) | 一种常见疾病智能诊断方法及系统 | |
CN108597601A (zh) | 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 | |
CN105956382A (zh) | 基于改进型cart决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法 | |
CN108511056A (zh) | 基于脑卒中患者相似性分析的治疗方案推荐方法及系统 | |
CN108304887A (zh) | 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 | |
CN107358014A (zh) | 一种生理数据的临床前处理方法及系统 | |
CN102930163A (zh) | 一种2型糖尿病风险状态判定方法 | |
CN103678534A (zh) | 结合粗糙集和模糊推理的生理信息与健康相关性获取方法 | |
CN109509552A (zh) | 一种基于功能连接网络的多层次特征融合的精神病自动判别方法 | |
CN110111884A (zh) | 一种基于cmkmc的人机协同智慧医疗辅助决策系统 | |
CN109925002A (zh) | 人工智能超声心动图数据采集系统及其数据采集方法 | |
CN109948740A (zh) | 一种基于静息态脑影像的分类方法 | |
CN107536602A (zh) | 基于脉搏波的吸毒人员筛查方法 | |
Pillai et al. | Prediction of heart disease using rnn algorithm | |
CN110318731A (zh) | 一种基于gan的抽油井故障诊断方法 | |
CN116564521A (zh) | 一种慢性病风险评估模型建立方法、介质及系统 | |
CN115579128A (zh) | 一种多模型特征增强疾病筛查系统 | |
CN110853761A (zh) | 一种基于极端梯度提升算法的精神病高危识别模型 | |
Cao et al. | 3D convolutional neural networks fusion model for lung nodule detection onclinical CT scans | |
CN116864062B (zh) | 一种基于互联网的健康体检报告数据分析管理系统 | |
CN108741342A (zh) | 一种基于因子分析和概率神经网络的人体体型聚类方法 | |
KR101255477B1 (ko) | 사상체질 분류방법 | |
CN115204475A (zh) | 一种戒毒场所安全事件风险评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |