CN110349666B - 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 - Google Patents

一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 Download PDF

Info

Publication number
CN110349666B
CN110349666B CN201910597518.0A CN201910597518A CN110349666B CN 110349666 B CN110349666 B CN 110349666B CN 201910597518 A CN201910597518 A CN 201910597518A CN 110349666 B CN110349666 B CN 110349666B
Authority
CN
China
Prior art keywords
honey source
honey
random forest
heart failure
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910597518.0A
Other languages
English (en)
Other versions
CN110349666A (zh
Inventor
帅仁俊
郭汉
马力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201910597518.0A priority Critical patent/CN110349666B/zh
Publication of CN110349666A publication Critical patent/CN110349666A/zh
Application granted granted Critical
Publication of CN110349666B publication Critical patent/CN110349666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于IABC‑RF的ICU心力衰竭患者死亡率的预测方法,包括以下步骤:收集数据集,所述数据集为ICU患者的就诊信息;对数据集进行预处理,预处理过程包括:数据筛选、数据标记和特征提取;将预处理过的数据集分成训练集和测试集;将训练集输入到未优化的随机森林模型进行训练,得到优化完成的随机森林模型;将测试集输入到优化完成的随机森林模型,得到测试集中的心力衰竭患者将死亡或存活的预测结果。本发明首次在ICU患者心衰死亡率预测研究中结合改进的迭代加深搜索人工蜂群算法和随机森林模型,在改善优化性能的同时也极大地提高了模型的性能,有助于更准确、更快地预测心衰死亡率。

Description

一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法。
背景技术
因为ICU心力衰竭患者的特殊性,医院在人员、设备及技术上都予以最佳保障,通过连续或接近连续的观察、诊疗和监护,以达到良好的医疗效果,同时医疗费用也比较昂贵。ICU心力衰竭患者通常病情危急、病情多变,仅通过有丰富经验医生的主观经验及医学手段来做出重大决策进行诊疗已经显露出一些局限性。尽管付出了巨大的努力,但每天仍然有很多生命逝去,因此迫切需要将大量重症监护数据库利用起来,通过建立数据与疾病之间的联系,对ICU心力衰竭患者的死亡率做出更快、更准确的预测。
重症监护室数据集样本数量及复杂程度一直保持增长状态,同时ICU数据相比起普通的电子病历数据其维度更高、更密集,给机器学习方法提供了有利的条件。预测ICU 心力衰竭患者死亡率是一个非常重要的问题。对于高死亡率的心力衰竭病人,及时采取有针对性的诊治手段以避免错失最佳治疗时机;对于低死亡率的心力衰竭病人,减少药物的过度使用,也更有益于患者和卫生保健资源的合理分配。
发明内容
本发明提出了一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,包括以下步骤:
收集数据集,对数据集进行预处理,预处理过程包括:数据筛选、数据标记和特征提取;
将预处理过的数据集分成训练集和测试集;
将训练集输入到未优化的随机森林模型进行训练,得到优化完成的随机森林模型;
将测试集输入到优化完成的随机森林模型,得到预测结果;
所述训练随机森林模型的过程具体为:
雇佣蜂随机生成蜜源Si,每个雇佣蜂对应一个蜜源,每个蜜源对应一个随机森林。
计算蜜源Si的适应度;
雇佣蜂搜索蜜源Si邻域:雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,生成新蜜源S′i,计算新蜜源S′i的适应度,比较蜜源Si的适应度和新蜜源S′i的适应度,用适应度高的蜜源替换适应度低的蜜源,重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN;
观察蜂跟随雇佣蜂搜索:观察蜂选择蜜源Si中适应度高的前T个蜜源作为精英蜜源,用迭代深度优先算法动态搜索精英蜜源的邻域,随机选择精英蜜源的邻域内的一个精英参考蜜源,并根据精英参考蜜源产生一个精英新蜜源,计算和比较精英蜜源和精英新蜜源的适应度,用适应度高的蜜源替换适应度低的蜜源,重复上述步骤直到整个训练随机森林模型的过程达到最大迭代次数MCN;
侦察蜂随机生成蜜源:当单个蜜源的开采次数达到最大开采次数Limit时,还没有发现有适应度更高的新蜜源,则蜜源的开采次数达到最大开采次数Limit的蜜源对应的雇佣蜂变为侦查蜂;侦查蜂随机生成新的蜜源替换当前蜜源;
整个训练随机森林模型的过程达到最大迭代次数MCN,选择适应度最高的蜜源对应的随机森林。
进一步地,所述数据筛选具体为:筛选出所有诊断为心力衰竭的患者;所述数据标记具体为:对数据集进行标记,将出院存活时间大于30天以及为空值的患者标记为存活状态,其余标记为死亡状态,其中患者的出院存活时间为患者的死亡时间与患者的出院时间的差值,以天计;所述特征提取具体为:用随机森林特征选择算法按照特征的重要性对特征进行排序,选取前G个特征,所述特征为心力衰竭患者做过的实验室测试项目。
进一步地,所述雇佣蜂随机生成蜜源Si的具体公式为:
Figure GDA0003927175610000021
其中,
Figure GDA0003927175610000022
表示第i个蜜源Si中的d维分量,d表示维度,d=1,2,…,D,Ud和Ld为构造d维分量的上界和下界,rand(0,1)表示[0,1]内的一个随机数;
进一步地,所述计算蜜源Si的适应度具体为:
用N个蜜源Si对应的随机森林对训练集中的样本进行分类,根据分类效果计算每个蜜源Si的适应度fit(Si),具体计算公式为:
Figure GDA0003927175610000023
其中,j∈{1,2,…,t},t为训练集中的样本数量,如果参数
Figure GDA0003927175610000024
对应的随机森林模型成功分类第j个样本则
Figure GDA0003927175610000025
否则
Figure GDA0003927175610000026
对于第j个样本,如果成功分类的决策树数量等于错误分类的决策树数量,则
Figure GDA0003927175610000027
否则
Figure GDA0003927175610000028
进一步地,所述雇佣蜂搜索蜜源Si邻域具体为:
雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,随机选择蜜源Si的邻域内的一个参考蜜源进行搜索,并产生一个新蜜源S′i,新蜜源的生成公式为:
Figure GDA0003927175610000031
其中d∈{1,2,…,D},k∈{1,2,…,N},
Figure GDA0003927175610000032
是参考蜜源中的d维分量,
Figure GDA0003927175610000033
Figure GDA0003927175610000034
是新蜜源S′i中的d维分量。
用新蜜源S′i对应的随机森林对训练集中的样本进行分类,根据分类效果计算新蜜源 S′i的适应度fit(S′i),具体计算公式为:
Figure GDA0003927175610000035
其中,如果新蜜源S′i对应的随机森林成功分类第j个样本则
Figure GDA0003927175610000036
否则
Figure GDA0003927175610000037
对于第j个样本,如果成功分类的决策树个数等于错误分类的决策树数量,则
Figure GDA0003927175610000038
否则
Figure GDA0003927175610000039
如果fit(S′i)≥fit(Si),则用新蜜源S′i替换蜜源Si
重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN。
进一步地,所述观察蜂的数量为α·T,其中T=p·N,p∈(0,1),α∈ {1,2,3,…,ceil(1/p)};ceil(1/p)表示不小于1/p的最小整数,p用于控制T的大小。
进一步地,所述新的蜜源为Ri′,新的蜜源Ri′的具体生成公式为:
Figure GDA00039271756100000310
其中,
Figure GDA00039271756100000311
为新的蜜源Ri′的d维分量,其中d∈{1,2,…,D},i′∈{1,2,…,M},M为新的蜜源Ri′的个数,Ud和Ld为构造d维分量的上界和下界。
进一步地,所述待优化的随机森林参数具体包括,决策树最大深度、投票前子树数量、内部节点再划分最小样本数、叶子节点最小样本数和RF划分时最大特征数;因此, D取5。
进一步地,所述蜜源个数N=50,蜜源的最大开采次数Limit=50,最大迭代次数MCN=15000,p=0.1。
本发明与现有技术相比,有益效果在于:
(1)针对心力衰竭死亡率预测模型能够有效的对心力衰竭死亡率进行预测,实用性高。
(2)本发明首次在ICU患者心衰死亡率预测研究中结合改进的迭代加深搜索人工蜂群算法和随机森林模型,在改善优化性能的同时也极大地提高了模型的性能,有助于更准确、更快地预测心衰死亡率。
(3)本发明在准确率、精确率、召回率和F值的预测性能指标方面有着良好的表现。
附图说明
图1为本发明一实施例的流程图。
图2为本发明一实施例与其他算法的耗时对比图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定义在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
下面以数据集MIMICIII为本发明的一实施例对本发明进行进一步描述,具体描述如下。
本发明公开了一种基于IABC-RF(improved artificial bee colony-randomforest:改进的人工蜂群-随机森林模型)的ICU(Intensive Care Unit:重症监护室)心力衰竭患者死亡率的预测方法,包括以下步骤:
步骤一:收集数据集;
本实施例的数据集采用的是麻省理工学院计算生理学实验室开发的公开数据集MIMICIII,具体获取网址为:https://mimic.physionet.org/gettingstarted/access/。数据集由 26个数据表组成。本实施例采用了其中六个表:PATIENTS,ADMISSIONS,ICUSTAYS,DIAGNOSES_I CD,D_LABITEMS,LABEVENTS,这六个表涵盖了ICU患者的所有就诊信息,对六个表的具体说明如表1所示。
表1
Figure GDA0003927175610000051
步骤二:将数据集进行预处理,预处理过程包括:数据筛选、数据标记和特征提取;
筛选出所有诊断为心力衰竭的患者,共计10414名患者。其中6115名患者不再生存,4299名患者仍然存活。
对数据集进行标记,将出院存活时间大于30天以及为空值的患者标记为存活状态,其余标记为死亡状态,其中患者的出院存活时间为患者的死亡时间与患者的出院时间的差值,以天计。
D_LABITEMS表列出了所有的实验室测试项目,其中心力衰竭患者做过的实验室测试项目有345种,从中筛选出具有统计学差异的231种;
由于部分实验室测试项目只有少数患者进行检查,本实验将少于3000名心力衰竭患者接受检验的实验室检测项目删除;同时因为同一名患者在不同时间进行同一种实验室测试项目,所以对同一个实验室测试项目,同一患者会有多个值,本实验取多个检测结果的均值;最后对数据进行空值填充和标准化处理;最终选取55种实验测试项目,即数据集的特征数为55。
按照特征的重要性,用随机森林特征选择算法对55个特征进行排序。
用决策树算法进行预测实验,当选取的特征数为12的时候,预测模型表现最好,因此本实施例选取前12个特征。
步骤三:将预处理过的数据集分成训练集和测试集;
步骤四:利用改进的人工蜂群算法对随机森林模型的参数进行优化,将训练集输入到优化中的随机森林模型中对优化中的随机森林模型进行训练,得到优化完成的随机森林模型;
优化和训练随机森林模型的过程具体为:
(1)雇佣蜂随机生成蜜源:
N个雇佣蜂在搜索空间随机生成N个蜜源Si(i=1,2,…,N),每个蜜源对应一个雇佣蜂,
每个蜜源是一个D维矢量,每个分量代表一种待优化的随机森林参数,所以每个蜜源对应一个随机森林。
随机生成蜜源Si的公式为:
Figure GDA0003927175610000061
其中,
Figure GDA0003927175610000062
表示第i个蜜源Si中的d维分量,d表示维度,d=1,2,…,D,Ud和Ld为构造d维分量的上界和下界,rand(0,1)表示[0,1]内的一个随机数;
用N个蜜源Si对应的随机森林对训练集中的样本进行分类,根据分类效果计算每个蜜源Si的适应度fit(Si),具体计算公式为:
Figure GDA0003927175610000063
其中,j∈{1,2,…,t},t为训练集中的样本数量,如果参数
Figure GDA0003927175610000064
对应的随机森林模型成功分类第j个样本则
Figure GDA0003927175610000065
否则
Figure GDA0003927175610000066
对于第j个样本,如果成功分类的决策树数量等于错误分类的决策树数量,则
Figure GDA0003927175610000067
否则
Figure GDA0003927175610000068
(2)雇佣蜂搜索蜜源邻域
雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,随机选择蜜源Si的邻域内的一个参考蜜源进行搜索,并产生一个新蜜源S′i,新蜜源的生成公式为:
Figure GDA0003927175610000069
其中d∈{1,2,…,D},k∈{1,2,…,N},
Figure GDA00039271756100000610
是参考蜜源中的d维分量,
Figure GDA00039271756100000611
Figure GDA00039271756100000612
是新蜜源S′i中的d维分量。
每个蜜源Si包含待优化的随机森林参数,所以每一个蜜源对应一个随机森林,蜜源量由适应度决定,适应度越大表示蜜量越多,蜜源越好。
用新蜜源S′i对应的随机森林对训练集中的样本进行分类,根据分类效果计算新蜜源 S′i的适应度fit(S′i),具体计算公式为:
Figure GDA0003927175610000071
如果新蜜源S′i对应的随机森林成功分类第j个样本则
Figure GDA0003927175610000072
否则
Figure GDA0003927175610000073
对于第j个样本,如果成功分类的决策树个数等于错误分类的决策树数量,则
Figure GDA0003927175610000074
否则
Figure GDA0003927175610000075
如果fit(S′i)≥fit(Si),则用新蜜源S′i替换蜜源Si
重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit执行(3)侦察蜂随机生成蜜源步骤;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN。
(3)观察蜂跟随搜索:
在计算出蜜源Si的适应度后,观察蜂选择适应度高的前T个蜜源作为精英蜜源,用迭代深度优先算法动态搜索精英蜜源的邻域,随机选择精英蜜源的邻域内的一个精英参考蜜源,并根据精英参考蜜源产生一个精英新蜜源,计算精英蜜源和精英新蜜源的适应度,若精英新蜜源的适应度大于精英蜜源的适应度,则用精英新蜜源替换精英蜜源,否则搜索精英蜜源的邻域,重复上述步骤直到整个训练随机森林模型的过程达到最大迭代次数MCN。
与传统的人工蜂群算法不同,观察蜂的数量不再是N,而是α·T,其中T=p·N,p∈(0,1),α∈{1,2,3,…,ceil(1/p)};ceil(1/p)表示不小于1/p的最小整数,p用于控制T的大小。
(4)侦察蜂随机生成蜜源:
在雇佣蜂搜索蜜源邻域阶段,如果单个蜜源的开采次数达到最大开采次数Limit时还没有发现有适应度更高的新蜜源,则此蜜源对应的雇佣蜂将变为侦查蜂;侦查蜂将放弃当前蜜源并随机生成新的蜜源来替换,新的蜜源Ri,的具体生成公式为:
Figure GDA0003927175610000076
其中,
Figure GDA0003927175610000077
为新的蜜源Ri′的d维分量,其中d∈{1,2,…,D},i′∈{1,2,…,M},M为新的蜜源Ri′的个数,Ud和Ld为构造d维分量的上界和下界。
整个训练随机森林模型的过程达到最大迭代次数MCN时,选择适应度最高的蜜源对应的随机森林,随机森林模型优化完成。
在本实施例中,蜜源个数N=50,蜜源的最大开采次数Limit=50,最大迭代次数MCN=15000,p=0.1。
所述待优化的随机森林参数具体包括,决策树最大深度、投票前子树数量、内部节点再划分最小样本数、叶子节点最小样本数和RF划分时最大特征数;因此,D取5。
步骤五:将测试集输入到优化完成的随机森林模型,得到测试集中的心力衰竭患者将死亡或存活的预测结果。
步骤六:利用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-measure) 作为算法性能的评价指标,具体评价指标中的TP、FN、FP、TN如下面的表2所示:
表2
Figure GDA0003927175610000081
指标中的Accuracy、Precision、Recall、F-measure的计算公式为:
准确率:
Figure GDA0003927175610000082
精确率:
Figure GDA0003927175610000083
召回率:
Figure GDA0003927175610000084
F值:
Figure GDA0003927175610000085
ACC、P、R、F-measure的值越大,模型的性能越好。
本发明的实施例的评价实验采用10折交叉验证,每组进行5次实验,并记录五次实验结果的均值。实验结果如表3所示。结果表明,相对于决策树算法(C4.5)、支持向量机算法(SVM)、随机森林算法(RF)、基于人工蜂群的随机森林算法(ABC-RF),本发明的方法在ACC、P、R、F-measure值表现更好。
表3
评价指标/算法 C4.5 SVM RF ABC-RF IABC-RF
Accuracy 0.65 0.67 0.71 0.73 0.79
Precision 0.78 0.75 0.82 0.84 0.88
Recall 0.67 0.7 0.69 0.72 0.78
F-measure 0.66 0.71 0.74 0.76 0.8
同时,如图2所示,横坐标为数据量,纵坐标为算法的耗时,有图可知,随着数据量的增大,本发明提出的IABC-RF算法的运行速率优于基于人工蜂群的随机森林算法 (ABC-RF)。
本发明首次在ICU患者心衰死亡率预测研究中结合改进的迭代加深搜索人工蜂群算法和随机森林模型,具体为:将观察蜂阶段的观察蜜蜂的数量由N改为α·T(其中T=p·N,p∈(0,1),α∈{1,2,3,...,ceil(1/p)},参数α可以控制计算策略资源分配),只有顶级T个精英解决方案吸引观察蜂搜索,利用随机选择的精英食物来源(具有高纯度值或小目标函数值)连续产生候选食物来源,直到不能产生更好的食物来源;从而在雇佣蜂阶段和观察蜂阶段,食物来源容易得到改善,由此吸引更多的雇佣蜂和观察蜂,从而分配更多的计算资源,同时食物来源的质量在每一代中可能有显著差异,与轮盘赌过程相比,观察蜂阶段的搜索过程时间大大缩短;本发明提出了迭代加深搜索算法框架来改进人工蜂群算法,迭代加深搜索算法是仿广度优先搜索的深度优先搜索,既能满足深度优先搜索的线性存储要求,又能保证发现一个最小深度的目标结点;基于上述改进,本发明在改善优化性能的同时也极大地提高了模型的性能,有助于更准确、更快地预测心衰死亡率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,包括以下步骤:
收集数据集,所述数据集为ICU患者的就诊信息;
对数据集进行预处理,预处理过程包括:数据筛选、数据标记和特征提取;
所述数据筛选具体为:筛选出所有ICU心力衰竭患者的就诊信息;
所述数据标记具体为:对数据集进行标记,将出院存活时间大于特定时长以及为空值的患者标记为存活状态,其余标记为死亡状态,其中患者的出院存活时间为患者的死亡时间与患者的出院时间的差值,以天计;
将预处理过的数据集分成训练集和测试集;
利用改进的人工蜂群算法对随机森林模型的参数进行优化,将训练集输入到优化中的随机森林模型中对优化中的随机森林模型进行训练,得到优化完成的随机森林模型;
将测试集输入到优化完成的随机森林模型,得到测试集中的心力衰竭患者将死亡或存活的预测结果;
所述优化和训练随机森林模型的过程具体为:
雇佣蜂随机生成蜜源Si,每个雇佣蜂对应一个蜜源,每个蜜源对应一个随机森林;
计算蜜源Si的适应度;
雇佣蜂搜索蜜源Si邻域:雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,生成新蜜源S′i,计算新蜜源S′i的适应度,比较蜜源Si的适应度和新蜜源S′i的适应度,用适应度高的蜜源替换适应度低的蜜源,重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN;
观察蜂跟随雇佣蜂搜索:观察蜂选择蜜源Si中适应度高的前T个蜜源作为精英蜜源,用迭代深度优先算法动态搜索精英蜜源的邻域,随机选择精英蜜源的邻域内的一个精英参考蜜源,并根据精英参考蜜源产生一个精英新蜜源,计算和比较精英蜜源和精英新蜜源的适应度,用适应度高的蜜源替换适应度低的蜜源,重复上述步骤直到整个训练随机森林模型的过程达到最大迭代次数MCN;
侦察蜂随机生成蜜源:当单个蜜源的开采次数达到最大开采次数Limit时,还没有发现有适应度更高的新蜜源,则蜜源的开采次数达到最大开采次数Limit的蜜源对应的雇佣蜂变为侦查蜂;侦查蜂随机生成新的蜜源替换当前蜜源;
整个训练随机森林模型的过程达到最大迭代次数MCN,选择适应度最高的蜜源对应的随机森林。
2.根据权利要求1所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,所述特征提取具体为:用随机森林特征选择算法按照特征的重要性对特征进行排序,选取前G个特征,所述特征为心力衰竭患者做过的实验室测试项目。
3.根据权利要求1所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,
所述雇佣蜂随机生成蜜源Si的具体公式为:
Figure FDA0003927175600000021
其中,
Figure FDA0003927175600000022
表示第i个蜜源Si中的d维分量,d表示维度,d=1,2,…,D,Ud和Ld为构造d维分量的上界和下界,rand(0,1)表示[0,1]内的一个随机数。
4.根据权利要求3所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,所述计算蜜源Si的适应度具体为:
用N个蜜源Si对应的随机森林对训练集中的样本进行分类,根据分类效果计算每个蜜源Si的适应度fit(Si),具体计算公式为:
Figure FDA0003927175600000023
其中,j∈{1,2,…,t},t为训练集中的样本数量,如果参数
Figure FDA0003927175600000024
对应的随机森林模型成功分类第j个样本则
Figure FDA0003927175600000025
否则
Figure FDA0003927175600000026
对于第j个样本,如果成功分类的决策树数量等于错误分类的决策树数量,则
Figure FDA0003927175600000027
否则
Figure FDA0003927175600000028
5.根据权利要求4所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,所述雇佣蜂搜索蜜源Si邻域具体为:
雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,随机选择蜜源Si的邻域内的一个参考蜜源进行搜索,并产生一个新蜜源S′i,新蜜源的生成公式为:
Figure FDA0003927175600000029
其中d∈{1,2,…,D},k∈{1,2,…,N},
Figure FDA00039271756000000210
是参考蜜源中的d维分量,
Figure FDA00039271756000000211
Figure FDA00039271756000000212
是新蜜源S′i中的d维分量;
用新蜜源S′i对应的随机森林对训练集中的样本进行分类,根据分类效果计算新蜜源S′i的适应度fit(S′i),具体计算公式为:
Figure FDA0003927175600000031
其中,如果新蜜源S′i对应的随机森林成功分类第j个样本则
Figure FDA0003927175600000032
否则
Figure FDA0003927175600000033
对于第j个样本,如果成功分类的决策树个数等于错误分类的决策树数量,则
Figure FDA0003927175600000034
否则
Figure FDA0003927175600000035
如果fit(S′i)≥fit(Si),则用新蜜源S′i替换蜜源Si
重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN。
6.根据权利要求5所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,所述观察蜂的数量为α·T,其中T=p·N,p∈(0,1),α∈{1,2,3,…,ceil(1/p)};ceil(1/p)表示不小于1/p的最小整数,p用于控制T的大小。
7.根据权利要求6所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,所述新的蜜源为Ri′,新的蜜源Ri′的具体生成公式为:
Figure FDA0003927175600000036
其中,
Figure FDA0003927175600000037
为新的蜜源Ri′的d维分量,其中d∈{1,2,…,D},i′∈{1,2,…,M},M为新的蜜源Ri′的个数,Ud和Ld为构造d维分量的上界和下界。
8.根据权利要求7所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,待优化的随机森林参数具体包括,决策树最大深度、投票前子树数量、内部节点再划分最小样本数、叶子节点最小样本数和RF划分时最大特征数;因此,D取5。
9.根据权利要求8所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,将出院存活时间大于30天以及为空值的患者标记为存活状态;所述蜜源个数N=50,蜜源的最大开采次数Limit=50,最大迭代次数MCN=15000,p=0.1。
CN201910597518.0A 2019-07-04 2019-07-04 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 Active CN110349666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910597518.0A CN110349666B (zh) 2019-07-04 2019-07-04 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910597518.0A CN110349666B (zh) 2019-07-04 2019-07-04 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法

Publications (2)

Publication Number Publication Date
CN110349666A CN110349666A (zh) 2019-10-18
CN110349666B true CN110349666B (zh) 2022-12-16

Family

ID=68178087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910597518.0A Active CN110349666B (zh) 2019-07-04 2019-07-04 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法

Country Status (1)

Country Link
CN (1) CN110349666B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767279A (zh) * 2019-10-21 2020-02-07 山东师范大学 基于lstm的电子健康记录缺失数据补全方法及系统
CN111445998B (zh) * 2020-02-05 2023-05-30 华东理工大学 一种基于边界增强的心衰死亡预测系统
CN111508604A (zh) * 2020-04-20 2020-08-07 深圳大学 一种急性肾损伤患者死亡率预测方法、服务器及存储介质
CN111612278A (zh) * 2020-06-01 2020-09-01 戴松世 生命状态预测方法、装置、电子设备及存储介质
CN113113131B (zh) * 2021-03-24 2024-02-13 南京途博科技有限公司 死亡风险预测模型的生成方法、终端及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038578A (zh) * 2017-12-28 2018-05-15 东南大学 基于需求预测和中心辐射网络的公共自行车静态调度方法
CN109119167A (zh) * 2018-07-11 2019-01-01 山东师范大学 基于集成模型的脓毒症死亡率预测系统
CN109346182A (zh) * 2018-08-28 2019-02-15 昆明理工大学 一种基于cs-rf的地中海贫血病的风险预警方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11011274B2 (en) * 2016-03-09 2021-05-18 Conduent Business Services, Llc Method and apparatus for predicting mortality of a patient using trained classifiers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038578A (zh) * 2017-12-28 2018-05-15 东南大学 基于需求预测和中心辐射网络的公共自行车静态调度方法
CN109119167A (zh) * 2018-07-11 2019-01-01 山东师范大学 基于集成模型的脓毒症死亡率预测系统
CN109346182A (zh) * 2018-08-28 2019-02-15 昆明理工大学 一种基于cs-rf的地中海贫血病的风险预警方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
改进的人工蜂群结合优化的随机森林的U2R攻击检测研究;翟继强 等;《信息网络安全》;20181210(第12期);第38-45页 *

Also Published As

Publication number Publication date
CN110349666A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110349666B (zh) 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法
Karaboga et al. Fuzzy clustering with artificial bee colony algorithm
Mall et al. Heart diagnosis using deep neural network
Peter et al. Study and development of novel feature selection framework for heart disease prediction
CN112951413B (zh) 一种基于决策树和改进smote算法的哮喘病诊断系统
López-Cruz et al. Bayesian network modeling of the consensus between experts: An application to neuron classification
Salleh et al. FCMPSO: An imputation for missing data features in heart disease classification
CN116259415A (zh) 一种基于机器学习的患者服药依从性预测方法
Haarika et al. Breast cancer prediction using feature selection and classification with xgboost
Navaz et al. The use of data mining techniques to predict mortality and length of stay in an ICU
Rajini et al. Lung cancer prediction using Random Forest
Challab et al. A Hybrid Method Based on LSTM and Optimized SVM for Diagnosis of Novel Coronavirus (COVID-19).
Chellamuthu et al. Data mining and machine learning approaches in breast cancer biomedical research
Akın et al. Prediction of human development index with health indicators using tree-based regression models
Rostami et al. Cancer prediction using graph-based gene selection and explainable classifier
Alam et al. Patients' Severity States Classification based on Electronic Health Record (EHR) Data using Multiple Machine Learning and Deep Learning Approaches
Mathew et al. A modified-weighted-k-nearest neighbour and cuckoo search hybrid model for breast cancer classification
Cripsy et al. Lung Cancer Disease Prediction and Classification based on Feature Selection method using Bayesian Network, Logistic Regression, J48, Random Forest, and Naïve Bayes Algorithms
Naser et al. Prediction Model of Breast Cancer Survival Months: A Machine Learning Approach
Farooqui et al. A study on early prevention and detection of breast cancer using three-machine learning techniques
Usha et al. Predicting Heart Disease Using Feature Selection Techniques Based On Data Driven Approach
Saranya et al. Bd-Mdl: bipolar disorder detection using machine leanring and deep learning
Suhiman et al. Classification of Breast Cancer Subtypes using Microarray RNA Expression Data
Morid et al. Leveraging Time Series Data in Similarity Based Healthcare Predictive Models: The Case of Early ICU Mortality Prediction.
Alabed et al. Genetic algorithms as a feature selection tool in heart failure disease

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant