CN110349666B - 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 - Google Patents
一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 Download PDFInfo
- Publication number
- CN110349666B CN110349666B CN201910597518.0A CN201910597518A CN110349666B CN 110349666 B CN110349666 B CN 110349666B CN 201910597518 A CN201910597518 A CN 201910597518A CN 110349666 B CN110349666 B CN 110349666B
- Authority
- CN
- China
- Prior art keywords
- honey source
- honey
- random forest
- heart failure
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 206010019280 Heart failures Diseases 0.000 title claims abstract description 39
- 238000007637 random forest analysis Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000004083 survival effect Effects 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 235000012907 honey Nutrition 0.000 claims description 171
- 241000257303 Hymenoptera Species 0.000 claims description 32
- 238000003066 decision tree Methods 0.000 claims description 17
- 238000005065 mining Methods 0.000 claims description 15
- 208000028659 discharge Diseases 0.000 claims description 10
- 238000009533 lab test Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010845 search algorithm Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 3
- 230000002349 favourable effect Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 7
- 235000013305 food Nutrition 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000011282 treatment Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007721 medicinal effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010863 targeted diagnosis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于IABC‑RF的ICU心力衰竭患者死亡率的预测方法,包括以下步骤:收集数据集,所述数据集为ICU患者的就诊信息;对数据集进行预处理,预处理过程包括:数据筛选、数据标记和特征提取;将预处理过的数据集分成训练集和测试集;将训练集输入到未优化的随机森林模型进行训练,得到优化完成的随机森林模型;将测试集输入到优化完成的随机森林模型,得到测试集中的心力衰竭患者将死亡或存活的预测结果。本发明首次在ICU患者心衰死亡率预测研究中结合改进的迭代加深搜索人工蜂群算法和随机森林模型,在改善优化性能的同时也极大地提高了模型的性能,有助于更准确、更快地预测心衰死亡率。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法。
背景技术
因为ICU心力衰竭患者的特殊性,医院在人员、设备及技术上都予以最佳保障,通过连续或接近连续的观察、诊疗和监护,以达到良好的医疗效果,同时医疗费用也比较昂贵。ICU心力衰竭患者通常病情危急、病情多变,仅通过有丰富经验医生的主观经验及医学手段来做出重大决策进行诊疗已经显露出一些局限性。尽管付出了巨大的努力,但每天仍然有很多生命逝去,因此迫切需要将大量重症监护数据库利用起来,通过建立数据与疾病之间的联系,对ICU心力衰竭患者的死亡率做出更快、更准确的预测。
重症监护室数据集样本数量及复杂程度一直保持增长状态,同时ICU数据相比起普通的电子病历数据其维度更高、更密集,给机器学习方法提供了有利的条件。预测ICU 心力衰竭患者死亡率是一个非常重要的问题。对于高死亡率的心力衰竭病人,及时采取有针对性的诊治手段以避免错失最佳治疗时机;对于低死亡率的心力衰竭病人,减少药物的过度使用,也更有益于患者和卫生保健资源的合理分配。
发明内容
本发明提出了一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,包括以下步骤:
收集数据集,对数据集进行预处理,预处理过程包括:数据筛选、数据标记和特征提取;
将预处理过的数据集分成训练集和测试集;
将训练集输入到未优化的随机森林模型进行训练,得到优化完成的随机森林模型;
将测试集输入到优化完成的随机森林模型,得到预测结果;
所述训练随机森林模型的过程具体为:
雇佣蜂随机生成蜜源Si,每个雇佣蜂对应一个蜜源,每个蜜源对应一个随机森林。
计算蜜源Si的适应度;
雇佣蜂搜索蜜源Si邻域:雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,生成新蜜源S′i,计算新蜜源S′i的适应度,比较蜜源Si的适应度和新蜜源S′i的适应度,用适应度高的蜜源替换适应度低的蜜源,重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN;
观察蜂跟随雇佣蜂搜索:观察蜂选择蜜源Si中适应度高的前T个蜜源作为精英蜜源,用迭代深度优先算法动态搜索精英蜜源的邻域,随机选择精英蜜源的邻域内的一个精英参考蜜源,并根据精英参考蜜源产生一个精英新蜜源,计算和比较精英蜜源和精英新蜜源的适应度,用适应度高的蜜源替换适应度低的蜜源,重复上述步骤直到整个训练随机森林模型的过程达到最大迭代次数MCN;
侦察蜂随机生成蜜源:当单个蜜源的开采次数达到最大开采次数Limit时,还没有发现有适应度更高的新蜜源,则蜜源的开采次数达到最大开采次数Limit的蜜源对应的雇佣蜂变为侦查蜂;侦查蜂随机生成新的蜜源替换当前蜜源;
整个训练随机森林模型的过程达到最大迭代次数MCN,选择适应度最高的蜜源对应的随机森林。
进一步地,所述数据筛选具体为:筛选出所有诊断为心力衰竭的患者;所述数据标记具体为:对数据集进行标记,将出院存活时间大于30天以及为空值的患者标记为存活状态,其余标记为死亡状态,其中患者的出院存活时间为患者的死亡时间与患者的出院时间的差值,以天计;所述特征提取具体为:用随机森林特征选择算法按照特征的重要性对特征进行排序,选取前G个特征,所述特征为心力衰竭患者做过的实验室测试项目。
进一步地,所述雇佣蜂随机生成蜜源Si的具体公式为:
进一步地,所述计算蜜源Si的适应度具体为:
用N个蜜源Si对应的随机森林对训练集中的样本进行分类,根据分类效果计算每个蜜源Si的适应度fit(Si),具体计算公式为:
进一步地,所述雇佣蜂搜索蜜源Si邻域具体为:
雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,随机选择蜜源Si的邻域内的一个参考蜜源进行搜索,并产生一个新蜜源S′i,新蜜源的生成公式为:
用新蜜源S′i对应的随机森林对训练集中的样本进行分类,根据分类效果计算新蜜源 S′i的适应度fit(S′i),具体计算公式为:
如果fit(S′i)≥fit(Si),则用新蜜源S′i替换蜜源Si。
重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN。
进一步地,所述观察蜂的数量为α·T,其中T=p·N,p∈(0,1),α∈ {1,2,3,…,ceil(1/p)};ceil(1/p)表示不小于1/p的最小整数,p用于控制T的大小。
进一步地,所述新的蜜源为Ri′,新的蜜源Ri′的具体生成公式为:
进一步地,所述待优化的随机森林参数具体包括,决策树最大深度、投票前子树数量、内部节点再划分最小样本数、叶子节点最小样本数和RF划分时最大特征数;因此, D取5。
进一步地,所述蜜源个数N=50,蜜源的最大开采次数Limit=50,最大迭代次数MCN=15000,p=0.1。
本发明与现有技术相比,有益效果在于:
(1)针对心力衰竭死亡率预测模型能够有效的对心力衰竭死亡率进行预测,实用性高。
(2)本发明首次在ICU患者心衰死亡率预测研究中结合改进的迭代加深搜索人工蜂群算法和随机森林模型,在改善优化性能的同时也极大地提高了模型的性能,有助于更准确、更快地预测心衰死亡率。
(3)本发明在准确率、精确率、召回率和F值的预测性能指标方面有着良好的表现。
附图说明
图1为本发明一实施例的流程图。
图2为本发明一实施例与其他算法的耗时对比图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定义在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
下面以数据集MIMICIII为本发明的一实施例对本发明进行进一步描述,具体描述如下。
本发明公开了一种基于IABC-RF(improved artificial bee colony-randomforest:改进的人工蜂群-随机森林模型)的ICU(Intensive Care Unit:重症监护室)心力衰竭患者死亡率的预测方法,包括以下步骤:
步骤一:收集数据集;
本实施例的数据集采用的是麻省理工学院计算生理学实验室开发的公开数据集MIMICIII,具体获取网址为:https://mimic.physionet.org/gettingstarted/access/。数据集由 26个数据表组成。本实施例采用了其中六个表:PATIENTS,ADMISSIONS,ICUSTAYS,DIAGNOSES_I CD,D_LABITEMS,LABEVENTS,这六个表涵盖了ICU患者的所有就诊信息,对六个表的具体说明如表1所示。
表1
步骤二:将数据集进行预处理,预处理过程包括:数据筛选、数据标记和特征提取;
筛选出所有诊断为心力衰竭的患者,共计10414名患者。其中6115名患者不再生存,4299名患者仍然存活。
对数据集进行标记,将出院存活时间大于30天以及为空值的患者标记为存活状态,其余标记为死亡状态,其中患者的出院存活时间为患者的死亡时间与患者的出院时间的差值,以天计。
D_LABITEMS表列出了所有的实验室测试项目,其中心力衰竭患者做过的实验室测试项目有345种,从中筛选出具有统计学差异的231种;
由于部分实验室测试项目只有少数患者进行检查,本实验将少于3000名心力衰竭患者接受检验的实验室检测项目删除;同时因为同一名患者在不同时间进行同一种实验室测试项目,所以对同一个实验室测试项目,同一患者会有多个值,本实验取多个检测结果的均值;最后对数据进行空值填充和标准化处理;最终选取55种实验测试项目,即数据集的特征数为55。
按照特征的重要性,用随机森林特征选择算法对55个特征进行排序。
用决策树算法进行预测实验,当选取的特征数为12的时候,预测模型表现最好,因此本实施例选取前12个特征。
步骤三:将预处理过的数据集分成训练集和测试集;
步骤四:利用改进的人工蜂群算法对随机森林模型的参数进行优化,将训练集输入到优化中的随机森林模型中对优化中的随机森林模型进行训练,得到优化完成的随机森林模型;
优化和训练随机森林模型的过程具体为:
(1)雇佣蜂随机生成蜜源:
N个雇佣蜂在搜索空间随机生成N个蜜源Si(i=1,2,…,N),每个蜜源对应一个雇佣蜂,
每个蜜源是一个D维矢量,每个分量代表一种待优化的随机森林参数,所以每个蜜源对应一个随机森林。
随机生成蜜源Si的公式为:
用N个蜜源Si对应的随机森林对训练集中的样本进行分类,根据分类效果计算每个蜜源Si的适应度fit(Si),具体计算公式为:
(2)雇佣蜂搜索蜜源邻域
雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,随机选择蜜源Si的邻域内的一个参考蜜源进行搜索,并产生一个新蜜源S′i,新蜜源的生成公式为:
每个蜜源Si包含待优化的随机森林参数,所以每一个蜜源对应一个随机森林,蜜源量由适应度决定,适应度越大表示蜜量越多,蜜源越好。
用新蜜源S′i对应的随机森林对训练集中的样本进行分类,根据分类效果计算新蜜源 S′i的适应度fit(S′i),具体计算公式为:
如果fit(S′i)≥fit(Si),则用新蜜源S′i替换蜜源Si。
重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit执行(3)侦察蜂随机生成蜜源步骤;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN。
(3)观察蜂跟随搜索:
在计算出蜜源Si的适应度后,观察蜂选择适应度高的前T个蜜源作为精英蜜源,用迭代深度优先算法动态搜索精英蜜源的邻域,随机选择精英蜜源的邻域内的一个精英参考蜜源,并根据精英参考蜜源产生一个精英新蜜源,计算精英蜜源和精英新蜜源的适应度,若精英新蜜源的适应度大于精英蜜源的适应度,则用精英新蜜源替换精英蜜源,否则搜索精英蜜源的邻域,重复上述步骤直到整个训练随机森林模型的过程达到最大迭代次数MCN。
与传统的人工蜂群算法不同,观察蜂的数量不再是N,而是α·T,其中T=p·N,p∈(0,1),α∈{1,2,3,…,ceil(1/p)};ceil(1/p)表示不小于1/p的最小整数,p用于控制T的大小。
(4)侦察蜂随机生成蜜源:
在雇佣蜂搜索蜜源邻域阶段,如果单个蜜源的开采次数达到最大开采次数Limit时还没有发现有适应度更高的新蜜源,则此蜜源对应的雇佣蜂将变为侦查蜂;侦查蜂将放弃当前蜜源并随机生成新的蜜源来替换,新的蜜源Ri,的具体生成公式为:
整个训练随机森林模型的过程达到最大迭代次数MCN时,选择适应度最高的蜜源对应的随机森林,随机森林模型优化完成。
在本实施例中,蜜源个数N=50,蜜源的最大开采次数Limit=50,最大迭代次数MCN=15000,p=0.1。
所述待优化的随机森林参数具体包括,决策树最大深度、投票前子树数量、内部节点再划分最小样本数、叶子节点最小样本数和RF划分时最大特征数;因此,D取5。
步骤五:将测试集输入到优化完成的随机森林模型,得到测试集中的心力衰竭患者将死亡或存活的预测结果。
步骤六:利用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-measure) 作为算法性能的评价指标,具体评价指标中的TP、FN、FP、TN如下面的表2所示:
表2
指标中的Accuracy、Precision、Recall、F-measure的计算公式为:
ACC、P、R、F-measure的值越大,模型的性能越好。
本发明的实施例的评价实验采用10折交叉验证,每组进行5次实验,并记录五次实验结果的均值。实验结果如表3所示。结果表明,相对于决策树算法(C4.5)、支持向量机算法(SVM)、随机森林算法(RF)、基于人工蜂群的随机森林算法(ABC-RF),本发明的方法在ACC、P、R、F-measure值表现更好。
表3
评价指标/算法 | C4.5 | SVM | RF | ABC-RF | IABC-RF |
Accuracy | 0.65 | 0.67 | 0.71 | 0.73 | 0.79 |
Precision | 0.78 | 0.75 | 0.82 | 0.84 | 0.88 |
Recall | 0.67 | 0.7 | 0.69 | 0.72 | 0.78 |
F-measure | 0.66 | 0.71 | 0.74 | 0.76 | 0.8 |
同时,如图2所示,横坐标为数据量,纵坐标为算法的耗时,有图可知,随着数据量的增大,本发明提出的IABC-RF算法的运行速率优于基于人工蜂群的随机森林算法 (ABC-RF)。
本发明首次在ICU患者心衰死亡率预测研究中结合改进的迭代加深搜索人工蜂群算法和随机森林模型,具体为:将观察蜂阶段的观察蜜蜂的数量由N改为α·T(其中T=p·N,p∈(0,1),α∈{1,2,3,...,ceil(1/p)},参数α可以控制计算策略资源分配),只有顶级T个精英解决方案吸引观察蜂搜索,利用随机选择的精英食物来源(具有高纯度值或小目标函数值)连续产生候选食物来源,直到不能产生更好的食物来源;从而在雇佣蜂阶段和观察蜂阶段,食物来源容易得到改善,由此吸引更多的雇佣蜂和观察蜂,从而分配更多的计算资源,同时食物来源的质量在每一代中可能有显著差异,与轮盘赌过程相比,观察蜂阶段的搜索过程时间大大缩短;本发明提出了迭代加深搜索算法框架来改进人工蜂群算法,迭代加深搜索算法是仿广度优先搜索的深度优先搜索,既能满足深度优先搜索的线性存储要求,又能保证发现一个最小深度的目标结点;基于上述改进,本发明在改善优化性能的同时也极大地提高了模型的性能,有助于更准确、更快地预测心衰死亡率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,包括以下步骤:
收集数据集,所述数据集为ICU患者的就诊信息;
对数据集进行预处理,预处理过程包括:数据筛选、数据标记和特征提取;
所述数据筛选具体为:筛选出所有ICU心力衰竭患者的就诊信息;
所述数据标记具体为:对数据集进行标记,将出院存活时间大于特定时长以及为空值的患者标记为存活状态,其余标记为死亡状态,其中患者的出院存活时间为患者的死亡时间与患者的出院时间的差值,以天计;
将预处理过的数据集分成训练集和测试集;
利用改进的人工蜂群算法对随机森林模型的参数进行优化,将训练集输入到优化中的随机森林模型中对优化中的随机森林模型进行训练,得到优化完成的随机森林模型;
将测试集输入到优化完成的随机森林模型,得到测试集中的心力衰竭患者将死亡或存活的预测结果;
所述优化和训练随机森林模型的过程具体为:
雇佣蜂随机生成蜜源Si,每个雇佣蜂对应一个蜜源,每个蜜源对应一个随机森林;
计算蜜源Si的适应度;
雇佣蜂搜索蜜源Si邻域:雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,生成新蜜源S′i,计算新蜜源S′i的适应度,比较蜜源Si的适应度和新蜜源S′i的适应度,用适应度高的蜜源替换适应度低的蜜源,重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN;
观察蜂跟随雇佣蜂搜索:观察蜂选择蜜源Si中适应度高的前T个蜜源作为精英蜜源,用迭代深度优先算法动态搜索精英蜜源的邻域,随机选择精英蜜源的邻域内的一个精英参考蜜源,并根据精英参考蜜源产生一个精英新蜜源,计算和比较精英蜜源和精英新蜜源的适应度,用适应度高的蜜源替换适应度低的蜜源,重复上述步骤直到整个训练随机森林模型的过程达到最大迭代次数MCN;
侦察蜂随机生成蜜源:当单个蜜源的开采次数达到最大开采次数Limit时,还没有发现有适应度更高的新蜜源,则蜜源的开采次数达到最大开采次数Limit的蜜源对应的雇佣蜂变为侦查蜂;侦查蜂随机生成新的蜜源替换当前蜜源;
整个训练随机森林模型的过程达到最大迭代次数MCN,选择适应度最高的蜜源对应的随机森林。
2.根据权利要求1所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,所述特征提取具体为:用随机森林特征选择算法按照特征的重要性对特征进行排序,选取前G个特征,所述特征为心力衰竭患者做过的实验室测试项目。
5.根据权利要求4所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,所述雇佣蜂搜索蜜源Si邻域具体为:
雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源Si的邻域进行搜索,随机选择蜜源Si的邻域内的一个参考蜜源进行搜索,并产生一个新蜜源S′i,新蜜源的生成公式为:
用新蜜源S′i对应的随机森林对训练集中的样本进行分类,根据分类效果计算新蜜源S′i的适应度fit(S′i),具体计算公式为:
如果fit(S′i)≥fit(Si),则用新蜜源S′i替换蜜源Si;
重复上述步骤,直到单个蜜源的开采次数达到最大开采次数Limit;或者直到整个训练随机森林模型的过程达到最大迭代次数MCN。
6.根据权利要求5所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,所述观察蜂的数量为α·T,其中T=p·N,p∈(0,1),α∈{1,2,3,…,ceil(1/p)};ceil(1/p)表示不小于1/p的最小整数,p用于控制T的大小。
8.根据权利要求7所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,待优化的随机森林参数具体包括,决策树最大深度、投票前子树数量、内部节点再划分最小样本数、叶子节点最小样本数和RF划分时最大特征数;因此,D取5。
9.根据权利要求8所述的基于IABC-RF的ICU心力衰竭患者死亡率的预测方法,其特征在于,将出院存活时间大于30天以及为空值的患者标记为存活状态;所述蜜源个数N=50,蜜源的最大开采次数Limit=50,最大迭代次数MCN=15000,p=0.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910597518.0A CN110349666B (zh) | 2019-07-04 | 2019-07-04 | 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910597518.0A CN110349666B (zh) | 2019-07-04 | 2019-07-04 | 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110349666A CN110349666A (zh) | 2019-10-18 |
CN110349666B true CN110349666B (zh) | 2022-12-16 |
Family
ID=68178087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910597518.0A Active CN110349666B (zh) | 2019-07-04 | 2019-07-04 | 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110349666B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110767279A (zh) * | 2019-10-21 | 2020-02-07 | 山东师范大学 | 基于lstm的电子健康记录缺失数据补全方法及系统 |
CN111445998B (zh) * | 2020-02-05 | 2023-05-30 | 华东理工大学 | 一种基于边界增强的心衰死亡预测系统 |
CN111508604A (zh) * | 2020-04-20 | 2020-08-07 | 深圳大学 | 一种急性肾损伤患者死亡率预测方法、服务器及存储介质 |
CN111612278A (zh) * | 2020-06-01 | 2020-09-01 | 戴松世 | 生命状态预测方法、装置、电子设备及存储介质 |
CN113113131B (zh) * | 2021-03-24 | 2024-02-13 | 南京途博科技有限公司 | 死亡风险预测模型的生成方法、终端及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038578A (zh) * | 2017-12-28 | 2018-05-15 | 东南大学 | 基于需求预测和中心辐射网络的公共自行车静态调度方法 |
CN109119167A (zh) * | 2018-07-11 | 2019-01-01 | 山东师范大学 | 基于集成模型的脓毒症死亡率预测系统 |
CN109346182A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种基于cs-rf的地中海贫血病的风险预警方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11011274B2 (en) * | 2016-03-09 | 2021-05-18 | Conduent Business Services, Llc | Method and apparatus for predicting mortality of a patient using trained classifiers |
-
2019
- 2019-07-04 CN CN201910597518.0A patent/CN110349666B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038578A (zh) * | 2017-12-28 | 2018-05-15 | 东南大学 | 基于需求预测和中心辐射网络的公共自行车静态调度方法 |
CN109119167A (zh) * | 2018-07-11 | 2019-01-01 | 山东师范大学 | 基于集成模型的脓毒症死亡率预测系统 |
CN109346182A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种基于cs-rf的地中海贫血病的风险预警方法 |
Non-Patent Citations (1)
Title |
---|
改进的人工蜂群结合优化的随机森林的U2R攻击检测研究;翟继强 等;《信息网络安全》;20181210(第12期);第38-45页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110349666A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110349666B (zh) | 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法 | |
Karaboga et al. | Fuzzy clustering with artificial bee colony algorithm | |
Mall et al. | Heart diagnosis using deep neural network | |
Peter et al. | Study and development of novel feature selection framework for heart disease prediction | |
CN112951413B (zh) | 一种基于决策树和改进smote算法的哮喘病诊断系统 | |
López-Cruz et al. | Bayesian network modeling of the consensus between experts: An application to neuron classification | |
Salleh et al. | FCMPSO: An imputation for missing data features in heart disease classification | |
CN116259415A (zh) | 一种基于机器学习的患者服药依从性预测方法 | |
Haarika et al. | Breast cancer prediction using feature selection and classification with xgboost | |
Navaz et al. | The use of data mining techniques to predict mortality and length of stay in an ICU | |
Rajini et al. | Lung cancer prediction using Random Forest | |
Challab et al. | A Hybrid Method Based on LSTM and Optimized SVM for Diagnosis of Novel Coronavirus (COVID-19). | |
Chellamuthu et al. | Data mining and machine learning approaches in breast cancer biomedical research | |
Akın et al. | Prediction of human development index with health indicators using tree-based regression models | |
Rostami et al. | Cancer prediction using graph-based gene selection and explainable classifier | |
Alam et al. | Patients' Severity States Classification based on Electronic Health Record (EHR) Data using Multiple Machine Learning and Deep Learning Approaches | |
Mathew et al. | A modified-weighted-k-nearest neighbour and cuckoo search hybrid model for breast cancer classification | |
Cripsy et al. | Lung Cancer Disease Prediction and Classification based on Feature Selection method using Bayesian Network, Logistic Regression, J48, Random Forest, and Naïve Bayes Algorithms | |
Naser et al. | Prediction Model of Breast Cancer Survival Months: A Machine Learning Approach | |
Farooqui et al. | A study on early prevention and detection of breast cancer using three-machine learning techniques | |
Usha et al. | Predicting Heart Disease Using Feature Selection Techniques Based On Data Driven Approach | |
Saranya et al. | Bd-Mdl: bipolar disorder detection using machine leanring and deep learning | |
Suhiman et al. | Classification of Breast Cancer Subtypes using Microarray RNA Expression Data | |
Morid et al. | Leveraging Time Series Data in Similarity Based Healthcare Predictive Models: The Case of Early ICU Mortality Prediction. | |
Alabed et al. | Genetic algorithms as a feature selection tool in heart failure disease |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |