CN110349666B

CN110349666B - 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法

Info

Publication number: CN110349666B
Application number: CN201910597518.0A
Authority: CN
Inventors: 帅仁俊; 郭汉; 马力
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2022-12-16
Anticipated expiration: 2039-07-04
Also published as: CN110349666A

Abstract

本发明提出了一种基于IABC‑RF的ICU心力衰竭患者死亡率的预测方法，包括以下步骤：收集数据集，所述数据集为ICU患者的就诊信息；对数据集进行预处理，预处理过程包括：数据筛选、数据标记和特征提取；将预处理过的数据集分成训练集和测试集；将训练集输入到未优化的随机森林模型进行训练，得到优化完成的随机森林模型；将测试集输入到优化完成的随机森林模型，得到测试集中的心力衰竭患者将死亡或存活的预测结果。本发明首次在ICU患者心衰死亡率预测研究中结合改进的迭代加深搜索人工蜂群算法和随机森林模型，在改善优化性能的同时也极大地提高了模型的性能，有助于更准确、更快地预测心衰死亡率。

Description

一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法。

背景技术

因为ICU心力衰竭患者的特殊性，医院在人员、设备及技术上都予以最佳保障，通过连续或接近连续的观察、诊疗和监护，以达到良好的医疗效果，同时医疗费用也比较昂贵。ICU心力衰竭患者通常病情危急、病情多变，仅通过有丰富经验医生的主观经验及医学手段来做出重大决策进行诊疗已经显露出一些局限性。尽管付出了巨大的努力，但每天仍然有很多生命逝去，因此迫切需要将大量重症监护数据库利用起来，通过建立数据与疾病之间的联系，对ICU心力衰竭患者的死亡率做出更快、更准确的预测。

重症监护室数据集样本数量及复杂程度一直保持增长状态，同时ICU数据相比起普通的电子病历数据其维度更高、更密集，给机器学习方法提供了有利的条件。预测ICU 心力衰竭患者死亡率是一个非常重要的问题。对于高死亡率的心力衰竭病人，及时采取有针对性的诊治手段以避免错失最佳治疗时机；对于低死亡率的心力衰竭病人，减少药物的过度使用，也更有益于患者和卫生保健资源的合理分配。

发明内容

本发明提出了一种基于IABC-RF的ICU心力衰竭患者死亡率的预测方法，包括以下步骤：

收集数据集，对数据集进行预处理，预处理过程包括：数据筛选、数据标记和特征提取；

将预处理过的数据集分成训练集和测试集；

将训练集输入到未优化的随机森林模型进行训练，得到优化完成的随机森林模型；

将测试集输入到优化完成的随机森林模型，得到预测结果；

所述训练随机森林模型的过程具体为：

雇佣蜂随机生成蜜源S_i，每个雇佣蜂对应一个蜜源，每个蜜源对应一个随机森林。

计算蜜源S_i的适应度；

雇佣蜂搜索蜜源S_i邻域：雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源S_i的邻域进行搜索，生成新蜜源S′_i，计算新蜜源S′_i的适应度，比较蜜源S_i的适应度和新蜜源S′_i的适应度，用适应度高的蜜源替换适应度低的蜜源，重复上述步骤，直到单个蜜源的开采次数达到最大开采次数Limit；或者直到整个训练随机森林模型的过程达到最大迭代次数MCN；

观察蜂跟随雇佣蜂搜索：观察蜂选择蜜源S_i中适应度高的前T个蜜源作为精英蜜源，用迭代深度优先算法动态搜索精英蜜源的邻域，随机选择精英蜜源的邻域内的一个精英参考蜜源，并根据精英参考蜜源产生一个精英新蜜源，计算和比较精英蜜源和精英新蜜源的适应度，用适应度高的蜜源替换适应度低的蜜源，重复上述步骤直到整个训练随机森林模型的过程达到最大迭代次数MCN；

侦察蜂随机生成蜜源：当单个蜜源的开采次数达到最大开采次数Limit时，还没有发现有适应度更高的新蜜源，则蜜源的开采次数达到最大开采次数Limit的蜜源对应的雇佣蜂变为侦查蜂；侦查蜂随机生成新的蜜源替换当前蜜源；

整个训练随机森林模型的过程达到最大迭代次数MCN，选择适应度最高的蜜源对应的随机森林。

进一步地，所述数据筛选具体为：筛选出所有诊断为心力衰竭的患者；所述数据标记具体为：对数据集进行标记，将出院存活时间大于30天以及为空值的患者标记为存活状态，其余标记为死亡状态，其中患者的出院存活时间为患者的死亡时间与患者的出院时间的差值，以天计；所述特征提取具体为：用随机森林特征选择算法按照特征的重要性对特征进行排序，选取前G个特征，所述特征为心力衰竭患者做过的实验室测试项目。

进一步地，所述雇佣蜂随机生成蜜源S_i的具体公式为：

其中，

表示第i个蜜源S_i中的d维分量，d表示维度，d＝1，2，…，D，U_d和L_d为构造d维分量的上界和下界，rand(0，1)表示[0，1]内的一个随机数；

进一步地，所述计算蜜源S_i的适应度具体为：

用N个蜜源S_i对应的随机森林对训练集中的样本进行分类，根据分类效果计算每个蜜源S_i的适应度fit(S_i)，具体计算公式为：

其中，j∈{1，2，…，t}，t为训练集中的样本数量，如果参数

对应的随机森林模型成功分类第j个样本则

否则

对于第j个样本，如果成功分类的决策树数量等于错误分类的决策树数量，则

否则

进一步地，所述雇佣蜂搜索蜜源S_i邻域具体为：

雇佣蜂采用标准的人工蜂群搜索算法的搜索策略在蜜源S_i的邻域进行搜索，随机选择蜜源S_i的邻域内的一个参考蜜源进行搜索，并产生一个新蜜源S′_i，新蜜源的生成公式为：

其中d∈{1，2，…，D}，k∈{1，2，…，N}，

是参考蜜源中的d维分量，

是新蜜源S′_i中的d维分量。

用新蜜源S′_i对应的随机森林对训练集中的样本进行分类，根据分类效果计算新蜜源 S′_i的适应度fit(S′_i)，具体计算公式为：

其中，如果新蜜源S′_i对应的随机森林成功分类第j个样本则

否则

对于第j个样本，如果成功分类的决策树个数等于错误分类的决策树数量，则

否则

如果fit(S′_i)≥fit(S_i)，则用新蜜源S′_i替换蜜源S_i。

重复上述步骤，直到单个蜜源的开采次数达到最大开采次数Limit；或者直到整个训练随机森林模型的过程达到最大迭代次数MCN。

进一步地，所述观察蜂的数量为α·T，其中T＝p·N，p∈(0，1)，α∈ {1，2，3，…，ceil(1/p)}；ceil(1/p)表示不小于1/p的最小整数，p用于控制T的大小。

进一步地，所述新的蜜源为R_i′，新的蜜源R_i′的具体生成公式为：

其中，

为新的蜜源R_i′的d维分量，其中d∈{1，2，…，D}，i′∈{1，2，…，M}，M为新的蜜源R_i′的个数，U_d和L_d为构造d维分量的上界和下界。

进一步地，所述待优化的随机森林参数具体包括，决策树最大深度、投票前子树数量、内部节点再划分最小样本数、叶子节点最小样本数和RF划分时最大特征数；因此， D取5。

进一步地，所述蜜源个数N＝50，蜜源的最大开采次数Limit＝50，最大迭代次数MCN＝15000，p＝0.1。

本发明与现有技术相比，有益效果在于：

(1)针对心力衰竭死亡率预测模型能够有效的对心力衰竭死亡率进行预测，实用性高。

(2)本发明首次在ICU患者心衰死亡率预测研究中结合改进的迭代加深搜索人工蜂群算法和随机森林模型，在改善优化性能的同时也极大地提高了模型的性能，有助于更准确、更快地预测心衰死亡率。

(3)本发明在准确率、精确率、召回率和F值的预测性能指标方面有着良好的表现。

附图说明

图1为本发明一实施例的流程图。

图2为本发明一实施例与其他算法的耗时对比图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定义在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

下面以数据集MIMICIII为本发明的一实施例对本发明进行进一步描述，具体描述如下。

本发明公开了一种基于IABC-RF(improved artificial bee colony-randomforest：改进的人工蜂群-随机森林模型)的ICU(Intensive Care Unit：重症监护室)心力衰竭患者死亡率的预测方法，包括以下步骤：

步骤一：收集数据集；

本实施例的数据集采用的是麻省理工学院计算生理学实验室开发的公开数据集MIMICIII，具体获取网址为：https://mimic.physionet.org/gettingstarted/access/。数据集由 26个数据表组成。本实施例采用了其中六个表：PATIENTS，ADMISSIONS，ICUSTAYS，DIAGNOSES_I CD，D_LABITEMS，LABEVENTS，这六个表涵盖了ICU患者的所有就诊信息，对六个表的具体说明如表1所示。

表1

步骤二：将数据集进行预处理，预处理过程包括：数据筛选、数据标记和特征提取；

筛选出所有诊断为心力衰竭的患者，共计10414名患者。其中6115名患者不再生存,4299名患者仍然存活。

对数据集进行标记，将出院存活时间大于30天以及为空值的患者标记为存活状态，其余标记为死亡状态，其中患者的出院存活时间为患者的死亡时间与患者的出院时间的差值，以天计。

D_LABITEMS表列出了所有的实验室测试项目，其中心力衰竭患者做过的实验室测试项目有345种，从中筛选出具有统计学差异的231种；

由于部分实验室测试项目只有少数患者进行检查，本实验将少于3000名心力衰竭患者接受检验的实验室检测项目删除；同时因为同一名患者在不同时间进行同一种实验室测试项目，所以对同一个实验室测试项目，同一患者会有多个值，本实验取多个检测结果的均值；最后对数据进行空值填充和标准化处理；最终选取55种实验测试项目，即数据集的特征数为55。

按照特征的重要性，用随机森林特征选择算法对55个特征进行排序。

用决策树算法进行预测实验，当选取的特征数为12的时候，预测模型表现最好，因此本实施例选取前12个特征。

步骤三：将预处理过的数据集分成训练集和测试集；

步骤四：利用改进的人工蜂群算法对随机森林模型的参数进行优化，将训练集输入到优化中的随机森林模型中对优化中的随机森林模型进行训练，得到优化完成的随机森林模型；

优化和训练随机森林模型的过程具体为：

(1)雇佣蜂随机生成蜜源：

N个雇佣蜂在搜索空间随机生成N个蜜源S_i(i＝1，2，…，N)，每个蜜源对应一个雇佣蜂，

每个蜜源是一个D维矢量，每个分量代表一种待优化的随机森林参数，所以每个蜜源对应一个随机森林。

随机生成蜜源S_i的公式为：

其中，

其中，j∈{1，2，…，t}，t为训练集中的样本数量，如果参数

对应的随机森林模型成功分类第j个样本则

否则

否则

(2)雇佣蜂搜索蜜源邻域

其中d∈{1，2，…，D}，k∈{1，2，…，N}，

是参考蜜源中的d维分量，

是新蜜源S′_i中的d维分量。

每个蜜源S_i包含待优化的随机森林参数，所以每一个蜜源对应一个随机森林，蜜源量由适应度决定，适应度越大表示蜜量越多，蜜源越好。

如果新蜜源S′_i对应的随机森林成功分类第j个样本则

否则

否则

如果fit(S′_i)≥fit(S_i)，则用新蜜源S′_i替换蜜源S_i。

重复上述步骤，直到单个蜜源的开采次数达到最大开采次数Limit执行(3)侦察蜂随机生成蜜源步骤；或者直到整个训练随机森林模型的过程达到最大迭代次数MCN。

(3)观察蜂跟随搜索：

在计算出蜜源S_i的适应度后，观察蜂选择适应度高的前T个蜜源作为精英蜜源，用迭代深度优先算法动态搜索精英蜜源的邻域，随机选择精英蜜源的邻域内的一个精英参考蜜源，并根据精英参考蜜源产生一个精英新蜜源，计算精英蜜源和精英新蜜源的适应度，若精英新蜜源的适应度大于精英蜜源的适应度，则用精英新蜜源替换精英蜜源，否则搜索精英蜜源的邻域，重复上述步骤直到整个训练随机森林模型的过程达到最大迭代次数MCN。

与传统的人工蜂群算法不同，观察蜂的数量不再是N，而是α·T，其中T＝p·N，p∈(0，1)，α∈{1，2，3，…，ceil(1/p)}；ceil(1/p)表示不小于1/p的最小整数，p用于控制T的大小。

(4)侦察蜂随机生成蜜源：

在雇佣蜂搜索蜜源邻域阶段，如果单个蜜源的开采次数达到最大开采次数Limit时还没有发现有适应度更高的新蜜源，则此蜜源对应的雇佣蜂将变为侦查蜂；侦查蜂将放弃当前蜜源并随机生成新的蜜源来替换，新的蜜源R_i，的具体生成公式为：

其中，

整个训练随机森林模型的过程达到最大迭代次数MCN时，选择适应度最高的蜜源对应的随机森林，随机森林模型优化完成。

在本实施例中，蜜源个数N＝50，蜜源的最大开采次数Limit＝50，最大迭代次数MCN＝15000，p＝0.1。

所述待优化的随机森林参数具体包括，决策树最大深度、投票前子树数量、内部节点再划分最小样本数、叶子节点最小样本数和RF划分时最大特征数；因此，D取5。

步骤五：将测试集输入到优化完成的随机森林模型，得到测试集中的心力衰竭患者将死亡或存活的预测结果。

步骤六：利用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-measure) 作为算法性能的评价指标，具体评价指标中的TP、FN、FP、TN如下面的表2所示：

表2

指标中的Accuracy、Precision、Recall、F-measure的计算公式为：

准确率：

精确率：

召回率：

F值：

ACC、P、R、F-measure的值越大，模型的性能越好。

本发明的实施例的评价实验采用10折交叉验证，每组进行5次实验，并记录五次实验结果的均值。实验结果如表3所示。结果表明，相对于决策树算法(C4.5)、支持向量机算法(SVM)、随机森林算法(RF)、基于人工蜂群的随机森林算法(ABC-RF)，本发明的方法在ACC、P、R、F-measure值表现更好。

表3

评价指标/算法	C4.5	SVM	RF	ABC-RF	IABC-RF
						Accuracy	0.65	0.67	0.71	0.73	0.79
Precision	0.78	0.75	0.82	0.84	0.88
						Recall	0.67	0.7	0.69	0.72	0.78
F-measure	0.66	0.71	0.74	0.76	0.8

同时，如图2所示，横坐标为数据量，纵坐标为算法的耗时，有图可知，随着数据量的增大，本发明提出的IABC-RF算法的运行速率优于基于人工蜂群的随机森林算法 (ABC-RF)。

本发明首次在ICU患者心衰死亡率预测研究中结合改进的迭代加深搜索人工蜂群算法和随机森林模型，具体为：将观察蜂阶段的观察蜜蜂的数量由N改为α·T(其中T＝p·N，p∈(0,1)，α∈{1,2,3，...，ceil(1/p)}，参数α可以控制计算策略资源分配)，只有顶级T个精英解决方案吸引观察蜂搜索，利用随机选择的精英食物来源(具有高纯度值或小目标函数值)连续产生候选食物来源，直到不能产生更好的食物来源；从而在雇佣蜂阶段和观察蜂阶段，食物来源容易得到改善，由此吸引更多的雇佣蜂和观察蜂，从而分配更多的计算资源，同时食物来源的质量在每一代中可能有显著差异，与轮盘赌过程相比，观察蜂阶段的搜索过程时间大大缩短；本发明提出了迭代加深搜索算法框架来改进人工蜂群算法，迭代加深搜索算法是仿广度优先搜索的深度优先搜索，既能满足深度优先搜索的线性存储要求，又能保证发现一个最小深度的目标结点；基于上述改进，本发明在改善优化性能的同时也极大地提高了模型的性能，有助于更准确、更快地预测心衰死亡率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。