CN111898666A

CN111898666A - 一种随机森林算法结合模群种群的数据变量选择方法

Info

Publication number: CN111898666A
Application number: CN202010716827.8A
Authority: CN
Inventors: 杨雯懿; 黄建华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-06

Abstract

本发明公开了一种随机森林算法结合模群种群的数据变量选择方法，该方法包括：通过MonteCarlo采样从原始数据集中提取出每个子模型的数据集；在选择好数据集后，开始构建随机森林子模型，选择每个随机森林中包含的分类回归树数目；每个子随机森林模型将返回计算其变量的重要度；循环得到子模型的变量重要度后，取其均值作为最终的判断依据，排列变量的重要度选择最重要的变量；将准确率下降作为评估变量重要度的指标，计算每个变量的重要度；对分类模型所得结果进行评价；验证方法的有效性。

Description

一种随机森林算法结合模群种群的数据变量选择方法

技术领域

本发明涉及一种随机森林算法结合模群种群的数据变量选择方法。属于生物信息学领域。

背景技术

随着代谢组学技术的发展，从高通量分析方法得到的数据越来越复杂。因而，当前的研究已经从如何获取代谢组学信息变为如何解析这些高通量信息了。变量选择在代谢组学中是非常重要的，一方面特征选择能帮助构建更好的模型，另一方面特征选择能帮助进一步了解这些代谢组学数据，帮助分析数据模式，确定疾病的标记物。

交互检验的方法常用来解决数据不能劈分的问题，但是在实施过程中都将使用到全部数据集的信息，这样在评估模型的时，对模型的判别错误率出现有偏的估计。因此，如何避免用于训练的数据集不会被当作测试集是构建新的方法时需要考虑的；在变量选择中的另一个问题就是变量重要度计算时的不稳定性，即在对同一数据进行多次运算时得到的结果常常不一致。如何得到一个相对更加稳定的结果也是构建新的变量选择方法需要考虑到的。

发明内容

本发明结合随机森林算法和模群种群分析，提出了一种特征选择方法。为了达到上述目的，本发明的技术解决方案如下：

(1)通过Monte Carlo采样从原始数据集中提取出每个子模型的数据集。

(2)在选择好数据集后，开始构建随机森林子模型，选择每个随机森林中包含的分类回归树数目。

(3)每个子随机森林模型将返回计算其变量的重要度。

(4)循环得到子模型的变量重要度后，取其均值作为最终的判断依据，排列变量的重要度选择最重要的变量。

(5)将准确率下降作为评估变量重要度的指标，计算每个变量的重要度。

(6)对分类模型所得结果进行评价。

(7)验证方法的有效性。

有益效果：已知增加子模型之间的多样性能有效提高随机森林算法的精度，而使用模群种群分析能够有效提高各子模型间的不相似度且没有相关性，因为每次用来建模的数据集都是随机抽取的；当单次适用随机森林算法计算变量的重要度时，每个变量的重要度常常被计算出不同的重要度，这是由每次构建的树结构完全不相同导致的。当使用进行变量计算时，取多次运算结果的均值，因而使得到的结果更加稳定。

附图说明

图1为本发明总体流程图。

具体实施方式

(1)从原始数据中提取80％作为每个随机森林建模数据。

(2)在选择好数据集后，在一个随机森林程序里构建2000棵树，然后将其没有被用来训练的数据(OOB)错误率与构建的树数量作图，三个数据集的错误率都到达相对的最低，且趋近平滑所对应的树数量，选择每个随机森林中包含的分类回归树数目为500，即在一个随机子模型中由500棵树集成而得。

(3)循环1000次，得到1000个子模型的变量重要度后，取其均值作为最终的判断依据，排列变量的重要度选择最重要的变量。

(4)分别采用准确率、灵敏度、特异度、精密度以及相关系数对分类模型所得结果进行评价。

(5)有的变量对分类准确率具有很大的贡献，而有的变量(代谢物)对预测准确率却具有负的贡献，有的变量对准确率没有贡献，将一个变量扰乱后，计算模型准确率下降的程度可以用来评估该变量的重要度。基于该标准，可以将变量分为以下类：有信息的变量、无信息变量、干扰变量，采用的是准确率下降作为评估变量重要度的指标，即在训练的过程中将某个变量换为随机噪音，看模型的预测准确度是否下降，若下降很多则说明改变量十分重要，反之亦然，计算每个变量的重要度。

(6)将其与其他变量选择方法SPA和CARS进行了比较验证方法的有效性，为了保证评估的准确性，只使用这三种分析方法提取出特征变量，随后将它们输入到模型计算分类准确率，以便评估哪种方法提出的特征更加好。

Claims

1.一种随机森林算法结合模群种群分析数据变量选择方法，其特征在于：通过MonteCarlo采样从原始数据集中提取出每个子模型的数据集，在选择好数据集后，开始构建随机森林子模型，选择每个随机森林中包含的分类回归树数目。

2.根据权利要求1所述数据集，其特征在于：分别采用准确率、灵敏度、特异度、精密度以及相关系数对分类模型所得结果进行评价。

3.根据权利要求2所述分类模型，其特征在于：每个子随机森林模型将返回计算其变量的重要度，循环得到子模型的变量重要度后，取其均值作为最终的判断依据，排列变量的重要度选择最重要的变量。

4.根据权利要求3所述变量选择方法，其特征在于：与其他变量选择方法进行比较来验证方法的有效性，为了保证评估的准确性，只提取出特征变量。