CN116340746A

CN116340746A - 一种基于随机森林改进的特征选择方法

Info

Publication number: CN116340746A
Application number: CN202310309761.4A
Authority: CN
Inventors: 周文进; 安云飞; 苗世迪
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-06-27

Abstract

本发明公开了一种基于随机森林改进的的特征选择方法，包括以下步骤：先对完整数据集进行缺失值处理、离散化处理；其次建立传统随机森林模型，并计算传统模型准确率，然后计算设定树木颗数时最佳树深度，以最佳深度重新生成随机森林，并且计算新生成森林中每棵树的准确率，选取准确率靠前的一定百分比的树，然后通过计算各个树的数据相似度，排除相似度超过设定值且准确率较小的树，最后计算最终准确率，从而得到改进后的随机森林。导致分类器性能下降的原因往往是因为这些高维度特征中含有无关特征和冗余特征，本发明基于随机森林的改进特征选择方法可以有效进行数据降维，可以实现较高的准确率来达到选择最优子集的目的。

Description

一种基于随机森林改进的特征选择方法

技术领域：

本发明涉及数据分类的技术，尤其是涉及一种基于随机森林改进的特征选择方法，该方法在特征选择方面有着很好的应用。

背景技术：

特征选择(Feature Selection)也称特征子集选择，是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段，目前主要有过滤器、包装器和嵌入式方法三类。

过滤器方法(Filter Methods)是最常用的特征选择方法，通常是针对单变量的，它会假定每个特征都独立于其他特征，最著名的过滤器方法包括卡方检验、相关系数和信息增益指标，但是，这种滤波方法会导致相关特征的丢失。与过滤式特征选择不考虑后续学习器不同，包裹式特征选择(包裹法，Wrapper)直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之，包裹式特征选择的目的就是为了给定学习器选择最有利于其性能、“量身定做”的特征子集。因为包裹法是基于最终的学习器来进行特征选择的，所以一般而言，在最终学习器性能方面，包裹法要比过滤法特征选择更好；但另一方面，由于在特征选择过程中多次训练学习器，因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。

在过滤式和包裹式特征选择方法中，特征选择过程与学习器训练过程有明显的分别；与此不同，嵌入式特征选择(嵌入法，Embedded)是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动地进行了特征选择。常见的嵌入式特征选择有基于L1正则项的嵌入式特征选择、基于树模型的嵌入式特征选择。然而，随机森林具有准确率高、鲁棒性好、易于使用等优点，这使得它成为了目前最流行的机器学习算法之一。

随着大数据时代的到来，数据的维度也在不断增加，数据集的高维性增加了计算和分析的复杂性，为了解决这一问题，本发明采用一种基于随机森林改进的特征选择方法来降低数据特征之间的冗余度和复杂性。

发明内容：

为了解决数据集特征选择的问题，本发明公开了一种基于随机森林改进的的特征选择方法。

为此，本发明提供了如下技术方案：

1.一种基于随机森林改进的特征选择方法，其特征在于，该方法包括以下步骤：

步骤1：数据预处理模块，对完整数据集进行缺失值处理、离散化处理。

步骤2：特征选择模块，采用基于随机森林改进的特征选择方法进行特征选择。

2.根据权利要求1所述的一种基于随机森林改进的特征选择方法，其特征在于，所述步骤1中，数据预处理模块，对完整数据集进行缺失值处理、离散化处理，具体步骤为：

步骤1-1删除数据中含有缺失值的样本；

步骤1-2采用自上而下的、有监督的CAIM离散算法对无缺失值的数据的连续型特征进行离散化处理，处理公式为：

其中，q_ir(i＝1,2,...,S；r＝1,2,...,n)表示样本中属于i类且属于区间(d_r-1,d_r]的个数，max_r是所有q_ir中的最大值，M_i+是属于第i类的样本个数总和，M_+r是属于区间(d_r-1,d_r]的样本个数总和，n表示区间个数。

3.根据权利要求1所述的一种基于随机森林改进的的特征选择方法，其特征在于，所述步骤2中，特征选择模块，采用基于随机森林改进的的特征选择方法进行特征选择，具体步骤为：

步骤2-1将缺失值处理、离散化处理后的数据集设为数据集D；

步骤2-2将数据集D划分为训练集T和测试集S；

步骤2-3使用训练集T建立随机森林模型，通过bagging方式随机并有放回的抽取原始样本种的N个样本构成新的训练样本，当N足够大时，其中约有1/3的样本不在训练样本中，这类数据被称为袋外(out ofbag,OOB)数据。并根据Gini系数最小原则下通过随机选择N棵决策树内部分裂后的每个节点变量的子集来构建多个Cart决策树并组成随机森林；其中Gini系数定义如下：

式中，T为给定数据集，C_i为随机选择一个样本并认定为某一类别，

为所选样本为C_i类别的概率；

步骤2-4计算训练集T建立的传统随机森林模型在测试集S上的准确率，准确率计算公式为：

其中，TP表示真正例，即实际为正预测为正，TN表示真反例，即实际为负预测为负，FP表示假正例，即实际为负但预测为正，FN表示假反例，即实际为正但预测为负；

步骤2-5计算设定树木颗数最佳树深度，以最佳深度重新生成随机森林。根据步骤2-4得到的传统随机森林的准确率以及传统随机森林，从而计算设定树木颗数最佳树深度，因此需要生成的传统随机森林对数据进行分类，对于精度估计，当每个样本属于OOB样本时，每次都会统计其投票数，多数表决的投票将决定分类类别，OOB样本由于未参与建立决策树，可用来估计预测误差，利用OOB误差评估模型性能及量化变量的重要性。变量的重要性定义如下:

式中,V(k^j)为第j个特征变量的重要性，N为生成的决策树棵树ei为第i个决策树的袋外误差，

为随机改变第j个特征变量值后计算的新的袋外误差；

步骤2-6计算训练集T建立的新生成的随机森林模型中的每棵树在测试集S上的准确率，选取准确率靠前的一定百分比的树；

步骤2-7计算各个树的数据相似度，相似度计算公式为：

其中，A、B为2组特征向量，长度为n，A_i、B_i代表特征向量第i维的值，min(A_i，B_i)为A_i、B_i中较小的一个值，max(A_i，B_i)则相反；

步骤2-8排除相似度超过设定值且准确率较小的树，最后计算最终准确率，从而得到改进后的随机森林；

步骤2-9使用改进后的随机森林进行特征提取，得到特征子集。

有益效果：

1.本发明是一种基于随机森林改进的特征选择方法，可以有效进行数据降维，能够实现较高的准确率来达到选择最优子集的目的。

2.本发明结合了特征选择中改进的随机森林方法来进行数据的降维，使用改进的随机森林来提升准确率以得到选择最优子集的目的，同时采用树相似度算法，能够利用树的结构特征间接表示树的相似度，可有效应用于大规模数据集。基于随机森林改进的特征选择方法在寻找特征子集方面具有很高的识别能力，实现了特征选择的高效性。

附图说明：

图1为本发明的结构示意图。

图2为本发明实施方式中的基于随机森林改进的特征选择的过程图。

具体实施方式：

为了使本发明的实施例中的技术方案能够清楚和完整地描述，以下结合实施例中的附图，对本发明进行进一步的详细说明。

以ANDI数据库的adnimerge数据集进行特征选择为例，如图1所示，本发明实施例提供一种基于随机森林改进的的特征选择方法，包括以下步骤：

步骤1：数据预处理模块，对完整数据集进行缺失值处理、离散化处理，具体为：

步骤1-1对于原始得到的数据依据专家建议对各个特征进行筛选，将筛选出的不合理数值设置为空值，删除含有缺失值数据的样本；

步骤1-2筛选后的adnimerge数据集共有21个特征，目标变量分为三类，分别为老年痴呆人群(AD)、轻度认知障碍人群(LMCI)和正常人群(CN)，进行离散化处理可以更好的方便模型的进行分类，采用自上而下的、有监督的CAIM离散算法对无缺失值数据集的连续型特征进行离散化处理，处理公式为：

其中，q_ir(i＝1,2,...,S；r＝1,2,...,n)表示样本中属于i类且属于区间(d_r-1,d_r]的个数，max_r是所有q_ir中的最大值，M_i+是属于第i类的样本个数总和，M_+r是属于区间(d_r-1,d_r]的样本个数总和，n表示区间个数，此处n取3，caim值越大表明类和特征相关度越大，所选择的断点越合理。

本发明实施方式中的基于随机森林改进的的特征选择过程，如图2所示，具体过程如下：

步骤2：特征选择模块，采用基于随机森林改进的的特征选择方法进行特征选择，具体为：

步骤2-1将缺失值处理、离散化处理后的数据集设为数据集D；

步骤2-2将数据集D划分为训练集T和测试集S；

步骤2-3使用训练集T建立传统随机森林模型，通过bagging方式随机并有放回的抽取原始样本种的N个样本构成新的训练样本，当N足够大时，其中约有1/3的样本不在训练样本中，这类数据被称为袋外(out ofbag,OOB)数据。并根据Gini系数最小原则下通过随机选择N棵决策树内部分裂后的每个节点变量的子集来构建多个Cart决策树并组成随机森林；其中Gini系数定义如下：

为所选样本为C_i类别的概率；

步骤2-5计算设定树木颗数最佳树深度，以最佳深度重新生成随机森林。根据步骤2-4得到的传统随机森林的准确率以及评估传统随机森林模型性能及量化变量的重要性，计算设定树木颗数最佳树深度，因此，需要生成的传统随机森林对数据进行分类，对于精度估计，当每个样本属于OOB样本时，每次都会统计其投票数，多数表决的投票将决定分类类别，OOB样本由于未参与建立决策树，可用来估计预测误差，利用OOB误差评估模型性能及量化变量的重要性。变量的重要性定义如下:

为随机改变第j个特征变量值后计算的新的袋外误差；

步骤2-6计算训练集T建立的新生成的随机森林模型中的每棵树在测试集S上的准确率，选取准确率靠前的一定百分比的树，准确率计算公式为：

步骤2-7计算各个树的数据相似度，相似度计算公式为：

其中，A、B为2组特征向量，长度为n，A_i、B_i代表特征向量第i维的值，min(A_i，

B_i)为A_i、B_i中较小的一个值，max(A_i，B_i)则相反；

步骤2-8排除相似度超过设定值且准确率较小的树，最后计算最终准确率，从而得到改进后的随机森林，准确率计算公式为：

步骤2-9使用改进后的随机森林进行特征选择，得到特征子集。

以上所述是结合附图对本发明的实施例进行的详细介绍，需要指出的是，本文的具体实施方式只是用于帮助理解本发明的方法，对于本技术领域的普通技术人员在依据本发明的前提下，可以做出若干变化和修改，上述变化和修改的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

步骤1-1删除数据中含有缺失值的样本；

步骤2-1将缺失值处理、离散化处理后的数据集设为数据集D；

步骤2-2将数据集D划分为训练集T和测试集S；

步骤2-3使用训练集T建立随机森林模型，通过bagging方式随机并有放回的抽取原始样本种的N个样本构成新的训练样本，当N足够大时，其中约有1/3的样本不在训练样本中，这类数据被称为袋外(out of bag,OOB)数据。并根据Gini系数最小原则下通过随机选择N棵决策树内部分裂后的每个节点变量的子集来构建多个Cart决策树并组成随机森林；其中Gini系数定义如下：

为所选样本为C_i类别的概率；

式中,V(k^j)为第j个特征变量的重要性，N为生成的决策树棵树e_i为第i个决策树的袋外误差，

为随机改变第j个特征变量值后计算的新的袋外误差；

步骤2-7计算各个树的数据相似度，相似度计算公式为：