CN108960436A

CN108960436A - 特征选择方法

Info

Publication number: CN108960436A
Application number: CN201810747846.XA
Authority: CN
Inventors: 刘云翔; 陈斌; 周子宜; 潘琪; 原鑫鑫; 施伟; 李晓丹
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2018-12-07

Abstract

本发明提供了一种特征选择方法，可应用于肝癌重要性指标的预测分析，所述方法包括：先对原始数据集进行扫描，依据重要性对各个特征进行排序，再用(广义)序列后向选择法从中去除一部分特征，在新的特征集上训练随机森林并计算其准确率，根据各轮筛选造成的误差增量(相对筛选前)来判断是否要继续筛选，一旦它超过指定阈值就退出迭代，并将上一轮筛选所得的特征集作为结果。这样做的依据是，对于在不断缩减的特征集上训练出的模型，它们的泛化性能一般呈降低趋势，而其降低程度可以作为特征集的评价。反复该过程，最终将测试准确率最高的特征集作为特征选择的输出结果。

Description

特征选择方法

技术领域

本发明涉及一种特征选择方法。

背景技术

对于高维数据，一般要进行降维或特征选择，目的是降低模型学习的难度。而冗余特征的存在使得特征选择更有必要性，去除这些不相关的特征不但能降低学习的开销，还能给数据采集提供便利。常见的特征选择方式有三类：过滤式、包裹式和嵌入式，其中，

过滤式方法在建立学习器之前就对数据集进行特征选择，再用筛选后的特征训练学习器；

包裹式方法在候选特征子集上训练学习器，用学习器的性能来评价所选的特征集；

而嵌入式方法在训练学习器的同时就能完成特征选择。

随机森林进行特征选择的基本方法是Genuer R等人在2010年提出的一种基于袋外误差的包裹式方法。该算法的策略主要分为以下几个步骤：先依据重要性对各个特征进行排序，再用(广义)序列后向选择法从中去除一部分特征，在新的特征集上训练随机森林并计算其准确率，反复该过程，最终将测试准确率最高的特征集作为输出。为了保证每次测试结果的稳定性，一般在每轮筛选后都采用交叉验证来评估新建立的随机森林，取其平均准确率作为该轮的准确率。

由于迭代将一直持续直到剩余特征个数减少至阈值，它依然会有较大的时空开销；又因为最终取测试精度最高的筛选，所以得到的特征集不一定是最小的。

发明内容

本发明的目的在于提供一种特征选择方法。

本发明提供一种特征选择方法，包括：

S1：首次对原始数据集A进行扫描得到各个特征；

S2：依据重要性对扫描得到的各个特征进行排序；

S3：每次用序列后向选择法从排序后的各个特征中去除一部分特征，得到各轮筛选后的新的特征集，在所述新的特征集上训练随机森林并计算对应的准确率；

S4：根据各轮筛选造成的相对筛选前的误差增量来判断是否要继续筛选，一旦它超过指定阈值就退出迭代，并将上一轮筛选所得的特征集作为结果；

S5：反复步骤S1～S4过程，最终将测试准确率最高的特征集作为特征选择的输出结果。

进一步的，在上述方法中，S2：依据重要性对扫描得到的各个特征进行排序之前，还包括：

计算某个特征X的重要性。

进一步的，在上述方法中，计算某个特征X的重要性，包括：

S201：对于随机森林中的决策树T_i，计算该决策树T_i在自己袋外数据上的分类错误数E_i；

S202：在该决策树的袋外数据中对X的取值进行随机扰动，重新计算其分类错误数

S203：令i＝1，2，...，n，重复S201～S202两步，计处每一个决策树T_i对应的分类错误数其中，随机森林包含的决策树个数为n个；

S204：所述特征X的重要性I_X定义为：

进一步的，在上述方法中，计算该决策树T_i在自己袋外数据上的分类错误数E_i，包括：

通过calcAccurOOB函数，计算该决策树T_i在自己袋外数据上的分类错误数E_i。

进一步的，在上述方法中，每次用序列后向选择法从排序后的各个特征中去除一部分特征，得到各轮筛选后的新的特征集中，

运用简单交叉验证进行筛选。

进一步的，在上述方法中，运用简单交叉验证进行筛选，包括：

采用chooseFeatures函数完成筛选，其中，将四个阈值均作为参数传入，新增的numTrees参数控制随机森林包含的决策树个数。

与LVW这类随机选择特征子集的包裹式算法相比，本发明的有益效果是：对特征的筛选是启发式的，具有更高的效率，在给定误差范围内优先选择最小的特征子集，而不是测试精度最高的，从而能够尽早停止筛选，节省大量时间，试验结果表明，筛选后的特征集其实并不会产生像阈值那样大的误差增量，在其上的测试精度可以与筛选前持平甚至更高。

附图说明

图1是本发明一实施例的计算特征重要性的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种特征选择方法，包括：

S1：首次对原始数据集A进行扫描得到各个特征；

S2：依据重要性对扫描得到的各个特征进行排序；

S3：每次用(广义)序列后向选择法从排序后的各个特征中去除一部分特征，得到各轮筛选后的新的特征集，在所述新的特征集上训练随机森林并计算对应的准确率；

S4：根据各轮筛选造成的误差增量(相对筛选前)来判断是否要继续筛选，一旦它超过指定阈值就退出迭代，并将上一轮筛选所得的特征集作为结果，这样做的依据是，对于在不断缩减的特征集上训练出的模型，它们的泛化性能一般呈降低趋势，而其降低程度可以作为特征集的评价；

本发明的特征选择方法一实施例中，S2：依据重要性对扫描得到的各个特征进行排序之前，还包括：

计算某个特征X的重要性。

本发明的特征选择方法一实施例中，随机森林定义了特征的重要性度量，计算某个特征X的重要性，包括：

S204：所述特征X的重要性I_X定义为：

在此，所述特征X的重要性I_X这样定义的依据是：如果对某个特征加入噪声后模型的袋外误差显著提升，则说明该特征对预测结果的影响较大，从而有较高的重要性。

本发明的特征选择方法一实施例中，计算该决策树T_i在自己袋外数据上的分类错误数E_i，包括：

在此，在计算特征重要性之前，首先要得到每棵决策树的袋外误差。calcAccurOOB函数完成此功能，它会根据OOBIndxes属性从原训练集中获取袋外样本，在其上调用继承而来的calcAccuracy函数，具体步骤如表1：

表1

如表1所示，calcFeatImportnc函数是依据上述的步骤计算特征重要性，填写featImpormc属性。为了重用代码，将“误差增量”替换为了“精度减量”。它也可以用speciFeats参数指定要计算的特征，而featImportnc中其他未指定的特征将被赋空值，排序时不参与比较。如图1所示，是该函数的流程图，其中随机噪声使用np.random模块产生。

本发明的特征选择方法一实施例中，S3：每次用(广义)序列后向选择法从排序后的各个特征中去除一部分特征，得到各轮筛选后的新的特征集中，

运用简单交叉验证(留出法)进行筛选。

本发明的特征选择方法一实施例中，运用简单交叉验证(留出法)进行筛选，包括：

在此，该chooseFeatures函数是类方法，可以由类名直接调用。它还增加了两个返回值，分别是子集中各特征的重要性和用它们训练所得模型的测试精度。其中np.argsort函数获得序列排序后的下标。若各轮筛选造成的误差增量(相对筛选前)超过指定阈值就退出迭代，并将上一轮筛选所得的特征集作为结果。具体的步骤如表2：

表2

本发明一具体的实施例中，设原始特征集为A，样本集为D，该算法用伪代码描述如表3：

表3一种基于Random Forest改进算法的特征选择算法的伪代码

由于交叉验证的过程中会产生多个Random Forest，故选择其中测试精度最高的一个来计算当前轮次的特征重要性顺序。

本发明公开了一种基于Random Forest改进算法的特征选择方法，本发明公开了一种基于Random Forest改进算法的特征选择方法，可应用于肝癌重要性指标的预测分析，先对原始数据集进行扫描，依据重要性对各个特征进行排序，再用(广义)序列后向选择法从中去除一部分特征，在新的特征集上训练随机森林并计算其准确率，根据各轮筛选造成的误差增量(相对筛选前)来判断是否要继续筛选，一旦它超过指定阈值就退出迭代，并将上一轮筛选所得的特征集作为结果。这样做的依据是，对于在不断缩减的特征集上训练出的模型，它们的泛化性能一般呈降低趋势，而其降低程度可以作为特征集的评价。反复该过程，最终将测试准确率最高的特征集作为特征选择的输出结果。为了保证每次测试结果的稳定性，一般在每轮筛选后都采用交叉验证来评估新建立的随机森林，取其平均准确率作为该轮的准确率。主要解决了在给定误差范围内优先选择最小的特征子集，而不是测试精度最高的，从而能够尽早停止筛选，节省大量时间等关键性问题。属于数据挖掘、算法分析领域的技术。

本发明与LVW这类随机选择特征子集的包裹式算法相比，本发明的有益效果是：对特征的筛选是启发式的，具有更高的效率，在给定误差范围内优先选择最小的特征子集，而不是测试精度最高的，从而能够尽早停止筛选，节省大量时间，试验结果表明，筛选后的特征集其实并不会产生像阈值那样大的误差增量，在其上的测试精度可以与筛选前持平甚至更高。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种特征选择方法，其特征在于，包括：

S1：首次对原始数据集A进行扫描得到各个特征；

S2：依据重要性对扫描得到的各个特征进行排序；

2.如权利要求1所述的特征选择方法，其特征在于，S2：依据重要性对扫描得到的各个特征进行排序之前，还包括：

计算某个特征X的重要性。

3.如权利要求2所述的特征选择方法，其特征在于，计算某个特征X的重要性，包括：

S204：所述特征X的重要性I_X定义为：

4.如权利要求3所述的特征选择方法，其特征在于，计算该决策树T_i在自己袋外数据上的分类错误数E_i，包括：

5.如权利要求1所述的特征选择方法，其特征在于，每次用序列后向选择法从排序后的各个特征中去除一部分特征，得到各轮筛选后的新的特征集中，

运用简单交叉验证进行筛选。

6.如权利要求5所述的特征选择方法，其特征在于，运用简单交叉验证进行筛选，包括：