CN111368936A

CN111368936A - 基于改进svm-rfe的特征选择方法

Info

Publication number: CN111368936A
Application number: CN202010192754.7A
Authority: CN
Inventors: 何志强; 唐艳
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-03

Abstract

本发明公开了基于改进SVM‑RFE的特征选择方法，涉及数据挖掘技术领域；具体包括如下步骤：特征的稳定性评分；特征子集的选择；当前训练样本集合X，迭代删除特征比为t，当前特征集合为F；初始时，F包含所有特征，FS为空，交叉验证倍数为d,初始准确率c_acc＝0.0；特征子集的评价；如果当前特征集合F不为空，对于每一类样本集Xj＝{x|x∈X,Label(x)＝j}统计该类样本的个数θj。本发明能够获得较优的特征子集，挑选出更优的特征子集，达到分类精度最高和特征子集个数最少的目的，结合贪心策略，可以自定义搜索的步长，能够较好地确定特征维度，并及时终止特征选择过程。

Description

基于改进SVM-RFE的特征选择方法

技术领域

本发明涉及数据挖掘技术领域，尤其涉及基于改进SVM-RFE的特征选择方法。

背景技术

特征选择是一种主要的数据分析方法，近年来，数据呈现出数据量大，数据类型更加多样，数据所含信息价值低等特点，所以如何从数据中挖掘出有用的特征信息成为越来越受关注的研究领域，特征选择是模式识别领域的重要内容，具有很高的研究价值，一方面，通过特征选择可以减少待处理的数据量，从而降低计算的复杂性；另一方面，特征选择过程往往能够剔除非关键的干扰特征，降低特征间的相关性，从而改善特征向量的有效性，SVM是基于统计学习理论而提出的一种通用学习方法，很好地解决了有限样本情况下的统计学习问题，SVM－RFE算法是一种基于SVM中最大间隔原理的后向序列约减算法，该算法使用支持向量机的参数信息如权重w2对特征进行递归消去，但在SVM－RFE算法进行特征选择的过程中存在支持向量机参数不确定问题。

经检索，中国专利申请号为CN201610034479.X的专利，公开了一种基于粒子群优化算法的特征选择方法，步骤1、将输入的数据集进行预处理，分成训练集和测试集；步骤2、确定待优化参数及基于特定的特征选择方法适应度函数，建立并初始化第一代粒子群，进行迭代；步骤3、根据适应度函数，计算每个粒子的适应度、个体最优位置以及所有粒子的全局最优位置；步骤4、利用粒子群的迭代公式更新每个粒子的速度和位置向量，更新每个粒子的个体最优位置和所有粒子的全局最优位置；步骤5、重复步骤2～步骤4，直至达到最大迭代次数；步骤6、输出最优解。上述专利中的基于粒子群优化算法的特征选择方法存在以下不足：粒子群算法的性能易受自身参数设置的影响，存在过早收敛、缺乏多样性和易陷入局部最优等问题。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的基于改进SVM-RFE的特征选择方法。

为了实现上述目的，本发明采用了如下技术方案：

基于改进SVM-RFE的特征选择方法，包括如下步骤：

S1：特征的稳定性评分；

S2：特征子集的选择；

S3：当前训练样本集合X，迭代删除特征比为t，当前特征集合为F；初始时，F包含所有特征，FS为空，交叉验证倍数为d,初始准确率c_acc＝0.0；

S4：特征子集的评价；

S5：如果当前特征集合F不为空，对于每一类样本集Xj＝{x|x∈X,Label(x)＝j}统计该类样本的个数θj，对每个xi∈Xj，计算Nr(xi)；

S6：基于当前特征集合F和训练集合Xt，构建SVM分类模型，得出d折交叉验证的分类准确率T_c_acc；

S7：计算出在当前特征集合F上训练样本Xt中的每个样本xi的重叠度Nr(xi)；

S8：根据F构建的SVM分类模型，计算每个特征fi∈F的权重|Wi|，对特征集合F中的每个特征根据权重|W|值降序排序；

S9：删除当前特征集合F中权重最低的t％特征；

S10：特征子集有效性的验证；

S11：重复步骤S5-S19直到F为空，返回最优特征子集FS。

优选地：所述S5中计算Nr(xi)，其计算方式如下：

a：在当前特征空间F上，对当前训练样本中的每个样本xi，Label(xi)为样本xi所属的类标；

b：在当前特征空间F上，计算r(xi)：r(xi)＝|Difflabel(xi)|/|Samelabel(xi)|-OR(xi)；

其中，Difflabel(xi)＝{x|x∈KNN(xi)andLabel(x)≠Label(xi)}；Samelabel(xi)＝{x|x∈KNN(xi)andLabel(x)＝Label(xi)}；

c：对r(xi)标准化得出Nr(xi)：Nr(xi)＝r(xi)/OR(xi)。

优选地：所述Difflabel(xi)代表样本xi的K近邻中与xi不同类标的样本数目，Samelabel(xi)代表样本xi的K近邻中与xi同类标的样本数目。

优选地：所述S1中特征的稳定性评分，具体方法包括如下步骤：

S21：采用稳定选择方法通过对数据集进行多次的子采样，获得多个子集；

S22：在每个子集上通过随机的添加正则化项，对数据集的特征进行评分；

S23：将多次评分综合在一起获得数据集特征的一个稳定性评分。

优选地：所述S2中特征子集的选择，具体方法包括如下步骤：

S31：利用稳定选择方法可以通过一次计算获得数据集特征的一个稳定性评分，然后在对特征的重要性进行降序排序，根据贪心策略中的后向序列选择思想；

S32：每次从特征集中选出一个特征子集。

优选地：所述S2中特征子集的选择，还包括根据后向序列选择思想，将特征的重要性按照评分高低进行降序排序，每次以10个特征为单位，从数据的特征集剔除评分最低的10个特征，构造出一个较优的特征子集。

优选地：所述S4中特征子集的评价，包括利用具有二次决策边界的分类器形成非线性的边界，经过特征选择后的数据集通过QDA分类器训练一个分类模型，原始数据集也通过QDA分类器训练一个分类模型，然后比较两个分类模型的性能，判断选出的特征子集是否符合终止特征选择的条件。

优选地：所述S10中特征子集有效性的验证，对于选出的特征子集，通过不同的分类器进行验证，说明所选的特征子集在不同的分类器上具有的泛化性和代表性，进而说明特征选择方法的有效性。

本发明的有益效果为：根据F和Xt构建的SVM分类模型，计算每个特征fi∈F的权重|Wi|，对特征集合F中的每个特征根据权重|W|值降序排序，删除当前特征集合F中权重最低的t％特征，循环终止的条件是F为空，最终返回最优特征子集FS，能够获得较优的特征子集，挑选出更优的特征子集，达到分类精度最高和特征子集个数最少的目的，结合贪心策略，可以自定义搜索的步长，能够较好地确定特征维度，并及时终止特征选择过程。

附图说明

图1为本发明提出的基于改进SVM-RFE的特征选择方法的每个样本xi计算方法结构示意图；

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

下面详细描述本专利的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本专利，而不能理解为对本专利的限制。

在本专利的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本专利和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本专利的限制。

在本专利的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“设置”应做广义理解，例如，可以是固定相连、设置，也可以是可拆卸连接、设置，或一体地连接、设置。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本专利中的具体含义。

实施例1：

基于改进SVM-RFE的特征选择方法，如图1所示，包括如下步骤：

S1：特征的稳定性评分；

S2：特征子集的选择；

S4：特征子集的评价；

S9：删除当前特征集合F中权重最低的t％特征；

S10：特征子集有效性的验证；

S11：重复步骤S5-S19直到F为空，返回最优特征子集FS。

所述S5中计算Nr(xi)，其计算方式如下：

b：在当前特征空间F上，计算计算r(xi)：r(xi)＝|Difflabel(xi)|/|Samelabel(xi)|-OR(xi)；

c：对r(xi)标准化得出Nr(xi)：Nr(xi)＝r(xi)/OR(xi)。

其中，所述Difflabel(xi)代表样本xi的K近邻中与xi不同类标的样本数目，Samelabel(xi)代表样本xi的K近邻中与xi同类标的样本数目。

所述S1中特征的稳定性评分，具体方法包括如下步骤：

所述S2中特征子集的选择，具体方法包括如下步骤：

S32：每次从特征集中选出一个特征子集。

所述S2中特征子集的选择，还包括根据后向序列选择思想，将特征的重要性按照评分高低进行降序排序，每次以10个特征为单位，从数据的特征集剔除评分最低的10个特征，构造出一个较优的特征子集。

所述S4中特征子集的评价，包括利用具有二次决策边界的分类器形成非线性的边界，经过特征选择后的数据集通过QDA分类器训练一个分类模型，原始数据集也通过QDA分类器训练一个分类模型，然后比较两个分类模型的性能，判断选出的特征子集是否符合终止特征选择的条件。

所述S10中特征子集有效性的验证，对于选出的特征子集，通过不同的分类器进行验证，说明所选的特征子集在不同的分类器上具有的泛化性和代表性，进而说明特征选择方法的有效性。

本实施例在使用时，根据F和Xt构建的SVM分类模型，计算每个特征fi∈F的权重|Wi|，对特征集合F中的每个特征根据权重|W|值降序排序，删除当前特征集合F中权重最低的t％特征，循环终止的条件是F为空，最终返回最优特征子集FS，能够获得较优的特征子集，挑选出更优的特征子集，达到分类精度最高和特征子集个数最少的目的，结合贪心策略，可以自定义搜索的步长，能够较好地确定特征维度，并及时终止特征选择过程。

实施例2：

S1：特征的稳定性评分；

S2：特征子集的选择；

S4：特征子集的评价；

S9：删除当前特征集合F中权重最低的t％特征；

S10：特征子集有效性的验证；

S11：重复步骤S5-S19直到F为空，返回最优特征子集FS。

所述S5中计算Nr(xi)，其计算方式如下：

c：对r(xi)标准化得出Nr(xi)：Nr(xi)＝r(xi)/OR(xi)。

所述S1中特征的稳定性评分，具体方法包括如下步骤：

所述S2中特征子集的选择，具体方法包括如下步骤：

S32：每次从特征集中选出一个特征子集。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于改进SVM-RFE的特征选择方法，其特征在于，包括如下步骤：

S1：特征的稳定性评分；

S2：特征子集的选择；

S4：特征子集的评价；

S9：删除当前特征集合F中权重最低的t％特征；

S10：特征子集有效性的验证；

S11：重复步骤S5-S19直到F为空，返回最优特征子集FS。

2.根据权利要求1所述的基于改进SVM-RFE的特征选择方法，其特征在于，所述S5中计算Nr(xi)，其计算方式如下：

c：对r(xi)标准化得出Nr(xi)：Nr(xi)＝r(xi)/OR(xi)。

3.根据权利要求2所述的基于改进SVM-RFE的特征选择方法，其特征在于，所述Difflabel(xi)代表样本xi的K近邻中与xi不同类标的样本数目，Samelabel(xi)代表样本xi的K近邻中与xi同类标的样本数目。

4.根据权利要求1所述的基于改进SVM-RFE的特征选择方法，其特征在于，所述S1中特征的稳定性评分，具体方法包括如下步骤：

5.根据权利要求1所述的基于改进SVM-RFE的特征选择方法，其特征在于，所述S2中特征子集的选择，具体方法包括如下步骤：

S32：每次从特征集中选出一个特征子集。

6.根据权利要求5所述的基于改进SVM-RFE的特征选择方法，其特征在于，所述S2中特征子集的选择，还包括根据后向序列选择思想，将特征的重要性按照评分高低进行降序排序，每次以10个特征为单位，从数据的特征集剔除评分最低的10个特征，构造出一个较优的特征子集。

7.根据权利要求1所述的基于改进SVM-RFE的特征选择方法，其特征在于，所述S4中特征子集的评价，包括利用具有二次决策边界的分类器形成非线性的边界，经过特征选择后的数据集通过QDA分类器训练一个分类模型，原始数据集也通过QDA分类器训练一个分类模型，然后比较两个分类模型的性能，判断选出的特征子集是否符合终止特征选择的条件。

8.根据权利要求1所述的基于改进SVM-RFE的特征选择方法，其特征在于，所述S10中特征子集有效性的验证，对于选出的特征子集，通过不同的分类器进行验证，说明所选的特征子集在不同的分类器上具有的泛化性和代表性，进而说明特征选择方法的有效性。