CN102184402A

CN102184402A - 一种特征选择方法

Info

Publication number: CN102184402A
Application number: CN 201110127174
Authority: CN
Inventors: 卞红雨; 杨滨; 沈郑燕; 凌冰; 张志刚; 罗明愿
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2011-05-17
Filing date: 2011-05-17
Publication date: 2011-09-14

Abstract

本发明提供的是一种特征选择方法。(a)整个特征集作为完整的特征空间输入特征选择算法中；(b)把输入的特征空间中的特征按照一定的顺序取出，并放入新的特征空间中；(c)采用特征评价标准来比较不同空间中的特征；(d)重复(b)(c)两步，直到新空间中的特征数量达到既定值；(e)新特征空间中的特征即是被选择出的最佳特征子集。本发明的方法省略了阈值的设置，并且可以选择结果中的特征数量，方便控制整个选择过程的时间，并且能选择出较好的特征子集。

Description

一种特征选择方法

技术领域

本发明涉及一种特征选择方法。

背景技术

特征选择是模式识别的三大核心之一。在人工智能，模式识别以及由此发展而来的图像处理，目标识别领域中都有普遍的应用。随着各种应用的使用目的从单一到多元，使用环境从简单到复杂，不同的使用要求加之应用所使用的特征数量的不断增加，特征选择日益重要并且应该更加灵活。

Ron Kohavi and George H.John.Wrappers For Feature Subset Selection(Artificial Intelligence 97.1997，273-275，283-286)中提出了一种特征提取模型，被称为封装式的特征提取方法。封装式特征选择较其他的特征选择方法加入了利用后续学习算法对特征子集进行鉴定的部分。理论上，它能选择出较好的且适合后续学习算法学习分类的一组特征子集，但是，由于学习算法的引入，封装式特征选择算法较其他算法慢。算法使用BFS(Best First Search)算法来搜索整个特征空间，搜索的目的是用评估准则找到有最大估计值的状态空间，由于学习算法作为一个黑盒，所以不知道它的实际分类的准确度，需要使用精确性估计算法作为评估准则。为了使特征空间的搜索停止，需要设置阈值ε，只有当下一次的特征空间组合的性能比上一次的性能好ε时，空间搜索才会继续下去，否则，搜索停止，并且得出最佳的特征空间组合。但是一方面，在实际的应用中ε较难确定，无论ε值过大还是过小都会对算法性能产生较大的影响；另一方面，由于特征空间大小不确定导致了所选出特征数量的不确定，而在实际应用中，封装式特征选择的耗时随着所选特征数量的增加而增加，若是选出的最佳特征空间过大，选择过程的时间开销也会很大，方不便实际的应用。文献Stuart Russell and Peter Norvig.A Modern Intelligence A Modern Approach(Second Edition)(Pearson Education，Inc.2003，94-100)中给出了空间搜索原理和不同的几种形式。

发明内容

本发明的目的在于提供一种能方便控制整个选择过程的时间，并且能选择出较好的特征子集的特征选择方法。

本发明的目的是这样实现的：

(a)整个特征集作为完整的特征空间输入特征选择算法中；

(b)把输入的特征空间中的特征按照一定的顺序取出，并放入新的特征空间中；

(c)采用特征评价标准来比较不同空间中的特征；

(d)重复(b)(c)两步，直到新空间中的特征数量达到既定值；

(e)新特征空间中的特征即是被选择出的最佳特征子集。

本发明是一种新的特征提取方法，这种方法省略了阈值的设置，并且可以选择结果中的特征数量，方便控制整个选择过程的时间，并且能选择出较好的特征子集。把从目标中提取出的特征组成特征空间，把特征空间中的特征放入特征选择方法中，使用于后续学习算法相结合的判定准则计算每个特征的权重，并用空间搜索方法搜索出最有的特征，当特征子集中的特征数量达到给定数量时，搜索停止，并给出最优特征空间集。

附图说明

图1为特征选择方法流程图。

图2为改进的BFS空间搜索方法。

图3为5次交叉验证流程图。

具体实施方式

下面结合附图对本发明做更详细的描述。本发明并不仅限于实施以下描述的实例，而是将符合最一般的原理描述。

图1说明了实施一个封装式特征选择的流程图。其中块100代表了图2的BFS空间搜索算法，块101代表了图3的交叉鉴定算法，在本实例中，采用了五次交叉验证(5-cross validation)，块102代表了学习算法，本发明并不限制学习算法的使用，包括贝叶斯估计，支持向量机(SVM)，遗传算法(GA)和反向传递神经网络等。在实例中，采用了BP神经网络作为学习算法。

参照特征选择的流程图1，整个特征集作为完整的特征空间输入特征选择算法中。块100将会选择出最佳的特征子集，选择的过程如图2所示。在图2的流程中，特征全集首先被导入块200，并把全状态空间赋给OPEN，另建立空集BEST。接着在块201中CLOSED被赋值为与BEST相同。这三个特征空间一并传入块202，在块202中首先使用评价标准J计算OPEN中的每个特征的权值并按权值的大小给所有的特征排序，选出拥有最大权值且没有放入BEST中的特征v，把v放入空间CLOSED。图2块202中的评价标准即是图1中的块101，在本实例中采用五次交叉验证，验证过程如图3所示。

在图3的流程中，含有特征的样本集D被大致的分成5份，这5份子集D₁，D₂，...，D₅相互独立且大致上含有数量相同的数据。学习算法(块300)在验证中反复的训练和测试多次；设t∈{1，2，...，5}，交叉验证在不含D_t的原始数据集D\D_t中训练并且用D_t来测试。测试的结果输入到块301求每个训练结果的估计精度并求总的期望。交叉验证的估计精度就是正确分类的的次数除去样本数的结果。用公式表达的话，设D_(i)是包含样本x_i＝(v_i，y_i)的测试集合，那么交叉验证的精度

{acc}_{CV} = \frac{1}{n} \underset{(v_{i}, y_{i}) &Element; D}{Σ} δ (I (D \ D_{(i)}, v_{i}), y_{i}) - - - (1)

其中

δ (i, j) = \{\begin{matrix} 1 & i = j \\ 0 & otherwise \end{matrix} - - - (2)

精度acc_CV即是交叉验证的值。图3中的学习算法(块300)也即图1中的学习算法(块102)。

再回到图2，把增加了v的空间CLOSED和特征空间BEST分别使用评价标准计算权值，并比较两个权值的大小(块203)。若比较结果特征空间CLOSED有较大的权值，就把特征v放入空间BEST中(块204)，反之回到块202。把从块204输出的特征空间与之前事前决定的特征数量相比较(块205)，若未达到要求的特征数量，就返回块201，若达到要求的特征数量，就输出特征空间BEST(块206)。

再回到图1，最后输出的选定的特征子集即是图2中输出的特征空间BEST(块206)。

Claims

1.一种特征选择方法，其特征是：

(a)整个特征集作为完整的特征空间输入特征选择算法中；

(c)采用特征评价标准来比较不同空间中的特征；

(d)重复(b)(c)两步，直到新空间中的特征数量达到既定值；

(e)新特征空间中的特征即是被选择出的最佳特征子集。

2.根据权利要求1所述的一种特征选择方法，其特征是所述把输入的特征空间中的特征按照一定的顺序取出，并放入新的特征空间中的方法为：步骤200，把全状态空间赋给OPEN，另建立空集BEST；步骤201，CLOSED被赋值为与BEST相同；步骤202，首先使用评价标准J计算OPEN中的每个特征的权值并按权值的大小给所有的特征排序，选出拥有最大权值且没有放入BEST中的特征v，把v放入空间CLOSED。

3.根据权利要求2所述的一种特征选择方法，其特征是所述采用特征评价标准来比较不同空间中的特征的方法是：步骤203，把增加了v的空间CLOSED和特征空间BEST分别使用评价标准计算权值，并比较两个权值的大小，若比较结果特征空间CLOSED有较大的权值，就执行步骤204，反之回到步骤202；步骤204，把特征v放入空间BEST中；步骤205，把从步骤204输出的特征空间与之前事前决定的特征数量相比较，若未达到要求的特征数量，就返回步骤201，若达到要求的特征数量则执行步骤206；步骤206，就输出特征空间BEST。