CN102184402A - 一种特征选择方法 - Google Patents

一种特征选择方法 Download PDF

Info

Publication number
CN102184402A
CN102184402A CN 201110127174 CN201110127174A CN102184402A CN 102184402 A CN102184402 A CN 102184402A CN 201110127174 CN201110127174 CN 201110127174 CN 201110127174 A CN201110127174 A CN 201110127174A CN 102184402 A CN102184402 A CN 102184402A
Authority
CN
China
Prior art keywords
feature
space
weights
new
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110127174
Other languages
English (en)
Inventor
卞红雨
杨滨
沈郑燕
凌冰
张志刚
罗明愿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN 201110127174 priority Critical patent/CN102184402A/zh
Publication of CN102184402A publication Critical patent/CN102184402A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的是一种特征选择方法。(a)整个特征集作为完整的特征空间输入特征选择算法中;(b)把输入的特征空间中的特征按照一定的顺序取出,并放入新的特征空间中;(c)采用特征评价标准来比较不同空间中的特征;(d)重复(b)(c)两步,直到新空间中的特征数量达到既定值;(e)新特征空间中的特征即是被选择出的最佳特征子集。本发明的方法省略了阈值的设置,并且可以选择结果中的特征数量,方便控制整个选择过程的时间,并且能选择出较好的特征子集。

Description

一种特征选择方法
技术领域
本发明涉及一种特征选择方法。
背景技术
特征选择是模式识别的三大核心之一。在人工智能,模式识别以及由此发展而来的图像处理,目标识别领域中都有普遍的应用。随着各种应用的使用目的从单一到多元,使用环境从简单到复杂,不同的使用要求加之应用所使用的特征数量的不断增加,特征选择日益重要并且应该更加灵活。
Ron Kohavi and George H.John.Wrappers For Feature Subset Selection(Artificial Intelligence 97.1997,273-275,283-286)中提出了一种特征提取模型,被称为封装式的特征提取方法。封装式特征选择较其他的特征选择方法加入了利用后续学习算法对特征子集进行鉴定的部分。理论上,它能选择出较好的且适合后续学习算法学习分类的一组特征子集,但是,由于学习算法的引入,封装式特征选择算法较其他算法慢。算法使用BFS(Best First Search)算法来搜索整个特征空间,搜索的目的是用评估准则找到有最大估计值的状态空间,由于学习算法作为一个黑盒,所以不知道它的实际分类的准确度,需要使用精确性估计算法作为评估准则。为了使特征空间的搜索停止,需要设置阈值ε,只有当下一次的特征空间组合的性能比上一次的性能好ε时,空间搜索才会继续下去,否则,搜索停止,并且得出最佳的特征空间组合。但是一方面,在实际的应用中ε较难确定,无论ε值过大还是过小都会对算法性能产生较大的影响;另一方面,由于特征空间大小不确定导致了所选出特征数量的不确定,而在实际应用中,封装式特征选择的耗时随着所选特征数量的增加而增加,若是选出的最佳特征空间过大,选择过程的时间开销也会很大,方不便实际的应用。文献Stuart Russell and Peter Norvig.A Modern Intelligence A Modern Approach(Second Edition)(Pearson Education,Inc.2003,94-100)中给出了空间搜索原理和不同的几种形式。
发明内容
本发明的目的在于提供一种能方便控制整个选择过程的时间,并且能选择出较好的特征子集的特征选择方法。
本发明的目的是这样实现的:
(a)整个特征集作为完整的特征空间输入特征选择算法中;
(b)把输入的特征空间中的特征按照一定的顺序取出,并放入新的特征空间中;
(c)采用特征评价标准来比较不同空间中的特征;
(d)重复(b)(c)两步,直到新空间中的特征数量达到既定值;
(e)新特征空间中的特征即是被选择出的最佳特征子集。
本发明是一种新的特征提取方法,这种方法省略了阈值的设置,并且可以选择结果中的特征数量,方便控制整个选择过程的时间,并且能选择出较好的特征子集。把从目标中提取出的特征组成特征空间,把特征空间中的特征放入特征选择方法中,使用于后续学习算法相结合的判定准则计算每个特征的权重,并用空间搜索方法搜索出最有的特征,当特征子集中的特征数量达到给定数量时,搜索停止,并给出最优特征空间集。
附图说明
图1为特征选择方法流程图。
图2为改进的BFS空间搜索方法。
图3为5次交叉验证流程图。
具体实施方式
下面结合附图对本发明做更详细的描述。本发明并不仅限于实施以下描述的实例,而是将符合最一般的原理描述。
图1说明了实施一个封装式特征选择的流程图。其中块100代表了图2的BFS空间搜索算法,块101代表了图3的交叉鉴定算法,在本实例中,采用了五次交叉验证(5-cross validation),块102代表了学习算法,本发明并不限制学习算法的使用,包括贝叶斯估计,支持向量机(SVM),遗传算法(GA)和反向传递神经网络等。在实例中,采用了BP神经网络作为学习算法。
参照特征选择的流程图1,整个特征集作为完整的特征空间输入特征选择算法中。块100将会选择出最佳的特征子集,选择的过程如图2所示。在图2的流程中,特征全集首先被导入块200,并把全状态空间赋给OPEN,另建立空集BEST。接着在块201中CLOSED被赋值为与BEST相同。这三个特征空间一并传入块202,在块202中首先使用评价标准J计算OPEN中的每个特征的权值并按权值的大小给所有的特征排序,选出拥有最大权值且没有放入BEST中的特征v,把v放入空间CLOSED。图2块202中的评价标准即是图1中的块101,在本实例中采用五次交叉验证,验证过程如图3所示。
在图3的流程中,含有特征的样本集D被大致的分成5份,这5份子集D1,D2,...,D5相互独立且大致上含有数量相同的数据。学习算法(块300)在验证中反复的训练和测试多次;设t∈{1,2,...,5},交叉验证在不含Dt的原始数据集D\Dt中训练并且用Dt来测试。测试的结果输入到块301求每个训练结果的估计精度并求总的期望。交叉验证的估计精度就是正确分类的的 次数除去样本数的结果。用公式表达的话,设D(i)是包含样本xi=(vi,yi)的测试集合,那么交叉验证的精度
acc CV = 1 n Σ ( v i , y i ) ∈ D δ ( I ( D \ D ( i ) , v i ) , y i ) - - - ( 1 )
其中
δ ( i , j ) = 1 i = j 0 otherwise - - - ( 2 )
精度accCV即是交叉验证的值。图3中的学习算法(块300)也即图1中的学习算法(块102)。
再回到图2,把增加了v的空间CLOSED和特征空间BEST分别使用评价标准计算权值,并比较两个权值的大小(块203)。若比较结果特征空间CLOSED有较大的权值,就把特征v放入空间BEST中(块204),反之回到块202。把从块204输出的特征空间与之前事前决定的特征数量相比较(块205),若未达到要求的特征数量,就返回块201,若达到要求的特征数量,就输出特征空间BEST(块206)。
再回到图1,最后输出的选定的特征子集即是图2中输出的特征空间BEST(块206)。

Claims (3)

1.一种特征选择方法,其特征是:
(a)整个特征集作为完整的特征空间输入特征选择算法中;
(b)把输入的特征空间中的特征按照一定的顺序取出,并放入新的特征空间中;
(c)采用特征评价标准来比较不同空间中的特征;
(d)重复(b)(c)两步,直到新空间中的特征数量达到既定值;
(e)新特征空间中的特征即是被选择出的最佳特征子集。
2.根据权利要求1所述的一种特征选择方法,其特征是所述把输入的特征空间中的特征按照一定的顺序取出,并放入新的特征空间中的方法为:步骤200,把全状态空间赋给OPEN,另建立空集BEST;步骤201,CLOSED被赋值为与BEST相同;步骤202,首先使用评价标准J计算OPEN中的每个特征的权值并按权值的大小给所有的特征排序,选出拥有最大权值且没有放入BEST中的特征v,把v放入空间CLOSED。
3.根据权利要求2所述的一种特征选择方法,其特征是所述采用特征评价标准来比较不同空间中的特征的方法是:步骤203,把增加了v的空间CLOSED和特征空间BEST分别使用评价标准计算权值,并比较两个权值的大小,若比较结果特征空间CLOSED有较大的权值,就执行步骤204,反之回到步骤202;步骤204,把特征v放入空间BEST中;步骤205,把从步骤204输出的特征空间与之前事前决定的特征数量相比较,若未达到要求的特征数量,就返回步骤201,若达到要求的特征数量则执行步骤206;步骤206,就输出特征空间BEST。
CN 201110127174 2011-05-17 2011-05-17 一种特征选择方法 Pending CN102184402A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110127174 CN102184402A (zh) 2011-05-17 2011-05-17 一种特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110127174 CN102184402A (zh) 2011-05-17 2011-05-17 一种特征选择方法

Publications (1)

Publication Number Publication Date
CN102184402A true CN102184402A (zh) 2011-09-14

Family

ID=44570576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110127174 Pending CN102184402A (zh) 2011-05-17 2011-05-17 一种特征选择方法

Country Status (1)

Country Link
CN (1) CN102184402A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709572A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种数据处理方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101324926A (zh) * 2008-07-25 2008-12-17 重庆大学 一种面向复杂模式分类的特征选择方法
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101324926A (zh) * 2008-07-25 2008-12-17 重庆大学 一种面向复杂模式分类的特征选择方法
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Computing and Mathematical Sciences Papers》 19991231 Mark A. Hall Feature selection for discrete and numeric class machine learning 第3-4页,表1 1-3 , *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709572A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种数据处理方法及设备

Similar Documents

Publication Publication Date Title
EP3955204A1 (en) Data processing method and apparatus, electronic device and storage medium
Nguyen et al. Model selection for degradation modeling and prognosis with health monitoring data
Van Den Burg et al. GenSVM: A generalized multiclass support vector machine
JP6235082B1 (ja) データ分類装置、データ分類方法、およびプログラム
US9255973B2 (en) System and method for estimating long term characteristics of battery
US8412658B2 (en) System and method for estimating long term characteristics of battery
CN108090510A (zh) 一种基于间隔优化的集成学习方法及装置
CN103262118A (zh) 属性值估计装置、属性值估计方法、程序和记录介质
US20190385055A1 (en) Method and apparatus for artificial neural network learning for data prediction
CN105701509A (zh) 一种基于跨类别迁移主动学习的图像分类方法
CN114780723A (zh) 基于向导网络文本分类的画像生成方法、系统和介质
JPWO2012111235A1 (ja) 情報処理装置、情報処理方法及び記憶媒体
CN113642652A (zh) 生成融合模型的方法、装置和设备
Barr et al. A real-time data-driven method for battery health prognostics in electric vehicle use
CN102184402A (zh) 一种特征选择方法
KR20220049573A (ko) 거리 기반 학습 신뢰 모델
US20150309982A1 (en) Grammatical error correcting system and grammatical error correcting method using the same
CN112327165A (zh) 一种基于无监督迁移学习的电池soh预测方法
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
CN113610350B (zh) 复杂工况故障诊断方法、设备、存储介质及装置
Ramezani et al. Falsification of cyber-physical systems using bayesian optimization
KR20200051343A (ko) 시계열 데이터 예측 모델 평가 방법 및 장치
US20230086261A1 (en) Clustering device, clustering method, and clustering program
Flach Classification in context: Adapting to changes in class and cost distribution
Barella et al. Simulating complexity measures on imbalanced datasets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110914