CN105718943A - 基于粒子群优化算法的特征选择方法 - Google Patents

基于粒子群优化算法的特征选择方法 Download PDF

Info

Publication number
CN105718943A
CN105718943A CN201610034479.XA CN201610034479A CN105718943A CN 105718943 A CN105718943 A CN 105718943A CN 201610034479 A CN201610034479 A CN 201610034479A CN 105718943 A CN105718943 A CN 105718943A
Authority
CN
China
Prior art keywords
particle
feature
particles
selection approach
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610034479.XA
Other languages
English (en)
Inventor
王保云
李策
高�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610034479.XA priority Critical patent/CN105718943A/zh
Publication of CN105718943A publication Critical patent/CN105718943A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于粒子群优化算法的特征选择方法,步骤1、将输入的数据集进行预处理,分成训练集和测试集;步骤2、确定待优化参数及基于特定的特征选择方法适应度函数,建立并初始化第一代粒子群,进行迭代;步骤3、根据适应度函数,计算每个粒子的适应度、个体最优位置以及所有粒子的全局最优位置;步骤4、利用粒子群的迭代公式更新每个粒子的速度和位置向量,更新每个粒子的个体最优位置和所有粒子的全局最优位置;步骤5、重复步骤2~步骤4,直至达到最大迭代次数;步骤6、输出最优解。本发明基于粒子群优化算法的特征选择方法将被选择的特征数目引入到适应度函数中,不仅能够提高分类的精度,同时还能减少被选择特征的数目。

Description

基于粒子群优化算法的特征选择方法
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于粒子群优化算法的特征选择方法。
背景技术
在模式系统分类系统中,输入的数据往往含有大量的特征,但是只有很少的一部分特征对于分类是有关系的,大量无关的特征会造成“维数灾难”同时降低新噪比。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。特征选择也称特征子集选择,或属性选择,是指从全部特征中选取一个特征子集,这个子集具有比特征全集更好或和特征全集一样的效果。
在机器学习领域,特征选择有两种模式:过滤式和封装模式。在过滤模式中,选择是作为一种预处理,不直接优化任何特定的预测器的性能,特征选择的子集和算法无关。而在封装模式中,选择的方法直接优化特定的预测器。一般来说过滤模式的效率更高,结果与采用的学习算法没有关系所以效果比较差,封装模式依赖于分类算法,效果更好,但是会占用大量的运算时间。一般在数据规模不大的情况下一般使用封装模式,而一般采用封装模式的适应度函数只考虑分类的准确率,往往忽略选择的特征数目对于分类效果的影响。
发明内容
本发明的目的是,提供一种基于粒子群优化算法的特征选择方法,以解决以上方法的缺陷,特别针对减少使用特征数目问题。
一种基于粒子群优化算法的特征选择方法,包括如下步骤:
步骤1、将输入的数据集进行预处理,分成训练集和测试集;
步骤2、确定待优化参数及基于特定的特征选择方法适应度函数,建立并初始化第一代粒子群,进行迭代;
步骤3、根据所述基于特定的特征选择方法适应度函数,计算每个粒子的适应度、个体最优位置以及所有粒子的全局最优位置;
步骤4、利用粒子群的迭代公式更新每个粒子的速度和位置向量,更新每个粒子的个体最优位置和所有粒子的全局最优位置;
步骤5、重复步骤2~步骤4,直至达到最大迭代次数;
步骤6、输出最优解。
所述步骤1的具体过程为:将数据集随机分成n份,把其中的一份作为训练集,剩余的n-1份作为测试集。
步骤2中所述基于特定的特征选择方法适应度函数为
F i t n e s s = α * A c c u r a c y + ( 1 - α ) * 1 # S
其中Fitness为适应度函数,Accuracy为使用K-NN分类器的分类准确率,#S是在分类过程中被选择的特征数目即粒子位置中“1”的个数,N表示特征总数目,粒子的适应度越大,要求精度越高,则使用的特征数目越少;α是惩罚因子,值越大表示特征数量越重要,α取值范围为[0,1]。
步骤2中所述初始化第一代粒子群的过程为:初始化粒子的编码为二进制Xi=(x1,x2,…xn),粒子位置向量的长度表示特征总的数目,用1表示特征被选中,用0表示特征没有被选中。
步骤3中粒子的个体最优位置为:
其中F表示适应度函数;
所述所有粒子的全局最优位置为:
Pgbest(t+1)=max(P1(t+1),P2(t+2).....Pm(t+1))
本发明基于粒子群优化算法的特征选择方法将被选择的特征数目引入到适应度函数中,不仅能够提高分类的精度,同时还能减少被选择特征的数目。
附图说明
图1为基于粒子群优化算法的特征选择方法的流程图;
图2为利用图1实施例的方法输出的结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,基于粒子群优化算法的特征选择方法包括以下步骤:
步骤1、将输入的数据集进行分割,分成训练集和测试集;
将数据进行归一化处理,将数据集分成训练集和测试集。分割方法为留一交叉验证法,把数据集分割成n份,把其中的一份作为训练集,剩余的n-1份都作为测试集。
步骤2、确定待优化参数及基于特定的特征选择方法适应度函数,建立并初始化第一代粒子群并开始迭代;
根据特征选择的特点,把每一个特征定义为粒子的一位离散二进制变量,而变量的长度就是所有的特征数目,如果第i位为1,则就表示该特征被选择,如果该位为0,则代表该位特征没有被选中。开始初始化,随机产生一组粒子,初始化粒子的速度和位置。这种初始化方式得到的每一个个体的“1”和“0”的数量是大致相同的。初始化粒子的当前最佳位置和所有粒子的全局最佳位置。具体来说,随机初始化粒子的位置为X(0),初始化各个粒子的最佳当前最优位置Ppi(0)=Xi(0),全局最优位置Pgbest(0)=min[X1(0),X2(0).....Xm(0)],m是粒子的个数。
步骤3、根据适应度函数,计算每个粒子的适应度,并计算每个粒子的个体最优位置以及所有粒子的全局最优位置,具体来说:
适应度函数为: F i t n e s s = α * A c c u r a c y + ( 1 - α ) * 1 # S
粒子个体最优位置的更新公式为:
其中F表示适应度函数;
所述所有粒子的全局最优位置为:
Pgbest(t+1)=max(P1(t+1),P2(t+2).....Pm(t+1))
步骤4、利用粒子群的迭代公式更新每个粒子的速度和位置向量,更新每个粒子的个体最优位置和所有粒子的全局最优位置;具体来说粒子速度和位置向量迭代更新公式为:
V i t + 1 = w * V i t + c 1 * r a n d * ( p b e s t - X i t ) + c 2 * r a n d * ( g b e s t - X i t ) - - - ( 1 )
X i t + 1 = X i t + V i t - - - ( 2 )
更新每一个粒子的速度和位置向量,w是迭代的权值,,c1和c2是加速因子,t代表迭代的次数,rand代表随机数,一般的取值为[0,1]。
步骤5、重复步骤2~步骤4,直至满足粒子群公式的迭代次数t=Tmax,假设迭代次数设置为100,则当迭代次数达到100时,算法停止,输出相应的结果。
步骤6、迭代结束,输出最优解。
将以上方法应用于数据分类,表1为机器学习UCI数据库的标准数据。
表1
数据 实例 特征数目 类别
vowel 990 10 11
wine 178 13 3
sonar 208 60 2
WDBC 569 30 2
以上应用与数据分类最终的效果比较如表2所示。
表2
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (5)

1.一种基于粒子群优化算法的特征选择方法,其特征在于,包括如下步骤,
步骤1、将输入的数据集进行预处理,分成训练集和测试集;
步骤2、确定待优化参数及基于特定的特征选择方法适应度函数,建立并初始化第一代粒子群,进行迭代;
步骤3、根据所述基于特定的特征选择方法适应度函数,计算每个粒子的适应度、个体最优位置以及所有粒子的全局最优位置;
步骤4、利用粒子群的迭代公式更新每个粒子的速度和位置向量,更新每个粒子的个体最优位置和所有粒子的全局最优位置;
步骤5、重复步骤2~步骤4,直至达到最大迭代次数;
步骤6、输出最优解。
2.根据权利要求1所述的基于粒子群优化算法的特征选择方法,其特征在于,所述步骤1的具体过程为:将数据集随机分成n份,把其中的一份作为训练集,剩余的n-1份作为测试集。
3.根据权利要求1所述的基于粒子群优化算法的特征选择方法,其特征在于,步骤2中所述基于特定的特征选择方法适应度函数为
F i t n e s s = α * A c c u r a c y + ( 1 - α ) * 1 # S
其中Fitness为适应度函数,Accuracy为使用K-NN分类器的分类准确率,#S是在分类过程中被选择的特征数目即粒子位置中“1”的个数,N表示特征总数目,粒子的适应度越大,要求精度越高,则使用的特征数目越少;α是惩罚因子,值越大表示特征数量越重要,α取值范围为[0,1]。
4.根据权利要求1所述的基于粒子群优化算法的特征选择方法,其特征在于,步骤2中所述初始化第一代粒子群的过程为:初始化粒子的编码为二进制Xi=(x1,x2,…xn),粒子位置向量的长度表示特征总数目,用1表示特征被选中,用0表示特征没有被选中。
5.根据权利要求3所述的基于粒子群优化算法的特征选择方法,其特征在于,所述步骤3中粒子的个体最优位置为:
其中F表示适应度函数;
所述所有粒子的全局最优位置为:
Pgbest(t+1)=max(P1(t+1),P2(t+2).....Pm(t+1))。
CN201610034479.XA 2016-01-19 2016-01-19 基于粒子群优化算法的特征选择方法 Pending CN105718943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610034479.XA CN105718943A (zh) 2016-01-19 2016-01-19 基于粒子群优化算法的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610034479.XA CN105718943A (zh) 2016-01-19 2016-01-19 基于粒子群优化算法的特征选择方法

Publications (1)

Publication Number Publication Date
CN105718943A true CN105718943A (zh) 2016-06-29

Family

ID=56147759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610034479.XA Pending CN105718943A (zh) 2016-01-19 2016-01-19 基于粒子群优化算法的特征选择方法

Country Status (1)

Country Link
CN (1) CN105718943A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951728A (zh) * 2017-03-03 2017-07-14 江苏大学 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN107451651A (zh) * 2017-07-28 2017-12-08 杭州电子科技大学 一种基于粒子群优化的h‑elm的驾驶疲劳检测方法
CN107465664A (zh) * 2017-07-07 2017-12-12 桂林电子科技大学 基于并行多人工蜂群算法和支持向量机的入侵检测方法
CN109544511A (zh) * 2018-10-25 2019-03-29 广州大学 基于粒子群算法优化的卷积神经网络对肺结节识别的方法
CN110210529A (zh) * 2019-05-14 2019-09-06 浙江大学 一种基于二进制量子粒子群算法的特征选择方法
CN110336637A (zh) * 2019-07-15 2019-10-15 北京航空航天大学 一种无人机干扰信号特征选择方法
CN110659719A (zh) * 2019-09-19 2020-01-07 江南大学 一种铝型材瑕疵检测方法
CN111354415A (zh) * 2020-02-17 2020-06-30 江苏大学 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法
CN112819062A (zh) * 2021-01-26 2021-05-18 淮阴工学院 基于混合粒子群和连续投影的荧光光谱二次特征选择方法
CN113780334A (zh) * 2021-07-09 2021-12-10 浙江理工大学 基于两阶段混合特征选择的高维数据分类方法
CN117033965A (zh) * 2023-08-11 2023-11-10 湖北工业大学 生物疫苗数据特征选择方法、装置、设备及介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951728A (zh) * 2017-03-03 2017-07-14 江苏大学 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN106951728B (zh) * 2017-03-03 2020-08-28 江苏大学 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN107465664B (zh) * 2017-07-07 2020-04-24 桂林电子科技大学 基于并行多人工蜂群算法和支持向量机的入侵检测方法
CN107465664A (zh) * 2017-07-07 2017-12-12 桂林电子科技大学 基于并行多人工蜂群算法和支持向量机的入侵检测方法
CN107451651A (zh) * 2017-07-28 2017-12-08 杭州电子科技大学 一种基于粒子群优化的h‑elm的驾驶疲劳检测方法
CN109544511A (zh) * 2018-10-25 2019-03-29 广州大学 基于粒子群算法优化的卷积神经网络对肺结节识别的方法
CN109544511B (zh) * 2018-10-25 2022-01-04 广州大学 基于粒子群算法优化的卷积神经网络对肺结节识别的方法
CN110210529A (zh) * 2019-05-14 2019-09-06 浙江大学 一种基于二进制量子粒子群算法的特征选择方法
CN110336637A (zh) * 2019-07-15 2019-10-15 北京航空航天大学 一种无人机干扰信号特征选择方法
CN110659719A (zh) * 2019-09-19 2020-01-07 江南大学 一种铝型材瑕疵检测方法
CN111354415A (zh) * 2020-02-17 2020-06-30 江苏大学 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法
CN111354415B (zh) * 2020-02-17 2023-09-26 江苏大学 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法
CN112819062A (zh) * 2021-01-26 2021-05-18 淮阴工学院 基于混合粒子群和连续投影的荧光光谱二次特征选择方法
CN113780334A (zh) * 2021-07-09 2021-12-10 浙江理工大学 基于两阶段混合特征选择的高维数据分类方法
CN113780334B (zh) * 2021-07-09 2024-06-18 浙江理工大学 基于两阶段混合特征选择的高维数据分类方法
CN117033965A (zh) * 2023-08-11 2023-11-10 湖北工业大学 生物疫苗数据特征选择方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN105718943A (zh) 基于粒子群优化算法的特征选择方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
WO2020253466A1 (zh) 一种用户界面的测试用例生成方法及装置
CN107462785B (zh) 基于ga-svm的电能质量多扰动信号分类识别方法
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN102609714B (zh) 基于信息增益和在线支持向量机的新型分类器及分类方法
CN102915448B (zh) 一种基于AdaBoost的三维模型自动分类方法
CN109754789A (zh) 语音音素的识别方法及装置
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN101968853A (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN111914060B (zh) 一种基于在线点评数据的商户多视图特征提取及模型构建方法
Ochiai et al. Automatic node selection for deep neural networks using group lasso regularization
CN102663681B (zh) 基于排序k-均值算法的灰度图像分割方法
CN104820702B (zh) 一种基于决策树的属性加权方法及文本分类方法
CN114548586B (zh) 一种基于混合模型的短期电力负荷预测方法及系统
CN113676266B (zh) 一种基于量子生成对抗网络的信道建模方法
CN103440275A (zh) 一种基于普利姆的k均值聚类方法
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN105160598A (zh) 一种基于改进em算法的电网业务分类方法
Ghimire et al. Loss-aware automatic selection of structured pruning criteria for deep neural network acceleration
CN104657749A (zh) 一种时间序列的分类方法及装置
CN104992436B (zh) 一种自然场景中的图像分割方法
CN112966429A (zh) 基于WGANs数据增强的非线性工业过程建模方法
CN115620074A (zh) 一种图像数据的分类方法、装置以及介质
US10909421B2 (en) Training method for phase image generator and training method of phase image classifier

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160629

RJ01 Rejection of invention patent application after publication