CN105718943A - 基于粒子群优化算法的特征选择方法 - Google Patents
基于粒子群优化算法的特征选择方法 Download PDFInfo
- Publication number
- CN105718943A CN105718943A CN201610034479.XA CN201610034479A CN105718943A CN 105718943 A CN105718943 A CN 105718943A CN 201610034479 A CN201610034479 A CN 201610034479A CN 105718943 A CN105718943 A CN 105718943A
- Authority
- CN
- China
- Prior art keywords
- particle
- feature selection
- optimization algorithm
- swarm optimization
- particle swarm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002245 particle Substances 0.000 title claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 17
- 238000005457 optimization Methods 0.000 title claims abstract description 14
- 238000010187 selection method Methods 0.000 title abstract description 13
- 238000000034 method Methods 0.000 claims description 14
- 229910002056 binary alloy Inorganic materials 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000005538 encapsulation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于粒子群优化算法的特征选择方法,步骤1、将输入的数据集进行预处理,分成训练集和测试集;步骤2、确定待优化参数及基于特定的特征选择方法适应度函数,建立并初始化第一代粒子群,进行迭代;步骤3、根据适应度函数,计算每个粒子的适应度、个体最优位置以及所有粒子的全局最优位置;步骤4、利用粒子群的迭代公式更新每个粒子的速度和位置向量,更新每个粒子的个体最优位置和所有粒子的全局最优位置;步骤5、重复步骤2~步骤4,直至达到最大迭代次数;步骤6、输出最优解。本发明基于粒子群优化算法的特征选择方法将被选择的特征数目引入到适应度函数中,不仅能够提高分类的精度,同时还能减少被选择特征的数目。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于粒子群优化算法的特征选择方法。
背景技术
在模式系统分类系统中,输入的数据往往含有大量的特征,但是只有很少的一部分特征对于分类是有关系的,大量无关的特征会造成“维数灾难”同时降低新噪比。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。特征选择也称特征子集选择,或属性选择,是指从全部特征中选取一个特征子集,这个子集具有比特征全集更好或和特征全集一样的效果。
在机器学习领域,特征选择有两种模式:过滤式和封装模式。在过滤模式中,选择是作为一种预处理,不直接优化任何特定的预测器的性能,特征选择的子集和算法无关。而在封装模式中,选择的方法直接优化特定的预测器。一般来说过滤模式的效率更高,结果与采用的学习算法没有关系所以效果比较差,封装模式依赖于分类算法,效果更好,但是会占用大量的运算时间。一般在数据规模不大的情况下一般使用封装模式,而一般采用封装模式的适应度函数只考虑分类的准确率,往往忽略选择的特征数目对于分类效果的影响。
发明内容
本发明的目的是,提供一种基于粒子群优化算法的特征选择方法,以解决以上方法的缺陷,特别针对减少使用特征数目问题。
一种基于粒子群优化算法的特征选择方法,包括如下步骤:
步骤1、将输入的数据集进行预处理,分成训练集和测试集;
步骤2、确定待优化参数及基于特定的特征选择方法适应度函数,建立并初始化第一代粒子群,进行迭代;
步骤3、根据所述基于特定的特征选择方法适应度函数,计算每个粒子的适应度、个体最优位置以及所有粒子的全局最优位置;
步骤4、利用粒子群的迭代公式更新每个粒子的速度和位置向量,更新每个粒子的个体最优位置和所有粒子的全局最优位置;
步骤5、重复步骤2~步骤4,直至达到最大迭代次数;
步骤6、输出最优解。
所述步骤1的具体过程为:将数据集随机分成n份,把其中的一份作为训练集,剩余的n-1份作为测试集。
步骤2中所述基于特定的特征选择方法适应度函数为
其中Fitness为适应度函数,Accuracy为使用K-NN分类器的分类准确率,#S是在分类过程中被选择的特征数目即粒子位置中“1”的个数,N表示特征总数目,粒子的适应度越大,要求精度越高,则使用的特征数目越少;α是惩罚因子,值越大表示特征数量越重要,α取值范围为[0,1]。
步骤2中所述初始化第一代粒子群的过程为:初始化粒子的编码为二进制Xi=(x1,x2,…xn),粒子位置向量的长度表示特征总的数目,用1表示特征被选中,用0表示特征没有被选中。
步骤3中粒子的个体最优位置为:
其中F表示适应度函数;
所述所有粒子的全局最优位置为:
Pgbest(t+1)=max(P1(t+1),P2(t+2).....Pm(t+1))
本发明基于粒子群优化算法的特征选择方法将被选择的特征数目引入到适应度函数中,不仅能够提高分类的精度,同时还能减少被选择特征的数目。
附图说明
图1为基于粒子群优化算法的特征选择方法的流程图;
图2为利用图1实施例的方法输出的结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,基于粒子群优化算法的特征选择方法包括以下步骤:
步骤1、将输入的数据集进行分割,分成训练集和测试集;
将数据进行归一化处理,将数据集分成训练集和测试集。分割方法为留一交叉验证法,把数据集分割成n份,把其中的一份作为训练集,剩余的n-1份都作为测试集。
步骤2、确定待优化参数及基于特定的特征选择方法适应度函数,建立并初始化第一代粒子群并开始迭代;
根据特征选择的特点,把每一个特征定义为粒子的一位离散二进制变量,而变量的长度就是所有的特征数目,如果第i位为1,则就表示该特征被选择,如果该位为0,则代表该位特征没有被选中。开始初始化,随机产生一组粒子,初始化粒子的速度和位置。这种初始化方式得到的每一个个体的“1”和“0”的数量是大致相同的。初始化粒子的当前最佳位置和所有粒子的全局最佳位置。具体来说,随机初始化粒子的位置为X(0),初始化各个粒子的最佳当前最优位置Ppi(0)=Xi(0),全局最优位置Pgbest(0)=min[X1(0),X2(0).....Xm(0)],m是粒子的个数。
步骤3、根据适应度函数,计算每个粒子的适应度,并计算每个粒子的个体最优位置以及所有粒子的全局最优位置,具体来说:
适应度函数为:
粒子个体最优位置的更新公式为:
其中F表示适应度函数;
所述所有粒子的全局最优位置为:
Pgbest(t+1)=max(P1(t+1),P2(t+2).....Pm(t+1))
步骤4、利用粒子群的迭代公式更新每个粒子的速度和位置向量,更新每个粒子的个体最优位置和所有粒子的全局最优位置;具体来说粒子速度和位置向量迭代更新公式为:
更新每一个粒子的速度和位置向量,w是迭代的权值,,c1和c2是加速因子,t代表迭代的次数,rand代表随机数,一般的取值为[0,1]。
步骤5、重复步骤2~步骤4,直至满足粒子群公式的迭代次数t=Tmax,假设迭代次数设置为100,则当迭代次数达到100时,算法停止,输出相应的结果。
步骤6、迭代结束,输出最优解。
将以上方法应用于数据分类,表1为机器学习UCI数据库的标准数据。
表1
数据 | 实例 | 特征数目 | 类别 |
vowel | 990 | 10 | 11 |
wine | 178 | 13 | 3 |
sonar | 208 | 60 | 2 |
WDBC | 569 | 30 | 2 |
以上应用与数据分类最终的效果比较如表2所示。
表2
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
Claims (5)
1.一种基于粒子群优化算法的特征选择方法,其特征在于,包括如下步骤,
步骤1、将输入的数据集进行预处理,分成训练集和测试集;
步骤2、确定待优化参数及基于特定的特征选择方法适应度函数,建立并初始化第一代粒子群,进行迭代;
步骤3、根据所述基于特定的特征选择方法适应度函数,计算每个粒子的适应度、个体最优位置以及所有粒子的全局最优位置;
步骤4、利用粒子群的迭代公式更新每个粒子的速度和位置向量,更新每个粒子的个体最优位置和所有粒子的全局最优位置;
步骤5、重复步骤2~步骤4,直至达到最大迭代次数;
步骤6、输出最优解。
2.根据权利要求1所述的基于粒子群优化算法的特征选择方法,其特征在于,所述步骤1的具体过程为:将数据集随机分成n份,把其中的一份作为训练集,剩余的n-1份作为测试集。
3.根据权利要求1所述的基于粒子群优化算法的特征选择方法,其特征在于,步骤2中所述基于特定的特征选择方法适应度函数为
其中Fitness为适应度函数,Accuracy为使用K-NN分类器的分类准确率,#S是在分类过程中被选择的特征数目即粒子位置中“1”的个数,N表示特征总数目,粒子的适应度越大,要求精度越高,则使用的特征数目越少;α是惩罚因子,值越大表示特征数量越重要,α取值范围为[0,1]。
4.根据权利要求1所述的基于粒子群优化算法的特征选择方法,其特征在于,步骤2中所述初始化第一代粒子群的过程为:初始化粒子的编码为二进制Xi=(x1,x2,…xn),粒子位置向量的长度表示特征总数目,用1表示特征被选中,用0表示特征没有被选中。
5.根据权利要求3所述的基于粒子群优化算法的特征选择方法,其特征在于,所述步骤3中粒子的个体最优位置为:
其中F表示适应度函数;
所述所有粒子的全局最优位置为:
Pgbest(t+1)=max(P1(t+1),P2(t+2).....Pm(t+1))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610034479.XA CN105718943A (zh) | 2016-01-19 | 2016-01-19 | 基于粒子群优化算法的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610034479.XA CN105718943A (zh) | 2016-01-19 | 2016-01-19 | 基于粒子群优化算法的特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105718943A true CN105718943A (zh) | 2016-06-29 |
Family
ID=56147759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610034479.XA Pending CN105718943A (zh) | 2016-01-19 | 2016-01-19 | 基于粒子群优化算法的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105718943A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951728A (zh) * | 2017-03-03 | 2017-07-14 | 江苏大学 | 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法 |
CN107451651A (zh) * | 2017-07-28 | 2017-12-08 | 杭州电子科技大学 | 一种基于粒子群优化的h‑elm的驾驶疲劳检测方法 |
CN107465664A (zh) * | 2017-07-07 | 2017-12-12 | 桂林电子科技大学 | 基于并行多人工蜂群算法和支持向量机的入侵检测方法 |
CN109544511A (zh) * | 2018-10-25 | 2019-03-29 | 广州大学 | 基于粒子群算法优化的卷积神经网络对肺结节识别的方法 |
CN110210529A (zh) * | 2019-05-14 | 2019-09-06 | 浙江大学 | 一种基于二进制量子粒子群算法的特征选择方法 |
CN110336637A (zh) * | 2019-07-15 | 2019-10-15 | 北京航空航天大学 | 一种无人机干扰信号特征选择方法 |
CN110659719A (zh) * | 2019-09-19 | 2020-01-07 | 江南大学 | 一种铝型材瑕疵检测方法 |
CN111354415A (zh) * | 2020-02-17 | 2020-06-30 | 江苏大学 | 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 |
CN112819062A (zh) * | 2021-01-26 | 2021-05-18 | 淮阴工学院 | 基于混合粒子群和连续投影的荧光光谱二次特征选择方法 |
CN113780334A (zh) * | 2021-07-09 | 2021-12-10 | 浙江理工大学 | 基于两阶段混合特征选择的高维数据分类方法 |
CN117033965A (zh) * | 2023-08-11 | 2023-11-10 | 湖北工业大学 | 生物疫苗数据特征选择方法、装置、设备及介质 |
CN119357964A (zh) * | 2024-12-24 | 2025-01-24 | 杭州海康威视数字技术股份有限公司 | 一种恶意攻击特征的智能多维演化协同分析方法及设备 |
-
2016
- 2016-01-19 CN CN201610034479.XA patent/CN105718943A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951728A (zh) * | 2017-03-03 | 2017-07-14 | 江苏大学 | 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法 |
CN106951728B (zh) * | 2017-03-03 | 2020-08-28 | 江苏大学 | 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法 |
CN107465664B (zh) * | 2017-07-07 | 2020-04-24 | 桂林电子科技大学 | 基于并行多人工蜂群算法和支持向量机的入侵检测方法 |
CN107465664A (zh) * | 2017-07-07 | 2017-12-12 | 桂林电子科技大学 | 基于并行多人工蜂群算法和支持向量机的入侵检测方法 |
CN107451651A (zh) * | 2017-07-28 | 2017-12-08 | 杭州电子科技大学 | 一种基于粒子群优化的h‑elm的驾驶疲劳检测方法 |
CN109544511A (zh) * | 2018-10-25 | 2019-03-29 | 广州大学 | 基于粒子群算法优化的卷积神经网络对肺结节识别的方法 |
CN109544511B (zh) * | 2018-10-25 | 2022-01-04 | 广州大学 | 基于粒子群算法优化的卷积神经网络对肺结节识别的方法 |
CN110210529A (zh) * | 2019-05-14 | 2019-09-06 | 浙江大学 | 一种基于二进制量子粒子群算法的特征选择方法 |
CN110336637A (zh) * | 2019-07-15 | 2019-10-15 | 北京航空航天大学 | 一种无人机干扰信号特征选择方法 |
CN110659719A (zh) * | 2019-09-19 | 2020-01-07 | 江南大学 | 一种铝型材瑕疵检测方法 |
CN111354415A (zh) * | 2020-02-17 | 2020-06-30 | 江苏大学 | 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 |
CN111354415B (zh) * | 2020-02-17 | 2023-09-26 | 江苏大学 | 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 |
CN112819062A (zh) * | 2021-01-26 | 2021-05-18 | 淮阴工学院 | 基于混合粒子群和连续投影的荧光光谱二次特征选择方法 |
CN113780334A (zh) * | 2021-07-09 | 2021-12-10 | 浙江理工大学 | 基于两阶段混合特征选择的高维数据分类方法 |
CN113780334B (zh) * | 2021-07-09 | 2024-06-18 | 浙江理工大学 | 基于两阶段混合特征选择的高维数据分类方法 |
CN117033965A (zh) * | 2023-08-11 | 2023-11-10 | 湖北工业大学 | 生物疫苗数据特征选择方法、装置、设备及介质 |
CN119357964A (zh) * | 2024-12-24 | 2025-01-24 | 杭州海康威视数字技术股份有限公司 | 一种恶意攻击特征的智能多维演化协同分析方法及设备 |
CN119357964B (zh) * | 2024-12-24 | 2025-05-02 | 杭州海康威视数字技术股份有限公司 | 一种恶意攻击特征的智能多维演化协同分析方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718943A (zh) | 基于粒子群优化算法的特征选择方法 | |
CN113505887B (zh) | 一种针对忆阻器误差的忆阻器存储器神经网络训练方法 | |
US12169782B2 (en) | Dynamic precision scaling at epoch granularity in neural networks | |
CN111492381A (zh) | 神经网络的功能子网络的同时训练 | |
CN104866578A (zh) | 一种不完整数据混合填充方法 | |
CN107301246A (zh) | 基于超深卷积神经网络结构模型的中文文本分类方法 | |
CN106776580A (zh) | 混合的深度神经网络cnn和rnn的主题句识别方法 | |
US20210326756A1 (en) | Methods of providing trained hyperdimensional machine learning models having classes with reduced elements and related computing systems | |
CN108763874A (zh) | 一种基于生成对抗网络的染色体分类方法及装置 | |
Sun et al. | Semiparametric functional coefficient models with integrated covariates | |
CN111506700B (zh) | 基于上下文感知嵌入的细粒度情感分析方法 | |
CN103020979B (zh) | 基于稀疏遗传聚类的图像分割方法 | |
CN104834793A (zh) | 一种多风电场风速数据的模拟生成方法 | |
CN103150383B (zh) | 一种短文本数据的事件演化分析方法 | |
CN104820702B (zh) | 一种基于决策树的属性加权方法及文本分类方法 | |
CN104809233A (zh) | 一种基于信息增益率的属性加权方法及文本分类方法 | |
CN114841335A (zh) | 基于变分蒸馏的多模态联合表示学习方法及系统 | |
CN105354583B (zh) | 基于局部均值的不平衡数据分类方法 | |
CN102306308B (zh) | 一种基于纹理学习的电子毛笔建模方法 | |
Liu et al. | Community detection enhancement using non-negative matrix factorization with graph regularization | |
CN102778555A (zh) | 预测变压器油中溶解气体浓度的方法 | |
CN106934415A (zh) | 一种基于Delaunay三角网的K‑means初始聚类中心选取方法 | |
CN110427967A (zh) | 基于嵌入式特征选择语义自编码器的零样本图像分类方法 | |
Scoggins et al. | Machine learning moment closures for accurate and efficient simulation of polydisperse evaporating sprays | |
Sadeghpour et al. | Calculating the collapse margin ratio of RC frames using soft computing models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160629 |