CN114117876A - 基于改进哈里斯鹰算法的特征选择方法 - Google Patents

基于改进哈里斯鹰算法的特征选择方法 Download PDF

Info

Publication number
CN114117876A
CN114117876A CN202111405009.7A CN202111405009A CN114117876A CN 114117876 A CN114117876 A CN 114117876A CN 202111405009 A CN202111405009 A CN 202111405009A CN 114117876 A CN114117876 A CN 114117876A
Authority
CN
China
Prior art keywords
feature subset
particle
harris eagle
feature
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111405009.7A
Other languages
English (en)
Inventor
周士华
邹乐旺
吕卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN202111405009.7A priority Critical patent/CN114117876A/zh
Publication of CN114117876A publication Critical patent/CN114117876A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/25Design optimisation, verification or simulation using particle-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Abstract

本发明公开了基于改进哈里斯鹰算法的特征选择方法,包括:随机构造初始的特征子集;通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优;利用目标函数获取哈里斯鹰特征子集的适应度,并确定其个体最优与全局最优;根据所述全局最优输出特征子集。本发明其将二阶分类错误率与特征子集长度的加权作为评估函数,通过改进哈里斯鹰优化算法迭代寻优,筛选出质量较佳的特征子集。

Description

基于改进哈里斯鹰算法的特征选择方法
技术领域
本发明涉及特征选择技术领域,具体来说是针对分类不平衡问题,使用改进哈里斯鹰优化算法进行特征选择的方法。
背景技术
特征选择是机器学习领域数据预处理的重要方法之一。但由于特征选择本身的性质是个NP难问题,即特征数为n时,搜索空间为2n;导致研究者们只能退而求其次,使用近似算法获取特征选择问题的近似最优解,这也使得群体智能优化算法在特征选择问题中得到广泛应用。
另一方面,由于数据集本身的特性,会导致部分分类数据样本远远少于其它分类数据,这将大大影响算法的分类准确性,而且仅仅考虑分类错误率会使得选择到的特征子集中包含较多的冗余特征,此时大大提高了算法的计算复杂度,这一点对于高维数据尤为明显。
发明内容
本发明针对分类不平衡问题,提出了基于改进哈里斯鹰优化算法的特征选择方法,其将二阶分类错误率与特征子集长度的加权作为评估函数,通过改进哈里斯鹰优化算法迭代寻优,筛选出质量较佳的特征子集。
为实现上述目的,本申请提出基于改进哈里斯鹰算法的特征选择方法,包括:
随机构造初始的特征子集;
通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优;
利用目标函数获取哈里斯鹰特征子集的适应度,并确定其个体最优与全局最优;
根据所述全局最优输出特征子集。
进一步的,通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优,具体为:
将每一个特征子集对应的看成一个粒子,在粒子初始化时,其维度根据数据集的特征数确定,其值则随机初始化为[0,1]之间的随机数,若值大于等于0.5则表示该特征选取为有用特征,否则表示不选取。例如下表所示:
Figure BDA0003371964270000021
一个特征数量为9的数据集,则粒子维度为9;随机初始化其值,根据结果可知,特征4、特征6、特征8、特征9选取为有用特征。
特征选择初期阶段,要求算法有较强的搜索能力,后期要求算法有较强的开发能力。据此,本申请针对哈里斯鹰算法作如下改进:
设粒子在t时刻的位置为X(t),粒子的全局最优位置为gbest,粒子个体最优位置为pbest;当控制因子Cr值大于[0,1]间的随机数 rand时,使用下式更新粒子位置:
Figure BDA0003371964270000022
其中d代表粒子的维度,范围是[1,D]中的任意整数,这里的D是粒子搜索空间的总维度;rand是在区间(0,1)内均匀分布的随机数; i代表当前粒子的索引号;当控制因子Cr值小于等于[0,1]间的随机数 rand时,使用下式更新粒子位置:
Figure BDA0003371964270000031
Y=gbest-E*(gbest-Xi) (3)
Figure BDA0003371964270000032
temp1=gbest-α1*|gbest-Xi| (5)
temp2=mean_besti2*|mean_besti-Xi| (6)
Figure BDA0003371964270000033
Figure BDA0003371964270000034
α=a*(2*rand-1) (9)
其中E是粒子的逃逸能量因子;α1、α2均为权重因子,由式(9) 得到;mean_besti是从种群中比第i个粒子适应度好的前i-1个粒子的历史最优适应度值中随机抽取k个,再作均值,如式(7)所示。
进一步的,所述控制因子Cr值由式(10)获得,其中t为迭代次数, T为最大迭代次数:
Figure BDA0003371964270000035
进一步的,将二阶分类错误率与特征子集长度加权形成目标函数,具体为:
Figure BDA0003371964270000036
其中,sf代表所选择的特征子集长度;nf代表数据集中总共的特征数量;μ是平衡分类错误率与特征子集长度的平衡因子;balanced_error 为分类错误率,fitness即为哈里斯鹰特征子集的适应度,对所述fitness 进行排序得到个体最优与全局最优。所述个体最优是在迭代过程中,每个特征子集所能取得的最优适应度值;所述全局最优是在迭代过程中,所有特征子集中取得的最优适应度值;
进一步的,所述分类错误率balanced_error由下式计算得到:
Figure BDA0003371964270000041
其中,n是问题的总类数,TPi是第i类中被正确分类的实例数,Si是第i类中包含的所有实例数。
本发明采用的以上技术方案,与现有技术相比,具有的优点是:
1、用二阶分类错误率与特征子集长度的加权作为目标函数进行适应度计算,这样既可以最大限度减少分类不平衡问题对分类结果造成的影响,又可以使得最终求得的特征子集不至于过大。
2、改进的哈里斯鹰算法克服了不能灵活转换搜索与开发的缺陷,加强算法跳出局部最优的能力,使得算法有更强的全局寻优能力。
3、本发明提出的基于改进哈里斯鹰算法的特征选择方法能够筛选出质量较优的特征子集。
附图说明
图1为实施例中基于改进哈里斯鹰算法的特征选择方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请,即所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了证明本发明所提方法的有效性,利用UCI公开数据库中的 waveform+noise数据集做验证,该数据集在原来的waveform数据集上添加了均值为1、方差为0的噪声。waveform+noise数据集的目标是准确分类出3类wave。该数据集共有5000条样本,每条样本有40 个特征(属性),用0到6间的实数表示。
特征选择问题旨在剔除数据集中无关、冗余特征,从而提高机器学习的性能。一般来说,特征选择算法有四个主要步骤,“初始化”、“子集生成”、“子集评估”、“输出”。在这四个步骤中,“子集生成”和“子集评估”是最重要的两个步骤。“子集生成”使用搜索方法生成候选特征子集。候选子集的质量通过“子集评估”中的评估函数来衡量。基于“子集评估”的反馈,“子集生成”更多质量较优的特征子集。
实施例1
如图1所示,本实施例提供基于改进哈里斯鹰算法的特征选择方法,通过改进的哈里斯鹰优化算法结合提出的目标函数寻找质量较优的特征子集,具体实现步骤为:
步骤1:随机构造初始的特征子集;
具体的,生成10个以特征数量为长度的粒子,初始化算法所需参数,最大迭代次数为50次,目标函数的权值μ为0.01;
步骤2:通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优;
步骤3:利用目标函数获取哈里斯鹰特征子集的适应度,并确定其个体最优与全局最优;
步骤4:判断是否达到最大迭代次数50次,若是进行步骤5,否则返回步骤2;
步骤5:根据所述全局最优输出特征子集。
本发明提出基于改进哈里斯鹰优化算法的特征选择方法,用改进哈里斯鹰算法对初始种群进行搜索,通过提出的目标函数对生成的特征子集进行评估,并以这些特征子集为基础,根据改进哈里斯鹰优化算法不断进行更新,最终寻找到质量最优的特征子集。本发明在 Intel(R)CPU2.6GHz、8.0GB内存、Windows 10运行环境下,借助MATLAB 对该方法进行仿真实验,实验结果表明本实例的方法结果优于其他算法的实验结果。
下表为本发明所提方法与其它方法的分类准确度结果对比:
Figure BDA0003371964270000061
Figure BDA0003371964270000071
下表为本发明所提方法与其它方法的特征子集长度对比:
方法 平均特征子集长度
HHO方法 29.65
WOA方法 32.25
ALO方法 33.45
本方法 23.4
对比分析:
从整体的结果来看,本方法与其它方法选择的特征平均大小可以观察到,本方法在waveform+noise数据集上取得最高分类精度的同时取得最短特征子集长度。本发明提出的IGHHO算法配合目标函数在选择的特征子集长度上,较其它方法而言有一定优势。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (5)

1.基于改进哈里斯鹰算法的特征选择方法,其特征在于,包括:
随机构造初始的特征子集;
通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优;
利用目标函数获取哈里斯鹰特征子集的适应度,并确定其个体最优与全局最优;
根据所述全局最优输出特征子集。
2.根据权利要求1所述基于改进哈里斯鹰算法的特征选择方法,其特征在于,通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优,具体为:
将每一个特征子集对应的看成一个粒子,设粒子在t时刻的位置为X(t),粒子的全局最优位置为gbest,粒子个体最优位置为pbest;当控制因子Cr值大于[0,1]间的随机数rand时,使用下式更新粒子位置:
Figure FDA0003371964260000011
其中d代表粒子的维度,范围是[1,D]中的任意整数,这里的D是粒子搜索空间的总维度;rand是在区间(0,1)内均匀分布的随机数;i代表当前粒子的索引号;当控制因子Cr值小于等于【0,1]间的随机数rand时,使用下式更新粒子位置:
Figure FDA0003371964260000012
Y=gbest-E*(gbest-Xi) (3)
Figure FDA0003371964260000013
temp1=gbest-α1*|gbest-Xi| (5)
temp2=mean_besti2*|mean_besti-Xi| (6)
Figure FDA0003371964260000014
Figure FDA0003371964260000015
α=a*(2*rand-1) (9)
其中E是粒子的逃逸能量因子;α1、α2均为权重因子,由式(9)得到;mean_besti是从种群中比第i个粒子适应度好的前i-1个粒子的历史最优适应度值中随机抽取k个,再作均值,如式(7)所示。
3.根据权利要求2所述基于改进哈里斯鹰算法的特征选择方法,其特征在于,所述控制因子Cr值由式(10)获得,其中t为迭代次数,T为最大迭代次数:
Figure FDA0003371964260000021
4.根据权利要求1所述基于改进哈里斯鹰算法的特征选择方法,其特征在于,将二阶分类错误率与特征子集长度加权形成目标函数,具体为:
Figure FDA0003371964260000022
其中,sf代表所选择的特征子集长度;nf代表数据集中总共的特征数量;μ是平衡分类错误率与特征子集长度的平衡因子;balanced_error为分类错误率,fitness即为哈里斯鹰特征子集的适应度,对所述fitness进行排序得到个体最优与全局最优。
5.根据权利要求4所述基于改进哈里斯鹰算法的特征选择方法,其特征在于,所述分类错误率balanced_error由下式计算得到:
Figure FDA0003371964260000023
其中,n是问题的总类数,TPi是第i类中被正确分类的实例数,Si是第i类中包含的所有实例数。
CN202111405009.7A 2021-11-24 2021-11-24 基于改进哈里斯鹰算法的特征选择方法 Pending CN114117876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111405009.7A CN114117876A (zh) 2021-11-24 2021-11-24 基于改进哈里斯鹰算法的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111405009.7A CN114117876A (zh) 2021-11-24 2021-11-24 基于改进哈里斯鹰算法的特征选择方法

Publications (1)

Publication Number Publication Date
CN114117876A true CN114117876A (zh) 2022-03-01

Family

ID=80372167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111405009.7A Pending CN114117876A (zh) 2021-11-24 2021-11-24 基于改进哈里斯鹰算法的特征选择方法

Country Status (1)

Country Link
CN (1) CN114117876A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116242383A (zh) * 2023-03-15 2023-06-09 皖西学院 一种基于增强哈里斯鹰算法的无人车路径规划方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116242383A (zh) * 2023-03-15 2023-06-09 皖西学院 一种基于增强哈里斯鹰算法的无人车路径规划方法
CN116242383B (zh) * 2023-03-15 2023-09-15 皖西学院 一种基于增强哈里斯鹰算法的无人车路径规划方法

Similar Documents

Publication Publication Date Title
CN112581263A (zh) 一种基于灰狼算法优化广义回归神经网络的信用评估方法
CN108304316B (zh) 一种基于协同迁移的软件缺陷预测方法
CN106202952A (zh) 一种基于机器学习的帕金森疾病诊断方法
CN110349597A (zh) 一种语音检测方法及装置
CN112801140A (zh) 一种基于飞蛾扑火优化算法的XGBoost乳腺癌快速诊断方法
CN110784455B (zh) 基于线性递减权重粒子群算法优化Xgboost模型方法
KR101680055B1 (ko) 결합적 클러스터링 기법과 앙상블 모델링 기법을 이용한 인공신경망 모델 개발 방법
CN112729826A (zh) 一种人工鱼群-蛙跳优化极限学习机的轴承故障诊断方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN113378927A (zh) 一种基于聚类的自适应加权过采样方法
CN112116952A (zh) 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法
CN114117876A (zh) 基于改进哈里斯鹰算法的特征选择方法
CN114818809A (zh) 基于交叉小波的sca-svm电机滚动轴承的故障诊断方法
Feng et al. Fsrf: an improved random forest for classification
CN111737110A (zh) 一种面向深度学习模型的测试输入选择方法
CN111126560A (zh) 一种基于云遗传算法优化bp神经网络的方法
CN113868960A (zh) 一种基于典型相关森林的土壤重金属特征选取方法及系统
Phan et al. Efficiency enhancement of evolutionary neural architecture search via training-free initialization
CN110796198A (zh) 基于混合蚁群优化算法的高维特征筛选方法
CN112132259B (zh) 神经网络模型输入参量降维方法及计算机可读存储介质
CN112308160A (zh) 一种k—均值聚类人工智能优化算法
CN113341379A (zh) 基于自适应阈值和迭代控制的雷达信号分选方法
CN110782950A (zh) 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法
CN116662859B (zh) 非遗文化数据特征选择方法
CN110647671A (zh) 一种基于AAE-DWMIL-LearnNSE的数据流分类算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination