CN114117876A

CN114117876A - 基于改进哈里斯鹰算法的特征选择方法

Info

Publication number: CN114117876A
Application number: CN202111405009.7A
Authority: CN
Inventors: 周士华; 邹乐旺; 吕卉
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-01

Abstract

本发明公开了基于改进哈里斯鹰算法的特征选择方法，包括：随机构造初始的特征子集；通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优；利用目标函数获取哈里斯鹰特征子集的适应度，并确定其个体最优与全局最优；根据所述全局最优输出特征子集。本发明其将二阶分类错误率与特征子集长度的加权作为评估函数，通过改进哈里斯鹰优化算法迭代寻优，筛选出质量较佳的特征子集。

Description

基于改进哈里斯鹰算法的特征选择方法

技术领域

本发明涉及特征选择技术领域，具体来说是针对分类不平衡问题，使用改进哈里斯鹰优化算法进行特征选择的方法。

背景技术

特征选择是机器学习领域数据预处理的重要方法之一。但由于特征选择本身的性质是个NP难问题，即特征数为n时，搜索空间为2ⁿ；导致研究者们只能退而求其次，使用近似算法获取特征选择问题的近似最优解，这也使得群体智能优化算法在特征选择问题中得到广泛应用。

另一方面，由于数据集本身的特性，会导致部分分类数据样本远远少于其它分类数据，这将大大影响算法的分类准确性，而且仅仅考虑分类错误率会使得选择到的特征子集中包含较多的冗余特征，此时大大提高了算法的计算复杂度，这一点对于高维数据尤为明显。

发明内容

本发明针对分类不平衡问题，提出了基于改进哈里斯鹰优化算法的特征选择方法，其将二阶分类错误率与特征子集长度的加权作为评估函数，通过改进哈里斯鹰优化算法迭代寻优，筛选出质量较佳的特征子集。

为实现上述目的，本申请提出基于改进哈里斯鹰算法的特征选择方法，包括：

随机构造初始的特征子集；

通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优；

利用目标函数获取哈里斯鹰特征子集的适应度，并确定其个体最优与全局最优；

根据所述全局最优输出特征子集。

进一步的，通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优，具体为：

将每一个特征子集对应的看成一个粒子，在粒子初始化时，其维度根据数据集的特征数确定，其值则随机初始化为[0，1]之间的随机数，若值大于等于0.5则表示该特征选取为有用特征，否则表示不选取。例如下表所示：

一个特征数量为9的数据集，则粒子维度为9；随机初始化其值，根据结果可知，特征4、特征6、特征8、特征9选取为有用特征。

特征选择初期阶段，要求算法有较强的搜索能力，后期要求算法有较强的开发能力。据此，本申请针对哈里斯鹰算法作如下改进：

设粒子在t时刻的位置为X(t)，粒子的全局最优位置为gbest，粒子个体最优位置为pbest；当控制因子C_r值大于[0,1]间的随机数 rand时，使用下式更新粒子位置：

其中d代表粒子的维度，范围是[1,D]中的任意整数，这里的D是粒子搜索空间的总维度；rand是在区间(0，1)内均匀分布的随机数； i代表当前粒子的索引号；当控制因子C_r值小于等于[0,1]间的随机数 rand时，使用下式更新粒子位置：

Y＝gbest-E*(gbest-X_i) (3)

temp₁＝gbest-α₁*|gbest-X_i| (5)

temp₂＝mean_best_i-α₂*|mean_best_i-X_i| (6)

α＝a*(2*rand-1) (9)

其中E是粒子的逃逸能量因子；α₁、α₂均为权重因子，由式(9) 得到；mean_best_i是从种群中比第i个粒子适应度好的前i-1个粒子的历史最优适应度值中随机抽取k个，再作均值，如式(7)所示。

进一步的，所述控制因子C_r值由式(10)获得，其中t为迭代次数， T为最大迭代次数：

进一步的，将二阶分类错误率与特征子集长度加权形成目标函数，具体为：

其中，s_f代表所选择的特征子集长度；n_f代表数据集中总共的特征数量；μ是平衡分类错误率与特征子集长度的平衡因子；balanced_error 为分类错误率，fitness即为哈里斯鹰特征子集的适应度，对所述fitness 进行排序得到个体最优与全局最优。所述个体最优是在迭代过程中，每个特征子集所能取得的最优适应度值；所述全局最优是在迭代过程中，所有特征子集中取得的最优适应度值；

进一步的，所述分类错误率balanced_error由下式计算得到：

其中，n是问题的总类数，TP_i是第i类中被正确分类的实例数，S_i是第i类中包含的所有实例数。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：

1、用二阶分类错误率与特征子集长度的加权作为目标函数进行适应度计算，这样既可以最大限度减少分类不平衡问题对分类结果造成的影响，又可以使得最终求得的特征子集不至于过大。

2、改进的哈里斯鹰算法克服了不能灵活转换搜索与开发的缺陷，加强算法跳出局部最优的能力，使得算法有更强的全局寻优能力。

3、本发明提出的基于改进哈里斯鹰算法的特征选择方法能够筛选出质量较优的特征子集。

附图说明

图1为实施例中基于改进哈里斯鹰算法的特征选择方法流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请，即所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了证明本发明所提方法的有效性，利用UCI公开数据库中的 waveform+noise数据集做验证，该数据集在原来的waveform数据集上添加了均值为1、方差为0的噪声。waveform+noise数据集的目标是准确分类出3类wave。该数据集共有5000条样本，每条样本有40 个特征(属性)，用0到6间的实数表示。

特征选择问题旨在剔除数据集中无关、冗余特征，从而提高机器学习的性能。一般来说，特征选择算法有四个主要步骤，“初始化”、“子集生成”、“子集评估”、“输出”。在这四个步骤中，“子集生成”和“子集评估”是最重要的两个步骤。“子集生成”使用搜索方法生成候选特征子集。候选子集的质量通过“子集评估”中的评估函数来衡量。基于“子集评估”的反馈，“子集生成”更多质量较优的特征子集。

实施例1

如图1所示，本实施例提供基于改进哈里斯鹰算法的特征选择方法，通过改进的哈里斯鹰优化算法结合提出的目标函数寻找质量较优的特征子集，具体实现步骤为：

步骤1：随机构造初始的特征子集；

具体的，生成10个以特征数量为长度的粒子，初始化算法所需参数，最大迭代次数为50次，目标函数的权值μ为0.01；

步骤2：通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优；

步骤3：利用目标函数获取哈里斯鹰特征子集的适应度，并确定其个体最优与全局最优；

步骤4：判断是否达到最大迭代次数50次，若是进行步骤5，否则返回步骤2；

步骤5：根据所述全局最优输出特征子集。

本发明提出基于改进哈里斯鹰优化算法的特征选择方法，用改进哈里斯鹰算法对初始种群进行搜索，通过提出的目标函数对生成的特征子集进行评估，并以这些特征子集为基础，根据改进哈里斯鹰优化算法不断进行更新，最终寻找到质量最优的特征子集。本发明在 Intel(R)CPU2.6GHz、8.0GB内存、Windows 10运行环境下，借助MATLAB 对该方法进行仿真实验，实验结果表明本实例的方法结果优于其他算法的实验结果。

下表为本发明所提方法与其它方法的分类准确度结果对比：

下表为本发明所提方法与其它方法的特征子集长度对比：

方法	平均特征子集长度
		HHO方法	29.65
WOA方法	32.25
		ALO方法	33.45
本方法	23.4

对比分析：

从整体的结果来看，本方法与其它方法选择的特征平均大小可以观察到，本方法在waveform+noise数据集上取得最高分类精度的同时取得最短特征子集长度。本发明提出的IGHHO算法配合目标函数在选择的特征子集长度上，较其它方法而言有一定优势。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.基于改进哈里斯鹰算法的特征选择方法，其特征在于，包括：

随机构造初始的特征子集；

通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优；

根据所述全局最优输出特征子集。

2.根据权利要求1所述基于改进哈里斯鹰算法的特征选择方法，其特征在于，通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优，具体为：

将每一个特征子集对应的看成一个粒子，设粒子在t时刻的位置为X(t)，粒子的全局最优位置为gbest，粒子个体最优位置为pbest；当控制因子C_r值大于[0，1]间的随机数rand时，使用下式更新粒子位置：

其中d代表粒子的维度，范围是[1，D]中的任意整数，这里的D是粒子搜索空间的总维度；rand是在区间(0，1)内均匀分布的随机数；i代表当前粒子的索引号；当控制因子C_r值小于等于【0，1]间的随机数rand时，使用下式更新粒子位置：

Y＝gbest-E*(gbest-X_i) (3)

temp₁＝gbest-α₁*|gbest-X_i| (5)

temp₂＝mean_best_i-α₂*|mean_best_i-X_i| (6)

α＝a*(2*rand-1) (9)

其中E是粒子的逃逸能量因子；α₁、α₂均为权重因子，由式(9)得到；mean_best_i是从种群中比第i个粒子适应度好的前i-1个粒子的历史最优适应度值中随机抽取k个，再作均值，如式(7)所示。

3.根据权利要求2所述基于改进哈里斯鹰算法的特征选择方法，其特征在于，所述控制因子C_r值由式(10)获得，其中t为迭代次数，T为最大迭代次数：

4.根据权利要求1所述基于改进哈里斯鹰算法的特征选择方法，其特征在于，将二阶分类错误率与特征子集长度加权形成目标函数，具体为：

其中，sf代表所选择的特征子集长度；nf代表数据集中总共的特征数量；μ是平衡分类错误率与特征子集长度的平衡因子；balanced_error为分类错误率，fitness即为哈里斯鹰特征子集的适应度，对所述fitness进行排序得到个体最优与全局最优。

5.根据权利要求4所述基于改进哈里斯鹰算法的特征选择方法，其特征在于，所述分类错误率balanced_error由下式计算得到：