CN111832645A

CN111832645A - 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法

Info

Publication number: CN111832645A
Application number: CN202010656817.XA
Authority: CN
Inventors: 程子昂; 郭雅蓉; 霍林; 黄俊杰; 王宏伟; 覃志健; 冯锦豪
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-27

Abstract

本发明公开一种基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，包括以下步骤：1）获取数据样本特征集；2）将样本特征集划分为训练集和测试集；3）使用乌鸦差分协同搜索算法进行特征选择，选择出最优特征组合；4）根据所选特征组合获得对应的最优特征子集；5）用最优特征子集进行分类器训练；6）将待测数据用训练好的分类模型进行分类。本发明中的特征选择方法可以寻找到使分类准确率最高且所选特征长度最小的特征子集，兼顾了高准确率和低资源消耗，且算法运行较稳定，适用于多种数据智能分类的应用。

Description

基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法

技术领域

本发明涉及分类问题中的数据预处理领域，尤其涉及一种基于改进乌鸦算法——离散型乌鸦差分协同搜索算法(BCSADE)的分类数据特征选择方法。

背景技术

随着信息数字化时代的快速发展，计算机辅助分类系统在人们日常生活中扮演着举足轻重的角色。由于数据量的频繁增加，涌现出越来越多的高维度问题，对数据的分类、回归或对其进行其他的机器学习任务，都可能会因为其“维数灾难”的影响，而使工作变得困难。在众多机器学习研究领域中，分类问题作为一个重要分支，原始数据的复杂冗余给分类模型的训练带来了极大困难，分类器性能的优劣改进也给分类问题的研究带来了极大地挑战。从信息中提取出数据特征后，如何高效利用这些特征进行准确分类是当前的研究难点之一。

在实际应用中，数据集通常包含很多复杂的特征属性，有些属性可以代表另一个属性的影响；有些属性则会相互依赖，移除其中任何一个都会对后续任务的输出产生重要影响，因此，必要的属性需要保留，不必要的属性可以被忽略，有相关性的属性需要同时保留。然而，由于缺乏经验和先前的知识，很难确定哪个特征是有效的。

特征选择技术作为一种广泛应用的维数约简技术，对解决高维数据的应用问题很有帮助，可以有效地解决“维数灾难”。同时，特征选择也是解决分类问题的重要一环。特征选择被认为是一个非确定性多项式时间困难问题，当涉及到大量的特征时，可能的特征组合的数量呈指数增长，因此，在高维空间中对特征的最优组合进行穷举搜索是不切实际的。

特征选择问题可以理解为在特征空间中寻找一个最优特征子集的寻优过程。智能算法是解决经典优化技术局限性的一种智能计算方法，使用一系列受自然现象和社会现象启发的算法来建立模型、解决计算问题，被认为是全局优化的有力方法。

发明内容

本发明的目的在于针对现有分类技术中存在的困难，提供了一种基于离散型乌鸦差分协同搜索算法(BCSADE)的分类数据特征选择方法。该方法利用BCSADE算法的自适应寻优能力，改善分类技术中存在的缺陷，以提高分类的准确性和可靠性，从而更准确、有效地利用真实数据中包含的信息。

为了实现上述目的，本发明采用了以下技术方案：

一种基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，包括以下步骤：

1)获取待分类数据样本的特征集；

2)基于k折交叉验证方法，将样本特征集分成k份，取其中一份为测试集，其余k-1份为训练集；

3)使用改进后的乌鸦算法——离散型乌鸦差分协同搜索算法(BCSADE) 进行封装式特征选择，通过分类预测效果的性能来评估特征组合的质量，根据目标函数fitness的评估，在每次迭代中筛选若干特征，或排除若干特征，最终选择出最优特征组合；

4)根据所选最优特征组合，获得对应的最优特征子集；

5)用所选最优特征子集进行常用机器学习分类器训练，得到训练好的分类器；

6)用训练好的分类模型对待测数据进行分类。

本发明进一步说明，所述步骤1)中获取样本的特征集的方法为：将原始样本信息数据中所具有的特征通过一定方式进行转换，转化成机器学习算法可以识别的数据特征。得到D+1元组(D为所提取的特征种数)代表的特征集：样本 i＝(特征1，特征2，特征3，…，特征D，所属类别)。

本发明进一步说明，所述步骤2)的k折交叉验证方法中k是任意大于1的常数，常见k取值为5或10。

本发明进一步说明，所述步骤3)的目标函数fitness为：

其中，α和β是控制每部分占比的权重因子，本发明中α取1，β取0.8，L_n是特征属性的总数，L_s是当前个体选择出的特征子集的长度。acc为分类准确度，是描述所选特征子集用于分类的准确性指标，表示通过使用一组所选特征正确分类的实例数，是主要的分类性能度量之一。true_num表示所有样本中被分类正确的样本数，num表示样本所包含的总数量。

本发明进一步说明，所述步骤3)中离散型乌鸦差分协同搜索算法的封装式特征选择，具体为：

3a)初始化：初始化BCSADE算法的差分种群DeX，设置种群大小为N，空间维度D，即特征种数，边界范围x_max、x_min，得到N个D维个体X_i (X_i1，X_i2,…,X_iD)，将NxD矩阵离散化为0/1矩阵，矩阵每一行表示一个个体，行中的每一列对应着一个特征，其值为0表示不选择该特征，其值为1表示选择该特征。设置算法搜索的最大迭代次数为itermax，初始化算法其他相关参数；

3b)对差分种群DeX中每一个个体所表示的特征组合，按照公式(3)～公式 (5)进行变异、交叉、选择操作，利用fitness函数计算每个新个体的适应度值，产生当前最佳特征组合gbest；

其中，随机系数r₁,r₂,r₃∈{1,2，…，N}，是相互不同且与i不同的整数。F 为缩放因子，控制两个个体间差分信息的缩放变化。

j＝1,2,…,D，rand(j)是[0,1]之间的均匀随机数；CR是交叉概率，控制发生交叉的可能性；j_rand∈{1,2,…,D}，是随机选择的整数，以确保u_i ^t+1至少要从v_i ^t+1中在任意一个维度上获得一个值，从而使试验向量不同于目标向量，避免无效的交叉操作。

f为目标函数，即适应度函数。

3c)对gbest进行变异操作，在其附近产生一个局部种群作为改进乌鸦搜索算法的初始种群CrowX；

3d)乌鸦种群协同寻优：按照公式(6)～公式(8)，利用以上步骤改进的自适应步长乌鸦算法进行寻优搜索；

fl＝2-(2/itermax)·t (7)

其中，r_j是一个[0,1]之间均匀分布的随机数，控制跟随状态的决定。

为第t次迭代时乌鸦j的感知概率大小。fl为步长，随迭代次数动态更新；

3e)评估对比乌鸦种群中的每一个个体CrowX(i)和差分种群中的gbest，根据适应度值优劣选择优秀的CrowX(i)加入差分种群DeX参与下一步的差分寻优；

3f)判断是否达到最大迭代次数，若是，输出最优特征组合和最优适应度值，若否，执行3b)～3f)。

本发明进一步说明，所述步骤4)中的最优特征子集即为，将算法所寻最优特征组合中“1”所对应的特征列选择出来，得到最优特征子集。

本发明进一步说明，所述步骤5)中常见机器学习分类器采用K最近邻 (KNN)、线性判别(DT)、朴素贝叶斯(NB)、支持向量机(SVM)、决策树(DT) 或随机森林(RF)等。

本发明的技术创新相关说明：

本发明将特征选择问题建模为一个组合优化问题，群智能算法是解决组合优化问题的重要手段之一，从而特征选择问题就变成了在特征空间中寻找一个最优特征子集。最佳特征子集包含使目标问题效益最大的相关特征，而不包含其它无关特征。在分类问题中，特征选择算法应能够选择出一个使分类器获得最佳性能且子集长度最短的特征子集，即选择一个特征子集，使得决策类在约束条件下的分类效果最好。

因此，在本发明中，利用差分算法全局搜索能力强的特点，结合乌鸦算法局部搜索能力强的特点，提出离散型乌鸦差分协同搜索算法(BCSADE)。先利用差分算法在解空间中寻找全局最优粒子，快速定位到近似解，生成初步的全局最优粒子变异集，作为乌鸦算法的初始种群进行迭代寻优，再利用改进的乌鸦算法在全局最优粒子附近进行局部搜索，利用乌鸦算法的记忆矩阵功能记录迭代中各粒子的最佳适应度函数，以得到更准确的解，将更好的个体加入差分种群进行下一步迭代，从而增加种群多样性，协助差分算法跳出局部最优，通过两个种群间的信息交互，快速收敛到全局最优，提高算法的寻优能力。

使用提出的搜索算法生成特征子集，然后利用常用机器学习分类器进行分类，使用分类结果正确率及特征子集长度作为度量函数对特征子集进行评估，从而挑选出最优特征子集进行下一步分类研究。

本发明与现有技术相比具有如下优点：

1.本发明从步长移动方式方面提高了乌鸦算法的寻优效率，并通过两个种群的信息交互，平衡了算法的集约性与多样性。

2.本发明提出了新的适应度函数，考虑到特征选择为了实现降维的特性，采用两个评价标准作为适应度函数，即分类准确率acc和特征选择长度L_s，通过引入权重因子α、β控制acc和L_s这两个相反关系评价标准的占比，使原特征选择问题变为多目标特征选择问题，问题的解即为寻求最小的L_s使得acc最大。

3.与过滤式特征选择相比，本发明采用的封装式特征选择方法，以学习算法的输出作为评判标准，能获得更好的分类效果，能获得近似最优解。

附图说明

图1为本发明一实施例的流程图；

图2为启发式特征选择示意图；

图3为本发明一实施例中基于离散型乌鸦差分协同搜索算法(BCSADE)的分类数据特征选择方法的逻辑实现流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例：

基于离散型乌鸦差分协同搜索算法(BCSADE)的分类数据特征选择方法，包括下列步骤：

步骤一：获取待分类信息数据样本的特征集，样本i＝(特征1，特征2，特征3，…，特征D，所属类别)，D为特征个数。

步骤二：使用k折交叉验证法将样本集划分为训练集和测试集，k是任意大于1的常数。常见k取值为5或10。

步骤三：使用改进后的乌鸦算法——离散型乌鸦差分协同搜索算法 (BCSADE)进行封装式特征选择，通过分类预测效果的性能来评估特征组合的质量，根据目标函数fitness的评估，在每次迭代中筛选若干特征，或排除若干特征，最终选择出最优特征组合，具体为：

3a)初始化：初始化BCSADE算法的差分种群DeX，设置种群大小为N，空间维度D，即特征种数，边界范围x_max、x_min，得到N个D维个体X_i＝ (X_i1，X_i2,…,X_iD)，将NxD矩阵离散化为0/1矩阵，矩阵每一行表示一个个体，行中的每一列对应着一个特征，其值为0表示不选择该特征，其值为1表示选择该特征。设置算法搜索的最大迭代次数为itermax，初始化算法其他相关参数。

3b)对差分种群中每一个个体所表示的特征集合，分别用训练集训练分类器，并用测试集测试分类效果，使用fitness计算各个个体的适应度值，将初始适应度值最大的特征组合记为gbest。

为了在高维数据中进行有效的分类，同时兼顾分类问题中算法的效率、准确率和稳定性，需要综合考虑分类准确率和选择的特征数量占总特征数量的比例，所以设计离散型乌鸦差分协同搜索算法的适应度函数(即目标函数fitness)为：

其中，α和β是控制每部分占比的权重因子，本实施例中α取1，β取0.8， L_n是特征属性的总数，L_s是当前个体选择出的特征子集的长度。acc为分类准确度，是描述所选特征子集用于分类的准确性指标，表示通过使用一组所选特征正确分类的实例数，是主要的分类性能度量之一。true_num表示所有样本中被分类正确的样本数，num表示样本所包含的总数量。

对差分种群DeX中每一个个体所表示的特征组合，按照公式(3)～公式(5)进行变异、交叉、选择操作，利用fitness函数计算每个新个体的适应度值，更新当前最佳特征组合gbest；

f为目标函数，即适应度函数。

3c)对gbest进行变异操作，在其附近产生一个局部种群作为改进乌鸦搜索算法的初始种群CrowX。

3d)乌鸦种群协同寻优：按照公式(6)～公式(8)，利用利用以上步骤改进的自适应步长乌鸦算法进行寻优搜索；

fl＝2-(2/itermax)·t (7)

为第t次迭代时乌鸦j的感知概率大小。fl为步长，随迭代次数动态更新。

3e)评估对比乌鸦种群中的每一个个体CrowX(i)和差分种群中的gbest，根据适应度值优劣选择优秀的CrowX(i)加入差分种群DeX参与下一步的差分寻优。

步骤四：如图1所示，将算法所寻最优特征组合中“1”所对应的特征列选择出来，得到最优特征子集。

步骤五：用所选最优特征子集通过常见机器学习分类器，例如K最近邻 (KNN)、线性判别(DT)、朴素贝叶斯(NB)、支持向量机(SVM)、决策树(DT) 或随机森林(RF)等，进行分类学习训练，得到训练好的分类器。

步骤六：用训练好的分类模型对待测数据进行分类。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，其特征在于，包括下列步骤：

1)获取待分类数据样本的特征集；

3)使用改进后的乌鸦算法——离散型乌鸦差分协同搜索算法进行封装式特征选择，通过分类预测效果的性能来评估特征组合的质量，根据目标函数fitness的评估，在每次迭代中筛选若干特征，或排除若干特征，最终选择出最优特征组合；

4)根据所选最优特征组合，获得对应的最优特征子集；

6)用训练好的分类模型对待测数据进行分类。

2.根据权利要求1所述的基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，其特征在于，所述步骤1)中获取样本的特征集的方法为：将原始样本信息数据中所具有的特征进行转换，转化成机器学习算法可以识别的数据特征，得到D+1元组代表的特征集：样本i＝(特征1，特征2，特征3，…，特征D，所属类别)；D为所提取的特征种数。

3.根据权利要求1所述的基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，其特征在于，所述步骤2)的k折交叉验证方法中k是任意大于1的常数。

4.根据权利要求1或3所述的基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，其特征在于，常数k取值为5或10。

5.根据权利要求1所述的基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，其特征在于，所述步骤3)的目标函数fitness为：

其中，α和β是控制每部分占比的权重因子，L_n是特征属性的总数，L_s是当前个体选择出的特征子集的长度，acc为分类准确度，是描述所选特征子集用于分类的准确性指标，表示通过使用一组所选特征正确分类的实例数，是主要的分类性能度量之一，true_num表示所有样本中被分类正确的样本数，num表示样本所包含的总数量。

6.根据权利要求1所述的基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，其特征在于，所述步骤3)中离散型乌鸦差分协同搜索算法的封装式特征选择，具体为：

3a)初始化：初始化离散型乌鸦差分协同搜索算法的差分种群DeX，设置种群大小为N，空间维度D，即特征种数，边界范围x_max、x_min，得到N个D维个体X_i＝(X_i1，X_i2,…,X_iD)，将NxD矩阵离散化为0/1矩阵，矩阵每一行表示一个个体，行中的每一列对应着一个特征，其值为0表示不选择该特征，其值为1表示选择该特征；设置算法搜索的最大迭代次数为itermax，初始化算法其他相关参数；

3b)对差分种群DeX中每一个个体所表示的特征组合，按照公式(3)～公式(5)进行变异、交叉、选择操作，利用fitness函数计算每个新个体的适应度值，产生当前最佳特征组合gbest；

其中，随机系数r₁,r₂,r₃∈{1,2，…，N}，是相互不同且与i不同的整数，F为缩放因子，控制两个个体间差分信息的缩放变化；

j＝1,2,…,D，rand(j)是[0,1]之间的均匀随机数；CR是交叉概率，控制发生交叉的可能性；j_rand∈{1,2,…,D}，是随机选择的整数，以确保u_i ^t+1至少要从v_i ^t+1中在任意一个维度上获得一个值，从而使试验向量不同于目标向量，避免无效的交叉操作；

f为目标函数，即适应度函数；

fl＝2-(2/itermax)·t (7)

其中，r_j是一个[0,1]之间均匀分布的随机数，控制跟随状态的决定；

为第t次迭代时乌鸦j的感知概率大小；fl为步长，随迭代次数动态更新；

7.根据权利要求1所述的基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，其特征在于，所述步骤4)中的最优特征子集即为，将算法所寻最优特征组合中“1”所对应的特征列选择出来，得到最优特征子集。

8.根据权利要求1所述的基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法，其特征在于，所述步骤5)中常见机器学习分类器采用K最近邻、线性判别、朴素贝叶斯、支持向量机、决策树或随机森林。