CN110837884A

CN110837884A - 基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法

Info

Publication number: CN110837884A
Application number: CN201911041662.2A
Authority: CN
Inventors: 张戈; 王建林; 阎朝坤; 侯金翠; 罗慧敏
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-25
Anticipated expiration: 2039-10-30
Also published as: CN110837884B

Abstract

本发明提供一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法。该算法包括：步骤1、采用基于信息增益算法的特征排序策略对种群中的N个个体进行随机初始化；步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值，将种群中适应度值最大的个体所表示的解作为种群中的全局最优解；步骤3、使用改进的二元磷虾群算法更新种群，并更新种群中每个个体的适应度值，更新种群中的全局最优解；步骤4、以步骤3作为一次迭代，重复进行步骤3，直至当前迭代次数达到设定的迭代次数。通过10‑折交叉在九个公开生物医学数据集上测试验证，本发明可以有效地简化基因表达水平的数量，并且与其他特征选择方法相比获得高分类准确度。

Description

基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法

技术领域

本发明涉及生物信息学技术领域，尤其涉及一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法。

背景技术

随着生物医学中DNA微阵列技术的发展，积累了大规模高维度小样本微阵列数据，如肺癌微阵列数据集，包括181个样本，每个样本包含12533个特征。数据的高维小样本特征对于基因分析和疾病诊断带来了极大的挑战。高维小样本数据也给现有的挖掘和学习算法带来了巨大的挑战。随着数据维度的急剧增加，大量的冗余信息和无关信息通常也会随之产生，这些信息可能极大降低机器学习算法的性能，提高计算复杂度，造成“维数灾难”，同时标记信息样本的缺失，易产生“过拟合”现象，降低学习模型的预测能力。特征选择是解决高维小样本问题的一种有效手段，它可以去除大量无关和冗余的特征，寻找与分类任务强相关的特征子集，目的是为了减少算法运行时间，提高预测精度。因此在处理高维小样本数据时，特征选择对于机器学习显得尤为重要，在很多领域越来越受到人们的重视。

特征选择技术最早出现于上世纪60年代，它的本质就是为了从原始数据的特征集合当中，选择符合某种评定标准的最优特征子集，以便用于进行分类或者回归的任务。特征选择是一个过程，它是从原始的大量数据集中选择具有代表性的特征子集从而实现对未知数据的预测和分析。特征选择是一项艰巨的任务，主要是由于搜索空间较大，对于具有n个特征的数据集，可能的解决方案总数为2ⁿ。

随着数据收集技术的进步和这些问题的复杂性的增加，随着n在许多领域的增加，任务变得越来越具有挑战性。参考“梁伍七等.特征选择算法研究综述[J]. 安徽广播电视大学学报.2019.07.15”，目前，按照搜索策略对特征选择算法进行分类，主要有三种基于不同搜索策略的特征选择算法：基于穷尽搜索策略的特征选择算法、基于随机搜索策略的特征选择算法和基于元启发式搜索策略的特征选择算法，具体如下：

(1)基于穷尽搜索策略的特征选择算法：穷举法和分支定界法是全局最优式主要采用的方法。穷举法也可以称为耗尽式搜索，通过搜索每一个特征子集来选取符合要求的最优特征子集，例如回溯法，因为它可以遍历所有特征集合，因此一定能够找到全局最优特征子集。但若是原始特征数目很大，搜索空间自然也会变大，耗尽式搜索的执行效率也会降低，并不实用。分支定界法是通过剪枝操作来缩短搜索时间，也是目前全局搜索中唯一可以获得最优结果的办法，但是它要求在搜索开始前先预先设定最优特征子集的数目而且评价函数要具有单调性。同时，当等待处理的特征具有较高的维度时，需要执行多次，这些要求都限制了它的应用。

(2)基于随机搜索策略的特征选择算法：它在搜索的过程中将特征选择与遗传算法(GA)、模拟退火(SA)、禁忌搜索(TS)等结合，通过概率和采样过程为理论支撑。根据分类的有效性对每个待选特征进行权重赋值，且根据定义的或者自适应获取的阈值对特征的重要性进行判断，将权值超出阈值的特征输出。随机搜索方法将分类的性能作为评判标准，或得了比较好的应用效果。但是，存在时间复杂度高，不能保证输出的特征集合就是最优特征子集的问题。

(3)基于元启发式搜索策略的特征选择算法：它是一种对计算量和搜索的最优性进行折中的近似算法。运用合理的启发式规则设计，通过不断的迭代来产生最优的特征子集。根据起始特征集合和搜索方向的差异，能够分为单独最优特征选择、序列向前选择、序列向后选择和双向选择等。元启发式搜索的复杂性低，执行效率高，在实际问题的应用当中非常广泛。但是，在特征选择过程中，一旦某个特征被删除便无法撤回，这可能会导致算法陷入局部最优。

通常特征选择过程包含以下阶段：子集生成，子集评估和结果验证。这个过程的目的是去除不相关或冗余特征，生成的较小的可行子集。目前，按照评价策略对特征选择算法进行分类，特征选择方法大致分为两类：滤波式(filter)和封装式(wrapper)方法。这种分类是基于它们是否与特定的学习算法(分类器)相结合。滤波式(filter)方法是将所有的特征作为初始的特征子集，然后釆用与类别相关的评价指标来衡量特征对类别的区分能力，依靠数据的内在特征来评估特征的相关性。主要优点是计算复杂度低、效率高，适合处理大规模数据，但由于此方法在特征选择过程中与分类器的决策机制脱离，一般难以确定选择的特征能否使某一特定分类器的分类准确率达到最大。信息增益、Trank算法、Relief和相关性特征选择CFS是众所周知的滤波式方法。

基于封装式(wrapper)的特征选择方法是将搜索算法加入到特征选择过程中，即搜索算法被“封装”到分类模型中，是以达到最大分类准确率为引导的一类特征选择方法。在封装模型中，分类算法被当作一个黑盒用来评价特征子集的性能，因此封装方法选择出的特征与分类器的决策机制有较大的关系。封装式特征选择算法通常采用分类器直接对选择的特征子集进行评价，根据评价好坏采取相应搜索策略对子集进行调整，目的是不断探索最优子集。

研究人员不断尝试优化机器学习和元启发式算法，以提高分类精度和所选特征的质量。尽管wrapper方法已成功地应用于特征选择领域，但是由于考虑的特征数量非常多，从数千到数万不等，因此wrapper会带来很高的计算开销。在优化的领域里任何启发式的包装器特征选择都不能解决所有的特征选择问题。

综上所述，从原始的输入数据中选择出对分类最有价值的由相关特征组成的最优特征子集，并且尽可能的提高分类精确度，就是特征选择算法需要实现的目标。然而，目前许多智能算法都无法同时涵盖这两个目标。

发明内容

针对现有特征选择算法存在的无法同时涵盖“从原始的输入数据中选择出对分类最有价值的由相关特征组成的最优特征子集”和“尽可能的提高分类精确度”这两个目标的问题，本发明提供一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法，能够在选择出最优特征子集的同时，进一步提高特征的分类精确度。

本发明提供一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法，该方法包括：

步骤1、采用基于信息增益算法的特征排序策略对种群中的N个个体进行随机初始化，N表示种群中的磷虾个体总数；

步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值，将种群中适应度值最大的个体所表示的解作为种群中的全局最优解；

步骤3、使用改进的二元磷虾群算法更新种群，并更新种群中每个个体的适应度值，更新种群中的全局最优解；

步骤4、以步骤3作为一次迭代，重复进行步骤3，直至当前迭代次数达到设定的迭代次数。

进一步地，所述步骤1具体为：

步骤1.1、根据信息增益算法计算数据集中每个特征的信息增益值；

步骤1.2、按照信息增益值从大到小的顺序对每个特征的信息增益值进行排序；

步骤1.3、选择信息增益值较大的前TopN个特征对种群中的个体进行随机初始化形成初始解，针对每个个体将被选中的特征设置为1，未被选中的特征设置为0。

进一步地，步骤1.1具体为：

按照公式(1)计算特征A_z的熵值H(C)：

按照公式(2)计算特征A_z的条件熵H(C|A_z)：

按照公式(3)计算特征A_z的信息增益值IG(A_z)：

IG(A_z)＝H(C)-H(C|A_z) (3)

其中，a_j是特征A_z的值，z＝1,2…,Z，Z表示特征的总数，p(a_j)表示类标签c_i的先验概率，p(c_i|a_j)表示a_j固定后类标签c_i的条件概率，k表示特征A_z中值的个数，m表示类标签的总数，p(c_i)表示类标签c_i在数据集中的比例。

进一步地，所述设定的适应度函数具体为：

其中，

acc(KNN)表示用KNN分类器得到的分类精确度，num_c表示分类正确的样本数，num_i表示分类错误的样本数，b表示待计算适应度值的样本对应被选中特征的数目，B是待计算适应度值的样本对应所有特征的数目，α＝1是分类精确度的权重，β＝0.001是特征选择的权重。

进一步地，采用改进的二元磷虾群算法更新种群，具体包括：

按照式(5)更新每个磷虾个体的位置：

X_i(t+1)＝X_i(t)+q*N_i(t)+q*F_i(t)+D_i(t) (5)

其中，X_i(t+1)和X_i(t)分别表示第t+1次和第t次迭代时第i个磷虾个体的位置， N_i(t)表示第i个磷虾个体的由邻居磷虾引起的运动操作算子，F_i(t)表示第i个磷虾个体的觅食运动操作算子，D_i(t)表示第i个磷虾个体的随机扩散运动操作算子， q表示混沌记忆权值因子。

进一步地，按照式(6)更新混沌记忆权值因子q：

q(t+1)＝4.0×q(t)×(1-q(t)) (6)

其中，q(t+1)和q(t)分别表示第t+1次和第t次迭代时的混沌记忆权重因子。

进一步地，步骤3中，还包括：重塑第i个磷虾个体的位置，具体为：

按照式(7)更新自适应传递因子p：

使用双曲正切函数作为传递函数，并在传递函数中引入自适应传递因子，得到新的传递函数g：

根据新的传递函数g按照式(9)重塑第i个磷虾个体的位置X_id(t+1)：

其中，rand是介于0和1之间的均匀随机数，I是实际迭代次数，I_max是设定的迭代次数，X_id(t+1)表示重塑后的第t+1次迭代时的第i个磷虾个体的位置，m₁等于0.95，m₂等于1.05。

进一步地，步骤3中，还包括：计算邻居磷虾引起的运动操作算子，具体为：

确定第i个磷虾个体的邻居磷虾：按照式(10)计算第i个磷虾个体的感应距离，若第i个磷虾个体的感应距离大于其与第j个磷虾个体之间的距离，则确定第j个磷虾个体为第i个磷虾个体的邻居磷虾：

其中，d_s,i表示第i个磷虾个体的感应距离，||X_i-X_j||表示第i个磷虾个体与第j 个磷虾个体之间的欧式距离；

根据式(11)至式(13)计算得到邻居磷虾引起的运动操作算子N_i(t)：

N_i(t)＝N^max×(α_i ^local+α_i ^target)+ω_n×N_i(t-1) (11)

其中，N^max是诱导速度，ω_n是[0，1]范围内的随机数，α_i ^local表示局部搜索，α_i ^target表示全局搜索，f^best和f^worst表示到目前为止磷虾个体的最佳适应度值和最差适应度值，f_i表示第i个磷虾个体的适应度值，f_j是其第j个邻居磷虾的适应度值 j＝1,2,...,NN，NN是邻居磷虾的总数，ε为用于避免奇异性的正数。

进一步地，步骤3中，还包括：计算觅食运动操作算子，具体为：

根据磷虾个体的适应度值按照式(14)计算食物中心X_food：

其中，X_food表示食物中心，f_i表示第i个磷虾个体的适应度值，X_i表示第i个磷虾个体的位置；

根据式(15)至(17)计算得到觅食运动操作算子F_i(t)：

F_i(t)＝V_f×(β_i ^food+β_i ^best)+ω_f×F_i(t-1) (15)

其中，V_f表示觅食速度，ω_f是[0，1]范围内的随机数，β_i ^food表示食物吸引力，β_i ^best表示到目前为止第i个磷虾个体的最大适应度值的影响，f_food表示食物中心X_food的适应度值，f_ibest表示到目前为止第i个磷虾个体的最大适应度值，X_ibest表示到目前为止第i个磷虾个体的最佳位置，I是实际迭代次数，I_max是设定的迭代次数。

进一步地，步骤3中，还包括：根据式(18)计算随机扩散运动操作算子：

其中，D^max表示最大扩散速度，X_random表示随机向量，I是实际迭代次数，I_max是设定的迭代次数。

本发明的有益效果：

本发明提供的基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法，基于信息增益算法的特征排序策略对种群中的个体进行初始化，以保留一些判别基因，可使得后续的搜索算法基于一个更好的初始化种群进行搜索，并获得更高的分类精度。并且，改进的二元磷虾群算法在迭代搜索过程中，采用双曲正切函数作为传递函数，对磷虾位置的变化概率进行二值化；在双曲正切函数中引入自适应传递因子p，增强了传递函数的过渡性，提高了细粒度搜索的效率，避免了早熟收敛于局部最优解的问题；在由邻居磷虾引起的运动操作算子和觅食运动操作算子上引入混沌记忆权重因子q，增强了二元磷虾群算法的探索和开发，进一步提高了算法的性能。通过将搜索的最佳特征子集带入到分类算法结合10-折交叉进行分类验证，在九个公开生物医学数据集上测试验证，本发明可以有效地简化基因表达水平的数量，并且与其他特征选择方法相比获得高分类准确度。

附图说明

图1为本发明实施例提供的基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法的流程示意图之一；

图2为本发明实施例提供的基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法的流程示意图之二；

图3为本发明实施例提供的邻居磷虾引起的运动操作算子中寻找邻居示意图；

图4为本发明实施例提供的基于信息增益算法的不同TopN的平均精确度；

图5为本发明实施例提供的基于相同数据集BKH算法、MBKH算法和本发明的IG-MBKH算法在精确度上的对比示意图；

图6为本发明实施例提供的基于相同数据集不同智能算法在特征选择上的平均精确度对比示意图；

图7为本发明实施例提供的基于相同数据集不同智能算法在特征选择上特征子集的特征数对比示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法简称IG-MBKH算法。结合图1和图2所示，本发明提供的IG-MBKH算法包括以下步骤：

S101、采用基于信息增益算法的特征排序策略对种群中的N个个体进行随机初始化；

具体地，本步骤包括以下子步骤：

S1011、根据信息增益算法计算数据集中每个特征的信息增益值；

具体地，每个特征的信息增益值为每个特征的熵值与条件熵值的差值。对于数据集，设S(s₁,s₂,…,s_n)为n个实例的集合，s(A₁,A₂,…,A_Z)为含有Z个特征的实例，Z表示特征的总数，C(c₁,c₂,…,c_m)为m个类标签的集合。

其中：以特征A_z为例，z＝1,2…,Z，特征的熵值H(C)按照公式(1)计算，特征的条件熵H(C|A_z)按照公式(2)计算，特征的信息增益值IG(A_z)按照公式(3)计算：

IG(A_z)＝H(C)-H(C|A_z) (3)

其中，a_j是特征A_z的值，p(a_j)表示类标签c_i的先验概率，p(c_i|a_j)表示a_j固定后类标签c_i的条件概率，k表示特征A_z中值的个数，m表示类标签的总数，p(c_i) 表示类标签c_i在数据集中的比例。

S1012、按照信息增益值从大到小的顺序对每个特征的信息增益值进行排序；

S1013、选择信息增益值较大的前TopN个特征对种群中的个体进行随机初始化形成初始解，针对每个个体将被选中的特征设置为1，未被选中的特征设置为0；

S102、采用设定的适应度函数计算所述种群中每个个体的适应度值，得到种群中适应度值最大的个体即为全局最优解；

具体地，所述设定的适应度函数具体为：

其中，

用分类器算法计算每个个体的适应度值，种群中适应度值最大的个体所表示的解，即为全局最优解。

S103、采用改进的二元磷虾群算法更新种群，具体地，本步骤包括以下子步骤：

S1031、每个磷虾个体的位置是由邻居磷虾引起的运动、觅食运动和随机扩散运动三个操作算子进行更新，如公式(5)所示：

X_i(t+1)＝X_i(t)+q*N_i(t)+q*F_i(t)+D_i(t) (5)

公式(6)为混沌记忆权重因子q的更新公式：

q(t+1)＝4.0×q(t)×(1-q(t)) (6)

其中，q(t+1)和q(t)分别表示第t+1次和第t次迭代时的混沌记忆权重因子；在实际应用中，混沌记忆权值因子q的初始值可设置为0.56。

本发明实施例设计的改进的二元磷虾群算法，通过在邻居磷虾引起的运动和觅食运动操作算子上引入混沌记忆权值因子q，可增强磷虾算法的探索和开发能力，进一步提高了算法的性能。

经过改进的二元磷虾群算法的三个操作运算后，磷虾个体的位置变成一个离散值而不再是0或者1。在改进的二元磷虾群算法中使用双曲正切函数作为传递函数，定义位置从1改变为0或者从0改变为1的概率。双曲正切函数被归为v 形传递函数，与sigmoid函数相比，它表现出了良好的性能。此外，为了在收敛到最优值时增强过渡以改进细粒度搜索，在双曲正切函数中引入了自适应转移因子p，从而避免了过早收敛。用公式(7)来更新自适应传递因子p。双曲正切函数被用来重塑磷虾个体的位置，如公式(8)和(9)所示。

S1032、计算邻居磷虾引起的运动操作算子；

具体地，首先，找到邻居：用公式(10)计算每一个磷虾个体的感应距离，如果一个磷虾个体的感应距离大于两个磷虾个体的距离，则它们被视为邻居，如图 3所示。

其中，d_s,i表示第i个磷虾个体的感应距离，||X_i-X_j||表示第i个磷虾个体与第j 个磷虾个体之间的欧式距离，N表示种群中的磷虾个体总数。

然后，根据公式(11)计算得到邻居磷虾引起的运动操作算子N_i(t)：

N_i(t)＝N^max×(α_i ^local+α_i ^target)+ω_n×N_i(t-1) (11)

其中，N^max是诱导速度，ω_n是[0，1]范围内的随机数，α_i ^local表示局部搜索，α_i ^target表示全局搜索，f^best和f^worst表示到目前为止磷虾个体的最佳适应度值和最差适应度值，f_i表示第i个磷虾个体的适应度值，f_j是其第j个邻居磷虾的适应度值 j＝1,2,...,NN，NN是邻居磷虾的总数。为了避免奇异性，在除数中加入一个小的正数ε。

S1033、计算觅食运动操作算子；

具体地，首先，根据磷虾在种群中的个体适应度值计算食物中心，如公式(14) 所示：

然后，根据公式(15)计算得到觅食运动操作算子F_i(t)

F_i(t)＝V_f×(β_i ^food+β_i ^best)+ω_f×F_i(t-1) (15)

其中，V_f表示觅食速度，ω_f是[0，1]范围内的随机数，β_i ^food表示食物吸引力，β_i ^best表示到目前为止第i个磷虾个体的最大适应度值的影响f_food表示食物中心X_food的适应度值，f_ibest表示到目前为止第i个磷虾个体的最大适应度值，X_ibest表示到目前为止第i个磷虾个体的最佳位置，I是实际迭代次数，I_max是设定的迭代次数。

S1034、按照公式(18)计算随机扩散运动操作算子；

其中，D^max表示最大扩散速度，X_random表示随机向量。

S104、以步骤S103作为一次迭代，重复进行直至当前迭代次数达到设定的迭代次数。

从上述实施例可知，本发明搜索过程基于改进的二元磷虾群算法进行搜索。基于信息增益算法的特征排序策略对种群中的个体进行初始化，以保留一些判别基因，可使得后续的搜索算法基于一个更好的初始化种群进行搜索，并获得更高的分类精度。并且，改进的二元磷虾群算法在迭代搜索过程中，采用双曲正切函数作为传递函数，对磷虾位置的变化概率进行二值化；在双曲正切函数中引入自适应传递因子p，增强了传递函数的过渡性，提高了细粒度搜索的效率，避免了早熟收敛于局部最优解的问题；在由邻居磷虾引起的运动操作算子和觅食运动操作算子上引入混沌记忆权重因子q，增强了二元磷虾群算法的探索和开发，进一步提高了算法的性能。

为了验证本发明提出的IG-MBKH算法的有效性，采用10-折交叉验证，从以下方面测试该算法的性能。

1.数据集及评价指标

本实验使用的生物数据集如表1所示：

表1：数据集描述

利用10-折交叉验证方法结合KNN分类器来评估特征子集，在10-折交叉验证的过程中数据集中的特征子集被随机的分为十份，轮流的将九份作为训练数据集，剩余的一份作为测试集，进行测试。每次实验都会得出相应的正确率(或差错率)，在本实验当中，所有算法在进行时都会求得十次结果的平均值，作为对算法准确性的估计。

对微阵列数据集按照如图4所示的流程进行特征选择，并对特征选择的结果进行性能测试。

(1)平均特征子集数目(AvgN)

在九种生物数据集下，通过选择的特征子集数目能够判断不同算法在相同数据集下的特征子集选取能力。分析结果如图7所示，从分析结果看，IG-MBKH 算法选择的特征比IPSO-IG，IG-GA，BCROSAT和ISFLA少的多。选择更少的特征意味着消除了冗余的特征并且减少搜索空间。

(2)平均精确度(Acc％)

平均精确度也是一个重要指标，如表2所示，可以看出在九个数据集上与 BKH和MBKH算法相比，IG-MBKH算法实现了最佳平均精确度。

(3)标准差(std)

为了验证算法的鲁棒性，本实验通过运行10次求得相应指标平均精确度和选择平均特征数目对应的标准差。标准差是衡量一组数变化的幅度，很明显标准差越小，证明实验结果越稳定。

(4)平均适应度值(Avgf％)

平均适应度值而两个能够很好的平衡特征选择的最大分类精确度和子集最佳长度这两个目标。如图6所示，IG-MBKH算法在九个数据集上的平均适应度值明显优于其他四种算法。

(5)运行时间(Time)

特征选择是为了降低原始数据的维数，提高搜索机制的效率。此处还考虑了高维生物数据集的特征选择的时间消耗。算法的运行时间取决于算法的收敛能力和数据集的规模。表4中给出了IG-MBKH算法在不同分类器上的运行时间。

2.实验结果的比较分析

(1)与该方向的其他算法比较

为了证明IG-MBKH算法在使用较少特征的情况下具有最大精度的优点，本实验将二进制磷虾算法BKH(Binary Krill Herd algorithm)、改进二进制磷虾算法 MBKH(Modified Binary Krill Herd algorithm)和算法IG-MBKH(Hybrid Information Gainand Modified Binary Krill Herd Algorithm)在分类精度和特征子集数目方面进行了比较。并在九个生物数据集Colon Tumor、CNS、ALL-AML、Ovarian Cancer、 Lung Cancer、ALL-AML-3、ALL-AML-4、MLL、SRBCT上进行了实验。实验结果如表2所示，在精确度方面，由表2的实验结果可以观察到，对于9个数据集的平均精确度，BKH算法获得92.46％的分类精确度，而IG-MBKH和MBKH 分别达到98.01％和96.93％的分类准确度，这比BKH算法大得多。此外，对于9 个数据集的平均特征数，BKH使用约104.54个特征，而IG-MBKH仅使用约11.69 个特征，约为BKH的9倍。与BKH算法相比，本发明提出的IG-MBKH算法在精度和特征个数方面都远远优于BKH算法。

为了揭示IG-MBKH、MBKH和BKH的搜索过程，图5描绘了所有数据集的精度的迭代曲线。在每个图中，横坐标表示迭代次数，纵坐标表示每个算法的分类精度。从图5可以看出，BKH算法趋于过早收敛并陷入局部最优。所提出的IG-MBKH算法在迭代过程中进行了更深层次的搜索，具有更强的搜索能力，可以获得更好的分类性能。总的来说，表2和图5所示的实验结果表明，与BKH 算法相比，IG-MBKH算法具有更强的搜索最优解的能力。由于基于信息增益(IG) 特征排序的初始种群策略，提出的IG-MBKH算法可以基于更好的初始种群进行搜索，从而获得比MBKH算法更高的分类精度和更好的收敛能力。

表2：IG-MBKH、MBKH和BKH的实验结果

(2)与其他四个最新算法的比较

为了进一步测试改进策略的影响，将本发明算法IG-MBKH与改进粒子群 IPSO结合信息增益算法(IPSO-IG)、基因算法GA结合信息增益(IG-GA)、二进制珊瑚礁算法BinaryCoral Reefs Optimization algorithm(BCROSAT)和改进的蛙跳算法ISFLA(ImprovedShuffled Frog LeAzing Algorithm)四种最新优化算法进行比较。对于每个实验数据集，每个算法的平均精度Acc(％)和特征子集平均数AvgN及其标准差如表3所示。以粗体突出显示的实验结果表明此表中的最佳值。由表4可以看出，与其他对比算法相比，IG-MBKH算法的实验结果在所有数据集上都能达到最高的平均精确度和最少的特征。除了具有较高的平均精度外，鲁棒性也是评价算法性能的一个重要因素。在几乎所有的数据集中，IG-MBKH 算法的标准差都很小。较小的标准差(std)意味着算法性能更加稳定。除Colon Tumor和CNS数据集外，IG-MBKH算法的平均准确度与其他算法相比具有最小的标准差，这进一步验证了IG-MBKH算法的良好鲁棒性。

表3：IG-MBKH算法与四个最新算法的比较

(3)分析分类器对IG-MBKH算法的影响

基于包装器的特征选择方法利用分类器(一种特殊的机器学习算法)来评估所选特征子集的准确性。基于包装器的特征选择方法在疾病诊断方面取得了较好的分类效果。在基于包装器的特征选择方法中，分类器通常被视为特征选择算法中的一个组件。不同的分类器适用于不同的搜索算法和不同的数据集。实验评估了K 近邻分类器(KNN)、支持向量机(SVM)和贝叶斯(NB)三种分类器对算法的影响，结果如表4所示。为了避免偏差，所有结果都是独立执行五次的平均值。从表4可以看出，不同分类器所达到的分类精度是相差不多。具体来说，在几乎所有的数据集上，KNN分类器在精确度和时间开销方面都优于其他两个分类器。对于所有数据集用KNN分类器得到的结果与用SVM分类器得到的结果非常接近。相比之下，NB分类器的分类性能不如KNN和SVM分类器。实验结果表明，基于KNN的IG-MBKH算法对特征选择具有较好的鲁棒性。

表4：比较三种分类器对IG-MBKH算法实验结果的影响

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤1具体为：

3.根据权利要求2所述的方法，其特征在于，步骤1.1具体为：

按照公式(1)计算特征A_z的熵值H(C)：

按照公式(2)计算特征A_z的条件熵H(C|A_z)：

按照公式(3)计算特征A_z的信息增益值IG(A_z)：

IG(A_z)＝H(C)-H(C|A_z) (3)

4.根据权利要求1所述的方法，其特征在于，所述设定的适应度函数具体为：

其中，

5.根据权利要求1所述的方法，其特征在于，步骤3中，采用改进的二元磷虾群算法更新种群，具体包括：

按照式(5)更新每个磷虾个体的位置：

X_i(t+1)＝X_i(t)+q*N_i(t)+q*F_i(t)+D_i(t) (5)

其中，X_i(t+1)和X_i(t)分别表示第t+1次和第t次迭代时第i个磷虾个体的位置，N_i(t)表示第i个磷虾个体的由邻居磷虾引起的运动操作算子，F_i(t)表示第i个磷虾个体的觅食运动操作算子，D_i(t)表示第i个磷虾个体的随机扩散运动操作算子，q表示混沌记忆权值因子。

6.根据权利要求5所述的方法，其特征在于，按照式(6)更新混沌记忆权值因子q：

q(t+1)＝4.0×q(t)×(1-q(t)) (6)

7.根据权利要求5所述的方法，其特征在于，步骤3中，还包括：重塑第i个磷虾个体的位置，具体为：

按照式(7)更新自适应传递因子p：

8.根据权利要求5所述的方法，其特征在于，步骤3中，还包括：计算邻居磷虾引起的运动操作算子，具体为：

其中，d_s,i表示第i个磷虾个体的感应距离，||X_i-X_j||表示第i个磷虾个体与第j个磷虾个体之间的欧式距离；

N_i(t)＝N^max×(α_i ^local+α_i ^target)+ω_n×N_i(t-1) (11)

其中，N^max是诱导速度，ω_n是[0，1]范围内的随机数，α_i ^local表示局部搜索，α_i ^target表示全局搜索，f^best和f^worst表示到目前为止磷虾个体的最佳适应度值和最差适应度值，f_i表示第i个磷虾个体的适应度值，f_j是其第j个邻居磷虾的适应度值j＝1,2,...,NN，NN是邻居磷虾的总数，ε为用于避免奇异性的正数。

9.根据权利要求5所述的方法，其特征在于，步骤3中，还包括：计算觅食运动操作算子，具体为：

根据磷虾个体的适应度值按照式(14)计算食物中心X_food：

根据式(15)至(17)计算得到觅食运动操作算子F_i(t)：

F_i(t)＝V_f×(β_i ^food+β_i ^best)+ω_f×F_i(t-1) (15)

10.根据权利要求5所述的方法，其特征在于，步骤3中，还包括：根据式(18)计算随机扩散运动操作算子：