CN113113137B

CN113113137B - 基于最大相关最小冗余和改进花授粉算法的特征选择方法

Info

Publication number: CN113113137B
Application number: CN202110415025.8A
Authority: CN
Inventors: 罗慧敏; 李梦园; 阎朝坤; 王建林; 代雪兵
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-04-17
Filing date: 2021-04-17
Publication date: 2022-10-11
Anticipated expiration: 2041-04-17
Also published as: CN113113137A

Abstract

本发明提供一种基于最大相关最小冗余和改进花授粉算法的特征选择方法。该方法包括：步骤1、采用基于最大相关最小冗余算法的特征排序策略和反向学习对种群中的N个个体进行随机初始化；步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值，将种群中适应度值最大的个体作为全局最优解；步骤3、采用改进的花授粉算法更新种群，并更新种群中每个个体的适应度值，更新种群中的全局最优解；步骤4、以步骤3作为一次迭代，重复进行步骤3，直至当前迭代次数达到设定的迭代次数。本发明可以获得较高的准确性和较低的时间消耗。

Description

基于最大相关最小冗余和改进花授粉算法的特征选择方法

技术领域

本发明涉及生物信息学技术领域，尤其涉及一种基于最大相关最小冗余和改进花授粉算法的特征选择方法。

背景技术

面对大量的生物医学数据，领域专家不可能直接、快速地处理这些数据进行疾病诊断或治疗。因此，如何从这些数据中高效地提取有用的信息已成为一个亟待解决的问题。虽然，数据挖掘和机器学习方面的一些进展为此提供了一些解决方案，然而，这些生物医学数据中包含的不相关或噪声特征会降低机器学习任务的性能。究其根本原因，在于生物医学数据的高维性和小样本性，从而导致所谓的“维数诅咒”。目前，最常见的解决方案是通过特征选择技术来减少特征的数量。

特征选择作为一种有效的特征降维方法，近年来在生物医学领域受到越来越多的关注。一般来说，现有的特征选择方法可分为以下几种：filter、wrapper和embedded[K.Kira and L.A.Rendell.The feature selection problem:Traditional methods anda new algorithm[C]//Proc.Tenth National Conf.Artificial Intelligence,SanJose,CA,USA,1992,pp.129–134.；Kang C,Huo Y,Xin L,et al.Feature selection andtumor classification for microarray data using relaxed Lasso and generalizedmulti-class support vector machine[J].Journal of theoretical biology,2019,463:77-91.]。该方法根据数学评价函数选择特征子集，在计算时间上具有较高的效率。信息增益、TRank算法、ReliefF、Fisher、mRMR和基于相关性的特征选择(CFS)算法过滤方法的典型代表，已成功应用于许多实际数据集。基于wrapper的方法可以获得分类精度更高、计算量更大的特征子集。基于filter的方法在计算时间方面是有效的，但可能不能获得具有高分类精度的特征子集。然而，大多数filter方法的缺点是忽略了特征之间的依赖关系，无法获得具有较高分类精度的特征子集。与其他filter方法不同的是，MRMR算法在单独评价特征的同时还考虑了相互作用特征的影响，是一种高效的特征评价算法。基于wrapper的方法则相反，通常通过在候选特征空间中进行搜索，将准确率作为评价特征子集合适性的质量标准。虽然实现了更好的分类精度，但在特征选择过程中，由于重复调用分类器，往往需要更多的计算代价。embedded方法的特征选择过程是在训练过程中进行的，通常针对某些给定的学习机器。此外，学习步骤也离不开特征选择部分。最小绝对收缩选择算子(leastabsoluteshrinkageselectionoperator,LASSO)是嵌入式方法的代表，是一种经典的正则化方法，它利用惩罚项将某些变量的系数缩小到零，从而实现特征选择。到目前为止，LASSO或其变体已被应用于各种生物医学数据的分类，如大颗粒淋巴细胞(LGL)白血病、阿尔茨海默病和基因组数据。

综上所述，从原始的输入数据中选择出对分类最有价值的由相关特征组成的最优特征子集，并且尽可能的提高分类精确度，就是特征选择算法需要实现的目标，然而，目前许多智能算法都无法同时涵盖这两个目标。

发明内容

针对传统特征选择方法中存在的准确性较低或者时间消耗较长的问题，本发明提供一种基于最大相关最小冗余和改进花授粉算法的特征选择方法，可以获得较高的准确性和较低的时间消耗。

本发明提供的基于最大相关最小冗余和改进花授粉算法的特征选择方法，包括：

步骤1、采用基于最大相关最小冗余算法的特征排序策略和反向学习对种群中的N个个体进行随机初始化；

步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值，将种群中适应度值最大的个体作为全局最优解；

步骤3、采用改进的花授粉算法更新种群，并更新种群中每个个体的适应度值，更新种群中的全局最优解；

步骤4、以步骤3作为一次迭代，重复进行步骤3，直至当前迭代次数达到设定的迭代次数。

进一步地，所述步骤1具体包括：

步骤1.1、根据设定的最大相关最小冗余度公式计算数据集中每个属性的最大相关最小冗余值；

步骤1.2、按照最大相关最小冗余值从大到小的顺序对每个属性进行排序；

步骤1.3、选择最大相关最小冗余值较大的前TopN个属性对种群中的N/2个群体进行随机初始化形成初始解；通过反向学习方法对种群中的其余N/2个群体进行随机初始化形成初始解；针对每个个体将被选中的特征设置为1，未被选中的特征设置为0。

进一步地，所述设定的最大相关最小冗余度公式具体为公式(1)：

其中，S表示特征子集，c表示类，g_i,g_j表示集合S中的任意两个特征，I(g_i；c)表示特征g_i与类c之间的互信息值，I(g_i；g_j)表示特征g_i与特征g_j之间的互信息值。

进一步地，所述设定的适应度函数具体为：

其中，

MCC表示样本分类的马修斯相关系数，TP表示正确诊断为正样本的样本数，TF表示正确诊断为负样本的样本数，FP表示错误诊断为正样本的样本数，FN表示错误诊断为负样本的样本数，N_f表示待计算适应度值的样本对应被选中特征的数目，P是待计算适应度值的样本对应所有特征的数目，α是马修斯相关系数的权重，(1-α)是特征选择的权重。

进一步地，步骤3中，所述采用改进的花授粉算法更新种群，具体包括：

由异花授粉、自花授粉和禁忌搜索三个操作算子更新每个花朵个体的位置；

使用Sigmoid函数作为传递函数，将花朵个体的位置映射到0或1；其中，Sigmoid函数为公式(13)和公式(14)：

其中，r是介于0和1之间的均匀随机数，

表示在第t次迭代中第i个花朵中第j个特征是否被选中，当

表示被选中，否则

进一步地，所述由异花授粉操作算子更新每个花朵个体的位置，具体包括：

按照公式(6)通过莱维分布控制步长大小，使花粉从一朵花随机改变到另一朵花：

其中，

和

分别表示第t+1次和第t次迭代时个体i的位置；f表示当前全局最优解的适应度值；γ表示用于控制步长大小的参数，L(λ)表示莱维分布路径。

进一步地，步骤3中，所述由自花授粉操作算子更新每个花朵个体的位置，具体包括：

根据适应度值从大到小对所有个体进行排序，选择前n个个体，然后从前n个个体中选取两个个体按照公式(11)和公式(12)进行自适应高斯变异：

其中，

和

表示同一品种植物上来自不同花的花粉，A表示自适应转移因子，C₁和C₂表示变化因子，t表示当前迭代次数，T代表设定的迭代次数。

进一步地，所述由禁忌搜索操作算子更新每个花朵个体的位置，具体包括：

采用精英花授粉算法更新当前种群中最优解，然后搜索最优解附近的邻域，采用适应度值较好的解进行更新。

本发明的有益效果：

本发明基于最大相关最小冗余算法特征排序的初始种群策略，结合反向学习策略以保留一些判别基因。因此，它使得搜索算法基于一个更好的初始化种群进行搜索，并获得更高的分类精度。改进的二进制花授粉算法在迭代搜索过程中，采用Sigmoid函数作为传递函数，对花朵位置的变化概率进行二值化。本发明采用精英策略、自适应高斯变异策略和禁忌搜索(TS)来提高花授粉算法的搜索能力，进一步利用MRMR和反向学习策略，提供信息丰富的候选子集，有效地提高了FPA的收敛速度。此外，通过将搜索的最佳特征子集带入到分类算法结合5-折交叉进行分类验证，在六个公开生物医学数据集上测试验证，本发明可以有效地简化基因表达水平的数量，并且与其他特征选择方法相比，本发明可以获得高分类准确度。

附图说明

图1为本发明实施例提供的基于最大相关最小冗余和改进花授粉算法的特征选择方法的流程示意图；

图2为现有技术提供的原始花授粉算法中花朵授粉过程示意图；

图3为本发明实施例提供的基于最大相关最小冗余和改进花授粉算法的特征选择方法的结构框架图；

图4为本发明实施例提供的基于反向学习方法的花朵种群初始化示意图；

图5为本发明实施例提供的基于最大相关最小冗余算法的花朵种群初始化示意图；

图6为本发明实施例提供的自花授粉过程中应用到的自适应高斯变异操作的流程示意图；

图7为本发明实施例提供的差异基因的GO富集分析结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下描述中，花授粉算法中的一个花朵即种群中的一个个体。样本和特征则是数据集中的相关信息，样本表示的是数据集中的行，即一位患者的信息，特征表示的是数据集中的列，即基因名称。

如图1所示，本发明实施例提供一种基于最大相关最小冗余和改进花授粉算法的特征选择方法(简称MRMR-EFPATS方法)，包括：

S101、采用基于最大相关最小冗余算法的特征排序策略和反向学习对种群中的N个个体进行随机初始化；

具体地，本步骤包括以下子步骤：

S1011、根据设定的最大相关最小冗余度公式计算数据集中每个属性的最大相关最小冗余值；

作为一种可实施方式，所述设定的最大相关最小冗余度公式具体为公式(1)：

具体地，本发明实施例中，将特征子集S和类c之间的相关性定义为每个特征g_i与类c之间的所有互信息平均值，如公式(2)所示：

将集合S中所有特征的冗余度定义为特征g_i与g_j之间所有互信息的平均值，如公式(3)所示：

其中，公式(2)和(3)中的互信息I按照公式(4)计算得到：

其中，p(x)表示随机变量x的概率密度，p(y)表示随机变量y的概率密度，p(x,y)表示随机变量x与y之间的概率密度。

根据公式(2)和(3)计算相关性和冗余性，然后根据相关性和冗余性来定义最大相关最小冗余度，使所选特征与分类变量联合分布之间的互信息最大化，从而可得到公式(1)。

S1012、按照最大相关最小冗余值从大到小的顺序对每个属性进行排序；

S1013、选择最大相关最小冗余值较大的前TopN个属性对种群中的N/2个群体进行随机初始化形成初始解；通过反向学习方法对种群中的其余N/2个群体进行随机初始化形成初始解；针对每个个体将被选中的特征设置为1，未被选中的特征设置为0。如图4和图5所示。

S102、采用设定的适应度函数计算所述种群中每个个体的适应度值，将种群中适应度值最大的个体作为全局最优解；

作为一种可实施方式，所述设定的适应度函数具体为：

其中，

MCC表示样本分类的马修斯相关系数，TP表示正确诊断为正样本的样本数，TF表示正确诊断为负样本的样本数，FP表示错误诊断为正样本的样本数，FN表示错误诊断为负样本的样本数，N_f表示待计算适应度值的样本对应被选中特征的数目，P是待计算适应度值的样本对应所有特征的数目，α是马修斯相关系数的权重，(1-α)是特征选择的权重，α＝0.99。

用KNN分类器计算每个个体的马修斯相关系数，从而根据公式(5)得到其适应度值，种群中适应度值最大的个体所表示的解，即为全局最优解。

S103、采用改进的花授粉算法更新种群，并更新种群中每个个体的适应度值，更新种群中的全局最优解；

具体地，本步骤包括以下子步骤：

S1031：由异花授粉、自花授粉和禁忌搜索三个操作算子更新每个花朵个体的位置；

作为一种可实施方式，所述由异花授粉操作算子更新每个花朵个体的位置，具体包括：

其中，

和

本发明实施例中，L(λ)的公式如公式(7)至公式(10)。

s＝U/|V|^1/λ (8)

其中，s表示使用U和V变换的两个高斯分布得到的步长；σ_u和σ_v是两个高斯分布的方差，步长s可以将花粉从一朵花随机改变到另一朵花；Γ(λ)表示标准伽马函数。

作为一种可实施方式，所述由自花授粉操作算子更新每个花朵个体的位置，具体包括：

其中，

和

表示同一品种植物上来自不同花的花粉，A表示自适应转移因子，C₁和C₂表示变化因子，t表示当前迭代次数，T代表设定的迭代次数。A主要用来增强线性变换到离散解的过度不确定性，在最大迭代次数的前半部分，系数A专门用于探索，最大迭代次数的后半部分专门用于利用一个可用搜索空间。如图6所示。

作为一种可实施方式，所述由禁忌搜索操作算子更新每个花朵个体的位置，具体包括：

采用精英花授粉算法更新当前种群中最优解，然后搜索最优解附近的邻域，采用适应度值较好的解进行更新，如此有利于跳出局部最优。

S1032：使用Sigmoid函数作为传递函数，将花朵个体的位置映射到0或1；其中，Sigmoid函数为公式(13)和公式(14)：

其中，r是介于0和1之间的均匀随机数，

表示在第t次迭代中第i个花朵中第j个特征是否被选中，当

表示被选中，否则

具体地，由于经过改进的花授粉算法的异花授粉、自花授粉两个操作算子后，花朵个体的位置变成了一个离散值而不再是0或1，因此需要在改进的花授粉算法中使用Sigmoid函数作为传递函数，将花朵个体的位置映射到0或1。

S104、以步骤S103作为一次迭代，重复进行步骤S103，直至当前迭代次数达到设定的迭代次数。

从上述实施例可知，本发明搜索过程基于改进的二进制花授粉算法进行搜索，基于最大相关最小冗余算法特征排序的初始种群策略，以保留一些判别基因。因此，它使得搜索算法基于一个更好的初始化种群进行搜索，并获得更高的分类精度。改进的二进制花授粉算法在迭代搜索过程中，采用Sigmoid函数作为传递函数，对花朵位置的变化概率进行二值化；该方法采用精英策略、自适应高斯变异策略和禁忌搜索(TS)来提高花授粉算法的搜索能力。

为了验证本方法的有效性，采用5-折交叉验证，从以下方面测试本发明提供的基于最大相关最小冗余算法和改进的二进制花授粉算法的有效混合特征选择方法性能。

1.数据集及评价指标

本实验使用的生物数据集如表1所示：

表1：数据集描述

利用5-折交叉验证方法结合KNN分类器来评估特征子集，在5-折交叉验证的过程中数据集中的特征子集被随机的分为五份，轮流的将四份作为训练数据集，剩余的一份作为测试集，进行测试。每次实验都会得出相应的正确率(或差错率)，在本实验当中，所有算法在进行时都会求得五次结果的平均值，作为对算法准确性的估计。

如图3所示，对生物学数据集按照如图3所示的流程进行特征选择，并对特征选择的结果进行性能测试。

(1)平均特征子集数目(AvgN)

在九种生物数据集下，通过选择的特征子集数目能够判断不同算法在相同数据集下的特征子集选取能力。分析结果如表2所示，从分析结果看，在大多数数据集上，MRMR-EFPATS算法选择的属性比CFS-BPSO，IG-GA，MOBBA-LS，BSSA和ABC少的多。选择更少的特征意味着消除了冗余的特征并且减少搜索空间，

(2)平均精确度(Accuracy)

平均精确度也是一个重要指标，如表2所示，可以看出在六个数据集上与IG-GA，MOBBA-LS，BSSA和ABC算法相比，MRMR-EFPATS算法实现了最佳平均精确度。

(3)平均灵敏性(Sensitivity)

灵敏性，表示了所有正样本中被分对的比例，衡量了分类器对正样本的识别能力。从表2中我们可以看出几乎所有的数据集上，MRMR-EFPATS算法都达到了最好的效果。

(4)平均特异性(Specificity)

与灵敏性相对应，特异性则表示所有负样本识别为负样本的情况占所有负样本的比例，衡量了分类器对负样本的识别能力。在该评价指标上，MRMR-EFPATS算法的优势并没有灵敏性那么显著，但依旧在四个数据集上展示出了较好的结果。

(5)平均精准率(Precision)

精准率是精确度的其中一部分，它表示的是正确分类为正样本的样本数占所有分类为正样本的比率，也称为查准率。同特异性评价指标类似，精准率在四个数据集上展示出了MRMR-EFPATS算法的优势。

(6)平均召回率(recall)

这也是一个常用的评价指标，表示覆盖面的度量，与灵敏性相同，是正确判定为正样本在总的正样本所占的比率。除GSE10245数据集以外，MRMR-EFPATS在其他数据集上要优于另外五种算法。

(7)平均G-mean值

这个评价指标可以评估一个学习算法的综合性能，是正样本准确率与负样本准确率的综合指标。

(8)平均马修斯相关系数(MCC)

该评价指标用以测量二分类的分类性能，是一个比较均衡的指标，在两类别的样本含量差别很大时，也可应用其来评价分类性能。所有的评价指标结果均展示在表2当中。

2.实验结果的比较分析

(1)与该方向的其他算法比较

为了证明所提出的混合方法在使用较少属性的情况下具有最大精度的优点，本实验将其与二进制樽海鞘算法BinarySalpSwarmAlgorithm(BSSA)，人工蜂群算法ArtificialBeeColony(ABC)、信息增益和遗传算法的混合算法InformationGainGeneticAlgorithm(IG-GA)、基于相关系数和改进的粒子群算法的混合算法CorrelationFeatureSelectionbasedimproved-BinaryParticleOptimization(CFS-BPSO)和基于局部搜索的二进制蝙蝠算法Muti-ObjectiveBinaryBatAlgorithmwithLocalSearches(MOBBA-LS)在八个评价指标方面进行了比较。并在六个生物数据集ALL-AML、ColonTumor、CNS、OvarianCancer、GSE4115和GSE10245上进行了实验。实验结果如表2所示，从表3可以看出，在精确度、精准率、G-mean和马修斯相关系数上，MRMR-EFPATS算法在4个数据集上表现最好，在灵敏性、特异性和召回率上，MRMR-EFPATS算法在5个数据集上表现最好。对于ColonTumor数据集，其精确度仅比CFS-BPSO算法高1.67％，但从G-mean和MCC的角度来看，其优势更为明显，能更好地反映对不平衡数据的性能。同样，在NervousSystem数据集中，我们发现这种情况更加明显，MRMR-EFPATS算法在G-mean和MCC方面分别达到了86.68％和76.21％。对于选择的特征数量，MOBBA-LS算法在所有对比算法中选择的特征数量最少，但其他性能并不占主导地位。MRMR-EFPATS算法在除ALL-AML和GSE10245数据集外的所有数据集上都取得了良好的性能。MRMR-EFPATS算法对ALL-AML数据集的精确度达到了98.57％，与CFS-BPSO算法相近，但CFS-BPSO算法获得了更高的精确度、特异性、精准率、G-mean和马修斯相关系数，而MRMR-EFPATS算法在特征选择数量、灵敏度和召回率方面却低于CFS-BPSO算法。在GSE10245数据集中，只有58个样本，由于数据集的划分，结果不是很稳定，在所有的评价指标中，只有精准率和特异性是比较稳定的，总是等于100％，但是，从表2可以看出，CFS-BPSO算法和MOBBA-LS都比所提出的方法有一些优势。

表2：MRMR-EFPATS与其他五个最新算法的比较

此外，图7为差异基因的GO富集分析结果示意图，通过对基因组的分子功能，生物过程，细胞成分进行分析，可以观察到不同差异基因和哪些基因功能的改变有关。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于最大相关最小冗余和改进花授粉算法的特征选择方法，其特征在于，包括：

步骤1、采用基于最大相关最小冗余算法的特征排序策略和反向学习对种群中的N个个体进行随机初始化；所述步骤1具体包括：

步骤1.1、根据设定的最大相关最小冗余度公式计算数据集中每个属性的最大相关最小冗余值；所述设定的最大相关最小冗余度公式具体为公式(1)：

其中，S表示特征子集，c表示类，g_i,g_j表示集合S中的任意两个特征，I(g_i；c)表示特征g_i与类c之间的互信息值，I(g_i；g_j)表示特征g_i与特征g_j之间的互信息值；

步骤1.3、选择最大相关最小冗余值较大的前TopN个属性对种群中的N/2个群体进行随机初始化形成初始解；通过反向学习方法对种群中的其余N/2个群体进行随机初始化形成初始解；针对每个个体将被选中的特征设置为1，未被选中的特征设置为0；

步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值，将种群中适应度值最大的个体作为全局最优解；所述设定的适应度函数具体为：

其中

MCC表示样本分类的马修斯相关系数，TP表示正确诊断为正样本的样本数，TF表示正确诊断为负样本的样本数，FP表示错误诊断为正样本的样本数，FN表示错误诊断为负样本的样本数，N_f表示待计算适应度值的样本对应被选中特征的数目，P是待计算适应度值的样本对应所有特征的数目，α是马修斯相关系数的权重，(1-α)是特征选择的权重；

2.根据权利要求1所述的方法，其特征在于，步骤3中，所述采用改进的花授粉算法更新种群，具体包括：