CN110796198A

CN110796198A - 基于混合蚁群优化算法的高维特征筛选方法

Info

Publication number: CN110796198A
Application number: CN201911041208.7A
Authority: CN
Inventors: 马文萍; 周晓波; 朱浩; 武越; 李龙伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-14

Abstract

本发明公开了一种基于混合蚁群优化算法的高维特征筛选方法，主要解决现有技术筛选出的特征子集性能不佳及筛选过程耗时长的问题，其方案是：对输入的高维数据预处理，并计算预处理后数据的相关性与对称不确定性；初始化蚁群算法，通过各蚂蚁构建特征子集；计算各特征子集的适应度并对其进行排序，选出当代最优特征子集及其适应度；对各代最优特征子集及其适应度进行迭代更新；比较各代最优特征子集的适应度，将适应度最高的特征子集作为最终筛选后的特征。本发明加速了最优特征子集的搜索，筛选出的特征子集具有较好的分类性能，且减少了筛选的整体运行时间，可用于癌症基因分析及高光谱图像分类中的通道选择。

Description

基于混合蚁群优化算法的高维特征筛选方法

技术领域

本发明属于数据处理技术领域，具体涉及一种特征筛选方法，可用于癌症基因分析及高光谱图像分类中的通道选择。

背景技术

模式识别是人工智能的基本技术，旨在将对象分类为多个类或类别。最近，随着数据采集的便利性和大量数据的积累，模式识别中的主要挑战即维数的诅咒,显得尤为突出。如果不进行特征的筛选，直接进行数据的利用如分类，冗余的特征会造成学习与测试时间的增加，而非相关特征更会造成分类器性能的下降。尤其在高维数据集中，这些缺点会更加明显。因此，特征筛选在数据预处理中是必要的。特征筛选技术通过消除多个无关和冗余的特征或选择原始数据集中最具预测信息的相关特征来得到最优子集，从而降低了数据集的维数，减少了计算与存储成本，加速了后续模型的学习与测试，也能提高分类器的性能。但是，寻找最优子集需要对所有的可能的特征组合进行彻底的搜索，因此其复杂度为2^n，其中n为特征数。这种计算复杂度是不切实的，因此，寻找最优特征子集是一个NP难问题。

目前，已有多种搜索方法应用于候选特征子集的选择，具体包括完全搜索，随机搜索和启发式搜索。完全搜索无法应用于高维特征筛选，因为较大的搜索空间会导致运行时间的不切实际。特征筛选本质上是组合优化问题，因此可以使用非全局最优目标随机搜索方法来执行。随机搜索结合模拟退火算法，禁忌搜索算法等来搜索有限的空间。而搜索空间的大小取决于各种条件，如迭代次数。显然，随机搜索的时间复杂度远小于完整搜索的时间复杂度。启发式搜索方法通过在每次迭代中添加或删除特征来实现特征筛选。例如，顺序前向选择和顺序后向选择分别逐渐添加和删除特征，直到没有进一步的改进为止。尽管这些传统的启发式搜索方法对高维数据集有效，但运行成本仍然很高，其搜索也趋向于局部最优。而具有全局搜索能力的基于群智能启发式搜索方法可以更好地缓解此类问题。

目前，流行的群智能算法有遗传算法、粒子群算法、蚁群算法等，它们在特征筛选中都有实际应用。遗传算法具有二进制的自然表示，其中1代表选择的特征，0代表未选择的特征。粒子群算法模拟了鸟群的觅食行为，目前大多采用阈值的方法来决定是否选择某特征。

而与其他群智能算法相比，蚁群算法更加灵活且为离散表示，因此更适合于特征筛选。具体来说，蚂蚁的个体表示可以与所选特征子集的大小相同。而蚂蚁的觅食过程可以看作是构建特征子集的随机过程。信息素在路径中的某个位置堆积得越多，所对应的某一特征相对于其他特征就越重要。蚁群算法不仅具有出色的全局和局部搜索能力，而且其多种版本都可应用于特征筛选。更重要的是，蚁群算法可以完美地结合过滤器方法来加快最佳特征子集的搜索。但现有基于蚁群算法的特征筛选方法大都应用于低维特征筛选，如果直接应用于高维特征筛选，会造成算法运行时间的增加，得到的特征子集性能也低于传统特征筛选方法。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于混合蚁群算法的高维特征筛选方法，以减少耗时，在较少的运行资源下，获取性能较好的特征子集，实现对高维特征的筛选。

为实现上述目的，本发明技术方案包括如下：

(1)对公共基因表达数据集进行预处理，即将数据集的每一维归一化到[0，1]之间；

(2)计算数据集的特征间相关性与特征的对称不确定性这两种特征的固有属性；

(3)初始化蚁群算法：

(3a)设置蚁群算法的种群数量为100，终止条件为达到最大迭代次数50；

(3b)定义蚁群算法中的信息素初始值为经过softmax归一化处理后的各个特征的对称不确定性，以增加特征间的区分度，加快最优特征子集的搜索；

(3c)计算蚁群算法中的启发式信息，其公式如下：

η(F_i)表示第i个特征的启发式信息，F^S表示已选择的特征集合，|F^S|表示已选择的特征数目，sim_soft(F_i,F_j)表示经过softmax处理的第i个特征与第j个特征之间的相关性；

(4)每只蚂蚁根据信息素与启发式信息逐步添加单个特征，直至添加的特征数量达到定义的筛选后特征数量，得到构建的特征子集；

(5)计算每只蚂蚁构建的特征子集的适应度，其公式如下：

fitness＝balanced_accuracy+balanced_dist

其中，fitness表示适应度，balanced_accuracy表示均衡准确率，balanced_dist表示均衡距离度量，c表示类别总数，TPR_i表示使用K近邻分类器对数据进行留一法测试得到的第i个类别的真阳性率，I^a表示第a个类别包含的样本集合，I_i表示属于第a个类别中的第i个样本，|I^a|为第a个类别包含的样本数量，

表示I_i样本的距离度量，其公式如下：

其中，I_k表示不属于第a个类别的第k个样本，Dis表示曼哈顿距离与所选特征数的比值；

(6)对所有蚂蚁的特征子集适应度进行排序，选出当代适应度最优的特征子集及其适应度并保存，并利用该特征子集，采用最大最小蚂蚁系统的信息素更新方式对当前的信息素进行更新，返回(5)进行下一代的特征子集构建，直至迭代次数达到最大迭代次数后停止；

(7)将保存的各代最优特征子集进行适应度比较，输出适应度最高的特征子集，该子集包含的特征即为特征筛选后剩余的有效特征。

本发明与现有技术相比具有以下优点：

1.由于本发明采用了基于蚁群算法的特征筛选方法，所以相比传统特征筛选方法，不易陷入局部最优，得到的特征子集具有更好的分类性能；

2.由于本发明采用了新的启发式信息构建和使用分类器的适应度评价的混合方法，加速了最优特征子集的搜索，并进一步提高了所选的特征子集的分类性能。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步的详细描述。

参照图1，本发明的具体实现步骤如下：

步骤1，数据预处理。

从公开网站下载公共基因表达数据集。然后对该数据集进行预处理，由于数据集中的这些数据各个特征取值范围不同，为统一各个特征的权重，此处进行归一化处理。目前，归一化采用最大最小min-max或高斯z-score，由于高斯z-score方法破坏了原始数据的分布，不利于高维特征的筛选，所以本实例采用最大最小转换函数对原始数据的每一维进行线性归一化，使其结果值映射到0到1之间，该最大最小转换函数如下：

其中F_i ^k表示第k个样本的第i维特征的数值，F_i ^min表示所有样本的第i维特征中的最小值，F_i ^max表示所有样本的第i维特征中的最大值。

步骤2，计算数据的特征间相关性与对称不确定性这两种特征的固有属性。

特征间相关性与对称不确定性可区分冗余特征与不相关特征，是特征筛选的重要组成部分，其通过如下现有公式计算：

其中sim(F_i,F_j)表示第i个特征与第j个特征的相关性，p是样本总数，V_i ^k表示第k个样本的第i个特征的数值，表示第k个样本的第j个特征的数值；

SU(F_i)表示第i个特征的对称不确定性，H(F_i)是第i个特征的信息熵，H(C)是样本标签的信息熵，H(F_i|C)表示第i个特征在样本标签下的条件熵。

步骤3，初始化蚁群算法。

(3b)设置蚁群算法中的信息素初始值：

传统方法是将信息素的初始值设置为一常数，本实例设置蚁群算法中的信息素初始值为经过归一化指数函数softmax处理后的各个特征的对称不确定性SU，以增加各特征间的信息素初始值的区分度；

(3c)计算蚁群算法中的启发式信息：

传统方法启发式信息的计算没有综合考虑特征间的相关性与冗余性，本实例计算蚁群算法中的启发式信息，其公式如下：

η(F_i)表示第i个特征的启发式信息，F^S表示已选择的特征集合，|F^S|表示已选择的特征数目，sim_soft(F_i,F_j)表示经过归一化指数函数softmax处理的第i个特征与第j个特征之间的相关性sim，待选特征F_i与已选择的特征子集F^S中的特征平均相关性越大，则其启发值越小。

步骤4，蚂蚁构建特征子集。

每只蚂蚁根据信息素与启发式信息采用贪婪或随机方法逐步添加单个特征，直至添加的特征数量达到定义的筛选后特征数量，得到构建的特征子集，其实现如下：

添加单个特征是：先定义一个贪婪因子q₀并设置为0.7，再产生一个0到1的随机数q，并将q与q₀进行比较:

若q≤q₀，则使用如下贪婪公式添加特征：

其中，F_k表示待添加特征，τ_u表示第u个特征的信息素，η(F_u)表示第u个特征的启发式信息，J^a表示所有未选择的特征集合，α表示信息素的权重并设置为5，β表示启发式信息的权重并设置为1；

若q＞q₀，则使用如下随机公式添加特征：

其中τ_i表示第i个特征的信息素，η(F_i)表示第i个特征的启发式信息，P(F_i)表示第i个特征被选择的概率；由于该随机公式计算的是各个未选择特征的概率，所以需使用轮盘赌进一步确定待添加的特征。

使用上述贪婪与随机这两种构建方式有利于保持全局与局部搜索的平衡，而传统方法大多只采用随机构建方式，在高维特征筛选中不利于特征子集的局部搜索。

步骤5，计算每只蚂蚁构建的特征子集的适应度。

在传统算法中的直接采用分类准确率作为蚂蚁适应度，并没有考虑高维数据集中类别不平衡与构建的特征子集分类准确相同而无法区分的问题，本实例中的适应度是由特征子集的均衡准确率balanced_accuracy和均衡距离度量balanced_dist构成，其计算如下：

5.1)计算均衡准确率：

其中，c表示类别总数，TPR_i表示使用K近邻分类器对数据进行留一法测试得到的第i个类别的真阳性率，均衡准确率能应对高维数据集中类别不平衡的问题；

5.2)计算均衡距离度量：

I^a表示第a个类别包含的样本集合，I_i表示属于第a个类别中的第i个样本，|I^a|为第a个类别包含的样本数量，

表示I_i样本的距离度量，其公式如下：

其中，I_k表示不属于第a个类别的第k个样本，Dis表示曼哈顿距离与所选特征数的比值，该距离度量能聚集同类样本，并分散不同类别样本，有利于进一步区分各个蚂蚁构建的特征子集的优劣；

5.3)根据5.1)和5.2的结果计算特征子集的适应度fitness：

fitness＝balanced_accuracy+balanced_dist。

步骤6，适应度排序，选出当代最优并保存，更新信息素。

6.1)对所有蚂蚁的特征子集适应度进行排序，选出当代适应度最优的特征子集及其适应度并保存，并利用该特征子集对当前的信息素进行更新：

信息素更新方式有精英蚂蚁、最大最小蚂蚁两种方式，其中在精英蚂蚁中，所有蚂蚁都将参与信息素的更新，这会导致冗余特征上的信息素增加，而在最大最小蚂蚁中，只有每代的最优蚂蚁参与信息素的更新，可以增加蚂蚁的局部搜索能力。

本实例使用了最大最小蚂蚁的信息素更新方式，其更新公式如下：

其中，τ_i(old)表示当前第i个特征的信息素，τ_i(new)表示更新后第i个特征的信息素，ρ表示蒸发因子并设置为0.15，e表示每次信息素增量的权重并设置为0.125，以防止信息素增加过大而导致算法过早收敛，

表示第i个特征的信息素增量，当第i个特征属于当代最优特征子集时，则

为该最优特征子集的适应度值，否则，

为零；

6.2)返回步骤4进行下一代的特征子集构建，直至迭代次数达到最大迭代次数后停止，从而得到各代的最优特征子集以及它们的适应度。

步骤7，比较各代最优特征子集的适应度，输出适应度最高的特征子集，该子集包含的特征即为特征筛选后的有效特征。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

硬件平台为：处理器为Intel Core-i5-6500，主频为3.20GHZ,内存为8GB。

软件平台为：Python。

仿真数据：SRBCT、Leukemia1、DLBCL、9Tumor、Brain1、Brain2、Prostate、Leukemia2、11Tumor、Lung十个高维公共基因表达数据集。

仿真方法：本发明与现有方法RRFSACO，该现有方法出自S.Tabakhi,P.Moradi,Relevance–redundancy feature selection based on ant colony optimization,Pattern recognition48(9)(2015)2798–2811。

2.仿真内容与结果：

用本发明方法与现有方法RRFSACO分别对所述十个高维公共基因表达数据集进行仿真实验，即先将每个数据集划分为十折，然后将九折数据输入本发明得到筛选后的特征作为训练集，剩余一折数据作为测试集，再通过KNN分类器测试分类性能，统计准确率与每次筛选过程的平均运行时间，结果如表1。

表1本发明与现有技术的性能对比

从表1中可以看出，本发明方法相比于现有技术，筛选出的特征子集在分类精度上更高，且算法运行的时间也更少，这主要是因为混合方法加速了最优特征子集的搜索并提高了算法搜索到的特征子集的性能。