CN112116952B

CN112116952B - 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法

Info

Publication number: CN112116952B
Application number: CN202010784689.7A
Authority: CN
Inventors: 陈慧灵; 胡姣; 张乐君; 谷志阳; 蔡振闹; 梁国喜; 赵学华
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2024-02-09
Anticipated expiration: 2040-08-06
Also published as: CN112116952A

Abstract

本发明提供一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法，包括根据从公开网站获取的基因数据集，生成训练集和测试集；利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索，并结合训练集和测试集二者基于KNN分类器在预设灰狼优化算法中所定义的适应度函数，以确定基因数据集的特征子集，并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解，且进一步对所选的全局最优解进行混沌局部搜索，以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集；输出最终获取的最优基因子集。实施本发明，能有效地克服现有技术得到的基因子集对基因数据分类精度低的问题，找到最优基因子集。

Description

基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法

技术领域

本发明涉及基因选择技术领域，尤其涉及一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法及系统。

背景技术

微阵列技术产生的基因表达图谱为临床决策提供了深刻的见解。然而，由于基因表达数据的复杂性和大规模性，且含有不相关和冗余的信息，对识别代表性基因和降低高维性带来了巨大的挑战。

针对在基因表达数据分析方面容易出现计算效率低、拟合过度，并且会导致机器学习技术性能的下降等问题，一种重要的数据预处理技术--基因选择(gene selection，GS)，旨在通过基因维度的减弱，剔除不相关、无用的基因，在错综复杂的基因数据中识别出具有鉴别力的基因，进而加强机器学习技术的有效性，节约计算资源。

一般来说，GS技术可分为四组方法:过滤、封装、嵌入和混合方法。其中，过滤器的目的是构建一个独立于学习算法的评价指标来对特征进行评分，其评价标准与分类器无关；包装依赖于学习模型的性能来评估所选基因子集的最优性，该最优性由优化算法计算；嵌入式方法类似于包装器，也使用GS作为训练学习算法的一个阶段，将GS嵌入到机器学习算法的框架中，在学习过程中同时评估所选择的基因子集；混合方法充分利用了过滤器和包装器的优点，并将二者法结合在一起，消除了常规方法的不稳定性，具有较强的鲁棒性。因此，可以考虑通过混合GS方法来寻找最优基因子集。

目前，基于混合的GS研究方法有很多。例如，基于容错的基因选择方法、基于深度学习和进化计算的特征基因选择方法，这些方法的设计主要是先使用传统的分类器寻找相关基因，然后使用优化算法寻找最优基因子集。虽然这些方法可以在一定程度上接近最优基因子集，但是时间花费较高，最终基因子集中容易包含冗余属性。又如，群智能优化算法的随机特性，使得基于群智能优化算法的封装技术可以在可接受的计算费用内实现近似最优的基因子集，以提高学习机的功效，节约资源。又如，基于封装的GS方法以及大量的变体，包括灰狼优化算法、引力搜索算法、蝙蝠算法、粒子群优化、鲸鱼优化算法和樽海鞘算法等，虽然这些算法参数简单，易于理解且具有较强的全局优化能力，可以在普通数据集的特征选择上有很好表现，但是对于基因数据集，尤其是具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上，算法陷入局部最优，收敛速度慢，并在基因数据的选择上不能很好的平衡分类精度和基因数目这两项指标。

因此，有必要提供一种新的基因选择方法，采用的算法可以在具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上选择出最优基因子集，能有效地克服现有技术得到的基因子集对基因数据分类精度低的问题，从而实现在保持较高基因数据分类精度的同时找到最优基因子集。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法及系统，能有效地克服现有技术得到的基因子集对基因数据分类精度低的问题，实现在保持较高基因数据分类精度的同时找到最优基因子集。

为了解决上述技术问题，本发明实施例提供了一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法，所述方法包括以下步骤：

步骤S1、根据从公开网站获取的基因数据集，生成训练集和测试集；

步骤S2、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索，并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数，以确定基因数据集的特征子集，并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解，且进一步对所选的全局最优解进行混沌局部搜索，以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集；

步骤S3、输出最终获取的最优基因子集。

其中，所述基因数据集生成训练集和测试集的步骤具体包括：

循环10次对所述基因数据集进行分类，且所述基因数据集每次分类均为将所述基因数据集均分成十份，其中一份做测试集，其余九份做训练集，并进一步采用10-折交叉进行验证，得到最终生成的训练集和测试集。

其中，所述步骤S2具体包括：

步骤a1、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索，并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数，以确定基因数据集的特征子集，并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解，具体过程如下：

步骤1-1：参数初始化，具体包括：灰狼种群个数N、最大评估次数MaxFes、解向量的上界UB及下界LB、扩散策略中的最大扩散次数q、交叉验证次数fold、灰狼种群X；其中，个体X_ij＝LB_ij+rand*(UB_ij–LB_ij)；i＝1,2,3,…,N；j＝1,2,3,…,D；D为向量维度；

步骤1-2：使用sigmoid函数将灰狼种群X离散化处理，使灰狼的位置映射为二进制变量0或1；其中，sigmoid函数的表示公式为灰狼的通过sigmoid函数转化后的位置为/>rand为0和1之间的随机值；/>为第i个灰狼个体的第j维通过sigmoid函数转化后的结果；当/>时表示选中该特征，否则表示未选中；

步骤1-3：设置当前评估次数FEs的初始值为0；

步骤1-4：判断当前评估次数FEs是否小于最大评估次数MaxFEs；若是，则进行步骤1-5；若否，则输出最优基因子集；

步骤1-5：基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数，计算种群中各个灰狼个体的适应度值，并将当前适应度值最小的3个灰狼个体分别命名为alpha、beta和delta，且进一步记录下它们的位置和适应度值；

其中，所述适应度函数的表示公式为Fitness(X_i)表示第i个灰狼个体的适应度值，E表示所述训练集和所述测试集输入KNN分类器所获得的分类错误率，θ表示在计算适应度值的过程中分类错误率所占的权重，R表示每个二进制灰狼个体X_i中数值为1的个数，即基因数据的特征子集的长度，D是灰狼个体的维度，即基因数据集中的属性总数，α是属性约简所占的权重，且θ+α＝1；

其中，灰狼与猎物之间的距离计算公式为表示猎物位置，/>为当前灰狼个体的位置，/>为系数向量，/>灰狼包围猎物的计算公式为A为系数向量，/>a是衰减因子，随着迭代次数的增加从2线性减少到0./>和/>是0和1之间的随机值，且/>

其中，灰狼种群在狩猎阶段，alpha、beta和delta狼的位置更新公式为和/>分别为alpha、beta和delta狼的位置；和/>分别为alpha、beta、delta狼各自与猎物之间的距离；/>和/>分别表示相应猎物的位置；/>和/>分别为系数向量，均为固定值；/>是当前灰狼个体的位置，此时/>

步骤1-6：对灰狼种群中的每个个体执行扩散策略，并在比较适应度值后选择最优个体组成新的灰狼种群；其中，扩散策略通过公式来X^q(i)＝X(i)+β×Ganssion(P_i，|BP|)-(r₁×BP-r₂×P_i)实现；P_i和|BP|分别为高斯分布的均值和标准差，P_i为搜索代理当前位置，BP为搜索代理到目前为止的最佳位置，r₁和r₂均为[0,1]之间的随机数；

步骤1-7：计算出扩散后灰狼个体的适应度值，判断其是否大于原种群的适应度值，贪心更新灰狼种群；

步骤1-8：判断当前的评估次数t是否达到最大评估次数MaxFes；若没有达到，则t＝t+1后，继续返回步骤1-4进行重复操作；若已经达到最大评估次数MaxFes，则计算出种群中所有个体的适应度值，并对其进行升序排序，获取最优个体位置及适应度值，即得到全局最优解；

步骤a2、基于步骤a1所输出最优的全局最优解，进行混沌局部搜索，以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集，具体过程如下：

步骤2-1：初始化控制混沌局部搜索收缩程度的参数λ，并通过随机生成不等于0.25，0.5，0.75和1的随机数rd；

步骤2-2：设置第一个局部候选解

步骤2-3：根据Logistics映射方法，对局部候选解X^C进行N次更新，生成新的空间候选解；

步骤2-4：计算经过混沌局部后的空间候选解的适应度值FitnessC；

步骤2-5：比较FitnessC和全局最优解alpha狼的适应度值Alpha_fit的大小，并选择最优个体作为新的alpha狼；

步骤2-6：输出alpha狼的位置，确定基因数据集的最优基因子集。

其中，所述KNN分类器中采用的算法步骤具体包括：求距离、寻找相邻的对象和确定类别；其中，

所述求距离的步骤具体为，给定测试数据，计算它与训练数据中的每个对象的距离；其中，距离公式具体为

所述寻找相邻的对象的步骤具体为，根据距离规定距离最近的K个训练样本，作为测试样本的邻居；

所述确定类别的步骤具体为，根据这K个邻居归属的主要类别，找出类别占比最大的作为测试样本所属的种类。

本发明实施例还提供了一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统，包括：

数据设置单元，用于根据从公开网站获取的基因数据集，生成训练集和测试集；

优化单元，用于利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索，并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数，以确定基因数据集的特征子集，并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解，且进一步对所选的全局最优解进行混沌局部搜索，以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集；

结果输出单元，用于输出最终获取的最优基因子集。

实施本发明实施例，具有如下有益效果：

与现有的方法相比，本发明由灰狼优化算法与分形搜索的扩散策略以及混沌局部搜索相结合的二进制灰狼优化算法，以此来对基因数据进行选择，不仅可以对每个灰狼个体进行以高斯行走的扩散，进一步扩大全局搜索的优势，保持种群的多样性，有效的避免局部最优值，实现在具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上选择出最优基因子集。从而有效地克服现有技术得到的基因子集对基因数据分类精度低的问题，实现在保持较高基因数据分类精度的同时找到最优基因子集。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法的流程图；

图2为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法中扩散策略的原理图；

图3为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法中基因选择的适应度值收敛曲线图；

图4为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提供的一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法，所述方法包括以下步骤：

具体过程为，根据从公开网站获取的基因数据集，这些微阵列数据集都是高维的，包括不相关或弱相关特征，数据集的维度范围从2000到12600，生物医学微阵列数据集列于表2-1中。这些数据集包括Prostate-Tumor，Colon和Tumor等，并且提供与基因表达，蛋白质谱分析和基因组序列相关的数据，用于分类和疾病诊断。微阵列数据集的特点就是样本数目相对较少，基因数目成千上万，这将会造成误差估计受小样本的影响很大，如果没有对错误进行适当的估计，则会出现分类方法的不当应用。为了克服这个问题，有必要选择正确的验证方法来估计分类错误。微阵列结构域中最广泛使用的验证技术之一是所谓的K-折叠交叉验证，本发明在分类过程求精确度时使用10-折交叉来对分类结果进行验证，将数据集平均分成10份，其中一份做测试集其余的9份做训练集，这样循环10次将最终的结果求平均值，即循环10次对所述基因数据集进行分类，且所述基因数据集每次分类均为将所述基因数据集均分成十份，其中一份做测试集，其余九份做训练集，并进一步采用10-折交叉进行验证，得到最终生成的训练集和测试集。

应当说明的是，用10-折交叉验证的优点是每轮的训练集和测试集都能够固定和重现，并且能够减少误差。

具体过程为，步骤a1、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索，并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数，以确定基因数据集的特征子集，并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解，具体过程如下：

步骤1-3：设置当前评估次数FEs的初始值为0；

步骤1-6：对灰狼种群中的每个个体执行扩散策略(如图2所示)，并在比较适应度值后选择最优个体组成新的灰狼种群；其中，扩散策略通过公式来X^q(i)＝X(i)+β×Ganssion(P_i，|BP|)-(r₁×BP-r₂×P_i)实现；P_i和|BP|分别为高斯分布的均值和标准差，P_i为搜索代理当前位置，BP为搜索代理到目前为止的最佳位置，r₁和r₂均为[0,1]之间的随机数；

步骤1-7：计算出扩散后灰狼个体的适应度值，判断其是否大于原种群的适应度值，贪心更新灰狼种群；具体包括更新线性参数a和系数向量|A|、|C|，然后对于新种群中的个体，分别计算每个灰狼个体与alpha、beta和delta狼之间的距离，再根据alpha、beta和delta狼的位置，再次更新灰狼种群；

步骤2-2：设置第一个局部候选解

可以理解的是，在步骤1-2中，使用sigmoid函数将灰狼种群X离散化处理，主要是考虑到使用sigmoid函数编码不仅能剔除冗余，将基因选择的特点与优化算法结合，不仅提高了基因选择的效率，而且增加解的变化。sigmoid函数可以将搜索代理的位置转换到0和1之间，因为该函数具有非常好的对称性，所以无论灰狼个体如何分布都可以均匀的映射到0和1之间。

在步骤1-5中，基于KNN分类器在预设灰狼优化算法中所定义的适应度函数，主要是考虑到基因选择可以看作为一个组合优化问题。为了清楚优化目标，首先需要设置一个合适的目标函数作为算法迭代过程中的一个评判标准，因为基因选择被视为多目标优化问题，其中要实现两个相互矛盾的目标即选取最小的基因数目和最大限度的提高分类精度。因此，需要设置一个目标函数将这两个目标归一化到一个函数里面。

此时，根据KNN分类器来计算分类精度，KNN分类器使用的是matlab2016a中自带的分类器。KNN分类方法是依据测试样本与训练样本的距离来判断待测样本属于哪个类别，一般选取与测试样本距离最近的K个样本。若K＝1，待测样本距离某个邻居样本中最近的，它的类别就和此样本类别一样。

KNN算法的步骤包括：求距离、寻找相邻的对象和确定类别；其中，

第一步、求距离的步骤具体为，给定测试数据，计算它与训练数据中的每个对象的距离；其中，距离公式具体为

第二步、寻找相邻的对象的步骤具体为，根据距离规定距离最近的K个训练样本，作为测试样本的邻居；

第三步、确定类别的步骤具体为，根据这K个邻居归属的主要类别，找出类别占比最大的作为测试样本所属的种类。

步骤S3、输出最终获取的最优基因子集。

具体过程为，根据步骤S2获取基因数据集最终表现的最优基因子集输出，即为所需结果。

在本发明实施例中，我们采用了MATLAB工具箱提供的KNN分类器作为每次迭代过程中生成基因子集的评价标准。由于在开始评估的过程中，由于我们获取的基因子集可能不是我们所期待的最优子集，所以无需花大量的时间通过其他基因选择方法重新计算基因子集，随着评估次数的灰狼种群随着fitness函数的作用，逐渐向分类精度高和基因属性数量小的个体移动，此时可以在其附近进行多次的搜索使其接近期待得到的最优基因子集。基于此思想，在本发明实施例中，我们使用基于扩散策略和混沌局部搜索的二进制灰狼优化算法作为基因选择的主要优化方法。

为了证明基于扩散策略和混沌局部搜索策略的二进制灰狼优化算法在特征选择过程中的优化效果，表1-3分别是从适应度值、基因子集的大小和分类错误率这三方面来说明基于扩散策略和混沌局部搜索策略的二进制灰狼优化算法在基因选择算法在基因选择中的优越性能，如图3所示。

其中，表1基于扩散策略和混沌局部搜索的二进制灰狼算法和其他算法在最优基因子集的平均适应度值上的比较结果，具体如下：

其中，表2基于扩散策略和混沌局部搜索的二进制灰狼算法和其他算法在最优基因子集的平均基因个数上的比较结果，具体如下：

其中，表3基于扩散策略和混沌局部搜索的二进制灰狼算法和其他算法在最优基因子集的平均错误分类精度上的比较结果，具体如下：

每个表都分别从平均值和标准差这两个指标来分析各个优化算法在各个评价标准上的稳定性和精确性。每个评价标准的平均值和标准差的具体计算方式如下。

适应度平均值：表示优化算法的M次计算后得到的解的适应度平均值，可表示为：

适应度标准差：表示在执行M此优化算法后得到的最优解变化，可表示为：

平均基因选择个数：表示M此所选基因数的平均值，可表示为：

基因数目标准差：表示在执行M此优化算法后得到的基因数目变化，可表示为：

平均分类错误精度：所选特征集的分类错误精度的平均值。其计算方法为：

分类错误精度标准差：表示在执行M此优化算法后分类错误精度的变化，可表示为：

如图4所示，为本发明实施例中，提供的一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统，包括：

数据设置单元10，用于根据从公开网站获取的基因数据集，生成训练集和测试集；

优化单元20，用于利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索，并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数，以确定基因数据集的特征子集，并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解，且进一步对所选的全局最优解进行混沌局部搜索，以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集；

结果输出单元30，用于输出最终获取的最优基因子集。

实施本发明实施例，具有如下有益效果：

与现有的方法相比，本发明由灰狼优化算法与分形搜索的扩散策略以及混沌局部搜索相结合的二进制灰狼优化算法，以此来对基因数据进行选择，不仅可以对每个灰狼个体进行以高斯行走的扩散，还扩大全局搜索的优势，保持种群的多样性，有效的避免局部最优值，实现在具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上选择出最优基因子集，从而有效地克服现有技术得到的基因子集对基因数据分类精度低的问题，实现在保持较高基因数据分类精度的同时找到最优基因子集。

值得注意的是，上述装置实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法，其特征在于，所述方法包括以下步骤：

步骤S3、输出最终获取的最优基因子集；

所述步骤S2具体包括：

步骤1-3：设置当前评估次数FEs的初始值为0；

其中，灰狼种群在狩猎阶段，alpha、beta和delta狼的位置更新公式为和/>分别为alpha、beta和delta狼的位置；/> 和/>分别为alpha、beta、delta狼各自与猎物之间的距离；/>和/>分别表示相应猎物的位置；/>和/>分别为系数向量，均为固定值；/>是当前灰狼个体的位置，此时/>

步骤1-6：对灰狼种群中的每个个体执行扩散策略，并在比较适应度值后选择最优个体组成新的灰狼种群；其中，扩散策略通过公式来X^q(i)＝X(i)+β×Ganssion(P_i,|BP|)-(r₁×BP-r₂×P_i)实现；P_i和|BP|分别为高斯分布的均值和标准差，P_i为搜索代理当前位置，BP为搜索代理到目前为止的最佳位置，r₁和r₂均为[0,1]之间的随机数；

步骤2-2：设置第一个局部候选解

2.如权利要求1所述的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法，其特征在于，所述基因数据集生成训练集和测试集的步骤具体包括：

3.如权利要求1所述的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法，其特征在于，所述KNN分类器中采用的算法步骤具体包括：求距离、寻找相邻的对象和确定类别；其中，

4.一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统，其应用如权利要求1-3任一项所述的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法，其特征在于，包括：

结果输出单元，用于输出最终获取的最优基因子集。