CN113642613B

CN113642613B - 基于改进樽海鞘群算法的医学疾病特征选择方法

Info

Publication number: CN113642613B
Application number: CN202110834402.1A
Authority: CN
Inventors: 汪鹏君; 赵松伟; 陈慧灵; 许素玲; 何文明; 施一剑
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-10-10
Anticipated expiration: 2041-07-23
Also published as: US20230029947A1; CN113642613A

Abstract

本发明公开了一种基于改进樽海鞘群算法的医学疾病特征选择方法，使用改进樽海鞘群算法来优化特征选择问题，通过转换函数和K‑近邻算法分类来评估所提方法的准确性，通过使用自适应控制参数和精英灰狼统治策略对樽海鞘群算法进行改进，以此帮助算法在优化过程中避免过早收敛，跳出局部最优，实现算法选择特征数量最少且分类精度最高的目标；优点是收敛速度快，具有更高分类精度和较好的鲁棒性的。

Description

基于改进樽海鞘群算法的医学疾病特征选择方法

技术领域

本发明涉及一种医学疾病的特征选择方法，尤其是涉及一种基于改进樽海鞘群算法的医学疾病特征选择方法。

背景技术

随着基因芯片技术在医学领域被广泛应用,大量微阵列数据被迅速积累,通过对这些数据进行分析并构建有效的分类模型,对一些潜在病患的早期诊断和临床治疗具有重要的研究意义和应用价值。然而,微阵列基因数据集具有“高维小样本”的特点,如乳腺癌微阵列基因数据集包含了两千多个基因特征。面对如此大规模的微阵列基因数据集,专家在短时间内不能直接进行分析和诊断治疗。此外,大多基因数据通常含有一些冗余或噪声数据,这些信息可能会极大地降低分类算法学习的性能，效率变低，而且会影响医疗的诊断。特征选择作为一种有效的降维方式,在生物医学领域已经引起广泛的关注并成为近年来生物信息学领域的研究热点。特征选择技术是对微阵列基因数据集进行适当分析和分类的关键步骤,如果没有合适的特征选择方法,现有的分类模型很难准确捕获重要信息。本质上，特征选择问题作为一个典型的全局寻优问题，是最重要环节之一。与其他降维技术不同，特征选择并不改变变量特征的原始表示，而仅是选择它们中的子集。因此，特征选择保留了原来的变量情况，可以提供进一步对特征数据进行解释的优势。此外，分类算法的复杂度和预测效果与样本特征息息相关，其中样本特征的冗余性与相关性会导致预测能力下降，同时特征维度的大小也影响着分类算法的运算速度。

特征选择实质上也是一个组合优化问题。常规的优化算法，诸如解析法，不仅对目标函数要求连续且可微，而且得到的最优解往往达不到需求的精度；枚举法，虽然克服这些缺点，但计算效率太低。即便是相当著名的动态规划法，也会遇到“指数爆炸”问题，对于中等规模及适度复杂性问题，也常常表现乏力。因此，如果能创新性地将群智能算法的寻优能力运用于特征选择问题中，将会给医学疾病特征的分析提供一个有力的解释工具。

目前已有许多研究者应用群智能算法辅助寻找特征子集，并取得了显著的效果。樽海鞘群算法(Salp Swarm Algorithm,SSA)是一种新兴的启发式群体智能算法，它受樽海鞘觅食过程启发，包括接近食物、包裹食物和搜索食物三个阶段，实现对整个搜索空间的不断探索和开发。然而，SSA在搜索特征子集的过程中，仍存在陷入局部最优，过早收敛的现象，最终会导致特征子集的选择准确度降低。

因此，有必要提供一种改进樽海鞘群算法，能解决樽海鞘群算法的陷入局部最优解、收敛速度慢等问题，实现对医学疾病特征的更精确、更高效的分类及预测。

发明内容

本发明所要解决的技术问题是提供一种收敛速度快，具有更高分类精度和较好的鲁棒性的基于改进樽海鞘群算法的医学疾病特征选择方法。

本发明解决上述技术问题所采用的技术方案为：一种基于改进樽海鞘群算法的医学疾病特征选择方法，包括以下步骤：

步骤S1、获取医学疾病的微阵列基因数据集，将医学疾病的微阵列基因数据集的行数记为m，列数记为n，即获得的医学疾病的微阵列基因数据集由m×n个基因特征数据按照m行n列排布形成；使用10-交叉验证函数将医学疾病的微阵列基因数据集按行数随机分割成10个子集，每个子集的行数大于等于1，列数均为n，从10个子集中随机选择一子集为验证集，其余子集为训练集；

步骤S2、定义一个母樽海鞘种群Y，母樽海鞘种群Y的规模大小为M＝20，即母樽海鞘种群Y中存在M个个体，母樽海鞘种群Y中的每个个体分别采用由n个维度值按照1行n列排布形成的数据矩阵来表示，再使用0到1之间的随机数对母樽海鞘种群Y中的每个个体的每个维度值分别进行初始化赋值，得到第0代母樽海鞘种群Y⁰；

步骤S3、设定全局最优适应度值为best，将best初始化赋值为正无穷大，设全局最优个体为bestposition，将bestposition初始设置为1行n列的数据矩阵[0，0，0，…，0]；

步骤S4、设母樽海鞘种群迭代的最大次数为T＝50，设定迭代次数变量t，将t初始设置为1；

步骤S5、对母樽海鞘种群进行第t次迭代，具体迭代过程为：

步骤S5.1、将t-1代母樽海鞘种群Y^t-1中每个个体的每个维度值分别通过公式(1)-(2)所示的转换函数转换成0或者1，得到第t代二进制樽海鞘种群B^t：

其中，表示第t-1代母樽海鞘种群的第i个个体的第j列维度值,i＝1，2，3，…，M，j＝1，2，3，…，n，/>表示第t代二进制樽海鞘种群的第i个个体的第j列维度值,r是0到1之间的的随机数，每次运算前通过随机函数生成，e是自然常数；

步骤S5.2、构建第t-1代母樽海鞘种群中每个个体的特征子集，具体过程为：分别判断第t代二进制樽海鞘种群中第i个个体中每列维度值是否为1，如果为1，则验证集和9个训练集中位于该列的基因特征数据被选择，如果为0，则验证集和9个训练集中位于该列的基因特征数据不被选择，将验证集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的验证集的特征子集，将9个训练集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的9个训练集的特征子集，由此得到第t-1代母樽海鞘种群中每个个体的验证集的特征子集和9个训练集的特征子集；

步骤S5.3、采用公式(3)和公式(4)计算第t-1代母樽海鞘种群中每个个体的适应度值，并将第t-1代母樽海鞘种群中的所有个体按照适应度值从小到大进行排序，将其中最小的适应度值记为bF^t-1，适应度值最小的个体作为当前最优个体，记为bP^t-1；

其中,表示第t-1代母樽海鞘种群的第i个个体的适应度值，a表示分类准确权重，设置为0.05，b表示最佳特征选择数权重，a和b的关系为a+b＝1，/>表示第t代二进制樽海鞘种群的第i个个体中维度值为1的总列数，/>表示在K-近邻算法下获得的第i个个体的分类精确度，/>和/>通过采用K-近邻算法对第t-1代母樽海鞘种群中第i个个体的验证集的特征子集中的数据和9个训练集的特征子集中的数据进行分类统计检验后得到，/>表示验证集的特征子集的数据分类正确的数目，/>表示验证集的特征子集的数据分类分类错误的数目；

步骤S5.4、采用公式(5)对第t代二进制樽海鞘种群B^t的第1个个体到第M/2个个体中每个维度值分别进行更新，得到第t代初始樽海鞘种群F^t的第1个个体到M/2个个体：

其中，k＝1，2，3，…，M/2，r1^t和r2^t分别为通过随机函数产生的位于0到1之间的随机数，c^t是控制参数，采用公式(6)表示，表示当前最优个体bP^t-1的第j列维度值，/>表示第t代初始樽海鞘种群F^t的第k个个体的第j列维度值,e为自然常数；

步骤S5.5、利用自适应控制参数，采用公式(7)对第t代二进制樽海鞘种群B^t的第M/2+1个个体到第M个个体的每个维度值分别进行更新，得到第t代初始樽海鞘种群F^t的第M/2+1个体到第M个个体：

其中，d＝M/2+1，M/2+2，M/2+3，…，M，表示第t代二进制樽海鞘种群B^t的第d个个体，/>表示第t代二进制樽海鞘种群B^t的第d-1个个体，/>表示第t代初始樽海鞘种群F^t的第d个个体，pi指的是圆周率，cos表示余弦函数；

步骤S5.6、采用步骤S5.1～步骤S5.3相同的方法计算第t代初始樽海鞘种群F^t的每个个体的适应度值，并将第t代初始樽海鞘种群F^t中所有个体按照适应度值从小到大进行排序，将其中适应度值最小的个体记为fir^t，适应度值第二小的个体记为sec^t，适应度第三小的个体记为thi^t；

步骤S5.7、基于精英灰狼统治策略，采用公式(8)-(16)对第t代初始樽海鞘种群F^t进行探索开发，得到第t代中间樽海鞘种群G^t：

A^t＝2β^t×r4^t-β^t (10)

其中,r3^t和r4^t分别为通过随机函数产生的位于0到1之间的随机数，A^t和β^t都是一个向量系数，表示第t代初始樽海鞘种群F^t中适应度值最小的个体的第j列维度值，/>表示第t代初始樽海鞘种群F^t中适应度值第二小的个体的第j列维度值，/>表示第t代初始樽海鞘种群F^t中适应度值第三小的个体的第j列维度值，/>表示第t代初始樽海鞘种群F^t中第i个个体的第j列维度值，/>表示第t代中间樽海鞘种群G^t中第i个个体的第j列维度值；

步骤S5.8、采用步骤S5.1～步骤S5.3相同的方法计算第t代中间樽海鞘种群G^t的适应度值，将第t代初始樽海鞘种群F^t的M个个体和第t代中间樽海鞘种群G^t的M个个体组合在一起，共2M个个体按照其适应度值从小到大顺序进行排序，选出适应度值较小的M个个体，将这M个个体随机排列作为第t次迭代得到第t代樽海鞘种群Y^t；

步骤S5.9、将第t代樽海鞘种群Y^t的最小适应度值与全局最优适应度值best比较，如果小于全局最优适应度值best，则采用该最小适应度值更新best，并将该最小适应度值对应的个体作为全局最优个体bestposition，如果不小于全局最优适应度值best，则全局最优适应度值best和全局最优个体bestposition保持不变，第t次迭代结束；

步骤S6、判断t的当前值是否等于T，如果不等于，则采用t的当前值加1的和更新t的值，然后返回步骤S5，进入下一次迭代；如果等于T，则迭代过程结束，确定当前全局最优个体bestposition的第1列到第n列中维度值为1的列，对应的将医学疾病的微阵列基因数据集中位于这些列的基因特征数据提取出来构成一个选择数据集，此时得到的选择数据集就是降维后的医学疾病的基因特征数据集。

与现有技术相比，本发明的优点在于使用改进樽海鞘群算法来优化特征选择问题，通过转换函数和K-近邻算法分类来评估所提方法的准确性，通过使用自适应控制参数和精英灰狼统治策略对樽海鞘群算法进行改进，以此帮助算法在优化过程中避免过早收敛，跳出局部最优，实现算法选择特征数量最少且分类精度最高的目标，由此本发明方法收敛速度快，具有更高分类精度和较好的鲁棒性的。

具体实施方式

以下结合实施例对本发明作进一步详细描述。

实施例：一种基于改进樽海鞘群算法的医学疾病特征选择方法，包括以下步骤：

步骤S5、对母樽海鞘种群进行第t次迭代，具体迭代过程为：

A^t＝2β^t×r4^t-β^t (10)

以下以UCI机器学习库中四个数据集D1-_D4为例，分别采用本发明的方法与采用现有的樽海鞘群算法来进行对比分析，其中四个数据集D1-_D4的具体信息如表1所示，本发明的方法(AGSSA)与现有的樽海鞘群算法(SSA)分别得到的适应度值的结果如表2所示，在适应度值最小时，选择的特征数量如表3所示，适应度值最小时，基于K-近邻算法选择的特征数量的错误率如表4所示：

表1

表2

表3

表4

从上面数据可以看到在四个数据集上，本发明的方法的适应度值最小，表明该方法在特征选择问题上具有较好的优化性能。从选择特征数量数据可以看到在四个数据集上，本发明所提改进樽海鞘群算法的数量选择也小于原始樽海鞘群算法，表面我们对算法的改进是有效的，可以帮助算法跳出局部最优，增大找到最优解的可能性。而从错误率数据上可以看到，本发明的方法的特征选择分类错误率也是比原始SSA小，这也体现所提算法在优化这类问题上具有优越性。

Claims

1.一种基于改进樽海鞘群算法的医学疾病特征选择方法，其特征在于包括以下步骤：

步骤S5、对母樽海鞘种群进行第t次迭代，具体迭代过程为：

其中，d＝M/2+1，M/2+2，M/2+3，…，M，表示第t代二进制樽海鞘种群B^t的第d个个体，表示第t代二进制樽海鞘种群B^t的第d-1个个体，/>表示第t代初始樽海鞘种群F^t的第d个个体，指的是圆周率，cos表示余弦函数；

步骤S5.6、采用步骤S5.1～步骤S5.3相同的方法计算第t代初始樽海鞘种群F^t的每个个体的适应度值，并将第t代初始樽海鞘种群F^t中所有个体按照适应度值从小到大进行排序，将其中适应度值最小的个体记为fir^t，适应度值第二小的个体记为sec^t，适应度第三小的个体记为th^t；

A^t＝2β^t×r4^t-β^t (10)