CN112215259B

CN112215259B - 基因选择方法和装置

Info

Publication number: CN112215259B
Application number: CN202010982171.4A
Authority: CN
Inventors: 陈慧灵; 周伟; 汪鹏君
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2023-12-01
Anticipated expiration: 2040-09-17
Also published as: CN112215259A; CN117238379A

Abstract

本发明提供一种基因选择方法，用于基因特征选择。包括通过基因数据微阵列数据集获取训练集和测试集，并确定初始化种群；将当前种群的每个个体采用转换函数进行二进制编码；计算当前种群的适应度值，并更新樽海鞘和飞蛾扑火策略中的相关参数；设置正余弦优化算法的相关参数，并采用正余弦优化算法迭代公式更新种群；将通过正余弦优化算法获取的种群依次通过樽海鞘，飞蛾扑火和反向学习策略进行更新，以获取三个种群；通过贪婪选择选出下一代种群；若达到最大迭代次数，则结束循环并输出最优解，否则继续迭代直至迭代计算结束。本发明可更精确、更高效地从基因中筛选出对类别贡献最大的基因特征，降低检测成本。

Description

基因选择方法和装置

技术领域

本发明涉及数据预处理领域的基因选择技术，尤其涉及一种基因选择方法。

背景技术

在当今竞争激烈的世界里，人类受到各种疾病的影响尤其是癌症，白血病等，医学检测有助于确定各种疾病的症状和原因。随着生物医学和健康领域相关技术的快速发展，大量的生物信息学和临床医学数据尤其是分子生物学实验数据、基因数据以前所未有的速度增长。目前人类虽然已经在分子水平上对各种疾病的产生和发展过程进行研究，发现大量的致病基因，但是人们对其发生和调控机制了解甚微。微阵列基因表达数据和蛋白质表达数据的分析可以用来掌握分子水平上生理活动信息。

然而，微阵列数据中的基因个数成千上万，其中一部分基因特征可能和挖掘任务是不相关的或者特征之间存在相互冗余。实际上，与样本分类真正相关的基因只占少数，这些冗余基因特征可能会导致检测算法的建模过度拟合和训练时间过长、从而导致错误的检测结果，甚至会导致延误造成患者生命的损失。

近年来，相关领域的研究者针对微阵列数据进行分析，采用不同类型的机器学习算法和统计方法，如人工神经网络和进化算法等，已被用于分析基因表达数据。但由于基因数据维度较高，并且具有较多的噪声，越来越多的智能算法在微阵列数据分析时变得更重要。挖掘最小基因子集大大减少了由无关基因引起的计算负担和“噪声”，甚至可以提取简单的检测规则，从而在不需要任何分类器的情况下进行准确检测，而且简化了基因表达测试，仅包括少数基因而不是数千个基因，这可以显著降低检测的成本，它要求进一步研究这些少数基因与疾病发展和治疗之间可能存在的生物学关系。基于粒子群算法、蝙蝠算法的基因选择方法，收获了相当好的分类结果。

正余弦优化算法(Sine Cosine Algorithm,SCA)是一种新兴的启发式群体智能算法，它采用正弦和余弦函数两个数学公式，在整个搜索空间上不断探索和开发的过程。然而，SCA在基因筛选的过程中，在优化解的收敛速度以及收敛精度上，仍然具有很高的提升空间。在这种情况下，很难保持勘探和开发的有效平衡。

因此，有必要提供一种基因选择方法，实现对基因表达数据更精确、更高效的除噪，降低检测成本。

发明内容

本发明在深入研究基因微阵列数据的特点的基础上，针对目前的存在的问题，设计了一种基因选择方法，以实现对基因表达数据更精确、更高效的除噪。

具体地，根据本发明一方面，本发明实施例提供了一种基因选择方法，所述方法包括以下步骤：

步骤S1、通过基因数据微阵列数据集获取训练集和测试集，并确定初始化种群；

步骤S2、将当前种群的每个个体的每个特征值采用转换函数进行二进制编码；

步骤S3、计算当前种群的适应度值，并更新樽海鞘和飞蛾扑火策略中的相关参数；

步骤S4、设置正余弦优化算法的相关参数，并采用正余弦优化算法迭代公式更新种群；

步骤S5、将通过正余弦算法获取的种群依次通过樽海鞘，飞蛾扑火和反向学习策略进行更新，以获取三个种群；

步骤S6、通过贪婪选择选出下一代种群；

步骤S7、若达到最大迭代次数，则结束循环并输出最优解，否则继续迭代直至迭代计算结束。

根据本发明又一方面，在步骤S1中，根据特征提取得到的训练样本集，设初始化训练样本种群i＝1,2,...,N，j＝1,2,...,D,t＝0，其中，N为训练样本个体数量，D为每个训练样本的特征值，X^t表示在第t次迭代下所获取的种群，/>表示在t次迭代下第i个个体的第j个特征值，t表示当前迭代次数，取值范围为[0,1000]。

根据本发明又一方面，在步骤S2中，将种群X^t中的每个个体的每个特征值通过公式(1)和公式(2)模拟成一个二进制编码值；

其中，表示第t次迭代中产生的第i个个体的第j个特征值,r是一个[0,1]的随机数，/>表示第t次迭代中产生的第i个个体的第j个二进制编码值，Sig均表示sigmoid函数。

根据本发明又一方面，在步骤S3中，采用公式(3)和公式(4)计算所述种群X^t的适应度值，并更新樽海鞘策略中使用的最优解和飞蛾扑火策略中涉及的火焰F^t和飞蛾M^t，其中火焰F^t是上述种群X^t所得的适应度值按从小到大的顺序重新组合而成的种群，飞蛾M^t为X^t；

其中，Fitness_i表示第i个个体的适应度值，acc_i表示分类准确率，w_A表示分类准确权值，w_F表示特征选择数权值，R是指每个二进制个体数值为‘1’的个数，即基因数据的特征子集的长度；D是个体的维度，即基因数据集中的属性总数，cc表示样本中分类正确的数目，uc表示分类错误的样本数目。

根据本发明又一方面，在所述步骤S4中，设置正余弦优化算法的相关参数r₁，r₂，r₃和r₄，并采用公式(5)更新得到新种群：

其中，r₁是[0,2]线性递减的函数，r₂是[0,2π]的随机数，r₃和r₄是[0,1]的随机数，表示在t+1次迭代下产生的第i个个体的第j个特征值，/>是由公式(1)和(2)产生的在t次迭代下的第i个体的第j个二进制编码值，/>表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值所对应个体的第j个二进制编码值。

根据本发明又一方面，在所述步骤S5中，将正余弦优化算法更新的种群分别通过樽海鞘、飞蛾扑火和反向学习策略进行更新，以获取三个种群的步骤具体包括：

首先，樽海鞘更新策略将公式(5)获取的种群X^t+1进行转置,记为(X^t+1)^T，具体为：当i<N/2，采用公式(6)进行更新得到前一半转置种群；当i>N/2且i<N+1，采用公式(7)进行更新得到后一半转置种群，最后综合转置种群并再实施转置得到新种群S^t+1,其中N同上，N为训练样本个体数量；

其中，t和t_max分别为当前迭代次数和最大迭代次数，c₂和c₃是[0,1]的随机数，/>表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值对应个体的第j个二进制编码值，ub_j是第j维度的上界值，lb_j是第j维度的下界值，是t+1次迭代下当前种群X^t+1的第i个体在第j维度转置值，/>表示在t+1次迭代下当前种群X^t+1的第i-1个体在第j维度转置值,/>是在t+1次迭代下利用樽海鞘更新策略获取的第i个体在第j维度转置值；

其次，飞蛾扑火更新策略是采用飞蛾的导航方式，将火焰作为飞蛾在搜索空间中搜索的“风向标”，以螺旋方式更新当前的位置，采用公式(8)～(10)进行更新种群M^t+1；

其中，为第t+1次迭代下第i飞蛾个体的第j维度值，/>为第t+1次迭代下第i火焰个体的第j维度值，/>为第t+1次迭代下，火焰和飞蛾的距离，b为常数系数，k为一个-1到1的随机数，n表示火焰的最大数目，t表示当前的迭代次数，t_max表示最大迭代次数，l表示当前火焰的数目，round表示四舍五入；

最后，反向学习策略是基于原始解决方案对称的反向解决方案；采用公式(11)获取当前种群的反向种群O^t+1；

其中，ub_j是第j维度的上界值，lb_j是第j维度的下界值，第t+1次迭代下第i个体的第j维度值。

根据本发明又一方面，在步骤S6中，将步骤S5中获取的三个种群S^t+1，M^t+1和O^t+1。根据公式(3)和公式(4)求适应度值，并从小到大进行排序，筛选前N个适应度小的个体作为下一代种群X^t+1,其中N同上，为训练样本个体数量；

根据本发明又一方面，在步骤S7中，若达到最大迭代次数，则结束循环并输出最优解，否则迭代次数加1，并返回步骤S2。

本发明实施例还提供了一种基因选择装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述的基因选择方法的步骤。

本发明还提供了一种基因表达数据的除噪方法，其特征在于采用前述的基因选择方法去除与样本分类无关的基因表达数据。

实施本发明实施例，具有如下有益效果：

针对基因微阵列数据的特点，将樽海鞘策略、飞蛾扑火策略和反向学习策略结合到SCA算法中，大大减少了由无关基因引起的计算负担和“噪声”，甚至可以提取简单的检测规则，同时简化了基因表达测试，能显著降低检测的成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例一提供的基因选择方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

根据本发明一种优选实施方式，如图1所示，提供了一种基因选择(筛选)方法，所述方法包括以下步骤：

步骤S6、通过贪婪选择选出下一代种群；

有利地，针对基因数据的特点，通过樽海鞘策略、飞蛾扑火策略和反向学习策略，结合正余弦优化算法，大大减少了由无关基因引起的计算负担和“噪声”，简化了基因表达测试，能显著降低检测的成本。

根据本发明又一种优选实施方式，如图1所示，为本发明实施例一中，提供的一种基因选择方法，所述方法包括以下步骤。

目前微阵列数据通常是由DNA微阵列技术来获取，微阵列基因表达数据和蛋白质表达数据的分析可以用来掌握分子水平上的生理活动信息，已经被广泛的应用于生物医学领域。微阵列数据集的样本数目相对较少，基因数目成千上万，误差估计受样本的影响很大。当不对错误进行适当的估计，则会出现分类方法不当的应用。为了克服此问题，通过采用所谓K-折叠交叉验证的验证方法估计分类错误。本发明在分类过程求解精确度时使用10-折交叉来对分类结果进行验证，将数据集平均分成10份，其中一份作为测试集，另外九份作训练集，通过循环10次将最终的结果求平均值。用10-折交叉验证的优点是每轮的训练集合测试集都能够固定和重视，并且能够减少误差。

步骤S1、根据上述基因数据微阵列数据集提取得到的训练样本集，设初始化训练样本种群i＝1,2,...,N，j＝1,2,...,D,t＝0，其中，N为训练样本个体数量，D为每个训练样本的维度数，X^t表示在第t次迭代下所获取的种群，/>表示在t次迭代下第i个个体的第j个特征值，t表示当前迭代次数，取值范围为[0,1000]。

步骤S2、根据所述训练样本集设计K-最近邻(KNN,K-Nearest Neighbor)分类器，并进行分类；

具体例如为，根据样本集设计KNN分类器并分类，将种群X^t中的每个个体的每个特征值通过公式(1)和公式(2)模拟成一个二进制编码值；

步骤S3、通过公式(4)和(5)，获取当前种群个体的适应度值，并按照适应度值从小到大进行排序，更新樽海鞘策略中使用的最优解和飞蛾扑火策略中涉及的火焰F^t和飞蛾M^t，其中火焰F^t具体是上述所得种群X^t的适应度值以从小到大的顺序重新组合而成的种群F^t，飞蛾M^t即为X^t。

KNN分类方法是依据测试样本与训练样本的距离来判断待测样本属于哪个类别，一般选取与测试样本距离最近的K个样本。当K＝1，待测样本距离某个邻居样本中最近的，它的类别就和此样本类别一样；当K≥1，依据少数服从多数待测样本与最近的K个样本中同一类别根据KNN分类器中基于分裂精度定义的适应度函数。KNN算法的步骤如下：

首先，获取距离。当给定测试数据，计算它和训练数据中每个对象的距离。距离函数决定训练集中的哪些样本是待测样本的K个邻居，本发明的距离公式使用的是欧式距离，具体计算方式如下

其中test_i表示第i个测试向量，train_j表示第j个训练向量，test_i,k表示第i个测试向量的第k个维度值，train_j,k表示第j个训练向量的第k个维度值。

其次，寻找相邻对象。根据距离规定距离最近的K个训练样本，作为测试样本的邻居。

最后，确定类别。根据这K个邻居归属的主要类别，找出类别占比最大的作为测试样本所属的种类。

基因选择可以视作为多目标优化问题，其中要实现两个相互矛盾的目标即选取最小的基因数目和最大限度的提高分类精度。因此我们需要设置一个目标函数将这两个目标归一化到一个函数里面。具体的适应度函数如下：

其中，Fitness_i表示第i个个体的适应度值，acc_i表示分类准确率，w_A表示分类准确权值，w_F表示特征选择数权值，R是指每个二进制个体数值为‘1’的个数，即基因数据的特征子集的长度。D是个体的维度，即基因数据集中的属性总数，cc表示样本中分类正确的数目，uc表示分类错误的样本数目。

步骤S4、设置正余弦优化算法的相关参数，并获取通过正余弦优化算法更新的种群；

具体例如为，设置正余弦优化算法的相关参数r₁，r₂，r₃和r₄，并采用公式(6)更新得到新种群：

其中，r₁是[0,2]线性递减的函数，r₂是[0,2π]的随机数，r₃和r₄是[0,1]的随机数，表示在t+1次迭代下产生的第i个个体的第j个特征值，/>是由公式(1)和(2)产生的在t次迭代下的第i个体的第j个二进制编码值，/>表示在t次迭代下采用公式(4)和公式(5)获取二进制编码种群中最小适应度值所对应个体的第j个二进制编码值。

步骤S5、将所获取的正余弦优化算法更新的种群分别通过樽海鞘、飞蛾扑火和反向学习策略进行更新，以获取三个种群；

具体例如为，首先，樽海鞘更新策略将公式(6)获取的种群X^t+1进行转置,记为(X^t ⁺¹)^T，具体为：当i<N/2，采用公式(7)进行更新得到前一半转置种群；当i>N/2且i<N+1，采用公式(8)进行更新得到后一半转置种群，最后综合转置种群并再实施转置得到新种群S^t+1,其中N同上，N为训练样本个体数量；

其中，t和t_max分别为当前迭代次数和最大迭代次数，c₂和c₃是[0,1]的随机数，/>表示在t次迭代下采用公式(4)和公式(5)获取二进制编码种群中最小适应度值对应个体的第j个二进制编码值，ub_j是第j维度的上界值，lb_j是第j维度的下界值，是t+1次迭代下当前种群X^t+1的第i个体在第j维度转置值，/>表示在t+1次迭代下当前种群X^t+1的第i-1个体在第j维度转置值,/>是在t+1次迭代下利用樽海鞘更新策略获取的第i个体在第j维度转置值；

其次，飞蛾扑火更新策略是采用飞蛾的导航方式，将火焰作为飞蛾在搜索空间中搜索的“风向标”，以螺旋方式更新当前的位置，采用公式(9)～(11)进行更新种群M^t+1；

步骤S6、通过贪婪选择筛选出最佳种群；

具体例如为，将步骤S5中获取的三个种群S^t+1，M^t+1和O^t+1，根据公式(4)和公式(5)求适应度值，并从小到大进行排序，筛选前N个适应度小的个体作为下一代种群X^t+1,其中N同上，为训练样本个体数量。

步骤S7、若达到最大迭代次数，则结束循环并输出最优解，否则迭代次数加1，并返回步骤S2。

根据本发明一种优选实施方式，相对于本发明实施例一中提供的一种基因选择方法，本发明实施例二又提供了一种基因选择装置，包括存储器和处理器，存储器存储有计算机程序，其中，处理器执行计算机程序时实现本发明实施例一中的基因选择方法的步骤。应当说明的是，本发明实施例二中处理器执行计算机程序的过程，与本发明实施例一中提供的一种基因选择方法中各个步骤的执行过程一致，具体可参见前述相关内容描述。

根据本发明一种优选实施方式，本发明还提供了一种基因表达数据的除噪方法，其特征在于采用前述的基因选择方法去除与样本分类无关的基因表达数据。

实施本发明实施例，具有如下有益效果：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基因选择方法，其特征在于，所述方法包括以下步骤：

步骤S6、通过贪婪选择选出下一代种群；

步骤S7、若达到最大迭代次数，则结束循环并输出最优解，否则继续迭代直至迭代计算结束；

其中，在步骤S2中将种群X^t中的每个个体的每个特征值通过公式(1)和公式(2)模拟成一个二进制编码值；

其中，表示第t次迭代中产生的第i个个体的第j个特征值,r是一个[0,1]的随机数，表示第t次迭代中产生的第i个个体的第j个二进制编码值，Sig均表示sigmoid函数；

在步骤S3中，采用公式(3)和公式(4)计算所述种群X^t的适应度值，并更新樽海鞘策略中使用的最优解和飞蛾扑火策略中涉及的火焰F^t和飞蛾M^t，其中火焰F^t是上述种群X^t所得的适应度值按从小到大的顺序重新组合而成的种群，飞蛾M^t为X^t；

其中，Fitness_i表示第i个个体的适应度值，acc_i表示分类准确率，w_A表示分类准确权值，w_F表示特征选择数权值，R是指每个二进制个体数值为‘1’的个数，即基因数据的特征子集的长度；D是个体的维度，即基因数据集中的属性总数，cc表示样本中分类正确的数目，uc表示分类错误的样本数目；

在所述步骤S4中，设置正余弦优化算法的相关参数r₁，r₂，r₃和r₄，并采用公式(5)更新得到新种群：

2.如权利要求1所述的基因选择方法，在步骤S1中根据特征提取得到的训练样本集，设初始化训练样本种群i＝1,2,...,N，j＝1,2,...,D,t＝0，其中，N为训练样本个体数量，D为每个训练样本的维度数，X^t表示在第t次迭代下所获取的种群，/>表示在t次迭代下第i个个体的第j个特征值，t表示当前迭代次数，取值范围为[0,1000]。

3.如权利要求1所述的基因选择方法，其特征在于，在所述步骤S5中，将正余弦优化算法更新的种群分别通过樽海鞘、飞蛾扑火和反向学习策略进行更新，以获取三个种群的步骤具体包括：

4.如权利要求3所述的基因选择方法，其特征在于，将步骤S5中获取的三个种群S^t+1，M^t ⁺¹和O^t+1，根据公式(3)和公式(4)求适应度值，并从小到大进行排序，筛选前N个适应度小的个体作为下一代种群X^t+1,其中N同上，为训练样本个体数量。

5.如权利要求4所述的基因选择方法，其特征在于，若达到最大迭代次数，则结束循环并输出最优解，否则迭代次数加1，并返回步骤S2。

6.一种基因选择装置，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～5中任一项所述的基因选择方法的步骤。

7.一种基因表达数据的除噪方法，其特征在于采用权利要求1～5中任一项所述的基因选择方法去除与样本分类无关的基因表达数据。