CN112215259B - 基因选择方法和装置 - Google Patents
基因选择方法和装置 Download PDFInfo
- Publication number
- CN112215259B CN112215259B CN202010982171.4A CN202010982171A CN112215259B CN 112215259 B CN112215259 B CN 112215259B CN 202010982171 A CN202010982171 A CN 202010982171A CN 112215259 B CN112215259 B CN 112215259B
- Authority
- CN
- China
- Prior art keywords
- population
- value
- iteration
- formula
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 63
- 238000010187 selection method Methods 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 31
- 241000251555 Tunicata Species 0.000 claims abstract description 20
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 230000002441 reversible effect Effects 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000001629 suppression Effects 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 16
- 238000002493 microarray Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 22
- 230000014509 gene expression Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000002068 genetic effect Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 12
- 230000002829 reductive effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000010208 microarray analysis Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 230000001766 physiological effect Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 241000251557 Ascidiacea Species 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010339 medical test Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Abstract
本发明提供一种基因选择方法,用于基因特征选择。包括通过基因数据微阵列数据集获取训练集和测试集,并确定初始化种群;将当前种群的每个个体采用转换函数进行二进制编码;计算当前种群的适应度值,并更新樽海鞘和飞蛾扑火策略中的相关参数;设置正余弦优化算法的相关参数,并采用正余弦优化算法迭代公式更新种群;将通过正余弦优化算法获取的种群依次通过樽海鞘,飞蛾扑火和反向学习策略进行更新,以获取三个种群;通过贪婪选择选出下一代种群;若达到最大迭代次数,则结束循环并输出最优解,否则继续迭代直至迭代计算结束。本发明可更精确、更高效地从基因中筛选出对类别贡献最大的基因特征,降低检测成本。
Description
技术领域
本发明涉及数据预处理领域的基因选择技术,尤其涉及一种基因选择方法。
背景技术
在当今竞争激烈的世界里,人类受到各种疾病的影响尤其是癌症,白血病等,医学检测有助于确定各种疾病的症状和原因。随着生物医学和健康领域相关技术的快速发展,大量的生物信息学和临床医学数据尤其是分子生物学实验数据、基因数据以前所未有的速度增长。目前人类虽然已经在分子水平上对各种疾病的产生和发展过程进行研究,发现大量的致病基因,但是人们对其发生和调控机制了解甚微。微阵列基因表达数据和蛋白质表达数据的分析可以用来掌握分子水平上生理活动信息。
然而,微阵列数据中的基因个数成千上万,其中一部分基因特征可能和挖掘任务是不相关的或者特征之间存在相互冗余。实际上,与样本分类真正相关的基因只占少数,这些冗余基因特征可能会导致检测算法的建模过度拟合和训练时间过长、从而导致错误的检测结果,甚至会导致延误造成患者生命的损失。
近年来,相关领域的研究者针对微阵列数据进行分析,采用不同类型的机器学习算法和统计方法,如人工神经网络和进化算法等,已被用于分析基因表达数据。但由于基因数据维度较高,并且具有较多的噪声,越来越多的智能算法在微阵列数据分析时变得更重要。挖掘最小基因子集大大减少了由无关基因引起的计算负担和“噪声”,甚至可以提取简单的检测规则,从而在不需要任何分类器的情况下进行准确检测,而且简化了基因表达测试,仅包括少数基因而不是数千个基因,这可以显著降低检测的成本,它要求进一步研究这些少数基因与疾病发展和治疗之间可能存在的生物学关系。基于粒子群算法、蝙蝠算法的基因选择方法,收获了相当好的分类结果。
正余弦优化算法(Sine Cosine Algorithm,SCA)是一种新兴的启发式群体智能算法,它采用正弦和余弦函数两个数学公式,在整个搜索空间上不断探索和开发的过程。然而,SCA在基因筛选的过程中,在优化解的收敛速度以及收敛精度上,仍然具有很高的提升空间。在这种情况下,很难保持勘探和开发的有效平衡。
因此,有必要提供一种基因选择方法,实现对基因表达数据更精确、更高效的除噪,降低检测成本。
发明内容
本发明在深入研究基因微阵列数据的特点的基础上,针对目前的存在的问题,设计了一种基因选择方法,以实现对基因表达数据更精确、更高效的除噪。
具体地,根据本发明一方面,本发明实施例提供了一种基因选择方法,所述方法包括以下步骤:
步骤S1、通过基因数据微阵列数据集获取训练集和测试集,并确定初始化种群;
步骤S2、将当前种群的每个个体的每个特征值采用转换函数进行二进制编码;
步骤S3、计算当前种群的适应度值,并更新樽海鞘和飞蛾扑火策略中的相关参数;
步骤S4、设置正余弦优化算法的相关参数,并采用正余弦优化算法迭代公式更新种群;
步骤S5、将通过正余弦算法获取的种群依次通过樽海鞘,飞蛾扑火和反向学习策略进行更新,以获取三个种群;
步骤S6、通过贪婪选择选出下一代种群;
步骤S7、若达到最大迭代次数,则结束循环并输出最优解,否则继续迭代直至迭代计算结束。
根据本发明又一方面,在步骤S1中,根据特征提取得到的训练样本集,设初始化训练样本种群i=1,2,...,N,j=1,2,...,D,t=0,其中,N为训练样本个体数量,D为每个训练样本的特征值,Xt表示在第t次迭代下所获取的种群,/>表示在t次迭代下第i个个体的第j个特征值,t表示当前迭代次数,取值范围为[0,1000]。
根据本发明又一方面,在步骤S2中,将种群Xt中的每个个体的每个特征值通过公式(1)和公式(2)模拟成一个二进制编码值;
其中,表示第t次迭代中产生的第i个个体的第j个特征值,r是一个[0,1]的随机数,/>表示第t次迭代中产生的第i个个体的第j个二进制编码值,Sig均表示sigmoid函数。
根据本发明又一方面,在步骤S3中,采用公式(3)和公式(4)计算所述种群Xt的适应度值,并更新樽海鞘策略中使用的最优解和飞蛾扑火策略中涉及的火焰Ft和飞蛾Mt,其中火焰Ft是上述种群Xt所得的适应度值按从小到大的顺序重新组合而成的种群,飞蛾Mt为Xt;
其中,Fitnessi表示第i个个体的适应度值,acci表示分类准确率,wA表示分类准确权值,wF表示特征选择数权值,R是指每个二进制个体数值为‘1’的个数,即基因数据的特征子集的长度;D是个体的维度,即基因数据集中的属性总数,cc表示样本中分类正确的数目,uc表示分类错误的样本数目。
根据本发明又一方面,在所述步骤S4中,设置正余弦优化算法的相关参数r1,r2,r3和r4,并采用公式(5)更新得到新种群:
其中,r1是[0,2]线性递减的函数,r2是[0,2π]的随机数,r3和r4是[0,1]的随机数,表示在t+1次迭代下产生的第i个个体的第j个特征值,/>是由公式(1)和(2)产生的在t次迭代下的第i个体的第j个二进制编码值,/>表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值所对应个体的第j个二进制编码值。
根据本发明又一方面,在所述步骤S5中,将正余弦优化算法更新的种群分别通过樽海鞘、飞蛾扑火和反向学习策略进行更新,以获取三个种群的步骤具体包括:
首先,樽海鞘更新策略将公式(5)获取的种群Xt+1进行转置,记为(Xt+1)T,具体为:当i<N/2,采用公式(6)进行更新得到前一半转置种群;当i>N/2且i<N+1,采用公式(7)进行更新得到后一半转置种群,最后综合转置种群并再实施转置得到新种群St+1,其中N同上,N为训练样本个体数量;
其中,t和tmax分别为当前迭代次数和最大迭代次数,c2和c3是[0,1]的随机数,/>表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值对应个体的第j个二进制编码值,ubj是第j维度的上界值,lbj是第j维度的下界值,是t+1次迭代下当前种群Xt+1的第i个体在第j维度转置值,/>表示在t+1次迭代下当前种群Xt+1的第i-1个体在第j维度转置值,/>是在t+1次迭代下利用樽海鞘更新策略获取的第i个体在第j维度转置值;
其次,飞蛾扑火更新策略是采用飞蛾的导航方式,将火焰作为飞蛾在搜索空间中搜索的“风向标”,以螺旋方式更新当前的位置,采用公式(8)~(10)进行更新种群Mt+1;
其中,为第t+1次迭代下第i飞蛾个体的第j维度值,/>为第t+1次迭代下第i火焰个体的第j维度值,/>为第t+1次迭代下,火焰和飞蛾的距离,b为常数系数,k为一个-1到1的随机数,n表示火焰的最大数目,t表示当前的迭代次数,tmax表示最大迭代次数,l表示当前火焰的数目,round表示四舍五入;
最后,反向学习策略是基于原始解决方案对称的反向解决方案;采用公式(11)获取当前种群的反向种群Ot+1;
其中,ubj是第j维度的上界值,lbj是第j维度的下界值,第t+1次迭代下第i个体的第j维度值。
根据本发明又一方面,在步骤S6中,将步骤S5中获取的三个种群St+1,Mt+1和Ot+1。根据公式(3)和公式(4)求适应度值,并从小到大进行排序,筛选前N个适应度小的个体作为下一代种群Xt+1,其中N同上,为训练样本个体数量;
根据本发明又一方面,在步骤S7中,若达到最大迭代次数,则结束循环并输出最优解,否则迭代次数加1,并返回步骤S2。
本发明实施例还提供了一种基因选择装置,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的基因选择方法的步骤。
本发明还提供了一种基因表达数据的除噪方法,其特征在于采用前述的基因选择方法去除与样本分类无关的基因表达数据。
实施本发明实施例,具有如下有益效果:
针对基因微阵列数据的特点,将樽海鞘策略、飞蛾扑火策略和反向学习策略结合到SCA算法中,大大减少了由无关基因引起的计算负担和“噪声”,甚至可以提取简单的检测规则,同时简化了基因表达测试,能显著降低检测的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例一提供的基因选择方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
根据本发明一种优选实施方式,如图1所示,提供了一种基因选择(筛选)方法,所述方法包括以下步骤:
步骤S1、通过基因数据微阵列数据集获取训练集和测试集,并确定初始化种群;
步骤S2、将当前种群的每个个体的每个特征值采用转换函数进行二进制编码;
步骤S3、计算当前种群的适应度值,并更新樽海鞘和飞蛾扑火策略中的相关参数;
步骤S4、设置正余弦优化算法的相关参数,并采用正余弦优化算法迭代公式更新种群;
步骤S5、将通过正余弦算法获取的种群依次通过樽海鞘,飞蛾扑火和反向学习策略进行更新,以获取三个种群;
步骤S6、通过贪婪选择选出下一代种群;
步骤S7、若达到最大迭代次数,则结束循环并输出最优解,否则继续迭代直至迭代计算结束。
有利地,针对基因数据的特点,通过樽海鞘策略、飞蛾扑火策略和反向学习策略,结合正余弦优化算法,大大减少了由无关基因引起的计算负担和“噪声”,简化了基因表达测试,能显著降低检测的成本。
根据本发明又一种优选实施方式,如图1所示,为本发明实施例一中,提供的一种基因选择方法,所述方法包括以下步骤。
目前微阵列数据通常是由DNA微阵列技术来获取,微阵列基因表达数据和蛋白质表达数据的分析可以用来掌握分子水平上的生理活动信息,已经被广泛的应用于生物医学领域。微阵列数据集的样本数目相对较少,基因数目成千上万,误差估计受样本的影响很大。当不对错误进行适当的估计,则会出现分类方法不当的应用。为了克服此问题,通过采用所谓K-折叠交叉验证的验证方法估计分类错误。本发明在分类过程求解精确度时使用10-折交叉来对分类结果进行验证,将数据集平均分成10份,其中一份作为测试集,另外九份作训练集,通过循环10次将最终的结果求平均值。用10-折交叉验证的优点是每轮的训练集合测试集都能够固定和重视,并且能够减少误差。
步骤S1、根据上述基因数据微阵列数据集提取得到的训练样本集,设初始化训练样本种群i=1,2,...,N,j=1,2,...,D,t=0,其中,N为训练样本个体数量,D为每个训练样本的维度数,Xt表示在第t次迭代下所获取的种群,/>表示在t次迭代下第i个个体的第j个特征值,t表示当前迭代次数,取值范围为[0,1000]。
步骤S2、根据所述训练样本集设计K-最近邻(KNN,K-Nearest Neighbor)分类器,并进行分类;
具体例如为,根据样本集设计KNN分类器并分类,将种群Xt中的每个个体的每个特征值通过公式(1)和公式(2)模拟成一个二进制编码值;
其中,表示第t次迭代中产生的第i个个体的第j个特征值,r是一个[0,1]的随机数,/>表示第t次迭代中产生的第i个个体的第j个二进制编码值,Sig均表示sigmoid函数。
步骤S3、通过公式(4)和(5),获取当前种群个体的适应度值,并按照适应度值从小到大进行排序,更新樽海鞘策略中使用的最优解和飞蛾扑火策略中涉及的火焰Ft和飞蛾Mt,其中火焰Ft具体是上述所得种群Xt的适应度值以从小到大的顺序重新组合而成的种群Ft,飞蛾Mt即为Xt。
KNN分类方法是依据测试样本与训练样本的距离来判断待测样本属于哪个类别,一般选取与测试样本距离最近的K个样本。当K=1,待测样本距离某个邻居样本中最近的,它的类别就和此样本类别一样;当K≥1,依据少数服从多数待测样本与最近的K个样本中同一类别根据KNN分类器中基于分裂精度定义的适应度函数。KNN算法的步骤如下:
首先,获取距离。当给定测试数据,计算它和训练数据中每个对象的距离。距离函数决定训练集中的哪些样本是待测样本的K个邻居,本发明的距离公式使用的是欧式距离,具体计算方式如下
其中testi表示第i个测试向量,trainj表示第j个训练向量,testi,k表示第i个测试向量的第k个维度值,trainj,k表示第j个训练向量的第k个维度值。
其次,寻找相邻对象。根据距离规定距离最近的K个训练样本,作为测试样本的邻居。
最后,确定类别。根据这K个邻居归属的主要类别,找出类别占比最大的作为测试样本所属的种类。
基因选择可以视作为多目标优化问题,其中要实现两个相互矛盾的目标即选取最小的基因数目和最大限度的提高分类精度。因此我们需要设置一个目标函数将这两个目标归一化到一个函数里面。具体的适应度函数如下:
其中,Fitnessi表示第i个个体的适应度值,acci表示分类准确率,wA表示分类准确权值,wF表示特征选择数权值,R是指每个二进制个体数值为‘1’的个数,即基因数据的特征子集的长度。D是个体的维度,即基因数据集中的属性总数,cc表示样本中分类正确的数目,uc表示分类错误的样本数目。
步骤S4、设置正余弦优化算法的相关参数,并获取通过正余弦优化算法更新的种群;
具体例如为,设置正余弦优化算法的相关参数r1,r2,r3和r4,并采用公式(6)更新得到新种群:
其中,r1是[0,2]线性递减的函数,r2是[0,2π]的随机数,r3和r4是[0,1]的随机数,表示在t+1次迭代下产生的第i个个体的第j个特征值,/>是由公式(1)和(2)产生的在t次迭代下的第i个体的第j个二进制编码值,/>表示在t次迭代下采用公式(4)和公式(5)获取二进制编码种群中最小适应度值所对应个体的第j个二进制编码值。
步骤S5、将所获取的正余弦优化算法更新的种群分别通过樽海鞘、飞蛾扑火和反向学习策略进行更新,以获取三个种群;
具体例如为,首先,樽海鞘更新策略将公式(6)获取的种群Xt+1进行转置,记为(Xt +1)T,具体为:当i<N/2,采用公式(7)进行更新得到前一半转置种群;当i>N/2且i<N+1,采用公式(8)进行更新得到后一半转置种群,最后综合转置种群并再实施转置得到新种群St+1,其中N同上,N为训练样本个体数量;
其中,t和tmax分别为当前迭代次数和最大迭代次数,c2和c3是[0,1]的随机数,/>表示在t次迭代下采用公式(4)和公式(5)获取二进制编码种群中最小适应度值对应个体的第j个二进制编码值,ubj是第j维度的上界值,lbj是第j维度的下界值,是t+1次迭代下当前种群Xt+1的第i个体在第j维度转置值,/>表示在t+1次迭代下当前种群Xt+1的第i-1个体在第j维度转置值,/>是在t+1次迭代下利用樽海鞘更新策略获取的第i个体在第j维度转置值;
其次,飞蛾扑火更新策略是采用飞蛾的导航方式,将火焰作为飞蛾在搜索空间中搜索的“风向标”,以螺旋方式更新当前的位置,采用公式(9)~(11)进行更新种群Mt+1;
其中,为第t+1次迭代下第i飞蛾个体的第j维度值,/>为第t+1次迭代下第i火焰个体的第j维度值,/>为第t+1次迭代下,火焰和飞蛾的距离,b为常数系数,k为一个-1到1的随机数,n表示火焰的最大数目,t表示当前的迭代次数,tmax表示最大迭代次数,l表示当前火焰的数目,round表示四舍五入;
最后,反向学习策略是基于原始解决方案对称的反向解决方案;采用公式(11)获取当前种群的反向种群Ot+1;
其中,ubj是第j维度的上界值,lbj是第j维度的下界值,第t+1次迭代下第i个体的第j维度值。
步骤S6、通过贪婪选择筛选出最佳种群;
具体例如为,将步骤S5中获取的三个种群St+1,Mt+1和Ot+1,根据公式(4)和公式(5)求适应度值,并从小到大进行排序,筛选前N个适应度小的个体作为下一代种群Xt+1,其中N同上,为训练样本个体数量。
步骤S7、若达到最大迭代次数,则结束循环并输出最优解,否则迭代次数加1,并返回步骤S2。
根据本发明一种优选实施方式,相对于本发明实施例一中提供的一种基因选择方法,本发明实施例二又提供了一种基因选择装置,包括存储器和处理器,存储器存储有计算机程序,其中,处理器执行计算机程序时实现本发明实施例一中的基因选择方法的步骤。应当说明的是,本发明实施例二中处理器执行计算机程序的过程,与本发明实施例一中提供的一种基因选择方法中各个步骤的执行过程一致,具体可参见前述相关内容描述。
根据本发明一种优选实施方式,本发明还提供了一种基因表达数据的除噪方法,其特征在于采用前述的基因选择方法去除与样本分类无关的基因表达数据。
实施本发明实施例,具有如下有益效果:
针对基因微阵列数据的特点,将樽海鞘策略、飞蛾扑火策略和反向学习策略结合到SCA算法中,大大减少了由无关基因引起的计算负担和“噪声”,甚至可以提取简单的检测规则,同时简化了基因表达测试,能显著降低检测的成本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (7)
1.一种基因选择方法,其特征在于,所述方法包括以下步骤:
步骤S1、通过基因数据微阵列数据集获取训练集和测试集,并确定初始化种群;
步骤S2、将当前种群的每个个体的每个特征值采用转换函数进行二进制编码;
步骤S3、计算当前种群的适应度值,并更新樽海鞘和飞蛾扑火策略中的相关参数;
步骤S4、设置正余弦优化算法的相关参数,并采用正余弦优化算法迭代公式更新种群;
步骤S5、将通过正余弦算法获取的种群依次通过樽海鞘,飞蛾扑火和反向学习策略进行更新,以获取三个种群;
步骤S6、通过贪婪选择选出下一代种群;
步骤S7、若达到最大迭代次数,则结束循环并输出最优解,否则继续迭代直至迭代计算结束;
其中,在步骤S2中将种群Xt中的每个个体的每个特征值通过公式(1)和公式(2)模拟成一个二进制编码值;
其中,表示第t次迭代中产生的第i个个体的第j个特征值,r是一个[0,1]的随机数,表示第t次迭代中产生的第i个个体的第j个二进制编码值,Sig均表示sigmoid函数;
在步骤S3中,采用公式(3)和公式(4)计算所述种群Xt的适应度值,并更新樽海鞘策略中使用的最优解和飞蛾扑火策略中涉及的火焰Ft和飞蛾Mt,其中火焰Ft是上述种群Xt所得的适应度值按从小到大的顺序重新组合而成的种群,飞蛾Mt为Xt;
其中,Fitnessi表示第i个个体的适应度值,acci表示分类准确率,wA表示分类准确权值,wF表示特征选择数权值,R是指每个二进制个体数值为‘1’的个数,即基因数据的特征子集的长度;D是个体的维度,即基因数据集中的属性总数,cc表示样本中分类正确的数目,uc表示分类错误的样本数目;
在所述步骤S4中,设置正余弦优化算法的相关参数r1,r2,r3和r4,并采用公式(5)更新得到新种群:
其中,r1是[0,2]线性递减的函数,r2是[0,2π]的随机数,r3和r4是[0,1]的随机数,表示在t+1次迭代下产生的第i个个体的第j个特征值,/>是由公式(1)和(2)产生的在t次迭代下的第i个体的第j个二进制编码值,/>表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值所对应个体的第j个二进制编码值。
2.如权利要求1所述的基因选择方法,在步骤S1中根据特征提取得到的训练样本集,设初始化训练样本种群i=1,2,...,N,j=1,2,...,D,t=0,其中,N为训练样本个体数量,D为每个训练样本的维度数,Xt表示在第t次迭代下所获取的种群,/>表示在t次迭代下第i个个体的第j个特征值,t表示当前迭代次数,取值范围为[0,1000]。
3.如权利要求1所述的基因选择方法,其特征在于,在所述步骤S5中,将正余弦优化算法更新的种群分别通过樽海鞘、飞蛾扑火和反向学习策略进行更新,以获取三个种群的步骤具体包括:
首先,樽海鞘更新策略将公式(5)获取的种群Xt+1进行转置,记为(Xt+1)T,具体为:当i<N/2,采用公式(6)进行更新得到前一半转置种群;当i>N/2且i<N+1,采用公式(7)进行更新得到后一半转置种群,最后综合转置种群并再实施转置得到新种群St+1,其中N同上,N为训练样本个体数量;
其中,t和tmax分别为当前迭代次数和最大迭代次数,c2和c3是[0,1]的随机数,/>表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值对应个体的第j个二进制编码值,ubj是第j维度的上界值,lbj是第j维度的下界值,是t+1次迭代下当前种群Xt+1的第i个体在第j维度转置值,/>表示在t+1次迭代下当前种群Xt+1的第i-1个体在第j维度转置值,/>是在t+1次迭代下利用樽海鞘更新策略获取的第i个体在第j维度转置值;
其次,飞蛾扑火更新策略是采用飞蛾的导航方式,将火焰作为飞蛾在搜索空间中搜索的“风向标”,以螺旋方式更新当前的位置,采用公式(8)~(10)进行更新种群Mt+1;
其中,为第t+1次迭代下第i飞蛾个体的第j维度值,/>为第t+1次迭代下第i火焰个体的第j维度值,/>为第t+1次迭代下,火焰和飞蛾的距离,b为常数系数,k为一个-1到1的随机数,n表示火焰的最大数目,t表示当前的迭代次数,tmax表示最大迭代次数,l表示当前火焰的数目,round表示四舍五入;
最后,反向学习策略是基于原始解决方案对称的反向解决方案;采用公式(11)获取当前种群的反向种群Ot+1;
其中,ubj是第j维度的上界值,lbj是第j维度的下界值,第t+1次迭代下第i个体的第j维度值。
4.如权利要求3所述的基因选择方法,其特征在于,将步骤S5中获取的三个种群St+1,Mt +1和Ot+1,根据公式(3)和公式(4)求适应度值,并从小到大进行排序,筛选前N个适应度小的个体作为下一代种群Xt+1,其中N同上,为训练样本个体数量。
5.如权利要求4所述的基因选择方法,其特征在于,若达到最大迭代次数,则结束循环并输出最优解,否则迭代次数加1,并返回步骤S2。
6.一种基因选择装置,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~5中任一项所述的基因选择方法的步骤。
7.一种基因表达数据的除噪方法,其特征在于采用权利要求1~5中任一项所述的基因选择方法去除与样本分类无关的基因表达数据。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010982171.4A CN112215259B (zh) | 2020-09-17 | 2020-09-17 | 基因选择方法和装置 |
CN202311331114.XA CN117238379A (zh) | 2020-09-17 | 2020-09-17 | 存储有基因选择方法程序的存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010982171.4A CN112215259B (zh) | 2020-09-17 | 2020-09-17 | 基因选择方法和装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311331114.XA Division CN117238379A (zh) | 2020-09-17 | 2020-09-17 | 存储有基因选择方法程序的存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215259A CN112215259A (zh) | 2021-01-12 |
CN112215259B true CN112215259B (zh) | 2023-12-01 |
Family
ID=74050452
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010982171.4A Active CN112215259B (zh) | 2020-09-17 | 2020-09-17 | 基因选择方法和装置 |
CN202311331114.XA Pending CN117238379A (zh) | 2020-09-17 | 2020-09-17 | 存储有基因选择方法程序的存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311331114.XA Pending CN117238379A (zh) | 2020-09-17 | 2020-09-17 | 存储有基因选择方法程序的存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112215259B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160890A (zh) * | 2021-03-13 | 2021-07-23 | 安徽师范大学 | 一种自适应基因调控网格构建方法及装置 |
CN114550822A (zh) * | 2022-01-26 | 2022-05-27 | 深圳先进技术研究院 | 一种基于智能优化算法的繁殖指导方法及装置 |
CN115458167A (zh) * | 2022-09-13 | 2022-12-09 | 郑州市中心医院 | 基于正余弦机制改进飞蛾扑火算法的肺癌预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145960A (zh) * | 2018-07-27 | 2019-01-04 | 山东大学 | 基于改进粒子群算法的数据特征选择方法及系统 |
CN109284860A (zh) * | 2018-08-28 | 2019-01-29 | 温州大学 | 一种基于正交反向樽海鞘优化算法的预测方法 |
CN109344994A (zh) * | 2018-08-28 | 2019-02-15 | 温州大学 | 一种基于改进飞蛾优化算法的预测模型方法 |
WO2020063690A1 (zh) * | 2018-09-25 | 2020-04-02 | 新智数字科技有限公司 | 一种电力系统预测的方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2207119A1 (en) * | 2009-01-06 | 2010-07-14 | Koninklijke Philips Electronics N.V. | Evolutionary clustering algorithm |
US20170213138A1 (en) * | 2016-01-27 | 2017-07-27 | Machine Zone, Inc. | Determining user sentiment in chat data |
-
2020
- 2020-09-17 CN CN202010982171.4A patent/CN112215259B/zh active Active
- 2020-09-17 CN CN202311331114.XA patent/CN117238379A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145960A (zh) * | 2018-07-27 | 2019-01-04 | 山东大学 | 基于改进粒子群算法的数据特征选择方法及系统 |
CN109284860A (zh) * | 2018-08-28 | 2019-01-29 | 温州大学 | 一种基于正交反向樽海鞘优化算法的预测方法 |
CN109344994A (zh) * | 2018-08-28 | 2019-02-15 | 温州大学 | 一种基于改进飞蛾优化算法的预测模型方法 |
WO2020063690A1 (zh) * | 2018-09-25 | 2020-04-02 | 新智数字科技有限公司 | 一种电力系统预测的方法和装置 |
Non-Patent Citations (1)
Title |
---|
《一种微阵列数据降维新方法》;王刚,张禹瑄,李颖,陈慧灵,胡玮通,秦磊;《吉林大学学报(工学版)》(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112215259A (zh) | 2021-01-12 |
CN117238379A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215259B (zh) | 基因选择方法和装置 | |
Kundu et al. | AltWOA: Altruistic Whale Optimization Algorithm for feature selection on microarray datasets | |
Kusy et al. | Weighted probabilistic neural network | |
Bibaeva | Using metaheuristics for hyper-parameter optimization of convolutional neural networks | |
CN110853756B (zh) | 基于som神经网络和svm的食管癌风险预测方法 | |
Zaman et al. | Codon based back propagation neural network approach to classify hypertension gene sequences | |
CN112116952A (zh) | 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 | |
CN116601715A (zh) | 通过主动学习进行药物优化 | |
CN113903395A (zh) | 一种改进粒子群优化的bp神经网络拷贝数变异检测方法与系统 | |
Bhardwaj et al. | A genetically optimized neural network for classification of breast cancer disease | |
CN115393632A (zh) | 一种基于进化多目标神经网络架构构造的图像分类方法 | |
Nouri-Moghaddam et al. | A novel filter-wrapper hybrid gene selection approach for microarray data based on multi-objective forest optimization algorithm | |
Gupta et al. | An optimal multi-disease prediction framework using hybrid machine learning techniques: 10.48129/kjs. splml. 19321 | |
CN112908414A (zh) | 一种大规模单细胞分型方法、系统及存储介质 | |
CN112200224B (zh) | 医学图像特征处理方法和装置 | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
CN114864002A (zh) | 一种基于深度学习的转录因子结合位点识别方法 | |
Zhong et al. | Gestational Diabetes Mellitus Prediction Based on Two Classification Algorithms | |
CN111414935A (zh) | 基于卡方检测算法和改进的果蝇优化算法的有效混合特征选择方法 | |
CN116226629B (zh) | 一种基于特征贡献的多模型特征选择方法及系统 | |
Fombellida et al. | Application of artificial metaplasticity fundamentals to WBCD breast cancer database classification method | |
CN111709440B (zh) | 基于FSA-Choquet模糊积分的特征选择方法 | |
Glaros | Data-driven definition of cell types based on single-cell gene expression data | |
Wardhani et al. | Optimization of the decision tree method using pruning on liver disease classification | |
Subbotin | Neural network model synthesis based on a regression tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |