CN112215259A - 基因选择方法和装置 - Google Patents

基因选择方法和装置 Download PDF

Info

Publication number
CN112215259A
CN112215259A CN202010982171.4A CN202010982171A CN112215259A CN 112215259 A CN112215259 A CN 112215259A CN 202010982171 A CN202010982171 A CN 202010982171A CN 112215259 A CN112215259 A CN 112215259A
Authority
CN
China
Prior art keywords
population
value
iteration
updating
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010982171.4A
Other languages
English (en)
Other versions
CN112215259B (zh
Inventor
陈慧灵
周伟
汪鹏君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN202311331114.XA priority Critical patent/CN117238379A/zh
Priority to CN202010982171.4A priority patent/CN112215259B/zh
Publication of CN112215259A publication Critical patent/CN112215259A/zh
Application granted granted Critical
Publication of CN112215259B publication Critical patent/CN112215259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基因选择方法,用于基因特征选择。包括通过基因数据微阵列数据集获取训练集和测试集,并确定初始化种群;将当前种群的每个个体采用转换函数进行二进制编码;计算当前种群的适应度值,并更新樽海鞘和飞蛾扑火策略中的相关参数;设置正余弦优化算法的相关参数,并采用正余弦优化算法迭代公式更新种群;将通过正余弦优化算法获取的种群依次通过樽海鞘,飞蛾扑火和反向学习策略进行更新,以获取三个种群;通过贪婪选择选出下一代种群;若达到最大迭代次数,则结束循环并输出最优解,否则继续迭代直至迭代计算结束。本发明可更精确、更高效地从基因中筛选出对类别贡献最大的基因特征,降低检测成本。

Description

基因选择方法和装置
技术领域
本发明涉及数据预处理领域的基因选择技术,尤其涉及一种基因选择方法。
背景技术
在当今竞争激烈的世界里,人类受到各种疾病的影响尤其是癌症,白血病等,医学检测有助于确定各种疾病的症状和原因。随着生物医学和健康领域相关技术的快速发展,大量的生物信息学和临床医学数据尤其是分子生物学实验数据、基因数据以前所未有的速度增长。目前人类虽然已经在分子水平上对各种疾病的产生和发展过程进行研究,发现大量的致病基因,但是人们对其发生和调控机制了解甚微。微阵列基因表达数据和蛋白质表达数据的分析可以用来掌握分子水平上生理活动信息。
然而,微阵列数据中的基因个数成千上万,其中一部分基因特征可能和挖掘任务是不相关的或者特征之间存在相互冗余。实际上,与样本分类真正相关的基因只占少数,这些冗余基因特征可能会导致检测算法的建模过度拟合和训练时间过长、从而导致错误的检测结果,甚至会导致延误造成患者生命的损失。
近年来,相关领域的研究者针对微阵列数据进行分析,采用不同类型的机器学习算法和统计方法,如人工神经网络和进化算法等,已被用于分析基因表达数据。但由于基因数据维度较高,并且具有较多的噪声,越来越多的智能算法在微阵列数据分析时变得更重要。挖掘最小基因子集大大减少了由无关基因引起的计算负担和“噪声”,甚至可以提取简单的检测规则,从而在不需要任何分类器的情况下进行准确检测,而且简化了基因表达测试,仅包括少数基因而不是数千个基因,这可以显著降低检测的成本,它要求进一步研究这些少数基因与疾病发展和治疗之间可能存在的生物学关系。基于粒子群算法、蝙蝠算法的基因选择方法,收获了相当好的分类结果。
正余弦优化算法(Sine Cosine Algorithm,SCA)是一种新兴的启发式群体智能算法,它采用正弦和余弦函数两个数学公式,在整个搜索空间上不断探索和开发的过程。然而,SCA在基因筛选的过程中,在优化解的收敛速度以及收敛精度上,仍然具有很高的提升空间。在这种情况下,很难保持勘探和开发的有效平衡。
因此,有必要提供一种基因选择方法,实现对基因表达数据更精确、更高效的除噪,降低检测成本。
发明内容
本发明在深入研究基因微阵列数据的特点的基础上,针对目前的存在的问题,设计了一种基因选择方法,以实现对基因表达数据更精确、更高效的除噪。
具体地,根据本发明一方面,本发明实施例提供了一种基因选择方法,所述方法包括以下步骤:
步骤S1、通过基因数据微阵列数据集获取训练集和测试集,并确定初始化种群;
步骤S2、将当前种群的每个个体的每个特征值采用转换函数进行二进制编码;
步骤S3、计算当前种群的适应度值,并更新樽海鞘和飞蛾扑火策略中的相关参数;
步骤S4、设置正余弦优化算法的相关参数,并采用正余弦优化算法迭代公式更新种群;
步骤S5、将通过正余弦算法获取的种群依次通过樽海鞘,飞蛾扑火和反向学习策略进行更新,以获取三个种群;
步骤S6、通过贪婪选择选出下一代种群;
步骤S7、若达到最大迭代次数,则结束循环并输出最优解,否则继续迭代直至迭代计算结束。
根据本发明又一方面,在步骤S1中,根据特征提取得到的训练样本集,设初始化训练样本种群
Figure BDA0002687953850000021
i=1,2,...,N,j=1,2,...,D,t=0,其中,N为训练样本个体数量,D为每个训练样本的特征值,Xt表示在第t次迭代下所获取的种群,
Figure BDA0002687953850000031
表示在t次迭代下第i个个体的第j个特征值,t表示当前迭代次数,取值范围为[0,1000]。
根据本发明又一方面,在步骤S2中,将种群Xt中的每个个体的每个特征值通过公式(1)和公式(2)模拟成一个二进制编码值;
Figure BDA0002687953850000032
Figure BDA0002687953850000033
其中,
Figure BDA0002687953850000034
表示第t次迭代中产生的第i个个体的第j个特征值,r是一个[0,1]的随机数,
Figure BDA0002687953850000035
表示第t次迭代中产生的第i个个体的第j个二进制编码值,Sig均表示sigmoid函数。
根据本发明又一方面,在步骤S3中,采用公式(3)和公式(4)计算所述种群Xt的适应度值,并更新樽海鞘策略中使用的最优解和飞蛾扑火策略中涉及的火焰Ft和飞蛾Mt,其中火焰Ft是上述种群Xt所得的适应度值按从小到大的顺序重新组合而成的种群,飞蛾Mt为Xt
Figure BDA0002687953850000036
Figure BDA0002687953850000037
其中,Fitnessi表示第i个个体的适应度值,acci表示分类准确率,wA表示分类准确权值,wF表示特征选择数权值,R是指每个二进制个体数值为‘1’的个数,即基因数据的特征子集的长度;D是个体的维度,即基因数据集中的属性总数,cc表示样本中分类正确的数目,uc表示分类错误的样本数目。
根据本发明又一方面,在所述步骤S4中,设置正余弦优化算法的相关参数r1,r2,r3和r4,并采用公式(5)更新得到新种群:
Figure BDA0002687953850000038
其中,r1是[0,2]线性递减的函数,r2是[0,2π]的随机数,r3和r4是[0,1]的随机数,
Figure BDA0002687953850000041
表示在t+1次迭代下产生的第i个个体的第j个特征值,
Figure BDA0002687953850000042
是由公式(1)和(2)产生的在t次迭代下的第i个体的第j个二进制编码值,
Figure BDA0002687953850000043
表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值所对应个体的第j个二进制编码值。
根据本发明又一方面,在所述步骤S5中,将正余弦优化算法更新的种群分别通过樽海鞘、飞蛾扑火和反向学习策略进行更新,以获取三个种群的步骤具体包括:
首先,樽海鞘更新策略将公式(5)获取的种群Xt+1进行转置,记为(Xt+1)T,具体为:当i<N/2,采用公式(6)进行更新得到前一半转置种群;当i>N/2且i<N+1,采用公式(7)进行更新得到后一半转置种群,最后综合转置种群并再实施转置得到新种群St+1,其中N同上,N为训练样本个体数量;
Figure BDA0002687953850000044
Figure BDA0002687953850000045
其中,
Figure BDA0002687953850000046
t和tmax分别为当前迭代次数和最大迭代次数,c2和c3是[0,1]的随机数,
Figure BDA0002687953850000047
表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值对应个体的第j个二进制编码值,ubj是第j维度的上界值,lbj是第j维度的下界值,
Figure BDA0002687953850000048
是t+1次迭代下当前种群Xt+1的第i个体在第j维度转置值,
Figure BDA0002687953850000049
表示在t+1次迭代下当前种群Xt+1的第i-1个体在第j维度转置值,
Figure BDA00026879538500000410
是在t+1次迭代下利用樽海鞘更新策略获取的第i个体在第j维度转置值;
其次,飞蛾扑火更新策略是采用飞蛾的导航方式,将火焰作为飞蛾在搜索空间中搜索的“风向标”,以螺旋方式更新当前的位置,采用公式(8)~(10)进行更新种群Mt+1
Figure BDA00026879538500000411
Figure BDA00026879538500000412
Figure BDA0002687953850000051
其中,
Figure BDA0002687953850000052
为第t+1次迭代下第i飞蛾个体的第j维度值,
Figure BDA0002687953850000053
为第t+1次迭代下第i火焰个体的第j维度值,
Figure BDA0002687953850000054
为第t+1次迭代下,火焰和飞蛾的距离,b为常数系数,k为一个-1到1的随机数,n表示火焰的最大数目,t表示当前的迭代次数,tmax表示最大迭代次数,l表示当前火焰的数目,round表示四舍五入;
最后,反向学习策略是基于原始解决方案对称的反向解决方案;采用公式(11)获取当前种群的反向种群Ot+1
Figure BDA0002687953850000055
其中,ubj是第j维度的上界值,lbj是第j维度的下界值,
Figure BDA0002687953850000056
第t+1次迭代下第i个体的第j维度值。
根据本发明又一方面,在步骤S6中,将步骤S5中获取的三个种群St+1,Mt+1和Ot+1。根据公式(3)和公式(4)求适应度值,并从小到大进行排序,筛选前N个适应度小的个体作为下一代种群Xt+1,其中N同上,为训练样本个体数量;
根据本发明又一方面,在步骤S7中,若达到最大迭代次数,则结束循环并输出最优解,否则迭代次数加1,并返回步骤S2。
本发明实施例还提供了一种基因选择装置,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的基因选择方法的步骤。
本发明还提供了一种基因表达数据的除噪方法,其特征在于采用前述的基因选择方法去除与样本分类无关的基因表达数据。
实施本发明实施例,具有如下有益效果:
针对基因微阵列数据的特点,将樽海鞘策略、飞蛾扑火策略和反向学习策略结合到SCA算法中,大大减少了由无关基因引起的计算负担和“噪声”,甚至可以提取简单的检测规则,同时简化了基因表达测试,能显著降低检测的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例一提供的基因选择方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
根据本发明一种优选实施方式,如图1所示,提供了一种基因选择(筛选)方法,所述方法包括以下步骤:
步骤S1、通过基因数据微阵列数据集获取训练集和测试集,并确定初始化种群;
步骤S2、将当前种群的每个个体的每个特征值采用转换函数进行二进制编码;
步骤S3、计算当前种群的适应度值,并更新樽海鞘和飞蛾扑火策略中的相关参数;
步骤S4、设置正余弦优化算法的相关参数,并采用正余弦优化算法迭代公式更新种群;
步骤S5、将通过正余弦算法获取的种群依次通过樽海鞘,飞蛾扑火和反向学习策略进行更新,以获取三个种群;
步骤S6、通过贪婪选择选出下一代种群;
步骤S7、若达到最大迭代次数,则结束循环并输出最优解,否则继续迭代直至迭代计算结束。
有利地,针对基因数据的特点,通过樽海鞘策略、飞蛾扑火策略和反向学习策略,结合正余弦优化算法,大大减少了由无关基因引起的计算负担和“噪声”,简化了基因表达测试,能显著降低检测的成本。
根据本发明又一种优选实施方式,如图1所示,为本发明实施例一中,提供的一种基因选择方法,所述方法包括以下步骤。
目前微阵列数据通常是由DNA微阵列技术来获取,微阵列基因表达数据和蛋白质表达数据的分析可以用来掌握分子水平上的生理活动信息,已经被广泛的应用于生物医学领域。微阵列数据集的样本数目相对较少,基因数目成千上万,误差估计受样本的影响很大。当不对错误进行适当的估计,则会出现分类方法不当的应用。为了克服此问题,通过采用所谓K-折叠交叉验证的验证方法估计分类错误。本发明在分类过程求解精确度时使用10-折交叉来对分类结果进行验证,将数据集平均分成10份,其中一份作为测试集,另外九份作训练集,通过循环10次将最终的结果求平均值。用10-折交叉验证的优点是每轮的训练集合测试集都能够固定和重视,并且能够减少误差。
步骤S1、根据上述基因数据微阵列数据集提取得到的训练样本集,设初始化训练样本种群
Figure BDA0002687953850000071
i=1,2,...,N,j=1,2,...,D,t=0,其中,N为训练样本个体数量,D为每个训练样本的维度数,Xt表示在第t次迭代下所获取的种群,
Figure BDA0002687953850000072
表示在t次迭代下第i个个体的第j个特征值,t表示当前迭代次数,取值范围为[0,1000]。
步骤S2、根据所述训练样本集设计K-最近邻(KNN,K-Nearest Neighbor)分类器,并进行分类;
具体例如为,根据样本集设计KNN分类器并分类,将种群Xt中的每个个体的每个特征值通过公式(1)和公式(2)模拟成一个二进制编码值;
Figure BDA0002687953850000073
Figure BDA0002687953850000074
其中,
Figure BDA0002687953850000075
表示第t次迭代中产生的第i个个体的第j个特征值,r是一个[0,1]的随机数,
Figure BDA0002687953850000076
表示第t次迭代中产生的第i个个体的第j个二进制编码值,Sig均表示sigmoid函数。
步骤S3、通过公式(4)和(5),获取当前种群个体的适应度值,并按照适应度值从小到大进行排序,更新樽海鞘策略中使用的最优解和飞蛾扑火策略中涉及的火焰Ft和飞蛾Mt,其中火焰Ft具体是上述所得种群Xt的适应度值以从小到大的顺序重新组合而成的种群Ft,飞蛾Mt即为Xt
KNN分类方法是依据测试样本与训练样本的距离来判断待测样本属于哪个类别,一般选取与测试样本距离最近的K个样本。当K=1,待测样本距离某个邻居样本中最近的,它的类别就和此样本类别一样;当K≥1,依据少数服从多数待测样本与最近的K个样本中同一类别根据KNN分类器中基于分裂精度定义的适应度函数。KNN算法的步骤如下:
首先,获取距离。当给定测试数据,计算它和训练数据中每个对象的距离。距离函数决定训练集中的哪些样本是待测样本的K个邻居,本发明的距离公式使用的是欧式距离,具体计算方式如下
Figure BDA0002687953850000081
其中testi表示第i个测试向量,trainj表示第j个训练向量,testi,k表示第i个测试向量的第k个维度值,trainj,k表示第j个训练向量的第k个维度值。
其次,寻找相邻对象。根据距离规定距离最近的K个训练样本,作为测试样本的邻居。
最后,确定类别。根据这K个邻居归属的主要类别,找出类别占比最大的作为测试样本所属的种类。
基因选择可以视作为多目标优化问题,其中要实现两个相互矛盾的目标即选取最小的基因数目和最大限度的提高分类精度。因此我们需要设置一个目标函数将这两个目标归一化到一个函数里面。具体的适应度函数如下:
Figure BDA0002687953850000082
Figure BDA0002687953850000083
其中,Fitnessi表示第i个个体的适应度值,acci表示分类准确率,wA表示分类准确权值,wF表示特征选择数权值,R是指每个二进制个体数值为‘1’的个数,即基因数据的特征子集的长度。D是个体的维度,即基因数据集中的属性总数,cc表示样本中分类正确的数目,uc表示分类错误的样本数目。
步骤S4、设置正余弦优化算法的相关参数,并获取通过正余弦优化算法更新的种群;
具体例如为,设置正余弦优化算法的相关参数r1,r2,r3和r4,并采用公式(6)更新得到新种群:
Figure BDA0002687953850000091
其中,r1是[0,2]线性递减的函数,r2是[0,2π]的随机数,r3和r4是[0,1]的随机数,
Figure BDA0002687953850000092
表示在t+1次迭代下产生的第i个个体的第j个特征值,
Figure BDA0002687953850000093
是由公式(1)和(2)产生的在t次迭代下的第i个体的第j个二进制编码值,
Figure BDA0002687953850000094
表示在t次迭代下采用公式(4)和公式(5)获取二进制编码种群中最小适应度值所对应个体的第j个二进制编码值。
步骤S5、将所获取的正余弦优化算法更新的种群分别通过樽海鞘、飞蛾扑火和反向学习策略进行更新,以获取三个种群;
具体例如为,首先,樽海鞘更新策略将公式(6)获取的种群Xt+1进行转置,记为(Xt +1)T,具体为:当i<N/2,采用公式(7)进行更新得到前一半转置种群;当i>N/2且i<N+1,采用公式(8)进行更新得到后一半转置种群,最后综合转置种群并再实施转置得到新种群St+1,其中N同上,N为训练样本个体数量;
Figure BDA0002687953850000095
Figure BDA0002687953850000096
其中,
Figure BDA0002687953850000097
t和tmax分别为当前迭代次数和最大迭代次数,c2和c3是[0,1]的随机数,
Figure BDA0002687953850000098
表示在t次迭代下采用公式(4)和公式(5)获取二进制编码种群中最小适应度值对应个体的第j个二进制编码值,ubj是第j维度的上界值,lbj是第j维度的下界值,
Figure BDA0002687953850000101
是t+1次迭代下当前种群Xt+1的第i个体在第j维度转置值,
Figure BDA0002687953850000102
表示在t+1次迭代下当前种群Xt+1的第i-1个体在第j维度转置值,
Figure BDA0002687953850000103
是在t+1次迭代下利用樽海鞘更新策略获取的第i个体在第j维度转置值;
其次,飞蛾扑火更新策略是采用飞蛾的导航方式,将火焰作为飞蛾在搜索空间中搜索的“风向标”,以螺旋方式更新当前的位置,采用公式(9)~(11)进行更新种群Mt+1
Figure BDA0002687953850000104
Figure BDA0002687953850000105
Figure BDA0002687953850000106
其中,
Figure BDA0002687953850000107
为第t+1次迭代下第i飞蛾个体的第j维度值,
Figure BDA0002687953850000108
为第t+1次迭代下第i火焰个体的第j维度值,
Figure BDA0002687953850000109
为第t+1次迭代下,火焰和飞蛾的距离,b为常数系数,k为一个-1到1的随机数,n表示火焰的最大数目,t表示当前的迭代次数,tmax表示最大迭代次数,l表示当前火焰的数目,round表示四舍五入;
最后,反向学习策略是基于原始解决方案对称的反向解决方案;采用公式(11)获取当前种群的反向种群Ot+1
Figure BDA00026879538500001010
其中,ubj是第j维度的上界值,lbj是第j维度的下界值,
Figure BDA00026879538500001011
第t+1次迭代下第i个体的第j维度值。
步骤S6、通过贪婪选择筛选出最佳种群;
具体例如为,将步骤S5中获取的三个种群St+1,Mt+1和Ot+1,根据公式(4)和公式(5)求适应度值,并从小到大进行排序,筛选前N个适应度小的个体作为下一代种群Xt+1,其中N同上,为训练样本个体数量。
步骤S7、若达到最大迭代次数,则结束循环并输出最优解,否则迭代次数加1,并返回步骤S2。
根据本发明一种优选实施方式,相对于本发明实施例一中提供的一种基因选择方法,本发明实施例二又提供了一种基因选择装置,包括存储器和处理器,存储器存储有计算机程序,其中,处理器执行计算机程序时实现本发明实施例一中的基因选择方法的步骤。应当说明的是,本发明实施例二中处理器执行计算机程序的过程,与本发明实施例一中提供的一种基因选择方法中各个步骤的执行过程一致,具体可参见前述相关内容描述。
根据本发明一种优选实施方式,本发明还提供了一种基因表达数据的除噪方法,其特征在于采用前述的基因选择方法去除与样本分类无关的基因表达数据。
实施本发明实施例,具有如下有益效果:
针对基因微阵列数据的特点,将樽海鞘策略、飞蛾扑火策略和反向学习策略结合到SCA算法中,大大减少了由无关基因引起的计算负担和“噪声”,甚至可以提取简单的检测规则,同时简化了基因表达测试,能显著降低检测的成本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种基因选择方法,其特征在于,所述方法包括以下步骤:
步骤S1、通过基因数据微阵列数据集获取训练集和测试集,并确定初始化种群;
步骤S2、将当前种群的每个个体的每个特征值采用转换函数进行二进制编码;
步骤S3、计算当前种群的适应度值,并更新樽海鞘和飞蛾扑火策略中的相关参数;
步骤S4、设置正余弦优化算法的相关参数,并采用正余弦优化算法迭代公式更新种群;
步骤S5、将通过正余弦算法获取的种群依次通过樽海鞘,飞蛾扑火和反向学习策略进行更新,以获取三个种群;
步骤S6、通过贪婪选择选出下一代种群;
步骤S7、若达到最大迭代次数,则结束循环并输出最优解,否则继续迭代直至迭代计算结束。
2.如权利要求1所述的基因选择方法,在步骤S1中根据特征提取得到的训练样本集,设初始化训练样本种群
Figure FDA0002687953840000011
Figure FDA0002687953840000012
其中,N为训练样本个体数量,D为每个训练样本的维度数,Xt表示在第t次迭代下所获取的种群,
Figure FDA0002687953840000013
表示在t次迭代下第i个个体的第j个特征值,t表示当前迭代次数,取值范围为[0,1000]。
3.如权利要求1所述的基因选择方法,其特征在于,在步骤S2中将种群Xt中的每个个体的每个特征值通过公式(1)和公式(2)模拟成一个二进制编码值;
Figure FDA0002687953840000014
Figure FDA0002687953840000015
其中,
Figure FDA0002687953840000021
表示第t次迭代中产生的第i个个体的第j个特征值,r是一个[0,1]的随机数,
Figure FDA0002687953840000022
表示第t次迭代中产生的第i个个体的第j个二进制编码值,Sig均表示sigmoid函数。
4.如权利要求3所述的基因选择方法,其特征在于,在步骤S3中,采用公式(3)和公式(4)计算所述种群Xt的适应度值,并更新樽海鞘策略中使用的最优解和飞蛾扑火策略中涉及的火焰Ft和飞蛾Mt,其中火焰Ft是上述种群Xt所得的适应度值按从小到大的顺序重新组合而成的种群,飞蛾Mt为Xt
Figure FDA0002687953840000023
Figure FDA0002687953840000024
其中,Fitnessi表示第i个个体的适应度值,acci表示分类准确率,wA表示分类准确权值,wF表示特征选择数权值,R是指每个二进制个体数值为‘1’的个数,即基因数据的特征子集的长度;D是个体的维度,即基因数据集中的属性总数,cc表示样本中分类正确的数目,uc表示分类错误的样本数目。
5.如权利要求4所述的基因选择方法,其特征在于,在所述步骤S4中,设置正余弦优化算法的相关参数r1,r2,r3和r4,并采用公式(5)更新得到新种群:
Figure FDA0002687953840000025
其中,r1是[0,2]线性递减的函数,r2是[0,2π]的随机数,r3和r4是[0,1]的随机数,
Figure FDA0002687953840000026
表示在t+1次迭代下产生的第i个个体的第j个特征值,
Figure FDA0002687953840000027
是由公式(1)和(2)产生的在t次迭代下的第i个体的第j个二进制编码值,Pj t表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值所对应个体的第j个二进制编码值。
6.如权利要求5所述的基因选择方法,其特征在于,在所述步骤S5中,将正余弦优化算法更新的种群分别通过樽海鞘、飞蛾扑火和反向学习策略进行更新,以获取三个种群的步骤具体包括:
首先,樽海鞘更新策略将公式(5)获取的种群Xt+1进行转置,记为(Xt+1)T。具体为:当i<N/2,采用公式(6)进行更新得到前一半转置种群;当i>N/2且i<N+1,采用公式(7)进行更新得到后一半转置种群,最后综合转置种群并再实施转置得到新种群St+1,其中N同上,N为训练样本个体数量;
Figure FDA0002687953840000031
Figure FDA0002687953840000032
其中,
Figure FDA0002687953840000033
t和tmax分别为当前迭代次数和最大迭代次数,c2和c3是[0,1]的随机数,Pj t表示在t次迭代下采用公式(3)和公式(4)获取二进制编码种群中最小适应度值对应个体的第j个二进制编码值,ubj是第j维度的上界值,lbj是第j维度的下界值,
Figure FDA0002687953840000034
是t+1次迭代下当前种群Xt+1的第i个体在第j维度转置值,
Figure FDA0002687953840000035
表示在t+1次迭代下当前种群Xt+1的第i-1个体在第j维度转置值,
Figure FDA0002687953840000036
是在t+1次迭代下利用樽海鞘更新策略获取的第i个体在第j维度转置值;
其次,飞蛾扑火更新策略是采用飞蛾的导航方式,将火焰作为飞蛾在搜索空间中搜索的“风向标”,以螺旋方式更新当前的位置,采用公式(8)~(10)进行更新种群Mt+1
Figure FDA0002687953840000037
Figure FDA0002687953840000038
Figure FDA0002687953840000039
其中,
Figure FDA00026879538400000310
为第t+1次迭代下第i飞蛾个体的第j维度值,
Figure FDA00026879538400000311
为第t+1次迭代下第i火焰个体的第j维度值,
Figure FDA00026879538400000312
为第t+1次迭代下,火焰和飞蛾的距离,b为常数系数,k为一个-1到1的随机数,n表示火焰的最大数目,t表示当前的迭代次数,tmax表示最大迭代次数,l表示当前火焰的数目,round表示四舍五入;
最后,反向学习策略是基于原始解决方案对称的反向解决方案;采用公式(11)获取当前种群的反向种群Ot+1
Figure FDA0002687953840000041
其中,ubj是第j维度的上界值,lbj是第j维度的下界值,
Figure FDA0002687953840000042
第t+1次迭代下第i个体的第j维度值。
7.如权利要求6所述的基因选择方法,其特征在于,将步骤S5中获取的三个种群St+1,Mt +1和Ot+1,根据公式(3)和公式(4)求适应度值,并从小到大进行排序,筛选前N个适应度小的个体作为下一代种群Xt+1,其中N同上,为训练样本个体数量。
8.如权利要求7所述的基因选择方法,其特征在于,若达到最大迭代次数,则结束循环并输出最优解,否则迭代次数加1,并返回步骤S2。
9.一种基因选择装置,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~8中任一项所述的基因选择方法的步骤。
10.一种基因表达数据的除噪方法,其特征在于采用权利要求1~8中任一项所述的基因选择方法去除与样本分类无关的基因表达数据。
CN202010982171.4A 2020-09-17 2020-09-17 基因选择方法和装置 Active CN112215259B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202311331114.XA CN117238379A (zh) 2020-09-17 2020-09-17 存储有基因选择方法程序的存储介质
CN202010982171.4A CN112215259B (zh) 2020-09-17 2020-09-17 基因选择方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010982171.4A CN112215259B (zh) 2020-09-17 2020-09-17 基因选择方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311331114.XA Division CN117238379A (zh) 2020-09-17 2020-09-17 存储有基因选择方法程序的存储介质

Publications (2)

Publication Number Publication Date
CN112215259A true CN112215259A (zh) 2021-01-12
CN112215259B CN112215259B (zh) 2023-12-01

Family

ID=74050452

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010982171.4A Active CN112215259B (zh) 2020-09-17 2020-09-17 基因选择方法和装置
CN202311331114.XA Pending CN117238379A (zh) 2020-09-17 2020-09-17 存储有基因选择方法程序的存储介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311331114.XA Pending CN117238379A (zh) 2020-09-17 2020-09-17 存储有基因选择方法程序的存储介质

Country Status (1)

Country Link
CN (2) CN112215259B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160890A (zh) * 2021-03-13 2021-07-23 安徽师范大学 一种自适应基因调控网格构建方法及装置
CN115458167A (zh) * 2022-09-13 2022-12-09 郑州市中心医院 基于正余弦机制改进飞蛾扑火算法的肺癌预测方法
WO2023142722A1 (zh) * 2022-01-26 2023-08-03 深圳先进技术研究院 一种基于智能优化算法的繁殖指导方法及装置
CN118522358A (zh) * 2024-07-22 2024-08-20 温州大学大数据与信息技术研究院 一种基因选择方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016826A1 (en) * 2009-01-06 2012-01-19 Koninklijke Philips Electronics N.V. Evolutionary clustering algorithm
US20170213138A1 (en) * 2016-01-27 2017-07-27 Machine Zone, Inc. Determining user sentiment in chat data
CN109145960A (zh) * 2018-07-27 2019-01-04 山东大学 基于改进粒子群算法的数据特征选择方法及系统
CN109284860A (zh) * 2018-08-28 2019-01-29 温州大学 一种基于正交反向樽海鞘优化算法的预测方法
CN109344994A (zh) * 2018-08-28 2019-02-15 温州大学 一种基于改进飞蛾优化算法的预测模型方法
WO2020063690A1 (zh) * 2018-09-25 2020-04-02 新智数字科技有限公司 一种电力系统预测的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016826A1 (en) * 2009-01-06 2012-01-19 Koninklijke Philips Electronics N.V. Evolutionary clustering algorithm
US20170213138A1 (en) * 2016-01-27 2017-07-27 Machine Zone, Inc. Determining user sentiment in chat data
CN109145960A (zh) * 2018-07-27 2019-01-04 山东大学 基于改进粒子群算法的数据特征选择方法及系统
CN109284860A (zh) * 2018-08-28 2019-01-29 温州大学 一种基于正交反向樽海鞘优化算法的预测方法
CN109344994A (zh) * 2018-08-28 2019-02-15 温州大学 一种基于改进飞蛾优化算法的预测模型方法
WO2020063690A1 (zh) * 2018-09-25 2020-04-02 新智数字科技有限公司 一种电力系统预测的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王刚,张禹瑄,李颖,陈慧灵,胡玮通,秦磊: "《一种微阵列数据降维新方法》", 《吉林大学学报(工学版)》, no. 5 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160890A (zh) * 2021-03-13 2021-07-23 安徽师范大学 一种自适应基因调控网格构建方法及装置
WO2023142722A1 (zh) * 2022-01-26 2023-08-03 深圳先进技术研究院 一种基于智能优化算法的繁殖指导方法及装置
CN115458167A (zh) * 2022-09-13 2022-12-09 郑州市中心医院 基于正余弦机制改进飞蛾扑火算法的肺癌预测方法
CN118522358A (zh) * 2024-07-22 2024-08-20 温州大学大数据与信息技术研究院 一种基因选择方法及装置
CN118522358B (zh) * 2024-07-22 2024-10-18 温州大学大数据与信息技术研究院 一种基因选择方法及装置

Also Published As

Publication number Publication date
CN117238379A (zh) 2023-12-15
CN112215259B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
Chakraborty et al. Novel enhanced-grey wolf optimization hybrid machine learning technique for biomedical data computation
CN112215259B (zh) 基因选择方法和装置
Goudet et al. Causal generative neural networks
Su et al. Facilitating score and causal inference trees for large observational studies
Kusy et al. Weighted probabilistic neural network
Marcelloni Feature selection based on a modified fuzzy C-means algorithm with supervision
CN112116952A (zh) 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法
CN116601715A (zh) 通过主动学习进行药物优化
Zaman et al. Codon based back propagation neural network approach to classify hypertension gene sequences
CN118366549A (zh) 基因筛选方法和装置
Song et al. Importance weighted expectation-maximization for protein sequence design
CN118116574A (zh) 基于改进的哈里斯鹰优化算法的中医证型分类方法和装置
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
Angayarkanni Predictive analytics of chronic kidney disease using machine learning algorithm
Yu et al. Simple rule-based ensemble classifiers for cancer DNA microarray data classification
Mumtaz et al. Evaluation of three neural network models using Wisconsin breast cancer database
Saleh et al. Multi-objective differential evolution of evolving spiking neural networks for classification problems
CN112200224A (zh) 医学图像特征处理方法和装置
CN118522358B (zh) 一种基因选择方法及装置
Mariño et al. Two weighted c-medoids batch SOM algorithms for dissimilarity data
Khan et al. Genetic Algorithm for Biomarker Search Problem and Class Prediction
González-Barquero et al. Comparing Lasso and Adaptive Lasso in High-Dimensional Data: A Genetic Survival Analysis in Triple-Negative Breast Cancer
Glaros Data-driven definition of cell types based on single-cell gene expression data
CN118606825A (zh) 一种基于多组学集成和深度图卷积网络的癌症亚型分类预测装置
CN118861848A (zh) 考虑拓扑特征的智能优化与学习融合的蛋白质分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant