CN112908416A - 生物医学数据特征选择方法及装置、计算设备及存储介质 - Google Patents
生物医学数据特征选择方法及装置、计算设备及存储介质 Download PDFInfo
- Publication number
- CN112908416A CN112908416A CN202110393715.8A CN202110393715A CN112908416A CN 112908416 A CN112908416 A CN 112908416A CN 202110393715 A CN202110393715 A CN 202110393715A CN 112908416 A CN112908416 A CN 112908416A
- Authority
- CN
- China
- Prior art keywords
- individual
- individuals
- selfing
- feature
- population
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 17
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 85
- 238000009396 hybridization Methods 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 241000209094 Oryza Species 0.000 claims description 38
- 235000007164 Oryza sativa Nutrition 0.000 claims description 38
- 235000009566 rice Nutrition 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011084 recovery Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000009395 breeding Methods 0.000 description 13
- 230000001488 breeding effect Effects 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003756 stirring Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种生物医学数据特征选择方法,包括:提取生物医学数据集中的特征构成原始特征集合;根据所述原始特征集合,对种群进行初始化得到初始种群,并设置生物医学数据特征选择所需的参数;将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;利用轮盘赌选择对所述初始种群进行三系种群的划分,分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作;随机选择恢复系中的个体进行自交操作;当达到最大自交次数时,对恢复系个体进行重置操作,在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;判断是否满足终止条件,输出全局最优的个体。
Description
技术领域
本发明涉及数据挖掘技术领域,尤指一种生物医学数据特征选择方法及装置、计算设备及存储介质。
背景技术
近年来,随着基因组测序技术的快速发展,积累了大量基因微阵列数据,对这些生物医学数据进行挖掘和分析,可以为疾病诊断和防治工作带来有效帮助。然而,由于原始数据中存在大量的噪声和冗余特征,并且过多的特征会带来维数灾难的问题,因此,需要对生物医学数据进行特征选择从而挖掘出对分类最有效的特征。
特征选择是机器学习与数据挖掘中的重要一步,属于数据预处理部分。特征选择是从原始数据集的特征中选择出满足某种评估标准的最优特征组合的过程,其目的是降低特征空间的维数、简化学习模型、缩短学习时间和提高算法的性能,已有大量的研究表明了其有效性。通过从原始特征空间中筛选出有效的特征组合,排除大量无用特征,从而降低处理问题的难度。
为了达到更好的分类精度,许多研究者提出用智能优化算法来解决特征选择问题,即初始化时随机产生特征组合,特征组合的质量通过一定评价标准(适应度值函数)加以度量,通过不断迭代更新特征组合使其向最优解靠拢,直到达到最大迭代次数或寻找到全局最优子集就输出。解的形式为二进制编码,编码的长度等于原始数据中特征的维度,其中每一位用0或1表示该特征是否被选择进入特征组合。
有学者将遗传算法GA和分类器SVM相结合以选择出分类精度较高的最优特征组合;粒子群优化算法PSO由于更新机制简单易用已被成功用于医学数据特征选择和分类,但PSO容易陷入局部最优解。
尽管用于特征选择的智能优化算法已取得很大的进展,但已有的算法或者得到解的优化程度低,或者计算量太大,远未达到满意的程度,因此,仍需要探索其他新的智能优化算法来解决特征选择问题。
发明内容
本发明实施例的目的在于:为了克服现有生物医学数据中特征选择技术的不足,提出了一种基于轮盘赌机制水稻育种算法的生物医学数据特征选择方法,在保证分类精度的同时快速得到全局最优的特征组合。同时降低特征的维度,缩短训练时间,简化模型和提高分类器的精度,
本发明实施例所采用的技术方案如下:
一种基于轮盘赌机制水稻育种算法的生物医学数据特征选择方法,所述方法包括如下步骤:
S1.提取生物医学数据集中的特征构成原始特征集合;
S2.根据所述原始特征集合,对种群进行初始化,并设置生物医学数据特征选择所需的参数;
S3.将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;
S4.利用轮盘赌选择进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;
S5.分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代;
S6.随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;
S7.当达到最大自交次数时,对恢复系个体进行重置操作,即在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;
S8.判断是否满足终止条件,其中,终止条件设为达到最大迭代次数,若否,则返回执行所述步骤3;若是,则转到执行步骤9;
S9.输出全局最优的水稻个体,该个体可对应为全局最优的特征组合,即算法中每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。
作为进一步优选的,所述S2中初始化种群X={x1,x2,...xi...,xn},xi为种群中的个体,表示第i个水稻个体的第j个基因,设置二进制水稻育种算法所需的参数包括种群大小n(n一般为3的倍数),每个水稻个体的基因序列长度为L最大迭代次数Tmax,最大自交次数STmax。
作为进一步优选的,所述S3中利用适应度值评估所选特征组合的质量,个体适应度值f(xi)的计算公式为:
其中,R表示本次选择特征的个数,C表示数据集中特征总数,α和β为两个权重系数,α的范围介于0和1之间,β=1-α,Accuracy(xi)表示选择的特征组合参与分类得到的分类正确率,采用K-NN作为分类器进行分类,对于二分类问题,分类精度计算公式表示为:
其中,Tp(真正例):真实类别为正例,分类也为正例;Tn(真负例):真实类别为负例,分类为负例;Fp(假正例):真实类别为负例,分类为正例;Fn(假反例):真实类别为正例,分类也为负例。
作为进一步优选的,所述S4中根据公式(3)和(4)计算出各个体的选择概率P(xi)和累计选择概率qi:
产生一个范围在[0,1]之间的随机数α,若qi-1<α<qi,则将个体xi选择进入保持系。当保持系个体数量达到种群中个体数的1/3时,同理,再利用轮盘赌分别选择个体进入恢复系和不育系,至此完成种群的三系划分。
作为进一步优选的,所述S5中通过杂交产生新个体的基因的公式为:
作为进一步优选的,所述S6中恢复系水稻种子自交产生新个体的更新公式为:
subresult=Xbest sub Xr(k) (7)
Xnew(i)=(r3*subresult)add Xr(i) (8)
其中,Xnew(i)表示生成的第i个水稻种子,Xr(i)和Xr(k)分别表示恢复系中第i个和第k个水稻种子个体,Xbest表示当前最优个体,subresult表示Xbest与Xr(k)通过计算机二进制减法规则运算得到的结果,r3是[0,1]之间产生的随机数,add和sub分别代表二进制运算规则中的加法和减法算子,二进制的加法运算依据“逢二进一”规则,具体为:0+0=0,0+1=1,1+0=1,1+1=0(进位为1),二进制的减法运算依据“借一当二”的规则,具体为:0-0=0,0-1=1(借位为1),1-1=0,1-0=1。
作为进一步优选的,所述步骤7中恢复系进行重置操作时的更新公式为:
Xnew(i)=Xr(i)add(r4*(Rmax-Rmin))+Rmin (9)
其中,Xnew(i)表示生成的第i个水稻种子,Rmax和Rmin分别表示二进制搜索空间的上界和下界,r4是[0,1]范围内生成的一个随机数,Xr(i)表示恢复系中第i个水稻种子个体,add表示二进制运算规则中的加法算子,二进制的加法运算依据“逢二进一”规则,具体为:0+0=0,0+1=1,1+0=1,1+1=0(进位为1)。
本发明实施例与现有技术相比具有以下优点:
1、本发明通过引入轮盘赌选择机制对水稻种群进行三系划分,能够保证算法的有效收敛性的前提,适当搅动种群中的个体以实现跳出易陷入局部最优困局的目标。
2、本发明利用基于轮盘赌机制水稻育种算法对生物医学数据集进行特征选择,排除冗余的特征,筛选出最有效的特征组合,在提高分类正确率和分类效率的同时选择较少的特征参与后续的分析和挖掘。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,用户设备准入方法和装置、用户设备切换方法和装置的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1为本发明实施例提供的一种生物医学数据特征选择方法的流程图;
图2为本发明实施例提供的一种生物医学数据特征选择装置的示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘制了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
在本发明实施例中,将水稻育种算法应用于生物医学数据特征选择,首先解决水稻育种算法对生物医学数据的特征优化表示,另外,在水稻育种算法的基础上引入轮盘赌选择机制。
本发明实施例首先进行如下定义:
种群:生物医学数据集中随机生成n种特征组合的集合为种群,即水稻育种算法中的种群,n表示种群的规模大小;
个体:生物医学数据的特征组合集合中的一组特征组合称为个体;
基因:特征组合中的每一个特征的状态,每个基因都有两种状态,分别是被选择和不被选择,每个个体中基因的长度与总特征个数相等;
适应度值:在生物医学数据特征选择中,适应度值由分类精度和被选择的生物医学数据特征个数占总特征个数的比例共同表示,如果适应度值越小,说明特征组合的质量越好,通过适应度值判断个体的好坏,指引种群的进化方向。
更进一步的,为了解决生物医学数据的特征选择结果的表示,本发明实施例还对水稻育种算法针对生物医学数据的特征选择进行了医学数据的特征基因进行编码:
每个特征都有两种状态,一种是特征被选择,另一种是特征未被选择,用二进制编码进行表示,因此,针对生物医学数据特征的选择,采用二进制编码。例如,{0,1,1,0,1,0,1,0,0,0,0,1,0}表示由13个基因组成的个体,其中第2、3、5、7、12个特征被选中。
如图1所示,根据前述生物医学数据中特征适应水稻育种算法的定义,即种群、个体、基因的定义,本发明实施例提供了一种基于轮盘赌机制水稻育种算法的生物医学数据特征选择方法,所述方法包括如下步骤:
S1.提取生物医学数据集中的特征构成原始特征集合;
S2.根据所述原始特征集合,对种群进行初始化,并设置生物医学数据特征选择所需的参数;
优选的,本发明实施例对种群的初始化,设置生物医学数据特征选择所需的参数的具体步骤如下:
设置二进制水稻育种算法所需的参数包括:
种群大小n(n一般为3的倍数);
每个(水稻)个体的基因序列长度为L;
最大迭代次数Tmax;
最大自交次数STmax;
并令初始时迭代次数t=0,自交次数ST=0。
S3.将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;
其中,种群中个体与特征组合之间的映射方式为:每个水稻种子个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择,每个水稻种子基因序列的编码长度等于原始数据集中的特征数目;
为了评价特征组合的质量,对生物医学数据集进行特征选择的过程中必须通过计算特征组合的适应度值来评价特征组合的质量,其中,适应度值的计算公式为:
其中,R表示本次选择生物数据特征的个数,C表示数据集中特征总数,α和β为两个权重系数,α的范围介于0和1之间,β=1-α,例如设定取值α=0.99,则β=0.01,Accuracy(xi)表示选择的特征组合参与分类得到的分类正确率,采用K-NN作为分类器进行分类,对于二分类问题,分类精度计算公式表示为:
其中,Tp(真正例):真实类别为正例,分类也为正例;Tn(真负例):真实类别为负例,分类为负例;Fp(假正例):真实类别为负例,分类为正例;Fn(假反例):真实类别为正例,分类也为负例。
另外,本发明实施例中,种群中个体与特征组合之间的映射方式为:每个生物医学数据对应的水稻种子个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择,每个水稻种子基因序列的编码长度等于原始数据集中的特征数目;
S4.利用轮盘赌选择进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;
在本发明实施例中,将初始种群划分为三系子种群:三系分别为保持系、恢复系和不育系,根据轮盘赌法规律,适应度值处于第一阈值范围的个体以第一概率被选择进入保持系,但也以第二概率待选择进入恢复系和不育系;当保持系个体数量达到种群中个体数的1/3时,同理,再利用轮盘赌选择个体进入恢复系和不育系,至此完成种群的三系划分。轮盘赌选择的公式为:
其中,P(xi)为个体的被选择概率,qi表示累计选择概率,产生一个范围在[0,1]之间的随机数α,若qi-1<α<qi,则将个体xi选择进入保持系。
S5.分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代;
在本发明实施例中,不育系和保持系进行杂交操作的过程如下:
分别随机从不育系和保持系中选择个体作为父本和母本,将父本和母本的基因通过重新组合产生新的基因序列,分别计算新个体和参与杂交的不育系个体的适应度值,从中选择适应度值低的个体的基因保留至下一代,通过杂交产生新个体的基因的公式为:
其中,
S6.随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;
在本发明实施例中,恢复系进行自交操作的过程如下:
随机选择恢复系中的个体进行自交操作,计算出新个体的适应度值并跟自交前的个体的适应度值进行比较,若新个体的适应度值优于自交前个体的适应度值,就用产生的新个体替换原始个体,此时将该个体的自交次数ST记为0;否则不替换,该个体的自交次数ST加1;恢复系个体自交产生新个体的更新公式为:
subresult=Xbest sub Xr(k) (7)
Xnew(i)=(r3*subresult)addXr(i) (8)
其中,
Xnew(i)表示生成的第i个水稻种子;
Xr(i)和Xr(k)分别表示恢复系中第i个和第k个水稻种子个体;
Xbest表示当前最优个体;
subresult表示Xbest与Xr(k)通过计算机二进制减法规则运算得到的结果,r3是[0,1]之间产生的随机数;
add和sub分别代表二进制运算规则中的加法和减法算子;
二进制的加法运算依据“逢二进一”规则,具体为:0+0=0,0+1=1,1+0=1,1+1=0(进位为1),二进制的减法运算依据“借一当二”的规则,具体为:0-0=0,0-1=1(借位为1),1-1=0,1-0=1。
S7.当达到最大自交次数时,对恢复系个体进行重置操作,即在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;
即当自交次数达到最大阈值STmax时,恢复系个体进行重置操作:当经过若干次迭代都没有得到适应值更优的个体,算法可能陷入局部最优,此时需要经过重置操作,跳出局部。
本发明设定取值:当恢复系个体自交次数ST≤STmax时,执行自交迭代操作;当ST>STmax时,恢复系个体执行重置操作,在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数ST归0;恢复系进行重置操作时的更新公式为:
Xnew(i)=Xr(i)add(r4*(Rmax-Rmin))+Rmin (9)
其中,Xnew(i)表示生成的第i个种子,Rmax和Rmin分别表示二进制搜索空间的上界和下界,r4是[0,1]范围内生成的一个随机数,Xr(i)表示恢复系中第i个水稻种子个体,add表示二进制运算规则中的加法算子,二进制的加法运算依据“逢二进一”规则,具体为:0+0=0,0+1=1,1+0=1,1+1=0(进位为1)。
S8.判断是否满足终止条件,其中,终止条件设为迭代次数达到最大迭代次数,若否,则返回执行所述S3,迭代次数加1;若是,则转到执行S9;
判断是否满足终止条件:其中终止条件设为迭代次数t达到最大阈值Tmax,若t<Tmax,则继续执行S4至S7,直到满足t≥Tmax时,记录下全局最优个体。
S9.输出全局最优的个体,该个体可对应为全局最优的特征组合,即算法中每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。
输出全局最优的个体:该个体可对应为全局最优的特征组合,即算法中每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。
通过算法的杂交、自交、重置操作后计算种群中每个个体的适应度值,适应度值最小的个体就为全局最优个体,可以用Xbest表示。
本发明通过引入轮盘赌选择机制对生物医学特征数据的特征种群进行三系划分,能够保证算法的有效收敛性的前提,适当搅动种群中的个体以实现跳出易陷入局部最优困局的目标,利用基于轮盘赌机制水稻育种算法对生物医学数据集进行特征选择,排除冗余的特征,筛选出最有效的特征组合,在提高分类正确率和分类效率的同时选择较少的特征参与后续的分析和挖掘。
请参考图2,本发明实施例还提供了一种生物医学数据特征选择装置100,装置100包括:
生物医学数据特征提取单元1,用于提取生物医学数据集中的特征构成原始特征集合;
初始化单元2,用于根据所述原始特征集合,对种群进行初始化得到初始种群,并设置生物医学数据特征选择所需的参数;
特征组合单元3,用于将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;
种群划分单元4,用于利用轮盘赌选择对所述初始种群进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;
个体杂交单元5,用于分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代;
个体自交单元6,用于随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;
重置单元7,用于当达到最大自交次数时,对恢复系个体进行重置操作,即在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;
迭代单元8,用于判断是否满足终止条件,其中,终止条件设为迭代次数达到最大迭代次数,若否,则返回执行所述S3,迭代次数加1;若是,则转到执行S9;
输出单元9,用于输出全局最优的个体,该个体可对应为全局最优的特征组合,即每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。
以上各个单元或者模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理器调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元通过软件通过处理器调用的形式实现,部分单元通过硬件的形式实现。
例如,以上各单元的功能可以以程序代码的形式存储于存储器中,由处理器调度该程序代码,实现以上各个单元的功能。该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)或其它可以调用程序的处理器。再如,以上各个单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(ASIC),或,一个或多个数字信号处理器(DSP),或,一个或者多个现场可编程门阵列(FPGA)等。再如,结合这两种方式,部分功能通过处理器调度程序代码的形式实现,部分功能通过硬件集成电路的形式实现。且以上功能集成在一起时,可以以片上系统(system-on-a-chip,SOC)的形式实现。
为了实现本发明的发明目的,本发明实施例还提供了一种计算设备,所述计算设备包括处理器和存储器,所述处理器与所述存储器耦合,其中,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述计算设备执行上述任意实现生物医学数据特征选择的方法。
为了实现本发明的发明目的,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述任意生物医学数据特征选择的方法。
本发明实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述所示实施例描述的生物医学数据特征选择方法所执行的步骤,或者,使得计算机执行如前述图2所示实施例描述的生物医学数据特征选择装置所执行的步骤。
本发明实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述所示实施例描述的生物医学数据特征选择方法所执行的步骤,或者,使得计算机执行如前述图2所示实施例描述的生物医学数据特征选择装置所执行的步骤。
本发明实施例提供的生物医学数据特征选择装置等具体可以为芯片,芯片包括:处理单元、存储单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使检测设备内的芯片执行上述所示实施例描述的生物医学数据特征选择装置所执行的步骤,或者,使得执行设备内的芯片执行如前述图1所示实施例描述的生物医学数据特征选择方法所执行的步骤。
可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solidstate disk,SSD))等。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种生物医学数据特征选择方法,其特征在于,包括:
S1.提取生物医学数据集中的特征构成原始特征集合;
S2.根据所述原始特征集合,对种群进行初始化得到初始种群,并设置生物医学数据特征选择所需的参数,其中,所述种群为生物医学数据原始特征集合中随机生成的n种特征组合的集合,n为种群的大小;
S3.将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值,其中,所述个体为生物医学数据的特征组合集合中的一组特征组合,适应度值由分类精度和被选择的生物医学数据特征个数占总特征个数的比例共同表示;
S4.利用轮盘赌选择对所述初始种群进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;
S5.分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代,其中,所述基因为个体对应的特征组合中的每一个特征的状态,每个基因都有两种状态,分别是被选择和不被选择,每个个体中基因的长度与总特征个数相等;
S6.随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;
S7.当达到最大自交次数时,对恢复系个体进行重置操作,在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;
S8.判断是否满足终止条件,其中,终止条件设为达到最大迭代次数,若否,则返回执行所述S3;若是,则转到执行S9;
S9.输出全局最优的个体,该个体可对应为全局最优的特征组合,即算法中每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。
4.如权利要求1所述的生物医学数据特征选择方法,其特征在于,所述自交操作具体包括:
随机选择恢复系中的个体进行自交操作,计算出新个体的适应度值并跟自交前的个体的适应度值进行比较,若新个体的适应度值优于自交前个体的适应度值,就用产生的新个体替换原始个体,此时将该个体的自交次数ST记为0;否则不替换,该个体的自交次数ST加1;恢复系个体自交产生新个体的更新公式为:
subresult=XbestsubXr(k) (7)
Xnew(i)=(r3*subresult)add Xr(i) (8)
其中,
Xnew(i)表示生成的第i个水稻种子;
Xr(i)和Xr(k)分别表示恢复系中第i个和第k个水稻种子个体;
Xbest表示当前最优个体;
subresult表示Xbest与Xr(k)通过计算机二进制减法规则运算得到的结果,r3是[0,1]之间产生的随机数;
add和sub分别代表二进制运算规则中的加法和减法算子。
7.一种生物医学数据特征选择装置,其特征在于,所述装置包括:
生物医学数据特征提取单元,用于提取生物医学数据集中的特征构成原始特征集合;
初始化单元,用于根据所述原始特征集合,对种群进行初始化得到初始种群,并设置生物医学数据特征选择所需的参数;
特征组合单元,用于将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;
种群划分单元,用于利用轮盘赌选择对所述初始种群进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;
个体杂交单元,用于分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代;
个体自交单元,用于随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;
重置单元,用于当达到最大自交次数时,对恢复系个体进行重置操作,即在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;
迭代单元,用于判断是否满足终止条件,其中,终止条件设为迭代次数达到最大迭代次数,若否,则返回执行所述S3,迭代次数加1;若是,则转到执行S9;
输出单元,用于输出全局最优的个体,该个体可对应为全局最优的特征组合,即每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。
8.一种计算设备,其特征在于,所述计算设备包括处理器和存储器,所述处理器与所述存储器耦合,其特征在于,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述计算设备执行如权利要求1-6中任一项所述的方法。
9.一种计算机存储介质,其特征在于,包括程序,当程序在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110393715.8A CN112908416B (zh) | 2021-04-13 | 2021-04-13 | 生物医学数据特征选择方法及装置、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110393715.8A CN112908416B (zh) | 2021-04-13 | 2021-04-13 | 生物医学数据特征选择方法及装置、计算设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908416A true CN112908416A (zh) | 2021-06-04 |
CN112908416B CN112908416B (zh) | 2024-02-02 |
Family
ID=76110575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110393715.8A Active CN112908416B (zh) | 2021-04-13 | 2021-04-13 | 生物医学数据特征选择方法及装置、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908416B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002082371A2 (en) * | 2001-04-06 | 2002-10-17 | Honeywell International Inc. | Genetic algorithm optimization method |
JP2015232795A (ja) * | 2014-06-10 | 2015-12-24 | 株式会社 日立マネジメントパートナー | 消込処理装置、消込処理方法および消込処理プログラム |
CN107437098A (zh) * | 2017-07-31 | 2017-12-05 | 湖北工业大学 | 一种基于差分进化改进的二进制蚁群算法的高光谱图像波段选择方法 |
CN110097169A (zh) * | 2019-05-08 | 2019-08-06 | 河南大学 | 一种混合abc和cro的高维特征选择方法 |
CN110322968A (zh) * | 2019-06-24 | 2019-10-11 | 北京科技大学 | 一种疾病类别医学数据的特征选择方法和装置 |
WO2020188042A1 (en) * | 2019-03-19 | 2020-09-24 | Bühler AG | Industrialized system for rice grain recognition and method thereof |
AU2020103782A4 (en) * | 2020-11-30 | 2021-02-11 | Ningxia Medical University | Pet/ct high-dimensional feature level selection method based on genetic algorithm and variable precision rough set |
WO2021027295A1 (zh) * | 2019-08-12 | 2021-02-18 | 岭南师范学院 | 一种基于改进自适应遗传算法的人体体成分预测方法 |
US10956129B1 (en) * | 2019-12-06 | 2021-03-23 | Natural Computation LLC | Using genetic programming to create generic building blocks |
CN112613391A (zh) * | 2020-12-18 | 2021-04-06 | 湖北工业大学 | 一种基于反向学习二进制水稻育种算法的高光谱图像波段选择方法 |
-
2021
- 2021-04-13 CN CN202110393715.8A patent/CN112908416B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002082371A2 (en) * | 2001-04-06 | 2002-10-17 | Honeywell International Inc. | Genetic algorithm optimization method |
JP2015232795A (ja) * | 2014-06-10 | 2015-12-24 | 株式会社 日立マネジメントパートナー | 消込処理装置、消込処理方法および消込処理プログラム |
CN107437098A (zh) * | 2017-07-31 | 2017-12-05 | 湖北工业大学 | 一种基于差分进化改进的二进制蚁群算法的高光谱图像波段选择方法 |
WO2020188042A1 (en) * | 2019-03-19 | 2020-09-24 | Bühler AG | Industrialized system for rice grain recognition and method thereof |
CN110097169A (zh) * | 2019-05-08 | 2019-08-06 | 河南大学 | 一种混合abc和cro的高维特征选择方法 |
CN110322968A (zh) * | 2019-06-24 | 2019-10-11 | 北京科技大学 | 一种疾病类别医学数据的特征选择方法和装置 |
WO2021027295A1 (zh) * | 2019-08-12 | 2021-02-18 | 岭南师范学院 | 一种基于改进自适应遗传算法的人体体成分预测方法 |
US10956129B1 (en) * | 2019-12-06 | 2021-03-23 | Natural Computation LLC | Using genetic programming to create generic building blocks |
AU2020103782A4 (en) * | 2020-11-30 | 2021-02-11 | Ningxia Medical University | Pet/ct high-dimensional feature level selection method based on genetic algorithm and variable precision rough set |
CN112613391A (zh) * | 2020-12-18 | 2021-04-06 | 湖北工业大学 | 一种基于反向学习二进制水稻育种算法的高光谱图像波段选择方法 |
Non-Patent Citations (2)
Title |
---|
ZHIWEI YE ,ET.AL: ""A Novel Feature Selection Approach Based on Swarm Intelligence"", 《2009 INTERNATIONAL WORKSHOP ON INTELLIGENT SYSTEMS AND APPLICATIONS》 * |
杨娟: ""基于杂交水稻算法的分类器权重优化研究"", 《中国优秀硕士学位论文全文数据库》, no. 9 * |
Also Published As
Publication number | Publication date |
---|---|
CN112908416B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gower et al. | Detecting adaptive introgression in human evolution using convolutional neural networks | |
Li et al. | A robust deep model for improved classification of AD/MCI patients | |
Kovalev et al. | SurvLIME: A method for explaining machine learning survival models | |
CN111681705A (zh) | 一种miRNA-疾病关联预测方法、系统、终端以及存储介质 | |
US11488309B2 (en) | Robust machine learning for imperfect labeled image segmentation | |
US20160026917A1 (en) | Ranking of random batches to identify predictive features | |
WO2023217290A1 (zh) | 基于图神经网络的基因表型预测 | |
Zhang et al. | Triplet attention and dual-pool contrastive learning for clinic-driven multi-label medical image classification | |
Liu et al. | Co-correcting: noise-tolerant medical image classification via mutual label correction | |
CN110633786A (zh) | 用于确定人工神经网络拓扑的技术 | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN114841280B (zh) | 一种复杂疾病的预测分类方法、系统、介质、设备及终端 | |
Jaume et al. | Modeling dense multimodal interactions between biological pathways and histology for survival prediction | |
WO2024045989A1 (zh) | 图网络数据集的处理方法、装置、电子设备、程序及介质 | |
JP2023529584A (ja) | 重症度判断用のニューラルネットワーク学習方法及びシステム | |
CN112233070A (zh) | 一种平扫ct图像的影像组学特征处理方法及装置 | |
Bhardwaj et al. | Computational biology in the lens of CNN | |
Bi et al. | Hypergraph structural information aggregation generative adversarial networks for diagnosis and pathogenetic factors identification of Alzheimer’s disease with imaging genetic data | |
Li et al. | Tongue color classification in TCM with noisy labels via confident-learning-assisted knowledge distillation | |
Yu et al. | DisepNet for breast abnormality recognition | |
Wang et al. | Flexible locally weighted penalized regression with applications on prediction of alzheimer’s disease neuroimaging initiative’s clinical scores | |
Han et al. | Sample Self-Selection Using Dual Teacher Networks for Pathological Image Classification with Noisy Labels | |
CN112908416A (zh) | 生物医学数据特征选择方法及装置、计算设备及存储介质 | |
Fu et al. | x-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversely-connected multi-scale convolution | |
Uthayan | A novel microarray gene selection and classification using intelligent dynamic grey wolf optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |