CN110837884A - 基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法 - Google Patents
基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法 Download PDFInfo
- Publication number
- CN110837884A CN110837884A CN201911041662.2A CN201911041662A CN110837884A CN 110837884 A CN110837884 A CN 110837884A CN 201911041662 A CN201911041662 A CN 201911041662A CN 110837884 A CN110837884 A CN 110837884A
- Authority
- CN
- China
- Prior art keywords
- krill
- individual
- algorithm
- ith
- population
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 142
- 241000239366 Euphausiacea Species 0.000 title claims abstract description 117
- 238000010187 selection method Methods 0.000 title claims abstract description 18
- 241000238557 Decapoda Species 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 32
- 230000002431 foraging effect Effects 0.000 claims description 16
- 235000013305 food Nutrition 0.000 claims description 15
- 238000012546 transfer Methods 0.000 claims description 14
- 230000000739 chaotic effect Effects 0.000 claims description 13
- 238000009792 diffusion process Methods 0.000 claims description 10
- 108010074506 Transfer Factor Proteins 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000007634 remodeling Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 6
- 238000012795 verification Methods 0.000 abstract description 3
- 230000014509 gene expression Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000010845 search algorithm Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000002493 microarray Methods 0.000 description 3
- 230000002028 premature Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 235000014653 Carica parviflora Nutrition 0.000 description 2
- 241000243321 Cnidaria Species 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000002922 simulated annealing Methods 0.000 description 2
- BUAJNGPDPGKBGV-UHFFFAOYSA-N 1-(1-phenylcyclohexyl)piperidin-1-ium;chloride Chemical compound [Cl-].C1CCCC[NH+]1C1(C=2C=CC=CC=2)CCCCC1 BUAJNGPDPGKBGV-UHFFFAOYSA-N 0.000 description 1
- 208000031261 Acute myeloid leukaemia Diseases 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法。该算法包括:步骤1、采用基于信息增益算法的特征排序策略对种群中的N个个体进行随机初始化;步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值,将种群中适应度值最大的个体所表示的解作为种群中的全局最优解;步骤3、使用改进的二元磷虾群算法更新种群,并更新种群中每个个体的适应度值,更新种群中的全局最优解;步骤4、以步骤3作为一次迭代,重复进行步骤3,直至当前迭代次数达到设定的迭代次数。通过10‑折交叉在九个公开生物医学数据集上测试验证,本发明可以有效地简化基因表达水平的数量,并且与其他特征选择方法相比获得高分类准确度。
Description
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法。
背景技术
随着生物医学中DNA微阵列技术的发展,积累了大规模高维度小样本微阵列数据,如肺癌微阵列数据集,包括181个样本,每个样本包含12533个特征。数据的高维小样本特征对于基因分析和疾病诊断带来了极大的挑战。高维小样本数据也给现有的挖掘和学习算法带来了巨大的挑战。随着数据维度的急剧增加,大量的冗余信息和无关信息通常也会随之产生,这些信息可能极大降低机器学习算法的性能,提高计算复杂度,造成“维数灾难”,同时标记信息样本的缺失,易产生“过拟合”现象,降低学习模型的预测能力。特征选择是解决高维小样本问题的一种有效手段,它可以去除大量无关和冗余的特征,寻找与分类任务强相关的特征子集,目的是为了减少算法运行时间,提高预测精度。因此在处理高维小样本数据时,特征选择对于机器学习显得尤为重要,在很多领域越来越受到人们的重视。
特征选择技术最早出现于上世纪60年代,它的本质就是为了从原始数据的特征集合当中,选择符合某种评定标准的最优特征子集,以便用于进行分类或者回归的任务。特征选择是一个过程,它是从原始的大量数据集中选择具有代表性的特征子集从而实现对未知数据的预测和分析。特征选择是一项艰巨的任务,主要是由于搜索空间较大,对于具有n个特征的数据集,可能的解决方案总数为2n。
随着数据收集技术的进步和这些问题的复杂性的增加,随着n在许多领域的增加,任务变得越来越具有挑战性。参考“梁伍七等.特征选择算法研究综述[J]. 安徽广播电视大学学报.2019.07.15”,目前,按照搜索策略对特征选择算法进行分类,主要有三种基于不同搜索策略的特征选择算法:基于穷尽搜索策略的特征选择算法、基于随机搜索策略的特征选择算法和基于元启发式搜索策略的特征选择算法,具体如下:
(1)基于穷尽搜索策略的特征选择算法:穷举法和分支定界法是全局最优式主要采用的方法。穷举法也可以称为耗尽式搜索,通过搜索每一个特征子集来选取符合要求的最优特征子集,例如回溯法,因为它可以遍历所有特征集合,因此一定能够找到全局最优特征子集。但若是原始特征数目很大,搜索空间自然也会变大,耗尽式搜索的执行效率也会降低,并不实用。分支定界法是通过剪枝操作来缩短搜索时间,也是目前全局搜索中唯一可以获得最优结果的办法,但是它要求在搜索开始前先预先设定最优特征子集的数目而且评价函数要具有单调性。同时,当等待处理的特征具有较高的维度时,需要执行多次,这些要求都限制了它的应用。
(2)基于随机搜索策略的特征选择算法:它在搜索的过程中将特征选择与遗传算法(GA)、模拟退火(SA)、禁忌搜索(TS)等结合,通过概率和采样过程为理论支撑。根据分类的有效性对每个待选特征进行权重赋值,且根据定义的或者自适应获取的阈值对特征的重要性进行判断,将权值超出阈值的特征输出。随机搜索方法将分类的性能作为评判标准,或得了比较好的应用效果。但是,存在时间复杂度高,不能保证输出的特征集合就是最优特征子集的问题。
(3)基于元启发式搜索策略的特征选择算法:它是一种对计算量和搜索的最优性进行折中的近似算法。运用合理的启发式规则设计,通过不断的迭代来产生最优的特征子集。根据起始特征集合和搜索方向的差异,能够分为单独最优特征选择、序列向前选择、序列向后选择和双向选择等。元启发式搜索的复杂性低,执行效率高,在实际问题的应用当中非常广泛。但是,在特征选择过程中,一旦某个特征被删除便无法撤回,这可能会导致算法陷入局部最优。
通常特征选择过程包含以下阶段:子集生成,子集评估和结果验证。这个过程的目的是去除不相关或冗余特征,生成的较小的可行子集。目前,按照评价策略对特征选择算法进行分类,特征选择方法大致分为两类:滤波式(filter)和封装式(wrapper)方法。这种分类是基于它们是否与特定的学习算法(分类器)相结合。滤波式(filter)方法是将所有的特征作为初始的特征子集,然后釆用与类别相关的评价指标来衡量特征对类别的区分能力,依靠数据的内在特征来评估特征的相关性。主要优点是计算复杂度低、效率高,适合处理大规模数据,但由于此方法在特征选择过程中与分类器的决策机制脱离,一般难以确定选择的特征能否使某一特定分类器的分类准确率达到最大。信息增益、Trank算法、Relief和相关性特征选择CFS是众所周知的滤波式方法。
基于封装式(wrapper)的特征选择方法是将搜索算法加入到特征选择过程中,即搜索算法被“封装”到分类模型中,是以达到最大分类准确率为引导的一类特征选择方法。在封装模型中,分类算法被当作一个黑盒用来评价特征子集的性能,因此封装方法选择出的特征与分类器的决策机制有较大的关系。封装式特征选择算法通常采用分类器直接对选择的特征子集进行评价,根据评价好坏采取相应搜索策略对子集进行调整,目的是不断探索最优子集。
研究人员不断尝试优化机器学习和元启发式算法,以提高分类精度和所选特征的质量。尽管wrapper方法已成功地应用于特征选择领域,但是由于考虑的特征数量非常多,从数千到数万不等,因此wrapper会带来很高的计算开销。在优化的领域里任何启发式的包装器特征选择都不能解决所有的特征选择问题。
综上所述,从原始的输入数据中选择出对分类最有价值的由相关特征组成的最优特征子集,并且尽可能的提高分类精确度,就是特征选择算法需要实现的目标。然而,目前许多智能算法都无法同时涵盖这两个目标。
发明内容
针对现有特征选择算法存在的无法同时涵盖“从原始的输入数据中选择出对分类最有价值的由相关特征组成的最优特征子集”和“尽可能的提高分类精确度”这两个目标的问题,本发明提供一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法,能够在选择出最优特征子集的同时,进一步提高特征的分类精确度。
本发明提供一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法,该方法包括:
步骤1、采用基于信息增益算法的特征排序策略对种群中的N个个体进行随机初始化,N表示种群中的磷虾个体总数;
步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值,将种群中适应度值最大的个体所表示的解作为种群中的全局最优解;
步骤3、使用改进的二元磷虾群算法更新种群,并更新种群中每个个体的适应度值,更新种群中的全局最优解;
步骤4、以步骤3作为一次迭代,重复进行步骤3,直至当前迭代次数达到设定的迭代次数。
进一步地,所述步骤1具体为:
步骤1.1、根据信息增益算法计算数据集中每个特征的信息增益值;
步骤1.2、按照信息增益值从大到小的顺序对每个特征的信息增益值进行排序;
步骤1.3、选择信息增益值较大的前TopN个特征对种群中的个体进行随机初始化形成初始解,针对每个个体将被选中的特征设置为1,未被选中的特征设置为0。
进一步地,步骤1.1具体为:
按照公式(1)计算特征Az的熵值H(C):
按照公式(2)计算特征Az的条件熵H(C|Az):
按照公式(3)计算特征Az的信息增益值IG(Az):
IG(Az)=H(C)-H(C|Az) (3)
其中,aj是特征Az的值,z=1,2…,Z,Z表示特征的总数,p(aj)表示类标签ci的先验概率,p(ci|aj)表示aj固定后类标签ci的条件概率,k表示特征Az中值的个数,m表示类标签的总数,p(ci)表示类标签ci在数据集中的比例。
进一步地,所述设定的适应度函数具体为:
其中,acc(KNN)表示用KNN分类器得到的分类精确度,numc表示分类正确的样本数,numi表示分类错误的样本数,b表示待计算适应度值的样本对应被选中特征的数目,B是待计算适应度值的样本对应所有特征的数目,α=1是分类精确度的权重,β=0.001是特征选择的权重。
进一步地,采用改进的二元磷虾群算法更新种群,具体包括:
按照式(5)更新每个磷虾个体的位置:
Xi(t+1)=Xi(t)+q*Ni(t)+q*Fi(t)+Di(t) (5)
其中,Xi(t+1)和Xi(t)分别表示第t+1次和第t次迭代时第i个磷虾个体的位置, Ni(t)表示第i个磷虾个体的由邻居磷虾引起的运动操作算子,Fi(t)表示第i个磷虾个体的觅食运动操作算子,Di(t)表示第i个磷虾个体的随机扩散运动操作算子, q表示混沌记忆权值因子。
进一步地,按照式(6)更新混沌记忆权值因子q:
q(t+1)=4.0×q(t)×(1-q(t)) (6)
其中,q(t+1)和q(t)分别表示第t+1次和第t次迭代时的混沌记忆权重因子。
进一步地,步骤3中,还包括:重塑第i个磷虾个体的位置,具体为:
按照式(7)更新自适应传递因子p:
使用双曲正切函数作为传递函数,并在传递函数中引入自适应传递因子,得到新的传递函数g:
根据新的传递函数g按照式(9)重塑第i个磷虾个体的位置Xid(t+1):
其中,rand是介于0和1之间的均匀随机数,I是实际迭代次数,Imax是设定的迭代次数,Xid(t+1)表示重塑后的第t+1次迭代时的第i个磷虾个体的位置,m1等于0.95,m2等于1.05。
进一步地,步骤3中,还包括:计算邻居磷虾引起的运动操作算子,具体为:
确定第i个磷虾个体的邻居磷虾:按照式(10)计算第i个磷虾个体的感应距离,若第i个磷虾个体的感应距离大于其与第j个磷虾个体之间的距离,则确定第j个磷虾个体为第i个磷虾个体的邻居磷虾:
其中,ds,i表示第i个磷虾个体的感应距离,||Xi-Xj||表示第i个磷虾个体与第j 个磷虾个体之间的欧式距离;
根据式(11)至式(13)计算得到邻居磷虾引起的运动操作算子Ni(t):
Ni(t)=Nmax×(αi local+αi target)+ωn×Ni(t-1) (11)
其中,Nmax是诱导速度,ωn是[0,1]范围内的随机数,αi local表示局部搜索,αi target表示全局搜索,fbest和fworst表示到目前为止磷虾个体的最佳适应度值和最差适应度值,fi表示第i个磷虾个体的适应度值,fj是其第j个邻居磷虾的适应度值 j=1,2,...,NN,NN是邻居磷虾的总数,ε为用于避免奇异性的正数。
进一步地,步骤3中,还包括:计算觅食运动操作算子,具体为:
根据磷虾个体的适应度值按照式(14)计算食物中心Xfood:
其中,Xfood表示食物中心,fi表示第i个磷虾个体的适应度值,Xi表示第i个磷虾个体的位置;
根据式(15)至(17)计算得到觅食运动操作算子Fi(t):
Fi(t)=Vf×(βi food+βi best)+ωf×Fi(t-1) (15)
其中,Vf表示觅食速度,ωf是[0,1]范围内的随机数,βi food表示食物吸引力,βi best表示到目前为止第i个磷虾个体的最大适应度值的影响,ffood表示食物中心Xfood的适应度值,fibest表示到目前为止第i个磷虾个体的最大适应度值,Xibest表示到目前为止第i个磷虾个体的最佳位置,I是实际迭代次数,Imax是设定的迭代次数。
进一步地,步骤3中,还包括:根据式(18)计算随机扩散运动操作算子:
其中,Dmax表示最大扩散速度,Xrandom表示随机向量,I是实际迭代次数,Imax是设定的迭代次数。
本发明的有益效果:
本发明提供的基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法,基于信息增益算法的特征排序策略对种群中的个体进行初始化,以保留一些判别基因,可使得后续的搜索算法基于一个更好的初始化种群进行搜索,并获得更高的分类精度。并且,改进的二元磷虾群算法在迭代搜索过程中,采用双曲正切函数作为传递函数,对磷虾位置的变化概率进行二值化;在双曲正切函数中引入自适应传递因子p,增强了传递函数的过渡性,提高了细粒度搜索的效率,避免了早熟收敛于局部最优解的问题;在由邻居磷虾引起的运动操作算子和觅食运动操作算子上引入混沌记忆权重因子q,增强了二元磷虾群算法的探索和开发,进一步提高了算法的性能。通过将搜索的最佳特征子集带入到分类算法结合10-折交叉进行分类验证,在九个公开生物医学数据集上测试验证,本发明可以有效地简化基因表达水平的数量,并且与其他特征选择方法相比获得高分类准确度。
附图说明
图1为本发明实施例提供的基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法的流程示意图之一;
图2为本发明实施例提供的基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法的流程示意图之二;
图3为本发明实施例提供的邻居磷虾引起的运动操作算子中寻找邻居示意图;
图4为本发明实施例提供的基于信息增益算法的不同TopN的平均精确度;
图5为本发明实施例提供的基于相同数据集BKH算法、MBKH算法和本发明的IG-MBKH算法在精确度上的对比示意图;
图6为本发明实施例提供的基于相同数据集不同智能算法在特征选择上的平均精确度对比示意图;
图7为本发明实施例提供的基于相同数据集不同智能算法在特征选择上特征子集的特征数对比示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出的基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法简称IG-MBKH算法。结合图1和图2所示,本发明提供的IG-MBKH算法包括以下步骤:
S101、采用基于信息增益算法的特征排序策略对种群中的N个个体进行随机初始化;
具体地,本步骤包括以下子步骤:
S1011、根据信息增益算法计算数据集中每个特征的信息增益值;
具体地,每个特征的信息增益值为每个特征的熵值与条件熵值的差值。对于数据集,设S(s1,s2,…,sn)为n个实例的集合,s(A1,A2,…,AZ)为含有Z个特征的实例,Z表示特征的总数,C(c1,c2,…,cm)为m个类标签的集合。
其中:以特征Az为例,z=1,2…,Z,特征的熵值H(C)按照公式(1)计算,特征的条件熵H(C|Az)按照公式(2)计算,特征的信息增益值IG(Az)按照公式(3)计算:
IG(Az)=H(C)-H(C|Az) (3)
其中,aj是特征Az的值,p(aj)表示类标签ci的先验概率,p(ci|aj)表示aj固定后类标签ci的条件概率,k表示特征Az中值的个数,m表示类标签的总数,p(ci) 表示类标签ci在数据集中的比例。
S1012、按照信息增益值从大到小的顺序对每个特征的信息增益值进行排序;
S1013、选择信息增益值较大的前TopN个特征对种群中的个体进行随机初始化形成初始解,针对每个个体将被选中的特征设置为1,未被选中的特征设置为0;
S102、采用设定的适应度函数计算所述种群中每个个体的适应度值,得到种群中适应度值最大的个体即为全局最优解;
具体地,所述设定的适应度函数具体为:
其中,acc(KNN)表示用KNN分类器得到的分类精确度,numc表示分类正确的样本数,numi表示分类错误的样本数,b表示待计算适应度值的样本对应被选中特征的数目,B是待计算适应度值的样本对应所有特征的数目,α=1是分类精确度的权重,β=0.001是特征选择的权重。
用分类器算法计算每个个体的适应度值,种群中适应度值最大的个体所表示的解,即为全局最优解。
S103、采用改进的二元磷虾群算法更新种群,具体地,本步骤包括以下子步骤:
S1031、每个磷虾个体的位置是由邻居磷虾引起的运动、觅食运动和随机扩散运动三个操作算子进行更新,如公式(5)所示:
Xi(t+1)=Xi(t)+q*Ni(t)+q*Fi(t)+Di(t) (5)
其中,Xi(t+1)和Xi(t)分别表示第t+1次和第t次迭代时第i个磷虾个体的位置, Ni(t)表示第i个磷虾个体的由邻居磷虾引起的运动操作算子,Fi(t)表示第i个磷虾个体的觅食运动操作算子,Di(t)表示第i个磷虾个体的随机扩散运动操作算子, q表示混沌记忆权值因子。
公式(6)为混沌记忆权重因子q的更新公式:
q(t+1)=4.0×q(t)×(1-q(t)) (6)
其中,q(t+1)和q(t)分别表示第t+1次和第t次迭代时的混沌记忆权重因子;在实际应用中,混沌记忆权值因子q的初始值可设置为0.56。
本发明实施例设计的改进的二元磷虾群算法,通过在邻居磷虾引起的运动和觅食运动操作算子上引入混沌记忆权值因子q,可增强磷虾算法的探索和开发能力,进一步提高了算法的性能。
经过改进的二元磷虾群算法的三个操作运算后,磷虾个体的位置变成一个离散值而不再是0或者1。在改进的二元磷虾群算法中使用双曲正切函数作为传递函数,定义位置从1改变为0或者从0改变为1的概率。双曲正切函数被归为v 形传递函数,与sigmoid函数相比,它表现出了良好的性能。此外,为了在收敛到最优值时增强过渡以改进细粒度搜索,在双曲正切函数中引入了自适应转移因子p,从而避免了过早收敛。用公式(7)来更新自适应传递因子p。双曲正切函数被用来重塑磷虾个体的位置,如公式(8)和(9)所示。
其中,rand是介于0和1之间的均匀随机数,I是实际迭代次数,Imax是设定的迭代次数,Xid(t+1)表示重塑后的第t+1次迭代时的第i个磷虾个体的位置,m1等于0.95,m2等于1.05。
S1032、计算邻居磷虾引起的运动操作算子;
具体地,首先,找到邻居:用公式(10)计算每一个磷虾个体的感应距离,如果一个磷虾个体的感应距离大于两个磷虾个体的距离,则它们被视为邻居,如图 3所示。
其中,ds,i表示第i个磷虾个体的感应距离,||Xi-Xj||表示第i个磷虾个体与第j 个磷虾个体之间的欧式距离,N表示种群中的磷虾个体总数。
然后,根据公式(11)计算得到邻居磷虾引起的运动操作算子Ni(t):
Ni(t)=Nmax×(αi local+αi target)+ωn×Ni(t-1) (11)
其中,Nmax是诱导速度,ωn是[0,1]范围内的随机数,αi local表示局部搜索,αi target表示全局搜索,fbest和fworst表示到目前为止磷虾个体的最佳适应度值和最差适应度值,fi表示第i个磷虾个体的适应度值,fj是其第j个邻居磷虾的适应度值 j=1,2,...,NN,NN是邻居磷虾的总数。为了避免奇异性,在除数中加入一个小的正数ε。
S1033、计算觅食运动操作算子;
具体地,首先,根据磷虾在种群中的个体适应度值计算食物中心,如公式(14) 所示:
其中,Xfood表示食物中心,fi表示第i个磷虾个体的适应度值,Xi表示第i个磷虾个体的位置;
然后,根据公式(15)计算得到觅食运动操作算子Fi(t)
Fi(t)=Vf×(βi food+βi best)+ωf×Fi(t-1) (15)
其中,Vf表示觅食速度,ωf是[0,1]范围内的随机数,βi food表示食物吸引力,βi best表示到目前为止第i个磷虾个体的最大适应度值的影响ffood表示食物中心Xfood的适应度值,fibest表示到目前为止第i个磷虾个体的最大适应度值,Xibest表示到目前为止第i个磷虾个体的最佳位置,I是实际迭代次数,Imax是设定的迭代次数。
S1034、按照公式(18)计算随机扩散运动操作算子;
其中,Dmax表示最大扩散速度,Xrandom表示随机向量。
S104、以步骤S103作为一次迭代,重复进行直至当前迭代次数达到设定的迭代次数。
从上述实施例可知,本发明搜索过程基于改进的二元磷虾群算法进行搜索。基于信息增益算法的特征排序策略对种群中的个体进行初始化,以保留一些判别基因,可使得后续的搜索算法基于一个更好的初始化种群进行搜索,并获得更高的分类精度。并且,改进的二元磷虾群算法在迭代搜索过程中,采用双曲正切函数作为传递函数,对磷虾位置的变化概率进行二值化;在双曲正切函数中引入自适应传递因子p,增强了传递函数的过渡性,提高了细粒度搜索的效率,避免了早熟收敛于局部最优解的问题;在由邻居磷虾引起的运动操作算子和觅食运动操作算子上引入混沌记忆权重因子q,增强了二元磷虾群算法的探索和开发,进一步提高了算法的性能。
为了验证本发明提出的IG-MBKH算法的有效性,采用10-折交叉验证,从以下方面测试该算法的性能。
1.数据集及评价指标
本实验使用的生物数据集如表1所示:
表1:数据集描述
利用10-折交叉验证方法结合KNN分类器来评估特征子集,在10-折交叉验证的过程中数据集中的特征子集被随机的分为十份,轮流的将九份作为训练数据集,剩余的一份作为测试集,进行测试。每次实验都会得出相应的正确率(或差错率),在本实验当中,所有算法在进行时都会求得十次结果的平均值,作为对算法准确性的估计。
对微阵列数据集按照如图4所示的流程进行特征选择,并对特征选择的结果进行性能测试。
(1)平均特征子集数目(AvgN)
在九种生物数据集下,通过选择的特征子集数目能够判断不同算法在相同数据集下的特征子集选取能力。分析结果如图7所示,从分析结果看,IG-MBKH 算法选择的特征比IPSO-IG,IG-GA,BCROSAT和ISFLA少的多。选择更少的特征意味着消除了冗余的特征并且减少搜索空间。
(2)平均精确度(Acc%)
平均精确度也是一个重要指标,如表2所示,可以看出在九个数据集上与 BKH和MBKH算法相比,IG-MBKH算法实现了最佳平均精确度。
(3)标准差(std)
为了验证算法的鲁棒性,本实验通过运行10次求得相应指标平均精确度和选择平均特征数目对应的标准差。标准差是衡量一组数变化的幅度,很明显标准差越小,证明实验结果越稳定。
(4)平均适应度值(Avgf%)
平均适应度值而两个能够很好的平衡特征选择的最大分类精确度和子集最佳长度这两个目标。如图6所示,IG-MBKH算法在九个数据集上的平均适应度值明显优于其他四种算法。
(5)运行时间(Time)
特征选择是为了降低原始数据的维数,提高搜索机制的效率。此处还考虑了高维生物数据集的特征选择的时间消耗。算法的运行时间取决于算法的收敛能力和数据集的规模。表4中给出了IG-MBKH算法在不同分类器上的运行时间。
2.实验结果的比较分析
(1)与该方向的其他算法比较
为了证明IG-MBKH算法在使用较少特征的情况下具有最大精度的优点,本实验将二进制磷虾算法BKH(Binary Krill Herd algorithm)、改进二进制磷虾算法 MBKH(Modified Binary Krill Herd algorithm)和算法IG-MBKH(Hybrid Information Gainand Modified Binary Krill Herd Algorithm)在分类精度和特征子集数目方面进行了比较。并在九个生物数据集Colon Tumor、CNS、ALL-AML、Ovarian Cancer、 Lung Cancer、ALL-AML-3、ALL-AML-4、MLL、SRBCT上进行了实验。实验结果如表2所示,在精确度方面,由表2的实验结果可以观察到,对于9个数据集的平均精确度,BKH算法获得92.46%的分类精确度,而IG-MBKH和MBKH 分别达到98.01%和96.93%的分类准确度,这比BKH算法大得多。此外,对于9 个数据集的平均特征数,BKH使用约104.54个特征,而IG-MBKH仅使用约11.69 个特征,约为BKH的9倍。与BKH算法相比,本发明提出的IG-MBKH算法在精度和特征个数方面都远远优于BKH算法。
为了揭示IG-MBKH、MBKH和BKH的搜索过程,图5描绘了所有数据集的精度的迭代曲线。在每个图中,横坐标表示迭代次数,纵坐标表示每个算法的分类精度。从图5可以看出,BKH算法趋于过早收敛并陷入局部最优。所提出的IG-MBKH算法在迭代过程中进行了更深层次的搜索,具有更强的搜索能力,可以获得更好的分类性能。总的来说,表2和图5所示的实验结果表明,与BKH 算法相比,IG-MBKH算法具有更强的搜索最优解的能力。由于基于信息增益(IG) 特征排序的初始种群策略,提出的IG-MBKH算法可以基于更好的初始种群进行搜索,从而获得比MBKH算法更高的分类精度和更好的收敛能力。
表2:IG-MBKH、MBKH和BKH的实验结果
(2)与其他四个最新算法的比较
为了进一步测试改进策略的影响,将本发明算法IG-MBKH与改进粒子群 IPSO结合信息增益算法(IPSO-IG)、基因算法GA结合信息增益(IG-GA)、二进制珊瑚礁算法BinaryCoral Reefs Optimization algorithm(BCROSAT)和改进的蛙跳算法ISFLA(ImprovedShuffled Frog LeAzing Algorithm)四种最新优化算法进行比较。对于每个实验数据集,每个算法的平均精度Acc(%)和特征子集平均数AvgN及其标准差如表3所示。以粗体突出显示的实验结果表明此表中的最佳值。由表4可以看出,与其他对比算法相比,IG-MBKH算法的实验结果在所有数据集上都能达到最高的平均精确度和最少的特征。除了具有较高的平均精度外,鲁棒性也是评价算法性能的一个重要因素。在几乎所有的数据集中,IG-MBKH 算法的标准差都很小。较小的标准差(std)意味着算法性能更加稳定。除Colon Tumor和CNS数据集外,IG-MBKH算法的平均准确度与其他算法相比具有最小的标准差,这进一步验证了IG-MBKH算法的良好鲁棒性。
表3:IG-MBKH算法与四个最新算法的比较
(3)分析分类器对IG-MBKH算法的影响
基于包装器的特征选择方法利用分类器(一种特殊的机器学习算法)来评估所选特征子集的准确性。基于包装器的特征选择方法在疾病诊断方面取得了较好的分类效果。在基于包装器的特征选择方法中,分类器通常被视为特征选择算法中的一个组件。不同的分类器适用于不同的搜索算法和不同的数据集。实验评估了K 近邻分类器(KNN)、支持向量机(SVM)和贝叶斯(NB)三种分类器对算法的影响,结果如表4所示。为了避免偏差,所有结果都是独立执行五次的平均值。从表4可以看出,不同分类器所达到的分类精度是相差不多。具体来说,在几乎所有的数据集上,KNN分类器在精确度和时间开销方面都优于其他两个分类器。对于所有数据集用KNN分类器得到的结果与用SVM分类器得到的结果非常接近。相比之下,NB分类器的分类性能不如KNN和SVM分类器。实验结果表明,基于KNN的IG-MBKH算法对特征选择具有较好的鲁棒性。
表4:比较三种分类器对IG-MBKH算法实验结果的影响
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法,其特征在于,包括:
步骤1、采用基于信息增益算法的特征排序策略对种群中的N个个体进行随机初始化,N表示种群中的磷虾个体总数;
步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值,将种群中适应度值最大的个体所表示的解作为种群中的全局最优解;
步骤3、使用改进的二元磷虾群算法更新种群,并更新种群中每个个体的适应度值,更新种群中的全局最优解;
步骤4、以步骤3作为一次迭代,重复进行步骤3,直至当前迭代次数达到设定的迭代次数。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体为:
步骤1.1、根据信息增益算法计算数据集中每个特征的信息增益值;
步骤1.2、按照信息增益值从大到小的顺序对每个特征的信息增益值进行排序;
步骤1.3、选择信息增益值较大的前TopN个特征对种群中的个体进行随机初始化形成初始解,针对每个个体将被选中的特征设置为1,未被选中的特征设置为0。
5.根据权利要求1所述的方法,其特征在于,步骤3中,采用改进的二元磷虾群算法更新种群,具体包括:
按照式(5)更新每个磷虾个体的位置:
Xi(t+1)=Xi(t)+q*Ni(t)+q*Fi(t)+Di(t) (5)
其中,Xi(t+1)和Xi(t)分别表示第t+1次和第t次迭代时第i个磷虾个体的位置,Ni(t)表示第i个磷虾个体的由邻居磷虾引起的运动操作算子,Fi(t)表示第i个磷虾个体的觅食运动操作算子,Di(t)表示第i个磷虾个体的随机扩散运动操作算子,q表示混沌记忆权值因子。
6.根据权利要求5所述的方法,其特征在于,按照式(6)更新混沌记忆权值因子q:
q(t+1)=4.0×q(t)×(1-q(t)) (6)
其中,q(t+1)和q(t)分别表示第t+1次和第t次迭代时的混沌记忆权重因子。
8.根据权利要求5所述的方法,其特征在于,步骤3中,还包括:计算邻居磷虾引起的运动操作算子,具体为:
确定第i个磷虾个体的邻居磷虾:按照式(10)计算第i个磷虾个体的感应距离,若第i个磷虾个体的感应距离大于其与第j个磷虾个体之间的距离,则确定第j个磷虾个体为第i个磷虾个体的邻居磷虾:
其中,ds,i表示第i个磷虾个体的感应距离,||Xi-Xj||表示第i个磷虾个体与第j个磷虾个体之间的欧式距离;
根据式(11)至式(13)计算得到邻居磷虾引起的运动操作算子Ni(t):
Ni(t)=Nmax×(αi local+αi target)+ωn×Ni(t-1) (11)
其中,Nmax是诱导速度,ωn是[0,1]范围内的随机数,αi local表示局部搜索,αi target表示全局搜索,fbest和fworst表示到目前为止磷虾个体的最佳适应度值和最差适应度值,fi表示第i个磷虾个体的适应度值,fj是其第j个邻居磷虾的适应度值j=1,2,...,NN,NN是邻居磷虾的总数,ε为用于避免奇异性的正数。
9.根据权利要求5所述的方法,其特征在于,步骤3中,还包括:计算觅食运动操作算子,具体为:
根据磷虾个体的适应度值按照式(14)计算食物中心Xfood:
其中,Xfood表示食物中心,fi表示第i个磷虾个体的适应度值,Xi表示第i个磷虾个体的位置;
根据式(15)至(17)计算得到觅食运动操作算子Fi(t):
Fi(t)=Vf×(βi food+βi best)+ωf×Fi(t-1) (15)
其中,Vf表示觅食速度,ωf是[0,1]范围内的随机数,βi food表示食物吸引力,βi best表示到目前为止第i个磷虾个体的最大适应度值的影响,ffood表示食物中心Xfood的适应度值,fibest表示到目前为止第i个磷虾个体的最大适应度值,Xibest表示到目前为止第i个磷虾个体的最佳位置,I是实际迭代次数,Imax是设定的迭代次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911041662.2A CN110837884B (zh) | 2019-10-30 | 2019-10-30 | 基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911041662.2A CN110837884B (zh) | 2019-10-30 | 2019-10-30 | 基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110837884A true CN110837884A (zh) | 2020-02-25 |
CN110837884B CN110837884B (zh) | 2023-08-29 |
Family
ID=69575897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911041662.2A Active CN110837884B (zh) | 2019-10-30 | 2019-10-30 | 基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110837884B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949811A (zh) * | 2021-03-16 | 2021-06-11 | 广州虎牙科技有限公司 | 数据处理方法、装置、设备及介质 |
CN112949759A (zh) * | 2021-03-30 | 2021-06-11 | 平安科技(深圳)有限公司 | 文本聚类方法、装置、电子设备及计算机可读存储介质 |
CN113300401A (zh) * | 2021-05-25 | 2021-08-24 | 淮阴工学院 | 一种基于混合改进磷虾群算法和模糊控制器的mppt算法 |
CN113468812A (zh) * | 2021-07-07 | 2021-10-01 | 中国人民解放军空军工程大学 | 一种基于改进磷虾群算法的服务组合优化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080100572A1 (en) * | 2006-10-31 | 2008-05-01 | Marc Boillot | Touchless User Interface for a Mobile Device |
CN110097169A (zh) * | 2019-05-08 | 2019-08-06 | 河南大学 | 一种混合abc和cro的高维特征选择方法 |
CN110110753A (zh) * | 2019-04-03 | 2019-08-09 | 河南大学 | 基于精英花授粉算法和ReliefF的有效混合特征选择方法 |
-
2019
- 2019-10-30 CN CN201911041662.2A patent/CN110837884B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080100572A1 (en) * | 2006-10-31 | 2008-05-01 | Marc Boillot | Touchless User Interface for a Mobile Device |
CN110110753A (zh) * | 2019-04-03 | 2019-08-09 | 河南大学 | 基于精英花授粉算法和ReliefF的有效混合特征选择方法 |
CN110097169A (zh) * | 2019-05-08 | 2019-08-06 | 河南大学 | 一种混合abc和cro的高维特征选择方法 |
Non-Patent Citations (2)
Title |
---|
仲丽君;杨文忠;袁婷婷;向进勇;: "社交网络异常用户识别技术综述", 计算机工程与应用, no. 16 * |
郭伟;高岳林;刘沛;: "一种自适应惯性权重的改进磷虾群算法", 太原理工大学学报, no. 05 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949811A (zh) * | 2021-03-16 | 2021-06-11 | 广州虎牙科技有限公司 | 数据处理方法、装置、设备及介质 |
CN112949759A (zh) * | 2021-03-30 | 2021-06-11 | 平安科技(深圳)有限公司 | 文本聚类方法、装置、电子设备及计算机可读存储介质 |
CN112949759B (zh) * | 2021-03-30 | 2024-02-02 | 平安科技(深圳)有限公司 | 文本聚类方法、装置、电子设备及计算机可读存储介质 |
CN113300401A (zh) * | 2021-05-25 | 2021-08-24 | 淮阴工学院 | 一种基于混合改进磷虾群算法和模糊控制器的mppt算法 |
CN113300401B (zh) * | 2021-05-25 | 2024-04-26 | 淮阴工学院 | 一种基于磷虾群算法和模糊控制器的mppt算法 |
CN113468812A (zh) * | 2021-07-07 | 2021-10-01 | 中国人民解放军空军工程大学 | 一种基于改进磷虾群算法的服务组合优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110837884B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837884A (zh) | 基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法 | |
Zhu et al. | Markov blanket-embedded genetic algorithm for gene selection | |
Tran et al. | A PSO based hybrid feature selection algorithm for high-dimensional classification | |
Chuang et al. | A hybrid BPSO-CGA approach for gene selection and classification of microarray data | |
Dhanya et al. | F-test feature selection in Stacking ensemble model for breast cancer prediction | |
Yin et al. | A multi-label feature selection algorithm based on multi-objective optimization | |
Djellali et al. | Fast correlation based filter combined with genetic algorithm and particle swarm on feature selection | |
Castelli et al. | Supervised learning: classification | |
Anand et al. | Predicting protein structural class by SVM with class-wise optimized features and decision probabilities | |
Chen et al. | An improved particle swarm optimization for feature selection | |
Dara et al. | A binary PSO feature selection algorithm for gene expression data | |
Lamba et al. | Feature Selection of Micro-array expression data (FSM)-A Review | |
Li et al. | MICQ-IPSO: An effective two-stage hybrid feature selection algorithm for high-dimensional data | |
Guo et al. | Manifold cluster-based evolutionary ensemble imbalance learning | |
Baten et al. | Fast splice site detection using information content and feature reduction | |
Abd-el Fattah et al. | A TOPSIS based method for gene selection for cancer classification | |
Jing et al. | Prediction of the transcription factor binding sites with meta-learning | |
Bir-Jmel et al. | Gene selection via BPSO and Backward generation for cancer classification | |
CN115410643A (zh) | 一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质 | |
Gupta et al. | Threshold controlled binary particle swarm optimization for high dimensional feature selection | |
CN113241123A (zh) | 一种融合多种特征识别增强子及其强度的方法、系统 | |
Del Castillo et al. | Instance selection for multi-label learning based on a scalable evolutionary algorithm | |
Chen et al. | Exploring novel algorithms for the prediction of cancer classification | |
Yang et al. | Improving robustness of gene ranking by resampling and permutation based score correction and normalization | |
Stiglic et al. | Finding optimal classifiers for small feature sets in genomics and proteomics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |