CN112800224A - 基于改进蝙蝠算法的文本特征选择方法、装置及存储介质 - Google Patents
基于改进蝙蝠算法的文本特征选择方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112800224A CN112800224A CN202110116530.2A CN202110116530A CN112800224A CN 112800224 A CN112800224 A CN 112800224A CN 202110116530 A CN202110116530 A CN 202110116530A CN 112800224 A CN112800224 A CN 112800224A
- Authority
- CN
- China
- Prior art keywords
- bat
- bats
- elite
- text feature
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 73
- 238000010187 selection method Methods 0.000 title claims abstract description 32
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 241000288673 Chiroptera Species 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 208000002251 Dissecting Aneurysm Diseases 0.000 claims description 19
- 206010002895 aortic dissection Diseases 0.000 claims description 19
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 230000005855 radiation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 14
- 230000010354 integration Effects 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000007637 random forest analysis Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 208000026350 Inborn Genetic disease Diseases 0.000 description 3
- 238000004159 blood analysis Methods 0.000 description 3
- 230000015271 coagulation Effects 0.000 description 3
- 238000005345 coagulation Methods 0.000 description 3
- 208000016361 genetic disease Diseases 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进蝙蝠算法的文本特征选择方法、装置及存储介质,其中方法包括获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集。引入莱维飞行策略改进蝙蝠的位置更新方式,以确保单个蝙蝠不会被局限在最优蝙蝠的附近,即确保文本数据特征提取不会陷入局部最优解;每次迭代的适应度较低的几个蝙蝠实行差分进化,提高了蝙蝠的多样性和总体适应度;使用精英保留策略,可避免较优的解在迭代时消失,使精英蝙蝠始终保持全局最佳的几个蝙蝠的位置,在后续的特征集成过程中获得更好的集成效果。
Description
技术领域
本发明涉及特征提取领域,尤其涉及一种基于改进蝙蝠算法的文本特征选择方法、装置及存储介质。
背景技术
随着信息社会进入大数据时代,数据的快速增长既是机遇也是挑战。一方面,大数据可以为机器学习提供大规模的样本进行训练,另一方面,大数据的海量性会造成信息冗余。基于机器学习的方法可以将大量的琐碎的文本数据转化为有价值的信息,并且是非侵入性的,廉价且快速的,而且通常具有更高的准确率。由于大量的文本数据中充斥着许多冗余的数据,高维度的特征使得文本数据的信息难以被有效利用,导致算法学习性能下降,也增加了算法的时间和内存需求。因此特征选择是重要的,利用特征选择技术选取有用的特征可以有效的提高算法的性能。目前已经有很多算法用来进行特征的选择,有些基于评价函数对特征重要性进行排序,通过分析特征子集内部的特点来衡量其好坏,常见的评价指标有基于信息增益、基于距离、基于相关性等;还有一些算法用选取的特征子集对样本进行分类,将分类的精度作为衡量特征子集好坏的标准。但是这些算法没有考虑特征之间的相互影响和不同特征组合的表现,只是单一地评价某个特征的好坏。
近年来,由于启发式算法的优秀表现,特征选择算法开始越来越多的倾向于采用启发式算法来选择特征子集。其典型的启发式算法有,遗传算法,粒子群优化,蚁群优化,蝙蝠算法等等。其中蝙蝠算法由于其简单,有效的搜索机制,具有鲁棒性强和并行程度高等优点,越来越多被应用于策略识别和数据挖掘等领域。然而蝙蝠算法也存在一些缺点,比如容易陷入局部最优解,缺乏种群多样性,并且每个蝙蝠单纯受到全局最优个体的影响。
发明内容
本发明提供了一种基于改进蝙蝠算法的文本特征选择方法、装置及存储介质,以解决现有的基于蝙蝠算法的文本数据特征提取方法容易陷入局部最优解,缺乏种群多样性的问题。
第一方面,提供了一种基于改进蝙蝠算法的文本特征选择方法,包括:
S1:获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;
S2:利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集;具体包括如下步骤:
S21:初始化蝙蝠种群;
S22:计算每个蝙蝠的适应度值;
S23:根据每个蝙蝠的适应度值选取自适应度值最高的N个蝙蝠作为精英蝙蝠保留,其中N为预设值;
S24:结合莱维飞行策略对非精英蝙蝠进行位置更新;
S25:将适应度值最低的X个蝙蝠进行差分进化,其中X为预设值;
S26:计算所有蝙蝠的适应度值,并据此更新精英蝙蝠;
S27:重复步骤S24~S26直至完成预设迭代次数,得到N个精英蝙蝠,每个精英蝙蝠表示一个精英文本特征子集。
进一步地,所述步骤S21包括:
设置蝙蝠种群个数为M,最大频率fmax,最小频率fmin,最大迭代次数Max_iteration,初始化蝙蝠种群的位置xi=(xi1,xi2,…,xid),初始化速度vi=(vi1,vi2,…,vid)和脉冲发射率ri0;其中,d为初始文本特征向量维度;xi表示第i个蝙蝠的位置,通过阈值将其转化为二进制位置,二进制位置中的值为1的表示当前位置的特征被选中,值为0表示当前位置的特征未被选中;vi表示第i个蝙蝠的速度。
进一步地,所述步骤S22包括:
将分类算法的分类精度作为适应度函数来计算每个蝙蝠的适应度值,并找到最好的蝙蝠位置,即最优解x*。
进一步地,所述步骤S24包括:
根据公式(1)-(3)对非精英蝙蝠的频率、速度和位置进行更新,并限制其位置和速度在[-1,1]范围;
ft=fmin+(fmax-fmin)×rand (1)
vi(t+1)=vi(t)+(xi(t)-x*)×ft (2)
xi(t+1)=xi(t)+vi(t) (3)
其中,fmin和fmax分别表示蝙蝠种群的最小频率和最大频率,t表示迭代次数,rand表示介于0到1之间的随机值,ft表示第t次迭代中蝙蝠种群的频率,vi(t)为第i只蝙蝠在第t次迭代中的速度,xi(t)表示第i只蝙蝠在第t次迭代中的位置,x*表示最好蝙蝠的位置,即最优解x*;
产生随机数rand1,如果rand1>ri,则采用莱维飞行策略对蝙蝠xi进行位置更新,其中,ri表示当前迭代中的脉冲发射率;
计算各蝙蝠的适应度值,如果存在xi更优于x*,当前蝙蝠i的位置更新为xi,并根据公式(6)更新脉冲辐射率ri,
ri(t+1)=ri0[1-exp(-γt)] (6)
其中,ri0为初始脉冲发射率,γ为系数,其取值范围为γ>0;
更新最优解x*。
进一步地,所述采用莱维飞行策略对蝙蝠xi进行位置更新包括:
莱维飞行的位置更新公式如公式(4)所示:
Levy(θ)≈|θ|-1-β (5)
其中,β的范围在0到2之间,θ表示步长,Levy(θ)表示步长θ的概率。
进一步地,所述步骤S25包括:
选取适应度值最低的X个蝙蝠;
首先对蝙蝠的每个维度进行公式(7)所示的交叉运算,产生一个新的蝙蝠位置ui;
然后按照公式(8)进行选择,若交叉之后的位置更优,则将当前蝙蝠的位置更新为新的蝙蝠位置,否则,将当前蝙蝠位置更新为一个随机位置;
其中,f表示适应度函数,xrand表示一个随机产生的位置。
进一步地,其特征在于,所述步骤S2之后还包括如下步骤:
对得到的每个精英文本特征子集根据阈值选择子集,当精英文本特征子集中的特征值大于阈值时,则该特征值被赋值为1,表示当前位置的特征被选中;当特征值小于阈值时,则该特征值被赋值为0,表示当前位置的特征未被选中,最终选出若干文本特征数据集的特征子空间。
第二方面,提供了一种主动脉夹层疾病特征数据集的特征选取方法,采用如上所述的基于改进蝙蝠算法的文本特征选择方法进行主动脉夹层疾病特征数据集的特征选取,其中若干文本特征数据集为主动脉夹层疾病特征数据集。主动脉夹层疾病特征数据集包括患者的常规检查结果、生活习惯、遗传病的家族病史等,其中常规检查结果包括患者的常规血液检查,生化检查和凝血常规检查项目等常规检查结果。
第三方面,提供了一种基于改进蝙蝠算法的文本特征选择装置,包括:
初始文本特征向量获取模块:用于获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;
精英文本特征子集获取模块:用于利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集;具体包括如下步骤:
S21:初始化蝙蝠种群;
S22:计算每个蝙蝠的适应度值;
S23:根据每个蝙蝠的适应度值选取自适应度值最高的N个蝙蝠作为精英蝙蝠保留,其中N为预设值;
S24:结合莱维飞行策略对非精英蝙蝠进行位置更新;
S25:将适应度值最低的X个蝙蝠进行差分进化,其中X为预设值;
S26:计算所有蝙蝠的适应度值,并据此更新精英蝙蝠;
S27:重复步骤S24~S26直至完成预设迭代次数,得到N个精英蝙蝠,每个精英蝙蝠表示一个精英文本特征子集。
第四方面,提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序适于被处理器加载并执行如上所述的基于改进蝙蝠算法的文本特征选择方法或主动脉夹层疾病特征数据集的特征选取方法。
有益效果
本发明提出了一种基于改进蝙蝠算法的文本特征选择方法、装置及存储介质,与现有技术相比,其优点在于:首先鉴于蝙蝠算法更新策略的局部性,引入莱维飞行策略改进蝙蝠的位置更新方式,以确保单个蝙蝠不会被局限在最优蝙蝠的附近,来提高蝙蝠算法在高维复杂空间中的开发能力,并扩大了搜索空间,即确保文本数据特征提取不会陷入局部最优解;另外,对于每次迭代的适应度较低的几个蝙蝠实行差分进化,对蝙蝠的位置进行改进,提高了蝙蝠的多样性和总体适应度。同时在每次迭代中,使用精英保留策略,可避免较优的解在迭代时消失,其优势就在于,使精英蝙蝠始终保持全局最佳的几个蝙蝠的位置,在后续的特征集成过程中,保证集成的每个特征子空间都是最好的几个精英蝙蝠的解,从而可以获得更好的集成效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于改进蝙蝠算法的文本特征选择方法的流程图;
图2是本发明实施例提供的不同分类算法在有无进行特征选择情况下的分类精度。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
实施例1
如图1所示,本实施例提供了一种基于改进蝙蝠算法的文本特征选择方法,包括:
S1:获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;
S2:利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集;具体包括如下步骤:
S21:初始化蝙蝠种群;
S22:计算每个蝙蝠的适应度值;
S23:根据每个蝙蝠的适应度值选取自适应度值最高的N个蝙蝠作为精英蝙蝠保留,其中N为预设值;
S24:结合莱维飞行策略对非精英蝙蝠进行位置更新;
S25:将适应度值最低的X个蝙蝠进行差分进化,其中X为预设值;
S26:计算所有蝙蝠的适应度值,并据此更新精英蝙蝠;
S27:重复步骤S24~S26直至完成预设迭代次数,得到N个精英蝙蝠,每个精英蝙蝠表示一个精英文本特征子集。
更具体的,步骤S2包括:
初始化蝙蝠种群,设置蝙蝠种群个数为M,最大频率fmax,最小频率fmin,最大迭代次数Max_iteration,初始化蝙蝠种群的位置(即可能解)xi,初始化速度vi和脉冲发射率ri0。在实际的对初始文本特征向量进行特征选择过程中,位置xi=(xi1,xi2,…,xid),速度vi=(vi1,vi2,…,vid),d为候选特征数目(初始文本特征向量维度),即表示d维空间的一个候选特征组合,总共有N个候选特征组合。计算每个蝙蝠的适应度值,找到最好的蝙蝠位置,,即最优解x*,并采用精英策略吧适应度值最高的N个蝙蝠作为精英蝙蝠保留。M、d、N均为预设值,实施过程中,将所选分类算法的分类精度作为适应度函数来计算适应度值,用St表示测试正确的分类数,Sf表示测试错误的分类数,则适应度函数可表示为:
开始迭代过程,开始迭代次数t=1,对于每个蝙蝠i,如果属于精英蝙蝠,则在迭代中不需要更新它们的位置。蝙蝠的移动速度和位置更新会根据频率的变化来变化,频率越高的情况下,距离也越短,根据公式(1)-(3)对非精英蝙蝠的频率、速度和位置进行更新,并限制其位置和速度在[-1,1]范围。
由于原始的蝙蝠算法最初是为连续的优化问题而提出的。如果用于特征选择,那么需要将其进行二进制转化。本发明将蝙蝠种群的位置和速度初始化的范围限制在[-1,1]之间,继续使用连续值更新速度和位置,然后采用阈值来得到二进制位置。其中二进制位置中的值为1的表示当前位置的特征被选中,值为0表示当前位置的特征未被选中。
ft=fmin+(fmax-fmin)×rand (1)
vi(t+1)=vi(t)+(xi(t)-x*)×ft (2)
xi(t+1)=xi(t)+vi(t) (3)
其中,fmin和fmax分别表示蝙蝠种群的最小频率和最大频率,t表示迭代次数,rand表示介于0到1之间的随机值,ft表示第t次迭代中蝙蝠种群的频率,vi(t)为第i只蝙蝠在第t次迭代中的速度,xi(t)表示第i只蝙蝠在第t次迭代中的位置,x*表示最好蝙蝠的位置,即最优解x*;
产生随机数rand1,如果rand1>ri,则采用莱维飞行策略对蝙蝠xi进行位置更新,其中,ri表示当前迭代中的脉冲发射率;采用莱维飞行策略对蝙蝠xi进行位置更新包括:
莱维飞行的位置更新公式如公式(4)所示:
Levy(θ)≈|θ|-1-β (5)
其中,β的范围在0到2之间,θ表示步长,Levy(θ)即表示步长θ的概率。
计算各蝙蝠的适应度值,如果存在xi更优于x*,当前蝙蝠i的位置更新为xi,并根据公式(6)更新脉冲辐射率ri,
ri(t+1)=ri0[1-exp(-γt)] (6)
其中,ri0为初始脉冲发射率,γ为系数,其取值范围为γ>0;
更新最优解x*。
进一步为增加种群的多样性,本发明将差分进化中的交叉和变异引入蝙蝠算法以指导蝙蝠产生更好的后代。差分进化是基本思想是对现有的种群进行变异和交叉的操作产生新的种群,然后使用选择操作选择最终的新的个体。本研究将差分进化中的交叉和变异引入蝙蝠算法以指导蝙蝠产生更好的后代,从而可以增加种群的多样性。即将适应度低的X个蝙蝠以公式(7)和公式(8)进行差分进化,具体包括:
选取适应度值最低的X个蝙蝠;
首先对蝙蝠的每个维度进行公式(7)所示的交叉运算,产生一个新的蝙蝠位置ui;交叉操作的目的是随机选择个体,因为差分进化也是一种随机算法;
然后按照公式(8)进行选择,若交叉之后的位置更优,则将当前蝙蝠的位置更新为新的蝙蝠位置,否则,将当前蝙蝠位置更新为一个随机位置;
其中,f表示适应度函数,xrand表示一个随机产生的位置。
计算所有蝙蝠的适应度值,并据此更新精英蝙蝠;
重复上述迭代过程,直到迭代次数t>=Max_iteration,输出所有的精英蝙蝠,每个精英蝙蝠表示一个精英文本特征子集。
本实施例中,还包括对得到的每个精英文本特征子集根据阈值选择子集,当精英文本特征子集中的特征值大于阈值时,则该特征值被赋值为1,表示当前位置的特征被选中;当特征值小于阈值时,则该特征值被赋值为0,表示当前位置的特征未被选中,最终选出若干文本特征数据集的特征子空间。
实际应用时,可在得到特征子空间的基础上进行特征集成,即采用机器学习算法作为基分类器进行分类,然后采用集成策略来集成多个基分类器的结果,得到最后的分类结果。本发明中的集成策略使用简单多数投票的策略组合每个基分类器的类别标签作为最后的训练结果。由于蝙蝠算法在一次实验之后可以产生多个最优解或次优解,并不需要进行多次实验来产生多个特征子集,因此并不会增加算法的复杂度和训练时间。
首先鉴于蝙蝠算法更新策略的局部性,引入莱维飞行策略改进蝙蝠的位置更新方式,以确保单个蝙蝠不会被局限在最优蝙蝠的附近,来提高蝙蝠算法在高维复杂空间中的开发能力,并扩大了搜索空间。另外,对于每次迭代的适应度较低的几个蝙蝠实行改后的差分进化,采用差分进化中的交叉和选择过程对蝙蝠的位置进行改进,提高了蝙蝠的多样性和总体适应度。同时在每次迭代中,使用精英保留策略,可避免较优的解在迭代时消失,其优势就在于,使精英蝙蝠始终保持全局最佳的几个蝙蝠的位置,在后续的特征集成过程中,保证集成的每个特征子空间都是最好的几个精英个体的解,从而可以获得更好的集成效果。
在精英文本特征子集选择的基础上,进行特征集成,即将产生的多个特征子空间作为集成算法的基分类器的数据子集,从而可以提高模型的准确性和泛化性。蝙蝠算法是基于生物种群的算法,每个蝙蝠的位置代表一个可能的解,因此在蝙蝠种群中,每次迭代产生的解可能不止一个最优解或者次优解,通过精英保留策略保留蝙蝠算法结果中适应度高的多个精英蝙蝠,对精英蝙蝠产生的特征子空间采用多个基分类器分类,然后采用简单多数投票的策略组合每个基分类器的类别标签作为最后的训练结果。
实施例2
本实施例提供了一种主动脉夹层疾病特征数据集的特征选取方法,采用如上所述的基于改进蝙蝠算法的文本特征选择方法进行主动脉夹层疾病特征数据集的特征选取,其中若干文本特征数据集为主动脉夹层疾病特征数据集。主动脉夹层疾病特征数据集包括患者的常规检查结果、生活习惯、遗传病的家族病史等,其中常规检查结果包括患者的常规血液检查,生化检查和凝血常规检查项目等常规检查结果。更具体的实现过程参见实施例1,在此不再赘述。
在此,为进一步说明本实施例的实施过程,现采用以下实验来验证本发明的有益效果:
本实验采用主动脉夹层疾病特征数据集,该特征数据集包含77个特征,来自于患者的常规检查结果,其中包括患者的常规血液检查,生化检查和凝血常规检查项目等常规检查结果,以及一些患者的生活习惯,遗传病的家族病史以及其他一些数据。共有234个样例,其中患有主动脉夹层的患者83个,非主动脉夹层患者151个。此处利用主动脉夹层疾病特征数据集,进行以下两个实验来证明本发明提出的特征选择方法的有效性。在实验中,将提出的特征选择方法简称为EIBBA。
实验一,对于主动脉夹层特征数据集,对比未经特征选择的机器学习方法的分类效果和经过EIBBA算法选择之后的分类效果,以验证本发明提出的特征选择方法的有效性。为了避免分类器的不同所带来的偏差,采用三种分类器进行了实验对比,包括支持向量机(SVM)、k-最近邻(kNN)和随机森林(RF)。
实验二,对比本发明提出的特征选择方法与不同的特征选择方法用于主动脉夹层分类的差别,以验证EIBBA算法的有效性。对比算法采用了经典的relief算法、mRMR算法、基于RF的特征选择算法、基于PSO的特征选择算法和基于BA的特征选择算法。
在本实验中,采用的评价指标有准确率(ACC)、灵敏度(SN)、特异度(SP)、和F2_score来评估分类性能。
实验1的结果如表1所示。从表1的结果可以看出,对于三个分类器,没有经过特征选择的分类结果与经过EIBBA特征选择之后的分类结果有明显差距,经过特征选择之后,其分类结果在准确率(ACC)、灵敏度(SN)、特异度(SP)和F2_score的所有评估指标上都有了较大的提升。其中,以SVM为分类器的提升效果最明显,其准确率提高了19.44%,其F2_score提高了59.68%,但尽管SVM提升最明显,但其效果还是不如另外两个分类器。当以RF为分类器时,对比SVM和KNN而言,无论有没有经过特征选择,它都取得了最好的分类结果,尤其在经过EIBBA特征选择之后,它达到了目前最好的结果。也可以从图2看到三个分类器的特征选择前后的分类精度对比,可以明显的看出三个分类器的分类精度上,后者明显高于前者。其中FS是特征选择的缩写。
表1有无EIBBA特征选择在三个分类器上的分类性能
实验2的结果如表2所示,从表2中可以看出,对比其他特征选择算法,EIBBA在准确率、灵敏度、特异度和F2_score上均取得了最高值。其中,后三个算法作为启发式算法用于特征选择的有效性是非常明显的,PSO、BA和EIBBA的结果均要高于Relief、mRMR和RF。启发式算法用作特征选择好处就在于它们并不会对所有特征对于目标的重要性进行排序,而考虑了总体的特征子空间对于最终目标的影响,在特征中可能存在交互作用的特征从而影响分类结果,那么启发式算法就可以考虑这种情况而不是仅仅考虑单个特征的影响,且也不需要考虑所要选择特征的个数。
表2不同特征选择算法在RF分类器上的分类性能
实施例3
本实施例提供了一种基于改进蝙蝠算法的文本特征选择装置,包括:
初始文本特征向量获取模块:用于获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;
精英文本特征子集获取模块:用于利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集;具体包括如下步骤:
S21:初始化蝙蝠种群;
S22:计算每个蝙蝠的适应度值;
S23:根据每个蝙蝠的适应度值选取自适应度值最高的N个蝙蝠作为精英蝙蝠保留,其中N为预设值;
S24:结合莱维飞行策略对非精英蝙蝠进行位置更新;
S25:将适应度值最低的X个蝙蝠进行差分进化,其中X为预设值;
S26:计算所有蝙蝠的适应度值,并据此更新精英蝙蝠;
S27:重复步骤S24~S26直至完成预设迭代次数,得到N个精英蝙蝠,每个精英蝙蝠表示一个精英文本特征子集。
实施例4
本实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序适于被处理器加载并执行如上所述的基于改进蝙蝠算法的文本特征选择方法或主动脉夹层疾病特征数据集的特征选取方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于改进蝙蝠算法的文本特征选择方法,其特征在于,包括:
S1:获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;
S2:利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集;具体包括如下步骤:
S21:初始化蝙蝠种群;
S22:计算每个蝙蝠的适应度值;
S23:根据每个蝙蝠的适应度值选取自适应度值最高的N个蝙蝠作为精英蝙蝠保留,其中N为预设值;
S24:结合莱维飞行策略对非精英蝙蝠进行位置更新;
S25:将适应度值最低的X个蝙蝠进行差分进化,其中X为预设值;
S26:计算所有蝙蝠的适应度值,并据此更新精英蝙蝠;
S27:重复步骤S24~S26直至完成预设迭代次数,得到N个精英蝙蝠,每个精英蝙蝠表示一个精英文本特征子集。
2.根据权利要求1所述的基于改进蝙蝠算法的文本特征选择方法,其特征在于,所述步骤S21包括:
设置蝙蝠种群个数为M,最大频率fmax,最小频率fmin,最大迭代次数Max_iteration,初始化蝙蝠种群的位置xi=(xi1,xi2,…,xid),初始化速度vi=(vi1,vi2,…,vid)和脉冲发射率ri0;其中,d为初始文本特征向量维度;xi表示第i个蝙蝠的位置,通过阈值将其转化为二进制位置,二进制位置中的值为1的表示当前位置的特征被选中,值为0表示当前位置的特征未被选中;vi表示第i个蝙蝠的速度。
3.根据权利要求1所述的基于改进蝙蝠算法的文本特征选择方法,其特征在于,所述步骤S22包括:
将分类算法的分类精度作为适应度函数来计算每个蝙蝠的适应度值,并找到最好的蝙蝠位置,即最优解x*。
4.根据权利要求1所述的基于改进蝙蝠算法的文本特征选择方法,其特征在于,所述步骤S24包括:
根据公式(1)-(3)对非精英蝙蝠的频率、速度和位置进行更新,并限制其位置和速度在[-1,1]范围;
ft=fmin+(fmax-fmin)×rand (1)
vi(t+1)=vi(t)+(xi(t)-x*)×ft (2)
xi(t+1)=xi(t)+vi(t) (3)
其中,fmin和fmax分别表示蝙蝠种群的最小频率和最大频率,t表示迭代次数,rand表示介于0到1之间的随机值,ft表示第t次迭代中蝙蝠种群的频率,vi(t)为第i只蝙蝠在第t次迭代中的速度,xi(t)表示第i只蝙蝠在第t次迭代中的位置,x*表示最好蝙蝠的位置,即最优解x*;
产生随机数rand1,如果rand1>ri,则采用莱维飞行策略对蝙蝠xi进行位置更新,其中,ri表示当前迭代中的脉冲发射率;
计算各蝙蝠的适应度值,如果存在xi更优于x*,当前蝙蝠i的位置更新为xi,并根据公式(6)更新脉冲辐射率ri,
ri(t+1)=ri0[1-exp(-γt)] (6)
其中,ri0为初始脉冲发射率,γ为系数,其取值范围为γ>0;
更新最优解x*。
7.根据权利要求1至6任一项所述的基于改进蝙蝠算法的文本特征选择方法,其特征在于,所述步骤S2之后还包括如下步骤:
对得到的每个精英文本特征子集根据阈值选择子集,作为若干文本特征数据集的特征子空间。
8.一种主动脉夹层疾病特征数据集的特征选取方法,其特征在于,采用如权利要求1至7任一项所述的基于改进蝙蝠算法的文本特征选择方法进行主动脉夹层疾病特征数据集的特征选取,其中若干文本特征数据集为主动脉夹层疾病特征数据集。
9.一种基于改进蝙蝠算法的文本特征选择装置,其特征在于,包括:
初始文本特征向量获取模块:用于获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;
精英文本特征子集获取模块:用于利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集;具体包括如下步骤:
S21:初始化蝙蝠种群;
S22:计算每个蝙蝠的适应度值;
S23:根据每个蝙蝠的适应度值选取自适应度值最高的N个蝙蝠作为精英蝙蝠保留,其中N为预设值;
S24:结合莱维飞行策略对非精英蝙蝠进行位置更新;
S25:将适应度值最低的X个蝙蝠进行差分进化,其中X为预设值;
S26:计算所有蝙蝠的适应度值,并据此更新精英蝙蝠;
S27:重复步骤S24~S26直至完成预设迭代次数,得到N个精英蝙蝠,每个精英蝙蝠表示一个精英文本特征子集。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,所述计算机程序适于被处理器加载并执行如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110116530.2A CN112800224A (zh) | 2021-01-28 | 2021-01-28 | 基于改进蝙蝠算法的文本特征选择方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110116530.2A CN112800224A (zh) | 2021-01-28 | 2021-01-28 | 基于改进蝙蝠算法的文本特征选择方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800224A true CN112800224A (zh) | 2021-05-14 |
Family
ID=75812446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110116530.2A Pending CN112800224A (zh) | 2021-01-28 | 2021-01-28 | 基于改进蝙蝠算法的文本特征选择方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800224A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688354A (zh) * | 2024-02-01 | 2024-03-12 | 中国标准化研究院 | 一种基于进化算法的文本特征选择方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121999A (zh) * | 2017-12-10 | 2018-06-05 | 北京工业大学 | 基于混合蝙蝠算法的支持向量机参数选择方法 |
CN108694438A (zh) * | 2018-04-25 | 2018-10-23 | 武汉大学 | 一种结合爆炸策略、反向学习与蝙蝠算法的单目标优化问题方法及系统 |
CN109711373A (zh) * | 2018-12-29 | 2019-05-03 | 浙江大学 | 一种基于改进蝙蝠算法的大数据特征选择方法 |
CN110020435A (zh) * | 2019-04-03 | 2019-07-16 | 湖北工业大学 | 一种采用并行二进制蝙蝠算法优化文本特征选择的方法 |
CN110728349A (zh) * | 2019-09-19 | 2020-01-24 | 武汉大学 | 一种混合蝙蝠算法的优化方法以及多层感知器的优化方法 |
-
2021
- 2021-01-28 CN CN202110116530.2A patent/CN112800224A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121999A (zh) * | 2017-12-10 | 2018-06-05 | 北京工业大学 | 基于混合蝙蝠算法的支持向量机参数选择方法 |
CN108694438A (zh) * | 2018-04-25 | 2018-10-23 | 武汉大学 | 一种结合爆炸策略、反向学习与蝙蝠算法的单目标优化问题方法及系统 |
CN109711373A (zh) * | 2018-12-29 | 2019-05-03 | 浙江大学 | 一种基于改进蝙蝠算法的大数据特征选择方法 |
CN110020435A (zh) * | 2019-04-03 | 2019-07-16 | 湖北工业大学 | 一种采用并行二进制蝙蝠算法优化文本特征选择的方法 |
CN110728349A (zh) * | 2019-09-19 | 2020-01-24 | 武汉大学 | 一种混合蝙蝠算法的优化方法以及多层感知器的优化方法 |
Non-Patent Citations (3)
Title |
---|
LUO JUN等: ""A double-subpopulation variant of the bat algorithm"", 《APPLIED MATHEMATICS AND COMPUTATION》 * |
吴聪聪;贺毅朝;陈嶷瑛;刘雪静;才秀凤: "精英交叉二进制蝙蝠算法求解0-1背包问题", 计算机应用研究 * |
许德刚等: ""蝙蝠算法研究及应用综述"", 《计算机工程与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688354A (zh) * | 2024-02-01 | 2024-03-12 | 中国标准化研究院 | 一种基于进化算法的文本特征选择方法及系统 |
CN117688354B (zh) * | 2024-02-01 | 2024-04-26 | 中国标准化研究院 | 一种基于进化算法的文本特征选择方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Katuwal et al. | Heterogeneous oblique random forest | |
CN108846259B (zh) | 一种基于聚类和随机森林算法的基因分类方法及系统 | |
Chakraborty et al. | Novel enhanced-grey wolf optimization hybrid machine learning technique for biomedical data computation | |
Zhang et al. | Random forests with ensemble of feature spaces | |
Shah et al. | Feature selection with conjunctions of decision stumps and learning from microarray data | |
Alomari et al. | A hybrid filter-wrapper gene selection method for cancer classification | |
Bai et al. | Learning ECOC code matrix for multiclass classification with application to glaucoma diagnosis | |
Castelli et al. | Supervised learning: classification | |
Yao et al. | A novel random forests-based feature selection method for microarray expression data analysis | |
CN112215259B (zh) | 基因选择方法和装置 | |
Yang et al. | Predicting disease risks using feature selection based on random forest and support vector machine | |
Nie et al. | Neural network for multi-class classification by boosting composite stumps | |
Xu et al. | Classifier ensemble based on multiview optimization for high-dimensional imbalanced data classification | |
Sujana et al. | An efficient feature selection using parallel cuckoo search and naïve Bayes classifier | |
CN109545372B (zh) | 一种基于距离贪心策略的病人生理数据特征选择方法 | |
CN112800224A (zh) | 基于改进蝙蝠算法的文本特征选择方法、装置及存储介质 | |
CN111832645A (zh) | 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法 | |
Bostrom | Shapelet transforms for univariate and multivariate time series classification | |
Nanni et al. | Double committee adaboost | |
Al-Madi et al. | Adaptive genetic programming applied to classification in data mining | |
Julia et al. | Efficient Machine Learning Algorithms for Medical Big Data Analysis | |
Kecman et al. | Adaptive local hyperplane for regression tasks | |
Stiglic et al. | Finding optimal classifiers for small feature sets in genomics and proteomics | |
Mir | “Heart Disease Prediction and Severity Level Classification”: A Machine Learning approach with Feature Selection technique | |
Qiu et al. | A robust framework for enhancing cardiovascular disease risk prediction using an optimized category boosting model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210514 |
|
RJ01 | Rejection of invention patent application after publication |