CN111985580A - 基于烟花算法和支持向量机的乳腺癌临床数据分类方法 - Google Patents

基于烟花算法和支持向量机的乳腺癌临床数据分类方法 Download PDF

Info

Publication number
CN111985580A
CN111985580A CN202010923034.3A CN202010923034A CN111985580A CN 111985580 A CN111985580 A CN 111985580A CN 202010923034 A CN202010923034 A CN 202010923034A CN 111985580 A CN111985580 A CN 111985580A
Authority
CN
China
Prior art keywords
explosion
sparks
individual
firework
fireworks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010923034.3A
Other languages
English (en)
Inventor
申晓宁
王谦
游璇
黄遥
陈庆洲
潘红丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010923034.3A priority Critical patent/CN111985580A/zh
Publication of CN111985580A publication Critical patent/CN111985580A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,该方法利用改进烟花算法,设计新的适应度评价函数,引入改进的变异策略和基于适应度值的轮盘赌选择策略,利用改进的烟花算法对分类所需特征进行选择和支持向量机的参数优化,删除了冗余特征,有效提升了分类的准确度和效率。本发明在乳腺癌肿瘤的良性或恶性识别、以及经治疗后患者的预后复发分类数据集上均具有较高的分类准确度,为医疗人员辅助诊断乳腺癌提供了较好的智能方法。

Description

基于烟花算法和支持向量机的乳腺癌临床数据分类方法
技术领域
本发明属于数据分类领域,特别涉及了一种基于烟花算法和支持向量机(SVM)的乳腺癌临床数据分类方法。
背景技术
根据全国癌症中心统计数据,2015年中国约有4292000例新发癌症病例,乳腺癌居女性肿瘤发病首位,其发病率和死亡率呈逐年上升的趋势,严重威胁女性的健康。因此提高乳腺癌的生存率、降低复发转移风险以及改善患者生存质量一直是医学界的研究热点。随着现代医学的发展和进步,乳腺癌的早期诊断和治疗是治愈乳腺癌的关键。早期诊断对临床治疗有重要意义。但目前已有的乳腺癌肿瘤数据分类方法存在分类准确度不高、选取特征多,计算时间久等不足。
发明内容
本发明为了解决现有技术中存在的问题,提供一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法。
为了达到上述目的,本发明提出的技术方案为:一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,包括以下步骤:
步骤一、输入乳腺癌临床数据集,数据集包括良性肿瘤数据和恶性肿瘤数据,每组数据都包含多个特征,对数据集进行处理,把经过0-1标准化处理后的数据划分为训练集和测试集,
设定优化目标为SVM分类准确度高且选择的数据集特征数量少;
步骤二、设置烟花算法参数,群体规模为N、最大迭代次数Iter_Max、变异火花数M,设置代数计数器t=0;
步骤三、生成初始群体,并计算群体内个体的适应度值fit,适应度值fit等于目标值F;即个体的适应度fit越高,则个体的质量越好;
将初始群体每个个体对应的SVM参数和选择的特征分别代入SVM分类器,通过训练集进行训练,并利用测试集计算训练后的SVM分类器的分类准确度SVM_Acc,根据分类准确度和使用特征数量计算个体适应度值;
步骤四、生成爆炸火花,引入差分变异策略,增强群体的交互性;
首先,对群体中的每个烟花个体,采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量,并生成爆炸火花;然后,随机选取M个烟花,对其分别采用差分变异策略生成M个变异火花;
变异操作为DM/best/2,其中DM表示差分变异算子,best表示扰动的父向量采用当前最优个体,2表示差分向量的数目;
对生成的每个爆炸火花和变异火花对应的SVM参数和选择的特征分别代入SVM分类器,通过训练集进行训练,并利用测试集计算训练后的SVM分类器的分类准确度,根据分类准确度和使用特征数量计算个体适应度值;
步骤五、根据选择策略从烟花、爆炸火花和变异火花中选择N个作为下一代烟花:
首先根据个体适应度值,从候选群体中选取适应度最大的一个进入下一代烟花群体中,然后采用基于适应度值的轮盘赌选择策略从候选群体中选取N-1个烟花、爆炸火花或变异火花进入下一代烟花群体;
步骤六、终止准则判断;
如果迭代代数t>Iter_Max,则终止迭代,输出最优个体及其对应的分类准确度,其中该个体表示SVM的最优参数C,γ和选择的特征子集;否则t=t+1,转步骤四。
对上述技术方案的进一步设计为:所述分类准确度定义为通过训练集进行训练后的SVM分类器,在测试集数据上正确分类的样本数占总样本数的比例;分类准确度的计算公式为:
Figure BDA0002667377980000021
其中,TP表示被正确地划分为正类的样本个数,即实际为良性肿瘤数据且被分类器分为良性肿瘤数据的样本数,FP表示被错误地划分为正类的个数,即实际为恶性肿瘤数据但被分类器分为良性肿瘤数据的样本数,FN表示被错误地划分为负类的个数,即实际为良性肿瘤数据但被分类器分为恶性肿瘤数据的样本数,TN表示被正确地划分为负类的个数,即实际为恶性肿瘤数据且被分类器分为恶性肿瘤数据的样本数,SVM_Acc的值越大,则表示分类准确度越高。
所述选择的特征数量的评估指标定义为:
Figure BDA0002667377980000022
所述问题的特征选择为,fi=0表示第i个特征被选择,fi=1表示第i个特征未被选择,即
Figure BDA0002667377980000023
被选择的特征数量越少,则对特征选择数量的评估指标值FS越大。
所述优化目标定义为:
max F=Wa×SVM_Acc+Wf×FS
其中,Wa表示分类准确度的权重,Wf表示特征选择的权重,且Wf=1-Wa
步骤三所述的群体中个体生成的方式采用混合编码,每个个体由2+nf个变量组成,前两个变量采用实数编码表示SVM的参数C和γ,后nf个变量对应数据集的nf个特征,采用{0,1}二进制编码表示该特征是否在分类中被选择。
所述步骤四中采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量的方法为:
Figure BDA0002667377980000031
Figure BDA0002667377980000032
其中,Xi表示需要爆炸的烟花,Ai表示生成的爆炸半径,
Figure BDA0002667377980000033
表示限制爆炸幅度的参数,ymax、ymax分别表示当前群体中适应度的最大、最小值,N表示群体规模,Si表示爆炸火花数量,M表示限制爆炸火花数量的参数,ε为常数,为防止出现分母为零的情况,ε可以取很小的常数。
所述爆炸火花生成方法为:
Figure BDA0002667377980000034
其中,
Figure BDA0002667377980000035
表示第i个烟花Xi生成的第j个爆炸火花在第k维的位置,
Figure BDA0002667377980000036
表示第i个烟花Xi的第k维,rand(-1,1)表示在[-1,1]内生成的一个服从均匀分布的随机数;
对生成的第j个爆炸火花
Figure BDA0002667377980000037
进行越界检测,如果爆炸火花的某一维度
Figure BDA0002667377980000038
超出边界,则使用映射规则将其映射到可行域区域内,具体实现方法为:
Figure BDA0002667377980000039
其中,
Figure BDA00026673779800000310
是通过映射规则策略,把超出可行域边界爆炸火花和高斯变异火花映射到爆炸空间后的新位置,UB、LB为可行域的上下边界,rand(0,1)表示在[0,1]内生成的一个服从均匀分布的随机数。
步骤四中所述引入差分变异策略,生成变异火花的方法为:
Figure BDA0002667377980000041
其中,Vi k表示第i个烟花Xi生成的差分变异火花在第k维上的值,F1和F2表示取值范围在[0,2]之间的缩放因子,
Figure BDA0002667377980000042
表示当前一代最优个体在第k维上的值,
Figure BDA0002667377980000043
Figure BDA0002667377980000044
表示差分向量,
Figure BDA0002667377980000045
Figure BDA0002667377980000046
表示从第i个烟花Xi生成的爆炸火花中随机选取的四个不同的个体。
步骤四中所述生成变异火花的实现步骤为:
(a)从{1,2,L,Si}中随机选取4个不同的索引r1,r2,r3和r4,并根据索引从第i个烟花Xi生成的爆炸火花中选取四个不同的个体;
(b)对第i个烟花Xi的前两位,生成差分变异火花;对第i个烟花个体的第3到2+nf位,以变异概率为0.1,采用遗传算法的基本位变异进行变异操作,如果依据变异概率,某位需要变异,该位上原为1则置0,该位上原为0则置1,得到第i个差分变异火花Vi
(c)越界检测,如果变异火花的某一维度Vi k超出边界,则使用映射规则将其映射到可行域区域内。
步骤五中基于适应度值的轮盘赌选择策略表示烟花个体Xi被选中的概率Pi与适应度fiti成正比,即个体Xi被选中的概率Pi和累计概率Qi为:
Figure BDA0002667377980000047
其中,fiti为第i个体Xi的适应度值,m为候选群体中烟花、爆炸火花和变异火花的总数。
步骤五中所述基于适应度值的轮盘赌选择策略实现步骤为:
(a)确定规模为m的候选群体,需要选出个体数量N-1,令选择计数器g=1;
(b)计算候选群体中每个个体被选中的概率Pi和累计概率Qi
(c)生成一个均匀分布在[0,1]的随机数r;
(d)如果g>=N-1,个体选择结束,否则,g=g+1,跳转步骤(c)。
本发明相比于现有技术具有的有益效果为:
本发明采用一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,通过改进的烟花算法对支持向量机的参数进行优化,并对分类所需特征进行选取,提高了分类的精度和效率。
本发明设计了一种新型的适应度评价方法,除了在提高SVM分类准确度的同时降低样本的冗余特征数之外,该方法能够随着所选特征数的增加,自适应地加大对适应度的惩罚幅度,且保证了特征选择部分的适应度取值分布的多样性和宽广度。
针对基本烟花算法中个体缺少信息交互的不足,引入了差分变异算子改善算法的信息交互能力,增强算法的局部搜索性能。
在基本烟花算法中,选择策略需要计算候选群体中任意两个火花间的欧式距离,从而增加了算法的时间复杂度,针对上述不足,本发明提出了一种基于适应度值的轮盘赌选择策略,与基本的烟花算法相比,降低了算法的时间复杂度,提高了算法的运行效率。
附图说明
图1为本发明基于烟花算法和支持向量机的乳腺癌临床数据分类方法的主体流程图;
图2为本发明与基本烟花算法的进化曲线比较图。
具体实施方式
下面结合附图以及具体实施例对本发明进行详细说明。
实施例
本实施例采用的数据集来自美国威斯康星州乳腺癌原始数据集WBCD,临床数据包含699例,共10个特征,属于二分类问题,肿瘤分类为良性或恶性,具体特征意义如表1所示。
表1 WBCD数据集
Figure BDA0002667377980000051
使用本发明提出的一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法应用于乳腺癌诊断分类问题,主体流程如图1所示,具体步骤如下:
(1)输入数据集,数据集标准化处理分为训练集和测试集:
首先输入数据集WBCD输入算法,对699条数据进行预处理,每条数据具有10个特征,把经过0-1标准化处理后的数据分为训练集和测试集,其中0-1标准化处理为对数据集中样本特征进行0-1标准化处理,0-1标准化又称min-max标准化,即采用线性变化的方法将样本中所有特征值转换到[0,1]区间内,具体实现的方法如下:
Figure BDA0002667377980000061
其中,xi new表示标准化后的特征数据,xmin、xmax分别表示所有样本数据中的最小值和最大值。
采用随机抽样的方式,将所有标准化处理后的样本划分为10个数据子集,选取其中9个子集为训练模型,剩余的1个子集为独立的测试数据集。
给出优化目标的定义,并设定约束条件;
优化目标为SVM分类准确度高且选择的数据集特征数量少,定义为:
max F=Wa×SVM_Acc+Wf×FS
Figure BDA0002667377980000062
Figure BDA0002667377980000063
约束条件为参数C,γ的取值范围和第i个特征fi是否被选中:
Figure BDA0002667377980000064
其中,fi=0表示该特征被选中,fi=1表示该特征未被选中。
(2)设置改进的烟花算法参数:
设置改进的烟花算法群体规模为N=5、最大迭代次数Iter_Max=100,变异火花数M=5,参数C∈[0.01,35000],γ∈[0.0001,32],设置代数计数器t=0;
(3)生成初始候选群体,并使用改进的适应度函数公式计算适应度:
采用混合编码,每个个体由2+10个变量组成,前2个变量采用实数编码表示SVM的参数C和γ,后10个变量采用{0,1}编码表示特征是否在分类中被选择。令
fit(X)=F
即适应度fit越高,个体X的质量越好。
(4)对烟花群体中各烟花实行爆炸操作生成爆炸火花;其后,随机选取M个烟花,对其分别采用差分变异策略生成M个变异火花。
对第i个烟花Xi,计算爆炸火花半径和爆炸火花数量:
Figure BDA0002667377980000071
Figure BDA0002667377980000072
其中,Ai表示生成的爆炸半径,
Figure BDA0002667377980000073
表示限制爆炸幅度的参数,ymax、ymax分别表示当前群体中适应度的最大、最小值,N表示群体规模,Si表示爆炸火花数量,M表示限制爆炸火花数量的参数,ε取很小的常数,以防出现分母为零的情况。
爆炸火花每次爆炸会在第k维搜索空间,通过位置偏移产生新的火花,新的爆炸火花生成公式为:
Figure BDA0002667377980000074
其中,
Figure BDA0002667377980000075
表示第i个烟花生成的第j个爆炸火花在第k维的位置,
Figure BDA0002667377980000076
表示第i个烟花Xi在第k维的位置,rand(-1,1)表示在[-1,1]内生成的一个服从均匀分布的随机数。对生成的第j个爆炸火花
Figure BDA0002667377980000077
进行越界检测,如果爆炸火花的某一维度
Figure BDA0002667377980000078
超出边界,则使用映射规则将其映射到可行域区域内。
引入差分变异策略,生成变异火花的方法为:
Figure BDA0002667377980000079
其中,Vi k表示第i个烟花Xi生成的差分变异火花在第k维上的值,F1和F2表示取值范围在[0,2]之间的缩放因子,
Figure BDA00026673779800000710
表示当前一代最优个体在第k维上的值,
Figure BDA00026673779800000711
Figure BDA00026673779800000712
表示差分向量,
Figure BDA00026673779800000713
Figure BDA00026673779800000714
表示从第i个烟花Xi生成的爆炸火花中随机选取的四个不同的个体,用来生成变异火花。
步骤(4)中所述生成变异火花实现步骤为:
(a)从{1,2,L,Si}中随机选取4个不同的索引r1,r2,r3和r4,并根据索引从第i个烟花Xi生成的爆炸火花中选取四个不同的个体;
(b)对第i个烟花Xi的前两位,生成差分变异火花;对第i个烟花个体的第3到2+10位,以变异概率为0.1,采用遗传算法的基本位变异进行变异操作;得到第i个差分变异火花Vi
(c)越界检测,如果变异火花的某一维度Vi k超出边界,则使用映射规则将其映射到可行域区域内;
(5)根据选择策略从烟花、爆炸火花和变异火花中选择N个作为下一代烟花。首先根据个体适应度值,从当前代烟花、爆炸火花和变异火花构成的候选群体中选取适应度最大的一个进入下一代烟花群体,然后采用基于适应度值的轮盘赌选择策略从候选群体中选取N-1个烟花、爆炸火花或变异火花进入下一代烟花群体。
基于适应度值的轮盘赌的选择策略表示表示烟花个体Xi被选中的概率Pi与适应度fiti成正比,即个体Xi被选中的概率Pi和累计概率Qi为:
Figure BDA0002667377980000081
其中,fiti为第i个体Xi的适应度值,m为候选群体中烟花、爆炸火花和变异火花的总数。
步骤(5)中所述基于适应度值的轮盘赌选择策略实现步骤为:
(a)确定规模为m的候选群体,需要选出个体数量N-1,令选择计数器g=1;
(b)计算候选群体中每个个体被选中的概率Pi和累计概率Qi
(c)生成一个均匀分布在[0,1]的随机数r;
(d)如果r<=Q1,则选中个体X1放入下一代群体中,否则,选择个体Xk放入下一代群体,使得:Qk-1<r<=Qk成立;
(e)如果g>=N-1,个体选择结束,否则,g=g+1,跳转步骤(c)。
(6)终止准则判断:若t>Iter_Max,则终止迭代,输出适应度最优的个体和分类准确度,该个体为SVM的最优参数C,γ和选择的数据集特征子集。否则t=t+1,转步骤(4)。
本发明的效果可以通过以下仿真实验进一步说明:
1.实验条件:
在Intel(R)Core(TM)i5-7300HQ,CPU 2.5GHz,8G内存,win10系统上使用Matlab2017a进行仿真。
2.实验内容:
选取1个选自美国威斯康星州乳腺癌原始数据集作为实施例,如表1所示。
3.实验结果
采用本发明与现有的基本烟花算法分别对该问题进行求解。将两种方法在实施例中分别独立地运行30次。表2分别列出了两种方法在30次运行中求得的平均分类准确度和选择的特征数。
由表2可见,与基本烟花算法相比,本发明能够在乳腺癌分类问题中以较少的特征数量获得更优的分类准确度和更好的稳定性。
表2
Figure BDA0002667377980000091
图2给出了本发明与基本烟花算法搜索到的最佳个体适应度随着迭代次数变化的进化曲线图,以比较两种方法的收敛性能。由图2可见,本发明搜索到的最佳个体适应度值明显优于基本烟花算法。由此可见,改进的适应度函数能够较好的平衡特征选择和分类准确度之间的关系,有效地剔除冗余特征,并获得较高的分类准确度;引入差分变异策略后,增强了群体中个体的交互能力,对算法性能有一定的提升;而基于适应度的轮盘赌策略能够选择出较好的个体从而为下一次迭代提供搜索方向的引导,进一步提升了算法的收敛精度。
综上,本发明提出的一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,设计了一种新型的适应度评价方法,能够较好地平衡分类准确度和特征数量的关系。针对基本烟花算法中个体间缺乏信息交互的缺点,本文引入了差分变异算子,增加算法中个体间的信息交互能力,提高了算法的整体求解性能。针对原烟花算法基于欧氏距离的选择策略耗时长、算法复杂度高这一缺点,提出了基于适应度值的轮盘赌选择策略,降低了选择策略的复杂度,提高了算法的运行效率和收敛速度。利用改进的烟花算法实现支持向量机的参数优化和分类所需特征的选择,提高了分类的精度和效率。
本发明的技术方案不局限于上述各实施例,凡采用等同替换方式得到的技术方案均落在本发明要求保护的范围内。

Claims (10)

1.一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于,包括以下步骤:
步骤一、输入乳腺癌临床数据集,数据集包括良性肿瘤数据和恶性肿瘤数据,每组数据都包含多个特征,对数据集进行处理,划分训练集和测试集;
设定优化目标为SVM分类准确度高且选择的数据集特征数量少;
步骤二、设置烟花算法参数,群体规模为N、最大迭代次数Iter_Max、变异火花数M,设置代数计数器t=0;
步骤三、生成烟花算法的初始群体,并计算群体内个体的适应度值fit,适应度值fit等于目标值F;
将初始群体每个个体对应的SVM参数和选择的特征分别代入SVM分类器,通过训练集进行训练,并利用测试集计算训练后的SVM分类器的分类准确度SVM_Acc,根据分类准确度和使用特征数量计算个体适应度值;
步骤四、生成爆炸火花,引入差分变异策略,生成变异火花;
首先,对群体中的每个烟花个体,采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量,并生成爆炸火花;然后,随机选取M个烟花,对其分别采用差分变异策略生成M个变异火花;
对生成的每个爆炸火花和变异火花,计算个体适应度值;
步骤五、根据选择策略从烟花、爆炸火花和变异火花中选择N个作为下一代烟花:
首先根据个体适应度值,从候选群体中选取适应度最大的一个进入下一代烟花群体中,然后采用基于适应度值的轮盘赌选择策略从候选群体中选取N-1个烟花、爆炸火花或变异火花进入下一代烟花群体;
步骤六、终止准则判断;
如果迭代代数t>Iter_Max,则终止迭代,输出最优个体及其对应的分类准确度;否则t=t+1,转步骤四。
2.根据权利要求1所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述分类准确度定义为通过训练集进行训练后的SVM分类器,在测试集数据上正确分类的样本数占总样本数的比例;分类准确度的计算公式为:
Figure FDA0002667377970000011
其中,TP表示被正确地划分为正类的样本个数,即实际为良性肿瘤数据且被分类器分为良性肿瘤数据的样本数,FP表示被错误地划分为正类的个数,即实际为恶性肿瘤数据但被分类器分为良性肿瘤数据的样本数,FN表示被错误地划分为负类的个数,即实际为良性肿瘤数据但被分类器分为恶性肿瘤数据的样本数,TN表示被正确地划分为负类的个数,即实际为恶性肿瘤数据且被分类器分为恶性肿瘤数据的样本数。
3.根据权利要求2所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述选择的特征数量的评估指标定义为:
Figure FDA0002667377970000021
所述问题的特征选择为,fi=0表示第i个特征被选择,fi=1表示第i个特征未被选择。
4.根据权利要求3所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述优化目标定义为:
max F=Wa×SVM_Acc+Wf×FS
其中,Wa表示分类准确度的权重,Wf表示特征选择的权重,且Wf=1-Wa
5.根据权利要求4所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:步骤三所述的群体中个体生成的方式采用混合编码,每个个体由2+nf个变量组成,前两个变量采用实数编码表示SVM的参数C和γ,后nf个变量对应数据集的nf个特征,采用{0,1}二进制编码表示该特征是否在分类中被选择。
6.根据权利要求5所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述步骤四中采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量的方法为:
Figure FDA0002667377970000022
Figure FDA0002667377970000023
其中,Xi表示需要爆炸的烟花,Ai表示生成的爆炸半径,
Figure FDA0002667377970000024
表示限制爆炸幅度的参数,ymax、ymax分别表示当前群体中适应度的最大、最小值,N表示群体规模,Si表示爆炸火花数量,M表示限制爆炸火花数量的参数,ε为常数;
所述爆炸火花生成方法为:
Figure FDA0002667377970000031
其中,
Figure FDA0002667377970000032
表示第i个烟花Xi生成的第j个爆炸火花在第k维的位置,
Figure FDA0002667377970000033
表示第i个烟花Xi的第k维,rand(-1,1)表示在[-1,1]内生成的一个服从均匀分布的随机数;
对生成的第j个爆炸火花
Figure FDA0002667377970000034
进行越界检测,如果爆炸火花的某一维度
Figure FDA0002667377970000035
超出边界,则使用映射规则将其随机映射到可行域区域内。
7.根据权利要求6所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:步骤四中所述引入差分变异策略,生成变异火花的方法为:
Figure FDA0002667377970000036
其中,Vi k表示第i个烟花Xi生成的差分变异火花在第k维上的值,F1和F2表示取值范围在[0,2]之间的缩放因子,
Figure FDA0002667377970000037
表示当前一代最优个体在第k维上的值,
Figure FDA0002667377970000038
Figure FDA0002667377970000039
表示差分向量,
Figure FDA00026673779700000310
Figure FDA00026673779700000311
表示从第i个烟花Xi生成的爆炸火花中随机选取的四个不同的个体。
8.根据权利要求7所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于,步骤四中所述生成变异火花的实现步骤为:
(a)从{1,2,L,Si}中随机选取4个不同的索引r1,r2,r3和r4,并根据索引从第i个烟花Xi生成的爆炸火花中选取四个不同的个体;
(b)对第i个烟花Xi的前两位,生成差分变异火花;对第i个烟花个体的第3到2+nf位,以变异概率0.1,采用遗传算法的基本位变异进行变异操作,得到第i个差分变异火花Vi
(c)越界检测,如果变异火花的某一维度Vi k超出边界,则使用映射规则将其映射到可行域区域内。
9.根据权利要求8所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:步骤五中基于适应度值的轮盘赌选择策略表示烟花个体Xi被选中的概率Pi与适应度fiti成正比,即个体Xi被选中的概率Pi和累计概率Qi为:
Figure FDA00026673779700000312
其中,fiti为第i个体Xi的适应度值,m为候选群体中烟花、爆炸火花和变异火花的总数。
10.根据权利要求9所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于,步骤五中所述基于适应度值的轮盘赌选择策略实现步骤为:
(a)确定规模为m的候选群体,需要选出个体数量N-1,令选择计数器g=1;
(b)计算候选群体中每个个体被选中的概率Pi和累计概率Qi
(c)生成一个均匀分布在[0,1]的随机数r;
(d)如果r<=Q1,则选中个体X1放入下一代群体中,否则,选择个体Xk放入下一代群体,使得:Qk-1<r<=Qk成立;
如果g>=N-1,个体选择结束,否则,g=g+1,跳转步骤(c)。
CN202010923034.3A 2020-09-04 2020-09-04 基于烟花算法和支持向量机的乳腺癌临床数据分类方法 Pending CN111985580A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010923034.3A CN111985580A (zh) 2020-09-04 2020-09-04 基于烟花算法和支持向量机的乳腺癌临床数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010923034.3A CN111985580A (zh) 2020-09-04 2020-09-04 基于烟花算法和支持向量机的乳腺癌临床数据分类方法

Publications (1)

Publication Number Publication Date
CN111985580A true CN111985580A (zh) 2020-11-24

Family

ID=73448211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010923034.3A Pending CN111985580A (zh) 2020-09-04 2020-09-04 基于烟花算法和支持向量机的乳腺癌临床数据分类方法

Country Status (1)

Country Link
CN (1) CN111985580A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157272A1 (zh) * 2017-02-28 2018-09-07 江南大学 一种基于改进的烟花算法进行图像处理的方法
CN109816000A (zh) * 2019-01-09 2019-05-28 浙江工业大学 一种新的特征选择与参数优化方法
CN110070141A (zh) * 2019-04-28 2019-07-30 上海海事大学 一种网络入侵检测方法
CN111081317A (zh) * 2019-12-10 2020-04-28 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157272A1 (zh) * 2017-02-28 2018-09-07 江南大学 一种基于改进的烟花算法进行图像处理的方法
CN109816000A (zh) * 2019-01-09 2019-05-28 浙江工业大学 一种新的特征选择与参数优化方法
CN110070141A (zh) * 2019-04-28 2019-07-30 上海海事大学 一种网络入侵检测方法
CN111081317A (zh) * 2019-12-10 2020-04-28 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
EVA TUBA 等: "Bare Bones Fireworks Algorithm for Feature Selection and SVM Optimization", <2019 IEEE CONGRESS ON EVOLUTIONARY COMPUTATION>, pages 2207 - 2214 *
刘兴华 等: "基于支持向量机的乳腺癌辅助诊断", 《重庆大学学报(自然科学版)》, vol. 30, no. 6, pages 141 *
朱宗斌 等: "二进制粒子群支持向量机算法在SAR图像海面溢油特征选择的应用", 《海洋湖沼通报》, pages 180 *
沈永良 等: "基于改进烟花算法的SVM特征选择和参数优化", 《微电子学与计算机》, vol. 35, no. 1, pages 23 *
蒋康荣: "蜂窝网络中基于TDOA的定位算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 42 *
赵孝豪: "混合差分变异的烟花算法及其在光伏模型参数辨识中的应用", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, pages 27 *

Similar Documents

Publication Publication Date Title
Jörnsten Clustering and classification based on the L1 data depth
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN112927757B (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
Kianmehr et al. Fuzzy clustering-based discretization for gene expression classification
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
Salem et al. Gene expression profiles based human cancer diseases classification
Liu et al. Ensemble component selection for improving ICA based microarray data prediction models
CN111944900A (zh) 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法
CN111985580A (zh) 基于烟花算法和支持向量机的乳腺癌临床数据分类方法
Hanczar et al. Phenotypes prediction from gene expression data with deep multilayer perceptron and unsupervised pre-training
Jodas et al. PL-k NN: A parameterless nearest neighbors classifier
Ni et al. A hybrid filter/wrapper gene selection method for microarray classification
CN114841241A (zh) 一种基于聚类和距离加权的不平衡数据分类方法
Saha et al. Simultaneous clustering and feature weighting using multiobjective optimization for identifying functionally similar mirnas
Mythili et al. CTCHABC-hybrid online sequential fuzzy Extreme Kernel learning method for detection of Breast Cancer with hierarchical Artificial Bee
Li et al. Ensemble-based multi-objective clustering algorithms for gene expression data sets
CN111808965A (zh) 一种特征lincRNA表达谱组合及肾透明细胞癌早期预测方法
Chen et al. Gene expression analyses using genetic algorithm based hybrid approaches
Lu et al. Systematic identification of multiple tumor types in microarray data based on hybrid differential evolution algorithm
Soares et al. Automating microarray classification using general regression neural networks
CN116910660B (zh) 面向不平衡数据的自步半监督集成分类器训练方法及系统
CN108446740A (zh) 一种用于脑影像病历特征提取的多层一致协同方法
Mukkamala et al. Feature selection and ranking of key genes for tumor classification: Using microarray gene expression data
Li et al. Gene selection and tissue classification based on support vector machine and genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination