CN114758771A - 一种基于约束型鲸鱼优化算法的肝癌生存预测方法 - Google Patents
一种基于约束型鲸鱼优化算法的肝癌生存预测方法 Download PDFInfo
- Publication number
- CN114758771A CN114758771A CN202210304179.4A CN202210304179A CN114758771A CN 114758771 A CN114758771 A CN 114758771A CN 202210304179 A CN202210304179 A CN 202210304179A CN 114758771 A CN114758771 A CN 114758771A
- Authority
- CN
- China
- Prior art keywords
- whale
- optimal
- liver cancer
- constrained
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000283153 Cetacea Species 0.000 title claims abstract description 79
- 238000005457 optimization Methods 0.000 title claims abstract description 41
- 230000004083 survival effect Effects 0.000 title claims abstract description 33
- 201000007270 liver cancer Diseases 0.000 title claims abstract description 32
- 208000014018 liver neoplasm Diseases 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000013145 classification model Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 230000008602 contraction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 230000003068 static effect Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims 1
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000002028 premature Effects 0.000 abstract description 5
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000011282 treatment Methods 0.000 description 8
- 206010028980 Neoplasm Diseases 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 244000062804 prey Species 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
本发明涉及肝癌生存预测技术领域,尤其涉及一种基于约束型鲸鱼优化算法的肝癌生存预测方法,包括S1、数据采集和预处理:采集患者医学定性指标和医学定量指标建立数据集,并将数据集按比例分为训练集和测试集;S2、使用约束型鲸鱼优化算法对数据集进行特征选取,得到最优特征组合;利用训练集建立分类模型,并利用测试集对分类模型进行验证;S3、利用最优特征组合进行分类。本发明针对现有技术中缺乏肝癌生存预测的方案以及WOA算法很容易出现过早收敛和局部最优的问题,提出约束型的WOA算法寻找到更有用肝癌生存特征,并利用高斯函数加权方式的KNN分类器进行分类。
Description
技术领域
本发明涉及肝癌生存预测技术领域,尤其涉及一种基于约束型鲸鱼优化算法的肝癌生存预测方法。
背景技术
癌症是危害我国人民健康的主要疾病之一,如果可以利用人工智能技术探索癌症的发生和发展,为癌症的早期筛查、临床诊断、精准治疗和生存预测等方面提供快速、有效、准确的方法学手段,则可以某种程度上降低癌症发生率和死亡率。
据统计,肝癌是全球第六大最常被诊断的癌症,也是因为癌症相关疾病死亡的第二大原因,是全球都要面临的健康问题;面对如此高发高死亡率的疾病,生存预测显得至关重要;它是目前医学研究界面临的最具挑战性的任务之一,包含大量的临床数据分析;需要从这些数据中得出相应的模式和结论,利用它们去确定对应患者在该特定时间段内患特定疾病的生存能力;然而,即便是具有丰富经验的专家也很难通过患者的一些反应或治疗情况直接去判断其生存几率,这是极其不负责任的行为,诊断的可靠性无法得到保证。再加上专家医生在没有计算机指导的情况下去分析大量复杂的检测数据也是难以想象的,因此,许多研究工作试图将生存预测过程自动化,以此来帮助医务人员更好的对患者制定后期治疗方案。
肝癌的生存预测是其治疗过程中十分关键的一步,它最大的意义在于可以为医务人员及家属进行医疗决策提供有效的科学依据,避免过度无效治疗。可以利用机器学习的方法去分析大量复杂的检测数据,协助医生制定后期的治疗方案。肝癌耽误治疗的后果无法想象,因而迫切的需要我们去探索出适用于肝癌生存预测的机器学习方法。同时正确的预测也有利于帮助患者更好的规划剩余生活,充分利用时间去实现一些愿望,让生命更加圆满。研究表明,机器学习算法可有效应用于肝癌的生存预测,对其后期诊治就有十分重要的意义。
发明内容
本发明所要解决的技术问题是:针对现有技术中缺乏肝癌生存预测的方案以及WOA算法很容易出现过早收敛和局部最优的问题,提出一种约束型的鲸鱼优化算法来寻找到更有用肝癌生存特征,并利用高斯函数加权方式的KNN分类器进行分类。
本发明所采用的技术方案是:一种基于约束型鲸鱼优化算法的肝癌生存预测方法包括以下步骤:
S1、数据采集和预处理:采集患者医学定性指标和医学定量指标建立数据集,并将数据集按比例分为训练集和测试集;
S2、使用约束型鲸鱼优化算法对数据集中定性指标和定量指标进行特征选取,利用训练集建立分类模型,并利用测试集对分类模型进行验证;
约束型鲸鱼优化算法包括:
S21、环绕的猎物;
座头鲸首先识别猎物的位置,然后包围它们;在鲸鱼优化算法(WOA)中,鲸鱼假设目标猎物是最佳的候选位置,它们试图向最佳的捕猎代理移动,如下所示:
X(t+1)=Xgb(t)-A·D (1)
D=|C·Xgb(t)-X(t)| (2)
式中,X为鲸的位置,Xgb为最佳捕猎的位置,A和C为系数向量,t为迭代次数;A和C的系数向量计算过程如下:
A=2a1·r1-a21 (3)
C=2·r2 (4)
其中,r1和r2为区间[0,1]内的两个随机向量,a1是一个从2线性减小到0的参数;
S22、气泡网攻击;
座头鲸还利用气泡网来攻击猎物;在此过程中,建立收缩包围策略和螺旋更新位置策略;
减小包围策略是通过在减小a1来实现的,特别是A值的范围的波动也减小了a1;也就是说,通过将A的值设定到区间[-1,1],可以在原位置和最佳候选位置的区间内任意定义鲸鱼的新位置;
螺旋更新位置策略是鲸鱼根据螺旋上升方向更新位置;该策略可以建模如下:
X(t+1)=E·exp(b·t)·cos(2πl)+Xgb(t) (5)
E=Xgb(t)-X(t) (6)
式中,E为鲸鱼位置与最佳捕猎位置的距离,X(t)是第t次迭代鲸鱼的位置,Xgb(t)为第t次迭代鲸鱼最佳的捕猎的位置;b为常数1,其作用是限定搜索个体进行螺旋运动的形状;l是一个随机数,范围在[-1,1]之间,t为迭代次数;
当系数向量|A|<1时,算法搜索个体在收缩包围圈内进行游走,此时搜索个体会以50%的概率对猎物发起攻击或者进行包围:
式中,p为区间[0,1]的随机变量;
S23、搜索猎物
WOA基于参数向量A的变化进行全局搜索,当系数向量|A|>=1时,鲸鱼在收缩包围圈外进行随机搜索;与WOA算法在收缩包围圈内进行局部搜索不同的是,此时搜索个体位置更新的参照物不再是当前最佳的搜索代理,而是在搜索种群中随机挑选出的一个搜索代理的位置信息,WOA算法在搜索猎物时搜索代理处于全局搜索阶段,鲸鱼的位置更新的计算过程如下:
X(t+1)=Xr-A·D (8)
D=|C·Xr-X| (9)
其中,Xr就是从种群中随机选择的鲸鱼的位置,D表示搜索个体与Xr之间距离的绝对值,X为鲸鱼位置,C为系数向量;
WOA算法可以很容易地解决全局优化问题,尽管WOA已经证明了其处理不同优化问题的能力,但它也存在一些缺点,如过早收敛和避免局部最优;当大多数鲸鱼试图根据当前最佳鲸鱼位置更新它们的位置时,这些问题就会发生;此外,WOA在应用于具有挑战性的组合优化问题时,性能可能会下降;这是因为复杂的组合问题通常包含大量的局部最优值,从而增加了鲸鱼算法陷入局部解决方案的几率;从直观上看,弱局部最优规避和过早收敛是导致WOA性能下降的主要因素;因此,可以将不同的策略嵌入到WOA中,以提高其在高维优化中的性能;
S24、创建空间约束机制;
在约束型鲸鱼优化算法中,每个解的维数受两个参数的限制:最大维数(dmax)和最小维数(dmin);
dmin:若一个解中只选择了1个特征(第一个特征),而此时最小维数被指定为2,则一个额外的特征(从特征向量中随机选择的)被分配给这个解;
dmax:相比之下,若一个解中选择了4个特征,而此时最大维数被指定为3,则一个额外的特征被随机地从解中删除;
首先,创建一个空间池来存储最大维度比例(fmax),即最大维度占总维度的比值;最小维度比例(fmin),即最小维度占总维度的比值;在没有先验知识和经验的情况下,很难确定初始的最佳值;因此,不同的fmax和fmin被预先定义并存储在空间池中,最小维度比例fmin计算如下:
其中,Np是空间池中fmax的总数,应用公式(10)构造空间池如下:
在空间池中,一个空间值最初分配给一组fmax和fmin,空间值用来衡量这一组最大维度与最小维度的质量;空间值越低,表示集合的质量越高,这是因为我们的目标是在数据集中选择最小数量的有效特征;因此,一组越低的fmax和fmin被给一个越小的空间值;相反,一组越高的fmax和fmin被给越高的空间值,所有维度比例组的初始空间值初始化为0到1(最低维度比例的集合的空间值设为0,最高维度比例的集合的空间值设为1,从低到高符合等差分布);
空间池由多组最大维度比例fmax与最小维度比例fmin组成,它们中的每一组都有一个被选择的空间值;通过从空间池中随机选择几组不同的维度比例,并对它们的空间值进行比较,取空间值最小的组作为最大和最小维度比例,并将其应用到鲸鱼的最佳位置,即最优解;
在空间池中选择一组维度之后,接下来是空间边界过程,对于每个解,最大维数和最小维数计算如下:
dmax=fix(fmax·F) (13)
dmin=ceil(fmin·F) (14)
其中,F为特征总数,特征总数为定性指标和定量指标之和;fix和cell是四舍五入的两个操作符;在这个空间边界过程中需要考虑两个条件,如果解的特征数量超过最大维度,则将其调整到最大维度范围;如果解的特征数量低于最小维度,则将其调整到最小维度范围;
在每次迭代结束时,将更新空间值;空间值的更新是由此次迭代之前的空间值和求解得到的适应度值的平均值来完成,如果选择的特征提供更好的适应度值,则更新的空间值会变小,说明对应的维度集合能使鲸鱼的位置更好,因此,它应该在下一次迭代中被选中的几率更高;
约束WOA应用于特征选择和分类问题,对于每个解,总的维数等于特征个数,每个维度代表对应特征的索引;在每个解中,维数限制在[0,1]范围内;为了确定一个特征是否会被选中,使用一个0.5的静态阈值,如公式(15)所示;
S25、确定优化参数及基于特定的特征选择方法适应度函数;
采用分类错误率(CEE)作为目标函数来评价约束性WOA算法所选择的特征的性能,适应度函数(Fit)如下:
即,适应度值=分类错误的数量/样本总数;
S26、根据适应度函数(Fit),计算每个鲸鱼的适应度值、个体的最优位置以及所有鲸鱼的全局最优位置,并根据空间池约束条件对鲸鱼的最优位置进行调整;
S27、利用鲸鱼的迭代更新每个鲸鱼的最优位置和全局最优位置,其中,空间值的更新是由上次迭代的空间值和求解得到的适应度值的平均值来完成;
S28、重复步骤S22~S27,直至达到最大迭代次数;
S29、输出最优位置,即最优特征组合;
S3、利用最优特征组合进行分类;
采用加权KNN分类器进行分类预测,KNN做分类预测时,一般是选择多数表决法,即选择训练集中和预测样本特征最接近的K个样本,预测样本的类别为这K个样本中类别数最多的类;
KNN算法主要分为以下几个步骤:
1)计算测试数据和各个训练数据之间的距离;
2)按照距离的递增进行排序;
3)选取距离最小的K个点,通常K是不大于20的整数;
4)计算出这K个点中每个类别出现的频率;
5)返回K个点中出现频率最高的类别作为测试数据的预测类别;
KNN算法具有简单好用、精度高等优点,对异常值不敏感,并且适用于数值型数据以及离散型数据,但非常容易受样本不平衡的影响,使得预测结果偏差较大;为解决这一问题,采用距离加权的办法;
距离加权就是为每个点的距离增加一个权重,距离该样本近的邻居权值大,距离该样本远的邻居权值则相对较小,通过将距离的远近因素考虑在内,可以避免因为某个类别的样本数量过多而导致误判的情况;
加权的方式有两种:
1)反函数
该方法最简单的形式就是返回距离的倒数,但是在遇到完全一样或者十分接近的点权重就会变得非常大甚至接近无穷;所以,在计算距离求倒数时,通常会在距离上增加一个常量,这种方式会给近邻的点分配很大的权重,稍微远一点权重值就会减少地特别迅速,这虽然是预期的结果,但是这样的方式会使算法对噪声数据非常敏感;
2)高斯函数
高斯函数克服了前一种函数存在的缺陷,它的计算形式为公式(17)所示:
其中,a表示该函数曲线的高度,b表示曲线中心线在x轴的偏移,c是函数峰值一半处相距的宽度;
高斯函数和反函数的区别在于,高斯函数在距离为0的时候权重为1,随着距离的增大权重会相应减少,但不会降为0;反函数在距离增加到一定程度时,权重都会跌至0或0以下;高斯函数最大的值就是顶点值,再小也不会为0,在一定程度上可以很好的克服噪声带来的影响,所以本发明采用高斯函数;
加权KNN分类器要先获取经过排序的距离值,然后再取距离最近的K个元素;它在处理离散型数据和数值型数据时略有不同,在处理离散型数据时,将K个数据用权重区别对待,预测的结果与第n个数据的标签相同的概率计算如下:
在处理数值型数据时,则不是对这K个数据进行简单的求平均,而是进行加权平均;通过将每一项的距离值乘以对应权重,然后进行累加,求出总和之后,在除以所有权重之和,计算公式如下:
其中,Di表示近邻的点i与预测值x间的距离,Wi表示第i个点的权重。
本方法的有益效果:
1、约束型鲸鱼优化算法提出一种空间边界策略,很好的解决了鲸鱼优化算法中过早收敛和局部最优的问题,从而筛选出更有效的特征,并在肝癌生存预测数据集中验证了其有效性,为肝癌生存预测的正确分类提供了一种新的技术方案。
2、采用约束鲸鱼优化算法分类准确性为87.88%,而未采用鲸鱼优化算法准确性为69.13%,验证了约束型鲸鱼优化算法在特征选取中的有效性;
3、采用高斯算法的加权KNN分类器时准确率为87.88%,分类效果明显高于采用SVM算法(61.81%)和采用集成RUSboosted算法(69.1%),验证了采用高斯算法的加权KNN分类器在肝癌生存分类中的有效性。
附图说明
图1是本发明的基于约束型鲸鱼优化算法的肝癌生存预测方法流程图;
图2是特征处理前后准确率对比;
图3是不同分类器下的准确率对比;
图4是适应度值和迭代次数关系图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,一种基于约束型鲸鱼优化算法的肝癌生存预测方法包括以下步骤:
S1、数据采集和预处理:采集患者医学定性指标和医学定量指标建立数据集,并将数据集按7:3比例分为训练集和测试集;
本实施例中数据集采集科英布拉大学附属医院肝癌患者数据,涉及到人口统计、风险因素、劳动力的分析等领域,共采集165名肝癌患者的特征数据,数据集包含49个特征,它们是根据EASL-EORTC的临床实践指南来收集的,该数据集中的患者是在使用最合适的治疗策略下进行的实验,这是一个异构数据集,有23个定量变量和26个定性变量;缺失数据占整体的10.22%数据集,只有8名患者拥有完整的信息字段(4.85%),生存目标变量编码为一个二进制变量,值为0和1分别表示患者没有存活和存活;这项工作的重点是肝癌的1年生存预测,因此,数据集的类别分布显示63例标记为0(死亡),其余102例标记为1(存活),49个特征如表1所示:
表1 23个定量变量和26个定性变量
S2、使用约束型鲸鱼优化算法对数据集进行特征选取,约束型鲸鱼算法的设置如下,鲸鱼数量设置为15只,迭代次数设置为200次,优化算法选择KNN分类器,并取30%的数据作为训练集。
S24、创建空间约束机制;
在约束型鲸鱼优化算法中,每个解的维数受两个参数的限制:最大维数(dmax)和最小维数(dmin);创建一个空间池来存储最大维度比例fmax(最大维度占总维度的比值)和最小维度比例fmin(最小维度占总维度的比值),在没有先验知识和经验的情况下,很难确定初始的最佳值;因此,不同的fmax和fmin被预先定义并存储在空间池中;本实施例中将fmax从0.1增加到0.5,步长0.05,空间池的构造如下所示;
空间值=[0 0.111 0.222 0.333 0.444 0.556 0.667 0.778 0.889 1]
空间池由多组最大维度比例fmax与最小维度比例fmin组成,它们中的每一组都有一个被选择的空间值;通过从空间池中随机选择3组不同的维度比例,并对它们的空间值进行比较,取空间值最小的组作为最大和最小维度比例,并将其应用到鲸鱼的最佳位置,即最优解;
S25、确定优化参数及基于特定的特征选择方法适应度函数;采用分类错误率(CEE)作为目标函数来评价解决方案所选择的特征的性能;
S26、根据适应度函数,计算每个鲸鱼的适应度、个体的最优位置以及所有鲸鱼的全局最优位置,并根据空间池约束条件对鲸鱼的最优位置(最优解)进行调整;
S27、利用鲸鱼的迭代更新每个鲸鱼的最优位置和全局最优位置,其中,空间值的更新是由上次迭代的空间值和求解得到的适应度值的平均值来完成;
S28、重复步骤S22~S27,直至达到最大迭代次数,适应度值F随迭代次数的变化如图4所示;
S29、输出最优解,即最优特征组合;根据表1从上到下的顺序,鲸鱼优化算法选择出的特征如下:
选择的特征=[1 2 7 8 11 14 17 27 32 33 36 39 40 42 47 48 49];
S3、利用最优特征组合进行分类;
本发明使用鲸鱼优化算法对特征进行选择,使得肝癌生存预测准确率最大化,特征处理前后的分类结果柱状图如图2所示,采用约束鲸鱼优化算法分类准确性为87.88%,而直接采用加权KNN算法对特征处理前的数据进行分类的准确性只有69.13%。
同时,本发明为了选出更适用于肝癌生存预测的分类器,比较了两个数据集在使用三种不同分类器时的识别效果柱状图如图3所示,本发明采用加权KNN对鲸鱼优化算法后的特征处理后的数据识别准确性达到87.88%,明显高于SVM和集成RUSboosted算法。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (5)
1.一种基于约束型鲸鱼优化算法的肝癌生存预测方法,其特征在于,包括以下步骤:
S1、数据采集和预处理:采集患者医学定性指标和医学定量指标建立数据集,并将数据集按比例分为训练集和测试集;
S2、使用约束WOA算法对数据集进行特征选取,得到最优特征组合;利用训练集建立分类模型,并利用测试集对分类模型进行验证;
S3、利用最优特征组合进行分类。
2.根据权利要求1所述的基于约束型鲸鱼优化算法的肝癌生存预测方法,其特征在于,所述约束型鲸鱼优化算法包括:
S21、环绕的猎物;
在WOA中,鲸鱼假设目标猎物是最佳的候选位置,鲸鱼向最佳的捕猎代理移动,如下所示:
X(t+1)=Xgb(t)-A·D (1)
D=|C·Xgb(t)-X(t)| (2)
式中,X为鲸的位置,Xgb为最佳捕猎的位置,A和C为系数向量,t为迭代次数;A和C的系数向量计算过程如下:
A=2a1·r1-a1 (3)
C=2·r2 (4)
其中,r1和r2为区间[0,1]内的两个随机向量,α1是一个从2线性减小到0的参数;
S22、气泡网攻击;
建立收缩包围策略和螺旋更新位置策略;
S23、搜索猎物;
WOA基于参数向量A的变化进行全局搜索,当系数向量|A|>=1时,鲸鱼在收缩包围圈外进行随机搜索,并更新鲸鱼的位置,位置更新过程:
X(t+1)=Xr-A·D (8)
D=|C·Xr-X| (9)
其中,Xr就是从种群中随机选择的鲸鱼的位置,D表示搜索个体与Xr之间距离的绝对值;
S24、创建空间约束机制;
首先,创建一个空间池来存储最大维度比例fmax和最小维度比例fmin;
其次,创建空间池由多组最大维度比例fmax与最小维度比例fmin组成,每一组都有一个被选择的空间值;通过从空间池中随机选择几组不同的维度比例,并对它们的空间值进行比较,取空间值最小的组作为最大维度比例和最小维度比例,并将其应用到鲸鱼的最佳位置;
最小维度比例fmin计算如下:
其中,Np是空间池中fmax的总数;
再次,空间池中选择一组维度后,进行空间边界过程,通过解的特征数量是否超过最大维度和低于最小维度,调整最大维度范围和最小维度范围;
最后,更新空间值;对于每个解,总的维数等于特征个数,每个维度代表对应特征的索引;在每个解中,维数限制在[0,1]范围内;为了确定一个特征是否会被选中,使用一个0.5的静态阈值,如公式(15)所示;
S25、确定优化参数及基于特定的特征选择方法适应度函数;
采用分类错误率(CEE)作为目标函数来评价解决方案所选择的特征的性能;
S26、根据适应度函数,计算每个鲸鱼的适应度值、个体的最优位置以及所有鲸鱼的全局最优位置,并根据空间池约束条件对鲸鱼的最优位置进行调整;
S27、利用鲸鱼的迭代更新每个鲸鱼的最优位置和全局最优位置;
S28、重复步骤S22~S27,直至达到最大迭代次数;
S29、输出最优特征组合;
S3、利用最优特征组合进行分类。
3.根据权利要求2所述的基于约束型鲸鱼优化算法的肝癌生存预测方法,其特征在于:所述收缩包围策略是通过在减小a1,将A的值设定到区间[-1,1],可以在原位置和最佳候选位置的区间内任意定义鲸鱼的新位置。
5.根据权利要求2所述的基于约束型鲸鱼优化算法的肝癌生存预测方法,其特征在于:所述利用最优特征组合进行分类是采用高斯函数的加权KNN分类器进行分类预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210304179.4A CN114758771A (zh) | 2022-03-26 | 2022-03-26 | 一种基于约束型鲸鱼优化算法的肝癌生存预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210304179.4A CN114758771A (zh) | 2022-03-26 | 2022-03-26 | 一种基于约束型鲸鱼优化算法的肝癌生存预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114758771A true CN114758771A (zh) | 2022-07-15 |
Family
ID=82326715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210304179.4A Pending CN114758771A (zh) | 2022-03-26 | 2022-03-26 | 一种基于约束型鲸鱼优化算法的肝癌生存预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758771A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884623A (zh) * | 2023-09-06 | 2023-10-13 | 西南医科大学附属医院 | 基于激光扫描成像的医疗康复预测系统 |
CN117766155A (zh) * | 2024-02-22 | 2024-03-26 | 中国人民解放军海军青岛特勤疗养中心 | 基于人工智能的动态血压医疗数据处理系统 |
-
2022
- 2022-03-26 CN CN202210304179.4A patent/CN114758771A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884623A (zh) * | 2023-09-06 | 2023-10-13 | 西南医科大学附属医院 | 基于激光扫描成像的医疗康复预测系统 |
CN116884623B (zh) * | 2023-09-06 | 2023-12-15 | 西南医科大学附属医院 | 基于激光扫描成像的医疗康复预测系统 |
CN117766155A (zh) * | 2024-02-22 | 2024-03-26 | 中国人民解放军海军青岛特勤疗养中心 | 基于人工智能的动态血压医疗数据处理系统 |
CN117766155B (zh) * | 2024-02-22 | 2024-05-10 | 中国人民解放军海军青岛特勤疗养中心 | 基于人工智能的动态血压医疗数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
El-Kenawy et al. | Hybrid gray wolf and particle swarm optimization for feature selection | |
Xia et al. | Complete random forest based class noise filtering learning for improving the generalizability of classifiers | |
Khajavi et al. | Predicting the carbon dioxide emission caused by road transport using a Random Forest (RF) model combined by Meta-Heuristic Algorithms | |
Mohr et al. | Learning Curves for Decision Making in Supervised Machine Learning--A Survey | |
CN114758771A (zh) | 一种基于约束型鲸鱼优化算法的肝癌生存预测方法 | |
CN108446741B (zh) | 机器学习超参数重要性评估方法、系统及存储介质 | |
Kim et al. | Analysis of deep learning libraries: Keras, pytorch, and MXnet | |
CN111079074A (zh) | 一种基于改进的正弦余弦算法构建预测模型的方法 | |
Polianskii et al. | Voronoi boundary classification: A high-dimensional geometric approach via weighted monte carlo integration | |
WO2020090826A1 (ja) | 解析装置、機械学習装置、解析システム、解析方法および記録媒体 | |
Stano et al. | Explainable 3D convolutional neural network using GMM encoding | |
Aprilianto | SVM optimization with correlation feature selection based binary particle swarm optimization for diagnosis of chronic kidney disease | |
Hung et al. | Extracting rules from optimal clusters of self-organizing maps | |
Janani et al. | Minkowski distance measure in fuzzy PROMETHEE for ensemble feature selection | |
Tiruneh et al. | Feature selection for construction organizational competencies impacting performance | |
Panchal et al. | Comparative study of particle swarm optimization based unsupervised clustering techniques | |
Arasakumaran et al. | An Enhanced Identification and Classification Algorithm for Plant Leaf Diseases Based on Deep Learning. | |
Kaur et al. | Healthcare data analysis using water wave optimization-based diagnostic model | |
CN115936773A (zh) | 一种互联网金融黑产识别方法与系统 | |
Mansouri et al. | An efficient gannet optimization algorithm for feature selection based on sensitivity and specificity | |
Abed Al Raoof et al. | Maximizing CNN Accuracy: A Bayesian Optimization Approach with Gaussian Processes | |
Cai et al. | Rough Fuzzy C-means and Particle Swarm Optimization Hybridized Method for Information Clustering Problem. | |
Nikolikj et al. | Assessing the generalizability of a performance predictive model | |
Termritthikun et al. | Neural architecture search and multi-objective evolutionary algorithms for anomaly detection | |
US20120179721A1 (en) | Fitness Function Analysis System and Analysis Method Thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |