CN115472291A - 基于改进樽海鞘优化bp神经网络的食管鳞癌生存预测方法 - Google Patents
基于改进樽海鞘优化bp神经网络的食管鳞癌生存预测方法 Download PDFInfo
- Publication number
- CN115472291A CN115472291A CN202211110549.7A CN202211110549A CN115472291A CN 115472291 A CN115472291 A CN 115472291A CN 202211110549 A CN202211110549 A CN 202211110549A CN 115472291 A CN115472291 A CN 115472291A
- Authority
- CN
- China
- Prior art keywords
- output
- neural network
- layer
- input
- hidden layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000004083 survival effect Effects 0.000 title claims abstract description 37
- 206010041823 squamous cell carcinoma Diseases 0.000 title claims abstract description 23
- 241000251555 Tunicata Species 0.000 title claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 96
- 230000006870 function Effects 0.000 claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 43
- 241000251557 Ascidiacea Species 0.000 claims abstract description 41
- 206010030155 Oesophageal carcinoma Diseases 0.000 claims abstract description 27
- 208000000461 Esophageal Neoplasms Diseases 0.000 claims abstract description 26
- 201000004101 esophageal cancer Diseases 0.000 claims abstract description 26
- 230000000739 chaotic effect Effects 0.000 claims abstract description 19
- 238000013058 risk prediction model Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000008859 change Effects 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 6
- 210000002569 neuron Anatomy 0.000 claims description 46
- 210000004369 blood Anatomy 0.000 claims description 34
- 239000008280 blood Substances 0.000 claims description 34
- 206010061534 Oesophageal squamous cell carcinoma Diseases 0.000 claims description 24
- 208000036765 Squamous cell carcinoma of the esophagus Diseases 0.000 claims description 24
- 208000007276 esophageal squamous cell carcinoma Diseases 0.000 claims description 24
- 235000013305 food Nutrition 0.000 claims description 15
- 230000035772 mutation Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 102100027378 Prothrombin Human genes 0.000 claims description 3
- 108010094028 Prothrombin Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 210000001616 monocyte Anatomy 0.000 claims description 3
- 210000000440 neutrophil Anatomy 0.000 claims description 3
- 229940039716 prothrombin Drugs 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 2
- 208000017897 Carcinoma of esophagus Diseases 0.000 claims 1
- 241000142877 Halymenia Species 0.000 claims 1
- 201000005619 esophageal carcinoma Diseases 0.000 claims 1
- 210000000265 leukocyte Anatomy 0.000 claims 1
- 238000003062 neural network model Methods 0.000 description 10
- 238000004393 prognosis Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 241000283153 Cetacea Species 0.000 description 2
- 241000238633 Odonata Species 0.000 description 2
- 241000282320 Panthera leo Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 240000005546 Piper methysticum Species 0.000 description 1
- 235000016787 Piper methysticum Nutrition 0.000 description 1
- 208000035965 Postoperative Complications Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,其步骤如下:将食管鳞癌的样本数据进行分类筛选;构建BP神经网络的拓扑结构,利用训练样本对BP神经网络进行过训练,计算BP神经网络预测的全局误差;利用Tent混沌映射初始化樽海鞘的种群,樽海鞘个体代表BP网络的初始权值和阈值,将BP神经网络预测的全局误差为樽海鞘算法的适应度函数,得到最优樽海鞘个体;将最优樽海鞘个体作为BP神经网络的最优权值和阈值构建食管癌风险预测模型;将测试样本的数据代入到食管癌风险预测模型预测食管癌患者的生存期。本发明具有较好的可行性,寻优精度和收敛速度均有明显提升,受维度变化影响很小,高维求解能力更强、更稳定。
Description
技术领域
本发明涉及食管鳞癌生存预测的技术领域,尤其涉及一种基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法。
背景技术
随着技术的进步和医学的创新,以手术为主要治疗方式的食管鳞癌综合治疗模式,改善了患者的快速康复和长期预后情况。然而,由于食管鳞癌手术治疗的复杂性和众多的术后并发症,五年生存率仍只有10%至30%,而早期食管鳞癌患者经综合治疗后的五年生存率超过70%。因此,及时有效地预测食管鳞癌患者的生存预后是治疗食管鳞癌的关键。如果能及时确定患者的生存预后,就能更好地帮助患者治疗,从而改善患者的预后,进一步提高食管鳞癌患者的生存率。另一方面,由于食管鳞癌病理的复杂性和癌细胞的多变性,人工诊断和传统的统计学方法在为患者做预后时不可避免地存在一些误差和局限性,从而限制了治疗方法和药物种类的选择。因此,合理有效地预测食管鳞癌患者的生存预后是非常重要的,对生存预后的有效分析不仅可以帮助临床医生做出治疗决策,而且可以指导患者的药物选择。
面对食管鳞癌复杂而独特的医学数据,传统的统计方法只适用于分析某些具有数学特征和统计规则的数据。对于大多数数学特征较弱、形状不规则的数据,寻找好的分析方法,进行有针对性的分析,已成为近年来医学数据分析方法研究的热门话题。机器学习数据处理技术的主要目的是利用特征之间的联系,根据多维数据中的特征信息发现数据中的隐藏模式。对于医学领域来说,使用机器学习技术来分析、处理和应用数据尤为重要,特别是在数据量不断增加的今天。在大量医学统计数据的基础上,研究人员利用机器学习方法分析患者指标之间的潜在相关性,发现疾病康复的风险因素,然后开发疾病生存的预测模型,并为患病患者提出明确的诊断建议。
食管鳞癌数据包含大量有用的信息,传统的统计分析方法通常基于特定的模型,在分析医疗数据时有局限性。应用机器学习来发现食管鳞癌数据中隐藏的模式和知识是一个新的趋势,可以作为传统分析方法的有效补充,提高食管鳞癌数据分析的质量和效率。基于机器学习的生存预测模型可以通过在现代医疗平台上全面收集病人数据来分析和使用数据,进一步探索数据之间的内在关联,以生成预后指数,最终形成生存预测模型。生存预测模型可以帮助临床医生根据病人的生存预后制定有针对性的、个性化的治疗方案和更好的药物选择。
发明内容
针对现有的食管鳞癌生存预测方法精度不高,算法收敛速度慢的技术问题,本发明提出一种基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,利用改进樽海鞘算法得出的最优权值和阈值构建BP神经网络模型,对食管鳞癌数据进行训练,提高了预测精度和预测时间。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,其步骤如下:
步骤一、将食管鳞癌的样本数据进行分类筛选,得到训练样本和测试样本;
步骤二、构建BP神经网络的拓扑结构,利用训练样本对BP神经网络进行过训练,计算BP神经网络预测的全局误差;
步骤三:利用Tent混沌映射初始化樽海鞘的种群,樽海鞘个体代表BP网络的初始权值和阈值,将BP神经网络预测的全局误差为樽海鞘算法的适应度函数,寻优得到最优樽海鞘个体;
步骤四:将最优樽海鞘个体作为BP神经网络的最优权值和阈值,构建食管癌风险预测模型,并利用训练样本对食管癌风险预测模型进行训练;
步骤五:将测试样本的数据代入到训练好的食管癌风险预测模型中,预测食管癌患者的生存期。
所述步骤一中进行分类筛选的方法为:对样本数据进行KM生存分析以及单因素COX回归,得到有关食管鳞癌的影响因素;将血液指标作为主影响因素进行分类,将不符合标准的数据剔除;
随机选取训练样本和测试样本,使训练样本占90%,测试样本占10%。
所述步骤一中样本数据进行归一化的方法为:
利用“mapminmax”函数对根据血液指标信息随机抽取的患者信息进行归一化:
其中,xd,min为第d种血液指标的最小值,xd,max为第d种血液指标的最大值,xd为第d种血液指标,且p=(p1,p2,p3…,pm),yd为第p种血液指标归一化后的值。
所述食管鳞癌的血液指标的5组数据包括WBC计数、单核细胞计数、中性粒细胞计数、凝血酶原时间和INR国际标准化比值;所述BP神经网络的结构为5-13-1的结构,即输入层为5个神经元、隐含层由13个神经元、输出层为1个神经元;
根据BP神经网络的拓扑结构确定食管癌风险预测模型的阈值和权值个数,其中权值的个数为5×13+13×1=78个,阈值的个数为14个。
所述步骤二过训练的方法为:
S41、使用随机数随机设定隐含层和输入层之间的初始连接权重值的向量wih和隐含层与输出层的连接权值who,设定最大循环次数Tmax;
S42、输入层的输入向量为血液指标数据,输入向量p=(p1,p2,p3…,pm),其中,训练样本Ka=(Ka,1,Ka,2,Ka,3,…,Ka,100);
S43、计算隐含层的权值向量与输入向量的欧氏距离:选取一组训练样本xi=(xi,1,xi,2,xi,3,…,xi,501,),每一组输入的训练样本通过连接权重的大小找到与输入向量最近似的神经元作为优胜神经元h,误差函数为输入向量与连接权重向量的距离:
其中,q为输出层的节点数,K为样本数据,do(K)为样本K的期望输出,y(oo(K))样本K的实际输出;
S44、将血液指标对应的优胜神经元进行标记,血液指标种类p+1,返回步骤S43,直到所有血液指标均输入完成;
S45、对全局误差是否满足要求进行判断:当全局误差达到预设精度或学习次数大于设定的最大次数Tmax,则结束;否则,选取下一个训练样本及对应的期望输出,循环执行步骤S42到步骤S45。
所述全局误差为:
其中:K为样本数据,m为样本数据的总数。
所述利用Tent混沌映射初始化樽海鞘的种群的方法为:
利用Tent混沌映射得到混沌序列:
所述樽海鞘算法利用适应度函数对樽海鞘个体的适应度值进行计算,选择适应度值最好的位置作为食物源的位置,确定好食物源位置,使得领导者带领追随者在食物源近找到更优解;所述樽海鞘算法采用变异操作和自适应递减权重对领导者的位置进行更新,采用自适应权重来改变追随者的位置;
所述变异操作选择差分进化算法,领导者的位置的更新方法为:
其中,和分别表示在变异操作中随机选取的两个个体,c为比例因子,是一个[0,0.3]的随机数字;Fk表示参加变异操作后食物源的位置;s(T)一个非线性递减函数:且T为当前迭代次数,Tmax为最大迭代次数;
所述自适惯性权值为:
式中,T为当前迭代次数,Tmax为最大迭代次数;
改进后的追随者的位置公式为:
选取sigmoid作为核函数对食管癌风险预测模型进行训练,食管癌风险预测模型:
式中,EC为食管癌风险的预测模型;xi为神经网络的输入层;ωij和νjl分别为神经网络的输入层和隐含层、隐含层和输出层之间的权值;aj和bl分别为神经网络的输入层和隐含层、隐含层和输出层之间的阈值;sing为神经网络中隐含层的激励函数,函数的定义域和值域分别为(-∞,+∞)和(-1,+1)。
所述食管癌风险预测模型进行训练的方法为:
参数初始化:将BP神经网络的输入层、隐含层、输出层的节点数设为n、c、q;
随机选取第K个输入样本p(K)=(p1(K),p2(K),…,pm(K))及对应期望输出,输入样本及对应期望输出do(K)=(d1(K),d2(K),…,dq(K));
计算隐含层各神经元的输入和输出:
hoh(K)=f(hih(K))h=1,2,…,p;
yoo(K)=f(yio(K))o=1,2,…q;
其中,wih为输入层和隐含层的连接权值,who为隐含层与输出层的连接权值,bh为隐含层各神经元的阈值,bo为输出层各神经元的阈值,f()为激活函数sigmoid函数。输入向量为p=(p1,p2,p3…,pm),隐含层输入向量为hi=(hi1,hi2,…,hic),隐含层输出向量为ho=(ho1,ho2,…,hoc),输出层输入向量为yi=(yi1,yi2,…,yiq),输出层输出向量为yo=(yo1,yo2,…,yoq),期望输出向量为do=(d1,d2,…,dq),样本数据个数为Ki=(Ki,1,Ki,2,Ki,3,…,Ki,501,),隐含层输入向量=与他相关的各输入向量*输入层和隐含层的连接权值、隐含层的输出向量作为输出的输入向量,输出层输出向量=与他相关的输出层输入向量*隐含层与输出层的连接权值;
利用期望输出和实际输出计算误差函数对输出层的各神经元的偏导数;
利用隐含层到输出层的连接权值、输出层的输出δo(k)和隐含层的输出计算误差函数对隐含层各神经元的偏导数;
利用输出层各神经元的输出δo(k)和隐含层各神经元的输出来修正链接权值who(k);
判断网络的误差是否满足要求:当误差达到预设精度或学习次数大于设定的最大次数,则结束;否则,选取下一个学习样本及对应的期望输出,进入下一轮学习。
本发明的有益效果:改进樽海鞘算法(Tent-ISSA)的主要思想是利用Tent混沌映射初始化种群,采用变异操作和自适应递减权重对领导者的位置公式进行更新,提高求解精度;采用自适应权重来改变追随者的位置,进一步提高收敛速度。构建Tent-ISSA-BP模型,通过食管鳞癌数据进行训练来预测食管鳞癌患者的生存水平。以下是本发明的主要贡献:
(1)通过标准SSA算法,建立SSA-BP预测模型。利用群智能算法中标准的SSA算法对BP神经网络的最优权值以及阈值进行优化,能够使得预测模型的准确性进一步提高。
(2)改进标准SSA算法,建立Tent-ISSA-BP预测模型。对群智能算法中标准的SSA算法进行进一步改进,能够提高标准SSA算法的求解精度以及收敛速度,再利用求解精度以及收敛速度高的改进樽海鞘算法对BP神经网络最优权值以及阈值进行优化,能够使得预测模型的准确性进一步提高。
本发明具有较好的可行性,寻优精度和收敛速度均有明显提升,受维度变化影响很小,高维求解能力更强、更稳定。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明改进樽海鞘算法优化BP神经网络的流程图。
图2为本发明改进樽海鞘算法与其它四种经典群智能算法的收敛曲线对比图。
图3本发明为改进樽海鞘算法与其它五种改进群智能算法的收敛曲线对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,其步骤如下:
步骤一、将样本数据进行分类筛选,根据性别、年龄、BMI、是否抽烟等作为影响因素,血液指标作为主因素进行分类,将不符合标准的数据剔除,随机选取训练样本和测试样本,使训练样本大体占90%,测试样本大体占10%。通过对样本数据进行KM生存分析以及单因素COX回归,得到有关食管鳞癌的影响因素。
步骤二、构建BP神经网络的拓扑结构,将樽海鞘个体代表BP神经网络的初始权值和阈值,利用训练样本对BP神经网络进行过训练,将BP神经网络预测的误差用于Tent-ISSA算法的适应度函数,能够利用Tent-ISSA算法求解精度高以及收敛速度快等有点降低BP神经网络的全局误差,提高模型的预测准确性。将食管鳞癌i种影响因素的数据代入BP神经网络。
选取食管鳞癌的5组数据包括WBC计数(WBCC)、单核细胞计数(MONO)、中性粒细胞计数(SEG)、PT(凝血酶原时间)和INR国际标准化比值,BP神经网络的结构为5-13-1的结构,5-13-1的结构是指输入层为5个神经元,隐含层由13个神经元,输出层为1个神经元的神经网络模型。
由于血液指标的单位的不一致性,在将其作为BP神经网络的输入时需要进行归一化处理,具体的方法为:
利用“mapminmax”函数对i种血液指标信息的随机抽取的患者信息进行归一化:
其中,xd,min为第d种血液指标的最小值,xd,max为第d种血液指标的最大值,xd为第d种血液指标,且p=(p1,p2,p3…,pm),yd为第p种血液指标归一化后的值。
步骤三:确定BP神经网络的参数以及樽海鞘算法的适应度函数,首先利用Tent混沌映射初始化樽海鞘的种群,将得到的樽海鞘个体代表BP网络的初始权值和阈值。
樽海鞘算法的适应度函数为BP神经网络预测的误差,根据BP神经网络的结构确定Tent-ISSA-BP食管鳞癌影响因素模型阈值和权值个数,其中权值的个数为5×13+13×1=78个,阈值的个数为14个。个体初始化的BP神经网络的预测误差作为该个体的适应度值,确定Tent-ISSA-BP食管鳞癌影响因素模型阈值和权值个数。
利用确定好的适应度函数即BP神经网络预测的误差对樽海鞘个体的适应度值进行计算,并选择适应度值最好的位置作为食物源的位置,确定好食物源位置时,能够使得领导者带领追随者在食物源(当前最优解)附近找到更优解。
采用变异操作和自适应递减权重对领导者的位置进行更新,提高求解精度;采用自适应权重来改变追随者的位置,进一步提高收敛速度。用Tent-ISSA进行优化训练集中的每个个体所包含整个BP神经网络的所有权值和阈值。
把食管癌样本数据中的特征作为BP神经网络的输入层的取值,然后采用Tent混沌映射初始化樽海鞘种群,丰富了种群的多样性,提高收敛速度,种群中每个个体的适应度值为BP神经网路的全局误差,进而确定适应度函数;通过对求解得到的适应度大小进行排序,食物源的位置是由最好的适应度值确定;采用变异操作和自适应递减权重对领导者的位置公式进行更新;采用自适应权重来改变追随者的位置,进一步提高收敛速度。用改进的樽海鞘算法(Tent-ISSA)当达到初始最大迭代次数时,得出相应的最优权重;否则继续循环,直到达到最大迭代次数;利用优化后得到的最优权重和阈值建立BP神经预测模型;确定BP神经网络模型预测食管鳞癌数据的生存率。使用BP神经网络模型对食管鳞状细胞癌数据进行了生存分析和预测。
将样本数据带入BP神经网络中进行训练,并将预测误差值用于Tent-ISSA算法的适应度函数,具体的方法如下所示:
S41、使用随机数随机设定隐含层和输入层之间的初始连接权重值的向量wih和隐含层与输出层的连接权值who,设定最大循环次数Tmax;
S42、输入层的输入向量为血液指标数据,输入向量p=(p1,p2,p3…,pm),其中,训练样本Ka=(Ka,1,Ka,2,Ka,3,…,Ka,100,);
S43、计算隐含层的权值向量与输入向量的欧氏距离:选取一组训练样本xi=(xi,1,xi,2,xi,3,…,xi,501,),每一组输入训练数据会通过连接权重的大小,找到与该输入向量最近似的神经元作为优胜神经元h,定义误差函数E为输入向量与连接权重向量的距离:
其中,q为输出层的节点数,K为样本数据do(K)为样本K的期望输出,y(oo(K))样本K的实际输出。
S44、将血液指标对应的优胜神经元进行标记,血液指标种类p+1,返回步骤S43,直到所有血液指标均输入完成;
S45、对预测误差是否满足要求进行判断。当误差达到预设精度或学习次数大于设定的最大次数Tmax,则结束算法,将全局误差的值用于Tent-ISSA的适应度函数。否则,选取下一个学习样本及对应的期望输出,循环执行步骤S42到步骤S45。全局误差为:
其中:K为样本数据,m为样本数据的总数。
步骤四:将Tent-ISSA算法优化后得到的最优樽海鞘个体作为BP神经网络的最优权值和阈值,构建BP食管癌生存预测模型。当输出的误差小于设定的误差时,结束计算。否则循环计算以上过程,直到BP神经网络输出的误差小于初始设定的误差,终止计算。通过已经确定得到BP神经网络模型,对食管鳞癌数据进行生存分析预测。
樽海鞘群算法(Salp Swarm Algorithm)SSA是Mirjalili等于2017年受海洋中樽海鞘的聚集行为组成樽海鞘链启发而提出的算法。该算法使用一个链式种群模型来表示一群樽海鞘的觅食和运动模式。一个完整的樽海鞘链包括两个组成部分,一部分是领导者,一部分是追随者。在樽海鞘链中,处于该链的第一个樽海鞘位置为领导者樽海鞘位置,其余的为追随者。在樽海鞘算法中,定义每一个樽海鞘个体表示为d维向量,则N个樽海鞘个体就构成了一个樽海鞘种群,这个种群可以描述为一个N×d的矩阵,具体描述如下:
智能算法的初始阶段往往是种群的初始化,而初始化点会直接影响收敛率和解的质量。常用的初始化分为均匀分布和随机分布的初始化,其中均匀分布更适合于实现更好的初始解。混沌序列的特点是其迭代性、随机性和一定区间内的规律性。与随机搜索相比,混沌序列可以以更高的概率搜索搜索空间,使算法偏离局部最优,并保持群体的多样性。基于前面的描述,在种群初始化阶段使用混沌映射进行种群初始化。
式(5)中:为区间[0,1]的混沌序列,表示第j维向量第i个樽海鞘个体的位置。再根据式(6)进行逆映射得到种群的初始位置,这种混沌映射的方法可以大大增加初始解空间的覆盖率,使群体更快接近最优解,从而加速算法的收敛。ub和lb分别表示捕食空间的上限和下限。表示第j维向量第i个樽海鞘个体的位置。
差分进化算法(Differential Evolution,DE)是一种基于群体差异的启发式随机搜索算法,其中包括种群的初始化、变异、交叉、选择等操作。本发明选择其中的变异操作对领导者的位置进行更新,在迭代的过程中,从种群中随机的选取两个个体,对领导者的位置公式更新,如下所示:
个体在食物源周围无限制的搜索范围内移动,这使得个体在晚收敛期无法准确搜索到极点,同时也存在跳出极点的可能性。为了改善这一问题,本发明引入了非线性递减权重,使领导者位置的更新范围随着迭代次数的增加而逐渐减小,以避免在收敛初期进入局部极值,在收敛后期越来越接近最优值,从而达到更高的求解精度。改进的更新领导者的公式如下:
式中,T为当前迭代次数,Tmax为最大迭代次数。
结合变异操作和非线性递减权重同时对领导者的位置公式进行更新,可以避免SSA算法过早收敛于较差的局部最优解,以及个体可以充分在全局移动,充分发挥算法的全局搜索能力,避免陷入局部极值;收敛后期,随着个体越来越逼近最优值,搜索范围也逐渐减小,个体在限制范围内进行精确搜索。
受粒子群优化算法的启发在樽海鞘的位置更新中加入一个随迭代次数变化的惯性权重w(t)。在算法搜索的前期,削弱最优跟随者位置对当前个体位置调整的影响,提升算法在前期的全局搜索能力。随着迭代次数的增加逐渐提升最优追随者位置的影响力,使得其他追随者能够快速收敛到最优樽海鞘的位置,提升整个算法的收敛速度。根据樽海鞘优化算法中更新次数的变化选用迭代次数T构成的自适应惯性权值如下:
式中,T为当前迭代次数,Tmax为最大迭代次数。
改进后的追随者的位置公式为:
确认BP神经网络拓扑结构后,将筛选后的食管癌数据代入BP神经网络模型中进行训练,将全局误差值用于Tent-ISSA算法的适应度函数。其基本思想就是用个体代表网络的初始权值和阈值、个体值初始化的BP神经网络的预测误差反过来作为该个体的适应度值,通过不断重复训练寻找最优解,直到最优个体作为最优BP神经网络初始权值。
利用改进樽海鞘算法优化BP神经网络权值和全局误差,选取sigmoid作为核函数对训练样本进行训练,建立食管癌风险预测模型的实现方法为:
(1)利用Tent混沌映射初始化樽海鞘的种群,对种群个体进行编码,基因序列为权值和误差。
(2)设置最大迭代次数Tmax,对训练样本进行训练,通过适应度函数计算得出种群个体的适应度。
(3)对求解得到的适应度值进行排序,选择最优适应度值作为食物源位置。
(4)采用变异操作和自适应递减权重对领导者的位置公式进行更新,提高求解精度;采用自适应权重来改变追随者的位置,进一步提高收敛速度。用Tent-ISSA算法进行优化训练集中的每个个体所包含整个BP神经网络的所有权值和阈值。
(5)当种群最优个体达到终止迭代时退出寻优过程,得到最优化解。判断当前迭代次数T是否大于Tmax,若是则执行步骤(6),若不是,则迭代次数T+1,返回步骤(1)。
(6)得到最优权值和最优全局误差,并将最优权值和最优全局误差带入到BP神经网络中。
通过已经确定的神经网络模型,对食管鳞癌生存预测模型进行构建,从而模型被提出:
式中,EC为食管癌风险的预测模型;xi为神经网络的输入层;ωij和νjl分别为神经网络的输入层和隐含层、隐含层和输出层之间的权值;aj和bl分别为神经网络的输入层和隐含层、隐含层和输出层之间的阈值;sing为神经网络中隐含层的激励函数,函数的定义域和值域分别为(-∞,+∞)和(-1,+1)。
神经网络模型的参数初始化。将BP神经网络的输入层、隐含层、输出层的节点数设为n、c、q。
给各连接权值分别赋一个区间(-1,1)内的随机数,给定误差函数E,给定计算精度值和最大学习次数Tmax,误差函数为:
其中,do(K)为期望的输出函数、yo(K)为实际输出的函数。
随机选取第K个输入样本及对应期望输出,输入样本及对应期望输出。
p(K)=(p1(K),p2(K),…,pm(K)) (14)
do(K)=(d1(K),d2(K),…,dq(K)) (15)
计算隐含层各神经元的输入和输出:
hoh(K)=f(hih(K))h=1,2,…,p (17)
yoo(K)=f(yio(K))o=1,2,…q (19)
其中,wih为输入层和隐含层的连接权值,who为隐含层与输出层的连接权值,bh为隐含层各神经元的阈值,bo为输出层各神经元的阈值,f()为激活函数sigmoid函数。输入向量为p=(p1,p2,p3…,pm),隐含层输入向量为hi=(hi1,hi2,…,hic),隐含层输出向量为ho=(ho1,ho2,…,hoc),输出层输入向量为yi=(yi1,yi2,…,yiq),输出层输出向量为yo=(yo1,yo2,…,yoq),期望输出向量为do=(d1,d2,…,dq),样本数据个数为Ki=(Ki,1,Ki,2,Ki,3,…,Ki,501,),隐含层输入向量=与他相关的各输入向量*输入层和隐含层的连接权值、隐含层的输出向量作为输出的输入向量,输出层输出向量=与他相关的输出层输入向量*隐含层与输出层的连接权值。
利用网络期望输出和实际输出,计算误差函数对输出层的各神经元的偏导数(找误差曲面中的最低点),计算误差函数对输出层的各神经元的偏导数公式。
利用隐含层到输出层的连接权值、输出层的δo(k)和隐含层的输出计算误差函数对隐含层各神经元的偏导数δh(k)。
利用输出层各神经元的δo(k)和隐含层各神经元的输出来修正链接权值who(k)
利用隐含层各神经元的δh(k)和输入层各神经元的输入修正连接权:
计算全局误差:
当t1大于零时,权值调整量为负,实际输出大于期望输出,权值向减少方向调整,使得实际输出与期望输出的差减少。t1误差对权值的偏导数:
当t2大于零时,权值调整量为正,实际输出大于期望输出,权值向减少方向调整,使得实际输出与期望输出的差减少。t2误差对权值的偏导数:
判断网络的误差是否满足要求。当误差达到预设精度或学习次数大于设定的最大次数,则结束算法,将计算的得到的全局误差值用于Tent-ISSA算法的适应度函数。否则,选取下一个学习样本及对应的期望输出,返回初始步骤,进入下一轮学习。
步骤五:将5维测试样本的数据代入到训练好的BP神经网络模型中,预测食管癌患者的生存期。
函数测试实验与结果分析:
(1)参数设置:本文选取改进樽海鞘算法(Tent-ISSA)、樽海鞘算法(SSA)、狮群算法(LSO)、鲸鱼算法(WOA)、蜻蜓算法(DA)以及樽海鞘的改进算法衰减因子樽海鞘算法(RSSA)、正余弦樽海鞘算法(SCSSA)、疯狂因子樽海鞘算法(CASSA)进行仿真实验对比。为了使得算法的公平性,对比的算法的种群和迭代次数设置都为统一。种群设置为30,迭代次数设置为500。
(2)测试函数:选择了10个基准函数对8个模型进行评价。F1-F8为单峰基准函数,F9-F10为多峰函数。
表1基准函数测试
(3)实验结果与分析
选取本发明的改进樽海鞘优化算法(Tent-ISSA)、樽海鞘算法(SSA)、狮群算法(LSO)、鲸鱼算法(WOA)、蜻蜓算法(DA)以及樽海鞘的改进算法衰减因子樽海鞘算法(RSSA)、正余弦樽海鞘算法(SCSSA)、疯狂因子樽海鞘算法(CASSA)进行Matlab仿真实验对比,收敛曲线对比图如图2和图3所示,实验数据如表2和表3所示。表2为改进樽海鞘算法与其它四种经典群智能算法的收敛数据对比,Matlab对比实验通过对基准函数进行寻优求解得到表2可以看出,本发明提出的改进樽海鞘算法在前四个函数求解上的最佳值和平均值在30次独立重复实验中都能达到算法的理论最优值,同时,4个单峰函数求解的标准差均为0,证明了算法具有很好的稳定性。相较于其他几种算法,改进的算法在数值上的优势不太明显,但是在求解前五个函数时,提出的改进算法在收敛速度上有很大的优势。图2为改进樽海鞘算法与其它四种经典群智能算法的收敛曲线对比图,由对基准函数进行寻优求解得到各个算法的收敛性曲线图即图2可知,提出的算法在F1-F4函数的收敛曲线有较大的优势,在迭代次数400或者500的时候都可以达到收敛,再次证明了提出的改进樽海鞘算法具有很好的收敛精度和收敛速度,函数F5虽然不能找到理论最优值,但算法的标准差最小,算法更为稳定。函数F6和F8在收敛上优势不是特别大,但是与其他算法相对比,也可以找到最优解。在函数F7、F9、F10提出的算法在收敛速度上优势也是很大的。
表2测试函数的结果
通过对基准函数进行寻优求解得到表3可以看出,本发明提出的改进樽海鞘算法在F1-F5函数求解上的最佳值和平均值在30次独立重复实验中都能达到算法的理论最优值,同时,5个单峰函数求解的标准差均为0,证明了算法具有很好的稳定性。由对基准函数进行寻优求解得到收敛性曲线图即图3可知,提出的算法在F1-F4函数的收敛曲线有较大的优势,在迭代次数400或者500的时候都可以达到收敛,再次证明了提出的樽海鞘算法具有很好的收敛精度和收敛速度。
表3测试函数的结果
前面步骤计算的数据带入到后面的函数中,当做函数的初始值继续计算。
本发明在确定好BP神经网络拓扑结构的前提下,初始化BP神经网络的初始权值和阈值,确定适应度函数;利用Tent混沌映射初始化种群,采用变异操作和自适应递减权重对领导者的位置公式进行更新,提高求解精度;采用自适应权重来改变追随者的位置,进一步提高收敛速度。利用改进Tent-ISSA算法得出的最优权值和阈值构建BP神经网络模型,对食管鳞癌数据进行训练,计算网络和期望输出误差,当输出的误差小于设定的误差时,结束计算,将训练好的BP神经网络用于食管鳞癌的风险预测。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,其特征在于,其步骤如下:
步骤一、将食管鳞癌的样本数据进行分类筛选,得到训练样本和测试样本;
步骤二、构建BP神经网络的拓扑结构,利用训练样本对BP神经网络进行过训练,计算BP神经网络预测的全局误差;
步骤三:利用Tent混沌映射初始化樽海鞘的种群,樽海鞘个体代表BP网络的初始权值和阈值,将BP神经网络预测的全局误差为樽海鞘算法的适应度函数,寻优得到最优樽海鞘个体;
步骤四:将最优樽海鞘个体作为BP神经网络的最优权值和阈值,构建食管癌风险预测模型,并利用训练样本对食管癌风险预测模型进行训练;
步骤五:将测试样本的数据代入到训练好的食管癌风险预测模型中,预测食管癌患者的生存期。
2.根据权利要求1所述的基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,其特征在于,所述步骤一中进行分类筛选的方法为:对样本数据进行KM生存分析以及单因素COX回归,得到有关食管鳞癌的影响因素;将血液指标作为主影响因素进行分类,将不符合标准的数据剔除;
随机选取训练样本和测试样本,使训练样本占90%,测试样本占10%。
4.根据权利要求3所述的基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,其特征在于,所述食管鳞癌的血液指标的5组数据包括WBC计数、单核细胞计数、中性粒细胞计数、凝血酶原时间和INR国际标准化比值;所述BP神经网络的结构为5-13-1的结构,即输入层为5个神经元、隐含层由13个神经元、输出层为1个神经元;
根据BP神经网络的拓扑结构确定食管癌风险预测模型的阈值和权值个数,其中权值的个数为5×13+13×1=78个,阈值的个数为14个。
5.根据权利要求4所述的基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,其特征在于,所述步骤二过训练的方法为:
S41、使用随机数随机设定隐含层和输入层之间的初始连接权重值的向量wih和隐含层与输出层的连接权值who,设定最大循环次数Tmax;
S42、输入层的输入向量为血液指标数据,输入向量p=(p1,p2,p3…,pm),其中,训练样本Ka=(Ka,1,Ka,2,Ka,3,…,Ka,100);
S43、计算隐含层的权值向量与输入向量的欧氏距离:选取一组训练样本xi=(xi,1,xi,2,xi,3,…,xi,501,),每一组输入的训练样本通过连接权重的大小找到与输入向量最近似的神经元作为优胜神经元h,误差函数为输入向量与连接权重向量的距离:
其中,q为输出层的节点数,K为样本数据,do(K)为样本K的期望输出,y(oo(K))样本K的实际输出;
S44、将血液指标对应的优胜神经元进行标记,血液指标种类p+1,返回步骤S43,直到所有血液指标均输入完成;
S45、对全局误差是否满足要求进行判断:当全局误差达到预设精度或学习次数大于设定的最大次数Tmax,则结束;否则,选取下一个训练样本及对应的期望输出,循环执行步骤S42到步骤S45。
8.根据权利要求7所述的基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,其特征在于,所述樽海鞘算法利用适应度函数对樽海鞘个体的适应度值进行计算,选择适应度值最好的位置作为食物源的位置,确定好食物源位置,使得领导者带领追随者在食物源近找到更优解;所述樽海鞘算法采用变异操作和自适应递减权重对领导者的位置进行更新,采用自适应权重来改变追随者的位置;
所述变异操作选择差分进化算法,领导者的位置的更新方法为:
其中,和分别表示在变异操作中随机选取的两个个体,c为比例因子,是一个[0,0.3]的随机数字;Fk表示参加变异操作后食物源的位置;s(T)一个非线性递减函数:且T为当前迭代次数,Tmax为最大迭代次数;
所述自适惯性权值为:
式中,T为当前迭代次数,Tmax为最大迭代次数;
改进后的追随者的位置公式为:
10.根据权利要求9所述的基于改进樽海鞘优化BP神经网络的食管鳞癌生存预测方法,其特征在于,所述食管癌风险预测模型进行训练的方法为:
参数初始化:将BP神经网络的输入层、隐含层、输出层的节点数设为n、c、q;
随机选取第K个输入样本p(K)=(p1(K),p2(K),…,pm(K))及对应期望输出,输入样本及对应期望输出do(K)=(d1(K),d2(K),…,dq(K));
计算隐含层各神经元的输入和输出:
hoh(K)=f(hih(K))h=1,2,…,p;
yoo(K)=f(yio(K))o=1,2,…q;
其中,wih为输入层和隐含层的连接权值,who为隐含层与输出层的连接权值,bh为隐含层各神经元的阈值,bo为输出层各神经元的阈值,f()为激活函数sigmoid函数;输入向量为p=(p1,p2,p3…,pm),隐含层输入向量为hi=(hi1,hi2,…,hic),隐含层输出向量为ho=(ho1,ho2,…,hoc),输出层输入向量为yi=(yi1,yi2,…,yiq),输出层输出向量为yo=(yo1,yo2,…,yoq),期望输出向量为do=(d1,d2,…,dq),样本数据个数为Ki=(Ki,1,Ki,2,Ki,3,…,Ki,501,),隐含层输入向量=与他相关的各输入向量*输入层和隐含层的连接权值、隐含层的输出向量作为输出的输入向量,输出层输出向量=与他相关的输出层输入向量*隐含层与输出层的连接权值;
利用期望输出和实际输出计算误差函数对输出层的各神经元的偏导数;
利用隐含层到输出层的连接权值、输出层的输出δo(k)和隐含层的输出计算误差函数对隐含层各神经元的偏导数;
利用输出层各神经元的输出δo(k)和隐含层各神经元的输出来修正链接权值who(k);
判断网络的误差是否满足要求:当误差达到预设精度或学习次数大于设定的最大次数,则结束;否则,选取下一个学习样本及对应的期望输出,进入下一轮学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211110549.7A CN115472291A (zh) | 2022-09-13 | 2022-09-13 | 基于改进樽海鞘优化bp神经网络的食管鳞癌生存预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211110549.7A CN115472291A (zh) | 2022-09-13 | 2022-09-13 | 基于改进樽海鞘优化bp神经网络的食管鳞癌生存预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115472291A true CN115472291A (zh) | 2022-12-13 |
Family
ID=84332687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211110549.7A Withdrawn CN115472291A (zh) | 2022-09-13 | 2022-09-13 | 基于改进樽海鞘优化bp神经网络的食管鳞癌生存预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115472291A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591889A (zh) * | 2024-01-18 | 2024-02-23 | 北京中科飞鸿科技股份有限公司 | 一种基于神经网络的探测队形优化方法 |
-
2022
- 2022-09-13 CN CN202211110549.7A patent/CN115472291A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591889A (zh) * | 2024-01-18 | 2024-02-23 | 北京中科飞鸿科技股份有限公司 | 一种基于神经网络的探测队形优化方法 |
CN117591889B (zh) * | 2024-01-18 | 2024-04-26 | 北京中科飞鸿科技股份有限公司 | 一种基于神经网络的探测队形优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108095716B (zh) | 一种基于置信规则库和深度神经网络的心电信号检测方法 | |
CN106021990B (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
CN109840595B (zh) | 一种基于群体学习行为特征的知识追踪方法 | |
CN111105045A (zh) | 一种基于改进的蝗虫优化算法构建预测模型的方法 | |
CN112215259B (zh) | 基因选择方法和装置 | |
CN110287985B (zh) | 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法 | |
CN107273818A (zh) | 遗传算法融合差分进化的选择性集成人脸识别方法 | |
Zaman et al. | Codon based back propagation neural network approach to classify hypertension gene sequences | |
CN110738362A (zh) | 一种基于改进的多元宇宙算法构建预测模型的方法 | |
CN113239211A (zh) | 一种基于课程学习的强化学习知识图谱推理方法 | |
CN104463221A (zh) | 适用于支持向量机训练的不平衡样本加权方法 | |
CN114724705A (zh) | 基于改进蚁狮算法和bp神经网络的食管鳞癌生存预测方法 | |
CN108460462A (zh) | 一种基于区间参数优化的区间神经网络学习方法 | |
CN115472291A (zh) | 基于改进樽海鞘优化bp神经网络的食管鳞癌生存预测方法 | |
CN115798730A (zh) | 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 | |
Zhou et al. | Decision trees | |
CN113762370A (zh) | 一种结合高斯随机场的深度网络集合生成方法 | |
CN111445024B (zh) | 一种医学影像识别训练方法 | |
Maulik et al. | Finding multiple coherent biclusters in microarray data using variable string length multiobjective genetic algorithm | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN112132259B (zh) | 神经网络模型输入参量降维方法及计算机可读存储介质 | |
CN109147936A (zh) | 基于深度学习的非编码rna与疾病之间关联的预测方法 | |
CN113066522B (zh) | 一种基于模块化识别的基因网络推理方法 | |
CN114819151A (zh) | 基于改进代理辅助混洗蛙跳算法的生化路径规划方法 | |
CN113807005A (zh) | 基于改进fpa-dbn的轴承剩余寿命预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221213 |