CN107767946B - 基于pca和pso-kelm模型的乳腺癌诊断系统 - Google Patents

基于pca和pso-kelm模型的乳腺癌诊断系统 Download PDF

Info

Publication number
CN107767946B
CN107767946B CN201710878027.4A CN201710878027A CN107767946B CN 107767946 B CN107767946 B CN 107767946B CN 201710878027 A CN201710878027 A CN 201710878027A CN 107767946 B CN107767946 B CN 107767946B
Authority
CN
China
Prior art keywords
model
output
breast cancer
function
kelm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710878027.4A
Other languages
English (en)
Other versions
CN107767946A (zh
Inventor
潘娟
鲍东海
丁佳骏
何熊熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710878027.4A priority Critical patent/CN107767946B/zh
Publication of CN107767946A publication Critical patent/CN107767946A/zh
Application granted granted Critical
Publication of CN107767946B publication Critical patent/CN107767946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N2015/1006Investigating individual particles for cytology

Abstract

基于PCA和PSO‑KELM模型的乳腺癌诊断系统,对乳腺癌病理数据指标进行分析,应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标,对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施,通过医疗设备显示器显示患者的最终诊断结果。其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后,提取高维的乳腺癌病理数据中占主导作用的低维综合指标,把低维综合指标作为该模型的输入向量进行试验,利用粒子方法对模型中的参数进行优化,最后得到稳定的系统参数,加快该模型的收敛速度及分类的准确率。

Description

基于PCA和PSO-KELM模型的乳腺癌诊断系统
技术领域
本发明涉及基于PCA和PSO-KELM模型的乳腺癌诊断系统;
背景技术
目前,随着国民的生活节奏在不断加快,饮食结构发生差异性的变化、居住环境的严重污染以及各种各样的社会压力作用下,大部分年轻人养成一些晚睡、酗酒、抽烟等的不良习惯,导致一些慢性非传染性疾病慢慢的在越来越多的年轻人身上逐渐恶化,并且呈现年轻化趋势,严重的情况下,甚至会危及人类生命健康;据我国卫生部疾病预防控制中心统计,慢性非传染性疾病即慢性病已经成为我国普通人群健康的第一杀手,当前被确诊为慢性病的患者已超过2.6亿人,慢性病的死亡率占全国死亡率的85%以上;各大医院的卫生系统都承载着大量的病理数据的重担,对于如何对医疗病理数据进行合理的挖掘和应用在医学领域界受到越来越多的研究学者的关注;
数据挖掘作为一个以数据库、人工神经网络、机器学习、统计学习等多个方面为核心组成的多学科交叉的科技前沿领域;数据挖掘中自常见的分类算法提出以来,在各大领域已经被广泛应用;目前,基于数据分类的医学病理数据挖掘正在成为医学界和计算机界共同关注的研究热点之一;在基于病理数据的挖掘中,已经提出了很多新方法、新思路,其中应用最广泛的就是分类方法中的人工神经网络在预测疾病、辅助诊断、知识发现中有着巨大应用前景的数据分类技术;由于人工神经网络是一个具有高度并行处理、非线映射功能的算法,可以应用到大数据库中,对于处理非线性、有噪音、冗余的、不完整的知识或数据十分合适;这些数据的特殊性也正是数据挖掘要面临地挑战;而在神经网络的算法中,在训练和测试过程中需要大量的样本数据,这一点也正是数据挖掘工具所能提供的大型数据库和数据仓库的基础;由于医学数据本身真实可靠,不受其他因素干扰,并且稳定性强,使数据挖掘在医学上的应用具有其自身的优势;因此,将数据挖掘技术应用到医疗中,可以提高整个医院的工作效益和效率;对于好多疾病就可以进行早期发现、早期诊断、早期治疗;
发明内容
本发明要克服现有技术的上述缺点,提供一种基于PCA和PSO-KELM模型的乳腺癌诊断系统;
本发明为了能够使复杂的、高维度的、冗余的、非线性的乳腺癌病理数据通过主成分分析法(PCA)对医疗病理数据进行降维,病理数指标之间的耦合度降低;接着用粒子群算法对核极限学习机中相关参数进行优化;最后使PCA和PSO-KELM融合的模型对乳腺癌病理数据进行有效的、准确地分类和预测;
基于PCA和PSO-KELM模型的乳腺癌诊断系统,其特征在于:对乳腺癌疾病的病理指标进行分析,应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标,建立样本数据库,对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施;其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后,提取高维的乳腺癌病理数据中占主导作用的低维综合指标,把低维综合指标作为该模型的输入向量进行试验,利用粒子群方法对模型中的参数进行优化,最后得到稳定的系统参数,加快该模型的收敛速度及分类的准确率;采用计算机程序语言编写的乳腺癌诊断模型包括基于数据主元分析模块、基于人工神经网络评价分析模块、基于粒子群优化参数分析模块;
病理数据采集:选取具有丰富临床经验的医生对乳腺肿块通过病理学细针穿刺方法获得细胞组织;然后医生将具有细胞组织的载玻片放在选取来自不同视野的显微镜下进行检测、观察乳腺肿瘤病灶组织中细胞核所显示的检测参数,包括细胞核的直径、质地、周长、面积、光滑度、紧密度、凹陷度、凹陷点数、对称度、断裂度10个量化特征的平均值、标准差以及最坏值,共30个数据指标;
利用乳腺癌诊断模型进行病理数据预测分析,根据病理数据的自身特性选择合适的预测模型;
基于数据主元分析模块,其数据表达式如下:
Figure GDA0002545500430000031
对式(1)样本数据矩阵进行主成分分析,根据协方差矩阵X求出其相应的特征值,根据每个特征值对应的累积贡献率所占比例的大小优选出主要特征指标,如下公式所示:
Figure GDA0002545500430000041
其中,用σi和ηa分别表示主元yi的方差贡献率和前a个主元的累计贡献率,λ表示特征值,m表示取前几个主要特征指标的个数;一般情况下,取前m个累积贡献率大于85%的主成分综合指标个数,从而达到了降低维度的目的,前m个主成分指标能够完全反映原始乳腺癌病理数据的大量信息,这些主成分就是原始信息的线性组合;其表达式如下所示:
Figure GDA0002545500430000042
公式(3)中,y=[y1,y2,...,y10]表示其中经过主元分析模型处理后的低维医疗病理数据,由原先30维的乳腺癌病理数据指标降维变成了10个毫不相关的主成分指标,这些指标之间是互不重叠的;通过计算将原始数据和相应的系数矩阵做内积,得到降维后的矩阵Y所示:Y569*10=X569*30*a30*10
基于人工神经网络评价分析模块:
经过基于数据主元分析模块降维后,将10个主成分的综合指标作为极限学习机模型的输入样本,将输入样本和输入权重的内积再加上阈值通过非线性的激活函数模型来映射,得到一个隐含层的输出响应,将当前隐含层的输出响应作为输出层的输入样本与权重进行内积,得到最终的分类函数模型;为了获得一个ELM网络的最佳模型,ELM在输出过程中不但要考虑到连接隐含层与输出层之间的权值最小化,而且还要保证网络模型的实际输出值和目标输出值之间的误差达到最小,即保证模型的输出权重最小化及输出误差最小化,当两个最小化参数其中一个没有达到最小化的标准,那么所得到的模型可能会产生过拟合状态及其他不良状态;因此,要保证模型中这两个最小化参数之间的比例,使他们达到一定的动态平衡,一个良好的ELM模型输出层分类目标函数为:
Figure GDA0002545500430000051
Figure GDA0002545500430000052
P=1,2,…N表示样本的个数,tp表示为网络的实际输出值,其中
Figure GDA0002545500430000053
代表输出层输出的最小权重,即结构风险最小;
Figure GDA0002545500430000054
代表输出误差最小,即经验风险最小,C表示为正规化系数,类似于支持向量机模型中的惩罚系数,因为结构风险和经验风险这两个指标之间是相互矛盾的,用正规化系数C来调节这两个指标之间的比例关系;该模型中输出层中的实际输出向量和目标向量之间存在着一定误差,该训练误差用||ξp||来表示;
通过ELM训练模型所得出的线性系统输出值的解与如下对偶问题是等价的,如下所示这是根据卡罗需-库恩-塔克(Karush-Khu-Tucker)的理论公式所得;
Figure GDA0002545500430000061
其中αp为非负数,称之为拉格朗日乘子;我们根据Karush-Khu-Tucker的相应优化限制条件进行求解结果如下:
Figure GDA0002545500430000062
Figure GDA0002545500430000063
Figure GDA0002545500430000064
其中H=[hT(x1),…,hT(xN)]T就是隐含层输出的映射矩阵,实际上矩阵H与输出层中所含的节点的个数没有关系,但是与输入层和隐含层的样本的节点个数关系密切;将公式(7)和(8)代入到公式(9),可得
Figure GDA0002545500430000065
将(10)中的公式进行合并整理:
Figure GDA0002545500430000066
将其公式合并如下:
Figure GDA0002545500430000067
将公式(11)代入到公式(9)中,可以得到输出权重β:
Figure GDA0002545500430000068
最后可以得出ELM的非线性逼近函数:
Figure GDA0002545500430000071
在ELM模型中,H是隐含层输出矩阵,从上面公式推到中可以发现H是有激活函数做成的输出矩阵,由于ELM模型中权重和阈值的值在训练前是随机产生的,这样就导致H矩阵中的值是不确定的,因此每次进行ELM建模时,输出层输出的权重值也是不确定的,导致整个模型的泛化能力差、随机波动性大;为了进一步加强该模型的稳定性、泛化能力以及抗鲁棒性,黄广斌教授等人将ELM模型和支持向量机模型(SVM)的原理进行对比,根据Mercer’s的条件寻找一个满足需求的核函数模型,并提议将核函数应用到ELM中,其核矩阵的公式如下所示,从而提出了一种新型的人工神经网络—核极限学习机模型,简称KELM;
Ω=HHTi,j=h(xi).h(xj)=K(xi,xj) (14)
其中,Ω是一个N*N的对称矩阵,K(xi,xj)为核函数;从公式(14)中存在着HHT矩阵,对该矩阵进行详细推算并发现存在着矩阵的内积形式,就将上面的核函数来替换其内积形式,其公式如下,这样不仅使计算复杂度降低了,而且我们只需知道核函数的形式就可以求出其输出函数,无需知道隐含层中的映射函数h(xi)的具体形式;
Figure GDA0002545500430000072
如上面公式(15)所示,可以将函数h(x)的内积由核函数的隐式隐射来代替,即将HHT用满足Merce条件的核函数来替换,具体形式如下:
Figure GDA0002545500430000081
其中,
Figure GDA0002545500430000082
ΩELM是一个N*N的对称矩阵,由此可得到KELM模型求解的输出过程为:
Figure GDA0002545500430000083
基于上面公式中核函数我们可以有很多种选择,经过多次实验测试显示,本次实验选择径向基函数作为核函数,该函数具有泛化能力好,平滑性强等优势;
综上所述,将核函数模型的优势与ELM模型相结合,用核矩阵ΩKELM代替ELM模型中的随机矩阵HHT,充分利用核函数的作用,将其低维输入的样本数据映射到高维的隐含层特征空间中,保证其能够准确、有效地进行分类;基于公式(18)KELM模型逼近函数的最终输出中可以发现只要正规化系数C确定,该函数中核函数K(xi,xj)的具体形式以及具体参数已知,与此同时,核函数对称矩阵ΩKELM的映射值是不可变值,最后输出层输出的权重最终是一个稳定的确定值;与之前的ELM输出模型相对比,KELM在重复构建模型时,所得的
Figure GDA0002545500430000091
的值为确定值;也避免了ELM模型中隐含层中的权值和阈值的随机设置造成模型的波动性大、不稳定的重大问题,大大增加了KELM模型的稳定性和泛化能力;
针对公式(18)中的正规化系数C,调节结构风险最小和经验风险最小的比例值,C值的波动大小都会给结构风险和经验风险的带来一定的波动;g是核函数的一个核宽参数,主要是用来控制径向基函数的径向作用范围,反映了函数的非线性映射本质;核宽g的取值的不同,会得到不同的核函数;所以参数C和g对KELM模型的性能影响挺大的;
基于粒子群优化参数分析模块:
这里就采用粒子群算法对参数C和g寻找最佳的参数,建立了用粒子群算法优化KELM模型中参数的算法预测模型;具体包括:
粒子的位置和速度生成子模块,在(C,g)的取值空间内随机生成初始化的每个粒子p=(p1,p2,…pm)的位置xi(t)=[Ci(t)gi(t)]T和速度Vi(t)=[△Ci(t)△gi(t)]T
迭代寻优子模块,应用PSO算法对KELM模型进行参数的迭代寻优,最大迭代次数是80次,种群的数量规模是30,在5折交叉验证意义下的平均误差率作为适应度函数,用平均误差率最为适应值来确定当前pi的个体最极值pi best(t)=(Ci best(t)gi best(t))T和群体极值gi best(t)=(Ci best(t)gi best(t))T
根据下面的公式来更新种群中每个粒子pi的速度和位置;
vi(t+1)=w(t)vi(t)+c1r1(pi best(t)-xi(t))+c2r2(gi best(t)-xi(t))
(19)
xi(t+1)=xi(t)+vi(t+1) (20)
其中c1和c2为学习因子,r1和r2为均匀分布在(0,1)之间的随机数字;
判断子模块,判断是否达到最大的迭代次数或者适应度函数值小于终止误差,如果满足,就停止迭代得到最优的解,最佳的正规化系数C=131.5269,核函数宽度是g=1.5855,将所得到的最佳参数C、g对KELM模型进行学习和分类预测,找出最小的分类误差率,优化过程结束;如果没有满足条件则优化过程继续,转到迭代寻优子模块中继续进行迭代;将得到的最优参数通过KELM模型进行训练,最后输出对乳腺癌疾病进行诊断、分析的结果;
本发明的有益效果在于:(1)本发明模型结构简单,容易实现,能够对复杂的病理数据进行有效地处理,提高算法的运算速度;(2)本发明是一种关于极限学习机对病理数据进行训练,通过粒子群优化算法找到最佳的参数,能够有效地对医疗病理数据进行分类,分类准确率高,该系统具有很要的稳定性、鲁棒性以及高准确率;
附图说明
图1是本发明的极限学习机的基本框图
图2是本发明的核极限学习机的框图
图3是本发明的基于PSO优化KELM参数流程图;
图4是本发明的基于乳腺癌分类的流程图;
图5是本发明的基于PCA和PSO-KELM模型的整体实验流程图;
图6是本发明的系统结构示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述;
基于PCA和PSO-KELM模型的乳腺癌诊断系统,用于对乳腺癌疾病的病理指标进行分析,应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标,建立样本数据库,对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施;其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后,提取高维的乳腺癌病理数据中占主导作用的低维综合指标,把低维综合指标作为该模型的输入向量进行试验,利用粒子群方法对模型中的参数进行优化,最后得到稳定的系统参数,加快该模型的收敛速度及分类的准确率;采用计算机程序语言编写的乳腺癌诊断模型包括基于数据主元分析模块、基于人工神经网络评价分析模块、基于粒子群优化参数分析模块;
病理数据采集:选取具有丰富临床经验的医生对乳腺肿块通过病理学细针穿刺方法获得细胞组织;然后医生将具有细胞组织的载玻片放在选取来自不同视野的显微镜下进行检测、观察乳腺肿瘤病灶组织中细胞核所显示的检测参数,包括细胞核的直径、质地、周长、面积、光滑度、紧密度、凹陷度、凹陷点数、对称度、断裂度10个量化特征的平均值、标准差以及最坏值,共30个数据指标;
利用乳腺癌诊断模型进行病理数据预测分析,根据病理数据的自身特性选择合适的预测模型;
基于数据主元分析模块,其数据表达式如下:
Figure GDA0002545500430000121
对式(1)样本数据矩阵进行主成分分析,根据协方差矩阵X求出其相应的特征值,根据每个特征值对应的累积贡献率所占比例的大小优选出主要特征指标,如下公式所示:
Figure GDA0002545500430000122
其中,用σi和ηa分别表示主元yi的方差贡献率和前a个主元的累计贡献率,λ表示特征值,m表示取前几个主要特征指标的个数;一般情况下,取前m个累积贡献率大于85%的主成分综合指标个数,从而达到了降低维度的目的,前m个主成分指标能够完全反映原始乳腺癌病理数据的大量信息,这些主成分就是原始信息的线性组合;其表达式如下所示:
Figure GDA0002545500430000131
公式(3)中,y=[y1,y2,...,y10]表示其中经过主元分析模型处理后的低维医疗病理数据,由原先30维的乳腺癌病理数据指标降维变成了10个毫不相关的主成分指标,这些指标之间是互不重叠的;通过计算将原始数据和相应的系数矩阵做内积,得到降维后的矩阵Y所示:Y569*10=X569*30*a30*10
基于人工神经网络评价分析模块:
经过基于数据主元分析模块降维后,将10个主成分的综合指标作为极限学习机模型的输入样本,将输入样本和输入权重的内积再加上阈值通过非线性的激活函数模型来映射,得到一个隐含层的输出响应,将当前隐含层的输出响应作为输出层的输入样本与权重进行内积,得到最终的分类函数模型;为了获得一个ELM网络的最佳模型,ELM在输出过程中不但要考虑到连接隐含层与输出层之间的权值最小化,而且还要保证网络模型的实际输出值和目标输出值之间的误差达到最小,即保证模型的输出权重最小化及输出误差最小化,当两个最小化参数其中一个没有达到最小化的标准,那么所得到的模型可能会产生过拟合状态及其他不良状态;因此,要保证模型中这两个最小化参数之间的比例,使他们达到一定的动态平衡,一个良好的ELM模型输出层分类目标函数为:
Figure GDA0002545500430000141
Figure GDA0002545500430000142
P=1,2,…N表示样本的个数,tp表示为网络的实际输出值,其中
Figure GDA0002545500430000143
代表输出层输出的最小权重,即结构风险最小;
Figure GDA0002545500430000144
代表输出误差最小,即经验风险最小,C表示为正规化系数,类似于支持向量机模型中的惩罚系数,因为结构风险和经验风险这两个指标之间是相互矛盾的,用正规化系数C来调节这两个指标之间的比例关系;该模型中输出层中的实际输出向量和目标向量之间存在着一定误差,该训练误差用||ξp||来表示;
通过ELM训练模型所得出的线性系统输出值的解与如下对偶问题是等价的,如下所示这是根据卡罗需-库恩-塔克(Karush-Khu-Tucker)的理论公式所得;
Figure GDA0002545500430000145
其中αp为非负数,称之为拉格朗日乘子;我们根据Karush-Khu-Tucker的相应优化限制条件进行求解结果如下:
Figure GDA0002545500430000146
Figure GDA0002545500430000147
Figure GDA0002545500430000148
其中H=[hT(x1),…,hT(xN)]T就是隐含层输出的映射矩阵,实际上矩阵H与输出层中所含的节点的个数没有关系,但是与输入层和隐含层的样本的节点个数关系密切;将公式(7)和(8)代入到公式(9),可得
Figure GDA0002545500430000151
将(10)中的公式进行合并整理:
Figure GDA0002545500430000152
将其公式合并如下:
Figure GDA0002545500430000153
将公式(11)代入到公式(9)中,可以得到输出权重β:
Figure GDA0002545500430000154
最后可以得出ELM的非线性逼近函数:
Figure GDA0002545500430000155
在ELM模型中,H是隐含层输出矩阵,从上面公式推到中可以发现H是有激活函数做成的输出矩阵,由于ELM模型中权重和阈值的值在训练前是随机产生的,这样就导致H矩阵中的值是不确定的,因此每次进行ELM建模时,输出层输出的权重值也是不确定的,导致整个模型的泛化能力差、随机波动性大;为了进一步加强该模型的稳定性、泛化能力以及抗鲁棒性,黄广斌教授等人将ELM模型和支持向量机模型(SVM)的原理进行对比,根据Mercer’s的条件寻找一个满足需求的核函数模型,并提议将核函数应用到ELM中,其核矩阵的公式如下所示,从而提出了一种新型的人工神经网络—核极限学习机模型,简称KELM;
Ω=HHTi,j=h(xi).h(xj)=K(xi,xj) (14)
其中,Ω是一个N*N的对称矩阵,K(xi,xj)为核函数;从公式(14)中存在着HHT矩阵,对该矩阵进行详细推算并发现存在着矩阵的内积形式,就将上面的核函数来替换其内积形式,其公式如下,这样不仅使计算复杂度降低了,而且我们只需知道核函数的形式就可以求出其输出函数,无需知道隐含层中的映射函数h(xi)的具体形式;
Figure GDA0002545500430000161
如上面公式(15)所示,可以将函数h(x)的内积由核函数的隐式隐射来代替,即将HHT用满足merce条件的核函数来替换,具体形式如下:
Figure GDA0002545500430000162
其中,
Figure GDA0002545500430000163
ΩELM是一个N*N的对称矩阵,由此可得到KELM模型求解的输出过程为:
Figure GDA0002545500430000171
基于上面公式中核函数我们可以有很多种选择,经过多次实验测试显示,本次实验选择径向基函数作为核函数,该函数具有泛化能力好,平滑性强等优势;
综上所述,将核函数模型的优势与ELM模型相结合,用核矩阵ΩKELM代替ELM模型中的随机矩阵HHT,充分利用核函数的作用,将其低维输入的样本数据映射到高维的隐含层特征空间中,保证其能够准确、有效地进行分类;基于公式(18)KELM模型逼近函数的最终输出中可以发现只要正规化系数C确定,该函数中核函数K(xi,xj)的具体形式以及具体参数已知,与此同时,核函数对称矩阵ΩKELM的映射值是不可变值,最后输出层输出的权重最终是一个稳定的确定值;与之前的ELM输出模型相对比,KELM在重复构建模型时,所得的
Figure GDA0002545500430000172
的值为确定值;也避免了ELM模型中隐含层中的权值和阈值的随机设置造成模型的波动性大、不稳定的重大问题,大大增加了KELM模型的稳定性和泛化能力;
针对公式(18)中的正规化系数C,调节结构风险最小和经验风险最小的比例值,C值的波动大小都会给结构风险和经验风险的带来一定的波动;g是核函数的一个核宽参数,主要是用来控制径向基函数的径向作用范围,反映了函数的非线性映射本质;核宽g的取值的不同,会得到不同的核函数;所以参数C和g对KELM模型的性能影响挺大的;
基于粒子群优化参数分析模块:
这里就采用粒子群算法对参数C和g寻找最佳的参数,建立了用粒子群算法优化KELM模型中参数的算法预测模型;具体包括:
粒子的位置和速度生成子模块,在(C,g)的取值空间内随机生成初始化的每个粒子p=(p1,p2,…pm)的位置xi(t)=[Ci(t)gi(t)]T和速度Vi(t)=[△Ci(t)△gi(t)]T
迭代寻优子模块,应用PSO算法对KELM模型进行参数的迭代寻优,最大迭代次数是80次,种群的数量规模是30,在5折交叉验证意义下的平均误差率作为适应度函数,用平均误差率最为适应值来确定当前pi的个体最极值pi best(t)=(Ci best(t)gi best(t))T和群体极值gi best(t)=(Ci best(t)gi best(t))T
根据下面的公式来更新种群中每个粒子pi的速度和位置;
vi(t+1)=w(t)vi(t)+c1r1(pi best(t)-xi(t))+c2r2(gi best(t)-xi(t))
(20)
xi(t+1)=xi(t)+vi(t+1) (21)
其中c1和c2为学习因子,r1和r2为均匀分布在(0,1)之间的随机数字;
判断子模块,判断是否达到最大的迭代次数或者适应度函数值小于终止误差,如果满足,就停止迭代得到最优的解,最佳的正规化系数C=131.5269,核函数宽度是g=1.5855,将所得到的最佳参数C、g对KELM模型进行学习和分类预测,找出最小的分类误差率,优化过程结束;如果没有满足条件则优化过程继续,转到迭代寻优子模块中继续进行迭代;将得到的最优参数通过KELM模型进行训练,最后输出对乳腺癌疾病进行诊断、分析的结果;
图1是新型极限学习机模型的基本框架图,由输入层、输出层、隐含层组成的单向前馈神经网络,其中G(.)为激活函数,激活函数的种类有很多,可以根据模型的需求来选择不同的函数,K为隐含层的节点个数,β=[β12,…,βk]为连接隐含层和输出层之间的输出权重,bj为隐含层的阈值;图2是在ELM模型的基础上引入了核函数的核极限学习机模型,通过该模型可以使高维线性不可分的病理数据在核函数的隐性映射下变成低维线性可分,减少了计算的复杂度;在KELM模型中,隐含层的节点个数可以直接确定,不需要通过经验凑试法对隐含层的个数进行设置,只要知道核函数的具体形式和相关参数,可以有效地获得一个良好的且预测准确率高的模型,其各个模块功能描述如下:
1)从医疗数据库中先获取原始的医疗病理数据,病理数据的病理指标比较多,其指标之间存在不同的量纲,为了能够使这些多指标的病理数据的量纲统一到一定的范围内,对病理数据进行了标准化处理,公式如下:
Figure GDA0002545500430000191
其中μ是代表数据样本的均值,σ代表数据样本的标准差;
2)进行标准化模块处理后的数据被映射在统一的范围内,将数据进行主元分析模型处理,在标准化处理之前,首先求出矩阵数据的协方差矩阵,接着利用协方差矩阵求出其相应的特征值,然后根据特征值计算累积贡献率,一般选取累积贡献率所占的比例达到85%以上作为主成分指标;
3)通过主元分析模型降维处理的综合指标作为核极限学习机的输入变量,然后采用粒子群算法搜索核极限学习机中的最佳参数;参照图3,粒子群优化算法是研究学者Eberhart和Kennedy受到鸟群、鱼群寻觅食物的行为启发而提出的一个群体智能的算法;在粒子群中每个粒子都根据适应度值、位置以及速度这三个指标来表示该粒子的行为特征;在开始寻找最佳值之前,首要确定好适应度函数,这个函数的作用是确定适应度函数;接着对每个粒子p=(p1,p2,…pm)的位置xi(t)=[Ci(t)gi(t)]T和速度Vi(t)=[△Ci(t)△gi(t)]T进行初始化;然后通过5折交叉验证意义下的平均误差率适应度函数求出其相应的平均误差率,根据下面的公式来更新种群中每个粒子pi的速度和位置;
vi(t+1)=w(t)vi(t)+c1r1(pi best(t)-xi(t))+c2r2(gi best(t)-xi(t)) (23)
xi(t+1)=xi(t)+vi(t+1) (24)
其中初始加速因子c1=1.5,c2=1.7,最大迭代次数是80次,种群的数量规模是30,使用5折交叉验证法,最后根据迭代的次数是否达到最大次数或者其或者适应度函数值小于终止误差的其中之一的条件,如果满足,就停止迭代得到最优的解,最佳的正规化系数C=131.5269,核函数宽度是g=1.5855,将所得到的最佳参数C、g对核极限学习机模型进行学习和分类预测,如图4所示;如果不满足就继续初始化粒子群,对其进行相应的速度和位置的更新,计算适应度函数以及满足条件的判断。
图5是基于该实验的整个过程的流程图;将通过上述Z-Score标准法、PCA方法以及PSO-KELM模型对乳腺癌的病例数据进行准确率的分析。
表1是基于PCA和PSO-KELM模型与其他传统的神经网络对乳腺癌的分类准确率进行对比;从表格中可以看出,使用PCA和PSO-KELM模型对于乳腺癌疾病诊断的准确率远远高于其他神经网络。
表1
Figure GDA0002545500430000211

Claims (1)

1.基于PCA和PSO-KELM模型的乳腺癌诊断系统,其特征在于:对乳腺癌疾病的病理指标进行分析,应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标,建立样本数据库,对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施;其中乳腺癌诊断模型是对良性患者、恶性患者的病理数据进行预处理之后,提取高维的乳腺癌病理数据中占主导作用的低维综合指标,把低维综合指标作为该模型的输入向量进行试验,利用粒子群方法对乳腺癌诊断模型中的参数进行优化,最后得到稳定的系统参数,加快该乳腺癌诊断模型的收敛速度及分类的准确率;采用计算机程序语言编写的乳腺癌诊断模型包括基于数据主元分析模块、基于人工神经网络评价分析模块、基于粒子群优化参数分析模块;
病理数据采集:选取具有丰富临床经验的医生对乳腺肿块通过病理学细针穿刺方法获得细胞组织;然后医生将具有细胞组织的载玻片放在选取来自不同视野的显微镜下进行检测、观察乳腺肿瘤病灶组织中细胞核所显示的检测参数,包括细胞核的直径、质地、周长、面积、光滑度、紧密度、凹陷度、凹陷点数、对称度、断裂度10个量化特征的平均值、标准差以及最坏值,共30个数据指标;
利用乳腺癌诊断模型进行病理数据预测分析,根据病理数据的自身特性选择合适的预测模型;
基于数据主元分析模块,其数据表达式如下:
Figure FDA0002564059490000011
对式(1)样本数据矩阵进行主成分分析,根据协方差矩阵X求出其相应的特征值,根据每个特征值对应的累积贡献率所占比例的大小优选出主要特征指标,如下公式所示:
Figure FDA0002564059490000021
其中,用σi和ηa分别表示主元的方差贡献率和前a个主元的累计贡献率,λ表示特征值,m表示取前几个主要特征指标的个数;一般情况下,取前m个累积贡献率大于85%的主成分综合指标个数,从而达到了降低维度的目的,前m个主成分指标能够完全反映原始乳腺癌病理数据的大量信息,这些主成分就是原始信息的线性组合;其表达式如下所示:
Figure FDA0002564059490000022
公式(3)中,y=[y1,y2,...,y10]表示经过主元分析模型处理后的低维医疗病理数据,由原先30维的乳腺癌病理数据指标降维变成了10个毫不相关的主成分指标,这些指标之间是互不重叠的;通过计算将原始数据和相应的系数矩阵做内积,得到降维后的矩阵Y所示:Y569*10=X569*30*a30*10
基于人工神经网络评价分析模块:
经过基于数据主元分析模块降维后,将10个主成分的综合指标作为极限学习机模型的输入样本,将输入样本和输入权重的内积再加上阈值通过非线性的激活函数模型来映射,得到一个隐含层的输出响应,将当前隐含层的输出响应作为输出层的输入样本与权重进行内积,得到最终的分类函数模型;为了获得一个ELM网络的最佳模型,ELM在输出过程中不但要考虑到连接隐含层与输出层之间的权值最小化,而且还要保证网络模型的实际输出值和目标输出值之间的误差达到最小,即保证模型的输出权重最小化及输出误差最小化,当两个最小化参数其中一个没有达到最小化的标准,那么所得到的模型可能会产生过拟合状态及其他不良状态;因此,要保证模型中这两个最小化参数之间的比例,使他们达到一定的动态平衡,一个良好的ELM模型输出层分类目标函数为:
Figure FDA0002564059490000031
Subject to:h(xp)β=tp Tp T (5)
P=1,2,…N表示样本的个数,tp表示为网络的实际输出值,其中
Figure FDA0002564059490000032
代表输出层输出的最小权重,即结构风险最小;
Figure FDA0002564059490000033
代表输出误差最小,即经验风险最小,C表示为正规化系数,因为结构风险和经验风险这两个指标之间是相互矛盾的,用正规化系数C来调节这两个指标之间的比例关系;该模型中输出层中的实际输出向量和目标向量之间存在着一定误差,训练误差用||ξp||来表示;
通过ELM训练模型所得出的线性系统输出值的解与如下对偶问题是等价的,如下所示这是根据卡罗需-库恩-塔克(Karush-Khu-Tucker)的理论公式所得;
Figure FDA0002564059490000034
其中αp为非负数,称之为拉格朗日乘子;根据Karush-Khu-Tucker的相应优化限制条件进行求解结果如下:
Figure FDA0002564059490000035
Figure FDA0002564059490000036
Figure FDA0002564059490000041
其中H=[hT(x1),…,hT(xN)]T就是隐含层输出的映射矩阵,实际上矩阵H与输出层中所含的节点的个数没有关系,但是与输入层和隐含层的样本的节点个数关系密切;将公式(7)和(8)代入到公式(9),可得
Figure FDA0002564059490000042
将(10)中的公式进行合并整理:
Figure FDA0002564059490000043
将(10)中的公式合并如下:
Figure FDA0002564059490000044
将公式(11)带入到公式(9)中,可以得到输出权重β:
Figure FDA0002564059490000045
最后可以得出ELM的非线性逼近函数:
Figure FDA0002564059490000046
在ELM模型中,H是隐含层输出矩阵,从公式(13)推导并发现H是由激活函数组成的输出矩阵,由于ELM模型中权重和阈值的值在训练前是随机产生的,这样就导致H矩阵中的值是不确定的,因此每次进行ELM建模时,输出层输出的权重值也是不确定的,导致整个模型的泛化能力差、随机波动性大;为了进一步加强该模型的稳定性、泛化能力以及抗鲁棒性,将ELM模型和支持向量机模型(SVM)的原理进行对比,根据Mercer’s的条件寻找一个满足需求的核函数模型,并提议将核函数应用到ELM中,其核矩阵的公式如下所示,从而提出了一种新型的人工神经网络—核极限学习机模型,简称KELM;
Ω=HHTi,j=h(xi).h(xj)=K(xi,xj) (14)
其中,Ω是一个N*N的对称矩阵,K(xi,xj)为核函数;从公式(14)中的HHT矩阵,对该矩阵进行详细推算并发现存在着矩阵的内积形式,就将上面的核函数来替换其内积形式,其公式如下,这样不仅使计算复杂度降低了,而且只需知道核函数的形式就可以求出其输出函数,无需知道隐含层中的映射函数h(xi)的具体形式;
Figure FDA0002564059490000051
如上面公式(15)所示,可以将函数h(x)的内积由核函数的隐式隐射来代替,即将HHT用满足merce条件的核函数来替换,具体形式如下:
Figure FDA0002564059490000052
其中,
Figure FDA0002564059490000053
ΩELM是一个N*N的对称矩阵,由此可得到KELM模型求解的输出过程为:
Figure FDA0002564059490000061
基于上面公式中核函数可以有很多种选择,经过多次实验测试显示,本次实验选择径向基函数作为核函数,该函数具有泛化能力好,平滑性强等优势;
综上所述,将核函数模型的优势与ELM模型相结合,用核矩阵ΩKELM代替ELM模型中的随机矩阵HHT,利用核函数,将其低维输入的样本数据映射到高维的隐含层特征空间中,保证其能够准确、有效地进行分类;基于公式(18)KELM模型逼近函数的最终输出中可以发现只要正规化系数C确定,该函数中核函数K(xi,xj)的具体形式以及具体参数已知,与此同时,核函数对称矩阵ΩKELM的映射值是不可变值,最后输出层输出的权重最终是一个稳定的确定值;与之前的ELM输出模型相对比,KELM在重复构建模型时,所得的
Figure FDA0002564059490000062
的值为确定值;也避免了ELM模型中隐含层中的权值和阈值的随机设置造成模型的波动性大、不稳定的重大问题,大大增加了KELM模型的稳定性和泛化能力;
针对公式(18)中的正规化系数C,调节结构风险最小和经验风险最小的比例值,C值的波动大小都会给结构风险和经验风险的带来一定的波动;g是核函数的一个核宽参数,主要是用来控制径向基函数的径向作用范围,反映了函数的非线性映射本质;核宽g的取值的不同,会得到不同的核函数;所以参数C和g对KELM模型的性能影响挺大的;
基于粒子群优化参数分析模块:
这里就采用粒子群算法对参数C和g寻找最佳的参数,建立了用粒子群算法优化KELM模型中参数的算法预测模型;具体包括:
粒子的位置和速度生成子模块,在(C,g)的取值空间内随机生成初始化的每个粒子p=(p1,p2,…pm)的位置xi(t)=[Ci(t)gi(t)]T和速度Vi(t)=[△Ci(t)△gi(t)]T
迭代寻优子模块,应用PSO算法对KELM模型进行参数的迭代寻优,最大迭代次数是80次,种群的数量规模是30,在5折交叉验证意义下的平均误差率作为适应度函数,用平均误差率最为适应值来确定当前pi的个体最极值pi best(t)=(Ci best(t)gi best(t))T和群体极值gi best(t)=(Ci best(t)gi best(t))T
根据下面的公式来更新种群中每个粒子pi的速度和位置;
vi(t+1)=w(t)vi(t)+c1r1(pi best(t)-xi(t))+c2r2(gi best(t)-xi(t)) (19)
xi(t+1)=xi(t)+vi(t+1) (20)
其中c1和c2为学习因子,r1和r2为均匀分布在(0,1)之间的随机数字;
判断子模块,判断是否达到最大的迭代次数或者适应度函数值小于终止误差,如果满足,就停止迭代得到最优的解,最佳的正规化系数C=131.5269,核函数宽度是g=1.5855,将所得到的最佳参数C、g对KELM模型进行学习和分类预测,找出最小的分类误差率,优化过程结束;如果没有满足条件则优化过程继续,转到迭代寻优子模块继续进行迭代;将得到的最优参数通过KELM模型进行训练,最后输出对乳腺癌疾病诊断、分析的结果。
CN201710878027.4A 2017-09-26 2017-09-26 基于pca和pso-kelm模型的乳腺癌诊断系统 Active CN107767946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710878027.4A CN107767946B (zh) 2017-09-26 2017-09-26 基于pca和pso-kelm模型的乳腺癌诊断系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710878027.4A CN107767946B (zh) 2017-09-26 2017-09-26 基于pca和pso-kelm模型的乳腺癌诊断系统

Publications (2)

Publication Number Publication Date
CN107767946A CN107767946A (zh) 2018-03-06
CN107767946B true CN107767946B (zh) 2020-10-02

Family

ID=61267386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710878027.4A Active CN107767946B (zh) 2017-09-26 2017-09-26 基于pca和pso-kelm模型的乳腺癌诊断系统

Country Status (1)

Country Link
CN (1) CN107767946B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019227690A1 (zh) * 2018-06-01 2019-12-05 中国科学院上海生命科学研究院 行为范式指标的筛选及其应用
CN108922629A (zh) * 2018-06-01 2018-11-30 中国科学院上海生命科学研究院 脑功能相关行为范式指标的筛选及其应用
CN108960421B (zh) * 2018-06-05 2022-03-18 哈尔滨工程大学 改进基于bp神经网络的水面无人艇航速在线预报方法
WO2020014477A1 (en) * 2018-07-11 2020-01-16 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for image analysis with deep learning to predict breast cancer classes
CN110957033A (zh) * 2018-09-26 2020-04-03 金敏 疾病预测系统
CN109498017B (zh) * 2018-12-11 2022-05-06 长沙理工大学 一种适于多被试fMRI数据分析的快速移不变CPD方法
CN110517747B (zh) * 2019-08-30 2022-06-03 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN110600135A (zh) * 2019-09-18 2019-12-20 东北大学 一种基于改进随机森林算法的乳腺癌预测系统
CN110880369A (zh) * 2019-10-08 2020-03-13 中国石油大学(华东) 基于径向基函数神经网络的气体标志物检测方法及应用
CN111105127B (zh) * 2019-11-06 2023-04-07 武汉理工大学 一种基于数据驱动的模块化产品设计评价方法
CN110911012B (zh) * 2019-12-05 2022-10-14 中国科学院自动化研究所 基于效用模型的个性化诊疗方法的确定方法及系统
CN111180064B (zh) * 2019-12-25 2023-04-07 北京亚信数据有限公司 一种辅助诊断模型的评测方法、装置及计算设备
CN111904417B (zh) * 2020-07-06 2021-12-03 天津大学 基于支持向量机的超宽带微波早期乳腺癌检测装置
CN111967187B (zh) * 2020-08-20 2023-10-17 新奥能源动力科技(上海)有限公司 一种预测燃气轮机启动过程输出数据的建模方法及设备
CN111914952B (zh) * 2020-08-21 2024-03-08 山东第一医科大学附属省立医院(山东省立医院) 一种基于深度神经网络的ad特征参数筛选方法及系统
CN112164462B (zh) * 2020-09-27 2022-05-24 华南理工大学 一种乳腺癌风险评估方法、系统、介质及设备
CN112200050A (zh) * 2020-09-30 2021-01-08 同济大学 基于多源卫星数据的湖泊水量时空变化分析方法及装置
CN112485372A (zh) * 2020-11-17 2021-03-12 中国烟草总公司郑州烟草研究院 一种评价烟气中杂气的方法
CN112907088B (zh) * 2021-03-03 2024-03-08 杭州诚智天扬科技有限公司 一种清分模型的参数调整方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528516A (zh) * 2015-12-01 2016-04-27 三门县人民医院 基于主元分析与超限学习机相结合的临床病理数据分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528516A (zh) * 2015-12-01 2016-04-27 三门县人民医院 基于主元分析与超限学习机相结合的临床病理数据分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于PCA-ELM 的病理数据研究与应用;齐光快等;《医疗卫生装备》;20160730;第37卷(第7期);全文 *
基于PSO-KELM 的发动机特征参数预测;马超等;《控制工程》;20140530;第21卷(第S1期);全文 *
基于元启发优化极限学习机的分类算法及其应用研究;马超;《中国博士学位论文全文数据库信息科技辑》;20150315(第03期);全文 *
集成优化核极限学习机的冠心病无创性诊断;马超等;《计算机应用研究》;20170630;第34卷(第6期);全文 *

Also Published As

Publication number Publication date
CN107767946A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107767946B (zh) 基于pca和pso-kelm模型的乳腺癌诊断系统
Bharati et al. Comparative performance analysis of different classification algorithm for the purpose of prediction of lung cancer
Shahid et al. A deep learning approach for prediction of Parkinson’s disease progression
Abd El-Salam et al. Performance of machine learning approaches on prediction of esophageal varices for Egyptian chronic hepatitis C patients
Kodaz et al. Medical application of information gain based artificial immune recognition system (AIRS): Diagnosis of thyroid disease
Alirezaei et al. A bi-objective hybrid optimization algorithm to reduce noise and data dimension in diabetes diagnosis using support vector machines
Nan et al. Application of improved som network in gene data cluster analysis
CN111128380A (zh) 模拟医生诊断和精准干预策略的慢性病健康管理模型的构建方法及系统
Singh et al. A new intelligent medical decision support system based on enhanced hierarchical clustering and random decision forest for the classification of alcoholic liver damage, primary hepatoma, liver cirrhosis, and cholelithiasis
CN111105877A (zh) 基于深度置信网络的慢性病精确干预方法及系统
Lu et al. Effective detection of Alzheimer's disease by optimizing fuzzy K-nearest neighbors based on salp swarm algorithm
Kangra et al. Comparative analysis of predictive machine learning algorithms for diabetes mellitus
Jia et al. Study on optimized Elman neural network classification algorithm based on PLS and CA
Makram et al. Machine learning approach for diagnosis of heart diseases
Ma et al. Construction and evaluation of intelligent medical diagnosis model based on integrated deep neural network
Alam et al. Integrated k-means clustering with nature inspired optimization algorithm for the prediction of disease on high dimensional data
US20210158967A1 (en) Method of prediction of potential health risk
CN112863664A (zh) 基于多模态超图卷积神经网络的阿尔茨海默病分类方法
Gill et al. A novel hybrid model for diabetic prediction using hidden Markov model, fuzzy based rule approach and neural network
Pertiwi et al. Implementation of Discretisation and Correlation-based Feature Selection to Optimize Support Vector Machine in Diagnosis of Chronic Kidney Disease
He et al. Diabetes diagnosis and treatment research based on machine learning
Lei Prediction of score of diabetes progression index based on logistic regression algorithm
Tan et al. Modeling the Relationship Between Cervical Cancer Mortality and Trace Elements Based on Genetic Algorithm–Partial Least Squares and Support Vector Machines
Paul et al. Diabetes mellitus prediction using hybrid artificial neural network
Sidiq et al. Big Data and deep learning in healthcare

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant