CN107767946B

CN107767946B - 基于pca和pso-kelm模型的乳腺癌诊断系统

Info

Publication number: CN107767946B
Application number: CN201710878027.4A
Authority: CN
Inventors: 潘娟; 鲍东海; 丁佳骏; 何熊熊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2020-10-02
Anticipated expiration: 2037-09-26
Also published as: CN107767946A

Abstract

基于PCA和PSO‑KELM模型的乳腺癌诊断系统，对乳腺癌病理数据指标进行分析，应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标，对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施，通过医疗设备显示器显示患者的最终诊断结果。其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后，提取高维的乳腺癌病理数据中占主导作用的低维综合指标，把低维综合指标作为该模型的输入向量进行试验，利用粒子方法对模型中的参数进行优化，最后得到稳定的系统参数，加快该模型的收敛速度及分类的准确率。

Description

基于PCA和PSO-KELM模型的乳腺癌诊断系统

技术领域

本发明涉及基于PCA和PSO-KELM模型的乳腺癌诊断系统；

背景技术

目前，随着国民的生活节奏在不断加快，饮食结构发生差异性的变化、居住环境的严重污染以及各种各样的社会压力作用下，大部分年轻人养成一些晚睡、酗酒、抽烟等的不良习惯，导致一些慢性非传染性疾病慢慢的在越来越多的年轻人身上逐渐恶化，并且呈现年轻化趋势，严重的情况下，甚至会危及人类生命健康；据我国卫生部疾病预防控制中心统计，慢性非传染性疾病即慢性病已经成为我国普通人群健康的第一杀手，当前被确诊为慢性病的患者已超过2.6亿人，慢性病的死亡率占全国死亡率的85％以上；各大医院的卫生系统都承载着大量的病理数据的重担，对于如何对医疗病理数据进行合理的挖掘和应用在医学领域界受到越来越多的研究学者的关注；

数据挖掘作为一个以数据库、人工神经网络、机器学习、统计学习等多个方面为核心组成的多学科交叉的科技前沿领域；数据挖掘中自常见的分类算法提出以来，在各大领域已经被广泛应用；目前，基于数据分类的医学病理数据挖掘正在成为医学界和计算机界共同关注的研究热点之一；在基于病理数据的挖掘中,已经提出了很多新方法、新思路,其中应用最广泛的就是分类方法中的人工神经网络在预测疾病、辅助诊断、知识发现中有着巨大应用前景的数据分类技术；由于人工神经网络是一个具有高度并行处理、非线映射功能的算法，可以应用到大数据库中，对于处理非线性、有噪音、冗余的、不完整的知识或数据十分合适；这些数据的特殊性也正是数据挖掘要面临地挑战；而在神经网络的算法中，在训练和测试过程中需要大量的样本数据，这一点也正是数据挖掘工具所能提供的大型数据库和数据仓库的基础；由于医学数据本身真实可靠，不受其他因素干扰，并且稳定性强，使数据挖掘在医学上的应用具有其自身的优势；因此，将数据挖掘技术应用到医疗中，可以提高整个医院的工作效益和效率；对于好多疾病就可以进行早期发现、早期诊断、早期治疗；

发明内容

本发明要克服现有技术的上述缺点，提供一种基于PCA和PSO-KELM模型的乳腺癌诊断系统；

本发明为了能够使复杂的、高维度的、冗余的、非线性的乳腺癌病理数据通过主成分分析法(PCA)对医疗病理数据进行降维，病理数指标之间的耦合度降低；接着用粒子群算法对核极限学习机中相关参数进行优化；最后使PCA和PSO-KELM融合的模型对乳腺癌病理数据进行有效的、准确地分类和预测；

基于PCA和PSO-KELM模型的乳腺癌诊断系统，其特征在于：对乳腺癌疾病的病理指标进行分析，应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标，建立样本数据库，对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施；其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后，提取高维的乳腺癌病理数据中占主导作用的低维综合指标，把低维综合指标作为该模型的输入向量进行试验，利用粒子群方法对模型中的参数进行优化，最后得到稳定的系统参数，加快该模型的收敛速度及分类的准确率；采用计算机程序语言编写的乳腺癌诊断模型包括基于数据主元分析模块、基于人工神经网络评价分析模块、基于粒子群优化参数分析模块；

病理数据采集：选取具有丰富临床经验的医生对乳腺肿块通过病理学细针穿刺方法获得细胞组织；然后医生将具有细胞组织的载玻片放在选取来自不同视野的显微镜下进行检测、观察乳腺肿瘤病灶组织中细胞核所显示的检测参数，包括细胞核的直径、质地、周长、面积、光滑度、紧密度、凹陷度、凹陷点数、对称度、断裂度10个量化特征的平均值、标准差以及最坏值，共30个数据指标；

利用乳腺癌诊断模型进行病理数据预测分析，根据病理数据的自身特性选择合适的预测模型；

基于数据主元分析模块，其数据表达式如下：

对式(1)样本数据矩阵进行主成分分析，根据协方差矩阵X求出其相应的特征值，根据每个特征值对应的累积贡献率所占比例的大小优选出主要特征指标，如下公式所示：

其中，用σ_i和η_a分别表示主元y_i的方差贡献率和前a个主元的累计贡献率，λ表示特征值，m表示取前几个主要特征指标的个数；一般情况下，取前m个累积贡献率大于85％的主成分综合指标个数，从而达到了降低维度的目的，前m个主成分指标能够完全反映原始乳腺癌病理数据的大量信息，这些主成分就是原始信息的线性组合；其表达式如下所示：

公式(3)中，y＝[y₁,y₂,...,y₁₀]表示其中经过主元分析模型处理后的低维医疗病理数据，由原先30维的乳腺癌病理数据指标降维变成了10个毫不相关的主成分指标，这些指标之间是互不重叠的；通过计算将原始数据和相应的系数矩阵做内积，得到降维后的矩阵Y所示：Y_569*10＝X_569*30*a_30*10；

基于人工神经网络评价分析模块:

经过基于数据主元分析模块降维后，将10个主成分的综合指标作为极限学习机模型的输入样本，将输入样本和输入权重的内积再加上阈值通过非线性的激活函数模型来映射，得到一个隐含层的输出响应，将当前隐含层的输出响应作为输出层的输入样本与权重进行内积，得到最终的分类函数模型；为了获得一个ELM网络的最佳模型，ELM在输出过程中不但要考虑到连接隐含层与输出层之间的权值最小化，而且还要保证网络模型的实际输出值和目标输出值之间的误差达到最小，即保证模型的输出权重最小化及输出误差最小化，当两个最小化参数其中一个没有达到最小化的标准，那么所得到的模型可能会产生过拟合状态及其他不良状态；因此，要保证模型中这两个最小化参数之间的比例，使他们达到一定的动态平衡，一个良好的ELM模型输出层分类目标函数为：

P＝1,2,…N表示样本的个数，t_p表示为网络的实际输出值，其中

代表输出层输出的最小权重，即结构风险最小；

代表输出误差最小，即经验风险最小，C表示为正规化系数，类似于支持向量机模型中的惩罚系数，因为结构风险和经验风险这两个指标之间是相互矛盾的，用正规化系数C来调节这两个指标之间的比例关系；该模型中输出层中的实际输出向量和目标向量之间存在着一定误差，该训练误差用||ξ_p||来表示；

通过ELM训练模型所得出的线性系统输出值的解与如下对偶问题是等价的，如下所示这是根据卡罗需-库恩-塔克(Karush-Khu-Tucker)的理论公式所得；

其中α_p为非负数，称之为拉格朗日乘子；我们根据Karush-Khu-Tucker的相应优化限制条件进行求解结果如下：

其中H＝[h^T(x₁),…,h^T(x_N)]^T就是隐含层输出的映射矩阵，实际上矩阵H与输出层中所含的节点的个数没有关系，但是与输入层和隐含层的样本的节点个数关系密切；将公式(7)和(8)代入到公式(9)，可得

将(10)中的公式进行合并整理：

令

将其公式合并如下：

将公式(11)代入到公式(9)中，可以得到输出权重β：

最后可以得出ELM的非线性逼近函数：

在ELM模型中，H是隐含层输出矩阵，从上面公式推到中可以发现H是有激活函数做成的输出矩阵，由于ELM模型中权重和阈值的值在训练前是随机产生的，这样就导致H矩阵中的值是不确定的，因此每次进行ELM建模时，输出层输出的权重值也是不确定的，导致整个模型的泛化能力差、随机波动性大；为了进一步加强该模型的稳定性、泛化能力以及抗鲁棒性，黄广斌教授等人将ELM模型和支持向量机模型(SVM)的原理进行对比，根据Mercer’s的条件寻找一个满足需求的核函数模型，并提议将核函数应用到ELM中，其核矩阵的公式如下所示，从而提出了一种新型的人工神经网络—核极限学习机模型，简称KELM；

Ω＝HH^T:Ω_i,j＝h(x_i).h(x_j)＝K(x_i,x_j) (14)

其中，Ω是一个N*N的对称矩阵，K(x_i,x_j)为核函数；从公式(14)中存在着HH^T矩阵，对该矩阵进行详细推算并发现存在着矩阵的内积形式，就将上面的核函数来替换其内积形式，其公式如下，这样不仅使计算复杂度降低了，而且我们只需知道核函数的形式就可以求出其输出函数，无需知道隐含层中的映射函数h(x_i)的具体形式；

如上面公式(15)所示，可以将函数h(x)的内积由核函数的隐式隐射来代替，即将HH^T用满足Merce条件的核函数来替换，具体形式如下：

其中，

Ω_ELM是一个N*N的对称矩阵，由此可得到KELM模型求解的输出过程为：

基于上面公式中核函数我们可以有很多种选择，经过多次实验测试显示，本次实验选择径向基函数作为核函数，该函数具有泛化能力好，平滑性强等优势；

综上所述，将核函数模型的优势与ELM模型相结合，用核矩阵Ω_KELM代替ELM模型中的随机矩阵HH^T，充分利用核函数的作用，将其低维输入的样本数据映射到高维的隐含层特征空间中，保证其能够准确、有效地进行分类；基于公式(18)KELM模型逼近函数的最终输出中可以发现只要正规化系数C确定，该函数中核函数K(x_i,x_j)的具体形式以及具体参数已知，与此同时，核函数对称矩阵Ω_KELM的映射值是不可变值，最后输出层输出的权重最终是一个稳定的确定值；与之前的ELM输出模型相对比，KELM在重复构建模型时，所得的

的值为确定值；也避免了ELM模型中隐含层中的权值和阈值的随机设置造成模型的波动性大、不稳定的重大问题，大大增加了KELM模型的稳定性和泛化能力；

针对公式(18)中的正规化系数C，调节结构风险最小和经验风险最小的比例值，C值的波动大小都会给结构风险和经验风险的带来一定的波动；g是核函数的一个核宽参数，主要是用来控制径向基函数的径向作用范围，反映了函数的非线性映射本质；核宽g的取值的不同，会得到不同的核函数；所以参数C和g对KELM模型的性能影响挺大的；

基于粒子群优化参数分析模块：

这里就采用粒子群算法对参数C和g寻找最佳的参数，建立了用粒子群算法优化KELM模型中参数的算法预测模型；具体包括：

粒子的位置和速度生成子模块，在(C，g)的取值空间内随机生成初始化的每个粒子p＝(p₁,p₂,…p_m)的位置x_i(t)＝[C_i(t)g_i(t)]^T和速度V_i(t)＝[△C_i(t)△g_i(t)]^T；

迭代寻优子模块，应用PSO算法对KELM模型进行参数的迭代寻优，最大迭代次数是80次，种群的数量规模是30，在5折交叉验证意义下的平均误差率作为适应度函数，用平均误差率最为适应值来确定当前p_i的个体最极值p_i ^best(t)＝(C_i ^best(t)g_i ^best(t))^T和群体极值g_i ^best(t)＝(C_i ^best(t)g_i ^best(t))^T；

根据下面的公式来更新种群中每个粒子p_i的速度和位置；

v_i(t+1)＝w(t)v_i(t)+c₁r₁(p_i ^best(t)-x_i(t))+c₂r₂(g_i ^best(t)-x_i(t))

(19)

x_i(t+1)＝x_i(t)+v_i(t+1) (20)

其中c₁和c₂为学习因子，r₁和r₂为均匀分布在(0,1)之间的随机数字；

判断子模块，判断是否达到最大的迭代次数或者适应度函数值小于终止误差，如果满足，就停止迭代得到最优的解，最佳的正规化系数C＝131.5269，核函数宽度是g＝1.5855，将所得到的最佳参数C、g对KELM模型进行学习和分类预测，找出最小的分类误差率，优化过程结束；如果没有满足条件则优化过程继续，转到迭代寻优子模块中继续进行迭代；将得到的最优参数通过KELM模型进行训练，最后输出对乳腺癌疾病进行诊断、分析的结果；

本发明的有益效果在于：(1)本发明模型结构简单，容易实现，能够对复杂的病理数据进行有效地处理，提高算法的运算速度；(2)本发明是一种关于极限学习机对病理数据进行训练，通过粒子群优化算法找到最佳的参数，能够有效地对医疗病理数据进行分类，分类准确率高，该系统具有很要的稳定性、鲁棒性以及高准确率；

附图说明

图1是本发明的极限学习机的基本框图

图2是本发明的核极限学习机的框图

图3是本发明的基于PSO优化KELM参数流程图；

图4是本发明的基于乳腺癌分类的流程图；

图5是本发明的基于PCA和PSO-KELM模型的整体实验流程图；

图6是本发明的系统结构示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述；

基于PCA和PSO-KELM模型的乳腺癌诊断系统，用于对乳腺癌疾病的病理指标进行分析，应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标，建立样本数据库，对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施；其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后，提取高维的乳腺癌病理数据中占主导作用的低维综合指标，把低维综合指标作为该模型的输入向量进行试验，利用粒子群方法对模型中的参数进行优化，最后得到稳定的系统参数，加快该模型的收敛速度及分类的准确率；采用计算机程序语言编写的乳腺癌诊断模型包括基于数据主元分析模块、基于人工神经网络评价分析模块、基于粒子群优化参数分析模块；

基于数据主元分析模块，其数据表达式如下：

基于人工神经网络评价分析模块:

代表输出层输出的最小权重，即结构风险最小；

将(10)中的公式进行合并整理：

令

将其公式合并如下：

将公式(11)代入到公式(9)中，可以得到输出权重β：

最后可以得出ELM的非线性逼近函数：

Ω＝HH^T:Ω_i,j＝h(x_i).h(x_j)＝K(x_i,x_j) (14)

其中，

基于粒子群优化参数分析模块：

根据下面的公式来更新种群中每个粒子p_i的速度和位置；

(20)

x_i(t+1)＝x_i(t)+v_i(t+1) (21)

图1是新型极限学习机模型的基本框架图，由输入层、输出层、隐含层组成的单向前馈神经网络，其中G(.)为激活函数，激活函数的种类有很多，可以根据模型的需求来选择不同的函数，K为隐含层的节点个数，β＝[β₁,β₂,…,β_k]为连接隐含层和输出层之间的输出权重，b_j为隐含层的阈值；图2是在ELM模型的基础上引入了核函数的核极限学习机模型，通过该模型可以使高维线性不可分的病理数据在核函数的隐性映射下变成低维线性可分，减少了计算的复杂度；在KELM模型中，隐含层的节点个数可以直接确定，不需要通过经验凑试法对隐含层的个数进行设置，只要知道核函数的具体形式和相关参数，可以有效地获得一个良好的且预测准确率高的模型,其各个模块功能描述如下:

1)从医疗数据库中先获取原始的医疗病理数据，病理数据的病理指标比较多，其指标之间存在不同的量纲，为了能够使这些多指标的病理数据的量纲统一到一定的范围内，对病理数据进行了标准化处理，公式如下：

其中μ是代表数据样本的均值，σ代表数据样本的标准差；

2)进行标准化模块处理后的数据被映射在统一的范围内，将数据进行主元分析模型处理，在标准化处理之前，首先求出矩阵数据的协方差矩阵，接着利用协方差矩阵求出其相应的特征值，然后根据特征值计算累积贡献率，一般选取累积贡献率所占的比例达到85％以上作为主成分指标；

3)通过主元分析模型降维处理的综合指标作为核极限学习机的输入变量，然后采用粒子群算法搜索核极限学习机中的最佳参数；参照图3，粒子群优化算法是研究学者Eberhart和Kennedy受到鸟群、鱼群寻觅食物的行为启发而提出的一个群体智能的算法；在粒子群中每个粒子都根据适应度值、位置以及速度这三个指标来表示该粒子的行为特征；在开始寻找最佳值之前，首要确定好适应度函数，这个函数的作用是确定适应度函数；接着对每个粒子p＝(p₁,p₂,…p_m)的位置x_i(t)＝[C_i(t)g_i(t)]^T和速度V_i(t)＝[△C_i(t)△g_i(t)]^T进行初始化；然后通过5折交叉验证意义下的平均误差率适应度函数求出其相应的平均误差率，根据下面的公式来更新种群中每个粒子p_i的速度和位置；

v_i(t+1)＝w(t)v_i(t)+c₁r₁(p_i ^best(t)-x_i(t))+c₂r₂(g_i ^best(t)-x_i(t)) (23)

x_i(t+1)＝x_i(t)+v_i(t+1) (24)

其中初始加速因子c1＝1.5，c2＝1.7，最大迭代次数是80次，种群的数量规模是30，使用5折交叉验证法，最后根据迭代的次数是否达到最大次数或者其或者适应度函数值小于终止误差的其中之一的条件，如果满足，就停止迭代得到最优的解，最佳的正规化系数C＝131.5269，核函数宽度是g＝1.5855，将所得到的最佳参数C、g对核极限学习机模型进行学习和分类预测，如图4所示；如果不满足就继续初始化粒子群，对其进行相应的速度和位置的更新，计算适应度函数以及满足条件的判断。

图5是基于该实验的整个过程的流程图；将通过上述Z-Score标准法、PCA方法以及PSO-KELM模型对乳腺癌的病例数据进行准确率的分析。

表1是基于PCA和PSO-KELM模型与其他传统的神经网络对乳腺癌的分类准确率进行对比；从表格中可以看出，使用PCA和PSO-KELM模型对于乳腺癌疾病诊断的准确率远远高于其他神经网络。

表1

Claims

1.基于PCA和PSO-KELM模型的乳腺癌诊断系统，其特征在于：对乳腺癌疾病的病理指标进行分析，应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标，建立样本数据库，对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施；其中乳腺癌诊断模型是对良性患者、恶性患者的病理数据进行预处理之后，提取高维的乳腺癌病理数据中占主导作用的低维综合指标，把低维综合指标作为该模型的输入向量进行试验，利用粒子群方法对乳腺癌诊断模型中的参数进行优化，最后得到稳定的系统参数，加快该乳腺癌诊断模型的收敛速度及分类的准确率；采用计算机程序语言编写的乳腺癌诊断模型包括基于数据主元分析模块、基于人工神经网络评价分析模块、基于粒子群优化参数分析模块；

基于数据主元分析模块，其数据表达式如下：

其中，用σ_i和η_a分别表示主元的方差贡献率和前a个主元的累计贡献率，λ表示特征值，m表示取前几个主要特征指标的个数；一般情况下，取前m个累积贡献率大于85％的主成分综合指标个数，从而达到了降低维度的目的，前m个主成分指标能够完全反映原始乳腺癌病理数据的大量信息，这些主成分就是原始信息的线性组合；其表达式如下所示：

公式(3)中，y＝[y₁,y₂,...,y₁₀]表示经过主元分析模型处理后的低维医疗病理数据，由原先30维的乳腺癌病理数据指标降维变成了10个毫不相关的主成分指标，这些指标之间是互不重叠的；通过计算将原始数据和相应的系数矩阵做内积，得到降维后的矩阵Y所示：Y_569*10＝X_569*30*a_30*10；

基于人工神经网络评价分析模块:

Subject to:h(x_p)β＝t_p ^T-ξ_p ^T (5)

代表输出层输出的最小权重，即结构风险最小；

代表输出误差最小，即经验风险最小，C表示为正规化系数，因为结构风险和经验风险这两个指标之间是相互矛盾的，用正规化系数C来调节这两个指标之间的比例关系；该模型中输出层中的实际输出向量和目标向量之间存在着一定误差，训练误差用||ξ_p||来表示；

其中α_p为非负数，称之为拉格朗日乘子；根据Karush-Khu-Tucker的相应优化限制条件进行求解结果如下：

将(10)中的公式进行合并整理：

令

将(10)中的公式合并如下：

将公式(11)带入到公式(9)中，可以得到输出权重β：

最后可以得出ELM的非线性逼近函数：

在ELM模型中，H是隐含层输出矩阵，从公式(13)推导并发现H是由激活函数组成的输出矩阵，由于ELM模型中权重和阈值的值在训练前是随机产生的，这样就导致H矩阵中的值是不确定的，因此每次进行ELM建模时，输出层输出的权重值也是不确定的，导致整个模型的泛化能力差、随机波动性大；为了进一步加强该模型的稳定性、泛化能力以及抗鲁棒性，将ELM模型和支持向量机模型(SVM)的原理进行对比，根据Mercer’s的条件寻找一个满足需求的核函数模型，并提议将核函数应用到ELM中，其核矩阵的公式如下所示，从而提出了一种新型的人工神经网络—核极限学习机模型，简称KELM；

Ω＝HH^T:Ω_i,j＝h(x_i).h(x_j)＝K(x_i,x_j) (14)

其中，Ω是一个N*N的对称矩阵，K(x_i,x_j)为核函数；从公式(14)中的HH^T矩阵，对该矩阵进行详细推算并发现存在着矩阵的内积形式，就将上面的核函数来替换其内积形式，其公式如下，这样不仅使计算复杂度降低了，而且只需知道核函数的形式就可以求出其输出函数，无需知道隐含层中的映射函数h(x_i)的具体形式；

其中，

基于上面公式中核函数可以有很多种选择，经过多次实验测试显示，本次实验选择径向基函数作为核函数，该函数具有泛化能力好，平滑性强等优势；

综上所述，将核函数模型的优势与ELM模型相结合，用核矩阵Ω_KELM代替ELM模型中的随机矩阵HH^T，利用核函数，将其低维输入的样本数据映射到高维的隐含层特征空间中，保证其能够准确、有效地进行分类；基于公式(18)KELM模型逼近函数的最终输出中可以发现只要正规化系数C确定，该函数中核函数K(x_i,x_j)的具体形式以及具体参数已知，与此同时，核函数对称矩阵Ω_KELM的映射值是不可变值，最后输出层输出的权重最终是一个稳定的确定值；与之前的ELM输出模型相对比，KELM在重复构建模型时，所得的

基于粒子群优化参数分析模块：

根据下面的公式来更新种群中每个粒子p_i的速度和位置；

v_i(t+1)＝w(t)v_i(t)+c₁r₁(p_i ^best(t)-x_i(t))+c₂r₂(g_i ^best(t)-x_i(t)) (19)

x_i(t+1)＝x_i(t)+v_i(t+1) (20)

判断子模块，判断是否达到最大的迭代次数或者适应度函数值小于终止误差，如果满足，就停止迭代得到最优的解，最佳的正规化系数C＝131.5269，核函数宽度是g＝1.5855，将所得到的最佳参数C、g对KELM模型进行学习和分类预测，找出最小的分类误差率，优化过程结束；如果没有满足条件则优化过程继续，转到迭代寻优子模块继续进行迭代；将得到的最优参数通过KELM模型进行训练，最后输出对乳腺癌疾病诊断、分析的结果。