CN109102884A

CN109102884A - 基于混合核函数支持向量机模型的帕金森疾病诊断方法

Info

Publication number: CN109102884A
Application number: CN201810795722.9A
Authority: CN
Inventors: 季薇; 张锦博
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2018-12-28

Abstract

本发明揭示了一种基于混合核函数支持向量机模型的帕金森疾病诊断方法，首先是对帕金森患者和健康人进行语音信号的采集；其次是对语音信号进行特征提取；之后是构造支持向量机模型的混合核函数；然后是利用智能优化算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型；最后是利用最优支持向量机模型对待测语音进行分类预测，实现帕金森疾病的诊断。本发明为帕金森症诊断提供了新的思路，降低了医疗成本，提高了诊断效率，另外本发明提高了帕金森疾病诊断的准确率。

Description

基于混合核函数支持向量机模型的帕金森疾病诊断方法

技术领域

本发明涉及一种帕金森疾病诊断方法，尤其涉及一种基于混合核函数支持向量机模型的帕金森疾病诊断方法，属于模式识别技术领域。

背景技术

帕金森病是一种常见的慢性神经系统疾病，在神经退行性疾病变中发病率非常高。患有帕金森症会损害运动、语言和其他功能，如情绪、行为、思维和感觉。帕金森病是对运动系统产生影响的中枢神经系统长期慢性疾病，一般随着时间的流逝，慢慢显现出来。在生病的初期，最明显的是颤抖、刚性、运动的延迟和步行困难，而后思考和行动问题也会发生。

研究表明，由于帕金森患者缺乏控制身体运动的物质——多巴胺，所以引起包括发音运动障碍在内的一些身体运动障碍。90％的帕金森患者伴随着不同程度的声带受损，表现为在音量级别、语音发音难度等方面出现语音障碍，如气较粗糙、声音嘶哑、响度降低、气息声增多以及较大的声音震颤等，这些异于健康人的语音障碍可以通过提取患者语音信息里的具体特征来衡量。通过这些声带损伤可以用来评估早期的帕金森诊断。使用语音信号的远程监控系统可以实现对帕金森病患者的远程监控，对目标人群进行分类，达到降低医疗成本的目的。

通过语音信号处理算法来对语音信号进行分析，可提取临床有用的特征信息。目前，研究人员已经研究出许多语音特征提取的方法，主要可以分为线性语音特征提取和非线性语音特征提取，常用的用于检查语音障碍的特征有：谐噪比(HNR)、频率微扰(jitter)及规范化噪声程度(NNE)，除此之外还有频率微扰的变种Jitter(Abs)，Jitter(％)，Jitter:RAP，Jitter:DDP，振幅微振(Shimmer)，噪声谐波比(NHR)，趋势波动分析(DFA)，循环周期密度熵(RPDE)和基音周期熵(PPE)，这些都是语音信号分析中重要的特征，可以通过这些特征综合全面的反应了一个人的语音情况。

通过语音信号处理算法得出语音特征后，便可采取机器学习领域相关技术对帕金森疾病进行诊断。对于通常来说机器学习中的训练样本都是线性不可分的，即样本集并不能被一个超平面正确分类。为了解决这个问题，可以通过映射函数将样本从原始空间映射到高维空间，从而在高维空间变得线性可分。

如果把低维样本直接映射为高维的话，维度的数目会呈现爆炸性增长，甚至可能多至无穷维，所以直接计算非常困难。为了防止出现这个问题，在这里引入核函数(kernalfunction)，即在高维样本空间中通过函数计算的结果等于在低维空间中计算的结果，这样就避开了直接在高维空间进行计算。核函数的种类有很多，特性也各不相同，而且核函数的类型决定了支持向量机的很多特性。

在支持向量机的构造过程中，学习机的泛化能力与学习能力是两个相互制衡的量。在实际应用中，通常训练样本在高维特征空间会呈现出不均匀分布，采用单一核函数进行非线性变换得到的结果时常会不太理想，因此要兼顾学习机的泛化能力与学习能力，就需要利用不同核函数的不同性质并将不同性质组合得到混合函数支持向量机模型中。

综上所述，如何提供一种基于混合核函数支持向量机模型的帕金森疾病诊断方法，就成为本领域技术人员亟待解决的问题。

发明内容

本发明的目的是为了解决现有技术的上述缺陷，提供一种基于混合核函数支持向量机模型的帕金森疾病诊断方法，该基于混合核函数支持向量机模型可兼顾全局性核函数与局部性核函数，提高在帕金森疾病诊断中的准确率。

本发明的技术解决方案是：

一种基于混合核函数支持向量机模型的帕金森疾病诊断方法，包括如下步骤：

S1：对帕金森患者和健康人进行语音信号的采集；

S2：对语音信号进行特征提取；

S3：构造支持向量机模型的混合核函数；

S4：利用智能优化算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型；

S5：利用步骤S4中的最优支持向量机模型对待测语音进行分类预测，实现帕金森疾病的诊断。

优选地，所述步骤S2中对语音信号进行特征提取是利用语音信号处理算法提取语音特征。

优选地，所述步骤S2中的特征包括平均基频F0_ave、最小基频F0_min、最大基频F0_max、五个衡量基频变化的特征Jitter、Jitter(Abs)、RAP、PPQ、DDP，六个衡量振幅变化的特征Shimmer、Shimmer(dB)、APQ3、APQ5、APQ、DDA，噪声谐波比NHR、谐波噪声比HNR、循环周期密度熵RPDE、相关度D2、趋势波动分析DFA、以及三个非线性的基频变化特征spread1、spread2、PPE。

优选地，所述步骤S3中的混合核函数包括全局性核函数与局部性核函数；

构造支持向量机模型的混合核函数包括如下步骤：

S31：构造高斯径向基核函数，高斯径向基核函数的表达式为：

令则上式简化为：K(x_i,x_j)＝exp(-g||x_i-x_j||²)；

S32：构造Sigmoid核函数，Sigmoid核函数的表达式为：

S33：构造混合核函数，其混合核函数的表达式为：

其中，t是权值，代表的是所对应核函数在混合核函数种所占的权重，K_i(x_i,x_j),i＝1,2,....,m是m个不同的核函数；

S34：以步骤S31中的高斯径向基核函数及步骤S32中的Sigmoid核函数，构造混合核函数支持向量机模型，混合核函数的表达式为：

其中，t，1-t分别为高斯核函数和Sigmoid核函数在混合核函数中所占的权值，β的值为N是输入数据的维度，h的取值范围为-3～0之间。

优选地，所述步骤S4中的智能优化算法包括遗传算法、粒子群算法或萤火虫算法。

优选地，采用所述遗传算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的过程包括如下步骤：

步骤A：种群的初始化和个体编码：设定权重系数t、Sigmoid参数h、核函数参数g、惩罚因子C的取值范围，然后随机初始化一定数量的种群，并采用二进制将种群中的个体进行编码，染色体的编码信息代表的是权重系数t、Sigmoid参数h、核函数参数g、惩罚因子C的一个组合；

步骤B：个体适应度的计算：以支持向量机分类器的分类交叉验证准确度作为个体的适应度；

步骤C：进行选择、交叉、变异操作：在遗传算法中，根据适者生存的思想，对环境适应度高低决定了个体参与选择操作概率的大小，然后按照概率P_c随机的选择父辈染色体进行交叉操作；最后对交叉过的种群按概率P_m进行变异操作，使得染色体的某个基因片段或者基因点发生突变；

步骤D：不断更新：在不断更新的每代种群中记录适应度值最好的个体，将这个适应度值记为F_best，把与F_best对应的t、h、C和g记为t_best、h_best、C_best和g_best；

步骤E：终止条件判断：当迭代次数达到最大次数时，达到终止条件，并把最后的C_best、g_best、t_best和h_best作为最好的参数组合。

优选地，采用所述粒子群算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的过程包括如下步骤：

步骤a:粒子种群的初始化：设定权重系数t、Sigmoid参数h、核函数参数g、惩罚因子C的取值范围，并设置最大的速度区间；初始化每一个粒子的速度和位置信息，粒子的位置信息代表的就是权重系数t、Sigmoid参数h、核函数参数g、惩罚因子C的一个组合；

步骤b：每个粒子适应度的计算：以支持向量机分类器的分类交叉验证准确度作为每个粒子的适应度；

步骤c：更新最优解：用粒子当前位置适应度的值a分别与自身最优位置适应度值p_best、全体最优位置适应度值g_best比较，如果a的值大于p_best或者g_best，则将p_best或g_best的值更新为a；

步骤d：终止条件判断：当达到终止条件时，把种群中的最优位置作为优化问题的最优解，最优位置为惩罚参数和核函数参数的一个组合。

优选地，所述步骤d中的终止条件包括迭代次数达到最大次数、及相邻两代之间的偏差在一个规定范围内。

优选地，采用所述萤火虫算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的过程包括如下步骤：

步骤Ⅰ：萤火虫群体的初始化：设定权重系数t、Sigmoid参数h、核函数参数g、惩罚因子C的取值范围；初始化每一个萤火虫的位置，萤火虫的位置信息代表是权重系数t、Sigmoid参数h、核函数参数g、惩罚因子C的一个组合；

步骤Ⅱ：萤火虫初始亮度的计算：以支持向量机分类器的分类交叉验证准确度作为每个粒子的绝对亮度I₀；

步骤Ⅲ：萤火虫位置的更新：在解空间中，发光亮度低的萤火虫会被处于决策域且发光亮度高的萤火虫所吸引，则发光亮度低的萤火虫会改变自己的位置向比自己发光亮的萤火虫靠近。

步骤Ⅳ：更新萤火虫的亮度：随着萤火虫整个群体完成一次位置的改变，即完成一次迭代，就更新一次萤火虫在新位置上的亮度；

步骤Ⅴ：终止条件判断：把迭代次数达到最大次数作为终止条件，当达到终止条件时，把种群中的发光亮度最大位置S_best作为优化问题的最优解，此时的最优位置就是惩罚参数和核函数参数的一个组合。

本发明提供了一种基于混合核函数支持向量机模型的帕金森疾病诊断方法，其优点主要体现在以下几个方面：

(1)本发明适用于远程医疗，患者可以自行采集语音数据，通过对语音信号进行处理，从中提取到临床需要的语音特征，然后运用机器学习的方法对帕金森症进行诊断，为帕金森症诊断提供了新的思路，降低了医疗成本，提高了诊断效率。

(2)本发明运用了支持向量机模型在小样本中的优良性能，运用了基于混合核函数的支持向量机，然后为了进一步釆用了智能算法对支持向量机模型建立过程中的一些参数(权重系数t、Sigmoid参数h、核函数参数g、惩罚因子C)进行了优化，因此可以获得在一定意义下的训练集最优的支持向量机模型，该最优模型对于测试集的分类预测准确率要比缺省模式下的支持向量机模型的分类准确率高，从而提高了帕金森症的准确率。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的流程示意图。

具体实施方式

S1：对帕金森患者和健康人进行语音信号的采集；

S2：对语音信号进行特征提取；其中，对语音信号进行特征提取是利用语音信号处理算法提取语音特征；

另外，提取的特征包括平均基频F0_ave、最小基频F0_min、最大基频F0_max、五个衡量基频变化的特征Jitter、Jitter(Abs)、RAP、PPQ、DDP，六个衡量振幅变化的特征Shimmer、Shimmer(dB)、APQ3、APQ5、APQ、DDA，噪声谐波比NHR、谐波噪声比HNR、循环周期密度熵RPDE、相关度D2、趋势波动分析DFA、以及三个非线性的基频变化特征spread1、spread2、PPE。

S3：构造支持向量机(Support Vector Machines,SVM)模型的混合核函数；该混合核函数包括全局性核函数与局部性核函数；

进一步地，构造支持向量机模型的混合核函数包括如下步骤：

令则上式简化为：K(x_i,x_j)＝exp(-g||x_i-x_j||²)；

S32：构造Sigmoid核函数，Sigmoid核函数的表达式为：

S33：构造混合核函数，其混合核函数的表达式为：

步骤S4中的智能优化算法包括遗传算法、粒子群算法或萤火虫算法，以下分别介绍采用遗传算法、粒子群算法和萤火虫算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的步骤。

采用所述遗传算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的过程包括如下步骤：

采用所述粒子群算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的过程包括如下步骤：

步骤d：终止条件判断：当达到终止条件时，把种群中的最优位置作为优化问题的最优解，最优位置为惩罚参数和核函数参数的一个组合。其中终止条件包括迭代次数达到最大次数、及相邻两代之间的偏差在一个规定范围内，在本实施例中，把迭代次数达到最大次数作为终止条件。

采用所述萤火虫算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的过程包括如下步骤：

以下用具体实施例说明基于混合核函数支持向量机模型的帕金森疾病诊断方法。

S1：对帕金森患者和健康人进行语音信号的采集；

在本实施例中采用牛津大学Little等人收集的帕金森数据集作为数据集来源，数据集中包含了健康人群和患病人群共195人的22个语音特征，语音特征包括：NHR，NHR，RPDE，DFA，Jitter:DDP等。在数据集中用标签0和1将患病人群和健康人群标注出来，方便研究者使用。

S2：对语音信号进行特征提取；

根据数据集中的属性，对数据集中的数据进行归一化处理，得到无量纲的数据，以便于最后的数据分析。将特征选择过后的数据集分为训练集和测试集。选择70％的样本作为训练样本，用来对支持向量机进行训练得到分类模型，剩下30％的样本作为测试样本，用来对得到的模型进行测试。

S3：构造支持向量机模型的混合核函数；该混合核函数包括全局性核函数与局部性核函数；

令则上式简化为：K(x_i,x_j)＝exp(-g||x_i-x_j||²)；

S32：构造Sigmoid核函数，Sigmoid核函数的表达式为：

S33：构造混合核函数，其混合核函数的表达式为：

S4：根据步骤S2得到的训练集利用利用智能优化算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h和比例参数t，根据优化的结果建立最优支持向量机模型。

在进行支持向量机训练之前，先对训练集数据进行归一化处理，将所有的数据映射到[-1,1]内，然后再用相同的映射方法处理测试集数据。归一化算法的作用是：在机器学习领域中，不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。其中，最典型的就是数据的归一化处理。

在大多数情况下，样本集并不能被一个超平面正确分类。为了解决这个问题，可以通过映射函数将样本从原始空间映射到高维空间，从而在高维空间变得线性可分。本实验中选用了基于高斯核函数和Sigmoid核函数的混合核函数。SVM的决策函数为：

遗传算法参数设置为：种群数量设为20；进化代数设为100；个体长度设为80(20*4)；交叉验证参数设为5；变异概率设为0.01；根据经验，惩罚参数C的取值范围设为(0，100)；高斯核函数参数g的取值范围设为(0，100)；Sigmoid核函数参数h的取值范围设为(-3，0)，根据经验可得核函数β取值为0.05。当满足终止条件时，优化结束，得到最优惩罚参数C_best、高斯核函数参数g_best、Sigmoid核函数参数h_best，权值参数t_best。利用遗传优化算法得到最佳的参数组合为(惩罚因子C＝18.0933，高斯核函数参数g＝3.8834，Sigmoid核函数参数h＝-2.01，权重系数t＝0.23)，对应的交叉验证准确率为95.6204％。

粒子群算法参数设置：种群数量设为20；进化代数设为100；加速因子c₁设为1.5，加速因子c₂设为1.7；惯性权重设为1；交叉验证参数设为5；根据经验，惩罚参数C的取值范围设为(0，100)；高斯核函数参数g的取值范围设为(0，100)；Sigmoid核函数参数h的取值范围设为(-3，0)，根据经验可得核函数β取值为0.05。当满足终止条件时，优化结束，得到最优惩罚参数C_best、高斯核函数参数g_best、Sigmoid核函数参数h_best，权值参数t_best。利用遗传优化算法得到最佳的参数组合为(惩罚参数C＝7.92，高斯核函数参数g＝6.0062，Sigmoid核函数参数h＝-1.34，权值系数t＝0.49)，对应的交叉验证准确率为94.8905％。

萤火虫算法参数设置：种群数量设为20；进化代数设为100；最大吸引力β₀设为1，光吸收参数γ设为1，步长因子α设为0.25；交叉验证参数设为5；根据经验，惩罚参数C的取值范围设为(0，100)；高斯核函数参数g的取值范围设为(0，100)；Sigmoid核函数参数h的取值范围设为(-3，0)，根据经验可得核函数β取值为0.05。当满足终止条件时，优化结束，得到最优惩罚参数C_best、高斯核函数参数g_best、Sigmoid核函数参数h_best，权值参数t_best。利用遗传优化算法得到最佳的参数组合为(惩罚参数C＝7.92，高斯核函数参数g＝6.0062，Sigmoid核函数参数h＝-1.34，权值系数t＝0.49)，对应的交叉验证准确率为94.1606％。

S5：利用步骤S4中的最优支持向量机模型对待测语音进行分类预测，实现帕金森疾病的诊断。如果判断结果和测试目标相一致，则说明样本得到了正确归类，否则为错误归类。使用遗传算法优化后得到的SVM测试准确率为94.8276％，使用粒子群算法优化后得到的SVM测试准确95.1024％，使用萤火虫算法优化后得到的SVM测试准确度为97.2103％

综上所述，本发明提出的基于混合核函数支持向量机模型的帕金森疾病诊断方法，首先对语音信号对进行特征提取，然后结合机器学习中的分类算法对帕金森疾病进行诊断，并采用智能算法优化支持向量机参数，提高在帕金森疾病诊断中的准确率，从而解决了传统的帕金森疾病诊断方法效率低、成本高以及过程复杂的问题。

应该注意的是，上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

Claims

1.一种基于混合核函数支持向量机模型的帕金森疾病诊断方法，其特征在于，包括如下步骤：

S1：对帕金森患者和健康人进行语音信号的采集；

S2：对语音信号进行特征提取；

S3：构造支持向量机模型的混合核函数；

2.根据权利要求1所述的基于混合核函数支持向量机模型的帕金森疾病诊断方法，其特征在于：所述步骤S2中对语音信号进行特征提取是利用语音信号处理算法提取语音特征。

3.根据权利要求2所述的基于混合核函数支持向量机模型的帕金森疾病诊断方法，其特征在于：所述步骤S2中的特征包括平均基频F0_ave、最小基频F0_min、最大基频F0_max、五个衡量基频变化的特征Jitter、Jitter(Abs)、RAP、PPQ、DDP，六个衡量振幅变化的特征Shimmer、Shimmer(dB)、APQ3、APQ5、APQ、DDA，噪声谐波比NHR、谐波噪声比HNR、循环周期密度熵RPDE、相关度D2、趋势波动分析DFA、以及三个非线性的基频变化特征spread1、spread2、PPE。

4.根据权利要求1所述的基于混合核函数支持向量机模型的帕金森疾病诊断方法，其特征在于：所述步骤S3中的混合核函数包括全局性核函数与局部性核函数；

构造支持向量机模型的混合核函数包括如下步骤：

令则上式简化为：K(x_i,x_j)＝exp(-g||x_i-x_j||²)；

S32：构造Sigmoid核函数，Sigmoid核函数的表达式为：

S33：构造混合核函数，其混合核函数的表达式为：

5.根据权利要求1所述的基于混合核函数支持向量机模型的帕金森疾病诊断方法，其特征在于：所述步骤S4中的智能优化算法包括遗传算法、粒子群算法或萤火虫算法。

6.根据权利要求5所述的基于混合核函数支持向量机模型的帕金森疾病诊断方法，其特征在于：采用所述遗传算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的过程包括如下步骤：

7.根据权利要求5所述的基于混合核函数支持向量机模型的帕金森疾病诊断方法，其特征在于：采用所述粒子群算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的过程包括如下步骤：

8.根据权利要求7所述的基于混合核函数支持向量机模型的帕金森疾病诊断方法，其特征在于：所述步骤d中的终止条件包括迭代次数达到最大次数、及相邻两代之间的偏差在一个规定范围内。

9.根据权利要求5所述的基于混合核函数支持向量机模型的帕金森疾病诊断方法，其特征在于：采用所述萤火虫算法优化支持向量机模型建立过程中的惩罚参数C、混合核函数中高斯核函数参数g、Sigmoid核函数参数h及比例参数t，并根据优化的结果建立最优支持向量机模型的过程包括如下步骤：