CN111210846A

CN111210846A - 基于集成流形降维的帕金森语音识别系统

Info

Publication number: CN111210846A
Application number: CN202010012728.1A
Authority: CN
Inventors: 李勇明; 刘玉川; 王品; 谭晓衡; 颜芳; 李新科; 黄智勇
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-05-29
Anticipated expiration: 2040-01-07
Also published as: CN111210846B

Abstract

本发明公开一种基于集成流形降维的帕金森语音识别系统，包括：数据采集器：用于采集和存储训练数据、验证数据和测试数据，上述数据均为帕金森语音数据，且训练数据和验证数据中包括了代表帕金森病况的标签数据；分类器模块；通过训练数据和验证数据训练所得，并用于对测试数据进行分类识别，确定测试数据的标签类型；输出模块，用于输出最终的识别结果；本发明通过对分类器的训练过程进行改进，引入加权局部判别式保持投影嵌入集成方式，充分考虑了具有较大的类内差异和较小的类间方差的PD语音样本，同时引入AdaBoost方法来构造映射矩阵，提高LPP算法的稳定性，与现有的帕金森语音特征提取算法相比，本系统具有更高的分类精度。

Description

基于集成流形降维的帕金森语音识别系统

技术领域

本发明涉及智慧医疗技术，具体地说，是一种基于集成流形降维的帕金森语音识别系统。

背景技术

帕金森氏病(PD)是仅次于阿尔茨海默氏病的第二大神经退行性疾病，并且患者人数逐年增加。PD给患者带来极大的不便，给患者的家庭和社会带来沉重的经济负担。帕金森氏病尚无永久性治愈方法，因此，PD的早期诊断尤为重要。声音性能下降是PD患者的常见症状，已被广泛用于PD的诊断。但是，现有的帕金森语音数据集具有冗余度高，噪声大和样本少的特点。如何提高PD诊断的准确性已成为相关领域学者或研究人员面临的科学问题。降维(DR)可以有效地处理PD语音数据，提高PD的诊断准确性和模型的泛化能力。

目前，根据所选择的特征子集是否为原始特征空间的子集，用于PD语音数据集的DR方法可以分为特征选择和特征提取。PD语音数据集最早的DR方法主要集中在特征选择上，因为特征选择的特征子集是原始特征空间的子集，具有较高的可解释性，并且不会丢失单个特征与标签之间的重要信息。帕金森氏症诊断常用的特征选择算法是：最小绝对收缩和选择算子(LASSO)、粒子群优化(PSO)、遗传算法(GA)、最小冗余最大相关性(mRMR)、Relief、顺序向后选择(SBS)和顺序向前选择(SFS)等。但是，这些方法由于必须删除一些特征而导致原始数据信息的丢失。

特征提取可以完全解决这个问题，它主要是将高维数据映射到特定的低维空间，并尽可能保留帕金森样本信息。此外，特征提取相对于特征选择的另一个优点是它更适合处理带有噪声的数据集。据我们所知，大多数与医学有关的数据集包含噪音数据。因此，特征提取算法已被学者用于帕金森氏病的诊断。诊断PD语音数据集最具代表性的特征提取方法是PCA和LDA。尽管在帕金森病数据处理中，PCA和LDA取得了良好的结果，但这并不意味着这种方法是高效的。PCA和LDA都是线性特征提取方法——假设从高维空间到低维空间的函数映射是线性的，这与大多数复杂数据具有非线性特点的现状相悖。这导致线性特征提取方法在数据降维的过程中无法很好地探索数据的特征，从而导致PD的诊断准确率提高有限。

非线性特征降维技术可以实现数据从高维特征空间到低维特征空间的映射，并且已经应用于PD的诊断。现有的PD语音数据非线性特征提取算法可以分为两类，第一类称为核映射方法，该方法通过对PD语音样本执行核映射来实现非线性映射，典型的代表性算法是KPCA。但是，核映射方法的缺点是需要根据数据的先验知识为数据找到合适的核函数。在没有先验知识的情况下，很难为数据找到合适的核函数。第二类为神经网络，其用于实现PD语音数据的非线性映射，如深度神经网络。尽管神经网络在PD诊断中取得了良好的性能，但仍然存在一些不足。1)神经网络模型的建立需要大量数据，许多现有的PD语音数据集无法满足这一需求。2)由少量样本数据建立的神经网络模型容易过度拟合，导致模型的泛化性较差。3)此外，神经网络模型的建立是一个非常耗时的过程。

实际上，还有另一种被称为流形学习的非线性特征提取方法，被研究PD语音数据集的学者所忽略。流形学习通过发现嵌入原始高维数据空间中的低维空间实现数据的降维，能够有效地处理现有的PD语音数据集。局部性保留投影(LPP)是流形学习的一种典型代表算法，它在数据降维过程中可以保留数据的邻域结构，并受到了广泛的关注。LPP算法的缺点是：1)对相邻样本数量的敏感性；2)映射高维小样本数据时缺乏稳定性。众所周知，小样本数据集的划分具有很大的高度随机性。当训练数据和测试数据之间的数据分布存在差异时，分类器的预测的会变得很低。虽然有学者提出了一些算法来克服LPP的这些缺点，但现有的改进的LPP方法仍然忽略了一些问题：1)大多数基于LPP的改进算法专注于增加数据集的类间方差，而忽略PD数据集具有类内大方差的情况。2)当算法映射高维数据时，缺乏稳定性。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于集成流形降维的帕金森语音识别系统，通过对系统中分类器的训练过程进行改进，将改进的LPP算法应用于PD语音诊断，通过改进目标函数，优先考虑PD数据的类内方差，从而更好地处理类内差异较大的数据集，提高识别系统的稳定性。

为达到上述目的，本发明所采用的具体技术方案如下：

一种基于集成流形降维的帕金森语音识别系统，其关键在于包括：

数据采集器：用于采集和存储训练数据、验证数据和测试数据，所述训练数据、验证数据和测试数据均为帕金森语音数据，且训练数据和验证数据中包括了代表帕金森病况的标签数据；

分类器模块；通过所述训练数据和验证数据训练所得，并用于对所述测试数据进行分类识别，确定所述测试数据的标签类型；

输出模块，用于输出最终的识别结果；

所述分类器模块在训练时，先从所述训练数据中随机抽取E个子数据集X₁～X_E，利用流形学习降维算法对第一个训练子集X₁进行映射，得到映射矩阵P₁，利用经过映射矩阵P₁映射后的训练子集X₁训练一个分类器，并使用所述验证数据对该分类器进行测试，得到其分类误差率为e₁，并将其错分的验证样本添加到训练子集X₂中，然后继续对训练子集X₂进行处理，并将其错分的验证样本添加到训练子集X₃中，直到训练子集X_E，错分的验证样本将不再被处理，从而得到E个分类器，每一个分类器对验证数据的分类误差e₁～e_E以及对应于每一个训练子集的映射矩阵P₁～P_E，然后，根据AdaBoost方法原理，计算出每一个分类器的权重α₁～α_E，基于映射矩阵P₁～P_E和每一个分类器的权重α₁～α_E得到加权映射矩阵P；最后使用经过加权映射矩阵P映射后的训练数据训练最终分类器，并使用经过加权映射矩阵P映射后的测试数据进行测试，将最终分类器的测试结果由所述输出模块输出。

可选地，所述流形学习方法通过构建映射矩阵P_i,i＝1～E使其在优先最小化局部类内散度矩阵的情况下，同时保留样本的局部性和最大化类间散射矩阵来降低各个子数据集X₁～X_E的维度。

可选地，设训练数据矩阵：

X＝[x₁,x₂,...,x_N]^T＝[X₁,X₂,...,X_C]^T∈R^N×D，D代表维度,

是训练数据样本的数量，C是类别数；

y＝[y₁,y₂,…,y_N]^T∈R^N为数据的标签；

通过映射矩阵P＝(p₁,p₂,…,p_k)∈R^D×d将数据从R^N×D高维空间映射到R^N×d低维空间；

则最小化局部类内散度矩阵表示为：

其中，

是局部类内散度矩阵；

是数据矩阵X中的第c类样本的中心，

是数据矩阵X中第c类样本中的第i个样本值，N_c是第c类样本的个数；

则最大化类间散度矩阵表示为：

其中，

表示局部类间散度矩阵；

是训练数据矩阵X的样本中心；

局部判决保持投影属性表示为：

M＝Q-B是拉普拉斯矩阵，

是对角阵，B是亲和力矩阵,计算方式如下任何一种：

简单方式：

热核方式：

式中t是核参数，系统目标方程为：

α_i是权重因子，λ是惩罚因子，通过拉格朗日乘子法确定其解：

α_i(S_BL-XMX^T)^-1S_WLP_i＝λ_iP_i

其中P_i是α_i(S_BL-XMX^T)^-1S_WL的广义特征向量，λ是对应的特征值，α_i是由AdaBoost方法获得的。

可选地，AdaBoost方法获取α_i的过程为

可选地，加权映射矩阵

可选地，所述分类器为支持向量机、随机森林或极限学习机中的任何一种。

可选地，所述训练数据、验证数据和测试数据中的每个样本个体记录了多个语音样本，包括持续元音、数字、单词、短句以及指定文本的发声数据，每个语音样本都包含多个特征。

可选地，所述数据采集器通过麦克风采集说话人声音，并通过语音提取软件模块提取语音特征。

可选地，从所述训练数据中随机抽取E个子数据集时，既对样本抽样，又对特征抽样。

本发明的显著效果是：

由于语音中包含的信息丰富且收集方便，语音已被广泛用于帕金森氏病的临床诊断，但是，语音在获取过程中很容易混入噪声，并且也更容易受到说话者情绪波动的影响。因此，现有语音数据集通常具有噪声大和高混叠(较大的类内方差和较小的类间方差)特性。但是，相关领域的学者或研究人员常常忽略了这些问题。因此，本发明通过对分类器的训练过程进行改进，通过引入加权局部判别式保持投影嵌入集成方式，充分考虑了现有的具有较大的类内差异和较小的类间方差的PD语音样本，同时通过引入AdaBoost方法来构造映射矩阵，从而提高了LPP算法的稳定性，与现有的帕金森语音特征提取算法相比，该算法具有更高的分类精度。

附图说明

图1是本发明的系统流程图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

如图1所示，一种基于集成流形降维的帕金森语音识别系统，包括：

输出模块，用于输出最终的识别结果；

所述分类器模块在训练时，先从所述训练数据中随机抽取E个子数据集X₁～X_E，这里，从所述训练集中随机抽取的子训练集X₁～X_E不仅包含样本抽样，同时还包含了特征抽样，即：同时从所述训练样本进行样本抽样与特征抽样，确保抽样子训练集X₁～X_E样本与特征的多样性。通过提出的流形学习降维算法首先对第一个训练子集X₁进行映射，其映射矩阵为：P₁，使用所述验证集(需要根据该训练子集的特征抽取情况对所述验证集先进行特征抽取，然后再使用映射矩阵P₁对特征抽取后的验证集进行映射)对该训练子集所得到的模型进行测试，得到其分类误差率为e₁，并将其错分的验证样本添加到X₂中(这里，错分的验证样本需要根据X₂的特征抽样情况进行裁剪)。使用提出的流形学习降维算法对X₂进行如X₁所述操作，并将错分的验证集样本添加到X₃中。直到循环到X_E，错分的验证样本将不再被处理。经过以上步骤，可得到E个分类器，每一个分类器对验证集的分类误差e₁～e_E以及对应于每一个训练子集的映射矩阵P₁～P_E。然后，根据AdaBoost方法原理，计算出每一个分类器的权重α_i，基于映射矩阵P₁～P_E和分类器权重α得到加权映射矩阵P；最后使用经过加权映射矩阵P映射后的训练数据训练最终分类器，并使用经过加权映射矩阵P映射后的测试数据进行测试，将最终分类器的测试结果由所述输出模块输出，图中Ztrain＝Xtrain*P，Ztest＝Xtest*P，表示原始训练集和测试集经过P映射后得到的数据。

为了验证本系统的有效性，本实施例使用了2个数据集，它们分别定义为PSDMTSR，Parkinsons的帕金森语音数据集。这两个数据集可在http://archive.ics.uci.edu/ml/ index.php(UCI机器学习存储库)中免费获得，其中：

PSDMTSR：该数据集由Sakar提供，已广泛用于PD语音诊断。它有20名PD患者(6名女性和14名男性)和20名健康个体(10名女性和10名男性)。每个参与者记录了26个语音样本，包括持续元音，数字，单词和短句。每个语音样本都包含26个特征。语音样本是由一组神经科医生从一组口语练习中选择的，这些练习旨在产生更强大的PD语音。录音由Trust MC-1500麦克风录制，频率范围在50Hz和13kHz之间。在录制过程中，麦克风正在以96kHz，30dB的频率工作，并与参与者保持10cm的距离，然后要求参与者阅读指定的文本。

PARKINSONS：该数据集由Litter提供，由来自31位参与者(12位女性和19位男性)，其中23位PD患者(7位女性和16位男性，平均±标准差：67.8±9.7)的195个持续元音发声组成。参与者的年龄为46至85岁(平均±标准差：65.8±9.8)。记录每个参与者平均六到七次发声，时间从1到36秒不等。使用头戴式麦克风(AKG C420)记录录音，并将麦克风放置在距参与者8厘米远的地方。使用CSL4300B硬件(Kay Elemetrics)将记录直接记录到计算机中，以44.1kHz采样，分辨率为16位。

表1显示了使用的数据集的简要信息。

本例中的分类器可以采用支持向量机、随机森林或极限学习机中的任何一种。

支持向量机：Vapnic在1964年提出的SVM旨在找到一种超平面，该平面可使从不同类别的支持向量到超平面的距离最大化。SVM是一种新颖的小样本学习方法，具有扎实的理论基础，其最终决策功能仅由少数支持向量确定。计算复杂度取决于支持向量的数量，而不取决于样本空间的维数，从某种意义上说，这避免了维数的诅咒。SVM已被广泛用于PD的语音诊断。

随机森林(RF)：RF使用采样技术从原始训练集中随机选择样本以生成M个新的子训练集，然后根据随机选择的子训练集生成M个分类树以形成随机森林。新数据的分类结果由分类树投票形成的分数确定。RF的本质是对决策树算法的改进，该算法结合了多个决策树。一棵树的分类能力可能很小，但是在随机生成大量决策树之后，可以通过每棵树的分类结果选择测试样本以选择最可能的分类。在PD的语音诊断中，RF通常用作分类器。

极限学习机(ELM)：ELM由Huang Guangbin于2004年提出。它是广义的单隐藏层前馈网络(SLFN)，已广泛用于分类，回归和聚类。ELM随机生成输入层和隐藏层之间的连接权重以及隐藏层神经元的阈值。在训练期间只能设置隐藏层神经元的数量，以获得唯一的最佳解决方案。与传统的BP神经网络算法相比，ELM具有学习速度快，泛化性能好的特点。

具体实施时，所述流形学习方法通过构建映射矩阵P_i,i＝1～E使其在优先最小化局部类内散度矩阵的情况下，同时保留样本的局部性和最大化类间散射矩阵来降低各个子数据集X₁～X_E的维度；

具体操作时，设训练数据矩阵：

X＝[x₁,x₂,...,x_N]^T＝[X₁,X₂,...,X_C]^T∈R^N×D，D代表维度,

是训练数据样本的数量，C是类别数；

y＝[y₁,y₂,…,y_N]^T∈R^N为数据的标签；

则最小化局部类内散度矩阵表示为：

其中，

是局部类内散度矩阵；

是数据矩阵X中的第c类样本的中心，

则最大化类间散度矩阵表示为：

其中，

表示局部类间散度矩阵；

是训练数据矩阵X的样本中心；

局部判决保持投影属性表示为：

M＝Q-B是拉普拉斯矩阵，

是对角阵，B是亲和力矩阵,计算方式如下任何一种：

简单方式：

热核方式：

式中t是核参数，系统目标方程为：

α_i(S_BL-XMX^T)^-1S_WLP_i＝λ_iP_i

为了衡量所提出系统的性能，必须同时考虑每个类别的准确性。有几个适当的度量标准，是根据混淆矩阵构造的，该矩阵存储每个类别中正确分类和错误分类的示例的数量。混淆矩阵也称为概率表或误差矩阵。它是一个特定的矩阵，用于直观显示监督学习算法的性能(无监督学习由匹配矩阵描述)。对于两类问题，混淆矩阵的形式如表2所示。

表2：二分类问题的混淆矩阵

从混淆矩阵中，可以计算出不同的度量以对算法进行评估。

准确性(Acc)：正确分类的样本数占样本总数的百分比，计算方式为：

真实阳性率(TP)：正确分类的阳性实例(PD)的百分比，计算方式为：

真实阴性率：(TN)：正确分类的阴性实例(健康人)的百分比，计算公式为

ROC曲线下的面积(AUC)：AUC描述TP和FP之间的关系，其计算公式为：

本实施例仿真的系统采用具有

Core i5-8400(2.8GHz)CPU和8GB RAM的PC，操作系统是Windows 10(64位)，系统按照表3所示参数进行设置，其它分类算法的维度k设置为{5，10，15…}，LPP采用热核模型，其内核参数t设置为{10^-4,10^-3,…,10⁴}。在分类器学习中，将随机森林中的随机树的数量设置为300，将ELM的隐藏神经元L的数量设置为5000。

表3系统参数

为了验证本系统的有效性，将一些典型的特征提取和特征选择算法与本系统所采用的方式进行了比较，本例中数据集被随机分为训练集(整个数据集的1/3)，验证集(整个数据集的1/3)和测试集(整个数据集的1/3)，每个受试者的样本仅出现在训练集或验证集或测试集中，有效避免了数据重叠。将所有实验重复六次，以消除偶然性对实验结果的影响。

本实施例将多种特征提取算法应用于原始数据集，并将结果与本系统所采用的方法(定义为w_LDPPEE)的结果进行比较，以确定其有效性。这些作为对比的特征提取算法包括PCA，LDA，KPCA，LPP(包括简单模型和热核模型)。

表4不同特征提取方法的实验结果(％)

注：mean代表平均值，std代表方差。

从表4中可以看出，无论是何种分类器还是哪个语音数据集，与帕金森语音诊断中常用的特征提取算法相比，本系统所采用的方式均取得了最佳的分类效果。对于PSDMTSR，所提出的方法具有最显着的改进效果。与N_DR相比，准确率提高了至少20％多。该方法的分类精度也明显高于其他特征提取算法。PARKINSONS数据集获得了与PSDMTSR数据集相似的结果。即使与其他特征提取方法相比，该系统始终具有最高的分类精度。另外，从表中可以看出，在大多数情况下，简单方式的分类精度低于热核方式的分类精度。可能的原因是热核方式考虑了计算样本之间的距离关系。邻近样本越近，给定的权重越大，而简单方式不会考虑邻近样本的近距离关系。

在这项研究中，申请人还将现有的多种特征选择算法应用于原始数据集，并将结果与使用本系统所得的特征选择算法进行比较，以确定其有效性。现有的各种特征选择算法包括mRMR，ReliefF，SBS，SFS，LASSO。其它通常用于疾病诊断的特征选择算法也用作该系统进行比较，例如Pvalue和SVM_RFE。

表5：不同特征选择方法的实验结果(％)

从表5中可以看出，无论采用什么数据集或分类器，与特征选择算法相比，本系统始终具有最高的分类精度。对于PARKINSONS和PSDMTSR数据集，与N_DR相比，所有特征选择算法的效果始终是积极的，但是本系统的改进最为明显。

此外，本专利实施还对各个算法的时间复杂度进行了分析，如表6所示，在PSDMTSR数据集上进行了实验，分类器是带有线性核的SVM。

表6：算法时间复杂度

从表6中可以看出，与特征选择算法相比，本系统具有较低的耗时性能。但是，与特征提取算法相比，本系统具有较高的时间消耗，主要原因是集成学习的引入增加了算法的时间消耗。

综上所述，由于语音中包含的信息丰富且收集方便，语音已被广泛用于帕金森氏病的临床诊断。但是，语音在获取过程中很容易混入噪声中，并且也更容易受到说话者情绪波动的影响。因此，现有语音数据集通常具有噪声大和高混叠(较大的类内方差和较小的类间方差)特性。但是，相关领域的学者或研究人员常常忽略了这些问题。因此，我们提出了一种采用加权局部判别式保持投影嵌入集成算法(w_LDPPEE)所构成的帕金森语音识别系统，该系统充分考虑了现有的具有较大的类内差异和较小的类间方差的PD语音样本，并且通过引入贝叶斯融合机制来构造映射矩阵，从而提高了LPP算法的稳定性。

通过实验结果表明，与现有的帕金森语音特征提取算法相比，该系统具有更高的分类精度。在其他指标(TN和AUC)方面，所提出的系统也优于比较算法。

最后需要说明的是，上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。