CN111210846A - 基于集成流形降维的帕金森语音识别系统 - Google Patents

基于集成流形降维的帕金森语音识别系统 Download PDF

Info

Publication number
CN111210846A
CN111210846A CN202010012728.1A CN202010012728A CN111210846A CN 111210846 A CN111210846 A CN 111210846A CN 202010012728 A CN202010012728 A CN 202010012728A CN 111210846 A CN111210846 A CN 111210846A
Authority
CN
China
Prior art keywords
data
matrix
training
parkinson
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010012728.1A
Other languages
English (en)
Other versions
CN111210846B (zh
Inventor
李勇明
刘玉川
王品
谭晓衡
颜芳
李新科
黄智勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010012728.1A priority Critical patent/CN111210846B/zh
Publication of CN111210846A publication Critical patent/CN111210846A/zh
Application granted granted Critical
Publication of CN111210846B publication Critical patent/CN111210846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4082Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Neurosurgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Developmental Disabilities (AREA)
  • Medical Informatics (AREA)
  • Physiology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于集成流形降维的帕金森语音识别系统,包括:数据采集器:用于采集和存储训练数据、验证数据和测试数据,上述数据均为帕金森语音数据,且训练数据和验证数据中包括了代表帕金森病况的标签数据;分类器模块;通过训练数据和验证数据训练所得,并用于对测试数据进行分类识别,确定测试数据的标签类型;输出模块,用于输出最终的识别结果;本发明通过对分类器的训练过程进行改进,引入加权局部判别式保持投影嵌入集成方式,充分考虑了具有较大的类内差异和较小的类间方差的PD语音样本,同时引入AdaBoost方法来构造映射矩阵,提高LPP算法的稳定性,与现有的帕金森语音特征提取算法相比,本系统具有更高的分类精度。

Description

基于集成流形降维的帕金森语音识别系统
技术领域
本发明涉及智慧医疗技术,具体地说,是一种基于集成流形降维的帕金森语音识别系统。
背景技术
帕金森氏病(PD)是仅次于阿尔茨海默氏病的第二大神经退行性疾病,并且患者人数逐年增加。PD给患者带来极大的不便,给患者的家庭和社会带来沉重的经济负担。帕金森氏病尚无永久性治愈方法,因此,PD的早期诊断尤为重要。声音性能下降是PD患者的常见症状,已被广泛用于PD的诊断。但是,现有的帕金森语音数据集具有冗余度高,噪声大和样本少的特点。如何提高PD诊断的准确性已成为相关领域学者或研究人员面临的科学问题。降维(DR)可以有效地处理PD语音数据,提高PD的诊断准确性和模型的泛化能力。
目前,根据所选择的特征子集是否为原始特征空间的子集,用于PD语音数据集的DR方法可以分为特征选择和特征提取。PD语音数据集最早的DR方法主要集中在特征选择上,因为特征选择的特征子集是原始特征空间的子集,具有较高的可解释性,并且不会丢失单个特征与标签之间的重要信息。帕金森氏症诊断常用的特征选择算法是:最小绝对收缩和选择算子(LASSO)、粒子群优化(PSO)、遗传算法(GA)、最小冗余最大相关性(mRMR)、Relief、顺序向后选择(SBS)和顺序向前选择(SFS)等。但是,这些方法由于必须删除一些特征而导致原始数据信息的丢失。
特征提取可以完全解决这个问题,它主要是将高维数据映射到特定的低维空间,并尽可能保留帕金森样本信息。此外,特征提取相对于特征选择的另一个优点是它更适合处理带有噪声的数据集。据我们所知,大多数与医学有关的数据集包含噪音数据。因此,特征提取算法已被学者用于帕金森氏病的诊断。诊断PD语音数据集最具代表性的特征提取方法是PCA和LDA。尽管在帕金森病数据处理中,PCA和LDA取得了良好的结果,但这并不意味着这种方法是高效的。PCA和LDA都是线性特征提取方法——假设从高维空间到低维空间的函数映射是线性的,这与大多数复杂数据具有非线性特点的现状相悖。这导致线性特征提取方法在数据降维的过程中无法很好地探索数据的特征,从而导致PD的诊断准确率提高有限。
非线性特征降维技术可以实现数据从高维特征空间到低维特征空间的映射,并且已经应用于PD的诊断。现有的PD语音数据非线性特征提取算法可以分为两类,第一类称为核映射方法,该方法通过对PD语音样本执行核映射来实现非线性映射,典型的代表性算法是KPCA。但是,核映射方法的缺点是需要根据数据的先验知识为数据找到合适的核函数。在没有先验知识的情况下,很难为数据找到合适的核函数。第二类为神经网络,其用于实现PD语音数据的非线性映射,如深度神经网络。尽管神经网络在PD诊断中取得了良好的性能,但仍然存在一些不足。1)神经网络模型的建立需要大量数据,许多现有的PD语音数据集无法满足这一需求。2)由少量样本数据建立的神经网络模型容易过度拟合,导致模型的泛化性较差。3)此外,神经网络模型的建立是一个非常耗时的过程。
实际上,还有另一种被称为流形学习的非线性特征提取方法,被研究PD语音数据集的学者所忽略。流形学习通过发现嵌入原始高维数据空间中的低维空间实现数据的降维,能够有效地处理现有的PD语音数据集。局部性保留投影(LPP)是流形学习的一种典型代表算法,它在数据降维过程中可以保留数据的邻域结构,并受到了广泛的关注。LPP算法的缺点是:1)对相邻样本数量的敏感性;2)映射高维小样本数据时缺乏稳定性。众所周知,小样本数据集的划分具有很大的高度随机性。当训练数据和测试数据之间的数据分布存在差异时,分类器的预测的会变得很低。虽然有学者提出了一些算法来克服LPP的这些缺点,但现有的改进的LPP方法仍然忽略了一些问题:1)大多数基于LPP的改进算法专注于增加数据集的类间方差,而忽略PD数据集具有类内大方差的情况。2)当算法映射高维数据时,缺乏稳定性。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于集成流形降维的帕金森语音识别系统,通过对系统中分类器的训练过程进行改进,将改进的LPP算法应用于PD语音诊断,通过改进目标函数,优先考虑PD数据的类内方差,从而更好地处理类内差异较大的数据集,提高识别系统的稳定性。
为达到上述目的,本发明所采用的具体技术方案如下:
一种基于集成流形降维的帕金森语音识别系统,其关键在于包括:
数据采集器:用于采集和存储训练数据、验证数据和测试数据,所述训练数据、验证数据和测试数据均为帕金森语音数据,且训练数据和验证数据中包括了代表帕金森病况的标签数据;
分类器模块;通过所述训练数据和验证数据训练所得,并用于对所述测试数据进行分类识别,确定所述测试数据的标签类型;
输出模块,用于输出最终的识别结果;
所述分类器模块在训练时,先从所述训练数据中随机抽取E个子数据集X1~XE,利用流形学习降维算法对第一个训练子集X1进行映射,得到映射矩阵P1,利用经过映射矩阵P1映射后的训练子集X1训练一个分类器,并使用所述验证数据对该分类器进行测试,得到其分类误差率为e1,并将其错分的验证样本添加到训练子集X2中,然后继续对训练子集X2进行处理,并将其错分的验证样本添加到训练子集X3中,直到训练子集XE,错分的验证样本将不再被处理,从而得到E个分类器,每一个分类器对验证数据的分类误差e1~eE以及对应于每一个训练子集的映射矩阵P1~PE,然后,根据AdaBoost方法原理,计算出每一个分类器的权重α1~αE,基于映射矩阵P1~PE和每一个分类器的权重α1~αE得到加权映射矩阵P;最后使用经过加权映射矩阵P映射后的训练数据训练最终分类器,并使用经过加权映射矩阵P映射后的测试数据进行测试,将最终分类器的测试结果由所述输出模块输出。
可选地,所述流形学习方法通过构建映射矩阵Pi,i=1~E使其在优先最小化局部类内散度矩阵的情况下,同时保留样本的局部性和最大化类间散射矩阵来降低各个子数据集X1~XE的维度。
可选地,设训练数据矩阵:
X=[x1,x2,...,xN]T=[X1,X2,...,XC]T∈RN×D,D代表维度,
Figure BDA0002357742180000051
是训练数据样本的数量,C是类别数;
y=[y1,y2,…,yN]T∈RN为数据的标签;
通过映射矩阵P=(p1,p2,…,pk)∈RD×d将数据从RN×D高维空间映射到RN×d低维空间;
则最小化局部类内散度矩阵表示为:
Figure BDA0002357742180000052
其中,
Figure BDA0002357742180000053
是局部类内散度矩阵;
Figure BDA0002357742180000054
是数据矩阵X中的第c类样本的中心,
Figure BDA0002357742180000055
是数据矩阵X中第c类样本中的第i个样本值,Nc是第c类样本的个数;
则最大化类间散度矩阵表示为:
Figure BDA0002357742180000061
其中,
Figure BDA0002357742180000062
表示局部类间散度矩阵;
Figure BDA0002357742180000063
是训练数据矩阵X的样本中心;
局部判决保持投影属性表示为:
Figure BDA0002357742180000064
M=Q-B是拉普拉斯矩阵,
Figure BDA0002357742180000065
是对角阵,B是亲和力矩阵,计算方式如下任何一种:
简单方式:
Figure BDA0002357742180000066
热核方式:
Figure BDA0002357742180000067
式中t是核参数,系统目标方程为:
Figure BDA0002357742180000068
αi是权重因子,λ是惩罚因子,通过拉格朗日乘子法确定其解:
αi(SBL-XMXT)-1SWLPi=λiPi
其中Pi是αi(SBL-XMXT)-1SWL的广义特征向量,λ是对应的特征值,αi是由AdaBoost方法获得的。
可选地,AdaBoost方法获取αi的过程为
Figure BDA0002357742180000071
可选地,加权映射矩阵
Figure BDA0002357742180000072
可选地,所述分类器为支持向量机、随机森林或极限学习机中的任何一种。
可选地,所述训练数据、验证数据和测试数据中的每个样本个体记录了多个语音样本,包括持续元音、数字、单词、短句以及指定文本的发声数据,每个语音样本都包含多个特征。
可选地,所述数据采集器通过麦克风采集说话人声音,并通过语音提取软件模块提取语音特征。
可选地,从所述训练数据中随机抽取E个子数据集时,既对样本抽样,又对特征抽样。
本发明的显著效果是:
由于语音中包含的信息丰富且收集方便,语音已被广泛用于帕金森氏病的临床诊断,但是,语音在获取过程中很容易混入噪声,并且也更容易受到说话者情绪波动的影响。因此,现有语音数据集通常具有噪声大和高混叠(较大的类内方差和较小的类间方差)特性。但是,相关领域的学者或研究人员常常忽略了这些问题。因此,本发明通过对分类器的训练过程进行改进,通过引入加权局部判别式保持投影嵌入集成方式,充分考虑了现有的具有较大的类内差异和较小的类间方差的PD语音样本,同时通过引入AdaBoost方法来构造映射矩阵,从而提高了LPP算法的稳定性,与现有的帕金森语音特征提取算法相比,该算法具有更高的分类精度。
附图说明
图1是本发明的系统流程图。
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
如图1所示,一种基于集成流形降维的帕金森语音识别系统,包括:
数据采集器:用于采集和存储训练数据、验证数据和测试数据,所述训练数据、验证数据和测试数据均为帕金森语音数据,且训练数据和验证数据中包括了代表帕金森病况的标签数据;
分类器模块;通过所述训练数据和验证数据训练所得,并用于对所述测试数据进行分类识别,确定所述测试数据的标签类型;
输出模块,用于输出最终的识别结果;
所述分类器模块在训练时,先从所述训练数据中随机抽取E个子数据集X1~XE,这里,从所述训练集中随机抽取的子训练集X1~XE不仅包含样本抽样,同时还包含了特征抽样,即:同时从所述训练样本进行样本抽样与特征抽样,确保抽样子训练集X1~XE样本与特征的多样性。通过提出的流形学习降维算法首先对第一个训练子集X1进行映射,其映射矩阵为:P1,使用所述验证集(需要根据该训练子集的特征抽取情况对所述验证集先进行特征抽取,然后再使用映射矩阵P1对特征抽取后的验证集进行映射)对该训练子集所得到的模型进行测试,得到其分类误差率为e1,并将其错分的验证样本添加到X2中(这里,错分的验证样本需要根据X2的特征抽样情况进行裁剪)。使用提出的流形学习降维算法对X2进行如X1所述操作,并将错分的验证集样本添加到X3中。直到循环到XE,错分的验证样本将不再被处理。经过以上步骤,可得到E个分类器,每一个分类器对验证集的分类误差e1~eE以及对应于每一个训练子集的映射矩阵P1~PE。然后,根据AdaBoost方法原理,计算出每一个分类器的权重αi,基于映射矩阵P1~PE和分类器权重α得到加权映射矩阵P;最后使用经过加权映射矩阵P映射后的训练数据训练最终分类器,并使用经过加权映射矩阵P映射后的测试数据进行测试,将最终分类器的测试结果由所述输出模块输出,图中Ztrain=Xtrain*P,Ztest=Xtest*P,表示原始训练集和测试集经过P映射后得到的数据。
为了验证本系统的有效性,本实施例使用了2个数据集,它们分别定义为PSDMTSR,Parkinsons的帕金森语音数据集。这两个数据集可在http://archive.ics.uci.edu/ml/ index.php(UCI机器学习存储库)中免费获得,其中:
PSDMTSR:该数据集由Sakar提供,已广泛用于PD语音诊断。它有20名PD患者(6名女性和14名男性)和20名健康个体(10名女性和10名男性)。每个参与者记录了26个语音样本,包括持续元音,数字,单词和短句。每个语音样本都包含26个特征。语音样本是由一组神经科医生从一组口语练习中选择的,这些练习旨在产生更强大的PD语音。录音由Trust MC-1500麦克风录制,频率范围在50Hz和13kHz之间。在录制过程中,麦克风正在以96kHz,30dB的频率工作,并与参与者保持10cm的距离,然后要求参与者阅读指定的文本。
PARKINSONS:该数据集由Litter提供,由来自31位参与者(12位女性和19位男性),其中23位PD患者(7位女性和16位男性,平均±标准差:67.8±9.7)的195个持续元音发声组成。参与者的年龄为46至85岁(平均±标准差:65.8±9.8)。记录每个参与者平均六到七次发声,时间从1到36秒不等。使用头戴式麦克风(AKG C420)记录录音,并将麦克风放置在距参与者8厘米远的地方。使用CSL4300B硬件(Kay Elemetrics)将记录直接记录到计算机中,以44.1kHz采样,分辨率为16位。
表1显示了使用的数据集的简要信息。
Figure BDA0002357742180000101
本例中的分类器可以采用支持向量机、随机森林或极限学习机中的任何一种。
支持向量机:Vapnic在1964年提出的SVM旨在找到一种超平面,该平面可使从不同类别的支持向量到超平面的距离最大化。SVM是一种新颖的小样本学习方法,具有扎实的理论基础,其最终决策功能仅由少数支持向量确定。计算复杂度取决于支持向量的数量,而不取决于样本空间的维数,从某种意义上说,这避免了维数的诅咒。SVM已被广泛用于PD的语音诊断。
随机森林(RF):RF使用采样技术从原始训练集中随机选择样本以生成M个新的子训练集,然后根据随机选择的子训练集生成M个分类树以形成随机森林。新数据的分类结果由分类树投票形成的分数确定。RF的本质是对决策树算法的改进,该算法结合了多个决策树。一棵树的分类能力可能很小,但是在随机生成大量决策树之后,可以通过每棵树的分类结果选择测试样本以选择最可能的分类。在PD的语音诊断中,RF通常用作分类器。
极限学习机(ELM):ELM由Huang Guangbin于2004年提出。它是广义的单隐藏层前馈网络(SLFN),已广泛用于分类,回归和聚类。ELM随机生成输入层和隐藏层之间的连接权重以及隐藏层神经元的阈值。在训练期间只能设置隐藏层神经元的数量,以获得唯一的最佳解决方案。与传统的BP神经网络算法相比,ELM具有学习速度快,泛化性能好的特点。
具体实施时,所述流形学习方法通过构建映射矩阵Pi,i=1~E使其在优先最小化局部类内散度矩阵的情况下,同时保留样本的局部性和最大化类间散射矩阵来降低各个子数据集X1~XE的维度;
具体操作时,设训练数据矩阵:
X=[x1,x2,...,xN]T=[X1,X2,...,XC]T∈RN×D,D代表维度,
Figure BDA0002357742180000121
是训练数据样本的数量,C是类别数;
y=[y1,y2,…,yN]T∈RN为数据的标签;
通过映射矩阵P=(p1,p2,…,pk)∈RD×d将数据从RN×D高维空间映射到RN×d低维空间;
则最小化局部类内散度矩阵表示为:
Figure BDA0002357742180000122
其中,
Figure BDA0002357742180000123
是局部类内散度矩阵;
Figure BDA0002357742180000124
是数据矩阵X中的第c类样本的中心,
Figure BDA0002357742180000125
是数据矩阵X中第c类样本中的第i个样本值,Nc是第c类样本的个数;
则最大化类间散度矩阵表示为:
Figure BDA0002357742180000126
其中,
Figure BDA0002357742180000127
表示局部类间散度矩阵;
Figure BDA0002357742180000131
是训练数据矩阵X的样本中心;
局部判决保持投影属性表示为:
Figure BDA0002357742180000132
M=Q-B是拉普拉斯矩阵,
Figure BDA0002357742180000133
是对角阵,B是亲和力矩阵,计算方式如下任何一种:
简单方式:
Figure BDA0002357742180000134
热核方式:
Figure BDA0002357742180000135
式中t是核参数,系统目标方程为:
Figure BDA0002357742180000136
αi是权重因子,λ是惩罚因子,通过拉格朗日乘子法确定其解:
αi(SBL-XMXT)-1SWLPi=λiPi
其中Pi是αi(SBL-XMXT)-1SWL的广义特征向量,λ是对应的特征值,αi是由AdaBoost方法获得的。
为了衡量所提出系统的性能,必须同时考虑每个类别的准确性。有几个适当的度量标准,是根据混淆矩阵构造的,该矩阵存储每个类别中正确分类和错误分类的示例的数量。混淆矩阵也称为概率表或误差矩阵。它是一个特定的矩阵,用于直观显示监督学习算法的性能(无监督学习由匹配矩阵描述)。对于两类问题,混淆矩阵的形式如表2所示。
表2:二分类问题的混淆矩阵
Figure BDA0002357742180000141
从混淆矩阵中,可以计算出不同的度量以对算法进行评估。
准确性(Acc):正确分类的样本数占样本总数的百分比,计算方式为:
Figure BDA0002357742180000142
真实阳性率(TP):正确分类的阳性实例(PD)的百分比,计算方式为:
Figure BDA0002357742180000143
真实阴性率:(TN):正确分类的阴性实例(健康人)的百分比,计算公式为
Figure BDA0002357742180000144
ROC曲线下的面积(AUC):AUC描述TP和FP之间的关系,其计算公式为:
Figure BDA0002357742180000145
本实施例仿真的系统采用具有
Figure BDA0002357742180000146
Core i5-8400(2.8GHz)CPU和8GB RAM的PC,操作系统是Windows 10(64位),系统按照表3所示参数进行设置,其它分类算法的维度k设置为{5,10,15…},LPP采用热核模型,其内核参数t设置为{10-4,10-3,…,104}。在分类器学习中,将随机森林中的随机树的数量设置为300,将ELM的隐藏神经元L的数量设置为5000。
表3系统参数
Figure BDA0002357742180000151
为了验证本系统的有效性,将一些典型的特征提取和特征选择算法与本系统所采用的方式进行了比较,本例中数据集被随机分为训练集(整个数据集的1/3),验证集(整个数据集的1/3)和测试集(整个数据集的1/3),每个受试者的样本仅出现在训练集或验证集或测试集中,有效避免了数据重叠。将所有实验重复六次,以消除偶然性对实验结果的影响。
本实施例将多种特征提取算法应用于原始数据集,并将结果与本系统所采用的方法(定义为w_LDPPEE)的结果进行比较,以确定其有效性。这些作为对比的特征提取算法包括PCA,LDA,KPCA,LPP(包括简单模型和热核模型)。
表4不同特征提取方法的实验结果(%)
Figure BDA0002357742180000152
Figure BDA0002357742180000161
注:mean代表平均值,std代表方差。
从表4中可以看出,无论是何种分类器还是哪个语音数据集,与帕金森语音诊断中常用的特征提取算法相比,本系统所采用的方式均取得了最佳的分类效果。对于PSDMTSR,所提出的方法具有最显着的改进效果。与N_DR相比,准确率提高了至少20%多。该方法的分类精度也明显高于其他特征提取算法。PARKINSONS数据集获得了与PSDMTSR数据集相似的结果。即使与其他特征提取方法相比,该系统始终具有最高的分类精度。另外,从表中可以看出,在大多数情况下,简单方式的分类精度低于热核方式的分类精度。可能的原因是热核方式考虑了计算样本之间的距离关系。邻近样本越近,给定的权重越大,而简单方式不会考虑邻近样本的近距离关系。
在这项研究中,申请人还将现有的多种特征选择算法应用于原始数据集,并将结果与使用本系统所得的特征选择算法进行比较,以确定其有效性。现有的各种特征选择算法包括mRMR,ReliefF,SBS,SFS,LASSO。其它通常用于疾病诊断的特征选择算法也用作该系统进行比较,例如Pvalue和SVM_RFE。
表5:不同特征选择方法的实验结果(%)
Figure BDA0002357742180000171
从表5中可以看出,无论采用什么数据集或分类器,与特征选择算法相比,本系统始终具有最高的分类精度。对于PARKINSONS和PSDMTSR数据集,与N_DR相比,所有特征选择算法的效果始终是积极的,但是本系统的改进最为明显。
此外,本专利实施还对各个算法的时间复杂度进行了分析,如表6所示,在PSDMTSR数据集上进行了实验,分类器是带有线性核的SVM。
表6:算法时间复杂度
Figure BDA0002357742180000181
从表6中可以看出,与特征选择算法相比,本系统具有较低的耗时性能。但是,与特征提取算法相比,本系统具有较高的时间消耗,主要原因是集成学习的引入增加了算法的时间消耗。
综上所述,由于语音中包含的信息丰富且收集方便,语音已被广泛用于帕金森氏病的临床诊断。但是,语音在获取过程中很容易混入噪声中,并且也更容易受到说话者情绪波动的影响。因此,现有语音数据集通常具有噪声大和高混叠(较大的类内方差和较小的类间方差)特性。但是,相关领域的学者或研究人员常常忽略了这些问题。因此,我们提出了一种采用加权局部判别式保持投影嵌入集成算法(w_LDPPEE)所构成的帕金森语音识别系统,该系统充分考虑了现有的具有较大的类内差异和较小的类间方差的PD语音样本,并且通过引入贝叶斯融合机制来构造映射矩阵,从而提高了LPP算法的稳定性。
通过实验结果表明,与现有的帕金森语音特征提取算法相比,该系统具有更高的分类精度。在其他指标(TN和AUC)方面,所提出的系统也优于比较算法。
最后需要说明的是,上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (9)

1.一种基于集成流形降维的帕金森病语音识别系统,其特征在于包括:
数据采集器:用于采集和存储训练数据、验证数据和测试数据,所述训练数据、验证数据和测试数据均为帕金森语音数据,且训练数据和验证数据中包括了代表帕金森病况的标签数据;
分类器模块;通过所述训练数据和验证数据训练所得,并用于对所述测试数据进行分类识别,确定所述测试数据的标签类型;
输出模块,用于输出最终的识别结果;
所述分类器模块在训练时,先从所述训练数据中随机抽取E个子数据集X1~XE,利用流形学习降维算法对第一个训练子集X1进行映射,得到映射矩阵P1,利用经过映射矩阵P1映射后的训练子集X1训练一个分类器,并使用所述验证数据对该分类器进行测试,得到其分类误差率为e1,并将其错分的验证样本添加到训练子集X2中,然后继续对训练子集X2进行处理,并将其错分的验证样本添加到训练子集X3中,直到训练子集XE,错分的验证样本将不再被处理,从而得到E个分类器,每一个分类器对验证数据的分类误差e1~eE以及对应于每一个训练子集的映射矩阵P1~PE,然后,根据AdaBoost方法原理,计算出每一个分类器的权重α1~αE,基于映射矩阵P1~PE和每一个分类器的权重α1~αE得到加权映射矩阵P;最后使用经过加权映射矩阵P映射后的训练数据训练最终分类器,并使用经过加权映射矩阵P映射后的测试数据进行测试,将最终分类器的测试结果由所述输出模块输出。
2.根据权利要求1所述的基于集成流形降维的帕金森语音识别系统,其特征在于:所述流形学习方法通过构建映射矩阵Pi,i=1~E使其在优先最小化局部类内散度矩阵的情况下,同时保留样本的局部性和最大化类间散射矩阵来降低各个子数据集X1~XE的维度。
3.根据权利要求1所述的基于集成流形降维的帕金森语音识别系统,其特征在于:
设训练数据矩阵X=[x1,x2,...,xN]T=[X1,X2,...,XC]T∈RN×D,D代表维度,
Figure FDA0002357742170000021
是训练数据样本的数量,C是类别数;
y=[y1,y2,…,yN]T∈RN为数据的标签;
通过映射矩阵P=(p1,p2,…,pk)∈RD×d将数据从RN×D高维空间映射到RN×d低维空间;
则最小化局部类内散度矩阵表示为:
Figure FDA0002357742170000022
其中,
Figure FDA0002357742170000023
是局部类内散度矩阵;
Figure FDA0002357742170000024
是数据矩阵X中的第c类样本的中心,
Figure FDA0002357742170000025
是数据矩阵X中第c类样本中的第i个样本值,Nc是第c类样本的个数;
则最大化类间散度矩阵表示为:
Figure FDA0002357742170000031
其中,
Figure FDA0002357742170000032
表示局部类间散度矩阵;
Figure FDA0002357742170000033
是训练数据矩阵X的样本中心;
局部判决保持投影属性表示为:
Figure FDA0002357742170000034
M=Q-B是拉普拉斯矩阵,
Figure FDA0002357742170000035
是对角阵,B是亲和力矩阵,计算方式如下任何一种:
简单方式:
Figure FDA0002357742170000036
热核方式:
Figure FDA0002357742170000037
式中t是核参数,系统目标方程为:
Figure FDA0002357742170000038
αi是权重因子,λ是惩罚因子,通过拉格朗日乘子法确定其解:
αi(SBL-XMXT)-1SWLPi=λiPi
其中Pi是αi(SBL-XMXT)-1SWL的广义特征向量,λ是对应的特征值,αi是由AdaBoost方法获得的。
4.根据权利要求3所述的基于集成流形降维的帕金森语音识别系统,其特征在于:AdaBoost方法获取αi的过程为
Figure FDA0002357742170000041
5.根据权利要求1所述的基于集成流形降维的帕金森语音识别系统,其特征在于:加权映射矩阵
Figure FDA0002357742170000042
6.根据权利要求1-5任一所述的基于集成流形降维的帕金森语音识别系统,其特征在于:所述分类器不限,可以为支持向量机、随机森林或极限学习机或别的分类器中的任何一种。
7.根据权利要求1所述的基于集成流形降维的帕金森语音识别系统,其特征在于:所述训练数据、验证数据和测试数据中的每个样本个体记录了多个语音样本,包括持续元音、数字、单词、短句以及指定文本的发声数据,每个语音样本都包含多个特征。
8.根据权利要求1所述的基于集成流形降维的帕金森语音识别系统,其特征在于:所述数据采集器通过麦克风采集说话人声音,并通过语音提取软件模块提取语音特征。
9.根据权利要求1所述的基于集成流形降维的帕金森语音识别系统,其特征在于:从所述训练数据中随机抽取E个子数据集时,既对样本抽样,又对特征抽样。
CN202010012728.1A 2020-01-07 2020-01-07 基于集成流形降维的帕金森语音识别系统 Active CN111210846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010012728.1A CN111210846B (zh) 2020-01-07 2020-01-07 基于集成流形降维的帕金森语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010012728.1A CN111210846B (zh) 2020-01-07 2020-01-07 基于集成流形降维的帕金森语音识别系统

Publications (2)

Publication Number Publication Date
CN111210846A true CN111210846A (zh) 2020-05-29
CN111210846B CN111210846B (zh) 2022-07-05

Family

ID=70786607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010012728.1A Active CN111210846B (zh) 2020-01-07 2020-01-07 基于集成流形降维的帕金森语音识别系统

Country Status (1)

Country Link
CN (1) CN111210846B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132138A (zh) * 2020-09-21 2020-12-25 中国科学院合肥物质科学研究院 一种基于2d-激光雷达的物料自动识别与定位方法
CN112232387A (zh) * 2020-09-29 2021-01-15 南京财经大学 基于lselm-rfe的粮食作物病害症状的有效特征识别方法
CN112232388A (zh) * 2020-09-29 2021-01-15 南京财经大学 基于elm-rfe的购物意图关键因素识别方法
CN112233785A (zh) * 2020-07-08 2021-01-15 华南理工大学 一种帕金森症的智能识别方法
CN112365992A (zh) * 2020-11-27 2021-02-12 安徽理工大学 一种基于nrs-lda的医疗体检数据识别分析方法
CN113128612A (zh) * 2021-04-26 2021-07-16 国网河北省电力有限公司营销服务中心 电力数据中异常值的处理方法及终端设备
CN113361563A (zh) * 2021-04-22 2021-09-07 重庆大学 一种基于样本和特征双变换的帕金森病语音数据分类系统
CN113435470A (zh) * 2021-05-10 2021-09-24 北京化工大学 一种基于语义分割的三维物体特征区域识别方法
CN113555004A (zh) * 2021-07-15 2021-10-26 复旦大学 基于特征选择与迁移学习的语音抑郁状态识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080063285A1 (en) * 2006-09-08 2008-03-13 Porikli Fatih M Detecting Moving Objects in Video by Classifying on Riemannian Manifolds
US20080063264A1 (en) * 2006-09-08 2008-03-13 Porikli Fatih M Method for classifying data using an analytic manifold
KR101182069B1 (ko) * 2011-09-14 2012-09-11 영남대학교 산학협력단 발화문장의 운율분석을 통한 특발성 파킨슨병 진단장치 및 진단방법
CN103413551A (zh) * 2013-07-16 2013-11-27 清华大学 基于稀疏降维的说话人识别方法
US20150265205A1 (en) * 2012-10-16 2015-09-24 Board Of Trustees Of Michigan State University Screening for neurological disease using speech articulation characteristics
CN107657214A (zh) * 2017-09-04 2018-02-02 重庆大学 一种局部判别保持投影的电子舌味觉识别方法
CN107808663A (zh) * 2017-10-25 2018-03-16 重庆大学 基于dbn和rf算法的帕金森病语音数据分类系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080063285A1 (en) * 2006-09-08 2008-03-13 Porikli Fatih M Detecting Moving Objects in Video by Classifying on Riemannian Manifolds
US20080063264A1 (en) * 2006-09-08 2008-03-13 Porikli Fatih M Method for classifying data using an analytic manifold
KR101182069B1 (ko) * 2011-09-14 2012-09-11 영남대학교 산학협력단 발화문장의 운율분석을 통한 특발성 파킨슨병 진단장치 및 진단방법
US20150265205A1 (en) * 2012-10-16 2015-09-24 Board Of Trustees Of Michigan State University Screening for neurological disease using speech articulation characteristics
CN103413551A (zh) * 2013-07-16 2013-11-27 清华大学 基于稀疏降维的说话人识别方法
CN107657214A (zh) * 2017-09-04 2018-02-02 重庆大学 一种局部判别保持投影的电子舌味觉识别方法
CN107808663A (zh) * 2017-10-25 2018-03-16 重庆大学 基于dbn和rf算法的帕金森病语音数据分类系统

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
BETUL ERDOGDU SAKAR ET,AL.: "《Collection and Analysis of a Parkinson Speech Dataset With Multiple Types of Sound Recordings》", 《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》 *
LEI HAIJUN,ET.AL: "Sparse feature learning for multi-class Parkinson’s disease classification", 《TECHNOLOGY AND HEALTH CARE》 *
ZHANG X ET,AL.: "《Combining speech sample and feature bilateral selection algorithm for classification of Parkinson’s desease》", 《JOUNRAL OF BIOMEDICAL ENGINEERING》 *
张亮等: "快速核有监督局部保留投影算法", 《电子与信息学报》 *
张小恒;李勇明;王品;曾孝平;颜芳: "《基于语音卷积稀疏迁移学习和并行优选的帕金森病分类算法研究》", 《电子与信息学报》 *
李勇明等: "《Local discriminant preservation projection embedded ensemble learning based dimensionality reduction of speech data of Parkinson’s disease》", 《BIOMEDICAL SIGNAL PROCESSING AND CONTROL》 *
李磊: "基于语音识别的帕金森病识别系统研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)》 *
王海鹤等: "基于增量流形学习的语音情感特征降维方法", 《计算机工程》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233785B (zh) * 2020-07-08 2022-04-22 华南理工大学 一种帕金森症的智能识别方法
CN112233785A (zh) * 2020-07-08 2021-01-15 华南理工大学 一种帕金森症的智能识别方法
CN112132138A (zh) * 2020-09-21 2020-12-25 中国科学院合肥物质科学研究院 一种基于2d-激光雷达的物料自动识别与定位方法
CN112232388A (zh) * 2020-09-29 2021-01-15 南京财经大学 基于elm-rfe的购物意图关键因素识别方法
CN112232388B (zh) * 2020-09-29 2024-02-13 南京财经大学 基于elm-rfe的购物意图关键因素识别方法
CN112232387A (zh) * 2020-09-29 2021-01-15 南京财经大学 基于lselm-rfe的粮食作物病害症状的有效特征识别方法
CN112232387B (zh) * 2020-09-29 2024-02-06 南京财经大学 基于lselm-rfe的粮食作物病害症状的有效特征识别方法
CN112365992A (zh) * 2020-11-27 2021-02-12 安徽理工大学 一种基于nrs-lda的医疗体检数据识别分析方法
CN113361563A (zh) * 2021-04-22 2021-09-07 重庆大学 一种基于样本和特征双变换的帕金森病语音数据分类系统
CN113128612B (zh) * 2021-04-26 2022-11-29 国网河北省电力有限公司营销服务中心 电力数据中异常值的处理方法及终端设备
CN113128612A (zh) * 2021-04-26 2021-07-16 国网河北省电力有限公司营销服务中心 电力数据中异常值的处理方法及终端设备
CN113435470A (zh) * 2021-05-10 2021-09-24 北京化工大学 一种基于语义分割的三维物体特征区域识别方法
CN113435470B (zh) * 2021-05-10 2024-04-26 北京化工大学 一种基于语义分割的三维物体特征区域识别方法
CN113555004A (zh) * 2021-07-15 2021-10-26 复旦大学 基于特征选择与迁移学习的语音抑郁状态识别方法

Also Published As

Publication number Publication date
CN111210846B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN111210846B (zh) 基于集成流形降维的帕金森语音识别系统
Gunduz Deep learning-based Parkinson’s disease classification using vocal feature sets
Zeng et al. Spectrogram based multi-task audio classification
Latif et al. Deep representation learning in speech processing: Challenges, recent advances, and future trends
Mane et al. A survey on supervised convolutional neural network and its major applications
Huang et al. Speech emotion recognition from variable-length inputs with triplet loss function.
CN112800998B (zh) 融合注意力机制和dmcca的多模态情感识别方法及系统
CN103548041A (zh) 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序
Wei et al. A novel speech emotion recognition algorithm based on wavelet kernel sparse classifier in stacked deep auto-encoder model
Ivanenko et al. Classifying sex and strain from mouse ultrasonic vocalizations using deep learning
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
Pramanik et al. Assessment of acoustic features and machine learning for Parkinson's detection
Weiwei Classification of sport actions using principal component analysis and random forest based on three-dimensional data
Wu et al. Enhanced feature fusion through irrelevant redundancy elimination in intra-class and extra-class discriminative correlation analysis
Chen et al. Hybrid feature embedded sparse stacked autoencoder and manifold dimensionality reduction ensemble for mental health speech recognition
Lu et al. Speech depression recognition based on attentional residual network
CN111584069B (zh) 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统
Sun et al. Multi-classification speech emotion recognition based on two-stage bottleneck features selection and MCJD algorithm
吴雨林 et al. Face recognition system based on CNN and LBP features for classifier optimization and fusion
Rodríguez-Hidalgo et al. Echoic log-surprise: A multi-scale scheme for acoustic saliency detection
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
Serbaya Analyzing the role of emotional intelligence on the performance of small and medium enterprises (SMEs) using ai-based convolutional neural networks (CNNs)
Dash et al. Similarity learning for texture image retrieval using multiple classifier system
Karagoz et al. Analysis of multiobjective algorithms for the classification of multi-label video datasets
Zhao et al. Complex event detection via attention-based video representation and classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant