CN112820279A - 基于语音上下文动态特征的帕金森病检测方法 - Google Patents
基于语音上下文动态特征的帕金森病检测方法 Download PDFInfo
- Publication number
- CN112820279A CN112820279A CN202110270049.9A CN202110270049A CN112820279A CN 112820279 A CN112820279 A CN 112820279A CN 202110270049 A CN202110270049 A CN 202110270049A CN 112820279 A CN112820279 A CN 112820279A
- Authority
- CN
- China
- Prior art keywords
- parkinson
- voice
- speech
- frequency
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000018737 Parkinson disease Diseases 0.000 title claims abstract description 59
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims 4
- 125000004122 cyclic group Chemical group 0.000 abstract description 3
- 230000003068 static effect Effects 0.000 description 10
- 238000003745 diagnosis Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004770 neurodegeneration Effects 0.000 description 2
- 208000015122 neurodegenerative disease Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007427 paired t-test Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004171 remote diagnosis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/40—Detecting, measuring or recording for evaluating the nervous system
- A61B5/4076—Diagnosing or monitoring particular conditions of the nervous system
- A61B5/4082—Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于语音上下文动态特征的帕金森病检测方法,包括以下步骤:语音样本采集;语音信号预处理;语音特征的提取;建立语音检测模型;结合语音特征建立帕金森语音检测模型;利用帕金森语音检测模型对帕金森病的快速检测,针对现有的基于语音的帕金森预测技术中的特征过少、只采用静态特征、人为特征工程等问题导致的预测精度不高、系统的可用性不好的问题,本申请提供了一种基于语音上下文动态特征的帕金森病检测方法,通过利用双向长短时记忆循环神经网络建立帕金森语音检测模型,从而快速研判帕金森病。
Description
技术领域
本发明涉及信号处理和模式识别技术领域的一种方法,更确切地说,本发明涉及一种基于语音上下文动态特征的帕金森病检测方法。
背景技术
帕金森病(Parkinson disease,PD)是一种常见的神经退行性疾病,严重影响人类的健康。随着人口老龄化的加剧,帕金森病患者越来越多,并且有年轻化的趋势,帕金森病诊治形势日益严峻。随着时间的发展,该病症状越来越严重,并且不能彻底治愈,但早期干预和治疗能够缓解症状,提高患者生活质量。由于帕金森病发病初期症状不明显,而且没有一个普遍适用的标准能够快速准确地诊断帕金森病,很容易漏诊和误诊。大部分患者从出现症状到临床确诊,平均需要10个月时间,误诊率很高。如果能够实现帕金森病的可靠检测,使患者能在早期接受治疗,在延缓其病情发展,提高其生活质量,减轻家庭和社会负担等方面具有重要的意义。
研究表明,90%的帕金森病患者都有一定程度的语音障碍。利用语音障碍来诊断和治疗帕金森病,不但费用低廉,而且患者可通过非接触式方法自助测量,简单方便,易于实现远程诊断。通过语音信号进行帕金森病的诊断和康复治疗已经得到国内外研究学者的广泛关注。Little等人使用支持向量机(Support Vector Machine,SVM)对帕金森病患者的语音进行检测,判断用户是否患有帕金森病。叶晓江等人基于该研究,利用安卓技术开发出了基于语音的帕金森检测系统,用户在室内环境下自行采集持续的长元音/a/,然后将采集到的语音上传至该系统,由系统进行帕金森病的诊断。然而,在实际应用场景下,室内广泛存在的环境噪声无疑会对语音的平稳性及其它质量产生影响,进而影响语音特征提取的准确性,最终会影响基于语音和机器学习方法进行的帕金森病相关研究结果的准确性。
发明内容
针对现有的基于语音的帕金森预测技术中的特征过少、只采用静态特征、人为特征工程等问题导致的预测精度不高、系统的可用性不好的问题,本申请提供了一种基于语音上下文动态特征的帕金森病检测方法,通过利用双向长短时记忆循环神经网络建立帕金森语音检测模型,从而快速研判帕金森病。
为实现上述目的,本发明提供一种基于语音上下文动态特征的帕金森病检测方法,所述基于语音上下文动态特征的帕金森病检测方法包括以下步骤:
语音样本采集:在安静的环境下,对帕金森患者的声音进行采集,获得语音样本;
语音信号预处理:对采集的语音样本的频率进行重新采样;
语音特征的提取:对所采集的语音样本进行特征提取,包括发音特征和调音特征的提取;
建立语音检测模型:以双向长短时记忆循环神经网络为基础,结合语音特征建立帕金森语音检测模型;
利用帕金森语音检测模型对帕金森病的快速检测。
作为优选,在对语音信号的预处理过程中,对采集的语音样本的频率重新采样到48-96kHZ区间并保存。
作为优选,在对语音特征的提取步骤中,主要采用发音特征和调音特征进行提取,发音特征包括基音频率、基音频率的一次微分和二次微分,基频微扰,振幅微扰、振幅摄动商和对数能量;调音特征包括Bark带能量、梅尔倒谱系数、梅尔倒谱系数的一次微分和二次微分、第一共振峰频率和第二共振峰频率,第一共振峰的一次微分和二次微分以及第二共振峰频率的一次微分和二次微分。
作为优选,对所获取的语音信息进行分析,获得基音频率(F0),同时对基音频率进行一次微分(dF0)和二次微分(d2F0),基频微扰(Jitter)采用公式
进行计算,其中N是语音发声的帧数,Mf是基音频率的最大值,F0(k)为对应在第k帧上计算的基频。
作为优选,语音特征的提取是采用连续的发言特征和调音特征形成动态发音矩阵和动态调音矩阵;动态发音矩阵由帧数和发音特征组成,动态调音矩阵由帧数和调音特征组成。
作为优选,对一段语音输入信号进行拆分处理,从而获得多个分段语音信号,将每一段语音信号拆分为发音特征和调音特征,然后采用双向长短时记忆循环神经网络建立帕金森语音检测模型。
作为优选,双向长短时记忆循环神经网络包括动态特征、向前隐含层、向后隐含层和LSTM循环神经网络输出层,向前隐含层和向后隐含层对动态特征进行计算,最后通过LSTM循环神经网络输出层得到相关的信息,从而判断是否为帕金森患者。
作为优选,双向长短时记忆循环神经网络中的相关的计算公式为
其中W为权矩阵,b为偏置向量,S为向量每个元素的隐含层函数。
本发明的有益效果是:针对现有的基于语音的帕金森预测技术中的特征过少,、只采用静态特征、人为特征工程等问题导致的预测精度不高、系统的可用性不好的问题,本发明提出了从连续语音中提取上下文相关的动态特征。
采用PD动态语音特征,除了可以检测到常用的基于静态语音特征可检测到的语音震颤、呼吸急促和虚弱等PD典型特征,还能够通过语音波动及上下文依存关系捕获到采用一般的静态特征无法检测到的发音过程中由PD引起的异常清音,以及发声的开始和停止困难等特点,从而可以从很大程度上提高系统检测的精度。同时利用Bi-directional LSTM的记忆性、参数共享以及图灵完备(Turing completeness),实现高效地对语音序列的非线性特征进行学习。同时,通过在检测模式和语音时沿连续的抽象级别自动选择层次特征,避免了常规机器学习算法的特征工程,实现高效的PD检测。
附图说明
图1为本发明的基于双向长短时记忆循环神经网络的帕金森语音检测模型;
图2为本发明的LSTM处理方式示意图。
具体实施方式
为了更清楚地表述本发明,下面结合附图对本发明作进一步地描述。
帕金森病(Parkinson disease,PD)是一种慢性进展性神经变性疾病,其诊断通常是基于病史和神经系统检查发现的特殊临床特征,现有技术中采用了多种方式针对帕金森的诊断,例如公开了一种基于功率归一化倒谱系数特征的帕金森病语音检测方法,为克服帕金森病语音检测中易受噪声干扰的问题,通过Gammatone滤波器、去除噪声、功率归一化等方法增强所提取特征的鲁棒性,检测方法步骤:1)建立帕金森病语音库和健康语音库;2)对语音信号进行功率归一化倒谱系数特征提取:首先对语音信号进行预处理,然后利用Gammatone滤波器进行滤波,得到语音短时功率谱,接下来对语音短时功率谱进行加权平滑,最后计算功率归一化倒谱系数特征;3)利用外积得到特征向量;4)对特征向量进行功率和l2范数归一化;5)利用SVM训练帕金森病语音和健康语音模型;6)利用SVM分类方法进行分类,实现帕金森病语音检测,但是该方案用于帕金森病语音检测采用的语音短时功率谱是一种离散的静态语音特征,主要问题在于:1)特征参数过少;2)只采用了静态特征;此外,3)基于SVM模型的分类需要人为特征工程;这些因素会导致系统检测精度不高、效率低的问题。后续采用了一种基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统,但是该方法采用的公共语音数据集的语音特征与帕金森病的关联性不明确;同时只采用了静态特征;这些因素会导致系统检测精度不高的问题。
也正是基于此,本申请在这些技术的技术上进行进一步的研究,采用双向长短时记忆循环神经网络对语音的动态特征进行建模,从而解决现有技术所存在的问题。
更为具体的是,本发明提供一种基于语音上下文动态特征的帕金森病检测方法,其特征在于,所述基于语音上下文动态特征的帕金森病检测方法包括以下步骤:语音样本采集:在安静的环境下,对帕金森患者的声音进行采集,获得语音样本;语音信号预处理:对采集的语音样本的频率进行重新采样;语音特征的提取:对所采集的语音样本进行特征提取,包括发音特征和调音特征的提取;建立语音检测模型:以双向长短时记忆循环神经网络为基础,结合语音特征建立帕金森语音检测模型;利用帕金森语音检测模型对帕金森病的快速检测。在本实施例中,首先要对声音信息进行采集,从而得到帕金森患者的语音特征;声音是由于声带的振动而产生的,因此声带在振动过程中的有关变量,例如基频微扰、振幅微扰以及振幅扰动商和基音扰动商都会造成影响。
在对语音特征的提取步骤中,主要采用发音特征和调音特征进行提取,发音特征包括基音频率、基音频率的一次微分和二次微分,基频微扰,振幅微扰、振幅摄动商和对数能量;调音特征包括Bark带能量、梅尔倒谱系数、梅尔倒谱系数的一次微分和二次微分、第一共振峰频率和第二共振峰频率,第一共振峰的一次微分和二次微分以及第二共振峰频率的一次微分和二次微分。
对所获取的语音信息进行分析,获得基音频率(F0),同时对基音频率进行一次微分(dF0)和二次微分(d2F0),基频微扰(Jitter)采用公式
进行计算,其中N是语音发声的帧数,Mf是基音频率的最大值,F0(k)为对应在第k帧上计算的基频;振幅微扰(Shimmer)采用公式 进行计算,其中Ma是信号的最大振幅,A(k)对应于第k帧的振幅;振幅设动商(APQ)采用公式进行计算,其中M是振幅周期序列的长度,k是移动平均值的长度,L=M-(k-1),m=(k-1)/2,A(i)是振幅周期序列;音调摄动商(PPQ)采用公式
进行计算,其中P是音调周期序列的长度,k是移动平均值的长度,L=M-(k-1),m=(k-1)/2,D(i)是音调周期序列。通过以上的相关公式计算,能有效得到发音特征,从而可有效进行建模,而采用48-96kHZ这个频段的声音,是因为帕金森患者的音调范围小,主要集中中该频段内,因此在进行转化后,能重复识别帕金森患者的声音频率,从而使得最终的检测效果更好。
发音特征主要是与唇、舌头和颌运动的幅度和速度降低有关,现有技术利用持续元音或连续语音对发音进行分析得知,发音特征主要包括元音空间面积、声五角面积和共振峰集中化比有关,且通过进一步单音/a/的持续发音分析表明,健康人(HC)说话的轮廓比帕金森患者(PD)的轮廓更加稳定,对于连续语音,通过计算清音段到清音段过渡过程中的能量含量来测量清晰度特征以及过渡偏移量,最后通过对语音信号中清音帧的频率内容和清音与清音之间的转换进行建模,从而得到语音信号中存在的噪声。
请参阅图1和图2,本申请采用双向LSTM模型捕获语音信号的时间序列特征来检测PD。双向LSTM模型以语音信号的动态时间序列发音特征(DF)作为输入。每个发音转换的DF包含58个测度,包括22个Bark带能量、12个梅尔倒谱系数、12个梅尔倒谱系数的一次微分和12个梅尔倒谱系数的二次微分。在输入双向LSTM模型之前,所有的动态特征序列将被零填充到相同的长度,本申请的动态发音特征矩阵由为40ms的帧(时移为20ms)的8个发音特征构成,动态调音矩阵由为40ms的帧(时移为20ms)的10个调音特征构成,利用发音特征和调音特征与双向长短时记忆循环神经网络相结合,实现建模,从而快速实现对PD患者的检测。
利用双向LSTM通过迭代来自t=(1,…,n)的前向层和来自t=(N,…,1)的后向层来计算前向隐藏序列h→、后向隐藏序列h←和输出序列y,
其中W表示权重矩阵,b表示偏差向量,S是向量每个元素上的隐藏层函数,在双向LSTM网络中,每个神经网络单元是一个LSTM单元,
ft=σ(WAFfAFt+Whfht-1+Wcfct-1+bf)
it=σ(WAFiAFt+Whiht-1+Wcict-1+bi)
ot=σ(WAFoAFt+Whoht-1+Wcoct+bo)
ct=ftct-1+ittanh(WAFcAFt+Whcht-1+bc)
ht=ottanh(ct)
其中σ逻辑sigmoid函数ft表示遗忘门,it表示输入门,Ot表示输出门,Ct表示单元状态;双向LSTM网络输出被馈送到完全连接的层,以获得类别输出,从而判断得到是否为帕金森患者。
下面以具体实施例来阐述本申请的技术方案,当然本申请的保护范围不仅仅于此,任何在本申请的基础上,在没有付出任何创造性劳动的前提下所做的改变,都属于本申请的保护范围。
一共采用45名志愿者(25名女性,20名男性)参与实验,其中15名为健康人士(HC),30名为帕金森患者(PD),其中帕金森患者中包含有1-5期帕金森病的患者,个体年龄在37-75岁之间,对于所有的志愿者,收集记录了5-6个声音样本,包括持续时间约为5秒的单声道/a/和持续时间约为5秒的短句,总共包括268个样本。并且将这些声音进行重新编辑,以96kHz的频段进行保存,采样NeuroSpeech软件对这些声音进行特征提取,获得发音特征和调音特征。
采用两种评价方法:1)10倍交叉验证;2)将数据集分割成训练集和测试集,其中没有一个个体的样本重叠,以确保无偏倚的结果。
1.采用传统的ML模型来检测PD
采用下表的配制参数来进行实验
利用不同的静态语音特征,比较几种传统的最大似然模型,下表列出了语音特征的尺寸和主要分析后的尺寸:
评估指标包括准确性(Accuracy),F-score、特异性(Specifity)、敏感性(Sensitivity、),Matthews相关系数(MCC),Fit_time和Score_time,这些指标的公式如下:
其中TP、TN、FP、FN为真阳性、真阴性、假阳性、假阴性的数目。敏感性和特异性是正确分类阳性和阴性病例的统计指标。f分数是精确度和召回率的调和平均值。MCC是一个用于量化值在-1到+1之间的二元分类质量的指标。而+1表示完美的预测,-1表示预测与实际标签不一致,0表示分类并不比随机预测好,Fit_time是每个CV分割对训练集上的估计量进行拟合的时间;Score_time是对每个CV分割在测试集中对估计量进行评分的时间。
利用动态语音特征在局部放电检测中的作用,并预先定义网络结构和参数并预先定义网络结构和参数。对于CNN模型,测试了卷积层中的三个激活函数(Relu,Tanh,Sigmoid)。卷积只在时间轴上进行。对于RNN模型,测试双向LSTM网络结构。
参数信息如下:
此外,还使用CNN模型转化为DL模型(CTD),对应的时频表示:a)线性标度-傅立叶变换;b)梅尔标度STFT谱图;3)恒Q变换(CQT)谱图;
对于RNN模型,参数信息如下:
通过处理得到以下结果:
经过10倍交叉验证进行评估,可以发现通过RNN模型,所获得的结果从准确度、得分(F-score)以及特异性都具有良好的结果。更进一步的分析得知,在短句上使用动态发音特征的双向LSTM模型获得了最佳的准确度、得分(F-score)以及特异性。但是单个计算时间比CNN长。与使用静态特征的传统ML模型相比,使用动态特征的基本DL模型显著提高了性能。
通过最大似然法检测帕金森病患者的语音变化已被证明是帕金森病早期检测的一种有前途的方法。在从语音中检测局部放电的任务中,基于最大似然方法的性能主要受语音特征和最大似然模型结构的影响。本申请利用与帕金森病检测相关的静态和动态语音特征。对发音过渡特征的比较分析表明,在HC说话者和PD患者之间,发音过渡的次数和基频曲线的趋势是显著不同的。采用配对t检验来评估说话人组和帕金森病组之间的发音转换次数的差异,得到的p值为0.042(<0.05),这表明这种差异不是偶然发生的,利用这一点,在使用动态语音特征中,采用双向LSTM模型,对于短句子的输入语音信号,双向LSTM提高了分类精度达到了84.29%,具有较好的应用前景。
以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (10)
1.一种基于语音上下文动态特征的帕金森病检测方法,其特征在于,所述基于语音上下文动态特征的帕金森病检测方法包括以下步骤:
语音样本采集:在安静的环境下,对帕金森患者的声音进行采集,获得语音样本;
语音信号预处理:对采集的语音样本的频率进行重新采样;
语音特征的提取:对所采集的语音样本进行特征提取,包括发音特征和调音特征的提取;
建立语音检测模型:以双向长短时记忆循环神经网络为基础,结合语音特征建立帕金森语音检测模型;
利用帕金森语音检测模型对帕金森病的快速检测。
2.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,在对语音信号的预处理过程中,对采集的语音样本的频率重新采样到48-96kHZ区间并保存。
3.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,在对语音特征的提取步骤中,主要采用发音特征和调音特征进行提取,发音特征包括基音频率、基音频率的一次微分和二次微分,基频微扰,振幅微扰、振幅摄动商和对数能量;调音特征包括Bark带能量、梅尔倒谱系数、梅尔倒谱系数的一次微分和二次微分、第一共振峰频率和第二共振峰频率,第一共振峰的一次微分和二次微分以及第二共振峰频率的一次微分和二次微分。
7.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,语音特征的提取是采用连续的发言特征和调音特征形成动态发音矩阵和动态调音矩阵;动态发音矩阵由帧数和发音特征组成,动态调音矩阵由帧数和调音特征组成。
8.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,对一段语音输入信号进行拆分处理,从而获得多个分段语音信号,将每一段语音信号拆分为发音特征和调音特征,然后采用双向长短时记忆循环神经网络建立帕金森语音检测模型。
9.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,双向长短时记忆循环神经网络包括动态特征、向前隐含层、向后隐含层和LSTM循环神经网络输出层,向前隐含层和向后隐含层对动态特征进行计算,最后通过LSTM循环神经网络输出层得到相关的信息,从而判断是否为帕金森患者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110270049.9A CN112820279B (zh) | 2021-03-12 | 2021-03-12 | 基于语音上下文动态特征的帕金森检测模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110270049.9A CN112820279B (zh) | 2021-03-12 | 2021-03-12 | 基于语音上下文动态特征的帕金森检测模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112820279A true CN112820279A (zh) | 2021-05-18 |
CN112820279B CN112820279B (zh) | 2024-02-09 |
Family
ID=75863195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110270049.9A Active CN112820279B (zh) | 2021-03-12 | 2021-03-12 | 基于语音上下文动态特征的帕金森检测模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112820279B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284512A (zh) * | 2021-05-25 | 2021-08-20 | 重庆大学 | 一种基于深度稀疏迁移学习的帕金森语音分类方法 |
CN114373484A (zh) * | 2022-03-22 | 2022-04-19 | 南京邮电大学 | 语音驱动的帕金森病多症状特征参数的小样本学习方法 |
CN115985490A (zh) * | 2023-03-17 | 2023-04-18 | 四川大学华西医院 | 一种帕金森疾病客观化、定量化早期诊断系统及存储介质 |
CN116110437A (zh) * | 2023-04-14 | 2023-05-12 | 天津大学 | 基于语音特征和说话人特征融合的病理嗓音质量评价方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN110335624A (zh) * | 2019-07-29 | 2019-10-15 | 吉林大学 | 基于功率归一化倒谱系数特征的帕金森病语音检测方法 |
CN110390001A (zh) * | 2019-06-04 | 2019-10-29 | 深思考人工智能机器人科技(北京)有限公司 | 一种观点型机器阅读理解的实现方法、装置 |
US20200227064A1 (en) * | 2017-11-15 | 2020-07-16 | Institute Of Automation, Chinese Academy Of Sciences | Auditory selection method and device based on memory and attention model |
CN111883102A (zh) * | 2020-07-14 | 2020-11-03 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
CN112183430A (zh) * | 2020-10-12 | 2021-01-05 | 河北工业大学 | 一种基于双神经网络的手语识别方法及装置 |
US20210074264A1 (en) * | 2017-10-23 | 2021-03-11 | Ping An Technology (Shenzhen) Co., Ltd. | Speech recognition method, apparatus, and computer readable storage medium |
-
2021
- 2021-03-12 CN CN202110270049.9A patent/CN112820279B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
US20210074264A1 (en) * | 2017-10-23 | 2021-03-11 | Ping An Technology (Shenzhen) Co., Ltd. | Speech recognition method, apparatus, and computer readable storage medium |
US20200227064A1 (en) * | 2017-11-15 | 2020-07-16 | Institute Of Automation, Chinese Academy Of Sciences | Auditory selection method and device based on memory and attention model |
CN110390001A (zh) * | 2019-06-04 | 2019-10-29 | 深思考人工智能机器人科技(北京)有限公司 | 一种观点型机器阅读理解的实现方法、装置 |
CN110335624A (zh) * | 2019-07-29 | 2019-10-15 | 吉林大学 | 基于功率归一化倒谱系数特征的帕金森病语音检测方法 |
CN111883102A (zh) * | 2020-07-14 | 2020-11-03 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
CN112183430A (zh) * | 2020-10-12 | 2021-01-05 | 河北工业大学 | 一种基于双神经网络的手语识别方法及装置 |
Non-Patent Citations (4)
Title |
---|
卢官明;袁亮;杨文娟;闫静杰;李海波;: "基于长短期记忆和卷积神经网络的语音情感识别", 南京邮电大学学报(自然科学版), no. 05 * |
李洋;董红斌;: "基于CNN和BiLSTM网络特征融合的文本情感分析", 计算机应用, no. 11 * |
杨鸿武;周刚;: "基于改进混合CTC/attention架构的端到端普通话语音识别", 西北师范大学学报(自然科学版), no. 03 * |
王申涛;陈晓辉;: "基于长短时记忆网络(LSTM)的帕金森步态识别", 信息通信, no. 01 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284512A (zh) * | 2021-05-25 | 2021-08-20 | 重庆大学 | 一种基于深度稀疏迁移学习的帕金森语音分类方法 |
CN113284512B (zh) * | 2021-05-25 | 2022-05-27 | 重庆大学 | 一种基于深度稀疏迁移学习的帕金森语音分类方法 |
CN114373484A (zh) * | 2022-03-22 | 2022-04-19 | 南京邮电大学 | 语音驱动的帕金森病多症状特征参数的小样本学习方法 |
CN115985490A (zh) * | 2023-03-17 | 2023-04-18 | 四川大学华西医院 | 一种帕金森疾病客观化、定量化早期诊断系统及存储介质 |
CN115985490B (zh) * | 2023-03-17 | 2023-06-13 | 四川大学华西医院 | 一种帕金森疾病客观化、定量化早期诊断系统及存储介质 |
CN116110437A (zh) * | 2023-04-14 | 2023-05-12 | 天津大学 | 基于语音特征和说话人特征融合的病理嗓音质量评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112820279B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657964B (zh) | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 | |
CN112820279B (zh) | 基于语音上下文动态特征的帕金森检测模型构建方法 | |
Shama et al. | Study of harmonics-to-noise ratio and critical-band energy spectrum of speech as acoustic indicators of laryngeal and voice pathology | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
CN115346561B (zh) | 基于语音特征的抑郁情绪评估预测方法及系统 | |
CN108682432B (zh) | 语音情感识别装置 | |
Reddy et al. | The automatic detection of heart failure using speech signals | |
CN103366735A (zh) | 语音数据的映射方法和装置 | |
CN114842878A (zh) | 一种基于神经网络的语音情感识别方法 | |
Nishikawa et al. | Machine learning model for discrimination of mild dementia patients using acoustic features | |
CN113974607A (zh) | 一种基于脉冲神经网络的睡眠鼾声检测系统 | |
Reddy et al. | Exemplar-Based Sparse Representations for Detection of Parkinson's Disease From Speech | |
Alimuradov et al. | A method to determine cepstral markers of speech signals under psychogenic disorders | |
Hadjaidji et al. | Spasmodic dysphonia detection using machine learning classifiers | |
Godino-Llorente et al. | Discriminative methods for the detection of voice disorders | |
Cai et al. | The best input feature when using convolutional neural network for cough recognition | |
Vaishnavi et al. | Neonatal cry signal prediction and classification via dense convolution neural network | |
Manjutha et al. | An optimized cepstral feature selection method for dysfluencies classification using Tamil speech dataset | |
Chit et al. | Myanmar continuous speech recognition system using fuzzy logic classification in speech segmentation | |
Costa et al. | Parametric cepstral analysis for pathological voice assessment | |
CN113571050A (zh) | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 | |
Kumar et al. | Analysis and classification of electroglottography signals for the detection of speech disorders | |
Kumar et al. | Parkinson’s Speech Detection Using YAMNet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |