CN112820279A - 基于语音上下文动态特征的帕金森病检测方法 - Google Patents

基于语音上下文动态特征的帕金森病检测方法 Download PDF

Info

Publication number
CN112820279A
CN112820279A CN202110270049.9A CN202110270049A CN112820279A CN 112820279 A CN112820279 A CN 112820279A CN 202110270049 A CN202110270049 A CN 202110270049A CN 112820279 A CN112820279 A CN 112820279A
Authority
CN
China
Prior art keywords
parkinson
voice
speech
frequency
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110270049.9A
Other languages
English (en)
Other versions
CN112820279B (zh
Inventor
全昌勤
罗志伟
任康
凌云
陈仲略
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gyenno Technologies Co ltd
Original Assignee
Gyenno Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gyenno Technologies Co ltd filed Critical Gyenno Technologies Co ltd
Priority to CN202110270049.9A priority Critical patent/CN112820279B/zh
Publication of CN112820279A publication Critical patent/CN112820279A/zh
Application granted granted Critical
Publication of CN112820279B publication Critical patent/CN112820279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4082Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于语音上下文动态特征的帕金森病检测方法,包括以下步骤:语音样本采集;语音信号预处理;语音特征的提取;建立语音检测模型;结合语音特征建立帕金森语音检测模型;利用帕金森语音检测模型对帕金森病的快速检测,针对现有的基于语音的帕金森预测技术中的特征过少、只采用静态特征、人为特征工程等问题导致的预测精度不高、系统的可用性不好的问题,本申请提供了一种基于语音上下文动态特征的帕金森病检测方法,通过利用双向长短时记忆循环神经网络建立帕金森语音检测模型,从而快速研判帕金森病。

Description

基于语音上下文动态特征的帕金森病检测方法
技术领域
本发明涉及信号处理和模式识别技术领域的一种方法,更确切地说,本发明涉及一种基于语音上下文动态特征的帕金森病检测方法。
背景技术
帕金森病(Parkinson disease,PD)是一种常见的神经退行性疾病,严重影响人类的健康。随着人口老龄化的加剧,帕金森病患者越来越多,并且有年轻化的趋势,帕金森病诊治形势日益严峻。随着时间的发展,该病症状越来越严重,并且不能彻底治愈,但早期干预和治疗能够缓解症状,提高患者生活质量。由于帕金森病发病初期症状不明显,而且没有一个普遍适用的标准能够快速准确地诊断帕金森病,很容易漏诊和误诊。大部分患者从出现症状到临床确诊,平均需要10个月时间,误诊率很高。如果能够实现帕金森病的可靠检测,使患者能在早期接受治疗,在延缓其病情发展,提高其生活质量,减轻家庭和社会负担等方面具有重要的意义。
研究表明,90%的帕金森病患者都有一定程度的语音障碍。利用语音障碍来诊断和治疗帕金森病,不但费用低廉,而且患者可通过非接触式方法自助测量,简单方便,易于实现远程诊断。通过语音信号进行帕金森病的诊断和康复治疗已经得到国内外研究学者的广泛关注。Little等人使用支持向量机(Support Vector Machine,SVM)对帕金森病患者的语音进行检测,判断用户是否患有帕金森病。叶晓江等人基于该研究,利用安卓技术开发出了基于语音的帕金森检测系统,用户在室内环境下自行采集持续的长元音/a/,然后将采集到的语音上传至该系统,由系统进行帕金森病的诊断。然而,在实际应用场景下,室内广泛存在的环境噪声无疑会对语音的平稳性及其它质量产生影响,进而影响语音特征提取的准确性,最终会影响基于语音和机器学习方法进行的帕金森病相关研究结果的准确性。
发明内容
针对现有的基于语音的帕金森预测技术中的特征过少、只采用静态特征、人为特征工程等问题导致的预测精度不高、系统的可用性不好的问题,本申请提供了一种基于语音上下文动态特征的帕金森病检测方法,通过利用双向长短时记忆循环神经网络建立帕金森语音检测模型,从而快速研判帕金森病。
为实现上述目的,本发明提供一种基于语音上下文动态特征的帕金森病检测方法,所述基于语音上下文动态特征的帕金森病检测方法包括以下步骤:
语音样本采集:在安静的环境下,对帕金森患者的声音进行采集,获得语音样本;
语音信号预处理:对采集的语音样本的频率进行重新采样;
语音特征的提取:对所采集的语音样本进行特征提取,包括发音特征和调音特征的提取;
建立语音检测模型:以双向长短时记忆循环神经网络为基础,结合语音特征建立帕金森语音检测模型;
利用帕金森语音检测模型对帕金森病的快速检测。
作为优选,在对语音信号的预处理过程中,对采集的语音样本的频率重新采样到48-96kHZ区间并保存。
作为优选,在对语音特征的提取步骤中,主要采用发音特征和调音特征进行提取,发音特征包括基音频率、基音频率的一次微分和二次微分,基频微扰,振幅微扰、振幅摄动商和对数能量;调音特征包括Bark带能量、梅尔倒谱系数、梅尔倒谱系数的一次微分和二次微分、第一共振峰频率和第二共振峰频率,第一共振峰的一次微分和二次微分以及第二共振峰频率的一次微分和二次微分。
作为优选,对所获取的语音信息进行分析,获得基音频率(F0),同时对基音频率进行一次微分(dF0)和二次微分(d2F0),基频微扰(Jitter)采用公式
Figure BDA0002973943790000021
进行计算,其中N是语音发声的帧数,Mf是基音频率的最大值,F0(k)为对应在第k帧上计算的基频。
作为优选,振幅微扰(Shimmer)采用公式
Figure BDA0002973943790000022
进行计算,其中Ma是信号的最大振幅,A(k)对应于第k帧的振幅。
作为优选,振幅设动商(APQ)采用公式
Figure BDA0002973943790000023
进行计算,其中M是振幅周期序列的长度,k是移动平均值的长度,L=M-(k-1),m=(k-1)/2,A(i)是振幅周期序列;音调摄动商(PPQ)采用公式
Figure BDA0002973943790000031
进行计算,其中P是音调周期序列的长度,k是移动平均值的长度,L=M-(k-1),m=(k-1)/2,D(i)是音调周期序列。
作为优选,语音特征的提取是采用连续的发言特征和调音特征形成动态发音矩阵和动态调音矩阵;动态发音矩阵由帧数和发音特征组成,动态调音矩阵由帧数和调音特征组成。
作为优选,对一段语音输入信号进行拆分处理,从而获得多个分段语音信号,将每一段语音信号拆分为发音特征和调音特征,然后采用双向长短时记忆循环神经网络建立帕金森语音检测模型。
作为优选,双向长短时记忆循环神经网络包括动态特征、向前隐含层、向后隐含层和LSTM循环神经网络输出层,向前隐含层和向后隐含层对动态特征进行计算,最后通过LSTM循环神经网络输出层得到相关的信息,从而判断是否为帕金森患者。
作为优选,双向长短时记忆循环神经网络中的相关的计算公式为
Figure BDA0002973943790000032
Figure BDA0002973943790000033
Figure BDA0002973943790000034
其中W为权矩阵,b为偏置向量,S为向量每个元素的隐含层函数。
本发明的有益效果是:针对现有的基于语音的帕金森预测技术中的特征过少,、只采用静态特征、人为特征工程等问题导致的预测精度不高、系统的可用性不好的问题,本发明提出了从连续语音中提取上下文相关的动态特征。
采用PD动态语音特征,除了可以检测到常用的基于静态语音特征可检测到的语音震颤、呼吸急促和虚弱等PD典型特征,还能够通过语音波动及上下文依存关系捕获到采用一般的静态特征无法检测到的发音过程中由PD引起的异常清音,以及发声的开始和停止困难等特点,从而可以从很大程度上提高系统检测的精度。同时利用Bi-directional LSTM的记忆性、参数共享以及图灵完备(Turing completeness),实现高效地对语音序列的非线性特征进行学习。同时,通过在检测模式和语音时沿连续的抽象级别自动选择层次特征,避免了常规机器学习算法的特征工程,实现高效的PD检测。
附图说明
图1为本发明的基于双向长短时记忆循环神经网络的帕金森语音检测模型;
图2为本发明的LSTM处理方式示意图。
具体实施方式
为了更清楚地表述本发明,下面结合附图对本发明作进一步地描述。
帕金森病(Parkinson disease,PD)是一种慢性进展性神经变性疾病,其诊断通常是基于病史和神经系统检查发现的特殊临床特征,现有技术中采用了多种方式针对帕金森的诊断,例如公开了一种基于功率归一化倒谱系数特征的帕金森病语音检测方法,为克服帕金森病语音检测中易受噪声干扰的问题,通过Gammatone滤波器、去除噪声、功率归一化等方法增强所提取特征的鲁棒性,检测方法步骤:1)建立帕金森病语音库和健康语音库;2)对语音信号进行功率归一化倒谱系数特征提取:首先对语音信号进行预处理,然后利用Gammatone滤波器进行滤波,得到语音短时功率谱,接下来对语音短时功率谱进行加权平滑,最后计算功率归一化倒谱系数特征;3)利用外积得到特征向量;4)对特征向量进行功率和l2范数归一化;5)利用SVM训练帕金森病语音和健康语音模型;6)利用SVM分类方法进行分类,实现帕金森病语音检测,但是该方案用于帕金森病语音检测采用的语音短时功率谱是一种离散的静态语音特征,主要问题在于:1)特征参数过少;2)只采用了静态特征;此外,3)基于SVM模型的分类需要人为特征工程;这些因素会导致系统检测精度不高、效率低的问题。后续采用了一种基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统,但是该方法采用的公共语音数据集的语音特征与帕金森病的关联性不明确;同时只采用了静态特征;这些因素会导致系统检测精度不高的问题。
也正是基于此,本申请在这些技术的技术上进行进一步的研究,采用双向长短时记忆循环神经网络对语音的动态特征进行建模,从而解决现有技术所存在的问题。
更为具体的是,本发明提供一种基于语音上下文动态特征的帕金森病检测方法,其特征在于,所述基于语音上下文动态特征的帕金森病检测方法包括以下步骤:语音样本采集:在安静的环境下,对帕金森患者的声音进行采集,获得语音样本;语音信号预处理:对采集的语音样本的频率进行重新采样;语音特征的提取:对所采集的语音样本进行特征提取,包括发音特征和调音特征的提取;建立语音检测模型:以双向长短时记忆循环神经网络为基础,结合语音特征建立帕金森语音检测模型;利用帕金森语音检测模型对帕金森病的快速检测。在本实施例中,首先要对声音信息进行采集,从而得到帕金森患者的语音特征;声音是由于声带的振动而产生的,因此声带在振动过程中的有关变量,例如基频微扰、振幅微扰以及振幅扰动商和基音扰动商都会造成影响。
在对语音特征的提取步骤中,主要采用发音特征和调音特征进行提取,发音特征包括基音频率、基音频率的一次微分和二次微分,基频微扰,振幅微扰、振幅摄动商和对数能量;调音特征包括Bark带能量、梅尔倒谱系数、梅尔倒谱系数的一次微分和二次微分、第一共振峰频率和第二共振峰频率,第一共振峰的一次微分和二次微分以及第二共振峰频率的一次微分和二次微分。
对所获取的语音信息进行分析,获得基音频率(F0),同时对基音频率进行一次微分(dF0)和二次微分(d2F0),基频微扰(Jitter)采用公式
Figure BDA0002973943790000051
进行计算,其中N是语音发声的帧数,Mf是基音频率的最大值,F0(k)为对应在第k帧上计算的基频;振幅微扰(Shimmer)采用公式
Figure BDA0002973943790000052
Figure BDA0002973943790000053
进行计算,其中Ma是信号的最大振幅,A(k)对应于第k帧的振幅;振幅设动商(APQ)采用公式
Figure BDA0002973943790000054
进行计算,其中M是振幅周期序列的长度,k是移动平均值的长度,L=M-(k-1),m=(k-1)/2,A(i)是振幅周期序列;音调摄动商(PPQ)采用公式
Figure BDA0002973943790000055
进行计算,其中P是音调周期序列的长度,k是移动平均值的长度,L=M-(k-1),m=(k-1)/2,D(i)是音调周期序列。通过以上的相关公式计算,能有效得到发音特征,从而可有效进行建模,而采用48-96kHZ这个频段的声音,是因为帕金森患者的音调范围小,主要集中中该频段内,因此在进行转化后,能重复识别帕金森患者的声音频率,从而使得最终的检测效果更好。
发音特征主要是与唇、舌头和颌运动的幅度和速度降低有关,现有技术利用持续元音或连续语音对发音进行分析得知,发音特征主要包括元音空间面积、声五角面积和共振峰集中化比有关,且通过进一步单音/a/的持续发音分析表明,健康人(HC)说话的轮廓比帕金森患者(PD)的轮廓更加稳定,对于连续语音,通过计算清音段到清音段过渡过程中的能量含量来测量清晰度特征以及过渡偏移量,最后通过对语音信号中清音帧的频率内容和清音与清音之间的转换进行建模,从而得到语音信号中存在的噪声。
请参阅图1和图2,本申请采用双向LSTM模型捕获语音信号的时间序列特征来检测PD。双向LSTM模型以语音信号的动态时间序列发音特征(DF)作为输入。每个发音转换的DF包含58个测度,包括22个Bark带能量、12个梅尔倒谱系数、12个梅尔倒谱系数的一次微分和12个梅尔倒谱系数的二次微分。在输入双向LSTM模型之前,所有的动态特征序列将被零填充到相同的长度,本申请的动态发音特征矩阵由为40ms的帧(时移为20ms)的8个发音特征构成,动态调音矩阵由为40ms的帧(时移为20ms)的10个调音特征构成,利用发音特征和调音特征与双向长短时记忆循环神经网络相结合,实现建模,从而快速实现对PD患者的检测。
利用双向LSTM通过迭代来自t=(1,…,n)的前向层和来自t=(N,…,1)的后向层来计算前向隐藏序列h、后向隐藏序列h和输出序列y,
Figure BDA0002973943790000061
Figure BDA0002973943790000062
Figure BDA0002973943790000063
其中W表示权重矩阵,b表示偏差向量,S是向量每个元素上的隐藏层函数,在双向LSTM网络中,每个神经网络单元是一个LSTM单元,
ft=σ(WAFfAFt+Whfht-1+Wcfct-1+bf)
it=σ(WAFiAFt+Whiht-1+Wcict-1+bi)
ot=σ(WAFoAFt+Whoht-1+Wcoct+bo)
ct=ftct-1+ittanh(WAFcAFt+Whcht-1+bc)
ht=ottanh(ct)
其中σ逻辑sigmoid函数ft表示遗忘门,it表示输入门,Ot表示输出门,Ct表示单元状态;双向LSTM网络输出被馈送到完全连接的层,以获得类别输出,从而判断得到是否为帕金森患者。
下面以具体实施例来阐述本申请的技术方案,当然本申请的保护范围不仅仅于此,任何在本申请的基础上,在没有付出任何创造性劳动的前提下所做的改变,都属于本申请的保护范围。
一共采用45名志愿者(25名女性,20名男性)参与实验,其中15名为健康人士(HC),30名为帕金森患者(PD),其中帕金森患者中包含有1-5期帕金森病的患者,个体年龄在37-75岁之间,对于所有的志愿者,收集记录了5-6个声音样本,包括持续时间约为5秒的单声道/a/和持续时间约为5秒的短句,总共包括268个样本。并且将这些声音进行重新编辑,以96kHz的频段进行保存,采样NeuroSpeech软件对这些声音进行特征提取,获得发音特征和调音特征。
采用两种评价方法:1)10倍交叉验证;2)将数据集分割成训练集和测试集,其中没有一个个体的样本重叠,以确保无偏倚的结果。
1.采用传统的ML模型来检测PD
采用下表的配制参数来进行实验
Figure BDA0002973943790000081
利用不同的静态语音特征,比较几种传统的最大似然模型,下表列出了语音特征的尺寸和主要分析后的尺寸:
Figure BDA0002973943790000082
评估指标包括准确性(Accuracy),F-score、特异性(Specifity)、敏感性(Sensitivity、),Matthews相关系数(MCC),Fit_time和Score_time,这些指标的公式如下:
Figure BDA0002973943790000083
Figure BDA0002973943790000084
Figure BDA0002973943790000085
Figure BDA0002973943790000086
Figure BDA0002973943790000087
其中TP、TN、FP、FN为真阳性、真阴性、假阳性、假阴性的数目。敏感性和特异性是正确分类阳性和阴性病例的统计指标。f分数是精确度和召回率的调和平均值。MCC是一个用于量化值在-1到+1之间的二元分类质量的指标。而+1表示完美的预测,-1表示预测与实际标签不一致,0表示分类并不比随机预测好,Fit_time是每个CV分割对训练集上的估计量进行拟合的时间;Score_time是对每个CV分割在测试集中对估计量进行评分的时间。
利用动态语音特征在局部放电检测中的作用,并预先定义网络结构和参数并预先定义网络结构和参数。对于CNN模型,测试了卷积层中的三个激活函数(Relu,Tanh,Sigmoid)。卷积只在时间轴上进行。对于RNN模型,测试双向LSTM网络结构。
参数信息如下:
Figure BDA0002973943790000091
此外,还使用CNN模型转化为DL模型(CTD),对应的时频表示:a)线性标度-傅立叶变换;b)梅尔标度STFT谱图;3)恒Q变换(CQT)谱图;
对于RNN模型,参数信息如下:
Figure BDA0002973943790000092
通过处理得到以下结果:
Figure BDA0002973943790000101
经过10倍交叉验证进行评估,可以发现通过RNN模型,所获得的结果从准确度、得分(F-score)以及特异性都具有良好的结果。更进一步的分析得知,在短句上使用动态发音特征的双向LSTM模型获得了最佳的准确度、得分(F-score)以及特异性。但是单个计算时间比CNN长。与使用静态特征的传统ML模型相比,使用动态特征的基本DL模型显著提高了性能。
通过最大似然法检测帕金森病患者的语音变化已被证明是帕金森病早期检测的一种有前途的方法。在从语音中检测局部放电的任务中,基于最大似然方法的性能主要受语音特征和最大似然模型结构的影响。本申请利用与帕金森病检测相关的静态和动态语音特征。对发音过渡特征的比较分析表明,在HC说话者和PD患者之间,发音过渡的次数和基频曲线的趋势是显著不同的。采用配对t检验来评估说话人组和帕金森病组之间的发音转换次数的差异,得到的p值为0.042(<0.05),这表明这种差异不是偶然发生的,利用这一点,在使用动态语音特征中,采用双向LSTM模型,对于短句子的输入语音信号,双向LSTM提高了分类精度达到了84.29%,具有较好的应用前景。
以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1.一种基于语音上下文动态特征的帕金森病检测方法,其特征在于,所述基于语音上下文动态特征的帕金森病检测方法包括以下步骤:
语音样本采集:在安静的环境下,对帕金森患者的声音进行采集,获得语音样本;
语音信号预处理:对采集的语音样本的频率进行重新采样;
语音特征的提取:对所采集的语音样本进行特征提取,包括发音特征和调音特征的提取;
建立语音检测模型:以双向长短时记忆循环神经网络为基础,结合语音特征建立帕金森语音检测模型;
利用帕金森语音检测模型对帕金森病的快速检测。
2.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,在对语音信号的预处理过程中,对采集的语音样本的频率重新采样到48-96kHZ区间并保存。
3.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,在对语音特征的提取步骤中,主要采用发音特征和调音特征进行提取,发音特征包括基音频率、基音频率的一次微分和二次微分,基频微扰,振幅微扰、振幅摄动商和对数能量;调音特征包括Bark带能量、梅尔倒谱系数、梅尔倒谱系数的一次微分和二次微分、第一共振峰频率和第二共振峰频率,第一共振峰的一次微分和二次微分以及第二共振峰频率的一次微分和二次微分。
4.根据权利要求3所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,对所获取的语音信息进行分析,获得基音频率(F0),同时对基音频率进行一次微分(dF0)和二次微分(d2F0),基频微扰(Jitter)采用公式
Figure FDA0002973943780000011
进行计算,其中N是语音发声的帧数,Mf是基音频率的最大值,F0(k)为对应在第k帧上计算的基频。
5.根据权利要求3所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,振幅微扰(Shimmer)采用公式
Figure FDA0002973943780000012
进行计算,其中Ma是信号的最大振幅,A(k)对应于第k帧的振幅。
6.根据权利要求3所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,振幅设动商(APQ)采用公式
Figure FDA0002973943780000021
进行计算,其中M是振幅周期序列的长度,k是移动平均值的长度,L=M-(k-1),m=(k-1)/2,A(i)是振幅周期序列;音调摄动商(PPQ)采用公式
Figure FDA0002973943780000022
进行计算,其中P是音调周期序列的长度,k是移动平均值的长度,L=M-(k-1),m=(k-1)/2,D(i)是音调周期序列。
7.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,语音特征的提取是采用连续的发言特征和调音特征形成动态发音矩阵和动态调音矩阵;动态发音矩阵由帧数和发音特征组成,动态调音矩阵由帧数和调音特征组成。
8.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,对一段语音输入信号进行拆分处理,从而获得多个分段语音信号,将每一段语音信号拆分为发音特征和调音特征,然后采用双向长短时记忆循环神经网络建立帕金森语音检测模型。
9.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,双向长短时记忆循环神经网络包括动态特征、向前隐含层、向后隐含层和LSTM循环神经网络输出层,向前隐含层和向后隐含层对动态特征进行计算,最后通过LSTM循环神经网络输出层得到相关的信息,从而判断是否为帕金森患者。
10.根据权利要求1所述的基于语音上下文动态特征的帕金森病检测方法,其特征在于,双向长短时记忆循环神经网络中的相关计算公式为
Figure FDA0002973943780000023
Figure FDA0002973943780000024
Figure FDA0002973943780000025
其中W为权矩阵,b为偏置向量,S为向量每个元素的隐含层函数。
CN202110270049.9A 2021-03-12 2021-03-12 基于语音上下文动态特征的帕金森检测模型构建方法 Active CN112820279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110270049.9A CN112820279B (zh) 2021-03-12 2021-03-12 基于语音上下文动态特征的帕金森检测模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110270049.9A CN112820279B (zh) 2021-03-12 2021-03-12 基于语音上下文动态特征的帕金森检测模型构建方法

Publications (2)

Publication Number Publication Date
CN112820279A true CN112820279A (zh) 2021-05-18
CN112820279B CN112820279B (zh) 2024-02-09

Family

ID=75863195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110270049.9A Active CN112820279B (zh) 2021-03-12 2021-03-12 基于语音上下文动态特征的帕金森检测模型构建方法

Country Status (1)

Country Link
CN (1) CN112820279B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284512A (zh) * 2021-05-25 2021-08-20 重庆大学 一种基于深度稀疏迁移学习的帕金森语音分类方法
CN114373484A (zh) * 2022-03-22 2022-04-19 南京邮电大学 语音驱动的帕金森病多症状特征参数的小样本学习方法
CN115985490A (zh) * 2023-03-17 2023-04-18 四川大学华西医院 一种帕金森疾病客观化、定量化早期诊断系统及存储介质
CN116110437A (zh) * 2023-04-14 2023-05-12 天津大学 基于语音特征和说话人特征融合的病理嗓音质量评价方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN110335624A (zh) * 2019-07-29 2019-10-15 吉林大学 基于功率归一化倒谱系数特征的帕金森病语音检测方法
CN110390001A (zh) * 2019-06-04 2019-10-29 深思考人工智能机器人科技(北京)有限公司 一种观点型机器阅读理解的实现方法、装置
US20200227064A1 (en) * 2017-11-15 2020-07-16 Institute Of Automation, Chinese Academy Of Sciences Auditory selection method and device based on memory and attention model
CN111883102A (zh) * 2020-07-14 2020-11-03 中国科学技术大学 一种双层自回归解码的序列到序列语音合成方法及系统
CN112183430A (zh) * 2020-10-12 2021-01-05 河北工业大学 一种基于双神经网络的手语识别方法及装置
US20210074264A1 (en) * 2017-10-23 2021-03-11 Ping An Technology (Shenzhen) Co., Ltd. Speech recognition method, apparatus, and computer readable storage medium

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
US20210074264A1 (en) * 2017-10-23 2021-03-11 Ping An Technology (Shenzhen) Co., Ltd. Speech recognition method, apparatus, and computer readable storage medium
US20200227064A1 (en) * 2017-11-15 2020-07-16 Institute Of Automation, Chinese Academy Of Sciences Auditory selection method and device based on memory and attention model
CN110390001A (zh) * 2019-06-04 2019-10-29 深思考人工智能机器人科技(北京)有限公司 一种观点型机器阅读理解的实现方法、装置
CN110335624A (zh) * 2019-07-29 2019-10-15 吉林大学 基于功率归一化倒谱系数特征的帕金森病语音检测方法
CN111883102A (zh) * 2020-07-14 2020-11-03 中国科学技术大学 一种双层自回归解码的序列到序列语音合成方法及系统
CN112183430A (zh) * 2020-10-12 2021-01-05 河北工业大学 一种基于双神经网络的手语识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
卢官明;袁亮;杨文娟;闫静杰;李海波;: "基于长短期记忆和卷积神经网络的语音情感识别", 南京邮电大学学报(自然科学版), no. 05 *
李洋;董红斌;: "基于CNN和BiLSTM网络特征融合的文本情感分析", 计算机应用, no. 11 *
杨鸿武;周刚;: "基于改进混合CTC/attention架构的端到端普通话语音识别", 西北师范大学学报(自然科学版), no. 03 *
王申涛;陈晓辉;: "基于长短时记忆网络(LSTM)的帕金森步态识别", 信息通信, no. 01 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284512A (zh) * 2021-05-25 2021-08-20 重庆大学 一种基于深度稀疏迁移学习的帕金森语音分类方法
CN113284512B (zh) * 2021-05-25 2022-05-27 重庆大学 一种基于深度稀疏迁移学习的帕金森语音分类方法
CN114373484A (zh) * 2022-03-22 2022-04-19 南京邮电大学 语音驱动的帕金森病多症状特征参数的小样本学习方法
CN115985490A (zh) * 2023-03-17 2023-04-18 四川大学华西医院 一种帕金森疾病客观化、定量化早期诊断系统及存储介质
CN115985490B (zh) * 2023-03-17 2023-06-13 四川大学华西医院 一种帕金森疾病客观化、定量化早期诊断系统及存储介质
CN116110437A (zh) * 2023-04-14 2023-05-12 天津大学 基于语音特征和说话人特征融合的病理嗓音质量评价方法

Also Published As

Publication number Publication date
CN112820279B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN107657964B (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
CN112820279B (zh) 基于语音上下文动态特征的帕金森检测模型构建方法
Shama et al. Study of harmonics-to-noise ratio and critical-band energy spectrum of speech as acoustic indicators of laryngeal and voice pathology
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
CN115346561B (zh) 基于语音特征的抑郁情绪评估预测方法及系统
CN108682432B (zh) 语音情感识别装置
Reddy et al. The automatic detection of heart failure using speech signals
CN103366735A (zh) 语音数据的映射方法和装置
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
Nishikawa et al. Machine learning model for discrimination of mild dementia patients using acoustic features
CN113974607A (zh) 一种基于脉冲神经网络的睡眠鼾声检测系统
Reddy et al. Exemplar-Based Sparse Representations for Detection of Parkinson's Disease From Speech
Alimuradov et al. A method to determine cepstral markers of speech signals under psychogenic disorders
Hadjaidji et al. Spasmodic dysphonia detection using machine learning classifiers
Godino-Llorente et al. Discriminative methods for the detection of voice disorders
Cai et al. The best input feature when using convolutional neural network for cough recognition
Vaishnavi et al. Neonatal cry signal prediction and classification via dense convolution neural network
Manjutha et al. An optimized cepstral feature selection method for dysfluencies classification using Tamil speech dataset
Chit et al. Myanmar continuous speech recognition system using fuzzy logic classification in speech segmentation
Costa et al. Parametric cepstral analysis for pathological voice assessment
CN113571050A (zh) 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
Kumar et al. Analysis and classification of electroglottography signals for the detection of speech disorders
Kumar et al. Parkinson’s Speech Detection Using YAMNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant