CN109285551B - 基于wmfcc和dnn的帕金森患者声纹识别方法 - Google Patents

基于wmfcc和dnn的帕金森患者声纹识别方法 Download PDF

Info

Publication number
CN109285551B
CN109285551B CN201811083605.6A CN201811083605A CN109285551B CN 109285551 B CN109285551 B CN 109285551B CN 201811083605 A CN201811083605 A CN 201811083605A CN 109285551 B CN109285551 B CN 109285551B
Authority
CN
China
Prior art keywords
training
samples
mel
feature
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811083605.6A
Other languages
English (en)
Other versions
CN109285551A (zh
Inventor
张颖
徐志京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN201811083605.6A priority Critical patent/CN109285551B/zh
Publication of CN109285551A publication Critical patent/CN109285551A/zh
Application granted granted Critical
Publication of CN109285551B publication Critical patent/CN109285551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明提出了一种利用WMFCC提取人们的声纹特征、DNN识别并分类的方法,用于区分帕金森患者和健康人。WMFCC通过计算患者声纹中倒谱系数的加权和系数,解决高阶倒谱系数小、特征分量对音频的表征能力差等问题。DNN训练并分类识别有效地提高系统精度,使用MBGD优化算法降低损失函数的计算量进而提高系统训练速度。利用PD(帕金森)database中样本训练并测试分类,提高了判别帕金森患者的准确率,为帕金森患者早期快速辅助诊断提供了良好的解决方案。

Description

基于WMFCC和DNN的帕金森患者声纹识别方法
技术领域:
本发明涉及帕金森患者与健康人的声纹特征提取和判别分类,具体地说,是一种基于WMFCC和DNN的帕金森患者声纹识别方法,为PD患者早期快速辅助诊断提供了良好的解决方案。
背景技术:
帕金森病(PD)是仅次于阿尔茨海默病的第二种常见神经系统疾病。声音障碍被认为是最早的疾病征兆之一。早期阶段,声音存在的细微异常对听者来说是不可察觉的,但可将记录的语音信号进行声学分析来客观评估。现有的PD检测是利用PET-CT显像设备检测多巴胺能神经元是否减少,但其价格高且有辐射性等原因使患者接受度较低。20世纪90年代,各种浅层机器学习模型相继被提出,其中支持向量机(SVM)最为突出。2015年Benba等人提出了梅尔倒谱系数(MFCC)和SVM用于PD患者的声纹分析来区分PD患者和健康人。2016年Benba等人进一步研究了SVM的多层感知器(MLP)核函数与其他核函数的对比情况,但利用MFCC提取特征存在高阶倒谱系数非常小等问题,核函数分类器计算量大、训练时间长,且判别准确性也有待提高。SVM等多数分类为浅层结构算法,局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,而深度学习可通过学习一种深层非线性网络结构实现复杂函数逼近,并展现强大的从少数样本集中学习数据集本质特征的能力。本专利利用加权梅尔倒谱系数(Weighted-MFCC,WMFCC)提取声纹特征从而增强敏感分量,运用深度学习中深度神经网络(DNN)的多层神经网络识别分类,提高判别PD患者的准确性。
发明内容:
1、采用WMFCC(加权MFCC)来提取声纹特征,解决高阶倒谱系数非常小的问题,突出MFCC参数的敏感量。
原理:语音特征参数的提取在声纹识别中是至关重要的。目前声纹识别领域中,提取特征最常用的为MFCC。语音信号是缓慢变化的,当它在短时间内被感知时,一般在10-30ms的时间间隔语音信号被认为是稳定的。因此应通过短时谱分析来计算,并使用Mel尺度来估计人耳的频率感知,是以1000Hz对应于1000Mel的方式计算的。
本研究使用时间的语音质量、频谱和倒谱域以便制定更客观的评估来检测语音障碍。这些测量包括声带振动的基频、绝对的声压级、抖动、微光和调和。基于PD患者的发音特点,提取其中的特征参数进行分析。然而特征参数包含的各个分量对语音样本的声纹特征表征能力存在差异,传统的MFCC方法提取的声纹特征高阶倒谱系数小、特征分量对音频的表征能力差,为了增强辨识的敏感分量,本研究通过计算多维语料的熵值,分析各维特征参数对声纹表征的贡献度,采用熵值加权法提取声纹特征,从而提高系统的辨识精度。
2、在帕金森诊断领域应用DNN来训练并分类,利用小批量梯度下降算法来优化DNN。
目前,众多学者未利用深度学习领域的方法来判别PD患者的患病情况,本研究提出利用DNN来训练并分类PD database中的样本集,并且为了解决梯度下降算法和随机梯度下降算法的不足,故选取了一种新的融合算法——小批量梯度下降(MBGD)算法,即在更新每一参数时都只计算小部分训练样本的损失函数。其小部分样本本文称为一个batch。一则,利用矩阵运算,在一个batch上优化神经网络的参数与单个样本相比速度相当。二则,每次使用小部分样本能够较大程度地减小收敛所需的迭代次数,在减小收敛的同时,得到的结果会更接近梯度下降算法的精确度。
附图说明:
图1是本发明基于WMFCC和DNN的帕金森患者声纹识别方法的实现PD患者和健康人分类的系统流程图。
图2是本发明基于WMFCC和DNN的帕金森患者声纹识别方法的WMFCC提取流程图。
图3是本发明基于WMFCC和DNN的帕金森患者声纹识别方法的MBGD优化算法的流程图。
具体实施方式:
步骤一:WMFCC声纹特征提取
语音特征参数的提取在声纹识别中是至关重要的。目前声纹识别领域中,提取特征最常用的为MFCC。语音信号是缓慢变化的,当它在短时间内被感知时,一般在10-30ms的时间间隔语音信号被认为是稳定的。因此应通过短时谱分析来计算,并使用Mel尺度来估计人耳的频率感知,是以1000Hz对应于1000Mel的方式计算的。
本技术使用时间的语音质量、频谱和倒谱域以便制定更客观的评估来检测语音障碍。这些测量包括声带振动的基频、绝对的声压级、抖动、微光和调和。基于PD患者的发音特点,提取其中的特征参数进行分析。然而特征参数包含的各个分量对语音样本的声纹特征表征能力存在差异,传统的MFCC方法提取的声纹特征高阶倒谱系数小、特征分量对音频的表征能力差,为了增强辨识的敏感分量,则通过计算多维语料的熵值,分析各维特征参数对声纹表征的贡献度,采用熵值加权法提取声纹特征,从而提高系统的辨识精度。
具体提取流程如下:
步骤11:预加重、分帧:为了消除发声过程中嘴唇和声带造成的效应,补偿语音信号受发音系统所压抑的高频部分并能突显高频的共振峰。所以将一阶差分方程应用到语音样本中来提高高频的幅值。实则是将语音信号通过一个高通滤波器:
H(z)=1-kz-1
式中k是预加重系数,应在0<k≤1范围,通常取0.97。
分帧步骤中,语音信号被划分为N个样本帧。为避免相邻两帧变化过大,因此使两相邻帧之间存在一段重叠区域,该重叠区域包含了M个取样点,其中M<N。
步骤12:加窗:加汉明窗的目的是减少信号的不连续性,使两端光滑,足以连接到开始。
假设分帧后的信号为是s(n),n为帧的大小。其中{sn,n=1,...,N}。s'n形式如下:
Figure BDA0001802571180000041
步骤13:快速傅立叶变换(Fast Fourier Transform,FFT):利用FFT将N个样本从时域转换为频域。使用FFT是因为它为一类快速算法,可实现离散傅立叶变换(DFT)。DFT是在N个样本集上定义的,设语音信号的DFT为:
Figure BDA0001802571180000051
式中sk为输入的语音信号,N表示傅立叶变换的点数。
步骤14:滤波器组分析:频域存在若干冗余信号,滤波器组可对频域的幅值进行精简。人耳对声音的感知并不是线性的,用log这种非线性关系更好描述,则Mel频率与语音信号的关系:
Figure BDA0001802571180000052
其中Mel(f)表示梅尔频率,单位为mel,f为语音信号频率,单位为Hz。
步骤15:离散余弦变换(DCT):该步进行反傅立叶变换,通过低通滤波器获得最后的低频信号,通过DCT对数滤波器组的振幅(mj)计算:
Figure BDA0001802571180000053
其中N是滤波器组信道的个数。
步骤16:加权:倒谱系数和系数的主要优点为彼此不相关,但高阶倒谱系数非常小,呈现的敏感分量不明显进而降低了提取有效特征的识别率和后续的分类识别率。故在MFCC的基础上使用了熵值法提高特征分量对声纹特征的表征能力,该方法计算简便且考虑了特征分量间的相互影响。熵值法是一种适合相互独立的变量之间计算权重的客观赋权方法,是根据计算分量的信息熵决定分量的权重。熵的值越大,则代表携带的信息越少,分量的权重也越小,反之结论仍然成立。因此,它是改变这些倒谱系数至关重要的一步。是通过以下方程实现:在PD database语音样本的声纹特征中,MFCC=(M1,M2,M3,...,Mi,...,MN),其中Mi=(meli(1),...,meli(j),...,meli(D))为声纹特征的第i帧的特征向量,D为特征参数维数,N为语音样本的帧数,meli(j)为声纹特征第i帧的第j个特征向量值。
首先,将特征矩阵标准化:
Figure BDA0001802571180000061
定义熵,其中
Figure BDA0001802571180000062
Figure BDA0001802571180000063
得到的特征分量的熵权:
Figure BDA0001802571180000064
最后将MFCC各个分量的权重加权后,得到的新参数:
wMi=(w1·meli(1),...,wD·meli(D))
以一个语音样本为例,提取PD患者前20梅尔频率倒谱系数对应的特征值后利用熵值法加权方法计算其特征分量的权重。
在获得的每个语音样本中提取WMFCC的多倒谱系数,提取的系数范围为1~20。(第1个倒谱系数由于幅度变化太大失去参考意义)继续以这种方式获得最佳分类准确性所需要的系数最佳值。接着,利用计算所有帧的平均值来得到每个人声纹的方式提取对应的声纹。
对比可直观的得出WMFCC解决了高阶倒谱系数非常小的问题,在加权平均后也突出了MFCC参数的敏感量,且高阶倒谱系数的变化会影响后续有效特征的识别率。
步骤二:DNN深度神经网络设计,包括输入层、隐藏层和输出层。把输入层写作0层,把输出层写作L层。不同于浅层网络,DNN可以有多个隐层,当前隐藏层的输出为下一个隐藏层或者输出层的输入。运用反向传播(BP)算法给每层的参数求梯度。其中激活函数为修正线性单元(ReLU),其优点为:网络可以自行引入稀疏性的同时,也大大地提升了训练速度。
步骤21:DNN预训练的参数预训练算法
具体过程如下:若输入为连续特征,训练一个高斯-伯努利分布的RBM,若输入为二项分布特征,训练一个伯努利-伯努利分布的RBM。而后将隐藏层的输出作为下一层伯努利-伯努利分布RBM的输入数据,余下各层以此类推。该过程不需要标签信息,是无监督的训练过程。在预训练之后进行有监督的训练,根据本研究的任务和应用要求,在顶层添加训练数据的标签和评判标准的输出,并采用反向传播算法来调整网络的参数。
步骤22:反向传播算法
在运用反向传播进行参数训练时,通过一组训练样本(xi,yi),1≤i≤N来训练得到DNN的模型参数,其中xi为第i个样本的特征向量,yi为对应的标签。
输入x:为输入层设置对应的激活值。
前向传播:对每一层计算下式:
Figure BDA0001802571180000081
计算输出层误差eL:误差向量为:
Figure BDA0001802571180000082
误差反向传播:定义第l层节点的误差为:
el=diag(fl′(zl))·(Wl+1)T·el+1
输出:各层的权重矩阵和偏置分别由下式计算得出。
Figure BDA0001802571180000083
步骤23:小批量梯度下降优化算法
MBGD算法是在全部样本里随机抽取m个样本,而m是训练总样本。其中m个样本为:X1,X2,...,Xi,...,Xm。ω,b分别为网络中权值和偏置的集合,Yi和Ai分别为第i个样本输入下的期望输出和实际输出。||·||为范数运算,均方误差为:
Figure BDA0001802571180000091
其中
Figure BDA0001802571180000092
由梯度得
Figure BDA0001802571180000093
Figure BDA0001802571180000094
利用m个样本数据估计出整体梯度,m越大时估计越准确。此时更新公式为:
Figure BDA0001802571180000095
其中η为一个正数,取值区间为[0,1],η称为学习率。
经过多次试验最终确定每次抽取2个样本作为一个batch来计算损失函数,并更新参数。60次后,完成整个语音样本集的训练,称之一轮(epoch)。由于每次更新用到多个样本来计算损失函数,所以使得损失函数的计算和参数的更新更具代表性,损失函数的下降也更稳定,收敛速度更迅速,同时运用小批量计算也降低了计算量。
步骤三:采用k-fold交叉验证法用来衡量搭建模型的预测性能,使用训练好的模型在新数据上有极好的表现。
其中k-fold交叉验证为:初始采样分割成k份子样本,取一份单独的子样本作为验证模型的数据,训练则用剩余的k-1份样本。此过程重复k次,每份子样本验证一次,最后将得到的k次结果取平均来评估模型的性能。当k=n(即n为样本总量)时称为留一法,每次训练时的测试集只需单个样本,总共进行n次训练和预测。使用该方法选取的训练样本,仅比总数据集减少一份样本,故最接近原始样本的分布。继续使用同一医生收集的28例PD患者的独立测试集进行测试。进而跟Benba等人研究的不同内核的SVM的方法进行对比,即径向基(RBF),线性(Linear),多项式(POL)和MLP的SVM分类器。为测试这几种分类器在鉴别PD患者和健康人中的成功率,故计算其准确性、敏感性和特异性。另外进一步计算显示二元分类质量的马休斯相关系数(MCC)和概率过剩(PE)两个评判指标。

Claims (1)

1.一种基于WMFCC和DNN的帕金森患者声纹识别方法,其特征在于包括以下步骤:
步骤一:WMFCC声纹特征提取
具体步骤如下:
步骤11:预加重、分帧:将语音信号通过一个高通滤波器:H(z)=1-kz-1,其中z代表语音信号,k是预加重系数,应在0<k≤1范围,通常取0.97;
分帧步骤中,语音信号被划分为N个样本帧;为避免相邻两帧变化过大,因此使两相邻帧之间存在一段重叠区域,该重叠区域包含了M个取样点,其中M<N;
步骤12:加窗:设分帧后的信号为s(n),n为帧的大小,{sn,n=1,...,N};s'n形式为:
Figure FDA0004154271030000011
步骤13:FFT:利用FFT将P个样本从时域转换为频域;使用FFT实现DFT;设语音信号的DFT为:
Figure FDA0004154271030000012
sk为输入的语音信号,Q表示傅立叶变换的点数,j为虚数单位,k为系数,n为帧的大小;
步骤14:滤波器组分析:Mel频率与语音信号的关系:
Figure FDA0004154271030000013
Mel(f)表示梅尔频率,f为语音信号频率;
步骤15:DCT:通过DCT对数滤波器组的振幅mj计算:
Figure FDA0004154271030000014
R是滤波器组信道的个数,j为虚数单位;
步骤16:加权:PD database的声纹特征,MFCC=(M1,M2,M3,...,Mi,...,MS),Mi=(meli(1),...,meli(u),...,meli(D))为声纹特征的第i帧的特征向量,D为特征参数维数,S为语音样本的帧数,meli(u)为声纹特征第i帧的第u个特征向量值;
首先,将特征矩阵标准化:
Figure FDA0004154271030000021
定义熵
Figure FDA0004154271030000022
其中
Figure FDA0004154271030000023
特征分量的熵权:
Figure FDA0004154271030000024
将MFCC各个分量的权重加权后,新参数:wMi=(w1·meli(1),...,wD·meli(D)),其中,i为声纹特征的第几帧,u为第几个特征向量值,k为系数;
接着,提取PD患者前20梅尔频率倒谱系数,其中系数范围为1~20,对应的特征值后利用熵值法加权方法计算其特征分量的权重;
最后,用计算所有帧的平均值来得到每个人声纹的方式提取对应的声纹;
步骤二:步骤21:DNN预训练的参数预训练算法:
具体过程如下:若输入为连续特征,训练一个高斯-伯努利分布的RBM,若输入为二项分布特征,训练一个伯努利-伯努利分布的RBM;而后将隐藏层的输出作为下一层伯努利-伯努利分布RBM的输入数据,余下各层以此类推;该过程不需要标签信息,是无监督的训练过程;在预训练之后进行有监督的训练,在顶层添加训练数据的标签和评判标准的输出,并采用反向传播算法来调整网络的参数;
步骤22:反向传播算法:
通过一组训练样本(xw,yw),1≤w≤T来训练得到DNN的模型参数,其中xw为第w个样本的特征向量,yw为对应的标签,T为样本总数;
输入x:为输入层设置对应的激活值;
前向传播:对每一层网络计算zl=Wlvl-1+bl和vl=f(zl),其中z为步骤11的语音信号,zl和v1-l代表前向传播的每层网络、bl和Wl代表前向传播的语音变量参数;
计算输出层误差eL:误差向量为:
Figure FDA0004154271030000031
误差反向传播:定义第l层节点的误差为:el=diag(fl′(zl))·(Wl+1)T·el+1
输出:各层的权重矩阵和偏置由
Figure FDA0004154271030000032
Figure FDA0004154271030000033
计算得出,其中k′为系数,n为帧的大小,x(0)、
Figure FDA0004154271030000034
x(k)、x(n-k)、
Figure FDA0004154271030000035
代表当帧数大小不一致时的输出信号;
步骤23:小批量梯度下降优化算法:
首先,MBGD算法是在全部样本里随机抽取m个样本,其中m是训练总样本;其中m个样本为:X1,X2,...,Xx,...,Xm;ω,b分别为网络中权值和偏置的集合,Yx和Ax分别为第x个样本输入下的期望输出和实际输出;||·||为范数运算,均方误差为:
Figure FDA0004154271030000036
Figure FDA0004154271030000037
由梯度得▽C:
Figure FDA0004154271030000038
接着,由m个样本数据估计出整体梯度,m越大时估计越准确;此时更新公式为:
Figure FDA0004154271030000039
其中η为一个正数,取值区间为[0,1],η称为学习率,i为声纹特征帧;最后,每次抽取2个样本作为一个batch来计算损失函数,并更新参数;60次后,完成整个语音样本集的训练;
步骤三:采用k-fold交叉验证法用来衡量搭建模型的预测性能:
初始采样分割成k份子样本,取一份单独的子样本作为验证模型的数据,训练则用剩余的k-1份样本;此过程重复k次,每份子样本验证一次,取k=n,最后将得到的n次结果取平均来评估模型的性能;继续使用同一医生收集的28例PD患者的独立测试集进行测试;为测试鉴别PD患者和健康人中的成功率,计算其包括准确性、敏感性和特异性的评判指标。
CN201811083605.6A 2018-09-18 2018-09-18 基于wmfcc和dnn的帕金森患者声纹识别方法 Active CN109285551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811083605.6A CN109285551B (zh) 2018-09-18 2018-09-18 基于wmfcc和dnn的帕金森患者声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811083605.6A CN109285551B (zh) 2018-09-18 2018-09-18 基于wmfcc和dnn的帕金森患者声纹识别方法

Publications (2)

Publication Number Publication Date
CN109285551A CN109285551A (zh) 2019-01-29
CN109285551B true CN109285551B (zh) 2023-05-12

Family

ID=65181645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811083605.6A Active CN109285551B (zh) 2018-09-18 2018-09-18 基于wmfcc和dnn的帕金森患者声纹识别方法

Country Status (1)

Country Link
CN (1) CN109285551B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062409A (zh) * 2019-10-30 2020-04-24 闽南师范大学 一种无监督图像特征的提取及分类方法
CN111292851A (zh) * 2020-02-27 2020-06-16 平安医疗健康管理股份有限公司 数据分类方法、装置、计算机设备和存储介质
CN112233785B (zh) * 2020-07-08 2022-04-22 华南理工大学 一种帕金森症的智能识别方法
CN112017632A (zh) * 2020-09-02 2020-12-01 浪潮云信息技术股份公司 一种自动化会议记录生成方法
CN112200237B (zh) * 2020-10-05 2024-02-02 武汉理工大学 一种结构健康监测系统时序监测数据异常诊断方法
CN113855065B (zh) * 2021-09-28 2023-09-22 平安科技(深圳)有限公司 基于浅层学习和深度学习融合的心音识别方法及相关装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN103730130B (zh) * 2013-12-20 2019-03-01 中国科学院深圳先进技术研究院 一种病理嗓音的检测系统
WO2017031350A1 (en) * 2015-08-19 2017-02-23 Massachusetts Instutute Of Technology Assessing disorders through speech and a computational model
CN105161092B (zh) * 2015-09-17 2017-03-01 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
EP3200188A1 (en) * 2016-01-27 2017-08-02 Telefonica Digital España, S.L.U. Computer implemented methods for assessing a disease through voice analysis and computer programs thereof
US20170258390A1 (en) * 2016-02-12 2017-09-14 Newton Howard Early Detection Of Neurodegenerative Disease
CN107610707B (zh) * 2016-12-15 2018-08-31 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN107292230B (zh) * 2017-05-09 2020-07-28 华南理工大学 基于卷积神经网络且具备仿冒检测能力的嵌入式指静脉识别方法
CN108305680B (zh) * 2017-11-13 2021-08-10 陈霄 基于多元生物学特征的智能帕金森症辅助诊断方法和装置
CN108269574B (zh) * 2017-12-29 2021-05-25 安徽科大讯飞医疗信息技术有限公司 语音信号处理以表示用户声带状态的方法及装置、存储介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于倒谱分量的融合参数应用于声纹识别;郑凯鹏;周萍;张上鑫;柯晶晶;;微电子学与计算机(第08期);全文 *

Also Published As

Publication number Publication date
CN109285551A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN109285551B (zh) 基于wmfcc和dnn的帕金森患者声纹识别方法
CN107657964B (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
Karan et al. Non-negative matrix factorization-based time-frequency feature extraction of voice signal for Parkinson's disease prediction
Fujimura et al. Classification of voice disorders using a one-dimensional convolutional neural network
Fook et al. Comparison of speech parameterization techniques for the classification of speech disfluencies
Upadhya et al. Thomson Multitaper MFCC and PLP voice features for early detection of Parkinson disease
CN111798874A (zh) 一种语音情绪识别方法及系统
Kapoor et al. Parkinson’s disease diagnosis using Mel-frequency cepstral coefficients and vector quantization
Jothilakshmi Automatic system to detect the type of voice pathology
Karan et al. An improved framework for Parkinson’s disease prediction using Variational Mode Decomposition-Hilbert spectrum of speech signal
Wang et al. Automatic assessment of pathological voice quality using multidimensional acoustic analysis based on the GRBAS scale
CN109192221A (zh) 一种基于聚类的使用语音判断帕金森严重程度检测方法
Srinivasan et al. Artificial neural network based pathological voice classification using MFCC features
Ilyas Pseudo-colored rate map representation for speech emotion recognition
Archana et al. Gender identification and performance analysis of speech signals
Illa et al. The impact of speaking rate on acoustic-to-articulatory inversion
Jafari Classification of Parkinson's disease patients using nonlinear phonetic features and Mel-frequency cepstral analysis
Deb et al. Detection of common cold from speech signals using deep neural network
Sharma et al. Audio texture and age-wise analysis of disordered speech in children having specific language impairment
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
Ankışhan A new approach for detection of pathological voice disorders with reduced parameters
Porieva et al. Investigation of lung sounds features for detection of bronchitis and COPD using machine learning methods
Sunija et al. Comparative study of different classifiers for Malayalam dialect recognition system
Yu et al. Multidimensional acoustic analysis for voice quality assessment based on the GRBAS scale

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant