CN110335624A - 基于功率归一化倒谱系数特征的帕金森病语音检测方法 - Google Patents
基于功率归一化倒谱系数特征的帕金森病语音检测方法 Download PDFInfo
- Publication number
- CN110335624A CN110335624A CN201910686991.6A CN201910686991A CN110335624A CN 110335624 A CN110335624 A CN 110335624A CN 201910686991 A CN201910686991 A CN 201910686991A CN 110335624 A CN110335624 A CN 110335624A
- Authority
- CN
- China
- Prior art keywords
- power
- voice
- parkinson
- disease
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000018737 Parkinson disease Diseases 0.000 title claims abstract description 75
- 238000010606 normalization Methods 0.000 title claims abstract description 54
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 238000001228 spectrum Methods 0.000 claims abstract description 100
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 27
- 230000000873 masking effect Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 208000024891 symptom Diseases 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000004615 ingredient Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003716 rejuvenation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了基于功率归一化倒谱系数特征的帕金森病语音检测方法,为克服帕金森病语音检测中易受噪声干扰的问题,通过Gammatone滤波器、去除噪声、功率归一化等方法增强所提取特征的鲁棒性,检测方法步骤:1)建立帕金森病语音库和健康语音库;2)对语音信号进行功率归一化倒谱系数特征提取:首先对语音信号进行预处理,然后利用Gammatone滤波器进行滤波,得到语音短时功率谱,接下来对语音短时功率谱进行加权平滑,最后计算功率归一化倒谱系数特征;3)利用外积得到特征向量;4)对特征向量进行功率和l2范数归一化;5)利用SVM训练帕金森病语音和健康语音模型;6)利用SVM分类方法进行分类,实现帕金森病语音检测。
Description
技术领域
本发明涉及信号处理和模式识别技术领域的一种方法,更确切地说,本发明涉及一种基于功率归一化倒谱系数特征的帕金森病语音检测方法。
背景技术
帕金森病是一种常见的神经退行性疾病,严重影响人类的健康。随着人口老龄化的加剧,帕金森病患者越来越多,并且有年轻化的趋势,帕金森病诊治形势日益严峻。随着时间的发展,该病症状越来越严重,并且不能彻底治愈,但早期干预和治疗能够缓解症状,提高患者生活质量。由于帕金森病发病初期症状不明显,而且没有一个普遍适用的标准能够快速准确地诊断帕金森病,很容易漏诊和误诊。大部分患者从出现症状到临床确诊,平均需要10个月时间,误诊率很高。如果能够实现帕金森病的可靠检测,使患者能在早期接受治疗,在延缓其病情发展,提高其生活质量,减轻家庭和社会负担等方面具有重要的意义。
研究表明,超过90%的帕金森病患者具有语言障碍,随着病情加重这种症状越来越明显,表现为讲话速度异常、音量变低、高次谐波频谱能量降低、声音震颤、音调变化、不合适宜的停顿等。由于语音信号采集方便,易于存储和传输,利用语音特征检测帕金森病具有简单、无创、成本低、可远程实现、容易普及等优点,这一领域的研究引起了国内外众多学者的广泛关注。
以往利用语音检测帕金森病研究大多没有考虑噪声影响,检测准确率可达90%以上。但在现实环境下,语音信号采集过程中不可避免地受到环境噪声的干扰,影响语音特征参数的准确性,导致检测性能下降。
本发明针对帕金森病语音检测中的噪声干扰问题,通过提取功率归一化倒谱系数特征提高特征的鲁棒性,利用外积既克服了利用短时特征计算量大的问题,又从不等长的语音信号中求得等长的特征向量,避免了长时特征注重全局而忽略局部特征的缺点,然后利用支持向量机(Support Vector Machine,SVM)分类方法进行分类,实现帕金森病语音检测。
发明内容
本发明所要解决的技术问题是克服了帕金森病语音检测中易受噪声干扰的问题,提供了一种基于功率归一化倒谱系数特征的帕金森病语音检测方法。
为解决上述技术问题,本发明是采用如下技术方案实现的:所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法包括步骤如下:
1)建立帕金森病语音库和健康语音库
相对安静环境中的帕金森病语音库来自美国加州大学欧文分校UCI机器学习数据库中的帕金森病语音库,把其中元音/a/的发音分割成98个音频文件;
健康语音库是在相对安静环境中采用手机录制的,共78个元音/a/的音频文件;
帕金森病语音和健康语音的采样频率都转换为16kHz,文件都为wav格式;此处得到相对安静环境中的帕金森病语音库和健康语音库;
2)对语音信号进行功率归一化倒谱系数特征提取;
3)利用外积得到特征向量;
4)对特征向量进行功率和l2范数归一化;
5)利用SVM训练帕金森病语音和健康语音模型;
6)利用SVM分类方法进行分类,实现帕金森病语音检测
SVM分类方法利用LIBSVM工具箱中Python语言实现,利用步骤5)得到的语音模型,调用svm_predict函数,利用data.txt文件中的剩下的1份进行测试,得到帕金森病语音分类结果,即为帕金森病语音检测结果。
技术方案中所述的对语音信号进行功率归一化倒谱系数特征提取是指:
1)对语音信号进行预处理
利用系统函数为H(Z)=1-αz-1的一阶高通滤波器对语音信号进行预加重提升高频成分,其中α为接近1的常数,然后进行分帧,加窗,帧长为N个采样点,帧重叠为P个采样点;
2)利用Gammatone滤波器进行滤波,得到语音短时功率谱;
3)对语音短时功率谱进行加权平滑;
4)计算功率归一化倒谱系数特征,步骤如下:
(1)利用计算平均功率μ[m],
式中:λμ为常数,μ[0]=0为初始值;
(2)利用U[m,l]=βT[m,l]/μ[m]计算归一化功率U[m,l],其中:β为常数;
(3)利用V[m,l]=log(U[m,l])对归一化功率非线性化;
(4)对V[m,l]进行离散余弦变换得D[m,q],取前Q个系数,其中:1≤q≤Q;
(5)利用实现功率归一化倒谱系数特征y[m,q]的提取。
技术方案中所述的利用Gammatone滤波器进行滤波,得到语音短时功率谱是指:
(1)分别对每帧语音信号进行K点离散傅立叶变换,得到语音信号的傅立叶变换系数其中m为帧序号,1≤m≤M,M为帧总数,ωk=2πk/K,0≤k≤K-1;
(2)设Gammatone滤波器的个数为L,第l个Gammatone滤波器的系统函数满足1≤l≤L;
(3)利用得到语音短时功率谱。
技术方案中所述的对语音短时功率谱进行加权平滑是指:
(1)对语音短时功率谱进行时间平滑得到其中M0为帧数;当m'≤2和m'≥M-1时,Q[m,l]=P[m',l];
(2)利用非对称滤波器得到平均噪声功率谱,非对称滤波器表示为
式中:Q[m,l]为非对称滤波器的输入,QANS[m,l]为非对称滤波器的输出,λa和λb为常数,QANS[0,l]=0.9(Q[1,l]);
这是为了使非对称滤波器得到的输出功率谱相对于语音短时功率谱数值较低并且变化缓慢,用此来估计平均噪声功率谱;
QANS[m,l]为利用非对称滤波器得到的当前帧的平均噪声功率谱;
QANS[m-1,l]为前一帧的平均噪声功率谱;
QANS[0,l]=0.9(Q[1,l])为初始值;
(3)利用半波整流Q0[m,l]=max[(Q[m,l]-QANS[m,l]),0]得到去除噪声后的语音短时功率谱Q0[m,l],利用加权平滑后的语音短时功率谱减去非对称滤波器得到的平均噪声功率谱,得到的是去除噪声后的语音短时功率谱,因为功率谱为正值,所以最小值取零;
(4)为了更好的估计平均噪声功率谱,提高功率归一化倒谱系数特征的鲁棒性,再一次利用非对称滤波器得到更加平缓的噪声平均功率谱
式中:Q0[m,l]为非对称滤波器的输入,Qf[m,l]为非对称滤波器的输出,λa和λb为常数,Qf[0,l]=Q0[1,l],
Qf[m,l]为再一次利用非对称滤波器得到的当前帧的平均噪声功率谱,
Qf[m-1,l]为前一帧的平均噪声功率谱,
Qf[0,l]=Q0[1,l]为初始值;
(5)为了得到去除噪声后的语音短时功率谱较大值部分,计算Qp[m,l]=max(λtQp[m-1,l],Q0[m,l]),
式中:λt为遗忘因子;
Qp[m,l]为当前帧的去除噪声后的语音短时功率谱,
Qp[m-1,l]为前一帧的去除噪声后的语音短时功率谱,
Qp[0,l]=0为初始值;
(6)计算时域掩蔽后的语音短时功率谱
式中:λt和μt为常数,如果去除噪声后的语音短时功率谱Q0[m,l]大于等于λtQp[m-1,l],则时域掩蔽后的语音短时功率谱为Q0[m,l],反之则时域掩蔽后的语音短时功率谱为前一帧去除噪声后的语音短时功率谱Qp[m-1,l]乘以常数μt,即μtQp[m-1,l];
(7)把再一次利用非对称滤波器得到的当前帧的平均噪声功率谱Qf[m,l]作为时域掩蔽后的语音短时功率谱的下限,此处用Q1[m,l]表示时域掩蔽后的语音短时功率谱,Q1[m,l]=max(Qtm[m,l],Qf[m,l]);
(8)通过判断有语音部分和无语音部分,分别估计功率谱R[m,l],
式中:c为常数,对于有语音部分,功率谱R[m,l]的估计为时域掩蔽后的语音短时功率谱Q1[m,l],对于无语音部分,功率谱R[m,l]的估计为再一次利用非对称滤波器得到的当前帧的平均噪声功率谱Qf[m,l];
(9)在Gammatone滤波器通道上进行频率平滑,得到加权系数S[m,l],进行谱加权平滑,
式中:l2=min(l+N,L),l1=max(l-N,1),N为常数,L为Gammatone滤波器个数,即为滤波器通道数;
(10)利用加权系数S[m,l]对语音短时功率谱P[m,l]进行补偿,得到加权平滑后的语音短时功率谱T[m,l],T[m,l]=P[m,l]S[m,l]。
技术方案中所述的利用外积得到特征向量是指:
(1)把y[m,q]写成矩阵的形式Y=[y1,…,ym,…,yM]∈RQ×M,其中:ym为第m帧的功率归一化倒谱系数特征向量,1≤m≤M,M为帧数;
(2)利用外积计算得到特征向量其中vectril表示取矩阵下三角部分的元素,为向量的维数,得到等长的特征向量。
技术方案中所述的对特征向量进行功率和l2范数归一化是指:
1)对特征向量中的元素wi,利用xi=sign(wi)|wi|γ进行功率归一化,其中1≤i≤d,γ为常数,得到向量x=[x1,…,xi,…xd];
2)对向量x进行l2范数归一化得到功率和l2范数归一化的特征向量
技术方案中所述的利用SVM训练帕金森病语音和健康语音模型是指:
1)得到语音信号的功率和l2范数归一化的特征向量之后,设定标签,把相对安静环境中的帕金森病语音的特征向量标签设为1,健康语音的特征向量标签设为0,把带标签的向量按行排列,存成data.txt文件,把文件随机分成5份,其中4份用来训练,1份用来测试,即5折交叉验证,循环5次,最后检测准确率取5次的平均值;
2)训练语音模型利用SVM工具箱(A Library for Support Vector Machines,LIBSVM)中的Python语言实现,调用svmtrain函数,利用data.txt文件中的4份进行帕金森病语音和健康语音的模型训练;其中SVM的类型采用C-SVC,核函数采用径向基核函数,惩罚系数c设为8.0,gamma参数设为8.0;
LIBSVM工具箱的具体用法参照文献:
C.C.Chang and C.J.Lin,“LIBSVM:A library for support vector machines,”ACM Trans.Intel.Syst.Technol.(TIST),vol.2,no.3,p.27,2011。
与现有技术相比本发明的有益效果是:
1.本发明所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法通过Gammatone滤波器、去除噪声、功率归一化等方法增强所提取特征的鲁棒性,提高噪声环境下帕金森病语音检测的准确率;
2.本发明所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法,利用外积从不等长的语音信号中求得等长的特征向量,同时兼顾局部特征和全局特征,为SVM分类方法提供数据基础。
附图说明
下面结合附图对本发明作进一步的说明:
图1是本发明所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法的流程框图。
具体实施方式
下面结合附图对本发明作详细的描述:
参阅图1,本发明所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法的步骤如下:
1.建立帕金森病语音库和健康语音库
相对安静环境中的帕金森病语音库来自美国加州大学欧文分校(University ofCalifornia Irvine,UCI)机器学习数据库中的帕金森病语音库,把其中元音/a/的发音分割成98个音频文件;健康语音库是在相对安静环境中采用手机录制的,共78个元音/a/的音频文件;帕金森病语音和健康语音的采样频率都转换为16kHz,文件都为wav格式;此处得到相对安静环境中的帕金森病语音库和健康语音库;
2.对语音信号进行功率归一化倒谱系数特征提取
1)对语音信号进行预处理
利用系统函数为H(Z)=1-αz-1的一阶高通滤波器对语音信号进行预加重提升高频成分,其中α=0.97,然后进行分帧,加汉明窗,帧长N为409个采样点,帧重叠P为160个采样点;
2)利用Gammatone滤波器进行滤波,得到语音短时功率谱,步骤如下:
(1)分别对每帧语音信号进行K为1024点的离散傅立叶变换,得到语音信号的傅立叶变换系数其中m为帧序号,1≤m≤M,M为帧总数,ωk=2πk/K,0≤k≤K-1;
(2)设Gammatone滤波器的个数L为40,第l个Gammatone滤波器的系统函数满足1≤l≤L;
(3)利用得到语音短时功率谱;
3)对语音短时功率谱进行加权平滑
(1)对语音短时功率谱进行时间平滑得到其中M0=2;当m'≤2和m'≥M-1时,Q[m,l]=P[m',l];
(2)利用非对称滤波器得到平均噪声功率谱,非对称滤波器表示为
式中:Q[m,l]为非对称滤波器的输入,QANS[m,l]为非对称滤波器的输出,λa=0.999,λb=0.5,QANS[0,l]=0.9(Q[1,l]);
这是为了使非对称滤波器得到的输出功率谱相对于语音短时功率谱数值较低并且变化缓慢,用此来估计噪声功率谱;
QANS[m,l]为利用非对称滤波器得到的当前帧的平均噪声功率谱;
QANS[m-1,l]为前一帧的平均噪声功率谱;
QANS[0,l]=0.9(Q[1,l])为初始值;
(3)利用半波整流Q0[m,l]=max[(Q[m,l]-QANS[m,l]),0]得到去除噪声后的语音短时功率谱Q0[m,l],利用加权平滑后的语音短时功率谱减去非对称滤波器得到的平均噪声功率谱,得到的是去除噪声后的语音短时功率谱,因为功率谱为正值,所以最小值取零;
(4)为了更好的估计平均噪声功率谱,提高功率归一化倒谱系数特征的鲁棒性,再一次利用非对称滤波器得到更加平缓的噪声平均功率谱
式中:Q0[m,l]为非对称滤波器的输入,Qf[m,l]为非对称滤波器的输出,λa=0.999,λb=0.5,Qf[0,l]=Q0[1,l],
Qf[m,l]为再一次利用非对称滤波器得到的当前帧的平均噪声功率谱,
Qf[m-1,l]为前一帧的平均噪声功率谱,
Qf[0,l]=Q0[1,l]为初始值;
(5)为了得到去除噪声后的语音短时功率谱较大值部分,计算Qp[m,l]=max(λtQp[m-1,l],Q0[m,l]),
式中:λt为遗忘因子,设为0.85;
Qp[m,l]为当前帧的去除噪声后的语音短时功率谱,
Qp[m-1,l]为前一帧的去除噪声后的语音短时功率谱,
Qp[0,l]=0为初始值;
(6)计算时域掩蔽后的语音短时功率谱
式中:λt=0.85,μt=0.2,如果去除噪声后的语音短时功率谱Q0[m,l]大于等于λtQp[m-1,l],则时域掩蔽后的语音短时功率谱为Q0[m,l],反之则时域掩蔽后的语音短时功率谱为步骤2中3)的第(5)步得到的前一帧的去除噪声后的语音短时功率谱Qp[m-1,l]乘以常数μt,即μtQp[m-1,l];
(7)把步骤2中3)的第(4)步再一次利用非对称滤波器得到的当前帧的平均噪声功率谱Qf[m,l]作为时域掩蔽后的语音短时功率谱的下限,此处用Q1[m,l]表示时域掩蔽后的语音短时功率谱,Q1[m,l]=max(Qtm[m,l],Qf[m,l]);
(8)通过判断有语音部分和无语音部分,分别估计功率谱R[m,l],
式中:c为常数,设为2,对于有语音部分,功率谱R[m,l]的估计为时域掩蔽后的语音短时功率谱Q1[m,l],对于无语音部分,功率谱R[m,l]的估计为步骤2中3)的第(4)步再一次利用非对称滤波器得到的当前帧的平均噪声功率谱Qf[m,l];
(9)在Gammatone滤波器通道上进行频率平滑,得到加权系数S[m,l],
式中:l2=min(l+N,L),l1=max(l-N,1),N=4,L=40;
(10)利用加权系数S[m,l]对语音短时功率谱P[m,l]进行补偿,得到加权平滑后的语音短时功率谱T[m,l],T[m,l]=P[m,l]S[m,l];
4)计算功率归一化倒谱系数特征
(1)利用计算平均功率μ[m]
式中:λμ=0.999,μ[0]=0为初始值;
(2)利用U[m,l]=βT[m,l]/μ[m]计算归一化功率U[m,l],其中:β=1;
(3)利用V[m,l]=log(U[m,l])对归一化功率非线性化;
(4)对V[m,l]进行离散余弦变换得D[m,q],取前Q个系数,其中:1≤q≤Q,Q=13;
(5)利用实现功率归一化倒谱系数特征y[m,q]的提取;
3.利用外积得到特征向量
(1)把y[m,q]写成矩阵的形式Y=[y1,…,ym,…,yM]∈RQ×M,其中:ym为第m帧的功率归一化倒谱系数特征向量,1≤i≤M,M为帧数;
(2)利用外积计算得到特征向量其中vectril表示取矩阵下三角部分的元素,得到等长的特征向量;
4.对特征向量进行功率和l2范数归一化
1)对特征向量中的元素wi,利用xi=sign(wi)|wi|γ进行功率归一化,其中1≤i≤d,γ=0.5,得到向量x=[x1,…,xi,…xd];
2)对向量x进行l2范数归一化得到功率和l2范数归一化的特征向量
5.利用SVM训练帕金森病语音和健康语音模型
1)利用Matlab仿真软件得到语音信号的功率和l2范数归一化的特征向量之后,设定标签,把相对安静环境中的帕金森病语音的特征向量标签设为1,健康语音的特征向量标签设为0,把带标签的向量按行排列,存成data.txt文件,把文件随机分成5份,其中4份用来训练,1份用来测试,即5折交叉验证,循环5次,最后检测准确率取5次的平均值;
2)训练语音模型利用LIBSVM(A Library for Support Vector Machines,LIBSVM)中的Python语言实现,调用svmtrain函数,利用data.txt文件中的4份进行帕金森病语音和健康语音的模型训练,其中SVM的类型采用C-SVC,核函数采用径向基核函数,惩罚系数c设为8.0,gamma参数设为8.0;LIBSVM工具箱的具体用法参照文献:
C.C.Chang and C.J.Lin,“LIBSVM:A library for support vector machines,”ACM Trans.Intel.Syst.Technol.(TIST),vol.2,no.3,p.27,2011。
6.利用SVM分类方法进行分类,实现帕金森病语音检测
SVM分类方法利用LIBSVM工具箱中python语言实现。利用步骤5得到的语音模型,调用svm_predict函数,利用data.txt文件中的剩下的1份进行测试,得到帕金森病语音分类结果,即为帕金森病语音检测结果。
此处步骤5和步骤6可以同时完成,利用整个data.txt文件,调用LIBSVM软件包中svmtrain函数,设参数v为5,采用5折交叉验证法同时进行模型训练和分类,其中SVM的类型采用C-SVC,核函数采用径向基核函数,惩罚系数c设为8.0,gamma参数设为8.0,得到了91.48%的帕金森病语音检测准确率。
实施例
为了更好的说明本发明的先进性,在babble噪声环境下进行仿真实验验证本发明方法帕金森病语音检测的准确率,具体步骤如下:
1.建立帕金森病语音库和健康语音库
为了更好的说明本发明的先进性,本发明建立了babble噪声环境下的帕金森病语音库和健康语音库。相对安静环境中的帕金森病语音库来自美国加州大学欧文分校(University of California Irvine,UCI)机器学习数据库中的帕金森病语音库,把其中元音/a/的发音分割成98个音频文件;健康语音库是在相对安静环境中采用手机录制的,共78个元音/a/的音频文件;babble噪声来自Noise-92噪声库;帕金森病语音、健康语音和babble噪声的采样频率都转换为16kHz,文件都为wav格式;把babble噪声按信噪比为5dB分别加到相对安静环境中的帕金森病语音和健康语音上,得到babble噪声环境中的帕金森病语音库和健康语音库;
2.对语音信号进行功率归一化倒谱系数特征提取
1)对语音信号进行预处理
利用系统函数为H(Z)=1-αz-1的一阶高通滤波器对语音信号进行预加重提升高频成分,其中α=0.97,然后进行分帧,加汉明窗,帧长N为409个采样点,帧重叠P为160个采样点;
2)利用Gammatone滤波器进行滤波,得到语音短时功率谱
(1)分别对每帧语音信号进行K为1024点的离散傅立叶变换,得到语音信号的傅立叶变换系数X[m,ejωk],其中m为帧序号,1≤m≤M,M为帧总数,ωk=2πk/K,0≤k≤K-1;
(2)设Gammatone滤波器的个数L为40,第l个Gammatone滤波器的系统函数满足1≤l≤L;
(3)利用得到语音短时功率谱;
3)对语音短时功率谱进行加权平滑
(1)对语音短时功率谱进行时间平滑得到其中M0=2;当m'≤2和m'≥M-1时,Q[m,l]=P[m',l];
(2)利用非对称滤波器得到平均噪声功率谱,非对称滤波器表示为
式中:Q[m,l]为非对称滤波器的输入,QANS[m,l]为非对称滤波器的输出,λa=0.999,λb=0.5,QANS[0,l]=0.9(Q[1,l]);
这是为了使非对称滤波器得到的输出功率谱相对于语音短时功率谱数值较低并且变化缓慢,用此来估计平均噪声功率谱;
QANS[m,l]为利用非对称滤波器得到的当前帧的平均噪声功率谱;
QANS[m-1,l]为前一帧的平均噪声功率谱;
QANS[0,l]=0.9(Q[1,l])为初始值;
(3)利用半波整流Q0[m,l]=max[(Q[m,l]-QANS[m,l]),0]得到去除噪声后的语音短时功率谱Q0[m,l],利用加权平滑后的语音短时功率谱减去非对称滤波器得到的平均噪声功率谱,得到的是去除噪声后的语音短时功率谱,因为功率谱为正值,所以最小值取零;
(4)为了更好的估计平均噪声功率谱,提高功率归一化倒谱系数特征的鲁棒性,再一次利用非对称滤波器得到更加平缓的噪声平均功率谱
式中:Q0[m,l]为非对称滤波器的输入,Qf[m,l]为非对称滤波器的输出,λa=0.999,λb=0.5,Qf[0,l]=Q0[1,l],
Qf[m,l]为再一次利用非对称滤波器得到的当前帧的平均噪声功率谱,
Qf[m-1,l]为前一帧的平均噪声功率谱,
Qf[0,l]=Q0[1,l]为初始值;
(5)为了得到去除噪声后的语音短时功率谱较大值部分,计算Qp[m,l]=max(λtQp[m-1,l],Q0[m,l]),
式中:λt为遗忘因子,设为0.85;
Qp[m,l]为当前帧的去除噪声后的语音短时功率谱,
Qp[m-1,l]为前一帧的去除噪声后的语音短时功率谱,
Qp[0,l]=0为初始值;
(6)计算时域掩蔽后的语音短时功率谱
式中:λt=0.85,μt=0.2,如果去除噪声后的语音短时功率谱Q0[m,l]大于等于λtQp[m-1,l],则时域掩蔽后的语音短时功率谱为Q0[m,l],反之则时域掩蔽后的语音短时功率谱为步骤2中3)的第(5)步得到的前一帧的去除噪声后的语音短时功率谱Qp[m-1,l]乘以常数μt,即μtQp[m-1,l];
(7)把步骤2中3)的第(4)步再一次利用非对称滤波器得到的当前帧的平均噪声功率谱Qf[m,l]作为时域掩蔽后的语音短时功率谱的下限,此处用Q1[m,l]表示时域掩蔽后的语音短时功率谱,Q1[m,l]=max(Qtm[m,l],Qf[m,l]);
(8)通过判断有语音部分和无语音部分,分别估计功率谱R[m,l],
式中:c为常数,设为2,对于有语音部分,功率谱R[m,l]的估计为时域掩蔽后的语音短时功率谱Q1[m,l],对于无语音部分,功率谱R[m,l]的估计为步骤2中3)的第(4)步再一次利用非对称滤波器得到的当前帧的平均噪声功率谱Qf[m,l];
(9)在Gammatone滤波器通道上进行频率平滑,得到加权系数S[m,l],
式中:l2=min(l+N,L),l1=max(l-N,1),N=4,L=40;
(10)利用加权系数S[m,l]对语音短时功率谱P[m,l]进行补偿,得到加权平滑后的语音短时功率谱T[m,l],T[m,l]=P[m,l]S[m,l];
4)计算功率归一化倒谱系数特征
(1)利用计算平均功率μ[m],
式中:λμ=0.999,μ[0]=0为初始值;
(2)利用U[m,l]=βT[m,l]/μ[m]计算归一化功率U[m,l],其中:β=1;
(3)利用V[m,l]=log(U[m,l])对归一化功率非线性化;
(4)对V[m,l]进行离散余弦变换得D[m,q],取前Q个系数,其中:1≤q≤Q,Q=13;
(5)利用实现功率归一化倒谱系数特征y[m,q]的提取;
3.利用外积得到特征向量
(1)把y[m,q]写成矩阵的形式Y=[y1,…,ym,…,yM]∈RQ×M,其中:ym为第m帧的功率归一化倒谱系数特征向量,1≤m≤M,M为帧数;
(2)利用外积计算得到特征向量其中vectril表示取矩阵下三角部分的元素,得到等长的特征向量;
4.对特征向量进行功率和l2范数归一化
1)对特征向量中的元素wi,利用xi=sign(wi)|wi|γ进行功率归一化,其中1≤i≤d,γ=0.5,得到向量x=[x1,…,xi,…,xd];
2)对向量x进行l2范数归一化得到功率和l2范数归一化的特征向量
5.利用SVM训练帕金森病语音和健康语音模型
1)利用Matlab仿真软件得到语音信号的功率和l2范数归一化的特征向量之后,设定标签,把相对安静环境中的帕金森病语音的特征向量标签设为1,健康语音的特征向量标签设为0,把带标签的向量按行排列,存成data.txt文件,把文件随机分成5份,其中4份用来训练,1份用来测试,即5折交叉验证,循环5次,最后检测准确率取5次的平均值;
2)训练语音模型利用SVM工具箱(A Library for Support Vector Machines,LIBSVM)中的Python语言实现,调用svmtrain函数,利用data.txt文件中的4份进行帕金森病语音和健康语音的模型训练,其中SVM的类型采用C-SVC,核函数采用径向基核函数,惩罚系数c设为8.0,gamma参数设为8.0;LIBSVM工具箱的具体用法参照文献:
C.C.Chang and C.J.Lin,“LIBSVM:A library for support vector machines,”ACM Trans.Intel.Syst.Technol.(TIST),vol.2,no.3,p.27,2011。
6.利用SVM分类方法进行分类,实现帕金森病语音检测
SVM分类方法利用LIBSVM工具箱中python语言实现。利用步骤5得到的语音模型,调用svm_predict函数,利用data.txt文件中的剩下的1份进行测试,得到帕金森病语音分类结果,即为帕金森病语音检测结果。
此处步骤5和步骤6同时完成,利用整个data.txt文件,调用LIBSVM工具箱中svmtrain函数,设参数v为5,采用5折交叉验证法同时进行模型训练和分类,其中SVM的类型采用C-SVC,核函数采用径向基核函数,惩罚系数c设为8.0,gamma参数设为8.0,得到了94.89%的帕金森病语音检测准确率。
由于本发明采用的功率归一化倒谱系数特征提取方法加入了去除噪声步骤,使得SVM分类方法在babble噪声环境下取得了较高的帕金森病语音检测准确率,仿真实验结果说明本发明方法适用于常见噪声环境下的帕金森病语音检测。
Claims (7)
1.一种基于功率归一化倒谱系数特征的帕金森病语音检测方法,其特征在于,所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法包括步骤如下:
1)建立帕金森病语音库和健康语音库
相对安静环境中的帕金森病语音库来自美国加州大学欧文分校UCI机器学习数据库中的帕金森病语音库,把其中元音/a/的发音分割成98个音频文件;
健康语音库是在相对安静环境中采用手机录制的,共78个元音/a/的音频文件;
帕金森病语音和健康语音的采样频率都转换为16kHz,文件都为wav格式;此处得到相对安静环境中的帕金森病语音库和健康语音库;
2)对语音信号进行功率归一化倒谱系数特征提取;
3)利用外积得到特征向量;
4)对特征向量进行功率和l2范数归一化;
5)利用SVM训练帕金森病语音和健康语音模型;
6)利用SVM分类方法进行分类,实现帕金森病语音检测
SVM分类方法利用LIBSVM工具箱中Python语言实现,利用步骤5)得到的语音模型,调用svm_predict函数,利用data.txt文件中的剩下的1份进行测试,得到帕金森病语音分类结果,即为帕金森病语音检测结果。
2.按照权利要求1所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法,其特征在于,所述的对语音信号进行功率归一化倒谱系数特征提取是指:
1)对语音信号进行预处理
利用系统函数为H(Z)=1-αz-1的一阶高通滤波器对语音信号进行预加重提升高频成分,其中α为接近1的常数,然后进行分帧,加窗,帧长为N个采样点,帧重叠为P个采样点;
2)利用Gamma tone滤波器进行滤波,得到语音短时功率谱;
3)对语音短时功率谱进行加权平滑;
4)计算功率归一化倒谱系数特征,步骤如下:
(1)利用计算平均功率μ[m],
式中:λμ为常数,μ[0]=0为初始值;
(2)利用U[m,l]=βT[m,l]/μ[m]计算归一化功率U[m,l],其中:β为常数;
(3)利用V[m,l]=log(U[m,l])对归一化功率非线性化;
(4)对V[m,l]进行离散余弦变换得D[m,q],取前Q个系数,其中:1≤q≤Q;
(5)利用实现功率归一化倒谱系数特征y[m,q]的提取。
3.按照权利要求2所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法,其特征在于,所述的利用Gamma tone滤波器进行滤波,得到语音短时功率谱是指:
(1)分别对每帧语音信号进行K点离散傅立叶变换,得到语音信号的傅立叶变换系数其中m为帧序号,1≤m≤M,M为帧总数,ωk=2πk/K,0≤k≤K-1;
(2)设Gamma tone滤波器的个数为L,第l个Gamma tone滤波器的系统函数满足1≤l≤L;
(3)利用得到语音短时功率谱。
4.按照权利要求2所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法,其特征在于,所述的对语音短时功率谱进行加权平滑是指:
(1)对语音短时功率谱进行时间平滑得到其中M0为帧数;当m'≤2和m'≥M-1时,Q[m,l]=P[m',l];
(2)利用非对称滤波器得到平均噪声功率谱,非对称滤波器表示为
式中:Q[m,l]为非对称滤波器的输入,QANS[m,l]为非对称滤波器的输出,λa和λb为常数,QANS[0,l]=0.9(Q[1,l]);
这是为了使非对称滤波器得到的输出功率谱相对于语音短时功率谱数值较低并且变化缓慢,用此来估计平均噪声功率谱;
QANS[m,l]为利用非对称滤波器得到的当前帧的平均噪声功率谱;
QANS[m-1,l]为前一帧的平均噪声功率谱;
QANS[0,l]=0.9(Q[1,l])为初始值;
(3)利用半波整流Q0[m,l]=max[(Q[m,l]-QANS[m,l]),0]得到去除噪声后的语音短时功率谱Q0[m,l],利用加权平滑后的语音短时功率谱减去非对称滤波器得到的平均噪声功率谱,得到的是去除噪声后的语音短时功率谱,因为功率谱为正值,所以最小值取零;
(4)为了更好的估计平均噪声功率谱,提高功率归一化倒谱系数特征的鲁棒性,再一次利用非对称滤波器得到更加平缓的噪声平均功率谱
式中:Q0[m,l]为非对称滤波器的输入,Qf[m,l]为非对称滤波器的输出,λa和λb为常数,Qf[0,l]=Q0[1,l],
Qf[m,l]为再一次利用非对称滤波器得到的当前帧的平均噪声功率谱,
Qf[m-1,l]为前一帧的平均噪声功率谱,
Qf[0,l]=Q0[1,l]为初始值;
(5)为了得到去除噪声后的语音短时功率谱较大值部分,计算Qp[m,l]=max(λtQp[m-1,l],Q0[m,l]),
式中:λt为遗忘因子;
Qp[m,l]为当前帧的去除噪声后的语音短时功率谱,
Qp[m-1,l]为前一帧的去除噪声后的语音短时功率谱,
Qp[0,l]=0为初始值;
(6)计算时域掩蔽后的语音短时功率谱
式中:λt和μt为常数,如果去除噪声后的语音短时功率谱Q0[m,l]大于等于λtQp[m-1,l],则时域掩蔽后的语音短时功率谱为Q0[m,l],反之则时域掩蔽后的语音短时功率谱为前一帧去除噪声后的语音短时功率谱Qp[m-1,l]乘以常数μt,即μtQp[m-1,l];
(7)把再一次利用非对称滤波器得到的当前帧的平均噪声功率谱Qf[m,l]作为时域掩蔽后的语音短时功率谱的下限,此处用Q1[m,l]表示时域掩蔽后的语音短时功率谱,Q1[m,l]=max(Qtm[m,l],Qf[m,l]);
(8)通过判断有语音部分和无语音部分,分别估计功率谱R[m,l],
式中:c为常数,对于有语音部分,功率谱R[m,l]的估计为时域掩蔽后的语音短时功率谱Q1[m,l],对于无语音部分,功率谱R[m,l]的估计为再一次利用非对称滤波器得到的当前帧的平均噪声功率谱Qf[m,l];
(9)在Gamma tone滤波器通道上进行频率平滑,得到加权系数S[m,l],
进行谱加权平滑,
式中:l2=min(l+N,L),l1=max(l-N,1),N为常数,L为Gamma tone滤波器个数,即为滤波器通道数;
(10)利用加权系数S[m,l]对语音短时功率谱P[m,l]进行补偿,得到加权平滑后的语音短时功率谱T[m,l],T[m,l]=P[m,l]S[m,l]。
5.按照权利要求1所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法,其特征在于,所述的利用外积得到特征向量是指:
(1)把y[m,q]写成矩阵的形式Y=[y1,…,ym,…,yM]∈RQ×M,其中:ym为第m帧的功率归一化倒谱系数特征向量,1≤m≤M,M为帧数;
(2)利用外积计算得到特征向量其中vectril表示取矩阵下三角部分的元素,为向量的维数,得到等长的特征向量。
6.按照权利要求1所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法,其特征在于,所述的对特征向量进行功率和l2范数归一化是指:
1)对特征向量中的元素wi,利用xi=sign(wi)|wi|γ进行功率归一化,其中1≤i≤d,γ为常数,得到向量x=[x1,…,xi,…xd];
2)对向量x进行l2范数归一化得到功率和l2范数归一化的特征向量
7.按照权利要求1所述的基于功率归一化倒谱系数特征的帕金森病语音检测方法,其特征在于,所述的利用SVM训练帕金森病语音和健康语音模型是指:
1)得到语音信号的功率和l2范数归一化的特征向量之后,设定标签,把相对安静环境中的帕金森病语音的特征向量标签设为1,健康语音的特征向量标签设为0,把带标签的向量按行排列,存成data.txt文件,把文件随机分成5份,其中4份用来训练,1份用来测试,即5折交叉验证,循环5次,最后检测准确率取5次的平均值;
2)训练语音模型利用SVM工具箱即A Library for Support Vector Machines,LIBSVM中的Python语言实现,调用svmtrain函数,利用data.txt文件中的4份进行帕金森病语音和健康语音的模型训练;其中SVM的类型采用C-SVC,核函数采用径向基核函数,惩罚系数c设为8.0,gamma参数设为8.0;
LIBSVM工具箱的具体用法参照文献:
C.C.Chang and C.J.Lin,“LIBSVM:A library for support vector machines,”ACMTrans.Intel.Syst.Technol.(TIST),vol.2,no.3,p.27,2011。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910686991.6A CN110335624A (zh) | 2019-07-29 | 2019-07-29 | 基于功率归一化倒谱系数特征的帕金森病语音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910686991.6A CN110335624A (zh) | 2019-07-29 | 2019-07-29 | 基于功率归一化倒谱系数特征的帕金森病语音检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110335624A true CN110335624A (zh) | 2019-10-15 |
Family
ID=68147829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910686991.6A Pending CN110335624A (zh) | 2019-07-29 | 2019-07-29 | 基于功率归一化倒谱系数特征的帕金森病语音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335624A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111415652A (zh) * | 2020-03-31 | 2020-07-14 | 汕头大学 | 一种用于失语症患者康复训练专用的语音识别方法 |
CN112820279A (zh) * | 2021-03-12 | 2021-05-18 | 深圳市臻络科技有限公司 | 基于语音上下文动态特征的帕金森病检测方法 |
CN114373484A (zh) * | 2022-03-22 | 2022-04-19 | 南京邮电大学 | 语音驱动的帕金森病多症状特征参数的小样本学习方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927559A (zh) * | 2014-04-17 | 2014-07-16 | 深圳大学 | 超声图像胎儿颜面部标准切面自动识别方法及系统 |
CN105448291A (zh) * | 2015-12-02 | 2016-03-30 | 南京邮电大学 | 基于语音的帕金森症检测方法及检测系统 |
CN108520759A (zh) * | 2018-04-13 | 2018-09-11 | 吉林大学 | 用于帕金森病语音检测的时频特征图像提取方法 |
CN108899052A (zh) * | 2018-07-10 | 2018-11-27 | 南京邮电大学 | 一种基于多带谱减法的帕金森语音增强方法 |
CN109192221A (zh) * | 2018-03-30 | 2019-01-11 | 大连理工大学 | 一种基于聚类的使用语音判断帕金森严重程度检测方法 |
CN109256127A (zh) * | 2018-11-15 | 2019-01-22 | 江南大学 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
CN109614487A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于张量融合方式的情感分类的方法 |
CN109614853A (zh) * | 2018-10-30 | 2019-04-12 | 国家新闻出版广电总局广播科学研究院 | 一种基于身体结构划分的双线性行人再识别网络构建方法 |
-
2019
- 2019-07-29 CN CN201910686991.6A patent/CN110335624A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927559A (zh) * | 2014-04-17 | 2014-07-16 | 深圳大学 | 超声图像胎儿颜面部标准切面自动识别方法及系统 |
CN105448291A (zh) * | 2015-12-02 | 2016-03-30 | 南京邮电大学 | 基于语音的帕金森症检测方法及检测系统 |
CN109192221A (zh) * | 2018-03-30 | 2019-01-11 | 大连理工大学 | 一种基于聚类的使用语音判断帕金森严重程度检测方法 |
CN108520759A (zh) * | 2018-04-13 | 2018-09-11 | 吉林大学 | 用于帕金森病语音检测的时频特征图像提取方法 |
CN108899052A (zh) * | 2018-07-10 | 2018-11-27 | 南京邮电大学 | 一种基于多带谱减法的帕金森语音增强方法 |
CN109614487A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于张量融合方式的情感分类的方法 |
CN109614853A (zh) * | 2018-10-30 | 2019-04-12 | 国家新闻出版广电总局广播科学研究院 | 一种基于身体结构划分的双线性行人再识别网络构建方法 |
CN109256127A (zh) * | 2018-11-15 | 2019-01-22 | 江南大学 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
Non-Patent Citations (1)
Title |
---|
C KIM: ""power-normalized cepstral coefficients(PNCC) for robust speech recognition"", 《IEEE /ACM TRANSACTIONS ON AUDIO, SPEECH ,AND LANGUAGE PROCESSING 》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111415652A (zh) * | 2020-03-31 | 2020-07-14 | 汕头大学 | 一种用于失语症患者康复训练专用的语音识别方法 |
CN111415652B (zh) * | 2020-03-31 | 2022-06-14 | 汕头大学 | 一种用于失语症患者康复训练专用的语音识别方法 |
CN112820279A (zh) * | 2021-03-12 | 2021-05-18 | 深圳市臻络科技有限公司 | 基于语音上下文动态特征的帕金森病检测方法 |
CN112820279B (zh) * | 2021-03-12 | 2024-02-09 | 深圳市臻络科技有限公司 | 基于语音上下文动态特征的帕金森检测模型构建方法 |
CN114373484A (zh) * | 2022-03-22 | 2022-04-19 | 南京邮电大学 | 语音驱动的帕金森病多症状特征参数的小样本学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
Shama et al. | Study of harmonics-to-noise ratio and critical-band energy spectrum of speech as acoustic indicators of laryngeal and voice pathology | |
Barkana et al. | A new pitch-range based feature set for a speaker’s age and gender classification | |
Kinnunen et al. | Voice activity detection using MFCC features and support vector machine | |
Ajmera et al. | Text-independent speaker identification using Radon and discrete cosine transforms based features from speech spectrogram | |
Ashar et al. | Speaker identification using a hybrid cnn-mfcc approach | |
US11672472B2 (en) | Methods and systems for estimation of obstructive sleep apnea severity in wake subjects by multiple speech analyses | |
Hariharan et al. | Classification of speech dysfluencies using LPC based parameterization techniques | |
Chee et al. | MFCC based recognition of repetitions and prolongations in stuttered speech using k-NN and LDA | |
Dişken et al. | A review on feature extraction for speaker recognition under degraded conditions | |
Vestman et al. | Speaker recognition from whispered speech: A tutorial survey and an application of time-varying linear prediction | |
WO2020034628A1 (zh) | 口音识别方法、装置、计算机装置及存储介质 | |
CN110335624A (zh) | 基于功率归一化倒谱系数特征的帕金森病语音检测方法 | |
US20150154980A1 (en) | Cepstral separation difference | |
Paulose et al. | Performance evaluation of different modeling methods and classifiers with MFCC and IHC features for speaker recognition | |
Saldanha et al. | Vocal fold pathology assessment using mel-frequency cepstral coefficients and linear predictive cepstral coefficients features | |
CN110970036A (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
Hsu et al. | Robust voice activity detection algorithm based on feature of frequency modulation of harmonics and its DSP implementation | |
Mahesha et al. | LP-Hillbert transform based MFCC for effective discrimination of stuttering dysfluencies | |
Hasan et al. | Preprocessing of continuous bengali speech for feature extraction | |
Khoria et al. | Teager energy cepstral coefficients for classification of normal vs. whisper speech | |
Bhukya et al. | Robust methods for text-dependent speaker verification | |
Sarria-Paja et al. | Strategies to enhance whispered speech speaker verification: A comparative analysis | |
Salhi et al. | Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments | |
Sahoo et al. | Analyzing the vocal tract characteristics for out-of-breath speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191015 |