CN112562650A - 一种基于声带特征参数的语音识别分类方法 - Google Patents
一种基于声带特征参数的语音识别分类方法 Download PDFInfo
- Publication number
- CN112562650A CN112562650A CN202011198843.9A CN202011198843A CN112562650A CN 112562650 A CN112562650 A CN 112562650A CN 202011198843 A CN202011198843 A CN 202011198843A CN 112562650 A CN112562650 A CN 112562650A
- Authority
- CN
- China
- Prior art keywords
- vocal cord
- vocal
- voice
- characteristic parameters
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000001260 vocal cord Anatomy 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000010168 coupling process Methods 0.000 claims abstract description 18
- 238000005859 coupling reaction Methods 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 230000008878 coupling Effects 0.000 claims abstract description 15
- 239000002245 particle Substances 0.000 claims description 25
- 210000004704 glottis Anatomy 0.000 claims description 18
- 238000013016 damping Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 230000001755 vocal effect Effects 0.000 claims description 15
- 210000004717 laryngeal muscle Anatomy 0.000 claims description 12
- 210000003205 muscle Anatomy 0.000 claims description 12
- 210000003041 ligament Anatomy 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 206010049816 Muscle tightness Diseases 0.000 claims description 6
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 210000000214 mouth Anatomy 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 239000012530 fluid Substances 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 3
- 230000005855 radiation Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 210000001519 tissue Anatomy 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于声带特征参数的语音识别分类方法,首先搭建声带分层生物力学模型,以声带模型初始参数作为输入,求解声带耦合振动方程,输出声门波;同时采用迭代逆滤波算法获取实际嗓音信号中的声门波,构造两者关于时频域的目标函数以建立模型输出特征与嗓音信号之间的联系,匹配目标嗓音源,最终输出声带特征参数,将其与MFCC融合作为特征输入,对语音测试样本进行识别分类,确定测试样本类型。本发明根据声带分层生物力学模型提取了实际嗓音的声带特征参数,将基本声学特征与其融合,增加了语音声源信息,提高测试样本的识别率。
Description
技术领域
本发明涉及一种语音分类方法,属于语音识别技术领域。
背景技术
语音识别主要包括特征提取、特征优化和分类器建模。语音的特征提取决定了分类器所使用的特征参数,与语音识别系统的性能密切相关。常见的语音特征参数主要声学类参数,谱类参数等。
声学类参数反映了语音的频率以及振幅方面的信息,包括基音频率、频率标准差、抖动频率、频率抖动百分比、相对平均微扰、绝对频率抖动、振幅抖动频率、振幅抖动百分比、振幅抖动商和微扰商、音调扰动商和平滑音调微扰商。谱类参数反映了人类听觉系统方面的信息,主要有Mel倒谱MFCC和倒谱峰值等。
声学类参数、谱类参数等常见嗓音参数缺少与声带生理和结构之间的直接联系,未考虑语音声源的相关信息。
发明内容
本发明所要解决的技术问题是:针对背景技术的缺陷,本发明提出了一种基于声带特征参数的语音识别分类方法,建立声带生理结构与实际嗓音声源之间的联系,以模型输出声门波和实际嗓音声门波构建目标函数,设计变异粒子群-拟牛顿算法作为寻优算法优化生物力学模型参数,实现模型与声源信号的最优化匹配,提取实际嗓音信号对应的声带特征参数,提高测试样本的识别率。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种基于声带特征参数的语音识别分类方法,包括如下步骤:
(1)、建立声带分层生物力学模型,通过增加质量块分离韧带层和肌肉层,表征喉部环甲肌与甲杓肌的张力作用,体现声带组织分层特性;
(2)、定义模型的标准参数,并给定初始条件,求解声带分层生物力学模型的振动方程,获得声带振动位移以及声门气流流速;
(3)、采用迭代逆滤波算法提取嗓音信号中的声门波信息,并建立目标函数;
(4)、设计变异粒子群-拟牛顿算法反演目标嗓音的声带特征参数。
进一步的,本发明所提出的一种基于声带特征参数的语音识别分类方法,步骤(1)中,声带分层生物力学模型包括如下成分:
(1)韧带层:质量块(m1r,m2r),两者之间利用线性弹簧kcr进行耦合;
(2)肌肉层:质量块m3r;
(3)将韧带层侧向耦合到肌肉层的环甲肌张力:非线性弹簧(k1r,k2r)和粘性阻尼元素(r1r,r2r);
(4)将肌肉层耦合至刚性壁的甲杓肌张力:非线性弹簧k3r和粘性阻尼元素r3r。
进一步的,本发明所提出的一种基于声带特征参数的语音识别分类方法,步骤(2)中,建立声带的振动方程如下:
式中,x代表各质量块振动位移向量;Ug为声门气流体速度,是分层三角声门模型的输出量;m,r,k分别为质量块的重量向量、阻尼向量和弹性向量;F为声带壁受到的气流压力;Ps,α分别为声门下压和预发声声门角;Apg为后声门间隙面积;
对质量块上面的作用力进行空气动力学分析,忽略声门入门处的压力降以及声门内部的粘性损失,且假设伯努利气流只存在于声门最窄处amin以下,声门上压力近似为0即P0=0,根据伯努利方程:
式中,P1为声门上压力,Ug表示声门气流流速,ρ为空气密度,a1为声门面积;
因此声门上压力P1以及声门气流流速Ug为:
其中,
进一步的,本发明所提出的一种基于声带特征参数的语音识别分类方法,步骤(3)中,利用全极点模型法DAP表征声道滤波器,嗓音信号中的声门波提取过程如下:
将嗓音信号首先通过高通滤波器消除收音设备产生的低频扰动,然后设计DAP滤波器估算声道和口唇辐射的特征,并对嗓音信号进行逆滤波操作消除声道和口腔影响,最后经过连续两次迭代逆滤波操作后,对信号积分得到声门波,其中m=n=fs/1000+2。
进一步的,本发明所提出的一种基于声带特征参数的语音识别分类方法,步骤(3)中,根据目标嗓音源逆滤波获得的声门波Uge和声带生物力学模型仿真获得声门波Ugs,提取声门波特征参数基频F0、开商OQ、闭合商CIQ、斜比率Sr和归一化振幅商NAQ并建立目标函数,将两者之间的时域误差定义为目标函数F1:
频域误差定义为目标函数F2:
式中,N表示Uge和Ugs点数,wge和wgs分别表示Uge和Ugs的频率,将两个目标函数线性加权和为:
f=ω1F1+ω2F2 (7)
式中,ω1和ω2为权重系数。
进一步的,本发明所提出的一种基于声带特征参数的语音识别分类方法,步骤(4)具体如下:
4.1、设置声带质量、弹性系数、耦合系数、阻尼常数及声门下压力为可优化参数,表示为矢量:Φ=[miα,kiα,kcα,riα,Ps];
4.2、采用变异粒子群法求得优化解;
4.3、最后利用拟牛顿算法对满足终止条件的优化解进行局部优化,找到全局最优解,得到实际嗓音声源发声时的声带特征参数包括声带质量、弹性系数、耦合系数、阻尼常数、声门下压力和声门波特征,作为语音识别的声带特征参数。
进一步的,本发明所提出的一种基于声带特征参数的语音识别分类方法,步骤4.2所述采用变异粒子群法求得优化解具体如下:
首先,初始化一群随机粒子,粒子速度以及迭代次数;
然后,更新粒子的位置速度,计算粒子群中每个个体的适应度值:如果所得最高适应度超过预先设置的阈值或达到预先设置的迭代次数,则作为优化个体;否则选择M个个体交叉、变异,得到M个新个体,选择和交叉过程中采用轮盘赌规则;
之后,对所有M+N个体执行变异操作,选择M个适应度高的进入下一代;
重复上述操作。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明提出了一种基于声带特征参数的语音识别分类方法,根据声带分层生物力学模型提取了实际嗓音的声带特征参数,将基本声学特征与其融合,增加了语音声源信息,同时设计变异粒子群-拟牛顿算法作为寻优算法优化生物力学模型参数,提高测试样本的识别率。
附图说明
图1是声带分层生物力学模型截面图。
图2是迭代逆滤波算法流程框图。
图3是变异粒子群-拟牛顿算法流程图。
图4是本发明中声带特征参数提取流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明建立声带生理结构与实际嗓音声源之间的联系,提取声带特征参数,并结合基本声学特征,用于语音识别。首先建立声带分层生物力学模型,如图1所示。通过增加质量块分离韧带层和肌肉层,表征喉部环甲肌与甲杓肌的张力作用,体现声带组织分层特性。
包含如下成分(以模型右侧为例):
(1)韧带层:质量块(m1r,m2r),两者之间利用线性弹簧kcr进行耦合;
(2)肌肉层:质量块m3r;
(3)环甲肌张力(将韧带层侧向耦合到肌肉层):非线性弹簧(k1r,k2r)和粘性阻尼元素(r1r,r2r);,
(4)甲杓肌张力(将肌肉层耦合至刚性壁):非线性弹簧k3r和粘性阻尼元素r3r。
声带的振动方程如下:
式中,x代表各质量块振动位移向量;Ug为声门气流体速度,是分层三角声门模型的输出量;m,r,k分别为质量块的重量向量、阻尼向量和弹性向量;F为声带壁受到的气流压力;Ps,α分别为声门下压和预发声声门角;Apg为后声门间隙面积。
对质量块上面的作用力进行空气动力学分析,忽略声门入门处的压力降以及声门内部的粘性损失,且假设伯努利气流只存在于声门最窄处以下,声门上压力近似为0即P0=0。根据伯努利方程:
式中,P1为声门上压力,Ug表示声门气流流速,ρ为空气密度,a1为声门面积。因此声门上压力P1以及声门气流流速Ug为:
其中,
定义模型的标准参数,并给定初始条件,求解声带分层生物力学模型的振动方程,获得声带振动位移以及声门气流流速。
然后采用迭代逆滤波算法提取嗓音信号中的声门波信息。在估计声道模型的影响时,线性预测算法易受到共振峰谐波峰值引起的偏置干扰,因此利用全极点模型法(DAP)表征声道滤波器。嗓音信号中的声门波提取过程如图2所示,嗓音信号首先通过高通滤波器消除收音设备产生的低频扰动,然后设计DAP滤波器估算声道和口唇辐射的特征,并对嗓音信号进行逆滤波操作消除声道和口腔影响,最后经过连续两次迭代逆滤波操作后,对信号积分得到声门波。其中m=n=fs/1000+2。
根据目标嗓音源逆滤波获得的声门波Uge和声带生物力学模型仿真获得声门波Ugs,提取声门波特征参数基频(F0)、开商(OQ)、闭合商(CIQ)、斜比率(Sr)和归一化振幅商(NAQ)并建立目标函数。两者之间的时域误差定义为目标函数F1:
频域误差定义为目标函数F2:
式中,N表示Uge和Ugs点数,将两个目标函数线性加权和为:
f=ω1F1+ω2F2 (7)
式中,ω1和ω2为权重系数。
目标函数建立后,设计变异粒子群-拟牛顿算法反演目标嗓音的声带特征参数。设置声带质量、弹性系数、耦合系数、阻尼常数及声门下压力为可优化参数,表示为矢量:Φ=[miα,kiα,kcα,riα,Ps]。先用变异粒子群法求得优化解,再用拟牛顿法对所得到的解进行局部优化,找到全局最优点。变异粒子群-拟牛顿算法的流程如图3所示。
首先初始化一群随机粒子,粒子速度以及迭代次数。更新粒子的位置速度,计算粒子群中每个个体的适应度值。如果所得最高适应度超过预先设置的阈值或达到预先设置的迭代次数,则作为优化个体;否则选择M个个体交叉、变异,得到M个新个体,选择和交叉过程中采用轮盘赌规则。然后对所有M+N个体执行变异操作,选择M个适应度高的进入下一代,重复上述操作。最后利用拟牛顿算法对满足终止条件的优化解进行局部优化,找到全局最优解,得到实际嗓音声源发声时的声带特征参数包括声带质量、弹性系数、耦合系数、阻尼常数、声门下压力和声门波特征,作为语音识别的声带特征参数。
实施例1
一、特征提取:
分别对语音提取特征参数MFCC和本发明的声带特征参数。
1、特征参数MFCC提取步骤:
(1)先对语音信号S(n)预加重处理,采用汉明窗进行加窗分帧,得到每帧信号Xn(m),然后通过短时傅里叶变换得到其频谱Xn(k),取频谱的平方,即能量谱Pn(k)。
(2)用M个Mel带通滤波器对Pn(k)进行滤波,将每个滤波器频带内的能量叠加。
其中,Hm(k)为Mel滤波器频域形式,Sn(m)是每个滤波器频带的输出。
(3)将每个滤波器输出取对数功率谱并进行反离散余弦变换,得到L个MFCC系数。
(4)将得到的MFCC系数作为第n帧的特征参数,并加上人耳更为敏感的一阶差分系数。一阶差分计算公式如下:
L取2,表示当前帧前后各2帧的线性组合,反映语音的动态特征。
2、如图4所示,声带特征参数提取步骤:
(1)初始化声带分层生物力学模型参数,并设置初始运动条件,利用标准四阶龙格-库塔方法求解声带振动方程,输出模型声门波。
(2)采用迭代逆滤波算法提取实际嗓音信号中声门波。首先通过高通滤波器消除嗓音信号中的低频扰动,再进行逆滤波操作消除声道和口腔影响,最后经过连续两次迭代逆滤波后,对信号积分得到实际嗓音声门波。
(3)采用变异粒子群-拟牛顿算法对声带分层生物力学模型进行参数反演优化,匹配实际嗓音源。声带质量、弹性系数、耦合系数、阻尼常数及声门下压力作为反演的可优化特征参数。优化后的输出特征参数包括声带质量、弹性系数、耦合系数、阻尼常数、声门下压力和声门波特征(基频、开商、闭合商、斜比率和归一化振幅商)。
二、识别过程:
1、将MFCC参数作为特征输入,分别用贝叶斯网络(BayesNet)、线性判别分析(LDA)、多层感知器(MLP)、决策树(C4.5)、随机森林(RandomForest)作为分类器进行识别。
2、将MFCC与声带特征参数融合作为特征输入,分别用贝叶斯网络(BayesNet)、线性判别分析(LDA)、多层感知器(MLP)、决策树(C4.5)、随机森林(RandomForest)作为分类器进行识别。
对本发明提出的采用基于声带特征参数的语音识别方法进行性能测试,并进行交叉对比:
结合声带特征和MFCC进行语音识别,增加语音声源的信息,不同分类器的识别结果均优于MFCC特征作为特征输入的识别结果。MFCC特征的平均识别率为77.58%,而融合后特征(MFCC+声带特征)平均识别率为93.96%,提高了16.38%。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于声带特征参数的语音识别分类方法,其特征在于,包括如下步骤:
(1)、建立声带分层生物力学模型,通过增加质量块分离韧带层和肌肉层,表征喉部环甲肌与甲杓肌的张力作用,体现声带组织分层特性;
(2)、定义模型的标准参数,并给定初始条件,求解声带分层生物力学模型的振动方程,获得声带振动位移以及声门气流流速;
(3)、采用迭代逆滤波算法提取嗓音信号中的声门波信息,并建立目标函数;
(4)、设计变异粒子群-拟牛顿算法反演目标嗓音的声带特征参数。
2.根据权利要求1所述的一种基于声带特征参数的语音识别分类方法,其特征在于,步骤(1)中,声带分层生物力学模型包括如下成分:
(1)韧带层:质量块(m1r,m2r),两者之间利用线性弹簧kcr进行耦合;
(2)肌肉层:质量块m3r;
(3)将韧带层侧向耦合到肌肉层的环甲肌张力:非线性弹簧(k1r,k2r)和粘性阻尼元素(r1r,r2r);
(4)将肌肉层耦合至刚性壁的甲杓肌张力:非线性弹簧k3r和粘性阻尼元素r3r。
3.根据权利要求1所述的一种基于声带特征参数的语音识别分类方法,其特征在于,步骤(2)中,建立声带的振动方程如下:
式中,x代表各质量块振动位移向量;Ug为声门气流体速度,是分层三角声门模型的输出量;m,r,k分别为质量块的重量向量、阻尼向量和弹性向量;F为声带壁受到的气流压力;Ps,α分别为声门下压和预发声声门角;Apg为后声门间隙面积;
对质量块上面的作用力进行空气动力学分析,忽略声门入门处的压力降以及声门内部的粘性损失,且假设伯努利气流只存在于声门最窄处amin以下,声门上压力近似为0即P0=0,根据伯努利方程:
式中,P1为声门上压力,Ug表示声门气流流速,ρ为空气密度,a1为声门面积;
因此声门上压力P1以及声门气流流速Ug为:
其中,
4.根据权利要求1所述的一种基于声带特征参数的语音识别分类方法,其特征在于,步骤(3)中,利用全极点模型法DAP表征声道滤波器,嗓音信号中的声门波提取过程如下:
将嗓音信号首先通过高通滤波器消除收音设备产生的低频扰动,然后设计DAP滤波器估算声道和口唇辐射的特征,并对嗓音信号进行逆滤波操作消除声道和口腔影响,最后经过连续两次迭代逆滤波操作后,对信号积分得到声门波,其中m=n=fs/1000+2。
6.根据权利要求1所述的一种基于声带特征参数的语音识别分类方法,其特征在于,步骤(4)具体如下:
4.1、设置声带质量、弹性系数、耦合系数、阻尼常数及声门下压力为可优化参数,表示为矢量:Φ=[miα,kiα,kcα,riα,Ps];
4.2、采用变异粒子群法求得优化解;
4.3、最后利用拟牛顿算法对满足终止条件的优化解进行局部优化,找到全局最优解,得到实际嗓音声源发声时的声带特征参数包括声带质量、弹性系数、耦合系数、阻尼常数、声门下压力和声门波特征,作为语音识别的声带特征参数。
7.根据权利要求6所述的一种基于声带特征参数的语音识别分类方法,其特征在于,步骤4.2所述采用变异粒子群法求得优化解具体如下:
首先,初始化一群随机粒子,粒子速度以及迭代次数;
然后,更新粒子的位置速度,计算粒子群中每个个体的适应度值:如果所得最高适应度超过预先设置的阈值或达到预先设置的迭代次数,则作为优化个体;否则选择M个个体交叉、变异,得到M个新个体,选择和交叉过程中采用轮盘赌规则;
之后,对所有M+N个体执行变异操作,选择M个适应度高的进入下一代;
重复上述操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011198843.9A CN112562650A (zh) | 2020-10-31 | 2020-10-31 | 一种基于声带特征参数的语音识别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011198843.9A CN112562650A (zh) | 2020-10-31 | 2020-10-31 | 一种基于声带特征参数的语音识别分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562650A true CN112562650A (zh) | 2021-03-26 |
Family
ID=75041316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011198843.9A Pending CN112562650A (zh) | 2020-10-31 | 2020-10-31 | 一种基于声带特征参数的语音识别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562650A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822567A (zh) * | 2022-06-22 | 2022-07-29 | 天津大学 | 一种基于能量算子的病理嗓音频谱重构方法 |
CN116473521A (zh) * | 2023-06-21 | 2023-07-25 | 四川大学华西医院 | 疑似环杓关节脱位声音频谱识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101502425A (zh) * | 2009-03-09 | 2009-08-12 | 西安交通大学 | 一种声带振动力学特性的检测系统与检测方法 |
CN109119094A (zh) * | 2018-07-25 | 2019-01-01 | 苏州大学 | 一种利用声带建模反演的嗓音分类方法 |
US20190147593A1 (en) * | 2016-07-14 | 2019-05-16 | Universidad Tecnica Federico Santa Maria | Method for estimating force and pressure of collision in vocal cords from high-speed laryngeal videos |
-
2020
- 2020-10-31 CN CN202011198843.9A patent/CN112562650A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101502425A (zh) * | 2009-03-09 | 2009-08-12 | 西安交通大学 | 一种声带振动力学特性的检测系统与检测方法 |
US20190147593A1 (en) * | 2016-07-14 | 2019-05-16 | Universidad Tecnica Federico Santa Maria | Method for estimating force and pressure of collision in vocal cords from high-speed laryngeal videos |
CN109119094A (zh) * | 2018-07-25 | 2019-01-01 | 苏州大学 | 一种利用声带建模反演的嗓音分类方法 |
Non-Patent Citations (3)
Title |
---|
XIAOJUN ZHANG, LINGLING GU, WEI WEI,ET AL: "Pathological Voice Source Analysis System Using a Flow Waveform-Matched Biomechanical Model", APPLIED BIONICS AND BIOMECHANICS, no. 1, pages 1 - 13 * |
张吉伟等: "声带三质量块振动模型的研究", 陕西师范大学学报(自然科学版), vol. 41, no. 4, pages 35 - 39 * |
陈莉媛等: "一种遗传算法的声带模型参数反演方法", 电子器件, vol. 42, no. 06, pages 1497 - 1501 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822567A (zh) * | 2022-06-22 | 2022-07-29 | 天津大学 | 一种基于能量算子的病理嗓音频谱重构方法 |
CN116473521A (zh) * | 2023-06-21 | 2023-07-25 | 四川大学华西医院 | 疑似环杓关节脱位声音频谱识别方法及系统 |
CN116473521B (zh) * | 2023-06-21 | 2023-08-18 | 四川大学华西医院 | 疑似环杓关节脱位声音频谱识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agrawal et al. | Novel TEO-based Gammatone features for environmental sound classification | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
Nilsson et al. | Gaussian mixture model based mutual information estimation between frequency bands in speech | |
Boril et al. | Unsupervised equalization of Lombard effect for speech recognition in noisy adverse environments | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
WO2006099467A2 (en) | An automatic donor ranking and selection system and method for voice conversion | |
CN109119094B (zh) | 一种利用声带建模反演的嗓音分类方法 | |
CN112562650A (zh) | 一种基于声带特征参数的语音识别分类方法 | |
WO2013154805A1 (en) | Text dependent speaker recognition with long-term feature | |
Shah et al. | Novel MMSE DiscoGAN for cross-domain whisper-to-speech conversion | |
Obin et al. | On the generalization of Shannon entropy for speech recognition | |
Goyani et al. | Performance analysis of lip synchronization using LPC, MFCC and PLP speech parameters | |
KR100809368B1 (ko) | 성대파를 이용한 음색 변환 시스템 | |
Vijayan et al. | Comparative study of spectral mapping techniques for enhancement of throat microphone speech | |
Pietruch et al. | Methods for formant extraction in speech of patients after total laryngectomy | |
Haque et al. | A study on different linear and non-linear filtering techniques of speech and speech recognition | |
Bose et al. | Robust speaker identification using fusion of features and classifiers | |
Thomsen et al. | Speech enhancement and noise-robust automatic speech recognition | |
Sharma et al. | Text-independent speaker identification using backpropagation mlp network classifier for a closed set of speakers | |
KR20200114705A (ko) | 음성 신호 기반의 사용자 적응형 스트레스 인식 방법 | |
JPH0293500A (ja) | 発音評価法 | |
Yadav et al. | Voice Conversion using GMM with Minimum Distance Spectral Mapping Plus Amplitude Scaling | |
Kacur et al. | Acoustic and auxiliary speech features for speaker identification system | |
Pohjalainen | Methods of automatic audio content classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |