CN106941005A - 一种基于语音声学特征的声带异常检测方法 - Google Patents
一种基于语音声学特征的声带异常检测方法 Download PDFInfo
- Publication number
- CN106941005A CN106941005A CN201710101549.3A CN201710101549A CN106941005A CN 106941005 A CN106941005 A CN 106941005A CN 201710101549 A CN201710101549 A CN 201710101549A CN 106941005 A CN106941005 A CN 106941005A
- Authority
- CN
- China
- Prior art keywords
- sigma
- speech
- frame
- voice
- theta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Abstract
本发明公开了一种基于语音声学特征的声带异常检测方法,步骤如下:首先从每帧语音中提取梅尔频率倒谱系数MFCC,基频F0,基频微扰Jitter,振幅微扰Shimmer,谐噪比HNR;然后以声学特征作为输入,采用期望最大化EM算法分别训练代表声带异常和声带正常的高斯混合模型θA和θN;最后将测试语音的特征矩阵F分别输入高斯混合模型θA和θN,得到相应的输出概率P(F|θA)和P(F|θN),如果P(F|θA)>P(F|θN),则测试语音的说话人声带异常,否则正常。本发明采用测试者发出的语音作为分析对象,并从测试语音中提取能有效反应声带情况的多组声学特征作为高斯混合模型的输入,有效区分了声带正常和异常的语音,从而诊断测试者声带是否异常,具有非入侵、便利、成本低等优点。
Description
技术领域
本发明涉及语音信号处理和机器学习技术,尤其涉及一种基于语音声学特征的声带异常检测方法。
背景技术
语音是人类交流的重要手段之一,语音交流障碍严重影响人们的正常生活。声带病变是导致语音交流障碍的主要因素之一。声带异常情况的准确诊断是发音康复治疗的前提,在临床医学中尤为重要。传统的声带异常检测方法是采用喉镜或者电声门图仪。基于喉镜的检测方法具有入侵性,将喉镜插入测试者喉部,需要测试者极力配合,会给测试者带来难以接受的痛苦。另外,做喉镜检测时测试者没法正常发声,无法检测声带振动情况,具有一定的局限性。基于电声门图仪的检测方法需要将两个电极板紧贴在测试者颈部,也会给测试者带来不适感,不适合颈部肥胖者,特别是老人、女性和小孩。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于语音声学特征的声带异常检测方法,本发明的方法通过提取测试者语音的声学特征,再采用GMM分类器进行判决,从而诊断测试者的声带是否异常。
为了达到上述目的,本发明采用以下技术方案:
一种基于语音声学特征的声带异常检测方法,包括下述步骤:
S1、读取语音:读入语音样本,得到语音序列S(n);
S2、预处理:对语音数据进行预加重、分帧、加窗和去静音处理,得到语音帧St(n),1≤t≤T,其中T表示语音帧数;
S3、提取声学特征:从语音帧St(n)中提取梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients,MFCC),基频(F0),基频微扰(Jitter),振幅微扰(Shimmer),谐噪比(Harmony Noise Ratio,HNR),得到特征矩阵F=[MFCC,F0,Jitter,Shimmer,HNR];
S4、训练高斯混合模型(Gaussian Mixture Model,GMM):以特征矩阵F作为输入,采用期望最大化(Expectation Maximization,EM)算法分别训练代表声带异常和声带正常的高斯混合模型θA和θN;
S5、声带异常判决:将测试语音的特征矩阵F分别输入高斯混合模型θA和θN,得到相应的输出概率P(F|θA)和P(F|θN),如果P(F|θA)>P(F|θN),则测试语音的说话人声带异常,否则正常。
优选的,步骤S2中预处理包括如下步骤:
S2.1、预加重:利用数字滤波器h(n)对语音数据进行滤波处理,h(n)的Z变换H(z)表示为:
H(z)=1-μz-1,
其中μ取0.98;
S2.2、分帧:将预加重后的语音数据进行分帧处理,设置语音帧的帧长L,帧移S;
S2.3、加窗:将每帧语音St(n)与窗函数相乘,其中窗函数为汉明窗ω(n):
其中N表示一帧语音的采样点数,且N=L×fs,其中fs表示语音采样频率;
S2.4、去静音:
S2.4.1、计算第t帧语音St(n)的能量Et:
得到语音流的能量特征矢量E=[E1,E2,…,ET],其中T为总帧数;
S2.4.2、用固定的能量门限判断静音与语音有很大的局限性,因为各种环境下的语音能量相差很大,但语音与静音之间能量大小的相对关系是不变的,所以定义每帧语音的能量门限TE:
TE=min(E)+0.3×[mean(E)-min(E)]
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值;
S2.4.3、将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,舍弃静音帧,保留语音帧。
优选的,步骤S3提取声学特征的步骤包括:
S3.1、提取MFCC,具体步骤如下:
S3.1.1、对第t帧语音St(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱St(k):
S3.1.2、将上述线性频谱St(k)通过梅尔滤波器组滤波得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔滤波器组为若干个带通滤波器Hm(k),0≤m≤M,M为滤波器的个数,每个滤波器具有三角形滤波特性,中心频率为f(m),m较小时相邻f(m)的间隔较小,m增加时相邻f(m)的间隔变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中fl和fh分别为滤波器频率应用范围的最低和最高频率,N为一帧语音的采样点数,fs为采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性谱St(k)到对数谱St(m)的函数式为:
S3.1.3、将上述对数频谱St(m)经过离散余弦变换(Discrete CosineTransformation,DCT)变换到倒谱域,得到第t帧语音的MFCC:
S3.2、提取F0:采用自相关法提取各语音帧的基频,具体步骤如下:
S3.2.1、对语音帧St(n)做中心削波处理,得到yt(n):
其中CL等于语音帧最大幅度的0.68倍;
S3.2.2、计算yt(n)的自相关函数Ry(i):
其中N为语音帧采样点数;
检测Ry(i)的峰值点,得到峰值点集合VP,再计算VP差分的均值,得到平均基音周期T0:
其中I为峰值点个数,T0的倒数就是基频F0:
S3.3、提取Jitter:语音相邻周期存在微小变化,声带异常程度不同所引起的基频变化就不同,基频微扰Jitter为:
其中F0为基频,J为一个语音帧中的基音周期个数;
S3.4、提取Shimmer:振幅微扰是指语音帧中各周期的语音振幅的相对变化。振幅微扰Shimmer为:
其中A表示语音帧中某个周期的语音振幅,J表示振幅个数;
S3.5、提取HNR:提取语音帧谐噪比的步骤如下:
计算语音帧St(n)的自相关函数Rn(i):
其中N表示语音帧的采样点数,设RH(i)和RN(i)分别表示语音信号的谐波相关性和噪声相关性,由于谐波成分和噪声成分不相关且噪声成分没有相关性,故有:
当i=0时,
Rn(0)=RH(0)+RN(0),
当i=T0时,
Rn(T0)=RH(T0)=RH(0),
谐噪比HNR为:
S3.6、将语音帧的MFCC、F0、Jitter、Shimmer和HNR依次拼接,构成特征矩阵F=[MFCC,F0,Jitter,Shimmer,HNR]。
优选的,步骤S4训练高斯混合模型的步骤包括:
S4.1、包含G个高斯混合分量的D维高斯混合模型θ表示为:θ={wi,ui,Σi},其中wi表示混合权重系数,μi表示均值,Σi表示协方差矩阵,第t帧语音的特征矩阵Ft输入θ的输出概率为:
其中bi(Ft)表示第i个高斯分量的概率分布,表示为:
其中D和Ft分别表示特征维数和第t帧语音的特征矩阵,所有T帧语音的特征矩阵F=[F1,…,Ft,…,FT]T,T表示矩阵转置运算,F输入θ的输出概率为:
S4.2、求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{lnP[(F,i)|θ]},
整理得:
其中θ*表示迭代更新后的通用背景模型,ln(·)表示自然对数函数,P(i|Ft,θ*)表示更新后的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ)表示更新前的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ*)与P(i|Ft,θ)的表达式相同,只需用当前迭代后的UBM参数代替当前迭代前的UBM参数即可,根据贝叶斯公式,特征矩阵Ft在第i个高斯的概率为:
其中Pi(Ft)和Pj(Ft)分别为:
S4.3、最大化:根据Q(θ,θ*)函数,估计θ={wi,ui,Σi}:
S4.4、EM算法迭代GMM参数:当似然函数值达到最大时停止迭代,即当前迭代的输出概率P(F|θ*)值相对上次迭代时的输出概率P(F|θ)值增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数:
均值矢量:
协方差矩阵:
优选的,步骤S5中声带异常判决,对测试语音依次进行S1、S2和S3步骤的处理,得到测试语音的特征矩阵F并分别输入采用S4步骤得到的代表声带异常和正常的高斯混合模型θA和θN,得到相应的输出概率P(F|θA)和P(F|θN),如果P(F|θA)>P(F|θN),则测试语音的说话人声带异常,否则正常。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明采用测试者发出的语音作为分析对象,并从测试语音中提取能有效反应声带情况的多组声学特征作为高斯混合模型的输入,有效区分了声带正常和异常的语音,从而诊断测试者声带是否异常。
2、本发明方法具有非入侵、友好便利、成本低等优点,可以适合任意人群的声带异常检测,有效克服了喉镜、电声门图仪等现有检测技术的不足。
附图说明
图1为本发明的实施例的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为本发明的实施例的流程图,具体步骤如下:
首先,在步骤101中,读取采集到语音样本。
接着,在步骤102中,对读入的语音数据进行预处理,具体步骤如下:
1、预加重:利用数字滤波器h(n)对语音数据进行滤波处理,h(n)的Z变换H(z)表示为:
H(z)=1-μz-1,
其中μ取0.98;
2、分帧:将预加重后的语音数据进行分帧处理,帧长L=30ms,帧移S=15ms;
3、加窗:将每帧语音St(n)与窗函数相乘,其中窗函数为汉明窗ω(n):
其中N表示一帧语音的采样点数,且N=L×fs,其中fs表示语音采样频率;
4、去静音:
4.1、计算第t帧语音St(n)的能量Et:
得到语音流的能量特征矢量E=[E1,E2,…,ET],其中T为总帧数;
4.2、用固定的能量门限判断静音与语音有很大的局限性,因为各种环境下的语音能量相差很大,但语音与静音之间能量大小的相对关系是不变的,所以定义每帧语音的能量门限TE:
TE=min(E)+0.3×[mean(E)-min(E)]
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值;
4.3、将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,舍弃静音帧,保留语音帧。
接着,在步骤103中,提取各帧语音的声学特征,包括梅尔频率倒谱系数MFCC、基频F0、基频微扰Jitter、振幅微扰Shimmer和谐噪比HNR,并依次将上述特征拼接构造特征矩阵F,具体步骤如下:
1、提取MFCC:具体步骤如下:
1.1、对第t帧语音St(n)做离散傅立叶变换(Discrete Fourier Transformation,DFT)得到线性频谱St(k):
1.2、将上述线性频谱St(k)通过梅尔滤波器组滤波得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔滤波器组为若干个带通滤波器Hm(k),0≤m≤M,M为滤波器的个数,每个滤波器具有三角形滤波特性,中心频率为f(m),m较小时相邻f(m)的间隔较小,m增加时相邻f(m)的间隔变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中,fl和fh分别为滤波器频率应用范围的最低和最高频率,N为一帧语音的采样点数,fs为采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性谱St(k)到对数谱St(m)的函数式为:
1.3、将上述对数频谱St(m)经过离散余弦变换(Discrete CosineTransformation,DCT)变换到倒谱域,得到第t帧语音的MFCC:
2、提取F0:采用自相关法提取各语音帧的基频,具体步骤如下:
2.1、对语音帧St(n)做中心削波处理,得到yt(n):
其中CL等于语音帧最大幅度的0.68倍;
2.2、计算yt(n)的自相关函数Ry(i):
其中N为语音帧采样点数;
检测Ry(i)的峰值点,得到峰值点集合VP,再计算VP差分的均值,得到平均基音周期T0:
其中I为峰值点个数,T0的倒数就是基频F0:
3、提取Jitter:语音相邻周期存在微小变化,声带异常程度不同所引起的基频变化就不同,基频微扰Jitter为:
其中F0为基频,J为一个语音帧中的基音周期个数;
4、提取Shimmer:振幅微扰是指语音帧中各周期的语音振幅的相对变化。振幅微扰Shimmer为:
其中A表示语音帧中某个周期的语音振幅,J表示振幅个数;
5、提取HNR:提取语音帧谐噪比的步骤如下:
计算语音帧St(n)的自相关函数Rn(i):
其中N表示语音帧的采样点数,设RH(i)和RN(i)分别表示语音信号的谐波相关性和噪声相关性,由于谐波成分和噪声成分不相关且噪声成分没有相关性,故有:
当i=0时,
Rn(0)=RH(0)+RN(0),
当i=T0时,
Rn(T0)=RH(T0)=RH(0),
谐噪比HNR为:
将语音帧的MFCC、F0、Jitter、Shimmer和HNR依次拼接,构成特征矩阵F=[MFCC,F0,Jitter,Shimmer,HNR]。
接着,在步骤104中,采用EM算法训练分别代表声带异常和正常的高斯混合模型θA和θN,具体步骤如下:
1、包含G个高斯混合分量的D维高斯混合模型θ表示为:θ={wi,ui,Σi},其中wi表示混合权重系数,μi表示均值,Σi表示协方差矩阵,第t帧语音的特征矩阵Ft输入θ的输出概率为:
其中bi(Ft)表示第i个高斯分量的概率分布,表示为:
其中D和Ft分别表示特征维数和第t帧语音的特征矩阵,所有T帧语音的特征矩阵F=[F1,…,Ft,…,FT]T,T表示矩阵转置运算,F输入θ的输出概率为:
2、求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{lnP[(F,i)|θ]},
整理得:
其中θ*表示迭代更新后的通用背景模型,ln(·)表示自然对数函数,P(i|Ft,θ*)表示更新后的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ)表示更新前的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ*)与P(i|Ft,θ)的表达式相同,只需用当前迭代后的UBM参数代替当前迭代前的UBM参数即可,根据贝叶斯公式,特征矩阵Ft在第i个高斯的概率为:
其中Pi(Ft)和Pj(Ft)分别为:
3、最大化:根据Q(θ,θ*)函数,估计θ={wi,ui,Σi}:
4、EM算法迭代GMM参数:当似然函数值达到最大时停止迭代,即当前迭代的输出概率P(F|θ*)值相对上次迭代时的输出概率P(F|θ)值增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数:
均值矢量:
协方差矩阵:
最后,在步骤105中,对测试语音依次进行101、102和103步骤的处理,得到测试语音的特征矩阵F并分别输入采用104步骤得到的代表声带异常和正常的高斯混合模型θA和θN,得到相应的输出概率P(F|θA)和P(F|θN),如果P(F|θA)>P(F|θN),则测试语音的说话人声带异常,否则正常。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种基于语音声学特征的声带异常检测方法,其特征在于,包括如下步骤:
S1、读取语音:读入语音样本,得到语音序列S(n);
S2、预处理:对语音数据进行预加重、分帧、加窗和去静音处理,得到语音帧St(n),1≤t≤T,其中T表示语音帧数;
S3、提取声学特征:从语音帧St(n)中提取梅尔频率倒谱系数MFCC,基频F0,基频微扰Jitter,振幅微扰Shimmer,谐噪比HNR,得到特征矩阵F=[梅尔频率倒谱系数MFCC,基频F0,基频微扰Jitter,振幅微扰Shimmer,谐噪比HNR];
S4、训练高斯混合模型GMM:以特征矩阵F作为输入,采用期望最大化EM算法分别训练代表声带异常和声带正常的高斯混合模型θA和θN;
S5、声带异常判决:将测试语音的特征矩阵F分别输入高斯混合模型θA和θN,得到相应的输出概率P(F|θA)和P(F|θN),如果P(F|θA)>P(F|θN),则测试语音的说话人声带异常,否则正常。
2.根据权利要求1所述的一种基于语音声学特征的声带异常检测方法,其特征在于,步骤S2中预处理包括如下步骤:
S2.1、预加重:利用数字滤波器h(n)对语音数据进行滤波处理,h(n)的Z变换H(z)表示为:
H(z)=1-μz-1,
其中μ取0.98;
S2.2、分帧:将预加重后的语音数据进行分帧处理,设置语音帧的帧长L,帧移S;
S2.3、加窗:将每帧语音St(n)与窗函数相乘,其中窗函数为汉明窗ω(n):
其中N表示一帧语音的采样点数,且N=L×fs,其中fs表示语音采样频率;
S2.4、去静音:
S2.4.1、计算第t帧语音St(n)的能量Et:
得到语音流的能量特征矢量E=[E1,E2,…,ET],其中T为总帧数;
S2.4.2、用固定的能量门限判断静音与语音有很大的局限性,因为各种环境下的语音能量相差很大,但语音与静音之间能量大小的相对关系是不变的,所以定义每帧语音的能量门限TE:
TE=min(E)+0.3×[mean(E)-min(E)]
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值;
S2.4.3、将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,舍弃静音帧,保留语音帧。
3.根据权利要求1所述的一种基于语音声学特征的声带异常检测方法,其特征在于,步骤S3中提取声学特征的步骤包括:
S3.1、提取梅尔频率倒谱系数MFCC,具体步骤如下:
S3.1.1、对第t帧语音St(n)做离散傅立叶变换DFT,得到线性频谱St(k):
S3.1.2、将上述线性频谱St(k)通过梅尔滤波器组滤波得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔滤波器组为若干个带通滤波器Hm(k),0≤m≤M,M为滤波器的个数,每个滤波器具有三角形滤波特性,中心频率为f(m),m较小时相邻f(m)的间隔较小,m增加时相邻f(m)的间隔变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中fl和fh分别为滤波器频率应用范围的最低和最高频率,N为一帧语音的采样点数,fs为采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性谱St(k)到对数谱St(m)的函数式为:
S3.1.3、将上述对数频谱St(m)经过离散余弦变换DCT变换到倒谱域,得到第t帧语音的MFCC:
S3.2、提取基频F0:采用自相关法提取各语音帧的基频,具体步骤如下:
S3.2.1、对语音帧St(n)做中心削波处理,得到yt(n):
其中CL等于语音帧最大幅度的0.68倍;
S3.2.2、计算yt(n)的自相关函数Ry(i):
其中N为语音帧采样点数;
检测Ry(i)的峰值点,得到峰值点集合VP,再计算VP差分的均值,得到平均基音周期T0:
其中I为峰值点个数,T0的倒数就是基频F0:
S3.3、提取基频微扰Jitter:语音相邻周期存在微小变化,声带异常程度不同所引起的基频变化就不同,基频微扰Jitter为:
其中F0为基频,J为一个语音帧中的基音周期个数;
S3.4、提取振幅微扰Shimmer:振幅微扰是指语音帧中各周期的语音振幅的相对变化;振幅微扰Shimmer为:
其中A表示语音帧中某个周期的语音振幅,J表示振幅个数;
S3.5、提取谐噪比HNR:提取语音帧谐噪比的步骤如下:
计算语音帧St(n)的自相关函数Rn(i):
其中N表示语音帧的采样点数,设RH(i)和RN(i)分别表示语音信号的谐波相关性和噪声相关性,由于谐波成分和噪声成分不相关且噪声成分没有相关性,故有:
当i=0时,
Rn(0)=RH(0)+RN(0),
当i=T0时,
Rn(T0)=RH(T0)=RH(0),
谐噪比HNR为:
S3.6、将语音帧的梅尔频率倒谱系数MFCC,基频F0,基频微扰Jitter,振幅微扰Shimmer,谐噪比HNR依次拼接,构成特征矩阵F=[梅尔频率倒谱系数MFCC,基频F0,基频微扰Jitter,振幅微扰Shimmer,谐噪比HNR]。
4.根据权利要求1所述的一种基于语音声学特征的声带异常检测方法,其特征在于,步骤S4训练高斯混合模型的步骤包括:
S4.1、包含G个高斯混合分量的D维高斯混合模型θ表示为:θ={wi,ui,Σi},其中wi表示混合权重系数,μi表示均值,Σi表示协方差矩阵,第t帧语音的特征矩阵Ft输入θ的输出概率为:
其中bi(Ft)表示第i个高斯分量的概率分布,表示为:
其中D和Ft分别表示特征维数和第t帧语音的特征矩阵,所有T帧语音的特征矩阵F=[F1,…,Ft,…,FT]T,T表示矩阵转置运算,F输入θ的输出概率为:
S4.2、求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{ln P[(F,i)|θ]},
整理得:
其中θ*表示迭代更新后的通用背景模型,ln(·)表示自然对数函数,P(i|Ft,θ*)表示更新后的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ)表示更新前的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ*)与P(i|Ft,θ)的表达式相同,只需用当前迭代后的UBM参数代替当前迭代前的UBM参数即可,根据贝叶斯公式,特征矩阵Ft在第i个高斯的概率为:
其中Pi(Ft)和Pj(Ft)分别为:
S4.3、最大化:根据Q(θ,θ*)函数,估计θ={wi,ui,Σi}:
S4.4、期望最大化EM算法迭代高斯混合模型GMM参数:当似然函数值达到最大时停止迭代,即当前迭代的输出概率P(F|θ*)值相对上次迭代时的输出概率P(F|θ)值增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数:
均值矢量:
协方差矩阵:
5.根据权利要求1所述的一种基于语音声学特征的声带异常检测方法,其特征在于,步骤S5中声带异常判决为:对测试语音依次进行S1、S2和S3步骤的处理,得到测试语音的特征矩阵F并分别输入采用S4步骤得到的代表声带异常和正常的高斯混合模型θA和θN,得到相应的输出概率P(F|θA)和P(F|θN),如果P(F|θA)>P(F|θN),则测试语音的说话人声带异常,否则正常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710101549.3A CN106941005A (zh) | 2017-02-24 | 2017-02-24 | 一种基于语音声学特征的声带异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710101549.3A CN106941005A (zh) | 2017-02-24 | 2017-02-24 | 一种基于语音声学特征的声带异常检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106941005A true CN106941005A (zh) | 2017-07-11 |
Family
ID=59469208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710101549.3A Pending CN106941005A (zh) | 2017-02-24 | 2017-02-24 | 一种基于语音声学特征的声带异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106941005A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107731230A (zh) * | 2017-11-10 | 2018-02-23 | 北京联华博创科技有限公司 | 一种庭审笔录系统及方法 |
CN108198576A (zh) * | 2018-02-11 | 2018-06-22 | 华南理工大学 | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 |
CN108269590A (zh) * | 2018-01-17 | 2018-07-10 | 广州势必可赢网络科技有限公司 | 一种声带恢复评分方法及装置 |
CN108269574A (zh) * | 2017-12-29 | 2018-07-10 | 安徽科大讯飞医疗信息技术有限公司 | 语音信号处理方法及装置、存储介质、电子设备 |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
CN109036469A (zh) * | 2018-07-17 | 2018-12-18 | 西安交通大学 | 一种基于声音特征的自主神经功能参数获取方法 |
CN109448755A (zh) * | 2018-10-30 | 2019-03-08 | 上海力声特医学科技有限公司 | 人工耳蜗听觉场景识别方法 |
CN109431517A (zh) * | 2018-11-13 | 2019-03-08 | 四川长虹电器股份有限公司 | 一种基于心音的身份识别方法 |
CN109480807A (zh) * | 2018-09-21 | 2019-03-19 | 王桥生 | 一种基于图像信号分析的非接触式心率测量方法 |
CN109559761A (zh) * | 2018-12-21 | 2019-04-02 | 广东工业大学 | 一种基于深度语音特征的脑卒中风险预测方法 |
WO2019242155A1 (zh) * | 2018-06-22 | 2019-12-26 | 平安科技(深圳)有限公司 | 基于声音识别的健康管理方法、装置和计算机设备 |
CN111210845A (zh) * | 2019-12-20 | 2020-05-29 | 太原理工大学 | 一种基于改进自相关特征的病理语音检测装置 |
CN111755025A (zh) * | 2019-03-26 | 2020-10-09 | 北京君林科技股份有限公司 | 一种基于音频特征的状态检测方法、装置及设备 |
CN112116924A (zh) * | 2019-06-21 | 2020-12-22 | 株式会社日立制作所 | 异常音检测系统、伪音生成系统及伪音生成方法 |
CN112951268A (zh) * | 2021-02-26 | 2021-06-11 | 北京百度网讯科技有限公司 | 音频识别方法、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN103137137A (zh) * | 2013-02-27 | 2013-06-05 | 华南理工大学 | 一种会议音频中的精彩说话人发现方法 |
CN103730130A (zh) * | 2013-12-20 | 2014-04-16 | 中国科学院深圳先进技术研究院 | 一种病理嗓音的检测方法和系统 |
CN106128475A (zh) * | 2016-07-12 | 2016-11-16 | 华南理工大学 | 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法 |
-
2017
- 2017-02-24 CN CN201710101549.3A patent/CN106941005A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN103137137A (zh) * | 2013-02-27 | 2013-06-05 | 华南理工大学 | 一种会议音频中的精彩说话人发现方法 |
CN103730130A (zh) * | 2013-12-20 | 2014-04-16 | 中国科学院深圳先进技术研究院 | 一种病理嗓音的检测方法和系统 |
CN106128475A (zh) * | 2016-07-12 | 2016-11-16 | 华南理工大学 | 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法 |
Non-Patent Citations (1)
Title |
---|
李宁: "基于声学参数和支持向量机的病理嗓音分类研究", 《中国博士学位论文全文数据库 医药卫生科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107731230A (zh) * | 2017-11-10 | 2018-02-23 | 北京联华博创科技有限公司 | 一种庭审笔录系统及方法 |
CN108269574A (zh) * | 2017-12-29 | 2018-07-10 | 安徽科大讯飞医疗信息技术有限公司 | 语音信号处理方法及装置、存储介质、电子设备 |
CN108269574B (zh) * | 2017-12-29 | 2021-05-25 | 安徽科大讯飞医疗信息技术有限公司 | 语音信号处理以表示用户声带状态的方法及装置、存储介质、电子设备 |
CN108269590A (zh) * | 2018-01-17 | 2018-07-10 | 广州势必可赢网络科技有限公司 | 一种声带恢复评分方法及装置 |
CN108198576A (zh) * | 2018-02-11 | 2018-06-22 | 华南理工大学 | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
WO2019242155A1 (zh) * | 2018-06-22 | 2019-12-26 | 平安科技(深圳)有限公司 | 基于声音识别的健康管理方法、装置和计算机设备 |
CN109036469A (zh) * | 2018-07-17 | 2018-12-18 | 西安交通大学 | 一种基于声音特征的自主神经功能参数获取方法 |
CN109480807A (zh) * | 2018-09-21 | 2019-03-19 | 王桥生 | 一种基于图像信号分析的非接触式心率测量方法 |
CN109448755A (zh) * | 2018-10-30 | 2019-03-08 | 上海力声特医学科技有限公司 | 人工耳蜗听觉场景识别方法 |
CN109431517A (zh) * | 2018-11-13 | 2019-03-08 | 四川长虹电器股份有限公司 | 一种基于心音的身份识别方法 |
CN109559761A (zh) * | 2018-12-21 | 2019-04-02 | 广东工业大学 | 一种基于深度语音特征的脑卒中风险预测方法 |
CN111755025A (zh) * | 2019-03-26 | 2020-10-09 | 北京君林科技股份有限公司 | 一种基于音频特征的状态检测方法、装置及设备 |
CN111755025B (zh) * | 2019-03-26 | 2024-02-23 | 苏州君林智能科技有限公司 | 一种基于音频特征的状态检测方法、装置及设备 |
CN112116924A (zh) * | 2019-06-21 | 2020-12-22 | 株式会社日立制作所 | 异常音检测系统、伪音生成系统及伪音生成方法 |
CN112116924B (zh) * | 2019-06-21 | 2024-02-13 | 株式会社日立制作所 | 异常音检测系统、伪音生成系统及伪音生成方法 |
CN111210845A (zh) * | 2019-12-20 | 2020-05-29 | 太原理工大学 | 一种基于改进自相关特征的病理语音检测装置 |
CN111210845B (zh) * | 2019-12-20 | 2022-06-21 | 太原理工大学 | 一种基于改进自相关特征的病理语音检测装置 |
CN112951268A (zh) * | 2021-02-26 | 2021-06-11 | 北京百度网讯科技有限公司 | 音频识别方法、设备和存储介质 |
CN112951268B (zh) * | 2021-02-26 | 2023-01-10 | 北京百度网讯科技有限公司 | 音频识别方法、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106941005A (zh) | 一种基于语音声学特征的声带异常检测方法 | |
Cernak et al. | Characterisation of voice quality of Parkinson’s disease using differential phonological posterior features | |
CN112006697B (zh) | 一种基于语音信号的梯度提升决策树抑郁程度识别系统 | |
AU2013274940B2 (en) | Cepstral separation difference | |
CN108198576A (zh) | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 | |
Yin et al. | Automatic cognitive load detection from speech features | |
CN109727608A (zh) | 一种基于中文语音的病态嗓音评估方法 | |
Khan et al. | Cepstral separation difference: A novel approach for speech impairment quantification in Parkinson's disease | |
Sharma | Disease detection using analysis of voice parameters | |
Subhashree et al. | Speech Emotion Recognition: Performance Analysis based on fused algorithms and GMM modelling | |
Molla et al. | On the effectiveness of MFCCs and their statistical distribution properties in speaker identification | |
Dubey et al. | Detection and assessment of hypernasality in repaired cleft palate speech using vocal tract and residual features | |
Le et al. | A study of voice source and vocal tract filter based features in cognitive load classification | |
CN111091816B (zh) | 一种基于语音评测的数据处理系统及方法 | |
Khanum et al. | Speech based gender identification using feed forward neural networks | |
Ou et al. | Probabilistic acoustic tube: a probabilistic generative model of speech for speech analysis/synthesis | |
CN108074585A (zh) | 一种基于声源特征的语音异常检测方法 | |
Godino-Llorente et al. | Automatic detection of voice impairments due to vocal misuse by means of gaussian mixture models | |
CN111210845A (zh) | 一种基于改进自相关特征的病理语音检测装置 | |
Warule et al. | Empirical Mode Decomposition Based Detection of Common Cold Using Speech Signal | |
Majda et al. | Modeling and optimization of the feature generator for speaker recognition systems | |
Aggarwal et al. | Parameterization techniques for automatic speech recognition system | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
Han et al. | Robust End-to-End Speaker Verification Using EEG | |
Bhattacharjee et al. | Speaker verification using acoustic and prosodic features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170711 |
|
WD01 | Invention patent application deemed withdrawn after publication |