CN104900229A - 一种语音信号混合特征参数的提取方法 - Google Patents

一种语音信号混合特征参数的提取方法 Download PDF

Info

Publication number
CN104900229A
CN104900229A CN201510274148.9A CN201510274148A CN104900229A CN 104900229 A CN104900229 A CN 104900229A CN 201510274148 A CN201510274148 A CN 201510274148A CN 104900229 A CN104900229 A CN 104900229A
Authority
CN
China
Prior art keywords
parameter
sigma
voice signal
lpcc
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510274148.9A
Other languages
English (en)
Inventor
景新幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Technology of GUET
Original Assignee
Institute of Information Technology of GUET
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Technology of GUET filed Critical Institute of Information Technology of GUET
Priority to CN201510274148.9A priority Critical patent/CN104900229A/zh
Publication of CN104900229A publication Critical patent/CN104900229A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于Fisher准则与k-means聚类的语音信号混合特征提取方法,包括对语音信号x(n)预处理过程、特征提取过程、特征混合过程,其特征在所述语音信号x(n)预处理过程包括对语音信号x(n)进行预加重、分帧、加窗和端点检测处理过程;所述语音信号x(n)特征提取过程包括LPCC参数提取过程和MFCC参数提取过程以及LPCC差分参数和MFCC差分提取过程;所述特征混合过程包括对LPCC参数和MFCC参数以及差分参数利用Fisher准则和k-means混合过程。本发明能够在不增加计算量的情况下提高识别率,而且提高系统鲁棒性和稳健性。

Description

一种语音信号混合特征参数的提取方法
技术领域
本发明涉及语音信号处理领域,具体为一种语音信号混合特征参数的提取方法
背景技术
语音信号是一种十分复杂的非平稳信号,它包含着丰富的个人和语音本身的特征信息,其特征参数的提取对语音识别效果至关重要。特征参数提取是指对不同的语音段寻找其内在特征参数,通常特征参数大致可以分为三类:第一类是时域参数,例如短时平均能量,共振峰,短时平均幅度,短时平均过零率,短时自相关函数,高阶统计量以及基音周期等;第二类是频域参数,例如线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)、线谱对(LSP)、口音敏感参数(ASCC)、感觉加权的线性预测(PLP)特征、动态差分参数、以及基于Gammatone滤波器组的听觉特征(GFCC)等;第三类是基于小波变换或经验模态分解(EMD)的系数。目前,特征参数提取都是将单一的参数提出,例如提取LPCC,MFCC,GFCC等,这些参数要么是基于发声机理的,如LPCC,要么是基于听觉特性的,如MFCC,二者并没有进行混合提取更加全面、完整、高效的混合特征参数。而根据现在语音识别系统对实时性和鲁棒性要求,单一特征参数已经不足以表征整个说话人或者语音本身的信息,导致识别率下降,运行时间加长,其他特征参数提取也存在以上问题,不能很好的提高识别率。
发明内容
本发明旨在解决现有技术中存在的识别率低鲁棒性差的问题。
本发明正是分析发声机理和听觉特性的基础上,关于LPCC与MFCC以及二者差分参数的混合特征参数提取方法,具体为一种语音信号混合特征参数的提取方法。
为了解决语音特征参数单一,表征能力不足,鲁棒性差等问题,本发明提出一种语音信号混合特征参数的提取方法,本方法是将根据发声机理的LPCC特征和根据听觉特性的MFCC特征混合后提取,能够在不增加计算量的情况下提高识别率,而且提高系统鲁棒性和稳健性。
一种语音信号混合特征参数的提取方法,包括对语音信号x(n)预处理过程、特征提取过程、特征混合过程,其中所述语音信号x(n)预处理过程包括对语音信号x(n)进行预加重、分帧、加窗和端点检测处理过程;所述语音信号x(n)特征提取过程包括LPCC参数提取过程和MFCC参数提取过程以及LPCC差分参数和MFCC差分数提取过程;所述特征混合过程包括采用Fisher准则和K-means算法对LPCC参数和MFCC参数以及LPCC差分参数和MFCC差分数进行聚类的过程。
本方法中将LPCC参数和MFCC参数进行差分参数提取的过程及采用Fisher准则进行线性判别过程从而实现将据发声机理的LPCC特征和根据听觉特性的MFCC特征混合后提取,所提取的混合特征参数更加全面完整,更加容易识别,能够更加真实的表征整语音本身的信息,利用k-means聚类降低帧数,能够实现在不增加计算量的情况下提高识别率,且提高系统鲁棒性和稳健性。
进一步的,所述加窗处理过程即是得到加窗后语音sw(n)的过程,其中sw(n)=x(n)·w(n),式中0≤n≤(N-1),式中w(n)为加窗函数,且满足函数式
进一步的,所述LPCC参数提取过程包括求取线性预测LPC过程、计算LPCC过程,其中求取线性预测LPC过程是按照声道全极点模型进行求取,式中G表示模型的增益常数,p表示预测LPC的阶数,ak表示线性预测系数(k=1,2,…,p);
计算LPCC时,首先语音信号x(n)的倒谱是对它进行Z变换,然后取对数后,再进行反Z变换,具体变换是首先按照式
x ^ ( z ) = log ( | X ( z ) | · c - j arg X ( Z ) ) = log | X ( z ) | - j arg X ( z ) , 把X(z)的相位信息jargX(z)忽略不计,从而得到能得到语音信号x(n)的倒谱:c(n)=Z-1(log|X(z)|),再通过LPC系数an得到LPCC参数,具体按照递推公式 c LP ( 0 ) = α 1 c LP ( n ) = Σ k = 1 n - 1 k n α n - k c LP ( k ) + α n ( 1 ≤ n ≤ p ) c LP ( n ) = Σ k = 1 n - 1 k n α n - k c LP ( k ) ( n > p ) 可以得到LPCC参数。
LPCC参数是通过声道模型来建立的一种特征参数,能够反映声道的响应,而且PLCC参数能很好地将语音信号的共振特性表征出来。LPCC参数的是根据语音样本点与前后的样本点有很大的相关性,因此就可以利用过去的样本点值来预测现在的或者未来的一个样本点,也就是说语音信号的抽样值完全可以通过过去的一些语音采样点的进行组合来逼近而得到,当预测的语音信号和实际抽样语音信号间的误差值达到最小值(在某个逼近准则下)时,那么这时对应的唯一一组预测系数就作为语音信号的特征参数。
进一步的,所述MFCC参数提取过程包括如下步骤
S41:把经过预处理后的语音信号进行FFT变换得到其频谱X[k],变换公式为:
X [ k ] = Σ n = 0 N - 1 x [ n ] e - j 2 πnk N , 0 ≤ k ≤ N - 1 ;
S42:求频谱的平方得到短时能量谱S(k),具体计算公式为
S ( k ) = | X ( k ) | 2 = | Σ n = 0 N - 1 x ( n ) e - j 2 πnk N | 2 , 0 ≤ k ≤ N - 1 ;
S43:用Mel滤波器把幅度谱转化为Mel频率谱,具体计算公式为
S44:对所述Mel频率谱进行对数变换,变换公式为
X ′ ( m ) = ln ( Σ k = o N - 1 | x ( k ) | 2 . H ( k , m ) ) ;
S45:将对数变换后的Mel频率谱进行离散余弦变换(DCT)即得到MFCC,变换公式为
mfcc ( r ) = Σ m = 1 M X ( m ) cos ( π M ( n + 0.5 ) r ) , r = 1,2 , . . . , M .
进一步的,所述对LPCC参数和MFCC参数进行差分参数dk提取的过程包括一阶差分参数提取和二阶差分参数提取,其中差分参数dk提取满足公式: d k = c k + 1 - c k c k - c k + 1 Σ ϵ = 1 t ϵ ( c k + ϵ - c k - ϵ ) 2 Σ ϵ = 1 t ϵ 2 , 式中dk表示第k个一阶差分参数,t为一阶导数时间差,通常取1或2,ck表示第k个倒谱系数,其中取k=2,d为差分参数,c为四个语音参数,用dk公式将迭代两次,即可得到MFCC的二阶差分参数。
进一步的,所述Fisher准则为利用评价函数对特征参数进行选择,假设n维特征X在一条直线上投影,则寻找一条投影直线,使得类间距离最大,具体为:首先对于两个类w0和w1,假设各类的特征是二维分布,将它们在直线Y1和Y2上投影,特征向量X的线性组合y表示为y=YTX,属于wi的特征向量X的平均值ui表示为其中ni表示属于wi类特征向量X的个数,那么特征向量X的线性组合y的平均值mi则表示为特征向量X的线性组合y的类内方差σi 2表示为然后用Fisher评价函数来描述区分度,具体计算采用公式FFisher=σbetweenwithin,式中FFisher称为特征参量的Fisher比,σwithin是特征参量对应各个类的类内散度(方差)之和,σbetween是特征参量的类间散度,其中 σ within = Σ i = 1 c [ 1 n i Σ X ∈ W i ( c k ( j ) - m k ( j ) ) 2 ] , σ between = Σ i = 1 c ( m k ( j ) - m k ) 2 , 其式中mk表示ck对所有样本的均值。
进一步的,所述采用K-means算法对LPCC参数和MFCC参数进行混合的过程具体为首先假设X包含k个聚类子集X1,X2,…,Xk,各个聚类子集中的样本数分别为n1,n2,…,nk,各个聚类子集的聚类中心分别为m1,m2,…,mk,误差平方和准则函数为则K-means算法按以下步骤:
S71:为每一个聚类确定一个初始聚类中心,这样就有k个初试聚类中心;
S72:将样本几种的样本按照最小距离原则分配到最邻近聚类;
S73:使用每一个聚类中的样本均值作为新的聚类中心;
S74:重复步骤S72和S73,直到聚类中心不再变化并得到k个聚类。
进一步,所述的语音信号混合特征参数的提取方法采用交叠分段法来分帧,其中语音帧长为30ms,帧移为10ms。
通过本发明中提出的语音信号混合特征提取方法,采取先是用Fisher准则选择LPCC和MFCC以及二者差分参数中的有效成分,然后利用k-means聚类降低帧数,能够实现在不增加计算量的情况下提高识别率,且提高系统鲁棒性和稳健性。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明中语音信号混合特征提取方法流程示意图;
图2为本发明中“对子女恩情似海”测试语音图;
图3为本发明中LPCC与一阶差分LPCC参数效果图;
图4为本发明中Mel频率fmel与实际频率f的对应图;
图5为本发明中MFCC提取流程示意图;
图6为本发明中Mel滤波器组频率效果图;
图7为本发明中MFCC与一阶差分MFCC参数效果图
图8为本发明中二类聚类情况示意图。
图9为本发明中LPCC和MFCC参数Fisher比效果图;
图10为本发明中k-means聚类结果图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1-10对本发明实施例的语音信号混合特征的参数提取方法做进一步的描述。
如图1所示,一种语音信号混合特征的参数提取方法,包括对语音信号x(n)预处理过程、特征提取过程、特征混合过程,其中所述语音信号x(n)预处理过程包括对语音信号x(n)进行预加重、分帧、加窗和端点检测处理过程;所述语音信号x(n)特征提取过程包括LPCC参数提取过程和MFCC参数提取过程以及LPCC差分参数和MFCC差分数提取过程;所述特征混合过程包括采用Fisher准则和K-means算法对LPCC参数和MFCC参数以及LPCC差分参数和MFCC差分数进行聚类的过程。
如图2所示测试语音的信号x(n),由于语音信号易受声门激励和口鼻辐射的影响,在800Hz以上的频率成份会出现6dB/倍频程的衰减,因此需要通过预加重的方法来提升高频部分能量,借机弥补高频损失,本实施例采用一阶高通滤波器1-0.9375Z-1来实现预加重;语音信号本身是一种实时的、随时间和周边环境不断变化的非平稳信号,但人在发音时发声器官的运动具有一定的惯性,可以认为短时间内发声器官的状态是不变的,即语音信号具有短时平稳特征,因此大部分语音信号处理都是在基于短时平稳特性基础上对语音信号进行分帧,每帧的长度相同且在10ms至30ms之间,另外为了保证特征信息不丢失,本实施例在MATLAB实验中选取语音帧长为256点,帧移为128点。
关于加窗处理,一般采用有限长度的窗函数来截取语音信号形成分帧,窗函数w(n)将需要处理的区域之外的样本点全部置零即可获得当前语音帧,设帧长为N,对已获得的一帧信号进行加窗处理,即用确定的窗函数w(n)来乘以语音信号x(n),如公式(1)得到加窗后的语音sw(n),
sw(n)=x(n)·w(n),0≤n≤(N-1)  (1)
其中窗函数(汉明窗)的满足函数公式(2),
端点检测是指用信号处理技术把需要的语音信号从静音和噪声中区分出来,准确的找出有效语音信号的起点和终点,从而只存储和处理有效语音信号。本实施例采用基于短时能量和短时过零率相结合的双门限检测方法,双门限端点检测是由短时能量检测和短时平均过零率检测组成的两级检测,根据检测过程可知,在检测前要对短时能量和短时过零率分别设置高低两个门限,即:EHigh、ELow和ZHigh、ZLow,通常每一句完整的语音都包括:静音段、过度段、语音段、结束段,对多次实验结果分析后,本实施例所用的EHigh、ELow、ZHigh、ZLow的取值分别调整为如式(3)所示:
EHigh=max([min(amp)*10,mean(amp)*0.2,max(amp)*0.1]);
ZHigh=max([round(max(zcr)*0.1,5)]);  (3)。
ELow=min([min(amp)*10,mean(amp)*0.2,mean(amp)*0.1]);
ZLow=max([round(mean(zcr)*0.1),3]);
LPCC能够很好的反映发声机理,它是根据语音前后样本点的相关性,通过过去的样本点值来预测现在或者未来的样本点的参数,也就是说语音信号的抽样值完全可以通过过去的一些语音采样点值进行逼近而得到。当预测的语音信号和实际抽样语音信号间的误差值达到最小值(在某个逼近准则下)时,那么这时对应的唯一一组预测系数就作为语音信号的特征参数。LPCC参数提取包括求取线性预测LPC过程、计算LPCC过程,详细过程如下:
求取线性预测LPC时,按照声道全极点模型表示如公式(4):
H ( z ) = G 1 - Σ k = 1 p a k z - k = G A ( z ) - - - ( 4 )
式中G表示模型的增益常数,p表示预测LPC的阶数,ak表示线性预测系数(k=1,2,…,p),求取ak的方法有很多,可以使用协方差法和自相关法等方法;
计算计算LPCC时,首先语音信号x(n)的倒谱是对它进行Z变换,然后取对数后,再进行反Z变换,由式(5)表示
x ^ ( z ) = log ( | X ( z ) | · c - j arg X ( Z ) ) = log | X ( z ) | - j arg X ( z ) - - - ( 5 )
把X(z)的相位信息忽略不计,即忽略掉上式后面的一项,从而能得到如公式(6)所示的语音信号x(n)的倒谱:
c(n)=Z-1(log|X(z)|)  (6)
通过LPC系数an便可以得到LPCC参数,具体按照递推公式(7)就可以得到LPCC参数:
c LP ( 0 ) = α 1 c LP ( n ) = Σ k = 1 n - 1 k n α n - k c LP ( k ) + α n ( 1 ≤ n ≤ p ) c LP ( n ) = Σ k = 1 n - 1 k n α n - k c LP ( k ) ( n > p ) - - - ( 7 ) .
MFCC参数充分模拟了人耳的听觉特性,实验表明,在相同噪声的环境下,MFCC特征参数比LPCC特征参数具有更强的鲁棒性,且在提升语音识别系统的识别率方面比LPCC参数更有优势。在Mel滤波器组中,梅尓频率以及线性频率的存在着对应关系,如图4所示,其对应关系的表达式如公式(8)
f mel = f Hz , f Hz ≤ 1000 Hz 2595 lg ( 1 + f Hz 700 ) , f Hz > 1000 Hz - - - ( 8 )
梅尔频率倒谱系数是语音能量在Mel刻度上的表示。
MFCC参数提取过程如图5所示,具体包括如下步骤
S41:把经过预处理后的语音信号进行FFT变换得到其频谱X[k],具体变换按照公式(9)
X [ k ] = Σ n = 0 N - 1 x [ n ] e - j 2 πnk N , 0 ≤ k ≤ N - 1 - - - ( 9 )
S42:求频谱的平方得到短时能量谱S(k),具体计算按照公式(10);
S ( k ) = | X ( k ) | 2 = | Σ n = 0 N - 1 x ( n ) e - j 2 πnk N | 2 , 0 ≤ k ≤ N - 1 - - - ( 10 )
S43:用Mel滤波器把幅度谱转化为Mel频率谱,具体转化如公式(11)转化结果如图6所示;
S44:对所述Mel频率谱进行对数变换,具体变换如公式(12);
X ′ ( m ) = ln ( Σ k = o N - 1 | x ( k ) | 2 . H ( k , m ) ) - - - ( 12 )
S45:将对数变换后的Mel频率谱进行离散余弦变换(DCT)即得到MFCC,具体变换如公式(13)
mfcc ( r ) = Σ m = 1 M X ( m ) cos ( π M ( n + 0.5 ) r ) , r = 1,2 , . . . , M - - - ( 13 ) .
通过以上计算步骤得到的MFCC参数特征为静态参数,它可以很好的反映语音的静态特性,但是并没有充分利用语音的动态特征,因此可以在变换域特征参数中加入MFCC的一阶差分参数,更好的描述语音信号的时变特性。
关于差分参数提取过程,通常LPCC和MFCC参数仅仅反映了语音信号参数的静态特性,由于人耳对语音静态特性感知不灵敏,为了解决困难,因而通过增加动态特性差分参数dk来提高感知灵敏度。分别对所求出的LPCC参数和MFCC参数做以下运算,可求得一阶差分参数和二阶差分参数,差分参数dk的计算公式采用公式(14):
d k = c k + 1 - c k c k - c k + 1 Σ ϵ = 1 t ϵ ( c k + ϵ - c k - ϵ ) 2 Σ ϵ = 1 t ϵ 2 - - - ( 14 )
式中dk表示第k个一阶差分参数,t为一阶导数时间差,通常取1或2,ck表示第k个倒谱系数,其中取k=2,d为差分参数,c为四个语音参数,用公式(14)迭代两次,就可得到LPCC参数或者MFCC参数的二阶差分参数,LPCC与一阶差分LPCC参数效果如图3所示,MFCC与一阶差分MFCC参数效果如图7所示。
关于所述Fisher准则,是Fisher线性判别过程,在模式识别中,可以利用评价函数对特征参数进行选择,假设n维特征X在一条直线上投影,应寻找一条投影直线,使得类间距离最大,如图8所示,对于两个类w0和w1,假设各类的特征是二维分布,如图8中A、B部分,将它们在直线Y1和Y2上投影,特征向量X的线性组合y用式(15)表示为:
y=YTX  (15)
当||Y||=1时,则y就是X在Y方向直线上的投影,图8中,A是X属于w0的分布,B是X属于w1的分布;C表示Y1 TX,X属于w1的分布;D表示Y1 TX,X属于w0的分布;E表示Y2 TX,X属于w0的分布;F表示Y2 TX,X属于w1的分布,那么属于wi的特征向量X的平均值ui用式(16)表示,其中ni表示属于wi类X的个数:
u i = 1 n i Σ X ∈ W i X - - - ( 16 )
根据式(16)可以得到特征向量X的线性组合y的平均值mi和特征向量X的线性组合y的类内方差σi 2,具体的mi满足式(17),类内方差σi 2满足式(18)
m i = 1 n i Σ X ∈ w i Y T X = Y T u i - - - ( 17 )
σ i 2 = 1 n i Σ X ∈ W i ( y - m i ) 2 - - - ( 18 )
为了使w0与w1能进行有效的识别,需要两类的特征区分度很大,因此需要用Fisher评价函数J(Y)来描述区分度,J(Y)满足式(19)
J ( Y ) = | m 0 - m 1 | 2 σ 0 2 + σ 1 2 - - - ( 19 )
从式(19)可知,J(Y)取得最大值,可得最佳两类分离效果,具体的计算公式如下则满足式(20)
FFisher=σbetweenwithin  (20)
在式(20)中FFisher被称为特征参量的Fisher比,Fisher比越大类别区分度越好,σwithin是特征参量对应各个类的类内散度(方差)之和,满足式(21)
σ within = Σ i = 1 c [ 1 n i Σ X ∈ W i ( c k ( j ) - m k ( j ) ) 2 ] - - - ( 21 )
在共有c个类wi表示ck在第i类上的均值,当1≤i≤c时且各个类的样本数为ni,可得第k个参量类内散度σwithin,特征参量的类间散度是σbetween满足式(22)
σ between = Σ i = 1 c ( m k ( j ) - m k ) 2 - - - ( 22 )
其中mk表示ck对所有样本的均值。LPCC和MFCC参数Fisher比效果如图9所示。
关于采用K-means算法对LPCC参数和MFCC参数进行混合,k-means算法也被称为k-平均算法,是一种得到最广泛使用的聚类算法,它是将各个聚类子集内的所有数据样本均值作为该聚类的代表点,算法的主要思想是用迭代方法将数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优即误差平方和准则函数达到最优,从而使生成的每一个聚类(又成簇)内紧凑,类间独立。K-means聚类算法使用误差平方和准则来评价聚类性能,给定数据集X,其中仅包含描述属性,不包含类别属性,假设X包含k个聚类子集X1,X2,…,Xk,各个聚类子集中的样本数分别为n1,n2,…,nk,各个聚类子集的聚类中心分别为m1,m2,…,mk,误差平方和准则函数如式(23)
E = Σ i = 1 k Σ p ∈ X i | | p - m i | | 2 - - - ( 23 )
那么K-means算法按以下步骤:
S71:为每一个聚类确定一个初始聚类中心,这样就有k个初试聚类中心;
S72:将样本几种的样本按照最小距离原则分配到最邻近聚类;
S73:使用每一个聚类中的样本均值作为新的聚类中心;
S74:重复步骤S72和S73,直到聚类中心不再变化并得到k个聚类。
k-means聚类结果如图10所示。
根据本发明的一个具体实施例,所述语音信号混合特征参数的提取方法包括采用交叠分段法来分帧,其中语音帧长为30ms,帧移为10ms。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的MFCC、MFCC参数、MFCC特征参数可以是同一意思的不同表达,LPCC、LPCC参数、LPCC特征参数也可以是同一意思的不同表达,在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的创造性精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种语音信号混合特征参数的提取方法,包括对语音信号x(n)预处理过程、特征提取过程、特征混合过程,其特征在于
所述语音信号x(n)预处理过程包括对语音信号x(n)进行预加重、分帧、加窗和端点检测处理过程;
所述语音信号x(n)特征提取过程包括LPCC参数提取过程和MFCC参数提取过程以及LPCC差分参数和MFCC差分参数提取过程;
所述特征混合过程包括采用Fisher准则和K-means算法对LPCC参数和MFCC参数以及LPCC差分参数和MFCC差分参数进行混合的过程。
2.根据权利要求1所述的语音信号混合特征参数的提取方法,其特征在于所述加窗处理过程即是得到加窗后语音sw(n)的过程,其中sw(n)=x(n)·w(n),式中0≤n≤(N-1),式中w(n)为加窗函数,且满足函数式
3.根据权利要求1所述的语音信号混合特征参数的提取方法,其特征在于所述LPCC参数提取过程包括求取线性预测LPC过程、计算LPCC过程,其中
求取线性预测LPC过程是按照声道全极点模型进行求取,式中G表示模型的增益常数,p表示预测LPC的阶数,ak表示线性预测系数(k=1,2,...,p);
计算LPCC时,首先语音信号x(n)的倒谱是对它进行Z变换,然后取对数后,再进行反Z变换,具体变换是首先按照式
x ^ ( z ) = log ( | X ( z ) | · c - j arg X ( z ) ) = log | X ( z ) | - j arg X ( z ) , 把X(z)的相位信息jargX(z)忽略不计,从而得到能得到语音信号x(n)的倒谱:c(n)=Z-1(log|X(z)|),再通过LPC系数an得到LPCC参数,具体按照递推公式 c LP ( 0 ) = α 1 c LP ( n ) = Σ k = 1 n - 1 k n α n - k c LP ( k ) + α n ( 1 ≤ n ≤ p ) c LP ( n ) = Σ k = 1 n - 1 k n α n - k c LP ( k ) ( n > p ) 可以得到LPCC参数。
4.根据权利要求1所述的语音信号混合特征参数的提取方法,其特征在于所述MFCC参数提取过程包括如下步骤
S41:把经过预处理后的语音信号进行FFT变换得到其频谱X[k]:,变换公式为
X [ k ] = Σ n = 0 N - 1 x [ n ] e - j 2 πnk N , 0 ≤ k ≤ N - 1 ;
S42:求频谱的平方得到短时能量谱S(k),具体计算公式为
S ( k ) = | X ( k ) | 2 = | Σ n = 0 N - 1 x ( n ) e - j 2 πnk N | 2 , 0 ≤ k ≤ N - 1 ;
S43:用Mel滤波器把幅度谱转化为Mel频率谱,具体计算公式为
S44:对所述Mel频率谱进行对数变换,变换公式为
X ′ ( m ) = ln ( Σ k = o N - 1 | x ( k ) | 2 · H ( k , m ) ) ;
S45:将对数变换后的Mel频率谱进行离散余弦变换(DCT)即得到MFCC,变换公式为
mfcc ( r ) = Σ m = 1 M X ( m ) cos ( π M ( n + 0.5 ) r ) , r = 1,2 , . . . , M .
5.根据权利要求1所述的语音信号混合特征参数的提取方法,其特征在于对LPCC参数和MFCC参数进行差分参数dk提取的过程包括一阶差分参数提取和二阶差分参数提取,其中差分参数dk提取满足公式: d k = c k + 1 - c k c k - c k + 1 Σ ϵ = 1 t ϵ ( c k + ϵ - c k - ϵ ) 2 Σ ϵ = 1 t ϵ 2 , 式中dk表示第k个一阶差分参数,t为一阶导数时间差,通常取1或2,ck表示第k个倒谱系数,其中取k=2,d为差分参数,c为四个语音参数,用dk公式将迭代两次,即可得到MFCC的二阶差分参数。
6.根据权利要求1所述的语音信号混合特征参数的提取方法,其特征在于所述Fisher准则为利用评价函数对特征参数进行选择,假设n维特征X在一条直线上投影,则寻找一条投影直线,使得类间距离最大,具体为:
首先对于两个类w0和w1,假设各类的特征是二维分布,将它们在直线Y1和Y2上投影,特征向量X的线性组合y表示为y=YTX,属于wi的特征向量X的平均值ui表示为其中ni表示属于wi类特征向量X的个数,那么特征向量X的线性组合y的平均值mi则表示为特征向量X的线性组合y的类内方差σi 2表示为 σ i 2 = 1 n i Σ X ∈ W i ( y - m i ) 2 ;
然后用Fisher评价函数来描述区分度,具体计算采用公式FFisher=σbetweenwithin,式中FFisher称为特征参量的Fisher比,σwithin是特征参量对应各个类的类内散度(方差)之和,σbetween是特征参量的类间散度,其中 σ within = Σ i = 1 c [ 1 n i Σ X ∈ W i ( c k ( j ) - m k ( j ) ) 2 ] , σ between = Σ i = 1 c ( m k ( j ) - m k ) 2 , 其式中mk表示ck对所有样本的均值。
7.根据权利要求1所述的语音信号混合特征参数的提取方法,其特征在于所述采用K-means算法对LPCC参数和MFCC参数进行混合的过程具体为
首先假设X包含k个聚类子集X1,X2,…,Xk,各个聚类子集中的样本数分别为n1,n2,…,nk,各个聚类子集的聚类中心分别为m1,m2,…,mk,误差平方和准则函数为则K-means算法按以下步骤:
S71:为每一个聚类确定一个初始聚类中心,这样就有k个初试聚类中心;
S72:将样本几种的样本按照最小距离原则分配到最邻近聚类;
S73使用每一个聚类中的样本均值作为新的聚类中心;
S74:重复步骤S72和S73,直到聚类中心不再变化并得到k个聚类。
8.根据权利要求1至7任一所述的语音信号混合特征参数的提取方法,其特征在于采用交叠分段法来分帧,其中语音帧长为30ms,帧移为10ms。
CN201510274148.9A 2015-05-25 2015-05-25 一种语音信号混合特征参数的提取方法 Pending CN104900229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510274148.9A CN104900229A (zh) 2015-05-25 2015-05-25 一种语音信号混合特征参数的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510274148.9A CN104900229A (zh) 2015-05-25 2015-05-25 一种语音信号混合特征参数的提取方法

Publications (1)

Publication Number Publication Date
CN104900229A true CN104900229A (zh) 2015-09-09

Family

ID=54032860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510274148.9A Pending CN104900229A (zh) 2015-05-25 2015-05-25 一种语音信号混合特征参数的提取方法

Country Status (1)

Country Link
CN (1) CN104900229A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679321A (zh) * 2016-01-29 2016-06-15 宇龙计算机通信科技(深圳)有限公司 语音识别方法、装置及终端
CN105788603A (zh) * 2016-02-25 2016-07-20 深圳创维数字技术有限公司 一种基于经验模态分解的音频识别方法及系统
CN106073706A (zh) * 2016-06-01 2016-11-09 中国科学院软件研究所 一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统
CN106875935A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 语音智能识别清洗方法
CN107274887A (zh) * 2017-05-09 2017-10-20 重庆邮电大学 基于融合特征mgfcc的说话人二次特征提取方法
CN107527611A (zh) * 2017-08-23 2017-12-29 武汉斗鱼网络科技有限公司 Mfcc语音识别方法、存储介质、电子设备及系统
CN107871498A (zh) * 2017-10-10 2018-04-03 昆明理工大学 一种基于Fisher准则以提高语音识别率的混合特征组合算法
CN108766462A (zh) * 2018-06-21 2018-11-06 浙江中点人工智能科技有限公司 一种基于梅尔频谱一阶导数的语音信号特征学习方法
CN109637524A (zh) * 2019-01-18 2019-04-16 徐州工业职业技术学院 一种人工智能交互方法及人工智能交互装置
CN110459241A (zh) * 2019-08-30 2019-11-15 厦门亿联网络技术股份有限公司 一种用于语音特征的提取方法和系统
CN110956965A (zh) * 2019-12-12 2020-04-03 电子科技大学 一种基于声纹识别的个性化智能家居安全控制系统及方法
CN111540373A (zh) * 2020-01-12 2020-08-14 杭州电子科技大学 基于超复数随机神经网络的城市噪声识别方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112597820A (zh) * 2020-12-10 2021-04-02 南京长峰航天电子科技有限公司 一种基于雷达信号分选的目标聚类方法
CN112863488A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音信号的处理方法、装置以及电子设备
CN112863487A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音识别方法、装置以及电子设备
CN113177536A (zh) * 2021-06-28 2021-07-27 四川九通智路科技有限公司 基于深度残差收缩网络的车辆碰撞检测方法及装置
CN113345443A (zh) * 2021-04-22 2021-09-03 西北工业大学 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法
CN113380226A (zh) * 2021-07-02 2021-09-10 因诺微科技(天津)有限公司 一种极短语音语种识别特征提取方法
CN114299966A (zh) * 2021-12-24 2022-04-08 中国人民解放军93114部队 一种基于机场高危鸟类鸣声的智能识别方法
CN116862530A (zh) * 2023-06-25 2023-10-10 江苏华泽微福科技发展有限公司 一种智能售后服务方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006132596A1 (en) * 2005-06-07 2006-12-14 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio clip classification

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006132596A1 (en) * 2005-06-07 2006-12-14 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio clip classification

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
余建潮等: "基于 MFCC 和 LPCC 的说话人识别", 《计算机工程与设计》 *
张芸等: "一种基于Fisher准则的说话人识别方法研究", 《兰州大学学报》 *
王千等: "K-means聚类算法研究综述", 《电子设计工程》 *
赵晓群: "《数字语音编码》", 31 August 2007 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679321A (zh) * 2016-01-29 2016-06-15 宇龙计算机通信科技(深圳)有限公司 语音识别方法、装置及终端
CN105788603B (zh) * 2016-02-25 2019-04-16 深圳创维数字技术有限公司 一种基于经验模态分解的音频识别方法及系统
CN105788603A (zh) * 2016-02-25 2016-07-20 深圳创维数字技术有限公司 一种基于经验模态分解的音频识别方法及系统
CN106073706A (zh) * 2016-06-01 2016-11-09 中国科学院软件研究所 一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统
CN106073706B (zh) * 2016-06-01 2019-08-20 中国科学院软件研究所 一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统
CN106875935A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 语音智能识别清洗方法
CN107274887A (zh) * 2017-05-09 2017-10-20 重庆邮电大学 基于融合特征mgfcc的说话人二次特征提取方法
CN107527611A (zh) * 2017-08-23 2017-12-29 武汉斗鱼网络科技有限公司 Mfcc语音识别方法、存储介质、电子设备及系统
CN107871498A (zh) * 2017-10-10 2018-04-03 昆明理工大学 一种基于Fisher准则以提高语音识别率的混合特征组合算法
CN108766462A (zh) * 2018-06-21 2018-11-06 浙江中点人工智能科技有限公司 一种基于梅尔频谱一阶导数的语音信号特征学习方法
CN108766462B (zh) * 2018-06-21 2021-06-08 浙江中点人工智能科技有限公司 一种基于梅尔频谱一阶导数的语音信号特征学习方法
CN109637524A (zh) * 2019-01-18 2019-04-16 徐州工业职业技术学院 一种人工智能交互方法及人工智能交互装置
CN110459241A (zh) * 2019-08-30 2019-11-15 厦门亿联网络技术股份有限公司 一种用于语音特征的提取方法和系统
CN110459241B (zh) * 2019-08-30 2022-03-04 厦门亿联网络技术股份有限公司 一种用于语音特征的提取方法和系统
CN110956965A (zh) * 2019-12-12 2020-04-03 电子科技大学 一种基于声纹识别的个性化智能家居安全控制系统及方法
CN111540373A (zh) * 2020-01-12 2020-08-14 杭州电子科技大学 基于超复数随机神经网络的城市噪声识别方法
CN111540373B (zh) * 2020-01-12 2022-12-02 杭州电子科技大学 基于超复数随机神经网络的城市噪声识别方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112597820A (zh) * 2020-12-10 2021-04-02 南京长峰航天电子科技有限公司 一种基于雷达信号分选的目标聚类方法
CN112863487A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音识别方法、装置以及电子设备
CN112863488A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音信号的处理方法、装置以及电子设备
CN113345443A (zh) * 2021-04-22 2021-09-03 西北工业大学 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法
CN113177536A (zh) * 2021-06-28 2021-07-27 四川九通智路科技有限公司 基于深度残差收缩网络的车辆碰撞检测方法及装置
CN113177536B (zh) * 2021-06-28 2021-09-10 四川九通智路科技有限公司 基于深度残差收缩网络的车辆碰撞检测方法及装置
CN113380226A (zh) * 2021-07-02 2021-09-10 因诺微科技(天津)有限公司 一种极短语音语种识别特征提取方法
CN114299966A (zh) * 2021-12-24 2022-04-08 中国人民解放军93114部队 一种基于机场高危鸟类鸣声的智能识别方法
CN116862530A (zh) * 2023-06-25 2023-10-10 江苏华泽微福科技发展有限公司 一种智能售后服务方法和系统
CN116862530B (zh) * 2023-06-25 2024-04-05 江苏华泽微福科技发展有限公司 一种智能售后服务方法和系统

Similar Documents

Publication Publication Date Title
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
CN102968990B (zh) 说话人识别方法和系统
CN107610715A (zh) 一种基于多种声音特征的相似度计算方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN111243569B (zh) 基于生成式对抗网络的情感语音自动生成方法及装置
CN111261189B (zh) 一种车辆声音信号特征提取方法
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN104123934A (zh) 一种构音识别方法及其系统
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN109036437A (zh) 口音识别方法、装置、计算机装置及计算机可读存储介质
CN104887263A (zh) 一种基于心音多维特征提取的身份识别算法及其系统
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
Dubuisson et al. On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
CN105679321A (zh) 语音识别方法、装置及终端
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
Baghel et al. Exploration of excitation source information for shouted and normal speech classification
Katsir et al. Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation
Lin et al. A multiscale chaotic feature extraction method for speaker recognition
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jing Xinxing

Inventor after: Ma Jinlong

Inventor after: Yang Haiyan

Inventor after: Luo Bin

Inventor before: Jing Xinxing

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication

Application publication date: 20150909

RJ01 Rejection of invention patent application after publication