CN109256127B - 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 - Google Patents
一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 Download PDFInfo
- Publication number
- CN109256127B CN109256127B CN201811359541.8A CN201811359541A CN109256127B CN 109256127 B CN109256127 B CN 109256127B CN 201811359541 A CN201811359541 A CN 201811359541A CN 109256127 B CN109256127 B CN 109256127B
- Authority
- CN
- China
- Prior art keywords
- voice
- filter
- dct
- noise
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009466 transformation Effects 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000001914 filtration Methods 0.000 claims abstract description 24
- 238000010606 normalization Methods 0.000 claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 12
- 241001014642 Rasta Species 0.000 claims abstract description 11
- 230000004044 response Effects 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 22
- 230000006835 compression Effects 0.000 claims description 14
- 238000007906 compression Methods 0.000 claims description 14
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 21
- 238000002474 experimental method Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 9
- 238000004088 simulation Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 210000005069 ears Anatomy 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000003477 cochlea Anatomy 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,主要解决针对在噪声环境下语音识别系统性能急剧下降的问题,该方法通利用符合耳蜗听觉特性的Gammachirp滤波器组,并对该滤波器进行了压缩归一化的处理优化,在得到响应系数后,通过一个分段式非线性的幂函数变换过程,使其能够模拟人耳听觉模型处理信号的非线性特性。并且,方法中结合了相对谱RASTA滤波、均值方差归一化和时间序列滤波等技术方法,进一步提高了语音特征的抗噪鲁棒性。本发明方法能够提高噪声环境下语音识别系统的识别率,提高系统的抗噪鲁棒性,满足日常生活中如智能家居、车载系统和各种需要进行身份安全认证的安全领域。
Description
技术领域
本发明属于模式识别和语音处理领域,涉及现实噪声环境下鲁棒语音识别方法。具体地说是一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,可用于满足日常生活中如智能家居、车载系统等,以及在需要进行安全认证的各种安全领域。
背景技术
语音识别相关系统在其最基本的层次上,是从各种领域和学科研究得到的不同方法的集合体,其中包括信号处理、模式识别和语音语言学等多种学科。这些学科方法中的每一种都要将语音信号波形转化为某种类型的参数表示,这也就是所谓的语音特征提取。特征提取是语音信号处理中最基本也是最重要的一个过程,一种好的特征提取算法能够准确的提取到符合人耳听觉特性的音频特征,并且能够避免由于日常噪声环境所带来的不利影响。
最为经典的语音特征提取方案是以Mel滤波器作为听觉滤波器的梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC),Mel滤波器由一组不同频率的三角滤波器组成,模拟了人耳听觉频率的非线性特征,是使用最广泛的听觉滤波器。但是由于其对人耳听觉的研究并不完全,在提取过程中忽略了部分能量信息,所以在噪声环境下会表现出一定的缺陷。为了弥补梅尔滤波器的不足,Aertesn教授在充分研究人耳耳蜗听觉特性后提出了Gammatone滤波器,一定程度上减小了噪声对特征提取的影响。Irion等人在Gammatone滤波器基础之上,提出了符合耳蜗基底膜对于频率响应是非线性的特性的Gammachirp滤波器,该滤波器作为目前较为理想的听觉滤波器,继承了Gammatone滤波器的优点,并弥补了其在非对称性上的不足问题。虽然基于Gammachirp滤波器的特征能够提升系统的识别率,但在低信噪比噪声环境下,其仍存在抗噪性能较差的问题。
发明内容
传统的语音特征提取针对安静环境能够有较好的效果,但在复杂的噪声环境下,这类算法普遍存在抗噪性能不佳的问题。为了满足现实噪声环境下的实际应用,本发明通过对人耳听觉特性的研究来寻求抗噪性能较好的语音特征参数,在伽马啁啾频率倒谱系数(Gammachirp Frequency Cepstrum Confficient,GCFCC)的基础之上,对原始Gammachirp滤波器进行了压缩归一化处理优化,并在提取过程中,对特征参数进行了分段非线性幂函数变换处理,提出了非线性幂函数变换伽马啁啾频率倒谱系数(Nonlinear Power-Function Gammachirp Frequency Cepstral Coefficients,NPGFCC)特征提取算法,该特征基于抗噪性能较好的压缩归一化Gammachirp滤波器,并通过利用分段式非线性幂函数变换、RASTA滤波、均值方差归一化和时间序列滤波等技术方法,能够弥补其他诸如MFCC、GCFCC等特征提取中出现的能量幅值波动较大的问题,在噪声环境下能够有更好的识别性能,进一步提高了语音特征的抗噪鲁棒性。
为实现上述目标,本发明的技术方案如下:
一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,步骤如下:
(1)语音信号预处理:对输入的语音信号x(n)进行预加重处理:y(n)=x(n)-μ·x(n-1),其中,μ为预加重系数,范围为0.92~0.98,y(n)是预加重处理后的语音信号,n为语音信号的个数;
(2)对预加重后的语音信号进行RASTA滤波处理,得到滤波后的信号y′(n):y′(n)=Rasta(y(n));
(3)语音信号的分帧、加窗:由于语音信号具有短时平稳性的特性,可将滤波后的信号分为短时的语音帧来方便进行后续操作,并且为了减少语音帧的边缘效应使之平滑过渡,需对分帧后短时的语音帧进行加窗处理。本发明选用的窗口为汉明窗,得到加窗后的语音信号S(n);
(4)短时傅里叶变换:对加窗后的时域语音帧片段进行短时傅里叶变换,将其由时域变换到频域,得到每一帧语音信号的短时傅里叶变换后的幅度谱Y(t,i),变换公式为:Y(t,i)=fft(S(n),iFFT),其中,t表示语音信号的帧数;i表示频率分量数;傅里叶变换长度iFFT=512;
(5)归一化压缩Gammachirp滤波器滤波,得到语音信号在不同频率分量上的响应幅值Gm(t,k),其中,k表示滤波器的阶数;具体过程为:
首先,计算滤波器组中每一通道的滤波器的响应幅值:
其中GC(i,k)是滤波器组中第k个滤波器在第i个频率处的响应幅值。iFFT为傅里叶变换长度。
然后,将每一帧语音信号的离散功率谱Y(t,i)分别与Gammachirp滤波器组内每一通道的滤波器的响应幅值加权求和,得到语音信号在不同频率分量上的响应Gm(t,k),用于表示第t帧语音信号在第k个滤波器上的响应系数,这里k取1~64。
Gm(t,k)=∑Y(t,i)·GC(i,k)。
(6)分段非线性幂函数变换,根据频率值确定幂函数变换系数α,根据公式进行变换,得出幂函数变换后的响应幅值:Gc(t,k)=Gm α(t,k);其中,Gc(t,k)代表第t帧语音在第k阶滤波器上的响应幅值;
根据频率值确定幂函数变换系数α的公式为:
其中,f表示当前的频率值。
(7)离散余弦变换,即DCT变换:将每一帧语音在Gammachirp滤波器组的响应输出进行离散余弦变换,去除其参数间的相关性,得到变换后的倒谱系数GDct,DCT变换的过程:其中DCT(k,m)表示N维离散余弦变换矩阵中第k行m列的值,它的定义是:
(8)差分倒谱系数:差分倒谱特征能够根据语音帧间的变化反应出语音信号的动态特性,能够在一定程度上提升识别的准确性,差分倒谱系数是通过步骤(7)得到的GDct(t,k)经过相邻前后各两帧的运算得到:GDct′(t)=(2×GDct(t-2)-GDct(t-1)+GDct(t+1)+2×GDct(t+2))/10,其中,GDct′(t)代表第t帧向量的差分系数,取DCT变换后原倒谱系数的前16维和差分后的前16维系数,共同组成32维的倒谱系数G;
(9)倒谱均值、方差的归一化:为了消除信道卷积噪声对语音特征的影响,通过减去每一信道的倒谱特征均值,对倒谱特征进行归一化过程能够一定程度上消除信道对语音特征的影响,倒谱均值归一化过程是:倒谱方差归一化过程是:其中μG表示倒谱特征均值,δG表示倒谱方差,T为帧长;
(10)时间序列滤波:为了降低基音频率对声道特性的影响,对得到的语音特征采用一种平滑滤波的方式来减小基音频率,利用滑动滤波器对得到的语音特征进行滤波,得出消除基音频率影响后的NPGFCC语音特征其中W是窗口长度,一般取值为5。
本发明的有益效果:
(1)本发明方法引入抗噪鲁棒性较强的Gammachirp滤波器组,并对其进行了压缩归一化的优化处理,使调整后的滤波器的响应参数能够更好的适应噪声环境下的语言特征,减少在噪声环境下由于真实测试环境与训练环境之间的差异而导致的语音识别性能急剧下降的问题,提高了整个模型的抗噪能力和鲁棒性。
(2)本发明方法通过分段式的非线性幂函数变换对语音响应特征进行处理,使其能够模拟人耳听觉模型处理信号的非线性特性,使语音特征能够更好的表征出语音信号所携带的信息,以便在噪声环境下可以提升系统的识别精度。
(3)算法中结合了相对谱RASTA滤波、均值方差归一化和时间序列滤波等技术方法,进一步提高了语音特征的抗噪鲁棒性。
附图说明
图1是本发明的NPGFCC特征提取流程图;
图2是原始Gammachirp滤波器组频率响应图;
图3是压缩归一化Gammachirp滤波器组频率响应;
图4是GMM-UBM语音身份识别流程;
图5是HMM语音识别流程;
图6(a)、图6(b)、图6(c)、图6(d)分别是在Babble噪声、Cafe噪声、Factory噪声以及库中多种噪声混合而成的Mixed噪声环境下,语音身份识别实验中本发明方法和其他方法的识别率对比图;
图7(a)、图7(b)、图7(c)、图7(d)分别是在Babble噪声、Cafe噪声、Factory噪声以及库中多种噪声混合而成的Mixed噪声环境下,语音内容识别实验中本发明方法和其他方法的识别率对比图。直方图中每组图例从左至右依次为:MFCC;GFCC;PNCC;GCFCC;NPGFCC。
具体实施方式
一、基础理论介绍
1.Gammachirp滤波器
Gammachirp滤波器是一种符合人耳听觉特性的非线性滤波器,其时域表达式为:
gc(t)=atn-1exp(-2πbERB(fr)t)·exp(j2πfrt+jclnt+jφ)u(t)
式中,a为幅值,滤波器阶数n和参数b负责调整伽马函数的分布,依据参考文献,这里的n和b分别取值4和1.109,fr为滤波器的中心频率,φ为初始相位,一般取φ=0。ERB(fr)是频率为fr时滤波器的等价矩形带宽,其计算公式为:ERB(fr)=24.7+0.108fr,其中c为啁啾因子,其取值范围一般为[-3,3],c作为Gammachirp滤波器的频率调制参数,使其区别于Gammatone滤波器,当c=0时,Gammachirp滤波器也就退化为了Gammatone滤器。本发明中啁啾因子c取值为c=2。
2.RASTA滤波
相对谱RASTA滤波处理技术是信号处理领域中为了抑制波形中变化缓慢的部分而提出的,该处理方法是利用低频带通滤波器来补偿环境和声道的动态作用,对抑制卷积噪声有较好的效果,因此该技术广泛的应用于信号的信道噪声处理中。本发明使用的低频带通滤波器频率响应H(Z)可以表示为如下的形式:
这里参数G取值为0.1,N取值为5,ρ取值为0.98,Z是输入的语音信号。
二、本发明是一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
参照图1,本发明的具体实施过程包括以下步骤:
步骤1.语音信号预处理
对输入的语音信号x(n)进行预加重处理,经过预加重后的语音信号为:y(n)=x(n)-μ·x(n-1);其中μ为预加重系数,一般取0.92~0.98之间,这里取μ=0.97。
步骤2.RASTA滤波
相对谱RASTA滤波处理技术是信号处理领域中为了抑制波形中变化缓慢的部分而提出的,该处理方法是利用低频带通滤波器来补偿环境和声道的动态作用,对抑制卷积噪声有较好的效果,因此该技术广泛的应用于信号的信道噪声处理中。带通滤波器频率响应H(Z)可以表示为如下的形式:
这里参数G取值为0.1,N取值为5,ρ取值为0.98,Z是输入的语音信号。
RASTA滤波处理,得到滤波后的信号y′(n)。
步骤3.语音信号分帧、加窗
由于语音信号具有短时平稳性,可将信号分为短时的语音帧来方便进行后续操作,并且为了减少语音帧的边缘效应使之平滑过渡,需对分帧后的语音帧进行加窗处理。本发明选用的窗口为汉明窗,得到加窗后的语音信号S(n)。
步骤4.短时傅里叶变换
对加窗后的时域语音帧片段进行短时傅里叶变换(Short-Time FourierTransform,STFT),将其由时域变换到频域,得到每一帧语音信号的短时傅里叶变换后的幅度谱Y(t,i)。Y(t,i)=fft(S(n),iFFT),iFFT=512。
步骤5.归一化压缩Gammachirp滤波器滤波
原始Gammachirp滤波器对频率的响应权值分配是平均的,但信号低频部分的频域宽度较高频部分明显窄小,这就造成了响应过程中对处于不同频率信号处理的不均衡问题。针对原始Gammachirp滤波器组高低频权值平均分配的现象,本算法通过压缩归一化处理方式对滤波器组进行了改进,这样增加了每一个滤波器的频率宽度,并且相应提升了滤波器组低频部分的权重,使得整个特征参数具有更好的抗噪性能,以达到更好的识别效率。以下是GC滤波器压缩归一化的过程:
其中GC(i,k)是滤波器组中第k个滤波器在第i个频率处的响应幅值。iFFT为傅里叶变换长度。
具体流程是将上一步变换得到语音幅度谱,通过k阶压缩归一化Gammachirp滤波组进行滤波处理,也就是将每一帧语音信号的离散功率谱Y(t,i)分别与Gammachirp滤波器组内每一通道的滤波器加权求和,得到语音信号在不同频率分量上的响应Gm(t,k),表示第t帧语音信号在第k个滤波器上的响应系数。
Gm(t,k)=∑Y(t,i)·GC(i,k)
本发明采用64组不同中心频率的Gammachirp滤波器构成语音信号滤波器组,所以k的取值范围为1~64。
如图2和图3所示的分别是改进前原始的32维Gammachirp滤波器组频率响应和压缩归一化后的滤波器组频率响应,通过图像可以看出,经过压缩归一化过程后,滤波器的响应曲线在不同频率上分别对应不同的响应幅值,能够更好的表征语音信号所传递的信息。
步骤6.分段非线性幂函数变换
为模拟人耳听觉模型处理信号的非线性,对每个滤波器的输出做非线性幂函数变换,得到一组能量谱。非线性幂函数变换是对得到的语音响应系数进行非线性变换,变换的形式是以幂函数的方式进行的。之所以采取这种变换方式,是由于幂函数的输出值并不严格依赖于它的输入值幅度,因此可以很好地模拟各个音强段的特性,有利于改善语音识别的抗噪性能。
诸如MFCC、GCFCC等特征提取过程中都是利用对数函数对能量幅值进行变换,但这其中存在着一定的不足:当输入的能量较低时,经过对数变换后,输入能量的微小的幅值变化便会导致输出能量的较大波动,特别是在输入的能量接近零时,这种能量的输入输出之间巨大的差异就表现的更加明显。所以对数变换的最终结果是降低了特征提取的识别效率,而本发明采用的非线性幂函数变换就很好的弥补了这一缺陷。因此,与其他特征提取中使用的对数函数不同,这里用非线性幂函数对滤波结果进行变换,变换公式为:Gc=Gm α。
其中Gm是语音信号经过滤波后的响应幅值,Gc是幂函数变换后的响应幅值。这里的指数α取值是大于0且小于1的数,若α的取值较大,也就是接近于1时,幂变换后的特征值不能很好的突出幅值的变化,对识别率的提升效果不明显;若α的取值过小,则会使得原始特征值变化幅度太大,使数据值都趋近于1,脱离了原始数据的分布情况,也不能充分的发挥其作用。为了使语音特征参数更符合耳蜗听觉特性、提升系统的鲁棒性,本发明提出了对每个滤波器的输出进行分段式指数变换,针对不同频率部分的滤波器响应系数,令α取不同的值进行非线性幂函数变换。之所以采用分段式压缩方式,是由于语音特征系数各个分量对识别率的影响有所不同,识别过程中,高阶特征分量相对于低阶特征分量来说,受到的噪声干扰影响较小,具有较强的鲁棒性。所以,本发明通过利用分段指数压缩方式,对不同频率范围的特征系数压缩指数给予不同的数值,这样一来,在降低鲁棒性较差的低阶分量值的同时,又将数值较小的中高阶特征分量值进行了提升,因此能够在抗噪能力方面提供更佳的性能。
本发明采用的Gammachirp滤波器组的频率响应范围为0~8000Hz,针对这一频率范围,将每1000Hz的频率分为一段,对每一频率段分别指定相应的一组幂函数变换指数,全部频率范围共分为九段。具体的幂函数取值及分段方式如下公式所示:
其中f表示当前的频率值。
步骤7.离散余弦变换(DCT)
为了减少特征向量的相关性,降低特征矢量的维度,将每一帧语音在Gammachirp滤波器组的响应输出进行离散余弦变换去除其参数间的相关性。
步骤8.差分倒谱系数
基于语音信号的连续性,多数语音特征参数都是从每一帧的语音信号中提取的瞬时特征,这些特征参数尽管考虑了耳蜗听觉特性,但也只能反映语音信号的静态特性,并不能反应各语音帧间的动态变化特征,特别是在噪声影响较大的情况时会导致语音特征与训练环境的失配问题,从而影响识别率。差分倒谱特征能够根据语音帧间的变化反应出语音信号的动态特性,能够在一定程度上提升识别的准确性。差分系数是通过得到的Gammachirp倒谱系数经过相邻前后各两帧的运算得到。
GDct′(t)=(2×GDct(t-2)-GDct(t-1)+GDct(t+1)+2×GDct(t+2))/10
取DCT变换后原倒谱系数的前16维和差分后的前16维系数,共同组成32维的倒谱系数G。
步骤9.倒谱均值方差归一化
为了消除信道卷积噪声对语音特征的影响,通过减去每一信道的倒谱特征均值,对倒谱特征进行归一化过程能够一定程度上消除信道对语音特征的影响。倒谱均值归一化过程是:
倒谱方差归一化过程是:
步骤10.时间序列滤波
为了降低基音频率对声道特性的影响,对得到的语音特征采用一种平滑滤波的方式来减小基音频率。选取窗口大小为5的滑动滤波器对得到的语音特征进行滤波,得出消除基音频率影响后的NPGFCC语音特征。
本发明的效果可以通过以下仿真实验进一步说明。
1.仿真条件及参数
仿真实验数据来自TIMIT语音库和KingLine Data数据库,噪声语音来自NoiseX-92数据库,选用了其中生活中常出现的几种噪声,包括工厂噪声Factory噪声、嘈杂话语噪声Babble噪声、咖啡厅噪声Cafe以及库中的多种噪声混合而成的Mixed噪声。
实验中说话人识别和语音内容识别模型分别为GMM-UBM(高斯混合模型-通用背景模型)和HMM(隐马尔可夫模型),这两种模型的识别流程如图4、图5所示。
2.仿真内容与结果分析
仿真实验中,本发明方法通过利用本发明所提出的语音特征提取算法,分别通过语音识别和说话人识别实验来突出算法的有效性,并与其他的语音特征算法进行对比分析,实验主要从以下两个方面开展。
实验1:噪声环境下的语音身份识别
本实验通过利用TIMIT语音库进行文本无关说话人识别实验。选用其中共50人的音频数据,包括25名男性和25名女性,每人10段发音数据,每段数据长约为3到5秒,信号采样频率为16kHz。选取每人语音数据中的5段用作训练样本,另5段语音作为测试数据,并对测试语音分别混合不同强度的噪声,共计250条测试样本。实验中的噪声选取了Babble噪声、Cafe噪声、Factory噪声以及利用该数据库多种噪声混合而成的Mixed噪声。高斯混合模型的混合度设为32,语音帧长和帧移分别为20ms和10ms。噪声信噪比SNR分别取-5dB、0dB、5dB、10dB、15dB、20dB。
为了证明算法的有效性,在相同的实验条件下,分别选取了39维的差分MFCC特征、基于Gammatone滤波器组的26维GFCC(Gammatone Frequency Cepstrum Confficient)特征和26维的PNCC(Power Normalized Cepstral Coefficient)特征以及基于Gammachirp滤波器的GCFCC特征进行对比实验。通过与本发明提出的NPGFCC特征算法进行对比,得到如图6(a)-图6(d)所示的各算法在不同噪声环境下的识别准确率对比图。
图6(a)、图6(b)、图6(c)、图6(d)分别表示是在Babble噪声、Cafe噪声、Factory噪声以及Mixed噪声环境下的实验结果。
通过实验可以得出,在信噪比较大时,实验所用的几种特征算法都得到了较理想的识别结果,但随着SNR的不断降低,可以看出,噪声对识别率影响最大的是经典的MFCC特征,其识别准确率随着噪声的增强出现了急剧的下降,相比之下,GFCC、GCFCC和PNCC特征较MFCC都有一定的改善,其中GFCC和GCFCC表现相当,但当信噪比降低到较小值时,这三种特征识别结果均未达到理想状态。整体来看,相较于其他算法,NPGFCC特征的鲁棒性是这些算法中表现最佳的,尤其是在信噪比较低时,NPGFCC特征算法的优势就更为明显。与此同时,在不同的噪声环境以及不同信噪比下,本算法都得出了较理想的结果,表明了NPGFCC特征在抗噪能力上的稳定性。
实验2:噪声环境下的说话人身份识别
本实验数据来自KingLine Data数据库,选择了其中的中文手机APP名称数据集,该数据集包含10位发声者每人200条的语音数据,每一条语音数据大概3到5秒,内容为200个常用手机APP名称。本实验选取10人每人50条的语音数据进行模拟实验,随机选取库中7人的语音数据当作训练样本,共计350条训练数据,其余3人的语音作为测试样本,共150条测试数据。本实验在HMM模型下进行,同样选择了和上组实验相同的噪声数据。噪声混合信噪比分别取0dB、5dB、10dB、15dB、20dB。选取的对比算法仍然是MFCC、GFCC、GCFCC以及PNCC特征算法,实验结果如图7(a)-图7(d)所示。
图7(a)、图7(b)、图7(c)、图7(d)分别表示是在Babble噪声、Cafe噪声、Factory噪声以及Mixed噪声环境下的实验结果。
仿真结果表明,MFCC特征表现出对噪声的异常敏感性,随着信噪比的降低其识别率会出现迅速的下降,基于Gammatone滤波器的GFCC特征和基于Gammachirp滤波器的GCFCC特征较MFCC均有一定改善且识别率表现相当。相较于另外三种算法,PNCC和NPGFCC的结果更为理想,在信噪比较大时,两者都给出了较好的识别结果,但当在信噪比很小时,本发明的NPGFCC特征则更具有优势。综合来看,NPGFCC特征在不同噪声和不同信噪比的情况下得出的结果最为理想。
Claims (3)
1.一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,其特征在于,如下步骤:
(1)语音信号预处理:对输入的语音信号x(n)进行预加重处理:y(n)=x(n)-μ·x(n-1),其中,μ为预加重系数,y(n)是预加重处理后的语音信号,n为语音信号的个数;
(2)对预加重后的语音信号进行RASTA滤波处理,得到滤波后的信号y′(n):y′(n)=Rasta(y(n));
(3)语音信号的分帧、加窗:将滤波后的信号分为短时的语音帧,对短时的语音帧进行加窗处理,得到加窗后的语音信号S(n);
(4)短时傅里叶变换:对加窗后的时域语音帧片段进行短时傅里叶变换,将其由时域变换到频域,得到每一帧语音信号的短时傅里叶变换后的幅度谱Y(t,i),变换公式为:Y(t,i)=fft(S(n),iFFT),其中,t表示语音信号的帧数;i表示频率分量数;傅里叶变换长度iFFT=512;
(5)归一化压缩Gammachirp滤波器滤波,得到语音信号在不同频率分量上的响应幅值Gm(t,k),其中,k表示滤波器的阶数;具体过程为:
其中,GC(i,k)是滤波器组中第k个滤波器在第i个频率处的响应幅值;iFFT为傅里叶变换长度;
然后,将每一帧语音信号的离散功率谱Y(t,i)分别与Gammachirp滤波器组内每一通道的滤波器的响应幅值加权求和,得到语音信号在不同频率分量上的响应Gm(t,k),用于表示第t帧语音信号在第k个滤波器上的响应系数;
Gm(t,k)=∑Y(t,i)·GC(i,k);
(6)分段非线性幂函数变换,根据频率值确定幂函数变换系数α,根据公式进行变换,得出幂函数变换后的响应幅值:Gc(t,k)=Gm α(t,k);其中,Gc(t,k)代表第t帧语音在第k阶滤波器上的响应幅值;
根据频率值确定幂函数变换系数α的公式为:
其中,f表示当前的频率值;
(7)离散余弦变换,即DCT变换:将每一帧语音在Gammachirp滤波器组的响应输出进行离散余弦变换,去除其参数间的相关性,得到变换后的倒谱系数GDct,DCT变换的过程:其中DCT(k,m)表示N维离散余弦变换矩阵中第k行m列的值,它的定义是:GDct(t,k)代表经过DCT变换后第t帧语音在第k阶滤波器上的响应幅值;
(8)差分倒谱系数:差分倒谱系数是通过步骤(7)得到的GDct(t,k)经过相邻前后各两帧的运算得到:GDct′(t)=(2×GDct(t-2)-GDct(t-1)+GDct(t+1)+2×GDct(t+2))/10,其中,GDct′(t)代表第t帧语音信号的差分系数,取DCT变换后原倒谱系数的前16维和差分后的前16维系数,共同组成32维的倒谱系数G;
2.根据权利要求1所述的一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,其特征在于,所述的步骤(1)中,预加重系数μ为0.92~0.98。
3.根据权利要求1或2所述的一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,其特征在于,步骤(10)中W=5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811359541.8A CN109256127B (zh) | 2018-11-15 | 2018-11-15 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811359541.8A CN109256127B (zh) | 2018-11-15 | 2018-11-15 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109256127A CN109256127A (zh) | 2019-01-22 |
CN109256127B true CN109256127B (zh) | 2021-02-19 |
Family
ID=65043470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811359541.8A Active CN109256127B (zh) | 2018-11-15 | 2018-11-15 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109256127B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767756B (zh) * | 2019-01-29 | 2021-07-16 | 大连海事大学 | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 |
CN109979481A (zh) * | 2019-03-11 | 2019-07-05 | 大连海事大学 | 一种基于相关系数的动态分割逆离散余弦变换倒谱系数的音声特征提取算法 |
CN110335624A (zh) * | 2019-07-29 | 2019-10-15 | 吉林大学 | 基于功率归一化倒谱系数特征的帕金森病语音检测方法 |
CN110956957B (zh) * | 2019-12-23 | 2022-05-17 | 思必驰科技股份有限公司 | 语音增强模型的训练方法及系统 |
CN111398944B (zh) * | 2020-04-09 | 2022-05-17 | 浙江大学 | 一种用于身份识别的雷达信号处理方法 |
CN111508500B (zh) * | 2020-04-17 | 2023-08-29 | 五邑大学 | 一种语音情绪识别方法、系统、装置和存储介质 |
CN113393850B (zh) * | 2021-05-25 | 2024-01-19 | 西北工业大学 | 一种用于端到端时域声源分离系统的参数化听觉滤波器组 |
CN113488074B (zh) * | 2021-08-20 | 2023-06-23 | 四川大学 | 一种用于检测合成语音的二维时频特征生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982801A (zh) * | 2012-11-12 | 2013-03-20 | 中国科学院自动化研究所 | 一种用于鲁棒语音识别的语音特征提取方法 |
CN103559893A (zh) * | 2013-10-17 | 2014-02-05 | 西北工业大学 | 一种水下目标gammachirp倒谱系数听觉特征提取方法 |
CN105679312A (zh) * | 2016-03-04 | 2016-06-15 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
CN107767859A (zh) * | 2017-11-10 | 2018-03-06 | 吉林大学 | 噪声环境下人工耳蜗信号的说话人可懂性检测方法 |
GB2560174A (en) * | 2017-03-01 | 2018-09-05 | Toshiba Kk | A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train |
CN108564965A (zh) * | 2018-04-09 | 2018-09-21 | 太原理工大学 | 一种抗噪语音识别系统 |
-
2018
- 2018-11-15 CN CN201811359541.8A patent/CN109256127B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982801A (zh) * | 2012-11-12 | 2013-03-20 | 中国科学院自动化研究所 | 一种用于鲁棒语音识别的语音特征提取方法 |
CN103559893A (zh) * | 2013-10-17 | 2014-02-05 | 西北工业大学 | 一种水下目标gammachirp倒谱系数听觉特征提取方法 |
CN105679312A (zh) * | 2016-03-04 | 2016-06-15 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
GB2560174A (en) * | 2017-03-01 | 2018-09-05 | Toshiba Kk | A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train |
CN107767859A (zh) * | 2017-11-10 | 2018-03-06 | 吉林大学 | 噪声环境下人工耳蜗信号的说话人可懂性检测方法 |
CN108564965A (zh) * | 2018-04-09 | 2018-09-21 | 太原理工大学 | 一种抗噪语音识别系统 |
Non-Patent Citations (1)
Title |
---|
基于鲁棒听觉特征的说话人识别;林琳,陈虹,陈建;《电子学报》;20130315(第3期);第619-624页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109256127A (zh) | 2019-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
Zão et al. | Speech enhancement with EMD and hurst-based mode selection | |
Li et al. | An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions | |
US20180277101A1 (en) | Relative Excitation Features for Speech Recognition | |
CN102968990B (zh) | 说话人识别方法和系统 | |
CN108564965B (zh) | 一种抗噪语音识别系统 | |
CN102664010B (zh) | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN102982801A (zh) | 一种用于鲁棒语音识别的语音特征提取方法 | |
CN108682432B (zh) | 语音情感识别装置 | |
Shi et al. | Robust speaker recognition based on improved GFCC | |
Dev et al. | Robust features for noisy speech recognition using mfcc computation from magnitude spectrum of higher order autocorrelation coefficients | |
CN111508504B (zh) | 基于听觉中枢感知机理的说话人识别方法 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN112542174A (zh) | 基于vad的多维特征参数声纹识别方法 | |
CN104778948A (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 | |
Hasan et al. | Preprocessing of continuous bengali speech for feature extraction | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
CN112863517A (zh) | 基于感知谱收敛率的语音识别方法 | |
CN116597853A (zh) | 一种音频消噪方法 | |
Deng et al. | Gammachirp filter banks applied in roust speaker recognition based on GMM-UBM classifier. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |