CN107871498A - 一种基于Fisher准则以提高语音识别率的混合特征组合算法 - Google Patents
一种基于Fisher准则以提高语音识别率的混合特征组合算法 Download PDFInfo
- Publication number
- CN107871498A CN107871498A CN201710933414.3A CN201710933414A CN107871498A CN 107871498 A CN107871498 A CN 107871498A CN 201710933414 A CN201710933414 A CN 201710933414A CN 107871498 A CN107871498 A CN 107871498A
- Authority
- CN
- China
- Prior art keywords
- parameter
- fisher
- composite character
- teocc
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002131 composite material Substances 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000002474 experimental method Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 25
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 abstract description 10
- 239000000203 mixture Substances 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 210000000214 mouth Anatomy 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001256 tonic effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000003387 muscular Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 235000021018 plums Nutrition 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于Fisher准则以提高语音识别率的混合特征组合算法,属于音频信号处理技术领域。本发明首先对语音信号进行预处理,再对预处理后的语音信号提取特征参数,然后,计算MFCC、IMFCC、MidMFCC、LPC、LPCC和LPMFCC参数中各维分量的Fisher比。把特征参数分别进行组合,然后与TEOCC参数组合成混合特征参数,混合特征参数的维数为25维,TEOCC参数取一维,其余组成混合特征的每一种参数维数相同。针对不同的混合特征组合,选取各特征所需维数的Fisher比值高的分量。最后,利用录制好的WAV文件进行语音识别实验,选出识别率最高的混合特征参数组合。
Description
技术领域
本发明涉及一种基于Fisher准则以提高语音识别率的混合特征组合算法,属于音频信号处理技术领域。
背景技术
目前语音识别已经在许多领域得到应有,如进入控制、电子银行远程登录、快速通关系统等等。在语音识别中,最终的训练和识别环节是针对语音的特征参数进行的,因此特征提取在识别过程中的作用非常关键。其中关键技术之一在于如何在一定程度上消除特征的信息冗余,实现客观的信息压缩,从而有利于信息的实时处理。利用Fisher准则来分析特征向量,确定鉴别矢量集,使其在最佳鉴别矢量方向上模式具有最大的可分性是一种广泛使用的特征降维方法。不同的特征参数语音信号不同的特点,如果直接将它们叠加组合会产生一些问题,增加了特征参数的维数,增加了计算量。由于各维特征参数对识别的贡献不同,有些参数可能包含的信息量较少,有些包含的可能是冗余信息,如果将他们同等对待,最终会影响识别性能。所以必须对各维参数对识别结果的影响程度进行评价,得到对识别影响最大的参数,然后组合作为新的特征参数。通过计算特征分量的Fisher比得到各分量的区分能力。本文就是利用实验的方法,通过计算不同组合的混合特征参数,进而找到另语音识别率最高的混合特征参数组合。
发明内容
本发明要解决的技术问题是提供一种基于Fisher准则以提高语音识别率的混合特征组合算法,寻找令语音识别率最高的混合特征组合。
本发明的技术方案是:一种基于Fisher准则以提高语音识别率的混合特征组合算法,首先对语音信号进行预处理,预处理过程包括:预加重、分帧处理、加窗函数。再对预处理后的语音信号提取特征参数,提取的特征参数有:MFCC(梅尔频率倒谱系数)、IMFCC(逆梅尔频率倒谱系数)、MidMFCC(中频梅尔频率倒谱系数)、LPC(线性预测系数)、LPCC(线性预测倒谱系数)、LPMFCC(线性预测梅尔倒谱系数)和Teager能量算子倒谱参数(TEOCC)。然后,计算MFCC、IMFCC、MidMFCC、LPC、LPCC和LPMFCC参数中各维分量的Fisher比。把特征参数分别进行组合,然后与TEOCC参数组合成混合特征参数,混合特征参数的维数为25维,TEOCC参数取一维,其余组成混合特征的每一种参数维数相同。除了TEOCC参数,其余的每一种特征参数均计算24维的Fisher比,针对不同的混合特征组合,选取各特征所需维数的Fisher比值高的分量。最后,利用录制好的WAV文件进行语音识别实验,选出识别率最高的混合特征参数组合。
具体步骤为:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)特征提取:分别提取表征语音信息的特征参数:MFCC、IMFCC、MidMFCC、LPC、LPCC、LPMFCC和TEOCC;
(3)特征组合:把不同的特征参数分别进行组合成新的混合特征参数;
(4)计算Fisher比:除了TEOCC参数,剩余的六种特征参数,每一种均计算24维分量的Fisher比;
(5)选取特征分量:计算每一种特征参数的Fisher比,选出在每一种混合特征中,每一种特征所需维数的Fisher比高的分量。
(6)计算识别率:进行语音识别实验,利用高斯混合模型,分别在不同的噪声环境下进行语音识别率的计算。
(7)获取最佳特征组合:在不同的噪声环境下,同一组混合特征计算的语音识别率可能不同,所以选出在不同噪声环境下,语音识别率最高的特征组合。即选出在不同噪声环境下孤立字语音识别率最高的组合为最佳混合特征组合。
上述的一种基于Fisher准则以提高语音识别率的混合特征组合算法,步骤(1)中预处理,其中把待测音频信号进行分帧处理:音频序列是时间轴上的一维信号,为了能够对其进行信号分析,需要假设音频信号在毫秒级别的短时间处于稳定状态,因此在此基础上对音频信号进行分帧操作。对音频信号分帧处理可采用连续分段的方法,但为了使帧与帧之间平滑过渡保持其连续性,一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数w(n)来乘音频信号s(n),从而形成加窗的音频信号sw(n)=s(n)×w(n);
上述的一种基于Fisher准则以提高语音识别率的混合特征组合算法,步骤(2)中特征提取:
(1)MFCC:在1000Hz以下,Mel刻度与Hz频率刻度近似遵循线性关系,而在1000Hz以上的声音频率范围Mel刻度与Hz频率坐标遵循近似对数关系两种坐标的变换关系如式(1):Fmel=1127*ln(1+fHz/700) (1)
Mel参数提取流程:
1:语音信号经过分帧处理后变为短时信号,利用快速傅里叶变换(FFT)将这些信号转换为频域信号,并计算短时能量谱。
2:短时能量谱用一组三角滤波器组进行滤波,得到一组滤波系数,其中每个滤波器的中心频率在Mel刻度上均匀分布,带宽为相邻中心频率差值。
3:对得到的滤波系数根据式(2)进行余弦变换,去除各维信号之间的相关性,将信号映射到低维空间以得到特征参数。
其中:c(m)表示MFCC第m维特征参数,S(n)表示滤波器系数,M表示滤波器的阶次;
(2)IMFCC:逆梅尔频率倒谱系数,为了提高高频的计算精度,与经典的MFCC的不同主要在Mel刻度与Hz刻度的转换上,IMel刻度与Hz刻度的转换关系如(3)式所示:
IMFCC参数中,滤波器主要分布于高频部分,表征了高频部分的频谱特征,IMFCC的提取过程与MFCC的提取过程一致;
(3)MidMFCC:中频梅尔频率倒谱系数,为了提高中频的计算精度,与经典的MFCC的不同主要在Mel刻度与Hz刻度的转换上,MidMel刻度与Hz刻度的转换关系如(4)式所示:
MidMFCC参数中,滤波器在中频部分分布比较密集,在低频部分分布比较稀疏,MidMFCC的提取过程与MFCC的提取过程一致;
(4)LPC:线性预测系数是表征声道模型的线性时变系统的参数,它反映了声道特性,在语音识别中具有广泛的应用。LPC从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计,通过使实际语音的采样值和线性预测采样值之间达到均方差最小,即可得到唯一的一组线性预测系数LPC;
(5)LPCC:在获得滤波器的LPC后,可以用(5)和(6)递推公式计算得出
c1=a1 (5),
(6)LPMFCC:LPMFCC参数提取算法如下:
1:对语音信号进行预处理。
2:计算每帧语音信号的LPC系数。
3:每帧信号的LPC系数经过DFT得到离散频谱,然后计算功率谱。
4:将上述功率谱通过Mel滤波器组进行滤波处理,并计算对数功率谱,
5:将对数功率谱经过离散余弦变换得到LPMFCC;
(7)TEOCC:Teager能量算子(TEO)是由Kaiser提出的一种非线性差分算子,不仅具有非线性能量跟踪信号特性,能够合理的呈现信号能量的转换,而且能够消除信号的零均值噪声影响,增强语音信号,同时进行信号特征提取。TEOCC是Teager能量算子倒谱参数,TEOCC提取算法如下:
1:对语音信号进行预处理。
2:计算每帧语音信号的平均TEO。
3:计算对数TEO,并作离散余弦变换得到1维TEOCC;
上述的一种基于Fisher准则以提高语音识别率的混合特征组合算法,步骤(3)中特征组合:
(1):MFCC、IMFCC、MidMFCC和TEOCC。
(2):MFCC、LPCC和TEOCC。
(3):MFCC、LPMFCC和TEOCC。
(4):MFCC、LPC和TEOCC;
上述的一种基于Fisher准则以提高语音识别率的混合特征组合算法,步骤(4)中计算Fisher比:除了TEOCC参数,剩余的六种特征参数,每一种均计算24维分量的Fisher比。Fisher线性判别准则如下:
式(7)中:rFisher是特征分量的Fisher比或者Fisher判据,某个参量对训练集样本的Fisher比越大则说明这个参数的类别区分度越好;σbetween表征特征分量的类间方差,即不同语音特征分量均值的方差,反映不同语音样本之间的差异程度;σwithin表征特征分量的类内方差,即同一语音特征分量的方差均值,反映了同一语音样本之间的密集程度。
其中:mk表示语音特征第k维分量在所有类上的均值;表示语音特征第k维分量第i类的均值,wi表示第i类的语音特征序列;c、ni分别表示语音特征序列的类别数和各类的样本数;表示第i类语音特征的第k维分量。
对于特征分量,从类间方差和类内方差两个方面表征了它的可分离程度。Fisher比越大,则说明该维特征参数更适合作为语音的特征信息,不同维数分量对识别的贡献程度是不相同的。
上述的一种基于Fisher准则以提高语音识别率的混合特征组合算法,步骤(5)中选取特征分量:
(1):在MFCC、IMFCC、MidMFCC和TEOCC的特征组合中,MFCC、IMFCC和MidMFCC参数分别选取6维Fisher比值高的特征分量,TEOCC为一维。
(2):在MFCC、LPCC和TEOCC的特征组合中,MFCC和LPCC参数分别选取12维Fisher比值高的特征分量,TEOCC为一维。
(3):在MFCC、LPMFCC和TEOCC的特征组合中,MFCC和LPMFCC参数分别选取12维Fisher比值高的特征分量,TEOCC为一维。
(4):在MFCC、LPC和TEOCC的特征组合中,MFCC和LPC参数分别选取12维Fisher比值高的特征分量,TEOCC为一维;
上述的一种基于Fisher准则以提高语音识别率的混合特征组合算法,步骤(6)中计算识别率:因为不同的语音特征对噪声的敏感程度不同,某些特征抗噪声性能差,某些特征抗噪声性能好,在不同的噪声环境下,识别率最高的特征组合未必相同,因此在不同的噪声环境下进行语音识别实验。
(1):完全没有噪声环境下,纯净的语音信号。
(2):掺杂少量噪声环境下,语音信号依然可以分辨内容。
(3):掺杂大量噪声环境下,语音信号很难分辨内容。
在以上三种环境下,分别通过隐马尔可夫模型(HMM)进行待识别语音的识别实验。计算在不同噪声环境下的不同特征组合的识别率;
上述的一种基于Fisher准则以提高语音识别率的混合特征组合算法,步骤(7)中获取最佳特征组合:在不同噪声环境下,不同混合特征计算的识别率不同,找出在每一种噪声环境下,识别率最高的特征组合,因此,可以得到在不同的噪声环境下,哪一种混合特征是进行语音识别的最佳特征组合。
本发明的有益效果是:本发明对各维参数进行选择,选出那些可分离性最优且能有效表征语音信号的特征分量,从而达到降维的目的并得到最优的识别性能。本发明算法简单,理论清晰,技术容易实现。
附图说明
图1是本发明语音识别流程图;
图2是本发明识别率计算流程图;
图3是本发明HMM识别实验流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于Fisher准则以提高语音识别率的混合特征组合算法,具体步骤为:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)特征提取:分别提取表征语音信息的特征参数:MFCC、IMFCC、MidMFCC、LPC、LPCC、LPMFCC和TEOCC;
(3)特征组合:把不同的特征参数分别进行组合成新的混合特征参数;
(4)计算Fisher比:除了TEOCC参数,剩余的六种特征参数,每一种均计算24维分量的Fisher比;
(5)选取特征分量:计算每一种特征参数的Fisher比,选出在每一种混合特征中,每一种特征所需维数的Fisher比高的分量;
(6)计算识别率:进行语音识别实验,利用高斯混合模型,分别在不同的噪声环境下进行语音识别率的计算;
(7)获取最佳特征组合:在不同的噪声环境下,同一组混合特征计算的语音识别率可能不同,所以选出在不同噪声环境下,语音识别率最高的特征组合,即选出在不同噪声环境下孤立字语音识别率最高的组合为最佳混合特征组合。
所述预处理包括三个步骤:预加重处理、分帧处理、加窗函数;
(1)预加重处理:声门脉冲的频率响应曲线接近于一个二阶低通滤波器,而口腔的辐射响应也接近于一个一阶高通滤波器。预加重的目的是为了补偿高频分量的损失,提升高频分量。
(2)分帧处理:由于语音信号是一个准稳态的信号,把它分成较短的帧,在每帧中可将其看成稳态信号,可用处理稳态信号的方法处理。同时,为了使一帧与另一帧之间的参数能较平稳地过渡,在两帧之间互相有部分重叠。
(3)加窗函数:加窗函数的目的是减少频域中的泄漏,将对每一帧语音乘以汉明窗或海宁窗。
所述特征提取具体为:
(1)MFCC:MFCC是基于听觉特性的梅尔频率倒谱系数,MFCC是模拟人耳的听觉特性,即对于低频语音信号的感知分辨能力相比高频信号更强,将语音线性频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域。MFCC是采用滤波器组的方法计算出来的,在Mel域均匀分布一组三角带通滤波器,称为Mel滤波器组,变换到Hz频域,滤波器的中心频率和带宽随着频率的变化而变化,在1000Hz以下滤波器分布密集,而在1000Hz以上,滤波器分布比较稀疏;
(2)IMFCC:在MFCC参数中,滤波器组主要分布于低频部分,注重于语音的低频频谱,对高频的频谱计算精度较差,造成最终提取的参数不能最大限度的表征语音的特征,因此为了提高高频的计算精度,提出了逆梅尔频率倒谱系数;
(3)MidMFCC:为了提高中频的计算精度,提出了中频梅尔频率倒谱系数;
(4)LPC:线性预测系数是表征声道模型的线性时变系统的参数,它反映了声道特性,在语音识别中具有广泛的应用。LPC从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计,通过使实际语音的采样值和线性预测采样值之间达到均方差最小,即可得到唯一的一组线性预测系数LPC;
(5)LPCC:线性预测倒谱系数可在获得滤波器的LPC后,可以由LPC推导得出。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点是对辅音的描述能力较差,抗噪声性能较差;
(6)LPMFCC:LPC在所有频率上都是线性逼近语音的,这与人耳的听觉特性不一致,并且它对噪声的影响特别敏感,包含了语音高频部分的大部分噪声细节,从而会影响系统的性能。由于语音信息主要集中在低频部分,Mel滤波器组在低频区域的分布比较集中所以借鉴MFCC,将实际频率的LPC系数转化为Mel频率的LPC系数,得到线性预测梅尔频率参数,这样把声道特征和人耳听觉特征结合了起来,应用于语音识别;
(7)TEOCC:Teager能量算子是由Kaiser提出的一种非线性差分算子,不仅具有非线性能量跟踪信号特性,能够合理的呈现信号能量的转换,而且能够消除信号的零均值噪声影响,增强语音信号,同时进行信号特征提取。TEOCC是Teager能量算子倒谱参数;
所述特征组合:把不同的特征参数分别进行组合成新的混合特征参数。
所述计算Fisher比:混合特征参数为25维,TEOCC为一维,每一种特征参数计算24维分量的Fisher比。
(1):MFCC、IMFCC、MidMFCC和TEOCC。
(2):MFCC、LPCC和TEOCC。
(3):MFCC、LPMFCC和TEOCC。
(4):MFCC、LPC和TEOCC;
所述选取特征分量:混合特征参数为25维,TEOCC为一维,其余组成混合特征的参数维数相同,平分24维。每一种特征参数均从各自24维特征分量中选出所需维数的最高Fisher比值的维分量。
(1):在MFCC、IMFCC、MidMFCC和TEOCC的特征组合中,MFCC、IMFCC和MidMFCC参数分别选取6维Fisher比值高的特征分量,TEOCC为一维。
(2):在MFCC、LPCC和TEOCC的特征组合中,MFCC和LPCC参数分别选取12维Fisher比值高的特征分量,TEOCC为一维。
(3):在MFCC、LPMFCC和TEOCC的特征组合中,MFCC和LPMFCC参数分别选取12维Fisher比值高的特征分量,TEOCC为一维。
(4):在MFCC、LPC和TEOCC的特征组合中,MFCC和LPC参数分别选取12维Fisher
比值高的特征分量,TEOCC为一维;
所述计算识别率:因为不同的语音特征对噪声的敏感程度不同,某些特征抗噪声性能差,某些特征抗噪声性能好,在不同的噪声环境下,识别率最高的特征组合未必相同,因此在不同的噪声环境下进行语音识别实验。
(1):完全没有噪声环境下,纯净的语音信号。
(2):掺杂少量噪声环境下,语音信号依然可以分辨内容。
(3):掺杂大量噪声环境下,语音信号很难分辨内容。
在以上三种环境下,分别通过隐马尔可夫模型(HMM)进行待识别语音的识别实验。计算在不同噪声环境下的不同特征组合的识别率;
所述获取最佳特征组合:在不同噪声环境下,不同混合特征计算的识别率不同,找出在每一种噪声环境下,识别率最高的特征组合,因此,可以得到在不同的噪声环境下,哪一种混合特征是进行语音识别的最佳特征组合;
实施例2:结合图1、图2和图3,对本发明作进一步的详细说明。包括以下步骤:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)预加重处理:预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。预加重一般是在语音信号数字化之后,在参数分析之前在计算机里用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现。一般是一阶的数字滤波器,即,其中,值接近于1,典型值为0.94;
(3)分帧处理:音频序列是时间轴上的一维信号,是一个非稳态时变的信号,但语音是由声门的激励脉冲通过声道形成的,而声道,即人的口腔(或耦合了鼻腔)肌肉运动是缓慢的,“短时间”范围内可以认为语音信号是稳态的,时不变的。所以为了能够对其进行信号分析,需要假设音频信号在毫秒级别的短时间处于稳定状态,因此在此基础上对音频信号进行分帧操作。对音频信号分帧处理可采用连续分段的方法,但为了使帧与帧之间平滑过渡保持其连续性,一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数w(n)来乘音频信号s(n),从而形成加窗的音频信号sw(n)=s(n)×w(n)。
(4)加窗函数:加窗函数的目的是减少频域中的泄漏,将对每一帧语音乘以汉明窗或海宁窗。
(5)特征提取:
MFCC:在1000Hz以下,Mel刻度与Hz频率刻度近似遵循线性关系,而在1000Hz以上的声音频率范围Mel刻度与Hz频率坐标遵循近似对数关系两种坐标的变换关系如式(1):Fmel=1127*ln(1+fHz/700) (1)
Mel参数提取流程:
1:语音信号经过分帧处理后变为短时信号,利用快速傅里叶变换(FFT)将这些信号转换为频域信号,并计算短时能量谱。
2:短时能量谱用一组三角滤波器组进行滤波,得到一组滤波系数,其中每个滤波器的中心频率在Mel刻度上均匀分布,带宽为相邻中心频率差值。
3:对得到的滤波系数根据式(2)进行余弦变换,去除各维信号之间的相关性,将信号映射到低维空间以得到特征参数。
其中:c(m)表示MFCC第m维特征参数,S(n)表示滤波器系数,M表示滤波器的阶次;
IMFCC:逆梅尔频率倒谱系数,为了提高高频的计算精度,与经典的MFCC的不同主要在Mel刻度与Hz刻度的转换上,IMel刻度与Hz刻度的转换关系如(3)式所示:
IMFCC参数中,滤波器主要分布于高频部分,表征了高频部分的频谱特征,IMFCC的提取过程与MFCC的提取过程一致;
MidMFCC:中频梅尔频率倒谱系数,为了提高中频的计算精度,与经典的MFCC的不同主要在Mel刻度与Hz刻度的转换上,MidMel刻度与Hz刻度的转换关系如(4)式所示:
MidMFCC参数中,滤波器在中频部分分布比较密集,在低频部分分布比较稀疏,MidMFCC的提取过程与MFCC的提取过程一致;
LPC:线性预测系数是表征声道模型的线性时变系统的参数,它反映了声道特性,在语音识别中具有广泛的应用。LPC从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计,通过使实际语音的采样值和线性预测采样值之间达到均方差最小,即可得到唯一的一组线性预测系数LPC;
LPCC:在获得滤波器的LPC后,可以用(5)和(6)递推公式计算得出
c1=a1 (5),
LPMFCC:LPMFCC参数提取算法如下:
1:对语音信号进行预处理。
2:计算每帧语音信号的LPC系数。
3:每帧信号的LPC系数经过DFT得到离散频谱,然后计算功率谱。
4:将上述功率谱通过Mel滤波器组进行滤波处理,并计算对数功率谱,
5:将对数功率谱经过离散余弦变换得到LPMFCC;
TEOCC:Teager能量算子(TEO)是由Kaiser提出的一种非线性差分算子,不仅具有非线性能量跟踪信号特性,能够合理的呈现信号能量的转换,而且能够消除信号的零均值噪声影响,增强语音信号,同时进行信号特征提取。TEOCC是Teager能量算子倒谱参数,TEOCC提取算法如下:
1:对语音信号进行预处理。
2:计算每帧语音信号的平均TEO。
3:计算对数TEO,并作离散余弦变换得到1维TEOCC;
(6)特征组合:
(1):MFCC、IMFCC、MidMFCC和TEOCC。
(2):MFCC、LPCC和TEOCC。
(3):MFCC、LPMFCC和TEOCC。
(4):MFCC、LPC和TEOCC;
(7)计算Fisher比:除了TEOCC参数,剩余的六种特征参数,每一种均计算24维分量的Fisher比。Fisher线性判别准则如下:
式(7)中:rFisher是特征分量的Fisher比或者Fisher判据,某个参量对训练集样本的Fisher比越大则说明这个参数的类别区分度越好;σbetween表征特征分量的类间方差,即不同语音特征分量均值的方差,反映不同语音样本之间的差异程度;σwithin表征特征分量的类内方差,即同一语音特征分量的方差均值,反映了同一语音样本之间的密集程度。
其中:mk表示语音特征第k维分量在所有类上的均值;表示语音特征第k维分量第i类的均值,wi表示第i类的语音特征序列;c、ni分别表示语音特征序列的类别数和各类的样本数;表示第i类语音特征的第k维分量。
对于特征分量,从类间方差和类内方差两个方面表征了它的可分离程度。Fisher比越大,则说明该维特征参数更适合作为语音的特征信息,不同维数分量对识别的贡献程度是不相同的。
(8)选取特征分量:
(1):在MFCC、IMFCC、MidMFCC和TEOCC的特征组合中,MFCC、IMFCC和MidMFCC参数分别选取6维Fisher比值高的特征分量,TEOCC为一维。
(2):在MFCC、LPCC和TEOCC的特征组合中,MFCC和LPCC参数分别选取12维Fisher比值高的特征分量,TEOCC为一维。
(3):在MFCC、LPMFCC和TEOCC的特征组合中,MFCC和LPMFCC参数分别选取12维Fisher比值高的特征分量,TEOCC为一维。
(4):在MFCC、LPC和TEOCC的特征组合中,MFCC和LPC参数分别选取12维Fisher比值高的特征分量,TEOCC为一维;
(9)计算识别率:因为不同的语音特征对噪声的敏感程度不同,某些特征抗噪声性能差,某些特征抗噪声性能好,在不同的噪声环境下,识别率最高的特征组合未必相同,因此在不同的噪声环境下进行语音识别实验。
(1):完全没有噪声环境下,纯净的语音信号。
(2):掺杂少量噪声环境下,语音信号依然可以分辨内容。
(3):掺杂大量噪声环境下,语音信号很难分辨内容。
在以上三种环境下,分别通过隐马尔可夫模型(HMM)进行待识别语音的识别实验。计算在不同噪声环境下的不同特征组合的识别率;
(10)获取最佳特征组合:在不同噪声环境下,不同混合特征计算的识别率不同,找出在每一种噪声环境下,识别率最高的特征组合,因此,可以得到在不同的噪声环境下,哪一种混合特征是进行语音识别的最佳特征组合;
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (1)
1.一种基于Fisher准则以提高语音识别率的混合特征组合算法,其特征在于具体步骤为:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)特征提取:分别提取表征语音信息的特征参数:MFCC、IMFCC、MidMFCC、LPC、LPCC、LPMFCC和TEOCC;
(3)特征组合:把不同的特征参数分别进行组合成新的混合特征参数;
(4)计算Fisher比:除了TEOCC参数,剩余的六种特征参数,每一种均计算24维分量的Fisher比;
(5)选取特征分量:计算每一种特征参数的Fisher比,选出在每一种混合特征中,每一种特征所需维数的Fisher比高的分量;
(6)计算识别率:进行语音识别实验,利用高斯混合模型,分别在不同的噪声环境下进行语音识别率的计算;
(7)获取最佳特征组合:在不同的噪声环境下,同一组混合特征计算的语音识别率可能不同,所以选出在不同噪声环境下,语音识别率最高的特征组合,即选出在不同噪声环境下孤立字语音识别率最高的组合为最佳混合特征组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710933414.3A CN107871498A (zh) | 2017-10-10 | 2017-10-10 | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710933414.3A CN107871498A (zh) | 2017-10-10 | 2017-10-10 | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107871498A true CN107871498A (zh) | 2018-04-03 |
Family
ID=61752739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710933414.3A Pending CN107871498A (zh) | 2017-10-10 | 2017-10-10 | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107871498A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166591A (zh) * | 2018-08-29 | 2019-01-08 | 昆明理工大学 | 一种基于音频特征信号的分类方法 |
CN110782877A (zh) * | 2019-11-19 | 2020-02-11 | 合肥工业大学 | 基于Fisher混合特征和神经网络的语音鉴别方法和系统 |
CN113129918A (zh) * | 2021-04-15 | 2021-07-16 | 浙江大学 | 联合波束形成和深度复数U-Net网络的语音去混响方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104754430A (zh) * | 2013-12-30 | 2015-07-01 | 重庆重邮信科通信技术有限公司 | 终端麦克风降噪装置和方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
US20160132750A1 (en) * | 2014-11-07 | 2016-05-12 | Adobe Systems Incorporated | Local feature representation for image recognition |
CN106128477A (zh) * | 2016-06-23 | 2016-11-16 | 南阳理工学院 | 一种口语识别校正系统 |
CN106527478A (zh) * | 2016-11-24 | 2017-03-22 | 深圳市道通智能航空技术有限公司 | 无人机现场声音获取方法与有声视频实现方法及相关装置 |
CN106792315A (zh) * | 2017-01-05 | 2017-05-31 | 歌尔科技有限公司 | 一种抵消环境噪声的方法和装置及一种主动降噪耳机 |
-
2017
- 2017-10-10 CN CN201710933414.3A patent/CN107871498A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104754430A (zh) * | 2013-12-30 | 2015-07-01 | 重庆重邮信科通信技术有限公司 | 终端麦克风降噪装置和方法 |
US20160132750A1 (en) * | 2014-11-07 | 2016-05-12 | Adobe Systems Incorporated | Local feature representation for image recognition |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
CN106128477A (zh) * | 2016-06-23 | 2016-11-16 | 南阳理工学院 | 一种口语识别校正系统 |
CN106527478A (zh) * | 2016-11-24 | 2017-03-22 | 深圳市道通智能航空技术有限公司 | 无人机现场声音获取方法与有声视频实现方法及相关装置 |
CN106792315A (zh) * | 2017-01-05 | 2017-05-31 | 歌尔科技有限公司 | 一种抵消环境噪声的方法和装置及一种主动降噪耳机 |
Non-Patent Citations (2)
Title |
---|
谢小娟,曾以成,熊冰峰: "说话人识别中基于Fisher比的特征组合方法", 《计算机应用》 * |
赵鑫,等。: "基于Multi-Fisher准则的语音混合特征提取和特征增强方法", 《纳米技术与精密工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166591A (zh) * | 2018-08-29 | 2019-01-08 | 昆明理工大学 | 一种基于音频特征信号的分类方法 |
CN110782877A (zh) * | 2019-11-19 | 2020-02-11 | 合肥工业大学 | 基于Fisher混合特征和神经网络的语音鉴别方法和系统 |
CN113129918A (zh) * | 2021-04-15 | 2021-07-16 | 浙江大学 | 联合波束形成和深度复数U-Net网络的语音去混响方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Likitha et al. | Speech based human emotion recognition using MFCC | |
Bandela et al. | Stressed speech emotion recognition using feature fusion of teager energy operator and MFCC | |
Grimaldi et al. | Speaker identification using instantaneous frequencies | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
Shaw et al. | Emotion recognition and classification in speech using artificial neural networks | |
Jiao et al. | Convex weighting criteria for speaking rate estimation | |
Pati et al. | Subsegmental, segmental and suprasegmental processing of linear prediction residual for speaker information | |
Wang et al. | Speaker identification with whispered speech for the access control system | |
CN107871498A (zh) | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 | |
Sethu et al. | Empirical mode decomposition based weighted frequency feature for speech-based emotion classification | |
Naini et al. | Formant-gaps features for speaker verification using whispered speech | |
CN114842878A (zh) | 一种基于神经网络的语音情感识别方法 | |
Mahesha et al. | Classification of speech dysfluencies using speech parameterization techniques and multiclass SVM | |
Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
Pati et al. | A comparative study of explicit and implicit modelling of subsegmental speaker-specific excitation source information | |
Saksamudre et al. | Isolated word recognition system for Hindi Language | |
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language | |
Thirumuru et al. | Application of non-negative frequency-weighted energy operator for vowel region detection | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Priyanka et al. | Cross corpus speech emotion recognition | |
Sunil Kumar et al. | Phoneme recognition using zerocrossing interval distribution of speech patterns and ANN | |
Kammee et al. | Sound Identification using MFCC with Machine Learning | |
Korvel et al. | Comparison of Lithuanian and Polish consonant phonemes based on acoustic analysis–preliminary results | |
Bhadra et al. | Study on Feature Extraction of Speech Emotion Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180403 |