CN104064197A - 一种基于语音帧间动态信息提高语音识别鲁棒性的方法 - Google Patents
一种基于语音帧间动态信息提高语音识别鲁棒性的方法 Download PDFInfo
- Publication number
- CN104064197A CN104064197A CN201410281239.0A CN201410281239A CN104064197A CN 104064197 A CN104064197 A CN 104064197A CN 201410281239 A CN201410281239 A CN 201410281239A CN 104064197 A CN104064197 A CN 104064197A
- Authority
- CN
- China
- Prior art keywords
- frame
- speech
- voice
- noise
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明为大规模孤立词语音识别提供了一种提高识别鲁棒性的方法。本发明的方法引入了不同语音帧之间的相关性,为语音识别的特征参数加入了动态特征。同时通过CASA方法将噪声环境下的语音进行了噪声消除,扩大了语音识别应用领域的范围。本发明待识别孤立词为10240词,实验结果表明,在将语音帧间信息作为动态参数加入到语音特征参数后,平均每个词汇的第一识别概率和第二识别概率的差值增大了30%。
Description
技术领域
本发明涉及孤立词语音识别领域,具体涉及一种提高大规模孤立词语音识别的鲁棒性的方法。
背景技术
合理的特征参数能极大的提高语音识别的准确率和鲁棒性,因此选取语音特征参数至关重要。
语音信号的特征参数主要分成两类:第一类为时域特征参数,一帧语音信号的各个时域采样值直接构成一个向量,每个采样点实际上就是一个振幅值;第二类为时域变换频域特征向量,即对采样后的一帧语音信号进行某种变换后产生的特征参数。前者的优点在于计算简单,缺点是不能压缩维数且不适于表征幅度谱特性。与此对应,各种变换域特征向量的计算比较复杂,但能从不同的角度反映幅度谱的特征。
语音识别技术中研究和应用最广泛的特征参数是基于人的声道模型和听觉机理的线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)参数,而在低频段MFCC参数具有较高的谱分辨率,抗噪声干扰的性能优于LPCC,因此更适合于语音识别。语音的LPCC参数在语音识别中具有最广泛的应用,但特别容易受到噪声的干扰。从目前使用的情况来看,梅尔刻度倒频谱参数已基本取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,在语音识别方面表现出了更好的鲁棒性。
MFCC特征提取过程通常都做了一个很不准确的假设,即不同帧间的语音是不相关的。由于语音在时域上是连续的,基于其时域上的分出来的语音帧也应该是连续的。因此可以用前后相邻两帧的特征向量的差值和语音帧相叠来反映连续语音帧的内在关系。语音帧的倒谱系数一旦通过某种算法计算出来后,就不变的,是静态的,只能反映帧内的特性;反映帧间规律的信息是动态的,这就需要动态的特征参数,这些动态特征和静态特征组成互补,能很大程度的提高系统的识别性能。帧间动态信息可以用两种方法表示,前后两帧的MFCC参数之间的差值和前后两帧采样点的重叠。
发明内容
为解决现有技术中存在的问题,本发明为大规模孤立词语音识别提出了一种基于语音帧间动态信息的提高语音识别鲁棒性的方法,本发明通过以下技术方案实现:
一种基于语音帧间动态信息提高语音识别鲁棒性的方法,其特征在于:所述方法引入不同语音帧之间的相关性,选择梅尔倒谱系数(MFCC)进行大规模孤立词语音识别,对噪声环境下的语音采用人耳听觉机制的计算听觉场景分析(CASA)方法消除噪声,包括以下步骤:
A.对采集的语音进行分帧,帧长25ms,帧间重叠10ms,每帧400个点;
B.采用CASA方法消除噪声,具体为:
计算噪声谱的包络envN(i,j)和语音谱的包络envS(i,j),采用如下公式:
其中xi,j(n)表示第i帧中第j个频率上的第n个采样值,N=400;纯净语音信号的计算方法如下:
其中c(n,i)表示第i帧的第n个经过噪声分离后的采样值,I表示所有的语音帧数;
C.采用如下6个过程将去噪后的语音进行处理,得到梅尔倒谱系数ct(n):
(1)加入汉明窗来减小帧起始处和结束处的信号的不连续性;
(2)对每一帧进行语音端点检测,得到有用的语音帧;
(3)对每一帧语音帧进行512点的FFT变换;
(4)FFT变换后的语音信号在频域上进行梅尔倒谱变换;
(5)经梅尔变换后的语音数据取对数能量;
(6)进行余弦离散变换后,再进行归一化计算得到ct(n);
D.前后帧提取的特征向量的差值,作为一组参数代表语音帧间的动态信息,补充到MFCC参数中,计算帧间动态信息所采用的公式为如下:
其中,T为一个孤立词中的有效语音帧数,t代表第t帧,n代表第t帧中的第n个MFCC参数。
本发明的有益效果是:本发明为大规模孤立词语音识别提出了一种基于语音帧间动态信息的提高语音识别鲁棒性的方法,引入了不同语音帧之间的相关性,为语音识别的特征参数加入了动态特征。实验结果表明,该算法在不增加计算量的前提下,极大地提高了大规模孤立词语音识别的鲁棒性。
具体实施方式
下面结合具体实施方式对本发明进一步说明。
本发明的方法引入不同语音帧之间的相关性,选择梅尔倒谱系数(MFCC)进行大规模孤立词语音识别,对噪声环境下的语音采用人耳听觉机制的计算听觉场景分析(CASA)方法消除噪声,包括以下步骤:
1.噪声消除
A.首先对带有噪声的语音进行分帧,每帧的长度为25ms,由于采样率为16000Hz,故每帧有400个时域的采样点,前后两帧重叠10ms,即重叠160个采样点。
B.采用人耳听觉机制的场景分析技术消除噪声,得到较为纯净的语音。输入的语音一般包含噪声,可以认为是纯净语音与噪声的叠加,即可以认为是噪声和纯净语音通过两个麦克风同时输入的,因此采用场景分析技术将噪声分离出来。
计算噪声谱的包络envN(i,j)和语音谱的包络envS(i,j),采用如下公式:
其中xi,j(n)表示第i帧中第j个频率上的第n个采样值,N=400;纯净语音信号的计算方法如下:
其中c(n,i)表示第i帧的第n个经过噪声分离后的采样值,I表示所有的语音帧数。
2.特征参数提取
为了减小某帧起始端和上一帧结束端的信号的不连续性,需要为每一帧加上一个汉明窗。
对于一个孤立词而言,停顿时的时域信号并非是语音帧,所以要去掉非语音帧,保留有效的语音帧。本方法采用语音端点激活(VAD)算法对语音帧进行端点检测,计算语音数据中有效的语音帧数T。
对每一帧语音帧进行512点的快速傅里叶变换(FFT),将经过FFT变换的语音帧进行梅尔(Mel)滤波,所用的梅尔滤波器组为带通滤波器。即将Mel滤波后语音数据取对数能量并进行离散余弦变换。
为了消除语音信号中信道带来的影响,将倒谱参数进行归一化,得到梅尔倒谱系数(MFCC)ct(n)。
3.语音帧间信息提取
实际上由于发音的物理条件限制,不同帧间语音一定是相关的,变化是连续的,本方法采用前后帧提取的特征向量的差值,作为一组参数,代表语音帧间的动态信息,补充到MFCC参数中。
计算帧间动态信息所采用的公式为如下:
其中,T为一个孤立词中的有效语音帧数,t代表第t帧,n代表第t帧中的第n个MFCC参数。
本发明所采用的MFCC参数为14维的向量,考虑到帧间信息也要加入到特征参数,故最终得到的特征参数为28维的向量。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (1)
1.一种基于语音帧间动态信息提高语音识别鲁棒性的方法,其特征在于:所述方法引入不同语音帧之间的相关性,选择梅尔倒谱系数(MFCC)进行大规模孤立词语音识别,对噪声环境下的语音采用人耳听觉机制的计算听觉场景分析(CASA)方法消除噪声,包括以下步骤:。
A.对采集的语音进行分帧,帧长25ms,帧间重叠10ms,每帧400个点;
B.采用CASA方法消除噪声,具体为:
计算噪声谱的包络envN(i,j)和语音谱的包络envS(i,j),采用如下公式:
其中xi,j(n)表示第i帧中第j个频率上的第n个采样值,N=400;纯净语音信号的计算方法如下:
其中c(n,i)表示第i帧的第n个经过噪声分离后的采样值,I表示所有的语音帧数;
C.采用如下6个过程将去噪后的语音进行处理,得到梅尔倒谱系数ct(n),t代表第t帧:
(1)加入汉明窗来减小帧起始处和结束处的信号的不连续性;
(2)对每一帧进行语音端点检测,得到有用的语音帧;
(3)对每一帧语音帧进行512点的FFT变换;
(4)FFT变换后的语音信号在频域上进行梅尔倒谱变换;
(5)经梅尔变换后的语音数据取对数能量;
(6)进行余弦离散变换后,再进行归一化计算得到ct(n);
D.前后帧提取的特征向量的差值,作为一组参数代表语音帧间的动态信息,补充到MFCC参数中,计算帧间动态信息所采用的公式为如下:
其中,T为一个孤立词中的有效语音帧数,t代表第t帧,n代表第t帧中的第n个MFCC参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410281239.0A CN104064197B (zh) | 2014-06-20 | 2014-06-20 | 一种基于语音帧间动态信息提高语音识别鲁棒性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410281239.0A CN104064197B (zh) | 2014-06-20 | 2014-06-20 | 一种基于语音帧间动态信息提高语音识别鲁棒性的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104064197A true CN104064197A (zh) | 2014-09-24 |
CN104064197B CN104064197B (zh) | 2017-05-17 |
Family
ID=51551875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410281239.0A Expired - Fee Related CN104064197B (zh) | 2014-06-20 | 2014-06-20 | 一种基于语音帧间动态信息提高语音识别鲁棒性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104064197B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504756A (zh) * | 2016-12-02 | 2017-03-15 | 珠海市杰理科技股份有限公司 | 嵌入式语音识别系统及方法 |
CN108073856A (zh) * | 2016-11-14 | 2018-05-25 | 华为技术有限公司 | 噪音信号的识别方法及装置 |
CN109616100A (zh) * | 2019-01-03 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 语音识别模型的生成方法及其装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801326A (zh) * | 2004-12-31 | 2006-07-12 | 中国科学院自动化研究所 | 利用增益自适应提高语音识别率的方法 |
CN101404160A (zh) * | 2008-11-21 | 2009-04-08 | 北京科技大学 | 一种基于音频识别的语音降噪方法 |
WO2012009047A1 (en) * | 2010-07-12 | 2012-01-19 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
CN103456312A (zh) * | 2013-08-29 | 2013-12-18 | 太原理工大学 | 一种基于计算听觉场景分析的单通道语音盲分离方法 |
-
2014
- 2014-06-20 CN CN201410281239.0A patent/CN104064197B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801326A (zh) * | 2004-12-31 | 2006-07-12 | 中国科学院自动化研究所 | 利用增益自适应提高语音识别率的方法 |
CN101404160A (zh) * | 2008-11-21 | 2009-04-08 | 北京科技大学 | 一种基于音频识别的语音降噪方法 |
WO2012009047A1 (en) * | 2010-07-12 | 2012-01-19 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
CN103456312A (zh) * | 2013-08-29 | 2013-12-18 | 太原理工大学 | 一种基于计算听觉场景分析的单通道语音盲分离方法 |
Non-Patent Citations (1)
Title |
---|
李鹏等: "一种改进的单声道混合语音分离方法", 《自动化学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073856A (zh) * | 2016-11-14 | 2018-05-25 | 华为技术有限公司 | 噪音信号的识别方法及装置 |
CN106504756A (zh) * | 2016-12-02 | 2017-03-15 | 珠海市杰理科技股份有限公司 | 嵌入式语音识别系统及方法 |
CN106504756B (zh) * | 2016-12-02 | 2019-05-24 | 珠海市杰理科技股份有限公司 | 嵌入式语音识别系统及方法 |
CN109616100A (zh) * | 2019-01-03 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 语音识别模型的生成方法及其装置 |
CN109616100B (zh) * | 2019-01-03 | 2022-06-24 | 百度在线网络技术(北京)有限公司 | 语音识别模型的生成方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104064197B (zh) | 2017-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
Chapaneri | Spoken digits recognition using weighted MFCC and improved features for dynamic time warping | |
WO2014153800A1 (zh) | 语音识别系统 | |
CN102915742A (zh) | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 | |
CN102982801A (zh) | 一种用于鲁棒语音识别的语音特征提取方法 | |
Wanli et al. | The research of feature extraction based on MFCC for speaker recognition | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
Ganapathy et al. | Feature extraction using 2-d autoregressive models for speaker recognition. | |
CN104064196B (zh) | 一种基于语音前端噪声消除的提高语音识别准确率的方法 | |
Jhawar et al. | Speech disorder recognition using MFCC | |
Wang et al. | Joint noise and mask aware training for DNN-based speech enhancement with sub-band features | |
CN106653004A (zh) | 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 | |
CN103557925B (zh) | 水下目标gammatone离散小波系数听觉特征提取方法 | |
CN104064197A (zh) | 一种基于语音帧间动态信息提高语音识别鲁棒性的方法 | |
Paliwal | On the use of filter-bank energies as features for robust speech recognition | |
CN116312561A (zh) | 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置 | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
Kumar et al. | Text dependent speaker identification in noisy environment | |
Chandra et al. | Spectral-subtraction based features for speaker identification | |
Shu-Guang et al. | Isolated word recognition in reverberant environments | |
Chougule et al. | Channel robust MFCCs for continuous speech speaker recognition | |
Abka et al. | Speech recognition features: Comparison studies on robustness against environmental distortions | |
Mehta et al. | Robust front-end and back-end processing for feature extraction for Hindi speech recognition | |
Tu et al. | Computational auditory scene analysis based voice activity detection | |
Seman et al. | Evaluating endpoint detection algorithms for isolated word from Malay parliamentary speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170517 Termination date: 20210620 |