CN104064197A

CN104064197A - 一种基于语音帧间动态信息提高语音识别鲁棒性的方法

Info

Publication number: CN104064197A
Application number: CN201410281239.0A
Authority: CN
Inventors: 刘明; 王明江
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2014-06-20
Filing date: 2014-06-20
Publication date: 2014-09-24
Anticipated expiration: 2034-06-20
Also published as: CN104064197B

Abstract

本发明为大规模孤立词语音识别提供了一种提高识别鲁棒性的方法。本发明的方法引入了不同语音帧之间的相关性，为语音识别的特征参数加入了动态特征。同时通过CASA方法将噪声环境下的语音进行了噪声消除，扩大了语音识别应用领域的范围。本发明待识别孤立词为10240词，实验结果表明，在将语音帧间信息作为动态参数加入到语音特征参数后，平均每个词汇的第一识别概率和第二识别概率的差值增大了30%。

Description

一种基于语音帧间动态信息提高语音识别鲁棒性的方法

技术领域

本发明涉及孤立词语音识别领域，具体涉及一种提高大规模孤立词语音识别的鲁棒性的方法。

背景技术

合理的特征参数能极大的提高语音识别的准确率和鲁棒性，因此选取语音特征参数至关重要。

语音信号的特征参数主要分成两类：第一类为时域特征参数，一帧语音信号的各个时域采样值直接构成一个向量，每个采样点实际上就是一个振幅值；第二类为时域变换频域特征向量，即对采样后的一帧语音信号进行某种变换后产生的特征参数。前者的优点在于计算简单，缺点是不能压缩维数且不适于表征幅度谱特性。与此对应，各种变换域特征向量的计算比较复杂，但能从不同的角度反映幅度谱的特征。

语音识别技术中研究和应用最广泛的特征参数是基于人的声道模型和听觉机理的线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)参数，而在低频段MFCC参数具有较高的谱分辨率，抗噪声干扰的性能优于LPCC，因此更适合于语音识别。语音的LPCC参数在语音识别中具有最广泛的应用，但特别容易受到噪声的干扰。从目前使用的情况来看，梅尔刻度倒频谱参数已基本取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，在语音识别方面表现出了更好的鲁棒性。

MFCC特征提取过程通常都做了一个很不准确的假设，即不同帧间的语音是不相关的。由于语音在时域上是连续的，基于其时域上的分出来的语音帧也应该是连续的。因此可以用前后相邻两帧的特征向量的差值和语音帧相叠来反映连续语音帧的内在关系。语音帧的倒谱系数一旦通过某种算法计算出来后，就不变的，是静态的，只能反映帧内的特性；反映帧间规律的信息是动态的，这就需要动态的特征参数，这些动态特征和静态特征组成互补，能很大程度的提高系统的识别性能。帧间动态信息可以用两种方法表示，前后两帧的MFCC参数之间的差值和前后两帧采样点的重叠。

发明内容

为解决现有技术中存在的问题，本发明为大规模孤立词语音识别提出了一种基于语音帧间动态信息的提高语音识别鲁棒性的方法，本发明通过以下技术方案实现：

一种基于语音帧间动态信息提高语音识别鲁棒性的方法，其特征在于：所述方法引入不同语音帧之间的相关性，选择梅尔倒谱系数(MFCC)进行大规模孤立词语音识别，对噪声环境下的语音采用人耳听觉机制的计算听觉场景分析(CASA)方法消除噪声，包括以下步骤：

A.对采集的语音进行分帧，帧长25ms，帧间重叠10ms，每帧400个点；

B.采用CASA方法消除噪声，具体为：

计算噪声谱的包络env_N(i,j)和语音谱的包络env_S(i,j)，采用如下公式：

env (i, j) = | Σ_{n = 0}^{N - 1} x^{i, j} (n) |

其中x^i,j(n)表示第i帧中第j个频率上的第n个采样值，N＝400；纯净语音信号的计算方法如下：

c (n, i) = Σ_{i = 1}^{I} \ln [env (i, j)] \cos [\frac{n}{π} (j - 0.5)]

其中c(n,i)表示第i帧的第n个经过噪声分离后的采样值，I表示所有的语音帧数；

C.采用如下6个过程将去噪后的语音进行处理，得到梅尔倒谱系数c_t(n)：

(1)加入汉明窗来减小帧起始处和结束处的信号的不连续性；

(2)对每一帧进行语音端点检测，得到有用的语音帧；

(3)对每一帧语音帧进行512点的FFT变换；

(4)FFT变换后的语音信号在频域上进行梅尔倒谱变换；

(5)经梅尔变换后的语音数据取对数能量；

(6)进行余弦离散变换后，再进行归一化计算得到ct(n)；

D.前后帧提取的特征向量的差值，作为一组参数代表语音帧间的动态信息，补充到MFCC参数中，计算帧间动态信息所采用的公式为如下:

&dtri; C_{t} (n) = \{\begin{matrix} C_{t} (n) - C_{t + 1} (n) & 0 \leq t < T, 0 \leq n \leq 14 \\ C_{T} (n) - C_{0} (n) & t = T, 0 \leq n \leq 14 \end{matrix}

其中，T为一个孤立词中的有效语音帧数，t代表第t帧，n代表第t帧中的第n个MFCC参数。

本发明的有益效果是：本发明为大规模孤立词语音识别提出了一种基于语音帧间动态信息的提高语音识别鲁棒性的方法，引入了不同语音帧之间的相关性，为语音识别的特征参数加入了动态特征。实验结果表明，该算法在不增加计算量的前提下，极大地提高了大规模孤立词语音识别的鲁棒性。

具体实施方式

下面结合具体实施方式对本发明进一步说明。

本发明的方法引入不同语音帧之间的相关性，选择梅尔倒谱系数(MFCC)进行大规模孤立词语音识别，对噪声环境下的语音采用人耳听觉机制的计算听觉场景分析(CASA)方法消除噪声，包括以下步骤：

1.噪声消除

A.首先对带有噪声的语音进行分帧，每帧的长度为25ms，由于采样率为16000Hz，故每帧有400个时域的采样点，前后两帧重叠10ms，即重叠160个采样点。

B.采用人耳听觉机制的场景分析技术消除噪声，得到较为纯净的语音。输入的语音一般包含噪声，可以认为是纯净语音与噪声的叠加，即可以认为是噪声和纯净语音通过两个麦克风同时输入的，因此采用场景分析技术将噪声分离出来。

env (i, j) = | Σ_{n = 0}^{N - 1} x^{i, j} (n) |

c (n, i) = Σ_{i = 1}^{I} \ln [env (i, j)] \cos [\frac{n}{π} (j - 0.5)]

其中c(n,i)表示第i帧的第n个经过噪声分离后的采样值，I表示所有的语音帧数。

2.特征参数提取

为了减小某帧起始端和上一帧结束端的信号的不连续性，需要为每一帧加上一个汉明窗。

对于一个孤立词而言，停顿时的时域信号并非是语音帧，所以要去掉非语音帧，保留有效的语音帧。本方法采用语音端点激活(VAD)算法对语音帧进行端点检测，计算语音数据中有效的语音帧数T。

对每一帧语音帧进行512点的快速傅里叶变换(FFT)，将经过FFT变换的语音帧进行梅尔(Mel)滤波，所用的梅尔滤波器组为带通滤波器。即将Mel滤波后语音数据取对数能量并进行离散余弦变换。

为了消除语音信号中信道带来的影响，将倒谱参数进行归一化，得到梅尔倒谱系数(MFCC)c_t(n)。

3.语音帧间信息提取

实际上由于发音的物理条件限制，不同帧间语音一定是相关的，变化是连续的，本方法采用前后帧提取的特征向量的差值，作为一组参数，代表语音帧间的动态信息，补充到MFCC参数中。

计算帧间动态信息所采用的公式为如下:

&dtri; C_{t} (n) = \{\begin{matrix} C_{t} (n) - C_{t + 1} (n) & 0 \leq t < T, 0 \leq n \leq 14 \\ C_{T} (n) - C_{0} (n) & t = T, 0 \leq n \leq 14 \end{matrix}

本发明所采用的MFCC参数为14维的向量，考虑到帧间信息也要加入到特征参数，故最终得到的特征参数为28维的向量。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于语音帧间动态信息提高语音识别鲁棒性的方法，其特征在于：所述方法引入不同语音帧之间的相关性，选择梅尔倒谱系数(MFCC)进行大规模孤立词语音识别，对噪声环境下的语音采用人耳听觉机制的计算听觉场景分析(CASA)方法消除噪声，包括以下步骤：。