CN106373559A

CN106373559A - 一种基于对数谱信噪比加权的鲁棒特征提取方法

Info

Publication number: CN106373559A
Application number: CN201610808691.7A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2017-02-01
Anticipated expiration: 2036-09-08
Also published as: CN106373559B

Abstract

本发明公开一种基于对数谱信噪比加权的鲁棒特征提取方法，首先，对输入语音进行声学预处理、短时谱估计和Mel滤波，得到每一帧的短时Mel子带谱；再利用改进的对数函数对Mel子带谱进行非线性变换，得到对数谱，同时从Mel子带谱中估计输入语音的对数谱域信噪比；然后，利用估得的对数谱域后验信噪比对输入语音的对数谱进行加权，得到加权对数谱；最后，对加权对数谱进行离散余弦变换并作时域差分，得到输入语音的特征参数。本发明提高了噪声环境中提取的特征参数的环境鲁棒性，减小加性噪声对语音识别系统的影响，具有计算量较小、易于实时实现的优点。

Description

一种基于对数谱信噪比加权的鲁棒特征提取方法

技术领域

本发明涉及利用改进的对数函数对语音的Mel谱进行非线性变换，用对数谱后验信噪比对非线性变换后的对数谱进行加权，减小噪声对语音识别系统影响的鲁棒特征提取方法，属于语音识别技术领域。

背景技术

由于语音信号具有变异性，实际环境中的语音识别系统的识别性能可能会急剧恶化。加性背景噪声、线性信道失真和说话人的改变是导致语音变异的最重要的因素。一般可以从三个方面减小语音失配的影响：一是提取对噪声不敏感的抗噪声特征参数；二是从含噪语音中估计纯净语音特征，使之与纯净训练语音的声学模型相匹配；三是调整预先训练的声学模型的参数，使其与当前测试环境相匹配。

目前的语音识别系统多数以美尔频率倒谱系数(MFCC：Mel Frequency CepstralCoefficients)为语音的特征参数。作为声学特征，倒谱参数有两个优点：首先，倒谱参数的高维部分包含的有效信息较少，可以忽略部分高维系数，进一步减少特征向量维数；其次，倒谱特征向量各维之间的相关性较小，因此在后端声学建模时一般不考虑各维之间的相关性，取对角协方差矩阵即可，这可以大大减小后端处理的计算量。在实验室安静的环境中，MFCC可以很好地收集纯净语音的频谱特征，因而可以取得很高的识别率。然而，由于语音变异性的影响，在实际环境中提取的特征参数的特性与纯净训练语音可能存在较大的差异，这会导致系统性能的下降，甚至不可用。虽然基于模型的特征补偿和模型自适应可以较好地对语音变形进行补偿，减小环境失配的影响，但是它们的算法一般较为复杂，运算量较大，因而难以应用在计算能力较小的手持终端中。

MFCC的一个主要缺点是对加性噪声非常敏感，这是因为传统MFCC直接用自然底数的对数对Mel滤波后的子带谱进行非线性压缩。对数函数对较小的输入值非常敏感，较小的输入变化就会导致输出的极大振荡。而在MFCC中，较小的输入值正是能量较小的Mel子带语音，它们极易受到加性噪声的影响。因此，有必要研究对加性背景噪声更加鲁棒的声学特征，以提高语音识别系统的环境鲁棒性，增强其实际应用能力。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于对数谱信噪比加权的鲁棒特征提取方法，利用改进的对数函数对语音的Mel谱进行非线性变换，用对数谱后验信噪比对非线性变换后的对数谱进行加权，减小加性噪声对语音识别系统的影响。

技术方案：一种基于对数谱信噪比加权的鲁棒特征提取方法，首先，对输入语音进行声学预处理、短时谱估计和Mel滤波，得到每一帧的短时Mel子带谱；再利用改进的对数函数对Mel子带谱进行非线性变换，得到对数谱，同时从Mel子带谱中估计输入语音的对数谱域信噪比；然后，利用估得的对数谱域后验信噪比对输入语音的对数谱进行加权，得到加权对数谱；最后，对加权对数谱进行离散余弦变换(DCT:Discrete Cosine Transform)并作时域差分，得到输入语音的特征参数。

具体步骤如下：

(1)在声学预处理阶段对输入语音进行加窗、分帧，将输入语音分解为若干帧信号；

(2)对每一帧训练语音进行FFT运算，得到每帧信号的幅度谱；

(3)采用传统MFCC中的Mel滤波器组对每帧信号的幅度谱进行滤波，得到每帧信号的Mel子带谱；

(4)用改进的对数函数对Mel子带谱进行非线性变换，得到输入语音的对数谱g；

(5)用最小统计方法(Minimum Statistics)从输入语音的子带谱中估计噪声的均值，并将其变换到对数谱域，估计输入语音的对数谱域后验信噪比；

(6)用估得的对数谱域后验信噪比对非线性变换后的对数谱进行加权，减小加性背景噪声对语音特征参数的影响；

(7)对加权后的对数谱进行离散预先变换，得到语音的倒谱参数，并只保留倒谱参数的低13维系数，忽略其高维系数；

(8)对DCT后的静态倒谱特征作一阶差分和二阶差分，得到动态倒谱参数，静态参数和动态参数共同组成语音的39维倒谱特征向量。

本发明采用上述技术方案，具有以下有益效果：本发明可以提高噪声环境中提取的特征参数的环境鲁棒性，减小加性噪声对语音识别系统的影响，具有计算量较小、易于实时实现的优点。

附图说明

图1为基于对数谱信噪比加权的鲁棒特征提取框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于对数谱信噪比加权的鲁棒特征提取方法，主要包括预处理、短时谱估计、Mel滤波、非线性变换、信噪比估计、对数信噪比加权、DCT和时域差分模块。下面逐一详细说明附图中各模块的具体实施方案。

1、预处理：

在语音预处理阶段，对输入语音进行加窗，分帧，得到帧信号s。窗函数采用海明窗；分帧时，帧移长度为帧长的一半，即前后帧之间一半采样点重叠。

2、短时谱估计：

对预处理的每一帧信号s，通过快速傅里叶变换(FFT：Fast Fourier Transform)求s的幅度谱S：

S (k) = | Σ_{n = 0}^{N - 1} s (n) \exp (- j \frac{2 π k n}{N}) |, k = 0, 1, ..., N - 1 - - - (1)

其中，N为帧长，s(n)为向量s的第n维元素。

3、Mel滤波：

对每帧信号的幅度谱S，采用传统MFCC中的Mel滤波器组对每帧信号的幅度谱进行加权求和：

\overset{&OverBar;}{S} (m) = Σ_{k = 0}^{N - 1} S (k) W_{m} (k), m = 1, ..., M - - - (2)

其中，W_m(k)为Mel滤波器组第m个三角滤波器在频率k处的加权因子；M为滤波器的个数；为第m个滤波器的输出。

4、非线性变换：

在传统MFCC中，用于非线性压缩的对数函数对较小的输入值非常敏感，因此在语音能量较小的Mel子带上，噪声会引起输出的极大变化，这会导致噪声环境下提取的特征参数与纯净训练语音的声学模型严重失配。为了提高特征参数对加性噪声的鲁棒性，本发明采用如下函数对每帧信号的Mel子带谱进行非线性变换：

g = l o g (\overset{&OverBar;}{S} + 1) - - - (3)

其中，g表示对数谱特征参数。

5、信噪比估计：

本发明采用最小统计方法从输入语音的子带谱中估计噪声的均值并根据估得的计算输入语音的对数谱域后验信噪比τ：

τ = \frac{l o g (\overset{&OverBar;}{S} - \overset{&OverBar;}{n} + 1)}{l o g (\overset{&OverBar;}{n} + 1)} - - - (4)

6、对数信噪比加权：

设g_y、g_x、g_n分别表示含噪语音、纯净语音、加性噪声的对数谱特征参数，则g_y和g_x的关系可以表示为：

g_y＝log(exp(g_x)+exp(g_n)-1)＝g_x+log(1+exp(g_n-g_x)-exp(-g_x))(5)

g_x和g_y的比值η可以表示为：

η = \frac{g_{x}}{g_{y}} = \frac{g_{x}}{g_{x} + l o g (1 + \exp (g_{n} - g_{x}) - \exp (- g_{x}))} - - - (6)

当g_n＞＞g_x时，当g_n＜＜g_x时，η≈1。因此，用如下表达式近似表示η：

η \approx \frac{g_{x}}{g_{x} + g_{n}} = \frac{1}{1 + {(\frac{g_{x}}{g_{n}})}^{- 1}} - - - (7)

因为加性噪声是随机信号，所以其对数谱特征向量g_n也是随机的，因此用输入语音的对数谱域后验信噪比τ近似

η \approx \frac{1}{1 + \frac{1}{τ}} - - - (8)

用η对语音的对数谱特征g进行加权后，就可以对加性背景噪声进行抑止，近似恢复纯净语音的对数谱特征

7、DCT：

因为对数谱特征的维数较高，且各维系数的相关性较强，不利于声学解码，所以需要用DCT将输入语音的加权对数谱特征变换到倒谱域：

c (l) = \frac{2}{\sqrt{M}} Σ_{m = 1}^{M} l o g [\hat{g} (m)] c o s \frac{π (2 m - 1) l}{2 M}, l = 0, ..., L - 1 - - - (9)

其中，L是倒谱特征向量c的维数，通常取13，为向量的第m维元素。

8、时域差分：

除静态参数c外，输入语音的特征向量还包括c的一阶和二阶时域差分：

{Δc}_{t} = \frac{Σ_{τ = - T}^{T} {τc}_{t + τ}}{Σ_{τ = - T}^{T} τ^{2}} - - - (10)

{ΔΔc}_{t} = \frac{Σ_{τ = - Γ}^{Γ} {τΔc}_{t + τ}}{Σ_{τ = - Γ}^{Γ} τ^{2}} - - - (11)

其中，Τ和Γ为常数，分别表示一阶差分和二阶差分时，当前帧前后参与差分运算的帧数，c_t+τ指第t+τ帧静态向量，t+τ为帧序号。

将c_t，Δc_t和ΔΔc_t拼接，即可得到第t帧语音的39维特征向量。

Claims

1.一种基于对数谱信噪比加权的鲁棒特征提取方法，其特征在于：首先，对输入语音进行声学预处理、短时谱估计和Mel滤波，得到每一帧的短时Mel子带谱；再利用改进的对数函数对Mel子带谱进行非线性变换，得到对数谱，同时从Mel子带谱中估计输入语音的对数谱域信噪比；然后，利用估得的对数谱域后验信噪比对输入语音的对数谱进行加权，得到加权对数谱；最后，对加权对数谱进行离散余弦变换(DCT:Discrete Cosine Transform)并作时域差分，得到输入语音的特征参数。

2.如权利要求1所述的基于对数谱信噪比加权的鲁棒特征提取方法，其特征在于：具体步骤如下：

(2)对每一帧训练语音进行FFT运算，得到每帧信号的幅度谱；

3.如权利要求2所述的基于对数谱信噪比加权的鲁棒特征提取方法，其特征在于：采用如下函数对每帧信号的Mel子带谱进行非线性变换：

g = l o g (\overset{&OverBar;}{S} + 1) - - - (3)

其中，g表示对数谱特征参数；

采用最小统计方法从输入语音的子带谱中估计噪声的均值并根据估得的计算输入语音的对数谱域后验信噪比τ的估计公式为

4.如权利要求3所述的基于对数谱信噪比加权的鲁棒特征提取方法，其特征在于：设g_y、g_x、g_n分别表示含噪语音、纯净语音、加性噪声的对数谱特征参数，则g_y和g_x的关系可以表示为：

g_y＝log(exp(g_x)+exp(g_n)-1)＝g_x+log(1+exp(g_n-g_x)-exp(-g_x)) (5)

g_x和g_y的比值η可以表示为：

η = \frac{g_{x}}{g_{y}} = \frac{g_{x}}{g_{x} + l o g (1 + \exp (g_{n} - g_{x}) - \exp (- g_{x}))} - - - (6)

当g_n>>g_x时，当g_n<<g_x时，η≈1。因此，用如下表达式近似表示η：

η \approx \frac{g_{x}}{g_{x} + g_{n}} = \frac{1}{1 + {(\frac{g_{x}}{g_{n}})}^{- 1}} - - - (7)

η \approx \frac{1}{1 + \frac{1}{τ}} - - - (8)

5.如权利要求4所述的基于对数谱信噪比加权的鲁棒特征提取方法，其特征在于：用DCT将输入语音的加权对数谱特征变换到倒谱域：

c (l) = \frac{2}{\sqrt{M}} Σ_{m = 1}^{M} l o g [\hat{g} (m)] c o s \frac{π (2 m - 1) l}{2 M}, l = 0, ..., L - 1 - - - (9)

其中，L是倒谱特征向量c的维数；

{Δc}_{t} = \frac{Σ_{τ = - T}^{T} {τc}_{t + τ}}{Σ_{τ = - T}^{T} τ^{2}} - - - (10)

{ΔΔc}_{t} = \frac{Σ_{τ = - Γ}^{Γ} {τΔc}_{t + τ}}{Σ_{τ = - Γ}^{Γ} τ^{2}} - - - (11)

其中，Τ和Γ为常数，分别表示一阶差分和二阶差分时，当前帧前后参与差分运算的帧数；