CN104464728A

CN104464728A - 基于gmm噪声估计的语音增强方法

Info

Publication number: CN104464728A
Application number: CN201410704574.7A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2015-03-25

Abstract

本发明公开一种基于高斯混合模型(GMM：Gaussian Mixture Model)噪声估计的语音增强方法，用GMM估计背景噪声和谱减系数，对含噪语音进行谱减，恢复纯净语音。首先，含噪语音经过预处理得到含噪语音的幅度和相位，幅度用于噪声估计和谱减，相位用于恢复时域信号；然后利用GMM从含噪语音中实时估计噪声参数和纯净语音倒谱特征，并根据估得的纯净语音倒谱特征计算谱减系数；最后，对含噪语音的频谱进行谱减，恢复时域信号，并用重叠相加法得到增强后的语音。本发明可以显著提高语音增强算法对非平稳噪声的跟踪能力。

Description

基于GMM噪声估计的语音增强方法

技术领域

本发明属于语音识别技术领域，具体涉及到用高斯混合模型(GMM：Gaussian Mixture Model)估计背景噪声和谱减系数，对含噪语音进行谱减，恢复纯净语音的语音增强方法。

背景技术

在实际应用中，语音通信不可避免地会受到环境噪声的干扰。为了减小噪声对语音信号的影响，在语音通信中，需要采用某些方法抑制噪声干扰，增强有用语音信号，增加语音的可懂度，这些方法就是语音增强。根据语音通道的个数，语音增强可以分为单通道语音增强、双通道语音增强和多通道语音增强。虽然双通道和多通道语音增强可以取得更好的增强效果，但是在很多情况下，只有一路语音信号可用，因此单通道语音增强的研究仍然具有重要的意义。

谱减法是一种基于短时谱估计的单通道语音增强方法，具有运算量小、易于实现的特点，因而受到广泛应用。在谱减法中，根据非语音段估得的噪声频谱均值，从含噪语音频谱中减去噪声频谱均值，即可得到纯净语音频谱。由于噪声的频谱是一个随机变量，在非语音段，只能估计其均值；对语音段的每一帧频谱，由于无法获得噪声频谱的分布信息，只能减去噪声频谱的均值，这就导致谱减后的语音存在较多的残留噪声，与实际纯净语音相差较大。因此，在谱减法中，通常设置谱减系数，其设置原则为：在纯噪声频段，谱减系数较大，减去较多的噪声；在含有语音的频段，谱减系数较小，避免损伤语音。

噪声估计一直是谱减法语音增强的关键技术之一，一般通过对语音间隙期的噪声功率谱进行平滑得到噪声频谱的均值。然而，环境噪声往往是非平稳的，在语音段，噪声的类型或强度也有可能发生变化，因此噪声估计不能仅仅局限于语音间隙期，在语音存在期间也应该连续更新噪声。目前，逐帧估计噪声的主要方法是搜索一段时间内含噪语音频谱的最小值，用含噪语音频谱的最小值代表噪声频谱大小。这种方法的主要缺点是噪声估计存在一定的延迟，无法实时跟踪非平稳噪声。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于高斯混合模型(GMM)噪声估计的语音增强方法。

技术方案：一种基于GMM噪声估计的语音增强方法，首先，含噪语音经过预处理得到含噪语音的幅度和相位，幅度用于噪声估计和谱减，相位用于恢复时域信号；然后利用GMM从含噪语音中实时估计噪声参数和纯净语音MFCC(Melfrequency cepstral coefficient)，并根据估得的纯净语音特征MFCC计算谱减系数；最后，对含噪语音的频谱进行谱减，恢复时域信号，并用重叠相加法得到增强后的语音。

方法的具体过程如下：

(1)对含噪语音进行预处理，包括加窗、分帧和FFT(Fast FourierTransform)，并将每帧信号的频谱分为幅度部分和相位部分；

(2)根据含噪语音幅度谱，提取含噪语音MFCC；

(3)利用训练阶段生成的GMM从含噪语音MFCC中估计噪声的均值和方差，在噪声估计中不区分非语音帧和语音帧；

(4)利用估得的噪声参数对GMM的均值和方差进行变换，使之与当前环境相匹配，并用最小均方误差算法估计纯净语音MFCC；

(5)将估得的纯净语音MFCC变换到线性谱域，计算人耳的掩蔽阈值，得到每个离散数字频率k处的掩蔽阈值T(k)，并根据T(k)计算谱减系数；

(6)对每帧含噪语音进行端点检测，判断其是语音帧还是非语音帧；

(7)根据估得的噪声均值和谱减系数，对语音帧的含噪语音频谱进行幅度谱减，得到增强后的语音幅度谱；

(8)对非语音帧的幅度谱进行处理，一般只需要乘以一个较小的系数即可，系数值一般取0.01；

(9)对增强后的每帧信号进行IFFT(Inverse FFT)运算，得到每帧时域信号，在进行IFFT运算时，相位采用该帧含噪语音的相位；

(10)对语音全部帧的时域信号进行重叠相加，得到增强后的语音。

本发明采用上述技术方案，具有以下有益效果：在本发明的语音增强方法中，噪声估计不局限于语音间隙期的静音段，而是通过GMM模型逐帧估计噪声参数，不区分静音段和语音段，无需端点检测算法。因此，在非平稳环境中，基于GMM噪声估计的语音增强方法可以更好地跟踪环境噪声的变化，得到更加准确的纯净语音信号，优于传统的语音增强算法。

附图说明

图1为本发明实施例的方法流程图，该方法主要包括语音预处理、特征提取、噪声参数估计、纯净语音估计、谱减系数估计、端点检测、语音帧谱减、非语音帧处理、IFFT和重叠相加10个模块。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于GMM噪声估计的语音增强方法主要包括噪声估计、谱减系数估计、语音帧谱减、非语音帧处理等模块。下面逐一详细说明附图中各模块的具体实施方案。

1、语音预处理：

对含噪语音进行预处理，包括加窗、分帧和FFT。窗函数一般采用海明窗；分帧时，前后帧之间一般有部分采样点重叠；FFT的点数由采样频率决定，使每帧信号的持续时间在20毫秒左右。含噪语音经过预处理，可以得到其幅度谱和相位谱，幅度谱用于噪声估计和谱减，相位谱用于在后端恢复时域信号。一般认为相位对听觉系统的影响很小，可以直接用含噪语音的相位作为纯净语音的相位。

2、特征提取：

用标准MFCC提取算法，从含噪语音幅度谱中为每帧信号提取特征参数，得到含噪语音MFCC。

3、噪声参数估计：

在训练阶段，用一个GMM表示纯净语音特征向量的空间分布：

b (x_{t}) = Σ_{m = 1}^{M} c_{m} {{(2 π)}^{- D / 2} | Σ_{x, m} |^{- 1 / 2} \exp [- \frac{1}{2} {(x_{t} - μ_{x, m})}^{T} Σ_{x, m}^{- 1} (x_{t} - μ_{x, m})]} - - - (1)

其中，x_t表示第t帧纯净训练语音倒谱特征向量(MFCC)；c_m，μ_x,m和Σ_x,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵。

在倒谱域，含噪语音特征向量y与纯净语音特征向量x的关系可以表示为：

y＝x+Clog(1+exp(C^-1(n-x))) (2)

其中，n表示加性噪声倒谱特征向量，C和C^-1分别表示离散余弦变换(DCT:Discrete Cosine Transform)矩阵及其逆矩阵。将式(2)以x的均值μ_x和n的初始均值μ_n0为定点，用一阶VTS(Vector Taylor Series)展开，得到：

其中，I表示单位矩阵，和U为：

U = Cdiag (\frac{\exp (C^{- 1} (μ_{n 0} - μ_{x}))}{1 + \exp (C^{- 1} (μ_{n 0} - μ_{x}))}) C^{- 1} - - - (5)

式(5)中，diag()表示以括号中的向量元素为对角元素，生成对角矩阵。

在式(3)的两边取均值和方差，可以得到：

Σ_y＝(I-U)Σ_x(I-U)^T+UΣ_nU^T (7)

其中，μ_y、μ_x和μ_n分别表示含噪语音y、纯净语音x和加性噪声n的均值向量，Σ_y、Σ_x和Σ_n分别表示它们的协方差矩阵。

对GMM的第m个高斯单元，式(6)和式(7)表示为：

σ_y,m＝(V_m·V_m)σ_x,m+(U_m·U_m)σ_n (9)

其中，V_m＝I-U_m，σ_y,m、σ_x,m和σ_n分别表示Σ_y,m、Σ_x,m和Σ_n的对角元素向量。

将式(8)和式(9)分别代入辅助函数，即可得到噪声参数μ_n和σ_n的最大似然估计：

\begin{matrix} σ_{n} = [Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m} (t) G_{m} (U_{m} \cdot U_{m})]^{- 1} [Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m} (t) G_{m} ((y_{t} - μ_{y, m}) \cdot (y_{t} - μ_{y, m}) - (V_{m} \cdot V_{m}) σ_{x, m})] \\ (11) \end{matrix}

其中，γ_m(t)＝P(k_t＝m|y_t,λ)表示给定GMM的先验参数λ时，第t帧含噪语音特征向量y_t属于GMM第m个高斯单元的后验概率；G_m由下式给出：

G_{m} = (U_{m}^{T} \cdot U_{m}^{T}) diag [{((V_{m} \cdot V_{m}) σ_{x, m} + (U_{m} \cdot U_{m}) σ_{n 0})}^{- 2} - - - (12)

式(12)中，σ_n0为σ_n的初值。

4、纯净语音估计：

估得噪声参数μ_n和σ_n后，首先用式(8)和式(9)对GMM的均值和方差进行参数变换，设μ_y,m和σ_y,m分别表示GMM第m个高斯单元的含噪语音均值和方差；然后用含噪语音参数μ_y,m和σ_y,m计算当前测试语音属于GMM第m个高斯单元的后验概率最后用下式得到纯净语音特征向量的最小均方误差估计

{\hat{x}}_{t} = E (x_{t} | y_{t}) \approx y_{t} - Σ_{m = 1}^{M} {\overset{&OverBar;}{γ}}_{m} (t) (C \log (1 + \exp (C^{- 1} (μ_{n} - μ_{x, m})))) - - - (13)

5、谱减系数估计：

虽然是估得的纯净语音，但并不能将其恢复到时域，作为增强后的语音，因为它丢失了说话人的信息。本发明将从倒谱域转换到线性谱域，计算人耳的掩蔽阈值，得到每个离散数字频率k处的掩蔽阈值T(k)，然后根据下式估计离散数字频率k处的过减系数α(k)和噪声保留系数β(k)：

α (k) = \max ([σ_{0} - \frac{T (k)}{N (k)}, 1) - - - (14)

β (k) = β_{0} \times \frac{α (k)}{α_{0}} - - - (15)

其中，常数α₀通常取6，β₀的值通常在0.01～0.03之间，函数max()表示取括号中最大的值。

6、端点检测：

对每帧含噪语音进行端点检测，判断其是语音帧还是非语音帧。端点检测一般采用自相关函数法或谱熵法，以便进行逐帧判断。

7、语音帧谱减：

得到过减系数α(k)、噪声保留系数β(k)和噪声的均值N(k)后，即可根据下式对含噪语音幅度谱进行谱减运算：

{| \hat{X} (k) |}^{2} = \{\begin{matrix} | Y (k) |^{2} - α (k) N (k), & | Y (k) |^{2} &GreaterEqual; α (k) N (k) \\ β (k) N (k), & | Y (k) |^{2} < α (k) N (k) \end{matrix} - - - (16)

其中，表示纯净语音幅度谱的估计值，|Y(k)²表示含噪语音的幅度谱。

8、非语音帧处理：

对非语音帧的噪声信号，按下式进行处理：

{| \hat{X} (k) |}^{2} = β_{1} {| Y (k) |}^{2} - - - (17)

其中，β₁为非语音帧的噪声保留系数，通常取0.01。

9、IFFT：

将含噪语音相位作为纯净语音相位，与纯净语音幅度谱的估计值相乘，得到纯净语音的完整频谱，并对其进行IFFT运算，得到时域信号。

10、重叠相加：

将IFFT得到的每帧信号的时域信号进行重叠相加，得到增强后的语音。

Claims

1.一种基于GMM噪声估计的语音增强方法，其特征是用GMM从含噪语音中实时估计噪声参数和纯净语音特征参数，并根据估得的纯净语音特征参数计算谱减系数，对含噪语音的频谱进行谱减，恢复时域信号，得到增强后的语音；

具体包括：

(1)利用一个含有多个高斯单元的GMM描述纯净语音特征向量的分布，在训练阶段用纯净训练语音的特征向量训练生成该GMM；

(2)用于谱减的噪声均值通过GMM从含噪语音特征向量中实时估计，在噪声估计中，不区分语音帧和非语音帧，而是逐帧更新噪声的均值；

(3)在噪声参数估计中，除估计噪声均值外，还估计噪声的方差；

(4)利用估得的噪声均值和方差对GMM的均值和方差进行变换，使之与当前环境相匹配，并用最小均方误差算法估计纯净语音特征向量；

(5)将估得的纯净语音特征向量变换到线性谱域，计算人耳的掩蔽阈值，得到每个离散数字频率处的掩蔽阈值，并根据掩蔽阈值计算谱减系数；

(6)根据估得的噪声均值和谱减系数，对语音帧的含噪语音频谱进行幅度谱减，得到增强后的语音幅度谱，对非语音帧的噪声幅度谱乘以一个较小的噪声保留系数。

2.根据权利要求1所述的一种基于GMM噪声估计的语音增强方法，其特征在于：噪声的均值和方差通过最大期望算法和最大似然准则从若干帧含噪语音或噪声中估计，用于噪声估计的信号包括当前帧及其之前的若干帧，帧数一般取20～30帧。

3.根据权利要求1所述的一种基于GMM噪声估计的语音增强方法，其特征在于：纯净语音估计中得到纯净语音特征向量不直接作为增强后的语音，而是根据其计算人耳的掩蔽阈值，根据掩蔽阈值计算谱减法的过减系数和噪声保留系数。

4.根据权利要求1所述的一种基于GMM噪声估计的语音增强方法，其特征在于：谱减法的过减系数α(k)根据下式计算：

α (k) = \max ([α_{0} - \frac{T (k)}{N (k)}], 1)

其中，k为离散数字频率，T(k)为掩蔽阈值，N(k)为噪声均值，α₀为常数，α(k)为离散数字频率k处的过减系数。