CN106384588A

CN106384588A - 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法

Info

Publication number: CN106384588A
Application number: CN201610812111.1A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Nanjing Saturn Information Technology Co ltd
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2017-02-08
Anticipated expiration: 2036-09-08
Also published as: CN106384588B

Abstract

本发明公开一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，从含噪混响语音的倒谱特征中估计纯净语音的倒谱特征。在训练阶段，用全部语音单元的训练语音生成一个高斯混合模型(GMM：Gaussian Mixture Model)。在测试阶段，首先用训练阶段得到的GMM从含噪混响语音的特征参数中估计混响参数和噪声参数；然后，用估得的混响参数和噪声参数对纯净语音GMM的参数进行变换，得到与含噪混响语音较为匹配的测试环境GMM；最后，用估得的测试环境GMM从含噪混响语音的特征参数中估计纯净语音的特征参数。本发明可以显著减小加性背景噪声和短时室内混响对语音识别系统的影响，增强语音识别系统的环境鲁棒性。

Description

基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法

技术领域

本发明涉及到用求和卷积模型模拟短时混响环境下加性噪声和房间混响对纯净语音的影响，通过矢量泰勒级数从含噪测试语音中实时提取噪声参数和混响参数，对加性噪声和短时混响进行联合补偿，得到与测试环境较好匹配的声学模型的模型自适应方法，属于语音识别技术领域。

背景技术

语音在传输过程中不可避免地要受到加性背景噪声、线性信道失真等各种干扰的影响，因此有必要对这些干扰因素进行补偿，减小其对语音识别系统的影响，增强语音识别系统对环境的适应能力。

矢量泰勒级数是一种有效的鲁棒语音识别方法，它可以较好地逼近由加性背景噪声和线性信道失真引起的非线性环境变换关系，既可以用于前端特征补偿，也可以用于后端模型自适应。在传统的矢量泰勒级数算法中，一般假设纯净输入语音先与线性信道噪声相卷积，再与背景噪声相加，得到含噪测试语音，这与实际情况较为接近，因而该算法对加性背景噪声和信道卷积噪声可以取得较好的补偿效果。

当语音识别系统位于室内时，不仅受加性背景噪声的影响，而且还会受到室内混响的影响。此时，麦克风不仅收到由说话人发出的纯净语音和背景噪声混合得到的直达含噪语音，还会收到由房间墙壁反射得到的含噪语音的各次反射声。当混响时间较短时，由混响引起的干扰也可以看作是一种卷积噪声。但是，这种卷积噪声不同于传统的系统信道失真，它作用于由加性背景噪声引起的含噪语音，即纯净输入语音先与背景噪声相加，再与混响失真卷积。因此，短时混响环境下的矢量泰勒级数需要重新推导，这样才能对加性噪声和室内混响取得较好的补偿效果。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，用求和卷积模型模拟短时混响环境下加性噪声和房间混响对纯净语音的影响，通过矢量泰勒级数从含噪测试语音中实时提取噪声参数和混响参数，对加性噪声和短时混响进行联合补偿，得到与测试环境较好匹配的声学模型。

技术方案：一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，在室内或车内，说话人发出的纯净语音首先与背景噪声相加，得到含噪语音；然后，直达含噪语音和它的各次反射声相混合，得到含噪混响语音。在训练阶段，用全部语音单元的训练语音生成一个高斯混合模型(GMM：Gaussian Mixture Model)。在测试阶段，首先用训练阶段得到的GMM从含噪混响语音的特征参数中估计混响参数和噪声参数；然后，用估得的混响参数和噪声参数对纯净语音GMM的参数进行变换，得到与含噪混响语音较为匹配的测试环境GMM；最后，用估得的测试环境GMM从含噪混响语音的特征参数中估计纯净语音的特征参数。

具体步骤如下：

(1)在训练阶段，用全部语音单元的训练语音生成一个GMM；

(2)构建含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系：y＝Clog(exp(C^-1x)+exp(C^-1n))+h，其中n和h为分别表示加性噪声和混响失真的倒谱特征向量；

(3)用矢量泰勒级数逼近y与x之间的非线性关系，并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数，在混响估计时，假设混响时间较短且说话人的位置不变，因此h可以看作为常数；

(4)利用估得的混响参数和噪声参数对纯净训练语音GMM的参数进行变换，得到与含噪混响语音较为匹配的测试环境GMM；

(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征，估得的纯净语音倒谱特征即可用于后端声学解码和语言解码，得到识别结果。

附图说明

图1输入语音的加性噪声和混响失真模型；

图2基于矢量泰勒级数的加性噪声与短时混响的联合补偿系统的结构。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，具体步骤如下：

(1)在训练阶段，用全部语音单元的训练语音生成一个GMM；

(2)根据图1，构建含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系：y＝Clog(exp(C^-1x)+exp(C^-1n))+h，其中n和h为分别表示加性噪声和混响失真的倒谱特征向量；

(3)用矢量泰勒级数逼近y与x之间的非线性关系，并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数，在混响估计时，假设混响时间较多且说话人的位置不变，因此h可以看作为常数；

1、失真模型：

本发明假设室内只存在加性背景噪声和短时混响干扰，其模型如图1所示。说话人发出的纯净语音先与加性背景噪声混合，得到的含噪语音再与房间的各次反射声混合得到待识别的含噪混响语音。当混响时间较短(一般在30毫秒以内)且说话人的位置不变时，混响参数可以看作常数。

设含噪语音、纯净语音、加性噪声、混响噪声经过快速傅里叶变换后的幅度谱分别为y^lin、x^lin、n^lin和h^lin，则它们的关系可以表示为：

y^lin＝(x^lin+n^lin)h^lin (1)

在式(1)两边取对数，得：

logy^lin＝log(x^lin+n^lin)+logh^lin (2)

在式(2)两边取离散预先变换(DCT:Discrete Cosine Transform)，得：

C(logy^lin)＝Clog(exp(C^-1C(logx^lin))+exp(C^-1C(logn^lin)))+C(logh^lin) (3)

其中，C和C^-1分别表示DCT矩阵及其逆矩阵。

记y＝C(logy^lin)，x＝C(logx^lin)，n＝C(logn^lin)，h＝C(logh^lin)，则式(3)可表示为：

y＝Clog(exp(C^-1x)+exp(C^-1n))+h＝x+h+Clog[1+exp(C^-1(n-x))] (4)

其中，y、x、n、h分别表示含噪语音、纯净语音、加性噪声、混响噪声的倒谱特征参数。因为说话人的位置保持不变，所以h可以看作常数，只估计其均值，忽略其方差。

设μ_x和μ_n0分别为x的均值和n的初始均值，用一阶矢量泰勒级数将式(4)在点(μ_x,μ_n0)处展开，可以得到失配函数的一阶线性近似：

其中，I表示单位矩阵；和U分别为

U = C d i a g (\frac{\exp (C^{- 1} (μ_{n 0} - μ_{x}))}{1 + \exp (C^{- 1} (μ_{n 0} - μ_{x}))}) C^{- 1} - - - (7)

式(7)中，diag()表示以括号中的向量为对角元素的对角矩阵。

在式(5)两边分别取各项的均值和方差，则含噪混响语音的均值μ_y和方差Σ_y可以分别表示为：

Σ_y＝(I-U)Σ_x(I-U)^T+UΣ_nU^T (9)

其中，μ_x和μ_n分别表示x和n的均值向量；Σ_x和Σ_n分别表示x和n的协方差矩阵。

2、混响和噪声估计：

在训练阶段，用一个GMM表示纯净语音倒谱特征的分布：

b (x_{t}) = Σ_{m = 1}^{M} c_{m} {{(2 π)}^{- \frac{D}{2}} {| Σ_{x, m} |}^{- 1 / 2} \exp [- \frac{1}{2} {(x_{t} - μ_{x, m})}^{T} Σ_{x, m}^{- 1} (x_{t} - μ_{x, m})]} - - - (10)

其中，x_t表示第t帧纯净语音的倒谱特征向量；c_m、μ_x,m和Σ_x,m分别表示GMM中第m个高斯单元的混合系数、均值向量和协方差矩阵。

噪声参数μ_n、Σ_n和混响参数h通过最大似然准则和最大期望算法，从含噪语音中估计。辅助函数定义如下：

Q (\overset{&OverBar;}{λ} | λ) = \frac{1}{2} Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m} (t) [{(y_{t} - μ_{y, m})}^{T} Σ_{y, m}^{- 1} (y_{t} - μ_{y, m}) - l o g | Σ_{y, m}^{- 1} |] - - - (11)

其中，γ_m(t)＝P(m|y_t,λ)表示给定GMM的先验参数集λ，第t帧观测向量y_t属于GMM第m个高斯单元的后验概率；表示GMM均值和方差更新后的模型参数。

对GMM的第m个高斯单元，式(8)可以写为：

其中，W_m＝[I,U_m]，U_m、由式(6)和(7)决定。将式(12)代入式(11)，并求辅助函数关于的偏导数：

令式(13)等于零，即可得到均值的计算公式：

在倒谱域，特征向量各维之间的相关性较小，Σ_x,m、Σ_n和Σ_y,m均可近似为对角矩阵。因此，对GMM的第m个高斯单元，式(9)可以重写为：

σ_y,m＝(V_m·V_m)σ_x,m+(U_m·U_m)σ_n (15)

其中，σ_y,m、σ_x,m和σ_n分别为Σ_y,m、Σ_x,m和Σ_n的对角元素列向量；符号·表示矩阵的点乘，即两个同维度矩阵的对应元素分别相乘；V_m＝I-U_m。

令η_y，m＝(σ_y，m)^-1，辅助函数对σ_n的偏导数可以表示为：

\begin{matrix} \frac{\partial Q (\overset{&OverBar;}{λ} | λ)}{\partial σ_{n}} = Σ_{m = 1}^{M} \frac{\partial η_{y, m}}{\partial σ_{n}} \frac{\partial Q (\overset{&OverBar;}{λ} | λ)}{\partial η_{y, m}} \\ = Σ_{m = 1}^{M} \frac{\partial η_{y, m}}{\partial σ_{n}} Σ_{t = 1}^{T} γ_{m} (t) [(y_{t} - μ_{y, m}) \cdot (y_{t} - μ_{y, m}) - (V_{m} \cdot V_{m}) σ_{x, m} - (U_{m} \cdot U_{m}) σ_{n}] \end{matrix} - - - (16)

其中，

\frac{\partial η_{y, m}}{\partial σ_{n}} \approx - G_{m 0} = - (U_{m}^{T} \cdot U_{m}^{T}) d i a g [{((V_{m} \cdot V_{m}) σ_{x, m} + (U_{m} \cdot U_{m}) σ_{n 0})}^{- 2}] - - - (17)

式(17)中，σ_n0表示噪声方差σ_n的初值，第一次迭代时一般设为全1的向量；G_m0是一种加权因子，无具体含义，只是为了简化表达式而引入的符号。

将式(17)代入式(16)，并令该导数等于零，可以得到噪声方差σ_n的估计公式：

σ_{n} = {[Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m} (t) G_{m 0} (U_{m} \cdot U_{m})]}^{- 1} [Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{m} (t) G_{m 0} ((y_{t} - μ_{y, m}) \cdot (y_{t} - μ_{y, m}) - (V_{m} \cdot V_{m}) σ_{x, m})] - - - (18)

3、模型变换：

从含噪混响语音的倒谱特征参数中估得噪声参数μ_n、σ_n和混响参数h后，即可用式(12)和(15)对纯净语音GMM每个高斯单元的均值和方差进行变换，得到与含噪混响语音匹配的测试环境GMM。

4、纯净语音估计：

得到测试环境GMM后，纯净语音的倒谱特征向量用下式进行估计：

{\hat{x}}_{t} = E (x_{t} | y_{t}) \approx y_{t} - h - Σ_{m = 1}^{M} {\overset{&OverBar;}{γ}}_{m} (t) (C l o g (1 + \exp (C^{- 1} (μ_{n} - μ_{x, m})))) - - - (19)

其中，表示给定测试环境GMM的参数集第t帧观测向量y_t属于该GMM第m个高斯单元的后验概率。

Claims

1.一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，其特征在于，包括如下步骤：

(1)在训练阶段，用全部语音单元的训练语音生成一个GMM；

(2)用n和h为分别表示加性噪声和混响失真的倒谱特征向量，则含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系可以表示为y＝Clog(exp(C^-1x)+exp(C^-1n))+h，其中C和C^-1分别表示DCT矩阵及其逆矩阵；

(3)用矢量泰勒级数逼近y与x之间的非线性关系，并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数，在混响估计时，令h为常数；

(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征。

2.如权利要求1所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，其特征在于，含噪混响语音的倒谱均值μ_y可以表示为其中μ_n和μ_n0分别表示n的均值和初值均值，这里diag()表示以括号中的向量为对角元素的对角矩阵。

3.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，其特征在于，含噪混响语音的方差Σ_y可以分别表示为Σ_y＝(I-U)Σ_x(I-U)^T+UΣ_nU^T，其中I表示单位矩阵，Σ_x和Σ_n分别表示x和n的协方差矩阵。

4.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，其特征在于，设高斯混合模型有M个高斯单元，W_m＝[I,U_m]，则混响失真h和加性噪声的均值μ_n的估计公式为其中γ_m(t)＝P(m|y_t,λ)表示给定GMM的先验参数集λ，第t帧观测向量y_t属于GMM第m个高斯单元的后验概率；表示GMM均值和方差更新后的模型参数。

5.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，其特征在于，设则噪声方差Σ_n的对角向量σ_n的估计公式为

6.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法，其特征在于：纯净语音的倒谱特征向量的估计公式为

其中，第t帧观测向量y_t属于测试环境GMM第m个高斯单元的后验概率。