CN108053835A

CN108053835A - 一种基于通道泰勒级数的噪声估计方法

Info

Publication number: CN108053835A
Application number: CN201711112773.9A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Nanjing Saturn Vision Technology Co ltd
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-05-18
Anticipated expiration: 2037-11-13
Also published as: CN108053835B

Abstract

本发明公开一种基于通道泰勒级数(CTS:Channel Taylor Series)的噪声估计方法，首先从纯净训练语音中提取美尔频率对数谱系数(MFLC：Mel Frequency Logarithm Coefficients)；然后用所有语音单元的纯净MFLC训练生成一个高斯混合模型；最后，在每个Mel通道上用CTS逼近含噪测试语音与纯净训练语音之间的非线性关系，对纯净高斯混合模型的参数进行变换，得到含噪测试语音的噪声参数。本发明将传统噪声估计的矩阵运算简化为标量运算，可以在保证参数估计精度的前提下，显著减小系统的运算复杂度。

Description

一种基于通道泰勒级数的噪声估计方法

技术领域

本发明属于语音处理领域，具体涉及到在对数谱域提取语音信号的特征参数，通过高斯混合模型的参数自适应在每个Mel通道上估计环境噪声的均值和方差的噪声估计方法。

背景技术

在语音通信、语音识别等语音处理领域，环境噪声对语音的影响往往是不可避免的，这会导致语音质量的下降，影响语音处理系统的性能。

对测试环境下提取的含噪语音特征进行增强或者补偿，是提高语音质量的有效手段之一。而噪声参数的估计是语音增强和特征补偿的关键技术。在平稳的噪声环境中，可以在语音的间隙期提取噪声的均值和方差。然而，在实际应用中，环境噪声往往是非平稳的，需要在语音持续期间实时跟踪环境噪声参数的变化。

基于矢量泰勒级数(VTS:Vector Taylor Series)的特征补偿是一种有效的鲁棒语音识别技术，它可以从含噪语音中提取噪声的倒谱域均值向量和协方差矩阵，对预先训练得到的纯净语音高斯混合模型(GMM:Gaussian Mixture Model)进行参数变换，得到与测试环境相匹配的含噪语音GMM。但是，VTS噪声估计在倒谱域进行，涉及较为复杂的矩阵运算，计算量较大，这会影响其在移动终端等设备上的应用。

发明内容

本发明设计了一种基于通道泰勒级数(CTS:Channel Taylor Series)的噪声估计方法。在该方法中，首先从纯净训练语音中提取美尔频率对数谱系数(MFLC：Mel FrequencyLogarithm Coefficients)；然后用所有语音单元的纯净MFLC训练生成一个高斯混合模型；最后，在每个Mel通道上用CTS逼近含噪测试语音与纯净训练语音之间的非线性关系，对纯净高斯混合模型的参数进行变换，得到含噪测试语音的噪声参数。

本发明的具体步骤如下：

(1)对每帧纯净训练语音的幅度谱进行Mel滤波，并取对数，得到纯净训练语音的MFLC；

(2)用所有语音单元的纯净MFLC训练生成一个协方差矩阵为对角阵的高斯混合模型；

(3)对每帧含噪测试语音的幅度谱进行Mel滤波，并取对数，得到含噪测试语音的MFLC；

(4)在每个Mel通道上用通道泰勒级数(CTS)逼近含噪测试语音与纯净训练语音之间的非线性关系，构建纯净训练语音、环境噪声和含噪测试语音之间的CTS关系式；

(5)用CTS关系式对纯净语音高斯混合模型进行参数自适应，从含噪测试语音中估计噪声的均值向量和协方差矩阵。

附图说明

图1为基于通道泰勒级数的噪声估计系统的总体框架，主要包括特征提取、模型训练和CTS噪声估计模块。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于通道泰勒级数的噪声估计方法主要包括训练阶段的特征提取、模型训练、测试阶段的特征提取和CTS噪声估计模块。下面逐一详细说明附图中各主要模块的具体实施方案。

1、特征提取

首先对加窗、分帧后的纯净训练语音或含噪测试语音进行快速傅里叶变换(FFT:FastFourierTransform)，得到每帧信号的幅度谱；然后，对每帧信号的幅度谱进行Mel滤波，并取对数，得到纯净训练语音或含噪测试语音的MFLC。

2、模型训练

用全部训练语音的MFLC进行训练，生成协方差矩阵都是对角阵的高斯混合模型：

其中，x_t(k)表示第t帧纯净语音对数谱特征向量(MFLC)x_t在第k个Mel通道上的系数；c_m(k)、u_x,m(k)和S_x,m(k)分别表示该GMM的第m个高斯单元的混合系数、均值向量和协方差矩阵在第k个Mel通道上的系数。

3、CTS噪声估计

假设纯净语音与加性噪声是统计独立的，则在对数谱域，加性噪声对纯净语音的影响可用如下失配函数来描述：

y＝log[exp(x)+exp(n)] (2)

其中，y、x和n分别表示含噪语音、纯净语音和加性噪声的对数谱特征向量(MFLC)。

为了从含噪语音中快速估计出噪声参数，减小计算复杂度，增强算法的实时性，这里假设语音和噪声在不同的Mel通道上互相独立，在每个Mel通道上独立估计噪声，将传统VTS的矩阵运算简化为标量运算。第k个Mel通道上的失配函数可以表示为：

y(k)＝log[exp(x(k))+exp(n(k))] (3)

其中，y(k)、x(k)和n(k)分别表示y、x和n在第k个Mel通道上的系数。

设u_x(k)和u_n0(k)分别为x(k)的均值和n(k)的初始均值，用一阶泰勒级数将式(3)在点(u_x(k),u_n0(k))处展开，可以得到失配函数的如下一阶CTS近似：

其中，和φ(k)的表达式分别为：

φ(k)＝log[exp(u_x(k))+exp(u_n0(k))] (6)

在式(4)两边分别取各项的均值和方差，则含噪语音在第k个Mel通道上的均值u_y(k)和方差S_y(k)可以分别表示为：

其中，u_n(k)表示n(k)的均值；S_x(k)和S_n(k)分别表示x(k)和n(k)的方差。

噪声参数u_n(k)和S_n(k)通过最大似然准则和最大期望算法，从含噪语音y(k)中估计。辅助函数定义如下：

其中，γ_m(t,k)＝P(m|y_t(k),λ_k)表示给定GMM的先验参数集λ_k，第t帧观测向量y_t(k)属于GMM第m个高斯单元的后验概率；表示GMM均值和方差更新后的模型参数。

对GMM的第m个高斯单元，式(7)和(8)可以重写为：

将式(10)代入式(9)，并求辅助函数关于u_n(k)的偏导数：

令式(12)等于零，即可得到噪声均值u_n(k)的计算公式：

将式(11)代入式(9)，并求辅助函数关于S_n(k)的偏导数：

其中，g_m(k)的表达式为

令式(14)等于零，即可得到噪声方差S_n(k)的计算公式：

Claims

1.一种基于通道泰勒级的噪声估计方法，其特征在于，在每个Mel通道上用CTS逼近含噪测试语音与纯净训练语音之间的非线性关系，用高斯混合模型从含噪语音中估计该Mel通道的噪声参数。

2.根据权利要求1所述的一种基于通道泰勒级数的噪声估计方法，其特征在于，具体包括：

(1)对每帧纯净训练语音的幅度谱进行Mel滤波，并取对数，得到纯净训练语音的美尔频率对数谱系数MFLC；

(2)用所有语音单元的纯净MFLC训练生成一个协方差矩阵都是对角矩阵的高斯混合模型；

(5)用CTS关系式对纯净语音高斯混合模型进行参数自适应，从含噪测试语音中估计每个Mel通道上的噪声的均值和方差。

3.根据权利要求2所述的一种基于通道泰勒级数的噪声估计方法，其特征在于，噪声参数的估计在对数谱域进行，每个Mel通道的噪声参数独立估计，将传统噪声估计的矩阵运算简化为标量运算，显著减小了系统的运算复杂度。

4.根据权利要求2所述的一种基于通道泰勒级数的噪声估计方法，其特征在于，

<mrow> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>c</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>{</mo> <msup> <mrow> <mo>(</mo> <mn>2</mn> <mi>&pi;</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> <msup> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> <mi>exp</mi> <mo>&lsqb;</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>u</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msubsup> <mi>S</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>m</mi> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>