CN1212603C

CN1212603C - 非线性谱减缺失分量估计方法

Info

Publication number: CN1212603C
Application number: CNB031274978A
Authority: CN
Inventors: 杜利民; 罗宇
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2003-08-08
Filing date: 2003-08-08
Publication date: 2005-07-27
Anticipated expiration: 2023-08-08
Also published as: CN1514431A

Abstract

一种非线性谱减缺失分量估计方法，是根据局部信噪比，估计受噪声掩蔽的语音子带特征分量的方法。该方法通过调整参数，使在信噪比较大的语音段，噪声子带特征矢量的估计更新较慢；在信噪比较低的静音段，噪声子带特征矢量的估计更新较快。因此，在信噪比较高的情况下，无论是非平稳噪声还是平稳噪声，非线性谱减缺失分量估计方法都具有良好性能。

Description

非线性谱减缺失分量估计方法

技术领域

本发明涉及到计算机技术应用技术，特别是语音识别技术中根据局部信噪比，估计语音特征矢量受噪声掩蔽的分量的非线性谱减缺失分量估计技术。

背景技术

噪声鲁棒性问题是语音识别技术目前面临的主要挑战之一，深入研究基于数据重建的语音识别鲁棒性技术，具有重要的理论意义和广泛应用价值。

当两个响度不等的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感知，使其变得不易察觉，这种现象称为掩蔽效应。根据人耳掩蔽效应，人们提出了缺失特征方法。缺失特征方法认为噪声和语音在时间～频率域上不同区域具有不同局部信噪比，并进行缺失分量估计，即把局部信噪比较低的区域标记为“缺失矢量”，而局部信噪比较高的区域标记为“可靠矢量”，然后进行语音识别。

缺失分量估计是缺失特征方法应用于鲁棒语音识别的基础，对缺失特征方法的性能有重要的影响。谱减法假设语音信号是平稳或者缓变的，并根据历史噪声功率谱估计当前噪声功率谱。谱减法可以估计出语音每个美子带内的信噪比，因此可以用于缺失分量估计。

谱减法假设噪声是平稳或者缓变的，并利用历史噪声谱估计当前噪声谱。基于谱减法的缺失分量估计方法和步骤如下：

1)假设噪声为平稳或者缓变信号，且在语音的起始部分仅仅包括了噪声。使用若干起始美子带特征的平均作为噪声子带特征矢量的估计；

2)估计在每个美子带内的局部信噪比；

首先，估计每个美子带内噪声能量：

其中，NS_i(k)表示受噪声破坏的语音第i帧美子带特征的第k个分量(对应第k个美三角子带内的受噪声破坏语音的能量)；表示噪声第i帧美子带特征的第k个分量的估计(对应第k个美三角子带内的噪声能量估计)。α，噪声更新系数，定义了根据当前信号，噪声能量估计更新速度的快慢；β，噪声门限，定义了更新噪声能量估计的信号能量门限。

然后，估计每个美子带内的局部信噪比：

{\hat{SNR}}_{i} (k) = 10 Lo g_{10} (\frac{{NS}_{i} (k) - {\hat{N}}_{i} (k)}{{\hat{N}}_{i} (k)}) - - - (2)

3)缺失分量估计：

MS K_{i} (k) = \{\begin{matrix} 1 & if & {\hat{SNR}}_{i} (k) > δ \\ 0 & if & {\hat{SNR}}_{i} (k) < = δ \end{matrix} - - - (3)

掩蔽门限δ是判断特征是否可靠的门限。δ的取值范围根据人耳掩蔽效应进行选择和调整。

基于谱减法的缺失分量估计算法根据当前输入信号能量，调整噪声谱估计，进而进行局部信噪比估计，根据局部信噪比估计完成缺失分量估计。一系列实验表明，基于谱减法的缺失分量估计算法在处理非平稳噪声时遇到了困难：如果噪声谱估计根据当前输入信号能量更新得比较快，在静音段，噪声谱能够得到较好的估计，但是在语音段，噪声谱估计受到语音谱的影响发生较大误差；如果噪声谱估计根据当前输入信号能量更新得比较慢，在语音段，噪声谱估计受到语音谱的影响较小，但是在静音段，噪声谱不能很好得到跟随和估计。

发明内容

本发明的目的是为了解决这些问题，通过调整参数，使非线性谱减缺失分量估计算法达到如下目的：在信噪比较大的语音段，α取较大值，噪声子带特征矢量的估计更新较慢；在信噪比较低的静音段，α取较小值，噪声子带特征矢量的估计更新较快。

为了达到上述目的，本发明的技术解决方案是提出一种非线性谱减缺失分量估计方法，是根据局部信噪比，估计语音受噪声掩蔽部份的缺失分量，其通过调整参数，使在信噪比较大的语音段，噪声更新系数α取较大值，噪声子带特征矢量的估计更新较慢；在信噪比较低的静音段，噪声更新系数α取较小值，噪声子带特征矢量的估计更新较快。

所述的非线性谱减缺失分量估计方法，其算法步骤包括：

第一步，噪声子带特征矢量估计：

若噪声为平稳或者缓变信号，且在语音的起始部分仅包括噪声，使用若干起始美子带特征矢量平均作为噪声矢量估计；当噪声为非平稳噪声的时候，首先对含噪语音进行基于能量的端点检测，然后，利用噪声段美子带特征矢量平均作为噪声矢量的估计；

第二步，估计在每个美子带内的局部信噪比：

根据含噪语音能量和噪声能量估计，估计新输入信号与噪声的信噪比：

S \hat{N} R = 10 lo g_{10} (\frac{{NS}_{i} - {\hat{N}}_{i - 1}}{{\hat{N}}_{i - 1}})

其中，NS_i为含噪语音能量，

为上一桢的噪声能量估计；根据信噪比估计，构造如下函数，根据新输入信号与噪声能量比估计，计算噪声更新系数α：

α = \frac{A + {[B * (S \hat{N} R - C)]}^{2 N}}{1 + {[B * (S \hat{N} R - C)]}^{2 N}}

其中，0≤A≤1，为更新范围系数，B为扩展系数，C为信噪比偏移，N为更新阶数，NS_i为含噪语音能量，为上一桢的噪声能量估计。

得到噪声更新系数α后，估计每个美子带内噪声能量：

{\hat{N}}_{i} (k) = (1 - α) N S_{i} (k) + α {\hat{N}}_{i - 1} (k)

其中，NS_i为含噪语音能量，为噪声能量估计。估计每个美子带内的局部信噪比：

S \hat{N R_{i} (k)} = 10 L {og}_{10} (\frac{{NS}_{i} (k) - {\hat{N}}_{i} (k)}{{\hat{N}}_{i} (k)})

第三步，缺失分量估计：

MS K_{i} (k) = \{\begin{matrix} 1 & if & {\hat{SNR}}_{i} (k) > δ \\ 0 & if & {\hat{SNR}}_{i} (k) < = δ \end{matrix}

其中，δ是判断特征是否可靠的门限。

所述的非线性谱减缺失分量估计方法，其算法第二步中，其中，0≤A≤1，为更新范围系数，用来调整噪声更新系数α的取值范围，确定了A取值，即确定了噪声更新系数α的取值范围：A≤α≤1。

所述的非线性谱减缺失分量估计方法，其所述噪声更新系数α，决定了根据当前信号更新噪声能量估计的快慢。

所述的非线性谱减缺失分量估计方法，其算法第二步中，其中

α = \frac{A + {[B * (S \hat{N} R - C)]}^{2 N}}{1 + {[B * (S \hat{N} R - C)]}^{2 N}}

公式中

β = {[B * (S \hat{N} R - C)]}^{2 N} > 0,

调整β的取值可以改变噪声更新系数α的取值；选择不同B、C、N，可以获得不同的β计算公式，称B为扩展系数，C为信噪比偏移，N为更新阶数。

所述的非线性谱减缺失分量估计方法，其算法第二步中，其中每个美子带内噪声能量公式的NS_i(k)表示受噪声破坏的语音第I帧美子带特征的第k个分量，即对应第k个美三角子带内的受噪声破坏语音的能量；

表示噪声第I帧美子带特征的第k个分量的估计，即对应第k个美三角子带内的噪声能量估计。

所述的非线性谱减缺失分量估计方法，其在非平稳Babble噪声环境下，非线性谱减缺失分量估计方法明显降低了缺失分量估计误差；在语音段，语音美子带特征矢量更接近原始纯净语音特征矢量；在静音段，有效的去除了基于谱减法的缺失分量估计方法引起的“伪语音”特征矢量；在平稳高斯白噪声环境下，非线性谱减缺失分量估计方法的性能和基于谱减法的缺失分量估计算法的性能接近。

附图说明

图1为噪声对语音美子带特征矢量的破坏示意图；

图2为含噪语音的缺失分量估计图。

具体实施方式

【算法描述】

基于谱减法的缺失分量估计方法面临的最大的挑战来自于噪声谱估计。在静音段，缺失分量估计算法希望噪声谱估计能够根据当前输入信号快速进行更新；而在语音段由于语音信号能量较高，如果根据当前输入信号进行快速更新，有可能在噪声谱估计中引入较多语音谱信息，估计误差变大，因此在语音段，缺失分量估计算法希望噪声谱估计根据当前输入信号进行更新的速度较慢。

为了达到这个目的，对基于谱减法的缺失分量估计方法，提出了如下的非线性谱减缺失分量估计方法：

1)噪声子带特征矢量估计

谱减法假设噪声为平稳或者缓变信号，且在语音的起始部分仅包括噪声，使用若干起始美子带特征矢量平均作为噪声矢量估计。当噪声为非平稳噪声的时候，使用该方法初始化噪声子带特征矢量的估计并不能取得明显的效果。为了更好的初始化噪声功率谱，首先对含噪语音进行基于能量的端点检测，然后，利用噪声段美子带特征矢量平均作为噪声矢量的估计。

2)估计在每个美子带内的局部信噪比；

S \hat{N} R = 10 lo g_{10} (\frac{{NS}_{i} - {\hat{N}}_{i - 1}}{{\hat{N}}_{i - 1}}) - - - (4)

其中，NS_i为含噪语音能量，

为上一桢的噪声能量估计。根据信噪比估计，构造如下函数，根据新输入信号与噪声能量比估计，计算噪声更新系数α：

α = \frac{A + {[B * (S \hat{N} R - C)]}^{2 N}}{1 + {[B * (S \hat{N} R - C)]}^{2 N}} - - - (5)

其中，0≤A≤1，用来调整噪声更新系数α的取值范围，称之为更新范围系数。确定了A取值，即确定了噪声更新系数α的取值范围：A≤α≤1。

通过调整更新范围系数A，希望达到如下目的：在信噪比较高的语音段，α取较大值，噪声子带特征矢量更新较慢；在信噪比较低的静音段，α取较小值，噪声子带特征矢量更新较快。

β {[B * (S \hat{N} R - C)]}^{2 N} > 0,

是与信噪比有关的量，调整β的取值可以改变噪声更新系数α的取值。选择不同B、C、N，可以获得不同的β计算公式，称B为扩展系数，C为信噪比偏移，N为更新阶数。

得到噪声更新系数α后，估计每个美子带内噪声能量：

{\hat{N}}_{i} (k) = (1 - α) {NS}_{i} (k) + α {\hat{N}}_{i - 1} (k) - - - (6)

其中，NS_i(k)表示受噪声破坏的语音第i帧美子带特征的第k个分量(对应第k个美三角子带内的受噪声破坏语音的能量)；表示噪声第i帧美子带特征的第k个分量的估计(对应第k个美三角子带内的噪声能量估计)。噪声更新系数α，决定了根据当前信号更新噪声能量估计的快慢。

估计每个美子带内的局部信噪比：

{\hat{SNR}}_{i} (k) = 10 Lo g_{10} (\frac{{NS}_{i} (k) - {\hat{N}}_{i} (k)}{{\hat{N}}_{i} (k)}) - - - (7)

3)缺失分量估计：

MS K_{i} (k) = \{\begin{matrix} 1 & if & {\hat{SNR}}_{i} (k) > δ \\ 0 & if & {\hat{SNR}}_{i} (k) < = δ \end{matrix} - - - (8)

其中，δ是判断特征是否可靠的门限。

人耳对声音的感知具有明显的非线性特性，在语音特征中融入一些反映人耳听觉特性的因素能够显著提高语音识别系统的性能，考虑到听觉系统的临界带效应，通常选用在美频率域上均匀分布的三角滤波器组对语音特征矢量进行子带特征分析，在语音识别技术中得到了广泛的应用。

下面，将以语音美(Mel)子带特征矢量的缺失分量估计来说明基于非线性谱减缺失分量估计方法。

纯净语音受到噪声破坏后，美子带特征的形态和分布发生了比较大的畸变，因此将造成语音识别系统性能大大下降，如图1所示。从图1可以看出，噪声破坏了纯净语音特征矢量的形态和分布，由于噪声特性和强度的不同，不同的噪声对语音特征的破坏作用也不同。

缺失分量估计的目的是把语音特征S分为两个矢量：受到噪声严重破坏的“缺失矢量”Sm和未受到噪声破坏的“可靠矢量”So。图2给出了对含噪语音(高斯白噪声、Babble噪声，SNR＝15dB)进行缺失分量估计的结果。

从缺失分量估计的结果看，基于谱减法的缺失分量估计带来了噪声平稳性限制：对受高斯白噪声破坏的语音，基于谱减法的缺失分量估计取得了相对较好的结果，但由于语音特征的随机性，也出现了一定的估计误差；对非平稳babble噪声，基于谱减法的缺失分量估计效果不太理想：在语音段，美子带特征“可靠矢量”的分布和数值出现了较大误差；同时，在信噪比很低，不会出现美子带特征“可靠矢量”的静音段，出现了大量“可靠矢量”(参见图2)。

实验结果表明，在非平稳Babble噪声环境下，非线性谱减缺失分量估计方法明显降低了缺失分量估计误差。因此，在语音段，语音美子带特征矢量更接近原始纯净语音特征矢量；在静音段，有效的去除了基于谱减法的缺失分量估计方法引起的“伪语音”特征矢量。在平稳高斯白噪声环境下，非线性谱减缺失分量估计方法的性能和基于谱减法的缺失分量估计算法的性能比较接近。

因此，在信噪较高的情况下，无论噪声是非平稳Babble噪声还是平稳高斯白噪声环境下，非线性谱减缺失分量估计方法都具有良好性能。

Claims

1、一种非线性谱减缺失分量估计方法，该方法根据局部信噪比，估计语音受噪声掩蔽的语音子带特征“缺失”分量，其特征为：通过调整参数，使在信噪比较大的语音段，噪声子带特征矢量的估计更新较慢；在信噪比较低的静音段，噪声子带特征矢量的估计更新较快；

算法步骤包括：

第一步，噪声子带特征矢量估计：

第二步，估计在每个美子带内的局部信噪比：

S \hat{N} R = 10 lo g_{10} (\frac{{NS}_{i} - {\hat{N}}_{i - 1}}{{\hat{N}}_{i - 1}})

其中，NS_i为含噪语音能量，为上一帧的噪声能量估计。根据信噪比估计，构造如下函数，根据新输入信号与噪声能量比估计，计算噪声更新系数α：

α = \frac{A + {[B * (S \hat{N} R - C)]}^{2 N}}{1 + {[B * (S \hat{N} R - C)]}^{2 N}}

在

α = \frac{{A + [B * (S \hat{N} R - C)]}^{2 N}}{1 + {[B * (S \hat{N} R - C)]}^{2 N}}

公式中

β = {[B * (S \hat{N} R - C)]}^{2 N} > 0,

调整β的取值可以改变噪声更新系数α的取值；选择不同B、C、N，可以获得不同的β计算公式，称B为扩展系数，C为信噪比偏移，N为更新阶数；

其中，0≤A≤1，为更新范围系数，用来调整噪声更新系数α的取值范围，确定了A取值，即确定了噪声更新系数α的取值范围：A≤α≤1；

得到噪声更新系数α后，估计每个美子带内噪声能量：

{\hat{N}}_{i} (k) = (1 - α) N S_{i} (k) + α {\hat{N}}_{i - 1} (k)

其中，NS_i为含噪语音能量，

为上一桢的噪声能量估计；

10其中，每个美子带内噪声能量公式的NS_i(k)表示受噪声破坏的语音第i帧美子带特征的第k个分量，即对应第k个美三角子带内的受噪声破坏语音的能量；

表示噪声第i帧美子带特征的第k个分量的估计，即对应第k个美三角子带内的噪声能量估计；

估计每个美子带内的局部信噪比：

S \hat{N} R_{i} (k) = 10 Lo g_{10} (\frac{{NS}_{i} (k) - {\hat{N}}_{i} (k)}{{\hat{N}}_{i} (k)})

第三步，缺失分量估计：

{MSK}_{i} (k) = \{\begin{matrix} 1 & if & S \hat{N} R_{i} (k) > δ \\ 0 & if & S \hat{N} R_{i} (k) < = δ \end{matrix}

其中，δ是判断特征是否可靠的门限。

2、如权利要求1所述的非线性谱减缺失分量估计方法，其特征为：所述噪声更新系数α，决定了根据当前信号更新噪声能量估计的快慢。