CN1185622C

CN1185622C - 语音识别的健壮特征提取方法和装置

Info

Publication number: CN1185622C
Application number: CNB008150761A
Authority: CN
Inventors: R·布吕克纳; H·－G·希尔施; R·克利施; V·斯普林格
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1999-10-29
Filing date: 2000-09-30
Publication date: 2005-01-19
Anticipated expiration: 2020-09-30
Also published as: AU7660800A; US6678657B1; DE69920461D1; EP1096471A1; CN1384960A; EP1096471B1; JP2003513340A; DE69920461T2; ATE277400T1; WO2001033552A1

Abstract

本发明涉及一种在有噪声环境下用于语音识别的健壮(robust)特征提取方法和装置，在其中按频谱分量的特征对一个语音信号分段。将语音信号划分成L次能带中的许多短期频谱分量，其中的L＝1，2，...，并且根据仅含噪声的片段估算一个噪声频谱。然后根据对应的短期频谱执行对估算的噪声频谱的频谱减法，并且为各个短期频谱分量计算出含噪声的概率。最后为含语音的概率很低的各短期频谱的这些频谱分量执行内插，以便平滑那些仅含噪声的短期频谱。通过对含噪声的频谱分量执行内插就能从近旁找到可靠的频谱语音分量。

Description

语音识别的健壮特征提取方法和装置

技术领域

本发明涉及到在噪声环境中对语音识别执行健壮(robust)特征提取的方法和装置。

背景技术

语音识别领域中的一个主要问题是如何准确地识别在噪声环境中出现的语音。不同类型的所有可能的噪声都会影响到语音识别，并可能造成识别精度急剧恶化。

特别是在移动电话或是在识别出话音口令之后允许访问的访问系统等领域中，语音识别变得更为重要。特别是在上述这些领域中，在可能的不同类型噪声当中，最成问题的是附加的稳定或不稳定背景噪声。造成识别精度恶化的另一种噪声是通过传输信道发送待识别语音时会受到传输信道频率特性的影响。附加噪声往往是由背景噪声组合了传输线上产生的噪声构成的。

按照现有技术所知是提供一种所谓的线性或非线性频谱减法。频谱减法是一种噪声抑制技术，可以减少附加噪声对语音的影响。它是通过从有噪声量值或功率频谱中直接减去噪声量值或功率频谱来估算清晰语音的量值或功率频谱。这种技术是为了在各种通信状况下增强语音而开发的。

频谱减法需要在停顿期间估算噪声，并且还假定噪声特性变化缓慢，以保证对噪声的估算仍然有效。这种方法的成功与否要求健壮端点的有效性或者是声音活动检测器能够区分语音和噪声。然而，良好的语音和噪声区分是一个必要条件，但是在低信噪比(SNR)条件下难以实现。

另外，即使频谱减法的计算由于是在语音停顿期间估算噪声而有效的，再者即使是这种技术能够在保留其他处理步骤不变的条件下作为一种预处理技术，频谱减法方法的性能仍对噪声和提取噪声的方法有很强的依赖性。与此有关的问题在于，即使能降低宽带噪声，还会剩下一些残余噪声(Junqua等人的“Robustness in automatic speechrecognition”；Kluwer Academic Publisher；1996；Section 9.2Speech Enhancement，page 277 ff.)。

无论如何，即使用上述方法能够改善语音识别，噪声特性的估算对这些方案也是至关紧要的。如上所述，为了标出语音信号中仅仅包含噪声的那些片段，就需要区别语音和噪声。但是这种区别不可能是没有误差的，并且难以实现。除此之外，在检查包含叠加的语音和稳定噪声的语音信号的片段时，这些片段可能被解释成对应着一个频谱噪声分量和一个频谱语音分量的分布函数的重叠。这些分布函数重叠取决于SNR。重叠越高，SNR就越低。因此，在这种情况下，在语音的频谱量值等于或小于噪声值的那些频谱区内，就无法确定是否有包含语音的短期频谱。

发明内容

本发明的目的是提供一种解决上述问题的方法和装置，在有噪声环境下实现一种更健壮的语音识别。

本发明的优点是滤除仅仅包含噪声的短期频谱，并且对有噪声的语音片段额外用可靠的分量内插不可靠的频谱分量，这样就能改善语音识别，或者是更直接地提取健壮特征，支持一种改进的语音识别。

本发明进一步的优点是根据与短期频谱相邻的至少一个频谱分量和/或至少一个时间上在前的频谱分量执行内插，按照预料滤除包含语音的概率比较低的那一个所谓的不可靠语音分量。

可以用两个相邻的频谱分量和一个时间上在前的分量改善语音识别。

本发明进一步的优点是将计算的概率与一个阈值相比较，以确定必须对哪一个频谱分量执行内插。

本发明进一步的优点是根据无噪声语音对频谱分量执行内插。

根据本发明一个实施例执行两个内插，可以获得更好的语音识别。

本发明进一步的优点是在MEL频率范围的基础上划分短期频谱的YYY，因为MEL频率范围是在人的听觉范围。

进一步的优点是采用这种语音识别方法用语音来控制诸如移动电话，电话机或者是访问系统等电子设备，用于接入或拨号等等。

附图说明

以下要借助于实施例和附图进一步解释本发明。以下的附图有：

图1：按照权利要求1在特征提取中集中的内插，

图2：按照权利要求6在特征提取中集中的内插，

图3：按照权利要求9在特征提取中集中的内插，

图4：存在语音的概率函数的一个示意图。

具体实施方式

为了使语音识别相对于噪声更加健壮，可以采用一种健壮特征提取方案。这一方案尝试从语音信号中提取对噪声不敏感或者是不受噪声影响的那些特征。进而，这种特征提取方案主要是基于短期频谱分析。另外，大多数语音识别系统都是基于MEL频率范围内的短期分析。MEL频率范围是基于人的听觉范围，并且在现有技术中是公知的，因此在本文中不必深入描述。

术语健壮应该包括在上述现有技术中对稳定和不稳定背景噪声的健壮性。在本申请中，除了上述的健壮性之外还应该包括对任何类型的电子设备产生的未知频率特性的健壮性，例如是采用本发明的移动电话或任何其它电话中的麦克风和/或数字或者是模拟滤波器的频率特性。

以下要借助于图1进一步解释本发明。在经过与本发明无关并且是现有技术所公知的装帧和变换之后，将一个语音信号分离成L子带中的许多短期频谱分量，其中的L＝1，2，...，L，最好是在10到30MEL的范围内。可以根据MEL频率范围内的短期频谱分析来划分短期频谱分量。这种滤波器组在MEL频率范围内的输出是在若干个L子带中的一种短期量值或功率频谱，其中的L＝1，2，...。

下一步执行的ES是根据仅仅包含噪声的那些片段估算一个噪声频谱。可以采用一个话音活动检测器来完成。根据被话音活动检测器标记为噪声的那一片段中的所有频谱计算出平均频谱。将这一平均频谱作为估算的噪声频谱。

然后执行频谱减法，从有噪声短期频谱Ssub中减去估算的噪声频谱，并且产生一个估算结果。一种办法是在量值域内对频谱分量执行减法计算如下：

|S_l(t_i)|＝|X_l(t_i)|-|N_l(t_i)| (1)

其中|S_l|＝频谱语音分量的估算结果，

|X_l|＝实际的有噪声输入分量

|N_l|＝估算的噪声分量

在时间＝t并且子带l＝1，...，L。

应该注意到诸如S_l，t等数值在所有公式中的意思都应该是一样的。下一步是计算各短期频谱分量包含噪声的概率。以下要详细说明这种概率的计算。

如果对短期频谱分量计算出的概率是包含语音的概率很低，就在下一步IP内插这一频谱分量。

由于当今使用的大多数语音识别系统都采用了倒谱系数，可以按以下方式进一步处理需要平滑和内插的上述短期频谱。一种算法是对各个短期频谱分量取对数，并且最终通过离散余弦变换DCT将其变换成许多倒谱系数。

以下要详细说明对各短期频谱的频谱分量的内插。

如上所述计算出一个频谱分量包含语音的概率。如果概率计算结果是包含语音的概率很低，就认为该频谱分量是不可靠的。然后内插这些不可靠的频谱分量。例如是根据查看与这一短期频谱相邻的子带的至少一个频谱分量和/或至少一个时间上在前或后续的频谱分量来执行内插。

在一个最佳实施例中是对两个相邻的子带和一个时间上在前的频谱分量执行内插。

例如，内插是通过计算以下的加权和来执行的：

prob_l+1(t_i)×|S_l+1(t_i)|+prob_l(t_i-1)|S_l(t_i-1)|]/(∑prob)(2)

其中的prob＝子带1的概率。

其次相邻的任何其他子带也可以作为内插的基础，受到篇幅所限无需进一步描述。

如上所述，在对短期频谱计算的概率表明频谱中包含语音的概率很低的情况下就执行内插。由于计算的概率不一定总是0或1，最好是确定一个阈值来限定频谱分量，如果其对应的比例低于这一阈值就认为是包含语音的概率很低。

该阈值最好是0.6，也可以是0到1之间的任意值。该阈值可以预定，或者是根据环境而改变。

以下参照图2来解释另一个实施例。

应该注意到，在所有附图中具有相同标记的那些框是为了表达相同的意思。

除了上述步骤之外，还要为各个短期频谱确定数目为M的频谱距离。上述频谱距离是在相减之后的短期频谱与数目为M的包含无噪声语音的频谱之间确定的，M＝1，2，...。进而要为各个短期频谱确定至少一个包含无噪声语音的频谱，它与上述短期频谱具有最小的频谱距离。

频谱距离可以这样来计算：

Error(|S(t_i)|，|V(m)|)＝∑prob_l(t_i)×(|S_l(t_i)|-|V_l(m)|)²/∑prob_l(t_i)(3)

其中V(m)＝包含无噪声语音的频谱，而m是码本入口之一。

将计算出的具有最小误差的那一个认为是具有最小频谱距离。

然后从具有最小频谱距离的上述无噪声语音频谱中提取频谱信息用来执行内插。无论如何也能获得所有具有最小频谱距离的那些无噪声语音频谱。

执行内插的一种可能性是计算实际估算的频谱分量|S_l(t_i)|的一个加权和以及最接近矢量的对应分量。可以按以下方式执行：

|S_l(t_i)|＝prob_l(t_i)|S_l(t_i)|+(1-prob_l(t_i))×V_l(m_closest) (4)

这一公式的基础是基于语音仅仅出现在一个L维频谱特征空间中的某些区域中的常识。按照这一常识，包含语音的概率低的那些频谱分量的内插是基于从码本CB中最接近的那个入口或者是一个以上接近的入口中提取频谱信息。

以下要借助于图3说明本发明的另一个最佳实施例。

如图3所示，除了第一内插IP1还执行另一个内插IP2。在图示的例子中，第一内插是基于至少一个相邻子带的频谱分量，和/或该短期频谱的至少一个时间上在前或后续的频谱分量，就象权利要求2和图1所表示的那样。

按照权利要求7和图2，第二内插IP2是基于从具有最小频谱距离的上述无噪声语音频谱提取频谱信息。

无论如何这并不是为了限制本发明，例如可以首先执行按照权利要求7的内插，然后再执行权利要求2的内插。总之应该特别注意到，两次内插的基本方式都是对不可靠的短期频谱分量或者最好是含语音的概率较低的上述短期频谱分量执行内插。一般来说，含噪声的频谱分量的内插是基于可以从近旁找到的可用于两次内插的可靠的频谱语音分量。

以下要参照图1来说明在有噪声环境中用于语音识别的健壮特征提取的一种装置。该装置包括一个滤波器组MEL，用于将语音信号划分成L子带中的许多频谱分量，其中的L＝1，2，...。

用于估算仅含噪声的噪声频谱片段的其他估算装置ES是可以预见的。

该装置还可以进一步包括用来从对应的短期频谱中执行对估算噪声频谱的频谱减法的一个减法器SSub，以及用来估算各短期频谱包含噪声的概率的一个计算器。

如果对短期频谱分量包含语音的计算的概率是可以预见的，在这种装置中同样可以包括用于内插各短期频谱的频谱分量的内插装置IP。

在本发明的另一个最佳实施例中提供了一个比较器，用于将计算的概率和限定了包含语音的最低概率的一个阈值相比较。

最后，为了获得倒谱系数，可以采用对各个频谱分量采取对数算法的装置和用来执行离散余弦变换DCT的装置，并且其输出是被用于语音识别的许多倒谱系数。

以下要参照图2解释另一个最佳实施例。应该注意到对同样的框仍然采用同样的缩写。

除了图1中所示的装置以外，包含无噪声语音频谱的码本CB是可以预见的，并且有一个用来为各个短期频谱分量确定M个频谱距离的确定装置，在相减之后确定短期频谱之间的上述频谱距离，并且提供M个包含无噪声语音频谱的频谱。

进而，用于为各个短期频谱确定与上述短期频谱具有最小距离的包含无噪声语音的至少一个频谱的确定装置MATCH是可以预见的，其结果是用内插装置IP的一个输入来执行内插。

最后要说明一种可以加载到电子设备的存储器中的一种计算机程序产品(没有附图)。可加载到诸如移动电话等等的存储器中的一种计算机程序产品包括用来执行权利要求1到12的任何步骤的软件代码部分或模块。

最好将这种计算机程序存储在一种计算机可读介质上。

最后还可以将这种方法和装置以及计算机程序产品用于语音识别，用来控制电子设备。这种电子设备例如是电话或移动电话，或是一种存取装置。

Claims

1.一种在有噪声环境下用于语音识别的健壮特征提取方法，在其中按频谱分量对一个语音信号分段，它包括以下步骤：

-将语音信号划分成L子带中的许多短期频谱分量，其中的L＝1，2，...

-根据仅含噪声的片段估算一个噪声频谱，

-根据对应的每一子带的短期频谱执行对估算的噪声频谱的频谱减法，得到估算的频谱分量，

-为各个短期频谱分量计算出含噪声的概率，以及

-如果为短期频谱分量计算出的含语音概率低于一个阈值，就插入各个短期频谱的估算频谱分量。

2.按照权利要求1的方法，其特征是根据至少一个子带和/或该短期频谱中在时间上在前或后续的频谱分量执行内插。

3.按照权利要求2的方法，其特征是根据两个相邻的子带和一个时间上提前的频谱分量来执行内插。

4.按照权利要求1到3之一的方法，其特征是将计算出的概率和限定了包含语音的最低概率的一个阈值相比较。

5.按照权利要求1的方法，其特征是对每个频谱分量采取一种算法，并且执行离散余弦变换(DCT)。

6.按照权利要求1的方法，其特征是还有以下步骤：

-为各个短期频谱分量确定M个频谱距离，在相减之后确定短期频谱之间的上述频谱距离，并且提供M个包含无噪声语音的频谱，

-为各个短期频谱确定与上述短期频谱具有最小频谱距离的包含无噪声语音的至少一个频谱。

7.按照权利要求6的方法，其特征是

-通过从具有最小频谱距离的上述无噪声语音频谱中提取频谱信息来执行内插。

8.按照权利要求6或7的方法，其特征是通过计算一个加权均方差(MSE)来确定频谱距离。

9.按照权利要求2和7的方法，其特征是按照权利要求2执行第一内插，并按照权利要求7执行第二内插。

10.按照权利要求6的方法，其特征是包含无噪声语音的频谱被包含在用无噪声语音训练的一个码本中。

11.按照权利要求9的方法，其特征是存储在码本中的频谱信息是cepstral参数。

12.按照权利要求1的方法，其特征是基于MEL频率范围将语音划分成多个子带。

13.在有噪声环境下用于语音识别的一种健壮特征提取装置，在其中以频谱分量为特征对一个语音信号分段，它包括

-一个滤波器组(MEL)，用于将语音信号划分成L子带中的许多频谱分量，其中的L＝1，2，...，

-一个估算装置(ES)，语音估算仅含噪声的噪声频谱片段，

-一个减法器(SSub)，根据对应的每一子带的短期频谱执行对估算的噪声频谱的频谱减法，得到估算的频谱分量，

-一个计算器，用于为各个短期频谱计算其含噪声的概率，以及

-内插装置(IP)，如果为短期频谱分量计算的概率是包含语音，就插入各个短期频谱的估算频谱分量。

14.按照权利要求13的装置，其特征是有一个比较器，用于将计算的概率和限定了包含语音的最低概率的一个阈值相比较。

15.按照权利要求13或14的装置，其特征是有一个对各个频谱分量采取一种算法的装置(log)，以及用来执行变换的一个离散余弦变换(DCT)装置。

16.按照权利要求13的装置，其特征在于

-包含无噪声语音频谱的一个码本(CB)，

-为各个短期频谱分量确定M个频谱距离的确定装置，在相减之后确定短期频谱之间的上述频谱距离，并且提供M个包含无噪声语音频谱的频谱，以及

-为各个短期频谱确定与上述短期频谱具有最小距离的包含无噪声语音的至少一个频谱的确定装置(MATCH)。

17.按照权利要求13的装置，其特征在于滤波器组是一个MEL滤波器组。