CN103366737A

CN103366737A - 在自动语音识别中应用声调特征的装置和方法

Info

Publication number: CN103366737A
Application number: CN2012100906604A
Authority: CN
Inventors: 丁沛; 贺利强
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-03-30
Filing date: 2012-03-30
Publication date: 2013-10-23
Anticipated expiration: 2032-03-30
Also published as: CN103366737B; US20130262099A1; US9076436B2

Abstract

本发明提出了一种在自动语音识别中应用声调特征的装置和方法，该装置包括：分布估计模块，被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布；规整化模块，被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化；以及随机值调整模块，被配置为根据规整化的全局分布调整用于无声帧的随机值，以便将调整后的随机值赋值给语音信号中的无声帧，作为无声帧的声调特征。在本发明的一实施例中，该装置还包括特征合并模块，被配置为合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数，以用于自动语音识别。

Description

在自动语音识别中应用声调特征的装置和方法

技术领域

本发明涉及自动语音识别(ASR)，具体涉及一种在自动语音识别中应用声调特征的装置和方法。

背景技术

中文普通话等语言是一种带调语言，其每个音节的发音通常有五个不同的声调。声调反映了语音基频的变化，这是一种非常重要的鉴别信息。但是对于常见的语音识别系统，其使用的声学特征往往都忽略了声调，基频信息在特征提取中被丢弃，这对于带调语音识别系统，尤其是小词汇量语音识别(如中文数字串识别)而言是一种信息的浪费。除此之外，这样的语音识别系统也完全不能区分同音不同调的词对(如“陕西”和“山西”)。

为了提高诸如中文普通话等带调语言的语音识别系统的性能，基频特征会被提取出来，并和传统声学特征(如MFCC)合并使用。在用于语音识别的基频提取过程中有一个特殊问题，即为了保证基频特征的连续输出，如何对无声语音帧(如辅音)的基频赋值。因为在这些帧中，基频信息是根本不存在的。通常的办法是用随机数作为无声帧的基频特征。但是，直接使用随机值将会导致译码过程中出现异常的概率似然值，并最终降低识别性能。

除此之外，在基频特征提取的过程中，一些中间变量对提高识别性能是很有作用的，但实际应用中都被忽略了。

发明内容

针对现有技术中存在的上述问题，提出了本发明的解决方案。

在本发明的一个方面，提出了一种在自动语音识别中应用声调特征的装置，包括：分布估计模块，被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布；规整化(normalization)模块，被配置为根据有声帧的声调特征的全局分布对随机值的全局分布进行规整化；以及随机值调整模块，被配置为根据规整化的全局分布调整随机值，并将调整后的随机值赋值给语音信号中的无声帧，作为无声帧的声调特征。

根据本发明的实施例，所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化包括：使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差；以及使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值。

根据本发明的实施例，所述使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值包括：使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。

根据本发明的实施例，所述根据规整化的全局分布调整用于无声帧的随机值包括：对用于无声帧的随机值进行线性变换，以使得线性变换后的随机值的全局分布为所述规整化的全局分布。

根据本发明的实施例，该装置还包括：帧区分模块，被配置为区分语音信号中的有声帧和无声帧；以及声调特征提取模块，被配置为提取有声帧的声调特征。

根据本发明的实施例，该装置还包括：特征合并模块，被配置为合并有声帧和无声帧的非声调声学特征以及所述声调特征，以用于自动语音识别。

根据本发明的实施例，所述特征合并模块进一步被配置为：合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数，以用于自动语音识别。

根据本发明的实施例，所述语音层级参数反映了语音信号中的周期性的强弱。

在本发明的另一个方面，提出了一种在自动语音识别中应用声调特征的方法，包括：估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布；根据有声帧的声调特征的全局分布对随机值的全局分布进行规整化；以及根据规整化的全局分布调整随机值，并将调整后的随机值赋值给语音信号中的无声帧，作为无声帧的声调特征。

根据本发明的实施例，该方法还包括以下可选步骤：区分语音信号中的有声帧和无声帧；以及提取有声帧的声调特征。

根据本发明的实施例，该方法还包括以下可选步骤：合并有声帧和无声帧的非声调声学特征以及所述声调特征，以用于自动语音识别。

根据本发明的进一步的实施例，所述合并步骤进一步包括：合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数，以用于自动语音识别。

本发明的实施例具有如下优点中的至少一个：

对用于无声帧的随机值的规整化避免了不受约束的随机值带来的识别过程中的异常概率似然值，并且增加了有声帧和无声帧在统计上的区分性，从而提高了识别精度；

由于是对有声帧的声调特征以及用于无声帧的随机值的全局分布进行估计并利用线性变换进行规整化，因此在实现上非常简单；

对无声帧使用规整化的随机值赋值符合连续语音识别的框架；

语音层级参数对声学特征的扩充进一步提高了语音识别精度；

语音层级参数是基频特征提取中的中间结果，因此特征扩张不增加语音识别前端的计算量。

附图说明

所附权利要求中阐述了被认为是本发明的特点的创造性特征。但是，通过参照附图阅读下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点，在附图中：

图1示出了本发明的装置和方法可在其中实施的示例性语音识别系统的框图；

图2示出了根据本发明的实施例的用于在自动语音识别中应用声调特征的装置；

图3示出了由分布估计模块所估计的语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布的示例性示意图；

图4a示出了有声帧的声调特征的全局分布以及规整化之前的用于无声帧的随机值的全局分布的示例性示意图；

图4b示出了有声帧的声调特征的全局分布以及规整化之后的用于无声帧的随机值的全局分布的示例性示意图；

图5示出了由特征合并模块所执行的特征合并的示例性示意图；

图6示意性的示出了一种计算语音层级参数的方法；

图7示出了根据本发明的实施例的用于在自动语音识别中应用声调特征的方法。

具体实施方式

下面参照附图来说明本发明的实施例。在下面的说明中，阐述了许多具体细节以便更全面地了解本发明。但是，对于本技术领域内的技术人员明显的是，本发明的实现可不具有这些具体细节中的一些。此外，应当理解的是，本发明并不限于所介绍的特定实施例。相反，可以考虑用下面的特征和要素的任意组合来实施本发明，而无论它们是否涉及不同的实施例。因此，下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定，除非权利要求中明确提出。

图1示出了本发明的装置和方法可在其中实施的示例性语音识别系统的框图。如图所示，该语音识别系统大体上可划分为两个部分：语音处理模块101和识别模块102；并可划分为两个运行阶段：训练阶段和识别阶段。语音处理模块101用于对输入的语音信号进行处理以便获得表征语音信号中的每个声学单元(例如，词汇、音节或音素)的特征参数组合，并将特征参数组合所训练得到的相应声学单元的模型与该声学单元相关联地存储在模型库103中(训练阶段)，或者将特征参数组合提供给识别模块102，以便识别模块102通过将特征参数组合与模型库103中的模型进行匹配来识别出相应的声学单元(识别阶段)。在对输入的语音信号进行处理的过程中，语音处理模块101首先将输入的语音信号划分为等时长(例如，10-25毫秒)的片段，称为帧，然后对每个帧进行一系列的数学变换，从而获得每个帧的一组特征参数，并将每个声学单元所包含的若干帧的若干组特征参数的组合当作表征该声学单元的特征参数。

应指出的是，图1中所示的语音识别系统仅为简单的示意性和示例性说明，而不是对本发明可在其中实施的语音识别系统的限制。本发明的装置和方法适用于任何语音识别系统，且尤其适用于带调语言的语音识别系统，如中文普通话语音识别系统。

本发明的用于在自动语音识别中应用单调特征的装置可以位于语音处理模块101之内或之外，也可以一部分位于语音处理模块101之内，一部分位于语音处理模块101之外。

图2示出了根据本发明的实施例的用于在自动语音识别中应用声调特征的装置200。如图所示，该装置200包括：分布估计模块201，规整化模块202，以及随机值调整模块203。

所述分布估计模块201被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布。

根据本发明的一些实施例，该装置200还包括：可选的帧区分模块204，被配置为区分语音信号中的有声帧和无声帧；以及可选的声调特征提取模块205，被配置为提取有声帧的声调特征。

根据本发明的另一些实施例，该装置200不包括帧区分模块204和声调特征提取模块205，相反，帧区分模块204和声调特征提取模块205位于语音识别系统之中且位于该装置200之外。

有声帧是指语音信号在经过帧划分之后语音中的元音所在的帧，而无声帧是指语音中辅音或停顿所在的帧。帧区分模块204可以使用任何已知的或未来开发的方法来区分有声帧和无声帧。

声调特征可以包括语音信号的基频、基频的一次差分、基频的二次差分等。有声帧具有声调特征，而无声帧不具有声调特征。声调特征提取模块205可以使用任何已知的或未来开发的方法来提取有声帧的声调特征。对于无声帧，语音识别系统中的语音处理模块101通常会生成随机值，作为无声帧的声调特征，以形成语音信号的连续的声调特征流，以便于后续的语音识别处理。

所述帧区分模块204和声调特征提取模块205也可以使用Y.Kida，M.Sakai，T.Masuko和A.Kawamura的“Robust F0estimation based onlog-time scale autocorrelation and its application to Mandarin tonerecognition”in proceedings of INTERSPEECH2009，pp.2791-2794中公开的一种通过计算语音信号的周期性强弱来区分有声帧和无声帧、以及获得有声帧的基频的方法，该文献作为参考在此全文引用。

帧区分模块204和声调特征提取模块205既在训练阶段运行，也在识别阶段运行。在训练阶段，声调特征提取模块205将所提取的每个有声帧的声调特征与由语音处理模块101产生的有声帧的其他声学特征一起存储在模型库103中(无声帧的随机值及其他声学特征也被存储在模型库中)。在识别阶段，声调特征提取模块205提取待识别语音信号中的有声帧的声调特征，与语音处理模块101产生的有声帧的其他声学特征结合在一起(无声帧的随机值与其他声学特征也结合在一起)，然后通过与模型库103中的声学特征匹配来识别待识别语音信号中的帧以及声学单元。

所述分布估计模块201可获取模型库103中存储的全部或部分有声帧的声调特征并由此计算有声帧的声调特征的全局分布，也可以从声调特征提取模块205获得若干输入的语音信号的有声帧的声调特征并由此计算有声帧的声调特征的全局分布。所述分布估计模块201可获得由语音处理模块101生成的用于无声帧的若干随机值，并由此计算用于无声帧的随机值的全局分布。声调特征的全局分布以及随机值的全局分布可以分别由声调特征的概率密度函数(PDF)和随机值的概率密度函数表示，且均假设其服从高斯分布。

图3示出了由分布估计模块201所估计的语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布的示例性示意图。在图中，V代表有声帧，UV代表无声帧。图中下方的坐标图的横轴代表声调特征值或随机值，纵轴代表声调特征值或随机值的出现频率，两条曲线分别代表有声帧的声调特征以及用于无声帧的随机值的概率密度函数。从图中可见，有声帧的声调特征和用于无声帧的随机值的概率密度函数具有大体一致的均值和不同的标准差。

现返回图2，所述规整化模块202被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化。

根据本发明的进一步的实施例，所述使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值包括：使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。

图4a示出了有声帧的声调特征的全局分布以及规整化之前的用于无声帧的随机值的全局分布的示例性示意图。从图中可见，用于无声帧的随机值的全局分布的标准差小于有声帧的声调特征的全局分布的标准差，且用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值很接近。这样，图中的用于无声帧的特定随机值例如A容易与具有相同值的有声帧的特征值相混淆，从而影响到语音识别效果。

图4b示出了有声帧的声调特征的全局分布以及规整化之后的用于无声帧的随机值的全局分布的示例性示意图。如图所示，经过规整化之后，用于无声帧的随机值的全局分布的标准差与有声帧的声调特征的全局分布的标准差更为接近，且在一具体实施例中两者大体相等；并且，用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值适当偏离，且在一具体实施例中，两者之间的距离约等于有声帧的声调特征的全局分布的标准差的1.6倍，如以下公式所示：

Sigma’(UV)＝Sigma(V)，

Mean’(UV)-Mean(V)＝1.6＊Sigma(V)，

其中，Sigma’(UV)表示规整化之后的用于无声帧的随机值的全局分布的标准差，Sigma(V)表示有声帧的声调特征的全局分布的标准差，Mean’(UV)表示规整化之后的用于无声帧的随机值的全局分布的均值，Mean(V)表示有声帧的声调特征的全局分布的均值。

现返回图2，所述随机值调整模块203被配置为根据规整化的全局分布调整用于无声帧的随机值，并将调整后的随机值赋值给语音信号中的无声帧，作为无声帧的声调特征。

如本领域的技术人员所知的，对随机变量的分布的规整化可通过对该随机变量进行线性变换来实现。因此，可通过对由语音处理模块101生成的用于无声帧的随机值进行线性变换，并用线性变换所得到的随机值取代原随机值，来使线性变换所得到的随机值的全局分布为上述规整化的全局分布，如以下公式所示：

F’(UV)＝a＊F(UV)+b，

a＝Sigma’(UV)/Sigma(UV)，

b＝Mean’(UV)-Mean(UV)＊a，

其中，F’(UV)为经过线性变换后的用于无声帧的随机值，F(UV)为由语音处理模块101生成的用于无声帧的原随机值，a和b为线性变换的参数，Sigma’(UV)表示规整化之后的用于无声帧的随机值的全局分布的标准差，Sigma(UV)表示规整化之前的用于无声帧的随机值的全局分布的标准差，Mean’(UV)表示规整化之后的用于无声帧的随机值的全局分布的均值，Mean(UV)表示规范化之前的用于无声帧的随机值的全局分布的均值。

随机值调整模块203将根据以上公式，对由语音处理模块101生成的用于无声帧的每个随机值进行线性变换，并将线性变换所得到的随机值赋值给每个无声帧，作为无声帧的声调特征。例如，图4a中的用于无声帧的特定随机值A经过线性变换后，成为图4b中的经线性变换后的用于无声帧的随机值A’，这样就不再容易与有声帧的特征值相混淆，从而提高了语音识别的效果。

现返回图2，根据本发明的实施例，该装置200还包括：可选的特征合并模块206，其被配置为合并有声帧和无声帧的非声调声学特征以及所述声调特征，以用于自动语音识别。所述声调特征包括由声调特征提取模块205所产生的有声帧的声调特征以及无声帧的作为其声调特征、由随机值调整模块203所调整得到的随机值。

根据本发明的进一步的实施例，所述特征合并模块206进一步被配置为：合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数，以用于自动语音识别。

图5示出了由特征合并模块206所执行的特征合并的示例性示意图。在该图中，左上方的表格表示传统的非声调声学特征，例如MFCC特征等，该表的每一列表示一个有声帧或无声帧的一组非声调声学特征。左边中间的表格表示有声帧的声调特征，以及无声帧的作为其声调特征的、由上述随机值调整模块203所调整得到的随机值，该表的每一列表示一个有声帧的一组声调特征，例如基频、基频的一阶差分、基频的二阶差分等，或者表示一个无声帧的一组调整后的相应随机值。左下方的表格表示语音层级参数，该表的每一列表示一个有声帧或无声帧的一组语音层级参数。如图所示，传统的非声调声学特征与声调特征和语音层级参数合并在一起，以用于后续的语音识别处理，例如在训练阶段，作为帧及声学单元的模型存储在模型库103中，或在识别阶段通过与模型库103中的模型进行匹配来对输入的语音信号中的帧及声学单元进行识别。

根据本发明的进一步的实施例，所述语音层级参数反映了语音信号中的周期性的强弱。具体地，所述语音层级参数可以是区分有声帧和无声帧以及提取有声帧的声调特征(例如基频)的过程中的中间结果。例如，在上述Y.Kida，M.Sakai，T.Masuko和A.Kawamura的文献中记载了一种计算语音层级参数的方法。图6示意性的示出了该计算语音层级参数的方法。如图所示，首先计算处于一定距离的两个帧之间的互相关函数，然后对相邻的互相关函数的时间序列进行加权求和，获得总计互相关函数，则语音层级参数为总计互相关函数的最大值与最小值之间的差值。此外，语音层级参数还可以包括该差值的一阶和/或高阶差分。

应指出的是，所述随机值调整模块203和特征合并模块206既在训练阶段运行，也在识别阶段运行。在训练阶段，随机值调整模块203根据规整化的全局分布调整用于无声帧的随机值，并将调整后的随机值赋值给训练语音信号中的无声帧，作为无声帧的声调特征；特征合并模块206合并训练语音信号中的有声帧和无声帧的非声调声学特征和声调特征以及可能的语音层级参数，并将合并的特征及参数存储在模型库103中，作为每个帧及声学单元的模型。在识别阶段，随机值调整模块203根据规整化的全局分布调整用于无声帧的随机值，并将调整后的随机值赋值给待识别语音信号中的无声帧，作为无声帧的声调特征；特征合并模块206合并待识别语音信号中的有声帧和无声帧的非声调声学特征和声调特征以及可能的语音层级参数，并将合并的特征及参数与模型库103中存储的模型进行匹配，以识别待识别语音信号中的帧及声学单元。

以上参照附图描述了根据本发明的实施例的用于在自动语音识别中应用声调特征的装置200，应指出的是，以上描述和图示仅为示例，而不是对本发明的限制。在本发明的其他实施例中，该装置200可具有更多、更少或不同的模块，且各模块之间的连接、包含、功能等关系可以与所描述和图示的不同。

现参照附图7，其示出了根据本发明的实施例的用于在自动语音识别中应用声调特征的方法。如图所示，该方法包括以下步骤：

在步骤703，估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布。

在步骤704，根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化。

在步骤705，根据规整化的全局分布调整用于无声帧的随机值，以便将调整后的随机值赋值给语音信号中的无声帧，作为无声帧的声调特征。

根据本发明的实施例，所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化包括：

使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差；以及

使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值。

根据本发明的实施例，所述使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值包括：

使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。

根据本发明的实施例，所述根据规整化的全局分布调整用于无声帧的随机值包括：

对用于无声帧的随机值进行线性变换，以使得线性变换后的随机值的全局分布为所述规整化的全局分布。

根据本发明的实施例，该方法还包括以下可选步骤：

在步骤701，区分语音信号中的有声帧和无声帧；以及

在步骤702，提取有声帧的声调特征。

根据本发明的实施例，该方法还包括以下可选步骤706：合并有声帧和无声帧的非声调声学特征以及所述声调特征，以用于自动语音识别。

根据本发明的进一步的实施例，所述合并步骤706进一步包括：合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数，以用于自动语音识别。

以上参照附图描述了根据本发明的实施例的用于在自动语音识别中应用声调特征的方法，应指出的是，以上描述和图示仅为示例，而不是对本发明的限制。在本发明的其他实施例中，该方法可具有更多、更不或不同的步骤，且各步骤之间的顺序、包含、功能等关系可以与所描述和图示的不同。例如，在本发明的一些实施例中，该方法也可以不包括上述步骤701、702和706。

本发明可以硬件、软件、或硬件与软件的结合的方式实现。本发明可以集中的方式在一个计算机系统中实现，或以分布方式实现，在这种分布方式中，不同的部件分布在若干互连的计算机系统中。适于执行本文中描述的各方法的任何计算机系统或其它装置都是合适的。一种典型的硬件和软件的组合可以是带有计算机程序的通用计算机系统，当该计算机程序被加载和执行时，控制该计算机系统而使其执行本文中描述的方式。

本发明也可体现在计算机程序产品中，该程序产品包含使能实现本文中描述的方法的所有特征，并且当其被加载到计算机系统中时，能够执行这些方法。

尽管已参照优选实施例具体示出和说明了本发明，但是本领域内的那些技术人员应理解，可在形式和细节上对其进行各种改变而不会背离本发明的精神和范围。

Claims

1.一种在自动语音识别中应用声调特征的装置，包括：

分布估计模块，被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布；

规整化模块，被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化；以及

随机值调整模块，被配置为根据规整化的全局分布调整用于无声帧的随机值，以便将调整后的随机值赋值给语音信号中的无声帧，作为无声帧的声调特征。

2.根据权利要求1的装置，其中，所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化包括：

使用于无声帧的随机值的全局分布的均值适当偏离有声帧的声调特征的全局分布的均值。

3.根据权利要求1的装置，其中，所述使用于无声帧的随机值的全局分布的均值适当偏离有声帧的声调特征的全局分布的均值包括：

4.根据权利要求1的装置，其中，所述根据规整化的全局分布调整用于无声帧的随机值包括：

5.根据权利要求1的装置，还包括：

帧区分模块，被配置为区分语音信号中的有声帧和无声帧；以及

声调特征提取模块，被配置为提取有声帧的声调特征。

6.根据权利要求1的装置，还包括：

特征合并模块，被配置为合并有声帧和无声帧的非声调声学特征以及所述声调特征，以用于自动语音识别。

7.根据权利要求6的装置，其中，所述特征合并模块进一步被配置为：

合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数，以用于自动语音识别。

8.根据权利要求7的装置，其中，所述语音层级参数反映了语音信号中的周期性的强弱。

9.一种在自动语音识别中应用声调特征的方法，包括：

估计语音信号中的有声帧的声调特征的全局分布以及用于将无声帧的随机值的全局分布；

根据有声帧的声调特征的全局分布对随机值的全局分布进行规整化；以及

根据规整化的全局分布调整随机值，以便将调整后的随机值赋值给语音信号中的无声帧，作为无声帧的声调特征。