CN102237086A

CN102237086A - 用于语音识别设备的补偿装置和方法

Info

Publication number: CN102237086A
Application number: CN2010101737159A
Authority: CN
Inventors: 苏腾荣; 朱璇; 张华�; 严基完
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2010-04-28
Filing date: 2010-04-28
Publication date: 2011-11-09

Abstract

提供了一种用于语音识别设备的补偿装置和方法，所述补偿装置包括：模型训练模块，使用期望最大化算法对预置声学模型执行训练，输出非特定说话人的声学模型；全局补偿模块，使用声学模型对影响声学数据的特性的特定域和特定装置进行补偿，输出全局适应的声学模型；目标补偿模块，使用全局适应的声学模型对特定说话人的变化进行补偿，输出说话人适应的声学模型；环境补偿模块，使用说话人适应的声学模型对特定环境的变化进行补偿，输出环境适应的声学模型。

Description

用于语音识别设备的补偿装置和方法

技术领域

本发明涉及一种补偿装置和方法，更具体地，涉及一种用于语音识别设备的补偿装置和方法。

背景技术

在过去几十年中，自动语音识别(ASR)已经在干净环境中获得了很好的效果。在这样的环境中，几个非特定说话人的大词汇量连续语音识别(LargeVocabulary Continuous Speech Recognition，LVCSR)系统已经获得5％～10％之间的词错误率。然而，在真实噪声环境中，ASR系统的性能显著降低。对抗装置、说话人、信道、背景等中的声音变化的稳健自动语音识别技术已经成为用于实用ASR系统的关键技术。

大体上来说，实用ASR系统需要对以下三部分的声音变化进行补偿：特定域或特定装置中的数据；不同性别、年龄、声音特点的说话人；包括背景、信道等的环境。这样，能够使得ASR系统更加稳健。具体地，对于嵌入式实用ASR系统，补偿任务的难点在于不充足的训练数据、不同的用户以及变化的噪声环境。

许多方法已经对用于说话人和环境的补偿进行了研究。对于说话人补偿，研究主要集中于模型自适应和特征归一化，所述模型自适应处于主导地位。对于环境补偿，研究主要集中于特征归一化、噪声估计和模型自适应，所述特征归一化、噪声估计处于主导地位。由于模型自适应对说话人和环境两者都有效，因此变得越来越常见。

在现有技术的实用ASR中，仅使用一阶补偿，用于仅补偿说话人或环境；或者，使用二阶补偿来分别补偿说话人、话筒和环境。在这两种方案中，最大似然线性回归(Maximum Likelihood Linear Regression，MLLR)是最常用的方法。对于一些基于便携式装置的实用ASR，对于说话人和装置的补偿必须按照不同的阶进行，并且MLLR对于时变环境来说会不够快速。

发明内容

本发明提供了一种用于语音识别设备的补偿装置，所述补偿装置包括：模型训练模块，使用期望最大化算法对预置声学模型执行训练，输出非特定说话人的声学模型；全局补偿模块，使用声学模型对影响声学数据的特性的特定域和特定装置进行补偿，输出全局适应的声学模型；目标补偿模块，使用全局适应的声学模型对特定说话人的变化进行补偿，输出说话人适应的声学模型；环境补偿模块，使用说话人适应的声学模型对特定环境的变化进行补偿，输出环境适应的声学模型。

所述全局补偿模块可包括：统计累加模块，对预置的自适应语音和自适应文本进行统计累加计算；最大后验概率自适应模块，通过使用所述统计累加模块统计累加的结果，对模型训练模块输出的非特定说话人声学模型执行最大后验概率自适应；二次迭代均值最大似然线性回归自适应模块，通过使用所述统计累加模块统计累加的结果，对所述最大后验概率自适应模块的执行结果执行二次迭代均值最大似然线性回归自适应，输出全局适应的声学模型。

所述目标补偿模块可包括：解码模块，通过使用全局适应的声学模型对输入语音进行解码，输出识别文本；统计累加模块，对所述输入语音和识别文本进行统计累加计算；均值最大似然线性回归自适应模块，使用所述统计累加模块统计累加的结果对全局适应的声学模型执行均值最大似然线性回归自适应，输出说话人适应的声学模型，并将说话人适应的声学模型反馈到所述均值最大似然线性回归自适应模块。

所述环境补偿模块可包括：解码模块，通过使用说话人适应的声学模型对输入语音进行解码，输出识别文本；统计累加模块，对所述输入语音和识别文本进行统计累加计算；本征音自适应模块，使用所述统计累加模块统计累加的结果对说话人适应的声学模型执行本征音自适应，输出环境适应的声学模型，并将环境适应的声学模型反馈到所述本征音自适应模块。

本发明提供了一种用于语音识别设备的补偿方法，所述补偿方法包括：(a)使用期望最大化算法对预置声学模型执行训练，输出非特定说话人的声学模型；(b)使用声学模型对影响声学数据的特性的特定域和特定装置进行补偿，输出全局适应的声学模型；(c)使用全局适应的声学模型对特定说话人的变化进行补偿，输出说话人适应的声学模型；(d)使用说话人适应的声学模型对特定环境的变化进行补偿，输出环境适应的声学模型。

所述步骤(b)可包括：(b1)对预置的自适应语音和自适应文本进行统计累加计算；(b2)通过使用所述统计累加的结果，对所述非特定说话人声学模型执行最大后验概率自适应；(b3)通过使用所述统计累加的结果，对所述最大后验概率自适应的执行结果执行二次迭代均值最大似然线性回归自适应，输出全局适应的声学模型。

所述步骤(c)可包括：(c1)使用全局适应的声学模型对输入语音进行解码，输出识别文本；(c2)对所述输入语音和识别文本进行统计累加；(c3)使用所述统计累加结果对全局适应的声学模型执行均值最大似然线性回归自适应，输出说话人适应的声学模型，并将说话人适应的声学模型反馈到所述均值最大似然线性回归自适应操作。

所述步骤(d)可包括：(d1)通过使用说话人适应的声学模型对输入语音进行解码，输出识别文本；(d2)对所述识别文本进行统计累加计算；(d3)使用所述统计累加的结果对说话人适应的声学模型执行本征音自适应，输出环境适应的声学模型，并将环境适应的声学模型反馈到所述本征音自适应操作。

本发明提供了一种语音识别设备，包括上述的补偿装置。

将在接下来的描述中部分阐述本发明另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明的实施而得知。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的和特点将会变得更加清楚，其中：

图1是示出根据本发明示例性实施例的用于语音识别设备的补偿装置的框图；

图2是示出根据本发明示例性实施例的全局补偿模块的框图；

图3是示出根据本发明示例性实施例的目标补偿模块的框图；

图4是示出根据本发明示例性实施例的环境补偿模块的框图；

图5是示出根据本发明示例性实施例的目标补偿模块的选项的接口的示图；

图6是示出根据本发明示例性实施例的环境补偿模块的选项的接口的示图；

图7是示出根据本发明示例性实施例的用于语音识别设备的补偿方法的流程图。

具体实施方式

现在，详细描述本发明的实施例，其示例在附图中表示，其中，相同的标号始终表示相同的部件。

图1是示出根据本发明示例性实施例的用于语音识别设备的补偿装置的框图。

应该理解，根据本发明示例性实施例的补偿装置能够用于任何适合的语音识别设备，同时，所述语音识别设备需要嵌入到能够执行各种语音识别相关应用(诸如，信息检索、语音网页搜索、语音输入等)的装置中，诸如，移动电话、个人数字助理(PDA)等，但本发明不限于此。

如图1所示，根据本发明示例性实施例的用于语音识别设备的补偿装置包括：模型训练模块100、全局补偿模块200、目标补偿模块300和环境补偿模块400。这里，模型训练模块100和全局补偿模块200在根据本发明示例性实施例的语音识别设备嵌入到能够执行各种语音识别相关应用的装置之前进行操作，即，在制造所述装置的过程中完成模型训练模块100和全局补偿模块200的操作。

在根据本发明示例性实施例的补偿装置中，音素集是总共具有97个音素的分段有调音素集，声学模型结构是每个状态具有256高斯分量的半连续HMM(隐马尔可夫)模型。在模型训练模块100中，使用EM(期望最大化)算法执行声学模型的传统训练处理，输出非特定说话人的声学模型(speaker-independent acoustic model，SI-AM)，所述声学模型也是非特定数据和非特定环境的。

图2是示出根据本发明示例性实施例的全局补偿模块200的框图。

如图2所示，全局补偿模块200包括统计累加模块201、最大后验概率(Maximum a Posteriori，MAP)自适应模块202和二次迭代均值MLLR自适应模块203。全局补偿模块200主要用于对影响声学数据的特性的特定域和特定装置进行补偿。然而，全局补偿模块200也可以用于对非特定性别和年龄的说话人进行补偿。

为了获得较好的性能，为全局补偿模块200预置了大量的特定域和特定装置的自适应数据，并使用具有较好渐进性的两个自适应方法，即，最大后验概率(MAP)和最大似然线性回归(MLLR)。在本实施例中，自适应数据是彼此正确对应的自适应语音和自适应文本，但是应该理解，所述自适应数据不限于此，还可以是任何适用的自适应数据。

统计累加模块201对预置的自适应语音和自适应文本进行统计累加计算。

MAP自适应模块202通过使用统计累加模块201统计累加的结果，对模型训练模块100输出的SI-AM执行MAP自适应，以更新声学模型的均值参数和协方差参数，这里使用贝叶斯插值来估计均值参数。这里，不对MAP自适应进行迭代。应该理解，所述MAP自适应及其相关操作属于现有技术，为了避免模糊本发明的主题，在此不作详细介绍。

二次迭代均值MLLR自适应模块203通过使用统计累加模块201统计累加的结果对MAP自适应模块202的输出执行二次迭代均值MLLR自适应，以更新均值参数。二次迭代均值MLLR自适应操作完成后输出全局适应的声学模型(globally adapted acoustic model，GA-AM)。应该理解，所述二次迭代均值MLLR自适应及其相关操作属于现有技术，为了避免模糊本发明的主题，在此不作详细介绍。

图3是示出根据本发明示例性实施例的目标补偿模块300的框图。

如图3所示，目标补偿模块300包括解码模块301、统计累加模块302和均值MLLR自适应模块303。目标补偿模块300用于对特定说话人的变化进行补偿，即，用于对当前用户的特性进行补偿。然而，目标补偿模块300也可以用于补偿平稳噪声或信道。

目标补偿模块300在所述能够执行各种语音识别相关应用的装置上执行目标补偿，将所述装置当前执行的语音识别相关应用中创建的用户的输入语音作为自适应数据。应该理解，这里也可以使用预置的自适应语音和自适应文本作为自适应数据。在目标补偿模块300中，为了快速补偿新用户，需要使用快速说话人自适应方法，在此应用在全局补偿模块200中使用的均值MLLR自适应来实现快速说话人自适应方法。

应该注意，仅少量的用户输入语音可以使均值MLLR自适应有效，故目标补偿模块300使用增量自适应方案，即，随着用户的语音输入不断地进行目标补偿，以获得自适应效果更好的声学模型。

解码模块301使用全局补偿模块200输出的GA-AM对用户的输入语音进行解码操作，输出识别文本。

统计累加模块302对所述输入语音和识别文本进行统计累加计算。所述输出的识别文本可以用于各种语音识别相关应用，例如，可以显示所述输出的识别文本，但是本发明不限于此。

应该理解，上述解码和统计累加的操作属于现有技术，为了避免模糊本发明的主题，在此不作详细介绍。

均值MLLR自适应模块303通过使用统计累加模块302统计累加的结果对全局补偿模块200输出的GA-AM进行均值MLLR自适应，输出说话人适应的声学模型(speaker adapted acoustic model，SA-AM)，并将所述输出反馈到均值MLLR自适应模块303，用于下一用户输入语音的均值MLLR自适应。这里，不对均值MLLR自适应进行迭代。应该理解，所述均值MLLR自适应属于现有技术，为了避免模糊本发明的主题，在此不作详细介绍。

图4是示出根据本发明示例性实施例的环境补偿模块400的框图。

如图4所示，环境补偿模块400包括解码模块401、统计累加模块402和本征音自适应模块403。环境补偿模块400用于对特定环境的变化进行补偿，即，用于对当前环境(诸如，背景噪声)进行补偿。然而，环境补偿模块400也可对用户的情绪、健康等变化进行补偿。

环境补偿模块400在所述能够执行各种语音识别相关应用的装置上执行环境补偿，通过将所述装置当前执行的语音识别相关应用中创建的用户的输入语音作为自适应数据。应该理解，这里也可以使用预置的自适应语音和自适应文本作为自适应数据。由于能够执行各种语音识别相关应用的装置的环境总是随时间变化的，故在环境补偿模块400中需要使用极快速自适应方法，在此应用本征音自适应来实现极快速说话人自适应方法。

应该注意，仅少量的用户输入语音可以使本征音自适应有效，故环境补偿模块400使用增量自适应方案，即，随着用户的语音输入不断地进行环境补偿，以获得自适应效果更好的声学模型。

解码模块401对目标补偿模块300输出的SA-AM以及用户的输入语音进行解码操作，输出识别文本。

统计累加模块402对所述输入语音和识别文本进行统计累加计算。所述输出的识别文本可以用于各种语音识别相关应用，例如，可以显示所述输出的识别文本，但是本发明不限于此。

本征音自适应模块403通过使用统计累加模块402统计累加的结果对目标补偿模块300输出的SA-AM进行本征音自适应，输出环境适应的声学模型(environment adapted acoustic model，EA-AM)，并将所述输出反馈到本征音自适应模块403，用于下一用户输入语音的均值MLLR自适应。在该步骤中，不对本征音自适应进行迭代操作。应该理解，所述本征音自适应操作属于现有技术，为了避免模糊本发明的主题，在此不作详细介绍。

应该理解，目标补偿模块300和环境补偿模块400并行运行，即，它们的输入语音相同，并且环境补偿模块400总是基于从目标补偿模块300输出的声学模型来执行环境补偿。同时，目标补偿模块300和环境补偿模块400可以在用户输入一次语音就进行一次目标补偿，也可以在用户输入几次语音才进行一次目标补偿，这可以在所述能够执行各种语音识别相关应用的装置出厂的时候预定也可以由用户自己设置。

图5是示出根据本发明示例性实施例的目标补偿模块300的选项的接口的示图。

参照图5，存在三种用户选项：非特定用户选项、新用户选项和选择用户选项。

非特定用户选项保持使用从装置的所有用户的输入语音自适应的声学模型。

新用户选项将创建用于特定新用户的声学模型，所述声学模型是从非特定用户的声学模型自适应得到的，使用当前应用中所述特定新用户的输入语音来对所述非特定用户的声学模型进行自适应。

选择用户选项用于从之前保存的用户的声学模型中进行选择，当选择了一个声学模型时，对所述声学模型进行自适应。

应该理解，用于目标补偿300的选项选择的实现不限于图5所示。

图6是示出根据本发明示例性实施例的环境补偿模块400的选项的接口的示图。

参照图6，存在三种环境选项：非特定环境选项、新环境选项和选择环境选项。

非特定环境选项保持使用从装置遇到的所有环境的输入语音自适应的声学模型。

新环境选项将创建用于特定新环境的声学模型，所述声学模型是从非特定环境的声学模型自适应得到的，使用当前应用中特定新用户在所述特定新环境中的输入语音来对所述非特定环境的声学模型进行自适应。

选择环境选项用于从之前保存的声学模型中进行选择，当选择了一个声学模型时，对所述声学模型进行自适应。

应该理解，图5和图6所示的两个选项接口是声学模型的两个属性，并且可以随时进行选择和更改，诸如，当分别选择非特定用户选项和非特定环境选项时，将使用从装置的所有用户在所有环境的输入语音自适应的声学模型作为目标补偿模块300的输入；当分别选择非特定用户选项和新环境选项时，将创建用于特定新环境的从非特定用户的输入语音自适应的声学模型作为目标补偿模块300的输入；当仅选择选择环境选项时，将从之前保存的非特定用户在各个环境中的输入语音自适应的声学模型中进行选择，作为目标补偿模块300的输入，诸如此类，在此不再累述。

在操作701，使用期望最大化算法对预置声学模型执行训练，输出非特定说话人的声学模型。

在操作702，使用声学模型对影响声学数据的特性的特定域和特定装置进行补偿，输出全局适应的声学模型。更具体地，对预置的自适应语音和自适应文本进行统计累加计算；通过使用所述统计累加的结果，对声学模型训练输出的非特定说话人声学模型执行最大后验概率自适应；通过使用所述统计累加的结果，对所述最大后验概率自适应的执行结果执行二次迭代均值最大似然线性回归自适应，输出全局适应的声学模型。

在操作703，使用全局适应的声学模型对特定说话人的变化进行补偿，输出说话人适应的声学模型。更具体地，通过使用全局适应的声学模型对输入语音进行解码，输出识别文本；对所述输入语音和识别文本进行统计累加计算；使用所述统计累加的结果对全局适应的声学模型执行均值最大似然线性回归自适应，输出说话人适应的声学模型，并将说话人适应的声学模型反馈到所述均值最大似然线性回归自适应操作。

在操作704，使用说话人适应的声学模型对特定环境的变化进行补偿，输出环境适应的声学模型。更具体地，通过使用说话人适应的声学模型对输入语音进行解码，输出识别文本；对所述输入语音和识别文本进行统计累加计算；使用所述统计累加的结果对说话人适应的声学模型执行本征音自适应，输出环境适应的声学模型，并将环境适应的声学模型反馈到所述本征音自适应操作。

通过本发明，可以在不同情况下在各种语音识别相关应用中使用所有声学模型，并且，目标补偿模块300和环境补偿模块400的组合提供了能够立即适应于不同用户和不同环境的声学模型。

虽然已经参照示例性实施例示出和描述了本发明，但是本领域的技术人员应该理解：在不脱离由权利要求定义的本发明的精神和范围的情况下，可以进行形式和细节上的各种改变。

Claims

1.一种用于语音识别设备的补偿装置，所述补偿装置包括：

模型训练模块，使用期望最大化算法对预置声学模型执行训练，输出非特定说话人的声学模型；

全局补偿模块，使用声学模型对影响声学数据的特性的特定域和特定装置进行补偿，输出全局适应的声学模型；

目标补偿模块，使用全局适应的声学模型对特定说话人的变化进行补偿，输出说话人适应的声学模型；

环境补偿模块，使用说话人适应的声学模型对特定环境的变化进行补偿，输出环境适应的声学模型。

2.如权利要求1所述的补偿装置，其中，所述全局补偿模块包括：

统计累加模块，对预置的自适应语音和自适应文本进行统计累加计算；

最大后验概率自适应模块，通过使用所述统计累加模块统计累加的结果，对模型训练模块输出的非特定说话人声学模型执行最大后验概率自适应；

二次迭代均值最大似然线性回归自适应模块，通过使用所述统计累加模块统计累加的结果，对所述最大后验概率自适应模块的执行结果执行二次迭代均值最大似然线性回归自适应，输出全局适应的声学模型。

3.如权利要求1所述的补偿装置，其中，所述目标补偿模块包括：

解码模块，通过使用全局适应的声学模型对输入语音进行解码，输出识别文本；

统计累加模块，对所述输入语音和识别文本进行统计累加计算；

均值最大似然线性回归自适应模块，通过使用所述统计累加模块统计累加的结果，对全局适应的声学模型执行均值最大似然线性回归自适应，输出说话人适应的声学模型，并将说话人适应的声学模型反馈到所述均值最大似然线性回归自适应模块。

4.如权利要求1所述的补偿装置，其中，所述环境补偿模块包括：

解码模块，通过使用说话人适应的声学模型对输入语音进行解码，输出识别文本；

本征音自适应模块，通过使用所述统计累加模块统计累加的结果，对说话人适应的声学模型执行本征音自适应，输出环境适应的声学模型，并将环境适应的声学模型反馈到所述本征音自适应模块。

5.一种用于语音识别设备的补偿方法，所述补偿方法包括：

(a)使用期望最大化算法对预置声学模型执行训练，输出非特定说话人的声学模型；

(b)使用声学模型对影响声学数据的特性的特定域和特定装置进行补偿，输出全局适应的声学模型；

(c)使用全局适应的声学模型对特定说话人的变化进行补偿，输出说话人适应的声学模型；

(d)使用说话人适应的声学模型对特定环境的变化进行补偿，输出环境适应的声学模型。

6.如权利要求5所述的补偿方法，其中，所述步骤(b)包括：

(b1)对预置的自适应语音和自适应文本进行统计累加计算；

(b2)通过使用所述统计累加的结果，对所述非特定说话人声学模型执行最大后验概率自适应；

(b3)通过使用所述统计累加的结果，对所述最大后验概率自适应的执行结果执行二次迭代均值最大似然线性回归自适应，输出全局适应的声学模型。

7.如权利要求5所述的补偿方法，其中，所述步骤(c)包括：

(c1)通过使用全局适应的声学模型对输入语音进行解码，输出识别文本；

(c2)对所述输入语音和识别文本进行统计累加计算；

(c3)通过使用所述统计累加的结果，对全局适应的声学模型执行均值最大似然线性回归自适应，输出说话人适应的声学模型，并将说话人适应的声学模型反馈到所述均值最大似然线性回归自适应操作。

8.如权利要求5所述的补偿方法，其中，所述步骤(d)包括：

(d1)通过使用说话人适应的声学模型对输入语音进行解码，输出识别文本；

(d2)对所述输入语音和识别文本进行统计累加计算；

(d3)通过使用所述统计累加的结果，对说话人适应的声学模型执行本征音自适应，输出环境适应的声学模型，并将环境适应的声学模型反馈到所述本征音自适应操作。

9.一种语音识别设备，包括权利要求1～4之一所述的补偿装置。