CN1342969A

CN1342969A - 用于识别语音的方法

Info

Publication number: CN1342969A
Application number: CN01132580A
Authority: CN
Inventors: R·坎佩; S·戈伦茨
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2000-09-06
Filing date: 2001-09-06
Publication date: 2002-04-03
Anticipated expiration: 2021-09-06
Also published as: EP1187096A1; US6999929B2; US20020046024A1; JP2002123286A; CN1183511C; KR20020020237A

Abstract

这里给出了一种用于识别语音的方法,其中识别过程以下述方式开始:采用开始声学模型(SAM)并且通过除去或消除对于描述说话行为和当前说话者质量无用的模型函数混合分量(MFM_jk),当前声学模型(CAM)被修正。因此,通过适应当前说话者,声学模型(SAM,CAM)的尺寸被减少,因此使得执行速度加快,并提高识别效率。

Description

用于识别语音的方法

技术领域

本发明涉及根据权利要求1的序言部分识别语音的方法，特别涉及用于识别语音的方法，由此通过说话者自适应，用于声学模型的模型函数混合的数量被降低，更特别的是，涉及降低基于HMM的说话者自适应语音识别系统中的高斯混合数。

背景技术

现在，用于自动语音识别的方法变的越来越重要。用于识别语音的传统方法中的特殊问题是不得不同时实现相反的目标。一方面，该方法和设备应该尽可能灵活以便处理大量的说话者行为，特别是有多种发音，口音，语调等等的发音行为。然而，另一方面，用于识别语音的方法和设备应该很小以便很容易实现，以具有快速的性能和较高的识别效率，特别是具有低成本。

现有技术中用于识别语音的方法利用说话者自适应方法来变换所依据的声学模型以更好地适应声学属性以及当前或特定说话者的发音行为。每个声学模型的基础基本上是一组模型函数的混合。需要很多模型函数混合来覆盖大量的，变化的声学行为，特别是涉及音素，音位，子字单元，音节，字或其它的声学特性。在传统用于识别语音的方法中，通过在识别过程中，特别基于至少一个已经获得的识别结果，至少部分改变模型函数混合的模型函数混合分量，当前声学模型被调整。

这些传统的用于识别语音的说话者自适应方法的一个主要缺点是这些模型实际上采用了大量的模型函数混合和模型函数混合分量。因此，这些用于识别语音的普通方法必须执行等价的大量检查、比较和判断工作以便使得当前声学模型适合当前说话者，由于计算和检查的负担，用于识别语音的传统方法的实现必须基于具有高容量存储设备和快速计算单元的高性能计算机。

本发明的一个目标是给出一种用于识别语音的方法，该方法具有快速性能，并且计算负担降低而且具有较高的识别率。

发明内容

该目标是通过根据权利要求的一般性部分结合权利要求1特征部分的特征的语音识别方法实现的。用于识别语音的本发明方法的优选和有利实施方案是从属权利要求的主题。

根据本发明用于识别语音的方法的特征在于识别过程是从使用一个开始声学模型作为所述当前声学模型而开始的。此外，在给定的所执行识别步骤和/或所获得识别结果之后，基于所述当前声学模型可以产生一个修正后的声学模型，其方式是消除或除去涉及至少给定数量的已获得识别结果的具有可忽略效应的模型函数混合分量。此外，在每种情况下，利用所述修正后的声学模型作为所述当前声学模型的识别过程会继续-特别是到下一个识别步骤。

因此，本发明的一个基本思想是利用大量的混合，采用一个开始声学模型来覆盖大量的、变化的说话者声学属性。通过从当前声学模型中除去或消除对描述或模拟当前说话者的说话或声学行为和/或特性不起作用或仅起很小作用的模型函数混合分量，模型函数组、特别是必须参考其作用来检查的模型函数混合以及其分量被减少。如果特定的模型函数混合分量基本上不对实现或描述识别结果起作用和/或不对获得特定识别结果起作用，它被跳过。因此，当前识别过程中的下述识别步骤在不用检查这些跳过的模型函数混合分量的情况下被实现，其中的分量被分类为在过去的识别过程中可忽略的。

与用于识别语音的现有技术或传统方法相比，在识别过程刚开始时，本发明方法可以为给定当前说话者使用与传统方法相同的声学模型。但是随着识别结果增多，并且因此有更多的识别步骤，根据本发明，模型函数混合分量的数量被降低，因此，消除了为当前识别过程中下面识别步骤计算调整后的当前声学模型中的剩余模型函数混合分量的负担。其结果是，本发明方法可以执行的更快，同时需要更少的存储容量，特别是不需要降低识别率或效率。

根据本发明的优选实施方案，在每个固定和/或预定的所执行识别步骤之后，和/或获得识别结果之后，特别是在每个单一识别步骤和/或结果之后，修正后的声学模型被重复产生。基于瞬时更新的当前声学模型，在其后执行当前声学模型自适应的步骤数可以被选择用于平衡期望的本发明方法的快速性能和所期望的高可靠识别。

与预定和/或固定一些识别步骤/结果，并在其后执行自适应的做法不同的是，根据本发明的特定优选实施方案，识别步骤的数目或结果的数目可以被确定和/或在识别和/或自适应过程中改变。

根据本发明方法的优选实施方案，一种声学模型被使用，特别是用作每种情况中的所述开始声学模型和/或所述当前声学模型-其中，模型函数混合至少包括分布函数或类似函数。特别的，高斯类型的函数为优选函数，因为它们适于模拟说话者的声学特性。

在用于识别语音的本发明方法的另一个有利实施方案中，在每种情况中，模型函数混合基于一个函数矢量和/或加权因子矢量，每个矢量特别具有有限或相等数量的分量。这样做的特别优越之处是，每个函数矢量分量被分配一个特殊的加权因子矢量，当模拟当前说话者的声学特性时，该矢量描述其幅度或作用。对于不同的模型函数混合，可以选择独立数量的函数矢量或加权因子矢量分量。最好的是，对于所有模型函数混合，函数矢量和加权因子矢量，分量数相同。

一个特殊的优点是，对于不同的模型函数混合是如何构造的给出了一个特殊的简单描述。最好的是，每种情况中的模型函数混合被表示为被其加权因子矢量分量加权的矢量函数分量的线性组合或重叠。特别是，模型函数混合可以由加权因子矢量和函数矢量的标量积或内积，特别是根据下面公式表示：

MFMj = Σ_{k = 1}^{n_{j}} a_{j, k} f_{j, k} = {a_{j}}^{T} f_{j} = a_{j} • f_{j}

其中MFMj表示第j个模型函数混合，a_j表示第j个加权因子矢量，a_j，k是其第k个矢量，f_j表示第j个函数矢量，f_j，k是其第k个分量，a_j ^T表示a_j的转置，·表示矢量的标量积或内积。这种结构使得能够对涉及说话行为的模型函数混合很容易估计，计算和重构，并且很容易地在当前声学模型中估计其作用。

用于识别的本发明方法的基础是为了描述当前说话者声学特性而定义模型函数混合分量和其作用。根据另一个优选实施方案，模型函数混合分量在下面情况下被划分为可忽略不计的：其加权因子矢量分量的绝对值超过了给定阈值。该阈值定义了一个限制值，该限制值必须由模型函数混合分量的幅值即，适当的加权因子矢量分量来达到，使得不同的模型函数混合分量被认为对于当前说话者的声学特性的描述和模拟起作用。

一般来说，仅有一次低于某个阈值并不足以将其分类为可忽略。因此，有利的是，当不同的加权因子矢量分量超过给定阈值给定次数时，将其作用划分为可忽略的，尤其是在识别结果和/或识别步骤分别已经获得或执行时会这样。这意味着在说话行为的评估和当前声学模型的自适应中，将会检测特定的加权因子矢量分量低于给定阈值的次数是否超过给定的次数。

此外，有必要将低于给定阈值的情况与给定数量的其中模型函数混合分量对于当前说话者的说话行为的描述和模拟起作用的情况区分开。发生点或偶发时间可能不会导致划分成可忽略。在这些情况中，如果低于给定阈值的情况是相连或相关，就可能给出(其)可忽略的分类。

在用于识别语音的本发明方法的另一个优选实施方案中，阈值被预定，特别是在识别过程开始之前和/或每个所述模型函数混合分量独立设立。该种手段使得在其自适应和评估过程中，可以对开始声学模型和其行为进行特殊设计。基于特殊的阈值组，一些模型函数混合分量或该模型函数混合可以用特殊的方法评估。

在当前声学模型的自适应和评估过程中，有必要在识别过程中调整、确定和/或修正阈值而不是保持其固定。可以基于涉及流入语音流并特别涉及特定统计和/或噪声数据的信号质量信息来调整和修正阈值。

本发明可以进一步总结如下：

传统上，说话者自适应方法变换语音识别器或语音识别方法的基础声学模型，使得它们很好地适应声学特性以及当前说话者的说话行为。声学模型的基础是大量的模型函数混合，特别是高斯型的函数混合。有必要捕捉大量的这种模型函数混合，并覆盖涉及口呼音素，音节，符号，字，子字单元或类似元素的声学变量。

尽管，根据上面描述的方法，传统的语音识别方法至少可以部分处理所述的大量的说话行为变化。它们却苦于在当前识别过程中对大量模型函数混合和其分量进行计算，即使这些对于描述当前说话者是不必要的。在几个自适应步骤之后，这些模型被调整，使得更好地与新说话者的声学特性匹配。因此，对于该特定说话者，这些模型会被调整的更多。这意味着，不再需要使用很多混合，因为其变化性变的很小了。这一点由下面事实表示：即，对于该说话者的混合作用的加权将更高。

因此，本发明方法建议将当前声学模型中的模型函数混合和混合分量数降低到实际需要用于描述当前说话者的这种模型函数混合分量数。这节省了执行时间，使得执行的更快，因此降低了存储容量的负担。

在对当前说话者的自适应之后，涉及所有可能说话者的当前声学模型，特别是开始声学模型的大量变化不再需要。因此，作为当前模型的调整后声学模型中的较少的模型函数混合和模型函数混合分量足以描述并模拟当前说话者。只有这些模型函数混合分量在自适应过程中保持并对于获得正确的识别结果是必要的。

对于模型函数混合分量，例如高斯分量或类似分量，它们经常存在于识别过程或语音信号中-即它们在过去的识别步骤中匹配的很好，所获得的识别结果或观察的语音帧-混合加权或加权因子矢量分量缓慢增加。对于其它没有观察的模型函数混合分量，加权因子矢量分量被降低。如果模型函数混合分量的这种混合加权低于上面描述的阈值，所述模型函数混合分量被抛弃。因此，它将不会在以后计算。因此，节省了执行时间和内存。

下面，基于优选实施方案并参考通过方框图描述所述优选实施方案的附图，用于识别语音的本发明方法被更详细地描述。

附图简介

附图的方框图给出用于识别语音的本发明方法10的优选实施方案。

优选实施例详述

在第一步11中，语音信号被从当前说话者接收并预处理。为连续接收语音流一部分的语音信号被传送给语音识别处理12的核心，在步骤13中，可从此获得识别结果。根据识别步骤12并根据步骤13的识别结果，在线说话者自适应被初始化。在在线说话者自适应14过程中，均值矢量，方差和混合加权a_j，即高斯混合的加权因子矢量分量aj被修正。

在下一个步骤15中，根据已经执行的当前识别过程的识别步骤12，混合加权aj被计算。在计算过程中，高斯或一般的模型函数混合分量被抛弃并从当前声学模型中除去，该模型具有低于给定阈值C_j，k的加权因子矢量a_j，k。

在下面步骤16中，剩下的加权因子矢量分量被归一化以便为每个模型函数混合给出相加值1。

在下面步骤17中，当前声学模型CAM的内部结构和数据被调整并更新，包括隐马尔可夫模型等的内部数据结构，使得形成修正后的声学模型MAM。

在下面步骤18中，当前模型CAM被设置成步骤17的修正后的声学模型MAM。在步骤19，最后，当前声学模型CAM被准备指导识别过程10的下一个识别步骤12。

根据本发明的另一个优选实施方案，在用于说话者自适应的修正后声学模型MAM的其它分量中，加权因子矢量a_j，k被修正，特别是减少某些低于某个阈值的加权因子矢量a_j，k。

Claims

1.用于识别语音的方法，

其中对于识别过程使用了基于一组模型函数混合(MFM1，…，MFMn)的当前声学模型(CAM)，

其中在识别过程中，所述当前声学模型(CAM)被调整，其方式是基于至少一个已经得到的识别结果，至少部分改变模型函数混合(MFMj)的模型函数混合分量(MFMjk)的作用，其特征在于：

识别过程是从将起始声学模型(SAM)用作所述当前声学模型(CAM)开始的，

在执行了给定数量的执行步骤和/或获得识别结果之后，基于所述当前声学模型(CAM)修正的声学模型(MAM)被产生，其方式是根据已经获得的至少给定数量的识别结果，消除具有可忽略作用的模型函数混合分量(MFMjk)，

在每种情况中，利用所述修正的声学模型(MAM)作为所述当前声学模型(CAM)使识别过程继续。

2.权利要求1的方法，其中

在每个固定和/或预定数量的识别步骤执行之后和/或获得识别结果之后，特别是在执行单个识别步骤和/或获得单个识别结果之后重复产生修正后的声学模型(MAM)。

3.根据任何一个前述权利要求的方法，其中

其后产生修正声学模型(MAM)的识别步骤和/或识别结果的数目是在当前识别过程和/或自适应过程中确定和/或改变。

4.根据任何一个前述权利要求的方法，

其中，在每种情况下，声学模型被用作所述开始声学模型(SAM)和/或作为所述当前声学模型(CAM)，至少包含特别是高斯型分布函数的模型函数混合(MFMj)作为所述模型函数混合分量(MFMjk)。

5.根据前面任何一个权利要求的方法，

其中每个所述模型函数混合(MFMj)是基于函数矢量(f_j)和加权因子(a_j)的，每个矢量都有有限和/或相等数量(n_j)的分量。

6.权利要求5的方法，

其中每个所述模型函数混合(MFMj)是被加权因子矢量分量(a_j，k)加权的矢量函数分量(f_j，k)的线性组合和重叠，特别地由加权因子矢量(a_j)和函数矢量(f_j)的标量积：

MFMj = Σ_{k = 1}^{n_{j}} a_{j, k} f_{j, k} = {a_{j}}^{T} f_{j} = a_{j} • f_{j}

其中MFMj表示第j个模型函数混合，a_j表示第j个加权因子矢量，其中a_j，k是第k个分量，f_j表示第j个函数分量，其中f_j，k是第k个分量，a_j ^T表示a_j的转置，·表示矢量的标量积和内积。

7.权利要求5或6的方法，其中

如果其加权因子矢量分量(a_j，k)的绝对值(|a_j，k|)超过给定的阈值(c_j，k)，特别是对于已经执行的给定次数(m_j，k)的识别步骤和/或已经获得的给定数量(m_j，k)的识别结果，每个所述模型函数混合分量(MFM_j，k)被划分为可忽略。

8.权利要求7的方法，

其中每个所述阈值(c_j，k)是预定的和/或固定的，特别对于每个独立的模型函数混合分量(MFMjk)以及在开始识别过程之前是这样。

9.权利要求7或8的方法，其中

在识别过程中，其中所述每个阈值(C_j，k)被确定和/或修正，特别是基于语音输入的信号质量信息和/或特别根据统计数据和/或噪声数据。

10.根据前面任何一个权利要求的方法，其中

在用于说话者自适应的修正声学模型(MAM)的其它分量中，加权因子矢量分量(a_j，k)被修正，特别是减少某些低于某些阈值的加权因子矢量分量(a_j，k)。