CN1295674C

CN1295674C - 模式识别

Info

Publication number: CN1295674C
Application number: CNB028286472A
Authority: CN
Inventors: M·瓦西拉赫
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2002-03-27
Filing date: 2002-03-27
Publication date: 2007-01-17
Anticipated expiration: 2022-03-27
Also published as: KR20040098661A; WO2003085638A1; ATE470217T1; EP1488410A1; KR100719942B1; EP1488410B1; AU2002247891A1; WO2003085638A8; DE60236627D1; CN1623184A; US7912715B2; US20040039573A1

Abstract

一种用于在模式识别处理中决定失真测度集合的方法，其中从要被识别的数字化输入信号形成一个特征矢量序列，所述模式识别基于所述失真测度集合。该方法包括比较(S10)所述序列中的第一特征矢量与表示候选模式的模板集合中的第一数目(M1)模板，根据所述比较，从所述模板集合中选择(S12)第二数目(M2)模板，该第二数目小于第一数目，和将第二特征矢量只与所述选择的模板进行比较(S14)。该方法可以在用于模式识别的设备中实现。

Description

模式识别

技术领域

本发明涉及模式识别处理，其中从数字化的输入信号形成一系列特征矢量，并基于一组失真测度对每一特征矢量执行模式识别。更具体说，本发明涉及在这种处理中用于计算失真测度的方法。本发明还涉及用于执行这种方法的程序产品和用于模式识别的设备。

背景技术

在模式识别中，输入信号被数字化，并形成一序列特征矢量。然后把这些特征矢量与在信号中要被识别的候选模式的模板比较，例如在语音识别的场合，候选模式可以代表电话簿中的名字。

然而，诸如语音识别这样的模式识别需要大量计算。在许多情况下，例如当在嵌入式设备中实现时，由于有限的存储器容量和计算能力，因此需要减少算法的复杂性。

计算的复杂性取决于几个因素：特征矢量的采样速率、备选模型模板的数目、和特征矢量的维数。减少其中的任一项都会导致更快地识别，该识别可以在一定的处理器上以合理的时间运行，但是这会给出较差的识别准确度。

模式识别诸如语音识别的常规的复杂性削减至少在下述现有技术中提出：

1.特征矢量向下采样，

2.模型模板的群集(clustering)，

3.减少特征矢量维数，

第二种技术首先脱机群集声学空间。然后，在解码期间，首先在这些群集中执行快速检索，然后只对最佳匹配的群集的成员评估。

这种脱机群集的例子在下述文献中说明，Suontausta J、HakkinenJ和Viikki O.发表的“Fast decoding techniques for practicalreal-time speech recognition system”，proc.IEEE workshop onAutomatic Speech Recognition and Understanding，Keystone，Colorado，1999年12月。

根据这种方法，对于一给定的特征矢量，引入一具有给定数量代码矢量的代码簿，并对每一代码矢量指定一个要评估的高斯密度子集。为每一特征矢量决定最接近的代码矢量，然后为失真计算使用它的相应的密度子集。

这一方法对于相似的分类性能可以节省计算量，但是需要另外的参数数据。由于所需要的代码矢量检索步骤以及通常特征空间的维数高的事实，因此计算量的节省可能被显著减少。

发明内容

因此本发明的一个目的是提供一种改进的模式识别，它允许减少需要的处理能力，而不使识别处理的准确度降至不可接受的程度。

根据本发明的第一方面，通过使用在引言中提到的类型的方法可以实现这一目的，包括重复执行下述步骤：

1.在具有大数目的、优选集合中全部模板的所述序列中比较第一特征矢量。

2.根据所述比较在模板集合中选择第二数目(M2)的模板，该第二数目(M2)小于第一数目(M1)。

3.将第二特征矢量与模板集合中的所述第二数目(M2)模板比较。

于是所建议的方法对模板使用一种选择性处理，使得对于某些特征矢量，只评估它们的一个子集。

该识别处理根据计算的失真测度在每一失真计算步骤后执行，亦即也在不完全的步骤后执行。

通过测试已经证实，这种选择可以显著减少对于计算失真测度的需要，而对识别质量只有有限的影响。

第二数目(M2)可以依赖于在第一特征矢量和第二特征矢量之间的距离测度。这允许处理比较少量数目的模板，亦即当特征矢量相似时节省计算能力。

优选，选择的模板包括当在与第一特征矢量比较时获得最低失真测度的模板。

另外，一些连续的特征矢量可以与在模板集合中的所述第二数目(M2)的模板比较。这产生下面的处理：

1)周期地为大数目的模板、优选全部模板计算失真测度，

2)根据步骤1，只选择最匹配的模板与暂时相邻的特征矢量比较。

根据一个实施例，选择的模板包括预定数目的模板，导致在与所述第一特征矢量比较时产生最低失真测度。换句话说，每次选择同样数目的排在最前面的模板。

根据另一个实施例，距最低失真测度的一个确定距离内的所有模板都包括在所述子集中。这可以例如通过包括导致在与所述第一特征矢量比较时失真测度低于预定阈值的所有模板来实现。

选择的模板也可以根据前两种方法的混合选择，从而要包括的模板的数目由总失真影响。例如，可以使用对5-10个最近的模板的失真来决定被包括的模板的数目。

对于未包括在所述选择的模板中的模板，相对于一个不同特征矢量计算的失真测度被包括在失真测度的所述集合中。换句话说，如果需要对于所有或者大量模板的失真测度的话，则可以使用为一个不同的特征矢量计算的失真测度来代替未对当前特征矢量计算的失真测度。通过以这种方式近似省略的失真测度，识别质量被较好地保留。根据一个实施例，只使用这种先前或者将来计算的失真测度的特定分量，导致结合相对于不同特征矢量计算的失真测度中的分量这样的处理。

所述不同的特征矢量可以是先前采样并比较的特征矢量，或者是后来采样并比较的特征矢量。优选，是最近与集合中的第一数目模板比较的特征矢量。或者可以是与集合中的第一数目模板比较的后继矢量。再另外可以选择的是，可以使用先前的和随后的矢量来形成被替代的失真测度集合。

该不同的特征矢量也可以是与根据预定距离测度来自当前特征矢量最接近的模板集合中的第一数目模板比较的特征矢量，亦即具有与当前特征矢量相较低的失真测度。

在每一完整的比较之间的连续的特征矢量的数目可以是静态的也可以是动态的，取决于实现方式。动态数目例如可以与处理器负载的检测结合，以便允许响应处理器负载调节计算负载。

该模板可以是在隐藏马尔可夫模型(HMM)中的状态的高斯混合密度。HMM是在各种模式识别任务中使用的统计模型，所述模式识别例如是语音识别、字符识别、基因查找、和图像分析。在这一场合，识别的处理可以包括为HMM相对一个特征矢量计算状态似然率。

信号可以进一步表示语音，候选模式表示说出的话。这意味在语音识别系统中使用本发明，例如是在电话系统中的基于话音的用户接口中的实现。然而，本发明在其最一般的方面不限于这种使用。

根据本发明的第二方面，使用一种存储在计算机可读介质上的计算机程序产品实现上述目的，该产品包括计算机程序代码部分，其被安排当由计算机处理器执行时执行上述方法。

根据本发明的第三方面，使用一个设备来实现上述目的，所述设备决定在模式识别处理中的一组失真测度，其中从要被识别的数字化的输入信号形成一个特征矢量序列，所述模式识别基于所述失真测度的集合，包括用于比较所述序列中的一个第一特征矢量和来自表示候选模式的模板集合中的第一数目模板的装置，基于所述比较从所述模板集合中选择第二数目模板的装置，第二数目小于第一数目，和只与所述选择的模板比较第二特征矢量的装置。

特别，这种设备可以作为嵌入的处理器实现，该处理器包括用于形成所述特征矢量序列的前端部分和用于提供所述失真测度集合的后端部分。

附图说明

本发明的这些以及其他方面从参考附图更清楚说明的优选实施例中将显而易见。

图1表示一个语音识别器的简化框图。

图2表示根据本发明的第一实施例的似然率评估处理。

图3表示根据本发明的一个实施例的方法的示意流程图。

图4表示根据本发明的第二实施例的似然率评估处理。

具体实施方式

在下面的说明中，模式识别处理是语音识别处理，例如用于基于话音的用户接口中。然而，这一点不应该被视为是对本发明的限制，本发明是针对一般的模式识别的。输入信号可以是任何数字化信号，候选模式可以表示声音、图像、文字、手写字符等。

图1所示的语音识别器1通常包括一个负责特征提取的前端处理部分2，和一个负责相对于候选单词或者单词一部分的模型模板统计分析提取的特征的后端处理部分3。这些模型可以通过训练(依赖于说话者的名字拨号，SDND)或者通过建模(不依赖于说话者的名字拨号，SIND)建立。

对于语音识别器1的输入包括数字化采样的、被分割为连续的、可能为重叠的段的波形4。对于每一段执行三个主要的处理步骤：

S1.特征提取，产生一个特征5的矢量。

S2.计算当前特征矢量与声学模型模板6比较的失真值(在下面的例子中指高斯密度)，产生一个失真表(在下面的例子中指b-概率表)。

S3.维特比(Viterbi)“解码”，亦即根据在步骤S2中计算的失真表获得当前最佳累积失真值8。允许的转移由识别词典加语法9和为前一语音段10的最佳累积失真值限制。

当语音输入结束时，当前由维特比解码步骤找到的最佳识别假设通常作为识别结果提交给用户。

每一声学模型通常由一个HMM(隐藏马尔可夫模型)表示。HMM是用于可能的分类结果的构建块。

HMM是一个统计自动机，它可以接受/产生特征矢量。它包括一组状态，和在这些状态之间一组允许的转移。每一转移具有一个关联的概率值。每一状态由在特征矢量空间上的一个概率密度函数(PDF)说明。由该状态PDF和该特征矢量给出的负对数似然率也可以被视为是一个失真测度。给定该自动机的当前状态，它根据由当前状态的PDF给出的似然率接受/产生当前特征矢量，然后进行到一个新状态的转移，其由转移似然率的设定限制。

选择此时产生最小合计失真的HMM作为识别结果。

要求计算工作量最大的步骤之一包括为每一特征矢量计算对识别模型的状态的失真。如前所述，这一失真通常作为状态似然率测度计算，(其值也称为“b-概率”)。

在一个典型的识别引擎中，每一状态的pdf是一定数目的高斯密度(例如8)的混合。每一密度包括一个平均值和一个逆标准偏差参数矢量。

在识别期间，每个输入的特征矢量首先与每一密度的密度参数(平均值和标准偏差)匹配，以产生一个基于如下的负对数似然率值失真测度：

L = C - Σ_{i = 1}^{D} {(x_{i} - μ_{i})}^{2} {\cdot istd}_{i}^{2}, - - - (1)

式中，L是该密度的对数似然率，x_i是该特征矢量的第i个矢量分量，μ_i和istd_i表示第i个平均值和逆标准偏差矢量分量，D表示特征分量的数目(特征矢量维数)，而C是逆标准偏差乘以1/π的D次幂的积的对数的另外的常数，这里D是特征矢量维数。

然后，状态b-概率由下式给出：

b = \log Σ_{i = 1}^{M} \exp (W_{i} + L_{i}) - - - (2)

式中，W_i和L_i分别是为密度i的对数混合权重和对数似然率，M代表在该状态中的密度的数目，b是b-概率值。

在为所有的状态计算b-概率值后，把结果存储到所谓的b-概率表7中，其由维特比算法所需要。使用该算法来决定HMM的一个序列，它在最大似然率的意义上最佳匹配输入特征矢量流。该算法使用动态编程方法实现。

可以如下近似为计算b-概率表7所需要的乘法和加法的数目：

#乘法＝#所有密度*#特征分量*2，

#加法＝#乘法，

参考图2和图3，图中的图表和流程图表示如何把每一特征矢量5与属于一个HMM的不同状态的密度的集合6比较。

首先，在步骤S10，执行更广泛的评价，在此执行期间，把当前时间帧的特征矢量5’与在集合6中的全部或者大量数目M1的密度比较，亦即为M1个密度计算等式1(这种计算在图2中用黑点11表示)。根据计算的对数似然率(L)，在步骤S11计算状态b-概率，并如上述由维特比算法使用。这结束特征矢量5’的处理。

在步骤S12，从密度集合6中选择M2数目的密度作为子集合12。注意，M2个选择的密度12可以是M1的第一密度的子集，但是这不是必须。M2个选择的密度12可以包括在M1个密度中未包括的密度。M2个选择的密度12可以包括来自在步骤S10的第一比较的最佳排序密度，亦即具有最低失真测度的那些密度。

接着，程序控制继续处理下一时间帧，亦即在步骤S13时间指数增量。

在步骤S14，执行不完全评估，其中下面的特征矢量5”只对在步骤S12选择的密度12进行比较，亦即只对子集12计算等式1(省略的计算在图2中用白点13表示)。如前所述，子集合12可以包括在先前的广泛评估S10中得分的最低失真测度的密度。

在步骤S15，可以用相对于一个不同的特征矢量(过去或将来)计算的对数似然率L来代替缺失的对数似然率，亦即涉及在步骤S14的不完全比较中的省略的计算13的对数似然率。例如，对于每一个特定的密度，可以使用最近计算的对数似然率或者相对于最高似然率值的似然率。另外可以选择的是，它可以是与在集合中的最大数目的模板比较的后继的矢量。再另外可以选择的是，可以使用先前的和随后的矢量来形成被替代的失真测度的集合。

组合来自不同失真测度的贡献也可以是有利的，即使用来自与一个特征矢量的比较的某些贡献，同时使用来自与一个不同的特征矢量的比较的其他贡献。

另一种可能性是与第一数目密度比较使用失真测度或者来自相对于一个特征矢量(过去的或者将来的)计算的失真测度的贡献，所述特征矢量相似于当前特征矢量。这种相似性可以通过使用相同的失真测度计算(等式1)或者通过任何其他适合的距离测度决定。

再一次，在步骤S16根据计算的对数似然率计算状态b-概率，并由维特比算法使用，如前所述。这结束特征矢量5”的处理。

在程序控制返回步骤S10之前，对N数目的临时的下面的特征矢量重复步骤S13-S16(步骤S17)，和在步骤S18增量时间指数后再次执行广泛评估S10，比较特征矢量和M1个密度。

在广泛评估S10之间的数目N的减少评估S14(图2中是2)可以由实现方式决定。它可以是静态的，如图2，也可以是动态的，在该后一种情况可以安排来调节表示例如处理器负载或者特征矢量相似性/平滑性测度的控制信号。在图1中，表示出一个检测器21来产生这种控制信号22。例如，处理器负载可被确定并且可以分类为处于三个区间之一中，不完全评估的数目可以相应改变，取决于当前处理器负载区间。图4示出一个这样的例子，图中不完全评估S14的数目N首先是3，然后是1，然后是2。

选择在完全评估S10之间应该比较一个特征矢量的哪M2个密度的处理是一个设计的问题。如前所述，所选择的密度可以是在先前的广泛比较中具有最佳对数似然率的密度。

根据第一方法，密度的子集12包括在先前的完全评估中的对数似然率的得分超过预定阈值的任何密度。因此，允许所选择的密度的数目M2改变。

另一种可能的方法是以相对顺序列表产生的对数似然率，并从该列表的顶部选择确定的数目M2个密度。这在每一不完全比较S14中产生相同的密度数目M2。当然，在常数M2的场合，该数依次可以是静态的或动态的，以和上面已经相对N数目不完全比较说明的相同的方式。这还可以取决于诸如此种的总的失真。

第二数目密度的选择也可以到达第一数目密度之外，亦即不是这些第一密度的子集。如果，例如，最佳排序的密度处于第一数目密度的边界，则选择某些这些密度而也选择紧接这一边界之外的亦即不包括在第一数目密度内的某些密度可能是有利的。当然所选择的密度12的总数目可以再次是静态的或者是动态的。

可以安排所选择的密度的数目(M2)依赖于在与第一数目M1的密度比较的第一特征矢量5’和与第二数目M2的密度比较的第二特征矢量5”之间的差。该差可以通过使用根据上面的、或者任何其他的距离测度的失真测度建立。通过这种设计，比较的密度的数目依赖于特征矢量的相似性。

上述方法可以在图1中的语音识别器的后端3中实现，优选通过给后端处理器提供用于采用步骤S2的软件以包括所述方法的一个实施例来实现。这种软件可以存储在计算机可读介质中，诸如软盘或CD，或者可以通过诸如因特网的网络分布。

对于具有熟练技能的人员来说在所附权利要求的范围内进行若干修改是明显的。例如，可以预见补偿省略的计算的另外可以选择的方式，诸如使用预定值、内插、外插或者另外从已经计算的(先前的或随后的)失真测度等评估它们。另外，连续完全评估的数目可以明显大于1，如果它由情况需要的话。

最后，并如前所述，语音识别的场合只意在作为本发明可以有利地实现的一个模式识别任务的例子。

Claims

1.一种用于在模式识别处理中决定失真测度(L)的集合的方法，其中由要被识别的数字化输入信号(4)形成特征矢量(5)的一序列，所述模式识别(S3)基于失真测度(L)的所述集合，其特征在于，

所述失真测度(L)的集合由下面步骤决定：

比较(S10)所述序列中的第一特征矢量(5’)和表示候选模式的模板集合(6)中的第一数目(M1)模板，以便确定第一数目(M1)的失真测度，

根据所述比较，从所述模板集合(6)中选择第二数目(M2)模板(12)，该第二数目(M2)小于第一数目(M1)，和

只与所述选择的模板(12)比较(S14)第二特征矢量(5”)，以确定第二数目(M2)的失真测度。

2.根据权利要求1所述的方法，其中，所述第二数目(M2)依赖于在所述第一特征矢量(5’)和所述第二特征矢量(5”)之间的距离测度。

3.根据权利要求1或2所述的方法，其中，所述选择的模板(12)包括当与所述第一特征矢量(5’)比较(S10)时产生最低失真测度(L)的模板。

4.根据权利要求1或2所述的方法，其中，所述选择的模板(12)包括当与所述第一特征矢量(5’)比较(S10)时产生最低失真测度(L)的预定数目(M2)的模板。

5.根据权利要求1或2所述的方法，其中，所述选择的模板(12)包括当与所述第一特征矢量(5’)比较(S10)时产生低于一预定阈值的失真测度(L)的所有模板。

6.根据权利要求1所述的方法，其中，只与在所述模板集合(6)中的所述第二数目(M2)模板(12)比较数目(N)的连续特征矢量(5”)。

7.根据权利要求1所述的方法，其中，对于未包含在所述选择的模板(12)中的模板，相对于一不同特征矢量(5’)计算的失真测度(L)被包含(S15)在失真测度(L)的所述集合中。

8.根据权利要求1所述的方法，其中，对于未包含在所述选择的模板(12)中的模板，使用相对于一不同特征矢量(5’)计算的失真测度(L)的特定分量来决定(S15)失真测度(L)的所述集合。

9.根据权利要求7或8所述的方法，其中，所述不同的特征矢量(5’)是最近与来自模板集合(6)的第一数目(M1)的模板比较的特征矢量。

10.根据权利要求7或8所述的方法，其中，所述不同的特征矢量(5’)是与来自根据一预定的距离测度距当前特征矢量(5”)最近的模板集合(6)的第一数目(M1)的模板比较的特征矢量。

11.根据权利要求6所述的方法，其中，所述数目(N)的连续特征矢量是静态的。

12.根据权利要求6所述的方法，其中，所述数目(N)的连续特征矢量是动态的。

13.根据权利要求6所述的方法，其中，所述数目(N)的连续特征矢量是响应一控制信号(22)决定的。

14.根据权利要求13所述的方法，其中，所述控制信号(22)基于属于一组处理器负载和输入信号(4)特性的依赖时间的变量。

15.根据权利要求1所述的方法，其中，所述模板(6)是隐式马尔可夫模型(HMM)的高斯混合密度。

16.根据权利要求15所述的方法，其中，所述失真测度基于对数似然率(L)。

17.根据权利要求15所述的方法，其中，所述模式识别包括为HMM相对于一特征矢量(5)计算一个状态似然率(b)。

18.根据权利要求1所述的方法，其中，所述信号(4)表示语音，所述候选模式表示说话方式。

19.一种用于在模式识别处理中决定失真测度(L)的集合的设备，其中由要被识别的数字化输入信号(4)形成特征矢量(5)的一序列，所述模式识别(S3)基于失真测度(L)的所述集合，包括，

用于比较(S10)所述序列中的一第一特征矢量(5’)和表示候选模式的模板的集合(6)中的第一数目(M1)模板的装置(3)，以便确定第一数目(M1)的失真测度，

用于根据所述比较(S10)从所述模板集合(6)中选择第二数目(M2)模板(12)的装置(3)，该第二数目(M2)小于第一数目(M1)，和

只与所述选择的模板(12)比较(S14)一第二特征矢量(5”)的装置(3)，以便确定第二数目(M2)的失真测度。

20.根据权利要求19的设备，其中，所述选择的模板(12)包括当与所述第一特征矢量(5’)比较(S10)时产生最低失真测度(L)的模板。

21.根据权利要求19或20所述的设备，进一步包括装置(3)，用于在失真测度的所述集合中包括相对于一不同特征矢量计算的失真测度(L)。

22.根据权利要求19或20所述的设备，其中，安排用于比较所述第二特征矢量(5”)的所述装置只与所述选择的模板(12)比较数目(N)的连续特征矢量(5”)。

23.根据权利要求19或20所述的设备，进一步包括用于检测处理器负载、和用于响应所述负载调节数目(N)的连续特征矢量的装置(21)。

24.一种语音识别器(1)，包括：

前端处理部分(2)，用于从将要被识别的数字化输入信号(4)中提取特征矢量(5)的序列，以及

后端处理部分(3)，用于执行所提取特征(5)的模式识别，所述模式识别(S3)是基于失真测度(L)的集合，所述后端处理部分包括：

用于比较(S10)所述序列中的第一特征矢量(5’)与表示候选模式的模板集合(6)中的第一数目(M1)模板，以便确定第一数目(M1)的失真测度的装置(3)，

用于根据所述比较，从所述模板集合(6)中选择第二数目(M2)模板(12)，该第二数目(M2)小于第一数目(M1)的装置(3)，和

用于只与所述选择的模板(12)比较(S14)第二特征矢量(5”)，以确定第二数目(M2)的失真测度的装置(3)。

25.根据权利要求24的语音识别器，在通信设备中实现。

26.一种用于模式识别的系统，包括：

用于从数字化输入信号形成特征矢量序列的装置(2)，

用于根据失真测度的一集合执行模式识别处理的装置(3)，

用于比较(S10)所述序列中的第一特征矢量(5’)和表示候选模式的模板的集合(6)中的第一数目(M1)模板的装置(3)，以便确定第一数目(M1)的失真测度，

用于根据所述比较(S10)，从所述模板集合(6)中选择第二数目(M2)模板(12)的装置(3)，该第二数目(M2)小于第一数目(M1)，和

27.根据权利要求26所述的系统，其实现为嵌入式系统，包括：

前端部分(2)，用于形成特征矢量的所述序列，和

后端部分(3)，用于决定失真测度的所述集合。