CN1381038A

CN1381038A - 模式分类中基于排序的丢弃

Info

Publication number: CN1381038A
Application number: CN01801557A
Authority: CN
Inventors: 威廉·M·坎贝尔; 查尔斯·C·布朗
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2000-05-31
Filing date: 2001-04-26
Publication date: 2002-11-20
Also published as: JP2003535366A; AU2001261076A1; WO2001093248A1; US6438519B1

Abstract

模式分类中用于丢弃不在类别中的输入的方法和装置,模式分类包括一个模式列表(11),并且具有至少一个在上下文中的模式(16)和一个排序容忍范围(25)。一个输入模式(10)被用于对这个模式列表中的每一个模式产生一个分类器分数(12),并且以降序的顺序来对这个分类器分数进行排序(14)。确定一个在上下文中的模式(16)的最高排序分数(18),并且如果这个最高排序分数是1(20)时,就选择这个在上下文中的模式。如果这个最高排序分数不是1时,将这个最高排序分数与排序容忍范围进行比较(24)。当这个最高排序分数比这个排序容忍范围小时,就选择(26)这个在上下文中的模式,当这个最高排序分数比这个排序容忍范围大时,就丢弃(27)这个在上下文中的模式。在进行比较以前,最高排序的模式组被从这个列表中去除。

Description

模式分类中基于排序的丢弃

技术领域

本发明涉及模式分类，例如受训练系统中的语音识别。

更特别地，本发明涉及用于对不在分类中的输入进行丢弃的装置与方法。

背景技术

模式分类系统可以被用于两个典型的情形。一个封闭集合情形包括一个关于已知类别的固定集合。假设给出一个输入，分类器就被要求从这个类别列表中选择出最佳的选择。替代地，一个分类器可以被用于一个开集合的方式。关于开集合分类的一个一般情形是，这个分类器被提供了来自一单个类别的特征矢量。然后，这个分类器判断，这些特征是从前一个已知的类别还是从一个未知的类别中来的。开集合问题的一个应用是在语音识别中的非词汇表的丢弃。语音识别在这里被用作一个示例，因为语音识别是被广泛所知道的并且被广泛使用的，但是该领域内的技术人员应认识到，实际上，所有的模式识别系统是可以同样被应用的。在语音识别的示例中，识别器具有一个已知的词汇表；典型地，这个用户喜欢将一个不知道的单词标识为错误的识别。

使用一个语音识别系统作为一个典型的示例，假设在一个特定的示例中，这个系统在寻找一个“是”或者一个“否”的答案。在很多不同的情形下，这个用户可能会发出某些在词汇表中不存在的声音，例如”oh”，“ah”，“er”，或者这个用户可能会进行咳嗽或者清嗓子。典型地，这个语音识别系统仅看这个发音的成分，将它们与它正在寻找的单词，即是和否，的成分进行比较，并且使用一个阈值来判断这个发音是否足够地靠近需要被正确识别的单词中的一个。这里，问题是两个方面的。在很多情形下，这个发音可能是如此的靠近(例如，”oh”和”no”)，它就被进行错误地分类。更为严重的问题是，在一个噪声系统中或者在一个噪声条件下，一个发音的很多部分可能被屏蔽或者丢失。这样，虽然该阈值是保持不变的，但是这个屏蔽(例如，噪声，所接收单词或者信号的靠近性，或者信号等等)会在不同的工作条件下而出现很大的变化。

因为缺少足够地对不在该类别中的输入进行丢弃，所以，从客户的可接受程度来说，目前的语音识别应用有很大的局限性。但是，对模式识别来说，判断规则中的丢弃选项不是一个新的领域。在30多年以前，在C.K.Chow写的一篇题为“On optimum recognition error and rejecttradeoff”，IEEE Trans.Inf.Theory”，IT-16，no.1，pp.41-46，1970年1月的论文中就引入了关于模式识别的最佳丢弃规则(Bayes丢弃规则)。然而，这个工作和其扩展与延伸工作，均假设我们已经非常确切地知道了类别统计特性。

在语音识别的情形下，对这个模式识别系统来说，仅可以获得一个类别统计特性的估计值。进一步，当这个输入语音被噪声破坏时，就产生了错误匹配的统计，初始的可能性分布估计值就不再是对实际分布的一个好的近似。这样，在寂静的条件下的最佳Bayes丢弃规则就不再有效。

近年来，关于改进非词汇单词的丢弃规则的工作集中在在类别内的模型分数，和垃圾，或者填充料模型与不在类别特征空间中的模型之间的可能性比例上。例如见：C.S.Ramalingam等等，“Speaker-dependentname dialing in a car environment with out-of-vocabulary rejection”，Proc.ICASSP，PP.165-168，1999；A.Bayya，“Rejection in speechrecognition system with limited training”，Proc.ICSLP，1998；H.Boulard，B.D’hoore and J.M.Boite，“Optimizing recognition and rejectionperformance in wordspotting system”，Proc.ICASSP，PP.I-373-I.376，1994；和R.C.Rose and D.B.Paul，“A hidden Markov model basedkeyword recognition system”，Proc.ICASSP，PP.129-132，1990。但是，一个基于分数的阈值仍然被使用，以根据某些成本函数而提供对识别和丢弃错误比例进行折衷的一个机制。使用这个阈值就会在阈值错误匹配的条件下导致很明显的性能下降。这是因为输入特征的统计特性发生了改变，导致分数范围进行了压缩。

所以，特别希望提供能够克服这些问题的一个模式识别装置和一个方法。进一步，特别希望能够提供克服这些问题的装置和方法，而不会大大增加所需要的计算量或者所使用的存储器的数量。

附图说明

参考附图：

图1是一个通用流图，显示了根据本发明的用于为模式分类丢弃不在类别中的输入的一个方法的步骤；

图2是根据本发明的一个分类器的结构的一个简化的框图；

图3是一个简化的框图，显示了根据本发明的用于为模式分类丢弃不在类别中的输入的一个装置；和

图4是关于语音识别的、特定的、丢弃非类别的装置的一个简化框图。

具体实施方式

这里所讨论的模式分类装置和方法的类型是那些可以用于两个典型的情形中的模式分类装置和方法。一个封闭集合情形包括一个关于已知类别的固定集合。假设给出一个输入，分类器就被要求从这个类别列表中选择出最佳的选择。替代地，一个分类器可以被用于一个开集合的方式。关于开集合分类的一个一般情形是，这个分类器被提供了来自一单个类别的特征矢量。开集合问题的一个应用是在语音识别中的非词汇表的丢弃。语音识别在这里被用作一个示例，因为语音识别是被广泛所知道的并且被广泛使用的，但是该领域内的技术人员应认识到，实际上，所有的模式识别系统是可以同样被应用的。

现在转到图1，一个通用流图被显示了，它显示了根据本发明，用于在模式分类中丢弃不在类别中的输入的一个方法。一般来说，这个方法从一个步骤10或者模块10开始，其中需要被分类的一个模式被提供或者说被输入到这个系统中。一个模式列表被提供在模块11中，该模式列表包括可以在该系统中被使用的所有模式。这个列表包括在上下文中的模式，在正在被执行的特定操作中被使用的模式，和脱离上下文的模式，可能在其它操作中被使用的、但是在正在被执行的操作中是脱离上下文的任何模式。

在模块12中，通过任何模式识别的方法，比较等等，确定需要被分类的这个模式与该模式列表中每一个模式的一个相似性或者多个相似性。在模块14中，这个相似性或者这些相似性被给予分数，然后以某个降序的顺序进行排序，一般来说，最完全的相关被排序为1，而下一个最接近的被排序为2，等等。(当然，应理解，在某些特定的应用中，该顺序也可以反过来)。这里，应注意，在没有外部干扰的一个模式识别系统中，最佳的相关可能是最准确的，但是在该系统中存在某些模式影响时(例如，这取决于分类器的类型，干扰，噪声，光等等)，最高的相关可能比较低。在任何一个情形下，对这个相似性或者多个相似性进行给分并且以某个顺序来进行排序。

在模块16中，提供多个在上下文中的模式，或者在某些情形下，提供单个在上下文中的模式，并且在模块18中被用于确定最高排序的在上下文中的模式。在模块20中，如果最高排序的在上下文中的模式具有一个排序值1，即，它是与需要被分类的模式是最佳相关的，在模块22中，需要被分类的模式就被选择，并且这个过程就停止。如果最高排序的在上下文中的模式具有一个比1大的排序值(例如，2，3等等)，在模块24中，它就被与在模块25中所提供的一个被选择排序容忍范围进行比较。如果最高排序的在上下文中的模式比该排序容忍范围小，然后在模块26中选择它，或者如果它比该排序容忍范围大，在模块27中它就被丢弃。

作为上面所描述的、用于在模式识别中丢弃不在类别中的输入的方法的一个具体示例，假设该方法被用于一个语音识别系统，例如在美国专利号No.5,946,653，题为”Speaker Independent Speech RecognitionSystem and method”中所描述的，该专利是在1999年8月31日被提供的，并且在这里被用作参考。如这个专利中所解释的，一个用语音进行控制的系统能够识别出语音命令。典型地，语音命令是在一个命令数据库中所表示的一组命令中的一个。作为一个具体的示例，该用语音进行控制的系统可以是具有一个菜单类型用户接口的一个软件应用程序。从一个菜单中被选择的一第一语音命令被识别出来，并且下一个菜单被显示，从一个菜单中的一第二语音命令被识别出来并且显示下一个菜单，等等。因为这个说话者可以通过说出命令来控制这个系统，所以改进了操作的方便性，并且获得了用户友好性。

在本发明的用于在模式分类中(例如在语音识别中)丢弃不在类别中的输入的方法中，这个系统中的所有命令被包括到一单个类别列表中。一个类别包括一单个菜单所使用的所有命令或者词汇表项目，例如一第一类别包括“是”和“否”，一第二类别包括”alpha”，“beta”，和”gamma”等等。这个列表也包括含假声音，例如，oh，uh，嘴唇击打的声音，呼吸噪声，咳嗽，等等的类别。一般来说，在这个类别列表中的所有项目是不在类别中的或者脱离上下文的，除了正在使用的、在词汇表中或者在上下文中的项目外，在这个示例中，是“是”和“否”。实际上，所使用的这个类别列表将是非常大，以致可以检测到更多的不在类别中的情形。在这个简化示例中，假设该类别列表包括咳嗽是否alphabetagammayet

一个分类器30的一个基本结构被显示在图2中。这个类别列表被作为短语和垃圾(例如，虚假的声音，等等)模型保存在一个存储器32中。通过特征提取(见上面引用的专利)所产生的、用于描述需要被进行分类的一个声音的特征矢量x₁…X_M被提供到一个判别函数模块34。一个判别函数被应用到每一个特征矢量x_k，并且使用了一个短语模型w_j产生了一个标量输出，f(x_k，w_j)。模块36然后计算每一个短语和垃圾模型的一个最后分数

s_{j} = \frac{1}{M} Σ_{k = 1}^{M} f (x_{k}, w_{j})

对闭合集合识别来说，获得最高分数的这个模型被从模块36中输出，以作为被识别的类。对开集合识别来说，进一步评价这个短语和垃圾模型分数，如下面所描述的。

分类器30使用一个多项式判别函数f(x，w)＝w＇p(x)

这个判别函数由两个部分组成。第一部分，w，是这个类别模型。第二部分，p(x)，是从输入特征矢量x而构造出来的一个多项式基矢量。这个基矢量是直到输入特征的阶数K的单项式项，并且是对多个说话特征矢量进行平均而产生一个平均命令结构(见上面引用的专利来获得其更多的细节)的结果。例如，对一个2维特征矢量，x＝(x₁x₂)^t，并且K＝2p(x)＝{1x₁x₂x₁ ²x₁x₂x₂ ²}^t

这样，这个判别函数的输出是该多项式基元素的线性组合。因为w与帧索引无关，所以这个判别函数的评价就被简化，如下面的：

s_{j} = w_{j}^{t} \frac{1}{M} Σ_{k = 1}^{M} p (x_{k}) = w_{j}^{t} \overset{&OverBar;}{P}

这样，对一单个模型进行给分就等于计算一个内积。例如，给出25个特征和一第二阶(K＝2)多项式表达式，w的长度是351，这对每一个进行给分的模型仅有701个浮点运算(FLOPs)。所以，图1中步骤12的复杂性就大大地降低了。

在上面所描述的方法中的丢弃规则是基于多个垃圾模型的使用的，并且使用了一个排序容忍范围(图1中的模块25)，而不是一个基于分数的阈值，这解决了抗噪声性能。另外，排序容忍范围提供了根据被分配的容忍范围，在识别和丢弃错误比例之间进行一个折衷调节的能力。一般来说，该容忍范围最多是总类别列表的10％(例如，在一个100的列表中，排序容忍范围将被设置成不超过10，并且典型地比10少)。

一旦已经如上面所描述的或者使用任何其它的选择方法产生了分数，并且对分数进行了排序，就确定了分数最高的、在类别中的模型(在上面的简化示例中，是“是”或者“否”)。然后，最高分数的、在类别中的模型组被从排序分数列表中去除。为了讨论的目的，组是这样一些模式(例如，单词或者短语)，它们在至少某些特征上是足够地相似以致能够产生选择错误。没有关于选择组的已知通用规则，并且已经发现，通常是通过系统试验和使用脱离上下文丢弃系统来选择它们的。在这些组被从排序分数中去除后，最高分数的、在类别中的模型的排序被与这个排序容忍范围进行比较。如果它比这个排序容忍范围小，就选择这个最高分数的、在类别中的模型，如果它比这个排序容忍范围大，就丢弃它。

通过用数目很多的不在类别中的(即垃圾)模型来填充这个类别列表，就有一个趋势来使分布更加集中在在类别中模型周围，并且在在类别中的区域之间识别出不在类别中的区域。重要的是，在在类别中的模型和垃圾模型之间有足够的距离以减少误丢弃的错误。为了达到这个距离，在类别中的模型组被发现并且被从判别空间中去除。典型地，通过一个训练数据库来设置这些组和排序容忍范围。根据使用这个数据库的样品试验来执行排序容忍范围和组的选择。应注意，通过调节组的数目和排序容忍范围，可以在误丢弃(偶然地丢弃一个真正的词汇或者在类别中的项目)和误接受(接受一个不在词汇表中的或者垃圾项目)之间进行折衷。

现在转到图3，图3是一个简化的框图，显示了根据本发明的、用于在模式分类中丢弃不在类别中的输入的一个装置40。装置40包括一个特征提取器42，该特征提取器42具有用于接收原始输入数据(即，需要被分类的一个模式)的一个输入。对语音识别来说，特征提取器42的工作在上面引用的专利中被进行了详细的描述，并且这个描述在这里被用作参考。特征提取器42可以包括将输入信息(例如，语音，声音，点等等形成需要被识别的一个模式的)转换为被剩余装置所进行操作的信号的任何装置。来自特征提取器42的特征矢量或者其它信号被提供到一个分类器44，该分类器44与图1的分类器30类似。一个模型存储器46被连接到分类器44，并且包括在分类器44中所使用的短语和连接模型以产生排序分数。

然后，这个排序分数被提供到排序装置48，该排序装置48对这些分数进行排序并且将排序的分数提供到判断装置50。装置50从在上下文中的存储器52中接收一个在上下文中的列表，并且判断最高排序的、在上下文中的分数。一个排序容忍范围也被从装置54提供到判断装置50。装置50将这个最高排序的、在上下文中的分数与这个排序容忍范围进行比较，并且根据最高排序的、在上下文中的分数比这个排序容忍范围高或者低来选择这个原始输入或者丢弃它。这里，应注意，在某些特定的应用中，这个排序容忍范围可以被直接包括在排序装置48中，以使仅比排序容忍范围低的分数被提供给判断装置50。

现在转到图4，显示了用于进行语音识别的、特定的丢弃非类别的装置60的一个简化框图。在这个特定的实施方式中，装置60包括一个语音采样器62，该语音采样器62带关于语音或者需要被进行分类的一个发音的一个输入，该装置可以是众所周知的装置中的任何一个，例如一个麦克风，电话，或者任何其它的、用于将语音转换为电脉冲的设备。然后，语音采样器62以某个方便的速率来采样这个输入语音，以完全地将这个模拟信号转换为数字信号。语音采样器62的输出信号被提供到一个特征提取器64，该特征提取器64将需要被分类的这个语音或者发音转换为特征矢量，如上面所描述的或者如上面所引用专利中所描述的。然后，在平均装置66中对这些特征矢量进行平均，以产生关于这个需要被进行分类的发音的一个平均命令结构，如上面所引用专利中所描述的。这个平均命令结构通过任何方便的通信链路68被传送到内积评分装置70。这里，应注意，链路68可以是互联网，一个电话，一个直接连接，或者任何其它的、将输出信号从装置66携带到装置70的装置(这对模块62和64中的每一个也成立)。

如上面所描述的，内积评分装置70转换这些特征矢量和各种模型(被保存在存储器72中的在上下文中的和垃圾模型)以使用一个最小的计算量来进行评分。这里，应注意，装置66和装置70中任何一个或者两个(与剩余的大部分装置一起)可以被方便地用一个DSP，一个定制的芯片，或者任何市场上可以买到的很多计算机芯片中的一个来实现。装置70输出的分数被提供到排序装置74，该排序装置74以一个降序的顺序来对这些分数进行排序，一般来说，最高排序的分数是第一个出现这个列表中。来自一个存储器76的一个组列表也被提供到排序装置74中。在装置74对分数进行排序期间，需要被分类的发音的组被从这个分数列表中去除。然后，这个分数列表被提供到判断装置80，该判断装置80也从存储器82接收一个排序容忍范围输入(或者设置)和一个在上下文中的列表。如上面所解释的，最高排序的分数被与这个排序容忍范围进行比较，并且需要被分类的发音被接受或者丢弃。

在上面所描述的、用于丢弃不在类别中的输入的装置和方法的一个稍有不同的使用或者应用中，可以提供一个证实系统。在这个证实系统中，使用一个密码(例如，一个说出来的短语，数字的说话组合，等等)。这个类别列表包括多个已知的(在类别中的)或者可接受人和多个未知的人(假冒者)所说的密码。在工作中或者共同使用中，已知人中的一个用说话的方式将这个密码输入到该证实系统。使用图3的装置40，特征提取器42将这个语音转换为特征矢量，这些特征矢量被提供到分类器44。关于这个已知(在类别中的)人和这个未知人所说出来的密码的特征矢量被保存在存储器46中。分类器44将这个被说出来的密码的特征矢量和被保存的特征矢量转换为分数，这些分数在装置48中被进行排序。然后，判断装置50使用一个排序容忍范围和在上下文中的存储器来判断是否接受或者丢弃这个个人，如上面所描述的。

这样，已经公开了新的和改进的在模式分类中丢弃不在类别中的输入的装置和一个方法。这个新的和改进的装置和方法是基于多个脱离上下文或者垃圾和一个新的排序方法的使用来获得比包括阈值的、利用现有技术的装置和方法优越得多的稳定性能的。这个新的和改进的装置与方法是能够抗噪声的，并且其实施也紧凑和容易。

虽然我们已经显示和描述了本发明的特定实施方式，但是，该领域内的技术人员能够进行进一步的修改和改进。所以，我们希望，应理解，本发明不局限于所显示的特定形式，我们认为后附的权利要求书覆盖了没有偏离本发明的精神和范围的所有修改。

Claims

1、模式分类中用于丢弃不在类别中的输入的一个方法，这个方法包括步骤：

提供一个模式列表，包括至少一个在上下文中的模式；

提供一个排序容忍范围；

获得需要被分类的一个模式；

对这个模式列表中的每一个模式产生一个分类器分数；

以降序的顺序来对这个分类器分数进行排序；

确定一个在上下文中的模式的最高排序分数；和

当这个在上下文中的模式的最高排序分数是1时选择这个在上下文中的模式，当这个在上下文中的模式的最高排序分数不是1时，将这个最高排序分数与排序容忍范围进行比较，当这个在上下文中的模式的最高排序分数比这个排序容忍范围小时，就选择这个在上下文中的模式，当这个在上下文中的模式的最高排序分数比这个排序容忍范围大时，就丢弃这个在上下文中的模式。

2、如权利要求1的在模式分类中用于丢弃不在类别中的输入的一个方法，其中提供排序容忍范围的步骤包括提供最多是模式列表的10％的一个排序容忍范围。

3、如权利要求1的在模式分类中用于丢弃不在类别中的输入的一个方法，另外包括在将最高排序分数与排序容忍范围进行比较以前，从这个模式列表中丢弃具有最高排序分数的、在上下文中的模式的所有组。

4、如权利要求3的在模式分类中用于丢弃不在类别中的输入的一个方法，进一步包括步骤，调节组的数目和这个排序容忍范围，以在误丢弃和误接受之间进行折衷。

5、如权利要求1的在模式分类中用于丢弃不在类别中的输入的一个方法，其中为每一个模式产生分类器分数的步骤包括产生需要被分类的这个模式的多个特征矢量，并且对这多个特征矢量进行平均以产生一个平均命令结构。

6、如权利要求5的在模式分类中用于丢弃不在类别中的输入的一个方法，其中为每一个模式产生分类器分数的步骤包括将模式列表的每一个模式作为一个模型矢量而保存。

7、如权利要求6的在模式分类中用于丢弃不在类别中的输入的一个方法，其中为每一个模式产生分类器分数的步骤包括使用包括这个平均命令结构和每一个模型的一个多项式判别函数来产生一个内积。

8、模式分类中用于丢弃不在类别中的输入的一个方法，这个方法包括步骤：

提供一个类别列表，包括多个在词汇表中的项目；

提供一个排序容忍范围；

获得一个语音发音；

对这个语音发音执行特征提取；

从这个特征提取中，为这个类别列表中的每一个项目产生一个分类器分数；

以降序的顺序来对这个分类器分数进行排序；

确定具有最高排序分数的、在词汇表中的项目；和

当这个在词汇表中的项目的最高排序分数是1时选择这个在词汇表中的项目，当这个在词汇表中的项目的最高排序分数不是1时，将这个最高排序分数与排序容忍范围进行比较，当这个在词汇表中的项目的最高排序分数比这个排序容忍范围小时，就选择这个在词汇表中的项目，当这个在词汇表中的项目的最高排序分数比这个排序容忍范围大时，就丢弃这个在词汇表中的项目。

9、模式分类系统中用于丢弃不在类别中的输入的一个装置，这个装置包括：

一个特征提取器，被连接成接收需要被分类的一个输入模式，并且被连接成输出输入模式的特征；

一个模型存储器，其中保存了多个模型；

一个分类器，被连接到这个特征提取器和这个模型存储器，分类器被设计成从这个特征提取器接收输入模式的特征，并且从这个模型存储器接收多个模型中的每一个，并且这个分类器提供关于每一个模型的一个分类器分数；

排序电路，被连接到这个分类器，排序电路对每一个模型的分类器分数进行排序；和

判断电路，被连接成从这个排序电路接收分类器分数的排序，这个判断电路包括一个可调节的排序容忍范围和在上下文中的存储器，这个判断电路被设计成从这个排序中选择最高的在上下文中的分数，将这个最高的、在上下文中的分数与这个排序容忍范围进行比较，并且决定接受或者丢弃这个最高的、在上下文中的分数。