CN1722230A

CN1722230A - 语音识别任务的分配及其结果综合

Info

Publication number: CN1722230A
Application number: CNA2005100846995A
Authority: CN
Inventors: P·M·伯克; S·亚库布
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2004-07-12
Filing date: 2005-07-11
Publication date: 2006-01-18
Also published as: EP1617410B1; DE602005024894D1; US8589156B2; EP1617410A1; US20060009980A1

Abstract

本文介绍了一种优化多个语音识别器之间语音识别任务分配并综合这些识别器结果的系统、方法、计算机可读介质和计算机实现的系统。采用基于精度的分配机制、基于复杂性的分配机制及基于可用性的分配机制中的至少一种机制，执行分配确定以在多个语音识别器之间分配语音识别任务。基于确定的分配在多个识别器之间分配语音识别任务。综合根据语音识别任务分配从多个语音识别器接收的识别器结果。

Description

语音识别任务的分配及其结果综合

发明领域

本发明涉及语音识别任务的分配及其结果综合。

背景技术

电信业希望在移动手持式设备如个人数字助理、移动电话和其它类似设备和组合设备上执行大规模语音识别应用。这些设备一般缺乏在亦称为端点的设备本身上适应计算密集型的识别和自然语言理解任务所需的处理能力。已提出并实现了将计算密集型任务的识别部分重新分配到远程“后端”网内识别系统的方法。“后端”网内识别系统与用户采用的手持式设备分离，但经电信路径连接到用户设备；该路径是无线或有线连接。

在分布式电信系统中要解决的一个问题是在何处执行语音识别。过去已建议并/或尝试了多种解决方案：

·在移动设备上执行语音识别；

·在服务器上执行语音识别；以及

·在第三方/应用服务器上执行语音识别。

对于在移动设备上执行的语音识别，诸如手持式设备、基于输入板的个人计算机(PC)以及蜂窝电话之类的现有移动设备配备了能够在大多数情况下执行轻量级操作的计算平台。语音识别是一个复杂的过程，需要分析语音信号、提取特征、搜索统计模型(如高斯混合模型、神经网络等)以及词和语言统计信息组合。由于设备的性质和大小的原因，移动设备上诸如内存和处理能力等资源通常受到限制。因此，嵌入式语音识别软件(例如，可从《www.sensoryinc.com》获得的Sensory软件或可从《www.fonix.com》获得的fonix软件)适用于执行简单的任务；然而，语音识别软件需要更大更强的计算平台来执行复杂任务。

在终端用户移动设备上执行语音识别可能具有以下优点：

1)在移动设备上的识别任务开始后识别立即自发进行，并且无网络传送延迟；

2)识别需要更少的网络连接时间；以及

3)便于执行简单的识别任务。

移动设备上的语音识别具有以下缺点：

1)嵌入式识别器通常具有有限的处理能力；以及

2)识别任务消耗设备的计算能力，并使设备上执行的其它操作的速度放慢。

对于在电信服务器上执行的语音识别，许多电信运营商支持后端交互式话音响应系统。例如，蜂窝电信公司如Sprint支持使用移动电话进行针对语音电子邮件消息的语音浏览。电信提供商提供话音识别器子系统(通常设在单独的服务器上)来执行语音识别。此类服务器上的语音识别器通常是功能强大的高端识别器，这是因为有计算资源可用于执行复杂的识别任务。

对于应用/第三方服务器上执行的语音识别，有时电信运营商不向用户提供话音识别服务。在此类系统中，将话音信号路由到第三方应用服务器，由该服务器执行语音识别和所请求的功能。类似于电信提供商提供的解决方案，复杂的识别任务在此解决方案中由第三方应用提供商的计算平台执行。

在(无论电信提供商或第三方)服务器上执行语音识别可能具有以下优点：

1)适用于复杂的识别任务；

2)与移动设备的识别精度相比，识别精度通常更高；以及

3)使移动设备摆脱了繁重的识别操作，从而使设备能够更快地响应用户。

在服务器上执行语音识别具有以下缺点：

1)需要网络连接并且要利用网络带宽来传送话音数据；以及

2)服务器计算资源与多个用户共享，因此服务器负荷取决于同时使用系统的用户数量。

发明内容

本发明在包括移动设备的分布式网络系统中分配语音识别任务。语音识别在移动设备如蜂窝电话或移动手持设备以及后端服务器如电信服务器或应用服务器上执行。本发明的实施例描述了将语音识别任务分配到多个语音识别引擎的多种方案，这些引擎包括移动设备和服务器上的识别引擎。这些方案用于优化语音识别任务的分配，以提高在响应时间和识别精度方面的性能。将依据语音识别任务分配从多个语音识别器接收的识别器结果相综合。

系统方面包括：一种分配确定机制，用于确定语音识别任务在多个语音识别器之间的分配，其中：所述多个语音识别器在不止一个设备上执行，其中至少一个设备是移动设备；一种任务分配机制，用于基于所述分配确定机制确定的分配在所述多个语音识别器之间分配语音识别任务；以及一种综合机制，用于根据所述语音识别任务分配综合从所述多个语音识别器接收的识别器结果。

方法方面包括：确定语音识别任务在多个语音识别器之间的分配，其中所述多个语音识别器在不止一个设备上执行，其中至少一个设备是是移动设备；基于所述确定的分配，在多个语音识别器之间分配语音识别任务；以及根据所述语音识别任务分配综合从多个语音识别器接收的识别器结果。

计算机可读介质方面包括至少一个机器可执行指令序列，并且所述介质承载机器形式的可执行指令，其中：由处理器执行所述指令使所述处理器：确定语音识别任务在多个语音识别器之间的分配；基于所述确定的分配在多个语音识别器之间分配语音识别任务；以及根据所述语音识别任务分配综合从多个语音识别器接收的识别器结果；其中，所述多个语音识别器在不止一个设备上执行，其中至少一个设备是移动设备。

一种在多个语音识别器之间分配语音识别任务的计算机实现的系统包括：用于接收和发送数据的处理器以及耦合到所述处理器的存储器；所述存储器中存储一些指令，这些指令使所述处理器确定语音识别任务在多个语音识别器之间的分配；基于所述确定的分配在多个语音识别器之间分配语音识别任务；以及根据所述语音识别任务分配综合从多个语音识别器接收的识别结果；其中，所述多个语音识别器在不止一个设备上执行，其中至少一个设备是移动设备。

本领域技术人员根据如下详细说明容易明白本发明的其它优点，以下简单地通过例示实施本发明的最佳模式来显示并描述了本发明的实施例。将会意识到，本发明可以采取其它的和不同的实施例，并且其若干细节可以在各方面加以修改，所有这些均未背离本

发明范围。

附图说明

本发明通过附图中的非限制性示例来加以说明，在所有附图中，具有相同标记的要素表示类似的要素，附图中：

图1是可结合本发明实施例使用的系统的高级框图；

图2是在如图1所示的系统中执行语音识别的方法实施例的高级对象交互图；以及

图3是可结合本发明实施例使用的计算机系统的高级框图。

具体实施方式

与上述方法不同，根据本发明的实施例利用多个语音识别器，每个常驻在移动设备、电信服务器或应用服务器等上面，并且将多个语音识别器的输出综合成单个确定结果。

图1和图2分别显示了可结合本发明使用的系统100的高级结构图和高级对象操作交互图。系统100包括可经无线网络106连接到后端电信/应用服务器108的移动设备104如移动手持式电话。如图2所示，此类系统中的共同操作包括：

·用户102使用话音或语音命令与系统100进行交互；

·系统100(移动设备104、在服务器108A和应用服务器108B上执行的网络后端应用)使用语音识别来识别用户输入命令；

·执行与用户输入命令关联的功能(在移动设备104或服务器108A、108B上)；以及

·随后将执行所请求的功能得到的结果回送给用户102。

下面的情况描述根据本发明实施例的方法，以便1)优化语音识别任务到一个或多个分布式语音识别器的分配以及2)将分布式任务的结果综合成单个识别结果。

情况1：基于复杂性的分配

采样基于复杂性的分配方案，根据识别任务的复杂性将语音识别任务分配到语音识别器。如上所述，轻量级识别任务可在移动设备104上执行，而重量级识别任务则分配给服务器108。移动设备104增加了增强移动设备104能力的语音识别复杂性评估单元，并提供语音识别接口以确定是将识别任务分配到本地(在设备104上的)语音识别器还是将其分配到服务器108上的识别器。

移动设备104通过多种方法完成识别任务复杂性评估。一种评估标准是使用词汇量。小词汇量语音识别任务执行起来更容易且更快速，这是因为它们需要更少的统计模型和格型搜索技术。因此，嵌入识别器，例如安装在移动设备104上的识别器执行这样的简单任务。大词汇量语音识别更加困难，需要更多的计算资源，因而由服务器108执行。

作为说明性示例，在主叫方(即，用户)与移动设备104上的应用之间的对话可包含要求“是/否”答复的简单查询。该应用提示用户102说出电话号码或一组数字。简单的语音识别任务分配给移动设备104上的嵌入式识别器。相反，使主叫方可以自然地向应用说话的应用要求能够在服务器108上执行复杂的自然语言处理和统计模型。

基于复杂性的分配方法在对话期间执行。例如，设置词汇量阈值，超过该阈值，则将识别委派给服务器108。在根据本发明的另一实施例中，标出了用于本地(移动设备104)或远程(服务器108)语音识别的对话设计。作为实施示例，对标记语言如语音扩展标记语言(VoiceXML)或语音应用语言标志(SALT)中的提示标志扩展为允许设计人员指定某个参数，该参数控制是使用移动设备104上的嵌入式识别器还是服务器108上的远程识别器来执行针对特定用户输入的识别。在移动设备104上执行的对话解释器相应地委派识别任务。如果移动设备104识别器不可用或不存在，则解释器自动切换到基于服务器108的识别。

在替代实施例中，对话解释器在服务器108上执行以确定识别任务在移动设备104与服务器108之间的分配。

情况2：基于可用性的分配

使用基于可用性的分配方案，识别器可用性是使用哪个识别器执行语音识别任务的决定因素。移动设备104经无线网络106与服务器108进行交互。存在服务器108(电信或应用服务器)上的语音识别器不可用的情形。可用性受限的原因有下列几种：

1.移动设备104不可访问网络。这在用户离开覆盖区域或者由于不可控制的情况(例如，在隧道内驾驶)而使呼叫中断时发生。

2.服务器108不可用。服务器108语音识别器是可由连接到网络106的多个用户102使用的共享资源。服务器108语音识别器一般基于每个端口许可使用，并且可用端口的数量通常是用户总数的一部分。连接到网络106的用户102的数量超过可用端口数量时，就会经移动设备104返回拒绝消息给用户102(在特定实施例中，采用识别任务队列来将识别任务排队，直至端口变为可用为止)。

3.服务器108超时。如果服务器108语音识别器由于以上原因之一而负荷太重，可能已超出完成识别任务的阈值时间，因此，移动设备104可使发送到服务器108的识别任务消息超时。由于服务器108可能断开与移动设备104的连接，或者服务器可能太慢而无法响应移动设备，因此，移动设备104启动了超时。

采用基于可用性的分配方案，移动设备104在基于服务器108的识别器不可用或者基于服务器的识别器超时时切换到基于设备的识别器。虽然设备104识别器不是完全的识别器，但有时继续使用有限的识别能力是可接受的，而不是通知用户语音识别不可用。

情况3：基于精度的分配

在识别精度相关和首选或重要的情况如电话银行中，使用了多个语音识别器，并且综合输出以提高识别精度和/或增加识别输出的可信度。在发言(utterance)“难”识别时，也使用语音识别任务的基于精度的分配方案。这是有时移动电话的情况，其中，周围环境嘈杂或背景中有发生在其它各方之间的另一交谈。一个识别器在移动设备104上执行，而其它识别器在服务器108上执行。

语音识别任务的分配是基于使用几种量度中的一种或多种量度测得的复杂性来确定的。例如，预计用户要说的词汇量。低复杂性意味着很少的备选词，高复杂性意味着许多词。在另一示例中，背景噪声确定复杂程度。噪声检测器在移动设备104上使用，测量语音信号的噪声级。如果语音信号太嘈杂，即，确定信号超过预设的阈级，则将信号确定为复杂信号。在另一示例中，用户必须重复所述内容的次数是复杂性的决定因素。如果用户重复所述内容两次或更多次，则将信号确定为复杂信号。不同实施例中可以采用其它标准。

如上所述，复杂性的预设阈级是基于一个或多个不同因素如噪声级、重复次数等设置的。在一个实施例中，移动设备104上的噪声检测器在确定复杂性时监听预设的噪声级。在另一实施例中，移动设备104用户的特殊使用，如尝试的例如软件应用或事务处理决定复杂性。例如，银行事务处理经常需要更高级别的精度，并因而具有更高的复杂性程度。

在各识别引擎如移动设备104、后端电信服务器108A和应用服务器108B分配并识别分布式识别任务后，将各个结果综合以生成单个识别结果。本发明者已制定出几种用于综合多个语音识别器输出的策略。

在2003年1月30日提出的题为“双引擎语音识别(Two EngineSpeech Recognition)”的美国专利申请10/354415(此专利受让给本发明的受让人，且通过引用全部结合于本文中)中，介绍了通过利用对识别器历史行为的统计分析和混淆矩阵来综合两个语音识别引擎输出的技术和两种综合方法。在第一种方法中，将为每个语音识别引擎统计生成的混淆矩阵转换成备选矩阵，在该矩阵中，每列按最高到最低的概率排序。设置了程序循环，在循环中，将每个语音识别引擎的语音识别输出与备选矩阵交叉比较。如果第一自动化语音识别(ASR)引擎的输出与某个备选项匹配，则将第一ASR的输出选为最终输出。如果备选矩阵提供的向量取尽而未找到匹配，则将第一语音识别引擎的输出选为最终输出。在第二种方法中，将每个ASR引擎的混淆矩阵转换为贝叶斯概率矩阵。

采用这两种方法之一，大大降低了误词率(WER)，尤其对难的发言如此。将此方法应用到根据本发明的实施例，一个识别器在移动设备104上执行，而另一个识别器在服务器108A、108B中任意一个上执行。与上述申请中的所述两种识别引擎描述相反，根据本发明实施例的两个识别引擎分布在不同的设备中。通过使用训练集，即输入发言(基于用户话音的)集合来创建上述申请中所述的用于两个识别引擎的混淆矩阵，并且发言的对应副本用于理解识别引擎结果何时不正确，并校正识别引擎识别能力。训练集用于创建混淆矩阵，供以后用户使用时在识别引擎的执行期间使用。

由于一个引擎在移动设备104上执行，因此，基于不同的周围环境训练混淆矩阵很重要。移动设备104提出的难题在于：周围环境不是确定性的，因此，信号质量会受到影响。在另一实现方案中，用于在移动设备上执行的引擎的混淆矩阵基于环境参数来创建。实际上，基于周围环境创建了几个混淆矩阵。例如，基于在移动设备104上检测到的测量信噪比(SNR)，生成了用于噪声环境的混淆矩阵和用于正常环境的另一矩阵。也就是说，将特殊环境的SNR与预设阈值进行比较，如果超出阈值，则确定环境为正常环境。如果未超出阈值，则确定环境为噪声环境。在替代实施例中，可设置不止一个阈值来指定不同的环境类型。

在操作中，基于音频输入检测环境条件，并且将对应的混淆矩阵用于综合。也就是说，由一种音频环境确定机制，例如在移动设备104上执行的对移动设备接收的音频输入进行评估的进程确定移动设备所处的音频环境类型。基于所确定的音频环境类型，该确定机制确定用于所确定的音频环境类型的适当混淆矩阵，例如将噪声环境类型混淆矩阵用于检测到的噪声环境中的发言。

ASR引擎顺序尝试

在具有申请序列号10/339423且题为“商用自动语音识别引擎组合(Commercial Automatic Speech Recognitioin EngineCombinations)”的美国专利申请中，描述了一种系统，该系统使用主ASR引擎，另一补充ASR引擎根据结果进一步处理语音；该申请通过引用全部结合于本文中。将此方法应用于根据本发明的实施例，首先执行移动设备104上的嵌入式识别器。随后，使用输出置信度得分测量设备104识别器的精度，如本领域技术人员所公知的那样。如果置信度得分低于预设阈值，则将识别任务分配给服务器108识别器。例如，假定80％的发言由移动设备104上的嵌入式识别器处理，则服务器108识别器解除了80％的负荷时间。也就是说，将80％的识别器任务分配给移动设备104而非服务器108。

本领域技术人员公知的其它多识别器方案，如多数表决方案可结合根据本发明的实施例使用。例如，可使用多个网络识别器：一个在设备104上，一个在电信服务器108上，一个在应用服务器108B上，一个在第三方服务器上等。移动设备105上不必正好具有一个识别器，服务器108上不必正好具有一个识别器，分布在其它设备中的多个识别器应视为在本发明实施例范围内。

示例

在根据本发明的分布式实施例中，多个识别器，即移动设备104识别器、后端电信服务器108A识别器和应用服务器108B识别器接收用于语音识别处理的相同语音。根据分布式实施例，每个识别器基于接收的相同语音输入执行语音识别处理，并将结果提供给移动设备104。在替代实施例中，将结果提供给后端电信服务器108A或应用服务器108B。在分布式实施例的一种变型中，移动设备104基于上述使用分配确定机制的一种或多种分配方法，使用根据上述方案之一的任务分配机制，将识别任务分配到多个识别器。

每个识别器逐词处理并将识别处理结果提供给移动设备104，以便使用根据上述方案之一的综合机制进行综合。提供的每个结果包括至少一个确定的匹配词、该词匹配的置信度得分及可选的每个匹配词的一个或多个其它可能性。一个匹配词和可选的可能匹配词各包括一个权重系数。匹配词的权重比可能匹配词的大得多。第一可能匹配词的权重比第二可能匹配词的大得多，对于每个可能的匹配词以此类推。这样，赋予最佳匹配词相当大的权重。

在收到每个识别器的结果后，除非正在顺序尝试ASR引擎，否则移动设备104基于多数表决技术综合结果。将每个识别器的识别结果中的每个词进行比较，如果三个识别器结果中至少两个对于给定词匹配，则将该词选为识别词。如果无一识别器结果匹配，则综合识别器所识别的每个词的置信度得分和加权以得出比较值。移动设备104对来自每个识别器结果的每个匹配词和可选的可能匹配词生成比较值。如果如上所述采用有序尝试方法，则将预设置信度得分用于确定其它设备上的其它识别引擎是否分配了识别任务。

硬件概述

图3是显示示范计算机系统300的方框图，该系统可用于实施包括服务器108和一些不同的移动设备104的本发明实施例。本发明实施例可用于当前可获得的手持式设备、个人计算机、小型主机、服务器及诸如此类。

计算机系统300包括用于传送信息的总线302或其它通信机制以及与总线302连接的用于处理信息的处理器304。计算机系统300还包括连接到总线302的主存储器306如随机存取存储器(RAM)或其它动态存储设备，以存储事务和交互数据以及要由处理器304执行的指令。主存储器306也可用于在要由处理器304执行的指令执行期间存储临时变量或其它中间信息。计算机系统300还包括连接到总线302的只读存储器(ROM)308或其它静态存储装置，以存储用于处理器304的静态信息和指令。在替代实施例中，可提供诸如磁盘或光盘等可选存储设备310(虚线)，并将其连接到总线302，以存储事务和交互数据、库存量数据、订单数据及指令。

计算机系统300可经总线302连接到显示器312，如阴极射线管(CRT)或平板显示器，以向用户102显示信息和用户界面。包括输入键的输入设备314连接到总线302，以将信息和命令选择传送给处理器304。另一类型的可选用户输入设备是光标控制316(虚线)，如鼠标、轨迹球或光标方向键，以将方向信息和命令选择传送给处理器304，并控制显示器312上光标的移动。此输入设备一般在两个轴，即第一轴(例如，x)和第二轴(例如，y)上具有两种自由程度，因而允许设备指定平面中的某个位置。

在用于移动设备104的计算机系统300的实施例中，可将不同类型的输入设备314和光标控制316用于实现控制和输入功能。

本发明的实施例涉及使用计算机系统300如图3所示系统来优化语音识别任务的分配。根据本发明实施例，处理器304响应经输入设备314、光标控制316或通信接口318接收的输入而执行包含在主存储器306中的指令序列，响应于此，计算机系统300对语音识别任务进行分配。所述指令可从另一计算机可读介质如存储设备310读入主存储器306中。

然而，计算机可读介质并不限于诸如存储设备310之类的设备。例如，计算机可读介质可包括软盘、软磁盘、硬盘、磁带或任何其它磁介质、只读光盘(CD-ROM)、任何其它光学介质、穿孔卡、纸带、具有穿孔图案的任何其它物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、电可编程只读存储器(EPROM)、FLASH-EPROM、任何其它存储器芯片或盒式磁盘、包含在电、电磁、红外或光信号中的载波或计算机可读取的任何其它介质。执行主存储器306中所包含的指令序列使处理器304执行上述过程步骤。在替代实施例中，硬连线电路可用于替代实施本发明的计算机软件指令或与之相结合。因此，本发明的实施例并不限于硬件电路和/或软件的任一特定组合。

计算机系统300还包括连接到总线302的通信接口318。通信接口308提供公知的双向通信。例如，通信接口318可以是无线通信网络、综合业务数字网(ISDN)卡、数字用户线(DSL)卡或向对应类型的电话线提供数据通信连接的调制解调器。又如，通信接口318可以是局域网(LAN)卡，以提供到兼容LAN的数据通信连接。也可以实现无线网络链路。在所述任何一种实现中，通信接口318发送和接收承载表示各类信息的数字数据流的电、电磁或光信号。特别要注意的是，通过接口318的通信可允许发送或接收用户提供的语音输入。例如，两个或两个以上计算机系统300可以常规方式连网，且每个均使用通信接口318。

网络链路320一般通过一个或多个网络向其它数据设备提供数据通信。例如，网络链路320可通过局域网322提供到主机324的连接，或者提供到由因特网服务提供商(ISP)326或电信服务提供商操作的数据设备的连接。ISP 326又通过现在通称为“因特网”328的环球分组数据通信网络提供数据通信服务。局域网322和因特网328均使用承载数字数据流的电、电磁或光信号。通过各种网络的信号和在网络链路320上且经过通信接口318的信号是传输信息的示范载波形式，它们承载往来于计算机系统300的数字数据。

计算机系统300可通过上述网络、网络链路320和通信接口318发送消息并接收包括程序代码的数据。在因特网示例中，服务器330可通过因特网328、ISP 326、局域网322和通信接口318发送请求的应用程序代码。根据本发明的实施例，一个这样下载的应用可实现对语音识别任务的优化分配。

接收的代码可由处理器304在接收时执行，和/或存储在存储设备310或其它非易失性存储器中以便以后执行。这样，计算机系统300可以载波形式获得应用代码。

通过同时提交识别输入到多个识别系统(其中一个识别系统位于手持式设备(前端)即设备104上，而多个识别系统位于后端即服务器108上)，总的识别精度和可用性高于任一单独的系统。通常通过使用统计方法指定所说短语匹配预期输入的概率来完成语音识别。应用可决定在接收输入前短语需要匹配的程度。通过设置很高的百分比，语音识别系统可生成更精确的输出，但如果对响应不确定，则可能需要重新询问用户。通过向多个识别器提交，可由端点即移动设备104解决简单的识别任务，即是/否询问，而更复杂的基于语言学的识别任务则交给设备104识别器和服务器108识别器二者执行。虽然设备104识别器可能无法迅速处理复杂任务，但更强大的网内服务器108可以处理更复杂的任务。

下述方法和设备具有许多优点。

本发明实施例基于如下思想：可将多个网内识别器用于优化识别性能(例如在精度和速度方面)，并且其中一个识别系统在移动设备如电话上，然后可利用网内识别提高识别性能。

根据本发明的实施例与上述系统相比有独特的优势；多个识别器可用于(同时或一个接一个或一次一个)提高识别精度。

当将本发明用作向自移动设备、蜂窝电话、手持式设备和无线输入板请求用户输入的装置时，可有利地提高话音接口的服务质量(QoS)和可用性。此外，在网络中使用多个分布式识别器以及用于优化语音识别任务在多个网络识别器之间的分配以提高精度和速度的方法和设备是有利的。

此外，在移动设备上完成处理器密集型复杂语音识别任务，同时保持在服务器上执行识别任务的潜在灵活性是有利的。进而(与前述相关)，使在能力有限设备如蜂窝电话上执行的轻量级识别与驻留在电信服务器或应用服务器上的完全网络识别器结合使用是有利的。

在阅读上述说明书后，本领域的普通技术人员将能够影响本文以概括方式公开的本发明的各种变化、等效替换以及其它各方面。因此，本发明的预定保护范围仅由所附权利要求及其等同物限定。

Claims

1.一种使用多个语音识别器的系统，所述系统包括：

一种分配确定机制，用于确定语音识别任务在多个语音识别器之间的分配，其中：所述多个语音识别器在不止一个设备上执行，其中至少一个设备是移动设备(104)；

一种任务分配机制，用于基于所述分配确定机制确定的分配在所述多个语音识别器之间分配语音识别任务；以及

一种综合机制，用于根据所述语音识别任务分配综合从所述多个语音识别器接收的识别器结果。

2.如权利要求1所述的系统，其特征在于：所述分配机制包括对所述多个语音识别器中的每个识别器使用混淆矩阵，其中所述混淆矩阵是基于预定音频环境类型生成的。

3.如权利要求2所述的系统，其特征在于还包括：

一种用于确定音频环境类型的音频环境确定机制，其中所述音频环境确定机制确定供所述多个语音识别器用于所述确定的音频环境类型的适当混淆矩阵。

4.一种使用多个语音识别器的方法，包括以下步骤：

确定语音识别任务在所述多个语音识别器之间的分配，其中：所述多个语音识别器在不止一个设备上执行，其中至少一个设备是是移动设备(104)；

基于所述确定的分配，在所述多个语音识别器之间分配语音识别任务；以及

根据所述语音识别任务分配综合从所述多个语音识别器接收的识别器结果。

5.如权利要求4所述的方法，其特征在于还包括：

基于预定音频环境类型生成混淆矩阵；

确定所述移动设备(104)上的音频环境类型；以及

基于所述确定的音频环境类型确定供所述多个语音识别器使用的适当混淆矩阵。

6.一种计算机可读介质，包括：

至少一个机器可执行指令序列；以及

所述介质承载机器形式的所述可执行指令，其中，处理器执行所述指令导致所述处理器：

确定语音识别任务在多个语音识别器之间的分配；基于所述确定的分配，在多个语音识别器之间分配语音识别任务；以及根据所述语音识别任务分配综合从所述多个语音识别器接收的识别器结果；其中，所述多个语音识别器在不止一个设备上执行，其中至少一个设备是移动设备(104)。

7.如权利要求6所述的计算机可读介质，其特征在于还包括一些指令，这些指令在由所述处理器执行时使所述处理器：基于预定音频环境类型生成混淆矩阵；确定在所述移动设备104上的音频环境类型；以及基于所述确定的音频环境类型确定供所述多个语音识别器使用的适当混淆矩阵。

8.一种用于在多个语音识别器之间分配语音识别任务的计算机实现的系统，所述系统包括：

用于接收和发送数据的处理器；以及

耦合到所述处理器的存储器；所述存储器存储一些指令，这些指令使所述处理器：确定语音识别任务在多个语音识别器之间的分配；基于所述确定的分配在多个语音识别器之间分配语音识别任务；以及根据所述语音识别任务分配综合从所述多个语音识别器接收的识别结果；其中，所述多个语音识别器在不止一个设备上执行，其中至少一个设备是移动设备(104)。

9.如权利要求8所述的系统，其特征在于还包括一些指令，这些指令在由所述处理器执行时使所述处理器基于预定音频环境类型生成混淆矩阵。

10.如权利要求8所述的系统，其特征在于还包括一些指令，这些指令在由所述处理器执行时使所述处理器：确定所述移动设备(104)上的音频环境类型，并基于所述确定的音频环境类型确定供所述多个语音识别器使用的适当混淆矩阵。