CN1633679A

CN1633679A - 用于多级分布式语音识别的方法和装置

Info

Publication number: CN1633679A
Application number: CNA028264967A
Authority: CN
Inventors: 塞纳卡·巴拉苏里亚
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2001-12-29
Filing date: 2002-12-20
Publication date: 2005-06-29
Anticipated expiration: 2022-12-20
Also published as: US6898567B2; FI20040872A0; WO2003058604A1; WO2003058604B1; FI20145179L; FI125330B; US20030139924A1; JP4509566B2; AU2002367354A1; KR100632912B1; CN1320519C; KR20040072691A; FI20040872A; JP2005524859A

Abstract

本发明公开了一种用于多级分布式语音识别的系统和方法，包括一个终端，其具有一个可操作地耦合到麦克风(130)的终端语音识别器(136)。所述终端语音识别器(136)接收一个音频命令(37)，产生至少一个终端识别的音频命令，其具有一个终端置信度值。一个网络元件(124)具有至少一个网络语音识别器(150)，网络元件也接收音频命令(149)，产生至少一个网络识别的音频命令，其具有一个网络置信度值。一个比较器(152)接收所述识别的音频命令，比较语音识别置信度值。所述比较器(152)提供一个输出(162)给所述至少一个识别的音频命令的会话管理器(160)，其中所述会话管理器基于所述至少一个识别的音频命令执行一个命令，例如把所述至少一个识别音频命令呈送给用户进行检验或访问一个内容服务器。

Description

用于多级分布式语音识别的方法和装置

技术领域

本发明通常涉及通信装置和方法，更具体地涉及采用语音识别的通信设备和方法。

背景技术

一种涉及终端装置的新兴技术领域是以多种输入和输出格式的信息转换的应用，这些终端装置例如是手持装置，移动电话，便携式电脑，PDA，因特网设备，台式电脑或合适的装置。在终端装置上典型地有一个输入系统，其允许用户输入信息，诸如特殊的信息请求。例如，一个用户可以使用终端装置访问一个天气数据库以得到特定城市的天气信息。典型地，用户输入一个请求特定位置的天气信息的语音命令，诸如“芝加哥的天气”。由于与终端装置有关的处理限制，所述语音命令可能通过通信链路被转发到一个网络元件，其中所述网络元件是一个网络中的多个网络元件之一。所述网络元件包含一个语音识别引擎，其可以识别所述语音命令并且执行并搜索用户所请求的信息。此外，所述语音识别引擎可以位于所述网络中并且可操作地耦合到所述网络元件，而不是在所述网络元件中，以便所述语音识别引擎可以被多个网络元件访问。

随着无线技术的进步，用于无线装置的用户应用程序已经有了增加。这些装置许多都变得更加容易交互，为用户提供了输入命令请求和访问信息的能力。同时，随着无线技术的进步，用户可以提交特定信息请求的形式也有了增加。典型地，一个用户可以通过键盘输入一个命令请求，其中所述终端装置对所述输入编码并且把它提供给网络元件。所述系统的一个通用例子是电话银行系统，其中用户输入一个账号和个人身份号码(PIN)来访问帐户信息。终端装置或网络元件一旦通过键盘接收到输入，就把所述输入转换为一个双音多频信号(DTMF)并且把所述DTMF信号提供给银行服务器。

此外，用户可以使用语音输入来输入一个命令，诸如一个信息请求。即使随着语音识别技术的发展，仍然有许多处理和存储器存储要求限制了终端装置中的语音识别能力。典型地，一个语音识别引擎包括一个语音模型库，通过它可以匹配输入的语音命令。为了或的可靠的语音识别，时常需要一个大的库，因此需要大量的存储器。此外，随着语音识别性能的提高，功率消耗需要也增加了，从而缩短了终端装置的电池寿命。

终端语音识别引擎可以是一个自适应系统。语音识别引擎在具有一个较小的识别命令库的同时，更加适于并且能够理解用户的不同语音模型，例如语调(tone)、音调变化(inflection)、重音等等。因此，在终端中有限的语音识别库可以通过较高程度的语音识别正确概率来弥补。所述系统典型地限制于最通用的语音命令，例如用户叫一个名字且系统自动拨相关的号码这样的编程语音激活拨号特点，其预先被编程到终端中。

另一种用于语音识别的方法是提供一个完全的语音命令给网络元件。网络语音识别引擎可以提高语音识别效率，因为可用存储器的数量大，并且可以降低关于功率消耗要求的影响。但是，在一个网络元件上，语音识别引擎必须可以由访问这多个网络元件的多个用户访问，因此网络语音识别引擎受到不能识别诸如重音等这样的不同语音模型的限制。同样，网络语音识别引擎可以提供一个较大的语音识别命令词汇表，但是因为在个人用户语音模型中固有的限制，正确识别的概率较低。

还有，最近的发展提出了多级分布式语音识别，其中一个终端装置尝试识别一个语音命令，并且如果在所述终端中没有识别出来，所述语音命令就被编码并且送到网络语音识别引擎用于第二次语音识别尝试。授予Hedin等人的美国专利6,186,535B1公开了一种系统和方法，用于用户接口对服务应用程序的语音控制。所述系统提供了逐步的语音识别，其中只有在所述终端装置不能识别所述语音命令时，才利用至少一个网络语音识别引擎。美国专利6,186,535B1只提供了从终端语音识别引擎或从网络语音识别引擎提供正确识别音频命令的单级保证。

同样，需要一种采用语音识别引擎的改进通信装置。

附图说明

参照包含在此的下述附图将更容易理解本发明。

图1说明一种现有技术的无线系统。

图2说明一种根据本发明的用于多级分布式语音识别的设备的框图。

图3说明表示一种根据本发明的用于多级分布式语音识别的方法的流程图。

图4说明一种根据本发明的一个实施例的用于多级分布式语音识别的系统的框图。

图5说明表示一种根据本发明的一个实施例的用于多级分布式语音识别的方法的流程图。

具体实施方式

通常，通过一个终端识别引擎提供一种用于多级分布式语音识别的系统和方法，所述终端识别引擎可操作地耦合到终端装置的一个音频子系统内的麦克风，接收一个音频命令，诸如来自用户的语音命令，例如“芝加哥的天气”，并且产生至少一个终端识别的音频命令，其中所述至少一个终端识别的音频命令具有一个相应的终端置信度值。

所述系统和方法进一步包括一个在网络中的网络元件，其具有可操作地耦合到终端内的麦克风的至少一个网络语音识别引擎，引擎接收音频命令并且产生至少一个网络识别的音频命令，其中至少一个网络元件识别的音频命令具有一个相应的网络置信度值。

此外，所述系统和方法包括一个比较器，它是一个以硬件或软件实现的模块，其比较多个识别的音频命令和置信度值。比较器可操作地耦合到终端语音识别引擎，用于接收终端识别的音频命令和终端语音识别置信度值，比较器进一步耦合到网络语音识别引擎，用于接收网络识别的音频命令和网络语音识别置信度值。比较器比较终端语音识别置信度值和网络语音识别置信度值，通过相应的置信度值编译并且分类所识别的语音命令。在一个实施例中，比较器基于特定的语音识别引擎为置信度提供权重因子，诸如一个特定语音识别引擎的置信度值比其他置信度值的权重大。

一个会话管理器可操作地耦合到比较器上，其可以是一个语音浏览器，交互式语音响应单元(IVR)，图形浏览器，基于JAVA的应用程序，软件程序应用，或其他本领域技术人员公知的软件/硬件应用。会话管理器是以硬件或软件实现的模块，其在接收到所识别的音频命令时接收、解释或执行一个命令。会话管理器可以为比较器提供一N个最佳(N-best)指示符，其指示要提供给会话管理器的具有最高置信度的识别命令数量。比较器为会话管理器提供所识别的音频命令和他们的置信度值即N个最佳识别音频命令和他们的置信度值的相关列表。此外，如果比较器不能为会话管理器提供任何识别的音频命令，那么比较器就提供一个错误通知给会话管理器。

当会话管理器接收一个或多个识别的音频命令和相应的置信度值时，会话管理器可以利用另外的步骤进一步限制该列表。例如，它可以执行具有最高置信度值的音频命令或把相关的列表呈现给用户，以便用户可以检验音频命令。还有，在会话管理器接收错误通知或没有一个识别的音频命令具有高于预定最小阈值的置信度值的情况中，会话管理器提供一个错误消息给用户。

如果音频命令是对内容服务器中的信息的请求，那么会话管理器访问内容服务器并且搜索编码的信息。至少一个内容服务器可操作地耦合到会话管理器，诸如通过因特网耦合的市场上可买到的服务器，通过局域网耦合的本地服务器，诸如银行系统这样的商业应用服务器，或任何其他合适的内容服务器。

所搜索的编码信息返回给会话管理器，典型地以会话管理器可解码的标记语言编码，诸如超文本标记语言(HTML)，无线标记语言(WML)，扩展标记语言(XML)，语音扩展标记语言(VoiceXML)，扩展超文本标记语言(XHTML)，或其他这样的标记语言。因此，编码的信息通过会话管理器解码并且提供给用户。

因此，音频命令可以发送给布置在多级上的至少两个语音识别引擎，例如第一语音识别引擎在终端装置上，并且第二语音识别引擎在网络上。

图1说明一种现有技术的无线通信系统100，其使得用户102可以通过终端108和网络元件110之间的通信连路访问至少一个内容服务器104。网络元件110是网络112中的多个网络元件110之一。用户102提供一个输入命令114，诸如语音命令，例如“芝加哥的天气”给终端108。终端108解释所述命令并且通过诸如标准无线连接这样的通信链路106把所述命令提供给网络元件110。

网络元件110接收所述命令，处理所述命令，即利用一个语音识别器(未示出)来识别并解释所述输入命令114，然后访问多个内容服务器104的至少一个以搜索所请求的信息。一旦搜索所述信息，就把它返回给网络元件110。随即，所请求的信息通过通信链路106提供给终端108并且终端108提供一个输出116给用户，输出例如是一个可听消息。

在图1的现有技术中，输入命令114可以是提供给终端108的一个语音命令。终端108编码所述语音命令并且通过通信链路106把编码的语音命令提供给网络元件110。典型地，网络元件110内的语音识别引擎(未示出)将尝试识别所述语应命令并且搜索所请求的信息。如上所讨论的，语音命令114也可以在终端108内解释，然后终端对网络元件110请求，以得到所请求的信息。

提供音频命令114给终端108在本领域中也是已知的，随即终端108尝试解释所述命令。如果终端108不能解释所述命令114，那么就通过通信链路106把音频命令114提供给网络元件110，以便由至少一个网络语音识别引擎(未示出)来识别。现有技术的系统提供逐步的语音识别系统，只有在终端语音识别引擎不能识别所述语音命令时，才访问至少一个网络语音识别引擎。

图2说明根据本发明的一个实施例的用于多级分布式语音识别的设备。音频子系统120可操作地耦合到一个第一语音识别引擎122和至少一个第二语音识别引擎124，例如USA MA02111的波士顿695大街的Speech Works International公司所生产的OpenSpeech语音识别引擎1.0。如本领域技术人员所公知的，在此也可以利用任何其他合适的语音识别引擎。音频字系统120通过连接126耦合到语音识别引擎122和124。第一语音识别引擎122通过连接130可操作地耦合到一个比较器128，而第二语音识别引擎124通过连接132可操作地耦合到比较器128。

比较器128通过连接136耦合到一个会话管理器134。会话管理器通过连接140可操作地耦合到一个内容服务器138并且通过连接144耦合到一个语音合成引擎142。此外，语音合成引擎进一步通过连接146可操作地耦合到音频子系统120。

图2的设备的操作参照图3来描述，图3说明了根据本发明的一个实施例的用于多级分布式语音识别的方法。所述方法在150开始，这时设备在步骤152接收一个音频命令。典型地，音频命令被提供给音频子系统120。更具体，音频命令可以通过位于音频子系统内的麦克风(未示出)提供。如本领域技术人员所公知的，音频命令可以从任何其他合适的装置提供，例如从存储单元读取，从应用程序提供，等等。

一旦接收到音频命令，在步骤154音频子系统把音频命令提供给第一语音识别引擎122和至少一个第二语音识别引擎124。通过连接126提供音频命令。接下来，在步骤156第一语音识别引擎122识别所述音频命令并且产生至少一个第一识别的音频命令，其中，所述至少一个第一识别的音频命令具有相应的第一置信度值。在步骤158，第二语音识别引擎124还识别所述音频命令并且产生至少一个第二识别的音频命令，其中，所述至少一个第二识别的音频命令具有相应的第二置信度值。所述至少一个第二语音识别引擎与第一语音识别引擎识别相同的音频命令，但是独立于第一语音识别引擎来识别所述音频命令。

第一语音识别引擎122然后通过连接130把所述至少一个第一识别的音频命令提供给比较器128，第二语音识别引擎124然后通过连接132把所述至少一个第二识别的音频命令提供给比较器128。在本发明的一个实施例中，比较器用一个第一权重因子对所述至少一个第一置信度值加权，用一个第二权重因子对所述至少一个第二置信度值加权。例如，在步骤160所述比较器可以遵从第一语音识别引擎的识别，第一置信度值可以乘以0.95的比例因子，而第二置信度值乘以0.90的比例因子。

接下来，在步骤162比较器基于所述至少一个第一置信度值和所述至少一个第二置信度值从所述至少一个第一识别的音频命令和所述至少一个第二识别的音频命令选择至少一个识别的音频命令，其具有一个识别音频命令置信度值。在本发明的一个实施例中，会话管理器为比较器提供一个N-best指示符，指示所需要的识别命令的数量，例如N-best指示符为5时是5个最佳识别命令。

会话管理器134通过连接136从比较器128接收识别的音频命令，如N个最好的识别命令。在步骤164会话管理器基于所述至少一个识别的音频命令执行至少一个操作。例如，在步骤166会话管理器通过把识别音频命令的N-best识别列表提供给用户由用户检验，以期检验所述至少一个识别的音频命令。在本发明的一个实施例中，会话管理器134通过连接144把识别音频命令的N-best识别列表提供给语音合成引擎142。语音合成引擎142对这N个最佳识别音频命令进行合成并且通过连接146把它们提供给音频子系统120。音频子系统把N-best识别列表提供给用户。

此外，会话管理器可以对所述N-best列表执行进一步的过滤操作，例如比较所述至少一个识别音频命令置信度值和一个例如0.65这样的最小置信度水平，然后简单地指定具有最高置信度值的识别音频命令为正确的识别音频命令。其中，会话管理器执行那个命令，如通过连接140访问一个内容服务器以搜索所请求的信息，如一个特定城市的天气信息。

此外，在步骤168，当所述至少一个第一置信度值和所述至少一个第二置信度值都低于一个最小置信度值，那么比较器产生一个错误通知。例如，参照图2，所述比较器128可以有一个内部最小置信度水平，例如0.55，第一置信度值和第二置信度值和它相比较。如果第一置信度值和第二置信度值没有一个高于所述最小置信度水平，那么比较器就通过连接176发出一个错误通知给会话管理器134。

此外，例如在N个最佳识别音频命令中的识别音频命令没有包含一个高于会话管理器置信度水平的识别置信度值的情况中，会话管理器可以发出一个错误通知。当第一语音识别引擎和第二语音识别引擎不能识别任何音频命令，或其中识别的音频命令低于第一语音识别引擎、第二语音识别引擎或比较器所指定的最小置信度水平时，比较器也可以产生错误通知。

当通过比较器128或会话管理器134发出错误通知时，会话管理器执行一个错误命令，其中，错误命令通过连接144提供给语音合成引擎142并且进一步通过连接146提供给最终的用户。如本领域技术人员所公知的，错误命令可以通过任何其他的合适装置，例如使用可视显示器提供给用户。

图2的设备提供了多级分布式语音识别。一旦会话管理器响应所述至少一个识别的命令执行一个操作，所述方法就在步骤170结束。

图4说明根据本发明的一个实施例的多级分布式语音识别系统。系统200包括一个终端202和一个网络元件204。如本领域普通技术人员所公知的，网络元件202是网络206中的多个网络元件204之一。

终端202有一个音频子系统206，其中有一个扬声器208和一个麦克风210。音频子系统206可操作地耦合到一个终端语音传送接口212。此外，在终端202内有一个终端会话管理器214。

终端202还有一个终端语音识别引擎216，例如60196 USA的伊利诺斯州的Scharumburg的1301East Algonquin Road的摩托罗拉公司生产的可以提供激活拨号的Motorola i90c^TM，其可操作地通过连接218耦合到音频子系统206。如本领域技术人员所公知的，在此可以利用其他合适的语音识别引擎。终端语音识别引擎216初始通过音频子系统206内的麦克风216从用户222接收一个音频命令222。

终端会话管理器214可操作地耦合到位于网络元件204中的一个网络元件会话管理器222。如本领域技术人员所公知的，终端会话管理器214和网络元件会话管理器222在用于会话通信会话初始化时以及在通信会话终止时进行通信。例如，在位于终端202和网络元件204内的各种元件初始化启动期间提供地址分配。

终端语音传送接口212可操作地耦合到位于网络元件204内的一个网络元件语音传送接口224。网络元件语音传送接口224进一步可操作地耦合到至少一个网络语音识别引擎226，如例如USA MA02111的波士顿695大街的Speech Works International公司所生产的OpenSpeech语音识别引擎1.0。如本领域技术人员所公知的，在此可以利用任何其他合适的语音识别引擎。所述至少一个网络语音识别引擎226进一步通过连接230耦合到一个比较器228，比较器可以以软件或硬件实现，其用于从终端语音识别引擎216和网络语音识别引擎226接收的识别音频命令中选择至少一个识别的音频命令。

比较器228进一步通过连接232耦合到位于终端202中的终端语音识别引擎216。比较器228还通过连接236耦合到一个会话管理器234。会话管理器234可操作地耦合到多个模块，通过连接240耦合到一个语音合成引擎238，并且耦合到至少一个内容服务器104。如本领域技术人员所公知的，会话管理器可以耦合到多个其他部件，为了清楚的目的，这些部件从图4中省略了。

图5说明根据本发明的一个实施例的用于多级分布式语音识别的方法。如参照图4所说明的，图5的方法在步骤300开始，此时在终端202内接收音频命令。典型地，音频命令通过用户102提供一个音频输入给音频子系统206的麦克风210提供给终端202。在步骤304，音频输入以标准编码格式编码并且提供给终端语音识别引擎216并且进一步通过终端语音传送接口212和至少一个网络元件语音传送接口224提供给至少一个网络语音识别引擎226。

类似于图2的设备，在步骤306，终端语音识别引擎识别音频命令以产生至少一个终端识别的音频命令，其中，该至少一个终端识别的音频命令具有相应的终端置信度值。在步骤308，所述至少一个网络语音识别引擎226识别音频命令以产生至少一个网络识别的音频命令，其中，所述至少一个网络识别的音频命令具有相应的网络置信度值。所述至少一个网络语音识别引擎与终端语音识别引擎识别相同的音频命令，但是独立于终端语音识别引擎来识别音频命令。

一旦终端语音识别引擎216已经识别音频命令，那么通过连接232把所述至少一个终端识别的音频命令提供给比较器228。同样，一旦所述至少一个网络语音识别引擎226已经识别所述音频命令，那么通过连接230把所述至少一个网络识别的音频命令提供给比较器228。

在本发明的一个实施例中，在步骤310比较器228用一个终端权重因子对至少一个终端置信度值加权，用一个网络权重因子对至少一个网络置信度值加权。例如，所述比较器可以遵从所述至少一个网络语音识别引擎的识别，从而调整即把所述网络置信度值乘以一个比例因子以增大网络置信度值并且调整即把终端置信度值乘以一个比例因子以降低终端置信度值。

此外，所述方法在步骤312从所述至少一个终端识别音频命令和所述至少一个网络识别的音频命令选择至少一个识别的音频命令，其具有一个识别命令置信度值。特别是，比较器228基于所述识别音频命令的置信度值选择多个识别的音频命令。在本发明的一个实施例中，会话管理器234向比较器提供一个N-best指示符，指示所需要的识别命令的数量N。比较器228通过所述至少一个终端识别的音频命令和所述至少一个网络识别的音频命令的相应置信度值对它们进行分类并且从中提取N个最佳命令。

在本发明的一个实施例中，比较器228可以基于所识别的音频命令的相应置信度值过滤所述至少一个终端识别的音频命令和至少一个网络识别的音频命令。例如，比较器可以有一个最小置信度值，所识别的音频命令置信度值与它相比较并且具有低于所述最小置信度值的置信度值的所有识别音频命令被排除。从而，比较器向会话管理器提供N个最佳命令。

此外，在置信度值高于最小度置信度水平的命令小于N个的情况中，比较器可以向会话管理器提供小于N个的命令。在比较器没有接收到任何置信度值高于最小置信度水平的识别命令时，比较器产生一个错误通知并且通过连接236把所述错误通知提供给会话管理器。此外，在步骤314，当至少一个终端置信度值和至少一个网络置信度值低于一个最小置信度值时，例如低于0.5的置信度水平，产生一个错误通知。

在本发明的一个实施例中，在步骤316会话管理器可以检验所述至少一个识别的音频命令，以产生一个检验过的识别音频命令，并且基于所述检验过的识别音频命令执行一个操作。例如，会话管理器可以经语音传送接口212和214和语音合成引擎238，通过扬声器208把识别音频命令的N-best列表提供给用户。用户然后可以选择N个最佳命令中的哪一个能精确反映原始的音频命令，从而产生一个检验过的识别音频命令。

然后以与提供原始音频命令相同的方式把检验过的识别音频命令返回给会话管理器234。例如，N-best列表中的第四个识别的音频命令是正确的命令，并且用户检验所述命令，产生一个检验过的识别音频命令，所述用户然后可以向麦克风206说出单词4，其被提供给终端语音识别引擎216和所述至少一个网络语音识别引擎226并且进一步提供给比较器228，在那里它被提供给会话管理器234。会话管理器234一接收到所述检验过的识别音频命令就基于所述检验过的识别音频命令执行一个操作。

会话管理器234可以基于所述至少一个识别的音频命令或所述检验过的音频命令执行多个操作。例如，会话管理器可以访问一个内容服务器104，例如一个商业数据库，以搜索所请求的信息。此外，会话管理器可以执行程序内的一个操作，如继续预编程的应用程序的下一个步骤。还有，会话管理器可以把识别的音频命令填充为一种形式并且随即从用户请求用于所述形式的下一条或输入。如本领域技术人员所公知的，会话管理器可以针对或在接收到至少一个识别音频命令时执行任何合适的操作。

在本发明的一个实施例中，在步骤318一旦接收到所述至少一个识别的音频命令，会话管理器基于所述至少一个识别的音频命令的置信度值过滤所述至少一个识别的命令，并且基于具有最高识别音频命令置信度值的识别音频命令执行一个操作。例如，会话管理器可以除去所有置信度值低于一个预定设置，例如低于0.6的所有识别音频命令，并且基于其余的识别音频命令执行一个操作。如上所述，会话管理器可以响应所述至少一个识别的音频命令执行任何合适的可执行操作。

此外，类似于比较器236执行的操作，会话管理器可以基于所述过滤设法除去任何置信度值低于预定置信度水平的任何识别音频命令。例如，会话管理器设置的最小置信度值可以比比较器高，如所述最小置信度水平可以由会话管理器234独立于系统200的其他部分来设置。在过滤后会话管理器不包含任何高于所述会话管理器最小置信度水平的识别音频命令的情况中，类似于比较器228，会话管理器234产生一个错误通知。

一旦产生所述错误通知，所述会话管理器执行一个错误命令234以通知用户，没有正确接收到音频命令。如本领域技术人员所公知的，会话管理器可以简单地执行错误命令，而不像比较器228执行的那样产生错误通知。

一旦会话管理器已经完全执行了所述操作，在步骤320完成用于多级分布式识别的方法。

本发明通过一个第一语音识别引擎和至少一个第二语音识别引擎针对多级分布式语音识别。在本发明的一个实施例中，第一语音识别位于终端内并且所述至少一个第二语音识别引擎位于网络中。如本领域技术人员所公知的，语音识别引擎可以位于终端、网络元件，位于可操作地耦合到所述网络元件在所述网络上的一个单独的服务器等等，其中语音识别引擎接收音频命令并且提供至少一个识别的音频命令进行比较并且提供给一个会话管理器。此外，本发明通过独立于提供命令给第一语音识别引擎，提供相同的音频命令给第二语音识别引擎来改进现有技术。因此，与第一语音识别引擎的识别能力无关，同样的音频命令进一步提供给第二语音识别。同样，本发明通过利用多个语音识别引擎和一个比较器和会话管理器来改上语音识别的可靠性，它们可以接收并且进一步改进系统和方法的语音识别能力的精确度。

应所述理解，本发明的其他变形和修改的实施和它的各方面对于本领域普通技术人员是显而易见的，本发明并不受在此描述的具体实施例的限制。例如，图4的比较器和会话管理器可以位于耦合到所述网络元件的一个服务器上，而不位于所述网络元件内。因此可以想到，本发明覆盖落在在此公开和描述的基础原理的精神和范围内的任何和所有修改、变形或等效方式。

Claims

1.一种用于多级分布式语音识别的方法，包括：

将音频命令提供给一个第一语音识别引擎和至少一个第二语音识别引擎；

在所述第一语音识别引擎中识别所述音频命令以产生至少一个第一识别的音频命令，其中所述至少一个第一识别的音频命令具有一个相应的第一置信度值；并且

独立于第一语音识别引擎识别所述音频命令，在所述至少一个第二语音识别引擎中识别所述音频命令以产生至少一个第二识别的音频命令，其中所述至少一个第二识别的音频命令具有一个相应的第二置信度值。

2.如权利要求1的方法，进一步包括：

基于所述至少一个第一置信度值和所述至少一个第二置信度值从所述至少一个第一识别的音频命令和所述至少一个第二识别的音频命令中选择至少具有一个识别音频命令置信度值的一个识别的音频命令。

3.如权利要求1的方法，进一步包括：

在选择至少一个识别的音频命令之前，用第一权重因子对所述至少一个第一置信度值进行加权，并且用第二权重因子对所述至少一个第二置信度值进行加权。

4.如权利要求2的方法，进一步包括：

基于所述至少一个识别的音频命令执行至少一个操作。

5.如权利要求2的方法，进一步包括：

检验所述至少一个识别的音频命令。

6.如权利要求1的方法，进一步包括；

当所述至少一个第一置信度值和所述至少一个第二置信度值低于一个最小置信度水平时，产生一个错误通知。

7.一种用于多级分布式语音识别的方法，该方法包括：

将音频命令提供给一个终端语音识别引擎和至少一个网络语音识别引擎；

在所述终端语音识别引擎中识别所述音频命令以产生至少一个终端识别的音频命令，其中所述至少一个终端识别的音频命令具有一个相应的终端置信度值；并且

在所述至少一个网络语音识别引擎中识别所述音频命令以产生至少一个网络识别的音频命令，其中所述至少一个网络识别的音频命令具有一个相应的网络置信度值；

从所述至少一个终端识别的音频命令和所述至少一个网络识别的音频命令中选择具有一个识别音频命令置信度值的至少一个识别的音频命令。

8.如权利要求7的方法，进一步包括；

当所述至少一个终端置信度值和所述至少一个网络置信度值低于一个最小置信度水平时，产生一个错误通知。

9.如权利要求7的方法，进一步包括：

在选择所述至少一个识别的音频命令之前，用终端权重因子对所述至少一个终端置信度值进行加权，并且用网络权重因子对所述至少一个网络置信度值进行加权。

10.如权利要求7的方法，进一步包括：

基于所述至少一个识别的音频命令的置信度值来过滤所述至少一个识别的音频命令；并且

基于具有最高识别的音频命令的置信度值的所述识别音频命令执行一操作。

11.如权利要求7的方法，进一步包括：

检验所述至少一个识别的音频命令，以产生一个检验的识别音频命令；并且

基于所述检验的识别音频命令执行一操作。

12.一种用于多级分布式音频识别的设备，该设备包括：

可操作地耦合到音频子系统的第一音频识别装置，用于接收一个音频命令、并且产生一个第一识别的音频命令，其中，所述至少一个第一识别的音频命令具有相应的第一置信度值；并且

可操作地耦合到所述音频子系统的第二语音识别装置，其独立于第一语音识别装置，用于接收所述音频命令、并且产生至少一个第二识别的音频命令，其中，所述至少一个第二识别的音频命令具有相应的第二置信度值；以及

可操作地耦合到所述第一和第二语音识别装置的装置，用于接收所述至少一个第一识别的音频命令和所述至少一个第二识别的音频命令。

13.如权利要求12的设备，进一步包括：

可操作地耦合到所述用于接收的装置的会话管理器，其中，所述用于接收的装置基于所述至少一个第一置信度值和所述至少一个第二置信度值、从所述至少一个第一识别的音频命令和所述至少一个第二识别的音频命令中选择具有一个识别音频命令置信度值的至少一个识别的音频命令，其中，所选择的至少一个音频命令被提供给所述会话管理器。

14.如权利要求12的设备，其中：

所述会话管理器基于所述至少一个识别的音频命令置信度水平、从所述至少一个识别的音频命令确定一个会话管理器音频命令，其中，所述会话管理器响应所述会话管理器音频命令执行一操作。

15.如权利要求14的设备，其中

所述会话管理器访问一个内容服务器，并且响应所述会话管理器音频命令，搜索编码的信息。

16.如权利要求15的设备，进一步包括：

可操作地耦合到所述会话管理器的语音合成引擎，其中，所述语音合成引擎从所述会话管理器接收所述语音编码的信息、并且产生语音格式化的信息。

17.如权利要求16的设备，其中

所述音频子系统可操作地耦合到所述语音合成引擎，其中，所述音频子系统接收所述语音格式化的信息并且提供一个输出消息。

18.如权利要求17的设备，其中

当比较器向所述会话管理器提供一个错误通知时，所述输出消息是一个错误状态。

19.一种用于多级分布式音频识别的系统，该系统包括：

可操作地耦合到一个麦克风的终端音频识别引擎，其被耦合以接收一个音频命令并且产生至少一个终端识别的音频命令，其中，所述至少一个终端识别的音频命令具有一个相应的终端置信度值；并且

可操作地耦合到所述麦克风的至少一个网络语音识别引擎，其被耦合以独立于所述终端语音识别引擎，接收所述音频命令、并且产生至少一个网络识别的音频命令，其中，所述至少一个网络识别的音频命令具有一个相应的网络置信度值；

可操作地耦合到所述终端识别引擎的比较器，其被可操作地耦合以接收所述至少一个终端识别的音频命令，并且进一步被可操作地耦合到所述至少一个网络语音识别引擎，可操作地耦合以接收所述至少一个网络识别的音频命令；以及

可操作地耦合到所述比较器的会话管理器，其中，所述比较器基于所述至少一个终端置信度值和所述至少一个网络置信度值从所述至少一个终端识别的音频命令和所述至少一个网络识别的音频命令中选择具有一个识别音频命令置信度值的至少一个识别的音频命令，其中，所选的至少一个识别的音频命令被提供给所述会话管理器。

20.如权利要求19的系统，其中：

所述会话管理器基于所述至少一个识别的音频命令置信度水平从所述至少一个识别的音频命令确定一个会话管理器音频命令，其中，所述会话管理器响应所述会话管理器音频命令执行一操作。

21.如权利要求20的系统，其中

所述会话管理器访问一个内容服务器，并且响应所述会话管理器音频命令搜索编码的信息。

22.如权利要求21的系统，其中

可操作地耦合到所述会话管理器的语音合成引擎，其中，所述语音合成引擎从所述会话管理器接收所述语音编码的信息、并且产生语音格式化的信息，以及

可操作地耦合到所述语音合成引擎的扬声器，其中，所述扬声器接收所述语音格式化的信息并且提供一个输出消息。