CN1786957A

CN1786957A - 本地与远程语音呈现之间的动态转换

Info

Publication number: CN1786957A
Application number: CNA2005101283954A
Authority: CN
Inventors: C·W·小克罗斯; D·哈拉米略; G·M·麦科布
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2004-12-08
Filing date: 2005-11-14
Publication date: 2006-06-14
Anticipated expiration: 2025-11-14
Also published as: US8024194B2; CN100405370C; US20060122836A1

Abstract

一种用于在定义主机的终端系统上呈现多模式文档的多模式浏览器可以包括用于呈现多模式文档的可视内容(如果有的话)的可视浏览器组件，以及用于呈现多模式文档的基于语音内容(如果有的话)的语音浏览器组件。语音浏览器组件能够确定主机在呈现基于语音的内容时使用多种语音处理配置中的哪一种。该确定可以基于运行该应用的主机的资源。该确定还可以基于包含在该应用中的处理指令。

Description

本地与远程语音呈现之间的动态转换

技术领域

本发明涉及通信网络领域，更具体地涉及通信网络中使用的网络浏览器。

背景技术

人们希望在不远的将来个人计算机和其它小型计算设备例如智能电话和个人数字助理(PDA)能够运行被配置为支持多模式交互的Web应用。众所周知，Web应用一般是影响从Web站点到客户端的数据传送的软件程序，所述Web站点作为特定应用的前端，并且提供给客户端的数据导致这样的逻辑操作，通过所述的逻辑操作，Web站点向客户端传递数据或信息。被配置为支持多模式交互的Web应用典型地被称为多模式Web应用。

使用多模式应用，用户可以用不同模式与该应用交互，一种特定的模式体现了与该应用有关的输入和/或输出的特定形式的特征。用户与应用交互的不同模式——包括语音和可视模式——可在同一交互过程中可交替地使用。因此使用多模式Web应用，用户能够使用例如人的语音以及更传统的图形用户界面(GUI)与该应用交互。

智能电话、PDA以及其它小型计算设备的外形因素使得通过键盘输入数据比通过人的语音输入数据更困难。但是有这样的情况，诸如在嘈杂的环境中使用该设备时，其中通过非语音的模式有助于进行交互，例如使用键盘、输入笔和/或GUI。因此显然，通过诸如由多模式Web应用提供的可交替的多种模式与应用进行交互的选择使得在智能电话、PDA和其它相对小型的计算设备的环境中使用多模式Web应用尤其有利。

但是，这种计算设备的相对小的尺寸，虽然在其它方面是期望的，可能使得在这种设备上本地运行多模式Web应用的不同模式是有问题的。智能电话、PDA或类似计算设备的相对小的尺寸会限制可以在这种设备中提供的处理和/或存储器资源的量。因此，这种资源受限的设备通常不能支持在该设备自身上本地运行多于一种的交互模式。例如，语音形式的数据的呈现是这样一种模式，它需要超过许多类型的资源受限的设备的处理资源的处理资源。因此，在小型设备上运行多模式Web应用时，可能会可以在该设备上成功地本地运行可视模式，但是可能必需在远程设备，即，发布该应用的服务器上运行相同应用的语音呈现组件。可替换地，驻留在所述小型设备上的相对基本的语音呈现组件可以提供基础的语音识别输入，而更强健的(虽然位于远程)语音呈现组件可以用于处理更复杂的语音输入。

在本上下文中，有必要回忆通常语音处理包括两个部分：语音识别和语音合成。语音识别包括通过将语音段与一种语法或多种语法进行比较来自动识别语音输入。语音合成包括文字到语音(TTS)处理，通过该处理基于文字形式的输入呈现出合成语音输出。尽管完整的语音模式的应用典型地需要自动语音识别和TTS处理两者，但是它们中的每个都可在不同位置执行。在手持或其它小型设备的特定环境下，该设备可能有足够的资源本地处理TTS，但可能没有足够的资源本地执行语音识别。

此外，即使可能有设备可以本地处理TTS和语音识别两者，但特定的Web应用可能需要在Web服务器上执行语音识别。后者的情况可能出现在需要相对更多的Web服务器资源以便支持大量语法或多种语法以及执行与自然语言理解(NLU)模型有关的后处理功能时。

尽管有这些不同的情况，传统的多模式Web浏览器缺少一种用于基于具有运行该应用的任务的特定主机的资源和/或基于特定应用本身的特性，在可供选择的语音配置间进行转换的动态能力。也就是说，传统的多模式Web浏览器缺少一种动态能力，以便例如从本地执行语音识别和TTS处理的语音配置转换到这两者都在服务器上远程地执行或本地执行TTS处理而远程地执行语音识别的一种语音配置。

发明内容

本发明提供了一种可以通过动态地在不同语音配置间转换来运行不同的多模式Web应用的多模式浏览器。更具体地，本发明提供了一种能够基于所述应用运行于其上的主机的资源和/或所述应用自身的一些方面，在可供选择的语音呈现配置间动态转换方法、网络浏览器以及设备。可以在其间进行这种动态转换的可供选择的配置包括，例如，本地语音识别和本地TTS处理配置；远程语音识别和本地TTS配置；和远程语音识别和远程TTS处理配置。

根据一个实施例，一种运行从服务器发布到定义主机的终端系统的应用的基于计算机的方法可以包括自动选择一种语音处理配置，用于在所述应用包括基于语音的内容的情况下呈现该应用的基于语音的内容。该方法还可以包括基于所选择的语音处理配置装入至少一个语音呈现引擎。所述方法进一步可以包括使用所述至少一个语音呈现引擎呈现基于语音的内容(如果有的话)。

本发明的另一个实施例是一种用于在定义主机的终端系统上呈现多模式文档的多模式浏览器。该多模式浏览器可以包括用于呈现多模式文档的可视内容(如果有的话)的可视浏览器组件。该多模式浏览器附加地可以包括用于呈现多模式文档的基于语音的内容(如果有的话)的语音浏览器组件，所述语音浏览器组件在呈现基于语音内容时确定主机使用多个语音处理配置中的哪个语音处理配置。

本发明的另一个实施例是一种设备，其包括计算机可读存储介质，所述计算机可读存储介质包括用于运行从服务器发布到定义主机的终端上的应用的计算机指令。所述计算机指令包括用于选择语音处理配置以便呈现所述应用的基于语音的内容(如果有的话)的计算机指令。所述计算机指令还可以包括用于基于所选择的语音处理配置装入至少一个语音呈现引擎的计算机指令。另外，所述计算机指令可以包括用于使用所述至少一个语音呈现引擎呈现基于语音的内容(如果有的话)的计算机指令。

附图说明

在附图中示出了当前优选的实施例，然而，应当理解本发明不限于示出的精确方案和手段。

图1是根据本发明的一个实施例的通信网络的示意图，该通信网络包括运行应用的终端系统；

图2是驻留在图1的主机上的多模式浏览器的示意图；

图3是描述了根据本发明另一实施例的多模式浏览器的操作特性的流程图；

图4是描述了根据本发明又一个实施例的多模式浏览器的操作特性的流程图；

图5是描述了根据本发明又一个实施例的多模式浏览器的操作特性的流程图；

图6是描述了根据本发明又一个实施例的多模式浏览器的操作特性的流程图。

具体实施方式

本发明使得一种基于计算机的浏览器能够通过根据运行所述应用的特定终端系统或主机的语音处理资源和/或应用自身的指示，在本地和远程语音处理之间动态地转换来运行应用。所述应用可以是从Web服务器发布到主机例如个人计算机(PC)、智能电话或类似设备的Web应用。更具体地，所述Web应用可以是支持应用与用户间的多模式交互的多模式Web应用。使用多模式Web应用，用户可以通过可视模式以及通过语音模式与应用交互，所述语音模式交互包括两个不同的部分：基于一种或多种语法的语音识别以及TTS处理，在TTS处理中以语音呈现文本内容。如下所述，本地和远程语音处理间的动态转换允许浏览器基于此处列举的一些因素确定执行语音识别和TTS处理的位置。

图1提供了网络100的示意图，网络100包括两个不同的终端系统，即，主机102和服务器104，根据本发明一个实施例使用该主机运行应用。主机102示例地为蜂窝电话，但可替换地，主机102可以包括各种其它通信和计算设备，诸如PC、PDA或与另一位于远程的设备诸如服务器104交互的类似的这种设备。主机102可以包括用于呈现GUI的显示器，以及用于输入数据和/或从触摸屏选择应用的键盘和/或输入笔。主机102附带地可以包括处理电路，诸如微处理器以及相关联的存储器，用于处理和存储语音形式的输入和/或输出。更具体地，服务器104可以是将Web应用发布到主机102的Web服务器。

示例地，主机102通过RF信号与服务器104无线地通信，所述RF信号被传送到与网络节点108(例如，通信流交换设备)通信地连接的无线电塔106。网络节点108示例地通过一个或多个中间节点109与服务器104连接，但是可替换地，它可以与服务器直接连接。如本领域的普通技术人员可以理解的，网络100仅仅是可以用来实现主机102和服务器104之间的通信的多种互联的示例。例如，所述网络可以是网络的互联，诸如因特网。可替换地，主机102可以无线地或通过陆线直接与服务器104通信。如从此处的讨论中可以明了的，这些和其它各种联网方案不影响根据本发明的各种实施例运行应用。

主机102的语音处理资源和能力确定在主机本地执行哪些语音处理功能(如果有的话)，在服务器104远程地执行哪些语音处理功能(如果有的话)。更具体地，主机102的资源规定可以使用哪些语音处理配置呈现由服务器104发布到该主机的特定应用的语音内容。

如此处所讨论的，根据是否在主机102本地执行和/或在服务器104远程地执行语音识别，以及是否本地(即，在主机102上)和/或远程地(即，在服务器104上)执行TTS处理，有九种可能的语音处理配置。可能的语音处理配置是：在主机上执行本地语音识别和本地TTS处理；本地语音识别和在服务器上远程地执行TTS处理；远程语音识别和本地TTS处理；本地和远程语音识别，但仅为远程TTS处理；本地和远程语音识别，但仅为本地TTS处理；仅为本地语音识别，但进行本地和远程TTS处理；仅为远程语音识别，但进行本地和远程TTS处理；既进行本地的又进行远程的语音识别，并且既进行本地的又进行远程的TTS处理；最后，远程语音识别和远程TTS处理。

对于这九种列举的语音处理配置，语音识别往往比TTS处理更加资源密集的事实意味着最适当的语音处理配置通常是本地的语音识别和本地的TTS处理，本地的TTS处理和远程的TTS以及远程的ASR处理。因此，接下来的讨论着重强调这些特定的语音处理配置，但应记住此处讨论的本发明的实施例也适合于其余的配置。

示例地，多模式浏览器110驻留在主机102上以便运行由服务器104发布到该主机的应用。所述应用示例地是多模式应用，其包含一组规定用户和该应用之间的交互的文档，例如，所述交互包含通过GUI的可视交互以及通过语音处理实现的语音交互。

另外参考图2，多模式浏览器110示例地包括可视浏览器组件112，用于呈现多模式文档的可视内容，以及语音浏览器组件114，用于呈现多模式文档的语音内容。此外，语音浏览器组件114被配置为从多种可能的语音处理配置中动态地选择使用哪个配置呈现与该应用相关的语音内容。基于语音浏览器组件114的选择，一个或多个语音引擎被装入到主机102和/或服务器104，从而使用一对引擎呈现语音内容，如果主机的资源支持所选择的语音处理配置的话。否则，如下所述，多模式浏览器110提供一个错误指示。所述一对引擎中的一个执行TTS处理，另一个执行语音识别。基于所述应用需要的语音处理的类型和程度以及主机102的特定资源做出语音处理配置的选择。

根据一个实施例，应用自身能指出将使用的语音处理配置。例如，该应用可以是包括一个或多个Web页面或文档的Web应用。更具体地，可以用可扩展的标记语言(XML)例如XHTM+Voice编写这些文档。XML文档规定用户如何与从服务器104发布到主机102的应用进行交互，所述交互包括可交替的可视模式和语音模式两者。此外，该文档或Web页面的开头可以包括处理指令，由多模式浏览器110的语音浏览器组件114读取该处理指令，并且它指出将使用的特定语音处理配置。下面是一个可以被包含在Web页面的开头或顶端的示例XML处理指令(PI)：

<？xv-speech location＝”server”？>.

这个示例的XML PI指出了位置属性，所述的位置属性特别地指出在服务器上执行语音识别和TTS处理两者。例如，在XML文档中使用的位置属性的另一个值是“local”位置属性，它指出在主机上本地执行语音识别。在XML文档中使用的位置属性的另一个值是“local-tts”位置属性，它指示仅在主机上本地执行TTS处理。可以类似地构造包含在用其它语言编写的文档中的其它PI，以便指示特定的语音处理配置，所述特定的语音处理配置又指出语音识别和TTS处理的各个功能将被执行的相应位置。

根据另一个实施例，基于存储在配置文件中的语音位置属性，语音浏览器组件114允许或是本地地位于主机102上或是远程地位于服务器104上的语音呈现引擎的位置。如本领域的技术人员易于理解的，该配置文件可以由主机运营商或制造者存储在主机102上。

图3示出了语音浏览器组件114在从多种可能的语音处理配置中进行选择时的各种操作特性。为了清楚起见，假定所述多种语音处理配置只包括三种配置：本地的TTS处理和本地的语音识别；本地的TTS处理和远程的语音识别；远程的TTS处理和远程的语音识别。

开始，在步骤300，接收一个Web页面形式的文档。在步骤304，确定PI是否要求本地的语音识别和本地的TTS处理。如果是，在步骤306做出主机资源是否支持本地的TTS处理和本地的语音识别两者的后续确定。假定主机资源支持这两者，则在步骤308装入本地TTS引擎和本地语音识别引擎。从而呈现Web页面的语音内容。否则，如果主机资源不支持本地的语音识别和本地的TTS处理两者，则在步骤310产生一个错误指示。

可替换地，如果在步骤304确定PI并不要求本地的语音识别和本地的TTS处理两者，则在步骤312做出PI是否取而代之要求本地的TTS处理和远程的语音识别的后续确定。如果是，则在步骤314做出主机资源是否支持这种特定语音处理配置的后续确定。如果主机资源的确支持本地的TTS处理和远程的语音识别，则在步骤316装入本地TTS处理引擎和远程语音识别引擎。如果资源不支持这种语音处理配置，在步骤318产生一个错误指示。

如果在步骤304和312分别确定PI既不要求带有本地语音识别的本地TTS处理，也不要求带有远程语音识别的本地TTS处理，则在步骤320确定PI是否取而代之要求远程TTS处理和远程语音识别。如果是，那么在步骤314做出主机资源是否支持该语音处理配置的后续确定。根据该确定，在步骤324装入远程TTS引擎和远程语音识别引擎，或者否则返回步骤310，产生一个错误指示。

可以为从服务器发布到主机的不同应用重复所述的操作动作序列。因此，语音浏览器组件114的各种操作特性提供了在多种不同的语音处理配置间动态地转换以便呈现与不同应用相关联的基于语音的内容的机制。

图4示出了在具有只支持本地语音识别和本地TTS处理的资源的主机的特定上下文中的这些相同的操作特性。在步骤400，Web页面再次被发布到主机，并且在步骤402读取包含在Web页面中的PI。如果在步骤404确定该PI要求本地TTS处理，则在步骤406装入本地TTS引擎。否则，在步骤408报告错误并记录在TTS错误记录中。

接下来，在步骤410，确定该PI是否要求本地语音识别。如果是的，在步骤412装入本地语音识别引擎，并且在步骤414呈现语音内容。然而如果不是，在步骤416报告错误并记录在识别错误记录中。

图5示出了在具有支持本地和远程TTS处理，但只支持远程语音识别的资源的主机的特定上下文中的操作方面。在步骤500，接收多模式Web页面，在步骤502读取其中包含的PI。在步骤504确定该PI是否要求本地或远程TTS处理。根据该确定，在步骤506装入本地TTS引擎或在步骤508装入远程TTS引擎。

之后，在步骤510确定包括在Web页面中的PI是否要求本地或远程语音识别。如果PI要求后者，则在步骤512装入远程语音识别引擎，并且在步骤514呈现语音内容。否则，如果要求本地语音识别，则在步骤516报告错误并记录在识别错误记录中。该步骤是因为当特定应用要求这种语音处理配置时，主机不拥有支持本地语音识别所需的资源。

图6示出了在具有支持本地和远程TTS处理，以及本地和远程语音识别的资源的主机的特定上下文中的操作特性。在步骤600和602，分别接收Web页面和读取包含在其中的PI。在步骤604，确定该PI是否要求本地或远程TTS处理。如果要求前者，则在步骤606装入本地TTS引擎。如果要求后者，则在步骤608装入远程TTS引擎。

之后，在步骤610确定包含在Web页面中的PI是否要求本地或远程语音识别。基于该确定，在步骤612装入本地语音识别，或在步骤614装入远程语音识别。在步骤616呈现该语音内容。

可以由硬件、软件或硬件和软件的组合实现本发明。可以在一个计算机系统中以集中的方式实现本发明，或者以分布的方式实现本发明，其中不同的元件分散在若干互联的计算机系统上。适合于执行此处所述的方法的任何类型的计算机系统或其它设备都是适合的。典型的硬件与软件的组合可以是具有计算机程序的通用计算机系统，当装入所述计算机程序和执行该程序时，控制该计算机系统执行此处所述的方法。

本发明还可以被包含在计算机程序产品中，所述计算机程序产品包括能够实现此处描述的方法的所有特征，并且当被装入计算机系统中时能够执行这些方法。在本上下文中的计算机程序意指一组以任何语言、编码或符号的指令的任意表示，该指令旨在使得具有信息处理能力的系统或是直接地，或是在a)转换为另一种语言、编码或符号；b)以不同材料形式复制之一或两者之后执行特定的功能。

可以用其它形式的表述本发明而不背离本发明的精神或基本属性。因此，应当参考下面的权利要求而不是前面的说明书确定本发明的范围。

Claims

1.一种运行从服务器发布到定义主机的终端系统的应用的基于计算机的方法，该方法包括：

自动地选择语音处理配置，用于如果所述应用包括基于语音的内容，呈现所述应用的基于语音的内容，所述语音处理配置的选择基于包含在所述应用中的处理指令以及所述主机可使用的处理资源；

基于所选择的语音处理配置装入至少一个语音处理引擎；和

使用所述至少一个语音处理引擎呈现所述基于语音的内容。

2.如权利要求1所述的方法，还包括在多个不同的语音处理配置之间动态地转换，以便呈现与不同应用相关联的基于语音的内容。

3.如权利要求1所述的方法，其中所述语音处理配置包括采用本地语音识别引擎配置的本地文本到语音(TTS)引擎，采用远程语音识别引擎的本地TTS引擎，以及采用远程语音识别引擎的远程TTS引擎中的一个。

4.如权利要求1所述的方法，还包括如果所述主机缺少根据所述处理指令呈现所述基于语音的内容的语音处理资源，则提供错误指示。

5.如权利要求1所述的方法，其中所述应用包括基于Web的应用，并且所述服务器包括Web服务器。

6.如权利要求5所述的方法，其中所述基于Web的应用包括至少一个多模式Web页面。

7.如权利要求6所述的方法，其中所述多模式Web页面是XML文档，其规定了用户如何使用图形用户界面(GUI)和语音中的至少一个与所述主机和应用交互。

8.一种用于在定义主机的终端系统上呈现多模式文档的多模式浏览器，该多模式浏览器包括：

可视浏览器组件，用于呈现所述多模式文档的可视内容；

语音浏览器组件，用于呈现所述多模式文档的基于语音的内容，该语音浏览器组件确定使用多种语音处理配置中的哪种配置呈现基于语音的内容，所述确定基于包含在所述应用中的处理指令以及所述主机可使用的处理资源。

9.如权利要求8所述的多模式浏览器，其中所述语音浏览器在多种不同的语音处理配置之间动态地转换以便呈现与不同应用相关联的基于语音的内容。

10.如权利要求8所述的多模式浏览器，其中所述多个语音呈现引擎包括采用本地语音识别引擎配置的本地文本到语音(TTS)引擎，采用远程语音识别引擎的本地TTS引擎，以及采用远程语音识别引擎的远程TTS引擎。

11.如权利要求8所述的多模式浏览器，其中如果所述主机缺少根据所述指令使用语音呈现引擎呈现基于语音的内容的处理资源，则所述语音浏览器组件确定发生了错误。

12.如权利要求8所述的多模式浏览器，其中所述语音浏览器组件基于包含在存储在所述主机中的配置文件内的语音位置特性，确定使用多个语音呈现引擎中的哪个语音呈现引擎。

13.如权利要求8所述的多模式浏览器，其中所述多模式文档包括包含XML处理指令的多模式Web页面，并且其中所述语音浏览器组件基于该XML处理指令确定使用多个语音呈现引擎中的哪个语音呈现引擎。

14.一种用于运行从服务器发布到定义主机的终端系统的应用的计算机可读存储介质，该存储介质包括计算机指令，所述计算机指令用于：

选择语音处理配置，用于如果所述应用包括基于语音的内容，呈现所述应用的基于语音的内容，所述语音处理配置的选择基于包含在所述应用中的处理指令和所述主机可使用的处理资源；

根据所选择的语音处理配置使用至少一个语音处理引擎呈现所述基于语音的内容。

15.如权利要求14所述的计算机可读存储介质，其中所述选择包括在多个不同的语音处理配置之间动态地转换以便呈现与不同应用相关联的基于语音的内容。

16.如权利要求14所述的计算机可读存储介质，其中所述语音处理配置包括采用本地语音识别引擎配置的本地文本到语音(TTS)引擎，采用远程语音识别引擎的本地TTS引擎，采用远程语音识别引擎的远程TTS引擎中的至少一个。

17.如权利要求14所述的计算机可读存储介质，还包括如果所述主机缺少根据所述处理指令呈现所述基于语音的内容的语音处理资源，则指出错误。

18.如权利要求14所述的计算机可读存储介质，其中所述应用包括基于Web的应用并且所述服务器包括Web服务器。

19.如权利要求18所述的计算机可读存储介质，其中所述基于Web的应用包括至少一个多模式文档。

20.如权利要求19所述的计算机可读存储介质，其中所述多模式文档是XML文档，它规定了用户如何使用图形用户界面和语音中的至少一个与所述主机和应用交互。