CN1735929A

CN1735929A - 用于通信系统的语音浏览器对话启用器

Info

Publication number: CN1735929A
Application number: CNA2004800020601A
Authority: CN
Inventors: 詹姆斯·弗兰斯; 乔纳森·恩格斯玛; 迈克尔·皮尔斯; 马克·兰道夫; 杰罗姆·沃格迪斯
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2003-01-09
Filing date: 2004-01-08
Publication date: 2006-02-15
Anticipated expiration: 2024-01-08
Also published as: TWI249729B; KR101027548B1; RU2005125208A; TW200426780A; CN1333385C; WO2004064299A2; US20040138890A1; KR20050100608A; RU2349970C2; EP1588353A4; EP1588353A2; US7003464B2; WO2004064299A3; MY137374A; EP1588353B1

Abstract

一种用于多模式对话的语音浏览器对话启用器，它使用的是多模式标记文档(22)，该文档具有与各个字段关联并定义了分段(45)的基于标记的表单。语音浏览器驱动器(43)驻留在通信设备(10)上，并且提供了分段(45)和识别分段(45)的标识符(48)。语音浏览器执行器(46)驻留在远程语音服务器(38)上，它从驱动器(43)接收分段并且下载多个语音语法。输入语音依照这些语音语法来进行匹配，其中所述语法与接收自语音浏览器驱动器(43)的识别请求中的相应标识符(48)相关联。

Description

用于通信系统的语音浏览器对话启用器

发明领域

本发明涉及的是对无线电通信设备的工作模式进行控制。更为特别的是，本发明涉及一种用于在不同系统中操作多模式无线电通信设备的方法。

发明背景

诸如蜂窝电话之类的无线电通信设备具有不断发展的处理能力，随之还具有运行于其上的软件应用。然而举例来说，设备的尺寸使之很难附加那些通常可用于计算机的用户接口硬件。蜂窝电话只具有很小的键盘和显示器。然而，目前已经开发了多种技术，以便利用蜂窝电话固有的基本语音通信能力。很明显，随着包括互联网应用在内的数据服务的来临，语音激活服务可以极大增强通信设备的功能。为此目的，目前已经开发了语音可扩展标记语言(VoiceXML)，以便促进无线通信设备的语音激活服务。然而，随着消费者可用的语音激活服务的出现，产生了某些关于便携通信设备的严重问题。

在与多模式服务结合使用时，语音激活服务提出了非常困难的挑战。在多模式对话中，输入可能来自言语、键盘、鼠标以及其他输入形式，并且输出可以是扬声器、显示器以及其他输出形式。标准的万维网浏览器实施的是键盘和鼠标输入以及显示器输出。标准的语音浏览器则实施语音输入和音频输出。多模式系统需要将这两种浏览器(有可能包含其他浏览器)以某种形式加以组合。通常，这需要多种技术来对具有不同模式的应用进行适当的同步。并且在3GPP TR22.977，“3^rd Generation Partnership Project；Technical Specification GroupServices and Systems Aspects；Feasibility study for speech enabledservices；(第6版)v2.0.0(2002-09)”中对其中某些技术进行了描述。

在第一种方法中，“具有本地语音资源的胖客户机”方法是将万维网(视觉)浏览器、语音浏览器以及基本语音辨识和语音合成(文字-语言)引擎置于同一设备上(计算机、移动电话、机顶盒等等)。由于需要大量的软件和处理能力，因此这种方法是无法在小型无线通信设备上实现的。第二种方法是“具有基于服务器的语音资源的胖客户机”，在该方法中，语音引擎处于网络上，而视觉浏览器和语音浏览器则仍旧处于设备上。在小型设备上，这种解决方案要比第一种解决方案稍微实用一些，但是仍旧难以在移动电话之类的小型设备上实现。第三种方法则是“瘦客户机”，其中设备只具有视觉浏览器，并且该浏览器必须与网络上的语音浏览器以及语音引擎进行协调。这种方法适合移动电话之类的设备，但是需要在两个被协调的浏览器之间保持同步，由此使得整个系统非常复杂。

所有这些方法还存在一个问题，那就是这些解决方案要么不适合置于更小的设备上，要么需要进行复杂的同步。

由此需要缓解这个将语音浏览器技术以及多模式技术引入无线通信设备的问题。此外，较为有益的是提供一种无需扩展通信设备处理能力就能解决该问题的解决方案。此外，较为利的是在没有向通信设备增加任何显著和附加硬件或成本的情况下避免复杂性。

附图简述

图1显示的是第一现有技术中的多模式通信系统的框图；

图2显示的第二现有技术中的多模式通信系统的框图；

图3显示的第三现有技术中的多模式通信系统的框图；

图4显示的是依照本发明并具有改进的语音浏览器的多模式通信系统的框图；以及

图5是描述依照本发明优选实施例来执行多模式对话的步骤的流程图。

优选实施例详述

本发明将语音浏览器应用分为两个组件，而不是将其视为单一整体。这样一来，设备上的软件数量将会大为减少，由此与别的方式相比，本发明允许在更小的设备上以更低的费用来执行多模式对话。通过在设备上执行浏览器同步，可以避免现有技术解决方案的高复杂性。此外，通过提供公用的语音浏览器驱动器，可以将多模式应用编写为独立程序而不是浏览器应用。在通信设备中，这种改进是以非常低的费用来完成的。与通过增加成本和增大设备尺寸来提高处理能力所不同，本发明有利地将通信设备的现有处理能力与多模式对话中需要的语音浏览器的软件解决方案结合在一起加以使用。

参考图1，该图提供的是现有技术架构，在这个架构中，大多数或所有用于多模式通信的处理都是在脱离(瘦)通信设备的情况下完成的。应该理解的是，要想恰当操作多模式对话，则需要更多相互连接，但是为了清楚起见，在这里并未显示这些相互连接。在所示实施例中，客户通信设备10希望访问应用服务器18上给出的多模式应用。通常，应用服务器18在因特网上是使用现有的常驻网络服务器20来进行通信的。例如，在服务供应商的通信系统中，多模式/语音服务器14与因特网16相耦合并为蜂窝网络12提供服务，蜂窝网络12则转而耦合到客户通信设备10。网络服务器提供了多模式标记文档22，其中包括视觉(XHTML)标记和语音(VoiceXML)标记，以便提供与用户对接的接口。如所示，XHTML标记文件是视觉表单，它可以提供若干个用于与用户交互信息的字段。举个例子，用户可以指向并点击“无线电按钮”字段，以便指示一种选择，此外也可以将文本键入空白字段，以便输入信息。VoiceXML结合XHTML来进行工作，以便提供用于将信息输入标记文档字段的语音接口。例如，VoiceXML标记可以指定一个要求用户将信息输入字段的音频提示符。然后，用户可以说话(如果需要的话，也可以输入文本)，语音浏览器VoiceXML则侦听并转换这些言语，并且将其与定义了关于该提示的可接受响应的VoiceXML标记所规定或引用的语法相比较。VoiceXML标记可以与文档的任何字段、也就是焦点字段相关联。并且在现有标准中已经规定了包括XHTML和VoiceXML在内的标记文档的操作。

蜂窝网络12借助了编解码器28来为客户设备10提供标准的音频输入和输出，如在现有技术中已知的那样，所述编解码器使用了在RTF或类似传输协议中标准化的音频分组，并且包含了分布式语音识别(DSR)。此外，网络12还提供了用于向客户设备的视觉浏览器26供应多模式信息的信道。多模式信息则是作为XHTML文件24来传送的。在这个实例中，多模式/语音服务器14分解并组合客户设备10与网络服务器20之间通信的语音(VoiceXML)和视觉(XHTML)部分。这种分解和组合需要进行协调，并且这种协调是借助多模式同步蜂窝文档22的语音和视觉部分提供的，由此客户设备是以一种符合信息的语音部分的方式来接收和给出多模式信息的。客户设备借助了常驻的视觉浏览器26来处理多模式信息24，同时还通过现有技术中已知的编解码器28来处理音频分组信息。语音和视觉信息的分离处理可以导致某些需要用到本地互锁的协调问题，如果希望的话，这类互锁问题会为用户提供正确的操作。例如，用户可以在确定字段焦点之前按下按钮。在确定字段焦点之前，本地互锁可以冻结屏幕。作为另一个实例，当在客户设备上显示XHTML表单并输入了语音信息的时候，本地设备可以封锁设备屏幕。用户在表单的同一字段提供文本信息将会导致经由多模式/语音服务器14的冲突语音和文本信息进行竞争，而屏幕封锁则可以阻止这种用户行为。

多模式/语音服务器14包含了用于与客户设备10交换多模式信息的大多数或全部处理。这类处理由同步管理器30进行控制。同步管理器30将文档22分解或拆分成语音对话信息32(例如VoiceXML)以及多模式信息(XHTML)，并且按照上述方式来对这些信息进行同步。语音对话信息将会传送到语音浏览器34，以便与服务器14上的语音引擎36对接，由此为客户设备10提供适当格式的音频信息。然而不幸的是，这种同步需要两个浏览器26、34保持协调，由此导致整个系统非常复杂，并且还需要在客户设备10上执行本地锁定。另外，在这里不但需要专用的多模式服务器14，而且还需要用于对浏览器进行同步的特定协议。

正如在现有技术中已知的那样，语音引擎36将会回放音频并提供语音识别。语音引擎的计算范围很大，并且需要大量的随机存取存储器(RAM)。在无线电话这类客户设备上，这些资源通常是无法得到的，因此本实例中使用了单独的多模式/语音服务器14。语音浏览器34是一个更高层处理器，它对对话进行处理、获取标记文档的相关事件、指示语音引擎播放语音提示以及侦听语音响应。然后，语音引擎会向语音浏览器的匹配表单字段发送语音响应。例如，XHTML文档上的字段可能需要“是”或“否”的响应，并且这些响应是唯一可以接受的响应。语音引擎会将引入的语音输入映射成一个识别结果，该结果可以表示当前的一个或多个语法所允许的已认定话语，也可以表示一个错误码。然后，它会将识别结果传送到语音浏览器，该浏览器随后则通过更新其内部状态来反映这个结果，并且其中有可能通过将这些言语指定到某个特定字段来反映该结果。语音浏览器转而向同步管理器通告识别结果。在这种情况下，语音引擎会尝试将语音响应与可接受语法列表中的“是”或“否”响应进行匹配，并且将结果转发给语音浏览器，所述浏览器则将“是/否”结果指定到恰当的字段并且通知同步管理器。

同步管理器30向万维网和语音浏览器告知当前被作用的是文档中的什么字段，以便协调响应。换句话说，同步管理器为浏览器确定焦点字段。虽然从字面上看这并不是同步，但其效果却是相同的。通过定义，多模式对话可以在字段中包含一个有效响应，这个响应可以借助了编解码器28的音频，也可以是借助了视觉浏览器26的按键文本输入。同步管理器对发生这些事件的概率进行处理，以便提供多模式信息的协调变换。

图2显示的是一种现有技术架构，其中大多数或所有用于多模式通信的处理都是在(胖)通信设备上完成的。与先前一样，客户通信设备10希望访问应用服务器18上给出的多模式应用，其中应用服务器18使用了常驻的网络服务器20来进行通信。网络服务器20则提供了直接与客户设备10进行的多模式标记文档22的交换(通常借助了蜂窝网络12，该网络通过服用供应商来提供因特网连接，例如通用分组无线服务或GPRS)。现在，先前实例中的所有多模式/语音服务器处理都驻留在客户设备10上并且按照先前所述的方式来工作。然而不幸的是，(胖)设备10现在需要极大扩展其处理能力和存储器，这其中的费用将会很高。

图3显示的是一种现有技术架构，其中某些用于多模式通信的处理是在远端完成的，由此适应通信设备10上的有限处理和存储限制。与先前一样，客户通信设备10希望访问应用服务器18上给出的多模式应用，该应用服务器18则使用常驻的网络服务器20来进行通信。网络服务器20提供了直接与客户设备10进行的多模式文件22的交换(通常借助于蜂窝网络12，其中该网络通过服务供应商来提供因特网连接)。先前实例中的大多数多模式/语音服务器处理仍旧驻留在客户设备10上，并且是像先前所述的那样来工作的。然而，远程语音服务器38现在具有驻留在其上的语音引擎36。并且现有的服务供应商或企业可以提供远程语音服务器38。语音浏览器34借助于指定的介质资源控制协议(MRCP)来与语音引擎36进行通信。然而不幸的是，实际上，具有远程资源的(胖)设备10仍旧需要扩展的处理能力和存储器，这其中的成本仍旧过高。此外，在语音浏览器与语音引擎之间将会传送大量代码，这会加重网络负担并且放慢通信。

在最简单的实施例中，本发明是通信系统的语音浏览器对话启动器。语音浏览器启用器包括一个语音识别应用，该应用包含了多个应用交互单元，这些单元是多个相关用户接口输入部件。其中举例来说，如果用户希望在通信录中创建新的地址条目，那么他们需要输入姓名和电话号码。在这种情况下，应用交互单元是两个紧密相关的输入字段(即姓名字段和地址字段)。每一个应用交互单元都具有用于定义分段的相关语音对话表单。例如，语音识别应用可以是一个处理XHTML+VoiceXML文档的多模式浏览应用。每一个XHTML+VoiceXML文档都设立了一个单独的应用交互单元，并且包含了与一个或多个字段相关联的一个或多个VoiceXML表单。每一个VoiceXML表单都定义了一个分段。驻留在通信设备上的语音浏览器驱动器则提供了源自应用的分段并且产生了用于识别分段的标识符。驻留在远程语音服务器上的语音浏览器执行器接收来自语音浏览器驱动器的分段，并且下载多个语音语法，其中后续输入语音是对照这些语法来进行匹配的，并且这些语法与源自语音浏览器驱动器的语音识别请求中的相应标识符是关联的。

图4显示的是依照本发明并使用语音浏览器启用器来促成多模式对话的语音浏览器的实际结构。在这个实例中，应用服务器18、网络服务器20、因特网连接16以及标记文档22与先前描述的是相同的，但是在这里显示了更多的细节，以便更好地说明本发明，并且其中对语音浏览器的功能进行了划分。例如，标记文档22还包含了用于显示语音语法和音频文件方向的URL。此外，语音引擎36与先前描述的引擎是相同的，但是在这里则具有更多的细节。其中举例来说，如本领域中已知的那样，语音引擎36包含了与应用服务器提供的语音语法结合使用的语音识别单元40，以及可以提供源自被记录音频URL的音频提示或是文本-语音(TSS)的媒体服务器42。

本发明的一个新颖方面在于本发明将语音浏览器分成了通信设备上的语音浏览器“占位器”44以及远程语音服务器38上的语音浏览器“执行器”46。在优选实施例中则将语音浏览器占位器44细分为与语音浏览器执行器46对接的语音浏览器驱动器43以及用于协调语音浏览器占位器44和视觉浏览器26的同步器47。作为选择，同步器47依据用户是否对编解码器28说话(输入同步)来启用和禁用可视觉浏览器27的输入。对语音浏览器占位器进行这种细分将允许使用在客户设备上运行的独立应用(例如J2ME应用)，以此替换视觉浏览器27和/或同步器47，此外还允许重新使用语音浏览器占位器44的剩余部分的能力。

本发明的另一个新颖方面在于视觉浏览器27现在将对完整的标记文档、语音以及音频进行操作，由此不再需要远程同步。结果，与现有技术中的同步管理器(在先前各图中显示为30)相比，该同步器47具有更小并且更简单的实施方式。此外，语音浏览器43、46并不像现有技术中那样使用输入字段和值。取而代之的是，语音浏览器将会与焦点字段合作。如下所述，这样有助于简化语音浏览器实施器46。

在操作中，在从网络服务器20那里提取了多模式标记文档22之后，视觉浏览器会将其拷贝发送到语音浏览器占位器。视觉浏览器将其拷贝发送到语音浏览器占位器。语音浏览器占位器44则从文档中分离或断开语音浏览器标记(例如VoiceXML)，由此产生可显示标记(例如XHTML)以及语音浏览器标记(例如VoiceXML)。然后，语音浏览器占位器44将视觉标记发送到视觉浏览器，以便对其进行处理并且将其显示在前述客户设备上。然而，语音浏览器占位器44的语音浏览器驱动器43是以不同于现有技术的实施方式来对语音浏览器标记进行操作的。在本发明中，语音浏览器驱动器对标记文档分段进行操作。分段则是单独的VoiceXML表单(不与XHTML表单混淆；虽然与XHTML表单类似，但其间并没有一一对应的关系)，它可以被视为是较大的XHTML+VoiceXML文档的相应部分。在VoiceXML中，表单只是一个用于提示用户的对话单元，它通常以这种形式填充一个或多个字段。在XHTML表单中，单独的输入字段可以具有单独的VoiceXML表单或是与之相关的分段。此外，一组密切关联的XHTML表单还可以具有能够填充所有XHTML表单输入的单个VoiceXML表单。与现有技术中对表单和值的整个文档进行操作的语音浏览器不同，该语音浏览器驱动器一次只对标记文档中的一个聚焦字段或分段进行操作。

此外，由于在文档的报头部分已经将这些表单/分段收集在一起，因此，要想从XHTML+VoiceXML文档中产生VoiceXML表单/分段将是非常困难的，这样一来，与现有技术中的语音浏览器相比，该语音浏览器驱动器将会使用更少的处理。对语音浏览器驱动器而言，它要做的就是找出分段/表单，将唯一的标识符与之关联(如下所述)，并使语音浏览器占位器对其进行封装，以便将其传送到语音浏览器执行器。标识符则是唯一识别单个VoiceXML表单的字串(其中只有在提供给语音浏览器执行器的分段集合范围内才需要这种唯一性，这种唯一性是从单个多模式标记文档中产生的)。使用分段和标识符将会减少在客户设备10与远程服务器38之间经由网络12传送的数据量。

特别地，对所聚焦的字段而言，其中将会关联一个分段。应该指出的是，不管字段是XHTML还是VoiceXML，语音浏览器驱动器都可以进行操作。例如，XHTML表单向用户询问街道地址。在这种情况下将会存在一个用于街道地址的文本字段(编号和街道)、另一个用于(可选)公寓编号的文本字段、另一个用于城市的文本字段，一个用于州的弹出式菜单以及一个用于邮编的最终文本字段。现在，假设给出这种XHTML表单，那么将会存在一组通过合作来填充这些字段的VoiceXML表单。例如，其中一个VoiceXML表单能够填充街道地址和公寓编号字段，另一个VoiceXML表单可用于填充城市和州的字段，并且第三个VoiceXML表单可以填充邮编。而这些表单则被定义为页面分段。

这三个VoiceXML表单中的每一个都具有自己的唯一标识符(也就是指定的VoiceXML表单)。例如，这些标识符分别可以称为“street+apt”、“city+state”以及“zipeode”，“street+apt”这个VoiceXML标记包含了一个音频提示，在被激活的时候，该提示会使用户听到“saythe street address and apartment number”。此外还可以启用一种理解街道地址和可选公寓编号的语法。VoiceXML表单“city+state”则包含了一个与“say the city name and state”相类似的音频提示以及一种适用于该提示的语法。相似的情况同样适用于zipcode。

语音浏览器占位器将相关VoiceXML分段45的页面发送到语音浏览器执行器46。然后，当语音浏览器占位器44需要侦听用户输入时，它会向语音浏览器执行器46发送一个表明表单名称和标识符的识别请求48，以便进行识别。与先前一样，语音服务器38包含了语音语法，但在本实施例中发送的标识符将对语音浏览器执行器进行编码，以便只在“street+apt”、“city+state以及“zipcode”语法中进行搜索，从而找出与先前发送的语音之间的匹配关系。在这里可以只向话音服务器38发送一次VoiceXML并对其进行处理，然后则对其进行缓存。后续请求可以借助其标识符来识别所缓存的VoiceXML表单。由此可以免去对于传送和处理每一个请求的VoiceXML标记的需要。结果，语法搜索将会得到简化，从而节省处理能力和时间。在将用于文档中的街道+公寓字段的表单/分段标识符作为识别请求48发送到语音浏览器执行器的时候，语音浏览器执行器将会输入语音，并且语音浏览器46将会使用恰当语法来激活语音识别器40，从而搜索匹配关系，例如与输入语音“Main Street”的匹配关系。一旦发现匹配，则语音浏览器执行器会将用户言语作为文本(“M-a-i-n-S-t-r-e-e-t”)反向传送到语音浏览器驱动器43，以此作为识别结果49，这一点与现有技术相似。然后，语音浏览器占位器44获取该结果并且对视觉浏览器27进行更新，以便显示结果。虽然语音浏览器执行器46可以等同于现有技术中具有用于语音浏览器占位器的接口的语音浏览器，但由于语音浏览器现在只处理简单VoiceXML标记的小型分段，并且这其中并未使用VoiceXML语言中的众多标签和特征，因此本发明提供的是一种更简单的实施方式。

在实践中，语音浏览器占位器44可以同时向语音浏览器实施46发送页面中所有字段的相关分段45。然后，语音浏览器占位器44为所有聚焦字段协调多模式交互作用的语音部分，并且发送语音浏览器执行器46所需要的语音识别请求标识符，以及获取响应于该分段的识别结果。优选地，较为理想的是使识别请求48和识别结果48以标记为基础(例如XML)，而不是使用MRCP这类现有技术中使用的低级API。

图5可以结合图4来说明依照本发明的多模式对话交互。图5显示的是结合了标记文档中的两个文本字段所进行的简化交互，其中一个字段是用语音(A)填充的，另一个字段则是直接作为文本(B)填充的。应该了解的是，在多模式对话中可以使用多个语音字段或文本字段。例如，用户可以通过点击因特网地址来发起对话。这将会指示视觉浏览器向应用网络服务器20发送一个HTTP GET/POST请求50，以便获取51预期的标记文档22。该文档还包含了文档的可接受语法的URL，并且该文档是可以下载到语音服务器38的。一旦接收到文档，则视觉浏览器27将会运行该文档并在客户设备10的屏幕上显现该文档。然后，音频和视觉文档将被移交到语音浏览器占位器44，该占位器从文档中分离出语音(VoiceXML)标记。此外，语音浏览器占位器还对标记的VoiceXML表单(分段)进行识别，并且将这些分段发送到语音服务器38。这时，语音浏览器执行器46以及语音服务器38的语音引擎可以实施可选的背景检查，以便了解是否恰当构成文档，此外还可以对文档进行预处理(也就是编译)，获取/预处理(也就是编译、解码/编码)该文档可能引用的任何外部语音语法或音频提示，以及将文本合成为语音。

然后，用户将会选择所显示的标记文档中的定义了焦点53的字段。

视觉浏览器27接收焦点改变，正确地跳转到聚焦字段，并且将字段焦点传送到语音浏览器占位器44。然后，语音浏览器占位器44的语音浏览器驱动器43将表单字段焦点的标识符作为识别请求48发送54到话音服务器38，该服务器则确认该请求。这时，话音服务器38可选地向用户发送56作为实时流协议(RTF)音频分组57的一个或多个音频提示，从而提示用户执行语音输入。而音频则传递到客户设备的扬声器41音频源。然后，用户可以按下按键通话(PTT)按钮并且经由客户设备的编解码器28音频源而将语音58发送到语音服务器38，由此用语音做出响应。编解码器将语音作为RTF DSR分组59传递到语音服务器的语音引擎，该服务器则根据表单和字段的相关标识符来将语音匹配给可接受的语法，并且将一个文本响应作为识别结果发送到语音浏览器占位器44的语音浏览器驱动器43。语音浏览器占位器则与视觉浏览器27对接，以便更新设备的显示屏以及字段与值的映射关系。

用户还可以选择所显示文档中定义了焦点61的字段，以便输入文本。与先前一样，视觉浏览器27接收焦点变化，正确地跳转到所聚焦的字段，并且将字段焦点传送62到语音浏览器占位器44。然后，语音浏览器占位器44的语音浏览器驱动器将这个焦点字段的表单63作为识别请求传送到语音服务器44，而该服务器则会确认64该请求。假设在这里并未使用音频提示(虽然可以像先前所描述的那样使用该提示)，那么用户可以以输入文本65来作为响应，其中该响应将会直接更新字段与值的映射关系。一旦向网络服务器20提交了66表单数据(保持在字段与值的映射关系中)，则视觉浏览器还通过语音浏览器占位器44来向语音服务器发送取消命令67，以便指示语音服务器停止侦听语法。然后，对话处理自身可以重复执行。

本发明给出了一种使用有限资源来提供多模式对话的解决方案。本发明尤其适合在保持同步多模式通信的过程中使用。本方法提供了一种处理，它使用了通信设备上的最小限度的处理器和存储器需要来对语音浏览器的处理需要进行划分。这种处理只要使用最低限度的软件修改即可完成，其中并不需要外部同步或是专用的多模式服务器。

虽然在以上的说明书和附图中对本发明进行了描述和图示，但是应该理解，本说明书仅仅作为实例，并且本领域技术人员可以在不脱离本发明的较宽范围的情况下进行多种修改和改变。虽然本发明特别适合在便携蜂窝无线电电话中使用，但是本发明同样适用于任何通信设备中的多模式对话，这些设备包括寻呼机、电子管理器以及计算机。申请人的发明仅仅受到下列权利要求的限制。

Claims

1.一种用于通信系统的语音浏览器对话启用器，该浏览器启用器包括：

语音识别应用，其中包括多个应用交互单元，其中每一个单元都具有用于定义分段的相关语音对话表单；

语音浏览器驱动器，该语音浏览器驱动器驻留在通信设备上；语音浏览器驱动器提供了来自应用的分段，并且产生了用于识别分段的标识符；以及

驻留在远程语音服务器上的语音浏览器执行器，该语音浏览器执行器接收来自语音浏览器驱动器的分段，并且下载多个语音语法，其中后续输入语音是对照这些语音语法来进行匹配的，并且这些语音语法与接收自语音浏览器驱动器的语音识别请求中的响应标识符是关联的。

2.权利要求1的语音浏览器启用器，其中语音识别请求和后续语音识别结构是基于标记的。

3.权利要求1的语音浏览器启用器，其中分段包含了所识别的表单的VoiceXML页面。

4.权利要求1的语音浏览器启用器，其中语音识别应用是对多模式标记文档进行处理的多模式浏览器，并且语音浏览器驱动器驻留在语音浏览器占位器上，该占位器对多模式标记文档进行操作，以便将多模式标记文档分成可显示的标记部分以及语音标记部分，其中语音浏览器驱动器和语音浏览器执行器可以对语音标记部分进行操作。

5.权利要求4的语音浏览器启用器，还包括具有网络服务器的因特网应用服务器，该服务器包含了多模式标记文档以及语音语法，并且还包括通信设备中的视觉浏览器，该浏览器可以对多模式标记文档的可显示标记部分以及语音标记部分进行操作。

6.一种结合通信系统中的语音浏览器来进行对话的方法，该方法包括以下步骤：

提供驻留在通信设备上的语音浏览器驱动器以及包含了驻留在远程语音服务器上的多个语音语法的语音浏览器执行器；

运行包含了多个应用交互单元的语音识别应用，其中每一个单元都具有用于定义分段的相关语音对话表单；

定义与各个分段相关联的标识符；

将分段提供给语音浏览器执行器；

聚焦到其中一个应用交互单元的分段上；

将语音识别请求从语音浏览器驱动器发送到语音浏览器执行器，其中该请求包含了与所聚焦字段相关联的表单的标识符；

输入并识别语音；

将语音与关联该标识符的可接受语音语法相匹配；以及

获取语音识别结果。

7.权利要求6的方法，其中发送步骤的语音识别请求以及获取步骤的语音识别结果是基于标记的，并且其中供应步骤还包括为语音浏览器执行器提供所识别的表单的VoiceXML页面。

8.权利要求6的方法，其中提供步骤包括将语音浏览器驱动器与同步器一起引入到语音浏览器占位器中，其中该占位器与语音浏览器执行器以及通信设备上的视觉浏览器对接。

9.权利要求6的方法，其中运行步骤包括下载多模式标记文档，以此作为语音识别应用文档。

10.权利要求6的方法，其中在运行步骤之后还包括将多模式标记文档分成可显示标记部分以及包含了交互单元的语音标记部分的步骤，其中后续步骤只用于文档的语音标记部分，并且其中提供步骤包括在通信设备中提供视觉浏览器，该浏览器可以对多模式标记文档的可显示标记部分以及语音标记部分进行操作。