CN101038743A

CN101038743A - 向语音使能应用提供帮助的方法和系统

Info

Publication number: CN101038743A
Application number: CNA2007100846674A
Authority: CN
Inventors: 杰拉尔德·马修·麦科不; 戴维·加拉米洛; 苏恩索恩·阿蒂瓦尼查亚丰
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2006-03-13
Filing date: 2007-03-01
Publication date: 2007-09-19
Anticipated expiration: 2027-03-01
Also published as: US8311836B2; US20070213984A1; KR101066732B1; JP2007249200A; CN101038743B; KR20070093326A

Abstract

一种用于向包括多模式应用在内的语音使能应用提供帮助的方法，可以包括步骤：标识与语音使能应用相关联的至少一个语音语法。可以在语音语法内定义帮助字段。所述帮助字段可以包括所述语音使能应用可用的语音命令。当激活所述语音语法以便由语音使能应用使用时，可以向语音使能应用的用户给出可用的语音命令。可以从所述帮助字段中获得所给出的语音命令。

Description

向语音使能应用提供帮助的方法和系统

技术领域

本发明涉及语音处理领域，并且尤其涉及在语音语法内放置包括可用的语音命令在内的语法特定的帮助。

背景技术

多模式交互可以通过具有多个冗余交互模式的计算接口来进行，其中用户可以通过这些冗余交互模式进行接口。多模式接口的典型模式包括图形用户接口(GUI)模式和语音模式。可以经由任何一个模式来发送和接收输入和输出。

当在附连有受限或不方便的输入/输出外设的计算设备上执行多模式应用时，语音模式是尤其重要的。对于移动的、嵌入式和可佩戴的计算设备而言尤为如此。

例如，许多智能电话包括触摸屏GUI和语音接口。所述语音接口可以接收口述(spoken)输入，所述口述输入被自动地转换为文本并且置于诸如电子邮件应用或者字处理应用之类的应用中。对于用户来说，与试图使用设备的GUI模式所包括的触摸屏输入机制来输入文本消息相比，这种口述输入机制容易得多。另外，所述设备可以在难以读取相对较小的屏幕(因便携式设备的移动特性导致)的环境下或者在对显示屏幕的读取被过度干扰的情形下使用。在这些情况下，可以将文本输出可以转换为语音并且以可听见的方式提供给用户。

利用多模式应用的一个挑战涉及所允许的语音命令。可以根据多模式应用的状态来有选择地使不同命令可用。其它语音命令是可用的而与应用的状态无关。不同的语音命令可以被认为是应用的全局命令，其它可用的语音命令可以是依赖于所显示的应用窗口或者页面的页面级命令，并且还有其它的语音命令可以是依赖于目前拥有接口焦点的接口项的上下文特定的命令。全局命令可以是相对静态的，而页面级命令和上下文特定的命令可以是动态的。多模式应用必须为所有这些不同类型的命令提供帮助。

用于为多模式应用提供帮助的当前技术利用传统的编码技术，该编码技术在链接到多模式应用以及多模式应用内出现的事件的代码内唯一地构造帮助。例如，所述帮助可以集成在应用的一般帮助文件内。该方法的一个问题在于：语音命令和帮助代码在应用的相对较深的级别上集成(由于可用的语音命令可以取决于应用状态而改变)。当对应用进行代码修改时，必须也改变并测试到帮助文件的链接。另外，当用于可编程地解释语音命令的语音语法改变时，必须对多模式应用和相关联的帮助文件进行相应的改变。

保持应用/帮助/语法相同步时的问题因诸如面向服务的体系结构(SOA)技术之类的软件开发技术的浮现而更得严重，这些软件开发技术将软件的功能组件化为具有良好定义的接口的离散单元。在SOA中，不同的组和/或公司通常致力于提供可与他人独立开发的代码单元相组合的代码单元。SOA促进了分布式开发环境，而不是自动控制的开发环境，其中分布式开发环境可以从多个独立开发的软件构建块中产生集成的软件产品。SOA可以具有缩短进入市场时间、大规模的软件重复利用、和完美的升级进度等优点。SOA还向传统的软件设计方法提出了挑战。例如，难以把SOA软件单元与具有低级代码依赖性的软件相集成。

需要一种新的方法来实现语音使能(voice-enabled)应用和多模式应用内的帮助。新的方法理论上能够与使用包括基于SOA的技术在内的任何软件技术开发的多模式应用一起工作。此外，当更新语音使能应用和/或语音语法时，所述方法应该易于更新和维护。另外，最佳的方法将会允许跨越不同的应用部署帮助文件，以便使单个帮助技术可用于为不同平台开发的语音使能应用和多模式应用。

发明内容

此处公开了一种根据本发明的实施例、在语音语法内实现与语音命令相关联的帮助文件的软件解决方案。更具体地说，可动态激活的语法可以包含帮助字段。所述帮助字段可以规定当语法有效时可用的帮助命令、每个帮助命令的一个或多个示例、以及相关的上下文特定的帮助。所述语音语法可以被语音使能应用利用。一种这样的语音使能应用是使用标记实现的多模式应用，所述标记可由多模式Web浏览器来呈现。可以在语法、应用和/或Web浏览器之间建立渠道(conduit)，通过该渠道可以传送帮助事件和帮助相关的数据有效负载。可以可视地和/或可听地给出从有效语法中提取的帮助信息。在一个实施例中，可以包括向导以作为软件开发环境的一部分，该向导便于在语法内嵌入帮助字段以及把这些帮助字段集成到语音使能应用的接口单元中。

本发明可以根据符合此处给出的材料的很多方面来实现。例如，本发明的一个方面可以包括一种用于向语音使能应用提供帮助的方法。所述方法可以包括步骤：标识与语音使能应用相关联的至少一个语音语法。可以在语音语法内定义帮助字段。所述帮助字段可以包括所述语音使能应用可用的语音命令。所述语音语法可以被激活，以供语音使能应用使用。可以向语音使能应用的用户给出可用的语音命令。可以从所述帮助字段中获得所给出的语音命令。

本发明的另一方面可以包括一种具有至少一个帮助字段的语音语法，其中所述帮助字段使用语音识别语法规范(Speech RecognitionGrammar Specification，SRGS)元标记(metatag)所实现。所述帮助字段可以包含由语音使能应用使用的内容。所述帮助字段可以包含帮助数据，所述帮助数据向语音使能应用的用户提供用于与语音语法相关联的语音命令的帮助。

本发明的另一方面提供了一种语音语法，其包含至少一个使用至少一个SRGS元标记实现的帮助字段，其中所述语音语法由激活该语音语法的语音使能应用所使用，其中所述帮助字段包含帮助数据，所述帮助数据向语音使能应用的用户提供用于与语音语法相关联的语音命令的帮助。该语音语法还包含与所述至少一个帮助字段相关联的至少一个帮助示例，所述帮助示例由所述语音使能应用给出作为一个恰当地短语化的语音命令的示例。

本发明的又一方面可以包括一种用于向语音使能应用提供帮助的系统。所述系统可以包括语法向导、由语法向导生成的至少一个语法、以及多模式应用。所述语法向导可以规定与语音语法中的可用语音命令相关联的帮助内容。所生成的语法可以包括语法中的单词，以及其中包含了用于该单词的帮助内容的帮助字段。所述多模式应用可以包括帮助接口。当相关联的语法被动态地激活时，所述多模式应用可以在运行时在帮助接口内动态地加载帮助内容。

应该注意的是，本发明的各个方面可以被实现为用于控制计算装置以实现此处所述功能的程序，或者被实现为用于使计算装置能够执行与此处公开的步骤相对应的处理的程序。这种程序可以通过在磁盘、光盘、半导体存储器或者任何其它记录介质中存储程序来提供。所述程序还可以作为经由载波传送的数字编码信号来提供。所描述的程序可以是单个程序，或者可以被实现为多个子程序，每个子程序在单个计算设备内交互或者以分布式方式跨越网络空间来交互。

还应注意的是，此处详细说明的方法还可以是至少部分地由服务代理和/或由服务代理操作的机器响应于服务请求来执行的方法。

附图说明

附图中示出了目前优选的实施例，然而，应该理解的是，本发明不局限于所示出的确切方案和机构。

图1是根据此处公开的本发明方案的实施例的、用于根据在一个或多个语音语法的帮助字段中包含的内容来向语音使能应用提供帮助的系统的示意图。

图2是根据此处公开的本发明方案的实施例的、用于使用在语音语法内包括的帮助字段在语音使能应用内动态地提供帮助的方法的流程图。

图3是根据此处公开的本发明方案的一个方面的、用于动态激活语法和相关联的语音命令的方法的流程图。

图4是根据此处公开的本发明方案的实施例的、包括帮助字段的示例语法的代码示例。

图5是根据此处公开的本发明方案的实施例的语音使能应用的引用语法的代码示例。

图6是根据此处公开的本发明方案的实施例的、用于语音语法的示例帮助标记的代码示例。

图7是根据此处公开的本发明方案的实施例、示出多模式浏览器和帮助窗口的图形用户接口。

图8是根据此处公开的本发明方案的实施例的方法的流程图，在该方法中服务代理可以对使用从有效语法中导出的语音命令帮助的系统进行配置。

具体实施方式

图1是根据此处公开的本发明方案的实施例的系统100的示意图，该系统100根据在一个或多个语音语法的帮助字段中包含的内容向语音使能应用提供帮助。系统100可以包括计算设备110，其接收来自语音语法数据存储设备120的一个或者多个语音语法。

计算设备110可以包括能够给出语音使能应用114并且为应用提供帮助116的任何设备。所述计算设备110可以被可编程地附连于诸如麦克风和扬声器之类的一个或多个音频转换器(未示出)。所述音频转换器可以被实现为设备110的嵌入式部件，或者可以被实现为诸如经由通用串行总线(USB)端口链接的设备之类的、可通信地链接的外围设备。计算设备110可以包括但是不局限于计算机、平板式PC、笔记本、个人数字助理(PDA)、智能电话、媒体播放器、数字娱乐系统、家庭音视频系统、可佩带的计算设备等。

在一个实施例中，所述语音使能应用114可以是具有图形用户接口(GUI)和语音接口的多模式应用。另外，所述语音使能应用114可以以标记语言实现，并且在可以是基于语音的浏览器或者多模式浏览器的浏览器内呈现。

帮助116可以包括给出语音使能应用114可以识别的那些命令和/或短语的部分。还可以由帮助116提供所允许的语音命令的一个或多个示例。当语音使能应用114可用的语音命令发生改变时，帮助116的内容可以以对应的方式自动地改变。帮助116可以以类似于应用114的方式来实现。例如，当应用114被实现为要在浏览器内呈现的标记时，帮助116可以被实现为标记。本发明不局限于基于浏览器的实施例。所述应用114和帮助116可以以设备110所支持的任何方式来实现。

语音语法数据存储设备120可以包括一个或多个语音语法。可以包括不同类型的语音语法，每种语音语法均可根据情况被激活。例如，可以包括在每次执行相关联的应用114时被激活的一个或多个全局语法130。可以基于语音使能应用114的状态来有选择地并动态地激活页面级语法132和上下文敏感语法134。

每个页面级语法132可以取决于语音使能应用114的页面、屏幕或者应用片段而被动态地激活/去激活(deactivate)。例如，当语音使能应用114被实现为在Web浏览器内执行的一系列网页时，可以取决于有效的网页而激活/去激活不同的页面级语法132。

上下文敏感语法134可以取决于语音使能应用114中的哪些单元当前拥有焦点。当焦点改变了时，上下文敏感语法134可以发生改变。例如，在语音使能的字处理应用中，语音命令“复制单词”可以使当前具有焦点的单词被复制到剪贴板中。当不同的单词具有焦点时，响应于同一语音命令复制不同的内容。另外，当焦点从字处理应用的文本区域转移到文件存储区域时，可以自动地使与用于文本操作的上下文敏感语法134相关联的命令去激活。应该理解的是，在有效的语音语法、语音使能应用114的状态、和可用的语音命令之间存在直接的关系。

更具体地说，数据存储设备120中的每个语音语法均可以包括语法中的一个或多个单词124以及一个或多个帮助字段126。帮助字段126为用于语法中相关联的单词124的语音命令提供帮助和示例。当来自数据存储设备120的不同语法被激活/去激活时，跨越渠道150将新单词124传送到语音使能应用114。通常，这通过加载/卸载新的语法而发生。在最初可以加载部分语法并且可以根据需要经由渠道150获得附加信息的地方，还可以利用流化技术。

还可以经由帮助渠道152在帮助字段126和用于应用的帮助116之间传送数据。可以有选择地激活和/或去激活用于应用的帮助116。当使帮助116去激活时，即便与帮助字段126相关联的单词124被加载了，来自帮助字段126的内容也不是必需的。当帮助116被激活时，可以经由帮助渠道152传送帮助激活事件，并且作为响应可以传送用于有效语法的适当帮助包。因此，可以根据需要用来自适当帮助字段126的内容来动态地填充帮助116。

在一个设想的实施例中，驻留在开发设备140上的语法开发应用142可用于便于数据存储设备120中的语法的创建。所述语法开发应用142可以包括语法向导144，其用于提示开发人员输入帮助内容。可以将所提供的帮助内容和帮助示例自动放置在帮助字段126内。

所述语法向导144可以提供一个选项，用以使帮助内容基于对语法树的自动遍历而自动地生成。例如，可以通过选择语法树路径的第一选择，由语法向导144自动地生成帮助示例。类似地，所述语法向导可以基于相关联语法的单词自动地生成可视和/或可听的帮助内容。例如，如果把语法指定为XHTML+Voice(X+V)多模式标记的一部分，则语法向导144可以基于开发人员提供的信息来自动地填充用于X+V标记的可视和/或可听片段的帮助字段126。

图2是根据此处公开的本发明方案的实施例的方法200的流程图，所述方法200使用语音语法内包括的帮助字段在语音使能应用内动态地提供帮助。方法200可以在系统100的环境中执行。

方法200可以在步骤205开始，其中，可以对语音使能应用进行实例化(instantiate)。在步骤210，可以加载用于应用的全局语音语法。所述全局语法可以包括规定可用的语音命令的一个或多个帮助字段。在步骤215，可以加载来自全局语法中的帮助字段的帮助内容。

在步骤220，可以加载应用页面。在步骤225，可以可选地加载用于所述应用页面的页面级语法。这个步骤是可选的，这是因为，应用中的某些页面未必与页面级语法相关联。在步骤230，如果加载了页面级语法，则可以加载来自语法帮助字段的帮助内容。

在步骤235，可以确定应用焦点。这个应用焦点可以与上下文敏感语法相关联。在可选步骤245中，如果存在与应用焦点相关联的、去激活了的上下文语法，则可以动态地加载该上下文相关的语法。在步骤250，可以加载来自上下文敏感语法内的语法帮助字段的帮助内容。

在步骤255，可以执行检查，以便确定是否存在不同的焦点。如果不存在，则方法可以从步骤255跳至步骤265。如果存在，则所述方法可以从步骤255进行至步骤260，其中，可以卸载当前有效的上下文敏感语法和相关联的帮助内容。所卸载或者去激活的上下文敏感语法可以是不可应用于新焦点的一个。这时同样可以激活/加载新的上下文敏感语法和相关的帮助。

在步骤265，可以确定是否已经加载了语音使能应用的新页面。如果不是，则方法可以跳至步骤275。如果是的话，则所述方法可以进行至步骤270，其中，可以自动地卸载不再适合的、当前有效的页面级语法和相关联的帮助。如果存在用于新页面的新的页面级语法，则这时可以激活/加载所述语法和相关联的帮助内容。

在步骤275，可以进行有关是否仍正在使用语音使能应用或者新的应用(其也可以是语音使能应用)是否已经替换了先前的语音使能应用的确定。例如，所述语音使能应用可以在浏览器内呈现，并且可以选择与不同的应用相关联的URL来替换所述语音使能应用。

如果还未选择不同的应用，或者如果由于任何原因而保持该语音使能应用有效，则所述方法可以从步骤275进行至步骤255，其中可以针对应用焦点执行检查，并且所述方法可以如先前详细说明的那样继续进行。当由于诸如加载不同的应用之类的任何原因而关闭所述语音使能应用时，所述方法可以从步骤275进行至步骤280。在步骤280，可以卸载用于所述语音使能应用的当前有效的语法和相关联的帮助内容。

图3是根据此处公开的本发明方案的一个方面、用于动态地激活语法和相关联的语音命令帮助的方法300的流程图。方法300可以在系统100的环境中执行。方法300假定：所述语法与诸如X+V之类的、由多模式浏览器呈现的语音使能标记相关联。应该理解的是，这些具体细节只适用于一个设想的实施例，而且此处可设想出基于其它实施细节而推导出的实施例，并且这些实施例可以由本领域普通技术人员实现。

方法300可以从步骤305开始，其中，多模式浏览器的语音帮助可以最初是去激活的。语音帮助可以被设计成可听地、可视地或者二者均可地向用户给出可用语音命令的列表。在步骤310，可以将应用的X+V页面载入到多模式浏览器中。在步骤315，可以在应用和浏览器之间建立帮助渠道。所述帮助渠道可以是通信链路，通过该通信链路可以传送数据，其包括但不限于包含帮助内容的帮助事件数据和帮助数据包。

在步骤320，语音使能应用的激活状态可以发生改变。在步骤325，可以为新的激活状态酌情动态地加载/卸载与应用相关联的语音语法。在步骤330，如果帮助是有效的，则可以经由帮助渠道来传送包含帮助内容的数据有效负载。所述数据有效负载可以更新多模式浏览器的语音帮助的帮助内容，以便对应于有效的语法。

在步骤340，如果帮助目前是去激活的，则用户可以激活语音帮助。例如，用户可以向语音使能应用说出“帮助”或者“我能说什么”。用户还可以从GUI中选择帮助选项以启用语音帮助。帮助请求可以经由帮助渠道传送到语音使能应用。在步骤345，所述帮助请求可以触发帮助事件，其使得用于所有有效语法的帮助内容得以收集。也就是说，可以查询所有有效语法内包含的帮助字段，并且可以提取帮助内容。

在步骤350，可以使用来自一个或多个帮助字段的内容来标识帮助模板，所述一个或多个帮助字段被设计成能指定特定的帮助模板。所述帮助模板可以是多模式浏览器能够呈现的X+V页面。可以利用从帮助字段获得的帮助内容来动态地填充所述帮助模板。

在步骤355，可以根据已填充的帮助模板来生成帮助页面。在步骤360，可以可视地和/或可听地给出所述帮助页面作为语音帮助。帮助页面的给出，特别是对于语音接口而言，可以暂时地去激活或暂停对应用特定信息的呈现。在步骤365，可以中断帮助信息的呈现的用户命令可以把应用焦点返回到先前被暂停的应用状态。例如，用户命令“退出帮助”可以停止可听地给出的帮助发声，并且可以把应用的语音接口返回至帮助前的(pre-help)状态。

在步骤370，可以可选地改变一个或多个应用语法。例如，上下文特定的语法或者页面级语法可以根据应用的已改变的状态而发生改变。如果在步骤370中所述语法确实改变了，则所述方法可以从步骤370循环至步骤320，其中，可以根据应用状态而动态地更新语音语法和相关联的帮助内容。如果在步骤370中确定语法没有发生改变，则所述应用可以进行到步骤375，其中可以执行应用任务。所述方法可以定期地从步骤375循环至步骤370，以便检查是否出现了要求进行帮助内容和/或语音语法的调整的语法改变。

图4是根据此处公开的本发明方案的实施例的、包括帮助字段的示例语法400的代码示例。语法400是在系统100的数据存储设备120中存储的语法的一个可能示例。语法400示出了饮料查询应用的语法。语法400可以被表示为图形语法树410、420和430。语法400可以由语法440比较详细地表示。

应该理解的是，语法400仅仅是为举例说明而提供的，并且不应认为本发明受限于图4内所包含的细节。相反，本领域普通技术人员可以根据图4中所示的示例而理解嵌入式帮助字段的一般原理，并且可以把所述一般原理应用于任何语音语法，而与实现细节无关。

语法树410示出了饮料分支412。所期待的饮料请求序言(prelude)413可以包括“I would like(我希望要)”、“I want(我想要)”和“<please>give me(<请>给我)”。期望随后的是不定冠词415，并继之以饮料的大小416和类型417。饮料大小416可以包括内容为“small(小)”、大小424和“large(大)”的大小类别422。大小424可以包括内容为“medium(中等)”或者“regular(标准)”的中间大小指示符424。类型417可以包括饮料类型“coffee(咖啡)”、“milk(牛奶)”、软饮料类型434和“lemonade(柠檬水)”。软饮料类型434可以包括“soda(苏打)”、“pop(汽水)”和“cola(可乐)”。

语法440是符合SRGS语法标准的、基于XML的语法。语法440可以启用具有先前描述的语法树410、420和430的语音语法。语法440还可以包括帮助字段442和示例446。在一个实施例中，从软件开发工具中启动的向导144可用于创建包括帮助字段442和示例446的语法440。

所述帮助字段442允许对描述443、标识符444和指示方法445的说明。描述443可以指定对其预期语音响应的语音提示，诸如“Whatwould you like to drink？(你想要喝什么？)”。标识符444可用于标记语法240是全局语法、页面级语法还是上下文敏感语法。指示方法445可以引用为语法240提供可用的语音命令的帮助页面的位置。

在语法440中，帮助字段442被实现为SRGS元标记。更具体而言，所述帮助字段符合都柏林核心元数据倡议(Dublin Core MetadataInitiative)的标准。帮助标签442不局限于这个特定配置。在其它实施例(未示出)中，帮助标签442可以依照各种方式并且根据包括用于SRGS元标记的其它标准在内的其它标准来实现。

示例446提供了应该如何将饮料请求短语化(phrase)的示例，诸如“I would like a medium coffee(我想要中杯咖啡)”。语法中可以包括多个示例446，并且可以有选择地将其向语音使能应用的用户给出。在一个实施例中，如果在语法440内没有提供示例446，则可以通过遍历语法树的一个路径来动态地生成一个示例。例如，如果选择了来自语法树410-430中的每一选择的第一项，则动态构造的示例可以是“I would like a small coffee(我想要小杯咖啡)”。在另一个实施例中，向导144可用于以相同的方式为语法开发人员自动地生成示例446。向导生成的示例可以被包括在语法440自身中，语法开发人员可以根据需要修改它。

图5是根据此处公开的本发明方案的实施例的语音使能应用的引用语法400的代码示例500。如图所示，语音使能应用以X+V代码实现，并且可以由多模式浏览器呈现。代码行510示出了可以激活语法“beverage.grxml”。在一个实施例中，可以从包括在已激活的语法内的描述帮助标签543中自动地提取语法提示520和/或522。当生成代码示例500时，软件开发工具可用于把自动提取的描述帮助标签443放置到代码的适当位置中。

图6是根据此处公开的本发明方案的实施例、用于语法400的帮助的代码示例600。示例600是用于示例500的多模式帮助页面，即，help/drinkhelp.mxml。所述help/drinkhelp.mxml文件可以是一个模板。响应于用户触发了帮助事件，可以把帮助内容直接动态地放置在help/drinkhelp.mxml页面内。例如，可以把语音提示620和提示示例622添加到饮料表单的语音xml块中。另外，可以将可视提示626和可视示例628添加到X+V页面的主体中。可以各种方式，诸如通过使用宏扩展把帮助内容动态地添加到静态页面中，把内容添加到模板中。

值得注意的是，VoiceXML包括“帮助”作为自动包括在系统语法内的一个语音命令。因此，当用户说出帮助时，可以通过语音解释器来生成帮助事件。当语音使能应用、或者在X+V的情况下当多模式浏览器收到帮助事件时，访问帮助，并且将其作为内容放置在模板文档内。可以在语法内诸如由指示方法445指定模板文档。

图7是根据此处公开的本发明方案的实施例的、示出多模式浏览器710和帮助720窗口的图形用户接口700。

所述多模式浏览器710可以呈现多模式应用。所述多模式应用可以以诸如X+V之类的标记语言来编写。所述多模式应用可以具有相关联的、当访问应用时被加载的全局语法711。还可以动态地激活/去激活一个或多个页面级语法712。另外，可以取决于应用状态来有选择地激活上下文敏感语法714和716。例如，在多模式应用中，可以为账户概述上下文激活/加载一个上下文敏感语法714，并且可以为特定账户上下文激活/加载另一个上下文敏感语法716。

所述帮助窗口710可以包括多个语音命令。使用语音语法内包含的和/或由语音语法指定的帮助内容，可以自动地向所述帮助窗口710加载可用的语音命令。也就是说，可以根据一个或多个语音语法内包括的帮助字段来自动并且动态地填充帮助窗口710中出现的语音命令。诸如一个或多个全局语法、一个或多个页面级语法、以及一个或多个上下文敏感语法之类的多个语音语法可以同时有效。用户可以从窗口710中选择任何可用的命令，以便使其利用正确地短语化的语音命令的示例而可听和/或可视地给出。所述帮助示例可以从有效语音语法内包括的帮助字段中提取。

在一个实施例中，可以根据语音命令与之相关联的语法的类型来对不同的语音命令进行排序。例如，全局722命令可以与全局语法相关联；页面级724命令可以与页面级语法相关联；而上下文敏感726命令可以与一个或多个上下文敏感语法相关联。

虽然帮助720将不同的命令显示为可扩展的分级结构，但是可以利用命令的任何各种其它方案。例如，可以根据历史使用来提供命令，并且只有在选择了“显示全部(display all)”或者“更多(more)”的命令之后才可以选择很少使用的命令。在不同的配置中，基于用户很可能对更多的上下文特定的命令更感兴趣的假设，可以首先显示上下文敏感的命令，继之以页面级命令，再继之以全局命令。可以提供用户可配置的选项，以便使用户可以根据需要来配置帮助窗口720的外观。

图8是根据此处公开的本发明方案的实施例的方法800的流程图，在该方法中，服务代理可以对使用从有效语法中导出的语音命令帮助的系统进行配置。方法800可以在系统100的环境中执行。

方法800可以从步骤805开始，在这时客户启动服务请求。所述服务请求可以是请求服务代理修改现有的语法和/或应用以启用语法嵌入的帮助的请求。所述服务请求可以用于进行训练以便使与客户相关联的开发人员能够构造诸如X+V应用之类的多模式应用。所述服务请求还可以用于让技术人员来调试现有系统中的问题。

在步骤810，可以选择人员代理来响应于所述服务请求。在步骤815，人员代理可以分析客户的当前系统和/或问题，并且可以响应性地开发解决方案。所述解决方案例如可以包括：人员代理引导软件开发人员通过多模式应用处理的步骤。

在步骤820，人员代理可以使用一个或多个计算设备来执行或者使所述计算机设备执行方法300中的步骤。例如，所述代理可以与软件开发人员协同浏览，并且向软件开发人员示出如何利用语法向导来把帮助包括在语法字段内。

在可选步骤825中，所述人员代理可以以这样的方式来配置客户的计算设备，所述方式为：客户或者客户的客户端可以在将来执行方法300的一个或多个步骤。例如，服务代理可以建立一个或多个语法或者帮助模板，并且可以这样配置语音使能应用以便可以向语音使能应用提供语法中包含的帮助内容。在步骤830，所述人员代理可以完成服务活动。

应该注意的是，虽然人员代理可以物理地行进到客户位置来调整客户的计算机，但是物理行进不是必需的。例如，人员代理可以向遇到问题的客户提供基于电话的客户支持。

本发明可以以硬件、软件、或者硬件和软件的组合的形式来实现。本发明可以在一个计算机系统中以集中化的方式实现，或者以其中不同元件散布在多个互连的计算机系统上的分布式方式来实现。适合于实现此处所述方法的任何类型的计算机系统或者其它设备都是适当的。硬件和软件的典型组合可以是具有下述计算机程序的通用计算机系统，当所述计算机程序被载入并被执行时，其控制所述计算机系统以便使所述计算机系统执行此处所述的方法。

本发明还可以被包含到计算机程序产品中，该计算机程序产品包括能够实现此处所述方法的所有特征，并且当将其加载到计算机系统中时，能够执行这些方法。在当前上下文中的计算机程序是指以任何语言、代码或符号的指令集的任何表达方式，其中所述指令集意图使具有信息处理能力的系统直接地或者在进行如下步骤之一或二者之后执行特定的功能，所述步骤包括：a)转换为另一种语言、代码或符号；b)以不同的材料形式再现。

在不脱离本发明的精神或者实质的情况下，可以以其它形式来具体实现本发明。因此，在指明本发明的范围时，应该参考权利要求书而不是以上的说明书。

Claims

1.一种用于向语音使能应用提供帮助的方法，包括：

标识与语音使能应用相关联的至少一个语音语法；

在所述语音语法内定义帮助字段，所述帮助字段包括语音使能应用可用的语音命令；

激活所述语音语法，以便由所述语音使能应用使用；以及

向所述语音使能应用的用户给出可用的语音命令，其中所给出的语音命令是从所述帮助字段中获得的。

2.如权利要求1所述的方法，其中，所述语音语法的激活状态在运行时基于所述语音使能应用的状态而动态地改变，其中根据所述语音语法的激活状态而动态地改变所给出的可用语音命令。

3.如权利要求1所述的方法，其中，同时激活包括所述语音语法的多个语音语法，所述多个语法中的每一个具有已定义的包括可用语音命令的帮助字段，其中所述给出步骤给出与每一个有效语法相关联的可用语音命令。

4.如权利要求3所述的方法，其中，所述多个语音语法包括从包含上下文敏感语法、页面级语法和全局语法的语法类型组中选出的至少两种不同类型的语法。

5.如权利要求4所述的方法，其中，所述至少两种不同类型的语法包括从所述组中选出的至少三种不同类型的语法。

6.如权利要求1所述的方法，其中，所述语音使能应用是多模式应用，并且其中所述给出步骤向语音使能应用的用户可视地给出可用语音命令。

7.如权利要求6所述的方法，其中，响应于接收到的语音命令，有选择地显示其中可视地给出了可用语音命令的窗口。

8.如权利要求1所述的方法，其中，响应于接收到的帮助使能语音命令，所述给出步骤向语音使能应用的用户可听地给出可用的语音命令，并且其中不同的用户可选语音命令使用户返回到刚好在收到所述帮助使能语音命令之前的语音使能应用的位置。

9.如权利要求8所述的方法，其中，所述语音使能应用是具有图形用户接口的多模式应用。

10.如权利要求1所述的方法，其中，所述帮助字段包括多个示例性发声，每个所述发声对应于所述可用语音命令之一；所述给出步骤还包括：

向用户给出示例性发声，其中所给出的示例性发声是从所述帮助字段中获得的。

11.如权利要求10所述的方法，其中，所述语法是基于SRGS的语法，并且其中使用SRGS元标记将所述帮助字段存储在基于SRGS的语法内。

12.如权利要求1所述的方法，其中，所述语音使能应用是在多模式浏览器内执行的多模式应用。

13.如权利要求12所述的方法，其中，所述语音使能应用以多模式标记语言编写。

14.如权利要求12所述的方法，还包括：

在多模式应用和多模式浏览器之间建立帮助渠道，其中经由所述帮助渠道传送数据有效负载。

15.如权利要求1所述的方法，还包括：

提供开发向导，所述开发向导用于向开发人员提供在帮助字段内放置内容的手段。

16.如权利要求1所述的方法，其中，权利要求1中的步骤由至少一个机器根据至少一个计算机程序执行，所述至少一个计算机程序具有多个可由至少一个机器执行的代码部分。

17.如权利要求1所述的方法，其中，权利要求1中的步骤由服务代理以及由服务代理操作的计算设备中的至少一个来执行，其中响应于服务请求而执行所述步骤。

18.一种用于向语音使能应用提供帮助的系统，包括：

语法向导，用于指定与语音语法的可用语音命令相关联的帮助内容；

由所述语法向导生成的至少一个语法，所述语法包括语法中的多个单词以及多个帮助字段，在所述多个帮助字段内包含了用于多个单词的帮助内容；以及

包括帮助接口的多模式应用，其中当动态地激活相关联的语法时，所述多模式应用在运行时在帮助接口内动态地加载帮助内容。