CN1881178A

CN1881178A - 在多模式应用中同步视觉和语音事件的方法和系统

Info

Publication number: CN1881178A
Application number: CNA200610004271XA
Authority: CN
Inventors: 迈克尔·C.·霍林格; 查尔斯·W.·克罗斯; 丹尼尔·M.·史密斯; 戴维·W.·温特穆特; 希拉里·A.·派克; 迈克尔·A.·扎特泽夫; 本杰明·D.·刘易斯; 伊哥·R.·贾布洛克夫
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2005-06-16
Filing date: 2006-02-13
Publication date: 2006-12-20
Anticipated expiration: 2026-02-13
Also published as: US7917365B2; US20060287845A1; US8571872B2; US8055504B2; US20120022875A1; CN100456234C; US20080177530A1

Abstract

本发明公开了多模式应用程序中同步视觉和语音事件的示例性方法、系统和产品，包括：接收用户语音；确定语音的语义解释；调用全局应用更新处理程序；根据语义解释由全局应用更新处理程序识别附加的处理功能；以及执行该附加功能。典型的实施例可以包括在执行附加功能之后更新视觉元素。典型的实施例可以包括在执行附加功能之后更新语音表单。典型的实施例还可以包括在更新语音表单之后更新状态表。典型的实施例也可以包括在执行附加功能之后重启语音表单。

Description

在多模式应用中同步视觉和语音事件的方法和系统

技术领域

本发明的技术领域涉及数据处理，或者更具体的说，涉及在多模式应用中同步视觉和语音事件的方法、系统和产品。

背景技术

随着小型设备变得越来越小，用户通过键盘或指示笔与运行在这些小型设备上的应用进行交互已经变得越来越受限和繁琐。特别的，像移动电话和PDA这样的小型手持设备可以提供许多功能，并且具有足够的处理能力来支持通过其它方式，比如多模式访问等的用户交互。支持多模式访问的设备在同一交互中结合了多种用户输入模式或通道，使得用户可以同时通过多种输入模式或通道与设备上的各种应用进行交互。输入方法包括语音识别、键盘、触摸屏、指示笔、鼠标、手写、以及其它方法等等。多模式输入常常使得用户可以更容易地使用小型设备。

多模式应用通常运行在提供用于在多模式浏览器中显示的多模式网页的服务器上。在本说明书中所使用的术语‘多模式浏览器’通常指能够接收多模式输入，并且以多模式输出与用户交互的网页浏览器。多模式浏览器典型地显示用XHTML+VOICE(X+V)书写的网页。X+V提供一种标记语言，使得用户能够在传统输入方式，如键盘敲击和鼠标点击动作之外，通过语音对话与通常运行在服务器上的多模式应用进行交互。X+V通过将XHTML(可扩展超文本标记语言)和由VoiceXML支持的语音识别词汇表整合到一起，来将语音交互添加到标准网页内容上。对于视觉标记，X+V包含了XHTML标准，对于语音标记，X+V包含了VoiceXML的子集。为了使VoiceXML元素与相应的视觉接口元素同步，X+V使用事件。XHTML包含支持语音合成、语音对话、命令和控制以及语言语法的语音模块。语音处理程序可以附加到XHTML元素上，并且响应特定事件。语音交互功能与XHTML整合到一起，从而可以在XHTML内容中直接使用。

最高层次的VoiceXML元素是<vxml>，它是对话容器。有两类对话：表单和菜单。语音表单定义了为一组表单项变量收集数值的交互。语音表单的每一个表单项变量可以指定一种语法，该语法定义该表单项的允许输入。如果提供了表单层次的语法，可以用它来从一句言辞中填充几个表单项。菜单向用户展示可选的选项，然后基于该选项转向另一个对话。

通过表单解释算法(FIA)来对表单进行解释。FIA典型地包括主循环，它重复性地选择表单项、收集用户输入并且响应于输入项，识别要作出的任何动作。解释语音表单项典型地包括选择并且播放一个或者多个语音提示，收集用户输入，或者作出响应填充一个或者多个输入项，或者发起某个事件(比如，帮助事件)，以及解释任何与该新填充的输入项有关的动作。

为了同步语音信息的接收和视觉元素，X+V提供<sync>元素。<sync>元素用于同步通过各种多模式输入而进入的数据。即，<sync>元素用于同步在多模式浏览器中接收到的被接受的语音命令，和在多模式浏览器中显示的视觉元素。<Sync>以一对一的方式同步XHTML输入控制的数值属性和VoiceXML字段。<Sync>并不激活语音处理程序，因此不允许响应特定语音命令而识别和执行进一步的附加功能。因此有必要对在多模式应用中的同步视觉和语音事件进行改进以便允许响应语音表单或者语音菜单中接收的语音命令而执行多种应用功能。

发明内容

具体来说，本发明公开了在多模式应用中同步视觉和语音事件的示例方法、系统和产品，包括接收用户语音；确定语音的语义解释；调用全局应用更新处理程序；根据语义解释由全局应用更新处理程序识别附加处理功能；以及执行该附加功能。典型的实施例可以包括在执行附加功能之后更新视觉元素。典型的实施例可以包括在执行附加功能之后更新语音表单。典型的实施例也可以包括在更新语音表单之后更新状态表。典型的实施例还可以包括在执行附加功能之后重启语音表单。

在典型的实施例中，调用全局应用更新处理程序还包括退出语音表单。调用全局应用更新处理程序还包括退出语音菜单。

本发明的上述以及其它目的、特征和优点，将在下面配合附图对本发明的示例实施例进行的更详细的阐述中变得更清晰，附图中相似的附图标记通常代表本发明的示例实施例中相似的部分。

附图说明

图1示出了用于说明示例系统设备的网络图，其中每一个设备都能够支持多模式应用。

图2示出了包含有能够同步视觉和语音事件的示例服务器的自动计算机的方框图。

图3示出了包含用于同步视觉和语音事件的示例客户端的自动计算机的方框图。

图4示出了用于说明在多模式应用中同步视觉和语音事件的示例方法的流程图。

具体实施方式

介绍

在本说明书将以在多模式应用中同步视觉和语音事件的方法为例对本发明进行更广范围的说明。然而，本领域的普通技术人员将会发现任何包含了合适的编程装置的、用于根据所公开的方法运行的计算系统都落入本发明的范围内。合适的编程装置包含任何控制计算机系统执行本发明方法的步骤的装置，包括例如，包含处理单元和耦合到计算机存储器的数字逻辑电路的系统，其中系统具有在计算机存储器中进行存储的功能，并且计算机存储器包含配置成用于存储由处理单元执行的本发明方法的数据、程序指令和程控步骤的电子电路。

本发明还可以在例如软磁盘或者其它记录介质的计算机程序产品中实现，用于由任何合适的数据处理系统使用。计算机程序产品的实施例可以由用于机器可读信息的任何记录介质来实现，包括磁介质、光介质，或者其它合适的介质。本领域的普通技术人员将会发现任何具有合适的编程装置的计算系统都可以执行包括在程序产品中的本发明的方法的步骤。本领域的普通技术人员还会发现，虽然在本说明书中描述的大多数示例性实施例面向安装并运行在计算机硬件上的软件，然而，由固件或者硬件实现的其它实施例同样也在本发明的范围之内。

在多模式应用中同步视觉和语音事件

下面将参考附图，由图1开始，描述根据本发明实施例的在多模式应用中同步视觉和语音事件的示例方法、系统和产品。图1示出了用来说明示例性系统设备的网络图，其中每一个设备都能够支持多模式应用，例如能够显示根据本发明同步的视觉和语音事件的多模式浏览器。图1的系统包括在网络中为进行数据通信连接在一起的多台计算机。图1的系统中的每一台计算机可具有多模式应用，比如安装在其上的多模式浏览器。

图1的数据处理系统包括广域网(“WAN”)101和局域网(“LAN”)103。图1架构中的网络连接方面只是用于阐述，并不是限制。事实上，根据本发明实施例的具有多模式应用的系统可以连接成LAN、WAN、企业网、互联网、因特网、网络、万维网本身，或者其它本领域普通技术人员知道的连接。这样的网络是一种媒介，可以用于在整个数据处理系统中连接在一起的各种设备和计算机之间提供数据通信连接。

在图1的例子中，服务器106执行LAN 103和WAN 101之间的网关、路由器或者网桥的功能。服务器106可以是任何能够从客户设备接收对资源的请求，并且通过向请求者提供资源来作为响应的计算机。这种服务器的一个例子就是HTTP(‘超文本传输协议’)服务器或者‘网页服务器’。示例服务器106能够提供具有根据本发明的实施例进行同步的视觉和语音事件的多模式网页。图1的示例服务器106也能够支持多模式网络应用，该多模式网络应用能够通过从用户接收语音，确定语音的语义解释，调用全局应用更新处理程序，根据语义解释由全局应用更新处理程序识别附加处理功能，并且执行该附加功能，来同步视觉和语音事件。多模式应用通过使用这样的全局应用更新处理程序有利地提供了用于进行对从用户接收到的语音命令给出的语义解释的附加处理的方式。

示例客户设备108、112、104、110、126和102支持多模式浏览器，并且进行耦合以便与能够根据本发明实施例提供多模式网页的服务器106上的多模式网络应用进行数据通信。本说明书中使用的术语‘多模式浏览器’通常是指能够接收多模式输入并且以多模式输出与用户交互的网页浏览器。多模式浏览器典型地显示用XHTML+VOICE(X+V)书写的网页。

在图1的实例中，包括PDA 112、计算机工作站104、移动电话110以及个人电脑108的几个示例性的客户设备将连接到WAN 101上。网络移动电话110通过无线连接116连接到WAN 101上，并且PDA 112通过无线连接114连接到网络101上。在图1的例子中，个人电脑108通过电线连接120连接到WAN 101上，并且计算机工作站104通过电线连接122连接到WAN 101上。在图1的实例中，便携式计算机126通过无线连接118连接到LAN 103上，并且个人电脑102通过电线连接124连接到LAN 103上。在图1的系统中，示例客户设备108、112、104、110、126和102支持多模式应用，这样的多模式浏览器能够从用户接收语音输入，并且将语音输入或者以语音流的形式，或者以客户端上的语音识别引擎从语音转换而成的文本形式，提供给服务器106上的多模式网络应用。

如图1所示的示例性系统的服务器和其它设备的构成方案是用于阐述，而并不是限制。正如本领域普通技术人员应该知道的，根据本发明的各种实施例的数据处理系统可以包括没有在图1中示出的附加的服务器、路由器、其它设备以及对等架构。在这样的数据处理系统中的网络可以支持许多数据通信协议，包括，例如，TCP/IP、HTTP、WAP、HDTP和其它本领域普通技术人员知道的协议。本发明的各种实施例可以在图1所示的平台之外的硬件平台上实现。

根据本发明实施例的支持视觉和语音事件同步的多模式应用通常与计算机，即自动计算机一起实现。因此，为了进一步的阐述，图2示出了包含有能够通过从用户接收语音，确定语音的语义解释，调用全局应用更新处理程序，根据语义解释由全局应用更新处理程序来识别附加处理功能，并且执行附加功能，来同步视觉和语音事件的示例服务器151的自动计算机的方框图。

图2的服务器151包含至少一个计算处理器156或者‘CPU’，还包括通过系统总线160连接到处理器156和计算机其它部件的随机访问存储器168(“RAM”)。存储在RAM 168中的是操作系统154。根据本发明实施例的用于计算机中的操作系统包括UNIX_TM，Linux_TM，Microsoft NT_TM，AIX_TM，IBM的i5/OS，以及许多其它本领域的普通技术人员知道的操作系统。

同样存储在RAM 168中还有多模式应用188。该多模式应用具有通常能够通过接收用户语音，确定语音的语义解释，调用全局应用更新处理程序，根据语义解释由全局应用更新处理程序来识别附加处理功能，并且执行附加功能，来同步视觉和语音事件的语音同步模块信息模块192。

语音可以或者以来自客户设备的语音流的形式，或者以从安装在支持语音识别引擎的客户端上的多模式浏览器接收到的文本形式被接收到多模式应用188中。示例性多模式应用包括用于接收语音以及用于根据语法通过分析所接收的语音来将语音转换成文本的语音识别器193。语法是执行该语法的语音识别器可以识别的预定义的一组单词或短语。典型地，展示给用户的由特定表单或菜单定义的每一个对话具有一个或者多个与定义该对话的表单或菜单相关联的语法。这种语法只有当该表单或菜单被激活时才有效。

图2的示例性多模式应用188也包括语义解释引擎191，能够确定通过语音识别器193识别的语音的语义解释。图2的语义解释引擎或者以文本，或者以其它的形式接收已被识别的语音，并且将语义含义指派给输入。比如，用户说的许多单词，如“是”、“肯定”、“当然”和“我同意”，可以赋予同样的语义含义“是”。

图2的示例性语音同步模块信息模块192通过调用以从用户接收到的语音作为参数的语义解释引擎来确定语音的语义解释，并且该语义解释引擎向语音同步模块返回语音的一个或多个语义解释。然后语音同步模块信息模块192调用全局应用更新处理程序，该处理依次为每个语义解释识别一个根据该语义解释的附加处理功能，并且执行该附加功能。

附加处理功能可以是能够执行其识别和执行依赖于语音的语义解释的任何动作的任何软件功能。考虑到从与多模式菜单对话的用户接收语音命令的例子。用户说‘继续’，语义解释引擎将语音解释为从用户发出的移至下一菜单的指令。本发明的同步模块信息模块192能够调用全局更新处理程序，该处理程序识别特定功能，该特定功能在更新下一菜单的视觉元素并且为用户启动下一菜单之前，识别并且向用户显示广告(advertisment)。这样的全局应用更新处理程序有利地在更新多模式应用的视觉元素和语音表单或菜单之前提供附加处理的方式。

图2的服务器151包括通过系统总线160耦合到处理器156和服务器151的其它部件的非易失性计算机存储器166。非易失性计算机存储器166可以实现为硬盘驱动器170、光盘驱动器172，电可擦除可编程只读存储器空间(所谓的‘EEPROM’或者‘闪速’存储器)174，RAM驱动器(未示出)，或者是本领域的普通技术人员知道的任何其它种类的计算机存储器。

图2的示例服务器151包括一个或多个输入/输出接口适配器178。计算机中的输入/输出接口适配器通过例如用来控制到例如计算机显示屏的显示设备180的输出，以及控制从例如键盘和鼠标的用户输入设备181的输入的软件驱动器和计算机硬件实现面向用户的输入/输出。

图2的示例服务器151包括通信适配器167，用来实现与其它计算机182的数据通信184。这样的数据通信可以通过RS-232链接，经由例如USB的外部总线，通过例如IP网络的数据通信网络，以及其它本领域的普通技术人员知道的方法来实现。通信适配器实现数据通信的硬件层次，由此一台计算机可以直接地或者通过网络向另一台计算机发送数据通信。根据本发明实施例的用于多模式应用中的通信适配器的实例包括用于有线拨号通信的调制解调器，用于有线网络通信的以太网(IEEE 802.3)适配器，以及用于无线网络通信的802.11b适配器。

同步视觉和语音事件经常通过服务器上的多模式应用来实现，该服务器通过运行在为与服务器进行通信而耦合的客户设备上的多模式浏览器接收用户语音。因此，为了进一步的阐述，图3示出了包含根据本发明实施例的用于同步视觉和语音事件的示例性客户端152的自动计算机器的方框图。

图3的客户端152包含至少一个计算处理器156或者‘CPU’，还包括通过系统总线160连接到处理器156和计算机其它部件的随机访问存储器168(“RAM”)。存储在RAM 168中的是操作系统154。根据本发明实施例的用于计算机中的操作系统包括UNIX_TM，Linux_TM，Microsoft NT_TM，AIX_TM，IBM的i5/OS，以及许多其它本领域的普通技术人员知道的操作系统。

同样存储在RAM 168中的还有能够显示根据本发明的实施例同步的视觉和语音事件的多模式浏览器195。图3的示例性多模式浏览器195还包括用户代理197，它能够从用户接收语音，并且根据语法分析接收到的语音来将语音转换成文本。语法是用户代理能够识别的一组单词或短语。典型地，由展示给用户的特定表单或菜单定义的每一个对话具有一个或者多个与该表单或菜单相关联的语法。这样的语法只有当用户在该对话中时才有效。

图3的客户端152包含通过系统总线160耦合到处理器156和客户端152的其它部件的非易失性计算机存储器166。非易失性计算机存储器166可以实现为硬盘驱动器170、光盘驱动器172、电可擦除可编程只读存储器空间(所谓的‘EEPROM’或者‘闪速’存储器)174、RAM驱动器(未示出)或者是本领域的普通技术人员知道的任何其它种类的计算机存储器。

图3的示例客户端包含一个或者多个输入/输出接口适配器178。计算机中的输入/输出接口适配器通过例如用来控制到例如计算机显示屏的显示设备180的输出，以及控制从例如键盘和鼠标的用户输入设备181的输入的软件驱动器和计算机硬件实现面向用户的输入/输出。

图3的示例客户端152包括通信适配器167，用来实现与其它计算机182的数据通信184。这样的数据通信可以通过RS-232链接，经由比如USB的外部总线，通过比如IP网络的数据通信网络，以及其它本领域的普通技术人员知道的方法来实现。通信适配器实现数据通信的硬件层次，由此一台计算机可以直接地或者通过网络向另一台计算机发送数据通信。根据本发明实施例的用于多模式浏览器中的通信适配器的实例包括用于有线拨号通信的调制解调器，用于有线网络通信的以太网(IEEE 802.3)适配器，以及用于无线网络通信的802.11b适配器。

为了进一步的阐述，图4示出了用来说明在多模式应用中同步视觉和语音事件的示例性方法的流程图。图4的方法包括接收(402)用户语音404。如上面所讨论的，接收(402)用户语音404可以由服务器上的多模式应用的语音识别器接收来自客户设备的语音流或者接收从安装在支持作为客户端语音识别引擎的用户代理的客户端上的多模式浏览器接收的文本来实现。接收(402)用户语音404典型地包括从用户接收一句言辞，并且根据有效语法来分析接收到的言辞，以识别作为语音的用户言辞。

图4的方法还包括确定(406)语音404的语义解释410。在图4的实例中，确定语音的语义解释通过语义解释引擎408来实现。如上面所讨论的，语义解释引擎典型地或者作为文本形式或者作为其它形式接收已识别的语音，并且将语义含义指派给输入。比如，用户说的许多单词，如“是”、“肯定”、“当然”和“我同意”，可以赋予同样的语义含义“是”。

图4的方法还包括调用(412)全局应用更新处理程序414。如上面所讨论的，全局应用更新处理程序是响应于接收到任何语音命令而调用的单个处理程序，它能够有利地根据语音的语义解释识别附加处理功能，并且执行附加处理功能。

调用(412)全局应用更新处理程序414可以通过绑定到具有激活全局应用更新处理程序的属性的XHTML<listener>元素的XML事件来实现。在图4的方法中，单个XML事件在从用户接收的语音的任何语义解释返回时被激活。

在图4的方法中，调用(412)全局应用更新处理程序414包括退出(413)语音表单428。如上面所讨论的，语音表单定义了为一组表单项变量收集数值的交互。退出语音表单可以通过向全局应用更新处理程序发出<vxml:return/>来实现，它能够退出语音表单，并且返回到多模式应用。退出语音表单有利地提供了在任何一个特定的语音表单之外识别和执行附加功能的方式。因此这样的附加功能能够在语音表单之间交叉识别和执行，而不是基于在表单中定义的语法给出的对语音的语义解释来识别附加功能。

在图4的实例中，调用(412)全局应用更新处理程序414包括退出(413)语音表单428。这仅仅作为一个例子，而并不是限制。另一种形式的对话包括菜单。菜单向用户展示可选的选项，然后根据该选项转到另一个对话。调用(412)全局应用更新处理程序414可以包括退出语音菜单。退出语音菜单有利的提供了在任何特定的语音菜单之外识别和执行附加功能的方式。因此这样的附加功能能够在语音菜单之间交叉识别和执行，而不是基于在表单中定义的语法给出的对语音的语义解释来识别附加的功能。

图4的方法也包括根据语义解释408由全局应用更新处理程序414识别(416)附加处理功能418，并且执行(420)该附加功能418。附加处理功能可以是能够执行其识别和执行依赖于语音的语义解释的任何动作的任何软件功能。附加处理功能经常在更新XHTML文档的视觉元素和X+V应用中的语音表单的语音元素之前执行。考虑到从与设计为接收旅行信息的多模式表单对话的用户接收语音命令的例子。用户说‘英格兰’，语义解释引擎将该语音解释成从用户接收到了去‘英国’旅行的命令。调用全局更新处理程序来识别特定的功能，该功能识别并且显示导引伦敦旅店的广告。这样的全局应用更新处理程序在更新视觉元素和多模式应用的语音表单或者菜单之前有利地提供了用于附加处理的方式。

在图4的实例中，只有一个附加处理功能418被识别并执行。这只是为了阐述，而并不是限制。事实上，根据本发明的实施例，同步视觉和语音事件可以接收用于接收到的语音的多个语义解释，并且根据一个或多个语义解释调用一个或多个附加功能。

图4的方法还包括在执行(420)附加功能418之后更新(422)视觉元素424。更新视觉元素可以通过将语义解释的结果返回给X+V应用的XHTML元素来实现。

图4的方法还包括在执行(420)附加功能418之后更新(426)语音表单428。更新(426)语音表单428可以通过将语义解释的结果返回给语音表单的表单项来实现。

图4的方法还包括在更新(426)语音表单428之后更新(430)状态表432。图4的状态表432典型的实现为数据结构，其中每一配对的视觉元素和语音字段都包含有数值，用于指示元素和语音字段的状态。比如，状态表可以包括用于每一配对的视觉元素和语音字段的唯一的数值，用于指示通过从用户接收指令并且响应于用户指令而更新字段，该当前字段已经被填充。

图4的方法也包括在执行附加功能之后重启(434)语音表单428。在执行附加功能之后重启(434)语音表单428典型的根据已更新的状态表来实现。根据状态表重启(434)语音表单428典型的控制多模式浏览器在语音表单中为用户提示下一个未被填充的语音字段。

从上述的描述中可以知道在不背离本发明真正的构思的条件下可以对本发明的各种实施例进行变化和修改。说明书中的描述只是为了说明目的而不能解释为对本发明的限制。本发明的范围仅由下面的权利要求书中的语言来限定。

Claims

1、一种在多模式应用中同步视觉和语音事件的方法，该方法包括：

接收用户语音；

确定所述语音的语义解释；

调用全局应用更新处理程序；

根据所述语义解释由所述全局应用更新处理程序识别附加处理功能；以及

执行所述附加处理功能。

2、如权利要求1所述的方法，还包括在执行所述附加处理功能之后更新视觉元素。

3、如权利要求1所述的方法，还包括在执行所述附加处理功能之后更新语音表单。

4、如权利要求3所述的方法，还包括在更新所述语音表单之后更新状态表。

5、如权利要求1所述的方法，其中调用所述全局应用更新处理程序还包括退出语音表单。

6、如权利要求5所述的方法，还包括在执行所述附加处理功能之后重启语音表单。

7、如权利要求1所述的方法，其中调用所述全局应用更新处理程序还包括退出语音菜单。

8、一种在多模式应用中同步视觉和语音事件的系统，该系统包括至少一个计算机处理器，至少一个可操作地耦合到该计算机处理器上的计算机存储器，以及配置在该计算机存储器中的计算机程序指令，所述计算机程序指令用于：

接收用户语音；

确定所述语音的语义解释；

调用全局应用更新处理程序；

执行所述附加处理功能。

9、如权利要求8所述的系统，还包括配置在计算机存储器中的用于在执行所述附加处理功能之后更新视觉元素的计算机程序指令。

10、如权利要求8所述的系统，还包括配置在计算机存储器中的用于在执行所述附加处理功能之后更新语音表单的计算机程序指令。

11、如权利要求10所述的系统，还包括配置在计算机存储器中的用于在更新所述语音表单之后更新状态表的计算机程序指令。

12、如权利要求8所述的系统，其中配置在计算机存储器中的计算机程序指令能够退出语音表单。

13、如权利要求12所述的系统，还包括配置在计算机存储器中的用于在执行所述附加处理功能之后重启所述语音表单的计算机程序指令。

14、如权利要求8所述的系统，其中配置在计算机存储器中的计算机程序指令能够退出语音菜单。

15、一种在多模式应用中同步视觉和语音事件的计算机程序产品，所述计算机程序产品由计算机可读记录介质实现，该计算机程序产品包括执行权利要求1-7中任何一个中的步骤的计算机程序指令。