CN101055524A

CN101055524A - 用于在接口内构造语音单元的方法和系统

Info

Publication number: CN101055524A
Application number: CNA2007101359115A
Authority: CN
Inventors: F·戈梅斯; C·阿加皮; J·R·刘易斯; B·D·梅茨; B·D·曼达利亚; D·E·赖克; K·M·霍罗威茨
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-03-29
Filing date: 2007-03-09
Publication date: 2007-10-17
Anticipated expiration: 2027-03-09
Also published as: US20070233495A1; CN100524213C; JP2007265410A; JP5089213B2

Abstract

一种用于在接口内构造语音单元的方法，包括识别具有多个可视单元的可视接口的步骤。可以与每个可视单元邻近地提供可视选择器。可视选择器可以允许用户为关联可视单元输入语音控制类型。可以为每个提供的可视选择器自动生成具有在可视选择器中规定的语音控制类型的语音单元。

Description

用于在接口内构造语音单元的方法和系统

技术领域

本发明涉及软件开发领域，具体地涉及一种基于用户提供的标准和自动化过程从图形用户接口单元生成具有语音功能的接口单元的交互式软件开发工具。

背景技术

计算设备越来越多地利用具有语音功能的接口作为常规图形用户接口的补充或代替。产业正在变得自动化，并且要求雇员在与计算设备交互的同时进行大量现实世界的任务。具有语音和图形接口模式的多模式接口已经证明是一种允许这些雇员使用对于现实世界任务和计算机交互而言最为便利的交互模式来同时执行双重活动的有利工具。例如，结账店员可以在为客户打包购买物品的同时向麦克风说出用于计算设备的命令。同一职员可以在与客户交谈的同时利用图形接口来与计算设备交互。

具有语音功能的接口正在越来越多地得到使用的另一原因与具有有限或者不便的输入/输出外围设备的移动计算设备激增有关。这一点对于移动设备、嵌入设备和可佩戴的计算设备而言尤其成立。例如，许多智能电话包括触屏GUI和语音接口。语音接口可以接收被自动地转换成文本并且放置于比如电子邮件应用程序或者字处理应用程序这样的应用程序中的语音输入。这一语音输入机制对于用户而言可能比尝试使用与设备的GUI模式相关联的触屏输入机制来输入文本消息要简单地多。此外，可能要在难以阅读相对小型屏幕(由于便携设备的移动性质)的环境中或者在读取显示屏过于分散注意力的情形中利用移动设备。在这样的情形中，文本输出可以转换成语音并且以可听的方式提供给用户。

尽管具有语音交互模式的计算设备有广泛的使用，但是大部分的应用程序缺乏用于交互的语音形态。这一点对于通常配置用于复杂的GUI交互和配置用以在可视浏览器中呈现的Web页面而言可能最为明显。即使许多移动设备具有Web功能，但是用户常常无法从这些移动设备访问所需站点，因为可视单元无法呈现在移动设备的有限屏幕上，以及因为所需站点缺乏语音交互模式。类似地，虽然存在许多允许电话用户访问Web内容的声音浏览器，但是很少有Web页面是针对完全基于语音的交互而设计的。

用以将GUI应用程序转换成语音用户接口(SUI)应用程序的两种普遍途径包括从暂时存储器(scratch)设计SUI应用程序和使用代码转换(transcode)技术。从暂时存储器写入SUI可能成本很高并且耗费时间。从GUI直接代码转换为SUI通常导致SUI代码包括许多错误，这可能使自动和动态生成的SUI的用户不胜其烦。可选地，自动生成的SUI代码的结果可以由开发者在SUI开发工作的生成后阶段中进行修改。这些生成后阶段的修改可能耗费时间、成本很高，并且可能导致相对低质量的SUI(取决于在生成后阶段中耗费的时间)。

发明内容

一种软件工具，其通过使用一些自动化过程和至少一个预生成的由设计者规定的选择而从图形用户接口(GUI)交互式地生成具有语音功能的接口。具体而言，一种设计接口可以用图形方式引导一个从对应GUI单元创建具有语音功能的单元的过程。在设计接口中，可以与将要转换成语音用户接口(SUI)单元的每个GUI单元紧邻地放置可视选择器。与每个关联GUI单元紧邻地放置可视选择器可以自动地和/或人工地进行。

设计者可以在可视选择器内规定GUI单元将要转换成的语音控制类型。在一个实施例中，可以从可用语音控制类型的列表中进行这一选择，这些语音控制类型可以各自对应于可重用的对话框组件(RDC)或者对应于有助于生成具有语音功能的单元的其它代码机制。可以用默认语音控制类型和/或使用代码转换技术来确定的语音控制类型初始地设置可视选择器。在设计者已经调整可视选择器内的值之后，可以自动创建语音用户接口(SUI)。这一接口可以是新的纯语音接口以及既包括GUI单元又包括具有语音功能的单元的多模式接口。此外，GUI和新接口都可以用可由浏览器呈现的标记语言来实施。在一个实施例中，可以从可以向开发者提供已知调用流设计特征的设计接口内获得调用流接口或者视图，这些设计特征促使从自动生成的SUI代码产生高质量的具有语音功能的接口。

本发明可以根据与这里提供的实质内容相一致的许多方面来实施。例如，本发明的一个方面可以包括一种用于在接口内构造语音单元的方法。该方法可以包括识别具有多个可视单元的可视接口的步骤。可以与每个可视单元邻近地提供可视选择器。可视选择器可以允许用户为关联的可视单元输入语音控制类型。对于每个提供的可视选择器，可以自动生成具有在可视选择器中规定的语音控制类型的语音单元。

本发明的另一方面可以包括一种软件开发应用程序，该软件开发应用程序包括可视设计窗口、具有选择器功能的窗口和SUI单元生成引擎。可视设计窗口可以配置用以指定可视接口的可视单元以及自动生成与指定的可视单元相关联的程序性指令。具有选择器功能的窗口可以用图形方式显示可视设计窗口的GUI单元。至少一部分所显示的单元可以与所显示的可视选择器相关联。每个可视选择器可以允许软件开发应用程序的用户为关联GUI单元输入语音控制类型。SUI单元生成引擎可以自动生成对应于与可视选择器相关联的每个GUI单元的SUI单元。每个生成的SUI单元可以具有由可视选择器规定的语音控制类型。

本发明的又一方面可以包括一种图形用户接口，该图形用户接口包括用于呈现以可视标记语言编写的标记的窗口。即使没有以可视标记语言规定可视选择器，这些可视选择器仍然可以用图形方式呈现在窗口中。每个可视选择器可以对应于在窗口中显示的可视单元。每个可视选择器可以允许用户指定语音控制类型。对于每个可视选择器，可以自动生成具有所指定的语音控制类型的具有语音功能的单元。可以用具有语音功能的标记语言来编写为每个具有语音功能的单元而创建的自动生成的标记。

应当注意，本发明的各种方面可以实施为一种用于控制计算设备以便实施这里所述功能的程序或者一种用于使计算设备能够执行与这里所述步骤相对应的过程的程序。此程序可以通过将程序存储于磁盘、光盘、半导体存储器或者任一其它记录介质中来提供。该程序也可以提供成经由载波传送的数字编码信号。所述程序可以是单个程序或者可以实施为多个子程序，每个子程序在单个计算设备内交互或者跨网络空间以分布方式交互。

附图说明

在附图中示出了当前优选的实施例，但是应当理解本发明不限于示出的确切方案和手段。

图1是根据这里公开的本发明方案的一个实施例从图形用户接口(GUI)单元生成语音用户接口(SUI)单元的系统的流程图；

图2是示出了根据这里公开的本发明方案的一个实施例用于将GUI单元转换成SUI单元的部分自动化软件开发工具的图形用户接口(GUI)的示图。

具体实施方式

图1是根据这里公开的本发明方案的一个实施例从图形用户接口(GUI)单元生成语音用户接口(SUI)单元的系统(100)的流程图。系统100利用一种部分自动化或者由设计者辅助的转换过程，其中在GUI软件设计接口内与对应的可视单元紧邻地提供可视选择器。设计者可以通过在可视选择器内规定一种控制来输入可视单元将要转换成的语音控制类型。可以自动地生成SUI代码，该代码包括用于由选择器指定的SUI语音控制类型的程序性指令。可以使用软件设计接口的其它工具如调用流开发工具来修改所生成的SUI代码。

在系统100中，GUI页面105可以被发送到单元检测引擎110。GUI页面105可以是用能够在浏览器中呈现的标记语言来编写的页面。例如，GUI页面105可以用可扩展标记语言(XML)或者超文本标记语言(HTML)来编写。然而GUI页面105在这一点上不受限制，并且可以包括用比如JAVA、C++、VISUAL BASIC等任何代码语言来编写的应用程序的页面、分段或者视图。

单元检测引擎110可以自动地检测一个或多个包含于GUI页面105内并能够转换成具有语音功能的对象的可视对象。在一个实施例中，就单元检测引擎110的用途而言，文本、列表框、单选按钮等可以是可转换的可视对象，而图片和视频剪辑可以是不可转换的对象。

GUI 112示出了GUI 105的三个可视对象如何可以由单元检测引擎110自动地识别。具体而言，文本区域可以被标识为单元A，提示可以被标识为单元B，而选择列表可以被标识为单元C。一旦已经标识这些单元就可以执行默认建立过程114或者代码转换过程116。过程114和/或116可以为每个SUI单元初始地建立语音控制类型。

语音控制类型可以包括但不限于问候、提示、语句、语法、注释、确认等。不同的语法可以与为之请求输入的不同语音控制类型相关联。例如，单元A可以与将要接收用户口述的无上下文语法相关联，而单元C可以与具有单词/短语(包括那些出现在图形列表框中的单词/短语)的上下文相关语法相关联。

当要使用默认建立过程114时可以使用默认引擎120。默认引擎120可以执行一些相对简单的替换以便估计语音控制类型。例如，所有出现在用于标题的标记标签中的文本可以由默认引擎120转换成问候控制类型。类似地，所有出现在标记文档的主体中的、具有在某一字符长度之下的文本消息的可视单元可以被默认引擎20视为提示。

当系统100配置用于代码转换过程116时可以使用代码转换引擎122。代码转换引擎122可以执行将可视程序性指令自动转换成具有语音功能的程序性指令的复杂算法和/或启发式程序(heuristics)。例如，代码转换引擎122可以将XML或者HTML标记转换成VoiceXML标记。代码转换引擎122可以实施为使用许多现有的技术和工具的各种方式中的任一方式。例如，代码转换引擎122可以包括国际商业机器公司(IBM)的WEBSPHERE TRANSCODING PUBLISHER。

无论使用默认引擎120还是代码转换引擎122，都可以构造可视单元-语音单元表格124。在表格124中，每个标识的可视单元可以与具有语音控制类型的语音单元相关联。例如，可视单元A、B和C可以与语音单元A、B和C相关联。语音单元A可以具有对应的语音控制类型M，语音单元B可以对应于类型N，而语音单元C可以对应于类型O。在一个方案中，每个语音控制类型可以对应于可重用的对话框组件，比如可通过WEBSPHERE VOICE TOOLKIT获得的那些组件。

指示符生成引擎130可以利用表格124来构造可以向设计者140提供的GUI 134。GUI 134可以包含在由设计者140使用的软件设计工具内。GUI 134可以包括位于关联可视单元附近的可视选择器135。可以针对每个可视选择器135提供选择窗136。选择窗136可以包括语音控制类型的列表138。

在一个实施例中，可以基于表格124来预先选择列表138中的一个类型，比如提示控制类型。在另一构思的实施例中，可以不经默认设置而初始地提供可视选择器。在这样的实施例中，默认引擎120和/或代码转换引擎122可以不是必要的。

设计者140可以查看和修改这些控制类型。设计者140也可以在不为对应的可视单元生成语音单元时从GUI 134删除可视选择器135。此外，设计者140可以在GUI 134内添加新的可视选择器并且将新的选择器与单元检测引擎110没有检测到的可视单元相关联。在一个实施例中，系统100可以配置成使得设计者140可以明确地将所有可视选择器与可视单元相关联。在那一配置中，单元检测引擎110不是必要的。

一旦设计者140已经操作GUI 134，则可以使用页面创建引擎145来生成SUI页面150和/或多模式页面152。这些页面150和/或152中的任一页面都可以通过SUI开发工具154进一步进行处理。例如，SUI开发工具154可以是一种使得调用流特征能够用图形方式添加到SUI页面150和/或多模式页面152中的开发者接口。

同步引擎160可以用来将生成的页面150或者152中的单元与GUI页面105相同步。也就是说，无论何时对GUI页面105或者相关联的具有语音功能的页面150或者152进行改变，改变通知162可以被自动地转达到设计者140。在一个实施例中，通知162可以包括对版本没有改变的单元进行更新的能力。

系统100的同步引擎160和其它功能可以集成于许多开发框架内。在一个实施例中，系统100的功能性可以利用STRUTS框架，该框架利用了基于服务器小应用程序(Servlet)的模型-视图-控制器(Model-View-Controller)架构和基于JAVASERVER PAGES(JSP)的技术。在另一实施例中，系统100的功能性可以是ECLIPSE集成开发环境的部分。在又一实施例中，系统100可以是基于多设备程序设计技术(MDAT)的开发环境的部分。

应当理解，在图1中示出的各种组件仅仅是为了说明目的而示出的，并且这里构思了具有所示组件的派生的其它实施例。例如，在一个构思的实施例中，单元检测引擎110、代码转换引擎122和指示符生成引擎130可以组合到单个组件中，该单个组件具有针对这些构成组件而讨论的功能性。在另一构思的实施例中，SUI开发工具154，GUI 134和引擎111、122、120、130、145和/或160可以集成到单个软件开发包中。

应当注意，系统100可以是一种自动产生完整声音应用程序解决方案的解决方案的部分。完整声音应用程序解决方案可以包括比如潜在退回到DTMF、全面帮助消息和来自图形开发环境内的自动化语音代码生成这样的特征。

该解决方案可以包括许多现有技术，比如包含在IBM的CONVERSATION FLOW BUILDER(aka，CALL FLOW BUILDER或者CFB)，RATIONAL APPLICATIONS DEVELOPER(RAD)，JAVASERVER FACES，TRANSCODING PUBLISHER等中的那些技术。

用于创建完整声音解决方案的附加技术可以包括在美国专利申请2005/0234255(Method and System for Switching between Prototype andReal Code Production in a Graphical Call Flow Builder)、美国专利申请2005/0234725(Method and System for Flexible Usage of a Graphical CallFlow Builder)、美国专利申请2005/0108015(Method and System forDefining Standard Catch Styles for Speech Application Code Generation)和美国专利申请2005/0081152(Help Option Enhancement for InteractiveVoice Response Systems)中详细说明的技术。在这些申请中详述的技术并不是可以与本发明相结合的技术的全面列举，而是被引用来证实当前的公开可以由本领域技术人员与现有技术相组合用来产生完整声音应用程序解决方案。

图2是示出了根据这里公开的本发明方案的一个实施例用于将GUI单元转换成SUI单元的部分自动化软件开发工具的图形用户接口(GUI)210、230和260的示图。GUI 210、230和260可以实施于系统100或者任一如下其它系统的环境中，在该其它系统中提供了可视选择器用于为将要使用自动化软件开发工具从GUI单元构造的SUI单元人工地指定语音控制类型。在一个实施例中，GUI 210、230和260可以是集成到比如具有FACES加工的RATIONAL JAVA SERVER这样的开发者工具中的GUI。本发明在这一点上不受限制，并且GUI 210、230和260可以集成到各种其它软件开发工具或者软件开发环境中的任一个中。

GUI 210可以是软件设计工具的集成组件。例如，标签221-225可以有选择地激活软件设计应用程序的其它部分。标签221可以提供GUI设计接口。标签222可以提供用于可视GUI页面的源代码。标签223可以示出GUI页面的图形预览。标签224可以示出所生成的SUI组件。标签225可以用比如VoiceXML这样具有声音功能的标记语言为SUI单元和/或GUI单元提供源代码。

GUI 210示出了具有多个可视单元211-217的可视页面。可视页面起初不具有任何与可视单元相关联的具有语音功能的单元。如在GUI230中所述，可以利用一些开发者辅助来自动地生成具有语音功能的单元。在GUI 210中，单元211可以与标题“星系际旅行预约系统”相关联。单元212可以与图形图像相关联。单元213可以与用于选择旅行交通工具的提示相关联。单元214可以接收关于旅行交通工具的用户输入。单元215可以是用于选择目的地的提示。单元216可以接收针对目的地的用户输入。单元217可以应用用户选择。

GUI 230可以示出用于包括可视选择器241-246的页面的具有图形选择器功能的预览，其中每个可视选择器各自与图形单元231-236相关联。每个可视选择器241-246可以具有选择器标识符或者名称以及默认语音控制类型。设计者可以选择可视选择器241-246，可以在控制选择窗255内查看语音控制类型256的当前值。控制选择单元可以包括但不限于问候、提示、语句、语法、注释、确认等。

在GUI 230中，设计者可以添加新的可视选择器或者删除不需要的自动生成的可视选择器。例如，如果为单元232生成可视选择器242，则设计者可以人工地删除选择器242。类似地，如果没有自动地为包括标题的单元231生成选择器241，则设计者可以人工地将选择器与单元231相关联。

一旦设计者已经编辑GUI 230，则设计者可以选择为每个可视选择器241-246自动生成SUI单元。这一生成可以使用各种已知的自动化编码技术，包括代码转换、与可重用的对话框组件相关联的标准化代码等。

GUI 260示出了一种可以用来对从GUI单元形成的自动生成的SUI单元进行进一步细化的SUI开发工具。具体而言，GUI 260可以代表调用流开发者接口。工具268的选择可以用来定义调用流和/或修改底层代码。工具268例如可以包括开始、语句、提示、注释、确认、判决、处理、传送到代理程序、结束、前往和全局命令这些开发者组件，每个组件可从工具模板中选择。

GUI 260的调用流可以包括用于星系际旅行预约系统的标题262。它也可以包括用于交通工具选择264的提示，其具有航天飞机、火箭、太空船和远程传送这些语法选择。此语法可以从GUI单元214中的可选选择自动地生成。GUI 260也可以包括用于目的地的提示266，其具有从GUI单元216生成的月球、木星、土星和火星这些语法选择。

应当理解，用于GUI 210、220和260的方案、布局和控制单元是仅仅出于说明目的而提供的，并且派生和替代在这里也有所构思而且视为在本发明的范围内。例如，在GUI 230中表示为按钮的并且与可选弹出菜单相关联的可视选择器241-246可以用各种方式替代性地实施用来实现近似等效的结果。

例如，在一个构思的实施例(未示出)中，每个可视选择器名称可以出现在可以从中选择语音控制的具有下拉选择箭头的列表框中。在另一实施例(未示出)中，可视选择器名称可以表现为与包含用户可选语音控制类型的掠过式弹出窗口相关联的突出显示的文本单元。在又一实施例(未示出)中，可以提供用于每个可视选择器的图标，该图标可以被选择用来调用可以从中选择语音控制和其它SUI设置的窗口。

本发明可以用硬件、软件或者硬件和软件的组合来实现。本发明可以在一个计算机系统中以集中方式来实现或者以不同单元散布于数个互连计算机系统的分布方式来实现。适应于实现这里所述方法的任一种计算机系统或者其它装置都是适宜的。硬件和软件的典型组合可以是具有计算机程序的通用计算机，该程序在被加载和执行时控制计算机系统使得它实现这里描述的方法。

本发明也可以嵌入于计算机程序产品中，该产品包括所有使得能够实施这里所述方法的特征，并且该产品在加载于计算机系统中时能够实现这些方法。计算机程序在本文中意味着指令集以任何语言、代码或者符号实现的任何表达，该指令集用以使具有信息处理能力的系统直接执行或者在下列各项处理中的任一项或者两项之后执行特定功能：a)转换成另一种语言、代码或者符号；b)以不同的物质形式再现。

本发明可以用其它形式来具体实施而不脱离其精神或者基本属性。因而，应当参照所附权利要求而不是前述说明书来指示本发明的范围。

Claims

1.一种用于在接口内构造语音单元的方法，包括：

识别具有多个可视单元的可视接口；

与每个所述可视单元邻近地提供可视选择器，其中所述可视选择器允许用户为关联的可视单元输入语音控制类型；以及

对于每个提供的可视选择器，自动生成具有在所述可视选择器中规定的语音控制类型的语音单元。

2.根据权利要求1所述的方法，还包括：

自动检测所述可视单元，其中响应于所述检测步骤而自动构造和提供所述可视选择器。

3.根据权利要求2所述的方法，其中至少一部分所述可视选择器与语音控制类型的用户可选列表相关联，其中在所述列表中的每个控制类型对应于可重用的对话框组件。

4.根据权利要求1所述的方法，还包括：

为每个所述可视选择器自动确定初始语音控制类型，其中所述提供步骤以所确定的初始语音控制类型初始地设置所述可视选择器，该语音控制类型可由用户改变。

5.根据权利要求2所述的方法，还包括：

在所述生成步骤之前，允许用户有选择地修改多个与可视单元相关联的可视选择器，其中所述生成步骤仅生成与可视选择器相关联的语音单元。

6.根据权利要求1所述的方法，其中所述可视接口是以标记语言编写的页面的部分，其中所述页面起初没有语音功能，其中所述生成步骤自动创建以标记语言编写的具有语音功能的页面。

7.根据权利要求6所述的方法，其中所创建的具有语音功能的页面是具有语音用户接口的新Web页面。

8.根据权利要求6所述的方法，还包括：

自动检测包括所述可视接口的原始页面和所创建的具有语音功能的页面中至少一个的改变；以及

触发被设计用来同步所述原始页面和所创建的具有语音功能的页面的同步事件。

9.根据权利要求8所述的方法，还包括：

响应于所述触发步骤，自动将通知传送到与所述原始页面和所创建的具有语音功能的页面中至少一个相关联的先前指定的用户，所述通知指示了检测到的改变。

10.根据权利要求6所述的方法，其中所创建的具有语音功能的页面是包括所述多个可视单元和所述语音单元的多模式Web页面。

11.根据权利要求1所述的方法，其中所述识别、提供和生成步骤使用图形软件设计工具来执行。

12.根据权利要求11所述的方法，其中所述可视接口利用所述软件设计工具来构造。

13.根据权利要求12所述的方法，其中所述软件设计工具包括调用流设计接口，在所述调用流设计接口内能够以图形方式对所述自动生成的语音单元进行操作。

14.根据权利要求1所述的方法，其中权利要求1的所述步骤由至少一个机器根据至少一个计算机程序来执行，所述至少一个计算机程序具有可由所述至少一个机器执行的多个代码段。

15.一种用于在接口内构造语音单元的系统，包括：

可视设计装置，用于设计可视接口的可视单元，以及用于自动生成与所设计的可视单元相关联的程序性指令；

具有选择器功能的装置，配置用于以图形方式显示所述可视单元，其中至少一部分所显示的单元与所显示的可视选择器相关联，其中每个可视选择器允许用户输入语音控制类型；以及

SUI单元生成引擎，用于自动生成对应于与可视选择器相关联的每个GUI单元的SUI单元，其中每个生成的SUI单元具有如由所述可视选择器规定的语音控制类型。

16.根据权利要求15所述的系统，还包括：

调用流设计接口，配置用于以图形方式为所述自动生成的SUI单元提供调用流。

17.根据权利要求15所述的系统，其中每个所述语音控制类型对应于可重用的对话框组件，其中所述可重用的对话框组件用来为每个所述SUI单元自动生成程序性指令。

18.根据权利要求15所述的系统，其中所述程序性指令以可由可视浏览器呈现的标记语言来编写，以及其中所述SUI单元与用可由具有语音功能的浏览器呈现的具有语音功能的标记语言来编写的程序性指令相关联。

19.一种图形用户接口，包括：

用于呈现以可视标记语言编写的标记的窗口；

用图形方式呈现在所述窗口中的不是以所述可视标记语言规定的的多个可视选择器，其中每个可视选择器对应于在所述窗口中显示的可视单元，其中每个可视选择器允许用户指定语音控制类型，其中为每个可视选择器自动生成具有所指定的语音控制类型的具有语音功能的单元，以及其中为每个所述具有语音功能的单元创建以具有语音功能的标记语言编写的自动生成的标记。

20.根据权利要求19所述的图形用户接口，其中所述图形用户接口是软件开发应用程序的部分，所述程序部分有助于使用将可视标记转换成具有语音功能的标记的部分自动化技术从图形单元创建具有语音功能的单元，其中所述转换部分地基于使用所述可视选择器来规定的由设计者规定的预生成参数。