CN1647023A

CN1647023A - 语音控制的数据输入

Info

Publication number: CN1647023A
Application number: CNA038080230A
Authority: CN
Inventors: 弗兰基·詹姆斯; 杰夫·罗兰斯; 拉马·古拉姆; 理查德·J·斯旺
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2002-02-15
Filing date: 2003-02-14
Publication date: 2005-07-27
Anticipated expiration: 2023-02-14
Also published as: ATE381055T1; WO2003071519A2; EP1485790B1; EP1485790A2; CN1647023B; EP1485790A4; DE20321559U1; WO2003071519A3; WO2003071519A8; AU2003215226A1; DE60318021D1; DE60318021T2; US20030158736A1; US6882974B2; AU2003215226A8

Abstract

提供了使用语音扩展模块来使用户界面支持语音的方法和系统。语音扩展模块包括预处理器、语音识别引擎和输入处理程序。语音扩展模块接收用户界面信息，如超文本标记语言(HTML)文档，并且使文档支持语音，以便用户可使用语音命令与任何用户界面元素交互。

Description

语音控制的数据输入

技术领域

本发明涉及一种语音控制的用户界面，特别涉及语音控制或语音辅助的数据输入技术。

背景技术

用于商业中的很多软件目前采取综合图形用户界面(GUI)的形式。综合GUI允许用户同时执行很多任务，同时保持其工作的剩余部分的上下文；然而，这些系统经常是鼠标和键盘密集的，这让很多人包括身体残疾者进行使用可能有问题或者甚至是不可能的。如果采取措施来解决内在的可用性问题，如用户效率和歧义处理，则语音界面可以为身体残疾用户提供一种可访问的解决方案。另外，语音界面可以提高执行特定任务的效率。

大量的资源已被花费以使用例如超文本标记语言(HTML)和/或JavaScript开发基于web(万维网)的应用以为综合商业应用提供可移植、与平台无关的前端。

由于软件应用典型地是仅考虑可视表现而开发的，因此对于将有助于语音界面开发的细节很少给予关注。

在大多数计算机或数据处理系统中，仅使用视频显示器、键盘和鼠标来提供用户交互。有时还使用附加的输入和输出外设，例如打印机、绘图仪、光笔、触摸屏和条形码扫描仪；然而，绝大多数计算机交互仅通过视频显示器、键盘和鼠标来发生。因此，通过可视显示和机械驱动来提供主要的人机交互。相反，人类交互的很大一部分是口头的。理想的是，帮助口头的人机交互以改善残疾用户的访问以及提高用户界面的效率。

各种技术已被开发以提供某种形式的口头人机交互，其范围从简单的文本到语音话音合成应用到更复杂的听写及命令和控制应用。各种口头人机交互应用可采用以下两个因素来描述：(1)可视组件的存在或不存在；以及(2)当增加语音界面时改变底层应用和交互的程度。

很多构建口头人机交互系统的研究机构注重于第二因素：创建可结合或者代替可视显示而使用的新交互风格。例如，不同机构已创建了以下系统：CommandTalk(命令讲话)；ATIS；TOOT；以及ELVIS。这些系统的每一个注重于提供用于口头人机交互的改进式模型，从而在根本上改变交互风格。例如，CommandTalk保持传统GUI，同时在根本上改变交互风格以改善可用性。ATIS，一种空中旅行信息系统，通过以可视表格格式提供对用户查询的答案来保持传统可视组件；然而，ATIS修改传统交互风格，从数据库查询界面变至自然语言查询界面。类似地，TOOT，一种列车时刻表信息系统，试图向用户提供表格式数据；然而，TOOT通过语音提供表格式数据，从而消除了可视组件的需要。最后，用于通过语音访问电子邮件消息的ELVIS系统已经以若干交互风格受到测试，这些交互风格在不同程度上不同于可视交互。系统初始风格利用很多在可视界面中找到的相同命令名称，同时提供显著改变传统交互的混合式初始风格。

很多商业系统往往以不同程度的可视组件保持传统交互风格。Windows(视窗)访问工具，如ViaVoice和SUITEKeys与上述对话系统的任一个相比在更大程度上反映键盘/鼠标交互。SUITEKeys甚至就是直接模拟用手移动鼠标并且按各个键的交互。类似地，很多电话应用通过形式为“按或读一个”的交互来直接模拟键盘交互。

大量资源已被用来开发需要综合GUI的商业应用，以提供大量信息、显示信息内的复杂交互、并且管理最大化用户能力、配置和控制的复杂性。现有应用对于使用语音控制应用提供有限的支持。一些现有系统允许听写或者有限的访问命令；然而，需要提高在传统和遗留应用中进行口头人机交互的程度以为残疾用户提供改善的可访问性并且为所有用户提供更高的交互效率的系统和技术。

发明内容

在一个总的方面，支持语音的用户界面包括用户界面元素以及接收标识目标用户界面元素的语音输入的语音识别引擎。支持语音的用户界面使用代表性枚举标签(representational enumerated labels)消除关联所接收的语音输入与目标用户界面元素中的歧义(ambiguity)。用户界面元素包括例如以下项中的一个或多个：组合框、文本字段、列表框、按钮、文本区域、复选框或者单选按钮。语音识别引擎可接收标识用户界面元素的类别的语音输入。

在一些实施例中，代表性枚举标签可以是半透明或者不透明的。另外，支持语音的用户界面可使用隐式范围划定(implicit scoping)和/或可视提示(visual cues)来消除所接收的语音输入中的歧义。用户界面元素可被划分成一个或多个组，例如屏幕的各个区域。隐式范围划定可通过对用户界面元素的组区分优先级来实现。可视提示可包括有色的高亮显示，例如围绕用户界面元素的有色框线。

在另一个总的方面，用于消除支持语音的界面中的歧义的代表性枚举标签包括唯一标识符、对应的用户界面元素和图形表示。图形表示显示于支持语音的界面中，以显示其与对应的用户界面元素的关系。唯一标识符可用来消除支持语音的界面中的歧义。唯一标识符可例如是字母、数字或字符。

在另一个总的方面，一种用于消除支持语音的用户界面中的目标歧义的方法，包括：接收有歧义地标识目标用户界面元素的语音输入；显示对应于每个潜在目标用户界面元素的代表性枚举标签，其中每个标签包括唯一标识符；以及接收包括代表性枚举标签的唯一标识符的语音输入，以消除目标歧义。

在另一个总的方面，一种支持语音的用户界面包括用户界面元素、数据存储装置以及语音识别引擎。数据存储装置记录用户界面元素与语法之间的关联。语音识别引擎接收标识目标用户界面元素的语音输入，查询数据存储装置以确定与目标用户界面元素相关联的语法，并且使用所确定的语法处理数据输入。数据存储装置可被单个用户或多个用户访问。单个用户可以在可被多个用户访问的数据存储装置中关联数据输入字段与语法。可视提示可用来标识与目标用户界面元素关联的数据类型或语法。

在另一个总的方面，一种支持语音的用户界面包括用户界面元素以及接收标识目标用户界面元素的语音输入的语音识别引擎。该支持语音的用户界面使用隐式范围划定来消除关联所接收的语音输入与目标用户界面元素中的歧义。用户界面元素可划分成一个或多个区分优先级的组，以提供隐式范围划定。

一个或多个实施例的详细信息在附图和下面描述中加以阐述。其他特性和优点从该描述和附图中、以及从权利要求中将会变得清楚。

附图说明

图1是使用语音扩展模块的支持语音的计算机应用的方框图。

图2是具有预处理器、语音识别引擎和输入处理程序的语音扩展模块的方框图。

图3是示出在语音扩展模块中处理用户界面信息的方法的流程图。

图4是示出休假请求应用的屏幕图。

图5是示出休假请求应用的屏幕图，其中图解了列表选择。

图6是示出使用隐式范围划定(implicit scoping)来消除语音界面中的目标歧义的流程图。

图7-18是使用隐式范围划定、可视提示和代表性枚举标签来消除目标歧义的支持语音的电子计时系统的屏幕图。

具体实施方式

软件应用或电子设备的用户界面可通过支持语音的用户交互和数据输入来改善。支持语音的软件应用可以向用户提供改善的可用性和效率。另外，支持语音的软件应用可以向身体残疾用户提供改善的可访问性。

下述实施例说明了使电子计时系统支持语音的技术。在该实施例中，电子计时系统是在基于web的客户端-服务器架构上构建的。本领域的技术人员应当理解，所述技术不限于此实施例，并且可用于任何用户界面中。

参照图1，支持语音的计算机界面100包括语音扩展模块102和浏览器104。浏览器例如使用以下设备实现用户输入和输出功能性：视频显示监视器106；鼠标107；键盘108；以及扬声器109。语音扩展模块102可从麦克风110接收输入。浏览器104和/或语音扩展模块102可通过网络120(例如，因特网)从应用服务器130接收用户界面数据。

在图1所示的实施例中，应用服务器130使用超文本标记语言(HTML)代码提供支持web的用户界面，以指令浏览器104显示信息并且接受用户输入和命令。浏览器104可使用传统web浏览器如Microsoft Internet Explorer(微软因特网浏览器)来实现。应用服务器130发送描述各种文本、图像和用户界面图形部件(widget)的HTML代码以向用户显示。然而，HTML代码首先由语音扩展模块102接收和处理，以使该应用支持语音。

语音扩展模块102可被实现为Microsoft Internet Explorer Browser HelperObject(Microsoft Internet Explorer浏览器帮助者对象(BHO))。BHO用作对浏览器的功能性扩展，并且用来在采取操作之前截取页面和浏览器事件。这允许语音扩展模块102定义和控制浏览器104环境的行为以及处理事件(例如，鼠标点击，按键)的方式。另外，通过将语音识别引擎嵌入到BHO中，BHO允许语音扩展模块102响应外部事件，例如说出一个词时。在此实施例中，任何语音识别引擎(例如，SAPI兼容语音识别引擎)可用来产生语音识别事件。

如图2所示，语音扩展模块102的一个实例包括浏览器104(带有预处理器200)，其从应用服务器130接收例如作为HTML或JavaScript代码的用户界面信息，并且在将页面显示给用户之前对用户界面信息进行预处理，以使得能够进行语音交互。预处理器200包括解析器202和翻译器204。解析器202使用任何传统解析技术，如有限状态机，来识别代码内的用户界面元素。

例如，HTML网页形式的用户界面信息可包括文本字段、密码字段、复选框、单选按钮(radio button)和控制按钮(例如，提交和重置)形式的各种图形部件。解析器202接收用户界面信息，并且将其传给翻译器204，以向语音识别引擎210和输入处理程序220适当地登记相关词汇表。

翻译器204确定所识别的用户界面元素中的哪些是“可说(speakable)”的。向语音识别引擎210登记可说项的词汇表，使得当说出这些项时产生适当的事件。在提供给用户之前，可以对在浏览器104内运行的HTML或JavaScript进行附加的改变，以便使得页面更加“语音友好”。例如，翻译器204可以向元素增加标识符。一些元素可包括表示该元素的适当语音标识符的XML数据或者其他元数据。该元数据可以确定可增加到该元素以使其更加语音友好的适当标识符。另外，一些标识符可被缩写。对于包含缩写标识符的元素，翻译器204可以向语音识别引擎210登记缩写标识符，该标识符的长形式或者两者。最后，翻译器204可以试图缩短长的标识符。一种缩短长标识符的方法是仅登记长标识符的一部分。例如，如果标识符为“提交修改以作处理”，则可将其缩写成“提交”或者“提交修改”。

一旦所登记的词汇表项被说出且被识别，就将该短语发送到输入处理程序220，输入处理程序220采取适当的步骤来完成操作，保存任何必要状态，并且执行由用于总体语音界面策略中的语音用户界面行为或者可视调焦(visual focusing)定义的附加任务。输入处理程序220帮助确保采取相同的操作，而与源是鼠标或键盘还是等效的语音命令无关。

参照图3，语音扩展模块102通过首先接收描述可由用户操纵的界面组件的用户界面信息3010来使用户界面支持语音(步骤3015)。在此实施例中，用户界面信息3010表示为可包括各种可由用户控制的用户界面元素或图形部件的HTML文档。用户界面信息3010还可包括传统地由web浏览器使用的JavaScript代码或任何其他控制机制。

用户界面信息3010由语音扩展模块102接收，然后由预处理器200处理。预处理器200使用解析器202解析所接收的用户界面信息3010(步骤3020)。对于由解析器202识别出的每个用户界面元素，翻译器204处理该元素以使其支持语音。只要还有剩余用户界面元素(步骤3030)，则系统处理下一个元素(步骤3050)。一旦处理了每个用户界面元素，就由浏览器104显示用户界面。翻译器204通过向语音识别引擎210登记适当词汇表并且向输入处理程序220登记用户界面元素来处理每个用户界面元素。

例如，下面用户界面元素可由语音扩展模块102接收：“<INPUTTYPE(输入类型)＝′button(按钮)′NAME(名称)＝′but_xyz′VALUE(值)＝′savechanges(保存修改)′>”。该用户界面元素显示允许用户启动保存修改的按钮。翻译器204通过向语音识别引擎210登记“保存修改”来处理该元素。这还将作为按钮字段向输入处理程序220进行登记，使得用户可通过说“按钮”来访问该字段。输入处理程序在接收按钮请求时识别所有活动按钮，从而允许用户通过号码选择期望按钮。这提供另一种访问被命名的按钮元素的技术；然而，该技术可能是访问未命名的按钮元素的唯一方法。

数据输入任务包括很多需要用户控制的元素(或图形部件)。数据输入通常使用鼠标和/或键盘来处理，并且预期目标一般易于通过定点设备的物理交互组件来确定。在语音界面中，必须典型地使用其他调焦(focusing)和选择技术来确定潜在目标。

应用内的很多数据图形部件如滚动条、按钮和文本字段没有名称(也称作未命名元素，例如因为它们与特定未命名表格或行相关联)，具有歧义名称(例如，因为存在多于一个标为“ID号”的字段)，或者看上去具有可视显示中的名称，但是不容易通过代码与那些名称相关联，因为文本出现在与图形部件完全不同的模块中。

一种技术是与用于对数据输入图形部件进行寻址的一般性方法结合使用隐式导航。隐式导航在下面出版物中有描述：James，F.和Roelands，J.，Voiceover Workplace(VoWP)：Voice Navigation in a Complex Business GUI(综合GUI中的语音导航).ASSETS 2002，(Edinburgh，Scotland，2002)。简而言之，隐式导航对屏幕区域区分优先级以最小化歧义的可能性。用户界面屏幕可以划分成若干区分优先级的区域。用户交互和屏幕更新修改优先级区分以使用户界面更加语音友好。

对界面元素的一般性访问通过采用类型对元素进行寻址来提供。例如，为了到达给定应用中的文本字段，用户简单地说“文本字段”。如果当前焦点区域中存在多个文本字段，则这被视作任何其他歧义；覆盖的标签被提供以允许用户选择预期目标。虽然该方案使大多数元素选择变成两步过程，但是它确实允许用户高效地导航至屏幕上的任何元素。如果用户不希望选择这些覆盖元素之一，则用户可以通过说“取消”来去除图标。可通过名称访问的项目(例如按钮)也可使用该一般性方法来访问，以确保界面一致性并且在识别性能恶化的情况下考虑替代方案。

一旦项目被选择，如果它是图标、按钮、单选按钮或复选框，则界面表现得就像是该项目通过鼠标被点击一样。对于组合框，列表中的选项被显示，使得用户可进行选择。文本字段以有色边框被高亮显示，并且活动光标置于其中，以通知用户进入了该字段的数据输入模式。

处理未命名元素的另一解决方案是当第一次向用户提供页面时向所有元素添加唯一名称，而不是要求用户首先说元素类型以使带号码的覆盖标签出现。

与语音界面相关联的一个问题是从命令中区分数据输入。例如，当用户选择多行文本字段时，可以假定用户希望进入数据输入模式并且输入某文本。然而，需要一种确定该输入何时完成并且用户准备恢复导航的技术。这可以采用很多方式来实现。

例如，一个选择是使用显式命令来结束数据输入。这需要使用代码字或短语，例如“结束数据输入”。对于用户将想要拥有完全编辑控制的多行文本字段，这可能是最佳的解决方案，因为这种性质的大量数据输入任务然后将被视作必须人工退出的单独模式。

这一思想的变种是让系统监听多个关键词，如界面中其他目标的名称。实现此的一种方式是采用多个并行识别器，每个识别器监听不同的关键词。然而，该技术增多了将数据输入误解释为命令并且过早地退出数据输入模式的机会。

类似地，可使用暂停或超时来结束数据输入。不幸的是，该技术经常给用户造成困难，因为数据输入的结束可能由于简单地暂停以思考接下来说什么而触发。可通过向用户提供可视提示来使得该技术更可用。

另一个选则是尽可能地分配适当的语法给字段，以消除任何时候可能的听写的需要。该技术有用于字段期待特定内容如日期的情形。然而，它需要一种方式来确定字段的期待数据类型和格式，该应用期待以该数据类型和格式提供数据。然后，它将需要潜在地从公共语法池中分配适合的语法，并且在输入数据到元素中之前还确定所要施加的适当格式化。然后，一旦选择该字段，该系统就可自动地设置界面，以期待听取特定类型的输入，并且一旦作出输入，就返回到标准控制模式。

文本字段的识别语法也可使用“粘附语法缺省”的方法由用户在运行时选择。例如，用户第一次遇到一个字段时，他可指定应使用日期语法。然后，在该字段的随后访问时(即使在不同会话期间)，当用户与同一用户界面元素交互时，系统可缺省为日期语法。在一些实施例中，以与浏览器可存储访问过的网站、用户名、密码和其他数据的大致相同的方式，与源文档独立地将粘附语法缺省作为文件保存在本地计算机上。在一个示例性实施例中，该文件可分发给其他用户。

上述粘附语法方法依赖于使用预定语法来改善语音识别。语法是要由语音识别器监听的词的规范和/或期待的词型。例如，日期语法可规定月之后为日然后为年。组合框的语法可包括在组合框中可选择的选项，以及可能的一些控制短语。通过使用语法，语音输入的准确性和效率大大提高。这是因为从十个词中识别所说的是哪一个词比在成千(或上万)个词中确定所说的是哪一个词容易得多。

粘附语法可由用户选择，并且以可被语音扩展模块或浏览器访问的方式来存储。粘附语法还可扩展至支持组、站点或给定应用集的全局缺省。例如，站点上的一个用户可访问要在该站点上经常使用的每个网页，为用户界面元素选择适当的语法。所选语法然后可作为将来用户的粘附语法缺省。

界面元素的粘附缺省语法还可根据输入到用户界面元素中的数据来选择。这可减轻用户单独适应(tailor)每个屏幕的负担。例如，如果特定应用要求某个文本字段应读取“客户名称”，则可指定该字段的特定输入语法，并且将其作为粘附缺省提供。与用来确定何时将结束输入的方法无关，可视提示可用来向用户表示他或她处于什么模式以及可能的期待语法。例如，一旦被选择，则可在文本字段的周围置上蓝边框，以向用户表示系统正在期待该字段的输入。这不仅确认特定字段的用户选择，并且还提醒用户他或她必须为该字段提供数据作为下一个操作。

不同的可视提示还可用来向用户提供数据字段是特定已知类型的附加表示。例如，当用户与文本框交互时，当遇到日期字段时，数据字段周围的边框颜色可为蓝色，而当进入自由文本听写字段时，其可为绿色。当使用粘附缺省时，这可通过表示期待的数据类型或格式来帮助用户。附加命令可能可用于用户，以改变给定字段的粘附缺省。然后可使用对话框或其他交互方法来向用户通知什么数据类型可用并且允许它们选择最适合的。

图4示出使用上述技术的休假请求应用的示例性商业应用用户界面。屏幕400上的按钮(帮助(help)按钮402、假期结余(vacation balance)按钮404、替换(replace)按钮406和发送(send)按钮408)可通过说它们的名称来激活。理想地，其余用户界面元素也可通过说它们的名称而可被访问；然而，关联适当文本与界面元素经常是困难的或者是不可能的。例如，其余字段(缺勤类型(absence type)字段410、缺勤起始(absent from)字段412、缺勤结束(absent to)字段414以及备注(note)字段416)可包括与位于这些字段附近的文本不同的嵌入标签或名称。备注字段416例如可使用下面HTML代码来定义：“<TEXTAREA NAME＝′ABNOTE′ROWS＝4 COLS＝20>”。仅通过解析HTML代码来关联字段与屏幕上的标签有时是不可能的。例如，让系统关联“备注”文本与备注字段416将是困难的。在这种情况下，网页创建器可包括XML或其他元数据，从而系统可确定该字段的适当语音标识符。

缺勤类型字段410使用下拉式列表(组合框)来进行数据输入。为了将焦点移到该特定项，用户说“组合框”。这一般将通过透明覆盖层对所有组合框进行编号以允许用户选择。由于在本屏幕中只有一个组合框，因此焦点自动地移至它。该列表被高亮显示，并且显示可用选项。缺省地，系统将把下一个命令解释为来自该列表的选项。

缺勤起始字段412和缺勤结束字段414基本上都是文本字段，其具有允许从另一个图形部件选择的关联信息按钮，在本例中，该另一个图形部件为日历。如果用户想要输入文本到这些字段中，则他可说“文本字段”。这将导致为所有三个文本字段：与日期相关的两个文本字段以及用于备注的文本字段显示透明覆盖层(包括可标识字符或数字)。用户选择号码来选择期望字段。此时，文本字段将在焦点中，并且用户可口述适当的日期。

备注字段416可类似地使用语音命令来激活；然而，文本区域还包括滚动条。这样，当备注字段416被激活时，滚动条语音命令可用，从而允许用户在激活的备注字段416内向上或向下滚动。

图5示出用户说“组合框”之后的屏幕400。该字段用可视提示激活，在本例中该可视提示为围绕该字段的蓝框，并且可用选项被显示给用户。然后，用户可通过朗读所显示的文本来选择一个选项。例如，用户可说“结婚日(wedding day)”或“病休日(sick day)”来选择相应选项。

然后，用户可通过说“文本字段”在缺勤起始字段412和缺勤结束字段414中输入日期。这导致三个文本字段在屏幕上被编号或者被高亮显示，从而用户然后可选择期望文本字段。例如，系统可在这三个文本字段上放置透明覆盖层，其中每个覆盖层表示一个数字。然后，用户可朗读数字来选择期望的字段。

用户可通过说“文本字段”然后是“一”来与系统交互来输入日期，以将焦点转移到“缺勤起始”字段412。然后，用户可通过说“二00一年十月四日”来指明日期。语音识别引擎210可使用由翻译器204登记的日期识别语法来识别语音输入。然后，翻译器204采用适当的日期格式来格式化所识别的数字以由该应用使用。

图6示出支持语音的系统。综合支持语音的应用有时存在消除用户操作中的歧义的困难。在与鼠标或其他定点设备的物理交互中，用户通过点击感兴趣项来直接指定其操作的焦点。在支持语音的应用中，唯一标识每个用户界面元素不总是容易的。例如，用户界面可包括多个标为“搜索”的按钮，或者多个没有简易标识符的文本字段。该歧义有时称作目标歧义，因为用户操作的目标是有歧义的并且必须被消除。

支持语音的系统使用三种技术来消除目标歧义：(1)可视提示标识当前焦点区域；(2)隐式范围划定对屏幕区域区分优先级，以最小化歧义的可能性；以及(3)代表性枚举标签允许用户显式地消除歧义。单独地或者组合地，下面详述的这些技术可减轻或消除支持语音的界面中的目标歧义。

可视提示包括用来减轻目标歧义的任何可视指示符。例如，屏幕区域或用户界面元素可被高亮显示、加上框线或者以其他可视的方式加以标识而作为优选或期待的目标。然后，目标歧义可以以有利于由可视提示指示的屏幕区域或用户界面元素的方式来消除。

隐式范围划定通过划分用户界面的多个部分并对其区别优先级来减轻目标歧义。复杂的用户界面可包括若干组件，其包括导航栏、标题栏和一个或多个应用屏幕区域。例如，门户网页可包括屏幕左侧的导航栏、顶部的标题栏、以及若干应用屏幕区域，其中每个应用屏幕区域提供用于执行不同任务的界面。各个屏幕区域可通过对每个区域区分优先级来隐式地划定范围。

屏幕区域优先级可由用户界面的开发者显式声明，或者它们可根据一些启发算法来自动选择。例如，屏幕区域可以以下面次序区分优先级：(1)应用屏幕区域从上到下、从左到右区分优先级；(2)导航栏；以及(3)标题栏。这样，导航栏与标题栏之间的目标歧义以有利于导航栏的方式来消除。类似地，导航栏与应用屏幕区域之间的歧义以有利于应用屏幕区域的方式来消除。

最后，代表性枚举标签可用来消除以其他方式不能被消除的歧义。使用该技术，支持语音的界面响应用户语音输入来识别每个可能的目标。可能的目标被枚举，并且向用户进行标识，使得用户可选择期望目标。例如，如果三个文本字段是可能目标，则这些目标可被编号为“1”、“2”和“3”。这些号码被表示在界面中，使得用户然后可选择哪一个文本字段是期望目标。

代表性枚举标签可以是置于对应用户界面元素上的半透明覆盖层。使用半透明覆盖层允许支持语音的界面标识潜在目标而显著地影响所呈现的界面，因为用户可通过半透明覆盖层观看底层界面信息。

参照图6，隐式范围划定可通过将用户界面元素划分成一个或多个例如屏幕区域的组来实现(步骤602)。每个组分配有用于消除歧义的相对优先级(步骤604)。例如，每个组可分配有从一到十的数字，其中一为最高。仅仅来自最高可能组的那些用户界面元素被使用。因此，歧义可通过忽略用户界面元素的较低优先级组来至少部分消除。

语音界面接收语音输入(步骤606)，并且确定具有匹配语音输入的目标的最高优先级组(步骤608)。如果在发生匹配的最高优先级组中歧义仍然存在(步骤610)，则系统标记可能的目标用户界面元素(步骤612)。例如，如果语音输入是“文本字段”并且在最高优先级组中存在多个文本字段，则歧义仍然可能存在。系统接收附加的语音输入(步骤614)。如果语音输入匹配所标记的可能目标用户界面元素之一(步骤616)，则目标被识别(步骤618)，并且该过程结束。

如果附加的语音输入不匹配所标记的目标用户界面元素之一(步骤616)，则系统检查输入是否匹配另一个用户界面元素(步骤608)。如果输入没有歧义(即唯一标识发生匹配的最高优先级组中的用户界面元素)，则目标用户界面元素被识别(步骤618)，并且该过程结束。

图7-17描述使用可视提示、隐式范围划定和代表性枚举标签来消除目标歧义的支持语音的电子计时(timekeeping)应用。在图7中，web门户允许用户选择各种应用。应用窗口700包括两个屏幕区域：列出各个应用的菜单区域702和显示区域704。菜单702细分成若干区域，其包括允许用户根据若干所示角色选择任务的“角色(Roles)”。该应用开始于设置为“角色”菜单的焦点区域。焦点区域可由可视提示例如围绕焦点区域的有色线条来表示。用户可通过说“CATW”来选择开始电子计时应用(命名为“CATW”)。该命令使用如图8所示的显示区域704来启动应用。

参照图8，电子计时应用包括显示在显示区域704中的三个总组件。这些组件包括以下项：用户标识组件802、时间段组件804和时间输入组件806。用户标识组件802列出用户名称和成员号码。时间段组件804列出所显示的时间段并且允许用户切换至其他时间段。时间输入组件806允许用户修改和/或输入由时间段组件804表示的时间段内的时间。可视提示移至显示区域704，表示该区域现在具有用于歧义消除和命令解释的优先级。

时间输入组件806包括如同电子表格的东西，其中的列表示时间段中的各天，而行表示时间输入的各种类别，例如年假、出勤小时、出差、补偿弹性时间、补偿加班、教育/培训、家庭医疗假、节假日、临时值班，长期伤残，会议、个人时间、解雇(severance)金或者短期伤残。对应于每行/列组合的各个文本字段可用于数据输入；然而，没有明显的机制可用于让用户容易地标识期望的目标文本字段。

参照图9，期望在时间输入组件806的最左上文本字段中输入文本的用户可说“文本字段”。系统可使用例如优选级区分方案来将左手侧框与右手侧框架分开，并且仅对包含潜在目标文本字段的右手侧框施加代表性枚举标签。由于系统不能单独使用优先级区分来消除歧义，因此给定优先级的该框内的每个可能文本字段由代表性枚举标签902表示(指向21个所显示的代表性枚举标签之一)。标签“1”置于时间段组件804的文本字段中。其余标签“2-21”置于时间输入组件806的各文本字段中。用户可通过说出其对应号码来识别目标文本字段。

参照图10，用户通过说“二”来选择时间输入组件806中的最左上文本输入字段1002。在接收到用户输入之后，代表性枚举标签消失，并且系统通过进入数据输入模式来准备文本字段1002中的数据输入。蓝色框线用作可视提示，来向用户表示系统处于数据输入模式，并且将进入带蓝色框线的文本字段中的任何数据输入。

参照图11，在数据输入模式中，系统可使用所分配的语法来改善语音识别性能。电子计时应用期待用户在时间输入组件806的每个文本字段中输入工作小时数，从而可向识别数字的这些文本字段分配语法。然后，用户可通过说出期望数字来口述文本字段的内容。在本例中，用户说“八”，并且系统将数字“八”输入到文本字段1002中，并且退出数据输入模式。

参照图12，可使用类似的技术来与用来选择时间输入组件806中的时间类别的组合框交互。希望将类别从“出勤时间(Attendance Hours)”改至“节假日(Holiday)”的用户可以通过说“组合框”来做此操作。因为存在四个可能的组合框可用于数据输入，所以该请求是有歧义的，从而系统显示代表性枚举标签902以允许用户消除歧义。组合框被标为一至四，以允许用户识别期望的目标。

参照图13，用户通过说出相应代表性枚举标签902的号码来选择组合框。在本例中，用户说“二”，这些标签被去除，并且打开第二个组合框以作数据输入，显示可通过组合框选择的选项列表。然后，用户可通过朗读期望选项来选择期望的选项。

参照图14，用户通过说“节假日”来进行选择，并且系统相应地更新组合框值。然后，组合框关闭，并且焦点返回到显示区域704。然后，用户可使用上面参照图9-11所述的技术输入与新选择的时间类别相对应的时间。

参照图15，用户说“文本字段”以在时间输入组件806中输入时间。因为目标是有歧义的，因此显示代表性枚举标签902以允许用户显式消除任何歧义。在本例中，用户希望在第二天的节假日类别中输入时间。

参照图16，用户说“八”来标识期望文本字段1602以作数据输入。代表性枚举标签902被去除，并且焦点移至所选文本字段1602。系统进入数据输入模式，并且显示可视提示，从而用户知道数据输入可以开始。

参照图17，用户然后说“八”以在时间段的第二天上输入节假日时间的八个小时。在输入数据之后，系统退出数据输入模式，并且焦点返回到显示区域704。

参照图18，用户可通过朗读其打印的标签来选择按钮。例如，用户可说“显示所有详细信息(Show All Details)”来激活显示区域704底部的对应按钮1702。然后，系统显示如图18所示的详细信息。用户可通过说“隐藏所有详细信息(Hide All Details)”来返回到先前屏幕。

图7-18示出使用可视提示、隐式范围划定和代表性枚举图标来改善与系统的用户交互的电子计时系统的语音界面。相同技术可用来提供任何图形用户界面中的语音输入和控制。

多个实施例已被描述。但是，应当理解的是，在不脱离本发明的精神和范围的情况下可进行各种修改。因此，其他实施例也处于所附权利要求的范围内。

Claims

1.一种支持语音的用户界面，包括：

用户界面元素；以及

语音识别引擎，接收标识目标用户界面元素的语音输入，

其中支持语音的用户界面使用代表性枚举标签来消除将所接收的语音输入与目标用户界面元素相关联中的歧义。

2.如权利要求1所述的支持语音的用户界面，其中用户界面元素包括由以下项组成的列表中的一个或多个：

组合框；

文本字段；

列表框；

按钮；

文本区域；

复选框；以及

单选按钮。

3.如权利要求1所述的支持语音的用户界面，其中语音识别引擎接收标识用户界面元素的类别的语音输入。

4.如权利要求1所述的支持语音的用户界面，其中代表性枚举标签是半透明的。

5.如权利要求1所述的支持语音的用户界面，其中代表性枚举标签是不透明的。

6.如权利要求1所述的支持语音的用户界面，其中支持语音的用户界面使用隐式范围划定来消除所接收的语音输入中的歧义。

7.如权利要求6所述的支持语音的用户界面，其中用户界面元素被划分成一个或多个组，并且隐式范围划定包括对所述一个或多个组区分优先级。

8.如权利要求7所述的支持语音的用户界面，其中所述一个或多个组中的每一个代表屏幕区域。

9.如权利要求1所述的支持语音的用户界面，其中支持语音的用户界面使用可视提示来消除所接收的语音输入中的歧义。

10.如权利要求8所述的支持语音的用户界面，其中可视提示包括有色的高亮显示。

11.如权利要求10所述的支持语音的用户界面，其中有色的高亮显示围绕用户界面元素。

12.一种用于消除支持语音的界面中的歧义的代表性枚举标签，所述标签包括：

唯一标识符；

对应的用户界面元素；以及

图形表示，显示于支持语音的界面中，以表示其与对应的用户界面元素的关系，

其中唯一标识符可用来消除支持语音的界面中的歧义。

13.如权利要求12所述的代表性枚举标签，其中唯一标识符是数字。

14.如权利要求12所述的代表性枚举标签，其中唯一标识符是字母。

15.如权利要求12所述的代表性枚举标签，其中唯一标识符是图标。

16.如权利要求12所述的代表性枚举标签，其中唯一标识符是字符。

17.如权利要求12所述的代表性枚举标签，其中对应的用户界面元素包括由以下项组成的组中的一个或多个：

组合框；

文本字段；

列表框；

按钮；

文本区域；

复选框；以及

单选按钮。

18.如权利要求12所述的代表性枚举标签，其中图形表示是半透明的。

19.如权利要求12所述的代表性枚举标签，其中图形表示是不透明的。

20.如权利要求12所述的代表性枚举标签，其中图形表示覆盖在对应的用户界面元素上。

21.一种用于消除支持语音的用户界面中的目标歧义的方法，包括：

接收有歧义地标识目标用户界面元素的语音输入；

显示对应于每个潜在目标用户界面元素的代表性枚举标签，其中每个代表性枚举标签包括唯一标识符；以及

接收包括代表性枚举标签之一的唯一标识符的语音输入，以消除目标歧义。

22.如权利要求21所述的方法，其中接收有歧义地标识目标用户界面元素的语音输入包括接收标识用户界面元素的类别的语音输入。

23.如权利要求22所述的方法，其中用户界面元素的类别包括由以下项组成的组中的一个或多个：

组合框；

文本字段；

列表框；

按钮；

文本区域；

复选框；以及

单选按钮。

24.如权利要求21所述的方法，其中显示对应于每个潜在目标用户界面元素的代表性枚举标签包括将图形表示覆盖在每个潜在目标用户界面元素上。

25.如权利要求24所述的方法，其中图形表示是半透明的。

26.如权利要求24所述的方法，其中图形表示是不透明的。

27.如权利要求21所述的方法，其中代表性枚举标签中的每一个包括：

唯一标识符；

对应的用户界面元素；以及

图形表示，显示于支持语音的界面中，以表示其与对应的用户界面元素的关系。

28.如权利要求27所述的方法，其中唯一标识符是数字。

29.如权利要求27所述的方法，其中唯一标识符是字母。

30.如权利要求27所述的方法，其中图形表示是半透明的。

31.如权利要求27所述的方法，其中图形表示是不透明的。

32.一种支持语音的用户界面，包括：

用户界面元素；

数据存储装置，包括用户界面元素与语法之间的关联；以及

语音识别引擎，接收标识目标用户界面元素的语音输入，查询数据存储装置以确定与目标用户界面元素相关联的语法，并且使用所确定的语法处理数据输入。

33.如权利要求32所述的支持语音的用户界面，其中数据存储装置可被单个用户访问。

34.如权利要求32所述的支持语音的用户界面，其中数据存储装置可被多个用户访问。

35.如权利要求34所述的支持语音的用户界面，其中单个用户可以在由多个用户访问的数据存储装置中关联数据输入字段与语法。

36.如权利要求32所述的支持语音的用户界面，其中支持语音的用户界面显示具有目标用户界面元素的可视提示。

37.如权利要求36所述的支持语音的用户界面，其中可视提示标识与目标用户界面元素关联的数据类型。

38.如权利要求36所述的支持语音的用户界面，其中可视提示标识与目标用户界面元素关联的语法。

39.一种支持语音的用户界面，包括：

用户界面元素；以及

语音识别引擎，接收标识目标用户界面元素的语音输入，

其中支持语音的用户界面使用隐式范围划定来消除关联所接收的语音输入与目标用户界面元素中的歧义。

40.如权利要求39所述的支持语音的用户界面，其中用户界面元素被划分成一个或多个组，并且隐式范围划定包括对所述一个或多个组区分优先级。

41.如权利要求40所述的支持语音的用户界面，其中所述一个或多个组中的每一个代表屏幕区域。