CN100409173C

CN100409173C - 启动声控用户界面的方法、声音扩展模块和系统

Info

Publication number: CN100409173C
Application number: CNB038070049A
Authority: CN
Inventors: 杰夫·罗兰斯; 理查德·J·斯旺; 拉马·古拉姆; 弗兰基·詹姆斯
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2002-02-15
Filing date: 2003-02-14
Publication date: 2008-08-06
Anticipated expiration: 2023-02-14
Also published as: WO2003071385A3; DE60321145D1; US7246063B2; ATE396446T1; WO2003071385A2; EP1485773B1; CN1643491A; AU2003215239A1; AU2003215239A8; EP1485773A2; EP1485773A4; US20030156130A1

Abstract

提供了一种利用声音扩展模块来声音启动用户界面的方法和系统。声音扩展模块包括预处理器、语音识别引擎和输入句柄。声音扩展模块接收用户界面信息，比如超文本标签语言(hypertext markup language，HTML，超文本标签语言)文件，并且声音启动该文件以使用户通过使用声音命令同任意界面单元交互。

Description

启动声控用户界面的方法、声音扩展模块和系统

技术领域

本发明涉及声控用户界面。

背景技术

当前许多商用程序采用综合(complex)图形用户界面(graphical userinterfaces，GUIs)的形式。综合GUIs允许用户在同时执行许多任务的同时保持它们其余工作的上下文(context)；但是，这些系统通常是需要鼠标和键盘，这可能会对很多人，包括身体上有缺陷的人，引起使用上的问题或甚至造成无法使用。如果采取措施去处理固有的使用性问题，声音界面能够对身体上有缺陷的用户提供易于访问的解决办法，比如用户效率和不明确的操作。此外，声音界面能提高执行某些任务的效率。

大量的资源被花费以发展基于网络的应用程序以对复杂的商业应用程序提供可移植的，独立于平台的前端，其用到，诸如HTML和/或JavaScript等语言。

由于应用程序典型地仅是以视觉表达在头脑中而发展起来，因此很少注意到可能便于发展声音界面的细节。

在大多数的计算机或数据处理系统中，用户交互仅利用视频显示器、键盘和鼠标来提供。附加的输入和输出外围设备有时会用到，诸如打印机、绘图仪、光笔、触摸屏、条形码扫描仪；但是，绝大多数计算机交互仅利用视频显示器、键盘和鼠标。因此，基本的人机交互通过视频显示和机械的刺激来提供。相反，相当大的比例的人与人之间的交互是通过口头进行的。因此希望方便口头的人机交互以为有缺陷的用户增加访问并且提高用户界面的效率。

各种技术被发展起来以提供一些形式的口头人机交互，范围从简单的文本-语音转换声音合成应用程序到更复杂的口述和命令与控制应用程序。不同类型的口头人机交互应用程序可以被两个要素所描述：(1)视觉组件的存在或缺失；和(2)当增加声音界面时加下划线的应用程序和交互所改变的范围。

许多研究机构构建口头人机交互系统集中于第二个要素：创造新的交互风格其可能与视频显示器共同作用或取而代之。例如，不同机构已创建下列的系统：CommandTalk；ATIS；TOOT，和ELVIS。这些系统的每一个都集中于为口头人机交互提供改进的模式，从根本上改变了交互的风格。例如，CommandTalk保持了传统的GUI，同时从根本上改变了交互的风格以改善使用性。ATIS，一种空气传播的(air travel)信息系统，通过对用户的查询以可视化图表的形式呈现结果来保持传统的视觉组件；但是，ATIS修改传统的交互风格，从数据库查询界面变到自然语言查询界面。相似的，TOOT，一种列车时间表(train schedule)信息系统，试图为用户展示图表数据；但是，TOOT通过声音提供图表数据，消除了对视觉组件的需要。最后，ELVIS系统，用于通过声音访问电子信函(email)消息，已尝试了几种交互风格，其与视觉交互的差异有不同的程度。系统-主动风格利用了许多在视觉界面中含有的同样的命令名称，同时混合-主动风格的提供重大地改变了传统交互。

许多商业系统试图以含有不同程度的视觉组件来保持常规的交互风格。Windows访问工具诸如Via Voice和SUITEKeys镜像(mirror)了键盘/鼠标的交互，其程度比任意的上述对话系统的程度都要大。SUITEKeys甚至达到了直接模仿用手移动鼠标并按下各个键的交互方式。同样的，许多电话应用程序直接采用“按下或说1”的方式来交互以模仿数字按键键盘的交互方式。

巨大的资源已被用于开发商业应用程序，其需要综合GUIs以展示大量的信息，显示这些信息内复杂的交互，并且管理最大化用户性能、配置和控制的复杂度(complexity)。现有的应用程序为利用声音控制应用程序仅提供有限的支持。一些现有的系统允许口述或有限的访问命令；但是，存在着对系统和技术的需求，以在传统的和旧版本的应用程序中增大口头的人机交互的程度以为有缺陷的用户提高访问能力并提高所有用户的交互效率。

发明内容

一方面，提供了利用声音扩展模块以声音启动用户界面的方法。该方法包括接收用户界面信息，解析用户界面信息以确定用户界面单元，并且处理用户界面单元以启动声音控制。用户界面信息可能是HTML文件并可能包括JavaScript代码。用户界面数据单元可能包括，例如，文本域，选择列表，滚动条，滑块，单选钮，复选框，图标或按钮。在一些实现中，处理用户界面单元包括用语音识别引擎注册每个用户界面单元的名称和/或类型。

另一方面，提供了用于声音启动用户界面的声音扩展模块。声音扩展模块包括语音识别引擎，预处理器其接收用户界面信息并用语音识别引擎注册相应的声音命令，输入句柄接收和处理用户交互。预处理器可能包括解析器以标识用户界面单元，及翻译器以通过语音识别注册正确的词汇表和保留对用户界面单元的参考(reference)。

另一方面，用于声音启动用户界面的系统包括浏览器，其相应于用户界面信息生成用户界面，和声音扩展模块。声音扩展模块包括语音识别引擎，预处理器其接收用户界面信息并用语音识别引擎注册相应的声音命令，输入句柄其接收和处理用户交互。声音扩展模块可能实现为浏览器的一个组件。

一个或多个实现的细节将在附图和下面的描述中阐明。其它的特征和优点根据描述和附图、及权利要求将是显而易见的。

附图说明

图1是利用声音扩展模块声音启动计算机应用程序的方块图。

图2是含有预处理器、语音识别引擎、和输入句柄的声音扩展模块的方块图。

图3是展示在声音扩展模块中处理用户界面信息的方法的流程图。

图4是展示假期申请应用程序的屏幕镜头。

图5是展示说明列表选择的假期申请应用程序的屏幕镜头。

具体实施方式

在最近的几年中，许多计算机和数据处理应用程序都用基于网络的GUIs来创建。下面描述的系统允许常规的基于网络的GUIs的应用程序成为声音启动的，通过利用声音扩展模块而无需对程序进行重大修改。

参考图1，声音启动的计算机界面100包括声音扩展模块102和浏览器104。浏览器从机能上实现用户输入和输出，例如，利用下面的设备：视频显示监视器106；鼠标107；键盘108；扬声器109；和麦克风110。声音扩展模块102通过网络120(例如internet)从应用程序服务器130接收用户界面数据。

在图1所示的实现中，应用程序服务器130提供了网络启动的用户界面，其利用HTML代码构建浏览器104以显示信息和接受用户输入和命令。浏览器104可通过利用传统的网络浏览器实现，例如微软的Internet Explorer。应用程序服务器130发送描述不同的文本，图象和要显示给用户的用户界面的窗口小部件(widget)的HTML代码。但是HTML代码，首先通过声音扩展模块102接收和预处理以使应用程序变为声音启动的，正如下面参照图3所描述的那样。

声音扩展模块102可能实现为微软的Internet Explorer Browser HelperObject(BHO)。BHO作为浏览器功能的扩展并在操作之前将BHO用于拦截页面和浏览器事件。这允许声音扩展模块102来定义和控制浏览器104环境的行为及事件(例如鼠标点击，键按下)处理的方式。此外，通过在BHO中嵌入语音识别引擎，BHO允许声音扩展模块102响应外部事件，比如当一个词被说出来的时候。在此实现中，任意SAPI-服从语音识别引擎可被用于产生语音识别事件。

如图2所示，声音扩展模块102的一种实现包括预处理器200，其从应用程序服务器130接收用户界面信息，例如HTML或JavaScript代码，并且预处理用户界面信息以在页面显示给用户之前启动声音交互。预处理器200包括解析器202和翻译器204。解析器202利用任意通常的解析技术，比如有限状态机，来标识代码中的用户界面单元。

例如，按HTML网页形式的用户界面信息可能包括各种窗口小部件，其形式有文本域，密码域，复选框，单选钮，和控制按钮(比如标识和重设)。解析器202接收用户界面信息并将其传递到翻译器204，从利用语音识别引擎210和输入句柄220正确地注册相关的词汇。

翻译器204确定哪些所标识的用户界面单元是“可以交谈的”。可以交谈的项目(item)用语音识别引擎210注册以使当这些项目被说出时引发适当的事件。为使页面更加“声音友好”，对在浏览器104内运行的HTML或JavaScript在将其呈现给用户之前需要附加额外的改变。例如，翻译器204可能将标识符附加给单元。一些单元可能包括XML数据或为单元指示适当的声音标识符的其它元数据。这些元数据可以确定适当的标识符，其能够被附加给单元以使其更加声音友好。此外，一些标识符可能被简化。对于含有简化的标识符的单元，翻译器204可以用语音识别引擎210注册简化的标识符，标识符的长形式，或同时注册这两种形式。最后，翻译器204可能试图缩短长的标识符。缩短长的标识符的一种途径是只注册长的标识符的某些部分。例如，如果标识符是“Submit Changes for Processing”，它能缩短为“Submit”或“Submit Changes”。

一旦注册的词汇条目被说出和识别，该短语传送到输入句柄220，其采取适当的步骤完成此操作，保存任意所需的状态，并履行由声音用户界面的行为或整个声音界面策略中使用的视觉聚焦所定义的额外任务。输入句柄220有助于保证同一操作被执行，而不管输入源是鼠标或键盘，或等价的声音命令。

参照图3，声音扩展模块102通过首先接收描述可由用户操纵的界面组件的用户界面信息3010(步骤3015)使得用户界面成为声音启动的。在此实现中，用户界面信息3010被表示为HTML文件，其可能包含被用户控制的不同用户界面单元或窗口小部件。用户界面信息3010也可能包含JavaScript代码或通常被网络浏览器使用的任意其它的传统的控制机制。

用户界面信息3010被声音扩展模块102所接收，然后被预处理器200处理。预处理器200利用解析器202解析所收到的用户界面信息3010(步骤3020)。对于每个被解析器202所标识的用户界面单元，翻译器204处理该单元以使其声音启动。只要有用户界面单元剩余(步骤3030)，系统就处理下一个单元(步骤3050)。一旦每个用户界面单元被处理过，用户界面被浏览器104所显示。翻译器204通过用语音识别引擎210注册适当的词汇和通过用输入句柄220注册用户界面单元来处理每个用户界面单元。

例如，下面的用户界面单元可能被声音扩展模块102接收到：“<INPUTTYPE＝’button’NAME＝’but_xyz’VALUE＝’save changes’>”。此用户界面单元显示用于允许用户开始(initiate)保存改变的按钮。翻译器204通过用语音识别引擎210注册“SAVE CHANGES”处理该单元。它也可能与输入句柄220一同被注册为按钮域以使用户通过说“BUTTON”而能够访问此域。输入句柄，通过接收按钮的请求，标识所有激活的按钮，允许用户通过数字选择所需的按钮。这允许采用另外的技术访问命名的按钮单元；但是，此技术可能是访问未命名按钮单元的唯一途径。

数据输入任务需要许多需要用户控制的单元(或窗口小部件)合作。数据输入通常使用鼠标和/或键盘处理，并且通过定点设备的物理交互组件一般易于确定预期的目标。在声音界面中，其它的聚焦和选择技术必须典型地用于确定潜在目标。

许多应用程序中的窗口小部件，诸如滚动条，按钮，及文本域或者没有名字(例如，由于它们关联与特定的未命名的表或行)，或者具有不明确的名字(例如，由于存在多个域标为“ID number(身份证号)”)，或者在视频显示中看来有名字，但是不容易通过代码关联其名字，其原因为文本看起来处于完全不同于窗口小部件的模块中。

一项技术是使用隐式导航协同通用的方法来处理数据输入窗口小部件。隐式导航在下列的公开文献(publication)中加以描述：James，F.和Roelands，J.，Voice over Workplace(VoWP)：Voice Navigation in a Complex Business GUI。ASSETS 2002，(Edinburgh，Scotland，2002)。简要的说，隐式导航是区分屏幕区域的优先次序以最小化潜在的不明确性(ambiguity)。用户界面屏幕可能被划分为几块区分了优先次序的区域。用户交互和屏幕更新修改优先次序以使用户界面更加声音友好。

对界面单元的通用访问依类型通过对单元寻址来提供。例如，为到达所给应用程序的文本域，用户简单的说出“文本域”。如果在当前聚焦区域有多于一处的文本域，则看作任意其它不确定性；覆盖的标签被呈现以允许用户选择期望的目标。尽管该方法使得多数单元选择进入两-步骤过程，但它确实允许用户有效地导航到屏幕上的任意单元。能够通过名称访问到的项目(例如按钮)也能用这种通用的方法访问到，以确保界面的一致性和在识别性能降级时顾及替换方法。

一旦一个项目被选定，如果它是一个图标、按钮、单选钮或复选框，界面就如同该项目被用鼠标点击一样表现。对于组合框，列表中的选项被显示出来以使得用户能够做出选择。文本域用有色的边框突出显示并且激活的光标置入其间，以这种信号表示用户进入到该区域的口述模式。

另外一种解决未命名单元的问题的替代方法是当页面首次呈现给用户时，对所有的单元增加独特的名称，而无需用户首先说出单元类型从而导致编号的被覆盖标签产生。

与声音界面相关的一个问题是从命令中区分数据输入。例如，当用户选择多行文本域，其可假定为用户希望进入口述模式并输入一些文本。但是，需要确定何时该输入完成和何时用户准备重新开始导航的技术。这可以从多种途径来完成。

例如，一种选择是利用明确的命令来结束数据输入。这需要使用密码词或短语，比如，“end dictation(结束口述).”对于用户希望完整的编辑控制的多行文本域，这可能是最好的解决办法，其原因为这种类型的大的口述任务将被作为需要手动退出的单独的模式对待。

这种思想的一个变体是使系统倾听多个关键词，例如界面中的其它目标的名称。完成此任务的一种途径是使用多个并行识别器，每个识别器倾听不同的关键词。但是，这项技术，增加了误解口述为命令并过早地退出口述模式的可能。

相似的，停顿或超时可以用来结束口述。不幸的是这项技术对用户常常是困难的，因为仅是思考接着说什么的停顿就可能引发口述的结束。该技术可以通过对用户提供视频暗示而使其更实用。

另外一种选择是对域分配适当的语法，以消除随时可能的口述的需求。该技术在域期望一些特定的输入的情况下有用，比如日期。但是，它需要途径去潜在地从通常语法资源集合中确定域的期望数据类型，分配合适的语法。然后，一旦域被选定，系统能够自动地设定界面来期望听到特定类型的输入。并且一旦输入完成返回标准的控制模式。对特定文本域的识别语法也在运行时刻被用户通过使用“不变默认(sticky defaults)”的方法选择。例如，第一次用户遇到一个域，他能够指定应使用的日期语法。然后，在随后对那处域的访问中(甚至是在不同的会话中)，系统能够默认使用该日期语法。

不管用于确定输入结束时刻的方法，视觉暗示可能被用于指示用户他或她所处的模式。例如，一旦其被选定以指示用户系统期望该域的输入，蓝色的边框将置于文本域的周围。这不仅标识用户对特定域的选定，而且也提醒用户他或她必需为该域提供数据以作为下一步的行动。

图4说明了利用上述技术对于请假申请应用程序的范例的商业应用程序用户界面。屏幕400上的按钮(帮助按钮402，假期剩余按钮404，替换按钮406，和发送按钮408)可以通过说出它们的名称被激活。理想的情况下，剩下的用户界面单元也能通过说它们的名称来访问；但是，将适当的文本与界面单元相关联常常是困难或不可能的。例如，剩下的域(缺席类型(absence type)域410，缺席开始时间(absence from)域412，缺席结束时间(absence to)域414，和注记域416)可能包含内嵌的标签或名称，其不同于靠近这些域的文本。例如，注记域416，可以定义为使用如下的HTML代码：“<TEXTAREANAME＝’ABNOTE’ROWS＝4COLS＝20>”。有时将域与屏幕上仅通过解析HTML代码得到的标签相关联是不可能的。例如，对系统而言将“注记(Note)”文本与注记域416相关联是困难的。在这些情形下，网页的创建者能够包括XML或其它元数据以便系统能够为域确定适当的声音标识符。

缺席类型域410为数据输入使用下拉(选择)列表。为聚焦于此特定的项目，用户说“选择列表”。这通常会对所有的选择列表用透明的覆盖来编号以允许用户选择。由于此屏幕中只有一个选择列表，焦点自动转移到它。列表被高亮显示并且可供选择的选项被显示出。系统的默认是将下个命令解释为列表中的一个选项。

缺席开始时间域412和缺席结束时间域414都是基本的自由-文本输入域其关联于允许从另外的窗口小部件中选择的信息按钮，在此情形下，是日历。如果用户想输入文本到这些域中，他说“文本输入”。这将导致对所有三处文本输入域的透明的覆盖(其包含可以标识的字符或数字)的显示：两处关于日期的文本输入域和用于注记的文本输入域。用户选择数字以选定希望的域。此时，文本输入域将成为焦点并且用户能够口述正确的日期。

注记域416也可以相似地通过使用声音命令激活；但是，文本域也包含滚动条。因此，当注记域416被激活，滚动条声音命令也可用以允许用户在用户界面单元中上下滚动。

图5说明了在用户说“选择列表”后，屏幕400的情况。该域借助视频暗示(在此情形下，是包含该域的蓝色方框)被激活，并且将可用的选项展示给用户。然后用户可以通过读显示的文本选择选项。例如。用户可以说出“结婚日”或“生病日”以选择相应的选项。

用户然后可能通过说“文本域”在缺席开始时间域412和缺席结束时间域414中输入数据。这将导致三个文本输入域在屏幕上被高亮显示以便用户可选择希望的文本输入域。例如，系统可以在三个文本输入域放置透明的覆盖，每个覆盖指示一个数字。然后用户可以读数字以选择希望的域。

用户可以与系统交互，以便通过说“文本盒(box)”和“1”将焦点转移到“缺席开始时间”域412来输入日期。然后，用户可以通过说“10 04 2001”指定日期。语音识别引擎210可以使用被翻译器204注册的日期识别语法来识别声音输入。然后翻译器204为了程序的使用，将识别的数字安排为正确的日期形式。

许多的实现已被描述。但是，应当理解，在不脱离本发明的精神和范围情况下，可以对本发明做出各种修改。因此，其它的实现也在由下列权利要求的范围内。

Claims

1. 一种使用声音扩展模块来声音启动用户界面的方法，包括

接收用户界面信息；

解析用户界面信息以确定用户界面单元，其中将该用户界面单元配置为接受用户输入或控制；

处理用户界面单元以启动声音控制，其中，用语音识别引擎来注册所述用户界面单元；和

响应于初始声音控制来显示视觉反馈，其中该视觉反馈在位置上与所述用户界面单元中的被表示的用户界面单元相联系并且对其补充，并且其中该视觉反馈影响随后的响应于该被表示的用户界面单元的声音控制。

2. 如权利要求1中的方法，其中的用户界面信息是超文本标签语言文件。

3. 如权利要求2中的方法，其中的超文本标签语言文件包含启动动态内容的代码。

4. 如权利要求1中的方法，其中的用户界面单元包括下面组中的一个或多个：

文本域；

选择列表；

滚动条；

滑块；

单选钮；

复选框；

图标；和

按钮。

5. 如权利要求1中的方法，其中用语音识别引擎注册用户界面单元包括注册用户界面单元的名称。

6. 如权利要求1中的方法，其中用语音识别引擎注册用户界面单元包括注册用户界面单元的类型。

7. 如权利要求1中的方法，进一步包括在显示视觉反馈之后接收相应于用户界面单元的输入。

8. 如权利要求7中的方法，其中用户输入是被语音识别引擎识别的声音输入。

9. 如权利要求7中的方法，其中输入包括从一个或多个下述设备中得到数据：

键盘；

鼠标；和

麦克风。

10. 如权利要求1所述的方法，其中显示视觉反馈还包括基于与声音控制的一致，视觉上高亮至少一个用户界面单元。

11. 如权利要求10所述的方法，其中所述视觉上高亮至少一个用户界面单元还包括通过彩色边框来视觉上高亮所述至少一个用户界面单元。

12. 如权利要求10所述的方法，其中所述视觉上高亮至少一个用户界面单元还包括以被覆盖标签来视觉上高亮所述至少一个用户界面单元。

13. 如权利要求1所述的方法，其中显示视觉反馈包括改变用户界面信息以便显示所述视觉反馈。

14. 如权利要求1所述的方法，其中处理用户界面单元还包括使得用户指定与至少一个所述用户界面单元相联系的语法。

15. 一种用于声音启动用户界面的声音扩展模块包括：

语音识别引擎；

预处理器，其接收用户界面信息，用语音识别引擎注册相应的声音命令并且启动视觉反馈；和

输入句柄，其被配置用于接收初始声音命令并且与预处理器通信，以便响应于初始声音命令来显示视觉反馈，其中该视觉反馈在位置上与所述用户界面信息的用户界面单元相联系并且对其补充，将该用户界面单元配置为接受用户输入或控制，并且其中显示该视觉反馈以便影响指向该用户界面单元的随后的声音命令。

16. 如权利要求15的声音扩展模块，其中预处理器包括：

解析器，标识所述用户界面单元；和

翻译器，声音启动用户界面单元。

17. 如权利要求16的声音扩展模块，其中用户界面单元包括下面组中的一个或多个：

文本域；

选择列表；

滚动条；

滑块；

单选钮；

复选框；

图标；和

按钮。

18. 如权利要求15所述的声音扩展模块，其中通过基于与声音控制的一致来启动用户界面单元使之视觉上高亮，预处理器启动视觉反馈。

19. 如权利要求15所述的声音扩展模块，其中预处理器改变用户界面信息以便启动所述视觉反馈。

20. 如权利要求15所述的声音扩展模块，其中输入句柄使得用户指定与所述用户界面单元相联系的语法。

21. 一种用于声音启动用户界面的系统包括：

浏览器，其生成相应于用户界面信息的用户界面；和

声音扩展模块，关联于浏览器并可操作用于声音启动由浏览器生成的用户界面，声音扩展模块包括：

语音识别引擎；

输入句柄，其接收初始声音命令并且与预处理器通信，以便响应于初始声音命令来显示视觉反馈，其中该视觉反馈在位置上与所述用户界面信息的用户界面单元相联系并且对其补充，将该用户界面单元配置为接受用户输入或控制，并且其中显示该视觉反馈以便影响指向该用户界面单元的随后的声音输入。

22. 如权利要求21的系统，其中浏览器是Internet Explorer^TM。

23. 如权利要求21的系统，进一步包括输出设备以呈现用户界面，该输出设备包括下面组中的一个或多个：

监视器；

扬声器；和

液晶面板。

24. 如权利要求21的系统，其中用户界面信息是超文本标签语言文件。

25. 如权利要求24的系统，其中预处理器包括

解析器，标识所述用户界面单元；和

翻译器，声音启动所述用户界面单元。

26. 如权利要求25的系统，其中用户界面单元包括下面组中的一个或多个：

文本域；

选择列表；

滚动条；

滑块；

单选钮；

复选框；

图标；和

按钮。

27. 如权利要求21的系统，其中声音扩展模块是浏览器的一个组件。

28. 如权利要求21所述的系统，其中通过基于与声音控制的一致来启动用户界面单元使之视觉上高亮，预处理器启动视觉反馈。

29. 如权利要求21所述的系统，其中预处理器改变用户界面信息以便在浏览器生成相应于用户界面信息的用户界面之前启动所述视觉反馈。

30. 如权利要求21所述的系统，其中输入句柄使得用户指定与所述用户界面单元相联系的语法。