CN100530085C

CN100530085C - 实现虚拟语音一键通功能的方法和装置

Info

Publication number: CN100530085C
Application number: CNB2006100659885A
Authority: CN
Inventors: W·黑内尔; B·D·曼达利亚
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2005-04-27
Filing date: 2006-03-29
Publication date: 2009-08-19
Anticipated expiration: 2026-03-29
Also published as: US20060247925A1; CN1855041A; TW200705253A

Abstract

一种在多模式界面中实现虚拟语音一键通功能的方法，该方法可以包括呈现具有使能声音的用户界面元素的多模式界面，以及靠近所述使能声音的用户界面元素定位视觉标识符。该视觉标识符可以表示所述使能声音的用户界面元素被配置为接收语音输入。该方法还可以包括响应于视觉标识符的选择而激活与所述使能声音的用户界面元素相关联的语法，并且修改所述视觉标识符的外观以指示出与所述使能声音的用户界面元素相关联的语法有效。

Description

实现虚拟语音一键通功能的方法和装置

技术领域

本发明涉及多模式应用和多模式用户界面。

背景技术

随着计算设备变得越来越小以及越来越普及，用户希望在不受时间或空间的限制下访问数据。传统的虚拟界面(例如由超文本标记语言(HTML)页提供的那些界面)仅提供有限的用于用户交互的工具。利用HTML页的用户交互的可用表格尽管适用于某些目的，但是对于其它目的来说可能是不方便的，尤其是对于典型地具有小浏览屏幕的个人数字助理(PDA)。

多模式应用已经在寻求克服纯视觉或音频界面的局限性。多模式应用向用户提供根据更自然地应用于给定环境的方法而进行交互的能力。术语“模式”表示向用户界面输入或从用户界面输出的机制。这种机制一般可以被分类为基于视觉的或基于音频的。因此，多模式应用代表不同形式的内容的聚集并且支持多种模式的用户输入，所述不同形式的内容包括但不限于视频、音频、文本和图像，所述多种模式的用户输入例如是语音、键盘、小键盘、鼠标、指示笔等。输出模式可以包括合成的语音、音频、纯文本、动态图像和/或图形。

多模式浏览器是可以实施或执行以适当的标记语言写成的多模式应用或文档的计算机程序。例如，多模式浏览器可以执行以可扩展HTML(XHTML)+可扩展声音标记语言(VoiceXML)(被称为X+V语言)写成的应用。当然，还可以执行其它多模式和/或使能声音的语言，例如语音应用语言标志(SALT)。通过在计算设备(不管是传统计算机还是PDA)中包括多模式浏览器或多模式浏览器组件，宿主设备可以运行多模式应用。

已经通过多模式浏览器利用的的一个特征被称为“语音一键通”(push-to-talk，PTT)。PTT指的是下述特征，籍助于该特征用户在提供口头输入时激活按钮或其它机制。PTT按钮是位于执行多模式浏览器的计算设备之上的物理机制或启动器。PTT按钮的启动使得对所接收的音频执行语音识别。通过在语音被处理时进行信令传输，PTT功能允许多模式浏览器捕获或记录完整的用户语音，同时还降低了多模式应用将无意地捕获背景噪声或被背景噪声干扰的可能性。

尽管传统的多模式浏览器提供了益处，但是仍存在缺点。一个这样的缺点是，传统的多模式浏览器不提供关于多模式表单中的哪些字段是使能声音的指示。多模式应用当被实施时可能导致数据录入页或表格被显示。所述页可以具有多个不同的数据录入字段，一些是使能声音的而一些不是。典型地，用户首先必须将光标放入字段中，以使该字段成为用于接收输入的有效字段。此时，用户可以通过文本或声音提示被告知，所选字段可以接收用户语音作为输入。然而，在实际选择该字段之前，用户不能确定该字段是否准备接收语音或文本作为输入。这可能使用户迷惑并且导致时间的浪费，特别是对于用户试图向仅能接收文本的字段说话的情形。

另一个缺点涉及PPT在传统的多模式应用和/或设备中实现的方式。典型地，单个物理按钮被用来实现PTT功能。当激活按钮时，语音识别有效。然而，没有向用户提供任何关于给定表格的多个不同字段中的哪些字段为有效并且将是用户语音的接受者的指示。这种情形是因为，同一PTT按钮被用来激活用于表格中每个字段的语音识别。如果用户在没有首先选择预期或适当的目标字段的情况下激活PTT按钮，则用户语音可被转向上次所选的字段或缺省字段。因此，用户可能无意地向错误的非想要的字段提供语音输入。这会使多模式应用不方便并且较不直观。

再一缺点涉及依赖于检测到静音时段而停止语音识别过程的PTT实现。即，用户激活PTT按钮，并且语音一直被收集和识别，直到检测到静音时段。典型地，用户在说话的同时不需要按住PTT按钮。因此，没有向用户提供得到关于多模式应用仍在收集和/或语音识别口头输入的任何指示。在某些情形下，由于用户环境中高级别的背景噪声，可能检测不到静音。在这种实例中，语音识别功能不会终止。然而，用户将不会意识到这种状况。

最后，物理PTT按钮的使用违背了视觉用户界面的通用设计理念。该设计理念要求应当可以通过键盘或点选设备来访问图形用户界面(GUI)的所有操作。这允许用户完全从键盘或点选设备输入数据，从而流线化处理数据输入。然而，传统的PTT功能要求用户激活设备上的物理按钮，不管该物理按钮是专用按钮还是键盘上的按键。用户不能仅仅依靠使用点选设备来访问GUI的所有功能。这迫使用户在使用PTT按钮和使用点选设备之间切换，以和多模式界面交互。

向用户提供更为直观且信息更丰富的下述工具将是有益的，其中所述工具用于指示使能声音的字段，并且用于指示关于多模式应用和/或界面的语音识别何时有效。

发明内容

本发明提供了涉及虚拟语音一键通(PTT)按钮和相应功能的方法与装置。本发明的一实施例可以包括一种在多模式界面中实现虚拟PTT功能的方法。该方法可以包括呈现具有使能声音的用户界面元素的多模式界面，以及靠近所述使能声音的用户界面元素定位视觉标识符。该视觉标识符可以表示所述使能声音的用户界面元素被配置为接收语音输入。该方法还可以包括响应于视觉标识符的选择而激活与所述使能声音的用户界面元素相关联的语法，并且修改所述视觉标识符的外观以指示出与所述使能声音的用户界面元素相关联的语法有效。

本发明的另一实施例可以包括一种多模式界面。该多模式界面可以包括至少一个数据输入机制和用户界面元素，所述至少一个数据输入机制被配置为接收不同于语音的模式下的用户输入，所述用户界面元素被配置为接收语音输入。视觉标识符可以与用户界面元素相关联。用户界面元素和视觉标识符可以在多模式界面内显示，使得视觉标识符靠近用户界面元素定位。视觉标识符指示出所述用户界面元素被配置为接收语音输入。

本发明的其它实施例可以包括经过编程以使得机器执行这里所述的多种步骤的机器可读存储设备。

附图说明

附图中示出了目前优选的实施例；然而，应当理解，本发明不限于所示出的确切布置和工具。

图1是图示出根据这里所公开的创造性布置的多模式界面的简要示图。

图2是图示出根据这里所公开的创造性布置的图1的多模式界面的其它方面的简要示图。

图3是图示出根据这里所公开的创造性布置实现虚拟语音一键通功能的方法的流程图。

具体实施方式

这里所公开的创造性布置提供了涉及使用多模式界面进行用户与计算机交互的方法与装置。根据本发明的一实施例，可以在多模式界面中提供视觉标识符，以向用户指示多模式界面中使能声音的那些数据录入字段。每个视觉标识符还可以充当虚拟“语音一键通”(PTT)按钮，这是因为标识符的激活可以指示出，应当激活语音处理资源来处理用户语音。视觉标识符的激活还可以指示出，任何接收到的用户语音将被提供给与所激活的视觉标识符相关联的字段。

本发明允许用户访问多模式界面的功能而不必在使用基于硬件的PTT按钮和提供点选类型的输入之间进行切换。即，用户能够选择虚拟PTT按钮(即，视觉标识符)来激活用于多模式界面的语音处理。而且，本发明能够基于每个使能声音的字段来激活语音处理。如所述的那样，视觉标识符的引入为用户提供了用于确定多模式界面中的哪些字段是使能声音的直观工具。

图1是图示出根据这里所公开的创造性布置的多模式界面100的简要示图。根据本发明的一实施例，多模式界面100可以由在信息处理系统内执行的多模式浏览器生成。信息处理系统可以是计算机系统、便携式计算设备、服务器、或具有适当处理能力和用于捕获用户语音的音频电路的任何其它计算和/或通信设备。更具体地说，多模式浏览器可以执行多模式应用或文档，从而生成随后可以被显示的多模式界面100。

在一实施例中，多模式浏览器可以是独立的。在该情形中，多模式浏览器可以包括用于执行语音处理功能(例如语音识别、文本到语音(TTS)、音频回放等)的基于软件的资源。语音处理资源可以在多模式浏览器本地，即，在同一计算设备内。这种浏览器的一个示例是正由纽约Armonk的国际商业机器(IBM)公司和挪威的Opera Software ASA开发的多模式浏览器。

在另一实施例中，多模式浏览器可以以分布方式实现，其中一个或多个组件可以分散在通过有线或无线网络连接的多个计算机系统上。实现多模式浏览器的一种通用方式是将视觉浏览器定位于客户系统中，并将具有语音处理资源或可以访问语音处理资源的声音浏览器定位于一个或多个其它位于远程的计算系统或服务器中。声音浏览器可以执行使能声音的标记语言文档(例如，声音可扩展标记语言(VoiceXML)文档)或一部分使能声音的标记语言代码。视觉和声音浏览器的操作可以通过使用在两个浏览器之间传递的事件(即，可扩展标记语言(XML)事件)来协调。在这样的实施例中，执行视觉浏览器的客户设备可以被配置为捕获音频并且将所述音频与通过在客户设备上显示的多模式界面所捕获的其它信息一道提供给声音浏览器。所述音频可以被临时记录(可选地以压缩的方式记录)在客户设备中，然后被发送或者可以被流式处理到远程声音浏览器。

如从这里描述的示例中可见，本发明可以使用任意多种不同的浏览器配置。然而，这里描述的特定示例不是要限制本发明的范围，因为IBM公司提供了能够被用于使能声音的应用的多种基于软件的工具集。这样的一个工具集是

Studio 5.1.2的多模式工具包，版本4.3.2。

通常，多模式浏览器可以装入并执行多模式应用。如所述的那样，多模式应用或文档可以是以可扩展超文本标记语言(XHTML)和VoiceXML(下文称为X+V语言)写成的多模式标记语言文档。然而，应当认识到，多模式可以以其它多模式语言写成，所述其它多模式语言包括但不限于：语音应用语言标志(SALT)等。

在任一情形中，可以在多模式浏览器实施多模式应用或至少多模式应用的视觉部分(即，XHTML代码段)时生成多模式界面100。多模式界面100包括字段105、110、120和130。字段110和120是使能声音的字段。即，字段110和120被配置为接收语音输入。如此，字段110与视觉标识符115相关联。视觉标识符115被定位于靠近字段110。类似地，字段120与视觉标识符125相关联，视觉标识符125被定位于靠近字段120。

字段105和130不是使能声音的。尽管示出为文本框，但是应当认识到，字段105和130可以被实现为任意多种其它图形用户界面(GUI)元素或组件，诸如下拉菜单、单选按钮、复选框等。用来代表字段105和130的特定类型的GUI元素不是要限制本发明的范围，只要字段105和130不能接收音频输入(在本例中为用户语音)即可。类似地，使能声音的字段110和120可以被实现为其它类型的使能声音的用户界面元素，无论是使能声音的复选框、单选按钮，还是下拉菜单等。

在本发明的一实施例中，视觉标识符115和125可以用作虚拟PTT按钮。与在多模式界面100的全局级别上运行(即，被用于每个使能声音的字段的一个PTT按钮)不同，每个视觉标识符可以仅结合与该视觉标识符相关联的字段来运行。如图1所示，视觉标识符115和125如每个视觉标识符的外观所示的那样处于无效状态。因此，没有任何用户语音正在作为到多模式界面100的字段110或字段120的输入而被处理。由于视觉标识符115和125正处于无效状态，与字段110和120相关联的任意语音识别语法也处于无效状态。

取决于宿主设备操作系统的实现和操作系统向应用所提供的界面，视觉标识符还可以与对音频捕获和路由的控制相链接。例如，可以是这样的情形：正在从操作系统连续地提供检测到的音频，并且所述应用可以选择忽略或处理该音频。替代性地，可以是这样的情形：设备的麦克风可以被选择性地使能或禁用，或者所述音频可以被选择性地路由到应用。这些功能中的每个或者它们的组合可以与视觉标识符的激活和/或停用相链接，如果这种功能是由显示多模式界面100的设备的操作系统所提供的话。

图2是图示出根据这里所公开的创造性布置的图1的多模式界面100的其它方面的简要示图。图2图示了视觉标识符115已被选中并进而处于有效状态的情形。视觉标识符可以以多种不同方式中的任何一种被选中(激活)或取消选中(停用)。例如，如果使用了指针145，则用户可以将指针145移动到视觉标识符115上而无需执行点击动作，并且随后通过将指针145移离视觉标识符115来取消选中视觉标识符115。

在另一实施例中，用户可以点击视觉标识符115以激活它，然后第二次点击视觉标识符115以停用它。应当认识到，用户还可以使用键盘导航(或者通过制表(tab)键移动“tab-over”)到视觉标识符115，并按下空格键、输入键或其它键来选中视觉标识符115，并且重复该过程来取消选中视觉标识符115。

还应当认识到，如果希望的话，可以自动停用视觉标识符115。在该情形中，在检测到持续了预定时间段的静音时段时，可以停用视觉标识符115。即，当检测到的音频的级别下降到阈值之下至少持续了预定时间段时，可以停周视觉标识符115。

视觉标识符的外观可以根据其状态而改变。即，当没有选中视觉标识符时，其外观可以通过多种不同机制中的任何一种来指示这种状态，所述多种不同机制包括但不限于：色彩、阴影、标识符上的文本或标识符形状的修改。当选中了视觉标识符时，其外观可以指示这种状态。如图2所示，视觉标识符115已经通过文本“ON”进行了修改或更改，以指示其已被选中，这与图1中指示的“OFF”相反。

多模式界面100的使能声音的字段110和120中的每个可以与对每个字段专用的语法相关联。在这种情形中，字段110与语法135相关联，而字段120与语法140相关联。例如，由于字段110准备接收指定了城市的语音输入，所以语法135可以指定将由语音识别系统所理解的城市。基于同样理由，由于字段120准备接收指定了州的用户语音，所以语法140可以指定可以被语音识别系统识别的州。

当视觉标识符被选中时，与该视觉标识符所关联的字段相对应的语法也可以被激活。因此，当视觉标识符115被选中时，与字段110相关联的语法135被激活。视觉标识符115的外观可以被改变以指示语法135有效。视觉标识符115的外观可以持续指示有效状态，只要语法135保持有效。

如果实施多模式界面的多模式浏览器是独立的，即，包括语音处理功能，则本发明可以实质上如上所述运行。在该情形中，语法可能位于与多模式浏览器相同的计算设备内。

然而，如果多模式浏览器是分布式的，其中视觉浏览器驻留在客户系统上而声音浏览器驻留在位于远程的系统中，则可以在两个组件浏览器之间交换消息和/或事件以同步操作。例如，当用户选中视觉标识符115时，视觉浏览器可以向声音浏览器通知用户的选择。因此，声音浏览器可以激活用于执行语音识别的适当语法(在本情形中是语法135)。当有效时，声音浏览器可以通知视觉浏览器语法135是有效的。因此，视觉浏览器随后可以修改视觉标识符115的外观以指示语法135的有效状态。

当语法135被停用时可以执行类似过程。如果停用自动发生，则声音浏览器可以向视觉浏览器通知该事件，从而视觉浏览器可以改变视觉标识符115的外观以指示语法135的停用状态。如果停用是响应于取消选中视觉标识符115的用户输入，则可以从视觉浏览器向声音浏览器发送指示该取消选中的消息。声音浏览器可以响应于该消息而停用语法135，并随后向视觉浏览器通知语法135已被停用。在通知之后，视觉浏览器可以改变视觉标识符115的外观以指示语法135无效。

因此，通过激活视觉标识符(本情形中是视觉标识符115)，用户可以指示出他或她何时将开始说话。已检测到视觉标识符115的激活的多模式应用自动导致语法135的激活，并且开始等待对字段110的用户语音输入。因此，相对于语法135来识别接收到的用户语音。应当认识到，在一实施例中，字段的选择(即，将光标置于使能声音的字段中)可以独立于与这里所公开的PTT功能和视觉标识符的激活。即，除非用于字段的视觉标识符被选中，否则该字段将不接受用户语音输入，不论该字段是否被用户选中。

如从至此描述的图例中可见，本发明降低了语音输入未被系统检测到或被误识别的可能性。此外，通过提供用于每个使能声音的字段的虚拟PTT按钮，关于哪些字段将接收语音输入以及哪些字段有效的不定性被最小化。视觉标识符的外观向用户提供关于靠近及关联于视觉标识符的字段是否正被有效识别或准备好处理接收到的用户语音的指示。

在本发明的另一方面，视觉标识符的激活还可以用来控制系统内音频的处理。如所述的那样，视觉标识符的激活和/或停用可以提供一种机制，通过该机制多模式应用选择性地激活和停用麦克风。此外，取决于视觉标识符是否已被激活，音频可以被选择性地路由到多模式应用或界面。

上面的示例不是要限制本发明的范围。例如，多模式界面可以与一个、两个、三个或更多语法相关联。这里公开的创造性布置还可以被应用于下述情形，其中不存在使能声音的字段和语法之间的一一对应。例如，两个或多个使能声音的字段可以与相同语法相关联，或者不只一个语法可以与给定字段相关联。无论如何，与使能声音的字段相对应的视觉标识符的激活可以导致与该字段相关联的(一个或多个)语法的激活。此外，应当认识到，在多模式界面中还可以使用其它视觉标识符，以指示多模式应用和/或语法的多种状态。

图3是图示出根据这里所公开的创造性布置实现虚拟PTT功能的方法300的流程图。方法300可以开始于多模式应用或文档已被接收或被标识出的状态。不论多模式浏览器是独立系统还是分布于一个或多个计算机系统中，都可以执行这里描述的方法。在任一情形中，在步骤305中，多模式应用可以被装入多模式浏览器中。

在步骤310中，可以确定多模式应用是否已被配置为包括用于这里指定的使能声音的字段的视觉标识符。如果是，则方法可以进入步骤330。如果否，则方法可以继续到步骤315。这允许多模式浏览器动态分析多模式应用，并且在需要的情况下在这样的应用中自动包括视觉标识符。特殊的标志、注释或其它标记符可以被用来标识多模式应用是否包括视觉标识符。

继续步骤315，可以标识出由多模式应用指定的任何使能声音的字段。例如，当使用X+V语言时，字段可以通过指定事件处理器而成为使能声音的，所述事件处理器将该字段连接到诸如字段获得焦点的事件。由事件处理器定义所建立的XHTML表格和声音输入字段之间的连接可以由多模式浏览器使用，以标记或以其它方式标识出成为使能声音的输入字段和/或控制。

在步骤320中，每个使能声音的字段可以与视觉标识符相关联，所述视觉标识符可以被用来激活多模式应用，以接收用于相关联字段的用户语音。在步骤325中，视觉标识符可以被包括在多模式应用中。更具体地说，可以生成额外的代码以包括视觉标识符或对视觉标识符的引用。如果需要的话，可以修改与视觉标识符相关联的使能声音的字段，例如下述的情形：字段和视觉标识符两者都不再容入所生成的多模式界面中的所规定空间中。因此，可以修改现有代码以保证视觉标识符被放置得足够靠近该字段，以便当用户浏览时会认为该视觉标识符与该字段相关联。

在步骤330中，可以实施多模式应用，从而生成可以被显示的多模式界面。在步骤335中，每个视觉标识符被显示于靠近该视觉标识符所关联的使能声音的字段。如所述的那样，每个视觉标识符可以被显示于接近或邻接其所关联的字段，而不论是在前、后、上、下，从而用户可以确定视觉标识符对应于相关联的字段。在步骤340中，可以确定是否已经接收到激活视觉标识符的用户选择，如果没有，则方法可以循环步骤340，以继续监视这样的输入。如果接收到了视觉标识符的用户选择，则方法可以进到步骤345。如所述的那样，通过将指针移动到视觉标识符上、点击视觉标识符、或例如使用制表(tab)键导航到视觉标识符并使用键盘命令来选择它，可以选中视觉标识符。

在步骤345中，可以激活多模式应用以接收用户语音作为输入。更具体地说，可以激活与所选的视觉标识符相关联的语法。这确保了任何接收到的用户语音将通过使用已激活的语法而被识别。在没有激活语法的情况下，任何接收到的用户语音或声音会被忽略。然而，如所述的那样，视觉标识符的激活与停用还可以依赖于麦克风的使能和/或禁用以及/或者将接收到的音频选择性地路由到多模式应用。无论如何，在步骤350中，可以改变视觉标识符的外观。外观的改变向用户指示多模式应用已被置于激活状态。即，与所选的视觉标识符相关联的语法有效，从而可以通过使用激活的语法对接收到的用户语音执行语音识别。

在步骤355中，可以确定多模式应用是否已经完成接收用户语音。在一实施例中，这可以是一自动过程，所述自动过程检测持续了至少最少预定时间量的静音时段。在另一实施例中，可以接收指示了将不再有其它用户语音的用户输入。这样的用户输入可以包括用户将指针从视觉标识符移开，第二次或再次点击视觉标识符、键盘录入、或取消选中或停用视觉标识符的任何其它手段。

如果将要接收其它的用户语音，则方法可以循环回到步骤355继续进行监视。应当认识到，在该时间期间，使用有效语法可以在本地或者远程地处理并识别任何接收到的语音。如果将不接收其它语音，则方法可以继续到步骤360。

在步骤360中，可以停用用于用户语音的多模式应用。更具体地说，曾为有效的语法现在可以被停用。此外，如果这样配置的话，则多模式应用可以使得麦克风被停用或者有效停止音频被路由或提供到多模式应用。在步骤365中，可以改变视觉标识符的外观以指示语法的无效状态。步骤365可以使得视觉标识符恢复回到其初始状态或外观，或者以其它方式改变视觉标识符的外观以指示语法无效。

出于例示的目的提供了方法300。因此，其不是要限制本发明的范围，因为由本发明可以构思出关于方法300的其它实施例和变化形式。此外，在不脱离本发明的精神或范围的条件下，可以以不同顺序执行参考图3描述的一个或多个步骤。

本发明提供了具有一个或多个虚拟PTT按钮的多模式界面。根据创造性的布置，可以为多模式界面的每个使能声音的字段提供虚拟PTT按钮。虚拟PTT按钮向用户提供关于多模式界面的哪些字段为语音使能的指示，并且还增加了接收到的用户语音将被正确处理的可能性。即，通过包括这种功能，用户更有可能在语音识别资源有效时才开始说话，从而确保接收到用户说出的话语的开始部分。类似地，用户更有可能在停用语音识别资源之前停止说话，从而确保接收到用户说出的话语的结束部分。

本发明可以以硬件、软件或软硬件的组合来实现。本发明可以在一个计算机系统中以集中的方式实现，或者可以以分布的方式实现，其中不同的元素分布在若干互连的计算机系统上。适于执行这里所描述的方法的任何种类的计算机系统或者其它装置都是适合的。典型的软硬件组合可以是具有计算机程序的通用计算机系统，所述计算机程序在被装入和执行时控制计算机系统，使得计算机系统执行这里描述的方法。

本发明还可以被嵌入到计算机程序产品中，所述计算机程序产品包括使这里描述的方法得以实现的所有特征，并且在其被装入计算机系统中时能够执行这些方法。本文中的计算机程序、软件应用和/或这些术语的其它变体意指以任何语言、代码或符号形式出现的指令集的任何表达形式，其中所述指令集旨在使得具有信息处理能力的系统直接执行或者在下述两个操作之一或二者之后执行特定功能：a)转换到另一语言、代码或符号；b)以不同的有形形式再现。

在不脱离本发明本质属性或精神的条件下，可以以其它形式实现本发明。因此，本发明的范围应当参考以下的权利要求而非前述的说明书。

Claims

1.一种在多模式界面中实现虚拟语音一键通功能的方法，该方法包括：

显示具有使能声音的用户界面元素的多模式界面；

靠近所述使能声音的用户界面元素定位视觉标识符，其中所述视觉标识符表示所述使能声音的用户界面元素被配置为接收语音输入；

响应于所述视觉标识符的用户选择而激活与所述使能声音的用户界面元素相关联的语法；以及

修改所述视觉标识符的外观以指示出与所述使能声音的用户界面元素相关联的语法有效。

2.如权利要求1所述的方法，其中所述多模式界面与多个语法相关联，所述方法还包括响应于所述视觉标识符的用户选择而从所述多个语法中选择与所述使能声音的用户界面元素相关联的语法。

3.如权利要求1所述的方法，还包括：

检测静音时段；以及

响应于所述检测步骤而自动停用与所述使能声音的用户界面元素相关联的语法。

4.如权利要求3所述的方法，还包括改变所述视觉标识符的外观以指示与所述使能声音的用户界面元素相关联的语法无效。

5.如权利要求1所述的方法，还包括响应于所述视觉标识符的取消选中而停用与所述使能声音的用户界面元素相关联的语法。

6.如权利要求5所述的方法，还包括改变与所述使能声音的用户界面元素相关联的视觉标识符的外观以指示所述语法无效。

7.如权利要求1所述的方法，其中所述多模式界面包括至少一个非使能声音的图形用户界面元素，其中与所述使能声音的用户界面元素相关联的视觉标识符区分所述使能声音的用户界面元素和所述至少一个非使能声音的图形用户界面元素。

8.如权利要求1所述的方法，还包括：

首先动态标识出所述多模式界面中的所述使能声音的用户界面元素；以及

将所述使能声音的用户界面元素与所述视觉标识符相关联。

9.如权利要求8所述的方法，还包括在多模式应用中包括所述视觉标识符或对所述视觉标识符的引用，所述多模式应用在被实施时生成所述多模式界面。

10.一种在多模式界面中实现虚拟语音一键通功能的装置，包括：

至少一个数据输入装置，被配置为接收非语音模式下的用户输入；

使能声音的用户界面元素，被配置为接收语音输入；以及

与所述使能声音的用户界面元素相关联的视觉标识符，其中所述使能声音的用户界面元素和所述视觉标识符在所述多模式界面内被显示，并且所述视觉标识符靠近所述使能声音的用户界面元素定位，并且其中所述视觉标识符指示出所述使能声音的用户界面元素被配置为接收语音输入。

11.如权利要求10所述的装置，还包括用于响应于所述视觉标识符的激活而监视音频的装置。

12.如权利要求11所述的装置，还包括用于响应于所述视觉标识符的激活而激活语音识别用于处理音频的装置。

13.如权利要求12所述的装置，还包括用于动态改变所述视觉标识符的外观以指示对应于所述使能声音的用户界面元素的语法是否有效的装置。

14.如权利要求10所述的装置，还包括用于动态改变所述视觉标识符的外观以指示对应于所述使能声音的用户界面元素的语法是否有效的装置。