CN100530085C - 实现虚拟语音一键通功能的方法和装置 - Google Patents

实现虚拟语音一键通功能的方法和装置 Download PDF

Info

Publication number
CN100530085C
CN100530085C CNB2006100659885A CN200610065988A CN100530085C CN 100530085 C CN100530085 C CN 100530085C CN B2006100659885 A CNB2006100659885 A CN B2006100659885A CN 200610065988 A CN200610065988 A CN 200610065988A CN 100530085 C CN100530085 C CN 100530085C
Authority
CN
China
Prior art keywords
visual identifier
interface element
user interface
sound
grammer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100659885A
Other languages
English (en)
Other versions
CN1855041A (zh
Inventor
W·黑内尔
B·D·曼达利亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1855041A publication Critical patent/CN1855041A/zh
Application granted granted Critical
Publication of CN100530085C publication Critical patent/CN100530085C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种在多模式界面中实现虚拟语音一键通功能的方法,该方法可以包括呈现具有使能声音的用户界面元素的多模式界面,以及靠近所述使能声音的用户界面元素定位视觉标识符。该视觉标识符可以表示所述使能声音的用户界面元素被配置为接收语音输入。该方法还可以包括响应于视觉标识符的选择而激活与所述使能声音的用户界面元素相关联的语法,并且修改所述视觉标识符的外观以指示出与所述使能声音的用户界面元素相关联的语法有效。

Description

实现虚拟语音一键通功能的方法和装置
技术领域
本发明涉及多模式应用和多模式用户界面。
背景技术
随着计算设备变得越来越小以及越来越普及,用户希望在不受时间或空间的限制下访问数据。传统的虚拟界面(例如由超文本标记语言(HTML)页提供的那些界面)仅提供有限的用于用户交互的工具。利用HTML页的用户交互的可用表格尽管适用于某些目的,但是对于其它目的来说可能是不方便的,尤其是对于典型地具有小浏览屏幕的个人数字助理(PDA)。
多模式应用已经在寻求克服纯视觉或音频界面的局限性。多模式应用向用户提供根据更自然地应用于给定环境的方法而进行交互的能力。术语“模式”表示向用户界面输入或从用户界面输出的机制。这种机制一般可以被分类为基于视觉的或基于音频的。因此,多模式应用代表不同形式的内容的聚集并且支持多种模式的用户输入,所述不同形式的内容包括但不限于视频、音频、文本和图像,所述多种模式的用户输入例如是语音、键盘、小键盘、鼠标、指示笔等。输出模式可以包括合成的语音、音频、纯文本、动态图像和/或图形。
多模式浏览器是可以实施或执行以适当的标记语言写成的多模式应用或文档的计算机程序。例如,多模式浏览器可以执行以可扩展HTML(XHTML)+可扩展声音标记语言(VoiceXML)(被称为X+V语言)写成的应用。当然,还可以执行其它多模式和/或使能声音的语言,例如语音应用语言标志(SALT)。通过在计算设备(不管是传统计算机还是PDA)中包括多模式浏览器或多模式浏览器组件,宿主设备可以运行多模式应用。
已经通过多模式浏览器利用的的一个特征被称为“语音一键通”(push-to-talk,PTT)。PTT指的是下述特征,籍助于该特征用户在提供口头输入时激活按钮或其它机制。PTT按钮是位于执行多模式浏览器的计算设备之上的物理机制或启动器。PTT按钮的启动使得对所接收的音频执行语音识别。通过在语音被处理时进行信令传输,PTT功能允许多模式浏览器捕获或记录完整的用户语音,同时还降低了多模式应用将无意地捕获背景噪声或被背景噪声干扰的可能性。
尽管传统的多模式浏览器提供了益处,但是仍存在缺点。一个这样的缺点是,传统的多模式浏览器不提供关于多模式表单中的哪些字段是使能声音的指示。多模式应用当被实施时可能导致数据录入页或表格被显示。所述页可以具有多个不同的数据录入字段,一些是使能声音的而一些不是。典型地,用户首先必须将光标放入字段中,以使该字段成为用于接收输入的有效字段。此时,用户可以通过文本或声音提示被告知,所选字段可以接收用户语音作为输入。然而,在实际选择该字段之前,用户不能确定该字段是否准备接收语音或文本作为输入。这可能使用户迷惑并且导致时间的浪费,特别是对于用户试图向仅能接收文本的字段说话的情形。
另一个缺点涉及PPT在传统的多模式应用和/或设备中实现的方式。典型地,单个物理按钮被用来实现PTT功能。当激活按钮时,语音识别有效。然而,没有向用户提供任何关于给定表格的多个不同字段中的哪些字段为有效并且将是用户语音的接受者的指示。这种情形是因为,同一PTT按钮被用来激活用于表格中每个字段的语音识别。如果用户在没有首先选择预期或适当的目标字段的情况下激活PTT按钮,则用户语音可被转向上次所选的字段或缺省字段。因此,用户可能无意地向错误的非想要的字段提供语音输入。这会使多模式应用不方便并且较不直观。
再一缺点涉及依赖于检测到静音时段而停止语音识别过程的PTT实现。即,用户激活PTT按钮,并且语音一直被收集和识别,直到检测到静音时段。典型地,用户在说话的同时不需要按住PTT按钮。因此,没有向用户提供得到关于多模式应用仍在收集和/或语音识别口头输入的任何指示。在某些情形下,由于用户环境中高级别的背景噪声,可能检测不到静音。在这种实例中,语音识别功能不会终止。然而,用户将不会意识到这种状况。
最后,物理PTT按钮的使用违背了视觉用户界面的通用设计理念。该设计理念要求应当可以通过键盘或点选设备来访问图形用户界面(GUI)的所有操作。这允许用户完全从键盘或点选设备输入数据,从而流线化处理数据输入。然而,传统的PTT功能要求用户激活设备上的物理按钮,不管该物理按钮是专用按钮还是键盘上的按键。用户不能仅仅依靠使用点选设备来访问GUI的所有功能。这迫使用户在使用PTT按钮和使用点选设备之间切换,以和多模式界面交互。
向用户提供更为直观且信息更丰富的下述工具将是有益的,其中所述工具用于指示使能声音的字段,并且用于指示关于多模式应用和/或界面的语音识别何时有效。
发明内容
本发明提供了涉及虚拟语音一键通(PTT)按钮和相应功能的方法与装置。本发明的一实施例可以包括一种在多模式界面中实现虚拟PTT功能的方法。该方法可以包括呈现具有使能声音的用户界面元素的多模式界面,以及靠近所述使能声音的用户界面元素定位视觉标识符。该视觉标识符可以表示所述使能声音的用户界面元素被配置为接收语音输入。该方法还可以包括响应于视觉标识符的选择而激活与所述使能声音的用户界面元素相关联的语法,并且修改所述视觉标识符的外观以指示出与所述使能声音的用户界面元素相关联的语法有效。
本发明的另一实施例可以包括一种多模式界面。该多模式界面可以包括至少一个数据输入机制和用户界面元素,所述至少一个数据输入机制被配置为接收不同于语音的模式下的用户输入,所述用户界面元素被配置为接收语音输入。视觉标识符可以与用户界面元素相关联。用户界面元素和视觉标识符可以在多模式界面内显示,使得视觉标识符靠近用户界面元素定位。视觉标识符指示出所述用户界面元素被配置为接收语音输入。
本发明的其它实施例可以包括经过编程以使得机器执行这里所述的多种步骤的机器可读存储设备。
附图说明
附图中示出了目前优选的实施例;然而,应当理解,本发明不限于所示出的确切布置和工具。
图1是图示出根据这里所公开的创造性布置的多模式界面的简要示图。
图2是图示出根据这里所公开的创造性布置的图1的多模式界面的其它方面的简要示图。
图3是图示出根据这里所公开的创造性布置实现虚拟语音一键通功能的方法的流程图。
具体实施方式
这里所公开的创造性布置提供了涉及使用多模式界面进行用户与计算机交互的方法与装置。根据本发明的一实施例,可以在多模式界面中提供视觉标识符,以向用户指示多模式界面中使能声音的那些数据录入字段。每个视觉标识符还可以充当虚拟“语音一键通”(PTT)按钮,这是因为标识符的激活可以指示出,应当激活语音处理资源来处理用户语音。视觉标识符的激活还可以指示出,任何接收到的用户语音将被提供给与所激活的视觉标识符相关联的字段。
本发明允许用户访问多模式界面的功能而不必在使用基于硬件的PTT按钮和提供点选类型的输入之间进行切换。即,用户能够选择虚拟PTT按钮(即,视觉标识符)来激活用于多模式界面的语音处理。而且,本发明能够基于每个使能声音的字段来激活语音处理。如所述的那样,视觉标识符的引入为用户提供了用于确定多模式界面中的哪些字段是使能声音的直观工具。
图1是图示出根据这里所公开的创造性布置的多模式界面100的简要示图。根据本发明的一实施例,多模式界面100可以由在信息处理系统内执行的多模式浏览器生成。信息处理系统可以是计算机系统、便携式计算设备、服务器、或具有适当处理能力和用于捕获用户语音的音频电路的任何其它计算和/或通信设备。更具体地说,多模式浏览器可以执行多模式应用或文档,从而生成随后可以被显示的多模式界面100。
在一实施例中,多模式浏览器可以是独立的。在该情形中,多模式浏览器可以包括用于执行语音处理功能(例如语音识别、文本到语音(TTS)、音频回放等)的基于软件的资源。语音处理资源可以在多模式浏览器本地,即,在同一计算设备内。这种浏览器的一个示例是正由纽约Armonk的国际商业机器(IBM)公司和挪威的Opera Software ASA开发的多模式浏览器。
在另一实施例中,多模式浏览器可以以分布方式实现,其中一个或多个组件可以分散在通过有线或无线网络连接的多个计算机系统上。实现多模式浏览器的一种通用方式是将视觉浏览器定位于客户系统中,并将具有语音处理资源或可以访问语音处理资源的声音浏览器定位于一个或多个其它位于远程的计算系统或服务器中。声音浏览器可以执行使能声音的标记语言文档(例如,声音可扩展标记语言(VoiceXML)文档)或一部分使能声音的标记语言代码。视觉和声音浏览器的操作可以通过使用在两个浏览器之间传递的事件(即,可扩展标记语言(XML)事件)来协调。在这样的实施例中,执行视觉浏览器的客户设备可以被配置为捕获音频并且将所述音频与通过在客户设备上显示的多模式界面所捕获的其它信息一道提供给声音浏览器。所述音频可以被临时记录(可选地以压缩的方式记录)在客户设备中,然后被发送或者可以被流式处理到远程声音浏览器。
如从这里描述的示例中可见,本发明可以使用任意多种不同的浏览器配置。然而,这里描述的特定示例不是要限制本发明的范围,因为IBM公司提供了能够被用于使能声音的应用的多种基于软件的工具集。这样的一个工具集是
Figure C20061006598800081
Studio 5.1.2的多模式工具包,版本4.3.2。
通常,多模式浏览器可以装入并执行多模式应用。如所述的那样,多模式应用或文档可以是以可扩展超文本标记语言(XHTML)和VoiceXML(下文称为X+V语言)写成的多模式标记语言文档。然而,应当认识到,多模式可以以其它多模式语言写成,所述其它多模式语言包括但不限于:语音应用语言标志(SALT)等。
在任一情形中,可以在多模式浏览器实施多模式应用或至少多模式应用的视觉部分(即,XHTML代码段)时生成多模式界面100。多模式界面100包括字段105、110、120和130。字段110和120是使能声音的字段。即,字段110和120被配置为接收语音输入。如此,字段110与视觉标识符115相关联。视觉标识符115被定位于靠近字段110。类似地,字段120与视觉标识符125相关联,视觉标识符125被定位于靠近字段120。
字段105和130不是使能声音的。尽管示出为文本框,但是应当认识到,字段105和130可以被实现为任意多种其它图形用户界面(GUI)元素或组件,诸如下拉菜单、单选按钮、复选框等。用来代表字段105和130的特定类型的GUI元素不是要限制本发明的范围,只要字段105和130不能接收音频输入(在本例中为用户语音)即可。类似地,使能声音的字段110和120可以被实现为其它类型的使能声音的用户界面元素,无论是使能声音的复选框、单选按钮,还是下拉菜单等。
在本发明的一实施例中,视觉标识符115和125可以用作虚拟PTT按钮。与在多模式界面100的全局级别上运行(即,被用于每个使能声音的字段的一个PTT按钮)不同,每个视觉标识符可以仅结合与该视觉标识符相关联的字段来运行。如图1所示,视觉标识符115和125如每个视觉标识符的外观所示的那样处于无效状态。因此,没有任何用户语音正在作为到多模式界面100的字段110或字段120的输入而被处理。由于视觉标识符115和125正处于无效状态,与字段110和120相关联的任意语音识别语法也处于无效状态。
取决于宿主设备操作系统的实现和操作系统向应用所提供的界面,视觉标识符还可以与对音频捕获和路由的控制相链接。例如,可以是这样的情形:正在从操作系统连续地提供检测到的音频,并且所述应用可以选择忽略或处理该音频。替代性地,可以是这样的情形:设备的麦克风可以被选择性地使能或禁用,或者所述音频可以被选择性地路由到应用。这些功能中的每个或者它们的组合可以与视觉标识符的激活和/或停用相链接,如果这种功能是由显示多模式界面100的设备的操作系统所提供的话。
图2是图示出根据这里所公开的创造性布置的图1的多模式界面100的其它方面的简要示图。图2图示了视觉标识符115已被选中并进而处于有效状态的情形。视觉标识符可以以多种不同方式中的任何一种被选中(激活)或取消选中(停用)。例如,如果使用了指针145,则用户可以将指针145移动到视觉标识符115上而无需执行点击动作,并且随后通过将指针145移离视觉标识符115来取消选中视觉标识符115。
在另一实施例中,用户可以点击视觉标识符115以激活它,然后第二次点击视觉标识符115以停用它。应当认识到,用户还可以使用键盘导航(或者通过制表(tab)键移动“tab-over”)到视觉标识符115,并按下空格键、输入键或其它键来选中视觉标识符115,并且重复该过程来取消选中视觉标识符115。
还应当认识到,如果希望的话,可以自动停用视觉标识符115。在该情形中,在检测到持续了预定时间段的静音时段时,可以停用视觉标识符115。即,当检测到的音频的级别下降到阈值之下至少持续了预定时间段时,可以停周视觉标识符115。
视觉标识符的外观可以根据其状态而改变。即,当没有选中视觉标识符时,其外观可以通过多种不同机制中的任何一种来指示这种状态,所述多种不同机制包括但不限于:色彩、阴影、标识符上的文本或标识符形状的修改。当选中了视觉标识符时,其外观可以指示这种状态。如图2所示,视觉标识符115已经通过文本“ON”进行了修改或更改,以指示其已被选中,这与图1中指示的“OFF”相反。
多模式界面100的使能声音的字段110和120中的每个可以与对每个字段专用的语法相关联。在这种情形中,字段110与语法135相关联,而字段120与语法140相关联。例如,由于字段110准备接收指定了城市的语音输入,所以语法135可以指定将由语音识别系统所理解的城市。基于同样理由,由于字段120准备接收指定了州的用户语音,所以语法140可以指定可以被语音识别系统识别的州。
当视觉标识符被选中时,与该视觉标识符所关联的字段相对应的语法也可以被激活。因此,当视觉标识符115被选中时,与字段110相关联的语法135被激活。视觉标识符115的外观可以被改变以指示语法135有效。视觉标识符115的外观可以持续指示有效状态,只要语法135保持有效。
如果实施多模式界面的多模式浏览器是独立的,即,包括语音处理功能,则本发明可以实质上如上所述运行。在该情形中,语法可能位于与多模式浏览器相同的计算设备内。
然而,如果多模式浏览器是分布式的,其中视觉浏览器驻留在客户系统上而声音浏览器驻留在位于远程的系统中,则可以在两个组件浏览器之间交换消息和/或事件以同步操作。例如,当用户选中视觉标识符115时,视觉浏览器可以向声音浏览器通知用户的选择。因此,声音浏览器可以激活用于执行语音识别的适当语法(在本情形中是语法135)。当有效时,声音浏览器可以通知视觉浏览器语法135是有效的。因此,视觉浏览器随后可以修改视觉标识符115的外观以指示语法135的有效状态。
当语法135被停用时可以执行类似过程。如果停用自动发生,则声音浏览器可以向视觉浏览器通知该事件,从而视觉浏览器可以改变视觉标识符115的外观以指示语法135的停用状态。如果停用是响应于取消选中视觉标识符115的用户输入,则可以从视觉浏览器向声音浏览器发送指示该取消选中的消息。声音浏览器可以响应于该消息而停用语法135,并随后向视觉浏览器通知语法135已被停用。在通知之后,视觉浏览器可以改变视觉标识符115的外观以指示语法135无效。
因此,通过激活视觉标识符(本情形中是视觉标识符115),用户可以指示出他或她何时将开始说话。已检测到视觉标识符115的激活的多模式应用自动导致语法135的激活,并且开始等待对字段110的用户语音输入。因此,相对于语法135来识别接收到的用户语音。应当认识到,在一实施例中,字段的选择(即,将光标置于使能声音的字段中)可以独立于与这里所公开的PTT功能和视觉标识符的激活。即,除非用于字段的视觉标识符被选中,否则该字段将不接受用户语音输入,不论该字段是否被用户选中。
如从至此描述的图例中可见,本发明降低了语音输入未被系统检测到或被误识别的可能性。此外,通过提供用于每个使能声音的字段的虚拟PTT按钮,关于哪些字段将接收语音输入以及哪些字段有效的不定性被最小化。视觉标识符的外观向用户提供关于靠近及关联于视觉标识符的字段是否正被有效识别或准备好处理接收到的用户语音的指示。
在本发明的另一方面,视觉标识符的激活还可以用来控制系统内音频的处理。如所述的那样,视觉标识符的激活和/或停用可以提供一种机制,通过该机制多模式应用选择性地激活和停用麦克风。此外,取决于视觉标识符是否已被激活,音频可以被选择性地路由到多模式应用或界面。
上面的示例不是要限制本发明的范围。例如,多模式界面可以与一个、两个、三个或更多语法相关联。这里公开的创造性布置还可以被应用于下述情形,其中不存在使能声音的字段和语法之间的一一对应。例如,两个或多个使能声音的字段可以与相同语法相关联,或者不只一个语法可以与给定字段相关联。无论如何,与使能声音的字段相对应的视觉标识符的激活可以导致与该字段相关联的(一个或多个)语法的激活。此外,应当认识到,在多模式界面中还可以使用其它视觉标识符,以指示多模式应用和/或语法的多种状态。
图3是图示出根据这里所公开的创造性布置实现虚拟PTT功能的方法300的流程图。方法300可以开始于多模式应用或文档已被接收或被标识出的状态。不论多模式浏览器是独立系统还是分布于一个或多个计算机系统中,都可以执行这里描述的方法。在任一情形中,在步骤305中,多模式应用可以被装入多模式浏览器中。
在步骤310中,可以确定多模式应用是否已被配置为包括用于这里指定的使能声音的字段的视觉标识符。如果是,则方法可以进入步骤330。如果否,则方法可以继续到步骤315。这允许多模式浏览器动态分析多模式应用,并且在需要的情况下在这样的应用中自动包括视觉标识符。特殊的标志、注释或其它标记符可以被用来标识多模式应用是否包括视觉标识符。
继续步骤315,可以标识出由多模式应用指定的任何使能声音的字段。例如,当使用X+V语言时,字段可以通过指定事件处理器而成为使能声音的,所述事件处理器将该字段连接到诸如字段获得焦点的事件。由事件处理器定义所建立的XHTML表格和声音输入字段之间的连接可以由多模式浏览器使用,以标记或以其它方式标识出成为使能声音的输入字段和/或控制。
在步骤320中,每个使能声音的字段可以与视觉标识符相关联,所述视觉标识符可以被用来激活多模式应用,以接收用于相关联字段的用户语音。在步骤325中,视觉标识符可以被包括在多模式应用中。更具体地说,可以生成额外的代码以包括视觉标识符或对视觉标识符的引用。如果需要的话,可以修改与视觉标识符相关联的使能声音的字段,例如下述的情形:字段和视觉标识符两者都不再容入所生成的多模式界面中的所规定空间中。因此,可以修改现有代码以保证视觉标识符被放置得足够靠近该字段,以便当用户浏览时会认为该视觉标识符与该字段相关联。
在步骤330中,可以实施多模式应用,从而生成可以被显示的多模式界面。在步骤335中,每个视觉标识符被显示于靠近该视觉标识符所关联的使能声音的字段。如所述的那样,每个视觉标识符可以被显示于接近或邻接其所关联的字段,而不论是在前、后、上、下,从而用户可以确定视觉标识符对应于相关联的字段。在步骤340中,可以确定是否已经接收到激活视觉标识符的用户选择,如果没有,则方法可以循环步骤340,以继续监视这样的输入。如果接收到了视觉标识符的用户选择,则方法可以进到步骤345。如所述的那样,通过将指针移动到视觉标识符上、点击视觉标识符、或例如使用制表(tab)键导航到视觉标识符并使用键盘命令来选择它,可以选中视觉标识符。
在步骤345中,可以激活多模式应用以接收用户语音作为输入。更具体地说,可以激活与所选的视觉标识符相关联的语法。这确保了任何接收到的用户语音将通过使用已激活的语法而被识别。在没有激活语法的情况下,任何接收到的用户语音或声音会被忽略。然而,如所述的那样,视觉标识符的激活与停用还可以依赖于麦克风的使能和/或禁用以及/或者将接收到的音频选择性地路由到多模式应用。无论如何,在步骤350中,可以改变视觉标识符的外观。外观的改变向用户指示多模式应用已被置于激活状态。即,与所选的视觉标识符相关联的语法有效,从而可以通过使用激活的语法对接收到的用户语音执行语音识别。
在步骤355中,可以确定多模式应用是否已经完成接收用户语音。在一实施例中,这可以是一自动过程,所述自动过程检测持续了至少最少预定时间量的静音时段。在另一实施例中,可以接收指示了将不再有其它用户语音的用户输入。这样的用户输入可以包括用户将指针从视觉标识符移开,第二次或再次点击视觉标识符、键盘录入、或取消选中或停用视觉标识符的任何其它手段。
如果将要接收其它的用户语音,则方法可以循环回到步骤355继续进行监视。应当认识到,在该时间期间,使用有效语法可以在本地或者远程地处理并识别任何接收到的语音。如果将不接收其它语音,则方法可以继续到步骤360。
在步骤360中,可以停用用于用户语音的多模式应用。更具体地说,曾为有效的语法现在可以被停用。此外,如果这样配置的话,则多模式应用可以使得麦克风被停用或者有效停止音频被路由或提供到多模式应用。在步骤365中,可以改变视觉标识符的外观以指示语法的无效状态。步骤365可以使得视觉标识符恢复回到其初始状态或外观,或者以其它方式改变视觉标识符的外观以指示语法无效。
出于例示的目的提供了方法300。因此,其不是要限制本发明的范围,因为由本发明可以构思出关于方法300的其它实施例和变化形式。此外,在不脱离本发明的精神或范围的条件下,可以以不同顺序执行参考图3描述的一个或多个步骤。
本发明提供了具有一个或多个虚拟PTT按钮的多模式界面。根据创造性的布置,可以为多模式界面的每个使能声音的字段提供虚拟PTT按钮。虚拟PTT按钮向用户提供关于多模式界面的哪些字段为语音使能的指示,并且还增加了接收到的用户语音将被正确处理的可能性。即,通过包括这种功能,用户更有可能在语音识别资源有效时才开始说话,从而确保接收到用户说出的话语的开始部分。类似地,用户更有可能在停用语音识别资源之前停止说话,从而确保接收到用户说出的话语的结束部分。
本发明可以以硬件、软件或软硬件的组合来实现。本发明可以在一个计算机系统中以集中的方式实现,或者可以以分布的方式实现,其中不同的元素分布在若干互连的计算机系统上。适于执行这里所描述的方法的任何种类的计算机系统或者其它装置都是适合的。典型的软硬件组合可以是具有计算机程序的通用计算机系统,所述计算机程序在被装入和执行时控制计算机系统,使得计算机系统执行这里描述的方法。
本发明还可以被嵌入到计算机程序产品中,所述计算机程序产品包括使这里描述的方法得以实现的所有特征,并且在其被装入计算机系统中时能够执行这些方法。本文中的计算机程序、软件应用和/或这些术语的其它变体意指以任何语言、代码或符号形式出现的指令集的任何表达形式,其中所述指令集旨在使得具有信息处理能力的系统直接执行或者在下述两个操作之一或二者之后执行特定功能:a)转换到另一语言、代码或符号;b)以不同的有形形式再现。
在不脱离本发明本质属性或精神的条件下,可以以其它形式实现本发明。因此,本发明的范围应当参考以下的权利要求而非前述的说明书。

Claims (14)

1.一种在多模式界面中实现虚拟语音一键通功能的方法,该方法包括:
显示具有使能声音的用户界面元素的多模式界面;
靠近所述使能声音的用户界面元素定位视觉标识符,其中所述视觉标识符表示所述使能声音的用户界面元素被配置为接收语音输入;
响应于所述视觉标识符的用户选择而激活与所述使能声音的用户界面元素相关联的语法;以及
修改所述视觉标识符的外观以指示出与所述使能声音的用户界面元素相关联的语法有效。
2.如权利要求1所述的方法,其中所述多模式界面与多个语法相关联,所述方法还包括响应于所述视觉标识符的用户选择而从所述多个语法中选择与所述使能声音的用户界面元素相关联的语法。
3.如权利要求1所述的方法,还包括:
检测静音时段;以及
响应于所述检测步骤而自动停用与所述使能声音的用户界面元素相关联的语法。
4.如权利要求3所述的方法,还包括改变所述视觉标识符的外观以指示与所述使能声音的用户界面元素相关联的语法无效。
5.如权利要求1所述的方法,还包括响应于所述视觉标识符的取消选中而停用与所述使能声音的用户界面元素相关联的语法。
6.如权利要求5所述的方法,还包括改变与所述使能声音的用户界面元素相关联的视觉标识符的外观以指示所述语法无效。
7.如权利要求1所述的方法,其中所述多模式界面包括至少一个非使能声音的图形用户界面元素,其中与所述使能声音的用户界面元素相关联的视觉标识符区分所述使能声音的用户界面元素和所述至少一个非使能声音的图形用户界面元素。
8.如权利要求1所述的方法,还包括:
首先动态标识出所述多模式界面中的所述使能声音的用户界面元素;以及
将所述使能声音的用户界面元素与所述视觉标识符相关联。
9.如权利要求8所述的方法,还包括在多模式应用中包括所述视觉标识符或对所述视觉标识符的引用,所述多模式应用在被实施时生成所述多模式界面。
10.一种在多模式界面中实现虚拟语音一键通功能的装置,包括:
至少一个数据输入装置,被配置为接收非语音模式下的用户输入;
使能声音的用户界面元素,被配置为接收语音输入;以及
与所述使能声音的用户界面元素相关联的视觉标识符,其中所述使能声音的用户界面元素和所述视觉标识符在所述多模式界面内被显示,并且所述视觉标识符靠近所述使能声音的用户界面元素定位,并且其中所述视觉标识符指示出所述使能声音的用户界面元素被配置为接收语音输入。
11.如权利要求10所述的装置,还包括用于响应于所述视觉标识符的激活而监视音频的装置。
12.如权利要求11所述的装置,还包括用于响应于所述视觉标识符的激活而激活语音识别用于处理音频的装置。
13.如权利要求12所述的装置,还包括用于动态改变所述视觉标识符的外观以指示对应于所述使能声音的用户界面元素的语法是否有效的装置。
14.如权利要求10所述的装置,还包括用于动态改变所述视觉标识符的外观以指示对应于所述使能声音的用户界面元素的语法是否有效的装置。
CNB2006100659885A 2005-04-27 2006-03-29 实现虚拟语音一键通功能的方法和装置 Expired - Fee Related CN100530085C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/115,900 2005-04-27
US11/115,900 US20060247925A1 (en) 2005-04-27 2005-04-27 Virtual push-to-talk

Publications (2)

Publication Number Publication Date
CN1855041A CN1855041A (zh) 2006-11-01
CN100530085C true CN100530085C (zh) 2009-08-19

Family

ID=37195232

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100659885A Expired - Fee Related CN100530085C (zh) 2005-04-27 2006-03-29 实现虚拟语音一键通功能的方法和装置

Country Status (3)

Country Link
US (1) US20060247925A1 (zh)
CN (1) CN100530085C (zh)
TW (1) TW200705253A (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8417529B2 (en) * 2006-12-27 2013-04-09 Nuance Communications, Inc. System and methods for prompting user speech in multimodal devices
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US20090182562A1 (en) * 2008-01-14 2009-07-16 Garmin Ltd. Dynamic user interface for automated speech recognition
GB0823706D0 (en) * 2008-12-31 2009-02-04 Symbian Software Ltd Fast data entry
US9263045B2 (en) * 2011-05-17 2016-02-16 Microsoft Technology Licensing, Llc Multi-mode text input
US8255218B1 (en) 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields
US10672280B1 (en) * 2011-09-29 2020-06-02 Rockwell Collins, Inc. Bimodal user interface system, device, and method for streamlining a user's interface with an aircraft display unit
US8543397B1 (en) 2012-10-11 2013-09-24 Google Inc. Mobile device voice activation
US20150223110A1 (en) * 2014-02-05 2015-08-06 Qualcomm Incorporated Robust voice-activated floor control
US9503867B2 (en) * 2014-08-13 2016-11-22 Northrop Grumman Systems Corporation Dual button push to talk device
AU2015396176B2 (en) 2015-05-28 2018-08-16 Motorola Solutions, Inc. Virtual push-to-talk button
CN106332013A (zh) * 2015-06-30 2017-01-11 中兴通讯股份有限公司 集群通话处理方法、装置及终端
US9911410B2 (en) * 2015-08-19 2018-03-06 International Business Machines Corporation Adaptation of speech recognition
DK180639B1 (en) * 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11687318B1 (en) 2019-10-11 2023-06-27 State Farm Mutual Automobile Insurance Company Using voice input to control a user interface within an application
US11972095B2 (en) * 2021-03-23 2024-04-30 Microsoft Technology Licensing, Llc Voice assistant-enabled client application with user view context and multi-modal input support

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6208971B1 (en) * 1998-10-30 2001-03-27 Apple Computer, Inc. Method and apparatus for command recognition using data-driven semantic inference
US7206747B1 (en) * 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6360093B1 (en) * 1999-02-05 2002-03-19 Qualcomm, Incorporated Wireless push-to-talk internet broadcast
FI20000735A (fi) * 2000-03-30 2001-10-01 Nokia Corp Monimodaalinen menetelmä liikutettavassa laitteessa esitettävän graafisen informaation selaamiseksi
AU2001294222A1 (en) * 2000-10-11 2002-04-22 Canon Kabushiki Kaisha Information processing device, information processing method, and storage medium
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US6941269B1 (en) * 2001-02-23 2005-09-06 At&T Corporation Method and system for providing automated audible backchannel responses
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
WO2003071422A1 (en) * 2002-02-18 2003-08-28 Kirusa, Inc. A technique for synchronizing visual and voice browsers to enable multi-modal browsing
JP3814566B2 (ja) * 2002-06-20 2006-08-30 キヤノン株式会社 情報処理装置、情報処理方法、制御プログラム
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US7389236B2 (en) * 2003-09-29 2008-06-17 Sap Aktiengesellschaft Navigation and data entry for open interaction elements
JP4585759B2 (ja) * 2003-12-02 2010-11-24 キヤノン株式会社 音声合成装置、音声合成方法、プログラム、及び記録媒体

Also Published As

Publication number Publication date
US20060247925A1 (en) 2006-11-02
CN1855041A (zh) 2006-11-01
TW200705253A (en) 2007-02-01

Similar Documents

Publication Publication Date Title
CN100530085C (zh) 实现虚拟语音一键通功能的方法和装置
US11900017B2 (en) Optimizing display engagement in action automation
RU2710984C2 (ru) Совершение задачи без монитора в цифровом персональном помощнике
US8744852B1 (en) Spoken interfaces
JP4420968B2 (ja) コマンディングのために方法及びコンピュータ可読媒体
CN1790326B (zh) 同步自然语言输入元素和图形用户界面的系统和方法
JP5249755B2 (ja) セマンティックリッチオブジェクトによる動的なユーザエクスペリエンス
KR102064952B1 (ko) 수신 데이터를 이용하여 어플리케이션을 운영하는 전자 장치
TWI510965B (zh) 輸入方法編輯器整合
CN105659194B (zh) 用于屏幕上键盘的快速任务
JP2009059378A (ja) ダイアログを目的とするアプリケーション抽象化のための記録媒体及び方法
US20040145601A1 (en) Method and a device for providing additional functionality to a separate application
JP2023017956A (ja) ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話
JP2004310748A (ja) ユーザ入力に基づくデータの提示
CN101164054A (zh) 自动提示列表和手写输入
EP2891041B1 (en) User interface apparatus in a user terminal and method for supporting the same
JP2006506698A (ja) マルチメディア・ファイルのツールチップ
US20140068517A1 (en) User interface apparatus in a user terminal and method for supporting the same
EP1501268A1 (en) Combining use of a stepwise markup language and an object oriented development tool
JP2005149485A (ja) 逐次的なマルチモーダル入力
US20090150787A1 (en) Data processing device
CN109997111A (zh) 跨应用的内容处理
CN105359131B (zh) 栓系选择句柄
US11163377B2 (en) Remote generation of executable code for a client application based on natural language commands captured at a client device
US20200396315A1 (en) Delivery of apps in a media stream

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20091030

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20091030

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090819

Termination date: 20210329

CF01 Termination of patent right due to non-payment of annual fee