CN102460346A

CN102460346A - 触摸任何地方来讲话

Info

Publication number: CN102460346A
Application number: CN2010800263948A
Authority: CN
Inventors: A·K·沙利文; L·施蒂费尔曼; K·J·李; 梁淑君
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2009-06-10
Filing date: 2010-06-10
Publication date: 2012-05-16
Also published as: TW201044265A; TWI497406B; US8412531B2; HK1169725A1; WO2010144732A3; EP2440988B1; BRPI1010584A2; US20100318366A1; BRPI1010584B1; EP2440988A2; AU2010258675B2; CA2760993C; CA2760993A1; AU2010258675A1; WO2010144732A2; EP2440988A4; RU2526758C2; RU2011150255A

Abstract

本发明提供了通过使用移动计算设备上的触摸任何地方来讲话模块以提供按压讲话交互的用户界面。在接收触摸屏界面的屏幕上触摸任何地方的指示后，触摸任何地方来讲话模块激活语音识别模块的收听机构来接受可听见的用户输入并且显示接收到的可听见输入的测量到的声音等级的动态视觉反馈。触摸任何地方来讲话模块还可通过使用和应用相对于与口头的可听见输入相关联的触摸的上下文(例如，视觉界面上的相对位置)的数据向用户提供方便和更准确的语音识别体验。

Description

触摸任何地方来讲话

发明背景

诸如移动电话和个人数字助理等移动计算设备已经成为当今社会普遍存在的技术。这些设备通常提供允许用户通过多个输入机构(例如，数字键盘、键盘、触摸屏、语音识别等等)与各种移动应用交互的界面。最近，用于输入的语音识别技术正在兴起。使用语音识别，用户语音命令被获取为音频文件，并且要么通过位于移动设备上的嵌入式语音识别模块处理，要么通过无线连接转移到服务器，在服务器上处理这些命令。接合语音识别模块的收听机构的一种方法是通过按压讲话交互模型，这允许用户通过输入机构在应用应该开始录音以及机构停止录音的时候发出信号。许多移动应用设备将已有的硬件按键、软按键、或者触摸屏界面上按钮的定义的边界用作接合语音识别模块的收听机构的输入机构。

由于各种因素，不仅限于小的按键尺寸、难以标识或引用的按键、和/或用户对于按钮位置存在盲点(例如，位于移动设备的侧面)，通过诸如按钮、滚轮等软按键或专用硬件界面输入可能是不方便的。即便按钮对于给定应用是可标识、可引用的和可用的，并且位于人体工学的位置，但是用户可能会从事使其难以看其移动设备和/或难以定位按钮的另一任务(例如，步行、开车等)。在使用诸如按钮等专用硬件界面以进行语音识别的收听模式时，由于它在设备上的位置，按它可能会遮住话筒，这将不利地影响语音识别的性能。

现在许多移动计算设备使用触摸屏界面。触摸屏可具有与传统电话的按钮、传统键盘的按键以及各移动任务对应的可选择的图形对象。触摸屏和包括触摸屏的输入设备有时候难以操作。例如，使用指尖激活触摸屏的用户可轻易地在该用户不想激活触摸屏的位置触摸触摸屏的活动的表面区域。在许多情况下，这一无意的激活将造成执行无意的功能。

本发明正是对于这些和其他考虑事项而做出的。

发明内容

本发明的各实施例被指定为提供移动计算设备上的用户界面，该用户界面用于提供屏幕上目标区域的最大数量以发起语音识别模块的收听。根据各实施例，用户可按移动计算设备的触摸屏上的任何地方以激活语音识别交互中的收听。取代了需要用户看其移动计算设备的对难以定位的按钮的搜索或按小的静电按键，整个触摸屏是用于激活语音识别模块的收听设备的输入机构。

根据一实施例，当移动计算设备接收在其触摸屏界面上触摸任何地方的指示时，收听机构被激活并且启用以接收语音输入，并且可响应于接收触摸屏界面上触摸任何地方的指示，生成确认以通知用户收听机构已被激活。根据另一实施例，指示接收到的语音输入的测量到的声音级别的视觉反馈可在触摸屏上接收到触摸的位置提供。

根据本发明的另一实施例，显示(屏)的上下文还可用作除了语音输入以外的输入以完成一系列任务。例如，附加的上下文输入可帮助缩小搜索结果以向用户提供改进的语音识别体验。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。可以理解，前述一般描述和以下详细描述均仅是说明性的，且不限制所要求保护的本发明。

提供本概述是为了以简便的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图简述

图1是示例移动计算设备的示图。

图2是示出可充当本发明实施例的示例性操作环境的移动计算设备的各组件的简化框图。

图3是使用触摸任何地方来讲话模块以在移动计算设备上使收听机构接合语音识别交互的计算体系结构的简化框图。

图4是示出使用触摸任何地方来讲话模块以使收听机构接合语音识别交互的方法的逻辑流程图。

图5是由触摸任何地方来讲话模块提供的示例视觉反馈的示图。

图6是由触摸任何地方来讲话模块提供的示例音量计显示的示图。

图7是示出使用触摸任何地方来讲话模块以及结合标识和使用触摸的上下文数据，以使收听机构接合语音识别交互的方法的逻辑流程图。

具体实施方式

如以上所简述，本发明的实施例涉及在移动计算设备上使收听机构接合语音识别交互。通过按移动计算设备屏幕的任意给定区域，触摸任何地方来讲话(TATS)模块激活语音识别模块的收听机构以接受用户口语输入，使得语音识别模块可将口语单词转化为机器可读的输入。语音识别应用可在移动计算设备上用于各种任务，包括但不限于，语音拨号(例如，“呼叫鲍伯”)、打开网络搜索(例如，“加利福尼亚州旧金山市的披萨”以找到旧金山市的披萨餐馆)、以及语音到文本处理(例如，文本消息和电子邮件)。

目前存在许多用于在移动计算设备上使收听机构接合语音识别交互的输入方法，但是每个都具有其自己的一系列不利因素，并且有时展现出超出了使用语音识别的好处的困难。许多用户使用语音识别是因为他们正在分心的环境中使用其移动计算设备(即，在走路或开车时)，这使得难以看他们的屏幕来使用硬件按键、软按键、或者触摸屏界面上定义的按钮边界来执行任务。本发明的各实施例使用移动计算设备屏幕上最大数量的目标区域来激活收听机构，提供了不需视线交互的使用。用本发明的各实施例来开始语音识别的收听模块不需要用户看他/她的屏幕来知道他/她有没有按中特定的目标区域，也不需要他/她看或摸索触觉按钮以保证他/她正在按正确的按键。

当用户用他/她的手指、指示笔或其他选择设备按或保持移动计算设备的屏幕时，触摸任何地方来讲话模块可给出视觉、听觉或触觉指示、或者以上三者的结合，以指示收听机构被激活并且语音识别模块准备好获取语音输入。当接收到用户用他/她的语音输入完成的指示时，触摸任何地方来讲话模块可以给出另一指示(视觉、听觉或触觉、或三者的结合)以指示收听机构被取消激活。语音识别模块可在设备上本地地或通过连接到可处理数据的服务器的无线连接远程地处理数据。语音识别应用然后可接收识别的输出，并且然后可激活给定的应用，显示给定的信息，或者执行用户已经通过语音识别应用指示的给定的任务。

根据另一实施例，TATS模块还可被实现为现有用户界面上的“层”。当被实现为现有用户界面上的“层”时，TATS模块可同时使用视觉界面的上下文敏感信息以及开放式的语音命令来帮助用户完成一系列任务。基于移动设备屏幕的上下文和/或用户触摸的屏幕上的位置，可确定用户语音输入的上下文。例如，如果用户正在查看他/她移动计算设备上的地图，他/她可触摸地图界面的特定区域并说“电影院”。TATS模块可接收“电影院“这一口语输入以及用户触摸的地图界面上的上下文感知的位置，来提取与接近与地图界面的触摸区域相关联的地理区域的电影院相关的信息。作为另一个示例，通过触摸图片或网页并说“发送给鲍伯“，用户可发送触摸的对象给识别的联系人鲍伯。

以下详细描述参考各附图。只要可能，就在附图和以下描述中使用相同的标号来指示相同或相似的元素。尽管可能描述了本发明的各实施例，但是修改、改编和其他实现也是可能的。例如，可对附图中所示出的元素进行置换、添加、或修改，并且可通过对所公开的方法置换、重新排序、或添加阶段来修改此处所描述的方法。因此，以下详细描述并不限制本发明，相反，由所附权利要求定义了本发明的合适范围。

应当明白，本发明的各种实施例可被实现为(1)运行于计算机系统上的一系列计算机实现的动作或程序模块，和/或(2)计算机系统内互连的机器逻辑电路或电路模块。该实现是取决于实现本发明的计算系统的性能要求来选择的。因此，包括相关算法的逻辑操作可被不同地称为操作、结构设备、动作或模块。本领域技术人员将认识到，这些操作、结构设备、动作和模块可用软件、固件、专用数字逻辑、及其任意组合实现，而不背离如本文中阐述的权利要求内陈述的本发明精神和范围。

以下是对合适的移动计算设备的描述，例如，可用来实践本发明的各实施例的移动电话。参考图1，示出了实现各实施例的示例移动计算设备100。在基本配置中，移动计算设备100是同时具有输入元件和输出元件的手持式计算机。输入元件可包括允许用户将信息输入到移动计算设备100的触摸屏显示105和输入按钮115。移动计算设备100还可包含允许进一步用户输入的可任选的侧输入元件125。可任选的侧输入元件125可以是旋转开关、按钮、或任何其他类型的手动输入元件。在替换实施例中，移动计算设备100可包含更多或更少的输入元件。例如，在某些实施例中，显示器105可以是触摸屏。在另一替换实施例中，移动计算设备是便携式电话系统，诸如具有显示器105和输入按钮115的蜂窝电话。移动计算设备100还可包括可任选的键区115。可任选键区115可以是在触摸屏显示器上生成的物理键区或“软”键区。

移动设备100包含诸如可显示图形用户界面(GUI)的显示器105等输出元件。其他输出元件包括扬声器130和LED光120。此外，移动计算设备100可包含振动模块(未示出)，该振动模块使得移动计算设备100振动以将事件通知给用户。在又一实施例中，移动计算设备100可包含用于提供另一装置的耳机插孔(未示出)，该装置提供输出信号。

尽管此处结合移动设备100来描述，但在替换实施例中可与任何数量的计算机系统结合使用本发明，诸如台式环境、膝上型计算机或笔记本计算机系统、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、小型计算机、大型计算机等等。本发明的各实施例也可在分布式计算环境中实践，其中任务由在分布式计算环境中通过通信网络链接的远程处理设备来执行，程序可位于本地和远程存储器存储设备中。总结而言，任何具有多个环境传感器、多个提供通知给用户的输出元件以及多个通知事件类型的计算机系统可包含本发明的各实施例。

图2是示出在一个实施例中使用的移动计算设备各组件的框图，诸如图1所示的计算设备。也就是说，移动计算设备100(图1)可以包含系统200以实现某些实施例。例如，系统200可用于实现能够运行一个或多个与台式或笔记本计算机相似的应用的“智能电话“，这些应有诸如例如浏览器、电子邮件、日程表、即时消息以及媒体播放应用。系统200可以执行操作系统(OS)，诸如华盛顿州雷德蒙市微软公司的WINDOWS XP

和WINDOWS CE

等。在某些实施例中，系统200被集成为计算设备，诸如集成的个人数字助理(PDA)和无线电话。

一个或多个应用程序266可被载入存储器262并且在操作系统264上运行或者与其结合运行。应用程序的示例包括电话拨号程序、电子邮件程序、PIM(个人信息管理)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息传送程序等等。系统200还包括存储器262内的非易失性存储268。非易失性存储268可用于存储如果系统200关机也不应被丢失的持续信息。应用266可使用和存储非易失性存储268中的信息，诸如由电子邮件应用使用的电子邮件或其他消息等。同步应用(未示出)还驻留在系统200上并且可被编程，以用于与驻留在主机计算机上的对应的同步应用进行交互，以将存储在非易失性存储268中的信息与存储在主机计算机处的对应信息保持同步。应该明白，其他应用可被载入存储器262并且在设备100上运行。

根据一个实施例，触摸任何地方来讲话应用265被用于激活语音识别模块的收听机构，该收听机构被用于从用户处接收语音信息以用于如以下所述的各应用。

系统200具有可被实现为一个或多个电池的供电电源270。供电电源270还可包括外接电源，诸如补充或给电池重新充电的AC适配器或供电底座。

系统200还可包括执行发送和接收无线电频率通信的功能的无线电装置272。无线电装置272便于在系统200和“外界“之间通过通信载体或服务提供者的无线连接。在OS 264的控制下进行到达和来自无线电装置272的传输。换句话说，由无线电装置272接收的通信可通过OS 264传递到应用程序266处，反之亦然。

无线电装置272允许系统200诸如通过网络与其他计算设备通信。无线电装置272是通信介质的一个示例。通信介质通常由诸如载波或其他传输机构等已调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据来体现，并且包括任何信息传递介质。术语“已调制数据信号“指的是一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接等的有线介质，以及诸如声学、RF、红外及其他无线介质等的无线介质。如此处所使用的术语计算机可读介质既包括存储介质又包括通信介质。

系统200的这一实施例用两种类型的通知输出设备示出，可用于提供视觉通知的LED 120以及可与扬声器130一起使用用来提供音频通知的音频接口274。这些设备可被直接耦合至供电电源270，从而当它们被激活时，仍在由通知机构指定的持续时间内保持开着，即便处理器260和其他组件可能为了保存电池电量而关闭。LED 120可被编程为无限地保持开着，直到用户采取指示设备的开机状态的动作。音频接口274用于向用户提供音频信号并且从用户处接收音频信号。例如，除了被耦合至扬声器130之外，音频接口274还可被耦合至话筒以接收音频输入，诸如为了便于电话对话。如以下将描述的，根据本发明的各实施例，话筒还可充当便于控制通知的音频传感器。

系统200还可包括启用板载照相机135的操作以记录静止图像、视频流等的视频接口276。

移动计算设备实现系统200可具有附加特征或功能。例如，设备还可包括附加数据存储设备(可移动的/或不可移动的)，诸如磁盘、光盘或磁带。此类附加存储在图2中由存储268示出。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。

如以上所述，由设备100生成或获取并且通过系统200存储的数据/信息可被本地地存储在设备100上，或者这些数据可被存储在可由设备通过无线电装置272或者通过设备100以及与设备100相关联的单独的计算设备330之间的有线连接来访问的任何数量的存储介质上，单独的计算设备330例如在诸如因特网等分布式计算网络320中的服务器计算机。应当明白，这些数据/信息可由设备100通过无线电装置272或通过分布式计算网络320访问。类似地，这些数据/信息可根据包括电子邮件和协作数据/信息共享系统在内的众所周知的数据/信息传输和存储手段在计算设备之间容易地传输以用于存储和使用。

图3是使用触摸任何地方来讲话(TATS)模块265以开始移动计算设备100上语音识别模块330的收听的的计算体系结构的简化框图。根据一个实施例，在指示由TATS模块265接收移动计算设备100的屏幕105上的触摸后，识别接收到的音频输入的语音识别过程可通过如图4所示的语音识别体系结构实现。应当明白，图4所示的语音识别体系结构330可与TATS模块265集成，或者图4所示的语音识别体系结构可由TATS模块265调用以获得对音频输入的识别。

根据一个实施例，一旦给定的音频输入被识别为例如“纽约市的披萨“的文本串并且被标识为与例如网络搜索的给定任务相关联，动作模块340可被激活以将识别的文本串传递给本地信息源310，或者通过分布式计算网络320传递给远程源350以用于检索适用于文本串的信息。例如，如果音频输入“鲍伯“被识别模块330识别为用户地址簿或联系人列表中的联系人，则动作模块340可将标识的文本串传递给本地源310所包含的所有信息源和/或通过分布式计算网络320传递给远程源350处所包含的所有信息源以用于获得与选定的文本串相关联的可用信息。根据一个实施例，动作模块340可向用户提供执行与识别的联系人有关的移动任务的选项。再次参考以上用户说“鲍伯“并且输入被识别为用户地址簿中的联系人的示例，动作模块340可向用户提供执行例如打电话、或发送电子邮件或即时消息给识别的联系人鲍伯的动作的选项。

与来自每个可用源的文本串相匹配的信息可被返回至TATS模块265，以提供给用户用于在所需软件应用或移动任务中的后续使用。例如，如果发现音频输入“鲍伯“与两个可能匹配相匹配，则两个匹配条目都可在他/她的移动计算设备100上显示的用户界面中向用户展现，以允许用户选择他/她想要的条目。一旦用户选择了他/她想要的条目，则如以下更为详细描述的，选定的文本串可被传递给一个或多个移动或软件应用。应当明白，语音识别模块330可被编程为用于识别许多数据类型，例如命令、地址、地理位置、书名、电影名等。如果与用户想要的条目不匹配的选项被展现给用户，则用户可按或保持移动计算设备100的屏幕105以再次提供音频输入，或者他/她可按显示的匹配区域外的位置以避免必须返回至先前按和说话的输入屏幕。

图4是示出提供触摸任何地方来讲话(TATS)模块265以在移动计算设备100上使收听机构接合语音识别交互的方法的逻辑流程图。已经参考图1至3描述了本发明的示例性操作环境和各实施例的各方面，这有利于描述本发明的一实施例的示例操作。接着参考图4，方法400在开始操作405处开始，并且进行到操作410，在该操作处TATS模块265被用户选择并打开。用户可通过已知的输入方法打开TATS模块265，例如触摸表示移动计算设备100的屏幕105上的TATS模块265的图标或文本串。

在TATS模块265被打开之后，方法进行到操作415，在该操作处TATS模块接收对移动计算设备100的触摸屏105上的触摸任何地方的指示。应当明白，触摸可以是用户手指的触摸或者通过诸如指示笔等设备的触摸。根据本发明的各实施例，接收到的触摸是在语音识别交互中启用收听模块的方法。也就是说，本发明的各实施例使用户能够在设备100的触摸敏感屏幕105上触摸任何地方以向语音识别模块指示开始收听音频输入。与通过诸如硬连线的侧输入元件125等替换输入方法的按下讲话交互对比，本发明的各实施例允许用户在设备100的屏幕105上触摸任何地方以接合收听机构，这些侧输入元件可以是旋转开关、按钮、或任何其他类型的手动输入元件、硬件输入按钮115、软按键、触摸屏界面105上定义的按钮边界、或其他已知的输入元件。

根据一个实施例，触摸可以是按和保持交互模型的组件，其中用户触摸屏幕105以激活收听，在他/她提供音频输入时将他/她的手指(或者其他用于触摸屏界面的机构)保持在屏幕上，并且然后放开他/她的手指或其他触摸机构以使收听被取消激活。根据另一个实施例，触摸可以是按和放开交互模型，这就像前一个模型，用户触摸屏幕105以激活收听，但是，在放开他/她的手指或其他触摸机构后，语音识别应用330仍保持收听模式。如果在给定长度的时间内确定安静，则收听机构可通过对后续触摸的指示来取消激活，或者通过另一种方法，即对语音结束的指示是可由给定应用检测的。

在对触摸的指示由TATS模块265接收后，在操作420处，可给出反馈以确认接收到触摸。根据一个实施例并且如与图4相关联的图5所示，反馈505可以是视觉反馈(例如，屏幕105上的动画显示)、音频反馈(例如，通过扬声器130播放的音频音调)、触觉反馈(例如，震动)、或者以上三者的结合。根据一个实施例，视觉反馈505可指示用户已经触摸屏幕105的位置。例如，如图5所示，可在屏幕105上显示图像505以警示用户在图像显示的位置已经接收到对触摸的指示。反馈可警示用户TATS模块265已经接收到触摸输入，并且相应地，如图4所示的操作425处示出的，收听机构已经被激活。根据一个实施例，TATS模块265可发送确认接收到触摸的反馈给用户(操作420)，并且同时激活收听机构(操作425)。根据另一实施例，操作420可在操作425之前发生。根据另一实施例，操作425可在操作420之前发生。

一旦收听机构被激活，语音识别模块330准备好从用户处接收音频输入。在操作430处，用户可讲话，并且他/她所述的话语可由收听机构接收。本领域的技术人员应当明白，语音识别是已知的技术，并且将不在本文详细讨论。

在操作431处，当正在接收说话方式430时，说话方式的测量的声音级别的视觉反馈可在屏幕上显示。参考与图4相关联的图6，反馈可以是音量计605。根据一个实施例，音量计可以被呈现为随着检测到更大的音量从触摸位置发散出来的一系列同心圆。根据另一实施例，同心圆可随着音量增加而改变颜色或填充。如图6所示，在移动计算设备100的屏幕105上显示了反映用户说话音量的示例音量计605。在这一示例中，用户正在说话的音量被显示为检测到最大音量为5级的3级音量。如果用户说话更大声，则下一个外部的圆将改变颜色或阴影以让用户知道他的音量提高了。如果用户说话更柔和，则有颜色或阴影的圆的数量将减少以让用户知道他的音量降低了。这一动画显示是提供视觉反馈和帮助自我校正的方法。

仍然参考图4，在用户完成他/她的说话方式后，在操作435处，接收对结束收听模式的指示。如前所述，根据一个实施例，可使用按和保持交互模型，其中用户触摸屏幕105以激活收听，在他/她提供音频输入时将他/她的手指(或者其他用于触摸屏界面的机构)保持在屏幕上，并且然后放开他/她的手指或其他触摸机构以指示TATS模块265使收听被取消激活。根据另一实施例，可使用按和放开交互模型，其中对结束收听的指示可以通过对后续触摸的指示。根据另一实施例，检测到的给定长度的时间的安静可以是对收听机构结束收听的指示。应当明白，其他方法可用于指示用户通过说话并且为应用退出收听模式。

一旦接收结束收听的指示，在操作440处，收听机构被取消激活，并且语音识别模块330不再接收音频输入直到它接收再次激活收听机构的指示。在操作445处，TATS模块265确认它已经接收到使收听被取消激活的指示并且随后收听机构已经被取消激活。根据一个实施例，确认可以是视觉反馈、音频反馈、触觉反馈、或以上三者的结合。根据一个实施例，操作440和445可同时发生。根据另一实施例，操作440可在操作445之前发生。根据另一实施例，操作440可在操作445之后发生。

在操作450处，接收的频输入被发送到语音识别模块，其中音频输入可被转化为数字数据、分析并且确定用户说了什么。语音识别模块330可被嵌入到移动计算设备100上或者远程地放置并且通过连接到服务器的无线连接访问。一旦识别了语音，它可以被发送到动作模块340以执行所识别出的用户想要的功能。例如，如果确定了用户说“德克萨斯州达拉斯市的电影列表”，则动作模块340可通过无线连接发送数据到搜索引擎以检索德克萨斯州达拉斯市区域内当前的电影列表信息。在操作455处，检索到的数据随后可被发送给用户并且在移动计算设备的屏幕105上显示。根据一个实施例，提取的数据可需要使用其他移动应用。例如，为了搜索电影列表，可能需要启用浏览器应用以检索给定的数据。方法在操作460处结束。

如前面所简述，本发明的实施例包括除了使用开放式语音命令之外，使用视觉界面的上下文敏感信息以帮助用户完成一系列任务。图7是示出用于提供触摸任何地方来讲话(TATS)模块265以在移动计算设备100上使收听机构接合语音识别交互的方法的逻辑流程图，其中用户触摸的屏幕的上下文可被标识并且结合接收的音频输入使用。

根据一个实施例，TATS模块265可被用于使用与触摸相关联的数据以不仅接合语音识别模块330的收听机构，还在正在被触摸的位置的上下文或者其他上下文数据内接合收听机构。基于移动设备100的屏幕105的上下文，和/或用户触摸的屏幕105上的位置，TATS模块265可确定用户语音输入的上下文。相应地，提供更多的目标信息给用户。例如，如果用户正在查看他移动计算设备100上的地图，并且他触摸地图界面的特定区域并说“咖啡”，则TATS模块265可接收“咖啡“这一口语输入以及地图界面上用户触摸触摸屏的上下文感知的位置，以提取与咖啡相关的信息以及由地图界面的被触摸的区域指定的位置。如果用户正在查看与前一个示例中相同的地图并且说“咖啡“，但是触摸地图界面的不同点，则由于上下文位置输入改变了，因此返回的结果可能是不同的。用口语数据实现上下文视觉数据可启用很大的一系列可用应用。例如，在触摸地图界面时说指令命令(例如，“放大“)可产生与说想要搜索查询的话语不同的结果。

接着参考图7，方法700在开始操作705处开始，并且进行到操作710，在该操作处TATS模块265被用户选择并打开。用户可通过已知的输入方法打开TATS模块265，例如触摸表示移动计算设备100的屏幕105上的TATS模块265的图标或文本串。

在TATS模块265被打开之后，方法进行到操作715，在该操作处TATS模块接收对移动计算设备100的触摸屏105的上下文区域内的触摸的指示。应当明白，触摸可以是用户手指的或者通过诸如指示笔等设备的手段的触摸。根据本发明的各实施例，接收到的触摸是在语音识别交互中启用收听模块的方法。本发明的各实施例使用户能够在设备100的触摸敏感屏幕105上的上下文区域内触摸以向语音识别模块指示开始收听音频输入。

根据一个实施例，触摸可以是按和保持交互模型的组件，其中用户触摸屏幕105以激活收听，在他/她提供音频输入时将他/她的手指(或者其他用于触摸屏界面的机构)保持在屏幕的上下文区域上，并且然后放开他/她的手指或其他触摸机构以使收听被取消激活。根据另一个实施例，触摸可以是按和放开交互模型，这就像前一个模型，用户触摸屏幕105的上下文区域以激活收听，但是，在放开他/她的手指或其他触摸机构后，语音识别应用330仍保持收听模式。如果在给定长度的时间内确定安静，则收听机构可通过对后续触摸的指示被取消激活，或者通过另一种方法，即对语音的结尾的指示是给定应用可由检测的。

在对触摸的指示由TATS模块265接收后，在操作720处，可给出反馈以确认接收到触摸。根据一个实施例，反馈505可以是视觉反馈(例如，屏幕105上的动画显示)、音频反馈(例如，通过扬声器130播放的音频音调)、触觉反馈(例如，震动)、或者以上三者的结合。根据一个实施例，视觉反馈505可指示用户已经在屏幕105上触摸的位置。例如，重新参考图5，可在屏幕105上显示图像505以警示用户在图像显示的位置已经接收到对触摸的指示。反馈505可警示用户TATS模块265已经接收到触摸输入，并且相应地，如图7所示的操作725处示出的，收听机构已经被激活。根据一个实施例，TATS模块265可发送确认接收到触摸的反馈给用户(操作720)，并且同时激活收听机构(操作725)。根据另一实施例，操作720可在操作725之前发生。根据另一实施例，操作725可在操作720之前发生。

一旦收听机构被激活，语音识别模块330准备好从用户处接收音频输入。在操作730处，用户可讲话，并且他/她的所述的话语可由收听机构接收。本领域的技术人员应当明白，语音识别是已知的技术，并且将不在本文详细讨论。

在操作731处，当所说的话语正在被接收时730，如先前参考图4中的操作431所述，所说的话语的测量到的声音等级的视觉反馈605可显示在屏幕105上被提供为中心围绕着接收到触摸的触摸屏幕105上的区域。

继续至操作732，TATS模块265可标识触摸的上下文数据并且确定对与标识的上下文数据相关联的触摸的标识。在操作733处，触摸的标识可被传递给TATS模块265。例如，如果用户正在查看城市的地图，则他/她可触摸地图的特定区域并且说话。在用户触摸的屏幕界面上显示的地图的特定区域可被读取和标识为特定的维度和经度，在这一维度和经度内结合接收的口语数据使用以执行所识别的用户想要的功能。

在操作735处，接收结束收听模式的指示。相应地，在操作740处，收听模式被取消激活并且在操作745处，给出收听机构已经被取消激活的确认。

在操作750处，接收的音频输入被发送到语音识别模块，其中音频输入可被转化为数字数据、被结合标识的触摸的上下文数据进行分析，并且被确定用户说了什么。语音识别模块330可被嵌入到移动计算设备100上或者远程地放置并且通过连接到服务器的无线连接访问。一旦识别了语音，它可以被发送到动作模块340以执行所识别的用户想要的功能。根据一个实施例，触摸的上下文数据的标识和使用可在过程中的各阶段处发生，而不是必须在操作750处。

在操作755处，提取的数据接着可被发送到用户并且在移动计算设备的屏幕105上显示。根据一个实施例，检索到的数据可能需要使用其他移动应用。方法在操作760处结束。

根据一个实施例，按和保持交互可启用某些语音识别功能；而替代地，按和放开交互可启用其他功能。例如，如果用户在他的移动设备100的屏幕105上触摸他/她的手指并且移动他/她的手指离开屏幕105，则TATS模块265可启用用于语音识别交互的收听机构。但是，如果他在他的移动设备100的屏幕105上触摸他/她的手指并且把他/她的手指留在屏幕105上，则TATS模块265可启用用于在触摸的上下文中的语音识别交互的收听机构。根据这一示例，按和保持动作造成TATS模块265的不同，以除了音频输入之外还应用视觉界面的上下文。应当明白可存在在想要的交互应用之间有区别的其他方法。

尽管已结合各个实施例描述了本发明，但本领域的技术人员将理解，可在所附权利要求的范围内对其作出许多修改。

Claims

1.一种为语音识别交互模块提供输入功能的方法，包括：

接收触摸移动计算设备的触摸屏界面上的任何地方的指示；415

在接收到触摸触摸屏界面上任何地方的指示后，激活语音识别模块的收听机构；425以及

显示由语音识别模块接收的话语的测量到的声音级别的动态视觉反馈，其中所显示的视觉反馈被呈现为中心围绕着接收到触摸的触摸屏上的区域。431

2.如权利要求1所述的方法，其特征在于，还包括

响应于接收到触摸移动计算设备的触摸屏界面上的任何地方的指示，生成确认。420

3.如权利要求1所述的方法，其特征在于，接收触摸移动计算设备的触摸屏界面上的任何地方的指示包括接收触摸和保持移动计算设备的触摸屏界面上的任何地方的指示。415

4.如权利要求1所述的方法，其特征在于，激活语音识别模块的收听机构包括：

确定触摸屏界面是否已经接收到触摸；415以及

激活收听机构。425

5.如权利要求2所述的方法，其特征在于，确认接收到触摸触摸屏界面上的任何地方的指示是以视觉反馈的形式。420

6.如权利要求2所述的方法，其特征在于，确认接收到触摸触摸屏界面上的任何地方的指示是以听觉反馈的形式。420

7.如权利要求2所述的方法，其特征在于，确认接收到触摸触摸屏界面上的任何地方的指示是以触觉反馈的形式。420

8.如权利要求2所述的方法，其特征在于，确认接收到触摸触摸屏界面上的任何地方的指示是以听觉、视觉和/或触觉反馈的结合的形式。420

9.一种为语音识别交互模块提供输入功能的方法，包括：

接收移动计算设备的触摸屏界面上的上下文区域内触摸的指示；715以及

在接收到触摸屏界面上的上下文区域内触摸的指示后：

标识触摸的上下文数据并且确定与标识的上下文数据相关联的触摸的标识；732

将触摸的标识传递给一个或多个软件应用；733

激活语音识别模块的收听机构；725

接收所说的话语；730

使用与标识的上下文数据750相关联的触摸的标识，并且基于标识的上下文数据造成一个或多个软件应用的功能的执行；以及

显示由语音识别模块接收的话语的测量到的声音级别的动态视觉反馈，其中所述显示的视觉反馈被提供为中心围绕着触摸屏上接收到上下文区域内的触摸的区域。731

10.如权利要求9所述的方法，其特征在于，还包括响应于接收到移动计算设备的触摸屏界面上的上下文区域内的触摸的指示，生成确认。720

11.如权利要求10所述的方法，其特征在于，确认接收到触摸屏界面上的上下文区域内的触摸的指示是以听觉反馈、视觉反馈、触觉反馈、或三者的结合的形式。720

12.如权利要求9所述的方法，其特征在于，接收移动计算设备的触摸屏界面上的上下文区域内的触摸的指示的步骤包括接收移动计算设备的触摸屏界面上的触摸屏界面上的上下文区域内触摸和保持接收的指示。715

13.一种包含计算机可执行指令的计算机可读介质，该计算机可执行指令在由计算机执行时执行为语音识别交互模块提供输入功能的方法，包括：

接收触摸移动计算设备100的触摸屏界面105上的任何地方的指示；

激活语音识别模块的收听机构330；

响应于接收到触摸移动计算设备的触摸屏界面上的任何地方的指示，生成确认；以及

显示由语音识别模块接收的话语的测量的声音级别的动态视觉反馈605，其中所述显示的视觉反馈被呈现为中心围绕着接收到上下文区域内的触摸的触摸屏上的区域。

14.如权利要求13所述的计算机可读介质，其特征在于，所述接收触摸移动计算设备100的触摸屏界面105上的任何地方的指示包括接收触摸屏上的上下文区域内的触摸的指示。

15.如权利要求14所述的计算机可读介质，其特征在于，接收触摸屏界面105上上下文区域内的触摸的指示包括：

接收一部分触摸屏界面上的触摸，在触摸屏界面中给定的信息由通过移动计算设备100操作的软件应用显示；

标识与触摸屏界面上的上下文区域相关联的上下文数据；

通过与标识的上下文数据有关的语音识别模块330的激活的收听机构接收口语方式；

将表示接收的口语方式的指令传递给用于执行与标识的上下文数据有关的功能的一个或多个软件应用266；以及

使软件应用266用于执行与标识的上下文数据有关的功能并且在触摸屏界面105上显示执行的功能的结果。