CN106687908B

CN106687908B - 用于调用话音输入的手势快捷方式

Info

Publication number: CN106687908B
Application number: CN201580049785.4A
Authority: CN
Inventors: R.J.迪萨诺; A.D.佩雷拉; L.J.斯蒂费尔曼; J-K.马基维奇; S.J.兰德里; C.克莱因
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-09-15
Filing date: 2015-09-14
Publication date: 2020-09-18
Anticipated expiration: 2035-09-14
Also published as: EP3195101A1; US20160077793A1; CN106687908A; WO2016044108A1; EP3195101B1; CN106687908A8

Abstract

提供了用于响应于预配置手势发起全系统话音转文本听写服务的系统、方法和计算机储存介质。数据输入区（独立于它们从其被呈现给用户的应用）被配置成至少检测一个或多个输入事件。由系统控制的手势收听器过程被配置成检测对应于数据输入区的预配置手势。预配置手势的检测产生输入事件，输入事件被配置成调用针对对应的数据输入区的话音转文本会话。预配置手势可以被配置成使得任何可视的屏幕上可供件（例如，虚拟键盘上的扩音器按钮）被省略以维持美学上的纯净并且另外提供对听写服务的全系统访问。这样，听写服务通常可用于整个操作系统各处的任何数据输入区，而不需要屏幕上可供件来发起服务。

Description

用于调用话音输入的手势快捷方式

背景技术

在触摸屏计算设备中实现的手势快捷方式通过提供与所期望的事件相关联的按需控件并规避传统的静态输入方法（即，用于接收控制输入的键盘按键或指定按钮）来促进用户体验。虽然手势快捷方式的现存实现方式可以利用按需输入控件来帮助用户，输入自身一般限于直接从手势自身检索的信息（即，向上划动（swipe）意味着向上滚动，向下划动意味着向下滚动）。某些应用已尝试通过包括话音转文本识别服务来提供附加的按需输入控件。然而，用户当前限制于使用传统的静态控制器来调用这样的服务，或在某些情况下以资源消耗型的始终开启的收听模式（即，经由可访问性的工具）进行操作。另外，这些话音转文本识别服务仅在提供这样的服务的应用中可用。

发明内容

提供本发明内容以便以简化形式介绍选出的一些概念，它们在具体实施方式中在下面进一步描述。本发明内容不旨在识别所要求保护的主题的关键特征或必要特征，其也不旨在用于帮助确定所要求保护的主题的范围。

在各种实施例中，提供了用于响应于手势快捷方式触发而发起基于系统的话音转文本听写服务的系统、方法和计算机储存介质。独立于应用的数据输入区（data inputfield）被呈现在遍及系统的任何地方，并且被配置成至少检测一个或多个输入事件。手势收听器过程是可操作的并且被配置成检测对应于数据输入区之一的预配置手势。手势收听器过程可以在检测到预配置手势和基于该预配置手势产生输入事件时可操作地调用话音转文本会话。预配置手势可以被配置成省略任何种类的可见屏幕上可供件（affordance）（例如，虚拟键盘上的扩音器按钮）以维持美学上的纯净并且另外提供对于话音转文本会话的全系统（system-wide）访问。

附图说明

本发明通过示例而非限制的方式在附图中图示，在附图中，相同的附图标记表示相似的元件，并且在附图中：

图1是适合用于实现本发明实施例的示例性计算环境的框图；

图2示意性地示出了适合于执行本发明实施例的系统图；

图3A-3D是用于开始话音转文本会话的示例性预配置手势的各阶段，其特别地利用瞬时屏幕上可供件图示了在数据输入区中划动的序列；

图4是类似于图3A-3D的用于开始话音转文本会话的示例性预配置手势，其特别地利用固定的屏幕上可供件图示了在数据输入区中划动的序列；

图5是用于开始话音转文本会话的示例性预配置手势，其特别地图示了焦点在数据输入区中的从边框（bezel）开始划动的序列；

图6A-6C是用于开始话音转文本会话的示例性预配置手势的各阶段，其特别地图示了在数据输入区中双击的序列；

图7A-7C是用于开始话音转文本会话的示例性预配置手势的各阶段，其特别地图示了按压并保持以及“按压以说话（push-to-talk）”的序列；

图8A-8C是用于开始话音转文本会话的示例性预配置手势的各阶段，其特别地图示了在数据输入区上悬停的序列；

图9A-9B是用于开始话音转文本会话的示例性预配置手势的各阶段，其特别地图示了在数据输入区中的所选数据上悬停的序列；以及

图10是示出用于响应于手势快捷方式触发而发起基于系统的话音转文本听写服务的示例性方法的流程图。

具体实施方式

本发明的主题在本文中具体地描述以满足法定要求。然而，描述自身不旨在限制此专利的范围。相反，发明人已预期，结合其它当前的或未来的技术，所要求保护的主题还可以以其它方式体现，以包括与此文档中描述的那些步骤或步骤组合类似的不同步骤或步骤组合。此外，尽管术语“步骤”和/或“框”在本文中可以用于指示所采用的方法的不同元素，但是除非和除了当明确地描述了单独步骤的顺序时，这些术语不应解释为暗示本文公开的各种步骤之间或之中的任何特定顺序。

一些软件应用可以提供屏幕上可供件（例如，虚拟键盘上的扩音器按钮），其用于为用户提供调用话音听写服务（即，话音转文本）的控件。然而，通常屏幕上可供件在特定应用中并不总是容易可见的，或者甚至并不总是可用于全系统层次上（即，整个平台各处的任何应用）的调用。例如，除非数据输入区（诸如文本输入框）被选择用于数据输入，包括屏幕上可供件的键盘将不是容易地可用于轻易调用听写服务。另外，如果特定应用未被配置成提供听写服务，则数据输入将最终需要由用户手动执行。除非被特别设计成提供听写服务，大多数应用可能不能访问系统层次的听写服务以便进行基于话音的数据输入。

本文描述的技术的各种方面一般涉及用于响应于手势快捷方式触发（在本文中也称为“预配置手势”）而发起基于系统的话音转文本听写服务的系统、方法和计算机可读储存介质。被配置成识别或检测用于调用话音转文本会话的预配置手势的手势收听器过程一般是活动的，同时任何可用数据输入区处于屏幕上和/或可用于输入。在一些实施例中，手势收听器过程独立于应用并遍及整个计算系统连续运行。预配置手势可以被配置成省略任何种类的可见的屏幕上可供件（例如，虚拟键盘上的扩音器按钮）以维持美学上的纯净并另外提供对听写服务的全系统访问。听写服务的全系统可访问性和可使用性拓宽了输入方法的可用性并且进一步优化了用户体验。

因此，本发明的一个实施例涉及储存计算机可使用指令的一个或多个计算机储存介质，所述指令在被一个或多个计算设备使用时促使该一个或多个计算设备执行用于响应于预配置手势而发起全系统话音转文本听写服务的操作。该操作包括呈现被配置成至少检测一个或多个输入事件的数据输入区的实例。检测对应于数据输入区的预配置手势，该检测全系统地执行。产生基于对应于数据输入区的预配置手势的输入事件。该输入事件被配置成调用针对该数据输入区的话音转文本会话。

本发明的另一实施例涉及一种用于响应于预配置手势而发起全系统话音转文本听写服务的计算机实现的方法。数据输入区或其实例被呈现在显示器上，并且被配置成至少检测一个或多个输入事件。处理器在全系统层次上检测对应于数据输入区的预配置手势。输入事件基于对应于数据输入区的预配置手势而产生。输入事件被配置成调用针对数据输入区的话音转文本会话。预配置手势包括用户和计算设备之间的物理交互。该交互在手势发起区域内开始，并且在手势终止区域内结束。在一些实施例中，手势发起和终止区域可以是共用或部分共用的。话音转文本会话在至少识别到交互时被调用。在一些实施例中，手势发起区域不包括与话音转文本会话相关的屏幕上可供件。屏幕上可供件在听写服务的领域中一般被认为是用于发起话音转文本会话的用户界面控件。

本发明的又一实施例包括一种用于响应于预配置手势而发起全系统话音转文本听写服务的系统。该系统包括一个或多个处理器和储存计算机可使用指令的一个或多个计算机储存介质。当由一个或多个处理器使用时，该指令促使该一个或多个处理器检测对应于数据输入区并且可操作以调用针对该数据输入区的话音转文本会话的预配置手势。预配置手势包括手势发起区域和手势终止区域。手势发起区域不包括与话音转文本会话相关的屏幕上可供件，并且手势终止区域位于数据输入区的第一端和第二端之间。在至少检测到预配置手势时，话音转文本会话被调用。在发生超时事件、用户与瞬时屏幕上可供件的交互、在实际或虚拟键盘上执行的击键、焦点远离活动的数据输入区的移除、话音命令或者用户完成或终止执行预配置手势时，话音转文本的会话中断。

已经简要描述了本发明实施例的概述，本发明的实施例可以在其中实现的示例性操作环境将在下面被描述，以便提供本发明的各种方面的一般背景。概括地参考这些附图并且特别地首先参考图1，用于实现本发明实施例的示例性操作环境被示出并被一般地指定为计算设备100。计算设备100仅仅是合适的计算环境的一个示例，并且其不旨在对本发明实施例的使用或功能的范围提出任何限制。计算设备100也不应被解释为具有涉及图示的任何一个组件或组件的任何组合的任何依赖性或需要。

本发明的实施例可以在计算机代码或机器可使用指令的一般背景下描述，包括由计算机或其它机器（诸如个人数据助理或其它手持设备）执行的计算机可使用或计算机可执行指令（诸如程序模块）。一般地，程序模块包括例程、程序、对象、组件、数据结构等，和/或指执行特定任务或实现特定抽象数据类型的代码。本发明的实施例可以在各种系统配置（包括手持设备、消费电子产品、通用计算机、更专业的计算设备等）中实践。本发明的实施例还可以在任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。

继续参考图1，计算设备100包括直接或间接地耦合下述设备的总线110：存储器112、一个或多个处理器114、一个或多个呈现组件116、一个或多个输入/输出（I/O）端口118、一个或多个I/O组件120以及说明性电源122。总线110表示可以是一个或多个总线（诸如地址总线、数据总线或其组合）的事物。尽管图1的各个框为了清楚起见被利用线条示出，实际上这些框表示的是逻辑的、而不一定是实际的组件。例如，人们可以将诸如显示设备的呈现组件认为是I/O组件。另外，处理器具有存储器。本发明发明人认识到这是本领域的本质，并且重申图1的图仅仅是用作说明可以与本发明的一个或多个实施例相关联地使用的示例性计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等的类型之间没有做出区分，因为这些全部被设想为处于图1的范围内，并且被称为“计算设备”。

计算设备100典型包括多种计算机可读介质。计算机可读介质可以是计算设备100可访问的任何可用介质，并且包括易失性和非易失性介质两者、可移除和不可移除介质两者。计算机可读介质包含计算机储存介质和通信介质；计算机储存介质排除信号本身。计算机储存介质包括以用于储存信息（诸如计算机可读指令、数据结构、程序模块或其它数据）的任何方法或技术实现的易失性和非易失性的、可移除和不可移除的介质。计算机储存介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术，CD-ROM、数字通用盘（DVD）或其它光盘储存器，磁带盒、磁带、磁盘储存器或其它磁性储存设备，或可用于储存所需信息并且可由计算设备100访问的任何其它介质。

另一方面，通信介质在诸如载波或其它运输机制的调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息递送介质。术语“调制数据信号”意指一种信号，其特性中的一个或多个以在信号中编码信息的方式被设置或改变。通过示例而非限制的方式，通信介质包括有线介质（诸如有线网络或直接有线的连接）以及无线介质（诸如声学、RF、红外和其它无线介质）。上述任何项的组合也应被包括在计算机可读介质的范围之内。

存储器112包括形式为易失性和/或非易失性存储器的计算机储存介质。存储器可以是可移除的、不可移除的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备100包括从诸如存储器112或I/O组件120的各种实体读取数据的一个或多个处理器。（多个）呈现组件116向用户或其它设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。

I/O端口118允许计算设备100逻辑地耦合到其它设备（包括I/O组件120），它们中的一些可以是内置式的。说明性的I/O组件包括扩音器、操纵杆、游戏板、卫星盘、扫描仪、打印机、无线设备、控制器（诸如触笔（stylus）、键盘和鼠标）、自然用户界面（NUI）等。

NUI处理空中手势（即，与用户的手或多个手、或者用户身体的其它部分相关联的运动或移动）、话音或由用户产生的其它生理输入。NUI实现下述内容的任何组合：语音（speech）识别、触摸和触笔识别、面部识别、生物识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼部追踪以及与计算设备100上的显示器相关联的触摸识别。计算设备100可以装配有一个或多个触摸数字化器和/或深度相机，诸如立体相机系统、红外相机系统、RGB相机系统以及它们的组合，以用于直接手势和/或悬停手势的检测和识别。另外，计算设备100可以装配有使得能够实现运动检测的加速度计或陀螺仪。加速度计或陀螺仪的输出被提供给计算设备100的显示器，以渲染沉浸式增强现实或虚拟现实。

本文描述的主题的各方面可以在由计算设备执行的诸如程序模块的计算机可执行指令的一般背景中描述。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序，对象、组件、数据结构等。本文描述的主题的各方面还可以在任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。在分布式计算环境中，程序模块可以位于包括存储器储存设备的本地和远程计算机储存介质两者中。

另外，尽管术语“听写”或“话音转文本”在本文中可互换地使用，但是将认识到，类似地，这些术语可以指服务，其还可以包括服务器、客户端、分布在一个或多个计算机上的一组一个或多个过程、一个或多个独立式储存设备、一组一个或多个其它计算或储存设备、能够发送和/或接收包含人类听写的音频流并将听写转换成文本的任何应用、过程或设备。

如之前提到的，本发明的实施例一般涉及用于响应于识别预配置手势而发起基于系统的话音转文本听写服务的系统、方法和计算机可读储存介质。数据输入区或其实例被呈现，并且可以被配置成接收用户输入数据。在实施例中，数据输入区被配置成至少检测一个或多个输入事件。检测对应于数据输入区的预配置手势。在一些实施例中，不管应用如何，手势收听器过程遍及整个系统是可用的，并且被配置成检测预配置手势。输入事件基于对应于数据输入区的预配置手势而被产生。输入事件被配置成调用针对数据输入区的话音转文本会话。预配置手势包括用户和计算设备之间的物理交互。该交互可以在手势发起区域内开始并且在手势终止区域内结束。在至少识别到交互时，调用话音转文本会话。在一些实施例中，手势发起区域不包括与话音转文本会话相关的屏幕上可供件。屏幕上可供件在本领域中一般被认为是针对话音转文本会话的控制用户界面。

现在参考图2，提供了框图，其图示了包括本发明的实施例可以在其中被采用的全系统听写服务201的示例性操作系统200。一般地，计算系统200图示了一环境，其中对应于数据输入区的预配置手势可以在全系统层次被检测，并且基于预配置手势的输入事件被产生以用于调用话音转文本会话。在未示出的其它组件之间，操作系统200一般可以包括利用外壳组件202（即用户界面）的听写服务201、平台组件204（即运行时环境或软件框架）和服务组件205。服务组件205可以包括网络组件206（例如互联网、LAN）和数据库组件208。网络组件206可以包括但不限于一个或多个局域网（LAN）和/或广域网（WAN）。这样的网络环境在办公室、企业范围的计算机网络、内联网和互联网中是常见的。在一些实施例中，网络组件206对于计算系统200的操作而言不是必要的。因此，网络206在本文中不会被进一步地描述。

应理解，在本发明实施例的范围内，对于促进全系统听写服务201必要的任何数量的计算设备可以在操作系统200中被采用。每个计算设备可以包含单个设备/接口或在分布式环境中配合的多个设备/接口。例如，听写服务201可以包含布置在分布式环境中的多个设备和/或模块，这些设备和/或模块共同提供本文描述的听写服务201的功能。另外，未示出的其它组件或模块也可以被包括在计算系统内。

在一些实施例中，所图示的组件/模块中的一个或多个可以作为独立式应用而被实现。在其它实施例中，所图示的组件/模块中的一个或多个可以经由计算设备、听写服务201实现或者作为基于互联网的服务来实现。本领域的普通技术人员将会理解，图2所图示的组件/模块在本质和数量上是示例性的，并且不应被解释为限制。可以采用任何数量的组件/模块来实现本发明的实施例的范围内的期望功能。另外，组件/模块可以位于任何数量的听写服务和/或用户计算设备上和/或由任何数量的听写服务和/或用户计算设备共享。仅以示例的方式，听写服务201可以作为单个计算设备、计算设备群或远离一个或多个其余组件的计算设备而被提供。另外，听写服务201的组件可以由单个实体或多个实体提供。例如，一个计算设备上的外壳组件202可以提供与手势检测相关的听写服务201的各方面，而第二计算设备（未示出）可以提供平台组件204。在另一实例中，一个或多个二级或三级计算设备（未示出）可以提供服务组件205的各方面。任何和所有的这样的变型被预期为处于本文的实施例的范围内。

应理解，本文描述的这种和其它布置仅作为示例而被阐述。在所示的那些布置和元件之外或替代所示的那些布置和元件，可以使用其它布置和元件（例如机器、接口、功能、顺序和功能分组等），并且一些元件可以完全地省略。另外，本文描述的许多元件是功能性实体，其可以作为离散或分布式组件实现或连同其它组件一起实现，和以任何合适的组合和位置实现。本文中描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件执行。例如，各种功能可以由执行储存于存储器中的指令的处理器执行。

计算设备可以包括任何类型的计算设备，诸如例如参考图1描述的计算设备100。一般地，计算设备包括显示器，并且能够显示、调度或发起来自电子日历的任务或事件或充当广告的主机。计算设备另外被配置成接收基于经由计算设备呈现给用户的广告的用户输入或选择。应注意，本文中描述为由计算设备和/或听写服务201执行的功能可以由任何操作系统、应用、过程、网络浏览器执行，或经由对操作系统、应用、过程、网络浏览器或能够以其它方式提供听写服务和/或数据输入区检测的任何设备的可访问性来执行。还应注意，本发明的实施例同样适用于移动计算设备和接受触摸、手势和/或话音输入的设备。任何和所有这样的变型及其任何组合被预期为处于本发明实施例的范围内。

图2的听写服务201除其它配置方式之外被配置成响应于检测预配置手势而提供基于系统的话音转文本听写服务。如所图示的，在各种实施例中，听写组件201包括外壳组件202和平台组件204。所图示的听写服务201还可以访问服务组件205，包括网络组件206和数据库组件208。服务组件205可以包括网络206，其一般被配置成提供用于在系统200利用的计算设备之间传输信号、事件和数据的通信装置。数据库组件208是被配置成保存一个或多个用户的记录和听写解读数据的数据储存部。数据可以是用户特定的，使得数据储存部保存用户对于听写特定单词或使用特定方式进行通信的倾向的记录。数据储存部还可以收集非用户特定的数据，使得数据储存部在不确定的时间段保存和“学习”听写方式和词汇。另外，尽管被图示为一个组件，数据库组件208实际上可以是多个储存设备，例如数据库群，它的各部分可以与听写服务201、运行操作系统200的计算设备，另一外部计算设备（未示出）和/或其任何组合相关联地驻留。

网络组件206是被配置成促进运行操作系统200的计算设备和数据库组件208之间的通信的网络。网络组件206可以是互联网、局域网（LAN）或无线网络。如本领域普通技术人员可以领会的，服务组件205（包括网络组件206和数据库组件208）可以一起驻留或者驻留在多个计算设备中以提供“云”服务。数据库组件208的至少一部分还可以驻留在计算设备操作系统200上，以在网络不可访问的情境下允许话音转文本的转换。另外，尽管被图示为与操作系统200分离，但是数据库组件208实际上可以是运行操作系统200（包括听写服务201）的计算设备的一部分。

操作系统200的并且被听写服务201利用的外壳组件202被配置成识别传送至/自（to and from）用户的事件（即，图形用户界面）。外壳组件202通常包括被配置成渲染一个或多个数据输入区210的用户界面（UI）框架。数据输入区210（例如，文本框、URL地址框、终端提示、文本消息输入区域、单词处理器输入提示、搜索框、计算器输入提示等）或其实例可以在遍及操作系统的任何地方（包括在应用和/或外壳用户界面内）被呈现给用户。如本文将描述的，实质上，由UI框架渲染和配置的数据输入区210可操作以与输入服务216通信。数据输入区210还订阅和/或收听各种输入事件（例如鼠标事件、键盘事件、手势事件等）以用于利用它们执行随后的动作。关于检测手势事件，通过检测预配置手势的手势收听器过程212，可以经由UI框架向（多个）数据输入区210通知手势事件。如本文将描述的，手势收听器过程212可以检测对应于数据输入区的预配置的听写会话“调用”手势，其最终调用针对对应的数据输入区的听写会话。

听写服务201与（多个）数据输入区210通信，使得在手势收听器过程212检测到对应于数据输入区210的预配置手势时，输入事件（例如手势事件）由手势收听器过程212产生，并且被发送到（多个）数据输入区210以用于处理。尽管被图示为与手势收听器过程212直接通信，数据输入区210实际上可以与被配置成处理由手势收听器过程212产生的输入事件的操作系统200或听写服务201的任何组件或模块通信。

手势收听器过程212（其是平台组件204的组件并且由听写服务201利用）可操作以在检测到对应于数据输入区的预配置手势时调用话音转文本会话。如将在图4-7中描述的，对应于数据输入区的预配置手势包括用户和计算设备之间的物理交互，其中该交互在手势发起区域内开始并且在手势终止区域内结束。在一些实施例中，交互的至少一部分包括基本由数据输入区定义的区域。在至少识别或检测到交互时，发起话音转文本会话。尽管未图示，语音收听器过程（未示出）也可以在发起听写管理器214时被调用。在这样的实施例中，用户在听写的同时执行或基本上执行预配置手势的组合可以可操作以发起话音转文本会话。如将在本文中进一步描述的，这样的组合可以被配置成使得预配置手势必须在听写之前完成，或者替代地，预配置手势必须在听写期间被执行。

手势收听器过程212还被配置成消除对于包括屏幕上可供件（例如，虚拟键盘上的扩音器按钮）以发起话音转文本会话的需要。如本领域普通技术人员可以领会的，利用触摸屏技术的许多计算设备需要使用当提示用户输入数据时出现的虚拟键盘。虚拟键盘一般是繁琐的，并且利用大量的屏幕空间。即使这样，虚拟键盘被设计成在触摸或选择数据输入区后仅向该数据输入区提供输入数据，随后实例化虚拟键盘，并且然后经由键盘键入或借助屏幕上可供件发起话音转文本会话。通过消除对于实例化虚拟键盘的需要以及借助执行手势来调用话音转文本会话，提供听写服务的步骤显著减少。此外，如将要描述的，手势可以被配置成允许用户简单地通过将手势终止区域配置成基本处于期望的数据输入区的物理边界内，来选择哪个数据输入区将接收听写输入数据。

手势收听器过程212在识别到对应于数据输入区210的预配置手势时（并且有时一起识别语音），可以向对应的数据输入区210发送信号或输入事件。对应的数据输入区210被配置成向输入服务216发送信号或输入事件。输入服务216（其是平台组件204的子组件）被配置成识别系统中的所有数据输入区210，并处理通过它们递送的输入事件。进而，输入服务216向听写管理器214传送信号或输入事件，听写管理器214被配置成管理听写服务201的过程和流程。听写管理器214促进外壳组件202和平台组件204之间的通信，并且负责管理听写服务201的输入和输出。这样，在从一个或多个数据输入区210接收到与其对应的预配置手势已被检测到的指示时，通过输入事件经由其被传送的方式，听写管理器214可操作以提供用于将经转换的话音转文本输入数据录入到对应的数据输入区的话音转文本会话。提供话音转文本会话的听写服务的基本功能在本领域中通常是已知的；然而，本文将进一步描述对基本组件的描述。

在发起话音转文本会话时，听写管理器214至少包括外壳组件202模块和/或功能以及平台组件204模块和/或功能。如所描述的，（多个）数据输入区210是与输入服务216通信的外壳组件，输入服务216进而与听写管理器214通信。（多个）数据输入区除其它配置方式之外被配置成在其中接收和呈现经转换的听写数据（例如话音转文本数据），该数据由语音平台222提供，这将在本文中进一步描述。语音平台222向听写管理器214提供经转换的听写数据，该听写管理器214然后将经转换的听写数据储存到由输入服务216管理的编辑缓冲器（未示出）。这样，如图示的，经转换的听写数据通过输入服务216的方式被发送到对应的数据输入区210并由其呈现。

由听写管理器214提供的外壳组件202功能还包括视觉反馈218和听觉反馈220。视觉反馈218功能可以包括手势识别状态、听写开始/停止提示、用于发起话音转文本会话的瞬时屏幕上可供件、用于终止话音转文本会话的屏幕上可供件等。换句话说，由听写管理器214提供的视觉反馈218通常可以向用户提供听写服务201状态指示符和控制输入。听觉反馈220功能可以类似地包括手势识别状态、听写提示、听写反馈等。由听写管理器214提供的听觉反馈220通常可以向用户提供听写服务201状态指示符。

如上面简要地提到的，听写管理器214与语音平台222通信，语音平台222一般包含具体指向在听写服务201中提供话音转文本功能的操作环境和运行时库。语音平台222在从听写管理器214接收到话音转文本会话待被调用的信号或通知之后，为听写管理器214提供到语音引擎226的接口。语音平台222还可操作以确定听写状态。例如，如果用户以静默暂停结束听写，则语音平台可以提供确定超时事件224的功能，并将超时事件224传送到听写管理器以便进行行动。语音平台222还与语音引擎226通信，话音引擎226包含用于提供话音转文本转换的软件。

与语音平台222接合以与听写管理器214通信的语音引擎226被配置成提供对于促进话音转文本转换而言必要的语音识别技术。如图所示，语音引擎226与服务组件205（包括外部网络206和数据库208）通信。如上面描述的，服务组件205可以被配置作为被配置成提供话音转文本转换数据的云服务。尽管将语音引擎226图示为是计算设备平台204的一部分，但是语音引擎226可以替代地被配置作为云服务的一部分，使得语音平台222经由网络226与语音引擎226通信。替代地，语音引擎可能不一定需要与网络206和数据库208通信以使得能够实现听写服务。因此，语音引擎226可以被配置成单独在本地计算设备上提供话音转文本转换数据。

现在参考图3A-3D，提供了用于开始话音转文本会话的示例性预配置手势的各阶段，其特别图示了在数据输入区中划动的序列300。在数据输入区中划动的序列300中，预配置手势包括数据输入区310，其具有位于数据输入区的第一端312附近的手势发起区域311和位于数据输入区的第二端316附近的手势终止区域314。预配置手势需要手势发起区域311和手势终止区域314之间的连续且流畅的物理交互，该交互在用户和计算设备的触摸屏之间。在图示的实施例中，显示了瞬时浮动扩音器图标318。在实施例中，图标只在执行手势时显现其自身。在一些方面，图标可以显示为偏离手势终止区域314，使得手势序列300需要在连续且流畅地向图标318延续手势的下一步骤将发起话音转文本会话之前完成。在一些其它方面，如图4所图示的，图标318可以替代地固定在终止区域314内，使得从手势发起区域311到手势终止区域314（图标318被固定在该处）的划动将指示期望发起话音转文本会话。

现在参考图5，提供了用于开始话音转文本会话的示例性预配置手势，其特别地图示了从边框到数据输入区划动的序列500。在从边框到数据输入区划动的序列500中，用户被呈现以触摸屏计算设备，其呈现了与触摸屏显示器512无缝的边框510。显示器512呈现可操作以接收输入数据的至少一个数据输入区514、515、516。边框呈现手势发起区域518，手势发起区域518基本位于边框区域510顶部，优选接近电容性主页按钮（home button）520或其变型。预配置手势需要手势发起区域518和手势终止区域之间的连续和流畅的物理交互，该手势终止区域是数据输入区514、515、516或处于数据输入区514、515、516的第一端526和第二端528之间的任何区域。在一些方面，预配置手势可以通过检测哪个数据输入区被选作手势终止区域来向听写服务传送多个数据输入区之间的哪个数据输入区被期望用于话音转文本输入。在一些其它方面中，如果数据输入区已经在焦点中，则预配置手势终止区域可以被配置成在触摸屏显示器上距边框任何距离。在一些实施例中，从边框手势发起区域到活动触摸屏显示器的边缘上的快速滑动触摸可以发起话音转文本会话。在其它实施例中，从边框开始从零延伸到大约一英寸的相同滑动触摸可以发起话音转文本会话。

现在参考图6A-C，提供了用于开始话音转文本会话的示例性预配置手势的各阶段，其特别图示了数据输入区内双击的序列600。如本领域技术人员可领会的，双击一般是从用户到触摸屏计算设备的用于调用过程的两次连续的交互或“敲击”。如还可以领会的，两次连续敲击之间的暂停一般是短暂（即0.1至0.8秒）但合理的，并且有时可以通过系统设置来配置。在数据输入区中双击的序列600中，预配置手势包括数据输入区610，其具有共用或部分共用的手势发起区域612和手势终止区域614。发起区域612和终止区域614两者都位于数据输入区610的第一端616和第二端618之间。在一些方面，手势终止区域614在用户短暂地敲击发起区域612之后被确定。在一些其它方面中，操作系统可以被配置成提供对双击的全系统的识别，使得数据输入区内的双击的识别将发起话音转文本会话。预配置手势需要对于发起区域612和终止区域614进行两次快速和连续或连贯的触摸或敲击来发起话音转文本会话。

现在参考图7A-7C，提供了用于开始话音转文本会话的示例性预配置手势的各阶段，其特别图示了按压并保持的序列700。在按压并保持的序列700中，预配置手势包括数据输入区710，其具有共用或部分共用的手势发起区域712和手势终止区域714，其中两个区域712、714都位于数据输入区710的第一端716和第二718端之间。按压并保持序列700可以类似于按压以说话情景，其中持续按压共用或部分共用的手势区域712、714达预确定时间限制将发起话音转文本会话。在一些方面，手势将需要在执行听写时持续按压或接触该共用或部分共用的手势区域712、714，如由在图7C中描绘的假设的持续按压所图示的。换句话说，话音转文本会话将仅在手势区域712、714被交互激活时是活动的。在一些其它方面中，达预确定时间的对共用或部分共用的手势区域712、714的持续按压或交互将发起话音转对话会话，其中一旦被激活，用户就可以中断该按压或交互并继续进行听写。在这些方面中，超时事件（诸如用户听写之后的预定义的静默时段）可以终止话音转文本会话。在一些其它方面，屏幕上可供件或视觉指示符720可以在手势导致话音转文本会话的即将发生的激活或实际激活时被呈现。其它方面可以检测在实际或虚拟键盘上执行的键击，焦点远离活动数据输入区的移除，或话音命令（例如用户说“停止收听”）。

现在参考图8A-8C，提供了用于开始话音转文本会话的示例性预配置手势，其特别图示了数据输入区上悬停的序列800。在数据输入区上悬停的序列800中，预配置手势包括数据输入区810，其具有共用或部分共用的手势发起区域812和手势终止区域814。发起区域812和终止区域814两者都位于数据输入区810的第一端816和第二端818之间。在一些方面，手势终止区域814在用户在发起区域812之上悬停819超过预确定时间段之后被确定。这样，用户的交互设备（例如手指或触笔）在数据输入区810上悬停预确定时间段可以发起话音转文本会话。在一些方面，当用户在发起区域812上悬停时，可以呈现屏幕上可供件或视觉指示符820，以为用户提供关于话音转文本会话的即将发生的激活或实际激活的反馈。

现在参考图9A-9B，类似于图8A-8C，提供了用于开始话音转文本会话的示例性预配置手势，其使用数据输入区上悬停的序列800。为了将图示的手势与图8A-8C的手势进行区分，示例性预配置手势900指向，利用数据输入区上悬停的序列800，来开始用于覆写数据输入区中的所选数据的话音转文本会话。代替简单地在数据输入区810上悬停，用户将在数据输入区810中预先选择现存输入数据910。这样，在实施例中，手势发起区域912和手势终止区域914位于由所选择的现存输入数据910定义的边界内。

现在参考图10，提供了图示用于响应于预配置手势来发起全系统话音转文本听写服务的方法1000的流程图。如步骤1010所示，数据输入区或其实例被呈现并被配置成至少检测一个或多个输入事件。数据输入区可以是能够从用户接收输入的任何输入区（例如文本框、URL地址栏、搜索栏、计算器输入提示、文本消息输入提示、电话号码提示、电子邮件消息输入提示等）。

至少在呈现数据输入区时，手势收听器过程正在运行。如步骤1012所示，可以在全系统可用的手势收听器过程被配置成检测对应于数据输入区的预配置手势。预配置手势可以包括用户和计算设备之间的任何物理交互（例如触摸、滑动、悬停、划动、敲击等）。一般地，这样的物理交互在手势发起区域内开始并在手势终止区域内结束，其中在识别到执行预配置手势的过程或其实际完成时，调用话音转文本会话。在一些方面，预配置手势的实质执行或实际执行还可以需要检测到调用话音转文本会话的语音。如步骤1014所示，对应于数据输入区的预配置手势的检测（在一些实施例中与语音的检测相结合）产生输入事件。输入事件被配置成调用针对数据输入区的话音转文本会话。

在一些方面，手势发起区域不包括任何与发起话音转文本会话相关的屏幕上可供件或控件。在一些其它方面，屏幕上可供件可以是瞬时的，使得用于发起话音转文本会话的屏幕上可供件变得可见，并且在实质或实际执行预配置手势时可以与之交互。

如可以理解的，本发明的实施例可以提供中止话音转文本会话的方法。例如，话音转文本会话可以在预确定时段的静默（例如听写之后的5秒的静默）后中止。另外，话音转文本会话可以通过与仅在预配置手势的实质或实际执行之后出现的瞬时屏幕上可供件的交互来中止。其它实施例可以提供通过检测下述各项来中止话音转文本会话的方法：在实际或虚拟键盘上执行的键击、焦点远离活动数据输入区的移除、或话音命令（例如用户说“停止收听”）。最后，在需要在听写期间连续执行预配置手势的实施例（即，本文描述的按压以说话的实施例）中，预配置手势执行的终止可以中止话音转文本会话。

本发明已经关于特定实施例而被描述，这些实施例在所有方面旨在是说明性而非限制性的。在不脱离本发明范围的情况下，替代实施例对于本发明所属领域的普通技术人员而要将变得显而易见。

在本发明可被进行各种修改和替代构造的同时，它的某些图示的实施例在附图中示出并且已经在上面详细地描述。然而应理解，不存在将本发明限制于所公开的具体形式的意图，恰恰相反，意图将覆盖落入本发明的精神和范围内的所有修改、替代构造和等同物。

Claims

1.一个或多个非瞬态计算机储存介质，其存储计算机可使用指令，所述计算机可使用指令在由一个或多个计算设备使用时，使得所述一个或多个计算设备执行操作，所述操作包括：

提供文本数据输入区以用于在触摸屏显示器上显示；

当流畅的触摸屏手势通过所显示的所述文本数据输入区被接收时，逐渐显示与所显示的所述文本数据输入区相对应的瞬时屏幕上可供件，其中所述瞬时屏幕上可供件被逐渐显示以指示话音转文本会话的即将发生的激活；

基于确定在所述瞬时屏幕上可供件被显示时所述流畅的触摸屏手势与所述瞬时屏幕上可供件进行交互，针对所显示的所述文本数据输入区调用所述话音转文本会话，其中所述瞬时屏幕上可供件被完全显示以指示所调用的所述话音转文本会话；

基于所述话音转文本会话针对所显示的所述文本数据输入区被调用，经由完全显示的所述屏幕上可供件接收使得所调用的所述话音转文本会话被终止的不同的触摸输入。

2.根据权利要求1所述的一个或多个非瞬态计算机储存介质，所述话音转文本会话进一步地基于对经由麦克风接收的语音的检测而被调用。

3.根据权利要求1所述的一个或多个非瞬态计算机储存介质，其中所述流畅的触摸屏手势从所显示的所述文本数据输入区的第一端开始被接收。

4.根据权利要求1所述的一个或多个非瞬态计算机储存介质，其中所述流畅的触摸屏手势至少部分地通过所显示的所述文本数据输入区、在所述文本数据输入区的第一端和与所述第一端相对的所述文本数据输入区的第二端之间被接收。

5.根据权利要求1所述的一个或多个非瞬态计算机储存介质，其中所述流畅的触摸屏手势开始于所述触摸屏显示器的边框。

6.根据权利要求1所述的一个或多个非瞬态计算机储存介质，所述操作还包括：响应于所述不同的触摸输入经由完全显示的所述屏幕上可供件被接收，终止所调用的所述话音转文本会话。

7.一种计算机实现的方法，包括：

由耦合到触摸屏显示器的计算设备提供文本数据输入区以用于显示；

由所述计算设备确定经由所述触摸屏显示器接收到的连续的预配置触摸屏手势的进度，其中所述连续的预配置触摸屏手势对应于所显示的所述文本数据输入区；

当所述连续的预配置触摸屏手势通过所显示的所述文本数据输入区被接收时，逐渐显示与所确定的所述进度相对应的屏幕上可供件；

基于确定在所述屏幕上可供件被显示时所述连续的预配置触摸屏手势与所述屏幕上可供件进行交互，针对所显示的所述文本数据输入区调用话音转文本会话，其中所述屏幕上可供件被完全显示以指示所调用的所述话音转文本会话；

基于与完全显示的所述屏幕上可供件相对应的接收到的触摸输入，终止所调用的所述话音转文本会话。

8.根据权利要求7所述的计算机实现的方法，其中所述话音转文本会话进一步部分地基于经由麦克风接收到的语音数据而被调用。

9.根据权利要求7所述的计算机实现的方法，其中所述连续的预配置触摸屏手势在所显示的所述文本数据输入区的第一端开始，并且逐渐显示的所述屏幕上可供件位于所显示的所述文本数据输入区的第二端。

10.根据权利要求7所述的计算机实现的方法，其中所述连续的预配置触摸屏手势从所述计算设备的边框上的第一位置处开始。

11.根据权利要求7所述的计算机实现的方法，其中所述连续的预配置触摸屏手势包括在所显示的所述文本数据输入区内的位置处按压并保持至少预定的持续时间。

12.根据权利要求7所述的计算机实现的方法，其中所述连续的预配置触摸屏手势包括在对应于所显示的所述文本数据输入区的位置上悬停至少预定的持续时间。

13.一种计算机化系统，包括：

一个或多个处理器；和

一个或多个计算机储存介质，其存储计算机可使用指令，所述可使用指令在由所述一个或多个处理器使用时，使得一个或多个处理器：

显示文本数据输入区；

接收与所显示的所述文本数据输入区相对应的连续的预配置触摸屏手势；

基于被接收的所述连续的预配置触摸屏手势的所确定的进度，逐渐显示与所显示的所述文本数据输入区相对应的屏幕上可供件；

基于确定所述连续的预配置触摸屏手势与所述屏幕上可供件进行交互，针对所显示的所述文本数据输入区调用话音转文本会话，其中当所述话音转文本会话被调用时，所述屏幕上可供件被完全显示；

响应于与完全显示的所述屏幕上可供件相对应的接收到的触摸输入，终止所调用的所述话音转文本会话。

14.根据权利要求13所述的计算机化系统，其中所述话音转文本会话进一步基于经由麦克风接收的语音数据而被调用。

15.根据权利要求13所述的计算机化系统，其中使得逐渐显现的所述屏幕上可供件接收所述触摸输入进一步部分地基于所调用的所述话音转文本会话。

16.根据权利要求13所述的计算机化系统，其中所述连续的预配置触摸屏手势至少部分地通过所显示的所述文本数据输入区、在所显示的所述文本数据输入区的第一端和与所述第一端相对的所显示的所述文本数据输入区的第二端之间被接收。