CN103729126A

CN103729126A - 移动设备语音激活

Info

Publication number: CN103729126A
Application number: CN201310624853.8A
Authority: CN
Inventors: 霍艾·恩古延
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-10-11
Filing date: 2013-10-11
Publication date: 2014-04-16
Anticipated expiration: 2033-10-11
Also published as: GB2507002B; DE102013016913B4; GB201318007D0; CN103729126B; GB2507002A; DE102013016913A1; US8543397B1

Abstract

本发明涉及移动设备语音激活。移动计算机化设备接收包括按钮激活的第一用户输入的指示来发起按下说话语音搜索。该设备从用户接收包括一个或者多个搜索词语的说出的搜索短语，并且接收包括释放激活的按钮以指示用户已经完成说出的搜索短语的第二用户输入的指示。响应于接收到第二用户输入，该移动设备使用在说出的搜索短语中的一个或者多个搜索词语来产生搜索查询。在进一步的示例中，计算机化移动设备显示通过语音到文本转换从说出的搜索短语中获得的一个或者多个可能的文本搜索短语，接收指示哪一个可能的文本搜索短语是期望的搜索短语的用户输入，并且使用期望的搜索短语作为在产生搜索查询中使用的一个或者多个搜索词语。

Description

移动设备语音激活

背景技术

可以被智能手机、平板电脑和其他移动计算机化设备使用的应用品种繁多且数量巨大。很多智能手机和平板计算机都关联于或者能连接到一个或者多个应用商店或者市场，并且通常包括多种预先安装的提供基本功能集合的应用(例如，电话、相机、web浏览器和导航工具)。

用户通常通过在覆盖或者结合到显示器上的触摸屏进行输入能够与这样的应用交互。例如，设备可以检测手指是否按压到固定图像触摸屏按钮和／或检测手指在较大触摸屏显示器的上方、附近或者上面的存在以及位置。这一功能使得用户能够按压虚拟或者显示的按钮来执行功能，例如使用电话应用来拨打电话号码，使用全球定位系统(GPS)应用来导航，或者使用虚拟键盘输入文本(例如，编写消息，浏览互联网内容等)。

一些智能手机因此使用语音搜索能力，其使得用户能够选择例如文本框的输入区域，触摸按钮来发起语音输入，说出期望的文本短语以及根据对语音输入的正确识别来点击“OK”按钮。尽管这相对于使用在触摸屏显示器上的很小的虚拟键盘来输入消息来说更为明显的简单，但是其仍然需要用户的明确的触摸屏交互和注意力来完成使用语音输入的文本区域的输入。这能够在驾驶或者行走时分散注意力，并且涉及足够的步骤，造成相对使用虚拟键盘的文本输入所获的效率不那么明显。

发明内容

在一个示例中，一种计算机化移动设备接收包括按钮激励的第一用户输入的指示，该按钮激励与语音输入操作相关联。响应于接收到第一用户输入，发起语音输入操作，并且利用语音输入操作来接收包括一个或者多个搜索词语的用户说出的搜索短语。该计算机化移动设备接收包括按钮激励的终止的第二用户输入的指示，其指示用户说出的搜索短语的完成，并且响应于接收到第二用户输入的指示，使用用户说出的搜索短语中的一个或者多个搜索词语来产生搜索查询。

在更进一步的示例中，计算机化移动设备显示通过语音-文本转换从说出的搜索短语中获取的一个或者多个类似文本的搜索短语，接收用户选择输入的指示，该指示表明一个或者多个类似文本的搜索短语中的哪一个是期望的搜索短语，并且将该期望的搜索短语用作在产生搜索查询中使用的一个或者多个搜索词语。

在另一个示例中，计算机化设备接收包括按钮激励的第一用户输入的指示，其中该按钮激励指示用户期望发起按下说话语音输入。计算机化设备从用户接收说出的短语，并且接收包括释放已激励的按钮的用户输入的第二指示，其中释放激励的按钮指示用户已经完成了讲述说出的短语。响应于接收到第二用户输入，使用说出的短语中的一个或者多个词语来执行动作。

在另一个示例中，计算机化移动设备包括存在敏感显示器、处理器和按下说话搜索模块。该计算机化移动设备还包括麦克风，麦克风用于当接收第一用户输入时，接收包括一个或者多个搜索词语的用户说出的搜索短语。按下说话搜索模块可用于接收包括按钮激励的第一用户输入的指示，该按钮激励与语音输入操作相关联。按下说话搜索模块还可用于接收包括按钮激励的终止的第二用户输入的指示，其指示用户说出的搜索短语的完成，并且还用于响应于接收到第二用户输入，来使用在说出的搜索短语中的一个或者多个搜索词语来产生一个搜索查询。

本发明的一个或者多个示例的细节在附图中和下面的描述中进行了阐述。通过描述和附图以及权利要求，其他的特征、目的以及优点将会显而易见。

附图说明

附图1是示出了与示例实施例一致的用于提供按下说话机制的计算设备的框图。

附图2是示出了与示例实施例一致的附图1中示出的计算设备的一个示例的进一步细节的框图。

附图3示出了与示例实施例一致的包括按下说话语音搜索功能的移动设备。

附图4示出了与示例实施例一致的提供按下说话语音搜索的移动设备。

附图5是示出了与实施例一致的用于使用移动设备执行按下说话语音搜索的方法的流程图。

具体实施方式

在下面对示例实施例的详细描述中，通过附图和图示的形式来参考特定的示例。足够详细地描述了这些示例，使得本领域技术人员能够实践所描述的内容，并且用于示出这些示例可以如何被应用于各种目的或者实施例。还存在其他实施例，并且可以做出逻辑、机械、电子以及其他的改变。此处描述的合并入各种实施例的各种特征或者限制，不管对于他们被合并进的这些实施例是否是必需的，不对其他实施例、对这些各种示例的引用构成限制，他们的元件、操作以及应用都不限制其他实施例，而仅仅是用于定义这些示例实施例。因此，下面的详细描述并不限制本发明的在本文范围内的各种实施例的范围。

由于在触摸屏后面的显示器可以很容易适用于向用户提供指令，因此例如智能手机、平板电脑、GPS设备以及其它这类电子系统的移动电子设备通常使用触摸屏显示器，使得触摸屏能够接收各种类型的输入，从而提供需要很少的用户训练就能够有效使用的直观的界面。便宜的和高效的触摸屏技术使得能够将触摸屏结合到普通的用户电子设备中，并且提供通用的和耐用的固定输入键的替换物。

一个典型的蜂窝电话触摸屏显示器，例如，可以被配置为显示传统的“QWERTY”键盘，并且允许用户通过选择性地激活覆盖每一个按键的触摸屏部分来进行键入。类似的，用户可以触摸图标来选择菜单项或者启用应用，并且来执行其他这类功能。但是，典型的成人手指接触是其最大的维度是大约三分之一英寸的椭圆形，并且在可以占据可能大小为三分之二英尺的触摸屏的一部分的触摸屏显示器上的虚拟键盘上键入文本输入是非常困难的。如果用户同时还尝试进行其他动作，例如驾驶或者步行，输入文本就会变得非常成问题。

因此，一些智能电脑使用语音识别或者语音-文本转换从用户说出的词中产生文本输入，提供文本数据的语音输入。这典型地涉及智能手机检测滑动运动或者连续的键控代码来解锁电话，并且接收附加的用户输入启用适当的应用来接收输入的数据。该用户然后发现期望的文本输入区域，例如文本消息应用、web浏览器的搜索框或者要搜索的联系人目录，并且例如通过点击该区域来选择文本区域。移动设备接收用户输入，并且使选择的文本区域成为激活区域以用于文本输入。该用户然后触摸一个按钮来发起语音输入，并且该移动设备提供指示语音输入已经激活的提示。用户然后说出想说的话作为输入。

用户可以然后按压该设备上的按钮，使得该设备接收按钮激活来指示语音文本输入完成，或者在在预定时段的寂静之后，该设备可以确定语音文本输入完成。听取寂静来确定基于语音的文本输入完成在多种情况下由于噪声而变得复杂，例如人在街上聊天或者汽车中开启了汽车广播。在一些示例中，移动设备接收进一步的用户输入，例如用户激活按钮，来指示提供的语音输入已经被准确地识别并且已经准备好作为转换后的文本输入被提供给先前选择的文本区域。

尽管与使用虚拟键盘来键入消息相比，这样的处理涉及更少的在移动设备的触摸屏显示器上的点击，其在一定程度上涉及并包括与设备的多种不同的交互以提供基于语音的输入。

附图1是示出了与示例实施例一致的被用于提供激活语音搜索输入的按下说话机制的计算设备102的框图，其与使用在移动设备上的传统通用目的的语音输入方法相比较，能够提供更有效的搜索词语输入。在一些示例中，计算设备102与用户104相关联。与该计算设备相关联的用户通过向计算设备提供各种用户输入来与计算设备交互，各种用户输入例如存在敏感触摸屏输入或者其他输入。在一些示例中，用户104具有与一个或者多个服务关联的一个或者多个账户，例如社交网络服务和／或电话服务，并且该账户可以注册到该计算设备102中。

计算设备102的示例包括但是不限制于便携或者移动设备，例如移动电话(包括智能电话)、平板电脑、膝上电脑、桌上电脑、平板电脑、智能电视平台、个人数字助理(PDA)、服务器、大型主机等等。在一些示例中，计算设备102可以包括一个或者多个输入设备106，和一个或者多个输出设备108。输入设备在多种实施方式中包括用户输入，例如存在敏感或者触摸屏幕显示器、麦克风、按钮、按键以及其他这样的输入设备。输出设备108包括用户输出，例如扬声器、显示器以及其他这类输出设备。其他输入和输出设备包括GPS接收器、蜂窝无线电调制解调器、蓝牙、近场通信(NFC)无线以及其他这类设备。实现在此描述的功能的其他计算设备102可以包括图1中未示出的附加部件。

计算设备12包括各种应用，例如搜索应用110和其他应用116A-116N。在一些示例中，搜索应用110被配置为从GPS接收器接收位置信息，以接收通过例如存在敏感触摸屏显示器这样的输入设备106来接收用户输入，并且通过例如显示器这样的输出设备108来提供输出。搜索应用110的接口模块112与例如输入设备106这样的设备交互，例如能够显示图形用户界面的存在敏感触摸屏显示器，并且使用位于或者在该存在敏感触摸屏显示器周围的电容或者感应检测接收来自用户的输入。搜索应用110进一步包括语音到文本模块114，用于将通过例如麦克风106这样的输入设备接收的说出的搜索词语转换为文本。该说出的词语在一些示例中是搜索词语，而在另一些示例中，是其他按下说话文本，例如使用按下说话的文本消息输入。

如在图1中所示，搜索应用110通过提供激活语音搜索输入的按下说话机制，利用如存在敏感触摸屏显示器这样的输出设备108来显示用户界面，该用户界面用于接收移动设备中的语音输入，提供了与使用在移动设备上的传统通用目的语音输入方法相比更有效的搜索词语输入。通过在移动设备的显示器上显示说出的搜索词语，和接收来自用户的例如将表示转换的文字拖动或者滑动到表示期望的要搜索的应用和数据库的图标上这样的输入，或者通过接收例如用户触摸表示各种可搜索的应用或者数据库的多个图标中的一个图标这样的输入，提供了对在哪里使用说出的搜索词语的用户选择。

在一个更详细的示例中，例如机械按钮或者存在敏感屏幕按钮区域这样的输入设备106接收一个用户激励来激活语音文本输入以便搜索，并且激活麦克风来接收用户的说出的期望搜索词语。当按钮或者按钮区域的激活终止时，使用语音识别算法将说出的期望的搜索词语转换为文本。在一些示例中，该按钮包括检测机械按钮或者存在敏感触摸屏区域按钮的组合的激活，立即激活语音文本工具。

在这样的示例中，无论电话是否锁定或者未锁，同时激活智能手机的增加和降低音量的机械按钮激活语音文本输入搜索工具。在另一个示例中，在锁定的屏幕上提供用于快速语音搜索的触摸屏按钮区域，并且当智能手机锁定时能够容易接入。在另一个示例中的锁定屏幕上的按钮是被设计为避免语音文本搜索工具的不期望激活的滑块或者其他输入机制，并且仍然从移动设备上的锁定屏幕提供该工具的一步激活。

图2是示出了图1中示出的计算设备的一个示例的细节的框图。图2示出了计算设备200的一个特定示例，而在其他示例中可以使用计算设备200的许多其他示例。

如在图2的特定示例中所示的，计算设备200包括一个或者多个处理器202、存储器204、一个或者多个输入设备206、一个或者多个输出设备208、一个或者多个通信模块210以及一个或者多个存储设备212。在一个示例中，计算设备200进一步包括计算设备200可运行的操作系统216。该操作系统包括各种示例服务，例如图形用户交互服务218和搜索服务220。例如搜索应用222的一个或者多个应用也被存储在存储设备212中，并且能够由计算设备200运行。部件202、204、206、208、210和212中的每一个可以互联(物理地、通信地和／或可操作地)以便于部件间通信，例如通过一个或者多个通信信道214。在一些示例中，通信信道214可以包括系统总线、网络连接、进程间的通信数据结构或者用于数据通信的任何其他信道。例如222的应用和操作系统216也可以相互通信信息并且可以与计算设备200上的其他部件通信。

在一个示例中，处理器202被配置为实现用于在计算设备200中运行的功能和／或处理指令。例如，处理器202能够处理存储在存储设备212中的指令。处理器202的示例可以包括微处理器、控制器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或者等同的离散或者集成逻辑电路中的任意一个或者多个。

一个或者多个存储设备212可以被配置为在操作期间存储技术设备200中的信息。在一些示例中，存储设备212是被描述为计算机可读介质。在一些示例中，存储设备212是临时存储器，意味着存储设备212的主要目的不是长期存储。在一些示例中，存储设备212被描述为易失存储器，意味着当计算机关闭时，存储设备212不维持存储的内容。在其他示例中，在操作期间将数据从存储设备212加载到存储器204中。易失存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)以及其他形式的本领域已知的易失存储器。在一些示例中，存储设备212被用于存储由处理器202执行的程序指令。在各种示例中，存储设备212和存储器204被在计算设备200上运行的软件或应用(例如应用222)在程序执行期间用来临时存储信息。

在一些示例中，存储设备212还包括一个或者多个计算机可读存储介质。存储设备212被配置为存储比易失存储器更大量的信息。存储设备212还被配置为长期存储信息。在一些示例中，存储设备212包括非易失存储元件。该非易失存储元件的示例包括磁性硬盘、光盘、软盘、闪存或者电可编程存储器(EPROM)或者电可擦除可编程存储器(EEPROM)的形式。

在一些示例中，计算设备200还包括一个或者多个通信单元210。在一个示例中，计算设备200使用通信单元210通过一个或者多个网络与外部设备通信，所述一个或多个网络例如一个或者多个无线网络。通信单元210可以是网络接口卡，例如以太网卡、光收发器、射频收发器或者任何类型的能够发送和／或接收信息的设备。这样的网络接口的其它示例可以包括蓝牙、3G和WiFi无线计算设备以及通用串行总线(USB)。在一些示例中，计算设备200使用通信单元210来与例如图1中的计算设备102或者任何其他计算设备的外部设备进行无线通信。

在一个示例中，计算设备200还包括一个或者多个输入设备206。在一些示例中，输入设备206被配置为通过触觉、音频或者视频反馈从用户接收输入。输入设备206的示例包括存在敏感触摸屏显示器、鼠标、键盘、语音响应系统、视频摄像机、麦克风或任何其他类型的用于检测用户输入的设备。在一些示例中，存在敏感显示器包括触摸敏感屏幕，其通常熟知为触摸屏。

计算设备200还可以包括一个或者多个输出设备208。在一些示例中，输出设备208被配置为使用触觉、音频或者视频激励来将输出提供给用户。在一个示例中，输出设备208包括存在敏感触摸屏显示器、声卡、视频图形适配器卡或者任何其他类型的用于将信号转换为合适的人或者机器可以理解的形式的设备。输出设备208的其他示例包括扬声器、发光二极管(LED)显示器、液晶显示器(LCD)或者任何其他类型的能够产生输出给用户的设备。在一些示例中，输入设备206和／或输出设备208被用于例如通过存在敏感触摸屏显示器提供操作系统服务，例如图形用户界面服务218。

计算设备200可以包括操作系统216。在一些示例中，操作系统216控制计算设备200的部件的操作，并且将来自例如222的各种应用的接口提供给计算设备200的部件。例如，在一个示例中，操作系统216便利应用222与处理器202、通信单元210、存储设备212、输入设备206以及输出设备208之间的通信。如图2所示，应用222可以包括如图1所示的搜索应用110。例如222的应用每一个可以包括计算设备200可执行的程序指令和／或数据。如一个示例，搜索应用222和其接口模块224与语音文本转换模块226可以包括导致计算设备200执行在本发明中公开的一个或者多个操作和动作的指令。

此处描述的方法可以至少部分地实现为硬件、软件、固件或者他们的组合。例如，描述的方法可以实现在一个或者多个处理器中，包括一个或者多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或者任何其他等同的集成或者离散逻辑电路，以及这些部件的任意组合。术语“处理器”或者“处理电路”通常可以指代任何前述的逻辑电路，单独或者与其他逻辑电路的组合、或者任何等同的电路。包括硬件的控制单元也可以执行在此描述的一个或者多个方法。

这样的硬件、软件以及固件可以实现在同一个设备中或者分立的设备中从而支持在此描述的各种方法。此外，任何描述的单元、模块或部件可以被一起或者单独实现为离散但可相互作用的逻辑设备。将不同特征描述为模块或者单元旨在突出不同的功能而并不必须暗示这样的模块或者单元必须通过分立的硬件、固件或者软件部件来实现。相反，与一个或者多个模块或单元相关联的功能可以被分立的硬件、固件或者软件部件来执行，或者集成在通用或者分立的硬件、固件或者软件部件中。

此处描述的方法也可以被实现或编码为包括编码有指令的计算机可读存储介质的制造产品。在包括编码的计算机可读存储介质的产品中嵌入或者编码的指令可以使得一个或者多个可编程处理器或者其他处理器来实现一个或者多个在此描述的技术，例如当通过一个或者多个处理器执行包括或者编码在计算机可读存储介质中的指令时。计算机可读存储介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、硬盘、光盘ROM(CD-ROM)、软盘、盒式磁带、磁介质、光介质或者其他计算机可读介质。在一些示例中，制造产品可以包括一个或者多个计算机可读存储介质。

在一些示例中，计算机可读存储介质可以包括非暂时性介质。术语“非暂时性”可以指存储介质不是实现为载波或者传播的信号。在某些示例中，非暂时性存储介质可以存储随着时间可以改变的数据(例如，在存储器中或者非易失性存储器中)。

附图3示出与示例一致的包括按下说话语音搜索功能的移动设备。在此，例如智能手机300的移动计算设备包括存在敏感触摸屏显示器302，在该示例中反映锁定状态。该锁定的显示器图像在此包括显示时间的时钟、以及以正方形布局配置的九个按钮，其中正方形的中间有一个按钮。该智能手机在接收输入后解锁，例如用户画一个预先配置的将圆圈304彼此连接的图案。这不但防止了手机的无意使用，而且为手机的所有者提供了数据安全性。在另一个示例中，设备在输入例如使用数字键盘输入的数字这样的密码后解锁。

即使锁定的手机，一些功能可以仍然保持可用，例如拨打电话或者照相的能力。在该示例中，智能手机保持可用于执行基于语音的搜索，并且在检测到跨越语音搜索滑动条306的滑动运动后进入语音输入模式。该智能手机然后接收需要经由手机搜索的所说处的词，直到用户从语音搜索滑动条的末端移开用于提供滑动输入的手指。在一个替换示例中，直到手机解锁才可以发起语音搜索，或者如果手机被锁定，智能手机将搜索限制到某些应用或者数据库。

在一个可替换实施例中，智能手机300通过物理按钮接收输入来发起基于语音的搜索，例如检测音量增加键308和音量减小键310同时激活。在该示例中，当手机处于锁定或者未锁定状态时，可以使用物理按钮来激活基于语音的搜索，但是在其他实施例中，仅仅是在未锁定时，或者仅仅是在锁定时才能使用。在此，智能手机检测音量增大按钮308和音量减小按钮310的同时激活，并且接收说出的搜索词语直到至少一个按钮被释放，指示语音输入完成。

在更为详细的示例中，智能手机300在存在敏感触摸屏显示器300上检测第一用户输入，其包括按钮308和310的同时激活或者跨越滑动条306的滑动，例如通过附图2的操作系统216的图形用户界面服务219或者搜索应用222的接口模块224。该移动设备发起语音输入操作，作为接收到输入的结果，并且通过例如麦克风输入设备206接收语音输入。当用户释放滑动条306或者按钮308和310中的至少一个时，完成说出的搜索输入并且智能手机300停止接收语音输入。智能手机的搜索应用222随后使用语音文本转换模块226来将说出的词或者短语转换为文本，并且通过操作系统216的搜索服务220使用文本搜索词语来执行搜索。

附图4示出了与示例实施例一致的提供按下说话语音搜索的移动设备。在此，移动设备400包括智能手机，但是在其他实施例中可能是平板电脑、个人数字助理(PDA)、电子阅读器或者其他设备。移动设备包括存在敏感触摸屏显示器402、以及音量增大按钮404和音量减小按钮406。

移动设备接收选择在显示器408上示出的可以将一个或者多个搜索词语输入到其中的搜索文本输入区域的用户输入，但是在替代实施例中，将会执行另一个动作来发起搜索，造成呈现搜索输入屏幕，例如在触摸屏显示器402上示出的。移动设备可以使用通过移动设备的存在敏感触摸屏显示器呈现的键盘410接收搜索词语，但是如先前讨论，由于一些原因，这是不期望的。

通过键盘键入搜索词语可能是困难的，因为其通常需要两只手来有效地执行，例如一只手支持移动设备而另一只手键入，或者将移动设备架在手指间而通过两只手的拇指来键入。因此在执行例如驾驶的其他动作时输入文本可能是困难或者危险的。而且，存在敏感触摸屏键盘410上的每一个键的相对较小的尺寸使得键入非常慢而且容易出错，考虑到例如在410上示出的典型的键盘的总宽度可能仅仅两英寸，而手指触摸典型的大约占据三分之一英寸而且用户手指剩下部分遮挡触摸的准确位置。

因此，移动设备400提供语音搜索按钮412，当激活该按钮时，以按下说话的方式提供语音搜索词语。也就是说，当移动设备检测到触摸屏语音搜索按钮412的激活时，移动设备通过麦克风接收语音输入并且将其转换为搜索词语。当释放按钮时，移动设备停止接收要转换的语音输入，几乎和双工无线电上的按下讲话按钮或者仅当内部通话系统的“说话”按钮按下时传输语音相同。

在一个替换实施例中，移动设备检测一个或者多个物理按钮而不是虚拟或者触摸屏显示器按钮区域的激活，从而激活搜索词语的按下说话语音输入，例如同时激活音量增大键404和音量减小键406。这在一些实施例中是期望的，因为物理按钮向用户提供触觉反馈，并且不仅能够被用于输入语音搜索词语还能够发起基于按下说话语音的搜索。当按钮被按下时，移动设备接收语音输入，当按钮被释放时，停止接收用于搜索词语的语音输入。在音量按钮的示例中，同时按下两个按钮来提供用户发起和提供用于搜索的语音输入的简单机制，而无需通常还没有提供在例如智能手机和平板电脑的移动设备上的附加硬件。

使用按下说话按钮来提供搜索词语或者其他文本输入提供了对于说出搜索词语的定义良好的开始和停止时间的额外好处，简化了确定什么声音是将要成为一部分搜索短语的说出的词语。例如，在繁忙的人行道上的用户可能希望搜索酒店的方向，并且使用基于语音的搜索而不是在行走的时候尝试键入。在这样的环境中简单的使用通过听取一段时间的寂静来自动检测说出短语的结束的语音识别可能是无效的，这样的环境中包括其他人说话的环境噪声会阻止说出短语结束的自动检测。

在进一步示例中，当用户讲话时或者用户讲话结束时，移动设备400识别说出的搜索词语，并且将一个或者多个语音到文本转换的搜索短语的列表呈现给用户以便于选择和搜索。再次参考图4，当用户说出短语“你不会吻这家伙吧”时，用户按下语音搜索触摸屏按钮412或者音量增大按钮404和音量减小按钮406。移动设备400中的语音到文本模块通过麦克风接收语音信号的数字化版本，并且将说出的短语转换为一个或者多个可能的搜索词语或短语。如在显示器408上示出的，移动设备400将一个或者多个可能得搜索词语显示给用户，使得用户能够读取建议的短语或者词语，并且用手指点击在显示器408上显示的正确短语的表示来从中选择。

在一个替代实施例中，移动设备400检测用户释放语音搜索触摸屏按钮区域412来终止基于语音的搜索词语输入并检测单独的用于指示选择期望短语的触摸动作，或者检测手指从语音搜索按钮412到呈现在显示器上的期望的短语的拖动或者滑动。在进一步的示例中，当语音搜索按钮或者按钮被激活时，移动设备被用于检测重复的短语，并且在显示器408的搜索文本输入区域中提供新的或者附加的建议短语。如果移动设备检测到语音搜索按钮被释放并且没有选择建议的搜索短语而被再次按压，就将新的或者附加的建议的短语或者词语提供在搜索文本输入区域408中。

图5是示出了与示例实施例一致的使用移动设备执行按下说话语音搜索的方法的流程图。可以通过移动计算设备来执行附图5的示例方法，所述移动计算设备例如图1中的计算设备102或图2中的移动设备200。在501，例如智能手机的移动设备检测在设备一侧的音量增大按钮和音量减小按钮的同时激活。这触发了按下说话搜索的发起，使得智能手机利用附接的麦克风来收听用户所说出的词。

在502，移动设备检测说出的包括一个或者多个词或者搜索词语的搜索短语，例如通过经由麦克风接收语音信号，数字化接收的语音信号，以及将数字化的语音信号转换为文本。在进一步示例中，移动设备存储数字化的语音以用于语音到文本的转换，例如通过将语音存储在计算机可读存储介质中，例如移动设备的动态随机存取存储器(DRAM)。在替代实施例中，语音被提供给外部计算机化系统以用于语音到文本转换，例如通信地耦合到无线设备的服务器。

在503，移动设备然后检测音量增大按钮和音量减小按钮中的至少一个的释放，停止搜索词语的按下说话语音输入。一旦音量按钮不再被同时按下，移动设备停止听取搜索词语，并且在504，通过语音到文本转换，将说出的搜索短语转换为一个或者多个可能的文本搜索短语。在进一步实施例中，附加的工具被用于提供更为可能的作为语音到文本转化结果的文本搜索短语，所述附加的工具例如使用搜索引擎或者其他这样的资源将语音到文本转换结果与真实可能的搜索短语进行比较。

在504，移动设备显示一个或者多个可能的文本搜索短语，并且在505，用户查看显示的可能的文本搜索短语以确定期望的搜索短语是否在一个或者多个显示的可能的文本搜索短语中。如果期望的搜索短语不在一个或者多个显示的可能文本搜索短语之中，在501，用户按压音量增大按钮和音量减小按钮，使得移动设备接收发起新的语音搜索的输入，并且在501开始新的语音搜索。在一个替代实施例中，移动设备接收例如激活按钮或者按钮的组合的输入，以使得移动设备取得更多的或不同的可能文本搜索短语以显示。

在505，如果期望的搜索短语在一个或者多个显示的可能文本搜索短语中，并且用户从显示的一个或者多个可能文本搜索短语中选择期望的搜索短语，移动设备例如通过检测与在移动设备的存在敏感触摸屏显示器上显示的短语相关联的区域的触摸，或者通过检测手指从显示的语音搜索按钮区域到期望的文本搜索短语区域滑动或者拖拽，来从用户接收这样的输入。移动设备接收该用户输入，并且基于所选择的可能文本搜索短语来执行搜索。在一些实施例中，该搜索包括搜索本地存储的信息，例如文件、联系人列表、应用或者其他信息。在另一个示例中，该搜索包括将选择的可能文本搜索短语发送到远程搜索引擎或者其他服务器，其在响应中提供搜索结果给移动设备。又一个实施例既搜索本地信息也搜索远程信息。

在进一步示例中，如果设备处于锁定状态，不立即显示结果，而是仅仅当用户解锁移动设备后，例如通过输入解锁码，执行滑动图案，或者执行其他解锁动作，才可查看。因此当处于锁定状态时，该设备能够执行搜索，例如如上所述的按下说话搜索，并且解锁该移动设备来显示搜索结果。

此处描述的系统和方法不仅适合于如图1-4示出的移动设备的设备，而且可以适合于其他移动设备，例如平板电脑、遥控器、视频游戏控制器以及其他这样的计算机化移动设备。

示例1：一种方法，包括：通过移动计算设备接收包括图形元素的激活的第一用户输入的指示，所述激活与语音输入操作相关联，所述第一用户输入在存在敏感显示器上被检测到；响应于接收到所述第一用户输入的指示并且在所述激活的终止之前：通过所述移动计算设备发起所述语音输入操作；通过所述移动计算设备使用所述语音输入操作来接收包括一个或者多个搜索词语的用户说出的搜索短语；通过所述移动计算设备输出至少部分基于所述用户说出的搜索短语而确定的一个或者多个候选文本搜索短语以用于显示；通过所述移动计算设备接收从与所述一个或者多个候选文本搜索短语相关联的所述存在敏感显示器的第一区域向与应用的图标相关联的所述存在敏感显示器的第二区域滑动的手势的指示；通过所述移动计算设备接收第二用户输入的指示，所述第二用户输入指示所述激活的终止，其中所述第二用户输入指示所述用户说出的搜索短语的结束；以及响应于接收到所述第二用户输入的指示，通过所述移动计算设备并且基于所述用户说出的搜索短语，产生对于所述应用的搜索查询以识别与所述一个或者多个搜索词语相关联的内容。

示例2：根据示例1的方法，其中接收包括所述图形元素的激活的所述第一用户输入的指示包括接收在所述存在敏感显示器的与显示在所述存在敏感显示器的图形元素相关联的区域上的用户激活输入。

示例3：根据示例1-2的任何一个的方法，其中所述图形元素的激活的终止包括在所述存在敏感显示器的与显示在所述存在敏感显示器的图形元素相关联的所述区域上的所接收的用户激活输入的终止。

示例4：根据示例1-3的任何一个的方法，进一步包括接收指示所述一个或者多个候选文本搜索短语中的哪一个是期望的搜索短语的第三用户输入，并且将所述期望的搜索短语用作在基于所述搜索查询执行搜索过程中使用的所述一个或者多个搜索词语。

示例5：根据示例4的方法，其中接收指示所述一个或者多个候选文本搜索短语中的哪一个是期望的搜索短语的第三用户输入包括接收在显示在所述存在敏感显示器上的期望的搜索短语的区域处的触摸的指示。

示例6：根据示例4的方法，其中接收指示所述一个或者多个候选文本搜索短语中的哪一个是期望的搜索短语的第三用户输入包括接收用户手指从存在敏感显示器的被激活以提供所述第一用户输入的区域向显示在所述存在敏感显示器上的期望的搜索短语的区域滑动的指示。

示例7：根据示例1-6的任何一个的方法，进一步包括使用所产生的搜索查询在所述移动计算设备本地的数据中搜索所述一个或者多个搜索词语。

示例8：根据示例1-7的任何一个的方法，进一步包括将所产生的搜索查询发送到远程服务器，所述远程服务器可操作以搜索远离所述移动计算设备的数据。

示例9：一种方法，包括：通过移动计算设备接收包括图形元素的激活的第一用户输入的指示，所述激活发起按下说话语音输入操作，所述第一用户输入在存在敏感显示器上被检测到；通过所述移动计算设备并且从用户接收包括一个或者多个词语的所说出的短语的指示；通过所述移动计算设备输出至少部分基于所说出的短语而确定的一个或者多个候选文本搜索短语以用于显示；通过所述移动计算设备接收从与所述一个或者多个候选文本搜索短语相关联的所述存在敏感显示器的第一区域向与至少一个图标相关联的所述存在敏感显示器的第二区域滑动的手势的指示；通过所述移动计算设备接收终止所述按下说话语音输入的第二用户输入的指示，其中终止所述按下说话语音输入指示用户已经说完所说出的短语；以及响应于接收到所述第二用户输入的指示，通过所述计算设备使用在所说出的短语中的所述一个或者多个词语来执行与所述至少一个图标相关联的动作。

示例10：示例9的方法，其中所述动作包括执行搜索、撰写文本消息或者撰写电子邮件消息中的一个。

示例11：一种计算机化移动设备，包括：至少一个处理器，所述至少一个处理器可操作来：接收包括图形元素的激活的第一用户输入的指示，所述激活与语音输入操作相关联，所述第一用户输入在存在敏感显示器上被检测到；响应于接收到所述第一用户输入的指示并且在按钮激活的终止之前：发起所述语音输入操作；在接收到所述第一用户输入后，接收包括一个或者多个搜索词语的用户说出的搜索短语的指示；输出至少部分基于用户说出的搜索短语而确定的一个或者多个候选文本搜索短语以用于显示；接收从与所述一个或者多个候选文本搜索短语相关联的所述存在敏感显示器的第一区域向与用于应用的至少一个图标相关联的所述存在敏感显示器的第二区域滑动的手势的指示；接收包括所述激活的终止的第二用户输入的指示，所述第二用户输入指示所述用户说出的搜索短语的结束；以及响应于接收到所述第二用户输入的指示，基于所述用户说出的搜索短语，产生对于至少一个所述应用的搜索查询以识别与所述一个或者多个搜索词语相关联的内容。

示例12：根据示例11的计算机化移动设备，其中接收包括激活的第一用户输入的指示包括接收在所述存在敏感显示器的与在所述存在敏感显示器显示的所述图形元素相关联的区域处的用户激活输入的指示，以及所述激活的终止包括接收在所述存在敏感显示器的与在所述存在敏感显示器显示的所述图形元素相关联的所述区域处的所接收的用户激活输入的终止的指示。

示例13：根据示例11-12的计算机化移动设备，进一步包括以下至少一项：使用所产生的搜索查询在所述计算机化移动设备本地的数据中搜索所述一个或者多个搜索词语、或者将所产生的搜索查询发送到可搜索远离所述计算机化移动设备的数据的远程服务器。

示例14：一种机器可读存储设备，其上存储有指令，当执行时，该指令能使得计算机化移动设备：接收包括图形元素的激活的第一用户输入的指示，该激活与语音输入操作相关联，第一用户输入在存在敏感显示器处被检测到；响应于接收到第一用户输入的指示并且在激活的终止之前：发起语音输入操作；使用语音输入操作，接收包括一个或者多个搜索词语的用户说出的搜索短语的指示；输出至少部分基于说出的短语而确定的一个或者多个候选文本搜索短语以便于显示；接收从与一个或者多个候选文本搜索短语相关联的存在敏感显示器的第一区域向与至少一个图标相关联的存在敏感显示器的第二区域滑动的手势的指示；接收指示激活的终止的第二用户输入的指示，其中第二用户输入指示用户说出的搜索短语的结束；以及响应于接收到第二用户输入的指示，使用说出的短语中的一个或者多个词语，执行与至少一个图标相关联的动作。

示例15：根据示例14的机器可读介质，其中所述动作包括执行搜索、撰写文本信息以及撰写电子邮件消息中的一个。

示例16：根据示例14-15中的任意一个的机器可读介质，当执行时，该指令进一步用于使得计算机化移动设备：输出从说出的搜索项目中获得的一个或者多个候选文本短语以用于显示；接收指示一个或者候选文本短语中的哪一个是期望的短语的第三用户输入的指示；以及使用期望的短语执行动作。

此处描述的示例至少部分地通过硬件、软件、固件或者他们的任意组合来实现。例如，所述的技术的各个方面可以实现在一个或者多个包括一个或者多个微处理器的处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、，现场可编程门阵列(FPGA)或者任意其他等同的集成或者离散逻辑电路中，或者他们的任意组合中。术语“处理器”或者“处理电路”通常被认为指代任意前述逻辑电路、单独或者与其他逻辑电路的组合或者任意等同的电路。包括硬件的控制单元也可以执行一个或者多个在此描述的示例。

这样的硬件、软件以及固件可以实现在同一个设备中或者在分立的设备中以支持各种示例。此外，所述的任意单元、模块或者部件可以一起或者单独实现为离散但共同操作的逻辑设备。将不同特征描述为模块或者单元是为了突出不同的功能方面，而不必暗示这样的模块或者单元必须通过独立的硬件、固件、或者软件部件来实现。相反，与一个或者多个模块或者单元相关联的功能可以通过独立的硬件、固件或者软件部件来执行，或者集成在通用或者独立硬件、固件或者软件部件中。

此处描述的方法也可以被实现或编码为包括编码有指令的计算机可读存储介质的制造产品。在包括编码的计算机可读存储介质的制造产品中嵌入或者编码的指令可以使得一个或者多个可编程处理器或者其他处理器来实现一个或者多个在此描述的技术，例如当通过一个或者多个处理器执行包括或者编码在计算机可读存储介质中的指令时。计算机可读存储介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、硬盘、光盘ROM(CD-ROM)、软盘、盒式磁带、磁介质、光介质或者其他计算机可读介质。在一些示例中，制造产品可以包括一个或者多个计算机可读存储介质。

在一些示例中，计算机可读存储介质可以包括非暂时性介质。术语“非暂时性”可以指存储介质不是实现为载波或者传播的信号。在某些示例中，非暂时性存储介质可以存储随着时间可以改变的数据(例如在随机存取存储器或者闪存中)。

在此呈现的示例示出了可以如何使用按下说话语音输入来在移动计算设备中提供更为有效的输入。尽管在此示出和描述了特定的实施例，本领域技术人员可以明白能够实现相同目的、结构或者功能的任何布置都可以替代示出的特定实施例。本申请旨在覆盖在此描述的实施例的任何修改或者变形。

Claims

1.一种方法，包括：

通过移动计算设备接收包括图形元素的激活的第一用户输入的指示，所述激活与语音输入操作相关联，所述第一用户输入在存在敏感显示器上被检测到；

响应于接收到所述第一用户输入的所述指示并且在所述激活的终止之前：

通过所述移动计算设备发起所述语音输入操作；

通过所述移动计算设备使用所述语音输入操作来接收包括一个或者多个搜索词语的用户说出的搜索短语；

通过所述移动计算设备输出至少部分基于所述用户说出的搜索短语而确定的一个或者多个候选文本搜索短语以用于显示；

通过所述移动计算设备接收从与所述一个或者多个候选文本搜索短语相关联的所述存在敏感显示器的第一区域向与应用的图标相关联的所述存在敏感显示器的第二区域滑动的手势的指示；

通过所述移动计算设备接收第二用户输入的指示，所述第二用户输入指示所述激活的终止，其中所述第二用户输入指示所述用户说出的搜索短语的结束；以及

响应于接收到所述第二用户输入的所述指示，通过所述移动计算设备并且基于所述用户说出的搜索短语，产生对于所述应用的搜索查询以识别与所述一个或者多个搜索词语相关联的内容。

2.根据权利要求1的方法，其中接收包括所述图形元素的激活的所述第一用户输入的指示包括接收在所述存在敏感显示器的与显示在所述存在敏感显示器的图形元素相关联的区域上的用户激活输入。

3.根据权利要求2的方法，其中所述图形元素的激活的终止包括在所述存在敏感显示器的与显示在所述存在敏感显示器的图形元素相关联的所述区域上的所接收的用户激活输入的终止。

4.根据权利要求1的方法，进一步包括接收指示所述一个或者多个候选文本搜索短语中的哪一个是期望的搜索短语的第三用户输入，并且将所述期望的搜索短语用作在基于所述搜索查询执行搜索过程中使用的所述一个或者多个搜索词语。

5.根据权利要求4的方法，其中接收指示所述一个或者多个候选文本搜索短语中的哪一个是期望的搜索短语的第三用户输入包括接收在显示在所述存在敏感显示器上的期望的搜索短语的区域处的触摸的指示。

6.根据权利要求4的方法，其中接收指示所述一个或者多个候选文本搜索短语中的哪一个是期望的搜索短语的第三用户输入包括接收用户手指从存在敏感显示器的被激活以提供所述第一用户输入的区域向显示在所述存在敏感显示器上的期望的搜索短语的区域滑动的指示。

7.根据权利要求1的方法，进一步包括使用所产生的搜索查询在所述移动计算设备本地的数据中搜索所述一个或者多个搜索词语。

8.根据权利要求1的方法，进一步包括将所产生的搜索查询发送到远程服务器，所述远程服务器可操作以搜索远离所述移动计算设备的数据。

9.一种方法，包括：

通过移动计算设备接收包括图形元素的激活的第一用户输入的指示，所述激活发起按下说话语音输入操作，所述第一用户输入在存在敏感显示器上被检测到；

通过所述移动计算设备并且从用户接收包括一个或者多个词语的所说出的短语的指示；

通过所述移动计算设备输出至少部分基于所说出的短语而确定的一个或者多个候选文本搜索短语以用于显示；

通过所述移动计算设备接收从与所述一个或者多个候选文本搜索短语相关联的所述存在敏感显示器的第一区域向与至少一个图标相关联的所述存在敏感显示器的第二区域滑动的手势的指示；

通过所述移动计算设备接收终止所述按下说话语音输入的第二用户输入的指示，其中终止所述按下说话语音输入指示用户已经说完所说出的短语；以及

响应于接收到所述第二用户输入的所述指示，通过所述计算设备使用在所说出的短语中的所述一个或者多个词语来执行与所述至少一个图标相关联的动作。

10.根据权利要求9的方法，其中所述动作包括执行搜索、撰写文本消息或者撰写电子邮件消息中的一个。

11.一种计算机化移动设备，包括：

至少一个处理器，所述至少一个处理器可操作来：

接收包括图形元素的激活的第一用户输入的指示，所述激活与语音输入操作相关联，所述第一用户输入在存在敏感显示器上被检测到；

响应于接收到所述第一用户输入的所述指示并且在按钮激活的终止之前：

发起所述语音输入操作；

在接收到所述第一用户输入后，接收包括一个或者多个搜索词语的用户说出的搜索短语的指示；

输出至少部分基于用户说出的搜索短语而确定的一个或者多个候选文本搜索短语以用于显示；

接收从与所述一个或者多个候选文本搜索短语相关联的所述存在敏感显示器的第一区域向与用于应用的至少一个图标相关联的所述存在敏感显示器的第二区域滑动的手势的指示；

接收包括所述激活的终止的第二用户输入的指示，所述第二用户输入指示所述用户说出的搜索短语的结束；以及

响应于接收到所述第二用户输入的所述指示，基于所述用户说出的搜索短语，产生对于至少一个所述应用的搜索查询以识别与所述一个或者多个搜索词语相关联的内容。

12.根据权利要求11的计算机化移动设备，其中接收包括所述激活的所述第一用户输入的所述指示包括接收在所述存在敏感显示器的与在所述存在敏感显示器显示的所述图形元素相关联的区域处的用户激活输入的指示，以及所述激活的终止包括接收在所述存在敏感显示器的与在所述存在敏感显示器显示的所述图形元素相关联的所述区域处的所接收的用户激活输入的终止的指示。

13.根据权利要求11的计算机化移动设备，进一步包括以下至少一项：使用所产生的搜索查询在所述计算机化移动设备本地的数据中搜索所述一个或者多个搜索词语、或者将所产生的搜索查询发送到可搜索远离所述计算机化移动设备的数据的远程服务器。