CN106462380B

CN106462380B - 用于对于语音命令提供提示的系统和方法

Info

Publication number: CN106462380B
Application number: CN201580025304.6A
Authority: CN
Inventors: 亚历山大·詹姆斯·法堡; 西蒙·蒂克纳
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-04-15
Filing date: 2015-04-14
Publication date: 2019-06-18
Anticipated expiration: 2035-04-14
Also published as: EP3132341B1; US9082407B1; EP3132341A1; WO2015160817A1; CN106462380A

Abstract

在所公开技术的示例实施方式中，一种方法包括基于预定命令录入阈值来设置命令录入计时器。该方法还包括接收提示接收音频命令的用户输入的指示，并且响应于确定该命令录入计时器自接收到该用户输入的指示起已经到期而输出与至少一个所支持的音频命令相关联的至少一个指示符以用于显示，该至少一个所支持的音频命令与该计算设备的至少一个功能相关联。该方法还包括接收多个音频输入样本并且基于该多个音频输入样本来更新该命令录入阈值。

Description

用于对于语音命令提供提示的系统和方法

相关申请的交叉引用

本PCT申请要求于2014年4月15日提交的美国临时专利申请No.61/979893的优先权。本PCT申请还要求于2014年6月5日提交的美国专利申请No.14/296936的优先权；其全部内容和实质通过引用特此合并入本文。

背景技术

计算设备可以响应于用户话音所指示的音频命令而执行某些功能。为了提供该功能，计算设备可以包括或者操作地耦合至诸如麦克风的音频输入设备。在一些已知场景中，计算设备可以对从用户(例如经由麦克风)所接收的音频输入进行分析以推断该音频输入所指示的音频命令，并且作为响应而通过输出该音频命令的音频指示来打断用户。然而，这样的打断能够使用户分心或懊恼。在替选的场境中，计算设备可以将麦克风保持在恒定的、活动的监听状态直到接收到音频命令，但是该特征可能对计算设备的电池施加显著消耗。此外，由于用户很难了解可由计算设备解释的可能的音频命令的集合，所以用户在尝试采用这样的音频命令功能时可能被迫依赖于记忆，由此使这样的功能对于用户难以使用而且用途有限。

发明内容

以上需求中的一些或全部可以由所公开技术的某些实施方式解决。某些实施方式可以包括方法、系统、和非暂时性计算机可读介质以用于由计算设备基于预定命令录入阈值来设置命令录入计时器。另外，实施方式可以包括方法、系统、和非暂时性计算机可读介质，以用于由计算设备接收提示接收音频命令的用户输入的指示，并且响应于确定该命令录入计时器自接收到用户输入的指示起已经到期而输出与至少一个所支持的音频命令相关联的至少一个指示符以用于显示，该至少一个所支持的音频命令与该计算设备的至少一个功能相关联。

根据一个示例实施方式，提供了一种方法。该方法包括由计算设备基于预定命令录入阈值来设置命令录入计时器。该方法进一步包括由该计算设备接收提示接收音频命令的用户输入的指示，并且响应于确定该命令录入计时器自接收到该用户输入的指示起已经到期而输出与至少一个所支持的音频命令相关联的至少一个指示符以用于显示，该至少一个所支持的音频命令与该计算设备的至少一个功能相关联。该方法进一步包括在该计算设备处接收多个音频输入样本，并且由该计算设备基于该多个音频输入样本来更新该命令录入时间阈值。

根据其它示例实施方式，提供了一种系统。该系统包括一个或多个处理器以及耦合至该一个或多个处理器的存储器。该存储器存储指令，该指令在由该一个或多个处理器执行时使得该系统设置命令录入计时器并且接收提示接收音频命令的用户输入的指示。另外，该指令在由该一个或多个处理器执行时使得该系统响应于确定该命令录入计时器自接收到该用户输入的指示起已经到期而输出与至少一个所支持的音频命令相关联的至少一个指示符以用于显示，该至少一个所支持的音频命令与该计算设备的至少一个功能相关联。另外，该指令在由该一个或多个处理器执行时使得该系统接收多个音频输入样本并且基于该多个音频输入样本来更新该命令录入时间阈值。

根据另一示例实施方式，提供了一种非暂时性计算机可读介质。该计算机可读介质存储指令，该指令在由一个或多个处理器执行时使得该系统设置命令录入计时器并且接收提示接收音频命令的用户输入的指示。另外，该指令在由该一个或多个处理器执行时使得该系统响应于确定该命令录入计时器自接收到该用户输入的指示起已经到期而输出与至少一个所支持的音频命令相关联的至少一个指示符以用于显示，该至少一个所支持的音频命令与该计算设备的至少一个功能相关联。另外，该指令在由该一个或多个处理器执行时使得该系统接收多个音频输入样本并且基于该多个音频输入样本来更新该命令录入时间阈值。

所公开技术的其它实施方式、特征、和方面在本文中被详细描述并且被视为是所要求保护的所公开技术的一部分。其它实施方式、特征、和方面能够参照以下具体实施方式、附图、和权利要求书进行理解。

附图说明

现在将参照附图和流程图，它们不必按比例绘制，并且其中：

图1是根据示例实施方式的说明性计算机系统架构100的框图。

图2A图示了根据示例实施方式的计算设备200。

图2B图示了根据示例实施方式的、具有被输出以用于显示的有效语音命令列表220A的计算设备200。

图2C图示了根据示例实施方式的、具有经重新配置的有效语音命令列表220B的计算设备200。

图2D图示了根据示例实施方式的、具有由被输出以用于显示的图形图标表示的有效音频语音命令列表220C的计算设备200。

图3图示了根据示例实施方式的、具有被输出以用于显示的有效语音命令列表320的智能手表300。

图4是根据示例实施方式的方法400的流程图。

具体实施方式

在所公开的技术的某些实施方式中，计算设备响应于接收到用于提示接收音频命令的用户输入的指示并且响应于确定命令录入计时器已经到期(即，自接收到该指示起已经经过了预定时间量)，可以输出与至少一个音频或语音命令相关联的至少一个指示符以用于显示。

在一个示例实施方式中，计算设备可以接收用于提示由该计算设备接收音频命令(例如语音命令)的用户输入的指示。在一些实施方式中，用户输入可以是被置于与该计算设备相关联的存在敏感输入设备处的一个或多个输入对象(例如一个或多个手指或触控笔)所作出的手势(例如触摸手势)。手势可以包括将输入对象保持在存在敏感输入设备的特定位置达预定时间段(以执行例如按压并保持(press-and-hold)手势)。用户输入还可以是说出预定义的词、声音、或短语。响应于接收到用于提示接收音频命令的用户输入的指示，该计算设备可以激活音频输入设备(诸如计算设备中所包括的或者操作地耦合至计算设备的麦克风)以接收音频命令。该音频输入设备可以是计算设备中所包括的或者操作地耦合至其的麦克风。

在一些实施方式中，在计算设备接收到该指示之后，该计算设备可以被配置为“监听”对来自用户的音频命令的接收直至命令录入计时器到期。如果用户在命令录入计时器到期之前没有开始讲话(即没有提供音频命令)，则该计算设备可以提供与一个或多个所支持的音频或语音命令相关联的一个或多个视觉指示符。音频命令(例如语音命令)可以与可在计算设备上执行或者与其结合的应用或者应用的功能或特征和/或各种操作系统功能相关联。与音频命令相关联的指示符可以是词、短语、图片、和/或图形图标的任何组合，其充当向用户标识某些有效音频命令(即，计算设备所识别并支持的音频命令)的提醒(cue)(“提醒卡”)或提示。

在一些实施方式中，计算设备可以被配置为基于诸如时间和/或该计算设备的地理位置的场境因素来输出某些指示符以用于显示。可以基于在计算设备接收用户输入的指示时在该计算设备上执行的一个或多个特定应用来确定场境。计算设备可以进一步被配置为基于用户的历史使用来输出指示符以用于显示。例如，该计算设备可以被配置为输出与用户最近利用过的所支持的音频命令相关联的指示符以用于显示。此外，计算设备可以被配置为输出与用户最近利用过的应用相关联(即基于对应用的使用的新进度(recency))的指示符以用于显示。在示例实施方式中，计算设备可以被配置为在不考虑用户是否已经使用所支持的音频命令访问了应用的情况下输出与一个或多个应用相关联的指示符以用于显示。

在一些实施方式中，计算设备可以被配置为输出指示符以用于显示，使得例如根据用户使用与特定指示符相关联的特定应用或功能的频率来对所述指示符排名。再进一步地，计算设备可以被配置为在关于用户可能并不熟悉的语音命令来试图对该用户进行教导时输出与用户还未利用的语音命令相关联的指示符以用于显示。

在一些实施方式中，计算设备能够基于预定命令录入阈值来设置以上所描述的命令录入计时器。此外，在一些实施方式中，计算设备可以被配置为更新该命令录入阈值计算器。例如，在一些实施方式中，该计算设备可以从用户接收多个音频输入样本(例如音频命令)。这些音频输入样本可以包括话音(即所说出或含糊说出的词，以及诸如um、ah、uh的停顿)、静电噪声、和/或沉默。在示例实施方式中，计算设备可以被配置为基于对音频输入样本的分析来确定信息，其可以包括用户的所识别的话音模式。在一些实施方式中，计算设备可以分析音频输入样本并且基于该分析来确定用户的所识别的话音模式(即，话音行为或典型话音模式)。同样地，与计算设备相关联的另一个可用处理器或者与该计算设备相关联的远程处理设备(例如云处理器)可以分析该音频输入样本并且确定话音行为。在示例实施方式中，确定话音行为可以包括计算设备从关联的处理器或远程处理设备接收所识别的话音行为。基于所确定的话音行为，该计算设备可以被配置为调节或更新该命令录入时间阈值以使得其针对用户而定制。

在示例实施方式中，所述分析或所确定的话音行为或话音模式可以包括延迟时间。在一些实施方式中，延迟时间可以反映或基于计算设备或关联的处理器在音频输入样本中检测到可判读话音之前的时间量。换句话说，延迟时间可以反映在计算设备接收到提示接收音频命令的用户输入的指示之后用户开始讲话(即提供音频命令)通常花费的时间量。此外，在一些实施方式中，延迟时间可以反映或基于计算设备在可判读话音的时间段之间检测到的时间量。换句话说，延迟时间可以反映或基于用户在提供音频命令时在词和音节之间采取的停顿长度。如将理解的，某些用户可以在例如说出预定义词(即，提供用于提示计算设备接收音频命令的用户输入)与实际提供音频命令之间采取较长的停顿。另外，在录入或提供音频命令时，某些用户可能比其它用户说话更慢或更块(例如，由于地域方言)。在录入音频命令时，一些用户可能仔细地对他们的词语进行宣告(announciate)或发音(articulate)，而其它用户则可能将词一起说出或者不连贯地一段段说出词。将理解，通过基于用户的话音行为或典型话音模式来配置命令录入时间阈值并且在所定制的命令输入计时器到期时输出指示符，由于用户很可能需要提醒卡(即视觉指示符)的协助因此该指示符可以是不太可能打断用户、阻碍用户、或使用户分心的。

在一些实施方式中，该计算设备可以将用户的延迟时间与预定参考延迟时间进行比较，该参考延迟时间可以基于对来自多个用户的多个输入样本的分析来被确定。将理解，这样的参考延迟时间可以表示用户开始说话通常花费的平均时间量和/或用户在说话时采取的平均停顿长度。在一些实施方式中，计算设备可以基于来自用户的多个输入样本来确定用户的平均延迟时间(即均值延迟时间)。然后，计算设备可以将用户的均值延迟时间与参考延迟时间和/或用户的历史或先前的延迟时间进行比较。该计算设备同样可以被配置为基于用户延迟时间与参考延迟时间之间的差来利用预定时间量或可变时间量调节或更新命令录入时间阈值。

以下将参照附图对所公开技术的一些实施方式进行更为全面地描述。然而，该所公开的技术可以以许多不同形式来被体现，并且不应当被解释为限于本文所阐述的实施方式。

在以下描述中，阐述了众多具体细节。然而，应当理解的是，所公开技术的实施方式可以在没有这些具体细节的情况下进行实践。在其它实例中，公知的方法、结构、和技术没有被详细示出以便不使对该描述的理解模糊。对“一个实施方式”、“实施方式”、“示例实施方式”、“各个实施方式”等的引用指示这样描述的所公开技术的实施方式可以包括特定特征、结构、或特性，但是并非每个实施例都必然包括该特定的特征、结构、或特性。此外，术语“在一个实施方式中”的重复使用并非必然指代相同的实施方式，虽然其可能如此。

贯穿说明书和权利要求书，除非上下文清楚地另外指出，否则以下术语至少采取与本文所明确相关联的含义。术语“连接”意指一个功能、特征、结构、或特性被直接连接到另一功能、特征、结构或特性或者与其进行通信。术语“耦合”意指功能、特征、结构、或特性被直接或间接地连接到另一功能、特征、结构或特性或者与其进行通信。术语“或”意图表示包含性的“或”。另外，除非另外有所指定或者从上下文清楚指向单数形式，否则术语“一”、“一个”、“该”意图表示一个或多个。

如本文所使用的，除非另外指定，否则用以描述一般对象序数形容词“第一”、“第二”、“第三”等仅指示所引用的相似对象的不同实例，并且并非意图暗示如此描述的对象必须在时间上、空间上、排名上、或者以任何其它方式处于给定的顺序。

现在将参照附图对所公开技术的示例实施方式进行描述。

按照需要，所公开技术的实施方式可以包括具有比图1中图示的更多或更少的组件的计算设备。将理解的是，计算设备架构100仅出于示例的目的而被提供，而并非对当前所公开的系统、方法、和计算机可读介质的各个实施方式的范围进行限制。

图1的计算设备架构100包括中央处理单元(CPU)102，计算机指令在该处被处理；显示接口104，其充当通信接口并且提供用于在显示器上渲染视频、图形、图像、和文本的功能。在所公开技术的某些示例实施方式中，显示接口104可以直接连接至本地显示器，诸如与移动计算设备相关联的触摸屏显示器。在另一示例实施方式中，显示接口104可以被配置用于为并非必须物理连接至移动计算设备的外部/远程显示器提供数据、图像、和其它信息。例如，台式监视器可以被利用来反映移动计算设备上所呈现的图形和其它信息。在某些示例实施方式中，显示接口104例如可以经由Wi-Fi信道或其它可用网络连接接口112与外部/远程显示器进行无线通信。

在一个示例实施方式中，网络连接接口112可以被配置为通信接口并且可以提供用于在显示器上渲染视频、图形、图像、文本、其它信息、或者它们的任何组合的功能。在一个示例中，通信接口可以包括串行端口、并行端口、通用输入和输出(GPIO)端口、游戏端口、通用串行总线(USB)、微型USB端口、高清晰度多媒体(HDMI)端口、视频端口、音频端口、蓝牙端口、近场通信(NFC)端口、另一类似的通信接口、或者它们的组合。在一个示例中，显示接口104可以操作地耦合至本地显示器，诸如与移动设备相关联的触摸屏显示器。在另一个示例中，显示接口104可以被配置来为并非必须连接至移动计算设备的外部/远程显示器提供视频、图形、图像、文本、其它信息、或者它们的任何组合。在一个示例中，台式监视器可以被利用来反映或扩展可以在移动设备上呈现的图形信息。在另一个示例中，显示接口104例如可以经由诸如Wi-Fi收发器的网络连接接口112与外部/远程显示器进行无线通信。

计算设备架构100可以包括键盘接口106，其提供用于键盘的通信接口。在一个示例实施方式中，计算设备架构100可以包括用于连接至存在敏感显示器107的存在敏感显示接口108。根据所公开技术的某些示例实施方式，存在敏感显示接口108可以提供用于可以与显示器关联或不关联的诸如指示设备、触摸屏、深度相机等的各种设备的通信接口。

计算设备架构100可以被配置为经由输入/输出接口(例如，键盘接口106、显示接口104、存在敏感显示接口108、网络连接接口112、相机接口114、声音接口116等)中的一个或多个接口来使用输入设备以允许用户将信息输入到计算设备架构100中。该输入设备可以包括鼠标、轨迹球、方向键、触控板、触摸验证触控板、存在敏感触控板、存在敏感显示器、滚轮、数字相机、数字视频相机、web相机、麦克风、传感器、智能卡等。此外，输入设备可以与计算设备架构100整合或者可以是单独的设备。例如，输入设备可以是加速计、磁力计、数码相机、麦克风、和光学传感器。

计算设备架构100的示例实施方式可以包括天线接口110，其提供用于天线的通信接口；网络连接接口112，其提供用于网络的通信接口。如以上所提到的，显示接口104可以与网络连接接口112进行通信以例如提供信息以用于在并非直接连接或附接至该系统的远程显示器上显示。在某些实施方式中，提供了相机接口114，其充当通信接口并且提供捕获来自相机的数字图像的功能。在某些实施方式中，声音接口116被提供作为用于使用麦克风将声音转换为电信号并且用于使用扬声器将电信号转换为声音的通信接口。根据示例实施方式，提供了随机存取存储器(RAM)118，其中计算机指令和数据可以被存储在易失性存储器设备中以用于由CPU 102处理。

根据一个示例实施方式，计算设备架构100包括只读存储器(ROM)120，其中用于诸如基本输入和输出(I/O)、启动、或从键盘接收击键的基本系统功能的不变的低层级系统代码或数据被存储在非易失性存储器设备中。根据一个示例实施方式，计算设备架构100包括存储介质122或其它合适类型的存储器(例如，诸如RAM、ROM、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁盘、光盘、软盘、硬盘、可移动卡盒(cartridge)、闪存)，其中存储包括操作系统124、应用程序126(例如包括web浏览器应用、微件或小组件(gadget)引擎、和/或必要时包括其它应用)的文件以及数据文件128。根据一个示例实施方式，计算设备架构100包括电源130，其提供适当的交流(AC)或直流(DC)来为组件供电。

根据一个示例实施方式，计算设备架构100包括电话子系统132，其允许设备100通过电话网络传送和接收声音。组成的设备和CPU 102通过总线134相互通信。

根据一个示例实施方式，CPU 102具有作为计算机处理器的适当结构。在一个布置中，CPU 102可以包括多于一个的处理单元。RAM 118与计算机总线134相接口以在诸如操作系统应用程序和设备驱动器的软件程序的执行期间向CPU 102提供快速RAM存储。更具体地，CPU 102将计算机可执行的处理步骤从存储介质122或其它媒体加载到RAM 118的字段中以便执行软件程序。数据可以被存储在RAM 118中，其中该数据可以由计算机CPU 102在执行期间进行访问。在一个示例配置中，设备架构100至少包括128MB的RAM以及256MB的闪存。

存储介质122自身可以包括多个物理驱动器单元，诸如独立冗余磁盘阵列(RAID)、软盘驱动器、闪存、USB闪存驱动器、外部硬盘驱动器、拇指驱动器、笔形驱动器、钥匙形驱动器、高密度数字多功能盘(HD-DVD)光盘驱动器、内部硬盘驱动器、蓝光光盘驱动器、或者全息数字数据存储(HDDS)光盘驱动器、外部迷你双列直插式存储模块(DIMM)同步动态随机存取存储器(SDRAM)、或者外部微型DIMM SDRAM。这样的计算机可读存储介质允许计算设备访问存储在可移动和不可移动存储器介质上的计算机可执行处理步骤、应用程序等，以从设备卸下(off-load)数据或者向设备上传数据。诸如利用通信系统的计算机程序产品的计算机程序产品可以以有形方式在存储介质122中体现，存储介质122可以包括机器可读存储介质。

根据一个示例实施方式，如本文所使用的，术语计算设备可以是CPU或者被概念化为CPU(例如图1的CPU 102)。在该示例实施方式中，计算设备(CPU)可以与诸如显示器的一个或多个外围设备耦合、连接、和/或通信。在另一示例实施方式中，如本文所使用的，术语计算设备可以指代移动计算设备，诸如智能电话、平板计算机、或智能手表。在该示例实施方式中，计算设备可以向其本地显示器和/或扬声器输出内容。在另一示例实施方式中，该计算设备可以(例如通过Wi-Fi)向诸如电视的外部显示设备或外部计算系统输出内容。

在所公开技术的示例实施方式中，计算设备可以包括任何数目的硬件和/或软件应用，其被执行以促进任何操作。在示例实施方式中，一个或多个I/O接口可以促进计算设备与一个或多个输入/输出设备之间的通信。例如，通用串行总线端口、串行端口、盘驱动器、CD-ROM驱动器，和/或一个或多个用户接口设备，诸如显示器、键盘、小键盘、鼠标、控制面板。触摸屏显示器、麦克风等，可以促进用户与计算设备的交互。该一个或多个I/O接口可以被利用来从广泛多种输入设备接收或收集数据和/或用户指令。所接收的数据可以如所公开技术的各个实施方式中所需由一个或多个计算机处理器来执行和/或被存储在一个或多个存储设备中。

一个或多个网络接口可以促进计算设备输入和输出至一个或多个合适的网络和/或连接的连接；例如，促进与该系统相关联的任何数目的传感器的通信的连接。该一个或多个网络接口可以进一步促进至一个或多个合适的网络的连接；例如，局域网、广域网、互联网、蜂窝网络、射频网络、支持蓝牙的网络、支持Wi-Fi的网络、基于卫星的网络、任何有线网络、任何无线网络等，以用于与外部设备和/或系统进行通信。

图2图示了根据所公开技术的示例实施方式的移动计算设备200，其可以包括图1所示的计算设备100的组件中的一些或全部。移动计算设备200包括诸如麦克风的音频输入设备210以用于接收音频或语音命令。移动计算设备200可以被配置为接收用于提示由计算设备200接收音频或语音名的用户输入的指示。在一个实施方式中，用户输入的指示可以包括用户对可以被输出以用于在显示屏202上显示的对象或图标204的选择。在所示出的示例实施方式中，显示屏202是存在敏感输入设备，并且具体是触摸屏。移动计算设备200可以被配置为响应于接收到用于提示接收音频命令的用户输入的指示(例如，对指示请求录入语音命令的对象204的选择)而对诸如麦克风的音频输入设备210进行初始化以接收用户的音频命令。在示例实施方式中，在接收到提示接收音频命令的用户输入的指示之前，移动计算设备200可以设置命令录入计时器，其可以基于预定的命令录入阈值。

在一个实施方式中，音频输入设备210保持无活动直至其被初始化。在一个实施方式中，音频输入设备210被配置以使得其保持有限的功能。例如，移动计算设备200可以被配置以使得对某些预定词或短语(即用户输入)——其可以指示用户要提供音频命令的意图或期望——的接收提示由计算设备200对音频输入设备210进行初始化，以使得音频输入设备210完全活动以用于接收音频命令。在另一实施方式中，音频输入设备210始终保持活动以使得用户能够在任何时间提供音频命令(例如语音命令)。

在示例实施方式中，在接收到用于提示接收音频命令的用户输入的指示(例如，通过用户选择图标204或者经由用户说出某些预定词或短语)之后，移动计算设备200可以被配置为等待预定时间段以接收来自用户的语音或音频命令。在示例实施方式中，如果该预定时间段到期且没有接收到有效(即所识别或所支持的)音频命令，则移动计算设备210可以被配置为输出与有效音频命令相关联的一个或多个指示符以用于显示。在一个实施方式中，如图2B中所示，一个或多个指示符可以被显示为有效语音命令列表220A。

例如，用户可以说出指示期望提供语音命令以访问或利用移动计算设备200的特定应用的特定词或短语。然而，在说出该词或短语之后，用户可能忘记了访问所期望的应用所需的有效语音命令。在这样的情况下，在预定时间段到期之后，移动计算设备200可以被配置为输出有效音频命令列表220A以用于显示，其能够充当关于哪些命令可用的对用户的提醒(“提醒卡”)或提示。在另一示例中，在提供适当用户输入之后，用户可能开始提供语音命令并且然后在完成该命令之前失去他/她的思路。在示例实施方式中，在预定时间段到期之后，计算设备可以被配置为输出有效语音命令列表220A以用于显示，其可以使用户忆起。

如所讨论以及在图2B中所示出的，所显示的有效语音命令列表220A可以充当对于用户的提醒。例如，如图2B所示，列表220A可以包括语音命令，诸如可以允许用户发起电话呼叫的“CALL(呼叫)”232，或者可以允许用户访问地图应用以查看一个或多个附近位置(例如，公园、大学、影院、医院、咖啡店)的“MAP(地图)”234。有效音频命令列表220A可以进一步包括可以允许用户开始撰写文本消息的“TEXT(文本)”命令236，或者可以允许用户播放例如歌曲、播客、语音邮件消息等的“PLAY(播放)”命令238。此外，可用命令列表220A可以进一步包括诸如“EMAIL(电子邮件)”240的语音命令，其可以允许用户开始电子邮件消息的起草，或者“GO TO(前往)”242，其可以允许用户请求访问网站。

虽然并未在有效语音命令列表220A中示出，但是附加有效音频命令(例如语音命令)可以允许用户发起语音引导的导航、口述“note to self(给自己的笔记)”消息、查找特定术语的定义、搜索联系人信息、访问或打开移动计算设备200上的特定应用、查阅用户的日程和/或向用户的日程添加任务或事件、查阅体育比赛比分、查阅天气预报、找出歌曲的标题、或者本领域技术人员可想到的各种其它动作。此外，如可以意识到的，本领域技术人员将理解有效音频命令列表(例如220A)可以包括单个命令或多个命令。

在一个实施方式中，移动计算设备200或移动计算设备200所执行的应用可以智能地确定各个音频命令以及音频命令在可用语音命令列表220A中被示出的顺序。例如，可用语音命令列表220A可以包括用户最频繁利用的语音命令。另外，命令在可用语音命令列表220A中的顺序可以基于用户对它们的使用频率来呈现。例如，用户最频繁利用的命令可以出现在列表顶端，或者替选地出现在列表的中间，这可以被视为是最可见的位置。

在一个实施方式中，计算设备200可以被配置为基于日时间来显示有效语音命令列表220A中的音频命令。例如，在通常的工作时间，可用语音命令列表220A可以包括各种与工作相关的命令，其例如允许用户开始起草电子邮件、搜索联系人信息、查阅用户日程和/或对新的事件或任务安排日程。替选地，在周末，可用命令列表220A可以包括与工作不相关的命令，诸如允许用户例如播放歌曲或查阅体育比赛比分的那些命令。

在一个实施方式中，计算设备200可以被配置为基于用户的当前位置来显示有效音频命令列表220A中的音频命令。例如，基于所接收到的GPS信息，移动计算设备200可以确定用户正在参加会议。因此，计算设备200可以被配置为显示命令，其可以包括如先前所讨论的各个与工作相关的命令。在一个实施方式中，可用语音命令列表220A可以更具体地涉及会议自身。例如，移动计算设备200可以被配置为从用户的日历访问信息以确定会议的参与者，并且基于该信息，可用语音命令列表220A可以包括开始起草给参与者中的每个人的电子邮件消息的选项。在另一示例中，基于所接收到的GPS数据或其它信息，移动计算设备200可以被配置为确定用户处于特定博物馆处。在这样的情形中，可用语音命令列表220A可以包括访问该博物馆的楼层规划或地图或者与该博物馆处展品相关的信息的选项，例如捕获展品或对象的图像(即拍摄照片)并且然后针对与该对象或展品相关的信息进行互联网图像搜索的选项。

在一个实施方式中，计算设备200可以被配置为基于从操作地连接至移动计算设备200的加速计接收或获取的信息来显示有效语音命令列表220A中的音频命令。例如，从加速计获取的信息可以指示用户正在锻炼。如果用户之后提供指示录入语音命令的请求的用户输入，则可用语音命令列表220A可以包括用于访问各个与锻炼相关的应用、和/或用于播放音乐或播客的命令。在另一个示例中，从加速计获取的信息可以指示用户在车中，并且在这样的情况下，可用语音命令列表220A可以包括各个与出行相关的语音命令(例如，用于访问地图或者用于发起语音引导的导航的语音命令)。

在一个实施方式中，如图2C所示，计算设备200可以被配置为基于用户在移动计算设备200上最近的动作来显示有效音频命令列表220B中示出的音频命令，所述音频命令可以已经由语音命令所发起过或没有由其发起过。例如，如果按新近发生的顺序，用户已经使用移动计算设备200发送电子邮件、发送文本消息、播放歌曲、进行电话呼叫、查找位置、以及访问网站，则可用语音命令列表220A可以如图2C所示的那样来被显示。

在一个实施方式中，如图2D所示，有效音频命令的列表220C中所示的音频命令可以由可以充当用户的视觉提醒的图形图标或图像来表示。例如，电话图标252可以与允许用户发起电话呼叫的语音命令相关联。地球图标254可以与允许用户访问附近位置的视觉地图的语音命令相关联。音符图标256可以与允许用户播放歌曲的语音命令相关联。信封图标258可以与允许用户开始起草电子邮件的语音命令相关联。

应当认识到，可用语音命令列表220A和220B中所图示的语音命令以及可用语音命令列表220C中所图示的样本图标并不限于所示的特定命令或图标。可用语音命令列表220A、220B、和220C中所图示的样本语音命令和图标也并不进一步限于某些数目或类型的所支持的语音命令或各个相对应的功能，并且不限于所讨论的特定命令。

图3图示了根据所公开的技术的示例实施方式的智能手表300，其可以包括图1中所示的计算设备100的组件中的一些或全部。如图3所图示，在一个实施方式中，智能手表300可以包括显示屏302并且被配置为接收语音命令。表示麦克风304的图标可以被显示在显示屏302上以向用户指示智能手表300被配置为接收音频命令(例如语音命令)。另外，在一个实施方式中，智能手表300可以被配置为输出有效音频命令列表320以用于在显示屏302上显示。类似于关于图2B所讨论的功能，有效音频命令列表320可以包括音频命令，诸如可以允许用户发起电话呼叫的“CALL(呼叫)”332，或者可以允许用户访问地图应用以查看一个或多个附近位置(例如，公园、大学、影院、医院、咖啡店)的“MAP(地图)”334。有效音频命令列表320可以进一步包括可以允许用户开始撰写文本消息的“TEXT(文本)”命令336，或者可以允许用户播放例如歌曲、播客、语音邮件消息等的“PLAY(播放)”命令338。有效命令列表320可以进一步包括诸如“EMAIL(电子邮件)”340的语音命令，其可以允许用户开始电子邮件消息的起草，或者“GO TO(前往)”342，其可以允许用户请求访问网站。

图4是根据所公开技术的示例实施方式的方法400的流程图。方法400在框402处开始，其中计算设备设置命令录入计时器。在示例实施方式中，该命令录入计时器可以基于预定命令录入阈值(例如，用户在用户开始说话之后必须输入音频命令的时间量)来设置。在框404处，计算设备接收提示接收音频或语音命令的用户输入的指示。在框406处，响应于确定自接收到用户输入的指示起已经流逝了预定时间量，计算设备输出与至少一个所支持的音频或语音命令相关联的至少一个指示符以用于显示。在框408处，计算设备接收多个音频输入样本。在示例实施方式中，音频输入样本可以包括说出的音频(例如，所说出或含糊说出的词、停顿、沉默、和静电噪声)。在一些实施方式中，某些音频可以是可判读音频(诸如所说出的词)，而其它音频可以是无法判读的(作为示例，诸如含糊说出或结巴说出的词)。在框410处，计算设备基于用户的所确定的话音行为来更新命令录入时间阈值。方法400在框410之后结束。

输出与至少一个所支持的语音命令相关联的至少一个指示符可以包括由计算设备向该计算设备的显示器输出视觉提醒或提醒卡的形式的指示符以用于显示。在一个示例实施方式中，该视觉提醒或提醒卡可以采取与所支持的语音或音频命令相关联的词或短语的形式。在另一示例实施方式中，视觉提醒或提醒卡可以采取与所支持的命令相关联的图形图标的形式。所支持的语音或音频命令可以与可在计算设备上执行的应用的功能或特征和/或各个操作系统功能相关联。

如所讨论的，该预定命令录入阈值可以针对特定用户来配置或者可适应于特定用户。在一个示例实施方式中，计算设备可以被配置为根据用户的话音模式来调整预定时间量。例如，计算设备可以被配置为确定用户开始说话或在停顿之后继续说话通常花多少时间。

以上参照根据所公开技术的示例实施方式的系统和方法和/或计算机程序产品的框图和流程图对所公开技术的某些实施方式进行了描述。将理解的是，框图和流程图中的一个或多个框以及该框图和流程图中的框的组合分别能够由计算机可执行程序指令来实施。同样，根据所公开技术的一些实施方式，该框图和流程图中的一些框可以不必需要以所呈现的顺序来执行，或者完全可以不必需要执行。

这些计算机可执行程序指令可以被加载到通用计算机、专用计算机、处理器、或其它可编程数据处理设备上来产生特定机器，以使得在计算机、处理器、或其它可编程数据处理设备上执行的指令创建用于实现一个或多个流程图框中指定的一个或多个功能的装置。这些计算机程序指令还可以被存储在计算机可读存储器中，其能够计算机或其它可编程数据处理设备以特定方式进行工作，以使得存储在该计算机可读存储器中的指令产生包括实现一个或多个流程图框中所指定的一个或多个功能的指令装置的制品。

所公开技术的实施方式可以提供计算机程序产品，其包括具有包含于其中的计算机可读程序代码或程序指令的计算机可用介质，所述计算机可读程序代码适于被执行以实现一个或多个流程图框中所指定的一个或多个功能。该计算机程序指令还可以被加载到计算机或其它可编程数据处理设备中以使得一系列操作要素或步骤在计算机或其它可编程设备上执行，从而产生计算机所实现的过程以使得在计算机或其它可编程装置上执行的指令提供用于实现一个或多个流程图框中指定的一个或多个功能的要素或步骤。

因此，框图和流程图中的框支持用于执行指定功能的装置的组合、用于执行指定功能的元件或步骤与用于执行指定功能的程序指令装置的组合。还将要理解的是，框图和流程图中的每个框以及框图和流程图中的框的组合能够由执行所指定功能、要素或步骤的专用的基于硬件的计算机系统来实现，或者由专用硬件和计算机指令的组合来实现。

虽然已经结合目前被视为最为可行的内容以及各种实施方式来对所公开技术的某些实施方式进行了描述，但是要理解的是，所公开的技术不限于所公开的实施方式，而是与之相反，意图覆盖所附权利要求书的范围内所包括的各个修改和等同布置。虽然本文采用了具体的术语，但是它们仅是在一般且描述性的意义上使用而并非出于限制的目的。

此书面描述使用示例公开了所公开技术的包括最佳模式的某些实施方式，并且还使得本领域的普通技术人员能够对所公开技术的某些实施方式进行实践，包括制造并使用任何设备或系统以及执行任何所包含的方法。所公开技术的某些实施方式的可获得专利权的范围在权利要求书中限定，并且可以包括本领域普通技术人员所想到的其它示例。如果这样的其他示例具有无异于权利要求的字面语言的结构元素或者如果它们包括与权利要求的字面语言无实质性差异的等同结构元素，则这样的其它示例意图处于权利要求书的范围之内。

Claims

1.一种方法，包括：

由计算设备设置时间阈值，所述时间阈值指示预定时间量；

由所述计算设备接收提示所述计算设备检测多个音频样本的用户输入的指示；

响应于确定自接收到所述用户输入的指示起已经流逝了所述预定时间量以及所述计算设备没有接收到能够由所述计算设备执行的音频命令，输出与能够由所述计算设备执行的至少一个音频命令相关联的指示符以用于显示；

在所述计算设备处接收所述多个音频样本；

在所述计算设备处并且基于所述多个音频样本来生成指示所述用户的话音模式的信息，指示所述用户的所述话音模式的所述信息基于在所述多个音频样本中所检测到的词之间的停顿的长度；以及

由所述计算设备并且基于指示所述用户的所述话音模式的所述信息来对所述时间阈值所指示的所述预定时间量进行更新。

2.根据权利要求1所述的方法，其中，指示所述用户的所述话音模式的信息是指示所述用户的所述话音模式的计算设备信息，并且所述方法进一步包括：

从远程处理设备并且基于所述多个音频样本来接收指示所述用户的所述话音模式的远程处理设备信息。

3.根据权利要求1所述的方法，其中，指示所述用户的话音模式的信息指示地域方言。

4.根据权利要求1所述的方法，其中，指示所述用户的所述话音模式的所述信息进一步基于在所述多个音频样本中所检测到的音节之间的停顿的长度。

5.根据权利要求1所述的方法，其中，指示所述用户的所述话音模式的所述信息进一步基于在所述多个音频样本中检测到可判读话音之前的时间量。

6.根据权利要求4所述的方法，其中，由所述计算设备并且基于指示所述用户的话音模式的所述信息对所述时间阈值所指示的所述预定时间量进行更新进一步包括：

将延迟时间与预定参考延迟时间进行比较；

响应于确定所述延迟时间超过所述预定参考延迟时间预定因子而增加所述时间阈值所指示的所述预定时间量；以及

响应于确定所述预定参考延迟时间超过所述延迟时间所述预定因子而减少所述时间阈值所指示的所述预定时间量。

7.根据权利要求6所述的方法，其中，所述预定参考延迟时间根据来自多个用户的多个音频样本来被确定。

8.根据权利要求6所述的方法，其中，所述延迟时间是均值延迟时间，并且所述均值延迟时间通过对来自所述多个音频样本的多个延迟时间取平均来进行计算。

9.根据权利要求1所述的方法，其中，所述至少一个指示符与词、短语、图形图标、和图片中的至少一个相关联。

10.根据权利要求1所述的方法，其中，所述至少一个指示符由所述计算设备基于以下中的至少一个来确定：日时间、所述计算设备的地理位置、用户对与所述指示符相关联的应用的使用的新近度、以及所述用户对与所述指示符相关联的应用的使用的频率。

11.根据权利要求1所述的方法，其中，用于提示所述计算设备检测多个音频样本的用户输入包括以下中的至少一个：按压并保持手势、所说出的预定义词、所说出的预定义声音、和所说出的预定义短语。

12.一种系统，包括：

一个或多个处理器；

耦合至所述一个或多个处理器并且存储指令的存储器，所述指令在由所述一个或多个处理器执行时使得所述系统；

设置时间阈值，所述时间阈值指示预定时间量；

接收提示所述系统检测多个音频样本的用户输入的指示；

响应于确定自接收到所述用户输入的指示起已经流逝了所述预定时间量以及所述系统没有接收到能够由所述系统执行的音频命令，输出与能够由所述系统执行的至少一个音频命令相关联的指示符以用于显示；

接收所述多个音频样本；

基于所述多个音频样本来生成指示所述用户的话音模式的信息，指示所述用户的所述话音模式的所述信息基于所述多个音频样本中所检测到的词之间的停顿的长度；以及

基于指示所述用户的所述话音模式的所述信息来对所述时间阈值所指示的所述预定时间量进行更新。

13.根据权利要求12所述的系统，其中，指示所述用户的所述话音模式的信息是指示所述用户的话音模式的系统信息，并且其中，所述存储器进一步存储指令，所述指令在由所述一个或多个处理器执行时使得所述系统；

14.根据权利要求12所述的系统，其中，指示所述用户的所述话音模式的所述信息进一步基于在所述多个音频样本中所检测到的音节之间的停顿的长度。

15.根据权利要求12所述的系统，其中，指示所述用户的所述话音模式的所述信息进一步基于在所述多个音频样本中检测到可判读话音之前的时间量。

16.根据权利要求14所述的系统，其中，基于指示所述用户的所述话音模式的所述信息来对所述时间阈值所指示的所述预定时间量进行更新进一步包括：

将延迟时间与预定参考延迟时间进行比较；

17.根据权利要求16所述的系统，其中，所述预定参考延迟时间根据来自多个用户的多个音频样本来被确定。

18.根据权利要求16所述的系统，其中，所述延迟时间是均值延迟时间，并且所述均值延迟时间通过对来自所述多个音频样本的多个延迟时间取平均来进行计算。

19.一种存储指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时使得计算设备：

设置时间阈值，所述时间阈值指示预定时间量；

接收提示所述计算设备检测多个音频样本的用户输入的指示；

接收所述多个音频样本；

20.根据权利要求19所述的非暂时性计算机可读介质，其中，指示所述用户的所述话音模式的信息是指示所述用户的所述话音模式的计算设备信息，并且其中，所述非暂时性计算机可读介质进一步存储指令，所述指令在由所述一个或多个处理器执行时使得所述计算设备：

21.根据权利要求19所述的非暂时性计算机可读介质，其中，指示所述用户的所述话音模式的所述信息进一步基于在所述多个音频样本中检测到可判读话音之前的时间量。

22.根据权利要求19所述的非暂时性计算机可读介质，其中，指示所述用户的所述话音模式的所述信息进一步基于在所述多个音频样本中检测到的音节之间的停顿的长度。

23.根据权利要求19所述的非暂时性计算机可读介质，其中，基于指示所述用户的所述话音模式的所述信息来对所述时间阈值所指示的所述预定时间量进行更新进一步包括：

将延迟时间与预定参考延迟时间进行比较；

24.根据权利要求23所述的非暂时性计算机可读介质，其中，所述预定参考延迟时间根据来自多个用户的多个音频样本来被确定。

25.根据权利要求23所述的非暂时性计算机可读介质，其中，所述延迟时间是均值延迟时间，并且所述均值延迟时间通过对来自所述多个音频样本的多个延迟时间取平均来进行计算。

26.根据权利要求19所述的非暂时性计算机可读介质，其中，所述至少一个指示符由所述计算设备基于以下中的至少一个来确定：日时间、所述计算设备的地理位置、用户对与所述指示符相关联的应用的使用的新近度、以及所述用户对与所述指示符相关联的应用的使用的频率。