CN107430626B

CN107430626B - 提供建议的基于话音的动作查询

Info

Publication number: CN107430626B
Application number: CN201680019315.8A
Authority: CN
Inventors: 维克拉姆·阿加尔瓦尔; 普拉维尔·库马尔·古普塔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-05-27
Filing date: 2016-05-26
Publication date: 2019-11-08
Anticipated expiration: 2036-05-26
Also published as: WO2016191540A1; JP6993466B2; KR20190121876A; DE112016000986T5; CN110851470B; CN107430626A; US10504509B2; US20240144924A1; EP3404654B1; US20160350304A1; US20200027448A1; KR101870934B1; GB2553936A; JP2019050019A; JP2020144932A; EP3262636A1; KR20180072845A; EP3262636B1; EP3404654A1; KR102036786B1

Abstract

本公开的技术可促进用户发现能够被口述以发起基于计算机的动作的各种基于话音的动作查询，诸如能够作为口述输入提供到计算装置以发起基于计算机的动作的基于话音的动作查询，所述基于话音的动作查询是针对所述用户在所述计算装置上观看或以其它方式消费的内容来特别指出的。一些具体实施一般涉及鉴于用户最近在计算装置上观看的内容来确定至少一个建议的基于话音的动作查询用于经由所述计算装置呈现。一些具体实施额外地或另选地一般涉及在计算装置处接收至少一个建议的基于话音的动作查询并且响应于用于发起经由所述计算装置提供基于话音的查询的输入而提供所述建议的基于话音的动作查询作为建议。

Description

提供建议的基于话音的动作查询

背景技术

话音查询应用正越来越多地用于计算装置控制。话音查询应用的一种使用是用于诸如移动电话、手表、平板计算机、头戴式装置、虚拟或增强现实装置、车载电子系统(例如，并入有导航和音频能力的汽车系统)等便携式计算装置。许多话音查询应用已经发展到对自然语言请求做出响应且/或管理与用户的来回对话或会话。许多话音查询应用并入有将人类话音的音频记录转换为文本的初始语音至文本转换以及对文本进行分析以尝试确定用户请求的含义的语义分析。基于用户口述输入的所确定含义，可采取基于计算机的动作，诸如执行搜索、提供行驶方向或以其它方式控制计算装置的一个或多个应用。

话音查询应用的流行度和/或能力已经增大并且可以继续增大。然而，在很多情况下，用户可能没有充分认识到用户所利用的计算装置的话音查询应用所提供的能力。

发明内容

本说明书的技术的一些具体实施可促进用户发现能够被口述以发起基于计算机的动作的各种基于话音的动作查询，诸如能够提供作为口述输入到计算装置以发起基于计算机的动作的基于话音的动作查询，所述基于话音的动作查询是针对所述用户在所述计算装置上观看或以其它方式消费的内容来特别指出的。

本说明书的一些具体实施大体上针对于鉴于用户最近在计算装置上观看的内容来确定至少一个建议的基于话音的动作查询用于经由所述计算装置呈现。所述建议的基于话音的动作查询指示能够被口述以发起执行针对于所述内容的一个或多个方面的基于计算机的动作的话音查询。所述技术的一些具体实施额外地或另选地大体上针对于在计算装置处接收至少一个建议的基于话音的动作查询并且响应发起经由所述计算装置提供基于话音查询的输入，从而提供所述建议的基于话音的动作查询作为建议。所提供的建议的基于话音的动作查询可为针对在所述计算装置上当前且/或最近可见的内容特别指出的，并且可基于对所述计算装置所提供的内容的指示来生成。

在一些具体实施中，可响应于发起基于话音的查询的用户输入(例如，选择话音查询界面元件或口述发起基于话音的查询的短语)并且基于在那个输入之后跟随有对需要建议的基于话音的动作查询的指示来呈现建议的基于话音的动作查询。在那些具体实施中的一些具体实施中，对所述需要建议的基于话音的动作查询的指示可包括在发起基于话音的查询的用户输入之后的阈值量时间内缺少来自用户的任何口述输入。例如，在那些具体实施的版本中，可响应于所述用户在发起基于话音的查询的用户输入的四秒(或其它阈值量时间)内不提供任何口述输入来呈现建议的基于话音的动作查询。

在一些具体实施中，建议的基于话音的动作查询包括针对最近在所述计算装置上观看的内容(诸如当前在计算装置上观看的内容)的实体特别指出的动作词项和实体词项。在那些具体实施中的一些具体实施中，那些建议的基于话音的动作查询可包括用于实体的通用描述符，诸如用于实体的代词。例如，对于与演员哈里森·福特相关联的实体，建议的基于话音的动作查询可为“告诉我关于他的更多信息”，其中使用“他”来代替哈里森·福特。另外，例如，对于特定饭店，建议的基于话音的动作查询可为“导航到那里”、“给我看看它的菜单”等等，其中使用“那里”和“它的”来代替饭店的特定名称。

在一些具体实施中，提供一种方法，其包括从计算装置接收对最近在计算装置上观看的内容的指示。所述方法还包括确定在所述内容中提到的实体并且确定一个或多个电子数据库中的映射到所述实体的基于计算机的动作。所述方法还包括生成建议的基于话音的动作查询，所述建议的基于话音的动作查询包括发起执行基于计算机的动作的至少一个动作词项并且包括基于所述实体来选择的至少一个实体词项。所述方法还包括从计算装置接收基于话音的查询输入指示并且响应于接收到所述基于话音的查询输入指示而将建议的基于话音的动作查询提供到计算装置。所述基于话音的查询输入指示其指示接收到所述用户经由计算装置的用于发起经由计算装置提供基于话音的查询的输入。将建议的基于话音的动作查询提供到计算装置用于作为基于话音的查询的建议来显示。

本文所公开的技术的这些和其它具体实施可任选地包括以下特征中的一者或多者。

在一些具体实施中，所述方法还包括确定对需要建议的基于话音的动作查询的指示；以及基于确定对所述需要建议的基于话音的动作查询的指示来提供建议的基于话音的动作查询用于作为建议来显示。在那些具体实施中的一些具体实施中，确定对所述需要建议的基于话音的动作查询的指示是基于从用户发起提供基于话音的查询的输入起的阈值量时间内在计算装置处未从用户接收到口述输入。

在一些具体实施中，确定对所述需要建议的基于话音的动作查询的指示是基于在用户发起提供基于话音的查询的输入之后由计算装置检测到至少阈值噪声水平。

在一些具体实施中，接收对内容的指示包括接收内容的词项和每个词项在内容中的显示属性，并且确定内容中提到的实体包括基于所述词项中的至少一个词项和所述词项在所述内容中的显示属性来确定实体。

在一些具体实施中，确定映射到实体的基于计算机的动作包括确定实体的类别，并且识别基于计算机的动作到所述类别的映射。

在一些具体实施中，生成基于话音的动作查询包括确定映射到实体的通用描述符，并且使用通用描述符作为所述至少一个实体词项。在那些具体实施中的一些具体实施中，通用描述符是映射到实体的代词。在通用描述符是映射到实体的代词的具体实施的版本中，所述方法还包括识别实体的图像并且将实体的图像提供到计算装置用于作为建议的基于话音的动作查询的注释来显示。

在一些具体实施中，所述方法还包括从计算装置接收对计算装置的优选语言的指示。在那些具体实施中的一些具体实施中，生成建议的基于话音的动作查询包括基于动作词项到基于计算机的动作的映射并且基于动作词项到优选语言的映射来选择动作词项。在那些具体实施中的一些具体实施中，生成建议的基于话音的动作查询包括基于优选语言来选择实体词项。

在一些具体实施中，所述方法还包括从计算装置接收应用信息。所述应用信息指示以下至少一者：安装在计算装置上的应用，以及安装在计算装置上的应用的版本。在那些具体实施中的一些具体实施中，确定基于计算机的动作包括基于所述基于计算机的动作到以下至少一者的映射来选择基于计算机的动作：安装在计算装置上的应用，以及安装在计算装置上的应用的版本。

在一些具体实施中，所述方法还包括接收对生成所述内容的应用的指示。在那些具体实施中的一些具体实施中，确定基于计算机的动作包括基于对生成所述内容的应用的指示来选择基于计算机的动作。

在一些具体实施中，在计算装置处选择所述建议的基于话音的动作查询致使计算装置的第一应用执行基于计算机的动作的至少一个方面。在那些具体实施中的一些具体实施中，所述方法还包括：确定所述至少一个电子数据库中的映射到所述实体的额外基于计算机的动作；生成额外建议的基于话音的动作查询，所述额外建议基于话音的动作查询包括发起执行所述额外基于计算机的动作的至少一个额外动作词项并且包括所述至少一个实体词项；以及响应于接收到所述基于话音的查询指示而将所述额外建议的基于话音的动作查询提供到计算装置，所述额外建议的基于话音的动作查询被提供到计算装置用于作为基于话音的查询的额外建议来显示。在那些具体实施中的一些具体实施中，在计算装置处选择所述额外建议的基于话音的动作查询致使计算装置的第二应用执行额外基于计算机的动作的至少一个方面。

在一些具体实施中，不久前在计算装置上观看的内容是最近相对于用户经由计算装置的用于发起经由计算装置提供基于话音的查询的输入观看的内容。在那些具体实施中的一些具体实施中，计算装置响应于用户经由计算装置的用于发起经由计算装置提供基于话音的查询的输入而提供对内容的指示。

在一些具体实施中，不久前在计算装置上观看的内容是最近在计算装置的应用中观看的内容。在那些具体实施中的一些具体实施中，最近在计算装置的应用中观看的内容是计算装置当前所显示的内容。

在一些具体实施中，提供一种方法，其包括在计算装置处接收用于发起经由计算装置提供基于话音的查询的输入。所述方法还包括计算装置识别计算装置最近相对于接收到所述输入显示的内容。所述方法还包括提供对所述内容的指示以及接收建议的基于话音的动作查询，所述建议的基于话音的动作查询是基于对内容的指示并且包括至少一个动作词项和至少一个实体词项。实体词项提到内容的实体，并且动作词项映射到实体并发起执行基于计算机的动作。所述方法还包括确定相对于接收到所述输入在阈值量时间内尚未从用户接收到任何口述输入；以及响应于确定在所述阈值量时间内尚未接收到口述输入，提供建议的基于话音的动作查询作为基于话音的查询的建议。

在一些具体实施中，所述方法还包括与对内容的指示一起提供对计算装置的优选语言的指示。在那些具体实施中的一些具体实施中，响应于提供对优选语言的指示而以计算装置的优选语言接收建议的基于话音的动作查询。

在一些具体实施中，所述方法还包括识别对建议的基于话音的动作查询的选择并且基于识别对建议的基于话音的动作查询的选择来执行基于计算机的动作。

另外，一些具体实施包括一种设备，其包括存储器和一个或多个处理器，所述处理器可操作以执行存储器中所存储的指令，其中所述指令被配置为执行前述方法中的任一者。一些具体实施还包括一种非暂态计算机可读存储媒体，其存储一个或多个处理器可执行以执行前述方法中的任一者的计算机指令。

应当理解，本发明前述概念与更详细描述的额外概念的所有组合预期作为本发明所公开的主题的一部分。例如，出现在本公开的结尾处的所主张的主题的所有组合预期作为本发明所公开的主题的一部分。

附图说明

图1是可实施本文所公开的技术的示例性环境的框图。

图2示出鉴于在计算装置上访问的内容来确定至少一个建议的基于话音的动作查询用于经由计算装置来呈现的实例。

图3示出在计算装置处接收至少一个建议的基于话音的动作查询并且响应于用于发起提供基于话音的查询的输入而提供所述建议的基于话音的动作查询作为建议的实例。

图4是示出鉴于在计算装置上访问的内容而确定至少一个建议的基于话音的动作查询用于经由计算装置呈现的示例性方法的流程图。

图5示出在计算装置处接收至少一个建议的基于话音的动作查询并且响应于用于发起提供基于话音的查询的输入而提供所述建议的基于话音的动作查询作为建议的示例性方法。

图6A示出展示在计算装置的应用中显示的内容的示例性图形用户界面。

图6B示出用于显示基于图6A的内容来生成的建议的基于话音的动作查询的示例性图形用户界面。

图6C示出用于显示基于图6A的内容来生成的建议的基于话音的动作查询的另一个示例性图形用户界面。

图7A示出展示在计算装置的应用中显示的内容的另一个示例性图形用户界面。

图7B示出用于显示基于图7A的内容来生成的建议的基于话音的动作查询的示例性图形用户界面。

图8示出计算装置的示例性架构。

具体实施方式

在本文所描述的具体实施中，公开用于鉴于在计算装置上访问的内容来生成一个或多个建议的基于话音的动作查询的技术。还公开促进用户发现能够被口述以发起基于计算机的动作的各种基于话音的动作查询的技术，所述基于话音的动作查询诸如为能够作为口述输入提供到计算装置以发起基于计算机的动作的基于话音的动作查询，所述基于话音的动作查询是针对用户当前在计算装置上访问的内容特别指出的。下文论述关于选定的具体实施的进一步细节。然而，应当了解，还预期其它具体实施，所以本文所公开的具体实施不是排他性的。

作为本文所描述的具体实施的一个实例，假设用户正在用户电话上使用提供与选定的电影、女演员、男演员等相关的详细信息的应用。进一步假设用户已经使用所述应用来导航到关于影片“银翼杀手”的内容，诸如包括影片的标题、影片的剧情简介、影片中的演员等的内容。用户可经由电话发起话音查询，并且用户电话可将对应用中所呈现的内容的指示发送到服务器。服务器可利用对内容的指示来确定所述内容的主要实体是与电影“银翼杀手”相关的实体，可确定与所述电影相关的基于计算机的动作，并且可确定将致使针对所述电影执行那些动作的建议的基于话音的动作查询。例如，可确定建议的基于话音的动作查询“我怎么可以观看它”、“观看它”和“告诉我关于它的更多信息”。可将所述建议的基于话音的动作查询提供到用户电话用于向用户呈现。例如，所述建议的基于话音的动作查询可在话音查询图形界面附近在一个或多个信息“卡”中和/或在“下拉菜单”中以图形方式显示，任选地连同诸如“尝试说出以下任一项”等文字一起。

在一些具体实施中，直到自从发起话音查询起已经过去至少阈值时间周期之后才经由用户电话向用户呈现所述建议的基于话音的动作查询。在一些具体实施中，用户可选择所述建议的基于话音的动作查询之一而不用口述(例如，经由轻敲其)来执行用于执行相关联动作的查询，且/或用户可口述所述建议的基于话音的动作查询之一来执行用于执行相关联动作的查询。

一般来说，发起执行基于计算机的动作的基于话音的动作查询是包括映射到基于计算机动作的动作词项和作为所述动作的焦点的实体词项的查询。在一些具体实施中，动作词项可为动词，并且实体词项可为名词或代词。在执行时，基于话音的动作查询致使执行映射到所述动作词项的基于计算机的动作并且鉴于映射到实体词项的实体致使执行所述基于计算机的动作。

例如，基于话音的动作查询“告诉我关于银翼杀手的更多信息”可致使提交针对“银翼杀手”特别指出的搜索查询并且响应于所述搜索查询提供搜索结果。另外，例如，基于话音的动作查询“导航到咖啡店”可致使导航应用向用户提供去往附近咖啡店的有效导航方向。作为又一个实例，基于话音的动作查询“呼叫饭店A”可致使电话拨打应用预先填入且/或自动呼叫饭店A的电话号码。

在一些具体实施中，基于计算机的动作可映射到能够执行所述动作的一个或多个计算机应用，并且执行包括与所述动作相关联的词项的基于话音的动作查询可致使那些计算机应用中的至少一者自动执行所述动作，或呈现用于执行所述动作的选项。例如，与“呼叫”相关联的动作可映射到电话应用，与“饭店订位”相关联的动作可映射到饭店订位应用，等等。在一些具体实施中，话音查询应用可执行部分动作、全部动作，且/或可处理基于话音的动作查询以促进另一个应用执行动作(例如，剖析所述查询并且基于所剖析的查询和所述应用的API来与另一个应用介接)。

现在转向图1，示出可实施本文所公开的技术的示例性环境。所述示例性环境包括具有话音功能的计算装置120、建议的基于话音的动作查询系统140、实体和动作数据库162以及网络101。网络101可包括一个或多个网络，诸如局域网(LAN)或广域网(WAN)(例如，互联网)。在一些具体实施中，具有话音功能的计算装置120是便携式计算装置，诸如蜂窝式电话、平板计算机、膝上型计算机、手表、头戴式装置(例如，眼镜)、虚拟或增强现实装置、其它可穿戴装置、音频/视频系统、导航系统、汽车和其它车载系统等等。

在图1的具体实施中，具有话音功能的计算装置120所接收的话音输入由话音查询应用122处理，所述话音查询应用122在一些具体实施中可为包括话音查询功能性的搜索应用。在一些具体实施中，话音查询应用122可为独立应用。在一些具体实施中，话音查询应用122可全部地或部分地集成为计算装置120的操作系统或固件的一部分。

话音查询应用122在所示出的具体实施中包括话音动作模块123、接口模块124以及渲染/同步模块125。话音动作模块123监视针对于话音查询应用122的话音输入，协调对所接收的话音输入的分析，并且协调响应于所接收的话音输入的一个或多个基于计算机的动作的执行。如本文所述，话音动作模块123还协调向建议的基于话音的动作查询系统140提供信息以及呈现从系统140接收的建议的基于话音的动作查询作为话音查询的建议。

接口模块124提供与建议的基于话音的动作查询系统140和/或其它系统的接口。接口模块124向建议的基于话音的动作查询系统140提供信息，诸如对在计算装置120上访问的内容的指示、对计算装置120的优选语言的指示、与计算装置120的一个或多个应用126相关的信息和/或基于话音的查询输入指示。接口模块124还响应于接口模块124所提供的信息从建议的基于话音的动作查询系统140接收建议的基于话音的动作查询。

渲染/同步模块125管理向用户呈现建议的基于话音的动作查询，例如，经由视觉显示器、口述音频或适用于特定具有话音功能的装置的其它反馈接口。另外，在一些具体实施中，模块125还处理与其它在线服务的同步，诸如当响应或动作影响在另一个在线服务中针对用户维持的数据时(例如，在话音输入请求创建维持在基于云的日历中的约会的情况下)。

在一些具体实施中，模块123至125中的一者或多者的全部或若干方面可在另一个模块中组合且/或实施。例如，在一些具体实施中，模块124的一个或多个方面可并入在模块123中。另外，虽然模块123至125在图1的示例性环境中被示出为提供在计算装置120上，但这并非意欲为限制。在其它具体实施中，模块123至125中的一者或多者的全部或若干方面可在建议的基于话音的动作查询系统140和/或另一个计算装置上实施。本文中提供对模块123至125的额外描述(例如，在与图3相关的描述中)。

话音查询应用122可依赖于各种中间件、框架、操作系统和/或固件模块来处理话音输入，包括(例如)话音到文本模块126和/或语义处理器模块127。模块126和/或127的一个或多个(例如，所有)方面可被实施为话音查询应用122的一部分且/或在另一个计算装置(诸如系统140)中实施。话音到文本模块126接收话音输入的音频记录(例如，呈数字音频数据的形式)，并且将数字音频数据转换为一个或多个文本字词或短语(本文中还称为令牌)。在一些具体实施中，话音到文本模块126也是串流模块，使得在逐令牌基础上并且实时地或准实时地将话音输入转换为文本，使得可与用户语音同时地并且因此在用户阐明完整口述请求之前有效地从模块126输出令牌。话音到文本模块126可依赖于一个或多个声学和/或语言模型，其一起以某种语言建模音频信号与语音单位之间的关系，连同所述语言中的字词顺序。在一些具体实施中，可使用单个模型，而在其它具体实施中，可支持多个模型，例如以支持多种语言、多个说话者等等。

话音到文本模块126将语音转换为文本，而语义处理器模块127尝试辨别话音到文本模块126所输出的文本的语义或含义用以制定适当的响应。例如，语义处理器模块127可依赖于一个或多个语法模型来将动作文本映射到特定基于计算机的动作并且识别实体文本和/或约束此类动作执行的其它文本。在一些具体实施中，可使用单个模型，而在其它具体实施中，可支持多个模型，例如，以支持不同基于计算机的动作或基于计算机的动作域(即，诸如通信相关动作、搜索相关动作、音频/视觉相关动作、日历相关动作、装置控制相关动作等相关动作的集合)。

例如，语法模型(存储在计算装置120和/或远程计算装置上)可将基于计算机的动作映射到基于话音的动作查询的动作词项，诸如动作词项“告诉我关于……的更多信息”、“去往……的方向”、“导航到”、“观看”、“呼叫”、“发电子邮件”、“联系”等。例如，动作词项“告诉我更多信息”可映射到搜索查询和搜索结果呈现动作；动作词项“观看”可映射到经由所述应用126中的一者或多者执行的视频观看动作；并且动作词项“呼叫”可映射到经由所述应用126中的一者或多者执行的呼叫动作。

语义处理器模块127所依赖的语法模型和/或其它模型可并入基于话音到文本模块126所提供的文本输入发起执行基于计算机的动作的各种规则。在一些具体实施中，例如，动作可被定义为函数F，使得F(i_T)＝A_U，其中T表示输入解释的类型并且U表示输出动作的类型。F可因此包括多个映射到彼此的输入对(T,U)，例如，作为f(i_t)＝a_u，其中i_t是类型t的输入原型变量，并且a_u是类型u的输出模块化自变量或参数。应当了解，一些参数可被直接接收作为话音输入，而一些参数可以其它方式来确定，例如，基于对最近在计算装置上观看的内容的指示、计算装置的地理位置等等。例如，假如用户说“当我开始工作时，提醒我发电子邮件给John”，则在没有诸如用户将特定地址指派作为工作地点等额外信息的情况下，“工作”实体文本可不被用于识别特定地点。另外，例如，假如用户说“告诉我关于它的更多信息”，则在没有诸如当前在计算装置120上观看的内容的主要实体等额外信息的情况下，“它”实体文本可不被用于识别特定实体。在一些具体实施中，建议的基于话音的动作查询系统140和/或另一个系统可包括用于处理话音输入的补充功能性，例如，使用依赖于各种声学/语言、语法和/或动作模型的基于话音的查询处理器。然而，在其它具体实施中，可不使用补充功能性。

在一些具体实施中，语义处理器模块127所发起的基于计算机的动作可取决于语义处理器模块127可用的规则。另外，语义处理器模块127所发起的基于计算机的动作可取决于安装在计算装置120上的应用126和/或安装在计算装置120上的应用126的版本。例如，某些基于计算机的动作可仅由某些应用126和/或应用126的某些版本执行。例如，“呼叫”动作可仅在应用126中包括电话应用的情况下能够执行。

在一些具体实施中，建议的基于话音的动作查询系统140可被实施为采用云基础设施的基于云的服务，例如，使用运行适于处理来自多个用户的计算装置的大量请求的软件的高性能计算机的服务器群组或集群。建议的基于话音的动作查询系统140能够查询一个或多个数据库，诸如实体和动作数据库162，以找出用于生成建议的基于话音的动作查询的信息。建议的基于话音的动作查询系统140包括实体确定模块142、动作确定模块144以及建议的基于话音的动作查询生成模块145。

建议的基于话音的动作查询系统140从计算装置120接收对最近在计算装置120上访问的内容(例如，计算装置120当前所显示的内容)的指示。所述内容可在所述应用126之一中在计算装置120上访问。所述应用126可包括可安装在计算装置120上的多种应用中的一者或多者，诸如web浏览器应用、个人助理应用、商业评论应用、社交网络应用、音乐应用、视频应用和/或提供用于探究关于电影、电视剧和其它媒体的信息的接口的应用。在一些具体实施中，对内容的指示可包括特定针对于计算装置120上的内容的“查看端口”的指示。例如，可仅针对所述内容的在计算装置120上积极显示的那部分提供内容的文本和内容的截屏。在一些具体实施中，对内容的指示可额外地且/或另选地包括用于所述内容的未在计算装置120上积极显示的若干部分的指示。例如，可提供未积极显示的元数据且/或可提供来自所述内容的未积极显示的其它部分的文本。例如，可提供未显示但将通过向上或向下滚动来显示的文本。

实体确定模块142基于对所述内容的指示来确定在所述内容中提到的一个或多个实体。实体可例如与人物、关注地点、地址、电话号码等之一相关联。在一些具体实施中，确定所述实体包括基于文本在所述内容中的位置、格式、频率和/或其它属性来识别与实体相关联的文本。在一些具体实施中，实体确定模块142可识别多个实体，诸如内容中的主要实体和内容中的一个或多个额外突出实体。

作为一个实例，对内容的指示可包括最近在计算装置上观看的内容的文本、元数据、图像、施加到图像的标签和/或截屏，并且实体确定模块142可基于此类信息来确定所述内容中提到的实体。例如，对内容的指示可包括文本以及所述文本在所述内容中的属性，并且实体确定模块142可基于文本在内容中的位置、格式、频率和/或其它属性来确定与所述内容相关联的主要实体。如本文使用，内容中的主要实体是指所述内容中的基于对那个内容的一个或多个属性的分析在那个内容中最流行的实体。例如，针对关于电影“银翼杀手”的内容，文本“银翼杀手”可基于其以比其它文本大的字体出现、出现在比其它文本更突出的位置中且/或比其它文本更频繁地出现而被识别为主要实体。文本“银翼杀手”本身可被用作主要实体，或者实体确定模块142可基于所述文本并且参考一个或多个数据库(诸如知识图)来解析特定实体。

作为另一个实例，对内容的指示可包括内容的URL或另一个标识符，并且实体确定模块142可利用所述标识符来确定内容中所提到的实体。例如，实体确定模块142可访问将内容的标识符映射到内容中所提到的一个或多个实体的数据库(例如，针对多个文档(诸如能够公开访问的文档)中的每一者定义主要实体和/或其它实体的数据库)。另外，例如，实体确定模块142可利用标识符来找出内容，并且可直接分析所述内容以确定所述内容中所提到的实体。例如，在标识符是URL的情况下，实体确定模块142可访问URL并且基于通过访问URL来提供的内容确定实体。

作为基于对内容的指示来确定实体的又一个实例，实体确定模块142可基于所述内容中的具有一个或多个特定属性的文本来确定实体。例如，实体确定模块142可基于识别符合格式“XXX-XXX-XXXX”或“(XXX)XXX-XXX”的文本的一个或多个正则表达式来确定电话号码作为实体。另外，例如，实体确定模块142可基于与将其识别为地址的元数据相关联的文本和/或呈地址形式的文本(例如，城市、国家邮编)来确定地址作为实体。另外，例如，实体确定模块142可基于其在实体的“白名单”中、映射到“关注地点”、映射到“名人”且/或基于文本的其它属性来确定某些文本为实体。

动作确定模块144确定能够针对实体确定模块142所确定的实体(或多个实体)执行的一个或多个基于计算机的动作。在一些具体实施中，动作确定模块144基于所述基于计算机的动作映射到在一个或多个数据库(诸如实体和动作数据库162)中的所述实体来确定所述基于计算机的动作。所述实体和动作数据库162包括多个实体中的每一者到与所述实体相关联的一个或多个基于计算机的动作的映射。动作可直接映射到实体且/或可经由与实体的类别的映射来间接映射到实体。例如，拨打电话号码的动作可映射到多个特定电话号码中的每一者且/或可与一般电话号码的类别相关联。另外，例如，播放电影的动作可映射到多部电影中的每一者、一般电影和/或仅仅可供经由安装在计算装置120上的应用之一点播观看的电影。

在针对实体识别到多个动作的具体实施中，动作确定模块144可任选地基于一个或多个因素来对所识别的动作进行排列和/或过滤，所述因素诸如：所述动作与实体和/或实体类别的关联强度；所述动作的一般历史流行性；所述动作针对内容所起源于的应用的历史流行性；所述动作是否能够经由安装在计算装置120上的一个或多个应用126来执行；经由安装在计算装置120上的一个或多个应用126执行所述动作的历史流行性；等等。

例如，针对动作与实体或实体类别之间的映射，实体和动作数据库162可包括那个映射的关联强度。动作与实体的关联强度可任选地基于对过去话音搜索查询的分析。例如，如果1,000个所分析的过去话音搜索查询大体上符合格式“导航到[饭店]”(其中“[饭店]”指示提到作为饭店类别的成员的实体)，但只有100个所分析的过去话音搜索查询大体上符合格式“呼叫[饭店]”，则提供导航的基于计算机的动作可比呼叫的基于计算机的动作更强地与饭店实体类别相关联。

基于计算机的动作的一般历史流行性可基于发起所述基于计算机的动作的词项在过去话音搜索查询中出现的频率。基于计算机的动作针对所述内容所起源于的应用的历史流行性可基于发起所述基于计算机的动作的词项出现于在使用所述应用时发布和/或在使用所述应用的阈值时间段内发布的过去话音搜索查询中的频率。例如，对过去话音搜索查询的分析可指示呼叫的基于计算机的动作对于web浏览器应用比对于提供消费者商业评价的应用较不流行。

在一些具体实施中，动作确定模块144所识别的基于计算机的动作可为所述动作的计算机标识符，其本身不是在作为话音查询提供的情况下发起执行所述动作的动作词项。例如，提供有效导航方向的动作的计算机标识符可为字母和/或数字标识符，诸如“ID_NAVIGATE”、“42”和/或“AE5”。

建议的基于话音的动作查询生成模块145生成一个或多个建议的基于话音的动作查询，其各自基于用于执行动作确定模块144所确定的基于计算机的动作之一的一个或多个动作词项和提到由实体确定模块142所确定的实体的一个或多个实体词项。

在一些具体实施中，建议的基于话音的动作查询生成模块145基于计算装置120所指示的优选语言来确定基于计算机的动作的动作词项。例如，基于计算机的动作的计算机标识符可由动作确定模块144确定，并且如果计算装置120具有优选的英语语言，则第一词项可被识别为动作词项，而如果计算装置120具有优选的德语语言，则第二词项会被识别为动作词项。例如，针对给定的基于计算机的动作，实体和动作数据库162和/或其它数据库可包括映射到那个动作的动作词项。所述动作词项中的每一者还可映射到动作词项的优选语言。动作确定模块144可基于识别动作词项到基于计算机的动作的映射并且还识别动作词项到优选语言的映射，有鉴于优选的语言，针对基于计算机的动作选择动作词项。

建议的基于话音的动作查询生成模块145还确定提到所识别的实体的一个或多个词项。例如，在所识别的实体本身是词项的情况下，可利用那个词项。例如，在“饭店A”是实体的情况下，“饭店A”可用作实体词项。在一些具体实施中，可利用实体的代词或其它通用描述符。例如，在“饭店A”是实体的情况下，建议的基于话音的动作查询生成模块145可确定实体词项“它”或“那里”。另外，例如，在著名男性是实体的情况下，建议的基于话音的动作查询生成模块145可确定实体词项“他”或“其”。所选择的特定通用描述符可基于通用描述符到实体和/或实体类别的映射来确定。另外，特定通用描述符可任选地被进一步选择以提供与动作词项的语法一致。例如，可针对动作词项“导航”选择实体词项“那里”，而可针对动作词项“告诉我关于……的更多信息”选择“它”。

在一些具体实施中，建议的基于话音的动作查询生成模块145基于计算装置120所指示的优选语言来确定实体词项。例如，如果计算装置120具有优选语言英语，则第一通用描述符可被识别为实体词项，而如果计算装置120具有优选语言德语，则第二通用描述符会被识别为实体词项。

建议的基于话音的动作查询系统140将所生成的一个或多个建议的基于话音的动作查询提供到话音查询应用122以供话音查询应用122作为用于基于话音查询的建议的基于话音的动作查询呈现。在提供多个建议的基于话音的动作查询的具体实施中，可任选地基于(例如)有关动作确定模块144描述的动作的排列来向其提供排列信息。在那些具体实施中的一些具体实施中，计算装置120可基于所提供的排列信息来确定建议的基于话音的动作查询的显示次序。排列信息可任选地是次序，建议的基于话音的动作查询以该次序被发射或包括在数据包中。

在所提供的建议的基于话音的动作查询包括实体的通用描述符(例如，他)的情况下，建议的基于话音的动作查询系统140可任选地向建议的基于话音的动作查询提供更具体地标识所述实体的元数据。计算装置120可利用所述元数据在执行所述动作时用实体的更具体标识“替换”通用描述符。在其它具体实施中，可在计算装置120处(例如，通过语义处理器模块127)基于对最近访问的内容的分析来执行所述实体的更明确标识。

在一些具体实施中，建议的基于话音的动作查询系统140响应于从计算装置120接收到基于话音的查询输入指示，而将所生成的一个或多个建议的基于话音的动作查询提供到话音查询应用122。基于话音的查询输入指示，指示接收到用户经由计算装置120的用于发起经由计算装置120提供基于话音的查询的输入。在一些具体实施中，基于话音的查询输入指示是从计算装置120接收对内容的指示，和/或接收与内容指示组合的其它信息。例如，在一些具体实施中，计算装置120可响应于发起提供基于话音的查询的用户输入，而仅提供对内容的指示。在一些具体实施中，可与对内容的指示分开地接收基于话音的查询输入指示。例如，在一些具体实施中，计算装置120可提供对内容的指示，接着在从接收到话音输入指示以来过去某个时间量之后，仅提供基于话音的查询输入指示，而不从所述用户接收任何口述输入。

在一些具体实施中，建议的基于话音的动作查询系统140可不限于生成建议的基于话音的动作查询。例如，建议的基于话音的动作查询系统140还可能够处理，剖析所提交的基于话音的动作查询、针对所提交的基于话音的动作查询确定适当基于计算机的动作、指示计算装置120的一个或多个应用针对所提交的基于话音的动作查询执行所确定的基于计算机的动作和/或针对所提交的基于话音的动作查询执行一个或多个基于计算机的动作，的全部或若干方面。虽然建议的基于话音的动作查询系统140和计算装置120在图1中被示出为单独部件，但在其它具体实施中，基于话音的动作查询系统140的一个或多个方面可在计算装置120上实施，反之亦然。

图2示出鉴于在计算装置120上访问的内容，来确定至少一个建议的基于话音的动作查询155用于经由计算装置120呈现的实例。在图2中，将来自计算装置120的对内容的指示131提供到实体确定模块142。例如，所述对内容的指示131可包括文本以及所述文本针对紧接在用户经由计算装置120的用于发起提供基于话音的查询的输入之前在计算装置120上观看的内容的属性。例如，用户可正在计算装置120的应用中观看所述内容，且用户可在那个应用仍为活动并且显示所述内容时提供用于发起提供基于话音的查询的输入，并且可响应于所述输入来提供所述内容。作为另一个实例，用户可正在计算装置120的第一应用上观看所述内容，可提供用于发起提供基于话音的查询的输入，所述基于话音的查询致使通过计算装置120的第二应用(或操作系统)显示额外内容(或取代第一应用的内容或在第一应用的内容的若干部分“上方”提供)，并且可响应于所述输入来提供第一应用最近所显示的内容。作为又一个实例，计算装置120可提供对当前观看内容的指示而没有首先要求用户用于发起提供基于话音的查询的输入。

实体确定模块142基于对内容的指示131来确定至少一个实体151。例如，实体确定模块142可基于所述文本在所述内容中的位置、格式、频率和/或其它属性来确定与内容相关联的主要实体。例如，某些文本可基于其出现在内容的标题中、以比内容中的其它文本大的字体出现、出现在比内容中的其它文本更突出的位置中以及比内容中的其它文本更频繁地出现而被识别为主要实体。

实体确定模块142将所确定的实体151提供到动作确定模块144。动作确定模块144确定实体和动作数据库162中的映射到实体151的至少一个基于计算机的动作152。动作确定模块144可基于实体151到动作152的直接映射或基于动作152到实体151的类别的映射和实体151的类别到动作152的映射来确定动作152。

还可将来自计算装置120的应用信息132提供到动作确定模块144。在一些具体实施中，动作确定模块144可基于应用信息132排列和/或过滤基于计算机的动作。例如，应用信息132可指示安装在计算装置上的一个或多个应用(例如，应用126)和/或用于安装在计算装置上的一个或多个应用(例如，应用126和/或122)的版本。例如，针对多个基于计算机的动作中的每一者，实体和动作数据库162可包括定义可执行所述基于计算机的动作所经由的一个或多个应用和/或应用版本(用于应用126和/或122)的数据。动作确定模块144可利用此类数据基于应用信息132过滤出与计算装置120不兼容的一个或多个基于计算机的动作。

作为另一个实例，应用信息132可指示哪个应用正在生成对内容的指示131所指示的内容。实体和动作数据库162可包括一个或多个候选基于计算机的动作就其内容所起源于的那个应用的历史流行性(例如，基于发起所述基于计算机的动作的词项出现于在使用所述应用时发布且/或在使用所述应用的阈值时间段内发布的过去话音搜索查询中的频率)。动作确定模块144可利用此类历史流行性来选择动作152且/或相对于其它选定动作来排列动作152。

动作确定模块144将实体151和动作152提供到建议的基于话音的动作查询生成模块145(任选地与其它所确定的实体和/或动作一起)。建议的基于话音的动作查询生成模块145基于用于执行动作151的一个或多个动作词项和提到实体152的一个或多个实体词项来生成建议的基于话音的动作查询155。在一些具体实施中，还可将来自计算装置120的优选语言133提供到建议的基于话音的动作查询生成模块145。在那些具体实施中的一些具体实施中，建议的基于话音的动作查询生成模块145基于计算装置120所指示的优选语言来确定用于基于计算机动作的动作词项和/或实体词项。

建议的基于话音的动作查询生成模块145将建议的基于话音的动作查询155提供到计算装置120。例如，可将建议的基于话音的动作查询155提供到计算装置120作为包括一个或多个动作词项和一个或多个实体词项的文本串。在一些具体实施中，建议的基于话音的动作生成模块145响应于从计算装置120接收到基于话音的查询输入指示而将所生成的一个或多个建议的基于话音的动作查询提供到计算装置120。在那些具体实施中的一些具体实施中，基于话音的查询输入指示是从计算装置120接收到对内容的指示131和/或接收与对内容的指示131组合的其它信息。

在一些具体实施中，建议的基于话音的动作查询生成模块145随建议的基于话音的动作查询155一起提供注释数据与。注释数据是可与建议的基于话音的动作查询155一起显示以帮助阐明建议的基于话音的动作查询155但不构成建议的查询本身的数据。例如，在代词用作建议的基于话音的动作查询155的实体词项的情况下，还可提供实体的图像和/或实体的更具体别名用于在视觉上从基于话音的动作查询155开始进行显示(例如，在括号内且/或在位置上偏移地提供)。

图3示出在计算装置处接收至少一个建议的基于话音的动作查询并且响应于用于发起提供基于话音的查询的输入而提供所述建议的基于话音的动作查询作为建议的实例。在话音动作模块123处接收基于话音的查询指示输入110。基于话音的查询指示输入110可包括(例如)用户经由图形用户界面选择话音查询图标、用户口述发起基于话音的查询的短语(例如，“OK计算机”)、用户启动计算装置120的或与计算装置120通信的触敏硬件元件(例如，机械按钮、电容性按钮)，和/或鉴于计算装置120的相机或其它传感器执行手势。

话音动作模块123响应于基于话音的查询发起输入110而监视话音输入并且还向接口模块124发送请求基于话音的动作查询命令135。响应于命令135，接口模块124向建议的基于话音的动作查询系统140提供信息130，诸如对最近经由所述应用126之一访问的内容的指示131、对计算装置120的优选语言的指示、与计算装置120的一个或多个应用126相关的信息和/或基于话音的查询输入指示。例如，对内容的指示131可为所述应用126之一相对于接收基于话音的查询发起输入110最近显示的内容。

接口模块124还从建议的基于话音的动作查询系统140接收建议的基于话音的动作查询155。建议的基于话音的动作查询155响应于接口模块124所提供的信息130，并且可任选地基于信息130的一个或多个方面。接口模块124将建议的基于话音的动作查询155提供到渲染/同步模块125。

话音动作模块123将建议的基于话音的动作查询命令137提供到渲染/同步模块125。响应于命令137，渲染/同步模块125呈现(例如，显示)建议的基于话音的动作查询155作为用于基于话音的查询发起输入110所发起的话音查询的建议。在一些具体实施中，话音动作模块123基于在所述基于话音的查询发起输入110之后跟随有对需要建议的基于话音的动作查询的指示来提供命令137。在那些具体实施中的一些具体实施中，对需要建议的基于话音的动作查询的指示可包括在用户输入发起基于话音的查询之后的阈值量时间内缺少来自用户的任何口述输入。例如，在那些具体实施的版本中，可响应于用户未在用户输入发起基于话音的查询的四秒(或其它阈值量时间)内提供任何口述输入来呈现建议的基于话音的动作查询。在一些具体实施中，可额外地且/或另选地响应于对需要建议的基于话音的动作查询的其它指示来提供命令137。例如，其它指示可包括用户能够口述的一个或多个短语(例如，“告诉我，我能够做什么”)、对用于请求建议的基于话音的动作查询而提供的用户界面元素的选择，和/或在基于话音的查询发起输入110之后检测到至少阈值噪声水平(例如，检测到环境“太吵”而不能恰当地处理口述输入)。在一些具体实施中，渲染/同步模块125可在未接收命令137的情况下呈现建议的基于话音的动作查询作为话音查询的建议。

图4是示出鉴于在计算装置上访问的内容而确定至少一个建议的基于话音的动作查询用于经由计算装置呈现的示例性方法400的流程图。为了方便起见，参考执行操作的系统描述流程图的操作。这个系统可包括各种计算机系统(诸如建议的基于话音的动作查询系统140)的各种部件。此外，尽管以特定次序展示方法400的操作，但这并不意欲为限制。可重新排序、省略或添加一个或多个操作。

在框402处，系统接收对最近在计算装置上观看的内容的指示。例如，对内容的指示可包括文本以及所述文本针对计算装置当前所显示的内容的属性。在一些具体实施中，计算装置可响应于用户经由计算装置的用于发起提供基于话音的查询的输入而提供对内容的指示。

在框404处，系统基于对内容的指示来确定在内容中提到的实体。例如，在对内容的指示包括文本以及所述文本的属性的情况下，系统可基于所述文本在内容中的位置、格式、频率和/或其它属性来确定与所述内容相关联的主要实体。例如，某些文本可基于其出现在内容的标题中、以比内容中的其它文本大的字体出现、出现在比内容中的其它文本更突出的位置中以及比内容中的其它文本更频繁地出现而被识别为主要实体。

在框406处，系统确定可映射到实体的基于计算机的动作。例如，系统可确定实体和动作数据库162中的映射到实体的至少一个基于计算机的动作。在一些具体实施中，系统可基于一个或多个因素来对基于计算机的动作进行排列和/或过滤，所述因素诸如：所述动作与实体和/或实体的类别的关联强度；所述动作的一般历史流行性；所述动作针对所述内容所起源于的应用的历史流行性；所述动作是否能够经由安装在计算装置上的一个或多个应用来执行；经由安装在计算装置上的一个或多个应用执行所述动作的历史流行性；等等。

在框408处，系统生成建议的基于话音的动作查询，其包括映射到基于计算机动作的动作词项和映射到实体的实体词项。在那些具体实施中的一些具体实施中，系统基于从计算装置接收的信息所指示的优选语言来确定动作词项和/或实体词项。

在框410处，系统提供建议的基于话音的动作查询用于作为话音查询的建议来显示。在一些具体实施中，系统响应于从计算装置接收到基于话音的查询输入指示而将所生成的一个或多个建议的基于话音的动作查询提供到计算装置用于作为话音查询的建议来显示。在那些具体实施中的一些具体实施中，基于话音的查询输入指示是在框402处接收对内容的指示和/或从计算装置接收其它信息。

图5示出在计算装置处接收至少一个建议的基于话音的动作查询并且响应于用于发起提供基于话音的查询的输入而提供所述建议的基于话音的动作查询作为建议的示例性方法。为了方便起见，参考执行操作的系统描述流程图的操作。这个系统可包括各种计算机系统的各种部件，诸如计算装置120的话音查询应用122。此外，尽管以特定次序展示方法500的操作，但这并非意欲为限制。可重新排序、省略或添加一个或多个操作。

在框502处，系统接收用于发起提供基于话音的查询的输入。所述输入可包括(例如)用户经由图形用户界面选择话音查询图标、用户口述发起基于话音的查询的短语(例如，“OK计算机”)、用户启动触敏硬件元件，和/或执行手势。

在框504处，系统识别相对于在框502处的输入而最近显示的内容。例如，系统可提供内容或文本的标识符、元数据、图像、施加到图像的标签和/或计算装置当在框502处接收输入时或恰在框502处接收输入之前显示的内容的截屏。

在框506处，系统提供对在框504处所识别的内容的指示。例如，系统可将对内容的指示提供到建议的基于话音的动作查询系统140。

在框508处，系统接收基于框506的指示并且包括动作词项和实体词项的建议的基于话音的动作查询。例如，系统可响应于在框506处提供对内容的指示(以及任选地，其它信息)而从基于话音的动作查询系统140接收建议的基于话音的动作查询。

在框518处，系统确定是否已经在阈值量时间内接收到话音输入。如果答案为“是”，则系统前进到框520并且基于所接收的话音输入来执行基于计算机的动作。如果答案为“否”，则系统前进到步骤510并且提供所述建议的基于话音的动作查询作为基于话音的查询的建议。

在步骤512处，系统确定是否已经选择所述建议的基于话音的动作查询。如果答案为“是”，则系统前进到框514并且基于所述建议的基于话音的动作查询来执行基于计算机的动作。如果答案为“否”，则系统前进到框516并且执行进一步动作。例如，如果用户提供用于从显示移除所述建议的基于话音的动作查询的输入，则答案为“否”并且系统将在框516处对所提供的输入做出响应。

图6A示出展示在计算装置的应用中显示的内容的示例性图形用户界面680A。例如，可在移动电话计算装置上显示图形用户界面680A。计算装置的应用(诸如提供信息并且饭店评论的应用)在图形用户界面680A中显示所述内容。所述特定内容集中于针对虚构饭店“上下汉堡吧”的信息和评论。图形用户界面680A还包括图形界面元件681、682和683，其各自可在启动时致使执行一个或多个动作。可提供额外和/或另选的图形和/或其它(例如，机械)界面元件。

图6B示出用于显示基于图6A的内容而生成的建议的基于话音的动作查询685A至685C的示例性图形用户界面680B。图6B示出用户在被提供图6A的显示时提供基于话音的查询发起输入的实例。基于话音的查询发起输入可为(例如)口述一个或多个词项或选择界面元件(例如，以某种方式启动元件681至683中的一者或多者或启动机械界面元件)。提供基于话音的查询发起输入致使与图6A的内容一起显示话音查询界面684。话音查询界面684包括麦克风的图标以指示话音查询并且还包括文本“等待……”以向用户指示计算装置正在等待来自用户的口述输入。在话音查询界面684下方显示所述建议的基于话音的动作查询685A至685C作为用户可以选择(例如，“轻敲”或口述)的单个“卡”。所述建议的基于话音的动作查询685A至685C是基于图6A的内容并且可(例如)如本文就建议的基于话音的动作查询系统140、图2和/或图4所描述的来确定。例如，来自图6A的截屏和/或文本可已经被提供作为对内容的指示，并且作为响应而接收到建议的基于话音的动作查询685A至685C。请注意，建议的基于话音的动作查询685A具有注释“[上下汉堡吧]”以向用户提供对口述“导航到那里”或轻敲建议的基于话音的动作查询685A将导致提供去往“上下汉堡吧”的导航方向的基于计算机的动作的指示。

图6A的许多内容仍在图6B中显示，其它内容“隐藏”在话音查询界面684和基于话音的动作查询685A至685C之下。在一些具体实施中，话音查询界面684和/或基于话音的动作查询685A至685C中的一者或多者可为至少部分透明的，以使得能够观看图6B中的“隐藏”的内容。

如本文所述，在一些具体实施中，建议的基于话音的动作查询685A至685C可能直到在基于话音的查询发起输入之后识别到需要建议的基于话音的动作查询才在图形用户界面680B中显示。例如，话音查询界面684可最初在没有建议的基于话音的动作查询685A至685C的情况下显示，并且建议的基于话音的动作查询685A至685C仅在一确定在用户输入发起基于话音的查询之后的阈值量时间内缺少来自用户的任何口述输入时显示。另外，例如，话音查询界面684可最初在没有建议的基于话音的动作查询685A至685C的情况下显示，并且建议的基于话音的动作查询685A至685C仅在一接收到请求建议的特定口述输入且/或确定环境噪声水平大于用于接收并准确地剖析口述输入的阈值噪声水平时显示。

图6C示出用于显示基于图6A的内容生成的建议的基于话音的动作查询“导航到那里”、“在那里订位”和“告诉我关于它的更多信息”的示例性图形用户界面680C。图6C的建议的基于话音的动作查询基于图6A的内容而在卡687中显示并且可(例如)如本文就建议的基于话音的动作查询系统140、图2和/或图4所描述的来确定。例如，来自图6A的截屏和/或文本可已经被提供作为对内容的指示，并且作为响应而接收到所述建议的基于话音的动作查询。卡687在界面元件686中显示，所述界面元件686展示(例如，基于短语“在屏幕上：”)针对图6A的内容(其在图6C中保持部分显示)特别裁剪卡687(以及任选地，其它未显示卡)。

图6C示出用户在被提供图6A的显示时提供对与屏幕上的内容相关的建议的基于话音的查询建议的请求(不是必须提供基于话音的查询发起输入)的实例。例如，对建议的基于话音的查询建议的请求可为“触摸”图形界面元件682并“上划”且/或口述一个或多个词项。提供对建议的基于话音的查询建议的请求致使在图6A的内容的若干部分上方显示界面元件686和卡687。选择图6C的建议的基于话音的动作查询之一(通过“轻敲”或口述(任选地在基于话音的查询发起输入之后))会致使计算装置发起基于所选择的基于话音的动作查询来执行基于计算机的动作。

图6A的许多内容仍在图6C中显示，其它内容“隐藏”在界面元件686和卡687之下。在一些具体实施中，界面元件686和/或卡687可为至少部分透明的，以使得能够观看图6C中的“隐藏”的内容。

图7A示出展示在计算装置的应用中显示的内容的示例性图形用户界面780A。例如，图形用户界面780A可在移动电话计算装置的即时消息应用中显示。特定内容是所述移动电话的用户与另一个用户“Bob”之间的对话。Bob已经向所述用户询问他是否想要前往上下汉堡吧吃晚饭。图形用户界面780A还包括图形界面元件681、682和683，其各自可在启动时致使执行一个或多个动作。

图7B示出用于显示基于图7A的内容生成的建议的基于话音的动作查询785A和785B的示例性图形用户界面780B。图7B示出用户在被提供图7A的显示时提供基于话音的查询发起输入的实例。基于话音的查询发起输入可为(例如)口述一个或多个词项或选择界面元件(例如，以某种方式启动元件681至683中的一者或多者或启动机械界面元件)。提供基于话音的查询发起输入致使与图7A的内容一起显示话音查询界面784。话音查询界面784包括麦克风的图标以指示话音查询并且还包括文本“等待……”以向用户指示计算装置正在等待来自用户的口述输入。在话音查询界面784下方显示建议的基于话音的动作查询785A和785B作为用户可以选择(例如，“轻敲”或口述)的单个“卡”。建议的基于话音的动作查询785A和785B是基于图7A的内容并且可(例如)如本文就建议的基于话音的动作查询系统140、图2和/或图4所描述的来确定。例如，来自图7A的截屏和/或文本可已经被提供作为对内容的指示，并且作为响应而接收到建议的基于话音的动作查询785A和785B。请注意，建议的基于话音的动作查询785A具有用于订位的建议的时间“7PM”。可基于图7A的上下文(“晚饭”)、过去用户订位历史和/或任意地确定建议的时间以向用户提供能够利用口述输入预订希望时间的“上下汉堡吧”座位的指示。

图8是可任选地用于执行本文所描述的技术的一个或多个方面的示例性计算装置810的框图。在一些具体实施中，计算装置120和/或建议的基于话音的动作查询系统140可包括示例性计算装置810的一个或多个部件。

计算装置810通常包括至少一个处理器814，其经由总线子系统812与许多外围装置通信。这些外围装置可包括存储子系统824(包括(例如)存储器子系统825和文件存储子系统826)、用户接口输出装置820、用户接口输入装置822和网络接口子系统816。输入和输出装置允许用户与计算装置810交互。网络接口子系统816提供与外部网络的接口并且耦接到其它计算装置中的对应接口装置。

用户接口输入装置822可包括键盘、指向装置(诸如鼠标、轨迹球、触控板或图形输入板)、扫描仪、并入到显示器中的触摸屏、音频输入装置(诸如话音辨识系统、麦克风)和/或其它类型的输入装置。一般来说，术语“输入装置”的使用意欲包括用于向计算装置810或通信网络输入信息的所有可能类型的装置和方式。

用户接口输出装置820可包括显示子系统、打印机、传真机或非视觉显示器(诸如音频输出装置)。显示子系统可包括阴极射线管(CRT)、平板装置(诸如液晶显示器(LCD))、投影装置或用于创建可见图像的别的机构。显示子系统还可提供非视觉显示，诸如经由音频输出装置。一般来说，术语“输出装置”的使用意欲包括用于从计算装置810向用户或者另一个机器或计算装置输出信息的所有可能类型的装置和方式。

存储子系统824存储编程和数据结构，所述编程和数据结构提供本文所描述的一些或所有模块的功能性。例如，存储子系统824可包括用于执行图3和/或4的方法的选定方面的逻辑。

这些软件模块通常由处理器814单独地或与其它处理器组合地执行。存储子系统824中所使用的存储器825可包括许多存储器，其包括用于在程序执行期间存储指令和数据的主要随机存取存储器(RAM)830以及存储固定指令的只读存储器(ROM)832。文件存储子系统826可提供用于程序和数据文件的永久存储，并且可包括硬盘驱动器、软盘驱动器以及相关联的可装卸媒体、CD-ROM驱动器、光盘驱动器或可装卸媒体盒。实施某些具体实施的功能性的模块可由存储子系统824中的文件存储子系统826存储或存储在处理器814能够访问的其它机器中。

总线子系统812提供用于使计算装置810的各种部件和子系统按预定的彼此通信的机制。虽然总线子系统812被示意性地展示为单个总线，但总线子系统的另选具体实施可使用多个总线。

计算装置810可具有不同类型，包括工作站、服务器、计算集群、刀片式服务器、服务器群或者任何其它数据处理系统或计算装置。归因于计算机和网络的不断变化的性质，图8中所描绘的计算装置810的描述仅意欲作为用于示出一些具体实施的特定实例。计算装置810的许多其它配置是可能的，其具有比图8中所描绘的计算装置更多或更少的部件。

在本文所描述的系统收集关于用户的个人信息或可利用个人信息的情况下，可向用户提供用于控制程序或功能部件是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户偏好或用户的当前地理位置的信息)或控制是否和/或如何从内容服务器接收可与用户更相关的内容的机会。另外，某些数据可在存储或使用之前以一种或多种方式进行处理，使得移除个人可识别信息。例如，用户的身份可被处理以使得无法确定用户的个人可识别信息，或者可在获得地理位置信息的情况下广义化用户的地理位置(诸如广义化为城市、邮政编码或州级)，使得无法确定用户的特定地理位置。因此，用户可对如何收集且/或使用关于用户的信息加以控制。

尽管本文中已经描述并示出了若干具体实施，但可利用多种其它装置和/或结构用于执行本文所描述的功能且/或获得本文所描述的结果和/或本文所描述的一个或多个优点，并且此类变型和/或修改中的每一者被认为在本文所描述的具体实施的范围内。更一般来说，本文所描述的所有参数、尺寸、材料和配置意欲为示例性的，并且实际参数、尺寸、材料和/或配置取决于所述教导所用于的一个或多个特定的应用。本领域的普通技术人员仅使用常规试验就会认识到或能够确定本文所描述的特定具体实施的许多等同物。因此，应当理解，仅以实例方式呈现前述具体实施，并且在所附利要求书及其等效物的范围内，可以实施不同于如具体描述的和要求的具体实施。本公开的具体实施针对本文所描述的每个单独特征、系统、物件、材料、套装和/或方法。另外，如果此类特征、系统、物件、材料、套装和/或方法不互相抵触，则两个或更多个此类特征、系统、物件、材料、套装和/或方法的任何组合包括在本公开的范围内。

Claims

1.一种用于提供建议的基于话音的动作查询的系统，包括：

客户端装置，包括麦克风、显示器和处理器，所述处理器执行用于以下的指令：

响应于接收到某用户发起的用户接口输入而监视经由所述麦克风的口述输入；

识别所述客户端装置相对于接收到所述某用户发起的用户接口输入最近显示的内容；

提供对所述内容的指示；

接收建议的基于话音的动作查询，所述建议的基于话音的动作查询是基于对所述内容的所述指示并且包括至少一个动作词项和至少一个实体词项，所述实体词项提到所述内容的实体并且所述动作词项映射到所述实体并发起基于计算机的动作的执行；

确定相对于接收到所述某用户发起的输入在阈值量时间内尚未经由所述麦克风从所述用户接收到任何口述输入；以及

响应于确定在所述阈值量时间内尚未接收到任何口述输入，提供所述建议的基于话音的动作查询作为基于话音的查询的建议。

2.根据权利要求1所述的系统，还包括：

与所述客户端装置通信的服务器，所述服务器包括执行用于以下的指令的服务器处理器：

从所述客户端装置接收对所述内容的所述指示；

基于对所述内容的所述指示来确定所述内容中提到的实体；

确定一个或多个电子数据库中的映射到所述实体的基于计算机的动作；

生成所述建议的基于话音的动作查询；以及

将所述建议的基于话音的动作查询提供到所述客户端装置。

3.一种计算机实现的方法，包括：

接收基于话音的查询输入指示，所述基于话音的查询输入指示指示经由计算装置接收到用户的输入，所述用户的所述输入为用于发起经由所述计算装置的麦克风提供基于话音的查询的用户接口输入；

接收对在所述计算装置上最近观看的内容的指示；

基于对所述内容的所述指示来确定所述内容中提到的实体；

生成建议的基于话音的动作查询，所述建议的基于话音的动作查询包括发起所述基于计算机的动作的执行的至少一个动作词项并且包括基于所述实体来选择的至少一个实体词项；以及

响应于接收到所述基于话音的查询输入指示而提供所述建议的基于话音的动作查询，所述建议的基于话音的动作查询被提供用于由所述计算装置作为所述基于话音的查询的建议来显示，

所述方法还包括：

确定对需要建议的基于话音的动作查询的指示；以及

基于确定对所述需要建议的基于话音的动作查询的所述指示来提供所述建议的基于话音的动作查询用于作为所述建议来显示，

其中，确定对所述需要建议的基于话音的动作查询的所述指示包括：

基于在所述用户的用于发起提供所述基于话音的查询的所述输入之后所述计算装置检测到至少阈值噪声水平来确定对所述需要建议的基于话音的动作查询的所述指示。

4.根据权利要求3所述的方法，其中，确定对所述需要建议的基于话音的动作查询的所述指示包括：

基于在从所述用户的用于发起提供所述基于话音的查询的所述输入起的阈值量时间内未在所述计算装置处从所述用户接收到口述输入来确定对所述需要建议的基于话音的动作查询的所述指示。

5.根据权利要求3所述的方法，其中，接收对所述内容的所述指示包括接收所述内容的词项和所述词项中的每一者在所述内容中的显示属性；并且其中，确定所述内容中提到的所述实体包括基于所述词项中的至少一个词项和所述词项在所述内容中的所述显示属性来确定所述实体。

6.根据权利要求3所述的方法，其中，确定映射到所述实体的所述基于计算机的动作包括确定所述实体的类别，并且识别所述基于计算机的动作到所述类别的映射。

7.根据权利要求3所述的方法，其中，生成所述建议的基于话音的动作查询包括确定映射到所述实体的通用描述符，并且使用所述通用描述符作为所述至少一个实体词项。

8.根据权利要求7所述的方法，其中，所述通用描述符是映射到所述实体的代词。

9.根据权利要求7所述的方法，还包括：

识别所述实体的图像；以及

将所述实体的所述图像提供到所述计算装置用于作为所述建议的基于话音的动作查询的注释来显示。

10.根据权利要求3所述的方法，还包括：

接收对所述计算装置的优选的语言的指示；

其中，生成所述建议的基于话音的动作查询包括基于所述动作词项到所述基于计算机的动作的映射并且基于所述动作词项到所述优选的语言的映射来选择所述动作词项。

11.根据权利要求10所述的方法，其中，生成所述建议的基于话音的动作查询包括基于所述优选的语言来选择所述实体词项。

12.根据权利要求3所述的方法，还包括：

接收应用信息，所述应用信息指示以下中的至少一者：安装在所述计算装置上的应用，以及安装在所述计算装置上的所述应用的版本；

其中，确定所述基于计算机的动作包括基于所述基于计算机的动作到以下的至少一者的映射来选择所述基于计算机的动作：安装在所述计算装置上的所述应用，以及安装在所述计算装置上的所述应用的所述版本。

13.根据权利要求3所述的方法，还包括：

接收对生成所述内容的应用的指示；

其中，确定所述基于计算机的动作包括基于对生成所述内容的所述应用的所述指示来选择所述基于计算机的动作。

14.根据权利要求3所述的方法，其中，在所述计算装置处选择所述建议的基于话音的动作查询致使所述计算装置的第一应用执行所述基于计算机的动作的至少一个方面，并且还包括：

确定所述一个或多个电子数据库中的映射到所述实体的额外基于计算机的动作；

生成额外建议的基于话音的动作查询，所述额外建议的基于话音的动作查询包括发起所述额外基于计算机的动作的执行的至少一个额外动作词项并且包括所述至少一个实体词项；以及

响应于接收到所述基于话音的查询指示来将所述额外建议的基于话音的动作查询提供到所述计算装置，所述额外建议的基于话音的动作查询被提供到所述计算装置用于作为所述基于话音的查询的额外建议来显示；

其中，在所述计算装置处选择所述额外建议的基于话音的动作查询致使所述计算装置的第二应用执行所述额外基于计算机的动作的至少一个方面。

15.根据权利要求3所述的方法，其中，在所述计算装置上最近观看的所述内容是相对于所述用户经由所述计算装置的用于发起经由所述计算装置提供所述基于话音的查询的所述输入最近观看的所述内容。

16.根据权利要求15所述的方法，其中，所述计算装置响应于所述用户经由所述计算装置的用于发起经由所述计算装置提供所述基于话音的查询的所述输入而提供对所述内容的所述指示。

17.根据权利要求3所述的方法，其中，最近在所述计算装置上观看的所述内容是最近在所述计算装置的应用中观看的所述内容。

18.根据权利要求17所述的方法，其中，最近在所述计算装置的所述应用中观看的所述内容是所述计算装置当前所显示的所述内容。

19.一种用于提供建议的基于话音的动作查询的方法，包括：

在计算装置处接收用于发起经由所述计算装置提供基于话音的查询的输入；

由所述计算装置识别所述计算装置相对于接收所述输入最近显示的内容；

提供对所述内容的指示；

接收建议的基于话音的动作查询，所述建议的基于话音的动作查询基于对所述内容的所述指示并且包括至少一个动作词项和至少一个实体词项，所述实体词项提到所述内容的实体并且所述动作词项映射到所述实体并发起基于计算机的动作的执行；

确定相对于接收到所述输入在阈值量时间内尚未从用户接收到任何口述输入；以及

响应于确定在所述阈值量时间内尚未接收到任何口述输入，提供所述建议的基于话音的动作查询作为所述基于话音的查询的建议。

20.根据权利要求19所述的方法，还包括：

与对所述内容的所述指示一起提供对所述计算装置的优选的语言的指示；

其中，响应于提供对所述优选的语言的所述指示而以所述计算装置的所述优选的语言接收所述建议的基于话音的动作查询。

21.根据权利要求19所述的方法，还包括：

识别对所述建议的基于话音的动作查询的选择；以及

基于识别对所述建议的基于话音的动作查询的所述选择来执行所述基于计算机的动作。