CN106991106A

CN106991106A - 减少由切换输入模态所引起的延迟

Info

Publication number: CN106991106A
Application number: CN201610812805.5A
Authority: CN
Inventors: 德鲁夫·巴克希; 扎希德·撒布尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-09-09
Filing date: 2016-09-09
Publication date: 2017-07-28
Anticipated expiration: 2036-09-09
Also published as: CN106991106B; EP3540729A1; US20170068724A1; EP3540729B1; US10134397B2; US20170372699A1; CN112463938A; US9443519B1; US9779733B2; EP3142108B1; EP3142108A3; EP3142108A2

Abstract

本文涉及减少由切换输入模态所引起的延迟。在各种实施方式中，可以由电子设备所提供的多模态接口的第一模态接收第一输入，诸如文本输入。响应于所述第一输入满足一个或多个准则的确定，所述电子设备可以以抢先方式在所述电子设备与查询处理器之间建立会话，所述查询处理器被配置成处理以所述多模态接口的第二模态所接收的输入(例如，语音输入)。在各种实施方式中，所述电子设备可以所述多模态接口的所述第二模态接收第二输入(例如，语音输入)，在所述会话内发起在所述查询处理器处对所述第二输入的至少一部分的处理，以及基于来自所述查询处理器的输出来构建完整的查询。

Description

减少由切换输入模态所引起的延迟

律师引用：ZS202-15435

技术领域

本说明书一般地针对促进在输入模态之间切换时对用户经历的延迟的减少和/或消除的各种实施方式，尤其是在用户从低延迟输入模态切换到高延迟输入模态的情况下。

背景技术

基于语音的用户接口越来越广泛地被使用于对计算机以及其他电子设备的控制。基于语音的用户接口的一种特别有益的应用是采用便携式电子设备，诸如移动电话、手表、平板计算机、头戴式设备、虚拟或增强现实设备等。另一种有益应用是采用车载电子系统，诸如合并导航与音频性能的汽车系统。这样的应用的特点通常在于非传统形式的因素，所述因素限制了更加传统的键盘或触摸屏输入的功用和/或在期望鼓励用户持续专注于其他任务的情形下的使用，诸如当用户正在开车或行走时。

例如，在处理器和/或存储器资源方面，基于语音的用户接口的计算资源需求可能相当大量。作为结果，一些常规的基于语音的用户接口方法采用客户端-服务器架构，其中由相对功率较低的客户端设备接收和记录语音输入，通过诸如互联网的网络将该记录传送至用于语音到文本转换以及语义处理的在线服务，并且由在线服务生成适当响应并且将其传送回客户端设备。在线服务能够投入大量的计算资源来处理语音输入，能够实现比以其他方式在客户端设备内本地实现更加复杂的话音识别和语义分析功能。然而，客户端-服务器方法必定要求客户端在处理语音输入时在线(即，与在线服务进行通信)。保持这样的客户端与在线服务之间的连接性可能会不切实际，特别是在无线信号强度无疑会发生波动的移动和汽车应用中。因此，当需要使用在线服务将语音输入转换成文本时，必须在客户端与服务器之间建立语音到文本转换会话。在建立这样的会话的同时，用户可能经历明显的延迟，例如，1至2秒或更长时间，这可能会有损于用户体验。

发明内容

本说明书一般地针对促进在输入模态之间切换时对用户经历的延迟的减少和/或消除的各种实施方式，尤其是在用户从低延迟输入模态切换到高延迟输入模态的情况下。例如，在一些实施方式中，当环境指示经由低延迟输入模态提供输入(例如，文本)的用户有可能切换到语音输入时，可以以抢先方式建立语音到文本转换会话。

因此，在一些实施方式中，一种方法可以包括以下操作：以与电子设备相关联的多模态接口的第一模态接收第一输入，并且响应于接收所述第一输入：确定所述第一输入满足准则；响应于所述第一输入满足准则的确定，以抢先方式在所述电子设备与查询处理器之间建立会话，所述查询处理器被配置成处理以所述多模态接口的第二模态所接收的输入；以所述多模态接口的所述第二模态接收第二输入；在所述会话内发起在所述查询处理器处对所述第二输入的至少一部分的处理；以及基于来自所述查询处理器的输出而构建完整的查询。

在一些实施方式中，一种方法可以包括以下操作：用支持语音的设备接收文本输入；以及在所述支持语音的设备中，并且响应于接收所述文本输入：确定所述文本输入满足准则；响应于所述文本输入满足准则的确定，以抢先方式在所述支持语音的设备与语音到文本转换处理器之间建立语音到文本转换会话；接收语音输入；在所述会话内发起在所述语音到文本转换处理器处对所述语音输入的至少一部分的处理；以及基于来自所述语音到文本转换处理器的输出来构建完整的查询。

在各种实施方式中，所述语音到文本转换处理器可以是在线语音到文本转换处理器，并且所述支持语音的设备可以包括被配置成在与无线网络进行通信时与所述在线语音到文本转换处理器通信的移动设备。在各种实施方式中，发起处理包括将与所述文本输入相关联的数据以及与所述语音输入相关联的数据发送至所述在线语音到文本转换处理器。在各种实施方式中，发送数据可以包括发送所述语音输入的数字音频信号的至少一部分。在各种实施方式中，所述在线语音到文本转换处理器可以被配置成基于所述文本输入来执行语音到文本转换以及对所述数字音频信号的所述部分的语义处理以生成输出。

在各种实施方式中，构建完整的查询可以包括将所述输出与所述文本输入的至少一部分组合。在各种实施方式中，来自所述语音到文本转换处理器的所述输出可以包括所述语音输入的多个候选解释，并且构建完整的查询包括至少部分地基于所述文本输入来排名所述多个候选解释。在各种实施方式中，以抢先方式发起语音到文本转换会话可以包括激活所述支持语音的设备的麦克风。在各种实施方式中，所述方法可以进一步包括提供输出以指示所述语音到文本转换会话是可用的。在各种实施方式中，所述准则可以包括所述文本输入满足字符计数或者单词计数阈值。在各种实施方式中，所述准则可以包括所述文本输入匹配特定语言。

此外，一些实施方式包括一种装置，包括存储器以及一个或多个处理器，所述处理器可操作以执行存储在所述存储器中的指令，其中所述指令被配置成执行前述方法中的任一方法。一些实施方式还包括存储计算机指令的非暂时性计算机可读存储介质，所述指令可由一个或多个处理器执行以执行前述方法中的任一方法。

应理解，本文中详述的前述概念以及附加概念的所有组合均被构想为本文中所公开的主题的一部分。例如，在本公开的文末处出现的所要求保护的主题的所有组合均被构想为本文中所公开的主题的一部分。

附图说明

图1图示计算机系统的示例架构。

图2是示例分布式语音输入处理环境的框图。

图3是图示使用图2的环境处理语音输入的示例方法的流程图。

图4图示根据各种实施方式的可能发生在用本公开中所选择的方面所配置的各种实体之间的示例通信交换。

图5是图示根据各种实施方式的以抢先方式建立语音到文本会话的示例方法的流程图。

具体实施方式

在下文所讨论的实施方式中，在诸如移动计算设备(例如，智能电话或者智能手表)的资源受限的电子设备上执行的应用可以提供所谓的“多模态”接口，所述接口支持多种不同的输入模态。这些输入模态可以包括在基本上没有延迟的情况下对用户输入作出响应的诸如文本的低延迟输入，以及诸如语音识别的高延迟输入，所述高延迟输入由于它们需要进行各种引起延迟的例程而发生较高的延迟，诸如与转换处理器建立会话，该转换处理器被配置成将经由高延迟模态所接收的输入转换成匹配较低延迟输入模态的形式。为了在用户从提供低延迟的第一输入(例如，文本输入)切换到较高延迟的第二输入(例如，语音)时减少延迟(或者至少是所感知的延迟)，所述电子设备可以以抢先方式与转换处理器建立会话，例如，响应于第一输入满足一个或多个准则的确定。所述电子设备由此能够立刻发起由转换处理器对第二输入的处理，而并非被要求首先建立会话，这显著降低了用户在切换输入模态时所经历的延迟。

下面讨论有关所选择的实施方式的进一步细节。然而应理解，也构想其他实施方式，所以本文所公开的实施方式并非排他性的。

现转至附图，其中在几个视图中的相同数字表示相同的部，图1是示例计算机系统10中的电子组件的框图。系统10通常包括经由总线子系统14与多个外围设备进行通信的至少一个处理器12。这些外围设备可以包括存储子系统16，例如，包括存储器子系统18和文件存储子系统20、用户接口输入设备22、用户接口输出设备24以及网络接口子系统26。输入和输出设备允许用户与系统10相交互。网络接口子系统26提供到外部网络的接口并且被耦合至其他计算机系统中的对应的接口设备。

在一些实施方式中，用户接口输入设备22可以包括键盘、诸如鼠标、跟踪球、触控板或绘图板的指针设备、扫描仪、并入显示器中的触摸屏、诸如语音识别系统的音频输入设备、麦克风和/或其他类型的输入设备。一般而言，术语“输入设备”的使用意在包括用于将信息输入到计算系统10中或者通信网络上的所有可能类型的设备和方式。

用户接口输出设备24可以包括显示子系统、打印机、传真机或者非视觉显示器，诸如音频输出设备。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或者用于创建可见图像的一些其他机制。显示子系统还可以提供非视觉显示，诸如经由音频输出设备。一般而言，术语“输出设备”的使用意在包括用于将信息从计算系统10输出到用户或者另一机器或计算机系统的所有可能类型的设备和方式。

存储子系统16存储提供本文所述的模块中的一些或全部的功能的编程和数据结构。例如，存储子系统16可以包括用于执行在下文中所公开的方法的所选方面的逻辑。

这些软件模块通常由处理器12独立地或者结合其他处理器来执行。用于存储子系统16中的存储器子系统18可以包括多个存储器，所述存储器包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)28以及在其中存储固定指令的只读存储器(ROM)30。文件存储子系统20可以提供对于程序和数据文件的永久存储，并且可以包括硬盘驱动器、软盘驱动器连同相关联的可移动介质、CD-ROM驱动器、光盘驱动器或者可移动介质盒。实现某些实施方式的功能的模块可以由存储子系统16中的文件存储子系统20来存储，或者被存储在可由处理器12访问的其他机器中。

总线子系统14提供用于允许系统10的各种组件和子系统按预期彼此通信的机制。虽然总线子系统14被示意性示为单总线，但总线子系统的替选实施方式可以使用多条总线。

系统10可以具有不同的类型，包括移动设备、便携式电子设备、嵌入式设备、桌面型计算机、膝上型计算机、平板计算机、可穿戴设备、工作站、服务器、计算集群、刀片服务器、服务器机群或者任何其他的数据处理系统或计算设备。此外，由系统10实现的功能可以被分布于通过一个或多个网络彼此互连的多个系统之间，例如，在客户端-服务器、点对点或者其他网络布置中。由于计算机和网络的不断变化的性质，在图1中所描绘的对系统10的描述仅旨在作为用于图示一些实施方式的具体示例。系统10的许多其他配置可能具有比在图1中所描绘的计算机系统更多或更少的组件。

在下文中所讨论的实施方式可以包括一种或多种实现本文所述的功能的各种组合的方法。其他实施方式可以包括一种存储指令的非暂时性计算机可读存储介质，所述指令可由处理器执行以执行诸如本文所述的方法中的一个或多个的方法。还有其他实施方式可以包括一种装置，所述装置包括存储器以及一个或多个处理器，所述处理器可操作成执行存储在所述存储器中的指令以执行诸如本文所述的方法中的一个或多个的方法。

可以基于应用识别在下文中所述的各种程序代码，在该应用内，以特定实施方式实现所述各种程序代码。然而，应理解，以下任何特定的程序术语仅为方便起见而使用。另外，鉴于可以将计算机程序组织成例程、规程、方法、模块、对象等的无数方式以及可以将程序功能分配到驻留在典型计算机内的各种软件层(例如，操作系统、库、API的应用、小应用等)之间的各种方式，应理解，一些实施方式可以不限于本文所述的程序功能的特定组合和分配。

另外，应理解，可以由任何程序代码来执行或者在任何例程、工作流等等中执行的本文所述的各种操作可以被组合、分拆、重新排序、省略、相继或并行地执行和/或用其他技术作补充，因此某些实施方式不限于本文所述操作的特定顺序。

图2图示示例分布式语音输入处理环境50，例如，使用与诸如在线搜索服务54的一个或多个在线服务通信的支持语音的设备52。在下文中所讨论的实施方式中，例如，将支持语音的设备52描述为移动设备，诸如蜂窝电话或者平板计算机。而其他实施方式可以利用多种其他的支持语音的设备，因此在下文中对移动设备的引用仅出于简化下文讨论的目的。无数其他类型的支持语音的设备都可以使用本文所述的功能，例如，包括膝上型计算机、手表、头戴式设备、虚拟或增强现实设备、其他可穿戴设备、音频/视频系统、导航系统、汽车和其他车辆系统等。此外，这样的支持语音的设备中的许多设备可能被认为是资源受限的原因在于，这样的设备的存储器和/或处理能力可能基于技术、经济或其他因素而受到约束，特别是在与能够将几乎无限的计算资源投入到独立任务的在线或基于云的服务相比较时。某些这样的设备也可能被认为是离线设备，就这方面而言，这样的设备至少在部分时间能够“离线”操作并且未连接至在线服务，例如，基于期望这样的设备在普通使用下可能不时地会经历临时的网络连接中断。

支持语音的设备52可以被操作成与多种在线服务通信。一个非限制性示例是在线搜索服务54。在一些实施方式中，在线搜索服务54可以被实现为采用云基础设施的基于云的服务，例如，使用服务器机群或者运行适于处理来自多个用户的大量请求的软件的高性能计算机的集群。在所示的实施方式中，在线搜索服务54能够查询一个或多个数据库以定位所请求的信息，例如，用于提供包括所请求的信息的网站列表。在线搜索服务54可以不限于基于语音的搜索，并且可以也能处理其他类型的搜索，例如，基于文本的搜索、基于图像的搜索等。

支持语音的设备52同样可以与其他在线系统(未绘出)通信，并且这些其他在线系统不是必须要处理搜索。例如，一些在线系统可以处理对于非搜索动作的基于语音的请求，所述非搜索动作诸如设置警报或提醒、管理列表、发起经由电话、文本、电子邮件等与其他用户的通信或者执行可以经由语音输入而发起的其他动作。出于本公开的目的，基于语音的请求以及其他形式的语音输入可以被统称为基于语音的查询，不考虑基于语音的查询是否寻求发起搜索、提出问题、发出命令、口述电子邮件或文本消息等。因此，一般而言，在所示实施方式的场境内，例如包括一个或多个单词或短语的任何语音输入都可以被认为是基于语音的查询。

在图2的实施方式中，由支持语音的设备52所接收的语音输入被支持语音的搜索应用(或“app”)56处理。在其他实施方式中，语音输入可以在支持语音的设备的操作系统或者固件内被处理。所示实施方式中的应用56提供多模态接口，所述多模态接口包括文本动作模块58、语音动作模块60以及在线接口模块62。虽然在图2中未绘出，但应用56也可以被配置成使用诸如运动(例如，用电话做出的手势)、生物识别(例如，视网膜输入、指纹等)等等的除文本和语音以外的输入模态来接受输入。

文本动作模块58接收被定向到应用56的文本输入并且执行各种动作，诸如用所提供的文本填充应用56的一个或多个所呈现的输入字段。语音活动模块60接收被定向到应用56的语音输入并且协同对该语音输入的分析。可以在本地(例如，由如下所述的组件64至72)或者远程地(例如，由如下所述的独立的在线语音到文本转换处理器78或者基于语音的查询处理器80)对语音输入进行分析。在线接口模块62提供与在线搜索服务54的接口以及与独立的在线语音到文本转换处理器78和基于语音的查询处理器80的接口。

如果支持语音的设备52离线，或者如果其无线网络信号过弱和/或不足以将语音输入分析委托给在线语音到文本转换处理器(例如，78、80)，则应用56可以依赖于本地的语音到文本转换处理器来处理语音输入。本地的语音到文本转换处理器可以包括各种中间件、框架、操作系统和/或固件模块。譬如在图2中，本地的语音到文本转换处理器包括流式传输语音到文本模块64以及配备有解析模块70的语义处理器模块66。

流式传输语音到文本模块64接收例如数字音频数据形式的语音输入的音频记录，并且将数字音频数据转换成一个或多个文本单词或短语(在本文中也被称作令牌)。在所示的实施方式中，模块64采取流式传输模块的形式，以便语音输入在逐个令牌(token-by-token)的基础上实时或近实时地被转换成文本，以便在用户话音的同时并且由此在用户明确表达出完整的口述请求之前，便可以高效地从模块64输出令牌。模块64可以依赖于一个或多个本地存储的离线声学和/或语言模块68，所述这些模块共同模拟了音频信号与一种语言中的语音学单位连同该语言中的词序之间的关系。在一些实施方式中，可以使用单个模块68，而在其他实施方式中，可以支持多个模块，例如，用于支持多种语言、多个说话者等。

鉴于模块64将话音转换到文本，语义处理器模块66尝试辨别由模块64输出的文本的语义或含义，以便制定适当的响应。例如，解析模块70依赖于一个或多个离线语法模块72来将所解释的文本映射至各种结构，诸如语句、问句等等。如图所示，解析模块70可以将所解析的文本提供给应用56，以便应用56可以譬如填充输入字段和/或将文本提供给在线接口模块62。在一些实施方式中，可以使用单个模块72，而在另一些实施方式中，可以支持多个模块。应理解，在一些实施方式中，模块68和72可以被组合成更少的模块或者被分成附加的模块，如可以是模块64和66的功能。此外，当设备52未与在线搜索服务54进行通信时，模块68和72被本地存储在支持语音的设备52上并且由此可离线访问，所以这些模块在本文中就被称作离线模块。

另一方面，如果支持语音的设备52在线，或者如果其无线网络信号足够强和/或足以将语音输入分析委托给在线语音到文本转换处理器(例如，78、80)，则应用56可以依赖于远程功能来处理语音输入。该远程功能可以通过各种来源来提供，诸如独立的在线语音到文本转换处理器78和/或与在线搜索服务54相关联的基于语音的查询处理器80，其中的任一个都可以依赖于各种声学/语言、语法和/或动作模块82。应理解，在一些实施方式中，特别在支持语音的设备52是资源受限的设备时，在线语音到文本转换处理器78和/或基于语音的查询处理器80以及由此使用的模块82可以实现比到支持语音的设备52本地更加复杂和计算的资源密集的语音处理功能。然而，在其他实施方式中，没有互补的在线功能可以被使用。

在一些实施方式中，可以支持在线和离线功能两者，例如，这样每当设备与在线服务进行通信时便使用在线功能，而当不存在连接时则使用离线功能。在其他实施方式中，仅当离线功能未能充分处理特定语音输入时才会使用在线功能。

例如，图3图示语音处理例程100，所述语音处理例程100可以由支持语音的设备52来执行以处理语音输入。例程100通过接收例如数字音频信号形式的语音输入而开始于块102。在块104处，作出将语音输入转发至在线搜索服务的初步尝试。如果未成功，例如，由于缺乏连接性或者缺乏来自在线语音到文本转换处理器78的响应，则块106将控制传到块108以将语音输入转换成文本令牌(例如，使用图2的模块64)，以及解析所述文本令牌(块110，例如，使用图2的模块70)，并且对语音输入的处理完成。

回到块106，如果将语音输入转发至在线搜索服务的尝试成功，则块106绕过块108至110并且将控制直接传到块112以执行客户端侧的渲染和同步。随后，对语音输入的处理完成。应理解，在其他实施方式中，在在线处理之前可以尝试离线处理，例如，用来在能够本地处理语音输入时避免不必要的数据通信。

如背景技术中所述，用户在切换输入模态时可能经历延迟，尤其是在用户从诸如文本的低延迟输入模态切换到诸如语音的高延迟输入模态的情况下。例如，假设用户希望向在线搜索服务54提交搜索查询。用户可以通过向支持语音的设备52的文本输入中键入文本，但可能决定键入过于麻烦，或者可能变得分心(例如，由于驾驶)，以致用户无法再高效键入文本。在现有的诸如智能电话的电子设备中，用户会被要求按压按钮或者触摸屏图标来激活麦克风并且发起与本地于支持语音的设备52上或者在线于远程计算系统(例如，78或80)处所实现的语音到文本转换处理器的会话的建立。建立这样的会话可能需要花费时间，这会有损于用户体验。例如，与在线语音到文本转换处理器78或者在线基于语音的查询处理器80建立会话可能需要差不多一至两秒或者更久，这取决于可用无线信号可用的强度和/或可靠性。

为了减少或避免这样的延迟，并且使用本文所述的技术，例如，在用户仍使用小键盘键入她的查询的第一部分的同时，支持语音的设备52可以以抢先方式与语音到文本转换处理器建立会话。到用户决定切换到语音的时候，可能已经建立了会话，或者至少会话的建立正在进行中。无论哪种方式，用户都能够即刻或者至少相对快速地开始说话。支持语音的设备52可以在几乎没有可感知的延迟的情况下作出响应。

图4描绘了根据各种实施方式可以在诸如支持语音的设备52的电子设备与诸如基于语音的查询处理器80的语音到文本转换处理器之间所交换的通信的示例。该特定实例描绘了在支持语音的设备52与在线基于语音的查询处理器80之间建立会话的情景。然而，这并无限制意义。可以在支持语音的设备52与独立的在线语音到文本转换处理器78之间交换类似的通信。附加地或替选地，可以在适当配备的支持语音的设备52的内部模块之间交换类似的通信。譬如，当支持语音的设备52是离线的(并且图3的块108至112的操作被执行)时，支持语音的设备52的诸如流式传输语音到文本模块64和/或语义处理器模块66中的一个或多个的各种内部组件可以共同执行类似于由图4中的在线基于语音的查询处理器80所执行的任务(但可以简化或省略某些方面，诸如所描绘的握手规程)。同样，示意性地描绘出支持语音的设备52的用户400。

在402处，可以在支持语音的设备52处从用户400接收文本输入。例如，用户400可以通过在物理的小键盘或者在触摸屏上所呈现的图形小键盘处键入文本而开始搜索。在404处，支持语音的设备52可以评估文本输入和/或支持语音的设备52的当前场境以确定是否满足各种准则。如果满足准则，则支持语音的设备52可以与基于语音的查询处理器80建立语音到文本转换会话。在图4中，在406至410处将该过程指示为三次握手。然而，可以使用其他握手规程或者会话建立例程作为代替。在412处，支持语音的设备52可以提供指示会话被建立的某种输出，以便用户400会得知他或她能够开始说话来代替键入。

可以使用各种准则来评估由支持语音的设备在402处所接收的文本输入。例如，可以将诸如到该点所接收的文本输入的字符或单词计数的基于长度的准则与基于长度的阈值(例如，字符或单词计数阈值)相比较。对字符/单词计数阈值的满足可以建议用户可能会变得疲于键入并且将切换到语音输入。附加地或替选地，可以将文本输入与各种语法相比较以确定文本输入的匹配语言(例如，德语、西班牙语、日语等)。一些语言可能包括用户更有可能会切换输入模态(例如，文本到语音)来完成的长词。附加地或替选地，可以确定文本输入是否匹配一个或多个模式，例如，正则表达式或者其他类似的机制。

在一些实施方式中，作为针对各种准则来评估文本输入的补充或替代，可以对支持语音的设备52的场境进行评估。如果支持语音的设备52的场境是“驾驶”，则非常有可能用户会想要从文本输入切换到语音输入。支持语音的设备52的“场境”可以基于多种信号而被确定，包括但不限于传感器信号、用户偏好、搜索历史等等。可以被使用于确定场境的传感器的示例包括但不限于位置坐标传感器(例如，全球定位系统或者“GPS”)、加速计、温度计、陀螺仪、光线传感器等等。用户偏好和/或搜索历史可以指示用户在提供输入时更喜欢和/或倾向切换输入模态的环境。

回顾图4，有时在412处向用户指示会话被建立之后，在414处，支持语音的设备52可以从用户400接收语音输入。例如，用户可以停止键入文本输入并且可以开始向支持语音的设备52的麦克风和/或送话口说话。支持语音的设备52可以再于在406至410处所建立的会话内发起在在线基于语音的查询处理器80处对语音输入的至少一部分的在线处理。例如，在416处，支持语音的设备52可以将语音输入的数字音频信号的至少一部分发送至在线基于语音的查询处理器80。在一些实施方式中，在418处，支持语音的设备52还可以将与在402处所接收的文本输入相关联的数据发送至在线基于语音的查询处理器80。

在420处，在线基于语音的查询处理器80可以执行对数字音频信号的所述部分的语音到文本转换和/或语义处理以生成输出文本。在一些实施方式中，在线基于语音的查询处理器80可以进一步基于其在418处所接收的文本输入来生成输出。例如，在线基于语音的查询处理器80可以通过其在418处所接收的文本输入而产生偏向。假设用户向支持语音的设备52的麦克风说出单词“socks”。在没有任何其他信息的情况下，用户的口述语音输入话音可能简单地被在线基于语音的查询处理器80解释为“socks”。然而，如果在线基于语音的查询处理器80考虑到继续语音输入的“red”的文本输入，则在线基于语音的查询处理器80可能偏向将口述单词“socks”解释为“Sox”(如在“Boston Red Sox(波士顿红袜队)”中)。

作为另一示例，文本输入的语言能够使在线基于语音的查询处理器80偏向特定解释。例如，如德语的某些语言具有相对较长的单词。如果在线基于语音的查询处理器80确定文本输入是德语，则在线基于语音的查询处理器80更有可能会将从语音输入解释的文本与文本输入连结，而非将它们分为分离的单词/令牌。

除文本输入之外，在线基于语音的查询处理器80可以考虑其他信号，诸如用户的场境(例如，位于新英格兰的用户会比日本的用户更加有可能提及Red Sox)，用户的口音(例如，波士顿口音可以显著增加将“socks”解释为“Sox”的几率)、用户的搜索历史等等。

回顾图4，在422处，在线支持语音的查询处理器80可以向支持语音的设备52提供输出文本。该输出可以具有各种形式。在文本输入和/或支持语音的设备52的场境被提供给基于语音的查询处理器80的实施方式中，基于语音的查询处理器80可以返回关于与由支持语音的设备52在414处所接收的语音输入相对应的文本的“最佳”猜测。在其他实施方式中，在线基于语音的查询处理器80可以输出或返回语音输入的多个候选解释。

无论由在线基于语音的查询处理器80向支持语音的设备52提供何种形式的输出，在424处，支持语音的设备52都可以使用该输出来构建完整的查询，该查询可以被提交至譬如在线搜索服务52。例如，在在线基于语音的查询处理器80提供单个最佳猜测的实施方式中，支持语音的设备52可以将最佳猜测合并为多令牌查询中的一个令牌，该多令牌查询还包括原始的文本输入。或者，如果文本输出似乎是相对较长单词的第一部分(尤其是在单词是如德语等语言时)，则支持语音的设备52可以将在线基于语音的查询处理器80的最佳猜测直接与文本输入连结以形成单个单词。在在线基于语音的查询处理器80提供多个候选解释的实施方式中，语音支持设备52可以基于各种信号来排名这些候选解释，所述信号诸如在402处所接收的文本输入的一个或多个属性(例如，字符计数、单词计数、语言等)、支持语音的设备52的场境等等，以便支持语音的设备52可以选择“最佳”候选解释。

虽然本文所述的示例主要涉及用户从文本输入切换到语音输入，但这并无限制意义。在各种实施方式中，当用户在任何输入模态之间切换时，尤其是在用户从低延迟输入模态切换到高延迟输入模态的情况下，可以采用本文所述的技术。例如，一种电子设备可以提供多模态接口，其可以是能够接受多种不同类型的输入的接口，诸如网页接口或者应用接口(例如，文本消息传送应用、web搜索应用、社交网络应用等)。假设以由电子设备提供的多模态接口的低延迟的第一模态接收第一输入。电子设备可以被配置成以抢先方式在该电子设备与(例如，在线的或本地的)转换处理器之间建立会话，该转换处理器被配置成处理在多模态接口的高延迟的第二模态下所接收的输入。这一过程可以譬如响应于确定第一输入满足准则而被执行。然后，当以多模态接口的第二模态接收第二输入时，电子设备可以准备立刻或非常迅速地在所述会话内发起在转换处理器处对第二输入的至少一部分的处理。这可以减少或消除用户在从第一输入模态切换到第二输入模态时经历的延迟。

图5图示根据各种实施方式的可以由支持语音的设备52执行用以以抢先方式与(在线或本地的)语音到文本转换处理器建立语音到文本转换会话的例程500。例程500通过接收文本输入开始于块502。在块504处，文本输入可以针对一个或多个准则而被分析，以确定是否以抢先方式建立语音到文本转换会话。

在确定满足一个或多个准则后，在块508处，支持语音的设备52可以与包括到该支持语音的设备本地的组件的语音到文本转换处理器(例如，64至72)或者在线语音到文本转换处理器(诸如，78或80)建立前述语音到文本转换会话。在块510处，例如在支持语音的设备52的麦克风处，可以接收语音输入。在块512处，支持语音的设备52可以在508处所建立的会话内发起对在块510处所接收的语音输入的处理。在块514处，可以至少基于由基于语音的查询处理器所提供的输出来构建完整的查询，在块508处曾与该基于语音的查询处理器建立会话。此后，可以使用该完整的查询，无论用户希望如何去使用，例如，作为提交至在线搜索服务54的搜索查询，或者作为待由用户发送的文本通信(例如，文本消息、电子邮件、社交媒体帖子)的一部分。

虽然在文本中已描述且说明了几种实施方式，但可以利用多种用于执行功能和/或获得结果和/或本文所述优点中的一个或多个的其他装置和/或结构，并且这样的变型和/或修改中的每一个都被视为属于本文所述的实施方式的范围内。更一般地，本文所述的所有参数、尺寸、材料和配置旨在示例性，并且实际的参数、尺寸、材料和/或配置将取决于针对其使用所述教导的具体应用。本领域技术人员会认识到或者通过常规实验途径即可确定本文所述的具体实施方式的许多等同方案。因此将会理解到，前述实施方式仅通过示例方式来呈现，并且在所附权利要求及其等同方案的范围内，可以通过与所具体描述和请求不同的方式来实践实施方式。本公开的实施方式是针对本文所述的每个单独的特征、系统、物件、材料、工具包和/或方法。此外，如果这样的特征、系统、物件、材料、工具包和/或方法并不相互矛盾，则两个或多个这样的特征、系统、物件、材料、工具包和/或方法的任意组合也包括在本公开的范围内。

Claims

1.一种用于减少延迟的方法，包括：

用支持语音的设备接收文本输入；以及

在所述支持语音的设备中，并且响应于接收所述文本输入：

确定所述文本输入满足准则；

响应于确定所述文本输入满足准则，以抢先方式在所述支持语音的设备与语音到文本转换处理器之间建立语音到文本转换会话；

接收语音输入；

在所述会话内，在所述语音到文本转换处理器处发起对至少一部分所述语音输入的处理；以及

基于来自所述语音到文本转换处理器的输出，来构建完整的查询。

2.根据权利要求1所述的方法，其中，所述语音到文本转换处理器是在线语音到文本转换处理器，并且其中，所述支持语音的设备包括移动设备，所述移动设备被配置成在与无线网络进行通信时与所述在线语音到文本转换处理器通信。

3.根据权利要求2所述的方法，其中，发起处理包括：将与所述文本输入相关联的数据以及与所述语音输入相关联的数据发送至所述在线语音到文本转换处理器。

4.根据权利要求3所述的方法，其中，发送数据包括：发送所述语音输入的数字音频信号的至少一部分，其中，所述在线语音到文本转换处理器被配置成：基于所述文本输入来执行语音到文本转换以及对所述数字音频信号的所述部分的语义处理，以生成所述输出。

5.根据权利要求1所述的方法，其中，构建完整的查询包括：将所述输出与至少一部分所述文本输入进行组合。

6.根据权利要求1所述的方法，其中，来自所述语音到文本转换处理器的所述输出包括所述语音输入的多个候选解释，并且构建完整的查询包括：至少部分地基于所述文本输入来排名所述多个候选解释。

7.根据权利要求1所述的方法，其中，以抢先方式发起语音到文本转换会话包括：激活所述支持语音的设备的麦克风。

8.根据权利要求7所述的方法，进一步包括：提供输出，以指示所述语音到文本转换会话是可用的。

9.根据权利要求1所述的方法，其中，所述准则包括所述文本输入满足字符计数阈值。

10.根据权利要求1所述的方法，其中，所述准则包括所述文本输入满足单词计数阈值。

11.根据权利要求1所述的方法，其中，所述准则包括所述文本输入匹配特定语言。

12.一种用于减少延迟的方法，包括：

以与电子设备相关联的多模态接口的第一模态接收第一输入；以及

在所述电子设备中，并且响应于接收所述第一输入：

确定所述第一输入满足准则；

响应于确定所述第一输入满足准则，以抢先方式在所述电子设备与查询处理器之间建立会话，所述查询处理器被配置成处理以所述多模态接口的第二模态所接收的输入；

以所述多模态接口的所述第二模态接收第二输入；

在所述会话内，在所述查询处理器处发起对至少一部分所述第二输入的处理；以及

基于来自所述查询处理器的输出来构建完整的查询。

13.根据权利要求12所述的方法，其中，所述查询处理器是在线查询处理器，并且其中，所述电子设备包括移动设备，所述移动设备被配置成在与无线网络进行通信时与所述在线查询处理器通信。

14.根据权利要求13所述的方法，其中，发起处理包括：将与所述第一输入相关联的数据以及与所述第二输入相关联的数据发送至所述查询处理器。

15.根据权利要求12所述的方法，其中，构建完整的查询包括：将所述输出与至少一部分所述第一输入进行组合。

16.根据权利要求12所述的方法，其中，来自所述查询处理器的所述输出包括所述第二输入的多个候选解释，并且构建所述完整的查询包括：至少部分地基于所述第一输入来排名所述多个候选解释。

17.根据权利要求12所述的方法，其中，所述准则包括所述第一输入满足长度阈值。

18.根据权利要求12所述的方法，其中，所述准则包括所述第一输入匹配特定模式。

19.一种用于减少延迟的系统，包括：

用于用支持语音的设备接收文本输入的装置；

用于在所述支持语音的设备中并且响应于接收所述文本输入：

确定所述文本输入满足准则的装置；

响应于所述文本输入满足准则的确定以抢先方式在所述支持语音的设备与语音到文本转换处理器之间建立语音到文本转换会话的装置；

接收语音输入的装置；

在所述会话内在所述在线语音到文本转换处理器处发起对至少一部分所述语音输入的处理的装置；以及

基于来自所述在线语音到文本转换处理器的输出来构建完整的查询的装置。

20.根据权利要求19所述的系统，其中，所述语音到文本转换处理器是在线语音到文本转换处理器，并且其中，所述支持语音的设备包括移动设备，所述移动设备被配置成在与无线网络进行通信时与所述在线语音到文本转换处理器通信。

21.根据权利要求19所述的系统，其中，所述用于发起处理的装置包括：用于将与所述文本输入相关联的数据以及与所述语音输入相关联的数据发送至所述在线语音到文本转换处理器的装置。

22.根据权利要求21所述的系统，其中，所述用于发送数据的装置包括：用于发送所述语音输入的数字音频信号的至少一部分的装置，其中，所述在线语音到文本转换处理器被配置成：基于所述文本输入来执行语音到文本转换以及对所述数字音频信号的所述部分的语义处理，以生成所述输出。

23.根据权利要求19所述的系统，其中，所述用于构建完整的查询的装置包括：用于将所述输出与至少一部分所述文本输入进行组合的装置。

24.根据权利要求19所述的系统，其中，来自所述语音到文本转换处理器的所述输出包括所述语音输入的多个候选解释，并且所述用于构建完整的查询的装置包括：用于至少部分地基于所述文本输入来排名所述多个候选解释的装置。

25.根据权利要求19所述的系统，其中，所述用于以抢先方式发起语音到文本转换会话的装置包括：用于激活所述支持语音的设备的麦克风的装置。

26.根据权利要求25所述的系统，进一步包括：用于提供输出以指示所述语音到文本转换会话是可用的装置。

27.根据权利要求19所述的系统，其中，所述准则包括所述文本输入满足字符计数阈值。

28.根据权利要求19所述的系统，其中，所述准则包括所述文本输入满足单词计数阈值。

29.根据权利要求19所述的系统，其中，所述准则包括所述文本输入匹配特定语言。

30.一种用于减少延迟的系统，包括：

用于以与电子设备相关联的多模态接口的第一模态接收第一输入的装置；以及

用于在所述电子设备中并且响应于接收所述第一输入：

确定所述第一输入满足准则的装置；

响应于确定所述第一输入满足准则以抢先方式在所述电子设备与查询处理器之间建立会话的装置，所述查询处理器被配置成处理以所述多模态接口的第二模态所接收的输入；

以所述多模态接口的所述第二模态接收第二输入的装置；

在所述会话内在所述查询处理器处发起对至少一部分所述第二输入的处理的装置；以及

基于来自所述查询处理器的输出来构建完整的查询的装置。

31.根据权利要求30所述的系统，其中，所述查询处理器是在线查询处理器，并且其中，所述电子设备包括移动设备，所述移动设备被配置成在与无线网络进行通信时与所述在线查询处理器通信。

32.根据权利要求30所述的系统，其中，所述用于发起处理的装置包括：用于将与所述第一输入相关联的数据以及与所述第二输入相关联的数据发送至所述查询处理器的装置。

33.根据权利要求30所述的系统，其中，所述用于构建完整的查询的装置包括：用于将所述输出与至少一部分所述第一输入进行组合的装置。

34.根据权利要求30所述的系统，其中，来自所述查询处理器的所述输出包括所述第二输入的多个候选解释，并且所述用于构建完整的查询的装置包括：用于至少部分地基于所述第一输入来排名所述多个候选解释的装置。

35.根据权利要求30所述的系统，其中，所述准则包括所述第一输入满足长度阈值。

36.根据权利要求30所述的系统，其中，所述准则包括所述第一输入匹配特定模式。