CN107430855A

CN107430855A - 在支持语音的电子设备中对语音转文本模型的场境敏感动态更新

Info

Publication number: CN107430855A
Application number: CN201680018917.1A
Authority: CN
Inventors: 高宇立; 成相洙; 普拉塔博·穆鲁格桑
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-05-27
Filing date: 2016-05-20
Publication date: 2017-12-01
Anticipated expiration: 2036-05-20
Also published as: CN112581962B; US20210366484A1; US11676606B2; US20200058304A1; US11087762B2; EP3304545A1; US20180247653A1; CN107430855B; US9966073B2; US10482883B2; US20160351194A1; WO2016191318A1; CN112581962A

Abstract

由支持语音的电子设备使用的语音转文本模型被动态并且以场境敏感方式更新，以促进辨识在指向支持语音的电子设备的语音输入中用户潜在地可能说出的实体。可以例如基于对语音输入的第一部分的处理——例如基于特定类型的语音动作的检测——来执行对语音转文本模型的动态更新，并且可以被定位以促进辨识在相同语音输入的稍后部分中可能出现的实体，例如与和检测到的语音动作类型相关联的一个或多个参数特别相关的实体。

Description

在支持语音的电子设备中对语音转文本模型的场境敏感动态更新

背景技术

基于语音的用户接口越来越多地用于计算机和其他电子设备的控制。基于语音的用户接口的一个特别有用的应用是便携式电子设备，诸如移动电话、手表、平板计算机、头戴式设备、虚拟现实或增强现实设备等。另一个有用的应用是车载电子系统，诸如包含导航和音频能力的汽车系统。这样的应用通常特征在于非传统的形状因素，其限制了更传统的键盘或触摸屏输入的利用和/或期望鼓励用户专注于其他任务上——例如当用户驾驶或步行时的情形中的使用。

基于语音的用户接口从早期的基本接口——其只能理解简单和直接的命令——持续发展到更复杂的接口——其对自然语言请求做出响应以及可以理解场境(context)并管理与用户的来回对话或会话。许多基于语音的用户接口包含将人类语音的音频记录转换为文本的初始话音转文本(或语音转文本)转换，以及分析文本以尝试确定用户的请求的含义的语义分析。基于用户的已记录语音的所确定含义，可以采取诸如执行搜索或以其他方式控制计算机或其他电子设备的动作。

基于语音的用户接口的计算资源需求——例如在处理器和/或存储器资源方面——可能是大量的并且作为结果，一些常规的基于语音的用户接口方式采用客户端-服务器架构，其中由相对低功率的客户端设备接收和记录语音输入，通过诸如互联网的网络将该记录传送到用于话音转文本转换和语义处理的在线服务，并且由该在线服务生成适当的响应并将其传送回到客户端设备。在线服务可以投入大量的计算资源来处理语音输入，使得能够实现比否则在客户端设备内本地实现的更复杂的话音识别和语义分析功能。然而，在处理语音输入时，客户端-服务器方式必需要求客户端在线(即，与在线服务通信)。特别是在移动应用和汽车应用中，在任何时间和所有地点可能无法保证持续在线连接，因此每当该设备“离线”并且因此不连接到在线服务时基于语音的客户端-服务器用户接口在客户端设备中可能会被禁用。此外，即使当设备连接到在线服务时，考虑到客户端设备和在线服务之间的双向通信的需要，与语音输入的在线处理相关联的时延可能是用户不期望察觉到的。

发明内容

本说明书大体涉及动态地以场境敏感的方式更新由支持语音的电子设备使用的语音转文本模型以促进辨识用户在指向支持语音的电子设备的语音输入中潜在可能说出的实体的各个实施方式。可以例如基于语音输入的第一部分的处理——例如基于特定类型的语音动作的检测——来执行对语音对文本模型的动态更新，并且可以被定位以促进标识在相同语音输入的稍后部分中可能出现的实体，例如与与检测到的语音动作类型相关联的一个或多个参数特别相关的实体。

因此，在一些实施方式中，一种方法可以利用支持语音的电子设备接收语音输入，并且在所述支持语音的电子设备中，并响应于接收所述语音输入的至少一部分，执行对所述语音输入的至少一部分的本地处理以在利用所述支持语音的电子设备完全接收所述语音输入之前动态构建语音动作的至少一部分，在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联，以及响应于确定所述语音动作与所述场境敏感参数相关联，发起对由所述支持语音的电子设备使用的本地语音转文本模型的动态更新以促进辨识与所述场境敏感参数相关联的多个场境敏感实体。

在一些实施方式中，执行本地处理包括使用所述支持语音的电子设备的流送语音转文本模块将所述语音输入的数字音频信号转换为文本，其中所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌，以及使用所述支持语音的电子设备的流送语义处理器从所述多个文本令牌中的至少一部分动态构建所述语音动作的所述一部分。此外，在一些实施方式中确定所述语音动作是否与所述场境敏感参数相关联由所述流送语义处理器执行，并且发起对所述本地语音转文本模型的动态更新包括将来自所述流送语义处理器的数据传输到所述流送语音转文本模块以发起所述本地语音转文本模型的动态更新。

在一些实施方式中，所述本地语音转文本模型包括至少一个解码图，并且其中发起对所述本地语音转文本模型的动态更新包括将解码路径添加到与所述多个场境敏感实体中的每一个相对应的所述至少一个解码图。此外，一些实施方式包括响应于确定所述语音动作与所述场境敏感参数相关联，从在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据，其中发起对所述本地语音转文本模型的动态更新包括传输所预取的语音转文本模型更新数据以动态地更新所述本地语音转文本模型。

此外，在一些实施方式中，在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括确定所述语音动作是否是播放媒体项目的请求，其中所述场境敏感参数包括用于识别所述媒体项目的媒体项目标识符，并且其中所述多个场境敏感实体标识能够由所述支持语音的电子设备播放的多个媒体项目。

此外，在一些实施方式中，在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括确定所述语音动作是否是与联系人通信的请求，其中所述场境敏感参数包括用于发起与所述联系人的通信的联系人标识符，并且其中所述多个场境敏感实体标识能够由所述支持语音的电子设备访问的多个联系人。在一些实施方式中，所述场境敏感参数是取决于位置的参数，并且其中所述多个场境敏感实体标识布置在预定位置附近的多个兴趣点，并且在一些实施方式中，预定位置包括所述支持语音的电子设备的当前位置。响应于确定所述语音动作与所述场境敏感参数相关联，一些实施方式将所述当前位置传输到在线服务并从所述在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据。

另外，在一些实施方式中，一种方法可以利用支持语音的电子设备接收语音输入，在所述支持语音的电子设备中使用本地语音转文本模型本地执行语音转文本转换以生成所述语音输入的第一部分的文本，在生成所述语音输入的所述第一部分的文本之后动态地更新所述本地语音转文本模型，以促进辨识和与所述语音输入相关联的语音动作的场境敏感参数相关联的多个场境敏感实体，以及在所述支持语音的电子设备中使用所动态更新的本地语音转文本模型本地执行语音转文本转换，以生成所述语音输入的第二部分的文本。

在一些实施方式中，执行所述语音转文本转换包括使用所述支持语音的电子设备的流送语音转文本模块转换所述语音输入的数字音频信号，其中所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌。这样的实施方式可以进一步包括在利用所述支持语音的电子设备完全接收到的所述语音输入之前，使用所述支持语音的电子设备的流送语义处理器从所述多个文本令牌的至少一部分动态构建所述语音动作的至少一部分。此外，在一些实施方式中，响应于确定所述语音动作与所述场境敏感参数相关联，由所述流送语义处理器发起动态更新所述本地语音转文本模型。

此外，一些实施方式可以包括装置，其包括存储器和可操作以执行存储在所述存储器中的指令的一个或多个处理器，其中指令被配置为执行上述任何方法。一些实施方式还可以包括存储可由一个或多个处理器执行以执行上述任何方法的计算机指令的非暂时计算机可读存储介质。

应当理解，本文更详细地描述的前述概念和附加概念的所有组合被认为是本文公开的主题的一部分。例如，本公开所附的要求保护的主题的所有组合都被认为是本文公开的主题的一部分。

附图说明

图1图示了计算机系统的示例架构。

图2是示例分布式语音输入处理环境的框图。

图3是图示使用图2的环境来处理语音输入的示例方法的流程图。

图4是图示适于由图2中引用的流语音转文本模块使用的动态可更新语音转文本模型的示例实施方式的框图。

图5是图示使用图2的环境处理语音输入的另一示例方法的流程图。

图6是由图2中引用的流送语音转文本模块所执行的示例离线语音转文本例程的流程图。

图7是由图2中引用的语义处理器模块所执行的示例处理文本令牌例程的流程图。

图8是由图2中引用的流语音转文本模块执行的示例更新语音转文本模型例程的流程图。

图9是由图2中引用的语义处理器模块执行的示例接收输入结束例程的流程图。

具体实施方式

在下文讨论的实施方式中，由支持语音的电子设备使用的语音转文本模型被动态地并且以场境敏感方式更新以促进辨识用户在针对支持语音的电子设备的语音输入中潜在地可能说出的场境敏感实体。关于所选择的实施方式的进一步细节将在下文中讨论。然而，应当理解其他实施方式被设想到，因此本文公开的实施方式不是排他的。

示例硬件和软件环境

现在转向附图，其中各附图中相似的附图标记标示相似的部分，图1是示例计算机系统10中的电子组件的框图。系统10通常包括至少一个处理器12，其经由总线子系统14与多个外围设备通信。这些外围设备可以包括存储子系统16，其包括例如存储器子系统18和文件存储子系统20、用户接口输入设备22、用户接口输出设备24、和网络接口子系统26。输入和输出设备允许用户与系统10进行交互。网络接口子系统26提供到外部网络的接口并耦合到其他计算机系统中的对应接口设备。

在一些实施方式中，用户接口输入设备22可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的指示设备、扫描仪、并入显示器中的触摸屏、诸如语音识别系统、麦克风的音频输入设备、和/或其他类型的输入设备。一般而言，术语“输入设备”的使用旨在包括将信息输入计算机系统10或通信网络的所有可能类型的设备和方法。

用户接口输出设备24可以包括显示子系统、打印机、传真机、或非视觉显示器，诸如音频输出设备。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备、或用于创建可视图像的一些其它机构。显示子系统还可以诸如经由音频输出设备来提供非视觉显示。通常，术语“输出设备”的使用旨在包括从计算机系统10向用户或另一机器或计算机系统输出信息的所有可能类型的设备和方法。

存储子系统16存储提供本文所述的一些或全部模块的功能的编程和数据构造。例如，存储子系统16可以包括用于执行下文所公开的方法的所选方面的逻辑。

这些软件模块通常由处理器12单独地或与其他处理器组合执行。存储子系统16中使用的存储器子系统18可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)28和存储固定指令的只读存储器(ROM)30。文件存储子系统20可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器连同关联的可移动介质、CD-ROM驱动器、光驱动器、或可移动介质盒。实现某些实施方式的功能的模块可以由文件存储子系统20存储在存储子系统16中，或者存储在由处理器12可访问的其他机器中。

总线子系统14提供用于允许系统10的各种组件和子系统按预期彼此通信的机制。虽然总线子系统14被示意性地示出为单个总线，但是总线子系统的替选实施方式可以使用多个总线。

系统10可以是不同的类型，包括移动设备、便携式电子设备、嵌入式设备、台式计算机、膝上型计算机、平板计算机、可穿戴设备、工作站、服务器、计算群集、刀片服务器、服务器群、或任何其他数据处理系统或计算设备。此外，由系统10实现的功能可以分布在通过一个或多个网络彼此互连的多个系统中，例如在客户端-服务器、对等、或其他网络布置中。由于计算机和网络的不断变化的性质，为了说明一些实施方式的目的，图1所示的系统10的描述仅旨在作为特定示例。系统10的许多其他配置可能具有比图1所示的计算机系统更多或更少的组件。

下文讨论的实施方式可以包括实现本文所公开的功能的各种组合的一个或多个方法。其他实施方式可以包括存储指令的非暂时性计算机可读存储介质，该指令可由处理器执行以执行诸如本文所述的一个或多个方法。其他实施方式还可以包括装置，其包括存储器和一个或多个处理器，该处理器可操作以执行存储在存储器中的指令以执行诸如本文所述的一个或多个方法的方法。

下文描述的各种程序代码可以基于在特定实施方式中实现该程序代码的应用来识别。然而，应当理解，以下的任何特定程序命名仅用于方便。此外，考虑到计算机程序可以被组织为例程、程序、方法、模块、对象等中的无限数量的方式，以及可以在驻留在典型的计算机中(例如，操作系统、库、API、应用、小应用等)的各种软件层之间分配程序功能的各种方式，应当理解，一些实施方式可以不限于本文所描述的程序功能的特定组织和分配。

此外，应当理解，可以由任何程序代码执行或在任何例程、工作流程等中执行的本文描述的各种操作可以被组合、拆分、重新排序、省略、顺序或并行执行和/或补充其他技术，并且因此，一些实施方式不限于本文描述的特定操作序列。

分布式语音输入处理环境

图2图示了示例分布式语音输入处理环境50，例如，用于与诸如在线搜索服务54的在线服务通信的支持语音的设备52一起使用。在下文所述的实施方式中，例如，支持语音的设备52(此处也称为支持语音的电子设备)被描述为诸如蜂窝电话或平板计算机的移动设备。然而，其他实施方式可以利用广泛多种其他支持语音的设备，因此下文中对移动设备的引用仅仅是为了简化下面的讨论的目的。无数其他类型的支持语音的设备可以使用本文描述的功能，包括例如膝上型计算机、手表、头戴式设备、虚拟现实或增强现实设备、其他可穿戴设备、音频/视频系统、导航系统、汽车和其他车载系统等。此外，许多这样的支持语音的设备可能被认为是资源受限的，因为这样的设备的存储器和/或处理能力可以基于技术、经济或其他原因而受限制，特别是当与可以将几乎无限制的计算资源用于各任务的在线服务或基于云的服务的能力相比时。一些这样的设备在这样的设备可以能够在至少一部分时间上“离线”并且不连接到在线服务的意义上也可以被认为是离线设备，例如预期这样的设备基于在普通使用下可能不时经历临时的网络连接中断。

一些实施方式中在线搜索服务54可以例如使用运行适合于处置来自多个用户的大量请求的软件的服务器群或高性能计算机的群集来被实现为采用云基础设施的基于云的服务。在所示实施方式中，在线搜索服务54能够查询一个或多个数据库以定位所请求的信息，例如以提供包括所请求信息的网站列表。在线搜索服务54可以不限于基于语音的搜索，并且还可以能够处置其他类型的搜索，例如基于文本的搜索、基于图像的搜索等。在其他实施方式中，在线系统不一定需要处置搜索，并且可以被限制为处置对于非搜索动作的基于语音的请求，例如设置警报或提醒，管理列表，经由电话、文本、电子邮件等发起与其他用户的通信，或执行可能经由语音输入而发起的其他动作。为了本公开的目的，基于语音的请求和其他形式的语音输入可以统称为基于语音的查询，而不管基于语音的查询是否寻求发起搜索、提出问题、发出命令等。因此，通常，例如，包括一个或多个词或短语的任何语音输入可以被认为是在所示实施方式的场境中的基于语音的查询。

在图2的实施方式中，由支持语音的设备52接收的语音输入由支持语音的应用(或“app”)56进行处理，其在某些实施方式中可以是搜索应用。在其他实施方式中，语音输入可以在支持语音的设备的操作系统或固件内处置。所示实施方式中的应用56包括语音动作模块58、在线接口模块60和呈现/同步模块62。语音动作模块58接收针对应用的语音输入，并协调对于支持语音的设备52的用户的语音输入的分析和一个或多个动作的执行。在线接口模块60提供与在线搜索服务54的接口，包括将语音输入转发到服务54并且接收对其的响应。呈现/同步模块62例如经由视觉显示器、说出的音频、或适合于特定的支持语音的设备的其他反馈接口来管理对用户的响应的呈现。此外，在一些实施方式中，模块62还处置与在线搜索服务54的同步，例如，每当响应或动作影响在在线搜索服务中为用户维护的数据(例如，在语音输入请求创建在基于云的日历中维护的约会的情况下)。

应用56依赖于各种中间件、框架、操作系统和/或固件模块来处置语音输入，包括例如流送语音转文本模块64和语义处理器模块66，其包括解析器模块68、对话管理器模块70和动作构建器模块72。

模块64接收例如以数字音频数据的形式的语音输入的音频记录，并将数字音频数据转换为一个或多个文本词或短语(此处也称为令牌)。在所示实施方式中，模块64还是流送模块，使得语音输入以逐个令牌的方式实时或近实时地被转换为文本，使得令牌可以有效地与用户的话音同时从模块64输出，并且因此先于用户讲出完整的说出的请求。模块64可以依赖于一个或多个本地存储的离线声学和/或语言模型74，它们共同建模语言中的音频信号和语音单元(phonetic unit)之间的关系连同语言中的词序列。在一些实施方式中，可以使用单个模型74，而在其他实施方式中，可以支持多个模型，例如支持多种语言、多个扬声器等。

尽管模块64将话音转换为文本，模块66尝试分辨由模块64输出的文本的语义或含义，以供制定适当的响应的目的。例如，解析器模块68依赖于一个或多个离线语法模型76来将文本映射到特定动作，并且识别约束这样的动作的执行的属性——例如对这样的动作的输入变量。在一些实施方式中，可以使用单个模型76，而在其他实施方式中，可以支持多个模型，例如，以支持不同的动作或动作域(即，相关动作的集合，相关动作诸如通信相关动作、搜索相关动作、音频/视频相关动作、日历相关动作、设备控制相关的动作等)。

作为示例，离线语法模型76可以支持诸如“设置提醒”的动作具有：指定要设置的提醒的类型的提醒类型参数、指定与提醒相关联的一个或多个项目的项目参数、以及指定激活提醒并提醒用户的时间的时间参数”的。解析器模块64可以接收诸如“remind me to(提醒我)”、“pick up(去买)”、“bread(面包)”和“after work(下班之后)”的令牌序列，并将令牌序列映射到设置提醒的动作，其中提醒类型参数设置为“shopping reminder(购物提醒)”，项目参数设置为“bread(面包)”，以及时间参数为“5:00pm”，使得当天下午5:00用户接收到提醒“buy bread(买面包)”。

解析器模块68还可以与管理与用户对话的对话管理器模块70结合工作。在这种场境下，对话指代与两个体之间的对话相似的语音输入和响应集。因此，模块70维持对话的“状态”，以使得能够在处置随后的语音输入时使用在先前的语音输入中从用户获得的信息。因此，例如，如果用户说“remind me to pick up bread(提醒我买面包)”，则可以生成响应来说“ok,when would you like to be reminded？(好的，你希望什么时候被提醒？)”以使得“after work(下班之后)”的随后的语音输入会被绑定回原始请求以创建提醒。

动作构建器模块72从解析器模块68接收表示语音输入解释的经解析文本，并且生成动作连同任何相关联的参数以供由支持语音的应用56的模块62进行处理。动作构建器模块72可依赖于一个或多个离线动作模型78，其包含用于根据经解析文本来创建动作的各个规则。在一些实施方式中，例如，动作可以被定义为函数F，使得F(I_T)＝A_u，其中T表示输入解释的类型，并且U表示输出动作的类型。因此，F可以包括被映射到彼此的多个输入对(T，U)，例如，作为f(i_t)＝a_u，其中i_t是类型t的输入原变量(proto variable)，并且a_u是输出模块实参或类型u的参数。应当理解，一些参数可以作为语音输入被直接接收，而一些参数可以以其他方式确定，例如基于用户的位置、人口统计信息，或者基于用户特有的其他信息。例如，如果用户要说“remind me to pick up bread at the grocery store(提醒我在杂货店买面包)”，则在没有诸如用户的当前位置、用户的已知工作和家之间的路线、用户的常去杂货店等的附加信息的情况下位置参数可能无法确定。

应当理解，在一些实施方式中，模型74、76和78可以组合成更少的模型或分成额外的模型，可以是模块64、68、70和72的功能。此外，就模型74-78本地存储在支持语音的设备52上并且由此当设备52不与在线搜索服务54通信时可以离线访问而言，该模型在这里称为离线模型，。

此外，在线搜索服务54例如使用依赖于各种声学/语言、语法和/或动作模型82的基于语音的查询处理器80通常包括用于处置语音输入的补充功能。可以理解，在一些实施方式，特别是当支持语音的设备52是资源受限设备时，基于语音的查询处理器80和由此使用的模型82可以实现比支持语音的设备52本地的语音处理功能更复杂和计算资源密集的语音处理功能。然而，在其他实施方式中，不能使用补充的在线功能。

在一些实施方式中，可以支持在线和离线功能二者，例如，使得每当设备与在线服务通信时使用在线功能，而当不存在连接时使用离线功能。在其他实施方式中，可以将不同的动作或动作域分配给在线和离线功能，而在其他实施方式中，仅当离线功能未能充分地处置特定语音输入时才可以使用在线功能。

例如，图3示出了语音处理例程100，该语音处理例程100可以由支持语音的设备52执行以处置语音输入。例程100以接收例如处于数字音频信号形式的语音输入来在框102中开始。在该实施方式中，进行初始尝试以将语音输入转发到在线搜索服务(框104)。如果不成功——例如由于缺乏连接性或缺乏来自在线搜索服务的响应，则框106将控制传递到框108以将语音输入转换为文本令牌(框108，例如使用图2的模块64来转换)，解析文本令牌(框110，例如使用图2的模块68来解析)，并从解析文本构建动作(框112，例如使用图2的模块72来构建)。然后将所得到的动作用于执行客户端侧呈现和同步(框114，例如使用图2的模块62来执行)，并且语音输入的处理完成。

返回到框106，如果尝试将语音输入转发到在线搜索服务成功，则框106绕过框108-112，并将控制直接传递到框114以执行客户端侧呈现和同步。语音输入的处理完成。应当理解，在其他实施方式中，如上所述，可以在在线处理之前尝试离线处理，以例如当语音输入可以在本地处理时避免不必要的数据通信。

在一些实施方式中，由支持语音的电子设备——例如其中的语音转文本模块——使用的语音转文本模型可以部分基于在来自用户的语音输入中检测到的语音动作的场境来被动态地更新，以更好地配置语音转文本模型以辨识可能与该场境相关的特定实体。

应当理解，各种支持语音的电子设备可以不同程度地依赖于在线和离线功能来实现基于语音的用户接口。例如，一些设备可以优先使用在线服务来执行与处理语音输入相关联的许多操作，这部分因为在线基于语音的查询处理器通常能够投入相对较大的处理资源来处置基于语音的查询。可以由在线服务执行的功能之一是语义处理，其处理从数字音频数据生成的文本元素(也称为令牌)，以尝试确定用户经由基于语音的查询所请求的动作。在一些实例下，甚至可以将数字音频信号提供给在线服务以使得距设备远程地来执行语义处理和语音转文本转换二者。

由于与这样的设备的连接性问题的可能性以及即使不存在连接性问题时也可能经历的一般时延，在某些实例下也可能期望包含本地或离线处理功能，包括在支持语音的电子设备内的语音转文本和语义处理功能二者。然而，在诸如移动设备的资源受限的环境中，与在线服务相比，在支持语音的电子设备上本地处置语音转文本和语义处理的能力可能会降低。另外，如上面结合图2所述，本地或离线处理也可以包含流送架构，以随用户说话而根据语音输入动态构建语音动作，而不是等到在尝试从语音输入导出含义之前已经接收到完整的语音输入，其在某些实例下可以减少与从由用户提交的语音输入生成语音动作相关联的时延。

已经发现，由于与本地处理功能相关联的资源限制而引起的一个特别有问题的领域涉及对专有名称的辨识，其通常以比其他语法词项更少的频率但更大的变化发生。对于在线服务，用于辨识数字音频信号中的词和短语的语音转文本模型和引擎可能是大的并且在计算上是昂贵的，以确保尽可能多地辨识不同的专有名称。然而，从实际的角度来看，许多支持语音的电子设备的资源限制可能会限制本地语音转文本功能支持的专有名称的数目。

本地或离线语音转文本功能——例如如在诸如图2中的设备50的流送语音转文本模块64的语音转文本模块中所实现的——通常可以依赖于存储在该设备中的一个或多个语音转文本模型，例如一个或多个离线声学/语言模型74。如上所述，这样的功能通常接收例如以数字音频数据的形式的语音输入的音频记录，并将数字音频数据转换成一个或多个文本令牌。这样的功能所使用的一个或多个模型——其中每一个可以被认为是语音转文本模型——通常建模语言中的音频信号和语音单元连同语言中的词序列之间的关系。在一些实施方式中，模型也可以是特定于特定语言的。在一些实施方式中，语音转文本模型可以是声学模型、语言模型、发音模型等，以及组合这样的模型中的一个或多个的功能的模型。在一些实施方式中，例如，语音转文本模型可以被实现为包括多个路径或路线的有限状态解码图。

为了生成数字音频数据中的所说的词或短语的文本令牌，该词或短语通常必须在由语音转文本模块使用的一个或多个模型的词汇表内。因此，一般而言，模型的大小以及与使用模型(例如遍历有限状态解码图)相关联的处理开销随着模型支持的词汇的增加而增加。因此，鉴于一些支持语音的电子设备的资源限制，本地或离线语音转文本功能支持的词汇同样受到限制。

然而，已经发现，在一些实施方式中可以使用在一些支持语音的电子设备中使用的流送架构来动态地更新一个或多个本地或离线语音转文本模型，以基于部分处理的语音输入来以场境敏感的方式有效地扩展这样的模型的支持的词汇，并且由此使得这样的模型能够更好地辨识随后很可能被包括在这样的语音输入内的特定实体。在一些实施方式中，例如，流送语义处理器可以将反馈提供给流送语音转文本模块，以使得由语音转文本模块使用的一个或多个模型能够被动态地更新以辨识与部分完成的语音动作的当前场境相关的一个或多个实体。

考虑例如，用户希望向朋友拨打电话的场景，并且说出语音输入“call Seamus(呼叫Seamus)”。在资源受限的支持语音的电子设备中，设备中的本地语音转文本功能在其词汇表中可能通常不包括姓名“Seamus”，并且因此可无法在没有在线协助的情况下辨识该姓名，或者可能不正确地辨识姓名(例如，作为短语“Shame us”)。然而，在一些实施方式中，可以依赖于流送架构，使得在对词“call”进行语音转文本和语音处理时，可以由语义处理功能确定用户打算用移动设备进行呼叫，并且响应于该确定，可以预测联系人的姓名可能在语音输入中即将到来。因此，语音转文本模型可以被动态地更新以特定地辨识用户的联系人列表中的联系人的姓名，由此增加在语音转文本转换期间正确辨识语音输入中的即将到来的姓名(“Seamus”)的可能性。

因此，各个实施方式可以基于从语音输入的一部分导出的场境敏感信息来有效地和动态地扩大由语音转文本模块支持的词汇表，以便提高在处理语音输入的另一部分时模块的辨识能力。

虽然语音转文本模型可以以多种替选方式被动态地更新，但是图4图示了示例动态可更新的语音转文本模型150。例如，模型150可以实现有限状态解码图，其定义将数字音频数据映射到文本词或短语的多个路径。在一个实施方式中，模型150可以包括选择性地耦合到多个场境敏感图154的基本图152。基本图152可以支持包括用户很可能说的最常见词和短语的支持语音的电子设备的主词汇表。另一方面，场境敏感图154可以包括一个或多个词或短语的路径，这里也称为场境敏感实体，其在被并入模型150时，对于特定场境有效地扩充设备的本地语音转文本模块的词汇表。图154可以与图形152整合的方式可以在不同的实现方式中变化，例如，基于将路径编码至图中的方式。此外，在一些实施方式中，可以使用公共界面来使得场境敏感的图154能够被选择性地和动态地添加到模型150中并从模型150中移除，并且在一些实施方式中，各个算法(例如，最近使用的算法)可以用于交换场境敏感图，并且从而将模型维持在与设备的资源约束一致的总体大小和复杂度。

在这方面，在一些实施方式中场境可以指代语音动作的场境敏感参数，例如从语音输入的初始部分导出的部分构建的语音动作。在一些实施方式中，语音输入的第一部分可以由设备本地处理以确定语音动作的类型或类别，并且然后基于所确定的类型或类别，该语音动作的一个或多个参数可被评估以确定该参数是否是场境敏感参数，该场境敏感参数在本公开的场境中是针对其可以存在适合于增强本地语音转文本模型的场境敏感实体(即，词和/或短语)的参数。

场境敏感图或适用于动态更新语音转文本模型的其他数据——以下称为语音转文本模型更新数据——可以以多种方式在不同实施方式中获得。例如，在一些实施方式中，语音转文本模型更新数据可以本地存储在支持语音的电子设备中，并根据需要加载到模型中。在一些实施方式中，可以从在线服务检索或预取语音转文本模型更新数据，并根据需要加载到模型中。在一些实施方式中，语音转文本模型更新数据可以由支持语音的电子设备或在线服务动态生成。此外，在一些实施方式中，可以通过动态地训练模型来来动态地更新语音转文本模型以辨识各个场境敏感实体。此外，应当理解，在一些实施方式中语音转文本模型更新数据可以被压缩以最小化存储空间和/或通信成本，以及在动态更新语音转文本模型时被解压缩。

在一些实施方式中，可以执行对由支持语音的电子设备接收的语音输入的至少一部分的本地处理，以利用支持语音的电子设备在完全接收到语音输入之前动态构建语音动作的至少一部分。在本地处理期间，可以做出关于语音动作是否与场境敏感参数相关联的确定，并且响应于确定语音动作与场境敏感参数相关联，可以发起对由支持语音的电子设备使用的本地语音转文本模型的动态更新，以促进辨识与场境敏感参数相关联的多个场境敏感实体。

此外，在一些实施方式中，可以用支持语音的电子设备接收语音输入，并且可以在支持语音的电子设备中使用本地语音转文本模型来本地执行语音转文本转换以生成语音输入的第一部分的文本，可以在生成语音输入的第一部分的文本之后动态地更新本地语音转文本模型，以促进辨识和与语音输入相关联的语音动作的场境敏感参数相关联的多个场境敏感实体，并且然后语音转文本转换可以在支持语音电子设备中使用动态更新的本地语音转文本模型本地执行以生成语音输入的第二部分的文本。

可以动态地并入到语音转文本模型中的场境敏感实体的类型通常将根据语音动作以及因此与其相关联的任何场境——例如一个或多个场境敏感参数——而变化。在一些实施方式中，例如，语音动作可以是对播放媒体项目的请求，并且这样的动作的参数中的一个或多个可以是用于识别一个或多个媒体项目的各种类型的媒体项目标识符，例如通过基于标题、艺术家、流派、播放列表、专辑、演员、或其他标识符来请求回放歌曲、视频、节目、电影、或其他媒体项目。因此，可以动态地并入到语音转文本模型中的场境敏感实体可以基于可能由用户说出的那些实体，并且因此可以例如基于存储在设备上的媒体项目、用户的在线或离线库中的媒体项目、用户先前购买、播放、或查看的媒体项目、基于用户购买和/或回放历史等的分析与用户相似或推荐给用户的媒体项目等。

在一些实施方式中，语音动作可以是与联系人(例如，经由电话呼叫、文本消息、电子邮件、聊天消息、视频呼叫等)通信的请求，以及这样的动作的参数中的一个或多个可以是用于与个体通信的各种类型的联系人标识符，例如名字、姓氏、昵称、关系标识符等。可以动态地并入到语音转文本模型中的场境敏感实体因此可以基于用户潜在地可以说出的那些实体，例如，从本地存储在用户设备上的联系人收集或经由在线服务可访问。

此外，在一些实施方式中，语音动作可以是导航动作、取决于位置的搜索、或可以与取决于位置的参数相关联的其他动作。因此，可以动态地并入到语音转文本模型中的场境敏感实体可以基于用户潜在地可以说出的那些实体，例如布置在预定位置——例如支持语音的电子设备的当前位置——附近的各种兴趣点的标识符，其可以从设备上的本地数据库或从在线服务检索。在一个示例实施方式中，例如，用户可以说出“make a reservationat(在…进行预约)”的请求，并且在确定相关联的语音动作是在餐厅进行预约的请求时，可以将该设备的当前位置转发到在线服务以预取标识当前位置附近的餐馆的语音转文本模型更新数据、预取不同菜肴的标识符等。可以以类似的方式处置其他语音动作和其他场境敏感参数。

现在转向图5至9，，公开了用于在图2的设备50中使用流送架构处理语音输入的另一示例实施方式并且包括用于对本地语音转文本模型执行动态和场境敏感更新的功能的示例实施方式。特别地，公开了可由语音动作模块58、流送语音转文本模块64、和语义处理器模块66执行的多个例程。

例如，图5图示了响应于接收到语音输入的至少一部分而由语音动作模块58执行的示例语音输入处理例程180。例程180在框182中由以下开始：发起在线处理，例如通过向在线服务——例如向在线搜索服务54的基于语音的查询处理器80发送请求，其指示语音单元将从设备中即将到来。接下来，在框184中，与语音输入的第一部分相关联的数字音频数据被流送到在线服务和离线语音转文本模块(流送语音转文本模块64)二者。框186确定整个语音输入是否已被处理，并且如果否，则将控制返回到框184以将附加的数字音频数据流送到在线服务和离线语音转文本模块。一旦已经处理了整个语音输入，则例程180完成。

应当理解，在一些实施方式中，在线处理可能不被发起，并且在一些实施方式中，仅当没有网络连接存在时才能执行离线处理。在其他实施方式中，语音转文本转换可以本地执行，使得不同于将数字音频数据流送到在线服务，将由语音输出到文本模块输出的文本令牌流送到在线服务。

图6接下来图示由流送语音转文本模块64执行的示例离线语音转文本例程200。如上所述，模块64从语音动作模块58接收表示语音输入的部分的数字音频数据，并且因此，例程200在框202中通过开始从模块58接收语音输入来开始。框204生成并输出在语音输入的数字音频数据中辨识并且基于驻留在设备中的一个或多个语音文本模型74的文本令牌(例如，词和/或短语)。然后，框206确定是否已经处理了整个语音输入，例如，何时没有进一步的语音输入的数字音频数据仍然未处理。当更多的数字音频数据仍然未处理时，框206将控制返回到框204以生成附加的文本令牌，并且当整个语音输入已被处理时，框206将控制传递到框208以向例如语义处理器模块66报告语音输入的结束。在其他实施方式中，语音输入的结束可以作为替代由语音动作模块58或设备中的其他功能报告。然后例程200完成。

图7接下来图示由语义处理器模块66响应于从流送语音转文本模块64接收的文本令牌而执行的示例处理文本令牌例程210。例程210通过确定模块66当前是否正在构建语音动作来在框212中开始。如果否，则控制传递到框214以初始化新的动作对象。在框214中初始化新的动作对象之后，或者如果框212确定动作当前已经处于构建的过程中，则框216将文本令牌添加到与该动作相关联的文本令牌集。框218解析用于动作的文本令牌，并且框220尝试从解析的文本构建动作。如上所述，在所图示实施方式中，采用流送架构，其尝试基于语义处理器模块当前可用的信息来逐步和动态地构建动作。因此，在一些实施方式中，随着附加的文本令牌被提供给语义处理器模块，框218和220可以对动作进行构建、修改、精细化、修改、校正等。此外，框218和220可以在一些实施方式中确定正在请求什么动作，确定用于动作的一个或多个参数的值，并且甚至确定为了完成动作何时需要附加数据。

接下来，框222基于当前可用的信息来确定是否应当动态地更新语音转文本模型。例如，如果语音动作被确定为属于对于动态更新可能有用的类型或类别(例如，对于上述媒体播放、通信联系人、和基于位置的动作)，则框222可以发起动态更新。作为另一示例，语音动作的一个或多个参数可以指示用于改善语音转文本模型的机会。

如果不做出执行动态更新的决定，则框222将控制传递到框224以在设备上执行客户端侧呈现。例如，客户端侧呈现可以包括在设备的显示器上显示用户所说的文本，基于对正在处理的文本令牌所得到的部分构建的动作的更新或者可能适合于特定设备的其他音频和/或视觉更新来修改先前显示的文本。然后为该文本令牌完成例程210。。

返回到框222，如果做出执行动态更新的决定，则控制传递到框226以确定是否需要在线信息来执行动态更新。如上所述，在一些实例下，语音转文本模型更新数据可以本地存储在设备上，或者可以从设备上的其他数据生成，由此可以不需要在线信息来执行动态更新。因此，如果不需要在线信息，则框226将控制传递到框228以例如通过以更新请求的形式将反馈传输给流送语音转文本模块64来发起对由模块64使用的语音转文本模型的动态更新。然后，控制传递到框224以执行客户端侧呈现，并且例程210完成。然而，如果需要在线信息，则框226作为替代将控制传递到框230，以向在线服务发送查询以预取来自在线服务的语音转文本模型更新数据，其然后进行到框228和224以发起动态更新和执行客户端侧呈现。然后，例程210完成。

图8接下来图示了可以由流送语音转文本模块64响应于来自语义处理器模块66的通知来执行的示例更新语音转文本模型例程240。例程240在框242中开始于检索和/或生成相关场境敏感实体列表的语音转文本模型更新数据，无论其来自本地存储还是在线存储。然后，框244确定语音转文本模型中是否存在足够的可用存储空间，例如，分配给模型的存储空间的量。如果是，则控制传递到框246以例如通过训练模型、将与实体相关联的路径包括到模型中、或以其他方式动态地更新语音转文本模型以辨识相关场境敏感实体的列表。然后，例程240完成。

返回到框244，如果不存在足够的可用存储空间，则控制传递到框248以例如通过丢弃与其他场境敏感实体相关的模型数据来释放语音转文本模型中的存储空间。可以使用各种算法来确定如何释放存储空间。例如，在一些实施方式中可以使用最不新近使用(least recentlyused)或最不新近添加(least recently added)算法来丢弃最近未被使用或被添加到模型中的实体的模型数据。控制然后传递到框246以更新语音转文本模型，并且例程240完成。

图9接下来图示出示例接收输入结束例程250，其可以由语义处理器模块66响应于接收到输入结束指示(例如，如图6的框208中生成)而被执行。例程250在框252中开始于等待(如果需要)所有文本令牌来完成例程210的处理，从而指示语义处理器已经处理了语音输入的所有文本令牌。然后，框254确定该动作是否准备好完成。在一些实施方式中，如果确定为了完成动作而不需要附加的本地或在线处理，则可以确定动作准备好完成。

如果是，则控制传递到框256以完成动作，并且例程250完成。如果否，则控制传递到框258以对于所需的附加数据查询在线服务以完成该动作。框260确定是否已经在适当的时间内接收到在线响应，并且如果是，则将控制传递到框262以基于在线响应提供的数据来完成动作。例如，如果在线响应包括在线语音动作，则框262可以通过执行在线语音动作所指定的操作来完成动作。否则，如果在线响应包括由设备请求的附加信息，则框262可以通过将附加信息并入由语义处理器模块66构建的部分构建的动作中来完成动作，以生成完全构建的语音动作。

一旦在框262中完成动作，则例程250完成。另外，返回到框260，如果没有及时接收到响应，则控制传递到框264，以向用户呈现动作失败，例如通知用户所请求的动作未完成，并终止例程230。

尽管本文已经描述和示出了若干实施方式，但是可以利用用于执行功能和/或获得结果和/或本文所述的一个或多个优点的各种其他手段和/或结构，并且每个这样的变化和/或修改被认为在本文描述的实施方式的范围内。更一般而言，本文描述的所有参数、尺寸、材料、和配置意图是示例性的，并且实际参数、尺寸、材料和/或配置将取决于使用教导的具体一个或多个应用。本领域技术人员将认识到或者能够使用不超过常规实验来确定本文所述的具体实施方式的许多等同物。因此，应当理解，前述实施方式仅通过示例的方式给出，并且在所附权利要求书及其等同物的范围内，可以以与具体描述和要求保护的方式不同的方式来实践实施方式。本公开的实施方式涉及本文所述的每个单独特征、系统、制品、材料、工具、和/或方法。此外，如果这些特征、系统、制品、材料、工具、和/或方法不相互矛盾，则两个或更多个这样的特征、系统、制品、材料、工具、和/或方法的任何组合都包括在本公开的范围内。

Claims

1.一种方法，包括：

利用支持语音的电子设备接收语音输入；以及

在所述支持语音的电子设备中，并响应于接收所述语音输入的至少一部分：

执行对所述语音输入的至少一部分的本地处理以在利用所述支持语音的电子设备完全接收所述语音输入之前动态构建语音动作的至少一部分；

在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联；以及

响应于确定所述语音动作与所述场境敏感参数相关联，发起对由所述支持语音的电子设备使用的本地语音转文本模型的动态更新以促进辨识与所述场境敏感参数相关联的多个场境敏感实体。

2.根据权利要求1所述的方法，其中，执行所述本地处理包括：

使用所述支持语音的电子设备的流送语音转文本模块将所述语音输入的数字音频信号转换为文本，其中所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌；以及

使用所述支持语音的电子设备的流送语义处理器从所述多个文本令牌中的至少一部分动态构建所述语音动作的所述一部分。

3.根据权利要求2所述的方法，其中，确定所述语音动作是否与所述场境敏感参数相关联由所述流送语义处理器执行，并且其中，发起对所述本地语音转文本模型的所述动态更新包括将来自所述流送语义处理器的数据传输到所述流送语音转文本模块以发起对所述本地语音转文本模型的所述动态更新。

4.根据权利要求1所述的方法，其中，所述本地语音转文本模型包括至少一个解码图，并且其中，发起对所述本地语音转文本模型的所述动态更新包括将解码路径添加到与所述多个场境敏感实体中的每一个相对应的所述至少一个解码图。

5.根据权利要求1所述的方法，进一步包括：响应于确定所述语音动作与所述场境敏感参数相关联，从在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据，其中发起对所述本地语音转文本模型的动态更新包括传输所预取的语音转文本模型更新数据以动态地更新所述本地语音转文本模型。

6.根据权利要求1所述的方法，其中，在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括：确定所述语音动作是否是播放媒体项目的请求，其中，所述场境敏感参数包括用于识别所述媒体项目的媒体项目标识符，并且其中，所述多个场境敏感实体标识能够由所述支持语音的电子设备播放的多个媒体项目。

7.根据权利要求1所述的方法，其中，在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括：确定所述语音动作是否是与联系人通信的请求，其中，所述场境敏感参数包括用于发起与所述联系人的通信的联系人标识符，并且其中，所述多个场境敏感实体标识能够由所述支持语音的电子设备访问的多个联系人。

8.根据权利要求1所述的方法，其中，所述场境敏感参数是取决于位置的参数，并且其中，所述多个场境敏感实体标识布置在预定位置附近的多个兴趣点。

9.根据权利要求8所述的方法，其中，所述预定位置包括所述支持语音的电子设备的当前位置。

10.根据权利要求9所述的方法，进一步包括：响应于确定所述语音动作与所述场境敏感参数相关联，将所述当前位置传输到在线服务并从所述在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据。

11.一种方法，包括：

利用支持语音的电子设备接收语音输入；

在所述支持语音的电子设备中使用本地语音转文本模型本地执行语音转文本转换以生成所述语音输入的第一部分的文本；

在生成所述语音输入的所述第一部分的文本之后动态地更新所述本地语音转文本模型，以促进辨识和与所述语音输入相关联的语音动作的场境敏感参数相关联的多个场境敏感实体；以及

在所述支持语音的电子设备中使用所动态更新的本地语音转文本模型本地执行语音转文本转换，以生成所述语音输入的第二部分的文本。

12.根据权利要求11所述的方法，其中，执行所述语音转文本转换包括：使用所述支持语音的电子设备的流送语音转文本模块将所述语音输入的数字音频信号转换为文本，其中，所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌，所述方法进一步包括：在利用所述支持语音的电子设备完全接收到所述语音输入之前，使用所述支持语音的电子设备的流送语义处理器从所述多个文本令牌的至少一部分动态构建所述语音动作的至少一部分。

13.根据权利要求12所述的方法，其中，响应于确定所述语音动作与所述场境敏感参数相关联，由所述流送语义处理器发起动态更新所述本地语音转文本模型。

14.一种装置，包括存储器和一个或多个可操作为执行存储在所述存储器中的指令的处理器，所述装置包括指令以进行以下操作：

利用支持语音的电子设备接收语音输入；以及

15.根据权利要求14所述的装置，其中，所述指令包括：

实现流送语音转文本模块的第一指令，所述流送语音转文本模块将所述语音输入的数字音频信号转换为文本，其中所述第一指令从所述数字音频信号动态地生成多个文本令牌；以及

实现流送语义处理器的第二指令，所述流送语义处理器从所述多个文本令牌中的至少一部分动态构建所述语音动作的所述一部分。

16.根据权利要求15所述的装置，其中，实现所述流送语义处理器的指令确定所述语音动作是否与所述场境敏感参数相关联，并且其中，实现所述流送语义处理器的指令将数据从所述流送语义处理器传输到所述流送语音转文本模块以发起对所述本地语音转文本模型的所述动态更新。

17.根据权利要求15所述的装置，进一步包括进行以下操作的指令：响应于确定所述语音动作与所述场境敏感参数相关联，从在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据，其中，发起对所述本地语音转文本模型的所述动态更新的指令传输所预取的语音转文本模型更新数据以动态地更新所述本地语音转文本模型。

18.根据权利要求15所述的装置，其中，在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联的指令确定所述语音动作是否是播放媒体项目的请求，其中，所述场境敏感参数包括用于识别所述媒体项目的媒体项目数据，并且其中，所述多个场境敏感实体包括能够由所述支持语音的电子设备播放的多个媒体项目的标识符。

19.根据权利要求15所述的装置，其中，在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联的指令确定所述语音动作是否是与联系人通信的请求，其中，所述场境敏感参数包括用于发起与所述联系人的通信的联系人数据，并且其中，所述多个场境敏感实体包括能够由所述支持语音的电子设备访问的多个联系人的标识符。

20.根据权利要求15所述的装置，其中，所述场境敏感参数是取决于位置的参数，其中，所述多个场境敏感实体包括布置在预定位置附近的多个兴趣点的标识符，所述装置进一步包括进行以下操作的指令：响应于确定所述语音动作与所述场境敏感参数相关联，将所述预定位置传输到在线服务并从所述在线服务预取与布置在所述预定位置附近的所述多个感兴趣点的标识符相关联的语音转文本模型更新数据。

21.一种存储计算机指令的非暂时计算机可读存储介质，所述计算机指令能够由一个或多个处理器执行以执行方法，所述方法包括：

利用支持语音的电子设备接收语音输入；以及