CN115552515A

CN115552515A - 用于热词/关键词检测的用户中介

Info

Publication number: CN115552515A
Application number: CN202080100644.1A
Authority: CN
Inventors: 亚历克斯·克拉丘; 尼兰詹·苏布拉马尼亚; 艾莎尼·夏
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-09-03
Filing date: 2020-12-15
Publication date: 2022-12-30
Also published as: EP4118644A1; US11521604B2; WO2022050973A1; AU2024200652A1; JP2023530048A; AU2020466345A1; US20230101572A1; US20220068268A1; KR20220166848A; AU2020466345B2; US12027160B2

Abstract

本文中描述了用于改善在确定是否要启动(多个)自动化助理功能时使用的(多个)机器学习模型的性能和阈值的技术。一种方法包括：经由客户端设备的一个或多个麦克风接收捕捉用户的口头话语的音频数据；使用机器学习模型处理音频数据以生成预测输出，所述预测输出指示音频数据中存在一个或多个热词的概率；确定所述预测输出满足次级阈值，所述次级阈值指示所述音频数据中存在所述一个或多个热词的程度比初级阈值更低；响应于确定预测输出满足次级阈值，提示用户指示口头话语是否包括热词；从用户接收对提示的响应；以及基于所述响应调整初级阈值。

Description

用于热词/关键词检测的用户中介

背景技术

人类能够使用交互式软件应用参与人机对话，交互式软件应用在这里被称为“自动化助理”(也称为“数字代理”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话代理”等)。例如，人类(当他们与自动化助理交互时，可以被称为“用户”)可以使用口头自然语言输入(即，话语)向自动化助理提供命令和/或请求，在一些情况下，可以通过提供文本(例如，键入的)自然语言输入，和/或通过触摸和/或(多个)无话语的物理运动(例如，手势、眼睛注视、面部运动等)，将口头自然语言输入转换成文本，然后进行处理。自动化助理通过提供响应用户界面输出(例如，听觉和/或视觉用户界面输出)、控制一个或多个智能设备、和/或控制实现自动化助理的设备的一个或多个功能(例如，控制设备的(多个)其他应用)来响应请求。

如上所述，许多自动化助理被配置成经由口头话语进行交互。为了保护用户隐私和/或节省资源，自动化助理避免基于经由实现(至少部分实现)自动化助理的客户端设备的(多个)麦克风检测到的音频数据中存在的所有口头话语来执行一个或多个自动化助理功能。相反，基于口头话语的某些处理仅响应于确定某些条件存在而发生。

例如，包括自动化助理和/或与自动化助理接口连接的许多客户端设备包括热词检测模型。当这种客户端设备的(多个)麦克风未被禁用时，客户端设备能够使用热词检测模型来连续处理经由(多个)麦克风检测到的音频数据，以生成指示是否存在一个或多个热词(包括多词短语)的预测输出，例如“Hey Assistant(嘿助理)”、“OK Assistant(好的助理)”和/或“Assistant(助理)”。当预测输出指示存在热词时，在阈值时间量内跟随的任何音频数据(并且可选地被确定为包括话音活动)能够由一个或多个设备上的和/或远程自动化助理组件来处理，诸如(多个)语音识别组件、(多个)话音活动检测组件等。此外，能够使用(多个)自然语言理解引擎来处理(来自(多个)语音识别组件的)所识别的文本，和/或能够基于自然语言理解引擎输出来执行(多个)动作。该(多个)动作能够包括例如生成和提供响应和/或控制一个或多个应用和/或智能设备。然而，当预测输出指示不存在热词时，对应的音频数据将被丢弃而不进行任何进一步的处理，从而节省资源和保留用户隐私。

一些自动化助理附加地或替代地实现能够被启用的继续对话模式。当被启用时，继续对话模式能够在针对自动化助理的先前口头话语的阈值时间量内和/或在自动化助理已经基于先前口头话语执行了(多个)动作之后的阈值时间量内处理经由客户端设备的(多个)麦克风检测到的任何口头输入。例如，用户能够最初调用自动化助理(例如，经由热词、硬件或软件按钮等)并提供“turn on living room lights(打开起居室灯)”的初始话语，并且然后不久之后提供“turn on the kitchen lights(打开厨房灯)”的后续话语。当继续对话模式被启用时，自动化助理将对后续话语采取动作，而无需用户再次调用助理。

继续对话模式能够区分旨在由自动化助理处理的用户的后续话语和不旨在这样处理的(多个)话语(例如，改为针对另一个人的话语)。在这样做时，能够使用机器学习模型来处理捕捉后续话语的音频数据，可选地连同来自后续话语和/或其(多个)表示的识别文本(例如，基于识别文本生成的自然语言理解数据)。基于该处理生成预测输出，并且该预测输出指示后续话语是否旨在用于自动化助理。只有当预测输出指示后续话语是旨在用于自动化助理的时，才激活进一步的自动化助理功能。否则，不激活其它的(多个)自动化助理功能，并且丢弃对应于后续话语的数据。其它(多个)功能能够包括，例如，进一步验证后续话语是旨在用于自动化助理的和/或基于该后续话语执行(多个)动作。

预测输出指示(多个)自动化助理功能是否被激活的上述和/或其他机器学习模型(例如，下面描述的附加机器学习模型)在许多情况下表现良好。然而，仍然存在基于(多个)机器学习模型的错误否定确定和错误肯定确定的发生。

在错误否定的情况下，预测输出指示不激活(多个)自动化助理功能，尽管被处理以生成预测输出的音频数据(和/或其他数据)适于激活这些功能。例如，假设使用热词检测模型生成的预测输出是概率，并且在激活(多个)自动化助理功能之前，该概率必须大于0.85。如果口头话语确实包括热词，但是基于处理音频数据生成的预测输出仅为0.82，则该(多个)功能将不会被激活，并且这将被认为是错误否定。错误否定的出现能够延长人/自动化助理的交互，迫使人重复最初旨在激活自动化助理功能的话语(和/或执行其他动作)。

在错误肯定的情况下，预测输出决定激活(多个)自动化助理功能，尽管被处理以生成预测输出的音频数据(和/或其他传感器数据)不适于激活这些功能。例如，假设使用热词检测模型生成的预测输出是一个概率，并且在激活(多个)自动化助理功能之前，该概率必须大于0.85。如果口头话语不包括热词，但是基于处理音频数据生成的预测输出是0.86，则(多个)功能仍将被激活，并且这将被认为是错误肯定。除了隐私问题之外，错误肯定的发生能够由于不必要地激活(多个)功能而浪费网络和/或计算资源。

发明内容

本文中公开的一些实施方式针对通过自动调整用于确定是否要启动(多个)自动化助理功能的阈值来改善(多个)机器学习模型的性能。如本文中更详细描述的，这种机器学习模型能够包括例如热词检测模型和/或其他机器学习模型。各种实施方式在客户端设备处使用本地存储在客户端设备处的机器学习模型，基于处理音频数据和/或其他传感器数据来生成预测输出。这些实施方式进一步基于预测输出来决定是否启动一个或多个自动化助理功能。例如，该决定能够基于预测输出是否满足阈值。此外，这些实施方式在客户端设备本地并基于分析其它的用户界面输入和/或其他数据来确定基于预测输出做出的决定是否正确。当确定决定是不正确的(即，决定是错误否定或错误肯定)时，那些实施方式自动调整阈值。

在一些实施方式中，自动调整的阈值可以持续并被用于关于是否启动一个或多个自动化助理功能的一个或多个后续决定。例如，可以使用自动调整的阈值，直到根据本文中描述的一个或多个方法做出进一步调整自动调整的阈值的决定(例如，响应于错误否定或错误肯定)。在一些实施方式中，自动调整的阈值可以随时间被动态调整，以适应用户和/或环境条件(例如，引入或移除噪声制造者或其他背景噪声)。这能够通过减少基于预测输出的错误否定和/或错误肯定的发生以及结果作为响应而浪费的计算资源来改善性能。

在示例中，当用户在夏季月份期间开始使用诸如风扇的有噪声的电器时，可以自动降低阈值(例如，响应于在用户开始使用有噪声的电器之后发生的一个或多个错误否定)。自动调整阈值的过程可以是迭代过程，其中通过基于错误肯定和/或错误否定的重复调整来微调阈值。在该示例中，在用户开始使用有噪声的电器之后，阈值可以基于多个错误否定被自动降低多次，然后在阈值已经被降低多次之后，阈值基于错误肯定被自动升高。自动调整的阈值可以持续，直到基于错误肯定和/或错误否定确定进一步的调整。当用户停止使用有噪声的电器时(例如，在夏季结束时)，阈值可以自动升高(例如，响应于在用户停止使用有噪声的电器之后发生的一个或多个错误肯定)。

本文中所描述的各种实施方式是相对于被训练来检测诸如“好的电脑”、“嘿电脑”和/或(多个)其他调用热词的(多个)助理调用热词的热词检测模型来描述的。在这些实施方式中的一些中，当检测到任何对应的(多个)热词时，能够激活语音识别来处理该热词之后的任何说出的(多个)词。除了调整被训练来检测(多个)助理调用热词的热词检测模型的阈值之外或作为其替代，一些实施方式能够调整被训练来检测(多个)调用热词之外的热词并且至少被选择性激活的(多个)热词检测模型的(多个)阈值。在这些实施方式中的一些中，当检测到这种模型的任何对应的(多个)热词时，能够执行对应的动作，可选地不执行任何语音识别。作为一个示例，热词模型能够被训练来检测“停止”和/或“暂停”，并且至少当在客户端设备处渲染特定音频时，诸如渲染定时器警报时，能够在客户端设备处被激活。响应于检测到“停止”和/或“暂停”，能够执行暂停渲染特定音频的对应动作。

在一些实施方式中，当确定决定不正确时，基于将预测输出与真实情况输出(例如，满足阈值的真实情况输出)进行比较，在客户端设备本地生成梯度。在一些实施方式中，由客户端设备的一个或多个处理器使用所生成的梯度来基于所生成的梯度更新机器学习模型的一个或多个权重。例如，可以使用反向传播和/或(多个)其他技术来基于梯度更新权重。这能够改善本地存储在客户端设备的机器学习模型的性能，基于使用机器学习模型生成的预测输出来减少错误否定和/或错误肯定的发生。此外，在处理捕捉口头话语的音频数据的(多个)机器学习模型的情况下，这能够改善设备上的机器学习模型用于客户端设备的(多个)用户的(多个)属性的性能，诸如音调、语调、口音和/或其他语音特征。

在一些实施方式中，客户端设备通过网络将生成的梯度附加地或替代地传输到远程系统。在那些实施方式中，远程系统利用所生成的梯度以及来自附加客户端设备的附加梯度，使用联合学习技术更新对应的全局机器学习模型的全局权重。基于确定对应的决定是不正确的，能够在对应的附加客户端设备本地类似地生成来自附加客户端设备的附加梯度。在各种实施方式中，客户端设备传输所生成的梯度，而不传输用于生成被确定为不正确的预测输出的任何数据(例如，音频数据和/或其他传感器数据)，并且不传输用于确定预测输出不正确的任何数据(例如，进一步的用户界面输入)。远程系统能够在使用联合学习技术更新全局模型时利用生成的梯度，而不参考或使用这种数据。仅传输梯度比传输用于生成预测输出和确定预测输出不正确的更大数据量的数据利用更少的网络资源。此外，梯度的传输保护了个人数据的隐私和安全，因为在生成预测输出和确定预测输出不正确时使用的数据不可从梯度中导出。在一些实施方式中，能够利用一种或多种差分隐私技术(例如，添加高斯噪声)来进一步确保这种数据不可从梯度中导出。

在远程系统更新语音识别模型的全局权重的实施方式中，远程系统此后能够向客户端设备提供更新后的全局权重，以使客户端设备用更新后的全局权重替换它们的设备上的机器学习模型的权重。在一些实施方式中，远程系统能够附加地或替代地向客户端设备提供更新后的机器学习模型，以使得客户端设备用更新后的全局机器学习模型替换它们的设备上的机器学习模型。因此，通过利用更新后的全局权重或更新后的全局机器学习模型，改善了设备上的性能。

能够利用各种技术来确定关于是否启动当前休眠的(多个)自动化助理功能的决定是不正确的。在一些实施方式中，确定决定不正确能够基于在利用传感器数据做出决定之后在客户端设备处接收到的其它的用户界面输入。例如，用户可以响应于提示或者在没有提示的情况下，指示口头话语是否包括热词。在其他实施方式中，确定决定不正确能够基于在用于做出决定的传感器数据之后在客户端设备处接收到的、与决定相矛盾(显式或隐式)的其它的用户界面输入。在那些实施方式中，确定决定不正确能够基于接收到用于做出决定的传感器数据和接收到进一步的用户界面输入之间的持续时间。例如，确定决定不正确的可能性能够随着持续时间的减少而增加，和/或确定决定不正确可以视持续时间小于阈值而定。在那些实施方式中，确定决定不正确能够附加地或替代地基于所确定的其它的用户界面输入和用于做出决定的传感器数据之间的相似性的度量(确定决定不正确的可能性随着相似性的度量所指示的相似性的增加而增加)。例如，相似性的度量能够基于持续时间相似性，该持续时间相似性基于进一步的用户界面输入的持续时间和用于做出确定的传感器数据的比较。此外，例如，当其它的用户界面输入是附加的口头话语并且用于做出确定的传感器数据包括先前的口头话语时，相似性的度量能够根据基于口头话语和附加的口头话语的话音特征的比较的话音相似性和/或基于口头话语和附加的口头话语的识别文本的比较的文本相似性。

在各种实施方式中，由一个或多个处理器实现的方法可以包括：经由客户端设备的一个或多个麦克风接收捕捉用户的口头话语的音频数据；使用机器学习模型处理音频数据以生成预测输出，该预测输出指示音频数据中存在一个或多个热词的概率；确定预测输出满足次级阈值，所述次级阈值指示所述音频数据中存在所述一个或多个热词的程度比初级阈值更低；响应于确定预测输出满足次级阈值，提示用户指示口头话语是否包括热词；从用户接收对提示的响应；以及基于该响应调整初级阈值。

在一些实施方式中，可以响应于预测输出满足初级阈值来启动自动助理功能。在一些实施方式中，机器学习模型可以是热词检测模型，并且联合学习可以用于基于响应来训练热词检测模型。

在一些实施方式中，预测输出不能满足初级阈值；该响应指示口头话语包括热词；并且基于该响应调整初级阈值包括降低初级阈值。在一些实施方式中，预测输出满足初级阈值；该响应指示口头话语不包括热词；并且基于该响应调整初级阈值包括提高初级阈值。

在一些实施方式中，该提示进一步响应于确定用户先前被提示的次数没有超过比率限制。在一些实施方式中，该提示进一步响应于确定免打扰状态被禁用。在一些实施方式中，该提示进一步响应于确定用户在预定时间段内没有访问客户端设备。

在一些附加或替代实施方式中，计算机程序产品可以包括一个或多个计算机可读存储介质，该计算机可读存储介质具有集中存储在一个或多个计算机可读存储介质上的程序指令。该程序指令可执行用于：经由客户端设备的一个或多个麦克风接收捕捉用户的口头话语的音频数据；使用机器学习模型处理音频数据以生成预测输出，该预测输出指示音频数据中存在一个或多个热词的概率；确定预测输出满足阈值；从用户接收口头话语不包括热词的指示；并且响应于确定预测输出满足阈值并且接收到口头话语不包括热词的指示来调整阈值。

在一些实施方式中，响应于确定预测输出满足阈值并且在接收到口头话语不包括热词的指示之前，程序指令进一步可执行用于启动自动化助理功能。在一些实施方式中，机器学习模型是热词检测模型，并且程序指令还可执行用于基于口头话语不包括热词的指示来训练热词检测模型。

在一些实施方式中，调整阈值包括提高阈值。在一些实施方式中，程序指令还可执行用于提示用户指示口头话语是否包括热词，并且口头话语不包括热词的指示作为对提示的响应被接收。

在一些附加或替代实施方式中，系统可以包括处理器、计算机可读存储器、一个或多个计算机可读存储介质以及共同存储在一个或多个计算机可读存储介质上的程序指令。该程序指令可执行用于：经由客户端设备的一个或多个麦克风接收捕捉用户的第一口头话语的第一音频数据；使用机器学习模型处理所述第一音频数据，以生成第一预测输出，所述第一预测输出指示所述第一音频数据中存在一个或多个热词的概率；确定第一预测输出不满足阈值；响应于确定第一预测输出不满足阈值，对阈值进行第一调整；在进行第一调整之后：经由客户端设备的一个或多个麦克风接收捕捉用户的第二口头话语的第二音频数据；使用所述机器学习模型来处理所述第二音频数据，以生成第二预测输出，所述第二预测输出指示所述第二音频数据中存在所述一个或多个热词的概率；确定第二预测输出不满足根据第一调整调整的阈值；以及响应于确定第二预测输出不满足根据第一调整调整的阈值，对阈值进行第二调整。

在一些实施方式中，对阈值进行第一调整包括降低阈值，并且进一步响应于从用户接收到第一口头话语包括热词的指示；并且对阈值进行第二调整包括进一步降低阈值，并且进一步响应于从用户接收到第二口头话语包括热词的指示。

在一些实施方式中，程序指令进一步可执行用于：经由客户端设备的一个或多个麦克风接收捕捉用户的第三口头话语的第三音频数据；使用所述机器学习模型处理所述第三音频数据，以生成第三预测输出，所述第三预测输出指示所述第三音频数据中存在所述一个或多个热词的概率；确定第三预测输出满足根据第一调整和第二调整调整的阈值；以及响应于确定第三预测输出满足根据第一调整和第二调整调整的阈值，对阈值进行第三调整。

在一些实施方式中，对阈值进行第三调整包括提高阈值，并且进一步响应于从用户接收到第三口头话语不包括热词的指示。

通过利用本文中描述的一种或多种技术，基于对应于(多个)口头话语的音频数据和/或对应于(多个)无话语物理运动的传感器数据，能够在对应的客户端设备本地标识和标记错误否定和/或错误肯定的发生。此外，能够使用所标识和所标记的(多个)错误肯定和(多个)错误否定来调整阈值。另外，能够可选地使用所标识的和标记的(多个)错误肯定和(多个)错误否定，在对应的客户端设备本地生成梯度。能够在对应的客户端设备本地利用梯度来更新对应的本地存储的机器学习模型，和/或能够将梯度传输到远程系统以用于更新对应的全局模型。这样导致对应的本地存储的机器学习模型和/或对应的全局模型(其能够被传输到各种客户端设备以供使用)的性能改善。附加地或替代地，在对应的客户端设备本地标记错误肯定和/或错误否定能够维护用户数据(例如，口头话语等)的隐私，因为用户数据可能永远不会从对应的客户端设备被传输。

提供以上描述作为本公开的一些实施方式的概述。下文将更详细地描述这些实施方式以及其他实施方式的进一步描述。

各种实施方式能够包括存储可由一个或多个处理器(例如，(多个)中央处理单元(CPU)、(多个)图形处理单元(GPU)、(多个)数字信号处理器(DSP)和/或(多个)张量处理单元(TPU)执行以执行诸如本文中描述的一个或多个方法的方法的指令的非暂时性计算机可读存储介质。其他实施方式能够包括自动化助理客户端设备(例如，至少包括用于与(多个)基于云的自动化助理组件接口连接的自动化助理接口的客户端设备)，该自动化助理客户端设备包括可操作用于执行所存储的指令以执行诸如本文描述的一种或多种方法的方法的(多个)处理器。其他实施方式能够包括一个或多个服务器的系统，所述服务器包括一个或多个处理器，该处理器可操作用于执行所存储的指令，以执行诸如本文中描述的一个或多个方法的方法。

附图说明

图1A和图1B描绘了根据各种实施方式的展示了本公开的各个方面的示例过程流程。

图2描绘了包括来自图1A和图1B的各种组件并且其中可以实现本文中公开的实施方式的示例环境的框图。

图3描绘了图示根据各种实施方式的示例方法的流程图，该方法基于错误否定或错误肯定在客户端设备本地调整阈值和生成梯度，并将该梯度传输到远程服务器和/或利用所生成的梯度来更新设备上的语音识别模型的(多个)权重。

图4描绘了图示根据各种实施方式的示例方法的流程图，该方法基于错误肯定在客户端设备本地调整阈值并生成梯度，并将该梯度传输到远程服务器和/或利用所生成的梯度来更新设备上的语音识别模型的(多个)权重。

图5描绘了图示根据各种实施方式的基于错误否定来调整阈值的示例方法的流程图。

图6描绘了计算设备的示例架构。

具体实施方式

图1A和图1B描绘了展示本公开的各个方面的示例过程流程。客户端设备110在图1A中图示，并且包括涵盖在表示客户端设备110的图1A的框内的组件。机器学习引擎122A能够接收对应于经由客户端设备110的一个或多个麦克风检测到的口头话语的音频数据101和/或对应于经由客户端设备110的一个或多个非麦克风传感器组件检测到的(多个)无话语物理运动(例如，(多个)手势和/或(多个)运动、(多个)身体姿势和/或(多个)身体运动、眼睛注视、面部运动、嘴部运动等)的其他传感器数据102。一个或多个非麦克风传感器能够包括(多个)相机或其他(多个)视觉传感器、(多个)接近传感器、(多个)压力传感器、(多个)加速度计、(多个)磁力计和/或(多个)其他传感器。机器学习引擎122A使用机器学习模型152A处理音频数据101和/或其他传感器数据102，以生成预测输出103。如本文中所述，机器学习引擎122A能够是热词检测引擎122B或替代引擎，诸如话音活动检测器(VAD)引擎、端点检测器引擎和/或(多个)其他引擎。

在一些实施方式中，当机器学习引擎122A生成预测输出103时，它能够被本地存储在客户端设备上的设备上的存储装置111中，并且可选地与对应的音频数据101和/或其他传感器数据102相关联。在这些实施方式的一些版本中，预测输出能够由梯度引擎126检索，以用于在稍后的时间生成梯度106，诸如当满足本文中描述的一个或多个条件时。设备上的存储装置111能够包括，例如，只读存储器(ROM)和/或随机存取存储器(RAM)。在其他实施方式中，预测输出103能够被实时提供给梯度引擎126。

客户端设备110能够基于在框182处确定预测输出103是否满足阈值来作出是否启动当前休眠的(多个)自动化助理功能(例如，图2的自动化助理295)、抑制启动当前休眠的(多个)自动化助理功能和/或使用助理激活引擎124关闭当前工作的(多个)自动化助理功能的决定。自动化助理功能能够包括：生成识别文本的语音识别、生成自然语言理解(NLU)输出的NLU、基于识别文本和/或NLU输出生成响应、向远程服务器传输音频数据、和/或向远程服务器传输识别文本。例如，假设预测输出103是概率(例如，0.80或0.90)，并且框182处的阈值是阈值概率(例如，0.85)，如果客户端设备110确定预测输出103(例如，0.90)满足框182处的阈值(例如，0.85)，那么助理激活引擎124能够当前休眠的自动化助理功能。

在一些实施方式中，如图1B所示，机器学习引擎122A能够是热词检测引擎122B。值得注意的是，各种(多个)自动化助理功能，诸如设备上的语音识别器142、设备上的NLU引擎144和/或设备上的履行引擎146，当前是休眠的(即，如虚线所指示)。此外，假设使用热词检测模型152B并且基于音频数据101生成的预测输出103满足框182处的阈值，并且话音活动检测器128检测针对客户端设备110的用户语音。

在这些实施方式的一些版本中，助理激活引擎124激活作为当前休眠的(多个)自动化助理功能的设备上的语音识别器142、设备上的NLU引擎144和/或设备上的履行引擎146。例如，设备上的语音识别器142能够使用设备上的语音识别模型142A来处理口头话语的音频数据101，该口头话语包括热词“好的助理”以及热词“好的助理”之后的附加命令和/或短语，以生成识别文本143A，设备上的NLU引擎144能够使用设备上的NLU模型144A来处理识别文本143A，以生成NLU数据145A，设备上的履行引擎146能够使用设备上的履行模型146A来处理NLU数据145A以生成履行数据147A，并且客户端设备110能够在响应于音频数据101的一个或多个动作的执行150中使用履行数据147A。

在这些实施方式的其他版本中，助理激活引擎124激活唯一的设备上的履行引擎146，而不激活设备上的语音识别器142和设备上的NLU引擎144，以处理各种命令，诸如“不”、“停止”、“取消”，和/或能够在没有设备上的语音识别器142和设备上的NLU引擎144的情况下处理的其他命令。例如，设备上的履行引擎146使用设备上的履行模型146A处理音频数据101，以生成履行数据147A，并且客户端设备110能够在响应于音频数据101的一个或多个动作的执行150中使用履行数据147A。此外，在这些实施方式的各个版本中，助理激活引擎124能够通过最初仅激活设备上的语音识别器142以确定音频数据101包括热词“好的助理”来最初激活当前休眠的(多个)自动化功能以验证在框182做出的决定是正确的(例如，音频数据101实际上包括热词“好的助理”)，和/或助理激活引擎124能够将音频数据101传输到一个或多个服务器(例如，远程服务器160)来验证在框182做出的决定是正确的(例如，音频数据101实际上包括热词“好的助理”)。

回到图1A，如果客户端设备110确定预测输出103(例如，0.80)不满足框182处的阈值(例如，0.85)，那么助理激活引擎124能够抑制启动当前休眠的(多个)自动化助理功能和/或关闭任何当前工作的(多个)自动化助理功能。此外，如果客户端设备110确定预测输出103(例如，0.80)不满足框182处的阈值(例如，0.85)，则客户端设备110能够在框184确定是否接收到其它的用户界面输入。例如，其它的用户界面输入能够是包括热词的附加口头话语、用作热词的代理的(多个)附加无话语物理运动、显式自动化助理调用按钮(例如，硬件按钮或软件按钮)的致动、客户端设备110设备的感测到的“挤压”(例如，当用至少阈值量的力挤压客户端设备110时调用自动化助理)、和/或其他显式自动化助理调用。如果客户端设备110在框184确定没有接收到其它的用户界面输入，则客户端设备110能够停止标识校正并在框190结束。

然而，如果客户端设备110在框184处确定接收到其它的用户界面输入，则系统能够确定在框184处接收到的其它的用户界面输入是否包括与在框182处做出的决定相矛盾的在框186处的(多个)校正(例如，用户调解的或用户提供的校正)。(多个)校正能够标识错误否定(例如，如关于图3和图5更详细描述的)或错误肯定(例如，如关于图3和图4更详细描述的)。如果客户端设备110在框186确定在框184接收到的其它的用户界面输入不包括校正，则客户端设备110能够停止标识校正并在框190结束。然而，如果客户端设备110确定在框184接收到的其它的用户界面输入包括与在框182做出的初始决定相矛盾的在框186的校正，则客户端设备110能够确定调整后的阈值104和真实情况输出105。

作为错误否定的一个非限制性示例，假设机器学习引擎122A被训练来生成概率作为预测输出103，假设客户端设备110错误地确定预测输出103(例如，0.80)不能满足框182处的阈值(例如，0.85)，并且假设客户端设备110抑制启动当前休眠的(多个)自动化助理功能和/或关闭当前工作的(多个)自动化助理功能。此外，假设客户端设备110基于在框184处接收的其它的用户界面输入而确定该其它的用户界面输入与在框182处做出的初始决定相矛盾，并且客户端设备110应当已经启动当前休眠的(多个)自动化助理功能和/或抑制关闭当前工作的(多个)自动化助理功能。在这种情况下，调整后的阈值104能够是低于在框182处使用的阈值(例如，0.85)的阈值。在实施方式中，作为非限制性示例，能够基于作为预测输出103而生成的概率(例如，0.80)来确定调整后的阈值104。在其他实施方式中，作为非限制性示例，能够通过将在框182处使用的阈值降低预定量(例如，0.85–0.03＝0.82)或预定百分比(例如，0.85降低5％＝0.8075)来确定调整后的阈值104。另外，在这种情况下，真实情况输出105也能够是指示客户端设备110应当已经启动当前休眠的(多个)自动化助理功能和/或抑制关闭当前工作的(多个)自动化助理功能的概率(例如，1.00)。

作为错误肯定的一个非限制性示例，假设机器学习引擎122A被训练来生成概率作为预测输出103，假设客户端设备110错误地确定预测输出103(例如，0.90)满足框182处的阈值(例如，0.85)，并且假设客户端设备110启动了当前休眠的(多个)自动化助理功能和/或抑制关闭当前工作的(多个)自动化助理功能。此外，假设客户端设备110基于在框184处接收到的其它的用户界面输入来确定该其它的用户界面输入与在框182处做出的初始决定相矛盾，并且客户端设备110不应当已经启动当前休眠的(多个)自动化助理功能和/或抑制关闭当前工作的(多个)自动化助理功能。在这种情况下，调整后的阈值104能够是高于在框182处使用的阈值(例如，0.85)的阈值。在实施方式中，作为非限制性示例，能够基于作为预测输出103生成的概率(例如，0.90)来确定调整后的阈值104。在其他实施方式中，作为非限制性示例，能够通过将在框182处使用的阈值提高预定量(例如，0.85+0.03＝0.88)或预定百分比(例如，0.85提高5％＝0.8925)来确定调整后的阈值104。另外，在这种情况下，真实情况输出105也能够是指示客户端设备110不应当已经启动当前休眠的(多个)自动化助理功能和/或抑制关闭当前工作的(多个)自动化助理功能的概率(例如，0.00)。尽管预测输出103、在框182处使用的阈值、调整后的阈值104和真实情况输出105在本文中被描述为概率，但是应当理解，这并不意味着是限制性的，并且预测输出103、在框182处使用的阈值、调整后的阈值104和真实情况输出105能够是标签、注释、二进制值和/或其他可能性度量。

在一些实施方式中，如果客户端设备110确定在框184处接收到的其它的用户界面输入包括在框186处为错误否定的校正，那么客户端设备110的助理激活引擎124可以激活客户端设备110的麦克风，并且如用户所希望的那样启动一个或多个当前休眠的自动化助理功能。

在一些实施方式中，梯度引擎126能够基于对真实情况输出105的预测输出103来生成梯度106。例如，梯度引擎126能够基于预测输出103与真实情况输出105的比较来生成梯度106。在这些实施方式的一些版本中，客户端设备110将预测输出103和对应的真实情况输出105本地存储在设备上的存储装置111中，并且当满足一个或多个条件时，梯度引擎126检索预测输出103和对应的真实情况输出105以生成梯度106。一个或多个条件能够包括，例如，客户端设备正在充电、客户端设备至少具有阈值充电状态、客户端设备的温度(基于一个或多个设备上的温度传感器)低于阈值，和/或客户端设备没有正在被用户握持。在那些实施方式的其他版本中，客户端设备110实时地向梯度引擎126提供预测输出103和真实情况输出105，并且梯度引擎126实时地生成梯度106。

此外，梯度引擎126能够将所生成的梯度106提供给设备上的机器学习训练引擎132A。当接收到梯度106时，设备上的机器学习训练引擎132A使用梯度106来更新设备上的机器学习模型152A。例如，设备上的机器学习训练引擎132A能够利用反向传播和/或其他技术来更新设备上的机器学习模型152A。注意，在一些实施方式中，设备上的机器学习训练引擎132A能够基于梯度106和基于附加校正而在客户端设备110本地确定的附加梯度，利用批处理技术来更新设备上的机器学习模型152A。

此外，客户端设备110能够将所生成的梯度106传输到远程系统160。当远程系统160接收到梯度106时，远程系统160的远程训练引擎162使用梯度106和来自附加客户端设备170的附加梯度107来更新全局语音识别模型152A1的全局权重。来自附加客户端设备170的附加梯度107能够各自基于与上文关于梯度106描述的技术相同或相似的技术来生成(但是基于特定于那些客户端设备的本地标识的校正)。

更新分布引擎164能够响应于满足一个或多个条件，向客户端设备110和/或其他客户端设备提供更新后的全局权重和/或更新后的全局语音识别模型本身，如108所指示。该一个或多个条件能够包括，例如，自上次提供更新后的权重和/或更新后的语音识别模型以来的训练的阈值持续时间和/或数量。该一个或多个条件能够附加地或替代地包括，例如，对更新后的语音识别模型的测量的改进和/或自从上次提供更新后的权重和/或更新后的语音识别模型以来经过的阈值持续时间。当更新后的权重被提供给客户端设备110时，客户端设备110能够用更新后的权重替换设备上的机器学习模型152A的权重。当更新后的全局语音识别模型被提供给客户端设备110时，客户端设备110能够用更新后的全局语音识别模型替换设备上的机器学习模型152A。

在一些实施方式中，基于客户端设备110和/或客户端设备110的用户的地理区域和/或其他属性，传输设备上的机器学习模型152A(例如，由远程系统160或(多个)其他组件)以在客户端设备110处存储和使用。例如，设备上的机器学习模型152A能够是给定语言的N个可用机器学习模型之一，但是能够基于特定地理区域专用的校正来训练，并且基于客户端设备110主要位于该特定地理区域来提供给客户端设备110。

现在转向图2，在图1A和图1B的各种设备上的机器学习引擎被包括作为自动化助理客户端240的一部分(或与之通信)的实施方式中图示了客户端设备110。相应的机器学习模型也被图示为与图1A和图1B的各种设备上的机器学习引擎接口连接。为简单起见，图2中未图示来自图1A和图1B的其他组件。图2图示了自动化助理客户端240能够如何利用图1A和图1B的各种设备上的机器学习引擎及其相应的机器学习模型来执行各种动作的一个示例。

图2中的客户端设备110被图示为具有一个或多个麦克风211、一个或多个扬声器212、一个或多个相机和/或其他视觉组件213以及(多个)显示器214(例如，触敏显示器)。客户端设备110可以进一步包括(多个)压力传感器、(多个)接近传感器、(多个)加速度计、(多个)磁力计和/或用于生成除了由一个或多个麦克风211捕捉的音频数据之外的其他传感器数据的(多个)其他传感器。客户端设备110至少选择性地执行自动化助理客户端240。在图2的示例中，自动化助理客户端240包括设备上的热词检测引擎122B、设备上的语音识别器142、设备上的自然语言理解(NLU)引擎144和设备上的履行引擎146。自动化助理客户端240进一步包括语音捕捉引擎242和视觉捕捉引擎244。自动化助理客户端140能够包括附加和/或替代的引擎，诸如话音活动检测器(VAD)引擎、端点检测器引擎和/或(多个)其它引擎。

一个或多个基于云的自动化助理组件280能够可选地在一个或多个计算系统(统称为“云”计算系统)上实现，这些计算系统经由总体上在290指示的一个或多个局域网和/或广域网(例如，互联网)通信地耦合到客户端设备110。基于云的自动化助理组件280能够例如经由高性能服务器集群来实现。

在各种实施方式中，自动化助理客户端240的实例通过其与一个或多个基于云的自动化助理组件280的交互，可以形成从用户的角度看起来是自动化助理295的逻辑实例，用户可以利用该自动化助理295进行人机交互(例如，口头交互、基于手势的交互和/或基于触摸的交互)。

客户端设备110能够是，例如：台式计算设备、笔记本计算设备、平板计算设备、移动电话计算设备、用户的交通工具的计算设备(例如，车载通信系统、车载娱乐系统、车载导航系统)、独立的交互式扬声器、诸如智能电视的智能电器(或者配备有具有自动化助理能力的联网软件狗的标准电视)，和/或包括计算设备的用户的可穿戴装置(例如，用户的具有计算设备的手表、用户的具有计算设备的眼镜、虚拟或增强现实计算设备)。可以提供附加的和/或替代的客户端设备。

一个或多个视觉组件213能够采用各种形式，诸如显微相机、立体相机、LIDAR组件(或(多个)其他基于激光的组件)、雷达组件等。一个或多个视觉组件213可以例如由视觉捕捉引擎242用来捕捉其中部署了客户端设备110的环境的视觉帧(例如，图像帧、基于激光的视觉帧)。在一些实施方式中，(多个)这种视觉帧能够被用于确定用户是否出现在客户端设备110附近和/或用户(例如，用户的面部)相对于客户端设备110的距离。例如，能够利用(多个)这种确定来确定是否激活图2所描绘的各种设备上的机器学习引擎和/或其他引擎。

语音捕捉引擎242能够被配置成捕捉用户的语音和/或经由(多个)麦克风211捕捉的其他音频数据。此外，客户端设备110可以包括(多个)压力传感器、(多个)接近传感器、(多个)加速度计、(多个)磁力计和/或用于生成除了经由(多个)麦克风211捕捉的音频数据之外的其他传感器数据的其他传感器。如本文中所描述，这种音频数据和其他传感器数据能够被热词检测引擎122B和/或(多个)其他引擎用来确定是否启动一个或多个当前休眠的自动化助理功能、抑制启动一个或多个当前休眠的自动化助理功能、和/或关闭一个或多个当前工作的自动化助理功能。自动化助理功能能够包括设备上的语音识别器142、设备上的NLU引擎144、设备上的履行引擎146以及附加和/或替代的引擎。例如，设备上的语音识别器142能够利用设备上的语音识别模型142A来处理捕捉口头话语的音频数据，以生成对应于口头话语的识别文本143A。设备上的NLU引擎144可选地利用设备上的NLU模型144A对识别文本143A执行设备上的自然语言理解，以生成NLU数据145A。NLU数据145A可以包括例如对应于口头话语的(多个)意图和可选的用于(多个)意图的(多个)参数(例如，槽值)。此外，基于NLU数据145A，可选地利用设备上的履行模型146A，设备上的履行引擎146生成履行数据147A。该履行数据147A能够定义对口头话语的本地和/或远程响应(例如，回答)、基于口头话语与本地安装的(多个)应用执行的(多个)交互、基于口头话语向(多个)物联网(IoT)设备(直接或经由对应的(多个)远程系统)传输的(多个)命令、和/或基于口头话语执行的(多个)其他解析动作。履行数据147A然后被提供用于(多个)所确定的动作的本地和/或远程实行/执行，以解析口头话语。执行能够包括例如渲染本地和/或远程响应(例如，视觉和/或听觉渲染(可选地利用本地文本到语音模块))、与本地安装的应用交互、向(多个)IoT设备传输(多个)命令和/或(多个)其他动作。

显示器214能够被用于显示来自设备上的语音识别器122的识别文本143A和/或其它的识别文本143B，和/或来自执行150的一个或多个结果。显示器214能够进一步是(多个)用户界面输出组件之一，通过它来渲染来自自动化助理客户端240的响应的(多个)可视部分。

在一些实施方式中，(多个)基于云的自动化助理组件280能够包括执行语音识别的远程ASR引擎281、执行自然语言理解的远程NLU引擎282和/或生成履行的远程履行引擎283。还能够可选地包括远程执行模块，其基于本地或远程确定的履行数据来执行远程执行。能够包括附加的和/或替代的远程引擎。如本文中所描述，在各种实施方式中，至少由于在解析口头话语时它们提供的延迟和/或网络使用减少(由于不需要(多个)客户端-服务器往返来解析口头话语)，能够优先进行设备上的语音处理、设备上的NLU、设备上的履行和/或设备上的执行。然而，能够至少选择性地利用一个或多个基于云的自动化助理组件280。例如，(多个)这种组件能够与(多个)设备上的组件并行使用，并且当(多个)本地组件出现故障时使用来自(多个)这种组件的输出。例如，在某些情况下(例如，由于客户端设备110的资源相对有限)，设备上的履行引擎146能够出现故障，并且在这种情况下，远程履行引擎283能够利用云的更鲁棒的资源来生成履行数据。远程履行引擎283能够与设备上的履行引擎146并行操作，并且当设备上的履行出现故障时其结果被利用，或者能够响应于确定设备上的履行引擎146出现故障而被调用。

在各种实施方式中，NLU引擎(设备上和/或远程的)能够生成包括识别文本的一个或多个注释以及自然语言输入的一个或多个(例如，全部)术语的NLU数据。在一些实施方式中，NLU引擎被配置成标识和注释自然语言输入中的各种类型的语法信息。例如，NLU引擎可以包括形态模块，该形态模块可以将单个单词分成语素和/或例如利用语素的类别来注释语素。NLU引擎还可以包括被配置成用术语的语法角色来注释术语的词性标注器。此外，例如，在一些实施方式中，NLU引擎可以附加地和/或替代地包括依存解析器，该依存解析器被配置成确定自然语言输入中的术语之间的句法关系。

在一些实施方式中，NLU引擎可以附加地和/或替代地包括实体标记器，该实体标记器被配置成注释一个或多个片段中的实体引用，诸如对人的引用(例如，包括文学人物、名人、公众人物等)、组织、位置(真实的和想象的)等等。在一些实施方式中，NLU引擎可以附加地和/或替代地包括共指解析器(未示出)，该共指解析器被配置成基于一个或多个上下文线索来将对于同一实体的引用进行分组或“群集”。在一些实施方式中，NLU引擎的一个或多个组件可以依赖于来自NLU引擎的一个或多个其他组件的注释。

NLU引擎还可以包括意图匹配器，其被配置成确定参与与自动化助理295的交互的用户的意图。意图匹配器能够使用各种技术来确定用户的意图。在一些实施方式中，意图匹配器能够访问一个或多个本地和/或远程数据结构，这些数据结构包括例如语法和响应意图之间的多个映射。例如，包括在映射中的语法能够随着时间被选择和/或学习，并且可以代表用户的共同意图。例如，一种语法“播放<艺术家>”可以被映射到调用使得<艺术家>的音乐在客户端设备110上播放的响应动作的意图。另一种语法“今天的[天气|预报]”可以匹配诸如“今天的天气如何”和“今天的天气预报如何？”的用户查询。除了语法之外或者代替语法，在一些实施方式中，意图匹配器能够单独地或者与一种或多种语法相结合地使用一个或多个经过训练的机器学习模型。这些经过训练的机器学习模型能够被训练来标识意图，例如通过将来自口头话语的识别文本嵌入到降维空间中，然后例如使用诸如欧几里德距离、余弦相似度等的技术来确定哪些其他嵌入(以及因此，意图)是最接近的。如上面的“播放<艺术家>”示例语法所示，一些语法具有能够用槽值(或“参数”)填充的槽(例如<艺术家>)。可以用各种方式来确定槽值。用户通常会主动提供槽值。例如，对于语法“给我点<浇头>比萨饼”，用户可能说出短语“给我点香肠比萨饼”，在这种情况下，槽<浇头>被自动填充。能够基于例如用户位置、当前渲染的内容、用户偏好和/或(多个)其他提示来推断(多个)其他槽值。

履行引擎(本地和/或远程)能够被配置成接收由NLU引擎输出的预测/估计的意图以及任何相关联的槽值，并履行(或“解析”)该意图。在各种实施方式中，用户意图的履行(或“解析”)可以使得例如由履行引擎生成/获得各种履行信息(也称为履行数据)。这能够包括确定对口头话语的本地和/或远程响应(例如，回答)、基于口头话语执行的与本地安装的(多个)应用的(多个)交互、基于口头话语向(多个)物联网(IoT)设备(直接或经由相应的远程系统)传输的(多个)命令、和/或基于口头话语执行的(多个)其他解析动作。然后，设备上的履行能够启动所确定的(多个)动作的本地和/或远程执行/实施，以解析口头话语。

图3描绘了图示示例方法300的流程图，该示例方法300基于错误否定或错误肯定在客户端设备本地调整阈值并生成梯度，并将该梯度传输到远程服务器和/或利用所生成的梯度来更新设备上的语音识别模型的(多个)权重。为了方便起见，参考执行操作的系统来描述方法300的操作。方法300的该系统包括客户端设备的一个或多个处理器和/或(多个)其他组件。此外，尽管方法300的操作以特定顺序示出，但这并不意味着是限制性的。可以重新排序、省略或添加一个或多个操作。

在框305，系统经由客户端设备的一个或多个麦克风接收捕捉用户的口头话语的音频数据。

在框310，系统使用机器学习模型来处理在框305接收的音频数据，以生成指示音频数据中存在一个或多个热词的概率的预测输出。机器学习模型能够是例如设备上的热词检测模型和/或其他机器学习模型。此外，所生成的输出可以是例如概率和/或其他似然性度量。

在框315，系统确定在框310生成的预测输出是否满足次级阈值，该次级阈值指示音频数据中存在的一个或多个热词的程度比初级阈值更低。如果在框315的迭代中，系统确定在框310生成的预测输出不满足次级阈值，则系统进行到框320，并且流程结束。另一方面，如果在框315的迭代中，系统确定在框310生成的预测输出满足次级阈值，则系统进行到框325。

仍然参考框315，在示例中，假设在框310生成的预测输出是概率，并且该概率必须大于0.65以满足框315的次级阈值，并且预测概率是0.88。基于预测概率0.88满足次级阈值0.65，系统进行到框325。

在框325，系统确定在框310生成的预测输出是否满足初级阈值。如果在框325的迭代中，系统确定在框310生成的预测输出不满足初级阈值，则系统进行到框335。另一方面，如果在框325的迭代中，系统确定在框310生成的预测输出满足初级阈值，则系统进行到框330，并启动一个或多个当前休眠的自动化助理功能。在一些实施方式中，一个或多个自动化助理功能包括生成识别文本的语音识别、生成自然语言理解(NLU)输出的NLU、基于识别文本和/或NLU输出生成响应、向远程服务器传输音频数据、和/或向远程服务器传输识别文本。

仍然参考框330，在示例中，假设在框310生成的预测输出是概率，并且该概率必须大于0.85，以满足框325的初级阈值并在框330激活一个或多个当前休眠的自动化助理功能，并且预测概率是0.88。基于预测概率0.88满足阈值0.85，系统进行到框330，并按照用户的意图启动一个或多个当前休眠的自动化助理功能。

在框335，系统提示用户指示由在框305接收的音频数据捕捉的口头话语是否包括热词。在实施方式中，该提示能够是询问用户是否说出热词的音频提示的形式(例如，利用文本到语音模块来渲染)。在其他实施方式中，提示可以作为询问用户是否说出热词的消息被渲染在显示器上。在又一实施方式中，一个或多个提示可以被呈现在与自动化助理客户端240相关联的应用或网站中(例如，在移动设备上运行的应用)。系统可以在框335在时间上非常接近话语(例如，在执行框305、310、315和325的动作之后立即)或在稍后的时间点(例如，系统可以在预定的每日或每周时间呈现与多个话语相关联的多个提示)提示用户。

仍然参考框335，在实施方式中，可以进一步响应于确定用户先前已经被提示的次数没有超过比率限制来执行提示。在已经超过比率限制的情况下，系统可以避免执行提示并返回到框305，而不执行框340至350。

仍然参考框335，在实施方式中，可以进一步响应于确定免打扰状态被禁用来执行提示。在免打扰状态被启用的情况下，系统可以避免执行提示并返回到框305，而不执行框340至350。

仍然参考框335，在实施方式中，可以进一步响应于确定用户在预定时间段期间没有访问客户端设备来执行提示。在用户已经在预定时间段期间访问了客户端设备的情况下，系统可以避免执行提示，并且返回到框305，而不执行框340至350。

在框340，系统从用户接收对来自框335的提示的响应。在实施方式中，该响应可以是来自用户的关于在框305接收的音频数据所捕捉的口头话语是否包括热词的指示。在实施方式中，响应可以是经由客户端设备的一个或多个麦克风接收到的音频数据、经由客户端设备的触摸屏接收到的触摸屏输入、和/或从键盘、诸如鼠标、轨迹球、触摸板或图形输入板的定点设备和/或其他类型的输入设备接收到的输入的形式。

仍然参考框340，在实施方式中，系统可以在框340接收到来自用户的响应时记录触发事件。另外，在实施方式中，系统可以记录在框340从用户接收到的响应，该响应也可以是无响应(即，没有响应)。

在框345，系统基于在框340接收到的响应调整初级阈值。在实施方式中，在框325预测输出不满足初级阈值并且在框340的响应指示口头话语包括热词的错误否定的情况下，基于该响应调整初级阈值包括降低初级阈值。在实施方式中，在框325预测输出满足初级阈值并且框340的响应指示口头话语不包括热词的错误肯定的情况下，基于响应调整初级阈值包括提高初级阈值。

仍然参考框345，在错误否定的非限制性示例中，假设在框310生成的预测输出是概率，并且该概率必须大于0.65以满足框315的次级阈值，并且大于0.85以满足框325的初级阈值并在框330激活一个或多个当前休眠的自动化助理功能，并且预测概率是0.80。基于0.80的预测概率，在框315满足次级阈值，但是在框325不满足第一阈值，因此一个或多个当前休眠的自动化助理功能不被激活。响应于在框340接收到指示在框305接收到的音频数据中捕捉的口头话语包括热词的响应，基于在框310作为预测输出生成的概率(例如，0.80)，初级阈值在框345降低。在另一个非限制性示例中，在框345，初级阈值被降低预定量(例如，0.85–0.03＝0.82)或预定百分比(例如，0.85降低5％＝0.8075)。

仍然参考框345，在错误肯定的非限制性示例中，假设在框310生成的预测输出是概率，并且该概率必须大于0.65以满足框315的次级阈值，并且大于0.85以满足框325的初级阈值并在框330激活一个或多个当前休眠的自动化助理功能，并且预测概率是0.90。基于0.90的预测概率，在框315满足次级阈值，并且在框325满足第一阈值，因此激活一个或多个当前休眠的自动化助理功能。响应于在框340接收到指示在框305接收到的音频数据中捕捉的口头话语不包括热词的响应，基于在框310作为预测输出生成的概率(例如，0.90)，初级阈值在框345提高。在另一个非限制性示例中，在框345，初级阈值被提高预定量(例如，0.85+0.03＝0.88)或预定百分比(例如，0.85提高5％＝0.8925)。

在框350，系统基于在框340接收到的响应，使用联合学习来训练热词检测模型。在实施方式中，系统基于将在框310生成的预测输出与真实情况输出进行比较来生成梯度。在一些实施方式中，基于在框340接收到的响应指示对在框325做出的决定的校正，生成真实情况输出。例如，对于错误否定，如果生成的预测输出是0.80，阈值是0.85，则系统能够生成1.0的真实情况输出。在这样的示例中，生成梯度是基于将预测输出0.80与真实情况输出1.0进行比较。

仍然参考框350，系统基于所生成的梯度更新设备上的机器学习模型的一个或多个权重，和/或系统将所生成的梯度传输(例如，经由互联网或其他广域网)到远程系统(不传输任何音频数据、传感器数据和/或在框340接收到的响应)。当梯度被传输到远程系统时，远程系统利用所生成的梯度和来自附加客户端设备的附加梯度来更新全局语音识别模型的全局权重。在框350之后，系统然后返回到框305。

图4描绘了图示示例方法400的流程图，该示例方法400基于错误肯定在客户端设备本地调整阈值并生成梯度，并将该梯度传输到远程服务器和/或利用所生成的梯度来更新设备上的语音识别模型的(多个)权重。为了方便起见，参考执行操作的系统来描述方法400的操作。方法400的该系统包括客户端设备的一个或多个处理器和/或(多个)其他组件。此外，尽管方法400的操作以特定顺序示出，但这并不意味着是限制性的。可以重新排序、省略或添加一个或多个操作。

在框410，系统经由客户端设备的一个或多个麦克风接收捕捉用户的口头话语的音频数据。

在框420，系统使用机器学习模型来处理在框410接收到的音频数据，以生成指示音频数据中存在一个或多个热词的概率的预测输出。机器学习模型能够是例如设备上的热词检测模型和/或其他机器学习模型。此外，所生成的输出能够是例如概率和/或其他似然性度量。

在框430，系统确定在框420生成的预测输出是否满足阈值。如果在框430的迭代中，系统确定在框420生成的预测输出不满足阈值，则系统返回到框410。另一方面，如果在框430的迭代中，系统确定在框420生成的预测输出满足阈值，则系统进行到框440，并启动一个或多个当前休眠的自动化助理功能。

仍然参考框430，在示例中，假设在框420生成的预测输出是概率，并且该概率必须大于0.85以满足框430的阈值，并且预测概率是0.88。基于预测概率0.88满足阈值0.85，系统进行到框440，并启动一个或多个当前休眠的自动化助理功能。在一些实施方式中，一个或多个自动化助理功能包括生成识别文本的语音识别、生成自然语言理解(NLU)输出的NLU、基于识别文本和/或NLU输出生成响应、向远程服务器传输音频数据、和/或向远程服务器传输识别文本。

在框450，系统从用户接收在框410接收到的音频数据中捕捉的口头话语不包括热词的指示。在实施方式中，由系统接收的指示可以是经由客户端设备的一个或多个麦克风接收到的音频数据、经由客户端设备的触摸屏接收到的触摸屏输入、和/或从键盘、诸如鼠标、轨迹球、触摸板或图形输入板等定点设备和/或其他类型的输入设备接收到的输入的形式。

仍然参考框450，在实施方式中，系统可以提示用户指示在框410接收到的音频数据中捕捉的口头话语是否包括热词，并且在框450接收口头话语不包括热词的指示作为对该提示的响应。在实施方式中，该提示能够是询问用户是否说出热词的音频提示的形式(例如，利用文本到语音模块来渲染)。在其他实施方式中，提示可以作为询问用户是否说出热词的消息被渲染在显示器上。在又一实施方式中，一个或多个提示可以被呈现在与自动化助理客户端240相关联的应用或网站中(例如，在移动设备上运行的应用)。系统可以在时间上接近话语时(例如，在执行框410、420、430和440的动作之后立即)或在稍后的时间点(例如，系统可以在预定的每日或每周时间呈现与多个话语相关联的多个提示)在框450提示用户。

仍然参考框450，在实施方式中，可以进一步响应于确定用户先前已经被提示的次数没有超过比率限制来执行提示。在已经超过比率限制的情况下，系统可以避免执行提示并返回到框410，而不执行框460和470。

仍然参考框450，在实施方式中，可以进一步响应于确定免打扰状态被禁用来执行提示。在免打扰状态被启用的情况下，系统可以避免执行提示并返回到框410，而不执行框460和470。

仍然参考框450，在实施方式中，可以进一步响应于确定用户在预定时间段期间没有访问客户端设备来执行提示。在用户在预定时间段期间访问了客户端设备的情况下，系统可以避免执行提示，并且返回到框410，而不执行框460和470。

仍然参考框450，在其他实施方式中，在框410接收到的音频数据中捕捉的口头话语不包括热词的指示是捕捉后续口头话语的附加音频数据，该后续口头话语包括“不”、“停止”、“取消”和/或与在框430做出的初始决定相矛盾的另一口头话语。在实施方式中，在框430做出的初始决定能够基于例如以下各项而被分类为不正确的(即，错误肯定)：确定口头话语和附加口头话语之间的持续时间满足时间阈值(例如，在3.0秒内)、初始概率的大小满足相对于阈值概率的概率阈值(例如，在0.20到0.85内)、如本文中所描述的在框430的初始决定的持续时间和初始概率的函数、和/或其他指示在框410接收到的音频数据中捕捉的口头话语不包括热词的确定。在另一个实例中，假设其它的用户界面输入是取消助理调用的替代输入，诸如显式自动化助理调用按钮(例如，硬件按钮或软件按钮)的致动、设备的感测到的“挤压”(例如，当利用至少阈值量的力挤压设备时调用助理)、和/或取消助理调用的其他显式输入，则在框430做出的初始决定能够基于例如以下各项被分类为不正确的(即，错误肯定)：初始概率的大小满足相对于阈值概率的概率阈值(例如，在0.20到0.85的范围内)，如本文中所描述的框430的初始决定的持续时间和初始概率的函数，和/或是在框410接收到的音频数据中捕捉的口头话语不包括热词的指示的其他确定。因此，在这些实例中，系统能够基于确定在框430做出的初始决定不正确而抑制启动当前休眠的(多个)自动化助理功能和/或关闭当前工作的(多个)自动化助理功能。

在框460，响应于在框430确定预测输出满足阈值，并且在框450接收到口头话语不包括热词的指示，系统调整阈值。在实施方式中，在预测输出在框430满足阈值并且在框450接收到的指示指示口头话语不包括热词的错误肯定的情况下，基于响应调整初级阈值包括提高初级阈值。

仍然参考框460，在错误肯定的非限制性示例中，假设在框420生成的预测输出是概率，并且该概率必须大于0.85以满足框430的阈值并在框440激活一个或多个当前休眠的自动化助理功能，并且预测概率是0.88。基于0.88的预测概率，在框430满足阈值，因此激活一个或多个当前休眠的自动化助理功能。响应于接收到口头话语不包括热词的指示框450，基于在框420作为预测输出生成的概率(例如，0.88)，在框460提高阈值。在另一个非限制性示例中，在框460，阈值被提高预定量(例如，0.85+0.03＝0.88)或预定百分比(例如，0.85提高5％＝0.8925)。

在框470，系统基于在框450接收到的指示，使用联合学习来训练热词检测模型。在实施方式中，系统基于将在框420生成的预测输出与真实情况输出进行比较来生成梯度。在一些实施方式中，基于在框450接收到的指示对在框430做出的决定的校正的指示来生成真实情况输出。例如，对于错误肯定，如果所生成的预测输出是0.88，阈值是0.85，则系统能够生成0.0的真实情况输出。在这样的示例中，生成梯度基于将预测输出0.88与真实情况输出0.0进行比较。

仍然参考框470，系统基于所生成的梯度更新设备上的机器学习模型的一个或多个权重，和/或系统将所生成的梯度传输(例如，经由互联网或其他广域网)到远程系统(不传输任何音频数据、传感器数据和/或在框450接收到的指示)。当梯度被传输到远程系统时，远程系统利用所生成的梯度和来自附加客户端设备的附加梯度来更新全局语音识别模型的全局权重。在框470之后，系统然后返回到框410。

图5描绘了图示基于错误否定调整阈值的示例方法500的流程图。为了方便起见，参考执行操作的系统来描述方法500的操作。方法500的该系统包括客户端设备的一个或多个处理器和/或(多个)其他组件。此外，尽管方法500的操作以特定顺序示出，但这并不意味着是限制性的。可以重新排序、省略或添加一个或多个操作。

在框505，系统经由客户端设备的一个或多个麦克风接收捕捉用户的第一口头话语的第一音频数据。

在框510，系统使用机器学习模型来处理在框505接收到的第一音频数据，以生成第一预测输出，该第一预测输出指示第一音频数据中存在一个或多个热词的概率。机器学习模型能够是例如设备上的热词检测模型和/或其他机器学习模型。此外，所生成的输出能够是例如概率和/或其他似然性度量。

在框515，系统确定在框510生成的第一预测输出是否满足阈值。如果在框515的迭代中，系统确定在框510生成的第一预测输出满足阈值，则系统进行到框520。另一方面，如果在框515的迭代中，系统确定在框510生成的第一预测输出不满足阈值，则系统进行到框525。

在框520，系统如用户所期望的启动一个或多个当前休眠的自动化助理功能。

在框525，响应于在框515确定第一预测输出不满足阈值，系统对阈值进行第一调整。在实施方式中，对阈值进行第一调整包括降低阈值(例如，如参考图3的框315所描述的)，并且进一步响应于从用户接收在框505接收到的第一音频数据中捕捉的第一口头话语包括热词的指示。

在框530，在框525进行第一调整之后，系统经由客户端设备的一个或多个麦克风接收捕捉用户的第二口头话语的第二音频数据。

在框535，系统使用机器学习模型来处理在框530接收到的第二音频数据，以生成第二预测输出，该第二预测输出指示第二音频数据中存在一个或多个热词的概率。

在框540，系统确定在框535生成的第二预测输出是否满足根据框525的第一调整调整的阈值。如果在框540的迭代中，系统确定在框535生成的第二预测输出满足根据框525的第一调整调整的阈值，则系统返回到框520。另一方面，如果在框540的迭代中，系统确定在框535生成的第二预测输出不满足根据框525的第一调整调整的阈值，则系统进行到框545。

在框545，响应于在框540确定第二预测输出不满足根据框525的第一调整调整的阈值，系统对阈值进行第二调整。在实施方式中，对阈值进行第二调整包括进一步降低阈值(例如，如参考图3的框315所描述的)，并且进一步响应于从用户接收在框530接收到的第二音频数据中捕捉的第二口头话语包括热词的指示。

在框550，在框545进行第二调整之后，系统经由客户端设备的一个或多个麦克风接收捕捉用户的第三口头话语的第三音频数据。

在框555，系统使用机器学习模型来处理在框550接收到的第三音频数据，以生成指示第三音频数据中存在一个或多个热词的概率的第三预测输出。

在框560，系统确定在框555生成的第三预测输出是否满足根据框525的第一调整和框545的第二调整调整的阈值。如果在框560的迭代中，系统确定在框555生成的第三预测输出不满足根据框525的第一调整和框545的第二调整调整的阈值，则系统前进到框565，并且流程结束。另一方面，如果在框560的迭代中，系统确定在框555生成的第三预测输出满足根据框525的第一调整和框545的第二调整调整的阈值，则系统进行到框570。

在框570，系统如用户期望的启动一个或多个当前休眠的自动化助理功能。

在框575，响应于在框560确定第三预测输出满足根据框525的第一调整和框545的第二调整调整的阈值，系统对阈值进行第三调整。在实施方式中，对阈值进行第三调整包括提高阈值(例如，如参考图3的框315所描述的)，并且进一步响应于从用户接收在框550接收到的第三音频数据中捕捉的第三口头话语不包括热词的指示。在实施方式中，响应于接收到第三口头话语不包括热词的指示，系统可以关闭任何当前工作的自动化助理功能。

注意，在方法300、400和500的各种实施方式中，音频数据、预测输出、对提示的响应、其它的用户界面输入、(多个)阈值和/或真实情况输出能够被本地存储在客户端设备上。此外，在方法300、400和500的那些实施方式的一些版本中，响应于确定客户端设备的当前状态满足一个或多个条件，执行生成梯度、更新设备上的机器学习模型的一个或多个权重和/或将梯度传输到远程系统。例如，一个或多个条件包括客户端设备正在充电，客户端设备至少具有阈值充电状态，和/或客户端设备没有被用户携带。此外，在方法300、400和500的那些实施方式的一些附加或替代版本中，生成梯度、更新设备上的机器学习模型的一个或多个权重和/或将梯度传输到远程系统被实时执行。以这些和其他方式，阈值和设备上的机器学习模型能够被快速调适以减少错误否定和/或错误肯定的发生。此外，在处理捕捉口头话语的音频数据的设备上的(多个)机器学习模型的情况下，这能够改善设备上的机器学习模型的用于客户端设备的(多个)用户的(多个)属性的性能，诸如音调、语调、口音和/或其他语音特征。

图6是示例计算设备610的框图，该示例计算设备610可以可选地用于执行本文中描述的技术的一个或多个方面。在一些实施方式中，客户端设备、基于云的自动化助理组件和/或(多个)其他组件中的一个或多个可以包括示例计算设备610的一个或多个组件。

计算设备610通常包括至少一个处理器614，其经由总线子系统612与多个外围设备通信。这些外围设备可以包括存储子系统624，其包括例如存储器子系统625和文件存储子系统626，用户界面输出设备620，用户界面输入设备622和网络接口子系统616。输入和输出设备允许用户与计算设备610交互。网络接口子系统616提供到外部网络的接口，并且被耦合到其他计算设备中的对应的接口设备。

用户界面输入设备622可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的定点设备、扫描仪、结合到显示器中的触摸屏、诸如语音识别系统的音频输入设备、麦克风和/或其他类型的输入设备。一般而言，术语“输入设备”的使用旨在包括将信息输入到计算设备610中或通信网络上的所有可能类型的设备和方式。

用户界面输出设备620可以包括显示子系统、打印机、传真机或者诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可视图像的某种其他机制。显示子系统还可以诸如经由音频输出设备提供非视觉显示。一般而言，术语“输出设备”的使用旨在包括从计算设备610向用户或另一机器或计算设备输出信息的所有可能类型的设备和方式。

存储子系统624存储提供本文中描述的一些或所有模块的功能的程序和数据结构。例如，存储子系统624可以包括执行本文中公开的方法的选定方面以及实现图1A和图1B中描绘的各种组件的逻辑。

这些软件模块通常由处理器614单独执行或者与其他处理器结合执行。包括在存储子系统624中的存储器子系统625能够包括多个存储器，其包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)630和存储固定指令的只读存储器(ROM)632。文件存储子系统626能够为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光驱或可移除介质盒。实现某些实施方式的功能的模块可以由文件存储子系统626存储在存储子系统624中，或者存储在可由(多个)处理器614访问的其他机器中。

总线子系统612提供了一种机制，其用于让计算设备610的各种组件和子系统如预期的那样相互通信。尽管总线子系统612被示意性地示为单条总线，但是总线子系统的替代实施方式可以使用多条总线。

计算设备610能够是各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图6中描绘的计算设备610的描述仅旨在作为用于说明一些实施方式的特定示例。计算设备610的许多其他配置可能具有比图6中描绘的计算设备更多或更少的组件。

在本文中描述的系统收集或以其他方式监控关于用户的个人信息，或者可以利用个人和/或所监控的信息的情况下，可以向用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交行动或活动、职业、用户偏好或用户的当前地理位置的信息)，或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外，某些数据在被存储或使用之前，可能会以一种或多种方式被处理，以便移除个人身份信息。例如，可以处理用户的身份，使得不能确定用户的个人身份信息，或者可以在获得了地理位置信息的情况下将用户的地理位置一般化(例如城市、邮政编码或州级)，使得不能确定用户的特定地理位置。因此，用户可以控制如何收集和/或使用关于用户的信息。

虽然本文中已经描述和示出了几个实施方式，但是可以利用用于执行功能和/或获得结果和/或本文中描述的一个或多个优点的各种其他手段和/或结构，并且每个这样的变化和/或修改被认为在这里描述的实施方式的范围内。更一般地，本文中描述的所有参数、尺寸、材料和配置都意图是示例性的，并且实际的参数、尺寸、材料和/或配置将取决于使用该教导的具体应用。本领域的技术人员将会认识到或者能够仅使用常规实验来确定本文中描述的具体实施方式的许多等同物。因此，应当理解，前述实施方式仅作为示例呈现，并且在所附权利要求及其等同物的范围内，实施方式可以以不同于具体描述和要求保护的方式实践。本公开的实施方式针对本文中描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外，两个或多个这样的特征、系统、物品、材料、套件和/或方法的任何组合，如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的，则被包括在本公开的范围内。

Claims

1.一种由一个或多个处理器实现的方法，所述方法包括：

经由客户端设备的一个或多个麦克风接收捕捉用户的口头话语的音频数据；

使用机器学习模型处理所述音频数据以生成预测输出，所述预测输出指示所述音频数据中存在一个或多个热词的概率；

确定所述预测输出满足次级阈值，所述次级阈值指示所述音频数据中存在所述一个或多个热词的程度比初级阈值低；

响应于确定所述预测输出满足所述次级阈值，提示所述用户指示所述口头话语是否包括热词；

从所述用户接收对所述提示的响应；以及

基于所述响应调整所述初级阈值。

2.根据权利要求1所述的方法，进一步包括响应于所述预测输出满足所述初级阈值，启动自动化助理功能。

3.根据权利要求1或权利要求2所述的方法，其中，所述机器学习模型是热词检测模型，并且

进一步包括基于所述响应使用联合学习来训练所述热词检测模型。

4.根据前述权利要求中的任一项所述的方法，其中：

所述预测输出不满足所述初级阈值；

所述响应指示所述口头话语包括所述热词；并且

基于所述响应调整所述初级阈值包括降低所述初级阈值。

5.根据前述权利要求中的任一项所述的方法，其中：

所述预测输出满足所述初级阈值；

所述响应指示所述口头话语不包括所述热词；并且

基于所述响应调整所述初级阈值包括提高所述初级阈值。

6.根据前述权利要求中的任一项所述的方法，其中，所述提示进一步响应于确定所述用户先前已经被提示的次数没有超过比率限制。

7.根据前述权利要求中的任一项所述的方法，其中，所述提示进一步响应于确定免打扰状态被禁用。

8.根据前述权利要求中的任一项所述的方法，其中，所述提示进一步响应于确定所述用户在预定时间段期间没有访问所述客户端设备。

9.一种由一个或多个处理器实现的方法，所述方法包括：

确定所述预测输出满足阈值；

从所述用户接收所述口头话语不包括热词的指示；以及

响应于确定所述预测输出满足所述阈值并且接收到所述口头话语不包括所述热词的指示，调整所述阈值。

10.根据权利要求9所述的方法，进一步包括响应于确定所述预测输出满足所述阈值，并且在接收到所述口头话语不包括所述热词的所述指示之前，启动自动化助理功能。

11.根据权利要求9或权利要求10所述的方法，其中：

所述机器学习模型是热词检测模型，并且

所述程序指令进一步能够执行以基于所述口头话语不包括所述热词的所述指示来训练所述热词检测模型。

12.根据权利要求9至11中的任一项所述的方法，其中，调整所述阈值包括提高所述阈值。

13.根据权利要求9至12中的任一项所述的方法，进一步包括：

提示所述用户指示所述口头话语是否包括所述热词，其中，接收所述口头话语不包括所述热词的指示作为对所述提示的响应。

14.根据权利要求13所述的方法，其中，所述提示是响应于确定所述用户先前已经被提示的次数没有超过比率限制。

15.根据权利要求13所述的方法，其中，所述提示是响应于确定免打扰状态被禁用。

16.根据权利要求13所述的方法，其中，所述提示进一步响应于确定所述用户在预定时间段内没有访问所述客户端设备。

17.一种由一个或多个处理器实现的方法，所述方法包括：

经由客户端设备的一个或多个麦克风接收捕捉用户的第一口头话语的第一音频数据；

使用机器学习模型处理所述第一音频数据以生成第一预测输出，所述第一预测输出指示所述第一音频数据中存在一个或多个热词的概率；

确定所述第一预测输出不满足阈值；

响应于确定所述第一预测输出不满足所述阈值，对所述阈值进行第一调整；

在进行所述第一调整之后：

经由所述客户端设备的所述一个或多个麦克风接收捕捉所述用户的第二口头话语的第二音频数据；

使用所述机器学习模型处理所述第二音频数据，以生成第二预测输出，所述第二预测输出指示所述第二音频数据中存在所述一个或多个热词的概率；

确定所述第二预测输出不满足根据所述第一调整被调整的阈值；以及

响应于确定所述第二预测输出不满足根据所述第一调整被调整的阈值，对所述阈值进行第二调整。

18.根据权利要求17所述的方法，其中：

对所述阈值进行所述第一调整包括降低所述阈值，并且进一步响应于从所述用户接收到所述第一口头话语包括热词的指示；并且

对所述阈值进行所述第二调整包括进一步降低所述阈值，并且进一步响应于从所述用户接收到所述第二口头话语包括所述热词的指示。

19.根据权利要求18所述的方法，进一步包括：

经由所述客户端设备的所述一个或多个麦克风接收捕捉所述用户的第三口头话语的第三音频数据；

使用所述机器学习模型处理所述第三音频数据，以生成第三预测输出，所述第三预测输出指示所述第三音频数据中存在所述一个或多个热词的概率；

确定所述第三预测输出满足根据所述第一调整和所述第二调整被调整的阈值；以及

响应于确定所述第三预测输出满足根据所述第一调整和所述第二调整被调整的阈值，对所述阈值进行第三调整。

20.根据权利要求19所述的方法，其中，对所述阈值进行所述第三调整包括提高所述阈值，并且进一步响应于从所述用户接收到所述第三口头话语不包括所述热词的指示。

21.一种包括指令的计算机程序产品，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1至20中的任一项所述的方法。

22.一种包括指令的计算机可读存储介质，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1至20中的任一项所述的方法。

23.一种客户端设备，包括用于执行根据权利要求1至20中的任一项所述的方法的一个或多个处理器。

24.一种系统，包括处理器、计算机可读存储器、一个或多个计算机可读存储介质以及共同存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令能够执行以执行根据权利要求1至20中的任一项所述的方法。