CN116615779A

CN116615779A - 冻结词

Info

Publication number: CN116615779A
Application number: CN202180082507.4A
Authority: CN
Inventors: 马修·谢里菲; 亚历山大·克拉昆
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-12-08
Filing date: 2021-11-17
Publication date: 2023-08-18
Also published as: US12073826B2; EP4241269A1; KR20230116908A; US11688392B2; WO2022125283A1; US20220180862A1; US20230298575A1; JP2023552799A

Abstract

一种用于检测冻结词的方法(300)包括接收音频数据(118)，该音频数据(118)对应于由用户(10)说出并由与用户相关联的用户设备(110)捕获的话语(119)。方法还包括使用语音辨识器(200)处理音频数据以确定话语包括针对数字助理(109)执行操作的查询(122)。语音辨识器被配置为在音频数据中非语音的预定持续时间之后触发话语的终结。在非语音的预定持续时间之前，方法包括在音频数据中检测冻结词(123)。响应于在音频数据中检测到冻结词，方法还包括触发用户设备处的硬麦克风关闭事件(125)。硬麦克风关闭事件防止用户设备捕获冻结词之后的任何音频。

Description

冻结词

技术领域

本公开涉及冻结词(freeze word)。

背景技术

启用语音的环境(例如，家庭、工作场所、学校、汽车等)允许用户向基于计算机的系统大声说出查询或命令，该基于计算机的系统回应并回答查询和/或基于命令来执行功能。可以使用分布在环境的各种房间或区域的连接的麦克风设备的网络来实现启用语音的环境。与针对环境中存在的另一个体的话语相反，这些设备可以使用热词来帮助辨别给定话语何时指向系统。因此，设备可以在睡眠状态或休眠状态下操作，并且仅当检测到的话语包括热词时才唤醒。一旦唤醒，设备就能够继续执行更昂贵的处理，诸如完全在设备上的自动化语音辨识(ASR)或基于服务器的ASR。

发明内容

本公开的一个方面提供了一种检测冻结词的方法。方法包括在数据处理硬件处接收对应于由用户说出并由与用户相关联的用户设备捕获的话语的音频数据。方法还包括由数据处理硬件使用语音辨识器处理音频数据以确定话语包括针对数字助理执行操作的查询。语音辨识器被配置为在音频数据中的非语音的预定持续时间之后触发话语的终结(endpoint)。在音频数据中非语音的预定持续时间之前，方法包括由数据处理硬件在音频数据中检测冻结词。冻结词接在用户说出并且由用户设备捕获的话语中的查询之后。响应于在音频数据中检测到冻结词，方法包括由数据处理硬件触发用户设备处的硬麦克风关闭事件以防止用户设备捕获在冻结词之后的任何音频。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，冻结词包括以下中的一个：预定义的冻结词，包括给定语言中跨所有用户的一个或多个固定词项；用户选择的冻结词，包括由用户设备的用户指定的一个或多个词项；或者，与要由数字助理执行的操作相关联的特定于动作的冻结词。在一些示例中，在音频数据中检测冻结词包括：从音频数据中提取音频特征；使用冻结词检测模型通过处理所提取的音频特征生成冻结词置信度分数；冻结词检测模型在数据处理硬件上执行；以及，当冻结词置信度分数满足冻结词置信度阈值时，确定对应于话语的音频数据包括冻结词。

在音频数据中检测冻结词可以包括使用在数据处理硬件上执行的语音辨识器来辨识在音频数据中的冻结词。可选地，方法还可以包括：响应于在音频数据中检测到冻结词：由数据处理硬件指令语音辨识器停止对音频数据的任何活动处理；以及，由数据处理硬件指令数字助理完成操作的执行。

在一些实施方式中，处理音频数据以确定话语包括针对数字助理执行操作的查询包括：使用语音辨识器处理音频数据以生成音频数据的语音辨识结果；以及，对音频数据的语音辨识结果执行语义解释以确定音频数据包括执行操作的查询。在这些实施方式中，响应于在音频数据中检测到冻结词，方法还包括：由数据处理硬件通过从语音辨识结果中剥离冻结词来修改音频数据的语音辨识结果；以及，由数据处理硬件使用修改后的语音辨识结果指令数字助理执行查询请求的操作。

在一些示例中，在使用语音辨识器处理音频数据之前，方法还包括：由数据处理硬件使用热词检测模型检测在音频数据中在查询之前的热词；以及，响应于检测到热词，由数据处理硬件触发语音辨识器通过对热词和/或在音频数据中的接在热词之后的一个或多个词项执行语音辨识来处理音频数据。在这些示例中，方法还可以包括由数据处理硬件基于在音频数据中检测到冻结词来验证热词检测模型检测到的热词的存在。可选地，检测音频数据中的冻结词可以包括在被配置为在没有对音频数据执行语音辨识的情况下在音频数据中检测冻结词的数据处理硬件上执行冻结词检测模型。这里，冻结词检测模型和热词检测模型可以各自包括相同或不同的基于神经网络的模型。

本公开的另一方面提供了一种检测冻结词的方法。方法包括在数据处理硬件处接收对应于针对数字助理听写用户说出的可听内容的基于听写(dictation-based)的查询的音频数据的第一实例。基于听写的查询由用户说出并由与用户相关联的启用助理的设备捕获。方法还包括在数据处理硬件处接收对应于由用户说出并由启用助理的设备捕获的可听内容的话语的音频数据的第二实例。方法还包括由数据处理硬件使用语音辨识器处理音频数据的第二实例以生成可听内容的转录。在音频数据的第二实例的处理期间，方法包括由数据处理硬件在音频数据的第二实例中检测冻结词。冻结词接在由用户说出并由启用助理的设备捕获的话语中的可听内容之后。响应于在音频数据的第二实例中检测到冻结词，方法包括由数据处理硬件提供用户说出的可听内容的转录以用于从启用助理的设备输出。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，响应于在音频数据的第二实例中检测到冻结词，方法进一步包括：由数据处理硬件发起启用助理的设备处的硬麦克风关闭事件以防止启用助理的设备捕获在冻结词之后的任何音频；由数据处理硬件停止对音频数据的第二实例的任何活动处理；以及，在提供可听内容的转录以用于从启用助理的设备输出之前，由数据处理硬件从转录的末尾剥离冻结词。

可选地，方法还可以包括：由数据处理硬件使用语音辨识器处理音频数据的第一实例以生成语音辨识结果；以及，由数据处理硬件对音频数据的第一实例的语音辨识结果执行语义解释以确定音频数据的第一实例包括听写由用户说出的可听内容的基于听写的查询。在一些示例中，在发起对音频数据的第二实例的处理以生成转录之前，方法还包括：由数据处理硬件基于对音频数据的第一实例的语音辨识结果执行的语义解释来确定基于听写的查询指定冻结词；以及，由数据处理硬件指令终结器(endpointer)增加用于终结可听内容的话语的终结超时持续时间。

本公开的另一方面提供了一种用于检测冻结词的系统。系统包括数据处理硬件和存储指令的存储器硬件，这些指令在数据处理硬件上执行时使数据处理硬件执行操作。操作包括接收对应于由用户说出并由与用户相关联的用户设备捕获的话语的音频数据。操作还包括使用语音辨识器处理音频数据以确定话语包括针对数字助理执行操作的查询。语音辨识器被配置为在音频数据中非语音的预定持续时间之后触发话语的终结。在音频数据中非语音的预定持续时间之前，操作包括在音频数据中检测冻结词。冻结词接在用户说出并由用户设备捕获的话语中的查询之后。响应于在音频数据中检测到冻结词，操作包括触发用户设备处的硬麦克风关闭事件以防止用户设备捕获在冻结词之后的任何音频。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，冻结词包括以下中的一个：预定义的冻结词，包括给定语言的跨所有用户的一个或多个固定词项；用户选择的冻结词，包括由用户设备的用户指定的一个或多个词项；或者，与要由数字助理执行的操作相关联的特定于动作的冻结词。在一些示例中，在音频数据中检测冻结词包括：从音频数据中提取音频特征；使用冻结词检测模型通过处理所提取的音频特征生成冻结词置信度分数；以及，当冻结词置信度分数满足冻结词置信度阈值时，确定对应于话语的音频数据包括冻结词。在这些示例中，冻结词检测模型在数据处理硬件上执行。

在音频数据中检测冻结词可以包括使用在数据处理硬件上执行的语音辨识器来辨识音频数据中的冻结词。可选地，操作还可以包括，响应于在音频数据中检测到冻结词：指令语音辨识器停止对音频数据的任何活动处理；以及，指令数字助理完成操作的执行。

在一些实施方式中，处理音频数据以确定话语包括针对数字助理执行操作的查询包括：使用语音辨识器处理音频数据以生成音频数据的语音辨识结果；以及，对音频数据的语音辨识结果执行语义解释以确定音频数据包括执行操作的查询。在这些实施方式中，响应于在音频数据中检测到冻结词，操作还包括：通过从语音辨识结果中剥离冻结词来修改音频数据的语音辨识结果；以及，使用修改后的语音辨识结果指令数字助理执行查询请求的操作。

在一些示例中，在使用语音辨识器处理音频数据之前，操作还包括：使用热词检测模型检测在音频数据中在查询之前的热词；以及，响应于检测到热词，触发语音辨识器通过对热词和/或在音频数据中接在热词之后的一个或多个词项执行语音辨识来处理音频数据。在这些示例中，操作还包括基于在音频数据中检测到冻结词来验证热词检测模型检测到的热词的存在。可选地，在音频数据中检测冻结词可以包括在被配置为在没有对音频数据执行语音辨识的情况下在音频数据中检测冻结词的数据处理硬件上执行冻结词检测模型。冻结词检测模型和热词检测模型各自包括相同或不同的基于神经网络的模型。

本公开的另一方面提供了一种用于检测冻结词的系统。系统包括数据处理硬件和存储指令的存储器硬件，这些指令在数据处理硬件上执行时使数据处理硬件执行操作。操作包括接收对应于针对数字助理听写用户说出的可听内容的基于听写的查询的音频数据的第一实例。基于听写的查询由用户说出并由与用户相关联的启用助理的设备捕获。操作还包括接收对应于由用户说出并由启用助理的设备捕获的可听内容的话语的音频数据的第二实例。操作还包括使用语音辨识器处理音频数据的第二实例以生成可听内容的转录。在音频数据的第二实例的处理期间，操作包括在音频数据的第二实例中检测冻结词。冻结词接在由用户说出并由启用助理的设备捕获的话语中的可听内容之后。响应于在音频数据的第二实例中检测到冻结词，操作包括提供用户说出的可听内容的转录以用于从启用助理的设备输出。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，响应于在音频数据的第二实例中检测到冻结词，操作还包括：发起启用助理的设备处的硬麦克风关闭事件以防止启用助理的设备捕获在冻结词之后的任何音频；停止对音频数据的第二实例的任何活动处理；以及，在提供可听内容的转录以用于从启用助理的设备输出之前，从转录的末尾剥离冻结词。

可选地，操作还可以包括：使用语音辨识器处理音频数据的第一实例以生成语音辨识结果；以及，对音频数据的第一实例的语音辨识结果执行语义解释以确定音频数据的第一实例包括针对听写由用户说出的可听内容的基于听写的查询。在一些示例中，在发起对音频数据的第二实例的处理以生成转录之前，操作还包括：基于对音频数据的第一实例的语音辨识结果执行的语义解释来确定基于听写的查询指定冻结词；以及，指令终结器增加用于终结可听内容的话语的终结超时持续时间。

本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及从权利要求中是显而易见的。

附图说明

图1是包括被配置成检测冻结词的启用助理的设备的示例系统。

图2A是用户话语的第一实例的示意图，用户话语的第一实例对应于指定用于终结用户话语的第二实例的冻结词的基于听写的查询。

图2B是指令终结器响应于检测到话语中的冻结词而终结话语的声学特征检测器的示意图。

图3是用于检测话语中的冻结词的方法的操作的示例布置的流程图。

图4是用于检测话语中的冻结词的方法的操作的示例布置的流程图。

图5是可以用于实现本文所述的系统和方法的示例计算设备的示意图。

在各附图中类似的附图标记指示类似的元件。

具体实施方式

诸如数字助理的基于语音的接口跨各种设备正在变得越来越普遍，该各种设备包括但不限于移动电话和包括用于捕获语音的麦克风的智能扬声器/显示器。发起与启用助理的设备的话音交互的一般方式是说出固定短语，例如，热词，当启用语音的设备在流式音频中检测到该固定短语时，其触发启用助理的设备发起唤醒过程以开始记录和处理后续语音来查明用户说出的查询。因此，热词是整个数字助理接口堆栈中的重要组件，因为其允许用户从低功率状态唤醒他们的启用助理的设备，使得启用助理的设备能够继续执行更昂贵的处理，诸如全自动化语音辨识ASR或基于服务器的ASR。

用户说出的针对启用助理的设备的查询通常落入两个类别的查询：会话查询和非会话查询。会话查询指的是询问数字助理来执行诸如“set a timer(设置定时器)”、“remind me to buy the milk(提醒我购买牛奶)”、“how tall is Barack Obama(巴拉克奥巴马有多高)”等操作的标准数字助理查询。另一方面，非会话查询指的是基于听写的查询，其是用户说出以听写电子邮件、消息、文档、社交媒体帖子或一些其他内容段的较长形式的查询。例如，用户可以说出查询“send an email to Aleks saying(发送电子邮件到Aleks说)”，并且然后继续说出数字助理将听写/转录的电子邮件消息的内容，并且随后从用户的电子邮件客户端发送到接收者的(例如，Aleks)电子邮件客户端。

ASR系统通常使用终结器来确定用户何时已经开始和完成说话。一旦被标定，就能够处理表示用户的语音的音频部分以生成语音辨识结果，并且在一些情况下，能够对语音辨识结果执行语义解释以查明用户说出的查询。终结器通常在确定话语何时开始或结束时评估词之间的停顿的持续时间。例如，如果用户说出“what is<long pause>for dinner(晚餐的<长停顿>是什么)”，则终结器可以在长停顿处对语音输入进行分段，并且使ASR系统仅处理不完整短语“what is(是什么)”而不是完整短语“what is for dinner(晚餐是什么)”。如果终结器指定话语的不正确的终点，则处理话语的结果能够是不准确和不可取的。同时，在在确定话语何时开始或结束时允许词之间的较长的停顿持续时间防止过早的终结的同时，检测话语的用户的启用助理的设备的麦克风保持打开并且可能检测不旨在用于用户设备的声音。另外，延迟麦克风的关闭因此延迟由话语指定的动作的执行。例如，如果用户说出的话语是针对数字助理执行“Call Mom(给妈妈打电话)”动作的查询，则在终结器正在等待终结超时持续时间流逝以确认用户可能已经停止说话的同时在数字助理发起呼叫中将不可避免地存在延迟。在这种场景下，启用助理的设备还可能检测到附加的非意图音频，这可能导致执行与用户意图的动作不同的动作，这可能导致在对由于不能及时确定用户何时可能完成说话而检测到的附加音频进行解释并根据其来行动时浪费计算资源。

为了减轻与太短的终结超时持续时间(例如，在用户已经完成说话之前潜在地切断语音)以及太长的终结超时持续时间(例如，增加捕获非意图语音的机会以及用于执行由话语指定的动作的增加的延迟)相关联的缺点，本文的实施方式涉及冻结词，当在话语结束时说出冻结词时，其指定用户何时完成对启用助理的设备的说话。在某种程度上，通过允许用户对话语手动地终结并发起硬麦克风关闭事件以结束基于话音的会话或长形式的话语，“冻结词”对应于热词的逆动作(inverse)。也就是说，热词将触发启用助理的设备从睡眠或休眠状态唤醒以开始处理语音，而冻结词将通过使对语音的所有活动处理终止和停用启用助理的设备上的麦克风来执行该逆动作，并且从而将启用助理的设备转变回到睡眠或休眠状态。

除了关掉正在进行的语音处理中的一些或全部之外，一旦检测到冻结词，启用助理的设备可以附加地禁用或调整在一定时间量内的未来处理，以有效地使启用助理的设备较少响应。例如，可以临时提高热词检测阈值，以使用户在说出冻结词之后的一些时间窗口内发布后续查询变得更困难/更不可能。在这种场景下，提高的热词检测阈值可以随着时间流逝逐渐减小回到默认值。附加地或替选地，在检测到特定用户说出的冻结词之后，针对该特定用户禁用语音输入。

启用助理的设备执行声学特征检测模型，该声学特征检测模型被配置成在没有对音频数据执行语音辨识或语义解释的情况下检测音频数据中与话语相对应的冻结词的存在。这里，声学特征检测模型可以是被训练成检测一个或多个冻结词的基于神经网络的模型。启用助理的设备可以采用相同或不同的声学特征检测模型来检测音频数据中热词的存在。在相同的声学特征检测模型被用于热词检测和冻结词检测两者的情况下，每次仅用于热词检测和冻结词检测中的一个的功能性可以是活动的。值得注意的是，与ASR模型相比，声学特征检测模型由于其相对紧凑的尺寸和较低的处理要求而能够在用户设备上运行。

在一些配置中，除了触发硬麦克风关闭事件之外，音频数据中的冻结词的检测验证在启用助理的设备处于睡眠或休眠状态的同时音频数据中最近检测到的热词的存在。这里，检测到的热词可以与低热词检测置信度分数相关联，并且冻结词的后续检测可以用作用于验证热词存在于音频数据中的代理。在这些配置中，在执行热词检测和冻结词检测的同时可以将音频数据缓冲在启用助理的设备上，并且一旦在经缓冲的音频数据中检测到冻结词的检测，启用助理的设备就可以发起唤醒过程以对经缓冲的音频数据执行语音辨识。

在一些附加实施方式中，冻结词检测利用当前正在设备上或服务器侧执行的自动化语音辨识器来辨识冻结词的存在。语音辨识器可以被偏置以辨识一个或多个特定冻结词。

在一些示例中，可以利用语言模型来确定是否在音频中检测到冻结词。在这些示例中，语言模型可以允许启用助理的设备识别冻结词实际上是用户话语/查询的一部分而不是由用户说出以终结话语/查询的场景。此外，语言模型还可以允许冻结词的近似匹配，其中，短语与冻结词相似，并且根据语言模型得分，冻结词不太可能成为用户查询/话语的一部分。

启用助理的设备可以能够辨识一种或多种不同类型/类别的冻结词，诸如但不限于预定义的冻结词、自定义冻结词、用户选择的冻结词、特定于动作的冻结词以及特定于查询的冻结词。预定义的冻结词可以包括使用给定语言的跨所有用户的一个或多个固定词项的短语。例如，针对“Call Mom right now(现在给妈妈打电话)”和“Tell me thetemperature outside,thanks Google(告诉我外面的温度，谢谢谷歌)”的会话查询，短语“right now(现在)”和“thanks Google(谢谢谷歌)”对应于允许用户手动终结相应查询的冻结词。

用户选择的冻结词可以对应于特定用户例如在数字助理的设置期间预先指定的冻结词。例如，用户可以从建议的冻结词列表中选择冻结词。可选地，用户可以通过键入或说出词项来指定一个或多个自定义词项以用作冻结词。在一些情况下，用户指定用户选择的冻结词对于特定类型的查询是活动的。在这里，用户可以为基于听写的查询指派与会话查询不同的用户选择的冻结词。例如，在基于听写的查询中“Hey Google send a messageto Aleks saying‘I’ll be late for our meeting’The End(嗨，谷歌，向Aleks发送消息说‘对于我们的会议我会迟到’，结束)”。在此示例中，“Hey Google(嗨，谷歌)”对应于热词，短语“send a message to Aleks saying(向Aleks发送消息说)”对应于针对数字助理听写并向接收者发送消息的查询，短语“I’ll be late for our meeting(对于我们的会议我会迟到)”对应于消息的内容，并且短语”The End(结束)”包括用户选择的冻结词，用于手动终结查询。因此，在检测到冻结词“The End”时，启用助理的设备将立即终结话语并使语音辨识器在发送给接收者之前从听写的消息中去除冻结词。或者，作为替代短语“send amessage to Aleks saying”可以对应于针对数字助理促进用户和接收者之间基于音频的通信的查询，其中，消息的内容“I’ll be late for our meeting”或者只是作为话音消息发送给接收者，以便在接收者的设备上可听地播放。值得注意的是，冻结词“The End”当被启用助理的设备检测到时，将立即终结话语，并在发送给接收者之前从话音消息中剥离冻结词的音频。

特定于动作的冻结词与由针对数字助理执行的查询指定的特定操作/动作相关联。例如，用户说出查询“Hey Google broadcast I’m home end broadcast(嗨，谷歌，广播我在家，结束广播)”包括特定于数字助理执行的广播动作的冻结词“end broadcast(结束广播)”。在此示例中，词项“broadcast I’m home(广播我在家)”指定通过一个或多个扬声器广播可听通知以向其他人指示用户在家的动作。可听通知可以包括允许听到可听通知的人确定用户在家的特定旋律或铃声。在一些实施方式中，与用户指定的冻结词和/或预定义的冻结词并行启用特定于动作的冻结词。

特定于查询的冻结词可以作为用户说出的查询的一部分来被指定。例如，以下话语“Hey Google,dictate the following journal entry until I say I’m done<contents of journal entry>I’m done(嗨，谷歌，听写以下日记条目，直到我说我完成了，<日记条目的内容>我完成了)”包括针对数字助理听写用户针对日记条目说出的内容的基于听写的查询。此外，基于听写的查询在用户开始说出日记条目的内容之前还指定了一个冻结词“I’m Done(我完成了)”。在这里，作为基于听写的查询的一部分来指定的冻结词“I’m Done”指令终结器等待或至少延长终结超时持续时间，以触发终结直到检测到冻结词“I’m Done”。延长终结超时持续时间允许在用户说出日记条目的内容时出现原本会触发终结长的停顿。在一些示例中，与用户指定的冻结词和/或预定义的冻结词并行启用特定于查询的冻结词。

参考图1，在一些实施方式中，示例系统100包括与一个或多个用户10相关联并且经由网络104与远程系统111通信的启用助理的设备(AED)102。AED 102可以对应于计算设备，诸如移动电话、电脑(笔记本电脑或台式机)、平板电脑、智能扬声器/显示器、智能家电、智能耳机、可穿戴设备、车载信息娱乐系统等，并且配备有数据处理硬件103和存储器硬件105。AED 102包括一个或多个麦克风106或者与其通信以捕获来自相应用户10的话语。远程系统111可以是单个计算机、多个计算机或具有可扩展/弹性计算资源113(例如，数据处理硬件)和/或存储资源115(例如，存储器硬件)的分布式系统(例如，云环境)。

AED 102包括声学特征检测器110，其被配置为检测流式音频118中热词121和/或冻结词123的存在而不对流式音频118执行语义分析或语音辨识处理。AED 102还包括声学特征提取器112，其可以实现为声学特征检测器110的一部分或与声学特征检测器110分开的组件。声学特征提取器112被配置为从话语119中提取声学特征。例如，声学特征提取器112可以接收由AED 102的一个或多个麦克风106捕获的与用户10说出的话语119相对应的流式音频118，并从与话语119相对应的音频数据120中提取声学特征。声学特征可以包括在对应于话语119的音频数据120的窗口上计算的梅尔倒谱系数(MFCC)或滤波器组能量。

声学特征检测器110可以接收包括由声学特征提取器112提取的声学特征的音频数据120，并且基于提取的特征，热词分类器150被配置为对话语119是否包括由用户10说出的特定热词121进行分类。AED 102可以将提取的声学特征存储在存储器硬件105的缓冲器中并且热词分类器150可以使用缓冲器中的声学特征来检测音频数据120是否包括热词121。热词分类器150可以也称为热词检测模型150。AED 102可以包括多个热词分类器150，每个热词分类器被训练以检测与特定词项/短语相关联的不同热词。这些热词可以是预定义的热词和/或由用户10指派的自定义热词。在一些实施方式中，热词分类器150包括经由网络104从远程系统111接收的经过训练的基于神经网络的模型。

声学特征检测器110还包括冻结词分类器160，其被配置为对话语119是否包括用户10说出的冻结词123进行分类。冻结词分类器160也可以称为冻结词检测模型160。AED102可以包括多个冻结词分类器160，每个冻结词分类器被训练以检测与特定词项/短语相关联的不同冻结词。如上所述，冻结词可以包括预定义的冻结词、用户选择的冻结词、特定于动作的冻结词和/或特定于查询的冻结词。与热词分类器150一样，冻结词分类器160可以包括从远程系统111接收的经过训练的基于神经网络的模型。在一些示例中，冻结词分类器160和热词分类器150被合并到相同的基于神经网络的模型内。在这些示例中，对应于热词分类器150和冻结词分类器160的神经网络模型的相应部分绝不会同时处于活动状态。例如，当AED 102处于睡眠状态时，热词分类器150可能处于活动状态以收听流式音频118中的热词121，而冻结词分类器160可能处于非活动状态。一旦检测到热词121触发AED 102唤醒并处理后续音频，热词分类器150现在可能处于非活动状态，并且冻结词分类器160可能处于活动状态以收听流式音频118中的冻结词123。声学特征检测器110的分类器150、160可以运行在AED 102的第一处理器(诸如数字信号处理器(DSP))和/或AED 102的第二处理器(诸如应用处理器(AP))或CPU)上，其在运行时消耗比第一处理器更多的功率。

在一些实施方式中，热词分类器150被配置为识别话语119的初始部分中的热词。在所示的示例中，如果热词分类器150检测到作为热词121的特性的在音频数据120中的声学特征，热词分类器150可以确定话语119“Ok Google,broadcast I’m home endbroadcast(好的，谷歌，广播我在家，结束广播)”包括热词121“Ok Google(好的，谷歌)”。例如，热词分类器150可以基于以下操作来检测话语119“Ok Google,broadcast I’m homeend broadcast”包括热词121“Ok Google”：从音频数据生成MFCC，并且分类为MFCC包括类似于存储在热词分类器150的模型中的热词“Ok Google”的特性的MFCC的MFCC。作为另一个示例，热词分类器150可以基于以下操作来检测话语119“Ok Google,broadcast I’m homeend broadcast”包括热词121“Ok Google”：从音频数据生成梅尔尺度过滤器组能量并分类为梅尔尺度过滤器组能量包括类似于作为存储在热词分类器150的模型中的热词“OkGoogle”的特性的梅尔尺度过滤器组能量的梅尔尺度过滤器组能量。

在声学特征检测器110的阶段A，当热词分类器150确定对应于话语119的音频数据120包括热词121时，AED 102可以触发唤醒过程以对对应于话语119的音频数据120发起语音辨识。例如，在AED 102上运行的自动化语音辨识(ASR)引擎200(可互换地称为“语音辨识器”200)可以对对应于话语119的音频数据执行语音辨识或语义解释。语音辨识器200可以包括ASR模型210、自然语言理解(NLU)模块220和终结器230。ASR模型210可以处理音频数据120以生成语音辨识结果215，并且NLU模块220可以对语音辨识结果215执行语义解释以确定音频数据120包括针对数字助理109执行操作的查询122。在此示例中，ASR模型210可以处理音频数据120以生成“broadcast I’m home end broadcast(广播我在家，结束广播)”的语音辨识结果215，并且NLU模块220可以将“broadcast I’m home(广播我在家)”识别为针对数字助理109执行广播可听通知的操作的查询122，该可听通知用于来自一个或多个扬声器的、向其他人指示用户在家的可听输出。替选地，查询122可以是针对数字助理109广播用户说“I’m home(我在家)”的话音消息用于来自一个或多个扬声器的可听输出。NLU模块220也可以用来确定在音频数据120中检测到的冻结词的存在是否实际上是查询122的一部分，并且因此不是用户为终结话语而说出。因此，在冻结词实际上是话语的一部分的场景中，NLU 220可以忽略冻结词的检测。NLU 220可以在这些场景中利用语言模型分数。

在一些实施方式中，补充或代替AED 102的语音辨识器，语音辨识器200位于远程系统111上。在热词分类器150响应于检测到话语119中的热词121而触发AED 102唤醒时，AED 102可以经由网络104将对应于话语119的音频数据120传输到远程系统111。AED 102可以传输音频数据的包括热词121的部分，以供远程系统111确认经由ASR模型210执行语音辨识的热词121的存在。替选地，AED 102可以仅将音频数据120的对应于在热词121之后的话语119的部分的部分传输到远程系统111。远程系统111执行ASR模型210以生成音频数据120的语音辨识结果215。远端系统111亦可执行NLU模块220以对语音辨识结果215执行语义解释，以识别针对数字助理109执行操作的查询122。替选地，远程系统111可以将语音辨识结果215传输到AED 102并且AED 102可以执行NLU模块220以识别查询122。

继续参考图1，终结器230被配置为在音频数据120中的非语音的预定持续时间之后触发话语的终结。这里，非语音的预定持续时间可以对应于终结超时持续时间，其中，终结器230将在检测到至少预定持续时间的非语音的时间段时终结话语。即，终结器230通过做出指令AED 102处的一个或多个麦克风106关闭并且不再捕获流式音频118的硬麦克风关闭决定来终结话语。终结超时持续时间通常被设置为默认值，其足够长以防止过早终结话语，以便话语的内容不会在用户说完之前被切断。同时，虽然设置更长的终结超时持续时间允许语音中的单词之间有更长的停顿并防止处理不完整的短语，但启用助理的设备的麦克风保持打开状态并且可能检测到未指向启用助理的设备的声音。此外，延迟关闭麦克风因此会延迟查询指定的动作/操作的执行。

当语音辨识器200正在处理音频数据120并且在终结器230检测到音频数据中非语音的预定持续时间之前，冻结词分类器160同时在AED 102上运行并在音频数据120中检测冻结词123“end broadcast”。这里，冻结词123“end broadcast”在用户102说出的话语119的末尾处跟在查询122之后并且对应于特定于动作的冻结词123。即，冻结词123“endbroadcast”特定于通过扬声器广播通知或消息的动作/操作。在一些示例中，NLU 220向声学特征检测器110提供指令222以响应于确定音频数据120的语音辨识结果215包括针对数字助理109执行广播的操作的查询122而激活/启用冻结词123“end broadcast”。在这些示例中，声学特征检测器110可以激活/启用被配置为检测冻结词123“end broadcast”的冻结词检测模型。

在一些实施方式中，在AED 102上运行的冻结词分类器160被配置为在不执行语音辨识或语义解释的情况下识别话语119末尾处的冻结词123。例如，在此示例中，如果冻结词分类器160检测到音频数据120中的作为热词123的特性的声学特征，则冻结词分类器160可以确定话语119“Ok Google,broadcast I’m home end broadcast”包括冻结词123“endbroadcast”。例如，冻结词分类器160可以基于以下操作来检测话语119“Ok Google,broadcast I’m home end broadcast”包括冻结词123“end broadcast”：从音频数据生成MFCC并且分类为MFCC包括类似于作为存储在冻结词分类器160的模型中的冻结词123的特性的MFCC的MFCC。作为另一个示例，冻结词分类器160可以基于以下操作来检测话语119“OkGoogle,broadcast I’m home end broadcast”包含冻结词123“end broadcast”：从音频数据生成梅尔尺度过滤器组能量，并且分类为梅尔尺度过滤器组能量包括类似于作为存储在热词分类器150的模型中的热词“Ok Google”的特性的梅尔尺度过滤器组能量的梅尔尺度过滤器组能量。冻结词分类器160可以通过处理音频数据120中的提取的音频特征来生成冻结词置信度分数，并确定对应于话语119的音频数据120当冻结词置信度分数满足冻结词置信度阈值时包括冻结词123。

在声学特征检测器110的阶段B，响应于冻结词分类器160在终结器230检测到音频数据中的非语音的预定持续时间之前检测到音频数据120中的冻结词123，AED 102可以在AED 102处触发硬麦克风关闭事件125，该事件防止AED 102捕获在冻结词123之后的任何流式音频118。例如，触发硬麦克风关闭事件125可以包括AED 102停用一个或更多麦克风106。因此，用户10说出冻结词123作为手动提示以指示用户10何时完成说出查询122，从而触发硬麦克风关闭事件125而无需等待终结超时持续时间流逝，以便终结器230可以终结话语。相反，响应于检测到冻结词123而触发硬麦克风关闭事件125会导致AED 102指令终结器230和/或ASR模型210立即终结话语。触发硬麦克风关闭事件125还导致AED 102指令ASR系统200停止对音频数据的任何活动处理并指令数字助理109完成操作的执行。结果，由于在用户说出冻结词123之后麦克风106没有捕获到后续语音或背景噪声，因此提高了语音辨识准确性，同时改善了等待时间，因为话语119被手动终结以允许数字助理109开始完成由查询122指定的操作的执行，而不必等待终结超时持续时间流逝。在所示示例中，ASR系统200向数字助理109提供输出250，其使数字助理109执行查询122指定的操作。输出250可以包括执行操作的指令。

在一些情况下，输出250还包括对应于话语119的音频数据120的语音辨识结果215。这些情况可能发生在ASR系统200识别的查询122对应于搜索查询时，在这种情况下将搜索查询122的语音辨识结果215作为输出250提供给搜索引擎(未示出)以检索搜索结果。例如，“Hey Google,tell me the weather for tomorrow now Google(嗨，谷歌，告诉我明天的天气，现在谷歌)”的话语119可能包括热词“Hey Google”、会话搜索查询122“tell methe weather for tomorrow”和最后的冻结词“now Google(现在谷歌)”。ASR系统200可以处理音频数据120以生成话语119的语音辨识结果215并对语音辨识结果215执行语义解释以识别搜索查询122。继续该示例，响应于冻结词分类器160检测到冻结词“now Google”，AED 102可以触发硬麦克风关闭事件125并且ASR系统200可以从语音辨识结果215(例如，转录225)的末尾剥离短语“now Google”并且提供语音辨识结果215作为对搜索引擎的搜索查询，以检索明天天气预报的搜索结果。在该示例中，冻结词“now Google”可以包括给定语言的所有用户共有的预定义冻结词123，当在语音辨识处于活动状态的同时说出该预定义冻结词时，其手动触发硬麦克风关闭事件125。

在一些实施方式中，数字助理109能够继续会话，其中，麦克风106可以保持打开以在数字助理109输出对先前查询的响应之后接受来自用户的后续查询。例如，使用上面的示例，数字助理109可以将对于明天的天气预报的搜索结果作为合成语音可听地输出，然后指令麦克风106保持打开以便用户102可以说出后续查询而不必重复说出热词121作为后续查询的前缀。在此示例中，如果用户102没有后续查询，则用户102说出短语“Thanks Google(感谢谷歌)”(或一个或多个固定词项的其他短语)可以用作冻结词123以触发硬麦克风关闭事件。让麦克风106打开一段固定的持续时间以接受用户10可能会说出或可能不会说出的后续查询不可避免地需要增加处理，因为在麦克风106打开时语音处理处于活动状态，从而增加功耗和/或带宽使用。因此，用户10说出冻结词可以触发硬麦克风关闭事件以防止AED 102捕获无意识的语音并且提供功率和带宽节省，因为AED 102可以转换到低功率睡眠或休眠状态。

在一些示例中，如果用户10说出冻结词以关闭麦克风106并结束继续的会话，则AED 102暂时提高热词检测阈值和/或忽略由同一用户10说出的后续语音达某个时间段。AED 102可以存储用户10的参考说话者嵌入，其指示可以与从话语中提取的验证说话者嵌入相比较的用户的话音特性。例如，验证说话者嵌入可以是依赖于文本的，其中，嵌入是从说出的热词中提取的，而参考说话者嵌入可以是从用户10在注册和/或与数字助理109一次或多次之前的交互期间说出相同热词一次或多次提取的。当从后续话语中提取的验证说话者嵌入与用户10的参考说话者嵌入相匹配时，如果在用户10说出冻结词以触发硬麦克风关闭后不久提供后续话语，则可以忽略该语音。

图2A和2B示出了ASR引擎200接收：音频数据120a的第一实例(图2A)，其对应于针对数字助理109听写可听内容124的基于听写的查询122；以及，音频数据120的第二实例120b(图2B)，其对应于可听内容124的话语119、119b。参见图2A，AED 102捕获用户10说出的话语119的第一实例119a，其包括“Hey Google,dictate a message to Aleks until Isay I’m done(嗨，谷歌，听写给Aleks的消息，直到我说我完成了为止)”。在此示例中，“HeyGoogle”对应于热词121，短语“dictate a message to Aleks(听写给Aleks的消息)”对应于针对数字助理109听写给Aleks的消息的基于听写的查询122，而短语“until I say I’mdone(直到我说我完成了)”指定了冻结词以用于终结消息的可听内容124，其中，短语“I’mdone(我完成了)”对应于冻结词123。

声学特征检测器110接收由AED 102的一个或多个麦克风106捕获的与话语119的第一实例119a相对应的流式音频118。热词分类器150确定流式音频118包括热词121。例如，热词分类器150确定流式音频118包括热词121“Hey Google”。在热词分类器150确定流式音频118包括热词121之后，AED 102触发唤醒过程以对与话语119的第一实例119a相对应的音频数据120的第一实例120a发起语音辨识。

ASR 200从声学特征检测器110接收音频数据120的第一实例120a。ASR模型210可以处理音频数据120的第一实例120a以生成语音辨识结果215。例如，ASR模型210接收对应于话语119a“dictate a message to Aleks until I say I’m done(听写给Aleks的消息直到我说我完成了)”的音频数据120的第一实例120a并且生成对应的语音辨识结果215。NLU模块220可以接收来自ASR模型210的语音辨识结果215并对语音辨识结果215执行语义解释以确定音频数据120的第一实例120a包括针对数字助理109听写用户10说出的可听内容124的基于听写的查询122。具体而言，由NLU 220对语音辨识结果215执行的语义解释将短语“dictate a message to Aleks”识别为针对数字助理109听写给接收者Aleks的消息(例如，电子信息或电子邮件)的可听内容124的基于听写的查询122。除了消息之外，基于听写的查询122可以与听写其他类型的内容(诸如，对应于要存储在文档中的日记条目或注释的可听内容)相关联。

在一些实施方式中，ASR 200进一步基于对音频数据120的第一实例的语音辨识结果215执行的语义解释来确定基于听写的查询122指定冻结词123。例如，在所示的示例中，NLU 220将短语“until I say I’m done”识别为将短语“I’m done”设置为用于终结消息的可听内容124的冻结词123的指令。在一些示例中，NLU 220向声学特征检测器110提供指令222以响应于确定音频数据120a的第一实例的语音辨识结果215指定冻结词123而激活/启用冻结词123“I’m done”。在这些示例中，声学特征检测器110可以激活/启用冻结词分类器(例如，冻结词检测模型)160以在由AED 102捕获的后续流式音频118中检测冻结词123“I’mdone”。

在一些示例中，冻结词分类器160和热词分类器150绝不会同时处于活动状态。图2A中围绕冻结词分类器160的虚线指示冻结词分类器160当前处于不活动状态，而围绕热词分类器150的实线指示热词分类器150处于活动状态。例如，在NLU 220向声学特征检测器110发送指令222以激活/启用冻结词分类器160以检测冻结词123“I’m done”之前，热词分类器150可以处于活动状态(例如，由实线指示)以收听流式音频118中的热词121并且冻结词分类器160可以处于不活动状态(例如，由虚线指示)。一旦NLU 220确定语音辨识结果215包括基于听写的查询122并且基于听写的查询122指定冻结词123，NLU 220将指令222发送到声学特征检测器110以使得声学特征检测器110激活冻结词分类器160以在后续流式音频118中检测冻结词“I’m done”并停用热词分类器150。

在所示的示例中，冻结词123“I’m done”对应于作为用户10说出的查询122的一部分来指定的特定于查询的冻结词。值得注意的是，在用户开始说出消息的可听内容124之前基于听写的查询122指定冻结词123“I’m done”。在这里，作为基于听写的查询的一部分指定的冻结词“I’m done”指令终结器等待或至少延长终结超时持续时间，以触发终结直到检测到冻结词“I’m done”。在一些实施方式中，NLU 220向终结器230发送指令224以增加终结超时持续时间。一旦用户10开始说出消息的可听内容124，延长终结时间持续时间允许长时间停顿，其否则将触发终结。在一些示例中，与特定于动作的冻结词(例如，“End Message(结束消息)”)和/或用户指定的冻结词(例如，“The End(结束)”)和/或预定义的冻结词(例如，“Thanks Google”)并行启用特定于查询的冻结词。

在NLU 220确定语音辨识结果215包括基于听写的查询122但基于听写的查询122未指定特定于查询的冻结词123的情况下，NLU 220将不发送指令222到声学特征检测器110以使声学特征检测器110激活/启用冻结词分类器160以检测任何特定于查询的冻结词，因为查询122没有指定任何冻结词。然而，NLU 220仍然可以发送指令222到声学特征检测器110以激活/启用冻结词分类器160以检测特定于动作的冻结词、用户定义的冻结词或预定义的冻结词中的至少一种。可选地，声学特征检测器110可以在检测到流式音频118中对应于话语119的第一实例119a的热词121时自动激活/启用冻结词分类器160以检测后续流式音频118中的用户定义和/或预定义的冻结词。

现在参考图2B，在用户10说出传达热词121和指定特定于查询的冻结词123的基于听写的查询122的话语119的第一实例119a之后，用户10随后说出话语119的第二实例119b以传达用户10希望数字助理109听写的消息的可听内容124，随后是指示用户10已经完成说出消息的可听内容124的特定于查询的冻结词123。值得注意的是，用户10不需要在话语119的第二实例119b前加上热词121，因为AED 102现在醒着并且ASR 200响应于热词分类器150在话语119的第一实例119a中检测到热词121“Hey Google”而保持活动状态。在所示示例中，话语119的第二实例119b包括“Aleks,I’m running late I’m done(Aleks，我要迟到了，我完成了)”在此示例中，短语“Aleks,I’m running late(Aleks，我要迟到了)”对应于消息的可听内容124，而短语“I’m done(我完成了)”对应于在图2A中由用户10说出的话语119的第一实例119a中的基于听写的查询122指定的特定于查询的冻结词123。代替可听内容124之后的特定于查询的冻结词“I’m done”，其他类型的冻结词123可以跟随可听内容124以类似地触发可听内容124的终结。

在AED 102上执行的声学特征检测器110接收由AED的一个或多个麦克风106捕获的、与话语119的第二实例119b相对应的流式音频118。热词分类器150现在处于非活动状态(例如，如虚线所指示)并且冻结词分类器160现在响应于声学特征检测器110从图2A中的NLU 220接收指令222(用于激活/启用冻结词分类器160以收听流式音频118中特定于查询的冻结词123的存在)而处于活动状态(例如，如实线所指示)。声学特征检测器110利用冻结词分类器160来确定流式音频118是否包括冻结词123。声学特征检测器110将音频数据120的第二实例120b传输到ASR 200。ASR 200接收音频数据120的第二实例120b，其对应于由用户10说出并由AED 102捕获的可听内容124的话语119的第二实例119b。此外，响应于基于指定在图2A的话语119的第一实例119a中的冻结词123“I’m Done”的基于听写的查询122来从NLU 220接收到指令224，终结器220正在应用扩展的终结超时持续时间。

ASR 200处理音频数据120的第二实例120b以生成可听内容124的转录225。例如，ASR 200生成可听内容124“Aleks,I’m running late”的转录225。在ASR 200处处理音频数据120的第二实例120b期间，声学特征检测器110在音频数据120的第二实例120b中检测冻结词123。具体而言，冻结词分类器(例如，冻结词检测模型)160在音频数据120的第二实例120b中检测冻结词123的存在。在所示的示例中，冻结词123包括特定于查询的冻结词“I’mDone”以指示可听内容124的末尾。冻结词123在用户10说出的话语119的第二实例119a中跟随可听内容124。

响应于在音频数据120的第二实例120b中检测到冻结词123，ASR 200提供用户10说出的可听内容124的转录225，以从AED 102输出。AED 102可以通过将转录225传输到与接收者Aleks相关联的接收者设备(未示出)来输出转录225。在转录225听写与笔记或日记条目相关的可听内容124的情况下，AED 102可以通过将转录225存储在文档中或将转录225发送到相关联的应用来提供用于输出的转录225。此外，AED 102可以通过在AED的图形用户界面(如果可用)上显示转录来输出转录225。这里，在用户10想要重新听写转录225、修复任何错误转录的词项和/或改变消息的任何内容的情况下，用户10可以在发送到接收者设备之前查看转录225。附加地或替选地，AED 102可以采用文本到语音(TTS)模块来将转录225转换成合成语音以用于对用户10的可听回放，使得用户10能够确认用户10想要发送到接收者设备的转录225。在ASR 200在远程系统111(图1)上执行服务器端时的配置中，ASR 200可以将转录225传输到AED 102和/或将转录225传输到接收者设备。也就是说，ASR 200提供对应于音频数据120的第二实例120b的可听内容124的转录225“Aleks,I’m running late”。

在一些示例中，响应于在音频数据120的第二实例120b中检测到冻结词123，声学特征检测器110在AED 102处发起/触发硬麦克风关闭事件125。硬麦克风关闭事件125防止AED 102捕获冻结词123之后的任何音频。也就是说，在AED 102处触发硬麦克风关闭事件125可以包括AED 102停用一个或多个麦克风106。因此，用户10说出冻结词123来作为指示用户10何时完成说出基于听写的查询122的可听内容124的手动提示，从而触发硬麦克风关闭事件125而无需等待终结超时持续时间流逝，使得终结器230可以立即终结话语119的第二实例119b。作为替代，响应于检测到冻结词123触发硬麦克风关闭事件125会导致AED 102指令终结器230和/或ASR模型210立即终结话语。触发硬麦克风关闭事件125还导致AED 102指令ASR系统200停止对音频数据120的第二实例120b的任何活动处理并指令数字助理109完成操作的执行。

在一些附加实施方式中，补充或代替声学特征检测器110的冻结词分类器160，ASR系统200检测到冻结词123存在于音频数据120的第二实例120b中。也就是说，由于响应于热词分类器150在音频数据120的第一实例120a中检测到热词121，ASR 200已经在活动处理音频数据120b的第二实例120b，所以ASR 200能够在音频数据120的第二实例120b中辨识冻结词123的存在。因此，ASR 200可以被配置为在AED 200处发起硬麦克风关闭事件125，停止对音频数据的第二实例120b的活动处理120，并从转录225的末尾去除辨识的冻结词123。进一步扩展ASR系统200的这种能力，冻结词分类器160可以在AED 102上运行作为第一级冻结词检测器，并且ASR系统200可以用作第二级冻结词检测器以确认冻结词分类器160在音频数据中检测到的冻结词的存在。

在一些实施方式中，在处理音频数据120的第二实例120b以生成可听内容124的转录225时，ASR 200还转录冻结词123以包含在转录225中。例如，可听内容124的转录225可以包括“Aleks,I’m running late I’m done”这里，可听内容124的转录225不经意地包括冻结词123“I’m done”作为消息的可听内容124的一部分。即，用户10不打算让数字助理109听写冻结词123作为要包括在转录225中的可听内容124的一部分，而是被说出以指定可听内容124的末尾。因此，响应于检测到冻结词123在AED 102处发起的硬麦克风关闭事件125可以导致ASR 200在提供可听内容124的转录225以供从AED 102输出之前从转录225的末尾剥离冻结词123。附加地或替选地，ASR 200可以辨识在转录225的末尾处冻结词123的存在并且相应地从转录225的末尾剥离冻结词123。在所示的示例中，在为输出250提供转录225之前，ASR 200从转录225“Aleks,I’m running late I’m done”剥离冻结词123。因此，在ASR200从转录225剥离冻结词123之后，ASR 200提供转录225“Aleks,I’m running late”以用于从AED 102的输出250。

图3是用于检测冻结词的方法300的操作的示例性布置的流程图。在操作302处方法300包括在数据处理硬件113处接收音频数据120，该音频数据120对应于由用户10说出并由与用户10相关联的用户设备102捕获的话语119。在操作304处，方法300包括由数据处理硬件113使用语音辨识器200处理音频数据120以确定话语119包括针对数字助理109执行操作的查询122。语音辨识器200被配置成在音频数据120中非语音的预定持续时间之后触发话语119的终结。

在操作306处，在音频数据120中的非语音的预定持续时间之前，方法300包括由数据处理硬件113检测音频数据120中的冻结词123。冻结词123接在由用户10说出并由用户设备102捕获的话语119中的查询122之后。在操作308处，响应于在音频数据120中检测到冻结词123，方法300包括由数据处理硬件113触发用户设备102处的硬麦克风关闭事件125。硬麦克风关闭事件125防止用户设备102捕获继冻结词123之后的任何音频。

图4是用于检测冻结词的方法400的操作的示例性布置的流程图。在操作402处，方法400包括在数据处理硬件113处接收音频数据120的第一实例119a，其对应于针对数字助理109听写用户10说出的可听内容124的基于听写的查询122。基于听写的查询122由用户10说出并由与用户10相关联的启用助理的设备(AED)102捕获。在操作404处，方法400包括在数据处理硬件113处接收音频数据120的第二实例120b，其对应于由用户10说出并由启用助理的设备102捕获的可听内容124的话语119。在操作406处，方法400包括由数据处理硬件113使用语音辨识器200处理音频数据120的第二实例120b以生成可听内容124的转录225。

在操作408处，在音频数据120的第二实例120b的处理期间，方法400包括由数据处理硬件113在音频数据120的第二实例120b中检测冻结词123。冻结词123接在用户10说出并且由启用助理的设备102捕获的话语119中的可听内容124之后。在操作410处，响应于在音频数据120的第二实例120b中检测到冻结词123，方法400包括由数据处理硬件113提供用户10说出的可听内容124的转录225以用于从启用助理的设备102的输出250。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流应用、社交联网应用和游戏应用。

非暂时性存储器可以是用于在临时或永久基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以用于计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或者磁带。

图5是可以被用于实现本文档中所描述的系统和方法的示例计算设备500的示意图。计算设备500旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适当的计算机。本文所示的组件、它们的连接和关系以及它们的功能仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实现方式。

计算设备500包括处理器510、存储器520、存储设备530、连接到存储器520和高速扩展端口550的高速接口/控制器540，以及连接到低速总线570和存储设备530的低速接口/控制器560。组件510、520、530、540、550和560中的每个组件使用各种总线互连，并且可以被安装在公共主板上或酌情以其它方式被安装。处理器510可以包括用户设备102或远程系统111的数据处理硬件103、113。数据处理硬件510能够处理用于在计算设备500内执行的指令，包括存储在存储器520中或存储在存储设备530上的指令，以在诸如耦合到高速接口540的显示器580的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息。在其它实现方式中，多个处理器和/或多个总线可以适当地被使用，连同多个存储器和存储器类型。此外，多个计算设备500可以被连接，其中每个设备提供必要操作的部分(例如，作为服务器组、刀片服务器组或多处理器系统)。

存储器520在计算设备500内非暂时性地存储信息。存储器520能够包括用户设备102或远程系统111的存储器硬件105、115。存储器硬件520可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器520可以是用于在临时或永久基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以用于计算设备500使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦可编程只读存储器(EPROM)/电子可擦可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备530能够为计算设备500提供大容量存储。在一些实现方式中，存储设备530可以是计算机可读介质。在各种不同的实现方式中，存储设备530可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储设备，或设备阵列，包括在存储区域网络或其它配置中的设备。在另外的实现方式中，计算机程序产品被有形地体现为信息载体。计算机程序产品包含指令，所述指令在被执行时执行一种或多种方法，诸如上述那些方法。信息载体是计算机或机器可读介质，诸如存储器520、存储设备530或处理器510上的存储器。

高速控制器540管理计算设备500的带宽密集型操作，而低速控制器560管理较低的带宽密集型操作。这种职责分配仅是示例性的。在一些实现方式中，高速控制器540被耦合到存储器520、显示器580(例如，通过图形处理器或加速器)和可以接受各种扩展卡(未示出)的高速扩展端口550。在一些实现方式中，低速控制器560被耦合到存储设备530和低速扩展端口590。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口590可以例如通过网络适配器被耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或联网设备，诸如交换机或路由器。

如图所示，可以以多种不同形式来实现计算设备500。例如，其可以被实现为标准服务器500a或在这样的服务器500a的组中多次实现，被实现为膝上型计算机500b或被实现为机架服务器系统500c的一部分。

本文中所描述的系统和技术的各种实现方式能够以数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或它们的组合被实现。这些各种实现方式能够包括在一个或多个计算机程序中的实现方式，该一个或多个计算机程序在包括至少一个可编程处理器的可编程系统上是可执行的和/或可解释的，该至少一个可编程处理器可以是专用的或通用的，被耦合以从存储系统、至少一个输入设备以及至少一个输出设备接收数据和指令，并将数据和指令传送到存储系统、至少一个输入设备以及至少一个输出设备。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言被实现。如本文中使用的，术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、用于向可编程处理器提供机器指令和/或数据的装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中所描述的过程和逻辑流程能够由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器(也被称为数据处理硬件)执行。过程和逻辑流程也能够由专用逻辑电路执行，例如FPGA(现场可编程门阵列)或ASIC(应用专用集成电路)。例如，适合于执行计算机程序的处理器包括通用和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，或可操作地耦合以从该一个或多个大容量存储设备接收数据或向该一个或多个大容量存储设备传输数据，或者两者，该一个或多个大容量存储设备例如磁盘、磁光盘或光盘。然而，计算机不必须具有这种设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面能够在具有显示设备或用于向用户显示信息的触摸屏以及可选的键盘和定点设备的计算机上实现，该显示设备例如是CRT(阴极射线管)、LCD(液晶显示器)监视器，该定点设备例如是鼠标和轨迹球，用户能够通过其向计算机提供输入。其它类型的设备也能够被用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入能够以任何形式被接收，包括声学、语音或触觉输入。另外，计算机能够通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互；例如，通过响应于从Web浏览器收到的请求将网页发送到用户客户端设备上的Web浏览器。

已经描述了许多实现方式。然而，应理解，在不脱离本公开的精神和范围的情况下，可以做出各种修改。因而，其它实现方式也在所附权利要求的范围内。

Claims

1.一种方法(300)，包括：

在数据处理硬件(510)处接收音频数据(120)，所述音频数据(120)对应于由用户说出并由与所述用户相关联的用户设备(102)捕获的话语(119)；

由所述数据处理硬件(510)使用语音辨识器(200)处理所述音频数据(120)以确定所述话语(119)包括针对数字助理(109)执行操作的查询(122)，其中，所述语音辨识器(200)被配置为在所述音频数据(120)中的非语音的预定持续时间之后触发所述话语(119)的终结；以及

在所述音频数据(120)中的非语音的所述预定持续时间之前：

由所述数据处理硬件(510)在所述音频数据(120)中检测冻结词(123)，所述冻结词(123)接在所述用户说出并由所述用户设备(120)捕获的所述话语(119)中的所述查询(122)之后；以及

响应于在所述音频数据(120)中检测到所述冻结词(123)，由所述数据处理硬件(510)触发所述用户设备(102)处的硬麦克风关闭事件(125)以防止所述用户设备(102)捕获在所述冻结词(123)之后的任何音频。

2.根据权利要求1所述的方法(300)，其中，所述冻结词(123)包括以下中的一个：

预定义的冻结词(123)，所述预定义的冻结词(123)包括给定语言的跨所有用户的一个或多个固定词项；

用户选择的冻结词(123)，所述用户选择的冻结词(123)包括由所述用户设备(102)的所述用户指定的一个或多个词项；或者

特定于动作的冻结词(123)，所述特定于动作的冻结词(123)与要由所述数字助理(109)执行的所述操作相关联。

3.根据权利要求1或2所述的方法(300)，其中，在所述音频数据(120)中检测所述冻结词(123)包括：

从所述音频数据(120)中提取音频特征；

使用冻结词检测模型(160)通过处理所提取的音频特征来生成冻结词置信度分数，所述冻结词检测模型(160)是在所述数据处理硬件(510)上执行；以及

当所述冻结词置信度分数满足冻结词(123)置信度阈值时，确定与所述话语(119)相对应的所述音频数据(120)包括所述冻结词(123)。

4.根据权利要求1-3中的任一项所述的方法(300)，其中，在所述音频数据(120)中检测所述冻结词(123)包括：使用在所述数据处理硬件(510)上执行的所述语音辨识器(200)来辨识所述音频数据(120)中的所述冻结词(123)。

5.根据权利要求1-4中的任一项所述的方法(300)，还包括响应于在所述音频数据(120)中检测到所述冻结词(123)：

由所述数据处理硬件(510)指令所述语音辨识器(200)停止对所述音频数据(120)的任何活动处理；以及

由所述数据处理硬件(510)指令所述数字助理(109)完成所述操作的执行。

6.根据权利要求1-5中的任一项所述的方法(300)，其中，处理所述音频数据(120)以确定所述话语(119)包括针对所述数字助理(109)执行所述操作的所述查询(122)包括：

使用所述语音辨识器(200)处理所述音频数据(120)以生成所述音频数据(120)的语音辨识结果(215)；以及

对所述音频数据(120)的所述语音辨识结果(215)执行语义解释以确定所述音频数据(120)包括执行所述操作的所述查询(122)。

7.根据权利要求6所述的方法(300)，还包括响应于在所述音频数据(120)中检测到所述冻结词(123)：

由所述数据处理硬件(510)通过从所述语音辨识结果(215)中剥离所述冻结词(123)来修改所述音频数据(120)的所述语音辨识结果(215)；以及

由所述数据处理硬件(510)使用修改后的语音辨识结果(215)指令所述数字助理(109)执行所述查询(122)请求的所述操作。

8.根据权利要求1-7中的任一项所述的方法(300)，还包括，在使用所述语音辨识器(200)处理所述音频数据(120)之前：

由所述数据处理硬件(510)使用热词检测模型(150)检测所述音频数据(120)中的在所述查询(122)之前的热词(121)；以及

响应于检测到所述热词(121)，由所述数据处理硬件(510)触发所述语音辨识器(200)通过对以下项执行语音辨识来处理所述音频数据(120)：所述热词(121)和/或所述音频数据(120)中的接在所述热词(121)之后的一个或多个词项。

9.根据权利要求8所述的方法(300)，还包括：由所述数据处理硬件(510)基于在所述音频数据(120)中检测到所述冻结词(123)来验证所述热词检测模型(150)检测到的所述热词(121)的存在。

10.根据权利要求8或9所述的方法(300)，其中：

在所述音频数据(120)中检测到所述冻结词(123)包括在被配置为在没有对所述音频数据(120)执行语音辨识的情况下在所述音频数据(120)中检测所述冻结词(123)的所述数据处理硬件(510)上执行冻结词检测模型(160)；以及

所述冻结词检测模型(160)和所述热词检测模型(150)各自包括相同或不同的基于神经网络的模型。

11.一种方法(400)，包括：

在数据处理硬件(510)处接收音频数据(120)的第一实例，所述音频数据(120)的所述第一实例对应于针对数字助理(109)听写用户说出的可听内容(124)的基于听写的查询(122)，所述基于听写的查询(122)由所述用户说出并由与所述用户相关联的启用助理的设备捕获；

在所述数据处理硬件(510)处接收所述音频数据(120)的第二实例，所述音频数据(120)的所述第二实例对应于由所述用户说出并由所述启用助理的设备捕获的所述可听内容(124)的话语(119)；

由所述数据处理硬件(510)使用语音辨识器(200)处理所述音频数据(120)的所述第二实例以生成所述可听内容(124)的转录(225)；以及

在所述音频数据(120)的所述第二实例的所述处理期间：

由所述数据处理硬件(510)在所述音频数据(120)的所述第二实例中检测冻结词(123)，所述冻结词(123)接在由所述用户说出并由所述启用助理的设备捕获的所述话语(119)中的所述可听内容(124)之后；以及

响应于在所述音频数据(120)的所述第二实例中检测到所述冻结词(123)，由所述数据处理硬件(510)提供所述用户说出的所述可听内容(124)的所述转录(225)以用于从所述启用助理的设备输出。

12.根据权利要求11所述的方法(400)，还包括响应于在所述音频数据(120)的所述第二实例中检测到所述冻结词(123)：

由所述数据处理硬件(510)发起所述启用助理的设备处的硬麦克风关闭事件(125)以防止所述启用助理的设备捕获在所述冻结词(123)之后的任何音频；

由所述数据处理硬件(510)停止对所述音频数据(120)的所述第二实例的任何活动处理；以及

在提供所述可听内容(124)的所述转录(225)以用于从所述启用助理的设备输出之前，由所述数据处理硬件(510)从所述转录(225)的末尾剥离所述冻结词(123)。

13.根据权利要求11或12所述的方法(400)，还包括：

由所述数据处理硬件(510)使用所述语音辨识器(200)处理所述音频数据(120)的所述第一实例以生成语音辨识结果(215)；以及

由所述数据处理硬件(510)对所述音频数据(120)的所述第一实例的所述语音辨识结果(215)执行语义解释以确定所述音频数据(120)的所述第一实例包括听写由所述用户说出的所述可听内容(124)的所述基于听写的查询(122)。

14.根据权利要求13所述的方法(400)，还包括，在发起对所述音频数据(120)的所述第二实例的处理以生成所述转录(225)之前：

由所述数据处理硬件(510)基于对所述音频数据(120)的所述第一实例的所述语音辨识结果(215)执行的所述语义解释来确定所述基于听写的查询(122)指定所述冻结词(123)；以及

由所述数据处理硬件(510)指令终结器(230)增加用于终结所述可听内容(124)的所述话语(119)的终结超时持续时间。

15.一种系统(100)，包括：

数据处理硬件(510)；以及

存储器硬件(520)，所述存储器硬件(520)与所述数据处理硬件(510)通信，所述存储器硬件(520)存储指令，所述指令当在所述数据处理硬件(510)上执行时使所述数据处理硬件(510)执行操作，所述操作包括：

接收音频数据(120)，所述音频数据(120)对应于由用户说出并由与所述用户相关联的用户设备(102)捕获的话语(119)；

使用语音辨识器(200)处理所述音频数据(120)以确定所述话语(119)包括针对数字助理(109)执行操作的查询(122)，其中，所述语音辨识器(200)被配置为在所述音频数据(120)中的非语音的预定持续时间之后触发所述话语(119)的终结；以及

在所述音频数据(120)中的非语音的所述预定持续时间之前：

在所述音频数据(120)中检测冻结词(123)，所述冻结词(123)接在所述用户说出并由所述用户设备(102)捕获的所述话语(119)中的所述查询(122)之后；以及

响应于在所述音频数据(120)中检测到所述冻结词(123)，触发所述用户设备(102)处的硬麦克风关闭事件(125)以防止所述用户设备(102)捕获在所述冻结词(123)之后的任何音频。

16.根据权利要求15所述的系统(100)，其中，所述冻结词(123)包括以下中的一个：

17.根据权利要求15或16所述的系统(100)，其中，在所述音频数据(120)中检测所述冻结词(123)包括：

从所述音频数据(120)中提取音频特征；

18.根据权利要求15-17中的任一项所述的系统(100)，其中，在所述音频数据(120)中检测所述冻结词(123)包括：使用在所述数据处理硬件(510)上执行的所述语音辨识器(200)来辨识所述音频数据(120)中的所述冻结词(123)。

19.根据权利要求15-18中的任一项所述的系统(100)，其中，所述操作还包括响应于在所述音频数据(120)中检测到所述冻结词(123)：

指令所述语音辨识器(200)停止对所述音频数据(120)的任何活动处理；以及

指令所述数字助理(109)完成所述操作的执行。

20.根据权利要求15-19中的任一项所述的系统(100)，其中，处理所述音频数据(120)以确定所述话语(119)包括针对所述数字助理(109)执行所述操作的所述查询(122)包括：

21.根据权利要求20所述的系统(100)，其中，所述操作还包括，响应于在所述音频数据(120)中检测到所述冻结词(123)：

通过从所述语音辨识结果(215)中剥离所述冻结词(123)来修改所述音频数据(120)的所述语音辨识结果(215)；以及

使用修改后的语音辨识结果(215)指令所述数字助理(109)执行所述查询(122)请求的所述操作。

22.根据权利要求15-21中的任一项所述的系统(100)，其中，所述操作还包括，在使用所述语音辨识器(200)处理所述音频数据(120)之前：

使用热词检测模型(150)检测所述音频数据(120)中的在所述查询(122)之前的热词(121)；以及

响应于检测到所述热词(121)，触发所述语音辨识器(200)通过对以下项执行语音辨识来处理所述音频数据(120)：所述热词(121)和/或所述音频数据(120)中的接在所述热词(121)之后的一个或多个词项。

23.根据权利要求22所述的系统(100)，其中，所述操作还包括：基于在所述音频数据(120)中检测到所述冻结词(123)来验证所述热词检测模型(150)检测到的所述热词(121)的存在。

24.根据权利要求22或23所述的系统(100)，其中：

在所述音频数据(120)中检测所述冻结词(123)包括在被配置为在没有对所述音频数据(120)执行语音辨识的情况下在所述音频数据(120)中检测所述冻结词(123)的所述数据处理硬件(510)上执行冻结词检测模型(160)；以及

25.一种系统(100)，包括：

数据处理硬件(510)；以及

接收音频数据(120)的第一实例，所述音频数据(120)的所述第一实例对应于针对数字助理(109)听写用户说出的可听内容(124)的基于听写的查询(122)，所述基于听写的查询(122)由所述用户说出并由与所述用户相关联的启用助理的设备捕获；

接收所述音频数据(120)的第二实例，所述音频数据(120)的所述第二实例对应于由所述用户说出并由所述启用助理的设备捕获的所述可听内容(124)的话语(119)；

使用语音辨识器(200)处理所述音频数据(120)的所述第二实例以生成所述可听内容(124)的转录(225)；以及

在所述音频数据(120)的所述第二实例的所述处理期间：

在所述音频数据(120)的所述第二实例中检测冻结词(123)，所述冻结词(123)接在由所述用户说出并由所述启用助理的设备捕获的所述话语(119)中的所述可听内容(124)之后；以及响应于在所述音频数据(120)的所述第二实例中检测到所述冻结词(123)，提供所述用户说出的所述可听内容(124)的所述转录(225)以用于从所述启用助理的设备输出。

26.根据权利要求25所述的系统(100)，其中，所述操作还包括，响应于在所述音频数据(120)的所述第二实例中检测到所述冻结词(123)：

发起所述启用助理的设备处的硬麦克风关闭事件(125)以防止所述启用助理的设备捕获在所述冻结词(123)之后的任何音频；

停止对所述音频数据(120)的所述第二实例的任何活动处理；以及

在提供所述可听内容(124)的所述转录(225)以用于从所述启用助理的设备输出之前，从所述转录(225)的末尾剥离所述冻结词(123)。

27.根据权利要求25或26所述的系统(100)，其中，所述操作还包括：

使用所述语音辨识器(200)处理所述音频数据(120)的所述第一实例以生成语音辨识结果(215)；以及

对所述音频数据(120)的所述第一实例的所述语音辨识结果(215)执行语义解释以确定所述音频数据(120)的所述第一实例包括听写由所述用户说出的所述可听内容(124)的所述基于听写的查询(122)。

28.根据权利要求27所述的系统(100)，其中，所述操作还包括，在发起对所述音频数据(120)的所述第二实例的处理以生成所述转录(225)之前：

基于对所述音频数据(120)的所述第一实例的所述语音辨识结果(215)执行的所述语义解释来确定所述基于听写的查询(122)指定所述冻结词(123)；以及

指令终结器(230)增加用于终结所述可听内容(124)的所述话语(119)的终结超时持续时间。