CN110896664A

CN110896664A - 热词感知语音合成

Info

Publication number: CN110896664A
Application number: CN201880035906.3A
Authority: CN
Inventors: A.克拉库恩; M.沙里菲
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2020-03-20
Anticipated expiration: 2038-06-25
Also published as: KR102461208B1; KR20210129744A; WO2020005202A1; US11308934B2; JP7248751B2; EP3811359A1; US20210104221A1; KR20200002924A; KR102318340B1; JP2021177258A; CN110896664B; JP6926241B2; CN117912447A; US12067997B2; JP2020528566A; US20210366459A1

Abstract

一种方法(400)，包括：接收用于转换成合成语音(160)的文本输入数据(302)，并且使用被训练成检测分配给用户设备(110)的热词(130)的存在的热词感知模型(320)来确定文本输入数据的发音是否包括热词。热词被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。当文本输入数据的发音包括热词时，该方法还包括从文本输入数据生成音频输出信号(304)，并将音频输出信号提供给音频输出设备(118)以输出音频输出信号。音频输出信号当被用户设备的音频捕获设备捕获时，被配置为阻止在用户设备上发起唤醒过程。

Description

热词感知语音合成

技术领域

本公开涉及热词感知语音合成。

背景技术

使能语音的环境(例如，家、工作场所、学校、汽车等)允许用户向基于计算机的系统大声说出查询或命令，该系统字段化并回答查询和/或基于命令而执行功能。使能语音的环境可以使用分布在环境的不同房间或区域中的联网麦克风设备的网络来实施。这些设备可以使用热词来帮助辨别给定话语何时指向该系统，这与指向环境中存在的另一个体的话语相反。因此，设备可以在睡眠状态或休眠状态下操作，并且仅当检测到的话语包括热词时才唤醒。一旦设备被检测到的话语内的热词唤醒，设备就对热词和/或热词之后的一个或多个术语(term)执行进一步的处理。换句话说，热词和/或一个或多个术语形成将由设备执行的查询或话音命令。随着语音合成器在使能语音的环境内变得更加普遍，包含热词或包括听起来像热词的其他词/子词的合成话语可以使得设备从睡眠/休眠状态唤醒并开始处理合成话语，即使合成话语没有指向该设备。换句话说，合成语音会无意中激活设备，这常常令语音合成器的用户感到沮丧。因此，在环境内接收话语的系统必须具有某种方式来辨别指向该系统的人类语音的话语和从邻近设备输出的非指向该系统的合成语音的话语。

发明内容

一种用于阻止在用户设备上发起唤醒过程的方法。该方法包括：在语音合成设备的数据处理硬件处接收用于转换成合成语音的文本输入数据；以及通过数据处理硬件并使用被训练成检测分配给用户设备的至少一个热词的存在的热词感知模型来确定文本输入数据的发音是否包括热词，该热词当被包括在由用户设备接收的音频输入数据中时，被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。当文本输入数据的发音包括热词时，该方法还包括从文本输入数据生成音频输出信号，以及由数据处理硬件将音频输出信号提供给音频输出设备以输出音频输出信号。音频输出信号当被用户设备的音频捕获设备捕获时，被配置为阻止在用户设备上发起唤醒过程。

本公开的实施方式可以包括一个或多个以下可选特征。在一些实施方式中，确定文本输入数据的发音是否包括热词包括确定文本输入数据的词、子词或文本到语音序列中的至少一个的发音与热词相关联。热词感知模型可以在分配给用户设备的热词的文本到语音序列或音频表示上被训练。此外，文本输入数据可以包括第一语言，并且音频输出信号可以包括不同语言的文本输入数据的翻译。

在一些示例中，该方法还包括由数据处理硬件检测语音合成设备的操作环境内用户设备的存在；以及由数据处理硬件查询用户设备以获得分配给用户设备的用于训练热词感知模型的热词。附加地或替代地，该方法可以包括查询远程热词储存库，以至少获得分配给用户设备的用于训练热词感知模型的热词。

在一些实施方式中，从文本输入数据生成音频输出信号包括向音频输出信号插入水印，该水印表示音频输出信号对应于合成语音，并指示用户设备的热词检测器忽略对合成语音中的热词的检测。在其他实施方式中，生成音频数据包括确定表示对于文本输入数据的文本到语音输出的语音波形，并通过移除或改变与热词相关联的任何声音来改变语音波形，以规避由用户设备的热词检测器对热词的检测。在又一实施方式中，生成音频数据包括确定表示文本输入数据的语音波形，并对音频波形滤波以规避由用户设备的热词检测器对热词的检测。

本公开的另一方面提供了一种用于阻止在用户设备上发起唤醒过程的方法。该方法包括：在用户设备的热词检测器处接收包含热词的音频输入数据，热词被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程；由热词检测器使用热词检测器模型确定音频输入数据是否包括合成语音，热词检测器模型被配置为检测音频输入数据中的热词和合成语音的存在；以及当音频输入数据包括合成语音时，通过热词检测器阻止在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。

该方面可以包括一个或多个以下可选特征。在一些实施方式中，热词检测器模型在包括正训练样本和负训练样本的多个训练样本上被训练。正训练样本包括与说出分配给用户设备的热词的一个或多个用户相对应的人为生成的音频数据。负训练样本包括从一个或多个语音合成器设备输出的合成语音话语。在一些示例中，负训练样本的合成语音话语中的至少一个对分配给用户设备的热词发音。在其他示例中，负训练样本的合成语音话语中没有一个对分配给用户设备的热词发音。确定音频输入数据是否包括合成语音可以包括使用热词检测器模型通过分析音频输入数据的声学特征来检测音频输入数据中合成语音的存在，而不转录或语义解释音频输入数据。

本公开的另一方面提供了一种用于阻止在用户设备上发起唤醒过程的系统。该系统包括语音合成设备的数据处理硬件和与数据处理硬件通信的存储器硬件。该存储器硬件存储指令，该指令当被数据处理硬件运行时，使得数据处理硬件执行操作，所述操作包括：接收用于转换成合成语音的文本输入数据，以及使用被训练成检测分配给用户设备的至少一个热词的存在的热词感知模型来确定文本输入数据的发音是否包括热词，该热词当被包括在由用户设备接收的音频输入数据中时，被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。当文本输入数据的发音包括热词时，所述操作还包括从文本输入数据生成音频输出信号，以及将音频输出信号提供给音频输出设备以输出音频输出信号。音频输出信号当被用户设备的音频捕获设备捕获时，被配置为阻止在用户设备上发起唤醒过程。

本公开的实施方式可以包括一个或多个以下可选特征。在一些实施方式中，确定文本输入数据的发音是否包括热词包括确定文本输入数据的词、子词或文本到语音序列中的至少一个与热词相关联。热词感知模型可以在分配给用户设备的热词的文本到语音序列或音频表示上被训练。此外，文本输入数据可以包括第一语言，音频输出信号可以包括不同语言的文本输入数据的翻译。

在一些示例中，所述操作还包括检测语音合成设备的操作环境内用户设备的存在，以及查询用户设备以获得分配给用户设备的用于训练热词感知模型的热词。附加地或替代地，所述操作还可以包括查询远程热词储存库，以至少获得分配给用户设备的用于训练热词感知模型的热词，。

本公开的另一方面提供了一种用于阻止在用户设备上发起唤醒过程的系统。该系统包括用户设备的数据处理硬件和与数据处理硬件通信的存储器硬件。该存储器硬件存储指令，该指令当被数据处理硬件运行时，使得数据处理硬件执行操作，所述操作包括：在用户设备的热词检测器处接收包含热词的音频输入数据，该热词被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程；由热词检测器使用热词检测器模型确定音频输入数据是否包括合成语音，该热词检测器模型被配置为检测音频输入数据中的热词和合成语音的存在；以及当音频输入数据包括合成语音时，通过热词检测器阻止在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。

本公开的一个或多个实施方式的细节在附图和以下描述中阐述。从说明书和附图中以及从权利要求中，其他方面、特征和优点将是显而易见的。

附图说明

图1是示例使能语音的环境的示意图。

图2是来自使能语音的环境的示例热词检测器的示意图。

图3A和图3B是结合热词感知训练器的示例合成语音系统的示意图。

图4是用于检测文本输入数据中热词的存在的方法的操作的示例布置的流程图，所述文本输入数据用于在语音合成设备处转换成合成语音。

图5是用于当音频输入数据包括合成语音时阻止在用户设备上发起唤醒过程的方法的操作的示例布置的流程图。

图6是可用于实施本文描述的系统和方法的示例计算设备的示意图。

不同附图中相同的参考符号表示相同的元素。

具体实施方式

在使能语音的环境中，可以使用分布在整个环境(例如，家、工作场所、学校等的房间或其他区域)中的联网麦克风设备的网络来实施的用户与基于计算机的系统交互的方式，被设计成主要(如果非排他的话)通过话音输入(即音频命令)。更多的设备正在使用音频命令来指示用户设备的操作。通过使用“热词”(也称为“注意词”、“唤醒短语/词”、“触发短语”或“话音动作发起命令”)，其中为引起系统的注意而说出的预定术语(即关键词)通过协商而被保留，系统能够辨别指向该系统的话语(即，用于发起用于处理话语中的热词之后的一个或多个术语的唤醒过程)和指向环境中个体的话语。换句话说，用户设备可以在低功率模式下操作，但是在检测到热词时，用户设备可以切换到全功率模式，以便检测、处理和分析由麦克风捕获的所有音频数据。然而，随着来自语音合成器(例如，文本到语音(TTS，Text-To-Speech)系统)的合成语音的输出在使能语音的环境内变得更加普遍，包括分配给邻近用户设备的热词、或者组成热词或听起来像热词的词或子词的合成语音可以无意中使得用户设备上的热词检测器(例如，热词器(hotworder))检测到热词的存在，并发起用于处理合成语音中的术语的唤醒过程。如本文所使用的，术语“合成语音”和“合成话语”可互换使用。如本文所使用的，从TTS系统或语音合成设备输出的合成语音包括来自非可听的始发数据输入的机器输出。机器输出可以通知用户由与TTS系统相关联的设备正在执行的操作，或者确认用户向与TTS系统相关联的设备提供的指令。因此，合成语音可与从电视、多媒体机顶盒、立体声系统、收音机、计算机系统或能够输出广播音频的其他类型的设备输出的广播音频相区分。

例如，在使能语音的环境(诸如用户的家)中，用户可以具有一个或多个移动设备(例如，智能电话和/或平板电脑)和智能扬声器/显示设备。智能扬声器/显示设备可以用作数字助理，用于输出合成语音以及触发对话音查询或话音命令的处理，当该话音查询或话音命令之前是分配给相应用户设备的热词时，将执行该语音查询或语音命令。可能发生这样的场景：从设备之一(例如，智能扬声器)输出的、指向用户的合成语音包含构成分配给环境中其他设备之一(例如，用户的平板电脑)的热词的一个或多个词或子词。例如，术语“Dog”可以被指定为用户的平板电脑的热词，并且合成语音的一部分可以叙述术语“hotdog”。结果，其他设备的麦克风可以捕获合成语音，并且热词检测器可以检测到术语“hot”在术语“dog”之前，并触发用户的平板电脑无意中发起唤醒过程。因此，合成语音中热词的发音可能无意中使得邻近的使能语音的设备从睡眠/休眠状态转换到活动状态，在该活动状态中，邻近的使能语音的设备开始处理(即，转录和/或语义解释)合成语音。

本公开的一个目的是避免由于使用由TTS音频(例如，合成语音)生成的热词或听起来像热词的其他术语而导致发起一个或多个其他用户设备的唤醒过程。这将阻止唤醒过程的意外发起，从而允许用户设备更长时间保持在低功率状态以节省功率。

为了阻止响应于检测到合成话语中热词的发音而无意中发起唤醒过程，本文的实施方式针对将分配给邻近设备的热词注入到TTS系统的训练管道中，以生成用于检测热词的存在的热词感知(hotword-aware)模型。热词感知模型可以在分配给邻近设备的热词、与特定用户拥有-控制的一个或多个设备相关联的热词的列表、和/或可以分配给任何给定设备的用于发起唤醒过程的所有潜在热词的列表的任何组合上被训练。例如，语音合成器设备可以使用热词感知模型来确定用于转换成合成语音的文本输入数据的发音是否包括热词。在一些示例中，热词感知模型在热词(诸如热词的序列或字符串)的音频表示(例如声学特征)上被训练。因此，接收用于转换成合成语音的文本输入数据(文本和内容)的语音合成设备可以预处理文本输入数据以获得单独的序列(TTS序列)，并且使用热词感知模型以通过标识TTS序列和从热词感知模型获得的热词序列之间的匹配或相似性来识别序列，其中该序列在被可听地发音时，构成热词或构成热词的音似短语(sound-alike phrase)。例如，包括短语“dawg”的文本输入数据在被可听地发音时，将构成术语“dog”的热词的音似短语。因此，热词感知模型被训练成检测文本输入数据的发音是否包括热词(例如，构成热词或构成热词的音似短语)。TTS系统可以包括在多种语言上训练的多语言TTS系统，使得热词感知模型被训练成检测多种语言的热词或热词的音似短语。

如果与使用热词感知模型相反，语音合成设备简单地以文本形式保存已知热词的日志或白名单，则语音合成设备将无法识别构成热词的文本输入数据中拼写错误的词，并且无法识别构成热词的词内的子词。例如，如果语音合成设备简单地引用已知热词的白名单，则语音合成设备将无法识别构成术语“dog”的热词的、短语“dawg”的文本输入数据(除非“dawg”的拼写被包括在白名单中)，并且将无法识别短语“hotdog”的文本输入数据中的子词“dog”(除非“hotdog”被包括在白名单中)。

一旦语音合成设备确定文本输入数据的发音包括热词，实施方式还包括生成合成语音的音频输出信号的语音合成设备的波形发生器，该波形发生器被配置为当音频输出信号被邻近用户设备的麦克风捕获时，阻止在邻近用户设备上发起唤醒过程。在一些示例中，波形发生器使用用于生成输出音频信号的单元选择逻辑。在这些示例中，波形发生器可以在音频序列上发射已知水印，其中该已知水印对于邻近用户设备上的热词检测器是可标识的；因此，邻近用户设备上的热词检测器将简单地忽略具有已知水印的音频输出信号，即使音频输出信号对热词发音(pronounce the hotword)。替代地，单元选择逻辑可以选择用于生成合成语音(例如，音频输出信号)的单元(或单元子集)的替代变体，这些单元已知与邻近用户设备的热词检测器所使用的热词检测模型对立(adversarial)。这里，热词检测模型可以在这些相同的对立单元上被训练，使得热词检测器知道在推断期间忽略包括这些单元的任何话语(即热词检测器的非训练模式)，由此，即使话语包含热词也阻止唤醒过程的发起。此外，波形发生器可以使用针对邻近用户设备的热词检测器而训练的滤波器来使合成语音失真，使得热词检测器忽略或无法检测到合成语音。

在其他示例中，波形发生器可以通过使用神经网络(例如，基于WaveNet)来生成输出音频信号，以输出表示文本输入数据的合成音素的音频序列。在这些示例中，当合成音素的一部分形成热词时，波形发生器可以提供附加的调节信息，该调节信息使得神经网络在音频序列上发射已知水印，该已知水印对于邻近用户设备上的热词检测器是可标识的，使得即使热词被发音，邻近用户设备也可以简单地忽略音频输出信号。换句话说，水印的存在用于指示邻近用户设备忽略被发音的热词。替代地，可以修改(例如，失真)从神经网络输出的、构成热词(或构成热词的音似短语)的合成语音片段，以与邻近用户设备的热词检测器的检测对立的方式生成输出音频信号。

附加地或替代地，实施方式还可以包括将合成语音话语注入热词检测器的训练管道中，以生成热词检测器模型。热词检测器模型被配置为检测由热词检测器接收的音频输入数据中合成语音的存在。例如，热词检测器训练器可以训练热词检测器检测话语中的热词，并进一步确定话语是否包括合成语音，例如从语音合成设备(例如TTS系统)输出的音频数据。因此，当用户设备上的麦克风捕获包含分配给用户设备的热词的话语时，如果热词检测器检测到该话语包括合成语音，则热词检测器将简单地忽略所捕获话语中热词的存在，从而阻止在用户设备上发起唤醒过程。在一些示例中，热词检测器模型在正(positive)训练示例和负(negative)训练示例上被训练，其中该正训练示例包括与说出分配给用户设备的热词的一个或多个用户相对应的人为生成的音频数据，该负训练示例包括从一个或多个语音合成器设备输出的合成语音话语。通过训练热词检测器模型来检测音频输入数据中合成语音的存在，热词检测器可以有利地使用热词检测器模型通过分析接收的音频输入数据的声学特征来检测合成语音的存在，而不转录或语义解释音频输入数据。

参考图1，在一些实施方式中，使能语音的系统100包括一个或多个用户设备110，110a–b。例如，使能语音的系统100包括彼此靠近并经由网络130连接到远程服务器140(例如云计算环境)的两个用户设备110a、110b。用户设备110a、110b可以彼此通信，也可以不彼此通信。每个用户设备110被配置为捕获与来自用户10的话语150相对应的声音。用户10可以大声说出话语150作为查询或命令。使能语音的系统100可以通过回答查询和/或使得命令被执行来字段化查询或命令。每个用户设备110包括数据处理硬件112和与数据处理硬件112通信并存储指令的存储器硬件114，该指令当由数据处理硬件112运行时，使得数据处理硬件112执行一个或多个操作。每个用户设备110还包括音频捕获设备(例如麦克风)116和语音输出设备(例如扬声器)118，其中该音频捕获设备116用于捕获使能语音的系统100内的口头话语150并将其转换成电信号，该语音输出设备118用于通信传达可听音频信号(例如作为来自用户设备110的输出音频数据)。

每个用户设备110可以与用户10相关联，并且能够在话语150以热词130开始时处理来自相关联的用户10的话语150。热词130可以是使得任一用户设备110将随后的口头短语视为对于系统的话音输入的口头短语。换句话说，热词130可以是明确指示口头输入将被视为话音命令的口头短语。即，热词130可以是触发关于热词130或热词130之后的一个或多个术语的结束点、自动语音识别或语义解释的口语短语。换句话说，引用“热词”指的是作为指定热词的词或短语或者听起来与指定热词的至少一部分相似(例如，听起来与其他语言的热词相似)的词或短语。

为了检测话语150内热词130的存在，每个用户设备110包括热词检测器200。热词检测器200可以接收与话语150相对应的声音，并确定话语150是否包括已经被指定或分配作热词130的术语。在一些示例中，热词检测器200检测来自话语150的捕获的声音的声学特征。这里，当声学特征是热词130的特性时，热词检测器200标识热词130。利用对热词130的检测，热词检测器200可以为用户设备110发起唤醒过程和进一步的过程。在其他配置中，热词检测器200将对热词130的检测通信传达到用户设备110的其他组件。在一些实施方式中，为了高效和有效地检测热词130，热词检测器200由热词检测器模型220用语音的数据或示例来训练，以学习如何标识话语150是否包括热词130。例如，热词检测器200由机器学习模型来教导以标识热词130。

在一些示例中，用户10或用户设备110生成热词查询132，以标识用户10和/或用户设备110感兴趣的热词130。在一些实施方式中，用户设备110经由网络120与远程服务器140通信，以标识和/或接收来自与远程服务器140通信的热词储存库142的热词130。在一些示例中，热词查询132可以包括映射到分配给用户设备110的所有热词130的用户标识符，用户设备110由与用户标识符相关联的用户10拥有。附加地或替代地，用户设备110可以获得与每个邻近用户设备110相关联的标识符(例如，媒体访问控制(MAC，Media Access Control)标识符)，并且在查询132中提供该标识符，以从储存库142获得与每个标识符相关联的所有热词130。热词储存库142可以包括分配给邻近设备110的热词130、与特定用户10所拥有和/或控制的一个或多个设备110相关联的热词130的列表、和/或可以分配给任何给定设备110的用于发起唤醒过程的所有潜在热词130的列表(例如，与(多个)特定类型的(多个)设备110相关联的全局热词)的任何组合。通过生成热词，可以接收(多个)热词130以为热词检测器200形成健壮的热词训练过程。参考图1，每个用户设备110被配置为发送和/或接收对一个或多个其他用户设备110的热词查询132，以理解和/或编译分配给其他用户设备110的(多个)热词130。

每个用户设备110还可以被配置为语音合成设备。作为语音合成设备，用户设备110还可以包括生成合成语音160的语音合成器300，诸如文本到语音(TTS)系统。例如，合成语音160可以可听地传达对从用户10接收的查询的回答。在一些示例中，语音合成器300的所有功能可以驻留在用户设备110上。在其他示例中，语音合成器300的一部分驻留在用户设备110上，且语音合成器300的剩余部分驻留在分布式环境(例如，云计算环境140)上。

在一些示例中，一个设备110(例如，第一用户设备110，110a)上的语音合成器300在分配给另一用户设备110(例如，第二用户设备110b)的热词130的文本到语音序列或音频表示上被训练。例如，与一个设备110相关联的语音合成器300(例如，TTS系统)的训练管道(例如，热词感知训练器310)可以生成用于检测热词130的存在的热词感知模型320。热词感知模型320可以在分配给邻近设备110的热词130、与特定用户10所拥有和/或控制的一个或多个设备110相关联的热词130的列表、和/或可以分配给任何给定设备110的用于发起唤醒过程的所有潜在热词130的列表(例如，与(多个)特定类型的(多个)设备110相关联的全局热词)的任何组合上进行训练。附加地或替代地，热词查询132可以用于获得用于热词感知模型320的(多个)热词130。每个用户设备110的语音合成器300还可以包括用于产生合成语音160的波形发生器312。波形发生器312可以使用单元选择逻辑以用于生成输出音频数据形式的合成语音160。在一些示例中，波形发生器312使用神经网络以用于生成输出音频数据。虽然示例针对使用热词感知模型320以用于检测合成语音中热词130的存在，但是热词感知模型320可以类似地被训练以用于检测其他类型的指定音频(诸如但不限于广播音频)中的热词320。

在示出的示例中，使能语音的系统100包括第一用户设备110a和第二用户设备110b。第二用户设备110b可以被认为是第一用户设备110a的邻近设备，或者反之亦然。这里，当一个设备102上的相应音频捕获设备116能够捕获指向另一设备102的话语150时，用户设备110a、110b被认为彼此“邻近”。换句话说，“邻近”用户设备110a、110b在重叠的音频接收近度内，使得一个用户设备110，110a的语音输出设备118在邻近用户设备110，110b的音频捕获设备116的可检测范围内。虽然使能语音的系统100被示出为包括两个用户设备110a、110b，但是在其他示例中，使能语音的系统100包括附加的用户设备110，而不脱离本公开的范围。用户设备110的一些示例是便携式计算机、智能电话、平板计算设备、智能扬声器、智能显示器或可穿戴计算设备。

在一些示例中，用户设备110，110a–b各自对应于通过一个或多个网络120说出词或子词的用户10。例如，用户10可以说出可由第一用户设备110a检测到的、包括“OKGoogle：提醒我明天早上第一件事情是工作时重新启动计算机”的第一话语150a。这里，短语“OK Google”是分配给用户设备110a的热词130，从而使得热词检测器200触发用户设备110a发起用于处理音频输入数据中的热词130和/或热词130之后的一个或多个其他术语(例如，第一话语150a的剩余部分，“提醒我明天早上第一件事情是工作时重新启动计算机”)的唤醒过程。在这个示例中，第一用户设备110a用说出“OK Jim，已经为明天早上设置了提醒”的合成语音160来响应第一话语150a。

类似地，第二用户设备110，110b可以被分配热词130“启动计算机”。在该配置中，当用户10使用热词130“启动计算机”时，用户10期望第二用户设备110，110b发起唤醒过程。因此，当用户10说出可由第二用户设备110b检测到的、包括“启动计算机：从70年代音乐播放列表播放音乐”的第二话语150b时，短语“启动计算机”使得热词检测器200触发第二用户设备110b发起用于处理音频输入数据中的热词130和/或热词130之后的一个或多个其他术语“从70年代音乐播放列表播放音乐”的唤醒过程。

当两个用户设备110邻近时，作为来自第一用户设备110a的输出数据的、包括热词130的合成语音160可能被第二用户设备110b的音频捕获设备116，116b无意中接收到。响应于无意中接收到的包含热词130的合成语音160，用户10不意图针对第二设备110，110b的热词检测器200，200b基于无意中接收到的合成语音160唤醒和/或发起进一步的处理。为了阻止热词检测器200激活第二用户设备110，110b，热词检测器200可以被配置为标识合成语音160并忽略包含热词130的合成语音160。

图2是使能语音的系统100的用户设备110内的热词检测器200的示例。热词检测器200被配置为确定诸如话语150的音频输入数据是否包括热词130(例如，基于检测到与热词130相对应的声音的一些或所有声学特征类似于热词130的声学特征)。例如，热词检测器200确定话语150以热词130开始，并且随后发起对于热词检测器200的用户设备110的唤醒过程。

在一些示例中，热词检测器200包括热词检测器训练器210和热词检测器模型220。除了在包含热词的音频表示的正训练样本212，212b上训练之外，热词检测器训练器210还在合成语音160的负训练样本212，212a上训练，以生成热词检测器模型220，从而教导热词检测器200辨别人为生成的话语150(例如，非合成语音)和合成话语160(由语音合成器300生成)。热词检测器模型220是由热词检测器训练器210基于训练示例212，212a–b生成的合成语音感知模型220

在一些实施方式中，热词检测器训练器210通过负训练示例212a和正训练示例212b来训练热词检测器模型220。负训练示例212a是热词检测器训练器210教导热词检测器模型220忽略的音频样本。这里，为了阻止基于合成语音160的对用户设备110的无意发起唤醒，负训练示例212a是与合成语音160相对应的音频样本。一个或多个负训练示例212a的合成语音160可以是包括热词130(即，对热词130发音)的合成语音160或者不包括热词130的合成语音。在任一场景下，热词检测器200被教导忽视合成语音160，使得基于话语150的唤醒过程不会被包含热词或听起来像热词130的一个或多个词/子词的合成语音160无意中发起。通过忽视合成语音160，热词检测器200阻止在用户设备110上发起用于处理音频输入数据中的热词130和/或热词130之后的一个或多个其他术语的唤醒过程。

可选地，热词检测器训练器210可以通过包括其他类型音频(例如，广播音频)的样本的负训练示例212a来附加地或替代地训练热词检测器模型220。因此，热词检测器200可以类似地被教导忽视这些其他类型的音频，使得基于话语150的唤醒过程不会被这些包含热词或听起来像热词130的一个或多个词/子词的其他类型的音频无意中发起。

相反，正训练示例212b是包括热词130的人类语音的话语150的音频样本。热词检测器训练器210向热词检测器模型220馈送正训练示例212b，以教导其中热词检测器200应当发起唤醒过程的示例。附加地或替代地，热词检测器训练器210可以利用作为没有热词130的人类语音的话语150的音频样本的训练示例212来训练热词检测器模型220，以便将热词检测器200暴露于在热词检测器200的操作期间可能发生的进一步场景。在一些实施方式中，由热词检测器训练器210向热词检测器模型220教导的训练示例212越多，热词检测器200在实施热词检测器模型220时就变得越健壮和/或计算上的效率越高。此外，通过利用来自热词检测器训练器210的训练示例212所教导的热词检测器模型220来训练热词检测器200，热词检测器模型220允许通过分析话语150的声学特征来检测话语150中合成语音(例如，音频输入数据)的存在，而不转录或语义解释话语150。

继续参考图2，用户设备110的热词检测器200实施热词检测器模型220，以确定接收到的音频输入数据“对于当你今天早上到达工作时重新启动计算机的提醒”是否包括热词130。例如，第一用户设备110，110a生成该音频输入数据作为合成语音160。作为第一用户设备110，110a的邻近用户设备的第二用户设备110，110b可能例如在第二用户设备110，110b的音频捕获设备116，116b处偶然听到该合成语音160。这里，代替热词检测器200，200b由于作为合成语音160的声学特征的热词130“启动计算机”而发起唤醒过程，热词检测器200，200b实施热词检测器模型220以将音频输入数据标识为合成语音160，从而忽略包含在短语“对于当你今天早上到达工作时重新启动计算机的提醒(reminder to restart computer when you arrive at work this morning)”内的指定热词130“启动计算机(start computer)”的存在。

在一些配置中，热词检测器训练器210被配置为将训练示例212分成训练集合和评估集合(例如，90％训练和10％评估)。利用这些集合，热词检测器训练器210利用音频样本来训练热词检测器模型220，直到热词检测器模型220在评估集合上的性能停止降低。一旦评估集合上的性能停止降低，热词检测器模型220就准备好建模，在该建模中，热词检测器模型220允许热词检测器200精确检测在用户设备110处接收的、不对应于合成语音160的热词130。

附加地或替代地，热词检测器模型220是神经网络。热词检测器模型220可以是卷积神经网络(CNN，Convolution Neural Network)或深度神经网络(DNN，Deep NeuralNetwork)。在一些示例中，热词检测器模型220是卷积神经网络和深度神经网络的组合，使得卷积神经网络滤波、池化、然后平坦化信息以发送到深度神经网络。与当热词检测器模型220是机器学习模型时很像的是，神经网络被训练(例如，由热词检测器训练器210)成生成可用于精确热词检测的有意义的输出。在一些示例中，当热词检测器模型220是神经网络时，均方误差损失函数训练热词检测器模型220。

图3A和图3B是用户设备110的语音合成器300的示例。作为示例，语音合成器300是TTS系统，其中语音合成器的输入是文本输入数据302。语音合成器300可以被配置为通过将文本输入数据302转换成合成语音160，来从文本输入数据302生成合成语音160。如图3A和图3B所示，语音合成器300可以通过不同的过程，诸如单元选择过程(图3A)或神经网络过程(图3B)来生成合成语音160。在任一过程中，语音合成器300包括热词感知训练器310以及热词感知模型320，以提供可由(多个)邻近用户设备110标识的音频输出信号304，从而阻止在邻近用户设备110上发起唤醒过程。换句话说，虽然音频输出信号304可以包括应该发起邻近用户设备110的唤醒过程的热词130，但是语音合成器300将该音频输出信号304标识为合成语音160，以避免/规避发起与其他邻近用户设备110相关联的唤醒过程。在这些示例中，语音合成器300使用热词感知模型320来检测分配给用户设备110的热词130的存在，并确定文本输入数据302的发音(例如，合成语音160的音频输出信号304)是否包括热词130。当发音包括热词130时，语音合成器300生成音频输出信号304，使得发音无法从不同的用户设备110触发(多个)热词检测器200。

在一些示例中，热词感知训练器310利用热词查询132来(例如，从热词储存库142或直接从邻近用户设备110)获得热词130或热词的列表130。如前所述，热词查询132可以获得分配给邻近设备110的热词130，与特定用户10拥有-控制的一个或多个设备110，110a–n相关联的热词130的列表，和/或可以分配给任何给定设备110的用于发起唤醒过程的所有潜在热词130的列表的任何组合。在其他示例中，使能语音的系统100的用户10或用户设备110的管理员利用(多个)热词130预编程和/或更新热词感知训练器310。热词感知训练器310基于接收和/或获得的热词130来训练热词感知模型320。在一些示例中，热词感知训练器310基于至少一个热词130的TTS序列或音频表示来训练热词感知模型320。

语音合成器300可以在语音合成过程期间的任何时刻使用热词感知模型320。在一些示例中，语音合成器300首先生成文本到语音输出，然后使用热词感知模型320来针对热词130或音似短语分析合成语音160。在其他示例中，语音合成器300在合成语音160的生成期间使用热词感知模型320来针对热词130分析文本到语音输出。

当热词感知模型320在语音合成过程期间或在合成语音160内标识热词130时，语音合成器300提供合成语音160包括(例如，在音频输出信号304内)热词130的指示。在一些示例中，语音合成器300在合成语音160的音频序列上发射已知水印352，该已知水印352对于热词检测器200是可标识的。语音合成器300可以以对于热词检测器200可标识的任何方式将水印352插入到合成语音160中或插入在合成语音160之上。例如，语音合成器300可以通过在合成语音160内添加/预先添加/覆盖水印或编码水印来插入水印。语音合成器300可以在合成语音160内以离散间隔在音频序列上插入独特特征，诸如已知水印352。这些离散间隔的范围可以是从毫秒间隔到跨越若干秒的较大间隔的任意间隔。例如，诸如毫秒间隔的较小间隔甚至允许在邻近用户设备110处接收的合成语音160的部分是可标识的，以阻止不想要的唤醒发起。按间隔插入水印352可以进一步阻止在用户设备活动并且已经唤醒的情况下的不想要的语音识别。在一些实施方式中，语音合成器300使用针对给定热词检测器200训练的滤波器354来使合成语音160失真。换句话说，利用滤波器354训练邻近设备110上的热词检测器200，以忽略经滤波的合成语音160。在一些示例中，滤波器354对热词检测器200遮蔽合成语音160内的热词130。类似地，语音合成器300可以通过移除或改变与热词130相关联的任何声音来改变对应于与合成语音160相关联的音频输出信号304的语音波形，以便规避热词检测器200的热词检测。

参考图3A，语音合成器300，300a使用单元选择逻辑来生成合成语音160。这里，语音合成器300是TTS系统，其中单元扩展器330接收文本输入数据302，并将文本输入数据302解析成可与单元数据库340的语音单元兼容的组件。单元选择器350被配置为解释来自单元扩展器330的经解析的文本输入数据，以及选择与来自与单元选择器350通信的单元数据库340的经解析的文本输入数据相对应的语音单元。单元数据库340是通常包括经解析的文本的单元以及这些单元的相应音频信号形式(即，语音单元)的集合的数据库。单元选择器350从与经解析的文本输入数据相关的语音单元构建单元序列360，以形成对于文本输入数据302的合成语音160。在一些配置中，当合成语音160包括热词130时，语音合成器300，300a被配置为选择语音单元的替代变体来形成合成语音160，使得热词检测器200将无法检测热词130。

图3B是类似于图3A的语音合成器的语音合成器300，300b的示例，除了语音合成器300，300b接收文本输入数据302并生成要输入到波形神经网络模型380中的输入文本序列370之外。不像单元选择过程，波形神经网络模型380不要求单元数据库340。当与语音合成器300，300a相比时，在没有单元数据库340的情况下，波形神经网络模型380可以实现更高的计算效率并减少部分计算负荷。

类似于热词检测器模型220，热词感知模型320和/或波形神经网络模型380可以是机器学习模型，其可以首先经历模型训练(例如，在热词感知模型320的情况下，经由热词感知训练器310)，并且一旦训练，可以继续由语音合成器300来实施。在模型训练期间，模型320、380接收数据集合和结果集合，以基于类似于数据集合的输入数据来预测其自身的输出。在热词感知模型320的情况下，数据集合和结果集合可以是与热词130相关联的音频样本或文本样本，诸如短语、词、子词、文本到语音序列、语言变体、语言翻译等。在波形神经网络模型380的情况下，数据集合和结果集合可以是被配置为训练波形神经网络模型380以从输入文本序列370生成合成语音160的文本样本。在一些示例中，出于训练目的，数据被分成训练集合和评估集合(例如，90％训练和10％评估)。利用这些集合，模型320、380进行训练，直到评估集合上的性能停止降低。一旦评估集合上的性能停止降低，每个相应的模型320、380就准备好建模(例如，标识用于热词感知模型320的热词130或者为波形神经网络模型380生成合成语音160)。

附加地或替代地，每个相应的模型320、380是神经网络。模型320、380可以是卷积神经网络(CNN)(例如，修改的WaveNet)或深度神经网络(DNN)。在一些示例中，模型320、380是卷积神经网络和深度神经网络的组合，使得卷积神经网络滤波、池化、然后平坦化信息以发送到深度神经网络。与当模型320、380是机器学习模型时很像的是，神经网络被训练成生成有意义的音频输出信号304。在一些示例中，当模型320、380是神经网络时，均方误差损失函数训练模型320、380。

图4是用于确定文本输入数据302的发音包括分配给邻近设备110的热词130的方法400的操作的示例布置的流程图。数据处理硬件112可以通过运行存储在存储器硬件114上的指令来运行方法400的操作。在操作402，方法400包括在语音合成设备300的数据处理硬件112处接收用于转换成合成语音160的文本输入数据302。在操作404，方法400包括通过数据处理硬件112并使用被训练成检测分配给用户设备110的热词130的存在的热词感知模型320来确定文本输入数据302的发音是否包括热词130，热词130在被包括在由用户设备110接收的音频输入数据中时，被配置为在用户设备110上发起用于处理音频输入数据中的热词130和/或热词130之后的一个或多个其他术语的唤醒过程。

在操作406，当文本输入数据302的发音包括热词130时，方法400包括从输入文本数据302生成音频输出信号304。在操作408，当文本输入数据302的发音包括热词130时，方法400包括由数据处理硬件112向音频输出设备118提供音频输出信号304，以输出音频输出信号304，音频输出信号304在被用户设备110的音频捕获设备116捕获时，被配置为阻止在用户设备110上发起唤醒过程。

图5是用于当音频输入数据包括合成语音160时、阻止在用户设备110上发起用于当音频输入数据包括合成语音160时处理音频输入数据的唤醒过程的方法500的操作的示例布置的流程图。数据处理硬件112可以通过运行存储在存储器硬件114上的指令来运行方法500的操作。在操作502，方法500包括在用户设备110的热词检测器200处接收包含热词130的音频输入数据。热词130被配置为在用户设备110上发起用于处理音频输入数据中的热词130和/或热词130之后的一个或多个其他术语的唤醒过程。在操作504，方法500包括由热词检测器200使用被配置为检测音频输入数据中的热词130和合成语音160的存在的热词检测器模型220来确定音频输入数据是否包括合成语音160。在操作506，当音频输入数据包括合成语音160时，方法500包括通过热词检测器200阻止在用户设备110上发起用于处理音频输入数据中的热词130和/或热词130之后的一个或多个其他术语的唤醒过程。

软件应用(即软件资源)可以指使得计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息应用、媒体流应用、社交网络应用和游戏应用。

非暂时性存储器可以是用于临时或永久存储程序(例如指令序列)或数据(例如程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(read-onlymemory，ROM)/可编程只读存储器(programmable read-only memory，PROM)/可擦除可编程只读存储器(erasable programmable read-only memory，EPROM)/电可擦除可编程只读存储器(electronically erasable programmable read-only memory，EEPROM)(例如，典型地用于诸如引导程序的固件)。易失性存储器的示例包括但不限于随机存取存储器(randomaccess memory，RAM)、动态随机存取存储器(dynamic random access memory，DRAM)、静态随机存取存储器(static random access memory，SRAM)、相变存储器(phase changememory，PCM)以及磁盘或磁带。

图6是可用于实施本文档中描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里示出的组件、它们的连接和关系以及它们的功能仅仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速接口/控制器640、以及连接到低速总线670和存储设备630的低速接口/控制器660。组件610、620、630、640、650和660中的每一个都使用各种总线互连，并且可以安装在公共主板上或者以其他适当的方式安装。处理器610可以处理用于在计算设备600内运行的指令，包括存储在存储器620或存储设备630中的用于在外部输入/输出设备(诸如耦合到高速接口640的显示器680)上显示图形用户界面(graphical user interface，GUI)的图形信息的指令。在其他实施方式中，可以适当地使用多个处理器和/或多个总线，以及多个存储器和多种类型的存储器。此外，可以连接多个计算设备600，其中每个设备提供必要操作的一部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器620在计算设备600内非暂时性地存储信息。存储器620可以是计算机可读介质、(多个)易失性存储单元或(多个)非易失性存储单元。非暂时性存储器620可以是用于临时或永久存储程序(例如指令序列)或数据(例如程序状态信息)以供计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，典型地用于固件，例如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备630能够为计算设备600提供大容量存储。在一些实施方式中，存储设备630是计算机可读介质。在各种不同的实施方式中，存储设备630可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备、或者设备阵列，包括存储区域网络中的设备或其他配置。在另外的实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，该指令当被运行时，执行一种或多种诸如上述那些方法的方法。信息载体是计算机或机器可读的介质，诸如存储器620、存储设备630或处理器610上的存储器。

高速控制器640管理计算设备600的带宽密集型操作，而低速控制器660管理较低带宽密集型操作。这种职责分配仅仅是示例性的。在一些实施方式中，高速控制器640耦合到存储器620、显示器680(例如，通过图形处理器或加速器)，并耦合到可以接受各种扩展卡(未示出)的高速扩展端口650。在一些实施方式中，低速控制器660耦合到存储设备630和低速扩展端口690。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器耦合到一个或多个输入/输出设备(诸如键盘、定点设备、扫描仪)或网络设备(诸如交换机或路由器)。

如图所示，计算设备600可以以多种不同的形式实施。例如，它可以实施为标准服务器600a或者一组这样的服务器600a中的成倍的服务器，实施为膝上型计算机600b，或者实施为机架式服务器系统600c的一部分。

本文描述的系统和技术的各种实施方式可以在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实施。这些不同的实施方式可以包括在可编程系统上可运行和/或可解释的一个或多个计算机程序中的实施方式，该可编程系统包括至少一个可编程处理器，该可编程处理器可以是专用的或通用的，耦合成从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，以及向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级过程和/或面向对象的编程语言和/或用汇编/机器语言来实施。如本文所使用的，术语“机器可读介质”和“计算机可读介质”指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器(也称为数据处理硬件)来执行，该可编程处理器运行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行。举例来说，适于运行计算机程序的处理器包括通用和专用微处理器，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括一个或多个用于存储数据的大容量存储设备，例如磁盘、磁光盘或光盘，或者被可操作地耦合以从一个或多个大容量存储设备接收数据，或向一个或多个大容量存储设备传送数据，或两者兼有。然而，计算机不需要这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，举例来说包括半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路来补充或并入专用逻辑电路。

为了提供与用户的交互，本公开的一个或多个方面可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备(例如CRT(cathode ray tube，阴极射线管)、LCD(liquid crystal display，液晶显示)显示器或触摸屏)，并且可选地具有用户可以通过其向计算机提供输入的键盘和定点设备(例如鼠标或轨迹球)。也可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求，向用户客户端设备上的网络浏览器发送网页。

已经描述了许多实施方式。然而，应当理解，在不脱离本公开的精神和范围的情况下，可以进行各种修改。因此，其他实施方式也在以下权利要求的范围内。

Claims

1.一种方法(400)，包括：

在语音合成设备(300)的数据处理硬件(112)处接收用于转换成合成语音(160)的文本输入数据(302)；

通过所述数据处理硬件(112)和使用被训练成检测分配给用户设备(110)的至少一个热词(130)的存在的热词感知模型(320)，确定所述文本输入数据(302)的发音是否包括热词(130)，所述热词(130)当被包括在由用户设备(110)接收的音频输入数据中时，被配置为在用户设备(110)上发起用于处理所述音频输入数据中的所述热词(130)和/或所述热词(130)之后的一个或多个其他术语的唤醒过程；以及

当所述文本输入数据(302)的发音包括所述热词(130)时：

从所述文本输入数据(302)生成音频输出信号(304)；和

由数据处理硬件(112)向音频输出设备(118)提供所述音频输出信号(304)以输出所述音频输出信号(304)，所述音频输出信号(304)当被用户设备(110)的音频捕获设备(116)捕获时，被配置为阻止在用户设备(110)上发起唤醒过程。

2.根据权利要求1所述的方法(400)，其中，确定所述文本输入数据(302)的发音是否包括所述热词(130)包括确定所述文本输入数据(302)的词、子词或文本到语音序列中的至少一个的发音与所述热词(130)相关联。

3.根据权利要求1或2所述的方法(400)，其中，所述热词感知模型(320)在分配给用户设备(110)的热词(130)的文本到语音序列或音频表示上被训练。

4.根据权利要求1-3中任一项所述的方法(400)，其中，所述文本输入数据(302)包括第一语言，并且所述音频输出信号(304)包括不同语言的所述文本输入数据(302)的翻译。

5.根据权利要求1-4中任一项所述的方法(400)，还包括：

由数据处理硬件(112)检测所述语音合成设备(300)的操作环境内用户设备(110)的存在；以及

由数据处理硬件(112)查询用户设备(110)以获得分配给用户设备(110)的用于训练所述热词感知模型(320)的热词(130)。

6.根据权利要求1-5中任一项所述的方法(400)，还包括由数据处理硬件(112)查询远程热词储存库(142)，以至少获得分配给用户设备(110)的用于训练所述热词感知模型(320)的热词(130)。

7.根据权利要求1-6中任一项所述的方法(400)，其中，从所述文本输入数据(302)生成所述音频输出信号(304)包括向所述音频输出信号(304)插入水印(352)，所述水印(352)表示所述音频输出信号(304)对应于合成语音(160)，并且指示用户设备(110)的热词检测器(200)忽略对所述合成语音(160)中的热词(130)的检测。

8.根据权利要求1-6中任一项所述的方法(400)，其中，从所述文本输入数据(302)生成所述音频输出信号(304)包括：

确定表示针对所述文本输入数据(302)的文本到语音输出的语音波形；以及

通过移除或改变与所述热词(130)相关联的任何声音来改变所述语音波形，以规避由所述用户设备(110)的热词检测器(200)对所述热词(130)的检测。

9.根据权利要求1-6中任一项所述的方法(400)，其中，从所述文本输入数据(302)生成所述音频输出信号(304)包括：

确定表示所述文本输入数据(302)的语音波形；以及

对音频波形滤波以规避由所述用户设备(110)的热词检测器(200)对所述热词(130)的检测。

10.一种方法(500)，包括：

在用户设备(110)的热词检测器(200)处接收包含热词(130)的音频输入数据，所述热词(130)被配置为在用户设备(110)上发起用于处理所述音频输入数据中的所述热词(130)和/或所述热词(130)之后的一个或多个其他术语的唤醒过程；

由所述热词检测器(200)使用热词检测器模型(220)确定所述音频输入数据是否包括合成语音(160)，所述热词检测器模型(220)被配置为检测所述音频输入数据中的热词(130)和所述合成语音(160)的存在；以及

当所述音频输入数据包括合成语音(160)时，通过所述热词检测器(200)阻止在用户设备(110)上发起用于处理所述音频输入数据中的所述热词(130)和/或所述热词(130)之后的一个或多个其他术语的唤醒过程。

11.根据权利要求10所述的方法(500)，其中，所述热词检测器模型(220)在多个训练样本上被训练，所述多个训练样本包括：

正训练样本(212b)，包括与说出分配给用户设备(110)的热词(130)的一个或多个用户相对应的人为生成的音频数据；和

负训练样本(212a)，包括从一个或多个语音合成器设备(300)输出的合成语音话语(160)。

12.根据权利要求11所述的方法(500)，其中，所述负训练样本(212a)的合成语音话语(160)中的至少一个对所述分配给用户设备(110)的热词(130)发音。

13.根据权利要求11所述的方法(500)，其中，所述负训练样本(212a)的合成语音话语(160)中没有一个对所述分配给用户设备(110)的热词(130)发音。

14.根据权利要求10-13中任一项所述的方法(500)，其中，确定所述音频输入数据是否包括所述合成语音(160)包括使用所述热词检测器模型(220)通过分析所述音频输入数据的声学特征来检测所述音频输入数据中合成语音(160)的存在，而不转录或语义解释所述音频输入数据。

15.一种系统(100)，包括：

语音合成设备(300)的数据处理硬件(112)；和

与所述数据处理硬件(112)通信的存储器硬件(114)，所述存储器硬件(114)存储指令，所述指令当由数据处理硬件(112)运行时，使得所述数据处理硬件(112)执行包括以下内容的操作：

接收用于转换成合成语音(160)的文本输入数据(302)；

使用被训练成检测分配给用户设备(110)的至少一个热词(130)的存在的热词感知模型(320)，确定所述文本输入数据(302)的发音是否包括热词(130)，所述热词(130)当被包括在由用户设备(110)接收的音频输入数据中时，被配置为在用户设备(110)上发起用于处理所述音频输入数据中的所述热词(130)和/或所述热词(130)之后的一个或多个其他术语的唤醒过程；和

当所述文本输入数据(302)的发音包括所述热词(130)时：

从所述文本输入数据(302)生成音频输出信号(304)；和

将所述音频输出信号(304)提供给音频输出设备(118)以输出所述音频输出信号(304)，所述音频输出信号(304)当被用户设备(110)的音频捕获设备(116)捕获时，被配置为阻止在用户设备(110)上发起唤醒过程。

16.根据权利要求15所述的系统(100)，其中，确定所述文本输入数据(302)的发音是否包括所述热词(130)包括确定所述文本输入数据(302)的词、子词或文本到语音序列中的至少一个与所述热词(130)相关联。

17.根据权利要求15或16所述的系统(100)，其中，所述热词感知模型(320)在分配给用户设备(110)的热词(130)的文本到语音序列或音频表示上被训练。

18.根据权利要求15-17中任一项所述的系统(100)，其中，所述文本输入数据(302)包括第一语言，并且所述音频输出信号(304)包括不同语言的所述文本输入数据(302)的翻译。

19.根据权利要求15-18中任一项所述的系统(100)，其中，所述操作还包括：

检测所述语音合成设备(300)的操作环境内用户设备(110)的存在；以及

查询用户设备(110)以获得分配给用户设备(110)的用于训练所述热词感知模型(320)的热词(130)。

20.根据权利要求15-19中任一项所述的系统(100)，其中，所述操作还包括查询远程热词储存库(142)，以至少获得分配给用户设备(110)的用于训练所述热词感知模型(320)的热词(130)。

21.根据权利要求15-20中任一项所述的系统(100)，其中，从所述文本输入数据(302)生成所述输出音频信号包括向所述输出音频信号插入水印(352)，所述水印(352)表示所述输出音频信号对应于合成语音(160)，并且指示用户设备(110)的热词检测器(200)忽略对所述合成语音(160)中的热词(130)的检测。

22.根据权利要求15-20中任一项所述的系统(100)，其中，从所述文本输入数据(302)生成所述输出音频信号包括：

23.根据权利要求15-20中任一项所述的系统(100)，其中，从所述文本输入数据(302)生成所述输出音频信号包括：

确定表示所述文本输入数据(302)的语音波形；以及

24.一种系统(100)，包括：

用户设备(110)的数据处理硬件(112)；和

与所述数据处理硬件(112)通信的存储器硬件(114)，所述存储器硬件(114)存储指令，所述指令当由所述数据处理硬件(112)运行时，使得所述数据处理硬件(112)执行包括以下内容的操作：

25.根据权利要求24所述的系统(100)，其中，所述热词检测器模型(220)在多个训练样本上被训练，所述多个训练样本包括：

26.根据权利要求25所述的系统(100)，其中，所述负训练样本(212a)的合成语音话语(160)中的至少一个对所述分配给用户设备(110)的热词(130)发音。

27.根据权利要求25所述的系统(100)，其中，所述负训练样本(212a)的合成语音话语(160)中没有一个对所述分配给用户设备(110)的热词(130)发音。

28.根据权利要求24-27中任一项所述的系统(100)，其中，确定所述音频输入数据是否包括合成语音(160)包括使用所述热词检测器模型(220)通过分析所述音频输入数据的声学特征来检测所述音频输入数据中合成语音(160)的存在，而不转录或语义解释所述音频输入数据。