CN115428066A

CN115428066A - 合成语音处理

Info

Publication number: CN115428066A
Application number: CN202180019712.6A
Authority: CN
Inventors: 安东尼奥·博纳方特; 帕纳焦蒂斯·阿吉斯·奥科诺穆·菲兰德拉斯; 巴托斯·佩尔兹; 阿伦特·凡·科拉尔; 爱奥尼斯·多拉索斯; 乔纳斯·菲利克斯·阿南达·罗恩克; 埃琳娜·索科洛娃; 安德鲁·保罗·布林; 尼基尔·夏尔玛
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2020-03-13
Filing date: 2021-02-24
Publication date: 2022-12-02
Also published as: WO2021183284A1; US20230113297A1; GB202215012D0; US20210287656A1; GB2610709A; DE112021000959T5; US11367431B2; US11823655B2

Abstract

一种语音处理系统接收文本数据和与所述文本数据中表示的命令相关的自然理解数据(例如，域、意图和/或实体)两者。所述系统在基于所述自然理解数据确定对应于所述文本数据的频谱图数据时，使用所述自然理解数据来改变声音特性。

Description

合成语音处理

相关申请数据的交叉引用

本申请要求2020年3月13日以Antonio Bonafonte等人的名义提交的且标题为“合成语音处理(SYNTHETIC SPEECH PROCESSING)”的美国专利申请号16/818,542的优先权。

背景技术

语音处理系统可以包括对话管理器，所述对话管理器处理对应于来自用户的命令的输入数据并确定对应于对命令的响应的输出数据。所述命令可以首先由音频数据表示；自动语音识别部件可以处理音频数据以确定对应的文本数据，并且自然语言理解部件可以处理文本数据以确定命令的域、对应于命令的意图和/或对应于命令的实体中的一者或多者。语音处理系统还可以包括文本到语音的部件以用于生成表示对命令的响应的音频。

附图说明

为了更全面地理解本公开，现在参考下文结合附图进行的描述。

图1示出了根据本公开的实施方案的语音处理方法。

图2A示出了根据本公开的实施方案的用于进行语音处理的用户装置的和远程系统的部件。

图2B示出了根据本公开的实施方案的用于进行语音处理的用户装置的部件。

图3A和图3B示出了根据本公开的实施方案的用于在给定输入数据的情况下生成输出数据的部件。

图4示出了根据本公开的实施方案的用于改写输入文本和/或改变输出音频的声音特性的部件。

图5示出了根据本公开的实施方案的NLU和对话数据的示例。

图6示出了根据本公开的实施方案的用于改写文本数据的部件。

图7示出了根据本公开的实施方案的用于改变输出音频数据的声音特性的部件。

图8示出了根据本公开的实施方案的用于训练TTS系统的部件。

图9A和图9B示出了根据本公开的实施方案的语言编码器和语音解码器。

图10示出了根据本公开的实施方案的用于进行语音处理的自然网络。

图11示出了根据本公开的实施方案的用于进行语音处理的用户装置的部件。

图12示出了根据本公开的实施方案的用于进行语音处理的远程系统的部件。

图13示出了根据本公开的实施方案的联网计算环境。

具体实施方式

语音处理系统可以包括多个部件，其中每个部件可以是经训练的神经网络模型，用于执行与语音处理相关联的各种功能。这些部件可以一起使语音处理系统能够接收、解译和响应来自用户的命令。自动语音识别(ASR)部件(其可以是或包括一个或多个第一次训练后的模型)可以处理对应于命令的音频数据(和/或其他输入数据)并确定对应的输出数据，所述输出数据可以是文本数据、音频数据和/或视频数据。自然语言理解(NLU)部件(其可以是或包括一个或多个第二次训练后的模型)可以处理输出数据以确定域、意图和/或对应于命令的插槽。对话管理器部件(其可以是或包括一个或多个第三次训练后的模型)可以处理输出数据和/或NLU部件的输出以确定对应于对命令的响应的输出数据。最后，文本转语音(TTS)部件(其可以是或包括一个或多个第四次训练后的模型)可以处理输出数据以确定对应的音频数据。在一些实施方案中，ASR、NLU、对话管理器和/或TTS部件可以组合成单个模型。

TTS部件可以基于NLU部件和/或对话管理器部件的输出来改变确定的音频数据的各方面。这些改变后的方面可能包括音频数据中表示的词语的措辞变化和/或声音特性的变化，诸如音频数据中表示的词语的语调、语速、强调和/或口音等。这些声音特性也可以称为韵律。词语措辞的变化和/或声音特性的变化可以使用户体验得到改善，因为所述变化可以更接近人类语音。例如，如果一个人不止一次被问到同一个问题，则对问题的响应可能会有所不同。例如，如果问题是“现在几点了”，一个响应可能是“现在是中午12点”，而另一个响应可能是“现在是中午”。人类可能会在不同的语境下类似地改变语音的声音特性或强调特定的词语。例如，在报告天气时响应可能是中性语气，但在报告出乎意料的事件时可能是激动的语调。类似地，响应中的某些词语，诸如著名乐队的名称，可能比其他词语要读得更重，诸如在响应“TOTO在下周演出！”中。

因此，本公开涉及用于在给定输入文本数据和自然理解(NU)数据的情况下生成合成语音使得合成语音包括至少部分地基于自然理解数据的变化的系统和方法。因此，合成语音中的这些变化可以更接近人类语音自然发生的变化。在各种实施方案中，语言编码器处理输入文本数据以确定表示诸如话语的输入的第一编码数据。可以对第二编码器进行训练以同样处理输入文本数据并确定表示与话语相关的自然理解信息的第二编码数据。这种自然理解信息也可以称为话语的语境。该第二编码数据可以与NLU嵌入数据组合，所述NLU嵌入数据表示由处理输入文本数据的NLU部件确定的编码信息。第二编码数据可以与NLU嵌入数据组合，然后用于调节注意力网络。然后，注意力网络可以将由语言编码器确定的第一编码数据处理为确定的加权编码数据，该加权编码数据继而可以由语音解码器处理以确定音频数据，诸如频谱图数据。例如，如果NLU嵌入数据指示实体在输入文本数据中表示，则注意力网络可以对语言编码器的输出进行加权，使得音频数据包括被强调的实体的表示。

参考图1，用户10发出由输入音频12表示的语音。用户装置110接收输入音频12并将其(使用例如传声器)转换成对应的音频数据。如下文进一步详细解释的，用户装置110可以执行附加语音处理和/或可以经由网络199将音频数据发送到远程系统120以进行进一步的音频处理。不管音频数据是否由用户装置110和/或远程系统120执行，ASR部件都可以处理音频数据以确定对应的文本数据，并且NLU部件可以处理文本数据以确定NLU数据，诸如域、意图和/或与文本数据相关联的实体。

用户装置110和/或远程系统120然后可以使用诸如图7所示的语言编码器702的语言编码器来处理(130)诸如输入文本数据的输入数据。如参考附图更详细解释的，语言编码器702可以是一个或多个神经网络，诸如前馈神经网络(FFNN)和/或循环神经网络。语言编码器702因此可以包括连接到一个或多个其他节点的一个或多个节点；节点可以分层布置，使得一层的输出由第二层处理。所述节点可以各自与将输入乘以第一值的权重和/或将输入加上第二值的偏移相关联。语言编码器702的输出可以是由多个编码值的第一向量组成的第一编码数据；第一向量可以将输入文本数据的词语唯一地标识为单个值集。

用户装置110和/或远程系统120然后可以使用第二编码器(诸如图7的编码器720)处理(132)输入文本数据。如同语言编码器702，第二编码器720可以确定由值的第二向量组成的第二编码数据。然而，与语言编码器720的输出不同，该第二向量可以定义对应于自然理解数据的合成语音的变化，诸如应该强调哪些词语。

用户装置110和/或远程系统120然后可以使用第二编码数据和自然理解数据(由NLU部件确定)来处理(134)第一编码数据。例如，注意力网络，诸如图7的注意力网络704，可以至少部分地基于第二编码数据和/或自然理解数据来确定一个或多个模式的一个或多个权重，以通过使用一个或多个权重处理第一编码数据来确定第三编码数据。如下面更详细解释的，注意力网络704可以是布置在一个或多个层中的节点的神经网络；注意力网络704的每个节点不仅可以连接到语言编码器702的输出层，而且可以连接到语言编码器702的一个或多个其他层中的一个或多个节点。注意力网络704与语言编码器702之间的每个连接可以与权重相关联。通过根据第一编码数据、第二编码数据和自然理解数据改变注意力网络704的权重中的至少一些，注意力网络704使得输出音频中表示的合成语音的变化根据自然理解数据而变化。

用户装置110和/或远程系统120然后可以处理(136)第三编码数据以确定表示对应于对命令的响应的合成语音的音频数据。解码器可以是例如图7的解码器706，并且如同编码器702，可以是神经网络，诸如FFNN或RNN。音频数据可以是音频波形的数字表示、诸如梅尔频谱图的频谱图或任何其他此类形式的音频数据。如果音频数据是频谱图，则其可以由另一个部件(诸如声码器)进行进一步处理，以将频谱图转换成对应的音频波形。对应于音频波形的数据可以由用户装置110确定或可以发送到所述用户装置以作为输出音频14输出。

参考图2A，语音处理系统可以分布在一个或多个用户装置110和一个或多个远程系统120(诸如服务器或本地集线器)上。用户装置110可以捕获包括语音的音频，然后或者处理音频本身和/或将表示音频的音频数据传输到远程系统以进行进一步处理。远程系统120可以访问更大的计算资源，诸如更多和/或比用户装置更快的计算机处理器，因此可能能够比用户装置更快地处理音频数据并确定适当的响应。用户装置可以具有例如唤醒词确定部件，所述唤醒词确定部件检测音频中唤醒词的存在并且仅当检测到唤醒词时才将对应的音频数据传输到远程系统。如本文所使用，“唤醒词”是用户装置的用户可以说出以使得用户装置开始处理音频数据的一个或多个特定词，诸如“Alexa”，其还可以包括命令表示，诸如“打开灯”。

还参考图2B，语音处理系统可以完全设置在用户装置110上。在其他实施方案中，诸如ASR部件的一些附加部件设置在用户装置110上，而诸如语音生成部件280的其他部件设置在远程系统120上。因此，本公开的语音处理系统的部件的任何分布都在其范围内。因此，下面的讨论涉及图2A和图2B的部件的分布以及还涉及类似的分布。

用户装置110和/或远程系统120因此可以包括处理音频数据以确定对应文本数据的自动语音识别(ASR)部件和处理文本数据以确定用户在文本数据中表达的意图并从而确定对意图的适当响应的自然语言理解(NLU)部件。远程系统120可以确定表示响应的数据并将其发送到用户装置110(或其他装置)，然后所述用户装置可以输出响应。在其他实施方案中，用户装置110的用户可能希望传输音频数据的原因不是ASR/NLU处理，诸如与一个或多个其他方或远程系统的单向或双向音频通信。

在处理音频数据之前，装置110可以使用各种技术来首先确定音频数据是否包括用户10的话语的表示。例如，用户装置110可以使用话音-活动检测(VAD)部件202来基于音频数据的各种定量方面确定音频数据中是否表示语音，所述定量方面诸如音频数据的一个或多个帧之间的频谱斜率、一个或多个频谱带中的音频数据的能级、一个或多个频谱带中的音频数据的信噪比和/或其他定量方面。在其他示例中，VAD部件202可以是经训练的分类器，所述经训练的分类器被配置为将语音与背景噪声区分开。分类器可以是线性分类器、支持向量机和/或决策树。在另外的其他示例中，可以应用隐马尔可夫模型(HMM)和/或高斯混合模型(GMM)技术，以将音频数据与语音存储装置中的一个或多个声学模型进行比较，所述声学模型可以包括对应于语音、噪声(例如，环境噪音或背景噪音)和/或静音的模型。

用户装置110可以替代地或另外通过使用唤醒词检测部件204来确定音频数据表示话语。如果VAD部件202正在被使用并且其确定音频数据包括语音，则唤醒词检测部件204然后可以仅激活以处理音频数据以确定唤醒词是否可能在其中被表示。在其他实施方案中，唤醒词检测部件204可以持续处理音频数据(例如，在不包括VAD部件202的系统中)。用户装置110还可以包括用于确定对应于输入音频12中表示的语音的文本数据的ASR部件，并且可以将该文本数据发送到远程系统120。

VAD部件202的训练模型和/或唤醒词检测部件204可以是CNN、RNN、声学模型、隐马尔可夫模型(HMM)和/或分类器。这些经训练的模型可以应用通用的大词汇量连续语音识别(LVCSR)系统来解码音频信号，其中在生成的格子和/或混淆网络中进行唤醒词搜索。另一种唤醒词检测方法分别为每个关键唤醒词词语和非唤醒词语音信号构建HMM。非唤醒词语音包括其他口头词、背景噪声等。可以构建一个或多个HMM来对非唤醒词语音特性进行建模，其可以被称为填充模型。可以使用维特比解码来搜索解码图中的最佳路径，并且对解码输出进行进一步处理以作出关于唤醒词存在的决策。该方法可以通过合并混合DNN-HMM解码框架而扩展为包括鉴别信息。在另一个示例中，唤醒词检测部件204可以直接使用卷积神经网络(CNN)/递归神经网络(RNN)结构，而不使用HMM。唤醒词检测部件204可以通过在DNN的语境窗口内堆叠帧或使用RNN来估计具有语境信息的唤醒词的后验。可以将后继的后验阈值调整和/或平滑应用于决策。也可以使用其他用于唤醒词检测的技术。

在用户装置110检测到唤醒词和/或语音之后，远程系统120可以用于附加的音频处理，可能开始使用ASR和/或NLU处理音频数据,和/或发送对应的音频数据212。在一些情况下，远程系统120可以从用户装置110接收音频数据212(和/或其他装置或系统)并在其上执行语音处理。图2A或图2B中所示的每个部件因此可以设置在用户装置110或远程系统120上。远程系统120可以设置在与用户装置110不同的位置(例如，云服务器)和/或可以设置在与用户装置110相同的位置(例如，本地集线器服务器)。

音频数据212可以发送到例如远程系统120的协调器部件230。协调器部件230可以包括存储器和逻辑，所述存储器和逻辑使得协调器部件230能够向系统120的各种部件传输各种数据片段和各种形式的数据。例如，ASR部件250可以首先将音频数据转录成文本数据，所述文本数据表示对应于音频数据212中表示的语音的一个或多个假设。ASR部件250可以基于音频数据中的话语与预先建立的语言模型之间的相似性来转录所述话语。例如，ASR部件250可以将音频数据与声音的模型(其可以包括例如子词单元，诸如音素)和音频数据中表示的声音序列进行比较，以识别与话语中所说的声音序列相匹配的词语。这些模型可以包括例如一个或多个有限状态换能器(FST)。FST可以包括通过路径连接的多个节点。ASR部件250可以基于FST的第一节点与音频数据的第一子词单元之间的相似性来选择所述第一节点。ASR部件250此后可以基于后续子词单元之间的相似性并且基于第二子词单元跟随第一子词单元的可能性转变到FST的第二节点和后续节点。

在确定文本数据之后，ASR部件250可以发送(或者直接和/或经由协调器部件230)将文本数据发送到对应的NLU部件260。ASR部件250输出的文本数据可以包括得分最高的假设和/或可以包括包含多个假设的N最佳列表(例如，表示音频数据的文本数据的排名的可能解释的列表)。N最佳列表可以另外包括与其中表示的每个假设相关联的得分。每个得分可以指示被执行来生成与该得分相关联的假设的ASR处理的置信度。

NLU部件260可以处理文本数据以确定文本数据中表示的词语的语义解释。也就是说，NLU部件260基于文本数据中表示的个别词语来确定与文本数据中表示的词语相关联的一个或多个含义。含义可以包括域、意图和一个或多个实体。如这些术语在本文中使用的，域表示与命令相关联的一般类别，诸如“音乐”或“天气”。意图表示命令的一种类型，诸如“播放歌曲”或“告诉我明天的预报”。实体表示与命令相关联的特定的人、地点或事物，诸如“Toto”或“Boston”。然而，本公开不限于与含义相关联的这些类别(在本文中通常称为“自然理解数据”，其可以包括由NLU部件260和/或对话管理器部件确定的数据)。

NLU部件260可以确定由文本数据表示的意图(例如，用户期望用户装置110和/或远程系统120执行的动作)以及文本数据中允许装置(例如，装置110、系统120等)执行所述意图的相关信息片段。例如，如果文本数据对应于“play Africa by Toto”，则NLU部件260可以确定用户希望系统输出由Toto乐队演奏的歌曲Africa，NLU部件260确定该歌曲由“播放音乐”意图表示。NLU部件260还可以处理说话者标识符214以确定意图和/或输出。例如，如果文本数据对应于“播放我最喜欢的Toto歌曲”，并且如果标识符对应于“说话者A”，则NLU部件可以确定说话者A最喜欢的Toto歌曲是“Africa”。

协调器部件230可以将NLU数据发送到对话部件270；在一些实施方案中，对话部件270是语音小程序部件290。对话部件270使用NLU数据确定输出文本数据。所述系统可以包括多于一个对话部件270；每个对话部件270可以与一个或多个不同的域、意图和/或实体相关联。例如，如果NLU数据包括对应于“播放音乐”意图的意图数据和对应于“艺术家：Toto”的实体数据，则协调器230可以将NLU数据发送到音乐相关对话部件270，所述音乐相关对话部件可以确定包括Toto音乐音频数据以由用户装置110输出的响应。

对话部件270可以是处理NLU数据(以及在一些实施方案中，处理输入文本数据)并确定表示对输入文本数据中表示的命令的响应的输出文本数据的经训练模型。在一些实施方案中，对话部件270的经训练模型可以是包括编码器和解码器(除了诸如注意力网络等其他可能的部件之外)的序列到序列(“seq2seq”)模型。编码器可以逐字处理输入的文本数据和/或NLU数据以确定表示整个输入文本数据和/或NLU数据的向量。编码器可以包括一个或多个具有循环连接的节点(如此处所述)；例如，这些节点可以是长短期记忆(LSTM)节点。编码器还可以沿第一方向(例如，从头到尾)和第二方向(例如，从头到尾)处理文本数据和/或NLU数据；这种编码器可以称为双向编码器。解码器然后可以处理由编码器确定的向量(在一些实施方案中，和/或注意力网络的一个或多个输出)以确定对输入文本数据的响应。所述响应可以是由输出文本数据表示的一系列词语。对话部件270可以使用训练数据来训练；例如，该训练数据可以是表示命令和对应响应的集合的文本数据。

语音小程序290可以是诸如应用程序等软件。也就是说，语音小程序290可以启用装置110和/或系统120来执行特定功能以便提供数据和/或产生用户10请求的某个其他输出。装置110和/或系统120可以被配置有多于一个语音小程序290。例如，天气语音小程序290可以启用装置110和/或系统120以提供天气信息，共乘语音小程序可以启用装置110和/或系统120以预订关于出租车和/或共乘服务的行程，并且食品订单语音小程序可以启用装置110和/或系统120以关于餐厅的在线订购系统订购比萨饼。

在一些情况下，语音小程序290可以响应于接收到的NLU结果数据提供输出文本数据。装置110和/或系统120可以包括合成语音生成部件280，所述合成语音生成部件从输入文本数据和/或输入音频数据生成输出音频数据。合成语音生成部件280可以使用多种语音合成技术中的一种。在一种被称为单元选择的合成的方法中，合成语音生成部件280对照记录语音的数据库分析文本数据。合成语音生成部件280因此可以选择与文本数据相匹配的记录语音单元，并且将这些单元连结在一起以形成输出音频数据。在另一种被称为参数合成的合成的方法中，合成语音生成部件280改变诸如频率、音量和噪声等参数，以创建包括人工语音波形的输出音频数据。参数合成使用计算机化话音生成器(有时也被称为声码器)。在另一种语音合成方法中，可以是序列到序列模型的经训练模型基于输入文本数据直接生成输出音频数据。

装置110和/或系统120可以包括说话者识别部件295。说话者识别部件295可以确定指示音频数据212是源自特定用户还是说话者的得分。例如，第一得分可以指示音频数据212与第一合成话音相关联的可能性，并且第二得分可以指示语音与第二合成话音相关联的可能性。说话者识别部件295还可以确定关于说话者识别操作的准确性的总体置信度。说话者识别部件295可以通过将音频数据212与其他合成语音的存储的用户音频特性进行比较来执行说话者识别。说话者识别部件295的输出可以用于通知NLU处理以及由语音小程序290执行的处理。

系统120可以包括配置文件存储装置275。配置文件存储装置275可以包括和与装置110交互的个人用户和/或用户租有关的各种信息。配置文件存储装置275可以类似地包括和不一定与用户账户相关联的各个说话者和/或说话者组有关的信息。用户装置110的配置文件存储装置275可以包括用户信息，而远程系统120的配置文件存储装置275可以包括说话者信息。

配置文件存储装置275可以包括一个或多个配置文件。每个配置文件可能与不同的用户和/或说话者相关联。配置文件可能特定于一个用户或说话者和/或一组用户或说话者。例如，配置文件可以是包含与单个家庭的多个用户或说话者相关联的配置文件的“家庭”配置文件。配置文件可以包括由其所包含的所有配置文件共享的偏好。包含在单个配置文件下的每个配置文件可以包括特定于与其相关联的用户或说话者的偏好。也就是说，每个配置文件可以包括来自同一用户配置文件所包含的一个或多个用户配置文件的唯一偏好。配置文件可以是独立的配置文件和/或可能包含在另一个用户配置文件下。如图所示，配置文件存储装置275被实施为远程系统120的一部分。然而，配置文件存储装置275可以设置在用户装置110上和/或例如通过网络199与用户装置110通信的不同系统和/或系统120中。配置文件数据可以用于通知NLU处理、对话管理器处理、和/或语音处理。

每个配置文件可以包括指示各种装置、各种装置中的每一个的输出能力和/或各种装置110中的每一个的位置的信息。此装置配置文件数据表示特定于装置的配置文件。例如，装置配置文件数据可以表示与装置110相关联的各种配置文件、针对从装置110接收的音频数据执行的语音处理、装置110检测到唤醒词时的实例等。相比之下，用户或说话者配置文件数据表示特定于用户或说话者的配置文件。

图3A和图3B示出了根据本公开的实施方案的用于在给定输入数据的情况下生成输出音频的系统的部件。首先参考图3A，如上所述，系统可以在输出音频数据214中引入变化，所述变化可以包括词语的措辞变化和/或声音特性的变化，以更接近人类语音。如上所述，ASR部件250处理输入音频数据212以确定输入文本数据302。同样，如上所述，输入文本数据302可以是表示对应于输入音频数据212的词语的数据和/或可以是对应于输入音频数据212的可能词语的N最佳列表。输入文本数据302可以替代地或另外包括对应于输入音频数据212的子词单元，诸如音素。

虽然图3A表示接收一项输入音频数据212和生成一项输出音频数据214(例如，对话的一个“轮次”)，但是在涉及多个轮次的对话(“多轮”对话)的与用户10的交互期间，可以接收更多的输入数据项，并且可以生成更多的输出数据项。因此，当生成输出音频数据214时，除了NLU数据304和/或对话数据308之外，合成语音识别生成部件280还可以使用来自先前对话轮次的数据。在一些实施方案中，对话数据308包括关于先前轮次的对话的信息。例如，如果输入音频数据212指示用户10没有听到或理解在先前的输出音频数据214中表示的词语，则合成语音生成部件280可以生成包括词语说得更大声或更慢的表示的附加输出音频数据214。

参考图3B，在本公开的其他实施方案中，可以处理除了输入音频数据212之外的其他输入数据312。输入数据312可以是例如文本数据；用户装置110的用户10可以使用用户装置110的输入装置(诸如触摸屏和/或键盘)来输入文本数据。输入数据312可以替代地或另外是视频数据；视频数据可以包括例如用户说话时嘴唇的表示、用户手势的表示(诸如手语)或其他这样的数据。本公开不限于任何类型的输入数据312。

如果输入数据312包括文本数据，则NLU部件260可以处理输入数据312而无需进行进一步处理。如果输入数据312包括其他类型的数据(诸如视频数据)，则视频处理部件(诸如图像识别部件)可以处理输入数据312以确定对应的文本数据，该文本数据继而可以由NLU部件260处理。

类似于输入数据312如何不限于仅音频数据，输出数据314也不限于仅音频数据或仅一种类型的数据。输出数据可以是例如文本数据；如本文所述，该文本数据可以是输出文本数据306的改写版本。输出生成部件380还可以处理输出文本数据306以确定视频数据作为输出数据314。输出数据314还可以是或包括其他数据，诸如视频数据；该视频数据可以包括例如能够表示不同面部表情的面容。输出数据314可以是数据类型的组合，诸如移动嘴唇的面容视频和语音表示的对应音频数据。

返回到图3A，NLU部件260确定NLU数据304，如上所述，所述NLU数据可以包括域、意图、和/或对应于输入文本数据302的实体。同样如上所述，对话管理器部件270处理输入文本数据302和/或NLU数据304以确定输出文本数据306，所述输出文本数据表示对对应于输入文本数据312的命令的响应。对话管理器部件270还可以确定对话数据308，如同NLU数据304，所述对话数据可以包括域、意图和/或与NLU数据304的实体不同的实体。例如，输出文本数据306可以引用未出现在NLU数据304中的新实体和/或可以改变由NLU部件260确定的域。

如下面更详细解释的，合成语音生成部件280处理输出文本数据306、NLU数据304和/或对话数据308以确定输出音频数据214。如本文所述，与输出文本数据306相比，输出音频数据214可以包括不同的词语或词句，和/或可以至少部分地基于NLU数据304和/或对话数据308表示声音特性的变化。

图4示出了根据本公开的实施方案的用于改写输入文本和/或改变输出音频的声音特性的系统的部件。合成语音生成部件280可以包括改写部件402(参考图6更详细描述的)和/或TTS部件406(参考图7更详细描述的)。在一些实施方案中，合成语音生成部件280仅包括TTS部件406并且不执行改写。在其他实施方案中，改写部件402生成改写文本数据404，但TTS部件406不会在输出音频数据214中引入声音特性的变化。

在一些实施方案中，改写部件402和TTS部件406可以通信以确定输出音频数据214是否应该包括由于改写而引起的一种或多种变化、由于声音特性的变化引起的一种或多种变化、或两者。例如，合成语音生成部件280可以例如确定与变化程度相对应的每种变化类型的得分。例如，改写的得分可以由输出文本数据306与改写的文本数据404相比不同的词语数量来确定。可以通过确定输出音频数据310的最大响度、输出音频数据310的最大或最小语速或通过测量输出音频数据310的其他此类属性来确定声音特性变化的得分。如果任一得分高于相应的阈值，或者如果得分的总和高于另一个阈值，则合成语音生成部件280可以确定在输出音频数据310中仅包括来自改写的变化或仅包括输出音频数据310中的声音特性的变化。合成语音生成部件280可以替代地或另外引起改写部件402和/或TTS部件406中的任一者以减少它们各自确定的变化。

图5示出了根据本公开的实施方案的NLU和对话数据的示例。NU数据502可以包括NLU数据302和/或对话数据308。如本文所述，NLU数据302可以包括：域数据502a，其可以包括一个或多个域的表示；意图数据504a，其可以包括一个或多个意图的表示；和/或实体数据506a，其可以包括一个或多个实体的表示。对话数据308可以包括：域数据502b，其可以包括一个或多个域的表示；意图数据504b，其可以包括一个或多个意图的表示；和/或实体数据506b，其可以包括一个或多个实体的表示。例如，如果输入音频数据212包括短语“Alexa,play Africa by Toto”的表示，则NLU部件260可以确定域数据502a对应于“音乐”，意图数据504b对应于“播放音乐”，并且实体数据506a对应于“乐队：Toto”和“歌曲：Africa”。如果对话管理器部件270确定输出文本数据306包括短语“知道了”的表示。你还想听‘Rosanna’吗？，对话管理器部件270还可以确定实体数据506b对应于“乐队：Toto”和“歌曲：Rosanna”。对话数据308还可以包括一些或全部NLU数据304；在这些实施方案中，改写部件402和/或TTS部件406可以处理文本数据306/404和对话数据308，但不处理NLU数据304。NU数据502还可以包括附加数据，诸如表示用户情绪状态的数据。

图6示出了根据本公开的实施方案的用于改写文本数据的改写部件402的部件。改写部件402可以包括seq2seq模型，所述seq2seq模型包括编码器602和解码器606。示出了改写部件402的一个特定实施方式；然而，本公开并不仅限于该实施方式。

编码器602处理输出文本数据306(由对话管理器部件270输出)以确定编码数据。与本文讨论的其他编码器一样，编码器602可以是经训练的神经网络模型，其由布置在一个或多个层中的一个或多个节点组成。

编码数据继而可以由最大池化部件604处理。最大池化部件604可以是减小编码器602输出的编码数据的一维或多维大小的数学函数。最大池化部件604可以将每个维度划分为多个区域，并且对于每个区域，找到该区域的所有值的最大值。最大池化部件604然后可以输出这些最大值和它们的对应区域。

解码器606接收最大池化部件604的输出作为输入。如同编码器602，解码器606可以是经训练的神经网络模型，其由布置在一个或多个层中的一个或多个节点组成，如关于本文所述的其他解码器所描述的。

解码器606可以是自回归的，这意味着其生成的每个输出都作为其输入被反馈回，直到特殊“句子结尾”输出的生成标记由改写文本数据404表示的句子的结尾。为了使改写部件402以解码的句子应该具有的期望属性为条件，解码器606还可以接收NU数据502作为输入，该NU数据可以是例如由编码器确定的NU数据502的编码版本。求和/或平均部件612可以首先通过对NU数据502的一些或所有值(或值组)求和和/或对所述NU数据的一些或全部值(或值组)进行平均来处理所述NU数据。在一些实施方案中，将对应于一个或多个意图504a、504b的值与对应于一个或多个实体506a、506b的值求和或平均。解码器606可以处理求和/平均部件612的输出作为处理编码器602和最大池化部件604的输出之前的第一步骤。

解码器606的输出可以由注意力网络608处理。注意力网络608可以是RNN、DNN、和/或本文讨论的其他网络，并且可以包括具有权重的节点和/或布置成一个或多个层的成本函数。可以在将输入投影到(例如)128维隐藏表示之后计算注意力概率。在一些实施方案中，注意力网络608在将解码器606的输出的某些值发送到投影部件610之前对其进行加权。例如，注意力网络608可以通过增加语境向量的某些部分的值来对其进行加权，并且可以通过减小语境向量的其他部分的值来对其进行加权。增加的值可以对应于投影部件610应该更加关注的值，并且减小的值可以对应于投影部件610应该较少关注的值特征。注意力网络608因此可以允许投影部件610在输出生成的每个步骤“注意”解码器606的输出的不同部分。注意力网络608因此可以允许解码器606和/或线性投影部件610来学习要注意什么。

线性投影部件610可以对注意力网络608的输出执行投影。投影可以是从向量空间到自身的线性变换P，使得P²＝P。线性投影部件610的输出可以与一个或多个全连接层614的输出组合；可以使用softmax部件616来处理该组合以确定改写的文本数据404。Softmax部件616可以执行调整其输入的归一化函数，使得虽然输出中的每个值与其输入的对应值保持相同的比例，但输出的所有值都位于两个值(诸如0和1)之间，并且所有输出值的总和为两个范围中的较大者，诸如1。全连接层614可以通过处理求和/平均部件612的输出来确定其输出。

图7示出了根据本公开的实施方案的用于改变输出音频数据的声音特性的系统的部件。语言编码器702处理输出文本数据306，注意力网络704通过处理编码器702的输出来确定加权编码数据，并且语音解码器706通过处理语言编码器702的输出来确定音频数据(诸如频谱图数据708)。这些部件将参考图9A和图9B更详细地描述。

第二编码器720也处理输出文本数据306。该第二编码器720可以在架构上类似于语言编码器702，但可以具有不同的数量和/或类型的节点和层。对第二编码器720进行训练以确定与输出文本数据306的自然理解相关的信息，诸如表示域、意图和/或对应于输出文本数据306的实体的值的向量。

一个或多个循环层712处理第二编码器720的输出。尽管单独绘制，循环层712可以全部或部分地在第二编码器720内。在这些实施方案中，循环层712可以处理第二编码器720的中间输出。循环层712可以包括循环元素，诸如门控循环单元(GRU)和/或长短期记忆(LSTM)。由于循环层712具有循环连接的性质，因此所述循环层可以确定对应于整个输出文本数据306的输出。

然后，一个或多个前馈层714可以接收循环层712的输出以及NU数据502。前馈层714可以是或包括例如卷积神经网络(CNN)。因此，当语言编码器702处理输出文本数据306时，前馈层714的输出可以用于调节注意力网络704。也就是说，当语言编码器702处理与输出文本数据的一个或多个特定词语对应的数据时，前馈层714可以指示注意力网络704调整其权重中的一个或多个，从而引起声谱图数据708中表示的一个或多个声音特性的对应变化。

注意力网络704可以进一步接收对应于一种或多种一般语音风格的风格数据710。示例性风格包括“新闻播音员”、“英语口音”或“愚蠢的话音”。风格数据710可以是单热向量；向量的每个值可以对应于特定的语音风格，并且向量中只有一个值保持某个值(例如，1)，而所有其他值都保持某个其他值(例如，0)。因此，注意力网络704可以使用风格数据710来关注语言编码器702中与所选风格相对应的部分，同时降低与其他风格相关联的权重。风格数据710可以通过将域、意图或实体中的一者或多者与特定风格相关联并且然后在确定该特定域、意图或实体时指示该风格来确定。

图8示出了根据本公开的实施方案的用于训练TTS系统的部件。输出文本数据306、风格数据710、语言编码器702、注意力网络704、语音解码器706和频谱图数据708对应于参考图7描述的相同部件。然而，在图8中，参考编码器810处理参考频谱图数据808，所述参考频谱图数据可以是一组训练数据。训练数据还可以包括描述参考频谱图数据808的声音特性的注释。参考编码器810可以是变分自动编码器(VAE)，这意味着其被训练以产生一个或多个数据分布而不是精确结果。通过产生这些分布，参考编码器810可以产生比其他方式可能产生的更完整的数据集，尤其是在训练数据有限的情况下。换句话说，参考编码器810在训练期间智能地“填充”训练数据项之间的空白，从而估计附加的训练数据。参考编码器810的输出因此是定义一个或多个分布的参数。在一些实施方案中，这些参数可以包括表示分布的平均值的μ和表示分布的方差的σ。然后，采样部件812可以使用参数来确定后验z，然后可以使用所述后验来训练语言编码器702、注意力网络704和/或语音解码器706，因为它们处理输出文本数据306。

图9A示出了语言编码器702的一个实施方案；然而，本公开不限于编码器702的任何特定实施方案。本文描述的其他编码器，诸如图6的编码器602和/或图7的编码器720可能具有类似的架构。语言编码器702可以接收输入数据，诸如文本数据306，并且字符嵌入部件902可以基于输入数据来创建字符嵌入。字符嵌入可以将文本数据306表示为定义的字符列表，该列表可以包括例如英文字符(例如，a-z和A-Z)、数字、标点符号、特殊字符和/或未知字符。字符嵌入可以使用例如独热编码来将字符列表转换为一个或多个对应向量。向量可以是多维的；在一些实施方案中，向量表示学习的512维字符嵌入。

字符嵌入可以由一个或多个卷积层904处理，所述卷积层可以将一个或多个卷积操作应用于对应于字符嵌入的向量。在一些实施方案中，卷积层904对应于三个卷积层，每个卷积层包含512个具有5×1形状的滤波器，即，每个滤波器跨越五个字符。卷积层904可以对字符嵌入中的长期语境(例如，N-gram)进行建模。卷积层904的最终输出(即，唯一或最终卷积层的输出)可以被传递到双向LSTM层906以生成输出数据。在一些实施方案中，双向LSTM层906包括512个单元：在第一方向上包括256个，并且在第二方向上包括256个。

图9B示出了一个或多个语音解码器706的一个实施方案；然而，本公开不限于解码器706的任何特定实施方案。本文描述的其他编码器，诸如图6的编码器606可以具有类似的架构。语音解码器706可以是网络，诸如神经网络；在一些实施方案中，解码器是自回归递归神经网络(RNN)。语音解码器706可以一次一帧地从参与的编码特征920生成编码特征908。参与的编码特征920可以表示对应于输入频谱图数据306的频率的预测。例如，如果参与的编码特征920对应于表示恐惧情绪的语音，则输入频谱图数据306可以包括对更高频率的预测；如果参与的编码特征920对应于表示耳语的语音，则输入频谱图数据306可以包括对较低频率的预测。在一些实施方案中，输入频谱图数据306包括根据梅尔标度调整的频率，其中输入频谱图数据306对应于被听众判断为彼此距离相等的音高的感知标度。在这些实施方案中，输入频谱图数据306可以包括或被称为梅尔频谱图和/或梅尔频率倒谱(MFC)。

语音解码器706可以包括一个或多个前网络层916。前网络层916可以包括256个隐藏单元的两个全连接层，诸如整流线性单元(ReLU)。前网络层916从先前的时间步长接收输入频谱图数据306并且可以充当信息瓶颈，从而帮助注意力网络704将注意力集中在注意力网络704的特定输出上。在一些实施方案中，前网络层916的使用允许解码器706更多地强调注意力网络704的输出并且较少强调来自先前时间步长的输入频谱图数据306。

前网络层916的输出可以与注意力网络704的输出连接。一个或多个LSTM层910可以接收这个连接的输出。LSTM层910可以包括两个单向LSTM层，每个LSTM层具有(例如)1124个单元。LSTM层910的输出可以用线性变换912(诸如线性投影)进行变换。在其他实施方案中，可以使用不同的变换，诸如仿射变换。可以是卷积层的一个或多个后网络层914可以接收线性变换912的输出；在一些实施方案中，后网络层914包括五层，并且每一层包括(例如)512个具有5×1形状的具有批归一化的滤波器。可以对除最后一层以外的所有输出执行Tanh激活。连接元素可以连接后网络层914的输出与线性变换912的输出以生成频谱图数据306。

图10中示出了示例性神经网络，其可以是编码器602、语言编码器702、编码器720、解码器606和/或语音解码器706。神经网络可以包括被组织为输入层1002、一个或多个隐藏层1004和输出层1006的节点。输入层1002可以包括m个节点，隐藏层1004可以包括n个节点，并且输出层1006可以包括o个节点，其中m、n和o可以是任意数字并且可以表示每层的相同或不同的节点数。输入层1002的节点可以接收输入(例如，音频数据302)，并且输出层1006的节点可以产生输出(例如，输入频谱图数据306)。隐藏层1004的每个节点可以连接到输入层1002中的一个或多个节点以及输出层1004中的一个或多个节点。尽管图10所示的神经网络包括单个隐藏层1004，但是其他神经网络可以包括多个隐藏层1004；在这些情况下，隐藏层中的每个节点都可以连接到相邻隐藏(或输入/输出)层中的一些或所有节点。从一个节点到相邻层中另一个节点的每个连接都可以与权重和/或得分相关联。神经网络可以输出一个或多个输出、一组加权的可能输出或其任意组合。

神经网络也可以使用循环连接来构建，使得网络的隐藏层1004的一个或多个输出再次反馈回到隐藏层1004作为下一组输入。输入层的每个节点都连接到隐藏层的每个节点；隐藏层的每个节点都连接到输出层的每个节点。如图所示，隐藏层的一个或多个输出被反馈回到隐藏层以处理下一组输入。包含循环连接的神经网络可以称为循环神经网络(RNN)。

由神经网络进行处理由每个节点输入的学习权重和网络结构确定。在给定特定输入的情况下，神经网络一次确定一个输出层，直到计算出整个网络的输出层。连接权重可以最初由神经网络在训练期间学习，其中给定的输入与已知的输出相关联。在一组训练数据中，将各种训练示例馈送到网络中。每个示例通常将从输入到输出的正确连接的权重设置为1，并赋予所有连接0权重。由于训练数据中的示例由神经网络处理，因此输入可以被发送到网络并与相关联的输出进行比较以确定网络性能与目标性能的比较情况。使用诸如反向传播的训练技术，可以更新神经网络的权重以减少神经网络在处理训练数据时产生的错误。在一些情况下，可以用格子训练神经网络，以在处理整个格子时改进语音识别。

图11是概念性地示出用户装置110的框图。图12是概念性地示出远程系统120的示例性部件的框图，所述部件可以是一个或多个服务器并且可以有助于TTS处理、NLU处理等。如本文所使用的术语“系统”可以指如在系统/客户端计算结构中理解的传统的系统，但也可以指可以有助于本文讨论的操作的许多不同的计算部件。例如，服务器可以包括物理地和/或通过网络连接到其他装置/部件并且能够执行计算操作的一个或多个物理计算部件(诸如机架系统)。服务器还可包括模拟计算机系统并在一个装置上或跨多个装置运行的一个或多个虚拟机。服务器还可包括硬件、软件、固件等的其他组合以执行本文讨论的操作。服务器可以被配置为使用客户端系统模型、计算机局模型、网格计算技术、雾计算技术、大型机技术、实用程序计算技术、对等模型、沙盒技术或其他计算技术中的一者或多者进行操作。

系统120中可以包括多个服务器，诸如用于执行语音处理的一个或多个服务器。在操作中，这些服务器(或装置组)中的每一个可以包括驻留在相应服务器上的计算机可读和计算机可执行指令，如下面将进一步讨论的。这些装置/系统(110/120)中的每一个可以包括一个或多个控制器/处理器(1104/1204)，所述控制器/处理器可以各自包括用于处理数据和计算机可读指令的中央处理单元(CPU)以及用于存储相应装置的数据和指令的存储器(1106/1206)。存储器(1106/1206)可以单独地包括易失性随机存取存储器(RAM)、非易失性只读存储器(ROM)、非易失性磁阻存储器(MRAM)和/或其他类型的存储器。每个装置(110/120)还可以包括用于存储数据和控制器/处理器可执行指令的数据存储部件(1108/1208)。每个数据存储部件(1108/1208)可以单独地包括一个或多个非易失性存储装置类型，诸如磁存储装置、光学存储装置、固态存储装置等。每个装置(110/120)还可以通过相应的输入/输出装置接口(1102/1202)连接到可移除或外部非易失性存储器和/或存储装置(诸如可移动存储卡、存储键驱动器、联网存储装置等)。装置110还可以包括扬声器1112、传声器1120、显示器1116、和/或相机1118。远程系统120可以类似地包括天线1214、扬声器1212、传声器1220、显示器1216和/或相机1218。

用于操作每个装置/系统(110/120)及其各种部件的计算机指令可以由相应装置的控制器/处理器(1104/1204)在运行时将存储器(1106/1206)用作暂时“工作”存储装置来执行。装置的计算机指令可以以非暂时性方式存储在非易失性存储器(1106/1206)、存储装置(1108/1208)或外部装置中。替代地，除了或代替软件，可执行指令中的一些或全部可以嵌入在相应装置上的硬件或固件中。

每个装置/系统(110/120)都包括输入/输出装置接口(1102/1202)。各种部件可以通过输入/输出装置接口(1102/1202)进行连接，如将在下面进一步讨论的。另外，每个装置(110/120)都可以包括用于在相应装置的部件之间传送数据的地址/数据总线(1124/1224)。除了(或代替)跨总线(1124/1224)连接到其他部件，装置(110/120)内的每个部件还可以直接连接到其他部件。

参考图13，装置110可以包括输入/输出装置接口1102，所述输入/输出装置接口连接到各种部件，诸如音频输出部件(例如，传声器1304和/或扬声器1306)、有线耳机或无线耳机(未示出)，或者能够输出音频的其他部件。装置110还可以包括音频捕获部件。音频捕获部件可以是例如传声器1120或传声器阵列、有线耳机或无线耳机等。如果包括传声器阵列，则可以基于由阵列中的不同的传声器捕获到的声音之间的时间和振幅差异通过声学定位来确定到声音的起源点的近似距离。装置110可以另外包括用于显示内容的显示器。装置110还可以包括相机。

经由天线1114，输入/输出装置接口1102可以经由无线局域网(WLAN)(诸如WiFi)无线电、蓝牙和/或无线网络无线电连接到一个或多个网络199，所述无线网络无线电诸如能够与诸如长期演进(LTE)网络、WiMAX网络、3G网络、4G网络、5G网络等无线通信网络进行通信的无线电。也可以支持有线连接，诸如以太网。通过网络199，系统可以分布在网络环境中。I/O装置接口(1102/1202)还可以包括通信部件，所述通信部件允许在装置(诸如系统的集合中的不同的物理系统或其他部件)之间交换数据。

装置110和/或系统120的部件可以包括它们自己的专用处理器、存储器和/或存储装置。替代地，装置110和/或系统120的一个或多个部件可以利用装置110和/或系统120的I/O接口(1102/1202)、处理器(1104/1204)、存储器(1106/1116)和/或存储装置(1108/1208)。

如上所述，可以在单个系统中采用多个装置。在这样的多装置系统中，装置中的每一个可包括用于执行系统处理的不同方面的不同部件。多个装置可以包括重叠的部件。如本文所述，装置110和/或系统120的部件是说明性的，并且可以被定位为独立装置或者可以全部地或部分地被包括作为更大的装置或系统的部件。

网络199还可以通过无线服务提供商、通过WiFi或蜂窝网络连接等连接语音控制装置110a、平板计算机110d、智能电话110b、冰箱110c、台式计算机110e和/或连接膝上型计算机110f。可以包括其他装置作为网络连接的支持装置，诸如系统120。支持装置可以通过有线连接或无线连接而连接到网络199。联网装置110可以使用一个或多个内置或连接的传声器和/或音频捕获装置来捕获音频，其中由同一装置或经由网络199连接的另一装置执行处理。本文公开的概念可应用在许多不同的装置和计算机系统(包括例如通用计算系统、语音处理系统和分布式计算环境)内。

前述内容也可以根据以下条款来理解。

1.一种用于生成语音的计算机实施的方法，所述方法包括：

从用户装置接收表示命令的第一音频数据；

使用自动语音识别(ASR)部件处理所述第一音频数据以确定表示所述语音的第一文本数据；

使用自然语言理解(NLU)部件来处理所述第一文本数据以确定包括所述第一文本数据中的实体的表示的自然理解数据；

使用对话管理器部件来处理所述自然理解数据以确定表示对所述第一音频数据的响应的第二文本数据，其中所述响应包括对所述实体的引用；

用文本到语音(TTS)部件的语言编码器处理所述第二文本数据以确定表示所述命令中的词语的第一编码数据；

用所述TTS部件的第二编码器处理所述第二文本数据以确定与所述自然理解数据相对应的第二编码数据；

用所述TTS部件的注意力网络处理所述第一编码数据、所述第二编码数据和所述自然理解数据以确定加权编码数据，所述加权编码数据对应于合成语音的变化，所述变化强调所述实体的名称；以及

用所述TTS部件的语音解码器处理所述加权编码数据以确定第二音频数据，所述第二音频数据对应于所述合成语音的所述变化。

2.如条款1所述的计算机实施的方法，其还包括：

使用所述对话管理器部件来处理第二NLU数据以确定表示对第二命令的第二响应的第三文本数据；

用改写部件处理所述第三文本数据和所述第二自然理解数据以确定第四文本数据，所述第四文本数据包括所述实体的表示和在所述第三文本数据中未表示的至少第一词语；以及

用所述TTS部件处理所述第四文本数据以确定第三音频数据。

3.如条款1或2所述的计算机实施的方法，其还包括：

使用所述NLU部件来处理第三文本数据以确定包括重复所述第一音频数据中表示的词语的意图的第二自然理解数据；

使用所述对话管理器部件来处理所述第二自然理解数据以确定表示对所述第三文本数据的响应的第四文本数据；

用所述注意力网络处理所述第二自然理解数据以确定第二加权编码数据，所述第二加权编码数据对应于对所述词语的所述强调；以及

用所述语音解码器处理所述第二加权编码数据以确定第三音频数据，所述第三音频数据对应于与所述词语相关联的第二声音特性。

4.如条款1、2或3所述的计算机实施的方法，其还包括：

确定与所述自然理解数据相关联的域；

确定存储在计算机存储器中的第一数据指示语音风格与所述域相关联；

确定表示所述语音风格的第二数据，

其中所述加权编码数据还至少部分地基于所述第二数据。

5.一种计算机实施的方法，其包括：

接收对应于对命令的响应的第一输入数据；

接收包括所述命令的机器表示的第二输入数据；

用第一模型处理所述第一输入数据以确定表示词语的第一编码数据；

用第二模型处理所述第一输入数据以确定对应于所述第二输入数据的第二编码数据；

使用所述第二编码数据和所述第二输入数据来处理所述第一编码数据以确定第三编码数据；以及

用第三模型处理所述第三编码数据以确定音频数据，所述音频数据对应于与所述第二输入数据相关联的合成语音的变化。

6.如条款5所述的计算机实施的方法，其还包括：

使用声码器处理所述音频数据以确定输出音频数据；以及

使得输出所述输出音频数据。

7.如条款5或6所述的计算机实施的方法，其还包括：

接收对应于对第二命令的第二响应的第三输入数据；

用第四模型处理所述第三输入数据以确定不同于所述第三输入数据的第四输入数据，所述第四输入数据对应于所述第二输入数据；以及

用所述第一模型、所述第二模型和所述第三模型处理所述第四输入数据以确定第二音频数据。

8.如条款7所述的计算机实施的方法，其还包括：

在处理所述第三输入数据之前，确定所述响应对应于所述第二响应并且所述命令对应于所述第二命令。

9.如条款5、6、7或8所述的计算机实施的方法，其还包括：

确定和与所述响应相关联的域相关联的语音风格；

其中所述第三编码数据还至少部分地基于所述语音风格。

10.如条款5、6、7、8或9所述的计算机实施的方法，其还包括：

确定表示所述变化的程度的得分；以及

确定所述得分小于阈值。

11.如条款5、6、7、8、9或10所述的计算机实施的方法，其中用所述第二模型处理所述第一输入数据还包括：

用至少一个循环层处理所述第二模型的中间输出。

12.如权利要求5、6、7、8、9、10或11所述的计算机实施的方法，其还包括：

用所述第三模型处理所述第二输入数据和所述第四编码数据以确定第二音频数据，所述第二音频数据对应于与第四输入数据相关联的所述合成语音的第二变化。

13.一种系统，其包括：

至少一个处理器；以及

至少一个存储器，所述至少一个存储器包括指令，所述指令在由所述至少一个处理器执行时，致使所述系统：

接收对应于对命令的响应的第一输入数据；

接收包括所述命令的机器表示的第二输入数据；

使用所述第二编码数据和所述第二输入数据与注意力网络来处理所述第一编码数据以确定第三编码数据；并且

14.如条款13所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

使用声码器处理所述音频数据以确定输出音频数据；并且

使得输出所述输出音频数据。

15.如条款13或14所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

接收对应于对第二命令的第二响应的第三输入数据；

用第四模型处理所述第三输入数据以确定与所述第三输入数据不同的第四输入数据；并且

16.如条款15所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

17.如条款13、14、15或16所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

确定和与所述响应相关联的域相关联的语音风格；

其中所述第三编码数据还至少部分地基于所述语音风格。

18.如条款13、14、15、16或17所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

确定表示所述变化的程度的得分；并且

确定所述得分小于阈值。

19.如条款13、14、15、16、17或18所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

用至少一个循环层处理所述第二模型的中间输出。

20.如条款13、14、15、16、17、18或19所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

21.一种计算机实施的方法，其包括：

接收对应于对命令的响应的第一输入数据；

接收包括所述命令的机器表示的第二输入数据；

用第一模型处理所述第一输入数据以确定表示所述命令的词语的第一编码数据，所述第一模型包括文本到语音(TTS)部件的语言编码器；

用第二模型处理所述第一输入数据以确定对应于所述第二输入数据的第二编码数据，所述第二模型包括所述TTS部件的第二编码器；

使用所述第二编码数据和所述第二输入数据与所述TTS部件的注意力网络来处理所述第一编码数据以确定第三编码数据；以及

22.如条款21所述的计算机实施的方法，其还包括：

使用声码器处理所述音频数据以确定输出音频数据；以及

使得输出所述输出音频数据。

23.如条款21或22所述的计算机实施的方法，其还包括：

接收对应于对第二命令的第二响应的第三输入数据；

24.如条款23所述的计算机实施的方法，其还包括：

25.如条款21、22、23或24所述的计算机实施的方法，其还包括：

确定和与所述响应相关联的域相关联的语音风格；

其中所述第三编码数据还至少部分地基于所述语音风格。

26.如条款21、22、23、24或25所述的计算机实施的方法，其中所述第三编码数据包括对应于合成语音的所述变化的加权编码数据，所述变化强调所述音频数据中表示的实体的名称。

27.如条款21、22、23、24、25或26所述的计算机实施的方法，其中用所述第二模型处理所述第一输入数据还包括：

用至少一个循环层处理所述第二模型的中间输出。

28.如条款21、22、23、24、25、26或27所述的计算机实施的方法，其还包括：

29.一种系统，其包括：

至少一个处理器；以及

接收对应于对命令的响应的第一输入数据；

接收包括所述命令的机器表示的第二输入数据；

使用所述第二编码数据和所述第二输入数据与所述TTS部件的注意力网络来处理所述第一编码数据以确定第三编码数据；并且

30.如条款29所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

使用声码器处理所述音频数据以确定输出音频数据；并且

使得输出所述输出音频数据。

31.如条款30所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

接收对应于对第二命令的第二响应的第三输入数据；

32.如条款31所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

33.如条款29、30、31或32所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

确定和与所述响应相关联的域相关联的语音风格；

其中所述第三编码数据还至少部分地基于所述语音风格。

34.如条款29、30、31、32或33所述的系统，其中所述第三编码数据包括对应于合成语音的所述变化的加权编码数据，所述变化强调所述音频数据中表示的实体的名称。

35.如条款29、30、31、32、33或34所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

用至少一个循环层处理所述第二模型的中间输出。

本公开的以上方面意在是说明性的。所述方面被选择用于说明本公开的原理和应用，并且不意图是详尽性的或限制本公开。所公开的方面的许多修改和变化对本领域技术人员可显而易见。计算机和语音处理领域的普通技术人员应认识到，本文描述的部件和处理步骤可与其他部件或步骤或者部件或步骤的组合互换，并且仍实现本公开的益处和优点。此外，本领域技术人员应明白，可在不具有本文公开的具体的细节和步骤中的一些或全部的情况下实践本公开。

所公开的系统的方面可以被实施为计算机方法或制品，诸如存储器装置或非暂时性计算机可读存储介质。计算机可读存储介质可由计算机读取，并且可以包括用于致使计算机或其他装置执行本公开描述的过程的指令。计算机可读存储介质可以由易失性计算机存储器、非易失性计算机存储器、硬盘驱动器、固态存储器、闪存驱动器、可移除磁盘和/或其他介质来实施。另外，部件和引擎中的一个或多个的部件可以被实施为固件或硬件，诸如声学前端(AFE)，其尤其包括模拟和/或数字滤波器(例如，被配置为数字信号处理器(DSP)的固件的滤波器)。

如本公开中所使用，除非另有具体说明，否则术语“一”或“一个”可以包括一个或多个物品。此外，除非另有具体说明，否则短语“基于”意图是指“至少部分地基于”。

Claims

1.一种计算机实施的方法，其包括：

接收对应于对命令的响应的第一输入数据；

接收包括所述命令的机器表示的第二输入数据；

2.如权利要求1所述的计算机实施的方法，其还包括：

使用声码器处理所述音频数据以确定输出音频数据；以及

使得输出所述输出音频数据。

3.如权利要求1或2所述的计算机实施的方法，其还包括：

接收对应于对第二命令的第二响应的第三输入数据；

4.如权利要求3所述的计算机实施的方法，其还包括：

5.如权利要求1、2、3或4所述的计算机实施的方法，其还包括：

确定和与所述响应相关联的域相关联的语音风格；

其中所述第三编码数据还至少部分地基于所述语音风格。

6.如权利要求1、2、3、4或5所述的计算机实施的方法，其中所述第三编码数据包括对应于合成语音的所述变化的加权编码数据，所述变化强调所述音频数据中表示的实体的名称。

7.如权利要求1、2、3、4、5或6所述的计算机实施的方法，其中用所述第二模型处理所述第一输入数据还包括：

用至少一个循环层处理所述第二模型的中间输出。

8.如权利要求1、2、3、4、5、6或7所述的计算机实施的方法，其还包括：

9.一种系统，其包括：

至少一个处理器；以及

接收对应于对命令的响应的第一输入数据；

接收包括所述命令的机器表示的第二输入数据；

10.如权利要求9所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

使用声码器处理所述音频数据以确定输出音频数据；并且

使得输出所述输出音频数据。

11.如权利要求10所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

接收对应于对第二命令的第二响应的第三输入数据；

12.如权利要求11所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

13.如权利要求9、10、11或12所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

确定和与所述响应相关联的域相关联的语音风格；

其中所述第三编码数据还至少部分地基于所述语音风格。

14.如权利要求9、10、11、12或13所述的系统，其中所述第三编码数据包括对应于合成语音的所述变化的加权编码数据，所述变化强调所述音频数据中表示的实体的名称。

15.如权利要求9、10、11、12、13或14所述的系统，其中所述至少一个存储器还包括指令，所述指令在由所述至少一个处理器执行时还致使所述系统：

用至少一个循环层处理所述第二模型的中间输出。