CN111862934A

CN111862934A - 语音合成模型的改进方法和语音合成方法及装置

Info

Publication number: CN111862934A
Application number: CN202010721985.2A
Authority: CN
Inventors: 俞凯; 徐志航; 陈博
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-30
Anticipated expiration: 2040-07-24
Also published as: CN111862934B

Abstract

本发明公开语音合成模型的改进方法和语音合成方法及装置，其中，一种语音合成模型的改进方法，包括：语音合成模型的改进方法，其中，所述语音合成模型包括受x‑vector控制的LSTM模块，所述方法包括：将经由x‑vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；利用所述说话人嵌入在受x‑vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。本申请的方法和装置提供的方案通过在引入x‑vector控制的模型参数的无监督自适应方法，合成未见过的说话人音频上，相较有监督自适应方法获得更好的自然度，相交基于说话人嵌入的无监督自适应方法获得更好的相似度。

Description

语音合成模型的改进方法和语音合成方法及装置

技术领域

本发明属于语音合成领域，尤其涉及语音合成模型的改进方法和语音合成方法及装置。

背景技术

近年来，随着神经网络的成熟和显卡计算力的提升，端到端语音合成(Text-To-Speech)技术已经可以达到非常高得自然度，甚至可以欺骗过人耳。但是端到端系统受限于训练数据的数量，过少的训练数据无法完成一个成熟的语音合成系统。其中通过多说话人的数据一起建模是解决单说话人数据量不够的一个常见且简单的做法。多说话人的语音合成模型一般分为两种：使用说话人无关模型和说话人相关模型。说话人无关模型不引入任何与说话人相关的参数，相当于假设所有数据来自同一个说话人，而去训练一个所有人数据上的平均模型。说话人相关模型会使用各种说话人参数对不同人的语音数据进行区分建模，其实包括独热码表,说话人嵌入(Speaker embedding)等参数进行建模。

但是，在实际应用场景中，用户录制的数据通常很少，并且录制环境是不可控的自然环境而不是录音棚。因此，此类数据可能会出现一些问题，包括语音质量差，背景噪音，房间混响，发音错误和没有对应文本。所以如何从已有的录音棚环境录制的语音数据上训练的TTS模型迁移到自然环境录制的新数据上是需要考虑的。从预先训练的TTS模型进行自适应训练是一种流行且常用的解决方法。依据是否使用人工校对的对应文本，自适应方法大致可分为两种：有监督的自适应和无监督自适应。

其中，有监督的自适应方法使用音频和对应文本来微调预先训练的 TTS模型参数(或部分模型参数)。许多研究人员探索了不同说话人适应方法，包括把整个语音合成模型分为和说话人相关的部分和非说话人相关的部分，让新的数据去更新说话人相关的参数而保持其他非说话人相关的参数不变。其他研究小组把说话人网络和TTS模型或声码器联合训练。由于近使用少量数据训练所有模型参数通常会导致过度拟合，自动语音识别(ASR)任务中一些特别的自适应技术也被引入TTS任务当中。例如，说话人自适应训练(SAT)，学习隐藏单元向量(LHUC)。

无监督自适应方法仅需要语音数据，而无需对应文本。基于说话者嵌入的无监督方法一般通过说话人嵌入网络提供新的说话人的嵌入，然后保持模型参数不变而更新对应的说话人嵌入的输入来到达无监督自适应的效果。还有一种特别的无监督自适应，可以通过添加一个辅助语音编码器来代替文本编码器来对模型进行梯度反传更新，而无需使用对应音频的文本。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：

1)有监督自适应:在目标数据量比较少的情况下，更新模型参数经常会过拟合，导致合成的声音自然度下降。用LHUC等做法会减小更新的模型参数量，在一定程度上可以缓解过拟合的问题，但是如果目标数据和原先的数据分布差别很大，就无法很好拟合新的数据。

2)无监督自适应：一般来说这种方法在集内数据，或者相似分布数据上有很好的自然度。但是由于此方法无法直接更新模型参数，对于新数据拟合不充分，导致合成的音频经常会和原始说话人不够相似。

发明内容

本发明实施例提供一种语音合成模型的改进方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音合成模型的改进方法，其中，所述语音合成模型包括受x-vector控制的LSTM模块，所述方法包括：将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；以及利用所述说话人嵌入在受x-vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。

第二方面，本发明实施例提供一种语音合成方法，包括：获取音频数据，从所述音频数据中提取x-vector特征；将所述x-vector特征作为额外输入输入至根据权利要求1-3中任一项所述的方法改进后的语音合成模型中；以及获取所述改进后的语音合成模型输出的目标说话人音色音频

第三方面，本发明实施例提供一种语音合成模型的改进装置，其中，所述语音合成模型包括受x-vector控制的LSTM模块，所述方法包括：嵌入模块，配置为将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；以及控制模块，配置为利用所述说话人嵌入在受x-vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。

第四方面，本发明实施例提供一种语音合成方法，包括：提取模块，配置为获取音频数据，从所述音频数据中提取x-vector特征；输入模块，配置为将所述x-vector特征作为额外输入输入至上述的方法改进后的语音合成模型中；以及输出模块，配置为获取所述改进后的语音合成模型输出的目标说话人音色音频。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音合成模型的改进方法或语音合成方法的步骤。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音合成模型的改进方法或语音合成方法的步骤。

本申请的方法和装置提供的方案通过在引入x-vector控制的模型参数的无监督自适应方法，合成未见过的说话人音频上，相较有监督自适应方法获得更好的自然度，相交基于说话人嵌入的无监督自适应方法获得更好的相似度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音合成模型的改进方法的流程图；

图2为本发明一实施例提供的一种语音合成方法的流程图；

图3为三种模型结构，其中，(a)示出了Tacotron模型结构， (b)示出了典型的LSTM模型结构，(c)示出了受x-vector控制的 LSTM的模型结构；

图4为在对数频域中一秒钟内的频谱样本；

图5为按数据类型上色的抽样男性发言人嵌入图；

图6为本发明一实施例提供的一种语音合成模型的改进装置的框图；

图7为本发明一实施例提供的一种语音合成装置的框图；

图8是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音合成模型的改进方法的一实施例的流程图，本实施例的语音合成模型的改进方法可以适用于对语音合成模型进行改进，本申请在此没有限制。

如图1所示，在步骤101中，将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；

在步骤102中，利用所述说话人嵌入在受x-vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。

本实施例的方法通过在引入x-vector控制的模型参数的无监督自适应方法，合成未见过的说话人音频上，相较有监督自适应方法获得更好的自然度，相交基于说话人嵌入的无监督自适应方法获得更好的相似度。

在一些可选的实施例中，所述受x-vector控制的LSTM模块的参数计算表示如下：

i_t＝σ(a^[i]*W^[i][h_t-1，x_t]+c^[i]+b^[i])

j_t＝tanh(a^[j]*W^[j][h_t-1，x_t]+c^[j]+b^[j])

f_t＝σ(a^[f]*W^[f][h_t-1，x_t]+c^[f]+b^[f])

o_t＝σ(a^[o]*W^[o][h_t-1，x_t]+c^[o]+b^[o])

s_t＝f_t*s_t-1+i_t*j_t

h_t＝o_t*tanh(s_t)；

其中，i_t，j_t，f_t，o_t是输入门、候选状态、遗忘门、输出门在时间t时的向量，W^[m]，c^[m]，{i，j，f，o}分别是所述受x-vector控制的LSTM模型的权重矩阵、偏差矩阵和参数下标。

在一些可选的实施例中，上述还包括：对引入x-vector控制的语音合成模型进行无监督自适应。

在一些可选的实施例中，所述语音合成模型还包括编码器、解码器和注意力机制；其中，所述编码器用于将经过文本归一化的音素序列转化为音素嵌入，并在所述音素嵌入上提取文本上下文信息，作为所述编码器的输出；所述注意力机制用于将所述编码器的输出总结为固定长度的上下文相关向量，并在每一帧将所述上下文相关向量输入所述解码器；所述解码器为自回归的循环神经网络，用于在所述LSTM模块的基础上，输入前一帧的声学特征和所述上下文相关向量，预测后续若干帧声学特征。

在一些可选的实施例中，上述方法还包括：将所述解码器输出的声学特征经过后处理网络Postnet进行残差连接以增加更多特征细节；以及将处理后的声学特征再经过声码器还原称音频采样点。

请参考图2，其示出了本申请实施例提供的一种语音合成方法的流程图。

如图2所示，在步骤201中，获取音频数据，从所述音频数据中提取x-vector特征；

在步骤202中，将所述x-vector特征作为额外输入输入至根据权利要求1-3中任一项所述的方法改进后的语音合成模型中；

在步骤203中，获取所述改进后的语音合成模型输出的目标说话人音色音频。

本实施例的方法能够使用改进后的模型输出更自然更符合目标说话人音色的音频。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现，相关技术中存在的技术问题主要是由于以下内容导致的：

1)有监督自适应只考虑如果更新模型参数，而受到数据量的限制，在小数据集尤其是录制环境不可控的自然录制音频数据下，参数更新会严重过拟合，导致在集外文本的合成音频自然度下降。

2)无监督自适应只更新了说话人相关的输入，而无法更新其他说话人相关模型参数，无法很好拟合新的说话人数据，欠拟合导致自然度下降。

本领域的技术人员，一般要解决解决有监督自适应的问题通常会采用减小可更新的模型参数的数目，更新一部分模型参数，在过拟合和欠拟合中寻找相对的平衡。解决无监督自适应的问题通常会用新的数据更新说话人嵌入，或者需要更多的训练数据才能部分缓解相似度问题。

首先在有监督自适应框架下，使用同一组超参数，对录制环境不可控的语音数据没办法做到保持一致的高自然度，即尽管使用了一些ASR 中的自适应技术，在语音合成中小数据的自适应依然会出现过拟合问题。而无监督自适应方法都着重在如何获得一个更好的说话人嵌入而忽视了语音合成模型参数的更新，导致对新数据欠拟合。

本申请实施例的方案使用先进的说话人嵌入x-vector作为我们的说话人相关输入，在无监督自适应的基础上，不仅更新说话人嵌入输入，并且使用x-vector预测说话人相关的模型参数的控制参数。这些控制参数对语音合成中的说话人相关参数进行缩放和偏移操作，使得整个模型参数更加符合目标说话人的数据分布，从而改善了欠拟合所导致的相似度问题。

以Tacotron(图3中的(a))端到端语音合成为例，我们将语音合成系统分为若干部分：文本编码器(Encoder)，声学解码器(Decoder)，注意力机制(Attentionmechanism)，x-vector提取器(Extractor)，声码器 (Vocoder)。我们在Decoder实现x-vector控制的模型参数。

Encoder将经过文本归一化的音素(phoneme)序列转化为因素嵌入，并在其上提取文本上下文信息，作为Encoder的输出。注意力机制是一个将Encoder输出总结为固定长度的上下文相关向量，并在每一帧将对应的上下文向量输入Decoder。Decoder是一个自回归的循环神经网络，它在Long Short-Term Memory(LSTM)网络的基础上，输入前一帧的声学特征和上下文向量，预测下面若干帧声学特征。完成解码的声学特征经过后处理网络Postnet进行残差连接增加更多特征细节。最后Decoder输出的声学特征再经过声码器Vocoder还原成音频采样点。

在原始的Tacotron的模型结构基础上，我们加入了x-vector提取器来帮助提取说话人相关的说话人嵌入作为模型的额外输入。与此同时，其中在受控制的LSTM模块的示意图图3中的(c)中，我们使用控制层 controlling layer来预测对应的控制变量scaling和shifting。在新的数据中，我们只需要提取对应的说话人嵌入，而无需对应文本，就可以对 LSTM的参数直接进行说话人相关的更新。假设h_t，s_t，x_t是在时间t时刻， LSTM的隐层输出，状态和输入，X-vector控制的LSTM的参数计算可以表示为：

i_t＝σ(a^[i]*W^[i][h_t-1，x_t]+c^[i]+b^[i]) (1)

j_t＝tanh(a^[j]*W^[j][h_t-1，x_t]+c^[j]+b^[j]) (2)

f_t＝σ(a^[f]*W^[f][h_t-1，x_t]+c^[f]+b^[f]) (3)

o_t＝σ(a^[o]*W^[o][h_t-1，x_t]+c^[o]+b^[o]) (4)

s_t＝f_t*s_t-1+i_t*j_t (5)

h_t＝o_t*tanh(s_t) (6)

其中，i_t，j_t，f_t，o_t是输入门，候选状态，遗忘门，输出门在时间t时的向量，W^[m]，c^[m]，{i，j，f，o}分别是LSTM的权重矩阵，偏差矩阵和参数下标。在测试阶段，对于一个新的说话人，只需要从其音频中提取x-vector作为额外的输入，就可以直接合成目标说话人音色的音频，在更新模型参数的同时而无需重新训练。

发明人在实现本申请的过程中还采用过以下方案：

在使用类似的方法进行LSTM的模型参数更新的时候，我们可以不使用x-vector进行无监督的控制，而是使用说话人独热码进行有监督的控制。这样做可以同样对LSTM的参数进行说话人相关的控制，属于说话人自适应训练的范畴。我们发现这么做相较于直接用目标数据更新全部的LSTM而言，他合成出来的声音会更糊，更不清晰。这样做就失去了平衡自然度和相似度的意义。

1)技术效果：在引入x-vector控制的模型参数的无监督自适应方法，合成未见过的说话人音频上，相较有监督自适应方法获得更好的自然度，相交基于说话人嵌入的无监督自适应方法获得更好的相似度。

2)深层效果：在更广泛的环境不受控的自然录制音频中，引入x- vector控制的模型参数的无监督自适应方法可以在：不需要音频对应文本，不需要录制人有清晰正确的发音，不严格需要无噪音的录制环境，不需要对目标说话人数据再次进行训练，仅需要极少量的录制音频，情况下，合成稳定、自然、相似的目标说话人音频。

以下介绍发明人的实现本申请实施例的过程，以及在该过程中的一些实验过程及相应的实验数据，以使本领域技术人员更好地理解本申请的技术方案。

在语音合成任务中，有监督的说话人自适应在小数据集上，尤其是在数据不够干净的时候，经常会因为过拟合而导致自然度下降。另一方面，尽管基于说话人嵌入的无监督适应不容易过拟合，但是合成音频的相似度很差。在本文中，我们提出了一种新的无监督说话人自适应方法，在自然度和相似度之间取得平衡。我们使用x-vector用于预测参数化的控制向量，用于调整声学模型参数。由于控制参数有效地自适应了声学模型参数，该方法的自适应能力强于普通的x-vector自适应方法。在测试阶段，控制向量可以通过无监督的方式调整模型参数，而无需重新训练，并且不需要音频对应的文本。实验表明，在收集的数据上，使用x-vector控制的自适应参数在自然度和相似度上均达到稳定的高分。并且，这种方法可以在脏数据上获得更好的自然度和相似度得分。

1.简介

近年来，端到端文本语音转换(TTS)系统已经达到了较高的语音质量和自然度。它吸引了公司和研究小组对使用客户记录的语音数据创建个人设计的语音助手的兴趣。但是，来自客户的数据通常很少，并且记录在他们的日常生活中。因此，此类数据可能会出现一些问题，包括语音质量差，背景噪音，房间混响，发音错误和无笔录。据我们所知，用少量数据构建端到端TTS系统仍然不是一个很好解决的问题。建立具有少量脏话的端到端TTS系统也是具有挑战性的。从预训练的TTS模型进行改编是一种流行的且普遍使用的技术，用于为新演讲者构建TTS系统。适应方法大致可分为两种：有监督的适应和无监督的适应。

有监督的适应方法使用有对应文本的数据来微调预训练的TTS模型参数(或参数的子集)。此外，说话人编码器或说话人嵌入也是说话人自适应的重要研究重点。许多研究人员探索了针对新说话人嵌入说话人的各种说话人适应方法。其他研究小组联合训练了具有TTS模型或声码器的说话人编码器网络，并使用新的说话人数据进行了微调。由于使用少量数据对所有模型参数进行微调通常会导致过拟合，因此自动语音识别(ASR)任务中的自适应技术，例如说话人自适应训练(SAT)，学习隐藏单元贡献(LHUC)被用于TTS任务。将LHUC和特征映射引入到 TTS说话人自适应中，用基于缩放和偏移的说话人自适应变换来训练基于DNN的语音系统中的自适应说话人模型。

无监督自适应方法仅需要语音数据，而无需文本数据。基于说话人嵌入的无监督方法可以固定模型参数，并根据新的说话人来更新说话人嵌入。由于这种方法不能直接更新模型参数，因此在没见过的说话人上相似度的下降依然是一个很重要的问题。一些研究人员提出了使用更先进的说话人嵌入或细粒度说话人嵌入来提高相似度的不同方法。特别是，提出了一种无监督的框架，该框架可以通过添加一个辅助语音编码器来代替语言编码器，而使用无文本的反向传播来更新模型参数。

简而言之，有监督的自适应方法使用转录语音更新说话人相关的参数，当自适应数据有限时，由于过度拟合而导致自然度差。另一方面，基于说话人嵌入的无监督自适应方法仅调整说话人嵌入，而不能更新模型参数，从而导致相似度不足。

在本文中，我们使用基于x-vector控制的模型参数端到端TTS模型，以在自然度和相似度之间取得平衡。我们从x-vector预测参数化的控制向量，并应用控制向量来调整LSTM参数。在实验中，我们在少量测试数据上将我们提出的方法与有监督和无监督适应方法进行了比较。在自然度和相似度上，与其他适应方法相比，我们的方法均获得稳定的高分。最后，我们使用余弦评分和嵌入可视化技术探索嵌入和语音相似度之间的潜在关系。

在第2节中，介绍了x-vector控制的端到端TTS模型和说话人自适应。在第3节中，讨论了实验和结果。在第4节中，介绍了结论和未来的工作。

2.说话人自适应TTS模型

我们的多说话人TTS模型分为3部分：x-vector提取器，基于 Tacotron的声学模型和声码器。

2.1 X-vector提取器

我们遵循中的x-vector提取器模型。X-vector提取器网络由基于时延神经网络(TDNN)的帧层，统计池层和具有softmax功能的分段层组成。帧层充当帧级特征提取器，以较小的时间上下文输入帧。统计信息池层汇总帧级别的输出，并计算时间范围内的均值和标准差。平均值和标准偏差的级联被输入到段级层中以对说话人身份进行分类。在完成x-vector提取器模型的训练之后，从第一片段层的仿射分量中提取x向量，并丢弃其余的片段层。

2.2声学模型

我们接受Tacotron2作为我们的声学模型框架。如图3(a)所示，典型的Tacotron2模型大致由编码器，注意力机制和解码器组成。

在编码器中，文本标准化后，将在基于拼音的音素中转换文本。原始音素通过查找表映射到音素嵌入中，然后馈送到文本CBHG模块，作为编码器输出输出。

在关注机制中，关注网络将编码输出汇总为每个解码器步骤的固定长度上下文向量。在我们的实现中，我们使用动态卷积注意力(DCA) 机制，它是Tacotron2混合位置敏感机制的扩展。这种机制有助于模型以更好的自然度产生较长的语音。

Tacotron解码器是一种自回归递归神经网络，可在一时间步长从编码的输入序列中预测几帧声学特征。来自上一个时间步骤的预测通过 Prenet传递，然后输入到LSTM模块中。LSTM模块的输出与上下文向量连接，然后是线性投影层以投影到声学特征中。最后，将投影输出传递到Postnet并作为剩余连接添加到自身。

对于说话人嵌入，我们使用带有软信号激活的密集层将所有x矢量投影到64维说话人瓶颈嵌入。然后，使用图3的(a)中的红色虚线在4 个位置输入说话人瓶颈嵌入作为与说话人相关的条件输入：

·在输入解码器LSTM之前，与Prenet输出连接。

·在LSTM模块中初始化LSTM初始状态。

·在计算上下文向量之前将其与编码器输出串联。

·在线性投影层之前与LSTM输出串联。

2.3 X-vector控制的模型参数

我们选择Tacotron解码器中的LSTM模块的参数作为x矢量控制的参数来实现，而其他模型参数则与说话人无关。典型的LSTM是两个 LSTM层的简单堆叠，如图3的(b)所示。为了使LSTM参数受x- vector控制，我们在每个时间步均通过LSTM计算过程进行了线性变换。控制向量，更具体地说，缩放和移位向量可以线性变换标准LSTM 中的隐藏表示，如图3的(c)所示。

假设ht，st和xt代表时间步t处的LSTM隐藏输出，单元状态和 LSTM输入，我们可以使用缩放和移位向量a[m]，b[m](m∈i，j，f， o)如下：

it＝σ(a[i]*W[i][ht-1,xt]+c[i]+b[i]) (1)

jt＝tanh(a[j]*W[j][ht-1,xt]+c[j]+b[j]) (2)

ft＝σ(a[f]*W[f][ht-1,xt]+c[f]+b[f]) (3)

ot＝σ(a[o]*W[o][ht-1,xt]+c[o]+b[o]) (4)

st＝ft*st-1+it*jt (5)

h_t＝o_t*tanh(s_t) (6)

其中，jt，ft，ot分别是时间步长t的输入门，单元状态候选者，忘记门和输出门矢量。W[m]，c[m]，{i，j，f，o}代表LSTM权重矩阵，偏置矢量和参数下标分别代表输入门，单元状态候选者，忘记门和输出门矢量。

然后，通过应用控制层CL_scaling，CL_shifting，使由x-vector控制的缩放和移位矢量

其中e是当前话语的说话人瓶颈嵌入。这些控制层是一个简单的线性层，将说话人瓶颈投射到控制向量中。由于控制层在所有话语之间共享，因此它允许我们仅使用来自新说话人的x矢量以无监督的方式来调整LSTM参数。

3.实验

图3的(a)示出了Tacotron结构，(b)示出了典型的LSTM， (c)示出了受控的LSTM。

图3的(a)显示了我们的多说话人Tacotron模型的结构。编码器块为白灰色，解码器块为浅灰色，x向量提取器块为深灰色，声码器块为深灰色。下面的不同色块是LSTM模块的2种不同实现。(b)是原始 Tacotron中典型的LSTM工具。(c)是提出的x矢量控制LSTM工具的说明。控制层将说话人瓶颈投射到缩放和移动向量以及受控LSTM层中。

图4：在对数频域中一秒钟内的频谱样本。其中，(a)录制音频 (b)干净音频,(c)脏音频。

3.1实验设置

为了更好的解释，我们将数据分为三种类型：记录数据，干净数据和脏数据。记录数据(图4的(a))代表了较高的语音质量和我们收集的经过人工校正的TTS数据。干净数据(图4的(b))指的是相对干净的数据，几乎没有噪音和错误。脏数据(图4的(c))的语音质量较低，并且通常具有背景噪声。

数据：使用我们收集的aishell1数据集和中文TTS数据集，Tacotron 训练数据包含约150位男性和250位女性说话人。此外，我们发现数据选择对于训练基于语音水平x矢量的TTS模型是必要的，因此我们丢弃了少于3秒的短语音。最后，男性有107个小时的音频，女性有280个小时的音频。

在测试阶段，选择了8位看不见的发言人(2位干净的男性，2位干净的女性，2位脏的男性，2位脏的女性)进行评估。脏数据中只有40 种声音(大约2分钟或更短)。分割20个句子以进行评估，其余20个句子用于x矢量提取或模型参数微调。

训练细节：我们的实验遵循原始论文中的基本Tacotron2模型参数。 Tacotron解码器的输出步长为3，典型的LSTM模块在原始纸张中是2层标准LSTM的堆栈。还预测了停止令牌以停止自回归解码。此外， Tacotron模型是训练依赖于性别的，这意味着我们仅使用男性数据训练了男性模型，而仅使用女性数据训练了女性模型。此外，我们发现，在看不见的说话人上，发声级x矢量的性能要优于发声级x矢量，因此我们在所有训练的Tacotron模型中仅采用发声级x矢量。我们在单个 2080ti GPU上训练了Tacotron模型，该模型的批次大小为64，初始学习率为1e-3，noam衰减凝视着4000步，β1的Adam优化器＝0.9，β2＝ 0。

3.1.1声码器设置

我们采用LPCNet作为声码器。LPCNet可以分为两部分：帧速率网络和采样速率网络。帧速率网络为每个10毫秒帧计算条件特征，而帧速率网络则基于先前的样本，帧条件和线性预测来计算样本概率。为了更快地进行推断，在采样率网络的每个步骤中预测了2个采样点。

LPCNet的声学功能包括18个树皮尺度的倒谱系数和2个音高参数 (周期和相关性)。这些特性是从20k的窗口大小，10ms的帧偏移，8 位μ-law量化和0.85的预加重从16k采样率的音频中提取的。仅使用录制的TTS数据(不包括aishell1数据集)来训练LPCNet，以获得更好的语音质量。查找表说话人嵌入也被输入到采样率网络中，以训练多说话人LPCNet声码器。

3.1.2 X-vector提取器设置

我们的x向量提取器不同于Kaldi食谱和原始论文。在统计池化之后，我们仅使用2个分段层，并应用[31]中所述的余量softmax代替常规的softmax函数。在特征准备中，我们采用40维log-Mel滤波器组作为输入特征，并以10ms的帧偏移，25ms的帧长提取。

对于x向量提取器的训练数据，我们使用了英语和汉语语音数据的混合，包括Voxceleb2，aishell1，aishell2和Datatang，Speechocean，总计4,500,000话语。经过数据选择和扩充，大约采用了14000个说话人。

3.2主观评价

在本节中，我们将我们提出的自适应方法与一些基本的自适应方法进行比较，包括监督方法和非监督方法：

·original-resyn：由声码器重新合成原始声学功能。

·xvec-adapt(无监督)：仅使用语音调整x向量。LSTM模块选择典型的LSTM工具。

·xvec-adapt+BP-update(有监督)：调整xvector并使用转录语音通过反向传播更新典型LSTM参数。LSTM模块选择典型的LSTM工具。 ·xvec-control-adapt(无监督)：仅使用语音修改xvector。LSTM模块选择受控的LSTM工具。

还有另一个受监督的自适应系统，LSTM参数由说话人身份查询表控制，并使用转录语音进行微调。在我们的实验中，该系统合成了模糊光谱，因此我们仅采用xvec-adapt+BP-update系统作为我们的监督适应基线。

每个看不见的说话人合成50个测试发音，每个系统总共有400个看不见的测试发音。然后，将测试语音按照发声指数和说话人姓名分为10 个子集。在自然度测试中，要求听众使用平均意见评分(MOS)准则从 1分到5分进行评分，以判断语音的自然程度。在相似度测试中，听众被要求从1分到5分进行评分，以判断语音与参考音频的相似程度，而不考虑任何内容或语音质量。

表1：看不见的说话人的自然和相似度MOS得分。

如表1所示，自然而言，xvec-adapt系统在干净数据上得分较高，但在脏数据上得分较低。我们提出的xvec-control-adapt系统意外地在干净和肮脏的数据上都保持稳定的高分。正如我们所期望的，仅凭少量的自适应数据，xvec-adapt+BP-update系统会因讲话风格不佳和不自然的暂停而遭受自然程度的降低。

同样，xvec-adapt和xvec-control-adapt系统在干净数据上几乎没有区别。在脏数据上，xveccontrol-adapt系统具有比xvec-adapt更好的相似度，而xvec-adapt+BP-update系统在干净和脏数据上的相似度得分最高。

3.3余弦相似度评分评估

在假设说话人嵌入相似度和语音相似度之间存在正相关的假设下，我们使用余弦分数来评估真实语音和合成语音之间的相似度。给定两个相同维数的说话人嵌入A和B，余弦得分定义为cos(A，B)＝A·B/(|| A|||||B||)。余弦值越大，表示说话人嵌入对越相似。

遵循主观评估中的相同设置，我们计算从原始语音和合成语音中提取的x矢量的余弦分数。此外，我们扩大了评估发言人的范围。测试了 11个干净的说话人和14个脏的说话人(包括主观听力测试中看不见的说话人)，分别称为clean+和dirty+。

表2：原始语音和合成语音之间的平均余弦相似度得分。

表2中的余弦相似度得分与表1中的MOS相似度。xvec-adapt+ BPupdate系统具有最高的余弦相似度得分，并且xveccontrol-adapt系统在脏数据上比xvec-adapt具有更高的相似度余弦得分尽管与受监管系统 xvec-adapt+BP-update仍有差距。不一致的一点是，与余弦相似度评分相比，MOS相似度评分在有监督和无监督的测试数据系统之间没有这么大的差距。可能是因为评估者受音频自然度的影响，尽管他们被告知不要通过自然度或任何内容对相似度进行评估。

3.4演讲者嵌入可视化

在本节中，我们使用主成分分析(PCA)可视化嵌入，以查看x向量上的嵌入分布，xvec-adapt的说话人瓶颈嵌入和xvec-control-adapt系统。我们从aishell1培训套件，TTS培训套件和肮脏的测试套件中抽取了 38位男性发言人。使用图5中绘制的PCA，将每个说话人的30种发音嵌入到二维图像中。

图5的(a)示出了x-vector无监督自适应，(b)示出了x-vector有监督自适应，(c)示出了x-vector控制的自适应。

图5：按数据类型上色的抽样男性发言人嵌入图。颜色最深的色点来自aishell1训练集，颜色次深的点来自TTS训练集，颜色最浅的点来自肮脏的测试集。一个有色点代表从话语中嵌入。

尽管x向量(图5的(a))在3种嵌入类型之间具有清晰的边界，但xvector有监督自适应系统(图5的(b))在测试说话人和TTS训练说话人之间有一点重叠。在提出的xvec控制自适应系统中(图5的 (c))，测试说话人与TTS培训说话人有更多重叠，而远离aishell1说话人群。

我们在图5的(c)中探索了这些重叠的测试说话人。由于我们已经证明，与表2中的xvec-adapt系统相比，xvec-control-adapt系统具有更好的平均余弦分数(如果在主观评估中进行了测试，则具有MOS相似度得分)，因此我们还发现重叠的测试说话人具有更高的平均余弦分数比不重叠的说话人提高。我们认为，在嵌入级别上更紧密的分布可能是对脏数据提高语音级别相似度的来源。至于自然度，我们猜测重叠的说话人嵌入包含更多的说话人信息，但包含较少的信道噪声信息，这也导致合成语音的自然度更好。

4.结论和今后的工作

在本文中，我们提出了一种在端到端TTS中使用x矢量控制参数的无监督自适应新方法。仅使用来自不需要说话人的新说话人的x向量来调整受控参数。在少量收集的数据中，我们提出的方法在自然和相似度方面获得了稳定的高分。特别是，它可以在脏数据上获得更好的自然度和相似度分数。

在将来的工作中，应考虑基于L向量的更详细的控制参数，例如 LHUC或直接预测权重矩阵，以在自然度和相似度之间找到更好的平衡。

请参考图6，其示出了本发明一实施例提供的一种语音合成模型的改进装置的框图，其中，所述语音合成模型包括受x-vector控制的LSTM 模块。

如图6所示，语音合成模型的改进装置600，包括嵌入模块610和控制模块620。

其中，嵌入模块610，配置为将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；以及控制模块620，配置为利用所述说话人嵌入在受x-vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。

请参考图7，其示出了本发明一实施例提供的一种语音合成装置的框图。

如图7所示，语音合成装置700包括提取模块710和输入模块720。

其中，提取模块710，配置为获取音频数据，从所述音频数据中提取 x-vector特征；输入模块720，配置为将所述x-vector特征作为额外输入输入至根据上述的方法改进后的语音合成模型中；以及输出模块，配置为获取所述改进后的语音合成模型输出的目标说话人音色音频。

应当理解，图6和图7中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6和图7中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如接收模块可以描述为接收语音识别请求的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如接收模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音合成模型的改进方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；

利用所述说话人嵌入在受x-vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音合成模型的改进装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音合成模型的改进装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音合成模型的改进方法。

图8是本发明实施例提供的电子设备的结构示意图，如图8所示，该设备包括：一个或多个处理器810以及存储器820，图8中以一个处理器810为例。语音合成模型的改进方法的设备还可以包括：输入装置830 和输出装置840。处理器810、存储器820、输入装置830和输出装置 840可以通过总线或者其他方式连接，图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音合成模型的改进方法。输入装置830可接收输入的数字或字符信息，以及产生与语音合成模型的改进装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音合成模型的改进装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID 和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音合成模型的改进方法，其中，所述语音合成模型包括受x-vector控制的LSTM模块，所述方法包括：

2.根据权利要求1所述的方法，其中，所述受x-vector控制的LSTM模块的参数计算表示如下：

i_t＝σ(a^[i]*W^[i][h_t-1，x_t]+c^[i]+b^[i])

j_t＝tanh(a^[j]*W^[j][h_t-1，x_t]+c^[j]+b^[j])

f_t＝σ(a^[f]*W^[f][h_t-1，x_t]+c^[f]+b^[f])

o_t＝σ(a^[o]*W^[o][h_t-1，x_t]+c^[o]+b^[o])

s_t＝f_t*s_t-1+i_t*j_t

h_t＝o_t*tanh(s_t)；

3.根据权利要求1或2所述的方法，还包括：

对引入x-vector控制的语音合成模型进行无监督自适应。

4.根据权利要求3所述的方法，其中，所述语音合成模型还包括编码器、解码器和注意力机制；

其中，所述编码器用于将经过文本归一化的音素序列转化为音素嵌入，并在所述音素嵌入上提取文本上下文信息，作为所述编码器的输出；

所述注意力机制用于将所述编码器的输出总结为固定长度的上下文相关向量，并在每一帧将所述上下文相关向量输入所述解码器；

所述解码器为自回归的循环神经网络，用于在所述LSTM模块的基础上，输入前一帧的声学特征和所述上下文相关向量，预测后续若干帧声学特征。

5.根据权利要求4所述的方法，还包括：

将所述解码器输出的声学特征经过后处理网络Postnet进行残差连接以增加更多特征细节；

将处理后的声学特征再经过声码器还原称音频采样点。

6.一种语音合成方法，包括：

获取音频数据，从所述音频数据中提取x-vector特征；

将所述x-vector特征作为额外输入输入至根据权利要求1-3中任一项所述的方法改进后的语音合成模型中；

获取所述改进后的语音合成模型输出的目标说话人音色音频。

7.一种语音合成模型的改进装置，其中，所述语音合成模型包括受x-vector控制的LSTM模块，所述方法包括：

嵌入模块，配置为将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；

控制模块，配置为利用所述说话人嵌入在受x-vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。

8.一种语音合成方法，包括：

提取模块，配置为获取音频数据，从所述音频数据中提取x-vector特征；

输入模块，配置为将所述x-vector特征作为额外输入输入至根据权利要求1-3中任一项所述的方法改进后的语音合成模型中；

输出模块，配置为获取所述改进后的语音合成模型输出的目标说话人音色音频。

9.一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1-6中任一项所述的方法的步骤。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。