CN112634856A

CN112634856A - 语音合成模型训练方法和语音合成方法

Info

Publication number: CN112634856A
Application number: CN202011454223.7A
Authority: CN
Inventors: 俞凯; 徐志航; 陈博; 张辉
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-04-09
Anticipated expiration: 2040-12-10
Also published as: CN112634856B

Abstract

本发明公开一种语音合成模型训练方法，所述语音合成模型包括：编码器、说话人嵌入预测网络、时长拓展模块和解码器；该方法包括：对训练数据进行预处理以得到样本训练数据集和目标说话人数据集；基于样本训练数据集训练语音合成模型；基于目标说话人数据集对说话人嵌入预测网络进行自适应训练，以用于基于待合成文本预测说话人嵌入预测值。本发明实施例首先基于样本训练数据对语音合成模型整体进行训练得到通用语音合成模型，进一步基于目标说话人数据集对训练得到的通用语音合成模型中的说话人嵌入预测网络进行自适应训练，以使得说话人嵌入预测网络能够学习到目标说话人的音色特征，从而在语音合成时合成更加贴近目标说话人的音频信号。

Description

语音合成模型训练方法和语音合成方法

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成模型训练方法、语音合成方法、电子设备及计算机可读存储介质。

背景技术

近年来，随着移动设备的普及，使用语音的人机交互场景变得越来越常见。语音作为人类最重要和自然的交流方式，被认为是人机交互应用最自然的入口，目前被广泛地应用在不同的人机交互场景中。完整的基于语音的人机交互系统中包括用户的询问，机器识别和理解，再通过自然语言生成文字，最后通过语音合成(Text-To-Speech,TTS)的方式反馈给用户回复。因此合成高清晰度，高自然度和多样性的语音是人机交互系统中不可或缺的一环。

在深度学习的帮助下，当下的端到端文本转语音系统已达到较高的语音质量和自然度。从最终的合成的音频看，谷歌提出的WaveNet、Tacotron端到端语音合成框架在语音合成领域已经产生了颠覆性的影响，其合成音频已经几乎可以骗过人类。但这并不代表整个语音合成的问题的解决，在多样性的语音合成以及更加可控的语音合成，小数据上的合成仍然有很广泛的研究空间。合成个性化的语音也成了现在语音合成的新目标，例如可以控制语速和情绪，多种说话人、多种语言等。其中一个常见的需求是仅使用少量的用户语音数据定制个性化的语音助手、地图导航等。但是，用户录制的数据通常很少，并且包含一些问题，例如：语音质量差，背景噪音，房间混响，错字漏字等。据我们所知，用少量数据构建端到端语音合成系统的问题仍然没有很好地解决，如何搭建少量脏数据的端到端语音合成系统任然具有挑战性。

在实际应用场景中，用户录制的数据一般不足以训练一个新的端到端语音合成模型，而从预训练的模型进行说话人自适应(Speaker Adaptation)是一种最常用的解决办法，它将更新预训练模型的全部或者部分模型参数来达到适应新的说话人的效果。说话人自适应方法假设模型参数可以分成两部分：说话人相关参数和说话人无关参数，其中一类特殊的说话人相关参数将说话人的音色表征成一种抽象的嵌入表示，用于控制模型的训练和合成，称为说话人嵌入(Speaker embedding)。说话人嵌入包括独热表(One Hot Table),查找表(Look Up Table),基于说话人验证的预训练说话人嵌入d-vector，x-vector等。说话人嵌入方法根据其提取的粒度不同，可以简单分为全局级别、句子级别、帧级别。

全局级别、句子级别说话人嵌入，因其提供的说话人音色信息有限，只能在与集内数据有着较为相似的测试数据集上有比较好的相似度，对于一些无法拟合充分的测试数据，就会使得合成声音的相似度很差。具体的，因为预训练的说话人嵌入方法的训练准则并不需要其重构音频特征，仅使用了判别性准则，它所能提供的句子级别的音色信息非常有限，在集外说话人上的相似度并不能达到一个令人满意的效果。联合训练的参考编码器方法尽管能提供更多的说话人信息，但是由于TTS数据的说话人数目会远少于说话人验证任务上的数目，在未见过的说话人的声音合成上也不会比预训练的说话人嵌入方法d-vector,x-vector有提升，甚至更差。

帧级别的说话人嵌入尽管在粒度上增加了说话人信息，但是相似度提升受限于参考音频和不稳定的注意力机制计算，因此在集外说话人的相似度提升上非常有限。

直接更新模型参数的方法因为测试数据的标注不准确、数据量少等问题，容易出现过拟合、合成声音质量非常不稳定等问题。用LHUC等做法会减小更新的模型参数量，在一定程度上可以缓解过拟合的问题，但是如果目标数据和原先的数据分布差别很大，就无法很好拟合新的数据。

发明内容

本发明实施例提供一种语音合成模型训练方法、语音合成方法、电子设备及计算机可读存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音合成模型训练方法，所述语音合成模型包括：编码器、说话人嵌入预测网络、时长拓展模块和解码器；所述方法包括：

对训练数据进行预处理以得到样本训练数据集和目标说话人数据集；

基于所述样本训练数据集训练所述语音合成模型；

基于所述目标说话人数据集对所述说话人嵌入预测网络进行自适应训练，以用于基于待合成文本预测说话人嵌入预测值。

第二方面，本发明实施例提供一种语音合成方法，包括：

对待合成文本进行预处理；

将预处理结果输入本发明任一实施例所述的方法训练得到的语音合成模型，以得到对应于所述待合成文本的音频信号。

第三方面，本发明实施例提供一种计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音合成方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音合成方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音合成方法。

本发明实施例首先基于样本训练数据对语音合成模型整体进行训练得到通用语音合成模型，进一步基于目标说话人数据集对训练得到的通用语音合成模型中的说话人嵌入预测网络进行自适应训练，以使得说话人嵌入预测网络能够学习到目标说话人的音色特征，从而在语音合成时合成更加贴近目标说话人的音频信号。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音合成模型训练方法的一实施例的流程图；

图2为本发明的语音合成模型的一实施例的结构示意图；

图3为本发明的语音合成模型的另一实施例的原理框图；

图4为本发明中的训练语音合成模型所使用的网络结构的示意图；

图5为本发明中的参考编码器的一实施的结构示意图；

图6为本发明中对不同系统进行自适应训练过程损失值随epoch数变化的趋势图；

图7为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的实施例提供一种语音合成模型训练方法，所述语音合成模型包括：编码器、说话人嵌入预测网络、时长拓展模块和解码器；其中，编码器和说话人嵌入预测网络的输出端分别连接至时长拓展模块的输入端，时长拓展模块的输出端连接至解码器的输入端，解码器用于生成声学特征并输入至声码器合成音频信号。

如图1所示，本发明一实施例中语音合成模型训练方法包括：

S10、对训练数据进行预处理以得到样本训练数据集和目标说话人数据集；

S20、基于所述样本训练数据集训练所述语音合成模型；

S30、基于所述目标说话人数据集对所述说话人嵌入预测网络进行自适应训练，以用于基于待合成文本预测说话人嵌入预测值。示例性地，基于目标说话人数据集计算说话人嵌入预测网络的预测误差以对说话人嵌入预测网络进行自适应训练。

在一些实施例中，训练数据包括多说话人训练数据集D₁＝<A,t>，D₂……D_s和自适应目标说话人数据集D′，多说话人训练数据集中包括对应于多个说话人的音频信号-文本对(A,t)，自适应目标说话人数据集中包括对应于目标说话人的音频信号-文本对；

在一些实施例中，对训练数据进行预处理以得到样本训练数据集和目标说话人数据集包括：

提取自适应目标说话人数据集中的目标说话人的音频信号中的声学特征以得到包含有对应于目标说话人的声学特征-文本对的目标说话人数据集；

提取多说话人训练数据集中的多说话人的音频信号中的声学特征以得到包含有对应于多说话人的声学特征-文本对的样本训练数据集。

在一些实施例中，语音合成模型训练方法还包括：基于所述样本训练数据集训练自动语音识别模型，以从对齐信息中提取时长信息并对相应的声学特征进行切分得到音素特征片段。

在一些实施例中，语音合成模型还包括用于预测时长信息的时长预测网络，所述时长预测网络的输入端与所述编码器的输出端连接，所述时长预测网络的输出端与所述时长拓展模块的输入端连接；

所述基于所述样本训练数据集训练所述语音合成模型包括：

使用因素特征片段和相应的时长信息作为输入计算所述语音合成模型的声学特征重构误差，以训练所述编码器、时长拓展模块和解码器；

使用因素特征片段和相应的时长信息作为输入计算时长预测误差和说话人嵌入预测误差，以训练所述时长预测网络和所述说话人嵌入预测网络。

如图2所示为本发明的语音合成模型的一实施例的结构示意图(该示意图中未示出说话人嵌入预测网络)，该实施例中语音合成模型包括编码器、说话人嵌入预测网络(未示出)、时长拓展模块、解码器和声码器。

如图2所示，在输入编码器之前，文本会经过标准化，通过拼音字典转换成拼音音素序列，然后使用一个查找表把音素序列转换成可训练的音素嵌入，经过5层卷积神经网络和1层双向LSTM，得到了编码器输出。本发明使用了音素的时长对编码器输出进行时长拓展。对编码器输出进行时长拓展将得到和声学特征长度相同的隐层序列。这样对于解码器来说，编码器输出和声学特征输出特征的长度将严格对齐。因为在推理阶段无法获得对应文本的时长信息，因此本发明还额外训练了时长预测网络，输入预测对应音素的发音时长。

本发明中解码器是一个自回归递归神经网络，它输入前一帧的声学预测结果和编码器输出预测当前帧声学特征。前一帧的输出会先经过一个预处理网络Prenet和前一帧对应的编码器隐层然后再经过两层解码网络LSTM，再和当前帧对应的编码器隐层预测得到当前帧的声学特征。最后为了进一步减少过平滑，还会经过一个由5层卷积神经网络组成的后处理网络Postnet得到残差再加到上得到最终的预测结果。

如图3所示为本发明的语音合成模型的另一实施例的原理框图，在该实施例中语音合成模型包括：编码器、说话人嵌入预测网络、时长预测网络、时长拓展模块和解码器。在进行语音合成时将待合成文本输入至编码器和说话人嵌入预测网络，编码器的输出输入至时长预测网络和时长拓展模块，时长预测网络根据编码器的输出确定时长预测值并输入至时长拓展模块，说话人嵌入预测网络将根据输入文本所确定的说话人嵌入预测值输入至时长拓展模块，时长拓展模块将拓展后的特征输入至解码器。

如图4所示为本发明中的训练语音合成模型的方法所使用的网络结构的示意图。在该网络结构中相比于本发明的语音合成模块多了用于进行辅助训练的参考编码器，该参考编码器用于辅助训练说话人嵌入预测网络。

参考编码器负责从声学特征中提取帮助合成的音色信息，输入是当前目标声学特征序列，输出是和音素序列相同长度的音色表示嵌入。在参考编码器中，声学特征主要经过两个步骤得到对应的音色表示嵌入。首先通过时长信息将声学特征切分为长度和音素长度相同的片段序列，我们称之为音素片段序列。将音素片段序列经过时间维度平均后，经过一层线性映射和GRU就得到当前音素对应的音色表示嵌入。然后把音色表示嵌入将和编码器隐层进行维度拼接输入解码器，从而控制合成声音的音色。

对于集外说话人，本发明使用和真实特征片段对应的音频的文本合成的音频有很好的相似度和自然度，但是我们依然要解决集外文本推理的问题。在使用集外文本进行推理时，本发明无法直接获得一个符合真实分布的音素片段序列来帮助合成音频。其中，我们测试过两种最简单的方式进行近似：随机选择一个相同的音素片段、或选择所有相同音素片段的统计值。随机选择一个相同音素片段容易在合成音频的音素连接处产生的音调跳变；使用所有相同音素片段的统计量可以缓解音调跳变问题，但是将使得特征片段的统计量过于平均而合成相似度明显下降。

如图4所示，我们训练了一个从文本到说话人嵌入表示的预测网络(说话人嵌入预测网络)来拟合这种上下文相关的说话人嵌入分布。这种做法能有效缓解使用真实片段造成的音调跳变的不稳定性，同时也不会过于平滑而丢失了太多说话人信息。在使用集外文本的测试阶段，就不再使用参考编码器(如图3所示)，而直接使用在目标说话人数据上自适应训练的得到的说话人嵌入预测网络，来得到对应的音素级别的说话人嵌入，来进行最终的音频合成。

本发明实施例在引入了音素级别的说话人嵌入，在合成未见过的说话人音频上，保持接近的自然度的同时，相较其他说话人嵌入方法有非常明显的相似度提升；在更新模型参数的方法上，我们提出的音素级别的说话人嵌入同时有更好的自然度和相似度。

在应用场景中，本发明提出的基于音素级别的说话人嵌入可以同时应用到当前的离线和在线两种TTS环境中。对于离线的TTS模型，我们可以使用不更新模型参数的方法，仅自适应说话人嵌入，可以替换基于句子级别嵌入的办法，显著提升TTS的相似度。对于云端的TTS模型，我们同时更新主模型参数的做法提供了更好的初始点，让整个自适应过程更加稳定和鲁棒，比其他说话人嵌入方法有更好的自然度和相似度。

本发明提出的语音合成模型训练方法可以实现一种基于音素级别的说话人嵌入的语音合成自适应方法。整个模型主要分为：端到端语音合成框架、参考编码器网络、时长预测网络、说话人嵌入预测网络。

在训练阶段，模型需要输入文本和对应的参考音频，通过参考编码器提取音素级别的说话人嵌入，训练端到端语音合成框架和参考编码器网络，同时对时长预测网络和说话人嵌入预测网络进行预训练。在自适应阶段，我们需要使用测试说话人的数据对说话人嵌入预测网络进行自适应训练，让其拟合目标说话人嵌入的分布。在测试阶段，仅输入文本，使用说话人嵌入预测网络代替参考编码器提供说话人嵌入合成音频。

为了方便介绍，我们规定训练数据文本序列为t＝(t₁,t₂，…，t_n)，特征序列为O＝(o₁，o₂，…，o_m)。

在输入编码器前，文本会经过标准化，通过拼音字典转换成拼音音素序列，然后使用一个查找表把音素序列转换成可训练的音素嵌入，经过5层卷积神经网络和1层双向LSTMM，得到了编码器输出H＝(h₁,h₂,…h_n)。

为了保证合成音频不会因为注意力机制崩溃，本发明使用了音素的真实时长对编码器输出进行时长拓展。编码器输出H＝(h₁,h₂,…h_n)进行时长拓展将得到和声学特征长度m相同的隐层序列H′。这样对于解码器来说，编码器输出和声学特征的长度将严格对齐。因为在推理阶段无法获得对应文本的时长信息，本发明额外训练了时长预测网络，输入H预测对应音素的发音时长。

解码器是一个自回归递归神经网络，它输入前一帧的声学预测结果o_t-1和编码器输出h_t′预测当前帧声学特征o_t。前一帧的输出o_t-1会先经过一个带dropout的非线性层预处理网络Prenet，和当前帧帧对应的编码器输出h_t′进行维度拼接，经过两层解码网络LSTM，预测得到当前帧的声学特征o_t。

本发明直接在解码器的LSTM中输入时长拓展后的当前帧对应的编码器输出h_t′。同时为了加速解码，输入和解码步数相同的多帧编码器输出：(h′_t*step,h′_t*step+1,…,h′_{t*step+step-1})。

最后为了进一步缓解平滑，

还会经过一个由5层卷积神经网络组成的后处理网络Postnet得到残差

最后计算得到

对于时长预测网络：

因为音素序列t和声学特征序列O之间有长度的差别，在语音合成模型当中一般会显示或者隐式的引入时长模型的概念。时长模型简单来说是指对应一个文本(音素)的在当前上下文信息种对应的声学特征的长度。因为声学特征提取一般是分帧的，所以这里的时长具体对应声学特征帧数。

在训练阶段，因为训练数据和对应文本是固定的，我们可以使用ASR的强制对齐信息从音频当中提取对应的时长信息D＝(d₁,d₂,…,d_n),其中d_i表示第i个音素的声学特征的帧数。在时长拓展模块中，我们会对编码器隐层H和对应的时长序列d进行重复拓展：

时长预阶段测网络的作用是在推理阶段提供音素序列对应的时长信息。时长预测网络输入编码器隐层H，经过1层双向LSTM M，最后线性映射成一个音素级别的标量

因为考虑到自适应阶段，用户录制的测试数据的时长比较糟糕，因此我们选择使用说话人无关的时长模型，来保证在推理阶段可以继续使用而不需要自适应。

为了区分扩展之后的隐层中同一个音素当中的不同帧，我们使用了传统LSTM M语音合成系统当中常用的相对位置编码方法。音素ti i对应的编码器隐层h_t经过时长拓展之后为(h₁,h₁,…,h_di)，其位置编码为(1/d_t,2/d_t,…,d_t/d_t)。同时，为了让时长分布更接近高斯分布更易训练，我们在训练时候将时长转换成log域，在预测时候再转换回线性域并向上取整。

对于参考编码器：

如图5所示本发明引入了参考编码器网络提取因素级别的说话人信息。参考编码网络负责从声学特征中提取帮助合成的音色信息，输入当前目标声学特征序列O，输出是和音素序列相同长度的音色表示嵌入E＝(e₁,e₂,…,e_n)。

在参考编码器网络中，声学特征O主要经过两个步骤得到对应的音色表示E。首先通过时长信息将声学特征O切分为长度和音素长度相同的片段序列S＝(s⁽¹⁾,s⁽²⁾,…,s⁽ⁿ⁾)，我们称之为音素片段序列。我们将音素片段序列经过时间维度平均

经过一层线性映射和GRU就得到当前音素对应的音色表示嵌入E。我们把音色表示嵌入E将和编码器隐层H进行维度拼接输入解码器，从而控制合成声音的音色。

对于说话人嵌入预测网络：

对于集外说话人，我们使用真实特征片段

合成对应文本{t}_n可以达到较好的相似度和自然度，但是我们依然要解决集外文本推理的问题。在使用集外文本进行推理时，我们无法直接获得一个符合真实分布的音素片段序列来帮助我们合成音频。

为了解决推理时集外的说话人嵌入的问题，如图4所示，我们训练了一个从文本t到说话人嵌入表示E的说话人嵌入预测网络来拟合这种上下文相关的说话人嵌入分布。说话人嵌入预测网络输入音素序列t,并使用与主模型独立的音素嵌入，经过3层卷积神经网络得到输出

具体的网络参数细节可以参考网络配置表。

我们尝试过不使用这样的预测网络，而是直接使用真实的特征片段的方法：其一，随机选择一个相同的音素片段、或选择所有相同音素片段的统计值。随机选择一个相同音素片段容易在合成音频的音素连接处产生的音调跳变；其二，使用所有相同音素的统计量可以缓解音调跳变问题，但是将使得特征片段的统计量过于平均而合成相似度明显下降。而使用说话人预测网络能有效缓解使用真实片段造成的音调跳变的不稳定性，同时也不会过于平滑而丢失了太多说话人信息。

对于混合高斯密度网络：

为了拟合复杂的音素级别说话人嵌入空间，我们使用比较单高斯更为复杂的混合高斯分布作为音色嵌入表示的输出分布。我们将说话人预测网络的最后一层隐层映射成混合高斯的三个分布参数ω,μ,σ,,则输出分布可以表示为：

其中K混合高斯中的高斯数目，x是混合高斯密度网络的输入，y是网络的输出变量，z表示激活函数，

表示模型参数。在训练时，我们直接将优化对数似然值

在合成的时候，我们可以对混合高斯分布进行采样，但是为了保证合成声音的稳定性，我们仅对均值进行了权重平均，作为最后的输出。

相比较单高斯标准方差的输出分布(即L2-正则化距离)，混合高斯分布能更快地进行自适应训练，提供更好的初始点。

对于说话人预测网络训练：

集外的文本合成依赖于说话人预测网络的自适应训练，因此为了减小目标数据上的自适应训练的负担，我们会在主模型的训练过程中，同时预训练独立的说话人嵌入预测网络。并且对参考编码器提取的说话人嵌入进行梯度截断操作，防止影响参考编码器和声学模型的训练。为了在多说话人的训数据上完成说话人嵌入预测网络的训练，我们会额外引入一个全局的说话人独热码编码，在说话人嵌入预测网络的每一层卷积网络输入上进行维度拼接。

在训练数据上完成说话人嵌入网络的预训练之后，在小数据说话人上仅需要对说话人预测网络进行快速的自适应训练就可以得到鲁棒的音素级别说话人嵌入用以合成声音。

在使用集外文本的测试阶段，我们不再使用参考编码器，而直接使用在目标说话人数据上自适应训练的得到的说话人嵌入预测网络，来得到对应的音素级别的说话人嵌入，来进行最终的音频合成。

对于训练和测试流程：

整个模型的训练、合成如图3和图4所示。模型训练的损失函数包括：Tacotron n模型的声学特征重构误差，时长模型的预测误差，说话人嵌入的预测误差，所有的损失误差可以表示为：

因此我们将模型的整个训练、自适应和合成的流程整理如下：

需要注意的是，在训练阶段，说话人嵌入的提取依赖于参考编码器，时长依赖于真实提取的时长。而在测试阶段，我们将不再使用参考编码器网络，而仅依赖于输入的文本预测说话人嵌入和时长。

为更加直观清楚的体现本发明相对于现有技术的有益效果，以下将进行试验对比说明：

实验数据：

在本实验中，我们使用了中文的24位男性和52位女性说话人作为训练数据，男性合计有61个小时的音频，女性合计有141个小时的音频。在测试阶段，我们收集了由20位用户(10位男性，10位女性)真实录制的数据，各40句话(合计3-4分钟)，这些数据和真正的训练数据在音质和准确度上有一定的差距。用户录制的音频有环境混响、噪音爆音、错字漏字等问题。

在上述测试数据上需要进行预处理操作，包括使用rnnoise方法对音频进行了降噪，对提供给用户录制的朗读稿文本进行文本归一化和汉字到音素序列转换。在时长提取上，我们对kaldi工具中的aishell]脚本进行了修改，替换了语音识别的音素集合为语音合成音素集合，从而免去了设计识别音素集合和合成音素集合之间的映射的麻烦。同时，我们强制转换每个句子为一个特殊的长词，使得kaldi的强制对齐训练中不会在文本当中对已标注的停顿标志产生影响。kaldi脚本中的HMM M模型训练仅使用了上述的干净的合成数据，而对于集外的测试数据使用训练好的HMM M模型进行强制对齐，得到测试数据的时长信息。如果kaldi脚本在强制对齐的过程中使用beam大小超过20则该条数据将被丢弃，间接帮我筛选了文本极端错误的数据。

LPCNet声码器：

LPCNet[27]]声码声学特征包括如下20维：18维bark尺度的倒谱系数和2维基频参数(周期和相关性参数)。LPCNet的特征提取参数和原始论文几乎保持一致:16k采样率，20ms的窗口大小，10ms的帧偏移，8比特量化和α＝0.85预加重系数。我们使用Tacotron模型的数据训练LPCNet声码器，在训练多说话人的LPCNet时，我们输入了基于查找表的说话人嵌入表示，输入到采样率网络中，以训练多说话人的LPCNet声码器。而对于合成集外的说话人，我们将选择一个默认的说话人编号进行合成，在我们的实验中，这种折中的做法并不会非常影响最终的合成音频的自然度和相似度，因此我们并没有对声码器进行额外的说话人自适应训练。

训练细节：

我们的实验遵循Tacotron2模型基本参数。Tacotron解码器的输出步长为3。此外我们训练Tacotron模型，batch大小为32，初始学习率为1e-3，使用noam学习率调衰减策略，Adam优化器的参数位β₁＝0.9,β₂＝0.999,∈＝1e-6，损失误差中的权重参数λ_dur＝1,λ_emb＝0.01。为了加快训练速度，我们使用了4张2080ti进行训练，并使用模型平均的方式并行训练2天左右，总计大约200个epoch，100k步左右完全收敛。在自适应训练阶段，因为受限于训练数据，我们降低batch大小到8，同时固定学习率为1e-4，训练100 0个epoch，约计500步。

示例性地：

输入：多说话人训练数据集D₁＝<A,t>，D₂……D_s、自适应目标说话人数据集D′和集外测试文本

输出：自适应目标说话人的合成音频信号

1.预处理阶段：

1.1.从音频信号A中提取声学特征O，得到训练数据集用

和自适应数据集

1.2.使用训练

训练基于HMM的ASR模型，从对齐信息中提取时长D并对O进行切分得到音素特征片段S。

2.训练阶段:

2.1.使用真实的音素特征片段S和时长D，计算L训练音素级别的说话人嵌入控制的端到端语音合成模型。

2.2.使用真实的音素特征片段S和时长D，计算L_dur和L_emb训练时长预测网络和说换人嵌入预测网络。

3.自适应阶段：使用目标说话人数据

计算L_emb自适应训练说话人嵌入预测网络。

4.测试阶段：输入集外测试文本

合成声学特征

再进过预训练的声码器得到音频输出

模型评价

模型

为了对本文提出的系统性能有一个比较全面的比较，我们选择了3个主流的说话人嵌入方法，后端声学模型结构都选择基于时长的Tacotron模型。

Xvec：句子粒度的说话人嵌入，基于预训练的说话人网络提取的xvector。在训练时，使用对应句子的xvector；在测试时，使用说话人平均的xvector做为输入。

UttEmb：句子粒度的说话人嵌入，联合训练的参考编码器网络。由于与原论文使用的声学特征不同，我们将2维卷积神经网络替换为了1维卷积网络。在训练时，使用对应句子的声学特征输入参考编码器；在测试时，使用随机挑选的句子作为参考编码器的输入。

Attentron：帧粒度的说话人嵌入，基于注意力机制提取音色信息的联合训练参考编码器。在训练时，为了防止过拟合，我们概率使用对应句子的声学特征输入参考编码器；在测试时，使用多句真实特征序列的拼接作为参考编码器的输入。

PhnEmb：本文提出的音素粒度的说话人嵌入，基于显式时长切分提取音色信息的联合训练参考编码器。在训练时，使用真实特征片段输入参考编码器；在测试阶段，仅使用自适应之后的说话人嵌入预测网络。

+Adapt::自适应训练阶段，在更新说话人嵌入的基础之上，同时更新Tacotron n的解码器网络中的LSTM M模型参数。

评价指标

在语音合成领域中，没有完全可以评价合成的语音的客观指标，最主流的评价方式是通过听测人进行主观打分，而将一些客观指标作为辅助进行性能分析，我们用到的几种评价如下：

平均意见分数(MeanOpinionScore,MOS))是语音合成中最常用的主观评价标准，可以对合成的音频分别进行自然度和相似度的评价。MO一般要求评测者对音频进行1-5分的打分。自然度MOS要求评测者对音频的自然程度进行打分；相似度MOS，则会给出一个参考音频，要求评测者对合成音频与参考音频的相似程度进行打分。

梅尔倒谱失真(MelCeptrumDistortion,MCD))是评估合成声音质量的一种客观方法，它计算了倒谱序列之间的数值差异。尽管我们可以使用预测的时长模型，但是为了减少引入时长和动态时间扭曲(DynamicTimeWraping))带来的误差，我们在对集内文本进行测试时使用真实时长以保证和真实特征长度一致。

xvector余弦相似度(xvectorcosinesimilarity))xvector是基于神经网络提取的说话人嵌入，我们可以通过计算合成声音和真实声音在xvector r空间的余弦距离近似地比较合成声音和真实声音的相似程度。其计算方法是，给定两个说话人嵌入向量x,y

在计算余弦相似度时，本发明采用了Resemblyer实现进行直接打分。

实验结果：

本节将对实验结果的几个系统进行不同方面实验分析，包括测试说话人真实特征提取能力，合成集外文本的自然度和相似度，以及自适应训练的耗时和收敛情况。

测试说话人集内文本评价结果：

首先，为了验证音素级别的说话人嵌入方法的提取未见过的说话人音色的能力，我们先使用了测试说话人的真实数据作为参考输入，合成和测试音频内容相同的音频。

为了排除声码器在合成过程中引入的误差，对真实特征经过声码器反合成的音频将作为评价的参考音频。计算的客观指标MCD和x向量余弦相似度结果使用全部的20个测试说话人总计约800句话的结果统计得到，同时计算了95％置信度的区间范围。

表1，测试说话人集内测试数据的指标结果。real lref表示直接使用了真实的特征片段作为参考编码器的输入。

从MCD和xvector相似度可以看出，在基于句子级别的说话人嵌入系统上，Xvec和UttEmb系统的对于复原原始音频特征的能相对有限。帧级别的说话人嵌入和音素级别的说话人嵌入都比句子级别的说话人嵌入方法有更强的音色提取能力，能在从未见过的说话人数据上合成出更接近原始说话人的音频。

帧级别的说话人嵌入方法Attentron本应该在说话人嵌入的粒度上更具优势，但是从实验结果看到，甚至略差于音素级别的嵌入的结果。我们查看了Attentron模型对参考音频的对齐情况发现，并没有得到一个清晰的对齐，这可能导致了Attentron方法在未见过的测试说话人上并不能提起更加细致的说话人嵌入。而我们提出的音素级别说话人嵌入使用了显式时长切分，能非常直观的提起每一个音素的说话人信息，这可能解释了PhnEmb系统在该实验上的优越性。

测试说话人集外文本评价结果：

对于集外文本没有对应真实音频，我们只能收集志愿者的主观评价评分进行评价。我们仅选择了其中的3名男性和3名女性共24句话进行平均意见分数的打分，包括自然度和相似度，并且我们还计算了文本无关的说话人平均的余弦距离来帮助分析。我们也给出了部分合成的测试音频用于展示效果。

在不更新主模型的系统中，比较三个基线系统和我们提出的音素级别的说话人嵌入，发现其有明显的相似度提升，并且保证了自然度没有明显下降。其中我们发现句子级别的说话人嵌入系统UttEmb和Xvec尽管有相对较高的自然度，但是其相似度有着明显的差距。

同时看到在更新主模型的系统中，因为音素级别的说话人嵌入提供了一些显著更好的初始点(关于损失函数的收敛情况讨论将在下一节进行具体的讨论)，他能够更快的帮助模型完成自适应训练，于此同时也缓解了模型对不准的标注数据的依赖，得到更好的自然度。

表2，测试说话人集外测试数据的指标结果

自适应训练耗时

在实际的声音复刻当中，我们除了关心合成声音的质量和相似度，同时也关注对于一组新数据，其自适应训练的时间开销，以及自适应训练的收敛速度。我们分别对上述的四组系统进行自适应，统计其误差变化趋势和时间开销。

从平均每个epoch的训练时间开销看出，音素级别的说话人嵌入和句子级别的说话人嵌入的时间开销差距并不大，而帧级别的说话人嵌入方法Attentron需要对比较长的参考音频逐帧计算注意力机制，他的时间开销就明显增加。

对所有测试说话人的每一步损失和时间开销进行统计平均后，可以得到自适应训练损失误差随时间的变化图6(自适应训练过程损失值随epoch h数变化图)。

可以看出句子级别的说话人嵌入方法UttEmb和Xve的起始误差最大，帧级别说话人嵌入方法Attentron的起始误差稍显更低，而我们提出的音素级别的说话人嵌入方法的起始误差有非常明显的降低。这个好处就使得我们在需要更新主模型参数时候，在训练相同的epoch数目下能收敛更快，耗时更少。

模型消融实验

以下对本文中使用的两个实验设置：独立的说话人无关时长模型和混合高斯分布进行消融实验，验证这两个设置对最后模型性能的影响。我们训练了同样受音素级别说话人嵌入控制的基于注意力机制的Tacotron模型PhnEmb+Att，和使用L2损失函数训练说话人嵌入预测网络PhnEmb+L2。我们使用MCD和xvector余弦相似度作为评价标准，在测试说话人的集内数据进行测试。

表3，测试说话人集内测试数据的指标结果

比较系统PheEmb+real lref和Ph-nEmb+Att+real lref可以看到，使用分离的时长模型的性能会略差于使用基于注意力机制的模型。但是额外的时长模型所带来的好处是非常显著的，他能保证测试文本的时长可控的同时，不会出现因为注意力机制导致的对齐崩溃问题，这对于合成测试说话人的声音是非常有益的。

比较系统Phnemb和PhnEmbL2可以看到，在经过自适应训练之后，使用混合高斯作为输出分布可以提升同时合成声音在测试数据上的拟合程度。同时，我们也发现高斯混合分布也能在进行说话人自适应时可以有更好的初始化点和更快更稳定的收敛。

结论：本发明提出了一种基于音素级别的说话人嵌入控制的语音合成自适应方法，通过从真实的音素级别的特征片段中提取说话人信息，控制模型生成自然且相似的声音。在第二阶段，我们通过训练一个说话人嵌入的预测网络，学习从文本上下文到对应音素级别的说话人嵌入的预测网络，代替真实特征片段用于集外文本的推理。在实验中，我们使用真实用户录制的少量数据进行自适应训练。实验表明，相比较当今的各种不同的说话人嵌入方法,,我们的方法在不更新主要网络参数的情况下保持自然度的同时，得到了最好相似度。与此同时，在更新主要网络的实验中，我们的方法达到了最好的自然度和相似度。分析发现音素粒度的说话人嵌入在不显著增加自适应训练时间的情况下，提供了更好的模型自适应初始点，有效地提高了合成声音的质量。

在一些实施例中，本发明还提供一种语音合成方法，包括：对待合成文本进行预处理；将预处理结果输入本发明前述任一实施例的方法训练得到的语音合成模型，以得到对应于所述待合成文本的音频信号。

在一些实施例中，对待合成文本进行预处理包括：对所述待合成文本进行标准化，通过拼音字典转换成拼音音素序列；使用预设查找表把所述拼音音素序列转换成可训练的音素嵌入。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音合成方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音合成方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音合成方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现语音合成方法。

图7是本申请另一实施例提供的执行语音合成方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

执行语音合成方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音合成方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音合成方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音合成装置的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至语音合成装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息，以及产生与语音合成装置的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的语音合成方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音合成模型训练方法，所述语音合成模型包括：编码器、说话人嵌入预测网络、时长拓展模块和解码器；所述方法包括：

基于所述样本训练数据集训练所述语音合成模型；

2.根据权利要求1所述的方法，其特征在于，所述编码器和所述说话人嵌入预测网络的输出端分别连接至所述时长拓展模块的输入端，所述时长拓展模块的输出端连接至所述解码器的输入端，所述解码器用于生成声学特征并输入至声码器合成音频信号。

3.根据权利要求1所述的方法，其特征在于，所述训练数据包括多说话人训练数据集和自适应目标说话人数据集，所述多说话人训练数据集中包括对应于多个说话人的音频信号-文本对，所述自适应目标说话人数据集中包括对应于目标说话人的音频信号-文本对；

所述对训练数据进行预处理以得到样本训练数据集和目标说话人数据集包括：

提取所述自适应目标说话人数据集中的目标说话人的音频信号中的声学特征以得到包含有对应于目标说话人的声学特征-文本对的目标说话人数据集；

提取所述多说话人训练数据集中的多说话人的音频信号中的声学特征以得到包含有对应于多说话人的声学特征-文本对的样本训练数据集。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：基于所述样本训练数据集训练自动语音识别模型，以从对齐信息中提取时长信息并对相应的声学特征进行切分得到音素特征片段。

5.根据权利要求4所述的方法，其特征在于，所述语音合成模型还包括用于预测时长信息的时长预测网络，所述时长预测网络的输入端与所述编码器的输出端连接，所述时长预测网络的输出端与所述时长拓展模块的输入端连接；

所述基于所述样本训练数据集训练所述语音合成模型包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述目标说话人数据集对所述说话人嵌入预测网络进行自适应训练包括：

基于所述目标说话人数据集计算所述说话人嵌入预测网络的预测误差以对所述说话人嵌入预测网络进行自适应训练。

7.一种语音合成方法，包括：

对待合成文本进行预处理；

将预处理结果输入至根据权利要求1-6中任一项所述的方法训练得到的语音合成模型，以得到对应于所述待合成文本的音频信号。

8.根据权利要求7所述的方法，其特征在于，所述对待合成文本进行预处理包括：

对所述待合成文本进行标准化，通过拼音字典转换成拼音音素序列；

使用预设查找表把所述拼音音素序列转换成可训练的音素嵌入。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求7或8所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求7或8所述方法的步骤。