CN114758645A

CN114758645A - 语音合成模型的训练方法、装置、设备及存储介质

Info

Publication number: CN114758645A
Application number: CN202210469094.1A
Authority: CN
Inventors: 石文玲; 杨辰雨
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-07-15

Abstract

本申请属于语音合成领域，具体涉及一种语音合成模型的训练方法、装置、设备及存储介质。本申请的语音合成模型的训练方法包括：获取多组样本数据；将待处理数据输入文本分析前端，得到目标特征；将目标文本特征和目标音频特征输入声学特征预测模型进行声学特征预测，得到样本文本数据对应的目标音频信号；将目标音频信号输入声码器进行音频合成处理，得到样本文本数据对应的目标音频数据；根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型。从而可以实现提升语音合成的性能的目的。

Description

语音合成模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及语音合成领域，尤其涉及一种语音合成模型的训练方法、装置、设备及存储介质。

背景技术

语音合成(Text to Speech，简称：TTS)是一种将文本转换为语音的技术。近年来随着深度学习的发展，语音合成逐渐发展为端到端的方式。端到端的语音合成，通常是将文本通过编码器解码器结构生成梅尔频谱，然后使用声码器将梅尔频谱合成语音。其中，编码器解码器结构用于对文本进行一次嵌入表示，即将文字转换为设定维度的高维向量，也就是文本序列；之后，采用卷积神经网络(Convolutional Neural Networks，简称：CNN)或者长短期记忆网络(Long-Short Term Memory，简称：LSTM)对文本序列进行卷积操作，以将文本序列映射出对应的音频特征，也即梅尔频谱。

发明人在研究中发现：在采用上述方式实现语音合成时，存在合成性能较低的问题。

发明内容

本申请实施例提供一种语音合成模型的训练方法、装置、设备及存储介质，用于解决现有技术中在实现语音合成时，存在合成性能较低的问题。

第一方面，本申请实施例提供一种语音合成模型的训练方法，语音合成模型包括文本分析前端、声学特征预测模型和声码器，该语音合成模型的训练方法包括：获取多组样本数据，每组样本数据包含样本文本数据、样本文本数据对应的标准音频数据和样本音频数据；将待处理数据输入文本分析前端，得到目标特征，文本分析前端用于采用宽激励机制和注意力机制提取特征，宽激励机制用于增加特征通道，若待处理数据为样本文本数据，目标特征为目标文本特征，若待处理数据为样本音频数据，目标特征为目标音频特征；将目标文本特征和目标音频特征输入声学特征预测模型进行声学特征预测，得到样本文本数据对应的目标音频信号；将目标音频信号输入声码器进行音频合成处理，得到样本文本数据对应的目标音频数据；根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型。

在一种可能的实施方式中，文本分析前端包括宽激励预处理模块和第一注意力模块，将待处理数据输入文本分析前端，得到目标特征，包括：将待处理数据输入宽激励预处理模块，得到待处理数据对应的样本特征，宽激励预处理模块采用宽激励机制进行特征通道膨胀处理；将样本特征输入第一注意力模块，得到目标特征，第一注意力模块采用注意力机制提取特征。

在一种可能的实施方式中，第一注意力模块包括通道注意力模块、自注意力模块和聚合模块，将样本特征输入第一注意力模块，得到目标特征，包括：将样本特征输入通道注意力模块进行通道注意力加权处理，得到通道特征；将样本特征输入自注意力模块进行自注意力加权处理，得到全局特征；将通道特征和全局特征输入聚合模块进行聚合处理，得到目标特征。

在一种可能的实施方式中，声学特征预测模型包括编码器、解码器、对齐注意力模块、融合模块和注意力后处理网络，将目标文本特征和目标音频特征输入声学特征预测模型进行声学特征预测，得到样本文本数据对应的目标音频信号，包括：将目标文本特征输入编码器进行编码处理，得到编码数据；将目标音频特征输入解码器进行解码处理，得到解码数据；将编码数据和解码数据输入对齐注意力模块，得到对齐数据，对齐注意力模块用于采用注意力机制进行对齐处理；将对齐数据和解码数据输入融合模块进行融合处理，得到融合数据；将融合数据输入注意力后处理网络进行卷积处理，得到预测残差；将预测残差叠加至融合数据，得到目标音频信号；其中，注意力后处理网络包括至少两个通过残差连接的注意力残差模块，注意力残差模块包括特征提取模块和第二注意力模块，特征提取模块用于进行特征提取，第二注意力模块用于采用自注意力机制进行特征加权处理。

在一种可能的实施方式中，根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型，包括：采用负对数似然损失函数，确定目标音频数据相对标准音频数据的第一损失值；根据第一损失值调整语音合成模型的模型参数，得到训练完成的语音合成模型。

在一种可能的实施方式中，每组样本数据还包含样本文本数据对应的标准音频信号，还包括：采用均方误差损失函数，确定目标音频信号相对标准音频信号的第二损失值；根据第二损失值，对语音合成模型进行收敛处理。

在一种可能的实施方式中，语音合成网络包括文本分析前端和声学特征预测模型，将目标音频信号输入声码器进行音频合成处理，得到样本文本数据对应的目标音频数据之前，还包括：根据标准音频信号和目标音频信号，调整语音合成网络的模型参数，得到训练完成的语音合成网络，目标音频信号是训练完成的语音合成网络输出的；根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型，包括：根据目标音频数据和标准音频数据，调整声码器的参数，得到训练完成的声码器，语音合成模型的模型参数包括语音合成网络的模型参数和声码器的参数；根据训练完成的语音合成网络和训练完成的声码器，得到训练完成的语音合成模型。

在一种可能的实施方式中，还包括：采集原始样本数据；对原始样本数据进行预处理，得到预处理后的数据，预处理包括滤除处理和/或标准化处理，滤除处理用于去除原始样本数据中的异常文本和异常音频，标准化处理用于进行文本标准化；对预处理后的数据中的文本数据进行添加韵律处理；对添加韵律处理后的文本数据和预处理后的数据中的音频数据进行对齐处理，得到样本文本数据和标准音频数据。

第二方面，本申请实施例提供一种语音合成方法，包括：获取待处理文本；基于语音合成模型对待处理文本进行合成处理，得到语音数据，语音合成模型是根据第一方面的语音合成模型的训练方法训练得到的。

第三方面，本申请实施例提供一种语音合成模型的训练装置，语音合成模型包括文本分析前端、声学特征预测模型和声码器，该语音合成模型的训练装置包括：第一获取模块，用于获取多组样本数据，每组样本数据包含样本文本数据、样本文本数据对应的标准音频数据和样本音频数据；分析模块，用于将待处理数据输入文本分析前端，得到目标特征，文本分析前端用于采用宽激励机制和注意力机制提取特征，宽激励机制用于增加特征通道，若待处理数据为样本文本数据，目标特征为目标文本特征，若待处理数据为样本音频数据，目标特征为目标音频特征；预测模块，用于将目标文本特征和目标音频特征输入声学特征预测模型进行声学特征预测，得到样本文本数据对应的目标音频信号；音频合成模块，用于将目标音频信号输入声码器进行音频合成处理，得到样本文本数据对应的目标音频数据；调整模块，用于根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型。

第四方面，本申请实施例提供一种语音合成装置，包括：第二获取模块，用于获取待处理文本；处理模块，用于基于语音合成模型对待处理文本进行合成处理，得到语音数据，语音合成模型是根据第一方面的语音合成模型的训练方法训练得到的。

第五方面，本申请实施例提供一种电子设备，包括：处理器、存储器、交互接口；存储器用于存储处理器可执行的可执行指令，处理器配置为经由执行可执行指令来执行第一方面的语音合成模型的训练方法或者第二方面的语音合成方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面的语音合成模型的训练方法或者第二方面的语音合成方法。

第七方面，本申请实施例提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现第一方面的语音合成模型的训练方法或者第二方面的语音合成方法。

本申请实施例提供的语音合成模型的训练方法、装置、设备及存储介质，通过采用宽激励机制对输入的样本文本数据和随机初始化的样本音频数据进行预处理，以提高样本文本数据和样本音频数据的特征提取成功率，这样在将经过了宽激励机制预处理后的特征输入注意力机制进行特征提取时，注意力机制就可以充分利用特征中不同通道之间的相互依赖关系以及输入序列各帧之间的长距离依赖关系，从而提高提取的特征的准确率，进而使最终得到的目标音频数据和标准音频数据越来越接近，因此，通过这种方法训练得到的语音合成模型可以提高语音的合成性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音合成系统的结构示意图；

图2为本申请实施例提供的语音合成模型的训练方法的流程图；

图3为本申请实施例提供的第一注意力模块的结构示意图；

图4为本申请实施例提供的注意力后处理网络的结构示意图；

图5为本申请实施例提供的语音合成网络的结构示意图；

图6为本申请实施例提供的语音合成方法的流程图；

图7为本申请实施例提供的语音合成模型的训练装置的结构示意图；

图8为本申请实施例提供的语音合成装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在根据本实施例的启示下做出的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面首先对本申请中涉及的名词进行解释。

注意力机制：发生在目标元素和源中所有元素之间。注意力机制可以快速提取稀疏数据的重要特征，可以认为是一种资源分配的机制，核心目标都是从大量信息中筛选出对当前任务更关键的目标信息，对于原本平均分配的资源根据对象之间的重要程度重新分配，从而提升当前任务性能。

编码器：将输入序列转化成一个固定长度的向量。

解码器：将生成的固定长度的向量转化成输出序列。

自注意力：源内部元素之间或者目标内部元素之间发生的注意力机制，也可以理解为目标＝源的特殊情况下的注意力机制。自注意力机制是注意力机制的改进，其计算特征内部之间的权重，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

通道注意力：在文本特征或者语音特征通道上进行注意力学习，从而对不同通道的特征重新进行加权分配，有选择地强调包含信息量较多的特征映射，并抑制对当前任务用处不大的特征映射。

背景技术中提供的现有技术中，至少存在以下技术问题：

目前的TTS模型通常是将文本通过编码器解码器结构生成梅尔频谱，然后使用声码器将梅尔频谱合成语音；或者以文本序列为输入，采用自注意力前馈网络，非自回归地生成梅尔频谱，之后使用特定声码器将梅尔频谱合成语音。

该现有技术中的二类方法在通过文本预测语音的过程中，均存在一定不足：

(1)在TTS方法中，输入文本和语音会首先经过一次嵌入表示，即将文字或者语音转换为设定维度的高维向量表示，但是该向量表示的通道难以适应所有的输入文本或者对应语音，向量表示通道太多会造成冗余，浪费计算资源，太少则会丢失重要的特征信息，影响合成效果。

(2)在将文本序列映射出对应的音频特征时，TTS模型通常采用普通的CNN或者LSTM对文本序列进行卷积操作来提取特征，其对特征的所有通道都是平等对待的，但是由于不同通道包含的信息量不同，所以在后续计算时对各通道分配同等的计算资源会造成计算资源的浪费，从而影响合成性能提升。

(3)在TTS方法中使用常规的卷积操作提取输入特征，由于普通卷积结构的设计，感受野被限制在局部区域，有限的感受野对捕捉序列中的有效信息造成了很大的不利影响，导致输入序列的全局上下文关系未被充分利用，难以捕获长范围的依赖关系，因此，当输入长序列时，卷积后的输出只能利用局部感受野内的上下文信息，不可避免地会遗漏一些重要的信息，因此会导致生成音频不连贯的问题，从而影响合成性能。

(4)在目前各种模型的卷积层之后一般会用ReLU作为激活函数，但是当ReLU关闭某一通道时，该通道中的信息将不可避免地丢失，特征信息在经过多层ReLU累积后可能丢失合成语音时所需的重要特征，从而影响合成性能。

针对上述的问题，本申请提出一种语音合成模型的训练方法，采用通道注意力机制对序列特征通道之间的相互依赖关系进行建模来实现对特征的二次加工，从而定位注意力所关注的通道(即包含信息较多的通道)；然后，根据注意力分布位置来重新调整特征各通道的权重，这样就可以将可用的计算资源更多地分配给信息量更丰富的特征；同时，采用自注意力机制将整个序列的全局上下文注入每个输入帧，直接构建长期依赖关系；此外，还通过引入宽激励机制来改善特征通过激活函数后信息损失的情况，进一步提升合成性能。

在一种实施例中，可以在一种应用场景中应用该语音合成模型的训练方法。图1为本申请实施例提供的语音合成系统的结构示意图，如图1所示，在该场景中，语音合成系统可以包括数据采集设备101、数据库102、训练设备103、执行设备104、数据存储系统105以及用户设备106，其中，执行设备103中包括计算模块107和I/O接口108，计算模块107中包括目标模型/规则109。

数据采集设备101可以用于获取多组样本数据，每组样本数据包含样本文本数据、样本文本数据对应的标准音频数据、本文本数据对应的标准音频信号、样本音频数据，并将样本文本数据、标准音频数据、标准音频信号和样本音频数据存储至数据库102中，其中，样本音频数据为随机初始化的音频数据，标准音频数据为标准的用于对样本文本数据生成的目标音频数据进行优化的音频数据，标准音频信号为标准的用于对样本文本数据生成的目标音频信号进行优化的音频信号。

数据采集设备101在采集多组样本数据之前，可以先采集原始样本数据，然后对原始样本数据中包括的文本数据和音频数据进行异常数据滤除操作，然后将文本进行标准化，并添加韵律，最后将添加了韵律的文本和进行了滤除操作后的音频进行对齐操作，从而得到样本文本数据和标准音频数据。

训练设备103基于数据库102中的样本文本数据、标准音频数据、标准音频信号和样本音频数据生成目标模型/规则109。该目标模型也即语音合成模型。

训练设备103可以执行本申请实施例中的语音合成模型的训练方法，从而训练得到用于语音合成的目标模型/规则109。训练设备103得到的目标模型/规则109可以应用于不同的系统或者设备中。

执行设备104配置有I/O接口108，可以与用户设备106进行数据交互，用户可以通过用户设备106向I/O接口108输入文本数据；执行设备104中的计算模块107对I/O接口108输入的文本数据进行处理，从而得到合成的语音；I/O接口108将合成的语音返回至用户设备106，由用户设备106提供给用户。

执行设备104可以调用数据存储系统105中的数据、代码等，也可以将数据、指令等存储至数据存储系统105中。

执行设备104可以执行本申请实施例中的语音合成方法，从而得到合成的语音。

在上述场景中，在一种情况下，用户可以通过用户设备106向I/O接口108手动输入文本数据，比如，在I/O接口108提供的界面中操作；在另一种情况下，用户设备106可以自动地向I/O接口108中输入文本数据并获取到I/O接口108返回的合成的语音。需要注意的是，若用户设备106自动地向I/O接口108中输入数据并获取到I/O接口108返回的结果，则用户设备106需要得到用户的授权，用户可以在用户设备106中设置响应的权限。

在上述场景中，用户设备106也可以作为数据采集端将采集到的多组样本数据存储至数据库102中。

需要注意的是，图1中所示的语音合成系统的结构仅是一种示意图，图中所示的设备、器件、模块等之间的位置关系不构成任何限制，比如，在图1中，数据存储系统105相对于执行设备104是外部存储器，在其他情况下，也可以将数据存储系统105置于执行设备104中；数据库102相对于训练设备103是外部存储器，在其他情况下，也可以将数据库102置于训练设备103中。

结合上述场景，下面通过几个具体实施例对本申请提供的语音合成模型的训练方法和语音合成方法的技术方案进行详细说明。

图2为本申请实施例提供的语音合成模型的训练方法的流程图，如图2所示，该方法可以由图1中的训练设备执行，该方法包括以下步骤：

S201：获取多组样本数据。

在该步骤中，每组样本数据包含样本文本数据、样本文本数据对应的标准音频数据和样本音频数据。

在该方案中，样本文本数据对应的标准音频数据可以为标准的用于做参考的音频数据，从而优化语音合成模型。样本音频数据为随机初始化的音频数据，用于将文本合成语音。

S202：将待处理数据输入文本分析前端，得到目标特征。

在该步骤中，文本分析前端用于采用宽激励机制和注意力机制提取特征，宽激励机制用于增加特征通道，若待处理数据为样本文本数据，目标特征为目标文本特征，若待处理数据为样本音频数据，目标特征为目标音频特征。

在该步骤中，语音合成模型包括文本分析前端。待处理数据包括样本数据中的样本文本数据和样本音频数据，当待处理数据为样本文本数据时，将样本文本数据输入至文本分析前端，得到的目标特征为目标文本特征；当待处理数据为样本音频数据是，将样本音频数据输入至文本分析前端，得到的目标特征为目标音频特征。

S203：将目标文本特征和目标音频特征输入声学特征预测模型进行声学特征预测，得到样本文本数据对应的目标音频信号。

在该步骤中，语音合成模型包括声学特征预测模型，通过声学特征预测模型，可以将文本分析前端输出的目标文本特征和目标音频特征合成目标音频信号，该目标音频信号也即梅尔频谱。

S204：将目标音频信号输入声码器进行音频合成处理，得到样本文本数据对应的目标音频数据。

在该步骤中，语音合成模型包括声码器，该声码器也可以称为神经网络声码器，通过声码器可以将目标音频信号转换为目标音频数据，也即，通过声码器可以将梅尔频谱转换为时域波形，该目标音频数据也即对样本文本数据合成得到的音频数据。

S205：根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型。

在该步骤中，由于目标音频数据为在训练语音合成模型的过程中生成的音频数据，为了使语音合成模型更加完善，需要对语音合成模型的模型参数进行调整，这样得到的语音合成模型在应用时，合成得到的语音的质量会更高，因此，可以根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，最终可以使目标音频数据无限接近于标准音频数据。

本实施例提供的语音合成模型的训练方法，通过采用宽激励机制对输入的样本文本数据和随机初始化的样本音频数据进行预处理，以提高样本文本数据和样本音频数据的特征提取成功率，这样在将经过了宽激励机制预处理后的特征输入注意力机制进行特征提取时，注意力机制就可以充分利用特征中不同通道之间的相互依赖关系以及输入序列各帧之间的长距离依赖关系，从而提高提取的特征的准确率，进而使最终得到的目标音频数据和标准音频数据越来越接近，因此，通过这种方法训练得到的语音合成模型可以提高语音的合成性能。

在一种实施例中，文本分析前端包括宽激励预处理模块和第一注意力模块，将待处理数据输入文本分析前端，得到目标特征，包括：将待处理数据输入宽激励预处理模块，得到待处理数据对应的样本特征，宽激励预处理模块采用宽激励机制进行特征通道膨胀处理；将样本特征输入第一注意力模块，得到目标特征，第一注意力模块采用注意力机制提取特征。

在该方案中，ReLU激活函数可以将线性特征转换为非线性特征，因此，为了保证最终得到的目标音频信号是非线性的，文本分析前端和声学特征预测模型中均存在ReLU激活函数。特征在通过ReLU激活函数进行转换处理时，若ReLU激活函数关闭某特征通道，该特征通道中的信息将不可避免地丢失。如果在ReLU激活函数转换特征之前，将特征通道的数量增加到一定程度，则信息可能仍然保留在其他通道中，因此，可以采用宽激励预处理模块中的宽激励机制将输入的特征向量，先通过卷积将特征通道进行膨胀处理，该膨胀处理操作可以加宽网络，比如，将特征通道数由D增加到2D，即增加通过ReLU激活函数处理前的特征的通道数，这样在后续经过ReLU激活函数将线性特征转换为非线性特征，并通过第一注意力模块进行卷积计算，得到目标特征后，为了提高后续的计算效率，可以将特征通道的数量复原，比如，将特征通道数由2D再降至D。

在上述方案中，当待处理数据为样本文本数据时，可以先将样本文本数据输入至宽激励预处理模块中，得到样本文本数据对应的样本文本特征，然后将样本文本特征输入至第一注意力模块，得到目标文本特征。

在上述方案中，当待处理数据为样本音频数据时，可以先将样本音频数据输入至宽激励预处理模块中，得到样本音频数据对应的样本音频特征，然后将样本音频特征输入至第一注意力模块，得到目标音频特征。

在一种实施例中，第一注意力模块包括通道注意力模块、自注意力模块和聚合模块，将样本特征输入第一注意力模块，得到目标特征，包括：将样本特征输入通道注意力模块进行通道注意力加权处理，得到通道特征；将样本特征输入自注意力模块进行自注意力加权处理，得到全局特征；将通道特征和全局特征输入聚合模块进行聚合处理，得到目标特征。

在该方案中，由于现有技术中的TTS模型平等对待特征嵌入后的各通道信息，不具有自适应性，同时受限于卷积的局部感受野，对于长序列输入，各帧在计算时缺乏全局上下文感知，会导致输出音频不流畅，因此，为了可以关注信息量更多的特征，同时捕获特征之间的长距离依赖关系，可以结合通道注意力机制和自注意力机制构建注意力模块(Attention Module，简称：AM)，在本申请实施例中，也即第一注意力模块，如图3所示：

第一注意力模块首先将输入F(也即样本特征)分别输入通道注意力模块和自注意力模块，之后将通道注意力模块的输出F′(也即通道特征)和自注意力模块的输出F″(也即全局特征)，通过聚合模块进行聚合操作后输出，得到

(也即目标特征)。

在上述方案中，通道注意力模块可以通过对特征各通道向量之间的相互依赖关系进行建模来实现对特征的二次加工，从而定位注意力所关注的位置，并根据注意力分布位置来重新调整特征各通道的权重，输出通道注意力自适应加权后的通道特征F′。公式表示可以如下：

F′＝H_{通道注意力}(F)

其中，H_{通道注意力}()可以用于表示通道注意力加权操作。

在上述方案中，自注意力模块可以通过对特征各帧之间的长距离依赖关系建模，松弛了由于普通卷积结构设计带来的局部邻域约束，通过自注意力模块可以建模特征各帧之间的长距离依赖关系，将全局上下文关系输入到特征的每一帧中，使得特征中每一帧不论距离远近都能与其他帧连接起来。将F输入到自注意力模块后可以得到全局特征F″。公式表示可以如下：

F″＝H_自注意力(F)

其中，H_自注意力()可以用于表示自注意力加权操作。

在上述方案中，聚合模块可以将通道注意力模块输出的通道特征F′以及自注意力模块输出的全局特征F″进行聚合处理，得到目标特征

通过将通道注意力模块和自注意力模块相结合，从而可以充分提取输入的目标特征的局部特征和全局特征，并将注意力集中在最有效的信息中。公式表示可以如下：

其中，H_聚合()可以用于表示聚合操作。

在上述方案中，当样本特征是样本文本特征时，将样本文本特征输入至通道注意力模块进行通道注意力加权处理，可以得到文本通道特征，然后将样本文本特征输入至自注意力模块进行自注意力加权处理，可以得到文本全局特征，最后将文本通道特征和文本全局特征输入至聚合模块中进行聚合处理，就可以得到目标文本特征。

在上述方案中，当样本特征是样本音频特征时，将样本音频特征输入至通道注意力模块进行通道注意力加权处理，可以得到音频通道特征，然后将样本音频特征输入至自注意力模块进行自注意力加权处理，可以得到音频全局特征，最后将音频通道特征和音频全局特征输入至聚合模块中进行聚合处理，就可以得到目标音频特征。

在一种实施例中，声学特征预测模型包括编码器、解码器、对齐注意力模块、融合模块和注意力后处理网络，将目标文本特征和目标音频特征输入声学特征预测模型进行声学特征预测，得到样本文本数据对应的目标音频信号，包括：将目标文本特征输入编码器进行编码处理，得到编码数据；将目标音频特征输入解码器进行解码处理，得到解码数据；将编码数据和解码数据输入对齐注意力模块，得到对齐数据，对齐注意力模块用于采用注意力机制进行对齐处理；将对齐数据和解码数据输入融合模块进行融合处理，得到融合数据；将融合数据输入注意力后处理网络进行卷积处理，得到预测残差；将预测残差叠加至融合数据，得到目标音频信号；其中，注意力后处理网络包括至少两个通过残差连接的注意力残差模块，注意力残差模块包括特征提取模块和第二注意力模块，特征提取模块用于进行特征提取，第二注意力模块用于采用自注意力机制进行特征加权处理。

在该方案中，在得到目标文本特征和目标音频特征之后，目标文本特征可以输入至编码器中进行编码处理，得到编码数据，目标音频特征可以输入至解码器中进行解码处理，得到解码数据，通过将编码数据和解码数据输入至对齐注意力模块中，可以使文本与音频对齐，这样在得到对齐数据(对齐数据实际上也是一个频谱)之后，将对齐数据与解码数据输入至融合模块中进行融合处理，就可以初步得到一个频谱，也即融合数据。但初步得到的频谱与实际的频谱之间存在较大误差，因此，可以通过注意力后处理网络对融合数据进行卷积处理，确定出预测残差，然后将预测残差叠加至融合数据，就可以得到目标音频信号，也即通过样本文本数据得到的目标梅尔频谱。

在上述方案中，注意力后处理网络可以基于注意力模块构建，该注意力后处理网络可以由两个连续的注意力残差模块构成，如图4所示，注意力残差模块可以包括特征提取模块和第二注意力模块，其中，特征提取模块可以对融合数据先进行特征提取，第二注意力模块可以采用自注意力机制对特征提取模块提取的特征进行特征加权处理。多个注意力残差模块之间可以通过添加残差连接，从而降低对语音合成模型训练的难度。

在上述方案中，为了进一步使目标音频信号与标准音频信号更接近，在得到对齐数据之后，可以使用对齐数据替换样本音频数据，然后将对齐数据输入至文本分析前端中进行处理，再将得到的结再输入至解码器中，再次得到解码数据，然后将再次得到的解码数据与之前目标文本特征通过编码器中进行编码处理得到的编码数据再次输入至对齐注意力模块中进行对齐处理，再次得到对齐数据，通过这样的迭代过程，直到目标音频信号与标准音频信号之间的接近程度达到预设阈值为止。

在一种实施例中，根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型，包括：采用负对数似然损失函数，确定目标音频数据相对标准音频数据的第一损失值；根据第一损失值调整语音合成模型的模型参数，得到训练完成的语音合成模型。

在该方案中，在得到目标音频信号(也即梅尔频谱)之后，可以使用神经网络声码器将目标音频信号转换为目标音频数据(也即时域波形)，然后采用负对数似然损失函数对目标音频数据进行优化，也即，采用负对数似然损失函数，确定目标音频数据相对标准音频数据的第一损失值，然后根据第一损失值调整语音合成模型的模型参数，这样就可以使目标音频数据更接近于标准音频数据。

在一种实施例中，每组样本数据还包含样本文本数据对应的标准音频信号，还包括：采用均方误差损失函数，确定目标音频信号相对标准音频信号的第二损失值；根据第二损失值，对语音合成模型进行收敛处理。

在该方案中，标准音频信号可以为标准的用于做参考的音频信号。注意力后处理网络处理后得到的目标音频信号与标准音频信号(也即标准梅尔频谱)之间会存在均方误差(MSE)，可以通过采用均方误差损失函数来帮助语音合成模型进行收敛。

在上述方案中，负对数似然损失函数和均方误差损失函数的权重可以相同。

在一种实施例中，语音合成网络包括文本分析前端和声学特征预测模型，将目标音频信号输入声码器进行音频合成处理，得到样本文本数据对应的目标音频数据之前，还包括：根据标准音频信号和目标音频信号，调整语音合成网络的模型参数，得到训练完成的语音合成网络，目标音频信号是训练完成的语音合成网络输出的；根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型，包括：根据目标音频数据和标准音频数据，调整声码器的参数，得到训练完成的声码器，语音合成模型的模型参数包括语音合成网络的模型参数和声码器的参数；根据训练完成的语音合成网络和训练完成的声码器，得到训练完成的语音合成模型。

在该方案中，语音合成网络包括文本分析前端和声学特征预测模型，如图5所示，语音合成网络中的文本分析前端包括宽激励预处理模块和第一注意力模块，语音合成网络中的声学特征预测模型包括编码器、解码器、对齐注意力模块、融合模块、注意力后处理网络。样本文本数据和样本音频数据输入至文本分析前端和声学特征预测模型，最终可以得到目标音频信号，也即梅尔频谱。

在上述方案中，在训练语音合成模型时，可以先训练语音合成网络，在语音合成网络训练完成之后，将语音合成网络输出的目标音频信号输入至声码器中，得到目标音频数据，从而根据目标音频数据和标准音频数据，调整声码器的参数，实现对声码器进行训练。语音合成模型包括语音合成网络和声码器，在对语音合成网络和声码器都训练完成之后，就可以得到训练完成的语音合成模型。

在上述方案中，在对语音合成模型训练完成之后，可以对语音合成模型进行评估。在对语音合成模型进行评估时，可以将测试数据输入至语音合成模型中，生成的音频数据可以通过人工评分的方式来判断其优劣，其中每个生成的音频数据可以至少由8名评分者进行1-5分的打分，最后计算主观平均意见分(Mean Opinion Score，简称：MOS)，根据MOS确定语音合成模型的性能。每名评分者的评价独立进行，以保证评分的真实可信。

在上述方案中，测试数据可以为样本文本数据的测试集子集。

在一种实施例中，还包括：采集原始样本数据；对原始样本数据进行预处理，得到预处理后的数据，预处理包括滤除处理和/或标准化处理，滤除处理用于去除原始样本数据中的异常文本和异常音频，标准化处理用于进行文本标准化；对预处理后的数据中的文本数据进行添加韵律处理；对添加韵律处理后的文本数据和预处理后的数据中的音频数据进行对齐处理，得到样本文本数据和标准音频数据。

在该方案中，在获取样本数据之前，可以先采集原始样本数据，并对原始样本数据进行预处理，原始样本数据中包括文本数据和文本数据对应的音频数据。首先，可以先将文本数据和音频数据进行清洗过滤，具体可以为，滤除文本数据中的异常文本，滤除音频数据中的异常音频，并对滤除了异常文本的文本数据进行标准化处理和规范化处理；然后对进行了标准化和规范化处理后的文本数据添加韵律；最后将添加了韵律的文本数据和进行了清洗过滤的音频数据进行对齐处理，具体可以为，将文本数据和音频数据的数据格式统一化，并将文本数据和音频数据一一对应。

本实施例提供的语音合成模型的训练方法，采用通道注意力模块在特征的通道上进行注意力学习，从而对不同通道的特征重新进行加权分配，有选择地强调包含信息量较多的特征，使得冗余的通道权重系数接近零，从而自适应地根据输入的特征调整嵌入通道数量，充分利用有限的计算资源，提升合成效果；同时，采用自注意力模块通过对特征各帧之间的长距离依赖关系建模，捕获特征的全局上下文关系并注入到特征的每一帧中，将通道注意力模块与自注意力模块结合起来，在提取特征的局部特征和全局特征的同时，还将注意力集中在信息量更大的特征通道中；并且，预处理模块中应用宽激励机制，提高输入信息的通过率，从而最大化利用输入的文本或者音频数据，提升合成性能；此外，采用基于注意力模块构建的注意力后处理网络对初步生成的频谱进行进一步权重调整以及残差修正，从而提升合成性能。

本申请实施例还提供一种语音合成方法，图6为本申请实施例提供的语音合成方法的流程图，如图6所示，该方法可以由图1中的执行设备执行，该方法包括以下步骤：

S601：获取待处理文本。

在该步骤中，待处理文本可以为任意需要进行语音合成的文本数据。

S602：基于语音合成模型对待处理文本进行合成处理，得到语音数据。

在该步骤中，由于语音合成模型在前述语音合成模型的训练方法中已经训练完成，语音合成模型中已经记忆了随机初始化的音频数据，因此，在获取待处理文本之后，待处理文本通过语音合成模型就可以生成语音数据。

在上述方案中，待处理文本在输入至语音合成模型中之后，首先经过语音合成模型的宽激励预处理模块进行预处理，同时，宽激励预处理模块中的激活函数会将待处理文本转换为非线性特征，然后在经过第一注意力模块中进行特征提取，然后将提取到的特征输入编码器中进行编码处理，得到编码数据；语音合成模型中记忆的样本音频数据输入至宽激励预处理模块和第一注意力模块中进行特征提取之后，通过解码器进行解码处理，得到解码数据；然后编码数据和解码数据输入至对齐注意力模块中进行对齐处理，得到对齐数据；对齐数据再输入至融合模块中进行融合处理，得到融合数据；然后将融合数据输入至注意力后处理网络中进行卷积处理，得到预测残差；再将预测残差叠加到融合数据中，从而得到待处理文本对应的音频信号；最后将音频信号输入至声码器中，就可以得到语音数据。

从总体上来说，本申请提供的技术方案，通过对特征不同通道分配不同的权重系数，使得模型可以将有限的计算资源集中在信息量更大的特征通道上；并且，通过捕获长范围的依赖关系，更好的提取特征的全局上下文关系；同时采用宽激励机制特征的通道数，从而降低信息丢失率，因此，本申请提供的技术方案，是一种可以有效提升语音合成的性能的技术方案。

本申请实施例还提供一种语音合成模型的训练装置，图7为本申请实施例提供的语音合成模型的训练装置的结构示意图，如图7所示，该语音合成模型的训练装置700包括：

第一获取模块701，用于获取多组样本数据，每组样本数据包含样本文本数据、样本文本数据对应的标准音频数据和样本音频数据；

分析模块702，用于将待处理数据输入文本分析前端，得到目标特征，文本分析前端用于采用宽激励机制和注意力机制提取特征，宽激励机制用于增加特征通道，若待处理数据为样本文本数据，目标特征为目标文本特征，若待处理数据为样本音频数据，目标特征为目标音频特征；

预测模块703，用于将目标文本特征和目标音频特征输入声学特征预测模型进行声学特征预测，得到样本文本数据对应的目标音频信号；

音频合成模块704，用于将目标音频信号输入声码器进行音频合成处理，得到样本文本数据对应的目标音频数据；

调整模块705，用于根据目标音频数据和标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型。

可选的，文本分析前端包括宽激励预处理模块和第一注意力模块，分析模块702具体用于：将待处理数据输入宽激励预处理模块，得到待处理数据对应的样本特征，宽激励预处理模块采用宽激励机制进行特征通道膨胀处理；将样本特征输入第一注意力模块，得到目标特征，第一注意力模块采用注意力机制提取特征。

可选的，第一注意力模块包括通道注意力模块、自注意力模块和聚合模块，分析模块702还具体用于：将样本特征输入通道注意力模块进行通道注意力加权处理，得到通道特征；将样本特征输入自注意力模块进行自注意力加权处理，得到全局特征；将通道特征和全局特征输入聚合模块进行聚合处理，得到目标特征。

可选的，声学特征预测模型包括编码器、解码器、对齐注意力模块、融合模块和注意力后处理网络，预测模块703具体用于：将目标文本特征输入编码器进行编码处理，得到编码数据；将目标音频特征输入解码器进行解码处理，得到解码数据；将编码数据和解码数据输入对齐注意力模块，得到对齐数据，对齐注意力模块用于采用注意力机制进行对齐处理；将对齐数据和解码数据输入融合模块进行融合处理，得到融合数据；将融合数据输入注意力后处理网络进行卷积处理，得到预测残差；将预测残差叠加至融合数据，得到目标音频信号；其中，注意力后处理网络包括至少两个通过残差连接的注意力残差模块，注意力残差模块包括特征提取模块和第二注意力模块，特征提取模块用于进行特征提取，第二注意力模块用于采用自注意力机制进行特征加权处理。

可选的，调整模块705具体用于：采用负对数似然损失函数，确定目标音频数据相对标准音频数据的第一损失值；根据第一损失值调整语音合成模型的模型参数，得到训练完成的语音合成模型。

可选的，每组样本数据还包含样本文本数据对应的标准音频信号，语音合成模型的训练装置700还包括第一处理模块(未示出)，该第一处理模块用于：采用均方误差损失函数，确定目标音频信号相对标准音频信号的第二损失值；根据第二损失值，对语音合成模型进行收敛处理。

可选的，语音合成网络包括文本分析前端和声学特征预测模型，语音合成模型的训练装置700还包括第二处理模块(未示出)，该第二处理模块用于：在将目标音频信号输入声码器进行音频合成处理，得到样本文本数据对应的目标音频数据之前，根据标准音频信号和目标音频信号，调整语音合成网络的模型参数，得到训练完成的语音合成网络，目标音频信号是训练完成的语音合成网络输出的。调整模块705还具体用于：根据目标音频数据和标准音频数据，调整声码器的参数，得到训练完成的声码器，语音合成模型的模型参数包括语音合成网络的模型参数和声码器的参数；根据训练完成的语音合成网络和训练完成的声码器，得到训练完成的语音合成模型。

可选的，语音合成模型的训练装置700还包括第三处理模块(未示出)，该第三处理模块用于：采集原始样本数据；对原始样本数据进行预处理，得到预处理后的数据，预处理包括滤除处理和/或标准化处理，滤除处理用于去除原始样本数据中的异常文本和异常音频，标准化处理用于进行文本标准化；对预处理后的数据中的文本数据进行添加韵律处理；对添加韵律处理后的文本数据和预处理后的数据中的音频数据进行对齐处理，得到样本文本数据和标准音频数据。

本实施例提供的语音合成模型的训练装置，用于执行前述方法实施例中的语音合成模型的训练方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

本申请实施例还提供一种语音合成装置，图8为本申请实施例提供的语音合成装置的结构示意图，如图8所示，该语音合成装置800包括：

第二获取模块801，用于获取待处理文本；

处理模块802，用于基于语音合成模型对待处理文本进行合成处理，得到语音数据，语音合成模型是根据前述语音合成模型的训练方法训练得到的。

本实施例提供的语音合成装置，用于执行前述方法实施例中的语音合成方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

本申请实施例还提供一种电子设备，图9为本申请实施例提供的一种电子设备的结构示意图，如图9所示，该电子设备900包括：

处理器911、存储器912、交互接口913；

存储器912用于存储处理器911可执行的可执行指令，处理器911配置为经由执行可执行指令来执行前述方法实施例提供的语音合成模型的训练方法或者语音合成方法的技术方案。

在上述电子设备中，存储器912、处理器911和交互接口913之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器912中存储有实现语音合成模型的训练方法或者语音合成方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器911通过运行存储在存储器912内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。进一步地，上述存储器内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质包括程序，程序在被处理器执行时用于实现方法实施例中提供的语音合成模型的训练方法或者语音合成方法的技术方案。

本申请实施例还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时用于实现方法实施例中提供的语音合成模型的训练方法或者语音合成方法的技术方案。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音合成模型的训练方法，其特征在于，所述语音合成模型包括文本分析前端、声学特征预测模型和声码器，所述语音合成模型的训练方法包括：

获取多组样本数据，每组样本数据包含样本文本数据、所述样本文本数据对应的标准音频数据和样本音频数据；

将待处理数据输入所述文本分析前端，得到目标特征，所述文本分析前端用于采用宽激励机制和注意力机制提取特征，所述宽激励机制用于增加特征通道，若所述待处理数据为所述样本文本数据，所述目标特征为目标文本特征，若所述待处理数据为所述样本音频数据，所述目标特征为目标音频特征；

将所述目标文本特征和所述目标音频特征输入所述声学特征预测模型进行声学特征预测，得到所述样本文本数据对应的目标音频信号；

将所述目标音频信号输入所述声码器进行音频合成处理，得到所述样本文本数据对应的目标音频数据；

根据所述目标音频数据和所述标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型。

2.根据权利要求1所述的训练方法，其特征在于，所述文本分析前端包括宽激励预处理模块和第一注意力模块，所述将待处理数据输入所述文本分析前端，得到目标特征，包括：

将所述待处理数据输入所述宽激励预处理模块，得到所述待处理数据对应的样本特征，所述宽激励预处理模块采用宽激励机制进行特征通道膨胀处理；

将所述样本特征输入所述第一注意力模块，得到所述目标特征，所述第一注意力模块采用注意力机制提取特征。

3.根据权利要求2所述的训练方法，其特征在于，所述第一注意力模块包括通道注意力模块、自注意力模块和聚合模块，所述将所述样本特征输入所述第一注意力模块，得到所述目标特征，包括：

将所述样本特征输入所述通道注意力模块进行通道注意力加权处理，得到通道特征；

将所述样本特征输入所述自注意力模块进行自注意力加权处理，得到全局特征；

将所述通道特征和所述全局特征输入所述聚合模块进行聚合处理，得到所述目标特征。

4.根据权利要求1至3任一项所述的训练方法，其特征在于，所述声学特征预测模型包括编码器、解码器、对齐注意力模块、融合模块和注意力后处理网络，所述将所述目标文本特征和所述目标音频特征输入所述声学特征预测模型进行声学特征预测，得到所述样本文本数据对应的目标音频信号，包括：

将所述目标文本特征输入所述编码器进行编码处理，得到编码数据；

将所述目标音频特征输入所述解码器进行解码处理，得到解码数据；

将所述编码数据和所述解码数据输入所述对齐注意力模块，得到对齐数据，所述对齐注意力模块用于采用注意力机制进行对齐处理；

将所述对齐数据和所述解码数据输入所述融合模块进行融合处理，得到融合数据；

将所述融合数据输入所述注意力后处理网络进行卷积处理，得到预测残差；

将所述预测残差叠加至所述融合数据，得到所述目标音频信号；

其中，所述注意力后处理网络包括至少两个通过残差连接的注意力残差模块，所述注意力残差模块包括特征提取模块和第二注意力模块，所述特征提取模块用于进行特征提取，所述第二注意力模块用于采用自注意力机制进行特征加权处理。

5.根据权利要求1至3任一项所述的训练方法，其特征在于，所述根据所述目标音频数据和所述标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型，包括：

采用负对数似然损失函数，确定所述目标音频数据相对所述标准音频数据的第一损失值；

根据所述第一损失值调整语音合成模型的模型参数，得到训练完成的语音合成模型。

6.根据权利要求5所述的训练方法，其特征在于，每组样本数据还包含所述样本文本数据对应的标准音频信号，还包括：

采用均方误差损失函数，确定所述目标音频信号相对所述标准音频信号的第二损失值；

根据所述第二损失值，对所述语音合成模型进行收敛处理。

7.根据权利要求1至3任一项所述的训练方法，其特征在于，语音合成网络包括所述文本分析前端和所述声学特征预测模型，所述将所述目标音频信号输入所述声码器进行音频合成处理，得到所述样本文本数据对应的目标音频数据之前，还包括：

根据标准音频信号和所述目标音频信号，调整所述语音合成网络的模型参数，得到训练完成的语音合成网络，所述目标音频信号是训练完成的语音合成网络输出的；

所述根据所述目标音频数据和所述标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型，包括：

根据所述目标音频数据和所述标准音频数据，调整所述声码器的参数，得到训练完成的声码器，所述语音合成模型的模型参数包括所述语音合成网络的模型参数和所述声码器的参数；

根据训练完成的语音合成网络和训练完成的声码器，得到训练完成的语音合成模型。

8.根据权利要求1至3任一项所述的训练方法，其特征在于，还包括：

采集原始样本数据；

对所述原始样本数据进行预处理，得到预处理后的数据，所述预处理包括滤除处理和/或标准化处理，所述滤除处理用于去除所述原始样本数据中的异常文本和异常音频，所述标准化处理用于进行文本标准化；

对所述预处理后的数据中的文本数据进行添加韵律处理；

对添加韵律处理后的文本数据和预处理后的数据中的音频数据进行对齐处理，得到所述样本文本数据和所述标准音频数据。

9.一种语音合成方法，其特征在于，包括：

获取待处理文本；

基于语音合成模型对所述待处理文本进行合成处理，得到语音数据，所述语音合成模型是根据权利要求1至8任一项所述的语音合成模型的训练方法训练得到的。

10.一种语音合成模型的训练装置，其特征在于，所述语音合成模型包括文本分析前端、声学特征预测模型和声码器，所述语音合成模型的训练装置包括：

第一获取模块，用于获取多组样本数据，每组样本数据包含样本文本数据、所述样本文本数据对应的标准音频数据和样本音频数据；

分析模块，用于将待处理数据输入所述文本分析前端，得到目标特征，所述文本分析前端用于采用宽激励机制和注意力机制提取特征，所述宽激励机制用于增加特征通道，若所述待处理数据为所述样本文本数据，所述目标特征为目标文本特征，若所述待处理数据为所述样本音频数据，所述目标特征为目标音频特征；

预测模块，用于将所述目标文本特征和所述目标音频特征输入所述声学特征预测模型进行声学特征预测，得到所述样本文本数据对应的目标音频信号；

音频合成模块，用于将所述目标音频信号输入所述声码器进行音频合成处理，得到所述样本文本数据对应的目标音频数据；

调整模块，用于根据所述目标音频数据和所述标准音频数据，调整语音合成模型的模型参数，得到训练完成的语音合成模型。

11.一种语音合成装置，其特征在于，包括：

第二获取模块，用于获取待处理文本；

处理模块，用于基于语音合成模型对所述待处理文本进行合成处理，得到语音数据，所述语音合成模型是根据权利要求1至8任一项所述的语音合成模型的训练方法训练得到的。

12.一种电子设备，其特征在于，包括：

处理器，存储器，交互接口；

所述存储器用于存储所述处理器可执行的可执行指令，所述处理器配置为经由执行所述可执行指令来执行权利要求1至8任一项所述的语音合成模型的训练方法或权利要求9所述的语音合成方法。

13.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的语音合成模型的训练方法或权利要求9所述的语音合成方法。

14.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至8任一项所述的语音合成模型的训练方法或权利要求9所述的语音合成方法。