CN116129853A

CN116129853A - 语音合成模型的训练方法、语音合成方法及相关设备

Info

Publication number: CN116129853A
Application number: CN202211128018.0A
Authority: CN
Inventors: 刘鹏飞; 蒋宁; 吴海英; 刘敏
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2023-05-16

Abstract

本申请提供了一种语音合成模型的训练方法、语音合成方法及相关设备，通过获取训练数据，训练数据包括目标语音和目标语音对应的音素序列；对目标语音进行预处理，确定目标梅尔频谱；以及将音素序列输入语音合成模型中进行合成处理，得到预测梅尔频谱；按照目标语音的声音规则分别对目标梅尔频谱和预测梅尔频谱进行切分和组对处理，得到N个频谱片段对；利用对抗判别模型中的N个判别器，分别基于N个频谱片段对，对语音合成模型进行对抗生成训练，训练完成的语音合成模型用于将待合成文本合成为合成语音。解决了读音模糊和过于平滑的技术问题。达到了合成语音吐字清晰、发音更自然、节奏和韵律感更好且更接近真人声音的技术效果。

Description

语音合成模型的训练方法、语音合成方法及相关设备

技术领域

本申请涉及语音处理领域，尤其涉及一种语音合成模型的训练方法、语音合成方法及相关设备。

背景技术

智能语音技术作为人工智能技术的重要组成部分，在很多领域得到了应用，比如电子书朗读、数字人工客服等都用到了智能语音合成。

TTS(Text-to-Speech，语音合成)模型是智能语音合成技术的核心，其可以分为自回归TTS模型和非自回归TTS模型两类，非自回归TTS模型在生成梅尔频谱时，是一次性生成完整的梅尔频谱，而自回归TTS模型是逐个频谱图像帧生成，最后组合成完整的梅尔频谱。两种模型相比，非自回归TTS模型的处理方式忽略了时域和频域的相关性，这就造成了生成的语音出现了读音模糊和过于平滑的技术问题，而自回归TTS模型逐帧生成，下一帧的生成依赖上一帧的生成，时域和频域的相关性比非自回归TTS模型的处理方式要好一些。但是无论哪一种方式，其合成语音的质量都不是十分理想。

即现有的语音合成模型在生成梅尔频谱时存在时域和频域的相关性较差，造成所生成的语音出现读音模糊和过于平滑的技术问题。

发明内容

本申请提供一种语音合成模型的训练方法、语音合成方法及相关设备，以解决现有的语音合成模型在生成梅尔频谱时存在时域和频域的相关性较差，造成所生成的语音出现读音模糊和过于平滑的技术问题。

第一个方面，本申请提供一种语音合成模型的训练方法，包括：

获取训练数据，训练数据包括目标语音和目标语音对应的音素序列；

对目标语音进行预处理，确定目标梅尔频谱；以及将音素序列输入语音合成模型中进行合成处理，得到预测梅尔频谱；

按照目标语音的声音规则分别对目标梅尔频谱和预测梅尔频谱进行切分和组对处理，得到N个频谱片段对，一个频谱片段对中包括相互对应的一个第一频谱片段和一个第二频谱片段，第一频谱片段是对预测梅尔频谱进行切分处理得到的，第二频谱片段是对目标梅尔频谱进行切分处理得到的；N为大于1的整数；

利用对抗判别模型中的N个判别器，分别基于N个频谱片段对，对语音合成模型进行对抗生成训练，训练完成的语音合成模型用于将待合成文本合成为合成语音。

第二个方面，本申请提供一种语音合成方法，包括：

获取待合成文本对应的音素序列；

通过语音合成模型对所述音素序列进行语音合成处理，得到所述待合成文本对应的合成语音；所述语音合成模型是采用第一方面所提供的任意一种可能的语音合成模型的训练方法训练得到的

第三个方面，本申请提供一种语音合成模型的训练装置，包括：

获取模块，用于获取训练数据，所述训练数据包括：目标语音和所述目标语音对应的音素序列；

处理模块，用于：

对所述目标语音进行预处理，确定目标梅尔频谱；以及将所述音素序列输入语音合成模型中进行合成处理，得到预测梅尔频谱；

按照所述目标语音的声音规则分别对所述目标梅尔频谱和所述预测梅尔频谱进行切分和组对处理，得到N个频谱片段对，一个频谱片段对中包括相互对应的一个第一频谱片段和一个第二频谱片段，所述第一频谱片段是对所述预测梅尔频谱进行切分处理得到的，所述第二频谱片段是对所述目标梅尔频谱进行切分处理得到的；N为大于1的整数；

利用对抗判别模型中的N个判别器，分别基于所述N个频谱片段对，对所述语音合成模型进行对抗生成训练，训练完成的语音合成模型用于将待合成文本合成为合成语音。

第四个方面，本申请提供一种语音合成装置，包括：

获取模块，用于获取待合成文本对应的音素序列；

合成模块，用于通过语音合成模型对所述音素序列进行语音合成处理，得到所述待合成文本对应的合成语音；所述语音合成模型是采用第一方面所提供的任意一种可能的语音合成模型的训练方法训练得到的。

第五个方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行第一方面或第二方面所提供的方法。

第六个方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，该计算机程序用于执行第一方面所提供的方法或者第二方面所提供的方法。

第七个方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面或第二方面所提供的方法。

本申请实施例在对语音合成模型训练时，首先获取训练数据，训练数据包括目标语音和目标语音对应的音素序列；对目标语音进行预处理，确定目标梅尔频谱；以及将音素序列输入语音合成模型中进行合成处理，得到预测梅尔频谱；按照目标语音的声音规则分别对目标梅尔频谱和预测梅尔频谱进行切分和组对处理，得到N个频谱片段对；利用对抗判别模型中的N个判别器，分别基于N个频谱片段对，对语音合成模型进行对抗生成训练，训练完成的语音合成模型用于将待合成文本合成为合成语音。可见，本申请通过采用对抗生成训练的方式训练语音合成模型，使得语音合成模型所生成的梅尔频谱的时域和频域相关性得到加强，并且通过将梅尔频谱分割成多个频谱片段，使得梅尔频谱中的谐波能量的表达更加清晰，高频频谱图的轮廓更加清晰，其对应的能量点也更清晰，从而使得语音合成模型所生成的语音吐字更为精准，解决了读音模糊和过于平滑的技术问题。达到了合成语音吐字清晰、发音更自然、节奏和韵律感更好且更接近真人声音的技术效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种语音合成模型的训练方法的流程示意图；

图2为本申请实施例提供的一种语音合成模型的训练场景示意图；

图3为本申请实施例提供的一种语音合成方法的流程示意图；

图4为本申请实施提供的另一种语音合成模型的训练方法的流程示意图；

图5为本申请实施例提供的另一种语音合成模型的训练场景示意图；

图6为本申请实施例提供的一种语音合成模型的训练装置的结构示意图；

图7为本申请实施例提供的一种语音合成装置的结构示意图；

图8为本申请提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，包括但不限于对多个实施例的组合，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本申请所涉及到的专业名词作出解释：

embedding：在深度学习领域是指从原始数据提取出来的特征，即原始数据通过神经网络映射之后的低维向量。

FastSpeech2：是微软亚洲研究院和浙江大学联合提出的TTS(Text-to-Speech，语音合成)模型。在FastSpeech1模型的基础上，抛弃了Teacher-Student知识蒸馏框架，降低了训练复杂度，直接用真实的语音数据作为训练目标，从而避免信息损失，同时引入了更精确的时长信息和语音中其它的可变信息，比如音高pitch、音量energy等来提高合成的语音质量。

Mel spectrogram：梅尔频谱，将功率谱构成的多帧的语谱图经过Mel滤波器组后，得到的语谱图。

MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。一种在说话人分割，声纹识别，语音识别，语音合成中广泛使用的特征。梅尔频率是基于人耳听觉特性提出来的，它与赫兹Hz频率成非线性对应关系。梅尔频率倒谱系数则是利用它们之间的这种关系，计算得到的Hz频谱特征。主要用于语音数据特征提取。

TTS(Text-to-Speech，语音合成)模型：将文字转换成对应的语音。

over-smoothed：在训练过程中，随着网络层数的增加和迭代次数的增加，每个节点的隐层表征会趋向于收敛到同一个值(即空间上的同一个位置)。

GAN(Generative Adversarial Nets，对抗生成神经网络)：GAN模型中包括生成模型(Genertive Model或Genertor)和判别模型(Discriminative Model或Dicriminator)。一般应用在图像生成领域。

非自回归TTS模型吸引了工业界和学术界越来越多的关注，但是非自回归TTS模型在生成梅尔频谱mel-spectrogram时，由于是一次性生成全部的梅尔频谱mel-spectrogram，忽略了时域和频域的相关性，造成了非自回归TTS模型生成的语音出现了读音模糊和过于平滑(over-smoothed)的情况。而自回归TTS模型，比如tacotron1/2模型，是一帧一帧地生成梅尔频谱mel-spectrogram，下一帧的生成依赖上一帧的生成，时域和频域的相关性就比较强，生成的语音的自然度就比非自回归TTS模型要好一些，但也并没有达到足够理想的效果。

究其原因，本申请发明人发现相关技术中TTS模型在进行梅尔频谱生成时，时域和频域的相关性不够强，造成生成的梅尔频谱mel-spectrogram的图谱轮廓模糊，所能反应的谐波能量清晰度不够，不能很好地处理在长范围长波形中不同时间的频率波动的特征。从而造成在TTS模型所合成的语音读音模糊和过于平滑，缺乏真人的自然感。

综上，现有的语音合成模型在生成梅尔频谱时存在时域和频域的相关性较差，造成所生成的语音出现读音模糊和过于平滑的技术问题。

为解决上述问题，本申请的发明构思是：

本申请发现梅尔频谱可以看作是二维图片，那么可以利用一般用来处理图像的深度学习模型，如GAN模型，来优化语音合成模型所生成的梅尔频谱，用TTS语音合成模型，替换GAN模型中的生成模型Genertive Model，并保留GAN模型中的判别模型，以此结构来对TTS语音合成模型进行训练，通过改善合成语音所对应的梅尔频谱的清晰度，而不是直接改变合成语音，这样的方式反而能够提高合成语音的吐字清晰度，语感韵律更加自然，从而解决了读音模糊和过于平滑的问题。

需要说明的是，本申请提供的语音合成模型的训练方法的应用场景，包括：电子书朗读、数字人工客服、地图导航、语音合成模型的训练系统、具备语音合成功能的服务器以及具备TTS语音转换的设备等等。

下面具体介绍本申请提供的状态语音合成模型的训练方法。

图1为本申请实施例提供的一种语音合成模型的训练方法的流程示意图。如图1所示，该语音合成模型的训练方法的具体步骤，包括：

S101、获取训练数据。

在本步骤中，训练数据包括：目标语音和目标语音对应的音素序列。

目标语音包括：录制的一个或多个说话人所说出的预设内容。音素序列包括多个phoneme音素，音素phoneme是指能够区分一个字或词的最小语音单位，也称为音位，音素phoneme在中文语音合成领域为拼音+韵律(即词语之间的停顿时间长短)。

具体的，例如，音素序列为：han2 guo2 7 zui4 da4 de5 7 dao6 yu6 7 ji3zhou1 dao3，该音素序列对应着：韩国最大岛屿济州岛。需要说明的是，例如han2这个拼音后面的2是音调，1表示一声，2表示二声，3表示三声，4表示四声，5表示轻音，6表示变音，7、8、9代表不同的韵律停顿时长：7表示停顿较短，9表示停顿较长，8表示居中。

获取目标语音对应的音素序列的方式包括：通过目标语音对应的拼音或发音方式以及预设的韵律规则，将目标语音转换为拼音序列，然后根据预设的韵律规则为拼音序列中的每个拼音添加韵律，从而得到音素序列。

具体的，目标语音及其对应的音素可以是预先存储在训练数据库中的。获取训练数据就可以是指从训练数据库中获取目标语音及其对应的音素序列。

S102、对目标语音进行预处理，确定目标梅尔频谱；以及将音素序列输入语音合成模型中进行合成处理，得到预测梅尔频谱。

在本步骤中，梅尔频谱是将音频对应的多个功率谱(也称为多个功率帧)构成的语谱图经过梅尔滤波器组过滤后，得到的语谱图。因此，对目标语音进行预处理，确定目标梅尔频谱可以是指：利用梅尔频谱提取模块将目标语音转换成多个功率谱，然后将这些功率谱输入梅尔频谱提取模块中的梅尔滤波器进行过滤，再将过滤结果组合成完整的语谱图，即可得到目标梅尔频谱。

语音合成模型包括Fastspeech2模型，语音合成模型的作用是将文字转换成对应的语音。语音合成模型可以包括依次连接的编码器encoder、方差调节器Variance Adoptor和梅尔频谱解调器Mel-spectrogram Decoder，将音素序列输入语音合成模型中进行合成处理，得到预测梅尔频谱是指：将音素序列输入Fastspeech2模型，然后Fastspeech2模型对该音素序列进行embedding处理，生成每个音素对应的向量，再将这些向量输入到编码器encoder中，进行编码处理，得到编码向量，然后将编码向量输入方差调节器VarianceAdoptor中进行处理，并将处理结果输入到梅尔频谱解调器Mel-spectrogram Decoder中提取出预测梅尔频谱。

S103、按照目标语音的声音规则分别对目标梅尔频谱和预测梅尔频谱进行切分和组对处理，得到N个频谱片段对。

在本步骤中，一个频谱片段对中包括相互对应的一个第一频谱片段和一个第二频谱片段，第一频谱片段是对预测梅尔频谱进行切分处理得到的，第二频谱片段是对目标梅尔频谱进行切分处理得到的；N为大于1的整数。

具体的，目标语音的声音规则指示了通过目标语音在频域中的频率高低反映目标语音中不同节奏或韵律，那么按照不同的频率范围就可以将目标梅尔频谱和预测梅尔频谱分别切分成多个频谱片段。

按照目标语音的声音规则进行分段处理，这就使得每个节奏或者韵律停顿处的语音频谱不会被忽略掉，能够得到目标语音更多的频谱轮廓细节，避免合成语音由于忽略了上述细节导致的过于平滑不自然的问题，从而使得模块能够学习到不同节奏和韵律下的语音特征，以使得最后合成的语音更具有节奏感更符合韵律。

S104、利用对抗判别模型中的N个判别器，分别基于所述N个频谱片段对，对语音合成模型进行对抗生成训练。

在本步骤中，对抗判别模型中包括了N个判别器，每个判别器包括GAN模型中的判别模型(Discriminative Model或Dicriminator)。

具体的，利用N个判别器分别判断每个频谱片段对是否满足预设训练要求；其中，任意一个频谱片段对满足预设训练要求是指任意一个频谱片段对中的第一频谱片段和第二频谱片段之间的差异满足预设训练要求；若N个频谱片段对中满足预设训练要求的频谱片段对的数量小于数量阈值，则对语音合成模型进行反向传播训练。

在一种实施方式中，每个判别器中包括特征提取网络；多个频谱片段对中包括目标频谱片段对，目标频谱片段对与N个判别器中目标判别器对应；利用N个判别器分别判断每个频谱片段对是否满足预设训练要求，包括：

利用目标判别器中的特征提取网络对目标频谱片段对中的第一频谱片段以及第二频谱片段分别进行特征提取，确定预测语音特征以及目标语音特征；

利用预设损失函数，计算预测语音特征与目标语音特征的相似度；判断相似度是否大于或等于相似度阈值；若相似度大于或等于相似度阈值，则确定目标频谱片段对满足预设训练要求。其中，预设损失函数包括：余弦损失函数。

本申请实施例通过采用对抗生成训练的方式训练语音合成模型，使得语音合成模型所生成的梅尔频谱的时域和频域相关性得到加强，并且通过将梅尔频谱分割成多个频谱片段，使得梅尔频谱中的谐波能量的表达更加清晰，高频频谱图的轮廓更加清晰，其对应的能量点也更清晰，从而使得语音合成模型所生成的语音吐字更为精准，解决了读音模糊和过于平滑的技术问题。达到了合成语音吐字清晰、发音更自然、节奏和韵律感更好且更接近真人声音的技术效果。

基于上述语音合成模型的训练方法，本申请实施例提供了一种语音合成模型的训练场景，参见图2，为本申请实施例提供的一种语音合成模型的训练场景示意图。如图2所示，训练时需要两类训练数据，一类是phoneme音素101，用于进行语音合成，另一类是目标语音102，是直接录制目标说话人所说的语音，其对应的因素序列则是该目标语音对应的拼音加音律。如图2所示，首先从训练数据库100中加载目标语音102和音素序列中的多个phoneme音素101。然后，利用梅尔频谱提取模块104对目标语音102进行预处理，提取出目标语音102对应的目标梅尔频谱即梅尔频谱103。同时，将训练用的phoneme音素101输入语音合成模型200中进行TTS语音合成处理，转换为预测梅尔图谱201。然后，将预测梅尔频谱201以及目标梅尔频谱103按照目标语音102的声音规则进行切分，将预测梅尔频谱201切分成n个第一频谱片段2011，将目标梅尔频谱103切分成n个第二频谱片段1031，并且一个第一频谱片段2011与一个第二频谱片段1031一一对应，组合成频谱片段对401，然后将各个频谱片段对401分别输入对抗判别模型300中对应的判别器301中，每个判别器301分别判断第一频谱片段2011与第二频谱片段1031之间的差异是否满足预设训练要求；若否，则对语音合成模型200进行反向传播训练。

重复上述步骤进行对抗训练和模型迭代，直至对抗判别模型300中预设数量个判别器301无法再识别出其对应的第一频谱片段2011与第二频谱片段1031之间的差异，或者说两者间的差异足够小，或差异小于预设差异阈值时，证明语音合成模型200已经训练完成。

需要说明的是，本申请通过将图像合成领域的GAN模型的对抗训练的原理引入到语音合成领域，打破了两个领域之间的计算壁垒，通过对抗训练的方式来弥补语音合成模型时提取的说话人特征的不足的问题，也打破了相关技术中获取更多说话人的特征向量，或提高特征向量的维度数量，或者增加神经网络层次或者复杂度改变特征提取方式的思维惯性或技术惯性。简化了为合成语音增加说话人特征的方式，提高了模型的训练效率。

经过上述实施例的训练后，得到了训练好的语音合成模型，下面介绍利用该训练好的语音合成模型进行语音合成的方法。

图3为本申请实施例提供的一种语音合成方法的流程示意图。如图3所示，该语音合成方法，使用图1所示实施例中训练好的语音合成模型，具体步骤包括：

S301、获取待合成文本对应的音素序列。

在本步骤中，待合成文本是用户通过终端上的输入界面输入，或者从输入界面的选择框中选择的文本内容。终端获取到该待合成文本后，从后台数据库中找出与待合成文本相对应的音素序列。或者，终端获取到该待合成文本之后，采用上述步骤S201中相同的方法，获取待合成文本对应的音素序列。

S302、通过语音合成模型对音素序列进行语音合成处理，得到待合成文本对应的合成语音。

在本步骤中，语音合成模型是采用如图1所示实施例的语音合成模型的训练方法训练得到的。语音合成模型包括：经上述训练方法训练好的FastSpeech2模型。FastSpeech2模型将音素序列中的音素进行向量化embedding，然后将音素向量通过编码器进行编码，并经过调节器Adoptor加入目标说话人的语音、节奏、语调、韵律、音色等特征向量，组合得到合成语音对应的语音向量，然后经过解码器解码，输出合成语音。

本申请实施例通过FastSpeech2模型将音素序列中的音素组合起来，并为其添加说话人的节奏和音律音调，使得所得到的合成语音听起来更加自然，避免了合成语音过于平滑、机械的问题，提高了用户的使用体验感，使得合成语音更加智能化。

图4为本申请实施例提供的另一种语音合成模型的训练方法的流程示意图，如图4所示，该语音合成模型的训练方法的具体步骤，包括：

S401、获取训练数据。

在本步骤中，训练数据包括：目标语音和该目标语音对应的音素序列。

S402、对目标语音进行预处理，确定目标梅尔频谱；以及将音素序列输入语音合成模型中进行合成处理，得到预测梅尔频谱。

对于S401和S402的名词解释和实现原理，可以参考S101～S102，在此不再赘述。

S403、按照目标语音的声音规则分别对目标梅尔频谱和预测梅尔频谱进行切分和组对处理，得到N个频谱片段对。

在本步骤中，目标语音的声音规则通过目标语音在频域中的频率高低反映目标语音中不同节奏或韵律。一个频谱片段对中包括相互对应的一个第一频谱片段和一个第二频谱片段，第一频谱片段是对预测梅尔频谱进行切分处理得到的，第二频谱片段是对目标梅尔频谱进行切分处理得到的；N为大于1的整数。

当N的取值为3时，声音规则包括第一频率阈值和第二频率阈值，第一频率阈值小于第二频率阈值。

在本实施例中，具体切分和组对处理的步骤包括：

将预测梅尔频谱中小于第一频率阈值部分的第一低频频谱段、大于第一频率阈值且小于第二频率阈值部分的第一中频频谱段，以及大于第二频率阈值部分的第一高频频谱段，分别作为第一频谱片段；

以及，将目标梅尔频谱中小于第一频率阈值部分的第二低频频谱段、大于第一频率阈值且小于第二频率阈值部分的第二中频频谱段，以及大于第二频谱阈值部分的第二高频频谱段，分别作为第二频谱片段；

将第一低频频谱段与第二低频频谱段组成一个频谱片段对，第一中频频谱段和第二中频频谱段组成一个频谱片段对，以及将第一高频频谱段和第二高频频谱段组成一个频谱片段对。

值得注意的是，预测梅尔频谱或者目标梅尔频谱所切分得到的频谱片段，其长度不一定相等，这样可以增加频谱片段的多样性。并且，第一频率阈值和第二频率阈值还可以设置成随时间进行随机变化的，这样可以进一步增加频谱片段的多样性，能较好处理不同时刻的梅尔频谱的波动所带来的影响，能够更好地提取出频谱中的细节内容，避免忽略细节引起合成语音过于平滑，不自然的问题。

接下来就需要利用N个判别器分别判断每个频谱片段对是否满足预设训练要求，若N个频谱片段对中满足预设训练要求的频谱片段对的数量小于数量阈值，则对语音合成模型进行反向传播训练。

值得注意的是，每个判别器中包括特征提取网络；多个频谱片段对中包括目标频谱片段对，目标频谱片段对与N个判别器中目标判别器对应。

S404、利用目标判别器中的特征提取网络对目标频谱片段对中的第一频谱片段以及第二频谱片段分别进行特征提取，确定预测语音特征以及目标语音特征。

在本实施例中，目标判别器的特征提取网络中包括多个特征提取节点，每个特征提取节点包括：二维特征提取器。本步骤具体包括：

S4041、将目标频谱片段对中的第一频谱片段以及第二频谱片段分别输入目标判别器的每个特征提取节点的二维特征提取器中进行特征提取，得到每个特征提取节点对应的预测特征向量，以及每个特征提取节点对应的目标特征向量。

具体的，二维特征提取器包括：Conv2D。Conv2D是Convolution Layers卷积层中的二维特征提取函数。由于梅尔频谱可以理解成包含多帧的二维图片，那么每个频谱片段就可以理解为一帧或多帧二维图片，利用Conv2D就可以提取出频谱片段中的特征向量。

S4042、根据每个特征提取节点对应的预测特征向量确定预测语音特征，以及根据每个特征提取节点对应的目标特征向量确定目标语音特征。

在一种可能的设计中，每个特征提取节点中还包括：拟合处理层以及归一化处理器。其中，拟合处理层包括：Dropout。Dropout在每个训练批次中，通过忽略一半的特征检测器(让一半的隐层节点值为0)，可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用，检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。即在前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型泛化性更强，因为它不会太依赖某些局部的特征。

归一化处理器包括：BatchNorm，BatchNorm是深度神经网络中经常用到的，用于加速神经网络训练，加速收敛速度及稳定性的算法，可以说是目前深度神经网络必不可少的一部分。神经网络学习过程的本质就是为了学习数据分布，如果我们没有做归一化处理，那么每一批次训练数据的分布不一样，从大的方向上看，神经网络则需要在这多个分布中找到平衡点，从小的方向上看，由于每层网络输入数据分布在不断变化，这也会导致每层网络在找平衡点，显然，神经网络就很难收敛了。当然，如果我们只是对输入的数据进行归一化处理(比如将输入的图像除以255，将其归到0到1之间)，只能保证输入层数据分布是一样的，并不能保证每层网络输入数据分布是一样的，所以也需要在神经网络的中间层加入归一化处理。神经网络学习过程本质上就是为了学习数据分布，如果训练数据与测试数据的分布不同，网络的泛化能力就会严重降低。假设，输入的图片包含了四个维度：N、C、H、W。BatchNorm的计算就是把每个通道的N、H、W这三个维度单独拿出来做归一化处理。

此时，S4042中根据每个特征提取节点对应的预测特征向量确定预测语音特征，以及根据每个特征提取节点对应的目标特征向量确定目标语音特征，包括：

利用预设激活函数(如LeakyReLU)对每个特征提取节点对应的预测特征向量以及每个特征提取节点对应的目标特征向量进行激活处理，确定多个预测激活向量和多个目标激活向量；一个预测激活向量是对一个特征提取节点对应的预测特征向量进行激活处理得到的，一个目标激活向量是对一个特征提取节点对应的目标特征向量进行激活处理得到的；将多个预测激活向量和多个目标激活向量输入相应的特征提取点的拟合处理层(如Dropout)进行拟合处理，并利用分配概率函数减少拟合处理层中神经元的数量，确定多个预测拟合向量和多个目标拟合向量；利用归一化处理器(如BatchNorm)对多个预测拟合向量和多个目标拟合向量进行归一化处理，得到预测语音特征以及目标语音特征。

S405、利用预设损失函数，计算预测语音特征与目标语音特征的相似度，并判断相似度是否大于或等于相似度阈值。

在本步骤中，若相似度大于或等于所述相似度阈值，则确定目标频谱片段对满足预设训练要求。值得注意的是，本步骤需要对所有的目标频谱片段进行判断，当满足预设训练要求的频谱片段对的数量小于预设数量阈值时，需要执行S406，否则证明语音合成模型已经训练完毕，结束训练。

S406、对语音合成模型进行反向传播训练和模型迭代。

本申请通过采用对抗生成训练的方式训练语音合成模型，使得语音合成模型所生成的梅尔频谱的时域和频域相关性得到加强，并且通过将梅尔频谱分割成多个频谱片段，使得梅尔频谱中的谐波能量的表达更加清晰，高频频谱图的轮廓更加清晰，其对应的能量点也更清晰，从而使得语音合成模型所生成的语音吐字更为精准，解决了读音模糊和过于平滑的技术问题。达到了合成语音吐字清晰、发音更自然、节奏和韵律感更好且更接近真人声音的技术效果。

为了便于理解，下面对上述各个步骤进行举例介绍，图5为本申请实施例提供的另一种语音合成模型的训练场景示意图。如图5所示，对抗判别模型330包括：多个判别器331，每个判别器331中包括：二维特征提取器3311、激活函数3312、拟合处理层3313、归一化处理器3314以及预设损失函数3315。其中，二维特征提取器3311、激活函数3312、拟合处理层3313和归一化处理器3314组成的结构称为特征提取节点。

如图5所示，利用梅尔频谱提取模块314对目标语音312进行预处理，提取出目标语音312对应的目标梅尔频谱即目标梅尔频谱313。在本实施例中，语音合成模型包括：FastSpeech2模型。如图5所示，将训练用的phoneme音素311输入FastSpeech2模型320中进行TTS语音合成处理，FastSpeech2模型320合成的语音经过梅尔图谱解调器322转换为预测梅尔图谱321。

然后，将对抗判别模型330将预测梅尔图谱321以及目标梅尔图谱313分别随机分成3个不同长度的片段。这样做可以增加样本的多样性，同一batch size大小即同样大小的样本组中的数据在不同时刻随机分成mel spectrogram梅尔频谱片段也是不一样的，这就间接地增加了mel spectrogram语音合成模型在训练时的说话人特征的多样性，也能较好处理不同时刻的说话人特征的音色、语调、节奏、音量等方面波动。

对抗判别模型330中包括了3个判别器331，每个判别器331分别对应处理一个第一频谱片段3211，以及与该第一频谱片段3211对应的第二频谱片段3131。具体的，将第一频谱片段3211输入到二维特征提取器3311中，得到预测片段特征向量，同理，将第二频谱片段3131输入到二维特征提取器3311中，得到目标片段特征向量。其中，二维特征提取器3311包括：GAN模型中的Conv2D函数。

然后，利用预设的激活函数3312分别对预测片段特征向量和目标片段特征向量进行激活处理，得到预测片段激活向量和目标片段激活向量。在本实施例中，激活函数3312包括：LeakyReLU。

接下来，将预测片段激活向量和目标片段激活向量输入拟合处理层3313中进行拟合处理，确定预测片段拟合向量和目标片段拟合向量。在本实施例中，拟合处理层3313包括：Dropout。Dropout的实施原理是利用分配概率函数减少神经元的数量，防止由于样本数量较少而出现的过拟合的问题。

再然后，将预测片段拟合向量和目标片段拟合向量输入归一化处理器3314中进行归一化处理，确定预测片段语音特征以及目标片段语音特征。在本实施例中，归一化处理器3314包括：BatchNorm。

然后利用预设损失函数3315计算预测片段语音特征以及目标片段语音特征之间的相似度，若相似度大于或等于预设相似阈值，则确定满足预设训练要求，否则，根据预测片段语音特征以及目标片段语音特征之间的差异调整FastSpeech2模型320中的模型参数，即进行反向传播，以及模型迭代，然后重复上述过程，直至相似度大于或等于预设相似阈值，完成对FastSpeech2模型320的训练。在本实施例中，预设损失函数包括：Least SquaresGAN loss。

本申请实施例提供了一种语音合成模型的训练方法，通过将整个梅尔频谱图拆分成多个梅尔频谱片段，增加了梅尔频谱的多样性，从而使得提取的说话人的特征更加准确和丰富。解决了现有的语音合成模型在训练时存在说话人特征信息不足，导致语音合成的质量较低的技术问题。达到了为语言合成模型的训练添加说话人的音色特征，提高语音合成模型输出的合成语音质量的技术效果。

图6为本申请实施例提供的一种语音合成模型的训练装置的结构示意图。该语音合成模型的训练装置600可以通过软件、硬件或者两者的结合实现。

如图6所示，该语音合成模型的训练装置600包括：

获取模块601，用于获取训练数据，训练数据包括：目标语音和目标语音对应的音素序列；

处理模块602，用于：

在一种可能的设计中，处理模块602，用于：

利用N个判别器分别判断每个频谱片段对是否满足预设训练要求；其中，任意一个频谱片段对满足预设训练要求是指任意一个频谱片段对中的第一频谱片段和第二频谱片段之间的差异满足预设训练要求；

若N个频谱片段对中满足预设训练要求的频谱片段对的数量小于数量阈值，则对语音合成模型进行反向传播训练。

在一种可能的设计中，每个判别器中包括特征提取网络；多个频谱片段对中包括目标频谱片段对，目标频谱片段对与N个判别器中目标判别器对应；处理模块602，用于：

利用预设损失函数，计算预测语音特征与目标语音特征的相似度；

判断相似度是否大于或等于相似度阈值；

若相似度大于或等于相似度阈值，则确定目标频谱片段对满足预设训练要求。

在一种可能的设计中，目标判别器的特征提取网络中包括多个特征提取节点，每个特征提取节点中包括：至少一个二维特征提取器；对应的，处理模块602，用于：

将目标频谱片段对中的第一频谱片段以及第二频谱片段分别输入目标判别器的每个特征提取节点的二维特征提取器中进行特征提取，得到每个特征提取节点对应的预测特征向量，以及每个特征提取节点对应的目标特征向量；

根据每个特征提取节点对应的预测特征向量确定预测语音特征，以及根据每个特征提取节点对应的目标特征向量确定目标语音特征。

在一种可能的设计中，每个特征提取节点中还包括：至少一个拟合处理层以及至少一个归一化处理器，特征向量包括：预测特征向量以及目标特征向量，对应的，处理模块602，用于：

利用预设激活函数对每个特征提取节点对应的预测特征向量以及每个特征提取节点对应的目标特征向量进行激活处理，确定多个预测激活向量和多个目标激活向量；一个预测激活向量是对一个特征提取节点对应的预测特征向量进行激活处理得到的，一个目标激活向量是对一个特征提取节点对应的目标特征向量进行激活处理得到的；

将多个预测激活向量和多个目标激活向量输入相应的特征提取点的拟合处理层进行拟合处理，并利用分配概率函数减少拟合处理层中神经元的数量，确定多个预测拟合向量和多个目标拟合向量；

利用归一化处理器对多个预测拟合向量和多个目标拟合向量进行归一化处理，得到预测语音特征以及目标语音特征。

在一种可能的设计中，

目标语音的声音规则通过目标语音在频域中的频率高低反映目标语音中不同节奏或韵律，声音规则包括第一频率阈值和第二频率阈值，第一频率阈值小于第二频率阈值；当N的取值为3，对应的，处理模块602，用于：

值得说明的是，图6所示实施例提供的装置，可以执行上述任一语音合成模型的训练方法对应的实施例中所提供的训练方法，其具体实现原理、技术特征、专业名词解释以及技术效果类似，在此不再赘述。

图7为本申请实施例提供的一种语音合成装置的结构示意图。该语音合成模型的训练装置700可以通过软件、硬件或者两者的结合实现。

如图7所示，该语音合成模型的训练装置700包括：

获取模块701，用于获取待合成文本对应的音素序列；

合成模块702，用于通过语音合成模型对音素序列进行语音合成处理，得到待合成文本对应的合成语音；语音合成模型是采用上述语音合成模型的训练方法训练得到的。

值得说明的是，图7所示实施例提供的装置，可以执行上述任一方法实施例中所提供的语音合成方法，其具体实现原理、技术特征、专业名词解释以及技术效果类似，在此不再赘述。

图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示，该电子设备800，可以包括：至少一个处理器801和存储器802。图8示出的是以一个处理器为例的电子设备。

存储器802，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令，其用于实现上述各方法实施例提供的语音合成模型的训练方法或语音合成方法。

存储器802可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器801用于执行存储器802存储的计算机执行指令，以实现以上各方法实施例所述的语音合成模型的训练方法或语音合成方法。

其中，处理器801可能是一个中央处理器(central processing unit，简称为CPU)，或者是特定集成电路(application specific integrated circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选地，存储器802既可以是独立的，也可以跟处理器801集成在一起。当所述存储器802是独立于处理器801之外的器件时，该电子设备800，还可以包括：

总线803，用于连接所述处理器801以及所述存储器802。总线可以是工业标准体系结构(industry standard architecture，简称为ISA)总线、外部设备互连(peripheralcomponent，PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器802和处理器801集成在一块芯片上实现，则存储器802和处理器801可以通过内部接口完成通信。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序指令，程序指令用于上述各方法实施例中的语音合成模型的训练方法或语音合成方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的语音合成模型的训练方法或语音合成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由本申请的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括：

获取训练数据，所述训练数据包括目标语音和所述目标语音对应的音素序列；

2.根据权利要求1所述的训练方法，其特征在于，所述利用对抗判别模型中的N个判别器，分别基于所述N个频谱片段对，对所述语音合成模型进行对抗生成训练，包括：

利用所述N个判别器分别判断每个频谱片段对是否满足预设训练要求；其中，任意一个频谱片段对满足预设训练要求是指所述任意一个频谱片段对中的第一频谱片段和第二频谱片段之间的差异满足所述预设训练要求；

若所述N个频谱片段对中满足所述预设训练要求的频谱片段对的数量小于数量阈值，则对所述语音合成模型进行反向传播训练。

3.根据权利要求2所述的训练方法，其特征在于，每个判别器中包括特征提取网络；所述N个频谱片段对中包括目标频谱片段对，所述目标频谱片段对与所述N个判别器中目标判别器对应；所述利用所述N个判别器分别判断每个频谱片段对是否满足预设训练要求，包括：

利用所述目标判别器中的特征提取网络对所述目标频谱片段对中的第一频谱片段以及第二频谱片段分别进行特征提取，确定预测语音特征以及目标语音特征；

利用预设损失函数，计算所述预测语音特征与所述目标语音特征的相似度；

判断所述相似度是否大于或等于相似度阈值；

若所述相似度大于或等于所述相似度阈值，则确定所述目标频谱片段对满足所述预设训练要求。

4.根据权利要求3所述的训练方法，其特征在于，所述目标判别器的特征提取网络中包括多个特征提取节点，每个特征提取节点包括二维特征提取器；

所述利用所述目标判别器中的特征提取网络对所述目标频谱片段对中的第一频谱片段以及第二频谱片段分别进行特征提取，确定预测语音特征以及目标语音特征，包括：

将所述目标频谱片段对中的第一频谱片段以及第二频谱片段分别输入所述目标判别器的每个特征提取节点的二维特征提取器中进行特征提取，得到每个特征提取节点对应的预测特征向量，以及每个特征提取节点对应的目标特征向量；

根据每个特征提取节点对应的预测特征向量确定所述预测语音特征，以及根据每个特征提取节点对应的目标特征向量确定所述目标语音特征。

5.根据权利要求4所述的训练方法，其特征在于，每个特征提取节点中还包括：拟合处理层以及归一化处理器，所述根据每个特征提取节点对应的预测特征向量确定所述预测语音特征，以及根据每个特征提取节点对应的目标特征向量确定所述目标语音特征，包括：

将所述多个预测激活向量和所述多个目标激活向量输入相应的特征提取点的拟合处理层进行拟合处理，并利用分配概率函数减少拟合处理层中神经元的数量，确定多个预测拟合向量和多个目标拟合向量；

利用所述归一化处理器对所述多个预测拟合向量和所述多个目标拟合向量进行归一化处理，得到所述预测语音特征以及所述目标语音特征。

6.根据权利要求1所述的训练方法，其特征在于，所述目标语音的声音规则指出通过所述目标语音在频域中的频率高低反映所述目标语音中不同节奏或韵律，所述声音规则包括第一频率阈值和第二频率阈值，所述第一频率阈值小于所述第二频率阈值；

所述N的取值为3，按照所述目标语音的声音特征分别对所述目标梅尔频谱和所述预测梅尔频谱进行切分和组对处理，得到N个频谱片段对，包括：

将所述预测梅尔频谱中小于所述第一频率阈值部分的第一低频频谱段、大于所述第一频率阈值且小于所述第二频率阈值部分的第一中频频谱段，以及大于所述第二频率阈值部分的第一高频频谱段，分别作为第一频谱片段；

以及，将所述目标梅尔频谱中小于所述第一频率阈值部分的第二低频频谱段、大于所述第一频率阈值且小于所述第二频率阈值部分的第二中频频谱段，以及大于所述第二频谱阈值部分的第二高频频谱段，分别作为第二频谱片段；

将所述第一低频频谱段与所述第二低频频谱段组成一个频谱片段对，所述第一中频频谱段和所述第二中频频谱段组成一个频谱片段对，以及将所述第一高频频谱段和所述第二高频频谱段组成一个频谱片段对。

7.一种语音合成方法，其特征在于，包括：

获取待合成文本对应的音素序列；

通过语音合成模型对所述音素序列进行语音合成处理，得到所述待合成文本对应的合成语音；所述语音合成模型是采用如权利要求1-6任一项所述的语音合成模型的训练方法训练得到的。

8.一种语音合成模型的训练装置，其特征在于，包括：

处理模块，用于：

9.一种语音合成装置，其特征在于，包括：

获取模块，用于获取待合成文本对应的音素序列；

合成模块，用于通过语音合成模型对所述音素序列进行语音合成处理，得到所述待合成文本对应的合成语音；所述语音合成模型是采用如权利要求1-6任一项所述的语音合成模型的训练方法训练得到的。

10.一种电子设备，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的计算机程序；

其中，所述处理器配置为经由执行所述计算机程序来执行权利要求1至6任一项所述的语音合成模型的训练方法；或者执行权利要求7所述的语音合成方法。