CN116129863A

CN116129863A - 语音合成模型的训练方法、语音合成方法及相关装置

Info

Publication number: CN116129863A
Application number: CN202211486191.8A
Authority: CN
Inventors: 刘鹏飞; 蒋宁; 吴海英; 夏粉; 刘敏
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-05-16

Abstract

本申请提供了一种语音合成模型的训练方法、语音合成方法及相关装置，包括：获取训练样本数据的样本音素序列和声学特征标签；通过编码器对样本音素序列进行编码处理，得到第一样本音素编码特征；将声学特征标签输入参考编码器进行特征提取，得到词级别的语音特征标签，并对语音特征标签进行特征提取，得到语音特征标签向量；将第一样本音素编码特征和语音特征标签向量进行特征融合，得到第一样本韵律融合特征；通过解码器对第一样本韵律融合特征进行解码处理，得到样本声学特征；利用第一损失函数计算样本声学特征与声学特征标签之间的第一损失值，并基于第一损失值训练语音合成模型。本申请能够生成更拟人、更富有情感的语音合成结果。

Description

语音合成模型的训练方法、语音合成方法及相关装置

技术领域

本申请涉及人工智能领域，具体涉及一种语音合成模型的训练方法、语音合成方法及相关装置。

背景技术

语音合成是指将文本转化为语音音频的过程，目前通常采用语音合成模型来执行上述合成语音音频的操作。但通常采用的语音合成模型(例如FastSpeech2)主要是针对帧级别的韵律或者音素级别的韵律进行建模学习，从而导致了合成的语音听起来类似于机器人发出的机械式的语音，较为生硬且缺乏情感。

鉴于此，如何生成更拟人、更富有情感的合成语音成为亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提供了一种语音合成模型的训练方法、语音合成方法及相关装置，能够生成更拟人、更富有感情的语音合成结果。

第一方面，本申请的实施例提供了一种语音合成模型的训练方法，该方法包括：获取训练样本数据的样本音素序列和声学特征标签，其中训练样本数据用于对语音合成模型进行训练，语音合成模型包括编码器、参考编码器以及解码器；通过编码器对样本音素序列进行编码处理，得到第一样本音素编码特征；将声学特征标签输入参考编码器进行特征提取，得到词级别的语音特征标签，并对语音特征标签进行特征提取，得到语音特征标签向量；将第一样本音素编码特征和语音特征标签向量进行特征融合，得到第一样本韵律融合特征；通过解码器对第一样本韵律融合特征进行解码处理，得到样本声学特征；利用第一损失函数计算样本声学特征与声学特征标签之间的第一损失值，并基于第一损失值训练语音合成模型。

第二方面，本申请的实施例提供了一种语音合成方法，包括：获取待合成文本的音素序列和词特征向量，其中词特征向量用于反应待合成文本的语义信息和待合成文本携带的情感信息；将音素序列和词特征向量输入语音合成模型进行语音合成处理，得到待合成文本对应的语音合成结果，其中语音合成模型是基于上述第一方面所述的训练方法得到的。

第三方面，本申请的实施例提供了一种语音合成模型的训练装置，包括：第一获取模块，用于获取训练样本数据的样本音素序列和声学特征标签，其中训练样本数据用于对语音合成模型进行训练，语音合成模型包括编码器、参考编码器以及解码器；编码处理模块，用于通过编码器对样本音素序列进行编码处理，得到第一样本音素编码特征；特征提取模块，用于将声学特征标签输入参考编码器进行特征提取，得到词级别的语音特征标签，并对语音特征标签进行特征提取，得到语音特征标签向量；特征融合模块，用于将第一样本音素编码特征和语音特征标签向量进行特征融合，得到第一样本韵律融合特征；解码处理模块，用于通过解码器对第一样本韵律融合特征进行解码处理，得到样本声学特征；参数调整模块，用于利用第一损失函数计算样本声学特征与声学特征标签之间的第一损失值，并基于第一损失值训练语音合成模型。

第四方面，本申请的实施例提供了一种语音合成装置，包括：第二获取模块，用于获取待合成文本的音素序列和词特征向量，其中词特征向量用于反应待合成文本的语义信息和待合成文本携带的情感信息；合成模块，用于将音素序列和词特征向量输入语音合成模型进行语音合成处理，得到待合成文本对应的语音合成结果，其中语音合成模型是基于上述第一方面所述的训练方法得到的。

第五方面，本申请的实施例提供了一种计算可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器加载时用于执行上述第一方面所述的语音合成模型的训练方法，或第二方面所述的语音合成方法。

第六方面，本申请的实施例提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器，其中，处理器用于执行上述第一方面所述的语音合成模型的训练方法，或第二方面所述的语音合成方法。

本申请实施例提供了一种语音合成模型的训练方法、语音合成方法及相关装置，通过获取训练样本数据对应的声学特征标签，并将该声学特征标签输入语音合成模型中的参考编码器进行特征提取，以获取词级别的语音特征标签，而后将该词级别的语音特征标签作用于生成语音合成结果的过程中，使得生成的语音合成结果更符合人们说话的特点、更拟人以及更富有感情，避免了因语音合成模型学习帧级别或音素级别的语音特征，而导致合成的语音机械感强、情感平淡的问题。

附图说明

附图用来提供对本公开的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1是本申请一示例性实施例提供的语音合成的实施环境的示意图；

图2是本申请一示例性实施例提供的语音合成模型的结构示意图；

图3是本申请一示例性实施例提供的语音合成模型的训练方法的流程示意图；

图4是本申请另一示例性实施例提供的语音合成模型的训练方法的流程示意图；

图5是本申请一示例性实施例提供的参考编码器的结构示意图；

图6是本申请一示例性实施例提供的语音特征预测器的训练流程图；

图7是本申请另一示例性实施例提供的语音合成模型的结构示意图；

图8是本申请一示例性实施例提供的语音合成方法的流程示意图；

图9是本申请另一示例性实施例提供的语音合成方法的流程示意图；

图10是本申请一示例性实施例提供的语音合成模型的训练装置的结构示意图；

图11是本申请一示例性实施例提供的语音合成装置的结构示意图；

图12是本申请一示例性实施例提供的用于语音合成或语音合成模型训练的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

非自回归语音合成(Text To Speech,TTS)模型吸引了工业界和学术界越来越多的关注，其中常用的非自回归模型例如可以是FastSpeech2模型。FastSpeech2是微软亚洲研究院、浙江大学联合提出的TTS模型。FastSpeech2在FastSpeech1基础上，抛弃了Teacher-Student知识蒸馏框架，降低训练复杂度，直接用真实的语音数据作为训练目标避免信息损失，同时引入了更精确的时长信息和语音中其他可变信息，比如音高(pitch)、音量(energy)等来

语音合成模型(例如FastSpeech2)主要针对帧级别的韵律或者音素级别的韵律进行建模学习，而对于文本的语义、情感等信息则需要在整个文本句子上进行建模学习，进而导致了合成的语音发音平淡且缺乏情感。

针对上述问题，本申请实施例提供了一种语音合成模型的训练方法，下面将参考附图来具体介绍本申请的各种非限制性实施例。其中，语音合成模型的训练方法可由电子设备执行，具体可由电子设备的处理器执行。电子设备可以包括终端或者服务器，其中，终端是指手机、笔记本电脑、平板电脑、智能可穿戴设备以及车载终端等，服务器可以包括独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器。

参见图1，是本申请一示例性实施例提供的语音合成的实施环境的示意图。如图1所示，该实施环境包括待合成文本的音素序列110、待合成文本的词特征向量120、语音合成模型130和语音合成结果140。

具体地，将待合成文本的音素序列110和词特征向量120输入到语音合成模型130中，从而获得更拟人、更富有情感的语音合成结果140(也称“合成语音”)。

例如，生成更拟人的语音合成结果的方法可以应用于客服场景。客服场景可以包括服务器以及与服务器通信连接的客户端。具体而言，服务器可以包括语音合成模型。客户端用于显示客户咨询的操作界面，并接收客户输入的咨询问题发送至服务器。客户端在接收到客户发送的咨询问题时，将该咨询问题发送至服务器，而后服务器分析该咨询问题，并将该咨询问题对应的答复文本(即，待合成文本)的音素序列和词特征向量输入语音合成模型，从而得到与答复文本对应的更符合客服本人说话情感的语音合成结果，进而将语音合成结果发送至客户端，客户端播放该语音合成结果，以答复客户提出的咨询问题。

需要说明的是，应用场景也可以朗读电子书的场景、游乐场播放提示音的场景，以及导航提示语音等场景，本申请实施例对此不作具体限定。

图2是本申请一示例性实施例提供的语音合成模型的结构示意图。如图2所示，该语音合成模型包括如下内容。

音素嵌入层(Phoneme Embedding)210用于对待合成文本的音素序列201进行嵌入处理，获得该音素序列201的向量表示(即，音素特征向量)，该向量表示可以为向量矩阵。

编码器(Encoder)215用于对音素特征向量进行编码处理，得到第二音素编码特征，以学习更高层次的音素序列中的文本信息，例如句法。

位置编码(Positional Encoding)包括第一位置编码220和第二位置编码255，其中第一位置编码220和第二位置编码255用于根据音素序列201或音素特征向量，获得待合成文本中各音素位置的向量表示(例如，第一位置编码特征)。

其中语音合成模型还可以包括第三拼接层(未示出)，用于将编码器的输出结果和第一位置编码的输出结果进行拼接，得到第一音素编码特征。

时长预测器(Duration Predictor)225用于对输入的第一音素编码特征进行时长预测，得到时长预测结果。

音调预测器(Pitch Predictor)230用于对输入的待合成文本的词特征向量(WordEmbedding)202进行音调预测，得到音调预测结果。

音量预测器(Energy Predictor)235用于对输入的音调预测结果进行音量预测，得到音量预测结果。

音调嵌入层240用于对音调预测结果进行嵌入处理，得到的嵌入向量，即音调特征向量。

音量嵌入层245用于对音量预测结果进行嵌入处理，得到的嵌入向量，即音量特征向量。

长度调节器(Length Regulator)250用于将第一音素编码特征、音调特征向量和音量特征向量的特征融合结果(即，第一韵律融合特征)的长度映射成与声学特征(例如梅尔频谱)一样的长度。

解码器260可以采用梅尔解码器(Mel-spectrogram Decoder)，用于输出预测的声学特征，例如梅尔频谱(Mel-spectrogram)。

应当理解，本申请实施例改变了语音合成模型中的音调预测器和音量预测器的输入，由现有技术中编码器和位置编码输出的特征融合结果，替换为了词特征向量。

基于上述的语音合成模型，参见图3，是本申请一示例性实施例提供的语音合成模型的训练方法的流程示意图。图3的方法由电子设备例如服务器来执行。如图3所示，该语音合成模型的训练方法包括如下内容：

S310：获取训练样本数据的样本音素序列和声学特征标签。

在一个实施例中，训练样本数据用于对语音合成模型进行训练，语音合成模型包括编码器、参考编码器以及解码器。

具体地，音素(Phoneme)是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如，“语”有两个音素，“言”有三个音素。

训练样本数据的样本音素序列可以是将训练样本数据对应的样本文本中的字符对应的音素按照发声时间的顺序、音调以及停顿时长等信息排列得到的。例如，样本文本为“韩国最大的岛屿济州岛”，通过对样本文本中的各个字符的拼音、音调及相邻拼音之间的停顿时长进行解析，可以得到训练样本数据对应的样本音素序列为{han2 guo2 7zui4 da4de5 dao6 yu6 ji3zhou1 dao3}，其中“han2”表示样本文本中的字符“韩”对应的音素，“guo2”表示样本文本中的字符“国”对应的音素，以此类推。并且样本音素序列由字符的拼音及表示拼音的音调的标识构成，拼音后面的标识1表示音调为一声，标识2表示音调为二声，标识3表示音调为三声，标识4表示音调为四声，标识5表示音调为轻声，标识6表示音调为变音，音素之间的标识7表示停顿时长较短，音素之间的标识8表示停顿时长适中，音素之间的标识9表示停顿时长较长。

训练样本数据可以是样本语音音频，声学特征标签可以是样本语音音频对应的真实的梅尔频谱(Target Mel-Spectrogram)。

S320：通过编码器对样本音素序列进行编码处理，得到第一样本音素编码特征。

具体地，将样本音素序列输入音素嵌入层进行特征提取，得到样本音素特征向量，其中样本音素特征向量可以反映样本音素序列中各个音素的音调和韵律等信息。然后将样本音素特征向量输入编码器进行编码处理，得到第二样本音素编码特征，以及将样本音素特征向量输入第一位置编码进行编码处理，得到第一样本位置编码特征，其中该第一样本位置编码特征能够表示各音素的发音顺序等信息。

进一步地，将第二样本音素编码特征和第一样本位置编码特征进行特征融合，得到第一样本音素编码特征。其中，特征融合的方式可以特征相加，或利用语音合成模型的第三拼接层等，本申请实施例对特征融合的方式不作具体限定。

在一个实施例中，可以将第二样本音素编码特征和第一样本位置编码特征输入第三拼接层进行特征拼接，得到音素序列的第一样本音素编码特征。

S330：将声学特征标签输入参考编码器进行特征提取，得到词级别的语音特征标签，并对语音特征标签进行特征提取，得到语音特征标签向量。

具体地，在语音合成模型的训练阶段，语音合成模型还可以包括参考编码器(Reference Encoder)。参考编码器可以包括卷积模块、特征处理模块、平均池化模块和全连接层。参考编码器可以用于学习声学特征标签中的词级别的语音特征标签。

在一个实施例中，语音特征标签可以包括音调标签和音量标签等韵律特征标签。其中，将所述声学特征标签输入所述参考编码器进行特征提取，得到词级别的语音特征标签，可以包括：将声学特征标签输入参考编码器中进行词级别的特征提取，以得到词级别的音调标签和词级别的音量标签，其中音调标签可以理解为是真实的音调预测结果(TargetPitch)，音量标签可以理解为是真实的音量预测结果(Target Energy)。

进而，对所述语音特征标签进行特征提取，得到语音特征标签向量，可以包括：将音调标签输入音调嵌入层进行嵌入处理，得到音调特征标签向量，以及将音量标签输入音量嵌入层进行嵌入处理，得到音量特征标签向量。

需要说明的是，该步骤的具体描述，详情请参见图5和6实施例的记载。在此不再赘述。

S340：将第一样本音素编码特征和语音特征标签向量进行特征融合，得到第一样本韵律融合特征。

具体地，语音合成模型还可以包括第一拼接层和第二拼接层。第一拼接层用于将第一样本音素编码特征和音调特征标签向量进行拼接，得到第一样本拼接特征向量。第二拼接层用于将第一样本拼接特征向量和样本音量特征标签向量进行拼接，得到第一样本韵律融合特征。或者，将第一样本音素编码特征、音量特征标签向量和音调特征标签向量同时进行特征相加，以获取第一样本韵律融合特征，其中特征相加可以理解为是特征融合的一种方式。需要说明的是，特征融合的具体方式可以根据实际情况灵活设置，本申请实施例对此不作具体限定。

S350：通过解码器对第一样本韵律融合特征进行解码处理，得到样本声学特征。

具体地，在将第一样本韵律融合特征输入解码器之前，该方法还可以包括：将第一样本音素编码特征输入时长预测器进行时长预测处理，获取样本时长预测结果。

在一个实施例中，将样本时长预测结果和第一样本韵律融合特征输入长度调节器进行长度调整，获取第二样本韵律融合特征，其中该第二样本韵律融合特征与声学标签的维度一致。进而，将第二样本韵律融合特征与第二位置编码输出的第二样本位置编码特征进行拼接融合，获得第三样本韵律融合特征，其中拼接融合的方式可以是特征相加。将该第三样本韵律融合特征输入解码器进行解码处理，得到样本声学特征，其中解码器可以采用梅尔解码器，样本声学特征可以是梅尔频谱(Mel-Spectrogram)。

S360：利用第一损失函数计算样本声学特征与声学特征标签之间的第一损失值，并基于第一损失值训练语音合成模型。

具体地，利用第一损失函数计算语音合成模型输出的训练样本数据对应的样本声学特征与声学特征标签之间的第一损失值，其中该语音合成模型可以理解为是未完成训练的模型。而后基于该第一损失值对语音合成模型进行参数调整，直至获得所需的语音合成模型，其中该第一损失函数可以是L1loss函数、L2 loss函数、交叉熵损失函数或均方误差损失函数等，本申请实施例对此不作具体限定。需要说明的是，利用第一损失值对语音合成模型进行参数调整的过程可以理解为是反向传播的过程，例如利用反向传播算法(back-propagation)对语音合成模型进行参数调整。

优选地，本申请实施例将L1 loss函数或L2 loss函数作为第一损失函数。需要说明的是，语音合成模型可以是词级别韵律的网络结构。

由此可知，本申请实施例通过获取训练样本数据对应的声学特征标签，并将该声学特征标签输入语音合成模型中的参考编码器进行特征提取，以获取词级别的语音特征标签，而后将该词级别的语音特征标签作用于生成语音合成结果的过程中，使得生成的语音合成结果更符合人们说话的特点、更拟人以及更富有感情，避免了因语音合成模型学习帧级别或音素级别的语音特征，而导致合成的语音机械感强、情感平淡的问题。

在一个实施例中，参考编码器包括卷积模块、特征处理模块、平均池化模块和全连接层。语音特征标签包括音调标签和音量标签。具体地，参见图5，参考编码器500可以包括卷积模块(Conv2d stack)510、特征处理模块(Flattern)520、平均池化模块(Token-wiseMean Pooling)530和全连接层(Dense)540。卷积模块510可以包括第一卷积层511、修正线性单元(Rectified Linear Unit,ReLU)512和丢弃模块(Dropout)513，其中卷积模块的数量可以是一个或多个，本申请实施例对卷积模块的数量不作具体限定。

第一卷积层511可以是Conv1d或Conv2d，本申请实施例度第一卷积层亦不作具体限定。由于参考编码器的输入为数据维度是2的声学特征标签，因此此处可以将声学特征标签看作为一张图片，并利用第一卷积层(例如Conv2d)来处理。

基于此，下面通过图4详细介绍上述步骤S330可行的实施方式。具体地，将所述声学特征标签输入所述参考编码器进行特征提取，得到词级别的语音特征标签，可以包括：

S410：将声学特征标签输入卷积模块进行卷积处理，获取声学标签特征向量，以及将声学标签特征向量输入特征处理模块进行维度处理，获取维度处理后的声学标签特征向量。

具体地，卷积模块可以用于学习声学特征标签的特征信息。而后特征处理模块可以用于对卷积模块输出的声学标签向量进行维度展开等维度操作，从而得到维度处理后的声学标签特征向量，例如展开维度为<batch_size,mel_length*dim>，其中batch_size表示单次传递给电子设备用以训练语音合成模型的样本个数，mel_length表示梅尔频谱长度，dim表示维度。

S420：将维度处理后的声学标签特征向量输入平均池化模块进行池化处理，获得池化后的声学标签特征向量。

在一个实施例中，池化后的声学标签特征向量用于反应训练样本数据的词级别的特征向量。

具体地，平均池化模块的作用可以就是将帧级别的特征向量转换成词级别(token级别)的特征向量。例如，音素序列为“xin1 yuan3 8di4 7zi4pian1”，不含标点的该音素序列对应的文本长度(text_length)为8，假设该音素序列对应的梅尔频谱长度为20，即维度为<20,dim>，时长预测结果为[2,4,2,3,1,2,4,2]，可见总时长即为sum(duration)＝2+4+2+3+1+2+4+2＝20。因此说明“xin1”发音长度为2，“yuan3”发音长度为4，以此类推。根据每个音素的发音时长和梅尔特征就可得到每个音素对应区域的梅尔频谱的维度，其中“xin1”为<2,dim>,“yuan3”为<4,dim>，进而可以对音素序列中每个字或词对应的发音时长求平均，从而得到词级别的特征向量。

需要说明的是，在对语音合成模型的训练过程中，时长标签中每个音素都有其对应的时长信息，所有音素的时长信息相加，即可得到与声学特征长度一致的数值。例如，在维度处理后的声学标签特征向量的展开维度为<batch_size,mel_length*dim>的情况下，经过平均池化模块的输出维度为<batch_size,text_length*dim>，其中text_length和mel_length之间的映射就是由时长标签来决定的。

S430：将池化后的声学标签特征向量输入到全连接层进行特征处理，并对特征处理后的声学标签特征向量进行维度拆分，获取音调标签和音量标签。

具体地，全连接层用于对池化后的声学标签特征进行特征提取和维度映射，得到特征处理后的声学标签特征向量，其中经过全连接层维度映射后的特征维度为2，例如{batch_size,text_legnth,2}。

在一个实施例中，由于音调标签和音量标签的维度都是1维，例如{batch_size,text_length,1}，而全连接层的输出维度为2维，例如{batch_size,text_legnth,2}，因此语音合成模型还可以设置有拆分模块(例如，Ground-Truth Prosody)。拆分模块用于将参考编码器中全连接层输出的2维向量，拆分成两个维度一致的1维向量，其中每个向量特征值是不一样，一个向量为音调标签，另一个向量为音量标签。

由此可知，本申请实施例通过设置参考编码器，学习声学特征标签中词级别的特征向量，为语音合成模型生成更富有表现力和情感的语音合成结果提供了保障，避免了因语音合成模型学习帧级别或音素级别的语音特征，而导致合成的语音机械感强的问题。

在一个实施例中，由前述可知，语音合成模型还可以包括语音特征预测起，语音特征预测器具体可包括音调预测器和音量预测器，在对语音合成模型进行训练的过程中，也可以同时对音调预测器和音量预测器进行训练。下面通过图6具体介绍对音调预测器和音量预测器的训练过程。如图6所示，对音调预测器和音量预测器的训练可以包括如下步骤：

S610：获取训练样本数据的样本词特征向量。

在一实施例中，样本词特征向量用于反应训练样本数据的语义信息和训练样本数据携带的情感信息。

具体地，获取训练样本数据的样本词特征向量，可以包括：将训练样本数据的样本音素序列输入预先训练的语言表征模型中，获取富含语义信息和情感信息的样本句特征向量；对样本句特征向量进行以词为单位的特征提取，获得样本词特征向量。

其中，样本词特征向量可以是训练样本数据中词对应的特征向量，也可以是训练样本数据中字对应的特征向量，本申请实施例对此不作具体限定。

在一实施例中，语言表征模型可以是来自变换器的双向编码器表征量模型(Bidirectional Encoder Representations from Transformer,BERT)模型。其中变换器(Transformer)是一种基于自注意力机制的时序模型，在编码器部分可以有效对时序信息进行编码，对时序信息的处理能力远远好于长短期记忆模型，且速度快。其广泛应用于自然语言处理，计算机视觉，机器翻译，语音识别等领域中。

S620：将样本词特征向量输入音调预测器进行音调预测，获取样本音调预测结果，以及将样本音调预测结果输入音量预测器进行音量预测，获取样本音量预测结果。

S630：利用第二损失函数计算音调标签与样本音调预测结果之间的第二损失值，并基于第二损失值训练音调预测器。

具体地，第二损失函数可以是L1 loss函数、L2 loss函数、交叉熵损失函数或均方误差损失函数等。优选地，本申请实施例将L1 loss函数作为第二损失函数。

例如，利用L1 loss函数计算音调标签和样本音调预测结果之间的第二损失值，而后基于该第二损失值对音调预测器进行参数调整。

S640：利用第三损失函数计算音量标签与样本音量预测结果之间的第三损失值，并基于第三损失值训练音量预测器。

具体地，第三损失函数也可以是L1 loss函数、L2 loss函数、交叉熵损失函数或均方误差损失函数等。需要说明的是，第二损失函数和第三损失函数可以相同，也可以不同，本申请实施例对此不作具体限定。优选地，本申请实施例将L1 loss函数作为第三损失函数。

例如，利用L1 loss函数计算音量标签和样本音量预测结果之间的第三损失值，而后基于该第三损失值对音量预测器进行参数调整。

需要说明的是，时长预测器的输入是第一样本音素编码特征，该时长预测器输出的样本时长预测结果(Predicted Duration)也需要与时长标签(Target Duration)一起参与损失函数(例如L1 Loss函数)的计算，从而使得时长预测结果更接近时长标签。

需要说明的是，由于在对语音合成模型的训练过程中，随着迭代步数的增加，从音调预测器获得的样本音调预测结果和音量预测器获得的样本音量预测结果，与音调标签和音量标签之间的距离会越来越小，因此在应用收敛的语音合成模型进行预测时，不需要参考编码器，只需要音调预测器和音量预测器即可。

由此可知，本申请实施例通过利用至少一个损失函数对语音合成模型中的至少一个预测器(例如音调预测器等)进行训练，从而使得至少一个预测器的输出结果与真实结果更为相近，从而增强了语音合成结果的情感信息。

基于前述图1-图6实施例的描述，本申请实施例提供了另一种语音合成模型，参见图7，是本申请另一示例性实施例提供的语音合成模型的结构示意图。下面结合图7所述的语音合成模型，具体介绍一种语音合成模型的训练方法流程以及步骤：

将样本音素序列701输入音素嵌入层710获取样本音素特征向量。而后将样本音素特征向量输入编码器715获取的第二样本音素编码特征，与样本音素特征向量输入第一位置编码720获得的第一样本位置编码特征进行拼接融合，获得第一样本音素编码特征。将声学特征标签775输入参考编码器780，得到词级别的语音特征标签，而后将该语音特征标签输入拆分模块785，得到音量标签790和音调标签792。将音量标签790输入音量嵌入层(未示出)，得到音量特征标签向量745，以及将音调标签792输入音调嵌入层(未示出)，得到音调特征标签向量740。

进一步地，将第一样本音素编码特征、音调特征标签向量740和音量特征标签向量745进行拼接融合，获得第一样本韵律融合特征。进而将第一样本韵律融合特征和时长标签输入长度调节器750进行长度调整，获取第二样本韵律融合特征。将该第二样本韵律融合特征与第二位置编码755获得的第二样本位置编码特征进行融合后，获得第三样本韵律融合特征，最后将该第三样本韵律融合特征输入解码器760进行解码处理，获取样本声学特征765。其中利用第一损失函数770(例如L1 loss函数)计算样本声学特征765与声学特征标签775之间的第一损失值，并基于该第一损失值训练语音合成模型。

将样本词特征向量702输入音调预测器730，得到样本音调预测结果，以及将该样本音调预测结果输入音量预测器735，得到样本音量预测结果。并利用第二损失函数796计算音调标签792与样本音调预测结果之间的第二损失值，并基于第二损失值对音调预测器730进行参数调整，以及利用第三损失函数794计算音量标签790与样本音量预测结果之间的第三损失值，并基于第三损失值对音量预测器735进行参数调整。

此外，还包括将第一样本音素编码特征输入时长预测器725进行时长预测，得到样本时长预测结果，并将该样本时长预测结果与时长标签计算损失值，以便于基于该损失值对时长预测器725进行参数调整。

由此可知，本申请实施例通过获取训练样本数据对应的声学特征标签，并将该声学特征标签输入语音合成模型中的参考编码器进行特征提取，以获取词级别的语音特征标签，而后将该词级别的语音特征标签作用于生成语音合成结果的过程中，使得生成的语音合成结果更符合人们说话的特点。同时，本申请实施例利用至少一个损失函数对语音合成模型中的至少一个预测器(例如，音调预测器)进行训练，使得至少一个预测器的输出结果与真实结果更为相近，从而为生成更拟人的语音合成结果提供了保障，增强了用户体验。

基于前述各个语音合成模型以及语音合成模型的训练方法实施例，本申请实施例还提供了一种语音合成方法。参见图8，是本申请一示例性实施例提供的语音合成方法的流程示意图。图8的方法由电子设备上运行的语音合成模型来执行。如图8所示，该语音合成方法包括如下步骤：

S810：获取待合成文本的音素序列和词特征向量。

S820：将音素序列和词特征向量输入语音合成模型进行语音合成处理，得到待合成文本对应的语音合成结果。

其中，语音合成模型是基于上述实施例描述的训练方法得到的。

具体地，语音合成模型的输出层可以具有语音重构功能，通过对语音合成结果对应的声学特征进行重构，得到声波，然后利用语音生成技术，基于该声波生成待合成文本对应的语音合成结果。需要说明的是，语音合成结果的生成方式可以根据实际需求灵活设置，本申请实施例对此不作具体限定。

需要说明的是，在应用的数据方面，训练阶段与应用阶段的主要区别在于，训练阶段应用的是训练样本数据，而应用阶段采用的是待合成文本的音素序列。此外，在语音合成模型的结构上，训练阶段的语音合成模型比应用阶段多设置有参考编码器，该参考编码器用于学习声学特征标签中的词级别的语音特征标签(例如，音调标签和音量标签)。

由此可知，本申请实施例相较于现有技术中仅将待合成文本的音素序列作为语音合成模型的输入，本申请实施例将待合成文本的音素序列，以及富含语义、情感信息的词特征向量共同作为语音合成模型的输入，从而使得语音合成模型在预测过程中，结合了基于词特征向量得到的词级别的预测语音特征(即，音调特征向量、音量特征向量等韵律特征向量)，考虑了情感、语音等信息，从而使得生成的语音合成结果更拟人、更富有情感。

在一个实施例中，将音素序列和词特征向量输入语音合成模型进行语音合成处理，得到待合成文本对应的语音合成结果，可以包括如下步骤S910-步骤S930：

S910：通过编码器对音素序列进行编码处理，得到第一音素编码特征，以及将词特征向量输入语音特征预测器进行预测处理，得到语音预测结果，并对语音预测结果进行特征提取，得到预测语音特征。

在一个实施例中，步骤S910包括的一种可行的实施方式为：将音素序列输入音素嵌入层进行特征提取，得到待合成文本的音素特征向量；将音素特征向量输入编码器进行编码处理，得到第二音素编码特征，以及将音素特征向量输入第一位置编码，得到第一位置编码特征；将第二音素编码特征和第一位置编码特征进行融合，得到第一音素编码特征。

在本申请一实施例中，语音特征预测器包括时长预测器，其中语音合成方法，还包括：将第一音素编码特征输入时长预测器进行时长预测处理，获取时长预测结果，将第一韵律融合特征输入解码器进行解码处理，得到声学特征，包括：根据时长预测结果对第一韵律融合特征进行长度调整，获取第二韵律融合特征；将第二韵律融合特征输入解码器进行解码处理，获取声学特征。

具体地，声学特征可以是梅尔频谱。由于音素序列的长度通常小于梅尔频谱的长度，因此为了适应解码器输出的特征长度，语音合成模型设置有长度调节器，该长度调节器用于将音素序列的第一韵律融合特征的长度，充填到与梅尔频谱的长度一致。

将时长预测结果和第一韵律融合特征输入长度调节器中，根据时长预测结果对第一韵律融合特征进行长度调整，以获取第二韵律融合特征。需要说明的是，时长预测结果不需要经过特征提取层获取时长特征向量，时长预测器的作用是用于预测每个音素对应的时长信息，然后通过长度调节器，将第一韵律融合特征映射至与梅尔频谱一样的长度。

由此可知，本申请实施例通过设置长度调节器，将第一韵律融合特征的长度映射至与梅尔频谱一样的长度，从而确保了在应用语音合成模型输出合成语音的过程中，梅尔频谱特征的正常输出。

S920：将第一音素编码特征和预测语音特征进行特征融合，得到第一韵律融合特征。

S930：将第一韵律融合特征输入解码器进行解码处理，得到声学特征，并基于声学特征进行语音合成，得到语音合成结果。

由此可知，本申请实施例相较于现有技术而言，将音调预测器的输入，由第一音素编码特征(现有技术的输入)变为富含语义信息和情感信息的词特征向量，从而获得词级别的音调特征向量和音量特征向量。也就是说，本申请实施例结合了词级别的韵律特征，考虑了情感等信息，从降低了语音合成结果的机械感。

在本申请一实施例中，语音特征预测器包括音调预测器和音量预测器，语音预测结果包括音调预测结果和音量预测结果，其中，将词特征向量输入语音特征预测器进行预测处理，得到语音预测结果，包括：将词特征向量输入音调预测器进行音调特征预测处理，获取音调预测结果；将音调预测结果输入音量预测器进行音量特征预测处理，获取音量预测结果。

基于前述的语音合成模型的训练方法实施例，本申请实施例提供了一种语音合成模型，参见图10，是本申请一示例性实施例提供的语音合成模型的训练装置1000的结构示意图。如图10所示，该装置包括：第一获取模块1010、编码处理模块1020、特征提取模块1030、特征融合模块1040、解码处理模块1050和参数调整模块1060。

第一获取模块1010用于获取训练样本数据的样本音素序列和声学特征标签，其中训练样本数据用于对语音合成模型进行训练，语音合成模型包括编码器、参考编码器以及解码器；编码处理模块1020用于通过编码器对样本音素序列进行编码处理，得到第一样本音素编码特征；特征提取模块1030用于将声学特征标签输入参考编码器进行特征提取，得到词级别的语音特征标签，并对语音特征标签进行特征提取，得到语音特征标签向量；特征融合模块1040用于将第一样本音素编码特征和语音特征标签向量进行特征融合，得到第一样本韵律融合特征；解码处理模块1050用于通过解码器对第一样本韵律融合特征进行解码处理，得到样本声学特征；参数调整模块1060用于利用第一损失函数计算样本声学特征与声学特征标签之间的第一损失值，并基于第一损失值训练语音合成模型。

本申请实施例提供了一种语音合成模型的训练装置，通过获取训练样本数据对应的声学特征标签，并将该声学特征标签输入语音合成模型中的参考编码器进行特征提取，以获取词级别的语音特征标签，而后将该词级别的语音特征标签作用于生成语音合成结果的过程中，使得生成的语音合成结果更符合人们说话的特点、更拟人以及更富有感情，避免了因语音合成模型学习帧级别或音素级别的语音特征，而导致合成的语音机械感强、情感平淡的问题。

根据本申请一实施例，参考编码器包括卷积模块、特征处理模块、平均池化模块和全连接层，语音特征标签包括音调标签和音量标签，

特征提取模块1030在将声学特征标签输入参考编码器进行特征提取，得到词级别的语音特征标签时，执行如下步骤：

将声学特征标签输入卷积模块进行卷积处理，获取声学标签特征向量，以及将声学标签特征向量输入特征处理模块进行维度处理，获取维度处理后的声学标签特征向量；将维度处理后的声学标签特征向量输入平均池化模块进行池化处理，获得池化后的声学标签特征向量，其中池化后的声学标签特征向量用于反应训练样本数据的词级别的特征向量；将池化后的声学标签特征向量输入到全连接层进行特征处理，并对特征处理后的声学标签特征向量进行维度拆分，获取音调标签和音量标签。

根据本申请一实施例，语音合成模型还包括语音特征预测器，语音特征预测器包括音调预测器和音量预测器，第一获取模块1010还用于执行如下步骤：

获取训练样本数据的样本词特征向量，其中样本词特征向量用于反应训练样本数据的语义信息和训练样本数据携带的情感信息；将样本词特征向量输入音调预测器进行音调预测，获取样本音调预测结果，以及将样本音调预测结果输入音量预测器进行音量预测，获取样本音量预测结果；利用第二损失函数计算音调标签与样本音调预测结果之间的第二损失值，并基于第二损失值训练音调预测器；利用第三损失函数计算音量标签与样本音量预测结果之间的第三损失值，并基于第三损失值训练音量预测器。

应当理解，上述实施例中的第一获取模块1010、编码处理模块1020、特征提取模块1030、特征融合模块1040、解码处理模块1050和参数调整模块1060的具体工作过程和功能可以参考上述图3至图6实施例提供的语音合成模型的训练方法中的描述，为了避免重复，在此不再赘述。

图11是本申请一示例性实施例提供的语音合成装置1100的结构示意图。如图11所示，该装置包括：第二获取模块1110和合成模块1120。

第二获取模块1110用于获取待合成文本的音素序列和词特征向量，其中词特征向量用于反应待合成文本的语义信息和待合成文本携带的情感信息；合成模块1120用于将音素序列和词特征向量输入语音合成模型进行语音合成处理，得到待合成文本对应的语音合成结果。

根据本申请一实施例，语音合成模型包括编码器、语音特征预测器和解码器，合成模块1120在将音素序列和词特征向量输入语音合成模型进行语音合成处理，得到待合成文本对应的语音合成结果时，执行如下步骤：

通过编码器对音素序列进行编码处理，得到第一音素编码特征，以及将词特征向量输入语音特征预测器进行预测处理，得到语音预测结果，并对语音预测结果进行特征提取，得到预测语音特征；将第一音素编码特征和预测语音特征进行特征融合，得到第一韵律融合特征；将第一韵律融合特征输入解码器进行解码处理，得到声学特征，并基于声学特征进行语音合成，得到语音合成结果。

根据本申请一实施例，语音特征预测器包括音调预测器和音量预测器，语音预测结果包括音调预测结果和音量预测结果，合成模块1120在将词特征向量输入语音特征预测器进行预测处理，得到语音预测结果时，执行如下步骤：

将词特征向量输入音调预测器进行音调特征预测处理，获取音调预测结果；将音调预测结果输入音量预测器进行音量特征预测处理，获取音量预测结果。

根据本申请一实施例，语音合成模型还包括第一位置编码和音素嵌入层，合成模块1120在通过编码器对音素序列进行编码处理，得到第一音素编码特征时，执行如下步骤：

将音素序列输入音素嵌入层进行特征提取，得到待合成文本的音素特征向量；将音素特征向量输入编码器进行编码处理，得到第二音素编码特征，以及将音素特征向量输入第一位置编码，得到第一位置编码特征；将第二音素编码特征和第一位置编码特征进行特征融合，得到第一音素编码特征。

根据本申请一实施例，语音特征预测器包括时长预测器，第二获取模块1110还用于执行如下步骤：

将第一音素编码特征输入时长预测器进行时长预测处理，获取时长预测结果；

合成模块1120在将第一韵律融合特征输入解码器进行解码处理，得到声学特征时，执行如下步骤：

根据时长预测结果对第一韵律融合特征进行长度调整，获取第二韵律融合特征，其中第二韵律融合特征与声学特征的长度一致；将第二韵律融合特征输入解码器进行解码处理，获取声学特征。

应当理解，上述实施例中第二获取模块1110和合成模块1120的具体工作过程和功能可以参考上述图8和9实施例提供的语音合成方法中的描述。

图12是本申请一示例性实施例提供的用于语音合成或语音合成模型训练的电子设备的框图。参照图12，电子设备1200包括处理组件1210，其进一步包括一个或多个处理器，以及由存储器1220所代表的存储器资源，用于存储可由处理组件1210的执行的指令，例如应用程序。存储器1220中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1210被配置为执行指令，以执行上述语音合成方法或语音合成模型的训练方法。

电子设备1200还可以包括一个电源组件被配置为执行电子设备1200的电源管理，一个有线或无线网络接口被配置为将电子设备1200连接到网络，和一个输入输出(I/O)接口。可以基于存储在存储器1220的操作系统操作电子设备1200，例如Windows Server^TM，MacOS X^TM，Unix^TM，Linux^TM，FreeBSD^TM或类似。

一种非临时性计算机可读存储介质，当存储介质中的指令由上述电子设备1200的处理器执行时，使得上述电子设备1200能够执行一种语音合成模型的训练方法，包括：

获取训练样本数据的样本音素序列和声学特征标签，其中训练样本数据用于对语音合成模型进行训练，语音合成模型包括编码器、参考编码器以及解码器；通过编码器对样本音素序列进行编码处理，得到第一样本音素编码特征；将声学特征标签输入参考编码器进行特征提取，得到词级别的语音特征标签，并对语音特征标签进行特征提取，得到语音特征标签向量；将第一样本音素编码特征和语音特征标签向量进行特征融合，得到第一样本韵律融合特征；通过解码器对第一样本韵律融合特征进行解码处理，得到样本声学特征；利用第一损失函数计算样本声学特征与声学特征标签之间的第一损失值，并基于第一损失值训练语音合成模型。

或者当存储介质中的指令由上述电子设备1200的处理器执行时，使得上述电子设备1200能够执行一种语音合成方法，包括：

获取待合成文本的音素序列和词特征向量，其中词特征向量用于反应待合成文本的语义信息和待合成文本携带的情感信息；将音素序列和词特征向量输入语音合成模型进行语音合成处理，得到待合成文本对应的语音合成结果，其中语音合成模型是基于上述实施例所述的训练方法得到的。

上述所有可选技术方案，可采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。

需要说明的是，在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括：

获取训练样本数据的样本音素序列和声学特征标签，其中所述训练样本数据用于对语音合成模型进行训练，所述语音合成模型包括编码器、参考编码器以及解码器；

通过所述编码器对所述样本音素序列进行编码处理，得到第一样本音素编码特征；

将所述声学特征标签输入所述参考编码器进行特征提取，得到词级别的语音特征标签，并对所述语音特征标签进行特征提取，得到语音特征标签向量；

将所述第一样本音素编码特征和所述语音特征标签向量进行特征融合，得到第一样本韵律融合特征；

通过所述解码器对所述第一样本韵律融合特征进行解码处理，得到样本声学特征；

利用第一损失函数计算所述样本声学特征与所述声学特征标签之间的第一损失值，并基于所述第一损失值训练所述语音合成模型。

2.根据权利要求1所述的训练方法，其特征在于，所述参考编码器包括卷积模块、特征处理模块、平均池化模块和全连接层，所述语音特征标签包括音调标签和音量标签，

其中，所述将所述声学特征标签输入所述参考编码器进行特征提取，得到词级别的语音特征标签，包括：

将所述声学特征标签输入所述卷积模块进行卷积处理，获取声学标签特征向量，以及将所述声学标签特征向量输入所述特征处理模块进行维度处理，获取维度处理后的声学标签特征向量；

将所述维度处理后的声学标签特征向量输入所述平均池化模块进行池化处理，获得池化后的声学标签特征向量，其中所述池化后的声学标签特征向量用于反应所述训练样本数据的词级别的特征向量；

将所述池化后的声学标签特征向量输入到所述全连接层进行特征处理，并对特征处理后的声学标签特征向量进行维度拆分，获取所述音调标签和所述音量标签。

3.根据权利要求2所述的训练方法，其特征在于，所述语音合成模型还包括语音特征预测器，所述语音特征预测器包括音调预测器和音量预测器，其中，所述训练方法还包括：

获取所述训练样本数据的样本词特征向量，其中所述样本词特征向量用于反应所述训练样本数据的语义信息和所述训练样本数据携带的情感信息；

将所述样本词特征向量输入所述音调预测器进行音调预测，获取样本音调预测结果，以及将所述样本音调预测结果输入所述音量预测器进行音量预测，获取样本音量预测结果；

利用第二损失函数计算所述音调标签与所述样本音调预测结果之间的第二损失值，并基于所述第二损失值训练所述音调预测器；

利用第三损失函数计算所述音量标签与所述样本音量预测结果之间的第三损失值，并基于所述第三损失值训练所述音量预测器。

4.一种语音合成方法，其特征在于，包括：

获取待合成文本的音素序列和词特征向量，其中所述词特征向量用于反应所述待合成文本的语义信息和所述待合成文本携带的情感信息；

将所述音素序列和所述词特征向量输入语音合成模型进行语音合成处理，得到所述待合成文本对应的语音合成结果，其中所述语音合成模型是基于上述权利要求1至3中任一项所述的训练方法得到的。

5.根据权利要求4所述的语音合成方法，其特征在于，所述语音合成模型包括编码器、语音特征预测器和解码器，

其中，所述将所述音素序列和所述词特征向量输入语音合成模型进行语音合成处理，得到所述待合成文本对应的语音合成结果，包括：

通过所述编码器对所述音素序列进行编码处理，得到第一音素编码特征，以及将所述词特征向量输入所述语音特征预测器进行预测处理，得到语音预测结果，并对所述语音预测结果进行特征提取，得到预测语音特征；

将所述第一音素编码特征和所述预测语音特征进行特征融合，得到第一韵律融合特征；

将所述第一韵律融合特征输入所述解码器进行解码处理，得到声学特征，并基于所述声学特征进行语音合成，得到所述语音合成结果。

6.根据权利要求5所述的语音合成方法，其特征在于，所述语音特征预测器包括音调预测器和音量预测器，所述语音预测结果包括音调预测结果和音量预测结果，

其中，所述将所述词特征向量输入所述语音特征预测器进行预测处理，得到语音预测结果，包括：

将所述词特征向量输入所述音调预测器进行音调特征预测处理，获取所述音调预测结果；

将所述音调预测结果输入所述音量预测器进行音量特征预测处理，获取所述音量预测结果。

7.根据权利要求5所述的语音合成方法，其特征在于，所述语音合成模型还包括第一位置编码和音素嵌入层，

其中，所述通过所述编码器对所述音素序列进行编码处理，得到第一音素编码特征，包括：

将所述音素序列输入所述音素嵌入层进行特征提取，得到所述待合成文本的音素特征向量；

将所述音素特征向量输入所述编码器进行编码处理，得到第二音素编码特征，以及将所述音素特征向量输入所述第一位置编码，得到第一位置编码特征；

将所述第二音素编码特征和所述第一位置编码特征进行特征融合，得到所述第一音素编码特征。

8.根据权利要求5至7中任一项所述的语音合成方法，其特征在于，所述语音特征预测器包括时长预测器，

其中，所述语音合成方法，还包括：

将所述第一音素编码特征输入所述时长预测器进行时长预测处理，获取时长预测结果；

其中，所述将所述第一韵律融合特征输入所述解码器进行解码处理，得到声学特征，包括：

根据所述时长预测结果对所述第一韵律融合特征进行长度调整，获取第二韵律融合特征，其中所述第二韵律融合特征与所述声学特征的长度一致；

将所述第二韵律融合特征输入所述解码器进行解码处理，获取所述声学特征。

9.一种语音合成模型的训练装置，其特征在于，包括：

第一获取模块，用于获取训练样本数据的样本音素序列和声学特征标签，其中所述训练样本数据用于对语音合成模型进行训练，所述语音合成模型包括编码器、参考编码器以及解码器；

编码处理模块，用于通过所述编码器对所述样本音素序列进行编码处理，得到第一样本音素编码特征；

特征提取模块，用于将所述声学特征标签输入所述参考编码器进行特征提取，得到词级别的语音特征标签，并对所述语音特征标签进行特征提取，得到语音特征标签向量；

特征融合模块，用于将所述第一样本音素编码特征和所述语音特征标签向量进行特征融合，得到第一样本韵律融合特征；

解码处理模块，用于通过所述解码器对所述第一样本韵律融合特征进行解码处理，得到样本声学特征；

参数调整模块，用于利用第一损失函数计算所述样本声学特征与所述声学特征标签之间的第一损失值，并基于所述第一损失值训练所述语音合成模型。

10.一种语音合成装置，其特征在于，包括：

第二获取模块，用于获取待合成文本的音素序列和词特征向量，其中所述词特征向量用于反应所述待合成文本的语义信息和所述待合成文本携带的情感信息；

合成模块，用于将所述音素序列和所述词特征向量输入语音合成模型进行语音合成处理，得到所述待合成文本对应的语音合成结果，其中所述语音合成模型是基于上述权利要求1至3中任一项所述的训练方法得到的。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器加载时用于执行上述权利要求1至3中任一项所述的语音合成模型的训练方法，或用于执行上述权利要求4至8中任一项所述的语音合成方法。

12.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器，

其中，所述处理器用于执行上述权利要求1至3中任一项所述的语音合成模型的训练方法，或用于执行上述权利要求4至8中任一项所述语音合成方法。