CN114582317B

CN114582317B - 语音合成方法、声学模型的训练方法及装置

Info

Publication number: CN114582317B
Application number: CN202210319541.5A
Authority: CN
Inventors: 刘鹏飞; 王洪斌; 刘敏
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2023-08-08
Anticipated expiration: 2042-03-29
Also published as: CN114582317A

Abstract

本申请公开了一种语音合成方法、声学模型的训练方法及装置。所述合成方法包括：基于待合成文本的音素序列，得到待合成文本的音素特征向量；将音素特征向量输入声学模型，得到待合成文本对应的合成语音；声学模型包括编码器和合成网络；编码器包括融合层和n级串联的子编码器，第一级子编码器用于对音素特征向量进行编码，得到对应的编码序列，除第一级子编码器之外的其余各级子编码器用于对音素特征向量和前面各级子编码得到的编码序列进行编码，得到对应的编码序列，融合层用于对音素特征向量和每级子编码器得到的编码序列进行融合处理，得到音素编码序列；合成网络用于根据目标可变声学特征和音素编码序列进行语音合成处理，得到合成语音。

Description

语音合成方法、声学模型的训练方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种语音合成方法、声学模型的训练方法及装置。

背景技术

当前端到端的从文本到语音(Text To Speech，TTS)技术越来越流行，各类声学模型的出现更是将TTS技术带向了高潮。非自回归模型是较为常用的一种声学模型，其通过对语音的语音相关特征等进行学习，然后利用学习到的语音相关特征进行语音合成，因而学习到的语音相关特征的丰富程度和多样性会直接影响合成语音的质量。

基于此，如何使声学模型学习更丰富的语音相关特征以提高合成语音的质量，是当前亟需解决的技术问题。

发明内容

本申请实施例的目的是提供一种语音合成方法、声学模型的训练方法及装置，用于使声学模型学习更丰富的声学特征信息以提高合成语音的质量。

为实现上述目的，本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种语音合成方法，包括：

基于待合成文本的音素序列，得到所述待合成文本的音素特征向量；

将所述待合成文本的音素特征向量输入声学模型，得到所述待合成文本对应的合成语音；其中，所述声学模型包括编码器和合成网络；

所述编码器包括融合层和n级串联的子编码器，第一级子编码器用于对所述待合成文本的音素特征向量进行编码，得到对应的编码序列，除所述第一级子编码器之外的其余各级子编码器用于对所述音素特征向量和位于当前级子编码器之前的其余各级子编码得到的编码序列进行编码，得到对应当前级子编码器的编码序列，所述融合层用于对所述音素特征向量和每级子编码器得到的编码序列进行融合处理，得到所述待合成文本的音素编码序列；

所述合成网络用于根据目标可变声学特征信息和所述音素编码序列进行语音合成处理，得到所述待合成文本对应的合成语音，所述目标可变声学特征与所述待合成文本匹配。

可以看出，在本申请实施例中，基于待合成文本的音素序列得到待合成文本的音素特征向量，使得得到的音素特征向量能够反映待合成文本的各音素的发音、韵律及位置等音素特征；通过在声学模型的编码器中设置融合层和n级串联的子编码器，由各级子编码器对输入信息进行编码得到对应各级子编码器的编码序列，且第一级子编码器接收待合成文本的音素特征向量作为输入，而除第一级子编码器之外的其余各级子编码器均接收音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列作为输入，使得待合成文本的音素特征向量以及各级子编码器得到的编码序列均能够被其后面的各级子编码器所利用，相当于将待合成文本的音素特征向量以及不同表示意义的编码序列进行融合；再由融合层对待合成文本的音素特征向量以及每级子编码器得到的编码序列进行融合处理，相当于对待合成文本的音素特征向量和不同表示意义的编码序列进行再次融合，进而使得编码器能够从待合成文本的音素序列中提取到更加丰富、更加多样化的音素特征，也即编码器输出的音素编码信息包含了更加丰富、更加多样化的音素特征，为后续提高声学模型合成语音的质量提供有力的数据支撑；进一步，通过声学模型的合成网络根据与待合成文本匹配的目标声学特征和编码器得到的音素编码序列进行语音合成处理，有利于提高合成语音的健壮性和自然性，使得合成语音更加接近真实语音，且不会出现叠音和破音等，从而提高声学模型合成语音的质量。

第二方面，本申请实施例提供一种声学模型的训练方法，包括：

基于样本文本的音素序列，得到所述样本文本的音素特征向量；

将所述音素特征向量输入初始的声学模型进行模型训练，得到声学模型；

其中，所述声学模型包括编码器和合成网络；所述编码器包括融合层和n级串联的子编码器，第一级子编码器用于对所述样本文本的音素特征向量进行编码，得到对应的编码序列，除所述第一级子编码器之外的其余各级子编码器用于对所述样本文本的音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列进行编码，得到对应当前级子编码器的编码序列，所述融合层用于对所述样本文本的音素特征向量和各级子编码器得到的编码序列进行融合处理，得到所述样本文本的音素编码序列；所述合成网络用于根据真实语音的可变声学特征和所述样本文本的音素编码序列进行语音合成处理，得到所述样本文本对应的合成语音，所述真实语音与所述待合成文本对应。

可以看出，在本申请实施例中，基于样本文本的音素序列得到样本文本的音素特征向量，使得得到的音素特征向量能够反映样本文本的各音素的发音、韵律及位置等音素特征；通过在声学模型的编码器中设置融合层和n级串联的子编码器，由各级子编码器对输入信息进行编码得到对应各级子编码器的编码序列，且第一级子编码器接收样本文本的音素特征向量作为输入，而除第一级子编码器之外的其余各级子编码器均接收其前面所有子编码器得到的编码序列和样本文本的音素特征向量作为输入，使得样本文本的音素特征向量和各级子编码器得到的编码序列能够被其后面的所有子编码器所利用，相当于将样本文本的音素特征向量和不同表示意义的编码序列进行融合，再由融合层对样本文本的音素特征向量以及各级子编码器得到的编码序列进行融合处理，相当于对样本文本的音素特征向量和不同表示意义的编码序列进行再次融合，进而使得编码器能够从样本文本的音素序列中学习到更加丰富、更加多样化的音素特征，也即编码器输出的音素编码序列包含了更加丰富、更加多样化的音素特征，为后续提高声学模型合成语音的质量提供有力的数据支撑；进一步，通过声学模型的合成网络对编码器得到的音素编码序列和样本文本对应的真实语音的可变声学特征信息进行语音合成处理，由此，通过将样本文本的音素特征向量输入初始的声学模型进行模型训练，得到声学模型，有利于提高合成语音的健壮性和自然性，使得合成语音更加接近真实语音，且不会出现叠音和破音等，从而提高声学模型合成语音的质量。

第三方面，本申请实施例提供一种语音合成装置，包括：

第一生成模块，用于基于待合成文本的音素序列，得到所述待合成文本的音素特征向量；

第一合成模块，用于将所述待合成文本的音素特征向量输入声学模型，得到所述待合成文本对应的合成语音；其中，所述声学模型包括编码器和合成网络；

所述编码器包括融合层和n级串联的子编码器，第一级子编码器用于对所述待合成文本的音素特征向量进行编码，得到对应的编码序列，除所述第一级子编码器之外的其余各级子编码器用于对所述待合成文本的音素特征向量和位于当前级子编码器之前的其余各级子编码得到的编码序列进行编码，得到对应当前级子编码器的编码序列，所述融合层用于对所述待合成文本的音素特征向量和每级子编码器得到的编码序列进行融合处理，得到所述待合成文本的音素编码序列；

第四方面，本申请实施例提供一种声学模型的训练装置，包括：

第二生成模块，用于基于样本文本的音素序列，得到所述样本文本的音素特征向量；

训练模块，用于将所述样本文本的音素特征向量输入初始的声学模型进行模型训练，得到声学模型；

其中，所述声学模型包括编码器和合成网络；所述编码器包括融合层和n级串联的子编码器，第一级子编码器用于对所述样本文本的音素特征向量进行编码，得到对应的编码序列，除所述第一级子编码器之外的其余各级子编码器用于对所述样本文本的音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列进行编码，得到对应当前级子编码器的编码序列，所述融合层用于对所述样本文本的音素特征向量和每个子编码器得到的编码序列进行融合处理，得到所述样本文本的音素编码序列；所述合成网络用于根据真实语音的可变声学特征和所述样本文本的音素编码序列进行语音合成处理，得到所述样本文本对应的合成语音，所述真实语音与所述样本文本对应。

第五方面，本申请实施例提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面或第二方面所述的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面或第二方面所述的方法。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请的一个实施例提供的一种语音合成方法的流程示意图；

图2为本申请的一个实施例提供的一种声学模型的结构示意图；

图3为本申请的另一个实施例提供的一种声学模型的编码器的结构示意图；

图4为本申请的一个实施例提供的一种融合层进行融合处理的流程示意图；

图5为本申请的一个实施例提供的一种合成频谱的示意图；

图6为本申请的一个实施例提供的一种声学模型的训练方法的流程示意图；

图7为本申请的一个实施例提供的一种语音合成装置的结构示意图；

图8为本申请的一个实施例提供的一种声学模型的训练装置的结构示意图；

图9为本申请的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本说明书和权利要求书中的属于“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应理解，这样使用的数据在适当情况下可以互换，以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

部分概念说明：

Transformer：是一种基于自注意力机制的时序模型，在编码器部分可以有效对时序信息进行编码，对时序信息的处理能力远远好于长短期记忆网络(Long Short-TermMemory，LSTM)等模型，且速度快。广泛应用于自然语言处理，计算机视觉，机器翻译，语音识别等领域中。

梅尔频率倒谱系数：Mel-frequency cepstral coefficients(MFCC)，一种在说话人分割、声纹识别、语音识别、语音合成等技术中广泛使用的特征。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。MFCC则是利用它们之间的这种关系，计算得到的Hz频谱特征。MFCC主要用于语音数据特征提取。

为使声学模型学习更丰富的语音相关特征以提高合成语音的质量，本申请实施例提出了一种语音合成方法，基于待合成文本的音素序列得到待合成文本的音素特征向量，使得得到的音素特征向量能够反映待合成文本的各音素的发音、韵律及位置等音素特征；通过在声学模型的编码器中设置融合层和n级串联的子编码器，由各级子编码器对输入信息进行编码得到对应各级子编码器的编码序列，且第一级子编码器接收待合成文本的音素特征向量作为输入，而除第一级子编码器之外的其余各级子编码器均接收其前面所有子编码器得到的编码序列和待合成文本的音素特征向量作为输入，使得待合成文本的音素特征向量以及各级子编码器得到的编码序列均能够被其后面的所有子编码器所利用，相当于将待合成文本的音素特征向量和不同表示意义的编码信息进行融合，再由融合层对待合成文本的音素特征向量以及各级子编码器得到的编码序列进行融合处理，相当于对待合成文本的音素特征向量以及不同表示意义的编码信息进行再次融合，进而使得编码器能够从待合成文本的音素序列中学习到更加丰富、更加多样化的音素，也即编码器输出的音素编码序列包含了更加丰富、更加多样化的音素特征，为后续提高声学模型合成语音的质量提供有力的数据支撑；进一步，通过声学模型的合成网络对编码器得到的音素编码序列以及与待合成文本匹配的目标可变声学特征信息进行语音合成处理，有利于提高合成语音的健壮性和自然性，使得合成语音更加接近真实语音，且不会出现叠音和破音等，从而提高声学模型合成语音的质量。

本申请实施例还提出了一种声学模型的训练方法，用于训练能够将待合成文本转换为高质量的合成语音的声学模型。

应理解，本申请实施例提供的声学模型的训练方法和语音合成方法，均可以由电子设备或安装在电子设备中的软件执行，具体可以由终端设备或服务端设备执行。

以下结合附图，详细说明本申请各实施例提供的技术方案。

请参考图1，为本申请的一个实施例提供的一种语音合成方法的流程示意图，该方法可以包括如下步骤：

S102，基于待合成文本的音素序列，得到待合成文本的音素特征向量。

其中，音素(phoneme)是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素，如汉语音节“啊”(ā)只有一个音素，汉语音节“爱”(ài)有两个音素等。

对于任一文本而言，文本的音素序列是将该文本中的字符对应的音素按照发声时间的顺序排列得到的。具体实施时，文本的音素序列可通过对该文本中的字符的发音及时长等进行解析得到。例如，待合成文本为“韩国最大的岛屿济州岛”，通过对该待合成文本中的各个字符的拼音、音调及相邻拼音之间的停顿时长进行解析，可以得到该待合成文本对应的音素序列为{han2 guo2 7zui4 da4 de5 dao6 yu6 ji3 zhou1 dao3}，其中，“han2”、“guo2”、“zui4”、“da2”、“de5”、“dao6”、“yu6”、“ji3”、“zhou1”、“dao3”依次表示待合成文本中的字符“韩”、“国”、“最”、“大”、“的”、“岛”、“屿”、“济”、“州”、“岛”各自的音素，其由字符的拼音及表示拼音的音调的标识构成，拼音后面的标识1表示音调为一声，标识2表示音调为二声，标识3表示音调为三声，标识4表示音调为四声，标识5表示音调为轻声，标识6表示音调为变音，音素之间的标识7表示停顿时长较短，音素之间的标识8表示停顿时长适中，音素之间的标识9表示停顿时长较长。

上述为确定文本的音素序列的一种具体实现方式。当然，应理解，文本的音素序列也可以采用其它的方式确定，本申请实施例对此不作限制。

对于各文本而言，文本的音素特征向量用于表示文本的音素序列的特征。具体而言，文本的音素特征向量可以包括文本的音素序列中各音素的音素特征向量，音素的特征向量用于表示音素的音素特征，比如音素的发声顺序、音素的音调、音素的韵律等，本申请实施例对此不作限定。

本申请实施例中，待合成文本的音素特征向量可通过对待合成文本的音素序列进行特征提取得到。在一种可选的实现方式中，为快速、准确获取待合成文本的音素特征向量，可利用特征提取网络对待合成文本的音素序列进行特征提取，得到待合成文本的音素特征向量，具体而言，上述S102可实现为：通过特征提取网络对待合成文本的音素序列进行特征提取，得到待合成文本的音素特征向量。需要说明的是，特征提取网络可以是独立于声学模型的、具有特征提取功能的神经网络，其可以通过大量样本文本的音素序列及音素特征向量进行训练得到；当然，特征提取网络也可以为声学模型的一部分，与声学模型的其他部分一起进行训练。

本申请实施例中，特征提取网络可以具有任意适当的结构，具体可以根据实际需要进行设置，本申请实施例对此不作限定。可选地，特征提取网络可以包括嵌入层、位置编码器和拼接层，其中，嵌入层用于对待合成文本的音素序列进行嵌入处理，得到音素序列的嵌入向量，由此音素序列的嵌入向量能够表示音素序列中各音素的音调、韵律等；位置编码器用于对待合成文本的音素序列中各音素的位置特征进行编码，得到音素序列的位置向量，由此音素序列的位置向量能够表示各音素的发声顺序；拼接层用于对待合成文本的音素序列的嵌入向量和位置向量进行拼接，得到音素序列的音素特征向量，由此得到的音素特征向量能够表示音素序列中各音素的音调、韵律及发声顺序等。

可选地，如图2所述，特征提取网络可以包括嵌入层和第一卷积层，其中，嵌入层用于对待合成文本的音素序列进行嵌入处理(embedding)，得到音素序列的嵌入向量，由此音素序列的嵌入向量能够表示音素序列中各音素的音调、韵律等；第一卷积层用于基于音素序列中各音素的位置特征，对音素序列的嵌入向量进行卷积处理，得到音素序列的音素特征向量，由此得到的音素特征向量能够表示各音素的音调、韵律及发声顺序等。

实际应用中，第一卷积层可以具有任意适当的结构，例如第一卷积层可以为多层卷积神经网络(比如Conv1D)等。第一卷积层的结构可以根据实际需要进行设置，本申请实施例对此不作限定。

可以理解的是，通过采用第一卷积层替代位置编码器和拼接层，不仅可以避免因在位置编码器中为音素位置设置固定的编码长度而导致后续声学模型的语音合成过程中出错，有利于提高语音合成的稳定性和可靠性。

进一步地，如图2所示，特征提取网络还可以包括池化层，其中，池化层用于对第一卷积层输出的音素特征向量进行池化处理(pooling)，由此可以起到对音素序列中各音素的音素特征进行选择以降低特征数量的作用，从而建好参数数量，有利于提高语音合成效率。实际应用中，池化处理可以包括但不限于：最大池化处理、平均池化处理等，本申请实施例对此不作限定。

本申请实施例在此示出了上述S102的一种具体实现方式。当然，应理解，上述S102也可以采用其它的方式实现，本申请实施例对此不作限制。

S104，将待合成文本的音素特征向量输入声学模型，得到待合成文本对应的合成语音。

本申请实施例中，如图2所示，声学模型包括编码器和合成网络。其中，在语音合成过程中，编码器可从待合成文本的音素特征向量中提取待合成文本的音素序列的音素特征，比如音素序列中各音素的音调、韵律及发声顺序等，得到待合成文本对应的音素编码序列，该音素编码序列中包含了丰富且多样化的音素特征，有利于后续得到高质量的合成语音。

由于编码器得到的音素编码序列的质量会直接影响合成语音的质量，为使编码器能够从待合成文本的音素序列中提取到更加丰富、更加多样化的音素特征，从而输出包含了更加丰富、更加多样化的音素特征的音素编码序列，本申请实施例的声学模型中的编码器包括融合层和n级串联的子编码器(n为大于1的整数)。其中，n级子编码器对应n个编码序列，第一级子编码器用于对待合成文本的音素特征向量进行编码，得到第一级子编码器对应的编码序列；除第一级子编码器之外的其余各级子编码器用于对待合成文本的音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列进行编码，得到对应当前子编码器的编码序列；融合层用于对待合成文本的音素特征向量以及各级子编码器得到的编码序列进行融合处理，得到待合成文本的音素编码序列。

例如，如图3所示，待合成文本的音素编码特征不仅输入到第1级子编码器进行编码，得到相应的编码序列，待合成文本的音素编码特征还与第1级子编码器得到的编码序列拼接后输入到第2级子编码器；依次类推，第n-2级子编码器基于输入信息(也即包括待合成文本的音素特征向量和第n-2级子编码器之前的其余各级子编码器得到的编码序列)得到的编码序列不仅输出至融合层，还与自身的输入信息进行拼接后输出至第n-1级子编码器；第n-1级子编码器基于输入信息(也即包括待合成文本的音素特征向量和第n-1级子编码器之前的其余各级子编码器得到的编码序列)得到的编码序列不仅输出至融合层，还与自身的输入信息进行拼接后输出至第n级子编码器；第n级子编码器基于输入信息得到的编码序列不仅输出至融合层，还与自身的输入信息进行拼接后输出至融合层。进一步，融合层对各级子编码器得到的编码序列和最后一级子编码器的输入信息进行融合处理，也即对各级子编码器得到的编码序列和待合成文本的音素特征向量进行融合处理，得到待合成文本的音素编码序列。

本申请实施例中，融合层可通过任意适当的方式对各级子编码器得到的编码序列和最后一级子编码器的输入信息进行融合处理。在一种可选的实现方式中，为使声学模型的合成网络能够更多地将注意力放在音素编码信息中对合成语音的质量影响较大的音素特征上，融合层可基于多头注意力机制，对各级子编码器输出的编码序列和最后一级子编码信息的输入信息进行融合处理，也即对各级子编码器得到的编码序列和待合成文本的音素特征向量进行融合处理，从而使得得到的待合成文本的音素编码序列中，对合成语音的质量影响较大的音素特征对应的权重值越高，有利于提高合成语音的质量。

需要说明的是，实际应用中，各级子编码器可以采用Transformer架构，并基于注意力机制对输入信息进行编码，具体编码方式可以采用本领域常用的编码方法实现，本申请实施例对此不作限定，在此也不再详细说明。

具体而言，请参见图4，图4示出了融合层基于多头注意力机制进行融合处理的流程示意图。如图4所示，融合层可采用Transformer模型的架构，具体处理流程为：将最后一级子编码器得到的编码序列和最后一级子编码器的输入信息(也即包括待合成文本的音素特征向量和前n-1级子编码器各自得到的编码序列)进行拼接，得到Q(Query)向量；全连接层基于预设矩阵参数，将Q向量以及各级子编码器得到的编码序列中的V(Value)向量即K(Key)向量进行映射转化，并对转化后的V向量、K向量和Q向量进行点积计算，然后重复上述过程多次(如图4所示的h次)，并且每次进行映射转化时使用的预设矩阵参数不同(也即预设矩阵参数不共享)；接着，对多次的点积计算结果进行拼接处理；最后，将拼接后的点积计算结果进行映射转化，得到待合成文本的音素编码序列。

可以理解的是，通过上述编码器，由各级子编码器对其输入信息进行编码得到编码序列，且第一级子编码器接收待合成文本的音素特征向量作为输入，而除第一级子编码器之外的其余各级子编码器接收待合成文本的音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列作为输入，使得待合成文本的音素特征向量以及各级子编码器得到的编码序列均能够被位于当前级子编码器之后的所有子编码器所利用，相当于将待合成文本的音素特征向量以及不同表示意义的编码信息进行融合；再由融合层对待合成文本的音素特征向量以及每级子编码器得到的编码序列进行融合处理，相当于对待合成文本的音素特征向量和不同表示意义的编码序列进行再次融合，进而使得编码器能够从待合成文本的音素序列中提取到更加丰富、更加多样化的音素特征，也即编码器得到的音素编码序列包含了更加丰富、更加多样化的音素特征，为后续提高声学模型合成语音的质量提供有力的数据支撑。

在语音合成过程中，合成网络可根据编码器得到的音素编码序列和目标可变声学特征进行语音合成，得到能够模拟真实语音的高质量合成语音。其中，目标可变声学特征与待合成文本匹配。目标可变声学特征可以包括但不限于待合成文本在真实语音下各音素的音高、音量和时长等，其能够反映待合成文本在真实语音下的发音特征。

本申请实施例中，合成网络可以具有任意适当的结构，具体可根据实际需要进行设置，本申请实施例对此不作限定。在一种可选的实现方式中，为使合成网络能够充分利用待合成文本的音素编码序列中的音调、发声顺序等音素特征以及模拟真实语音的目标可变声学特征，从而使得到的合成语音能够更加自然、更加接近真实语音，如图2所示，合成网络可以包括可变信息适应器、解码器和输出层。其中，可变信息适应器用于基于待合成文本的音素编码序列对进行可变声学特征预测，得到目标可变声学特征；解码器用于对基于目标可变声学特征，对音素编码序列进行解码，得到第一合成频谱；输出层用于基于第一合成频谱进行语音合成处理，得到待合成文本对应的合成语音。

实际应用中，解码器可采用梅尔频谱解码器，由此得到的第一合成频谱可以包括合成的梅尔频谱。例如，图5示出了一种解码器输出的合成频谱的示意图，其中，横坐标表示频率，纵坐标表示频谱幅值。

其次，可变信息适应器可以具有任意适当的结构，例如可以包括用于预测音素时长的duration extractor、用于预测音素的音高的Pitch Predictor以及用于预测音素的音量的Energy Predictor等，可变信息适应器的结构可根据实际需要进行设置，本申请实施例对此不作限定。

另外，输出层具有语音重构功能，其通过对第二合成频谱信息进行重构，得到声波，然后利用语音生成技术，基于声波生成待合成文本对应的合成语音。当然，上述为生成合成语音的一种具体实现方式，应理解，待合成文本对应的合成语音也可以采用其它的方式生成，本申请实施例对此不作限制。

可以理解的是，由于目标可变声学特征能够模拟真实语音下的发声特征，而音素编码序列中包含了丰富且多样性的音素特征，因而得到的合成语音能够更加接近真实语音。

在另一种可选的实现方式中，如图2所示，合成网络不仅包括可变信息适应器、解码器和输出层，还可以包括第二卷积层。其中，第二卷积层用于对可变信息适应器得到的目标可变声学特征进行卷积处理；相应地，解码器用于对卷积处理后的目标可变声学特征进行解码，得到第一合成频谱。

实际应用中，第二卷积层可以具有任意适当的结构，例如第二卷积层可以为多层卷积神经网络(比如Conv1D)等。第二卷积层的结构可以根据实际需要进行设置，本申请实施例对此不作限定。

可以理解的是，通过采用第二卷积层对可变信息适应器得到的目标可变声学特征进行卷积处理，不仅可以在目标可变声学特征中加强音素的发声顺序等音素特征，还可以避免目标可变声学特征过长而导致后续声学模型的语音合成过程中出错，有利于提高声学模型的语音合成过程的稳定性和可靠性。

本申请实施例在此示出了上述S104的一种具体实现方式。当然，应理解，上述S104也可以采用其它的方式实现，本申请实施例对此不作限制。

在另一个实施例中，如图2所示，本申请实施例的声学模型还可以包括第三卷积层。其中，第三卷积层用于基于音素序列中各音素的位置特征，对待合成文本的音素编码序列进行卷积处理；相应地，合成网络具体用于：根据目标可变声学特征和卷积处理后的音素编码序列进行语音合成处理，得到待合成文本对应的合成语音。

实际应用中，第三卷积层可以具有任意适当的结构，例如第三卷积层可以为多层卷积神经网络(比如Conv1D)等。第三卷积层的结构可以根据实际需要进行设置，本申请实施例对此不作限定。

可以理解的是，通过采用第三卷积层基于音素序列中各音素的位置特征，对音素编码序列进行卷积处理，不仅可以在待合成文本的音素编码序列中加强音素的发声顺序等特征，还可以避免音素编码序列过长而导致后续声学模型的编码及语音合成过程中出错，有利于提高声学模型的整个语音合成过程的稳定性和可靠性。

本申请实施例提供的语音合成方法，基于待合成文本的音素序列得到待合成文本的音素特征向量，使得得到的音素特征向量能够反映待合成文本的各音素的发音、韵律及位置等音素特征；通过在声学模型的编码器中设置融合层和n级别串联的子编码器，由各级子编码器对输入信息进行编码得到对应各级子编码器的编码序列，且第一级子编码器接收待合成文本的音素特征向量作为输入，而除第一级子编码器之外的其余各级子编码器均接收音素特征向量和位于当前级子编码器之前的其余所有子编码器得到的编码序列作为输入，使得待合成文本的音素特征向量以及各级子编码器得到的编码序列均能够被其后面的各级子编码器所利用，相当于将待合成文本的音素特征向量以及不同表示意义的编码序列进行融合；再由融合层对待合成文本的音素特征向量以及每级子编码器得到的编码序列进行融合处理，相当于对待合成文本的音素特征向量和不同表示意义的编码序列进行再次融合，进而使得编码器能够从待合成文本的音素序列中提取到更加丰富、更加多样化的音素特征，也即编码器输出的音素编码信息包含了更加丰富、更加多样化的音素特征，为后续提高声学模型合成语音的质量提供有力的数据支撑；进一步，通过声学模型的合成网络根据与待合成文本匹配的目标声学特征和编码器得到的音素编码序列进行语音合成处理，有利于提高合成语音的健壮性和自然性，使得合成语音更加接近真实语音，且不会出现叠音和破音等，从而提高声学模型合成语音的质量。

本申请实施例还提供一种声学模型的训练方法，用于训练能够将待合成文本转换为高质量合成语音的声学模型。下面对声学模型的训练过程进行详细说明。

请参考图6，为本申请的一个实施例提供的一种声学模型的训练方法的流程示意图，该方法可以包括如下步骤：

S602，基于样本文本的音素序列，得到样本文本的音素特征向量。

上述S602的具体实现方式与图1所示实施例中S102的具体实现方式类似，在此不再赘述。

S604，将样本文本的音素特征向量输入初始的声学模型进行模型训练，得到声学模型。

其中，初始的声学模型是指未训练好的声学模型。声学模型包括编码器和合成网络。编码器包括融合层和n级串联的子编码器，第一级子编码器用于对样本文本的音素特征向量进行编码，得到对应的编码序列；除第一级子编码器之外的其余各级子编码器用于对样本文本的音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列进行编码，得到对应当前级子编码器的编码序列；融合层用于对样本文本的音素特征向量以及每级子编码器得到的编码序列进行融合处理，得到样本文本的音素编码序列。合成网络用于根据真实语音的可变声学特征和样本文本的音素编码序列进行语音合成处理，得到样本文本对应的合成语音。

其中，样本文本对应的真实语音的可变声学特征信息包括样本文本在真实语音下各音素的音高、音素的音量和音素的时长等，其能够反映样本文本的真实发音特点。

需要说明的是，编码器对样本文本的音素特征向量进行编码的具体实现方式，与上述图1所示实施例中编码器对待合成文本的音素特征向量进行编码的具体实现方式类似，在此不再赘述。另外，合成网络得到样本文本对应的合成语音的具体实现方式，与上述图1所示实施例中合成网络得到待合成文本对应的合成语音的具体实现方式类似，在此也不再赘述。

可以理解的是，由于真实语音的可变声学特征能够反应真实语音下的发声特点，而音素编码序列中包含了丰富且多样性的音素特征，因而得到的合成语音能够更加接近真实语音。

具体而言，上述S604具体可实现为：基于样本文本对应的合成语音和真实语音，调整初始的声学模型中的编码器和合成网络各自的网络参数。

其中，编码器的网络参数可以例如包括但不限于编码器中融合层及各集子编码器等网络层中的节点数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等。类似地，合成网络的网络参数可以例如包括但不限于合成网络中各网络层的节点数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等。

在一种可选的实现方式中，由于语音的频谱能够反映出语音的发声特点，样本文本对应的合成语音的频谱与真实语音的频谱之间的差异，则可以反映声学模型的合成准确率，为此，在上述S604中，可基于样本文本对应的合成语音的频率与真实语音的频谱，对声学模型中编码器及合成网络各自的网络参数进行调整，有利于提高声学模型的合成准确率。

考虑到声学模型中前一级网络层会对后一级网络层产生影响，为进一步提高声学模型的合成准确率，上述S604具体可实现为：基于预设损失函数、样本文本对应的合成语音的频谱和真实语音的频谱，确定声学模型的语音合成损失，以及基于反向传播算法和语音合成损失，调整编码器和合成网络各自的网络参数。其中，语音合成损失用于表示样本文本对应的合成语音与真实语音之间的差异。

更为具体地，在采用反向传播算法调整编码器和合成网络各自的网络参数时，可基于声学模型的语音合成损失、编码器当前的网络参数和合成网络器当前的网络参数，采用反向传播算法确定编码器和合成网络各自的各网络层引起的合成损失；然后，以使声学模型的语音合成损失下降为目标，逐层调整编码器中各网络层的相关参数以及合成网络中各网络层的相关参数。

本申请实施例在此示出了上述S604的一种具体实现方式。当然，应理解，上述S604也可以采用其它的方式实现，本申请实施例对此不作限制。

需要说明的是，上述过程仅为对初始的声学模型的一次调整过程，实际应用中，可能需要进行多次调整，因而可重复执行上述调整过程多次，直到满足预设训练停止条件，由此得到最终的声学模型。其中，预设训练停止条件可以是声学模型的语音合成损失小于预设损失阈值，或者，也可以是调整次数达到预设次数等，本申请实施例对此不作限定。

本申请实施例提供的声学模型的训练方法，基于样本文本的音素序列得到样本文本的音素特征向量，使得得到的音素特征向量能够反映样本文本的各音素的发音、韵律及位置等音素特征；通过在声学模型的编码器中设置融合层和n级串联的子编码器，由各级子编码器对输入信息进行编码得到对应各级子编码器的编码序列，且第一级子编码器接收样本文本的音素特征向量作为输入，而除第一级子编码器之外的其余各级子编码器均接收其前面所有子编码器得到的编码序列和样本文本的音素特征向量作为输入，使得样本文本的音素特征向量和各级子编码器得到的编码序列能够被其后面的所有子编码器所利用，相当于将样本文本的音素特征向量和不同表示意义的编码序列进行融合，再由融合层对样本文本的音素特征向量以及各级子编码器得到的编码序列进行融合处理，相当于对样本文本的音素特征向量和不同表示意义的编码序列进行再次融合，进而使得编码器能够从样本文本的音素序列中学习到更加丰富、更加多样化的音素特征，也即编码器输出的音素编码序列包含了更加丰富、更加多样化的音素特征，为后续提高声学模型合成语音的质量提供有力的数据支撑；进一步，通过声学模型的合成网络对编码器得到的音素编码序列和样本文本对应的真实语音的可变声学特征信息进行语音合成处理，由此，通过将样本文本的音素特征向量输入初始的声学模型进行模型训练，得到声学模型，有利于提高合成语音的健壮性和自然性，使得合成语音更加接近真实语音，且不会出现叠音和破音等，从而提高声学模型合成语音的质量。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

此外，与上述图1所示的语音合成方法相对应地，本申请实施例还提供一种语音合成装置。请参考图7，为本申请的一个实施例提供的一种语音合成装置700的结构示意图，该装置包括：

第一生成模块710，用于基于待合成文本的音素序列，得到所述待合成文本的音素特征向量；

第一合成720，用于将所述待合成文本的音素特征向量输入声学模型，得到所述待合成文本对应的合成语音；其中，所述声学模型包括编码器和合成网络；

所述合成网络用于根据目标可变声学特征信息和所述音素编码序列进行音合成处理，得到所述待合成文本对应的合成语音，所述目标可变声学特征与所述待合成文本匹配。

本申请实施例提供的语音合成装置，基于待合成文本的音素序列得到待合成文本的音素特征向量，使得得到的音素特征向量能够反映待合成文本的各音素的发音、韵律及位置等音素特征；通过在声学模型的编码器中设置融合层和n级别串联的子编码器，由各级子编码器对输入信息进行编码得到对应各级子编码器的编码序列，且第一级子编码器接收待合成文本的音素特征向量作为输入，而除第一级子编码器之外的其余各级子编码器均接收音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列作为输入，使得待合成文本的音素特征向量以及各级子编码器得到的编码序列均能够被其后面的各级子编码器所利用，相当于将待合成文本的音素特征向量以及不同表示意义的编码序列进行融合；再由融合层对待合成文本的音素特征向量以及每级子编码器得到的编码序列进行融合处理，相当于对待合成文本的音素特征向量和不同表示意义的编码序列进行再次融合，进而使得编码器能够从待合成文本的音素序列中提取到更加丰富、更加多样化的音素特征，也即编码器输出的音素编码信息包含了更加丰富、更加多样化的音素特征，为后续提高声学模型合成语音的质量提供有力的数据支撑；进一步，通过声学模型的合成网络根据与待合成文本匹配的目标声学特征和编码器得到的音素编码序列进行语音合成处理，有利于提高合成语音的健壮性和自然性，使得合成语音更加接近真实语音，且不会出现叠音和破音等，从而提高声学模型合成语音的质量。

可选地，所述融合层用于基于多头注意力机制，对所述音素特征向量和各级子编码器得到的编码序列进行融合处理，得到所述音素编码序列。

可选地，所述第一生成模块包括：

第一特征提取子模块，用于通过特征提取网络对所述待合成文本的音素序列进行特征提取，得到所述待合成文本的音素特征向量

可选地，所述特征提取网络包括嵌入层和第一卷积层；

所述嵌入层用于对所述待合成文本的音素序列进行嵌入处理，得到所述音素序列的嵌入向量；

所述第一卷积层用于基于所述音素序列中各音素的位置特征，对所述音素序列的嵌入向量进行卷积处理，得到所述音素序列的音素特征向量。

可选地，所述特征提取网络还包括池化层；

所述池化层用于对所述第一卷积层得到的所述音素序列的音素特征向量进行池化处理。

可选地，所述合成网络包括可变信息适应器、解码器和输出层；

所述可变信息适应器用于基于所述音素编码序列进行可变声学特征预测，得到所述目标可变声学特征；

所述解码器用于基于所述目标可变声学特征，对所述音素编码序列进行解码，得到所述第一合成频谱；

所述输出层，用于基于所述第一合成频谱进行语音合成处理，得到所述待合成文本对应的合成语音。

可选地，所述合成网络还包括第二卷积层；

所述第二卷积层用于对所述目标可变声学特征进行卷积处理；

所述解码器用于基于卷积处理后的所述目标可变声学特征，对所述音素编码序列进行解码，得到所述第一合成频谱。

可选地，所述声学模型还包括第三卷积层，所述第三卷积层用于基于所述音素序列中各音素的位置特征，对所述音素编码序列进行卷积处理；

所述合成网络，用于根据所述目标可变声学特征和卷积处理后的所述音素编码序列进行语音合成处理，得到所述待合成文本对应的合成语音。

显然，本申请实施例提供的语音合成装置可以作为上述图1所示的语音合成方法的执行主体，因此能够实现语音合成装置在图1所实现的功能。由于原理相同，在此不再重复说明。

此外，与上述图6所示的声学模型的训练方法相对应地，本申请实施例还提供一种声学模型的训练装置。请参考图8，为本申请的一个实施例提供的一种声学模型的训练装置800的结构示意图，该装置包括：

第二生成模块810，用于基于待合成文本的音素序列，得到所述待合成文本的音素特征向量；

训练模块820，用于将所述样本文本的音素特征向量输入初始的声学模型进行模型训练，得到声学模型；其中，所述声学模型包括编码器和合成网络；所述编码器包括融合层和n级串联的子编码器，第一级子编码器用于对所述样本文本的音素特征向量进行编码，得到对应的编码序列，除所述第一级子编码器之外的其余各级子编码器用于对所述样本文本的音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列进行编码，得到对应当前级子编码器的编码序列，所述融合层用于对所述样本文本的音素特征向量和每个子编码器得到的编码序列进行融合处理，得到所述样本文本的音素编码序列；所述合成网络用于根据真实语音的可变声学特征和所述样本文本的音素编码序列进行语音合成处理，得到所述样本文本对应的合成语音，所述真实语音与所述待合成文本对应。

本申请实施例提供的声学模型的训练装置，基于样本文本的音素序列得到样本文本的音素特征向量，使得得到的音素特征向量能够反映样本文本的各音素的发音、韵律及位置等音素特征；通过在声学模型的编码器中设置融合层和n级串联的子编码器，由各级子编码器对输入信息进行编码得到对应各级子编码器的编码序列，且第一级子编码器接收样本文本的音素特征向量作为输入，而除第一级子编码器之外的其余各级子编码器均接收其前面所有子编码器得到的编码序列和样本文本的音素特征向量作为输入，使得样本文本的音素特征向量和各级子编码器得到的编码序列能够被其后面的所有子编码器所利用，相当于将样本文本的音素特征向量和不同表示意义的编码序列进行融合，再由融合层对样本文本的音素特征向量以及各级子编码器得到的编码序列进行融合处理，相当于对样本文本的音素特征向量和不同表示意义的编码序列进行再次融合，进而使得编码器能够从样本文本的音素序列中学习到更加丰富、更加多样化的音素特征，也即编码器输出的音素编码序列包含了更加丰富、更加多样化的音素特征，为后续提高声学模型合成语音的质量提供有力的数据支撑；进一步，通过声学模型的合成网络对编码器得到的音素编码序列和样本文本对应的真实语音的可变声学特征信息进行语音合成处理，由此，通过将样本文本的音素特征向量输入初始的声学模型进行模型训练，得到声学模型，有利于提高合成语音的健壮性和自然性，使得合成语音更加接近真实语音，且不会出现叠音和破音等，从而提高声学模型合成语音的质量。

显然，本申请实施例提供的声学模型的训练装置可以作为上述图6所示的声学模型的训练方法的执行主体，因此能够实现声学模型的训练装置在图6所实现的功能。由于原理相同，在此不再重复说明。

图9是本申请的一个实施例电子设备的结构示意图。请参考图9，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成声学模型的训练装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成语音合成装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

将所述样本文本的音素特征向量输入初始的声学模型进行模型训练，得到声学模型；

其中，所述声学模型包括编码器和合成网络；所述编码器包括融合层和n级串联的子编码器，第一级子编码器用于对所述样本文本的音素特征向量进行编码，得到对应的编码序列，除所述第一级子编码器之外的其余各级子编码器用于对所述样本文本的音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列进行编码，得到对应当前级子编码器的编码序列，所述融合层用于对所述样本文本的音素特征向量和各级子编码器得到的编码序列进行融合处理，得到所述样本文本的音素编码序列；所述合成网络用于根据真实语音的可变声学特征和所述样本文本的音素编码序列进行语音合成处理，得到所述样本文本对应的合成语音，所述真实语音与所述待待合成文本对应。

上述如本申请图1所示实施例揭示的语音合成装置执行的方法或者如本申请图6所示实施例揭示的声学模型的训练装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法，并实现语音合成装置在图1所示实施例的功能，或者，该电子设备还可执行图6的方法，并实现声学模型的训练装置在图6所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

或者，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图6所示实施例的方法，并具体用于执行以下操作：

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种语音合成方法，其特征在于，包括：

所述编码器包括融合层和n级串联的子编码器，第一级子编码器用于对所述待合成文本的音素特征向量进行编码，得到对应的编码序列，除所述第一级子编码器之外的其余各级子编码器用于对所述音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列进行编码，得到对应当前级子编码器的编码序列，所述融合层用于对所述音素特征向量和每级子编码器得到的编码序列进行融合处理，得到所述待合成文本的音素编码序列；

所述合成网络用于根据目标可变声学特征和所述音素编码序列进行语音合成处理，得到所述待合成文本对应的合成语音，所述目标可变声学特征与所述待合成文本匹配。

2.根据权利要求1所述的方法，其特征在于，所述融合层用于基于多头注意力机制，对所述音素特征向量和各级子编码器得到的编码序列进行融合处理，得到所述音素编码序列。

3.根据权利要求1所述的方法，其特征在于，所述基于待合成文本的音素序列，得到所述待合成文本的音素特征向量，包括：

通过特征提取网络对所述待合成文本的音素序列进行特征提取，得到所述待合成文本的音素特征向量。

4.根据权利要求3所述的方法，其特征在于，所述特征提取网络包括嵌入层和第一卷积层；

5.根据权利要求1所述的方法，其特征在于，所述合成网络包括可变信息适应器、解码器和输出层；

所述解码器用于基于所述目标可变声学特征，对所述音素编码序列进行解码，得到第一合成频谱；

6.根据权利要求5所述的方法，其特征在于，所述合成网络还包括第二卷积层；

7.根据权利要求1所述的方法，其特征在于，所述声学模型还包括第三卷积层，所述第三卷积层用于基于所述音素序列中各音素的位置特征，对所述音素编码序列进行卷积处理；

8.一种声学模型的训练方法，其特征在于，包括：

9.一种语音合成装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至8中任一项所述的方法。