CN117765926B

CN117765926B - 语音合成方法、系统、电子设备及介质

Info

Publication number: CN117765926B
Application number: CN202410182277.4A
Authority: CN
Inventors: 孔欧
Original assignee: Shanghai Mido Technology Co ltd
Current assignee: Shanghai Mido Technology Co ltd
Priority date: 2024-02-19
Filing date: 2024-02-19
Publication date: 2024-05-14
Anticipated expiration: 2044-02-19
Also published as: CN117765926A

Abstract

本申请提供一种语音合成方法、系统、电子设备及介质，所述方法包括：输入文本内容以获取文本词元；获取参考语音以对所述参考语音进行编码获取语音嵌入数据；对所述语音嵌入数据进行特征转换以获取语音特征矩阵；基于所述文本词元和所述语音特征矩阵获取声学词元序列；基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。本申请能够同时接受文本内容和参考语音，进行语音合成，合成后的语音说话内容为文本内容，风格为参考语音风格，包括说话风格、声音和环境。本申请有效降低了语音合成的难度，并且提高了合成语言的人化程度，情感真实且自然。

Description

语音合成方法、系统、电子设备及介质

技术领域

本申请属于语音处理技术领域，涉及一种语音合成方法、系统、电子设备及介质。

背景技术

语音合成（text to speech），简称TTS，通常是指处理文本输入并生成旨在模仿人类语音的输出语音。在语音合成技术中，主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分，语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，想好该怎么读；声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，实现发声的功能。在声学系统部分，目前主要有有三种技术实现方式，分别为波形拼接，参数合成以及端到端的语音合成技术。但是，这些技术都存在缺点，例如通过端到端的语音合成技术合成的音频不能认为调优等。

发明内容

本申请提供一种语音合成方法、系统、电子设备及介质，用于解决现有技术缺少一种简单且自然的语音合成方法的技术问题。

第一方面，本申请提供一种语音合成方法，所述方法包括：输入文本内容以获取文本词元；获取参考语音以对所述参考语音进行编码获取语音嵌入数据；对所述语音嵌入数据进行特征转换以获取语音特征矩阵；基于所述文本词元和所述语音特征矩阵获取声学词元序列；基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。

在第一方面的一种实现方式中，获取参考语音以对所述参考语音进行编码获取语音嵌入数据包括：基于语音编码器对所述参考语音进行特征抽取与采样，以获取语音嵌入数据。

在第一方面的一种实现方式中，所述语音编码器由两层卷积层和四个编码块串联构成；所述编码块由三层直连层和一层卷积层串联构成；所述直连层包括两层卷积层；所述卷积层为一维卷积。

在第一方面的一种实现方式中，对所述语音嵌入数据进行特征转换以获取语音特征矩阵包括：构建标签向量矩阵；将所述语音嵌入数据与所述标签向量矩阵作为所述转换模块的输入以获取余弦相似度计算结果；基于所述语音嵌入数据和所述余弦相似度计算结果的独热编码更新所述转换模块的输入，以获取多个所述余弦相似度计算结果；基于多个所述余弦相似度计算结果获取所述语音特征矩阵。

在第一方面的一种实现方式中，基于所述文本词元和所述语音特征矩阵获取声学词元序列包括：基于所述文本词元和所述语音特征矩阵获取解码模块的输入，以通过所述解码模块获取声学词元；基于所述声学词元更新所述解码模块的输入以获取多个所述声学词元；基于多个所述声学词元获取所述声学词元序列。

在第一方面的一种实现方式中，基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征包括：基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取编码模块的输入，以通过所述编码模块获取新的声学词元序列；基于所述新的声学词元序列更新所述编码模块的输入以获取多个所述声学词元序列；基于多个所述声学词元序列获取声学特征。

在第一方面的一种实现方式中，基于声学特征进行语音合成包括：基于所述语音解码器对所述声学特征进行采样以进行语音合成。

第二方面，本申请提供一种语音合成系统，包括第一获取模块，用于输入文本内容以获取文本词元；第二获取模块，用于获取参考语音以对所述参考语音进行编码获取语音嵌入数据；第三获取模块，用于对所述语音嵌入数据进行特征转换以获取语音特征矩阵；第四获取模块，用于基于所述文本词元和所述语音特征矩阵获取声学词元序列；第五获取模块，用于基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。

第三方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面所述的语音合成方法。

第四方面，本申请提供一种电子设备，包括：存储器，被配置为存储计算机程序；以及处理器，与所述存储器通信相连，所述处理器被配置为调用所述计算机程序以执行本申请第一方面所述的语音合成方法。

本申请所述的一种语音合成的方法、系统、电子设备及介质，具有以下有益效果：能够同时接受文本内容和参考语音，进行语音合成，合成后的语音说话内容为文本内容，风格为参考语音风格，包括说话风格、声音和环境。本申请有效降低了语音合成的难度，并且提高了合成语言的人化程度，情感真实且自然。

附图说明

图1显示为本申请一实施例所述的一种语音合成方法的流程示意图。

图2显示为本申请一实施例所述的一种语音合成方法的流程架构示意图。

图3显示为本申请一实施例所述的一种语音编码器和语音解码器的架构示意图。

图4显示为本申请一实施例所述的一种语音合成方法的流程示意图。

图5显示为本申请一实施例所述的一种转换模块的示意图。

图6显示为本申请一实施例所述的一种语音合成方法的流程示意图。

图7显示为本申请一实施例所述的一种语音合成方法的流程示意图。

图8显示为本申请一实施例所述的一种语音合成系统的架构示意图。

图9显示为本申请一实施例所述的一种电子设备的架构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本申请实施例中提供了一种语音合成方法、系统、电子设备及介质，能够同时接受文本内容和参考语音，进行语音合成，合成后的语音说话内容为文本内容，风格为参考语音风格，包括说话风格、声音和环境。本申请有效降低了语音合成的难度，并且提高了合成语言的人化程度，情感真实且自然。

请参阅图1和图2所示，本申请一个实施例提供的语音合成方法，包括以下步骤S1至S5：

S1：输入文本内容以获取文本词元。

具体的，对输入的文本内容进行音素级别的分词处理以获取文本词元。

需要说明的是，音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。关于音素的分类，包括元音和辅音。对于英语音素，英语国际音标共有48个音素，其中元音音素20个、辅音音素28个。英语字母共有26个，其中有元音字母5个、辅音字母19个、半元音字母2个。对于汉语音素，如“普通话”，由三个音节组成，可以分析成“p, u, t, o, ng, h, u, a”八个音素。

S2：获取参考语音以对所述参考语音进行编码获取语音嵌入数据。

具体的，通过语音编码器对所述参考语音进行特征抽取后，并进行时间维度的下采样，空间维度的上采样以获取语音嵌入数据。

具体的，如图3所示，所述语音编码器由两层卷积层和四个编码块串联构成；所述编码块由三层直连层和一层卷积层串联构成；所述直连层包括两层卷积层；所述卷积层为一维卷积。

需要说明的是，一维卷积能够实现信息的跨通道整合和交互具有降维和升维的能力。而直连层能够防止梯度发散而跨越一个或多个层，允许梯度直接反向传播到更浅的层。

其中，直连层中第一个卷积层的输出乘上其输入，作为该卷积层的输出；第二个卷积层接收上一层卷积层的输出后，将输出与第一个卷积层的输入进行相加，作为直连层的输出。

需要说明的是，直连层设置的参数会传递到内部结构中。例如直连层中的第一个卷积层设置的参数为（k=7 ,n =N,diation）是由shortcut layer(N,dilation)传递而来。其中，k表示卷积核的尺寸，n为卷积层的batch size，diation表示卷积核个元素之间的距离,N为直连层的batch size。

需要说明的是，编码块的每一次输出通道由encoder block(N=4C,S=4)中的N控制，步长由S控制，通道输出成倍增长。其中，C代表通道的数量，S代表卷积操作步长。

语音编码器的具体参数设置请参阅图3所示。

S3：对所述语音嵌入数据进行特征转换以获取语音特征矩阵。

具体的，步骤S3具体包括步骤S31~S34，如图4所示。

S31：构建标签向量矩阵。

具体的，构建一个（512，1024）大小的矩阵作为标签向量矩阵，其代表有512个1024个元素的标签向量，并对每一个标签向量进行id排序，第一个标签向量为0，最后一个为511。

S32：将所述语音嵌入数据与所述标签向量矩阵作为所述转换模块的输入以获取余弦相似度计算结果。

具体的，转换模块的设计如图5所示。

具体的，假设语音嵌入数据形状为（T，1024），表示有T个1024的向量。将其与标签向量矩阵输入转换模块中，以获取余弦相似度计算结果。

具体的，将语音嵌入数据中的每一个向量和标签向量矩阵中的每一个标签向量进行余弦相似度计算，选择相似度最大的标签向量对应的id，作为输出。由于语音嵌入数据有T个向量，因此，总共输出T个值（余弦相似度计算结果），每个值均为id，例如[59,0,19,20,500]，将其命名为L0。

S33：基于所述语音嵌入数据和所述余弦相似度计算结果的独热编码更新所述转换模块的输入，以获取多个所述余弦相似度计算结果。

具体的，获取余弦相似度计算结果的独热编码。在一些实施例中，获取L0的独热编码。

需要说明的是，独热编码即One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由它独立的寄存器位，并且在任意时候，其中只有一位有效。

具体的，将所述语音嵌入数据减去余弦相似度计算结果的独热编码，作为下一次转换模块的输入，并重复执行步骤S32，以获取多个余弦相似度计算结果。

在一些实施例中，将语音嵌入数据减去L0的onehot编码，和标签向量矩阵一起作为第二次转换模块的输入，执行步骤S32,可以得到L1。同样，在用语音嵌入数据减去L1的onehot编码，和标签向量矩阵一起作为第三次转换模块的输入，执行步骤S32,可以得到L2；重复执行九次，共得到10个输出（余弦相似度计算结果）

S34：基于多个所述余弦相似度计算结果获取所述语音特征矩阵。

具体的，将多个余弦相似度计算结果按照顺序进行拼接，从而获取语音特征矩阵。

在一些实施例中，共获取10个余弦相似度计算结果，将这10个输出按顺序拼接起来，得到形状为（T，10）的L，即为语音特征矩阵。所述语音特征矩阵用id整数来表示了embeddings的连续值，大大降低了后续语音解码器合成语音的难度。

S4：基于所述文本词元和所述语音特征矩阵获取声学词元序列。

具体的，如图6所示，步骤S4包括S41~S43。

S41：基于所述文本词元和所述语音特征矩阵获取解码模块的输入，以通过所述解码模块获取声学词元。

具体的，解码模块选择transformer模型中的解码块。

具体的，将文本词元和语音特征矩阵的第一列，在时间维度上进行顺序拼接，一起作为解码模块的输入，命名为A。解码模块对A进行推理，获取声学词元。

S42：基于所述声学词元更新所述解码模块的输入以获取多个所述声学词元。

具体的，解码模块每一次推理出一个声学词元，在下一次推理时便将上次推理获得的声学词元继续拼接在A后，以此更新后的A输入解码模块，并再次根据解码模块获取又一声学词元。重复执行这一过程，获取多个所述声学词元，直至声学词元的值为<EOS>特殊符号时，停止推理。

需要说明的是，如图2所示，解码模块在每次推理时，用attention mask（注意力掩码）对attention weight（注意力权重）进行屏蔽，黑色位置不屏蔽，白色位置需要屏蔽。

S43：基于多个所述声学词元获取所述声学词元序列。

具体的，将解码模块推理获得的所有声学词元进行拼接，获取声学词元序列，长度为t。

S5：基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。

具体的，如图7所示，步骤S5包括S51~S54。

S51：基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取编码模块的输入，以通过所述编码模块获取新的声学词元序列。

具体的，将所述语音特征矩阵进行拉平处理，使其从二维变成一维矩阵形式，再和文本词元、声学词元序列在时间维度上进行拼接，作为编码模块的输入。编码模块对其进行处理后，输出的长度与输入的长度相同。此处，从最后开始，取与输入的声学词元序列长度相同的结果，作为本次输出的新的声学词元序列。

S52：基于所述新的声学词元序列更新所述编码模块的输入以获取多个所述声学词元序列。

具体的，将新的声学词元序列、文学词元和拉平处理后的语音特征矩阵再次作为编码模块的输入，并再次根据编码模块获取又一新的声学词元序列。重复执行这一过程，获取多个声学词元序列。

在一些实施例中，将步骤S4获得的声学词元序列记为acoustic tokens 0，第一次执行步骤S51获取的新的声学词元序列记为acoustic tokens 1，其长度与acoustictokens 0一致。将acoustic tokens 1和文学词元、拉平处理后的语音特征矩阵再次输入编码模块，得到acoustic tokens 2；总共重复执行这一过程7次，获得7个输出（7个新的声学词元序列），加上第一次的acoustic tokens 0，共8个声学词元序列输出。

S53：基于多个所述声学词元序列获取声学特征。

具体的，将多个声学词元序列在维度上进行拼接，得到声学特征。

在一些实施例中，将8个声学词元序列，在维度上进行拼接，得到声学特征，形状为（t，8），其中t表示acoustic tokens 0的长度，也即获取的所有声学词元序列的长度。

S54：基于声学特征进行语音合成。

具体的，基于所述语音解码器对所述声学特征进行采样以进行语音合成。

具体的，语音解码器的设计如图3所示，所述语音解码器由两层卷积层和四个解码块串联构成；所述解码块由三层直连层和一层卷积层串联构成；所述直连层包括两层卷积层；所述卷积层为一维卷积。

需要说明的是，解码块的每一次输出通道由decoder block(N=4C,S=4)中的N控制，步长由S控制，通道输出成倍增长。其中，C代表通道的数量，S代表卷积操作步长。

语音解码器的具体参数设置请参阅图3所示。

具体的，所述语音解码器对声学特征进行时间维度的上采样，空间维度的下采样，以进行语音合成。合成后的语音内容为输入的文本内容，说话风格、声音和环境与参考语音相同。

本申请实施例所述的语音合成方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。

本申请实施例还提供一种语音合成系统，所述语音合成系统可以实现本申请所述的语音合成方法，但本申请所述的语音合成方法的实现装置包括但不限于本实施例列举的语音合成系统的结构，凡是根据本申请的原理所做的现有技术的结构变形和替换，都包括在本申请的保护范围内。

如图8所示，本实施例提供的语音合成系统，包括第一获取模块10，第二获取模块20、第三获取模块30，第四获取模块40和第五获取模块50。

第一获取模块10用于输入文本内容以获取文本词元。

第二获取模块20用于获取参考语音以对所述参考语音进行编码获取语音嵌入数据。

第三获取模块30用于对所述语音嵌入数据进行特征转换以获取语音特征矩阵。

第四获取模块40用于基于所述文本词元和所述语音特征矩阵获取声学词元序列。

第五获取模块50用于基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。

在一些实施例中，第一获取模块10基于输入文本内容获取文本词元的实现方式包括：对输入的文本内容进行音素级别的分词处理，以此获取文本词元。

在一些实施例中，第二获取模块20用于获取参考语音以对所述参考语音进行编码获取语音嵌入数据的实现方式包括：基于语音编码器对所述参考语音进行特征抽取与采样，以获取语音嵌入数据。

在一些实施例中，第三获取模块30对所述语音嵌入数据进行特征转换以获取语音特征矩阵的实现方式包括：构建标签向量矩阵；将所述语音嵌入数据与所述标签向量矩阵中的标签向量作为所述转换模块的输入以获取余弦相似度计算结果；基于所述语音嵌入数据和所述余弦相似度计算结果的独热编码更新所述转换模块的输入，以获取多个所述余弦相似度计算结果；基于多个所述余弦相似度计算结果获取所述语音特征矩阵。

在一些实施例中，第四获取模块40基于所述文本词元和所述语音特征矩阵获取声学词元序列的实现方式包括：基于所述文本词元和所述语音特征矩阵获取解码模块的输入，以通过所述解码模块获取声学词元；基于所述声学词元更新所述解码模块的输入以获取多个所述声学词元；基于多个所述声学词元获取所述声学词元序列。

在一些实施例中，第五获取模块50基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成的实现方式包括：基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取编码模块的输入，以通过所述编码模块获取新的声学词元序列；基于所述新的声学词元序列更新所述编码模块的输入以获取多个所述声学词元序列；基于多个所述声学词元序列获取声学特征，并基于所述语音解码器对所述声学特征进行采样以进行语音合成。

在一些实施例中，语音编码器和语音解码器的设计如图3所示，转换模块的设计如图5所示。在此不再赘述。

本申请还提供一种电子设备。如图9所示，本实施例提供一种电子设备90，所述电子设备90包括：存储器901，被配置为存储计算机程序；以及处理器902，与所述存储器901通信相连，并且被配置为调用所述计算机程序以执行所述的语音合成的方法。

所述存储器901包括：ROM（Read Only Memory image）、RAM（Random AccessMemory）、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器902与所述存储器901相连，用于执行所述存储器901存储的计算机程序，以使所述电子设备执行上述的语音合成的方法。

优选地，所述处理器902可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如，在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性（non-transitory）介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带（magnetictape），软盘（floppy disk），光盘（optical disc）及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本申请实施例还可以提供一种计算机程序产品，所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品被计算机执行时，所述计算机执行前述方法实施例所述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种语音合成方法，其特征在于，包括：

输入文本内容以获取文本词元；

获取参考语音以对所述参考语音进行编码获取语音嵌入数据；

对所述语音嵌入数据进行特征转换以获取语音特征矩阵；

基于所述文本词元和所述语音特征矩阵获取声学词元序列；

基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成；

其中，对所述语音嵌入数据进行特征转换以获取语音特征矩阵包括：

构建标签向量矩阵；

将所述语音嵌入数据与所述标签向量矩阵作为转换模块的输入以获取余弦相似度计算结果；

基于所述语音嵌入数据和所述余弦相似度计算结果的独热编码更新所述转换模块的输入，以获取多个所述余弦相似度计算结果；

基于多个所述余弦相似度计算结果获取所述语音特征矩阵。

2.根据权利要求1所述的语音合成方法，其特征在于，获取参考语音以对所述参考语音进行编码获取语音嵌入数据包括：

基于语音编码器对所述参考语音进行特征抽取与采样，以获取语音嵌入数据。

3.根据权利要求2所述的语音合成方法，其特征在于，所述语音编码器由两层卷积层和四个编码块串联构成；所述编码块由三层直连层和一层卷积层串联构成；所述直连层包括两层卷积层；所述卷积层为一维卷积。

4.根据权利要求1所述的语音合成方法，其特征在于，基于所述文本词元和所述语音特征矩阵获取声学词元序列包括：

基于所述文本词元和所述语音特征矩阵获取解码模块的输入，以通过所述解码模块获取声学词元；

基于所述声学词元更新所述解码模块的输入以获取多个所述声学词元；

基于多个所述声学词元获取所述声学词元序列。

5.根据权利要求1所述的语音合成方法，其特征在于，基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征包括：

基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取编码模块的输入，以通过所述编码模块获取新的声学词元序列；

基于所述新的声学词元序列更新所述编码模块的输入以获取多个所述声学词元序列；

基于多个所述声学词元序列获取声学特征。

6.根据权利要求1所述的语音合成方法，其特征在于，基于声学特征进行语音合成包括：

基于语音解码器对所述声学特征进行采样以进行语音合成。

7.一种语音合成系统，其特征在于，包括：

第一获取模块，用于输入文本内容以获取文本词元；

第二获取模块，用于获取参考语音以对所述参考语音进行编码获取语音嵌入数据；

第三获取模块，用于对所述语音嵌入数据进行特征转换以获取语音特征矩阵；其中，包括：

构建标签向量矩阵；

基于多个所述余弦相似度计算结果获取所述语音特征矩阵；

第四获取模块，用于基于所述文本词元和所述语音特征矩阵获取声学词元序列；

第五获取模块，用于基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现权利要求1至6中任一项所述的语音合成方法。

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有一计算机程序；

处理器，与所述存储器通信相连，调用所述计算机程序时执行权利要求1至6中任一项所述的语音合成方法。