CN117636842B

CN117636842B - 基于韵律情感迁移的语音合成系统及方法

Info

Publication number: CN117636842B
Application number: CN202410089533.5A
Authority: CN
Inventors: 秦济韬; 庞平; 牛增辉
Original assignee: Beijing Tianxiang Ruiyi Technology Co ltd
Current assignee: Beijing Tianxiang Ruiyi Technology Co ltd
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-04-02
Anticipated expiration: 2044-01-23
Also published as: CN117636842A

Abstract

本发明公开了一种基于韵律情感迁移的语音合成系统及方法，该系统包括：文本编码器模块、序列对齐模块、多级风格适配器、内容适配器模块、解码器模块，其中，文本编码器模块用于TTS系统中输入的文本进行向量化编码，此种编码会混合一些风格属性；序列对齐模块用于语音‑文本的对齐，对齐后通过内容适配器模块，消除这种风格属性；多级风格适配器对参考音频进行多尺度特征的提取，并将这些多尺度特征进行融合，再和内容适配后的输出一起输入语音帧解码器进行梅尔声谱的输出；最后接入声码器即可将梅尔声谱转为语音波形。本申请不仅能够对韵律进行细粒度建模，而且解决了长句依赖中局部和全局信息的获取问题，提高了语言合成系统的泛化能力。

Description

基于韵律情感迁移的语音合成系统及方法

技术领域

本申请属于语音合成技术领域，具体涉及一种基于韵律情感迁移的语音合成系统及方法。

背景技术

文本到语音（TTS, text-to-speech，文本转语音）合成的目标是从文本生成类似人类的语音。目前的TTS模型已经扩展到更复杂的场景，包括多个说话人、情感和风格，以实现表达丰富和多样化的语音生成。越来越多的应用程序，如语音助手服务和长篇阅读，已经开发并部署到实际的语音平台中。

TTS模型通常由编码器-解码器的神经网络组成，该网络经过训练可将给定的文本序列成功映射到语音帧序列。并且，该模型可以有效地建模和控制语音风格（例如发言人的身份、说话风格、情感和韵律等信息）。传统TTS系统通常在有限的数据集上进行训练，这限制了它们产生多样化和可泛化结果的能力。

然而当前许多个性化TTS应用场景，如有声读物旁白、新闻广播、会话助手等，增加了对TTS模型建模能力的要求，特别是在未知风格迁移合成方面提出了更高的需求。比如，一个合成发言人可以同时以快乐、悲伤、害怕等多种情感来说话，并且能够支持不同风格（比如新闻播报、有声小说朗读、客服问答等等）的随意切换。然而，单发言人多风格的语音数据采集难度较大，因此在多风格语音合成方面的相应表现不足。

与通常可控的语音合成不同，用于跨领域文本到语音的风格转移旨在从一种声学参考音频（即自定义语音）中生成具有未见过风格（如音色、情感和韵律）的高质量语音样本，但面临两个方面的困难：1）风格建模和转移：情感语音中的高动态范围难以控制和转移。许多TTS模型只学习输入数据上的平均分布，并缺乏对语音样本中风格的细粒度控制能力；2）模型泛化：当自定义语音中的风格属性分布与训练数据不同时，合成语音的质量和相似性往往会因分布差异而下降。尽管当前的TTS模型已经考虑了提高模型对语音风格建模的能力，但它们未能完全解决上述问题。

目前大多数TTS的解决方案是采用语音风格建模和迁移的方法，采用语音风格建模和迁移的方法，在捕捉差异化的风格特征方面相当有限，无法同时准确反映说话人身份、情感和韵律范围；另外，这些方法往往得到的风格编码向量包含太多的纠缠信息，导致风格迁移后降低了整体合成语音的稳定性。而为了提升模型建模能力并改善模型泛化问题，多采用数据驱动的方式，而数据驱动解决泛化问题成本高昂而且有的情况下可行性低；风格自适应方案是基于一个假设，即目标语音可以用于模型自适应过程，但是，这种假设在实际生产环节中并不总是成立。

因此，目前的方法利用该采集数据制作出的语音合成系统，难以合成未在数据集内出现的语言风格语音，这限制了语音合成系统的泛化能力，在长句合成的时候，韵律合成能力严重下降，另外，语音合成模型在表达性声音中高度动态的风格特征方面，难以进行建模和风格迁移，整句话往往采用一种韵律风格，而缺少音素级别的韵律信息建模能力。

发明内容

针对上述现有情感语音合成存在的缺陷，本申请的目的在于提供一种能够改善模型泛化能力和韵律合成效果的基于韵律情感迁移的语音合成方法及系统。

根据上述目的，本申请的第一方面，提供了一种基于韵律情感迁移的语音合成系统，所述系统包括：文本编码器模块、序列对齐模块、多级风格适配器、内容适配器模块、解码器模块，其中，

所述文本编码器模块，用于将音素级别的文本序列和声调序列通过神经网络模型编码成文本序列级别的编码向量，并输出给所述序列对齐模块；

所述序列对齐模块，用于将所述文本序列级别的编码向量由音素长度拓展变化到语音帧长度，获得文本和语音对齐后的帧级别的编码向量，并输出给所述内容适配器模块；

所述内容适配器模块，用于对所述帧级别的编码向量中混合的风格信息进行消除处理，以获得标准化后的文本向量，并输出给所述解码器模块；

所述多级风格适配器，用于对参考音频从多个尺度进行韵律特征的提取，以捕捉语句中的局部信息和全局信息，得到多尺度下的风格编码向量，并输出给所述解码器模块；

所述解码器模块，用于对所述风格编码向量和所述标准化后的文本向量进行解码，解码成具有梅尔声谱特征的语音帧数据。

进一步地，捕捉全局信息通过开源的软件语音包来提取说话人编码向量和和情感编码向量，且将它们共同用于所述序列对齐模块中，捕捉局部信息通过字符级别的字符韵律风格提取模块和帧级别的帧韵律风格提取模块来实现，其中，所述字符韵律风格提取模块的输入数据包括提取的语音帧数据，以及语音帧和文本音素的对齐信息，所述帧韵律风格提取模块的输入数据为语音帧数据；其中，通过所述字符韵律风格提取模块和帧韵律风格提取模块提取的向量信息，还与所述内容适配器获得的内容文本向量的长度进行对齐后再输出。

进一步地，所述字符韵律风格提取模块和帧韵律风格提取模块共享一个通用的神经网络模型架构，输入数据通过卷积层精细处理后，进入到池化层操作，实现不同尺度下的风格话，池化后的数据输入到离散化向量层，以消除非韵律信息，其中，对帧级别的帧韵律风格提取模块的编码向量去除了池化层的使用，在分别得到字符级别的风格编码向量和帧级别的风格编码向量后，将二者相加，得到所述多尺度下的风格编码向量。

进一步地，所述将音素级别的文本序列通过神经网络模型编码成文本序列级别的编码向量，包括：

将音素级别的文本序列及音素级别的声调信息分别通过字符嵌入层和声调信息嵌入层的处理，得到各自编码的高维序列向量，并将两种高维序列向量对应相加；

通过高维序列向量的长度构建位置信息向量；

将相加后形成的文本序列向量和位置信息向量在对应位置相加，相加后的结果送入Transformer的编码器模块中，转变为固定长度的所述文本序列级别的编码向量。

进一步地，所述序列对齐模块包括：时长预测器和帧级别扩展模块，其中，

将所述文本序列级别的编码向量加入说话人编码向量和情感编码向量，然后将三者相加后的编码向量输入到所述时长预测器，预测每个文本音素的持续时长；

所述帧级别扩展模块，根据预测的时长，将文本序列级别的编码向量长度按照预测值，拓展到语音帧级别的长度，得到对齐后的所述帧级别的编码向量。

进一步地，对所述帧级别的编码向量中混合的风格信息进行消除处理包括：

通过全连接层预测对齐后的所述帧级别的编码向量的平均值和标准差；然后通过随机重采样过程，进行编码向量的随机打乱以及重采样，重新构造文本向量，形成标准化后的文本向量。

进一步地，所述解码器模块采用了由1维卷积层和全连接层组成的多层结构作为语音帧解码器，还在所述语音帧解码器之后还接入了用于增强语音帧质量的后处理模块。

本发明的第二方面，提供了一种基于韵律情感迁移的语音合成方法，所述方法包括：

将音素文本序列和声调信息序列输入文本编码器模块，得到文本编码向量；

利用第三方提取模块从文本对应的语音帧数据中提取说话人编码向量以及情感编码向量；

将所述文本编码向量、说话人编码向量和情感编码向量对应相加，依次进行文本语音序列对齐以及内容适配器模块的处理，获得标准化后的文本编码向量；

将文本对应的语音帧信息数据，作为多级风格适配器的输入，并与所述内容适配器模块获得的文本编码向量的长度进行对齐后再输出，获得多尺度下的风格编码向量；

将所述风格编码向量与标准化后的文本编码向量相加，作为梅尔声谱解码器的输入，最终获得梅尔声谱特征；

将该梅尔声谱特征经过声码器进行转换，变换成语音波形。

本申请实施例所公开的一种基于韵律情感迁移的语音合成方法及系统，达到了如下技术效果：

针对风格迁移和细粒度韵律建模问题，本申请的系统加入了两个组件，将语音变化分解为与风格无关和风格特定的部分，分别是多级风格适配器和内容适配器模块，多级风格适配器能够有效地建模大范围的风格条件，包括全局说话人和情感特征，以及局部（语句、音素和词级）精细的韵律表示，这种多级风格表示，将自定义语句拆分成了几种属性：语句级别、字符级别、帧级别，不仅能够对韵律进行细粒度建模，而且解决了长句依赖中局部和全局信息的获取问题。本申请在传统TTS系统的文本编码器层加入了一种混合风格归一化层，也即内容适配器，内容适配器用于消除语言内容表示中的风格信息，并且预测风格无关的变化，从而提高模型的泛化能力。

附图说明

图1为本实施例中的基于韵律情感迁移的语音合成系统的整体架构图；

图2为本实施例中的文本编码器模块的工作流程图；

图3为本实施例中的序列对齐模块的工作流程图；

图4为本实施例中的内容适配器的工作流程图；

图5为本实施例中的多级风格适配器的工作流程图；

图6为本实施例中的语音帧解码模块的工作流程图；

图7为本实施例中的语音合成方法的总体执行流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想。

本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

本说明书中所引用的如“前”、“、后”、“左”、“右”、“中间”、“纵向”、“横向”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，亦仅为了便于简化叙述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

实施例一

参照图1～图6所示，本申请的实施例一提供了一种基于韵律情感迁移的语音合成系统，该系统是基于多层神经网络的序列-序列结构所构建，系统输入的是音素级别的文本序列、指定的发言人自定义语音，输出的是语音帧级别的序列信息（梅尔声谱）。参照图1所示，该系统包括：文本编码器模块、序列对齐模块、多级风格适配器、内容适配器模块和解码器模块，其中，

文本编码器模块，用于对TTS中输入的音素级别的文本序列通过神经网络模型编码成文本序列级别的编码向量，并输出给所述序列对齐模块；

序列对齐模块，分别连接文本编码器模块和内容适配器模块，用于将文本序列级别的编码向量由音素长度拓展变化到语音帧长度，获得文本和语音对齐后的帧级别的编码向量，并输出给内容适配器模块；

内容适配器模块，分别连接多级风格适配器和解码器模块，用于对所述帧级别的编码向量中混合的风格信息进行消除处理，以获得标准化后的文本向量，并输出给所述解码器模块；

多级风格适配器，用于对参考音频从多个尺度进行韵律特征的提取，以捕捉语句中的局部信息和全局信息，得到多尺度下的风格编码向量，并输出给所述解码器模块；

解码器模块，分别连接内容适配器模块和多级风格适配器，用于对风格编码向量和标准化后的文本向量进行解码，解码成具有梅尔声谱特征的语音帧数据。在解码器之后还需接入一个声码器，以将梅尔声谱转为语音波形数据；声码器不是该TTS系统的重点内容，因此在本实施例中对声码器细节不做具体阐述。

下面来对各个模块的结构原理作进一步说明。

一、文本编码器模块，请参照图2所示。

文本编码器的作用是将音素级别的文本序列和声调序列，通过神经网络自动编码成隐式文本编码向量。该文本编码器由字符嵌入层、声调嵌入层、层位置编码层和Transformer编码器模块构成，该Transformer编码器模块由多个卷积层和自注意力机制层组成，具体操作流程如下：

a.音素级别的文本序列以及声调信息分别通过嵌入层处理，将文本序列/声调信息序列分别编码为高维序列向量，最后将两种高维序列向量对应相加，由于两种序列均为音素级别，因此二者序列长度一致。

b.通过序列的长度构造位置向量；

c. 将编码后文本序列向量和位置向量对应位置相加，相加后的结果送入Transformer的编码器模块中，转变为具有固定长度的呈文本序列级别的文本编码向量。

二、序列对齐模块，请参照图3所示。

序列对齐模块，主要是实现文本序列-语音序列的对齐，序列对齐模块将文本编码向量由音素长度变化到语音帧长度。对齐模块的工作流程如图3所示。该模块主要包含：时长预测器以及帧级别扩展模块。序列对齐模块从文本编码器中获得了文本编码向量，通过时长预测器预测文本序列中每一个音素对应的语音帧长度；然后通过帧级别扩展模块，将每一个音素信息拓展到其语音帧长度。

文本序列与语音帧的对齐流程如下所示：

a. 文本编码器获得的文本序列级别的文本编码向量，另外加入了说话人编码向量信息和情感编码向量信息。其中，说话人编码向量代表了不同的说话人，每一个说话人有一个独特的编码向量；同理，情感编码向量则是代表了说话的不同情感，比如开心、愤怒等情感。三种序列的长度和编码维度相同，因此将三者对应相加，通过时长预测器预测文本编码向量中每个音素的持续时长，其中，文本音素是指文本编码向量中的每一维的向量，说话人编码向量和情感编码向量代表着语音的全局信息。在序列对齐流程前加入全局信息可以为对齐后的向量加入语音的说话人信息和情感信息，输出韵律更真实。本申请的TTS系统采用Resemblyzer这一第三方开源包来提取说话人编码向量和情感向量。

b. 通过预测的时长，将文本编码向量的长度按照预测值，拓展到语音帧级别的长度，也就是实现文本长度对齐到语音帧长度，最终得到对齐后的所述帧级别的编码向量。

三、内容适配器模块，请参照图4所示。

由于TTS系统中对输入文本进行向量化编码后，这种编码会混合一些风格属性；因此采用内容适配器模块，对经过序列对齐模块处理后获得的对齐后帧级别编码向量数据，通过内容适配模型，消除文本编码向量内混合的风格属性，以提高模型的泛化能力，达到域泛化效果。

该内容适配器模快的工作流程为：首先通过一个全连接层预测帧级别的编码向量的平均值和向量的标准差；然后通过随机重采样过程，进行向量的随机打乱以及向量重采样，重新构造文本向量，最后得到标准化后的文本向量。该内容适配器模块通过预测平均值和标准差，将输入向量转换为多项高斯分布；但多项高斯分布表示的数据是均匀的连续分布，因此会消除掉输入向量中存在的差异化信息，这种差异化信息在文本编码向量中就代表不同的风格信息。

此外，经过内容适配器模块处理后的文本向量还将发送给多级风格适配器中的字符韵律风格提取模块和帧韵律风格提取模块，目的是对此两种韵律风格模块处理后的向量进行对齐。多级风格适配器则需要利用内容适配器处理后的文本向量信息。

本申请在传统TTS系统文本编码器层之后，加入了一种混合风格归一化的内容适配器模型，来消除文本编码器中的风格属性，并且预测风格无关的变化，提高了语言合成系统的泛化能力。

四、多级风格适配器，请参照图5所示。

本发明采用的多级风格适配器的功能是在字符级别和帧级别下提取语音信息的情感风格向量，这样同时也可以准确提取语句中的全局信息及局部信息。通常，语音信息包含动态风格属性（例如说话人身份、语调和情感），这使得TTS模型难以建模和转移，而采用多级风格适配器，则可以用于全局和局部的风格化。

在捕捉局部信息的时候，本系统采用了字符级别和帧级别两个不同尺度下的声学条件，但二者共享一个通用的模型架构。首先，输入序列通过几个卷积层进行精细处理，并且对精细化的序列进行池化操作，以实现不同尺度下的风格化；其中，池化操作根据输入边界对每个卷积操作后的向量进行平均。然后，将经过池化处理后的序列作为输入到离散化量化层中，以有效消除非韵律信息。针对帧级别和字符级别来讲：

a.帧级别：为了捕捉帧级别的编码向量，本申请在帧级别的韵律风格编码器中去除了池化层的使用。

b.字符级别：每个单词上的声学条件（例如音高和重音）是高度可变的。为了从语音中捕捉词级别的风格向量，本申请将单词边界信息作为额外的输入，并应用池化来进一步优化序列。

另外，通过帧级别风格编码器和字符级别风格编码器提取的向量信息，需要与内容适配器获得的内容文本向量的尺度进行对齐。因此在提取向量信息后，又对帧级别、字符级别分别加入到内容对齐层，与前面标准化后的文本向量进行对齐操作。该多级风格适配器工作流程如图5所示。

图5中显示了局部信息提取的流程。

在该流程中，首先，从文本提取的语音帧数据分别送入字符韵律风格提取模块、帧韵律风格提取模块进行处理；此外，字符韵律提取模块还需要提供语音帧和文本音素的对齐信息作为输入。其中，语音帧和文本音素的对齐信息是字符韵律提取模块的重要输入，因为它可以帮助字符韵律风格提取模型学习到语音和文本之间的对应关系，从而更好地提取韵律信息。例如，当语音帧和文本音素对齐时，模型可以学习到语音帧中哪些部分对应于文本中的哪些音素，从而更好地提取韵律信息。而在帧韵律模块中，直接处理的是语音帧信息，因此无需额外的对齐信息来参与帧韵律的提取。

在韵律风格提取模块中，主要包含“多层1维卷积层”、“池化层”、“VQ离散化向量层”和“内容对齐层”，对于帧级别的韵律风格提取模块，则不需要构建池化层；VQ离散化向量层是将通过1维卷积层后的隐层表示转换成离散化隐层表示，来进一步压缩信息。内容对齐层接收上一步标准化后的文本向量以及通过VQ离散化的向量，针对不同的细粒度信息，与文本向量的长度进行对齐。

最后，多级风格适配器获得了各个尺度下与文本向量对齐后的编码向量，即字符级别的风格编码向量和帧级别的风格编码向量，然后再对这些编码向量对应相加，得到最终的输出，输出为多尺度下的帧级别的风格编码向量。

本申请使用了多级风格适配器用于自定义语句的局部风格化。具体来说，该多级风格适配器采用两个局部的韵律风格提取模块分别建模了细粒度的字符级别和帧级别韵律表示。

这种多级风格表示，将自定义语句拆分成了字符级别和帧级别信息。而多级风格适配器中使用了标准化后的文本向量，该文本向量从序列对齐模块和内容适配器模块中获得，已经获取长句中的全局信息，因此，不仅能够对韵律进行细粒度建模，而且解决了长句依赖中局部和全局信息获取问题。多级风格适配器模块采用两个局部风格编码器分别建模了细粒度的字符级别和帧级别韵律表示；并采用说话人编码器构建了句级别的全局特征表示。这种多级风格表示，将自定义语句拆分成了几种属性：语句级别、字符级别、帧级别，不仅能够对韵律进行细粒度建模，而且解决了长句依赖中局部和全局信息的获取问题。

五、解码器模块

该部分的功能是将通过内容适配器模块、多级风格适配器分别得到的对齐后的字符向量和多尺度下的风格编码向量，解码成语音帧特征数据(梅尔声谱特征)。上一步的语音帧级别编码数据并不是最终语音合成的结果，需要通过解码器模块来将编码数据解码为梅尔声谱特征，以生成人耳可听的音频文件。

如图6所示，本申请的解码器模块结构采用了由1维卷积层和全连接层组成的多层结构作为语音帧的解码；为了合成高质量的语音帧级别特征，在该解码器后接入了后处理模块来增强生成的质量，其中，后处理模块可以为五层卷积窗口大小为3的卷积神经网络，对解码器生成的数据再进行局部处理，增强数据的细节信息。

该解码器的解码流程如下：标准化后的文本向量和多尺度风格编码向量，经过5个1维卷积层和全链接层组成的模块，完成解码为语音帧信息的处理；最后到后处理模块，完成语音帧局部信息生成处理，最终生成梅尔声谱特征。

实施例二

参照图7所示，本申请的另一实施例，还提供了一种基于韵律情感迁移的语音合成方法，该方法应用于前述实施例一中的语音合成系统，TTS合成系统总体工作方式包含两种：训练过程和生产过程。训练过程中，通过标注和对齐好的“音素文本序列”、“声调信息序列”、“文本对应的语音帧数据”数据集，对整个网络中的各个参数进行自动调整；训练完成后，网络中的各个参数将不再改变。生产过程中，则利用训练过程得到的固定参数后的网络模型，输入目标文本序列和目标发言人自定义语音，即可得到目标合成梅尔声谱特征。在训练过程和生产过程中，输入数据在系统的工作方式如图7所示。

在该TTS系统中，输入主要包含：音素文本序列、声调信息序列和文本对应的语音帧序列。该工作的整体工作流程为：

a.将音素文本序列和声调信息序列输入文本编码器模块，得到文本编码向量；

b.利用第三方提取模块（比如Resemblyzer提取模块）从文本对应的语音帧数据中提取说话人编码向量以及情感编码向量；

c.将所述文本编码向量、说话人编码向量和情感编码向量对应相加，依次进行文本语音序列对齐以及内容适配器模块的处理，获得标准化后的文本编码向量；

d.将文本对应的语音帧信息数据，作为多级风格适配器的输入，输出前先与所述内容适配器模块获得的文本编码向量的长度进行对齐后再输出，获得多尺度下的风格编码向量；

e.将所述风格编码向量与标准化后的文本编码向量相加，作为梅尔声谱解码器的输入，最终获得梅尔声谱特征；

f.将该梅尔声谱特征经过声码器进行转换，变换成可听懂的语音波形。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于韵律情感迁移的语音合成系统，其特征在于，所述系统包括：文本编码器模块、序列对齐模块、多级风格适配器、内容适配器模块、解码器模块，其中，

2.根据权利要求1所述的语音合成系统，其特征在于，捕捉语句中的所述局部信息通过字符级别的字符韵律风格提取模块和帧级别的帧韵律风格提取模块来实现，所述字符韵律风格提取模块的输入数据包括提取的语音帧数据，以及语音帧和文本音素的对齐信息，所述帧韵律风格提取模块的输入数据为语音帧数据；其中，通过所述字符韵律风格提取模块和帧韵律风格提取模块提取完成后的向量信息，还与所述内容适配器模块获得的文本向量的长度进行对齐后再输出，分别得到字符级别的风格编码向量和帧级别的风格编码向量。

3.根据权利要求2所述的语音合成系统，其特征在于，捕捉全局信息通过开源的软件语音包来提取说话人编码向量和和情感编码向量，且将它们共同用于所述序列对齐模块中，以得到对齐后的语音帧和文本音素的对齐信息。

4.根据权利要求3所述的语音合成系统，其特征在于，所述字符韵律风格提取模块和帧韵律风格提取模块共用一个通用的神经网络模型架构，输入数据通过卷积层精细处理后，进入到池化层操作，实现不同尺度下的风格话，池化后的数据输入到离散化向量层，以消除非韵律信息，其中，对帧级别的帧韵律风格提取模块的编码向量去除了池化层的使用，在分别得到所述字符级别的风格编码向量和帧级别的风格编码向量后，将二者相加，得到所述多尺度下的风格编码向量。

5.根据权利要求1或3所述的语音合成系统，其特征在于，所述将音素级别的文本序列和声调序列通过神经网络模型编码成文本序列级别的编码向量，包括：

通过高维序列向量的长度构建位置信息向量；

将相加后形成的文本序列向量和位置信息向量在对应位置相加，相加后的结果送入Transformer的编码器模块中，转变为具有固定长度的所述文本序列级别的编码向量。

6.根据权利要求3所述的语音合成系统，其特征在于，所述序列对齐模块包括：时长预测器和帧级别扩展模块，其中，

7.根据权利要求1或3所述的语音合成系统，其特征在于，对所述帧级别的编码向量中混合的风格信息进行消除处理包括：

8.根据权利要求1或3所述的语音合成系统，其特征在于，所述解码器模块采用了由1维卷积层和全连接层组成的多层结构作为语音帧解码器，还在所述语音帧解码器之后还接入了用于增强语音帧质量的后处理模块。

9.一种基于韵律情感迁移的语音合成方法，其特征在于，所述方法包括：

利用第三方提取模块从文本对应的语音帧数据中提取说话人编码向量及情感编码向量；

将该梅尔声谱特征经过声码器进行转换，变换成语音波形。