CN113506562A

CN113506562A - 基于声学特征与文本情感特征融合的端到端语音合成方法及系统

Info

Publication number: CN113506562A
Application number: CN202110812076.4A
Authority: CN
Inventors: 段鹏飞; 冯莹; 熊盛武; 字云飞
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-15
Anticipated expiration: 2041-07-19
Also published as: CN113506562B

Abstract

本发明提供了一种基于声学特征与文本情感特征融合的端到端语音合成方法及系统，构建了端到端语音合成模型，可以根据音素序列的嵌入向量获得文本的韵律隐特征，进行音素与Mel频谱对齐，通过声学编码器从中分别获取音素级和句子级别的声学特征，并在声学特征中加入隐特征，与此同时从文本中获取文本情感特征；再次将声学特征与文本情感特征进行特征融合，输入到FastSpeech2的方差适配器进行特征增强与扩充；最后将方差适配器的输出输入到FastSpeech2的Mel解码器实现并行解码，得到合成语音的频谱图；使用声码器将频谱图特征映射为声音波形，得到合成的语音。本发明在保证效率的同时可以提高语音合成的自然度。

Description

基于声学特征与文本情感特征融合的端到端语音合成方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于声学特征与文本情感特征融合的端到端语音合成方法及系统。

背景技术

语音合成(Speech Synthesis)，又称文语转换技术是指计算机通过分析将任意文本转化为流畅语音的技术。语音合成作为实现人机语音交互系统的核心技术之一；是语音处理技术中一个重要的方向，其应用价值越来越受到重视。语音合成系统的质量评价一般分为以下几个方面，自然度，鲁棒性以及生成语音的准确性。在实际的应用场景下，整个系统的延迟，计算复杂度以及合成耗时等也都是需要考虑的因素。传统的语音合成技术包括拼接法以及统计参数法。其中，拼接法通过事先录制好大量的语音，合成时根据文本内容选取大量的基本单元连接成流畅的语音，而这种方法对录制的语音有较高覆盖率的要求，所建立的数据库也较为庞大，在实际设备上使用时往往会受到设备容量的限制；统计参数法是根据统计模型来建立文本特征到声学特征的映射，再用这些声学特征还原成波形，此类方法不需要事先录制语音，但是合成语音的质量偏低。这些传统方法都是基于声学特征的分析以及合成来实现，这些方法由于具备鲁棒性强以及准确性强的特点，在工业界被较为广泛地使用。然而，这些方法共通的缺点是合成的语音在自然度上缺陷较大。

近年来，随着深度学习的飞速发展，端到端的语音合成方法越来越多，比起传统的方法，端到端的语音合成合成的语音自然度更高，并且能够直接对文本建模合成谱图，极大的简化了合成的流程。现在主流的方法有两种，一种是基于 Google提出的Tacotron2,一种是基于微软浙大联合提出的FastSpeech。

本申请发明人在实施本发明的过程中，发现现有技术中存在如下技术问题：

上述两种模型在结构上有所差异，结构上的差异导致效率效果有所差异。基于Tacotron2的方法由于是自回归的结构，合成语音在自然度上更好，但是很难实现计算的并行，导致合成的效率较低；基于FastSpeech的方法由于是非自回归的结构，在GPU环境下合成效率能提高两个数量级，但是合成语音的自然度不如基于Tacotron2的方法。

由此可知，现有技术中的方法存在合成自然度不高的技术问题。

发明内容

本发明提出一种基于声学特征与文本情感特征融合的端到端语音合成方法及系统，用于解决或者至少部分解决现有技术中的方法存在的合成自然度不高的技术问题。

为了解决上述技术问题，本发明第一方面提供了基于声学特征与文本情感特征融合的端到端语音合成方法，包括：

S1：获取样本文本及对应的标准语音音频，将样本文本转化为音素序列，标准音频转化为标准Mel频谱，将样本文本、音素序列以及样本文本对应的Mel 频谱作为训练数据；

S2：构建端到端语音合成模型，端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器，其中，音素嵌入层用于根据音素序列获得音素的向量表示；音素编码器用于根据音素的向量获得文本的韵律隐特征；声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征；文本情感提取模型用于从样本文本中提取文本情感特征；方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充；Mel解码器用于根据方差适配器输出实现并行解码，得到合成语音的Mel频谱，Mel解码器为FastSeech2的解码器；声码器用于将频谱图特征映射为声音波形，得到合成的语音；

S3：将训练数据输入至端到端语音合成模型，根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数，训练过程中更新模型的参数直到模型收敛，得到训练好的端语音合成模型；

S4：利用训练好的端到端语音合成模型进行语音合成。

在一种实施方式中，步骤S2中声学编码器包括音素特征声学编码器和句子特征声学编码器，

音素特征声学编码器用于对音素与Mel频谱进行对齐后的谱图进行特征提取，并在提取过程中加入韵律隐特征，获得音素级别声学特征；

句子特征声学编码器用于根据样本的Mel频谱进行特征提取后加入韵律隐特征，得到句子级别声学特征。

在一种实施方式中，音素编码器为FastSpeech2音素编码器，文本情感特征提取模型为基于LSTM网络的模型，音素特征声学编码器为基于卷积层的声学编码器，句子特征声学编码器为基于卷积层的声学编码器。

在一种实施方式中，音素级别声学特征的提取方式为：

P_t＝Aco_encoder₁(P_t-1,C_t',h_t),C_t'＝align(C_t,P)，

C_t和P分别表示t时刻的谱图与音素序列，h_t表示t时刻的韵律隐特征，P_t为t时刻的音素级别声学特征，align()表示对齐函数，Aco_encoder₁为音素级别声学编码器，P_t-1为t-1时刻的音素级别声学特征，C_t'表示对齐后的谱图。

在一种实施方式中，句子级别声学特征的提取方式为：

U_t＝Aco_encoder₂(U_t-1,C_t)+h_t

U_t表示t时刻的句子级别特征，h_t表示t时刻的韵律隐特征，C_t为谱图 Aco_encoder为句子级别声学编码器，U_t-1表示t-1时刻的句子级别特征。

在一种实施方式中，文本情感特征的提取过程包括：

i_t＝σ(W_iit_t+b_ii+W_hiH_t-1+b_hi)，

f_t＝σ(W_ift_t+b_if+W_hfH_t-1+b_hf)

g_t＝tanh(W_igt_t+b_ig+W_hfH_t-1+b_hf)

o_t＝σ(W_iot_t+b_io+W_hoH_t-1+b_ho)

c_t＝f_t*c_t-1+i_t*g_t

h'_t＝o_ttanh(c_t)

E_t＝dropout(h'_t)

其中，t_t为文本嵌入后向量，H_t-1为LSTM隐层向量,i_t为输入门，f_t为遗忘门，g_t为记忆单元用来备选更新内容，o_t为输出门，c_t为细胞更新，h'_t为经过LSTM网络的最后输出，E_t为h_t经过dropout后输出的文本情感特征，W_ii，W_hi为输入门和输入门隐藏层的权重，W_if，W_hf为遗忘门门和遗忘门隐藏层的权重， W_ig为记忆单元权重，W_io，W_ho为输出门和输出门隐藏层的权重，b_hi，b_hf，b_hf， b_ho为输入门、遗忘门、记忆单元、输出门的偏置参数，σ(·)为sigmoid()函数。

在一种实施方式中，将声学特征与文本情感特征的融合采用早融合Concat 技术，将句子级别声学特征、音素级别声学特征以及文本情感特征进行连接后，输出融合后的特征T_t，融合后的特征输入到方差适配器中，与方差适配器提取的特征Vt进行特征增强和扩充，处理过程包括：

T_t＝concat(P_t,U_t,E_t)

λ＝Beta(α,β)

V_t'＝λ×T_t+(1-λ)×V_t+V_t

其中，T_t为通过Concat技术得到的融合后的特征,P_t,U_t,E_t分别为音素级别声学特征、句子级别声学特征、文本情感特征，V_t为Fastspeech2中方差适配器中提取的特征，V_t'为方差适配器输出的特征，即融合后的特征与方差适配器提取的特征进行增强和扩充后的特征，λ为经过Beta()函数得到的随机概率，α,β为开始输入参数。

基于同样的发明构思，本发明第二方面提供了基于声学特征与文本情感特征融合的端到端语音合成系统，包括：

训练数据获取模块，用于获取样本文本及对应的标准语音音频，将样本文本转化为音素序列，标准音频转化为标准Mel频谱，将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据；

模型构建模块，用于构建端到端语音合成模型，端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器，其中，音素嵌入层用于根据音素序列获得音素的向量表示；音素编码器用于根据音素的向量获得文本的韵律隐特征；声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征；文本情感提取模型用于从样本文本中提取文本情感特征；方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充；Mel解码器用于根据方差适配器输出实现并行解码，得到合成语音的Mel频谱，Mel解码器为FastSeech2 的解码器；声码器用于将频谱图特征映射为声音波形，得到合成的语音；

模型训练模块，用于将训练数据输入至端到端语音合成模型，根据Mel解码器合成的语音的Mel频谱和步骤S1中提取出标准Mel频谱之间误差设计损失函数，训练过程中更新模型的参数直到模型收敛，得到训练好的端语音合成模型；

语音合成模块，用于利用训练好的端到端语音合成模型进行语音合成。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的基于声学特征与文本情感特征融合的端到端语音合成方法，构建了端到端语音合成模型，包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器，通过声学编码器可以提取样本中的声学特征，通过文本情感提取模型可以提取文本情感特征，并将提取的声学特征与文本情感特征进行融合来增强和扩充韵律，提高了合成语音的自然度，由于采用基于FastSpeech的自回归方法，并行计算解码器，提高了合成效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于声学特征与文本情感特征融合的端到端语音合成方法整体流程图；

图2为本发明实施例中声学特征提取过程示意图；

图3为本发明实施中音素特征声学编码器和音素特征声学预测器的示意图；

图4为本发明实施例中句子级别声学编码器的结构示意图；

图5为本发明实施例中文本情感特征提取过程示意图。

具体实施方式

韵律，包括前端韵律和后端韵律。前端的韵律指的是文本中蕴含的除文本内容之外的信息，包括语调、重音、节奏以及说话的风格等。后端的韵律是从声学特征学习的具体表现形式，其内容包含情感，语速，语音质量等级等等信息。按照韵律调整的粒度分为两类：粗粒度和细粒度。粗粒度为句子级别的迁移调控，细粒度为phrase，word，phone的调控。在现有技术中，基于Tacotron2的方法中可以学习到较好的韵律，但是无法实现计算的并行；而基于FastSpeech的方法则因为无法对韵律进行较好的学习，导致合成的韵律感较差。

本发明的目的在于提供一种基于声学特征与文本情感特征融合的端到端语音合成方法，在保证计算效率的同时，提高语音合成中韵律感、自然度。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于声学特征与文本情感特征融合的端到端语音合成方法，包括：

S2：构建端到端语音合成模型，端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器，其中，音素嵌入层用于根据音素序列获得音素的向量表示；音素编码器用于根据音素的向量获得文本的韵律隐特征；声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征；文本情感提取模型用于从样本文本中提取文本情感特征；方差适配器用于将声学特征与文本情感特征的融合作为输入，进行特征增强与扩充；Mel解码器用于根据方差适配器输出实现并行解码，得到合成语音的Mel频谱，Mel解码器为FastSeech2的解码器；声码器用于将频谱图特征映射为声音波形，得到合成的语音；

S4：利用训练好的端到端语音合成模型进行语音合成。

具体来说，首先获取样本文本及对应的标准语音音频，将样本文本转化为音素序列，标准音频转化为标准Mel频谱；将音素序列经音素嵌入层后输入到音素编码器中获得文本的韵律隐特征；再将韵律隐特征输入到声学编码器中，同时进行音素与Mel频谱对齐，声学编码器从中分别获取音素级和句子级别的声学特征，并在声学特征中加入隐特征；与此同时从文本中获取文本情感特征；再次将声学特征与文本情感特征进行特征融合，输入到FastSpeech2的方差适配器进行特征增强与扩充；最后将方差适配器的输出输入到FastSpeech2的Mel解码器实现并行解码，得到合成语音的频谱图；使用声码器将频谱图特征映射为声音波形，得到合成的语音。

请参见图1，为基于声学特征与文本情感特征融合的端到端语音合成方法整体流程图。音素embedding为音素嵌入层，音素输入音素嵌入层后得到音素的向量表示，加入位置编码后，输入音素编码器。位置编码采用的是Fastspeech模型中的位置编码，主要是构造一个与输入embedding维度一样的矩阵，然后跟输入 embedding相加得到multi-headattention(多头注意力机制)的输入。具体方法为：

其中，PE为二维矩阵，大小和输入的embedding的维度一样，pos表示词语在句子中的位置d_model表示词向量的维度，i表示词向量的位置。上述公式表示在每个词语的词向量的偶数位置添加sin变量，奇数位置添加cos变量，以此来填满整个PE矩阵，然后加到inputembedding(音素的向量表示)中去，这样便完成位置编码的引入。

声学编码器提取的声学特征与文本情感提取模型提取的文本情感特征进行融合，然后输入方差适配器进行特征增强与扩充，再次引入位置编码后输入 FastSeech2的解码器合成语音的Mel频谱，最后通过声码器将频谱图特征映射为声音波形，得到合成的语音。

文本情感特征提取模型和声码器是提前训练好的模型，因而在进行调参(参数更新)时，本发明只需要进行音素编码编码器，声学编码器，方差适配器，解码器，mel解码器部分的调参即可。

具体实施过程中，请参见图2，为声学特征提取过程示意图，音素与Mel频谱的谱图对齐后输入音素级别声学编码器(音素特征声学编码器)，韵律隐特征也输入音素特征声学编码器，从而得到音素特征声学编码器。Mel频谱的谱图输入句子级别声学编码器(句子特征声学编码器)提取得到特征后加入韵律隐特征，从而得到句子级别声学特征。

具体来说，音律隐特征是基于FastSpeech2音素编码器计算后得到的，句子级别声学特征是Mel谱图经过基于卷积层的两个声学编码器得到的，音素级别声学特征是Mel谱图与音素对齐后经过基于卷积层的两个声学编码器得到的；文本情感特征提取是基于LSTM网络提取得到的。通过FastSpeech2的方差适配器进行韵律特征的增强和扩充，再通过FastSpeech2的解码器生成频谱。

具体实施时，训练数据中样本形式为文本、音素序列、频谱。频谱转换为 MFCC。频谱转换为MFCC(梅尔倒谱系数)。

MFCC提取过程部分过程及公式为：

(1)预加重：H(Z)＝1-μz^-1，μ为预加重系数，通常取0.9-1.0之间,z为语音信号，H(Z)表示预加重后的结果。

(2)分帧：先将N个采样点集合成一个观测单位。通常情况下N的值为256 或512，涵盖的时间约为20～30ms左右，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音信号的采样频率为8KHz或16KHz。

(3)加窗：S'(n)＝S(n)×W(n),

其中，S(n)为H(Z)分帧后信号，W(n)为汉明窗n为帧的大小，S'(n)为加窗处理后的语音信号，a为汉明窗产生系数，不同的a产生不同的汉明窗，一般取0.46。

(4)FFT(FastFouriertransform快速傅里叶变换)：

N表示傅里叶变换点数，K是经过FFT计算后的点的下标,2π是傅里叶转换周期，j是欧拉公式中的虚数单位。

(5)三角带通滤波器：

其中

f(m)代表的是中心频率,f(m)之间的间隔随m值的减小而缩小,m为滤波器个数,k是经过FFT计算后的点的下标。

(6)取对数：每个滤波器组输出的对数能量

X_a(k)为进行FFT后的各帧的频谱，H_m(k)为三角带通滤波器，m为滤波器个数，N为FFT中的点数。

(7)DCT:经离散余弦变换(DCT)得到MFCC系数

s(m)为每组滤波器输出的对数能量，M表示三角滤波器的个数，L指的是 MFCC系数阶数。

具体实施时，还包括模型的预测，主要包括：在音素级别特征提取时所需时长，由训练好的时长模型(FastSpeech中的时长预测模型)进行预测，其余流程与训练阶段相同，得到生成的频谱后使用预训练好的声码器模型得到最终的合成语音。

在一种实施方式中，音素级别声学特征的提取方式为：

P_t＝Aco_encoder₁(P_t-1,C_t',h_t),C_t'＝align(C_t,P)，

请参见图3，左边为音素特征声学编码器，右边为音素特征声学预测器，音素特征声学编码器将Mel谱图进行一维卷积、线性标准化、然后通过线性层进行线性化处理得到音素级别特征向量，音素特征声学预测器将音素隐特征(韵律隐特征)进行与音素特征声学编码器同样的操作，得到预测音素级别特征向量，即表征音素特征的向量。

在一种实施方式中，句子级别声学特征的提取方式为：

U_t＝Aco_encoder₂(U_t-1,C_t)+h_t

请参见图4，本发明实施例中句子级别声学编码器的结构示意图，将Mel谱图进行一维卷积、线性标准化、然后通过池化层处理得到句子级别特征向量，即表征句子特征的向量。

在一种实施方式中，文本情感特征的提取过程包括：

i_t＝σ(W_iit_t+b_ii+W_hiH_t-1+b_hi)，

f_t＝σ(W_ift_t+b_if+W_hfH_t-1+b_hf)

g_t＝tanh(W_igt_t+b_ig+W_hfH_t-1+b_hf)

o_t＝σ(W_iot_t+b_io+W_hoH_t-1+b_ho)

c_t＝f_t*c_t-1+i_t*g_t

h'_t＝o_ttanh(c_t)

E_t＝dropout(h'_t)

请参见图5，为本发明实施例中文本情感特征提取过程示意图。文本通过词嵌入层得到文本嵌入后向量，然后通过LSTM网络进行处理得到h'_t，再通过Dropout层得到情感特征向量，即表征文本情感特征的向量。

在一种实施方式中，将声学特征与文本情感特征的融合采用早融合Concat 技术，将句子级别声学特征、音素级别声学特征以及文本情感特征进行连接后，输出融合后的特征T_t，融合后的特征输入到方差适配器中，与方差适配器提取的特征V_t进行特征增强和扩充，处理过程包括：

T_t＝concat(P_t,U_t,E_t)

λ＝Beta(α,β)

V_t'＝λ×T_t+(1-λ)×V_t+V_t

具体实施过程中，方差适配器中提取的特征包括时长、能量、音高等特征。

相对于现有技术，本发明的有益效果是：

1、相比基于Tactron2的方法，由于采用基于FastSpeech的自回归方法，并行计算解码器，提高了合成效率。

2、相比基于FastSpeech的方法，通过引入文本情感特征与声学特征的特征融合来增强和扩充韵律，提高合成语音的自然度。

实施例二

基于同样的发明构思，本实施例提供了基于声学特征与文本情感特征融合的端到端语音合成系统，包括：

模型构建模块，用于构建端到端语音合成模型，端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器，其中，音素嵌入层用于根据音素序列获得音素的向量表示；音素编码器用于根据音素的向量获得文本的韵律隐特征；声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征；文本情感提取模型用于从样本文本中提取文本情感特征；方差适配器用于将声学特征与文本情感特征的融合作为输入，进行特征增强与扩充；Mel解码器用于根据方差适配器输出实现并行解码，得到合成语音的Mel频谱，Mel解码器为FastSeech2的解码器；声码器用于将频谱图特征映射为声音波形，得到合成的语音；

由于本发明实施例二所介绍的系统，为实施本发明实施例一中基于声学特征与文本情感特征融合的端到端语音合成方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于声学特征与文本情感特征融合的端到端语音合成方法，其特征在于，包括：

S1：获取样本文本及对应的标准语音音频，将样本文本转化为音素序列，标准音频转化为标准Mel频谱，将样本文本、音素序列以及样本文本对应的Mel频谱作为训练数据；

S4：利用训练好的端到端语音合成模型进行语音合成。

2.如权利要求1所述的语音合成方法，其特征在于，步骤S2中声学编码器包括音素特征声学编码器和句子特征声学编码器，

3.如权利要求2所述的语音合成方法，其特征在于，音素编码器为FastSpeech2音素编码器，文本情感特征提取模型为基于LSTM网络的模型，音素特征声学编码器为基于卷积层的声学编码器，句子特征声学编码器为基于卷积层的声学编码器。

4.如权利要求2所述的语音合成方法，其特征在于，音素级别声学特征的提取方式为：

P_t＝Aco_encoder₁(P_t-1,C_t',h_t),C_t'＝align(C_t,P)，

5.如权利要2所述的语音合成方法，其特征在于，句子级别声学特征的提取方式为：

U_t＝Aco_encoder₂(U_t-1,C_t)+h_t

U_t表示t时刻的句子级别特征，h_t表示t时刻的韵律隐特征，C_t为谱图Aco_encoder为句子级别声学编码器，U_t-1表示t-1时刻的句子级别特征。

6.如权利要1所述的语音合成方法，其特征在于，文本情感特征的提取过程包括：

i_t＝σ(W_iit_t+b_ii+W_hiH_t-1+b_hi)，

f_t＝σ(W_ift_t+b_if+W_hfH_t-1+b_hf)

g_t＝tanh(W_igt_t+b_ig+W_hfH_t-1+b_hf)

o_t＝σ(W_iot_t+b_io+W_hoH_t-1+b_ho)

c_t＝f_t*c_t-1+i_t*g_t

h'_t＝o_t tanh(c_t)

E_t＝dropout(h'_t)

其中，t_t为文本嵌入后向量，H_t-1为LSTM隐层向量,i_t为输入门，f_t为遗忘门，g_t为记忆单元用来备选更新内容，o_t为输出门，c_t为细胞更新，h'_t为经过LSTM网络的最后输出，E_t为h_t经过dropout后输出的文本情感特征，W_ii，W_hi为输入门和输入门隐藏层的权重，W_if，W_hf为遗忘门门和遗忘门隐藏层的权重，W_ig为记忆单元权重，W_io，W_ho为输出门和输出门隐藏层的权重，b_hi，b_hf，b_hf，b_ho为输入门、遗忘门、记忆单元、输出门的偏置参数，σ(·)为sigmoid()函数。

7.如权利要2所述的语音合成方法，其特征在于，将声学特征与文本情感特征的融合采用早融合Concat技术，将句子级别声学特征、音素级别声学特征以及文本情感特征进行连接后，输出融合后的特征T_t，融合后的特征输入到方差适配器中，与方差适配器提取的特征Vt进行特征增强和扩充，处理过程包括：

T_t＝concat(P_t,U_t,E_t)

λ＝Beta(α,β)

V_t'＝λ×T_t+(1-λ)×V_t+V_t

8.基于声学特征与文本情感特征融合的端到端语音合成系统，其特征在于，包括：

模型构建模块，用于构建端到端语音合成模型，端到端语音合成模型包括音素嵌入层、音素编码器、声学编码器、文本情感提取模型、方差适配器、Mel解码器以及声码器，其中，音素嵌入层用于根据音素序列获得音素的向量表示；音素编码器用于根据音素的向量获得文本的韵律隐特征；声学编码器用于根据音素与Mel频谱对齐后的谱图、韵律隐特征获得声学特征；文本情感提取模型用于从样本文本中提取文本情感特征；方差适配器用于将声学特征与文本情感特征的融合、方差适配器提取的特征进行特征增强与扩充；Mel解码器用于根据方差适配器输出实现并行解码，得到合成语音的Mel频谱，Mel解码器为FastSeech2的解码器；声码器用于将频谱图特征映射为声音波形，得到合成的语音；