CN110473516B

CN110473516B - 语音合成方法、装置以及电子设备

Info

Publication number: CN110473516B
Application number: CN201910888456.9A
Authority: CN
Inventors: 孙晨曦; 孙涛; 祝晓林; 王文富
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-11-27
Anticipated expiration: 2039-09-19
Also published as: JP2021047392A; JP6875572B2; CN110473516A; US11417314B2; US20210090550A1

Abstract

本申请公开了一种语音合成方法、装置以及电子设备，涉及语音合成领域。具体实现方案为：将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征；将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征；将当前时间步的谱特征输入至神经网络声码器中，输出语音。将自回归的声学模型和神经网络声码器结合，使得在节省硬件资源，加快语音合成速度的同时，提高合成语音的自然度和音质。

Description

语音合成方法、装置以及电子设备

技术领域

本申请涉及一种深度学习领域，尤其涉及一种语音合成领域。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术。是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。具体的，首先将文本转换为紧凑的音频表示，然后使用称为声码器的音频波形合成方法将这种表示转换为音频。例如，目前的智能设备在播放语音是需要对语音进行合成。然而，目前的语音设备合成声音时，声音无法自然流畅的过度，音质较差，语音合成速度较慢。

发明内容

本申请实施例提供一种语音合成方法、装置以及电子设备，以解决现有技术中的一个或多个技术问题。

第一方面，提供了一种语音合成方法，包括：

将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征；

将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征；

将当前时间步的谱特征输入至神经网络声码器中，输出语音。

在本实施方式中，将上一时间步的谱特征与当前时间步的文本特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征。声学模型通过引入自回归，在训练数据量较少的情况下也可以产生高还原度、高自然度的语音。将每次自回归后得到的当前时间步的谱特征输入至神经网络声码器中，得到合成后的语音。神经网络声码器可以在通用的设备上实现实时且高音质的声音，同时还能减少计算量，提供合成速度。将自回归的声学模型和神经网络声码器结合，使得在节省硬件资源，加快语音合成速度的同时，提高合成语音的自然度和音质。

在一种实施方式中，将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征，包括：

文本信息经过编码器中的至少一层全连接层和门控循环单元，输出当前时间步的文本特征。

在本实施方式中，文本信息经过至少一层全连接层和门控循环单元后，有效提取了上下文信息，使得合成语音的表达更加流畅。

在一种实施方式中，将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征，包括：

将上一时间步的拼接特征输入至译码器中的至少一个门控循环单元和全连接层，输出上一时间步的第一谱特征；

将上一时间步的第一谱特征输入至另一全连接层，得到上一时间步的第二谱特征；

将当前时间步的文本特征与上一时间步的第二谱特征拼接，得到当前时间步的拼接特征；

将当前时间步的拼接特征输入至声学模型的译码器中，得到当前时间步的第一谱特征。

在本实施方式中，可以将上一时间步的第一谱特征或上一时间步的第二谱特征，与当前时间步的文本特征拼接，输入至声学模型的译码器中，得到当前时间步的第一谱特征。译码器中形成自回归的谱特征，在训练数据量较少的情况下也可以产生高还原度、高自然度的语音。

在一种实施方式中，将当前时间步的谱特征输入至神经网络声码器中，输出语音，包括：

将当前时间步的第一谱特征输入至少一个卷积神经网络中，得到当前时间步的第二谱特征；

将当前时间步的第一谱特征或当前时间步的第二谱特征输入至神经网络声码器中，输出语音。

在本实施方式中，可以将第一谱特征经过两个卷积神经网络，得到第二谱特征，加强了第一谱特征的平滑度。通过卷积神经网络对谱特征进行平滑度的处理，得到的第二谱特征平滑度高于第一谱特征。

在一种实施方式中，还包括：

根据当前时间步的第一谱特征和真实谱特征计算第一损失；

根据当前时间步的第二谱特征和真实谱特征计算第二损失；

利用第一损失和第二损失作为梯度反向传播起点，训练声学模型。

在本实施方式中，由于在计算第一损失和第二损失时引入真实谱特征，使得利用第一损失和第二损失训练得到的声学模型生成的谱特征更接近真实谱特征，提高合成语音的还原度。

第二方面，提供了一种语音合成装置，包括：

文本特征提取模块，用于将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征；

特征回归模块，用于将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征；

语音合成模块，用于将当前时间步的谱特征输入至神经网络声码器中，输出语音。

在一种实施方式中，文本特征提取模块包括：

编码子模块，用于文本信息经过编码器中的至少一层全连接层和门控循环单元，输出当前时间步的文本特征。

在一种实施方式中，特征回归模块包括：

第一译码子模块，用于将上一时间步的拼接特征输入至译码器中的至少一个门控循环单元和全连接层，输出上一时间步的第一谱特征；

回归子模块，用于将上一时间步的第一谱特征输入至另一全连接层，得到上一时间步的第二谱特征；

拼接子模块，用于将当前时间步的文本特征与上一时间步的第二谱特征拼接，得到当前时间步的拼接特征；

第二译码子模块，用于将当前时间步的拼接特征输入至声学模型的译码器中，得到当前时间步的第一谱特征。

在一种实施方式中，还包括：语音合成模块包括：

平滑子模块模块，用于将当前时间步的第一谱特征输入至少一个卷积神经网络中，得到当前时间步的第二谱特征；

合成子模块，用于将当前时间步的第一谱特征或当前时间步的第二谱特征输入至神经网络声码器中，输出语音。

在一种实施方式中，还包括：

模型训练模块，用于根据第一谱特征和真实谱特征计算第一损失，根据当前时间步的第二谱特征和真实谱特征计算第二损失，利用第一损失和第二损失作为梯度反向传播起点，训练声学模型。

上述申请中的一个实施例具有如下优点或有益效果：因为采用声学模型的自回归的技术手段，所以克服了合成声音无法自然流畅的过度，音质较差，语音合成速度较慢技术问题，进而达到提高合成语音的还原度、自然度，同时还加快了语音合成速度的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例提供的一种语音合成方法流程示意图；

图2是根据本申请实施例提供的另一种语音合成方法流程示意图；

图3是可以实现本申请实施例的基于梅尔的循环神经网络场景图；

图4是可以实现本申请实施例的线性预测神经网络声码器场景图；

图5是根据本申请实施例提供的一种语音合成装置结构框图；

图6是根据本申请实施例提供的另一种语音合成装置结构框图；

图7是用来实现本申请实施例的一种语音合成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一…

在一种具体实施方式中，如图1所示，提供了一种语音合成方法，包括：

步骤S10：将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征；

步骤S20：将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征；

步骤S30：将当前时间步的谱特征输入至神经网络声码器中，输出语音。

在本实施方式中，声学模型可以选择自回归声学模型，例如，MELRNN(基于mel的自回归梅尔循环神经网络，Recurrent Neural Network)。神经网络声码器可以选择mel-LPCNet(线性预测神经网络声码器，Linear Prediction Network)。当然，也可以是其它类型的声学模型和神经网络声码器，根据实际需要进行适应性选择，均在本实施方式的保护范围内。自回归声学模型包括编码器(encoder)、译码器(decoder)以及设置于编码器和译码器之间的拼接模块。编码器用于将文本信息转换为时间序列相关的高维度的文本特征。译码器用于将高维度的文本特征转换为谱特征。谱特征本身具有时间序列特性。编码器输出的当前时间步的文本特征和译码器输出的上一时间步的谱特征经过拼接模块进行拼接，得到当前时间步的拼接特征。将当前时间步的拼接特征输入至译码器中，得到当前时间步的谱特征。以此循环，使得声学模型引入自回归，将上一个时刻的谱特征引入到循环神经网络(RNN)的时间推演过程中，弥补了循环神经网络的不足，使得循环神经网络在训练数据量较少的情况下也可以产生高还原度、高自然度的语音。

然后，将每次自回归后得到的当前时间步的谱特征输入至mel-LPCNet中，得到合成后的语音。神经网络声码器可以在通用的设备上实现实时且高音质的声音，同时还能减少计算量，提供合成速度。将自回归的声学模型和神经网络声码器结合，使得在节省硬件资源，加快语音合成速度的同时，提高合成语音的自然度和音质。

在一种实施方式中，如图2所示，步骤S10，包括：

步骤S101：文本信息经过编码器中的至少一层全连接层和门控循环单元，输出当前时间步的文本特征。

在一种实施方式中，如图2所示，步骤S20，包括：

步骤S201：将上一时间步的拼接特征输入至译码器中的至少一个门控循环单元和全连接层，输出上一时间步的第一谱特征；

步骤S202：将上一时间步的第一谱特征输入至另一全连接层，得到上一时间步的第二谱特征；

步骤S203：将当前时间步的文本特征与上一时间步的第二谱特征拼接，得到当前时间步的拼接特征；

步骤S204：将当前时间步的拼接特征输入至声学模型的译码器中，得到当前时间步的第一谱特征。

在一种实施方式中，如图2所示，步骤S30还包括：

步骤S301：将当前时间步的第一谱特征输入至少一个卷积神经网络中，得到当前时间步的第二谱特征；

步骤S302：将当前时间步的第一谱特征或当前时间步的第二谱特征输入至神经网络声码器中，输出语音。

在一种实施方式中，如图2所示，还包括：

步骤S40：根据当前时间步的第一谱特征和真实谱特征计算第一损失，当前时间步的第二谱真实谱特征计算第二损失；

步骤S50：利用第一损失和第二损失作为梯度反向传播起点，训练声学模型。

实施例二

在一种示例中，语音合成包括两个合成阶段：第一个阶段是在语音合成前端系统，将文字转换成富文本信息，第二个阶段是在语音合成后端系统，将富文本信息合成语音。在语音合成后端系统中可以提供一种用于将文本信息转换为谱特征的声学模型。本实施方式中，首先，如图3所示，可以提供基于mel的自回归循环神经网络(MELRNN)作为声学模型。前端系统给出的富文本信息经过提取五音素，可以扩展成如615维的高维度的文本信息。可以将高维度的文本信息输入至编码器，经过第一全连接层、第二全连接层和第一门控循环单元(GRU，Gated Recurrent Unit)，得到时序相关的高维度的文本特征。编码器输出的当前时间步的文本特征，与上一个时间步的梅尔(mel)特征进行拼接，得到当前时间步的拼接特征。通过这个步骤，将上一个时间步的梅尔(mel)特征引入到MELRNN的时间递进过程。然后，当前时间步的拼接特征输入至译码器中，经过第二门控循环单元、第三门控循环单元以及第四全连接层之后，输出当前时间步的梅尔(mel)特征，如图3所示的谱特征mel1。可以再将mel1经过一层全连接层之后得到的结果mel2，与下一时间步的文本特征进行拼接，得到下一时间步的拼接特征。通过这个步骤，将当前时间的梅尔(mel)特征引入到基于梅尔的循环神经网络的时间递进过程中。以此类推，得到多个时间步的梅尔(mel)特征。mel1后面接两层卷积神经网络(CNN，Convolutional Neural Networks)得到mel3，使得mel特征更加平滑。

然后，可以将基于梅尔(mel)自回归的声学模型每次输出的每个时间步的梅尔(mel)特征输入至mel-LPCNet，例如，将mel1或mel3输入至mel-LPCNet，将梅尔(mel)特征转换成语音。如图4所示，mel-LPCNet包括帧级网络、采样点级网络以及位于两网络之间的线性预测编码器和预测计算器。其中，将mel1或mel3输入至mel-LPCNet中，输出语音的步骤包括：将mel1或mel3输入至帧级网络中，提取时序相关的mel4。将mel1或mel3输入至线性预测编码器(computer LPC)中，输出加权系数向量。将加权系数向量和由采样点级网络输出的线性采样点，输入至预测计算器中进行线性操作，得到预测采样点。将预测采样点和mel4输入至采样点级网络中，输出线性采样点，语音包括线性采样点。其中，将预测采样点和mel4输入至采样点级网络中，输出线性采样点的步骤包括：将预测采样点、线性采样点、用于偏差纠正的第一补偿采样点以及mel4，经过拼接模块、至少一个门控循环单元，如第五门控循环单元和第六门控循环单元、第七全连接层、损失函数层以及采样层，得到第二补偿采样点。将预测采样点与第二补偿采样点相加，得到线性采样点。

需要指出的是，可以从音频文件中提取真实的mel谱特征。将真实谱特征输入至mel-LPCNet，经过计算得到线性采样点。也可以将MELRNN输出的预测谱特征，输入至mel-LPCNet。即将使用上一时刻的输出作为下一时刻的输入的方法得到的mel，作为mel-LPCNet训练的输入特征。预测谱特征作为训练样本，训练得到的声学模型的准确性，同时提高音质。将LPCNet看成一个独立的声码器，与其他声码器相比，本身网络结构简单，mel-LPCNet把一部分学习任务通过先验知识转化为低计算量的数学运算，再加上稀疏化，性价比非常高。另外，由于所提出的MELRNN和mel-LPCNet的节点数比较少，量化之后的模型大小分别可以是18M和2.3M左右。具有计算量小、功耗低的特点，也可以使用在嵌入式系统中。

实施例三

在另一种具体实施方式中，如图5所示，提供了一种语音合成装置100，包括：

文本特征提取模块101，用于将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征；

特征回归模块102，用于将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征；

语音合成模块103，用于将当前时间步的谱特征输入至神经网络声码器中，输出语音。

在一种实施方式中，如图6所示，提供了一种语音合成装置200，文本特征提取模块101包括：

编码子模块1011，用于文本信息经过编码器中的至少一层全连接层和门控循环单元，输出当前时间步的文本特征。

在一种实施方式中，如图6所示，特征回归模块102包括：

第一译码子模块1021，用于将上一时间步的拼接特征输入至译码器中的至少一个门控循环单元和全连接层，输出上一时间步的第一谱特征；

回归子模块1022，用于将上一时间步的第一谱特征输入至另一全连接层，得到上一时间步的第二谱特征；

拼接子模块1023，用于将当前时间步的文本特征与上一时间步的第二谱特征拼接，得到当前时间步的拼接特征；

第二译码子模块1024，用于将当前时间步的拼接特征输入至声学模型的译码器中，得到当前时间步的第一谱特征。

在一种实施方式中，如图6所示，语音合成模块103包括：

平滑子模块1031，用于将当前时间步的第一谱特征输入至少一个卷积神经网络中，得到当前时间步的第二谱特征；

合成子模块1032，用于将当前时间步的第一谱特征或当前时间步的第二谱特征输入至神经网络声码器中，输出语音。

在一种实施方式中，如图6所示，还包括：

模型训练模块104，用于根据当前时间步的第一谱特征和真实谱特征计算第一损失；根据当前时间步的第二谱特征和真实谱特征计算第二损失；利用第一损失和第二损失作为梯度反向传播起点，训练声学模型。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是根据本申请实施例的一种语音合成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的一种语音合成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的一种语音合成方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的一种语音合成方法对应的程序指令/模块(例如，附图5所示的文本特征提取模块101、特征回归模块102和语音合成模块103)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的一种语音合成方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据一种语音合成方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至一种语音合成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一种语音合成方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与一种语音合成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Cr7stal Displa7，LCD)、发光二极管(Light EmittingDiode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，声学模型引入自回归，将上一个时刻的谱特征显示地引入到声学模型的时间推演过程中，使得声学模型在训练数据量较少的情况下也可以产生高还原度、自然度的语音，同时还加快了语音合成速度。将得到的上一时间步的谱特征或当前时间步的谱特征等各个时间步的谱特征输入至神经网络声码器中，得到合成后的语音。神经网络声码器可以在通用的设备上实现实时且高音质的声音。将二者结合，使得在节省硬件资源，加快语音合成速度的同时，提高合成语音的自然度和音质。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

将所述当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至所述声学模型的译码器中，得到当前时间步的谱特征；

将所述当前时间步的谱特征输入至神经网络声码器中，输出语音，

其中，将所述当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至所述声学模型的译码器中，得到当前时间步的谱特征，包括：

将上一时间步的拼接特征输入至所述译码器中的至少一个门控循环单元和全连接层，输出所述上一时间步的第一谱特征；

将所述上一时间步的第一谱特征输入至另一全连接层，得到上一时间步的第二谱特征；

将所述当前时间步的文本特征与所述上一时间步的第二谱特征拼接，得到当前时间步的拼接特征；

将所述当前时间步的拼接特征输入至所述声学模型的译码器中，得到当前时间步的第一谱特征。

2.根据权利要求1所述的方法，其特征在于，将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征，包括：

所述文本信息经过所述编码器中的至少一层全连接层和门控循环单元，输出所述当前时间步的文本特征。

3.根据权利要求1所述的方法，其特征在于，将所述当前时间步的谱特征输入至神经网络声码器中，输出语音，包括：

将所述当前时间步的第一谱特征输入至少一个卷积神经网络中，得到当前时间步的第二谱特征；

将所述当前时间步的第一谱特征或所述当前时间步的第二谱特征输入至所述神经网络声码器中，输出所述语音。

4.根据权利要求3所述的方法，其特征在于，还包括：

根据所述当前时间步的第一谱特征和真实谱特征计算第一损失；

根据所述当前时间步的第二谱特征和所述真实谱特征计算第二损失；

利用所述第一损失和所述第二损失作为梯度反向传播起点，训练所述声学模型。

5.一种语音合成装置，其特征在于，包括：

特征回归模块，用于将所述当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至所述声学模型的译码器中，得到当前时间步的谱特征；

语音合成模块，用于将所述当前时间步的谱特征输入至神经网络声码器中，输出语音，

其中，所述特征回归模块包括：

第一译码子模块，用于将上一时间步的拼接特征输入至所述译码器中的至少一个门控循环单元和全连接层，输出上一时间步的第一谱特征；

回归子模块，用于将所述上一时间步的第一谱特征输入至另一全连接层，得到上一时间步的第二谱特征；

拼接子模块，用于将所述当前时间步的文本特征与所述上一时间步的第二谱特征拼接，得到当前时间步的拼接特征；

第二译码子模块，用于将所述当前时间步的拼接特征输入至所述声学模型的译码器中，得到当前时间步的第一谱特征。

6.根据权利要求5所述的装置，其特征在于，所述文本特征提取模块包括：

编码子模块，用于所述文本信息经过所述编码器中的至少一层全连接层和门控循环单元，输出所述当前时间步的文本特征。

7.根据权利要求5所述的装置，其特征在于，所述语音合成模块包括：

平滑子模块，用于将所述当前时间步的第一谱特征输入至少一个卷积神经网络中，得到当前时间步的第二谱特征；

合成子模块，用于将所述当前时间步的第一谱特征或所述当前时间步的第二谱特征输入至所述神经网络声码器中，输出所述语音。

8.根据权利要求7所述的装置，其特征在于，还包括：

模型训练模块，用于根据所述当前时间步的第一谱特征和真实谱特征计算第一损失；根据所述当前时间步的第二谱特征和所述真实谱特征计算第二损失；利用所述第一损失和所述第二损失作为梯度反向传播起点，训练所述声学模型。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。