CN113257220A

CN113257220A - 语音合成模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN113257220A
Application number: CN202110715497.5A
Authority: CN
Inventors: 汪光璟; 李成飞; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-08-13
Anticipated expiration: 2041-06-28
Also published as: CN113257220B

Abstract

本申请提出语音合成模型的训练方法、装置、电子设备及存储介质，其中方法包括：将训练文本、参考音频及参考音频对应的参考文本输入初始语音合成模型，其中，参考音频以逐帧的方式输入初始语音合成模型；并将训练文本对应的训练音频以逐帧的方式输入初始语音合成模型中的编码器；将编码器输出的各个音频帧的预测值组合，得到训练文本的梅尔频谱；将梅尔频谱输入声码器，得到训练文本对应的预测音频；将预测音频与训练音频进行比较，根据比较结果优化初始语音合成模型中的参数，得到训练完成的语音合成模型。本申请实施例可以满足用户自主选择合成语音情感风格的需求，使该模型在合成的目标音频时，能够模仿参考音频的情感特征，输出具有参考音频情感特征的合成音频。

Description

语音合成模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及语音合成技术领域，尤其涉及语音合成模型的训练方法、装置、电子设备及存储介质。

背景技术

现有的语音合成技术在合成音频的音质以及清晰度上已经能够达到很好的效果，然而合成语音相对于人类真实语音，在情感表达上仍然存在一定不足，对于有明显情感倾向的合成文本，其合成音频并不能够表达出足够的情感倾向，因此现有技术存在以下缺点：

（1）合成语音的语音情感平淡，表现力欠佳；（2）使用特定情感数据训练的合成模型，可以合成具有特定情感风格的音频，但是无法自主选择情感风格，无法由用户自己选择和定义。

发明内容

本申请实施例提供一种语音合成模型的训练方法、装置、电子设备及存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种语音合成模型的训练方法，包括：

将训练文本、参考音频及参考音频对应的参考文本输入初始语音合成模型，其中，参考音频以逐帧的方式输入初始语音合成模型；并将训练文本对应的训练音频以逐帧的方式输入初始语音合成模型中的编码器；

将编码器输出的各个音频帧的预测值进行组合，得到训练文本的梅尔频谱；

将训练文本的梅尔频谱输入声码器，得到训练文本对应的预测音频；

将预测音频与训练音频进行比较，根据比较结果优化初始语音合成模型中的参数，得到训练完成的语音合成模型。

在一种实施方式中，上述语音合成模型包括编码器网络、注意力层网络和解码器；其中，

编码器网络被配置为接收参考音频的音频帧、参考文本和训练文本，提取参考音频的音频帧的第一情感标记、参考文本的第二情感标记和训练文本的特征向量，并将第一情感标记、第二情感标记和特征向量输入注意力层网络；

注意力层网络被配置为利用第一情感标记、第二情感标记、特征向量和训练音频的上一个实际音频帧输入解码器得到的上一个中间状态，确定当前解码步上的上下文向量，并将上下文向量输入解码器；

解码器被配置为根据上下文向量及训练音频的上一个实际音频帧，得到训练音频的当前音频帧的预测值以及当前中间状态，并将当前中间状态输入注意力层网络。

在一种实施方式中，上述编码器网络包括文本编码器、参考音频情感编码器和参考文本情感编码器；其中，

文本编码器被配置为接收训练文本，提取训练文本的多个特征向量，并将训练文本的多个特征向量输入注意力层网络；

参考音频情感编码器被配置为接收参考音频的音频帧，提取参考音频的音频帧的多个第一情感标记，并将第一情感标记输入注意力层网络；

参考文本情感编码器被配置为接收参考文本，提取参考文本的多个第二情感标记，并将第二情感标记输入注意力层网络。

在一种实施方式中，上述注意力层网络包括文本注意力层、参考音频情感注意力层、参考文本情感注意力层及拼接模块；其中，

文本注意力层被配置为接收训练文本的多个特征向量，还接收训练音频的上一个实际音频帧输入解码器所得到的上一个中间状态；对特征向量和上一个中间状态进行运算，得到当前解码步上的训练文本上下文向量；

参考音频情感注意力层被配置为接收多个第一情感标记，还接收训练音频的上一个实际音频帧输入解码器所得到的上一个中间状态；对第一情感标记和上一个中间状态进行运算，得到当前解码步上的参考音频情感上下文向量；

参考文本情感注意力层被配置为接收多个第二情感标记，还接收训练音频的上一个实际音频帧输入解码器所得到的上一个中间状态；对第二情感标记和上一个中间状态进行运算，得到当前解码步上的参考文本情感上下文向量；

拼接模块被配置为将训练文本上下文向量、参考音频情感上下文向量及参考文本情感上下文向量进行加权拼接，得到当前解码步上的上下文向量，并将当前解码步上的上下文向量输入解码器。

在一种实施方式中，上述文本注意力层被配置为采用自注意力机制对特征向量和上一个中间状态进行运算，运算包括：

计算各个特征向量与上一个中间状态的关联度；

计算各个特征向量与对应的关联度的乘积；

将各个特征向量对应的乘积相加，得到当前解码步上的训练文本上下文向量。

在一种实施方式中，上述参考音频情感注意力层被配置为采用基于上下文的循环注意力机制，对第一情感标记和上一个中间状态进行运算，运算包括：

计算各个第一情感标记与上一个中间状态的关联度；

计算各个第一情感标记与对应的关联度的乘积；

将各个第一情感标记对应的乘积相加，得到当前解码步上的参考音频情感上下文向量。

在一种实施方式中，上述参考文本情感注意力层被配置为采用自注意力机制，对第二情感标记和上一个中间状态进行运算，运算包括：

计算各个第二情感标记与上一个中间状态的关联度；

计算各个第二情感标记与对应的关联度的乘积；

将各个第二情感标记对应的乘积相加，得到当前解码步上的参考文本情感上下文向量。

第二方面，本申请实施例提供了一种语音合成方法，包括：

将待合成文本、参考音频及参考音频对应的参考文本输入预先训练的语音合成模型，其中，参考音频以逐帧的方式输入语音合成模型；

将语音合成模型输出的各个音频帧进行组合，得到待合成文本的梅尔频谱；

将梅尔频谱输入声码器，得到待合成文本对应的合成音频；

其中，语音合成模型采用权利要求上述任一的训练方法训练得到。

在一种实施方式中，上述语音合成模型中的解码器被配置为从注意力层网络接收当前解码步上的上下文向量、还接收解码器在上一个解码步上输出的音频帧；根据当前解码步上的上下文向量和解码器在上一个解码步上输出的音频帧，得到当前解码步上的音频帧和中间状态；并将中间状态输入注意力层网络，用于供注意力层网络确定下一个解码步上的上下文向量；还将当前解码步上的音频帧输入解码器，用于供解码器确定在下一个解码步上的音频帧和中间状态。

第三方面，本申请实施例提供了一种语音合成模型的训练装置，包括：

第一输入模块，用于将训练文本、参考音频及参考音频对应的参考文本输入初始语音合成模型，其中，参考音频以逐帧的方式输入初始语音合成模型；并将训练文本对应的训练音频以逐帧的方式输入初始语音合成模型中的编码器；

第一组合模块，用于将编码器输出的各个音频帧的预测值进行组合，得到训练文本的梅尔频谱；

第二输入模块，用于将训练文本的梅尔频谱输入声码器，得到训练文本对应的预测音频；

优化模块，用于将预测音频与训练音频进行比较，根据比较结果优化初始语音合成模型中的参数，得到训练完成的语音合成模型。

计算各个特征向量与上一个中间状态的关联度；

计算各个特征向量与对应的关联度的乘积；

计算各个第一情感标记与上一个中间状态的关联度；

计算各个第一情感标记与对应的关联度的乘积；

计算各个第二情感标记与上一个中间状态的关联度；

计算各个第二情感标记与对应的关联度的乘积；

第四方面，本申请实施例提供了一种语音合成装置，包括：

第三输入模块，用于将待合成文本、参考音频及参考音频对应的参考文本输入预先训练的语音合成模型，其中，参考音频以逐帧的方式输入语音合成模型；

第二组合模块，用于将语音合成模型输出的各个音频帧进行组合，得到待合成文本的梅尔频谱；

第四输入模块，用于将梅尔频谱输入声码器，得到待合成文本对应的合成音频。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：本申请实施例提供了一种克服上述问题或者至少部分解决上述问题的语音合成模型的训练方法，使用训练文本、参考音频和参考音频对应的参考文本训练语音合成模型，使该模型在合成的目标音频时，能够模仿参考音频的情感特征，从而输出具有参考音频情感特征的合成音频。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为本申请实施例提出的一种语音合成模型的训练方法的实现流程示意图；

图2为本申请实施例提出的一种语音合成模型的架构、以及模型训练过程的输入和输出信息的示意图；

图3为本申请实施例提出的一种语音合成方法的实现流程示意图；

图4为本申请实施例提出的一种语音合成模型的架构、以及模型应用过程的输入和输出信息的示意图；

图5为本申请实施例提出的一种语音合成模型的训练装置的结构示意图；

图6为本申请实施例提出的一种语音合成装置的结构示意图；

图7为本申请实施例的一种电子设备结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本申请实施例提出一种语音合成模型的训练方法。图1为本申请实施例提出的一种语音合成模型的训练方法的实现流程示意图，包括以下步骤：

S101：将训练文本、参考音频及该参考音频对应的参考文本输入初始语音合成模型，其中，参考音频以逐帧的方式输入初始语音合成模型；并将该训练文本对应的训练音频以逐帧的方式输入初始语音合成模型中的编码器；

S102：将编码器输出的各个音频帧的预测值进行组合，得到训练文本的梅尔频谱；

S103：将该训练文本的梅尔频谱输入声码器，得到训练文本对应的预测音频；

S104：将预测音频与训练音频进行比较，根据比较结果优化初始语音合成模型中的参数，得到训练完成的语音合成模型。

图2为本申请实施例提出的一种语音合成模型的架构、以及模型训练过程的输入和输出信息的示意图。如图2所示，在一些实施方式中，本申请的语音合成模型包括编码器网络210、注意力层网络220和解码器230；其中，

编码器网络210被配置为接收参考音频的音频帧、参考文本和训练文本，提取参考音频的音频帧的第一情感标记、参考文本的第二情感标记和训练文本的特征向量，并将前述第一情感标记、第二情感标记和特征向量输入注意力层网络220；

注意力层网络220被配置为利用前述第一情感标记、第二情感标记、特征向量和以及训练音频的上一个实际音频帧输入解码器230得到的上一个中间状态，确定当前解码步上的上下文向量，并将该上下文向量输入解码器230；

解码器230被配置为根据前述上下文向量及训练音频的上一个实际音频帧，得到训练音频的当前音频帧的预测值以及当前中间状态，并将当前中间状态输入注意力层网络220。

本申请提出的语音合成模型可以采用循环神经网络（RNN，Recurrent NeuralNetwork）模型。

在解码器230输出当前解码步的音频帧的预测值及当前中间状态后，注意力层网络220利用解码器输入的当前解码步的当前中间状态，并结合编码器网络210输入的针对下一个音频帧的第一情感标记、参考文本的第二情感标记和训练文本的特征向量，可以得到下一个解码步上的上下文向量，并将该下一个解码步上的上下文向量输入解码器230。解码器230根据该下一个解码步上的上下文向量及训练音频的当前一个实际音频帧，得到训练音频的下一个音频帧的预测值以及下一个中间状态，并将该下一个中间状态输入注意力层网络220。如此循环，直至输出所有音频帧的预测值。

可选地，编码器网络210包括文本编码器、参考音频情感编码器和参考文本情感编码器；其中，

文本编码器被配置为接收训练文本，提取训练文本的多个特征向量，并将训练文本的多个特征向量输入注意力层网络220；

参考音频情感编码器被配置为接收参考音频的音频帧，提取参考音频的音频帧的多个第一情感标记，并将第一情感标记输入注意力层网络220；

参考文本情感编码器被配置为接收参考文本，提取参考文本的多个第二情感标记，并将第二情感标记输入注意力层网络220。

可选地，注意力层网络220包括文本注意力层、参考音频情感注意力层、参考文本情感注意力层及拼接模块；其中，

文本注意力层被配置为接收训练文本的多个特征向量，还接收训练音频的上一个实际音频帧输入解码器230所得到的上一个中间状态；对该特征向量和上一个中间状态进行运算，得到当前解码步上的训练文本上下文向量；

参考音频情感注意力层被配置为接收前述多个第一情感标记，还接收训练音频的上一个实际音频帧输入解码器230所得到的上一个中间状态；对该第一情感标记和上一个中间状态进行运算，得到当前解码步上的参考音频情感上下文向量；

参考文本情感注意力层被配置为接收前述多个第二情感标记，还接收训练音频的上一个实际音频帧输入解码器230所得到的上一个中间状态；对该第二情感标记和上一个中间状态进行运算，得到当前解码步上的参考文本情感上下文向量；

拼接模块被配置为将训练文本上下文向量、参考音频情感上下文向量及参考文本情感上下文向量进行加权拼接，得到当前解码步上的上下文向量，并将当前解码步上的上下文向量输入解码器230。

以下分别介绍语音合成模型中的编码器网络210和注意力层网络220对参考音频、参考音频对应的参考文本、以及训练文本进行处理的过程。

（1）对参考音频的处理：

将参考音频以每一帧的形式输入参考音频情感编码器，参考音频情感编码器确定参考音频的当前音频帧的情感嵌入码（emotion embedding），并将该情感嵌入码输入参考音频情感注意力层。该情感嵌入码由P个情感标记（emotion token）组成（如记为第一情感标记），即为

，每一个第一情感标记都由一个向量表示。

在训练开始时，将参考音频情感编码器中的参数进行随机初始化。训练过程中，训练音频的每一帧输入语音合成模型的解码器，并被解码成中间状态

后，作为一个序列（query）输入参考音频情感注意力层。

参考音频情感注意力层可以采用基于上下文的循环注意力机制，对第一情感标记和上一个中间状态进行运算，该运算包括：

计算各个第一情感标记与该上一个中间状态的关联度；

计算各个第一情感标记与对应的关联度的乘积；

例如，接上例，参考音频情感注意力层利用参考音频的情感嵌入码（也就是P个第一情感标记）、以及解码器输入的中间状态

，采用基于上下文的循环注意力机制（content-based RNN attention）进行运算，具体过程包括：

首先计算得到对齐（alignment），解码器在每一个时间步t时刻，得到当前时刻的中间状态

序列，参考音频情感注意力层利用以下式子（1）计算情感嵌入码中的每一个第一情感标记与语音合成解码器编码得到的中间状态

序列的关联度：

……（1）

其中，

、

和

为参考音频情感注意力层中待学习的权重参数；

是语音合成模型解码器在当前解码步（step）上的中间状态序列（query）；

是每一个第一情感标记；

表示当前第一情感标记

与当前时刻中间状态

的关联度。

之后，采用以下式子（2）计算第一情感标记与对应关联度的乘积并求和：

……（2）

其中，

为在当前解码步上获得的参考音频情感上下文向量（referencecontext vector）。

（2）对参考文本的处理：

将参考音频对应的参考文本输入参考文本情感编码器（reference text emotionencoder）中，参考文本情感编码器确定参考文本的情感嵌入码，并将该情感嵌入码输入参考文本注意力层。该情感嵌入码由Q个第情感标记构成（如记为第二情感标记），即为

，每一个第二情感标记都由一个向量表示。

在训练开始时，将参考文本情感编码器中的参数进行随机初始化。训练过程中，训练音频的每一帧输入语音合成模型的解码器，并被解码成中间状态

后，作为一个序列（query）输入参考文本情感注意力层。

参考文本情感注意力层可以采用自注意力机制，对第二情感标记和上一个中间状态进行运算，该运算包括：

计算各个第二情感标记与上一个中间状态的关联度；

计算各个第二情感标记与对应的关联度的乘积；

例如，接上例，参考文本情感注意力层利用参考文本的情感嵌入码（也就是Q个第二情感标记）、以及解码器输入的中间状态

，采用自注意力机制（self- attention）进行运算，具体过程包括：

序列，参考文本情感注意力层利用以下式子（3）计算情感嵌入码中的每一个第二情感标记与语音合成解码器编码得到的中间状态

序列的关联度：

其中，

为参考文本注意力层中的待学习权重参数所组成的矩阵的维数，是为了防止softmax函数的梯度落入过小的区域；

和

为参考文本注意力层中待学习权重参数；

是参考文本的每一个第二情感标记；

表示当前第二情感标记

与当前时刻中间状态

的关联度。

之后，采用以下式子（4）计算第二情感标记与对应关联度的乘积并求和：

……（4）

其中，

即为在当前解码步上获得的参考文本情感上下文向量（referencetext context vector）。

（3）对训练文本的处理：

将训练文本输入文本编码器（text encoder）中，文本编码器确定训练文本的情感嵌入码，并将该情感嵌入码输入文本注意力层。该情感嵌入码由M个特征向量构成，即为

。

在训练开始时，将文本编码器中的参数进行随机初始化。训练过程中，训练音频的每一帧输入语音合成模型的解码器，并被解码成中间状态

后，作为一个序列（query）输入文本注意力层。

文本注意力层可以采用自注意力机制对上述特征向量和上一个中间状态进行运算，该运算包括：

计算各个特征向量与上一个中间状态的关联度；

计算各个特征向量与对应的关联度的乘积；

例如，接上例，文本注意力层利用训练文本的情感嵌入码（也就是M个特征向量）、以及解码器输入的中间状态

序列，文本注意力层利用以下式子（5）计算情感嵌入码中的每一个特征向量与语音合成解码器编码得到的中间状态

序列的关联度：

……（5）

其中，

为文本注意力层中的待学习权重参数所组成的矩阵的维数，是为了防止softmax函数的梯度落入过小的区域；

和

为文本注意力层的待学习权重参数；

是训练文本的每一个特征向量；

表示训练文本嵌入码中的每一个特征向量与当前时刻中间状态

的关联度。

之后，采用以下式子（6）计算特征向量与对应关联度的乘积并求和：

……（6）

其中，

即为在当前解码步上获得的训练文本上下文向量（text contextvector）。

可选地，本申请可以采用以下式子（7）对上述3个求得的上下文向量进行加权拼接（weighted concat），得到当前解码步上的上下文向量。

……（7）

其中，

、

分别是参考音频情感上下文向量对应的权重和参考文本情感上下文向量对应的权重；

为当前解码步上的上下文向量。

最后，在每一个解码步上将

输入语音合成模型的解码器230，得到该解码步的输出，直到解码完成。模型训练完成后，就可以通过参考音频情感编码器、参考文本情感编码器，从语音和文本两个维度充分捕捉到参考音频说话人语音的情感风格。

利用训练完成的语音合成模型，本申请实施例还提出一种语音合成方法，图3为本申请实施例提出的一种语音合成方法的实现流程示意图，包括以下步骤：

S301：将待合成文本、参考音频及参考音频对应的参考文本输入预先训练的语音合成模型，其中，参考音频以逐帧的方式输入语音合成模型；其中，该语音合成模型可以采用上述的训练方法训练得到；

S302：将语音合成模型输出的各个音频帧进行组合，得到待合成文本的梅尔频谱；

S301：将该梅尔频谱输入声码器，得到待合成文本对应的合成音频。

图4为本申请实施例提出的一种语音合成模型的架构、以及模型应用过程的输入和输出信息的示意图。如图4所示，在一些实施方式中，本申请的语音合成模型包括编码器网络210、注意力层网络220和解码器230；其中，

解码器230被配置为从注意力层网络220接收当前解码步上的上下文向量、还接收解码器230在上一个解码步上输出的音频帧；根据当前解码步上的上下文向量和解码器230在上一个解码步上输出的音频帧，得到当前解码步上的音频帧和中间状态；并将该中间状态输入注意力层网络220，用于供注意力层网络220确定下一个解码步上的上下文向量；还将当前解码步上的音频帧输入解码器230，用于供解码器230确定在下一个解码步上的音频帧和中间状态。

解码完成后，将每个解码步上的输出内容进行组合，得到待合成文本的梅尔频谱；再将待合成文本的梅尔频谱输入声码器，得到待合成文本对应的合成音频。合成音频可以充分利用音频特征以及文本特征，强化个性化语音合成模型对参考音频情感特征的模仿效果。

本申请提出的语音合成方法在输入待合成文本的同时，输入具有任意情感特征的参考音频及其对应文本，可以捕捉到参考音频中的情感特征（喜怒哀乐），使得合成音频具有与参考音频一致的情感特征。此外，本申请实施例使用了多个情感标记来表征情感特征，提高了对情感特征的建模和提取能力。

本申请还提出一种语音合成模型的训练装置，图5为本申请实施例提出的一种语音合成模型的训练装置的结构示意图，包括：

第一输入模块510，用于将训练文本、参考音频及参考音频对应的参考文本输入初始语音合成模型，其中，参考音频以逐帧的方式输入初始语音合成模型；并将训练文本对应的训练音频以逐帧的方式输入初始语音合成模型中的编码器；

第一组合模块520，用于将编码器输出的各个音频帧的预测值进行组合，得到训练文本的梅尔频谱；

第二输入模块530，用于将训练文本的梅尔频谱输入声码器，得到训练文本对应的预测音频；

优化模块540，用于将预测音频与训练音频进行比较，根据比较结果优化初始语音合成模型中的参数，得到训练完成的语音合成模型。

可选地，上述语音合成模型包括编码器网络、注意力层网络和解码器；其中，

可选地，上述编码器网络包括文本编码器、参考音频情感编码器和参考文本情感编码器；其中，

可选地，上述注意力层网络包括文本注意力层、参考音频情感注意力层、参考文本情感注意力层及拼接模块；其中，

可选地，上述文本注意力层被配置为采用自注意力机制对特征向量和上一个中间状态进行运算，运算包括：

计算各个特征向量与上一个中间状态的关联度；

计算各个特征向量与对应的关联度的乘积；

可选地，上述参考音频情感注意力层被配置为采用基于上下文的循环注意力机制，对第一情感标记和上一个中间状态进行运算，运算包括：

计算各个第一情感标记与上一个中间状态的关联度；

计算各个第一情感标记与对应的关联度的乘积；

可选地，上述参考文本情感注意力层被配置为采用自注意力机制，对第二情感标记和上一个中间状态进行运算，运算包括：

计算各个第二情感标记与上一个中间状态的关联度；

计算各个第二情感标记与对应的关联度的乘积；

本申请还提出一种语音合成装置，图6为本申请实施例提出的一种语音合成装置的结构示意图，包括：

第三输入模块610，用于将待合成文本、参考音频及参考音频对应的参考文本输入预先训练的语音合成模型，其中，参考音频以逐帧的方式输入语音合成模型；

第二组合模块620，用于将语音合成模型输出的各个音频帧进行组合，得到待合成文本的梅尔频谱；

第四输入模块630，用于将梅尔频谱输入声码器，得到待合成文本对应的合成音频。

可选地，上述语音合成模型中的解码器被配置为从注意力层网络接收当前解码步上的上下文向量、还接收解码器在上一个解码步上输出的音频帧；根据当前解码步上的上下文向量和解码器在上一个解码步上输出的音频帧，得到当前解码步上的音频帧和中间状态；并将中间状态输入注意力层网络，用于供注意力层网络确定下一个解码步上的上下文向量；还将当前解码步上的音频帧输入解码器，用于供解码器确定在下一个解码步上的音频帧和中间状态。

图7为本申请实施例的一种电子设备结构示意图，包括：存储器710和处理器720，存储器710内存储有可在处理器720上运行的计算机程序。处理器720执行该计算机程序时实现上述实施例中的语音合成模型的训练方法或语音合成方法。存储器710和处理器720的数量可以为一个或多个。

该电子设备还包括：

通信接口730，用于与外界设备进行通信，进行数据交互传输。

如果存储器710、处理器720和通信接口730独立实现，则存储器710、处理器720和通信接口730可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponentInterconnect，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器710、处理器720及通信接口730集成在一块芯片上，则存储器710、处理器720及通信接口730可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory ，DRAM) 、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成模型的训练方法，其特征在于：

将训练文本、参考音频及所述参考音频对应的参考文本输入初始语音合成模型，其中，所述参考音频以逐帧的方式输入所述初始语音合成模型；并将所述训练文本对应的训练音频以逐帧的方式输入所述初始语音合成模型中的编码器；

将所述编码器输出的各个音频帧的预测值进行组合，得到所述训练文本的梅尔频谱；

将所述训练文本的梅尔频谱输入声码器，得到所述训练文本对应的预测音频；

将所述预测音频与所述训练音频进行比较，根据比较结果优化所述初始语音合成模型中的参数，得到训练完成的语音合成模型。

2.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括编码器网络、注意力层网络和解码器；其中，

所述编码器网络被配置为接收所述参考音频的音频帧、所述参考文本和所述训练文本，提取所述参考音频的音频帧的第一情感标记、所述参考文本的第二情感标记和所述训练文本的特征向量，并将所述第一情感标记、第二情感标记和所述特征向量输入所述注意力层网络；

所述注意力层网络被配置为利用所述第一情感标记、第二情感标记、所述特征向量和所述训练音频的上一个实际音频帧输入所述解码器得到的上一个中间状态，确定当前解码步上的上下文向量，并将所述上下文向量输入所述解码器；

所述解码器被配置为根据所述上下文向量及所述训练音频的上一个实际音频帧，得到所述训练音频的当前音频帧的预测值以及当前中间状态，并将所述当前中间状态输入所述注意力层网络。

3.根据权利要求2所述的方法，其特征在于，所述编码器网络包括文本编码器、参考音频情感编码器和参考文本情感编码器；其中，

所述文本编码器被配置为接收所述训练文本，提取所述训练文本的多个特征向量，并将所述训练文本的多个特征向量输入所述注意力层网络；

所述参考音频情感编码器被配置为接收所述参考音频的音频帧，提取所述参考音频的音频帧的多个第一情感标记，并将所述第一情感标记输入所述注意力层网络；

所述参考文本情感编码器被配置为接收所述参考文本，提取所述参考文本的多个第二情感标记，并将所述第二情感标记输入所述注意力层网络。

4.根据权利要求2或3所述的方法，其特征在于，所述注意力层网络包括文本注意力层、参考音频情感注意力层、参考文本情感注意力层及拼接模块；其中，

所述文本注意力层被配置为接收所述训练文本的多个特征向量，还接收所述训练音频的上一个实际音频帧输入所述解码器所得到的上一个中间状态；对所述特征向量和所述上一个中间状态进行运算，得到当前解码步上的训练文本上下文向量；

所述参考音频情感注意力层被配置为接收所述多个第一情感标记，还接收所述训练音频的上一个实际音频帧输入所述解码器所得到的上一个中间状态；对所述第一情感标记和所述上一个中间状态进行运算，得到当前解码步上的参考音频情感上下文向量；

所述参考文本情感注意力层被配置为接收所述多个第二情感标记，还接收所述训练音频的上一个实际音频帧输入所述解码器所得到的上一个中间状态；对所述第二情感标记和所述上一个中间状态进行运算，得到当前解码步上的参考文本情感上下文向量；

所述拼接模块被配置为将所述训练文本上下文向量、参考音频情感上下文向量及参考文本情感上下文向量进行加权拼接，得到所述当前解码步上的上下文向量，并将所述当前解码步上的上下文向量输入所述解码器。

5.根据权利要求4所述的方法，其特征在于，所述文本注意力层被配置为采用自注意力机制对所述特征向量和所述上一个中间状态进行运算，所述运算包括：

计算各个所述特征向量与所述上一个中间状态的关联度；

计算各个所述特征向量与对应的关联度的乘积；

将所述各个特征向量对应的乘积相加，得到所述当前解码步上的训练文本上下文向量。

6.根据权利要求4所述的方法，其特征在于，所述参考音频情感注意力层被配置为采用基于上下文的循环注意力机制，对所述第一情感标记和所述上一个中间状态进行运算，所述运算包括：

计算各个所述第一情感标记与所述上一个中间状态的关联度；

计算各个所述第一情感标记与对应的关联度的乘积；

将所述各个第一情感标记对应的乘积相加，得到所述当前解码步上的参考音频情感上下文向量。

7.根据权利要求4所述的方法，其特征在于，所述参考文本情感注意力层被配置为采用自注意力机制，对所述第二情感标记和所述上一个中间状态进行运算，所述运算包括：

计算各个所述第二情感标记与所述上一个中间状态的关联度；

计算各个所述第二情感标记与对应的关联度的乘积；

将所述各个第二情感标记对应的乘积相加，得到所述当前解码步上的参考文本情感上下文向量。

8.一种语音合成方法，其特征在于：

将待合成文本、参考音频及所述参考音频对应的参考文本输入预先训练的语音合成模型，其中，所述参考音频以逐帧的方式输入所述语音合成模型；

将所述语音合成模型输出的各个音频帧进行组合，得到所述待合成文本的梅尔频谱；

将所述梅尔频谱输入声码器，得到所述待合成文本对应的合成音频；

其中，所述语音合成模型采用权利要求1至7中任一所述的训练方法训练得到。

9.根据权利要求8所述的方法，其特征在于，所述语音合成模型中的解码器被配置为从注意力层网络接收当前解码步上的上下文向量、还接收所述解码器在上一个解码步上输出的音频帧；根据所述当前解码步上的上下文向量和所述解码器在上一个解码步上输出的音频帧，得到当前解码步上的音频帧和中间状态；并将所述中间状态输入所述注意力层网络，用于供所述注意力层网络确定下一个解码步上的上下文向量；还将所述当前解码步上的音频帧输入所述解码器，用于供所述解码器确定在下一个解码步上的音频帧和中间状态。

10.一种语音合成模型的训练装置，其特征在于：

第一输入模块，用于将训练文本、参考音频及所述参考音频对应的参考文本输入初始语音合成模型，其中，所述参考音频以逐帧的方式输入所述初始语音合成模型；并将所述训练文本对应的训练音频以逐帧的方式输入所述初始语音合成模型中的编码器；

第一组合模块，用于将所述编码器输出的各个音频帧的预测值进行组合，得到所述训练文本的梅尔频谱；

第二输入模块，用于将所述训练文本的梅尔频谱输入声码器，得到所述训练文本对应的预测音频；

优化模块，用于将所述预测音频与所述训练音频进行比较，根据比较结果优化所述初始语音合成模型中的参数，得到训练完成的语音合成模型。

11.根据权利要求10所述的装置，其特征在于，所述语音合成模型包括编码器网络、注意力层网络和解码器；其中，

12.根据权利要求11所述的装置，其特征在于，所述编码器网络包括文本编码器、参考音频情感编码器和参考文本情感编码器；其中，

13.根据权利要求11或12所述的装置，其特征在于，所述注意力层网络包括文本注意力层、参考音频情感注意力层、参考文本情感注意力层及拼接模块；其中，

14.根据权利要求13所述的装置，其特征在于，所述文本注意力层被配置为采用自注意力机制对所述特征向量和所述上一个中间状态进行运算，所述运算包括：

计算各个所述特征向量与所述上一个中间状态的关联度；

计算各个所述特征向量与对应的关联度的乘积；

15.根据权利要求13所述的装置，其特征在于，所述参考音频情感注意力层被配置为采用基于上下文的循环注意力机制，对所述第一情感标记和所述上一个中间状态进行运算，所述运算包括：

计算各个所述第一情感标记与对应的关联度的乘积；

16.根据权利要求13所述的装置，其特征在于，所述参考文本情感注意力层被配置为采用自注意力机制，对所述第二情感标记和所述上一个中间状态进行运算，所述运算包括：

计算各个所述第二情感标记与对应的关联度的乘积；

17.一种语音合成装置，其特征在于：

第三输入模块，用于将待合成文本、参考音频及所述参考音频对应的参考文本输入预先训练的语音合成模型，其中，所述参考音频以逐帧的方式输入所述语音合成模型；

第二组合模块，用于将所述语音合成模型输出的各个音频帧进行组合，得到所述待合成文本的梅尔频谱；

第四输入模块，用于将所述梅尔频谱输入声码器，得到所述待合成文本对应的合成音频。

18.根据权利要求17所述的装置，其特征在于，所述语音合成模型中的解码器被配置为从注意力层网络接收当前解码步上的上下文向量、还接收所述解码器在上一个解码步上输出的音频帧；根据所述当前解码步上的上下文向量和所述解码器在上一个解码步上输出的音频帧，得到当前解码步上的音频帧和中间状态；并将所述中间状态输入所述注意力层网络，用于供所述注意力层网络确定下一个解码步上的上下文向量；还将所述当前解码步上的音频帧输入所述解码器，用于供所述解码器确定在下一个解码步上的音频帧和中间状态。

19.一种电子设备，其特征在于，包括：包括处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至9任一项所述的方法。

20.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的方法。