CN113096638B

CN113096638B - 语音合成模型训练方法、语音合成方法及装置

Info

Publication number: CN113096638B
Application number: CN202110641756.4A
Authority: CN
Inventors: 汪光璟; 李成飞; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-09-07
Anticipated expiration: 2041-06-09
Also published as: CN113096638A

Abstract

本公开提供一种语音合成模型训练方法、语音合成方法及装置，语音合成模型训练方法包括：获取训练文本，各个训练参考音频，以及各个基准音频；基于当前训练参考音频确定当前基准音频；获取训练文本的训练文本向量和各个训练参考音频帧向量并获取对应于当前训练参考音频的训练合成音频；根据训练合成音频和当前基准音频，获取第一损失，更新当前训练参考音频，直至获取分别与各个训练参考音频对应的各个第一损失，根据各个第一损失获取模型损失，并根据模型损失调整语音合成模型的参数，直至模型损失满足模型损失阈值，得到训练好的语音合成模型。本发明实施例提供的语音合成模型训练方法能够丰富语音合成模型的韵律风格，减少模型的使用局限性。

Description

语音合成模型训练方法、语音合成方法及装置

技术领域

本发明实施例涉及语音合成技术领域，尤其涉及一种语音合成模型训练方法、装置、设备及存储介质，以及一种语音合成方法、装置、设备及存储介质。

背景技术

在教学场景下，中文古诗词教学作为语言教学系统的重要环节，由于中文古诗词具有非常独特的韵律特点，因此在生成教学用的古诗词朗读音频时，通常采用人工录音方式去生成中文古诗词的朗读音频，或者使用专门训练的语音合成系统去生成古诗词的朗读音频，朗读音频正确的发音以及韵律节奏，对于中文古诗词的教学具有非常重要的辅助意义。

现有教学场景下的中文古诗词朗读音频，大多使用人工录制，该方法成本非常高昂。虽然也有使用语音合成技术来生成古诗词朗读音频，但是现有的语音合成系统，存在以下缺点：

（1）系统构建成本较高，需要大量的古诗词朗读音频来训练一个语音合成模型，并且当合成模型训练完成后，模型的韵律风格也就固定了，一旦待合成的诗词类型没有在训练数据中出现过，则合成的音频韵律就会出现明显问题。

（2）无法自主选择韵律：输入待合成的古诗词后，合成系统直接输出合成音频，合成音频的韵律是在合成语音时同步产生，无法由用户自己选择和定义。

因此，如何丰富语音合成模型的韵律风格，个性化语音合成模型的应用场景，成为亟需解决的技术问题。

发明内容

本发明实施例解决的技术问题是提供一种语音合成模型训练方法、装置、设备及存储介质，以及一种语音合成方法、装置、设备及存储介质，以丰富语音合成模型的韵律风格，减少语音合成模型的使用局限性。

为解决前述问题，本发明实施例提供一种语音合成模型训练方法，包括：

获取训练文本，各个训练参考音频，以及分别与各个所述训练参考音频的韵律相同的各个基准音频，各个所述基准音频与所述训练文本对应，且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同；

确定训练参考音频，得到当前训练参考音频，并确定与所述当前训练参考音频的韵律相同的基准音频，得到当前基准音频；

获取所述训练文本的训练文本向量，和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量；

根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频；

根据所述训练合成音频和所述当前基准音频，获取第一损失，更新所述当前训练参考音频，直至获取分别与各个所述训练参考音频对应的各个第一损失，根据各个所述第一损失获取模型损失，并根据所述模型损失调整所述语音合成模型的参数，直至所述模型损失满足模型损失阈值，得到训练好的所述语音合成模型。

为解决上述问题，本发明实施例还提供一种语音合成方法，包括：

获取待语音合成的合成文本；

获取目标参考音频；

将所述待语音合成的合成文本和所述目标参考音频输入前述的语音合成模型训练方法得到的语音合成模型，得到与所述合成文本相对应的合成语音，所述合成语音带有所述目标参考音频的韵律特征。

为解决前述问题，本发明实施例还提供一种语音合成模型训练装置，包括：

音频及文本获取单元，适于获取训练文本，各个训练参考音频，以及分别与各个所述训练参考音频的韵律相同的各个基准音频，各个所述基准音频与所述训练文本对应，且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同；

基准音频获取单元，适于确定训练参考音频，得到当前训练参考音频，并确定与所述当前训练参考音频的韵律相同的基准音频，得到当前基准音频；

向量获取单元，适于获取所述训练文本的训练文本向量，和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量

音频训练单元，适于根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频；

音频合成单元，适于根据所述训练合成音频和所述当前基准音频，获取第一损失，更新所述当前训练参考音频，直至获取分别与各个所述训练参考音频对应的各个第一损失，根据各个所述第一损失获取模型损失，并根据所述模型损失调整所述语音合成模型的参数，直至所述模型损失满足模型损失阈值，得到训练好的所述语音合成模型。

为解决前述问题，本发明实施例还提供一种语音合成装置，包括：

合成文本获取单元，适于获取待语音合成的合成文本；

目标音频获取单元，适于获取目标参考音频；

语音合成单元，适于将所述待语音合成的合成文本和所述目标参考音频输入前述的语音合成模型训练方法得到的语音合成模型，得到与所述合成文本相对应的合成语音，所述合成语音带有所述目标参考音频的韵律特征。

为解决前述问题，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行上述的语音合成模型训练方法或者上述的语音合成方法。

为解决前述问题，本发明实施例还提供一种存储介质，所述存储介质存储有适于语音合成模型训练的程序，以实现上述的语音合成模型训练方法或存储有适于语音合成的程序，以实现上述的语音合成方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的语音合成模型训练方法，在对语音合成模型进行训练时，因根据大量训练参考音频进行训练，从而在训练过程中能够获取提取训练参考音频的韵律特征的能力，将提取训练参考音频的韵律特征的能力通过参数融入到语音合成模型的训练中，使得语音合成模型额外学习到对于韵律特征的建模，从而采用后续训练完成的语音合成模型在合成古诗词音频时，输入待合成的古诗词文本，同时输入一条古诗词参考音频，语音合成模型就可以从参考音频中学习到韵律特征，能够避免为了提高合成的韵律类型，需要使用大量不同的诗词韵律风格音频分别训练语音合成模型，得到不同的模型参数的情况，降低成本；另一方面，由于语音合成模型能够捕捉到参考音频的韵律特征，在后续语音合成时，通过输入任意韵律风格的参考音频，可以输出具有参考音频韵律风格的古诗词音频，以合成具有任意韵律风格的音频，丰富了语音合成模型的韵律风格，减少了语音合成模型的使用局限性。

可选方案中，本发明实施例所提供的语音合成模型训练方法，还同时获取训练参考音频对应文本，所述训练参考音频对应文本的数量与所述训练参考音频的数量相同，通过从语音和文本两个维度充分捕捉到参考音频的韵律风格，进一步提高对训练参考音频韵律信息的捕获能力，强化语音合成模型合成音频的韵律模仿效果。

附图说明

图1是本发明实施例所提供的语音合成模型训练方法的一流程示意图；

图2是本发明实施例提供的语音合成模型训练方法的获取训练合成音频的流程图；

图3是本发明实施例所提供的语音合成模型训练方法的另一流程示意图；

图4是本发明实施例提供的语音合成模型训练方法的获取训练合成音频的又一流程图；

图5是本发明实施例所提供的语音合成模型训练装置的一框图；

图6是本发明实施例所提供的语音合成装置的一框图；

图7是本发明实施例提供的设备一种可选硬件设备架构。

具体实施方式

现有技术中, 语音合成模型的韵律风格固定。

为了丰富了语音合成模型的韵律风格，本发明实施例提供了一种语音合成模型训练方法，包括：

本发明实施例所提供的语音合成模型训练方法，首先获取训练文本，各个训练参考音频，以及分别与各个所述训练参考音频的韵律相同的各个基准音频，各个所述基准音频与所述训练文本对应，且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同；接着确定训练参考音频，得到当前训练参考音频，并确定与所述当前训练参考音频的韵律相同的基准音频，得到当前基准音频；获取所述训练文本的训练文本向量，和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量，并根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频；最后根据所述训练合成音频和所述当前基准音频，获取第一损失，更新所述当前训练参考音频，直至获取分别与各个所述训练参考音频对应的各个第一损失，根据各个所述第一损失获取模型损失，并根据所述模型损失调整所述语音合成模型的参数，直至所述模型损失满足模型损失阈值，得到训练好的所述语音合成模型。

可以看出，本发明实施例所提供的语音合成模型训练方法，在对语音合成模型进行训练时，因根据大量训练参考音频进行训练，从而在训练过程中能够获取提取训练参考音频的韵律特征的能力，将提取训练参考音频的韵律特征的能力通过参数融入到语音合成模型的训练中，使得语音合成模型额外学习到对于韵律特征的建模，从而采用后续训练完成的语音合成模型在合成古诗词音频时，输入待合成的古诗词文本，同时输入一条古诗词参考音频，语音合成模型就可以从参考音频中学习到韵律特征，能够避免为了提高合成的韵律类型，需要使用大量不同的诗词韵律风格音频分别训练语音合成模型，得到不同的模型参数的情况，降低成本；另一方面，由于语音合成模型能够捕捉到参考音频的韵律特征，在后续语音合成时，通过输入任意韵律风格的参考音频，可以输出具有参考音频韵律风格的古诗词音频，以合成具有任意韵律风格的音频，丰富了语音合成模型的韵律风格，减少了语音合成模型的使用局限性。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为一种可选实现，图1示出了本发明实施例所提供的语音合成模型训练方法的一流程示意图。

参考图1，本发明实施例所提供的语音合成模型训练方法可以包括：

步骤S10、获取训练文本，各个训练参考音频，以及分别与各个所述训练参考音频的韵律相同的各个基准音频，各个所述基准音频与所述训练文本对应，且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同。

韵律指的是中文的平仄和押韵规范，即语音中的抑扬顿挫。

为了进行语音合成模型的训练，需要获取训练文本，然后将训练文本输入至本发明实施例所提供语音合成模型训练方法所要训练的语音合成模型，利用语音合成模型对所述训练文本进行语音合成，为后续的训练做好准备。

为了合成具有特定韵律特征的语音，需要先确定参与语音合成的基准音频，然后按照基准音频的语音韵律来合成训练文本对应的语音，为此需要获取基准音频。

为了使语音合成训练模型能够捕捉训练参考音频的韵律特征，需要先确定参与语音合成的训练参考音频，然后按照训练参考音频的语音韵律来合成训练文本对应的语音，为此需要确定训练参考音频。本发明实施例中的训练参考音频的数量为多个，其中部分训练参考音频的韵律特征可以相同，各个训练参考音频的韵律特征也可以均不相同。

需要说明的是，各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同，指的是，所述各训练参考音频的韵律特征可以相同或者不相同，所述基准音频的数量小于或等于所述训练参考音频的数量，以满足各个训练参考音频均可以找到与之韵律特征一致的所述基准音频。

步骤S11、确定训练参考音频，得到当前训练参考音频，并确定与所述当前训练参考音频的韵律相同的基准音频，得到当前基准音频。

容易理解的是，训练参考音频的数量为多个，与训练参考音频的韵律特征一致的基准音频的数量小于或者等于训练参考音频的数量，因此，在单次训练过程中，需要确定当前训练参考音频以及当前基准音频。

在后续语音合成模型训练过程中，当前基准音频用于计算与当前训练参考音频对应的第一损失。

步骤S12、获取所述训练文本的训练文本向量，和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量。

训练文本可以通过文本编码器生成训练文本向量，记为

，m表示向量维数为m维。

具体地，可以对训练文本的每个文字进行embedding，得到对应每个文字的文字向量，对每个文字向量按照训练文本中的各个文字的排列顺序进行排列，得到对应训练文本的文本特征矩阵，对文本特征矩阵进行编码，得到训练文本向量。

当前训练参考音频可以通过参考音频韵律编码器生成各个音频帧的各个训练参考音频帧向量。每一音频帧的训练参考音频帧向量包含L个韵律标记，记为

。

当然，各个音频帧的训练参考音频帧向量可以根据需要，随着后续步骤的执行依次生成，也可以在后续步骤执行之前全部获取。

步骤S13、根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频。

具体地，在一种实施例中，可以通过对所述训练文本向量和各个所述训练参考音频帧向量进行融合，得到与各个所述训练参考音频帧向量对应的各个训练融合向量；并对各个所述训练融合向量依次进行解码，得到对应于所述当前训练参考音频的训练合成音频。

在另一种具体实施方式中，为了提高模型训练的准确性，请参考图2，图2是本发明实施例中根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的一流程图，如图2所示，根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤可以包括：

步骤S131：分别获取所述当前基准音频的首帧的第一基准音频帧解码向量或第N-1帧解码向量，以及各个所述训练参考音频帧向量中的第M训练参考音频帧向量，所述M的取值包括1或N, N的取值为2和所述训练参考音频的总帧数之间的任何整数值。

容易理解的是，第M训练参考音频帧向量是为了能够简单标识第一训练参考音频帧向量和第N训练参考音频帧向量而设置的，其中，M的取值范围为1和N，N的取值为2和所述训练参考音频的总帧数之间的任何整数值。

即当M=1时，步骤S131分别获取的是当前基准音频的首帧的第一基准音频帧解码向量，以及各个所述训练参考音频帧向量中的第一训练参考音频帧向量，第一基准音频帧解码向量可以用于与第一训练参考音频帧向量的融合，提供第一训练参考音频帧向量融合的对象；当M≥2时，M=N，步骤S131分别获取的是第M训练参考音频帧向量以及第N-1帧解码向量，其中，第N-1帧解码向量由后续步骤中的第M训练参考音频帧向量的第M融合向量解码生成。

在执行过程中，首先获取当前基准音频的首帧的第一基准音频帧解码向量，以及各个所述训练参考音频帧向量中的第一训练参考音频帧向量。

当然，第一基准音频帧解码向量可以通过以下步骤获取：

对当前基准音频进行分帧，得到第一帧；

对第一帧进行解码，得到第一基准音频帧解码向量。

具体地，第一基准音频帧解码向量可以通过语音合成解码器生成。

可以通过语音合成解码器对当前基准音频的首帧音频帧或者第M融合向量（后续步骤S133获得）进行解码，得到第一基准音频帧解码向量或第N-1帧解码向量，并且第一基准音频帧解码向量或第N-1帧解码向量为解码器输出的中间状态，可以表示为。待后续第一融合向量得到后，可以通过解码生成第一帧解码向量，以进行下一帧循环训练：当然，获取第一帧解码向量的同时，需要获取第二训练参考音频帧向量，即M的取值加1，如此往复，直至完成参考音频的所有帧的训练参考音频帧向量的获取，即M的最大取值为训练参考音频的总帧数。

步骤S132：对所述第一基准音频帧解码向量或第N-1帧解码向量和所述第M训练参考音频帧向量进行融合，得到第M音频帧上下文向量。

如前所述，当M=1时，那么对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合，当M≥2时，M=N，那么对第N-1帧解码向量和所述第M（N）训练参考音频帧向量进行融合。

结合前述，得到中间状态，将其与第M训练参考音频帧向量进行融合，得到第M音频帧上下文向量。当然，S的取值为大于等于1的整数，S=M，且当S大于等于2时，S=M=N。

在进行第一帧合成音频训练时，对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合，得到第一音频帧上下文向量。

具体地，第一基准音频帧解码向量通过语音合成解码器会输出解码器中间状态，该中间状态与第一训练参考音频帧向量进行融合，得到第一音频帧上下文向量。

同理，待后续得到第一融合向量后，因M的取值未超过参考音频的总帧数，转向执行步骤S131,第一融合向量通过语音合成解码器会输出解码器中间状态（即解码生成第一帧解码向量），以进行下一帧循环训练，在进行第二帧合成音频训练时，对中间状态（第一帧解码向量）和所述第二训练参考音频帧向量进行融合，得到第二音频帧上下文向量；如此往复，直至完成参考音频的所有帧的训练参考音频帧向量的融合，即M的最大取值为训练参考音频的总帧数。

在一种具体实施方式中，为了获取音频帧上下文向量，可以通过以下公式：

其中，

即为在每一个解码步骤上获得的参考音频韵律上下文向量；

表示中间状态

与第L个韵律标记的关联度，共有L个关联度；

p表示训练参考音频帧向量，它由L个标记组成。

其中，中间状态

与第L个韵律标记的关联度

，可以通过以下公式获取：

其中，

和

、

为韵律注意力层待学习的权重参数；

表示训练参考音频帧向量，它由L个标记组成；

表示语音合成解码器解码的中间状态；

即，为了获取音频帧上下文向量，首先进行对齐计算，在每一个时间步t，得到训练参考音频帧向量中的每一个韵律标记与语音合成解码器编码得到的中间状态

序列的关联度，然后通过计算求和，得到音频帧上下文向量。

当语音合成解码器的输出为第一基准音频帧解码向量时，对应中间状态

。

步骤S133：将所述训练文本向量和所述第M音频帧上下文向量进行融合，得到对应于所述第M训练参考音频帧向量的第M融合向量。

需要说明的是，步骤S130的获取训练文本向量即图1中的步骤S10，在执行步骤S131之前，语音合成模型就已经获取了训练文本向量，训练文本向量用于后续和音频上下文向量进行融合，本实施例中无需再次获取。

在进行第一帧合成音频训练时，将所述训练文本向量和所述第一音频帧上下文向量进行融合，得到对应于所述第一训练参考音频帧向量的第一融合向量。

第一融合向量输入语音合成解码器，为后续解码出各个音频帧的合成音频频谱以及第一帧解码向量做准备。

同理，待后续第一帧合成音频频谱解码完成后，进行下一帧的处理，得到第二音频帧上下文向量，将所述训练文本向量和所述第二音频帧上下文向量进行融合，得到对应于所述第二训练参考音频帧向量的第二融合向量；如此往复，直至M的取值为训练参考音频的总帧数。

步骤S134：对第M融合向量进行解码，得到第M帧合成音频频谱。

首先对所述第一融合向量进行解码，得到第一帧解码向量和第一帧合成音频频谱。

得到第一融合向量后，再对第一融合向量进行解码，从而获取第一帧解码向量，为第二音频帧上下文向量的获取，提供基础，同时还得到第一帧解码向量，为对语音合成模型的训练提供训练合成基础。

同理，待后续第一帧合成音频频谱解码完成后，进行下一帧循环训练，得到第二融合向量，对所述第二融合向量进行解码，得到第二帧解码向量和第二帧合成音频频谱；如此往复，直至M的取值为训练参考音频的总帧数。

步骤S135: 判断M的值是否等于训练参考音频的总帧数。得到第M融合向量后，需要判断M的值是否等于训练参考音频的总帧数，

若否，则执行步骤S136,否则执行步骤S137。

步骤S136: M的值加1。

如果M的值小于训练参考音频的总帧数，则将M的值加1，并转向执行步骤S131,进行下一次循环。

步骤S137:结束。

如果M的值等于训练参考音频的总帧数，则表明已经完成训练参考音频各个帧的训练参考音频帧向量的获取，且得到各帧的合成音频频谱，则循环结束。

最后，根据各帧的合成音频频谱获取对应于所述当前训练参考音频的训练合成音频。这样，通过将解码得到的中间状态和训练参考音频帧向量融合，以分别对各个帧的所述训练参考音频帧向量进行训练，提高了语音合成模型训练的准确性。

在另一种具体实施例中，为了提高训练的准确度，除了将解码得到的中间状态

和训练参考音频帧向量融合，还可以将中间状态

和训练文本向量进行融合，得到训练文本上下文向量。训练文本对应的训练文本向量，是将训练文本序列映射为文本向量，而通过将训练文本向量和中间状态融合为训练文本上下文向量，能够使得训练文本上下文向量包含训练参考音频的韵律特征信息，从而进一步提高语音合成模型训练的精确度。

在一种具体实施方式中，为了获取训练文本上下文向量，可以通过以下公式：

其中，

即为在每一个解码步骤上获得的训练文本上下文向量；

表示训练文本向量中的每一维度向量与当前帧的中间状态

的关联度；

X表示训练文本向量；

表示训练文本向量，包括向量维度为m。

其中，训练文本向量中的每一个向量与当前帧的中间状态

的关联度

，可以通过以下公式获取：

其中，

是为了防止softmax的梯度落入过小的区域；

和

为文本注意力层的待学习权重参数；

表示语音合成解码器解码的中间状态。

即，为了获取训练文本上下文向量，首先计算得到训练文本向量中的每个维度与每一个当前帧的中间状态

的关联度，然后通过计算求和，得到训练文本上下文向量。

具体地，对所述训练文本向量和所述第一基准音频帧解码向量进行融合，得到第一训练文本上下文向量。

将所述第一训练文本上下文向量和所述第一音频帧上下文向量进行融合，得到第一融合向量。

对所述第N-1帧解码向量和所述第N-1训练文本上下文向量进行融合，得到第N训练文本上下文向量。

将所述第N训练文本上下文向量和所述第N帧解码向量相融合，得到第N训练文本上下文向量，将所述第N训练文本上下文向量和所述第N音频帧上下文向量进行融合，得到第N融合向量。

当然，当中间状态

分别和训练参考音频帧以及训练文本向量进行融合时，所述对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合，得到第一音频帧上下文向量的步骤包括：

对所述训练文本向量和所述第一基准音频帧解码向量进行融合，得到第一训练文本上下文向量；

将所述第一训练文本上下文向量和所述第一音频帧上下文向量进行融合，得到第一融合向量；

对所述第N-1帧解码向量和所述第N-1训练文本上下文向量进行融合，得到第N训练文本上下文向量；

在一种具体实施例中，对所述训练文本向量和各个所述训练参考音频帧向量进行融合的方式为加权拼接。加权拼接的方式增加了向量长度，从而能够增加韵律特征，更有利于模型对于韵律特征的捕捉和学习。当然，在其他实施例中，还可以采用将相加的方式进行融合。

步骤S14、根据所述训练合成音频和所述当前基准音频，获取第一损失。

第一损失用于评估语音合成的训练程度。

在获取第一损失后，可以依次更新当前训练参考音频，直至获取分别与各个所述训练参考音频对应的各个第一损失，根据各个所述第一损失获取模型损失，并根据所述模型损失调整所述语音合成模型的参数，直至所述模型损失满足模型损失阈值，得到训练好的所述语音合成模型。具体的，该过程可以具体如下：

步骤S15: 判断是否已经获取各个所述训练参考音频对应的第一损失,若否，执行步骤S16,否则执行步骤S17。

步骤S16:更新所述当前训练参考音频，转向步骤S11。

如果未获取全部的训练参考音频对应的第一损失，说明还有需要进行生成训练合成音频生成的训练参考音频，因此，更新当前训练参考音频，并转向执行步骤S11，直至各个所述第一损失分别与各个所述训练参考音频对应。

步骤S17：根据各个所述第一损失获取模型损失。

得到全部训练参考音频对应的第一损失，进一步通过各个第一损失获取模型损失。具体计算方法可以有多种，比如获取各个第一损失的平均值，或者获取各个第一损失的方差或者通过其他方式，得到模型损失。

步骤S18、判断模型损失是否满足模型损失阈值，若满足，执行步骤S19,若不满足，则执行步骤S110。

得到模型损失后，将模型损失与模型损失阈值进行比较，判断是否满足模型损失阈值；如果满足，那么即可得到训练好的语音合成模型，否则，需要根据所述模型损失调整所述语音合成模型的参数。

步骤S19、得到训练好的所述语音合成模型。

如果模型损失满足模型损失阈值，则合成的语音的准确度满足要求，即从而得到训练后的语音合成模型。

步骤S110、根据所述模型损失调整所述语音合成模型的参数，转向执行步骤S12。

如果模型损失不满足模型损失阈值，则需要对语音合成模型的编码器参数进行调整，然后继续执行步骤S12，直至模型损失满足模型损失阈值。

当然，为了进一步提高对训练参考音频韵律信息的捕获能力，强化语音合成模型合成音频的韵律模仿效果，在一种具体实施方式中，本发明实施例所提供的语音合成模型训练方法，还可以同时获取训练参考音频对应文本，所述训练参考音频对应文本的数量与所述训练参考音频的数量相同。请参考图3，图3是本发明实施例所提供的语音合成模型训练方法的另一流程示意图。

S20、获取训练文本，各个训练参考音频，训练参考音频对应文本、以及分别与各个所述训练参考音频的韵律相同的各个基准音频，各个所述基准音频与所述训练文本对应，且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同。

为了更准确的合成具有特定韵律特征的语音，还可以同时获取训练参考音频对应文本。训练参考音频对应文本是训练参考音频的对应文本，训练参考音频对应文本的数量与训练参考音频的数量一致。

获取训练文本以及基准音频的内容请参考图1中的步骤S10的内容，在此不再赘述。

S21、确定训练参考音频，得到当前训练参考音频，并确定与所述当前训练参考音频的韵律相同的基准音频，得到当前基准音频。

步骤S21的内容请参考图1中的步骤S11，在此不再赘述。

S22、获取所述训练文本的训练文本向量，和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量，以及各个训练参考音频对应文本的训练参考音频对应文本向量。

将训练参考音频对应文本输入参考文本韵律编码器中，获得训练参考音频对应文本向量，记为

，表示向量维数为q维。

具体地，可以对训练参考音频对应文本的每个文字进行embedding，得到对应每个文字的文字向量，对每个文字向量按照训练文本中的各个文字的排列顺序进行排列，得到对应训练参考音频对应文本的文本特征矩阵，对文本特征矩阵进行编码，得到训练参考音频对应文本向量。

训练文本向量和训练参考音频帧向量的内容请参考图1中的步骤S12的内容，在此不再赘述。

S23、根据所述训练参考音频对应文本向量、所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频。

具体地，在一种实施例中，为了进一步提高训练的准确性，可以通过对所述训练参考音频对应文本向量、所述训练文本向量和各个所述训练参考音频帧向量进行融合，得到与各个所述训练参考音频帧向量对应的各个训练融合向量；并对各个所述训练融合向量依次进行解码，得到对应于所述当前训练参考音频的训练合成音频。

请参考图4，图4是本发明实施例中根据所述训练参考音频对应文本向量、所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的一流程图，如图4所示，根据所述训练参考音频对应文本向量、所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤包括：

步骤S231：分别获取所述当前基准音频的首帧的第一基准音频帧解码向量或第N-1帧解码向量以及各个所述训练参考音频帧向量中的第M训练参考音频帧向量。其中，所述M的取值包括1或N, N的取值为2和所述训练参考音频的总帧数之间的任何整数值。

步骤S231的内容请参考图2中步骤S131的内容，在此不再赘述。

步骤S232：对所述第一基准音频帧解码向量(或第N-1帧解码向量)和所述第M训练参考音频帧向量进行融合，得到第M音频帧上下文向量。

步骤S232的内容请参考图2中的步骤S132的内容，在此不再赘述。

步骤S233: 获取训练参考音频对应文本向量。

在执行步骤S234之前，需要获取训练参考音频对应文本向量。步骤233可以在步骤S232之后执行，还可以是在步骤S232之前执行。

需要说明的是，步骤S230的获取训练文本向量以及步骤S233的获取训练文本向量即图3中的步骤S22，在执行步骤S231之前，语音合成模型就已经获取了训练文本向量和训练参考音频对应文本向量，训练文本向量和训练参考音频对应文本向量用于后续和音频上下文向量进行融合，本实施例中无需再次获取。

步骤S234：将所述训练文本向量、训练参考音频对应文本向量和所述第M音频帧上下文向量进行融合，得到对应于所述第M训练参考音频帧向量的第M融合向量。

在进行第一帧合成音频训练时，将所述训练参考音频对应文本向量、所述训练文本向量和所述第一音频帧上下文向量进行融合，得到对应于所述第一训练参考音频帧向量的第一融合向量。

通过将所述训练参考音频对应文本向量、训练文本向量和所述第一音频帧上下文向量进行融合，为后续获得第一融合向量做准备。

融合的具体方式可以是加权拼接，也可以是向量直接相加。

同理，待后续第一帧合成音频频谱解码完成后，进行下一帧的处理，得到第二音频帧上下文向量，将所述训练文本向量、训练参考音频对应文本向量和所述第二音频帧上下文向量进行融合，得到对应于所述第二训练参考音频帧向量的第二融合向量；如此往复，直至M的取值为训练参考音频的总帧数。

步骤S235：对第M融合向量进行解码，得到第M帧合成音频频谱。

步骤S235的内容请参考图2中步骤S134的内容，在此不再赘述。

步骤S236：判断M的值是否等于训练参考音频的总帧数, 若否，则执行步骤S237,否则执行步骤S238。

步骤S237: M的值加1。

步骤S237的内容请参考图2中步骤S136的内容，在此不再赘述。

步骤S238: 结束。

步骤S238的内容请参考图2中步骤S137的内容，在此不再赘述。

最后，根据各帧的合成音频频谱获取对应于所述当前训练参考音频的训练合成音频。通过从语音和文本两个维度充分捕捉到参考音频的韵律风格，进一步提高对训练参考音频韵律信息的捕获能力，强化语音合成模型合成音频的韵律模仿效果。

在一种具体实施例中，为了进一步提高语音合成模型训练的准确度，中间状态可以分别与训练参考音频对应文本向量、训练参考音频帧向量以及训练文本向量进行融合。通过将训练参考音频对应文本向量和中间状态融合为训练参考音频对应文本上下文向量，能够使得训练参考音频对应文本上下文向量包含训练参考音频的韵律特征信息，从而进一步提高语音合成模型训练的精确度。

中间状态

序列分别与训练参考音频帧向量以及训练文本向量进行融合的过程请参考前文，在此不再赘述。下面对中间状态

序列与训练参考音频对应文本向量进行融合的过程进行描述。

在一种具体实施方式中，为了获取训练参考音频对应文本向量，可以通过以下公式：

其中，

即为在每一个解码步骤上获得的训练参考音频对应文本上下文向量；

c表示训练参考音频对应文本向量；

表示训练参考音频对应文本向量和语音合成解码器编码得到的中间状态

序列的关联度。

其中，训练参考音频对应文本向量和语音合成解码器编码得到的中间状态

序列的关联度，可以通过以下公式获取：

其中，

是为了防止softmax的梯度落入过小的区域；

和

为参考文本韵律注意力层的待学习权重参数；

表示语音合成解码器解码的中间状态。

即，为了获取训练参考音频对应文本向量，首先计算得到训练参考音频对应文本向量中的每个维度与每一个当前帧的中间状态

序列的关联度，然后通过计算求和，得到训练参考音频对应文本向量。

具体地，将所述第一训练参考音频对应文本上下文向量，所述第一训练文本上下文向量和所述第一音频帧上下文向量进行融合，得到第一融合向量。

对所述第N-1帧解码向量和所述第N-1训练参考音频对应文本上下文向量进行融合，得到第N训练参考音频对应文本上下文向量。

将所述第N-1训练参考音频对应文本上下文向量和所述第N-1帧解码向量相融合，得到第N训练参考音频对应文本上下文向量。

将所述第N训练参考音频对应文本上下文向量，所述第N文本上下文向量和所述第N音频帧上下文向量进行融合，得到第N融合向量。

接着，根据所述训练参考音频对应文本向量、所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频，对求得的3个上下文向量进行加权拼接：

其中，α，β分别是训练参考音频上下文向量的权重和训练参考音频对应文本上下文向量的权重。

最后，在每一个解码步骤上将

输入语音合成模型的解码器，得到下一个中间状态的输出，直到解码完成。

S24、根据所述训练合成音频和所述当前基准音频，获取第一损失。

步骤S24的内容请参考图1中的步骤S14的内容，在此不再赘述。

S25、判断是否已经获取各个所述训练参考音频对应的第一损失，若否，执行步骤S26,否则执行步骤S27。

S26、更新所述当前训练参考音频，转向步骤S21。

如果未获取全部的训练参考音频对应的第一损失，说明还有需要进行生成训练合成音频生成的训练参考音频，因此，更新当前训练参考音频，并转向执行步骤S21，直至各个所述第一损失分别与各个所述训练参考音频对应。

S27、根据各个所述第一损失获取模型损失。

S28、判断模型损失是否满足模型损失阈值，若是，执行步骤S29，否则执行步骤S210。

步骤S28的内容请参考图1中的步骤S18的内容，在此不再赘述。

S29、得到训练好的所述语音合成模型。

步骤S29的内容请参考图1中的步骤S19的内容，在此不再赘述。

S210、根据所述模型损失调整所述语音合成模型的参数。

如果模型损失不满足模型损失阈值，则需要对语音合成模型的编码器参数进行调整，然后继续执行步骤S22，直至模型损失满足模型损失阈值。

通过将训练参考音频对应文本向量、所述训练文本向量和各个所述训练参考音频帧向量相融合对语音合成模型进行训练，从语音和文本两个维度充分捕捉到参考音频的韵律风格，进一步提高对训练参考音频韵律信息的捕获能力，强化语音合成模型合成音频的韵律模仿效果。

步骤S30:获取待语音合成的合成文本；

步骤S31:获取目标参考音频；

目标参考音频具有的韵律特征即为待合成语音所期望带有的韵律特征。

步骤S32:将所述待语音合成的合成文本和所述目标参考音频输入前述的语音合成模型训练方法得到的语音合成模型，得到与所述合成文本相对应的合成语音，所述合成语音带有所述目标参考音频的韵律特征。

本发明实施例所提供的语音合成方法，因语音合成模型能够获取提取训练参考音频的韵律特征的能力，因此在语音合成过程中，可以通过输入任意韵律风格的参考音频，可以输出具有参考音频韵律风格的古诗词音频，以合成具有任意韵律风格的音频，丰富了语音合成模型的韵律风格，减少了语音合成模型的使用局限性。

下面对本发明实施例提供的语音合成模型训练装置及语音合成装置进行介绍，下文描述的语音合成模型训练装置可以认为是，设备为实现本发明实施例提供的基于动态韵律表征的语音合成方法所需设置的功能模块；下文描述的语音合成装置可以认为是，设备为实现本发明实施例提供的语音合成方法所需设置的功能模块。下文描述的装置的内容可与上文描述的方法的内容相互对应参照。

上文描述了本发明实施例提供的多个实施例方案，各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用，从而延伸出多种可能的实施例方案，这些均可认为是本发明实施例披露、公开的实施例方案。

在一种可选实现中，图5示出了本发明实施例提供的语音合成模型训练装置的一种可选框图，如图6所示，该语音合成模型训练装置可以包括：

音频及文本获取单元100，适于获取训练文本，各个训练参考音频，以及分别与各个所述训练参考音频的韵律相同的各个基准音频，各个所述基准音频与所述训练文本对应，且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同。

基准音频获取单元110，适于确定训练参考音频，得到当前训练参考音频，并确定与所述当前训练参考音频的韵律相同的基准音频，得到当前基准音频。

向量获取单元120，适于获取所述训练文本的训练文本向量，和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量。

音频训练单元130，适于根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频。

音频合成单元140，适于根据所述训练合成音频和所述当前基准音频，获取第一损失，更新所述当前训练参考音频，直至获取分别与各个所述训练参考音频对应的各个第一损失，根据各个所述第一损失获取模型损失，并根据所述模型损失调整所述语音合成模型的参数，直至所述模型损失满足模型损失阈值，得到训练好的所述语音合成模型。

本发明实施例所提供的语音合成模型训练装置，在对语音合成模型进行训练时，因根据大量训练参考音频进行训练，从而在训练过程中能够获取提取训练参考音频的韵律特征的能力，将提取训练参考音频的韵律特征的能力通过参数融入到语音合成模型的训练中，使得语音合成模型额外学习到对于韵律特征的建模，从而采用后续训练完成的语音合成模型在合成古诗词音频时，输入待合成的古诗词文本，同时输入一条古诗词参考音频，语音合成模型就可以从参考音频中学习到韵律特征，能够避免为了提高合成的韵律类型，需要使用大量不同的诗词韵律风格音频分别训练语音合成模型，得到不同的模型参数的情况，降低成本；另一方面，由于语音合成模型能够捕捉到参考音频的韵律特征，在后续语音合成时，通过输入任意韵律风格的参考音频，可以输出具有参考音频韵律风格的古诗词音频，以合成具有任意韵律风格的音频，丰富了语音合成模型的韵律风格，减少了语音合成模型的使用局限性。

在一种具体实施例中，音频训练单元130还适于对所述训练文本向量和各个所述训练参考音频帧向量进行融合，得到与各个所述训练参考音频帧向量对应的各个训练融合向量；并对各个所述训练融合向量依次进行解码，得到对应于所述当前训练参考音频的训练合成音频。

在一种具体实施例中，音频训练单元130对所述训练文本向量和各个所述训练参考音频帧向量进行融合的方式为加权拼接。加权拼接的方式增加了向量长度，从而能够增加韵律特征，更有利于模型对于韵律特征的捕捉和学习。当然，在其他实施例中，还可以采用将相加的方式进行融合。

在一种具体实施例中，向量获取单元120适于获取所述当前基准音频的首帧的第一基准音频帧解码向量和各个所述训练参考音频帧向量中的第一训练参考音频帧向量；音频训练单元130还适于对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合，得到第一音频帧上下文向量；并将所述训练文本向量和所述第一音频帧上下文向量进行融合，得到对应于所述第一训练参考音频帧向量的第一融合向量；对所述第一融合向量进行解码，得到第一帧解码向量和第一帧合成音频频谱。

向量获取单元120适于依次获取各个所述参考音频帧向量中的第N训练参考音频帧向量；

音频训练单元130还适于对所述第N-1帧解码向量和所述第N训练参考音频帧向量进行融合，得到第N音频帧上下文向量；将所述训练文本向量和所述第N音频帧上下文向量进行融合，得到对应于所述第N训练参考音频帧向量的第N融合向量；对所述第N融合向量进行解码，得到第N帧解码向量和第N帧合成音频频谱，直至得到所述当前训练参考音频的全部音频帧的合成音频频谱；其中，N的取值为2和所述训练参考音频的总帧数之间的任何整数值，N-1表示上一帧；根据各合成音频频谱获取对应于所述当前训练参考音频的训练合成音频。

在另一具体实施例中，为了提高语音合成模型的准确性，音频训练单元130还适于对所述训练文本向量和所述第一基准音频帧解码向量进行融合，得到第一训练文本上下文向量；将所述第一训练文本上下文向量和所述第一音频帧上下文向量进行融合，得到第一融合向量；对所述第N-1帧解码向量和所述第N-1训练文本上下文向量进行融合，得到第N训练文本上下文向量；将所述第N训练文本上下文向量和所述第N帧解码向量相融合，得到第N训练文本上下文向量，将所述第N训练文本上下文向量和所述第N音频帧上下文向量进行融合，得到第N融合向量。

在一种具体实施例中，音频及文本获取单元100还适于获取训练参考音频对应文本，所述训练参考音频对应文本的数量与所述训练参考音频的数量相同；

向量获取单元120还适于获取各个训练参考音频对应文本的训练参考音频对应文本向量；

音频训练单元130还适于根据所述训练参考音频对应文本向量，所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频。

本发明实施例所提供的语音合成模型训练装置，通过从语音和文本两个维度充分捕捉到参考音频的韵律风格，进一步提高对训练参考音频韵律信息的捕获能力，强化语音合成模型合成音频的韵律模仿效果。

请参考图6，为解决上述问题，本发明实施例还提供一种语音合成装置，包括：

合成文本获取单元200，适于获取待语音合成的合成文本；

目标音频获取单元210，适于获取目标参考音频；

语音合成单元220，适于将所述待语音合成的合成文本和所述目标参考音频输入前述的语音合成模型训练方法得到的语音合成模型，得到与所述合成文本相对应的合成语音，所述合成语音带有所述目标参考音频的韵律特征。

本发明实施例所提供的语音合成装置，因语音合成模型能够获取提取训练参考音频的韵律特征的能力，因此在语音合成过程中，可以通过输入任意韵律风格的参考音频，可以输出具有参考音频韵律风格的古诗词音频，以合成具有任意韵律风格的音频，丰富了语音合成模型的韵律风格，减少了语音合成模型的使用局限性。

本发明实施例还提供一种终端设备，该终端设备可以通过装载程序形式的上述基于动态韵律表征的语音合成模型训练方法或语音合成方法，以实现本发明实施例提供的基于动态韵律表征的语音合成模型训练方法或语音合成方法。

本发明实施例所提供的终端设备，在进行语音合成模型训练时，因根据大量训练参考音频进行训练，从而在训练过程中能够获取提取训练参考音频的韵律特征的能力，将提取训练参考音频的韵律特征的能力通过参数融入到语音合成模型的训练中，使得语音合成模型额外学习到对于韵律特征的建模，从而采用后续训练完成的语音合成模型在合成古诗词音频时，输入待合成的古诗词文本，同时输入一条古诗词参考音频，语音合成模型就可以从参考音频中学习到韵律特征，能够避免为了提高合成的韵律类型，需要使用大量不同的诗词韵律风格音频分别训练语音合成模型，得到不同的模型参数的情况，降低成本；另一方面，由于语音合成模型能够捕捉到参考音频的韵律特征，在后续语音合成时，通过输入任意韵律风格的参考音频，可以输出具有参考音频韵律风格的古诗词音频，以合成具有任意韵律风格的音频，丰富了语音合成模型的韵律风格，减少了语音合成模型的使用局限性。

本发明实施例所提供的终端设备，在进行语音合成时，因语音合成模型能够获取提取训练参考音频的韵律特征的能力，因此在语音合成过程中，可以通过输入任意韵律风格的参考音频，可以输出具有参考音频韵律风格的古诗词音频，以合成具有任意韵律风格的音频，丰富了语音合成模型的韵律风格，减少了语音合成模型的使用局限性。

本发明实施例提供的终端设备的一种可选硬件结构可以如图7所示，包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为用于进行网络通信的通信模块的接口，如GSM模块的接口；

处理器1可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit）,或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。

其中，存储器3存储一条或多条计算机指令，所述一条或多条计算机指令被处理器1执行以实现本发明实施例提供的语音合成方法。

需要说明的是，上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件（未示出）；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种存储介质，所述存储介质存储一条或多条计算机指令，所述一条或多条计算机指令用于实现本发明实施例提供的基于动态韵律表征的语音合成模型训练方法或语音合成方法。

本发明实施例所提供的存储介质，在进行语音合成模型训练时，因根据大量训练参考音频进行训练，从而在训练过程中能够获取提取训练参考音频的韵律特征的能力，将提取训练参考音频的韵律特征的能力通过参数融入到语音合成模型的训练中，使得语音合成模型额外学习到对于韵律特征的建模，从而采用后续训练完成的语音合成模型在合成古诗词音频时，输入待合成的古诗词文本，同时输入一条古诗词参考音频，语音合成模型就可以从参考音频中学习到韵律特征，能够避免为了提高合成的韵律类型，需要使用大量不同的诗词韵律风格音频分别训练语音合成模型，得到不同的模型参数的情况，降低成本；另一方面，由于语音合成模型能够捕捉到参考音频的韵律特征，在后续语音合成时，通过输入任意韵律风格的参考音频，可以输出具有参考音频韵律风格的古诗词音频，以合成具有任意韵律风格的音频，丰富了语音合成模型的韵律风格，减少了语音合成模型的使用局限性。

本发明实施例所提供的存储介质，在进行语音合成时，因语音合成模型能够获取提取训练参考音频的韵律特征的能力，因此在语音合成过程中，可以通过输入任意韵律风格的参考音频，可以输出具有参考音频韵律风格的古诗词音频，以合成具有任意韵律风格的音频，丰富了语音合成模型的韵律风格，减少了语音合成模型的使用局限性。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种变动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音合成模型训练方法，其特征在于，包括：

根据所述训练合成音频和所述当前基准音频，获取第一损失，更新所述当前训练参考音频，直至获取分别与各个所述训练参考音频对应的各个第一损失，根据各个所述第一损失获取模型损失，并根据所述模型损失调整所述语音合成模型的参数，直至所述模型损失满足模型损失阈值，得到训练好的所述语音合成模型；

所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤包括：获取所述当前基准音频的首帧的第一基准音频帧解码向量和各个所述训练参考音频帧向量中的第一训练参考音频帧向量；对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合，得到第一音频帧上下文向量；将所述训练文本向量和所述第一音频帧上下文向量进行融合，得到对应于所述第一训练参考音频帧向量的第一融合向量；对所述第一融合向量进行解码，得到第一帧解码向量和第一帧合成音频频谱；依次获取各个所述参考音频帧向量中的第N训练参考音频帧向量；对第N-1帧解码向量和所述第N训练参考音频帧向量进行融合，得到第N音频帧上下文向量；将所述训练文本向量和所述第N音频帧上下文向量进行融合，得到对应于所述第N训练参考音频帧向量的第N融合向量；对所述第N融合向量进行解码，得到第N帧解码向量和第N帧合成音频频谱，直至得到所述当前训练参考音频的全部音频帧的合成音频频谱；其中，N的取值为2和所述训练参考音频的总帧数之间的任何整数值，N-1表示上一帧；根据各合成音频频谱获取对应于所述当前训练参考音频的训练合成音频。

2.如权利要求1所述的语音合成模型训练方法，其特征在于，所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤，还包括：

对所述第N-1帧解码向量和第N-1训练文本上下文向量进行融合，得到第N训练文本上下文向量；

将所述第N训练文本上下文向量和所述第N音频帧上下文向量进行融合，得到第N融合向量。

3.如权利要求2所述的语音合成模型训练方法，其特征在于，向量进行融合的方式为加权拼接。

4.如权利要求2所述的语音合成模型训练方法，其特征在于，所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤还包括：

获取训练参考音频对应文本，所述训练参考音频对应文本的数量与所述训练参考音频的数量相同；

获取各个训练参考音频对应文本的训练参考音频对应文本向量；

根据所述训练参考音频对应文本向量，所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频。

5.如权利要求4所述的语音合成模型训练方法，其特征在于，所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤还包括：

对所述训练参考音频对应文本向量和所述第一基准音频帧解码向量进行融合，得到第一训练参考音频对应文本上下文向量；

将所述第一训练参考音频对应文本上下文向量，所述第一训练文本上下文向量和所述第一音频帧上下文向量进行融合，得到第一融合向量；

对所述第N-1帧解码向量和第N-1训练参考音频对应文本上下文向量进行融合，得到第N训练参考音频对应文本上下文向量；

将所述第N训练参考音频对应文本上下文向量，所述第N训练文本上下文向量和所述第N音频帧上下文向量进行融合，得到第N融合向量。

6.一种语音合成方法，其特征在于，包括：

获取待语音合成的合成文本；

获取目标参考音频；

将所述待语音合成的合成文本和所述目标参考音频输入如权利要求1-5任一项所述的语音合成模型训练方法得到的语音合成模型，得到与所述合成文本相对应的合成语音，所述合成语音带有所述目标参考音频的韵律特征。

7.一种语音合成模型训练装置，其特征在于，包括：

音频及文本获取单元，适于获取训练文本，各个训练参考音频，以及分别与各个所述训练参考音频的韵律相同且与所述训练文本对应的各个基准音频，各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同；

向量获取单元，适于获取所述训练文本的训练文本向量，和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量；还适于获取所述当前基准音频的首帧的第一基准音频帧解码向量和各个所述训练参考音频帧向量中的第一训练参考音频帧向量；还适于依次获取各个所述参考音频帧向量中的第N训练参考音频帧向量；

音频训练单元，适于根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频；还适于对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合，得到第一音频帧上下文向量；并将所述训练文本向量和所述第一音频帧上下文向量进行融合，得到对应于所述第一训练参考音频帧向量的第一融合向量；对所述第一融合向量进行解码，得到第一帧解码向量和第一帧合成音频频谱；还适于对第N-1帧解码向量和所述第N训练参考音频帧向量进行融合，得到第N音频帧上下文向量；将所述训练文本向量和所述第N音频帧上下文向量进行融合，得到对应于所述第N训练参考音频帧向量的第N融合向量；对所述第N融合向量进行解码，得到第N帧解码向量和第N帧合成音频频谱，直至得到所述当前训练参考音频的全部音频帧的合成音频频谱；其中，N的取值为2和所述训练参考音频的总帧数之间的任何整数值，N-1表示上一帧；根据各合成音频频谱获取对应于所述当前训练参考音频的训练合成音频；

8.一种语音合成装置，其特征在于，包括：

合成文本获取单元，适于获取待语音合成的合成文本；

目标音频获取单元，适于获取目标参考音频；

语音合成单元，适于将所述待语音合成的合成文本和所述目标参考音频输入如权利要求1-5任一项所述的语音合成模型训练方法得到的语音合成模型，得到与所述合成文本相对应的合成语音，所述合成语音带有所述目标参考音频的韵律特征。

9.一种存储介质，其特征在于，所述存储介质存储有适于语音合成模型训练的程序，以实现如权利要求1-5任一项述的语音合成模型训练方法或存储有适于语音合成的程序，以实现如权利要求6所述的语音合成方法。

10.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-5任一项所述的语音合成模型训练方法或如权利要求6所述的语音合成方法。