CN116189655A

CN116189655A - 一种声谱图生成方法及装置

Info

Publication number: CN116189655A
Application number: CN202310468669.2A
Authority: CN
Inventors: 周志洋; 刘诗慧; 姚麒
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-05-30
Anticipated expiration: 2043-04-27
Also published as: CN116189655B

Abstract

本发明提供一种声谱图生成方法及装置，可以获取与目标文本的音素序列对应的帧级别音素特征序列；帧级别音素特征序列包括至少一个帧级别音素特征数据；将帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配，获得各帧级别音素特征数据的发音权重分配数据；其中，任一帧级别音素特征数据的发音权重分配数据均包括各帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重；基于各帧级别音素特征数据的发音权重分配数据和帧级别音素特征序列，生成目标声谱图。本发明可以有效保障声谱图生成质量。

Description

一种声谱图生成方法及装置

技术领域

本发明涉及语音合成技术领域，尤其涉及一种声谱图生成方法及装置。

背景技术

随着科学技术的发展，语音合成技术不断提高。

现有技术在进行语音合成时，可以先行基于目标文本生成相应的声谱图，之后再基于声谱图来合成相应的音频。其中，现有技术可以通过声学模型来生成与目标文本对应的声谱图。

当前，主要存在有两种模型结构的声谱模型，一种为自回归结构的声谱模型，另一种为非自回归结构的声谱模型。相比于自回归结构的声谱模型，非自回归结构的声谱模型采用的是并行生成的模式，即同步地一次性生成声谱图的所有帧，可以极大地加快模型的训练以及生成速度。

但是，非自回归结构的声谱模型在生成声谱图的过程中，未考虑到音素与音素之间的发音相关性（比如，在生成汉字“我”相关的声谱图帧时，是分别独立生成“w”和“o”这两个音素对应的声谱图帧，未考虑音素“o”对于“w”发音的影响），可能导致声谱图的生成质量较低。

发明内容

本发明提供一种声谱图生成方法及装置，用以解决现有技术中未考虑到音素与音素之间的发音相关性，可能导致声谱图的生成质量较低的缺陷，有效保障声谱图的生成质量。

本发明提供一种声谱图生成方法，包括：

获取与目标文本的音素序列对应的帧级别音素特征序列；所述帧级别音素特征序列包括至少一个帧级别音素特征数据；

将所述帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配，获得各所述帧级别音素特征数据的发音权重分配数据；其中，任一所述帧级别音素特征数据的发音权重分配数据均包括各所述帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重；

基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列，生成目标声谱图；

其中，所述发音权重分配模型是基于第一训练数据对第一预训练模型进行训练得到的；所述第一训练数据包括第一样本帧级别音素特征序列和相应的第一样本发音权重分配数据。

可选的，所述基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列，生成目标声谱图，包括：

将各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列输入至训练好的迭代式声谱解码器，获得所述迭代式声谱解码器通过预设次数的迭代优化生成的所述目标声谱图；

其中，在每一次的迭代优化中，所述迭代式声谱解码器的输入均包括所述帧级别音素特征序列、各所述帧级别音素特征数据的发音权重分配数据和上一次迭代优化所生成的声谱图，所述迭代式声谱解码器的输出均为本次迭代优化所生成的声谱图；

其中，所述迭代式声谱解码器是基于第二训练数据和渐进式训练策略对第二预训练模型进行训练得到的；所述第二训练数据包括第二样本帧级别音素特征序列、第二样本发音权重分配数据和样本声谱图。

可选的，所述获取与目标文本的音素序列对应的帧级别音素特征序列，包括：

获取与目标文本的音素序列对应的音素特征序列；所述音素特征序列包括至少一个音素特征数据；

将所述音素特征序列输入至训练好的时长预测器进行时长预测，获得各所述音素特征数据的预测时长；

基于各所述音素特征数据的预测时长，生成所述帧级别音素特征序列；

其中，所述时长预测器是基于第三训练数据对第三预训练模型进行训练得到的；所述第三训练数据包括样本音素特征序列和所述样本音素特征序列中各样本音素特征数据的标注时长。

可选的，所述基于各所述音素特征数据的预测时长，生成所述帧级别音素特征序列，包括：

分别将各所述音素特征数据的预测时长与预设帧时长的比值，确定为各所述音素特征数据的复制次数；

分别基于各所述音素特征数据的复制次数，对相应的所述音素特征数据进行复制，得到所述帧级别音素特征序列。

可选的，基于第一样本帧级别音素特征序列和所述第一样本发音权重分配数据对第一预训练模型进行训练的过程包括以下步骤：

获取所述第一样本帧级别音素特征序列和所述第一样本发音权重分配数据；所述第一样本帧级别音素特征序列包括至少一个样本帧级别音素特征数据；

将所述第一样本帧级别音素特征序列输入至当前的第一预训练模型进行发音权重分配，获得各所述样本帧级别音素特征数据的发音权重分配数据，并作为所述第一样本帧级别音素特征序列的预测发音权重分配数据；

基于所述预测发音权重分配数据与所述第一样本发音权重分配数据的差异，更新当前的第一预训练模型的模型参数。

可选的，所述获取所述第一样本帧级别音素特征序列和所述第一样本发音权重分配数据，包括：

获取相对应的样本文本和样本声谱图；

基于所述样本文本，生成所述第一样本帧级别音素特征序列；

基于所述样本声谱图，生成所述第一样本发音权重分配数据。

可选的，所述基于所述样本声谱图，生成所述第一样本发音权重分配数据，包括：

分别生成所述样本声谱图中各帧数据的归一化特征相似度序列；其中，任一帧数据的归一化特征相似度序列包括相应帧数据分别与各帧数据的归一化特征相似度；

分别将各帧数据的归一化特征相似度序列确定为相应的所述样本帧级别音素特征数据的发音权重分配数据；

将各所述样本帧级别音素特征数据的发音权重分配数据确定为所述第一样本发音权重分配数据。

可选的，所述分别生成所述样本声谱图中各帧数据的归一化特征相似度序列，包括：

分别生成所述样本声谱图中各帧数据的特征相似度序列；其中，任一帧数据的特征相似度序列均包括相应帧数据分别与各帧数据的特征相似度；

针对任一帧数据的特征相似度序列：在所述帧数据的特征相似度序列中对各特征相似度进行归一化处理，得到所述帧数据的归一化特征相似度序列。

可选的，基于所述第二训练数据和所述渐进式训练策略对第二预训练模型进行训练，得到所述迭代式声谱解码器的过程包括以下步骤：

从所述样本声谱图中获取帧数占比为第一百分比的帧数据；其中，所述第一百分比小于1；

基于所述第二训练数据和所述帧数占比为第一百分比的帧数据，对当前的第二预训练模型进行训练，获得在百分比为所述第一百分比的情况下训练好的第二预训练模型；

确定小于所述第一百分比的第二百分比，将所述第二百分比作为当前的第一百分比，返回执行所述从所述样本声谱图中获取帧数占比为第一百分比的帧数据的步骤，直至获得在当前的第一百分比为0的情况下训练好的第二预训练模型；

将在当前的第一百分比为0的情况下训练好的第二预训练模型确定为所述迭代式声谱解码器。

本发明还提供一种声谱图生成装置，包括：第一获取单元、第一输入单元、第一获得单元和第一生成单元；

所述第一获取单元，用于获取与目标文本的音素序列对应的帧级别音素特征序列；所述帧级别音素特征序列包括至少一个帧级别音素特征数据；

所述第一输入单元，用于将所述帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配；

所述第一获得单元，用于获得各所述帧级别音素特征数据的发音权重分配数据；其中，任一所述帧级别音素特征数据的发音权重分配数据均包括各所述帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重；

所述第一生成单元，用于基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列，生成目标声谱图；

本发明提供的声谱图生成方法及装置，可以获取与目标文本的音素序列对应的帧级别音素特征序列；帧级别音素特征序列包括至少一个帧级别音素特征数据；将帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配，获得各帧级别音素特征数据的发音权重分配数据；其中，任一帧级别音素特征数据的发音权重分配数据均包括各帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重；基于各帧级别音素特征数据的发音权重分配数据和帧级别音素特征序列，生成目标声谱图。

本发明在生成帧级别音素特征数据对应的声谱图帧时，可以基于相应帧级别音素特征数据的发音权重分配数据，在考虑所有帧级别音素特征数据对相应帧级别音素特征数据的发音影响的情况下进行相应声谱图帧的生成，即在考虑所有音素对相应音素的发音影响，考虑所有音素对相应音素的声谱图帧的发音影响的情况下进行声谱图帧的生成，有效保障相应声谱图帧的生成质量，从而有效保障声谱图生成质量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的声谱图生成方法的流程示意图之一；

图2是本发明提供的发音权重分配模型的结构示意图；

图3是本发明提供的迭代式声谱解码器的结构示意图；

图4是本发明提供的声谱图生成方法的流程示意图之二；

图5是本发明提供的声谱图生成装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出第一种声谱图生成方法，该方法可以包括以下步骤：

S101、获取与目标文本的音素序列对应的帧级别音素特征序列；帧级别音素特征序列包括至少一个帧级别音素特征数据；

其中，目标文本可以是需要进行语音合成的文本。

其中，帧级别音素特征数据为能直接用于生成声谱图帧的音素特征数据。

需要说明的是，本发明可以确定目标文本的所有音素，将所有音素按照顺序进行排列，得到音素序列；之后，本发明可以分别基于音素序列中的各音素，生成相应的音素特征数据，将各音素对应的音素特征数据按照顺序进行排列，得到音素特征序列；之后，本发明可以对音素特征序列进行长度对齐，生成相应的帧级别音素特征序列。

可选的，步骤S101可以包括：

获取与目标文本的音素序列对应的音素特征序列；音素特征序列包括至少一个音素特征数据；

将音素特征序列输入至训练好的时长预测器进行时长预测，获得各音素特征数据的预测时长；

基于各音素特征数据的预测时长，生成帧级别音素特征序列；

其中，时长预测器是基于第三训练数据对第三预训练模型进行训练得到的；第三训练数据包括样本音素特征序列和样本音素特征序列中各样本音素特征数据的标注时长。

其中，预测时长可以为某个音素对应的发音时长。比如，当某个音素特征数据的预测时长为0.3秒时，即该音素特征数据对应的音素在声谱图中的帧时长即为0.3秒。

其中，第三预训练模型可以是具备时长预测能力的某个模型。

其中，样本音素特征数据的标注时长可以是由人工标注或者机器标注的时长。

具体的，本发明在对第三预训练模型进行训练时，可以将样本音素特征序列输入到第三预训练模型中，获得第三预训练模型输出的各样本音素特征数据的预测时长；之后，本发明可以衡量各样本音素特征数据的预测时长与标注时长的差异，基于差异对第三预训练模型的模型参数进行更新。

可以理解的是，本发明可以使用多个第三训练数据对第三预训练模型进行训练。在第三预训练模型的模型性能满足要求的情况下，本发明可以将满足模型性能要求的第三预训练模型确定为训练好的时长预测器。

可选的，上述基于各音素特征数据的预测时长，生成帧级别音素特征序列，包括：

分别将各音素特征数据的预测时长与预设帧时长的比值，确定为各音素特征数据的复制次数；

分别基于各音素特征数据的复制次数，对相应的音素特征数据进行复制，得到帧级别音素特征序列。

其中，预设帧时长即为声谱图帧的特定时长。

具体的，本发明可以在得到各音素特征数据的复制次数后，按照复制次数对相应的音素特征数据进行复制，在完成对各音素特征数据的复制之后，将所有音素特征数据按照顺序进行排列，得到帧级别音素特征序列。比如，当存在有两个音素特征数据A和B，复制次数分别为2和3，则帧级别音素特征序列即可以为{A，A，B，B，B}。可以理解的是，音素特征数据在进行复制后得到的每个音素特征数据，均为一个帧级别音素特征数据。

需要说明的是，音素特征数据和帧级别音素特征数据均可以为向量。

S102、将帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配；

S103、获得各帧级别音素特征数据的发音权重分配数据；其中，任一帧级别音素特征数据的发音权重分配数据均包括各帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重；

其中，发音权重分配模型是基于第一训练数据对第一预训练模型进行训练得到的；第一训练数据包括第一样本帧级别音素特征序列和相应的第一样本发音权重分配数据。

需要说明的是，现有技术在基于某个帧级别音素特征数据生成声谱图帧时，未考虑其他帧级别音素特征数据对该帧级别音素特征数据的发音影响，即该帧级别音素特征数据对应的声谱图帧受到该帧级别音素特征数据的影响权重是百分之百。本发明可以利用发音权重分配模型，分别确定各帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重，使得在生成帧级别音素特征数据对应的声谱图帧时，能考虑到所有帧级别音素特征数据对于相应声谱图帧的发音影响，即考虑所有音素对相应音素的发音影响，避免声谱图出现声谱模糊和声谱断裂的问题，有效保障声谱图的生成质量。

其中，第一预训练模型可以是具备发音权重分配能力的某个模型。

其中，第一样本发音权重分配数据可以是由人工标注或机器标注得到的样本帧级别音素序列中各样本帧级别音素特征数据的发音权重分配数据。

具体的，本发明可以将第一样本帧级别音素特征序列输入到发音权重分配模型中，获得发音权重分配模型输出的第一样本帧级别音素特征序列中各样本帧级别音素特征数据的发音权重分配分配数据；之后，本发明可以衡量各样本帧级别音素特征数据的发音权重分配数据与第一样本发音权重分配数据的差异，基于差异对第一预训练模型的模型参数进行更新。

可以理解的是，本发明可以使用多个第一训练数据对第一预训练模型进行训练。在第一预训练模型的模型性能满足模型性能要求的情况下，本发明可以将模型性能满足模型性能要求的第一预训练模型确定为发音权重分配模型。

S104、基于各帧级别音素特征数据的发音权重分配数据和帧级别音素特征序列，生成目标声谱图。

具体的，本发明可以在获得各帧级别音素特征数据的发音权重分配数据后，基于各帧级别音素特征数据的发音权重分配数据和帧级别音素特征序列，生成声谱图帧和目标声谱图。

具体的，本发明在生成与某个帧级别音素特征数据对应的声谱图帧时，可以基于该帧级别音素特征数据的发音权重分配数据，考虑所有帧级别音素特征数据对该帧级别音素特征数据的发音影响，即考虑所有音素对相应音素的发音影响，考虑所有音素对相应音素的声谱图帧的发音影响，有效保障相应声谱图帧的生成质量，从而有效保障声谱图生成质量。

本发明提出的声谱图生成方法，可以获取与目标文本的音素序列对应的帧级别音素特征序列；帧级别音素特征序列包括至少一个帧级别音素特征数据；将帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配，获得各帧级别音素特征数据的发音权重分配数据；其中，任一帧级别音素特征数据的发音权重分配数据均包括各帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重；基于各帧级别音素特征数据的发音权重分配数据和帧级别音素特征序列，生成目标声谱图。本发明在生成帧级别音素特征数据对应的声谱图帧时，可以基于相应帧级别音素特征数据的发音权重分配数据，在考虑所有帧级别音素特征数据对相应帧级别音素特征数据的发音影响的情况下进行相应声谱图帧的生成，即在考虑所有音素对相应音素的发音影响，考虑所有音素对相应音素的声谱图帧的发音影响的情况下进行声谱图帧的生成，有效保障相应声谱图帧的生成质量，从而有效保障声谱图生成质量。

基于图1，本发明提出第二种声谱图生成方法，在该方法中，基于第一样本帧级别音素特征序列和第一样本发音权重分配数据对第一预训练模型进行训练的过程包括以下步骤：

获取第一样本帧级别音素特征序列和第一样本发音权重分配数据；第一样本帧级别音素特征序列包括至少一个样本帧级别音素特征数据；

将第一样本帧级别音素特征序列输入至当前的第一预训练模型进行发音权重分配，获得各样本帧级别音素特征数据的发音权重分配数据，并作为第一样本帧级别音素特征序列的预测发音权重分配数据；

基于预测发音权重分配数据与第一样本发音权重分配数据的差异，更新当前的第一预训练模型的模型参数。

可以理解的是，本发明可以在更新当前的第一预训练模型的模型参数之后，再次使用相应的训练数据对第一预训练模型进行训练，对第一预训练模型的模型参数进行更新，直至获得满足模型性能要求的第一预训练模型，将满足模型性能要求的第一预训练模型确定为训练好的发音权重分配模型。

可选的，上述获取第一样本帧级别音素特征序列和第一样本发音权重分配数据，包括：

获取相对应的样本文本和样本声谱图；

基于样本文本，生成第一样本帧级别音素特征序列；

基于样本声谱图，生成第一样本发音权重分配数据。

具体的，本发明在获取样本文本后，可以获得录制人工朗读样本文本的音频，生成与音频对应的声谱图并确定为样本声谱图。

具体的，本发明可以基于样本文本，依次生成相应的音素序列、音素特征序列和帧级别音素特征序列，将生成的帧级别音素特征数据确定为第一样本帧级别音素特征序列。

可选的，上述基于样本声谱图，生成第一样本发音权重分配数据，包括：

分别生成样本声谱图中各帧数据的归一化特征相似度序列；其中，任一帧数据的归一化特征相似度序列包括相应帧数据分别与各帧数据的归一化特征相似度；

分别将各帧数据的归一化特征相似度序列确定为相应的样本帧级别音素特征数据的发音权重分配数据；

将各样本帧级别音素特征数据的发音权重分配数据确定为第一样本发音权重分配数据。

可选的，上述分别生成样本声谱图中各帧数据的归一化特征相似度序列，包括：

分别生成样本声谱图中各帧数据的特征相似度序列；其中，任一帧数据的特征相似度序列均包括相应帧数据分别与各帧数据的特征相似度；

针对任一帧数据的特征相似度序列：在帧数据的特征相似度序列中对各特征相似度进行归一化处理，得到帧数据的归一化特征相似度序列。

在实际应用中，同一音素对应的声谱图帧往往是相似的，反之不同音素对应的声谱图帧往往是不相似的。本发明可以基于样本声谱图帧之间的相似度，来获得第一样本帧级别音素特征数据的第一样本发音权重分配数据。

具体的，本发明在获取样本声谱图后，可以分别以各声谱图帧为处理对象，分别确定处理对象与各声谱图帧的特征相似度，得到处理对象的特征相似度序列，在处理对象的特征相似度序列中对各特征相似度中进行归一化处理，得到各归一化特征相似度，将处理对象的各归一化特征相似度按照相应顺序进行排列，可以得到处理对象的归一化特征相似度序列；之后，本发明可以将各声谱图帧的归一化特征相似度序列合并为相应的矩阵。

为更好的说明特征相似度、归一化处理和相应序列的确定过程，本发明提出下述例1进行说明。

例1、对于一个

的样本声谱图/>

，/>

表示频率轴的特征维度，/>

表示时间轴的帧数，本发明可以欧式距离或余弦距离来确定声谱图帧之间的特征相似度，得到/>

大小的距离矩阵/>

，其中，第i行第j列的值/>

表示声谱图第i帧和第j帧之间的特征相似度，距离矩阵/>

中第i行的数据即可以为第i帧的特征相似度序列；

其中，声谱图第i帧可以表示为

，声谱图第j帧可以表示为

，则：

；

之后，本发明可以通过尺度缩放公式对距离矩阵

进行尺度缩放，来在各声谱图帧的特征相似度序列中进行归一化处理，得到相应的引导式缩放距离矩阵/>

，/>

中每一行的数据均为相应声谱图帧的归一化特征相似度序列；其中，尺度缩放公式可以为平方和归一化公式，具体可以为：

；

其中，

表示第i帧和第j帧的特征相似度在第i帧的特征相似度序列中进行归一化处理得到的归一化特征相似度。

可以理解的是，在对距离矩阵

进行尺度缩放后，可以得到相应的引导式缩放矩阵/>

。本发明可以将/>

中第i行的数据确定为样本声谱图中第i帧的归一化特征相似度序列。

具体的，

中第i行的数据确定为样本声谱图中第i帧的归一化特征相似度序列，即可以作为第一样本帧级别音素特征序列中相应样本帧级别音素特征数据的发音权重分配数据；/>

即可以第一样本发音权重分配数据。

具体的，本发明可以结合缩放矩阵

计算Huber损失函数，对发音权重分配模型对应的第一预训练模型进行梯度反向传播，更新第一预训练模型的模型参数，引导发音权重分配模型能够学习到真正的音素边界，使得发音权重分配模型可以在考虑音素发音相关性的情况下，生成各帧级别音素特征数据的发音权重分配数据，提高音素与声谱图帧的信息对齐精度。其中，结合缩放矩阵/>

计算Huber损失函数的公式可以为：

；

其中，

表示/>

时计算的Huber损失值矩阵，/>

表示矩阵/>

中i行j列的值,/>

为Huber损失函数的参数，设置为1.0；A表示模型自动计算的发音权重分配矩阵，/>

表示矩阵/>

中i行j列的值；/>

表示根据样本声谱图计算的引导式缩放矩阵，

表示矩阵/>

中i行j列的值；/>

表示计算/>

的平均绝对误差，/>

表示计算/>

的均方误差。

需要说明的是，本发明可以在获得矩阵

后，将矩阵/>

中所有的值进行求和，将求和所得的值即确定为最终损失值，基于最终损失值来第一预训练模型的模型参数。

可选的，如图2所示，发音权重分配模型的模型结构中可以包括卷积层+归一化层、多头自注意力层、归一化层（残差）和卷积层+归一化层。具体的，自注意力层可以有效地整合全局信息，有助于通过权重调整分配对齐状态。具体的，发音权重分配模型可以通过自注意力层计算帧级别音素特征数据与整体音素特征数据之间的相关性，进而自动调整帧级别音素特征数据对齐的权重分布状态，相关性较强的部分权重应该较高，反之则较低。

本发明提出的声谱图生成方法，可以有效通过模型训练来获得发音权重分配模型，引导发音权重分配模型能够学习到真正的音素边界，使得发音权重分配模型可以在考虑音素发音相关性的情况下，生成各帧级别音素特征数据的发音权重分配数据，提高音素与声谱图帧的信息对齐精度，有效保障声谱图的生成质量。

基于图1，本发明提出第三种声谱图生成方法。在该方法中，步骤S104可以包括：

将各帧级别音素特征数据的发音权重分配数据和帧级别音素特征序列输入至训练好的迭代式声谱解码器，获得迭代式声谱解码器通过预设次数的迭代优化生成的目标声谱图；

其中，在每一次的迭代优化中，迭代式声谱解码器的输入均包括帧级别音素特征序列、各帧级别音素特征数据的发音权重分配数据和上一次迭代优化所生成的声谱图，迭代式声谱解码器的输出均为本次迭代优化所生成的声谱图；

其中，迭代式声谱解码器是基于第二训练数据和渐进式训练策略对第二预训练模型进行训练得到的；第二训练数据包括第二样本帧级别音素特征序列、第二样本发音权重分配数据和样本声谱图。

需要说明的是，本发明可以使用迭代式声谱解码器，取代现有技术中普通的单次解码器，通过迭代优化来缓解非自回归结构并行合成的建模难度，在保障声谱图帧的合成速度的情况下有效保障声谱图的生成质量。

其中，预设次数可以是由技术人员根据实际情况设置，比如设置为2，本发明对此不作限定。

其中，第二预训练模型可以是具备声谱图生成能力的某个模型。需要说明的是，本发明可以由技术人员根据实际情况选取第二预训练模型，本发明对此不作限定。

本发明的发明人在训练实践中其实会发现，声谱图解码器往往会优先学习简单的部分，再去慢慢学习困难的部分，比如，在模型训练初期，模型可以很快学习好较为简单的静音段。

本发明所采用的迭代式声谱图解码器，在相邻两次的声谱图生成过程中，对于简单帧的生成，其区别往往不是很大，更多地是体现在对复杂帧部分的优化上。迭代式声谱图解码器在迭代优化中，可以联系上一次生成的包括简单帧的声谱图，在本次声谱图生成过程中，基于声谱图中的简单帧对复杂帧进行优化，实现在考虑声谱图帧与帧间相关性和连续性的情况下进行声谱图的生成。比如，人在背课文的过程中，往往更容易先记住一部分句子（往往是简单句），然后联系这些已经记住的部分再去“联想”还没记住的部分，这样其实是比直接去想还没记住的部分（往往是复杂句）是更加容易的，而这种方式无形中其实就考虑到了上下文之间的相关性和连续性了。

可选的，在本发明提出的其他声谱图生成方法中，基于第二训练数据和渐进式训练策略对第二预训练模型进行训练，得到迭代式声谱解码器的过程包括以下步骤：

从样本声谱图中获取帧数占比为第一百分比的帧数据；其中，所述第一百分比小于1；

基于第二训练数据和帧数占比为第一百分比的帧数据，对当前的第二预训练模型进行训练，获得在百分比为第一百分比的情况下训练好的第二预训练模型；

确定小于第一百分比的第二百分比，将第二百分比作为当前的第一百分比，返回执行从样本声谱图中获取帧数占比为第一百分比的帧数据的步骤，直至获得在当前的第一百分比为0的情况下训练好的第二预训练模型；

将在当前的第一百分比为0的情况下训练好的第二预训练模型确定为迭代式声谱解码器。

具体的，本发明在使用第一百分比的帧数据对第二预训练模型进行训练时，可以先行从样本声谱图中提取出第一百分比的帧数据，之后基于第一百分比的帧数据，生成包括第一百分比的帧数据、以及相应百分比空白帧数据的目标样本声谱图，比如，当第一百分比为75%时，本发明可以先行生成包括75%帧数据和25%空白帧数据的目标样本声谱图；之后，将第二训练数据和目标样本声谱图输入至第二预训练模型，获得第二预训练模型通过迭代优化生成的目标声谱图，确定目标声谱图与样本声谱图之间的差异，基于该差异来更新第二预训练模型的模型参数。

可以理解的是，本发明可以在特定的第一百分比的情况下，使用不同的第二训练数据和目标样本声谱图对第二预训练模型进行训练。在第二预训练模型的模型性能满足要求的情况下，本发明可以将模型性能满足要求的第二预训练模型，确定为在特定的第一百分比的情况下训练好的第二预训练模型。

具体的，本发明可以在第二预训练模型在某个特定第一百分比的条件下训练好之后，降低第一百分比的值并作为新的特定第一百分比，比如将第一百分比从上述75%降低至50%，将50%作为新的第一百分比；在新的特定第一百分比的条件下继续对第二预训练模型进行训练。本发明可以逐步降低第一百分比的值，直至获得在第一百分比为0的条件下训练好的第二预训练模型。

需要说明的是，本发明通过渐进式训练策略，可以有效降低模型学习难度，即降低迭代式声谱解码器的迭代优化学习难度，使得迭代式声谱解码器在训练过程中更好的学习到对声谱图进行迭代优化的能力，有效保障迭代式声谱解码器的声谱图迭代优化能力，从而有效保障声谱图的生成质量。

还需要说明的是，本发明通过迭代式声谱解码器以及与之匹配的渐进式训练策略，可以在极大程度上增强迭代式声谱解码器对声谱图内在连续性与相关性的建模能力，很好地缓解了非自回归结构中过强的条件独立性假设对于声谱图生成质量的影响，有效缓解非自回归结构中过强的条件独立性假设对于声谱图生成质量的影响。

可选的，如图3所示，迭代式声谱解码器的模型结构可以包括前置网络、多个残差膨胀卷积块、后置网络（残差）和后置网络。其中，迭代式声谱解码器采用的是多个残差膨胀卷积块堆叠的极简结构，有利于在训练与合成阶段加速计算，并通过多次迭代重建上一次生成的声谱图，进而缓解非自回归结构并行合成的建模难度。

本发明提出的声谱图生成方法，可以通过迭代式声谱解码器进行声谱图迭代优化来生成目标声谱图，进一步保障声谱图的生成质量。

如图4所示，本发明的声谱图生成方法可以应用于声学模型中。具体的，该声学模型可以包括音素解码器、不一致性适配器和迭代式声谱解码器；其中，不一致性适配器可以包括时长预测器、长度对齐模块和发音权重分配模型。

具体的，本发明可以先行获取与目标文本对应的音素序列，将音素序列输入至训练好的音素解码器，获得音素解码器输出的音素特征序列，将音素特征序列输入至不一致性适配器；

具体的，时长预测器可以生成音素特征序列中各音素特征数据的预测时长并输入到长度对齐模块，之后长度对齐模块可以基于各音素特征数据的预测时长进行长度对齐，将长度对齐后的各音素特征数据按照顺序进行排列，得到帧级别音素特征序列；之后，可以将帧级别音素特征序列输入至发音权重分配模型，获得发音权重分配模型输出的各帧级别音素特征数据的发音权重分配数据；之后，本发明可以将各帧级别音素特征数据和相应的发音权重分配数据输入到迭代式声谱图解码器中进行声谱图迭代优化，获得迭代式声谱图解码器生成和输出的目标声谱图。

需要说明的是，本发明中的音素解码器、不一致性适配器和迭代式声谱图解码器可以在训练过程中进行联合训练，有效保障各模型的训练效果和联合使用能力，从而保障声谱图生成质量。

本发明提出的声谱图生成方法，可以通过音素解码器、不一致性适配器和迭代式声谱图解码器来生成声谱图，有效保障声谱图生成质量。

与图1所示方法相对应，如图5所示，本发明提出一种声谱图生成装置。该装置包括：第一获取单元501、第一输入单元502、第一获得单元503和第一生成单元504；

所述第一获取单元501，用于获取与目标文本的音素序列对应的帧级别音素特征序列；所述帧级别音素特征序列包括至少一个帧级别音素特征数据；

所述第一输入单元502，用于将所述帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配；

所述第一获得单元503，用于获得各所述帧级别音素特征数据的发音权重分配数据；其中，任一所述帧级别音素特征数据的发音权重分配数据均包括各所述帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重；

所述第一生成单元504，用于基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列，生成目标声谱图；

可选的，所述第一生成单元504，包括：第二输入单元和第二获得单元；

所述第二输入单元，用于将各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列输入至训练好的迭代式声谱解码器；

所述第二获得单元，用于获得所述迭代式声谱解码器通过预设次数的迭代优化生成的所述目标声谱图；

可选的，所述第一获取单元501，包括：第二获取单元、第三输入单元、第三获得单元和第二生成单元；

所述第二获取单元，用于获取与目标文本的音素序列对应的音素特征序列；所述音素特征序列包括至少一个音素特征数据；

所述第三输入单元，用于将所述音素特征序列输入至训练好的时长预测器进行时长预测；

所述第三获得单元，用于获得各所述音素特征数据的预测时长；

所述第二生成单元，用于基于各所述音素特征数据的预测时长，生成所述帧级别音素特征序列；

可选的，所述第二生成单元，包括：第一确定单元和复制单元；

所述第一确定单元，用于分别将各所述音素特征数据的预测时长与预设帧时长的比值，确定为各所述音素特征数据的复制次数；

所述复制单元，用于分别基于各所述音素特征数据的复制次数，对相应的所述音素特征数据进行复制，得到所述帧级别音素特征序列。

可选的，基于第一样本帧级别音素特征序列和所述第一样本发音权重分配数据对第一预训练模型进行训练，设置为：

可选的，所述获取所述第一样本帧级别音素特征序列和所述第一样本发音权重分配数据，设置为：

获取相对应的样本文本和样本声谱图；

可选的，所述基于所述样本声谱图，生成所述第一样本发音权重分配数据，设置为：

可选的，所述分别生成所述样本声谱图中各帧数据的归一化特征相似度序列，设置为：

可选的，基于所述第二训练数据和所述渐进式训练策略对第二预训练模型进行训练，得到所述迭代式声谱解码器，设置为：

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行声谱图生成方法，该方法包括：

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的声谱图生成方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的声谱图生成方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声谱图生成方法，其特征在于，包括：

2.根据权利要求1所述的声谱图生成方法，其特征在于，所述基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列，生成目标声谱图，包括：

3.根据权利要求1所述的声谱图生成方法，其特征在于，所述获取与目标文本的音素序列对应的帧级别音素特征序列，包括：

4.根据权利要求3所述的声谱图生成方法，其特征在于，所述基于各所述音素特征数据的预测时长，生成所述帧级别音素特征序列，包括：

5.根据权利要求1所述的声谱图生成方法，其特征在于，基于第一样本帧级别音素特征序列和所述第一样本发音权重分配数据对第一预训练模型进行训练的过程包括以下步骤：

6.根据权利要求5所述的声谱图生成方法，其特征在于，所述获取所述第一样本帧级别音素特征序列和所述第一样本发音权重分配数据，包括：

获取相对应的样本文本和样本声谱图；

7.根据权利要求6所述的声谱图生成方法，其特征在于，所述基于所述样本声谱图，生成所述第一样本发音权重分配数据，包括：

8.根据权利要求7所述的声谱图生成方法，其特征在于，所述分别生成所述样本声谱图中各帧数据的归一化特征相似度序列，包括：

9.根据权利要求2所述的声谱图生成方法，其特征在于，基于所述第二训练数据和所述渐进式训练策略对第二预训练模型进行训练，得到所述迭代式声谱解码器的过程包括以下步骤：

10.一种声谱图生成装置，其特征在于，包括：第一获取单元、第一输入单元、第一获得单元和第一生成单元；