CN115116427B

CN115116427B - 标注方法、语音合成方法、训练方法及装置

Info

Publication number: CN115116427B
Application number: CN202210709206.6A
Authority: CN
Inventors: 乔宏利; 王洪斌; 蒋宁; 吴海英; 刘敏
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2023-11-14
Anticipated expiration: 2042-06-22
Also published as: CN115116427A

Abstract

本申请公开了一种标注方法、语音合成方法、训练方法及装置，属于自然语言处理技术领域。本申请提供的音频文本韵律的标注方法包括：获取目标音频以及与所述目标音频对应的目标文本；将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述目标音频的韵律停顿特征；基于所述韵律指示信息，对所述目标文本进行韵律标注。

Description

标注方法、语音合成方法、训练方法及装置

技术领域

本申请属于自然语言处理技术领域，具体涉及一种标注方法、语音合成方法、训练方法及装置。

背景技术

在文本语音合成模型的训练过程中，由于会大量使用音频-文本对作为文本语音合成模型的训练样本，音频-文本对中会包含已标注韵律的文本，因而保证文本中标注的韵律的准确性是十分重要的。

相关技术在对文本进行韵律标注的过程中，一般是将文本输入至机器学习模型，通过机器学习模型对输入的文本进行处理，得到带韵律标注的文本。

然而，相关技术中这种韵律标注的方式由于仅考虑文本内容本身，在很多情况下，得到的带韵律标注的文本会与音频文本对中的音频不匹配，存在韵律标注的准确率较低的问题。

发明内容

本申请实施例提供一种标注方法、语音合成方法、训练方法及装置，以解决韵律标注的准确率较低的问题。

第一方面，本申请实施例提供了一种音频文本韵律的标注方法，该方法包括：

获取目标音频以及与所述目标音频对应的目标文本；

将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述目标音频的韵律停顿特征；

基于所述韵律指示信息，对所述目标文本进行韵律标注。

第二方面，本申请实施例提供了一种语音合成方法，该方法包括：

获取带韵律标注的目标文本和已训练好的语音合成模型；

将所述带韵律标注的目标文本输入至所述已训练好的语音合成模型，得到目标语音；

其中，所述带韵律标注的目标文本是利用如第一方面所述的标注方法对目标文本进行韵律标注得到的。

第三方面，本申请实施例提供了一种语音合成模型的训练方法，该方法包括：

获取第一语音合成模型和Q份训练样本数据；

对所述Q份训练样本数据进行预处理，得到预处理后的Q份目标训练样本数据；其中，所述Q份目标训练样本数据中的每一份目标训练样本数据包括音频样本数据和已标注韵律的文本样本数据，Q为大于2的整数；

通过所述Q份目标训练样本数据，对第一语音合成模型进行训练，得到目标语音合成模型；

其中，所述已标注韵律的文本样本数据是利用如第一方面所述的标注方法对文本样本数据进行韵律标注得到的。

第四方面，本申请实施例提供了一种音频文本韵律的标注装置，包括：第一获取模块、第一获得模块以及标注模块；

所述第一获取模块，用于获取目标音频以及与所述目标音频对应的目标文本；

所述第一获得模块，用于将所述目标音频输入目标韵律模型进行音频转化处理，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述目标音频的韵律停顿特征；

所述标注模块，用于基于所述韵律指示信息，对所述目标文本进行韵律标注。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面、第二方面或第三方面所述的方法的步骤。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面、第二方面或第三方面所述的方法的步骤。

在本申请实施例中，通过获取目标音频以及与所述目标音频对应的目标文本；将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述目标音频的韵律停顿特征；基于所述韵律指示信息，对所述目标文本进行韵律标注。这样，由于将音频输入已训练好的韵律模型得到音频的韵律停顿特征，进而将音频的韵律作为文本的韵律来对文本进行韵律标注，使得文本中标注的韵律标记符合音频的实际发音停顿情况，提高了对文本进行韵律标注的准确率，从而解决了韵律标注的准确率较低的问题。

附图说明

图1-1为本申请实施例提供的一种音频文本韵律的标注过程和语音合成模型的训练过程的示意图；

图1-2为本申请实施例提供的一种音频文本韵律的标注方法的示意性流程图；

图1-3为本申请实施例提供的另一种音频文本韵律的标注方法的示意性流程图；

图1-4为本申请实施例提供的另一种音频文本韵律的标注方法的示意性流程图；

图1-5为本申请实施例提供的另一种音频文本韵律的标注方法的示意性流程图；

图2-1为本申请实施例提供的一种目标韵律模型的示意结构图；

图2-2为本申请实施例提供的另一种目标韵律模型的示意结构图；

图2-3为本申请实施例提供的一种目标韵律模型的数据处理过程的示意图；

图3-1为本申请实施例提供的一种目标韵律模型的训练过程的示意性流程图；

图3-2为本申请实施例提供的另一种目标韵律模型的训练过程的示意性流程图；

图3-3为本申请实施例提供的另一种目标韵律模型的训练过程的示意性流程图；

图4为本申请实施例提供的一种语音合成方法的示意性流程图；

图5为本申请实施例提供的一种语音合成模型的训练方法的示意性流程图；

图6为本申请实施例提供的一种音频文本韵律的标注装置的示意性结构图；

图7为本申请实施例提供的一种电子设备的示意性结构图；

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

在对语音合成模型进行训练时，训练数据包括音频-文本数据对(即音频内容和与其对应的文本内容)。为了使语音合成模型合成的语音有更高的自然度，在合成语音时可以用文本中标注的韵律符号调节合成的语音的韵律。因而，在训练语音合成模型时，一般会对音频-文本数据对中的文本样本标注韵律符号。

传统的语音合成模型的训练样本中的韵律符号，主要是人工标注的。人工标注方法，往往是人工观察语音声谱图中的能量变化，判断停顿时长，并按照时长划分来标注不同的韵律级别。例如，设定韵律标记的标准为：停顿延迟小于50毫秒标注#1，停顿延迟小于50-100毫秒标注#2，停顿延迟小于100-300毫秒标注#3，停顿延迟小于大于300毫秒标注#4。标注人员需要拉取语音的声谱图，找到对应的韵律停顿点，听音看它之前是什么内容，然后再在文本中对应的内容后标注正确的韵律符号。整个人工标注的耗时较长，成本较高。

与人工进行文本韵律标注相比，为了提高标注效率以及降低标注成本，相关技术中一般使用基于文本信息的神经网络模型，利用此模型预测文本对应的韵律符号，进而将韵律符号插入文本中的对应位置处，以实现对文本的韵律标注。进而，将标注了韵律符号的文本作为语音合成模型的训练样本。

而申请人注意到，相关技术中采用基于文本信息的韵律标注模型，对文本进行韵律标注的可靠性和准确性较低。具体而言，在实际应用场景中，不同的说话人用不同的感情去朗读同样一句话时，韵律停顿情况不太一样。例如：对于“我想知道你为什么现在才回来”这句话，如果是语速较快的人，她朗读时的语音韵律可能是“我想#1知道#1你#1为什么#1现在#1才#1回来#3”，如果语速较慢的人，感情平和，她朗读时的语音韵律可能是”我#1想知道#3你#1为什么#2现在#2才#1回来#4”。可见，由于未考虑到说话人、语境信息等因素，通过文本信息训练的韵律标注模型得到的韵律，往往跟录音中的实际韵律偏差较大，不能准确地得到符合实际录音的韵律停顿情况的韵律。

对此，本申请实施例提供一种音频文本韵律的标注方法，能够解决相关技术中对文本进行标注的韵律信息准确率较低的问题。本申请实施例提供的音频文本韵律的标注方法的总体构思可以包括：获取原始音频以及与原始音频对应的文本；将原始音频输入至目标韵律模型，得到目标结果；其中，目标韵律模型为已训练好的韵律模型，目标结果包括韵律指示信息，基于韵律指示信息，对文本进行韵律标注。举例而言，如图1-1所示，本申请实施例提供的音频文本韵律的标注过程为：获取原始音频以及与原始音频对应的文本“金家坝景区有库容二亿立方”；将原始音频输入至目标韵律模型，得到目标结果；其中，目标结果包括文本韵律编码“[N，N，#1，N，#2，#1，N，#1，N，N，N，#2]”，基于文本韵律编码，对文本进行韵律标注，得到标注韵律的文本：“金家坝#1景区#2有#1库容#1二亿立方#2”。这样，将音频输入已训练好的韵律模型得到音频的韵律停顿特征，将音频的韵律作为文本的韵律来对文本进行韵律标注，使得文本中标注的韵律标记符合音频的实际发音停顿情况，对文本进行韵律标注的准确率高。

在本申请实施例提供的音频文本韵律的标注方法的基础上，本申请实施例还提供一种语音合成模型的训练方法，能够解决相关技术中由于训练样本的文本样本标注韵律的准确率较低，而导致合成语音的自然度较差的问题。本申请实施例提供的语音合成模型的训练方法的总体构思是：利用本申请实施例提供的音频文本韵律的标注方法，对文本样本进行韵律标注；之后，将已标注韵律的文本作为语音合成模型的训练样本，基于此训练样本对语音合成模型进行训练。举例而言，如图1-1所示，本申请实施例提供的语音合成模型的训练过程为：在将原始音频对应的文本“金家坝景区有库容二亿立方”标注为已标注韵律的文本“金家坝#1景区#2有#1库容#1二亿立方#2”之后，可以将所述已标注韵律的文本“金家坝#1景区#2有#1库容#1二亿立方#2”和原始音频作为一份训练样本，进行语音合成模型的训练。这样，由于语音合成模型的训练样本中的文本样本的韵律标记符合真实录音的停顿情况，语音合成模型的训练结果更加健壮稳定，不容易发生因韵律标记符号不准确导致的跳音、重复、噪音等语音合成问题。

在实际应用中，本申请实施例提供的音频文本韵律的标注方法可以应用于文本样本的韵律标注，此已进行韵律标注的文本样本可作为语音合成模型的训练样本。当然，本申请实施例提供的音频文本韵律的标注方法还可以应用于其他领域的文本韵律的标注，本申请在此不作具体限制。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频文本韵律的标注方法、语音合成模型的训练方法进行详细地说明。

图1-2为本申请实施例提供的一种音频文本韵律的标注方法的示意性流程图。

如图1-2所示，本申请实施例提供的音频文本韵律的标注方法。可以包括：

步骤110：获取目标音频以及与所述目标音频对应的目标文本；

步骤120：将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述目标音频的韵律停顿特征；

步骤130：基于所述韵律指示信息，对所述目标文本进行韵律标注。

在步骤110中，目标文本可以是待标注韵律的文本。也就是说，目标文本初始可以没有任何韵律标注。目标音频与目标文本具有对应关系，目标音频与目标文本的表达内容可以一致。例如，目标音频的录音内容可以为“今年天气冷得早大家起得晚”，目标文本中的字符可以为“今年天气冷得早大家起得晚”。

在步骤120中，目标韵律模型可以为已训练好的韵律模型，将目标音频输入至目标韵律模型可以得到目标结果，目标结果可以包括韵律指示信息，韵律指示信息用于指示目标音频的韵律停顿特征。换言之，韵律指示信息可以指示目标音频中的句子的停顿情况(停顿点、停顿级别等)。

在步骤130中，基于所述韵律指示信息，对目标文本进行韵律标注。由于目标音频与目标文本具有对应关系，可以将目标音频的韵律停顿特征作为目标文本的韵律停顿特征，来对文本进行韵律标注，使得文本中标注的韵律标记符合音频的实际发音停顿情况，对文本进行韵律标注的语音自然度较高，准确率较高。

能够理解的是，实际应用中，对于表达内容一致的文本和音频，文本自身有自己的韵律特点，而音频的韵律特点还需要考虑到实际录音情景中说话人、语境、说话人情绪等相关信息(例如不同的说话人读同一表达内容的停顿情况可能不同)，导致文本的韵律特点与音频的韵律特点可能不完全一致。而本申请实施例通过已训练好的韵律模型获得音频对应的韵律停顿特征，并基于音频对应的韵律停顿特征对所述文本进行韵律标注，使得文本中标注的韵律标记符号真正符合音频的实际情况。相比于相关技术中根据文本自身韵律特点建模的文本韵律预测方法，具有更好的准确性和合理性。

在本申请实施例提供的音频文本韵律的标注方法中，通过获取目标音频以及与所述目标音频对应的目标文本；将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述目标音频的韵律停顿特征；基于所述韵律指示信息，对所述目标文本进行韵律标注。这样，由于将音频输入已训练好的韵律模型得到音频的韵律停顿特征，进而将音频的韵律作为文本的韵律来对文本进行韵律标注，使得文本中标注的韵律标记符合音频的实际发音停顿情况，提高了对文本进行韵律标注的准确率，从而解决了韵律标注的准确率较低的问题。

在一个具体的实施例中，可以针对目标音频和/或目标文本设置预设条件，此预设条件可以对目标音频和/或目标文本进行规范，从而可以保证较快地处理效率，同时避免目标韵律模型与目标文本的韵律标注的潜在不对应。如图1-3所示，上述步骤120中，将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果可以包括：

步骤1201：判断所述目标音频和/或所述目标文本是否满足预设条件；

其中，所述预设条件为：音频的时长小于等于第一阈值，和/或，文本的长度小于等于第二阈值；

步骤1202：在所述目标音频和/或所述目标文本满足预设条件的情况下，将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果。

能够理解的是，在预先训练目标韵律模型的过程中，训练所用的样本数据可以包括音频样本和已标注韵律的文本样本，文本样本与音频样本具有对应关系，样本数据中的音频样本的时长可以小于等于第一阈值，样本数据中的文本样本的长度可以小于等于第二阈值。进而，通过预设条件的设置可以保证需要处理的目标音频相对较短，且可以保证待目标韵律模型处理的目标音频与目标文本具有较高的对应性。另外，通过对目标音频和目标文本进行规范，可以灵活设置目标韵律模型，保证目标韵律模型与满足预设条件的音频文本数据对具有较高的匹配度。

其中，由于文本样本与音频样本具有对应关系，文本样本与音频样本的表达内容可以一致，第一阈值和第二阈值的取值密切相关。例如，根据说话人的正常语速范围，可以将第一阈值设置为20秒，将第二阈值设置为64个字符。

在此基础上，在步骤120中，所述目标音频的时长可以小于等于第一阈值，和/或，所述目标文本的长度可以小于等于第二阈值，如此，由目标音频和目标文本组成的音频文本数据对可与目标韵律模型相匹配(例如，在针对目标韵律模型设置的可用范围内)，进而可以利用训练好的韵律模型准确地对所述目标文本进行韵律标注。

此外，对于不在目标韵律模型的可用范围内的极少数音频文本对(例如音频超过20秒，或文本字符超过64个)，可以用人工标注的方式进行文本韵律标注，或者也可以直接删除这些音频文本对，不影响后续将已标注韵律的目标文本和目标音频作为语音合成模型的训练样本的进行模型训练。

在另一个具体的实施例中，如图2-1所示，目标韵律模型可以包括：用于将音频转换为向量的特征编码器层、用于学习音频的上下文关系的双向循环网络层以及用于预测音频韵律的全连接层，所述特征编码器层与所述双向循环网络层相连接，所述双向循环网络层与所述全连接层相连接。

在音频转化处理方面，所述特征编码器层，用于将所述目标音频进行音频特征提取和编码处理，得到音频特征表达向量；所述双向循环网络层，用于对基于所述音频特征表达向量得到的目标音频特征表达向量的上下文时序特征进行循环学习，得到双向特征向量；所述全连接层，用于对基于所述双向特征向量得到的目标音频特征矩阵进行分类预测处理，得到目标结果。

为了使基于目标韵律模型得到的目标结果准确地反映目标音频的韵律停顿特征，如图1-4所示，上述步骤120中，将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果具体可以包括：

步骤1203：将所述目标音频输入至目标韵律模型的所述特征编码器层，对所述目标音频进行音频特征提取和编码处理，得到音频特征表达向量；

步骤1204：向所述双向循环网络层输入基于所述音频特征表达向量得到的目标音频特征表达向量，得到双向特征向量；

步骤1205：向所述全连接层输入基于所述双向特征向量得到的目标音频特征矩阵，对所述目标音频特征矩阵进行分类预测处理，得到目标结果。

其中，特征编码器层可以用于提取目标音频的音频特征，双向循环网络层可以用于学习目标音频中的句子的上下文关系，全连接层可以用于预测目标音频的韵律停顿特征。

其中，本申请实施例可以直接将音频特征表达向量作为目标音频特征表达向量；或者，可以对音频特征表达向量进一步进行特征提取，得到目标音频特征表达向量，本申请不作具体限制。

其中，双向特征向量可以包括方向相反的正向特征向量和逆向特征向量。双向循环网络层可以通过层标准化层与全连接层连接，层标准化层用于对双向特征向量包括的正向特征向量和逆向特征向量进行层标准化处理，得到音频特征矩阵。

其中，为了使双向循环网络层的输出参数的维度与全连接层的输入参数的维度相适配，可以先对音频特征矩阵进行转置处理，得到目标音频特征矩阵，之后向全连接层输入所述目标音频特征矩阵。

其中，在向所述全连接层输入所述目标音频特征矩阵之后，全连接层可输出分类结果，分类结果可以包括N×K的结果矩阵。其中，N可以等于第二阈值，目标韵律模型的适用范围可以设置为，目标文本的字符个数不超过N；K可以表示韵律编码等级的种类。

其中，N×K的结果矩阵中包括N×K个概率值，结果矩阵中第1行第1列的概率值表示目标文本的第1个字符对应的韵律编码是第1种韵律编码的概率，结果矩阵中第1行第2列的概率值表示目标文本的第1个字符对应的韵律编码是第2种韵律编码的概率，依此类推，结果矩阵中第N行第K列的概率值表示目标文本的第N个字符对应的韵律编码是第K种韵律编码的概率。

其中，本申请实施例可以将第1行的K个概率值中最大概率值对应的韵律编码等级，作为第1个字符对应的韵律编码等级，将第2行的K个概率值中最大概率值对应的韵律编码等级，作为第2个字符对应的韵律编码等级，依此类推，将第N行的K个概率值中最大概率值对应的韵律编码等级，作为第N个字符对应的韵律编码等级。如此，得到了包括N个韵律编码的文本韵律编码序列，将其作为目标结果。

举例而言，N为64，K为5，向全连接层输入目标音频特征矩阵的转置矩阵，全连接层输出分类结果，分类结果可以包括64×5的结果矩阵；取结果矩阵中第1行的5个概率值中最大概率值对应的韵律编码等级，作为第1个位置处的字符对应的韵律编码等级；取结果矩阵中第2行的5个概率值中最大概率值对应的韵律编码等级，作为第2个位置处的字符对应的韵律编码等级，依此类推，得到包括64个韵律编码的文本韵律编码序列，将其作为目标结果。

这样，目标韵律模型通过特征编码器层提取目标音频的音频特征，通过双向循环网络层学习目标音频的句子的上下文关系，通过全连接层进行目标音频的韵律编码的分类，使得分类结果符合音频的实际发音停顿韵律，进而由分类结果得到的目标结果也符合音频的实际发音停顿韵律。

在一个具体的实施例中，如图2-1所示，所述目标韵律模型还包括用于学习音频的句子结构特征的上下文网络层，所述特征编码器层经由所述上下文网络层与所述双向循环网络层相连接；所述上下文网络层，用于对所述音频特征表达向量进行句子结构特征提取处理，得到目标音频特征表达向量；

上述步骤1204中，向所述双向循环网络层输入基于所述音频特征表达向量得到的目标音频特征表达向量，得到双向特征向量，具体可以包括：

将所述音频特征表达向量输入至所述上下文网络层，对所述音频特征表达向量进行句子结构特征提取处理，得到目标音频特征表达向量；

将所述目标音频特征表达向量输入至所述双向循环网络层，得到双向特征向量。

能够理解的是，在目标韵律模型的特征编码器层提取目标音频的特征的过程中，目标音频的特征表达向量中可以包含一些音频中句子的结构特征，而采用上下文网络层可以进一步提取出音频中句子的更详细的结构特征信息。

这样，目标韵律模型进一步通过上下文网络层学习音频中句子的结构特征，使得目标结果更符合音频的实际发音停顿韵律。

例如，在实际应用中，如图2-2所示，目标韵律模型的特征编码器层包括预设的语音预训练模型中的原始特征编码器层；目标韵律模型的上下文网络层包括所述语音预训练模型中的原始上下文网络层的前半部分。

其中，预设的语音预训练模型可以是从开源社区获取的其他用户训练好的语音预训练模型，也可以是提前训练好的语音预训练模型。

举例而言，预设的语音预训练模型可以是wav2vec2.0模型，特征编码器层可以由预设的wav2vec2.0模型中的Feature encoder网络组成，上下文网络层可以由预设的wav2vec2.0模型中的Context Network网络的前半部分组成。更具体地，wav2vec2.0模型可以是wav2vec2.0 BASE模型，或者wav2vec2.0 LARGE模型。上下文网络层可以由预设的是wav2vec2.0 BASE模型中的Context Network网络的12个Transformer子层的前7层Transformer子层组成，或者上下文网络层可以由预设的是wav2vec2.0 LARGE模型中的Context Network网络的24个Transformer子层的前15层Transformer子层组成。

能够理解的是，使用大量音频训练得到的wav2vec2.0模型能够表达音频数据的一般特征。本申请实施例使用了wav2vec2.0模型的Context Network网络的前半部分输出层，是因为对语音预训练模型的上下文网络部分而言，其前半部分网络主要学习语音的句子结构特征，后半部分则可以学习句子的语义信息。本申请实施例的文本韵律预测，主要基于语音的自然句子结构，来学习在何处停顿及停顿级别。因此，本申请实施例可以取语音预训练模型的上下文网络的前半部分，组成本申请实施例的韵律模型的上下文网络层。这一点不论是对上述wav2vec2.0 BASE模型，还是对其它类型的语音预训练模型均适用。

这样，采用了已经收敛的语音预训练模型的部分结构，作为本申请实施例的韵律模型的特征编码器层和上下文网络层，以此提取音频特征和学习音频的具体结构，提升了韵律模型的分类性能和泛化能力。

在实际应用中，所述目标韵律模型的双向循环网络层可以为单层结构。这样，在学习到音频的上下文关系的前提下，可以提高目标韵律模型训练和收敛的速度。或者，所述目标韵律模型的双向循环网络层可以为多层结构。这样，可以学习到音频的上下文关系的更多更详细的信息，提升了目标韵律模型的分类性能和泛化能力。

图2-3为本申请实施例提供的一种目标韵律模型的数据处理过程的示意图。下面结合如图2-2和图2-3说明上述步骤120中目标韵律模型的数据处理过程。

举例而言，如图2-2所示，目标韵律模型的特征编码器层和上下文网络层可以由预设的语音预训练模型的部分结构(例如wav2vec2.0模型中的特征编码器(Featureencoder)部分和上下文网络(Context Network)的前半部分组成。

如图2-3所示，假定目标音频A.wav的输入时长为20秒，wav2vec2.0模型的音频采样率可以为16000个/秒，则目标音频的音频样点数是20×16000＝320000个样点。以wav2vec2.0模型中的wav2vec2.0 BASE模型为例，将目标音频的每400个样点片段的值，转化为768维度的矢量表示，步进长度320个样点。换言之，每隔320个样点提取一个样点片段，每个样点片段包含400个样点，每个样点片段中的400个样点可以转化为768维度的矢量。

如图2-3所示，目标音频A.wav通过上述wav2vec2.0模型中的特征编码器(Featureencoder)部分和上下文网络(Context Network)的前半部分后，变成时间长度为(320000-400)/320+1＝999个参数，wav2vec2.0 BASE模型的输出参数维度是768，则得到的参数为一个(999×768维度)的目标音频特征表达向量。

如图2-3所示，双向循环网络层的隐层节点数为32；双向循环网络层的作用，是对wav2vec2.0BASE模型输出得到的999×768维度的目标音频特征表达向量，进行时间域的上下文关系计算，从而得到带上下文关联的音频特征表示序列，例如2个方向相反的999×32维度的张量，包含正向的999×32维度的张量，跟逆向的999×32维度的张量；对该音频特征表示序列中正向的999×32维度的张量，跟逆向的999×32维度张量取均值垂直堆叠，进行层标准化处理，得到999×64维度的音频特征矩阵。

如图2-3所示，全连接层的输入特征维度为999，全连接层的输出特征维度为5；在将音频特征矩阵进行转置后得到64×999的目标音频特征矩阵，将时间维度转为空间维度；然后64×999的转置矩阵输入至全连接层，得到一个64×5的结果矩阵。

进而，可以将64×5的结果矩阵转化为包括64个韵律编码的文本韵律编码序列，作为目标音频的目标结果。

在另一个具体的实施例中，为了将韵律指示信息指示的目标音频的韵律停顿特征转化为目标文本的韵律标记，所述韵律指示信息可以包括文本韵律编码序列，如图1-5所示，上述步骤130中，基于所述韵律指示信息，对所述目标文本进行韵律标注，可以包括：

步骤1301：从所述文本韵律编码序列中确定出与所述目标文本的长度相适配的目标文本韵律编码；

步骤1302：根据所述目标文本韵律编码，对所述目标文本进行韵律标注。

这样，由于韵律指示信息包括文本韵律编码序列，可以按照目标文本的长度，从文本韵律编码序列中截取有效的韵律编码作为目标文本韵律编码，以便于使用目标文本韵律编码对目标文本进行韵律标注。

在步骤1301中，与所述目标文本的长度相适配的目标文本韵律编码可以理解为，目标文本韵律编码中的编码个数与目标文本的长度相关。目标文本韵律编码中的编码个数可以与目标文本的长度相同或者不同。例如，目标文本的长度可以是目标文本韵律编码中的编码个数的倍数，倍数可以是1倍、2倍等，本申请在此不作具体限制。

举例而言，在步骤1301中，所述文本韵律编码序列可以包括N个韵律编码；所述目标文本的长度可以为所述目标文本中字符的个数。

上述步骤1301具体可以包括：从所述文本韵律编码序列的N个韵律编码中按从前往后的顺序截取前M个韵律编码，作为所述目标文本韵律编码；其中，N大于等于M，M小于或等于所述目标文本中字符的个数。

其中，所述目标文本韵律编码中的M个韵律编码可以作为M个直接用于插入目标文本的韵律标记，或者所述目标文本韵律编码中的M个韵律编码也可以是M个间接反映韵律标记的韵律编码，下面举例描述。

例如，在M小于目标文本中字符的个数的情况下，目标文本韵律编码可以包括M个直接作为韵律标记的韵律编码。

相应地，在目标文本韵律编码包括M个直接作为韵律标记的韵律编码的情况下，上述步骤1302具体可以包括：

确定所述目标文本中的字符与所述目标文本韵律编码中的M个韵律编码之间的位置对应关系；

按照所述位置对应关系，将所述M个韵律编码对应地插入至所述目标文本中与所述M个韵律编码对应的字符之前或之后，得到带韵律标记的目标文本。

举例而言，在M小于目标文本中字符的个数的情况下，文本韵律编码序列的长度N可以是64，目标文本的内容可以为“今年天气冷得早大家起得晚”，目标文本中字符的个数为12，M可以小于12。将目标音频输入至目标韵律模型可以得到目标结果：文本韵律编码序列[null，#1，null，#1，null，null，#2，null，#1，null，null，#4，0，0，0，…，0]，序列长度64。从韵律编码序列的64个韵律编码中按从前到后的顺序截取前5个属于#1至#4范围内的韵律编码作为所述目标文本韵律编码[#1，#1，#2，#1，#4]。目标文本韵律编码可以包括5个韵律编码，上述步骤1302具体可以包括：确定所述目标文本中的12个字符与所述目标文本韵律编码中的5个韵律编码之间的位置对应关系(如下表1所示)：

目标文本

今

年

天

气

冷

得

早

大

家

起

得

晚

韵律编码

#1

#2

#1

#4

表1

进而，按照所述位置对应关系，将所述5个韵律编码对应地插入至所述目标文本中与所述5个韵律编码对应的字符之后，得到带韵律标记的目标文本：“今年#1天气#1冷得早#2大家#1起得晚#4”。

这样，可以将目标文本韵律编码中的M个韵律编码直接作为M个用于插入目标文本的韵律标记，快速地对目标文本进行韵律标注。

又例如，在M等于目标文本中字符的个数的情况下，目标文本韵律编码可以包括M个间接反映韵律标记的韵律编码。

举例而言，在M等于目标文本中字符的个数的情况下，可以从所述文本韵律编码序列的N个韵律编码中按从前往后的顺序截取前M个韵律编码，作为所述目标文本韵律编码。文本韵律编码序列的长度N可以是64，目标文本的内容可以为“今年天气冷得早大家起得晚”，目标文本中字符的个数为12，M可以为12。将目标音频输入至目标韵律模型可以得到目标结果：文本韵律编码序列[1，2，1，2，1，1，3，1，2，1，1，5，0，0，0，…，0]，序列长度64。从文本韵律编码序列的64个韵律编码中截取前12个韵律编码，作为目标文本韵律编码[1，2，1，2，1，1，3，1，2，1，1，5]。

相应地，在目标文本韵律编码包括M个间接反映韵律标记的韵律编码的情况下，上述步骤1302具体可以包括：

确定所述目标文本中的M个字符与所述目标文本韵律编码中的M个韵律编码之间的位置对应关系；

将所述目标文本韵律编码中的M个韵律编码转化为P个韵律标记，P为小于等于M的正整数，其中，一个韵律标记对应于一个韵律编码；

按照所述位置对应关系，将所述P个韵律标记插入至所述目标文本中与所述P个韵律标记对应的字符之前或之后，得到带韵律标记的目标文本。

举例而言，目标文本中的12个字符与所述文本韵律编码中的12个韵律编码之间的位置对应关系，如下表2所示：

目标文本	今	年	天	气	冷	得	早	大	家	起	得	晚
													韵律编码	1	2	1	2	1	1	3	1	2	1	1	5

表2

其中，针对韵律编码设置有K种韵律编码等级，针对韵律标记设置有K种韵律标记等级，所述K种韵律编码等级与所述K种韵律标记等级之间具有一一对应的关系；

所述将所述目标文本韵律编码中的M个韵律编码转化为P个韵律标记包括：

按照所述K种韵律编码等级与所述K种韵律标记等级之间的对应关系，确定所述M个韵律编码所属X种韵律编码等级对应的X种韵律标记等级，其中，X为正整数，且X≤K；

根据预先设置的韵律标记等级与韵律标记之间的对应关系，确定所述X种韵律标记等级中每一种韵律标记等级各自对应的目标韵律标记；

基于每一种韵律标记等级各自对应的目标韵律标记，将所述M个韵律编码转化为P个韵律标记。

举例而言，K可以为5，按照停顿的显著程度划分，韵律标记等级可以包括5种：无韵律(无韵律的等级可以用null或者N或者空格等形式表示，无韵律对应的字符位置不用插入任何标记)、“#1”韵律、“#2”韵律、“#3”韵律和“#4”韵律。其中，“#1”可以表示基本没有停顿，#2可以表示重读停顿，#3可以表示子句和短语级别停顿，#4可以表示整句级别的停顿。

对应地，韵律编码等级可以包括5种：1，2，3，4，5。编码“1”可以用于表示无韵律，编码“2”可以用于表示“#1”韵律，编码“3”可以用于表示“#2”韵律，编码“4”可以用于表示“#3”韵律，编码“5”可以用于表示“#4”韵律。

进而，可以根据文本韵律编码中的M个韵律编码，对目标文本中的M个字符进行一一对应插入。其中，对于编码“1”无韵律标记，则该字符位置不用插入任何标记。对于编码“2”，则对该字符位置后插入“#1”标记，对于编码“3”则可以在该字符位置后插入“#2”标记，依次类推，得到带韵律标记的目标文本。

举例而言，如下表3所示，P可为5，可以将文本韵律编码中的12个韵律编码转化为5个韵律标记。进而，按照5种韵律编码等级与5种韵律标记等级之间的对应关系，将12个韵律编码转化为5个韵律标记，如下表3中的第2行和第3行所示：

目标文本

今

年

天

气

冷

得

早

大

家

起

得

晚

韵律编码

1

2

1

2

1

3

1

2

1

5

韵律标记

#1

#2

#1

#4

表3

进一步可以将5个韵律标记插入至所述目标文本中与所述5个韵律标记对应的字符之后，得到附带韵律标记的目标文本：“今年#1天气#1冷得早#2大家#1起得晚#4”。

这样，由于M等于所述目标文本中字符的个数，可以通过M个韵律编码一一反映目标文本中每个字符的停顿情况，在将目标文本韵律编码中的M个韵律编码转换为P个用于插入目标文本的韵律标记的情况下，按照目标文本中的M个字符与目标文本韵律编码中的M个韵律编码之间的位置对应关系，准确地对目标文本进行韵律标注。

此外，在步骤110之前，本申请实施例提供的音频文本韵律的标注方法还可以包括目标韵律模型的训练过程。通过学习音频的韵律特点而训练得到的目标韵律模型，可以更准确地预测出音频的韵律停顿特征。下面具体描述目标韵律模型的训练过程。

如图3-1所示，本申请实施例提供的音频文本韵律的标注方法还可以包括目标韵律模型的训练过程：

步骤310：获取第一韵律模型和P份样本数据；

步骤320：对所述P份样本数据进行预处理，得到预处理后的P份目标样本数据；其中，所述P份目标样本数据中的每一份目标样本数据包括音频样本和已标注韵律的文本样本，所述已标注韵律的文本样本与所述音频样本具有对应关系；P为大于2的整数；

步骤330：将第一份目标样本数据的音频样本输入所述第一韵律模型，得到与第一份目标样本数据的所述音频样本对应的第一韵律预测值结果；

步骤340：基于所述第一韵律预测值结果与第一韵律真值结果，对所述第一韵律模型的参数进行调整，得到第二韵律模型；其中，所述第一韵律真值结果是基于第一份目标样本数据中已标注韵律的文本样本而得到；

步骤350：通过所述P份目标样本数据，得到第P+1韵律模型；

步骤360：基于所述第P+1韵律模型，得到目标韵律模型。

其中，上述步骤310至步骤360可以在步骤110之前执行。

其中，第一韵律模型可以理解为未经过训练的韵律模型，第二韵律模型可以理解为使用一份目标样本数据进行训练后得到的韵律模型，依此类推，第P+1韵律模型可以理解为使用P份目标样本数据进行训练后得到的韵律模型，目标韵律模型可以理解为已经训练好的韵律模型。

其中，步骤330和步骤340中采用一份目标样本数据对韵律模型进行一次训练，步骤350中具体可以按照步骤330和步骤340的模型训练过程，对韵律模型进行P次迭代训练，直到韵律模型的网络参数收敛，得到第P+1韵律模型，并可以将第P+1韵律模型作为目标韵律模型。

这样，在训练目标韵律模型的过程中，可以将第一韵律模型预测的第一韵律预测值结果，与已标注韵律的文本样本转化而得到的第一韵律真值结果进行损失计算，迭代训练直到韵律模型的网络参数收敛，得到训练好的韵律模型，使得韵律模型学习到音频的实际发音停顿韵律。

并且，申请人注意到，由于文本自身有自己的韵律特点，文本的韵律特点与音频的韵律特点可能不完全一致，在训练韵律模型时引入文本信息可能导致噪音，有损韵律预测结果与音频的一致性。因而，本申请实施例对目标韵律模型的训练过程中，没有引入音频的对应文本信息，可以避免引入文本信息而破坏模型既有的、单纯通过音频来预测韵律的目的。

在实际应用中，可以采用已经收敛的语音预训练模型的部分结构(例如，已经收敛的wav2vec2.0模型中的原始特征编码器层、原始上下文网络层的前半部分)，作为本申请实施例的目标韵律模型的特征编码器层和上下文网络层，在目标韵律模型训练时降低了对带韵律标记的文本样本的要求，降低了模型训练成本；另一方面，可以将语音预训练模型的部分参数(例如，已经收敛的wav2vec2.0模型中的原始特征编码器层的网络参数、原始上下文网络层的前半部分的网络参数)冻结，在目标韵律模型训练和收敛时可以不调整目标韵律模型的特征编码器层和上下文网络层的网络参数，也提高了目标韵律模型训练和收敛的速度。

在一个具体的实施例中，如图3-2所示，在步骤320中，所述对所述P份样本数据进行预处理可以包括：

针对所述P份样本数据中的每一份样本数据，执行如下过程：

步骤3201：对所述音频样本进行处理，使得所述音频样本的时长等于第一阈值；

步骤3202：对所述样本数据中的已标注韵律标记的文本样本进行处理，得到韵律真值结果；对所述韵律真值结果进行处理，使得所述韵律真值结果的长度等于第二阈值；

其中，所述韵律真值结果包括基于已标注韵律标记的文本样本而得到的韵律编码。

其中，在将样本数据输入至韵律模型进行模型训练之前，预先对样本数据进行处理，使样本数据的音频样本的时长满足韵律模型的输入设置要求，以及提前将已标注韵律标记的文本样本转化为韵律真值结果，在样本数据包括多份时，可以提高目标韵律模型的训练效率。

当然，上述对P份样本数据进行预处理的具体处理过程，不仅可以在模型训练之前预先处理，还可以在模型训练时处理，本申请不作具体限制。

上述步骤3201中，所述对所述音频样本进行处理，使得所述音频样本的时长等于第一阈值，具体可以包括：在所述音频样本的时长小于第一阈值的情况下，通过在音频样本的音频信号尾部添加指定信号的方式，将所述音频样本的时长补齐至第一阈值。

例如，指定信号可以是静音信号，在训练样本的预处理过程中，在所述音频样本的时长小于20秒的情况下，可以将音频样本用静音补齐到20秒时间。这样，可以将多份音频样本的时长格式统一，提高了目标韵律模型的训练效率。

上述步骤3202中，所述对所述韵律真值结果进行处理，使得所述韵律真值结果的长度等于第二阈值，具体可以包括：在所述韵律真值结果的长度小于第二阈值的情况下，通过在所述韵律真值结果的尾部添加指定符号的方式，将所述韵律真值结果的长度补齐至第二阈值。

例如，韵律真值结果可以是韵律真值序列，按照韵律编码与韵律标记之间的对应关系，将所述已标注韵律的文本样本转化为韵律真值序列；其中，所述韵律真值序列中包含L个韵律编码，L为所述文本样本中除已标注的韵律标记之外的字符的个数；在L小于第二阈值的情况下，通过在韵律真值序列的尾部添加至少一个零值的方式，将所述韵律真值序列的长度补齐至第二阈值。

在实际应用中，举例而言，P可以为100，预先准备至少100条训练样本，训练样本的音频样本的时长不超过20秒，训练样本的文本样本的长度不超过64个字符。文本样本中均已按照音频停顿韵律情况，正确标记了四种韵律标记：#1，#2，#3，#4。在训练样本的预处理过程中，可以将带标记的文本样本转化为韵律编码表示。韵律规则设置为：无韵律为1，#1韵律为2，#2韵律为3，#3韵律为4，#4韵律为5。假定有如下带韵律标记的文本样本：“今年#1天气#1冷得早#2大家#1起得晚#4”，对每个汉字按照上述韵律规则，该文本样本转化为：[1，2，1，2，1，1，2，1，2，1，1，5]。根据韵律模型的输出设置要求，将韵律真值序列对齐到64长度，具体可以在韵律真值结果的尾部添加52个0的方式，将韵律真值序列的长度补齐至64，得到该样本数据的韵律真值结果：[1，2，1，2，1，1，2，1，2，1，1，5，0，0，…，0]，序列长度64。这样，可以将多份文本样本转换而成的韵律真值序列的长度格式统一，提高了目标韵律模型的训练效率。

在一个具体的实施例中，在步骤330中，将第一份目标样本数据的音频样本输入所述第一韵律模型，得到与第一份目标样本数据的所述音频样本对应的第一韵律预测值结果，具体可以包括：

将第一份目标样本数据的所述音频样本输入至所述第一韵律模型的特征编码器层中，输出音频特征表达向量；

将所述音频特征表达向量输入至所述第一韵律模型的上下文网络层中，输出目标音频特征表达向量；

将所述目标音频特征表达向量输入至所述第一韵律模型的双向循环网络层中，并进行层标准化处理，得到音频特征矩阵；

对所述音频特征矩阵进行转置处理，得到目标音频特征矩阵；

将目标音频特征矩阵输入至所述第一韵律模型的全连接层中，计算得到与第一份目标样本数据的所述音频样本对应的第一韵律预测值结果。

举例而言，如图3-3所示，第一韵律模型的特征编码器层和上下文网络层可以由预设的wav2vec2.0模型中的部分结构(例如原始特征编码器层、原始上下文网络层的前半部分)组成。将时长为20秒的音频样本输入至wav2vec2.0模型中，输出999×768维度的目标音频特征表达向量；将目标音频特征表达向量输入至双向循环网络层中进行时间域上的上下文关系的循环学习，输出2×999×32维度的张量(包含正向的999×32维度的张量，跟逆向的999×32维度张量)，并将其进行层标准化处理得到999×64维度的音频特征矩阵，音频特征矩阵进行转置处理得到64×999维度的目标音频特征矩阵；将64×999维度的目标音频特征矩阵输入至全连接层中，输出64×5的结果矩阵；64×5的结果矩阵转化为包括64个韵律编码的文本韵律编码序列，作为第一韵律预测值结果。

在步骤340中，所述基于所述第一韵律预测值结果与第一韵律真值结果，对所述第一韵律模型的参数进行调整，具体可以包括：

基于所述第一韵律预测值结果与第一韵律真值结果，确定所述第一份目标样本数据对应的对比损失值；

基于所述对比损失值，对所述第一韵律模型中的参数进行调整。

举例而言，如图3-3所示，全连接层输出64×5的结果矩阵转化为包括64个韵律编码的文本韵律编码序列，作为第一韵律预测值结果；将音频样本对应的文本样本转化为第一韵律真值结果；基于第一韵律预测值结果与第一韵律真值结果，进行对比损失计算，调整第一韵律模型中的参数。

这样，在训练目标韵律模型的过程中，通过特征编码器层提取音频样本的音频特征，通过双向循环网络层学习音频样本的句子的上下文关系，通过全连接层进行音频样本的韵律编码的分类，预测得到韵律预测值结果，进而与已标注韵律的文本样本转化而得到的韵律真值结果进行损失计算，使得目标韵律模型学习到音频的实际发音停顿韵律。

其中，在步骤340中，可以对第一韵律模型中的部分参数或者全部参数进行调整，下面举例说明。

在步骤340中，对所述第一韵律模型中的参数进行调整具体可以包括：调整所述第一韵律模型中双向循环网络层和全连接层的网络参数。能够理解的是，在步骤340中，可以将已经收敛的语音预训练模型的部分参数(例如特征编码器层和上下文网络层的网络参数)冻结。在目标韵律模型训练过程中，可以将已经收敛的语音预训练模型的特征编码器层和上下文网络层的网络参数作为目标韵律模型的特征编码器层和上下文网络层的网络参数，不调整目标韵律模型的特征编码器层和上下文网络层的网络参数，而调整所述第一韵律模型中双向循环网络层和全连接层的网络参数，提高了目标韵律模型训练和收敛的速度。

当然，在目标韵律模型训练过程中，也可以调整目标韵律模型的各个网络层的网络参数。上述步骤340中，对所述第一韵律模型中的参数进行调整具体可以包括：调整第一韵律模型中特征编码器层、上下文网络层、双向循环网络层和全连接层的网络参数。这样，特征编码器层、上下文网络层的网络参数随着目标韵律模型的迭代训练进一步微调，进一步提高了训练好的目标韵律模型的训练效果。

此外，上文提到的任一方法实施例提供的音频文本韵律的标注方法，可以用于语音合成的原始文本的韵律标注。基于与上文任一方法实施例类似的构思，本申请实施例还提供的一种语音合成方法。

图4为本申请实施例提供的一种语音合成方法的示意性流程图。

如图4所示，本申请实施例提供一种语音合成方法，可以包括：

步骤410：获取带韵律标注的目标文本和已训练好的语音合成模型；

其中，所述带韵律标注的目标文本是利用如上述任一项方法实施例中所述的标注方法对目标文本进行韵律标注得到的；

步骤420：将所述带韵律标注的目标文本输入至所述已训练好的语音合成模型，得到目标语音。

其中，可以采用上述任一方法实施例提供的标注方法，对目标文本进行韵律标注，进而参考目标文本中的韵律标记合成目标语音，由于目标文本的韵律标记符合真实录音的停顿情况，合成的目标语音更加健壮稳定，不容易发生因韵律标记符号不规范导致的跳音、重复、噪音等语音合成问题，解决了相关技术中由于文本中的韵律标注的准确率较低而导致合成语音的自然度较差的问题。

根据本申请实施例提供的语音合成方法，通过获取带韵律标注的目标文本和已训练好的语音合成模型；将所述带韵律标注的目标文本输入至所述已训练好的语音合成模型，得到目标语音；其中，所述带韵律标注的目标文本是利用如上述任一项方法实施例中所述的标注方法对目标文本进行韵律标注得到的。这样，利用本申请实施例提供的任一种标注方法对文本进行韵律标注之后，参考目标文本中的韵律标记合成目标语音，由于目标文本的韵律标记符合真实录音的停顿情况，合成的目标语音更加健壮稳定，不容易发生因韵律标记符号不规范导致的跳音、重复、噪音等语音合成问题，解决了相关技术中由于文本中的韵律标注的准确率较低而导致合成语音的自然度较差的问题。

此外，上文提到的任一方法实施例提供的音频文本韵律的标注方法，可以用于语音合成模型的训练样本中的文本样本的韵律标注。基于与上文任一方法实施例类似的构思，本申请实施例还提供的一种语音合成模型的训练方法。

图5为本申请实施例提供的一种语音合成模型的训练方法的示意性流程图。

如图5所示，本申请实施例提供一种语音合成模型的训练方法，可以包括：

步骤510：获取第一语音合成模型和Q份训练样本数据；

步骤520：对所述Q份训练样本数据进行预处理，得到预处理后的Q份目标训练样本数据；其中，所述Q份目标训练样本数据中的每一份目标训练样本数据包括音频样本数据和已标注韵律的文本样本数据，Q为大于2的整数；

步骤530：通过所述Q份目标训练样本数据，对第一语音合成模型进行训练，得到目标语音合成模型；

其中，所述已标注韵律的文本样本数据是利用如上述任一方法实施例所述的标注方法对文本样本数据进行韵律标注得到的。

例如，在步骤520中，对所述Q份训练样本数据进行预处理包括：

针对所述Q份训练样本数据中的每一份训练样本数据，执行如下过程：

获取音频样本数据以及与所述音频样本数据对应的文本样本数据；

将所述音频样本数据输入至目标韵律模型，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述音频样本数据的韵律停顿特征；

基于所述韵律指示信息，对所述文本样本数据进行韵律标注，得到已标注韵律的文本样本数据。

其中，可以采用上述任一方法实施例提供的音频文本韵律的标注方法，对所述Q份训练样本数据进行预处理，得到已标注韵律的文本样本数据，使得语音合成模型的训练样本中的文本样本的韵律标记符合真实录音的停顿情况，语音合成模型的训练结果更加健壮稳定，不容易发生因韵律标记符号不规范导致的跳音、重复、噪音等语音合成问题，解决了相关技术中由于训练样本的文本样本标注韵律的准确率较低而导致合成语音的自然度较差的问题。

根据本申请实施例提供的语音合成模型的训练方法，通过获取第一语音合成模型和Q份训练样本数据；对所述Q份训练样本数据进行预处理，得到预处理后的Q份目标训练样本数据；其中，所述Q份目标训练样本数据中的每一份目标训练样本数据包括音频样本数据和已标注韵律的文本样本数据，Q为大于2的整数；通过所述Q份目标训练样本数据，对第一语音合成模型进行训练，得到目标语音合成模型。这样，利用本申请实施例提供的任一种标注方法，进行语音合成模型的训练样本的文本韵律标注；之后将已标注韵律的文本作为训练样本，进行语音合成模型的训练，使得语音合成模型的训练样本中的文本样本的韵律标记符合真实录音的停顿情况，语音合成模型的训练结果更加健壮稳定，不容易发生因韵律标记符号不规范导致的跳音、重复、噪音等语音合成问题，解决了相关技术中由于训练样本的文本样本标注韵律的准确率较低而导致合成语音的自然度较差的问题。

在一个具体的实施例中，上述步骤530中，所述通过所述Q份目标训练样本数据，对第一语音合成模型进行训练，得到目标语音合成模型，具体可以包括：

将第一份目标训练样本数据的文本样本数据输入所述第一语音合成模型，得到与第一份目标训练样本数据的所述文本样本数据对应的第一语音合成预测值结果；

基于所述第一语音合成预测值结果与第一份目标训练样本数据的音频样本数据，对所述第一语音合成模型的参数进行调整，得到第二语音合成模型；

通过所述Q份目标训练样本数据，得到第Q+1韵律模型；

基于所述第Q+1韵律模型，得到目标语音合成模型。

其中，第一语音合成模型可以理解为未经过训练的语音合成模型，第二语音合成模型可以理解为使用一份目标训练样本数据进行训练后得到的语音合成模型，依此类推，第Q+1韵律模型可以理解为使用Q份目标训练样本数据进行训练后得到的语音合成模型，目标语音合成模型可以理解为已经训练好的语音合成模型。

其中，本申请实施例可以采用Q份目标训练样本数据，对语音合成模型进行Q次迭代训练，直到语音合成模型的网络参数收敛，得到第Q+1语音合成模型，并可以将第Q+1语音合成模型作为目标语音合成模型。

这样，在训练语音合成模型的过程中，可以将语音合成模型预测的第一语音合成预测值结果，与音频样本数据进行损失计算，迭代训练直到语音合成模型的网络参数收敛，得到训练好的语音合成模型，使得语音合成模型学习到语音的实际发音停顿韵律。

本申请实施例提供的频文本韵律的标注方法，执行主体可以为频文本韵律的标注装置。本申请实施例中以频文本韵律的标注装置执行频文本韵律的标注方法为例，说明本申请实施例提供的频文本韵律的标注装置。

图6为本申请实施例提供的一种音频文本韵律的标注装置的示意性结构图。

如图6所示，本申请实施例提供一种音频文本韵律的标注装置600，可包括：第一获取模块601、第一获得模块602以及标注模块603；

根据本申请实施例提供的音频文本韵律的标注装置，包括第一获取模块，用于获取目标音频以及与所述目标音频对应的目标文本；第一获得模块，用于将所述目标音频输入目标韵律模型进行音频转化处理，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述目标音频的韵律停顿特征；标注模块，用于基于所述韵律指示信息，对所述目标文本进行韵律标注。这样，由于将音频输入已训练好的韵律模型得到音频的韵律停顿特征，进而将音频的韵律作为文本的韵律来对文本进行韵律标注，使得文本中标注的韵律标记符合音频的实际发音停顿情况，提高了对文本进行韵律标注的准确率，从而解决了韵律标注的准确率较低的问题。

可选地，在本申请实施例提供的音频文本韵律的标注装置中，所述第一获得模块，用于：

判断所述目标音频和/或所述目标文本是否满足预设条件；

在所述目标音频和/或所述目标文本满足预设条件的情况下，将所述目标音频输入至目标韵律模型进行音频转化处理；

其中，所述预设条件包括：音频的时长小于等于第一阈值，和/或，文本的长度小于等于第二阈值。

这样，使得目标音频和目标文本组成的音频文本数据对位于目标韵律模型的可用范围内，进而可以利用训练好的韵律模型准确地对所述目标文本进行韵律标注。

可选地，在本申请实施例提供的音频文本韵律的标注装置中，所述韵律指示信息包括文本韵律编码序列，所述标注模块包括：

第一确定模块，用于从所述文本韵律编码序列中确定出与所述目标文本的长度相适配的目标文本韵律编码；

标注子模块，用于根据所述目标文本韵律编码，对所述目标文本进行韵律标注。

可选地，在本申请实施例提供的音频文本韵律的标注装置中，所述文本韵律编码序列包括N个韵律编码；所述目标文本的长度为所述目标文本中字符的个数；

所述第一确定模块，用于：

从所述文本韵律编码序列的N个韵律编码中按从前往后的顺序截取前M个韵律编码，作为所述目标文本韵律编码；

其中，N大于等于M，M小于或等于所述目标文本中字符的个数。

可选地，在本申请实施例提供的音频文本韵律的标注装置中，M等于所述目标文本中字符的个数，所述标注子模块，用于：

可选地，在本申请实施例提供的音频文本韵律的标注装置中，针对韵律编码设置有K种韵律编码等级，针对韵律标记设置有K种韵律标记等级，所述K种韵律编码等级与所述K种韵律标记等级之间具有一一对应的关系；

可选地，在本申请实施例提供的音频文本韵律的标注装置中，所述目标韵律模型包括：用于将音频转换为向量的特征编码器层、用于学习音频的上下文关系的双向循环网络层以及用于预测音频韵律的全连接层，所述特征编码器层与所述双向循环网络层相连接，所述双向循环网络层与所述全连接层相连接；

这样，目标韵律模型通过特征编码器层提取目标音频的音频特征，通过双向循环网络层学习目标音频的句子的上下文关系，通过全连接层进行目标音频的韵律编码的分类，使得目标结果也符合音频的实际发音停顿韵律。

可选地，在本申请实施例提供的音频文本韵律的标注装置中，所述目标韵律模型还包括用于学习音频的句子结构特征的上下文网络层，所述特征编码器层经由所述上下文网络层与所述双向循环网络层相连接；

所述上下文网络层，用于对所述音频特征表达向量进行句子结构特征提取处理，得到目标音频特征表达向量。

可选地，在本申请实施例提供的音频文本韵律的标注装置中，所述特征编码器层包括预设的语音预训练模型中的原始特征编码器层；所述上下文网络层包括所述语音预训练模型中的原始上下文网络层的前半部分。

这样，采用了已经收敛的语音预训练模型的部分结构，作为本申请实施例的目标韵律模型的特征编码器层和上下文网络层，以此提取音频特征和学习音频的具体结构，提升了目标韵律模型的分类性能和泛化能力。

可选地，本申请实施例提供的音频文本韵律的标注装置还包括用于训练所述目标韵律模型的训练模块，所述训练模块包括：

获取子模块，用于获取第一韵律模型和P份样本数据；

预处理子模块，用于对所述P份样本数据进行预处理，得到预处理后的P份目标样本数据；其中，所述P份目标样本数据中的每一份目标样本数据包括音频样本和已标注韵律的文本样本，所述已标注韵律的文本样本与所述音频样本具有对应关系；P为大于2的整数；

预测子模块，用于将第一份目标样本数据的音频样本输入所述第一韵律模型，得到与第一份目标样本数据的所述音频样本对应的第一韵律预测值结果；

调整子模块，用于基于所述第一韵律预测值结果与第一韵律真值结果，对所述第一韵律模型的参数进行调整，得到第二韵律模型；其中，所述第一韵律真值结果是基于第一份目标样本数据中已标注韵律的文本样本而得到；

获得子模块，用于通过所述P份目标样本数据，得到第P+1韵律模型；基于所述第P+1韵律模型，得到目标韵律模型。

这样，在训练目标韵律模型的过程中，可以将第一韵律模型预测的第一韵律预测值结果，与已标注韵律的文本样本转化而得到的第一韵律真值结果进行损失计算，迭代训练直到韵律模型的网络参数收敛，得到训练好的韵律模型，使得目标韵律模型学习到音频的实际发音停顿韵律。

可选地，在本申请实施例提供的音频文本韵律的标注装置中，所述调整子模块，用于：

可选地，在本申请实施例提供的音频文本韵律的标注装置中，所述预处理子模块，包括：

第一预处理子模块，用于针对所述P份样本数据中的每一份样本数据，对所述音频样本进行处理，使得所述音频样本的时长等于第一阈值；

第二预处理子模块，用于针对所述P份样本数据中的每一份样本数据，对所述样本数据中的已标注韵律标记的文本样本进行处理，得到韵律真值结果；对所述韵律真值结果进行处理，使得所述韵律真值结果的长度等于第二阈值；

这样，在将样本数据输入至韵律模型进行模型训练之前，预先对样本数据进行处理，使样本数据的音频样本的时长满足韵律模型的输入设置要求，以及提前将已标注韵律标记的文本样本转化为韵律真值结果，在样本数据包括多份时，可以提高目标韵律模型的训练效率。

可选地，在本申请实施例提供的音频文本韵律的标注装置中，所述第一预处理子模块，用于：在所述音频样本的时长小于第一阈值的情况下，通过在音频样本的音频信号尾部添加指定信号的方式，将所述音频样本的时长补齐至第一阈值；

所述第二预处理子模块，用于：在所述韵律真值结果的长度小于第二阈值的情况下，通过在所述韵律真值结果的尾部添加指定符号的方式，将所述韵律真值结果的长度补齐至第二阈值。

这样，可以将多份音频样本的时长格式统一，以及将多份文本样本转换而成的韵律真值序列的长度格式统一，提高了目标韵律模型的训练效率。

本申请实施例中的音频文本韵律的标注装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频文本韵律的标注装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频文本韵律的标注装置能够实现图1-2至图1-5、图3-1至图3-2的方法实施例实现的各个过程，为避免重复，这里不再赘述。

本申请实施例提供的语音合成方法，执行主体可以为语音合成装置。本申请实施例中以语音合成装置执行语音合成方法为例，说明本申请实施例提供的语音合成装置。

可选地，本申请实施例提供一种语音合成装置，可包括：第二获取模块和第二获得模块；

第二获取模块，用于获取带韵律标注的目标文本和已训练好的语音合成模型；

第二获得模块，用于将所述带韵律标注的目标文本输入至所述已训练好的语音合成模型，得到目标语音；

其中，所述带韵律标注的目标文本是利用如上述任一项方法实施例中所述的标注方法对目标文本进行韵律标注得到的。

根据本申请实施例提供的语音合成装置，包括第二获取模块，用于获取带韵律标注的目标文本和已训练好的语音合成模型；第二获得模块，用于将所述带韵律标注的目标文本输入至所述已训练好的语音合成模型，得到目标语音；其中，所述带韵律标注的目标文本是利用如上述任一项方法实施例中所述的标注方法对目标文本进行韵律标注得到的。这样，利用本申请实施例提供的任一种标注方法对文本进行韵律标注之后，参考目标文本中的韵律标记合成目标语音，由于目标文本的韵律标记符合真实录音的停顿情况，合成的目标语音更加健壮稳定，不容易发生因韵律标记符号不规范导致的跳音、重复、噪音等语音合成问题，解决了相关技术中由于文本中的韵律标注的准确率较低而导致合成语音的自然度较差的问题。

本申请实施例提供的语音合成装置能够实现图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

本申请实施例提供的语音合成模型的训练方法，执行主体可以为语音合成模型的训练装置。本申请实施例中以语音合成模型的训练装置执行语音合成模型的训练方法为例，说明本申请实施例提供的语音合成模型的训练装置。

可选地，本申请实施例提供一种语音合成模型的训练装置，可包括：第三获取模块、预处理模块和第三获得模块；

所述第三获取模块，用于获取第一语音合成模型和Q份训练样本数据；

所述预处理模块，用于对所述Q份训练样本数据进行预处理，得到预处理后的Q份目标训练样本数据；其中，所述Q份目标训练样本数据中的每一份目标训练样本数据包括音频样本数据和已标注韵律的文本样本数据，Q为大于2的整数；

所述第三获得模块，用于通过所述Q份目标训练样本数据，对第一语音合成模型进行训练，得到目标语音合成模型；

根据本申请实施例提供的语音合成模型的训练装置，包括第三获取模块，用于获取第一语音合成模型和Q份训练样本数据；预处理模块，用于对所述Q份训练样本数据进行预处理，得到预处理后的Q份目标训练样本数据；其中，所述Q份目标训练样本数据中的每一份目标训练样本数据包括音频样本数据和已标注韵律的文本样本数据，Q为大于2的整数；第三获得模块，用于通过所述Q份目标训练样本数据，对第一语音合成模型进行训练，得到目标语音合成模型；其中，所述已标注韵律的文本样本数据是利用如上述任一方法实施例所述的标注方法对文本样本数据进行韵律标注得到的。这样，利用本申请实施例提供的音频文本韵律的标注方法，进行语音合成模型的训练样本的文本韵律标注；之后将已标注韵律的文本作为训练样本，进行语音合成模型的训练，使得语音合成模型的训练样本中的文本样本的韵律标记符合真实录音的停顿情况，语音合成模型的训练结果更加健壮稳定，不容易发生因韵律标记符号不规范导致的跳音、重复、噪音等语音合成问题，解决了相关技术中由于训练样本的文本样本标注韵律的准确率较低而导致合成语音的自然度较差的问题。

本申请实施例中的语音合成模型的训练装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语音合成模型的训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语音合成模型的训练装置能够实现图5的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图7所示，本申请实施例还提供一种电子设备700，包括处理器701和存储器702，存储器702上存储有可在所述处理器701上运行的程序或指令，该程序或指令被处理器701执行时实现上述方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备800包括但不限于：射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、以及处理器810等部件。

本领域技术人员可以理解，电子设备800还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器810逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，输入单元804，用于获取目标音频以及与所述目标音频对应的目标文本；

其中，处理器810，用于将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述目标音频的韵律停顿特征；

其中，处理器810，还用于基于所述韵律指示信息，对所述目标文本进行韵律标注。

根据本申请实施例提供的电子设备，输入单元804，用于获取目标音频以及与所述目标音频对应的目标文本；处理器810，用于将所述目标音频输入至目标韵律模型进行音频转化处理，得到目标结果；其中，所述目标韵律模型为已训练好的韵律模型，所述目标结果包括韵律指示信息，所述韵律指示信息用于指示所述目标音频的韵律停顿特征；处理器810，还用于基于所述韵律指示信息，对所述目标文本进行韵律标注。这样，由于将音频输入已训练好的韵律模型得到音频的韵律停顿特征，进而将音频的韵律作为文本的韵律来对文本进行韵律标注，使得文本中标注的韵律标记符合音频的实际发音停顿情况，提高了对文本进行韵律标注的准确率，从而解决了韵律标注的准确率较低的问题。

本申请实施例提供的电子设备能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

应理解的是，本申请实施例中，输入单元804可以包括图形处理器(GraphicsProcessing Unit，GPU)8041和麦克风8042，图形处理器8041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元806可包括显示面板8061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板8061。用户输入单元807包括触控面板8071以及其他输入设备8072中的至少一种。触控面板8071，也称为触摸屏。触控面板8071可包括触摸检测装置和触摸控制器两个部分。其他输入设备8072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器809可用于存储软件程序以及各种数据。存储器809可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器809可以包括易失性存储器或非易失性存储器，或者，存储器809可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器809包括但不限于这些和任意其它适合类型的存储器。

处理器810可包括一个或多个处理单元；可选的，处理器810集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器810中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频文本韵律的标注方法，其特征在于，包括：

获取目标音频以及与所述目标音频对应的目标文本；

基于所述韵律指示信息，对所述目标文本进行韵律标注；

所述目标韵律模型包括：特征编码器层、双向循环网络层以及全连接层；

在音频转化处理方面，所述特征编码器层将所述目标音频进行音频特征提取和编码处理，得到音频特征表达向量；所述双向循环网络层对基于所述音频特征表达向量得到的目标音频特征表达向量的上下文时序特征进行循环学习，得到双向特征向量；所述全连接层对基于所述双向特征向量得到的目标音频特征矩阵进行分类预测处理，得到目标结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标音频输入至目标韵律模型进行音频转化处理，包括：

判断所述目标音频和/或所述目标文本是否满足预设条件；

其中，所述预设条件包括：音频的时长小于等于第一阈值，和/或文本的长度小于等于第二阈值。

3.根据权利要求1所述的方法，其特征在于，所述韵律指示信息包括文本韵律编码序列，所述基于所述韵律指示信息，对所述目标文本进行韵律标注，包括：

从所述文本韵律编码序列中确定出与所述目标文本的长度相适配的目标文本韵律编码；

根据所述目标文本韵律编码，对所述目标文本进行韵律标注。

4.根据权利要求3所述的方法，其特征在于，所述文本韵律编码序列包括N个韵律编码；所述目标文本的长度为所述目标文本中字符的个数；

所述从所述文本韵律编码序列中确定出与所述目标文本的长度相适配的目标文本韵律编码，包括：

5.根据权利要求4所述的方法，其特征在于，M等于所述目标文本中字符的个数，所述根据所述目标文本韵律编码，对所述目标文本进行韵律标注，包括：

6.根据权利要求5所述的方法，其特征在于，针对韵律编码设置有K种韵律编码等级，针对韵律标记设置有K种韵律标记等级，所述K种韵律编码等级与所述K种韵律标记等级之间具有一一对应的关系；

7.根据权利要求1所述的方法，其特征在于，所述目标韵律模型还包括用于学习音频的句子结构特征的上下文网络层，所述特征编码器层经由所述上下文网络层与所述双向循环网络层相连接；

8.根据权利要求7所述的方法，其特征在于，所述特征编码器层包括预设的语音预训练模型中的原始特征编码器层；所述上下文网络层包括所述语音预训练模型中的原始上下文网络层的前半部分。

9.根据权利要求1所述的方法，其特征在于，所述目标韵律模型的训练过程包括：

获取第一韵律模型和P份样本数据；

对所述P份样本数据进行预处理，得到预处理后的P份目标样本数据；其中，所述P份目标样本数据中的每一份目标样本数据包括音频样本和已标注韵律的文本样本，所述已标注韵律的文本样本与所述音频样本具有对应关系；P为大于2的整数；

将第一份目标样本数据的音频样本输入所述第一韵律模型，得到与第一份目标样本数据的所述音频样本对应的第一韵律预测值结果；

基于所述第一韵律预测值结果与第一韵律真值结果，对所述第一韵律模型的参数进行调整，得到第二韵律模型；其中，所述第一韵律真值结果是基于第一份目标样本数据中已标注韵律的文本样本而得到；

通过所述P份目标样本数据，得到第P+1韵律模型；

基于所述第P+1韵律模型，得到目标韵律模型。

10.根据权利要求9所述的方法，其特征在于，所述基于所述第一韵律预测值结果与第一韵律真值结果，对所述第一韵律模型的参数进行调整，包括：

11.根据权利要求9所述的方法，其特征在于，所述对所述P份样本数据进行预处理包括：

针对所述P份样本数据中的每一份样本数据，执行如下过程：

对所述音频样本进行处理，使得所述音频样本的时长等于第一阈值；

对所述样本数据中的已标注韵律标记的文本样本进行处理，得到韵律真值结果；对所述韵律真值结果进行处理，使得所述韵律真值结果的长度等于第二阈值；

12.根据权利要求11所述的方法，其特征在于，

所述对所述音频样本进行处理，使得所述音频样本的时长等于第一阈值包括：在所述音频样本的时长小于第一阈值的情况下，通过在音频样本的音频信号尾部添加指定信号的方式，将所述音频样本的时长补齐至第一阈值；

所述对所述韵律真值结果进行处理，使得所述韵律真值结果的长度等于第二阈值包括：在所述韵律真值结果的长度小于第二阈值的情况下，通过在所述韵律真值结果的尾部添加指定符号的方式，将所述韵律真值结果的长度补齐至第二阈值。

13.一种语音合成方法，其特征在于，包括：

获取带韵律标注的目标文本和已训练好的语音合成模型；

其中，所述带韵律标注的目标文本是利用如权利要求1-12中任一项所述的标注方法对目标文本进行韵律标注得到的。

14.一种语音合成模型的训练方法，其特征在于，包括：

获取第一语音合成模型和Q份训练样本数据；

其中，所述已标注韵律的文本样本数据是利用如权利要求1-12中任一项所述的标注方法对文本样本数据进行韵律标注得到的。

15.一种音频文本韵律的标注装置，其特征在于，包括：第一获取模块、第一获得模块以及标注模块；

所述标注模块，用于基于所述韵律指示信息，对所述目标文本进行韵律标注；

16.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-14任一项所述的方法的步骤。

17.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-14任一项所述的方法的步骤。