CN117496945A

CN117496945A - 语音合成模型的训练方法、语音处理方法及装置

Info

Publication number: CN117496945A
Application number: CN202310889808.9A
Authority: CN
Inventors: 刘鹏飞; 蒋宁; 吴海英; 陆全; 刘敏
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2024-02-02

Abstract

本申请实施例公开了一种语音合成模型的训练方法、语音处理方法及装置。所述语音合成模型的训练方法包括：将样本数据输入待训练的语音合成模型处理得到预测音频数据，根据预测音频数据和标准音频数据对语音合成模型进行训练。其中，对样本数据的处理包括：提取样本音素数据的音素特征信息和样本段落文本数据的段落文本特征信息；根据音素特征信息和段落文本特征信息确定样本音素数据的目标特征信息，目标特征信息包括音素特征信息、段落文本特征信息以及样本音素数据和样本段落文本数据之间的相关性特征信息；根据目标特征信息对样本音素数据进行语音合成，得到样本音素数据的预测音频数据。本申请能够提升段落文本的语音合成效果以及合成效率。

Description

语音合成模型的训练方法、语音处理方法及装置

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音合成模型的训练方法、语音处理方法及装置。

背景技术

非自回归TTS(Text To Speech，文本到语音)模型中的语音合成模型FastSpeech2因其较好的语音合成效果和响应速度，被运用于线上。FastSpeech2的输入为音素数据(包括拼音和韵律)，输出为音频数据，如梅尔频谱Mel-spectrogram，Mel-spectrogram再经声码器处理后生成语音。

发明内容

本申请实施例的目的是提供一种语音合成模型的训练方法、语音处理方法及装置，用以提升段落文本的语音合成效果以及合成效率。

为解决上述技术问题，本申请实施例是这样实现的：

一方面，本申请实施例提供一种语音合成模型的训练方法，包括：

将样本数据输入待训练的语音合成模型处理得到预测音频数据，所述样本数据包括样本文本的样本音素数据、样本段落文本数据以及所述样本音素数据的标准音频数据；

根据所述预测音频数据和所述标准音频数据对所述待训练的语音合成模型进行训练，得到训练后的语音合成模型；

所述将样本数据输入待训练的语音合成模型处理得到预测音频数据包括：

提取所述样本音素数据的音素特征信息，以及所述样本段落文本数据的段落文本特征信息；

根据所述音素特征信息和所述段落文本特征信息，确定所述样本音素数据的目标特征信息，所述目标特征信息包括所述音素特征信息、所述段落文本特征信息以及所述样本音素数据和所述样本段落文本数据之间的相关性特征信息；

根据所述目标特征信息对所述样本音素数据进行语音合成，得到所述样本音素数据的所述预测音频数据。

一方面，本申请实施例提供一种语音处理方法，包括：

将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据，所述第一数据包括第一文本的音素数据以及第一段落文本数据；

所述将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据包括：

提取所述音素数据的音素特征信息，以及所述第一段落文本数据的段落文本特征信息；

根据所述音素特征信息和所述段落文本特征信息，确定所述音素数据的目标特征信息，所述目标特征信息包括所述音素特征信息、所述段落文本特征信息以及所述音素数据和所述第一段落文本数据之间的相关性特征信息；

根据所述目标特征信息对所述音素数据进行语音合成，得到所述音素数据的所述目标音频数据。

一方面，本申请实施例提供一种语音合成模型的训练装置，包括：

第一处理模块，用于将样本数据输入待训练的语音合成模型处理得到预测音频数据，所述样本数据包括样本文本的样本音素数据、样本段落文本数据以及所述样本音素数据的标准音频数据；

训练模块，用于根据所述预测音频数据和所述标准音频数据对所述待训练的语音合成模型进行训练，得到训练后的语音合成模型；

所述第一处理模块在将样本数据输入待训练的语音合成模型处理得到预测音频数据时执行为：

一方面，本申请实施例提供一种语音处理装置，包括：

第二处理模块，用于将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据，所述第一数据包括第一文本的音素数据以及第一段落文本数据；

所述第二处理模块在将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据时执行为：

提取所述音素数据的音素特征信息以及所述第一段落文本数据的段落文本特征信息；

一方面，本申请实施例提供一种电子设备，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述一方面的语音合成模型的训练方法，或者，所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述一方面的语音处理方法。

一方面，本申请实施例提供一种计算机可读存储介质，用于存储计算机程序，所述计算机程序能够被处理器执行以实现上述一方面的语音合成模型的训练方法，或者，所述计算机程序能够被处理器执行以实现上述一方面的语音处理方法。

采用本申请实施例的技术方案，具有如下有益效果：在对语音合成模型的训练过程中，所依据的样本数据并非仅仅是某个句子本身的音素特征，而是结合了句子所在段落的段落文本数据在段落层级上的特征，例如样本文本所在段落即为样本段落文本数据，通过结合样本文本的音素特征信息以及样本段落文本数据的段落文本特征信息，使得语音合成模型在训练过程中能够充分学习到样本音素数据和样本段落文本数据之间的相关性特征信息，例如样本文本在样本段落文本数据的位置信息、上下文关联性等等，从而学习到更加丰富、完整的特征，使得训练出的语音合成模型的预测准确率更高、模型性能更优。此外，由于语音合成模型在学习特征时，并非是根据整个样本段落文本数据的音素数据进行特征学习，而是以样本段落文本数据中的部分文本(如样本文本)为单位，也即，将样本段落文本数据拆分为句子作为训练时的依据，从而学习到更细粒度、更丰富的特征，大大提升语音合成模型的模型响应效率。进一步地，在利用训练后的语音合成模型进行语音合成时，由于模型性能优以及模型响应效率高，使得段落文本的语音效果和准确度也得以大大提升。

附图说明

为了更清楚地说明本申请一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请一实施例的一种FastSpeech2的数据处理过程的示意性原理图；

图2是根据本申请一实施例的一种语音合成模型的训练方法的示意性流程图；

图3是根据本申请另一实施例的一种语音合成模型的训练方法的示意性流程图；

图4是根据本申请一实施例的一种语音合成模型的训练过程的示意性原理图；

图5是根据本申请另一实施例的一种语音合成模型的训练过程的示意性原理图；

图6是根据本申请一实施例的一种标准音频数据的示意性界面图；

图7是根据本申请一实施例的一种预测音频数据的示意性界面图；

图8是根据本申请一实施例的一种语音处理方法的示意性流程图；

图9是根据本申请另一实施例的一种语音处理方法的示意性流程图；

图10是根据本申请一实施例的一种语音合成模型的训练装置的示意性框图；

图11是根据本申请一实施例的一种语音处理装置的示意性框图；

图12是根据本申请一实施例的一种电子设备的示意性框图。

具体实施方式

本申请实施例提供一种语音合成模型的训练方法、语音处理方法及装置，用以提升段落文本的语音合成效果以及合成效率。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在相关语音合成技术领域中，非自回归TTS模型中的FastSpeech2能够直接用真实的语音数据作为目标进行模型训练，以避免信息损失。图1示意性地示出了FastSpeech2的数据处理原理图，由图1可看出，FastSpeech2包括音素嵌入模块、位置编码器、特征提取模块、可变信息预测器和音频生成模块。FastSpeech2的输入为音素数据，音素数据包括拼音和韵律，韵律用于表示词语之间的停顿时间长短。例如，句子“我在吃饭”对应的音素数据即为“wo3 zai4 chi1 fan4”，其中，数字“1、2、3、4”表示拼音的四种声调，不同拼音之间的空格表示停顿，空格的长短表示停顿时间长短。FastSpeech2的输出为音频数据，如Mel-spectrogram，音频数据再经声码器处理后生成语音。其中，Mel-spectrogram是一种在说话人分割、声纹识别、语音识别、语音合成等技术中广泛使用的特征，是基于人耳听觉特征提出来的，其主要用于语音数据的特征提取。

在FastSpeech2的数据处理过程中，输入的音素数据首先进入音素嵌入模块，音素嵌入模块获取音素数据中的音素相关信息，位置编码器获取音素数据中的位置信息，然后，音素相关信息和位置信息被输入特征提取模块。特征提取模块基于音素数据中的音素相关信息和位置信息，提取出更高层的音素数据之间的特征，比如句法等。提取出的特征被输入可变信息预测器，可变信息预测器中可包括多个子预测器，每个子预测器分别用于预测音素数据的不同音频属性信息，如音频时长、音调、音量等。在经过可变信息预测器之后，音素数据被映射为和音频数据一样的长度。音频属性信息经过位置编码器，位置编码器获取音频属性信息中的位置信息，然后，音频属性信息和位置信息被输入音频生成模块，音频生成模块基于音频属性信息和位置信息学习到更加丰富的信息，从而得到音频数据。

基于图1所示的FastSpeech2的模型结构，相关语音合成技术不满足于对句子的语音合成，已经趋向于段落的语音合成。一种方式如下：在训练语音合成模型(如FastSpeech2)时，将整个段落文本对应的音素数据以及标准音频数据输入待训练的语音合成模型中，通过语音合成模型对整个段落文本对应的音素数据进行特征提取，得到整个段落文本对应的音素特征数据，进而基于整个段落文本对应的音素特征数据，对整个段落文本进行语音合成，得到预测音频数据。然后，根据预测音频数据和标准音频数据之间的差异度，对语音合成模型的模型参数进行调整。在使用训练后的语音合成模型对段落文本进行语音合成时，将整个段落文本对应的音素数据输入训练后的语音合成，并输出整个段落文本对应的音频数据。可以看出，这种语音合成模型的训练方式中，是直接根据整个段落文本对应的音素数据进行特征学习的，由于段落文本相较于句子而言，数量级上翻了好几倍，会极大影响语音合成模型在训练过程中的响应速度，从而影响模型性能。

另一种相关技术方式为：将整个段落文本拆分为多个句子，然后将多个句子以及每个句子分别对应的音素数据、标准音频数据输入待训练的语音合成模型中，通过语音合成模型，分别对每个句子的音素数据进行特征提取，得到每个句子的音素特征数据，进而基于每个句子的音素特征数据，对每个句子进行语音合成，得到每个句子的预测音频数据。然后，根据每个句子的预测音频数据和标准音频数据之间的差异度，对语音合成模型的模型参数进行调整。在使用训练后的语音合成模型对段落文本进行语音合成时，首先将段落文本拆分为多个句子，然后将每个句子的音素数据分别输入训练后的语音合成模型，以通过语音合成模型对每个句子进行语音合成，得到每个句子的音频数据。然后，将每个句子的音频数据拼接起来，从而得到整个段落文本对应的音频数据。可以看出，这种方式虽然能够提升模型在训练过程中的响应速度，但语音合成模型在特征学习过程中，不仅没有考虑到段落文本中各个句子之间的相关性，也并未考虑到单个句子和整个段落文本之间的相关性，将句子脱离于段落文本，从而导致语音合成模型学习到的特征不完整、不准确，最终导致语音合成模型的模型性能较差。

本申请提供了一种语音处理方法，通过将样本数据输入待训练的语音合成模型处理得到预测音频数据，其中，样本数据包括样本文本的样本音素数据、样本段落文本数据以及样本音素数据的标准音频数据，样本段落文本数据包括样本文本。进而根据预测音频数据和标准音频数据对待训练的语音合成模型进行训练，得到训练后的语音合成模型。在将样本数据输入待训练的语音合成模型处理得到预测音频数据时，可通过提取样本音素数据的音素特征信息，以及样本段落文本数据的段落文本特征信息。进而，根据音素特征信息和段落文本特征信息，确定样本音素数据的目标特征信息，目标特征信息包括音素特征信息、段落文本特征信息以及样本音素数据和样本段落文本数据之间的相关性特征信息。然后，根据目标特征信息对样本音素数据进行语音合成，得到样本音素数据的预测音频数据可见，在对语音合成模型的训练过程中，所依据的样本数据并非仅仅是某个句子本身的音素特征，而是结合了句子所在段落的段落文本数据在段落层级上的特征，例如样本文本所在段落即为样本段落文本数据，通过结合样本文本的音素特征信息以及样本段落文本数据的段落文本特征信息，使得语音合成模型在训练过程中能够充分学习到样本音素数据和样本段落文本数据之间的相关性特征信息，例如样本文本在样本段落文本数据的位置信息、上下文关联性等等，从而学习到更加丰富、完整的特征，使得训练出的语音合成模型的预测准确率更高、模型性能更优。此外，由于语音合成模型在学习特征时，并非是根据整个样本段落文本数据的音素数据进行特征学习，而是以样本段落文本数据中的部分文本(如样本文本)为单位，也即，将样本段落文本数据拆分为句子作为训练时的依据，从而学习到更细粒度、更丰富的特征，大大提升语音合成模型的模型响应效率。进一步地，在利用训练后的语音合成模型进行语音合成时，由于模型性能优以及模型响应效率高，使得段落文本的语音效果和准确度也得以大大提升。

下面详细说明本申请实施例提供的语音合成模型的训练方法和语音处理方法。在下面任一实施例中，所述的音频数据(如标准音频数据、预测音频数据等)均可以是Mel-spectrogram。

本申请实施例提供的语音合成模型的训练方法和语音处理方法可由电子设备执行，或者由安装于电子设备中的软件执行，具体地，电子设备可以是终端设备或者服务端设备。其中，终端设备可以包括智能手机、笔记本电脑、智能可穿戴设备、车载终端等，服务器设备可以包括独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器。

图2是根据本申请一实施例的一种语音合成模型的训练方法的示意性流程图，如图2所示，该方法包括以下步骤：

S202，将样本数据输入待训练的语音合成模型处理得到预测音频数据，样本数据包括样本文本的样本音素数据、样本段落文本数据以及样本音素数据的标准音频数据。

其中，样本音素数据包括拼音和韵律，韵律用于表示词语之间的停顿时间长短。例如，样本文本“我在吃饭”对应的样本音素数据即为“wo3 zai4 chi1 fan4”，其中，数字“1、2、3、4”表示拼音的四种声调，不同拼音之间的空格表示停顿，空格的长短表示停顿时间长短。

样本段落文本数据包括样本文本。样本段落文本数据包括多个句子，样本文本可以是样本段落文本数据中的一个或多个句子。例如，样本段落文本数据包括：“我们去春游吧。我和胖子一起。到时我们两也会带一些吃的喝的。”，那么样本文本可以是：“我们去春游吧。”、“我和胖子一起。”或者“到时我们两也会带一些吃的喝的。”。

S204，根据预测音频数据和标准音频数据对待训练的语音合成模型进行训练，得到训练后的语音合成模型。

其中，样本音素数据的标准音频数据可理解为语音合成模型的训练目标，用于判断每次迭代训练后得到的语音合成模型是否达到训练目标。可选地，语音合成模型的训练方向为减小预测音频数据和标准音频数据之间的差异。例如，在每次迭代训练过程中，将语音合成模型输出的预测音频数据与对应的标准音频数据输入预设的损失函数，以计算出语音合成模型在当前迭代后的损失值，若该损失值小于或等于预设损失阈值，则可确定语音合成模型达到训练目标。若该损失值大于预设损失阈值，则可确定语音合成模型未达到训练目标，需调整模型参数并进入下一轮迭代。其中，损失函数可以是预测音频数据和标准音频数据之间的差异度。

本实施例中，在执行步骤S202时，即在将样本数据输入待训练的语音合成模型处理得到预测音频数据时，可执行为如图3所示的步骤S2021-S2023：

S2021，提取样本音素数据的音素特征信息，以及样本段落文本数据的段落文本特征信息。

其中，音素特征信息可包括发音特征(即拼音)、韵律特征、每个音素单元在样本音素数据中的位置信息中的至少一项。音素单元可以是一个拼音，也可以是拼音中的一个字母。

段落文本特征信息可包括每个文本单元在样本段落文本数据中的位置信息、各个句子之间的句子关联特征信息、每个句子的情感特征信息、每个句子的语义信息、每个文本单元的语义信息等中的至少一项。文本单元可以是一个字或者一个词。各个句子之间的句子关联特征信息可通过各个句子对应的句子向量之间的向量相关性来表征，句子向量之间的向量相关性的计算方式为现有技术，此处不赘述。

S2022，根据音素特征信息和段落文本特征信息，确定样本音素数据的目标特征信息，目标特征信息包括音素特征信息、段落文本特征信息以及样本音素数据和样本段落文本数据之间的相关性特征信息。

其中，样本音素数据和样本段落文本数据之间的相关性特征信息可包括以下至少一项：样本文本中的每个文本单元在样本段落文本数据中的文本位置信息、样本音素数据在样本段落文本数据的语言场景中的情感特征信息。

语言场景也可理解为语境，样本段落文本数据的语言场景即为样本段落文本数据当前所属的语境。可以理解，在段落文本中，每个句子之间在语义、情感等方面均具有相关性，同一句子在不同语境(包括在不同段落文本中)的语义、情感可能存在差异。因此，样本音素数据在样本段落文本数据的语言场景中的情感特征信息，指的是结合样本段落文本数据当前所属的语境，或者说结合样本音素数据对应的样本文本在样本段落文本数据中的上下文数据之后，样本音素数据所具有的情感特征信息。

S2023，根据目标特征信息对样本音素数据进行语音合成，得到样本音素数据的预测音频数据。

采用本申请实施例的技术方案，具有以下有益效果：在对语音合成模型的训练过程中，所依据的样本数据并非仅仅是某个句子本身的音素特征，而是结合了句子所在段落的段落文本数据在段落层级上的特征，例如样本文本所在段落即为样本段落文本数据，通过结合样本文本的音素特征信息以及样本段落文本数据的段落文本特征信息，使得语音合成模型在训练过程中能够充分学习到样本音素数据和样本段落文本数据之间的相关性特征信息，例如样本文本在样本段落文本数据的位置信息、上下文关联性等等，从而学习到更加丰富、完整的特征，使得训练出的语音合成模型的预测准确率更高、模型性能更优。此外，由于语音合成模型在学习特征时，并非是根据整个样本段落文本数据的音素数据进行特征学习，而是以样本段落文本数据中的部分文本(如样本文本)为单位，也即，将样本段落文本数据拆分为句子作为训练时的依据，从而学习到更细粒度、更丰富的特征，大大提升语音合成模型的模型响应效率。进一步地，在利用训练后的语音合成模型进行语音合成时，由于模型性能优以及模型响应效率高，使得段落文本的语音效果和准确度也得以大大提升。

图4是根据本申请一实施例中的一种语音合成模型的训练过程的示意性原理图。如图4所示，待训练的语音合成模型包括：音素特征提取模块、段落文本特征提取模块、特征融合模块和语音合成模块。在将样本数据输入待训练的语音合成模型之后，语音合成模型中的各个模块的功能如下：

音素特征提取模块提取样本音素数据的音素特征信息。音素特征信息可包括发音特征(即拼音)、韵律特征、每个音素单元在样本音素数据中的位置信息中的至少一项。音素特征信息被输入至特征融合模块。

段落文本特征提取模块提取样本段落文本数据的段落文本特征信息。段落文本特征信息可包括每个文本单元在样本段落文本数据中的位置信息、各个句子之间的句子关联特征信息、每个句子的情感特征信息、每个句子的语义信息、每个文本单元的语义信息等中的至少一项。段落文本特征信息被输入至特征融合模块。

特征融合模块根据音素特征信息和段落文本特征信息，确定样本音素数据的目标特征信息。目标特征信息包括：音素特征信息、段落文本特征信息以及样本音素数据和样本段落文本数据之间的相关性特征信息。相关性特征信息可包括以下至少一项：样本文本中的每个文本单元在样本段落文本数据中的文本位置信息、样本音素数据在样本段落文本数据的语言场景中的情感特征信息。目标特征信息被输入至音频生成模块。

语音合成模块根据目标特征信息对样本音素数据进行语音合成，得到样本音素数据的预测音频数据。

在每一次迭代过程中，语音合成模块输出预测音频数据之后，根据预测音频数据与标准音频数据判断语音合成模型是否达到预设的迭代终止条件，若达到，则停止迭代，得到训练后的语音合成模型。若未达到，则进入下一轮次迭代。其中，预设的迭代终止条件可包括以下至少一项：迭代次数达到预设次数、语音合成模型的损失函数趋于稳定、损失函数的值小于或等于预设阈值。可选地，可采用预测音频数据与标准音频数据之间的差异度表征语音合成模型的损失函数，当预测音频数据与标准音频数据之间的差异度小于或等于预设差异度阈值时，确定语音合成模型满足预设的迭代终止条件。

在一个实施例中，音素特征提取模块包括音素嵌入层、第一位置编码器和音素特征提取层。音素特征提取模块提取样本音素数据的音素特征信息时，音素特征提取模块中的各个层的功能如下：

音素嵌入层获取样本音素数据中的发音信息，发音信息包括拼音、韵律等信息。可选地，音素嵌入层获取到的发音信息可包括每个音素单元的发音信息，例如，样本音素数据包括“wo”，若每个字母为一个音素单元，则音素嵌入层可获取到音素单元“w”的发音信息以及音素单元“o”的发音信息。可选地，音素嵌入层获取到的发音信息可包括多个音素单元的组合的发音信息，仍以样本音素数据包括“wo”为例，若每个字母为一个音素单元，则音素嵌入层可获取到多个音素单元的组合“wo”的发音信息。

第一位置编码器获取样本音素数据中的音素位置信息，其中，音素位置信息用于表征样本音素数据中的每个音素单元在样本音素数据中的位置。

音素特征提取层根据发音信息和音素位置信息对样本音素数据进行特征提取，得到样本音素数据的音素特征信息。

在一个实施例中，段落文本特征提取模块包括：第一文本特征提取层、维度变换层、第二文本特征提取层和第二位置编码器。

段落文本特征信息包括第三文本特征信息和第一文本位置信息。段落文本特征提取模块提取样本段落文本数据的段落文本特征信息时，音素特征提取模块中的各个层的功能如下：

第一文本特征提取层提取样本段落文本数据的第一文本特征信息，其中，第一文本特征信息用于表征样本段落文本数据在第一维度上的语义信息。第一文本特征提取层可采用预训练模型Bert(一种自然语言处理模型)，预训练模型Bert能够提取出输入的文本数据中的文本特征信息，如文本的情感特征信息。在文本数据为包括多个句子的段落文本数据的情况下，预训练模型Bert能够提取出段落文本数据中的文本特征信息，如段落文本数据中每个句子的语义信息、每个句子的情感特征信息、各个句子之间的句子关联特征信息等。由于预训练模型Bert输出的是段落级别的特征信息，特征本身比较大，因此需要通过维度变换层将特征信息的维度映射至较小的一个维度。

维度变换层对第一文本特征信息进行维度变换处理，得到第二文本特征信息；第二文本特征信息用于表征样本段落文本数据在第二维度上的语义信息。维度变换层可采用线性层Linear。

第二文本特征提取层基于第二文本特征信息提取样本段落文本数据的第三文本特征信息，第三文本特征信息用于表征样本段落文本数据在第二维度上的语义信息，且第三文本特征信息的特征粒度小于第二文本特征信息的特征粒度。第二文本特征提取层可采用N层conformer网络结构(即卷积—注意力机制)，N为大于1的整数。N层conformer网络结构具有强大的特征提取能力，既能提取全局特征，又能提取局部特征。因此，相较于第一文本特征提取层而言，第二文本特征提取层能够提取到更完整、粒度更细的文本特征信息。

第二位置编码器基于第三文本特征信息提取样本段落文本数据的第一文本位置信息，第一文本位置信息用于表征样本段落文本数据中的每个文本单元在样本段落文本数据中的位置。

在提取出音素特征信息和段落文本特征信息之后，音素特征信息和段落文本特征信息均被输入至特征融合模块，特征融合模块确定样本音素数据对应的目标特征信息。其中，段落文本特征信息包括第三文本特征信息和第一文本位置信息。第三文本特征信息包括：样本段落文本数据中的每个句子之间的句子关联特征信息以及每个句子的第一情感特征信息。目标特征信息包括样本音素数据和样本段落文本数据之间的相关性特征信息。相关性特征信息包括：样本文本中的每个文本单元在样本段落中的第二文本位置信息以及样本音素数据在样本段落文本数据的语言场景中的第二情感特征信息。

可选地，特征融合模块基于多头自注意力机制对音素特征信息、第三文本特征信息和第一文本位置信息进行特征融合处理，得到样本音素数据和样本段落文本数据之间的相关性特征信息。

所谓多头自注意力机制，就是在给定相同的查询、键和值的集合时，模型可以基于相同的注意力机制学习到不同的行为，然后将不同的行为作为知识组合起来，例如捕获序列内各种范围的依赖关系(例如短距离依赖和长距离依赖)。本实施例中，可将段落文本特征信息作为多头自注意力机制的键和值，将音素特征信息作为多头自注意力机制的查询，从而使多头自注意力机制基于查询、键和值进行特征融合(即特征学习)，得到样本音素数据和样本段落文本数据之间的相关性特征信息。

在一个实施例中，语音合成模块包括可变信息预测器和音频生成层。语音合成模块根据目标特征信息对样本音素数据进行语音合成，得到样本音素数据对应的预测音频数据时，可先将目标特征信息和音素特征信息进行特征相加处理，得到可变信息预测器的输入数据。进而将该输入数据输入可变信息预测器，可变信息预测器根据输入数据预测样本音素数据的音频属性信息，音频属性信息包括音频时长、音调、音量中的至少一项。然后，音频生成层根据音频属性信息和输入数据对输入数据进行语音合成，得到样本音素数据的预测音频数据。

本实施例中，由于特征融合模块在对音素特征信息、第三文本特征信息和第一文本位置信息进行特征融合处理时，会更加突出样本音素数据和样本段落文本数据之间的相关性特征信息，因此，即使特征融合模块输出的目标特征信息中包括音素特征信息，该音素特征信息也在特征融合处理过程中被相应地弱化了。为避免可变信息预测器预测音频属性信息时，所依据的音素特征信息不完整(即被弱化)，因此，将特征融合模块输出的目标特征信息和音素特征信息进行特征相加处理，能够确保音素特征信息的完整性，从而提升可变信息预测器预测音频属性信息的准确性，进一步提升音频生成层预测音频数据的准确性。

下面通过一具体实施例来说明本申请提供的语音合成模型的训练方法。

图5是根据本申请另一实施例中的一种语音合成模型的训练过程的示意性原理图，如图5所示，待训练的语音合成模型包括：音素嵌入层、第一位置编码器、音素特征提取层、第一文本特征提取层、维度变换层、第二文本特征提取层、第二位置编码器、特征融合模块、可变信息预测器和音频生成层。其中，第一文本特征提取层采用预训练模型Bert。第二文本特征提取层可采用N层conformer网络结构(即卷积—注意力机制)，N为大于1的整数。

首先获取样本数据，样本数据包括：样本文本的样本音素数据、样本段落文本数据以及样本音素数据的标准音频数据。假设样本数据包括：

“phonemes：wo3 he2 7pang4 zi5 7yi4 qi3。

paragraph text：我们去春游吧。我和胖子一起。到时我们两也会带一些吃的喝的。”

其中，“phonemes”表示样本文本的样本音素数据，“paragraph text”表示样本段落文本数据。在样本音素数据中，采用1、2、3、4、5、6表示音调，具体为一声1、二声2、三声3、四声4、轻声5、变声6。采用7、8、9表示韵律即停顿时间，数字越大，表示停顿时间越长，具体地，7表示停顿时间较短，9表示停顿时间较长，8则表示停顿时间居中。例如，在样本音素数据“phonemes”中，拼音“he2”中的“2”为音调，表示“he”的音调为二声。此外，样本数据中还包括样本音素数据的标准音频数据，标准音频数据如图6所示。

获取到样本数据之后，将样本数据输入至待训练的语音合成模型处理得到预测音频数据，其中，将样本音素数据输入至音素嵌入层和第一位置编码器，并将样本段落文本数据输入至第一文本特征提取层，即预训练模型Bert。下面结合待训练的语音合成模型的模型结构，详细说明将样本数据输入至待训练的语音合成模型之后，如何对样本数据进行处理以得到预测音频数据。

音素嵌入层获取样本音素数据中的发音信息，发音信息包括拼音、韵律等信息，第一位置编码器获取样本音素数据中的音素位置信息，音素位置信息用于表征样本音素数据中的每个音素单元在样本音素数据中的位置。发音信息和音素位置信息被输入至音素特征提取层。音素特征提取层根据样本音素数据的发音信息和音素位置信息，对样本音素数据进行特征提取，得到样本音素数据的音素特征信息。样本音素数据的音素特征信息被输入至特征融合模块。

预训练模型Bert提取样本段落文本数据的第一文本特征信息，第一文本特征信息用于表征样本段落文本数据在第一维度上的语义信息。由于预训练模型Bert输出的是段落级别的特征信息，特征本身比较大，因此需要通过维度变换层将特征信息的维度映射至较小的一个维度。第一文本特征信息被输入至维度变换层，维度变换层对第一文本特征信息进行维度变换处理，得到第二文本特征信息，并将第二文本特征信息输入至第二文本特征提取层，即N层conformer网络结构。第二文本特征信息用于表征样本段落文本数据在第二维度上的语义信息。维度变换层可采用线性层Linear。N层conformer网络结构基于第二文本特征信息，提取样本段落文本数据的第三文本特征信息，并将第三文本特征信息输入至第二位置编码器，第三文本特征信息用于表征样本段落文本数据在第二维度上的语义信息，且第三文本特征信息的特征粒度小于第二文本特征信息的特征粒度。第二位置编码器基于第三文本特征信息，提取样本段落文本数据的第一文本位置信息，第一文本位置信息用于表征样本段落文本数据中的每个文本单元在样本段落文本数据中的位置。然后，将第三文本特征信息和第一文本位置信息输入至特征融合模块。其中，第三文本特征信息包括：样本段落文本数据中的每个句子之间的句子关联特征信息以及每个句子的第一情感特征信息。

特征融合模块基于多头自注意力机制，对音素特征信息、第三文本特征信息和第一文本位置信息进行特征融合处理，得到样本音素数据和样本段落文本数据之间的相关性特征信息。相关性特征信息包括：样本文本中的每个文本单元在样本段落中的第二文本位置信息以及样本文本在样本段落文本数据中的第二情感特征信息。特征融合模块的输出数据为样本音素数据对应的目标特征信息，该目标特征信息包括音素特征信息、段落文本特征信息以及样本音素数据和样本段落文本数据之间的相关性特征信息。段落文本特征信息包括第三文本特征信息和第一文本位置信息。

然后，特征融合模块输出的目标特征信息和音素特征提取层输出的音素特征信息相加，相加后得到可变信息预测器的输入数据，该输入数据被输入至可变信息预测器，可变信息预测器根据输入数据预测样本音素数据的音频属性信息，音频属性信息包括音频时长、音调、音量中的至少一项，并将音频属性信息输入至音频生成层。音频生成层根据音频属性信息和输入数据对输入数据进行语音合成，得到样本音素数据的预测音频数据。可选地，在可变信息预测器和音频生成层之间还可配置一个位置编码器，如图5中所示的第三位置编码器，第三位置编码器用于提取音频属性信息中的位置信息。该位置信息和音频属性信息经过相加后被输入至音频生成层，音频生成层进行语音合成，得到样本音素数据的预测音频数据。预测音频数据的输出结果可参照图7所示。

在每一次迭代过程中，音频生成层输出预测音频数据之后，根据预测音频数据与标准音频数据判断语音合成模型是否达到预设的迭代终止条件，若达到，则停止迭代，得到训练后的语音合成模型。若未达到，则进入下一轮次迭代。其中，预设的迭代终止条件可包括以下至少一项：迭代次数达到预设次数、语音合成模型的损失函数趋于稳定、损失函数的值小于或等于预设阈值。可选地，可采用预测音频数据与标准音频数据之间的差异度表征语音合成模型的损失函数，当预测音频数据与标准音频数据之间的差异度小于或等于预设差异度阈值时，确定语音合成模型满足预设的迭代终止条件。

可以看出，本实施例在对语音合成模型的训练过程中，所依据的样本数据并非仅仅是某个句子本身的音素特征，而是结合了句子所在段落的段落文本数据在段落层级上的特征，例如样本文本所在段落即为样本段落文本数据，通过结合样本文本的音素特征信息以及样本段落文本数据的段落文本特征信息，使得语音合成模型在训练过程中能够充分学习到样本音素数据和样本段落文本数据之间的相关性特征信息，例如样本文本在样本段落文本数据的位置信息、上下文关联性等等，从而学习到更加丰富、完整的特征，使得训练出的语音合成模型的预测准确率更高、模型性能更优。此外，由于语音合成模型在学习特征时，并非是根据整个样本段落文本数据对应的音素数据进行特征学习，而是以样本段落文本数据中的部分文本(如样本文本)为单位，也即，将样本段落文本数据拆分为句子作为训练时的依据，从而学习到更细粒度、更丰富的特征，大大提升语音合成模型的模型响应效率。

图8是根据本申请一实施例的一种语音处理方法的示意性流程图，如图8所示，该方法包括以下步骤：

S802，将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据，第一数据包括第一文本的音素数据以及第一段落文本数据。

其中，训练后的语音合成模型根据上述任一实施例中的语音合成模型的训练方法训练得到。

音素数据包括拼音和韵律，韵律用于表示词语之间的停顿时间长短。例如，第一文本“我在吃饭”对应的音素数据即为“wo3 zai4 chi1 fan4”，其中，数字“1、2、3、4”表示拼音的四种声调，不同拼音之间的空格表示停顿，空格的长短表示停顿时间长短。

第一段落文本数据包括第一文本。第一段落文本数据包括多个句子，第一文本可以是第一段落文本数据中的一个或多个句子。例如，第一段落文本数据包括：“我们去春游吧。我和胖子一起。到时我们两也会带一些吃的喝的。”，那么第一文本可以是：“我们去春游吧。”、“我和胖子一起。”或者“到时我们两也会带一些吃的喝的。”。

本实施例中，在执行步骤S802时，即将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据时，可执行为如图9所示的步骤S8021-S8023：

S8021，提取音素数据的音素特征信息，以及第一段落文本数据的段落文本特征信息。

音素特征信息可包括发音特征(即拼音)、韵律特征、每个音素单元在音素数据中的位置信息中的至少一项。音素单元可以是一个拼音，也可以是拼音中的一个字母。段落文本特征信息可包括每个文本单元在第一段落文本数据中的位置信息、各个句子之间的句子关联特征信息、每个句子的情感特征信息、每个句子的语义信息、每个文本单元的语义信息等中的至少一项。文本单元可以是一个字或者一个词。各个句子之间的句子关联特征信息可通过各个句子对应的句子向量之间的向量相关性来表征，句子向量之间的向量相关性的计算方式为现有技术，此处不赘述。

S8022，根据音素特征信息和段落文本特征信息，确定音素数据的目标特征信息，目标特征信息包括,音素特征信息、段落文本特征信息以及音素数据和第一段落文本数据之间的相关性特征信息。

其中，音素数据和第一段落文本数据之间的相关性特征信息可包括以下至少一项：第一文本中的每个文本单元在第一段落文本数据中的文本位置信息、音素数据在第一段落文本数据的语言场景中的情感特征信息。

音素数据在第一段落文本数据的语言场景中的情感特征信息，指的是结合第一段落文本数据当前所属的语境，或者说结合音素数据对应的第一文本在第一段落文本数据中的上下文数据之后，音素数据所具有的情感特征信息。

S8023，根据目标特征信息对音素数据进行语音合成，得到音素数据的目标音频数据。

在一个实施例中，训练后的语音合成模型包括：音素特征提取模块、段落文本特征提取模块、特征融合模块和语音合成模块；提取音素数据的音素特征信息，以及第一段落文本数据的段落文本特征信息包括：音素特征提取模块提取音素数据的音素特征信息；段落文本特征提取模块提取第一段落文本数据的段落文本特征信息；根据音素特征信息和段落文本特征信息，确定音素数据的目标特征信息，包括：特征融合模块根据音素特征信息和段落文本特征信息，确定音素数据的目标特征信息；根据目标特征信息对音素数据进行语音合成，得到音素数据的目标音频数据，包括：语音合成模块根据目标特征信息对音素数据进行语音合成，得到音素数据的目标音频数据。

在一个实施例中，音素特征提取模块包括：音素嵌入层、第一位置编码器和音素特征提取层；音素特征提取模块提取音素数据的音素特征信息，包括：音素嵌入层获取音素数据中的发音信息；第一位置编码器获取音素数据中的音素位置信息；音素位置信息用于表征音素数据中的每个音素单元在音素数据中的位置；音素特征提取层根据发音信息和音素位置信息对音素数据进行特征提取，得到音素数据的音素特征信息。

在一个实施例中，段落文本特征提取模块包括：第一文本特征提取层、维度变换层、第二文本特征提取层和第二位置编码器；段落文本特征提取模块提取第一段落文本数据的段落文本特征信息，包括：第一文本特征提取层提取第一段落文本数据的第一文本特征信息；第一文本特征信息用于表征第一段落文本数据在第一维度上的语义信息；维度变换层对第一文本特征信息进行维度变换处理，得到第二文本特征信息；第二文本特征信息用于表征第一段落文本数据在第二维度上的语义信息；第二文本特征提取层基于第二文本特征信息提取第一段落文本数据的第三文本特征信息；第三文本特征信息用于表征第一段落文本数据在第二维度上的语义信息，且第三文本特征信息的特征粒度小于第二文本特征信息的特征粒度；第二位置编码器基于第三文本特征信息提取第一段落文本数据的第一文本位置信息；第一文本位置信息用于表征第一段落文本数据中的每个文本单元在第一段落文本数据中的位置；其中，段落文本特征信息包括第三文本特征信息和第一文本位置信息。

在一个实施例中，特征融合模块根据音素特征信息和段落文本特征信息，确定音素数据的目标特征信息，包括：特征融合模块基于多头自注意力机制，对音素特征信息、第三文本特征信息和第一文本位置信息进行特征融合处理，得到相关性特征信息。

在一个实施例中，第三文本特征信息包括：第一段落文本数据中的每个句子之间的句子关联特征信息以及每个句子的第一情感特征信息；相关性特征信息包括：第一文本中的每个文本单元在第一段落文本数据中的第二文本位置信息，以及音素数据在第一段落文本数据的语言场景中的第二情感特征信息。

在一个实施例中，语音合成模块包括：可变信息预测器和音频生成层；语音合成模块根据目标特征信息对音素数据进行语音合成，得到音素数据的目标音频数据，包括：将目标特征信息和音素特征信息进行特征相加处理，得到可变信息预测器的输入数据；将输入数据输入可变信息预测器，可变信息预测器根据输入数据预测音素数据的音频属性信息；音频属性信息包括音频时长、音调、音量中的至少一项；音频生成层根据音频属性信息和输入数据对输入数据进行语音合成，得到音素数据的目标音频数据。

本领域的技术人员应可理解，图8中的语音处理方法的相关细节描述，与图2中的语音合成模型的训练方法的相关细节描述类似，为避免繁琐，此处不另赘述。

采用本申请实施例的技术方案，具有以下有益效果：由于在对语音合成模型的训练过程中，所依据的样本数据并非仅仅是某个句子本身的音素特征，而是结合了句子所在段落的段落文本数据在段落层级上的特征，例如样本文本所在段落即为样本段落文本数据，通过结合样本文本的音素特征信息以及样本段落文本数据的段落文本特征信息，使得语音合成模型在训练过程中能够充分学习到样本音素数据和样本段落文本数据之间的相关性特征信息，例如样本文本在样本段落文本数据的位置信息、上下文关联性等等，从而学习到更加丰富、完整的特征，使得训练出的语音合成模型的预测准确率更高、模型性能更优。此外，由于语音合成模型在学习特征时，并非是根据整个样本段落文本数据的音素数据进行特征学习，而是以样本段落文本数据中的部分文本(如样本文本)为单位，也即，将样本段落文本数据拆分为句子作为训练时的依据，从而学习到更细粒度、更丰富的特征，大大提升语音合成模型的模型响应效率。因此，在利用训练后的语音合成模型进行语音合成时，由于模型性能优以及模型响应效率高，使得段落文本的语音效果和准确度也得以大大提升。

综上，已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

以上为本申请实施例提供的语音合成模型的训练方法和语音处理方法，基于同样的思路，本申请实施例还提供一种语音合成模型的训练装置和语音处理装置。

图10是根据本申请一实施例的一种语音合成模型的训练装置的示意性框图，如图10所示，该装置包括：

第一处理模块101，用于将样本数据输入待训练的语音合成模型处理得到预测音频数据，所述样本数据包括样本文本的样本音素数据、样本段落文本数据以及所述样本音素数据的标准音频数据；

训练模块102，用于根据所述预测音频数据和所述标准音频数据对所述待训练的语音合成模型进行训练，得到训练后的语音合成模型；

所述第一处理模块101在将样本数据输入待训练的语音合成模型处理得到预测音频数据时执行为：

采用本申请实施例的语音合成模型的训练装置，具有以下有益效果：在对语音合成模型的训练过程中，所依据的样本数据并非仅仅是某个句子本身的音素特征，而是结合了句子所在段落的段落文本数据在段落层级上的特征，例如样本文本所在段落即为样本段落文本数据，通过结合样本文本的音素特征信息以及样本段落文本数据的段落文本特征信息，使得语音合成模型在训练过程中能够充分学习到样本音素数据和样本段落文本数据之间的相关性特征信息，例如样本文本在样本段落文本数据的位置信息、上下文关联性等等，从而学习到更加丰富、完整的特征，使得训练出的语音合成模型的预测准确率更高、模型性能更优。此外，由于语音合成模型在学习特征时，并非是根据整个样本段落文本数据的音素数据进行特征学习，而是以样本段落文本数据中的部分文本(如样本文本)为单位，也即，将样本段落文本数据拆分为句子作为训练时的依据，从而学习到更细粒度、更丰富的特征，大大提升语音合成模型的模型响应效率。进一步地，在利用训练后的语音合成模型进行语音合成时，由于模型性能优以及模型响应效率高，使得段落文本的语音效果和准确度也得以大大提升。

本领域的技术人员应可理解，图10中的语音合成模型的训练装置能够用来实现前文所述的语音合成模型的训练方法，其中的细节描述应与前文方法部分描述类似，为避免繁琐，此处不另赘述。

图11是根据本申请另一实施例的一种语音处理装置的示意性框图，如图11所示，该装置包括：

第二处理模块111，用于将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据，所述第一数据包括第一文本的音素数据以及第一段落文本数据；

所述第二处理模块111在将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据时执行为：

采用本申请实施例的语音处理装置，具有以下有益效果：由于在对语音合成模型的训练过程中，所依据的样本数据并非仅仅是某个句子本身的音素特征，而是结合了句子所在段落的段落文本数据在段落层级上的特征，例如样本文本所在段落即为样本段落文本数据，通过结合样本文本的音素特征信息以及样本段落文本数据的段落文本特征信息，使得语音合成模型在训练过程中能够充分学习到样本音素数据和样本段落文本数据之间的相关性特征信息，例如样本文本在样本段落文本数据的位置信息、上下文关联性等等，从而学习到更加丰富、完整的特征，使得训练出的语音合成模型的预测准确率更高、模型性能更优。此外，由于语音合成模型在学习特征时，并非是根据整个样本段落文本数据的音素数据进行特征学习，而是以样本段落文本数据中的部分文本(如样本文本)为单位，也即，将样本段落文本数据拆分为句子作为训练时的依据，从而学习到更细粒度、更丰富的特征，大大提升语音合成模型的模型响应效率。因此，在利用训练后的语音合成模型进行语音合成时，由于模型性能优以及模型响应效率高，使得段落文本的语音效果和准确度也得以大大提升。

本领域的技术人员应可理解，图11中的语音处理装置能够用来实现前文所述的语音处理方法，其中的细节描述应与前文方法部分描述类似，为避免繁琐，此处不另赘述。

基于同样的思路，本申请实施例还提供一种电子设备，如图12所示。电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器1201和存储器1202，存储器1202中可以存储有一个或一个以上存储应用程序或数据。其中，存储器1202可以是短暂存储或持久存储。存储在存储器1202的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地，处理器1201可以设置为与存储器1202通信，在电子设备上执行存储器1202中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源1203，一个或一个以上有线或无线网络接口1204，一个或一个以上输入输出接口1205，一个或一个以上键盘1206。

具体在本实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

具体在另一实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个计算机程序，该一个或多个计算机程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行上述语音合成模型的训练方法实施例的各个过程，并具体用于执行：

将所述样本数据输入待训练的语音合成模型处理得到预测音频数据，所述样本数据包括样本文本的样本音素数据、样本段落文本数据以及所述样本音素数据的标准音频数据；

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个计算机程序，该一个或多个计算机程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行上述语音处理方法实施例的各个过程，并具体用于执行：

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待训练的语音合成模型包括：音素特征提取模块、段落文本特征提取模块、特征融合模块和语音合成模块；

所述提取所述样本音素数据的音素特征信息，以及所述样本段落文本数据的段落文本特征信息包括：

所述音素特征提取模块提取所述样本音素数据的音素特征信息；

所述段落文本特征提取模块提取所述样本段落文本数据的所述段落文本特征信息；

所述根据所述音素特征信息和所述段落文本特征信息，确定所述样本音素数据的目标特征信息，包括：

所述特征融合模块根据所述音素特征信息和所述段落文本特征信息，确定所述样本音素数据的所述目标特征信息；

所述根据所述目标特征信息对所述样本音素数据进行语音合成，得到所述样本音素数据的所述预测音频数据，包括：

所述语音合成模块根据所述目标特征信息对所述样本音素数据进行语音合成，得到所述样本音素数据的所述预测音频数据。

3.根据权利要求2所述的方法，其特征在于，所述音素特征提取模块包括：音素嵌入层、第一位置编码器和音素特征提取层；所述音素特征提取模块提取所述样本音素数据的音素特征信息，包括：

所述音素嵌入层获取所述样本音素数据中的发音信息；

所述第一位置编码器获取所述样本音素数据中的音素位置信息；所述音素位置信息用于表征所述样本音素数据中的每个音素单元在所述样本音素数据中的位置；

所述音素特征提取层根据所述发音信息和所述音素位置信息对所述样本音素数据进行特征提取，得到所述样本音素数据的所述音素特征信息。

4.根据权利要求2所述的方法，其特征在于，所述段落文本特征提取模块包括：第一文本特征提取层、维度变换层、第二文本特征提取层和第二位置编码器；所述段落文本特征提取模块提取所述样本段落文本数据的所述段落文本特征信息，包括：

所述第一文本特征提取层提取所述样本段落文本数据的第一文本特征信息；所述第一文本特征信息用于表征所述样本段落文本数据在第一维度上的语义信息；

所述维度变换层对所述第一文本特征信息进行维度变换处理，得到第二文本特征信息；所述第二文本特征信息用于表征所述样本段落文本数据在第二维度上的语义信息；

所述第二文本特征提取层基于所述第二文本特征信息提取所述样本段落文本数据的第三文本特征信息；所述第三文本特征信息用于表征所述样本段落文本数据在所述第二维度上的语义信息，且所述第三文本特征信息的特征粒度小于所述第二文本特征信息的特征粒度；

所述第二位置编码器基于所述第三文本特征信息提取所述样本段落文本数据的第一文本位置信息；所述第一文本位置信息用于表征所述样本段落文本数据中的每个文本单元在所述样本段落文本数据中的位置；

其中，所述段落文本特征信息包括所述第三文本特征信息和所述第一文本位置信息。

5.根据权利要求4所述的方法，其特征在于，所述特征融合模块根据所述音素特征信息和所述段落文本特征信息，确定所述样本音素数据的所述目标特征信息，包括：

所述特征融合模块基于多头自注意力机制，对所述音素特征信息、所述第三文本特征信息和所述第一文本位置信息进行特征融合处理，得到所述相关性特征信息。

6.根据权利要求5所述的方法，其特征在于，所述第三文本特征信息包括：所述样本段落文本数据中的每个句子之间的句子关联特征信息以及所述每个句子的第一情感特征信息；

所述相关性特征信息包括：所述样本文本中的每个文本单元在所述样本段落文本数据中的第二文本位置信息，以及所述样本音素数据在所述样本段落文本数据的语言场景中的第二情感特征信息。

7.根据权利要求2所述的方法，其特征在于，所述语音合成模块包括：可变信息预测器和音频生成层；

所述语音合成模块根据所述目标特征信息对所述样本音素数据进行语音合成，得到所述样本音素数据的所述预测音频数据，包括：

将所述目标特征信息和所述音素特征信息进行特征相加处理，得到所述可变信息预测器的输入数据；

将所述输入数据输入所述可变信息预测器，所述可变信息预测器根据所述输入数据预测所述样本音素数据的音频属性信息；所述音频属性信息包括音频时长、音调、音量中的至少一项；

所述音频生成层根据所述音频属性信息和所述输入数据对所述输入数据进行语音合成，得到所述样本音素数据的所述预测音频数据。

8.一种语音处理方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述训练后的语音合成模型包括：音素特征提取模块、段落文本特征提取模块、特征融合模块和语音合成模块；

所述提取所述音素数据的音素特征信息，以及所述第一段落文本数据的段落文本特征信息包括：

所述音素特征提取模块提取所述音素数据的音素特征信息；

所述段落文本特征提取模块提取所述第一段落文本数据的所述段落文本特征信息；

所述根据所述音素特征信息和所述段落文本特征信息，确定所述音素数据的目标特征信息，包括：

所述特征融合模块根据所述音素特征信息和所述段落文本特征信息，确定所述音素数据的所述目标特征信息；

所述根据所述目标特征信息对所述音素数据进行语音合成，得到所述音素数据的所述目标音频数据，包括：

所述语音合成模块根据所述目标特征信息对所述音素数据进行语音合成，得到所述音素数据的所述目标音频数据。

10.根据权利要求9所述的方法，其特征在于，所述音素特征提取模块包括：音素嵌入层、第一位置编码器和音素特征提取层；所述音素特征提取模块提取所述音素数据的音素特征信息，包括：

所述音素嵌入层获取所述音素数据中的发音信息；

所述第一位置编码器获取所述音素数据中的音素位置信息；所述音素位置信息用于表征所述音素数据中的每个音素单元在所述音素数据中的位置；

所述音素特征提取层根据所述发音信息和所述音素位置信息对所述音素数据进行特征提取，得到所述音素数据的所述音素特征信息。

11.根据权利要求9所述的方法，其特征在于，所述段落文本特征提取模块包括：第一文本特征提取层、维度变换层、第二文本特征提取层和第二位置编码器；所述段落文本特征提取模块提取所述第一段落文本数据的所述段落文本特征信息，包括：

所述第一文本特征提取层提取所述第一段落文本数据的第一文本特征信息；所述第一文本特征信息用于表征所述第一段落文本数据在第一维度上的语义信息；

所述维度变换层对所述第一文本特征信息进行维度变换处理，得到第二文本特征信息；所述第二文本特征信息用于表征所述第一段落文本数据在第二维度上的语义信息；

所述第二文本特征提取层基于所述第二文本特征信息提取所述第一段落文本数据的第三文本特征信息；所述第三文本特征信息用于表征所述第一段落文本数据在所述第二维度上的语义信息，且所述第三文本特征信息的特征粒度小于所述第二文本特征信息的特征粒度；

所述第二位置编码器基于所述第三文本特征信息提取所述第一段落文本数据的第一文本位置信息；所述第一文本位置信息用于表征所述第一段落文本数据中的每个文本单元在所述第一段落文本数据中的位置；

12.根据权利要求11所述的方法，其特征在于，所述特征融合模块根据所述音素特征信息和所述段落文本特征信息，确定所述音素数据的所述目标特征信息，包括：

13.根据权利要求12所述的方法，其特征在于，所述第三文本特征信息包括：所述第一段落文本数据中的每个句子之间的句子关联特征信息以及所述每个句子的第一情感特征信息；

所述相关性特征信息包括：所述第一文本中的每个文本单元在所述第一段落文本数据中的第二文本位置信息，以及所述音素数据在所述第一段落文本数据的语言场景中的第二情感特征信息。

14.根据权利要求9所述的方法，其特征在于，所述语音合成模块包括：可变信息预测器和音频生成层；

所述语音合成模块根据所述目标特征信息对所述音素数据进行语音合成，得到所述音素数据的所述目标音频数据，包括：

将所述输入数据输入所述可变信息预测器，所述可变信息预测器根据所述输入数据预测所述音素数据的音频属性信息；所述音频属性信息包括音频时长、音调、音量中的至少一项；

所述音频生成层根据所述音频属性信息和所述输入数据对所述输入数据进行语音合成，得到所述音素数据的所述目标音频数据。

15.一种语音合成模型的训练装置，其特征在于，包括：

16.一种语音处理装置，其特征在于，包括：

17.一种电子设备，其特征在于，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求1-7任一项所述的语音合成模型的训练方法，或者，所述处理器用于从所述存储器调用并执行所述计算机程序以实现权利要求8-14任一项所述的语音处理方法。

18.一种计算机可读存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-7任一项所述的语音合成模型的训练方法，或者，所述计算机程序能够被处理器执行以实现如权利要求8-14任一项所述的语音处理方法。