CN116386591A

CN116386591A - 一种预训练方法及相关方法和设备

Info

Publication number: CN116386591A
Application number: CN202310166337.9A
Authority: CN
Inventors: 张威; 方昕; 高丽; 祖漪清; 钟金佐穆; 张逸杰; 倪嘉禾
Original assignee: Iflytek Shanghai Technology Co ltd
Current assignee: Iflytek Shanghai Technology Co ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-07-04

Abstract

本发明提供了一种预训练方法及相关方法和设备，其中，预训练方法包括：获取训练文本对应的字素信息序列和音素信息序列，以及字素信息序列与所述音素信息序列在整词级别的对齐信息；结合对齐信息，在整词级别对字素信息序列与音素信息序列进行混合处理，得到混合信息序列，其中，在进行混合处理时，针对同一整词，只保留字素信息和音素信息中的一种信息；基于混合信息序列，对初始的语言模型进行训练。由于本发明基于混合有字素信息和音素信息的混合信息序列对语言模型进行预训练，因此，通过训练，语言模型既能够学习到发音信息，又能够学习到语义信息，这使得最终训练得到的语言模型具有较好的表示能力。

Description

一种预训练方法及相关方法和设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种预训练方法及相关方法和设备。

背景技术

基于编码器-解码器(encoder-decoder)框架的任务模型(比如语音合成模型)的一般获得方式为，先通过预训练方式获得编码器，即对初始的语言模型进行训练，训练后的语言模型作为编码器，在此基础上构建包括编码器和解码器的模型，进而利用指定任务的训练数据对构建的模型进行微调，从而得到最终的任务模型(比如，用语音合成任务的训练数据对构建的模型进行微调，得到语音合成模型)。

目前的预训练方式一般为基于音素信息的预训练方式，即获取训练文本对应的音素信息序列，利用训练文本对应的音素信息序列对初始的语言模型进行训练。然而，在利用训练文本对应的音素信息序列对语言模型进行训练时，语言模型仅能学习到发音信息，而无法学习到其它重要信息，这导致训练得到语言模型作为编码器应用于下游任务(比如语音合成任务)时，效果不佳。

发明内容

有鉴于此，本发明提供了一种预训练方法及相关方法和设备，用以解决采用现有的预训练方式对语言模型进行预训练时，语言模型仅能学习到发音信息，而无法学习到其它重要信息，进而导致训练得到语言模型作为编码器应用于下游任务时，效果不佳的问题，其技术方案如下：

一种预训练方法，包括：

获取训练文本对应的字素信息序列和音素信息序列，以及所述字素信息序列与所述音素信息序列在整词级别的对齐信息，其中，所述字素信息序列中的每个字素信息为对所述训练文本进行分词得到一分词单元的信息，所述音素信息序列中的每个音素信息为所述训练文本中一整词的音素信息；

结合所述对齐信息，在整词级别对所述字素信息序列与所述音素信息序列进行混合处理，得到混合信息序列，其中，在进行混合处理时，针对同一整词，只保留字素信息和音素信息中的一种信息；

基于所述混合信息序列，对初始的语言模型进行训练。

可选的，获取训练文本对应的字素信息序列和音素信息序列，包括：

对所述训练文本进行子词粒度的切分，针对通过切分得到的子词序列中的每个子词，将该子词映射为表征该子词在词典中的位置的标识，作为该子词对应的字素标识，将由所述子词序列中各子词分别对应的字素标识组成的序列确定为所述训练文本对应的字素信息序列；

针对所述训练文本中的每个整词，获取该整词对应的音素序列，并将该整词对应的音素序列中的每个音素映射为表征该音素在所述词典中的位置的标识，得到标识序列作为该整词对应的音素标识，将由所述训练文本中各整词分别对应的音素标识组成的序列确定为所述训练文本对应的音素信息序列；

其中，所述词典中包括若干整词分别对应的子词切分方式和音素序列。

可选的，获取所述字素信息序列与所述音素信息序列在整词级别的对齐信息，包括：

获取所述字素信息序列中的每个字素信息所对应的整词在所述训练文本中的位置信息，以得到第一位置信息序列，并获取所述音素信息序列中的每个音素信息所对应的整词在所述训练文本中的位置信息，以得到第二位置信息序列；

将所述第一位置信息序列和所述第二位置信息序列，确定为所述字素信息序列与所述音素信息序列在整词级别的对齐信息。

可选的，所述结合所述对齐信息，在整词级别对所述字素信息序列与所述音素信息序列进行混合处理，包括：

以所述对齐信息为依据，随机生成第一掩码；

基于所述第一掩码，在整词级别对所述字素信息序列与所述音素信息序列进行混合处理，其中，所述第一掩码用于决定所述字素信息序列中的字素信息与所述音素信息序列中的音素信息的组合方式。

可选的，所述预训练方法还包括：

获取所述训练文本对应的标点信息序列，其中，所述标点信息序列包含所述训练文本在整词级别的标点信息；

所述基于所述混合信息序列，对初始的语言模型进行训练，包括：

基于所述混合信息序列和所述标点信息序列，对初始的语言模型进行训练。

可选的，所述获取所述训练文本对应的标点信息序列，包括：

获取对所述训练文本进行子词粒度的切分所得到子词序列中每个子词的标点信息，其中，一子词的标点信息为该子词所属整词的标点信息；

将所述子词序列中每个子词的标点信息映射为表征该标点信息在词典中的位置的标识，得到所述子词序列中每个子词对应的标点标识，其中，所述词典中包括若干标点信息；

将由所述子词序列中各子词分别对应的标点标识组成的序列，确定为所述训练文本对应的标点信息序列。

可选的，所述基于所述混合信息序列和所述标点信息序列，对初始的语言模型进行训练，包括：

在整词级别分别对所述混合信息序列中的部分信息和所述标点信息序列中的部分信息进行屏蔽处理，屏蔽处理后的混合信息序列作为第一目标信息序列；

对屏蔽处理后的标点信息序列中缺失的指示无标点的标点信息进行恢复处理，恢复处理后的标点信息序列作为第二目标信息序列；

利用所述第一目标信息序列和所述第二目标信息序列，对初始的语言模型进行训练。

可选的，所述在整词级别分别对所述混合信息序列中的部分信息和所述标点信息序列中的部分信息进行屏蔽处理，包括：

以所述对齐信息为依据，随机生成第二掩码；

基于所述第二掩码，在整词级别对所述混合信息序列中的部分信息进行屏蔽处理，并基于所述第二掩码，在整词级别对所述标点信息序列中的部分信息进行屏蔽处理。

可选的，所述利用所述第一目标信息序列和所述第二目标信息序列，对初始的语言模型进行训练，包括：

获取所述第一目标信息序列的表示向量以及所述第二目标信息序列的表示向量；

将所述第一目标信息序列的表示向量与所述第二目标信息序列的表示向量融合后输入所述初始的语言模型进行编码，得到编码结果；

以所述编码结果为依据，对所述第一目标信息序列中缺失的信息进行预测，得到第一预测结果，并以所述编码结果为依据，对所述第二目标信息序列中缺失的信息进行预测，得到第二预测结果；

基于所述第一预测结果和所述第二预测结果，对初始的语言模型进行参数更新。

可选的，所述基于所述第一预测结果和所述第二预测结果，对初始的语言模型进行参数更新，包括：

基于所述第一预测结果以及所述第一目标信息序列中缺失的实际信息，确定第一预测损失；

基于所述第二预测结果以及所述第二目标信息序列中缺失的实际信息，确定第二预测损失；

将所述第一预测损失与所述第二预测损失融合，得到融合后损失；

基于所述融合后损失，对初始的语言模型进行参数更新。

一种语音合成模型的获取方法，包括：

采用上述任一项所述的预训练方法对初始的语言模型进行预训练，得到预训练后的语言模型；

将所述预训练后的语言模型作为编码器，构建包括所述编码器和解码器模型，作为初始的语音合成模型；

采用语音合成任务的训练数据，对初始的语音合成模型进行训练，得到最终的语音合成模型。

一种语音合成方法，包括：

获取目标文本；

基于语音合成模型，合成所述目标文本对应的语音，其中，所述语音合成模型采用上述的语音合成模型的获取方法获得。

一种预训练装置，包括：第一信息获取模块、信息处理模块和模型训练模块；

所述第一信息获取模块，用于获取训练文本对应的字素信息序列和音素信息序列，以及所述字素信息序列与所述音素信息序列在整词级别的对齐信息，其中，所述字素信息序列中的每个字素信息为对所述训练文本进行分词得到一分词单元的信息，所述音素信息序列中的每个音素信息为所述训练文本中一整词的音素信息；

所述信息处理模块，用于结合所述对齐信息，在整词级别对所述字素信息序列与所述音素信息序列进行混合处理，得到混合信息序列，其中，在进行混合处理时，针对同一整词，只保留字素信息和音素信息中的一种信息；

所述模型训练模块，用于基于所述混合信息序列，对初始的语言模型进行训练。

可选的，所述预训练装置还包括：第二信息获取模块；

所述第二信息获取模块，用于获取所述训练文本对应的标点信息序列，其中，所述标点信息序列包含所述训练文本在整词级别的标点信息；

所述模型训练模块在基于所述混合信息序列，对初始的语言模型进行训练时，具体用于基于所述混合信息序列和所述标点信息序列，对初始的语言模型进行训练。

一种处理设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的预训练方法的各个步骤，和/或，实现上述的语音合成模型的获取方法的各个步骤，和/或，实现上述的语音合成方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的预训练方法的各个步骤，和/或，实现上述的语音合成模型的获取方法的各个步骤，和/或，实现上述的语音合成方法的各个步骤。

本发明提供的预训练方法，首先获取训练文本对应的字素信息序列和音素信息序列，以及字素信息序列与音素信息序列在整词级别的对齐信息，然后结合对齐信息，在整词级别对字素信息序列与音素信息序列进行混合处理，得到包含字素信息和音素信息的混合信息序列，最后基于混合信息序列，对初始的语言模型进行训练。基于音素信息对语言模型进行预训练，语言模型能够学习到发音信息，基于字素信息对语言模型进行预训练，语言模型能够学习到语义信息，由于本发明基于混合有字素信息和音素信息的混合信息序列对语言模型进行预训练，因此，通过训练，语言模型既能够学习到发音信息，又能够学习到语义信息，这使得最终训练得到的语言模型具有较好的表示能力。

在本发明提供的预训练方法的基础上，还提供了一种语音合成模型的获取方法，该方法首先采用本发明提供的预训练方法对初始的语言模型进行预训练，然后将预训练后的语言模型作为编码器，构建包括编码器和解码器的模型，最后采用语音合成任务的训练数据，对构建的模型进行训练，从而得到最终的语音合成模型，由于语音合成模型中的编码器采用本发明提供的预训练方法预训练得到，因此其具有较好的表示能力，进而语音合成模型具有较好的性能。在本发明提供的语音合成模型的获取方法的基础上，本发明还提供了一种语音合成方法，由于该方法采用本发明提供的语音合成模型的获取方法获取的语音合成模型合成目标文本对应的语音，因此可获得质量较好的合成语音。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明涉及的一种硬件架构的示意图；

图2为本发明实施例提供的预训练方法的流程示意图；

图3为本发明实施例提供的预训练方法的一具体实例的流程示意图；

图4为本发明实施例提供的获得第一目标信息序列以及利用第一目标信息序列对语言模型进行训练的示意图；

图5为本发明实施例提供的预训练方法的另一具体实例的流程示意图；

图6为本发明实施例提供的获得第一目标信息序列和第二目标信息序列，以及利用第一目标信息序列和第二目标信息序列对语言模型进行训练的示意图；

图7为本发明实施例提供的预训练装置的结构示意图；

图8为本发明实施例提供的处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本案发明人在实现本案的过程中发现，利用训练文本对应的音素信息序列对语言模型进行训练时，语言模型仅能学习到发音信息，而无法学习到语义信息，而语义信息是较为重要的信息，语义信息的缺失导致训练得到语言模型作为编码器应用于下游任务(比如语音合成任务)时，效果不佳。

为了能够使语言模型学习到语义信息，本案发明人进行了研究，起初的思路是，采用基于字素信息的预训练方式，即利用训练文本对应的字素信息序列对语言模型进行训练，然而，通过研究发现，利用训练文本对应的字素信息序列对语言模型进行训练时，语言模型只能学习到语义信息，而无法学习到发音信息，发音信息的缺失同样会导致训练得到语言模型作为编码器应用于下游任务时，效果不佳。

利用训练文本对应的音素信息序列对语言模型进行训练时，语言模型能学习到发音信息，而利用训练文本对应的字素信息序列对语言模型进行训练时，语言模型能学习到语义信息，本案发明人想到，可将音素信息与字素信息结合，沿着这个思路，发明人想到了基于音素信息和字素信息的预训练方法，即，将训练文本对应的音素信息序列与训练文本对应的字素信息序列前后输入语言模型，在输入时，进行屏蔽处理，在屏蔽时，将同一个词的字素信息和音素信息同时屏蔽掉。

本案发明人对基于音素信息和字素信息的预训练方法进行研究发现，该方法虽然结合了音素信息和字素信息，但是由于两者间距过长，导致语言模型很难学到较好的表示，将训练得到语言模型作为编码器应用于下游任务时，效果仍然不尽人意。

有鉴于此，本案发明人进一步进行研究，通过不断研究，最终提出了一种效果较好的预训练方法，该预训练方法的基本构思为，将训练文本对应的字素信息序列与训练文本对应的音素信息序列进行混合处理，得到混合有字素信息和音素信息的混合信息序列，基于混合信息序列对语言模型进行训练。另外，为了进一步提升训练效果，可结合训练文本对应的标点信息序列进行训练，在训练过程中，对混合信息序列和标点信息序列中的部分信息进行屏蔽，基于两个预测任务(其一，预测混合信息序列中屏蔽的信息，其二，预测标点信息序列中屏蔽的信息)的预测损失对模型进行参数更新。

在介绍本发明提供的预训练方法之前，先对本发明涉及的硬件架构进行说明。

在一种可能的实现方式中，如图1所示，本发明涉及的硬件架构可以包括：电子设备101和服务器102。

示例性的，电子设备101可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如，个人计算机、笔记本电脑、平板电脑、手机、智能电视等。

应注意的是，图1仅仅是一种示例，电子设备的类型可以有多种，不限于图1中的笔记本电脑。

示例性的，服务器102可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务器中心。服务器102可以包括处理器、存储器以及网络接口等。

示例性的，电子设备101可以通过无线通信网络与服务器102建立连接并通信；示例性的，电子设备101可以通过有线网络与服务器102建立连接并通信。

电子设备101可获取训练数据，将训练数据发送至服务器102，服务器102利用获得的训练数据，按本发明提供的预训练方法对初始的语言模型进行预训练。

在另一种可能的实现方式中，本发明涉及的硬件架构可以包括：电子设备。电子设备为具有较强数据处理能力的设备。

示例性的，电子设备可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如，个人计算机、笔记本电脑、平板电脑、手机、智能电视等。

电子设备可获取训练数据，利用获得的训练数据，按本发明提供的预训练方法对初始的语言模型进行预训练。

本领域技术人员应能理解上述电子设备和服务器仅为举例，其它现有的或今后可能出现的电子设备或服务器如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

接下来通过下述实施例对本发明提供的预训练方法进行介绍。

第一实施例

请参阅图2，示出了本发明实施例提供的预训练方法的流程示意图，可以包括：

步骤S201：获取训练文本对应的字素信息序列和音素信息序列，以及训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息。

其中，训练文本对应的字素信息序列表征的是，对训练文本进行分词所得到分词单元序列，训练文本对应的字素信息序列中的每个字素信息为对训练文本进行分词得到一分词单元的表征信息，即训练文本对应的字素信息序列包括对训练文本进行分词得到各分词单元的表征信息。在对训练文本进行分词时，可从整词的粒度进行分词，也可从子词的粒度进行切分，考虑到子词处于整词与字符之间，其能够较好的平衡OOV(out ofvocabulary，未登陆词，指的是训练时未出现，但测试时出现了的词)问题，可从子词的粒度进行切分。需要说明的是，若对训练文本从整词的粒度进行分词，则分词结果为整词序列，上述的分词单元即为整词，若对训练文本从子词的粒度进行分词，则分词结果为子词序列，上述的分词单元即为子词，另外需要说明的是，子词通过对整词进行切分得到，一个子词可能为整词的一部分，也可为整词本身，具体取决于整词的切分方式，比如，对整词“St-Petersburg”进行切分得到“St##-##Petersburg”，切分得到的子词“St”、“-”、“Petersburg”均为整词“St-Petersburg”的一部分，再比如，对整词“of”进行切分得到“of”，切分得到的子词“of”为整词“of”本身。

其中，训练文本对应的音素信息序列表征是，训练文本中各整词的发音信息，训练文本对应的音素信息序列中的每个音素信息为训练文本中一整词对应的音素序列中各音素的表征信息，即训练文本对应的音素信息序列包括训练文本中各整词分别对应的音素序列中各音素的表征信息。

步骤S202：结合训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息，在整词级别对训练文本对应的字素信息序列与训练文本对应的音素信息序列进行混合处理，得到混合信息序列。

其中，在进行混合处理时，针对同一整词，只保留该整词的字素信息和音素信息中的一种信息，即混合信息序列中要么包含该整词的字素信息，要么包含该整词的音素信息。需要说明的是，针对同一整词，保留字素信息还是音素信息可随机。

示例性的，训练文本包括5个整词，分别为word1、word2、word3、word4、word5，则在整词级别对该训练文本对应的字素信息序列与该训练文本对应的音素信息序列进行混合处理后，得到的混合信息序列的一种可能形式包括word1的字素信息、word2的音素信息、word3的音素信息、word4的字素信息、word5的音素信息。

步骤S203：基于混合信息序列，对初始的语言模型进行训练。

在一种可能的实现方式中，语言模型可以为MPG Bert模型，当然，本实施例并不限定于此，即，其它语言模型也可。

采用多个不同的训练文本按上述方式对语言模型进行多次训练，直至满足训练结束条件(比如，模型收敛，或者，达到预设的训练次数)。

本发明实施例提供的预训练方法，首先获取训练文本对应的字素信息序列和音素信息序列，以及字素信息序列与音素信息序列在整词级别的对齐信息，然后结合对齐信息，在整词级别对字素信息序列与音素信息序列进行混合处理，得到包含字素信息和音素信息的混合信息序列，最后基于混合信息序列，对初始的语言模型进行训练。基于音素信息对语言模型进行预训练，语言模型能够学习到发音信息，基于字素信息对语言模型进行预训练，语言模型能够学习到语义信息，由于本发明实施例提供的预训练方法基于混合有字素信息和音素信息的混合信息序列对语言模型进行预训练，因此，通过训练，语言模型既能够学习到发音信息，又能够学习到语义信息，这使得最终训练得到的语言模型具有较好的语言表示能力。

第二实施例

在上述第一实施例的基础上，本实施例提供预训练方法的一具体实例。

请参阅图3，示出了本实施例提供的预训练方法的具体实例的流程示意图，可以包括：

步骤S301：获取训练文本对应的字素信息序列和音素信息序列，以及训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息。

本实施例中，训练文本对应的字素信息序列中的每个字素信息为对训练文本进行分词得到一分词单元的信息，即训练文本对应的字素信息序列包括对训练文本进行分词得到各分词单元的信息。

获取训练文本对应的字素信息序列的过程可以包括：

步骤a1、对训练文本进行子词粒度的切分，得到训练文本对应的子词序列。

示例性的，训练文本为“The weather of St-Petersburg was perfect againaround ten knots of wind and sunny.”，对该训练文本进行子词粒度的切分会得到“CLSThe weather of St##-##Petersburg was perfect again around ten knots of windand sunny##.SEP”，其中，“CLS”表示句首，“SEP”表示句尾，该示例中，“The”的子词切分结果为其本身，“weather”的子词切分结果为其本身，“of”的子词切分结果为其本身，“St-Petersburg”的子词切分结果“St##-##Petersburg”，其它同理。需要说明的是，上述各个整词的子词切分结果仅为示例。

步骤a2、针对通过切分得到的子词序列中的每个子词，将该子词映射为表征该子词在词典中的位置的标识，作为该子词对应的字素标识。

本实施例将子词对应的字素标识作为子词的表征信息。

本实施例中的词典预先构建，在一种可能的实现方式中，本实施例中的词典的构建方式为，获取现有的包含若干词和若干词分别对应的切分方式的词典(比如bert-base-cased词典)，作为初始词典，然后进一步在初始词典中为每个词添加对应的音素序列，比如，为词“sunny”添加音素序列“ss ah nn ii”，从而得到最终的词典。

其中，在初始词典中为每个词添加对应的音素序列时，可获取大量文本数据，然后将这些文本数据中的表情符号(比如“:)”)等脏数据剔除，然后对剔除脏数据后的文本数据进行归一化处理(比如将英文文本数据中的“10”处理成“ten”)，接着使用G2P(grapheme tophoneme，字素到音素)规则对归一化后的文本数据进行转换，以得到的文本数据中每个整词对应的音素序列，最后根据这些文本数据中各整词对应的音素序列，在初始词典中为每个词添加对应的音素序列。

需要说明的是，本实施例中的训练文本为指定语种的训练文本，本实施例中的词典为指定语种的词典，该词典要尽可能囊括指定语种下的所有整词以及各整词分别对应的切分方式和音素序列。

按对应切分方式对整词进行切分得到的每个子词都可映射为其在词典中的位置，比如，“CLS”可映射为1，“SEP”可映射为2，“sunny”可映射为203，在对训练文本进行子词粒度的切分以获得子词序列后，可将子词序列中的每个子词映射为表征该子词在词典中的位置的标识。

示例性的，训练文本对应的子词序列“CLS The weather of St##-##Petersburgwas perfect again around ten knots of wind and sunny##.SEP”中的“CLS”可映射为“1”，将“1”作为“CLS”对应的字素标识，“The”可映射为“223”，将“223”作为“The”对应的字素标识，“weather”可映射为“259”，将“259”作为“weather”对应的字素标识，…，“.”可映射为“200”，“200”作为“.”对应的字素标识，“SEP”可映射为“2”，“2”作为“SEP”对应的字素标识。需要说明的是，标点会作为子词进行映射。

步骤a3、将由训练文本对应的子词序列中各子词分别对应的字素标识组成的序列，确定为训练文本对应的字素信息序列。

示例性的，训练文本对应的子词序列为“CLS The weather of St##-##Petersburg was perfect again around ten knots of wind and sunny##.SEP”，由该子词序列中各子词分别对应的字素标识组成的序列为[1 223 259 231 233 305247 235 216218 249 228 261 220 235 208 203 200 2]，其作为训练文本对应的字素信息序列。

本实施例中，训练文本对应的音素信息序列中的每个音素信息为训练文本中一整词的音素信息，即训练文本对应的音素信息序列包括训练文本中各整词的音素信息。

获取训练文本对应的音素信息序列的过程可以包括：

步骤b1、针对训练文本中的每个整词，获取该整词对应的音素序列，并将该整词对应的音素序列中的每个音素映射为表征该音素在词典中的位置的标识，得到的标识序列作为该整词对应的音素标识。

需要说明的是，每个整词对应的音素序列中的每个音素可映射为表征其在词典中的位置的标识，示例性的，“sunny”对应的音素序列为“ss ah nn ii”，音素序列“ss ah nnii”中的音素“ss”可映射为78，音素“ah”可映射为60，音素“nn”可映射为85，音素“ii”可映射为98，78、60、85和98可看作sunny”对应的音素序列中各音素的表征信息，本实施例将[7860 85 98]作为整词“sunny”对应的音素标识。

步骤b2、将由训练文本中各整词分别对应的音素标识组成的序列确定为训练文本对应的音素信息序列。

为了便于实现后续处理，还需获取训练文本对应的字素信息序列与训练文本对应的音素信息序列的对齐信息，具体的，获取训练文本对应的字素信息序列与训练文本对应的音素信息序列的对齐信息的过程可以包括：

步骤c1-a、获取训练文本对应的字素信息序列中的每个字素信息所对应的整词在训练文本中的位置信息，以得到第一位置信息序列。

示例性的，训练文本对应的字素信息序列为[1 223 259 231 233 305 247235216 218 249 228 261 220 235 208 203 200 2]，其中，字素信息“1”对应的整词为“CLS”，“CLS”为训练文本的第0个词，因此，字素信息“1”所对应的整词在训练文本中的位置信息为“0”，字素信息“223”对应的整词为“The”，“The”为训练文本的第1个词，因此，字素信息“223”所对应的整词在训练文本中的位置信息为“1”，字素信息“259”对应的整词为“weather”，“weather”为训练文本的第2个词，因此，字素信息“259”所对应的整词在训练文本中的位置信息为“2”，字素信息“231”对应的整词为“of”，“of”为训练文本的第3个词，因此，字素信息“231”所对应的整词在训练文本中的位置信息为“3”，字素信息“233”对应的整词为“St-Petersburg”，“St-Petersburg”为训练文本的第4个词，因此，字素信息“233”所对应的整词在训练文本中的位置信息为“4”，由于字素信息“305”和字素信息“247”对应的整词也为“St-Petersburg”，因此，字素信息“305”和字素信息“247”所对应的整词在训练文本中的位置信息也为“4”，其它以此类推，最终获得的第一位置信息序列为[0 1 2 3 4 4 456 7 8 9 10 11 12 13 14 14 15]。

步骤c1-b、获取训练文本对应的音素信息序列中的每个音素信息所对应的整词在训练文本中的位置信息，以得到第二位置信息序列。

示例性的，音素信息[78 60 85 98]对应的整词为“sunny”，“sunny”为训练文本中的第14个整词，因此，音素信息[78 60 85 98]所对应的整词在训练文本中的位置信息为[14 14 1414]，将训练文本对应的音素信息序列中的各音素信息分别对应的整词在训练文本中的位置信息组成第二位置信息序列。

步骤c2：将第一位置信息序列和第二位置信息序列，确定为训练文本对应的字素信息序列与训练文本对应的音素信息序列的对齐信息。

步骤S302：结合训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息，在整词级别对训练文本对应的字素信息序列与训练文本对应的音素信息序列进行混合处理，得到混合信息序列。

其中，在进行混合处理时，针对同一整词，只保留字素信息和音素信息中的一种信息。

具体的，结合训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息，在整词级别对训练文本对应的字素信息序列与训练文本对应的音素信息序列进行混合处理的过程可以包括：

步骤d1、以训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息为依据，生成第一掩码。

其中，第一掩码可以训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息为依据，随机生成。

步骤d2、基于第一掩码，在整词级别对训练文本对应的字素信息序列与训练文本对应的音素信息序列进行混合处理，得到混合信息序列。

对于训练文本中的相邻整词A和B，在整词级别对音素信息与字素信息进行组合，会存在四种可能的组合形式，即(整词A的字素信息、整词B的字素信息)、(整词A的字素信息、整词B的音素信息)、(整词A的音素信息、整词B的字素信息)、(整词A的字素信息、整词B的字素信息)，在基于第一掩码，在整词级别对训练文本对应的字素信息序列与训练文本对应的音素信息序列进行混合处理时，会基于第一掩码确定音素信息与字素信息的组合方式，由于第一掩码随机生成，因此，最终采用上述四种组合方式中的哪种组合方式是随机的。

示例性的，“and sunny##.”，是整词级别“and sunny.”做分词之后的结果，其对应的音素序列为“ac nn dd ss ah nn ii”，在整词级别对音素信息与字素信息进行组合，具有如下四种组合方式：“and sunny##.”(字素信息、字素信息)、“and ss ah nn ii”(字素信息、音素信息)、“ac nn dd sunny##.”(音素信息、字素信息)和“ac nn dd ss ah nn ii”(音素信息，音素信息)，以上的四种组合形式可用0/1串区分，“and sunny##.”可表示为[00 0 0 0 0 0 0 0 0]，[0 0 0 0 0 00 0 0 0]的前3个0代表“and”，第4个0代表空格，第5～9个0代表“sunny”，最后一个0代表“.”，“and ss ah nn ii”可表示为[0 0 0 0 1 1 1 1]，[0 0 0 0 11 1 1]的前3个0代表“and”，第4个0代表空格，第1个1代表“ss”，第2个1代表“ah”，第3个1代表“nn”，第4个1代表“ii”、“ac nn dd sunny##.”可表示为[1 1 1 0 0 0 00 0 0]，[1 1 1 0 0 0 0 0 0 0]的前3个1依次代表“ac”、“nn”、“dd”，第1个0代表空格，第2～6个0代表“sunny”，最后一个0代表“.”，“ac nn dd ss ah nn ii”可表示为[1 1 1 0 1 11 1]，[1 1 1 0 1 1 1 1]的前3个1依次代表“ac”、“nn”、“dd”，0代表空格，0后的4个1依次代表“ss”、“ah”、“nn”、“ii”。在整词级别对音素信息与字素信息进行混合时，会基于第一掩码在整词级别用0/1串对音素信息和字素信息进行标记，比如标记0/1串为[0 0 0 0 1 1 11]，则说明组合形式为“and sunny##.”，即(字素信息，音素信息)。

步骤S303：在整词级别将混合信息序列中的部分信息屏蔽掉，屏蔽后的信息序列作为目标信息序列。

在整词级别将混合信息序列中的部分信息屏蔽掉的过程可以包括：以训练文本对应的字素信息序列与训练文本对应的音素信息序列的对齐信息为依据，生成第二掩码，基于第二掩码将混合信息序列中的部分信息屏蔽掉。在一种可能的实现方式中，可以训练文本对应的字素信息序列与训练文本对应的音素信息序列的对齐信息为依据，随机生成第二掩码，如此，屏蔽哪个整词的信息是随机的。

步骤S304：利用目标信息序列对初始的语言模型进行训练。

具体的，如图4所示，利用目标信息序列对初始的语言模型进行训练的过程包括：首先获取目标信息序列的表示向量，然后将目标信息序列的表示向量输入初始的语言模型进行编码，得到编码结果，接着基于编码结果预测目标信息序列中缺失的信息，得到预测结果，最后基于预测结果和目标信息序列中缺失的实际信息确定预测损失，并基于预测损失对初始的语言模型进行参数更新。

本发明实施例提供的预训练方法，首先获取训练文本对应的字素信息序列和音素信息序列，以及字素信息序列与音素信息序列在整词级别的对齐信息，然后结合对齐信息，在整词级别对字素信息序列与音素信息序列进行混合处理，得到包含字素信息和音素信息的混合信息序列，接着在整词级别将混合信息序列中的部分信息屏蔽掉，屏蔽后的信息序列作为目标信息序列，最后利用目标信息序列，同时结合预测任务(预测目标信息序列中缺失的信息)对初始的语言模型进行训练。基于音素信息对语言模型进行预训练，语言模型能够学习到发音信息，基于字素信息对语言模型进行预训练，语言模型能够学习到语义信息，由于本发明实施例提供的预训练方法基于混合有字素信息和音素信息的混合信息序列对语言模型进行预训练，因此，通过训练，语言模型既能够学习到发音信息，又能够学习到语义信息，这使得最终训练得到的语言模型具有较好的表示能力。

第三实施例

在上述第一实施例的基础上，本实施例提供预训练方法的另一具体实例，该具体实例与第二实施例提供的具体实例的不同之处在于，除了将字素信息与音素信息混合，利用混合信息序列进行训练外，还引入了具有韵律边界意义的标点信息，在此基础上，进行多任务预测，以提升训练效果。

请参阅图5，示出了本实施例提供的预训练方法的具体实例的流程示意图，可以包括：

步骤S501：获取训练文本对应的字素信息序列、音素信息序列和标点信息序列，以及训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息。

其中，训练文本对应的字素信息序列表征的是，对训练文本进行分词所得到分词单元序列，训练文本对应的字素信息序列包括对训练文本进行分词得到各分词单元的表征信息，训练文本对应的音素信息序列表征是，训练文本中各整词的发音信息，训练文本对应的音素信息序列包括训练文本中各整词分别对应的音素序列中各音素的表征信息。

获取训练文本对应的字素信息序列和音素信息序列，以及训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息的具体过程可参见第二实施例中的相关部分，本实施例在此不做赘述。

获取训练文本对应的标点信息序列的过程可以包括：

步骤e1、获取对训练文本进行子词粒度的切分所得到子词序列中每个子词的标点信息。

其中，一子词的标点信息为该子词所属整词的标点信息。

示例性的，对训练文本进行子词粒度的切分所得到子词序列为“CLS The weatherof St##-##Petersburg was perfect again around ten knots of wind and sunny##.SEP”，若用“pcx”表示非标点信息，用“pc”拼接对应的标点表示标点信息，则“CLS”的标点信息用“pcx”表示，“The”的标点信息用“pcx”表示，……，“.”的标点信息用“pc.”表示，“SEP”的标点信息用“pcx”表示，最终可获得[pcx pcx pcx pcx pcx pcx pcx pcx pcx pcxpcx pcx pcx pcx pcx pcx pcx pc.pcx]。

步骤e2、将子词序列中每个子词的标点信息映射为表征该标点信息在词典中的位置的标识，得到子词序列中每个子词对应的标点标识。

本实施例中的词典除了包括若干整词分别对应的切分方式和音素序列外，还包括若干标点信息，词典中包含的标点信息可以包括“pcx”、“pc.”、“pc，”、“pc。”等等。本实施例中的词典同样预先构建，具体的，本实施例中的词典的构建方式为，获取现有的包含若干词和若干词分别对应的切分方式的词典(比如bert-base-cased词典)，作为初始词典，然后进一步在初始词典中为每个词添加对应的音素序列，并添加所有可能使用的标点信息，从而得到最终的词典。

在获得子词序列中每个子词的标点信息后，针对每个子词，可将该子词的标点信息映射为表征该子词的标点信息在词典中的位置的标识，映射得到的标识作为该子词对应的标点标识，比如，将“pcx”映射为“199”，将“pc.”映射为“200”。

步骤e3、将由子词序列中各子词分别对应的标点标识组成的序列，确定为训练文本对应的标点信息序列。

示例性的，基于词典对[pcx pcx pcx pcx pcx pcx pcx pcx pcx pcx pcx pcxpcx pcx pcx pcx pcx pc.pcx]进行映射可获得[199 199 199 199 199 199 199 199199199 199 199 199 199 199 199 199 200 199]，[199 199 199 199 199 199 199199199 199 199 199 199 199 199 199 199 200 199]作为训练文本对应的标点信息序列。

步骤S502：结合训练文本对应的字素信息序列与训练文本对应的音素信息序列在整词级别的对齐信息，在整词级别对训练文本对应的字素信息序列与训练文本对应的音素信息序列进行混合处理，得到混合信息序列。

步骤S502的具体实现过程可参见第二实施例中步骤S302的具体实现过程，本实施例在此不做赘述。

步骤S503：在整词级别将混合信息序列中的部分信息屏蔽掉，屏蔽后的信息序列作为第一目标信息序列，并在整词级别将训练文本对应的标点信息序列中的部分标点信息屏蔽掉。

具体的，可以训练文本对应的字素信息序列与训练文本对应的音素信息序列的对齐信息为依据，生成第二掩码，基于第二掩码在整词级别将混合信息序列中的部分信息屏蔽掉，并基于第二掩码在整词级别将训练文本对应的标点信息序列中的部分标点信息屏蔽掉。在一种可能的实现方式中，可以训练文本对应的字素信息序列与训练文本对应的音素信息序列的对齐信息为依据，随机生成第二掩码，如此，屏蔽哪个整词的信息是随机的。

需要说明的是，在对训练文本对应的标点信息序列进行屏蔽处理时，先基于混合信息序列对训练文本对应的标点信息序列进行预处理，以使预处理后的标点信息序列与混合信息序列形式上对应，比如，混合信息序列中的部分信息对应“and ss ah nn ii”，则该部分对应的标点信息处理成[pcx pcx pcx pcx pc.pc.pc.pc.]对应的形式，即[199 199199 199 200 200 200 200]，在获得预处理后的标点信息序列后，再对预处理后的标点信息序列进行屏蔽处理。

步骤S504：对屏蔽处理后的标点信息序列中缺失的指示无标点的标点信息进行恢复处理，恢复处理后的标点信息序列作为第二目标信息序列。

由于本实施例的目的在于使模型能够学习韵律边界信息，因此，关注的是指示有标点的标点信息，即，希望只将指示有标点的标点信息屏蔽掉，然而，步骤S503在对训练文本对应的标点信息序列中的部分标点信息进行屏蔽时，很可能会将指示无标点的标点信息屏蔽掉，有鉴于此，在基于第二掩码在整词级别将训练文本对应的标点信息序列中的部分标点信息屏蔽掉后，对屏蔽处理后的标点信息序列中缺失的指示无标点的标点信息进行恢复处理(即对屏蔽的各标点信息中，指示无标点的标点信息进行去屏蔽处理)，具体的，可生成第三掩码，可基于第三掩码对屏蔽后的标点信息序列进一步进行处理，以使进一步处理后的标点信息序列中只有指示有标点的标点信息被屏蔽掉，即进一步处理后的标点信息序列中只缺失指示有标点的标点信息。

步骤S505：利用第一目标信息序列和第二目标信息序列，对初始的语言模型进行训练。

如图6所示，利用第一目标信息序列和第二目标信息序列，对初始的语言模型进行训练的过程可以包括：首先，获取第一目标信息序列的表示向量，并获取第二目标信息序列的表示向量，然后，将第一目标信息序列的表示向量与第二目标信息序列的表示向量融合，得到融合后向量，接着，将融合后向量输入初始的语言模型进行编码，得到编码结果，然后，基于编码结果预测第一目标信息序列中缺失的信息，得到的预测结果作为第一预测结果，并基于编码结果预测第二目标信息序列中缺失的信息，得到的预测结果作为第二预测结果，最后，基于第一预测结果和第二预测结果，对初始的语言模型进行参数更新。

在一种可能的实现方式中，将第一目标信息序列的表示向量与第二目标信息序列的表示向量融合的过程可以包括：将第一目标信息序列的表示向量与第二目标信息序列的表示向量拼接。

在一种可能的实现方式中，基于第一预测结果和第二预测结果，对初始的语言模型进行参数更新的过程可以包括：首先基于第一预测结果以及第一目标信息序列中缺失的实际信息，确定第一预测损失，并基于第二预测结果以及第二目标信息序列中缺失的实际信息，确定第二预测损失，然后将第一预测损失与第二预测损失融合，得到融合后损失，最后基于融合后损失，对初始的语言模型进行参数更新。

其中，将第一预测损失与第二预测损失融合的实现方式有多种，在一种可能的实现方式中，可直接将第一预测损失与第二预测损失求和，在另一种可能的实现方式中，可将将第一预测损失与第二预测损失加权求和，第一预测损失和第二预测损失分别对应的权重可根据实际情况设定。

本发明实施例提供的预训练方法，首先获取训练文本对应的字素信息序列、音素信息序列和标点信息序列，以及字素信息序列与音素信息序列在整词级别的对齐信息，然后结合对齐信息，在整词级别对字素信息序列与音素信息序列进行混合处理，得到混合有字素信息和音素信息的混合信息序列，接着在整词级别将混合信息序列中的部分信息屏蔽掉，屏蔽后的信息序列作为第一目标信息序列，并在整词级别将训练文本对应的标点信息序列中的部分标点信息屏蔽掉，然后以只屏蔽指示有标点的标点信息为目标，对屏蔽后的标点信息序列进一步进行处理，进一步处理得到的标点信息序列作为第二目标信息序列，最后利用第一目标信息序列和第二目标信息序列，同时结合两个预测任务(对第一目标信息序列中缺失的信息进行预测，对第二目标信息序列中缺失的信息进行预测)对初始的语言模型进行训练。基于音素信息对语言模型进行预训练，语言模型能够学习到发音信息，基于字素信息对语言模型进行预训练，语言模型能够学习到语义信息，由于本发明实施例提供的预训练方法基于混合有字素信息和音素信息的混合信息序列对语言模型进行预训练，因此，通过训练，语言模型既能够学习到发音信息，又能够学习到语义信息，这使得最终训练得到的语言模型具有较好的表示能力，另外，在预训练过程中引入具有韵律边界意义的标点信息以及标点预测任务，使得模型能够学习到韵律边界信息，从而能提升模型的表示能力。

第四实施例

在上述实施例提供的预训练方法的基础上，本实施例提供了一种语音合成模型的获取方法，该方法可以包括：

步骤f1、采用上述实施例提供的预训练方法对初始的语言模型进行预训练，得到预训练后的语言模型。

步骤f2、将预训练后的语言模型作为编码器，构建包括编码器和解码器模型，作为初始的语音合成模型。

步骤f3、采用语音合成任务的训练数据，对初始的语音合成模型进行训练，得到最终的语音合成模型。

采用语音合成任务的训练数据对初始的语音合成模型进行微调，即可获得性能较佳的语音合成模型。

经由本实施例提供的语音合成模型的获取方法，可获得性能较佳的语音合成模型。

第五实施例

在上述实施例提供的语音合成模型的获取方法的基础上，本实施例提供了一种语音合成方法，该方法可以包括：

步骤g1、获取目标文本。

步骤g2、基于语音合成模型，合成目标文本对应的语音。

其中，语音合成模型采用上述实施例提供的语音合成模型的获取方法获得。

经由本实施例提供的语音合成方法可合成质量较好的语音。

第六实施例

本发明实施例还提供了一种预训练装置，下面对本发明实施例提供的预训练装置进行描述，下文描述的预训练装置与上文描述的预训练方法可相互对应参照。

请参阅图7，示出了本发明实施例提供的预训练装置的结构示意图，该预训练装置可以包括：第一信息获取模块701、信息处理模块702和模型训练模块703。

第一信息获取模块701，用于获取训练文本对应的字素信息序列和音素信息序列，以及所述字素信息序列与所述音素信息序列在整词级别的对齐信息。

其中，所述字素信息序列中的每个字素信息为对所述训练文本进行分词得到一分词单元的信息，所述音素信息序列中的每个音素信息为所述训练文本中一整词的音素信息；

信息处理模块702，用于结合所述对齐信息，在整词级别对所述字素信息序列与所述音素信息序列进行混合处理，得到混合信息序列，其中，在进行混合处理时，针对同一整词，只保留字素信息和音素信息中的一种信息；

模型训练模块703，用于基于所述混合信息序列，对初始的语言模型进行训练。

在一种可能的实现方式中，第一信息获取模块701在获取训练文本对应的字素信息序列和音素信息序列时，具体用于：

在一种可能的实现方式中，第一信息获取模块701在获取所述字素信息序列与所述音素信息序列在整词级别的对齐信息时，具体用于：

在一种可能的实现方式中，信息处理模块702在结合所述对齐信息，在整词级别对所述字素信息序列与所述音素信息序列进行混合处理时，具体用于：

以所述对齐信息为依据，随机生成第一掩码；

在一种可能的实现方式中，本发明实施例提供的预训练装置还可以包括：第二信息获取模块704。

第二信息获取模块704，用于获取所述训练文本对应的标点信息序列，其中，所述标点信息序列包含所述训练文本在整词级别的标点信息。

模型训练模块703在基于所述混合信息序列，对初始的语言模型进行训练时，具体用于基于所述混合信息序列和所述标点信息序列，对初始的语言模型进行训练。

在一种可能的实现方式中，模型训练模块703在基于所述混合信息序列和所述标点信息序列，对初始的语言模型进行训练时，具体用于：

在一种可能的实现方式中，模型训练模块703在整词级别分别对所述混合信息序列中的部分信息和所述标点信息序列中的部分信息进行屏蔽处理时，具体用于：

以所述对齐信息为依据，随机生成第二掩码；

在一种可能的实现方式中，模型训练模块703在利用所述第一目标信息序列和所述第二目标信息序列，对初始的语言模型进行训练时，具体用于：

在一种可能的实现方式中，模型训练模块703在基于所述第一预测结果和所述第二预测结果，对初始的语言模型进行参数更新时，具体用于：

基于所述融合后损失，对初始的语言模型进行参数更新。

基于音素信息对语言模型进行预训练，语言模型能够学习到发音信息，基于字素信息对语言模型进行预训练，语言模型能够学习到语义信息，由于本发明实施例提供的预训练方法装置基于混合有字素信息和音素信息的混合信息序列对语言模型进行预训练，因此，通过训练，语言模型既能够学习到发音信息，又能够学习到语义信息，这使得最终训练得到的语言模型具有较好的表示能力，另外，在预训练过程中引入具有韵律边界意义的标点信息以及标点预测任务，使得模型能够学习到韵律边界信息，从而能提升模型的表示能力。

第七实施例

本发明实施例还提供了一种处理设备，请参阅图8，示出了该处理设备的结构示意图，该处理设备可以包括：处理器801、通信接口802、存储器803和通信总线804；

在本发明实施例中，处理器801、通信接口802、存储器803、通信总线804的数量为至少一个，且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信；

处理器801可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpeciIic Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器803可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

基于所述混合信息序列，对初始的语言模型进行训练。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第八实施例

本发明实施例还提供了一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

基于所述混合信息序列，对初始的语言模型进行训练。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种预训练方法，其特征在于，包括：

基于所述混合信息序列，对初始的语言模型进行训练。

2.根据权利要求1所述的预训练方法，其特征在于，获取训练文本对应的字素信息序列和音素信息序列，包括：

3.根据权利要求1所述的预训练方法，其特征在于，获取所述字素信息序列与所述音素信息序列在整词级别的对齐信息，包括：

4.根据权利要求1所述的预训练方法，其特征在于，所述结合所述对齐信息，在整词级别对所述字素信息序列与所述音素信息序列进行混合处理，包括：

以所述对齐信息为依据，随机生成第一掩码；

5.根据权利要求1～4中任一项所述的预训练方法，其特征在于，还包括：

6.根据权利要求5所述的预训练方法，其特征在于，所述获取所述训练文本对应的标点信息序列，包括：

7.根据权利要求5所述的预训练方法，其特征在于，所述基于所述混合信息序列和所述标点信息序列，对初始的语言模型进行训练，包括：

8.根据权利要求7所述的预训练方法，其特征在于，其特征在于，所述在整词级别分别对所述混合信息序列中的部分信息和所述标点信息序列中的部分信息进行屏蔽处理，包括：

以所述对齐信息为依据，随机生成第二掩码；

9.根据权利要求7所述的预训练方法，其特征在于，所述利用所述第一目标信息序列和所述第二目标信息序列，对初始的语言模型进行训练，包括：

10.根据权利要求9所述的预训练方法，其特征在于，所述基于所述第一预测结果和所述第二预测结果，对初始的语言模型进行参数更新，包括：

基于所述融合后损失，对初始的语言模型进行参数更新。

11.一种语音合成模型的获取方法，其特征在于，包括：

采用如权利要求1～10中任一项所述的预训练方法对初始的语言模型进行预训练，得到预训练后的语言模型；

12.一种语音合成方法，其特征在于，包括：

获取目标文本；

基于语音合成模型，合成所述目标文本对应的语音，其中，所述语音合成模型采用如权利要求11所述的语音合成模型的获取方法获得。

13.一种预训练装置，其特征在于，包括：第一信息获取模块、信息处理模块和模型训练模块；

14.根据权利要求13所述的预训练装置，其特征在于，还包括：第二信息获取模块；

15.一种处理设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～10中任一项所述的预训练方法的各个步骤，和/或，实现如权利要求11所述的语音合成模型的获取方法的各个步骤，和/或，实现如权利要求12所述的语音合成方法的各个步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的预训练方法的各个步骤，和/或，实现如权利要求11所述的语音合成模型的获取方法的各个步骤，和/或，实现如权利要求12所述的语音合成方法的各个步骤。