CN114757171A

CN114757171A - 预训练语言模型的训练方法、语言模型的训练方法及装置

Info

Publication number: CN114757171A
Application number: CN202210516988.1A
Authority: CN
Inventors: 陈谦
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-07-15

Abstract

本公开提供一种预训练语言模型的训练方法、语言模型的训练方法及装置，包括：获取样本文本，根据样本文本执行预训练任务中的至少两种，得到预训练语言模型，其中，预训练任务包括：前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务，前向因果语言建模任务为由样本文本中在前的词预测样本文本中在后的词的建模任务，反向因果语言建模任务为由样本文本中在后的词预测样本文本中在前的词的建模任务，掩码语言建模任务为由样本文本中非掩码位置的词预测样本文本中掩码位置的词的建模任务，可以实现从多个维度进行预训练，从而实现训练的多样性和灵活性，且可以使得从多个维度训练得到的预训练语言模型具有较高的准确性和可靠性。

Description

预训练语言模型的训练方法、语言模型的训练方法及装置

技术领域

本公开涉及深度学习技术领域，尤其涉及一种预训练语言模型的训练方法、语言模型的训练方法及装置。

背景技术

随着互联网和人工智能技术的发展，预训练语言模型被广泛应用于各类自然语言处理任务，如对话系统、机器翻译、文本摘要、信息检索以及标题生成等等。

在相关技术中，可以采集样本数据，以基于样本数据对基础网络模型进行训练，从而得到预训练语言模型。

发明内容

本公开提供一种预训练语言模型的训练方法、语言模型的训练方法及装置，以提高预训练语言模型的可靠性。

第一方面，本公开实施例提供一种方法预训练语言模型的训练方法，包括：

获取样本文本；

根据所述样本文本执行预训练任务中的至少两种，得到预训练语言模型，其中，所述预训练任务包括：前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务；

其中，所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务；所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务；所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。

在本公开的一个实施例中，所述根据所述样本文本执行预训练任务中的至少两种，得到预训练语言模型，包括：

对所述样本文本进行分词处理，得到所述样本文本中的每个词；

根据所述样本文本中的每个词执行预训练任务中的至少两种，得到预训练语言模型。

在本公开的一个实施例中，若执行的至少两种预训练任务中包括所述反向因果语言建模任务，则根据所述样本文本中的每个词执行所述反向因果语言建模任务，包括：

针对所述样本文本中的任一词，根据所述任一词和未来词，预测得到所述任一词在所述样本文本中的在前相邻词；

其中，所述未来词为所述样本文中位于所述任一词之后的词；所述在前相邻词为所述样本文本中位于所述任一词之前且与所述任一词相邻的一个词。

在本公开的一个实施例中，若执行的至少两种预训练任务中包括所述前向因果语言建模任务，则根据所述样本文本中的每个词执行所述前向因果语言建模任务，包括：

针对所述样本文本中的任一词，根据所述任一词和历史词，预测得到所述任一词在所述样本文本中的在后相邻词；

其中，所述历史词为所述样本文中位于所述任一词之前的词；所述在后相邻词为所述样本文本中位于所述任一词之后且与所述任一词相邻的一个词。

在本公开的一个实施例中，若执行的至少两种预训练任务中包括所述掩码语言建模任务，则根据所述样本文本中的每个词执行所述掩码语言建模任务，包括：

对所述样本文本中的至少一个词进行掩码处理，得到掩码位置；

根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。

在本公开的一个实施例中，所述至少两种预训练任务的训练模式包括：交替训练模式、并行训练模式以及串行训练模式。

第二方面，本公开实施例提供一种语言模型的训练方法，包括：

获取目标任务场景的训练文本；

根据所述训练文本对预先训练的预训练语言模型进行训练，得到适用于所述目标任务场景的语言模型；

其中，所述预训练语言模型是基于如第一方面所述的方法训练得到的。

第三方面，本公开实施例提供一种预训练语言模型的训练装置，包括：

第一获取单元，用于获取样本文本；

执行单元，用于根据所述样本文本执行预训练任务中的至少两种，得到预训练语言模型，其中，所述预训练任务包括：前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务；

在本公开的一个实施例中，所述执行单元，包括：

分词子单元，用于对所述样本文本进行分词处理，得到所述样本文本中的每个词；

执行子单元，用于根据所述样本文本中的每个词执行预训练任务中的至少两种，得到预训练语言模型。

在本公开的一个实施例中，若执行的至少两种预训练任务中包括所述反向因果语言建模任务，则所述执行子单元用于，针对所述样本文本中的任一词，根据所述任一词和未来词，预测得到所述任一词在所述样本文本中的在前相邻词；

在本公开的一个实施例中，若执行的至少两种预训练任务中包括所述前向因果语言建模任务，则所述执行子单元用于，针对所述样本文本中的任一词，根据所述任一词和历史词，预测得到所述任一词在所述样本文本中的在后相邻词；

在本公开的一个实施例中，若执行的至少两种预训练任务中包括所述掩码语言建模任务，则所述执行子单元用于，对所述样本文本中的至少一个词进行掩码处理，得到掩码位置，并根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。

第四方面，本公开实施例提供一种语言模型的训练装置，包括：

第二获取单元，用于获取目标任务场景的训练文本；

训练单元，用于根据所述训练文本对预先训练的预训练语言模型进行训练，得到适用于所述目标任务场景的语言模型；

第五方面，本公开实施例提供一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使电子设备能够执行本公开第一方面或第二方面的所述的方法。

第六方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本公开第一方面或第二方面所述的方法。

第七方面，本公开实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开第一方面或第二方面所述的方法。

本公开实施例提供一种预训练语言模型的训练方法、语言模型的训练方法及装置，通过结合前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务中的至少两种预训练任务训练得到预训练语言模型的技术特征，可以实现从多个维度进行训练，可以实现预训练的多样性和灵活性，且可以使得从多个维度训练得到的预训练语言模型具有较高的准确性和可靠性。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的预训练语言模型的训练方法的流程图；

图2为本公开另一实施例的预训练语言模型的训练方法的流程图；

图3为本公开实施例的前向因果语言建模任务的原理示意图；

图4为本公开实施例的反向因果语言建模任务的原理示意图；

图5为本公开实施例的掩码语言建模任务的原理示意图；

图6为本公开一个实施例的语言模型的训练方法的示意图；

图7为本公开一个实施例的预训练语言模型的训练装置；

图8为本公开另一实施例的预训练语言模型的训练装置；

图9为本公开一个实施例的语言模型的训练装置的示意图；

图10为本公开一实施例提供的电子设备的硬件结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

自然语言处理(Natural Language Processing，NLP)技术，是指研究人与计算机交互的语言问题的一门技术。

在一些实施例中，可以通过样本数据训练对基础网络模型进行训练，从而得到预训练语言模型，基础网络模型可以为无监督深度双向(BERT)模型，也可以为生成式无监督训练(GPT)模型等等。

为了提升预训练语言模型的效果，以提升自然语言处理任务的准确率，本公开的发明人经过创造性的劳动，得到了本公开的发明构思：执行多种预训练任务，以结合多种预训练任务训练得到预训练语言模型，其中，多种预训练任务包括前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务中的至少两种，

下面，通过具体实施例对本公开的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

请参阅图1，图1为本公开一个实施例的预训练语言模型的训练方法的流程图，如图1所示，该方法包括：

S101：获取样本文本。

示例性的，本实施例的执行主体可以为预训练语言模型的训练装置(下文简称为训练装置)，训练装置可以为服务器(如本地服务器，或者云端服务器)，也可以为计算机，也可以为终端设备，也可以为处理器，也可以为芯片等等，本实施例不做限定。

样本文本可以为一个句子，也可以为一段文本，也可以为一篇文章等等，本实施例对样本文本的篇幅长短不做限定，可以基于需求、历史记录以及试验等方式进行确定。同理，样本文本的数量也可以需求、历史记录以及试验等方式进行确定。

例如，针对精度要求较高的场景，样本文本的数量可以相对较多，而针对精度要求较低的场景，样本文本的数量可以相对较少。

S102：根据样本文本执行预训练任务中的至少两种，得到预训练语言模型。

其中，预训练任务包括：前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务。

前向因果语言建模任务为由样本文本中在前的词预测样本文本中在后的词的建模任务。反向因果语言建模任务为由样本文本中在后的词预测样本文本中在前的词的建模任务。掩码语言建模任务为由样本文本中非掩码位置的词预测样本文本中掩码位置的词的建模任务。

示例性的，可以是根据样本文本执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务中的两种，以训练得到预训练语言模型。也可以根据样本文本执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务，以训练得到预训练语言模型。

且执行上述三种任务中的两种任务，或者执行上述三种任务的顺序不做限定，即至少两种预训练任务的训练模式包括：交替训练模式、并行训练模式以及串行训练模式。

以交替训练模式为例，可以先执行前向因果语言建模任务，而后执行反向因果语言建模任务，再执行前向因果语言建模任务。以并行训练模式为例，可以分别执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务。以串行训练模式为例，可以先执行前向因果语言建模任务，而后执行反向因果语言建模任务。

结合上述分析可知，本公开实施例提供了一种预训练语言模型的训练方法，包括：获取样本文本，根据样本文本执行预训练任务中的至少两种，得到预训练语言模型，其中，预训练任务包括：前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务，前向因果语言建模任务为由样本文本中在前的词预测样本文本中在后的词的建模任务，反向因果语言建模任务为由样本文本中在后的词预测样本文本中在前的词的建模任务，掩码语言建模任务为由样本文本中非掩码位置的词预测样本文本中掩码位置的词的建模任务，在本实施例中，通过结合前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务中的至少两种预训练任务训练得到预训练语言模型的技术特征，可以实现从多个维度进行预训练，从而实现训练的多样性和灵活性，且可以使得从多个维度训练得到的预训练语言模型具有较高的准确性和可靠性。

为使读者更加深刻的理解本公开的实现原理，现以结合三种预训练任务为例对本公开的实现原理进行详细地阐述。

请参阅图2，图2为本公开另一实施例的预训练语言模型的训练方法的流程图，如图2所示，该方法包括：

S201：获取样本文本。

应该理解的是，为了避免繁琐的陈述，关于本实施例与上述实施例相同的技术特征，本实施例不再赘述。

在一些实施例中，样本文本为无监督文本，即样本文本为没有标签的样本文本。

S202：对样本文本进行分词处理，得到样本文本中的每个词。

本实施例对分词处理的方式不做限定，例如可以先去除样本文本中的停用词，而后对去掉停用词的样本文本进行切词处理，从而得到样本文本中的每个词。其中，停用词为没有意义的词，如“的”等副词，“在”等介词等等。

S203：确定样本文本中的各词各自对应的词向量，并对每一词向量进行编码处理，得到每一词向量的编码向量。

示例性的，针对样本文本中的每一词，根据预设的词与索引之间的映射关系，确定该词对应的索引，并根据预设的索引与词向量矩阵的对应关系，从词向量矩阵中确定与该词对应的索引对应的词向量矩阵中的行，并基于该行确定该词的词向量。其中，词向量用于表征词在语义上的特征。

例如，如图3所示，样本文本中的词包括：x1、x2、x3以及x4，将x1、x2、x3、x4以及开头特殊符号(begin-of-sentence，BOS，用于标识样本文本的开头)输入至嵌入网络(embedding)，输出x1、x2、x3、x4以及BOS各自对应的词向量。将各词向量输入至编码网络(transformer)，得到各词向量各自对应的编码向量。

如图3所示，transformer包括多头自注意力(multi-head self-attention)网络和前馈神经网络(feed forward network)。且transformer为N层的编码结构，其中，N为大于等于1的正整数。即如图3所示，transformer的一层编码结构包括一层多头自注意力网络和一层前馈神经网络，且词向量经过当前层的多头自注意力网络后，进入至当前层的前馈神经网络，再进入至下一层的多头自注意力网络，以此类推。

S204：针对样本文本中的任一词，根据任一词的编码向量和历史词的编码向量，预测得到该任一词的前向预测结果。

即该任一词的前向预测结果为样本文本中位于该任一词之后且与该任一词相邻的一个词。历史词为样本文中位于任一词之前的词。

示例性的，结合上述分析和如图3所示，将每一编码向量输入至多层感知器(Multilayer Perceptron，MLP)模型，输出每一编码向量的前向预测结果。如图3所示，多层感知器模型根据BOS的编码向量，输出样本文本中的第一个词x1；多层感知器模型根据根据BOS的编码向量和x1的编码向量，输出样本文本中的第二个词x2，以此类推，多层感知器模型根据根据BOS的编码向量、x1的编码向量、x2的编码向量、x3的编码向量以及x4的编码向量，输出结尾特殊符号(end-of-sentence，EOS，用于标识样本文本的结尾)。

S205：根据前向预测结果确定前向预训练损失函数。即前向预训练损失函数表征基于前向因果语言建模任务的损失函数。

S206：针对样本文本中的任一词，根据任一词的编码向量和未来词的编码向量，预测得到该任一词的反向预测结果。

即该任一词的反向预测结果为样本文本中位于该任一词之前且与该任一词相邻的一个词。未来词为样本文中位于任一词之后的词。

示例性的，结合上述分析和如图4所示，将每一编码向量输入至多层感知器模型，输出每一编码向量的反向预测结果。如图4所示，多层感知器模型根据BOS的编码向量，输出样本文本中的最后一个词x4；多层感知器模型根据根据BOS的编码向量和x4的编码向量，输出样本文本中的第三个词x3，以此类推，多层感知器模型根据根据BOS的编码向量、x4的编码向量、x3的编码向量、x2的编码向量以及x1的编码向量，输出结尾特殊符号。

S207：根据反向预测结果确定反向预训练损失函数。即反向预训练损失函数表征基于反向因果语言建模任务的损失函数。

S208：对样本文本中的至少一个词进行掩码处理，得到掩码位置，并根据样本文本中非掩码位置的词对掩码位置的词进行掩码预测，得到掩码预测结果。其中，掩码预测结果表征样本文本中掩码位置的词。

示例性的，结合上述分析和如图5所示，对样本文本中的最后一个词(即x4)进行掩码处理，如图5所示，x4被掩码处理标识为mask，将每一编码向量输入至多层感知器模型，多层感知器模型根据x1的编码向量、x2的编码向量以及x3的编码向量，输出x4。

S209：根据掩码预测结果确定掩码预训练损失函数。即掩码预训练损失函数表征基于掩码语言建模任务的损失函数。

S210：根据前向预训练损失函数、反向预训练损失函数以及预训练损失函数进行反向调参处理，得到预训练语言模型。

示例性的，结合上述分析，可以确定前向预训练损失函数、反向预训练损失函数以及预训练损失函数的平均损失值，并根据平均损失值对嵌入网络、transformer以及多层感知器模型的参数进行调整，直至满足迭代次数或者平均损失值小于预设的损失阈值。同理，损失阈值可以基于需求、历史记录以及试验等方式确定。

结合上述分析可知，可以采用串行训练模式训练得到预训练语言模型，则在另一些实施例中，也可以基于前向预训练损失函数对前向因果语言建模任务的各模型的参数进行调整，以满足前向因果语言建模任务的损失函数最小值之后，再执行反向因果语言建模任务，并可以基于反向预训练损失函数对反向因果语言建模任务的各模型的参数进行调整，以满足反向因果语言建模任务的损失函数最小值之后，再执行掩码语言建模任务。

若采用并行训练模式训练得到预训练语言模型，则可以同时执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务，可以采用上述平均损失值的方式训练得到预训练语言模型，也可以基于各自对应的损失函数调整各自对应的模型的参数，以得到预训练语言模型。

若采用交替训练模式训练得到预训练语言模型，则可以当基于前向预训练损失函数对前向因果语言建模任务的各模型的参数进行调整，满足一定需求时(没有达到损失函数最小值)，执行反向因果语言建模任务，并在基于反向预训练损失函数对反向因果语言建模任务的各模型的参数进行调整，满足一定需求时(没有达到损失函数最小值)，再执行前向因果语言建模任务。

值得说明的是，关于执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务更多的组合方式，此处不再一一列举。即各建模任务可以为独立的实施例，也可以为相互组合的实施例，且对各建模任务相互组合的方式和顺序等不做限定，可以基于需求等确定。

由于训练模式具有多样性，因此，训练得到预训练语言模型的方式也具有多样性，即通过采用本实施例提供的训练模式，可以提高训练得到预训练语言模型的多样性和灵活性的技术效果。

基于上述分析可知，前向因果语言建模任务可以根据样本文本中的在前的词预测在后的词，即前向因果语言建模任务可以利用历史的信息预测未来的信息；反向因果建模任务可以利用样本文本中的在后的词预测在前的词，即前向因果语言建模任务可以利用未来的信息预测历史的信息；掩码语言建模任务可以根据样本文本中未被掩码的词预测被掩码的词，即掩码语言建模任务可以利用确定的信息预测不确定的信息。从而当采用如图2所示的实施例训练得到预训练语言模型时，可以使得预训练语言模型既能学习到利用历史的信息预测未来的信息的能力，又能学习到利用未来的信息预测历史的信息的能力，还能学习到利用确定的信息预测不确定的信息的能力，从而使得预训练语言模型具有更强且更为准确的预测能力。

请参阅图6，图6为本公开一个实施例的语言模型的训练方法的示意图。

如图6所示，该方法包括：

S601：获取目标任务场景的训练文本。

示例性的，本实施例的执行主体可以为语言模型的训练装置，该训练装置与上述预训练语言模型的训练装置可以为相同的装置，也可以为不同的装置，本实施例不做限定。

结合上述分析可知，预训练语言模型被广泛应用于各类自然语言处理任务，如对话系统、机器翻译、文本摘要、信息检索以及标题生成等等，相应的，目标任务场景可以为对话系统的场景，也可以为机器翻译的场景、文本摘要的场景、信息检索的场景以及标题生成的场景等等。

以对话系统的场景为例，训练文本为对话系统的场景下的文本，如人机交互的对话文本。其他场景以此类推，此处不做一一列举。

S602：根据训练文本对预先训练的预训练语言模型进行训练，得到适用于目标任务场景的语言模型。

其中，预训练语言模型是基于如上任一实施例所述的方法训练得到的。

结合上述实施例，若目标任务场景为对话系统的场景，则语言模型可以根据用户发起的对话信息确定与对话信息对应的反馈信息。

例如，智能音箱中部署有对话系统，对话系统中包括语言模型，用户可以通过语音或者触控的方式向智能音箱发起查询天气的对话信息，则语言模型可以根据确定用户的查询天气的意图，对话系统可以根据该意图确定输出反馈信息。其中，反馈信息用于表征天气信息。

值得说明的是，由于预训练语言模型具有更强且更为准确的预测能力，因此，基于预训练模型训练得到的语言模型具有较强的语言理解能力，从而可以提高语言模型的理解准确率。

请参阅图7，图7为本公开一个实施例的预训练语言模型的训练装置，如图7所示，该装置700包括：

第一获取单元701，用于获取样本文本。

执行单元702，用于根据所述样本文本执行预训练任务中的至少两种，得到预训练语言模型，其中，所述预训练任务包括：前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务。

请参阅图8，图8为本公开另一实施例的预训练语言模型的训练装置，如图8所示，该装置800包括：

第一获取单元801，用于获取样本文本。

执行单元802，用于根据所述样本文本执行预训练任务中的至少两种，得到预训练语言模型，其中，所述预训练任务包括：前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务。

结合图8可知，在一些实施例中，执行单元802，包括：

分词子单元8021，用于对所述样本文本进行分词处理，得到所述样本文本中的每个词。

执行子单元8022，用于根据所述样本文本中的每个词执行预训练任务中的至少两种，得到预训练语言模型。

在本公开的一个实施例中，若执行的至少两种预训练任务中包括所述反向因果语言建模任务，则所述执行子单元8022用于，针对所述样本文本中的任一词，根据所述任一词和未来词，预测得到所述任一词在所述样本文本中的在前相邻词。

在本公开的一个实施例中，若执行的至少两种预训练任务中包括所述前向因果语言建模任务，则所述执行子单元8022用于，针对所述样本文本中的任一词，根据所述任一词和历史词，预测得到所述任一词在所述样本文本中的在后相邻词。

在本公开的一个实施例中，若执行的至少两种预训练任务中包括所述掩码语言建模任务，则所述执行子单元8022用于，对所述样本文本中的至少一个词进行掩码处理，得到掩码位置，并根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。

请参阅图9，图9为本公开一个实施例的语言模型的训练装置的示意图，如图9所示，该装置900包括：

第二获取单元901，用于获取目标任务场景的训练文本。

训练单元902，用于根据所述训练文本对预先训练的预训练语言模型进行训练，得到适用于所述目标任务场景的语言模型。

图10为本公开实施例提供的电子设备的硬件结构示意图。如图10所示，本公开实施例的电子设备1000可以包括：至少一个处理器1001(图10中仅示出了一个处理器)；以及，与至少一个处理器通信连接的存储器1002。其中，存储器1002存储有可被至少一个处理器1001执行的指令，指令被至少一个处理器1001执行，以使电子设备1000能够执行前述任一方法实施例中的技术方案。

可选的，存储器1002既可以是独立的，也可以跟处理器1001集成在一起。

当存储器1002是独立于处理器1001之外的器件时，电子设备1000还包括：总线1003，用于连接存储器1002和处理器1001。

本公开实施例提供的电子设备可以执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当计算机程序被处理器执行时用于实现前述任一方法实施例中的技术方案。

本公开实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一方法实施例中的技术方案。

本公开实施例还提供了一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中的技术方案。

进一步地，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述方法实施例中的技术方案。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本公开附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备中。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种预训练语言模型的训练方法，包括：

获取样本文本；

2.根据权利要求1所述的方法，其中，所述根据所述样本文本执行预训练任务中的至少两种，得到预训练语言模型，包括：

3.根据权利要求2所述的方法，其中，若执行的至少两种预训练任务中包括所述反向因果语言建模任务，则根据所述样本文本中的每个词执行所述反向因果语言建模任务，包括：

4.根据权利要求2或3所述的方法，其中，若执行的至少两种预训练任务中包括所述前向因果语言建模任务，则根据所述样本文本中的每个词执行所述前向因果语言建模任务，包括：

5.根据权利要求2-4任一项所述的方法，其中，若执行的至少两种预训练任务中包括所述掩码语言建模任务，则根据所述样本文本中的每个词执行所述掩码语言建模任务，包括：

6.根据权利要求1所述的方法，其中，所述至少两种预训练任务的训练模式包括：交替训练模式、并行训练模式以及串行训练模式。

7.一种语言模型的训练方法，包括：

获取目标任务场景的训练文本；

其中，所述预训练语言模型是基于如权利要求1-6任一项所述的方法训练得到的。

8.一种预训练语言模型的训练装置，包括：

第一获取单元，用于获取样本文本；

9.一种语言模型的训练装置，包括：

第二获取单元，用于获取目标任务场景的训练文本；

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备能够执行权利要求1-6中任一项所述的方法；或者，所述指令被所述至少一个处理器执行，以使所述电子设备能够执行权利要求7所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法；或者，所述计算机程序被处理器执行时实现权利要求7所述的方法。

12.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法；或者，该计算机程序被处理器执行时实现权利要求7所述的方法。