CN115358231A

CN115358231A - 自然语言预训练模型训练方法、装置、设备及存储介质

Info

Publication number: CN115358231A
Application number: CN202211047077.5A
Authority: CN
Inventors: 暴宇健; 张文俊; 袁子涵
Original assignee: Beijing Longzhi Digital Technology Service Co Ltd
Current assignee: Beijing Longzhi Digital Technology Service Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-18
Also published as: WO2024045318A1

Abstract

本申请提供一种自然语言预训练模型训练方法、装置、设备及存储介质。该方法包括：利用词典对文本进行分词并将词转换为独热编码；将独热编码输入到词嵌入层，利用词嵌入层映射得到每个词对应的静态词向量；将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词的输入向量，将输入向量作为自然语言预训练模型的输入，得到每个词对应的动态词向量；计算每个词对应的静态词向量与动态词向量之间的相似度，将相似度计算结果作为约束项；利用约束项对自然语言预训练模型的原始损失函数进行调整，并对调整原始损失函数后的自然语言预训练模型进行训练。本申请提高了自然语言预训练模型的训练效果，使模型获得更好的精度和泛化性能。

Description

自然语言预训练模型训练方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种自然语言预训练模型训练方法、装置、设备及存储介质。

背景技术

当前主流的基于BERT(Bidirectional Encoder Representation fromTransformers)结构的自注意力预训练模型通过将输入文本中的词进行随机遮掩后让模型对遮掩词进行预测的方式，使获得的词向量考虑了上下文关系。目前大多数基于BERT改进的预训练模型是通过增加语料、扩大模型规模等方式来提高模型的表现。

在自然语言预训练模型的训练过程中，一个词在不同语境下的含义存在差异，但词在不同语境中的含义都衍生自词本身的词义，因此通常会通过词本身的含义来推测一个词在某个语境下的含义。然而，目前基于BERT的预训练模型在设计时都没有充分考虑词本身含义对于训练后得到的词向量的影响，未充分考虑词的本义(静态词义)不仅可能会增加模型训练的时间，也可能会降低模型的精度表现。

鉴于现有技术中存在的问题，亟需提供一种在考虑词的上下文含义的同时，能够充分考虑词本身的含义，从而提高自然语言预训练模型的训练效果，使模型获得更好的精度和泛化性能的自然语言预训练模型训练方案。

发明内容

有鉴于此，本申请实施例提供了一种自然语言预训练模型训练方法、装置、设备及存储介质，以解决现有技术存在的未能充分考虑词本身的含义，使自然语言预训练模型的训练效果降低，无法使模型获得更好精度和泛化性能的问题。

本申请实施例的第一方面，提供了一种自然语言预训练模型训练方法，包括：利用自然语言预训练模型的词典对文本进行分词，并将文本中的词转换为相应的独热编码；将文本对应的独热编码输入到词嵌入层，利用词嵌入层映射得到每个词对应的静态词向量；将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将输入向量作为自然语言预训练模型的输入，得到每个词对应的动态词向量；计算每个词对应的静态词向量与动态词向量之间的相似度，将相似度计算结果作为约束项；利用约束项对自然语言预训练模型的原始损失函数进行调整，并对调整原始损失函数后的自然语言预训练模型进行训练。

本申请实施例的第二方面，提供了一种自然语言预训练模型训练装置，包括：转换模块，被配置为利用自然语言预训练模型的词典对文本进行分词，并将文本中的词转换为相应的独热编码；映射模块，被配置为将文本对应的独热编码输入到词嵌入层，利用词嵌入层映射得到每个词对应的静态词向量；输入模块，被配置为将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将输入向量作为自然语言预训练模型的输入，得到每个词对应的动态词向量；计算模块，被配置为计算每个词对应的静态词向量与动态词向量之间的相似度，将相似度计算结果作为约束项；调整模块，被配置为利用约束项对自然语言预训练模型的原始损失函数进行调整，并对调整原始损失函数后的自然语言预训练模型进行训练。

本申请实施例的第三方面，提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过利用自然语言预训练模型的词典对文本进行分词，并将文本中的词转换为相应的独热编码；将文本对应的独热编码输入到词嵌入层，利用词嵌入层映射得到每个词对应的静态词向量；将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将输入向量作为自然语言预训练模型的输入，得到每个词对应的动态词向量；计算每个词对应的静态词向量与动态词向量之间的相似度，将相似度计算结果作为约束项；利用约束项对自然语言预训练模型的原始损失函数进行调整，并对调整原始损失函数后的自然语言预训练模型进行训练。本申请在考虑词的上下文含义的同时，能够充分考虑词本身的含义，从而提高了自然语言预训练模型的训练效果，使模型获得更好的精度和泛化性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的自然语言预训练模型训练方法的流程示意图；

图2是本申请实施例提供的实际应用场景下的约束项的计算过程示意图；

图3是本申请实施例提供的自然语言预训练模型训练装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

近年来，随着人工智能和自然语言技术的不断发展，自然语言预训练模型被广泛应用到各个领域中解决实际场景下的自然语言处理任务，比如文本分类、语音识别等。在当前主流的基于BERT(Bidirectional Encoder Representation from Transformers)结构的自注意力预训练模型通过将输入文本中的词进行随机遮掩后让模型对遮掩词进行预测的方式，使获得的词向量考虑了上下文关系。目前大多数基于BERT改进的预训练模型是通过增加语料、扩大模型规模等方式来提高模型的表现。

在当前的自然语言处理领域中，主流的基于BERT的预训练模型是通过一个词的上下文来训练得到一个词的动态词向量，这种方式虽然考虑了词在不同语境中的不同含义，但对于词本身的固有含义考虑较少。在自然语言中，一个词在不同语境下的含义存在差异，但词在不同语境中的含义都衍生自词本身的词义，因此通常会通过词本身的含义来推测一个词在某个语境下的含义。然而，目前基于BERT的预训练模型在设计时都没有充分考虑词本身含义对于训练后得到的词向量的影响，未充分考虑词的本义(静态词义)不仅可能会增加模型训练的时间，也可能会降低模型的精度表现。因此现有的针对自然语言预训练模型的训练方法存在模型训练时间长、训练效果差、模型精度和泛化性能比较低的问题。

鉴于现有技术中存在的问题，本申请提供一种改进后的自然语言预训练模型训练方法，本申请在对自然语言预训练模型进行训练之前，先获取每个词对应的静态词向量以及动态词向量，通过计算考虑上下文得到的动态词向量与词本身的静态词向量之间的相似度，从而拉进两种词向量在语义空间中的表达。利用相似度计算结果作为约束项对自然语言预训练模型的原始损失函数进行调整，并对原始损失函数调整后的自然语言预训练模型进行训练，使训练后的模型在考虑上下文的同时，也能充分考虑词本身的含义，提升自然语言预训练模型的效果，使模型具有更好的精度和泛化性能。

图1是本申请实施例提供的自然语言预训练模型训练方法的流程示意图。图1的自然语言预训练模型训练方法可以由服务器执行。如图1所示，该自然语言预训练模型训练方法具体可以包括：

S101，利用自然语言预训练模型的词典对文本进行分词，并将文本中的词转换为相应的独热编码；

S102，将文本对应的独热编码输入到词嵌入层，利用词嵌入层映射得到每个词对应的静态词向量；

S103，将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将输入向量作为自然语言预训练模型的输入，得到每个词对应的动态词向量；

S104，计算每个词对应的静态词向量与动态词向量之间的相似度，将相似度计算结果作为约束项；

S105，利用约束项对自然语言预训练模型的原始损失函数进行调整，并对原始损失函数调整后的自然语言预训练模型进行训练。

具体地，本申请实施例的独热编码即One-Hot编码(One-Hot Encoding)，又称一位有效编码，其原理是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。本申请实施例将文本中的每个词均转换为相应的独热编码，因此整个文本就对应一系列的独热编码(按照词的顺序进行独热编码的排列)。

进一步地，本申请实施例将一个词在不同上下文中获得的不同的词向量称为动态词向量，将不考虑词的上下文获得的词向量称为该词的静态词向量。其中，动态词向量能够表征词在不同语境中的含义，而静态词向量能够表征词本身的含义。

需要说明的是，本申请以下实施例是以基于BERT的自注意力预训练模型(简称BERT预训练模型或者BERT模型)作为自然语言预训练模型为例进行详细介绍的，但是应当理解的是，本申请实施例的自然语言预训练模型不限于BERT预训练模型，任何能够在自然语言处理任务中应用的模型均适用于本申请，自然语言预训练模型的类型不构成对本申请技术方案的限定。

在一些实施例中，将文本对应的独热编码输入到词嵌入层，利用词嵌入层映射得到每个词对应的静态词向量，包括：基于文本中每个词对应的独热编码，生成文本对应的一系列独热编码，将一系列独热编码输入到词嵌入层，利用词嵌入层对一系列独热编码进行映射，得到每个词对应的原始向量表示，将每个词的原始向量表示作为静态词向量。

具体地，在利用词嵌入层映射得到每个词对应的静态词向量之前，先根据自然语言预训练模型(BERT预训练模型)的词典，对输入的文本进行分词后经BERT预训练模型的词表转换为词对应的独热编码(One-Hot Encoding)。

进一步地，在得到每个词对应的独热编码之后，根据每个词对应的独热编码以及每个词在文本中的顺序，生成该文本对应的一系列独热编码，将这一系列独热编码输入到BERT预训练模型的词嵌入层，经过映射获得每个词对应的原始向量表示，即每个词对应的静态词向量。静态词向量能够表达词本身的含义。

在一些实施例中，将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将输入向量作为自然语言预训练模型的输入，得到每个词对应的动态词向量，包括：获取每个词在文本中对应的段落嵌入向量和位置嵌入向量，将静态词向量、段落嵌入向量以及位置嵌入向量分别映射到同一维度空间内，将同一维度空间内的静态词向量、段落嵌入向量以及位置嵌入向量进行相加，得到每个词对应的输入向量；将输入向量输入到自然语言预训练模型中，利用自然语言预训练模型进行词遮掩任务和上下句任务的训练，并输出文本中每个词对应的动态词向量。

具体地，在利用词嵌入层映射得到每个词对应的静态词向量之后，将每个词的静态词向量、段落嵌入向量以及位置嵌入向量分别映射到同一维度空间内，比如每个向量都被映射到768维空间，即每个向量被映射成768维向量，再将同一维度下的静态词向量、段落嵌入向量(segment embedding)以及位置嵌入向量(position embedding)进行相加(即向量相加)，得到每个词对应的输入向量。

进一步地，将输入向量输入到BERT预训练模型中，利用BERT预训练模型进行词遮掩任务和上下句任务的训练，最后利用BERT预训练模型输出文本中每个词对应的动态词向量。

BERT模型(BidirectionalEncoder Representations from Transformer)是基于Transformer的双向编码器表示，是一个预训练的语言表征模型，它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model(MLM)，以致能生成深度的双向语言表征。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation(即文本的语义表示)，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。

进一步地，BERT官方模型为了学习语义信息，使用了两个任务作为预训练，即在BERT模型的预训练中引入了以下两大核心任务：随机静态掩码的语言模型训练任务(Masked LM)和下个句子的预测任务(Next Sentence Prediction)。由于本申请并未对BERT模型的结构和训练任务本身进行改进和调整，因此，这里不对BERT模型做过多的说明。

在一些实施例中，计算每个词对应的静态词向量与动态词向量之间的相似度，将相似度计算结果作为约束项，包括：计算每个词的静态词向量与动态词向量之间的向量内积，将向量内积作为静态词向量与动态词向量之间的相似度计算结果，将相似度计算结果作为基于静态词向量所构造的约束项；其中，静态词向量与动态词向量之间具有相同维度。

具体地，在得到每个词对应的静态词向量和动态词向量之后，通过计算静态词向量和动态词向量之间的向量相似度的方式，确定用于增加BERT模型训练过程中的约束条件(即约束项)。在实际应用中，优选地，本申请实施例可以采用向量间的内积来表示向量之间的相似度，向量内积越大相似度越大。

进一步地，在使用向量内积来度量静态词向量与动态词向量之间的相似度时，可以采用以下公式计算向量内积：

其中，R表示向量内积，N表示句子中词(或者字)的个数，i表示词(或者字)在句子中的位置，Ve_i表示静态词向量，Vt_i表示动态词向量。

需要说明的是，本申请实施例将静态词向量(或者静态字向量)记为Ve_i，其中i代表该词或字所在句子中的位置，一般从0开始；将经过多层自注意力神经网络(BERT模型网络)映射后得到的词或字对应的动态向量记为Vt_i，其中i为该词或字所在句子中的位置，一般从0开始，句子中共N个词或字。将计算得到的R作为后面的约束项，约束项也称为约束条件。

在一些实施例中，计算每个词对应的静态词向量与动态词向量之间的相似度，将相似度计算结果作为约束项，包括：计算每个词的静态词向量与动态词向量之间的余弦相似度或者曼哈顿距离，将余弦相似度或者曼哈顿距离作为静态词向量与动态词向量之间的相似度计算结果，并将相似度计算结果作为约束项。

具体地，本申请实施例除了使用向量内积来表示向量之间的相似度之外，还可以采用向量之间的余弦相似度或者曼哈顿距离来表示相似度，即将静态词向量与动态词向量之间的余弦相似度或者曼哈顿距离作为约束项。关于余弦相似度或者曼哈顿距离的计算方式在此不对其说明，当然除了余弦相似度或者曼哈顿距离外，其他向量之间相似度的计算方式也同样适用于本申请。

根据本申请实施例提供的技术方案，本申请实施例通过采用向量内积、余弦相似度或者曼哈顿距离等来衡量向量之间的相似度，从而拉近动态词向量和静态词向量在语义空间中的相似度，使得最后得到的词向量既融合了上下文的语境信息，也充分参考了词本身的静态含义。

在一些实施例中，利用约束项对自然语言预训练模型的原始损失函数进行调整，包括采用以下式子对原始损失函数进行调整：

loss＝(1-α)·suploss-α·regulation

其中，loss表示调整后的损失函数，suploss表示原始损失函数，α表示配分系数，用于调整模型训练精度，regulation表示基于静态词向量所构造的约束项。

具体地，在计算得到基于静态词向量的约束项之后，利用约束项对下游自然语言处理任务中的自然语言预训练模型(BERT预训练模型)的原始损失函数进行调整，即利用上述式子对原始损失函数suploss进行调整，得到调整后的损失函数loss。

在实际应用中，loss为改造(即调整)后的损失函数，suploss为原始的有监督学习的损失函数(比如交叉熵损失函数)，regulation为前文中提到的基于静态词(字)向量所构造的约束项，α为配分系数，用于调整模型训练精度，处于0到1的开区间内，经验性地可取在0.1～0.2之间，需要根据不同任务调整该取值。

以上内容对本申请技术方案的完整实施例做了详细的介绍，下面结合附图以及具体实施例，对本申请自然语言预训练模型的训练过程进行描述。图2是本申请实施例提供的实际应用场景下的约束项的计算过程示意图，如图2所示，该实际应用场景下的约束项的计算过程具体可以包括：

在一个具体实施例中，假设对于“CLS龙湖集团SEP”六个原始字符组成的句子，首先将每个词(或字)分别转换为对应的独热编码，再利用嵌入映射层(即词嵌入层)将独热编码映射为静态词向量，即分别映射为Ve0到Ve5的静态词向量；之后，将每个词对应的输入向量作为多层自注意力神经网络(即BERT模型网络)的输入，利用BERT模型网络输出每个词对应的动态词向量，将每个词(或字)对应的动态词向量分别记为Vt0到Vt5。

由于词的输入向量是基于映射成相同维度的静态词向量、段落嵌入向量和位置嵌入向量想加得到的，比如将向量全部映射成768维向量，因此，静态词向量Ve0到Ve5与动态词向量Vt0到Vt5之间具有相同的维度；静态词向量表征了每个词的静态词义，而动态词向量的产生使用了注意力机制，所以综合了上下文信息，因此动态词向量包含每个词的动态含义。

之后，基于每个词的静态词向量和动态词向量，利用前述实施例提供的向量内积计算公式，计算静态词向量与动态词向量之间的向量内积，将向量内积作为约束项；利用约束项对有监督学习的自然语言处理任务中的BERT模型的原始损失函数进行调整，并对损失函数调整后的BERT模型进行训练，从而使训练后的BERT模型获得更好的精度和泛化性能。

根据本申请实施例提供的技术方案，本申请实施例至少具有以下优点：

(1)本申请提出了在训练基于BERT的预训练模型的过程中，基于token(词)的静态词向量和动态词向量计算约束项，利用约束项对BERT预训练模型的原始损失函数进行调整，并对原始损失函数调整后的BERT预训练模型进行训练，缩短了BERT预训练模型的训练时间；

(2)本申请通过在BERT预训练模型的训练过程中引入约束项来提升句子中每个词的动态词向量和静态词向量之间的相似度，达到拉近动态词向量和静态词向量两者在语义空间上的距离的目的；

(3)本申请可适用于各种类似BERT的基于多层自注意力机制的预训练模型(包含各种改进模型)上，适用范围广；

(4)利用本申请提供的模型训练方法，在对下游任务中的模型进行精调训练后，可使模型获得比未使用本方案的模型更好的精度和泛化性能。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图3是本申请实施例提供的自然语言预训练模型训练装置的结构示意图。

如图3所示，该自然语言预训练模型训练装置包括：

转换模块301，被配置为利用自然语言预训练模型的词典对文本进行分词，并将文本中的词转换为相应的独热编码；

映射模块302，被配置为将文本对应的独热编码输入到词嵌入层，利用词嵌入层映射得到每个词对应的静态词向量；

输入模块303，被配置为将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将输入向量作为自然语言预训练模型的输入，得到每个词对应的动态词向量；

计算模块304，被配置为计算每个词对应的静态词向量与动态词向量之间的相似度，将相似度计算结果作为约束项；

调整模块305，被配置为利用约束项对自然语言预训练模型的原始损失函数进行调整，并对原始损失函数调整后的自然语言预训练模型进行训练。

在一些实施例中，图3的映射模块302基于文本中每个词对应的独热编码，生成文本对应的一系列独热编码，将一系列独热编码输入到词嵌入层，利用词嵌入层对一系列独热编码进行映射，得到每个词对应的原始向量表示，将每个词的原始向量表示作为静态词向量。

在一些实施例中，图3的输入模块303获取每个词在文本中对应的段落嵌入向量和位置嵌入向量，将静态词向量、段落嵌入向量以及位置嵌入向量分别映射到同一维度空间内，将同一维度空间内的静态词向量、段落嵌入向量以及位置嵌入向量进行相加，得到每个词对应的输入向量；将输入向量输入到自然语言预训练模型中，利用自然语言预训练模型进行词遮掩任务和上下句任务的训练，并输出文本中每个词对应的动态词向量。

在一些实施例中，图3的计算模块304计算每个词的静态词向量与动态词向量之间的向量内积，将向量内积作为静态词向量与动态词向量之间的相似度计算结果，将相似度计算结果作为基于静态词向量所构造的约束项；其中，静态词向量与动态词向量之间具有相同维度。

在一些实施例中，图3的计算模块304计算每个词的静态词向量与动态词向量之间的余弦相似度或者曼哈顿距离，将余弦相似度或者曼哈顿距离作为静态词向量与动态词向量之间的相似度计算结果，并将相似度计算结果作为约束项。

在一些实施例中，图3的调整模块305采用以下式子对原始损失函数进行调整：

loss＝(1-α)·suploss-α·regulation

其中，loss表示调整后的损失函数，suploss表示原始损失函数，α表示配分系数，用于调整模型训练精度，regulstion表示基于静态词向量所构造的约束项。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图4是本申请实施例提供的电子设备4的结构示意图。如图4所示，该实施例的电子设备4包括：处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者，处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序403可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器402中，并由处理器401执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序403在电子设备4中的执行过程。

电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解，图4仅仅是电子设备4的示例，并不构成对电子设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器402可以是电子设备4的内部存储单元，例如，电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备，例如，电子设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种自然语言预训练模型训练方法，其特征在于，包括：

利用自然语言预训练模型的词典对文本进行分词，并将所述文本中的词转换为相应的独热编码；

将所述文本对应的独热编码输入到词嵌入层，利用所述词嵌入层映射得到每个词对应的静态词向量；

将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将所述输入向量作为所述自然语言预训练模型的输入，得到每个词对应的动态词向量；

计算每个词对应的所述静态词向量与所述动态词向量之间的相似度，将相似度计算结果作为约束项；

利用所述约束项对所述自然语言预训练模型的原始损失函数进行调整，并对所述原始损失函数调整后的自然语言预训练模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述将所述文本对应的独热编码输入到词嵌入层，利用所述词嵌入层映射得到每个词对应的静态词向量，包括：

基于所述文本中每个词对应的独热编码，生成所述文本对应的一系列独热编码，将所述一系列独热编码输入到所述词嵌入层，利用所述词嵌入层对所述一系列独热编码进行映射，得到每个词对应的原始向量表示，将每个词的原始向量表示作为静态词向量。

3.根据权利要求1所述的方法，其特征在于，所述将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将所述输入向量作为所述自然语言预训练模型的输入，得到每个词对应的动态词向量，包括：

获取每个词在所述文本中对应的段落嵌入向量和位置嵌入向量，将所述静态词向量、所述段落嵌入向量以及所述位置嵌入向量分别映射到同一维度空间内，将同一维度空间内的所述静态词向量、所述段落嵌入向量以及所述位置嵌入向量进行相加，得到每个词对应的输入向量；

将所述输入向量输入到所述自然语言预训练模型中，利用所述自然语言预训练模型进行词遮掩任务和上下句任务的训练，并输出所述文本中每个词对应的动态词向量。

4.根据权利要求1所述的方法，其特征在于，所述计算每个词对应的所述静态词向量与所述动态词向量之间的相似度，将相似度计算结果作为约束项，包括：

计算每个词的所述静态词向量与所述动态词向量之间的向量内积，将所述向量内积作为静态词向量与动态词向量之间的相似度计算结果，将所述相似度计算结果作为基于所述静态词向量所构造的约束项；其中，所述静态词向量与所述动态词向量之间具有相同维度。

5.根据权利要求1所述的方法，其特征在于，所述计算每个词对应的所述静态词向量与所述动态词向量之间的相似度，将相似度计算结果作为约束项，包括：

计算每个词的所述静态词向量与所述动态词向量之间的余弦相似度或者曼哈顿距离，将所述余弦相似度或者曼哈顿距离作为静态词向量与动态词向量之间的相似度计算结果，并将所述相似度计算结果作为约束项。

6.根据权利要求4所述的方法，其特征在于，所述利用所述约束项对所述自然语言预训练模型的原始损失函数进行调整，包括采用以下式子对所述原始损失函数进行调整：

loss＝(1-α)·suploss-α·regulation

其中，loss表示调整后的损失函数，suploss表示原始损失函数，α表示配分系数，用于调整模型训练精度，regulstion表示基于所述静态词向量所构造的约束项。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述自然语言预训练模型采用基于BERT的自注意力预训练模型。

8.一种自然语言预训练模型训练装置，其特征在于，包括：

转换模块，被配置为利用自然语言预训练模型的词典对文本进行分词，并将所述文本中的词转换为相应的独热编码；

映射模块，被配置为将所述文本对应的独热编码输入到词嵌入层，利用所述词嵌入层映射得到每个词对应的静态词向量；

输入模块，被配置为将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将所述输入向量作为所述自然语言预训练模型的输入，得到每个词对应的动态词向量；

计算模块，被配置为计算每个词对应的所述静态词向量与所述动态词向量之间的相似度，将相似度计算结果作为约束项；

调整模块，被配置为利用所述约束项对所述自然语言预训练模型的原始损失函数进行调整，并对所述原始损失函数调整后的自然语言预训练模型进行训练。

9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。