CN115600583B

CN115600583B - 一种字词多粒度混合的中文语言模型预训练方法

Info

Publication number: CN115600583B
Application number: CN202210952193.5A
Authority: CN
Inventors: 庞帅; 战科宇; 曹延森; 王华英; 王礼鑫; 张欢
Original assignee: Chinaso Information Technology Co ltd
Current assignee: Chinaso Information Technology Co ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2023-04-18
Anticipated expiration: 2042-08-09
Also published as: CN115600583A

Abstract

本发明提供一种字词多粒度混合的中文语言模型预训练方法，包括以下步骤：对输入的文本text进行字粒度切分和词粒度切分，分别得到字序列和词序列；对词序列中的某个词进行屏蔽，对字序列中对应字进行屏蔽；经向量化和编码后，采用四种预训练任务，计算总损失函数。本发明结合字和词两种粒度，提出包含字和词的新的中文语言模型预训练任务，通过将二者融合提升预训练模型效果。

Description

一种字词多粒度混合的中文语言模型预训练方法

技术领域

本发明属于计算机自然语言处理技术领域，具体涉及一种字词多粒度混合的中文语言模型预训练方法。

背景技术

中文领域的预训练模型大多是基于字粒度构建词表，故而常用的预训练任务是基于字粒度构建，常见的模型包括：自回归语言模型(LM)、掩码语言模型(Masked languagemodel，MLM)、Seq2Seq MLM(序列到序列模型)、排列语言模型(PLM)、Next SentencePrediction(下一句预测模型，NSP)、Sentence Order Prediction(句子顺序预测模型，SOP)等。以上各种预训练任务更多的是从英文模型构建中直接继承过来，因此，通常是基于字级别进行的。基于字的预训练任务的缺点主要有：

一，使用字的预训练任务，无法有效引入词信息，而汉语中词信息往往比单字表意更加丰富；

二，使用单字会增加序列长度，而bert等预训练模型的计算复杂度为O(N^2)，其中的N就是序列长度，受计算时间的限制无法有效处理过长的序列，导致长序列性能出现瓶颈。另外，由于使用单字时的序列较长，导致模型计算时间增加，降低预训练任务的效率。

发明内容

针对现有技术存在的缺陷，本发明提供一种字词多粒度混合的中文语言模型预训练方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种字词多粒度混合的中文语言模型预训练方法，包括以下步骤：

步骤1，对输入的文本text进行字粒度切分，得到字序列seq_char_1；其中，字序列seq_char_1包括n个按序排列的字，分别表示为：字char₁,字char₂,…,字char_n；

对输入的文本text进行词粒度切分，得到词序列seq_word_1；其中，词序列 seq_word_1包括m个按序排列的词，分别表示为：词word₁,词word₂,…,词word_m；

步骤2，在词序列seq_word_1中，随机选择词word_i进行屏蔽，其中，i＝1,2,…,m,得到屏蔽后的词序列，表示为：词序列seq_word_2；

假设词word_i一共包括k个字；

在字序列seq_char_1中，将词word_i分字后对应的k个字进行屏蔽，得到屏蔽后的字序列，表示为：字序列seq_char_2；

步骤3，将字序列seq_char_2中每个字进行向量化，得到字向量 Embbeding_char；字序列seq_char_2中各个字的字向量Embbeding_char，组成字序列seq_char_2的字向量组合；

将词序列seq_word_2中每个词进行向量化，得到词向量Embbeding_word；词序列seq_word_2中各个词的词向量Embbeding_word，组成词序列seq_word_2 的词向量组合；

步骤4，采用编码器，对字向量组合的每个字向量Embbeding_char进行编码，得到字编码向量v_char；字向量组合的所有字编码向量v_char，组成字编码向量矩阵 V_char；

采用编码器，对词向量组合的每个词向量Embbeding_word进行编码，得到词编码向量v_word；词向量组合的所有词编码向量v_word，组成词编码向量矩阵V_word；

步骤5，将字编码向量矩阵V_char和词编码向量矩阵V_word输入到预训练任务层，采用以下方法，计算得到总损失函数Loss_总：

步骤5.1，预训练任务层包括字级别任务、词级别任务、字序列向量预测被屏蔽的词任务和词序列向量预测被屏蔽的字任务；

步骤5.2，通过字级别任务，采用以下公式，得到第一损失函数Loss₁(x,θ):

其中：

P(x_a|V_char)含义为：在字编码向量矩阵V_char中，读出某个被预测的屏蔽字x_a的向量，使读出的屏蔽字x_a的向量与字典矩阵作乘法，得到概率矩阵；在该概率矩阵中，得到概率值最大值，即为P(x_a|V_char)；其中，字典矩阵为字典中每个字的字向量Emb_Char形成的矩阵；

-log P(x_a|V_char)：代表交叉熵计算，即：使用标准的交叉熵对P(x_a|V_char)进行计算，得到屏蔽字x_a的损失值；

E()：代表求平均计算；

具体含义为：对于k个屏蔽字，每个屏蔽字预测得到一个损失值；然后，对 k个屏蔽字的损失值求和，再除以k，得到平均损失值；

步骤5.3，通过词级别任务，采用以下公式，得到第二损失函数Loss₂(x,θ):

其中：

P(x_b|V_word)含义为：在词编码向量矩阵V_word中，读出某个被预测的屏蔽词x_b的向量，使读出的屏蔽词x_b的向量与词典矩阵作乘法，得到概率矩阵；在该概率矩阵中，得到概率值最大值，即为P(x_b|V_word)；其中，词典矩阵为词典中每个词的向量Emb_word形成的矩阵；g为词序列中被屏蔽的词的数量；

-log P(x_b|V_word)：代表交叉熵计算，即：使用标准的交叉熵对P(x_b|V_word) 进行计算，得到屏蔽词x_b的损失值；

步骤5.4，通过字序列向量预测被屏蔽的词任务，采用以下公式，得到第三损失函数Loss₃(x,θ):

其含义为：

在词序列中具有g个屏蔽词；对于每个被预测的屏蔽词x_b，采用以下方法，得到其上下文向量：

假设屏蔽词x_b包括r个屏蔽字；

在字编码向量矩阵V _char中，定位到连续的屏蔽词x_b包括的r个屏蔽字，表示为：字char_m1，字char_m2,…字char_mr；字char_m1前面最近的字记为c_b0,字char_mr后面最近的字记为c_b1；字c_b0的字向量和字c_b1的字向量进行Concat拼接操作，得到屏蔽词x_b的上下文向量，即：

含义为：使屏蔽词x_b的上下文向量与词典矩阵作乘法，得到概率矩阵；在该概率矩阵中，得到概率值最大值，即为

使用标准的交叉熵对进行计算，得到屏蔽词x_b的损失值；

步骤5.5，通过词序列向量预测被屏蔽的字任务，采用以下公式，得到第四损失函数Loss₄(x,θ):

其含义为：

在词序列中具有g个屏蔽词；每个屏蔽词对应字序列中的g组连续的屏蔽字；

对于字序列中第c组连续的屏蔽字x_c，采用以下方法，得到其上下文向量：

在词编码向量矩阵V_word中，定位到第c组连续的屏蔽字x_c对应的1个屏蔽词，该屏蔽词前面最近的词的词向量为该屏蔽词后面最近的词的词向量为将词向量和词向量进行Concat拼接操作，得到第c组连续的屏蔽字x_c的上下文向量，即：

含义为：对进行线性变换，得到线性变换后的向量；

含义为：使用序列到序列seq2seq模型，包括编码端和解码端；在编码端输入线性变换后的向量；在解码端输出预测到的第c组连续的屏蔽字x_c以及第c组连续的屏蔽字x_c的预测概率值；

使用标准的交叉熵对进行计算，得到第c组连续的屏蔽字x_c的损失值；

对第一损失函数Loss₁、第二损失函数Loss₂、第三损失函数Loss₃和第四损失函数Loss₄进行加权平均，得到总损失函数Loss_总；

步骤6，判断训练是否达到最大迭代次数，如果否，则根据总损失函数Loss_总得到梯度，对模型参数θ进行反传和参数更新，返回步骤4；如果是，则停止训练，得到预训练完成的语言模型。

优选的，步骤2中，词word_i进行屏蔽，具体方法为：

在词序列seq_word_1中，使用屏蔽符号[MASK]替换词word_i，得到屏蔽后的词序列seq_word_2。

优选的，步骤2中，对k个字进行屏蔽，具体方法为：

在字序列seq_char_1中，对于k个字中的每一个字，均使用屏蔽符号[MASK] 替换，得到屏蔽后的字序列seq_char_2。

优选的，步骤3中，将字序列seq_char_2中每个字进行向量化，得到字向量Embbeding_char，具体为：

对于字序列seq_char_2中每个字，其字向量Embbeding_char包括三个部分，分别为：字向量Emb_Char、字位置向量Emb_Pos_char和字所在的文本text的类型向量Emb_Type；

其中：

字向量Emb_Char：字典记录每个字以及该字的字向量，通过查询字典，得到字向量Emb_Char；

字位置向量Emb_Pos_char：指字在字序列seq_char_2中的位置所对应的向量，通过查询位置信息向量表Emb_Pos获得；

字所在的文本text的类型向量Emb_Type：指文本text的类型所对应的向量。

优选的，步骤3中，将词序列seq_word_2中每个词进行向量化，得到词向量Embbeding_word，具体为：

对于词序列seq_word_2中每个词，其词向量Embbeding_word包括三个部分，分别为：词向量Emb_word、词位置向量Emb_Pos_word和词所在的文本text的类型向量Emb_Type；

其中：

词向量Emb_word：词典记录每个词以及该词的词向量，通过查询词典，得到词向量Emb_word；

词位置向量Emb_Pos_word：指词在词序列seq_word_2中的位置所对应的向量，通过查询位置信息向量表Emb_Pos获得；

词所在的文本text的类型向量Emb_Type：指文本text的类型所对应的向量。

优选的，步骤3中，在对字序列seq_char_2中每个字进行向量化时，对于字序列seq_char_2中的每个屏蔽字，同样进行向量化；

在对词序列seq_word_2中每个词进行向量化时，对于词序列seq_word_2中的每个屏蔽词，同样进行向量化。

本发明提供的一种字词多粒度混合的中文语言模型预训练方法具有以下优点：

本发明结合字和词两种粒度，提出包含字和词的新的中文语言模型预训练任务，通过将二者融合提升预训练模型效果。

附图说明

图1为本发明提供的一种字词多粒度混合的中文语言模型预训练方法的流程示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

由于中文与英文有一个先天不同，就是中文在字的基础上还有一层词的表意单元，而且往往词比单字可以表达出更多的语义内容。本发明结合字和词两种粒度，提出包含字和词的新的中文语言模型预训练任务，通过将二者融合提升预训练模型效果。

参考图1，本发明提供的字词多粒度混合的中文语言模型预训练方法，包括以下步骤：

例如，输入的文本text为：“我爱历史博物馆”，分别进行字粒度的切分和词粒度的切分，得到的字序列seq_char_1为：“我爱历史博物馆”，共包括7 个字；得到的词序列seq_word_1为：“我爱历史博物馆”，共包括四个词，分别为：我，爱，历史，博物馆。

对词word_i进行屏蔽，具体方法为：在词序列seq_word_1中，使用屏蔽符号 [MASK]替换词word_i，得到屏蔽后的词序列seq_word_2。

假设词word_i一共包括k个字；

其中，对k个字进行屏蔽，具体方法为：在字序列seq_char_1中，对于k个字中的每一个字，均使用屏蔽符号[MASK]替换，得到屏蔽后的字序列seq_char_2。

例如，仍然以“我爱历史博物馆”为例，在词序列seq_word_1：“我爱历史博物馆”中，选择“历史”这个词进行屏蔽，得到屏蔽后的词序列seq_word_2 为：“我爱[MASK]博物馆”，包括4个词，其中具有一个屏蔽词[MASK]。在字序列seq_char_1：“我爱历史博物馆”中，进行屏蔽处理后，得到屏蔽后的字序列seq_char_2为：“我爱[MASK][MASK]博物馆”，包括7个字，其中具有2个屏蔽字[MASK]。

步骤3，将字序列seq_char_2中每个字进行向量化，得到字向量Embbeding_char；字序列seq_char_2中各个字的字向量Embbeding_char，组成字序列seq_char_2的字向量组合；

具体方法为：对于字序列seq_char_2中每个字，其字向量Embbeding_char包括三个部分，分别为：字向量Emb_Char、字位置向量Emb_Pos_char和字所在的文本text的类型向量Emb_Type；

其中：

具体为：

其中：

本步骤中，在对字序列seq_char_2中每个字进行向量化时，对于字序列 seq_char_2中的每个屏蔽字，同样进行向量化；

对字序列seq_char_2中每个字进行向量化时，对于字序列seq_char_2中的每个屏蔽字，同样进行向量化；

例如，对于字序列seq_char_2：“我爱[MASK][MASK]博物馆”，包括7 个字，每个字进行向量化，得到字向量Embbeding_char；

对于词序列seq_word_2：“我爱[MASK]博物馆”，包括4个词，每个词进行向量化，得到词向量Embbeding_word。对于词“我”，其词向量Emb_word通过查词典获得；词位置向量Emb_Pos_word为1；对于词“[MASK]”，其词向量 Emb_word通过查词典获得；词位置向量Emb_Pos_word为3。对于“我爱[MASK] 博物馆”中的4个词，其词所在的文本text的类型向量Emb_Type均相同，例如，如果语料是问答预料，且第一句是问题，第二句是答案，那么词所在的文本text的类型向量Emb_Type有两类，一是代表问题，一是代表答案。

本发明中，所有向量纬度相同，且随机初始化。

对于字序列seq_char_2：“我爱[MASK][MASK]博物馆”，其字序列 seq_char_2的字向量组合为：

Embbeding_char(我)＝Emb_Char(我)+Emb_Pos(1)+Emb_Type(0)

Embbeding_char(爱)＝Emb_Char(爱)+Emb_Pos(2)+Emb_Type(0)

Embbeding_char([MASK])＝Emb_Char([MASK])+Emb_Pos(3)+Emb_Type(0)

Embbeding_char([MASK])＝Emb_Char([MASK])+Emb_Pos(4)+Emb_Type(0)

Embbeding_char(天)＝Emb_Char(天)+Emb_Pos(5)+Emb_Type(0)

Embbeding_char(安)＝Emb_Char(安)+Emb_Pos(6)+Emb_Type(0)

Embbeding_char(门)＝Emb_Char(门)+Emb_Pos(7)+Emb_Type(0)

对于词序列seq_word_2：“我爱[MASK]博物馆”，其词序列seq_word_2 的词向量组合为：

Embbeding_word(我)＝Emb_Word(我)+Emb_Pos(1)+Emb_Type(0)

Embbeding_word(爱)＝Emb_Word(爱)+Emb_Pos(2)+Emb_Type(0)

Embbeding_word([MASK])

＝Emb_Word([MASK])+Emb_Pos(3)+Emb_Type(0)

Embbeding_word(博物馆)

＝Emb_Word(博物馆)+Emb_Pos(4)+Emb_Type(0)

作为一种具体实现方式，编码器可采用transformer的encoder部分，用于进行编码。

其中：

E()：代表求平均计算；

其中：

其含义为：

假设屏蔽词x_b包括r个屏蔽字；

在字编码向量矩阵V_char中，定位到连续的屏蔽词x_b包括的r个屏蔽字，表示为：字char_m1，字char_m2,…字char_mr；字char_m1前面最近的字记为c_b0,字char_mr后面最近的字记为c_b1；字c_b0的字向量和字c_b1的字向量进行Concat拼接操作，得到屏蔽词x_b的上下文向量，即：

使用标准的交叉熵对进行计算，得到屏蔽词x_b的损失值；

其含义为：

含义为：对进行线性变换，得到线性变换后的向量；

下面介绍一个具体实施例：

本发明在预训练阶段有三部分组成，第一部分是embbeding层，包括字向量，词向量，位置向量，句子类型向量。第二部分是encoder模型，具体可以为 transformer的encoder部分。第三部分是预训练任务层，包括1)字级别MLM任务 (本发明中，屏蔽的字采用whole word mask方式，即被屏蔽的字必须属于一个词)，2)词级别MLM任务，3)字序列向量预测被屏蔽的词，4)词序列向量预测被屏蔽的字。

(一)Embedding层

Embbeding层包括字向量，词向量，位置向量，句子类型向量，也就是说一个输入序列(一句输入的文本)按照字和词两种粒度分别做两次切分，得到两个序列，后面使用这两个序列训练同一个encoder模型。

(二)Encoding层

本层使用transformer的encoding模型进行编码

(三)预训练任务层

本层中包含四个预训练任务，分别为：

(1)字级别MLM任务

屏蔽字序列中的某个字，然后在预训练中基于上下文，预测被屏蔽的字，这里面屏蔽的字采用whole word mask方式，即被屏蔽的如果是多个字，则字必须是连续的，且必须属于一个词，如果是单个字则无限制。

(2)词级别MLM任务

与字级别的MLM任务类似，区别仅在于被屏蔽的单元变成某些词，而且被屏蔽的词，其在第一步提到的字序列中对应的位置也被屏蔽。

(3)字序列向量预测被屏蔽的词

在词序列中，对于某个被屏蔽的词M，在字序列中其对应的字m1，m2,… mk也被屏蔽(k为词M中的字数)，则在字序列中，使用m1前面最近的字，和mk 后面最近的字组成上下文，对词序列中被屏蔽的词进行预测。

(4)词序列向量预测被屏蔽的字

在字序列中，有连续的字m1，m2,…mk被屏蔽，同时在词序列中m1，m2,… mk属于词M，词M在词序列中也被屏蔽。

则：在词序列中，使用M前面的最近的词MH和后面最近的词MT对应的向量组成上下文，对字序列中被屏蔽的字m1,m2…mk进行预测。

由于m1,m2…mk具体包含字的个数是未知的，所以使用seq2seq的方式(生成式)预测m1,m2…mk，在seq2seq的encoder端输入MH和MT的词向量，在decoder 端预测m1,m2…mk。

最后的损失函数是四个任务的loss相加。

本发明通过使用字和词混合的预训练方式，将字序列和词序列的信息融合到一个编码器中，提升预训练效果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种字词多粒度混合的中文语言模型预训练方法，其特征在于，包括以下步骤：

对输入的文本text进行词粒度切分，得到词序列seq_word_1；其中，词序列seq_word_1包括m个按序排列的词，分别表示为：词word₁,词word₂,…,词word_m；

假设词word_i一共包括k个字；

将词序列seq_word_2中每个词进行向量化，得到词向量Embbeding_word；词序列seq_word_2中各个词的词向量Embbeding_word，组成词序列seq_word_2的词向量组合；

步骤4，采用编码器，对字向量组合的每个字向量Embbeding_char进行编码，得到字编码向量v_char；字向量组合的所有字编码向量v_char，组成字编码向量矩阵V_char；

其中：

E()：代表求平均计算；

具体含义为：对于k个屏蔽字，每个屏蔽字预测得到一个损失值；然后，对k个屏蔽字的损失值求和，再除以k，得到平均损失值；

其中：

-log P(x_b|V_word)：代表交叉熵计算，即：使用标准的交叉熵对P(x_b|V_word)进行计算，得到屏蔽词x_b的损失值；

其含义为：

假设屏蔽词x_b包括r个屏蔽字；

在字编码向量矩阵V_char中，定位到连续的屏蔽词x_b包括的r个屏蔽字，表示为：字char_m1，字char_m2,…字char_mr；字char_m1前面最近的字记为c_b0,字char_mr后面最近的字记为c_b1；字c_b0的字向量

和字c_b1的字向量

进行Concat拼接操作，得到屏蔽词x_b的上下文向量，即：

使用标准的交叉熵对

进行计算，得到屏蔽词x_b的损失值；

其含义为：

在词编码向量矩阵V_word中，定位到第c组连续的屏蔽字x_c对应的1个屏蔽词，该屏蔽词前面最近的词的词向量为

该屏蔽词后面最近的词的词向量为

将词向量

和词向量

进行Concat拼接操作，得到第c组连续的屏蔽字x_c的上下文向量，即：

含义为：对

进行线性变换，得到线性变换后的向量；

使用标准的交叉熵对

进行计算，得到第c组连续的屏蔽字x_c的损失值；

2.根据权利要求1所述的一种字词多粒度混合的中文语言模型预训练方法，其特征在于，步骤2中，词word_i进行屏蔽，具体方法为：

3.根据权利要求1所述的一种字词多粒度混合的中文语言模型预训练方法，其特征在于，步骤2中，对k个字进行屏蔽，具体方法为：

在字序列seq_char_1中，对于k个字中的每一个字，均使用屏蔽符号[MASK]替换，得到屏蔽后的字序列seq_char_2。

4.根据权利要求1所述的一种字词多粒度混合的中文语言模型预训练方法，其特征在于，步骤3中，将字序列seq_char_2中每个字进行向量化，得到字向量Embbeding_char，具体为：

其中：

5.根据权利要求1所述的一种字词多粒度混合的中文语言模型预训练方法，其特征在于，步骤3中，将词序列seq_word_2中每个词进行向量化，得到词向量Embbeding_word，具体为：

其中：

6.根据权利要求1所述的一种字词多粒度混合的中文语言模型预训练方法，其特征在于，步骤3中，在对字序列seq_char_2中每个字进行向量化时，对于字序列seq_char_2中的每个屏蔽字，同样进行向量化；