CN115374252B

CN115374252B - 一种基于原生Bert架构的文本分级方法及装置

Info

Publication number: CN115374252B
Application number: CN202211291117.0A
Authority: CN
Inventors: 殷晓君; 宋国龙; 李若凡; 卢明文
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2022-12-23
Anticipated expiration: 2042-10-21
Also published as: CN115374252A

Abstract

本发明涉及文本分级技术领域，特别是指一种基于原生Bert架构的文本分级方法及装置，方法包括：在原生Bert模型的词表中，增加一个新的特殊标记[LEVEL]；获取初始训练样本并进行预处理，预处理后的训练样本的序列形式为[CLS]W₁W₂W₃...W_n[SEP]K，其中，W₁W₂W₃...W_n表示训练样本的文本，K表示训练样本的特殊标记[LEVEL]的参数值，即训练样本对应的复杂度等级；基于训练样本，对预训练的原生Bert模型进行fine‑tuning训练，得到训练好的复杂度分级模型；对初始待分级文本进行预处理，将预处理后的待分级文本输入到训练好的复杂度分级模型中，得到初始待分级文本对应的复杂度等级。采用本发明，可以更加简洁的将Bert模型应用到文本分级任务中，减少参数量，降低模型复杂度。

Description

一种基于原生Bert架构的文本分级方法及装置

技术领域

本发明涉及文本分级技术领域，特别是指一种基于原生Bert架构的文本分级方法及装置。

背景技术

文本分级是指将文本按特定的阅读难度或复杂度进行定级，文本分级具有非常大的理论和实践价值。文本分级研究可以为特定的阅读群体选择合适的阅读和学习材料，对推进分级阅读有重要的作用，分级阅读对于提高全民阅读素养，构建学习型社会，提升国民整体素质具有推动作用。因此，文本分级研究具有重要的社会价值。

用模型解决文本分级问题，当前主流方法是在Bert（Bidirectional EncoderRepresentations from Transformer，基于 Transformer 的双向编码器表示模型）模型上增加分类结构，举例来说，如transformers.BertForSequenceClassification实现方式，是在Bert模型基础上，取[CLS]的向量，增加dropout，增加和分级基本数量level_num相关的linner层，最后进行softmax激活。架构示意图可以如图1所示。其中linner层会在原Bert模型参数基础上增加新的参数量，其大小为[CLS]的向量维度hidden_size * level_num，一般hidden_size=768， level_num在6-12之间。因此，当前主流方案主要存在两个问题：

1. 在原生Bert模型增加了新的结构，增加了复杂性。

2.带来了一定参数量的增加，增加了复杂性和运算量。

发明内容

为了解决现有技术存在的复杂性高、运算量大的问题，本发明实施例提供了一种基于原生Bert架构的文本分级方法及装置。所述技术方案如下：

一方面，提供了一种基于原生Bert架构的文本分级方法，该方法由电子设备实现，该方法包括：

在预训练的原生Bert模型的词表中，增加一个新的特殊标记[LEVEL]；

获取初始训练样本，对所述初始训练样本进行预处理，得到预处理后的训练样本，所述训练样本的序列形式为[CLS]W₁W₂W₃...W_n[SEP]K，其中，W₁W₂W₃...W_n表示训练样本的文本，K表示训练样本的特殊标记[LEVEL]的参数值，即训练样本对应的复杂度等级；

基于所述训练样本，对预训练的原生Bert模型进行fine-tuning训练，得到训练好的复杂度分级模型；

对初始待分级文本进行预处理，得到预处理后的待分级文本，将所述待分级文本输入到训练好的复杂度分级模型中，得到所述初始待分级文本对应的复杂度等级。

可选地，所述新的特殊标记[LEVEL] 的参数量为hidden_size。

可选地，所述基于所述训练样本，对预训练的原生Bert模型进行fine-tuning训练，得到训练好的复杂度分级模型，包括：

在fine-tuning训练阶段，设定迭代次数阈值；

对所述训练样本的复杂度等级K进行遮掩，得到遮掩后的训练样本，所述遮掩后的训练样本的序列形式为[CLS]W₁W₂W₃...W_n[SEP][LEVEL]；

基于预训练的原生Bert模型，对遮掩后的训练样本中的[LEVEL]对应位置的文本进行预测，得到预测候选词K对应的概率；

基于预测候选词K对应的概率，计算损失函数，并对预训练的原生Bert模型进行参数更新；

当训练次数达到迭代次数阈值时，完成模型训练，得到训练好的复杂度分级模型。

可选地，所述对初始待分级文本进行预处理，得到预处理后的待分级文本，包括：

将初始待分级文本的序列形式修改为[CLS]T₁T₂T₃...T_m[SEP][LEVEL]，得到预处理后的待分级文本，其中，T₁T₂T₃...T_m为初始待分级文本。

可选地，所述将预处理后的待分级文本输入到训练好的复杂度分级模型中，得到所述待分级文本对应的复杂度等级，包括：

将预处理后的待分级文本输入到训练好的复杂度分级模型中，预测所述预处理后的待分级文本中的[LEVEL]对应的词J，将预测得到的词J确定为所述待分级文本对应的复杂度等级。

另一方面，提供了一种基于原生Bert架构的文本分级装置，该装置应用于基于原生Bert架构的文本分级方法，该装置包括：

增加模块，用于在预训练的原生Bert模型的词表中，增加一个新的特殊标记[LEVEL]；

预处理模块，用于获取初始训练样本，对所述初始训练样本进行预处理，得到预处理后的训练样本，所述训练样本的序列形式为[CLS]W₁W₂W₃...W_n[SEP]K，其中，W₁W₂W₃...W_n表示训练样本的文本，K表示训练样本的特殊标记[LEVEL]的参数值，即训练样本对应的复杂度等级；

训练模块，用于基于所述训练样本，对预训练的原生Bert模型进行fine-tuning训练，得到训练好的复杂度分级模型；

分级模块，用于对初始待分级文本进行预处理，得到预处理后的待分级文本，将所述待分级文本输入到训练好的复杂度分级模型中，得到所述初始待分级文本对应的复杂度等级。

可选地，所述新的特殊标记[LEVEL] 的参数量为hidden_size。

可选地，所述训练模块，用于：

在fine-tuning训练阶段，设定迭代次数阈值；

可选地，所述预处理模块，用于：

可选地，所述分级模块，用于：

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于原生Bert架构的文本分级方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于原生Bert架构的文本分级方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

该方法完全基于原生Bert的架构和训练方法，没有新增结构，减少了复杂度的引入，同时对问题的解决更加简洁。而且，在效果相当的基础上，也减少了参数了，只新增了hidden_size个参数, 只相当于原方法的1/level_num，且不随level_num的增加而增加，这样，方案更加高效和低碳。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于原生Bert架构的文本分级方法流程图；

图2是本发明实施例提供的一种基于原生Bert架构的文本分级装置框图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于原生Bert架构的文本分级方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的基于原生Bert架构的文本分级方法流程图，该方法的处理流程可以包括如下的步骤：

S1、在预训练的原生Bert模型的词表中，增加一个新的特殊标记[LEVEL]。

其中，新的特殊标记[LEVEL] 的参数量为hidden_size。新的特殊标记[LEVEL]的参数值用于表示待分级文本的等级，参数值可以是预先设定好的、具有序列性质的文本，例如，可以是1、2、3、4、5、……、n，也可以是一、二、三、四、……、等级上限等，本发明对此不作限定。

为了不增加参数量，可以选择原生Bert模型的词表中的文本作为特殊标记[LEVEL]的参数值。

S2、获取初始训练样本，对初始训练样本进行预处理，得到预处理后的训练样本。

其中，训练样本的序列形式为[CLS]W₁W₂W₃...W_n[SEP]K，W₁W₂W₃...W_n表示训练样本的文本，K表示训练样本的特殊标记[LEVEL]的参数值，即训练样本对应的复杂度等级。

一种可行的实施方式中，在当前的Bert模型中，先进行词嵌入，即Embedding。Bert的Embedding由三种Embedding求和而成，分别为Token Embeddings、Segment Embeddings以及Position Embeddings。

Token embedding 层是要将各个词转换成固定维度的向量。在Bert中，每个词会被转换成768维的向量表示。

输入文本在送入token embeddings 层之前要先进行tokenization处理。假设输入文本是：“Beijing is a beautiful city”，在token embeddings层会将两个特殊的token插入到tokenization的结果的开头 (即[CLS])和结尾 (即[SEP])。这两个token为后面的分类任务和划分句子对服务的。

本发明通过上述步骤S1增加了一个新的特殊标记[LEVEL]，该新的特殊标记[LEVEL]也是类似[CLS]以及[SEP]的token，在进行tokenization处理时，不仅在输入文本中插入[CLS]和[SEP]，而且在[SEP]之后插入特殊标记[LEVEL]，该特殊标记[LEVEL]是用于标定文本的等级，例如初始训练样本的等级为K，则可以将初始训练样本预处理成序列形式为[CLS]W₁W₂W₃...W_n[SEP]K的训练样本，进而通过预处理后的训练样本对模型进行训练。

S3、基于训练样本，对预训练的原生Bert模型进行fine-tuning训练，得到训练好的复杂度分级模型。

一种可行的实施方式中，训练的过程可以包括如下步骤S31-S34：

S31、在fine-tuning训练阶段，设定迭代次数阈值。

一种可行的实施方式中，当前的原生Bert模型通常采用预训练的方式，这样用户在自行训练时进行微调（即fine-tuning）即可。

在fine-tuning训练阶段，随机初始化训练样本中的[LEVEL]的向量，原生Bert模型包含一个词表，词表中大约包括30000多个词，每个词对应一个向量，向量代表一个语义空间，[LEVEL]同样对应一个向量，将[LEVEL]的向量随机初始化，具体的初始化过程属于现有技术中常用的技术手段，此处不做赘述。

设定迭代次数阈值，迭代次数阈值表示训练过程的迭代次数。

S32、对训练样本的复杂度等级K进行遮掩，得到遮掩后的训练样本。

其中，遮掩后的训练样本的序列形式为[CLS]W₁W₂W₃...W_n[SEP][LEVEL]。

一种可行的实施方式中，本发明实施例采用的训练机制与MLM（Masked LanguageModel，掩蔽文本预测模型）训练机制的逻辑基本一致，但与现有技术中常用的MLM训练机制有所区别的是，现有技术中的MLM训练机制是对训练样本中的词进行随机遮掩，即随机选取词将其替换为[mask]；但本发明实施例只对训练样本的序列形式 [CLS]W₁W₂W₃...W_n[SEP]K中的K进行遮掩，将K替换为[LEVEL]。

S33、基于预训练的原生Bert模型，对遮掩后的训练样本中的[LEVEL]对应位置的文本进行预测，得到预测候选词对应的概率。

一种可行的实施方式中，该训练过程的逻辑与MLM（Masked Language Model，掩蔽文本预测模型）的逻辑基本一致，对被遮掩的[LEVEL]对应的文本（也可称为[LEVEL]对应的参数值）进行预测，得到多个预测候选词以及每个预测候选词对应的概率。

S34、基于预测候选词对应的概率以及训练样本的特殊标记[LEVEL]的参数值，计算损失函数，并对预训练的原生Bert模型进行参数更新。

一种可行的实施方式中，确定每个预测候选词对应的概率后，根据每个预测候选词对应的概率以及训练样本被掩蔽的文本（即特殊标记[LEVEL]的参数值），计算损失函数，进而对原生Bert模型进行参数更新。举例来说训练样本的真值为K，即样本对应的文本等级为K，因此，在模型训练时希望[LEVEL]部分对应的预测词为K，进而进行相应loss计算和参数更新。

需要说明的是，本发明用到的损失函数与现有技术中训练Bert模型常用的损失函数是同样的，进而，根据每个预测候选词对应的概率以及训练样本被掩蔽的文本计算损失函数的方式与现有技术是同样的，故此，本发明对具体的损失函数以及计算损失函数的原理不做赘述。

S35、当训练次数达到迭代次数阈值时，完成模型训练，得到训练好的复杂度分级模型。

一种可行的实施方式中，当训练次数达到步骤31预设的迭代次数阈值时，停止对模型的训练，将当前的参数值确定为训练完毕的模型的参数值，将该训练完毕的模型确定为复杂度分级模型。

S4、对初始待分级文本进行预处理，得到预处理后的待分级文本，将待分级文本输入到训练好的复杂度分级模型中，得到初始待分级文本对应的复杂度等级。

可选地，使用训练好的复杂度分级模型对初始待分级文本进行分级的步骤可以包括下述步骤S41-S42：

S41、将初始待分级文本的序列形式修改为[CLS]T₁T₂T₃...T_m[SEP][LEVEL]，得到预处理后的待分级文本，其中，T₁T₂T₃...T_m为初始待分级文本。

一种可行的实施方式中，在初始待分级文本上添加标记，[CLS]加在句子的开头，[SEP]加在句子的末尾，[LEVEL]加在标记[SEP]的后边。

S42、将预处理后的待分级文本输入到训练好的复杂度分级模型中，预测预处理后的待分级文本中的[LEVEL]对应的词J，将预测得到的词J确定为待分级文本对应的复杂度等级。

本发明实施例中，该方法完全基于原生Bert的架构和训练方法，没有新增结构，减少了复杂度的引入，同时对问题的解决更加简洁。而且，在效果相当的基础上，也减少了参数了，只新增了hidden_size个参数, 只相当于原方法的1/level_num，且不随level_num的增加而增加，这样，更加简洁的将Bert模型应应用到文本分级任务中，减少参数量，降低模型复杂度。

图2是根据一示例性实施例示出的一种基于原生Bert架构的文本分级装置200。参照图2，该装置200包括增加模块210、预处理模块220、训练模块230以及分级模块240，其中：

增加模块210，用于在预训练的原生Bert模型的词表中，增加一个新的特殊标记[LEVEL]；

预处理模块220，用于获取初始训练样本，对所述初始训练样本进行预处理，得到预处理后的训练样本，所述训练样本的序列形式为[CLS]W₁W₂W₃...W_n[SEP]K，其中，W₁W₂W₃...W_n表示训练样本的文本，K表示训练样本的特殊标记[LEVEL]的参数值，即训练样本对应的复杂度等级；

训练模块230，用于基于所述训练样本，对预训练的原生Bert模型进行fine-tuning训练，得到训练好的复杂度分级模型；

分级模块240，用于对初始待分级文本进行预处理，得到预处理后的待分级文本，将所述待分级文本输入到训练好的复杂度分级模型中，得到所述初始待分级文本对应的复杂度等级。

可选地，所述新的特殊标记[LEVEL] 的参数量为hidden_size。

可选地，所述训练模块230，进一步用于：

在fine-tuning训练阶段，设定迭代次数阈值；

可选地，所述分级模块240，进一步用于：

图3是本发明实施例提供的一种电子设备300的结构示意图，该电子设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）301和一个或一个以上的存储器302，其中，所述存储器302中存储有至少一条指令，所述至少一条指令由所述处理器301加载并执行以实现上述基于原生Bert架构的文本分级方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于原生Bert架构的文本分级方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于原生Bert架构的文本分级方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述新的特殊标记[LEVEL] 的参数量为hidden_size。

3.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本，对预训练的原生Bert模型进行fine-tuning训练，得到训练好的复杂度分级模型，包括：

在fine-tuning训练阶段，设定迭代次数阈值；

4.根据权利要求1所述的方法，其特征在于，所述对初始待分级文本进行预处理，得到预处理后的待分级文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述待分级文本输入到训练好的复杂度分级模型中，得到所述初始待分级文本对应的复杂度等级，包括：

6.一种基于原生Bert架构的文本分级装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述新的特殊标记[LEVEL] 的参数量为hidden_size。

8.根据权利要求6所述的装置，其特征在于，所述训练模块，进一步用于：

在fine-tuning训练阶段，设定迭代次数阈值；

9.根据权利要求6所述的装置，其特征在于，所述预处理模块，进一步用于：

10.根据权利要求9所述的装置，其特征在于，所述分级模块，进一步用于：