CN113095079A

CN113095079A - 基于bert的自适应分层输出的中文分词方法

Info

Publication number: CN113095079A
Application number: CN202110617100.9A
Authority: CN
Inventors: 李寿山; 俞旸; 张栋; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-07-09

Abstract

本申请涉及一种基于BERT的自适应分层输出的中文分词方法，属于中文信息处理技术领域。该方法包括：对已标注的样本数据进行预处理，得到预处理后的文本序列和标签序列；将预处理后的文本序列输入预设的网络模型，并使用预设的损失函数和预处理后的标签序列对网络模型进行监督训练，得到主干模型；冻结主干网络模型参数，在模型的每一层后添加一个预设的分类器模型，逐层使用预设的损失函数和预处理后的标签序列对分类器进行监督训练，得到蒸馏模型；根据预设的速度调节方法，使用蒸馏模型对输入数据生成中文分词结果。相较于传统的BERT模型，可在不损失精度甚至提升精度的情况下，缩短模型推理时间。

Description

基于BERT的自适应分层输出的中文分词方法

技术领域

本申请涉及中文文本智能处理技术，更具体地说，本申请涉及一种基于BERT的自适应分层输出的中文分词方法。

背景技术

中文分词问题是一个基础而又重要的研究课题。现代许多自然语言处理领域的应用，如机器翻译、自动文摘、信息抽取、语音识别等，都建立在分词技术的基础上。在上述等诸多任务中，中文分词往往是第一步操作。因此，中文分词的质量好坏往往直接影响着后续工作或高层任务的性能表现。

目前，中文分词任务的处理思路主要有3种：基于词典的方法（机械分词）、基于传统机器学习的方法和基于深度神经网络模型的方法。现有的深度神经网络模型已可以在中文分词任务上取得较好的表现，但是由于模型运行速度慢，并没有得到大规模实际应用。

发明内容

本申请的目的是解决上述技术问题。本申请提供了一种基于BERT的自适应分层输出的中文分词方法，可以自适应地判断输入样本应该在网络的哪一层输出，而不必全部走完整个网络模型。相较于传统的BERT模型，可在不损失精度甚至提升精度的情况下，缩短模型推理时间。本申请提供如下技术方案：

获取多组已标注的样本数据，每份样本数据包含一句以词语为单位间隔开的中文文本；

对所述样本数据进行预处理，得到预处理后的文本序列和标签序列；

将所述预处理后的文本序列输入预设的网络模型，并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练，得到主干模型；

冻结所述主干网络模型参数，在模型的每一层后添加一个预设的分类器模型，逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练，得到蒸馏模型；

根据预设的速度调节方法，使用所述蒸馏模型对输入数据生成中文分词结果。

可选地，其中对所述样本数据进行预处理包括：

解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置，位置分为词首、词中、词尾、单独成词4种；

为每个字符打上对应的位置标签，即B（词首）、M（词中）、E（词尾）、S（单独成词）中的一种，得到所述预处理后的标签序列；

去除所述以词语为单位间隔开的中文文本中的空格，得到所述预处理后的文本序列。

可选地，其中所述预设的网络模型，包括：

BERT-base网络、与所述BERT-base网络相连的多头自注意力层，以及与所述多头自注意力层相连的线性分类层。

可选地，其中所述预设的分类器模型，包括：

多头自注意力层，以及与所述多头自注意力层相连的线性分类层。

可选地，其中所述预设的损失函数为：

其中，

为文本序列，

为标签序列，

为

中的字符，

为标签集合（包含B、M、E、S的集合），

为

中的标签，

表示字符

为

标签的真实概率，取值为0或1，

表示模型将字符

判断为

标签的概率。

可选地，其中所述预设的速度调节方法包括：

设定一个取值在0到1之间的阈值，若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时，则直接在该层输出结果，而不继续通过后续的模型。

可选地，所述模型结果的不确定度通过下式表示：

其中，

为文本序列，

为

中的字符，

为标签集合（包含B、M、E、S的集合），

为

中的标签，

表示第

层的分类器将字符

判断为

标签的概率。

可选地，其中所述方法还包括：

在训练得到所述主干模型和蒸馏模型后，使用测试集对所述主干模型和蒸馏模型进行测试，以确定所述主干模型和蒸馏模型的性能。

可选地，其中所述将预处理后的文本序列输入预设的网络模型，并使用预设的损失函数和所述样本数据的标签结果对所述网络模型进行监督训练，得到主干模型之前，还包括：

通过BERT-base预训练模型初始化参数。

本申请的有益效果至少包括：收集、整理多组以词语为单位间隔开的中文文本。接着对文本做预处理，根据每个字在词中的位置的不同，标记为B、M、E、S中的一种，得到标记序列，并将文本输入到包含BERT-base模型以及其后的多头自注意力层和线性分类层的主干模型中，取模型输出中概率最大的标签作为标注结果，即可得到模型的预测序列。使用文本和标记序列对主干模型进行训练，然后冻结主干模型参数，逐层训练主干模型每层后的分类器。设定阈值，根据每层分类器分类结果的不确定度自适应地判断输入样本应该在网络的哪一层输出，而不必走完整个网络模型。因此，相较于传统的BERT模型，可在不损失精度甚至提升精度的情况下，缩短模型推理时间。

本申请的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

通过结合附图对于本申请的示例性实施例进行描述，可以更好地理解本申请，在附图中：

图1是本申请一个实施例提供的基于BERT的自适应分层输出的中文分词方法的流程图；

图2是本申请一个实施例提供的主干模型和蒸馏模型的网络结构示意图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述，以令本领域技术人员参照说明书文字能够据以实施。

需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请的内容不充分。

首先，对本申请涉及的若干名词进行介绍。

BERT（Bidirectional Encoder Representations from Transformers）：是由谷歌研究团队的Devlin等于2018年提出的一种基于Transformer结构的语言表示模型。作为一个预训练模型，BERT的性能十分强大，一问世就刷新了11项自然语言处理领域任务的性能记录。BERT模型由输入层、堆叠的Transformer结构和输出层组成，其中最为关键便是堆叠的多个Transformer结构。根据包含的Transformer数量，BERT模型可分为BERT-base（12层）和BERT-large（24层）两种。Transformer模型是由谷歌研究团队的Vaswani等于2017年提出的一种编码器-解码器（Encoder-Decoder）结构的模型，现广泛应用于机器翻译等领域。BERT中堆叠的便是Transformer模型的编码器部分。Transformer模型中大量使用了自注意力（Self-Attention）机制和多头注意力（Multi-Head Attention）机制；前者可以充分捕捉序列内部的结构和依赖关系，比如常见代词指代的事物，后者则可以让模型关注到不同位置的不同表示子空间中的信息。Transformer模型也是第一个完全使用注意力（Attention）机制搭建的模型，摆脱了传统的编码器-解码器结构必须含有CNN或RNN的固定模式，既可以解决长期依赖问题，也可以很好地实现并行化计算。

图1是本申请一个实施例提供的基于BERT的自适应分层输出的中文分词方法的流程图。该方法至少包括以下几个步骤：

步骤S101，获取多组已标注的样本数据，每份样本数据包含一句以词语为单位间隔开的中文文本。

示意性地，可采用Ontonotes 5.0作为样本数据，划分为训练集、验证集和测试集。

步骤S102，对所述样本数据进行预处理，得到预处理后的文本序列和标签序列。

对样本数据进行预处理用以得到适配于网络模型的输入。

本实施例中，对样本数据进行预处理，得到预处理后的文本序列和标签序列，包括：解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置，位置分为词首、词中、词尾、单独成词4种；为每个字符打上对应的位置标签，即B（词首）、M（词中）、E（词尾）、S（单独成词）中的一种，得到所述预处理后的标签序列；去除所述以词语为单位间隔开的中文文本中的空格，得到所述预处理后的文本序列。

步骤S103，将所述预处理后的文本序列输入预设的网络模型，并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练，得到主干模型。

参考图2所示的预设的网络模型，主干模型包括：BERT-base网络、与BERT-base网络相连的多头自注意力层，以及与多头自注意力层相连的线性分类层。

本实施例中，在训练前，即本步骤前还要通过BERT-base预训练模型初始化参数。

在训练时，使用初始学习率（如0.00001）、使用Adam（Adaptive Moments）优化器来优化网络模型的网络参数，使用交叉熵（Cross Entropy）作为训练的损失函数，在训练集上迭代5次。

其中，所述预设的损失函数通过下式表示：

其中，

为文本序列，

为标签序列，

为

中的字符，

为标签集合（包含B、M、E、S的集合），

为

中的标签，

表示字符

为

标签的真实概率，取值为0或1，

表示模型将字符

判断为

标签的概率。

可选地，设置warm-up参数为0.1。

可选地，取模型输出概率最大的标签作为分类结果。

可选地，在训练得到主干模型后，使用测试集对中文分词模型进行测试，以确定分词模型的性能。

步骤S104，冻结所述主干网络模型参数，在模型的每一层后添加一个预设的分类器模型，逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练，得到蒸馏模型。

参考图2所示的预设的网络模型，分类器模型包括：多头自注意力层，以及与多头自注意力层相连的线性分类层。

训练过程与步骤3类似，每层的初始学习率设置为0.0005-0.005不等，在训练集上迭代3-15次不等。

步骤S105，根据预设的速度调节方法，使用所述蒸馏模型对输入数据生成中文分词结果。

本实施例中，预设的速度调节方法包括：设定一个取值在0到1之间的阈值，若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时，则直接在该层输出结果，而不继续通过后续的模型。模型结果的不确定度通过下式表示：

其中，

为文本序列，

为

中的字符，

为标签集合（包含B、M、E、S的集合），

为

中的标签，

表示第

层的分类器将字符

判断为

标签的概率。

可选地，在训练得到主干模型和蒸馏模型后，设定不同的阈值，使用测试集对中文分词模型进行测试，以确定分词模型的性能。

表1为不同方法、不同阈值在测试集上的性能比较，测试时批的大小统一设置为1。可以看出，相较于传统的BERT模型，基于BERT的自适应分层输出的中文分词方法可在不损失精度甚至提升精度的情况下，缩短模型推理时间。阈值设定为0.7时，仅用66%的时间，还可获得0.41%的性能提升。或者，能在仅轻微损失精度的情况下，获得更短的模型推理时间。阈值设定为0.8时，性能损失仅0.16%，推理时间缩短至56%。

表1

其中，运行时间为3次运行的平均值，F1值可综合考察模型的中文分词性能。

综上所述，本实施例提供的基于BERT的自适应分层输出的中文分词方法，收集、整理多组以词语为单位间隔开的中文文本。接着对文本做预处理，根据每个字在词中的位置的不同，标记为B、M、E、S中的一种，得到标记序列，并将文本输入到包含BERT-base模型以及其后的多头自注意力层和线性分类层的主干模型中，取模型输出中概率最大的标签作为标注结果，即可得到模型的预测序列。使用文本和标记序列对主干模型进行训练，然后冻结主干模型参数，逐层训练主干模型每层后的分类器。设定阈值，根据每层分类器分类结果的不确定度自适应地判断输入样本应该在网络的哪一层输出，而不必走完整个网络模型。因此，相较于传统的BERT模型，可在不损失精度甚至提升精度的情况下，缩短模型推理时间。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本申请的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。

因此，本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本申请，并且存储有这样的程序产品的存储介质也构成本申请。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本申请的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。