CN113220892A

CN113220892A - 基于bert的自适应文本分类方法及装置

Info

Publication number: CN113220892A
Application number: CN202110658382.7A
Authority: CN
Inventors: 李寿山; 陆文捷; 张栋; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-08-06

Abstract

本申请涉及一种基于BERT的自适应文本分类方法及装置，属于中文信息处理技术领域，包括：获取语料样本数据并对语料样本数据进行预处理；构建预设网络模型；将所述预处理后的样本数据输入预设的网络模型，并使用预设的损失函数进行监督训练，得到分类模型；设置所述分类模型的输出阈值，得到设置后的分类模型，所述输出阈值控制分类结果的提前输出，所述设置后的分类模型用于对输入的文本进行分类。相较于传统的BERT模型，可在不损失精度的情况下，缩短模型推理时间。

Description

基于BERT的自适应文本分类方法及装置

技术领域

本申请涉及中文文本智能处理技术，更具体地说，本申请涉及一种基于BERT的自适应文本分类方法及装置。

背景技术

文本分类在文本处理中是很重要的一个模块，它的应用也非常广泛，比如：垃圾过滤、新闻分类、词性标注等。文本分类的核心方法为，首先提取分类数据的特征，然后选择最优的匹配，从而分类。文本分类问题是自然语言处理领域中一个非常经典的问题，相关研究最早可以追溯专家规则进行分类，但费时费力，覆盖的范围和准确率都非常有限。

后来伴随着统计学习方法的发展，特别是90年代后互联网在线文本数量增长和机器学习学科的兴起，逐渐形成了人工特征工程结合浅层分类建模流程。传统做法的文本表示的主要问题在于高纬度高稀疏，特征表示能力很弱，此外需要人工进行特征工程，成本很高。而深度学习最初在图像和语音领域取得了巨大成功，也相应推动了深度学习在NLP上的发展，使得深度学习的模型在文本分类上也取得了不错的效果。然而，大多数模型都需要建立在极强的计算力基础之上，模型分类速度慢，使得很难应用于工程化项目中。

发明内容

本申请的目的是解决上述技术问题。本申请提供了一种基于BERT的自适应文本分类方法，极大地提高了模型的分类速度。本申请提供如下技术方案：

第一方面，提供一种基于BERT的自适应文本分类方法，其包括：

获取语料样本数据并对语料样本数据进行预处理，得到预处理后的样本数据；

构建预设网络模型，所述预设网络模型包括主干部分和分支部分，所述主干部分由BERT-base网络和一个主干分类器构成，所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成，所述主干分类器和分支分类器可进行文本分类；

将所述预处理后的样本数据输入预设的网络模型，并使用预设的损失函数进行监督训练，得到分类模型；

设置所述分类模型的输出阈值，得到设置后的分类模型，所述输出阈值控制分类结果的提前输出，所述设置后的分类模型用于对输入的文本进行分类。

可选地，其中对所述语料样本数据进行预处理包括：

将所有语料样本中的文本序列截断为预设的最大长度；

将所述文本序列中的每条文本开头插入[CLS]，结尾插入[SEP]，得到所述预处理后的样本数据。

可选地，其中所述的主干分类器和分支分类器包括：多头自注意力层，以及与所述多头自注意力层相连的线性分类层。

可选地，其中所述输出阈值控制分类结果的提前输出包括：当数据经过分支分类器时计算分类结果，并计算分类结果不确定性程度值，当不确定性程度值低于输出阈值规则时输出分类结果并停止执行。

可选地，其中所述预设的损失函数为：

其中，为第i个分支分类器的分类结果，p_t为主干分类器的分类结果，L为所有分类器的个数。

可选地，其中所述不确定性程度值通过下述公式得出：

其中N为分类的类别数量，为第i个分支分类器的分类结果。

第二方面，提供一种基于BERT的自适应文本分类装置，包括：

样本预处理模块，用于对语料样本数据进行预处理；

模型构建模块，用于构建基于BERT的自适应快速文本分类模型；

模型训练模块，用于训练基于BERT的自适应快速文本分类模型。

本申请的有益效果至少包括：根据设定的提前输出阈值，并根据每层分类器分类结果的不确定度程度值自适应地判断输入的待分类文本应该在网络的哪一层输出，而不必走完整个网络模型。因此，相较于传统的BERT模型，可在不损失精度的情况下，缩短模型分类时间。

本申请的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

通过结合附图对于本申请的示例性实施例进行描述，可以更好地理解本申请，在附图中：

图1是本申请一个实施例提供的基于BERT的自适应文本分类方法的流程图；

图2是本申请一个实施例提供的基于BERT的预设网络结构示意图；

图3是本申请一个实施例提供的基于BERT的自适应文本分类装置的框图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述，以令本领域技术人员参照说明书文字能够据以实施。

需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请的内容不充分。

首先，对本申请涉及的若干名词进行介绍。

BERT(Bidirectional Encoder Representations from Transformers)是google在2018年提出的一种预训练语言表示的方法，他将NLP模型的建立分为预训练和微调两个阶段。预训练是为了在大量文本语料上训练一个通用的“语言理解”模型，然后用这个模型去执行想做的NLP任务。微调则是在具体的NLP任务上进行相应的微调学习。BERT模型结构主要采用了transformer的编码结构，其主要创新点在于其采用了以下两种训练方法：一是在训练双向语言模型时，以减少的概率把少量的词替换成Mask或者另一个随机的词；二是增加了一个预测下一句的loss，迫使模型学习到句子之间的关系。BERT自提出后，凭借Transformer强大的特征学习能力以及通过掩码语言模型实现的双向编码，其大幅地提高了各项NLP任务的基准表现。

然而，BERT预处理模型功能需要建立在极强的计算力基础之上，模型分类速度慢，使得BERT很难应用于工程化项目中。本发明提供了一种新颖的具有自适应机制的文本分类方法，在确保模型性能的前提下，极大地提高了模型的分类速度。

图1是本申请一个实施例提供的基于BERT的自适应文本分类方法的流程图。该方法至少包括以下几个步骤：

步骤S101，获取语料样本数据并对语料样本数据进行预处理，得到预处理后的样本数据。

将所有文本序列截断为预设的最大长度，并建立标签字典，将所有标签转换为数字标签。将每条文本开头插入[CLS]，结尾插入[SEP]，使得每条文本序列以[CLS]开头，以[SEP]结尾，最后将处理后的文本序列转换为可以输入模型的特征向量。

步骤S102，构建预设网络模型，所述预设网络模型包括主干部分和分支部分，所述主干部分由BERT-base网络和一个主干分类器构成，所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成，所述主干分类器和分支分类器可进行文本分类。

示意性地，如图2所示，预设网络模型主要由12层Transformer组成，其中Transformer包括用于获取序列特征的多头注意力层、用于非线性变换的前馈传播层和两个用于归一化的加和标准化层；在多头注意力层和前馈传播层的输出位置构建加和标准化层，前馈传播层位于多头注意力层之后，每一层Transformer网络的输出直接作为下一层Transformer网络的输入。

示意性地，如图2所示，在预设网络模型中的embedding层和前11层Transformer后都添加一个分支分类器。在最后一层Transformer添加主干分类器。主干分类器和分支分类器包括多头自注意力层，以及与多头自注意力层相连的线性分类层。

步骤S103，将所述预处理后的样本数据输入预设的网络模型，并使用预设的损失函数进行监督训练，得到分类模型。

训练过程包括：将预设的网络模型基于训练样本进行训练，先让主干分类器学习文本分类任务，然后使分支分类器拟合主干分类器，让网络最终收敛。预设的损失函数具体公式如下：

其中，

为第i个分支分类器的分类结果，p_t为主干分类器的分类结果，L为所有分类器的个数。

示意性地，在训练前用BERT预训练模型初始化参数。在训练时，将文本进行预处理后，所有文本序列被统一裁剪为长度不大于128的序列。设初始的学习率为0.00002。使用Adam（Adaptive Moment Estimation）优化器来优化网络的参数。批的大小设为32。为了防止过拟合，使用Dropout随机忽略全连接层的部分神经元。

步骤S104，设置所述分类模型的输出阈值，得到设置后的分类模型，所述输出阈值控制分类结果的提前输出，所述设置后的分类模型用于对输入的文本进行分类。

输出阈值控制分类结果的提前输出过程为：当数据经过分支分类器时计算分类结果，并计算分类结果不确定性程度值，当不确定性程度值低于输出阈值规则时输出分类结果并停止执行。

不确定性程度值计算公式为：

其中N为分类的类别数量，

为第i个分支分类器的分类结果。

可选地，可以使用测试数据对模型进行测试，参考下表1所示为基本BERT模型与本申请结合不同提前输出阈值后的比较。在保证模型性能的前提下，本申请的分类时间至多能降低到BERT基本模型的十分之一，极大地提升了模型的分类速度。

表1

使用模型	准确率acc/%	单样本推理时间
			基本BERT	97.17	4.64ms
BERT自适应模型阈值=0.3	97.33	0.79ms
			BERT自适应模型阈值=0.5	97.33	0.42ms

图3是基于BERT的自适应文本分类装置的框图。该装置至少包括以下几个模块：样本预处理模块310、模型构建模块320、模型训练模块330。

样本预处理模块310：用于对语料样本数据进行预处理；

模型构建模块320：用于构建基于BERT的自适应快速文本分类模型；

模型训练模块330：用于训练基于BERT的自适应快速文本分类模型

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本申请的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。

因此，本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本申请，并且存储有这样的程序产品的存储介质也构成本申请。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本申请的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种基于BERT的自适应文本分类方法，其包括：

2.根据权利要求1所述的方法，其中对所述语料样本数据进行预处理包括：

将所有语料样本中的文本序列截断为预设的最大长度；

3.根据权利要求1所述的方法，其中所述的主干分类器和分支分类器包括：多头自注意力层，以及与所述多头自注意力层相连的线性分类层。

4.根据权利要求1所述的方法，其中所述输出阈值控制分类结果的提前输出包括：当数据经过分支分类器时计算分类结果，并计算分类结果不确定性程度值，当不确定性程度值低于输出阈值规则时输出分类结果并停止执行。

5.根据利要求1所述的方法，其中所述预设的损失函数为：

其中，

6.根据权利要求1所述的方法，其中所述不确定性程度值通过下述公式得出：

其中N为分类的类别数量，

为第i个分支分类器的分类结果。

7.一种基于BERT的自适应文本分类装置，包括：

样本预处理模块，用于对语料样本数据进行预处理；