CN115687627A

CN115687627A - 一种基于注意力机制的两步式轻量级文本分类方法

Info

Publication number: CN115687627A
Application number: CN202211577299.8A
Authority: CN
Inventors: 尹春勇; 徐朋
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-02-03

Abstract

本发明公开了一种基于注意力机制的两步式轻量级文本分类方法，涉及文本分类技术领域，适用于部署在边缘设置中，利用一种堆叠式的轻量级循环神经网络，该网络是一种特殊的循环神经网络，可以全面地学习到输入的文本数据之间的关系；在保证模型准确率的同时，也保证了模型的轻量性；一方面利用轻量级的循环神经网络来探索文本数据的关系，避免了梯度消失和梯度爆炸问题的发生；同时也利用自注意力机制和通道注意力机制，结合轻量级循环神经网络来进一步探索文本数据之间的关系，一定程度上克服了模型模糊边界的问题，因此本文本分类方法具有更高的分类效率和更高的分类准确率。

Description

一种基于注意力机制的两步式轻量级文本分类方法

技术领域

本发明涉及文本分类技术领域，特别是涉及一种基于注意力机制的两步式轻量级文本分类方法。

背景技术

文本分类是各种自然语言处理（Natural Language Processing，NLP）应用中的基本任务之一，如情感分析、话题标签以及问题回答，尽管已证明有多种方法在监督文本分类中取得了成功，但在应用于对没有标记训练数据的增量新兴类别进行预测时，它们往往会失效；文本分类的标准范式依赖于监督学习，众所周知，标记数据的大小和质量将会强烈影响其性能。

递归神经网络（Recurrent Neural Network，RNN）具有对可变长度的连续数据进行建模的能力，已被广泛应用于解决文本分类问题，在应用RNN对文本数据的语义进行分类时，有两个关键的技术挑战。

首先，文本的长度从几十到几千字不等，对于长的文本数据，由于梯度爆炸和消失的问题，RNN的有效性会受到影响；其次，文本数据通常是分层结构，理解其实际语义需要融合来自不同颗粒度的文本成分的信息，即单词、短语以及句子；虽然明确地对原始文本的层次信息进行建模会对分类的准确性产生有益的影响，但RNN本质上涉及的是按顺序排列的普通结构，因此对捕捉文本数据中的层次信息是有限的。

为了解决第一个挑战，人们提出了各种方法来捕捉长文本中单词之间的长期依赖关系，其中一种尝试是长短期记忆（Long Short-Term Memory，LSTM）和门控循环单元（GateRecurrent Unit，GRU）中使用的门限机制，与普通的RNN相比，闸门使递归架构能够保持相对较长的记忆，从而促进长期依赖关系的学习；另一种尝试是试图修改不同步骤之间的连接拓扑结构，关键的想法是增加从早期步骤到后期步骤的跳过连接，以便通过超越中间步骤来实现更好的信息和梯度流动；在实践中，使用梯度规范剪裁策略可以大大克服爆炸性梯度问题，但梯度消失问题仍有待解决。

基于Transformer的预训练语言模型的出现，如BERT模型（BidirectionalEncoder Representation from Transformers）重塑了自然语言处理的格局，使得大多数自然语言处理任务的性能显著提高，包括文本分类；这些模型通常依赖于在通用掩蔽语言建模(Masked Language Modeling ，MLM)任务上用大规模异构语料库进行的预训练，即预测在原始文本中被掩蔽的单词。

最近最流行的文本分类方法是基于图的模型，如TextGCN，它首先在语料库上诱导出一个合成的词-文档共现图，随后应用图神经网络（Graph Neural Network，GNN）来执行分类任务；除TextGCN外，还有HeteGCN、TensorGCN以及HyperGAT等后续作品，我们统称为基于图的模型。

在对文本类型进行分类时，计算机处理每一段文本的时间过长，就会导致效率太低，分析文本类型的时间将显示不出计算机分析文本的优势；目前大多数利用计算机进行文本分类所取得的分类准确率都不够高，很多类似的文类类型，计算机模型很容易判断错误，从而导致准确率较低。

发明内容

为了解决以上技术问题，本发明提供一种基于注意力机制的两步式轻量级文本分类方法，包括以下步骤

S1、对文本数据进行预处理，将文本数据转为词向量X={X_i,i=1,2,…,n},其中，X_i表示每一段文本数据的词向量；

S2、将所有词向量及其对应标签进行打乱，且对预处理后的数据进行划分；

S3、搭建轻量级文本分类模型，并对模型参数进行随机初始化；

S4、设置轻量级文本分类模型的超参数，对轻量级文本分类模型进行训练，获得模型最优参数，保留模型最优参数后对轻量级文本分类模型进行测试；

S5、在轻量级文本分类模型中输入未知类别的文本数据，实现自动分类；

步骤S3具体包括以下步骤

S3.1、将每段文本的词向量分成m个等长且长度为k的片段，每个长度为k的片段都对应一个循环神经网络模型，且每一片段作为对应循环神经网络模型的输入；循环神经网络模型共设有两层，第一层包括三个循环神经网络模型，且第一层的相邻循环神经网络模型之间均设有用于提高模型训练精度的自注意力机制，第二层包括一个循环神经网络模型；

S3.2、将第一层所有循环神经网络模型的输出结果汇聚到第二层的循环神经网络模型中；第一层的循环神经网络模型的输出设置如下，

其中,

表示第一层的循环神经网络模型，β1,i表示每一段文本经过

后的输出结果；

S3.3、将第一层所有循环神经网络模型的输出结果输入到第二层的循环神经网络模型中；第二层的循环神经网络模型的输出设置如下，

其中，

表示第二层的循环神经网络模型，

表示自注意力机制，β_2,i表示第二层循环神经网络模型的输出结果；

S3.4、将第二层循环神经网络模型的输出结果输入到通道注意力机制中，最后得到输出结果，输出设置如下，

其中，σ表示通道注意力机制，Out表示输出结果；

S3.5、将通道注意力机制的输出结果输入到分类器中进行分类。

本发明进一步限定的技术方案是：

进一步的，步骤S1中，通过词嵌入方法Embedding对文本进行处理，将文本数据转为词向量。

前所述的一种基于注意力机制的两步式轻量级文本分类方法，步骤S2包括以下步骤

S2.1、将每段文本的词向量及其对应标签组成的数据集进行打乱；

S2.2、对数据集进行划分，将其划分为训练集、测试集以及验证集。

前所述的一种基于注意力机制的两步式轻量级文本分类方法，步骤S2.2中训练集、测试集以及验证集在数据集中的占比设置为3：1：1。

前所述的一种基于注意力机制的两步式轻量级文本分类方法，步骤S3.1中，每段文本的词向量长度设置为320，m设置为10，k设置为32。

前所述的一种基于注意力机制的两步式轻量级文本分类方法，步骤S3.1中，循环神经网络模型的神经元个数设置为320。

前所述的一种基于注意力机制的两步式轻量级文本分类方法，步骤S3.5中，分类器由三层全连接层构成，每一个全连接层中的dropout层设置的dropout rate为0.3。

前所述的一种基于注意力机制的两步式轻量级文本分类方法，步骤S4包括以下不走

S4.1、设置轻量级文本分类模型的相关超参数，将模型训练次数Epoch设置为10，将模型训练批次batch_size设置为256；

S4.2、将训练集的数据输入到搭建好的轻量级文本分类模型中进行训练，并用验证集对轻量级文本分类模型的文本分类准确率进行检测，验证集则用来观察轻量级文本分类模型是否会出现过拟合或欠拟合的问题；最后获取轻量级文本分类模型的最优参数；

S4.3、训练完成后保留模型参数，输入测试集进行测试。

前所述的一种基于注意力机制的两步式轻量级文本分类方法，步骤S4中，轻量级文本分类模型训练时使用的优化器设置为Adam优化器。

前所述的一种基于注意力机制的两步式轻量级文本分类方法，步骤S4中，轻量级文本分类模型中损失函数设置为sparse categorical crossentropy损失函数。

本发明的有益效果是：

（1）本发明中，设计了一种轻量级的文本分类方法，适用于部署在边缘设置中，利用一种堆叠式的轻量级循环神经网络，该网络是一种特殊的循环神经网络，它可以全面地学习到输入的文本数据之间的关系；在保证模型准确率的同时，也保证了模型的轻量性；

（2）本发明中，一方面利用轻量级的循环神经网络来探索文本数据的关系，避免了梯度消失和梯度爆炸问题的发生；同时也利用自注意力机制和通道注意力机制，结合轻量级循环神经网络来进一步探索文本数据之间的关系，一定程度上克服了模型模糊边界的问题，因此本文本分类方法具有更高的分类效率和更高的分类准确率。

附图说明

图1为本发明实施例中轻量级文本分类方法的结构示意图。

具体实施方式

本实施例提供的一种基于注意力机制的两步式轻量级文本分类方法，如图1所示，包括以下步骤

S1、由于不同文本的长度不一致，因此在数据预处理阶段，需要利用词嵌入方法Embedding对文本进行处理，将文本数据转为词向量X={X_i,i=1,2,…,n},其中，X_i表示每一段文本数据的词向量。

S2、将所有词向量及其对应标签进行打乱，且对预处理后的数据进行划分；步骤S2具体包括以下分步骤

S2.1、将每段文本的词向量及其对应标签组成的数据集进行打乱，防止模型在训练的过程中出现过拟合的问题；

S2.2、对数据集进行划分，将其划分为训练集、测试集以及验证集，且三者的占比为3：1：1。

S3、搭建轻量级文本分类模型，并对模型参数进行随机初始化；步骤S3具体包括以下分步骤

S3.1、将每段文本的词向量分成m个等长且长度为k的片段，每个长度为k的片段都对应一个循环神经网络模型（Recurrent Neural Networks,RNN），且每一片段作为对应循环神经网络模型的输入；每段文本的词向量长度设置为320，m设置为10，k设置为32，同时循环神经网络模型的神经元个数设置为320；

循环神经网络模型共设有两层，第一层包括三个循环神经网络模型，第二层包括一个循环神经网络模型；在循环神经网络模型之间，利用自注意力机制来提高模型的训练精度；

S3.2、将第一层所有循环神经网络模型的输出大小设置为32，且将输出结果汇聚到第二层的循环神经网络模型中；第一层的循环神经网络模型的输出设置如下，

其中,

表示第一层的循环神经网络模型，β_1,i表示每一段文本经过

后的输出结果；

其中，

表示第二层的循环神经网络模型，

其中，σ表示通道注意力机制，Out表示输出结果；

S3.5、将通道注意力机制的输出结果输入到分类器中进行分类，分类器由三层全连接层构成，每一个全连接层中的dropout层设置的dropout rate为0.3。

S4、设置轻量级文本分类模型的超参数，对轻量级文本分类模型进行训练，获得模型最优参数，保留模型最优参数后对轻量级文本分类模型进行测试；步骤S4具体包括以下分步骤

S4.1、设置轻量级文本分类模型的相关超参数，将模型训练次数Epoch设置为10，将模型训练批次batch_size设置为256，训练时使用的优化器设置为Adam优化器，损失函数设置为sparse categorical crossentropy损失函数；

S4.3、训练完成后保留模型参数，输入测试集进行测试。

S5、在轻量级文本分类模型中输入未知类别的文本数据，实现自动分类。

本发明利用一种轻量级的循环神经网络模型结合注意力机制建立了两步式轻量级文本分类方法，该方法中轻量级循环神经网络主要是一种堆叠式的循环神经网络，两步式法主要体现在：一、利用轻量级循环神经网络结合自注意力机制进行模型训练；二、结合通道注意力机制进行分类。

从而可以全面地学习到输入的文本数据之间的关系；在保证模型准确率的同时，也保证了模型的轻量性；一方面利用轻量级的循环神经网络来探索文本数据的关系，避免了梯度消失和梯度爆炸问题的发生；同时也利用自注意力机制和通道注意力机制，结合轻量级循环神经网络来进一步探索文本数据之间的关系，一定程度上克服了模型模糊边界的问题，因此本文本分类方法具有更高的分类效率和更高的分类准确率。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。