CN115687627A - 一种基于注意力机制的两步式轻量级文本分类方法 - Google Patents
一种基于注意力机制的两步式轻量级文本分类方法 Download PDFInfo
- Publication number
- CN115687627A CN115687627A CN202211577299.8A CN202211577299A CN115687627A CN 115687627 A CN115687627 A CN 115687627A CN 202211577299 A CN202211577299 A CN 202211577299A CN 115687627 A CN115687627 A CN 115687627A
- Authority
- CN
- China
- Prior art keywords
- model
- neural network
- lightweight
- text classification
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000000306 recurrent effect Effects 0.000 claims abstract description 49
- 238000003062 neural network model Methods 0.000 claims description 50
- 238000013145 classification model Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000003197 catalytic effect Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 16
- 230000008034 disappearance Effects 0.000 abstract description 4
- 238000004880 explosion Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于注意力机制的两步式轻量级文本分类方法,涉及文本分类技术领域,适用于部署在边缘设置中,利用一种堆叠式的轻量级循环神经网络,该网络是一种特殊的循环神经网络,可以全面地学习到输入的文本数据之间的关系;在保证模型准确率的同时,也保证了模型的轻量性;一方面利用轻量级的循环神经网络来探索文本数据的关系,避免了梯度消失和梯度爆炸问题的发生;同时也利用自注意力机制和通道注意力机制,结合轻量级循环神经网络来进一步探索文本数据之间的关系,一定程度上克服了模型模糊边界的问题,因此本文本分类方法具有更高的分类效率和更高的分类准确率。
Description
技术领域
本发明涉及文本分类技术领域,特别是涉及一种基于注意力机制的两步式轻量级文本分类方法。
背景技术
文本分类是各种自然语言处理(Natural Language Processing,NLP)应用中的基本任务之一,如情感分析、话题标签以及问题回答,尽管已证明有多种方法在监督文本分类中取得了成功,但在应用于对没有标记训练数据的增量新兴类别进行预测时,它们往往会失效;文本分类的标准范式依赖于监督学习,众所周知,标记数据的大小和质量将会强烈影响其性能。
递归神经网络(Recurrent Neural Network,RNN)具有对可变长度的连续数据进行建模的能力,已被广泛应用于解决文本分类问题,在应用RNN对文本数据的语义进行分类时,有两个关键的技术挑战。
首先,文本的长度从几十到几千字不等,对于长的文本数据,由于梯度爆炸和消失的问题,RNN的有效性会受到影响;其次,文本数据通常是分层结构,理解其实际语义需要融合来自不同颗粒度的文本成分的信息,即单词、短语以及句子;虽然明确地对原始文本的层次信息进行建模会对分类的准确性产生有益的影响,但RNN本质上涉及的是按顺序排列的普通结构,因此对捕捉文本数据中的层次信息是有限的。
为了解决第一个挑战,人们提出了各种方法来捕捉长文本中单词之间的长期依赖关系,其中一种尝试是长短期记忆(Long Short-Term Memory,LSTM)和门控循环单元(GateRecurrent Unit,GRU)中使用的门限机制,与普通的RNN相比,闸门使递归架构能够保持相对较长的记忆,从而促进长期依赖关系的学习;另一种尝试是试图修改不同步骤之间的连接拓扑结构,关键的想法是增加从早期步骤到后期步骤的跳过连接,以便通过超越中间步骤来实现更好的信息和梯度流动;在实践中,使用梯度规范剪裁策略可以大大克服爆炸性梯度问题,但梯度消失问题仍有待解决。
基于Transformer的预训练语言模型的出现,如BERT模型(BidirectionalEncoder Representation from Transformers)重塑了自然语言处理的格局,使得大多数自然语言处理任务的性能显著提高,包括文本分类;这些模型通常依赖于在通用掩蔽语言建模(Masked Language Modeling ,MLM)任务上用大规模异构语料库进行的预训练,即预测在原始文本中被掩蔽的单词。
最近最流行的文本分类方法是基于图的模型,如TextGCN,它首先在语料库上诱导出一个合成的词-文档共现图,随后应用图神经网络(Graph Neural Network,GNN)来执行分类任务;除TextGCN外,还有HeteGCN、TensorGCN以及HyperGAT等后续作品,我们统称为基于图的模型。
在对文本类型进行分类时,计算机处理每一段文本的时间过长,就会导致效率太低,分析文本类型的时间将显示不出计算机分析文本的优势;目前大多数利用计算机进行文本分类所取得的分类准确率都不够高,很多类似的文类类型,计算机模型很容易判断错误,从而导致准确率较低。
发明内容
为了解决以上技术问题,本发明提供一种基于注意力机制的两步式轻量级文本分类方法,包括以下步骤
S1、对文本数据进行预处理,将文本数据转为词向量X={Xi,i=1,2,…,n},其中,Xi表示每一段文本数据的词向量;
S2、将所有词向量及其对应标签进行打乱,且对预处理后的数据进行划分;
S3、搭建轻量级文本分类模型,并对模型参数进行随机初始化;
S4、设置轻量级文本分类模型的超参数,对轻量级文本分类模型进行训练,获得模型最优参数,保留模型最优参数后对轻量级文本分类模型进行测试;
S5、在轻量级文本分类模型中输入未知类别的文本数据,实现自动分类;
步骤S3具体包括以下步骤
S3.1、将每段文本的词向量分成m个等长且长度为k的片段,每个长度为k的片段都对应一个循环神经网络模型,且每一片段作为对应循环神经网络模型的输入;循环神经网络模型共设有两层,第一层包括三个循环神经网络模型,且第一层的相邻循环神经网络模型之间均设有用于提高模型训练精度的自注意力机制,第二层包括一个循环神经网络模型;
S3.2、将第一层所有循环神经网络模型的输出结果汇聚到第二层的循环神经网络模型中;第一层的循环神经网络模型的输出设置如下,
S3.3、将第一层所有循环神经网络模型的输出结果输入到第二层的循环神经网络模型中;第二层的循环神经网络模型的输出设置如下,
S3.4、将第二层循环神经网络模型的输出结果输入到通道注意力机制中,最后得到输出结果,输出设置如下,
其中,σ表示通道注意力机制,Out表示输出结果;
S3.5、将通道注意力机制的输出结果输入到分类器中进行分类。
本发明进一步限定的技术方案是:
进一步的,步骤S1中,通过词嵌入方法Embedding对文本进行处理,将文本数据转为词向量。
前所述的一种基于注意力机制的两步式轻量级文本分类方法,步骤S2包括以下步骤
S2.1、将每段文本的词向量及其对应标签组成的数据集进行打乱;
S2.2、对数据集进行划分,将其划分为训练集、测试集以及验证集。
前所述的一种基于注意力机制的两步式轻量级文本分类方法,步骤S2.2中训练集、测试集以及验证集在数据集中的占比设置为3:1:1。
前所述的一种基于注意力机制的两步式轻量级文本分类方法,步骤S3.1中,每段文本的词向量长度设置为320,m设置为10,k设置为32。
前所述的一种基于注意力机制的两步式轻量级文本分类方法,步骤S3.1中,循环神经网络模型的神经元个数设置为320。
前所述的一种基于注意力机制的两步式轻量级文本分类方法,步骤S3.5中,分类器由三层全连接层构成,每一个全连接层中的dropout层设置的dropout rate为0.3。
前所述的一种基于注意力机制的两步式轻量级文本分类方法,步骤S4包括以下不走
S4.1、设置轻量级文本分类模型的相关超参数,将模型训练次数Epoch设置为10,将模型训练批次batch_size设置为256;
S4.2、将训练集的数据输入到搭建好的轻量级文本分类模型中进行训练,并用验证集对轻量级文本分类模型的文本分类准确率进行检测,验证集则用来观察轻量级文本分类模型是否会出现过拟合或欠拟合的问题;最后获取轻量级文本分类模型的最优参数;
S4.3、训练完成后保留模型参数,输入测试集进行测试。
前所述的一种基于注意力机制的两步式轻量级文本分类方法,步骤S4中,轻量级文本分类模型训练时使用的优化器设置为Adam优化器。
前所述的一种基于注意力机制的两步式轻量级文本分类方法,步骤S4中,轻量级文本分类模型中损失函数设置为sparse categorical crossentropy损失函数。
本发明的有益效果是:
(1)本发明中,设计了一种轻量级的文本分类方法,适用于部署在边缘设置中,利用一种堆叠式的轻量级循环神经网络,该网络是一种特殊的循环神经网络,它可以全面地学习到输入的文本数据之间的关系;在保证模型准确率的同时,也保证了模型的轻量性;
(2)本发明中,一方面利用轻量级的循环神经网络来探索文本数据的关系,避免了梯度消失和梯度爆炸问题的发生;同时也利用自注意力机制和通道注意力机制,结合轻量级循环神经网络来进一步探索文本数据之间的关系,一定程度上克服了模型模糊边界的问题,因此本文本分类方法具有更高的分类效率和更高的分类准确率。
附图说明
图1为本发明实施例中轻量级文本分类方法的结构示意图。
具体实施方式
本实施例提供的一种基于注意力机制的两步式轻量级文本分类方法,如图1所示,包括以下步骤
S1、由于不同文本的长度不一致,因此在数据预处理阶段,需要利用词嵌入方法Embedding对文本进行处理,将文本数据转为词向量X={Xi,i=1,2,…,n},其中,Xi表示每一段文本数据的词向量。
S2、将所有词向量及其对应标签进行打乱,且对预处理后的数据进行划分;步骤S2具体包括以下分步骤
S2.1、将每段文本的词向量及其对应标签组成的数据集进行打乱,防止模型在训练的过程中出现过拟合的问题;
S2.2、对数据集进行划分,将其划分为训练集、测试集以及验证集,且三者的占比为3:1:1。
S3、搭建轻量级文本分类模型,并对模型参数进行随机初始化;步骤S3具体包括以下分步骤
S3.1、将每段文本的词向量分成m个等长且长度为k的片段,每个长度为k的片段都对应一个循环神经网络模型(Recurrent Neural Networks,RNN),且每一片段作为对应循环神经网络模型的输入;每段文本的词向量长度设置为320,m设置为10,k设置为32,同时循环神经网络模型的神经元个数设置为320;
循环神经网络模型共设有两层,第一层包括三个循环神经网络模型,第二层包括一个循环神经网络模型;在循环神经网络模型之间,利用自注意力机制来提高模型的训练精度;
S3.2、将第一层所有循环神经网络模型的输出大小设置为32,且将输出结果汇聚到第二层的循环神经网络模型中;第一层的循环神经网络模型的输出设置如下,
S3.3、将第一层所有循环神经网络模型的输出结果输入到第二层的循环神经网络模型中;第二层的循环神经网络模型的输出设置如下,
S3.4、将第二层循环神经网络模型的输出结果输入到通道注意力机制中,最后得到输出结果,输出设置如下,
其中,σ表示通道注意力机制,Out表示输出结果;
S3.5、将通道注意力机制的输出结果输入到分类器中进行分类,分类器由三层全连接层构成,每一个全连接层中的dropout层设置的dropout rate为0.3。
S4、设置轻量级文本分类模型的超参数,对轻量级文本分类模型进行训练,获得模型最优参数,保留模型最优参数后对轻量级文本分类模型进行测试;步骤S4具体包括以下分步骤
S4.1、设置轻量级文本分类模型的相关超参数,将模型训练次数Epoch设置为10,将模型训练批次batch_size设置为256,训练时使用的优化器设置为Adam优化器,损失函数设置为sparse categorical crossentropy损失函数;
S4.2、将训练集的数据输入到搭建好的轻量级文本分类模型中进行训练,并用验证集对轻量级文本分类模型的文本分类准确率进行检测,验证集则用来观察轻量级文本分类模型是否会出现过拟合或欠拟合的问题;最后获取轻量级文本分类模型的最优参数;
S4.3、训练完成后保留模型参数,输入测试集进行测试。
S5、在轻量级文本分类模型中输入未知类别的文本数据,实现自动分类。
本发明利用一种轻量级的循环神经网络模型结合注意力机制建立了两步式轻量级文本分类方法,该方法中轻量级循环神经网络主要是一种堆叠式的循环神经网络,两步式法主要体现在:一、利用轻量级循环神经网络结合自注意力机制进行模型训练;二、结合通道注意力机制进行分类。
从而可以全面地学习到输入的文本数据之间的关系;在保证模型准确率的同时,也保证了模型的轻量性;一方面利用轻量级的循环神经网络来探索文本数据的关系,避免了梯度消失和梯度爆炸问题的发生;同时也利用自注意力机制和通道注意力机制,结合轻量级循环神经网络来进一步探索文本数据之间的关系,一定程度上克服了模型模糊边界的问题,因此本文本分类方法具有更高的分类效率和更高的分类准确率。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
Claims (10)
1.一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:包括以下步骤
S1、对文本数据进行预处理,将文本数据转为词向量X={Xi,i=1,2,…,n},其中,Xi表示每一段文本数据的词向量;
S2、将所有词向量及其对应标签进行打乱,且对预处理后的数据进行划分;
S3、搭建轻量级文本分类模型,并对模型参数进行随机初始化;
S4、设置轻量级文本分类模型的超参数,对轻量级文本分类模型进行训练,获得模型最优参数,保留模型最优参数后对轻量级文本分类模型进行测试;
S5、在轻量级文本分类模型中输入未知类别的文本数据,实现自动分类;
步骤S3具体包括以下步骤
S3.1、将每段文本的词向量分成m个等长且长度为k的片段,每个长度为k的片段都对应一个循环神经网络模型,且每一片段作为对应循环神经网络模型的输入;循环神经网络模型共设有两层,第一层包括三个循环神经网络模型,且第一层的相邻循环神经网络模型之间均设有用于提高模型训练精度的自注意力机制,第二层包括一个循环神经网络模型;
S3.2、将第一层所有循环神经网络模型的输出结果汇聚到第二层的循环神经网络模型中;第一层的循环神经网络模型的输出设置如下,
S3.3、将第一层所有循环神经网络模型的输出结果输入到第二层的循环神经网络模型中;第二层的循环神经网络模型的输出设置如下,
S3.4、将第二层循环神经网络模型的输出结果输入到通道注意力机制中,最后得到输出结果,输出设置如下,
其中,σ表示通道注意力机制,Out表示输出结果;
S3.5、将通道注意力机制的输出结果输入到分类器中进行分类。
2.根据权利要求1所述的一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:所述步骤S1中,通过词嵌入方法Embedding对文本进行处理,将文本数据转为词向量。
3.根据权利要求1所述的一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:所述步骤S2包括以下步骤
S2.1、将每段文本的词向量及其对应标签组成的数据集进行打乱;
S2.2、对数据集进行划分,将其划分为训练集、测试集以及验证集。
4.根据权利要求3所述的一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:所述步骤S2.2中训练集、测试集以及验证集在数据集中的占比设置为3:1:1。
5.根据权利要求1所述的一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:所述步骤S3.1中,每段文本的词向量长度设置为320,m设置为10,k设置为32。
6.根据权利要求5所述的一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:所述步骤S3.1中,循环神经网络模型的神经元个数设置为320。
7.根据权利要求1所述的一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:所述步骤S3.5中,分类器由三层全连接层构成,每一个全连接层中的dropout层设置的dropout rate为0.3。
8.根据权利要求1所述的一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:所述步骤S4包括以下不走
S4.1、设置轻量级文本分类模型的相关超参数,将模型训练次数Epoch设置为10,将模型训练批次batch_size设置为256;
S4.2、将训练集的数据输入到搭建好的轻量级文本分类模型中进行训练,并用验证集对轻量级文本分类模型的文本分类准确率进行检测,验证集则用来观察轻量级文本分类模型是否会出现过拟合或欠拟合的问题;最后获取轻量级文本分类模型的最优参数;
S4.3、训练完成后保留模型参数,输入测试集进行测试。
9.根据权利要求8所述的一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:所述步骤S4中,轻量级文本分类模型训练时使用的优化器设置为Adam优化器。
10.根据权利要求8所述的一种基于注意力机制的两步式轻量级文本分类方法,其特征在于:所述步骤S4中,轻量级文本分类模型中损失函数设置为sparse categoricalcrossentropy损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211577299.8A CN115687627A (zh) | 2022-12-09 | 2022-12-09 | 一种基于注意力机制的两步式轻量级文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211577299.8A CN115687627A (zh) | 2022-12-09 | 2022-12-09 | 一种基于注意力机制的两步式轻量级文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687627A true CN115687627A (zh) | 2023-02-03 |
Family
ID=85055687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211577299.8A Pending CN115687627A (zh) | 2022-12-09 | 2022-12-09 | 一种基于注意力机制的两步式轻量级文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687627A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095659A (zh) * | 2023-10-18 | 2023-11-21 | 中国传媒大学 | 一种双模态歌曲情感分类方法 |
-
2022
- 2022-12-09 CN CN202211577299.8A patent/CN115687627A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095659A (zh) * | 2023-10-18 | 2023-11-21 | 中国传媒大学 | 一种双模态歌曲情感分类方法 |
CN117095659B (zh) * | 2023-10-18 | 2024-01-05 | 中国传媒大学 | 一种双模态歌曲情感分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
Zhong et al. | Deep learning-based extraction of construction procedural constraints from construction regulations | |
KR102008845B1 (ko) | 비정형 데이터의 카테고리 자동분류 방법 | |
CN112732916B (zh) | 一种基于bert的多特征融合模糊文本分类系统 | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN109086865B (zh) | 一种基于切分循环神经网络的序列模型建立方法 | |
CN111985247A (zh) | 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统 | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
CN110866542A (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN112395417A (zh) | 基于深度学习的网络舆情演化仿真方法及系统 | |
CN112199503B (zh) | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 | |
CN115630156A (zh) | 一种融合Prompt和SRU的蒙古语情感分析方法与系统 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN114722835A (zh) | 基于lda和bert融合改进模型的文本情感识别方法 | |
CN116049387A (zh) | 一种基于图卷积的短文本分类方法、装置、介质 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111813939A (zh) | 一种基于表征增强与融合的文本分类方法 | |
CN115687627A (zh) | 一种基于注意力机制的两步式轻量级文本分类方法 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
Elleuch et al. | The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN. | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
CN112560440B (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN117909918A (zh) | 一种基于融合特征的监护仪故障预测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |