CN111984791B

CN111984791B - 一种基于注意力机制的长文分类方法

Info

Publication number: CN111984791B
Application number: CN202010907188.3A
Authority: CN
Inventors: 冯姣; 李鹏; 姜恬静; 鲍闯
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2023-04-25
Anticipated expiration: 2040-09-02
Also published as: CN111984791A

Abstract

本发明涉及一种基于注意力机制的长文分类方法，包括：构建包括特征定位网络、特征提取网络和分类网络的深度学习网络模型；对文本数据进行预处理，采用按序分割的方法，将预处理后的文本数据拆分成N个段落；特征定位网络筛选出N个段落中，包含有用信息最多的K个段落；特征提取网络对K个段落进行词级、句子级和段落级分层特征提取；分类网络根据特征提取结果，预测长文类别。本发明建立硬注意力和软注意力相结合的模型，能够快速准确地从长文中找到重要段落位置，并利用层次注意力模型提高分类准确性，优化训练系统。在实际应用中，可以快速、准确地获取长文分类结果。

Description

一种基于注意力机制的长文分类方法

技术领域

本发明属于人工智能领域，涉及自然语言处理长文本分类，具体涉及一种基于注意力机制的长文分类方法。

背景技术

互联网正深入渗透到人们生产、生活的方方面面，与此同时，源源不断地产生大量的数据信息，如大量的文本数据。学术、工业研究、科技公司等领域都对文本数据有着极大的需求量，这些科技领域处理的文本往往篇幅较长，包含更多的信息量，同时对长文本数据的规范性及敏感度也有一定的要求，这使得长文本管理成为研究者的热门话题。文本分类是文本管理的基础任务，在信息检索、信息过滤、情感分类等方面都有着重要的应用。

文本分类是指在某一确定的分类体系之下，依据文本包含的具体信息对文本进行自动分类的过程。深度学习中的文本分类方法是通过建立多隐层非线性的神经网络，提取数据特征，分析文本内容得到文章标签。为了有效提高分类准确度，文本分类的大多数模型是将文本看作是一个整体进行编码处理，整体编码能保证文本前后信息的充分提取，使得文本表示包含有足够多的文本语义信息。但对于长文档，整体编码会导致模型的输入维度非常庞大，模型内参数个数大量增加，大幅度延长模型训练和优化的时间。此外，传统的整体编码方案对硬件设备提出很高的要求，普通的设备容易引起资源耗尽，使训练变得十分缓慢，导致分类结果出现偏差。

为了提高学习效率，节约存储器的容量和计算成本，现有长文分类方法通常在提取特征之前，先降低输入长文的维度，即利用长文的局部文本作为分类依据。现有工作提出利用随机采样法随机选取长文的部分语句或部分段落进行训练，通过降低特征提取网络输入数据维度加快模型训练速度。但是该方法无法充分利用上下文信息，难以定位文本中最具代表性的语句或段落，分类准确度相对较低。

在自然语言处理(NaturalLanguageProcessing，NLP)领域，注意力机制(Attention)被广泛应用。注意力机制能灵活检测大数据文本中的关键语句，降低模型处理高维数据的压力。注意力机制由神经网络构成，分为硬注意力机制和软注意力机制。根据不同任务，硬注意力机制直接选取输入数据的某些部分作为训练数据，而软注意力机制会给输入数据的不同部分赋予不同的权重，将计算资源集中到关键的输入数据上。因此，利用注意力机制选取长文本中的关键语句或关键段落能够有效提高长文分类的准确度。但是，一方面传统的基于硬注意力机制的定位算法不可微，无法使用梯度下降的方式进行优化，网络需要采用强化学习的方式进行训练。强化学习的优化方法调参困难，模型收敛速度和效率较低，模型训练结果不稳定，缺少泛化性。另一方面，软注意力机制需要增加存放注意力权重信息的矩阵，直接将软注意力机制应用到长文分类网络中，权重矩阵维度会非常大，增加了模型的工作量，降低优化速度，导致分类效率缓慢。

因此，在长文分析领域，存在两个难题亟待解决：

(1)如何准确定位长文中的关键段落，忽略其他冗余信息，提高模型训练速度；

(2)如何构建完备的特征提取网络，在输入信息不全的情况下，保证语义提取的准确性，提高模型的分类准确率。

发明内容

本发明提出一种可对长文准确、高效分类的基于注意力机制的长文分类方法。

本发明所采用的技术方案为：

一种基于注意力机制的长文分类方法，包括如下步骤：

步骤1、构建深度学习网络模型，深度学习网络模型包括特征定位网络、特征提取网络和分类网络；

步骤2、对文本数据进行预处理，采用按序分割的方法，将预处理后的文本数据拆分成N个段落；

步骤3、特征定位网络筛选出N个段落中，包含有用信息最多的K个段落；

步骤4、特征提取网络对K个段落进行词级、句子级和段落级分层特征提取；

步骤5、分类网络根据步骤4的特征提取结果，预测长文类别。

进一步地，步骤2包括：

删除文本数据中的非常规单词，采用embedding的方式，将文本数据中的单词转化为词向量，继而将文本数据内的单词转化成词向量的编号，得到纯数字的词向量数组文件；统一长文单词个数为n，对于单词个数超过n的长文，删除多余单词；对于单词个数未满n的文本，采用补零的方式进行填充；

设置长文每句话的单词个数，按照每T个单词为一个有效句子，每L个句子为一个段落的方法，将长文由上到下按序分割成N个段落。

进一步地，步骤3包括：

特征定位网络为卷积神经网络，其通过特征定位函数选取关键段落，特征定位函数的表达式为：

公式(1)中，W_p和

均为模型超参数，在后续模型训练中一同优化；通过定义激活函数sigmoid，将位置

固定在[0:N-1]之间；

其中，Cⁱ代表第i个段落的卷积特征；Sigmoid(*)和gelu(*)均为激活函数；通过设置超参数W_p和

维度，将

固定为K维向量，分别对应K个段落，该K个段落即为包含有用特征最多的段落位置，记为

以此作为后续特征提取网络的输入。

进一步地，步骤4包括：

特征提取网络包括卷积神经网络和双向长短期记忆网络，分为词级注意层、句子级注意层和段落级注意层三部分，使用层次结构，对输入文本分层提取特征；

词级注意层先使用卷积神经网络提取文本单词级向量的局部特征，然后利用双向长短期记忆网络关联各个单词的前后文本特征，结合单词的前向特征和后向特征，构成单词的特征向量；引入软注意力层给各个单词的注意力分配不同的权重值，每T个单词加权求和构成每个句子的特征向量；

句子级注意层和词级注意层结构相同，先经过卷积神经网络获取各个句子的局部特征，然后利用双向长短期记忆网络关联各个句子的前后文本特征，引入软注意力层计算每个句子的权重，每L个句子级特征加权求和构成每个段落的特征向量；

段落级注意层采用与句子级注意层相同的结构，先利用卷积神经网络提取各个段落的局部特征，然后利用双向长短期记忆网络关联各个段落的前后文本特征，引入软注意力层计算各个段落的权重，最后所有K个段落特征加权求和构成最终的文档向量作为文本表示，输入到分类网络。

进一步地，

对于K个段落，每个段落有L个句子，表示为

每个句子有T个单词，表示为

词级注意层卷积神经网络的个数输入单词数为T*L*k，网络首先提取每一个词向量的卷积特征，采用大小为3、4、5的卷积核，经过卷积层，每一个词向量会得到3组特征g₁,g₂,g₃，将特征合并成[g₁；g₂；g₃]，使用最大池化层，筛选出特征向量

作为双向长短期记忆网络的输入，如公式(2)所示；

双向长短期记忆网络从句子的两端依次读取每一个单词，公式为：

通过连接前向长短期记忆特征

和后向长短期记忆特征

得到单词

的综合特征

通过对单词

周围的信息的总结，完成单词的特征表示；

引入软注意力层，对各个单词的注意力分配不同的权重值，公式如下：

公式(5)至(7)中，W_ω、b_ω、u_ω均为模型超参数，u_ω为字级上下文向量，经过随机初始化后跟随网络的训练而优化；公式(5)，通过单层的线性层，单词级特征h_it在激活函数tanh的作用下进行变换；公式(6)，通过使用sotfmax函数来度量单词的重要性，即使用softmax函数计算u_it和字级上下文向量u_ω的相似性得到规范化权重；最后通过公式(7)，句子s_i的特征表示，由句子中每个单词的加权求和得来。

进一步地，

句子级注意层：计算得到句子级特征

后，和词级注意层使用相同的模型和算法可以得到各个句子的重要性权重，进而计算各个段落的特征向量；

对于K个段落中的所有句子，首先使用卷积神经网络和双向长短期记忆网络对句子进行编码：

连接双向长短期记忆网络得到句子s_i的表示

引入注意力机制和句子级上下文向量u_s，使用概率值来度量每一个句子的重要性，公式如下：

公式(11)至(13)中，p^k是总结了段落中所有句子信息，对不同的句子给予了不同的注意力，即权重值；句子特征向量和权重值加权求和后构成段落级信息向量；类似地，句子级上下文向量u_s和超参数W_s、b_s在模型训练过程中随机初始化和学习优化。

进一步地，

段落级注意层：与词级注意层和句子级注意层类似地，首先使用卷积神经网络和双向长短期记忆网络对K个段落分别进行编码：

r^k＝CNN(p^k),k∈[1,K] (14)

将双向长短期记忆网络提取的特征连接，得到段落p^k的特征表示；

引入软注意力机制和段落级上下文向量u_v，通过权重大小度量每一个段落对文本分类的贡献程度，公式如下：

u^k＝tanh(W_vh^k+b_v) (18)

v＝∑_kα^kh^k (20)

比较所有K个段落的特征的重要性并加权求和构成长文档特征表示的向量v，作为最终分类网络的输入。

进一步地，步骤5包括：

分类网络包括全连接层和Softmax分类器，通过公式(21)得出分类结果：

训练方式为最小化公式(22)中的交叉熵损失函数，其中x表示样本，G表示单次输入总个数，超参数W_c、b_c在模型训练过程中随机初始化和学习优化，通过计算真实标签y和预测标签

之间的损失函数，采用Adam bp算法反向更新梯度。

本发明的有益效果在于：

1)、本发明提出基于改进硬注意力机制的特征定位函数，避免了传统硬注意力机制不可微无法反向传播的弊端，可在长文档本中找到包含信息量最多的关键位置段落，降低网络的输入数据维度，提高计算效率。在模型训练过程中，通过可微分的函数，可不断提高文档定位的正确率。

2)、本发明采用层次软注意力机制，对定位的关键段落集中的单词、句子和段落给予不同的注意力权重，提高资源利用效率和模型的分类准确率。

3)、本发明建立硬注意力和软注意力相结合的模型，能够快速准确地从长文中找到重要段落位置，并利用层次注意力模型提高分类准确性，优化训练系统。在实际应用中，可以快速、准确地获取长文分类结果。

附图说明

图1为本发明的长文分类方法流程图；

图2为本发明中，长文预处理流程图；

图3为本发明中，特征定位网络架构图；

图4为本发明中，特征提取网络架构图；

图5为不同特征定位函数准确率比对图；

图6为不同特征提取网络准确率比对图。

具体实施方式

下面结合附图和具体的实施例对本发明的基于注意力机制的长文分类方法作进一步地详细说明。

如图1、3和4所示，一种基于注意力机制的长文分类方法，包括如下步骤：

如图2所示，步骤2具体包括：

删除文本数据中的非常规单词(如特殊符号，标点等)，采用embedding的方式，将文本数据中的单词转化为词向量，继而将文本数据内的单词转化成词向量的编号，得到纯数字的词向量数组文件；统一长文单词个数为n，对于单词个数超过n的长文，删除多余单词；对于单词个数未满n的文本，采用补零的方式进行填充；

本实施例中，以4个标签的文章为例，原始论文文献来自美国康奈尔大学管理的电子预印本文献库。对所下载的PDF格式的英文论文进行预处理，预处理过程包括：删除文本内没有用的信息，包括文档中的格式，标点符号，特殊符号，数字等非常规英文单词。统一文本长度为10000个单词，通过GloVe字典将单词转化为词向量。最终生成由词向量编号组成的纯数字的数组文件。每一个数组文件存放一篇文章，同一类标签的文章存放在以该标签命名的文件下。

根据数据的统计结果，按照平均每20个单词为一句话，即T＝20；按照每10句话为一个有效段落的方式，即L＝10，将包含1万个英文单词的文本按顺序分成

个段落，每个段落的词数和句子数均相同。

如图3所示，步骤3具体包括：

公式(1)中，W_p和

均为模型超参数，在后续模型训练中一同优化；特征定位网络利用单层卷积网络对N组不同段落分别进行卷积运算，

表示N组不同段落，其中，Xⁱ表示第i个段落；将得到的N组段落的卷积特征进行拼接，获得所有段落的卷积特征，记为

其中，Cⁱ代表第i个段落的卷积特征。Sigmoid(*)和gelu(*)均为激活函数。公式(1)通过定义激活函数sigmoid，将位置

固定在[0:N-1]之间；通过设置超参数W_p和

维度，将

以此作为后续特征提取网络的输入。

经过特征定位函数的筛选，后续特征提取网络能够将注意力资源集中到对分类贡献度更高的段落，从而缩小了特征提取网络的输入维度。

步骤4包括：

句子级注意层和词级注意层结构相同，先经过卷积神经网络获取各个句子的局部特征，然后利用双向长短期记忆网络关联各个句子的前后文本特征，引入软注意力层计算每个句子的权重，每L个句子级特征加权求和构成每个段落的特征向量。

具体地，

对于K个段落，每个段落有L个句子，表示为

每个句子有T个单词，表示为

作为双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的输入，如公式(2)所示；

通过连接前向LSTM特征

和后向LSTM特征

得到单词

的综合特征

通过对单词

周围的信息的总结，完成单词的特征表示；

但是，对于目标句子，并不是每一个单词对完成分类任务的贡献都相同，为了使网络更好的将注意力放在更有意义的单词上，本发明引入软注意力层，对各个单词的注意力分配不同的权重值，公式如下：

句子级注意层：计算得到句子级特征

连接双向长短期记忆网络得到句子s_i的表示

为了区分段落中不同句子的重要性，本发明中再次引入注意力机制和句子级上下文向量u_s，使用概率值来度量每一个句子的重要性，公式如下：

r^k＝CNN(p^k),k∈[1,K] (14)

为了区分各个段落的重要性，使用软注意力机制和段落级上下文向量u_v，通过权重大小度量每一个段落对文本分类的贡献程度，公式如下：

u^k＝tanh(W_vh^k+b_v) (18)

v＝∑_kα^kh^k (20)

比较所有K个段落的特征的重要性并加权求和构成长文档特征表示的向量v，作为最终分类网络的输入。类似地，句子级上下文向量u_v和超参数W_v、b_v在模型训练过程中随机初始化和学习优化。

本发明通过构建基于软注意力的层级网络，从文本单词到句子再到段落，一步步提炼出对文本分类有用的信息，构成全文语义向量以此作为分类网络的输入。

步骤5包括：

分类网络包括一个全连接层和Softmax分类器，通过公式(21)得出分类结果：

训练方式为最小化公式(22)中的交叉熵损失函数，其中x表示样本，G表示单次输入总个数，超参数W_c、b_c在模型训练过程中随机初始化和学习优化。通过计算真实标签y和预测标签

之间的损失函数，采用Adam bp算法反向更新梯度。

为防止过拟合，分类网络可按照设定的比例丢弃部分特征数据，经全连接层，采用softmax分类模型进行分类，通过反向传播调整模型内所有参数以获得最优的分类结果。

本发明的深度学习网络模型在训练过程中，按照1000:1的比例，分割训练集数据及验证集数据。训练集的数据用于模型的训练优化，验证集的数据用来验证优化后模型的实际分类效果。不断优化模型，选取分类准确度最高的模型。

训练集数据每训练100次保存一次深度学习网络模型，全部数据遍历5次后结束训练，验证集数据以同样的方法计算损失函数及正确率，来评估模型分类的准确性。

图5为不同特征定位函数和本发明中特征定位函数的分类正确率的对比，如图可以看出，采用相同的特征提取网络，本发明提出的特征定位函数分类准确率比其他经典方法高得多，说明本专利提出的特征定位函数能准确选取长文重要段落位置，提高分类准确率。

图6为不同特征提取网络和本专利特征提取网络的分类正确率的对比，如图可以看出，采用相同的定位函数，本发明的特征提取网络大大提高了模型的分类准确率。说明软注意力机制的加入能更高的帮助模型提取重要特征，从单词到句子再到段落的层次模型，能更全面的表示文本语义，提高优化速率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术方法范围内，可轻易想到的替换或变换方法，都应该涵盖在本发明的保护范围之内。

Claims

1.一种基于注意力机制的长文分类方法，其特征在于，包括如下步骤：

步骤3、特征定位网络筛选出N个段落中，包含有用信息最多的K个段落；包括：

公式(1)中，W_p和

固定在[0:N-1]之间；

维度，将

以此作为后续特征提取网络的输入；

步骤4、特征提取网络对K个段落进行词级、句子级和段落级分层特征提取；包括：

段落级注意层采用与句子级注意层相同的结构，先利用卷积神经网络提取各个段落的局部特征，然后利用双向长短期记忆网络关联各个段落的前后文本特征，引入软注意力层计算各个段落的权重，最后所有K个段落特征加权求和构成最终的文档向量作为文本表示，输入到分类网络；

2.根据权利要求1所述的基于注意力机制的长文分类方法，其特征在于，步骤2包括：

3.根据权利要求1所述的基于注意力机制的长文分类方法，其特征在于，

对于K个段落，每个段落有L个句子，表示为

每个句子有T个单词，表示为

作为双向长短期记忆网络的输入，如公式(2)所示；

通过连接前向长短期记忆特征

和后向长短期记忆特征

得到单词

的综合特征

通过对单词

周围的信息的总结，完成单词的特征表示；

4.根据权利要求3所述的基于注意力机制的长文分类方法，其特征在于，

句子级注意层：计算得到句子级特征

连接双向长短期记忆网络得到句子s_i的表示

公式(11)至(13)中，p^k是总结了段落中所有句子信息，对不同的句子给予了不同的注意力，即权重值；句子特征向量和权重值加权求和后构成段落级信息向量；句子级上下文向量u_s和超参数W_s、b_s在模型训练过程中随机初始化和学习优化。

5.根据权利要求4所述的基于注意力机制的长文分类方法，其特征在于，

段落级注意层：首先使用卷积神经网络和双向长短期记忆网络对K个段落分别进行编码：

r^k＝CNN(p^k),k∈[1,K] (14)

u^k＝tanh(W_vh^k+b_v) (18)

v＝∑_kα^kh^k (20)

比较所有K个段落的特征的重要性并加权求和构成长文档特征表示的向量v，作为最终分类网络的输入；

其中，W_v、b_v均为超参数，在模型训练过程中随机初始化和学习优化。

6.根据权利要求5所述的基于注意力机制的长文分类方法，其特征在于，步骤5包括：

之间的损失函数，采用Adam bp算法反向更新梯度。