CN111984791B - 一种基于注意力机制的长文分类方法 - Google Patents

一种基于注意力机制的长文分类方法 Download PDF

Info

Publication number
CN111984791B
CN111984791B CN202010907188.3A CN202010907188A CN111984791B CN 111984791 B CN111984791 B CN 111984791B CN 202010907188 A CN202010907188 A CN 202010907188A CN 111984791 B CN111984791 B CN 111984791B
Authority
CN
China
Prior art keywords
network
sentence
level
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010907188.3A
Other languages
English (en)
Other versions
CN111984791A (zh
Inventor
冯姣
李鹏
姜恬静
鲍闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010907188.3A priority Critical patent/CN111984791B/zh
Publication of CN111984791A publication Critical patent/CN111984791A/zh
Application granted granted Critical
Publication of CN111984791B publication Critical patent/CN111984791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于注意力机制的长文分类方法,包括:构建包括特征定位网络、特征提取网络和分类网络的深度学习网络模型;对文本数据进行预处理,采用按序分割的方法,将预处理后的文本数据拆分成N个段落;特征定位网络筛选出N个段落中,包含有用信息最多的K个段落;特征提取网络对K个段落进行词级、句子级和段落级分层特征提取;分类网络根据特征提取结果,预测长文类别。本发明建立硬注意力和软注意力相结合的模型,能够快速准确地从长文中找到重要段落位置,并利用层次注意力模型提高分类准确性,优化训练系统。在实际应用中,可以快速、准确地获取长文分类结果。

Description

一种基于注意力机制的长文分类方法
技术领域
本发明属于人工智能领域,涉及自然语言处理长文本分类,具体涉及一种基于注意力机制的长文分类方法。
背景技术
互联网正深入渗透到人们生产、生活的方方面面,与此同时,源源不断地产生大量的数据信息,如大量的文本数据。学术、工业研究、科技公司等领域都对文本数据有着极大的需求量,这些科技领域处理的文本往往篇幅较长,包含更多的信息量,同时对长文本数据的规范性及敏感度也有一定的要求,这使得长文本管理成为研究者的热门话题。文本分类是文本管理的基础任务,在信息检索、信息过滤、情感分类等方面都有着重要的应用。
文本分类是指在某一确定的分类体系之下,依据文本包含的具体信息对文本进行自动分类的过程。深度学习中的文本分类方法是通过建立多隐层非线性的神经网络,提取数据特征,分析文本内容得到文章标签。为了有效提高分类准确度,文本分类的大多数模型是将文本看作是一个整体进行编码处理,整体编码能保证文本前后信息的充分提取,使得文本表示包含有足够多的文本语义信息。但对于长文档,整体编码会导致模型的输入维度非常庞大,模型内参数个数大量增加,大幅度延长模型训练和优化的时间。此外,传统的整体编码方案对硬件设备提出很高的要求,普通的设备容易引起资源耗尽,使训练变得十分缓慢,导致分类结果出现偏差。
为了提高学习效率,节约存储器的容量和计算成本,现有长文分类方法通常在提取特征之前,先降低输入长文的维度,即利用长文的局部文本作为分类依据。现有工作提出利用随机采样法随机选取长文的部分语句或部分段落进行训练,通过降低特征提取网络输入数据维度加快模型训练速度。但是该方法无法充分利用上下文信息,难以定位文本中最具代表性的语句或段落,分类准确度相对较低。
在自然语言处理(NaturalLanguageProcessing,NLP)领域,注意力机制(Attention)被广泛应用。注意力机制能灵活检测大数据文本中的关键语句,降低模型处理高维数据的压力。注意力机制由神经网络构成,分为硬注意力机制和软注意力机制。根据不同任务,硬注意力机制直接选取输入数据的某些部分作为训练数据,而软注意力机制会给输入数据的不同部分赋予不同的权重,将计算资源集中到关键的输入数据上。因此,利用注意力机制选取长文本中的关键语句或关键段落能够有效提高长文分类的准确度。但是,一方面传统的基于硬注意力机制的定位算法不可微,无法使用梯度下降的方式进行优化,网络需要采用强化学习的方式进行训练。强化学习的优化方法调参困难,模型收敛速度和效率较低,模型训练结果不稳定,缺少泛化性。另一方面,软注意力机制需要增加存放注意力权重信息的矩阵,直接将软注意力机制应用到长文分类网络中,权重矩阵维度会非常大,增加了模型的工作量,降低优化速度,导致分类效率缓慢。
因此,在长文分析领域,存在两个难题亟待解决:
(1)如何准确定位长文中的关键段落,忽略其他冗余信息,提高模型训练速度;
(2)如何构建完备的特征提取网络,在输入信息不全的情况下,保证语义提取的准确性,提高模型的分类准确率。
发明内容
本发明提出一种可对长文准确、高效分类的基于注意力机制的长文分类方法。
本发明所采用的技术方案为:
一种基于注意力机制的长文分类方法,包括如下步骤:
步骤1、构建深度学习网络模型,深度学习网络模型包括特征定位网络、特征提取网络和分类网络;
步骤2、对文本数据进行预处理,采用按序分割的方法,将预处理后的文本数据拆分成N个段落;
步骤3、特征定位网络筛选出N个段落中,包含有用信息最多的K个段落;
步骤4、特征提取网络对K个段落进行词级、句子级和段落级分层特征提取;
步骤5、分类网络根据步骤4的特征提取结果,预测长文类别。
进一步地,步骤2包括:
删除文本数据中的非常规单词,采用embedding的方式,将文本数据中的单词转化为词向量,继而将文本数据内的单词转化成词向量的编号,得到纯数字的词向量数组文件;统一长文单词个数为n,对于单词个数超过n的长文,删除多余单词;对于单词个数未满n的文本,采用补零的方式进行填充;
设置长文每句话的单词个数,按照每T个单词为一个有效句子,每L个句子为一个段落的方法,将长文由上到下按序分割成N个段落。
进一步地,步骤3包括:
特征定位网络为卷积神经网络,其通过特征定位函数选取关键段落,特征定位函数的表达式为:
Figure BDA0002661844960000031
公式(1)中,Wp
Figure BDA0002661844960000039
均为模型超参数,在后续模型训练中一同优化;通过定义激活函数sigmoid,将位置
Figure BDA0002661844960000032
固定在[0:N-1]之间;
Figure BDA0002661844960000033
其中,Ci代表第i个段落的卷积特征;Sigmoid(*)和gelu(*)均为激活函数;通过设置超参数Wp
Figure BDA0002661844960000034
维度,将
Figure BDA0002661844960000035
固定为K维向量,分别对应K个段落,该K个段落即为包含有用特征最多的段落位置,记为
Figure BDA0002661844960000036
以此作为后续特征提取网络的输入。
进一步地,步骤4包括:
特征提取网络包括卷积神经网络和双向长短期记忆网络,分为词级注意层、句子级注意层和段落级注意层三部分,使用层次结构,对输入文本分层提取特征;
词级注意层先使用卷积神经网络提取文本单词级向量的局部特征,然后利用双向长短期记忆网络关联各个单词的前后文本特征,结合单词的前向特征和后向特征,构成单词的特征向量;引入软注意力层给各个单词的注意力分配不同的权重值,每T个单词加权求和构成每个句子的特征向量;
句子级注意层和词级注意层结构相同,先经过卷积神经网络获取各个句子的局部特征,然后利用双向长短期记忆网络关联各个句子的前后文本特征,引入软注意力层计算每个句子的权重,每L个句子级特征加权求和构成每个段落的特征向量;
段落级注意层采用与句子级注意层相同的结构,先利用卷积神经网络提取各个段落的局部特征,然后利用双向长短期记忆网络关联各个段落的前后文本特征,引入软注意力层计算各个段落的权重,最后所有K个段落特征加权求和构成最终的文档向量作为文本表示,输入到分类网络。
进一步地,
对于K个段落,每个段落有L个句子,表示为
Figure BDA0002661844960000037
每个句子有T个单词,表示为
Figure BDA0002661844960000038
词级注意层卷积神经网络的个数输入单词数为T*L*k,网络首先提取每一个词向量的卷积特征,采用大小为3、4、5的卷积核,经过卷积层,每一个词向量会得到3组特征g1,g2,g3,将特征合并成[g1;g2;g3],使用最大池化层,筛选出特征向量
Figure BDA0002661844960000041
作为双向长短期记忆网络的输入,如公式(2)所示;
Figure BDA0002661844960000042
双向长短期记忆网络从句子的两端依次读取每一个单词,公式为:
Figure BDA0002661844960000043
Figure BDA0002661844960000044
通过连接前向长短期记忆特征
Figure BDA0002661844960000045
和后向长短期记忆特征
Figure BDA0002661844960000046
得到单词
Figure BDA0002661844960000047
的综合特征
Figure BDA0002661844960000048
通过对单词
Figure BDA0002661844960000049
周围的信息的总结,完成单词的特征表示;
引入软注意力层,对各个单词的注意力分配不同的权重值,公式如下:
Figure BDA00026618449600000410
Figure BDA00026618449600000411
Figure BDA00026618449600000412
公式(5)至(7)中,Wω、bω、uω均为模型超参数,uω为字级上下文向量,经过随机初始化后跟随网络的训练而优化;公式(5),通过单层的线性层,单词级特征hit在激活函数tanh的作用下进行变换;公式(6),通过使用sotfmax函数来度量单词的重要性,即使用softmax函数计算uit和字级上下文向量uω的相似性得到规范化权重;最后通过公式(7),句子si的特征表示,由句子中每个单词的加权求和得来。
进一步地,
句子级注意层:计算得到句子级特征
Figure BDA0002661844960000051
后,和词级注意层使用相同的模型和算法可以得到各个句子的重要性权重,进而计算各个段落的特征向量;
对于K个段落中的所有句子,首先使用卷积神经网络和双向长短期记忆网络对句子进行编码:
Figure BDA0002661844960000052
Figure BDA0002661844960000053
Figure BDA0002661844960000054
连接双向长短期记忆网络得到句子si的表示
Figure BDA0002661844960000055
引入注意力机制和句子级上下文向量us,使用概率值来度量每一个句子的重要性,公式如下:
Figure BDA0002661844960000056
Figure BDA0002661844960000057
Figure BDA0002661844960000058
公式(11)至(13)中,pk是总结了段落中所有句子信息,对不同的句子给予了不同的注意力,即权重值;句子特征向量和权重值加权求和后构成段落级信息向量;类似地,句子级上下文向量us和超参数Ws、bs在模型训练过程中随机初始化和学习优化。
进一步地,
段落级注意层:与词级注意层和句子级注意层类似地,首先使用卷积神经网络和双向长短期记忆网络对K个段落分别进行编码:
rk=CNN(pk),k∈[1,K]     (14)
Figure BDA0002661844960000061
Figure BDA0002661844960000062
Figure BDA0002661844960000063
将双向长短期记忆网络提取的特征连接,得到段落pk的特征表示;
引入软注意力机制和段落级上下文向量uv,通过权重大小度量每一个段落对文本分类的贡献程度,公式如下:
uk=tanh(Wvhk+bv)     (18)
Figure BDA0002661844960000064
v=∑kαkhk     (20)
比较所有K个段落的特征的重要性并加权求和构成长文档特征表示的向量v,作为最终分类网络的输入。
进一步地,步骤5包括:
分类网络包括全连接层和Softmax分类器,通过公式(21)得出分类结果:
Figure BDA0002661844960000065
Figure BDA0002661844960000066
训练方式为最小化公式(22)中的交叉熵损失函数,其中x表示样本,G表示单次输入总个数,超参数Wc、bc在模型训练过程中随机初始化和学习优化,通过计算真实标签y和预测标签
Figure BDA0002661844960000067
之间的损失函数,采用Adam bp算法反向更新梯度。
本发明的有益效果在于:
1)、本发明提出基于改进硬注意力机制的特征定位函数,避免了传统硬注意力机制不可微无法反向传播的弊端,可在长文档本中找到包含信息量最多的关键位置段落,降低网络的输入数据维度,提高计算效率。在模型训练过程中,通过可微分的函数,可不断提高文档定位的正确率。
2)、本发明采用层次软注意力机制,对定位的关键段落集中的单词、句子和段落给予不同的注意力权重,提高资源利用效率和模型的分类准确率。
3)、本发明建立硬注意力和软注意力相结合的模型,能够快速准确地从长文中找到重要段落位置,并利用层次注意力模型提高分类准确性,优化训练系统。在实际应用中,可以快速、准确地获取长文分类结果。
附图说明
图1为本发明的长文分类方法流程图;
图2为本发明中,长文预处理流程图;
图3为本发明中,特征定位网络架构图;
图4为本发明中,特征提取网络架构图;
图5为不同特征定位函数准确率比对图;
图6为不同特征提取网络准确率比对图。
具体实施方式
下面结合附图和具体的实施例对本发明的基于注意力机制的长文分类方法作进一步地详细说明。
如图1、3和4所示,一种基于注意力机制的长文分类方法,包括如下步骤:
步骤1、构建深度学习网络模型,深度学习网络模型包括特征定位网络、特征提取网络和分类网络;
步骤2、对文本数据进行预处理,采用按序分割的方法,将预处理后的文本数据拆分成N个段落;
如图2所示,步骤2具体包括:
删除文本数据中的非常规单词(如特殊符号,标点等),采用embedding的方式,将文本数据中的单词转化为词向量,继而将文本数据内的单词转化成词向量的编号,得到纯数字的词向量数组文件;统一长文单词个数为n,对于单词个数超过n的长文,删除多余单词;对于单词个数未满n的文本,采用补零的方式进行填充;
设置长文每句话的单词个数,按照每T个单词为一个有效句子,每L个句子为一个段落的方法,将长文由上到下按序分割成N个段落。
本实施例中,以4个标签的文章为例,原始论文文献来自美国康奈尔大学管理的电子预印本文献库。对所下载的PDF格式的英文论文进行预处理,预处理过程包括:删除文本内没有用的信息,包括文档中的格式,标点符号,特殊符号,数字等非常规英文单词。统一文本长度为10000个单词,通过GloVe字典将单词转化为词向量。最终生成由词向量编号组成的纯数字的数组文件。每一个数组文件存放一篇文章,同一类标签的文章存放在以该标签命名的文件下。
根据数据的统计结果,按照平均每20个单词为一句话,即T=20;按照每10句话为一个有效段落的方式,即L=10,将包含1万个英文单词的文本按顺序分成
Figure BDA0002661844960000081
Figure BDA0002661844960000082
个段落,每个段落的词数和句子数均相同。
步骤3、特征定位网络筛选出N个段落中,包含有用信息最多的K个段落;
如图3所示,步骤3具体包括:
特征定位网络为卷积神经网络,其通过特征定位函数选取关键段落,特征定位函数的表达式为:
Figure BDA0002661844960000083
公式(1)中,Wp
Figure BDA0002661844960000084
均为模型超参数,在后续模型训练中一同优化;特征定位网络利用单层卷积网络对N组不同段落分别进行卷积运算,
Figure BDA0002661844960000085
表示N组不同段落,其中,Xi表示第i个段落;将得到的N组段落的卷积特征进行拼接,获得所有段落的卷积特征,记为
Figure BDA0002661844960000086
其中,Ci代表第i个段落的卷积特征。Sigmoid(*)和gelu(*)均为激活函数。公式(1)通过定义激活函数sigmoid,将位置
Figure BDA0002661844960000087
固定在[0:N-1]之间;通过设置超参数Wp
Figure BDA0002661844960000088
维度,将
Figure BDA0002661844960000089
固定为K维向量,分别对应K个段落,该K个段落即为包含有用特征最多的段落位置,记为
Figure BDA00026618449600000810
以此作为后续特征提取网络的输入。
经过特征定位函数的筛选,后续特征提取网络能够将注意力资源集中到对分类贡献度更高的段落,从而缩小了特征提取网络的输入维度。
步骤4、特征提取网络对K个段落进行词级、句子级和段落级分层特征提取;
步骤4包括:
特征提取网络包括卷积神经网络和双向长短期记忆网络,分为词级注意层、句子级注意层和段落级注意层三部分,使用层次结构,对输入文本分层提取特征;
词级注意层先使用卷积神经网络提取文本单词级向量的局部特征,然后利用双向长短期记忆网络关联各个单词的前后文本特征,结合单词的前向特征和后向特征,构成单词的特征向量;引入软注意力层给各个单词的注意力分配不同的权重值,每T个单词加权求和构成每个句子的特征向量;
句子级注意层和词级注意层结构相同,先经过卷积神经网络获取各个句子的局部特征,然后利用双向长短期记忆网络关联各个句子的前后文本特征,引入软注意力层计算每个句子的权重,每L个句子级特征加权求和构成每个段落的特征向量。
段落级注意层采用与句子级注意层相同的结构,先利用卷积神经网络提取各个段落的局部特征,然后利用双向长短期记忆网络关联各个段落的前后文本特征,引入软注意力层计算各个段落的权重,最后所有K个段落特征加权求和构成最终的文档向量作为文本表示,输入到分类网络。
具体地,
对于K个段落,每个段落有L个句子,表示为
Figure BDA0002661844960000091
每个句子有T个单词,表示为
Figure BDA0002661844960000092
词级注意层卷积神经网络的个数输入单词数为T*L*k,网络首先提取每一个词向量的卷积特征,采用大小为3、4、5的卷积核,经过卷积层,每一个词向量会得到3组特征g1,g2,g3,将特征合并成[g1;g2;g3],使用最大池化层,筛选出特征向量
Figure BDA0002661844960000093
作为双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的输入,如公式(2)所示;
Figure BDA0002661844960000094
双向长短期记忆网络从句子的两端依次读取每一个单词,公式为:
Figure BDA0002661844960000095
Figure BDA0002661844960000096
通过连接前向LSTM特征
Figure BDA0002661844960000101
和后向LSTM特征
Figure BDA0002661844960000102
得到单词
Figure BDA0002661844960000103
的综合特征
Figure BDA0002661844960000104
通过对单词
Figure BDA0002661844960000105
周围的信息的总结,完成单词的特征表示;
但是,对于目标句子,并不是每一个单词对完成分类任务的贡献都相同,为了使网络更好的将注意力放在更有意义的单词上,本发明引入软注意力层,对各个单词的注意力分配不同的权重值,公式如下:
Figure BDA0002661844960000106
Figure BDA0002661844960000107
Figure BDA0002661844960000108
公式(5)至(7)中,Wω、bω、uω均为模型超参数,uω为字级上下文向量,经过随机初始化后跟随网络的训练而优化;公式(5),通过单层的线性层,单词级特征hit在激活函数tanh的作用下进行变换;公式(6),通过使用sotfmax函数来度量单词的重要性,即使用softmax函数计算uit和字级上下文向量uω的相似性得到规范化权重;最后通过公式(7),句子si的特征表示,由句子中每个单词的加权求和得来。
句子级注意层:计算得到句子级特征
Figure BDA0002661844960000109
后,和词级注意层使用相同的模型和算法可以得到各个句子的重要性权重,进而计算各个段落的特征向量;
对于K个段落中的所有句子,首先使用卷积神经网络和双向长短期记忆网络对句子进行编码:
Figure BDA00026618449600001010
Figure BDA00026618449600001011
Figure BDA00026618449600001012
连接双向长短期记忆网络得到句子si的表示
Figure BDA00026618449600001013
为了区分段落中不同句子的重要性,本发明中再次引入注意力机制和句子级上下文向量us,使用概率值来度量每一个句子的重要性,公式如下:
Figure BDA0002661844960000111
Figure BDA0002661844960000112
Figure BDA0002661844960000113
公式(11)至(13)中,pk是总结了段落中所有句子信息,对不同的句子给予了不同的注意力,即权重值;句子特征向量和权重值加权求和后构成段落级信息向量;类似地,句子级上下文向量us和超参数Ws、bs在模型训练过程中随机初始化和学习优化。
段落级注意层:与词级注意层和句子级注意层类似地,首先使用卷积神经网络和双向长短期记忆网络对K个段落分别进行编码:
rk=CNN(pk),k∈[1,K]     (14)
Figure BDA0002661844960000114
Figure BDA0002661844960000115
Figure BDA0002661844960000116
将双向长短期记忆网络提取的特征连接,得到段落pk的特征表示;
为了区分各个段落的重要性,使用软注意力机制和段落级上下文向量uv,通过权重大小度量每一个段落对文本分类的贡献程度,公式如下:
uk=tanh(Wvhk+bv)     (18)
Figure BDA0002661844960000117
v=∑kαkhk     (20)
比较所有K个段落的特征的重要性并加权求和构成长文档特征表示的向量v,作为最终分类网络的输入。类似地,句子级上下文向量uv和超参数Wv、bv在模型训练过程中随机初始化和学习优化。
本发明通过构建基于软注意力的层级网络,从文本单词到句子再到段落,一步步提炼出对文本分类有用的信息,构成全文语义向量以此作为分类网络的输入。
步骤5、分类网络根据步骤4的特征提取结果,预测长文类别。
步骤5包括:
分类网络包括一个全连接层和Softmax分类器,通过公式(21)得出分类结果:
Figure BDA0002661844960000121
Figure BDA0002661844960000122
训练方式为最小化公式(22)中的交叉熵损失函数,其中x表示样本,G表示单次输入总个数,超参数Wc、bc在模型训练过程中随机初始化和学习优化。通过计算真实标签y和预测标签
Figure BDA0002661844960000123
之间的损失函数,采用Adam bp算法反向更新梯度。
为防止过拟合,分类网络可按照设定的比例丢弃部分特征数据,经全连接层,采用softmax分类模型进行分类,通过反向传播调整模型内所有参数以获得最优的分类结果。
本发明的深度学习网络模型在训练过程中,按照1000:1的比例,分割训练集数据及验证集数据。训练集的数据用于模型的训练优化,验证集的数据用来验证优化后模型的实际分类效果。不断优化模型,选取分类准确度最高的模型。
训练集数据每训练100次保存一次深度学习网络模型,全部数据遍历5次后结束训练,验证集数据以同样的方法计算损失函数及正确率,来评估模型分类的准确性。
图5为不同特征定位函数和本发明中特征定位函数的分类正确率的对比,如图可以看出,采用相同的特征提取网络,本发明提出的特征定位函数分类准确率比其他经典方法高得多,说明本专利提出的特征定位函数能准确选取长文重要段落位置,提高分类准确率。
图6为不同特征提取网络和本专利特征提取网络的分类正确率的对比,如图可以看出,采用相同的定位函数,本发明的特征提取网络大大提高了模型的分类准确率。说明软注意力机制的加入能更高的帮助模型提取重要特征,从单词到句子再到段落的层次模型,能更全面的表示文本语义,提高优化速率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术方法范围内,可轻易想到的替换或变换方法,都应该涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于注意力机制的长文分类方法,其特征在于,包括如下步骤:
步骤1、构建深度学习网络模型,深度学习网络模型包括特征定位网络、特征提取网络和分类网络;
步骤2、对文本数据进行预处理,采用按序分割的方法,将预处理后的文本数据拆分成N个段落;
步骤3、特征定位网络筛选出N个段落中,包含有用信息最多的K个段落;包括:
特征定位网络为卷积神经网络,其通过特征定位函数选取关键段落,特征定位函数的表达式为:
Figure FDA0004123274330000011
公式(1)中,Wp
Figure FDA0004123274330000012
均为模型超参数,在后续模型训练中一同优化;通过定义激活函数sigmoid,将位置
Figure FDA0004123274330000016
固定在[0:N-1]之间;
Figure FDA0004123274330000013
其中,Ci代表第i个段落的卷积特征;Sigmoid(*)和gelu(*)均为激活函数;通过设置超参数Wp
Figure FDA0004123274330000014
维度,将
Figure FDA0004123274330000017
固定为K维向量,分别对应K个段落,该K个段落即为包含有用特征最多的段落位置,记为
Figure FDA0004123274330000015
以此作为后续特征提取网络的输入;
步骤4、特征提取网络对K个段落进行词级、句子级和段落级分层特征提取;包括:
特征提取网络包括卷积神经网络和双向长短期记忆网络,分为词级注意层、句子级注意层和段落级注意层三部分,使用层次结构,对输入文本分层提取特征;
词级注意层先使用卷积神经网络提取文本单词级向量的局部特征,然后利用双向长短期记忆网络关联各个单词的前后文本特征,结合单词的前向特征和后向特征,构成单词的特征向量;引入软注意力层给各个单词的注意力分配不同的权重值,每T个单词加权求和构成每个句子的特征向量;
句子级注意层和词级注意层结构相同,先经过卷积神经网络获取各个句子的局部特征,然后利用双向长短期记忆网络关联各个句子的前后文本特征,引入软注意力层计算每个句子的权重,每L个句子级特征加权求和构成每个段落的特征向量;
段落级注意层采用与句子级注意层相同的结构,先利用卷积神经网络提取各个段落的局部特征,然后利用双向长短期记忆网络关联各个段落的前后文本特征,引入软注意力层计算各个段落的权重,最后所有K个段落特征加权求和构成最终的文档向量作为文本表示,输入到分类网络;
步骤5、分类网络根据步骤4的特征提取结果,预测长文类别。
2.根据权利要求1所述的基于注意力机制的长文分类方法,其特征在于,步骤2包括:
删除文本数据中的非常规单词,采用embedding的方式,将文本数据中的单词转化为词向量,继而将文本数据内的单词转化成词向量的编号,得到纯数字的词向量数组文件;统一长文单词个数为n,对于单词个数超过n的长文,删除多余单词;对于单词个数未满n的文本,采用补零的方式进行填充;
设置长文每句话的单词个数,按照每T个单词为一个有效句子,每L个句子为一个段落的方法,将长文由上到下按序分割成N个段落。
3.根据权利要求1所述的基于注意力机制的长文分类方法,其特征在于,
对于K个段落,每个段落有L个句子,表示为
Figure FDA0004123274330000021
每个句子有T个单词,表示为
Figure FDA0004123274330000022
词级注意层卷积神经网络的个数输入单词数为T*L*k,网络首先提取每一个词向量的卷积特征,采用大小为3、4、5的卷积核,经过卷积层,每一个词向量会得到3组特征g1,g2,g3,将特征合并成[g1;g2;g3],使用最大池化层,筛选出特征向量
Figure FDA0004123274330000023
作为双向长短期记忆网络的输入,如公式(2)所示;
Figure FDA0004123274330000024
双向长短期记忆网络从句子的两端依次读取每一个单词,公式为:
Figure FDA0004123274330000025
Figure FDA0004123274330000026
通过连接前向长短期记忆特征
Figure FDA0004123274330000027
和后向长短期记忆特征
Figure FDA0004123274330000028
得到单词
Figure FDA0004123274330000029
的综合特征
Figure FDA00041232743300000210
Figure FDA00041232743300000211
通过对单词
Figure FDA00041232743300000212
周围的信息的总结,完成单词的特征表示;
引入软注意力层,对各个单词的注意力分配不同的权重值,公式如下:
Figure FDA00041232743300000213
Figure FDA0004123274330000031
Figure FDA0004123274330000032
公式(5)至(7)中,Wω、bω、uω均为模型超参数,uω为字级上下文向量,经过随机初始化后跟随网络的训练而优化;公式(5),通过单层的线性层,单词级特征hit在激活函数tanh的作用下进行变换;公式(6),通过使用sotfmax函数来度量单词的重要性,即使用softmax函数计算uit和字级上下文向量uω的相似性得到规范化权重;最后通过公式(7),句子si的特征表示,由句子中每个单词的加权求和得来。
4.根据权利要求3所述的基于注意力机制的长文分类方法,其特征在于,
句子级注意层:计算得到句子级特征
Figure FDA0004123274330000033
后,和词级注意层使用相同的模型和算法可以得到各个句子的重要性权重,进而计算各个段落的特征向量;
对于K个段落中的所有句子,首先使用卷积神经网络和双向长短期记忆网络对句子进行编码:
Figure FDA0004123274330000034
Figure FDA0004123274330000035
Figure FDA0004123274330000036
连接双向长短期记忆网络得到句子si的表示
Figure FDA0004123274330000037
引入注意力机制和句子级上下文向量us,使用概率值来度量每一个句子的重要性,公式如下:
Figure FDA0004123274330000038
Figure FDA0004123274330000039
Figure FDA00041232743300000310
公式(11)至(13)中,pk是总结了段落中所有句子信息,对不同的句子给予了不同的注意力,即权重值;句子特征向量和权重值加权求和后构成段落级信息向量;句子级上下文向量us和超参数Ws、bs在模型训练过程中随机初始化和学习优化。
5.根据权利要求4所述的基于注意力机制的长文分类方法,其特征在于,
段落级注意层:首先使用卷积神经网络和双向长短期记忆网络对K个段落分别进行编码:
rk=CNN(pk),k∈[1,K]                       (14)
Figure FDA0004123274330000041
Figure FDA0004123274330000042
Figure FDA0004123274330000043
将双向长短期记忆网络提取的特征连接,得到段落pk的特征表示;
引入软注意力机制和段落级上下文向量uv,通过权重大小度量每一个段落对文本分类的贡献程度,公式如下:
uk=tanh(Wvhk+bv)                     (18)
Figure FDA0004123274330000044
v=∑kαkhk                          (20)
比较所有K个段落的特征的重要性并加权求和构成长文档特征表示的向量v,作为最终分类网络的输入;
其中,Wv、bv均为超参数,在模型训练过程中随机初始化和学习优化。
6.根据权利要求5所述的基于注意力机制的长文分类方法,其特征在于,步骤5包括:
分类网络包括全连接层和Softmax分类器,通过公式(21)得出分类结果:
Figure FDA0004123274330000045
Figure FDA0004123274330000046
训练方式为最小化公式(22)中的交叉熵损失函数,其中x表示样本,G表示单次输入总个数,超参数Wc、bc在模型训练过程中随机初始化和学习优化,通过计算真实标签y和预测标签
Figure FDA0004123274330000051
之间的损失函数,采用Adam bp算法反向更新梯度。
CN202010907188.3A 2020-09-02 2020-09-02 一种基于注意力机制的长文分类方法 Active CN111984791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010907188.3A CN111984791B (zh) 2020-09-02 2020-09-02 一种基于注意力机制的长文分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010907188.3A CN111984791B (zh) 2020-09-02 2020-09-02 一种基于注意力机制的长文分类方法

Publications (2)

Publication Number Publication Date
CN111984791A CN111984791A (zh) 2020-11-24
CN111984791B true CN111984791B (zh) 2023-04-25

Family

ID=73448316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010907188.3A Active CN111984791B (zh) 2020-09-02 2020-09-02 一种基于注意力机制的长文分类方法

Country Status (1)

Country Link
CN (1) CN111984791B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463924B (zh) * 2020-11-27 2022-07-05 齐鲁工业大学 面向智能问答基于内部相关性编码的文本意图匹配方法
CN112836049B (zh) * 2021-01-28 2023-04-07 杭州网易智企科技有限公司 一种文本分类方法、装置、介质和计算设备
CN113360660B (zh) * 2021-07-27 2024-08-16 北京有竹居网络技术有限公司 文本类别识别方法、装置、电子设备和存储介质
CN114153969B (zh) * 2021-11-09 2024-06-21 浙江大学 一种高准确率高效的文本分类系统
CN115827856B (zh) * 2022-07-26 2023-06-20 国家国防科技工业局军工项目审核中心 一种基于计算机的军工领域消息的传递方法
CN117474004B (zh) * 2023-10-17 2024-08-23 中投国信(北京)科技发展有限公司 一种用户信用恢复评估方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN110196980A (zh) * 2019-06-05 2019-09-03 北京邮电大学 一种基于卷积网络在中文分词任务上的领域迁移
CN110874411A (zh) * 2019-11-20 2020-03-10 福州大学 一种基于注意力机制融合的跨领域情感分类系统
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3591521B1 (en) * 2018-07-05 2023-07-26 Honda Research Institute Europe GmbH Assistance system, method, and program for assisting a user in fulfilling a task

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN110196980A (zh) * 2019-06-05 2019-09-03 北京邮电大学 一种基于卷积网络在中文分词任务上的领域迁移
CN110874411A (zh) * 2019-11-20 2020-03-10 福州大学 一种基于注意力机制融合的跨领域情感分类系统
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Xuesong Li et al..A Hybrid of Hard and Soft Attention for Person Re-Identification.《2019 Chinese Automation Congress (CAC)》.2020,2433-2438. *
姜恬静.基于深度学习的长文档分类方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2021,I138-2995. *
熊蜀峰.面向社交媒体的观点分析技术研究.《中国博士学位论文全文数据库 信息科技辑》.2020,I138-155. *

Also Published As

Publication number Publication date
CN111984791A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
US20220147836A1 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN110263325B (zh) 中文分词系统
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN111563143A (zh) 一种新词的确定方法及装置
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN116910013A (zh) 基于语义流图挖掘的系统日志异常检测方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115062727A (zh) 一种基于多阶超图卷积网络的图节点分类方法及系统
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN117764084A (zh) 基于多头注意力机制与多模型融合的短文本情感分析方法
CN113204640A (zh) 一种基于注意力机制的文本分类方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant