CN113947161A - 一种基于注意力机制的多标签文本分类方法及系统 - Google Patents

一种基于注意力机制的多标签文本分类方法及系统 Download PDF

Info

Publication number
CN113947161A
CN113947161A CN202111267036.2A CN202111267036A CN113947161A CN 113947161 A CN113947161 A CN 113947161A CN 202111267036 A CN202111267036 A CN 202111267036A CN 113947161 A CN113947161 A CN 113947161A
Authority
CN
China
Prior art keywords
label
text
labels
layer
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111267036.2A
Other languages
English (en)
Inventor
郭绮雯
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202111267036.2A priority Critical patent/CN113947161A/zh
Publication of CN113947161A publication Critical patent/CN113947161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于注意力机制的多标签文本分类方法及系统,涉及多标签文本分类的技术领域,解决了当前多标签文本分类方法大多忽略标签与文本之间关联性,在标签规模大,类别分布不均衡时,分类准确率低的问题,基于图嵌入算法优化标签之间的相似度,得到标签结构矩阵,保留标签的全局结构和局部结构,再通过构建基于卷积神经网络和注意力机制的多标签文本分类模型,利用卷积神经网络进行文本深层的特征提取,利用注意力机制捕获标签结构与文档内容的潜在关系,进行了更深层次的挖掘,能在标签规模大、标签分布不均衡的情况下,充分利用训练集中的标签信息,提高了多标签文本分类的准确度。

Description

一种基于注意力机制的多标签文本分类方法及系统
技术领域
本发明涉及多标签文本分类的技术领域,更具体地,涉及一种基于注意力机制的多标签文本分类方法及系统。
背景技术
随着互联网技术的蓬勃发展,信息的高速生成和传播使得社会各行各业都产生了翻天覆地的变化。从以往的“信息匮乏”到如今的“信息爆炸”,信息的几何级增长让海量的技术和资讯变得触手可及,但与此同时,各种无效的垃圾信息也很轻易地进入人们的生活。面对如此庞大的数据,通过人工处理的方式逐个归类选取人们所需的信息极度耗时。因此,如何对获取的资源信息进行准确快速分类,是一个十分迫切待解决的问题。
文本分类是自然语言处理的一项基本任务。传统的文本分类技术主要关注单标签分类,在单标签分类问题中,每个样本仅属于一个相应的类别,每个类别之间存在着明显的界限。但在某些场景之下,例如,在学术论文的分类中,假如一篇论文同时属于生物领域,也属于人工智能领域,仅把其划分至一个类别,则不全面,分类的粒度比较粗,也将导致资源信息无法被正确利用和归类。多标签分类要处理的即是现实生活中文本具有多个类别的任务,相比单标签分类,多标签文本分类在现实生活中更为常见,同时也更加困难。
目前,多标签分类方法主要有两种解决方法:基于问题转化的方法以及基于算法扩展的方法。基于问题转化的方法的思路简单直接:将多标签分类问题拆解成多个单标签分类问题,为每个子问题构造分类器,然后把所有的分类器集成起来。例如,Binaryrelevance为每一个类别都训练一个分类器,虽然这种方法很直观高效,但是由于没有考虑标签之间的相关性,算法的泛化性能可能无法达到最优,当标签数目大的时候,标签的子集数目大,分类效率会面临较大的挑战。第二种方法是基于算法扩展的方法,它是在传统的单标签分类问题上进行重新设计,使之适用于多标签分类问题。然而,标签和文本之间的相关性往往起到很重要的作用,现有方法大多忽视了这一关系。
2019年9月6日,中国发明专利(公布号:CN1102009823A)中公开了一种多标签文本分类方法及系统,首先获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;对标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。在该方案中,引入向量余弦距离作为标签和文本之间的相似度度量标准,建模了标签和文本之间的相关性,采用LSTM作为句子的底层特征抽取器,能抽取出句子序列具有全局信息的语义上下文向量;在其后接入CNN聚合句子中单词的周围邻域的局部信息,将全局信息和局部信息进行融合,能获得更准确表达句子的语义向量。
发明内容
为解决当前多标签文本分类方法大多忽略标签与文本之间关联性,在标签规模大,类别分布不均衡时,分类准确率低的问题,本发明提出一种基于注意力机制的多标签文本分类方法及系统,基于标签、文本之间的关联性,利用注意力机制捕获标签与文本之间的潜在关系,提高多标签文本分类的准确度。
为了达到上述技术效果,本发明的技术方案如下:
一种基于注意力机制的多标签文本分类方法,包括以下步骤:
获取包含标签的文本训练集;
对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量;
根据文本训练集中标签的共存情况构建标签共存图,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵;
构建基于卷积神经网络和注意力机制的多标签文本分类模型;
利用多标签分类模型的卷积神经网络对文本特征向量进行卷积操作,结合标签结构矩阵,利用注意力机制使卷积操作后的文本特征向量学习文本和标签之间的关系,从而训练多标签文本分类模型;
利用训练好的多标签文本分类模型进行多标签文本分类测试。
在本技术方案中,基于图嵌入算法优化标签之间的相似度,得到标签结构矩阵,保留了标签的全局结构和局部结构,再通过构建基于卷积神经网络和注意力机制的多标签文本分类模型,利用卷积神经网络进行文本深层的特征提取,利用注意力机制捕获标签结构与文档内容的潜在关系,进行了更深层次的挖掘,能在标签规模大、标签分布不均衡的情况下,也能充分利用训练集中的标签信息,提高多标签文本分类的准确度。
优选地,获取包含标签的文本训练集之前还包括:获取待分类文本数据集,对数据集中的待分类文本进行预处理操作;包含标签的文本训练集从预处理后的待分类文本数据集中获得。
优选地,所述对数据集中的待分类文本进行的预处理操作包括:
使用正则表达式对待分类文本进行文本过滤,然后对文本过滤后的待分类文本进行分词,去除停用词,并进行词性还原。文本过滤以去除文本中的不需要的、干扰的特殊符号。
优选地,使用Glove词向量对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量。
优选地,所述的标签共存图表示为:
G=(V,E)
其中,标签共存图G中的顶点、边均与邻接矩阵S相关,邻接矩阵S表示大小为k*k的矩阵,k表示标签的数量;V={v1,v2,…,vk}是图的顶点集,顶点个数与标签的数量相同;
Figure BDA0003327120140000031
是图G的边集,邻接矩阵S的元素由标签的共存性确定,若第i个标签和第j个标签共同出现,均作为某一文本的标签时,则第i个标签和第j个标签之间连有一条边,邻接矩阵S中的元素满足:S[i][j]=1,否则,S[i][j]=0。
优选地,所述图嵌入算法为SDNE算法,SDNE算法中存在一个自动编码器,同时优化一阶相似度和二阶相似度:其中,一阶相似度衡量标签共存图G中两个顶点对之间的相似程度,表示局部结构,二阶相似度衡量标签共存图G中两个顶点与其邻域的相似程度,表示全局结构,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵的过程为:
S101.构建自动编码器的损失函数,表达式为:
Lmin=vLreg+aL1st+L2nd
其中,L1st表示一阶相似度,α表示控制一阶相似度L1st的超参数,L2nd表示二阶相似度,Lreg表示L2nd的正则化项,用来防止过拟合;v表示控制Lreg正则化项的超参数;
一阶相似度L1st衡量标签共存图G中两个顶点对之间的相似程度,表示局部结构,表达式为:
L1st=2tr(YTLY)
其中,Y表示顶点的嵌入向量,L表示拉普拉斯矩阵;
二阶相似度L2nd衡量标签共存图G中两个顶点与其邻域的相似程度,表示全局结构,表达式为:
Figure BDA0003327120140000041
其中,⊙表示哈达玛积,S为邻接矩阵,
Figure BDA0003327120140000042
为自动编码器重构后的邻接矩阵,B表示一个形状与邻接矩阵S相同的矩阵,当si,j=0时,bi,j=1,当si,j=1时,bi,j=>1,β表示参数,以控制邻接矩阵中非零元素的重构程度;
S102.确定邻接矩阵S的元素后,将邻接矩阵S输入自动编码器,利用反向传播的方式训练自动编码器,使损失函数取得最小值;
S103.自动编码器训练完成后,将k*k的邻接矩阵S表示为k*c的标签结构矩阵,其中c<k。
在此,SDNE图嵌入算法学习到标签结构矩阵的低维向量表示,能保留标签共存图的局部结构和全局结构,以充分利用训练集中的标签信息,且对稀疏网络具有鲁棒性,即使标签的规模量大,SDNE图嵌入算法也可以在低维向量空间中表示标签之间的关联性。
优选地,构建的基于卷积神经网络和注意力机制的多标签文本分类模型包括m个相同的模型处理分支、拼接层、全连接层及分类层;所述m个相同的模型处理分支中的每一个模型处理分支均包括依次相连的卷积层、注意力机制层及最大池化层,所述卷积层由卷积神经网络构成,采用了不同核宽的卷积核;每一个模型处理分支的最大池化层均连接拼接层,拼接层连接全连接层,全连接层连接分类层。
优选地,多维的文本特征向量输入每一个模型处理分支中的卷积层,卷积层的卷积神经网络对文本特征向量进行卷积操作,提取文本特征,卷积操作后的文本特征向量表示为:X=[x1,x2,…,xN],N表示训练集中文本的数量;xi表示卷积操作后的第i个文本特征向量;
将标签结构矩阵作为注意力机制层中的索引Query,令Key=Value=X,其中,Key表示注意力机制的“键”,Value表示注意力机制的“值”,利用点积运算计算每一个卷积操作后的文本特征向量的注意力分数:
Figure BDA0003327120140000051
其中,Score(.)表示注意力分数;使用Softmax函数对注意力分数进行归一化得到注意力分布:
λi=Softmax(Score(xi,Query))
根据注意力分布对Value进行加权求和,注意力机制层输出新的特征向量表示:
Figure BDA0003327120140000052
最大池化层对注意力层输出的新的特征向量使用最大池化,输出:y1,y2,…,ym,其中m表示输出的个数,也是模型处理分支的个数,利用拼接层将y1,y2,…,ym拼接为一个向量Y=[y1,y2,…,ym],从而进行特征融合;
优选地,基于拼接层特征融合后的结果传输至全连接层进行降维,通过分类层进行分类,得到预测标签ypred,y[red表示多标签文本分类模型预测样本属于每一类的概率值;利用反向传播的方式多次训练多标签文本分类模型,比对预测标签ypred和真实标签ytrue之间的差异,更新多标签文本分类模型的内部参数,从而得到训练好的多标签文本分类模型。
本发明还提出一种基于注意力机制的多标签文本分类系统,所述系统包括:
训练集获取模块,用于获取包含标签的文本训练集;
词向量转化模块,用于对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量;
标签结构矩阵获取模块,根据文本训练集中标签的共存情况构建标签共存图,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵;
多标签文本分类模型构建模块,用于构建基于卷积神经网络和注意力机制的多标签文本分类模型;
多标签文本分类模型训练模块,用于利用多标签分类模型的卷积神经网络对文本特征向量进行卷积操作,结合标签结构矩阵,利用注意力机制使卷积操作后的文本特征向量学习文本和标签之间的关系,从而训练多标签文本分类模型;
测试模块,利用训练好的多标签文本分类模型进行多标签文本分类测试。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于注意力机制的多标签文本分类方法及系统,相较于当前多标签分类方法,本发明所提出的方法基于图嵌入算法优化标签之间的相似度,得到标签结构矩阵,保留了标签的全局结构和局部结构,再通过构建基于卷积神经网络和注意力机制的多标签文本分类模型,利用卷积神经网络进行文本深层的特征提取,利用注意力机制捕获标签结构与文档内容的潜在关系,进行了更深层次的挖掘,能在标签规模大、标签分布不均衡的情况下,充分利用训练集中的标签信息,提高了多标签文本分类的准确度。
附图说明
图1表示本发明实施例1中提出的基于注意力机制的多标签文本分类方法的流程示意图;
图2表示本发明实施例1中提出的基于卷积神经网络和注意力机制的多标签文本分类模型的结构示意图;
图3表示本发明实施例2中提出的基于注意力机制的多标签文本分类方法的结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
考虑当前多标签文本分类方法大多忽略标签与文本之间关联性,在标签规模大,类别分布不均衡时,分类准确率低的问题,本实施例中提出了一种基于注意力机制的多标签文本分类方法,该方法的流程示意图参见图1,所述方法包括以下步骤:
S1.获取包含标签的文本训练集;
在本实施例中,获取包含标签的文本训练集之前还包括:获取待分类文本数据集,对数据集中的待分类文本进行预处理操作;包含标签的文本训练集从预处理后的待分类文本数据集中获得。
其中,对数据集中的待分类文本进行的预处理操作包括:
使用正则表达式对待分类文本进行文本过滤,然后对文本过滤后的待分类文本进行分词,去除停用词,并进行词性还原。文本过滤以去除文本中的不需要的、干扰的特殊符号,如tab键显示、回车键显示、标点符号、html文本等,利用自然语言处理工具包(NaturalLanguage Toolkit,简称NLTK)去除停用词、进行词性还原。
S2.对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量;
对文本训练集中的文本进行词向量化的方式有多种,在本实施例中,使用Glove词向量对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量。
S3.根据文本训练集中标签的共存情况构建标签共存图,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵;
S4.构建基于卷积神经网络和注意力机制的多标签文本分类模型;
S5.利用多标签分类模型的卷积神经网络对文本特征向量进行卷积操作,结合标签结构矩阵,利用注意力机制使卷积操作后的文本特征向量学习文本和标签之间的关系,从而训练多标签文本分类模型;
S6.利用训练好的多标签文本分类模型进行多标签文本分类测试。
本实施例提出的方法总体上基于图嵌入算法优化标签之间的相似度,得到标签结构矩阵,保留了标签的全局结构和局部结构,再通过构建基于卷积神经网络和注意力机制的多标签文本分类模型,利用卷积神经网络进行文本深层的特征提取,利用注意力机制捕获标签结构与文档内容的潜在关系,进行了更深层次的挖掘,能在标签规模大、标签分布不均衡的情况下,也能充分利用训练集中的标签信息,从而提高多标签文本分类的准确度。
在本实施例中,标签共存图是基于标签共存性和图论的方式构建,步骤S3所述的标签共存图表示为:
G=(V,E)
其中,标签共存图G中的顶点、边均与邻接矩阵S相关,邻接矩阵S表示大小为k*k的矩阵,k表示标签的数量;V={v1,v2,…,vk}是图的顶点集,顶点个数与标签的数量相同;
Figure BDA0003327120140000071
是图G的边集,邻接矩阵S的元素由标签的共存性确定,若第i个标签和第j个标签共同出现,均作为某一文本的标签时,则第i个标签和第j个标签之间连有一条边,邻接矩阵S中的元素满足:S[i][j]=1,否则,S[i][j]=0。
在本实施例中,图嵌入算法为SDNE算法,SDNE图嵌入算法学习到标签结构矩阵的低维向量表示,能保留标签共存图的局部结构和全局结构,以充分利用训练集中的标签信息,且对稀疏网络具有鲁棒性,即使标签的规模量大,SDNE图嵌入算法也可以在低维向量空间中表示标签之间的关联性。
SDNE算法中存在一个自动编码器,同时优化一阶相似度和二阶相似度:其中,一阶相似度衡量标签共存图G中两个顶点对之间的相似程度,表示局部结构,二阶相似度衡量标签共存图G中两个顶点与其邻域的相似程度,表示全局结构,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵的过程为:
S101.构建自动编码器的损失函数,表达式为:
Lmin=vLreg+aL1st+L2nd
其中,L1st表示一阶相似度,α表示控制一阶相似度L1st的超参数,L2nd表示二阶相似度,Lreg表示L2nd的正则化项,用来防止过拟合;v表示控制Lreg正则化项的超参数;
一阶相似度L1st衡量标签共存图G中两个顶点对之间的相似程度,表示局部结构,表达式为:
L1st=2tr(YTLY)
其中,Y表示顶点的嵌入向量,L表示拉普拉斯矩阵;
一阶相似度其实就是指对于任意一对节点,如果S[i][j]﹥0,那么标签i对应的顶点和标签j对应的顶点之间就存在正的一阶相似度,否则为0。
二阶相似度L2nd衡量标签共存图G中两个顶点与其邻域的相似程度,表示全局结构,表达式为:
Figure BDA0003327120140000081
其中,⊙表示哈达玛积,S为邻接矩阵,
Figure BDA0003327120140000082
为自动编码器重构后的邻接矩阵,B表示一个形状与邻接矩阵S相同的矩阵,当si,j=0时,bi,j=1,当si,j=1时,bi,j=β>1,β表示参数,以控制邻接矩阵中非零元素的重构程度;
S102.确定邻接矩阵S的元素后,将邻接矩阵S输入自动编码器,利用反向传播的方式训练自动编码器,使损失函数取得最小值;
S103.自动编码器训练完成后,将k*k的邻接矩阵S表示为k*c的标签结构矩阵,其中c<k。
如图2所示的结构示意图,所述构建的基于卷积神经网络和注意力机制的多标签文本分类模型用标记1表示,基于卷积神经网络和注意力机制的多标签文本分类模型包括m个相同的模型处理分支101、拼接层、全连接层及分类层,在本实施例中,m为3,即模型处理分支101共3个;每一个模型处理分支101均包括依次相连的卷积层、注意力机制层及最大池化层,卷积层由卷积神经网络构成,采用了不同核宽的卷积核;每一个模型处理分支101的最大池化层均连接拼接层,拼接层连接全连接层,全连接层连接分类层。
在本实施例中,步骤S2得到的多维的文本特征向量输入每一个模型处理分支101中的卷积层,卷积层的卷积神经网络对文本特征向量进行卷积操作,提取文本特征,设卷积操作后的文本特征向量表示为:X=[x1,x2,…,xN],N表示训练集中文本的数量;xi表示卷积操作后的第i个文本特征向量;
将步骤S3得到的标签结构矩阵作为注意力机制层中的索引Query,令Key=Value=X,其中,Key表示注意力机制的“键”,Value表示注意力机制的“值”,利用点积运算计算每一个卷积操作后的文本特征向量的注意力分数:
Figure BDA0003327120140000091
其中,Score(.)表示注意力分数;使用Softmax函数对注意力分数进行归一化得到注意力分布:
λi=Softmax(Score(xi,Query))
根据注意力分布对Value进行加权求和,注意力机制层输出新的特征向量表示:
Figure BDA0003327120140000092
最大池化层对注意力层输出的新的特征向量使用最大池化,输出:y1,y2,…,ym,其中m表示输出的个数,在本实施例中,输出:y1,y2,y3,也是模型处理分支的个数,利用拼接层将y1,y2,y3拼接为一个向量Y=[y1,y2,…,y3],从而进行特征融合;
基于拼接层特征融合后的结果传输至全连接层进行降维,通过分类层进行分类,得到预测标签ypred,ypred表示多标签文本分类模型预测样本属于每一类的概率值;利用反向传播的方式多次训练多标签文本分类模型,比对预测标签ypred和真实标签ytrue之间的差异,更新多标签文本分类模型的内部参数,从而得到训练好的多标签文本分类模型,此处训练的过程为本领域技术人员所熟知,此处不再赘述。
后续,在多标签分类模型训练好之后,根据需要确定一批待分类的多标签文本,利用训练好的多标签分类模型进行分类测试。
实施例2
如图3所示,本发明还提出一种基于注意力机制的多标签文本分类系统,该系统用于实现实施例1中所提出的多标签分类方法,所述系统包括:
训练集获取模块11,用于获取包含标签的文本训练集;
词向量转化模块12,用于对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量;
标签结构矩阵获取模块13,根据文本训练集中标签的共存情况构建标签共存图,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵;
多标签文本分类模型构建模块14,用于构建基于卷积神经网络和注意力机制的多标签文本分类模型;
多标签文本分类模型训练模块15,用于利用多标签分类模型的卷积神经网络对文本特征向量进行卷积操作,结合标签结构矩阵,利用注意力机制使卷积操作后的文本特征向量学习文本和标签之间的关系,从而训练多标签文本分类模型;
测试模块16,利用训练好的多标签文本分类模型进行多标签文本分类测试。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于注意力机制的多标签文本分类方法,其特征在于,包括以下步骤:
获取包含标签的文本训练集;
对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量;
根据文本训练集中标签的共存情况构建标签共存图,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵;
构建基于卷积神经网络和注意力机制的多标签文本分类模型;
利用多标签分类模型的卷积神经网络对文本特征向量进行卷积操作,结合标签结构矩阵,利用注意力机制使卷积操作后的文本特征向量学习文本和标签之间的关系,从而训练多标签文本分类模型;
利用训练好的多标签文本分类模型进行多标签文本分类测试。
2.根据权利要求1所述的基于注意力机制的多标签文本分类方法,其特征在于,获取包含标签的文本训练集之前还包括:获取待分类文本数据集,对数据集中的待分类文本进行预处理操作;包含标签的文本训练集从预处理后的待分类文本数据集中获得。
3.根据权利要求2所述的基于注意力机制的多标签文本分类方法,其特征在于,所述对数据集中的待分类文本进行的预处理操作包括:
使用正则表达式对待分类文本进行文本过滤,然后对文本过滤后的待分类文本进行分词,去除停用词,并进行词性还原。
4.根据权利要求1所述的基于注意力机制的多标签文本分类方法,其特征在于,使用Glove词向量对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量。
5.根据权利要求1所述的基于注意力机制的多标签文本分类方法,其特征在于,所述的标签共存图表示为:
G=(V,E)
其中,标签共存图G中的顶点、边均与邻接矩阵S相关,邻接矩阵S表示大小为k*k的矩阵,k表示标签的数量;V={v1,v2,...,vk}是图的顶点集,顶点个数与标签的数量相同;
Figure FDA0003327120130000011
是图G的边集,邻接矩阵S的元素由标签的共存性确定,若第i个标签和第j个标签共同出现,均作为某一文本的标签时,则第i个标签和第j个标签之间连有一条边,邻接矩阵S中的元素满足:S[i][j]=1,否则,S[i][j]=0。
6.根据权利要求5所述的基于注意力机制的多标签文本分类方法,其特征在于,所述图嵌入算法为SDNE算法,SDNE算法中存在一个自动编码器,同时优化一阶相似度和二阶相似度:其中,一阶相似度衡量标签共存图G中两个顶点对之间的相似程度,表示局部结构,二阶相似度衡量标签共存图G中两个顶点与其邻域的相似程度,表示全局结构,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵的过程为:
S101.构建自动编码器的损失函数,表达式为:
Lmin=vLreg+αL1st+L2nd
其中,L1st表示一阶相似度,α表示控制一阶相似度L1st的超参数,L2nd表示二阶相似度,Lreg表示L2nd的正则化项,用来防止过拟合;v表示控制Lreg正则化项的超参数;
一阶相似度L1st衡量标签共存图G中两个顶点对之间的相似程度,表示局部结构,表达式为:
L1st=2tr(YTLY)
其中,Y表示顶点的嵌入向量,L表示拉普拉斯矩阵;
二阶相似度L2nd衡量标签共存图G中两个顶点与其邻域的相似程度,表示全局结构,表达式为:
Figure FDA0003327120130000021
其中,⊙表示哈达玛积,S为邻接矩阵,
Figure FDA0003327120130000022
为自动编码器重构后的邻接矩阵,B表示一个形状与邻接矩阵S相同的矩阵,当si,j=0时,bi,j=1,当si,j=1时,bi,j=β>1,β表示参数,以控制邻接矩阵中非零元素的重构程度;
S102.确定邻接矩阵S的元素后,将邻接矩阵S输入自动编码器,利用反向传播的方式训练自动编码器,使损失函数取得最小值;
S103.自动编码器训练完成后,将k*k的邻接矩阵S表示为k*c的标签结构矩阵,其中c<k。
7.根据权利要求6所述的基于注意力机制的多标签文本分类方法,其特征在于,构建的基于卷积神经网络和注意力机制的多标签文本分类模型包括m个相同的模型处理分支、拼接层、全连接层及分类层;所述m个相同的模型处理分支中的每一个模型处理分支均包括依次相连的卷积层、注意力机制层及最大池化层,所述卷积层由卷积神经网络构成,采用了不同核宽的卷积核;每一个模型处理分支的最大池化层均连接拼接层,拼接层连接全连接层,全连接层连接分类层。
8.根据权利要求7所述的基于注意力机制的多标签文本分类方法,其特征在于,多维的文本特征向量输入每一个模型处理分支中的卷积层,卷积层的卷积神经网络对文本特征向量进行卷积操作,提取文本特征,卷积操作后的文本特征向量表示为:X=[x1,x2,...,xN],N表示训练集中文本的数量;xi表示卷积操作后的第i个文本特征向量;
将标签结构矩阵作为注意力机制层中的索引Query,令Key=Value=X,其中,Key表示注意力机制的“键”,Value表示注意力机制的“值”,利用点积运算计算每一个卷积操作后的文本特征向量的注意力分数:
Figure FDA0003327120130000031
其中,Score(.)表示注意力分数;使用Softmax函数对注意力分数进行归一化得到注意力分布:
λi=Softmax(Score(xi,Query))
根据注意力分布对Value进行加权求和,注意力机制层输出新的特征向量表示:
Figure FDA0003327120130000032
最大池化层对注意力层输出的新的特征向量使用最大池化,输出:y1,y2,...,ym,其中m表示输出的个数,也是模型处理分支的个数,利用拼接层将y1,y2,...,ym拼接为一个向量Y=[y1,y2,...,ym],从而进行特征融合。
9.根据权利要求8所述的基于注意力机制的多标签文本分类方法,其特征在于,基于拼接层特征融合后的结果传输至全连接层进行降维,通过分类层进行分类,得到预测标签ypred,ypred表示多标签文本分类模型预测样本属于每一类的概率值;利用反向传播的方式多次训练多标签文本分类模型,比对预测标签ypred和真实标签ytrue之间的差异,更新多标签文本分类模型的内部参数,从而得到训练好的多标签文本分类模型。
10.一种基于注意力机制的多标签文本分类系统,其特征在于,所述系统包括:
训练集获取模块,用于获取包含标签的文本训练集;
词向量转化模块,用于对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量;
标签结构矩阵获取模块,根据文本训练集中标签的共存情况构建标签共存图,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵;
多标签文本分类模型构建模块,用于构建基于卷积神经网络和注意力机制的多标签文本分类模型;
多标签文本分类模型训练模块,用于利用多标签分类模型的卷积神经网络对文本特征向量进行卷积操作,结合标签结构矩阵,利用注意力机制使卷积操作后的文本特征向量学习文本和标签之间的关系,从而训练多标签文本分类模型;
测试模块,利用训练好的多标签文本分类模型进行多标签文本分类测试。
CN202111267036.2A 2021-10-28 2021-10-28 一种基于注意力机制的多标签文本分类方法及系统 Pending CN113947161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111267036.2A CN113947161A (zh) 2021-10-28 2021-10-28 一种基于注意力机制的多标签文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111267036.2A CN113947161A (zh) 2021-10-28 2021-10-28 一种基于注意力机制的多标签文本分类方法及系统

Publications (1)

Publication Number Publication Date
CN113947161A true CN113947161A (zh) 2022-01-18

Family

ID=79336963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111267036.2A Pending CN113947161A (zh) 2021-10-28 2021-10-28 一种基于注意力机制的多标签文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN113947161A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220874A (zh) * 2021-03-13 2021-08-06 山东师范大学 一种多标签文本分类方法及系统
CN115905533A (zh) * 2022-11-24 2023-04-04 重庆邮电大学 一种多标签文本智能分类方法
CN116188867A (zh) * 2023-03-07 2023-05-30 山东省人工智能研究院 一种基于注意力增强网络的多标签心电图像分类方法
CN116308754A (zh) * 2023-03-22 2023-06-23 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法
CN116524240A (zh) * 2023-03-30 2023-08-01 国网智能电网研究院有限公司 电力作业场景违章行为识别模型、方法、装置及存储介质
CN117893839A (zh) * 2024-03-15 2024-04-16 华东交通大学 一种基于图注意力机制的多标记分类方法及系统
CN117893839B (zh) * 2024-03-15 2024-06-07 华东交通大学 一种基于图注意力机制的多标记分类方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN112711953A (zh) * 2021-01-19 2021-04-27 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统
US20210216880A1 (en) * 2019-01-02 2021-07-15 Ping An Technology (Shenzhen) Co., Ltd. Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on textcnn
CN113220874A (zh) * 2021-03-13 2021-08-06 山东师范大学 一种多标签文本分类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
US20210216880A1 (en) * 2019-01-02 2021-07-15 Ping An Technology (Shenzhen) Co., Ltd. Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on textcnn
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN112711953A (zh) * 2021-01-19 2021-04-27 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN113220874A (zh) * 2021-03-13 2021-08-06 山东师范大学 一种多标签文本分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
饶竹一;张云翔;: "基于BiGRU和注意力机制的多标签文本分类模型", 现代计算机, no. 01, 5 January 2020 (2020-01-05) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220874A (zh) * 2021-03-13 2021-08-06 山东师范大学 一种多标签文本分类方法及系统
CN113220874B (zh) * 2021-03-13 2023-04-07 山东师范大学 一种多标签文本分类方法及系统
CN115905533A (zh) * 2022-11-24 2023-04-04 重庆邮电大学 一种多标签文本智能分类方法
CN115905533B (zh) * 2022-11-24 2023-09-19 湖南光线空间信息科技有限公司 一种多标签文本智能分类方法
CN116188867A (zh) * 2023-03-07 2023-05-30 山东省人工智能研究院 一种基于注意力增强网络的多标签心电图像分类方法
CN116188867B (zh) * 2023-03-07 2023-10-31 山东省人工智能研究院 一种基于注意力增强网络的多标签心电图像分类方法
CN116308754A (zh) * 2023-03-22 2023-06-23 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法
CN116308754B (zh) * 2023-03-22 2024-02-13 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法
CN116524240A (zh) * 2023-03-30 2023-08-01 国网智能电网研究院有限公司 电力作业场景违章行为识别模型、方法、装置及存储介质
CN117893839A (zh) * 2024-03-15 2024-04-16 华东交通大学 一种基于图注意力机制的多标记分类方法及系统
CN117893839B (zh) * 2024-03-15 2024-06-07 华东交通大学 一种基于图注意力机制的多标记分类方法及系统

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN113947161A (zh) 一种基于注意力机制的多标签文本分类方法及系统
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112925908A (zh) 一种基于Attention的图注意力网络的文本分类方法及系统
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN109582963A (zh) 一种基于极限学习机的档案自动分类方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN115631365A (zh) 一种融合知识图谱的跨模态对比零样本学习方法
CN116610816A (zh) 一种基于图卷积神经网络的人员画像知识图谱分析方法及系统
CN115048511A (zh) 一种基于Bert的护照版面分析方法
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
CN107392229B (zh) 一种基于最面向社会关系抽取的网络表示方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
Hasan et al. Bangla font recognition using transfer learning method
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN114048314A (zh) 一种自然语言隐写分析方法
Surekha et al. Digital misinformation and fake news detection using WoT integration with Asian social networks fusion based feature extraction with text and image classification by machine learning architectures
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN116579348A (zh) 基于不确定语义融合的虚假新闻检测方法及系统
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination