CN112711953A - 一种基于注意力机制和gcn的文本多标签分类方法和系统 - Google Patents
一种基于注意力机制和gcn的文本多标签分类方法和系统 Download PDFInfo
- Publication number
- CN112711953A CN112711953A CN202110066091.9A CN202110066091A CN112711953A CN 112711953 A CN112711953 A CN 112711953A CN 202110066091 A CN202110066091 A CN 202110066091A CN 112711953 A CN112711953 A CN 112711953A
- Authority
- CN
- China
- Prior art keywords
- text
- classified
- label
- vector
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 159
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 12
- 230000006872 improvement Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于注意力机制和GCN的文本多标签分类方法,包括:获取待分类文本,对该待分类文本进行预处理,并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量;将得到的多维向量输入到预先训练好的分类模型中,以得到待分类文本的分类结果。本发明利用注意力机制构建文本、单词、标签之间的语义相关性,一方面,汇总文本和标签信息形成新的文本单词表示形式,更充分地进行文本特征提取,另一方面,汇总文本和单词信息形成新的标签表示形式,利用图神经网络进行标签的相关性建模。在两个角度上提升文本多标签分类的效果。
Description
技术领域
本发明属于自然语言处理技术领域,更具体地,涉及一种基于注意力机制和图卷积网络(Graphic convolutional network,简称GCN)的文本多标签分类方法和系统。
背景技术
随着社会和网络技术的发展,存在海量文本形式的信息资源。如何对这些文本进行有效的分类,从中快速、准确、全面的挖掘有效信息,已经成为了自然语言处理研究领域的热点之一。文本分类是指为文档集合中的每个文档确定类别,存在广泛的应用场景。而多标签分类作为文本分类领域中的难点,也引起了不少的关注,目前的多标签分类方法大多考虑两部分内容:
1.特征提取,此步骤一般使用神经网络等方法来处理文本数据,学习将其映射到一个向量空间进行表示。目前,通常使用卷积神经网络、循环神经网络、以及两种网络混合使用进行文本分类,比如在TextCNN网络中,采用了多个卷积核提取词向量矩阵特征,通过多个不同的卷积核来关注文中的关键信息,从而实现提取文本特征的目的;
2.标签相关性,多标签比单标签分类任务更复杂,主要体现在标签往往是相关的。现有方法往往倾向于忽略标签之间的相关性,难以达到很好的效果。为获取和利用这种相关性,旷视研究院提出一种基于图卷积网络的多标签分类模型ML-GCN,该模型通过数据驱动的方式建立有向图并由GCN将类别标记映射为对应类别分类器,以此建模标签相关性关系。
但是,现有的多标签分类方法仍然存在一些不可忽略的缺陷:第一、循环神经网络在特征提取过程中,主要是提取语义关系,这往往会忽略文中的关键部分,从而影响文本分类准确度;第二、基于卷积神经网络(例如TextCNN)的方式容易捕捉文本中的关键部分,但由于采用了卷积操作,容易忽略文本语义关系,从而影响文本分类准确度;第三、使用GCN进行标签相关性建模大多采用数据驱动的方式,其忽略了文本的不同部分对于预测不同的标签的作用,进而会影响文本分类准确度。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于注意力机制和GCN的文本多标签分类方法和系统,其目的在于,解决现有多标签分类方法由于往往会忽略文中的关键部分,导致影响文本分类准确度的技术问题,以及由于使用卷积神经网络的卷积操作,导致容易忽略文本语义关系,从而影响文本分类准确度的技术问题,以及由于大多采用数据驱动的方式,其忽略了文本的不同部分对于预测不同的标签的作用,从而导致影响文本分类准确度的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于注意力机制和GCN的文本多标签分类方法,包括如下步骤:
(1)获取待分类文本,对该待分类文本进行预处理,并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量;
(2)将步骤(1)得到的多维向量输入到预先训练好的分类模型中,以得到待分类文本的分类结果。
优选地,步骤(1)首先是使用正则表达式对待分类文本进行数据清洗,以去除特殊符号,然后使用自然语言处理工具包(Natural Language Toolkit,简称NLTK)对去除了特殊符号后的待分类文本进行处理,以去除其中的停用词并修正其中的单词表示,最后使用Glove预训练词向量将处理后的待分类文本转换成300维向量。
优选地,分类模型包含依次连接的第一TextCNN网络、注意力网络、第二TextCNN网络以及GCN网络;
注意力网络的具体结构为:
第一层是矩阵变换层,输入为C×d维向量表示,包含文本、单词和标签的向量信息,利用三个d×C维的Q、K、V矩阵,输出3个C×C的q、k、v向量;其中C为自然数,d等于300;
第二层为注意力机制计算层,其输入为第一层得到的3个C×C维的q、k、v向量,输出为C×C维的相关性向量;
第三层为拼接层,其将第二层得到的C×C维的相关性向量与原始输入的C×d维向量进行拼接,以输出C×(C+d)维向量。
GCN网络的具体结构为:
第一层是图卷积层,其输入为标签词向量矩阵和关系矩阵,该层使用d×512维权重矩阵,该层输出为标签相关性矩阵,;
第二层是图卷积层,其输入为第一层输出的标签相关性矩阵和第一层输入的关系矩阵,该层使用512×100维权重矩阵,该层输出为标签相关性矩阵。
优选地,分类模型是通过以下步骤训练得到的:
(2-1)获取文本数据集,将该文本数据集进行预处理,并将预处理后的文本数据集按照7:2:1的比例划分为训练集、验证集、以及测试集。
(2-2)对于训练集中的每个待分类文本而言,使用Glove预训练词向量获取该待分类文本的L×d维特征向量W,并将特征向量W输入第一TextCNN网络中,以获得该待分类文本所对应的d维特征向量T,其中L表示该待分类文本的长度;
(2-3)获取训练集中的所有标签,使用Glove预训练词向量将每个标签转换为d维特征向量,所有J个标签对应的特征向量构成J×d维标签向量U,其中J表示文本数据集中的标签总数;
(2-4)对步骤(2-1)所获得的每个待分类文本对应的d维特征向量T、待分类文本单词的L×d维特征向量W、以及步骤(2-3)得到的待分类文本对应的标签向量U在行方向上进行拼接,以得到该待分类文本对应的C×d维特征向量A,其中C=L+J+1;
(2-5)将步骤(2-4)得到的每个待分类文本对应的C×d维特征向量A分别与3个d×C维的矩阵Q、K、V进行乘法处理,以获得三个C×C维向量q、k、v,并根据得到的C×C维向量q、k、v获得每个待分类文本对应的注意力分数s;
(2-8)对于训练集中的每个待分类文本而言,根据训练集中每两个标签的共现情况创建该待分类文本对应的概率矩阵P;
(2-9)针对训练集中的每个待分类文本而言,对步骤(2-8)得到的概率矩阵P进行二值化处理,以得到二值化处理后的概率矩阵P:
(2-11)针对训练集中的每个待分类文本而言,将步骤(2-7)中得到的该待分类文本对应的C×(C+d)维特征向量拆分为一个(L+1)×(C+d)维文本表示向量W′和一个J×(C+d)维标签向量U′,并将新的标签向量U′和步骤(2-10)得到的标签共现矩阵一起输入两层图神经网络GCN中,以得到该待分类文本对应的标签相关性向量H2;
(2-12)针对训练集中的每个待分类文本而言,将步骤(2-11)得到的该待分类文本对应的文本表示向量W′输入第二TextCNN网络中,以获得该待分类文本对应的特征向量F1,将该文本特征向量F1与步骤(2-11)得到的标签相关性向量H2进行点积操作,以得到该待分类文本对应的文本特征向量F。
(2-13)使用步骤(2-12)得到的每个待分类文本对应的文本特征向量F,并使用多标签分类损失函数Loss对分类模型进行迭代训练,直到该分类模型收敛为止,从而得到训练好的分类模型,并获得此时该待分类文本的预测标签。
(2-14)使用步骤(2-1)得到的测试集对步骤(2-13)训练好的分类模型进行验证,直到得到的分类精度达到最优为止,从而得到训练好的分类模型。
优选地,步骤(2-5)中,q=A×Q,k=A×K,v=A×V;
注意力分数s的计算公式如下:
优选地,步骤(2-6)是采用以下公式:
s=sigmoid(s)
其中stz表示注意力分数s中第t行第z列的值,且有t∈[1,注意力分数s中的行总数],z∈[1,注意力分数s中的列总数],sigmoid()和softmax()分别表示sigmoid和softmax函数;
步骤(2-8)中概率矩阵中的每个元素Pij是采用以下公式计算,其中i,j∈[1,J]:
其中Mij表示训练集的所有标签中第i个标签和第j个标签在训练集的共现次数,Ni表示训练集的所有标签中第i个标签在训练集中的出现次数。
优选地,步骤(2-9)是采用以下公式:
其中,α∈[0,1]。
步骤(2-10)是采用以下公式:
其中E为J×J维单位矩阵,Pi表示二值化处理后的概率矩阵P的第i行,sum(Pi)表示对二值化处理后的概率矩阵P的第i行进行求和,δ∈[0,1]。
优选地,步骤(2-11)中GCN的输出迭代公式为:
H表示GCN的输出,l表示GCN中卷积层的序号,且l∈[0,1],当l=0时,H0就是新的标签向量U′,Bl表示GCN网络中第l个卷积层的参数矩阵,f(·)表示非线性激活函数LeakyReLU,且有:
其中,a∈[0,1]。
优选地,多标签分类损失函数Loss为:
Loss={l1,...,lN},ln=-[yn·log(σ(xn))+(1-yn)·log(1-σ(xn))]
其中,N表示训练时的批大小值,即每次训练的待分类文本数,n表示标签序号,其为自然数,且n∈[1,J],yn表示待分类文本中是否含有第n个标签的真实值,xn表示待分类文本是否含有标签的预测值,σ(xn)为sigmoid函数,且有:
按照本发明的另一方面,提供了一种基于注意力机制和GCN的文本多标签分类系统,包括:
第一模块,用于获取待分类文本,对该待分类文本进行预处理,并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量;
第二模块,用于将第一模块得到的多维向量输入到预先训练好的分类模型中,以得到待分类文本的分类结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、由于本发明采用了步骤(2-4)到步骤(2-7),其使用注意力机制,获得文本、单词和标签之间的语义关系,形成新的特征向量表示,结合TextCNN方法,能够同时考虑语义关系和文本关键部分,提升特征提取能力。因此能够解决现有的多标签分类方法中处理文本语义关系和关键部分难以兼得,从而影响文本分类准确度的技术问题;
2、由于本发明采用了步骤(2-8)到步骤(2-11),其采用GCN网络构建标签的相关性,在数据驱动方式的基础上,结合文本不同部分对标签的重要程度角度考虑,来实现标签的相关性建模。因此能够解决现有多标签分类方法忽略了文本的不同部分对于预测不同的标签的作用,进而会影响文本分类准确度的技术问题;
3、本发明的方法具有普适性,能够适用于各种情况下的文本多标签分类任务。
附图说明
图1是本发明基于注意力机制和GCN的文本多标签分类方法的整体框架示意图;
图2是本发明基于注意力机制和GCN的文本多标签分类方法的流程图;
图3是本发明中使用的分类模型的网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,利用注意力机制构建文本、单词、标签之间的语义相关性,一方面,汇总文本和标签信息形成新的文本单词表示形式,更充分地进行文本特征提取,另一方面,汇总文本和单词信息形成新的标签表示形式,利用图神经网络进行标签的相关性建模。在两个角度上提升文本多标签分类的效果。
在本发明的实验中,通过在文本多标签分类的数据集上测试,本发明发现在多个数据集上的分类效果均有提升,准确率约提升2%,F1分数约提升1.5%。其原因在于,利用注意力机制形成新的向量表示形式,更充分地挖掘文本信息,利用图神经网络构造了标签的相关性建模进一步提升分类效果。
如图1和图2所示,本发明提供了一种基于注意力机制和GCN的文本多标签分类方法,包括如下步骤:
(1)获取待分类文本,对该待分类文本进行预处理,并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量;
具体而言,本步骤首先使用正则表达式对待分类文本进行数据清洗,以去除一些特殊符号(例如&、%、#等),然后使用自然语言处理工具包(Natural Language Toolkit,简称NLTK)对去除了特殊符号后的待分类文本进行处理,以去除其中的停用词并修正其中的单词表示,最后,使用Glove预训练词向量将处理后的待分类文本转换成300维向量。
(2)将步骤(1)得到的多维向量输入到预先训练好的分类模型中,以得到待分类文本的分类结果。
如图3所示,本发明的分类模型包含依次连接的第一TextCNN网络、注意力网络、第二TextCNN网络以及图卷积网络(Graph Convolutional Network,简称GCN)四个部分。
具体而言,注意力网络包括3层,其结构如下:
第一层是矩阵变换层,输入为C×d维(其中C为自然数,其大小和数据集的文本长度和标签数量有关,文本长度越大,标签数量越多,则C的取值越大,d为常数,通常取300)向量表示,包含文本、单词和标签的向量信息,利用三个d×C维的Q、K、V矩阵,输出3个C×C的q、k、v向量;
第二层为注意力机制计算层,其输入为第一层得到的3个C×C维的q、k、v向量,输出为C×C维的相关性向量;
第三层为拼接层,其将第二层得到的C×C维的相关性向量与原始输入的C×d维向量进行拼接,以输出C×(C+d)维向量。
GCN网络包括2层,其结构如下:
第一层是图卷积层,其输入为J×d维(其中J为标签数量)标签词向量矩阵和J×J维关系矩阵,该层使用d×512维权重矩阵,该层输出为J×512维标签相关性矩阵;
第二层是图卷积层,其输入为第一层输出的J×512维标签相关性矩阵和第一层输入的J×J维关系矩阵,该层使用512×100维权重矩阵,该层输出为J×100维标签相关性矩阵。
具体而言,本步骤中的分类模型是通过以下步骤训练得到的:
(2-1)获取文本数据集,将该文本数据集进行预处理,并将预处理后的文本数据集按照7:2:1的比例划分为训练集、验证集、以及测试集。
在本步骤中,文本数据集是由从科学网页(Web ofScience)这一网站获取的多个论文信息组成,每个论文信息包含论文摘要和所属学科类别。
本步骤中对文本数据集进行预处理的过程,和上述步骤(1)中预处理的过程完全相同,在此不再赘述;
(2-2)对于训练集中的每个待分类文本而言,使用Glove预训练词向量获取该文本的L×d维特征向量W(其中L表示该文本的长度),并将特征向量W输入第一TextCNN网络中,以获得该待分类文本所对应的d维特征向量T。
(2-3)获取训练集中的所有标签,使用Glove预训练词向量将每个标签转换为d维特征向量,所有J个标签对应的特征向量构成J×d维标签向量U,其中J表示数据集中的标签总数。
(2-4)对步骤(2-1)所获得的每个待分类文本对应的d维特征向量T、待分类文本单词的L×d维特征向量W、以及步骤(2-3)得到的待分类文本对应的标签向量U在行方向上进行拼接,以得到该待分类文本对应的C×d维特征向量A,其中C=L+J+1;
(2-5)将步骤(2-4)得到的每个待分类文本对应的C×d维特征向量A分别与3个d×C维的矩阵Q、K、V进行乘法处理,以获得三个C×C维向量q、k、v,并根据得到的C×C维向量q、k、v获得每个待分类文本对应的注意力分数s;
具体而言,q=A×Q。
k=R×K
v=A×V
注意力分数s的计算公式如下:
注意,考虑到不同单词和标签之间的影响程度不同,以及可能存在的干扰,在注意力机制的基础上做了改进,对获得的s,进行如下处理:
具体而言,本步骤是采用以下公式:
s=sigmoid(s)
其中stz表示注意力分数s中第t行第z列的值,且有t∈[1,注意力分数s中的行总数],z∈[1,注意力分数s中的列总数],sigmoid()和softmax()分别表示sigmoid和softmax函数。
本步骤的优点在于,首先将文本特征向量、单词向量和标签向量,利用注意力机制构造语义相关性,学习三者之间的重要程度关系,同时,去除相关性较低部分的影响。随后,将注意力机制的结果与原始特征向量拼接,既保留了原本的特征又添加了语义相关性特征,更充分地进行文本特征提取。
(2-8)对于训练集中的每个待分类文本而言,根据训练集中每两个标签的共现情况创建该待分类文本对应的概率矩阵P;
具体而言,概率矩阵中的每个元素Pij是采用以下公式计算,其中i,j∈[1,J]:
其中Mij表示训练集的所有标签中第i个标签和第j个标签在训练集的共现次数,Ni表示训练集的所有标签中第i个标签在训练集中的出现次数。
(2-9)针对训练集中的每个待分类文本而言,对步骤(2-8)得到的概率矩阵P进行二值化处理,以得到二值化处理后的概率矩阵P:
具体而言,本步骤是采用以下公式:
其中,α∈[0,1],其优选取值为0.3。
本步骤的目的,是考虑到标签之间的共现关系可能表现出长尾分布,一些罕见的共现可能是噪声,而且由训练集产生的相关矩阵可能会影响模型的泛化能力。
其中E为J×J维单位矩阵,Pi表示二值化处理后的概率矩阵P的第i行,sum(Pi)表示对二值化处理后的概率矩阵P的第i行进行求和,δ∈[0,1],其优选取值为0.25。
本步骤的目的,是考虑到在图卷积过程中,节点特征可能会过于平滑,以致于来自不同节点的特征可能变得难以区分。
(2-11)针对训练集中的每个待分类文本而言,将步骤(2-7)中得到的该待分类文本对应的C×(C+d)维特征向量拆分为一个(L+1)×(C+d)维文本表示向量W′和一个J×(C+d)维标签向量U′,并将新的标签向量U′和步骤(2-10)得到的标签共现矩阵一起输入两层图神经网络GCN中,以得到该待分类文本对应的标签相关性向量H2;
其中,GCN的输出迭代公式为:
H表示GCN的输出,l表示GCN中卷积层的序号,且l∈[0,1],当l=0时,H0就是新的标签向量U′,Bl表示GCN网络中第l个卷积层的参数矩阵,f(·)表示非线性激活函数LeakyReLU:
其中,a∈[0,1],其优选取值为0.2。
本步骤的优点在于,首先获取对于每个待分类文本对应的含有语义关系的标签向量,以及标签之间的概率矩阵,随后利用图神经网路进行标签相关性建模,体现文本标签之间的依赖关系,提升分类效果。
(2-12)针对训练集中的每个待分类文本而言,将步骤(2-11)得到的该待分类文本对应的文本表示向量W′输入第二TextCNN网络中,以获得该待分类文本对应的特征向量F1,将该文本特征向量F1与步骤(2-11)得到的标签相关性向量H2进行点积操作,以得到该待分类文本对应的文本特征向量F。
(2-13)使用步骤(2-12)得到的每个待分类文本对应的文本特征向量F,并使用多标签分类损失函数Loss对分类模型进行迭代训练,直到该分类模型收敛为止,从而得到训练好的分类模型,并获得此时该待分类文本的预测标签。
多标签分类损失函数Loss为:
Loss={l1,...,lN},ln=-[yn·log(σ(xn))+(1-yn)·log(1-σ(xn))]
其中,N表示训练时的批大小(Batch size)值,即每次训练的待分类文本数,n表示标签序号,其为自然数,且n∈[1,J],yn表示待分类文本中是否含有第n个标签的真实值(为1表示包含,为0表示不包含),xn表示待分类文本是否含有标签的预测值(以概率值的形式表示),σ(xn)为sigmoid函数,可以把xn映射到(0,1)的区间,且有:
(2-14)使用步骤(2-1)得到的测试集对步骤(2-13)训练好的分类模型进行验证,直到得到的分类精度达到最优为止,从而得到训练好的分类模型。
实验结果
本发明的实验环境:在Ubuntu 18.04操作系统下,CPU为Intel(R)Core(TM)i9-10920X,GPU为2块NVIDIA 1080Ti 12GB,内存为64GB DDR4,采用Pytorch编程实现本发明的算法。具体设置如下:batch size大小为256,初始学习率为1e-3。
为了说明本发明方法的有效性以及对于分类效果的提升,在多个数据集上进行了测试,以Paper数据集为例,将本发明得到的测试结果与当前常用的方法进行对比,评估结果如下表1:
表1
注:本发明*表示,仅使用注意力机制考虑语义相关性而未使用GCN的方法。
根据上表1记载的在Paper数据集下的实验结果,可以看到本发明中提出的文本多标签分类方法,在三个指标上都优于现有的方法。在于,本发明提出的基于注意力机制和GCN的文本多标签分类方法,一方面,采用自注意力机制获取文本、单词、标签之间新的向量表示形式,更充分地提取文本特征,另一方面,采用改进的图神经网络,强化文本中单词对于标签的重要程度,提升标签相关性建模效果。本发明提出的方法与现有技术相比,提升了文本多标签分类的效果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于注意力机制和GCN的文本多标签分类方法,其特征在于,包括如下步骤:
(1)获取待分类文本,对该待分类文本进行预处理,并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量;
(2)将步骤(1)得到的多维向量输入到预先训练好的分类模型中,以得到待分类文本的分类结果。
2.根据权利要求1所述的基于注意力机制和GCN的文本多标签分类方法,其特征在于,步骤(1)首先是使用正则表达式对待分类文本进行数据清洗,以去除特殊符号,然后使用自然语言处理工具包(Natural Language Toolkit,简称NLTK)对去除了特殊符号后的待分类文本进行处理,以去除其中的停用词并修正其中的单词表示,最后使用Glove预训练词向量将处理后的待分类文本转换成300维向量。
3.根据权利要求1或2所述的基于注意力机制和GCN的文本多标签分类方法,其特征在于,
分类模型包含依次连接的第一TextCNN网络、注意力网络、第二TextCNN网络以及GCN网络;
注意力网络的具体结构为:
第一层是矩阵变换层,输入为C×d维向量表示,包含文本、单词和标签的向量信息,利用三个d×C维的Q、K、V矩阵,输出3个C×C的q、k、v向量;其中C为自然数,d等于300;
第二层为注意力机制计算层,其输入为第一层得到的3个C×C维的q、k、v向量,输出为C×C维的相关性向量;
第三层为拼接层,其将第二层得到的C×C维的相关性向量与原始输入的C×d维向量进行拼接,以输出C×(C+d)维向量。
GCN网络的具体结构为:
第一层是图卷积层,其输入为标签词向量矩阵和关系矩阵,该层使用d×512维权重矩阵,该层输出为标签相关性矩阵,;
第二层是图卷积层,其输入为第一层输出的标签相关性矩阵和第一层输入的关系矩阵,该层使用512×100维权重矩阵,该层输出为标签相关性矩阵。
4.根据权利要求1至3中任意一项所述的基于注意力机制和GCN的文本多标签分类方法,其特征在于,分类模型是通过以下步骤训练得到的:
(2-1)获取文本数据集,将该文本数据集进行预处理,并将预处理后的文本数据集按照7∶2∶1的比例划分为训练集、验证集、以及测试集。
(2-2)对于训练集中的每个待分类文本而言,使用Glove预训练词向量获取该待分类文本的L×d维特征向量W,并将特征向量W输入第一TextCNN网络中,以获得该待分类文本所对应的d维特征向量T,其中L表示该待分类文本的长度;
(2-3)获取训练集中的所有标签,使用Glove预训练词向量将每个标签转换为d维特征向量,所有J个标签对应的特征向量构成J×d维标签向量U,其中J表示文本数据集中的标签总数;
(2-4)对步骤(2-1)所获得的每个待分类文本对应的d维特征向量T、待分类文本单词的L×d维特征向量W、以及步骤(2-3)得到的待分类文本对应的标签向量U在行方向上进行拼接,以得到该待分类文本对应的C×d维特征向量A,其中C=L+J+1;
(2-5)将步骤(2-4)得到的每个待分类文本对应的C×d维特征向量A分别与3个d×C维的矩阵Q、K、V进行乘法处理,以获得三个C×C维向量q、k、v,并根据得到的C×C维向量q、k、v获得每个待分类文本对应的注意力分数s;
(2-8)对于训练集中的每个待分类文本而言,根据训练集中每两个标签的共现情况创建该待分类文本对应的概率矩阵P;
(2-9)针对训练集中的每个待分类文本而言,对步骤(2-8)得到的概率矩阵P进行二值化处理,以得到二值化处理后的概率矩阵P:
(2-11)针对训练集中的每个待分类文本而言,将步骤(2-7)中得到的该待分类文本对应的C×(C+d)维特征向量拆分为一个(L+1)×(C+d)维文本表示向量W′和一个J×(C+d)维标签向量U′,并将新的标签向量U′和步骤(2-10)得到的标签共现矩阵一起输入两层图神经网络GCN中,以得到该待分类文本对应的标签相关性向量H2;
(2-12)针对训练集中的每个待分类文本而言,将步骤(2-11)得到的该待分类文本对应的文本表示向量W′输入第二TextCNN网络中,以获得该待分类文本对应的特征向量F1,将该文本特征向量F1与步骤(2-11)得到的标签相关性向量H2进行点积操作,以得到该待分类文本对应的文本特征向量F。
(2-13)使用步骤(2-12)得到的每个待分类文本对应的文本特征向量F,并使用多标签分类损失函数Loss对分类模型进行迭代训练,直到该分类模型收敛为止,从而得到训练好的分类模型,并获得此时该待分类文本的预测标签。
(2-14)使用步骤(2-1)得到的测试集对步骤(2-13)训练好的分类模型进行验证,直到得到的分类精度达到最优为止,从而得到训练好的分类模型。
10.一种基于注意力机制和GCN的文本多标签分类系统,其特征在于,包括:
第一模块,用于获取待分类文本,对该待分类文本进行预处理,并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量;
第二模块,用于将第一模块得到的多维向量输入到预先训练好的分类模型中,以得到待分类文本的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110066091.9A CN112711953B (zh) | 2021-01-19 | 2021-01-19 | 一种基于注意力机制和gcn的文本多标签分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110066091.9A CN112711953B (zh) | 2021-01-19 | 2021-01-19 | 一种基于注意力机制和gcn的文本多标签分类方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112711953A true CN112711953A (zh) | 2021-04-27 |
CN112711953B CN112711953B (zh) | 2024-01-26 |
Family
ID=75549285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110066091.9A Active CN112711953B (zh) | 2021-01-19 | 2021-01-19 | 一种基于注意力机制和gcn的文本多标签分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711953B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283336A (zh) * | 2021-05-21 | 2021-08-20 | 湖南大学 | 一种文本识别方法与系统 |
CN113434668A (zh) * | 2021-05-18 | 2021-09-24 | 湘潭大学 | 一种基于模型融合的深度学习文本分类方法及系统 |
CN113657425A (zh) * | 2021-06-28 | 2021-11-16 | 华南师范大学 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
CN113806547A (zh) * | 2021-10-15 | 2021-12-17 | 南京大学 | 一种基于图模型的深度学习多标签文本分类方法 |
CN113807412A (zh) * | 2021-08-30 | 2021-12-17 | 广州大学 | 一种多标签图像分类方法、装置、设备及存储介质 |
CN114118273A (zh) * | 2021-11-24 | 2022-03-01 | 南开大学 | 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法 |
CN114612681A (zh) * | 2022-01-30 | 2022-06-10 | 西北大学 | 基于gcn的多标签图像分类方法、模型构建方法及装置 |
CN115905533A (zh) * | 2022-11-24 | 2023-04-04 | 重庆邮电大学 | 一种多标签文本智能分类方法 |
CN116028618A (zh) * | 2022-12-27 | 2023-04-28 | 百度国际科技(深圳)有限公司 | 文本处理、文本检索方法、装置、电子设备及存储介质 |
CN117171343A (zh) * | 2023-08-10 | 2023-12-05 | 大连交通大学 | 一种文本分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274405A (zh) * | 2020-02-26 | 2020-06-12 | 北京工业大学 | 一种基于gcn的文本分类方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
US20200250139A1 (en) * | 2018-12-31 | 2020-08-06 | Dathena Science Pte Ltd | Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction |
US20200285944A1 (en) * | 2019-03-08 | 2020-09-10 | Adobe Inc. | Graph convolutional networks with motif-based attention |
-
2021
- 2021-01-19 CN CN202110066091.9A patent/CN112711953B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200250139A1 (en) * | 2018-12-31 | 2020-08-06 | Dathena Science Pte Ltd | Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction |
US20200285944A1 (en) * | 2019-03-08 | 2020-09-10 | Adobe Inc. | Graph convolutional networks with motif-based attention |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
CN111274405A (zh) * | 2020-02-26 | 2020-06-12 | 北京工业大学 | 一种基于gcn的文本分类方法 |
Non-Patent Citations (1)
Title |
---|
姜炎宏;迟呈英;战学刚;: "多标签文本分类模型对比研究", 辽宁科技大学学报, no. 02 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434668A (zh) * | 2021-05-18 | 2021-09-24 | 湘潭大学 | 一种基于模型融合的深度学习文本分类方法及系统 |
CN113434668B (zh) * | 2021-05-18 | 2022-05-20 | 湘潭大学 | 一种基于模型融合的深度学习文本分类方法及系统 |
CN113283336A (zh) * | 2021-05-21 | 2021-08-20 | 湖南大学 | 一种文本识别方法与系统 |
CN113657425A (zh) * | 2021-06-28 | 2021-11-16 | 华南师范大学 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
CN113657425B (zh) * | 2021-06-28 | 2023-07-04 | 华南师范大学 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
CN113807412B (zh) * | 2021-08-30 | 2023-09-26 | 广州大学 | 一种多标签图像分类方法、装置、设备及存储介质 |
CN113807412A (zh) * | 2021-08-30 | 2021-12-17 | 广州大学 | 一种多标签图像分类方法、装置、设备及存储介质 |
CN113806547A (zh) * | 2021-10-15 | 2021-12-17 | 南京大学 | 一种基于图模型的深度学习多标签文本分类方法 |
CN113806547B (zh) * | 2021-10-15 | 2023-08-11 | 南京大学 | 一种基于图模型的深度学习多标签文本分类方法 |
CN114118273A (zh) * | 2021-11-24 | 2022-03-01 | 南开大学 | 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法 |
CN114118273B (zh) * | 2021-11-24 | 2024-04-26 | 南开大学 | 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法 |
CN114612681A (zh) * | 2022-01-30 | 2022-06-10 | 西北大学 | 基于gcn的多标签图像分类方法、模型构建方法及装置 |
CN115905533A (zh) * | 2022-11-24 | 2023-04-04 | 重庆邮电大学 | 一种多标签文本智能分类方法 |
CN115905533B (zh) * | 2022-11-24 | 2023-09-19 | 湖南光线空间信息科技有限公司 | 一种多标签文本智能分类方法 |
CN116028618B (zh) * | 2022-12-27 | 2023-10-27 | 百度国际科技(深圳)有限公司 | 文本处理、文本检索方法、装置、电子设备及存储介质 |
CN116028618A (zh) * | 2022-12-27 | 2023-04-28 | 百度国际科技(深圳)有限公司 | 文本处理、文本检索方法、装置、电子设备及存储介质 |
CN117171343A (zh) * | 2023-08-10 | 2023-12-05 | 大连交通大学 | 一种文本分类方法 |
CN117171343B (zh) * | 2023-08-10 | 2024-03-19 | 大连交通大学 | 一种文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112711953B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112711953B (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
Dhal et al. | A comprehensive survey on feature selection in the various fields of machine learning | |
CN112241481B (zh) | 基于图神经网络的跨模态新闻事件分类方法及系统 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112199536A (zh) | 一种基于跨模态的快速多标签图像分类方法和系统 | |
CN112883714B (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN114969275A (zh) | 一种基于银行知识图谱的对话方法及其系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Joshua Thomas et al. | A deep learning framework on generation of image descriptions with bidirectional recurrent neural networks | |
CN112269874A (zh) | 一种文本分类方法及系统 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
Gelman et al. | A language-agnostic model for semantic source code labeling | |
Garrido-Munoz et al. | A holistic approach for image-to-graph: application to optical music recognition | |
Goel et al. | Social Media Analysis: A Tool for Popularity Prediction Using Machine Learning Classifiers | |
CN111611796A (zh) | 下位词的上位词确定方法、装置、电子设备及存储介质 | |
CN111723572A (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN114881172A (zh) | 一种基于加权词向量和神经网络的软件漏洞自动分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |