CN114925205A - 基于对比学习的gcn-gru文本分类方法 - Google Patents
基于对比学习的gcn-gru文本分类方法 Download PDFInfo
- Publication number
- CN114925205A CN114925205A CN202210646410.8A CN202210646410A CN114925205A CN 114925205 A CN114925205 A CN 114925205A CN 202210646410 A CN202210646410 A CN 202210646410A CN 114925205 A CN114925205 A CN 114925205A
- Authority
- CN
- China
- Prior art keywords
- text
- gru
- gcn
- information
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000000052 comparative effect Effects 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000009826 distribution Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 241000288105 Grus Species 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 32
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 102100029563 Somatostatin Human genes 0.000 description 5
- 102100030851 Cortistatin Human genes 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于人工智能与文本分类领域,公开了一种基于对比学习的GCN‑GRU文本分类方法,步骤包括构建语料库级图;采用互信息计算单词对之间的权重值;采用词频‑逆文档词频计算单词和文本之间的权重值;初始化节点表示;更新节点表示;构建GRU学习具有局部信息的文本表示;采用注意力机制将全局结构信息的文本表示和局部语义信息的文本表示融合;训练阶段预测文本标签,对文本进行分类;引入对比学习;测试阶段采用GRU模块对新文本进行预测。本发明方法既能学习到融合全局结构信息和局部语义信息的文本表示,也能实现对新文本的预测,能有效提高文本分类准确率。
Description
技术领域
本发明属于人工智能与文本分类领域,具体涉及一种基于对比学习的GCN-GRU文本分类方法。
背景技术
随着信息化和大数据时代的到来,互联网上时时刻刻都在产生文本信息。这些文本信息分布于各行各业,从这些实时海量的文本中快速准确挖掘出有价值的信息有广泛的现实意义和应用场景。例如,在社交媒体中,虚假信息时时刻刻在网络传播,快速准确识别出其中的虚假信息有助于稳定社会秩序,为公众树立正确的价值观。因此,对海量文本进行有效的文本分类具有现实意义和广泛的应用场景。
文本分类是自然语言处理中最基本的一项任务,其根据文本的内容等特征按照特定的分类体系标准将其划分到预定义的类别中,能大大提高文本处理、文本挖掘的效率。文本分类有广泛的应用场景,例如情感分类、人机对话、主题分类等。文本分类本身也由不同的子任务组成。从类别角度看,文本分类可以分为多类别分类、多标签分类。多类别分类是指分类任务包含两个及以上的类别标签,每个分类样本只对应一个类别标签。多类别分类包含二分类和多分类。多标签分类是分类任务包含两个及以上的类别标签,每个分类样本可以对应到多个类别标签。从分类样本角度看,文本分类可以分为文档级分类、句子级分类、对象级分类。文档分类是指分类对象是一个文档。例如,在新闻分类中,对整个新闻文档进行特征提取来分类。句子级分类是指分类对象是一个短句。例如,在微博等社交媒体平台,对用户发布不超过140字的短博客进行分类。对象级分类是指对句子中的某一个对象分类。例如,在商品评论中,用户会提及到产品不同功能的优劣,对特定的功能评论进行分类就是对象级分类。
针对文本分类这一研究课题的解决方案,国内外研究现状主要从三方面展开:(1)基于传统机器学习的方法。该方法主要包括特征提取和文本分类两部分。首先经过人工构造文本特征,然后选择合适的分类器进行分类,常用的分类器有SVM、朴素贝叶斯、决策树等。虽然,这种方法相较于人工标注有较大的效率提升,但是人工特征提取仍然会耗费大量时间。(2)基于传统深度学习的方法。随着词向量模型的提出和深度学习的快速发展,出现了很多基于深度学习的文本分类模型。例如,TextCNN模型将卷积神经网络首次应用到文本分类任务,利用多个不同大小的卷积核来捕捉句子局部特征信息,提取句子中的关键信息。随后,由于Transformer机制的流行,出现了许多基于此的语言模型进行分类任务,例如:GPT和BERT。虽然基于深度学习的文本分类方法能有效利用单词的上下文关系,但其假设文本之间相互独立,忽略了文本的全局信息。(3)基于图神经网络的方法。图神经网络将文本或者语料库转化为图结构,单词或者文档视为图中的节点,根据单词和单词或者单词和文本之间的特定联系构成连边。这种方式不再将文本视为单词序列而是单词共现的集合,能有效提取文本全局结构信息,学习更丰富的单词特征,处理更加复杂的文本数据集合。根据图神经网络方法对的构图方法差异,可以将现有图神经网络方法分为语料库级图和文本级图两种方式。语料库级图将所有单词作为节点放在一个大图上,通过单词对在整个语料库中的共现情况确定连边及权重;文本级图以文本为单位构图,每个文本有其特殊的结构。在当前文本中出现的所有单词作为节点,节点之间的连边由滑动窗口决定,节点对之间的权重由单词对在当前文本中的共现情况决定。语料库级图关注于整个语料库中的全局信息,文本级图关注于当前文本的局部信息。
然而,现有基于图神经网络的文本分类方法仅关注于节点的局部信息或者全局信息,难以将局部信息和全局信息很好的结合起来。此外,现有基于方法难以实现对新文本的预测,大大降低了文本分类的效率。
发明内容
针对现有技术存在的上述不足,本发明的目的在于提供一种基于对比学习的GCN-GRU文本分类方法。
为实现以上目的,本发明采用如下技术方案:
一种基于对比学习的GCN-GRU文本分类方法,包括以下步骤:
S1:构建语料库级图学习具有全局结构的节点表示;
S2:采用互信息计算单词对之间的权重值;
S3:采用词频-逆文档词频计算单词和文本之间的权重值;
S4:初始化节点表示;
S5:GCN更新节点表示,学习具有全局结构信息的文本表示global(v);
S6:构建GRU学习具有局部信息的文本表示local(v);
S7:采用注意力机制将全局结构信息的文本表示和局部语义信息的文本表示融合;
S8:训练阶段预测文本标签,对文本进行分类;
S9:引入对比学习,将GCN模块的输出作为模型的正例样本,用正例样本约束修正GRU的输出,将全局结构信息的文本表示和局部语义信息的文本表示经过一层非线性转换得到两个概率分布,将GCN得到的概率分布plocal作为数据近似分布,将GRU得到的概率分布pglobal作为数据原分布,用pglobal来约束plocal,使得两者的分布近似一致;DKL(plocal||pglobal)是pglobal约束plocal计算得到的单向KL散度值,将其作为正则化项加入原始交叉熵损失函数中:
L=Loss1+α·DKL(plocal||pglobal) (25)
其中,Loss1是最初的交叉熵损失函数,DKL是正则化项,α是正则化项的参数,取值范围为[0,1];
S10:测试阶段采用GRU模块对新文本进行预测。
进一步地,步骤S2中,单词对之间权重值的计算公式如下:
PMI即Pointwise Mutual Information互信息,#D(wi,wj)是语料库中同时包含单词wi和单词wj的文本数量,#D(wi)是语料库中包含单词wi的文本数量,#D是语料库中包含的文本数量。
进一步地,步骤S3中,单词和文本之间的权重值的计算公式如下:
TF-IDF(x)=TF(x)*IDF(x) (6)
其中nw代表单词w在某个文章中出现的次数,n代表该文章包含的单词总数;#D代表语料库中包含的文本数量,#Dw代表包含单词w的文本数量;此外,A和D分别代表图的邻接矩阵和度矩阵,Aij={0,1},0节点和没有连边,1代表节点vi和vj没有连边。
进一步地,步骤S4中,单词节点表示从Glove词向量获取,文本节点由该文本中所有单词节点表示的平均值初始化。
进一步地,步骤S5中,首先采用两层的GCN模块聚合邻居节点信息,更新过程如下所示:
GCN采用文本节点本身表示和邻居节点表示的加权聚合学习图中文本的嵌入表示;由于不同的单词对文本的重要程度不同,因此引入图注意力层,从而学习到适当的邻居结点权重;采用自注意力机制计算注意力权重evu和邻居节点权重avu,计算过程如下所示:
evu=σ(W·[hv||hu]) (8)
其中,v代表当前待更新的节点,u为其中一个邻居节点,Nv为节点v的邻居节点集合;hv和hu为节点v和u的向量表示,W为注意力权重矩阵,σ(x)=1/(1+e-x)为sigmoid激活函数;最终,通过聚合节点v的邻居节点特征更新节点v的表示如下所示:
其中h′v为第j层GCN输出向量,其聚合了邻居节点的所有重要信息;在经过多层GCN后,聚合全局域信息的文本节点嵌入表示为global(v)。
进一步地,步骤S6中,GRU是一个局部语义特征提取器,其处理单个文本对象,采用双向的GRU来学习上下文信息;GRU采用门控机制来传递序列状态信息,其包含重置门rt和更新门zt两个单元,具体的更新过程如下所示:
zt=σ(Wzxt+Uzht-1+bz) (11)
rt=σ(Wrxt+Urht-1+br) (12)
其中,σ和为激活函数,xt和ht为模型t时刻的输入信息和隐藏层状态,ht-1为模型上一时刻隐藏层状态;Wz,Wr,Wh,Uz,Ur和Uh为权重矩阵;bz,br和bh为偏置,偏置的取值范围为[-1,1];前向GRU从w1到wn处理文本序列,最终得到的隐藏层状态表示为文本嵌入;反向GRU从wn到w1处理文本序列,最终得到的隐藏成状态五1表示为文本嵌入;最后,将前向GRU和后向GRU得到的两个隐藏层状态拼接起来作为包含局部语义特征的文本表示
进一步地,步骤S7中,融合过程具体如下:
og=Wg·global(v) (14)
ol=Wl·local(v) (15)
ug=tanh(W1og+b1) (16)
ul=tanh(W2ol+b2) (17)
z=∑alol+agog(20)
其中,v代表语料库中的一个文本v,og和ol是经过线性转化的全局信息文本表示和局部信息文本表示,ag和al是经过注意力机制学习到的全局信息权重和局部信息权重值,z是聚合了全局结构信息和局部语义信息的文本表示,tanh是非线性转换激活函数;Wg,Wl,W1,W2,Ug和Ul是可训练的权重矩阵;b1和b2是偏置项,偏置的取值范围是[-1,1]。
进一步地,步骤S8中,训练阶段预测文本标签,具体为:
y′=softmax(Wz+b) (21)
Loss1=crossEntropy(y′,y) (22)
其中,z是经过模型训练得到的文本表示,W是可训练的权重矩阵,b是偏置项,取值范围为[-1,1];y′是最终的预测标签,y是真实标签,Loss1是训练过程中的损失值。
进一步地,测试阶段,采用GRU模块学习到的文本表示对新文本进行分类:
y″=softmax(Wz+b) (26)
此时,z代表采用GRU模块学习的文本表示;y″为训练阶段最终的分类标签,W为权重矩阵,b为偏置,取值范围为[-1,1]。
进一步地,初始化节点的嵌入维度为300。
本发明方法从模型角度将全局结构信息和局部语义信息融合进行文本分类。首先,基于图神经网络构建一个全局结构特征提取器,基于词共现和文本单词连接情况构建语料库级别的异构图,采用多层图神经网络以及图注意力机制为邻居节点分配权重并聚合邻居节点信息,多层图神经网络使得节点能够聚合高阶邻域信息,最终学习到具有全局结构信息的文本表示。然后,基于门控循环单元网络构建一个局部语义特征提取器。采用一个双向门控循环单元网络对文本序列进行建模,学习到包含上下文语义和语序信息的文本表示。最后,引入注意力机制学习具有全局信息和局部信息的文本表示,构造交叉熵损失函数。为了实现对新文本的预测,引入对比学习思想,将图神经网络模块的输出作为正例样本约束门控循环单元网络模块的输出。用KL散度度量两部分输出之间的差异,并将其作为正则化项加入损失函数中。最终,训练完成的门控循环单元网络模块包含了图神经网络的全局结构信息。在测试阶段,采用门控循环单元网络模块进行文本分类,既能学习到融合全局结构信息和局部语义信息的文本表示,也能实现对新文本的预测。
本发明方法分别构建全局结构信息提取器和局部语义信息提取器学习融合了全局信息和局部信息的文本表示,而且引入对比学习使得该方法能实现对新文本的预测,解决了现有基于图神经网络文本分类方法存在的全局信息和局部信息难以高效结合的问题和难以实现归纳学习的问题,能有效提高文本分类准确率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的流程图;
图2为本发明的详细图解;
图3展示了四种数据集的数据统计特征。其中,图3(a)为在数据集SST1上的数据特征;图3(b)为在数据集SST2上的数据特征;图3(c)为在数据集Ohsumed上的数据特征;图3(d)为在数据集R8上的数据特征;
图4展示了本发明在不同GCN层数下的分类准确率。图4(a)为在数据集MR上的分类准确率;图4(b)为在数据集Ohsumed上的分类准确率;图4(c)为在数据集R8上的分类准确率。
图5展示了3种方法(TextING,GCN-GRUKL-,GCN-GRU)在训练过程中的损失下降情况。图5(a)为在数据集Ohsumed上的损失下降情况;图5(b)为在数据集R8上的损失下降情况。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
实施例
如图1和2所示,基于对比学习的GCN-GRU文本分类方法,包括以下步骤:
S1:构建语料库级图学习具有全局结构的节点表示。构建语料库级图G=(E,N),语料库中所有文本放在一张大图上。其中,E为边集合,N为单词节点集合。图中有两种节点:单词节点和文本节点。单词节点和单词节点之间的连边由单词之间的互信息决定;当文本中包含某单词时,单词和文本之间有连边。
S2:采用互信息(Pointwise Mutual Information,PMI)计算单词对之间的权重值:
#D(wi,wj)是语料库中同时包含单词wi和单词wj的文本数量,#D(wi)是语料库中包含单词wi的文本数量,#D是语料库中包含的文本数量。
S3:采用词频-逆文档词频(Term Frequency Inverse Document Frequency,TF-IDF)计算单词和文本之间的权重值:
TF-IDF(x)=TF(x)*IDF(x) (6)
其中nw代表单词w在某个文章中出现的次数,n代表该文章包含的单词总数。#D代表语料库中包含的文本数量,#Dw代表包含单词w的文本数量。此外,A和D分别代表图的邻接矩阵和度矩阵,Aij={0,1},0节点和没有连边,1代表节点vi和vj没有连边。
S4:初始化节点表示。单词节点表示从Glove词向量获取,文本节点由该文本中所有单词节点表示的平均值初始化;
S5:更新节点表示。首先采用两层的GCN模块聚合邻居节点信息,更新过程如下所示:
GCN采用文本节点本身表示和邻居节点表示的加权聚合学习图中文本的嵌入表示。由于不同的单词对文本的重要程度不同,因此引入图注意力层,从而学习到适当的邻居结点权重。采用自注意力机制计算注意力权重evu和邻居节点权重avu,计算过程如下所示:
evu=σ(W·[hv||hu]) (8)
其中,v代表当前待更新的节点,u为其中一个邻居节点,Nv为节点v的邻居节点集合。hv和hu为节点v和u的向量表示,W为注意力权重矩阵,σ(x)=1/(1+e-x)为sigmoid激活函数。最终,通过聚合节点v的邻居节点特征更新节点v的表示如下所示:
其中h′v为第j层GCN输出向量,其聚合了邻居节点的所有重要信息。在经过多层GCN后,聚合全局域信息的文本节点嵌入表示为global(v)。
S6:构建GRU学习具有局部信息的文本表示。GRU模块是一个局部语义特征提取器,其处理单个文本对象,采用双向的GRU来学习上下文信息。GRU采用门控机制来传递序列状态信息,其包含重置门rt和更新门zt两个单元。具体的更新过程如下所示:
zt=σ(Wzxt+Uzht-1+bz) (11)
rt=σ(Wrxt+Urht-1+br) (12)
其中,σ和为激活函数,xt和ht为模型t时刻的输入信息和隐藏层状态,ht-1为模型上一时刻隐藏层状态;Wz,Wr,Wh,Uz,Ur和Uh为权重矩阵;bz,br和bh为偏置,偏置的取值范围为[-1,1];前向GRU从w1到wn处理文本序列,最终得到的隐藏层状态表示为文本嵌入;反向GRU从wn到w1处理文本序列,最终得到的隐藏成状态表示为文本嵌入;最后,将前向GRU和后向GRU得到的两个隐藏层状态拼接起来作为包含局部语义特征的文本表示
S7:采用注意力机制将全局结构信息的文本表示和局部语义信息的文本表示融合:
og=Wg·global(v) (14)
ol=Wl·local(v) (15)
ug=tanh(W1og+b1) (16)
ul=tanh(W2ol+b2) (17)
z=∑alol+agog (20)
其中,v代表语料库中的一个文本v,og和ol是经过线性转化的全局信息文本表示和局部信息文本表示,ag和al是经过注意力机制学习到的全局信息权重和局部信息权重值,z是聚合了全局结构信息和局部语义信息的文本表示,tanh是非线性转换激活函数;Wg,Wl,W1,W2,Ug和Ul是可训练的权重矩阵;b1和b2是偏置项,偏置的取值范围是[-1,1]。
S8:训练阶段预测文本标签。对文本进行分类:
y′=soft max(Wz+b) (21)
Loss1=crossEntropy(y′,y) (22)
其中,z是经过模型训练得到的文本表示,W是可训练的权重矩阵,b是偏置项,取值范围为[-1,1]。y′是最终的预测标签,y是真实标签,Loss1是训练过程中的损失值。
S9:引入对比学习。为了实现对新文本的分类预测,该方法引入对比学习的思想,将GCN模块的输出作为正例样本,用这些正例样本约束修正GRU的输出,使得最终学习到的GRU模块融合了全局结构信息和局部语义信息。将全局文本表示和局部文本表示经过一层非线性转换得到两个概率分布:
pglobal=soft max(glabal(v)) (23)
plocal=soft max(local(v)) (24)
将GCN得到的概率分布plocal作为数据近似分布,将GRU得到的概率分布pglobal作为数据原分布,用pglobal来约束plocal,使得两者的分布近似一致。DKL(plocal||pglobal)是pglobal约束plocal计算得到的单向KL散度值,将其作为正则化项加入原始交叉熵损失函数中:
L=Loss1+α·DKL(plocal||pglobal) (25)
其中,Loss1是最初的交叉熵损失函数,DKL是正则化项,α是正则化项的参数,取值范围为[0,1]。
S10:测试阶段对新文本预测。测试阶段采用GRU模块学习到的文本表示对新文本进行分类:
y″=softmax(Wz+b) (26)
此时,z代表采用GRU模块学习的文本表示。y″为训练阶段最终的分类标签,W为权重矩阵,b为偏置,取值范围为[-1,1]。
表1展示了本实施例使用数据集的规模:
表1测试数据集和网络层规模设置
数据集 | 文本数量 | 训练集数量 | 测试集数量 | 单词数量 | 标签数量 | 平均长度 |
SST1 | 11855 | 8544 | 1101 | 4683 | 5 | 19.17 |
SST2 | 9613 | 7792 | 1821 | 4516 | 2 | 19.62 |
MR | 10662 | 7108 | 3554 | 18764 | 2 | 19.44 |
Ohsumed | 7400 | 3357 | 4043 | 14157 | 23 | 121.59 |
R8 | 7674 | 5485 | 2189 | 7688 | 8 | 65.72 |
R52 | 9100 | 6532 | 2568 | 8892 | 52 | 69.82 |
表2展示了在所有数据集上,不同方法的分类精度。每一种方法都运行10次取平均值,倾斜字体为最高分类精度,加下划线为第二高分类精度。
表2所有数据集上的分类精度
SST1 | SST2 | MR | Ohsumed | R8 | R52 | |
TextCNN | 0.4230 | 0.8608 | 0.7775 | 0.5844 | 0.9517 | 0.8759 |
TextRNN | 0.4263 | 0.8060 | 0.7768 | 0.4927 | 0.9631 | 0.9054 |
FastText | 0.3608 | 0.8423 | 0.7514 | 0.5770 | 0.9613 | 0.9231 |
Transformer | 0.3509 | 0.8512 | 0.7509 | 0.6087 | 0.9644 | 0.9012 |
BERT | 0.4016 | 0.8569 | 0.7613 | 0.6046 | 0.9678 | 0.9136 |
TextGCN | 0.4063 | 0.8599 | 0.7674 | 0.6836 | 0.9707 | 0.9356 |
TensorGCN | - | - | 0.7791 | 0.7011 | 0.9804 | 0.9505 |
TextLevelGNN | 0.4607 | 0.8762 | 0.7613 | 0.6940 | 0.9780 | 0.9460 |
TextING | 0.4673 | 0.8894 | 0.7982 | 0.7042 | <u>0.9804</u> | 0.9568 |
TSW-GNN | 0.4851 | 0.8903 | <u>0.8026</u> | <u>0.7136</u> | 0.9784 | 0.9501 |
GCN-GRU | <u>0.4750</u> | <u>0.8898</u> | 0.8029 | 0.7192 | 0.9817 | <u>0.9544</u> |
表3展示了三种方法在不同数据及上的消融实验。方法GCN-GRUg-为移除全局特征提取器,GCN-GRUl-为移除局部特征提取器。GCN-GRU与GCN-GRUg-相比,在三个数据集的分类准确率上都有非常明显的提升,GCN-GRUg-去除了全局结构提取器,方法丧失了获取全局结构的能力,仅仅依靠文本的局部序列特征对文本进行建模,无法学习到融合了全局结构信息的文本表示。在Ohsumed数据集上,GCN-GRU提升十分显著,这也进一步说明了全局结构信息对于特殊领域的文本分类有重要作用。GCN-GRU与GCN-GRUl-相比,在三个数据集的分类准确率上都有显著提升,GCN-GRUl-去除了局部特征提取器,方法丧失了获取局部语义特征的能力,仅仅依靠词共现构建的异构图对文本特征进行建模,方法无法学习到细粒度的文本特征。
表3消融实验
Setting | MR | Ohsumed | R8 |
GCN-GRU | 0.8029 | 0.7182 | 0.9817 |
GCN-GRU<sub>g-</sub> | 0.7768 | 0.4927 | 0.9631 |
GCN-GRU<sub>l-</sub> | 0.7674 | 0.6836 | 0.9707 |
表4展示了不同嵌入维度下的分类准确率。分别采用100维,200维和300维的Glove向量初始化节点表示,结果表明不同维度的初始节点嵌入对分类效果有一定影响。随着嵌入维度的增加,在三个数据集上的效果都逐渐提升。当嵌入维度为100时,在三个数据集上的表现最差,这主要因为初始嵌入维度较低时,节点中包含的信息有限,难以体现单词中蕴含的丰富语义信息。随着嵌入维度的增加,节点初始嵌入包含的信息越多,能更好的学习节点的表征,从而提高分类效果。
表4不同嵌入维度下的分类准确率
维度 | 100 | 200 | 300 |
MR | 0.7892 | 0.7962 | 0.8029 |
Ohsumed | 0.7089 | 0.7134 | 0.7192 |
R8 | 0.9752 | 0.9775 | 0.9817 |
图3展示四种数据集的统计特征。SST1和SST2属于社交媒体领域数据,具有短文本和数据稀疏的特征,Ohsumed和R8分别为医学领域和新闻领域的数据集,具有长文本和属于特殊领域的特征。对于一个坐标点(x,y),其代表的含义是全局图中间接相连的文本数量为x的文本有y个。实验结果表明,SST1和SST2具有相似的数据分布特征,这两类数据集中文本间接连接的文本数量分布较平均,且分布跨度较大,即存在部分文本在图中属于孤立节点,不和其它文本产生连接关系。说明这类社交媒体类文本转化为图结构后,文本节点之间的连接比较稀疏,文本与文本之间的相关性低,存在独立文本节点。因此,采用GCN对图进行训练,难以为这类孤立节点提供额外有用的信息。同时,由于图结构的稀疏性,那些存在间接连接的文本节点能够获取的信息也有限。Ohsumed和R8数据集的分布与SST1和SST2差异很大。从图中可以看出,文本间接连接的文本数量的分布较为集中,几乎大部分文本都能与其余文本产生间接连接,并且数据分布跨度小,两个数据集中几乎没有孤立的文本节点,Ohsumed间接连接的文本数量最小也接近1000。说明这类特殊领域的文本转化为图结构后,文本节点之间的连接密切,不存在孤立的文本节点。对于这类文本和文本之间联系密切的语料库,GCN能够很好的学习全局结构信息,文本之间信息能相互传递,学习更准确的文本表征,从而实现分类性能的提升。
图4展示了本发明在不同GCN层数下的分类准确率。图4(a)为在数据集MR上的分类准确率;图4(b)为在数据集Ohsumed上的分类准确率;图4(c)为在数据集R8上的分类准确率。横坐标为局部滑动窗口大小,纵坐标为分类准确率。实验结果表明,GCN层数对分类效果有较明显的影响。当GCN层数为2时,在三个数据集上表现最好。这主要是因为双层GCN,节点能获取二阶邻域信息,即文本节点不仅能聚合与其直接连接的单词节点信息也可以与其间接连接的文本节点进行信息传递。当GCN层数为1时,在三个数据集上,分类效果较差。这主要是因为单层GCN,文本节点只能从与其直接连接的单词节点中获取信息,难以获取更高阶的邻域节点信息,文本和文本之间难以进行信息传递。随着GCN层数不断增加,分类效果并没有明显提升,还会造成较大的计算量和内存开销。因此,选择合适的GCN层数能学习更好的文本表示,从而提升分类效果。
图5展示三种方法(TextING,去除KL散度的GCN-GRU方法GCN-GRUKL-,本发明GCN-GRU)在训练过程中的损失值下降情况。图5(a)为在数据集Ohsumed上的损失下降情况;图5(b)为在数据集R8上的损失下降情况。横坐标为训练迭代次数,纵坐标为损失值。实验结果表明,TextING方法的训练速度更慢,且需要在更多的迭代次数后才能收敛。GCN-GRU与GCN-GRUKL-相比,在损失函数中加入了KL散度作为正则项。因此,在训练初期,GCN-GRU的损失值更大,而随着迭代次数的增加,GCN-GRU比GCN-GRUKL-的收敛速度更快,通常在50个迭代次数内模型就能收敛。通过以上结果可以看出,融合了全局结构信息和局部语义信息的模型训练速度更快。此外,在损失函数上加入KL正则化项不仅能对新文本进行预测,还能加速收敛速度。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种基于对比学习的GCN-GRU文本分类方法,其特征在于,包括以下步骤:
S1:构建语料库级图学习具有全局结构的节点表示;
S2:采用互信息计算单词对之间的权重值;
S3:采用词频-逆文档词频计算单词和文本之间的权重值;
S4:初始化节点表示;
S5:GCN更新节点表示,学习具有全局结构信息的文本表示global(v);
S6:构建GRU学习具有局部信息的文本表示local(v);
S7:采用注意力机制将全局结构信息的文本表示和局部语义信息的文本表示融合;
S8:训练阶段预测文本标签,对文本进行分类;
S9:引入对比学习,将GCN模块的输出作为模型的正例样本,用正例样本约束修正GRU的输出,将全局结构信息的文本表示和局部语义信息的文本表示经过一层非线性转换得到两个概率分布,将GCN得到的概率分布plocal作为数据近似分布,将GRU得到的概率分布global作为数据原分布,用pglobal来约束plocal,使得两者的分布近似一致;DKL(plocal‖pglobal)是pglobal约束pglobal计算得到的单向KL散度值,将其作为正则化项加入原始交叉熵损失函数中:
L=Loss1+α·DKL(plocal‖pglobal) (25)
其中,Loss1是最初的交叉熵损失函数,DKL是正则化项,α是正则化项的参数,取值范围为[0,1];
S10:测试阶段采用GRU模块对新文本进行预测。
4.根据权利要求1所述基于对比学习的GCN-GRU文本分类方法,其特征在于,步骤S4中,单词节点表示从Glove词向量获取,文本节点由该文本中所有单词节点表示的平均值初始化。
5.根据权利要求1所述基于对比学习的GCN-GRU文本分类方法,其特征在于,步骤S5中,首先采用两层的GCN模块聚合邻居节点信息,更新过程如下所示:
其中,σ(x)=1/(1+e-x)为sigmoid激活函数,为标准化对称邻接矩阵A和D分别代表图的邻接矩阵和度矩阵,Aij={0,1},0节点和没有连边,1代表节点vi和vj没有连边,Wj为当前GCN层的权重矩阵,H(j)为第j层GCN的输入,L(j+1)为第j层GCN的输出;
GCN采用文本节点本身表示和邻居节点表示的加权聚合学习图中文本的嵌入表示;由于不同的单词对文本的重要程度不同,因此引入图注意力层,从而学习到适当的邻居结点权重;采用自注意力机制计算注意力权重evu和邻居节点权重avu,计算过程如下所示:
evu=σ(W·[hv‖hu]) (8)
其中,v代表当前待更新的节点,u为其中一个邻居节点,Nv为节点v的邻居节点集合;hv和hu为节点v和u的向量表示,W为注意力权重矩阵,σ(x)=1/(1+e-x)为sigmoid激活函数;最终,通过聚合节点v的邻居节点特征更新节点v的表示如下所示:
其中h′v为第j层GCN输出向量,其聚合了邻居节点的所有重要信息;在经过多层GCN后,聚合全局域信息的文本节点嵌入表示为global(v)。
6.根据权利要求1所述基于对比学习的GCN-GRU文本分类方法,其特征在于,步骤S6中,GRU是一个局部语义特征提取器,其处理单个文本对象,采用双向的GRU来学习上下文信息;GRU采用门控机制来传递序列状态信息,其包含重置门rt和更新门zt两个单元,具体的更新过程如下所示:
zt=σ(Wzxt+Uzht-1+bz) (11)
rt=σ(Wrxt+Urht-1+br) (12)
7.根据权利要求1所述基于对比学习的GCN-GRU文本分类方法,其特征在于,步骤S7中,融合过程具体如下:
og=Wg·global(v) (14)
ol=Wl·local(v) (15)
ug=tanh(W1og+b1) (16)
ul=tanh(W2ol+b2) (17)
z=∑alol+agog (20)
其中,v代表语料库中的一个文本v,og和ol是经过线性转化的全局信息文本表示和局部信息文本表示,ag和al是经过注意力机制学习到的全局信息权重和局部信息权重值,z是聚合了全局结构信息和局部语义信息的文本表示,tanh是非线性转换激活函数;Wg,Wl,W1,W2,Ug和Ul是可训练的权重矩阵;b1和b2是偏置项,偏置的取值范围是[-1,1]。
8.根据权利要求1所述基于对比学习的GCN-GRU文本分类方法,其特征在于,步骤S8中,训练阶段预测文本标签,具体为:
y′=soft max(Wz+b) (21)
Loss1=crossEntropy(y′,y) (22)
其中,z是经过模型训练得到的文本表示,W是可训练的权重矩阵,b是偏置项,取值范围为[-1,1];y′是最终的预测标签,y是真实标签,Loss1是训练过程中的损失值。
9.根据权利要求1所述基于对比学习的GCN-GRU文本分类方法,其特征在于,测试阶段,采用GRU模块学习到的文本表示对新文本进行分类:
y″=soft max(Wz+b) (26)
此时,z代表采用GRU模块学习的文本表示;y″为训练阶段最终的分类标签,W为权重矩阵,b为偏置,取值范围为[-1,1]。
10.根据权利要求5所述基于对比学习的GCN-GRU文本分类方法,其特征在于,初始化节点的嵌入维度为300。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210646410.8A CN114925205B (zh) | 2022-06-09 | 2022-06-09 | 基于对比学习的gcn-gru文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210646410.8A CN114925205B (zh) | 2022-06-09 | 2022-06-09 | 基于对比学习的gcn-gru文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114925205A true CN114925205A (zh) | 2022-08-19 |
CN114925205B CN114925205B (zh) | 2024-03-05 |
Family
ID=82812432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210646410.8A Active CN114925205B (zh) | 2022-06-09 | 2022-06-09 | 基于对比学习的gcn-gru文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114925205B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544260A (zh) * | 2022-12-05 | 2022-12-30 | 湖南工商大学 | 用于文本情感分析的对比优化编解码模型及方法 |
CN115599918A (zh) * | 2022-11-02 | 2023-01-13 | 吉林大学(Cn) | 一种基于图增强的互学习文本分类方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
US20210089718A1 (en) * | 2019-09-19 | 2021-03-25 | University Of Electronic Science And Technology Of China | Method for machine reading comprehension |
CN113220884A (zh) * | 2021-05-19 | 2021-08-06 | 西北工业大学 | 基于双滑动窗口的图神经网络文本情感分类方法 |
CN113806547A (zh) * | 2021-10-15 | 2021-12-17 | 南京大学 | 一种基于图模型的深度学习多标签文本分类方法 |
US20210406474A1 (en) * | 2020-06-26 | 2021-12-30 | Roozbeh JALALI | Methods and systems for generating a reference data structure for anonymization of text data |
-
2022
- 2022-06-09 CN CN202210646410.8A patent/CN114925205B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
US20210089718A1 (en) * | 2019-09-19 | 2021-03-25 | University Of Electronic Science And Technology Of China | Method for machine reading comprehension |
US20210406474A1 (en) * | 2020-06-26 | 2021-12-30 | Roozbeh JALALI | Methods and systems for generating a reference data structure for anonymization of text data |
CN113220884A (zh) * | 2021-05-19 | 2021-08-06 | 西北工业大学 | 基于双滑动窗口的图神经网络文本情感分类方法 |
CN113806547A (zh) * | 2021-10-15 | 2021-12-17 | 南京大学 | 一种基于图模型的深度学习多标签文本分类方法 |
Non-Patent Citations (2)
Title |
---|
刘正铭;马宏;刘树新;杨奕卓;李星;: "一种融合节点文本属性信息的网络表示学习算法", 计算机工程, no. 11, 25 September 2018 (2018-09-25) * |
崔昕阳;龙华;熊新;邵玉斌;杜庆治;: "基于并行双向门控循环单元与自注意力机制的中文文本情感分类", 北京化工大学学报(自然科学版), no. 02, 20 March 2020 (2020-03-20) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115599918A (zh) * | 2022-11-02 | 2023-01-13 | 吉林大学(Cn) | 一种基于图增强的互学习文本分类方法及系统 |
CN115544260A (zh) * | 2022-12-05 | 2022-12-30 | 湖南工商大学 | 用于文本情感分析的对比优化编解码模型及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114925205B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
CN108388651B (zh) | 一种基于图核和卷积神经网络的文本分类方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN109783818B (zh) | 一种企业行业分类方法 | |
CN111125358B (zh) | 一种基于超图的文本分类方法 | |
CN110196980B (zh) | 一种基于卷积网络在中文分词任务上的领域迁移 | |
CN110609897A (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN108363695B (zh) | 一种基于双向依赖语法树表征的用户评论属性抽取方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN111079409B (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
CN112560432A (zh) | 基于图注意力网络的文本情感分析方法 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN109919175B (zh) | 一种结合属性信息的实体多分类方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN113516198B (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN113094502A (zh) | 一种多粒度外卖用户评论情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |