CN112925908A - 一种基于Attention的图注意力网络的文本分类方法及系统 - Google Patents

一种基于Attention的图注意力网络的文本分类方法及系统 Download PDF

Info

Publication number
CN112925908A
CN112925908A CN202110195634.7A CN202110195634A CN112925908A CN 112925908 A CN112925908 A CN 112925908A CN 202110195634 A CN202110195634 A CN 202110195634A CN 112925908 A CN112925908 A CN 112925908A
Authority
CN
China
Prior art keywords
graph
text
attention
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110195634.7A
Other languages
English (en)
Inventor
景维鹏
陈广胜
宋先阳
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Original Assignee
Northeast Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University filed Critical Northeast Forestry University
Priority to CN202110195634.7A priority Critical patent/CN112925908A/zh
Publication of CN112925908A publication Critical patent/CN112925908A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于Attention的图注意力网络的文本分类方法,属于自然语言处理领域,目的是解决处理地理文本中包含的非结构化文本隐晦不精准、现有技术对大量数据获取分类困难的问题。本发明通过在文本图卷积网络中引入注意力机制,从而将卷积操作中的普通的归一化过程赋予不同的权重,使得要被分类的节点(文本)能够根据上下文对其的重要程度以不同的权重学习到特征。该方法在自建的地理文本数据集中以上下文的关系进行特征的聚合,在标记数据的作用下,对未知标签的数据对是否属于地理文本进行分类。该基于Attention的图注意力网络的文本分类方法能够在数量较多的文本信息中准确的抽取出包含地理信息的文本,以便于有效的为下游任务提供可靠的数据。

Description

一种基于Attention的图注意力网络的文本分类方法及系统
技术领域
本发明是一种基于Attention的图注意力网络的文本分类方法及系统,尤其涉及基于Attention的图注意力在神经网络的文本分类过程中的应用,属于自然语言处理领域。
背景技术
在互联网中,每天产生大量的文本,这些文本来自于各个领域。而大多数的文本包含着多个领域的信息,相比起图像数据,文本中包含的信息更加隐晦且数量多。网络文本中的数据分成三种:结构化数据、半结构化数据、非结构化数据。对于结构化数据,业界内指的是关系模型数据,即用关系数据库表的形式管理的数据。半结构化数据指的是一些非关系模型的,有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档,Email等等。非结构化数据是数量最多的一种,它是没有固定模型的数据。如WORD、PDF、PPT、EXL,各种格式的图片,视频等;
并且,地理知识在众多的网络文本中占有很大的比重,而包含众多地理知识的文本称之为地理文本,此类文本大都属于非结构化的文本,流通在互联网中的每一个角落。研究如何从这些文本中准确的获取有用的地理知识以及获取哪一种地理知识从而将其应用在其他领域从而便利人们的生活是很有必要的。
发明内容
为解决处理地理文本中包含的非结构化文本隐晦不精准、现有技术对大量数据获取分类困难且不精准的问题,本发明提出了一种基于Attention的图注意力网络的文本分类方法及系统,方案如下:
方案一:该系统包括文本收集模块、数据预处理模块、文本构建模块、特征节点模块和文本分类模块,模块按递进逻辑顺序连接;
其中文本收集模块负责数据收集和标记并完成分割;
数据预处理模块负责对文本收集模块获得的数据进行预处理;
文本构建模块负责将文本中的句子与数据集中的字或词作为节点,建立边后形成图并引入注意力机制;
特征节点模块对邻近节点进行特征向量提取和更新;
文本分类模块按照已有的标记数据进行地理文本分类。
进一步地,所述的文本构建模块包括矩阵构建模块和图注意力网络模块,矩阵构建模块与图注意力网络模块成并列逻辑关系。
方案二:一种基于Attention的图注意力网络的文本分类方法,是基于上述的系统为基础而实现的,具体方法步骤如下:
步骤S101,通过所述的文本收集模块收集地理文本,进行地理数据的label标记,对于完成训练数据和测试数据的分割;
步骤S102,利用所述的数据预处理模块完成预处理过程,包括对地理数据进行分词,去除听用词以及难以识别的字符;
步骤S103,所述的文本构建模块将文本构建为图结构数据,以每一个句子与数据集中词或字为节点,以字与字之间的关系建立边;
步骤S104,经步骤S103得到的图结构数据,通过所述的矩阵构建模块构建图数据的特征矩阵和邻接矩阵;
步骤S105,经步骤S103得到的图结构数据,利用所述的图注意力网络模块构建神经网络模型,形成图注意力层,将注意力机制引入神经网络模型并使用注意力公式替代卷积归一化;
步骤S106,利用所述的特征节点模块对图数据中的任意一个节点,以对其不同的影响程度聚合邻接节点的特征,更新所在节点的特征向量;
步骤S107,最终通过所述的文本分类模块按照步骤S101已有的标记数据,完成地理文本的分类。
进一步地,在步骤S103-S105中,首先定义无向图,将文本转换为图结构的过程则细化为:
步骤A,将所述的无向图的左部表示为模型的输入层,将一维的地理文本数据转化为图结构;
步骤B,将无向图的中部表示为图数据经过图注意力网络后,通过所述的图注意力层分析每一个节点的输入特征从而得到输出特征;
步骤C,所述的无向图的右部表示为模型经过所述的图注意力网络模块训练,通过softmax层进行分类,一个无向图由节点和边组成一个序列;其中序列代表数据集中的每一个文本,每一个小方块代表文本中的每一个字或词,形成每一个所述的文本或词或字构成这个图的所有节点;
步骤D,最后将每一条字与字之间的线表示一种边,每一条字与序列之间的线表示另一种边,从而将整个数据集构建成一张图。
进一步地,在步骤B中,所述的分析每一个节点的输入特征的细化过程为:如果一个词或短语在一段文本中出现的频率高,则认为该词具有很好的类别区别能力,适合用来分类,对于一个图G=(V,E)包含N个节点,每一个节点带有M个特征,把特征矩阵设为X,其大小是N*M的,图的邻接矩阵设为A,A和X作为图神经网络的输入。
进一步地,除步骤S101-S107的过程,该方法也可通过如下步骤实现:
步骤S201,将经过所述的数据预处理模块处理后的文本序列化的数据,构建成为具有拓扑结构的图数据;
步骤S202,引用所述的图注意力网络模块,训练和测试整个图形数据集,使得每一条文本的初始特征聚合到邻接节点的特征得以更新;
步骤S203,通过所述的文本分类模块,使用全连接层和softmax函数进行更新后特征向量的分类;其中所述的文本分词的方法为两种,字级别的分词方法和词级别的分词方法,因此文本序列转换为图结构时,具体为生成以字作为节点和以词作为节点的图。
进一步地,在步骤S201中,每种图的边分为两种:字或词之间的边、字或词与所在序列的边;每一种边具有不同的权重,前者的权重由PMI获得,后者的权重由TF-IDF获得。
进一步地,在步骤S202中,在完成图数据的构建后,构建特征矩阵和邻接矩阵;特征矩阵的每一行为每条文本的embedding,由bert-as-service获取。
进一步地,在步骤S203中,神构建经网络中的权重矩阵,邻接矩阵的行列均为节点,两个节点之间存在边,对应的值则为所计算的权重;此时构建图注意力网络,引入注意力机制,由一层图注意力层,其后接一层全连接的分类层,完成图注意力网络的文本分类。
进一步地,通过所述的神经网络中的权重矩阵过程具体为:
首先,计算出两个节点的attention系数;这个系数表示为两个节点之间的重要程度,为了防止在训练过程中梯度消失和爆炸的问题,将attention系数进行归一化处理,随后使用LeakyReLU激活函数,使节点稳定的显示;然后使用multi-head attention机制,进一步调整注意力机制;之后,引入注意力机制,每个节点的特征只和相邻节点有关,无需使用整个图数据的信息;最后,得到最终的节点的特征矩阵,使用全连接层加softmax函数进行分类,完成地理文本的分类。
本发明有益效果体现在:
通过引入注意力机制来,改进普通的图卷积公式,使得地理信息文本能够聚合上下文的特征,从而使文本中的地理信息就更有辨识度;
另外,针对社交网络中的大流量的文本,在这些文本中的地理信息,在交通运输,城乡规划,灾害救援中具有重要的意义,因此使用带有注意力机制的图卷积网络,和图卷积网络相比,图注意力网络使用注意力权重聚合邻接节点的特征,并且经过训练后的网络,可以使用较少的标注数据来获取到文本的准确的分类结果。
附图说明
图1为一种基于Attention的图注意力网络的文本分类系统构成图;
图2为一种基于Attention的图注意力网络的文本分类方法实施例流程图;
图3为一种基于Attention的图注意力网络的文本分类系统的局部模块图;
图4为基于Attention的图注意力网络的模型流程图;
图5为一种基于Attention的图注意力网络的文本分类中将文本序列化数据转换成图数据示意图;
图6为一种基于Attention的图注意力网络中的注意力系数的结构图;
图7为一种基于Attention的图注意力网络中的多头注意力系数的结构图;
图8为本发明中使用两种不同的构图方法的测试效果;
图9为本发明中使用注意力机制的数量对测试准确度和运行时间的测试。
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
具体实施方式一:一种基于Attention的图注意力网络的文本分类系统,该系统包括文本收集模块、数据预处理模块、文本构建模块、特征节点模块和文本分类模块,模块按递进逻辑顺序连接;
首先,文本收集模块负责数据收集和标记并完成分割,其次,数据预处理模块负责对文本收集模块获得的数据进行预处理,然后,文本构建模块负责将文本中的句子与数据集中的字或词作为节点,并建立边后形成图并引入注意力机制,再次,特征节点模块对邻近节点进行特征向量提取和更新,最终由文本分类模块按照已有的标记数据进行地理文本分类;所述的文本构建模块包括矩阵构建模块和构建图注意力网络模块,矩阵构建模块与构建图注意力网络模块成并列逻辑关系。
具体实施方式二:一种基于Attention的图注意力网络的文本分类方法,通过引入注意力机制来,改进普通的图卷积公式,使得地理信息文本能够聚合上下文的特征,从而是文本中的地理信息就更有辨识度。
本实施例总体步骤如图2所示,通过如下方法步骤实现:
S101:收集文本,进行部分数据的label标记,完成训练数据和测试数据的分割;
S102:对数据进行分词,去除停用词以及难以识别的特殊字符,完成数据预处理。
S103:将文本构建为图结构数据,以每一个句子与数据集中词或字作为节点,以字与字之间的关系建立边;
S104:构建图注意力网络模型,使用注意力公式替代卷积归一化。
S105:构建图数据的特征矩阵和邻接矩阵。
S106:对图数据中的任意一个节点,以对其不同的影响程度聚合邻接节点的特征,更新所在节点的特征向量。
S107:按照已有的标记数据进行地理文本的分类。
该步骤的具体细化过程如下:
对数据集中的每一条数据使用两种分词方式对其进行分词,第一:使用字级别的分词方式;第二:使用Jieba工具,词级别的分词方式,去除停用词以及难以识别的特殊字符以完成文本的预处理。
呈现序列状的文本数据无法输入到图神经网络中。对现有的文本数据转换为图结构数据;
已经转换为图结构的文本数据,文本与文本之间的潜在关联信息会保存在图中。为了展现这种信息,需要构建图数据的邻接矩阵和特征矩阵。
图数据与相应矩阵构建完成后,构建基于Attention机制的图注意力网络。使用图注意力层代替其中的图卷积层。
将文本的特征矩阵和邻接矩阵作为网络的输入,在反复的计算损失和迭代后,对于要分类的每一个节点(每一条文本),邻接节点作为节点的上下文对要分类的文本有不同程度的影响程度,在神经网络的迭代过程中通过注意力机制学习到这种特征。从而对要分类的节点进行了特征更新。
通过更新后的特征矩阵(每一个节点特征)和label进行对包含地理信息的文本进行分类。
每一条文本进行五种label的分类,最后计算被分类为地理信息标签的精确率,召回率,F1值。
本发明在使用图神经网络进行文本分类时,通过特征融合的思想,使用multi-attention完成文本的分类任务。
此方法的总视图如图4所示,图的左部表示模型的输入层,为了将数据完整的输入到图网络中,一维的地理文本数据需要转化为图结构;
其中图的中部表示图数据经过图注意力网络;图注意力层通过分析每一个节点的输入特征从得到输出特征;图的右部表示模型经过训练,节点通过softmax层进行分类;
如图5所示,描述了文本转换为图结构的详细过程,一个无向图由节点和边组成。sequence代表数据集中的每一个text,每一个小方块代表text中的每一个字或词,每一个sequence和词或字构成这个图的所有节点;
每一条字与字之间的线表示一种边,每一条字与序列之间的线表示另一种边,从而将整个数据集构建成一张大的图。前者权重的计算方式为PMI,后者为TF-IDF。TF代表词的频率,表明某个词在文本中出现的次数,IDF代表逆向文本频率,某一个确定过的词的IDF,可以由包含该词的文本除以文本的总数,再取对数获得。
整个算法的思想则是,如果一个词或短语在一段文本中出现的频率高,并且在其他文章中很少出现,则认为该词具有很好的类别区别能力,适合用来分类。图6,7表示的是图注意力机制的原理。对于一个图G=(V,E)包含N个节点,每一个节点带有M个特征,把特征矩阵设为X,其大小是N*M的,图的邻接矩阵设为A,A和X作为图神经网络的输入;
核心公式如下所示:
Figure BDA0002944602900000061
σ代表激活函数,D是度矩阵,A是邻接矩阵加上自连接矩阵用来表示节点自身的特征,H是特征矩阵,当H处于初始状态,H和上述的X是相等的,W是训练的参数矩阵。假设构建一个两层的图神经网络,激活函数分别使用Relu和Softmax,公式如下所示:
f(X,A)=softmax(AReLU(AXW(0))W(1))
注意力机制的核心在于对给定信息进行权重分配,权重高的信息意味着需要系统进行重点加工,正式的定义如下:设图中任意节点vi,在第l层所对应的特征向量为hi
Figure BDA0002944602900000071
表示第l层节点特征向量的长度,经过一个以注意力机制为核心的聚合操作之后,输出的是每个节点新的特征向量hi',
Figure BDA0002944602900000072
d(l+1)是输出的特征向量的长度(第l+1层节点特征向量的长度);
假设当前中心节点为vi(每个节点都可以作为中心节点,实际代码中使用矩阵运算,实现对各个节点并行计算),设其中一个邻居节点vj到vi的权重系数为:
eij=a(Whi,Whj)
其中,
Figure BDA0002944602900000073
是该层节点特征变换(维度变换)的权重参数。a是计算两个节点(特征向量)相关度的函数。原则上,这里计算图中任意一个节点到节点vi的权重系数,但是为了简化计算,将其限制在一阶邻居内(有直接的边相连),需要注意的是在GAT中,将每个节点自身也视作自己的邻居。关于函数a的选择,前面介绍了可以用向量的内积来定义一种无参形式的相关度计算(Whi,Whj),也可以定义成一种带参的神经网络层,只要满足
Figure BDA0002944602900000074
即输出一个标量值表示二者的相关度即可。此处选择了一个单层的全连接层:
eij=LeakyReLU(aT[Whi||Whj])
其中||代表拼接操作,其中权重参数
Figure BDA0002944602900000075
(注意这里的a是一个权重向量/模型参数,之前的a表示函数),激活函数使用LeakyReLU。为了更好地分配权重,需要将当前中心节点与其所有邻居计算出的相关度进行统一的归一化处理,具体形式为softmax归一化:
Figure BDA0002944602900000076
α是权重系数,通过上式的处理,保证了当前中心节点所有邻居的权重系数加和为1。下式给出了完整的权重系数的计算公式:
Figure BDA0002944602900000077
一旦完成上述权重系数的计算,按照注意力机制加权求和的思路,节点vi新的特征向量为,如此完成了更新节点特征的操作:
Figure BDA0002944602900000081
具体实施方式三:
除具体实施方式一和二所述的系统及方法步骤,如图3所示,本实施例通过如下方式实现,:
收集网络流通中的文本数据,从总数据中挑选出部分数据进行label的标记,再选取百分之八十作为训练集,百分之二十作为数据集。
图数据构建模块S201,将经过预处理后的文本序列化的数据,构建成为具有拓扑结构的图数据。
图注意力网络模块S202,用于训练和测试整个图形数据集,使得每一条文本的初始特征聚合到邻接节点的特征得以更新。
分类模块S203,使用全连接层和softmax函数进行更新后特征向量的分类。所述的文本分词的方法为两种,字级别的分词方法和词级别的分词方法,因此文本序列转换为图结构时,具体为生成以字作为节点和以词作为节点的图。
每种图的边分为两种:(字或词)之间的边。(字或词)与所在序列的边。每一种边具有不同的权重,前者的权重由PMI获得,后者的权重由TF-IDF获得。在完成图数据的构建后,构建特征矩阵和邻接矩阵。特征矩阵的每一行为每条文本的embedding,由bert-as-service获取。邻接矩阵的行列均为节点,两个节点之间存在边,对应的值则为前期工作所计算的权重。构建图注意力网络,由一层图注意力层,其后接一层全连接的分类层。
通过神经网络中的权重矩阵,计算出两个节点的attention系数。这个系数可以表示为两个节点之间的重要程度,为了防止在训练过程中梯度消失和爆炸的问题,将attention系数进行归一化处理,随后使用LeakyReLU激活函数,使节点能够稳定的被表示。此种表示方法为self-attention机制。使用multi-head attention机制,进一步调整注意力机制。引入注意力机制后,每个节点的特征只和相邻节点有关,无需使用整个图数据的信息。得到最终的节点的特征矩阵,使用全连接层加softmax函数进行分类。假设当前中心节点为vi(每个节点都可以作为中心节点,实际代码中使用矩阵运算,实现对各个节点并行计算),设其中一个邻居节点vj到vi的权重系数为:
eij=a(Whi,Whj)
Figure BDA0002944602900000091
向量)相关度的函数。原则上,这里计算图中任意一个节点到节点vi的权重系数,但是为了简化计算,将其限制在一阶邻居内(有直接的边相连),需要注意的是在GAT中,将每个节点自身也视作自己的邻居。关于函数a的选择,前面介绍了可以用向量的内积来定义一种无参形式的相关度计算(Whi,Whj),也可以定义成一种带参的神经网络层,只要满足
Figure BDA0002944602900000092
即输出一个标量值表示二者的相关度即可。此处选择了一个单层的全连接层:
eij=LeakyReLU(aT[Whi||Whj])
其中||代表拼接操作,其中权重参数
Figure BDA0002944602900000093
(注意这里的a是一个权重向量/模型参数,之前的a表示函数),激活函数使用LeakyReLU。为了更好地分配权重,需要将当前中心节点与其所有邻居计算出的相关度进行统一的归一化处理,具体形式为softmax归一化:
Figure BDA0002944602900000094
α是权重系数,通过上式的处理,保证了当前中心节点所有邻居的权重系数加和为1;下式给出了完整的权重系数的计算公式:
Figure BDA0002944602900000095
一旦完成上述权重系数的计算,按照注意力机制加权求和的思路,节点vi新的特征向量为,如此完成了更新节点特征的操作:
Figure BDA0002944602900000096
各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处;
由此可见,本发明只是对方法及系统的示例性说明,并不限定它的保护范围,本发明有许多变形和变化而不脱离本发明的精神本领域技术人员还可以对其局部进行改变,只要没有超出本专利的精神实质,都在本发明的保护范围内。

Claims (10)

1.一种基于Attention的图注意力网络的文本分类系统,其特征在于:该系统包括文本收集模块、数据预处理模块、文本构建模块、特征节点模块和文本分类模块,模块按递进逻辑顺序连接;
其中文本收集模块负责数据收集和标记并完成分割;
数据预处理模块负责对文本收集模块获得的数据进行预处理;
文本构建模块负责将文本中的句子与数据集中的字或词作为节点,建立边后形成图并引入注意力机制;
特征节点模块对邻近节点进行特征向量提取和更新;
文本分类模块按照已有的标记数据进行地理文本分类。
2.根据权利要求1所述的一种基于Attention的图注意力网络的文本分类系统,其特征在于:所述的文本构建模块包括矩阵构建模块和图注意力网络模块,矩阵构建模块与图注意力网络模块成并列逻辑关系。
3.一种基于Attention的图注意力网络的文本分类方法,是基于权利要求1-2中任一一项所述的系统为基础而实现的,其特征在于:具体方法步骤如下:
步骤S101,通过所述的文本收集模块收集地理文本,进行地理数据的label标记,对于完成训练数据和测试数据的分割;
步骤S102,利用所述的数据预处理模块完成预处理过程,包括对地理数据进行分词,去除听用词以及难以识别的字符;
步骤S103,所述的文本构建模块将文本构建为图结构数据,以每一个句子与数据集中词或字为节点,以字与字之间的关系建立边;
步骤S104,经步骤S103得到的图结构数据,通过所述的矩阵构建模块构建图数据的特征矩阵和邻接矩阵;
步骤S105,经步骤S103得到的图结构数据,利用所述的图注意力网络模块构建神经网络模型,形成图注意力层,将注意力机制引入神经网络模型并使用注意力公式替代卷积归一化;
步骤S106,利用所述的特征节点模块对图数据中的任意一个节点,以对其不同的影响程度聚合邻接节点的特征,更新所在节点的特征向量;
步骤S107,最终通过所述的文本分类模块按照步骤S101已有的标记数据,完成地理文本的分类。
4.根据权利要求3所述的一种基于Attention的图注意力网络的文本分类方法,其特征在于:在步骤S103-S105中,首先定义无向图,将文本转换为图结构的过程则细化为:
步骤A,将所述的无向图的左部表示为模型的输入层,将一维的地理文本数据转化为图结构;
步骤B,将无向图的中部表示为图数据经过图注意力网络后,通过所述的图注意力层分析每一个节点的输入特征从而得到输出特征;
步骤C,所述的无向图的右部表示为模型经过所述的图注意力网络模块训练,通过softmax层进行分类,一个无向图由节点和边组成一个序列;其中序列代表数据集中的每一个文本,每一个小方块代表文本中的每一个字或词,形成每一个所述的文本或词或字构成这个图的所有节点;
步骤D,最后将每一条字与字之间的线表示一种边,每一条字与序列之间的线表示另一种边,从而将整个数据集构建成一张图。
5.根据权利要求4所述的一种基于Attention的图注意力网络的文本分类方法,其特征在于:在步骤B中,所述的分析每一个节点的输入特征的细化过程为:如果一个词或短语在一段文本中出现的频率高,则认为该词具有很好的类别区别能力,适合用来分类,对于一个图G=(V,E)包含N个节点,每一个节点带有M个特征,把特征矩阵设为X,其大小是N*M的,图的邻接矩阵设为A,A和X作为图神经网络的输入。
6.根据权利要求3所述的一种基于Attention的图注意力网络的文本分类方法,其特征在于:除步骤S101-S107的过程,该方法也可通过如下步骤实现:
步骤S201,将经过所述的数据预处理模块处理后的文本序列化的数据,构建成为具有拓扑结构的图数据;
步骤S202,引用所述的图注意力网络模块,训练和测试整个图形数据集,使得每一条文本的初始特征聚合到邻接节点的特征得以更新;
步骤S203,通过所述的文本分类模块,使用全连接层和softmax函数进行更新后特征向量的分类;其中所述的文本分词的方法为两种,字级别的分词方法和词级别的分词方法,因此文本序列转换为图结构时,具体为生成以字作为节点和以词作为节点的图。
7.根据权利要求6所述的一种基于Attention的图注意力网络的文本分类方法,其特征在于:在步骤S201中,每种图的边分为两种:字或词之间的边、字或词与所在序列的边;每一种边具有不同的权重,前者的权重由PMI获得,后者的权重由TF-IDF获得。
8.根据权利要求6所述的一种基于Attention的图注意力网络的文本分类方法,其特征在于:在步骤S202中,在完成图数据的构建后,构建特征矩阵和邻接矩阵;特征矩阵的每一行为每条文本的embedding,由bert-as-service获取。
9.根据权利要求6所述的一种基于Attention的图注意力网络的文本分类方法,其特征在于:在步骤S203中,神构建经网络中的权重矩阵,邻接矩阵的行列均为节点,两个节点之间存在边,对应的值则为所计算的权重;此时构建图注意力网络,引入注意力机制,由一层图注意力层,其后接一层全连接的分类层,完成图注意力网络的文本分类。
10.根据权利要求9所述的一种基于Attention的图注意力网络的文本分类方法,其特征在于:通过所述的神经网络中的权重矩阵过程具体为:
首先,计算出两个节点的attention系数;这个系数表示为两个节点之间的重要程度,为了防止在训练过程中梯度消失和爆炸的问题,将attention系数进行归一化处理,随后使用LeakyReLU激活函数,使节点稳定的显示;然后使用multi-head attention机制,进一步调整注意力机制;之后,引入注意力机制,每个节点的特征只和相邻节点有关,无需使用整个图数据的信息;最后,得到最终的节点的特征矩阵,使用全连接层加softmax函数进行分类,完成地理文本的分类。
CN202110195634.7A 2021-02-19 2021-02-19 一种基于Attention的图注意力网络的文本分类方法及系统 Pending CN112925908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110195634.7A CN112925908A (zh) 2021-02-19 2021-02-19 一种基于Attention的图注意力网络的文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110195634.7A CN112925908A (zh) 2021-02-19 2021-02-19 一种基于Attention的图注意力网络的文本分类方法及系统

Publications (1)

Publication Number Publication Date
CN112925908A true CN112925908A (zh) 2021-06-08

Family

ID=76169998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110195634.7A Pending CN112925908A (zh) 2021-02-19 2021-02-19 一种基于Attention的图注意力网络的文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN112925908A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312498A (zh) * 2021-06-09 2021-08-27 上海交通大学 用无向图嵌入知识图谱的文本信息抽取方法
CN113553052A (zh) * 2021-06-09 2021-10-26 麒麟软件有限公司 使用Attention编码表示自动识别与安全相关的代码提交的方法
CN113592013A (zh) * 2021-08-06 2021-11-02 国网新源水电有限公司富春江水力发电厂 一种基于图注意力网络的三维点云分类方法
CN113919440A (zh) * 2021-10-22 2022-01-11 重庆理工大学 一种融合双重注意力机制和图卷积社交网络谣言检测系统
CN114332872A (zh) * 2022-03-14 2022-04-12 四川国路安数据技术有限公司 一种基于图注意力网络的合同文档容错信息提取方法
CN114692780A (zh) * 2022-04-19 2022-07-01 北京百度网讯科技有限公司 实体信息分类方法、分类模型训练方法、装置、电子设备
CN114860952A (zh) * 2022-04-29 2022-08-05 华侨大学 一种基于数据统计和知识指导的图拓扑学习方法及系统
CN115422920A (zh) * 2022-11-03 2022-12-02 南京信息工程大学 基于bert和gat的裁判文书争议焦点识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类系统
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111522956A (zh) * 2020-05-08 2020-08-11 河南理工大学 基于双通道和层次化注意力网络的文本情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类系统
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111522956A (zh) * 2020-05-08 2020-08-11 河南理工大学 基于双通道和层次化注意力网络的文本情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEIPENG JING等: "geoGAT: Graph Model Based on A ention Mechanism for Geographic Text Classification", 《HTTPS://ARXIV.ORG/PDF/2101.11424.PDF》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312498A (zh) * 2021-06-09 2021-08-27 上海交通大学 用无向图嵌入知识图谱的文本信息抽取方法
CN113553052A (zh) * 2021-06-09 2021-10-26 麒麟软件有限公司 使用Attention编码表示自动识别与安全相关的代码提交的方法
CN113312498B (zh) * 2021-06-09 2022-06-17 上海交通大学 用无向图嵌入知识图谱的文本信息抽取方法
CN113592013A (zh) * 2021-08-06 2021-11-02 国网新源水电有限公司富春江水力发电厂 一种基于图注意力网络的三维点云分类方法
CN113592013B (zh) * 2021-08-06 2024-04-30 国网新源水电有限公司富春江水力发电厂 一种基于图注意力网络的三维点云分类方法
CN113919440A (zh) * 2021-10-22 2022-01-11 重庆理工大学 一种融合双重注意力机制和图卷积社交网络谣言检测系统
CN114332872A (zh) * 2022-03-14 2022-04-12 四川国路安数据技术有限公司 一种基于图注意力网络的合同文档容错信息提取方法
CN114332872B (zh) * 2022-03-14 2022-05-24 四川国路安数据技术有限公司 一种基于图注意力网络的合同文档容错信息提取方法
CN114692780A (zh) * 2022-04-19 2022-07-01 北京百度网讯科技有限公司 实体信息分类方法、分类模型训练方法、装置、电子设备
CN114860952A (zh) * 2022-04-29 2022-08-05 华侨大学 一种基于数据统计和知识指导的图拓扑学习方法及系统
CN115422920A (zh) * 2022-11-03 2022-12-02 南京信息工程大学 基于bert和gat的裁判文书争议焦点识别方法
CN115422920B (zh) * 2022-11-03 2023-02-28 南京信息工程大学 基于bert和gat的裁判文书争议焦点识别方法

Similar Documents

Publication Publication Date Title
CN112925908A (zh) 一种基于Attention的图注意力网络的文本分类方法及系统
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN111563164B (zh) 一种基于图神经网络的特定目标情感分类方法
CN110609899B (zh) 一种基于改进bert模型的特定目标情感分类方法
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN106845717A (zh) 一种基于多模型融合策略的能源效率评价方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN103559199B (zh) 网页信息抽取方法和装置
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN101894275A (zh) 一种弱监督的sar图像分类方法
CN110472053A (zh) 一种面向公共资源招投标公告数据的自动分类方法及其系统
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN113947161A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN108564117A (zh) 一种基于svm的贫困生辅助认定方法
CN112529415B (zh) 基于组合多感受野图神经网络的物品评分方法
CN112905868A (zh) 事件抽取方法、装置、设备及存储介质
CN113706291A (zh) 欺诈风险预测方法、装置、设备及存储介质
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN115329101A (zh) 一种电力物联网标准知识图谱构建方法及装置
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210608

RJ01 Rejection of invention patent application after publication