CN112925908A

CN112925908A - 一种基于Attention的图注意力网络的文本分类方法及系统

Info

Publication number: CN112925908A
Application number: CN202110195634.7A
Authority: CN
Inventors: 景维鹏; 陈广胜; 宋先阳; 刘鹏
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2021-06-08

Abstract

本发明提出一种基于Attention的图注意力网络的文本分类方法，属于自然语言处理领域，目的是解决处理地理文本中包含的非结构化文本隐晦不精准、现有技术对大量数据获取分类困难的问题。本发明通过在文本图卷积网络中引入注意力机制，从而将卷积操作中的普通的归一化过程赋予不同的权重，使得要被分类的节点(文本)能够根据上下文对其的重要程度以不同的权重学习到特征。该方法在自建的地理文本数据集中以上下文的关系进行特征的聚合，在标记数据的作用下，对未知标签的数据对是否属于地理文本进行分类。该基于Attention的图注意力网络的文本分类方法能够在数量较多的文本信息中准确的抽取出包含地理信息的文本，以便于有效的为下游任务提供可靠的数据。

Description

一种基于Attention的图注意力网络的文本分类方法及系统

技术领域

本发明是一种基于Attention的图注意力网络的文本分类方法及系统，尤其涉及基于Attention的图注意力在神经网络的文本分类过程中的应用，属于自然语言处理领域。

背景技术

在互联网中，每天产生大量的文本，这些文本来自于各个领域。而大多数的文本包含着多个领域的信息，相比起图像数据，文本中包含的信息更加隐晦且数量多。网络文本中的数据分成三种：结构化数据、半结构化数据、非结构化数据。对于结构化数据，业界内指的是关系模型数据，即用关系数据库表的形式管理的数据。半结构化数据指的是一些非关系模型的，有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档，Email等等。非结构化数据是数量最多的一种，它是没有固定模型的数据。如WORD、PDF、PPT、EXL，各种格式的图片，视频等；

并且，地理知识在众多的网络文本中占有很大的比重，而包含众多地理知识的文本称之为地理文本，此类文本大都属于非结构化的文本，流通在互联网中的每一个角落。研究如何从这些文本中准确的获取有用的地理知识以及获取哪一种地理知识从而将其应用在其他领域从而便利人们的生活是很有必要的。

发明内容

为解决处理地理文本中包含的非结构化文本隐晦不精准、现有技术对大量数据获取分类困难且不精准的问题，本发明提出了一种基于Attention的图注意力网络的文本分类方法及系统，方案如下：

方案一：该系统包括文本收集模块、数据预处理模块、文本构建模块、特征节点模块和文本分类模块，模块按递进逻辑顺序连接；

其中文本收集模块负责数据收集和标记并完成分割；

数据预处理模块负责对文本收集模块获得的数据进行预处理；

文本构建模块负责将文本中的句子与数据集中的字或词作为节点，建立边后形成图并引入注意力机制；

特征节点模块对邻近节点进行特征向量提取和更新；

文本分类模块按照已有的标记数据进行地理文本分类。

进一步地，所述的文本构建模块包括矩阵构建模块和图注意力网络模块，矩阵构建模块与图注意力网络模块成并列逻辑关系。

方案二：一种基于Attention的图注意力网络的文本分类方法，是基于上述的系统为基础而实现的，具体方法步骤如下：

步骤S101，通过所述的文本收集模块收集地理文本，进行地理数据的label标记，对于完成训练数据和测试数据的分割；

步骤S102，利用所述的数据预处理模块完成预处理过程，包括对地理数据进行分词，去除听用词以及难以识别的字符；

步骤S103，所述的文本构建模块将文本构建为图结构数据，以每一个句子与数据集中词或字为节点，以字与字之间的关系建立边；

步骤S104，经步骤S103得到的图结构数据，通过所述的矩阵构建模块构建图数据的特征矩阵和邻接矩阵；

步骤S105，经步骤S103得到的图结构数据，利用所述的图注意力网络模块构建神经网络模型，形成图注意力层，将注意力机制引入神经网络模型并使用注意力公式替代卷积归一化；

步骤S106，利用所述的特征节点模块对图数据中的任意一个节点，以对其不同的影响程度聚合邻接节点的特征，更新所在节点的特征向量；

步骤S107，最终通过所述的文本分类模块按照步骤S101已有的标记数据，完成地理文本的分类。

进一步地，在步骤S103-S105中，首先定义无向图，将文本转换为图结构的过程则细化为：

步骤A，将所述的无向图的左部表示为模型的输入层，将一维的地理文本数据转化为图结构；

步骤B，将无向图的中部表示为图数据经过图注意力网络后，通过所述的图注意力层分析每一个节点的输入特征从而得到输出特征；

步骤C，所述的无向图的右部表示为模型经过所述的图注意力网络模块训练，通过softmax层进行分类，一个无向图由节点和边组成一个序列；其中序列代表数据集中的每一个文本，每一个小方块代表文本中的每一个字或词，形成每一个所述的文本或词或字构成这个图的所有节点；

步骤D，最后将每一条字与字之间的线表示一种边，每一条字与序列之间的线表示另一种边，从而将整个数据集构建成一张图。

进一步地，在步骤B中，所述的分析每一个节点的输入特征的细化过程为：如果一个词或短语在一段文本中出现的频率高，则认为该词具有很好的类别区别能力，适合用来分类，对于一个图G＝(V,E)包含N个节点，每一个节点带有M个特征，把特征矩阵设为X，其大小是N*M的，图的邻接矩阵设为A，A和X作为图神经网络的输入。

进一步地，除步骤S101-S107的过程，该方法也可通过如下步骤实现：

步骤S201，将经过所述的数据预处理模块处理后的文本序列化的数据，构建成为具有拓扑结构的图数据；

步骤S202，引用所述的图注意力网络模块，训练和测试整个图形数据集，使得每一条文本的初始特征聚合到邻接节点的特征得以更新；

步骤S203，通过所述的文本分类模块，使用全连接层和softmax函数进行更新后特征向量的分类；其中所述的文本分词的方法为两种，字级别的分词方法和词级别的分词方法，因此文本序列转换为图结构时，具体为生成以字作为节点和以词作为节点的图。

进一步地，在步骤S201中，每种图的边分为两种：字或词之间的边、字或词与所在序列的边；每一种边具有不同的权重，前者的权重由PMI获得，后者的权重由TF-IDF获得。

进一步地，在步骤S202中，在完成图数据的构建后，构建特征矩阵和邻接矩阵；特征矩阵的每一行为每条文本的embedding，由bert-as-service获取。

进一步地，在步骤S203中，神构建经网络中的权重矩阵，邻接矩阵的行列均为节点，两个节点之间存在边，对应的值则为所计算的权重；此时构建图注意力网络，引入注意力机制，由一层图注意力层，其后接一层全连接的分类层，完成图注意力网络的文本分类。

进一步地，通过所述的神经网络中的权重矩阵过程具体为：

首先，计算出两个节点的attention系数；这个系数表示为两个节点之间的重要程度，为了防止在训练过程中梯度消失和爆炸的问题，将attention系数进行归一化处理，随后使用LeakyReLU激活函数，使节点稳定的显示；然后使用multi-head attention机制，进一步调整注意力机制；之后，引入注意力机制，每个节点的特征只和相邻节点有关，无需使用整个图数据的信息；最后，得到最终的节点的特征矩阵，使用全连接层加softmax函数进行分类，完成地理文本的分类。

本发明有益效果体现在：

通过引入注意力机制来，改进普通的图卷积公式，使得地理信息文本能够聚合上下文的特征，从而使文本中的地理信息就更有辨识度；

另外，针对社交网络中的大流量的文本，在这些文本中的地理信息，在交通运输，城乡规划，灾害救援中具有重要的意义，因此使用带有注意力机制的图卷积网络，和图卷积网络相比，图注意力网络使用注意力权重聚合邻接节点的特征，并且经过训练后的网络，可以使用较少的标注数据来获取到文本的准确的分类结果。

附图说明

图1为一种基于Attention的图注意力网络的文本分类系统构成图；

图2为一种基于Attention的图注意力网络的文本分类方法实施例流程图；

图3为一种基于Attention的图注意力网络的文本分类系统的局部模块图；

图4为基于Attention的图注意力网络的模型流程图；

图5为一种基于Attention的图注意力网络的文本分类中将文本序列化数据转换成图数据示意图；

图6为一种基于Attention的图注意力网络中的注意力系数的结构图；

图7为一种基于Attention的图注意力网络中的多头注意力系数的结构图；

图8为本发明中使用两种不同的构图方法的测试效果；

图9为本发明中使用注意力机制的数量对测试准确度和运行时间的测试。

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

具体实施方式

具体实施方式一：一种基于Attention的图注意力网络的文本分类系统，该系统包括文本收集模块、数据预处理模块、文本构建模块、特征节点模块和文本分类模块，模块按递进逻辑顺序连接；

首先，文本收集模块负责数据收集和标记并完成分割，其次，数据预处理模块负责对文本收集模块获得的数据进行预处理，然后，文本构建模块负责将文本中的句子与数据集中的字或词作为节点，并建立边后形成图并引入注意力机制，再次，特征节点模块对邻近节点进行特征向量提取和更新，最终由文本分类模块按照已有的标记数据进行地理文本分类；所述的文本构建模块包括矩阵构建模块和构建图注意力网络模块，矩阵构建模块与构建图注意力网络模块成并列逻辑关系。

具体实施方式二：一种基于Attention的图注意力网络的文本分类方法，通过引入注意力机制来，改进普通的图卷积公式，使得地理信息文本能够聚合上下文的特征，从而是文本中的地理信息就更有辨识度。

本实施例总体步骤如图2所示，通过如下方法步骤实现：

S101：收集文本，进行部分数据的label标记，完成训练数据和测试数据的分割；

S102：对数据进行分词，去除停用词以及难以识别的特殊字符，完成数据预处理。

S103：将文本构建为图结构数据，以每一个句子与数据集中词或字作为节点，以字与字之间的关系建立边；

S104：构建图注意力网络模型，使用注意力公式替代卷积归一化。

S105：构建图数据的特征矩阵和邻接矩阵。

S106：对图数据中的任意一个节点，以对其不同的影响程度聚合邻接节点的特征，更新所在节点的特征向量。

S107：按照已有的标记数据进行地理文本的分类。

该步骤的具体细化过程如下：

对数据集中的每一条数据使用两种分词方式对其进行分词，第一：使用字级别的分词方式；第二：使用Jieba工具，词级别的分词方式，去除停用词以及难以识别的特殊字符以完成文本的预处理。

呈现序列状的文本数据无法输入到图神经网络中。对现有的文本数据转换为图结构数据；

已经转换为图结构的文本数据，文本与文本之间的潜在关联信息会保存在图中。为了展现这种信息，需要构建图数据的邻接矩阵和特征矩阵。

图数据与相应矩阵构建完成后，构建基于Attention机制的图注意力网络。使用图注意力层代替其中的图卷积层。

将文本的特征矩阵和邻接矩阵作为网络的输入，在反复的计算损失和迭代后，对于要分类的每一个节点(每一条文本)，邻接节点作为节点的上下文对要分类的文本有不同程度的影响程度，在神经网络的迭代过程中通过注意力机制学习到这种特征。从而对要分类的节点进行了特征更新。

通过更新后的特征矩阵(每一个节点特征)和label进行对包含地理信息的文本进行分类。

每一条文本进行五种label的分类，最后计算被分类为地理信息标签的精确率，召回率，F1值。

本发明在使用图神经网络进行文本分类时，通过特征融合的思想，使用multi-attention完成文本的分类任务。

此方法的总视图如图4所示，图的左部表示模型的输入层，为了将数据完整的输入到图网络中，一维的地理文本数据需要转化为图结构；

其中图的中部表示图数据经过图注意力网络；图注意力层通过分析每一个节点的输入特征从得到输出特征；图的右部表示模型经过训练，节点通过softmax层进行分类；

如图5所示，描述了文本转换为图结构的详细过程，一个无向图由节点和边组成。sequence代表数据集中的每一个text，每一个小方块代表text中的每一个字或词，每一个sequence和词或字构成这个图的所有节点；

每一条字与字之间的线表示一种边，每一条字与序列之间的线表示另一种边，从而将整个数据集构建成一张大的图。前者权重的计算方式为PMI，后者为TF-IDF。TF代表词的频率，表明某个词在文本中出现的次数，IDF代表逆向文本频率，某一个确定过的词的IDF，可以由包含该词的文本除以文本的总数，再取对数获得。

整个算法的思想则是，如果一个词或短语在一段文本中出现的频率高，并且在其他文章中很少出现，则认为该词具有很好的类别区别能力，适合用来分类。图6，7表示的是图注意力机制的原理。对于一个图G＝(V,E)包含N个节点，每一个节点带有M个特征，把特征矩阵设为X，其大小是N*M的，图的邻接矩阵设为A，A和X作为图神经网络的输入；

核心公式如下所示：

σ代表激活函数，D是度矩阵，A是邻接矩阵加上自连接矩阵用来表示节点自身的特征，H是特征矩阵，当H处于初始状态，H和上述的X是相等的，W是训练的参数矩阵。假设构建一个两层的图神经网络，激活函数分别使用Relu和Softmax，公式如下所示：

f(X,A)＝softmax(AReLU(AXW⁽⁰⁾)W⁽¹⁾)

注意力机制的核心在于对给定信息进行权重分配，权重高的信息意味着需要系统进行重点加工，正式的定义如下:设图中任意节点v_i,在第l层所对应的特征向量为h_i，

表示第l层节点特征向量的长度，经过一个以注意力机制为核心的聚合操作之后，输出的是每个节点新的特征向量h_i'，

d^(l+1)是输出的特征向量的长度(第l+1层节点特征向量的长度)；

假设当前中心节点为v_i(每个节点都可以作为中心节点，实际代码中使用矩阵运算，实现对各个节点并行计算)，设其中一个邻居节点v_j到v_i的权重系数为：

e_ij＝a(Wh_i,Wh_j)

其中，

是该层节点特征变换(维度变换)的权重参数。a是计算两个节点(特征向量)相关度的函数。原则上，这里计算图中任意一个节点到节点v_i的权重系数,但是为了简化计算，将其限制在一阶邻居内(有直接的边相连)，需要注意的是在GAT中，将每个节点自身也视作自己的邻居。关于函数a的选择，前面介绍了可以用向量的内积来定义一种无参形式的相关度计算(Wh_i,Wh_j)，也可以定义成一种带参的神经网络层，只要满足

即输出一个标量值表示二者的相关度即可。此处选择了一个单层的全连接层：

e_ij＝LeakyReLU(a^T[Wh_i||Wh_j])

其中||代表拼接操作，其中权重参数

(注意这里的a是一个权重向量/模型参数，之前的a表示函数)，激活函数使用LeakyReLU。为了更好地分配权重，需要将当前中心节点与其所有邻居计算出的相关度进行统一的归一化处理，具体形式为softmax归一化：

α是权重系数,通过上式的处理，保证了当前中心节点所有邻居的权重系数加和为1。下式给出了完整的权重系数的计算公式：

一旦完成上述权重系数的计算，按照注意力机制加权求和的思路，节点v_i新的特征向量为，如此完成了更新节点特征的操作：

具体实施方式三：

除具体实施方式一和二所述的系统及方法步骤，如图3所示，本实施例通过如下方式实现，：

收集网络流通中的文本数据，从总数据中挑选出部分数据进行label的标记，再选取百分之八十作为训练集，百分之二十作为数据集。

图数据构建模块S201，将经过预处理后的文本序列化的数据，构建成为具有拓扑结构的图数据。

图注意力网络模块S202，用于训练和测试整个图形数据集，使得每一条文本的初始特征聚合到邻接节点的特征得以更新。

分类模块S203，使用全连接层和softmax函数进行更新后特征向量的分类。所述的文本分词的方法为两种，字级别的分词方法和词级别的分词方法，因此文本序列转换为图结构时，具体为生成以字作为节点和以词作为节点的图。

每种图的边分为两种：(字或词)之间的边。(字或词)与所在序列的边。每一种边具有不同的权重，前者的权重由PMI获得，后者的权重由TF-IDF获得。在完成图数据的构建后，构建特征矩阵和邻接矩阵。特征矩阵的每一行为每条文本的embedding，由bert-as-service获取。邻接矩阵的行列均为节点，两个节点之间存在边，对应的值则为前期工作所计算的权重。构建图注意力网络，由一层图注意力层，其后接一层全连接的分类层。

通过神经网络中的权重矩阵，计算出两个节点的attention系数。这个系数可以表示为两个节点之间的重要程度，为了防止在训练过程中梯度消失和爆炸的问题，将attention系数进行归一化处理，随后使用LeakyReLU激活函数，使节点能够稳定的被表示。此种表示方法为self-attention机制。使用multi-head attention机制，进一步调整注意力机制。引入注意力机制后，每个节点的特征只和相邻节点有关，无需使用整个图数据的信息。得到最终的节点的特征矩阵，使用全连接层加softmax函数进行分类。假设当前中心节点为v_i(每个节点都可以作为中心节点，实际代码中使用矩阵运算，实现对各个节点并行计算)，设其中一个邻居节点v_j到v_i的权重系数为：

e_ij＝a(Wh_i,Wh_j)

向量)相关度的函数。原则上，这里计算图中任意一个节点到节点v_i的权重系数,但是为了简化计算,将其限制在一阶邻居内(有直接的边相连)，需要注意的是在GAT中，将每个节点自身也视作自己的邻居。关于函数a的选择，前面介绍了可以用向量的内积来定义一种无参形式的相关度计算(Wh_i,Wh_j)，也可以定义成一种带参的神经网络层，只要满足

e_ij＝LeakyReLU(a^T[Wh_i||Wh_j])

其中||代表拼接操作，其中权重参数

α是权重系数,通过上式的处理，保证了当前中心节点所有邻居的权重系数加和为1；下式给出了完整的权重系数的计算公式：

各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处；

由此可见，本发明只是对方法及系统的示例性说明，并不限定它的保护范围，本发明有许多变形和变化而不脱离本发明的精神本领域技术人员还可以对其局部进行改变，只要没有超出本专利的精神实质，都在本发明的保护范围内。

Claims

1.一种基于Attention的图注意力网络的文本分类系统，其特征在于：该系统包括文本收集模块、数据预处理模块、文本构建模块、特征节点模块和文本分类模块，模块按递进逻辑顺序连接；

其中文本收集模块负责数据收集和标记并完成分割；

特征节点模块对邻近节点进行特征向量提取和更新；

文本分类模块按照已有的标记数据进行地理文本分类。

2.根据权利要求1所述的一种基于Attention的图注意力网络的文本分类系统，其特征在于：所述的文本构建模块包括矩阵构建模块和图注意力网络模块，矩阵构建模块与图注意力网络模块成并列逻辑关系。

3.一种基于Attention的图注意力网络的文本分类方法，是基于权利要求1-2中任一一项所述的系统为基础而实现的，其特征在于：具体方法步骤如下：

4.根据权利要求3所述的一种基于Attention的图注意力网络的文本分类方法，其特征在于：在步骤S103-S105中，首先定义无向图，将文本转换为图结构的过程则细化为：

5.根据权利要求4所述的一种基于Attention的图注意力网络的文本分类方法，其特征在于：在步骤B中，所述的分析每一个节点的输入特征的细化过程为：如果一个词或短语在一段文本中出现的频率高，则认为该词具有很好的类别区别能力，适合用来分类，对于一个图G＝(V,E)包含N个节点，每一个节点带有M个特征，把特征矩阵设为X，其大小是N*M的，图的邻接矩阵设为A，A和X作为图神经网络的输入。

6.根据权利要求3所述的一种基于Attention的图注意力网络的文本分类方法，其特征在于：除步骤S101-S107的过程，该方法也可通过如下步骤实现：

7.根据权利要求6所述的一种基于Attention的图注意力网络的文本分类方法，其特征在于：在步骤S201中，每种图的边分为两种：字或词之间的边、字或词与所在序列的边；每一种边具有不同的权重，前者的权重由PMI获得，后者的权重由TF-IDF获得。

8.根据权利要求6所述的一种基于Attention的图注意力网络的文本分类方法，其特征在于：在步骤S202中，在完成图数据的构建后，构建特征矩阵和邻接矩阵；特征矩阵的每一行为每条文本的embedding，由bert-as-service获取。

9.根据权利要求6所述的一种基于Attention的图注意力网络的文本分类方法，其特征在于：在步骤S203中，神构建经网络中的权重矩阵，邻接矩阵的行列均为节点，两个节点之间存在边，对应的值则为所计算的权重；此时构建图注意力网络，引入注意力机制，由一层图注意力层，其后接一层全连接的分类层，完成图注意力网络的文本分类。

10.根据权利要求9所述的一种基于Attention的图注意力网络的文本分类方法，其特征在于：通过所述的神经网络中的权重矩阵过程具体为：