CN114818719A

CN114818719A - 一种基于复合网络与图注意力机制的社区话题分类方法

Info

Publication number: CN114818719A
Application number: CN202210615230.3A
Authority: CN
Inventors: 孙仁诚; 张书谙; 高赫; 尹潇伟; 乔潇曼; 姜凯文; 张韬
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-07-29

Abstract

本发明属于计算机自然语言处理技术领域，涉及一种基于复合网络与图注意力机制的社区话题分类方法，具体步骤包括：数据预处理、提取关键词、初始化特征、建立两个图结构、建立图注意力神经网络分类模型和输出节点分类；针对社区话题数据集的特点，从关键信息以及话题本身内容两方面出发，建立关键词‑话题复合复杂网络，然后抽取话题节点的两种图结构，利用双层注意力机制更新特征并用于节点分类任务；本发明中所提方法与其他现有模型相比取得了更好的分类效果，分类准确率高；为热点话题发现提供了保障。

Description

一种基于复合网络与图注意力机制的社区话题分类方法

技术领域：

本发明属于计算机自然语言处理技术领域，涉及一种基于复合网络与图注意力机制的社区话题分类方法，针对青岛部分社区话题数据集，提出一种融合关键信息以及话题本身特征信息两方面内容的复合复杂网络，从中映射出两种关于话题的图结构，并结合双层图注意力机制取得了较好的分类效果。

背景技术：

话题属于短文本的一种，短文本分类是自然语言处理的核心技术之一。中文短文本分类流程包括文本预处理、文本特征表示和分类器构建，特征表示是文本分类的关键内容。

近年来，图神经网络(GNN)引起了学术界广泛关注，其依靠节点和边表现出强大的消息传递能力和特征学习能力，并被应用到自然语言处理任务中。如YAO提出了Text-GCN模型，将文本及其包含的单词作为节点，把文本分类看成节点分类任务；在YAO的基础上，LIU等提出Tensor-GCN模型，其基于语义、语法构造一个文本图张量，在该张量图上可以进行节点信息的图内传播和图间传播；Huang等提出为每个文档单独建图且参数共享，减少了存储空间消耗；Zhang等提出TextING，其使用滑动窗口构建图，并利用Gated GNN更新节点信息；Hu等提出HGAT，加入主题和实体丰富句子语义，并为整个文本分类任务建立一个异构图。上述方法在建立图模型时，没有考虑词语与本文、文本与文本之间的语义关系，同时忽略了关键信息对文本的重要程度，将所有字词一视同仁构建图，增加了无关数据的影响。

话题数据具有以下特点：字数少特征稀疏且不含多余评论信息，无法依赖外部信息扩充数据；部分数据所属类别标签出现在话题中，局部关键信息对该部分话题尤为重要；话题由居民发布，导致部分话题口语化信息多，不含关键信息，该部分话题的全局信息尤为重要。

基于此，本发明提出建立一种复合复杂网络，包含关键词、话题两种节点，然后在网络中抽取两种话题节点图结构；并利用图注意力网络强大的特征学习能力，完成对社区话题数据的文本分类任务。

发明内容：

本发明的目的主要是针对在社区话题分类中存在的一些问题，提出一种基于图注意力机制的社区话题分类方法(DGAT)，该方法中图模型的建立能够对社区话题数据进行合理的分类，与基线模型相比，能够在社区话题数据集上实现较好的分类效果。

为了实现上述目的，本发明提供一种基于复合网络与图注意力机制的社区话题分类方法，具体步骤包括：

S1、数据预处理：

对获取的话题数据集使用规则过滤库进行无关信息过滤；

S2、提取关键词：使用集成算法提取预处理后的话题数据中的关键词，同时使用百度自然语言处理工具进行分词监督，并去掉停用词和命名实体；

S3、初始化特征：对预处理后的数据进行初始化处理，利用word2vec和BiLSTM预训练模型得到话题集T的初始特征矩阵X＝{x₁,x₂,...,x_n}；

S4、建立两个图结构：利用预处理后的话题数据集为整个数据集建立关键词-话题复合网络，在网络中抽取得到两个图结构：关键词与话题所属关系映射图结构和话题相似度图结构；

S5、建立图注意力神经网络分类模型：并利用随机梯度下降法对该模型进行训练，直到损失函数收敛为止，保留模型的最优参数；

S6、输出节点分类：待分类的话题数据进入训练后的图注意力神经网络分类模型后，得到节点特征，将节点特征通过softmax分类器得到模型预测的数据所属标签。

所述步骤S3的具体步骤如下：首先在输入层使用word2vec初始化话题t_i的字向量，得到话题t_i的随机初始化特征矩阵X_i′；然后将随机初始化特征矩阵X_i′输入BiLSTM预训练模型，使用前向与后向的LSTM进行特征学习分别得到两个方向上的特征；最后将两个方向上的特征拼接得到t_i的特征向量x_i；基于此，得到整个话题集T的初始特征矩阵X＝{x₁,x₂,...,x_n}；

所述步骤S4中关键词-话题复合网络包括关键词与话题所属关系子网络、话题与话题之间相似关系子网络；建立两个图结构的具体步骤为

S41、建立关键词与话题所属关系映射图结构：根据关键词与话题之间的所属关系子网络映射出话题与话题节点之间的无向图，该无向图结构表示为G＝(A,X)，其中A∈R^n×n是该无向图的对称邻接矩阵，a_ij是A中的元素，a_ij＝1表示话题节点i和话题节点j之间有连边，n 表示话题节点个数，X∈R^n×d是话题集T的初始特征矩阵，d为特征的维度；

S42、建立话题相似度图结构：通过余弦相似度计算所有话题节点之间的特征相似度S，然后利用K近邻思想获得与当前节点相似度最大的k个节点进行连边；最后建立基于K近邻的无向图结构G_k＝(A_k，X)，A_k是基于K近邻的无向图的对称邻接矩阵；

所述图注意力神经网络分类模型的结构包括输入层、特征更新层、特征融合层和输出层，特征更新层和特征融合层串联；特征更新层为两个并联的图注意力神经网络，每个图注意力神经网络包括输入层、两层图注意力层和拼接层；特征融合层为语义注意力层，用于将两个并联的图注意力神经网络的输出特征进行融合；

所述图注意力神经网络分类模型的工作原理为：

S51、特征更新：

将利用步骤S3建立的两个图结构特征进入图注意力神经网络进行更新，具体步骤为：

S511、将利用步骤S3建立的两个图结构特征分别输入并联的两个图注意力神经网络，并联的两个图注意力神经网络的结构相同，计算方法相同；

S512、经过两层图注意力层和一层拼接层后，两个图结构特征分别得到基于不同图结构的特征矩阵Z_r和Z_k，其中

为在图结构G＝(A,X)下更新得到的特征矩阵，

为在图结构G_k＝(A_k，X)下更新得到的特征矩阵；

其中，每层图注意力层采用注意力机制计算邻居节点对<t_i,t_j>之间的权重e_ij，然后使用softmax函数归一化得到注意力分数α_ij，公式如下所示：

e_ij＝σ(β^T[γx_i||γx_j])

其中，e_ij代表节点t_j对t_i的重要性，e_ij与e_ji之间非对称；γ∈R^d×d是一个共享权重矩阵；β∈ R^2d为注意力参数向量；σ为激活函数，在这里使用LeakyReLU函数激活；||表示两个特征向量之间的拼接操作；N_i表示节点t_i在当前图结构下所有的邻居节点集合；因此，节点在两个图结构G和G_k下分别经图注意力层计算得到的注意力分数分别为

和

每层图注意力层采用多头注意力机制，重复计算M次；

拼接层是将话题节点t_i所有邻居节点的注意力分数与特征加权求和，得到t_i经过非线性变换后的特征

或

公式如下所示：

其中，

分别为节点在图结构G和G_k的第m头注意力下的注意力分数；γ^r(m)、γ^k(m)分别为节点在图结构G和G_k的第m头注意力下共享参数矩阵；

S52、特征融合：

将在两种图结构下学到的特征矩阵Z_r和Z_k经过语义注意力层学习不同结构语义特征的重要性：

(θ_r，θ_k)＝Att_NN(Z_r，Z_k)

其中，Att_NN(Z_r，Z_k)表示学习不同语义特征重要性的注意力网络，θ_r、θ_k分别为不同语义特征的注意力系数，

对于节点t_i，

表示其在矩阵Z_r下的特征，具体使用非线性变换和归一化得到不同语义结构对当前节点分类结果影响的注意力系数

其中，W为权重矩阵，b是偏置向量，μ^T为共享注意力向量，通过一次非线性变换将节点t_i在Z_r下的特征

映射为一个实数权重

同理

为节点t_i特征矩阵Z_k下的权重，然后通过softmax函数将二者归一化为最终的注意力系数

和

最后将两种特征通过语义注意力系数进行加权求和得到最终的特征矩阵Z’：

Z′＝θ_r*Z_r+θ_k*Z_k

S53、输出节点分类

将融合后的特征矩阵Z’送往softmax分类器得到模型预测的数据所属标签概率值p_ij；

用交叉熵函数最小化模型的损失，公式如下：

其中，C为话题数据的标签个数，y_ij为话题数据的真实标签的向量分布，p_ij为模型对话题数据的预测标签的概率值；

最后利用随机梯度下降法对该模型进行训练，直到损失函数收敛为止，保留模型的最优参数。

本发明的实现构思为：从话题的特点出发，结合复合网络和图注意力实现分类任务，通过集成算法提取关键词，以强化关键信息的作用；为获得全局信息，从话题本身出发，计算相似度，利用K近邻思想，建立关键词-话题复合网络；在网络中抽取基于局部关键信息和全局特征信息的两种话题节点图结构，基于图注意力网络(GAT)更新节点信息，在此基础上再加入一层注意力学习不同图结构对当前节点分类的影响力，以便完成话题分类任务；另外，使用BiLSTM预训练模型初始化节点输入特征。

本发明与现有技术相比，取得的有益效果如下：针对社区话题数据集的特点，提出从关键信息以及话题本身内容两方面出发，建立关键词-话题复合复杂网络；采用集成算法提取关键词，可以避免使用单一算法所产生的关键词提取不准确的问题，同时考虑到语义以及词频对关键词提取的影响；然后抽取话题节点的两种图结构，利用双层注意力机制更新特征并用于节点分类任务。在社区话题数据集上，本发明中所提方法DGAT与其他现有模型相比取得了更好的分类效果，分类准确率高；为热点话题发现提供了保障。

附图说明：

图1为本发明涉及的基于复合网络与图注意力机制的社区话题分类方法的整体流程示意图。

图2为本发明涉及的关键词-话题复合网络模型结构原理示意图。

图3为本发明涉及的图注意力神经网络分类模型的框架结构原理示意图。

图4为本发明涉及的基于复合网络与图注意力机制的社区话题分类方法的工作原理示意图。

具体实施方式：

下面通过实施例并结合附图对本发明进一步说明。

实施例1：

本实施例涉及一种基于复合网络与图注意力机制的社区话题分类方法，具体步骤如下：

步骤1、数据预处理：

将在“在市北”APP上采集的社区话题数据作为数据集，话题数据一般都带有Emoji表情、颜文字、特殊字符、网址等无关信息，使用规则过滤库匹配不同类型的信息，对整个话题数据集进行预处理，实现无关信息过滤；

步骤2、关键词提取：

关键词是表征单条话题数据的核心词语；话题数据集T中的每一句话称为一个话题t_i，对

可以提取出多个关键词k_i表征该话题；本发明使用集成算法提取预处理后的话题数据中的关键词，同时使用百度自然语言处理工具(LAC)进行分词监督，并将命名实体和停用词识别出来存入停词表中，去掉停用词和命名实体。集成操作H如下定义：

其中，权重集U＝{u₁,u₂,...,u_n}，权重的大小表示每种算法对结果所产生的影响大小，基算法结果集F＝{f₁,f₂,...,f_n}，n为基算法结果总数，要求

所述基算法是指F-IDF算法、TextRank算法和哈工大的LTP关键词提取算法；

所述集成算法是将TF-IDF算法、TextRank算法和哈工大的LTP关键词提取算法进行集成，三种算法的集成比例为1:1:2；

步骤3、初始化特征：

对预处理后的数据进行初始化处理，具体步骤如下：首先在输入层使用word2vec初始化话题t_i的字向量，得到话题t_i的随机初始化特征矩阵X_i′；然后将随机初始化特征矩阵X_i′输入BiLSTM预训练模型(包括双向LSTM以及特征拼接层)，使用前向与后向的LSTM进行特征学习分别得到两个方向上的特征；最后将两个方向上的特征拼接得到t_i的特征向量x_i；基于此，得到整个话题数据集T的初始特征矩阵X＝{x₁,x₂,...,x_n}；

步骤4、建立两个图结构：

利用预处理后的话题数据集为整个话题数据集建立关键词-话题复合网络，关键词-话题复合网络包括关键词与话题所属关系子网络、话题与话题之间相似关系子网络；两种无向图结构分别为以关键词与话题所属关系映射和以话题相似关系产生；

步骤4.1、建立关键词与话题所属关系映射图结构

所述关键词与话题所属关系映射图结构是由关键词—话题所属关系映射产生的图结构；

在关键词-话题复合网络中，若关键词节点k_i是在话题节点t_i中提取的，则建立k_i与t_i之间所属关系的连边，边e_i＝<t_i,k_j>表示关键词节点k_j属于话题节点t_i；若存在边e_i＝<t_i,k_i> 与边e_j＝<t_j,k_i>，说明话题t_i与t_j节点均与关键词节点k_i相连，t_i与t_j属于同一类别；因此根据话题与关键词之间的所属关系映射出一种话题与话题节点之间的无向图，该无向图结构表示为G＝(A,X)，其中A∈R^n×n是该无向图的对称邻接矩阵，a_ij是A中的元素，a_ij＝1表示节点i和j之间有连边，n表示话题节点个数，X∈R^n×d是话题节点的特征矩阵，d为特征的维度；

步骤4.2、建立话题相似度图结构：

所述话题相似度图结构是由话题本身相似度产生的图结构；

通过余弦相似度计算所有话题节点之间的特征相似度S，公式如下所示，然后利用K近邻思想获得与当前节点相似度最大的k个节点进行连边；最后建立基于K近邻的无向图结构 G_k＝(A_k，X)，A_k是基于K近邻的无向图的对称邻接矩阵；

其中，x_i、x_j分别是话题节点t_i、t_j的特征，为一维向量；|x_i|、|x_j|分别是话题节点t_i、t_j的模；

步骤5、建立图注意力神经网络分类模型，并利用随机梯度下降法对该模型进行训练，直到损失函数收敛为止，保留模型的最优参数；

所述图注意力神经网络分类模型的工作原理为：

步骤5.1特征更新：

步骤5.11、将利用步骤S3建立的两个图结构特征(每个图结构特征都包括其对应的对称邻接矩阵和初始特征矩阵)分别输入并联的两个图注意力神经网络，并联的两个图注意力神经网络的结构相同，计算方法相同；

步骤5.12经过两层图注意力层和一层拼接层后，两个图结构特征分别得到基于不同图结构的特征矩阵Z_r和Z_k，Z_r和Z_k为将所有话题节点更新后的特征组合在一起得到整个数据集的特征矩阵，其中

为在图结构G＝(A,X)下更新得到的特征矩阵，

为在图结构G_k＝(A_k，X)下更新得到的特征矩阵；

e_ij＝σ(β^T[γx_i||γx_j])

和

每层图注意力层采用多头注意力机制，重复计算M次；

或

公式如下所示：

其中，

步骤5.2、特征融合:

(θ_r，θ_k)＝Att_NN(Z_r，Z_k)

对于节点t_i，

映射为一个实数权重

同理

和

Z′＝θ_r*Z_r+θ_k*Z_k

步骤5.3：输出节点分类

将融合后的特征矩阵Z’送往softmax分类器得到模型预测的数据所属标签概率值p_ij；使用交叉熵函数最小化模型的损失，公式如下：

其中，C为话题数据的标签个数，y_ij为话题数据的真实标签的向量分布，p_ij为模型对话题数据的预测标签的概率值。标签是数据所属的分类类别，可以衡量分类准确率。

将整个数据集中的话题节点按8:1:1的比例分为训练集、验证集和测试集；采用训练集利用随机梯度下降法对该模型进行训练，直到损失函数收敛为止，然后用验证集确定模型的最优参数；用测试集对该最优模型进行测试；

步骤6、将待分类的话题数据经过步骤1-4后再经过训练后的图注意力神经网络分类模型后，得到模型预测的数据所属标签。

实施例2：

本实施例涉及一种基于图注意力机制的社区话题分类方法的应用，具体步骤如下：

(1)获取待处理数据

数据来源于“在市北”APP，空间范围为青岛市市北区部分社区的话题数据，时间范围为 2019年12月到2020年7月，分类类别标签分别为疫情、办理、口罩、垃圾、维修、消毒、志愿者、病毒、隔离、环境；

(2)数据预处理

通过规则过滤库过滤掉无关字符信息，包括话题数据中的Emoji表情、颜文字、特殊字符、网址等；

(3)关键词提取

本实施例用集成算法提取关键词，集成算法是将TF-IDF算法、TextRank算法、哈工大的 LTP关键词提取技术进行集成，三种算法的集成比例为1:1:2；同时使用百度自然语言处理工具(LAC)进行分词监督，减少分词误差，并将一些命名实体识别出来并存入停词表中，使用停词表去掉结果中的停用词和命名实体；如话题“中冶文沁园廉租房2号楼水管漏水，联系物业让有关部门尽快维修，保证居民正常生活秩序”，使用本实施例关键词提取步骤提取出的关键词集合为“水管、漏水、物业、维修、居民、秩序”。

(4)初始化特征：首先使用word2vec进行字向量初始化，维度为300维；将初始化后的话题特征送入预训练好的BiLSTM模型进行特征增强得到话题数据的输入特征向量 X＝{x₁,x₂,...,x_n}。

(5)建立两个图结构

本实施例建立关键词-话题复合复杂网，包括关键词与话题所属关系、话题与话题之间相似关系两个子网，两个子网产生两种图结构，分别为：

1)关键词—话题所属关系映射产生图结构

考虑到部分话题数据的标签以关键词的形式出现在话题中，如“11号楼一单元门口的垃圾太多啦”，其标签属于垃圾，因此在关键词-话题复合网络中通过关键词与话题之间所属关系映射出话题节点之间的图结构G＝(A,X)；

2)话题本身相似度产生图结构

话题数据口语化数据较多，部分话题中往往不含有关键信息，如话题“这里太吵了，没人管吗”，其标签属于环境，因此本实施例通过余弦相似度计算所有话题节点之间的特征相似度，并依据K近邻思想建立话题基于特征相似度的图结构G_k＝(A_k,X)，最终确定的话题节点的邻居个数为相似度最大的前9个节点，基于此可以依据话题本身信息实现话题节点的分类任务；

(6)将上述两种图结构特征输入实施例1建立的图注意力神经网络分类模型，得到话题所属标签。

本实施例在社区话题数据集中取得了有效的效果，与其他模型相比，考虑到话题数据的特点，建立的图结构关注话题内部和话题本身两方面的信息，并关注不同图结构对当前节点的影响力。因此本实施例针对社区话题数据具有良好的性能，在青岛社区话题数据集上进行四次交叉验证，平均准确率达到91.10％。

Claims

1.一种基于复合网络与图注意力机制的社区话题分类方法，其特征在于，具体步骤包括：

S1、数据预处理：

对获取的话题数据集使用规则过滤库进行无关信息过滤；

2.根据权利要求1所述的基于复合网络与图注意力机制的社区话题分类方法，其特征在于，步骤S3的具体步骤如下：首先在输入层使用word2vec初始化话题t_i的字向量，得到话题t_i的随机初始化特征矩阵X_i′；然后将随机初始化特征矩阵X_i′输入BiLSTM预训练模型，使用前向与后向的LSTM进行特征学习分别得到两个方向上的特征；最后将两个方向上的特征拼接得到t_i的特征向量x_i；基于此，得到整个话题集T的初始特征矩阵X＝{x₁,x₂,...,x_n}。

3.根据权利要求1所述的基于复合网络与图注意力机制的社区话题分类方法，其特征在于，步骤S4所述关键词-话题复合网络包括关键词与话题所属关系子网络、话题与话题之间相似关系子网络；建立两个图结构的具体步骤为

S41、建立关键词与话题所属关系映射图结构：根据关键词与话题之间的所属关系子网络映射出话题与话题节点之间的无向图，该无向图结构表示为G＝(A,X)，其中A∈R^n×n是该无向图的对称邻接矩阵，a_ij是A中的元素，a_ij＝1表示话题节点i和话题节点j之间有连边，n表示话题节点个数，X∈R^n×d是话题集T的初始特征矩阵，d为特征的维度；

S42、建立话题相似度图结构：通过余弦相似度计算所有话题节点之间的特征相似度S，然后利用K近邻思想获得与当前节点相似度最大的k个节点进行连边；最后建立基于K近邻的无向图结构G_k＝(A_k，X)，A_k是基于K近邻的无向图的对称邻接矩阵。

4.根据权利要求1所述的基于复合网络与图注意力机制的社区话题分类方法，其特征在于，所述图注意力神经网络分类模型的结构包括输入层、特征更新层、特征融合层和输出层，特征更新层和特征融合层串联；特征更新层为两个并联的图注意力神经网络，每个图注意力神经网络包括输入层、两层图注意力层和拼接层；特征融合层为语义注意力层，用于将两个并联的图注意力神经网络的输出特征进行融合；

所述图注意力神经网络分类模型的工作原理为：

S51、特征更新：

为在图结构G＝(E，X)下更新得到的特征矩阵，

为在图结构G_k＝(A_k，X)下更新得到的特征矩阵；

其中，每层图注意力层采用注意力机制计算邻居节点对＜t_i，t_j＞之间的权重e_ij，然后使用softmax函数归一化得到注意力分数α_ij，公式如下所示：

e_ij＝σ(β^T[γx_i||γx_j])

其中，e_ij代表节点t_j对t_i的重要性，e_ij与e_ji之间非对称；γ∈R^d×d是一个共享权重矩阵；β∈R^2d为注意力参数向量；σ为激活函数，在这里使用LeakyReLU函数激活；||表示两个特征向量之间的拼接操作；N_i表示节点t_i在当前图结构下所有的邻居节点集合；因此，节点在两个图结构G和G_k下分别经图注意力层计算得到的注意力分数分别为