CN114818719A - 一种基于复合网络与图注意力机制的社区话题分类方法 - Google Patents

一种基于复合网络与图注意力机制的社区话题分类方法 Download PDF

Info

Publication number
CN114818719A
CN114818719A CN202210615230.3A CN202210615230A CN114818719A CN 114818719 A CN114818719 A CN 114818719A CN 202210615230 A CN202210615230 A CN 202210615230A CN 114818719 A CN114818719 A CN 114818719A
Authority
CN
China
Prior art keywords
graph
topic
attention
node
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210615230.3A
Other languages
English (en)
Inventor
孙仁诚
张书谙
高赫
尹潇伟
乔潇曼
姜凯文
张韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN202210615230.3A priority Critical patent/CN114818719A/zh
Publication of CN114818719A publication Critical patent/CN114818719A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机自然语言处理技术领域,涉及一种基于复合网络与图注意力机制的社区话题分类方法,具体步骤包括:数据预处理、提取关键词、初始化特征、建立两个图结构、建立图注意力神经网络分类模型和输出节点分类;针对社区话题数据集的特点,从关键信息以及话题本身内容两方面出发,建立关键词‑话题复合复杂网络,然后抽取话题节点的两种图结构,利用双层注意力机制更新特征并用于节点分类任务;本发明中所提方法与其他现有模型相比取得了更好的分类效果,分类准确率高;为热点话题发现提供了保障。

Description

一种基于复合网络与图注意力机制的社区话题分类方法
技术领域:
本发明属于计算机自然语言处理技术领域,涉及一种基于复合网络与图注意力机制的社区话题分类方法,针对青岛部分社区话题数据集,提出一种融合关键信息以及话题本身特征信息两方面内容的复合复杂网络,从中映射出两种关于话题的图结构,并结合双层图注意力机制取得了较好的分类效果。
背景技术:
话题属于短文本的一种,短文本分类是自然语言处理的核心技术之一。中文短文本分类流程包括文本预处理、文本特征表示和分类器构建,特征表示是文本分类的关键内容。
近年来,图神经网络(GNN)引起了学术界广泛关注,其依靠节点和边表现出强大的消息传递能力和特征学习能力,并被应用到自然语言处理任务中。如YAO提出了Text-GCN模型,将文本及其包含的单词作为节点,把文本分类看成节点分类任务;在YAO的基础上,LIU等提出Tensor-GCN模型,其基于语义、语法构造一个文本图张量,在该张量图上可以进行节点信息的图内传播和图间传播;Huang等提出为每个文档单独建图且参数共享,减少了存储空间消耗;Zhang等提出TextING,其使用滑动窗口构建图,并利用Gated GNN更新节点信息;Hu等提出HGAT,加入主题和实体丰富句子语义,并为整个文本分类任务建立一个异构图。上述方法在建立图模型时,没有考虑词语与本文、文本与文本之间的语义关系,同时忽略了关键信息对文本的重要程度,将所有字词一视同仁构建图,增加了无关数据的影响。
话题数据具有以下特点:字数少特征稀疏且不含多余评论信息,无法依赖外部信息扩充数据;部分数据所属类别标签出现在话题中,局部关键信息对该部分话题尤为重要;话题由居民发布,导致部分话题口语化信息多,不含关键信息,该部分话题的全局信息尤为重要。
基于此,本发明提出建立一种复合复杂网络,包含关键词、话题两种节点,然后在网络中抽取两种话题节点图结构;并利用图注意力网络强大的特征学习能力,完成对社区话题数据的文本分类任务。
发明内容:
本发明的目的主要是针对在社区话题分类中存在的一些问题,提出一种基于图注意力机制的社区话题分类方法(DGAT),该方法中图模型的建立能够对社区话题数据进行合理的分类,与基线模型相比,能够在社区话题数据集上实现较好的分类效果。
为了实现上述目的,本发明提供一种基于复合网络与图注意力机制的社区话题分类方法,具体步骤包括:
S1、数据预处理:
对获取的话题数据集使用规则过滤库进行无关信息过滤;
S2、提取关键词:使用集成算法提取预处理后的话题数据中的关键词,同时使用百度自然语言处理工具进行分词监督,并去掉停用词和命名实体;
S3、初始化特征:对预处理后的数据进行初始化处理,利用word2vec和BiLSTM预训练模型得到话题集T的初始特征矩阵X={x1,x2,...,xn};
S4、建立两个图结构:利用预处理后的话题数据集为整个数据集建立关键词-话题复合网络,在网络中抽取得到两个图结构:关键词与话题所属关系映射图结构和话题相似度图结构;
S5、建立图注意力神经网络分类模型:并利用随机梯度下降法对该模型进行训练,直到损失函数收敛为止,保留模型的最优参数;
S6、输出节点分类:待分类的话题数据进入训练后的图注意力神经网络分类模型后,得到节点特征,将节点特征通过softmax分类器得到模型预测的数据所属标签。
所述步骤S3的具体步骤如下:首先在输入层使用word2vec初始化话题ti的字向量,得到话题ti的随机初始化特征矩阵Xi′;然后将随机初始化特征矩阵Xi′输入BiLSTM预训练模型,使用前向与后向的LSTM进行特征学习分别得到两个方向上的特征;最后将两个方向上的特征拼接得到ti的特征向量xi;基于此,得到整个话题集T的初始特征矩阵X={x1,x2,...,xn};
所述步骤S4中关键词-话题复合网络包括关键词与话题所属关系子网络、话题与话题之间相似关系子网络;建立两个图结构的具体步骤为
S41、建立关键词与话题所属关系映射图结构:根据关键词与话题之间的所属关系子网络映射出话题与话题节点之间的无向图,该无向图结构表示为G=(A,X),其中A∈Rn×n是该无向图的对称邻接矩阵,aij是A中的元素,aij=1表示话题节点i和话题节点j之间有连边,n 表示话题节点个数,X∈Rn×d是话题集T的初始特征矩阵,d为特征的维度;
S42、建立话题相似度图结构:通过余弦相似度计算所有话题节点之间的特征相似度S,然后利用K近邻思想获得与当前节点相似度最大的k个节点进行连边;最后建立基于K近邻的无向图结构Gk=(Ak,X),Ak是基于K近邻的无向图的对称邻接矩阵;
所述图注意力神经网络分类模型的结构包括输入层、特征更新层、特征融合层和输出层,特征更新层和特征融合层串联;特征更新层为两个并联的图注意力神经网络,每个图注意力神经网络包括输入层、两层图注意力层和拼接层;特征融合层为语义注意力层,用于将两个并联的图注意力神经网络的输出特征进行融合;
所述图注意力神经网络分类模型的工作原理为:
S51、特征更新:
将利用步骤S3建立的两个图结构特征进入图注意力神经网络进行更新,具体步骤为:
S511、将利用步骤S3建立的两个图结构特征分别输入并联的两个图注意力神经网络,并联的两个图注意力神经网络的结构相同,计算方法相同;
S512、经过两层图注意力层和一层拼接层后,两个图结构特征分别得到基于不同图结构的特征矩阵Zr和Zk,其中
Figure BDA0003674012740000031
为在图结构G=(A,X)下更新得到的特征矩阵,
Figure BDA0003674012740000032
Figure BDA0003674012740000033
为在图结构Gk=(Ak,X)下更新得到的特征矩阵;
其中,每层图注意力层采用注意力机制计算邻居节点对<ti,tj>之间的权重eij,然后使用softmax函数归一化得到注意力分数αij,公式如下所示:
eij=σ(βT[γxi||γxj])
Figure BDA0003674012740000034
其中,eij代表节点tj对ti的重要性,eij与eji之间非对称;γ∈Rd×d是一个共享权重矩阵;β∈ R2d为注意力参数向量;σ为激活函数,在这里使用LeakyReLU函数激活;||表示两个特征向量之间的拼接操作;Ni表示节点ti在当前图结构下所有的邻居节点集合;因此,节点在两个图结构G和Gk下分别经图注意力层计算得到的注意力分数分别为
Figure BDA0003674012740000035
Figure BDA0003674012740000036
每层图注意力层采用多头注意力机制,重复计算M次;
拼接层是将话题节点ti所有邻居节点的注意力分数与特征加权求和,得到ti经过非线性变换后的特征
Figure BDA0003674012740000037
Figure BDA0003674012740000038
公式如下所示:
Figure BDA0003674012740000039
Figure BDA00036740127400000310
其中,
Figure BDA00036740127400000311
分别为节点在图结构G和Gk的第m头注意力下的注意力分数;γr(m)、γk(m)分别为节点在图结构G和Gk的第m头注意力下共享参数矩阵;
S52、特征融合:
将在两种图结构下学到的特征矩阵Zr和Zk经过语义注意力层学习不同结构语义特征的重要性:
r,θk)=AttNN(Zr,Zk)
其中,AttNN(Zr,Zk)表示学习不同语义特征重要性的注意力网络,θr、θk分别为不同语义特征的注意力系数,
Figure BDA0003674012740000041
对于节点ti
Figure BDA0003674012740000042
表示其在矩阵Zr下的特征,具体使用非线性变换和归一化得到不同语义结构对当前节点分类结果影响的注意力系数
Figure BDA0003674012740000043
Figure BDA0003674012740000044
Figure BDA0003674012740000045
其中,W为权重矩阵,b是偏置向量,μT为共享注意力向量,通过一次非线性变换将节点ti在Zr下的特征
Figure BDA0003674012740000046
映射为一个实数权重
Figure BDA0003674012740000047
同理
Figure BDA0003674012740000048
为节点ti特征矩阵Zk下的权重,然后通过softmax函数将二者归一化为最终的注意力系数
Figure BDA0003674012740000049
Figure BDA00036740127400000410
最后将两种特征通过语义注意力系数进行加权求和得到最终的特征矩阵Z’:
Z′=θr*Zrk*Zk
S53、输出节点分类
将融合后的特征矩阵Z’送往softmax分类器得到模型预测的数据所属标签概率值pij
用交叉熵函数最小化模型的损失,公式如下:
Figure BDA00036740127400000411
其中,C为话题数据的标签个数,yij为话题数据的真实标签的向量分布,pij为模型对话题数据的预测标签的概率值;
最后利用随机梯度下降法对该模型进行训练,直到损失函数收敛为止,保留模型的最优参数。
本发明的实现构思为:从话题的特点出发,结合复合网络和图注意力实现分类任务,通过集成算法提取关键词,以强化关键信息的作用;为获得全局信息,从话题本身出发,计算相似度,利用K近邻思想,建立关键词-话题复合网络;在网络中抽取基于局部关键信息和全局特征信息的两种话题节点图结构,基于图注意力网络(GAT)更新节点信息,在此基础上再加入一层注意力学习不同图结构对当前节点分类的影响力,以便完成话题分类任务;另外,使用BiLSTM预训练模型初始化节点输入特征。
本发明与现有技术相比,取得的有益效果如下:针对社区话题数据集的特点,提出从关键信息以及话题本身内容两方面出发,建立关键词-话题复合复杂网络;采用集成算法提取关键词,可以避免使用单一算法所产生的关键词提取不准确的问题,同时考虑到语义以及词频对关键词提取的影响;然后抽取话题节点的两种图结构,利用双层注意力机制更新特征并用于节点分类任务。在社区话题数据集上,本发明中所提方法DGAT与其他现有模型相比取得了更好的分类效果,分类准确率高;为热点话题发现提供了保障。
附图说明:
图1为本发明涉及的基于复合网络与图注意力机制的社区话题分类方法的整体流程示意图。
图2为本发明涉及的关键词-话题复合网络模型结构原理示意图。
图3为本发明涉及的图注意力神经网络分类模型的框架结构原理示意图。
图4为本发明涉及的基于复合网络与图注意力机制的社区话题分类方法的工作原理示意图。
具体实施方式:
下面通过实施例并结合附图对本发明进一步说明。
实施例1:
本实施例涉及一种基于复合网络与图注意力机制的社区话题分类方法,具体步骤如下:
步骤1、数据预处理:
将在“在市北”APP上采集的社区话题数据作为数据集,话题数据一般都带有Emoji表情、颜文字、特殊字符、网址等无关信息,使用规则过滤库匹配不同类型的信息,对整个话题数据集进行预处理,实现无关信息过滤;
步骤2、关键词提取:
关键词是表征单条话题数据的核心词语;话题数据集T中的每一句话称为一个话题ti,对
Figure BDA0003674012740000051
可以提取出多个关键词ki表征该话题;本发明使用集成算法提取预处理后的话题数据中的关键词,同时使用百度自然语言处理工具(LAC)进行分词监督,并将命名实体和停用词识别出来存入停词表中,去掉停用词和命名实体。集成操作H如下定义:
Figure BDA0003674012740000052
其中,权重集U={u1,u2,...,un},权重的大小表示每种算法对结果所产生的影响大小,基算法结果集F={f1,f2,...,fn},n为基算法结果总数,要求
Figure BDA0003674012740000053
所述基算法是指F-IDF算法、TextRank算法和哈工大的LTP关键词提取算法;
所述集成算法是将TF-IDF算法、TextRank算法和哈工大的LTP关键词提取算法进行集成,三种算法的集成比例为1:1:2;
步骤3、初始化特征:
对预处理后的数据进行初始化处理,具体步骤如下:首先在输入层使用word2vec初始化话题ti的字向量,得到话题ti的随机初始化特征矩阵Xi′;然后将随机初始化特征矩阵Xi′输入BiLSTM预训练模型(包括双向LSTM以及特征拼接层),使用前向与后向的LSTM进行特征学习分别得到两个方向上的特征;最后将两个方向上的特征拼接得到ti的特征向量xi;基于此,得到整个话题数据集T的初始特征矩阵X={x1,x2,...,xn};
步骤4、建立两个图结构:
利用预处理后的话题数据集为整个话题数据集建立关键词-话题复合网络,关键词-话题复合网络包括关键词与话题所属关系子网络、话题与话题之间相似关系子网络;两种无向图结构分别为以关键词与话题所属关系映射和以话题相似关系产生;
步骤4.1、建立关键词与话题所属关系映射图结构
所述关键词与话题所属关系映射图结构是由关键词—话题所属关系映射产生的图结构;
在关键词-话题复合网络中,若关键词节点ki是在话题节点ti中提取的,则建立ki与ti之间所属关系的连边,边ei=<ti,kj>表示关键词节点kj属于话题节点ti;若存在边ei=<ti,ki> 与边ej=<tj,ki>,说明话题ti与tj节点均与关键词节点ki相连,ti与tj属于同一类别;因此根据话题与关键词之间的所属关系映射出一种话题与话题节点之间的无向图,该无向图结构表示为G=(A,X),其中A∈Rn×n是该无向图的对称邻接矩阵,aij是A中的元素,aij=1表示节点i和j之间有连边,n表示话题节点个数,X∈Rn×d是话题节点的特征矩阵,d为特征的维度;
步骤4.2、建立话题相似度图结构:
所述话题相似度图结构是由话题本身相似度产生的图结构;
通过余弦相似度计算所有话题节点之间的特征相似度S,公式如下所示,然后利用K近邻思想获得与当前节点相似度最大的k个节点进行连边;最后建立基于K近邻的无向图结构 Gk=(Ak,X),Ak是基于K近邻的无向图的对称邻接矩阵;
Figure BDA0003674012740000061
其中,xi、xj分别是话题节点ti、tj的特征,为一维向量;|xi|、|xj|分别是话题节点ti、tj的模;
步骤5、建立图注意力神经网络分类模型,并利用随机梯度下降法对该模型进行训练,直到损失函数收敛为止,保留模型的最优参数;
所述图注意力神经网络分类模型的结构包括输入层、特征更新层、特征融合层和输出层,特征更新层和特征融合层串联;特征更新层为两个并联的图注意力神经网络,每个图注意力神经网络包括输入层、两层图注意力层和拼接层;特征融合层为语义注意力层,用于将两个并联的图注意力神经网络的输出特征进行融合;
所述图注意力神经网络分类模型的工作原理为:
步骤5.1特征更新:
将利用步骤S3建立的两个图结构特征进入图注意力神经网络进行更新,具体步骤为:
步骤5.11、将利用步骤S3建立的两个图结构特征(每个图结构特征都包括其对应的对称邻接矩阵和初始特征矩阵)分别输入并联的两个图注意力神经网络,并联的两个图注意力神经网络的结构相同,计算方法相同;
步骤5.12经过两层图注意力层和一层拼接层后,两个图结构特征分别得到基于不同图结构的特征矩阵Zr和Zk,Zr和Zk为将所有话题节点更新后的特征组合在一起得到整个数据集的特征矩阵,其中
Figure BDA0003674012740000071
为在图结构G=(A,X)下更新得到的特征矩阵,
Figure BDA0003674012740000072
Figure BDA0003674012740000073
为在图结构Gk=(Ak,X)下更新得到的特征矩阵;
其中,每层图注意力层采用注意力机制计算邻居节点对<ti,tj>之间的权重eij,然后使用softmax函数归一化得到注意力分数αij,公式如下所示:
eij=σ(βT[γxi||γxj])
Figure BDA0003674012740000074
其中,eij代表节点tj对ti的重要性,eij与eji之间非对称;γ∈Rd×d是一个共享权重矩阵;β∈ R2d为注意力参数向量;σ为激活函数,在这里使用LeakyReLU函数激活;||表示两个特征向量之间的拼接操作;Ni表示节点ti在当前图结构下所有的邻居节点集合;因此,节点在两个图结构G和Gk下分别经图注意力层计算得到的注意力分数分别为
Figure BDA0003674012740000075
Figure BDA0003674012740000076
每层图注意力层采用多头注意力机制,重复计算M次;
拼接层是将话题节点ti所有邻居节点的注意力分数与特征加权求和,得到ti经过非线性变换后的特征
Figure BDA0003674012740000077
Figure BDA0003674012740000078
公式如下所示:
Figure BDA0003674012740000081
Figure BDA0003674012740000082
其中,
Figure BDA0003674012740000083
分别为节点在图结构G和Gk的第m头注意力下的注意力分数;γr(m)、γk(m)分别为节点在图结构G和Gk的第m头注意力下共享参数矩阵;
步骤5.2、特征融合:
将在两种图结构下学到的特征矩阵Zr和Zk经过语义注意力层学习不同结构语义特征的重要性:
r,θk)=AttNN(Zr,Zk)
其中,AttNN(Zr,Zk)表示学习不同语义特征重要性的注意力网络,θr、θk分别为不同语义特征的注意力系数,
Figure BDA0003674012740000084
对于节点ti
Figure BDA0003674012740000085
表示其在矩阵Zr下的特征,具体使用非线性变换和归一化得到不同语义结构对当前节点分类结果影响的注意力系数
Figure BDA0003674012740000086
Figure BDA0003674012740000087
Figure BDA0003674012740000088
其中,W为权重矩阵,b是偏置向量,μT为共享注意力向量,通过一次非线性变换将节点ti在Zr下的特征
Figure BDA0003674012740000089
映射为一个实数权重
Figure BDA00036740127400000810
同理
Figure BDA00036740127400000811
为节点ti特征矩阵Zk下的权重,然后通过softmax函数将二者归一化为最终的注意力系数
Figure BDA00036740127400000812
Figure BDA00036740127400000813
最后将两种特征通过语义注意力系数进行加权求和得到最终的特征矩阵Z’:
Z′=θr*Zrk*Zk
步骤5.3:输出节点分类
将融合后的特征矩阵Z’送往softmax分类器得到模型预测的数据所属标签概率值pij;使用交叉熵函数最小化模型的损失,公式如下:
Figure BDA00036740127400000814
其中,C为话题数据的标签个数,yij为话题数据的真实标签的向量分布,pij为模型对话题数据的预测标签的概率值。标签是数据所属的分类类别,可以衡量分类准确率。
将整个数据集中的话题节点按8:1:1的比例分为训练集、验证集和测试集;采用训练集利用随机梯度下降法对该模型进行训练,直到损失函数收敛为止,然后用验证集确定模型的最优参数;用测试集对该最优模型进行测试;
步骤6、将待分类的话题数据经过步骤1-4后再经过训练后的图注意力神经网络分类模型后,得到模型预测的数据所属标签。
实施例2:
本实施例涉及一种基于图注意力机制的社区话题分类方法的应用,具体步骤如下:
(1)获取待处理数据
数据来源于“在市北”APP,空间范围为青岛市市北区部分社区的话题数据,时间范围为 2019年12月到2020年7月,分类类别标签分别为疫情、办理、口罩、垃圾、维修、消毒、志愿者、病毒、隔离、环境;
(2)数据预处理
通过规则过滤库过滤掉无关字符信息,包括话题数据中的Emoji表情、颜文字、特殊字符、网址等;
(3)关键词提取
本实施例用集成算法提取关键词,集成算法是将TF-IDF算法、TextRank算法、哈工大的 LTP关键词提取技术进行集成,三种算法的集成比例为1:1:2;同时使用百度自然语言处理工具(LAC)进行分词监督,减少分词误差,并将一些命名实体识别出来并存入停词表中,使用停词表去掉结果中的停用词和命名实体;如话题“中冶文沁园廉租房2号楼水管漏水,联系物业让有关部门尽快维修,保证居民正常生活秩序”,使用本实施例关键词提取步骤提取出的关键词集合为“水管、漏水、物业、维修、居民、秩序”。
(4)初始化特征:首先使用word2vec进行字向量初始化,维度为300维;将初始化后的话题特征送入预训练好的BiLSTM模型进行特征增强得到话题数据的输入特征向量 X={x1,x2,...,xn}。
(5)建立两个图结构
本实施例建立关键词-话题复合复杂网,包括关键词与话题所属关系、话题与话题之间相似关系两个子网,两个子网产生两种图结构,分别为:
1)关键词—话题所属关系映射产生图结构
考虑到部分话题数据的标签以关键词的形式出现在话题中,如“11号楼一单元门口的垃圾太多啦”,其标签属于垃圾,因此在关键词-话题复合网络中通过关键词与话题之间所属关系映射出话题节点之间的图结构G=(A,X);
2)话题本身相似度产生图结构
话题数据口语化数据较多,部分话题中往往不含有关键信息,如话题“这里太吵了,没人管吗”,其标签属于环境,因此本实施例通过余弦相似度计算所有话题节点之间的特征相似度,并依据K近邻思想建立话题基于特征相似度的图结构Gk=(Ak,X),最终确定的话题节点的邻居个数为相似度最大的前9个节点,基于此可以依据话题本身信息实现话题节点的分类任务;
(6)将上述两种图结构特征输入实施例1建立的图注意力神经网络分类模型,得到话题所属标签。
本实施例在社区话题数据集中取得了有效的效果,与其他模型相比,考虑到话题数据的特点,建立的图结构关注话题内部和话题本身两方面的信息,并关注不同图结构对当前节点的影响力。因此本实施例针对社区话题数据具有良好的性能,在青岛社区话题数据集上进行四次交叉验证,平均准确率达到91.10%。

Claims (4)

1.一种基于复合网络与图注意力机制的社区话题分类方法,其特征在于,具体步骤包括:
S1、数据预处理:
对获取的话题数据集使用规则过滤库进行无关信息过滤;
S2、提取关键词:使用集成算法提取预处理后的话题数据中的关键词,同时使用百度自然语言处理工具进行分词监督,并去掉停用词和命名实体;
S3、初始化特征:对预处理后的数据进行初始化处理,利用word2vec和BiLSTM预训练模型得到话题集T的初始特征矩阵X={x1,x2,...,xn};
S4、建立两个图结构:利用预处理后的话题数据集为整个数据集建立关键词-话题复合网络,在网络中抽取得到两个图结构:关键词与话题所属关系映射图结构和话题相似度图结构;
S5、建立图注意力神经网络分类模型:并利用随机梯度下降法对该模型进行训练,直到损失函数收敛为止,保留模型的最优参数;
S6、输出节点分类:待分类的话题数据进入训练后的图注意力神经网络分类模型后,得到节点特征,将节点特征通过softmax分类器得到模型预测的数据所属标签。
2.根据权利要求1所述的基于复合网络与图注意力机制的社区话题分类方法,其特征在于,步骤S3的具体步骤如下:首先在输入层使用word2vec初始化话题ti的字向量,得到话题ti的随机初始化特征矩阵Xi′;然后将随机初始化特征矩阵Xi′输入BiLSTM预训练模型,使用前向与后向的LSTM进行特征学习分别得到两个方向上的特征;最后将两个方向上的特征拼接得到ti的特征向量xi;基于此,得到整个话题集T的初始特征矩阵X={x1,x2,...,xn}。
3.根据权利要求1所述的基于复合网络与图注意力机制的社区话题分类方法,其特征在于,步骤S4所述关键词-话题复合网络包括关键词与话题所属关系子网络、话题与话题之间相似关系子网络;建立两个图结构的具体步骤为
S41、建立关键词与话题所属关系映射图结构:根据关键词与话题之间的所属关系子网络映射出话题与话题节点之间的无向图,该无向图结构表示为G=(A,X),其中A∈Rn×n是该无向图的对称邻接矩阵,aij是A中的元素,aij=1表示话题节点i和话题节点j之间有连边,n表示话题节点个数,X∈Rn×d是话题集T的初始特征矩阵,d为特征的维度;
S42、建立话题相似度图结构:通过余弦相似度计算所有话题节点之间的特征相似度S,然后利用K近邻思想获得与当前节点相似度最大的k个节点进行连边;最后建立基于K近邻的无向图结构Gk=(Ak,X),Ak是基于K近邻的无向图的对称邻接矩阵。
4.根据权利要求1所述的基于复合网络与图注意力机制的社区话题分类方法,其特征在于,所述图注意力神经网络分类模型的结构包括输入层、特征更新层、特征融合层和输出层,特征更新层和特征融合层串联;特征更新层为两个并联的图注意力神经网络,每个图注意力神经网络包括输入层、两层图注意力层和拼接层;特征融合层为语义注意力层,用于将两个并联的图注意力神经网络的输出特征进行融合;
所述图注意力神经网络分类模型的工作原理为:
S51、特征更新:
将利用步骤S3建立的两个图结构特征进入图注意力神经网络进行更新,具体步骤为:
S511、将利用步骤S3建立的两个图结构特征分别输入并联的两个图注意力神经网络,并联的两个图注意力神经网络的结构相同,计算方法相同;
S512、经过两层图注意力层和一层拼接层后,两个图结构特征分别得到基于不同图结构的特征矩阵Zr和Zk,其中
Figure FDA0003674012730000021
为在图结构G=(E,X)下更新得到的特征矩阵,
Figure FDA0003674012730000022
Figure FDA0003674012730000023
为在图结构Gk=(Ak,X)下更新得到的特征矩阵;
其中,每层图注意力层采用注意力机制计算邻居节点对<ti,tj>之间的权重eij,然后使用softmax函数归一化得到注意力分数αij,公式如下所示:
eij=σ(βT[γxi||γxj])
Figure FDA0003674012730000024
其中,eij代表节点tj对ti的重要性,eij与eji之间非对称;γ∈Rd×d是一个共享权重矩阵;β∈R2d为注意力参数向量;σ为激活函数,在这里使用LeakyReLU函数激活;||表示两个特征向量之间的拼接操作;Ni表示节点ti在当前图结构下所有的邻居节点集合;因此,节点在两个图结构G和Gk下分别经图注意力层计算得到的注意力分数分别为
Figure FDA0003674012730000025
Figure FDA0003674012730000026
每层图注意力层采用多头注意力机制,重复计算M次;
拼接层是将话题节点ti所有邻居节点的注意力分数与特征加权求和,得到ti经过非线性变换后的特征
Figure FDA0003674012730000027
Figure FDA0003674012730000028
公式如下所示:
Figure FDA0003674012730000029
Figure FDA00036740127300000210
其中,
Figure FDA0003674012730000031
分别为节点在图结构G和Gk的第m头注意力下的注意力分数;γr(m)、γk(m)分别为节点在图结构G和Gk的第m头注意力下共享参数矩阵;
S52、特征融合:
将在两种图结构下学到的特征矩阵Zr和Zk经过语义注意力层学习不同结构语义特征的重要性:
r,θk)=AttNN(Zr,Zk)
其中,AttNN(Zr,Zk)表示学习不同语义特征重要性的注意力网络,θr、θk分别为不同语义特征的注意力系数,
Figure FDA0003674012730000032
对于节点ti
Figure FDA0003674012730000033
表示其在矩阵Zr下的特征,具体使用非线性变换和归一化得到不同语义结构对当前节点分类结果影响的注意力系数
Figure FDA0003674012730000034
Figure FDA0003674012730000035
Figure FDA0003674012730000036
其中,W为权重矩阵,b是偏置向量,μT为共享注意力向量,通过一次非线性变换将节点ti在Zr下的特征
Figure FDA00036740127300000312
映射为一个实数权重
Figure FDA0003674012730000037
同理
Figure FDA0003674012730000038
为节点ti特征矩阵Zk下的权重,然后通过softmax函数将二者归一化为最终的注意力系数
Figure FDA0003674012730000039
Figure FDA00036740127300000310
最后将两种特征通过语义注意力系数进行加权求和得到最终的特征矩阵Z’:
Z′=θr*Zrk*Zk
S53、输出节点分类
将融合后的特征矩阵Z′送往softmax分类器得到模型预测的数据所属标签概率值pij
用交叉熵函数最小化模型的损失,公式如下:
Figure FDA00036740127300000311
其中,C为话题数据的标签个数,yij为话题数据的真实标签的向量分布,pij为模型对话题数据的预测标签的概率值;
最后利用随机梯度下降法对该模型进行训练,直到损失函数收敛为止,保留模型的最优参数。
CN202210615230.3A 2022-06-01 2022-06-01 一种基于复合网络与图注意力机制的社区话题分类方法 Pending CN114818719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210615230.3A CN114818719A (zh) 2022-06-01 2022-06-01 一种基于复合网络与图注意力机制的社区话题分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210615230.3A CN114818719A (zh) 2022-06-01 2022-06-01 一种基于复合网络与图注意力机制的社区话题分类方法

Publications (1)

Publication Number Publication Date
CN114818719A true CN114818719A (zh) 2022-07-29

Family

ID=82518301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210615230.3A Pending CN114818719A (zh) 2022-06-01 2022-06-01 一种基于复合网络与图注意力机制的社区话题分类方法

Country Status (1)

Country Link
CN (1) CN114818719A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545098A (zh) * 2022-09-23 2022-12-30 青海师范大学 一种基于注意力机制的三通道图神经网络的节点分类方法
CN117493490A (zh) * 2023-11-17 2024-02-02 南京信息工程大学 基于异构多关系图的话题检测方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545098A (zh) * 2022-09-23 2022-12-30 青海师范大学 一种基于注意力机制的三通道图神经网络的节点分类方法
CN115545098B (zh) * 2022-09-23 2023-09-08 青海师范大学 一种基于注意力机制的三通道图神经网络的节点分类方法
CN117493490A (zh) * 2023-11-17 2024-02-02 南京信息工程大学 基于异构多关系图的话题检测方法、装置、设备及介质
CN117493490B (zh) * 2023-11-17 2024-05-14 南京信息工程大学 基于异构多关系图的话题检测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN114818719A (zh) 一种基于复合网络与图注意力机制的社区话题分类方法
CN114064918A (zh) 一种多模态事件知识图谱构建方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
Yan et al. Leveraging contextual sentences for text classification by using a neural attention model
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN116932661A (zh) 一种面向网络安全的事件知识图谱构建方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN116010813A (zh) 基于图神经网络融合标签节点影响度的社区检测方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN116150509A (zh) 社交媒体网络的威胁情报识别方法、系统、设备及介质
CN111581379A (zh) 一种基于作文扣题度的自动作文评分计算方法
CN113297387B (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
CN113326868B (zh) 一种用于多模态情感分类的决策层融合方法
CN114048314A (zh) 一种自然语言隐写分析方法
Lhasiw et al. A bidirectional LSTM model for classifying Chatbot messages
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
Chen et al. CNFRD: A Few‐Shot Rumor Detection Framework via Capsule Network for COVID‐19
CN115422362B (zh) 一种基于人工智能的文本匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination