CN113870040A - 融合不同传播模式的双流图卷积网络微博话题检测方法 - Google Patents

融合不同传播模式的双流图卷积网络微博话题检测方法 Download PDF

Info

Publication number
CN113870040A
CN113870040A CN202111044665.9A CN202111044665A CN113870040A CN 113870040 A CN113870040 A CN 113870040A CN 202111044665 A CN202111044665 A CN 202111044665A CN 113870040 A CN113870040 A CN 113870040A
Authority
CN
China
Prior art keywords
user
topic
user node
matrix
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111044665.9A
Other languages
English (en)
Inventor
贺瑞芳
王浩成
刘焕宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111044665.9A priority Critical patent/CN113870040A/zh
Publication of CN113870040A publication Critical patent/CN113870040A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

本发明公开一种融合不同传播模式的双流图卷积网络微博话题检测方法,包括如下步骤:(1)根据用户交互关系构建用户级社交网络;(2)针对不同的传播模式,利用图卷积网络的消息传递机制,聚合每个用户节点的相关节点的属性信息,学习包含特定传播模式特征的用户节点嵌入表示;(3)将包含两种传播模式特征的用户节点嵌入表示拼接起来,利用变分自编码器中的编码器部分生成潜在话题向量与话题分布,利用解码器部分训练话题‑词分布,重构用户节点嵌入表示。本发明通过建模更加完整的社交上下文信息,学到了更好的用户节点嵌入表示,生成了更加连贯的话题。实验结果相较现有模型取得了更好的结果。

Description

融合不同传播模式的双流图卷积网络微博话题检测方法
技术领域
本发明涉及自然语言处理以及社会媒体数据挖掘技术领域,具体为一种融合不同传播模式的双流图卷积网络微博话题检测方法。
背景技术
随着推特和新浪微博等社交媒体的流行,互联网上每天都会产生无数的短文本。这些文本包含了用户的意见、观点等丰富的信息。人工分析这些帖子的内容是一项艰巨的任务,耗时耗力。话题模型是一种常见的自动分析海量文本的工具。它可以从文档中自动地检测话题,输出文档-话题分布和话题-词分布。传统的话题模型基于文档中丰富的词共现模式来推断话题。它们采用马尔可夫链蒙特卡罗(Markov chain Monte Carlo,MCMC)或期望最大化(Expectation-Maximum,EM)算法进行参数推断。这些方法在长文本上已经被证明是有效的。然而,由于短文本中缺乏足够的词共现模式,这些方法在社交媒体中的文本上表现较差。
为了解决上述问题,研究者提出了三种改进策略:(1)一些模型将短文本聚合起来捕获跨文档的词共现模式。聚合策略包括按照用户聚合、按照hashtag聚合等等。还有些模型直接建模语料库中无序的词对的共现模式。(2)一些研究侧重于表示学习和话题建模的结合,利用词嵌入技术来捕获文本中的语义信息。然而,上述两种方法都只考虑了社交网络中的内容信息。(3)一些方法在话题建模中集成静态网络结构信息,如社交网络中的关注关系。结构是对内容信息的补充,对社交媒体话题检测具有重要作用。然而,随着模型变得越来越复杂,贝叶斯推理变得难以处理。参数推断成为了限制话题检测发展的一大障碍。
神经变分推理(Neural variational inference,NVI)提供了一个强大的自动编码器框架。它用强大的神经网络代替了概率模型中繁重的推理工作,也促进了神经话题模型的发展。变分自动编码器(Variational auto-encoder,VAE)是最流行的应用。它以文档的词袋向量作为输入,经过推理网络和生成网络,输出文档的话题-词分布。在此基础上,又有模型在话题推断之前建模社交上下文,挖掘用户动态行为,学到了更好的节点嵌入表示。
上述方法尽管取得了不错的效果,然而在建模社交上下文时忽视了对传播特征的挖掘。一个话题在社交网络中有两种传播方式:宽度扩散和深度传播。(1)对于宽度扩散(中心式传播,从中心向四周扩散),话题以“从点到面”的方式渗透到低阶邻域中的每个用户个体。根据社会相关性理论,同一个社区内的好友会看到相同的话题,发布高度相关的内容。它们将具有更相似的属性。好友所发表的信息可以被视为个体信息的补充,以获取更完整信息。(2)对于深度传播(链式传播,从起始用户沿着传播链传播),话题以“从点到线”的方式到达各个社区或群体。由于这些社区的兴趣和背景不同,面对同一话题,他们将关注不同的方面。例如,对于COVID-19话题,一些群体或社区更关注其对人类社会的影响,有的更关注其疫苗的研制进展,另一些则更关注其病毒的可追溯性。沿着传播链,话题的焦点将继续变化。这些不同的内容可以构成更多样化的信息。宽度扩散和深度传播是两种不同的模式。如何在话题检测时对不同的传播模式进行综合建模是一个重要的问题。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种融合不同传播模式的双流图卷积网络微博话题检测方法。GCN在整合网络结构信息和内容信息方面已经被证明是有效的。本方法使用GCN来聚合社交网络中相关用户节点的信息。针对社交媒体中存在的不同话题传播模式,提出一种适用于用户级社交网络的双流图卷积网络模型。该模型建模不同的传播模式,以更好地建模社交上下文,学习更好的用户节点嵌入表示。最后引入变分自动编码器来融合两种传播模式的特征并推断更加连贯的话题。
本发明的目的是通过以下技术方案实现的:
一种融合不同传播模式的双流图卷积网络微博话题检测方法,包括以下步骤:
(1)根据社交网络中用户的交互关系,构建用户级社交网络;
(2)针对话题在社交网络中的两种传播模式,即宽度扩散和深度传播,利用双流图卷积网络,训练得到包含不同传播模式特征的用户节点嵌入表示;
(3)将包含不同传播模式特征的用户节点嵌入表示拼接起来,利用变分自编码器中的编码器生成潜在话题向量与话题分布,利用解码器训练话题-词分布矩阵并重构用户节点嵌入表示。
进一步的,步骤(1)具体包括:
根据用户之间的转发、评论关系,构建一个用户级的社交网络G=(V,E,T);其中,V={vi|1≤i≤n}是节点集合,vi代表社交网络中的用户i,n代表用户总数;E={eij|1≤i,j≤n}表示边的集合;如果vi所代表的用户i与vj所代表的用户j有过交互,则eij=1;如果vi所代表的用户i与vj所代表的用户j从未交互过,则eij=0;将用户发表的帖子作为用户节点的属性信息;T={t1,t2,...,tn}是帖子的集合,其中ti表示用户i发表的帖子的文本内容;为了初步缓解数据稀疏问题,将每个用户的所有帖子都聚合在一起,包括原始帖子、评论帖子和转发帖子;
根据用户交互关系,得到一阶邻接矩阵A;根据帖子集合T,将帖子中的每个词替换为其对应的词嵌入向量,得到属性矩阵X;由于每个用户的帖子长度不同,使用截断和填充方法标准化为相同的长度;词嵌入向量采用随机初始化的方法。
进一步的,步骤(2)具体包括:
利用双流图卷积网络学习包含不同传播模式特征的用户节点嵌入表示;对于宽度扩散模式,以用户级社交网络作为输入,使用两层图卷积网络GCN学习包含宽度扩散特征的用户节点嵌入表示:
Figure BDA0003250727000000031
Figure BDA0003250727000000032
Figure BDA0003250727000000033
其中
Figure BDA0003250727000000034
I是对角线矩阵,对角线元素全为1;
Figure BDA0003250727000000035
表示一阶邻接矩阵的度矩阵;X代表属性矩阵,
Figure BDA0003250727000000036
Figure BDA0003250727000000037
是图卷积网络的参数,使用ReLU作为激活函数,Aw=A;
Figure BDA0003250727000000038
表示经过第一层GCN得到的用户节点嵌入表示,
Figure BDA0003250727000000039
表示经过第二层GCN得到的用户节点嵌入表示,每个用户节点都会聚合一阶邻居节点的属性信息,得到
Figure BDA00032507270000000310
中的用户节点嵌入表示包含了宽度扩散的特征;
对于深度传播模式,要计算高阶邻接矩阵Ad;首先对一阶邻接矩阵进行幂运算得到二阶、三阶,直到R阶邻接矩阵;在每次幂运算之前,将矩阵的对角线置为零,以避免出现环路现象;接着,将二阶、三阶、直到R阶邻接矩阵加起来,并减去一阶邻接矩阵,得到用户之间的高阶邻接矩阵,计算过程如公式(4)所示:
Figure BDA00032507270000000311
其中,diag_zero表示将对角线置为零;同样使用两层图卷积网络GCN学习包含深度传播特征的用户节点嵌入表示,邻接矩阵采用公式(4)计算得到的高阶邻接矩阵,属性矩阵X与宽度扩散模式中所使用的属性矩阵相同;具体公式如下:
Figure BDA00032507270000000312
Figure BDA00032507270000000313
Figure BDA00032507270000000314
其中
Figure BDA00032507270000000315
I是对角线矩阵,对角线元素全为1;
Figure BDA00032507270000000316
表示高阶邻接矩阵的度矩阵;
Figure BDA0003250727000000041
Figure BDA0003250727000000042
是图卷积网络的参数,使用ReLU作为激活函数;
Figure BDA0003250727000000043
表示经过第一层GCN得到的用户节点嵌入表示,
Figure BDA0003250727000000044
表示经过第二层GCN得到的用户节点嵌入表示;每个用户节点都会聚合高阶邻居节点的属性信息,得到
Figure BDA0003250727000000045
中的用户节点嵌入表示包含了深度传播的特征;
图卷积网络GCN的损失函数采用无监督的双流损失函数;两种传播模式使用相同的损失函数公式,但有不同的输入;损失函数的公式如(8)(9)所示:
Figure BDA0003250727000000046
Figure BDA0003250727000000047
上述损失函数的目标是,给定用户vi,目标是将用户节点vi与用户节点vj∈Ni嵌入表示的相似度最大化;对于宽度扩散模式,Ni表示社交网络中直接相连的一阶邻居的集合;在该模式下,使中心节点与周围的一阶邻居节点的嵌入表示相似度最大;对于深度传播模式,首先进行随机游走,得到随机游走序列,Ni表示该随机游走序列上的用户节点;在该模式下,使游走序列起始节点与游走序列上的其他用户节点的嵌入表示的相似度最大;P(vji)表示用户vi与用户vj相关节点的概率;V是用户节点的集合;vu代表社交网络中任一用户节点;hi表示第i个用户节点嵌入表示,hj表示第j个用户节点嵌入表示,hu表示第u个用户节点嵌入表示;将宽度扩散的损失函数与深度传播的损失函数相加,得到最终的双流图卷积网络的损失函数。
进一步的,步骤(3)具体包括:
将每个用户的两种用户节点嵌入表示拼接起来,如公式(10)所示;将拼接后的向量送入变分自编码器中的编码器部分;编码器为两层全连接网络,首先将拼接的用户节点嵌入表示映射到非线性空间,然后计算话题后验分布的均值和方差;
Figure BDA0003250727000000048
Figure BDA0003250727000000049
Figure BDA00032507270000000410
分别表示包含宽度扩散特征和深度传播特征的用户节点嵌入表示;对应的潜在话题向量z通过重参数技巧z=μ+∈*σ计算得到,μ表示话题后验分布的均值,σ表示话题后验分布的标准差,∈∈N(0,I),表示从标准高斯分布中采样得到;将z通过线性变换与softmax函数得到话题分布θ=(p(t1|h),p(t2|h),...,p(tk|h)),h代表输入的用户节点嵌入表示,t1表示第一个话题,p(t1|h)表示出现第一个话题的概率;K代表话题总数;
接着,定义一个话题-词分布矩阵φword=(p(w|t1),p(w|t2),...,p(w|tK)),将话题-词分布矩阵随机初始化后作为变分自编码器中第一层解码器的参数;p(w|t1)代表第一个话题下各个词出现的概率;通过第二层解码器生成重构的用户节点嵌入表示;第二层解码器采用全连接层,ReLU作为激活函数;
损失函数如下所示,由重构误差项Ez~p9z|h)[logp(h|z)]和KL散度项KL[p(z|h)|q(z)]组成;p(z|h)表示话题后验分布的概率密度函数;p(h|z)表示根据z重构h的概率;q(z)是标准高斯分布,即q(z)~N(0,I);
lossV=KL[p(z|h)q|(z)]-Ez~p(z|h)[logp(h|z)] (11)
将双流图卷积网络的损失函数与变分自编码器的损失函数相加,联合训练图卷积网络与变分自编码器,得到最终的损失函数,如下所示:
L=lossG+lossV (12)。
与现有技术相比,本发明的技术方案所带来的有益效果是:
(1)为了缓解社交媒体中帖子简短且表达不正式的问题,本发明方法同时考虑了帖子内容和社交网络结构信息,建模更加完整的社交上下文。
(2)为了综合建模话题在社交网络上不同的传播模式,本发明方法提出双流图卷积网络模型,分别学习包含宽度扩散特征以及深度传播特征的用户节点嵌入表示。。
(3)为训练双流图卷积网络,本发明方法设计了双流损失函数,分别对用不同传播模式的建模,训练得到用户节点嵌入表示。
(4)为了生成更加连贯的话题,本发明方法将包含两种传播模式特征的用户节点嵌入表示拼接起来,融合不同的传播模式,得到话题在社交网络中更加全面的信息。输入到变分自编码器中,利用神经网络的强大能力,推断连贯性得分更高的话题。
(5)在真实的新浪微博数据集上的实验结果表明本发明方法的有效性,并证明了建模话题不同的传播模式对微博话题检测的有效性。
附图说明
图1为通过本发明方法提供的融合不同传播模式的双流图卷积微博话题模型框架示意图。按照本发明方法其组成框架依次为用户级社交网络、双流图卷积网络模块和基于变分自编码器的话题推断模块。
图2为双流图卷积网络模块中损失函数的示意图。
图3为模型的评价指标连贯性得分在随机游走序列长度取不同值时的变化情况。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以新浪微博数据集为例给出本发明的具体实施方法,该方法的整体框架如图1和图2所示。整个算法流程包含构建用户级社交网络、双流图卷积网络模块、基于变分自编码器的话题推断模块三个步骤。
具体步骤如下:
(1)构建用户级社交网络:
本发明使用公开的新浪微博数据集。该数据集收集了2014年5月、6月和7月三个月份的涵盖50个热门话题的相关微博。本发明以这三个月的数据集为原始语料,并按照以下步骤来构建用户级社交网络:1)过滤删除没有转发或评论关系的用户;2)将用户的所有帖子都拼接在一起,作为该用户的帖子文本;3)根据用户之间的交互关系构建网络,若两个用户之间存在交互,则两个用户节点之间存在边,相反则不存在。用户的帖子文本作为社交网络中用户节点的属性信息。图1左侧用户级社交网络部分展示了根据转发和评论关系构建的用户级对话网络。
表1展示了三个月数据集的统计信息,具体如下:5月数据集共包括8907个用户,10435次交互,词表大小为5914;6月数据集共包括19293个用户,35962次交互,词表大小为9368;7月数据集共包括16990个用户,20971次交互,词表大小为9663。
表1微博数据集统计信息
Figure BDA0003250727000000061
(2)双流图卷积网络模块:
利用两个平行的图卷积网络学习用户节点嵌入表示。对于宽度扩散模式,使用一阶邻接矩阵Aw和属性矩阵X作为输入。通过消息传递机制,每个用户节点会聚合周围一阶邻居节点的属性信息,用户节点嵌入表示包含了宽度扩散的特征。对于深度传播模式,以高阶邻接矩阵Ad和属性矩阵X作为输入。通过消息传递机制,每个用户节点会聚合高阶邻居用户的属性信息,用户节点嵌入表示中包含了深度传播的特征。双流损失函数以下面的公式所示,对于宽度扩散模式,使得中心节点与周围用户节点的嵌入表示的相似度更大,对于深度传播模式,使得起始节点与传播链上用户节点的嵌入表示相似度更大。
Figure BDA0003250727000000062
Figure BDA0003250727000000071
(3)基于变分自编码器的话题推断模块:
将每个用户的两种用户节点嵌入表示拼接起来。将拼接后的向量送入变分自编码器中的编码器部分。编码器为全连接网络,首先将拼接的用户节点嵌入表示映射到非线性空间,然后计算话题后验分布的均值和方差,过程如下公式所示:
Figure BDA0003250727000000072
e=f(Weh+be)
μ=Wue+bu logσ2=Wσe+bσ
其中,
Figure BDA0003250727000000073
Figure BDA0003250727000000074
分别表示包含宽度扩散特征和深度传播特征的用户节点嵌入表示。We,Wμ以及Wσ是编码器参数,be,bμ以及bσ是编码器的偏差,μ是话题后验分布的均值,σ2是话题后验分布的方差。对应的潜在语义向量z通过重参数技巧z=μ+∈*σ计算得到,∈∈N(0,I),表示从标准高斯分布中采样得到。
将z通过线性变换与softmax函数得到话题分布θ=(p(t1|h),p(t2|h),...,p(tk|h)),h代表输入的用户节点嵌入表示,t1表示第一个话题,p(t1|h)表示出现第一个话题的概率。K代表话题总数,如下公式所示:
θ=softmax(Wθz)
其中,Wθ是神经网络的参数。接着,将话题-词分布φword=(p(w|t1),p(w|t2),...,p(w|tK))作为变分自编码器中第一层解码器的参数。p(w|t1)代表第一个话题下各个词出现的概率。通过第二层解码器生成重构的用户节点嵌入表示。第二层解码器采用全连接层,ReLU作为激活函数。如下公式所示:
d=softmax(φword×θ)
h′=f(Wdd+bd)
其中,d表示每个用户节点的属性信息中出现各个词的概率值,h′表示解码器重构的用户节点嵌入表示。损失函数定义如下所示,由重构误差项Ez~p(z|h)[logp(h|z)]和KL散度项KL[p(z|h)|q(z)]组成。根据采样得到的潜在变量重构得到原始的用户节点嵌入表示,KL散度项衡量先验分布与后验变分分布的近似程度。q(z)是标准高斯分布,即q(z)~N(0,I)。
lossV=KL[p(z|h)|q(z)]-Ez~p(z|h)[logp(h|z)]
将双流图卷积网络模块的损失函数与话题推断模块的损失函数相加,得到该方法损失函数,联合训练双流图卷积网络与变分自编码器,如下所示:
L=lossG+lossV
在具体实施过程中,首先对每个用户节点的帖子文本进行预处理。经过聚合,每个用户的帖子文本将包含50个词。在双流图卷积网络中,将隐藏层的维度设置为400和200,学习率设置为0.01。为了防止过拟合,采用了dropout。在话题推断模块,第一层编码器的维度设置为200,学习速率被设置为0.01。同样使用了dropout以避免过拟合。
为了验证本发明方法的有效性,将本发明方法(DGTM)与当前先进并具有代表性的方法(BAT[1]、BTM[2]、LCTM[3]、LeadLDA[4]、AdjEnc[5]、IATM[6])以及本发明方法的两个变体(DGTM(remove wide)、DGTM(remove deep))进行比较。
BAT探索了双向对抗训练在神经话题模型中的应用。它是为长文档设计的,在应用于短文本时面临严重的数据稀疏性。
BTM通过直接建模整个语料库中词对的生成来学习话题。
LCTM通过建模潜在概念的共现模式来揭示话题,这些潜在概念用来捕获词汇的概念相似性。
LeadLDA将帖子区分为领导者帖子和跟随者帖子,并认为到领导者信息和跟随者帖子包含关键话题词的不同程度。
AdjEnc在学术论文、网页等结构化长文档中将网络结构引入了话题推理。
IATM建模了动态交互,以学习交互感知的边嵌入,利用神经变分推理生成话题。
DGTM(remove wide)去除宽度扩散模式的建模,只保留深度传播模式。
DGTM(remove deep)去除深度传播模式的建模,只保留宽度扩散模式。
模型性能的评价指标采用话题连贯性(Topic coherence),公式如下:
Figure BDA0003250727000000081
表2,3,4分别展示了本方法和所有比较方法在三个月微博数据集上的话题连贯性结果。对每个数据集,分别记录了话题数K=50,100时所推断话题的前10(N=10),15(N=15),20(N=20)个词的连贯性得分。话题连贯性越高表示该模型性能越好。
表2本发明方法与比较方法在5月数据集上的性能比较
Figure BDA0003250727000000082
Figure BDA0003250727000000091
表3本发明方法与比较方法在6月数据集上的性能比较
Figure BDA0003250727000000092
表4本发明方法与比较方法在7月数据集上的性能比较
Figure BDA0003250727000000093
从表2,3,4的话题连贯性结果可以看出,建模话题在社交网络中不同的传播模式,可以整合更完整的社交上下文信息,话题连贯性得到了进一步的提升。为了进一步研究随机游走序列长度对话题连贯性的影响,图3展示了本发明方法在五月份数据集上话题连贯性分数随着随机游走长度变化而变化的情况。
以上内容旨在示意性地说明本发明的技术方案,本发明并不限于上文描述的实施方式。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Rui Wang,Xuemeng Hu,Deyu Zhou,Yulan He,Yuxuan Xiong,Chenchen Ye,and Haiyang Xu.2020.Neural Topic Modeling with Bidirectional AdversarialTraining.In Proceedings of the58th Annual Meeting of the Association forComputational Linguistics.340–350.
[2]Xiaohui Yan,Jiafeng Guo,Yanyan Lan,and Xueqi Cheng.2013.A bitermtopic model for short texts.In In Proceedings of the 22nd internationalconference on World Wide Web.ACM,1445–1456.
[3]Weihua Hu and Jun’ichi Tsujii.2016.A Latent Concept Topic Modelfor Robust Topic Inference Using Word Embeddings.In Proceedings of the 54thAnnual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers).380–386.
[4]Jing Li,Ming Liao,Wei Gao,Yulan He,and Kam-Fai Wong.2016.TopicExtraction from Microblog Posts Using Conversation Structures.In Proceedingsof the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2114–2123.
[5]Ce Zhang and Hady W.Lauw.2020.Topic Modeling on Document Networkswith Adjacent-Encoder.Proceedings of the AAAI Conference on ArtificialIntelligence 34,04(2020),6737–6745.
[6]Ruifang He,Xuefei Zhang,Di Jin,Longbiao Wang,Jianwu Dang,andXiangang Li.2018.Interaction-Aware Topic Model for Microblog Conversationsthrough Network Embedding and User Attention.In Proceedings of the 27thInternational Conference on Computational Linguistics.1398–1409.
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (4)

1.一种融合不同传播模式的双流图卷积网络微博话题检测方法,其特征在于,包括以下步骤:
(1)根据社交网络中用户的交互关系,构建用户级社交网络;
(2)针对话题在社交网络中的两种传播模式,即宽度扩散和深度传播,利用双流图卷积网络,训练得到包含不同传播模式特征的用户节点嵌入表示;
(3)将包含不同传播模式特征的用户节点嵌入表示拼接起来,利用变分自编码器中的编码器生成潜在话题向量与话题分布,利用解码器训练话题-词分布矩阵并重构用户节点嵌入表示。
2.根据权利要求1所述一种融合不同传播模式的双流图卷积网络微博话题检测方法,其特征在于,步骤(1)具体包括:
根据用户之间的转发、评论关系,构建一个用户级的社交网络G=(V,E,T);其中,V={vi|1≤i≤n}是节点集合,vi代表社交网络中的用户i,n代表用户总数;E={eij|1≤i,j≤n}表示边的集合;如果vi所代表的用户i与vj所代表的用户j有过交互,则eij=1;如果vi所代表的用户i与vj所代表的用户j从未交互过,则eij=0;将用户发表的帖子作为用户节点的属性信息;T={t1,t2,...,tn}是帖子的集合,其中ti表示用户i发表的帖子的文本内容;为了初步缓解数据稀疏问题,将每个用户的所有帖子都聚合在一起,包括原始帖子、评论帖子和转发帖子;
根据用户交互关系,得到一阶邻接矩阵A;根据帖子集合T,将帖子中的每个词替换为其对应的词嵌入向量,得到属性矩阵X;由于每个用户的帖子长度不同,使用截断和填充方法标准化为相同的长度;词嵌入向量采用随机初始化的方法。
3.根据权利要求1所述一种融合不同传播模式的双流图卷积网络微博话题检测方法,其特征在于,步骤(2)具体包括:
利用双流图卷积网络学习包含不同传播模式特征的用户节点嵌入表示;对于宽度扩散模式,以用户级社交网络作为输入,使用两层图卷积网络GCN学习包含宽度扩散特征的用户节点嵌入表示:
Figure FDA0003250726990000011
Figure FDA0003250726990000012
Figure FDA0003250726990000013
其中
Figure FDA0003250726990000014
I是对角线矩阵,对角线元素全为1;
Figure FDA0003250726990000015
表示一阶邻接矩阵的度矩阵;X代表属性矩阵,
Figure FDA0003250726990000021
Figure FDA0003250726990000022
是图卷积网络的参数,使用ReLU作为激活函数,Aw=A;
Figure FDA0003250726990000023
表示经过第一层GCN得到的用户节点嵌入表示,
Figure FDA0003250726990000024
表示经过第二层GCN得到的用户节点嵌入表示,每个用户节点都会聚合一阶邻居节点的属性信息,得到
Figure FDA0003250726990000025
中的用户节点嵌入表示包含了宽度扩散的特征;
对于深度传播模式,要计算高阶邻接矩阵Aa;首先对一阶邻接矩阵进行幂运算得到二阶、三阶,直到R阶邻接矩阵;在每次幂运算之前,将矩阵的对角线置为零,以避免出现环路现象;接着,将二阶、三阶、直到R阶邻接矩阵加起来,并减去一阶邻接矩阵,得到用户之间的高阶邻接矩阵,计算过程如公式(4)所示:
Figure FDA0003250726990000026
其中,diag-zero表示将对角线置为零;同样使用两层图卷积网络GCN学习包含深度传播特征的用户节点嵌入表示,邻接矩阵采用公式(4)计算得到的高阶邻接矩阵,属性矩阵X与宽度扩散模式中所使用的属性矩阵相同;具体公式如下:
Figure FDA0003250726990000027
Figure FDA0003250726990000028
Figure FDA0003250726990000029
其中
Figure FDA00032507269900000210
I是对角线矩阵,对角线元素全为1;
Figure FDA00032507269900000211
表示高阶邻接矩阵的度矩阵;
Figure FDA00032507269900000212
Figure FDA00032507269900000213
是图卷积网络的参数,使用ReLU作为激活函数;
Figure FDA00032507269900000214
表示经过第一层GCN得到的用户节点嵌入表示,
Figure FDA00032507269900000215
表示经过第二层GCN得到的用户节点嵌入表示;每个用户节点都会聚合高阶邻居节点的属性信息,得到
Figure FDA00032507269900000216
中的用户节点嵌入表示包含了深度传播的特征;
图卷积网络GCN的损失函数采用无监督的双流损失函数;两种传播模式使用相同的损失函数公式,但有不同的输入;损失函数的公式如(8)(9)所示:
Figure FDA00032507269900000217
Figure FDA00032507269900000218
上述损失函数的目标是,给定用户vi,目标是将用户节点vi与用户节点vj∈Ni嵌入表示的相似度最大化;对于宽度扩散模式,Ni表示社交网络中直接相连的一阶邻居的集合;在该模式下,使中心节点与周围的一阶邻居节点的嵌入表示相似度最大;对于深度传播模式,首先进行随机游走,得到随机游走序列,Ni表示该随机游走序列上的用户节点;在该模式下,使游走序列起始节点与游走序列上的其他用户节点的嵌入表示的相似度最大;P(vj|vi)表示用户vi与用户vj相关节点的概率;V是用户节点的集合;vu代表社交网络中任一用户节点;hi表示第i个用户节点嵌入表示,hj表示第j个用户节点嵌入表示,hu表示第u个用户节点嵌入表示;将宽度扩散的损失函数与深度传播的损失函数相加,得到最终的双流图卷积网络的损失函数。
4.根据权利要求1所述一种融合不同传播模式的双流图卷积网络微博话题检测方法,其特征在于,步骤(3)具体包括:
将每个用户的两种用户节点嵌入表示拼接起来,如公式(10)所示;将拼接后的向量送入变分自编码器中的编码器部分;编码器为两层全连接网络,首先将拼接的用户节点嵌入表示映射到非线性空间,然后计算话题后验分布的均值和方差;
Figure FDA0003250726990000031
Figure FDA0003250726990000032
Figure FDA0003250726990000033
分别表示包含宽度扩散特征和深度传播特征的用户节点嵌入表示;对应的潜在话题向量z通过重参数技巧z=μ+∈*σ计算得到,μ表示话题后验分布的均值,σ表示话题后验分布的标准差,∈∈N(0,I),表示从标准高斯分布中采样得到;将z通过线性变换与softmax函数得到话题分布θ=(p(t1|h),p(t2|h),...,p(tk|h)),h代表输入的用户节点嵌入表示,t1表示第一个话题,p(t1|h)表示出现第一个话题的概率;K代表话题总数;
接着,定义一个话题-词分布矩阵φword=(p(w|t1),p(w|t2),...,p(w|tK)),将话题-词分布矩阵随机初始化后作为变分自编码器中第一层解码器的参数;p(w|t1)代表第一个话题下各个词出现的概率;通过第二层解码器生成重构的用户节点嵌入表示;第二层解码器采用全连接层,ReLU作为激活函数;
损失函数如下所示,由重构误差项Ez~p(z|h)[log p(h|z)]和KL散度项KL[p(z|h)|q(z)]组成;p(z|h)表示话题后验分布的概率密度函数;p(h|z)表示根据z重构h的概率;q(z)是标准高斯分布,即q(z)~N(0,I);
lossV=KL[p(z|h)|q(z)]-Ez~p(z|h)[log p(h|z)] (11)
将双流图卷积网络的损失函数与变分自编码器的损失函数相加,联合训练图卷积网络与变分自编码器,得到最终的损失函数,如下所示:
L=lossG+lossV (12)。
CN202111044665.9A 2021-09-07 2021-09-07 融合不同传播模式的双流图卷积网络微博话题检测方法 Pending CN113870040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111044665.9A CN113870040A (zh) 2021-09-07 2021-09-07 融合不同传播模式的双流图卷积网络微博话题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111044665.9A CN113870040A (zh) 2021-09-07 2021-09-07 融合不同传播模式的双流图卷积网络微博话题检测方法

Publications (1)

Publication Number Publication Date
CN113870040A true CN113870040A (zh) 2021-12-31

Family

ID=78994672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111044665.9A Pending CN113870040A (zh) 2021-09-07 2021-09-07 融合不同传播模式的双流图卷积网络微博话题检测方法

Country Status (1)

Country Link
CN (1) CN113870040A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213370A1 (en) * 2014-01-27 2015-07-30 Facebook, Inc. Label inference in a social network
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106991673A (zh) * 2017-05-18 2017-07-28 深思考人工智能机器人科技(北京)有限公司 一种可解释性的宫颈细胞图像快速分级识别方法及系统
CN112199607A (zh) * 2020-10-30 2021-01-08 天津大学 基于可变邻域内平行社交上下文融合的微博主题挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213370A1 (en) * 2014-01-27 2015-07-30 Facebook, Inc. Label inference in a social network
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106991673A (zh) * 2017-05-18 2017-07-28 深思考人工智能机器人科技(北京)有限公司 一种可解释性的宫颈细胞图像快速分级识别方法及系统
CN112199607A (zh) * 2020-10-30 2021-01-08 天津大学 基于可变邻域内平行社交上下文融合的微博主题挖掘方法

Similar Documents

Publication Publication Date Title
Yang et al. From properties to links: Deep network embedding on incomplete graphs
Lin et al. Freedom: A transferable neural architecture for structured information extraction on web documents
CN112364161B (zh) 基于异构社会媒体用户动态行为的微博主题挖掘方法
CN111914185B (zh) 一种基于图注意力网络的社交网络中文本情感分析方法
Chen et al. Visual and textual sentiment analysis using deep fusion convolutional neural networks
Sang et al. Context-dependent propagating-based video recommendation in multimodal heterogeneous information networks
CN111538848A (zh) 一种融合多源信息的知识表示学习方法
Li et al. Novel user influence measurement based on user interaction in microblog
CN112199607A (zh) 基于可变邻域内平行社交上下文融合的微博主题挖掘方法
Zhao et al. CFSRE: Context-aware based on frame-semantics for distantly supervised relation extraction
Pan et al. Unsupervised attributed network embedding via cross fusion
Liu et al. AMFF: A new attention-based multi-feature fusion method for intention recognition
Dritsas et al. An apache spark implementation for graph-based hashtag sentiment classification on twitter
Liu et al. Attention-based adaptive memory network for recommendation with review and rating
Shi et al. Heterogeneous Graph Representation Learning and Applications
CN113870040A (zh) 融合不同传播模式的双流图卷积网络微博话题检测方法
Chen et al. A Neural Inference of User Social Interest for Item Recommendation
Richardson et al. Integrating summarization and retrieval for enhanced personalization via large language models
Sharma et al. Hyperedge2vec: Distributed representations for hyperedges
Liu A comparative study of vector space language models for sentiment analysis using reddit data
Hu et al. Graph ladder networks for network classification
CN113870041A (zh) 一种基于消息传递和图先验分布的微博话题检测方法
Chen et al. Adapted Graph Reasoning and Filtration for Description-Image Retrieval
Qiao et al. Social Bot Detection Based on Window Strategy
Park Cross-view self-supervised learning on heterogeneous graph neural network via bootstrapping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination