CN109033069A - 一种基于社会媒体用户动态行为的微博主题挖掘方法 - Google Patents

一种基于社会媒体用户动态行为的微博主题挖掘方法 Download PDF

Info

Publication number
CN109033069A
CN109033069A CN201810624731.1A CN201810624731A CN109033069A CN 109033069 A CN109033069 A CN 109033069A CN 201810624731 A CN201810624731 A CN 201810624731A CN 109033069 A CN109033069 A CN 109033069A
Authority
CN
China
Prior art keywords
node
formula
user
theme
microblogging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810624731.1A
Other languages
English (en)
Other versions
CN109033069B (zh
Inventor
贺瑞芳
张雪菲
赵文丽
朱永凯
黄静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810624731.1A priority Critical patent/CN109033069B/zh
Publication of CN109033069A publication Critical patent/CN109033069A/zh
Application granted granted Critical
Publication of CN109033069B publication Critical patent/CN109033069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于社会媒体用户动态行为的微博主题挖掘方法,包括如下步骤:1)构建用户对话网络;2)利用网络表示学习建模动态交互,得到融合了内容和结构且与其邻居结点相关的用户表示;3)引入注意力机制建模用户对主题的影响力,得到交互感知边表示;4)交互感知边表示作为神经变分推理的输入,从而挖掘一致性更佳的主题。该微博主题挖掘方法通过建模动态交互和用户对主题影响力,得到的微博主题相比于现有模型在相关分数值评价指标上取得更好的表现。

Description

一种基于社会媒体用户动态行为的微博主题挖掘方法
技术领域
本发明涉及自然语言处理以及社会媒体数据挖掘技术领域,具体为一种基于社会媒体用户动态行为的微博主题挖掘方法。
背景技术
社会媒体网站(如新浪微博等)的出现使得互联网上内容的形式大大改变。微博允许用户在其上发布和浏览信息,并具有一些很强的社交属性功能,如转发和回复功能。微博平台上存储着海量的文本数据,并且每天都在以惊人的速度增长。微博文本内容包含了大量的信息,从中挖掘主题信息可以用来进行话题推荐、突发事件检测、精准营销等。目前,文本主题挖掘技术应用于新闻、文章等长文本数据上已经具有了较好的效果。但是,微博文本长度短,通常被限制在140字以下,每条微博信息稀疏以及人们在微博上的用词随意等特点大大地增加了微博文本处理的难度。因此,这要求面向微博的主题挖掘技术需要采用与传统主题挖掘所不同的方法。
目前,微博主题挖掘的相关研究主要包括:(1)利用集聚策略。该方法将短文本按照某种规则集聚成一个伪长文档,降低了短文本的数据稀疏性。如首先将同一作者发表的微博合并为一篇长文档,然后利用三层贝叶斯结构的主题模型挖掘潜在主题;(2)利用词嵌入(word embedding)。该方法利用词嵌入含有丰富语义信息的特点建模主题,在一定程度上解决了短文本缺乏语义信息的问题。为了深层次地理解短文本语义,该方法将短文本看作由词嵌入组成的集合,并假设主题-单词分布为多维高斯分布,之后利用分层贝叶斯模型推断主题;(3) 利用社会网络上下文信息。这类方法引入社会网络结构信息,领用微博所在社会网络中的上下文信息对微博文本内容进行补充,从而发现更多的词语共现特征。
以上方法要么仅对微博文本内容建模要么同时考虑对微博文本内容和社会网络静态结构信息,忽略了社会网络的动态特征。如一个用户与不同的用户交互时可能谈论不同的主题,同时谈论同一主题的用户对这个主题产生的影响也是不同的。这些用户行为对于微博主题挖掘任务提供了有利的线索。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于社会媒体用户动态行为的微博主题挖掘方法,该方法为了挖掘用户动态行为,构建了基于转发和回复关系的用户对话网络,其中节点代表用户,边代表具有转发或者回复关系的用户对。该方法首先利用网络表示学习建模动态用户行为,进而引入注意力机制建模用户对主题的影响力,最后通过神经变分推理输出一致性更佳的微博主题。该方法挖掘的微博主题相比于现有模型在相关分数值 (Coherence Score)评价指标中是最优的。
本发明的目的是通过以下技术方案实现的:
一种基于社会媒体用户动态行为的微博主题挖掘方法,包括如下步骤:
(1)用户对话网络构建
将一个用户看作对话网络G中的一个节点v,同时将该用户所有发表过的微博聚集成一个文档Mv=(w1,w2,...,wn),其中wi(i=1,2,3…n)表示Mv的第i个单词,n为文档Mv的词语个数;文档Mv作为该用户所指向节点v的文本信息;若节点v代表的用户转发过对话网络G中节点u代表的用户发表过的微博,则将节点u和v相连,以此操作构建出用户对话网络 G=(V,E,T),其中V为对话网络G中节点的集合,是对话网络G中边的集合,T 代表了节点附带的文本信息;
(2)动态交互建模
为了充分利用网络结构以及相应的文本信息,将每个节点v表示为基于结构表示v(s)和基于文本表示v(t)的两部分拼接。即节点v的表示其中表示拼接符号, d为节点表示v的维度。
基于结构表示:采用了一种神经网络语言模型SkipGram[1],简称SG,将基于结构表示v(s)看作待学习的参数。为了最大化一个节点与其邻居共现的概率,通过最小化公式(1)学习基于结构表示v(s)
公式(1)中Ls表示为了学习基于结构表示v(s)的损失函数值,表示第i个节点的基于结构的表示,表示第(i+j)个节点的基于结构的表示,窗口大小为k,条件概率的形式化见公式(2)。
公式(2)中表示第t个节点基于结构的表示。
基于文本表示:为了挖掘在一条边上的节点对的主题信息,采用相互注意力机制[2](mutual attention)学习得到基于本文表示v(t)。相互注意力机制利用池化(pooling)操作挖掘节点对的主题信息。该机制会使得一个节点的文本信息在某种程度上会影响另外一个节点的基于文本表示,反之亦然。
卷积神经网络(convoluntional neural network)在文本信息编码上已经取得了较好的效果。给定一个节点v的文本信息Mv,将其中每个词语替换为相应的词嵌入从而得到文本表示序列Sv=(w1,w2,...,wm),其中d′表示词嵌入的维度,m表示Sv中词语的个数。给定文本序列Sv,利用卷积操作对其进行编码,见公式(3)
xi∈C·(Sv)i:i+l-1+b (3)
公式(3)表示卷积矩阵对Sv在窗口大小为l的第i个窗口进行卷积操作。其中b 为偏置向量。相同的,给定一个节点u的文本信息Mu,将其中每个词语替换为相应的词嵌入从而得到文本表示序列Su=(w1,w2,...,wn),n表示Su中词语的个数。对于文本表示序列Su进行同样的卷积操作。卷积操作之后得到矩阵m和n分别是文本表示序列Su和Sv的长度,作为相互注意力机制的输入。相互注意力机制通过公式(4)计算关联矩阵
F=relu(PTAQ) (4)
其中矩阵是相互注意力机制中待学习的参数,采用relu作为激活函数。注意,关联矩阵F的元素Fi,j表示矩阵P的第i列向量P·i和矩阵Q的第j列向量Q.j之间的关联得分。之后,分别沿着横向和纵向对关联矩阵F进行池化操作,形式化分别为公式(5)(6)。通过实验验证,平均池化(mean-pooling)的效果比最大池化(max-pooling)更好。故此处采用平均池化操作。
公式(5)中为矩阵F的第i行第1列元素Fi,1、第i行第2列元素Fi,2直至第i 行第n列元素Fi,n的平均值。公式(6)中为矩阵F的第1行第j列元素F1,j,第2行第j列元素F2,j直至第m行第j列元素Fm,j的平均值。
经平均池化后,产生矩阵P和Q各自对应的池化向量接下来,我们利用归一化指数函数(softmax函数)[4]将池化向量g(p)和g(q)概率化,分别得到向量a(p)和a(q)。例如向量a(p)的第i个元素计算见公式(7)。
公式(7)中是池化向量g(p)的第t个元素。
最后我们通过公式(8)(9)计算分别得到节点u和v的基于文本表示u(t)和v(t)
u(t)=Pa(p) (8)
v(t)=Qa(q) (9)
为了获得基于文本表示,通过最小化目标函数公式(10)。
Lt(e)=αlogp(v(t)|u(t))+βlogp(v(t)|u(s))+γlogp(v(s)|u(t)) (10)
公式(10)中Lt(e)表示为了学习基于文本表示的损失函数值,α表示节点u基于文本表示 u(t)对节点v基于文本表示v(t)影响系数,β表示节点u基于结构表示u(s)对节点v基于文本表示v(t)影响系数,γ表示节点u基于文本表示u(t)对节点v基于结构表示v(s)影响系数。由于节点v所代表用户转发或者回复了节点u所代表的用户,即u是原因而v是结果,故公式(10) 计算节点u的表示对节点v的表示产生的影响。公式(10)中的条件概率利用公式(2)进行计算。
边表示:由于将节点的基于结构表示和基于文本表示拼接获得该节点表示,如节点u的节点表示和节点v的节点表示则按照边表示的定义,对于边e(u,v)的动态内容相关的边表示将节点u的节点表示u和节点v的节点表示v拼接得到边表示为
(3)用户注意力建模
正如之前所提到的,我们假设谈论同一个话题的用户们对该话题产生的影响各不相同。为了计算出用户对话题产生的影响力,我们采用注意力(Attention)机制对用户进行打分。按照边表示的定义,边表示是由该条边上的两个节点表示拼接而来且一个节点代表一个用户,故用户对话题的影响力转化为利用注意力机制对该用户所指代的节点表示进行打分。同样地,我们利用归一化指数函数(softmax函数)进行打分得到用户注意力向量a(e)的第i 个元素计算见公式(11)。
公式(11)中ei是边表示e的第i个元素,et是边表示e的第t个元素。
为了将同一条边上的节点对主题信息以及用户对主题影响力相结合,我们将边表示e和用户注意力向量a(e)进行点对点相乘(element-wise product)。该操作激活边表示e使得其成为交互感知态,从而得到交互感知边表示i。形式化见公式(12)。
公式(12)中e1、e2、e2d为分别为边表示e的第1,2,2d个元素,a1、a2、a2d为分别为用户注意力向量a的第1,2,2d个元素。
(4)主题生成
神经变分推理用变分分布近似后验分布。该变分分布的参数是由神经网络定义的,这样可以使得生成的主题一致性更佳。在社会媒体情境下,将携带文本信息以及用户动态行为信息的交互感知边表示输入到变分自编码机(variational auto-encoder)中。假设表示一个文档,w 是文档中的一个词语且主题数量为K。采用神经变分推理来推断文档-主题分布:
以及主题-词语分布
φw=(p(w|t1),p(w|t2),...,p(w|tK)),
其中ti表示第i个主题,表示一个文档,w表示一个词语,表示文档属于第i个主题的概率大小,p(w|ti)(i=1,2,..,K)表示词语w属于第i个主题的概率大小。
文档-主题分布:给定交互感知边表示i,首先将其映射到隐空间henc中。
henc=relu(W(ih)i+b(ih)) (13)
其中W(ih)和b(ih)均是编码器(encoder)的参数,我们将relu函数作为激活函数。假设交互感知边表示i的先验分布和后验分布为高斯分布。高斯分布均值和方差通过线性变换获得,见公式(14)(15)。
其中W(hσ)、W(hσ)、b(hμ)、b(hσ)是编码器的参数。潜在语义向量通过重参数化(reparameterization)技巧得到,形式化见公式(16)。
其中先验分布∈是均值为μ0,方差为的高斯分布。文本设定超参数μ0=0和利用归一化指数函数(softmax函数)将潜在语义向量概率化从而得到文档-主题分布形式化和公式(7)相同。
主题-词语分布:传统的主题模型根据公式(17)计算条件概率
故文本中将主题-词语分布φw看作解码器(decoder)的参数,见公式(18)。
之后再通过解码器重构交互感知边表示。新的交互感知边表示i′计算如公式(19)。其中 W(hi)和b(hi)均是解码器参数。
i′=relu(W(hi)hdec+b(hi)) (19)
对于主题生成,该部分的目标函数为公式(20)。
公式(20)中利用KL散度(Kullback–Leibler divergence)[5]衡量变分分布q(θ,z|i)和真实后验分布接近程度。其中表示为了学习文档-主题分布和主题-词语分布的损失函数值。
通过最小化整体目标函数公式(21)学习模型参数,从而挖掘微博的潜在主题。
L=Ls+∑e∈E(Lt(e)+Lθ,φ(e)) (21)
L为整体目标函数的损失函数值。
与现有技术相比,本发明的技术方案所带来的有益效果是:
(1)为了解决微博数据稀疏以及用词随意等问题,本发明方法同时考虑了文本内容以及社交网络拓扑结构信息,从而丰富微博上下文信息。
(2)为了建模动态交互以及用户影响力,本发明方法利用网络表示学习和注意力机制将二者编码为交互感知边表示。
(3)为了生成一致性更佳的主题,携带有文本内容以及网络结构信息的交互感知边表示作为神经变分推理的输入,用于生成主题。在真实的新浪微博数据集上的实验结果表明本发明方法的有效性以及证明了建模动态交互以及用户影响力对于微博主题挖掘的有效性。
附图说明
图1为本发明提供的基于用户动态行为的微博主题挖掘方法框架图;
图2a和图2b为具体实施方式中用户对话网络的构建;
图3a为BTM挖掘7月数据集关于“爸爸去哪儿”主题的可视化;
图3b为LCTM挖掘7月数据集关于“爸爸去哪儿”主题的可视化;
图3c为LeadLDA挖掘7月数据集关于“爸爸去哪儿”主题的可视化;
图3d为ForumLDA挖掘7月数据集关于“爸爸去哪儿”主题的可视化;
图3e为IATM挖掘7月数据集关于“爸爸去哪儿”主题的可视化;
具体实施方式
以下结合具体实施方式对本发明的技术方案进行详细描述。
以3个真实微博数据集为例来给出本发明的实施方法。该方法整体框架见图1所示。整个系统算法流程包括用户对话网络输入、结合动态交互到微博主题挖掘方法框架、结合用户影响力到微博主题挖掘方法框架、主题生成这四个步骤。
具体步骤如下:
(1)用户对话网络输入
前人通过新浪微博开放平台利用话题索引搜索应用程序编程接口(hashtag-search API)收集了2014年5月、6月和7月每个月下50个热门话题的相关微博。本发明以3个常用真实的微博数据集为原始语料构建用户对话网络并按照以下步骤对原始语料进行处理:(1)移除微博字数少于3或者没有发布该微博的博主用户名的微博;(2)过滤没有转发或者回复关系的用户;(3)聚集同一个用户发布的原博和转发微博成一条文本,作为该用户所指向节点的文本信息。表1展示了三个数据集详细统计信息。5月数据集共有8907个用户,具有转发或回复关系的用户对有10435对。6月数据集共有19293个用户,具有转发或回复关系的用户对有25962对。7月数据集共有16990个用户,具有转发或回复关系的用户对有20971对。如图2a展示了在2条源微博下,用户们对这2条源微博发表的转发微博或者回复微博。根据上述步骤构建了对应于图2a所示的用户间转发或回复关系的一个用户转发网络,见图2b。
表1微博数据集统计信息
2)结合动态交互到微博主题挖掘框架
按照上一步得到的用户对话网络,我们对每一用户对话网络做如下处理:
为了学习得到用户对话网络中的每个节点基于结构的表示v(s)以及基于文本的表示v(t),我们按照如下目标函数训练模型:
Lt(e)=αlogp(v(t)|u(t))+βlogp(v(t)|u(s))+γlogp(v(s)|u(t))
公式中符号的含义如同前文所述。其中u、v为在同一条边上的两个节点。
通过上述目标函数学习得到基于结构的节点表示v(s)以及基于文本的节点表示v(t),之后我们将两者拼接作为该节点表示
3)结合用户影响力到微博主题挖掘框架。
为了计算用户u、v对其所谈论的共同话题的影响力,我们将节点表示u、v拼接得到边表示接着再利用归一化指数函数(softmax函数)计算影响力,得到用户注意力向量a(e)。最后按照如下激活边表示e使得其成为交互感知态,从而得到交互感知边表示i。
4)主题生成
通过上一步处理得到交互感知边表示i,之后我们利用变分自编码机对i进行重构,生成微博主题。具体目标函数如下:
公式中符号的含义如同前文所述。
在具体实施过程中,以5月份数据集为例,通过提前设定各种超参数,即节点表示v的维度d=400,节点u基于文本表示u(t)对节点v基于文本表示v(t)影响系数α=1.0,节点u基于结构表示u(s)对节点v基于文本表示v(t)影响系数β=0.3,节点u基于文本表示u(t)对节点v基于结构表示v(s)影响系数γ=0.3,话题数K=50,通过运行本发明方法100次,得到5月份微博数据的主题。表2展示了在这100次运行过程中,整体目标函数的损失值L的变化。
表2 100次运行过程中,整体目标函数损失值L在5月数据集的变化
为了验证本发明方法的有效性,将本发明方法(IATM)与当前先进并具有代表性的模型 (BTM、LCTM、LeadLDA、ForumLDA)以及本发明方法的两个变种(IATM(-interaction)、IATM(-user attention))进行对比。
BTM(Biterm Topic Model)直接对一个短文本内所有词语两两组成的共现词对建模,并假设词对中的两个词语均属于同一个主题。
LCTM(Latent Concept Topic Model)为了解决短文本数据稀疏的问题利用词嵌入加强理解短文本语义,并为了理解概念上相似语义的词语而引入新的隐变量—概念(concept),假定主题是在概念上的分布。采用了word2vec模型预训练大小为16G的微博语料得到相应的 50维词嵌入。
LeadLDA以微博回复和转发关系为基础构建对话树,进而跟据对话树上领导者和跟随者的主题依赖关系生成隐藏主题。
ForumLDA通过区分转发微博主题与原微博主题相关与否建模主题生成过程。
IATM(-interaction)不对用户间动态交互建模而只考虑文本信息,同样地利用神经变分推理方法挖掘主题。
IATM(-user attention)对用户间的动态交互建模但不考虑不同用户对话题的影响力。
具体评价指标采用通过的相关分数值(topic coherence)进行实验性能的评价,公式如下:
表3,4,5展示了各种方法在话题数分别设置为K=50,100下挖掘5,6,7月数据集的主题前10(N=10),15(N=15),20(N=20)的相关分数值。相关分数值越高表示该模型性能越好。
表3本发明方法与其他方法在5月数据集上的性能比较
表4本发明方法与其他方法在6月数据集上的性能比较
表5本发明方法与其他方法在7月数据集上的性能比较
从表3,4,5的实验结果可看出,通过建模动态交互以及用户影响力,本发明提供的方法性能得到较大的提升。为了进一步观察,图3a至图3e展示了本发明方法以及模型BTM、LCTM、LeadLDA以及ForumLDA挖掘7月数据集关于“爸爸去哪儿”主题的可视化对比,说明本发明提出的基于社会媒体用户动态行为的微博主题挖掘的有效性。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Srivastava A,Sutton C.Autoencoding variational inference for topicmodels.In:Proc.of the 5th Int’l Conf.on Learning Representations,2017.
[2]Tu CC,Liu H,Liu ZY,Sun MS.Cane:Context-aware network embedding forrelation modeling.In:Proc.of the 55th Annual Meeting of the Association forComputational Linguistics. 2017,1:1722-1731.
[3]Mikolov T,Yih WT,Zweig G.Linguistic regularities in continuousspace word representations.In:Proc.of Human Language Technologies:Conf.of theNorth American Chapter of the Association for Computational Linguistics.2013:746-751.
[4]https://zh.wikipedia.org/wiki/Softmax%E5%87%BD%E6%95%B0
[5]https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence。

Claims (3)

1.一种基于社会媒体用户动态行为的微博主题挖掘方法,其特征在于,包括以下步骤:
(1)构建用户对话网络
将一个用户看作对话网络G中的一个节点v,同时将该用户所有发表过的微博聚集成一个文档Mv=(w1,w2,…,wn),其中wi(i=1,2,3…n)表示Mv的第i个单词,n为文档Mv的词语个数;文档Mv作为该用户所指向节点v的文本信息;若节点v代表的用户转发过对话网络G中节点u代表的用户发表过的微博,则将节点u和v相连,以此操作构建出用户对话网络G=(V,E,T),其中V为对话网络G中节点的集合,是对话网络G中边的集合,T代表了节点附带的文本信息;
(2)动态交互建模
将每个节点v表示为基于结构表示v(s)和基于文本表示v(t)的两部分拼接;即节点v的表示为其中表示拼接符号,d为节点表示v的维度;
基于结构表示v(s):采用神经网络语言模型将基于结构表示v(s)看作待学习的参数,为了最大化一个节点与其邻居共现的概率,通过最小化公式(1)学习基于结构表示v(s)
公式(1)中Ls为为了学习基于结构表示v(s)的损失函数值,表示第i个节点的基于结构的表示,表示第(i+j)个节点的基于结构的表示,窗口大小为k,条件概率的形式化见公式(2)
基于文本表示v(t):通过相互注意力机制学习得到基于本文表示v(t),相互注意力机制利用池化操作挖掘节点对的主题信息,给定一个节点v的文本信息Mv,将其中每个词语替换为相应的词嵌入从而得到文本表示序列Sv=(w1,w2,…,wm),其中d′表示词嵌入的维度,m表示Sv中词语的个数,对于给定文本表示序列Sv,利用卷积操作对其进行编码,见公式(3)
xi=C·(Sv)i:i+l-1+b (3)
公式(3)表示卷积矩阵对Sv在窗口大小为l的第i个窗口进行卷积操作,其中b为偏置向量,对于文本表示序列Su进行同样的卷积操作,卷积操作之后得到矩阵m和n分别是文本表示序列Su和Sv的长度,作为相互注意力机制的输入;相互注意力机制通过公式(4)计算关联矩阵
F=relu(PTAQ) (4)
其中矩阵是相互注意力机制中待学习的参数,采用relu作为激活函数,关联矩阵F的元素Fi,j表示矩阵P的第i列向量P·i和矩阵Q的第j列向量Q·j之间的关联得分,之后分别沿着横向和纵向对关联矩阵F进行池化操作,形式化分别为公式(5)(6),采用平均池化操作:
公式(5)中为矩阵F的第i行第1列元素Fi,1、第i行第2列元素Fi,2直至第i行第n列元素Fi,n的平均值;公式(6)中为矩阵F的第1行第j列元素F1,j,第2行第j列元素F2,j直至第m行第j列元素Fm,j的平均值;经平均池化后,产生矩阵P和Q各自对应的池化向量之后利用归一化指数函数将池化向量g(p)和g(q)概率化,分别得到向量a(p)和a(q),向量a(p)的第i个元素计算见公式(7);
公式(7)中是池化向量g(p)的第t个元素;
通过公式(8)、(9)计算分别得到节点u和v的基于文本表示u(t)和v(t)
u(t)=Pa(p) (8)
v(t)=Qa(q) (9)
为获得基于文本表示,通过最小化目标函数公式(10)
Lt(e)=α log p(v(t)|u(t))+β log p(v(t)|u(s))+γ log p(v(s)|u(t)) (10)
公式(10)中Lt(e)表示为了学习基于文本表示的损失函数值,α表示节点u基于文本表示u(t)对节点v基于文本表示v(t)的影响系数,β表示节点u基于结构表示u(s)对节点v基于文本表示v(t)影响系数,γ表示节点u基于文本表示u(t)对节点v基于结构表示v(s)影响系数;由于节点v代表用户转发或者回复了节点u所代表的用户,即u是原因v是结果,因此公式(10)计算节点u的表示对节点v的表示产生的影响,公式(10)中的条件概率利用公式(2)进行计算;
将节点u的节点表示u和节点v的节点表示v拼接得到边表示为
(3)用户注意力建模
边表示是由该条边上的两个节点表示拼接而来且一个节点代表一个用户,故用户对话题的影响力转化为利用注意力机制对该用户所指代的节点表示进行打分,因此利用归一化指数函数进行打分得到用户注意力向量a(e)的第i个元素计算见公式(11)
公式(11)中ei是边表示e的第i个元素,et是边表示e的第t个元素;
为将同一条边上的节点对主题信息及用户对主题影响力相结合,将边表示e和用户注意力向量a(e)进行点对点相乘,该操作激活边表示e使其成为交互感知态,从而得到交互感知边表示i,形式化见公式(12)
公式(12)中e1、e2、e2d为分别为边表示e的第1,2,2d个元素,a1、a2、a2d为分别为用户注意力向量a的第1,2,2d个元素;
(4)主题生成
采用神经变分推理推断文档-主题分布以及主题-词语分布φw=(p(w|t1),p(w|t2),...,p(w|tK)),其中ti表示第i个主题,表示一个文档,w表示一个词语,表示文档属于第i个主题的概率大小,p(w|ti)(i=1,2,..,K)表示词语w属于第i个主题的概率大小;
文档-主题分布:给定交互感知边表示i,首先将其映射至隐空间henc中;
henc=relu(w(ih)i+b(ih)) (13)
其中W(ih)和b(ih)均是编码器的参数,将relu函数作为激活函数,假设交互感知边表示i的先验分布和后验分布为高斯分布;高斯分布均值和方差通过线性变换获得,见公式(14)(15)
其中W(hμ)、W(hσ)、b(hμ)、b(hσ)为编码器的参数;
潜在语义向量通过重参数化得到,形式化见公式(16);
其中先验分布∈是均值为μ0,方差为的高斯分布;文本设定超参数μ0=0和利用归一化指数函数将潜在语义向量概率化从而得到文档-主题分布形式化和公式(7)相同;
主题-词语分布:根据公式(17)计算条件概率
故文本中将主题-词语分布φw看作解码器的参数,见公式(18)
之后通过解码器重构交互感知边表示,新的交互感知边表示i′计算如公式(19),其中W(hi)和b(hi)均是解码器的参数,
i′=relu(W(hi)hdec+b(hi)) (19)
对于主题生成,该部分的目标函数为公式(20)
公式(20)中利用KL散度衡量变分分布q(θ,z|i)和真实后验分布接近程度,其中表示为了学习文档-主题分布和主题-词语分布的损失函数值;
通过最小化整体目标函数公式(21)学习参数,以挖掘微博潜在主题
L=Ls+∑e∈E(Lt(e)+Lθ,φ(e)) (21)
L为整体目标函数的损失函数值。
2.根据权利要求1所述一种基于社会媒体用户动态行为的微博主题挖掘方法,其特征在于,步骤(1)中的微博包括源微博、回复和转发微博。
3.根据权利要求1所述一种基于社会媒体用户动态行为的微博主题挖掘方法,其特征在于,归一化指数函数为softmax函数。
CN201810624731.1A 2018-06-16 2018-06-16 一种基于社会媒体用户动态行为的微博主题挖掘方法 Active CN109033069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810624731.1A CN109033069B (zh) 2018-06-16 2018-06-16 一种基于社会媒体用户动态行为的微博主题挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810624731.1A CN109033069B (zh) 2018-06-16 2018-06-16 一种基于社会媒体用户动态行为的微博主题挖掘方法

Publications (2)

Publication Number Publication Date
CN109033069A true CN109033069A (zh) 2018-12-18
CN109033069B CN109033069B (zh) 2022-05-17

Family

ID=64609844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810624731.1A Active CN109033069B (zh) 2018-06-16 2018-06-16 一种基于社会媒体用户动态行为的微博主题挖掘方法

Country Status (1)

Country Link
CN (1) CN109033069B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046134A (zh) * 2019-11-03 2020-04-21 天津大学 一种基于回复者个人特征增强的对话生成方法
CN111143509A (zh) * 2019-12-09 2020-05-12 天津大学 一种基于静态-动态注意力变分网络的对话生成方法
CN111582443A (zh) * 2020-04-22 2020-08-25 成都信息工程大学 一种基于Mask机制和层次注意力机制的推荐方法
CN111723301A (zh) * 2020-06-01 2020-09-29 山西大学 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN112148879A (zh) * 2019-04-16 2020-12-29 中森云链(成都)科技有限责任公司 一种自动给代码打数据结构标签的计算机可读存储介质
CN112199607A (zh) * 2020-10-30 2021-01-08 天津大学 基于可变邻域内平行社交上下文融合的微博主题挖掘方法
CN112364161A (zh) * 2020-09-25 2021-02-12 天津大学 基于异构社会媒体用户动态行为的微博主题挖掘方法
CN112541340A (zh) * 2020-12-18 2021-03-23 昆明理工大学 基于变分双主题表征的弱监督涉案微博评价对象识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289487A (zh) * 2011-08-09 2011-12-21 浙江大学 基于主题模型的网络突发热点事件检测方法
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN104572797A (zh) * 2014-05-12 2015-04-29 深圳市智搜信息技术有限公司 基于主题模型的个性化服务推荐系统和方法
CN105373591A (zh) * 2015-10-23 2016-03-02 同济大学 移动社交网络中基于时空行为模式的用户兴趣模型构建方法
CN106649659A (zh) * 2016-12-13 2017-05-10 重庆邮电大学 一种面向社交网络的链接预测系统及方法
CN107992634A (zh) * 2018-01-16 2018-05-04 天津大学 基于社会媒体微博特定话题的摘要方法
US20180137350A1 (en) * 2016-11-14 2018-05-17 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289487A (zh) * 2011-08-09 2011-12-21 浙江大学 基于主题模型的网络突发热点事件检测方法
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN104572797A (zh) * 2014-05-12 2015-04-29 深圳市智搜信息技术有限公司 基于主题模型的个性化服务推荐系统和方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN105373591A (zh) * 2015-10-23 2016-03-02 同济大学 移动社交网络中基于时空行为模式的用户兴趣模型构建方法
US20180137350A1 (en) * 2016-11-14 2018-05-17 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
CN106649659A (zh) * 2016-12-13 2017-05-10 重庆邮电大学 一种面向社交网络的链接预测系统及方法
CN107992634A (zh) * 2018-01-16 2018-05-04 天津大学 基于社会媒体微博特定话题的摘要方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIU BINGYU ET.AL: "Microblog Topic Mining Based on FR-DATM", 《CHINESE JOURNAL OF ELECTRONICS》 *
RUIFANG HE ET.AL: "Twitter Summarization Based on Social Network and Sparse Reconstruction", 《THE THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-18)》 *
YI CHANG ET.AL: "Towards Twitter Context Summarization with User Influence Models", 《WSDM"13》 *
刘冰玉等: "基于动态主题模型融合多维数据的微博社区发现算法", 《软件学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148879A (zh) * 2019-04-16 2020-12-29 中森云链(成都)科技有限责任公司 一种自动给代码打数据结构标签的计算机可读存储介质
CN112148879B (zh) * 2019-04-16 2023-06-23 中森云链(成都)科技有限责任公司 一种自动给代码打数据结构标签的计算机可读存储介质
CN111046134A (zh) * 2019-11-03 2020-04-21 天津大学 一种基于回复者个人特征增强的对话生成方法
CN111046134B (zh) * 2019-11-03 2023-06-30 天津大学 一种基于回复者个人特征增强的对话生成方法
CN111143509A (zh) * 2019-12-09 2020-05-12 天津大学 一种基于静态-动态注意力变分网络的对话生成方法
CN111582443A (zh) * 2020-04-22 2020-08-25 成都信息工程大学 一种基于Mask机制和层次注意力机制的推荐方法
CN111723301A (zh) * 2020-06-01 2020-09-29 山西大学 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN111723301B (zh) * 2020-06-01 2022-05-27 山西大学 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN112364161A (zh) * 2020-09-25 2021-02-12 天津大学 基于异构社会媒体用户动态行为的微博主题挖掘方法
CN112199607A (zh) * 2020-10-30 2021-01-08 天津大学 基于可变邻域内平行社交上下文融合的微博主题挖掘方法
CN112541340A (zh) * 2020-12-18 2021-03-23 昆明理工大学 基于变分双主题表征的弱监督涉案微博评价对象识别方法

Also Published As

Publication number Publication date
CN109033069B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN109033069A (zh) 一种基于社会媒体用户动态行为的微博主题挖掘方法
Guo et al. Fuzzy detection system for rumors through explainable adaptive learning
Chaudhuri et al. Learning generative models of 3d structures
CN107133224B (zh) 一种基于主题词的语言生成方法
Li et al. Imbalanced text sentiment classification using universal and domain-specific knowledge
Karimi et al. Creative sketching partner: an analysis of human-AI co-creativity
Eide Ontologies, data modeling, and TEI
CN112364161B (zh) 基于异构社会媒体用户动态行为的微博主题挖掘方法
CN106202053B (zh) 一种社交关系驱动的微博主题情感分析方法
CN108874998A (zh) 一种基于混合特征向量表示的对话式音乐推荐方法
CN107766745A (zh) 层次数据发布中的分级隐私保护方法
Zhang et al. Multimodal dialog system: Relational graph-based context-aware question understanding
CN112199607A (zh) 基于可变邻域内平行社交上下文融合的微博主题挖掘方法
CN114117142A (zh) 一种基于注意力机制与超图卷积的标签感知推荐方法
CN114942998B (zh) 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
Mohotti et al. Corpus-based augmented media posts with density-based clustering for community detection
Liu et al. A reliable cross-site user generated content modeling method based on topic model
Xu et al. Hybrid deep-semantic matrix factorization for tag-aware personalized recommendation
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
CN113191144B (zh) 一种基于传播影响力的网络谣言识别系统及方法
CN111782964B (zh) 一种社区帖子的推荐方法
CN114298022A (zh) 一种用于大规模复杂语义网络的子图匹配的方法
Zhao et al. Multiplex network embedding for implicit sentiment analysis
Laenen et al. Learning Explainable Disentangled Representations of E-Commerce Data by Aligning Their Visual and Textual Attributes
Helton On being a lonely brain‐in‐a‐vat: Structuralism, solipsism, and the threat from external world skepticism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant