CN112364161A - 基于异构社会媒体用户动态行为的微博主题挖掘方法 - Google Patents
基于异构社会媒体用户动态行为的微博主题挖掘方法 Download PDFInfo
- Publication number
- CN112364161A CN112364161A CN202011024515.7A CN202011024515A CN112364161A CN 112364161 A CN112364161 A CN 112364161A CN 202011024515 A CN202011024515 A CN 202011024515A CN 112364161 A CN112364161 A CN 112364161A
- Authority
- CN
- China
- Prior art keywords
- user
- embedding
- interaction
- topic
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000005065 mining Methods 0.000 title claims abstract description 28
- 230000006399 behavior Effects 0.000 title claims abstract description 15
- 230000003993 interaction Effects 0.000 claims abstract description 78
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 230000001537 neural effect Effects 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 3
- 238000009826 distribution Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000007983 Tris buffer Substances 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 6
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008846 dynamic interplay Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于异构社会媒体用户动态行为的微博主题挖掘方法,包括以下步骤:构建属性多元异构对话网络,挖掘异构社交上下文用于话题检测;引入邻居级注意力机制和交互级注意力机制建模不同邻居及不同类型交互方式对主题推断的不同影响,学习特定视图的嵌入;多个视图的表示作为多视图神经变分推理的输入,捕获不同视图携带的话题语义间的复杂关联,从而挖掘一致性更佳的主题。
Description
技术领域
本发明涉及自然语言处理以及社会媒体数据挖掘技术领域,具体为一种基于异构社会媒体用户动态行为的微博主题挖掘方法。
背景技术
社会媒体网站(如新浪微博等)的出现使得互联网上内容的形式大大改变。微博允许用户在其上发布和浏览信息,并具有很强的社交属性功能,如转发和评论。微博平台上存储着海量的文本数据,并且每天以惊人的速度增长。微博文本内容包含了大量的信息,从中挖掘主题信息可以用于话题推荐、突发事件检测、精准营销等。目前,文本主题挖掘技术应用于新闻、文章等长文本数据上已经具有了较好的效果。但是,微博文本长度较短,通常被限制在140字以下,微博信息的稀疏以及微博用词随意等特点大大增加了微博文本处理的难度。因此,面向微博的主题挖掘技术需要采用与传统主题挖掘所不同的方法。
目前,微博主题挖掘的相关研究主要包括:(1)利用跨文档的共现模式。该方法将短消息按照作者、哈希标签等启发式规则或文本的话题属性集聚成长的伪文档,然后利用三层贝叶斯结构的主题模型挖掘潜在主题;或者直接建模整个语料库中词对的生成,降低短文本的数据稀疏性。(2)利用短文本语义。该方法利用词嵌入含有丰富语义信息的特点,将短文本看作由词嵌入组成的集合,并假设主题-单词分布为多维高斯分布,之后利用分层贝叶斯模型推断主题;或者整合短文本中词-上下文间语义关联来建模话题,在一定程度上深度理解了短文本的语义。(3)利用社交网络上下文信息。这类方法引入社交网络的结构特征,如用户-转发网络和用户-跟随者网络,为微博文本内容补充静态上下文信息,从而发现更多的词语共现特征;或者引入社交网络的动态上下文,通过挖掘用户间的动态交互及不同的用户关注等用户行为特征来推断话题。
尽管以上方法已经取得不错的性能,但是同等看待用户间的多种交互,如转发、评论、关注和提及[1],忽略了社交网络的异构性和多元性对微博主题推断的影响。在社交平台上,基于不同的兴趣以及对微博内容的多样理解,用户产生了转发、评论等行为,用户间的不同交互方式对话题描述和话题传播有本质上不同的影响力,应区别对待。此外,用户具有微博内容、兴趣描述、身份认证等不同属性,由于微博文本可能包含噪声信息或本质上扩大话题传播范围,因此不同用户在话题推断中有不同的重要性。这些异构的社交上下文为基于社会媒体的微博主题挖掘任务提供了有利的线索。
发明内容
本发明的目的是为了克服现有技术的不足,提供一种基于异构社会媒体用户动态行为的微博主题挖掘方法。该方法为建模社交网络的异构性和多元性,构建了基于用户交互的属性多元异构对话网络,其中节点表示用户,边表示用户间的转发、评论关系。基于不同类型的用户交互方式,将属性多元异构对话网络分解为带有不同交互级语义的多个视图;引入邻居级注意力机制和交互级注意力机制建模不同邻居和不同交互类型对主题推断的影响,为用户学习特定视图的嵌入;进一步设计多视图神经变分推理,以多个视图表示作为输入,通过捕获不同的视图级话题语义间的复杂关联,生成一致性更佳的微博主题。该方法相比于现有模型在挖掘话题的连贯性分数(ToDic Coherence Score) 评价指标上是最优的。
本发明的目的通过以下技术方案实现:
一种基于异构社会媒体用户动态行为的微博主题挖掘方法,包括以下步骤:
(1)构建属性多元异构网络
将用户看作对话网络中的节点,同时将用户相关的所有微博,包括源微博、评论微博和转发微博,聚集成文档,看作该用户所指向节点的文本信息。若在对话网络中,用户之间存在微博转发、评论关系,则将指代用户的节点相连接。以此操作构建属性多元异构对话网络G=(V,E,T),其中V为对话网络中节点的集合,E=∪r∈REr为对话网络中边的集合,Er为交互关系类型为r(转发或评论)的边的集合,R表示交互关系类型的数量且满足|R|>1,T为节点附带的文本信息的集合。以vi表示V中第i个用户, Mi=(w1,w2,...,wn)指代用户vi的文本信息,其中wi表示文档Mi的第i个词语,n为文档Mi的词语个数。
(2)特定视图嵌入:引入邻居级注意力和交互级注意力建模不同邻居及不同类型交互方式对主题的影响,学习特定视图的表示。
在属性多元异构对话网络中,表示不同交互关系类型的边构成了对话网络的不同视图。为捕获不同视图间的复杂关联以更好地检测话题,对每个用户节点学习若干个特定视图的表示。具体来说,用户vi在视图Gr=(Vr,Er,Tr)下的嵌入vi,r由用户嵌入zi和交互类型嵌入s′i,r得到,其中Vr为视图Gr中所有节点的集合,Tr为视图Gr中所有节点附带的文本信息的集合,用户嵌入zi对用户vi的所有视图共享。
用户嵌入zi:通过邻居级注意力机制[2]挖掘不同的用户邻居对主题的影响力,学习融合了邻居内容信息的用户嵌入zi。给定用户vi的文本信息Mi=(w1,w2,...,wn),将其中每个词语wi替换为相应的词嵌入从而得到文本嵌入矩阵 Ei=(w1,w2,...,wn),其中d′表示词嵌入的维度,n表示Mi中词语的个数。对于文本嵌入矩阵Ei,利用平均池化操作将其编码为相应用户的语义特征表示,详见公式(1):
hi=mean(Ei) (1)
对于用户vi的所有邻居,包括在每种交互关系类型下的邻居,进行同样的操作,学习唯一的语义特征表示。给定用户vi和邻居vj,根据邻居级注意力机制建模用户邻居对主题的不同影响,详见公式(2)计算邻居vj对用户vi的重要性系数ei,j:
ei,j=att(hi,hj;Θ) (2)
其中,att是执行邻居级注意力机制的神经网络,hj是邻居vj的语义特征表示,Θ是待学习的神经网络的参数,对用户vi的所有邻居共享。
考虑到直接相连的用户通常在话题描述中发挥更重要的作用,因此,邻居级注意力机制仅考虑用户的一阶邻居Ni,包括用户本身。通过softmax函数对ei,j进行归一化,使重要性系数易于比较,详见公式(3):
公式(3)中,βi,j表示邻居vj的权重系数,Ni是用户vi的所有一阶邻居,σ表示激活函数,a是待学习的邻居级注意力向量,hk是任意一阶邻居vk∈Ni的语义特征表示,上标 T指代向量或矩阵的转置操作,||指代向量拼接操作。通过加权所有邻居的语义特征表示,得到融合邻居内容信息的用户嵌入zi,详见公式(4):
交互类型嵌入s′i,r:在视图Gr=(Vr,Er,Tr)中,Er由所有交互关系类型为r的边构成。通过交互级注意力机制[3]挖掘不同类型交互关系间的相互影响,学习交互类型嵌入s′i,r,具体来说,给定交互类型r,首先聚合用户vi在当前交互类型下一阶邻居的交互类型初始嵌入sj,r,详见公式(5):
其中,Ws是可训练的矩阵,Ni,r是用户vi在交互类型r下的所有一阶邻居。
为建模其他交互类型(包括r)对当前交互类型r的重要性ti,r,首先为用户拼接其所有的交互类型初始嵌入,详见公式(6):
Cu=[si,1,si,2,...,si,m] (6)
公式(6)中,m表示交互关系类型的数量,Cu为m个交互类型初始嵌入的拼接结果。进一步使用自注意力机制计算Cu中各个交互类型初始嵌入在交互类型r上重要性系数的组合,表示为ti,r,见公式(7):
其中,wr和Wr是与交互类型r相关的可训练的参数。
用户vi在交互类型r上的最终嵌入s′i,r见公式(8),Mr是与交互类型r相关的可训练的矩阵:
视图嵌入vi,r:将用户嵌入zi和交互类型嵌入s′i,r相加得到用户vi在视图Gr上的嵌入 vi,r=zi+αs′i,r。其中,α是控制交互类型嵌入在整个视图嵌入中重要性的超参数。
为获得特定视图的表示vi,r,需最小化下列目标函数:
公式(9)中,Lv表示为学习特定视图嵌入vi,r的损失函数,表示用户vi在当前交互关系类型r下的上下文,σ(x)=1/(1+exp(-x))表示sigmoid函数,cj,r表示上下文用户vj∈Cr在交互类型r下的视图嵌入,L表示负采样的数量。
(3)基于多视图神经变分推理[4]的主题生成:用户的多个视图嵌入作为多视图神经变分推理的输入,通过捕获不同视图级话题语义间的复杂关联,推断文档-主题分布θd=(p(t1|d),p(t2|d),...,p(tK|d))以及主题-词语分布φw=(p(w|t1),p(w|t2),...,p(w|tK))。其中,d表示文档,ti表示第i个主题,K表示主题个数,w表示词语。p(ti|d)(i=1,2,..,K)表示文档d属于第i个主题的概率,p(w|ti)(i= 1,2,..,K)表示词语w属于第i个主题的概率。
文档-主题分布:给定用户视图嵌入vi,r,首先将其编码到非线性的隐空间henc中:
henc,r=ReLU(Wh·vi,r+bh) (10)
其中,ReLU是非线性激活函数,Wh和bh是编码器的参数,r从1变化到交互关系类型的数量m。
μr=Wμ·henc,r+bμ (11)
其中,Wμ、bμ、Wσ、bσ均为编码器的参数。
zr=μr+∈×σr (13)
公式(13)中,∈采样自高斯分布N(0,I)。上述操作可以为每个视图嵌入vi,r学习对应的潜在语义向量zr,将所有的潜在语义向量zr,r=1,2,..,m一起编码,保留不同视图的本质信息到隐空间的稠密表示z中,见公式(14):
z=ReLU(Wzconcat[z1,z2,...zm]+bz) (14)
其中,concat[·]指代拼接操作,利用softmax函数将z归一化得到文档-主题分布θd。
主题-词语分布:文档中主题-词语分布φw看作解码器的参数,具体计算见公式(15):
hdec=softmax(φw×(θd)T) (15)
之后通过解码器重构,得到重构的多个用户视图嵌入v′i,r,r=1,2,..,m,见公式(16):
v′i,r=ReLU(Wd,rhdec+bd,r) (16)
其中,Wd,r和bd,r是解码器的参数。
基于多视图神经变分推理的主题生成部分的目标函数为公式(17):
公式(13)中,Lg表示为学习文档-主题分布和主题-词语分布的损失函数值,利用KL散度衡量先验分布q(zr)和真实后验分布p(zr|vi,r)的接近程度,其中,q(zr)是先验高斯分布N(0,I)。
通过结合公式(9)和公式(17),定义整体目标函数见公式(18),其中λ是权衡Lv和Lg的超参数。通过最小化该目标函数,建模不同邻居及不同类型交互关系对主题的不同影响力,并捕获不同视图指代的话题语义间的第杂关联,以挖掘微博潜在主题。
L=Lv+λLg (18)
与现有技术相比,本发明的技术方案带来的有益效果是:
(1)为了解决微博文本数据稀疏以及用词随意等问题,本发明方法同时考虑了社交媒体内容以及社交网络拓扑结构,从而丰富了微博文本的上下文信息;
(2)为了建模不同邻居和不同类型交互方式对话题推断的影响,本发明方法利用邻居级注意力机制学习融合了重要邻居信息的用户嵌入,利用交互级注意力机制学习捕获了不同类型交互方式间相互影响的交互类型嵌入,并将两个嵌入整合为特定视图的表示;
(3)为了捕获不同视图携带的不同话题语义间的复杂关联来生成一致性更佳的主题,本发明方法将普通神经变分推理[5]扩展至多个输入的情形,即同时输入多个视图的嵌入,借助于非线性的神经网络将来自不同视图的多方面的话题语义整合至隐空间的表示中,对多个视图嵌入的重构进一步确保每个视图的语义信息被保留,多视图神经变分推理适应性地平衡不同话题语义间的一致性和独立性共同辅助了话题推断;
(4)在3个真实的新浪微博数据集的实验结果充分表明本发明方法的有效性,并证明建模不同邻居和不同类型交互方式的影响对于微博主题挖掘的有效性。
附图说明
图1为本发明提供的基于异构社会媒体用户动态行为的微博主题挖掘方法框架图;其中图1左侧虚线框为具体实施方式中特定视图嵌入的学习,以属性多元异构对话网络为输入;图1右侧虚线框为具体实施方式中基于多视图神经变分推理的主题生成。
图2为具体实施方式中属性多元异构对话网络的构建示意图。
图3a为IATM挖掘“因特网”主题的可视化;
图3b为MV-TM挖掘“因特网”主题的可视化。
具体实施方式
以下结合附图和具体实施方式对本发明的技术方案进行详细描述。应当理解,此处所描述的实施方式仅用以解释本发明,并不用于限定本发明。
以3个真实的微博数据集为例给出本发明的具体实施方法,该方法的整体框架如图 1所示。整个系统算法流程包括属性多元异构对话网络输入、学习特定视图的嵌入、基于多视图神经变分推理的主题生成三个步骤。
具体步骤如下:
(1)属性多元异构对话网络输入
前人在新浪微博平台上,利用话题索引搜索应用程序编程接口(hashtag-searchAPI) 收集了2014年5月、6月和7月三个月份的涵盖50个热门话题的相关微博。本发明以上述3个月份的真实微博数据为原始语料,按照以下步骤进行处理来构建属性多元异构对话网络:1)过滤没有转发和评论关系的用户;2)将同一个用户相关的所有微博,包括源微博、转发微博和评论微博,聚集成文档,作为该用户所指节点的文本信息。
表1展示了三个数据集的详细统计信息,具体如下:5月数据集共包括44395个用户,其中有27666条转发类型边、36626条评论类型边,共计70893条微博;6月数据集共包括89979个用户,其中有59855条转发类型边、91572条评论类型边,共计163420 条微博;7月数据集共包括119269个用户,其中有90597条转发类型边、87557条评论类型边,共计188657条微博。图1左侧虚线框展示了根据用户间转发和评论关系构建的属性多元异构对话网络AMHCN。
表1微博数据集统计信息
基于构建的属性多元异构对话网络,转发或评论等不同类型的边构成了网络的不同视图,为捕获不同视图携带的话题语义间的复杂关联共同推断话题,首先学习特定视图的嵌入。
(2)特定视图嵌入
引入邻居级注意力机制和交互级注意力机制建模不同邻居和不同类型交互方式对话题推断的影响,通过训练如下目标函数,将二者编码为视图嵌入vi,r:
公式中符号的含义如前文所述。通过训练上述目标函数,学习得到用户嵌入zi以及交互类型嵌入s′i,r,之后得到视图嵌入vi,r=zi+αs′i,r。
(3)基于多视图神经变分推理的主题生成
为了捕获不同视图级话题语义间的复杂关联并适应性地平衡其一致性和独立性来生成微博话题,将视图嵌入vi,r,r=1,2,..,m输入多视图神经变分推理进行重构,具体目标函数如下:
公式中符号的含义如前文所述。
模型整体的目标函数如下:
L=Lv+2Lg
在具体实施过程中,通过提前设定各种超参数,即嵌入维度为200、负采样的数量L为 5、用于所有交互类型的重要性系数α为1、权衡系数λ为0.8,来推断微博数据的话题。
为了验证本发明方法的有效性,将本发明方法(MV-TM)与当前先进并具有代表性的模型(LCTM、LeadLDA、ForumLDA、IATM)以及本发明方法的两个变种(MV-TM (-nei)、MV-TM(-mul))进行比较。
LCTM(Latent Concept Topic Model)为解决短文本的数据稀疏问题,引入词嵌入来加强对短文本语义的理解。模型同时引入新的隐变量-概念(concept)来捕获词语的语义相似度,并假定主题为概念上的分布,概念为词嵌入上的分布。
LeadLDA根据微博之间的转发和回复关系构建对话树,进而由对话树上领导者消息和跟随者消息间的主题依赖关系推断隐藏主题。
ForumLDA通过区分转发微博与原微博的主题是否相关,并联合建模根贴、相关和不相关回应贴的生成过程来推断微博主题。
IATM(Interaction-Aware Topic Model)同时考虑了文本内容和社交网络中的动态用户行为,通过建模用户动态交互和不同的用户关注,之后用神经变分推理来挖掘主题。
MV-TM(-nei)没有利用邻居级注意力机制来捕获用户邻居的不同重要性。
MV-TM(-mul)没有利用交互级注意力机制来捕获属性多元异构对话网络中不同类型的用户交互方式对话题推断的重要性,即不考虑网络的多个视图进行微博话题推断。
实验性能的评价指标采用话题连贯性分数(topic coherence),给定推断话题的前N个词,连贯性分数的计算公式如下:
表2,3,4分别展示了模型和所有比较方法在三个微博数据集上的话题连贯性结果。对每个数据集,分别记录了话题数K=50,100时所推断主题的前10(N=10),15(N=15),20(N=20)个词语的连贯性分数值。话题连贯性分数值越高表示该模型性能越好。
表2本发明方法与其他方法在5月数据集上的性能比较
表3本发明方法与其他方法在6月数据集上的性能比较
表4本发明方法与其他方法在7月数据集上的性能比较
表5本发明方法与两个变体在三个数据集上的性能增长百分比
从表2,3,4的话题连贯性结果可以看出,通过建模社交网络的异构性和多元性,本发明提供的方法得到较大的性能提升。图3a至图3b展示了本发明方法及模型IATM 挖掘关于“因特网”主题的可视化对比,进一步说明本发明提出的基于异构社会媒体用户动态行为的微博主题挖掘方法的有效性。为了观察邻居级注意力机制和交互级注意力机制的影响,表5展示了相较于两个变体,本发明方法在三个微博数据集上话题连贯性分数的平均增长百分比,结果说明本发明提出的考虑异构社会情境用户邻居和多种交互方式的不同重要性对微博主题推断是有效的。
以上内容旨在示意性地说明本发明的技术方案,本发明并不限于上文描述的实施方式。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]He R,Zhang X,Jin D,et al.Interaction-Aware Topic Model forMicroblog Conversations through Network Embedding and User Attention.In:Proc.of the International Conference on Computational Linguistics.2018:1398-1409.
[2]Wang X,Ji H,Shi C,et al.Heterogeneous graph attention network.In:Proc.of the International Conference on World Wide Web,2019:2022–2032.
[3]Cen Y,Zou X,Zhang J,et al.Representation learning for attributedmultiplex heterogeneous network.In:Proc.of the International Conference onKnowledge Discovery& Data Mining.2019:1358-1368.
[4]Huang F,Zhang X,Li C,et al.Multimodal Network Embedding viaAttention based Multi-view Variational Autoencoder.In:Proc.of theInternational Conference on Multimedia Retrieval,2018:108-116.
[5]Srivastava A,Sutton C.Autoencoding Variational Inference for TopicModels.In: Proc.of the International Conference on Learning Representations,2017。
Claims (4)
1.一种基于异构社会媒体用户动态行为的微博主题挖掘方法,其特征在于,包括以下步骤:
(1)构建属性多元异构对话网络:挖掘异构社交上下文用于话题检测;
(2)特定视图的嵌入:引入邻居级注意力机制和交互级注意力机制建模不同邻居及不同类型交互方式对主题的影响,得到特定视图的表示;
(3)基于多视图神经变分推理的主题生成:将若干个视图的表示作为多视图神经变分推理的输入,捕获不同视图携带的不同话题语义间的复杂关联,从而挖掘一致性更佳的主题。
2.根据权利要求1所述一种基于异构社会媒体用户动态行为的微博主题挖掘方法,步骤(1)具体包括:
将用户看作对话网络中的节点,同时将用户相关的所有微博,包括源微博、评论微博和转发微博,聚集成文档,看作该用户所指向节点的文本信息;若在对话网络中,用户之间存在微博转发、评论关系,则将指代用户的节点相连接;以此操作构建属性多元异构对话网络G=(V,E,T),其中V为对话网络中节点的集合,E=∪r∈REr为对话网络中边的集合,Er为交互关系类型为r(转发或评论)的边的集合,R表示交互关系类型的数量且满足|R|>1,T为节点附带的文本信息的集合;以vi表示V中第i个用户,Mi=(w1,w2,...,wn)指代用户vi的文本信息,其中wi表示文档Mi的第i个词语,n为文档Mi的词语个数。
3.根据权利要求1所述一种基于异构社会媒体用户动态行为的微博主题挖掘方法,步骤(2)具体包括:
在属性多元异构对话网络中,表示不同类型交互关系的边构成了对话网络的不同视图;为捕获不同视图间的复杂关联以更好地检测话题,对每个用户节点学习若干个特定视图的表示;具体来说,用户vi在视图Gr=(Vr,Er,Tr)下的嵌入vi,r由用户嵌入zi和交互类型嵌入s′i,r得到,其中Vr为视图Gr中所有节点的集合,Tr为视图Gr中所有节点附带的文本信息的集合,用户嵌入zi对用户vi的所有视图共享;
用户嵌入zi:通过邻居级注意力机制挖掘不同邻居对主题的影响力,学习融合了邻居内容信息的用户嵌入zi;给定用户vi的文本信息Mi=(w1,w2,...,wn),将其中每个词语wi替换为相应的词嵌入从而得到文本嵌入矩阵Ei=(w1,w2,...,wn),其中d′表示词嵌入的维度,n表示Mi中词语的个数;对于文本嵌入矩阵Ei,利用平均池化操作将其编码为相应用户的语义特征表示,见公式(1):
hi=mean(Ei) (1)
对于用户vi的所有邻居,包括在每种交互关系类型下的邻居,进行同样的操作,学习唯一的语义特征表示;给定用户vi和邻居vj,根据邻居级注意力机制建模不同的用户邻居对主题的影响,详见公式(2)计算邻居vj对用户vi的重要性系数ei,j:
ei,j=att(hi,hj;Θ) (2)
其中,att是执行邻居级注意力机制的神经网络,hj是邻居vj的语义特征表示,Θ是待学习的神经网络的参数,对用户vi的所有邻居共享;
邻居级注意力机制仅考虑用户的一阶邻居Ni,包括用户本身;通过softmax函数对ei,j进行归一化,使重要性系数易于比较,见公式(3):
公式(3)中,βi,j表示邻居vj的权重系数,Ni是用户vi的所有一阶邻居,σ表示激活函数,a是待学习的邻居级注意力向量,hk是任意一阶邻居vk∈Ni的语义特征表示,上标T指代向量或矩阵的转置操作,||指代向量拼接操作;通过加权所有邻居的语义特征表示,得到融合邻居内容信息的用户嵌入zi,见公式(4):
交互类型嵌入s′i,r:在视图Gr=(Vr,Er,Tr)中,Er由所有交互关系类型为r的边构成;通过交互级注意力机制挖掘不同类型交互关系间的相互影响,学习交互类型的嵌入s′i,r,具体来说,给定交互类型r,首先聚合用户vi在当前交互类型下一阶邻居的交互类型初始嵌入sj,r,见公式(5):
其中,Ws是可训练的矩阵,Ni,r是用户vi在交互类型r下的所有一阶邻居;
为建模其他交互类型(包括r)对当前交互类型r的重要性ti,r,首先为用户拼接其所有的交互类型初始嵌入,见公式(6):
Cu=[si,1,si,2,...,si,m] (6)
公式(6)中,m表示交互关系类型的数量,Cu为m个交互类型初始嵌入的拼接结果;进一步使用自注意力机制计算Cu中各个交互类型初始嵌入在交互类型r上重要性系数的组合,表示为ti,r,见公式(7):
其中,wr和Wr是与交互类型r相关的可训练的参数;
用户vi在交互类型r上的最终嵌入s′i,r见公式(8),Mr是与交互类型r相关的可训练的矩阵:
视图嵌入vi,r:将用户嵌入zi和交互类型嵌入s′i,r相加得到用户vi在视图Gr上的嵌入vi,r=zi+αs′i,r;其中,α是控制交互类型嵌入在整个视图嵌入中重要性的超参数;
为获得特定视图的表示vi,r,需最小化下列目标函数:
4.根据权利要求1所述一种基于异构社会媒体用户动态行为的微博主题挖掘方法,步骤(3)具体包括:
步骤(2)为用户学习多个视图的嵌入,同时作为多视图神经变分推理的输入以捕获不同视图间的复杂关联,推断文档-主题分布θd=(p(t1|d),p(t2|d),...,p(tK|d))以及主题-词语分布φw=(p(w|t1),p(w|t2),...,p(w|tK));其中,d表示文档,ti表示第i个主题,K表示主题个数,w表示词语;p(ti|d)(i=1,2,..,K)表示文档d属于第i个主题的概率,p(w|ti)(i=1,2,..,K)表示词语w属于第i个主题的概率;
文档-主题分布:给定用户视图嵌入vi,r,首先将其编码到非线性的隐空间henc中:
henc,r=ReLU(Wh·vi,r+bh) (10)
其中,ReLU是非线性激活函数,Wh和bh是编码器的参数,r从1变化到交互关系类型的数量m;
μr=Wμ·henc,r+bμ (11)
其中,Wμ、bμ、Wσ、bσ均为编码器的参数;
zr=μr+∈×σr (13)
公式(13)中,∈采样自高斯分布N(0,I);上述操作能够为每个视图嵌入vi,r学习对应的潜在语义向量zr,将所有的潜在语义向量zr,r=1,2,..,m一起编码,保留不同视图的本质信息到隐空间的稠密表示z中,见公式(14):
z=ReLU(Wzconcat[z1,z2,...zm]+bz) (14)
其中,concat[·]指代拼接操作,利用softmax函数将z归一化得到文档-主题分布θd;
主题-词语分布:将文档中主题-词语分布φw看作解码器的参数,具体计算见公式(15):
hdec=softmax(φw×(θd)T) (15)
之后通过解码器重构,得到重构的多个用户视图嵌入v′i,r,r=1,2,..,m,见公式(16):
v′i,r=ReLU(Wd,rhdec+bd,r) (16)
其中,Wd,r和bd,r是解码器的参数;
基于多视图神经变分推理的主题生成部分的目标函数为公式(17):
公式(13)中,Lg表示为学习文档-主题分布和主题-词语分布的损失函数值,利用KL散度衡量先验分布q(zr)和真实后验分布p(zr|vi,r)的接近程度;其中,q(zr)是先验高斯分布N(0,I);
结合公式(9)和公式(17),定义整体目标函数见公式(18),其中λ是权衡Lv和Lg的超参数;通过最小化该目标函数,建模不同邻居和不同类型交互关系对主题的影响力,并捕获不同视图指代的话题语义间的复杂关联,以挖掘微博潜在主题
L=Lv+λLg (18)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011024515.7A CN112364161B (zh) | 2020-09-25 | 2020-09-25 | 基于异构社会媒体用户动态行为的微博主题挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011024515.7A CN112364161B (zh) | 2020-09-25 | 2020-09-25 | 基于异构社会媒体用户动态行为的微博主题挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364161A true CN112364161A (zh) | 2021-02-12 |
CN112364161B CN112364161B (zh) | 2021-12-07 |
Family
ID=74508287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011024515.7A Active CN112364161B (zh) | 2020-09-25 | 2020-09-25 | 基于异构社会媒体用户动态行为的微博主题挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364161B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220911A (zh) * | 2021-05-25 | 2021-08-06 | 中国农业科学院农业信息研究所 | 一种农业多源异构数据的分析与挖掘方法及其应用 |
CN113256438A (zh) * | 2021-05-27 | 2021-08-13 | 山东省计算中心(国家超级计算济南中心) | 网络用户的角色识别方法及系统 |
CN113672735A (zh) * | 2021-09-08 | 2021-11-19 | 北京邮电大学 | 一种基于主题感知异质图神经网络的链接预测方法 |
CN113870041A (zh) * | 2021-09-07 | 2021-12-31 | 天津大学 | 一种基于消息传递和图先验分布的微博话题检测方法 |
CN115687754A (zh) * | 2022-10-21 | 2023-02-03 | 四川大学 | 一种基于智能对话的主动式网络信息挖掘方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130007587A1 (en) * | 2011-06-28 | 2013-01-03 | Microsoft Corporation | Aiding search-result selection using visually branded elements |
CN109033069A (zh) * | 2018-06-16 | 2018-12-18 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN111598710A (zh) * | 2020-05-11 | 2020-08-28 | 北京邮电大学 | 社交网络事件的检测方法和装置 |
-
2020
- 2020-09-25 CN CN202011024515.7A patent/CN112364161B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130007587A1 (en) * | 2011-06-28 | 2013-01-03 | Microsoft Corporation | Aiding search-result selection using visually branded elements |
CN109033069A (zh) * | 2018-06-16 | 2018-12-18 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN111598710A (zh) * | 2020-05-11 | 2020-08-28 | 北京邮电大学 | 社交网络事件的检测方法和装置 |
Non-Patent Citations (3)
Title |
---|
RUIFANG HE等: "Interaction-Aware Topic Model for Microblog Conversations through Network Embedding and User Attention", 《HTTPS://WWW.ACLWEB.ORG/ANTHOLOGY/C18-1118.PDF》 * |
XIAO WANG等: "Heterogeneous Graph Attention Network", 《ACM》 * |
张晨逸等: "基于MB-LDA模型的微博主题挖掘", 《计算机研究与发展》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220911A (zh) * | 2021-05-25 | 2021-08-06 | 中国农业科学院农业信息研究所 | 一种农业多源异构数据的分析与挖掘方法及其应用 |
CN113220911B (zh) * | 2021-05-25 | 2024-02-02 | 中国农业科学院农业信息研究所 | 一种农业多源异构数据的分析与挖掘方法及其应用 |
CN113256438A (zh) * | 2021-05-27 | 2021-08-13 | 山东省计算中心(国家超级计算济南中心) | 网络用户的角色识别方法及系统 |
CN113870041A (zh) * | 2021-09-07 | 2021-12-31 | 天津大学 | 一种基于消息传递和图先验分布的微博话题检测方法 |
CN113870041B (zh) * | 2021-09-07 | 2024-05-24 | 天津大学 | 一种基于消息传递和图先验分布的微博话题检测方法 |
CN113672735A (zh) * | 2021-09-08 | 2021-11-19 | 北京邮电大学 | 一种基于主题感知异质图神经网络的链接预测方法 |
CN113672735B (zh) * | 2021-09-08 | 2024-01-19 | 北京邮电大学 | 一种基于主题感知异质图神经网络的链接预测方法 |
CN115687754A (zh) * | 2022-10-21 | 2023-02-03 | 四川大学 | 一种基于智能对话的主动式网络信息挖掘方法 |
CN115687754B (zh) * | 2022-10-21 | 2024-01-23 | 四川大学 | 一种基于智能对话的主动式网络信息挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112364161B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364161B (zh) | 基于异构社会媒体用户动态行为的微博主题挖掘方法 | |
Li et al. | Imbalanced text sentiment classification using universal and domain-specific knowledge | |
CN107122455B (zh) | 一种基于微博的网络用户增强表示方法 | |
CN109033069B (zh) | 一种基于社会媒体用户动态行为的微博主题挖掘方法 | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
Chen et al. | Visual and textual sentiment analysis using deep fusion convolutional neural networks | |
CN112199607A (zh) | 基于可变邻域内平行社交上下文融合的微博主题挖掘方法 | |
CN113268993B (zh) | 基于互信息的属性异构信息网络无监督网络表示学习方法 | |
Hu et al. | Hierarchical graph semantic pooling network for multi-modal community question answer matching | |
Sadr et al. | Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms | |
CN114942998B (zh) | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 | |
CN114742071B (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN110889505B (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
Shukla et al. | Role of hybrid optimization in improving performance of sentiment classification system | |
Vyas et al. | Supervised multimodal emotion analysis of violence on doctors tweets | |
Wu et al. | Detecting malicious social robots with generative adversarial networks | |
CN113343118A (zh) | 混合新媒体下的热点事件发现方法 | |
Ange et al. | Semi-supervised multimodal deep learning model for polarity detection in arguments | |
Li et al. | Text similarity computation model for identifying rumor based on bayesian network in microblog. | |
Das | Multi-contextual learning in disinformation research: A review of challenges, approaches, and opportunities | |
CN113191144B (zh) | 一种基于传播影响力的网络谣言识别系统及方法 | |
Samarinas et al. | Personalized high quality news recommendations using word embeddings and text classification models | |
Steuber et al. | Embedding semantic anchors to guide topic models on short text corpora | |
CN113870041B (zh) | 一种基于消息传递和图先验分布的微博话题检测方法 | |
CN111046134A (zh) | 一种基于回复者个人特征增强的对话生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |