CN112364161A

CN112364161A - 基于异构社会媒体用户动态行为的微博主题挖掘方法

Info

Publication number: CN112364161A
Application number: CN202011024515.7A
Authority: CN
Inventors: 贺瑞芳; 刘宏宇; 朱永凯; 王浩成; 韩迪
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-02-12
Anticipated expiration: 2040-09-25
Also published as: CN112364161B

Abstract

本发明公开了一种基于异构社会媒体用户动态行为的微博主题挖掘方法，包括以下步骤：构建属性多元异构对话网络，挖掘异构社交上下文用于话题检测；引入邻居级注意力机制和交互级注意力机制建模不同邻居及不同类型交互方式对主题推断的不同影响，学习特定视图的嵌入；多个视图的表示作为多视图神经变分推理的输入，捕获不同视图携带的话题语义间的复杂关联，从而挖掘一致性更佳的主题。

Description

基于异构社会媒体用户动态行为的微博主题挖掘方法

技术领域

本发明涉及自然语言处理以及社会媒体数据挖掘技术领域，具体为一种基于异构社会媒体用户动态行为的微博主题挖掘方法。

背景技术

社会媒体网站(如新浪微博等)的出现使得互联网上内容的形式大大改变。微博允许用户在其上发布和浏览信息，并具有很强的社交属性功能，如转发和评论。微博平台上存储着海量的文本数据，并且每天以惊人的速度增长。微博文本内容包含了大量的信息，从中挖掘主题信息可以用于话题推荐、突发事件检测、精准营销等。目前，文本主题挖掘技术应用于新闻、文章等长文本数据上已经具有了较好的效果。但是，微博文本长度较短，通常被限制在140字以下，微博信息的稀疏以及微博用词随意等特点大大增加了微博文本处理的难度。因此，面向微博的主题挖掘技术需要采用与传统主题挖掘所不同的方法。

目前，微博主题挖掘的相关研究主要包括：(1)利用跨文档的共现模式。该方法将短消息按照作者、哈希标签等启发式规则或文本的话题属性集聚成长的伪文档，然后利用三层贝叶斯结构的主题模型挖掘潜在主题；或者直接建模整个语料库中词对的生成，降低短文本的数据稀疏性。(2)利用短文本语义。该方法利用词嵌入含有丰富语义信息的特点，将短文本看作由词嵌入组成的集合，并假设主题-单词分布为多维高斯分布，之后利用分层贝叶斯模型推断主题；或者整合短文本中词-上下文间语义关联来建模话题，在一定程度上深度理解了短文本的语义。(3)利用社交网络上下文信息。这类方法引入社交网络的结构特征，如用户-转发网络和用户-跟随者网络，为微博文本内容补充静态上下文信息，从而发现更多的词语共现特征；或者引入社交网络的动态上下文，通过挖掘用户间的动态交互及不同的用户关注等用户行为特征来推断话题。

尽管以上方法已经取得不错的性能，但是同等看待用户间的多种交互，如转发、评论、关注和提及^[1]，忽略了社交网络的异构性和多元性对微博主题推断的影响。在社交平台上，基于不同的兴趣以及对微博内容的多样理解，用户产生了转发、评论等行为，用户间的不同交互方式对话题描述和话题传播有本质上不同的影响力，应区别对待。此外，用户具有微博内容、兴趣描述、身份认证等不同属性，由于微博文本可能包含噪声信息或本质上扩大话题传播范围，因此不同用户在话题推断中有不同的重要性。这些异构的社交上下文为基于社会媒体的微博主题挖掘任务提供了有利的线索。

发明内容

本发明的目的是为了克服现有技术的不足，提供一种基于异构社会媒体用户动态行为的微博主题挖掘方法。该方法为建模社交网络的异构性和多元性，构建了基于用户交互的属性多元异构对话网络，其中节点表示用户，边表示用户间的转发、评论关系。基于不同类型的用户交互方式，将属性多元异构对话网络分解为带有不同交互级语义的多个视图；引入邻居级注意力机制和交互级注意力机制建模不同邻居和不同交互类型对主题推断的影响，为用户学习特定视图的嵌入；进一步设计多视图神经变分推理，以多个视图表示作为输入，通过捕获不同的视图级话题语义间的复杂关联，生成一致性更佳的微博主题。该方法相比于现有模型在挖掘话题的连贯性分数(ToDic Coherence Score) 评价指标上是最优的。

本发明的目的通过以下技术方案实现：

一种基于异构社会媒体用户动态行为的微博主题挖掘方法，包括以下步骤：

(1)构建属性多元异构网络

将用户看作对话网络中的节点，同时将用户相关的所有微博，包括源微博、评论微博和转发微博，聚集成文档，看作该用户所指向节点的文本信息。若在对话网络中，用户之间存在微博转发、评论关系，则将指代用户的节点相连接。以此操作构建属性多元异构对话网络G＝(V，E，T)，其中V为对话网络中节点的集合，E＝∪_r∈RE_r为对话网络中边的集合，E_r为交互关系类型为r(转发或评论)的边的集合，R表示交互关系类型的数量且满足|R|＞1，T为节点附带的文本信息的集合。以v_i表示V中第i个用户， M_i＝(w₁，w₂，...，w_n)指代用户v_i的文本信息，其中w_i表示文档M_i的第i个词语，n为文档M_i的词语个数。

(2)特定视图嵌入：引入邻居级注意力和交互级注意力建模不同邻居及不同类型交互方式对主题的影响，学习特定视图的表示。

在属性多元异构对话网络中，表示不同交互关系类型的边构成了对话网络的不同视图。为捕获不同视图间的复杂关联以更好地检测话题，对每个用户节点学习若干个特定视图的表示。具体来说，用户v_i在视图G_r＝(V_r，E_r，T_r)下的嵌入v_i，r由用户嵌入z_i和交互类型嵌入s′_i，r得到，其中V_r为视图Gr中所有节点的集合，T_r为视图G_r中所有节点附带的文本信息的集合，用户嵌入z_i对用户v_i的所有视图共享。

用户嵌入z_i：通过邻居级注意力机制^[2]挖掘不同的用户邻居对主题的影响力，学习融合了邻居内容信息的用户嵌入z_i。给定用户v_i的文本信息M_i＝(w₁，w₂，...，w_n)，将其中每个词语w_i替换为相应的词嵌入

从而得到文本嵌入矩阵 E_i＝(w₁，w₂，...，w_n)，其中d′表示词嵌入的维度，n表示M_i中词语的个数。对于文本嵌入矩阵E_i，利用平均池化操作将其编码为相应用户的语义特征表示，详见公式(1)：

h_i＝mean(E_i) (1)

对于用户v_i的所有邻居，包括在每种交互关系类型下的邻居，进行同样的操作，学习唯一的语义特征表示。给定用户v_i和邻居v_j，根据邻居级注意力机制建模用户邻居对主题的不同影响，详见公式(2)计算邻居v_j对用户v_i的重要性系数e_i，j：

e_i，j＝att(h_i，h_j；Θ) (2)

其中，att是执行邻居级注意力机制的神经网络，h_j是邻居v_j的语义特征表示，Θ是待学习的神经网络的参数，对用户v_i的所有邻居共享。

考虑到直接相连的用户通常在话题描述中发挥更重要的作用，因此，邻居级注意力机制仅考虑用户的一阶邻居N_i，包括用户本身。通过softmax函数对e_i，j进行归一化，使重要性系数易于比较，详见公式(3)：

公式(3)中，β_i，j表示邻居v_j的权重系数，N_i是用户v_i的所有一阶邻居，σ表示激活函数，a是待学习的邻居级注意力向量，h_k是任意一阶邻居v_k∈N_i的语义特征表示，上标 T指代向量或矩阵的转置操作，||指代向量拼接操作。通过加权所有邻居的语义特征表示，得到融合邻居内容信息的用户嵌入z_i，详见公式(4)：

交互类型嵌入s′_i，r：在视图Gr＝(V_r，E_r，T_r)中，E_r由所有交互关系类型为r的边构成。通过交互级注意力机制^[3]挖掘不同类型交互关系间的相互影响，学习交互类型嵌入s′_i，r，具体来说，给定交互类型r，首先聚合用户v_i在当前交互类型下一阶邻居的交互类型初始嵌入s_j，r，详见公式(5)：

其中，W^s是可训练的矩阵，N_i，r是用户v_i在交互类型r下的所有一阶邻居。

为建模其他交互类型(包括r)对当前交互类型r的重要性t_i，r，首先为用户拼接其所有的交互类型初始嵌入，详见公式(6)：

C_u＝[s_i，1，s_i，2，...，s_i，m] (6)

公式(6)中，m表示交互关系类型的数量，C_u为m个交互类型初始嵌入的拼接结果。进一步使用自注意力机制计算C_u中各个交互类型初始嵌入在交互类型r上重要性系数的组合，表示为t_i，r，见公式(7)：

其中，w_r和W_r是与交互类型r相关的可训练的参数。

用户v_i在交互类型r上的最终嵌入s′_i，r见公式(8)，M_r是与交互类型r相关的可训练的矩阵：

视图嵌入v_i，r：将用户嵌入z_i和交互类型嵌入s′_i，r相加得到用户v_i在视图G_r上的嵌入 v_i，r＝z_i+αs′_i，r。其中，α是控制交互类型嵌入在整个视图嵌入中重要性的超参数。

为获得特定视图的表示v_i，r，需最小化下列目标函数：

公式(9)中，L_v表示为学习特定视图嵌入v_i，r的损失函数，

表示用户v_i在当前交互关系类型r下的上下文，σ(x)＝1/(1+exp(-x))表示sigmoid函数，c_j，r表示上下文用户v_j∈C_r在交互类型r下的视图嵌入，L表示负采样的数量。

文档-主题分布：给定用户视图嵌入v_i，r，首先将其编码到非线性的隐空间h_enc中：

h_enc，r＝ReLU(W^h·v_i，r+b^h) (10)

其中，ReLU是非线性激活函数，W^h和b^h是编码器的参数，r从1变化到交互关系类型的数量m。

假定v_i，r的先验分布和后验分布均为高斯分布，则v_i，r对应的后验高斯分布的均值μ_r和方差

可通过下列线性变换获得，见公式(11)(12)：

μ_r＝W^μ·h_enc，r+b^μ (11)

其中，W^μ、b^μ、W^σ、b^σ均为编码器的参数。

利用重参数化技巧进一步得到v_i，r对应的潜在语义向量

形式化见公式(13)：

z_r＝μ_r+∈×σ_r (13)

公式(13)中，∈采样自高斯分布N(0，I)。上述操作可以为每个视图嵌入v_i，r学习对应的潜在语义向量z_r，将所有的潜在语义向量z_r，r＝1，2，..，m一起编码，保留不同视图的本质信息到隐空间的稠密表示z中，见公式(14)：

z＝ReLU(W^zconcat[z₁，z₂，...z_m]+b^z) (14)

其中，concat[·]指代拼接操作，利用softmax函数将z归一化得到文档-主题分布θ_d。

主题-词语分布：文档中主题-词语分布φ_w看作解码器的参数，具体计算见公式(15)：

h_dec＝softmax(φ_w×(θ_d)^T) (15)

之后通过解码器重构，得到重构的多个用户视图嵌入v′_i，r，r＝1，2，..，m，见公式(16)：

v′_i，r＝ReLU(W^d，rh_dec+b^d，r) (16)

其中，W^d，r和b^d，r是解码器的参数。

基于多视图神经变分推理的主题生成部分的目标函数为公式(17)：

公式(13)中，L_g表示为学习文档-主题分布和主题-词语分布的损失函数值，利用KL散度衡量先验分布q(z_r)和真实后验分布p(z_r|v_i，r)的接近程度，其中，q(z_r)是先验高斯分布N(0，I)。

通过结合公式(9)和公式(17)，定义整体目标函数见公式(18)，其中λ是权衡L_v和L_g的超参数。通过最小化该目标函数，建模不同邻居及不同类型交互关系对主题的不同影响力，并捕获不同视图指代的话题语义间的第杂关联，以挖掘微博潜在主题。

L＝L_v+λL_g (18)

与现有技术相比，本发明的技术方案带来的有益效果是：

(1)为了解决微博文本数据稀疏以及用词随意等问题，本发明方法同时考虑了社交媒体内容以及社交网络拓扑结构，从而丰富了微博文本的上下文信息；

(2)为了建模不同邻居和不同类型交互方式对话题推断的影响，本发明方法利用邻居级注意力机制学习融合了重要邻居信息的用户嵌入，利用交互级注意力机制学习捕获了不同类型交互方式间相互影响的交互类型嵌入，并将两个嵌入整合为特定视图的表示；

(3)为了捕获不同视图携带的不同话题语义间的复杂关联来生成一致性更佳的主题，本发明方法将普通神经变分推理^[5]扩展至多个输入的情形，即同时输入多个视图的嵌入，借助于非线性的神经网络将来自不同视图的多方面的话题语义整合至隐空间的表示中，对多个视图嵌入的重构进一步确保每个视图的语义信息被保留，多视图神经变分推理适应性地平衡不同话题语义间的一致性和独立性共同辅助了话题推断；

(4)在3个真实的新浪微博数据集的实验结果充分表明本发明方法的有效性，并证明建模不同邻居和不同类型交互方式的影响对于微博主题挖掘的有效性。

附图说明

图1为本发明提供的基于异构社会媒体用户动态行为的微博主题挖掘方法框架图；其中图1左侧虚线框为具体实施方式中特定视图嵌入的学习，以属性多元异构对话网络为输入；图1右侧虚线框为具体实施方式中基于多视图神经变分推理的主题生成。

图2为具体实施方式中属性多元异构对话网络的构建示意图。

图3a为IATM挖掘“因特网”主题的可视化；

图3b为MV-TM挖掘“因特网”主题的可视化。

具体实施方式

以下结合附图和具体实施方式对本发明的技术方案进行详细描述。应当理解，此处所描述的实施方式仅用以解释本发明，并不用于限定本发明。

以3个真实的微博数据集为例给出本发明的具体实施方法，该方法的整体框架如图 1所示。整个系统算法流程包括属性多元异构对话网络输入、学习特定视图的嵌入、基于多视图神经变分推理的主题生成三个步骤。

具体步骤如下：

(1)属性多元异构对话网络输入

前人在新浪微博平台上，利用话题索引搜索应用程序编程接口(hashtag-searchAPI) 收集了2014年5月、6月和7月三个月份的涵盖50个热门话题的相关微博。本发明以上述3个月份的真实微博数据为原始语料，按照以下步骤进行处理来构建属性多元异构对话网络：1)过滤没有转发和评论关系的用户；2)将同一个用户相关的所有微博，包括源微博、转发微博和评论微博，聚集成文档，作为该用户所指节点的文本信息。

表1展示了三个数据集的详细统计信息，具体如下：5月数据集共包括44395个用户，其中有27666条转发类型边、36626条评论类型边，共计70893条微博；6月数据集共包括89979个用户，其中有59855条转发类型边、91572条评论类型边，共计163420 条微博；7月数据集共包括119269个用户，其中有90597条转发类型边、87557条评论类型边，共计188657条微博。图1左侧虚线框展示了根据用户间转发和评论关系构建的属性多元异构对话网络AMHCN。

表1微博数据集统计信息

基于构建的属性多元异构对话网络，转发或评论等不同类型的边构成了网络的不同视图，为捕获不同视图携带的话题语义间的复杂关联共同推断话题，首先学习特定视图的嵌入。

(2)特定视图嵌入

引入邻居级注意力机制和交互级注意力机制建模不同邻居和不同类型交互方式对话题推断的影响，通过训练如下目标函数，将二者编码为视图嵌入v_i，r：

公式中符号的含义如前文所述。通过训练上述目标函数，学习得到用户嵌入z_i以及交互类型嵌入s′_i，r，之后得到视图嵌入v_i，r＝z_i+αs′_i，r。

(3)基于多视图神经变分推理的主题生成

为了捕获不同视图级话题语义间的复杂关联并适应性地平衡其一致性和独立性来生成微博话题，将视图嵌入v_i，r，r＝1，2，..，m输入多视图神经变分推理进行重构，具体目标函数如下：

公式中符号的含义如前文所述。

模型整体的目标函数如下：

L＝Lv+2L_g

在具体实施过程中，通过提前设定各种超参数，即嵌入维度为200、负采样的数量L为 5、用于所有交互类型的重要性系数α为1、权衡系数λ为0.8，来推断微博数据的话题。

为了验证本发明方法的有效性，将本发明方法(MV-TM)与当前先进并具有代表性的模型(LCTM、LeadLDA、ForumLDA、IATM)以及本发明方法的两个变种(MV-TM (-nei)、MV-TM(-mul))进行比较。

LCTM(Latent Concept Topic Model)为解决短文本的数据稀疏问题，引入词嵌入来加强对短文本语义的理解。模型同时引入新的隐变量-概念(concept)来捕获词语的语义相似度，并假定主题为概念上的分布，概念为词嵌入上的分布。

LeadLDA根据微博之间的转发和回复关系构建对话树，进而由对话树上领导者消息和跟随者消息间的主题依赖关系推断隐藏主题。

ForumLDA通过区分转发微博与原微博的主题是否相关，并联合建模根贴、相关和不相关回应贴的生成过程来推断微博主题。

IATM(Interaction-Aware Topic Model)同时考虑了文本内容和社交网络中的动态用户行为，通过建模用户动态交互和不同的用户关注，之后用神经变分推理来挖掘主题。

MV-TM(-nei)没有利用邻居级注意力机制来捕获用户邻居的不同重要性。

MV-TM(-mul)没有利用交互级注意力机制来捕获属性多元异构对话网络中不同类型的用户交互方式对话题推断的重要性，即不考虑网络的多个视图进行微博话题推断。

实验性能的评价指标采用话题连贯性分数(topic coherence)，给定推断话题的前N个词，连贯性分数的计算公式如下：

表2，3，4分别展示了模型和所有比较方法在三个微博数据集上的话题连贯性结果。对每个数据集，分别记录了话题数K＝50，100时所推断主题的前10(N＝10)，15(N＝15)，20(N＝20)个词语的连贯性分数值。话题连贯性分数值越高表示该模型性能越好。

表2本发明方法与其他方法在5月数据集上的性能比较

表3本发明方法与其他方法在6月数据集上的性能比较

表4本发明方法与其他方法在7月数据集上的性能比较

表5本发明方法与两个变体在三个数据集上的性能增长百分比

从表2，3，4的话题连贯性结果可以看出，通过建模社交网络的异构性和多元性，本发明提供的方法得到较大的性能提升。图3a至图3b展示了本发明方法及模型IATM 挖掘关于“因特网”主题的可视化对比，进一步说明本发明提出的基于异构社会媒体用户动态行为的微博主题挖掘方法的有效性。为了观察邻居级注意力机制和交互级注意力机制的影响，表5展示了相较于两个变体，本发明方法在三个微博数据集上话题连贯性分数的平均增长百分比，结果说明本发明提出的考虑异构社会情境用户邻居和多种交互方式的不同重要性对微博主题推断是有效的。

以上内容旨在示意性地说明本发明的技术方案，本发明并不限于上文描述的实施方式。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]He R,Zhang X,Jin D,et al.Interaction-Aware Topic Model forMicroblog Conversations through Network Embedding and User Attention.In:Proc.of the International Conference on Computational Linguistics.2018:1398-1409.

[2]Wang X,Ji H,Shi C,et al.Heterogeneous graph attention network.In:Proc.of the International Conference on World Wide Web,2019:2022–2032.

[3]Cen Y,Zou X,Zhang J,et al.Representation learning for attributedmultiplex heterogeneous network.In:Proc.of the International Conference onKnowledge Discovery& Data Mining.2019:1358-1368.

[4]Huang F,Zhang X,Li C,et al.Multimodal Network Embedding viaAttention based Multi-view Variational Autoencoder.In:Proc.of theInternational Conference on Multimedia Retrieval,2018:108-116.

[5]Srivastava A,Sutton C.Autoencoding Variational Inference for TopicModels.In: Proc.of the International Conference on Learning Representations,2017。

Claims

1.一种基于异构社会媒体用户动态行为的微博主题挖掘方法，其特征在于，包括以下步骤：

(1)构建属性多元异构对话网络：挖掘异构社交上下文用于话题检测；

(2)特定视图的嵌入：引入邻居级注意力机制和交互级注意力机制建模不同邻居及不同类型交互方式对主题的影响，得到特定视图的表示；

(3)基于多视图神经变分推理的主题生成：将若干个视图的表示作为多视图神经变分推理的输入，捕获不同视图携带的不同话题语义间的复杂关联，从而挖掘一致性更佳的主题。

2.根据权利要求1所述一种基于异构社会媒体用户动态行为的微博主题挖掘方法，步骤(1)具体包括：

将用户看作对话网络中的节点，同时将用户相关的所有微博，包括源微博、评论微博和转发微博，聚集成文档，看作该用户所指向节点的文本信息；若在对话网络中，用户之间存在微博转发、评论关系，则将指代用户的节点相连接；以此操作构建属性多元异构对话网络G＝(V，E，T)，其中V为对话网络中节点的集合，E＝∪_r∈RE_r为对话网络中边的集合，E_r为交互关系类型为r(转发或评论)的边的集合，R表示交互关系类型的数量且满足|R|＞1，T为节点附带的文本信息的集合；以v_i表示V中第i个用户，M_i＝(w₁，w₂，...，w_n)指代用户v_i的文本信息，其中w_i表示文档M_i的第i个词语，n为文档M_i的词语个数。

3.根据权利要求1所述一种基于异构社会媒体用户动态行为的微博主题挖掘方法，步骤(2)具体包括：

在属性多元异构对话网络中，表示不同类型交互关系的边构成了对话网络的不同视图；为捕获不同视图间的复杂关联以更好地检测话题，对每个用户节点学习若干个特定视图的表示；具体来说，用户v_i在视图G_r＝(V_r，E_r，T_r)下的嵌入v_i，r由用户嵌入z_i和交互类型嵌入s′_i，r得到，其中V_r为视图G_r中所有节点的集合，T_r为视图G_r中所有节点附带的文本信息的集合，用户嵌入z_i对用户v_i的所有视图共享；

用户嵌入z_i：通过邻居级注意力机制挖掘不同邻居对主题的影响力，学习融合了邻居内容信息的用户嵌入z_i；给定用户v_i的文本信息M_i＝(w₁，w₂，...，w_n)，将其中每个词语w_i替换为相应的词嵌入

从而得到文本嵌入矩阵E_i＝(w₁，w₂，...，w_n)，其中d′表示词嵌入的维度，n表示M_i中词语的个数；对于文本嵌入矩阵E_i，利用平均池化操作将其编码为相应用户的语义特征表示，见公式(1)：

h_i＝mean(E_i) (1)

对于用户v_i的所有邻居，包括在每种交互关系类型下的邻居，进行同样的操作，学习唯一的语义特征表示；给定用户v_i和邻居v_j，根据邻居级注意力机制建模不同的用户邻居对主题的影响，详见公式(2)计算邻居v_j对用户v_i的重要性系数e_i，j：

e_i，j＝att(h_i，h_j；Θ) (2)

其中，att是执行邻居级注意力机制的神经网络，h_j是邻居v_j的语义特征表示，Θ是待学习的神经网络的参数，对用户v_i的所有邻居共享；

邻居级注意力机制仅考虑用户的一阶邻居N_i，包括用户本身；通过softmax函数对e_i，j进行归一化，使重要性系数易于比较，见公式(3)：

公式(3)中，β_i，j表示邻居v_j的权重系数，N_i是用户v_i的所有一阶邻居，σ表示激活函数，a是待学习的邻居级注意力向量，h_k是任意一阶邻居v_k∈N_i的语义特征表示，上标T指代向量或矩阵的转置操作，||指代向量拼接操作；通过加权所有邻居的语义特征表示，得到融合邻居内容信息的用户嵌入z_i，见公式(4)：

交互类型嵌入s′_i，r：在视图G_r＝(V_r，E_r，T_r)中，E_r由所有交互关系类型为r的边构成；通过交互级注意力机制挖掘不同类型交互关系间的相互影响，学习交互类型的嵌入s′_i，r，具体来说，给定交互类型r，首先聚合用户v_i在当前交互类型下一阶邻居的交互类型初始嵌入s_j，r，见公式(5)：