CN112052995A

CN112052995A - 基于融合情感倾向主题的社交网络用户影响力预测方法

Info

Publication number: CN112052995A
Application number: CN202010895010.1A
Authority: CN
Inventors: 梁颖; 王然; 徐向华; 李平
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-08
Anticipated expiration: 2040-08-31
Also published as: CN112052995B

Abstract

本发明公开了基于融合情感倾向主题的社交网络用户影响力预测方法。现有方法影响力计算结果笼统，无法有效的体现用户的实际影响力。本发明方法首先提取用户带有不同情感倾向的主题信息，建立对应的用户博文信息列表；然后，建立用户‑情感倾向主题影响力矩阵，获取情感倾向主题相似、邻居相似、用户相似信息；最后，建立预测模型，对未观察到的情感倾向主题进行影响力预测。本发明方法融入情感倾向，结合行为用户属性，使得影响力度量的值更加的准确，更能反应一个用户的影响力程度，使得能够预测用户在未观察到的主题上的影响力，不局限于用户的历史数据观察到的主题，并融合多种相似信息，弥补数据稀疏问题，预测结果更加的准确。

Description

基于融合情感倾向主题的社交网络用户影响力预测方法

技术领域

本发明属于社交网络分析技术领域，涉及一种基于融合情感倾向主题的社交网络用户影响力预测方法。

背景技术

社交网络是互联网时代信息传播的重要组成部分，随着计算机技术的普及和发展，越来越多的用户通过在微博、推特(Twitter)等社交网络平台上发表内容、传播信息，并影响到其他的用户。分析社交网络中的这种影响力，对了解社交用户的行动内因、信息在网络中的传播因素以及预测信息在网络中的传播范围等都具有重要的意义。

社交网络影响力体现在用户对其他用户的影响程度，是指用户自身的社交行为通过社交网络中的社交关系，使其他用户产生相关行为的一种现象，具体表现在点赞、转发等。对社交网络影响力的分析，是指通过收集用户在社交网络上的历史数据，如博文内容、转发次数、回复内容等相关信息，分析用户在社交网络上的影响力，从而用于商业营销、广告投放、舆情控制等诸多领域。

目前对社交网络影响力的度量分析方法大致从两个角度出发，一个是从宏观层面考虑，分析用户在网络中的拓扑结构属性，如Granovertter等利用用户节点之间的邻居重叠比例来计算影响力。这种基于网络拓扑结构的影响力度量方法比较简单，但是没有考虑用户的文本信息和交互信息，影响力计算结果太过笼统，无法有效的体现用户的实际影响力。另一个是从主题角度上考虑的，用户在不同的主题上会有着不同的影响力，如数码博主在手机话题上对其他用户的影响力会高于在政治主题上的影响力。然而，这种方法存在两个问题。首先是忽略了用户的博文主题中含有的情感倾向，以政治主题为例，一个对该主题情感积极的用户，被其他用户带有消极情绪的政治相关主题影响的概率会很小，同一个主题可以表现出不同的情感倾向，不同情感倾向的主题，对用户来说也应有着不同程度的影响力。其次是无法对未观察到的主题进行影响力度量预测，即无法预测用户在潜在的主题上的影响力。

发明内容

本发明的目的就是针对现有方法中存在的问题，提供一种基于融合情感倾向主题的社交网络用户影响力预测方法，能够在不同情感倾向的主题上，度量并预测用户的影响力。

本发明方法通过提取用户历史博文中的主题信息，结合其中表现出来的情感倾向，根据点赞、评论、转发等多种行为和行为用户属性(行为用户是指对用户的博文进行点赞、评论、转发等操作的用户)，计算用户在该情感倾向主题上的影响力，并建立用户-情感倾向主题影响力矩阵。利用矩阵分解技术，得到对应的用户潜在特征矩阵和情感倾向主题特征矩阵，并融合情感倾向主题相似、邻居相似、用户相似等额外信息，以减少影响力矩阵稀疏带来的影响，建立用户在未观察到的情感倾向主题上的影响力预测模型。

本发明方法包括如下步骤：

步骤A.提取用户u在博文的情感倾向，建立对应用户在情感倾向主题z下的博文信息列表L_z(u)；

步骤B.根据行为用户属性和行为特征计算影响力，建立用户-情感倾向主题影响力矩阵；

步骤C.获取情感倾向主题z的相似情感倾向主题列表SimST(z)、用户u的邻居相似用户列表SimNB(u)、用户u的相似用户列表SimU(u)；

步骤D.建立预测模型，对用户在未观察到的情感倾向主题进行影响力预测。

进一步，步骤A中采用粗粒度的情感分析方法提取用户博文的情感倾向，具体方法是：

根据博文内容，用情感分析工具将其情感倾向识别为正向或负向，并用LDA方法提取主题信息，将情感倾向和主题信息组合成情感倾向主题，并将博文信息按照情感倾向主题，建立对应的列表；所述的博文信息包括博文内容、点赞、转发、评论；

设用户集合U＝{u₁,u₂,u₃,…,u_M}，情感倾向集合为S，主题集合为T；M为用户数量，u_m表示第m个用户，m＝1,2,…,M；定义用户u∈U的情感倾向s∈S，主题t∈T，两者组合为情感倾向主题z＝(s,t)；

设情感倾向主题集合Z＝{z₁,z₂,z₃,…,z_N}，N为情感倾向主题数量，z_n表示第n个情感倾向主题，n＝1,2,…,N；

用户u在情感倾向主题为z下的博文信息列表L_z(u)＝{W₁,W₂,W₃,…,W_R}，R表示用户u在情感倾向主题为z的博文数量，W_r表示列表中的第r条博文相关信息，包括对应的博文内容、点赞、评论、转发，r＝1,2,…,R。

进一步，步骤B是根据步骤A中用户博文列表上所获得的点赞、转发、评论行为和行为用户的属性，计算相应的影响力，从而获取用户在某个情感倾向主题上的影响力，然后建立用户-情感倾向主题影响力矩阵。具体方法是：

B1.根据用户u在情感倾向主题z下的博文信息列表L_z(u)，统计其中三种行为用户列表，分别为点赞用户列表LL_z(u)、转发用户列表FL_z(u)和评论用户列表CL_z(u)；

B2.根据三种行为用户列表中行为用户的粉丝数量、关注数量、原创博文数量和用户等级，计算出行为用户的属性强度；

行为用户v的属性强度

v∈U；其中n₁(v)，n₂(v)，n₃(v)分别表示行为用户v的粉丝数量、关注数量和原创微博数量，l(v)表示行为用户v的等级，γ为对应的权重,

γ₁表示粉丝数量权重、γ₂表示关注数量权重、γ₃表示原创微博数量权重、γ₄表示行为用户等级权重，其中粉丝数量的重最大，关注数量权重最小；

该方法考虑行为用户的属性强度的原因是，每个用户的行为所表示的影响程度应该是不同的。一个等级高、粉丝量多的用户转发一条博文，与一个等级低、粉丝量少的用户转发一条博文，所带来的影响力应该是不同的。用户本身具有不同的影响力等级，因而，需要考虑行为用户自身的属性；

B3.根据行为用户的属性强度，计算用户u在情感倾向主题z下的影响力f_z(u)：

其中，w₁，w₂，w₃分别表示点赞用户、转发用户、评论用户对用户u的影响权重，

其中转发用户和评论用户的影响权重大于点赞用户的影响权重。

B4.定义用户u的已观察到的情感倾向主题列表UserST(u)，将主题z添加到UserST(u)中，并定义已观察到的情感倾向主题z所对应的用户列表StUser(z)，将用户u添加到列表StUser(z)中；建立用户和情感倾向主题之间映射关系；

B5.根据用户在情感倾向主题下的影响力，建立M×N的用户-情感倾向主题影响力矩阵F_MN；影响力矩阵F_MN的行向量

列向量

表示第m个用户在第n个情感倾向主题下的影响力。

进一步，步骤C中获取额外相似信息，用来弥补用户-情感倾向主题矩阵稀疏问题。相似信息包括情感倾向主题相似、邻居相似和用户相似。

C1.获取情感倾向主题z的相似情感倾向主题列表SimST(z)的具体方法是：

C11.计算情感倾向主题z中所对应的主题t的词向量；

C12.遍历主题集合，对所遍历的主题

计算词向量,其中

未被标记；

C13.计算主题

的词向量与主题t的词向量的相似度，并标记主题

C14.根据给定阈值，判断两个词向量是否相似：如果不相似，则返回C12，遍历下一个主题；如果相似，进入C15；

C15.根据情感倾向主题z所对应的情感倾向s，与所遍历的主题

组合成相似情感倾向主题

并添加至相似情感倾向主题列表SimST(z)，并将z添加至相似情感倾向主题列表

返回C12，遍历下一个主题，直到全部被标记。

C2.获取用户u的邻居相似用户列表SimNB(u)的具体方法是：

C21.获取用户u的所有邻居节点，包括关注用户，粉丝用户；

C22.遍历用户集合U，对所遍历的用户

其中

没有被标记，获取用户

的所有邻居节点；

C23.计算用户u和用户

的邻居相似度，并标记

C24.根据给定阈值，判断两个用户的邻居是否相似：如果不相似，返回C22，遍历下一个用户；如果相似，将用户

添加至相似邻居用户列表SimNB(u)，并将用户u添加至相似邻居用户列表

返回C22，遍历下一个用户，直到全部被遍历。

C3.获取用户u的相似用户列表SimU(u)的具体方法是：

C31.根据影响力矩阵F_MN，获取用户u的情感倾向主题影响力向量；

C32.遍历用户集合，对所遍历的用户

其中

没有被标记，获取用户

的情感倾向主题影响力向量；

C33.计算用户

和用户u的情感倾向主题影响力向量之间的相似度，并标记

C34.根据给定阈值，判断两个用户的情感倾向主题影响力向量是否相似：如果不相似，返回C32，遍历下一个用户；如果相似，将用户

添加至相似用户列表SimU(u)，并将用户u添加至相似用户列表SimU(u)，返回C32，遍历下一个用户，直到全部被标记。

进一步，步骤D建立预测模型，是根据用户-情感倾向主题影响力矩阵和相似信息，综合建立影响力预测模型，定义用户u在未观察到的情感倾向主题为z的影响力为

其预测模型为：

是基于用户-情感倾向主题影响力矩阵F_MN分解的结果，p_u表示用户相关向量，q_z表示情感倾向主题相关向量，p_u和q_z的维度与情感倾向主题数量N一致，T表示转置；

A_uz表示情感倾向主题z的相似情感倾向主题列表SimST(z)对用户u的影响力计算的作用强度，

其中，

表示用户u在相似情感倾向主题

下的影响力

对结果的作用权重，SimST(z)∩UserST(u)表示在用户u的已观察到的情感倾向主题列表中，与情感倾向主题z相似的情感倾向主题集合；

B_uz表示用户u的邻居相似用户列表SimNB(u)对用户u的影响力计算的作用强度，

其中，

表示邻居相似用户

在情感倾向主题z下的影响力

对结果的作用权重，SimNB(u)∩StUser(z)表示用户u的邻居相似用户集合的子集，该子集用户的历史博文信息中包含情感倾向主题z；

C_uz表示用户u的相似用户列表SimU(u)对用户u的影响力计算的作用强度，

其中，

表示相似用户

在情感倾向主题z下的影响力

对结果的作用权重，SimU(u)∩StUser(z)表示用户u的相似用户集合的子集，该子集用户的历史博文信息中包含情感倾向主题z。

对预测模型进行训练，模型训练过程与一般求解方法类似，本发明对此不做叙述。利用预测模型对用户在未观察到的情感倾向主题进行影响力预测。

本发明在基于主题的影响力度量方法中，融入情感倾向，细化了用户的影响力度量方式，并结合行为用户属性，使得影响力度量的值更加的准确，更能反应一个用户的影响力程度。另外，建立用户的影响力预测模型，使得能够预测用户在未观察到的主题上的影响力，不局限于用户的历史数据观察到的主题，并融合多种相似信息，弥补数据稀疏问题，使得预测结果更加的准确。

附图说明

图1为本发明方法的实现流程图。

图2为本发明方法中建立用户-情感倾向主题影响力矩阵的流程图。

图3为本发明方法中获取相似情感倾向主题列表的流程图；

图4为本发明方法中获取邻居相似用户列表的流程图；

图5为本发明方法中获取相似用户列表的流程图。

具体实施方式

以下结合附图和实施实例对本发明加以详细说明。

基于融合情感倾向主题的社交网络用户影响力预测方法，总的实现流程如图1所示：

步骤A.提取用户u在博文的情感倾向，建立对应用户在情感倾向主题z下的博文信息列表L_z(u)；具体是：

根据博文内容，用情感分析工具将其情感倾向识别为正向或负向，并用LDA方法提取主题信息，将情感倾向和主题信息组合成情感倾向主题，并将博文信息按照情感倾向主题，建立对应的列表；博文信息包括博文内容、点赞、转发、评论；

步骤B.根据行为用户属性和行为特征计算影响力，建立用户-情感倾向主题影响力矩阵；具体实现流程如图2所示：

行为用户v的属性强度

其中转发用户和评论用户的影响权重大于点赞用户的影响权重；

即用户u在情感倾向主题z下的影响力与其他用户的属性和行为有关；

列向量

表示第m个用户在第n个情感倾向主题下的影响力。

步骤C.根据用户影响力矩阵F_MN和全部用户集合U，获取情感倾向主题z的相似情感倾向主题列表SimST(z)、用户u的邻居相似用户列表SimNB(u)、用户u的相似用户列表SimU(u)。

获取情感倾向主题z的相似情感倾向主题列表SimST(z)的具体方法如图3：

C11.计算情感倾向主题z中所对应的主题t的词向量tV；具体的：根据词向量计算工具word2vec，计算主题词t的词向量tV＝[tv₁,tv₂,tv₃,…tv_P]，J为词向量的维数，tv_j表示第j维分量；j＝1,2,…,J；

C12.遍历主题集合，对所遍历的主题

计算词向量

其中

未被标记；具体的：根据词向量计算工具word2vec，计算主题词

的词向量

J为词向量的维数，

表示第j维分量；j＝1,2,…,J；

C13.计算主题

的词向量与主题t的词向量的相似度，并标记主题

具体的：词向量之间的相似度计算方法利用欧式距离定义为：

C15.根据情感倾向主题z所对应的情感倾向s，与所遍历的主题

组合成相似情感倾向主题

返回C12，遍历下一个主题，直到全部被标记。

获取用户u的邻居相似用户列表SimNB(u)的具体方法如图4：

C21.获取用户u的所有邻居节点，包括关注用户，粉丝用户；具体的：定义用户u的邻居节点为Ne(u)；

C22.遍历用户集合U，对所遍历的用户

其中

没有被标记，获取用户

的所有邻居节点，定义用户

的邻居节点为

C23.计算用户u和用户

的邻居相似度，并标记

具体的，定义两个用户之间的邻居相似度为

表示两者的邻居重叠数量，|Ne(u)|表示u的邻居数量；

返回C22，遍历下一个用户，直到全部被遍历。

获取用户u的相似用户列表SimU(u)的具体方法如图5：

C31.根据影响力矩阵F_MN，获取用户u在矩阵中对应行的情感倾向主题影响力向量uf；

C32.遍历用户集合，对所遍历的用户

其中

没有被标记，获取用户

在矩阵中对应行的情感倾向主题影响力向量

C33.计算用户

和用户u的情感倾向主题影响力向量之间的相似度，并标记

具体的，用户的影响力向量之间的相似度用欧式距离定义：

步骤D.建立预测模型，对用户在未观察到的情感倾向主题进行影响力预测。根据用户-情感倾向主题影响力矩阵和相似信息，综合建立影响力预测模型，定义用户u在未观察到的情感倾向主题为z的影响力为

其预测模型为：

其中，

表示用户u在相似情感倾向主题

下的影响力

其中，

表示邻居相似用户

在情感倾向主题z下的影响力

其中，

表示相似用户

在情感倾向主题z下的影响力

利用预测模型对用户在未观察到的情感倾向主题进行影响力预测。

该方法融合情感倾向主题的用户影响力预测方法，是通过行为用户的属性和行为特征，计算用户在融合情感倾向主题上的影响力，在主题上更加细化，从而能更准确的反应用户的影响力程度；建立用户影响力矩阵，利用矩阵分解方法，并提出一种更全面的相似信息计算方法，通过获取相似情感倾向主题、邻居相似用户和相似用户弥补矩阵中的数值稀疏问题，更准确的对用户在未观察到的主题上的影响力进行预测。综上，该方法能更全面的度量并预测用户在不同主题上的影响力，同时将情感倾向融入其中，更能准确反映一个用户对其他用户的影响程度。