CN108363752A

CN108363752A - 基于微博传播规模预测的用户社会影响力分析方法

Info

Publication number: CN108363752A
Application number: CN201810086726.XA
Authority: CN
Inventors: 尹美娟; 刘晓楠; 唐梓淇; 罗军勇; 丁文博; 郑燕; 何功震
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-08-03
Anticipated expiration: 2038-01-30
Also published as: CN108363752B

Abstract

本发明涉及一种基于微博传播规模预测的用户社会影响力分析方法，包含：筛选具有传播性的微博数据；构建微博传播树，分析粉丝对用户的关注度及两者的兴趣相似度；结合关注度及兴趣相似度，计算粉丝对用户微博转发概率；通过转发概率预测用户微博传播规模期望，确定用户社会影响力。本发明基于具有传播性的微博的传播规模期望度量用户的社会影响力，在降低不具有传播性的微博对预测微博传播规模期望的干扰同时，更加合理地计算粉丝对用户微博的转发概率，解决在传播规模期望预测过程中不具有传播性的微博的干扰和计算用户微博转发概率时考虑的因素不全面等问题，实现对微博传播规模的准确预测，提高用户社会影响力分析结果的准确性。

Description

基于微博传播规模预测的用户社会影响力分析方法

技术领域

本发明属于大数据分析技术领域，特别涉及一种基于微博传播规模预测的用户社会影响力分析方法，用于微博网络中用户社会影响力分析。

背景技术

微博用户的社会影响力是指的是一个用户对其他用户的思想和行为的影响能力。微博是个庞大的社交媒体，同时也是海量舆论的集散地，分析微博中用户的社会影响力对于微博中的舆论引导工作具有重要的意义。微博中的用户社会影响力分析一直是近几年的研究热点，目前比较前沿的方法主要基于微博的平均传播规模度量用户的社会影响力，但一个用户的社会影响力主要由其发布的具有传播性的微博体现，而不具有传播性的微博的传播规模极小，会拉低其微博平均转发规模，从而造成度量的偏差；并且，与平均传播规模相比，微博的传播规模期望更能客观地体现用户在微博网络中的社会影响力。此外，微博中的信息传播主要依赖于粉丝的转发行为，但是现有的大多数方法主要基于用户的静态属性(如粉丝数)和其在用户关系网络中的结构位置重要性分析用户的社会影响力，没有重视影响粉丝转发行为的因素，计算粉丝对用户微博的转发概率不够全面，导致预测的微博传播规模期望不准确，从而不能准确度量用户的社会影响力。

发明内容

针对现有技术中的不足，本发明提供一种基于微博传播规模预测的用户社会影响力分析方法，能够根据微博传播性和粉丝行为规律预测用户微博传播规模期望，准确度量用户的社会影响力。

按照本发明所提供的设计方案，一种基于微博传播规模预测的用户社会影响力分析方法，包含：

A)筛选具有传播性的微博数据；

B)构建微博传播树，分析粉丝对用户的关注度及两者的兴趣相似度；

C)结合关注度及兴趣相似度，计算粉丝对用户微博转发概率；

D)通过转发概率预测用户微博传播规模期望，确定用户社会影响力。

上述的，A)中，通过预设微博传播深度值，将微博数据中转发层数低于预设微博传播深度值的数据进行过滤，筛选出具有传播性的微博数据。

上述的，B)中，包含如下内容：

B1)、对于筛选后得到的微博数据中任意一个用户u，建立该用户u的微博传播树，微博传播树中，微博用户为节点，关注关系为边；

B2)、通过LDA模型分析用户u与粉丝的微博文本，得到两者的话题向量及话题向量的相似度，计算用户u与粉丝的兴趣相似度；

B3)、基于用户u发布的历史微博数据，统计粉丝对用户u历史微博数据中具有传播性的微博数据的转发、评论、点赞和阅读四种行为的频繁度，度量该粉丝对用于u的关注度。

优选的，B1)中建立用户u的微博传播树，包含如下内容：

B11)、选取用户u作为根，将用户u的粉丝归入传播树，并建立用户u到所有关注用户u的粉丝的边；

B12)、将用户u第二层粉丝归入传播树，并建立第一层粉丝指向其第二层粉丝的边；

B13)、重复步骤B12)，直至满足预设迭代条件，用户u微博传播树构建结束。

更进一步，B13)中，预设迭代条件为没有多余用户能够加入传播树，或为传播树构建深度达到预设值。

上述的，B2)中，计算用户u与粉丝的兴趣相似度，内容如下：将用户u和粉丝v的微博文本通过LDA模型，浓缩成两个文档-话题分布向量(θ_u ¹，θ_u ²,...,θ_u ^k)和(θ_v ¹，θ_v ²,...,θ_v ^k)，其中，θ¹，θ²,...,θ^k为文档-话题分布向量中的每个元素，该元素表示文档在每个话题中的概率分布，k表示设定的话题数目，兴趣相似度计算公式如下:

上述的，B3)中，忽略阅读行为的频繁度，度量该粉丝对用于u的关注度，计算公式如下:

Careness_v→u＝k₁*commentrate_v→u+k₂*Repostrate_v→u+k₃*thumbrate_v→u,

其中，Repostrate_v→u、commentrate_v→u和thumbrate_v→u分别表示粉丝v对用户u的具有传播性的微博的转发率、评论率和点赞率，k₁、k₂和k₃都是待定参数，且k₁+k₂+k₃＝1。

上述的，C)中，粉丝对用户微博转发概率，计算公式如下:

Probability_v→u＝F(SimInterest_uv,Careness_v→u)，

其中，Probability_v→u表示粉丝v对用户u的一篇微博的转发概率，SimInterest_uv表示粉丝v和用户u之间的兴趣相似度，Careness_v→u表示粉丝v对用户u的关注度。

优选的，D)中预测用户微博传播规模期望，即是指：微博传播树中的直接粉丝的微博传播规模期望的加权和，权值为粉丝v对用户u的微博的转发概率，用户u微博转发次数期望的计算公式如下:

得到用户u的微博传播树中每个叶子节点的传播规模期望和每个子节点对父节点的微博的转发概率之后，从下至上迭代计算出微博传播树中每个节点所触发的用户u的微博的传播规模期望，最终计算出用户u的微博传播规模期望。

本发明的有益效果：

1、本发明基于具有传播性的微博的传播规模期望度量用户的社会影响力，在降低了不具有传播性的微博对预测微博传播规模期望的干扰同时，更加合理地计算了粉丝对用户微博的转发概率，解决了在传播规模期望预测过程中不具有传播性的微博的干扰和计算用户微博转发概率时考虑的因素不全面等问题。

2、本发明从微博数据中筛选出具有传播性的微博，在具有传播性的微博上，通过粉丝和用户的交互历史分析粉丝对用户的关注度，并基于两者的微博主题分布计算两者之间的兴趣相似度，结合以上两个重要影响因素计算粉丝对用户微博的转发概率，在此基础上预测用户的微博传播规模期望，可以更准确地度量用户的社会影响力；结合微博的传播性，在很大程度上减少了不具有传播性的微博对预测用户微博的传播规模造成的干扰，同时，根据粉丝对用户的关注度和粉丝与用户的兴趣相似度计算粉丝对用户微博的转发概率，更全面地考虑了粉丝转发行为的影响因素，实现了对微博传播规模的准确预测，提高了用户社会影响力分析结果的准确性。

附图说明：

图1为实施例中用户社会影响力分析方法流程图；

图2为实施例中粉丝对用户关注度及两者兴趣相似度分析流程图；

图3为实施例中微博传播树建立流程图；

图4为实施例仿真实验中不同方法的微博用户社会影响力预测数据与实际数据的秩相关性对比图一；

图5为实施例仿真实验中不同方法的微博用户社会影响力预测数据与实际数据的秩相关性对比图二；

图6为实施例仿真实验中不同方法的基于传播性微博的微博用户社会影响力预测数据与实际数据的秩相关性对比图三；

图7为实施例仿真实验中本发明的方法微博用户社会影响力预测数据与实际数据的秩相关性随设定参数改变的曲线图。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

随着互联网的发展，微博是庞大的互联网社交媒体，在对微博用户社会影响力分析过程中，现有方法主要是基于用户静态属性和其在用户关系网络中的重要性，没有考虑粉丝转发行为因素，导致微博传播规模期望不准确，无法准确度量用户社会影响力。为此，本发明实施例一，参见图1所示，提供一种基于微博传播规模预测的用户社会影响力分析方法，包含：

a01)筛选具有传播性的微博数据；

a02)构建微博传播树，分析粉丝对用户的关注度及两者的兴趣相似度；

a03)结合关注度及兴趣相似度，计算粉丝对用户微博转发概率；

a04)通过转发概率预测用户微博传播规模期望，确定用户社会影响力。

从微博数据中筛选出具有传播性的微博，在具有传播性的微博上，通过粉丝和用户的交互历史分析粉丝对用户的关注度，并基于两者的微博主题分布计算两者之间的兴趣相似度，结合以上两个重要影响因素计算粉丝对用户微博的转发概率，在此基础上预测用户的微博传播规模期望，基于具有传播性的微博的传播规模期望度量用户的社会影响力，在降低了不具有传播性的微博对预测微博传播规模期望的干扰同时，更加合理地计算了粉丝对用户微博的转发概率，解决了在传播规模期望预测过程中不具有传播性的微博的干扰和计算用户微博转发概率时考虑的因素不全面等问题，可以更准确地度量用户的社会影响力。

微博数据筛选过程中，本发明另一个实施例中，通过预设微博传播深度值，将微博数据中转发层数低于预设微博传播深度值的数据进行过滤，筛选出具有传播性的微博数据。具有传播性的微博其传播深度一般大于两层，基于这个特点，对微博数据进行过滤，将转发层数低于两层的微博过滤掉。

构建微博传播树，本发明的再一个实施例，参见图2和3所示，通过如下方法实现：对于微博数据中任意一个用户u，建立该用户的微博最大传播树。传播树中，微博用户为节点，关注关系为边。如果一个用户v关注另一个用户u，则建立一条由被关注用户u指向关注用户v的边，因为微博传播是从被关注用户u传播到关注用户v的。选取用户u为根；将用户u的粉丝归入传播树，并建立用户u到所有关注用户u的粉丝的边；建立用户u第二层粉丝归入传播树，并建立第一层粉丝指向其第二层粉丝的边。假设用户不会对同一条信息进行二次转发(这种情况非常少，可以忽略不计)，因此不将同一个用户重复归入传播树，避免了传播树产生回路；重复上一个步骤，直到没有多余的用户能够加入传播树，或者传播树的构建深度达到10层，则用户u的传播树构建结束。由于一个用户发布的微博其传播深度一般不会超过10层，因此将用户的传播树的构建深度限制在10层以内，避免不必要的计算。

LDA(Latent Dirichlet Allocation)模型是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，举例：一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息；采用词袋(bag of words)方法，将每一篇文档视为一个词频向量，将文本信息转化易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。本发明的再一个实施例中通过LDA模型分析用户和粉丝的微博文本，得到两者的话题向量，再利用余弦似度比较两个话题向量的相似度，得到两者的兴趣相似度。将用户u和粉丝v的微博文本通过LDA模型，浓缩成两个文档-话题分布向量(θ_u ¹，θ_u ²,...,θ_u ^k)和(θ_v ¹，θ_v ²,...,θ_v ^k)，其中θ¹，θ²,...,θ^k为文档-话题分布向量中的每个元素，表示文档在每个话题中的概率分布，k表示设定的话题数目。粉丝和用户的兴趣相似度计算公式如下:

基于用户u发布的历史微博中具有传播性的微博，统计粉丝v对用户u的微博的转发、评论、点赞和阅读四种行为的频繁度，来度量粉丝v对用户u的关注度。因阅读行为不易观测到，只根据另外3个指标来计算关注度。粉丝v对用户u的关注度的具体计算公式如下:

其中，Repostrate_v→u、commentrate_v→u和thumbrate_v→u分别表示粉丝v对用户u的具有传播性的微博的转发率、评论率和点赞率；k₁、k₂和k₃都是待定参数，且k₁+k₂+k₃＝1。

针对一个用户u，结合兴趣相似度和关注度来计算该用户的一个粉丝v对u发布的微博的转发概率，计算公式如下:

Probability_v→u＝F(SimInterest_uv,Careness_v→u)，

用户u的微博传播规模期望等于传播树中的直接粉丝的微博传播规模期望的加权和，权值为粉丝对用户的微博的转发概率，用户微博转发次数期望的计算公式如下:

考虑到根用户的微博传播到传播树最底层的叶子节点时，叶子节点造成转发的概率非常小。假设叶子节点造成的传播规模只有其自身一个节点，则将叶子节点对跟用户的微博的传播规模期望设置为1，即Spreadrange_leaf＝1。

在得到用户u的传播树中每个叶子节点的传播规模期望和每个子节点对父节点的微博的转发概率之后，从下至上迭代计算出传播树中每个节点的所触发的用户u的微博的传播规模期望，最终计算出用户u的微博传播规模期望。

为了验证方法的有效性，基于新浪微博数据进行了实验。通过新浪微博提供的API，搜索关键词“南海仲裁”获取到所有发布相关微博的103419个用户，获取了这103419个用户之间的互相关注关系，再爬取了这些用户两年内发布的所有微博，共45101751条，微博时间跨度为2014年9月到2017年9月。根据微博的传播性对采集到的微博数据进行过滤，筛选出具有传播性的微博，并按发布时间的先后排序，前半部分数据作为训练集，后半部分数据作为测试集。

在训练集数据上，对本发明给出的方法中相关参数进行训练，然后在测试集上对方法的有效性进行对比实验，5种对比方法与本发明方法的主要思想简要描述见表1。无论在训练集还是在测试集上，均在前2/3时间的微博数据上运用影响力分析方法预测用户在后1/3时间的社会影响力，以后1/3时间上用户微博的平均传播规模(即微博平均被转发数)作为用户当前实际社会影响力的一个参考，将预测的影响力最高的前N个用户与实际社会影响力最高的前N个用户，按影响力从大到小分别排序，计算两个排序结果之间的spearman秩相关系数，值越大说明两个排序结果越接近。为避免因选取的排序靠前的用户数的多少不同对实验结果带来的偏差，在10-2000之间取了9种值，分别计算9种N值下各方法得到的spearman秩相关系数，各方法的实验结果对比情况如图4～6所示。

表1本发明给出的方法与五种对比方法

从图4和5可以看出，现有的两种微博社会影响力分析方法，即方法3和方法4，比分别与二者具有相同思想而仅在具有传播性微博上分析的对应方法，即方法5和方法6，得到的秩相关系数在绝大多数区间上都要明显更低，说明仅在具有传播性的微博上分析用户的社会影响力结果更准确。从图6中可以看出，在基于传播性的微博上分析用户社会影响力的四种方法中，方法1得到的spearman秩相关系数在大多数区间上高于其他三种方法，尤其是当N在小于1000的区间上优势明显，说明本发明提出的方法用于分析社会影响力高的用户时具有明显的优越性；而对于社会影响力排序超过1000的用户，由于其社会影响力差别本身不大，所以各方法得到的结果差异不明显，导致在N大于1000的区间上各方法的相关系数趋同。

从图6中还可以看出，基于传播规模期望的两种方法，即方法1和方法6，得到的秩相关系数明显高于基于平均转发次数的方法，即方法2，说明基于传播规模期望来预测用户的社会影响力，比基于历史微博的平均传播规模预测的结果更准确。并且，从基于微博传播规模期望来预测用户社会影响力的两种方法对比来看，方法1得到的秩相关系数在全部区间高于方法6，说明在计算微博传播规模期望时添加用户兴趣相似度因素，得到的结果更准确。

对于转发概率计算中的函数F，选择三种不同的形式，如下表2转发概率计算模型中函数F的不同形式所示：

表2

对于转发概率计算中的待定参数k₁、k₂、k₃，由于新浪微博的限制，无法获取到粉丝点赞的详细数据，因此只考虑转发比例和评论比例，故设置k₃＝0，而k₁和k₂的设置按以下三种组合方式，如表3所示：

表3

参数设置	k₁+k₂＝1
		1	k₁＝0
2	k₁＝0.2
		3	k₁＝0.4
4	k₁＝0.6
		5	k₁＝0.8
6	k₁＝1

通过对表2中3种较为合理的函数形式和表3中6组参数组合方式的排列组合，可得到模型的18种设置。基于训练数据集前2/3的微博数据，利用模型的每种设置计算出社会影响力最大的Top50用户，并按社会影响力大小的降序对50个用户进行排序，再基于微博的平均被转发数得到训练集后1/3的Top50用户的降序排序，计算两组排序的Spearman相关系数。18种模型设置的实验结果如图7所示，可以看出，当F＝SimInterest_uv*Careness_u→v且k₁＝0.4、k₂＝0.6时，实验效果最优，因此最终选择此组函数形式和参数大小作为转发概率的计算公式。

从以上的仿真数据进一步验证，本发明从微博数据中筛选出具有传播性的微博，通过粉丝和用户的交互历史分析粉丝对用户的关注度，并基于两者的微博主题分布计算两者之间的兴趣相似度，结合以上两个重要影响因素计算粉丝对用户微博的转发概率，在此基础上预测用户的微博传播规模期望，可以更准确地度量用户的社会影响力。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定专利保护范围。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于微博传播规模预测的用户社会影响力分析方法，其特征在于，包含：

A)筛选具有传播性的微博数据；

2.根据权利要求1所述的基于微博传播规模预测的用户社会影响力分析方法，其特征在于，A)中，通过预设微博传播深度值，将微博数据中转发层数低于预设微博传播深度值的数据进行过滤，筛选出具有传播性的微博数据。

3.根据权利要求1所述的基于微博传播规模预测的用户社会影响力分析方法，其特征在于，B)中，包含如下内容：

4.根据权利要求3所述的基于微博传播规模预测的用户社会影响力分析方法，其特征在于，B1)中建立用户u的微博传播树，包含如下内容：

5.根据权利要求4所述的基于微博传播规模预测的用户社会影响力分析方法，其特征在于，B13)中，预设迭代条件为没有多余用户能够加入传播树，或为传播树构建深度达到预设值。

6.根据权利要求3所述的基于微博传播规模预测的用户社会影响力分析方法，其特征在于，B2)中，计算用户u与粉丝的兴趣相似度，内容如下：将用户u和粉丝v的微博文本通过LDA模型，浓缩成两个文档-话题分布向量(θ_u ¹，θ_u ²,...,θ_u ^k)和(θ_v ¹，θ_v ²,...,θ_v ^k)，其中，θ¹，θ²,...,θ^k为文档-话题分布向量中的每个元素，该元素表示文档在每个话题中的概率分布，k表示设定的话题数目，兴趣相似度计算公式如下:

7.根据权利要求3所述的基于微博传播规模预测的用户社会影响力分析方法，其特征在于，B3)中，忽略阅读行为的频繁度，度量该粉丝对用于u的关注度，计算公式如下:

8.根据权利要求1所述的基于微博传播规模预测的用户社会影响力分析方法，其特征在于，C)中，粉丝对用户微博转发概率，计算公式如下:

Probability_v→u＝F(SimInterest_uv,Careness_v→u)，

9.根据权利要求8所述的基于微博传播规模预测的用户社会影响力分析方法，其特征在于，D)中预测用户微博传播规模期望，即是指：微博传播树中的直接粉丝的微博传播规模期望的加权和，权值为粉丝v对用户u的微博的转发概率，用户u微博转发次数期望的计算公式如下: