CN106991160B

CN106991160B - 一种基于用户影响力以及内容的微博传播预测方法

Info

Publication number: CN106991160B
Application number: CN201710203904.8A
Authority: CN
Inventors: 郭晓东; 刘金硕; 王丽娜; 章岚昕; 杨广益; 陈煜森; 李扬眉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2020-07-24
Anticipated expiration: 2037-03-30
Also published as: CN106991160A

Abstract

本文发明涉及一种基于用户影响力以及内容的微博传播预测方法，流程如下：1.利用scrapy技术对两个用户的个人信息和他们之间的转发关系及转发微博进行爬取。2.利用RankPage影响力分析技术提取用户影响力，形成用户权威预测因子。3.采用单位时间粉丝转发微博在所有发表微博的百分比，提取粉丝转发活跃度预测因子。4.采用TF‑IDF词语权重技术对微博内容进行重要性分析，提取微博重要性预测因子。5.利用滚雪球的抽样方法将提取到的转发关系划分成10折微博转发训练集和微博忽略训练集6.利用有监督的贝叶斯网络对训练集进行训练，直至分类器参数收敛。利用本发明可以提高针对新浪微博特定粉丝转发微博预测的准确度。

Description

一种基于用户影响力以及内容的微博传播预测方法

技术领域

本发明涉及计算机学科中的数据挖掘，scrapy框架、HTML数据包分析、机器学习、计算机网络和概率论与数理统计等，尤其是一种基于用户影响力以及内容的微博传播预测方法。

背景技术

Scrapy框架是利用python语言开发的一个成熟、快速、高层次的web抓取框架，提供了多种类型的基类爬虫，用来从网页上提取结构化信息。PageRank网页排名技术是一种根据网络之间相互的超链接来计算网页等级的技术，如今这种技术大都用来计算网络结构中节点的重要性。TF-IDF技术是一种信息检索的统计方法，用来评估数据挖掘领域中一个字词对于一个文本集或者一个语料库的重要程度。

微博网络可以被理解为一个独立的平台，使得每个微博用户可以通过浏览、分享、收集有用或有趣的信息建立联系。在微博网络中，大量的微博用户通过关注的方式建立好友关系。并且通过微博将信息共享出去来不断扩大自己的好友交流圈和粉丝团，最终形成海量的复杂的微博网络关系。

快速发展的新浪微博网络为信息的分享交流提供了快速传播的途径，逐渐成为网络上信息传播的一个重要的平台，甚至产生了社交媒体(Social-media)这一新概念。目前研究现状来看，传统的信息传播模式已经有了比较成熟的传播理论，但对于微博网络中的信息传播预测的研究分析还没有得到足够的重视。

发明内容

本发明主要是解决现有技术所存在的技术问题；提供了一种从基础数据爬取、预测因子提取、训练集划分、机器学习模型训练四个方面来实现粉丝转发微博的预测，较好地提升了预测精确度的一种基于用户影响力以及内容的微博传播预测方法。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于用户影响力以及内容的微博传播预测方法，其特征在于，包括：

步骤1、基于scrapy模块创建分布式爬虫，利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息、用户与粉丝之间的转发关系、转发微博进行信息抓取。抓取的信息包括，用户方面：用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量，用户关注；粉丝方面：粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间；

步骤2、基于PageRank模块来计算用户在微博网络中的权威程度，计算公式为：

其中V_i表示用户ID；F(V_i)表示用户的粉丝ID集合；L(V_j)表示用户的关注其他用户数；a为传播阻尼系数，表示该用户随机关注其他用户的概率。其大小影响迭代算法的效果和收敛速度，取值范围(0，1)；从抓取到的用户关系网络结构数据中计算用户PageRank值，进行归一化处理，形成用户权威预测因子。

步骤3、将一天平均分为N个时间段，采用单个时间段粉丝转发微博占粉丝所有抓发微博中百分比的计算方法，计算出粉丝关于N个不同时间段的转发活跃度预测因子。经过实验测试，N在取6的时候有最好的实验效果。

步骤4、采用TF-IDF词语权重技术对微博内容进行重要性分析，计算公式如下：

其中：n_w表示d在微博w中出现的次数；N表示所有微博集合W中包含的微博总数；n_d表示所有微博集合W中包含词语d的微博数量。微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示：tf(w)＝∑_j tf(d_j)。将计算得到的TF-IDF值进行归一化，即提取到的微博重要性预测因子。

步骤5、利用滚雪球的抽样方法将提取到的转发关系数据划分成M折。通过实验测试，M取10折数据划分具有最好的效率。

步骤6、在每一次的抽取的样例中，将已转发微博标记为微博转发训练集，即正向训练集；将未被转发的微博标记为未转发训练集，即负向训练集；利用WEKA平台提供的分类器API，贝叶斯网络训练网络标注特征值依次为，微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子。进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。贝叶斯网络基于公式：

其中，P(B∩A)表示A与B的联合概率，联合概率表示两个事件共同发生的概率；P(B)是B的边缘概率，边缘概率又称先验概率，是B事件发生的概率。在预测错误的先验概率B发生的情况下，找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。

本发明创造性的提出了一种基于用户影响力以及内容的微博传播预测方法，整个方法流程概括如下：

基础数据爬取：根据获得的用户ID，从特定的新浪微博网址上提取用户个人信息，用户之间微博转发关系，用户转发微博的正文内容。

预测因子提取：从提取到的数据中分析得出，用户权威性预测因子，粉丝转发活跃度预测因子，微博内容重要性预测因子，根据这三个预测因子综合对训练集标注。

训练集划分：合理的数据集划分，合理的采样方法，合理的交叉验证将训练集分为微博转发集和微博忽略集可以显著提高预测模型的准确度。

机器学习：利用WEKA平台，采用有监督的贝叶斯网络对训练集训练，直至贝叶斯网络参数收敛。

在上述的一种基于用户影响力以及内容的微博传播预测方法，所述步骤5具体包括：先在未被选取的样例中随机选择一些节点，然后再用简单的宽度优先搜索算法，从选中的用户节点扩展成一个节点范围，这个节点范围就可以被作为一个完整的抽样样例。然后再从为被选取的样例中随机选择一些节点，依次类推。因为网络结构的信息是十分庞大的，所以10次滚雪球抽样基本不会相互覆盖。将已转发微博标记为微博转发训练集，将未转发微博标记为微博忽略训练集。

在上述的一种基于用户影响力以及内容的微博传播预测方法，还包括一个验证贝叶斯模型的步骤，通过步骤1-6得到一个成熟的可用于预测的贝叶斯模型，对于这个模型的，验证贝叶斯模型效果的具体方法是：用8次抽样来训练，用剩下2次抽样来验证分类器效果。反复进行交叉验证，即变换训练样例与验证样例。

因此，本发明具有如下优点：1.该爬虫方法获得原创微博更全面的信息传播过程，包括转发微博，转发用户，用户评论等。2.通过PageRank算法找到信息传播过程中的关键节点，从而获得信息传播的关键路径。3.通过在分类器中加入时间段活跃度因子，可以提高分类器精度。4.使用滚雪球抽样方法，提高训练集抽取速度且不失一般性。5.使用TF-IDF计算微博重要性，提高预测新浪微博特定粉丝转发微博的准确度。

附图说明

图1是本发明中的scrapy框架的工作流程图。

图2是本发明中的PageRank技术概念示意图。

图3是本发明中的TF-IDF技术工作示意图。

图4是本发明中的贝叶斯网络工作示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

一、首先介绍一下本发明的整个方法流程，包括：

步骤1：scrapy程序创建分布式spiders，利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息(http://weibo.cn/attgroup/opening？uid＝id)、用户与粉丝之间的转发关系、转发微博(http://weibo.cn/id/profile？filter＝1&page＝1)进行信息抓取。抓取的信息包括，用户方面：用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量，用户关注；粉丝方面：粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间；

步骤2：利用PageRank技术来计算用户在微博网络中的权威程度，计算公式为：

其中Vi表示用户ID；

F(Vi)表示用户的粉丝ID集合；

L(Vj)表示用户的关注其他用户数；

a为传播阻尼系数，表示该用户随机关注其他用户的概率。其大小影响迭代算法的效果和收敛速度，取值范围(0，1)；

从抓取到的用户关系网络结构数据中计算用户PageRank值，进行归一化处理，形成用户权威预测因子。

步骤3：将一天平均分为6个时间段，采用单个时间段粉丝转发微博占粉丝所有抓发微博中百分比的计算方法，计算出粉丝关于6个不同时间段的转发活跃度预测因子。

步骤4：采用TF-IDF词语权重技术对微博内容进行重要性分析，计算公式如下：

其中：nw表示d在微博w中出现的次数；N表示所有微博集合W中包含的微博总数；nd表示所有微博集合W中包含词语d的微博数量。微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示：tf(w)＝∑_jtf(d_j)。将计算得到的TF-IDF值进行归一化，即提取到的微博重要性预测因子。

步骤5：利用滚雪球的抽样方法将提取到的转发关系数据划分成10折。具体做法为，先在未被选取的样例中随机选择一些节点，然后再用简单的宽度优先搜索算法，从选中的用户节点扩展成一个节点范围，这个节点范围就可以被作为一个完整的抽样样例。然后再从为被选取的样例中随机选择一些节点，依次类推。因为网络结构的信息是十分庞大的，所以10次滚雪球抽样基本不会相互覆盖。

将已转发微博标记为微博转发训练集，将未转发微博标记为微博忽略训练集。

步骤6：在每一次的抽取的样例中，将已转发微博标记为微博转发训练集，即正向训练集；将未被转发的微博标记为未转发训练集，即负向训练集；利用WEKA平台提供的分类器API，贝叶斯网络训练网络标注特征值依次为，微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子。进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。贝叶斯网络是一个简单的条件概率模型，公式可以简单的被表示为：

评估方法是，用8次抽样来训练，用剩下2次抽样来验证分类器效果。反复进行交叉验证，即变换训练样例与验证样例。

二、下面以微博名人高晓松的微博转发预测为例，详细介绍采用上述方法的具体预测流程。

以下环境作为测试平台为例来说明：Intel Core i5-4460@3.20GHz，内存为8GB。在该平台下，对高晓松的一条微博进行转发预测并测试其预测准确率。

图1是本发明中的Scrapy框架工作流程图，本发明采用Windows+Scrapy+Mysql+WEKA综合平台来实现微博转发预测。

首先由Scrapy控制中心启动爬虫，根据步骤1，爬虫向下载器发送Requests请求，下载器从互联网上下载网页资源，交由爬虫解析处理，爬虫从网页数据资源上提取出高晓松的个人信息，高晓松的微博以及高晓松微博的转发关系等，利用物件中间件存放到数据库中。

关于利用PageRank技术计算用户权威值的策略，图2为其概念图。

这个概念图显示出这个算法两个最重要的核心：如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是说PageRank值会相对较高；如果一个PageRank值很高的网页链接到一个其他的网页，那么被连接的网页的PageRank值会相应提高。根据步骤2的公式可以计算出高晓松在新浪微博中的权威度。

关于TF-IDF技术计算微博正文重要性，图3是本发明中步骤4所涉及的微博文本计算模型，通过统计词频TF和逆文档频率IDF可以计算出此条微博正文的热度，从而更好地预测该热度的微博是否更容易被转发。

关于滚雪球采样是指随机抽取一个节点对其实施访问，在从次节点出发收集其他节点的调查数据数据，因为抽取到的转发关系是庞大的。宏观计算浪费计算机资源并且对转发预测的增益很少。故而采用10折滚雪球采样生成微博转发训练集和微博忽略训练集。

关于贝叶斯网络使用，图4是贝叶斯网络的工作原理，在传播过程中，转发预测转换为条件概率模型，高晓松粉丝的粉丝转发预测要基于高晓松粉丝的转发概率，采取合理的转发预测模型，可以显著地提高转发预测的精度。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于用户影响力以及内容的微博传播预测方法，其特征在于，包括：

步骤1、基于scrapy模块创建分布式爬虫，利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息、用户与粉丝之间的转发关系、转发微博进行信息抓取；抓取的信息包括，用户方面：用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量，用户关注；粉丝方面：粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间；

其中V_i表示用户ID；F(V_i)表示用户的粉丝ID集合；L(V_j)表示用户的关注其他用户数；a为传播阻尼系数，表示该用户随机关注其他用户的概率；其大小影响迭代算法的效果和收敛速度，取值范围(0，1)；从抓取到的用户关系网络结构数据中计算用户PageRank值，进行归一化处理，形成用户权威预测因子；

步骤3、将一天平均分为N个时间段，采用单个时间段粉丝转发微博占粉丝所有转发微博中百分比的计算方法，计算出粉丝关于N个不同时间段的粉丝时间段活跃度预测因子；

其中：n_w表示d在微博w中出现的次数；N表示所有微博集合W中包含的微博总数；n_d表示所有微博集合W中包含词语d的微博数量；微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示：tf(w)＝∑_jtf(d_j)；将计算得到的TF-IDF值进行归一化，即提取到的微博重要性预测因子；

步骤5、利用滚雪球的抽样方法将提取到的转发关系数据划分成M折；

步骤6、在每一次的抽取的样例中，将已转发微博标记为微博转发训练集，即正向训练集；将未被转发的微博标记为未转发训练集，即负向训练集；利用WEKA平台提供的分类器API，贝叶斯网络训练网络标注特征值依次为，微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子；进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛；贝叶斯网络基于公式：

其中，P(B∩A)表示A与B的联合概率，联合概率表示两个事件共同发生的概率；P(B)是B的边缘概率，边缘概率又称先验概率，是B事件发生的概率；在预测错误的先验概率B发生的情况下，找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。

2.根据权利要求1所述的一种基于用户影响力以及内容的微博传播预测方法，其特征在于，所述步骤5具体包括：先在未被选取的样例中随机选择一些节点，然后再用简单的宽度优先搜索算法，从选中的用户节点扩展成一个节点范围，这个节点范围就可以被作为一个完整的抽样样例；然后再从未被选取的样例中随机选择一些节点，依次类推；因为网络结构的信息是十分庞大的，所以10次滚雪球抽样基本不会相互覆盖；将已转发微博标记为微博转发训练集，将未转发微博标记为微博忽略训练集。

3.根据权利要求1所述的一种基于用户影响力以及内容的微博传播预测方法，其特征在于，还包括一个验证贝叶斯模型的步骤，通过步骤1-6得到一个成熟的可用于预测的贝叶斯模型，对于这个模型的，验证贝叶斯模型效果的具体方法是：用8次抽样来训练，用剩下2次抽样来验证分类器效果；反复进行交叉验证，即变换训练样例与验证样例。