CN105550275B

CN105550275B - 一种微博转发量预测方法

Info

Publication number: CN105550275B
Application number: CN201510909377.3A
Authority: CN
Inventors: 尚明生; 李锴; 张航
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Zhongke Lvzhi Chongqing Technology Co ltd
Priority date: 2015-12-09
Filing date: 2015-12-09
Publication date: 2019-02-26
Anticipated expiration: 2035-12-09
Also published as: CN105550275A

Abstract

本发明提供一种微博转发量预测方法，用于解决现有技术中对微博转发量预测的方法准确性较低的问题，该方法包括：获取训练微博数据和待预测微博数据；根据训练微博的转发量，将训练微博划分为对应的类别；提取训练微博特征，包括转发网络特征、内容特征和时序特征；建立所述微博特征和转发量类别之间的多分类模型；提取待预测微博特征，根据所述的待预测微博特征，基于多分类模型，预测待预测微博的转发量类别。本发明在微博内容特征和时序特征的基础上，加入多种转发网络特征，综合利用三类特征来预测转发量，提高了预测的准确性。

Description

一种微博转发量预测方法

技术领域

本发明属于数据挖掘中的流行趋势预测技术领域，特别涉及一种微博转发量预测方法。

背景技术

微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台。当一个微博用户发布一条信息后，该信息会被推送给该用户的所有粉丝，这些粉丝可以选择是否转发该信息，如果转发，该信息会进一步被推送给这些粉丝的粉丝。通过用户转发，信息可以在微博网络中迅速传播。

自2009年在国内发布以来，微博以其简单、便捷、即时等特点，迅速成为了人们日常生活中获取与分享信息的重要网络平台。截至2014年9月，微博日活跃用户已达到7660万人，月活跃用户达到1.67亿人。用户规模的迅速扩张，带来了发博量的爆发式增长。面对海量微博，及时准确地预测微博最终的转发量，对内容推荐、广告营销以及舆情监控等具有重要意义。

目前微博转发量预测方法主要有两类。一类是事先定义好特征集合(如发布者粉丝数，是否为认证用户，内容长度等)，然后从训练数据中抽取微博的这些特征，用来训练回归模型或分类模型，最后对于待预测微博，同样抽取这些特征，将其输入到回归模型或分类模型中，得到待预测微博最终的转发量或转发量范围。微博的传播依赖于用户的转发，不同的微博传播过程对应着不同的转发网络，因此，转发网络特征对于预测微博转发量有着重要作用。然而此类方法多采用内容特征和时序特征，没有充分利用转发网络特征，预测准确性较低。另一类是根据事先定义好的特征集合，从历史微博中找到与待预测微博最相似的k条微博，利用这k条微博最终的转发量来计算待预测微博最终的转发量(如平均或用相似度作为权重的加权平均等)。这类方法的主要缺点在于需要对全部历史微博进行搜索，且在实际应用中，随着时间的推移，历史微博会越来越多，因此这类方法效率会越来越低。

背景技术1

申请号为201410157342.4的中国专利针对现有技术特征的提取较为复杂，无法在数据规模较大的情况下应用的问题，公开了一种微博转发量预测模型生成方法及微博转发量预测方法。其中微博转发量预测模型生成方法如图1所示，其步骤如下：获取训练数据，训练数据包括多条已知转发量的微博；以微博的转发量为依据，将微博分为3个以上转发量类别；提取每条微博的基本特征；建立基本特征与转发量类别之间的多分类模型；针对每一个转发量类别，建立基本特征与微博转发量之间的回归模型。微博转发量预测方法如图2所示，其步骤如下：提取待预测微博的基本特征；根据多分类模型及基本特征，判定待预测微博所属的转发量类别；获取转发量类别对应的回归模型；根据回归模型及基本特征，预测待预测微博的转发量。此专利提出的方法在提取微博的基本特征时，只考虑了微博内容特征和微博发布者特征。然而，很多内容特征和发布者特征相似的微博，其最终转发量也有较大差异。因此，仅依靠内容特征和微博发布者特征对微博转发量进行预测准确性较低。

背景技术2

申请号为201510284821.7的中国专利现有技术针对微博传播趋势预测的方法准确性较低的问题，公开了一种微博传播趋势预测方法及装置。该专利申请提出的预测微博转发量的方法如图3所示，其步骤如下：获取待预测微博的基本属性特征以及传播过程特征；计算待预测微博与训练数据的基本属性特征、传播过程特征的相似度，并对待预测微博数据进行分类，得到待预测微博所属的传播过程类别，传播过程类别由训练数据的传播过程特征相似度聚类得到；为分类后的待预测微博选择对应的回归模型，对待预测微博的传播趋势进行预测，回归模型为预先根据各类训练数据建立的回归模型。此专利申请的技术方案在提出的转发量预测方法在提取微博特征时，考虑了微博的基本特征和传播过程的数量特征。其中，基本特征多与微博内容相关，数量特征多与时序相关。然而，很多内容特征和时序特征相似的微博，其最终转发量也有较大差异。因此，仅依靠这两类特征对微博转发量进行预测准确性较低。

背景技术3

申请号为201110363961.5的中国专利现有技术针对缺乏有效的预测用户在信息传播中的行为以及微博群体响应的问题，公开了一种基于多元特征的微博信息传播行为预测方法及系统。该方法包括微博网络数据预处理步骤，获取网络数据，并对相关数据进行预处理；微博网络预测模型建立步骤，根据经预处理获得的数据，建立相应的预测模型；微博网络预测步骤，基于所述预测模型预测用户行为趋势。其中，微博网络数据预处理步骤包括计算每个原帖下，各用户的内容特征、网络特征及时间特征。网络特征共6个，原帖T作者的好友数特征f9，原帖T作者的追随者数特征f10，原帖T作者与用户u的共同好友数特征f11，T作者与用户u的共同追随者数特征f12，T作者与用户u的共同引用数特征f13，T作者与用户u的共同转帖数特征f14。此专利申请的技术方案给出了一种预测新话题下用户的传播行为的预测模型，但是不能解决预测微博累积转发量的问题。

发明内容

本发明的目的就是为了克服上述背景技术的不足，提供一种微博转发量预测方法，提高了微博转发量预测的准确性。

本发明所涉及的微博转发量预测方法，其步骤如下：

步骤1获取训练数据和待预测微博数据

根据微博用户id和他们之间的关注关系可以构造一个用户关注网络G，构造方法为：若用户A关注了用户B，则在G中构造一条由有向边AIB；将用户数据按比例划分为训练数据和待预测数据，训练数据包括多条已知发布后t_r时刻转发量的原始微博以及其发布后到t_i时刻之间的所有转发微博，将微博发布48小时后的转发量视为其最终转发量，利用其发布后前1小时内的转发信息预测其最终转发量，即将t_r和t_i分别设为48小时和1小时，预测集中的待预测微博包括原始微博以及其发布后到t_i时刻之间的所有转发微博；

步骤2对训练集微博的转发量进行分类

根据转发量阈值Φ，将转发量划分为[0,Φ/2)，[Φ/2,Φ)，[Φ,2Φ)，[2Φ,4Φ)，[4Φ,+∞)五个范围；将训练微博在t_r时刻的转发量按照其所属范围分为五个类别，转发量阈值Φ和划分范围可以根据实际应用另作选取；

步骤3对训练数据中的微博w_i，提取微博特征，具体步骤如下：

1)构造转发网络针对训练数据中的微博w_i，根据其发布后到t_i时刻之间的转发微博和全局网络G构造转发网络RG_i；构造方法为：提取原始微博和其转发微博的作者，构成用户集合U，对任意用户A,B∈U，若在G中存在一条由A指向B的有向边，则在RG_i中构造一条由A指向B的有向边；

2)提取微博内容特征内容特征包括原始微博文本长度；原始微博是否包含链接，如果包含连接，其特征值为1，否则为0；原始微博是否包含图片；原始微博提及他人的数量；

3)提取微博时序特征时序特征包括原始微博转发量增量，即原始微博发布后到t_i时刻之间每10分钟的转发量增量，该特征为多维向量；

4)提取微博转发网络特征，具体步骤如下：

(1)计算微博w_i转发网络RG_i中用户数；

(2)计算微博w_i转发网络RG_i中原作者u_i的PageRank值

PageRank是一种迭代的排序算法，最初用于网页排序，后来也常用于网络节点的重要性排序，其计算方法如下：

对于微博网络，上式中的n表示网络中的用户数，d(0＜d≤1)为阻尼因子，u_i表示用户i，M(i)表示用户i的粉丝集合，L(j)表示用户j所关注的用户集合，PR(u_i)表示用户i的PageRank值；初始时，给予每个用户一个随机的PageRank值(非0)，经过不断的迭代计算，每个用户的PageRank值会趋于稳定，最终达到收敛状态；

(3)计算微博w_i转发网络RG_i中原作者u_i的PageRank最大值

在全局网络G中用PageRank算法得到每个用户的PageRank值，然后计算转发网络RG_i中所有用户的PageRank最大值；

(4)计算微博w_i转发网络RG_i中所有用户节点的PageRank平均值

在全局网络G中用PageRank算法得到每个用户的PageRank值，然后计算转发网络RG_i中所有用户的PageRank平均值；

(5)计算微博w_i转发网络RG_i中原作者u_i的KED值

首先在全局网络G中用KED算法计算每个用户的KED值，然后计算转发网络RG_i中原作者u_i的KED值。KED是一种衡量网络节点影响力的指标；对于节点i，其KED值的计算方式如下：

f_i＝k_iE_iD_i

其中：

上式中，k_i为节点i的度，在微博网络中，即为用户i的粉丝数，Γ_i为节点i的邻居节点集合，在微博网络中，即为用户i的粉丝集合；

(6)计算微博w_i转发网络RG_i中所有用户节点的KED最大值

在全局网络G中用KED算法计算每个用户的KED值，然后计算转发网络RG_i中用户的KED最大值；

(7)计算微博w_i转发网络RG_i中所有用户节点的KED平均值

在全局网络G中用KED算法计算每个用户的KED值，然后计算转发网络RG_i中用户的KED平均值。

(8)计算微博w_i转发网络RG_i中属于RichClub的用户比例

将全局网络G中粉丝数排名前10％的用户集合定义为RichClub，计算转发网络RG_i中属于RichClub的用户的比例；

(9)计算微博w_i转发网络RG_i中所有用户节点的K-shell值分布

K-shell是一种划分网络节点重要性的算法，算法步骤为：先去除网络中度等于1的所有节点以及其连边，若剩下的节点里面，仍有度等于1的节点，则重复上述操作，直至所剩节点的度都大于1，把这些去除的节点的K-shell值记为1；然后依次去除度小于或等于k的节点及其连边(k为整数，k≥2)，直到所有节点都有对应的K-shell值为止；

在全局网络G中，用K-shell算法得到每个用户的K-shell值，取其中最大的10个K-shell值，计算转发网络RG_i中用户在这些K-shell值中的分布比例；该特征为10维向量；

步骤4建立多分类模型

在微博特征与转发量类别都已经确定后，选择一个预设分类模型如支持向量机模型，然后用已经确定了转发量类别的微博作为训练数据，对该模型进行训练，通过训练建立微博特征与转发量类别之间的多分类模型；

步骤5提取待预测微博的特征

提取待预测微博的特征的步骤与步骤3中的具体过程一致；

步骤6预测待预测微博的转发量类别

由于步骤4可以生成微博特征与转发量类别之间的多分类模型，因此，可以根据待预测微博的特征判断其转发量所属类别，例如，可以使用已生成的多分类模型，以待预测微博的特征为自变量求出对应的因变量，所述因变量即为待预测微博转发量所属类别。

本发明的微博转发量预测方法，基于不同的微博传播过程具有不同的转发网络的特点，充分挖掘了微博的转发网络特征，并将其与传统的内容特征和时序特征结合，提高了微博转发量预测的准确性。

附图说明

图1为背景技术1中微博转发量预测模型生成方法流程图；

图2为背景技术1中微博转发量预测方法流程图；

图3为背景技术2中微博转发量预测方法流程图；

图4为本发明的微博转发量预测方法流程图；

图5为本发明的提取微博特征的方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例一

本实施例所涉及的微博转发量预测方法，其流程如图4所示，具体步骤如下：

步骤1，获取训练数据和待预测微博数据。

获取用户数据，构造用户关注网络。微博用户数据包括微博用户id和用户之间的关注关系。根据微博用户id和他们之间的关注关系可以构造一个用户关注网络G，构造方法为：若用户A关注了用户B，则在G中构造一条由有向边A→B。将用户数据按比例划分为训练数据和待预测数据。训练数据包括多条已知发布后t_r时刻转发量的原始微博以及其发布后到t_i时刻之间的所有转发微博，其中0＜t_i＜t_r。由于大多数微博在其发布48小时后就很少再被转发。因此，本发明将微博发布48小时后的转发量视为其最终转发量，利用其发布后前1小时内的转发信息预测其最终转发量，即将t_r和t_i分别设为48小时和1小时。t_r和t_i可以根据实际应用另作选取。预测集中的待预测微博包括原始微博以及其发布后到t_i时刻之间的所有转发微博。

步骤2，对训练集微博的转发量进行分类。根据转发量阈值Φ，将转发量划分为[0,Φ/2)，[Φ/2,Φ)，[Φ,2Φ)，[2Φ,4Φ)，[4Φ,+∞)五个范围。将训练微博在t_r时刻的转发量按照其所属范围分为五个类别。转发量阈值Φ和划分范围可以根据实际应用另作选取。

步骤3，对训练数据中的微博w_i，提取微博特征，如图5所示，具体步骤如下：

步骤3.1，构造转发网络。针对训练数据中的微博w_i，根据其发布后到t_i时刻之间的转发微博和全局网络G构造转发网络RG_i。构造方法为：提取原始微博和其转发微博的作者，构成用户集合U，对任意用户A,B∈U，若在G中存在一条由A指向B的有向边，则在RG_i中构造一条由A指向B的有向边。

步骤3.2，提取微博内容特征。内容特征，包括原始微博文本长度；原始微博是否包含链接(如果包含连接，其特征值为1，否则为0)；原始微博是否包含图片；原始微博提及他人的数量；

步骤3.3，提取微博时序特征。时序特征包括原始微博转发量增量，即原始微博发布后到t_i时刻之间每10分钟的转发量增量。该特征为多维向量。

步骤3.4，提取微博转发网络特征，具体步骤如下：

步骤3.4.1，计算微博w_i转发网络RG_i中用户数。

步骤3.4.2，计算微博w_i转发网络RG_i中原作者u_i的PageRank值。PageRank是一种迭代的排序算法，最初用于网页排序，后来也常用于网络节点的重要性排序，其计算方法如下：

对于微博网络，上式中的n表示网络中的用户数，d(0＜d≤1)为阻尼因子，u_i表示用户i，M(i)表示用户i的粉丝集合，L(j)表示用户j所关注的用户集合，PR(u_i)表示用户i的PageRank值。初始时，给予每个用户一个随机的PageRank值(非0)，经过不断的迭代计算，每个用户的PageRank值会趋于稳定，最终达到收敛状态。

步骤3.4.3，计算微博w_i转发网络RG_i中原作者u_i的PageRank最大值。在全局网络G中用PageRank算法得到每个用户的PageRank值，然后计算转发网络RG_i中所有用户的PageRank最大值。

步骤3.4.4，计算微博w_i转发网络RG_i中所有用户节点的PageRank平均值。在全局网络G中用PageRank算法得到每个用户的PageRank值，然后计算转发网络RG_i中所有用户的PageRank平均值。

步骤3.4.5，计算微博w_i转发网络RG_i中原作者u_i的KED值。首先在全局网络G中用KED算法计算每个用户的KED值，然后计算转发网络RG_i中原作者u_i的KED值。KED是一种衡量网络节点影响力的指标。对于节点i，其KED值的计算方式如下：

f_i＝k_iE_iD_i

其中：

上式中，k_i为节点i的度(在微博网络中，即为用户i的粉丝数)，Γ_i为节点i的邻居节点集合(在微博网络中，即为用户i的粉丝集合)。

步骤3.4.6，计算微博w_i转发网络RG_i中所有用户节点的KED最大值。在全局网络G中用KED算法计算每个用户的KED值，然后计算转发网络RG_i中用户的KED最大值。

步骤3.4.7，计算微博w_i转发网络RG_i中所有用户节点的KED平均值。在全局网络G中用KED算法计算每个用户的KED值，然后计算转发网络RG_i中用户的KED平均值。

步骤3.4.8，计算微博w_i转发网络RG_i中属于RichClub的用户比例。将全局网络G中粉丝数排名前10％的用户集合定义为RichClub，计算转发网络RG_i中属于RichClub的用户的比例。

步骤3.4.9，计算微博w_i转发网络RG_i中所有用户节点的K-shell值分布。K-shell是一种划分网络节点重要性的算法。算法步骤为：先去除网络中度等于1的所有节点以及其连边。若剩下的节点里面，仍有度等于1的节点，则重复上述操作，直至所剩节点的度都大于1，把这些去除的节点的K-shell值记为1。然后依次去除度小于或等于k的节点及其连边(k为整数，k≥2)，直到所有节点都有对应的K-shell值为止。

在全局网络G中，用K-shell算法得到每个用户的K-shell值，取其中最大的10个K-shell值，计算转发网络RG_i中用户在这些K-shell值中的分布比例。该特征为10维向量。

步骤4，建立多分类模型。在微博特征与转发量类别都已经确定后，选择一个预设分类模型如支持向量机模型，然后用已经确定了转发量类别的微博作为训练数据，对该模型进行训练，通过训练建立微博特征与转发量类别之间的多分类模型。预设分类模型有多种，例如随机森林模型和支持向量机模型等。

步骤5，提取待预测微博的特征。提取待预测微博的特征的步骤与步骤3中的具体过程一致。

步骤6，预测待预测微博的转发量类别。由于步骤4可以生成微博特征与转发量类别之间的多分类模型，因此，可以根据待预测微博的特征判断其转发量所属类别。例如，可以使用已生成的多分类模型，以待预测微博的特征为自变量求出对应的因变量，所述因变量即为待预测微博转发量所属类别。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，包括采用其他转发量范围划分方法、采用其他多分类模型或者选取数值或阈值上的不同而完成本发明均应包含在本发明的保护范围之内。

Claims

1.一种微博转发量预测方法，其特征是步骤如下：

步骤1 获取训练数据和待预测微博数据

根据微博用户id和他们之间的关注关系可以构造一个用户关注网络G，构造方法为：若用户A关注了用户B，则在G中构造一条有向边A->B；将用户数据按比例划分为训练数据和待预测数据，训练数据包括多条已知发布后t_r时刻转发量的原始微博以及其发布后到t_i时刻之间的所有转发微博，将微博发布48小时后的转发量视为其最终转发量，利用其发布后前1小时内的转发信息预测其最终转发量，即将t_r和t_i分别设为48小时和1小时，预测集中的待预测微博包括原始微博以及其发布后到t_i时刻之间的所有转发微博；

步骤2 对训练集微博的转发量进行分类

步骤3 对训练数据中的微博w_i，提取微博特征，具体步骤如下：

1)构造转发网络；针对训练数据中的微博w_i，根据其发布后到t_i时刻之间的转发微博和用户关注网络G构造转发网络RG_i；构造方法为：提取原始微博和其转发微博的作者，构成用户集合U，对任意用户A,B∈U，若在G中存在一条由A指向B的有向边，则在RG_i中构造一条由A指向B的有向边；

2)提取微博内容特征；内容特征包括原始微博文本长度；原始微博是否包含链接，如果包含连接，其特征值为1，否则为0；原始微博是否包含图片，包含图片，其特征为1，否则为0；原始微博提及他人的数量；

3)提取微博时序特征；时序特征包括原始微博转发量增量，即原始微博发布后到t_i时刻之间每10分钟的转发量增量，该特征为多维向量；

4)提取微博转发网络特征，具体步骤如下：

(1)计算微博w_i转发网络RG_i中用户数；

(2)计算微博w_i转发网络RG_i中原作者u_i的PageRank值

对于微博网络，上式中的n表示网络中的用户数，d为阻尼因子，0＜d≤1，u_i表示原作者i，u_j表示原作者j，M(i)表示原作者i的粉丝集合，L(j)表示原作者j所关注的用户集合，PR(u_i)表示原作者i的PageRank值；初始时，给予每个用户一个随机的PageRank值，PageRank值非0，经过不断的迭代计算，每个用户的PageRank值会趋于稳定，最终达到收敛状态；

(3)计算微博w_i转发网络RG_i中原作者u_i的PageRank最大值

在用户关注网络G中用PageRank算法得到每个用户的PageRank值，然后计算转发网络RG_i中所有用户的PageRank最大值；

(4)计算微博w_i转发网络RG_i中所有用户节点的PageRank平均值

在用户关注网络G中用PageRank算法得到每个用户的PageRank值，然后计算转发网络RG_i中所有用户的PageRank平均值；

(5)计算微博w_i转发网络RG_i中原作者u_i的KED值

首先在用户关注网络G中用KED算法计算每个用户的KED值，然后计算转发网络RG_i中原作者u_i的KED值；KED是一种衡量网络节点影响力的指标；对于节点i，其KED值的计算方式如下：

f_i＝k_iE_iD_i

其中：

上式中，k_i为节点i的度，在微博网络中，即为原作者i的粉丝数；k_j为节点j的度，在微博网络中，即为原作者j的粉丝数；k_l为节点l的度，在微博网络中，即为原作者l的粉丝数；Γ_i为节点i的邻居节点集合，在微博网络中，即为原作者i的粉丝集合；Γ_l为节点l的邻居节点集合，在微博网络中，即为原作者l的粉丝集合；

(6)计算微博w_i转发网络RG_i中所有用户节点的KED最大值；

在用户关注网络G中用KED算法计算每个用户的KED值，然后计算转发网络RG_i中用户的KED最大值；

(7)计算微博w_i转发网络RG_i中所有用户节点的KED平均值；

在用户关注网络G中用KED算法计算每个用户的KED值，然后计算转发网络RG_i中用户的KED平均值；

(8)计算微博w_i转发网络RG_i中属于RichClub的用户比例；

将用户关注网络G中粉丝数排名前10％的用户集合定义为RichClub，计算转发网络RG_i中属于RichClub的用户的比例；

(9)计算微博w_i转发网络RG_i中所有用户节点的K-shell值分布；

K-shell是一种划分网络节点重要性的算法，算法步骤为：先去除网络中度等于1的所有节点以及其连边，若剩下的节点里面，仍有度等于1的节点，则重复上述操作，直至所剩节点的度都大于1，把这些去除的节点的K-shell值记为1；然后依次去除度小于或等于k的节点及其连边，k为整数，k≥2，直到所有节点都有对应的K-shell值为止；

在用户关注网络G中，用K-shell算法得到每个用户的K-shell值，取其中最大的10个K-shell值，计算转发网络RG_i中用户在这些K-shell值中的分布比例；该特征为10维向量；

步骤4 建立多分类模型

在微博特征与转发量类别都已经确定后，选择一个预设分类模型，然后用已经确定了转发量类别的微博作为训练数据，对该模型进行训练，通过训练建立微博特征与转发量类别之间的多分类模型；

步骤5 提取待预测微博的特征

提取待预测微博的特征的步骤与步骤3中的具体过程一致；

步骤6 预测待预测微博的转发量类别

由于步骤4可以生成微博特征与转发量类别之间的多分类模型，因此，可以根据待预测微博的特征判断其转发量所属类别，使用已生成的多分类模型，以待预测微博的特征为自变量求出对应的因变量，所述因变量即为待预测微博转发量所属类别。

2.根据权利要求1所述的一种微博转发量预测方法，其特征在于，所述步骤4建立多分类模型中预设分类模型选用支持向量机模型。