CN103984701A

CN103984701A - 微博转发量预测模型生成方法及微博转发量预测方法

Info

Publication number: CN103984701A
Application number: CN201410157342.4A
Authority: CN
Inventors: 石川; 陈庆; 刘刚; 吴斌; 王柏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2014-04-16
Filing date: 2014-04-16
Publication date: 2014-08-13

Abstract

本发明实施例公开了微博转发量预测模型生成方法及微博转发量预测方法。微博转发量预测模型生成方法包括：获取训练数据，训练数据包括多条已知转发量的微博；以微博的转发量为依据，将微博分为3个以上转发量类别；提取每条微博的基本特征；建立基本特征与转发量类别之间的多分类模型；针对每一个转发量类别，建立基本特征与微博转发量之间的回归模型。微博转发量预测方法包括：提取待预测微博的基本特征；根据多分类模型及基本特征，判定待预测微博所属的转发量类别；获取转发量类别对应的回归模型；根据回归模型及基本特征，预测待预测微博的转发量。采用本发明的提供的方法特征提取简单且适合在大规模数据中使用。

Description

微博转发量预测模型生成方法及微博转发量预测方法

技术领域

本发明涉及信息技术领域，尤其涉及转发量预测模型生成方法及转发量预测方法。

背景技术

随着网络技术和信息技术的发展，近些年来出现了社交媒体的浪潮。在种类众多的社交媒体中，微博是一种基于用户关系的信息分享，传播和获取的平台。人们可以使用浏览器或者是智能手机即时的发布不多于140字的信息。微博服务获得了世界范围内的广泛欢迎。作为最受欢迎的微博服务，TWITTER在2012年就拥有了5亿用户，这些用户每天发布3.4亿条信息。在中国，2013年3月之前，新浪微博拥有5.03亿注册用户。

在微博中，转发行为是主要的信息传播方式。当一个微博用户发布一条信息，这条信息会被推送给这个用户的粉丝。当这些粉丝看到这条信息时，可以选择转发这条信息，这条信息会被继续推送给这些粉丝的粉丝。通过转发行为，信息在微博网络中持续的传播。因此，转发的次数可以作为一条信息的影响力的重要指标。在微博网络中，预测一条微博的转发次数对于评估微博的影响力和价值有重要现实意义。同时，也有助于控制微博网络中非法信息的传播，例如控制谣言的传播。

现有技术中，对微博转发量的预测通常采用基于SVM的预测模型。该模型中包含五种特征：用户影响力，用户活跃度，兴趣相似度，微博内容重要性和用户亲密程度。然而，该模型中特征的提取较为复杂，无法在数据规模较大的情况下应用。

发明内容

本发明实施例提供了转发量预测模型生成方法及转发量预测方法，以解决现有技术特征的提取较为复杂，无法在数据规模较大的情况下应用的问题。

第一方面，本发明实施例提供了一种转发量预测模型生成方法的方法，该方法包括：获取训练数据，所述训练数据包括多条已知转发量的微博；以所述微博的转发量为依据，将所述微博分为3个以上转发量类别；提取每条所述微博的基本特征；建立所述基本特征与所述转发量类别之间的多分类模型；针对每一个所述转发量类别，建立所述基本特征与微博转发量之间的回归模型。

结合第一方面，在第一方面第一种可能的实现方式中，所述将所述微博分为3个以上转发量类别包括：按照二八分类原则，将所述微博分为3个或4个转发量类别。

结合第一方面或第一方面第一种可能的实现方式，在第一方面第二种可能的实现方式中，所述基本特征包括：微博内容特征与微博发布者特征。

结合第一方面第二种可能的实现方式，在第一方面第三种可能的实现方式中，所述微博发布者特征包括下列特征中的一个或多个：微博发布者的性别，微博发布者的昵称长度，微博发布者的粉丝数量，微博发布者是否为认证用户，微博发布者的认证类型，微博发布者的注册时长，微博发布者关注的用户数量，与微博发布者相互关注的用户数量，微博发布者的兴趣标签数量，微博发布者的微博数量。

结合第一方面第二种可能的实现方式，在第一方面第四种可能的实现方式中，所述微博内容特征包括下列特征中的一个或多个：微博是否包括话题标签，微博中话题标签的数量，微博是否提及其他人，微博提及其他人的数量，微博是否包含链接，微博包含链接的数量，微博是否包含图片，微博的长度，微博的发布日期，微博的发布时间。

结合第一方面、第一方面第一种可能的实现方式、第一方面第二种可能的实现方式、第一方面第三种可能的实现方式或第一方面第四种可能的实现方式，在第一方面第五种可能的实现方式中，所述建立所述基本特征与所述转发量类别之间的多分类模型包括：使用所述基本特征与所述转发量类别对预设的分类模型进行训练，生成所述基本特征与所述转发量类别之间的多分类模型。

结合第一方面第五种可能的实现方式，在第一方面第六种可能的实现方式中，所述预设分类模型为以下其中之一：随机森林模型，决策树模型及朴素贝叶斯模型。

第二方面，本发明实施例提供了一种微博转发量预测方法，所述方法用于使用前述生成方法生成的预测模型预测微博的转发量，所述方法包括：提取所述待预测微博的基本特征；根据所述多分类模型及所述基本特征，判定所述待预测微博所属的转发量类别；获取所述转发量类别对应的回归模型；根据所述回归模型及所述基本特征，预测所述待预测微博的转发量。

本发明实施例中，从上述实施例可以看出，获取训练数据，所述训练数据包括多条已知转发量的微博；以所述微博的转发量为依据，将所述微博分为2个以上转发量类别；提取每条所述微博的基本特征；建立所述基本特征与所述转发量类别之间的多分类模型；针对每一个所述转发量类别，建立所述基本特征与微博转发量之间的回归模型。本发明实施例中所用到的基本特征获取都很方便，适用于数据规模较大的情况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明微博转发量预测模型生成方法一个实施例的流程图；

图2为本发明微博转发量预测方法一个实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，为本发明微博转发量预测模型生成方法一个实施例的流程图。如图1所示该方法包括如下步骤：

步骤101，获取训练数据，所述训练数据包括多条已知转发量的微博。

获取已知转发量的微博时，需要获取转发量已经确定的微博作为训练数据。在真实的微博网络中，一条微博的转发量会随着时间而变化。例如，一条微博刚发布是，它的微博转发量为0。一个小时之后，微博转发量可能会增长。由于微博的转发量会随着时间变得稳定，一条微博发布时间超过30天，它的微博转发量几乎就不会再改变，因此可以认为微博发布时间超过30天后，微博转发量已经确定。因此，在实际使用中可以获取发布超过30天的微博作为训练数据。

由于训练数据量越多，预测结果越精确，但预测模型生成过程及转发量预测过程所消耗的资源及时间也会越大，因此在实际使用中，通常获取数十万条至数百万条已知转发量的微博作为训练数据，这样可以在保证预测结果精确的前提下，减小资源及时间的消耗。

步骤102，根据所述微博的转发量将所述微博分为3个以上转发量类别。

由于真实的微博网络中，大多数的微博转发量都很小，为了只有很小部分的微博的转发量很高。如果将这些转发量相差很远的微博放在一起进行处理，所得的结果必然会有较大的偏差。因此需要首先将根据微博的转发量将微博分为3个以上转发量类别。

由于在真实的微博网络中，微博转发量符合幂律分布，只有一小部分微博发布者有潜力发布转发量大的微博。因此可以根据二八原则选择分类的边界，将已知转发量的微博分为3个以上转发量类别。例如，如果按转发量将微博分为3类，则可将边界值的位置为80%与96%，即，将微博按照转发量从低到高进行排序，然后将转发量较低的80%作为第1类；剩余的20%未分类微博中，转发量较低的80%作为第2类；转发量较高的20%作为第3类。如果按转发量将微博分为4类，则可将边界值的位置为80%、96%与99.6%，即，将微博按照转发量从低到高进行排序，然后将转发量较低的80%作为第1类；剩余的20%未分类微博中，转发量较低的80%作为第2类；剩余4%的未分类微博中，转发量较低的80%作为第3类；剩余的20%作为第4类。同理，也可以将微博按照转发量分为更多的类别。显然，还有很多其他的方法进行分类边界的选择。具体在此就不再赘述。

步骤103，提取每条所述微博的基本特征。

微博的基本特征包括两大类，一类是微博内容特征，一类是微博发布者特征。例如，微博内容特征可以包括下列其中一个或多个：微博是否包括话题标签，微博中话题标签的数量，微博是否提及其他人，微博提及其他人的数量，微博是否包含链接，微博包含链接的数量，微博是否包含图片，微博的长度，微博的发布日期，微博的发布时间等；微博发布者特征可以包括下列其中一个或多个：微博发布者的性别，微博发布者的昵称长度，微博发布者的粉丝数量，微博发布者是否为认证用户，微博发布者的认证类型，微博发布者的注册时长，微博发布者关注的用户数量，与微博发布者相互关注的用户数量，微博发布者的兴趣标签数量，微博发布者的微博数量。

这些特征已被证明对微博转发有一定影响。同时，绝大多数特征都是基本信息，并不需要复杂的计算。例如，在新浪微博中，前述微博内容特征与微博发布者特征都可以从新浪微博API中直接生成。

在此需要说明的是本发明不对步骤102与步骤103的执行顺序进行限定。

步骤104，建立所述基本特征与所述转发量类别之间的多分类模型。

在微博的基本特征与转发量类别都已经确定后，建立所述基本特征与所述转发量类别之间的多分类模型。

在建立多分类模型时，可以选择一个预设分类模型，然后使用已经确定了转发量类别的微博作为训练数据，对该预设分类模型进行训练，通过训练建立所述基本特征与所述转发量类别之间的多分类模型。其中，所述预设分类模型有多种，例如，随机森林模型，决策树模型，逻辑斯蒂回归模型及朴素贝叶斯模型等。

步骤105，针对每一个所述转发量类别，建立所述基本特征与微博转发量之间的回归模型。

在微博的基本特征与转发量类别都已经确定后，针对每一个所述转发量类别，建立该转发量类别中，所述基本特征与微博转发量之间的回归模型。

在建立回归模型时，可以选择一个预设回归模型，然后使用已经确定了转发量类别的微博作为训练数据，对该预设回归模型进行训练。通过训练建立所述基本特征与所述转发量之间的回归模型。其中，预设回归模型有多种，例如，多元线性回归模型，多重感知机模型及M5P模型等。

在此需要说明的是，本发明不对步骤104与步骤105之间的执行顺序进行限定。

从上述实施例可以看出，获取训练数据，所述训练数据包括多条已知转发量的微博；以所述微博的转发量为依据，将所述微博分为2个以上转发量类别；提取每条所述微博的基本特征；建立所述基本特征与所述转发量类别之间的多分类模型；针对每一个所述转发量类别，建立所述基本特征与微博转发量之间的回归模型。本发明实施例，可以为预测微博转发量创造条件。本发明实施例中所用到的基本特征获取都很方便，可以适用于数据规模较大的情况。

参见图2，为本发明微博转发量预测方法一个实施例的流程图。如图2所示该方法包括如下步骤：

步骤201，提取所述待预测微博的基本特征。

在对待预测微博的转发量进行预测时，首先提取所述带预测微博的基本特征，其中所述基本特征与前述微博转发量预测模型生成方法实施中选择使用的基本特征类别一致。

步骤202，根据所述多分类模型及所述基本特征，判定所述待预测微博所属的转发量类别。

由于前述微博转发量预测模型生成方法实施可以生成基本特征与所述转发量类别之间的多分类模型。因此，可以根据所述待预测微博的基本特征判断所述待预测微博所属的转发量类别。例如，可以使用已生成的多分类模型，以所述待预测微博的基本特征为自变量求出对应的因变量，所述因变量即为所述待预测微博所属的转发量类别。

步骤203，获取所述转发量类别对应的回归模型。

由于每一个转发量类别有一个回归模型与之对应，因此，可以根据所述转发量类别获取到与之对应的回归模型。

步骤204，根据所述回归模型及所述基本特征，预测所述待预测微博的转发量。

由于回归模型是基本特征与微博转发量之间的对应关系，因此可以采用回归模型，根据所述回归模型及所述基本特征，预测所述待预测微博的转发量。例如，可以使用已生成的回归模型，以所述待预测微博的基本特征为自变量求出对应的因变量，所述因变量即为所述待预测微博的转发量。

从上述实施例可以看出，提取所述待预测微博的基本特征；根据所述多分类模型及所述基本特征，判定所述待预测微博所属的转发量类别；获取所述转发量类别对应的回归模型；根据所述回归模型及所述基本特征，预测所述待预测微博的转发量。采用本实施例，基本特征获取过程及计算过程都较简单。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种微博转发量预测模型生成方法，其特征在于，所述方法包括：

获取训练数据，所述训练数据包括多条已知转发量的微博；

以所述微博的转发量为依据，将所述微博分为3个以上转发量类别；

提取每条所述微博的基本特征；

建立所述基本特征与所述转发量类别之间的多分类模型；

针对每一个所述转发量类别，建立所述基本特征与微博转发量之间的回归模型。

2.如权利要求1所述的方法，其特征在于，所述将所述微博分为3个以上转发量类别包括：

按照二八分类原则，将所述微博分为3个或4个转发量类别。

3.如权利要求1或2所述的方法，其特征在于，所述基本特征包括：

微博内容特征与微博发布者特征。

4.如权利要求3所述的方法，其特征在于，所述微博发布者特征包括下列特征中的一个或多个：

微博发布者的性别，微博发布者的昵称长度，微博发布者的粉丝数量，微博发布者是否为认证用户，微博发布者的认证类型，微博发布者的注册时长，微博发布者关注的用户数量，与微博发布者相互关注的用户数量，微博发布者的兴趣标签数量，微博发布者的微博数量。

5.如权利要求3或4所述的方法，其特征在于，所述微博内容特征包括下列特征中的一个或多个：

微博是否包括话题标签，微博中话题标签的数量，微博是否提及其他人，微博提及其他人的数量，微博是否包含链接，微博包含链接的数量，微博是否包含图片，微博的长度，微博的发布日期，微博的发布时间。

6.如权利要求1至5任一所述的方法，其特征在于，所述建立所述基本特征与所述转发量类别之间的多分类模型包括：

使用所述训练数据对预设分类模型进行训练，生成所述基本特征与所述转发量类别之间的多分类模型。

7.如权利要求6所述的方法，其特征在于，所述预设分类模型为以下其中之一：

随机森林模型，决策树模型及朴素贝叶斯模型。

8.如权利要求1至7任一所述的方法，其特征在于，所述建立所述基本特征与微博转发量之间的回归模型包括：

使用所述训练数据预设回归模型进行训练，生成所述基本特征与微博转发量之间的回归模型。

9.如权利要求8所述的方法，其特征在于，所述预设回归模型为以下其中之一：

多元线性回归模型，多重感知机模型及M5P模型。

10.一种微博转发量预测方法，其特征在于，所述方法用于使用如权利要求1至9任一所述的方法生成的预测模型预测微博的转发量，所述方法包括：

提取所述待预测微博的基本特征；

根据所述多分类模型及所述基本特征，判定所述待预测微博所属的转发量类别；

获取所述转发量类别对应的回归模型；

根据所述回归模型及所述基本特征，预测所述待预测微博的转发量。