CN109492776A

CN109492776A - 基于主动学习的微博流行度预测方法

Info

Publication number: CN109492776A
Application number: CN201811393919.6A
Authority: CN
Inventors: 杨静; 徐美婷; 张健沛; 王勇; 尚凡淑
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-03-19
Anticipated expiration: 2038-11-21
Also published as: CN109492776B

Abstract

本发明提供一种基于主动学习的微博流行度预测方法，包括如下步骤：利用新浪微博API爬取相关微博数据集；利用K‑Means算法将未标记数据集初始化训练集L；对训练数据进行特征提取得到特征向量；根据提取的特征向量训练基于支持向量机的主动学习的改进的模型，根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本；将筛选出的样本称为信息向量，交给专家标记；将标记的训练数据加入到初始训练集L中，循环此过程直到模型的性能达到稳定状态为止得到微博流行度预测模型。本发明减少了冗余性问题并降低了异常值问题，减少了训练样本的标记数量，同时也使得在训练数据少的情况下也得到很好的预测效果。

Description

基于主动学习的微博流行度预测方法

技术领域

本发明涉及一种预测方法，尤其涉及一种基于主动学习的微博流行度预测方法，属于机器学习领域。

背景技术

微博是社交网络的典型代表，是人们可以获取、分享和交流信息的途径，微博的出现，正在悄然改变者现代人们的生活。微博吸引大量的用户和大众媒体平台的关注和使用，微博用户之间通过转发别人的微博，与自己的粉丝分享信息，该用户的粉丝也可以通过继续转发微博继续分享信息，这也使得消息通过微博平台可以大量并且迅速传播出去，实现信息共享。通过微博平台，人们可以与离自己生活圈子比较遥远的并且自己感兴趣的人进行社交，可以对自己喜欢或者不喜欢的人或事物发表自己的观点等等。这些海量的用户和数据蕴藏着大量丰富的信息，如何有效利用这些数据进行预测微博流行度是一个非常重要的研究方向。

随着社交网络的迅速发展，尤其互联网新媒体的诞生，更是极大促进了信息的广泛传播，而微博的兴起，更是推动了自媒体时代的发展。消息可以通过微博平台迅速传播，尽早的对微博流行度进行预测既可以对消息进行实时推送，防止热点滞后的问题，也可以及时遏制微博中谣言的传播，能够及时有效的控制一些虚假的信息的网络传播并做出正确的舆论指引，以免造成严重的社会影响。尽早的预测微博流行度成于舆情预警和控制的重要部分。

目前微博流行度的预测方法主要分为以下几种：(1)基于时间序列的方法。该方法研究微博流行度随着时间的增长而发生变化的规律，通过分析时间序列进行模型的建立，然后利用所得模型对微博流行度进行预测。(2)基于传染病模型的方法。传染病模型是生物学领域的研究方法，它将微博用户划分为易感状态S、感染状态I和恢复状态R三种，其中易感状态可以理解为在微博传播网络中从未得到微博信息的用户，感染状态为得到微博信息以一定的概率转发并分享信息的用户，恢复态则为得到微博信息但是不会进行转发分享的用户。此方法的主要通过将用户按照三种状态进行分类，然后数学模型进行建模描述每个状态中的用户数量的演化。(3)基于机器学习方法的分类或回归模型预测微博的流行度。此类方法利用已经标注好的微博数据作为训练数据集，然后通过研究影响微博流行度的各种因素训练机器学习模型，从而对微博进行流行度的预测。(4)基于时间序列的方法。但此方法没有考虑影响微博流行度的各种因素，而基于传染病模型的建立以多个理想化条件为基础，与真实的微博传播有差异。虽然基于机器学习的方法得到了更多学者的关注和研究。然而传统的机器学习方法也有很大的局限性，它需要大量的人工标注的数据集进行模型训练，这就需要投入的大量的成本、时间和人力资源来获得标注的数据集。随着互联网迅速发展，在网上很容易通过各种途径获得大量未标注的数据集，成本低廉且方便快捷，这些大量未标记的数据中也同样蕴含着有价值的信息。

发明内容

本发明的目的是为了减少样本标注数量、降低标注成本而提供一种基于主动学习的微博流行度预测方法。

本发明的目的是这样实现的：

一种基于主动学习的微博流行度预测，包括如下步骤：

(1)利用新浪微博API采用关键词搜索的方法爬取相关微博数据集；

(2)利用K-Means算法将未标记数据集进行聚类预处理操作，从而初始化训练集L；

(3)对训练数据进行特征提取，提取用户特征、微博特征和传播特征，最后得到特征向量；

(4)根据提取的特征向量训练基于支持向量机的主动学习的改进的模型，根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本；

(5)将筛选出的样本称为信息向量，交给专家进行标记；

(6)将新标记的训练数据加入到初始训练集L中去，循环此过程，直到满足模型的性能达到稳定状态为止；

(7)利用训练好的基于主动学习的微博流行度预测模型对训练集进行预测。

本发明还包括这样一些特征：

1、所述步骤(4)中多样性及代表性的计算模型如下：

DR(x)＝d(x)*(r(x))^β

其中，d(x)代表x的多样性，r(x)表示x的代表性，其中β控制代表性的相对重要性，如果β为0，相当于仅考虑多样性，将β设为1，表示考虑多样性和代表性同等重要；

对于一个未标注样本可以通过距离来评估它的多样性：

其中，dist(x^*,x)是距离函数，L、U和Q分别是标注数据集、未标注数据集和查询样例；每次查询都是批量查询，本文将批量查询的大小设为K，通过余弦相似度计算上式dist(x^*,x)；

代表性采用基于k近邻方法计算，公式如下：

其中，表示一个未标注样本的k近邻的集合，x^*∈V，sim(x^*,x)是一个相似度函数，V为不确定性的样本集；

2、所述步骤(4)中不确定性计算方法如下：

首先根据初始样本训练集，得到SVM多分类模型，对于SVM分类器来说，查询策略使用的是距离SVM超平面越近的样本，置信度越低，不确定性也就越大；

x_q＝min{d(x_i)|x_i∈U}

其中，d(x_i)表示样本x_i到当前分类超平面的距离，U表示未标注数据集；U是不确定性最大的样本，考虑将处于超平面两侧间隔边界中的未标注样本中选取3K个最具有不确定性的样本，将选取的这些样本用样本集V表示，其中K为类别数量；

3、所述步骤(3)中用户特征包括：粉丝数、关注数、微博总数、认证状态；微博特征包含：是否包含标签、是否有提及、微博长度、实体词个数以及微博发布时间；转播特征包括：微博一小时内被转发数、一小时内的转发深度、一小时内的转发宽度、一小时内转发用户的粉丝数之和以及一小时内转发的认证用户数；

4、所述步骤(1)中需要同时获得用户所发布和转发的所有微博信息、用户信息以及与其相关的关注关系信息；

5、在所述步骤(2)中假设训练数据集为D＝{x₁,x₂,x₃,x₄,...x_m}，K-Means的目标函数为E，公式如下：

通过最小化平方误差E进行聚类，u_i是簇c_i的均值向量，k值设置为未标记数据集中的类别数；

6、在所述步骤(4)中多分类模型方法如下：

通过用二分类SVM的输出来估计后验概率：

p_i＝Prob(w_i|x)；i＝1,...M

通过成对耦合法作为一对一决策的规则，从而实现基于SVM的多分类器，假设样本中一共有Y个类，则一对一决策将会生成Y(Y-1)/2个两两对应的二分类器，通过该法则能够得到最终每个类的概率p_i。

与现有技术相比，本发明的有益效果是：

(1)通过研究微博发布一小时之后进而预测微博的最终流行度，充分考虑了信息的实时性影响，解决了微博热点滞后性问题以及能够更加有效地进行舆情预警及控制工作。

(2)针对传统机器学习方法研究微博流行度预测需要大量的人工标注的数据集进行模型训练，需要投入的大量的成本、时间和人力资源来获得标注的数据集的局限性，提出了基于SVM的主动学习的改进算法，不仅考虑查询样本的不确定性，还考虑多样性、代表性，解决了样本的冗余性问题并降低了异常值的可能性，使得主动学习查询的样本更佳，进行微博流行度预测时，降低训练数据的标注数量，节约成本，同时也使得本发明在训练数据少的情况下也得到很好的预测效果。

(3)本发明引入主动学习机制并结合SVM模型，构建基于主动学习的微博流行度预测方法，此模型通过使用K-Means方法初始化训练集，解决了采用随机策略引起的初始分类器准确性不稳定的问题，同时不仅考虑查询样本的不确定性还结合样本多样性和代表性，减少了冗余性问题并降低了异常值问题，也减少了训练样本的标记数量，同时也使得本发明在训练数据少的情况下也得到很好的预测效果。

附图说明

图1是本发明的算法框架示意图；

图2是本发明的查询样本数量统计的对比实验图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

本发明提出的基于主动学习的微博流行度预测风方法包括以下步骤：

步骤S1：利用新浪微博API采用关键词搜索的方法爬取相关微博数据集；

步骤S2：利用K-Means算法将未标记数据集进行聚类预处理操作，从而初始化训练集L；

步骤S3：对训练数据进行特征提取，提取用户特征、微博特征和传播特征，最后得到特征向量；

步骤S4：根据提取的特征向量训练基于支持向量机的主动学习的改进的模型，根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本，从而减少样本的冗余性，降低异常值的可能性；

步骤S5：将筛选出的样本称为信息向量，将其交给专家进行标记；

步骤S6：将新标记的训练数据加入到初始训练集L中去，循环此过程，直到模型的性能达到稳定状态为止；

步骤S7：利用训练好的基于主动学习的微博流行度预测模型对训练集进行预测；

所述步骤S1中，通过新浪微博API为微博数据的爬取提供了有力途径，采用关键词搜索的方法来获取事件相关微博数据，需要同时获得用户所发布和转发的所有微博信息、用户信息以及与其相关的关注关系信息。

所述步骤S2中，假设训练数据集为D＝{x₁,x₂,x₃,x₄...,x_m}，K-Means的目标函数为E，公式如下：

通过最小化平方误差E进行聚类，在一定程度上，E越小，则簇内样本相似度越高。u_i是簇c_i的均值向量。K-Means算法适用于对未标记的数据集进行聚类，该算法简单，且容易实现，而且本文将k值可以设置为未标记数据集中的类别数。

所述步骤S3中的特征提取主要是提取影响微博流行度预测的用户特征、微博特征以及传播特征。

其中，用户特征包括：粉丝数、关注数、微博总数、认证状态。微博特征包含：是否包含标签、是否有提及、微博长度、实体词个数以及微博发布时间。转播特征包括：微博一小时内被转发数、一小时内的转发深度、一小时内的转发宽度、一小时内转发用户的粉丝数之和以及一小时内转发的认证用户数。其中一些特征是直接从元数据中得到的，还有一些需要进一步计算得到。

进一步的，微博实体词个数是通过中国科学院计算技术研究所研制的ICTCLAS软件，对微博内容进行分词和命名实体识别，最后统计数实体词的个数。

进一步的，需要根据获取的一小时转发的相关数据构建微博转发树，得到转发数的深度、宽度。分别统计一小时转发的用户的粉丝数、用户认证数和一小时的转发数量。

所述步骤S4中多分类SVM模型方法如下：

通过用二分类SVM的输出来估计后验概率。

p_i＝Prob(w_i|x)；i＝1,...M

通过成对耦合法作为一对一决策的规则，从而实现基于SVM的多分类器，假设样本中一共有Y个类，则一对一决策将会生成Y(Y-1)/2个两两对应的二分类器。通过该法则能够得到最终每个类的概率p_i。

进一步地，不确定性计算方法如下：

该算法中用U表示未标注数据集，用L表示已经标注的数据集，用Q表示查询出的样本集。首先根据初始样本训练集，得到SVM多分类模型。对于SVM分类器来说，查询策略使用的是距离SVM超平面越近的样本，置信度越低，不确定性也就越大。

x_q＝min{d(x_i)|x_i∈U}

其中，d(x_i)表示样本x_i到当前分类超平面的距离，U表示当前整个未标注数据集。这样的样本被认为是不确定性最大的样本。本文考虑将处于超平面两侧间隔边界中的未标注样本中选取3K个最具有不确定性的样本，将选取的这些样本用样本集V表示，其中K为类别数量。

进一步地，多样性及代表性的计算方法如下：

样本的多样性和代表性计算模型：

DR(x)＝d(x)*(r(x))^β

其中，d(x)代表x的多样性，r(x)表示x的代表性，其中，β控制代表性的相对重要性，如果β为0，相当于仅考虑多样性。将β设为1，表示考虑多样性和代表性同等重要。

对于一个未标注样本可以通过距离来评估它的多样性。一个通用的方法就是计算与上述U和Q的最小距离。

其中，dist(x^*,x)是距离函数，L、U和Q分别是标注数据集，未标注数据集，和以前选择的查询样例。需要注意的是，每次查询都是批量查询，本文将批量查询的大小设为K。通过余弦相似度计算上式dist(x^*,x)。

代表性采用基于k近邻方法计算，公式如下：

其中，表示一个未标注样本的k近邻的集合，x^*∈V，sim(x^*,x)是一个相似度函数。

所述步骤S5将S4中通过计算公式筛选出的样本交给专家进行标记；

所述步骤S6更新数据集，将S5中由专家标记的数据加入到初始训练集L中去，循环此过程，直到模型的性能达到稳定状态为止；

所述步骤S7得到图1中的基于主动学习的微博流行度预测模型后，对训练集进行预测，根据模型评估标准，得到模型的性能；

为了验证方法的有效性，进行了对比实验。通过步骤S1通过新浪微博API为微博数据的爬取提供了有力途径，采用关键词搜索的方法来获取事件相关微博数据，需要同时获得用户所发布和转发的所有微博信息、用户信息以及与其相关的关注关系信息的微博数据集进行实验。

本发明的模型评定方法，采用了传统的分类模型的评估指标，分别是精准率、召回率和F1值。预测样本一共被分为4类，正类被预测为正类，正类被预测为负类，负类被预测为正类，负类被预测为负类，各个情况所对应的样本数分别表示为TP、FN、FP以及TN。具体计算表达式为：

本发明通过与基于边缘检测的微博流行度预测方法的有效性进行对比实验。其中本发明将对比方法用MS表示，本发明的方法用AL-WBPP表示，实验结果如表1所示。

表1本发明给出的对比实验结果

方法	Precision	Recall	F1-score
				MS	75.47％	78.04％	76.73％
AL-WBPP	79.65％	81.17％	80.41％

从表中可以看出，本发明的基于主动学习的微博流行度预测模型的F1值为80.41％，比基于边缘的查询方法高出约4％。这说明本发明的方法比传统的MS方法可以获得更好的效果。

除此之外，还统计了主动学习过程中到达该效果所需要的查询样本，如图2。

从图2中可以看出，AL-WBPP算法使用K-Means进行初始化，这会使得初始训练集训练的分类器效果更好。随着查询样本数量增加，准确率也在不断地提高。在相同p值的情况下，AL-WBPP需要的查询样本数量比MS的数量少，这说明AL-WBPP算法所选出的训练样本较低的冗余性和较少的异常值，而MS选出的样本存在大量冗余，选取异常值的可能性大，这与AL-WBPP相比，需要更多标注数据。同样地，两种方法都只选出相同数量的样本，AL-WBPP算法的性能要比MS性能好。这说明AL-WBPP算法选择的是更有价值的信息向量，可以更好的用于模型训练。

综上所述，本发明提出的方法在微博流行度预测性能上要好于MS方法。

本发明涉及一种基于主动学习的微博流行度预测方法，包括步骤：(1)利用新浪微博API采用关键词搜索的方法爬取相关微博数据集。(2)利用K-Means算法将未标记数据集进行聚类预处理操作，从而初始化训练集L。(3)对训练数据进行特征提取，提取用户特征、微博特征和传播特征，最后得到特征向量。(4)根据提取的特征向量训练基于支持向量机的主动学习的改进的模型，根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本，从而减少样本的冗余性和异常值问题。(5)将筛选出的样本称为信息向量，将其交给专家进行标记。(6)将新标记的训练数据加入到初始训练集L中去，循环此过程，直到满足模型的性能达到稳定状态为止。(7)利用训练好的基于主动学习的微博流行度预测模型对训练集进行预测。本发明引入主动学习机制并结合SVM模型，构建基于主动学习的微博流行度预测方法，此模型通过使用K-Means方法初始化训练集，解决了采用随机策略引起的初始分类器准确性不稳定的问题，同时不仅考虑查询样本的不确定性还结合样本多样性和代表性，减少了冗余性问题并降低了异常值问题，也减少了训练样本的标记数量，同时也使得本发明在训练数据少的情况下也得到很好的预测效果。

Claims

1.一种基于主动学习的微博流行度预测方法，其特征是，包括如下步骤：

(5)将筛选出的样本称为信息向量，交给专家进行标记；

2.根据权利要求书1所述的基于主动学习的微博流行度预测方法，其特征是，所述步骤(4)中多样性及代表性的计算模型如下：

DR(x)＝d(x)*(r(x))^β

对于一个未标注样本可以通过距离来评估它的多样性：

代表性采用基于k近邻方法计算，公式如下：

其中，表示一个未标注样本的k近邻的集合，x^*∈V，sim(x^*,x)是一个相似度函数，V为不确定性的样本集。

3.根据权利要求书1或2所述的基于主动学习的微博流行度预测方法，其特征是，所述步骤(4)中不确定性计算方法如下：

x_q＝min{d(x_i)|x_i∈U}

其中，d(x_i)表示样本x_i到当前分类超平面的距离，U表示未标注数据集；U是不确定性最大的样本，考虑将处于超平面两侧间隔边界中的未标注样本中选取3K个最具有不确定性的样本，将选取的这些样本用样本集V表示，其中K为类别数量。

4.根据权利要求书1或2所述的基于主动学习的微博流行度预测方法，其特征是，所述步骤(3)中用户特征包括：粉丝数、关注数、微博总数、认证状态；微博特征包含：是否包含标签、是否有提及、微博长度、实体词个数以及微博发布时间；转播特征包括：微博一小时内被转发数、一小时内的转发深度、一小时内的转发宽度、一小时内转发用户的粉丝数之和以及一小时内转发的认证用户数。

5.根据权利要求书3所述的基于主动学习的微博流行度预测方法，其特征是，所述步骤(3)中用户特征包括：粉丝数、关注数、微博总数、认证状态；微博特征包含：是否包含标签、是否有提及、微博长度、实体词个数以及微博发布时间；转播特征包括：微博一小时内被转发数、一小时内的转发深度、一小时内的转发宽度、一小时内转发用户的粉丝数之和以及一小时内转发的认证用户数。

6.根据权利要求书1或2所述的基于主动学习的微博流行度预测方法，其特征是，所述步骤(1)中需要同时获得用户所发布和转发的所有微博信息、用户信息以及与其相关的关注关系信息。

7.根据权利要求书1或2所述的基于主动学习的微博流行度预测方法，其特征是，在所述步骤(2)中假设训练数据集为D＝{x₁,x₂,x₃,x₄,...x_m}，K-Means的目标函数为E，公式如下：

通过最小化平方误差E进行聚类，u_i是簇c_i的均值向量，k值设置为未标记数据集中的类别数。

8.根据权利要求书1或2所述的基于主动学习的微博流行度预测方法，其特征是，在所述步骤(4)中多分类模型方法如下：

通过用二分类SVM的输出来估计后验概率：

p_i＝Prob(w_i|x)；i＝1,...M