CN107870957A

CN107870957A - 一种基于信息增益和bp神经网络的热门微博预测方法

Info

Publication number: CN107870957A
Application number: CN201610880756.9A
Authority: CN
Inventors: 郑志蕴; 江国林; 张行进; 王振飞; 李钝
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2016-09-28
Filing date: 2016-09-28
Publication date: 2018-04-03

Abstract

本发明涉及社交网络与舆情分析领域，公开了一种基于信息增益与BP神经网络的热门微博预测方法。该方法针对大规模的微博数据进行挖掘，首先，对微博的原始特征进行分析和处理，从中提取关键特征。其次，利用信息增益算法，由微博的传播特征推导出微博的热度计算公式。再次，建立BP神经网络模型，根据微博的内容和博主特征，预测微博的传播特征，并由此计算微博的热度。最后，在实际微博网络中进行实证统计实验，以此确定模型的重要参数，并根据微博热度预测该微博能否成为热门微博。通过该方法可以对刚发布的微博热度进行及时预测，在微博营销、危机公关、舆情引导、舆情监测等领域都能得到广泛应用。

Description

一种基于信息增益和BP神经网络的热门微博预测方法

技术领域

本发明涉及社交网络与舆情分析领域，具体地说，涉及一种基于信息增益与BP神经网络的热门微博预测方法。

背景技术

随着Web2.0的迅速发展，微博已经成为现代社会最重要的新媒体平台之一。据中国互联网络信息中心CNNIC发布的第37次《中国互联网络发展状况统计报告》显示，截至2015年12月底，我国微博用户规模达到2.31亿，网民使用率为33.5％。庞大的用户群、短小精悍的内容和丰富多样的表现形式使得微博具有强大的传播性与互动性。微博已经成为了信息发布的重要渠道、网络营销的重要手段和网络舆情的重要载体，对国家安全和社会发展都产生了深远的影响。相比普通微博，热门微博能够得到更大量的传播和更广泛的关注，因此分析热门微博的影响因素并对热门微博进行预测研究，对于企业的产品推广和营销、政府的舆情监控和引导，都具有重要的意义。

发明内容

本发明目的在于设计了一种基于信息增益与BP神经网络的热门微博预测方法，对微博的内容特征、博主特征、传播特征进行分析，并从中提取关键特征，将信息增益算法和BP神经网络模型相结合，利用微博的内容和博主特征来预测该微博能否成为热门微博。通过该方法可以对刚发布的微博热度进行及时预测，为微博营销和舆情引导提供支撑信息。

本发明采用的技术方案如下：

本发明提供一种基于信息增益与BP神经网络的热门微博预测方法，包括以下步骤：

1、特征分析：将微博分为内容特征、博主特征和传播特征三大特征，并根据微博的传播规律，分析得到微博的内容和博主特征决定其传播特征，微博的传播特征决定微博的热度。

2、传播特征提取：选取转发数、点赞数、评论数、平均转发数、平均点赞数、平均评论数作为研究对象，分别做出热门微博与非热门微博的上述特征的累积分布函数曲线对比，提取微博传播的关键特征，对微博的热度进行度量。

3、内容特征提取：(1)对微博文本进行处理，对微博文本进行分词、去停用词，从中挖掘关键词并统计相应词频；(2)忽略内嵌外部链接(URL)，在实际微博应用中，网页链接很少，而且由于跳转的等待时间较长，安全性不能保证，大多数人不愿意打开，忽略后能够尽可能的消除网页交互的噪声数据。(3)综合考虑微博文本中的图片、视频、长微博、表情、话题(“#主题名#”)等用户自定义标签，将微博文本指标化。

4、博主特征提取：从博主的长期和近期影响力两方面出发，选取博主的粉丝数、最近微博被转发数、被点赞数、被评论数等特征，同时为了消除指标之间的量纲影响，需要进行归一化处理，以解决特征指标之间的可比性。

5、利用信息增益算法，推导微博的热度计算公式：信息增益算法是一种基于信息熵的评估方法，可以衡量一个特征区分数据样本的能力。设U是具有t个特征t₁，t₂，…，t_t的数据集，划分为m个不同类别C₁，C₂，…，C_m，对某个特征t_i的可能取值为x₁，x₂，…，x_n，则该特征的信息增益计算公式如下：

根据各特征的信息增益，可以计算该特征对于类别划分的贡献和权值。某特征t_i的权值w_i的计算公式如下：

其中G_mean为所有特征的平均增益值。

在微博的传播特征中，不同特征对于微博热度的区分度不同，因此对于微博热度的权重也不同。本发明采用信息增益算法定量计算各传播特征对于微博热度的权值，进而推导微博的热度计算公式。

6、建立BP神经网络模型推算微博热度：微博的传播特征是在传播过程中逐渐产生，微博的内容和博主特征决定其传播特征，因此采用微博的内容和博主特征对微博的传播特征进行预测。应用1986年由Rumelhart和McCelland为首的科学家小组提出的BP神经网络模型，利用BP神经网络非线性映射能力和自学习自适应的特点，对微博热度进行预测。

7、在实际微博网络中进行实证统计实验，以此确定模型的重要参数，并根据微博热度预测该微博能否成为热门微博。

有益效果：

1、对微博特征进行分类，并根据微博的传播规律，充分发掘微博特征之间的关系。

2、在特征提取阶段，提前对数据预处理，充分考虑了微博文本的特点，对文本进行分词统计词频，综合考虑微博文本中的图片、视频、长微博、表情、话题(“#主题名#”)等用户自定义标签，将微博文本指标化。同时忽略内嵌外部链接，对无用的噪声数据进行了过滤，更好地评估微博的内容特征对微博传播的影响。

3、在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。利用信息增益算法，可以通过对实际数据的统计定量计算各传播特征对于微博热度的权值，由此推导出的热度计算公式也更加准确。

4、BP神经网络模型经过几十年的发展，已经十分成熟，在各个领域都有广泛的应用。考虑到微博内容和博主特征的复杂性和相关性，以及它们对于微博传播影响的非线性和不确定性，BP神经网络模型具有非线性映射能力和自学习自适应的特点，完全满足需求。

附图说明

图1是本发明实施例提供的基于信息增益与BP神经网络的热门微博预测模型示意图。

图2是本发明实施例提供的BP神经网络模型示意图。

图3是本发明实施例提供的平均转发数的CDF(累积分布函数)曲线图。

图4是本发明实施例提供的平均评论数的CDF(累积分布函数)曲线图。

图5是本发明实施例提供的平均点赞数的CDF(累积分布函数)曲线图。

图6是本发明实施例提供的微博的各传播特征对于微博热度的信息增益和权值图。

图7是本发明实施例提供的Ir＝0.001时BP神经网络模型训练误差曲线图。

图8是本发明实施例提供的Ir＝0.01时BP神经网络模型训练误差曲线图。

图9是本发明实施例提供的Ir＝0.1时BP神经网络模型训练误差曲线图。

图10是本发明实施例提供的Ir＝0.15时BP神经网络模型训练误差曲线图。

具体实施方式

以下结合附图与具体实施方式对本发明作进一步的详细描述。

如图1所示，本发明实施例的基于信息增益与BP神经网络的热门微博预测方法包括以下步骤：

1)数据采集：采用网络爬虫作为实验工具，从新浪微博采集得到实验数据集。为保证数据的时效性，本文以2016年4月7日16点25分时新浪热门微博榜页面为初始采集网页，随机抓取8572条新浪微博。由于新浪访客系统(Sina Visitor System)和新浪反爬虫策略对于用户微博数据的保护，部分采集得到的样本数据不完整，经过筛选后，共得到有效样本6300条，忽略样本2272条。

2)数据预处理：

(1)对微博文本进行处理，对微博文本进行分词、去停用词，从中挖掘关键词并统计相应词频；

(2)忽略内嵌外部链接(URL)，在实际微博应用中，网页链接很少，而且由于跳转的等待时间较长，安全性不能保证，大多数人不愿意打开，忽略后能够尽可能的消除网页交互的噪声数据；

(3)综合考虑微博文本中的图片、视频、长微博、表情、话题(“#主题名#”)等用户自定义标签，将微博文本指标化；

(4)归一化处理，为了消除指标之间的量纲影响，需要进行归一化处理，将它们转化为(0，1)上的无量纲化指标值，以解决特征指标之间的可比性。

3)统计数据，利用信息增益算法，推导微博热度计算公式：将微博数据集U分为热门微博C1和非热门微博C2两种类别，并选取平均转发数、平均评论数、平均点赞数等3个特征，分别为t₁、t₂、t₃。设微博u_i的热度为h(u_i)，平均转发数为r(u_i)，平均评论数为c(u_i)，平均点赞数为p(u_i)。对于t₁、t₂、t₃来说，每一特征的可能取值过多，因此需要对每条微博u_i的r(u_i)、c(u_i)、p(u_i)进行离散化。基于图3～图5微博传播特征的累积分布曲线，定义t₁(u_i)、t₂(u_i)、t₃(u_i)具体取值的依据如下：

统计得到t₁、t₂、t₃的取值概率p(t_i＝x_k)，微博的分类取值概率p(c_j)以及t₁、t₂、t₃在不同取值时归属各类别的条件概率p(c_j|t_i＝x_k)。通过对6300条实际微博数据统计，定量计算t₁、t₂、t₃对于微博热度的权值w₁、w₂、w₃，如图6所示。

最终得到微博的热度计算公式如下：

h(u_i)＝w₁×r(u_i)+w₂×c(u_i)+w₃×p(u_i) (3)

4)建立基于BP神经网络的热门微博预测模型：BP神经网络模型拓扑结构包括输入层(input layer)、隐层(hidden layer)和输出层(output layer)。本发明采用典型的三层BP网络结构，输入和输出节点数分别是7和3，隐层的节点数由经验公式(4)所确定。

其中S为隐层节点数，m为输入节点数，n为输出节点数。

将微博内容和博主的关键特征的七个指标(综合词频、是否含有图片或视频或长微博、是否含有表情、粉丝数、最近微博被转发数、被点赞数、被评论数)作为输入，微博传播的三个特征(平均转发数、平均评论数、平均点赞数)作为输出，建立基于BP神经网络的热门微博预测模型，如图1所示。

5)实验确定模型的重要参数，预测热门微博：在BP神经网络模型中，学习速率Ir是一个重要的参数。BP神经网络基于误差-修正进行学习，修正量的大小受学习速率的控制，因此学习速率的大小对收敛速度和训练结果影响很大，一般设定在0.01～0.1之间。本文分别设定Ir为0.001、0.01、0.1、0.15进行实验，误差曲线如图7～图10所示。在误差曲线图中，横坐标表示训练步数，纵坐标表示均方误差。从图7～图10可以看出，当Ir为0.001时，训练未能在最大步数内达到收敛。当Ir为0.01、0.1时，均能收敛。随着Ir的进一步增大，当Ir为0.15时，出现振荡，当Ir＞0.15时，误差曲线发散消失，训练失败。从训练误差来说，在训练达到收敛的情况下，误差有所不同，但差别不明显。从收敛速度来看，随着Ir越来越大，收敛步数越来越小，收敛速度越来越快。在实际运行中，当Ir为0.1时，花费时间不到50秒，而当Ir为0.01时，用时近3分钟。从收敛速度和训练误差两方面考虑，Ir设定为0.1。

在参数设定完成后，对模型进行训练学习，BP神经网络是误差反传误差反向传播算法的学习过程，由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息，并传递给中间层各神经元；中间层是内部信息处理层，负责信息变换，根据信息变化能力的需求，中间层可以设计为单隐层或者多隐层结构；最后一个隐层传递到输出层各神经元的信息，经进一步处理后，完成一次学习的正向传播处理过程，由输出层向外界输出信息处理结果。当实际输出与期望输出不符时，进入误差的反向传播阶段。误差通过输出层，按误差梯度下降的方式修正各层权值，向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程，是各层权值不断调整的过程，也是神经网络学习训练的过程，此过程一直进行到网络输出的误差减少到可以接受的程度，或者预先设定的学习次数为止。

在模型训练完成后，初始化微博热度，并根据实际需要合理设定微博热度阈值，对热门微博进行预测。

Claims

1.一种基于信息增益与BP神经网络的热门微博预测方法，其特征在于，分为如下步骤：

1.1 特征分析与提取：

1)特征分析：将微博分为内容特征、博主特征和传播特征三大特征，并根据微博的传播规律，分析得到微博的内容和博主特征决定其传播特征，微博的传播特征决定微博的热度。

2)数据预处理：筛选有效数据，去除不完整或重复数据；微博内容处理，对微博文本进行分词、去停用词、统计词频、记录是否含有表情、图片、视频、长微博等。

3)特征提取：微博的原始特征繁杂，通过对热门微博与非热门微博的各种特征的累积分布函数曲线对比，提取出微博的关键特征。

1.2 利用信息增益算法，推导出微博的热度计算公式：在微博的传播特征中，不同特征对于微博热度的区分度不同，因此对于微博热度的权重也不同。利用信息增益算法对6300条实际微博数据统计，定量计算各传播特征对于微博热度的权值，

得到微博的热度计算公式。

1.3 建立BP神经网络模型推算微博热度：根据微博的三大特征之间的关系，建立一个基于BP神经网络的预测模型，将微博的内容特征和博主特征作为输入，预测微博的传播特征，进而计算微博的热度。

1.4 在实际微博网络中进行实证统计实验，以此确定模型的重要参数，并根据微博热度预测该微博能否成为热门微博。

2.根据权利要求1所述的一种基于信息增益与BP神经网络的热门微博预测方法，其特征在于1.1中所述的将微博分为内容特征、博主特征和传播特征三大特征；即内容特征包括文字、图片、视频、长微博、表情、网页链接、话题标签等；博主特征包括粉丝数、关注数、发文数、转发数、评论数、被转发数、被评论数、被点赞数等；传播特征包括转发数、点赞数、评论数、平均转发数、平均评论数、平均点赞数等。

3.根据权利要求1所述的一种基于信息增益与BP神经网络的热门微博预测方法，其特征在于1.1中所述的根据微博的传播规律，分析得到微博的内容和博主特征决定其传播特征，微博的传播特征决定微博的热度；即内容和博主特征是一条微博发布时的本质特征，而传播特征是微博在传播过程中逐渐产生的表现特征，是内容和博主特征的反映，因此微博的内容和博主特征决定其传播特征。为保障用户的阅读效率和阅读质量，同时达到激励内容作者创作和推广的目的，新浪以热度为标准对微博进行排序，推出热门微博榜，其中热度数值是由该微博的转发数、点赞数和微博发布时间等各因素得到。以是否上榜为依据，微博可分为热门微博和非热门微博两类。显然，微博的传播特征是区分热门微博与非热门微博的关键，决定微博的热度。

4.根据权利要求1所述的一种基于信息增益与BP神经网络的热门微博预测方法，其特征在于1.1中所述的微博的内容和博主特征决定其传播特征，微博的传播特征决定微博的热度；即内容和博主特征是一条微博发布时的本质特征，而传播特征是微博在传播过程中逐渐产生的表现特征，是内容和博主特征的反映，微博的内容和博主特征决定其传播特征。为保障用户的阅读效率和阅读质量，同时达到激励内容作者创作和推广的目的，新浪以热度为标准对微博进行排序，推出热门微博榜，其中热度数值是由该微博的转发数、点赞数和微博发布时间等各因素得到。以是否上榜为依据，微博可分为热门微博和非热门微博两类。显然，微博的传播特征是区分热门微博与非热门微博的关键，决定微博的热度。

5.根据权利要求1所述的一种基于信息增益与BP神经网络的热门微博预测方法，其特征在于1.2中所述的利用信息增益算法，推导出微博的热度计算公式；即选取平均转发数、平均评论数、平均点赞数作为微博传播的关键特征，利用信息增益算法，得到微博的热度计算公式。设U是具有t个特征t₁，t₂，…，t_t的数据集，划分为m个不同类别C₁，C₂，…，C_m，对某个特征t_i的可能取值为x₁，x₂，…，x_n，则该特征的信息增益计算公式如下：

其中G_mean为所有特征的平均增益值。

微博数据集U分为热门微博C1和非热门微博C2两种类别，并选取平均转发数、平均评论数、平均点赞数等3个特征，分别为t₁、t₂、t₃。设微博u_i的热度为h(u_i)，平均转发数为r(u_i)，平均评论数为c(u_i)，平均点赞数为p(u_i)。统计得到t₁、t₂、t₃的取值概率p(t_i＝x_k)，微博的分类取值概率p(c_j)以及t₁、t₂、t₃在不同取值时归属各类别的条件概率p(c_j|t_i＝x_k)。通过对6300条实际微博数据统计，定量计算t₁、t₂、t₃对于微博热度的权值w₁、w₂、w₃。最终得到微博的热度计算公式如下：

h(u₁)＝w₁×r(u₁)+w₂×c(u₁)+w₃×p(u₁) (3) 。

6.根据权利要求1所述的一种基于信息增益与BP神经网络的热门微博预测方法，其特征在于1.3中所述的建立一个基于BP神经网络的预测模型；微博的传播特征是在传播过程中逐渐产生，微博的内容和博主特征决定其传播特征，因此采用微博的内容和博主特征对微博的传播特征进行预测。考虑到微博内容和博主特征的复杂性和相关性，以及它们对于微博传播影响的非线性和不确定性，应用1986年由Rumelhart和McCelland为首的科学家小组提出的BP神经网络模型，利用BP神经网络非线性映射能力和自学习自适应的特点，对微博热度进行预测。BP神经网络是一种按误差逆传播算法训练的多层前馈网络，能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。采用典型的三层BP网络结构，隐层的节点数由以下经验公式(4)所确定：

其中S为隐层节点数，m为输入节点数，n为输出节点数。

在确定输入节点数、输出节点数和隐层节点数后，基于BP神经网络的热门微博预测模型建立完成。