CN108876058B

CN108876058B - 一种基于微博的新闻事件影响力预测方法

Info

Publication number: CN108876058B
Application number: CN201810839521.4A
Authority: CN
Inventors: 黄圣君; 唐英鹏
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2021-07-27
Anticipated expiration: 2038-07-27
Also published as: CN108876058A

Abstract

本发明公开一种基于微博的新闻事件影响力预测方法，首先，获取足量新闻事件微博数据提取特征并计算影响力以训练预测模型f(x)；其次，当预测模型训练好后，根据输入的新事件关键词p与事件发生日期获取早期微博讨论数据T_p；然后，从获得早期数据T_p中提取特征x_p；最后，将新样本的特征向量x_p输入训练好的模型中得到其未来影响力的预测值f(x_p)。采用本发明对新闻事件影响力的计算更加合理、全面，能够提升对网络内容的预测精度，预测效果更好。

Description

一种基于微博的新闻事件影响力预测方法

技术领域

本发明属于机器学习技术领域，具体涉及一种基于微博的新闻事件影响力预测方法。

背景技术

新闻事件反映了社会的方方面面，从人民群众的心愿，呼声到国家政策方针，发展规划，乃至世界上的重大事件都由新闻来传播。新闻作为一个权威，客观的消息传播媒体，其传播的信息对社会有重大影响力，对国家来说，新闻具有舆论引导，维护社会安定的作用，对构建和谐社会起了关键作用。预测新闻事件的影响力是一个重要的任务，能在事件发生早期就发现该事件最终的影响力，就可尽早判断舆情发展走向，引导舆论，以便适时作出应对策略上的调整。同时该发明不仅能与新闻内容结合提供更可信的决策支持，且对于政府的舆情监控、企业的危机公关、投资机构的投资决策都有重要的意义。

评价一个新闻事件的影响力是困难的，需要多位资深专家才能给出较为客观地评价，社交网络上的数据尽管粗糙，但随着社交网络的普及，用户对新闻事件的讨论情况能够较好地量化为计算影响力的指标，本发明拟从社交网络数据中挖掘出新闻事件的影响力，社交网络中大量的新闻数据也为研究新闻影响力预测提供了很好的数据源。使用传统的流行度度量方法来代表影响力是不全面的，有些事件因为其本身更有趣，所以会更热门，但是真正具有影响力的事件不止于此，新闻事件本身不同于娱乐报道，由于新闻实事求是，客观公正，这使得其讨论通常低于娱乐性的新闻，若只考虑流行度作为新闻的影响力显然是不全面的，应该考虑多方面的因素来计算影响力的分值。其次，由于社交网络的复杂性，传统的基于早期流行度的预测方法可能并不适用于社交网络的背景，信息在社交网络上的传播与其他环境下大不相同。

发明内容

发明目的：本发明提供一种计算更加合理、全面，能够提升对网络内容的预测精度，预测效果更好的基于微博的新闻事件影响力预测方法。

技术方案：本发明所述的一种基于微博的新闻事件影响力预测方法，包括以下步骤：

(1)获取足量新闻事件微博数据提取特征并计算影响力以训练预测模型 f(x)；

(2)预测模型训练好后，根据输入的新事件关键词p与事件发生日期获取早期微博讨论数据T_p；

(3)从获得早期数据T_p中提取特征x_p；

(4)将新样本的特征向量x_p输入训练好的模型中得到其未来影响力的预测值f(x_p)。

步骤(1)所述的数据主要包括每个过去事件k自发生起N天的热门微博H_k与自事件发生日期起，前E天的早期微博T_k。

所述步骤(1)包括以下步骤：

(11)利用事件的热门微博H_k来计算影响力I_k：

其中，H_k是与事件k相关的，自事件发生起N天内的所有热门微博的集合，对于其中的每一条微博m，α₁，α₂，α₃分别是转发数r_m，评论数c_m，点赞数l_m的系数，h(·)是关于发布者与热门转发用户的粉丝数f_m的函数；

(12)通过按时间排序的早期微博讨论数据T_k提取得到的特征x_k：

其中，

为每个事件的相关原创微博数的时间序列，

为微博讨论热度趋势的特征，

为每个事件发生时间的One-Hot编码，

为每小时内的微博数中博主加V用户的数量，

为事件发生当天和第二天的所有相关微博数量，

为基于微博文本内容的特征；

(13)使用步骤(1)得到的数据来训练支持向量回归模型，得到一个函数f(·) 使得对模型输入事件的早期讨论数据特征x_k，所得到的输出f(x_k)能够尽可能地逼近计算得到的未来的影响力大小I_k。

所述步骤(13)通过以下式子实现：

f(x)＝w^Tx+b

其中，w、b、ε和C都为模型的参数，x_i为提取得到的特征向量，y_i为样本对应的影响力，ξ为松弛变量。

有益效果：与现有技术相比，本发明的有益效果：1、本发明考虑了社交网络中综合性的指标来计算新闻事件的影响力，更加合理、全面；2、本发明从早期微博上对事件的讨论情况提取特征，包括前期事件相关微博的时间序列数据，讨论的趋势变化特征(KSC)、事件的发生时间、讨论者的情况，微博正文的特征等，并在社交网络的环境下进行的预测工作，加入的社交网络数据能够提升对网络内容的预测精度；3、本发明使用支持向量回归模型对时间序列的数据进行预测，效果更好。

附图说明

图1为本发明流程图；

图2为网络爬虫的流程图；

图3为训练模型的流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

图1为本发明的流程图，包括以下步骤：

基于微博的新闻事件影响力预测方法，包括以下步骤：

1、获取足量新闻事件微博数据提取特征并计算影响力以训练模型f(x)

数据获取方面可以通过编写网页爬虫将微博网页的源代码爬到本地。实现网页爬虫的形式不限，只需得到需要的信息即可。例如，爬取社交网络数据，首先需要模拟登录。在登录后利用获得的cookie与微博服务器进行通信：即写代码将关键词进行URL编码并带上一些参数，模拟浏览器向微博服务器发送http请求，就能得到该关键词相关的微博数据。

数据获取包括每个事件k自发生起N天内的热门微博H_k与自事件发生日期起，前E天的早期微博T_k，其中N＞＞E。本实施方式中，N＝30，E＝1。因此对于训练用的事件k，必须发生过后至少30天才可获取到H_k并计算其影响力大小。热门微博是微博平台首先过滤了大部分质量不高的，互动的人少的微博，返回给用户评论转发数相对较多的，内容更优质的原创微博。这部分数据可通过在使用爬虫进行微博搜索时设置检索内容的起止时间以及约束条件(如：将http请求字符串中“热门”选项参数设为1)来完成。对于自事件发生日期起，前E天的早期微博T_k，这部分数据可以设置检索微博的起止时间以及“按时间排序”和“原创”选项开关设为1即可得到按倒序排列的时间段内的原创微博数据。本发明利用事件的热门微博H_k来计算影响力I_k，然后通过按时间排序的原创微博T_k提取特征x_k来训练模型以预测新事件的影响力f(x_k)。对于本实施方案所使用的网络爬虫可参考附图2。

图2为网络爬虫流程图。本实施方式中，每次启动爬虫首先会检测本地存储的cookie是否过期，即带上本地cookie发送一次http请求，若返回的网页源代码为：File notfound则代表过期。若过期则重新模拟登录得到新的cookie，并更新本地cookie，模拟登录的源代码有若干开源代码实现。随后通过拼接URL 字符串，带上相关条件参数，如微博起止时间，热门过滤开关等和有效的cookie 和http头部，向weibo.cn发起请求，就能获取到指定条件的微博网页源代码。本实施方案使用了Python的session模块来实现该功能，可以调用session的 get方法，参数为URL地址和指定的http头部，该方法会自动带上cookie，每次更新cookie可以用Python的pickle模块将整个session对象以二进制的方式存成文件，下次读取文件直接调用get方法会自动带上存储的cookie。获取得到的网页源代码数据包括：每条微博的博主昵称，博主主页URL，博主头像，博主是否是VIP，是否有V认证，微博正文，微博转发，评论，点赞数以及对应的列表URL(可查看所有评论等)，微博带的图片URL，发布时间，发布平台(PC/ 移动端)。本实施方案使用Python的BeautifulSoup库解析网页源代码，将每一条微博的各个字段提取出来，如博主信息，转发量，微博正文等，并将对应字段存入数据库。由于网站有许多反爬虫手段，例如返回空数据，假数据，封锁ip等等，因此需要判断返回的数据是否真实，若判断数据为正常，则将获得的数据存入本地，否则等待几秒后重新发送请求重试。关于检测数据是否正常可通过检查数据的格式是否满足正常微博网页的格式，如每一页8-10条微博，每条微博字段是否齐全等，这一步可判断出除了假数据以外的情况，对于假数据可记录每次返回数据得到的所有微博条数是否变化，以及通过更换账号和IP多次请求来解决，本次的请求数据解析完毕后判断是否收集完所有数据，若没有则进入下一轮循环。

本发明通过考虑微博多方面的特征，综合地评价一个新闻事件的影响力。对于事件k，其最终的影响力为：

其中，H_k是与事件k相关的，自事件发生起30天内的所有热门微博的集合， |H_k|为集合内元素的个数。对于其中的每一条微博m，α₁，α₂，α₃分别是转发数r_m，评论数c_m，点赞数l_m的系数，h(·)是关于发布者与热门转发用户的粉丝数f_m的函数，具体形式为粉丝数除以12000，上限500，这是因为一些新闻媒体公众号粉丝数过多，不设置上限会使得该项分数过大。系数是为了不让某一项主导影响力评分。本发明将计算的影响力事件排名与中央人民广播电台发布的最具影响力新闻事件进行对比，取α₁＝5，α₂＝4，α₃＝3。通过爬虫得到特定的原始微博数据后，可以用正则表达式或其他的工具，如Python的BeautifulSoup库来从中解析提取所需要的字段信息(转发量，粉丝数等)，即可通过上述公式计算得到事件的影响力大小。

对于按时间排序的原创微博T_k的特征提取方法，本发明从按时间排序的自事件发生起24小时内的原创微博T_k提取了以下特征：

(1)每个事件的相关原创微博数的时间序列

本发明使用自事件发生起24小时内的早期微博数据。即在事件发生24小时就能给出其未来最终的影响力预测。这部分特征可以将T_k中的所有微博发送时间做直方图统计，区间大小为 1小时，仅统计距离最早一条相关微博的时间小于24小时的微博数。如 (23，247，104，...，66，65，44)代表事件发生后的1小时内有23条相关微博，第1 至2小时内有247条，以此类推。

(2)每个事件发生的星期几和几点钟的One-Hot编码，记为

该组特征将事件的发生时间用一个稀疏向量表示，例如某事件发生在星期三上午10点，则他对应的星期编码为(0，0，1，0，0，0，0)，几点钟同理。

(3)每个事件的讨论热度趋势的特征

本实施方式利用K SpectralCentroid Clustering(KSC)聚类算法对所有事件的时间序列进行聚类，得到K 个聚类中心。对于每一个新闻事件的时间序列

计算其到每个聚类中心的距离即可得到其趋势的特征。具体来说，KSC聚类算法能将趋势变化相同的两条曲线聚为一类，即对时间序列中的项进行循环位移和等比放缩时，仍然会与变化前的曲线聚为一类。该聚类算法的距离定义为：

距离计算的公式中，s_d′(q)是对时间序列s_d′的时间轴位移q个单位的操作， ||·||是L2范数。对于一个固定的q，u通过求解dist的最小值可以得到闭式解:

然而该算法没有一种简单的方法来计算得到位移参数q，因此，本实施方式实现KSC的时候考虑了所有q的可能取值来找到最佳的q。KSC算法的实现可在提出的论文中找到源代码URL。对于每一个新闻事件的时间序列，计算其到每个聚类中心的距离作为其趋势的特征，这样，对于每一个样本都有K 维代表趋势的特征

(4)每个事件的加V博主数时间序列

如在事件发生的头一小时中有 200条原创微博，其中博主是加V用户发出的共有20条，则该向量的第一维是 20，以此类推。

(5)每个事件发生当天和第二天的所有相关微博数量

例如，事件发生当天共有5000条相关微博，则该向量的第一维是5000，以此类推。

(6)每个事件的基于微博文本内容的特征

本实施方式利用doc2vec 算法提取基于文本的特征。该算法能从变长的文本提取得到定长的向量特征，且向量长度可自由设定。算法实质上是使用了一个三层的神经网络模型。训练时，采用的Distributed Memory方法会随机地以一个固定大小的滑动窗口在随机选择的句子中进行采样，如使用一个句子中的前三个词与其出现的文档编号paragraph_id(当作一个词)作为模型的输入x，紧接着的下一个词作为其对应的y值。其中，每个词都被表示为一个定长的向量，这些向量实际上是网络连接层的权值，在初始化时，向量被随机赋值，经过大量的训练后，这些向量被优化成有助于模型预测的值。可以看出，这个模型本质上是用在给定语境下预测下一个出现的词，而副产物得到的对文档的特征考虑了词序以及上下文的因素，因此用该模型提取的文本特征做进一步的机器学习任务时效果会比传统方法好。本实施方式将每一个事件的所有微博拼合在一起作为一篇paragraph，并将词向量长度设为500，利用步骤1获得的训练数据来训练doc2vec模型，随后利用该模型提取新事件的文本特征。doc2vec方法在若干工具包有开源实现，例如Python 的gensim库。

综上所述，本发明的特征可以表示为：

通过热门微博H_k计算每个事件k的影响力大小I_k，以及通过按时间排序的原创微博T_k提取得到的特征x_k，本发明使用这部分数据来训练支持向量回归模型来找到一个函数f(·)使得对模型输入事件的早期讨论数据特征x_k，所得到的输出 f(x_k)能够尽可能地逼近计算得到的未来的影响力大小I_k。

图3所示为训练模型的流程图。初始有事件关键词集合K与用于训练的样本集合X。X是一个集合，其中每一个元素是一个元组：具体为每一个事件的特征向量与其对应的影响力大小(x_k，I_k)；遍历集合K来获取所有事件的微博数据，对于每个事件k，获取每个事件k自发生起30天内的热门微博H_k，以及事件发生当天起，按时间排序的2天内的与事件相关的原创微博数据T_k；利用事件的热门微博H_k通过上述的方法来计算影响力I_k；通过按时间排序的原创微博T_k按上述的方法提取特征x_k，就能得到事件k的样本(x_k，I_k)；将获得的新样本添加进训练集合 X同时开始下一轮的数据获取工作。当所有事件的数据都已经获取完毕，使用X来训练支持向量回归模型。

支持向量回归是基于支持向量机来进行回归的一种算法，其函数形式为 f(x)＝w^Tx+b，为了得到参数w和b的值，可以优化下面的目标：

参数w、b通过优化上述式子得到，参数C、ε通过划分验证集进行选择，优化问题中，函数的目标是找到一组参数w、b使得所有的样本x_i的预测值距离其计算得到的影响力y_i越小越好，并至多有ε的偏移，同时保证模型不至于太复杂，参数C平衡了模型复杂度与训练误差。换句话说，距离分界面小于ε的样本损失为0，不允许有偏移大于该值的样本，为了应对有样本无论如何都会在ε范围外的情况，本发明应用了软间隔损失函数，即加入松弛变量ξ，通过加入该变量，使得优化问题允许样本在ε范围外，但超出的值应越小越好。经过多次实验，推荐将C设置为0.5，ε设置为0.1，核函数使用RBF核，核函数的参数γ使用

该训练算法在多个开源工具包中均有实现，如Python的sklearn库。经过训练后，参数w和b的值固定，当给定新的x_p向量，计算f(x_p)来得到其对应的影响力预测值。

2、模型训练好后，根据输入的新事件关键词p与事件发生日期获取微博早期讨论数据T_p。获取关键词p的微博早期讨论数据T_p均与训练模型时，对事件k所使用的方法相同。

3、从输入关键词的早期数据T_p中提取特征x_p的步骤与训练模型时所使用的方法相同。

4、将新样本的特征向量x_p输入训练好的模型中得到其未来影响力的预测值 f(x_p)。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。