CN107644089B

CN107644089B - 一种基于网络媒体的热门事件提取方法

Info

Publication number: CN107644089B
Application number: CN201710882339.2A
Authority: CN
Inventors: 沈满; 吴杰; 杨曦; 陈彬; 段春先; 谢倩
Original assignee: Wuda Geoinformatics Co ltd
Current assignee: Geospace Information Technology Co ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2020-08-04
Anticipated expiration: 2037-09-26
Also published as: CN107644089A

Abstract

本发明适用于信息挖掘技术领域，提供一种基于网络媒体的热门事件提取方法，首先将新闻、评论文本发布的时间区间划分为若干个等间隔的时间片。其次，在每个时间片内提取新闻文本的关键词及权重，用优化增量聚类方法对这些新闻文本进行聚合分类，得到该时间片内的每个话题及其空间向量模型,并根据模型计算话题热度，按照热度保留有效话题。第三，对所有的时间片的话题再用优化增量聚类方法进行聚合分类，得到不同的事件，计算事件热度。最后，判断事件是否热门，并通过热度对热门的事件排序。本发明改进了普通的增量聚类算法，并建立多级的优化增量聚类模型，提高了计算速度；并且根据媒体的关注情况和网民的舆论情况计算事件的热度，并判断事件是否热门，对热门的事件排名，此方法更客观，减少了事件排名的误差。

Description

一种基于网络媒体的热门事件提取方法

技术领域

本发明属于挖掘技术领域，尤其涉及一种基于网络媒体的热门事件提取方法。

背景技术

随着互联网的不断发展，各种新闻事件的传播方式不再局限于电视、报纸，网络平台称为更普遍的传播途径。新闻网站、论坛、微信微博等社交网络都是发布新闻或发表言论的地方。海量文本信息带来资讯价值的同时，也给用户阅读带来了不便，不利于用户关注热点事件，如何从海量信息中挖掘出热门新闻事件，使得用户不遗漏值得关注的新闻事件成为热门的研究点。目前大部分的网站都在显著位置对新闻事件进行排名或推荐，但一般都是根据新闻的点击率给出简单的新闻事件排名，部分网站的热点新闻是由编辑提供的，新闻搜索则只能根据特定关键词给出相关新闻。因此，热门新闻事件的自动提取对于热门事件的排名展示非常有必要。

一个热门事件发生应该有多篇报道新闻和很多人评论并且它有一定的时间效应，那么给一段时间看事件的舆论情况，判别是否热门。话题是人们在较短时间内讨论得新闻内容。一个事件由一个或多个相关的话题组成。不同的话题可以很好的展现同一个事件的发生和变化的过程。因此先由新闻提取话题，再由相关的话题组成事件，紧接着根据事件的舆论情况判断是否热门，最后才对热门的事件排序。

前从海量新闻文本中提取话题采用的增量聚类方法(Single-pass)中，其方法简要描述为：已有一个按时间排序的新闻文本集合和一个空的话题集合，以及一个相似度比较的阈值。取第一个新闻当作一个话题存入话题集合；从第二个新闻文本开始，与话题集合中的每个话题进行相似度比较，如果新闻与一个或者多个话题的相似度大于阈值则将此新闻归属到最相似的话题中，否则把这个新闻当作新的话题放入话题集合中。但是忽略了之前步骤中话题提取时这所谓的多个话题本身就是描述的同一个事情，应为一个话题。因而，提取话题的增量聚类方法需要优化以减小误差。

发明内容

鉴于上述问题，本发明的目的在于提供一种基于网络媒体的热门事件提取方法，旨在解决现有的热门事件排名显示采用网名对新闻的点击量来确定，存在单个新闻被人为的重复点击等类似的情况发生而导致事件排名不可靠的问题，而且现有的增量聚类方法存在的同一事件提取结果不唯一。

本发明采用如下技术方案：

所述基于网络媒体的热门事件提取方法，包括下述步骤：

S1、获取一时间段内的新闻文本和评论文本数据，将所述时间段等分成多个时间片，并且每个时间片对应设置一个话题集合，所述话题集合初始状态为空；

S2、针对每个时间片，提取当前时间片内发布的每篇新闻文本的若干关键词及权重；

S3、对当前时间片内的新闻文本结合关键词和权重进行聚合分类得到各个话题，同时将各个话题存入当前时间片对应的话题集合；

S4、计算话题集合中的每个话题的最热时间和热度并进行筛选，保留有效话题；

S5、根据所有话题集合中的所有话题进行聚合分类抽取事件；

S6、计算每个事件的热度；

S7、判断是否是热门事件；

S8、保留热门事件，按照热门事件的热度由大到小排列，展示出热门事件的热门程度。

本发明的有益效果是：本发明先由新闻文本采用优化增量聚类算法提取话题，再由筛选的话题采用优化增量聚类算法提取事件，减少了事件提取时相似度计算次数，提高了计算速度，且优化的增量聚类算法事件提取后特征明显，正确性高。同时计算事件的热度，判断事件是否热门，对热门事件进行排序展现，此方法更客观，减少了事件排名的误差。

附图说明

图1是本发明实施例提供的基于网络媒体的热门事件提取方法的流程图；

图2是一个时间片中从新闻文本中提取话题的流程图；

图3是从所有话题中提取事件的流程图；

图4是热门事件的判定示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明首先将新闻、评论文本发布的时间区间划分为若干个等间隔的时间片。其次，在每个时间片内采用TF-IDF方法提取期间的新闻文本的关键词及权重，用优化增量聚类方法对这些新闻文本进行聚合分类，得到该时间片内的每个话题及其空间向量模型,并根据模型计算话题热度，按照热度保留有效话题。第三，对所有的时间片的话题再用优化增量聚类方法进行聚合分类，得到不同的事件，计算事件热度。最后，判断事件是否热门，并通过热度对热门的事件排序。为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

如图1所示，本发明实施例提供的基于网络媒体的热门事件提取方法包括下述步骤：

步骤S1、获取一时间段内的新闻文本和评论文本数据，将所述时间段等分成多个时间片，并且每个时间片对应设置一个话题集合，所述话题集合初始状态为空。

假设需要对一时间段内的事件进行提取，本步骤将所取时段范围内的新闻文本和评论文本数据按时间间隔1小时划分，假设划分成n个时间片，并对应生成n个空的话题集合{topicterm₁，topicterm₂，…，topicterm_n}。即每个时间片对应一个话题集合，话题集合初始状态为空。

步骤S2、针对每个时间片，提取当前时间片内发布的每篇新闻文本的若干关键词及权重。

本步骤中，对于当前时间片内发布的每篇新闻文本，采用TF-IDF算法提取每篇新闻文本对应的M个关键词并计算权重，每篇新闻文本表达成一个空间向量模型。TF-IDF算法是现有技术，这里不赘述。一般M取值20。每个新闻文本表达成一个空间向量模型，即：

新闻文本＝{keyword₁，x₁；keyword₂，x₂，…，keyword_k，x_k，…，keyword₂₀，x₂₀}，其中keyword_k，x_k(k∈{1,2,…,20})分别是关键词和权重。

步骤S3、对当前时间片内的新闻文本结合关键词和权重进行聚合分类得到各个话题，同时将各个话题存入当前时间片对应的话题集合。

新闻文本中的话题提取采用优化的增量聚类算法。具体的，如图2所示，包括下述步骤：

S31、针对每个时间片，对新闻文本按照发布时间进行排序，取第一篇新闻文本的空间向量模型作为第一个话题的空间向量模型，存入当前时间片对应的话题集合。

假设当前为第i个时间片，第i(i∈{1,2,…,n})个时间片内发布的新闻文本按照发布时间排序，取第一篇新闻文本的空间向量模型作为第一个话题的空间向量模型，标记为；

topic_i1＝{keyword_i1.1，x_i1.1；keyword_i1.2，x_i1.2，…，keyword_i1.20，x_i1.20},存入第i个话题集合topicterm_i。

S32、从第二篇新闻文本开始顺次输入新闻文本的空间向量模型，对于当前输入的新闻文本的空间向量模型，计算与话题集合中的每个话题的空间向量模型的余弦相似度。

从第二篇新闻文本开始依次输入新闻文本的空间向量模型。具体实现时，设置变量z＝2，输入第z篇新闻文本，然后计算第z篇新闻文本的空间向量模型与当前话题集合topicterm_i内已有的所有话题的空间向量模型的余弦相似度。比如，输入第二篇新闻文本时，话题集合内只有一个话题，即第一篇新闻文本的空间向量模型。直接计算第二篇新闻文本的空间向量模型与这个话题的余弦相似度。由于在后续处理步骤中，话题集合中可能会新增话题或者有话题更新，因此在输入第z篇新闻文本时，话题集合中可能有多个话题了，这时需要计算当前输入的第z篇新闻文本与这多个话题的空间向量模型的余弦相似度。

余弦相似度的计算方法如下：

有两个空间向量模型u＝{词1,x₁；词2,x₂；…；词n,x_n}和v＝{词1,y₁；词2,y₂；…；词n,y_n}，u和v包含的词语相同，x_i,y_i是对应词语的权重，那么u和v之间的余弦相似度为:

相似度范围[0,1],越接近1越相似。

S33、若得到的余弦相似度均小于相似度阈值α，则认定当前输入的新闻文本与话题集合中的所有话题都不相关，在当前话题集合中新增一个话题，该新增话题的空间向量模型就是当前输入的新闻文本的空间向量模型。

设置一个相似度阈值α＝0.8。

在步骤S32中，当前输入新闻文本的空间向量模型与话题集合中的每一个话题的空间向量模型都会计算得到一个余弦相似度。如果计算得到的所有的余弦相似度都小于相似度阈值α，则说明当输入的新闻文本与话题集合中的所有话题都不相关，因此需要在话题集合中再新增一个话题，且该新增话题的空间向量模型就是当前输入的第z篇新闻文本的空间向量模型。

S34、若得到的余弦相似度有且只有一个大于或等于相似度阈值α，则认定当前输入的新闻文本与这个话题相关，并将新闻文本归并到这个话题中，重新调整这个话题的空间向量模型。

若话题集合中只有一个话题与当前输入新闻文本的空间向量模型的余弦相似度大于或等于相似度阈值α，则说明当前输入新闻文本属于这个话题，将新闻文本归并到这个话题中，重新调整这个话题的空间向量模型。

具体调整方式如下：当前输入新闻文本与这个话题的空间向量模型中，对于相同关键词对应的权重取平均值，再按照权重从大到小进行排序，取前M个关键词和权重，实现这个话题的空间向量模型更新。一般取前20个即可。

S35、若得到的余弦相似度有多个大于或等于相似度阈值α，则认定当前输入的新闻文本与这多个话题均相关，并将新闻文本与这多个话题合并形成一个新话题，重新调整这个新话题的空间向量模型。

若存在多个话题与当前输入新闻文本的空间向量模型的余弦相似度大于或等于相似度阈值α，那么当前新闻文本与这多个话题都高度相关，而且这几个话题也是相关的，本步骤将当前输入新闻文本与这几个话题一起合并成一个话题，计算调整这个新话题的空间向量模型，调整同时从话题集合中删除之前的相关的那几个话题。新话题的调整过程与步骤S34的调整过程相同，当前输入新闻文本和这多个话题的所有空间向量模型中，对于相同关键词对应的权重取平均值，再按照权重从大到小进行排序，取前M个关键词和权重，得到这个新话题的空间向量模型。

经过步骤S32-S35后，完成当前时间片的一篇新闻文本处理，然后继续下一轮处理。一轮处理完成后，判断z是否小于新闻文本数量总数，若小于说明当前时间片内还有未处理的新闻文本，此时z自增1，继续下一轮处理。直至完成时间片内所有的新闻文本处理。

作为优选方式，所述步骤S3还包括：

S36、针对每个时间片的话题集合，保留前S个话题，删除其它话题。

经过一系列的话题新增和更新，话题集合内的话题数量可能比较多，为了降低计算复杂度，本优选方式保留前S个话题即可。

因此对于第i个时间片，其话题集合topicterm_i中剩下的话题为：

topicterm_i＝{topic_i1，topic_i2，…，topic_is}。

步骤S4、计算话题集合中的每个话题的最热时间和热度并进行筛选，保留有效话题。

具体实现时，包括下述步骤：

S41、统计当前话题集合内各话题的最热时间。

一个事件由一个或者多个话题组成，那么统计话题最热时间可以更好的表达一个事件的发展过程。

针对一个话题，将该话题所包含的各个新闻文本与该话题的空间向量模型进行相似度余弦计算，与该话题最近似的新闻文本的发布时间即为该话题的最热时间。具体的，第i个时间片内的话题集合topicterm_i中的第j个话题topic_ij包含p个新闻文本，将这些新闻文本与话题topic_ij的空间向量模型进行余弦相似度计算，与topic_ij最相似的那个新闻文本的发布时间即为该话题最热的时间，标记为time_ij。这样有：

topicterm_i＝{(topic_i1，time_i1),(topic_i2，time_i2)，…，(topic_is，time_is)}。

S42、根据一个时间片内的媒体关注热度和网民舆论热度计算话题的热度，最终形成的话题集合为话题的空间向量模型与最热时间、热度的集合。

一个时间片内，一个话题的热门情况表现为网站媒体的关注情况和网民用户的评论情况。综合起来话题的热门情况用热度(hot)来度量，将网站媒体的关注热度和网民舆论热度分开计算，由于媒体代表的就是大众，媒体披露的就是大众关注较多的，而网民的评论有很多无效的。两者需要分配一定比例权值。本实施例中，两种关注度按照4:1的比值相加得到最终的话题热度，即媒体关注热度的权值为0.8，网民舆论热度的权值为0.2，于是话题n在一个时间片内的热度可表示为：

其中hot_d和hot_w分别是媒体关注热度和网民舆论热度。

K:新闻发布对应的网站来源在时间片内的总量；

d_c：在第c个网站的新闻文本数量；

d_nc在第c个网站与话题n相关的新闻文本数量；

T：第c个网站包含的话题数量；

D_ic第i个话题在c网站的新闻文本数量；

rn：话题n在t时间片内被阅读总次数；

cn：话题n在t时间片内被评论总次数；

N：话题n包含的新闻文本数量；

rn_i：每篇新闻文本的阅读次数；

cn_i：每篇新闻文本的评论次数。

最后将得到的话题最热时间和话题热度添加到话题集合中，并与对应的话题关联，即第i个时间片内的话题集合变成话题的空间向量模型与最热时间、热度的集合。

topicterm_i＝{(topic_i1，time_i1，hot_i1),(topic_i2，time_i2，hot_i2)，…，(topic_is，time_is，hot_is)}。

S43、按照话题热度，一个话题集合保留热度值最大的W个话题，若话题集合中话题数量不大于W，则全部保留。

由于新闻文本的数量很大，里面包含热门、冷门的话题数量也非常多，但是热门事件是很少的，因此提取的很多话题可以舍弃。每个小时按照话题热度保留热度值大的40个话题用于事件提取，不足40则全部保留。

步骤S5、根据所有话题集合中的所有话题进行聚合分类抽取事件。

话题由一篇或者多篇新闻文本组成，事件是由一个或者多个话题组成。因此在步骤S3中使用采用优化增量聚类算法从新闻文本中提取话题的技术思想也可以应用在本步骤，因此本步骤也采用优化增量聚类算法从多个话题从抽取事件。具体的，如图3所示，包括下述步骤：

S51、设置一个空的事件集合。空事件集合标记为SJ。

S52、将得到的所有话题集合中的所有话题按照最热时间进行排序。

S53、将第一个话题的空间向量模型作为一个事件的空间向量模型，存入事件集合中；

S54、从第二个话题开始输出输入各话题的空间向量模型，对于当前输入话题的空间向量模型，计算与事件集合中的每个事件的空间向量模型的余弦相似度；

S55、若得到的余弦相似度均小于相似度阈值β，则认定当前输入的话题与事件合中的所有事件都不相关，在当前事件集合中新增一个事件，该新增事件的空间向量模型就是当前输入的话题的空间向量模型；

S56、若得到的余弦相似度有且只有一个大于相似度阈值β，则认定当前输入的话题与这个事件相关，并将话题归并到这个事件中，重新调整这个事件的空间向量模型。调整过程如下：当前输入话题与这个事件的空间向量模型中，对于相同关键词对应的权重取平均值，再按照权重从大到小进行排序，取前M个关键词和权重，实现这个事件的空间向量模型更新。

S57、若得到的余弦相似度有多个大于或等于相似度阈值β，则认定当前输入的话题与这多个事件均相关，并将话题与这多个事件合并形成一个新事件，重新调整这个新事件的空间向量模型。调整过程如下：当前输入话题和这多个事件的所有空间向量模型中，对于相同关键词对应的权重取平均值，再按照权重从大到小进行排序，取前M个关键词和权重，得到这个新事件的空间向量模型。

本步骤中，相似度阈值取β＝0.7。假设最后得到的事件集合中有t个话题，则SJ＝{sj₁，sj₂，…，sj_t}，sj_i表示第i个事件

步骤S6、计算每个事件的热度。

事件集合中，假设第i个事件中包含q个话题，则将这q个话题的热度相加，为整个时间段内该事件的总热度,因此本步骤计算的每个事件的热度为该事件所包含的所有话题的热度总和。事件热度标记为h。那么，事件集合表示为SJ＝{(sj₁,h₁)，(sj₂,h₂)，…，(sj_t,h_t)}。

步骤S7、判断是否是热门事件。

热门事件有时间效应，在热门事件发生至消亡的过程中，有一段时间最热门。设置一个时间窗口Δt，在给定新闻发布时间内移动，一个事件连续Δt时间内都有话题，那么这个事件就是热门事件。如取Δt＝2小时，如图4所述，在时间轴上，图示的一个时间间隔为一个时间片，为1小时，时间轴下方的是时间窗口，长度为2小时，将时间窗口在时间轴上连续移动，无论何时何刻，在时间窗口覆盖的时间范围内，都有该事件的话题出现，即一个事件在连续2小时内都有话题，则认定该事件是热门事件。

步骤S8、保留热门事件，按照热门事件的热度由大到小排列，展示出热门事件的热门程度。

综上，本发明改进了普通的增量聚类算法，并建立多级的优化增量聚类模型，先由新闻文本提取话题，再由筛选后的话题提取事件，减少了事件提取时相似度计算次数，提高了计算速度。并且根据媒体的关注情况和网民的舆论情况计算事件的热度，并判断事件是否热门，对热门的事件排名，此方法更客观，减少了事件排名的误差。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于网络媒体的热门事件提取方法，其特征在于，所述方法包括下述步骤：

S6、计算每个事件的热度；

S7、判断是否是热门事件；

S8、保留热门事件，按照热门事件的热度由大到小排列，展示出热门事件的热门程度；

其中，步骤S2中，针对每个时间片，对于当前时间片内发布的每篇新闻文本，采用TF-IDF算法提取每篇新闻文本对应的M个关键词并计算权重，每篇新闻文本表达成一个空间向量模型；

其中，步骤S3中，所述聚合分类采用优化增量聚类算法，具体包括：

S31、针对每个时间片，对新闻文本按照发布时间进行排序，取第一篇新闻文本的空间向量模型作为第一个话题的空间向量模型，存入当前时间片对应的话题集合；

S32、从第二篇新闻文本开始顺次输入新闻文本的空间向量模型，对于当前输入的新闻文本的空间向量模型，计算与话题集合中的每个话题的空间向量模型的余弦相似度；

S33、若得到的余弦相似度均小于相似度阈值α，则认定当前输入的新闻文本与话题集合中的所有话题都不相关，在当前话题集合中新增一个话题，该新增话题的空间向量模型就是当前输入的新闻文本的空间向量模型；

S34、若得到的余弦相似度有且只有一个大于或等于相似度阈值α，则认定当前输入的新闻文本与这个话题相关，并将新闻文本归并到这个话题中，重新调整这个话题的空间向量模型；

S35、若得到的余弦相似度有多个大于或等于相似度阈值α，则认定当前输入的新闻文本与这多个话题均相关，并将新闻文本与这多个话题合并形成一个新话题，重新调整这个新话题的空间向量模型；

其中，步骤S34中，重新调整这个话题的空间向量模型过程如下：

当前输入新闻文本与这个话题的空间向量模型中，对于相同关键词对应的权重取平均值，再按照权重从大到小进行排序，取前M个关键词和权重，实现这个话题的空间向量模型更新；

步骤S35中，重新调整这个新话题的空间向量模型过程如下：

当前输入新闻文本和这多个话题的所有空间向量模型中，对于相同关键词对应的权重取平均值，再按照权重从大到小进行排序，取前M个关键词和权重，得到这个新话题的空间向量模型；

其中，步骤S4具体包括：

S41、统计当前话题集合内各话题的最热时间；

S42、根据一个时间片内的媒体关注热度和网民舆论热度计算话题的热度，最终形成的话题集合为话题的空间向量模型与最热时间、热度的集合；

S43、按照话题热度，一个话题集合保留热度值最大的W个话题，若话题集合中话题数量不大于W，则全部保留；

其中，步骤S5中所述的聚合分类采用与步骤S3相同的优化增量聚类算法，具体包括：

S51、设置一个空的事件集合；

S52、将得到的所有话题集合中的所有话题按照最热时间进行排序；

S56、若得到的余弦相似度有且只有一个大于相似度阈值β，则认定当前输入的话题与这个事件相关，并将话题归并到这个事件中，重新调整这个事件的空间向量模型；

S57、若得到的余弦相似度有多个大于或等于相似度阈值β，则认定当前输入的话题与这多个事件均相关，并将话题与这多个事件合并形成一个新事件，重新调整这个新事件的空间向量模型；

其中，步骤S56中，重新调整这个事件的空间向量模型过程如下：

当前输入话题与这个事件的空间向量模型中，对于相同关键词对应的权重取平均值，再按照权重从大到小进行排序，取前M个关键词和权重，实现这个事件的空间向量模型更新；

步骤S57中，重新调整这个新事件的空间向量模型过程如下：

当前输入话题和这多个事件的所有空间向量模型中，对于相同关键词对应的权重取平均值，再按照权重从大到小进行排序，取前M个关键词和权重，得到这个新事件的空间向量模型。

2.如权利要求1所述基于网络媒体的热门事件提取方法，其特征在于，所述步骤S3还包括：

3.如权利要求2所述基于网络媒体的热门事件提取方法，其特征在于，步骤S6中，事件集合中的每个事件的热度为该事件所包含的所有话题的热度总和。

4.如权利要求3所述基于网络媒体的热门事件提取方法，其特征在于，步骤S7中热门事件的判定依据是：设置一个时间窗口Δt，在给定的新闻文本发布时间内移动，一个事件连续Δt时间内都有话题，那么认定这个事件是热门事件。