CN103116651A

CN103116651A - 一种舆情热点动态检测方法

Info

Publication number: CN103116651A
Application number: CN2013100691819A
Authority: CN
Inventors: 李千目; 刘婷; 侯君; 戚湧
Original assignee: Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Current assignee: Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Priority date: 2013-03-05
Filing date: 2013-03-05
Publication date: 2013-05-22

Abstract

本发明公开了一种舆情热点动态检测方法，属于网络信息处理技术领域。该方法利用舆情热点本身的特点，通过引入主题排序、主题合并与调整、报道淘汰以及主题描述等步骤，在主题排序方面，考虑了主题的时间和数量特性，为某一时刻的每个主题计算出其得分值，使得主题排序更加合理，通过引入主题合并和调整的机制，减少了同一主题被误分为多个小主题的情况，通过引入主题内报道淘汰的机制，使得主题的内容更加集中，同时主题描述提出了将特征词和报道标题相结合的方法使得主题描述更加准确全面。

Description

一种舆情热点动态检测方法

技术领域

本发明涉及一种舆情热点动态检测方法，属于网络信息处理技术领域。

背景技术

网络舆情，是指在互联网上，围绕某些中介性社会事件的发生、发展和变化，网民对社会管理者产生和持有的社会政治态度，是网民关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。由于网络媒体的参与门槛低，使得网民的社会阶层分布广泛，反映出当前社会各个阶层民众的思想动态。

网络媒体能够反映社会民意的社会舆情，但同时一些不负责任的虚假信息、极端言论以及失实的政治舆论也在传播，我国当前处于一个矛盾高发的时代，所面临的网络舆情检测与分析形势严峻，能够正确有效地把握危机事件，有利于维护社会的稳定、和谐发展，因此，在面对论坛、博客、微博等网络媒体中海量数据的时候，如何及时、准确地从互联网中检测到热点的舆情信息，快速准确地制止危及国家和社会稳定的不稳定因素以及引导正面舆论，促进和谐社会建设，保障经济持续稳定发展具有重大的意义。

舆情热点检测技术是指从不断涌现的网络舆情中即时地获得新发生的热点信息，并对其进行持续追踪，主要依靠主题检测与追踪技术来实现。其中，文本聚类技术是主题检测技术的基础，包括单遍聚类、k-means聚类、层次凝聚聚类、概率模型。

现有的主题检测技术的主要步骤为：（1）从数据源读入一篇报道，数据源可以是多个，包括内容、时间等其它信息；（2）采用质心比较策略或最近邻居比较策略，确定与当前报道最接近的主题；（3）判断报道与现有主题的相似度，若报道能归入某个主题，则调整该主题，若报道无法归入现有主题，则列为新主题；（4）输出检测到的主题，将主题中的特征词作为主题描述。

由于现有主题检测技术主要考虑在固定的小数据集合上的错检率和漏检率，在实舆情热点自动检测时，主要存在的问题：（1）主题排序问题，现有技术仅仅按照主题本身包含的文档个数来排序，使得当前排序最前的主题是一些发生时间较长，相对陈旧的主题；（2）主题相似性问题，由于同一个主题在发生初期会进行不同方面的报道而被分为多个小主题，随着事态的发展，主题的相似度可能会越来越大，这就给用户的浏览带来迷惑；（3）淘汰过时报道问题，主题检测是长期持续的过程，而主题的动态演化使得主题内的一些报道和该主题的相关性会逐渐降低，或随着事态发展，整个主题内容可能过于宽泛，现有技术中没有考虑到过时报道淘汰问题；（4）主题描述问题，目前主题的描述包括提取主题若干个特征词和提取该主题中某个报道的标题两种方法，但是中文的自然语言处理技术仍然不够成熟，特征词并不一定可以表达该主题的意义，而如果采用该主题中某个报道的标题来描述，则可能会片面。

发明内容

本发明的目的在于通过改进现有的主题检测算法，并将其用于解决舆情热点检测存在的问题而提供一种舆情热点动态监测方法。

本发明通过如下技术方案实现，具体包括如下步骤：

步骤1，检测一个或多个新闻网络数据源，从数据源中抓取报道，解析出报道的时间、标题和正文信息；

所述的新闻网络数据源，当新报道和已经处理报道的重复度大于重复阈值θ_d时，则认为是重复报道，根据新报道的内容进行消重处理，其中0<θ_d≤1；

所述的消重处理步骤为：采用文本挖掘中的相似度计算方法进行，并在报道预处理中，对报道按照网络数据来源规则和基于内容的自动分类相结合的方法进行分类。

步骤2，采用质心比较策略，将当前报道与所属类别内现有监测到的主题进行比较，同时考虑时间和内容特征，计算当前报道和现有监测到的主题间的相似度，并记录最大相似度S_max以及相似度最大的主题E_s；

所述的主题E_s通过主题内部所有新闻中综合权重最高的若干个特征词来表达；所述的当前报道和主题E_s之间的相似度基于向量空间模型，通过两者的夹角余弦值来计算；

其中，在计算当前报道和现有监测到的主题间的相似度S时，给予权威性较高的报道以较高权重，报道的权威性采用数据源的权威性。

步骤3，根据步骤2中计算得到的最大相似度S_max以及相似度最大的主题E_s，对当前报道采取如下措施：

a) 如果S_max小于创新阈值θ_n，则在该报道所述类别内创建一个新主题；

b) 如果S_max大于θ_n而小于聚类阈值θ_c，则返回步骤1；

c) 如果S_max大于θ_c而小于贡献阈值θ_t，则将当前报道的文章归于主题E_s，但不调整E_s；

d) 如果S_max大于θ_t，则将当前报道的文章归入主题E_s，并调整E_s；

其中，0<θ_n<θ_c<θ_t≤1，0<S_max≤1。

步骤4，当一个类别处理固定数量新增报道后，对该类别内主题两两比较，如果两个主题的相似度大于合并阈值θ_u，则将其合并，其中，0<θ_u<θ_n≤1；

所述的两个主题的相似度S，其计算是采用如下公式：

其中，

是两个检测到的新闻主题，

分别是中的报道，

是两个报道之间的相似度，指的是两个主题中包含的报道数目的乘积。

步骤5，当一个类别处理固定数量新增报道后，对各个主题内的报道进行淘汰，重新计算报道和该主题的相似度S，对相似度S低于聚类阈值θ_c的报道进行淘汰，然后再重新计算主题向量。

步骤6，若当前类别内的主题数量超过主题窗口大小，对类别内的主题进行排序，结合主题的时间和数量特性，从所有类别中选择出得分最高的若干个主题，作为该类别最热点的主题，并输出主题描述和包含的报道列表，其中，主题描述的生成过程如下：

步骤a)，读取主题内部权重最高的若干个特征词；

步骤b)，在与主题相似度大于主题阈值θ_e的主题内报道中，选择时间最近的若干篇报道的标题，其中0<θ_e≤1；

步骤c），综合a) 和b)，输出该主题的描述。

所述的在进行主题排序时，结合时间和数量特性，同时考虑之前的文档数量和当天的文档数量，时间越近的文档排序权重越大，按照设定的时间进行分段t1，t2，…tn，如果某个主题T在这n段时间内分别包含c1，c2，…cn个文档，则主题T的排序权重为：，其中0<

<1。

本发明的技术效果在于：（1）主题排序问题，本发明引入对所有主题在固定时刻计算权重值，从而对主题进行排序的机制，该机制综合考虑主题内文档的时间特性和重要度特性，进而在某一时刻对主题进行权重值计算，主题的浏览次序根据主题的综合权重值进行智能排序；（2）主题相似性问题，本发明引入主题合并和调整机制，该机制引入时间窗口和动态调整机制，即过一段时间对多个小主题进行两两比较，进行合并；或根据处理固定个数的报道，就对两两主题之间进行比较，对主题进行合并；（3）淘汰过时报道问题，和主题相似性问题中描述的方法相似，本发明引入时间窗口和动态调整机制，即过一段时间就对大主题进行检测，分裂成小主题；或引入固定个数的报道后，就对主题进行分析，将大主题分裂成小主题；（4）主题描述问题，本发明对舆论热点的描述采用了滚动特征词和滚动报道标题结合的方法，选择主题内部权重最高的若干个特征词描述主题；同时选择主题内部权重最高的，最具代表性的若干篇报道题目作为主题描述的一部分。

附图说明

图1是本发明的流程示意图。

图2是本发明算法的流程图。

其中，S_max表示报道和主题间的最大相似度；θn表示创新阈值；θc表示聚类阈值；θt表示贡献阈值；且0<θ_n<θ_c<θ_t≤1，0<S_max≤1；θu表示合并阈值，0<θ_u<θ_n≤1；θe表示主题阈值，0<θ_e≤1。

具体实施方式

下面结合附图对本发明的实施例作详细说明。

一种舆情热点动态监测方法，其具体步骤如下：

步骤1，对于多个新闻网络数据源进行不断地检测，从网络中自动抓取报道，解析出报道的时间、标题和正文信息等，如果没有从报道中找到时间，则以抓取时间为准；

由于多个数据源之间存在相当的重复，根据文本内容对新抓取的报道进行消重处理，如果新报道和已经处理报道重复度大于阈值θ_d，则认为是重复的报道。

步骤2，采用质心比较策略，将报道与所属类别c内现有监测到的主题进行比较，同时考虑时间和内容特征，计算报道和主题间的相似度，并记录最大相似度S_max以及相似度最大的主题E_s，确定与当前报道最相近的主题；主题本身通过主题内部所有新闻中综合权重最高的若干个特征词来表达，报道和主题之间的相似度基于向量空间模型，通过两者的夹角余弦值来计算，同时赋予报道的标题以较高的权重。

a) 如果S_max小于创新阈值θn，在该报道所述类别内创建一个新主题；

b) 如果S_max大于θn但是小于聚类阈值θc，不做处理，返回步骤1；

c) 如果S_max大于θc但是小于贡献阈值θt，将文章归于当前主题，不调整Es；

d) 如果S_max大于θt，归入主题Es，并调整Es。

步骤4，当一个类别处理固定数量（如30条）新增报道或到达设置的时间节点之后，对该类别内主题两两比较，如果两个主题的相似度大于合并阈值θ_u，则将其合并。

步骤5，当一个类别处理固定数量（如30条）新增报道或到达设置的时间节点之后，对各个主题内的报道进行淘汰，重新计算报道和该主题的相似度，对相似度低于聚类阈值θ_c或者不满足时间限制条件的报道进行淘汰，然后再重新计算主题向量。

步骤6，若当前类别内的主题数量超过主题窗口大小，对类别内的主要主题进行排序，结合主题的时间和数量特性，从所有类别中选择出得分最高的若干个主题，作为该类别最热点的主题，输出主题描述和包含的报道列表，其中，主题描述的生成过程如下：

a) 读取主题内部权重最高的若干个特征词；

b) 在于主题相似度大于主题阈值θ_e的主题内报道中，选择时间最近的若干篇报道的标题；主题阈值还可以采取按照比例的方式进行设置；

c）综合前两项，输出该主题的描述。

下面对上述步骤进行细节说明：

步骤1中的重复阈值θ_d的取值范围在(0,1]之间，所述消重处理是根据报道的内容采用文本挖掘中的相似度计算方法进行，在报道预处理中，采用自动分类的方法对报道按照预先设定好的类别进行分类，本发明中采用基于来源的规则分类和基于内容的自动分类相结合的方法对报道进行分类。

步骤2中所述的确定于当前报道相关的主题时采用质心比较策略，相似度计算考虑结合报道和主题的时间特性。在进行相似度计算的时候，给予权威性较高的报道以较高权重，报道的权威性采用数据源的权威性。

步骤4中的主题间相似度计算，是采用传统聚类算法中计算的聚类相似度值，采用如下公式：

其中，是两个检测到的新闻主题，

分别是

中的报道，

是两个报道之间的相似度，

指的是两个主题中包含的报道数目的乘积，θ_u的取值在(0,1]之间。

步骤5中淘汰新闻的条件可以是相似度阈值或者时间限制，也可以是外部限制如关注度，用户点击次数等。

步骤6中计算主题排序时候，需要结合时间和数量特性，本发明中采取的是同时考虑文档数量和当天的文档数量，时间越近的文档排序权重越大。按照设定的时间（如2小时）对时间进行分段t1，t2，…tn，这n段时间内，如果某个主题T在这n段时间内分别包含c1，c2，…cn个文档，则主题T的排序权重为：

Figure 2013100691819100002DEST_PATH_IMAGE001

其中

可以由用户自己确定。

Claims

1.一种舆情热点动态检测方法，其特征在于具体算法步骤如下：

步骤2，采用质心比较策略，将当前报道与所属类别c内现有监测到的主题进行比较，同时考虑时间和内容特征，计算当前报道和现有监测到的主题间的相似度，并记录最大相似度S_max以及相似度最大的主题E_s；

b) 如果S_max大于θ_n而小于聚类阈值θ_c，则返回步骤1；

其中，0<θ_n<θ_c<θ_t≤1，0<S_max≤1；

步骤5，当一个类别处理固定数量新增报道后，对各个主题内的报道进行淘汰，重新计算报道和该主题的相似度S，对相似度S低于聚类阈值θ_c的报道进行淘汰，然后再重新计算主题向量；

步骤a) ，读取主题内部权重最高的若干个特征词；

步骤b) ，在与主题相似度大于主题阈值θ_e的主题内报道中，选择时间最近的若干篇报道的标题，其中0<θ_e≤1；

步骤c），综合步骤a) 和步骤b)，输出该主题的描述。

2.根据权利要求1所述的一种舆情热点动态检测方法，其特征在于：步骤1中所述的新闻网络数据源，当新报道和已经处理报道的重复度大于重复阈值θ_d时，则认为是重复报道，根据新报道的内容进行消重处理，其中0<θ_d≤1。

3.根据权利要求2所述的一种舆情热点动态检测方法，其特征在于：所述的消重处理步骤为：采用文本挖掘中的相似度计算方法进行，并在报道预处理中，对报道按照网络数据来源规则和基于内容的自动分类相结合的方法进行分类。

4.根据权利要求1所述的一种舆情热点动态检测方法，其特征在于：步骤2中在计算当前报道和现有监测到的主题间的相似度S时，给予权威性较高的报道以较高权重，报道的权威性采用数据源的权威性。

5.根据权利要求1所述的一种舆情热点动态检测方法，其特征在于：步骤3中所述的主题E_s通过主题内部所有新闻中综合权重最高的若干个特征词来表达；所述的当前报道和主题E_s之间的相似度基于向量空间模型，通过两者的夹角余弦值来计算，同时赋予报道的标题以较高权重。

6.根据权利要求1所述的一种舆情热点动态检测方法，其特征在于：步骤4中所述的两个主题的相似度S，其计算是采用如下公式：

其中，

是两个检测到的新闻主题，

分别是

中的报道，

是两个报道之间的相似度，

指的是两个主题中包含的报道数目的乘积。

7.根据权利要求1所述的一种舆情热点动态检测方法，其特征在于：步骤6中所述的在进行主题排序时，结合时间和数量特性，同时考虑之前的文档数量和当天的文档数量，时间越近的文档排序权重越大，按照设定的时间进行分段t1，t2，…tn，如果某个主题T在这n段时间内分别包含c1，c2，…cn个文档，则主题T的排序权重为：

Figure 2013100691819100001DEST_PATH_IMAGE001

，其中0<

<1。

8.根据权利要求1所述的一种舆情热点动态检测方法，其特征在于：所述的主题E_s通过主题内部所有新闻中综合权重最高的若干个特征词来表达；所述的当前报道和主题E_s之间的相似度基于向量空间模型，通过两者的夹角余弦值来计算。