CN105302894A

CN105302894A - 一种基于并行关联规则的舆情热点跟踪方法与跟踪装置

Info

Publication number: CN105302894A
Application number: CN201510684937.XA
Authority: CN
Inventors: 李忠伟; 刘昕; 孙贝贝; 邹苹钧
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2015-10-21
Filing date: 2015-10-21
Publication date: 2016-02-03

Abstract

本发明实施例提供一种基于并行关联规则的舆情热点跟踪方法。热点关键词与后续事件存在潜在的关联性，通过将关联规则挖掘算法并行实现：首先获取1_项频繁关键词集，然后对数据进行分割并分布式并行处理，接下来合并结果并约简获得包含多项的频繁关键词集，在此基础上获取关联规则并推导热点关联关键词。本发明实施例还提供一种基于并行关联规则的舆情热点跟踪装置。本发明实施例提供的技术方案能够实现舆情热点跟踪和实时响应，为决策提供支持。

Description

一种基于并行关联规则的舆情热点跟踪方法与跟踪装置

技术领域

本发明涉及一种舆情热点跟踪方法，特别涉及一种基于并行关联规则的舆情热点跟踪方法与跟踪装置。

背景技术

舆情分析能够为政府机构和相关组织单位提供掌握大众民意信息和舆情动态提供技术支持。大数据环境下如何快速对海量网络数据进行分析并建立舆情监控和引导机制从而为管理者提供决策支持是当前研究的热点。对舆情信息进行分析，发现舆情热点并跟踪，从而为舆情预警和决策提供有力支持。

热点评估与跟踪是根据热点事件中公众的情感和行为反应对舆情进行等级评估。当前主要使用K最近邻算法(KNN)和朴素贝叶斯算法(NBC)进行热点跟踪，通过对热点舆情的快速分类，实现跟踪目的。KNN算法对于舆情信息的分类准确性较高，但是对于大批量数据的处理速度较慢。NBC算法在分类效率上较为稳定，但是由于其模型假设属性之间相互独立的特点,使得其分类误差率受到了一定的影响。

热点检测与跟踪算法通常首先将热点转化成中心向量模型，然后对中心向量进行相似度计算，进而对舆情信息进行分类，能够识别出新热点并与原来出现过的热点区分，实现热点跟踪。

热点主题相似度计算是热点检测与跟踪的关键技术，目前常见的计算文本向量之间相似度的公式主要有内积、余弦相似度、Correlation距离、Spearman距离、Euclidean距离等。此外，IBM的Okapi公式也得到了较多的应用。

现有的方法多数利用相似度进行归类实现热点跟踪，没有利用关键词信息挖掘数据之间时序上的内在联系，从而实现由已知舆情热点的关联关键词获取热点跟踪和预测。

发明内容

为了解决现有技术的问题，本发明提供了一种并行关联规则的舆情热点跟踪方法。本发明的并行关联规则的舆情热点跟踪方法，其基于热点关键词与后续事件存在潜在的关联性，通过将关联规则挖掘算法并行实现：首先进行数据分割，然后异步处理，接下来合并结果并约简获得包含多项的频繁关键词集，在此基础上获取关联规则并推导热点关联关键词，为舆情热点跟踪和响应决策提供支持。

本发明所采用的技术方案如下：

一种基于并行关联规则的舆情热点跟踪方法，包括以下步骤：

根据获取的社交网络页面信息对TOP1000关键词进行统计，获取1_项频繁关键词集；

设置用户支持数，在已经获得k-1_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下：

k_项频繁关键词集的获得由1_项频繁关键词集和k-1_项频繁关键词集合并获得，分为以下三个阶段：

首先根据k-1_项频繁关键词集进行数据分割和任务分配；其次，每个节点获得分配给它的k-1_项频繁关键词集和所有1_项频繁关键词集，在本地进行处理，独立产生k_项频繁关键词集；最后，在服务器将分布式处理的结果组合形成一个集合，将集合中的重复项删除，得到全局的k_项频繁关键词集；

继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度，将存在频繁关键词集的最大项记为n；

根据得到的所有k_项频繁关键词集(1《k《n)和用户要求的最小可信度，产生所有大于最小可信度的关联规则，根据关联规则获取关联关键词，将一个热点关键词的关联关键词组合形成热点相关信息，实现对舆情热点的跟踪和预警。

所述的一种基于并行关联规则的舆情热点跟踪方法，其特征在于，所述的1_项频繁关键词集是指：包含系统定义的TOP1000关键词中的1个关键词且达到支持度的关键词集。

所述的一种基于并行关联规则的舆情热点跟踪方法，其特征在于，热点关联关键词展示了舆情热点的相关信息，对其进行筛选和组合，可以获得关联热点，从而实现对舆情热点跟踪和事态发展预测，便于预警。

另一方面，本发明提供了一种基于并行关联规则的舆情热点跟踪装置，包括以下模块：

1_项频繁关键词获取模块：根据获取的社交网络页面信息对TOP1000关键词进行统计，获取1_项频繁关键词集。

k_项频繁关键词集获取模块：设置用户支持数，在已经获得k-1_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下：

k_项频繁关键词集的获得由1_项频繁关键词集和k-1_项频繁关键词集合并获得，分为以下三个阶段：首先根据k-1_项频繁关键词集进行数据分割和任务分配；其次，每个节点获得分配给它的k-1_项频繁关键词集和所有1_项频繁关键词集，在本地进行处理，独立产生k_项频繁关键词集；最后，在服务器将分布式处理的结果组合形成一个集合，将集合中的重复项删除，得到全局的k_项频繁关键词集；

继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度，将存在频繁关键词集的最大项记为n。

关联关键词获取模块：根据得到的所有k_项频繁关键词集(1《k《n)和用户要求的最小可信度，产生所有大于最小可信度的关联规则，根据关联规则获取关联关键词，将一个热点关键词的关联关键词组合形成热点相关信息，实现对舆情热点的跟踪和预警。

本发明提供的技术方案以及热点跟踪装置带来的有益效果是：

本发明基于热点关键词与后续事件存在潜在的关联性，通过将关联规则挖掘算法并行实现获得包含多项的频繁关键词集，在频繁关键词集中发现关联规则从而获取热点关联关键词，为舆情热点跟踪和响应决策提供支持，提高响应的时效性，使得政府机构能够准确掌握当前的实时舆情趋势并进行跟踪，提高舆情应对策略的针对性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于并行关联规则的舆情热点跟踪方法中生成舆情热点的并行算法执行过程图。

图2为本发明一实施例提供的基于并行关联规则的舆情热点跟踪装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本实施例的基础在于，事先获取TOP1000关键词，TOP1000关键词能够满足当前主要舆情热点信息的获取，通过社区划分获取每个节点的实时关键词，1_项频繁关键词集是指：包含系统定义的TOP1000关键词中的1个关键词且达到支持度的关键词集。在此基础上形成1_项频繁关键词集。

在已经获取1_项频繁关键词集基础上，设置用户支持数，然后依次获得2_项频繁关键词集、…、n_项频繁关键词集。

k_项频繁关键词集的获得由1_项频繁关键词集和k-1_项频繁关键词集合并获得，分为以下三个阶段：首先根据k-1_项频繁关键词集进行数据分割和任务分配，将一个或者m个k-1_项频繁关键词集分配给一个节点，m的值由k-1_项频繁关键词集的数目和并行系统中节点的数目确定，任务调度尽量保证负载均衡；其次，每个节点获得分配给它的k-1_项频繁关键词集和所有1_项频繁关键词集，在本地进行异步处理，将k-1_项频繁关键词集和所有1_项频繁关键词集逐一合并，对其支持度进行判断，独立产生k_项频繁关键词集；最后，服务器将分布式处理的结果组合形成一个集合并约简，将重复的k_项频繁关键词集删除，得到全局的k_项频繁关键词集。

令k＝k+1，继续进行上面的步骤直到所有k+1_项候选集的支持度都不能达到用户指定的支持度。将存在频繁关键词集的最大项记为n。

根据得到的所有k_项频繁关键词集(1《k《n)和用户要求的最小可信度，计算产生所有大于最小可信度的关联规则。

关联规则中涉及的最大项，根据关联规则获取关联关键词，将一个热点关键词的关联关键词组合形成热点相关信息，实现对舆情热点的跟踪和预警。

Claims

1.一种基于并行关联规则的舆情热点跟踪方法，其特征在于：

2.根据权利要求1所述的一种基于并行关联规则的舆情热点跟踪方法，其特征在于，所述的1_项频繁关键词集是指：包含系统定义的TOP1000关键词中的1个关键词且达到支持度的关键词集。

3.根据权利要求1所述的一种基于并行关联规则的舆情热点跟踪方法，其特征在于，热点关联关键词展示了舆情热点的相关信息，对其进行筛选和组合，可以获得关联热点，从而实现对舆情热点跟踪和事态发展预测，便于预警。

4.一种基于并行关联规则的舆情热点跟踪装置，包括以下模块：