CN105302894A - 一种基于并行关联规则的舆情热点跟踪方法与跟踪装置 - Google Patents
一种基于并行关联规则的舆情热点跟踪方法与跟踪装置 Download PDFInfo
- Publication number
- CN105302894A CN105302894A CN201510684937.XA CN201510684937A CN105302894A CN 105302894 A CN105302894 A CN 105302894A CN 201510684937 A CN201510684937 A CN 201510684937A CN 105302894 A CN105302894 A CN 105302894A
- Authority
- CN
- China
- Prior art keywords
- item
- keyword set
- frequent
- keyword
- frequent keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种基于并行关联规则的舆情热点跟踪方法。热点关键词与后续事件存在潜在的关联性,通过将关联规则挖掘算法并行实现:首先获取1_项频繁关键词集,然后对数据进行分割并分布式并行处理,接下来合并结果并约简获得包含多项的频繁关键词集,在此基础上获取关联规则并推导热点关联关键词。本发明实施例还提供一种基于并行关联规则的舆情热点跟踪装置。本发明实施例提供的技术方案能够实现舆情热点跟踪和实时响应,为决策提供支持。
Description
技术领域
本发明涉及一种舆情热点跟踪方法,特别涉及一种基于并行关联规则的舆情热点跟踪方法与跟踪装置。
背景技术
舆情分析能够为政府机构和相关组织单位提供掌握大众民意信息和舆情动态提供技术支持。大数据环境下如何快速对海量网络数据进行分析并建立舆情监控和引导机制从而为管理者提供决策支持是当前研究的热点。对舆情信息进行分析,发现舆情热点并跟踪,从而为舆情预警和决策提供有力支持。
热点评估与跟踪是根据热点事件中公众的情感和行为反应对舆情进行等级评估。当前主要使用K最近邻算法(KNN)和朴素贝叶斯算法(NBC)进行热点跟踪,通过对热点舆情的快速分类,实现跟踪目的。KNN算法对于舆情信息的分类准确性较高,但是对于大批量数据的处理速度较慢。NBC算法在分类效率上较为稳定,但是由于其模型假设属性之间相互独立的特点,使得其分类误差率受到了一定的影响。
热点检测与跟踪算法通常首先将热点转化成中心向量模型,然后对中心向量进行相似度计算,进而对舆情信息进行分类,能够识别出新热点并与原来出现过的热点区分,实现热点跟踪。
热点主题相似度计算是热点检测与跟踪的关键技术,目前常见的计算文本向量之间相似度的公式主要有内积、余弦相似度、Correlation距离、Spearman距离、Euclidean距离等。此外,IBM的Okapi公式也得到了较多的应用。
现有的方法多数利用相似度进行归类实现热点跟踪,没有利用关键词信息挖掘数据之间时序上的内在联系,从而实现由已知舆情热点的关联关键词获取热点跟踪和预测。
发明内容
为了解决现有技术的问题,本发明提供了一种并行关联规则的舆情热点跟踪方法。本发明的并行关联规则的舆情热点跟踪方法,其基于热点关键词与后续事件存在潜在的关联性,通过将关联规则挖掘算法并行实现:首先进行数据分割,然后异步处理,接下来合并结果并约简获得包含多项的频繁关键词集,在此基础上获取关联规则并推导热点关联关键词,为舆情热点跟踪和响应决策提供支持。
本发明所采用的技术方案如下:
一种基于并行关联规则的舆情热点跟踪方法,包括以下步骤:
根据获取的社交网络页面信息对TOP1000关键词进行统计,获取1_项频繁关键词集;
设置用户支持数,在已经获得k-1_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下:
k_项频繁关键词集的获得由1_项频繁关键词集和k-1_项频繁关键词集合并获得,分为以下三个阶段:
首先根据k-1_项频繁关键词集进行数据分割和任务分配;其次,每个节点获得分配给它的k-1_项频繁关键词集和所有1_项频繁关键词集,在本地进行处理,独立产生k_项频繁关键词集;最后,在服务器将分布式处理的结果组合形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;
继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度,将存在频繁关键词集的最大项记为n;
根据得到的所有k_项频繁关键词集(1《k《n)和用户要求的最小可信度,产生所有大于最小可信度的关联规则,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。
所述的一种基于并行关联规则的舆情热点跟踪方法,其特征在于,所述的1_项频繁关键词集是指:包含系统定义的TOP1000关键词中的1个关键词且达到支持度的关键词集。
所述的一种基于并行关联规则的舆情热点跟踪方法,其特征在于,热点关联关键词展示了舆情热点的相关信息,对其进行筛选和组合,可以获得关联热点,从而实现对舆情热点跟踪和事态发展预测,便于预警。
另一方面,本发明提供了一种基于并行关联规则的舆情热点跟踪装置,包括以下模块:
1_项频繁关键词获取模块:根据获取的社交网络页面信息对TOP1000关键词进行统计,获取1_项频繁关键词集。
k_项频繁关键词集获取模块:设置用户支持数,在已经获得k-1_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下:
k_项频繁关键词集的获得由1_项频繁关键词集和k-1_项频繁关键词集合并获得,分为以下三个阶段:首先根据k-1_项频繁关键词集进行数据分割和任务分配;其次,每个节点获得分配给它的k-1_项频繁关键词集和所有1_项频繁关键词集,在本地进行处理,独立产生k_项频繁关键词集;最后,在服务器将分布式处理的结果组合形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;
继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度,将存在频繁关键词集的最大项记为n。
关联关键词获取模块:根据得到的所有k_项频繁关键词集(1《k《n)和用户要求的最小可信度,产生所有大于最小可信度的关联规则,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。
本发明提供的技术方案以及热点跟踪装置带来的有益效果是:
本发明基于热点关键词与后续事件存在潜在的关联性,通过将关联规则挖掘算法并行实现获得包含多项的频繁关键词集,在频繁关键词集中发现关联规则从而获取热点关联关键词,为舆情热点跟踪和响应决策提供支持,提高响应的时效性,使得政府机构能够准确掌握当前的实时舆情趋势并进行跟踪,提高舆情应对策略的针对性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于并行关联规则的舆情热点跟踪方法中生成舆情热点的并行算法执行过程图。
图2为本发明一实施例提供的基于并行关联规则的舆情热点跟踪装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本实施例的基础在于,事先获取TOP1000关键词,TOP1000关键词能够满足当前主要舆情热点信息的获取,通过社区划分获取每个节点的实时关键词,1_项频繁关键词集是指:包含系统定义的TOP1000关键词中的1个关键词且达到支持度的关键词集。在此基础上形成1_项频繁关键词集。
在已经获取1_项频繁关键词集基础上,设置用户支持数,然后依次获得2_项频繁关键词集、…、n_项频繁关键词集。
k_项频繁关键词集的获得由1_项频繁关键词集和k-1_项频繁关键词集合并获得,分为以下三个阶段:首先根据k-1_项频繁关键词集进行数据分割和任务分配,将一个或者m个k-1_项频繁关键词集分配给一个节点,m的值由k-1_项频繁关键词集的数目和并行系统中节点的数目确定,任务调度尽量保证负载均衡;其次,每个节点获得分配给它的k-1_项频繁关键词集和所有1_项频繁关键词集,在本地进行异步处理,将k-1_项频繁关键词集和所有1_项频繁关键词集逐一合并,对其支持度进行判断,独立产生k_项频繁关键词集;最后,服务器将分布式处理的结果组合形成一个集合并约简,将重复的k_项频繁关键词集删除,得到全局的k_项频繁关键词集。
令k=k+1,继续进行上面的步骤直到所有k+1_项候选集的支持度都不能达到用户指定的支持度。将存在频繁关键词集的最大项记为n。
根据得到的所有k_项频繁关键词集(1《k《n)和用户要求的最小可信度,计算产生所有大于最小可信度的关联规则。
关联规则中涉及的最大项,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。
Claims (4)
1.一种基于并行关联规则的舆情热点跟踪方法,其特征在于:
根据获取的社交网络页面信息对TOP1000关键词进行统计,获取1_项频繁关键词集;
设置用户支持数,在已经获得k-1_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下:
k_项频繁关键词集的获得由1_项频繁关键词集和k-1_项频繁关键词集合并获得,分为以下三个阶段:首先根据k-1_项频繁关键词集进行数据分割和任务分配;其次,每个节点获得分配给它的k-1_项频繁关键词集和所有1_项频繁关键词集,在本地进行处理,独立产生k_项频繁关键词集;最后,在服务器将分布式处理的结果组合形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;
继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度,将存在频繁关键词集的最大项记为n;
根据得到的所有k_项频繁关键词集(1《k《n)和用户要求的最小可信度,产生所有大于最小可信度的关联规则,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。
2.根据权利要求1所述的一种基于并行关联规则的舆情热点跟踪方法,其特征在于,所述的1_项频繁关键词集是指:包含系统定义的TOP1000关键词中的1个关键词且达到支持度的关键词集。
3.根据权利要求1所述的一种基于并行关联规则的舆情热点跟踪方法,其特征在于,热点关联关键词展示了舆情热点的相关信息,对其进行筛选和组合,可以获得关联热点,从而实现对舆情热点跟踪和事态发展预测,便于预警。
4.一种基于并行关联规则的舆情热点跟踪装置,包括以下模块:
1_项频繁关键词获取模块:根据获取的社交网络页面信息对TOP1000关键词进行统计,获取1_项频繁关键词集。
k_项频繁关键词集获取模块:设置用户支持数,在已经获得k-1_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下:
k_项频繁关键词集的获得由1_项频繁关键词集和k-1_项频繁关键词集合并获得,分为以下三个阶段:首先根据k-1_项频繁关键词集进行数据分割和任务分配;其次,每个节点获得分配给它的k-1_项频繁关键词集和所有1_项频繁关键词集,在本地进行处理,独立产生k_项频繁关键词集;最后,在服务器将分布式处理的结果组合形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;
继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度,将存在频繁关键词集的最大项记为n。
关联关键词获取模块:根据得到的所有k_项频繁关键词集(1《k《n)和用户要求的最小可信度,产生所有大于最小可信度的关联规则,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510684937.XA CN105302894A (zh) | 2015-10-21 | 2015-10-21 | 一种基于并行关联规则的舆情热点跟踪方法与跟踪装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510684937.XA CN105302894A (zh) | 2015-10-21 | 2015-10-21 | 一种基于并行关联规则的舆情热点跟踪方法与跟踪装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105302894A true CN105302894A (zh) | 2016-02-03 |
Family
ID=55200164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510684937.XA Pending CN105302894A (zh) | 2015-10-21 | 2015-10-21 | 一种基于并行关联规则的舆情热点跟踪方法与跟踪装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105302894A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239489A (zh) * | 2017-04-21 | 2017-10-10 | 南京理工大学 | 基于soar模型的突发事件中网络舆情的预测与仿真方法 |
CN107256213A (zh) * | 2017-06-28 | 2017-10-17 | 中国石油大学(华东) | 一种基于并行关联规则的话题关系发现方法和发现装置 |
CN107463554A (zh) * | 2016-06-02 | 2017-12-12 | 阿里巴巴集团控股有限公司 | 短语挖掘方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2136302A1 (en) * | 2007-04-10 | 2009-12-23 | Alibaba Group Holding Limited | Method and device for generating updating parameter, and method and device for showing related keyword |
CN101799810A (zh) * | 2009-02-06 | 2010-08-11 | 中国移动通信集团公司 | 一种关联规则挖掘方法及其系统 |
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
-
2015
- 2015-10-21 CN CN201510684937.XA patent/CN105302894A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2136302A1 (en) * | 2007-04-10 | 2009-12-23 | Alibaba Group Holding Limited | Method and device for generating updating parameter, and method and device for showing related keyword |
CN101799810A (zh) * | 2009-02-06 | 2010-08-11 | 中国移动通信集团公司 | 一种关联规则挖掘方法及其系统 |
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
Non-Patent Citations (2)
Title |
---|
任晓霞,李卓玲,周振柳: ""Apriori算法在BBS舆情分析系统中的应用"", 《沈阳工程学院学报(自然科学版)》 * |
刘华婷,郭仁祥,姜浩: ""关联规则挖掘Apriori算法的研究与改进"", 《计算机应用与软件》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463554A (zh) * | 2016-06-02 | 2017-12-12 | 阿里巴巴集团控股有限公司 | 短语挖掘方法及装置 |
CN107463554B (zh) * | 2016-06-02 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 短语挖掘方法及装置 |
CN107239489A (zh) * | 2017-04-21 | 2017-10-10 | 南京理工大学 | 基于soar模型的突发事件中网络舆情的预测与仿真方法 |
CN107256213A (zh) * | 2017-06-28 | 2017-10-17 | 中国石油大学(华东) | 一种基于并行关联规则的话题关系发现方法和发现装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Dynamic explainable recommendation based on neural attentive models | |
Li et al. | Using text mining and sentiment analysis for online forums hotspot detection and forecast | |
Patil et al. | Sentiment analysis for social media: a survey | |
Ghosal et al. | Novelty goes deep. A deep neural solution to document level novelty detection | |
CN109543012A (zh) | 一种基于Word2Vec和RNN的用户意图识别方法及装置 | |
Saeed et al. | Text stream to temporal network-a dynamic heartbeat graph to detect emerging events on twitter | |
Ikeda et al. | Semi-Supervised Learning for Blog Classification. | |
Tan et al. | Bit-aware semantic transformer hashing for multi-modal retrieval | |
Chen et al. | Online event detection and tracking in social media based on neural similarity metric learning | |
Huang et al. | Sentiment analysis in e-commerce platforms: A review of current techniques and future directions | |
CN105302894A (zh) | 一种基于并行关联规则的舆情热点跟踪方法与跟踪装置 | |
Zhang et al. | Interactive multi-head attention networks for aspect-level sentiment classification | |
Bielski et al. | Pay Attention to Virality: understanding popularity of social media videos with the attention mechanism | |
CN110147482B (zh) | 用于获取突发热点主题的方法和装置 | |
Zhao et al. | A graph convolution-based heterogeneous fusion network for multimodal sentiment analysis | |
Dasondi et al. | An implementation of graph based text classification technique for social media | |
Amri et al. | Web of Science | |
CN115186647A (zh) | 文本相似度的检测方法、装置、电子设备及存储介质 | |
Luber et al. | Identifying topical shifts in twitter streams: an integration of non-negative matrix factorisation, sentiment analysis and structural break models for large scale data | |
Rao et al. | Prediction and Analysis of Sentiments on Twitter Data using Machine Learning Approach | |
Chandurkar et al. | Sentiment analysis: A review and comparative analysis on colleges | |
Kakar et al. | Clustered Bert Model for predicting Retweet Popularity | |
Lak et al. | News Article Position Recommendation Based on the Analysis of Article's Content-Time Matters. | |
Sun et al. | Learning weighted video segments for temporal action localization | |
Mishra et al. | Sentiment Analysis of Twitter Text Using Machine Learning Techniques Like Logistic Regression, Naïve Bayes, and Multinomial Naïve Bayes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160203 |
|
RJ01 | Rejection of invention patent application after publication |