CN109857869B - 一种基于Ap增量聚类和网络基元的热点话题预测方法 - Google Patents
一种基于Ap增量聚类和网络基元的热点话题预测方法 Download PDFInfo
- Publication number
- CN109857869B CN109857869B CN201910076648.XA CN201910076648A CN109857869B CN 109857869 B CN109857869 B CN 109857869B CN 201910076648 A CN201910076648 A CN 201910076648A CN 109857869 B CN109857869 B CN 109857869B
- Authority
- CN
- China
- Prior art keywords
- event
- clustering
- data
- network
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Ap增量聚类和网络基元的热点话题预测方法,获取推文数据;推文数据预处理;Ap增量聚类的话题发现;基于用户网络的网络基元的热点话题预测。在基础上检测、发现网络基元的特征信息,当基元数量超过指定域值时判断该话题将可能成为突发事件,事件趋势即将可能进入爆发阶段。利用中心向量提取相关术语然后从Lucene索引中检索相关高相似度的推文。在Ap聚类的基础上引入了历史推文术语相似性分析,以扩展Ap聚类中心向量提高增量聚类算法的准确性,使得其能够更加精准的增量聚类与事件相关的推文集。在此事件聚类事件发现的基础上,另辟蹊径通过构造、发现、统计用户信息网络的网络基元的特性信息实现对热点的事件的提前预测和感知。
Description
技术领域
本发明涉及一种新的热点话题预测方法,属于数据挖掘技术领域。
背景技术
随着近年来社交媒体的普及和规模的上升,更能充分的享受新闻媒体和自媒体带来的方便与欢乐,但同时也面临着获取有用信息越来越来难的困境。在这种情况下很多用的信息都会被淹没在数据的海洋里,因此对于可以从这些数据中提取有用信息的系统的需求日益增长。如何获取想要关注的有用信息、热点信息,是一个很具有挑战性的工作。尽早和迅速地确定社交网络上的紧急热点话题的爆发对于及时提醒政府机构和公众,并采取有效的公共干预措施来说至关重要。例如,当海啸袭击亚洲和东非沿海时,立即出现大量信息,预警和爆发检测将为政府部署救援部队提供巨大帮助,争分夺秒地救助受害者,从而确保生命财产安全。
长期以来,对内容丰富的文本文档的数据挖掘技术作为主题检测和跟踪(TDT)领域的一部分进行了研究。因为越来越多人使用Twitter和微博作为交流平台,所以先前被应用于报纸文章和博客文章TDT技术被扩展并适于使用推文执行事件检测。但是由于Twitter和微博短文本的特性,推文长度限制为140个字符,以及由于自发生成而产生的特殊拼写和一些特殊符号、经常性的新词出现是现有文本挖掘方法必须要加以增强的主要原因。由于字符长度的限制,人们会故意拼写错误,遵循非传统的写作惯例,并缩短长词。即使他们提到相同的事件,他们也可能以许多不同的方式表达它。所以TDT相关的技术并不适用于短文本领域。
对于这种现状,本发明提出了一种基于Ap增量聚类和网络基元的热点话题预测方法。本方法在Ap聚类的基础上,引入了历史推文术语相似性分析,以扩展Ap聚类中心向量提高增量聚类算法的准确性,使得其能够更加精准的增量聚类与事件相关的推文集。在此事件聚类事件发现的基础上,另辟蹊径通过构造、发现、统计用户信息网络的网络基元的特性信息实现对热点的事件的提前预测和感知。并开发了RealTIS系统如图1所示。
发明内容
本发明主要分为两部分如图2所示:
后台:热点突发事件检测子系统。由于数据的异质性和数据量大,在Twitter实时识别事件是一个具有挑战的问题。基于此开发了Ap增量聚类算法并融合术语相似性分析以增量的方式检测和跟踪事件的发生发展。
前端:突发事件的警告子系统。发现事件的爆发总是与事件形成几种特定类型的网络基本结构(图案)有关。使用滑动时间窗口来计算特定主题的传播网络的基本结构(主题)变化的统计数据。然后,这些统计数据用于识别相关性的异常变化,进行早期预警并检测爆发。
本发明主要分为以下几步,如图3所示:
步骤(1)获取推文数据
获取推文数据,该数据主要由推文id、用户名、时间戳、文本内容等数据组成。数据通过接入数据库或者利用TwitterAPI方式获取。每批次采用固定数量桶或者依照时间和数量相结合的混合桶的限制方式来获取数据。
步骤(2)推文数据预处理
步骤(2.1)把所有接受到的推文数据,每条一个document添加到Lucene索引中。
步骤(2.2)根据每条推文中的转发和@信息构建转发和@用户关系数据库。
步骤(2.3)当数据依照固定数量桶或者混合桶的方式生成一个桶Bi后。从文本内容中过滤掉无用的url地址、表情符,并进行词干还原和去停用词。
步骤(2.4)把当前要聚类的桶Bi向量化,生成Tf-Idf矩阵。
采用固定数量的桶或者事件和数量相结合的混合桶来依照时间的顺序依次经过预处理后放入到桶Bt-1、Bt、Bt+1中。t表示时刻,t+1指的是下一个时刻,t-1表示的是前一个时刻,Bt意思是指定时刻的桶。
步骤(3)Ap增量聚类的话题发现
步骤(3.1)分别在Bt-1、Bt上用Ap聚类完成无监督的聚类。
步骤(3.2)提取Bt聚类结果的类中心中出现次数较多的术语Terms,根据这些Terms在Bt-1、Bt、Bt+1的tweets中的出现情况生成二进制的term-tweet矩阵A,如果第i个term出现在第j个tweet中则A[i][j]=1,否则A[i][j]=0;A*AT=A'生成的A'矩阵表示terms直接的共现数量,A表示原来的矩阵,AT表示转置后的矩阵,A'表示前两个矩阵成绩后的结果。过程如图4所示:
步骤(3.4)计算术语Term相似度。
根据上一步骤生成的A'计算Term术语对之间的cosine相似度,输出的结果是<Xi,Xj,Si,j>。Xi和Xj是两个要比较的Term,Xi表示第i词汇,Xj表示第j词汇,Si,j表示这两个词汇的相似度得分。
步骤(3.5)Bt-1、Bt类中心向量的扩张。
步骤(3.6)Ap聚集增量融合。
根据上一步骤扩张后的中心向量,比较Bt中心向量与Bt-1中心向量两两之间的相似度,如果最大的相似度大于所有相似度的中值则合并Bt和Bt-1这两类。否则创建新类。如图5。
步骤(4)基于用户网络的网络基元的热点话题预测。
基于第三步聚类事件发现的基础上,以指定的事件窗口大小去步骤2生成的推文转发和@关系表检索与该事件相关的用户并构建用户信息流网络。在此基础上检测、发现网络基元(如图6)的特征信息,当基元数量超过指定域值时判断该话题将可能成为突发事件,事件趋势即将可能进入爆发阶段。事件发生发展的五阶段趋势如图7
步骤(5)热点话题5W分析
在步骤4发现热点事件后,为了方便用户了解突发事件信息,利用中心向量提取相关术语然后从Lucene索引中检索相关高相似度的推文,之后利用stanford nlp工具给出when、where、who等五W要素的事件摘要分析。
附图说明
图1:RealTIS系统界面。
图2:系统模块分解。
图3:系统整体过程框架。
图4:术语相似度矩阵。
图5:Ap增量聚类。
图6:十三个网络基元。
图7:事件发展的五阶段趋势。
具体实施方式
步骤(1)获取推文数据
获取推文数据,该数据主要由推文id、用户名、时间戳、文本内容等数据组成。数据可以通过接入数据库或者利用TwitterAPI方式获取。可以每批次采用固定数量桶或者依照时间和数量相结合的混合桶的限制方式来获取数据。
步骤(2)推文数据预处理
步骤(2.1)把所有接受到的推文数据,每条一个document添加到Lucene索引中。
步骤(2.2)根据每条推文中的转发和@信息构建转发和@用户关系数据库。
步骤(2.3)当数据依照固定数量桶或者混合桶的方式生成一个桶Bi后。从文本内容中过滤掉无用的url地址、表情符,并进行词干还原和去停用词。
步骤(2.4)把当前要聚类的桶Bi向量化,生成Tf-Idf矩阵。
可以采用固定数量的桶或者事件和数量相结合的混合桶来依照时间的顺序依次经过预处理后放入到桶Bt-1、Bt、Bt+1中。t表示时刻,t+1指的是下一个时刻,t-1表示的是前一个时刻,Bt意思是指定时刻的桶。
步骤(3)Ap增量聚类的话题发现
步骤(3.1)分别在Bt-1、Bt上用Ap聚类完成无监督的聚类。
步骤(3.2)提取Bt聚类结果的类中心中出现次数较多的术语Terms,根据这些Terms在Bt-1、Bt、Bt+1的tweets中的出现情况生成二进制的term-tweet矩阵A,如果第i个term出现在第j个tweet中则A[i][j]=1,否则A[i][j]=0;A*AT=A'生成的A'矩阵表示terms直接的共现数量,A表示原来的矩阵,AT表示转置后的矩阵,A'表示前两个矩阵成绩后的结果。过程如图4所示:
步骤(3.4)计算术语Term相似度。
根据上一步骤生成的A'计算Term术语对之间的cosine相似度,输出的结果是<Xi,Xj,Si,j>。Xi和Xj是两个要比较的Term,Xi表示第i词汇,Xj表示第j词汇,Si,j表示这两个词汇他们的相似度得分。
步骤(3.5)Bt-1Bt类中心向量的扩张。
步骤(3.6)Ap聚集增量融合。
根据上一步骤扩张后的中心向量,比较Bt中心向量与Bt-1中心向量两两之间的相似度,如果最大的相似度大于所有相似度的中值则合并Bt和Bt-1这两类。否则创建新类。如图5。
步骤(4)基于用户网络的网络基元的热点话题预测。
基于第三步聚类事件发现的基础上,以指定的事件窗口大小去步骤2生成的推文转发和@关系表检索与该事件相关的用户并构建用户信息流网络。在此基础上检测、发现网络基元(如图6)的特征信息,当基元数量超过指定域值时判断该话题将可能成为突发事件,事件趋势即将可能进入爆发阶段。事件发生发展的五阶段趋势如图7所示。
步骤(5)热点话题5W分析
在步骤4发现热点事件后,为了方便用户了解突发事件信息,利用中心向量提取相关术语然后从Lucene索引中检索相关高相似度的推文,之后利用stanford nlp工具给出when、where、who等五W要素的事件摘要分析。
Claims (1)
1.一种基于Ap增量聚类和网络基元的热点话题预测方法,其特征在于:该方法包括如下步骤,
步骤(1)获取推文数据;
获取推文数据,该数据由推文id、用户名、时间戳、文本内容数据组成;数据通过接入数据库或者利用TwitterAPI方式获取;每批次采用固定数量桶或者依照时间和数量相结合的混合桶的限制方式来获取数据;
步骤(2)推文数据预处理;
采用固定数量的桶或者事件和数量相结合的混合桶来依照时间的顺序依次经过预处理后放入到混合桶Bt-1、Bt、Bt+1中;t表示时刻,t+1指的是下一个时刻,t-1表示的是前一个时刻,Bt意思是指定时刻的桶;
步骤(2.1)把所有接受到的推文数据,每条一个document添加到Lucene索引中;
步骤(2.2)根据每条推文中的转发和@信息构建转发和@用户关系数据库;
步骤(2.3)当数据依照固定数量桶或者混合桶的方式生成一个桶Bi后;从文本内容中过滤掉无用的url地址、表情符,并进行词干还原和去停用词;
步骤(2.4)把当前要聚类的桶Bi向量化,生成Tf-Idf矩阵;
步骤(3)Ap增量聚类的话题发现;
步骤(3.1)分别在Bt-1、Bt上用Ap聚类完成无监督的聚类;
步骤(3.2)提取Bt聚类结果的类中心中出现次数多的术语Terms,根据这些术语Terms在Bt-1、Bt、Bt+1的推文中的出现情况生成二进制的Term-tweet矩阵A,如果第i个术语Term出现在第j个推文中则A[i][j]=1,否则A[i][j]=0;A*AT=A'生成的A'矩阵表示术语Terms直接的共现数量,A表示原来的矩阵,AT表示转置后的矩阵,A'表示前两个矩阵成绩后的结果;
步骤(3.4)计算术语Term相似度;
根据生成的A'计算Term术语对之间的cosine相似度,输出的结果是<Xi,Xj,Si,j>;Xi和Xj是两个要比较的Term,Xi表示第i词汇,Xj表示第j 词汇,Si,j表示这两个词汇的相似度得分;
步骤(3.5)Bt-1、Bt类中心向量的扩张;
步骤(3.6)Ap聚集增量融合;
根据扩张后的中心向量,比较Bt中心向量与Bt-1中心向量两两之间的相似度,如果最大的相似度大于所有相似度的中值则合并Bt和Bt-1这两类;否则创建新类;
步骤(4)基于用户网络的网络基元的热点话题预测;
基于聚类事件发现的基础上,以指定的事件窗口大小去步骤(2)生成的推文转发和@关系表检索与该事件相关的用户并构建用户信息流网络;在此基础上检测、发现网络基元的特征信息,当基元数量超过指定阈值 时判断该话题将可能成为热点事件,事件趋势即将可能进入爆发阶段;
步骤(5)热点话题分析;
在步骤(4)发现热点事件后,为了方便用户了解热点事件信息,利用中心向量提取相关术语然后从Lucene索引中检索相关高相似度的推文,之后利用stanfordnlp工具给出when、where、who要素的事件摘要分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910076648.XA CN109857869B (zh) | 2019-01-26 | 2019-01-26 | 一种基于Ap增量聚类和网络基元的热点话题预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910076648.XA CN109857869B (zh) | 2019-01-26 | 2019-01-26 | 一种基于Ap增量聚类和网络基元的热点话题预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857869A CN109857869A (zh) | 2019-06-07 |
CN109857869B true CN109857869B (zh) | 2021-07-30 |
Family
ID=66896255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910076648.XA Active CN109857869B (zh) | 2019-01-26 | 2019-01-26 | 一种基于Ap增量聚类和网络基元的热点话题预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857869B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363674B (zh) * | 2019-06-26 | 2023-06-02 | 陕西师范大学 | 基于ap聚类的班级社交群体检测方法 |
CN110378532B (zh) * | 2019-07-19 | 2021-12-14 | 中南大学 | 一种基于随机树的科研主题状态预测方法 |
CN111143566A (zh) * | 2019-12-27 | 2020-05-12 | 北京工业大学 | 一种针对twitter的热点事件爆发预测的方法 |
CN111931032A (zh) * | 2020-07-09 | 2020-11-13 | 车智互联(北京)科技有限公司 | 一种舆情事件发现方法、装置及计算设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
CN105320646A (zh) * | 2015-11-17 | 2016-02-10 | 天津大学 | 一种基于增量聚类的新闻话题挖掘方法及其装置 |
CN107291886A (zh) * | 2017-06-21 | 2017-10-24 | 广西科技大学 | 一种基于增量聚类算法的微博话题检测方法及系统 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
-
2019
- 2019-01-26 CN CN201910076648.XA patent/CN109857869B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
CN105320646A (zh) * | 2015-11-17 | 2016-02-10 | 天津大学 | 一种基于增量聚类的新闻话题挖掘方法及其装置 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
CN107291886A (zh) * | 2017-06-21 | 2017-10-24 | 广西科技大学 | 一种基于增量聚类算法的微博话题检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
Discovering hot topics using Twitter streaming data: social topic detection and geographic clustering;Hwi-Gang Kim.etc;《Proceedings of the 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining》;20130830;第1215-1220页 * |
Propagating Fine-Grained Topic Labels in News Snippets;Luis Sarmento.etc;《Proceedings of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology》;20090930;第515-518页 * |
增量式聚类的新闻热点话题发现研究;王丽颖;《计算机与现代化》;20170330;第46-50页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109857869A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857869B (zh) | 一种基于Ap增量聚类和网络基元的热点话题预测方法 | |
CN110516067B (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
CN109635296B (zh) | 新词挖掘方法、装置计算机设备和存储介质 | |
Cai et al. | What are popular: exploring twitter features for event detection, tracking and visualization | |
Alsaedi et al. | Arabic event detection in social media | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN106504746A (zh) | 一种从语音数据中提取结构化交通路况信息的方法 | |
CN113454954A (zh) | 社交数据流上的实时事件检测 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
CN102236693A (zh) | 确定文档之间的相似度的方法和设备 | |
CN104899230A (zh) | 舆情热点自动监测系统 | |
CN103577404A (zh) | 一种面向微博的全新突发事件发现方法 | |
CN104978332A (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN106569989A (zh) | 一种用于短文本的去重方法及装置 | |
US10250550B2 (en) | Social message monitoring method and apparatus | |
CN104166726A (zh) | 一种面向微博文本流的突发关键词检测方法 | |
Kunneman et al. | Event detection in Twitter: A machine-learning approach based on term pivoting | |
CN114138968A (zh) | 一种网络热点的挖掘方法、装置、设备及存储介质 | |
CN108268762B (zh) | 基于行为建模的移动社交网络用户身份识伪方法 | |
CN107562720B (zh) | 一种电力信息网络安全联动防御的告警数据匹配方法 | |
Modaresi et al. | On (commercial) benefits of automatic text summarization systems in the news domain: a case of media monitoring and media response analysis | |
Moin et al. | Framework for rumors detection in social media | |
Zhou et al. | Real-time timeline summarisation for high-impact events in twitter | |
Shi et al. | SRTM: A Sparse RNN-Topic Model for Discovering Bursty Topics in Big Data of Social Networks. | |
Li et al. | [Retracted] A Multichannel Model for Microbial Key Event Extraction Based on Feature Fusion and Attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |