CN109857869B

CN109857869B - 一种基于Ap增量聚类和网络基元的热点话题预测方法

Info

Publication number: CN109857869B
Application number: CN201910076648.XA
Authority: CN
Inventors: 吴亚玺; 于海阳; 杨震
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-26
Filing date: 2019-01-26
Publication date: 2021-07-30
Anticipated expiration: 2039-01-26
Also published as: CN109857869A

Abstract

本发明公开了一种基于Ap增量聚类和网络基元的热点话题预测方法，获取推文数据；推文数据预处理；Ap增量聚类的话题发现；基于用户网络的网络基元的热点话题预测。在基础上检测、发现网络基元的特征信息，当基元数量超过指定域值时判断该话题将可能成为突发事件，事件趋势即将可能进入爆发阶段。利用中心向量提取相关术语然后从Lucene索引中检索相关高相似度的推文。在Ap聚类的基础上引入了历史推文术语相似性分析，以扩展Ap聚类中心向量提高增量聚类算法的准确性，使得其能够更加精准的增量聚类与事件相关的推文集。在此事件聚类事件发现的基础上，另辟蹊径通过构造、发现、统计用户信息网络的网络基元的特性信息实现对热点的事件的提前预测和感知。

Description

一种基于Ap增量聚类和网络基元的热点话题预测方法

技术领域

本发明涉及一种新的热点话题预测方法，属于数据挖掘技术领域。

背景技术

随着近年来社交媒体的普及和规模的上升，更能充分的享受新闻媒体和自媒体带来的方便与欢乐，但同时也面临着获取有用信息越来越来难的困境。在这种情况下很多用的信息都会被淹没在数据的海洋里，因此对于可以从这些数据中提取有用信息的系统的需求日益增长。如何获取想要关注的有用信息、热点信息，是一个很具有挑战性的工作。尽早和迅速地确定社交网络上的紧急热点话题的爆发对于及时提醒政府机构和公众，并采取有效的公共干预措施来说至关重要。例如，当海啸袭击亚洲和东非沿海时，立即出现大量信息，预警和爆发检测将为政府部署救援部队提供巨大帮助，争分夺秒地救助受害者，从而确保生命财产安全。

长期以来，对内容丰富的文本文档的数据挖掘技术作为主题检测和跟踪(TDT)领域的一部分进行了研究。因为越来越多人使用Twitter和微博作为交流平台，所以先前被应用于报纸文章和博客文章TDT技术被扩展并适于使用推文执行事件检测。但是由于Twitter和微博短文本的特性，推文长度限制为140个字符，以及由于自发生成而产生的特殊拼写和一些特殊符号、经常性的新词出现是现有文本挖掘方法必须要加以增强的主要原因。由于字符长度的限制，人们会故意拼写错误，遵循非传统的写作惯例，并缩短长词。即使他们提到相同的事件，他们也可能以许多不同的方式表达它。所以TDT相关的技术并不适用于短文本领域。

对于这种现状，本发明提出了一种基于Ap增量聚类和网络基元的热点话题预测方法。本方法在Ap聚类的基础上，引入了历史推文术语相似性分析，以扩展Ap聚类中心向量提高增量聚类算法的准确性，使得其能够更加精准的增量聚类与事件相关的推文集。在此事件聚类事件发现的基础上，另辟蹊径通过构造、发现、统计用户信息网络的网络基元的特性信息实现对热点的事件的提前预测和感知。并开发了RealTIS系统如图1所示。

发明内容

本发明主要分为两部分如图2所示：

后台：热点突发事件检测子系统。由于数据的异质性和数据量大，在Twitter实时识别事件是一个具有挑战的问题。基于此开发了Ap增量聚类算法并融合术语相似性分析以增量的方式检测和跟踪事件的发生发展。

前端：突发事件的警告子系统。发现事件的爆发总是与事件形成几种特定类型的网络基本结构(图案)有关。使用滑动时间窗口来计算特定主题的传播网络的基本结构(主题)变化的统计数据。然后，这些统计数据用于识别相关性的异常变化，进行早期预警并检测爆发。

本发明主要分为以下几步，如图3所示：

步骤(1)获取推文数据

获取推文数据，该数据主要由推文id、用户名、时间戳、文本内容等数据组成。数据通过接入数据库或者利用TwitterAPI方式获取。每批次采用固定数量桶或者依照时间和数量相结合的混合桶的限制方式来获取数据。

步骤(2)推文数据预处理

步骤(2.1)把所有接受到的推文数据，每条一个document添加到Lucene索引中。

步骤(2.2)根据每条推文中的转发和@信息构建转发和@用户关系数据库。

步骤(2.3)当数据依照固定数量桶或者混合桶的方式生成一个桶B_i后。从文本内容中过滤掉无用的url地址、表情符，并进行词干还原和去停用词。

步骤(2.4)把当前要聚类的桶B_i向量化,生成Tf-Idf矩阵。

采用固定数量的桶或者事件和数量相结合的混合桶来依照时间的顺序依次经过预处理后放入到桶B_t-1、B_t、B_t+1中。t表示时刻，t+1指的是下一个时刻，t-1表示的是前一个时刻，B_t意思是指定时刻的桶。

步骤(3)Ap增量聚类的话题发现

步骤(3.1)分别在B_t-1、B_t上用Ap聚类完成无监督的聚类。

步骤(3.2)提取B_t聚类结果的类中心中出现次数较多的术语Terms，根据这些Terms在B_t-1、B_t、B_t+1的tweets中的出现情况生成二进制的term-tweet矩阵A,如果第i个term出现在第j个tweet中则A[i][j]＝1，否则A[i][j]＝0；A*A^T＝A'生成的A'矩阵表示terms直接的共现数量，A表示原来的矩阵，A^T表示转置后的矩阵，A'表示前两个矩阵成绩后的结果。过程如图4所示：

步骤(3.4)计算术语Term相似度。

根据上一步骤生成的A'计算Term术语对之间的cosine相似度，输出的结果是＜X_i,X_j,S_i,j＞。X_i和X_j是两个要比较的Term,X_i表示第i词汇，X_j表示第j词汇，S_i,j表示这两个词汇的相似度得分。

步骤(3.5)B_t-1、B_t类中心向量的扩张。

步骤(3.6)Ap聚集增量融合。

根据上一步骤扩张后的中心向量，比较B_t中心向量与B_t-1中心向量两两之间的相似度，如果最大的相似度大于所有相似度的中值则合并B_t和B_t-1这两类。否则创建新类。如图5。

步骤(4)基于用户网络的网络基元的热点话题预测。

基于第三步聚类事件发现的基础上，以指定的事件窗口大小去步骤2生成的推文转发和@关系表检索与该事件相关的用户并构建用户信息流网络。在此基础上检测、发现网络基元(如图6)的特征信息，当基元数量超过指定域值时判断该话题将可能成为突发事件，事件趋势即将可能进入爆发阶段。事件发生发展的五阶段趋势如图7

步骤(5)热点话题5W分析

在步骤4发现热点事件后，为了方便用户了解突发事件信息，利用中心向量提取相关术语然后从Lucene索引中检索相关高相似度的推文，之后利用stanford nlp工具给出when、where、who等五W要素的事件摘要分析。

附图说明

图1：RealTIS系统界面。

图2：系统模块分解。

图3：系统整体过程框架。

图4:术语相似度矩阵。

图5：Ap增量聚类。

图6：十三个网络基元。

图7：事件发展的五阶段趋势。

具体实施方式

步骤(1)获取推文数据

获取推文数据，该数据主要由推文id、用户名、时间戳、文本内容等数据组成。数据可以通过接入数据库或者利用TwitterAPI方式获取。可以每批次采用固定数量桶或者依照时间和数量相结合的混合桶的限制方式来获取数据。

步骤(2)推文数据预处理

步骤(2.4)把当前要聚类的桶B_i向量化,生成Tf-Idf矩阵。

可以采用固定数量的桶或者事件和数量相结合的混合桶来依照时间的顺序依次经过预处理后放入到桶B_t-1、B_t、B_t+1中。t表示时刻，t+1指的是下一个时刻，t-1表示的是前一个时刻，B_t意思是指定时刻的桶。

步骤(3)Ap增量聚类的话题发现

步骤(3.1)分别在B_t-1、B_t上用Ap聚类完成无监督的聚类。

步骤(3.4)计算术语Term相似度。

根据上一步骤生成的A'计算Term术语对之间的cosine相似度，输出的结果是＜X_i,X_j,S_i,j＞。X_i和X_j是两个要比较的Term,X_i表示第i词汇，X_j表示第j词汇，S_i,j表示这两个词汇他们的相似度得分。

步骤(3.5)B_t-1B_t类中心向量的扩张。

步骤(3.6)Ap聚集增量融合。

步骤(4)基于用户网络的网络基元的热点话题预测。

基于第三步聚类事件发现的基础上，以指定的事件窗口大小去步骤2生成的推文转发和@关系表检索与该事件相关的用户并构建用户信息流网络。在此基础上检测、发现网络基元(如图6)的特征信息，当基元数量超过指定域值时判断该话题将可能成为突发事件，事件趋势即将可能进入爆发阶段。事件发生发展的五阶段趋势如图7所示。

步骤(5)热点话题5W分析

Claims

1.一种基于Ap增量聚类和网络基元的热点话题预测方法，其特征在于：该方法包括如下步骤，

步骤(1)获取推文数据；

获取推文数据，该数据由推文id、用户名、时间戳、文本内容数据组成；数据通过接入数据库或者利用TwitterAPI方式获取；每批次采用固定数量桶或者依照时间和数量相结合的混合桶的限制方式来获取数据；

步骤(2)推文数据预处理；

采用固定数量的桶或者事件和数量相结合的混合桶来依照时间的顺序依次经过预处理后放入到混合桶B_t-1、B_t、B_t+1中；t表示时刻，t+1指的是下一个时刻，t-1表示的是前一个时刻，B_t意思是指定时刻的桶；

步骤(2.1)把所有接受到的推文数据，每条一个document添加到Lucene索引中；

步骤(2.2)根据每条推文中的转发和@信息构建转发和@用户关系数据库；

步骤(2.3)当数据依照固定数量桶或者混合桶的方式生成一个桶B_i后；从文本内容中过滤掉无用的url地址、表情符，并进行词干还原和去停用词；

步骤(2.4)把当前要聚类的桶B_i向量化,生成Tf-Idf矩阵；

步骤(3)Ap增量聚类的话题发现；

步骤(3.1)分别在B_t-1、B_t上用Ap聚类完成无监督的聚类；

步骤(3.2)提取B_t聚类结果的类中心中出现次数多的术语Terms，根据这些术语Terms在B_t-1、B_t、B_t+1的推文中的出现情况生成二进制的Term-tweet矩阵A,如果第i个术语Term出现在第j个推文中则A[i][j]＝1，否则A[i][j]＝0；A*A^T＝A'生成的A'矩阵表示术语Terms直接的共现数量，A表示原来的矩阵，A^T表示转置后的矩阵，A'表示前两个矩阵成绩后的结果；

步骤(3.4)计算术语Term相似度；

根据生成的A'计算Term术语对之间的cosine相似度，输出的结果是＜X_i,X_j,S_i,j＞；X_i和X_j是两个要比较的Term,X_i表示第i词汇，X_j表示第j 词汇，S_i,j表示这两个词汇的相似度得分；

步骤(3.5)B_t-1、B_t类中心向量的扩张；

步骤(3.6)Ap聚集增量融合；

根据扩张后的中心向量，比较B_t中心向量与B_t-1中心向量两两之间的相似度，如果最大的相似度大于所有相似度的中值则合并B_t和B_t-1这两类；否则创建新类；

步骤(4)基于用户网络的网络基元的热点话题预测；

基于聚类事件发现的基础上，以指定的事件窗口大小去步骤(2)生成的推文转发和@关系表检索与该事件相关的用户并构建用户信息流网络；在此基础上检测、发现网络基元的特征信息，当基元数量超过指定阈值时判断该话题将可能成为热点事件，事件趋势即将可能进入爆发阶段；

步骤(5)热点话题分析；

在步骤(4)发现热点事件后，为了方便用户了解热点事件信息，利用中心向量提取相关术语然后从Lucene索引中检索相关高相似度的推文，之后利用stanfordnlp工具给出when、where、who要素的事件摘要分析。