CN109145114B

CN109145114B - 基于Kleinberg在线状态机的社交网络事件检测方法

Info

Publication number: CN109145114B
Application number: CN201810992986.3A
Authority: CN
Inventors: 费高雷; 张乐中; 胡光岷; 杨立波
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2021-08-03
Anticipated expiration: 2038-08-29
Also published as: CN109145114A

Abstract

本发明公开了一种基于Kleinberg在线状态机的社交网络事件检测方法，包括以下步骤：S1、获取社交网络的推文数据，对获取的推文数据进行预处理；S2、对推文文本进行增量聚类，根据文本相似度对文本进行划分；S3、利用Kleinberg状态机对单词相关文本的生成时间间隔序列建立突发检测模型，识别单词的突发结构；S4、突发事件判定。本发明采用连续时间模型，能够细粒度地识别单词特征的突发结构信息，有助于缓解社交网络事件的早期发现问题；能够比较全面的检测出事件的单词突发特征，适用于流式数据，利用事件的突发结构关系和共现关系，能够提高社交网络事件检测的准确度。

Description

基于Kleinberg在线状态机的社交网络事件检测方法

技术领域

本发明涉及一种基于Kleinberg在线状态机的社交网络事件检测方法。

背景技术

社交网络的兴起和发展带给人们极大的便利和变化，社交网络逐渐成为当今国内外社会化媒体的重要平台。例如推特作为全球最受欢迎的社交网络平台中的一种，越来越多的用户通过推特平台发表对热门事件的看法。凭借其精炼的内容和快速的传播特性，推特平台每天都会产生大量反映当前社交突发事件的数据信息，相对于传统媒体，推特平台上的数据信息能够为研究者提供更全面的研究视角。

事件是指在特定时间和地点发生并产生影响的事情，由于社交网络的生成和传播特性，现实生活中发生的事件会引起社交网络中与事件相关的用户、文档呈现出固有的特性。事件检测是一种快速获取有价值信息的能力，具有重要意义。

社交网络的突发事件检测问题，可以分为三个阶段。首先，对社交网络信息流的突发或趋势进行检测，现有的方法都是通过时间分箱来识别特征的突发点；其次，把具有相同突发或趋势行为的特征聚合形成事件特征，一般使用聚类的方法进行完成；最后根据事件特征寻找潜在的突发事件。

社交网络的事件检测主要面临两个问题，即事件的早期发现、海量数据处理问题。社交网络的事件检测的核心问题是事件的早期发现，基于聚类、主题模型等技术的事件检测，需要足够多的文本信息才能保证事件发现的性能。然而在事件产生的早期，事件尚未成为热门事件，其相关的文本数据较为稀少，不足以保证事件检测拥有足够好的效果。其次社交网络洪泛式信息传播造成的海量数据流，给事件实时检测带来新的挑战。一方面是海量数据中的突发事件具有不同的尺度，传统的突发检测方法往往与固定阈值有关，无法在保证事件检测效果的条件下对不同尺度的事件进行检测，另一方面巨大的数据规模本身对事件检测模型的计算效率和实时性具有较严格的要求。

发明内容

本发明的目的在于克服现有技术的不足，提供一种采用连续时间模型，能够细粒度地识别单词特征的突发结构信息，能够比较全面的检测出事件的单词突发特征，适用于流式数据的基于Kleinberg在线状态机的社交网络事件检测方法。

本发明的目的是通过以下技术方案来实现的：基于Kleinberg在线状态机的社交网络事件检测方法，包括以下步骤：

S1、获取社交网络的推文数据，对获取的推文数据进行预处理；

S2、对推文文本进行增量聚类，根据文本相似度对文本进行划分，划分结果为簇；

S3、基于Kleinberg在线状态机单词突发特征识别，利用Kleinberg状态机对单词相关文本的生成时间间隔序列建立突发检测模型，识别单词的突发结构；

S4、突发事件判定，基于聚类簇中突发结构关系和突发单词之间的共现关系，判断聚类簇中是否描述一个事件。

进一步地，所述步骤S1具体实现方法为：对获取的推文数据进行分词、去停止词、词性还原和词干提取、命名实体识别和垃圾文本过滤操作。

进一步地，所述步骤S2包括以下子步骤：

S21、短文本向量表示，采用改进的向量空间模型为文本构建词向量，每个维度代表一个单词；

S22、短文本与簇的相似度计算，簇的向量是由簇中短文本向量组合而成的，对不同短文本中相同词的值进行加和处理，不同单词分开单独处理；对于短文本来说，存在多个簇与短文本存在相同的单词，这些簇成为候选簇，计算短文本与候选簇的最大相似度，比较该最大相似度与预设的分段阈值是否满足关系，若是则将该短文本加入该候选簇中，否则为该短文本创建新簇。

进一步地，所述步骤S3包括以下子步骤：

S31、数据预处理，对输入数据进行cr64c校验去重；

S32、计算损失函数；具体实现方法为：当有短文本数据到来时，缓冲区存储到来的短文本数据，并判断缓冲区内数据的最大时间范围是否超出固定值，若超出，则将缓冲区内生成时间最小的数据依次推出；对于从缓冲区中推出的短文本数据，提取其中出现的每个单词，对于每一个单词，将与该单词相关的文档按照生成时间从小到大排序，通过对排序时间信息进行差分处理，对每个单词构建生成时间间隔序列；

状态机使用指数分布模拟文本消息到达间隔f(x)，即假设相邻两个文本的时间间隔x服从指数分布，其中时间间隔期望E(x)＝a^-1，其中a是文本到达速率：

f(x)＝ae^-ax (1)

不同的状态具有不同的指数分布，假设有K个不同的状态，分别为状态1、2…K，状态1的时间间隔期望为a₁，状态i的时间间隔期望为a_i，状态i的指数分布为f_i(x)；n表示文本数量，T是文本集合中最小生成时间与最大生成时间之差，s表示相邻两个状态之间的联系：

a_i＝a₀*sⁱ

设单词的生成时间间隔序列为X，与单词相关n+1个文本的状态序列为Q，其中x_i表示与单词相关的第i个文本与第i+1个文本时间间隔，q_i表示与单词相关的第i+1个文本的状态：

X＝(x₁,x₂,x₃,...,x_n-1,x_n)

Q＝(q₀,q₁,q₂,q₃,...,q_n-1,q_n)

在社交短文本集合中，两个不相同的短文本之间是相互独立的，彼此不受影响；在时间间隔相互独立的条件下，在文本状态序列为Q的条件下时间间隔序列为X的似然函数为f_Q(X)，假设文本状态序列的先验概率为P(Q)，则时间间隔序列为X的概率为f_Q(X)*P(Q)，通过最大后验概率估计学习文本集合的最优状态序列：

对后验概率取负对数即可得到损失函数，则优化目标由最大后验概率变成了最小化损失函数，由于状态数过多，使用状态转移代价函数τ(i,j)对损失函数中先验概率相关项进行近似，最优状态序列为Q^*；

τ(i,j)＝Max(0,j-i)*ln n

S33、使用维特比算法求解状态机的最优状态序列。

进一步地，所述步骤S4具体实现方法为：通过聚类簇中集中在同一时间点附近的突发词个数来衡量聚类簇的突发结构关系，通过聚类簇中所有突发词之间条件概率的平均值来衡量聚类簇中突发词之间的共现关，当聚类簇的突发结构关系、共现关系和文本数量均满足大于或等于预设的阈值时，将聚类簇判定为事件。

本发明的有益效果是：本发明针对社交网络事件检测问题提出了一种基于Kleinberg在线状态机的方法，该方法与一般的社交网络事件检测方法相比，具有以下几点优势：

1、相对于采用时间窗划分的离散时间模型，Kleinberg在线状态机采用连续时间模型，能够细粒度地识别单词特征的突发结构信息，有助于缓解社交网络事件的早期发现问题。

2、Kleinberg在线状态机利用的是单词特征时序信息，相对于传统检测突发特征的阈值方法，Kleinberg在线状态机能够比较全面的检测出事件的单词突发特征。

3、Kleinberg在线状态机具有线性时间复杂度，能够处理大规模数据，并且能够适用于流式数据。

4、将Kleinberg在线状态机和短文本增量聚类相结合，利用事件的突发结构关系和共现关系，能够提高社交网络事件检测的准确度。

附图说明

图1为本发明的基于Kleinberg在线状态机的社交网络事件检测方法的流程图；

图2为本发明的突发词、突发文本和聚类簇之间的映射关系。

具体实施方式

本发明提出了一种基于Kleinberg在线状态机的社交网络事件检测方法，使用增量文本聚类算法生成纯度较高的簇，利用Kleinberg在线状态机突发特征信息对聚类簇中的潜在事件进行识别。针对事件的早期发现问题，本发明对Kleinberg离线状态机进行改进，形成Kleinberg在线状态机。相对于离散时间模型，Kleinberg在线状态机采用细粒度的连续时间模型，利用自动机对文档流进行建模，用自动机之间的状态转换识别文档流中单词特征的突发点，能够在事件产生的早期检测到事件突发词特征。由于Kleinberg在线状态机利用的是特征时序信息，能够缓解传统阈值模型的缺点，并且Kleinberg在线状态机也有效的缓解了数据规模大的问题，应用于推文短文本的Kleinberg在线状态机模型具有线性时间复杂度，能够对流式数据进行有效的处理。

基于Kleinberg在线状态机的社交网络事件检测方法主要包括三个部分：社交短文本的增量聚类、Kleinberg在线状态机的突发特征识别、聚类结果的潜在事件识别。其中社交短文本的增量聚类将推文集合划分为若干个簇，假设每条推文可能关联一个未知的事件，则每个聚类簇可能对应现实生活中的真实突发事件；Kleinberg在线状态机是为了识别属于事件的突发特征；聚类结果的潜在事件识别是为了判断候选事件簇是否是描述一个事件。下面结合附图进一步说明本发明的技术方案。

如图1所示，基于Kleinberg在线状态机的社交网络事件检测方法，包括以下步骤：

S1、获取社交网络的推文数据，对获取的推文数据进行预处理；具体实现方法为：对获取的推文数据进行分词、去停止词、词性还原和词干提取、命名实体识别和垃圾文本过滤等操作。

S2、对推文文本进行增量聚类，根据文本相似度对文本进行划分，划分结果为簇；对文本进行增量聚类，即每次处理一条短文本，根据短文本和所有簇的最大相似度和相似度阈值的大小关系，决定创建新簇还是加入最相似的簇。本发明采用Single-Pass增量聚类方法，该方法速度快适合大量短文本增量聚类，并且该方法能够将描述不同事件的短文本区分开来。增量聚类具体包括以下子步骤：

S21、短文本向量表示，短文本增量聚类的输入是经过预处理后的短文本信息，事件的发生常常对应着人物、地理位置等信息，而这些信息往往与命名实体识别、词性识别有关。采用改进的向量空间模型为文本构建词向量，每个维度代表一个单词；如果单词在文本中出现，根据命名实体识别和词性标注结果赋予不同的权重，否则为0，这种短文本向量表示的方案有助于提高事件短文本的聚合性，较少不相干信息的干扰。

Kleinberg在线状态机的突发特征识别主体思路是根据文本中单词发生的时间序列来建立一种突发检测模型，识别出单词的突发结构，单词的突发结构可以为社交网络中的事件检测提供有用信息。状态机根据单词的到达速率来识别单词的不同状态，如果单词在高状态下相对于低状态具有更高的到达速率，通过指数分布模拟单词到达的时间间隔，指数分布的期望与单词的到达速率相关。Kleinberg在线状态机的输入数据是经过预处理、cr64c校验去重后的短文本信息。由于使用多线程采集的社交短文本数据的顺序与社交短文本数据生成的时间顺序存在一定的偏差，而状态机的输入要求按照社交短文本数据生成的时间顺序，针对这个问题，采用了缓冲区机制。

基于Kleinberg在线状态机单词突发特征识别包括以下子步骤：

S31、数据预处理，对输入数据进行cr64c校验去重；

S32、计算损失函数；具体实现方法为：缓冲区存储数据信息的最大时间范围是固定的，当有短文本数据到来时，缓冲区存储到来的短文本数据，并判断缓冲区内数据的最大时间范围是否超出固定值，若超出，则将缓冲区内生成时间最小的数据依次推出；对于从缓冲区中推出的短文本数据，提取其中出现的每个单词，对于每一个单词，将与该单词相关的文档按照生成时间从小到大排序，通过对排序时间信息进行差分处理，对每个单词构建生成时间间隔序列；

f(x)＝ae^-ax (1)

不同的状态具有不同的指数分布，假设有K个不同的状态，分别为状态1、2…K，状态1的时间间隔期望为a₁，状态i的时间间隔期望为a_i，状态i的指数分布为f_i(x)；n表示文本数量，T是文本集合中最小生成时间与最大生成时间之差，s表示相邻两个状态之间的联系，s越大，则相邻两个状态之间的差异性越大，对高状态的要求越高：

a_i＝a₀*sⁱ

X＝(x₁,x₂,x₃,...,x_n-1,x_n)

Q＝(q₀,q₁,q₂,q₃,...,q_n-1,q_n)

τ(i,j)＝Max(0,j-i)*ln n

S33、使用维特比算法求解状态机的最优状态序列，维特比算法实际是用动态规划求解最优路径，这时候一条路径对应着一个状态序列，维特比算法的思想可以概括为以下三个方面。首先如果单词具有最优状态序列，最优状态序列在t_i时刻的状态为q_i，则从开始到时刻t_i状态q_i的子状态序列也一定是从开始到时刻t_i状态q_i的所有状态序列中最优的。假设t_i时刻有m个状态，则从开始到t_i时刻的m个状态有m条最优子状态序列，而最终的最优状态序列必然经过其中的一条。根据上述性质，在计算t_i+1时刻的最优状态序列时，只需要考虑从开始到当前t_i时刻m个状态的最优状态序列和t_i时刻到t_i+1时刻的最优状态转移即可。

根据动态规划原理，最优状态序列具有这样的特性:如果最优状态序列在第k个文档处状态为q_k，那么最优状态序列中从第k个文档到到第n个文档的部分状态序列，对于从第k个文档到到第n个文档所有可能的部分状态序列来说，必须是最优的。由于在流式数据中，第k个文档的生成时间早于第k+1文档，则第k个文档不受第k+1个文档的影响。根据动态规划原理和流式数据特点，我们只需从第一个文档开始，递归计算每个文档在k个状态时的损失函数值，直至得到第n个文档在k个状态时的损失函数值。对于每个文档来说，其最小损失函数值对应的状态即为该文档的最优状态，即可依次得到每个文档的最优状态，适用于流式数据的突发状态识别。根据单词的最优状态序列，可以识别出单词的突发结构。

短文本增量聚类后，经过对聚类簇测试结果分析，发现不少聚类簇并不能真正描述现实生活中的突发事件，为了在事件产生的早期能够发现事件，需要对文本增量聚类得到聚类簇进行突发事件判定。社交网络中的事件是指事件是指在特定时间和地点发生并产生影响的事情，主要包括时间、地点、事件主体三个方面，事件可以由时间关键词、地点关键词、行为关键词、人物关键词进行描述。在事件产生的早期，事件描述关键词具有突发特性，通过对社交网络中事件统计特性研究分析，发现同一事件描述关键词主要具有两个方面的特性，即事件描述关键词的突发结构关系以及共现关系。

首先，由于社交网络具有便捷快速的传播机制，社交网络中的事件在事件产生的早期就可以得到快速的传播，导致突发事件在事件产生的早期具有很强的突发特性。事件是可以由某些关键词进行描述，事件描述关键词与事件具有几乎相同的突发特性，即事件描述关键词具有相同的突发结构关系。

从状态机的检测结果可以知道每个单词在某时刻的突发特性，即高状态与低状态，而单词又是与文本一一对应的，从单词在某时刻的突发状态可以得到每个文本的突发状态。对于短文本增量聚类得到的聚类簇而言，若聚类簇中每条短文本都不具有高状态，则该聚类簇不具有突发性，若聚类簇中存在一条或者多条文本具有高状态，则该聚类簇具有突发特性，具有突发特性的具有粗具有描述突发事件的可能性。从突发单词到与单词相关的文本存在相互映射关系，含有单词突发文本和聚类簇存在相互映射关系，映射关系如图2所示。通过映射关系，聚类簇可能对应着多个突发单词，多个突发单词都是属于事件描述词，若属于聚类簇的突发单词时间相近的突发起始点，则认为该聚类簇描述的事件属于突发事件。

社交网络中用户之间不是孤立的，而是存在一定的社交好友关系，事件经过用户快速传播后，描述事件的突发词具有很强的共现关系。每个事件都具有自己的主体信息，例如地点、相关人物等信息，描述事件的突发词属于事件主体的一部分，在事件的传播过程中，事件的主体往往是不变的，即描述事件的突发词会具有很强的共现模式。推特中用户对事件的传播行为具有四种主要的形式：发推、回复、转推、引用。转推是用户对文本内容信息的直接复制，相对于其他行为，转推是社交网络中一种很常见的行为。具有转推行为的文本中单词的共现程度都很高，在转推行为中，即使两个单词不是描述事件的突发关键词，也会具有很强的共现关系。在聚类过程中，聚类簇中文本的数量很容易受到转推的影响，例如一个聚类全部都是相同的转推推文。所以在考虑聚类簇中突发词之间的共现关系时，将所有具有相同内容的文本视作一个文本。

通过聚类簇中集中在同一时间点附近的突发词个数来衡量聚类簇的突发结构关系，通过聚类簇中所有突发词之间条件概率的平均值来衡量聚类簇中突发词之间的共现关。因为突发结构关系和共现关系都是从聚类簇中提取，容易受到聚类簇中文本数量的影响，所以同样要求聚类簇中文本数量达到一定要求。当聚类簇的突发结构关系、共现关系和文本数量均满足大于或等于预设的阈值时，将聚类簇判定为事件。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于Kleinberg在线状态机的社交网络事件检测方法，其特征在于，包括以下步骤：

包括以下子步骤：

S31、数据预处理，对输入数据进行cr64c校验去重；

f(x)＝ae^-ax (1)

不同的状态具有不同的指数分布，假设有K个不同的状态，分别为状态1、2….K，状态1的时间间隔期望为a₁，状态i的时间间隔期望为a_i，状态i的指数分布为f_i(x)；n表示文本数量，T是文本集合中最小生成时间与最大生成时间之差，s表示相邻两个状态之间的联系：

a_i＝a₀*sⁱ

X＝(x₁,x₂,x₃,...,x_n-1,x_n)

Q＝(q₀,q₁,q₂,q₃,...,q_n-1,q_n)

τ(i,j)＝Max(0,j-i)*lnn

S33、使用维特比算法求解状态机的最优状态序列；

2.根据权利要求1所述的基于Kleinberg在线状态机的社交网络事件检测方法，其特征在于，所述步骤S1具体实现方法为：对获取的推文数据进行分词、去停止词、词性还原和词干提取、命名实体识别和垃圾文本过滤操作。

3.根据权利要求1所述的基于Kleinberg在线状态机的社交网络事件检测方法，其特征在于，所述步骤S2包括以下子步骤：

4.根据权利要求1所述的基于Kleinberg在线状态机的社交网络事件检测方法，其特征在于，所述步骤S4具体实现方法为：通过聚类簇中集中在同一时间点附近的突发词个数来衡量聚类簇的突发结构关系，通过聚类簇中所有突发词之间条件概率的平均值来衡量聚类簇中突发词之间的共现关，当聚类簇的突发结构关系、共现关系和文本数量均满足大于或等于预设的阈值时，将聚类簇判定为事件。