CN107609103A

CN107609103A - 一种基于推特的事件检测方法

Info

Publication number: CN107609103A
Application number: CN201710816054.9A
Authority: CN
Inventors: 费高雷; 赵海林; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2018-01-19

Abstract

本发明公开一种基于推特的事件检测方法，针对目前新闻线索获取存在的实时性问题，本申请首先采用自然语言处理技术对推文进行预处理；然后基于短文本相似度对推文进行在线聚类；接着利用每个推文类中推文的特征对推文簇的事件属性做初步判断；最后利用已有的推文事件库判断检测的事件是否为第一事件，防止事件重复输出；本申请方法计算复杂度较低，可以用于大规模流式数据中的突发热点事件的检测；有助于更快、更准确的从社交媒体上获取有价值的信息，可以直接或间接的产生经济效益。

Description

一种基于推特的事件检测方法

技术领域

本发明属于数据挖掘领域，特别涉及一种基于推特的数据挖掘技术。

背景技术

随着web2.0时代的到来，互联网用户越来越主动的获取网络内容并参与到内容的创建，其中的一种重要的形式就是基于社交媒体。社交媒体顾名思义是用于社交的，随着社交用户的增长，其内部逐渐形成了一张或重合的多张社交网络，社交信息可以沿着该网络在用户之间传播。一般说来，社交媒体用户可以直接获取他所关注用户所发的社交信息，用图论观点来说就是能够从邻接用户那里获取信息。虽然社交网络结构十分复杂，但根据六度分割理论，其直径不会太大，所以通过社交用户的转发，信息在社交网络上能够突破地域限制，得到迅速的传播。据统计，2016年全球社交媒体用户达到23.1亿，相当于全球总人口的31％，移动社交媒体用户达到19.7亿，占全球总人口的27％，并且用户年均增长率超过10％。通过社交网络，用户可以分享日常生活中的琐事，可以和朋友闲谈，可以分享周边发生的事情。基于以上的事实，通过对社交媒体信息的获取，人们可以最快的获取现实生活中所发生的事件。但是，由于社交媒体上大量充斥着用户私人消息以及广告等事件无关的信息，往往事件有关的社交信息极少。基于这样的社交信息数据，如何及时有效的检测出其中的热点事件是一个很困难的事情。

近年来，大量基于推特等社交网络的事件检测方法被提出。根据需求的不同和使用的技术上的差异这些方法可以分为两大类，即特定事件检测和非特定事件检测。特定事件检测一般有先验信息，比如地震检测、运动新闻检测等，由于其主题明确，该类问题可以用分类的方法处理。非特定事件检测没有先验信息，可以检测出具有某些特征的事件，比如突发事件等，由于没有指定主题，该类问题一般是通过文本聚类的方法来解决，它可以适应变化，检测出新类型的事件。

随着推特的流行，研究人员提出了大量基于推特的非特定事件检测方法。TwitterStand使用朴素贝叶斯分类器来过滤不相关推文，采用在线聚类方法根据TFIDF加权的推文词语向量的文本余弦相似度进行聚类，得到新闻类，检测突发新闻。通过hashtag和时间提升聚类准确性，提出了去噪和事件定位的方法。基于流模型的新事件检测方法，通过计算推文之间的余弦相似度来检测以前推文中从未出现过的新事件，并提出一个修改的局部敏感哈希(LSH)算法减少推文搜索数量来提升这个在线新事件检测方法的效率。基于构建单个词语的离散小波信号的事件检测方法，根据时间依赖变量DFIDF重构信号，通过滑动窗口来捕获时间上的变化，根据词语互相关过滤掉无关紧要的词，将剩余词聚类，使用图划分的方法划分子图，子图对应事件。

随着推特等社交网络的日益流行，基于推特的数据挖掘逐渐成为一个热点方向。人们希望通过对社交网络的研究，获取有价值的信息。基于推特的事件检测方法可以实时从推特文本流中获取当前正在发生的各种事件，可以应用于突发热点新闻发现及追踪、实时决策、灾难预警等多种领域。

传统的新闻机构一般通过人工获取新闻线索、发布新闻，这样虽然能保证新闻的质量，但是新闻的实时性会受到很大的影响。

发明内容

为解决上述技术问题，本申请提出了一种基于推特的事件检测方法，采用自然语言对推文进行预处理，然后基于短文本相似度对推文进行在线聚类，利用每个推文类中推文的特征对推文簇的事件属性做初步判断，最后利用已有的推文事件库判断检测的事件是否为第一事件，防止事件重复输出。

本申请采用的技术方案为：一种基于推特的事件检测方法，包括：

S1、对推文进行预处理，得到标准文本；

S2、基于短文本相似度对步骤S1得到的标准文本进行在线聚类；

S3、根据各个聚类得到的簇中推文的特征对该簇的事件属性进行初步判断；

S4、通过与已知的推文事件库进行余弦相似度计算，输出事件。

进一步地，步骤S1具体为：采用自然语言处理将推文转化为标准文本；具体处理包括：将推文中的每个语法单元切割开的分词处理，对每个单词标记词性的词性识别处理，判断单词所属于的实体类型的命名实体识别处理，去除由于单词语法变形导致的形式不一致的词形还原处理和词干提取处理。

更进一步地，步骤S1之后还包括：过滤处理，去掉推文中的停止词。

进一步地，步骤S2具体为：

S21、将步骤S1得到的标准文本表示为向量形式，得到文本向量；

S22、根据文本向量计算每条推文与各已知簇的类中心的余弦相似度；

S23、若最大余弦相似度大于设定阈值，则将该条标准文本加入最大余弦相似度对应的簇；否则为该条标准文本创建一个新类。

更进一步地，所述簇的类中心通过累加簇中每条标准推文的文本向量得到。

进一步地，步骤S3所述推文的特征包括：推文到达时间间隔分布和类推文数量。

更进一步地，步骤S3具体为：根据以下公式计算推文突发性得分，并按照从大到小对当前簇中的推文进行排序，然后根据用户指定的速率值截取前面的一部分作为突发事件；

其中，Max表示推文到达时间间隔的最大值，Median表示推文到达时间间隔的中间值，Q₁表示推文到达时间间隔的四分位数。

进一步地，步骤S4具体为：

S41、计算当前事件与已知事件库中每一个事件的余弦相似度；

S42、若最大的余弦相似度小于预先设定的事件相似度阈值，则输出事件，并将该事件存入事件数据库中；否则丢弃该事件。

本发明的有益效果：本发明的一种基于推特的事件检测方法，首先采用自然语言处理技术对推文进行预处理；然后基于短文本相似度对推文进行在线聚类；接着利用每个推文类中推文的特征对推文簇的事件属性做初步判断；最后利用已有的推文事件库判断检测的事件是否为第一事件，防止事件重复输出；本申请方法计算复杂度较低，可以用于大规模流式数据中的突发热点事件的检测；有助于更快、更准确的从社交媒体上获取有价值的信息，可以直接或间接的产生经济效益；具体包括以下优点：

1、通过类推文到达时间间隔分布来提取类的突发特征，基于类推文平均速率判断事件的热门程度；提取的特征较少，计算量较低，特征对事件的解释性好；

2、事件输出通过与事件库进行相似度计算，避免了处理复杂的类合并，以及合并过程中可能引入的噪声，同时，能较好地避免了相同事件的重复输出。

附图说明

图1为本申请的方案流程图；

图2为在线聚类流程图；

图3为基于事件库的判定流程图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图1所示为本申请的方案流程图，本申请的技术方案为：一种基于推特的事件检测方法，包括：

S1、对推文进行预处理，得到标准文本；

步骤S1具体为：预处理是为了规范化待处理的文本并将它转化为后面步骤可以处理的形式，本申请实施例中预处理采用自然语言处理技术实现。规范化主要用于推文等社交媒体短文本，与传统文本相比该类文本用语不规范、存在部分有意或者无意的拼写错误，还存在大量表情符号，推文长度限制导致用户习惯使用缩略词，口语化的交流环境使用户习惯使用口语词汇、俚语、网络用语等。推文的标准化多用正则表达式对文本中的符号、部分缩略词、hashtag和@进行快速的处理。

自然语言处理技术为现有的已知技术，本申请在此作简要说明，具体处理包括：分词用语将推文中的每个语法单元切割开，词性识别对每个单词标记对应的词性，命名实体识别判断单词所属于的实体类型，词形还原和词干提取去除由于单词语法变形导致的形式不一致。

由于停止词一般没有实际意义，它的存在会对对最终结果产生一些负面影响，所以去掉推文中的停止词也是必要的一步。由于推特中存在大量广告、闲谈等与事件无关的推文，为了提高后续处理的准确性和处理速度，本申请在对推文进行自然语言处理之后，还对推文进行过滤处理；推文过滤是一个分类问题，可以训练分类器来预测推文是否为垃圾推文。

步骤S2具体为：推文在线聚类是本申请方法的关键部分，聚类结果的好坏对事件检测的准确性有很大影响。

由于本申请的目标是做突发事件检测，所以要求聚类过程必须是实时的，所选用的leader-follower在线聚类方法，详细的流程如图2所示。

采用预处理所得到的结果将文本表示成向量的形式，文本的向量表示有两种方式，即词形方法和语义方法。一般说来，事件可以用时间、地点、人物和事件四个要素来表示，其中时间、地点和人物都是名词，事件是动词，而且地点和人物都是命名实体。可以用词性和命名实体对文本的词频向量做加权，这样便能突出名词、动词和命名实体的作用，减弱形容词等不表意成分的影响。

词形方法可以通过对应的文本向量可以这样直接得到，而Word2vec语义方法需要查询每个单词的词向量，然后累加每个单词的词向量来得到文本向量。

在得到文本向量后通过余弦相似度计算每条推文与已经存在簇的类中心的相似度，类中心通过累加簇中每条推文的文本向量得到。

最后将最大相似度与相似度阈值比较，如果大于相似度阈值则将该推文加入最相似的簇，否则创建新类。

步骤S3具体为：突发事件是正在发生的将会产生一定社会影响的事件，本申请尽可能准确、实时地检测这些事件，采用的方法是基于规则的判定方法。事件类型主要分为：突发热点事件、一般突发事件和非突发事件。突发热点事件是突发事件，并且短时间就产生重大影响，一般突发事件是具有突发特征但影响较小的事件。

推文类的突发性最简单的判定方法就是基于在每个时窗内推文的数量分布，但实践发现固定时窗时，时窗的大小选取会存在问题，时窗过大将会导致对类推文数量分布的衡量的精度下降，过小的时窗将导致计算量陡增，甚至是计算不可行。本申请考虑可变时窗的等价问题，即推文到达时间间隔分布。突发事件类推文到达时间间隔分布是一个长尾分布，可以用该长尾分布的统计特征来衡量推文类的突发性；综合考虑准确性和计算复杂度，首先将推文到达时间间隔从小到达排序，取其四分位数、中值、最大值，即Q₁、Median、Max，得到经验公式如式(1)所示，Score即突发性得分，得分越大表示突发性越强。可变速率，即用户可以指定当前事件输出的速率的大小，当然，用户指定的速率为相对速率。对于可变速率可以这样实现，程序用户界面提供输入框或者速率条，可以接受用户输入的1-10中的任意一个数字控制速率大小，当用户希望减小事件速率时可以减小输入。即将当前所有类按突发性得分从大到小排序，根据用户指定的速率值截取前面一部分作为突发事件。

同样是突发事件，不同的事件热度不一样，用户往往更加关注高热度事件，同时热度较低的事件也不能忽略。我们采用类推文平均速率表示事件的热度，如果类推文平均速率越高表示事件的热度越高，可以判定为突发热点事件，否则判定为一般突发事件。详细的事件判定规则如表1所示。

表1事件分类

突发性得分	类推文平均速率	事件类型
			得分高	速率高	突发热点事件
得分高	速率低	一般突发事件
			得分低	——	非突发事件

步骤S4具体为：步骤S3判定得到的事件并不能直接推送给用户，因为会存在大量重复的事件。由于推文有最大140字符限制，一般推文最多可以包含二十多个单词，根据抽样统计发现，大部分推文只包含十个左右的单词。这样短小的文本对事件的描述能力显然不如长文本，这将导致短文本的聚合性较差，所以在对推文在线聚类时描述同一个事件的推文可能被分散到多个类中。当短时间有大量描述同一个事件的推文采集到，如果他们被分散到多个类，就可能导致一个事件被大量反复输出，这将是用户难以接受的。

本申请通过事件库来避免输出重复事件，详细流程如图3所示。在数据库中维护已经输出事件的一些信息，这里所要用到的信息就是代表事件特征的单词词频词典，可以用每个事件的类中心来表示。考虑到在线聚类过程中会有一些杂质推文混进类中，因此不能用所有的单词，本申请实际上只需要截取部分单词。具体为：根据单词的词频从大到小排序，从词频大小低于一定阈值后面的词频变化最大的地方截断，这样做的目的是尽量保留每个推文类的主要信息，去除噪声信息。在得到每个类的代表单词词频特征后，通过计算当前事件类与事件库中每个事件类的特征单词词频向量之间的余弦相似度，然后比较最大相似度与预设的相似度阈值，如果最大相似度大于阈值，则说明该事件已经输出，不能重新输出，否则输出该事件，并将该事件存放数据库。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于推特的事件检测方法，其特征在于，包括：

S1、对推文进行预处理，得到标准文本；

2.根据权利要求1所述的一种基于推特的事件检测方法，其特征在于，步骤S1具体为：采用自然语言处理将推文转化为标准文本；具体处理包括：将推文中的每个语法单元切割开的分词处理，对每个单词标记词性的词性识别处理，判断单词所属于的实体类型的命名实体识别处理，去除由于单词语法变形导致的形式不一致的词形还原处理和词干提取处理。

3.根据权利要求2所述的一种基于推特的事件检测方法，其特征在于，步骤S1之后还包括：过滤处理，去掉推文中的停止词。

4.根据权利要求1所述的一种基于推特的事件检测方法，其特征在于，步骤S2具体为：

5.根据权利要求4所述的一种基于推特的事件检测方法，其特征在于，所述簇的类中心通过累加簇中每条标准推文的文本向量得到。

6.根据权利要求1所述的一种基于推特的事件检测方法，其特征在于，步骤S3所述推文的特征包括：推文到达时间间隔分布和类推文数量。

7.根据权利要求1所述的一种基于推特的事件检测方法，其特征在于，步骤S3具体为：根据以下公式计算推文突发性得分，并按照从大到小对当前簇中的推文进行排序，然后根据用户指定的速率值截取前面的一部分作为突发事件；

8.根据权利要求1所述的一种基于推特的事件检测方法，其特征在于，步骤S4具体为：