CN110502703A

CN110502703A - 基于字符串字典构建的社交网络突发事件检测方法

Info

Publication number: CN110502703A
Application number: CN201910631329.0A
Authority: CN
Inventors: 薛哲; 杜军平; 周立岩; 崔婉秋
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-26

Abstract

本发明提出一种基于字符串字典构建的社交网络突发事件检测方法。为了利用微博标签的特点和中文标题标记的特点，抽取微博话题标签和中文标题中的有意义的字符串作为作为一种启发式方法用于中文分词。结合有意义字符串字典和突发词得分的计算，突发词检测考虑了有意义字符串、单词长度、单词频率、关联用户和评论数量等因素。在此基础上，进一步建立了突发事件的计算热点模型，利用突发事件的词频、关联用户和关联帖子的热度等指标对突发事件进行排序。

Description

基于字符串字典构建的社交网络突发事件检测方法

技术领域

本发明属于事件检测领域中的短文本突发事件检测技术，主要涉及突发词检测、突发词聚类和突发事件排序技术，实现社交网络突发事件的检测。

背景技术

微博作为一种实时互动的社交网络媒体，为用户提供了一个自由发布内容和交换信息的平台。它已经成为人们揭露事件、表达意见和分享经验的首选媒体。很多真实世界的事件都是首先在微博上曝光，再由传统主流媒体报道，比如2018年的滴滴风车事件和重庆公交车坠河事件。基于微博的突发事件检测已成为数据挖掘和机器学习领域的研究热点。

然而，从社交网络上发现突发事件还存在一些挑战。首先，微博帖子通常很短，内容也很丰富，如何从帖子中有效提取事件是极具挑战性的。其次，在微博上有很多普遍的、无意义的噪声，如日常会话等。如何过滤这些噪声是一个很重要的问题。第三，由于不同的事件可能有一些共享的主题组件，所以不同事件之间的相似性很高。如何区分不同的事件也是一个棘手的问题。因此，区分突发事件和非突发内容值得研究。

发明内容

提出了一种基于字符串字典构建的社交网络突发事件检测方法。为了利用社交网络微博标签的特点和中文标题标记的特点，抽取微博话题标签和中文标题中有意义的字符串作为作为一种启发式方法用于中文分词。结合有意义字符串字典和突发词得分的计算，突发词检测考虑了有意义字符串、单词长度、单词频率、关联用户和评论数量等因素。在此基础上，进一步建立了突发事件的计算热点模型，利用突发事件的词频、关联用户和关联帖子的热度等指标对突发事件进行排序。

构建一个有意义字符串字典以利用微博标签的特点和中文标题标记的特点。提取“#”与“引号”之间的有意义字符串，作为汉语分词的一种启发式方法。结合有意义字符串字典和突发词得分的计算，用以检测突发词，以提取与突发事件更相关、描述性更强的词汇。提出一种基于字符串字典构建的社交网络突发事件检测方法，该方法具有更高的准确性，描述事件更清晰易懂。

附图说明

图1为方法流程图

具体实施方式

为使本发明的目的、技术方案及算法优点更加清楚明白，下面参照附图对本发明做进一步详细地说明。

我们的突发事件检测方法分为两部分：基于意义字符串字典的突发词检测、突发词聚类与突发事件排序。

1、基于有意义字符串字典的突发词检测

基于有意义字符串字典的突发词检测包括两个部分：有意义字符串字典的构建和突发词得分的计算。为了提高突发性词检测的性能，采用一对“#”和一对引号之间的有意义字符串作为汉语分词的启发式方法，计算突发性词得分后对它们进行加权。在计算词的突发项得分时，减少评语数量的影响和权衡较长的词也是两个增强技巧。有意义字符串提取步骤如下：

步骤一：对于博文数据集中的每一篇博文，使用正则表达式抽取博文中的hashtags和标题，将hashtags/标题加入集合HT；

步骤二：对于集合HT中每一个hashtag/标题，将hashtag/标题分割成词，过滤停用词并将余下词加入集合W；

步骤三：将W中在HT中毗连的词连接起来直到没有任意两个词毗连得到有意义串字典MSD。

构造有意义字符串字典。从博文中的标签和标题中提取有意义的字符串来构造一个有意义字符串字典。标签是用户在微博中创建的以“#”对标记的字符串，能够有效地反映用户的意图，在微博中通常作为独立的有意义的部分。一些用“《”和“》”或“【”和“】”标记的字符串通常用中文表示标题。它们通常被用作文章的摘要或主题。我们将较长的标签和标题按停止字分开，以获得有意义字符串。然后将它们添加到自定义的“结巴”词典中，用于汉语分词。

计算突发词得分。从博文中选取所有单词作为候选单词的集合。词w_i的突发性得分约为三个指标。假设当前突发事件检测的时间片为k(e.g.，2011-12-12)，则选取之前p个时间片的历史数据作为参考。在计算一个单词的突发性得分时，将历史数据的标准方差引入分母中，更容易提取在过去时间段变化平缓，但当前时间段突发性强的词。

词w_i在第k个时间片的频率突发得分定义如式(1)所示：

其中，是词w_i在第k个时间片中出现的频率；p个时间片内的均值p个时间片内的方差如果w_i出现在MSD中，应用平方函数对分数进行加权。出现在MSD中的这个词更有表现力，经常用于突发事件描述。

关联用户的突发性得分，即与w_i在第k个时间片关联的用户突发性定义如式(2)所示：

其中，为k时间段，提及词w_i的不同用户的数量；在p个时间片内的均值在p个时间片内的方差

关联博文的突发性得分，词w_i在第k个时间片的关联博文突发性得分定义如式(3)所示：

其中，为k时间段，提及词w_i的博文的累计评论数；在p个时间片内的平均值在p时间片内的方差根据热门话题和突发事件的不同，我们使用对数函数对平滑后的得分进行加权。因此，我们更加关注关联用户和关联博文的突发性，以获得更好的抗热点噪声鲁棒性。

结合以上三个指标，词w_i在第k个时间片中的突发性得分如式(4)所示：

其中，α、β、γ分别是其对应指标的权重，len(w_i)是词w_i的长度。词越长，它的语义越完整。

在计算出每个词的突发性评分后，采用四分位差分法选择m个突发性词。首先，根据单词的突发性得分按降序排列单词，以获得突发性单词集EW。四分位差的距离计算方法如式(5)所示：

IQS(EW)＝Q₃(EW)-Q₁(EW) (5)

其中，Q₁是第一个四分位数,Q₃是第三个四分位数。当单词的突发性评分大于某一阈值时，将其视为突发性单词，阈值的计算方法如式(6)所示：

threshold(EW)＝Q₃(EW)+1.5×IQS(EW) (6)

2、突发词聚类与突发事件排序

采用聚类分层聚类的方法对检测得到的前m个突发词进行聚类，得到候选词簇EWC。突发事件表现为词簇，突发事件的得分和三个指标有关。

累计词频得分：

其中，f(w)是词w在ewc_i中的频率。

关联用户得分：

UN(ewc_i)＝usernum(ewc_i) (8)

其中，usernum(ewc_i)是提到词簇ewc_i用户数量。我们利用线性函数对用户的权重评分。每个用户都扮演着重要的角色，因为他们的帖子可以成为互联网上的一个传输节点。

关联博文热度得分：

其中，fcrnum(ewc_i)是和词簇ewc_i相关联的累计评论数。

结合上述三个指标，一个词簇的得分为：

Score(ewc_i)＝F(w_i)+UN(ewc_i)+MBI(ewc_i) (10)

在计算每个词簇的得分后，选取得分前K个词簇作为top K的突发事件。

Claims

1.基于字符串字典构建的社交网络突发事件检测方法，其特征在于，利用微博标签的特点和中文标题标记的特点，抽取微博话题标签和中文标题中的有意义字符串作为作为一种启发式方法用于中文分词。结合有意义字符串字典和突发词得分的计算，突发词检测考虑了有意义字符串、单词长度、单词频率、关联用户和评论数量等因素。在此基础上，进一步建立了突发事件的计算热点模型，利用突发事件的词频、关联用户和关联帖子的热度等指标对突发事件进行排序。

2.根据权利要求1所述的方法，其特征在于，利用微博标签的特点和中文标题标记的特点，提取“#”与“引号”之间的有意义字符串，作为汉语分词的一种启发式方法。

3.根据权利要求1所述的方法，其特征在于，结合有意义字符串字典和突发词得分的计算，用以检测突发词，以提取与突发事件更相关、描述性更强的词汇。