CN112527960A

CN112527960A - 基于关键词聚类的突发事件检测方法

Info

Publication number: CN112527960A
Application number: CN202011498455.2A
Authority: CN
Inventors: 王晓玲; 何萍; 袁佳豪; 张欣蕾; 孙铭佑; 屈稳稳; 王韵弘; 纪文迪
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-19

Abstract

本发明公开了一种基于关键词聚类的突发事件检测方法，收集预设时间窗口内在社交媒体中发布的各个文本数据并过滤，根据参考短语库得到保留文本的短语集合并筛选得到突发短语，对突发短语进行聚类得到突发短语簇，每个突发短语簇即为时间窗口内的一个突发事件，然后从保留文本集合中获取该突发短语簇对应的文本集合作为预训练语言模型的输入，将预训练语言模型输出的该文本集合的摘要作为突发短语簇所对应突发事件的事件总结，得到事件检测结果。本发明针对社交网络文本数据设计了一套完整并且高效的突发事件检测流程，实现对由社交媒体产生的短文本数据进行高效精确的突发事件检测。

Description

基于关键词聚类的突发事件检测方法

技术领域

本发明属于短文本事件检测技术领域，更为具体地讲，涉及一种基于关键词聚类的突发事件检测方法。

背景技术

近些年来，诸如推特、微博等社交网络平台迅速发展，用户可以在这些平台上分享日常生活或者局部、全球新闻事件等。监测并且分析这些由用户产生的内容能够发现很多有价值的信息，帮助个人和组织机构获得第一手的咨询。

由于这些社交网络平台内容是由用户生成的，基于社交网络平台的突发事件检测方法面临着诸多挑战。首先是规模，以推特为例，每天大约有5亿条推文，平均每秒钟有6k条推文；其次是不规范，由于平台的限制，每条信息需限制在固定字数内，以推特为例，每条推文最多包含280个单词，因此用户在发布信息时，可能会使用简化符号，或者缩写，这给识别文本语义带来了困难；最后是噪音，作为分享型平台，用户会在平台上记录自己的生活，这些与事件无关的推文给事件检测带来了困难。

基于推文聚类与基于关键词聚类是进行突发事件检测的两种常用的方法，然而基于推文聚类的方法通常会带来较大的计算消耗，而关键词的选取对于基于关键词聚类的方法具有较大的影响。

发明内容

本发明的目的在于克服现有技术的不足，提供一种于关键词聚类的突发事件检测方法，实现对由社交媒体产生的短文本数据进行高效精确的事件检测。

为实现上述发明目的，本发明于关键词聚类的突发事件检测方法包括以下步骤：

S1：爬取预设时间窗口T内在社交媒体中发布的文本数据作为待进行突发事件检测的文本，根据预设的过滤规则对所收集的文本进行过滤，得到保留文本集合S；

S2：预先设置参考短语库，提取保留文本集合S所有文本中属于参考短语库的短语，构成保留文本集合S对应的短语集合A；

S3：分别计算短语集合A中的每个短语s的突发程度W_s，计算公式如下：

W_s＝p_s×log(u_s)×log(r_s)×log(log(f_s))

其中，p_s表示时间窗口T内关键短语s的突发概率，u_s表示时间窗口T内使用过关键短语s的用户数量，r_s表示时间窗口T内包含关键短语s的文本被转发的次数，f_s表示时间窗口T内使用关键短语s的用户的关注数目总和；

将所有短语按照突发程度从高到低进行排序，选择前K个关键短语作为突发短语加入突发短语集合B，K的值根据需要设置；

S4：将时间窗口T平均划分为M个连续不相交的子时间窗口，记第m个子时间窗口为T_m，m＝1,2,…,M，对于每个突发短语e，e∈B，统计每个子时间窗口T_m内包含该突发短语e的文本集合text(e,m)和文本数量f₁(e,m)，以及整个时间窗口T内包含该突发短语e的文本数量f₂(e)，计算每个突发短语e在子时间窗口T_m所占比例d(e,m)＝f₁(e,m)/f₂(e)；

对突发短语集合B中的突发短语两两计算相似度，计算方法如下：

记两个突发短语分别为e_a、e_b，首先分别计算文本集合text(e_a,m)和文本集合text(e_b,m)之间的相似度sim(text(e_a,m),text(e_b,m))，然后采用以下公式计算两个突发短语的相似度S(e_a,e_b)：

根据突发短语间的相似度对突发短语进行聚类，得到K个突发短语簇C_k，k＝1,2,…,K，每个突发短语簇C_k即为时间窗口T的一个突发事件；

S5：对于每个突发短语簇C_k，从保留文本集合S中获取含有该突发短语簇C_k内突发短语的文本集合D_k，将文本集合D_k作为预训练语言模型的输入，将预训练语言模型输出的该文本集合的摘要作为突发短语簇C_k所对应突发事件的事件总结，得到事件检测结果。

本发明基于关键词聚类的突发事件检测方法，收集预设时间窗口内在社交媒体中发布的各个文本数据并过滤，根据参考短语库得到保留文本的短语集合并筛选得到突发短语，对突发短语进行聚类得到突发短语簇，每个突发短语簇即为时间窗口内的一个突发事件，然后从保留文本集合中获取该突发短语簇对应的文本集合作为预训练语言模型的输入，将预训练语言模型输出的该文本集合的摘要作为突发短语簇所对应突发事件的事件总结，得到事件检测结果。

本发明针对社交网络文本数据设计了一套完整并且高效的突发事件检测流程，实现对由社交媒体产生的短文本数据进行高效精确的突发事件检测。

附图说明

图1是本发明基于关键词聚类的突发事件检测方法的具体实施方式流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于关键词聚类的突发事件检测方法的具体实施方式流程图。如图1所示，本发明基于关键词聚类的突发事件检测方法的具体步骤包括：

S101：文本收集和过滤：

爬取预设时间窗口T内在社交媒体中发布的文本数据作为待进行突发事件检测的文本，根据预设的过滤规则对所收集的文本进行过滤，得到保留文本集合S。

一般来说，过滤规则可以采用一种判断条件或多种判断条件组合得到，判断条件通常包括：文本长度是否小于预设阈值、文本语种是否为预设语种、文本是否是回复或转发信息、文本包含的URL是否包含广告信息、文本哈希标签数量是否大于预设阈值，当某文本满足任一所设置的判断条件，则删除该文本，从而实现文本过滤。

本实施例中设置文本长度阈值为5，预设语种为非英文，URL中包含amazon或ebay等表示广告信息，哈希标签数目阈值为3。表1是本实施例中保留文本示例。

表1

S102：提取文本短语集合：

预先设置参考短语库，提取保留文本集合S每个文本中属于参考短语库的短语，构成保留文本集合S对应的短语集合A。

本实施例中采用维基百科作为远监督工具，即将维基百科的标题作为参考短语，构成参考短语库。表2是本实施例中各个文本及对应的短语集合。

表2

根据表2可知，所得到的短语集合A＝{Iran,president,foreign minister,Zarif,resignation,fellow diplomats,hinting at,foreign policy,In front of,condemns,human rights,except for}。

S103：筛选突发短语：

分别计算短语集合A中的每个短语s的突发程度W_s，计算公式如下：

W_s＝p_s×log(u_s)×log(r_s)×log(log(f_s))

其中，p_s表示时间窗口T内关键短语s的突发概率，即

t_s、t_s′分别表示时间窗口T内关键短语s、关键短语s′出现的次数，s,s′∈A，u_s表示时间窗口T内使用过关键短语s的用户数量，r_s表示时间窗口T内包含关键短语s的文本被转发的次数，f_s表示时间窗口T内使用关键短语s的用户的关注数目总和。

将所有短语按照突发程度从高到低进行排序，选择前K个关键短语作为突发短语加入突发短语集合B，K的值根据需要设置。

表3是本实施例中各个短语的突发程度列表。

表3

本实施例中选择前3个关键短语作为突发短语加入突发短语集合B，即B＝{Iran,Zarif,foreign minister}。

S104：基于突发短语聚类构建突发事件：

将时间窗口T平均划分为M个连续不相交的子时间窗口，记第m个子时间窗口为T_m，m＝1,2,…,M，对于每个突发短语e，e∈B，统计每个子时间窗口T_m内包含该突发短语e的文本集合text(e,m)和文本数量f₁(e,m)，以及整个时间窗口T内包含该突发短语e的文本数量f₂(e)，计算每个突发短语e在子时间窗口T_m所占比例d(e,m)＝f₁(e,m)/f₂(e)。

根据突发短语间的相似度对突发短语进行聚类，得到K个突发短语簇C_k，k＝1,2,…,K，每个突发短语簇C_k即为时间窗口T的一个突发事件。

本实施例中，文本集合之间的相似度采用TF-IDF(term frequency–inversedocument frequency，词频-逆向文件频率)相似度。TF-IDF是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。本实施例中文本集合的TF-IDF相似度的计算方法包括以下步骤：

1)分别对两个文本集合进行分词，对得到两个单词集合进行合并得到单词集合φ。

2)对于单词集合φ中的每个单词，分别计算该单词在两个文本集合中的TF-IDF值p_i,1、p_i,2，i＝1,2,…,|φ|，|φ|表示单词集合φ中单词数量。TF-IDF值的计算方法为：对于单词i，统计其在文本集合中的词频TF(i)和逆文本频率IDF(i)＝log(D/D_i)，D表示文本集合中的文本数量，D_i表示文本集合中包含单词i的文本数量，则TF-IDF值为TF(i)×IDF(i)。

3)根据每个单词的TF-IDF值构建得到每个文本集合对应的TF-IDF向量P₁＝(p_1,1,p_2,1,…p_|φ|,1)、P₂＝(p_1,2,p_2,2,…p_|φ|,2)。

4)计算两个文本集合对应的TF-IDF向量之间的余弦相似度，即作为文本集合之间的相似度。本实施例中突发短语的聚类采用Jarvis－Patrick聚类算法，该算法可以基于突发知识间的相似度进行聚类，其方法可以简述如下：根据突发短语相似度绘制SNN(sharednearest neighbor，共享最近邻居)相似度图，利用相似度阈值对SNN相似度图进行稀疏化，找出稀疏化的SNN相似度图的连通分支，即可得到聚类结果。

表4是本实施例中突发短语聚类得到的突发短语簇。

表4

S105：事件总结：

对于每个突发短语簇C_k，从保留文本集合S中获取含有该突发短语簇C_k内突发短语的文本集合D_k，将文本集合D_k作为预训练语言模型的输入，将预训练语言模型输出的该文本集合的摘要作为突发短语簇C_k所对应突发事件的事件总结，得到事件检测结果。

本实施例中预训练语言模型采用预训练模型BART-large。表5是本实施例中事件总结结果。

表5

如表5所示，本发明所得到的事件总结与人为观察的结果相符，证明了本发明的有效性。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于关键词聚类的突发事件检测方法，其特征在于，包括以下步骤：

W_s＝p_s×log(u_s)×log(r_s)×log(log(f_s))

根据突发短语间的相似度对突发短语进行聚类，得到K个突发短语簇C_k，k＝1,2,…,K，，每个突发短语簇C_k即为时间窗口T的一个突发事件；

2.根据权利要求1所述的突发事件检测方法，其特征在于，所述步骤S1中过滤规则采用一种判断条件或多种判断条件组合得到，判断条件包括：文本长度是否小于预设阈值、文本语种是否为预设语种、文本是否是回复或转发信息、文本包含的URL是否包含广告信息、文本哈希标签数量是否大于预设阈值，当某文本满足任一所设置的判断条件，则删除该文本，从而实现文本过滤。

3.根据权利要求1所述的突发事件检测方法，其特征在于，所述步骤S2中参考知识库中所包含的参考短语为维基百科的标题。

4.根据权利要求1所述的突发事件检测方法，其特征在于，所述步骤S4中文本集合相似度采用TF-IDF相似度，计算方法包括以下步骤：

1)分别对两个文本集合进行分词，对得到的两个单词集合进行合并得到单词集合φ；

2)对于单词集合φ中的每个单词，分别计算该单词在两个文本集合中的TF-IDF值p_i,1、p_i,2，i＝1,2,…,|φ|，|φ|表示单词集合φ中单词数量；

3)根据每个单词的TF-IDF值构建得到每个文本集合对应的TF-IDF向量P₁＝(p_1,1,p_2,1,…p_|φ|,1)、P₂＝(p_1,2,p_2,2,…p_|φ|,2)；

4)计算两个文本集合对应的TF-IDF向量之间的余弦相似度，即作为文本集合之间的相似度。

5.根据权利要求1所述的自动化事件标记与分类方法，其特征在于，所述步骤S4中突发短语的聚类采用Jarvis－Patrick聚类算法。

6.根据权利要求1所述的自动化事件标记与分类方法，其特征在于，所述步骤S5中预训练语言模型采用预训练模型BART-large。