CN108733816B - 一种微博突发事件检测方法 - Google Patents

一种微博突发事件检测方法 Download PDF

Info

Publication number
CN108733816B
CN108733816B CN201810490699.2A CN201810490699A CN108733816B CN 108733816 B CN108733816 B CN 108733816B CN 201810490699 A CN201810490699 A CN 201810490699A CN 108733816 B CN108733816 B CN 108733816B
Authority
CN
China
Prior art keywords
microblog
word
text
burst
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810490699.2A
Other languages
English (en)
Other versions
CN108733816A (zh
Inventor
陈红阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute Of Humanities And Science
Original Assignee
Chongqing Institute Of Humanities And Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute Of Humanities And Science filed Critical Chongqing Institute Of Humanities And Science
Priority to CN201810490699.2A priority Critical patent/CN108733816B/zh
Publication of CN108733816A publication Critical patent/CN108733816A/zh
Application granted granted Critical
Publication of CN108733816B publication Critical patent/CN108733816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种微博突发事件检测方法,包括获取微博文本数据集;基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集进行噪声过滤;以预设时长建立多个时间窗,将微博文本数据集中的微博文本划分至相应的时间窗中;对每个时间窗内的微博文本进行预处理;基于预设特征属性提取每个时间窗的突发特征词集;分别计算目标时间窗内的突发特征词之间的相似度;生成目标时间窗的突发事件。本申请在进行微博突发事件检测时充分考虑了微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑了微博的情感倾向性、词频统计、词频增长率与TF‑PDF权重等因素对突发特征词识别的影响,提高了突发事件检测的精准度。

Description

一种微博突发事件检测方法
技术领域
本发明涉及网络检测技术领域,尤其涉及一种微博突发事件检测方法。
背景技术
微博是近年来兴起的、支持跨平台的信息互动交流的社会化媒体,因其简单、快捷的使用方式,受到广大发布者的青睐。大量新奇、热点时事以及短时爆发的突发事件等首见于此,并及时得到快速传播。采用突发事件检测技术对海量微博文本信息进行归类、组织,识别其所蕴含的突发事件信息呈现给发布者,既可解决信息过载问题,又可为政府、企业、组织机构等部门应对突发事件制定应急决策提供数据支撑,进一步正确引导微博舆情朝向健康方向发展,维护社会秩序,保持和谐与稳定。因此,研究针对微博文本的突发事件检测技术具有重要的理论价值和现实意义。
微博突发事件检测(Burst Event Detection,简称BED),主要是通过一定的检测算法从海量微博数据中挖掘出含有突发性特征的事件,从而识别微博平台中的突发事件。目前,微博突发事件检测技术主要有基于聚类的突发事件检测技术与基于特征的突发事件检测技术两类,且后者是主流的技术,应用较广泛。研究者针对微博噪声去除以及突发特征词识别方面展开了相应的研究,并取得初步成果。《突发事件检测与关键节点挖掘研究》提出基于词性与特定格式的微博噪声数据过滤方法;《基于爆发词识别的微博突发事件监测方法研究》提出基于微博文本字数、发布者粉丝数、标签标注与特定格式的微博噪声数据过滤方法;文献《基于突发特征词与情感分析的微博突发事件监测研究》则提出了基于噪声词典、噪声发布者及特定格式的微博噪声数据过滤方法。这些方法虽一定程度上去除了有碍于微博突发事件检测的噪声数据,但未能充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响。
《中文微博突发事件检测研究》提出基于词频统计、词增长率与TF-PDF权重计算的微博突发特征词识别算法;《基于突发特征词聚类的微博突发事件检测方法》结合发布者影响力和词语的TF-IDF权重,提出基于突发度的微博突发特征词识别算法;《基于突发主题词和凝聚式层次聚类的微博突发事件检测研究》提出基于词频、文本频率、话题标签以及词频增长率特征的微博突发特征词识别算法;《基于KL距离的微博突发话题检测研究》提出基于词频、文本频率、发布者影响力以及TF-PDF的微博突发特征词识别算法。上述方法均是从某几个方面出发,设计微博突发特征词识别算法,有助于微博突发事件的检测,但未能综合考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响,有失偏颇。
因此,如何在进行微博突发事件检测时充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响,成为了本领域技术人员亟需解决的问题。
发明内容
针对现有技术存在的上述不足,本发明要解决的技术问题是:如何在进行微博突发事件检测时充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响。
为解决上述技术问题,本发明采用了如下的技术方案:
一种微博突发事件检测方法,包括:
步骤1:获取微博文本数据集D;
步骤2:基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤;
步骤3:以预设时长建立多个时间窗,将微博文本数据集D中的微博文本划分至相应的时间窗中;
步骤4:对每个时间窗内的微博文本进行预处理;
步骤5:基于预设特征属性提取每个时间窗的突发特征词集BTi3,i3=1,2,3,……n3,n3为时间窗的数量,每个突发特征词词集包括多个突发特征词;
步骤6:使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度;
步骤7:基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发特征词进行聚类,生成目标时间窗的突发事件。
优选地,步骤2包括:
提取微博文本数据集D中微博文本的类别信息;
基于所述类别信息去除微博文本数据集D中预设类别的微博文本;
提取微博文本数据集D中微博文本的字数信息;
基于所述字数信息去除微博文本数据集D中字数小于预设字数阈值的微博文本;
计算微博文本数据集D中微博文本的文本影响力评分Qualitytext
基于所述文本影响力评分Qualitytext去除微博文本数据集D中文本影响力评分Qualitytext小于预设评分阈值的微博文本,完成微博文本数据集D的噪声过滤。
优选地,文本影响力评分
Figure GDA0001710299130000031
代表微博文本的发布者影响力,即发布者被关注数Ufollow与发布者关注数Uattention比值的对数,
Figure GDA0001710299130000032
表示微博文本的关注度,即微博文本的评论数Commenttext、转发数Forwardtext、收藏数Collecttext与点赞数Prizetext的总和的对数与微博数据集D中所有微博文本的评论数Commenti1、转发数Forwardi1、收藏数Collecti1与点赞数Prizei1的总和的对数的比值,而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重,i1=1,2,3,……n1,n1为微博文本数据集D中的微博文本的数量。
优选地,步骤4包括:
对时间窗内的微博文本进行切词获得微博文本词集;
基于预设的词语情感数据库与微博文本词集进行对比,获得微博文本词集的情感信息;
基于预设的命名实体词库与话题标签库与微博文本词集进行对比,获得微博文本词集的词属性信息,词属性信息记录了微博文本词集是否包括命名实体词,以及微博文本词集中是否有词语属于话题标签,所述命名实体词包括词性为名词、动词、时间词、方位词或地点词的词语。
优选地,步骤5包括:
分别统计每个时间窗的微博文本词集中的每个词的词频与文本频率;
遍历每个时间窗的微博文本词集中的每个词,将词频与文本频率满足预设条件的词作为候选突发特征词,并形成每个时间窗的候选突发特征词集BWset
基于候选突发特征词集BWset中每个候选突发特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值Wi2,i2=1,2,3,……n2,n2为候选突发特征词集BWset中的候选突发特征词的数量,
Figure GDA0001710299130000033
其中,
Figure GDA0001710299130000034
Wi2表示时间窗内任意候选突发特征词wi2的权重,D表示微博数据集,ni2j6表示候选突发特征词wi2在任意微博文本j6中的词频,Nj6表示所有微博文本的数量,Hi2j6在表示候选突发特征词wi2在微博文本j6中的命名实体权重因子,若候选突发特征词wi2为命名实体,则取值为1,否则为0;Ei2j6在表示候选突发特征词wi2在文本j6中的话题标签权重因子,若候选突发特征词wi2包括话题标签,则取值为1,否则为0;K表示微博文本j6中的总词数,Fk2j6表示微博文本j6中的第k2个词;
计算候选突发特征词集BWset每个候选突发特征词的词频增长率Zi2
Figure GDA0001710299130000041
其中,Zi2表示候选突发特征词wi2的词频增长速率,Fi2i3表示候选突发特征词wi2在时间窗口Ti3中的词频,Ti3为任意一个时间窗口,k3表示时间窗口Ti3之前时间的时间窗口数;
计算候选突发特征词集BWset每个候选突发特征词的关注度Gi2
Figure GDA0001710299130000042
其中Commenti2,Forwardi2,Collecti2,Prizei2分别为候选突发特征词wi2所在微博文本的评论数、转发数、收藏数与点赞数,Commenti2 j6,Forwardi2 j6,Collecti2 j6,Prizei2 j6分别为含候选突发特征词wi2的第j6个微博文本的评论数、转发数、收藏数与点赞数,DD为当前计算的时间窗口中微博文本总数;
计算候选突发特征词集BWset每个候选突发特征词的情感权重值Ei2,其中
Figure GDA0001710299130000043
Figure GDA0001710299130000044
DD为当前计算的时间窗口中微博文本总数,ej6 i2为含有候选突发特征词wi2的第j6条微博文本的情感倾向值,emotion(i2)为候选突发特征词wi2的情感倾向值,mm为第j6条微博文本中词的总个数;
计算候选突发特征词的突发权重Burstyi2=γ1×Wi22×Zi23×Gi24×Ei2,其中,γ1234=1,γ1是TF-PDF权重值Wi2的权重、γ2是词频增长率Zi2的权重、γ3是关注度Gi2的权重、γ4是情感权重值Ei2的权重;
将突发权重Burstyi2大于预设权重的候选突发特征词作为突发特征词,形成时间窗的突发特征词集BTi3
优选地,步骤6包括:
基于公式
Figure GDA0001710299130000051
计算突发特征词之间的相似度Sim(wi4,wj4),式中,wi4,wj4表示同一个突发特征词集中的任意两个突发特征词,|Pt|表示此时间窗内的微博文本数,pk则此时间窗中同时含有突发特征词wi4及wj4的微博文本数。
优选地,步骤7包括:
步骤(1):将时间窗内每个词作为一个簇;
步骤(2):基于公式
Figure GDA0001710299130000052
计算任意两个簇Ci5及Cj5的相似度Sim(Ci5,Cj5),|Ci5×Cj5|表示任意两个簇Ci5及Cj5中词语数量的乘积,wi5,wj5分别是对应簇Ci5,Cj5中的任意一个突发特征词;
步骤(3):将相似度最大的两个簇合并,
步骤(4):再次计算任意两个簇的相似度,若此时新的相似度最大的两个簇的相似度小于相似度阈值,则执行步骤(3),否则执行步骤(5);
步骤(5):去除突发特征词小于预设特征词阈值的簇,基于剩余的簇生成对应时间窗的突发事件。
综上所述,本申请公开了一种微博突发事件检测方法,包括获取微博文本数据集;基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集进行噪声过滤;以预设时长建立多个时间窗,将微博文本数据集中的微博文本划分至相应的时间窗中;对每个时间窗内的微博文本进行预处理;基于预设特征属性提取每个时间窗的突发特征词集;分别计算目标时间窗内的突发特征词之间的相似度;生成目标时间窗的突发事件。本申请在进行微博突发事件检测时充分考虑了微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑了微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响,提高了突发事件检测的精准度。
附图说明
图1是本申请公开了一种微博突发事件检测方法的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述说明。
如图1所示,本申请公开了一种微博突发事件检测方法,包括:
S101:获取微博文本数据集D;
微博文本数据集D包括了多个微博文本,可以采用网络爬虫进行微博文本的获取,获取方式为现有技术,在此不再赘述。
S102:基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤;
S103:以预设时长建立多个时间窗,将微博文本数据集D中的微博文本划分至相应的时间窗中;
由于获取的微博文本数据集D包括的微博文本的发布时间极广,
S104:对每个时间窗内的微博文本进行预处理;
S105:基于预设特征属性提取每个时间窗的突发特征词集BTi3,i3=1,2,3,……n3,n3为时间窗的数量,每个突发特征词词集包括多个突发特征词;
基于预设特征属性提取每个时间窗的突发特征词集BTi3,i3=1,2,3,……n3,n3为时间窗的数量,每个突发特征词词集包括多个突发特征词
S106:使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度;
S107:基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发特征词进行聚类,生成目标时间窗的突发事件。
此处的目标时间窗根据实际需要来确定,可以是一个时间窗,也可以是多个时间窗,每个目标时间窗,分别生成突发事件。与现有技术相比,本申请提出了新的微博突发事件检测方法,该方法首先基于发布者影响力与文本关注度改进去噪算法,滤除微博中的噪声数据,然后提出基于多特征的突发特征词识别算法,最后结合聚类算法应用于微博数据以实现突发事件检测。相比于传统的突发事件检测方法,本方法在进行微博突发事件检测时充分考虑了微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑了微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响,提高了突发事件检测的精准度。
具体实施时,步骤S102包括:
提取微博文本数据集D中微博文本的类别信息;
微博文本的类别信息记录了此微博文本的所属类别,例如明星娱乐类、购物类、美食类及电影类;
基于所述类别信息去除微博文本数据集D中预设类别的微博文本;
此处的预设类别可根据实际情况进行设定,例如:明星娱乐类、购物类、美食类及电影类。
提取微博文本数据集D中微博文本的字数信息;
基于所述字数信息去除微博文本数据集D中字数小于预设字数阈值的微博文本;
当微博文本字数过少时,基本不存在具备包括突发事件的潜质,因此根据实际情况设置一个预设字数阈值,将小于预设字数阈值的微博文本去除,预设字数阈值可以为10。
在采用文本影响力评分进行噪声过滤之前,先去除类别及字数不符合的微博文本,可以极大地减少后续的计算量,提高过滤的速度。
计算微博文本数据集D中微博文本的文本影响力评分Qualitytext
基于所述文本影响力评分Qualitytext去除微博文本数据集D中文本影响力评分Qualitytext小于预设评分阈值的微博文本,完成微博文本数据集D的噪声过滤。
具体实施时,文本影响力评分
Figure GDA0001710299130000071
代表微博文本的发布者影响力,即发布者被关注数Ufollow与发布者关注数Uattention比值的对数,
Figure GDA0001710299130000072
表示微博文本的关注度,即微博文本的评论数Commenttext、转发数Forwardtext、收藏数Collecttext与点赞数Prizetext的总和的对数与微博数据集D中所有微博文本的评论数Commenti1、转发数Forwardi1、收藏数Collecti1与点赞数Prizei1的总和的对数的比值,而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重,i1=1,2,3,……n1,n1为微博文本数据集D中的微博文本的数量。
本申请将发布者影响力及文本关注度相结合,根据计算得到的文本影响力评分Qualitytext对微博文本的质量进行评价,过滤掉不被人关注的,影响力小的微博文本,去除杂质,减少后续的计算量,进而提高检测的精准度。
具体实施时,步骤S104包括:
对时间窗内的微博文本进行切词获得微博文本词集;
基于预设的词语情感数据库与微博文本词集进行对比,获得微博文本词集的情感信息;
基于预设的命名实体词库与话题标签库与微博文本词集进行对比,获得微博文本词集的词属性信息,词属性信息记录了微博文本词集是否包括命名实体词,以及微博文本词集中是否有词语属于话题标签,所述命名实体词包括词性为名词、动词、时间词、方位词或地点词的词语。
研究表明,停用词、特殊符号(如@,#等)、URL等为无用信息,会对微博突发事件检测造成干扰;而词性为名词、动词、时间词、方位词和地点词等词语可更好地描述微博事件。因此,本申请中会重点考虑名词、动词、时间词、方位词和地点词等命名实体词,此外,若包含特殊的标签,其成为特殊事件的可能也会提高。
具体实施时,步骤S105包括:
分别统计每个时间窗的微博文本词集中的每个词的词频与文本频率;
遍历每个时间窗的微博文本词集中的每个词,将词频与文本频率满足预设条件的词作为候选突发特征词,并形成每个时间窗的候选突发特征词集BWset
基于候选突发特征词集BWset中每个候选突发特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值Wi2,i2=1,2,3,……n2,n2为候选突发特征词集BWset中的候选突发特征词的数量,
Figure GDA0001710299130000081
其中,
Figure GDA0001710299130000082
Wi2表示时间窗内任意候选突发特征词wi2的权重,D表示微博数据集,ni2j6表示候选突发特征词wi2在任意微博文本j6中的词频,Nj6表示所有微博文本的数量,Hi2j6在表示候选突发特征词wi2在微博文本j6中的命名实体权重因子,若候选突发特征词wi2为命名实体,则取值为1,否则为0;Ei2j6在表示候选突发特征词wi2在文本j6中的话题标签权重因子,若候选突发特征词wi2包括话题标签,则取值为1,否则为0;K表示微博文本j6中的总词数,Fk2j6表示微博文本j6中的第k2个词;
计算候选突发特征词集BWset每个候选突发特征词的词频增长率Zi2
Figure GDA0001710299130000083
其中,Zi2表示候选突发特征词wi2的词频增长速率,Fi2i3表示候选突发特征词wi2在时间窗口Ti3中的词频,Ti3为任意一个时间窗口,k3表示时间窗口Ti3之前时间的时间窗口数;
计算候选突发特征词集BWset每个候选突发特征词的关注度Gi2
Figure GDA0001710299130000084
其中Commenti2,Forwardi2,Collecti2,Prizei2分别为候选突发特征词wi2所在微博文本的评论数、转发数、收藏数与点赞数,Commenti2 j6,Forwardi2 j6,Collecti2 j6,Prizei2 j6分别为含候选突发特征词wi2的第j6个微博文本的评论数、转发数、收藏数与点赞数,DD为当前计算的时间窗口中微博文本总数;
计算候选突发特征词集BWset每个候选突发特征词的情感权重值Ei2,其中
Figure GDA0001710299130000091
Figure GDA0001710299130000097
DD为当前计算的时间窗口中微博文本总数,ej6 i2为含有候选突发特征词wi2的第j6条微博文本的情感倾向值,emotion(i2)为候选突发特征词wi2的情感倾向值,可以设置一个词语情感数据库,通过将候选突发特征词与词语情感数据库内预设的数据进行对比,判断候选突发特征词的情感倾向值,例如,正向情感,取值为1,负向情感,取值则为-1,中性情感则取值为0,此外,其取值也可采用在0-1之间进行取值取值越大,其表示的正面情感越强,取值越小,其表示的负面情感越强,mm为第j6条微博文本中词的总个数。
计算候选突发特征词的突发权重Burstyi2=γ1×Wi22×Zi23×Gi24×Ei2,其中,γ1234=1,γ1是TF-PDF权重值Wi2的权重、γ2是词频增长率Zi2的权重、γ3是关注度Gi2的权重、γ4是情感权重值Ei2的权重;
将突发权重Burstyi2大于预设权重的候选突发特征词作为突发特征词,形成时间窗的突发特征词集BTi3
若计算的时间窗口中一个词的词频高于其他时间窗中该词的平均词频,且在进行计算的时间窗中包含该词的文本数量也高于其他时间窗口中包含该词的平均文本数量,那么它成为突发特征词的可能性较大。当满足公式
Figure GDA0001710299130000093
Figure GDA0001710299130000094
时,判断词频与文本频率满足预设条件,其中,tfwj3(Ti3)表示当前进行计算的时间窗口Ti3内词wj3的词频,Ndocj3(Ti3)表示当前时间窗口Ti3内词wj3的文本频率,
Figure GDA0001710299130000095
为词wj3在时间窗口Ti3之前时间的时间窗的平均词频,
Figure GDA0001710299130000096
为词wj在时间窗口Ti3之前时间的时间窗中的平均文本频率,k3为时间窗口Ti3之前时间的时间窗数。基于候选突发特征词集BWset每个候选突发特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值Wi2,i2=1,2,3,……n2,n2为候选突发特征词集BWset中的候选突发特征词的数量;
TF-IDF方法主要度量一个词对所在文本内容主题的表征程度以及有别于其他文本的有效区分度,但对于词的突发性度量已不适用。一个词成为突发特征词,其词频以及文本频率都将会急剧增加,目前多采用TF-PDF方法度量词的重要性。此外,突发事件通常由时间、地点、人名、机构名等命名实体标注,应给予命名实体词较高的权重;含有话题标签的词通常也描述着突发事件信息,也应给予较高的权重,本申请在计算中考虑了每个候选突发特征词的TF-PDF权重值Wi2,进一步的提高了突发事件检测的精准度。
在本申请中,采用公式
Figure GDA0001710299130000101
Figure GDA0001710299130000102
计算每个候选突发特征词的TF-PDF权重值Wi2
突发特征词是短时间内词频急剧增加的词汇,具有一定的突发特性。可以用词频增长速率反映当前计算的时间窗口相较于其他时间窗口而言,某一个词的突发性,计算公式如下
Figure GDA0001710299130000103
其中,Zi2表示候选突发特征词wi2的词频增长速率,Fi2i3表示候选突发特征词wi2在时间窗口Ti3中的词频,k3表示时间窗口Ti3之前时间的时间窗数。
微博文本得到的评论数、转发数、点赞数与收藏数越多,则其所受到的关注度越大。因此文本中词汇所蕴含的信息也就越多,成为突发特征词的可能性越大。
突发事件发生后,网民进行大量微博信息发布、转发与评论等操作,进一步推动蕴含网民强烈的正面或负面情绪的滋生与蔓延。可见,微博文本中蕴含的情感对突发特征词识别也具有一定的影响力。
因此,本申请综合了多种突发特征生成突发特征词集,能够极大地提高突发事件检测的精准度。
具体实施时,步骤S106包括:
基于公式
Figure GDA0001710299130000104
计算突发特征词之间的相似度Sim(wi4,wj4),式中,wi4,wj4表示同一个突发特征词集中的任意两个突发特征词,|Pt|表示此时间窗内的微博文本数,pk则此时间窗中同时含有突发特征词wi4及wj4的微博文本数。
基于上下文词语同现性的词语相似度计算方法来衡量突发特征词之间的相似性,能够有效避免基于语义词典的词语语义相似度计算方法造成的语义相似度较低的词语却是描述同一事件的突发特征词现象的发生,进一步提高突发事件检测的准确性。
具体实施时,步骤S107包括:
步骤(1):将时间窗内每个词作为一个簇;
步骤(2):基于公式
Figure GDA0001710299130000111
计算任意两个簇Ci5及Cj5的相似度Sim(Ci5,Cj5),|Ci5×Cj5|表示任意两个簇Ci5及Cj5中词语数量的乘积,wi5,wj5分别是对应簇Ci5,Cj5中的任意一个突发特征词;
步骤(3):将相似度最大的两个簇合并,
步骤(4):再次计算任意两个簇的相似度,若此时新的相似度最大的两个簇的相似度小于相似度阈值,则执行步骤(3),否则执行步骤(5);
步骤(5):去除突发特征词小于预设特征词阈值的簇,基于剩余的簇生成对应时间窗的突发事件。
本申请中,最后剩下的符合要求的簇,即为若干个突发特征词,由这几个突发特征词,能够生成对应的时间窗的突发事件。该聚类方法优点是可生成较规整的类集合,所得聚类结果与原始数据的初始排列及输入顺序无关,与聚类过程的先后顺序也无关,因此,聚类结果较稳定,不易导致类的重构,聚类质量比较高。
根据本申请提供的技术方案,使用来源于新浪微博,通过网络爬虫所获取的2014年8月1日-8月15日期间所产生的微博数据,进行效果验证。获取的微博数据主要包括微博文本内容、发布时间、发布作者、转发数、评论数、收藏数与点赞数等信息,获取的微博数据中一共包括3个突发事件,分别是‘X地爆炸事件’、‘Y地爆炸事件’以及‘Z地地震事件’。
采用公式
Figure GDA0001710299130000112
进行性能测评。Precision表示准确率,Recall表示召回率,F-measure表示F值,且correct为系统正确检测出的突发事件数,output为系统检索出来的突发事件数,labeled则为测试数据集中所包含的突发事件总数。
选择每个时间窗的时长为1小时,主要分为两个实验:
实验(一):将将基于用户影响力与文本关注度的噪声去除算法(S102的算法)与文献[4](突发事件检测与关键节点挖掘研究)、[5](基于爆发词识别的微博突发事件监测方法研究)、[6](基于突发特征词与情感分析的微博突发事件监测研究)所提出的各个算法应用于微博突发事件检测中,并观测其在准确率、召回率以及F值上的变化,以对比分析各种噪声去除算法滤除微博噪声数据的有效性,具体见表1所示。
表1各种微博噪声去除算法应用于突发事件检测的性能指标对比分析
微博噪声去除算法 准确率% 召回率% F值%
文献[4] 42.85 52.35 47.13
文献[5] 49.36 63.16 55.41
文献[6] 53.49 68.36 60.02
本文改进的噪声去除算法 62.49 75.68 68.45
观测表1中所示数据,可知,相比较于文献[4]、[5]、[6]所提出的噪声去除算法,本申请公开的技术方案使得突发事件检测的准确率等指标有所提升。这说明该算法可以更好地去除微博数据中的噪声数据,辅助于微博突发事件检测,进一步提高突发事件检测的效果。
实验(二):将基于多特征的突发特征词识别算法(S104到S107的算法)与文献[7](中文微博突发事件检测研究)、[8](基于突发特征词聚类的微博突发事件检测方法)、[9](基于突发主题词和凝聚式层次聚类的微博突发事件检测研究)、[10](基于KL距离的微博突发话题检测研究)所提出的特征词识别算法应用于微博突发事件检测中,观测其在各个性能指标上的变化,并通过对比分析评测各个算法在突发特征词识别上的性能。具体见表2所示。
表1各种微博特征词识别算法应用于突发事件检测的性能指标对比分析
微博特征词识别算法 准确率% 召回率% F值%
文献[7] 55.89 69.48 61.95
文献[9] 58.47 73.58 65.16
文献[8] 62.98 78.56 69.91
文献[10] 65.32 80.18. 70.01
本文改进的突发特征词识别算法 68.24 85.63 75.95
本文所提微博突发事件检测方法 72.39 88.26 79.54
从表2中所示数据来看,S104至S107的算法用于微博突发事件检测时,相比于文献[7]、[8]、[9]和[10]中的算法,更能提高突发事件检测的效果;且将基于用户影响力与文本关注度的噪声去除算法,以及基于多特征的突发特征词识别算法结合(即S101至S107的算法),应用于微博数据实现突发事件检测时,其检测效果又得到进一步提升。这主要是因为,改进的微博噪声去除算法综合发布者影响力与文本受关注程度两方面,可以更好地去除微博文本中存在的噪声数据;改进的突发特征词识别算法也全面考虑了突发特征词所具备的各种特性,使得突发特征词的识别更为准确,最终也提高了突发事件的检测效果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims (2)

1.一种微博突发事件检测方法,其特征在于,包括:
步骤1:获取微博文本数据集D;
步骤2:基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤;该步骤包括:
提取微博文本数据集D中微博文本的类别信息;
基于所述类别信息去除微博文本数据集D中预设类别的微博文本;
提取微博文本数据集D中微博文本的字数信息;
基于所述字数信息去除微博文本数据集D中字数小于预设字数阈值的微博文本;
计算微博文本数据集D中微博文本的文本影响力评分Qualitytext
基于所述文本影响力评分Qualitytext去除微博文本数据集D中文本影响力评分Qualitytext小于预设评分阈值的微博文本,完成微博文本数据集D的噪声过滤;
文本影响力评分
Figure FDA0003290605870000011
Figure FDA0003290605870000012
代表微博文本的发布者影响力,即发布者被关注数Ufollow与发布者关注数Uattention比值的对数,
Figure FDA0003290605870000013
表示微博文本的关注度,即微博文本的评论数Commenttext、转发数Forwardtext、收藏数Collecttext与点赞数Prizetext的总和的对数与微博数据集D中所有微博文本的评论数Commenti1、转发数Forwardi1、收藏数Collecti1与点赞数Prizei1的总和的对数的比值,而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重,i1=1,2,3,……n1,n1为微博文本数据集D中的微博文本的数量;
步骤3:以预设时长建立多个时间窗,将微博文本数据集D中的微博文本划分至相应的时间窗中;
步骤4:对每个时间窗内的微博文本进行预处理;该步骤包括:
对时间窗内的微博文本进行切词获得微博文本词集;
基于预设的词语情感数据库与微博文本词集进行对比,获得微博文本词集的情感信息;
基于预设的命名实体词库与话题标签库与微博文本词集进行对比,获得微博文本词集的词属性信息,词属性信息记录了微博文本词集是否包括命名实体词,以及微博文本词集中是否有词语属于话题标签,所述命名实体词包括词性为名词、动词、时间词、方位词或地点词的词语;
步骤5:基于预设特征属性提取每个时间窗的突发特征词集BTi3,i3=1,2,3,……n3,n3为时间窗的数量,每个突发特征词集包括多个突发特征词;该步骤包括:
分别统计每个时间窗的微博文本词集中的每个词的词频与文本频率;
遍历每个时间窗的微博文本词集中的每个词,将词频与文本频率满足预设条件的词作为候选突发特征词,并形成每个时间窗的候选突发特征词集BWset
基于候选突发特征词集BWset中每个候选突发特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值Wi2,i2=1,2,3,……n2,n2为候选突发特征词集BWset中的候选突发特征词的数量,
Figure FDA0003290605870000021
其中,
Figure FDA0003290605870000022
Wi2表示时间窗内任意候选突发特征词wi2的权重,D表示微博数据集,ni2j6表示候选突发特征词wi2在任意微博文本j6中的词频,Nj6表示所有微博文本的数量,Hi2j6在表示候选突发特征词wi2在微博文本j6中的命名实体权重因子,若候选突发特征词wi2为命名实体,则取值为1,否则为0;Ei2j6在表示候选突发特征词wi2在文本j6中的话题标签权重因子,若候选突发特征词wi2包括话题标签,则取值为1,否则为0;K表示微博文本j6中的总词数,Fk2j6表示微博文本j6中的第k2个词;
计算候选突发特征词集BWset每个候选突发特征词的词频增长率Zi2
Figure FDA0003290605870000023
其中,Zi2表示候选突发特征词wi2的词频增长速率,Fi2i3表示候选突发特征词wi2在时间窗口Ti3中的词频,Ti3为任意一个时间窗口,k3表示时间窗口Ti3之前时间的时间窗口数;
计算候选突发特征词集BWset每个候选突发特征词的关注度Gi2
Figure FDA0003290605870000024
其中Commenti2,Forwardi2,Collecti2,Prizei2分别为候选突发特征词wi2所在微博文本的评论数、转发数、收藏数与点赞数,Commenti2 j6,Forwardi2 j6,Collecti2 j6,Prizei2 j6分别为含候选突发特征词wi2的第j6个微博文本的评论数、转发数、收藏数与点赞数,DD为当前计算的时间窗口中微博文本总数;
计算候选突发特征词集BWset每个候选突发特征词的情感权重值Ei2,其中
Figure FDA0003290605870000031
Figure FDA0003290605870000032
DD为当前计算的时间窗口中微博文本总数,ej6 i2为含有候选突发特征词wi2的第j6条微博文本的情感倾向值,emotion(i2)为候选突发特征词wi2的情感倾向值,mm为第j6条微博文本中词的总个数;
计算候选突发特征词的突发权重Burstyi2=γ1×Wi22×Zi23×Gi24×Ei2,其中,γ1234=1,γ1是TF-PDF权重值Wi2的权重、γ2是词频增长率Zi2的权重、γ3是关注度Gi2的权重、γ4是情感权重值Ei2的权重;
将突发权重Burstyi2大于预设权重的候选突发特征词作为突发特征词,形成时间窗的突发特征词集BTi3
步骤6:使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度;该步骤包括:
基于公式
Figure FDA0003290605870000033
计算突发特征词之间的相似度Sim(wi4,wj4),式中,wi4,wj4表示同一个突发特征词集中的任意两个突发特征词,|Pt|表示此时间窗内的微博文本数,pk则此时间窗中同时含有突发特征词wi4及wj4的微博文本数;
步骤7:基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发特征词进行聚类,生成目标时间窗的突发事件。
2.如权利要求1所述的微博突发事件检测方法,其特征在于,步骤7包括:
步骤(1):将时间窗内每个词作为一个簇;
步骤(2):基于公式
Figure FDA0003290605870000034
计算任意两个簇Ci5及Cj5的相似度Sim(Ci5,Cj5),|Ci5×Cj5|表示任意两个簇Ci5及Cj5中词语数量的乘积,wi5,wj5分别是对应簇Ci5,Cj5中的任意一个突发特征词;
步骤(3):将相似度最大的两个簇合并,
步骤(4):再次计算任意两个簇的相似度,若此时新的相似度最大的两个簇的相似度小于相似度阈值,则执行步骤(3),否则执行步骤(5);
步骤(5):去除突发特征词小于预设特征词阈值的簇,基于剩余的簇生成对应时间窗的突发事件。
CN201810490699.2A 2018-05-21 2018-05-21 一种微博突发事件检测方法 Active CN108733816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810490699.2A CN108733816B (zh) 2018-05-21 2018-05-21 一种微博突发事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810490699.2A CN108733816B (zh) 2018-05-21 2018-05-21 一种微博突发事件检测方法

Publications (2)

Publication Number Publication Date
CN108733816A CN108733816A (zh) 2018-11-02
CN108733816B true CN108733816B (zh) 2022-02-01

Family

ID=63937826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810490699.2A Active CN108733816B (zh) 2018-05-21 2018-05-21 一种微博突发事件检测方法

Country Status (1)

Country Link
CN (1) CN108733816B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670174B (zh) * 2018-12-14 2022-12-16 腾讯科技(深圳)有限公司 一种事件识别模型的训练方法和装置
CN110543590A (zh) * 2019-01-23 2019-12-06 北京信息科技大学 一种微博突发事件的检测方法
CN110134876B (zh) * 2019-01-29 2021-10-26 国家计算机网络与信息安全管理中心 一种基于群智传感器的网络空间群体性事件感知与检测方法
CN110502703A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于字符串字典构建的社交网络突发事件检测方法
CN110457595B (zh) * 2019-08-01 2023-07-04 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
CN110990592B (zh) * 2019-11-07 2023-06-23 北京科技大学 一种微博突发话题在线检测方法及检测装置
CN111815028A (zh) * 2020-06-10 2020-10-23 湖北大学 一种突发热点事件的传播路径的预测方法和装置
CN112528024B (zh) * 2020-12-15 2022-11-18 哈尔滨工程大学 一种基于多特征融合的微博突发事件检测方法
CN112527960A (zh) * 2020-12-17 2021-03-19 华东师范大学 基于关键词聚类的突发事件检测方法
CN112256843B (zh) * 2020-12-22 2021-04-20 华东交通大学 一种基于tf-idf方法优化的新闻关键词提取方法及系统
CN113836267A (zh) * 2021-09-24 2021-12-24 国家市场监督管理总局信息中心 一种突发事件检测方法及装置
CN114461763B (zh) * 2022-04-13 2022-07-15 南京众智维信息科技有限公司 一种基于突发词聚类的网络安全事件抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于爆发词识别的微博突发事件监测方法研究;陈国兰;《情报杂志》;20140930;第0-5节 *
基于突发词和情感分析的微博突发事件监测研究;陈国兰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160515;全文 *
基于突发词聚类的微博突发事件检测方法;郭跇秀等;《计算机应用》;20140210;第0-5节 *
郭跇秀等.基于突发词聚类的微博突发事件检测方法.《计算机应用》.2014, *

Also Published As

Publication number Publication date
CN108733816A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108733816B (zh) 一种微博突发事件检测方法
Manguri et al. Twitter sentiment analysis on worldwide COVID-19 outbreaks
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
US9116985B2 (en) Computer-implemented systems and methods for taxonomy development
CN109325117B (zh) 一种多特征融合的微博中社会安全事件检测方法
US9967321B2 (en) Meme discovery system
US10366117B2 (en) Computer-implemented systems and methods for taxonomy development
CN112650848A (zh) 基于文本语义相关乘客评价的城铁舆情信息分析方法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN109583738A (zh) 一种用于债券风险控制的装置及方法
AU2020200806B2 (en) Virtual artificial intelligence based consultant
CN104216964B (zh) 一种面向微博的非分词突发话题检测方法
CN106599065A (zh) 一种基于Storm分布式框架的食品安全网络舆情预警系统
Chakraborty et al. Around the world in 60 days: an exploratory study of impact of COVID-19 on online global news sentiment
CN104281608A (zh) 基于微博的突发事件分析方法
CN105138577A (zh) 一种基于大数据的事件演化分析方法
CN111523006A (zh) 一种针对疫情区的网络舆情追踪方法
CN105183765A (zh) 一种基于大数据的话题抽取方法
Atoum Cyberbullying detection through sentiment analysis
CN104965930A (zh) 一种基于大数据的突发事件演化分析方法
CN112419029A (zh) 类金融机构风险监控方法、风险模拟系统及存储介质
Sadhukhan et al. Producing better disaster management plan in post-disaster situation using social media mining
CN112487306B (zh) 基于知识图谱的自动化事件标记与分类方法
TW201640383A (zh) 網路事件自動蒐集分析方法及系統
Atoum Detecting cyberbullying from tweets through machine learning techniques with sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant