CN108733816A - 一种微博突发事件检测方法 - Google Patents
一种微博突发事件检测方法 Download PDFInfo
- Publication number
- CN108733816A CN108733816A CN201810490699.2A CN201810490699A CN108733816A CN 108733816 A CN108733816 A CN 108733816A CN 201810490699 A CN201810490699 A CN 201810490699A CN 108733816 A CN108733816 A CN 108733816A
- Authority
- CN
- China
- Prior art keywords
- word
- microblogging
- text
- time window
- burst character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种微博突发事件检测方法,包括获取微博文本数据集;基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集进行噪声过滤;以预设时长建立多个时间窗,将微博文本数据集中的微博文本划分至相应的时间窗中;对每个时间窗内的微博文本进行预处理;基于预设特征属性提取每个时间窗的突发特征词集;分别计算目标时间窗内的突发特征词之间的相似度;生成目标时间窗的突发事件。本申请在进行微博突发事件检测时充分考虑了微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑了微博的情感倾向性、词频统计、词频增长率与TF‑PDF权重等因素对突发特征词识别的影响,提高了突发事件检测的精准度。
Description
技术领域
本发明涉及网络检测技术领域,尤其涉及一种微博突发事件检测方法。
背景技术
微博是近年来兴起的、支持跨平台的信息互动交流的社会化媒体,因其简单、快捷的使 用方式,受到广大发布者的青睐。大量新奇、热点时事以及短时爆发的突发事件等首见于此, 并及时得到快速传播。采用突发事件检测技术对海量微博文本信息进行归类、组织,识别其 所蕴含的突发事件信息呈现给发布者,既可解决信息过载问题,又可为政府、企业、组织机 构等部门应对突发事件制定应急决策提供数据支撑,进一步正确引导微博舆情朝向健康方向 发展,维护社会秩序,保持和谐与稳定。因此,研究针对微博文本的突发事件检测技术具有 重要的理论价值和现实意义。
微博突发事件检测(Burst Event Detection,简称BED),主要是通过一定的检测算法 从海量微博数据中挖掘出含有突发性特征的事件,从而识别微博平台中的突发事件。目前, 微博突发事件检测技术主要有基于聚类的突发事件检测技术与基于特征的突发事件检测技术 两类,且后者是主流的技术,应用较广泛。研究者针对微博噪声去除以及突发特征词识别方 面展开了相应的研究,并取得初步成果。《突发事件检测与关键节点挖掘研究》提出基于词 性与特定格式的微博噪声数据过滤方法;《基于爆发词识别的微博突发事件监测方法研究》 提出基于微博文本字数、发布者粉丝数、标签标注与特定格式的微博噪声数据过滤方法;文 献《基于突发特征词与情感分析的微博突发事件监测研究》则提出了基于噪声词典、噪声发 布者及特定格式的微博噪声数据过滤方法。这些方法虽一定程度上去除了有碍于微博突发事 件检测的噪声数据,但未能充分考虑微博文本关注度与发布者的影响力对微博突发事件检测 的影响。
《中文微博突发事件检测研究》提出基于词频统计、词增长率与TF-PDF权重计算的微博 突发特征词识别算法;《基于突发特征词聚类的微博突发事件检测方法》结合发布者影响力 和词语的TF-IDF权重,提出基于突发度的微博突发特征词识别算法;《基于突发主题词和凝 聚式层次聚类的微博突发事件检测研究》提出基于词频、文本频率、话题标签以及词频增长 率特征的微博突发特征词识别算法;《基于KL距离的微博突发话题检测研究》提出基于词频、 文本频率、发布者影响力以及TF-PDF的微博突发特征词识别算法。上述方法均是从某几个方 面出发,设计微博突发特征词识别算法,有助于微博突发事件的检测,但未能综合考虑微博 的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响,有失 偏颇。
因此,如何在进行微博突发事件检测时充分考虑微博文本关注度与发布者的影响力对微 博突发事件检测的影响,且充分考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权 重等因素对突发特征词识别的影响,成为了本领域技术人员亟需解决的问题。
发明内容
针对现有技术存在的上述不足,本发明要解决的技术问题是:如何在进行微博突发事件 检测时充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑 微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响。
为解决上述技术问题,本发明采用了如下的技术方案:
一种微博突发事件检测方法,包括:
步骤1:获取微博文本数据集D;
步骤2:基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进 行噪声过滤;
步骤3:以预设时长建立多个时间窗,将微博文本数据集D中的微博文本划分至相应的 时间窗中;
步骤4:对每个时间窗内的微博文本进行预处理;
步骤5:基于预设特征属性提取每个时间窗的突发特征词集BTi3,i3=1,2,3,……n3, n3为时间窗的数量,每个突发特征词词集包括多个突发特征词;
步骤6:使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度;
步骤7:基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发 特征词进行聚类,生成目标时间窗的突发事件。
优选地,步骤2包括:
提取微博文本数据集D中微博文本的类别信息;
基于所述类别信息去除微博文本数据集D中预设类别的微博文本;
提取微博文本数据集D中微博文本的字数信息;
基于所述字数信息去除微博文本数据集D中字数小于预设字数阈值的微博文本;
计算微博文本数据集D中微博文本的文本影响力评分Qualitytext;
基于所述文本影响力评分Qualitytext去除微博文本数据集D中文本影响力评分Qualitytext小于 预设评分阈值的微博文本,完成微博文本数据集D的噪声过滤。
优选地,文本影响力评分 代表 微博文本的发布者影响力,即发布者被关注数Ufollow与发布者关注数Uattention比值的对数, 表示微博文本的关注度,即微博文本的评论数 Commenttext、转发数Forwardtext、收藏数Collecttext与点赞数Prizetext的总和的对数与微博数据集D中 所有微博文本的评论数Commenti1、转发数Forwardi1、收藏数Collecti1与点赞数Prizei1的总和的对 数的比值,而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重,i1=1,2,3,…… n1,n1为微博文本数据集D中的微博文本的数量。
优选地,步骤4包括:
对时间窗内的微博文本进行切词获得微博文本词集;
基于预设的词语情感数据库与微博文本词集进行对比,获得微博文本词集的情感信息;
基于预设的命名实体词库与话题标签库与微博文本词集进行对比,获得微博文本词集的 词属性信息,词属性信息记录了微博文本词集是否包括命名实体词,以及微博文本词集中是 否有词语属于话题标签,所述命名实体词包括词性为名词、动词、时间词、方位词或地点词 的词语。
优选地,步骤5包括:
分别统计每个时间窗的微博文本词集中的每个词的词频与文本频率;
遍历每个时间窗的微博文本词集中的每个词,将词频与文本频率满足预设条件的词作为 候选突发特征词,并形成每个时间窗的候选突发特征词集BWset;
基于候选突发特征词集BWset中每个候选突发特征词的词属性信息计算每个候选突发特征 词的TF-PDF权重值Wi2,i2=1,2,3,……n2,n2为候选突发特征词集BWset中的候选突发特 征词的数量,其中,Wi2表示时间窗内任意 候选突发特征词wi2的权重,D表示微博数据集,ni2j6表示候选突发特征词wi2在任意微博文本j6中的词频,Nj6表示所有微博文本的数量,Hi2j6在表示候选突发特征词wi2在微博文本j6中 的命名实体权重因子,若候选突发特征词wi2为命名实体,则取值为1,否则为0;Ei2j6在表示 候选突发特征词wi2在文本j6中的话题标签权重因子,若候选突发特征词wi2包括话题标签, 则取值为1,否则为0;K表示微博文本j6中的总词数,Fk2j6表示微博文本j6中的第k2个词;
计算候选突发特征词集BWset每个候选突发特征词的词频增长率Zi2,其中, Zi2表示候选突发特征词wi2的词频增长速率,Fi2i3表示候选突发特征词wi2在时间窗口Ti3中的词 频,Ti3为任意一个时间窗口,k3表示时间窗口Ti3之前时间的时间窗口数;
计算候选突发特征词集BWset每个候选突发特征词的关注度Gi2,其中Commenti2,Forwardi2,Collecti2,Prizei2分别为候选突发特征词wi2所在微博文本的评论数、转发数、收藏数与点赞数,Commenti2 j6, Forwardi2 j6,Collecti2 j6,Prizei2 j6分别为含候选突发特征词wi2的第j6个微博文本的评论数、转发 数、收藏数与点赞数,DD为当前计算的时间窗口中微博文本总数;
计算候选突发特征词集BWset每个候选突发特征词的情感权重值Ei2,其中 DD为当前计算的时间窗口中微博文本总数,ej6为含有候选突发特征词 wi2的第j6条微博文本的情感倾向值,emotion(i2)为候选突发特征词wi2的情感倾向值,mm为第 j6条微博文本中词的总个数;
计算候选突发特征词的突发权重Burstyi2=γ1×Wi2+γ2×Zi2+γ3×Gi2+γ4×Ei2,其中, γ1+γ2+γ3+γ4=1,γ1是TF-PDF权重值Wi2的权重、γ2是词频增长率Zi2的权重、γ3是关注度Gi2的 权重、γ4是情感权重值Ei2的权重;
将突发权重Burstyi2大于预设权重的候选突发特征词作为突发特征词,形成时间窗的突发 特征词集BTi3。
优选地,步骤6包括:
基于公式计算突发特征词之间的相似度Sim(wi4,wj4),式中,wi4,wj4表示同一个突发特征词集中的任意两个突发特征词,|Pt|表示此时 间窗内的微博文本数,pk则此时间窗中同时含有突发特征词wi4及wj4的微博文本数。
优选地,步骤7包括:
步骤(1):将时间窗内每个词作为一个簇;
步骤(2):基于公式计算任意两个簇Ci5及Cj5的相似度 Sim(Ci5,Cj5),|Ci5×Cj5|表示任意两个簇Ci5及Cj5中词语数量的乘积,wi5,wj5分别是对应簇Ci5,Cj5中 的任意一个突发特征词;
步骤(3):将相似度最大的两个簇合并,
步骤(4):再次计算任意两个簇的相似度,若此时新的相似度最大的两个簇的相似度小 于相似度阈值,则执行步骤(3),否则执行步骤(5);
步骤(5):去除突发特征词小于预设特征词阈值的簇,基于剩余的簇生成对应时间窗的 突发事件。
综上所述,本申请公开了一种微博突发事件检测方法,包括获取微博文本数据集;基于 微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集进行噪声过滤;以预设 时长建立多个时间窗,将微博文本数据集中的微博文本划分至相应的时间窗中;对每个时间 窗内的微博文本进行预处理;基于预设特征属性提取每个时间窗的突发特征词集;分别计算 目标时间窗内的突发特征词之间的相似度;生成目标时间窗的突发事件。本申请在进行微博 突发事件检测时充分考虑了微博文本关注度与发布者的影响力对微博突发事件检测的影响, 且充分考虑了微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词 识别的影响,提高了突发事件检测的精准度。
附图说明
图1是本申请公开了一种微博突发事件检测方法的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的 详细描述说明。
如图1所示,本申请公开了一种微博突发事件检测方法,包括:
S101:获取微博文本数据集D;
微博文本数据集D包括了多个微博文本,可以采用网络爬虫进行微博文本的获取,获取 方式为现有技术,在此不再赘述。
S102:基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行 噪声过滤;
S103:以预设时长建立多个时间窗,将微博文本数据集D中的微博文本划分至相应的时 间窗中;
由于获取的微博文本数据集D包括的微博文本的发布时间极广,
S104:对每个时间窗内的微博文本进行预处理;
S105:基于预设特征属性提取每个时间窗的突发特征词集BTi3,i3=1,2,3,……n3,n3 为时间窗的数量,每个突发特征词词集包括多个突发特征词;
基于预设特征属性提取每个时间窗的突发特征词集BTi3,i3=1,2,3,……n3,n3为时间 窗的数量,每个突发特征词词集包括多个突发特征词
S106:使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度;
S107:基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发特 征词进行聚类,生成目标时间窗的突发事件。
此处的目标时间窗根据实际需要来确定,可以是一个时间窗,也可以是多个时间窗,每 个目标时间窗,分别生成突发事件。与现有技术相比,本申请提出了新的微博突发事件检测 方法,该方法首先基于发布者影响力与文本关注度改进去噪算法,滤除微博中的噪声数据, 然后提出基于多特征的突发特征词识别算法,最后结合聚类算法应用于微博数据以实现突发 事件检测。相比于传统的突发事件检测方法,本方法在进行微博突发事件检测时充分考虑了 微博文本关注度与发布者的影响力对微博突发事件检测的影响,且充分考虑了微博的情感倾 向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响,提高了突发事 件检测的精准度。
具体实施时,步骤S102包括:
提取微博文本数据集D中微博文本的类别信息;
微博文本的类别信息记录了此微博文本的所属类别,例如明星娱乐类、购物类、美食类 及电影类;
基于所述类别信息去除微博文本数据集D中预设类别的微博文本;
此处的预设类别可根据实际情况进行设定,例如:明星娱乐类、购物类、美食类及电影 类。
提取微博文本数据集D中微博文本的字数信息;
基于所述字数信息去除微博文本数据集D中字数小于预设字数阈值的微博文本;
当微博文本字数过少时,基本不存在具备包括突发事件的潜质,因此根据实际情况设置 一个预设字数阈值,将小于预设字数阈值的微博文本去除,预设字数阈值可以为10。
在采用文本影响力评分进行噪声过滤之前,先去除类别及字数不符合的微博文本,可以 极大地减少后续的计算量,提高过滤的速度。
计算微博文本数据集D中微博文本的文本影响力评分Qualitytext;
基于所述文本影响力评分Qualitytext去除微博文本数据集D中文本影响力评分Qualitytext小于 预设评分阈值的微博文本,完成微博文本数据集D的噪声过滤。
具体实施时,文本影响力评分 代表 微博文本的发布者影响力,即发布者被关注数Ufollow与发布者关注数Uattention比值的对数, 表示微博文本的关注度,即微博文本的评论数 Commenttext、转发数Forwardtext、收藏数Collecttext与点赞数Prizetext的总和的对数与微博数据集D中 所有微博文本的评论数Commenti1、转发数Forwardi1、收藏数Collecti1与点赞数Prizei1的总和的对 数的比值,而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重,i1=1,2,3,…… n1,n1为微博文本数据集D中的微博文本的数量。
本申请将发布者影响力及文本关注度相结合,根据计算得到的文本影响力评分Qualitytext对 微博文本的质量进行评价,过滤掉不被人关注的,影响力小的微博文本,去除杂质,减少后 续的计算量,进而提高检测的精准度。
具体实施时,步骤S104包括:
对时间窗内的微博文本进行切词获得微博文本词集;
基于预设的词语情感数据库与微博文本词集进行对比,获得微博文本词集的情感信息;
基于预设的命名实体词库与话题标签库与微博文本词集进行对比,获得微博文本词集的 词属性信息,词属性信息记录了微博文本词集是否包括命名实体词,以及微博文本词集中是 否有词语属于话题标签,所述命名实体词包括词性为名词、动词、时间词、方位词或地点词 的词语。
研究表明,停用词、特殊符号(如@,#等)、URL等为无用信息,会对微博突发事件检测造成干扰;而词性为名词、动词、时间词、方位词和地点词等词语可更好地描述微博事件。因此,本申请中会重点考虑名词、动词、时间词、方位词和地点词等命名实体词,此外,若 包含特殊的标签,其成为特殊事件的可能也会提高。
具体实施时,步骤S105包括:
分别统计每个时间窗的微博文本词集中的每个词的词频与文本频率;
遍历每个时间窗的微博文本词集中的每个词,将词频与文本频率满足预设条件的词作为 候选突发特征词,并形成每个时间窗的候选突发特征词集BWset;
基于候选突发特征词集BWset中每个候选突发特征词的词属性信息计算每个候选突发特征 词的TF-PDF权重值Wi2,i2=1,2,3,……n2,n2为候选突发特征词集BWset中的候选突发特 征词的数量,其中,Wi2表示时间窗内任意 候选突发特征词wi2的权重,D表示微博数据集,ni2j6表示候选突发特征词wi2在任意微博文本 j6中的词频,Nj6表示所有微博文本的数量,Hi2j6在表示候选突发特征词wi2在微博文本j6中 的命名实体权重因子,若候选突发特征词wi2为命名实体,则取值为1,否则为0;Ei2j6在表示 候选突发特征词wi2在文本j6中的话题标签权重因子,若候选突发特征词wi2包括话题标签, 则取值为1,否则为0;K表示微博文本j6中的总词数,Fk2j6表示微博文本j6中的第k2个词;
计算候选突发特征词集BWset每个候选突发特征词的词频增长率Zi2,其中, Zi2表示候选突发特征词wi2的词频增长速率,Fi2i3表示候选突发特征词wi2在时间窗口Ti3中的词 频,Ti3为任意一个时间窗口,k3表示时间窗口Ti3之前时间的时间窗口数;
计算候选突发特征词集BWset每个候选突发特征词的关注度Gi2,其中Commenti2,Forwardi2,Collecti2,Prizei2分别为候选突发特征词wi2所在微博文本的评论数、转发数、收藏数与点赞数,Commenti2 j6, Forwardi2 j6,Collecti2 j6,Prizei2 j6分别为含候选突发特征词wi2的第j6个微博文本的评论数、转发 数、收藏数与点赞数,DD为当前计算的时间窗口中微博文本总数;
计算候选突发特征词集BWset每个候选突发特征词的情感权重值Ei2,其中 DD为当前计算的时间窗口中微博文本总数,ej6 i2为含有候选突发特征词 wi2的第j6条微博文本的情感倾向值,emotion(i2)为候选突发特征词wi2的情感倾向值,可以设 置一个词语情感数据库,通过将候选突发特征词与词语情感数据库内预设的数据进行对比, 判断候选突发特征词的情感倾向值,例如,正向情感,取值为1,负向情感,取值则为-1, 中性情感则取值为0,此外,其取值也可采用在0-1之间进行取值取值越大,其表示的正面 情感越强,取值越小,其表示的负面情感越强,mm为第j6条微博文本中词的总个数。
计算候选突发特征词的突发权重Burstyi2=γ1×Wi2+γ2×Zi2+γ3×Gi2+γ4×Ei2,其中, γ1+γ2+γ3+γ4=1,γ1是TF-PDF权重值Wi2的权重、γ2是词频增长率Zi2的权重、γ3是关注度Gi2的 权重、γ4是情感权重值Ei2的权重;
将突发权重Burstyi2大于预设权重的候选突发特征词作为突发特征词,形成时间窗的突发 特征词集BTi3。
若计算的时间窗口中一个词的词频高于其他时间窗中该词的平均词频,且在进行计算的 时间窗中包含该词的文本数量也高于其他时间窗口中包含该词的平均文本数量,那么它成为 突发特征词的可能性较大。当满足公式及时,判断词频与文本频率满足预设条件,其中,表示当前进行计算的时间窗口Ti3内词wj3的词 频,表示当前时间窗口Ti3内词wj3的文本频率,为词wj3在时间窗口Ti3之 前时间的时间窗的平均词频,为词wj在时间窗口Ti3之前时间的时间窗中的平均 文本频率,k3为时间窗口Ti3之前时间的时间窗数。基于候选突发特征词集BWset每个候选突发 特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值Wi2,i2=1,2,3,……n2,n2 为候选突发特征词集BWset中的候选突发特征词的数量;
TF-IDF方法主要度量一个词对所在文本内容主题的表征程度以及有别于其他文本的有效 区分度,但对于词的突发性度量已不适用。一个词成为突发特征词,其词频以及文本频率都 将会急剧增加,目前多采用TF-PDF方法度量词的重要性。此外,突发事件通常由时间、地 点、人名、机构名等命名实体标注,应给予命名实体词较高的权重;含有话题标签的词通常 也描述着突发事件信息,也应给予较高的权重,本申请在计算中考虑了每个候选突发特征词 的TF-PDF权重值Wi2,进一步的提高了突发事件检测的精准度。
在本申请中,采用公式及计算每个候选突发 特征词的TF-PDF权重值Wi2。
突发特征词是短时间内词频急剧增加的词汇,具有一定的突发特性。可以用词频增长速 率反映当前计算的时间窗口相较于其他时间窗口而言,某一个词的突发性,计算公式如下 其中,Zi2表示候选突发特征词wi2的词频增长速率,Fi2i3表示候选突发特征词wi2在时间窗口Ti3中的词频,k3表示时间窗口Ti3之前时间的时间窗数。
微博文本得到的评论数、转发数、点赞数与收藏数越多,则其所受到的关注度越大。因 此文本中词汇所蕴含的信息也就越多,成为突发特征词的可能性越大。
突发事件发生后,网民进行大量微博信息发布、转发与评论等操作,进一步推动蕴含网 民强烈的正面或负面情绪的滋生与蔓延。可见,微博文本中蕴含的情感对突发特征词识别也 具有一定的影响力。
因此,本申请综合了多种突发特征生成突发特征词集,能够极大地提高突发事件检测的 精准度。
具体实施时,步骤S106包括:
基于公式计算突发特征词之间的相似度Sim(wi4,wj4),式中,wi4,wj4表示同一个突发特征词集中的任意两个突发特征词,|Pt|表示此时 间窗内的微博文本数,pk则此时间窗中同时含有突发特征词wi4及wj4的微博文本数。
基于上下文词语同现性的词语相似度计算方法来衡量突发特征词之间的相似性,能够有 效避免基于语义词典的词语语义相似度计算方法造成的语义相似度较低的词语却是描述同一 事件的突发特征词现象的发生,进一步提高突发事件检测的准确性。
具体实施时,步骤S107包括:
步骤(1):将时间窗内每个词作为一个簇;
步骤(2):基于公式计算任意两个簇Ci5及Cj5的相似度 Sim(Ci5,Cj5),|Ci5×Cj5|表示任意两个簇Ci5及Cj5中词语数量的乘积,wi5,wj5分别是对应簇Ci5,Cj5中 的任意一个突发特征词;
步骤(3):将相似度最大的两个簇合并,
步骤(4):再次计算任意两个簇的相似度,若此时新的相似度最大的两个簇的相似度小 于相似度阈值,则执行步骤(3),否则执行步骤(5);
步骤(5):去除突发特征词小于预设特征词阈值的簇,基于剩余的簇生成对应时间窗的 突发事件。
本申请中,最后剩下的符合要求的簇,即为若干个突发特征词,由这几个突发特征词, 能够生成对应的时间窗的突发事件。该聚类方法优点是可生成较规整的类集合,所得聚类结 果与原始数据的初始排列及输入顺序无关,与聚类过程的先后顺序也无关,因此,聚类结果 较稳定,不易导致类的重构,聚类质量比较高。
根据本申请提供的技术方案,使用来源于新浪微博,通过网络爬虫所获取的2014年8 月1日-8月15日期间所产生的微博数据,进行效果验证。获取的微博数据主要包括微博文本内容、发布时间、发布作者、转发数、评论数、收藏数与点赞数等信息,获取的微博 数据中一共包括3个突发事件,分别是‘X地爆炸事件’、‘Y地爆炸事件’以及‘Z地地 震事件’。
采用公式进行性能测评。 Precision表示准确率,Recall表示召回率,F-measure表示F值,且correct为系统正确检测出的 突发事件数,output为系统检索出来的突发事件数,labeled则为测试数据集中所包含的突发事 件总数。
选择每个时间窗的时长为1小时,主要分为两个实验:
实验(一):将将基于用户影响力与文本关注度的噪声去除算法(S102的算法)与文献 [4](突发事件检测与关键节点挖掘研究)、[5](基于爆发词识别的微博突发事件监测方法 研究)、[6](基于突发特征词与情感分析的微博突发事件监测研究)所提出的各个算法应用 于微博突发事件检测中,并观测其在准确率、召回率以及F值上的变化,以对比分析各种噪 声去除算法滤除微博噪声数据的有效性,具体见表1所示。
表1各种微博噪声去除算法应用于突发事件检测的性能指标对比分析
微博噪声去除算法 | 准确率% | 召回率% | F值% |
文献[4] | 42.85 | 52.35 | 47.13 |
文献[5] | 49.36 | 63.16 | 55.41 |
文献[6] | 53.49 | 68.36 | 60.02 |
本文改进的噪声去除算法 | 62.49 | 75.68 | 68.45 |
观测表1中所示数据,可知,相比较于文献[4]、[5]、[6]所提出的噪声去除算法,本申 请公开的技术方案使得突发事件检测的准确率等指标有所提升。这说明该算法可以更好地去 除微博数据中的噪声数据,辅助于微博突发事件检测,进一步提高突发事件检测的效果。
实验(二):将基于多特征的突发特征词识别算法(S104到S107的算法)与文献[7](中文微博突发事件检测研究)、[8](基于突发特征词聚类的微博突发事件检测方法)、[9](基于突发主题词和凝聚式层次聚类的微博突发事件检测研究)、[10](基于KL距离的微博突发话题检测研究)所提出的特征词识别算法应用于微博突发事件检测中,观测其在各个性 能指标上的变化,并通过对比分析评测各个算法在突发特征词识别上的性能。具体见表2所 示。
表1各种微博特征词识别算法应用于突发事件检测的性能指标对比分析
微博特征词识别算法 | 准确率% | 召回率% | F值% |
文献[7] | 55.89 | 69.48 | 61.95 |
文献[9] | 58.47 | 73.58 | 65.16 |
文献[8] | 62.98 | 78.56 | 69.91 |
文献[10] | 65.32 | 80.18. | 70.01 |
本文改进的突发特征词识别算法 | 68.24 | 85.63 | 75.95 |
本文所提微博突发事件检测方法 | 72.39 | 88.26 | 79.54 |
从表2中所示数据来看,S104至S107的算法用于微博突发事件检测时,相比于文献[7]、 [8]、[9]和[10]中的算法,更能提高突发事件检测的效果;且将基于用户影响力与文本关注 度的噪声去除算法,以及基于多特征的突发特征词识别算法结合(即S101至S107的算法), 应用于微博数据实现突发事件检测时,其检测效果又得到进一步提升。这主要是因为,改进 的微博噪声去除算法综合发布者影响力与文本受关注程度两方面,可以更好地去除微博文本 中存在的噪声数据;改进的突发特征词识别算法也全面考虑了突发特征词所具备的各种特性, 使得突发特征词的识别更为准确,最终也提高了突发事件的检测效果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发 明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式 上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范 围。
Claims (7)
1.一种微博突发事件检测方法,其特征在于,包括:
步骤1:获取微博文本数据集D;
步骤2:基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤;
步骤3:以预设时长建立多个时间窗,将微博文本数据集D中的微博文本划分至相应的时间窗中;
步骤4:对每个时间窗内的微博文本进行预处理;
步骤5:基于预设特征属性提取每个时间窗的突发特征词集BTi3,i3=1,2,3,……n3,n3为时间窗的数量,每个突发特征词词集包括多个突发特征词;
步骤6:使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度;
步骤7:基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发特征词进行聚类,生成目标时间窗的突发事件。
2.如权利要求1所述的微博突发事件检测方法,其特征在于,步骤2包括:
提取微博文本数据集D中微博文本的类别信息;
基于所述类别信息去除微博文本数据集D中预设类别的微博文本;
提取微博文本数据集D中微博文本的字数信息;
基于所述字数信息去除微博文本数据集D中字数小于预设字数阈值的微博文本;
计算微博文本数据集D中微博文本的文本影响力评分Qualitytext;
基于所述文本影响力评分Qualitytext去除微博文本数据集D中文本影响力评分Qualitytext小于预设评分阈值的微博文本,完成微博文本数据集D的噪声过滤。
3.如权利要求2所述的微博突发事件检测方法,其特征在于,文本影响力评分 代表微博文本的发布者影响力,即发布者被关注数Ufollow与发布者关注数Uattention比值的对数,表示微博文本的关注度,即微博文本的评论数Commenttext、转发数Forwardtext、收藏数Collecttext与点赞数Prizetext的总和的对数与微博数据集D中所有微博文本的评论数Commenti1、转发数Forwardi1、收藏数Collecti1与点赞数Prizei1的总和的对数的比值,而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重,i1=1,2,3,……n1,n1为微博文本数据集D中的微博文本的数量。
4.如权利要求1所述的微博突发事件检测方法,其特征在于,步骤4包括:
对时间窗内的微博文本进行切词获得微博文本词集;
基于预设的词语情感数据库与微博文本词集进行对比,获得微博文本词集的情感信息;
基于预设的命名实体词库与话题标签库与微博文本词集进行对比,获得微博文本词集的词属性信息,词属性信息记录了微博文本词集是否包括命名实体词,以及微博文本词集中是否有词语属于话题标签,所述命名实体词包括词性为名词、动词、时间词、方位词或地点词的词语。
5.如权利要求4所述的微博突发事件检测方法,其特征在于,步骤5包括:
分别统计每个时间窗的微博文本词集中的每个词的词频与文本频率;
遍历每个时间窗的微博文本词集中的每个词,将词频与文本频率满足预设条件的词作为候选突发特征词,并形成每个时间窗的候选突发特征词集BWset;
基于候选突发特征词集BWset中每个候选突发特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值Wi2,i2=1,2,3,……n2,n2为候选突发特征词集BWset中的候选突发特征词的数量,其中,Wi2表示时间窗内任意候选突发特征词wi2的权重,D表示微博数据集,ni2j6表示候选突发特征词wi2在任意微博文本j6中的词频,Nj6表示所有微博文本的数量,Hi2j6在表示候选突发特征词wi2在微博文本j6中的命名实体权重因子,若候选突发特征词wi2为命名实体,则取值为1,否则为0;Ei2j6在表示候选突发特征词wi2在文本j6中的话题标签权重因子,若候选突发特征词wi2包括话题标签,则取值为1,否则为0;K表示微博文本j6中的总词数,Fk2j6表示微博文本j6中的第k2个词;
计算候选突发特征词集BWset每个候选突发特征词的词频增长率Zi2,其中,Zi2表示候选突发特征词wi2的词频增长速率,Fi2i3表示候选突发特征词wi2在时间窗口Ti3中的词频,Ti3为任意一个时间窗口,k3表示时间窗口Ti3之前时间的时间窗口数;
计算候选突发特征词集BWset每个候选突发特征词的关注度Gi2,其中Commenti2,Forwardi2,Collecti2,Prizei2分别为候选突发特征词wi2所在微博文本的评论数、转发数、收藏数与点赞数,Commenti2 j6,Forwardi2 j6,Collecti2 j6,Prizei2 j6分别为含候选突发特征词wi2的第j6个微博文本的评论数、转发数、收藏数与点赞数,DD为当前计算的时间窗口中微博文本总数;
计算候选突发特征词集BWset每个候选突发特征词的情感权重值Ei2,其中 DD为当前计算的时间窗口中微博文本总数,ej6 i2为含有候选突发特征词wi2的第j6条微博文本的情感倾向值,emotion(i2)为候选突发特征词wi2的情感倾向值,mm为第j6条微博文本中词的总个数;
计算候选突发特征词的突发权重Burstyi2=γ1×Wi2+γ2×Zi2+γ3×Gi2+γ4×Ei2,其中,γ1+γ2+γ3+γ4=1,γ1是TF-PDF权重值Wi2的权重、γ2是词频增长率Zi2的权重、γ3是关注度Gi2的权重、γ4是情感权重值Ei2的权重;
将突发权重Burstyi2大于预设权重的候选突发特征词作为突发特征词,形成时间窗的突发特征词集BTi3。
6.如权利要求1所述的微博突发事件检测方法,其特征在于,步骤6包括:
基于公式计算突发特征词之间的相似度Sim(wi4,wj4),式中,wi4,wj4表示同一个突发特征词集中的任意两个突发特征词,|Pt|表示此时间窗内的微博文本数,pk则此时间窗中同时含有突发特征词wi4及wj4的微博文本数。
7.如权利要求6所述的微博突发事件检测方法,其特征在于,步骤7包括:
步骤(1):将时间窗内每个词作为一个簇;
步骤(2):基于公式计算任意两个簇Ci5及Cj5的相似度Sim(Ci5,Cj5),|Ci5×Cj5|表示任意两个簇Ci5及Cj5中词语数量的乘积,wi5,wj5分别是对应簇Ci5,Cj5中的任意一个突发特征词;
步骤(3):将相似度最大的两个簇合并,
步骤(4):再次计算任意两个簇的相似度,若此时新的相似度最大的两个簇的相似度小于相似度阈值,则执行步骤(3),否则执行步骤(5);
步骤(5):去除突发特征词小于预设特征词阈值的簇,基于剩余的簇生成对应时间窗的突发事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810490699.2A CN108733816B (zh) | 2018-05-21 | 2018-05-21 | 一种微博突发事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810490699.2A CN108733816B (zh) | 2018-05-21 | 2018-05-21 | 一种微博突发事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108733816A true CN108733816A (zh) | 2018-11-02 |
CN108733816B CN108733816B (zh) | 2022-02-01 |
Family
ID=63937826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810490699.2A Active CN108733816B (zh) | 2018-05-21 | 2018-05-21 | 一种微博突发事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108733816B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670174A (zh) * | 2018-12-14 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种事件识别模型的训练方法和装置 |
CN110134876A (zh) * | 2019-01-29 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于群智传感器的网络空间群体性事件感知与检测方法 |
CN110457595A (zh) * | 2019-08-01 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 突发事件报警方法、装置、系统、电子设备及存储介质 |
CN110502703A (zh) * | 2019-07-12 | 2019-11-26 | 北京邮电大学 | 基于字符串字典构建的社交网络突发事件检测方法 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN110990592A (zh) * | 2019-11-07 | 2020-04-10 | 北京科技大学 | 一种微博突发话题在线检测方法及检测装置 |
CN111815028A (zh) * | 2020-06-10 | 2020-10-23 | 湖北大学 | 一种突发热点事件的传播路径的预测方法和装置 |
CN112256843A (zh) * | 2020-12-22 | 2021-01-22 | 华东交通大学 | 一种基于tf-idf方法优化的新闻关键词提取方法及系统 |
CN112527960A (zh) * | 2020-12-17 | 2021-03-19 | 华东师范大学 | 基于关键词聚类的突发事件检测方法 |
CN112528024A (zh) * | 2020-12-15 | 2021-03-19 | 哈尔滨工程大学 | 一种基于多特征融合的微博突发事件检测方法 |
CN113836267A (zh) * | 2021-09-24 | 2021-12-24 | 国家市场监督管理总局信息中心 | 一种突发事件检测方法及装置 |
CN114461763A (zh) * | 2022-04-13 | 2022-05-10 | 南京众智维信息科技有限公司 | 一种基于突发词聚类的网络安全事件抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500175A (zh) * | 2013-08-13 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于情感分析在线检测微博热点事件的方法 |
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
-
2018
- 2018-05-21 CN CN201810490699.2A patent/CN108733816B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500175A (zh) * | 2013-08-13 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于情感分析在线检测微博热点事件的方法 |
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
Non-Patent Citations (3)
Title |
---|
郭跇秀等: "基于突发词聚类的微博突发事件检测方法", 《计算机应用》 * |
陈国兰: "基于爆发词识别的微博突发事件监测方法研究", 《情报杂志》 * |
陈国兰: "基于突发词和情感分析的微博突发事件监测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670174B (zh) * | 2018-12-14 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 一种事件识别模型的训练方法和装置 |
CN109670174A (zh) * | 2018-12-14 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种事件识别模型的训练方法和装置 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN110134876A (zh) * | 2019-01-29 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于群智传感器的网络空间群体性事件感知与检测方法 |
CN110134876B (zh) * | 2019-01-29 | 2021-10-26 | 国家计算机网络与信息安全管理中心 | 一种基于群智传感器的网络空间群体性事件感知与检测方法 |
CN110502703A (zh) * | 2019-07-12 | 2019-11-26 | 北京邮电大学 | 基于字符串字典构建的社交网络突发事件检测方法 |
CN110457595A (zh) * | 2019-08-01 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 突发事件报警方法、装置、系统、电子设备及存储介质 |
CN110457595B (zh) * | 2019-08-01 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 突发事件报警方法、装置、系统、电子设备及存储介质 |
CN110990592A (zh) * | 2019-11-07 | 2020-04-10 | 北京科技大学 | 一种微博突发话题在线检测方法及检测装置 |
CN110990592B (zh) * | 2019-11-07 | 2023-06-23 | 北京科技大学 | 一种微博突发话题在线检测方法及检测装置 |
CN111815028A (zh) * | 2020-06-10 | 2020-10-23 | 湖北大学 | 一种突发热点事件的传播路径的预测方法和装置 |
CN112528024A (zh) * | 2020-12-15 | 2021-03-19 | 哈尔滨工程大学 | 一种基于多特征融合的微博突发事件检测方法 |
CN112527960A (zh) * | 2020-12-17 | 2021-03-19 | 华东师范大学 | 基于关键词聚类的突发事件检测方法 |
CN112256843A (zh) * | 2020-12-22 | 2021-01-22 | 华东交通大学 | 一种基于tf-idf方法优化的新闻关键词提取方法及系统 |
CN113836267A (zh) * | 2021-09-24 | 2021-12-24 | 国家市场监督管理总局信息中心 | 一种突发事件检测方法及装置 |
CN114461763A (zh) * | 2022-04-13 | 2022-05-10 | 南京众智维信息科技有限公司 | 一种基于突发词聚类的网络安全事件抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108733816B (zh) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733816A (zh) | 一种微博突发事件检测方法 | |
Alsubari et al. | Data analytics for the identification of fake reviews using supervised learning | |
Zainuddin et al. | Sentiment analysis using support vector machine | |
Ciot et al. | Gender inference of Twitter users in non-English contexts | |
Danisman et al. | Feeler: Emotion classification of text using vector space model | |
Oudah et al. | A pipeline Arabic named entity recognition using a hybrid approach | |
CN105068991A (zh) | 一种基于大数据的舆情发现方法 | |
JP4595692B2 (ja) | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
CN106547875B (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
CN109325117A (zh) | 一种多特征融合的微博中社会安全事件检测方法 | |
WO2012083892A1 (zh) | 一种网络不良信息的过滤方法及装置 | |
Khasawneh et al. | Sentiment analysis of Arabic social media content: a comparative study | |
Mulki et al. | Tunisian dialect sentiment analysis: a natural language processing-based approach | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN109858034A (zh) | 一种基于注意力模型和情感词典的文本情感分类方法 | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
Biba et al. | Sentiment analysis through machine learning: an experimental evaluation for Albanian | |
Hasan et al. | Sentiment classification in bangla textual content: A comparative study | |
Wijaya et al. | Automatic mood classification of Indonesian tweets using linguistic approach | |
CN106227720B (zh) | 一种app软件用户评论模式识别方法 | |
Hathlian et al. | Sentiment-subjective analysis framework for arabic social media posts | |
Sinha et al. | A detailed survey and comparative study of sentiment analysis algorithms | |
Mohsen et al. | A performance comparison of machine learning classifiers for Covid-19 Arabic Quarantine tweets sentiment analysis | |
CN108038166A (zh) | 一种基于词项主客观偏向性的中文微博情感分析方法 | |
Aslam et al. | Web-AM: An efficient boilerplate removal algorithm for Web articles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |