CN112528024A

CN112528024A - 一种基于多特征融合的微博突发事件检测方法

Info

Publication number: CN112528024A
Application number: CN202011481477.8A
Authority: CN
Inventors: 刘聪; 杨静; 王勇; 曲连威; 辛显楠
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-19
Anticipated expiration: 2040-12-15
Also published as: CN112528024B

Abstract

本发明提供了一种基于多特征融合的微博突发事件检测方法。对数据集进行噪音过滤；进行文本的分词，进行词性筛选，统计词频，得到预处理后的文本；对预处理结果进行突发词提取，结合词语的基础权重、突发权重、词语所受微博影响、用户影响力的计算结果进行加权求和得到词语的突发度，根据突发度进行词语的筛选，选出的词语作为突发词放入突发词集；对突发词集中的词语进行基于词语共现度的相似性计算，根据结果构建相似度矩阵；对相似度矩阵中的词语进行凝聚式层次聚类，根据聚类结果得到突发事件检测结果。本发明提出的突发词提取方法能够提高突发词提取的精准度，进而有效提高突发事件检测的准确率，为网络舆情监控、突发事件处理以及社会安全管理提供良好支撑。

Description

一种基于多特征融合的微博突发事件检测方法

技术领域

本发明属于自然语言处理领域；具体涉及一种基于多特征融合的微博突发事件检测方法。

背景技术

随着互联网技术的飞速增加，微博用户规模也在不断扩大。微博的广泛的交互性使其成为在线社交网络中不可或缺的一部分，微博相比于传统媒体，微博具有庞大的社会群体，有着海量的数据量和资源，在舆论的检测，控制上更具有挑战性，对微博的研究同样更具挑战性。近几年，有关在线社交突发事件正在逐渐受到越来越多的关注，有关突发事件的研究也在与日俱增，本文希望在以上研究的基础上进行深入的研究，为突发事件检测提供一种新方法，减少突发事件产生所带来的危害和影响，这对社会的稳定和发展有着重要的意义。

突发事件检测方法是指将现有的事件信息按照时间进行划分，并对已划分的事件进行预处理和分词，根据一定的方法对具有较高突发特征的特征词进行提取，进行词语之间的相似度，根据相似度进行聚类获取突发事件。

突发事件检测方法因其能够帮助控制舆论的大肆传播、扩大以至于造成不良影响并维持网络环境的稳定成为自然语言处理的一个分支，通过对历史时间窗中的数据进行比较并提取突发词是突发事件检测的重要方式。事件传播过程产生的不确定性、环境依赖性、多样性，与突发事件之间存在相应的联系，通过对数据挖掘等方法有效挖掘文本数据集和突发事件之间蕴含的关联关系具有较高的可行性。

发明内容

本发明提供了一种基于多特征融合的微博突发事件检测方法，该方法能够解决已有突发事件检测方法无法准确定位突发事件的范围问题；同时该方法能够针对数据集的多种特征以及用户特征，提高现有突发事件检测的准确率问题。更好的满足在大量和多种特征的数据背景下对突发事件检测准确率要求等问题。

本发明通过以下技术方案实现：

一种基于多特融合的微博突发事件检测方法，所述检测方法包括以下步骤：

步骤1：对微博数据集进行噪音的过滤和时间窗的划分；

步骤2：对步骤1噪音过滤和时间窗划分的数据，进行面向词语级别的预处理，得到分词且词性筛选过的高可用性的文本数据集和词频数据集；

步骤3：对步骤2中的预处理后的文本数据集进行基于多特征的词语权重的计算，最终根据提取的突发度筛选出面向多特征的词语的突发词集；

步骤4：对步骤3的突发词集进行基于词语共现性的相似度计算，最终根据计算结果构建词语-词语相似度矩阵；

步骤5：对步骤4的相似度矩阵进行面向自底向上的凝聚式层次聚类，最终根据聚类结果匹配原文本得到基于多特征的突发事件。

进一步的，所述步骤1具体为：通过对微博数据集进行基于表情符号、URL链接、互动标签、话题标签等噪音的过滤，将过滤后的数据按照时间特征划分到不同的时间窗内，最终得到噪音过滤和时间窗划分的数据集。

进一步的，所述步骤2具体为，将噪音过滤和时间窗划分的数据进行分词，由于事件的描述主要由名词、动词、形容词等组成，所以进行基于分词词性的筛选，具体包含动词、名词、形容词、数词、量词、代词词性，对进行停用词处理并统计词频，最终得到低噪高可用性的文本数据集和词频数据集。

进一步的，所述步骤3包括以下步骤，

步骤3.1：根据预处理后的高可用性文本数据集和词频数据集进行词语的基础权重和突发权重的计算：

其中BW为词语基础权重，p_i为词i在当前时间窗中的词频，max(p)为当前时间窗中最大的词频，当该公式基数相当大时，能够保证计算的结果不会趋近于0，进而保证后续的计算不会被0所影响；

其中TW为词语的突发权重，p_n为当前事件窗内词语i的频率，p_i为某个时间窗中词i的频率。

步骤3.2：考虑到微博文本的转发数、点赞数、评论数对词语的突发性会产生影响，通过下列公式进行词语所受微博的影响的计算：

其中α，β分别为评论数和转发数的权重比例，com、for、agr分别表示微博文本的评论数，转发数和点赞数，max()表示取最大值sum()表示取均值计算；

步骤3.3：对词语基础权重、突发权重、词语所受微博影响进行加权，通过下列公式进行文本自身属性对词语突发性的影响的计算：

Weight＝α*BW+β*TW+(1-α-β)*WE

其中BW为基础权重，TW为突发权重，WE为词语所受微博影响，α，β为上式权重；

步骤3.4：通过下列公式进行对用户影响力对词语突发性影响的计算：

其中α+β+γ＝1，这里ave()为含有词语i所对应的微博发布用户的粉丝数、微博数、是否经过大V认证的平均值，max()为当前时间窗中粉丝数、微博数的最大值，当用户经过大V认证其值为1，否则为0.5；

步骤3.5：通过下列公式进行综合权重即突发度的计算：

Final＝α*user+(1-α)*Weight

其中α为权重比例。

进一步的，所述步骤4具体为，计算词语之间相似度，相似度取决于两个词语共同出现的概率，使用相对出现相似度进行词语之间共现相似度的计算，当两词之间共现度越大，相似度越大。

通过下列公式进行词语之间的相似度计算：

其中p^t是当前时间窗内包含的所有微博文本，R(w_k|w_l)表示在w_l出现的情况下，w_k出现的概率，P_j是同时包含以上两词的文本。该计算方法避免了文本的基数过大导致相似度的计算结果过小的问题。

进一步的，所述步骤5具体为，首先将所有词都看成一个个独立的类簇，将相似度满足初始设定的阈值条件类簇进行合并，使用离差交错方法更新类簇相似度，重复进行合并，直到所有类簇均不满足条件为止，剩下的类簇即为最终结果，根据生成的类簇获取原事件，实现突发事件检测。

本发明的有益效果是：

1.本发明将微博文本特征(点赞数、转发数、评论数)以及用户影响力特征(粉丝数、微博数、是否认证)考虑进来并结合基础权重、突发权重计算词语的突发度，准确定位突发词的范围，以此提高突发词提取的准确度。

2.本发明相对于现有突发事件检测方法，具有较高准确度、高效率等优势；相对于现有的突发词提取算法，引入词语所受微博影响、用户影响以及基于TF-IDF改进的基础权重和突发权重四种特征具有更精准的挖掘突发度的能力，使改进后的算法考虑的因素更全面。

附图说明

附图1是本发明总体流程图。

附图2是本发明基于相对共现度的相似度矩阵图。

附图3是本发明基于离差交错的凝聚式层次聚类图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

主要通过获取突发词的相似度矩阵进行突发事件的检测，采用基于多特征融合的突发词提取算法，通过使用基于改进的TF-IDF计算词语的基础权重和突发权重并结合词语所受微博影响以及用户在微博中的影响力来计算词语的突发度并提取出突发词，使得突发词的定位能够更精准，进而提高突发事件检测的准确度。

一种基于多特征融合的突发事件检测方法，其特征在于，所述突发事件检测方法包括以下步骤：

步骤1：对微博数据集进行噪音的过滤和时间窗的划分；

步骤2：对步骤1噪音过滤和时间窗划分的数据，进行面向词语级别的预处理，得到分词且词性筛选过的低噪高可用性的文本数据集和词频数据集；

进一步的，所述步骤3包括以下步骤，

Weight＝α*BW+β*TW+(1-α-β)*WE

步骤3.5：通过下列公式进行综合权重即突发度的计算：

Final＝α*user+(1-α)*Weight

其中α为权重比例。

通过下列公式进行词语之间的相似度计算：

进一步的，所述步骤5具体为，首先将所有词都看成一个个独立的类簇，将相似度满足初始设定的阈值条件类簇进行合并，更新类簇相似度，重复进行合并，直到所有类簇均不满足条件为止，剩下的类簇即为最终结果，根据生成的类簇获取原事件，实现突发事件检测。

实施例2

从图1可以看出，采用本发明给出的方法，对已有数据进行噪音过滤和时间窗的划分、数据预处理和词频统计，并基于预处理数据进行突发词提取和相似度矩阵构建，最终实现高准确率，高效率的突发事件的检测方法，首先在已有微博数据集进行去噪和时间窗划分处理，并对数据进行分词、停用词过滤、词性过滤、词频统计等预处理，然后通过基于多特征融合的突发词提取算法进行突发词提取，进而跟据提取的突发词进行基于词语共现度的相似度矩阵构建，最后基于离差交错的凝聚式层次聚类获取突发事件实现突发事件的检测，这与本发明目标一致。

第一步、多元数据集噪音处理

由于微博数据中含有大量的人为造成的无用数据，其中包含一些噪声会影响本发明的检测精度，因此本发明首先对数据进行噪音过滤，去掉无用的URL链接、话题标签、表情符号、互动标签，将过滤后的数据按照时间特征划分到不同的时间窗内，最终得到低噪音的数据集。

第二步、多元数据集的预处理

由于以句子级为单位进行突发事件检测的准确度很低，所以将数据集进行预处理，使用分词工具进行分词，停用词处理，保留词性为动词、名词、形容词、数词、量词、代词的词语，统计文本的词频，构建以词语级为单位的数据集，最终得到低噪高可用性的微博数据集，进而对预处理后的数据集进行突发词提取，以用来实现突发事件的检测。

第三步、基于多特征融合的突发词提取

首先，根据预处理后的高可用性文本数据集和词频数据集进行词语的基础权重和突发权重的计算，由于TF-IDF在高词频的词语上的倾向性，使用一种改进的TF-IDF方法：

其次，考虑到用户行为会对微博的转发数、点赞数、评论数产生影响进而对词语的突发性会产生影响，通过下列公式进行词语所受微博的影响的计算：

再次，由于词语基础权重、突发权重、词语所受微博影响都是基于文本自身多种特征的计算，对三者进行加权，通过下列公式进行文本自身属性对词语突发性的影响的计算：

Weight＝α*BW+β*TW+(1-α-β)*WE

然后，由于微博的转发、点赞、评论等行为和用户有很大的关联，用户作为微博的使用者，同时也是微博服务的主体，在突发事件的研究中扮演着信息传播者的角色，本发明考虑到用户自身特征，通过下列公式进行对用户影响力对词语突发性影响的计算：

最终，通过下列公式进行综合权重即突发度的计算：

Final＝α*user+(1-α)*Weight

其中α为权重比例。

第四步、基于词语共现度构建相似度矩阵

根据图2显示，相似度取决于两个词语共同出现的概率，当两词之间共现度越大，相似度越大，面对数据量相当大的微博文本时，文本的基数相当大，即使两个词语共同出现的次数虽然在所有词语中共现性较高，当最终除以相当大的基数会造成实际相似性的值较低，本发明采用了一种基于词语相对相似度的计算方法，以词语相互条件概率的均值作为词语的相似度。

通过下列公式进行词语之间的相似度计算：

第五步、基于离差交错的凝聚式层次聚类算法聚类

根据图3所示，首先将所有词都看成一个个独立的类簇，设定合适的阈值，选择两个满足阈值条件的类簇进行合并，基于离差交错的方法更新新生成的类簇与其他类簇的相似度，遍历剩余类簇重复进行合并，直到所有类簇不满足条件或者仅剩一个类簇，剩下的类簇即为最终结果，根据生成的类簇获取原事件，实现突发事件检测。

本发明不仅能针对数据文本简短、稀疏的特点，结合微博文本现状，设定合适的噪音过滤及预处理规则，最大程度上减小了噪音的影响；相比于传统的突发词提取方法，引入词语所受微博影响、用户影响以及基于TF-IDF改进的基础权重和突发权重四种特征能够准确划定突发词的范围，结合聚类算法准确挖掘出突发事件，对于控制舆论的传播、维护社会的稳定有重要意义。

Claims

1.一种基于多特征融合的微博突发事件检测方法，其特征在于，所述突发事件检测方法包括以下步骤：

步骤1：对微博数据集进行噪音的过滤和时间窗的划分；

2.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法，其特征在于，所属步骤1具体为：通过对微博数据集进行基于表情符号、URL链接、互动标签、话题标签等噪音的过滤，将过滤后的数据按照时间特征划分到不同的时间窗内，最终得到噪音过滤和时间窗划分的数据集。

3.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法，其特征在于，所述步骤2具体为，将噪音过滤和时间窗划分的数据进行分词，由于事件的描述主要由名词、动词、形容词等组成，所以进行基于分词词性的筛选，具体包含动词、名词、形容词、数词、量词、代词词性，对进行停用词处理并统计词频，最终得到低噪高可用性的文本数据集和词频数据集。

4.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法，其特征在于，所述步骤3包括以下步骤，

Weight＝α*BW+β*TW+(1-α-β)*WE

步骤3.5：通过下列公式进行综合权重即突发度的计算：

Final＝α*user+(1-α)*Weight

其中α为权重比例。

5.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法，其特征在于，所述步骤4具体为，计算词语之间相似度，相似度取决于两个词语共同出现的概率，使用相对出现相似度进行词语之间共现相似度的计算，当两词之间共现度越大，相似度越大。

通过下列公式进行词语之间的相似度计算：

6.根据权利要求1所述一种基于多特征融合的微博突发事件检测方法，其特征在于，所述步骤5具体为，首先将所有词都看成一个个独立的类簇，将相似度满足初始设定的阈值条件类簇进行合并，离差交错更新类簇相似度，重复进行合并，直到所有类簇均不满足条件为止，剩下的类簇即为最终结果，根据生成的类簇获取原事件，实现突发事件检测。