CN110134876B

CN110134876B - 一种基于群智传感器的网络空间群体性事件感知与检测方法

Info

Publication number: CN110134876B
Application number: CN201910360276.3A
Authority: CN
Inventors: 付培国; 赵忠华; 李红; 王禄恒; 万欣欣; 李欣; 何润龙; 张志豪; 吴俊杰; 袁昆; 林浩
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2019-01-29
Filing date: 2019-04-30
Publication date: 2021-10-26
Anticipated expiration: 2039-04-30
Also published as: CN110134876A

Abstract

本发明公开了一种基于群智传感器的网络空间群体性事件感知与检测方法，属于数据挖掘领域，具体步骤如下：一、收集每日的微博流数据；步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号；步骤三、对传感器账号的微博数据进行去噪处理；步骤四、对去噪后的微博数据按评论转发数进行排序；步骤五、对排序后的微博数据进行去重处理；步骤六、识别出相关事件涉及的时间地点和人物；步骤七、提取与事件相关的微博数据，对该事件进行分类并计算各微博内容的敏感值。本发明通过筛选具有影响力的媒体和用户账号组成群智传感器网络对网络空间群体性事件进行感知，无需对大规模微博数据进行挖掘，有效节省了计算和时间成本。

Description

一种基于群智传感器的网络空间群体性事件感知与检测方法

技术领域

本发明属于计算机和数据挖掘技术领域，具体涉及一种感知并检测网络空间群体性事件的方法。

背景技术

微博作为中国目前最大的舆论平台之一，对舆情事件的传播起到巨大的推动作用。然而，微博中存在的诸多谣言或恶意信息肆意传播的现象，给监管部门带来巨大挑战。因此，感知并检测网络空间群体性事件对促进网络安全的发展有重要意义。

目前业界存在的微博热点话题追踪方法，主要是通过爬取微博数据，对全部爬取的数据使用LDA(文档主题生成模型)模型进行主题识别，然后计算话题/主题的相似度进行合并。但这些方法存在一定的局限性：如果爬取的数据过少，则识别的主题有限，若爬取的数据过多，则计算处理的代价过高。且常见热点话题的识别算法并没有考虑网络内容安全的需要，因而无法应用在网络安全领域。因此，本发明在总结目前关于微博热点话题挖掘缺陷的基础上，针对社会舆情和网络内容安全，提出了一种完备的网络空间群体性事件的感知与检测方法，以快速准确地识别网络空间群体性事件。

发明内容

本发明针对大数据环境下网络空间群体性事件难以在早期识别和检测的问题，构建了一种基于群智传感器的网络空间群体性事件感知与检测方法，在早期识别并检测网络空间群体性事件。

本发明提供的基于群智传感器的网络空间群体性事件感知与检测方法，具体步骤如下：

步骤一、收集每天的微博流数据；为每条微博流数据设置1个标识，标识该条微博是原创微博、转发微博或评论微博。

每条微博的数据包括：uid，mid，root_mid，root_uid，账号粉丝数，时间，微博文本内容；

uid为当前微博账号的标识id；mid为当前微博的id；

root_mid分为三种情况：如果当前微博是原创微博，root_mid为空；如果当前微博是转发微博，root_mid为被转发微博id；如果当前微博是评论微博，root_mid为被评论微博id；

root_uid分为三种情况：如果当前微博是原创微博，root_uid为空；如果是转发微博，root_uid为被转发账号id；如果是评论微博，root_uid为被评论账号id；

时间为当前微博的发布时间；

微博文本内容分为三种情况：如果是原创微博，微博文本内容即用户发布内容；如果是转发微博，微博文本内容是用户转发时附加的评论信息；如果是评论微博，微博文本内容即被评论微博的发布内容。

步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号；

对一个微博账号，计算该账号的影响力Power＝0.4*active level+0.6*bloginfluence；

其中，active level为账号活跃度，计算公式为：

active level＝0.4*exp(x₁)+0.4*ln(x₂)+0.2*lg(x₃)；

x₁为该账号的原创微博数量，x₂为该账号转发和评论的微博数量，x₃为该账号的粉丝数；

blog influence为账号的微博影响力，计算公式为：blog influence＝0.5*x₄+0.5*x₅；

x₄为该账号的原创微博平均被转发量，x₅为该帐号的原创微博平均被评论量。

步骤三、对传感器账号的微博流数据进行去噪处理，剔除包含非群体性事件内容的微博。

步骤四、对去噪后的微博数据按热度进行排序，使用微博的评论转发数计算其热度。

步骤五、对排序后的微博数据进行去重处理，以事件为中心对微博进行聚合。

步骤六、识别出事件涉及的时间、地点和人物，将不包含时间和地点的微博过滤掉，剩下的微博是与事件相关的微博数据。

步骤七、提取与事件相关的微博数据，对该事件进行分类并计算各微博内容的敏感值。

相对于现有技术，本发明的优点和积极效果在于：

1)步骤二中，通过筛选具有一定影响力的媒体和用户账号组成群智传感器网络对网络空间群体性事件进行感知和检测，在保证网络空间群体性事件识别准确率的前提下，有效减少了相关计算的工作量，从而更早地感知出网络空间群体性事件以采取相关对策。

2)步骤五中，使用了shingle算法对去噪后的微博数据进行了聚合操作，该操作的意义在于对同一事件的不同文本描述进行聚合，从而明确了有哪些群体性事件及哪些微博文本与某事件相关。

3)本发明方法提出了一套较为完备的网络空间群体性事件感知与检测方案，涵盖了网络空间群体性事件的感知，检测和计算，计算阶段包括事件分类和微博敏感度计算，其中事件分类是专门针对网络空间群体性事件定制的，涵盖了20个与网络和社会安全相关的敏感领域，能够为处置网络空间群体性事件提供决策支持。

附图说明

图1为本发明的基于群智传感器的网络空间群体性事件感知与检测方法的流程图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明的基于群智传感器的网络空间群体性事件感知与检测方法的一个实现流程如图1所示，下面对各步骤进行说明。

步骤一、收集每日的微博流数据；

每天新浪微博的流数据推送到服务器，微博流数据可分为原创微博、转发微博和评论微博三类。每条流数据含有1个标识，标识设置为1、2或3，1表示该条微博是原创微博，2表示该条微博是评论微博，3表示该条微博是转发微博。

每条流数据的信息包括：uid，mid，root_mid，root_uid，账号粉丝数，时间，微博文本内容；

uid为当前微博的用户id(标识)；mid为当前微博的标识id；

root_mid分为三种情况：如果当前微博是原创微博，root_mid为空；如果当前微博是转发微博，root_mid为被转发的微博ID；如果当前微博是评论微博，root_mid为被评论的微博ID；

root_uid分为三种情况：如果当前微博是原创微博，root_uid为空；如果是转发微博，root_uid为被转发的用户ID；如果是评论微博，root_uid为被评论的用户ID；

时间为当前微博的发布时间；

微博文本内容分为三种情况：如果是原创微博，微博文本内容即用户发布的内容；如果是转发微博，微博文本内容是用户转发时附加的评论信息；如果是评论微博，微博文本内容是被评论微博的内容。

根据上述流数据的设定，具体地，

针对原创微博的流数据，包括：uid为用户ID，mid为微博ID，用户粉丝数，微博发布时间和内容；

针对转发微博的流数据，包括：uid为用户ID，mid为转发微博ID，root_mid为被转发微博ID，root_uid为被转发用户ID，用户粉丝数，微博发布时间，微博文本内容是用户附加的评论信息；

针对评论微博的流数据，包括：uid为用户ID，mid为评论微博ID，root_mid为被评论微博ID，root_uid为被评论用户ID，用户粉丝数，微博发布时间，被评论微博的内容。

微博数据存储在Elasticsearch数据库中，每条微博对应数据库中的一项。

步骤二、筛选具有一定影响力的媒体或用户作为传感器账号，这些传感器账号较为活跃且具备一定影响力，具有捕捉或传播网络空间群体性事件的潜力。

本发明计算账号的影响力，来选取传感器账号。对于一个微博账号，账号影响力power的具体计算方法如下：

power＝0.4*active level+0.6*blog influence

其中，active level为账号活跃度，具体计算方法如下：

active level＝0.4*exp(x₁)+0.4*ln(x₂)+0.2*lg(x₃)

其中，x₁为账号的原创微博数量，x₂为账号转发和评论的微博数量，x₃为账号的粉丝数。blog influence为账号微博影响力，具体计算方法如下：

blog influence＝0.5*x₄+0.5*x₅

其中，x₄为账号的原创微博平均被转发量，x₅为账号的原创微博平均被评论量。计算方法如下：

x₄＝总转发量/原创微博总数

x₅＝总评论量/原创微博总数

本发明实施例中，选取账号影响力大于1200的作为传感器账号。

步骤三、对传感器账号的微博数据进行去噪处理，剔除包含非群体性事件内容的微博，提升网络空间群体性事件感知的准确率。

去噪处理的具体过程如下：训练一个基于卷积神经网络的文本分类器。共14个类别，包括体育，财经，房产，家居，教育，科技，时尚，时政，游戏，娱乐，彩票，星座，社会，股票。其中体育，财经，房产，科技，时尚，游戏，娱乐，彩票，星座，股票可以认为是噪声/杂质，涉及这些内容的微博需要被过滤。

步骤四、对去噪后的微博数据按热度进行排序。

对于一条微博，微博热度heat的计算方式如下：

heat＝0.5*ln(x₆)+0.5*ln(x₇)

其中，x₆为微博的转发数，x₇为微博的评论数。评论转发数越高的微博，其蕴含事件的传播范围越广，影响力越大。

步骤五、对排序后的微博数据进行去重处理；即合并涉及相同事件的不同微博，以事件为中心对微博进行聚合。

本发明实施例中使用shingle算法对去噪后的微博数据进行了聚合操作。具体过程如下：假设有两条微博A和B，首先去除两条微博中的标点和停用词，然后以K＝3的长度切分文本，将切分后的短语放入集合。得到两个集合后取这两个集合的交集并计算A、B文本的Jaccard系数：

Jaccard(A,B)＝m/(n_a+n_b-m)

其中，m为两集合交集的元素数量，n_a为微博A切词后的短语数量，n_b为微博A切词后的短语数量。Jaccard系数越大，则两条微博的相似度越高。设定一个阈值，若Jaccard系数大于该阈值，则认为两条微博重复，进行合并。

步骤六、识别出相关事件涉及的时间、地点和人物，实现网络空间群体性事件感知与检测。

本发明实施例中使用命名实体识别方法对事件中的时间、地点和人物进行提取，过滤掉不包含时间和地点的微博，剩下的微博可以认为是与群体性事件有关的微博。

事件分类结合了人文社科知识，是专门针对网络空间群体性事件定制的分类体系，涉及的领域包括：反腐贪污，交通管理，教育管理，儿童保护，环境污染，自然灾害，医患矛盾，医药安全，食品安全，拆迁冲突，敌对势力，军事国防，政治外交，港台侨务，网络暴力，信息安全，公共治安，暴力恐怖，经济金融，维权行为。具体过程如下：

每个领域请专家指定领域关键种子词，利用词向量进行扩充。以信息安全领域为例，扩充后的关键种子词包括安全漏洞，信息泄露，网络诈骗，黑客，恶意程序，加密算法，隐私泄露，隐私数据，用户数据泄露，后门程序，黑客攻击，网络病毒，客户资料泄露，电信诈骗，漏洞，熊猫烧香，网络黑灰产业，信息失控隐私信息，信安，VPN，病毒木马，防火墙，杀毒。利用关键词去开放互联网搜集数据，通过关键词命中方式得到对应的事件数据。对得到的事件数据进行预处理并人工审核，得到最终的训练数据。训练一个基于FastText的多类别文本分类器。利用训练好的分类器对事件进行分类。

敏感值计算旨在反映出微博内容的敏感程度，处理过程如下：

存在一个人工维护的敏感词列表，包含若干敏感词-权重对，用户可依需要对敏感词列表进行扩充。将敏感词列表中的各敏感词依次与微博内容进行匹配，某条微博的敏感值sensitive value计算如下：

sensitive value＝∑y_i*w_i

其中，y_i是敏感词列表中的第i项，w_i为相应的权重值。敏感值越大说明该微博包含的内容越敏感。可以进一步根据敏感值来进行群体性事件监测工作等。

Claims

1.一种基于群智传感器的网络空间群体性事件感知与检测方法，其特征在于，包括如下步骤：

步骤一、收集每天的微博流数据；

为每条微博设置1个标识，标识该条微博是原创微博、转发微博还是评论微博；记录每条微博的数据，包括：uid，mid，root_mid，root_uid，账号粉丝数，时间，微博文本内容；其中，

uid为当前微博的账号标识ID，mid为当前微博的标识ID；

root_mid分为三种情况：如果原创微博，root_mid为空；如果是转发微博，root_mid为被转发的微博ID；如果是评论微博，root_mid为被评论的微博ID；

root_uid分为三种情况：如果是原创微博，root_uid为空；如果是转发微博，root_uid为被转发的账号ID；如果是评论微博，root_uid为被评论的账号ID；

时间为当前微博的发布时间；

微博文本内容分为三种情况：如果是原创微博，微博文本内容是用户发布的内容；如果是转发微博，微博文本内容是用户转发时附加的评论信息；如果是评论微博，微博文本内容是被评论微博的内容；

步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号；选取影响力大于1200的微博账号作为传感器账号；

其中，active level为账号活跃度，计算公式为：

active level＝0.4*exp(x₁)+0.4*ln(x₂)+0.2*lg(x₃)；

x₄为该账号的原创微博平均被转发量，x₅为该账号的原创微博平均被评论量；

步骤三、对传感器账号的微博数据进行去噪处理，剔除包含非群体性事件内容的微博；

所述的步骤三训练一个基于卷积神经网络的文本分类器，共分14个类别，包括体育、财经、房产、家居、教育、科技、时尚、时政、游戏、娱乐、彩票、星座、社会和股票；将体育、财经、房产、科技、时尚、游戏、娱乐、彩票、星座和股票认为是噪声；

步骤四、对去噪后的微博数据按热度进行排序；使用微博的评论转发数计算微博的热度；

步骤五、对排序后的微博数据进行去重处理，以事件为中心对微博进行聚合；

所述步骤五，对微博文本内容首先去掉标点和停用词，然后进行切词，将切分后的短语放入集合，设得到两个微博数据A和B的短语集合，取两个集合的交集并计算A和B的Jaccard系数，Jaccard(A,B)＝m/(n_a+n_b-m)，m为两集合交集的元素数量，n_a为微博A切词后的短语数量，n_b为微博A切词后的短语数量；设定一个阈值，若Jaccard系数大于该阈值，则认为两条微博重复，进行合并；步骤六、识别出事件涉及的时间、地点和人物，过滤掉不包含时间和地点的微博，剩下的微博是与事件相关的微博数据；

2.如权利要求1所述的一种基于群智传感器的网络空间群体性事件感知与检测方法，其特征在于，所述的步骤四中，对于一条微博的热度heat的计算方式如下：

heat＝0.5*ln(x₆)+0.5*ln(x₇)

其中，x₆为微博的转发数，x₇为微博的评论数。

3.如权利要求1所述的一种基于群智传感器的网络空间群体性事件感知与检测方法，其特征在于，所述的步骤七中，实现微博内容的敏感值计算的方法如下：

存在一个人工维护的敏感词列表，表内包含敏感词-权重对，将敏感词列表中的各敏感词依次与微博内容进行匹配，某条微博的敏感值sensitive value计算如下：

sensitive value＝∑y_i*w_i

其中，y_i是敏感词列表中的第i项，w_i为相应的权重值。