CN108023768A - 网络事件链确立方法和网络事件链确立系统 - Google Patents
网络事件链确立方法和网络事件链确立系统 Download PDFInfo
- Publication number
- CN108023768A CN108023768A CN201711251630.6A CN201711251630A CN108023768A CN 108023768 A CN108023768 A CN 108023768A CN 201711251630 A CN201711251630 A CN 201711251630A CN 108023768 A CN108023768 A CN 108023768A
- Authority
- CN
- China
- Prior art keywords
- event
- network
- user
- degree
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于信息技术领域,具体涉及一种网络事件链确立方法和网络事件链确立系统。该网络事件链确立方法包括步骤:采集包括用户标识、网站、流量、时间、时长、含关键词的内容网络数据;对采集到的网络数据进行分类,划分为至少包括事件类、网站类、用户类的类别;汇聚所述事件类、所述网站类、所述用户类的网络数据,分别计算所述网站类中网络数据的事件关联度和所述用户类中网络数据的用户关联度;根据所述事件关联度、所述用户关联度以及设定网络业务,确立与设定网络业务相关的网络事件链。该网络事件链确立方法和网络事件链确立系统,实现有效的对网络事件关系链进行追踪和预测,从而达到舆情风险预测和追踪的目的。
Description
技术领域
本发明属于信息技术领域,具体涉及一种网络事件链确立方法和网络事件链确立系统。
背景技术
在当今的信息时代,互联网高速发展,一方面为人们带来了便捷和方便;另一方面也有很多不法分子利用网络从事大量非法活动,影响社会稳定。如何进行风险预测,防患于未然成为提升网络安全性的关键。政府部门和企业单位在进行舆情风险控制时,舆情风险预测成为重要的手段。而舆情风险预测的关键点在于查出网络非法利益链以及非法传输链的侦测。
传统的舆情风险预测方式,采用的是事后追踪的办法,即当出现问题后进行查处,在查处过程中逐步梳理非法关系链条,这种方式存在如下问题:
由于是事后梳理,无法在事前发现,从而无法对非法事件进行提前预测,提前斩断非法利益链条,防患于未然;
在利益链条众多的情况下,无法及时发现,造成出现的非法事件很多,但能被有效处理的非法事件很少;
即使动用各方关系,仍不可避免的存在相关事件梳理不完全的情况,很难在茫茫网络中关联包含非法事件关系链中的全部网络环节。
可见,如何有效的对网络事件关系链进行追踪和预测,从而达到舆情风险预测和追踪的目的,成为目前亟待解决网络安全的重要的技术问题。
发明内容
本发明所要解决的技术问题是针对现有技术中上述不足,提供一种网络事件链确立方法和网络事件链确立系统,实现有效的对网络事件关系链进行追踪和预测,从而达到舆情风险预测和追踪的目的。
解决本发明技术问题所采用的技术方案是该网络事件链确立方法,包括步骤:
采集包括用户标识、网站、流量、时间、时长、含关键词的内容网络数据;
对采集到的网络数据进行分类,划分为至少包括事件类、网站类、用户类的类别;
汇聚所述事件类、所述网站类、所述用户类的网络数据,分别计算所述网站类中网络数据的事件关联度和所述用户类中网络数据的用户关联度;
根据所述事件关联度、所述用户关联度以及设定网络业务,确立与设定网络业务相关的网络事件链。
优选的是,在对采集到的网络数据进行分类的步骤中,包括:
根据设定网络业务的类别或事件提取特征码,建立包括多个所述特征码的事件维度数据模板;
计算搜索引擎跳转记录,建立网站维度数据模板,所述网站维度数据模板至少包括网络业务、网络业务中产生特征码的位置、从搜索引擎或其他网络入口跳转到此网站的次数以及事件集合所产生的总流量;
综合事件维度数据和网站维度数据,根据网络用户标识,建立用户维度数据模板,所述用户维度数据模板中至少包括个人标识、网站标识、个人访问网站事件栏目的统计数以及在对应网站产生的流量。
优选的是,计算网站类中网络数据的事件关联度的步骤包括:
确定事件关联度层次数量;
建立统计坐标系,将所有与事件相关的网站映射到坐标系里;
随机选取与事件关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成事件关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的事件关联度。
优选的是,计算网站类中网络数据的用户关联度的步骤包括:
确定用户关联度层次数量;
建立统计坐标系,将所有与事件相关的用户映射到坐标系里;
随机选取与用户关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成用户关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的用户关联度。
优选的是,确立与设定网络业务相关的网络事件链的步骤包括:
根据用户标识与所述事件关联度和所述用户关联度的紧密程度,对所述设定网络业务根据用户标识与所述事件关联度和所述用户关联度的紧密程度进行排列组合,建立事件关联,从而确立与所述设定网络业务相关的网络事件关系链。
一种网络事件链确立系统,包括采集模块、分类模块、汇聚关联模块和确立模块,其中:
所述采集模块,用于采集包括用户标识、网站、流量、时间、时长、含关键词的内容网络数据;
所述分类模块,用于对采集到的网络数据进行分类,划分为至少包括事件类、网站类、用户类的类别;
所述汇聚关联模块,用于汇聚所述事件类、所述网站类、所述用户类的网络数据,分别计算所述网站类中网络数据的事件关联度和所述用户类中网络数据的用户关联度;
所述确立模块,用于根据所述事件关联度、所述用户关联度以及设定网络业务,确立与设定网络业务相关的网络事件链。
优选的是,在所述分类模块中,加载并执行如下程序:
根据设定网络业务的类别或事件提取特征码,建立包括多个所述特征码的事件维度数据模板;
计算搜索引擎跳转记录,建立网站维度数据模板,所述网站维度数据模板至少包括网络业务、网络业务中产生特征码的位置、从搜索引擎或其他网络入口跳转到此网站的次数以及事件集合所产生的总流量;
综合事件维度数据和网站维度数据,根据网络用户标识,建立用户维度数据模板,所述用户维度数据模板中至少包括个人标识、网站标识、个人访问网站事件栏目的统计数以及在对应网站产生的流量。
优选的是,所述汇聚关联模块包括事件关联度单元,所述事件关联度单元加载并执行如下程序:
确定事件关联度层次数量;
建立统计坐标系,将所有与事件相关的网站映射到坐标系里;
随机选取与事件关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成事件关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的事件关联度。
优选的是,所述汇聚关联模块包括用户关联度单元,所述用户关联度单元加载并执行如下程序:
确定用户关联度层次数量;
建立统计坐标系,将所有与事件相关的用户映射到坐标系里;
随机选取与用户关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成用户关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的用户关联度。
优选的是,在所述确立模块中,加载并执行如下程序:
根据用户标识与所述事件关联度和所述用户关联度的紧密程度,对所述设定网络业务根据用户标识与所述事件关联度和所述用户关联度的紧密程度进行排列组合,建立事件关联,从而确立与所述设定网络业务相关的网络事件关系链。
本发明的有益效果是:本发明提供一种网络事件链确立方法及其网络事件链确立系统,通过大数据深度挖掘用户的网络行为,经过对网络事件链确立绘制、网络事件用户追踪分类、网络事件传播途径追踪分类等步骤,从而根据网络安全策略进行行为关联和分析,根据用户的日常网络行为来推断和梳理非法利益链条,便于对网络事件及其风向进行更准确的预测,从而达到舆情风险预测和追踪的目的,保证网络安全。
附图说明
图1为本发明实施例中网络事件链确立方法的流程图;
图2为本发明实施例中网络事件链确立系统的结构框图;
图3为本发明实施例中网络事件链确立系统的网络部署示意图;
附图标识中:
1-采集模块;2-分类模块;3-汇聚关联模块;4-确立模块。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明网络事件链确立方法和网络事件链确立系统作进一步详细描述。
本发明的网络事件链确立方法的技术构思为:由于网站(含各种网络业务)是网络上用户或网络事件发酵或传播的唯一通道,因此对网络事件或可能发生的热点、危机事件的关系链进行追踪预测的实质,就是对事件可能涉及到的人员及其网络活动范围和轨迹进行追踪和预测,从而突显网络事件的突出节点,进而对网络事件进行建立互相关联和梳理。
本发明网络事件链确立方法和网络事件链确立系统,实现了有效的对网络事件关系链进行追踪和预测,从而达到舆情风险预测和追踪的目的。
如图1所示,该网络事件链确立方法包括步骤:
步骤S1):采集包括用户标识、网站、流量、时间、时长、含关键词的内容网络数据。
步骤S2):对采集到的网络数据进行分类,划分为至少包括事件类、网站类、用户类的类别。
在该步骤中,对采集到的网络数据进行分类包括:
根据设定网络业务的类别或事件提取特征码,建立包括多个特征码的事件维度数据模板;
计算搜索引擎跳转记录,建立网站维度数据模板,网站维度数据模板至少包括网络业务、网络业务中产生特征码的位置、从搜索引擎或其他网络入口跳转到此网站的次数以及事件集合所产生的总流量;
综合事件维度数据和网站维度数据,根据网络用户标识,建立用户维度数据模板,用户维度数据模板中至少包括个人标识、网站标识、个人访问网站事件栏目的统计数以及在对应网站产生的流量。
步骤S3):汇聚事件类、网站类、用户类的网络数据,分别计算网站类中网络数据的事件关联度和用户类中网络数据的用户关联度。
在该步骤中,计算网站类中网络数据的事件关联度包括:
首先,确定事件关联度层次数量;
建立统计坐标系,将所有与事件相关的网站映射到坐标系里;
随机选取与事件关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成事件关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的事件关联度。
接着,计算网站类中网络数据的用户关联度包括:
确定用户关联度层次数量;
建立统计坐标系,将所有与事件相关的用户映射到坐标系里;
随机选取与用户关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成用户关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的用户关联度。
步骤S4):根据事件关联度、用户关联度以及设定网络业务,确立与设定网络业务相关的网络事件链。
在步骤中,确立与设定网络业务相关的网络事件链包括:
根据用户标识与事件关联度和用户关联度的紧密程度,对设定网络业务根据用户标识与事件关联度和用户关联度的紧密程度进行排列组合,建立事件关联,从而确立与设定网络业务相关的网络事件链。
相应的,如图2所示为本实施例中网络事件链确立系统的结构框图,该网络事件链确立系统包括采集模块1、分类模块2、汇聚关联模块3和确立模块4,其中:
采集模块1,用于采集包括用户标识、网站、流量、时间、时长、含关键词的内容网络数据。
分类模块2,用于对采集到的网络数据进行分类,划分为至少包括事件类、网站类、用户类的类别。
优选的是,在分类模块2中,加载并执行如下程序:
根据设定网络业务的类别或事件提取特征码,建立包括多个特征码的事件维度数据模板;
计算搜索引擎跳转记录,建立网站维度数据模板,网站维度数据模板至少包括网络业务、网络业务中产生特征码的位置、从搜索引擎或其他网络入口跳转到此网站的次数以及事件集合所产生的总流量;
综合事件维度数据和网站维度数据,根据网络用户标识,建立用户维度数据模板,用户维度数据模板中至少包括个人标识、网站标识、个人访问网站事件栏目的统计数以及在对应网站产生的流量。
汇聚关联模块3,用于汇聚事件类、网站类、用户类的网络数据,分别计算网站类中网络数据的事件关联度和用户类中网络数据的用户关联度。
优选的是,汇聚关联模块3包括事件关联度单元和用户关联度单元。其中,事件关联度单元加载并执行如下程序:
确定事件关联度层次数量;
建立统计坐标系,将所有与事件相关的网站映射到坐标系里;
随机选取与事件关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成事件关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的事件关联度。
用户关联度单元加载并执行如下程序:
确定用户关联度层次数量;
建立统计坐标系,将所有与事件相关的用户映射到坐标系里;
随机选取与用户关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成用户关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的用户关联度。
确立模块4,用于根据事件关联度、用户关联度以及设定网络业务,确立与设定网络业务相关的网络事件链。
优选的是,在确立模块4中,加载并执行如下程序:
根据用户标识与事件关联度和用户关联度的紧密程度,对设定网络业务根据用户标识与事件关联度和用户关联度的紧密程度进行排列组合,建立事件关联,从而确立与设定网络业务相关的网络事件链。
以下将融合本发明中的网络事件链确立方法和网络事件链确立系统,详细说明对网络事件链确立的方式。
首先,采集模块1执行步骤S1)的程序。通过采集模块1采集网络数据作为原始数据,作为分析预测的基础。采集的数据类型包括:用户标识(手机号、IP)、网址、流量、时间、时长、含关键词的内容等原始数据。网络数据采集模块1设置在运营商各个移动网络和固网的网络出口进行数据采集,因为所有网络业务都需要走这些出口,才能到达用户终端。这里,网络数据通常存储于数据库中。
分类模块2与采集模块1连接,分类模块2执行步骤S2)的程序,用于对采集到的网络数据进行分类。本实施例按照三个维度网络数据进行分类,三个维度分别是事件类、网站类、用户类。其中,事件类即指根据某类或某个网络事件提取得到的特征码,例如:特征码为事件涉及到的关键词集合,如三聚氰胺,此特征码涉及到的关键词包括食品安全、牛奶安全等,将这些关键词用key1、key2…表示,因此事件维度数据模板为EventID(key1,key2…),关键词和网络事件的定义,由具体网络策略决定。通常情况下,网络策略是人的行为,根据关注点不同制定不同的策略,例如追踪三聚氰胺事件发酵,网络策略简单举例为可以锁定关键词:食品安全、牛奶安全、三聚氰胺等,锁定网络业务为微博转发、网络论坛、QQ主题群。
网站类即根据上文定义的事件类的事件维度数据模板EventID,按照网站(URL或域名等网络唯一标识符),通过过滤、统计含有关键词的记录、以及所带来的流量总和,并计算搜索引擎跳转记录。由于网站(含各种网络业务)是网络上用户或网络事件发酵或传播的唯一通道,因此统计网站即可确定事件关系链的范围和传播途径。在本实施例的网络事件链确立和预测系统中,统计网站维度主要包含两个主要统计量:
其一,为网络策略中关心的搜索引擎集合等(用户的网络入口)对事件集合中涉及到的关系量(如关键词),产生跳转到对应网站的次数,例如:用户通过搜索引擎搜索关键词后点击跳转到对应网站的次数,由于这些都需要通过网络传播,因此在运营商的网络直接采集中(通常在运营商的移动网络和固网的出口处采集,此为用户和网站接入互联网的必经之路),都可以采集得到;
其二,为网站中涉及到关键词的内容和所产生的流量,这些信息可以分析网站网络日志得到。由于目前国家有安全管理法规,网站日志不加密、而且必须可以溯源,因此可以很方便的采集得到网站中涉及到关键词的内容和所产生的流量。
基于上述关键词以及关键词的内容和所产生的流量,最终得到网站维度数据模板为WebID{EventID(key1,key2…)、UnitID、SearchR、sum、T},其中WebID(网络业务ID)为具体网络业务如网站等,UnitID为网络业务中的具体子业务或子版块,也就是产生关键词的具体位置,SearchR为从搜索引擎或其他关心的网络入口跳转到此网站的次数,sum为事件集合所产生的总流量,流量越多,跳转量越大,为此网站和网络事件的关系越紧密
用户类即根据网络用户标识即手机号或IP地址,由于目前国家规定必须实名上网,因此通过手机号和IP地址可以追踪到实体个人,进而根据个人访问记录和网站日志信息建立个人与事件的关联集合。用户维度数据模板为ID{EventID(key1,key2…)、WebID(次数、sum)、T},其中ID为个人标识、WebID为网站标识,次数即个人访问网站事件栏目的统计数(可以通过统计URL+源IP或手机号得到),sum为在对应网站产生的流量。这里的次数和流量体现出个人对事件的关心程度,之所以统计次数和流量两个量值是因为可能有些人只是看看,不发评论或材料,因此访问次数多但是流量少。
汇聚关联模块3,用于根据上述得出的包括事件类、网站类、用户类的各类集合并建立关联度,以便于后续进行网络事件链确立预测。
经过步骤S1)和步骤S2),将上述所采集到的相关数据划分为两大部分:事件数据部分和用户上网行踪部分。其中:事件数据部分相关的数据包含:网址、流量、时间、时长、含关键词等与用户上网行为相关的内容;用户上网行踪部分相关的数据包含:手机号、IP、访问次数、手机IME编码、位置信息、时间等。
汇聚关联模块3与分类模块2连接,汇聚关联模块3执行步骤S3)的程序,用于对上述所有采集到的数据进行协同分析,以得到网络事件链。
其中,事件数据部分的数据用于下述第一步骤分析,分析结果形成与事件相关的事件关系链;用户上网行踪部分的数据对应第二步骤分析,即通过对第一步骤得到的事件关系链的分析,得到与这些事件链条相关的用户有哪些,并对用户的参与程度和关联程度进行分类,从而建立用户与事件的关联。
步骤S31):对事件关系链的活动范围进行追踪预测。
在该步骤中,根据网络策略决定要统计几个关联度层次的关系,例如统计三个关联度层次的关系,包括紧密相关的、相关的、非紧密相关的,对上述过滤出来的网站维度数据模板WebID{EventID(key1,key2…)、UnitID、SearchR、sum、T}进行统计。这里应该理解的是,具体的关联度层次数量根据安全策略要求的粒度来定,不限定在本实施例示例的三层。具体的方法为:
首先,建立统计坐标系,将所有与事件相关的网站映射到坐标系里。在本实施例中,坐标系的横坐标为跳转次数searchR,纵坐标为事件总流量sum,时间段为T,T的取值由具体网络策略决定。
接着,随机选取三个点,分别为紧密相关、相关、非紧密相关作为质心,计算所有点到三个质心的距离的平方,公式为L12=(x1-x2)2+(y1-y2)2,其中,(x1、y1)为任一质心的坐标值,(x2、y2)为不同于质心的任一点的坐标值。以此类推,这样每个点都分别与三个质心算得一个距离值,对于这三个距离值,选取距离值中最小的质心作为这个点的归属类,从而将所有点分成三个关联度。因为距离涉及开方,鉴于平方和开方后的数值在大小比较上一致,因此本实施例采用距离的平方更方便。
然后,在每个关联度中,选取坐标中心点即形成的x,y范围的平均值,作为每个关联度的新的质心,并计算所有点到新质心的距离,再重复上述过程,反复迭代n(次后,会出现质心坐标稳定或在一个可以接受的阈值范围内波动,则认为稳定,分类完毕。根据迭代的精细度定,n具体的取值为当相邻两次迭代的偏差<所要求的偏差率(例如0.5%)时的次数,当然也可以根据实际情况以其他量值作为确定n的标准,这里不做限定。
经过上述处理,与事件相关的网站被分成了三个关联度,分别是紧密相关、相关、非紧密相关,从而建立根据网络策略可以确定事件传播范围和途径。
步骤S32):对用户关系链的活动范围进行追踪预测。
在该步骤中,对用户维度数据模板ID{EventID(key1,key2…)、WebID(次数、sum)、T},进行统计。这里的sum与前述的sum相同,即先进行事件关系链追踪再进行用户关系链追踪。
首先,计算用户访问事件的次数和产生的流量总和,即对所有WebID集合中的次数和sum进行累加,然后再乘以两项对应的权值,权值由具体的网络策略决定。流量总和作为一个参考量值,用来作为衡量此网络业务对网络事件的影响程度。
接着,建立统计坐标系,将所有与事件相关的用户映射到坐标系里。在本实施例中,该坐标系分别以次数和流量作为横坐标和纵坐标,接下来的方法与上述对网站维度数据模板的处理方法相同。例如根据网络策略,将用户分成三个关联度层次,即紧密相关的、相关的、非紧密相关的。
然后,随机选取三个点,分别为紧密相关、相关、非紧密相关作为质心,计算所有点到三个质心的距离的平方,公式为L12=(x1-x2)2+(y1-y2)2,其中,(x1、y1)为任一质心的坐标值,(x2、y2)为不同于质心的任一点的坐标值。以此类推,这样每个点都分别与三个质心算得一个距离值,对于这三个距离值,选取距离值中最小的质心作为这个点的归属类,从而将所有点分成三个关联度。
最后,在每个关联度中,选取坐标中心点即形成的x,y范围的平均值,作为每个关联度的新的质心,并计算所有点到新质心的距离,再重复上述过程,反复迭代n次后,会出现质心坐标稳定或在一个可以接受的阈值范围内波动,则认为稳定,分类完毕。
经过上述处理,与事件相关的用户被分成了三个关联度,分别是紧密相关、相关、非紧密相关,获得三个类别用户行踪的具体范围,从而确立用户行踪集合。
确立模块4与汇聚关联模块3连接,确立模块4执行步骤S4)的程序,用于确立网络事件链,以对网络事件链溯源和预测。
根据步骤S31)和步骤S32)求出的事件相关网站分类和事件相关用户分类,利用用户和网站中WebID和关联度(紧密、相关、非相关)关系,根据网络策略进行排列组合关联。这里的网络策略可以为用户标识与事件关联度和用户关联度的紧密程度进行排列组合根据用户标识与事件关联度和用户关联度的紧密程度,来对业务进行排列组合。根据上述分析结果即形成事件关系链+用户关系链的数据集合,综合包含对应关注的热点事件及与其相关的关联事件的事件链,以及每个关联事件的参与用户的分布,从而可以求出事件关系和其活动范围、传播途径,从而绘制出完整的事件关系链条传播和影响受众的图谱,方便网络事件处理决策和应对。例如追踪网络三聚氰胺事件的舆情,安全策略为重点关注用户群体聚集,可以尝试对网络业务:论坛评论、微博转发、QQ主题群进行组合,其他业务可以不在追踪范围内。
如图3所示为本发明实施例中网络事件链确立系统的网络部署示意图。根据本实施例中的网络事件链确立系统的结构框图,可以很便捷的建立网络事件链确立方式,实现有效的对网络事件关系链进行追踪和预测,从而达到舆情风险预测和追踪的目的。
本发明提供一种网络事件链确立方法及其网络事件链确立系统,通过大数据深度挖掘用户的网络行为,经过对网络事件链确立绘制、网络事件用户追踪分类、网络事件传播途径追踪分类等步骤,从而根据网络安全策略进行行为关联和分析,根据用户的日常网络行为来推断和梳理非法利益链条,便于对网络事件及其风向进行更准确的预测,从而达到舆情风险预测和追踪的目的,保证网络安全。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种网络事件链确立方法,其特征在于,包括步骤:
采集包括用户标识、网站、流量、时间、时长、含关键词的内容网络数据;
对采集到的网络数据进行分类,划分为至少包括事件类、网站类、用户类的类别;
汇聚所述事件类、所述网站类、所述用户类的网络数据,分别计算所述网站类中网络数据的事件关联度和所述用户类中网络数据的用户关联度;
根据所述事件关联度、所述用户关联度以及设定网络业务,确立与设定网络业务相关的网络事件链。
2.根据权利要求1所述的网络事件链确立方法,其特征在于,在对采集到的网络数据进行分类的步骤中,包括:
根据设定网络业务的类别或事件提取特征码,建立包括多个所述特征码的事件维度数据模板;
计算搜索引擎跳转记录,建立网站维度数据模板,所述网站维度数据模板至少包括网络业务、网络业务中产生特征码的位置、从搜索引擎或其他网络入口跳转到此网站的次数以及事件集合所产生的总流量;
综合事件维度数据和网站维度数据,根据网络用户标识,建立用户维度数据模板,所述用户维度数据模板中至少包括个人标识、网站标识、个人访问网站事件栏目的统计数以及在对应网站产生的流量。
3.根据权利要求2所述的网络事件链确立方法,其特征在于,计算网站类中网络数据的事件关联度的步骤包括:
确定事件关联度层次数量;
建立统计坐标系,将所有与事件相关的网站映射到坐标系里;
随机选取与事件关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成事件关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的事件关联度。
4.根据权利要求3所述的网络事件链确立方法,其特征在于,计算网站类中网络数据的用户关联度的步骤包括:
确定用户关联度层次数量;
建立统计坐标系,将所有与事件相关的用户映射到坐标系里;
随机选取与用户关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成用户关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的用户关联度。
5.根据权利要求4所述的网络事件链确立方法,其特征在于,确立与设定网络业务相关的网络事件链的步骤包括:
根据用户标识与所述事件关联度和所述用户关联度的紧密程度,对所述设定网络业务根据用户标识与所述事件关联度和所述用户关联度的紧密程度进行排列组合,建立事件关联,从而确立与所述设定网络业务相关的网络事件关系链。
6.一种网络事件链确立系统,其特征在于,包括采集模块、分类模块、汇聚关联模块和确立模块,其中:
所述采集模块,用于采集包括用户标识、网站、流量、时间、时长、含关键词的内容网络数据;
所述分类模块,用于对采集到的网络数据进行分类,划分为至少包括事件类、网站类、用户类的类别;
所述汇聚关联模块,用于汇聚所述事件类、所述网站类、所述用户类的网络数据,分别计算所述网站类中网络数据的事件关联度和所述用户类中网络数据的用户关联度;
所述确立模块,用于根据所述事件关联度、所述用户关联度以及设定网络业务,确立与设定网络业务相关的网络事件链。
7.根据权利要求6所述的网络事件链确立系统,其特征在于,在所述分类模块中,加载并执行如下程序:
根据设定网络业务的类别或事件提取特征码,建立包括多个所述特征码的事件维度数据模板;
计算搜索引擎跳转记录,建立网站维度数据模板,所述网站维度数据模板至少包括网络业务、网络业务中产生特征码的位置、从搜索引擎或其他网络入口跳转到此网站的次数以及事件集合所产生的总流量;
综合事件维度数据和网站维度数据,根据网络用户标识,建立用户维度数据模板,所述用户维度数据模板中至少包括个人标识、网站标识、个人访问网站事件栏目的统计数以及在对应网站产生的流量。
8.根据权利要求7所述的网络事件链确立系统,其特征在于,所述汇聚关联模块包括事件关联度单元,所述事件关联度单元加载并执行如下程序:
确定事件关联度层次数量;
建立统计坐标系,将所有与事件相关的网站映射到坐标系里;
随机选取与事件关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成事件关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的事件关联度。
9.根据权利要求8所述的网络事件链确立系统,其特征在于,所述汇聚关联模块包括用户关联度单元,所述用户关联度单元加载并执行如下程序:
确定用户关联度层次数量;
建立统计坐标系,将所有与事件相关的用户映射到坐标系里;
随机选取与用户关联度层次数量相同个点作为质心,计算所有点到各个质心的各自距离的平方,选取距离值中最小的质心作为该点的归属类,从而将所有点分成用户关联度层次数量个关联度;
选取每个关联度中坐标中心点作为每个关联度的新的质心,并计算所有点到新质心的距离,重复迭代,获得事件类中网络数据的用户关联度。
10.根据权利要求9所述的网络事件链确立系统,其特征在于,在所述确立模块中,加载并执行如下程序:
根据用户标识与所述事件关联度和所述用户关联度的紧密程度,对所述设定网络业务根据用户标识与所述事件关联度和所述用户关联度的紧密程度进行排列组合,建立事件关联,从而确立与所述设定网络业务相关的网络事件关系链。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711251630.6A CN108023768B (zh) | 2017-12-01 | 2017-12-01 | 网络事件链确立方法和网络事件链确立系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711251630.6A CN108023768B (zh) | 2017-12-01 | 2017-12-01 | 网络事件链确立方法和网络事件链确立系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108023768A true CN108023768A (zh) | 2018-05-11 |
CN108023768B CN108023768B (zh) | 2019-05-10 |
Family
ID=62077952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711251630.6A Active CN108023768B (zh) | 2017-12-01 | 2017-12-01 | 网络事件链确立方法和网络事件链确立系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108023768B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109167781A (zh) * | 2018-08-31 | 2019-01-08 | 杭州安恒信息技术股份有限公司 | 一种基于动态关联分析的网络攻击链识别方法和装置 |
CN109409619A (zh) * | 2018-12-19 | 2019-03-01 | 泰康保险集团股份有限公司 | 舆情动向的预测方法、装置、介质及电子设备 |
CN109951461A (zh) * | 2019-03-07 | 2019-06-28 | 中国联合网络通信集团有限公司 | 基于无线网络的信息溯源方法及装置 |
CN110493264A (zh) * | 2019-09-18 | 2019-11-22 | 北京工业大学 | 一种基于内网实体关系与行为链的内部威胁发现方法 |
CN110737821A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 相似事件查询的方法、装置、存储介质和终端设备 |
CN110765777A (zh) * | 2019-10-17 | 2020-02-07 | 上海大学 | 一种基于关联语义链网络的事件相关度计算方法 |
CN112148979A (zh) * | 2020-09-27 | 2020-12-29 | 北京百度网讯科技有限公司 | 事件关联用户的识别方法、装置、电子设备和存储介质 |
WO2021013225A1 (zh) * | 2019-07-23 | 2021-01-28 | 中兴通讯股份有限公司 | 一种实现信息关联的方法及装置 |
WO2021212990A1 (zh) * | 2020-04-20 | 2021-10-28 | 华为技术有限公司 | 认证事件处理方法及装置、系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185641A1 (en) * | 2009-01-21 | 2010-07-22 | Brazier Sandra B | Method for compiling, trend-tracking, transmitting and reporting opinion data |
CN106815651A (zh) * | 2015-11-27 | 2017-06-09 | 亿阳信通股份有限公司 | 一种社会公共事件风险预警方法及系统 |
CN106874365A (zh) * | 2016-12-30 | 2017-06-20 | 中国科学院自动化研究所 | 基于社会媒体平台上社会事件的跟踪方法 |
CN107329970A (zh) * | 2017-05-23 | 2017-11-07 | 成都联宇云安科技有限公司 | 一种针对手机管控系统舆情大数据进行分析处理的方法 |
-
2017
- 2017-12-01 CN CN201711251630.6A patent/CN108023768B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185641A1 (en) * | 2009-01-21 | 2010-07-22 | Brazier Sandra B | Method for compiling, trend-tracking, transmitting and reporting opinion data |
CN106815651A (zh) * | 2015-11-27 | 2017-06-09 | 亿阳信通股份有限公司 | 一种社会公共事件风险预警方法及系统 |
CN106874365A (zh) * | 2016-12-30 | 2017-06-20 | 中国科学院自动化研究所 | 基于社会媒体平台上社会事件的跟踪方法 |
CN107329970A (zh) * | 2017-05-23 | 2017-11-07 | 成都联宇云安科技有限公司 | 一种针对手机管控系统舆情大数据进行分析处理的方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737821A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 相似事件查询的方法、装置、存储介质和终端设备 |
CN109167781A (zh) * | 2018-08-31 | 2019-01-08 | 杭州安恒信息技术股份有限公司 | 一种基于动态关联分析的网络攻击链识别方法和装置 |
CN109167781B (zh) * | 2018-08-31 | 2021-02-26 | 杭州安恒信息技术股份有限公司 | 一种基于动态关联分析的网络攻击链识别方法和装置 |
CN109409619A (zh) * | 2018-12-19 | 2019-03-01 | 泰康保险集团股份有限公司 | 舆情动向的预测方法、装置、介质及电子设备 |
CN109951461A (zh) * | 2019-03-07 | 2019-06-28 | 中国联合网络通信集团有限公司 | 基于无线网络的信息溯源方法及装置 |
CN109951461B (zh) * | 2019-03-07 | 2021-08-17 | 中国联合网络通信集团有限公司 | 基于无线网络的信息溯源方法及装置 |
WO2021013225A1 (zh) * | 2019-07-23 | 2021-01-28 | 中兴通讯股份有限公司 | 一种实现信息关联的方法及装置 |
CN110493264A (zh) * | 2019-09-18 | 2019-11-22 | 北京工业大学 | 一种基于内网实体关系与行为链的内部威胁发现方法 |
CN110493264B (zh) * | 2019-09-18 | 2021-12-24 | 北京工业大学 | 一种基于内网实体关系与行为链的内部威胁发现方法 |
CN110765777A (zh) * | 2019-10-17 | 2020-02-07 | 上海大学 | 一种基于关联语义链网络的事件相关度计算方法 |
CN110765777B (zh) * | 2019-10-17 | 2023-09-15 | 上海大学 | 一种基于关联语义链网络的事件相关度计算方法 |
WO2021212990A1 (zh) * | 2020-04-20 | 2021-10-28 | 华为技术有限公司 | 认证事件处理方法及装置、系统 |
CN112148979A (zh) * | 2020-09-27 | 2020-12-29 | 北京百度网讯科技有限公司 | 事件关联用户的识别方法、装置、电子设备和存储介质 |
CN112148979B (zh) * | 2020-09-27 | 2023-08-01 | 北京百度网讯科技有限公司 | 事件关联用户的识别方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108023768B (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108023768B (zh) | 网络事件链确立方法和网络事件链确立系统 | |
Gambs et al. | De-anonymization attack on geolocated data | |
Arnaboldi et al. | Dynamics of personal social relationships in online social networks: a study on twitter | |
Budak et al. | Structural trend analysis for online social networks | |
Preoţiuc-Pietro et al. | Mining user behaviours: a study of check-in patterns in location based social networks | |
Rezvanian et al. | Sampling social networks using shortest paths | |
Ballesteros et al. | Towards safe cities: A mobile and social networking approach | |
CN106294559A (zh) | 一种应用流量分析方法及装置 | |
Alzaabi et al. | CISRI: A crime investigation system using the relative importance of information spreaders in networks depicting criminals communications | |
CN106846163A (zh) | 一种电力缴费渠道综合分析系统 | |
CN103258027A (zh) | 基于智能终端的情境感知服务平台 | |
Gupta et al. | Malreg: Detecting and analyzing malicious retweeter groups | |
Wang et al. | Composite behavioral modeling for identity theft detection in online social networks | |
Wang et al. | Patterns of news dissemination through online news media: A case study in China | |
Wang et al. | Impact of human mobility on social networks | |
Sharma et al. | Going beyond content richness: Verified information aware summarization of crisis-related microblogs | |
Cao et al. | Fake reviewer group detection in online review systems | |
He et al. | Analysis of factors affecting the coordinated development of urbanization and the ecological resource environment in southwest China based on data mining | |
Wang et al. | Co-location social networks: Linking the physical world and cyberspace | |
De Choudhury et al. | Dynamic prediction of communication flow using social context | |
Abdalla et al. | A review of using online social networks for investigative activities | |
Lamba et al. | Model-based cluster analysis for identifying suspicious activity sequences in software | |
Chiluka et al. | Leveraging trust and distrust for sybil-tolerant voting in online social media | |
Jain et al. | Temporal analysis of user behavior and topic evolution on Twitter | |
Nikoletos et al. | Employing social network analysis to dark web communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |