CN112887343B - 一种用于网络大数据的管理系统及管理方法 - Google Patents
一种用于网络大数据的管理系统及管理方法 Download PDFInfo
- Publication number
- CN112887343B CN112887343B CN202110487888.6A CN202110487888A CN112887343B CN 112887343 B CN112887343 B CN 112887343B CN 202110487888 A CN202110487888 A CN 202110487888A CN 112887343 B CN112887343 B CN 112887343B
- Authority
- CN
- China
- Prior art keywords
- data
- module
- legal
- packet
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/04—Protocols for data compression, e.g. ROHC
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种网络大数据的管理系统及管理方法,通过将收集的原始数据分别为若干个数据包,再对若干个数据包进行逐一的检测其合法性,当判定数据包非法的情况下,丢弃非法数据包,并对非法数据包进行溯源和识别,同时,对非法数据包进行存储,并进行告警,避免非法数据的乱入,提高了大数据存储的安全性;同时,通过对数据包进行数据清洗和聚类分析,解决了数据分类混乱的问题;另外,通过对使用频率较低的数据包进行检测后,对使用频率较低的数据包进行压缩,获得压缩数据包,从而降低了使用频率低的数据占用的存储空间,提高了大数据存储的有效性。
Description
技术领域
本申请涉及网络大数据技术领域,尤其涉及一种用于网络大数据的管理系统及管理方法。
背景技术
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,而大数据则是这个高科技时代的产物。
有人说,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技。也有人把数据比喻为蕴藏能量的煤矿,煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。
与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据的价值体现在以下几个方面:对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;做小而美模式的中小微企业可以利用大数据做服务转型;面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值,大数据在日常使用中需要对数据进行存储管理。
但是常见的系统在使用时,不能对有害的违法信息进行筛选,使得数据库中混入大量的非法数据,影响大数据存储的正常使用,同时数据分类较为混乱,使用频率低的数据占用的存储空间较大,影响大数据存储空间的利用价值。
发明内容
本申请提供了一种用于网络大数据的管理系统及管理方法,用于解决现有的大数据管理无法对非法数据进行筛选,数据分类混乱且使用频率低的数据占用的存储空间较大的技术问题。
有鉴于此,本申请第一方面提供了一种用于网络大数据的管理系统,包括:数据收集模块、合法性检测模块、数据追踪模块、报警反馈模块、非法数据存储模块、数据录入模块、数据清洗模块、数据分类模块、数据使用频率检测模块、数据压缩模块、数据写入模块和大数据存储模块;
所述数据收集模块用于根据预设的采集节点收集原始数据,还用于根据所述预设的采集节点对所述原始数据分解为若干个数据包,还用于根据所述预设的采集节点生成与所述若干个数据包相应的序列号;还用于将所述若干个数据包传输至所述合法性判断模块;
所述合法性检测模块用于根据预设的合法性判别规则逐一对所述若干个数据包的数据格式和/或数据来源进行合法性检测,具体为,当数据包的数据格式和数据来源中任意一个条件非法时,则该数据包为非法数据包,当数据包的数据格式和数据来源均为合法时,则判定该数据包为合法数据包,还用于将所述合法数据包传输至所述数据录入模块;
所述数据追踪模块用于接收所述合法性检测模块传输的所述非法数据包,还用于获取所述非法数据包相应的序列号,还用于当所述非法数据包具体为数据格式非法且其数据来源合法时,则获取相应的所述非法数据的数据来源以及序列号;还用于将所述非法数据包传输至所述非法数据存储模块进行存储;还用于将所述非法数据包、及其相应的序列号或数据来源传输至所述报警反馈模块,以便于所述报警反馈模块进行告警以及提供相应的告警信息;
所述数据录入模块用于接收所述合法性检测模块传输的所述合法数据包,还用于将所述合法数据包传输至所述数据清洗模块;
所述数据清洗模块用于接收所述数据录入模块传输的所述合法数据包,还用于对所述合法数据包进行数据清洗;还用于将数据清洗后的所述合法数据包传输至所述数据分类模块;
所述数据分类模块用于基于数据挖掘算法对所述合法数据包进行聚类分析,从而得出分类结果;还用于将所述合法数据包传输至所述数据使用频率检测模块;
所述数据使用频率检测模块用于根据预设的数据使用频率检测规则对所述合法数据包进行检测,得出所述合法数据包的数据使用频率;还用于当所述合法数据包的数据使用频率低于预设使用频率阈值时,则将所述合法数据包传输至所述数据压缩模块;还用于当所述合法数据包的数据使用频率高于预设使用频率阈值时,则将所述合法数据包传输至所述数据写入模块;
所述数据压缩模块用于接收所述数据使用频率检测模块传输的所述合法数据包,还用于对所述合法数据包进行数据压缩,生成合法数据压缩包;还用于将所述合法数据压缩包传输至所述数据写入模块;
所述数据写入模块用于接收所述数据使用频率检测模块和所述数据压缩模块分别传输的所述合法数据包和所述合法数据压缩包,还用于将所述合法数据包和所述合法数据压缩包传输至所述大数据存储模块进行存储。
优选地,所述数据收集模块具体包括:爬虫收集子模块、内网收集子模块和人工输入子模块;
所述爬虫收集子模块用于根据预先定义的抓取主题,通过聚焦网络爬虫对目标浏览器网页进行数据抓取,以获得与所述预先定义的抓取主题相关的原始数据;
所述内网收集子模块用于通过内部网络获取内部数据平台上的原始数据;
所述人工输入子模块用于通过人工录入方式获取用户录入的原始数据。
优选地,所述预设的合法性判别规则具体为通过判断该数据包的数据格式是否为所述大数据存储模块支持的数据格式,若上述判断为是,则该数据包的数据格式为合法,若上述判断为否,则该数据包的数据格式为非法;还通过预设的黑名单IP库判断该数据包的来源IP是否为恶意IP,当上述判断为是,则该数据包的数据来源为非法;当上述判断为否,则该数据包的数据来源为合法。
优选地,所述数据使用频率检测模块具体包括主题提取子模块、数据使用频率检测子模块和数据使用频率判别子模块;
所述主题提取子模块用于根据预设的关键词数据库对所述合法数据包中的数据内容提取关键词;还用于根据预设的关键词-标签数据库匹配所述关键词的标签;还用于根据预设的标签-主题数据库匹配所述标签的主题,所述预设的标签-主题数据库包括标签-主题的映射关系以及每个标签-主题的映射关系的权重;
数据使用频率检测子模块用于根据预设的主题-使用频率数据库匹配所述主题提取子模块匹配出的所述主题的使用频率,所述预设的主题-使用频率数据库包括主题与其在当前的预定时间段内的使用频率的映射关系;
所述数据使用频率判别子模用于当所述主题的使用频率低于预设使用频率阈值时,则将所述主题对应的所述合法数据包传输至所述数据压缩模块;还用于当所述主题的使用频率高于预设使用频率阈值时,则将所述主题对应的所述合法数据包传输至所述数据写入模块。
优选地,所述数据压缩模块具体利用DEFLATE算法对所述合法数据包进行数据压缩。
第二方面,本发明还提供了一种网络大数据的管理方法,包括以下步骤:
S1、根据预设的采集节点收集原始数据后,根据所述预设的采集节点对所述原始数据分解为若干个数据包,还根据所述预设的采集节点生成与所述若干个数据包相应的序列号;
S2、根据预设的合法性判别规则逐一对所述若干个数据包的数据格式和/或数据来源进行合法性检测,具体为,当数据包的数据格式和数据来源中任意一个条件非法时,则该数据包为非法数据包,执行步骤S3~S4;当数据包的数据格式和数据来源均为合法时,则判定该数据包为合法数据包,执行步骤S5;
S3、获取所述非法数据包相应的序列号,当所述非法数据包具体为数据格式非法且其数据来源合法时,则获取相应的所述非法数据的数据来源以及序列号;
S4、存储所述非法数据包,并根据所述非法数据包、及其相应的序列号或数据来源进行告警以及提供相应的告警信息;
S5、对所述合法数据包进行数据清洗;
S6、基于数据挖掘算法对所述合法数据包进行聚类分析,从而得出分类结果;
S7、根据预设的数据使用频率检测规则对所述合法数据包进行检测,得出所述合法数据包的数据使用频率;当所述合法数据包的数据使用频率低于预设使用频率阈值时,则将执行步骤S8;当所述合法数据包的数据使用频率高于预设使用频率阈值时,则将执行步骤S9;
S8、对所述合法数据包进行数据压缩,生成合法数据压缩包,执行步骤S9;
S9、将所述合法数据包和所述合法数据压缩包传输至大数据存储库进行存储。
优选地,所述步骤S1之前包括以下三种原始数据收集方式,具体为,
A、根据预先定义的抓取主题,通过聚焦网络爬虫对目标浏览器网页进行数据抓取,以获得与所述预先定义的抓取主题相关的原始数据;
B、通过内部网络获取内部数据平台上的原始数据;
C、通过人工录入方式获取用户录入的原始数据。
优选地,所述步骤S2中的预设的合法性判别规则具体包括:
通过判断该数据包的数据格式是否为所述大数据存储模块支持的数据格式,若上述判断为是,则该数据包的数据格式为合法,若上述判断为否,则该数据包的数据格式为非法;还通过预设的黑名单IP库判断该数据包的来源IP是否为恶意IP,当上述判断为是,则该数据包的数据来源为非法;当上述判断为否,则该数据包的数据来源为合法。
优选地,所述步骤S7具体包括:
S701、根据预设的关键词数据库对所述合法数据包中的数据内容提取关键词;
S702、根据预设的关键词-标签数据库匹配所述关键词的标签;
S703、根据预设的标签-主题数据库匹配所述标签的主题,所述预设的标签-主题数据库包括标签-主题的映射关系以及每个标签-主题的映射关系的权重;
S704、根据预设的主题-使用频率数据库匹配所述主题的使用频率,所述预设的主题-使用频率数据库包括主题与其在当前的预定时间段内的使用频率的映射关系;
S705、当所述主题的使用频率低于预设使用频率阈值时,则将执行步骤S8;当所述主题的使用频率高于预设使用频率阈值时,则将执行步骤S9。
优选地,所述步骤S8具体包括:利用DEFLATE算法对所述合法数据包进行数据压缩,生成合法数据压缩包,执行步骤S9。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供的一种网络大数据的管理系统及管理方法,通过将收集的原始数据分别为若干个数据包,再对若干个数据包进行逐一的检测其合法性,当判定数据包非法的情况下,丢弃非法数据包,并对非法数据包进行溯源和识别,同时,对非法数据包进行存储,并进行告警,避免非法数据的乱入,提高了大数据存储的安全性;同时,通过对数据包进行数据清洗和聚类分析,解决了数据分类混乱的问题;另外,通过对使用频率较低的数据包进行检测后,对使用频率较低的数据包进行压缩,获得压缩数据包,从而降低了使用频率低的数据占用的存储空间,提高了大数据存储的有效性。
附图说明
图1为本申请实施例提供的一种用于网络大数据的管理系统的结构示意图;
图2为本申请实施例提供的一种用于网络大数据的管理方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种用于网络大数据的管理系统,包括:数据收集模块100、合法性检测模块101、数据追踪模块102、报警反馈模块103、非法数据存储模块104、数据录入模块105、数据清洗模块106、数据分类模块107、数据使用频率检测模块108、数据压缩模块109、数据写入模块110和大数据存储模块111;
数据收集模块100用于根据预设的采集节点收集原始数据,还用于根据预设的采集节点对原始数据分解为若干个数据包,还用于根据预设的采集节点生成与若干个数据包相应的序列号;还用于将若干个数据包传输至合法性判断模块;
可以理解的是,通过设定数据的采集节点收集原始数据,其相邻的采集节点之间存在采集时延,而在每个采集节点所收集的原始数据均分解为数据内容分割的数据包,从而既可以减轻传输压力,每个数据包括不同的数据内容,也可以提高后续的合法性检测和使用频率检测的精度,同时,采集节点是具有时序性的,因此,每个采集节点对应的数据包均可以有唯一的序列号,其序列号可作为后续的数据包的身份信息以及采集时间,同时,由于可能在多个采集节点所收集的原始数据的来源IP均为同一个,因此,通过序列号可以查找到数据包的相应的来源IP。
合法性检测模块101用于根据预设的合法性判别规则逐一对若干个数据包的数据格式和/或数据来源进行合法性检测,具体为,当数据包的数据格式和数据来源中任意一个条件非法时,则该数据包为非法数据包,当数据包的数据格式和数据来源均为合法时,则判定该数据包为合法数据包,还用于将合法数据包传输至数据录入模块105;
可以理解的是,数据格式和数据来源两个条件缺一不可,当其中任意一个条件非法,该数据包则应该丢弃。
数据追踪模块102用于接收合法性检测模块101传输的非法数据包,还用于获取非法数据包相应的序列号,还用于当非法数据包具体为数据格式非法且其数据来源合法时,则获取相应的非法数据的数据来源以及序列号;还用于将非法数据包传输至非法数据存储模块104进行存储;还用于将非法数据包、及其相应的序列号或数据来源传输至报警反馈模块103,以便于报警反馈模块103进行告警以及提供相应的告警信息;
可以理解的是,序列号为数据包的唯一身份信息,因此,可以根据序列号查找数据包对应的数据来源,并通过序列号可以有序地查找存储在非法数据存储模块104中的非法数据包,以便于管理,同时,在告警信息中可以进行显示。
数据录入模块105用于接收合法性检测模块101传输的合法数据包,还用于将合法数据包传输至数据清洗模块106;
数据清洗模块106用于接收数据录入模块105传输的合法数据包,还用于对合法数据包进行数据清洗;还用于将数据清洗后的合法数据包传输至数据分类模块107;
数据分类模块107用于基于数据挖掘算法对合法数据包进行聚类分析,从而得出分类结果;还用于将合法数据包传输至数据使用频率检测模块108;
需要说明的是,本实施例中的数据挖掘算法可以采用k-medoids聚类算法、k-medians聚类算法等。
数据使用频率检测模块108用于根据预设的数据使用频率检测规则对合法数据包进行检测,得出合法数据包的数据使用频率;还用于当合法数据包的数据使用频率低于预设使用频率阈值时,则将合法数据包传输至数据压缩模块109;还用于当合法数据包的数据使用频率高于预设使用频率阈值时,则将合法数据包传输至数据写入模块110;
可以理解的是,由于数据使用频率较低的数据一般为无用数据或不常用数据,而这些数据也会较大程度地占用大数据存储模块111的存储空间,因此,通过检测出数据使用频率较低的数据包后,对这类数据包进行压缩,以降低数据包的使用空间,从而解决数据使用频率较低的数据较大程度地占用大数据存储模块111的存储空间的问题。
数据压缩模块109用于接收数据使用频率检测模块108传输的合法数据包,还用于对合法数据包进行数据压缩,生成合法数据压缩包;还用于将合法数据压缩包传输至数据写入模块110;
在本实施例中,具体利用DEFLATE算法对合法数据包进行数据压缩,在另一实施示例中,利用LZR (LZ-Renau)压缩方法对表格类数据进行压缩。
数据写入模块110用于接收数据使用频率检测模块108和数据压缩模块109分别传输的合法数据包和合法数据压缩包,还用于将合法数据包和合法数据压缩包传输至大数据存储模块111进行存储。
进一步地,数据收集模块100具体包括:爬虫收集子模块、内网收集子模块和人工输入子模块;
爬虫收集子模块用于根据预先定义的抓取主题,通过聚焦网络爬虫对目标浏览器网页进行数据抓取,以获得与预先定义的抓取主题相关的原始数据;
需要说明的是,聚焦网络爬虫是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫,它和通用网络爬虫相比,聚焦网络爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
内网收集子模块用于通过内部网络获取内部数据平台上的原始数据;
可以理解的是,在公司中,也会建立内部数据平台进行数据存储或数据共享,因此,可以通过内部网络从内部数据平台中获取原始数据,从而提高数据的保密性。
人工输入子模块用于通过人工录入方式获取用户录入的原始数据。
可以理解的是,本实施例还增加了人工录入方式获取用户录入的原始数据,提高了数据收集的多样性。
进一步地,预设的合法性判别规则具体为通过判断该数据包的数据格式是否为大数据存储模块111支持的数据格式,若上述判断为是,则该数据包的数据格式为合法,若上述判断为否,则该数据包的数据格式为非法;还通过预设的黑名单IP库判断该数据包的来源IP是否为恶意IP,当上述判断为是,则该数据包的数据来源为非法;当上述判断为否,则该数据包的数据来源为合法。
可以理解的是,由于大数据存储模块111的不同,其所支持的数据格式也就有所不同,例如当大数据存储模块111不支持非结构式数据时,所采集到的数据恰好为非结构式数据,则判定该数据的数据格式为非法,从而进行丢弃,避免无用数据格式占用大数据存储空间;另外,对于一些恶意的IP,特别是从公共网络上收集的数据,可能是由恶意IP的网页中获取,从而会使得该数据存在病毒或其他恶意信息等,可能会损坏大数据存储,甚至导致数据泄露,因此,这类数据需要被丢弃,而预设的黑名单IP库是通过用户自行设定,并定期通过云端进行在线更新,以提高大数据存储的安全性。
进一步地,数据使用频率检测模块108具体包括主题提取子模块、数据使用频率检测子模块和数据使用频率判别子模块;
主题提取子模块用于根据预设的关键词数据库对合法数据包中的数据内容提取关键词;还用于根据预设的关键词-标签数据库匹配关键词的标签;还用于根据预设的标签-主题数据库匹配标签的主题,预设的标签-主题数据库包括标签-主题的映射关系以及每个标签-主题的映射关系的权重;
需要说明的是,预设的关键词数据库是定期进行在线更新的,同时,其更新渠道是主要通过查看用户从大数据存储模块111中调取的数据进行总结归纳或提取而来的。
预设的关键词-标签数据库则包括关键词与标签的映射关系,其中,多个关键词会绑定到同一标签,例如:当关键词为“电压”、“电流”、“功率”,其对应的标签为“电信号参数”,每个关键词都会设定相应的标签,这样也会产生标签池,其关键词与标签的映射关系可以通过用户自行设定。
同理,预设的标签-主题数据库包括标签与主题的映射关系,其中,每个主题包含多个标签,例如:当主题为“电力营销方案”时,其标签可包括“分区电力需求”、“电力能效”、“电力成本”等,在确定数据包的主题时,需要根据关键词与标签的映射关系,确定标签对应的主题,同时,根据每个标签-主题的映射关系的权重最后确定该数据包的最优主题,最优主题的具体表示关系为:
式中,l1、l2、l3...ln表示标签-主题的映射关系,w1、w2、w3、wn表示每个标签-主题的映射关系的权重,其权重为通过层析分析法自行设定。
通过上式可以获得权重关系最高的主题,也即为最优主题。
数据使用频率检测子模块用于根据预设的主题-使用频率数据库匹配主题提取子模块匹配出的主题的使用频率,预设的主题-使用频率数据库包括主题与其在当前的预定时间段内的使用频率的映射关系;
可以理解的是,预设的主题-使用频率数据库中的主题与其在当前的预定时间段内的使用频率的映射关系是不断进行更新的,从而可以确定主题的当前使用频率。
数据使用频率判别子模用于当主题的使用频率低于预设使用频率阈值时,则将主题对应的合法数据包传输至数据压缩模块109;还用于当主题的使用频率高于预设使用频率阈值时,则将主题对应的合法数据包传输至数据写入模块110。
本实施例提供的一种网络大数据的管理系统,通过将收集的原始数据分别为若干个数据包,再对若干个数据包进行逐一的检测其合法性,当判定数据包非法的情况下,丢弃非法数据包,并对非法数据包进行溯源和识别,同时,对非法数据包进行存储,并进行告警,避免非法数据的乱入,提高了大数据存储的安全性;同时,通过对数据包进行数据清洗和聚类分析,解决了数据分类混乱的问题;另外,通过对使用频率较低的数据包进行检测后,对使用频率较低的数据包进行压缩,获得压缩数据包,从而降低了使用频率低的数据占用的存储空间,提高了大数据存储的有效性。
以上为本发明提供的一种网络大数据的管理系统的实施例的详细描述,以下为本发明提供的一种网络大数据的管理方法的实施例的详细描述。
为了方便理解,请参见图2,本发明提供的一种网络大数据的管理方法,包括以下步骤:
S1、根据预设的采集节点收集原始数据后,根据预设的采集节点对原始数据分解为若干个数据包,还根据预设的采集节点生成与若干个数据包相应的序列号;
可以理解的是,通过设定数据的采集节点收集原始数据,其相邻的采集节点之间存在采集时延,而在每个采集节点所收集的原始数据均分解为数据内容分割的数据包,从而既可以减轻传输压力,每个数据包括不同的数据内容,也可以提高后续的合法性检测和使用频率检测的精度,同时,采集节点是具有时序性的,因此,每个采集节点对应的数据包均可以有唯一的序列号,其序列号可作为后续的数据包的身份信息以及采集时间,同时,由于可能在多个采集节点所收集的原始数据的来源IP均为同一个,因此,通过序列号可以查找到数据包的相应的来源IP。
S2、根据预设的合法性判别规则逐一对若干个数据包的数据格式和/或数据来源进行合法性检测,具体为,当数据包的数据格式和数据来源中任意一个条件非法时,则该数据包为非法数据包,执行步骤S3~S4;当数据包的数据格式和数据来源均为合法时,则判定该数据包为合法数据包,执行步骤S5;
可以理解的是,数据格式和数据来源两个条件缺一不可,当其中任意一个条件非法,该数据包则应该丢弃。
S3、获取非法数据包相应的序列号,当非法数据包具体为数据格式非法且其数据来源合法时,则获取相应的非法数据的数据来源以及序列号;
S4、存储非法数据包,并根据非法数据包、及其相应的序列号或数据来源进行告警以及提供相应的告警信息;
可以理解的是,序列号为数据包的唯一身份信息,因此,可以根据序列号查找数据包对应的数据来源,同时,在告警信息中可以进行显示。
S5、对合法数据包进行数据清洗;
S6、基于数据挖掘算法对合法数据包进行聚类分析,从而得出分类结果;
需要说明的是,本实施例中的数据挖掘算法可以采用k-medoids聚类算法、k-medians聚类算法等。
S7、根据预设的数据使用频率检测规则对合法数据包进行检测,得出合法数据包的数据使用频率;当合法数据包的数据使用频率低于预设使用频率阈值时,则将执行步骤S8;当合法数据包的数据使用频率高于预设使用频率阈值时,则将执行步骤S9;
S8、对合法数据包进行数据压缩,生成合法数据压缩包,执行步骤S9;
可以理解的是,由于数据使用频率较低的数据一般为无用数据或不常用数据,而这些数据也会较大程度地占用大数据存储空间,因此,通过检测出数据使用频率较低的数据包后,对这类数据包进行压缩,以降低数据包的使用空间,从而解决数据使用频率较低的数据较大程度地占用大数据存储空间的问题。
在本实施例中,具体利用DEFLATE算法对合法数据包进行数据压缩,在另一实施示例中,利用LZR (LZ-Renau)压缩方法对表格类数据进行压缩。
S9、将合法数据包和合法数据压缩包传输至大数据存储库进行存储。
进一步地,步骤S1之前包括以下三种原始数据收集方式,具体为,
A、根据预先定义的抓取主题,通过聚焦网络爬虫对目标浏览器网页进行数据抓取,以获得与预先定义的抓取主题相关的原始数据;
需要说明的是,聚焦网络爬虫是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫,它和通用网络爬虫相比,聚焦网络爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
B、通过内部网络获取内部数据平台上的原始数据;
可以理解的是,在公司中,也会建立内部数据平台进行数据存储或数据共享,因此,可以通过内部网络从内部数据平台中获取原始数据,从而提高数据的保密性。
C、通过人工录入方式获取用户录入的原始数据。
可以理解的是,本实施例还增加了人工录入方式获取用户录入的原始数据,提高了数据收集的多样性。
进一步地,步骤S2中的预设的合法性判别规则具体包括:
通过判断该数据包的数据格式是否为大数据存储库支持的数据格式,若上述判断为是,则该数据包的数据格式为合法,若上述判断为否,则该数据包的数据格式为非法;还通过预设的黑名单IP库判断该数据包的来源IP是否为恶意IP,当上述判断为是,则该数据包的数据来源为非法;当上述判断为否,则该数据包的数据来源为合法。
可以理解的是,由于大数据存储库的不同,其所支持的数据格式也就有所不同,例如当大数据存储库不支持非结构式数据时,所采集到的数据恰好为非结构式数据,则判定该数据的数据格式为非法,从而进行丢弃,避免无用数据格式占用大数据存储空间;另外,对于一些恶意的IP,特别是从公共网络上收集的数据,可能是由恶意IP的网页中获取,从而会使得该数据存在病毒或其他恶意信息等,可能会损坏大数据存储,甚至导致数据泄露,因此,这类数据需要被丢弃,而预设的黑名单IP库是通过用户自行设定,并定期通过云端进行在线更新,以提高大数据存储的安全性。
进一步地,步骤S7具体包括:
S701、根据预设的关键词数据库对合法数据包中的数据内容提取关键词;
S702、根据预设的关键词-标签数据库匹配关键词的标签;
S703、根据预设的标签-主题数据库匹配标签的主题,预设的标签-主题数据库包括标签-主题的映射关系以及每个标签-主题的映射关系的权重;
需要说明的是,预设的关键词数据库是定期进行在线更新的,同时,其更新渠道是主要通过查看用户从大数据存储库中调取的数据进行总结归纳或提取而来的。
预设的关键词-标签数据库则包括关键词与标签的映射关系,其中,多个关键词会绑定到同一标签,例如:当关键词为“电压”、“电流”、“功率”,其对应的标签为“电信号参数”,每个关键词都会设定相应的标签,这样也会产生标签池,其关键词与标签的映射关系可以通过用户自行设定。
同理,预设的标签-主题数据库包括标签与主题的映射关系,其中,每个主题包含多个标签,例如:当主题为“电力营销方案”时,其标签可包括“分区电力需求”、“电力能效”、“电力成本”等,在确定数据包的主题时,需要根据关键词与标签的映射关系,确定标签对应的主题,同时,根据每个标签-主题的映射关系的权重最后确定该数据包的最优主题,最优主题的具体表示关系为:
式中,l1、l2、l3...ln表示标签-主题的映射关系,w1、w2、w3、wn表示每个标签-主题的映射关系的权重,其权重为通过层析分析法自行设定。
通过上式可以获得权重关系最高的主题,也即为最优主题。
S704、根据预设的主题-使用频率数据库匹配主题的使用频率,预设的主题-使用频率数据库包括主题与其在当前的预定时间段内的使用频率的映射关系;
可以理解的是,预设的主题-使用频率数据库中的主题与其在当前的预定时间段内的使用频率的映射关系是不断进行更新的,从而可以确定主题的当前使用频率。
S705、当主题的使用频率低于预设使用频率阈值时,则将执行步骤S8;当主题的使用频率高于预设使用频率阈值时,则将执行步骤S9。
本实施例提供的一种网络大数据的管理方法,通过将收集的原始数据分别为若干个数据包,再对若干个数据包进行逐一的检测其合法性,当判定数据包非法的情况下,丢弃非法数据包,并对非法数据包进行溯源和识别,同时,对非法数据包进行存储,并进行告警,避免非法数据的乱入,提高了大数据存储的安全性;同时,通过对数据包进行数据清洗和聚类分析,解决了数据分类混乱的问题;另外,通过对使用频率较低的数据包进行检测后,对使用频率较低的数据包进行压缩,获得压缩数据包,从而降低了使用频率低的数据占用的存储空间,提高了大数据存储的有效性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种用于网络大数据的管理系统,其特征在于,包括:数据收集模块、合法性检测模块、数据追踪模块、报警反馈模块、非法数据存储模块、数据录入模块、数据清洗模块、数据分类模块、数据使用频率检测模块、数据压缩模块、数据写入模块和大数据存储模块;
所述数据收集模块用于根据预设的采集节点收集原始数据,还用于根据所述预设的采集节点对所述原始数据分解为若干个数据包,还用于根据所述预设的采集节点生成与所述若干个数据包相应的序列号;还用于将所述若干个数据包传输至所述合法性判断模块;
所述合法性检测模块用于根据预设的合法性判别规则逐一对所述若干个数据包的数据格式和/或数据来源进行合法性检测,具体为,当数据包的数据格式和数据来源中任意一个条件非法时,则该数据包为非法数据包,当数据包的数据格式和数据来源均为合法时,则判定该数据包为合法数据包,还用于将所述合法数据包传输至所述数据录入模块;
所述数据追踪模块用于接收所述合法性检测模块传输的所述非法数据包,还用于获取所述非法数据包相应的序列号,还用于当所述非法数据包具体为数据格式非法且其数据来源合法时,则获取相应的所述非法数据的数据来源以及序列号;还用于将所述非法数据包传输至所述非法数据存储模块进行存储;还用于将所述非法数据包、及其相应的序列号或数据来源传输至所述报警反馈模块,以便于所述报警反馈模块进行告警以及提供相应的告警信息;
所述数据录入模块用于接收所述合法性检测模块传输的所述合法数据包,还用于将所述合法数据包传输至所述数据清洗模块;
所述数据清洗模块用于接收所述数据录入模块传输的所述合法数据包,还用于对所述合法数据包进行数据清洗;还用于将数据清洗后的所述合法数据包传输至所述数据分类模块;
所述数据分类模块用于基于数据挖掘算法对所述合法数据包进行聚类分析,从而得出分类结果;还用于将所述合法数据包传输至所述数据使用频率检测模块;
所述数据使用频率检测模块用于根据预设的数据使用频率检测规则对所述合法数据包进行检测,得出所述合法数据包的数据使用频率;还用于当所述合法数据包的数据使用频率低于预设使用频率阈值时,则将所述合法数据包传输至所述数据压缩模块;还用于当所述合法数据包的数据使用频率高于预设使用频率阈值时,则将所述合法数据包传输至所述数据写入模块;
所述数据压缩模块用于接收所述数据使用频率检测模块传输的所述合法数据包,还用于对所述合法数据包进行数据压缩,生成合法数据压缩包;还用于将所述合法数据压缩包传输至所述数据写入模块;
所述数据写入模块用于接收所述数据使用频率检测模块和所述数据压缩模块分别传输的所述合法数据包和所述合法数据压缩包,还用于将所述合法数据包和所述合法数据压缩包传输至所述大数据存储模块进行存储。
2.根据权利要求1所述的用于网络大数据的管理系统,其特征在于,所述数据收集模块具体包括:爬虫收集子模块、内网收集子模块和人工输入子模块;
所述爬虫收集子模块用于根据预先定义的抓取主题,通过聚焦网络爬虫对目标浏览器网页进行数据抓取,以获得与所述预先定义的抓取主题相关的原始数据;
所述内网收集子模块用于通过内部网络获取内部数据平台上的原始数据;
所述人工输入子模块用于通过人工录入方式获取用户录入的原始数据。
3.根据权利要求1所述的用于网络大数据的管理系统,其特征在于,所述预设的合法性判别规则具体为通过判断该数据包的数据格式是否为所述大数据存储模块支持的数据格式,若上述判断为是,则该数据包的数据格式为合法,若上述判断为否,则该数据包的数据格式为非法;还通过预设的黑名单IP库判断该数据包的来源IP是否为恶意IP,当上述判断为是,则该数据包的数据来源为非法;当上述判断为否,则该数据包的数据来源为合法。
4.根据权利要求1所述的用于网络大数据的管理系统,其特征在于,所述数据使用频率检测模块具体包括主题提取子模块、数据使用频率检测子模块和数据使用频率判别子模块;
所述主题提取子模块用于根据预设的关键词数据库对所述合法数据包中的数据内容提取关键词;还用于根据预设的关键词-标签数据库匹配所述关键词的标签;还用于根据预设的标签-主题数据库匹配所述标签的主题,所述预设的标签-主题数据库包括标签-主题的映射关系以及每个标签-主题的映射关系的权重;
数据使用频率检测子模块用于根据预设的主题-使用频率数据库匹配所述主题提取子模块匹配出的所述主题的使用频率,所述预设的主题-使用频率数据库包括主题与其在当前的预定时间段内的使用频率的映射关系;
所述数据使用频率判别子模块用于当所述主题的使用频率低于预设使用频率阈值时,则将所述主题对应的所述合法数据包传输至所述数据压缩模块;还用于当所述主题的使用频率高于预设使用频率阈值时,则将所述主题对应的所述合法数据包传输至所述数据写入模块。
5.根据权利要求1所述的用于网络大数据的管理系统,其特征在于,所述数据压缩模块具体利用DEFLATE算法对所述合法数据包进行数据压缩。
6.一种网络大数据的管理方法,其特征在于,包括以下步骤:
S1、根据预设的采集节点收集原始数据后,根据所述预设的采集节点对所述原始数据分解为若干个数据包,还根据所述预设的采集节点生成与所述若干个数据包相应的序列号;
S2、根据预设的合法性判别规则逐一对所述若干个数据包的数据格式和/或数据来源进行合法性检测,具体为,当数据包的数据格式和数据来源中任意一个条件非法时,则该数据包为非法数据包,执行步骤S3~S4;当数据包的数据格式和数据来源均为合法时,则判定该数据包为合法数据包,执行步骤S5;
S3、获取所述非法数据包相应的序列号,当所述非法数据包具体为数据格式非法且其数据来源合法时,则获取相应的所述非法数据的数据来源以及序列号;
S4、存储所述非法数据包,并根据所述非法数据包、及其相应的序列号或数据来源进行告警以及提供相应的告警信息;
S5、对所述合法数据包进行数据清洗;
S6、基于数据挖掘算法对所述合法数据包进行聚类分析,从而得出分类结果;
S7、根据预设的数据使用频率检测规则对所述合法数据包进行检测,得出所述合法数据包的数据使用频率;当所述合法数据包的数据使用频率低于预设使用频率阈值时,则将执行步骤S8;当所述合法数据包的数据使用频率高于预设使用频率阈值时,则将执行步骤S9;
S8、对所述合法数据包进行数据压缩,生成合法数据压缩包,执行步骤S9;
S9、将所述合法数据包和所述合法数据压缩包传输至大数据存储库进行存储。
7.根据权利要求6所述的网络大数据的管理方法,其特征在于,所述步骤S1之前包括以下三种原始数据收集方式,具体为,
A、根据预先定义的抓取主题,通过聚焦网络爬虫对目标浏览器网页进行数据抓取,以获得与所述预先定义的抓取主题相关的原始数据;
B、通过内部网络获取内部数据平台上的原始数据;
C、通过人工录入方式获取用户录入的原始数据。
8.根据权利要求6所述的网络大数据的管理方法,其特征在于,所述步骤S2中的预设的合法性判别规则具体包括:
通过判断该数据包的数据格式是否为所述大数据存储模块支持的数据格式,若上述判断为是,则该数据包的数据格式为合法,若上述判断为否,则该数据包的数据格式为非法;还通过预设的黑名单IP库判断该数据包的来源IP是否为恶意IP,当上述判断为是,则该数据包的数据来源为非法;当上述判断为否,则该数据包的数据来源为合法。
9.根据权利要求6所述的网络大数据的管理方法,其特征在于,所述步骤S7具体包括:
S701、根据预设的关键词数据库对所述合法数据包中的数据内容提取关键词;
S702、根据预设的关键词-标签数据库匹配所述关键词的标签;
S703、根据预设的标签-主题数据库匹配所述标签的主题,所述预设的标签-主题数据库包括标签-主题的映射关系以及每个标签-主题的映射关系的权重;
S704、根据预设的主题-使用频率数据库匹配所述主题的使用频率,所述预设的主题-使用频率数据库包括主题与其在当前的预定时间段内的使用频率的映射关系;
S705、当所述主题的使用频率低于预设使用频率阈值时,则将执行步骤S8;当所述主题的使用频率高于预设使用频率阈值时,则将执行步骤S9。
10.根据权利要求6所述的网络大数据的管理方法,其特征在于,所述步骤S8具体包括:利用DEFLATE算法对所述合法数据包进行数据压缩,生成合法数据压缩包,执行步骤S9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110487888.6A CN112887343B (zh) | 2021-05-06 | 2021-05-06 | 一种用于网络大数据的管理系统及管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110487888.6A CN112887343B (zh) | 2021-05-06 | 2021-05-06 | 一种用于网络大数据的管理系统及管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112887343A CN112887343A (zh) | 2021-06-01 |
CN112887343B true CN112887343B (zh) | 2021-07-02 |
Family
ID=76040285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110487888.6A Active CN112887343B (zh) | 2021-05-06 | 2021-05-06 | 一种用于网络大数据的管理系统及管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112887343B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115514566A (zh) * | 2022-09-22 | 2022-12-23 | 广州大一互联网络科技有限公司 | 一种基于边缘计算的数据管理方法和系统 |
CN117688593B (zh) * | 2024-02-02 | 2024-04-30 | 新汽有限公司 | 一种网络大数据的管理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107003907A (zh) * | 2016-01-26 | 2017-08-01 | 华为技术有限公司 | 一种数据处理方法以及数据处理设备 |
CN108574694A (zh) * | 2018-04-20 | 2018-09-25 | 浙江中控技术股份有限公司 | 一种Modbus TCP安全防护方法及装置 |
US20200311472A1 (en) * | 2019-03-29 | 2020-10-01 | Dell Products L.P. | Comprehensive Data Science Solution for Segmentation Analysis |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7634662B2 (en) * | 2002-11-21 | 2009-12-15 | Monroe David A | Method for incorporating facial recognition technology in a multimedia surveillance system |
-
2021
- 2021-05-06 CN CN202110487888.6A patent/CN112887343B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107003907A (zh) * | 2016-01-26 | 2017-08-01 | 华为技术有限公司 | 一种数据处理方法以及数据处理设备 |
CN108574694A (zh) * | 2018-04-20 | 2018-09-25 | 浙江中控技术股份有限公司 | 一种Modbus TCP安全防护方法及装置 |
US20200311472A1 (en) * | 2019-03-29 | 2020-10-01 | Dell Products L.P. | Comprehensive Data Science Solution for Segmentation Analysis |
Non-Patent Citations (1)
Title |
---|
基于数据挖掘的入侵检测系统设计与实现;刘强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140515(第05期);第I138-2636页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112887343A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
Zhang et al. | Boosting the phishing detection performance by semantic analysis | |
CN112887343B (zh) | 一种用于网络大数据的管理系统及管理方法 | |
Diesner et al. | Using network text analysis to detect the organizational structure of covert networks | |
CN112165462A (zh) | 基于画像的攻击预测方法、装置、电子设备及存储介质 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
Wenyin et al. | Phishing Web page detection | |
CN111538741B (zh) | 一种面向警情大数据的深度学习分析方法及系统 | |
CN107895008B (zh) | 基于大数据平台的情报信息热点发现方法 | |
CN103324886B (zh) | 一种网络攻击检测中指纹库的提取方法和系统 | |
Anoop et al. | Unsupervised concept hierarchy learning: a topic modeling guided approach | |
CN103902619A (zh) | 一种网络舆情监控方法及系统 | |
Sabeeh et al. | Enhancing the fake news detection by applying effective feature selection based on semantic sources | |
CN113297840A (zh) | 恶意流量账号检测方法、装置、设备和存储介质 | |
Wu et al. | Identifying humanitarian information for emergency response by modeling the correlation and independence between text and images | |
KR20210083510A (ko) | 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN111814040B (zh) | 维修案例搜索方法、装置、终端设备及存储介质 | |
CN105243327A (zh) | 一种文件安全处理方法 | |
Yao et al. | Detecting bursty events in collaborative tagging systems | |
Arif et al. | Social network extraction: a review of automatic techniques | |
Breja | A novel approach for novelty detection of web documents | |
Jin et al. | Extracting a social network among entities by web mining | |
KR101005871B1 (ko) | 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법 | |
Acosta et al. | Characterization of disaster related tweets according to its urgency: a pattern recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |