CN117688593A - 一种网络大数据的管理系统 - Google Patents
一种网络大数据的管理系统 Download PDFInfo
- Publication number
- CN117688593A CN117688593A CN202410147761.3A CN202410147761A CN117688593A CN 117688593 A CN117688593 A CN 117688593A CN 202410147761 A CN202410147761 A CN 202410147761A CN 117688593 A CN117688593 A CN 117688593A
- Authority
- CN
- China
- Prior art keywords
- data
- unit
- target
- access
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013500 data storage Methods 0.000 claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 36
- 238000013523 data management Methods 0.000 claims abstract description 22
- 238000007726 management method Methods 0.000 claims abstract description 22
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 230000008521 reorganization Effects 0.000 claims abstract description 5
- 238000012795 verification Methods 0.000 claims description 40
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 9
- 238000013508 migration Methods 0.000 claims description 8
- 230000005012 migration Effects 0.000 claims description 8
- 230000001960 triggered effect Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 53
- 239000003245 coal Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- RHZUVFJBSILHOK-UHFFFAOYSA-N anthracen-1-ylmethanolate Chemical compound C1=CC=C2C=C3C(C[O-])=CC=CC3=CC2=C1 RHZUVFJBSILHOK-UHFFFAOYSA-N 0.000 description 1
- 239000003830 anthracite Substances 0.000 description 1
- 238000004939 coking Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003925 fat Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种网络大数据的管理系统,涉及网络大数据技术领域,包括数据采集模块、筛选模块、数据管理模块和数据存储模块;数据采集模块根据采集窗口监测网络带宽利用率,根据网络带宽利用率确定的目标数据块大小分解原始数据;筛选模块根据筛选规则对数据包进行合法检测;数据管理模块包括重组单元和索引分配单元,根据元数据信息将若干数据块进行重组得到若干目标数据信息;用于根据预设的映射规则生成每个目标数据信息的标签索引;数据存储模块根据标签索引设置存储单元,每个存储单元与一个标签索引和链接地址关联;当设定的接口端接收到访问请求,定位至对应的链接地址。由此,提高大数据存储和访问的安全性,优化存储空间和管理规则。
Description
技术领域
本发明涉及网络大数据技术领域,尤其涉及一种网络大数据的管理系统。
背景技术
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,而大数据则是这个高科技时代的产物。有人说,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技。也有人把数据比喻为蕴藏能量的煤矿,煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据的价值体现在以下几个方面:对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;做小而美模式的中小微企业可以利用大数据做服务转型;面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值,大数据在日常使用中需要对数据进行存储管理。
但是常见的系统在使用时,不能对有害的违法信息进行筛选,使得数据库中混入大量的非法数据,影响大数据存储的正常使用,同时数据分类较为混乱,使用频率低的数据占用的存储空间较大,影响大数据存储空间的利用价值。并且,对于大数据存储空间内的数据并没有具体的管理方式,在用户进行数据访问时,未考虑到安全性问题。
发明内容
本申请通过提供一种网络大数据的管理系统,提高了大数据存储和访问的安全性,优化存储空间和管理规则。
本申请提供了一种网络大数据的管理系统,包括数据采集模块、筛选模块、数据管理模块和数据存储模块;
所述数据采集模块用于根据预设的采集窗口采集原始数据,将原始数据根据目标数据块大小分解为若干个数据块,并赋予每个数据块对应的元数据信息,将数据块和对应的元数据信息封装成数据包,元数据信息包括序列号、采集时间戳、IP地址和数据块内容的哈希值;数据采集模块包括带宽监测单元和数据分解单元,带宽监测单元用于根据预设的采集窗口周期性地监测网络带宽利用率,数据分解单元用于根据网络带宽利用率确定目标数据块大小;所述数据采集模块还用于将若干个数据包传输至筛选模块;
所述筛选模块用于根据预设的筛选规则对若干个数据包进行合法性检测,当数据包的数据格式、IP地址和哈希值均合法时,则该数据包为合法数据包;当数据包的数据格式、IP地址和哈希值中任意一个条件非法时,则该数据包为非法数据包;筛选模块还用于将合法数据包传输至数据管理模块;
数据管理模块包括重组单元和索引分配单元,重组单元用于获取采集窗口内的所有合法数据包,提取每个合法数据包中的数据块和元数据信息,根据元数据信息将若干数据块进行重组,得到若干目标数据信息;索引分配单元用于根据预设的映射规则生成每个目标数据信息的标签索引,标签索引包括第一层标签和第二层标签,其中,预设的映射规则由预设的关键词与标签数据库、标签与主题数据库的匹配关系生成;数据管理模块还用于将目标数据信息和对应的标签索引传输至数据存储模块;
数据存储模块用于根据标签索引设置若干存储单元,每个存储单元与一个标签索引相关联,每个存储单元都被赋予一个链接地址,链接地址与标签索引呈现一对一的关系;数据存储模块还设置有设定的接口端,当设定的接口端接收到访问请求时,快速定位至对应的链接地址,其中,访问请求包括标签索引和用户信息。
优选地,所述数据分解单元根据网络带宽利用率确定目标数据块大小,包括:
定义基础数据块大小,根据检测到的带宽利用率确定调整系数,目标数据块大小为基础数据块大小与调整系数的乘积;
当检测到带宽利用率在预设区间内时,确定调整系数为1;
当检测到带宽利用率小于预设区间的下限时,确定调整系数为1.5;
当检测到带宽利用率大于预设区间的上限时,确定调整系数为0.7;
当目标数据块大小超过最大值时,将最大值确定为目标数据块大小;当目标数据块小于最小值时,将最小值确定为目标数据块大小;
所述数据分解单元还用于根据目标数据块大小和原始数据大小,在预设的采集时间窗口将原始数据分解为若干个数据块。
优选地,所述筛选模块包括访问控制列表和数据格式列表,访问控制列表由若干个允许进行数据交互的IP地址组成,数据格式列表由若干个符合数据传输要求的数据格式组成。
优选地,所述筛选模块用于检测数据包的IP地址是否存在于访问控制列表中,若存在,则IP地址合法,否则,IP地址非法;所述筛选模块还用于将数据包的数据格式与数据格式列表进行比对,判断数据格式是否合法;所述筛选模块还包括校验模块,校验模块用于通过哈希函数对数据包进行校验,计算数据包中数据块内容的目标哈希值,将目标哈希值与元数据信息中的哈希值进行比较,若一致,则哈希值合法,否则,哈希值非法。
优选地,所述索引分配单元根据预设的映射规则生成每个目标数据信息的标签索引,包括:
对目标数据信息进行关键词提取,根据预设的关键词与标签数据库的匹配关系,确定目标数据信息的第二层标签;
基于目标数据信息的第二层标签,根据预设的标签与主题数据库的匹配关系,确定目标数据信息的第一层标签;
根据目标数据信息的第一层标签和第二层标签,生成目标数据信息的标签索引,标签索引与目标数据信息呈现一对多或一对一的关系。
优选地,所述数据存储模块还用于将所有的存储单元根据动态迁移机制分别分配至第一空间和第二空间,动态迁移机制包括:
统计所有存储单元在目标时间内的访问次数,得到每个存储单元在目标时间内的访问频率;
根据每个存储单元对应的标签索引在预设场景中的重要程度,为每个存储单元赋予等级分值;
当存储单元的访问频率大于频率阈值且存储单元的等级分值大于分值阈值时,将存储单元迁移至第一空间,否则,将存储单元迁移至第二空间。
优选地,所述第二空间配置有安全验证单元,当安全验证单元被触发时,安全验证单元用于根据安全验证方式进行访问权限的二次验证,安全验证方式包括密码验证、短信验证中的任意一种;
所述第二空间还配置有压缩单元,用于分别将迁移至第二空间的存储单元内的目标数据信息进行压缩存储。
优选地,所述访问控制列表还包括具备访问权限的用户信息,并且每个用户信息都设置有相应的访问权限等级;
所述数据存储模块的接口端还设置有审核单元和判断单元,审核单元用于调取筛选模块的访问控制列表,判断访问请求中的用户信息是否具备访问权限;审核单元还用于根据用户信息的访问权限等级和访问请求中标签索引对应的存储单元的等级分值,得到访问权限匹配度;审核单元还用于将访问权限匹配度发送至判断单元;
判断单元用于根据接收到的访问权限匹配度,判断访问请求中的用户信息是否满足访问请求中标签索引对应的存储单元的要求,包括:
当访问请求中标签索引对应的存储单元位于第一空间时,若访问权限匹配度大于第一阈值,则直接根据标签索引对应的链接地址定位至存储单元内的目标数据信息;
当访问请求中标签索引对应的存储单元位于第二空间时,若访问权限匹配度为5时,则触发第二空间配置的安全验证单元,若通过验证,则直接根据标签索引对应的链接地址定位至存储单元内的目标数据信息;
当访问请求中标签索引对应的存储单元位于第二空间时,若访问权限匹配度为10,则直接根据标签索引对应的链接地址定位至存储单元内的目标数据信息;
否则,向发送访问请求的端口发送警告信息。
优选地,所述审核单元根据用户信息的访问权限等级和访问请求中标签索引对应的存储单元的等级分值,得到访问权限匹配度,包括:
若访问请求中的用户信息在访问控制列表中未匹配成功,则确定访问权限匹配度为0;
若访问请求中的用户信息具备访问权限,且访问权限等级与标签索引对应的等级分值之差在第一安全阈值内,则确定访问权限匹配度为5;
若访问请求中的用户信息具备访问权限,且访问权限等级与标签索引对应的等级分值之差在第二安全阈值内,则确定访问权限匹配度为10;
其中,第一安全阈值大于第二安全阈值。
优选地,所述数据存储模块的接口端还包括调整单元,当发送访问请求的端口具备访问权限且接收到警告信息时,触发调整单元,调整单元用于:
生成目标标签索引,目标标签索引由访问请求中的标签索引的第二层标签确定,在第一层标签的基础上,匹配与第二层标签相关度满足相关阈值的目标第二层标签,根据目标第二层标签和第一层标签,生成目标标签索引;
将目标标签索引传输至判断单元,直至在判断单元中,目标标签索引与发送访问请求的用户信息生成的目标访问权限匹配度满足预设的阈值时,停止调整单元的触发。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过数据采集模块将原始数据分解为若干数据块,并赋予数据块元数据信息,确保数据块的时序性和唯一性,在每个采集窗口中根据网络带宽利用率动态调整数据块大小,有效适应了网络环境的变化,这种自适应机制优化了数据传输性能,保证了数据块大小的合理性和网络的稳定性;通过筛选模块对数据进行多重合法性检测,包括数据格式、IP地址和哈希值,有效过滤了非法数据,保证了数据的安全性和准确性。
通过重组单元将数据块重组为目标数据信息,并通过索引分配单元为每个目标数据信息生成标签索引,根据标签索引设置存储单元,并赋予每个存储单元一个链接地址,通过设定的接口端输入相应的标签索引,即可快速定位至与标签索引对应的链接地址;通过数据存储模块设置的动态迁移机制,利用存储单元对应的访问频率和重要程度,合理分配第一空间和第二空间内的存储单元,并基于第一空间和第二空间不同的存储方式,优化数据存储模块的数据信息的管理,减少空间拥堵和资源浪费。
在数据存储模块的接口端设置判断单元和审核单元,确保只有具备访问权限的用户才能查阅数据内容,并且针对不同访问权限等级的用户提供不同的访问方式,增强系统管理的安全性和有序性;通过引入调整单元,并与判断单元结合,生成目标标签索引,数据存储模块能够为用户提供与其访问权限更匹配的数据内容,不仅提高了数据存储模块的灵活性,还增强了数据的安全性和场景的适应性。
附图说明
图1为本发明网络大数据的管理系统的结构示意图;
图2为本发明网络大数据的管理系统的数据存储模块的结构示意图;
图3为本发明一个实施例的数据存储模块的结构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本申请进行更全面的描述;附图中给出了本发明的较佳实施方式,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式;相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。
需要说明的是,本文所使用的术语“垂直”、“水平”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明;本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
图1是本发明实施例的一种网络大数据的管理系统的结构示意图。
如图1所示,网络大数据的管理系统包括:数据采集模块、筛选模块、数据管理模块和数据存储模块。
一些实施例中,数据采集模块用于根据预设的采集窗口采集原始数据,将原始数据分解为若干个数据块,并赋予每个数据块对应的元数据信息,元数据信息包括序列号、采集时间戳、IP地址和数据块内容的哈希值,将数据块和对应的元数据信息封装成数据包;数据采集模块还用于将若干个数据包传输至筛选模块。
具体而言,通过设定的采集窗口采集原始数据,其相邻的采集窗口之间存在采集时延,而在每个采集窗口所收集的原始数据的数据内容均分解为若干个数据块,从而既可以减轻传输压力,每个数据块包括不同的数据内容,也可以提高后续的合法性检测和使用频率检测的精度。
由于预设的采集窗口具有时序性,所以,根据采集窗口生成每个采集窗口对应的数据块的序列号,序列号与数据块呈现一对一的关系,使得数据块具备唯一性。
一些实施例中,数据采集模块包括带宽监测单元和数据分解单元。具体而言,带宽监测单元用于根据预设的采集窗口周期性地监测网络带宽利用率;数据分解单元用于根据网络带宽利用率确定目标数据块大小,具体包括:
A1、定义基础数据块大小,根据检测到的带宽利用率确定调整系数,目标数据块大小为基础数据块大小与调整系数的乘积;
A2、当检测到带宽利用率在预设区间内时,确定调整系数为1;
A3、当检测到带宽利用率小于预设区间的下限时,确定调整系数为1.5;
A4、当检测到带宽利用率大于预设区间的上限时时,确定调整系数为0.7;
A5、当目标数据块大小超过最大值时,将最大值确定为目标数据块大小;当目标数据块小于最小值时,将最小值确定为目标数据块大小。
其中,预设区间可以根据实际的数据大小进行设置,在本发明实施例中,预设区间设置为[50%,80%],并且通过设置数据块大小的最大值和最小值,保证了数据块大小的合理性和网络的稳定性。
进一步地,数据分解单元还用于根据目标数据块大小和原始数据大小,在预设的采集时间窗口将原始数据分解为若干个数据块。
一些实施例中,筛选模块用于根据预设的筛选规则逐一对若干个数据包进行合法性检测。具体而言,预设的筛选规则具体包括:
B1、当数据包的数据格式、IP地址和哈希值均合法时,则该数据包为合法数据包;
B2、当数据包的数据格式、IP地址和哈希值中任意一个条件非法时,则该数据包为非法数据包。
其中,筛选模块包括访问控制列表和数据格式列表,访问控制列表由若干个允许进行数据交互的IP地址组成,筛选模块用于检测数据包的IP地址是否存在于访问控制列表中,若存在,则IP地址合法,否则,IP地址非法;筛选模块还用于将数据包的数据格式与预设的数据格式列表进行比对,判断数据格式是否合法。筛选模块还包括校验模块,校验模块用于通过哈希函数对数据包进行校验,计算数据包中数据块内容的目标哈希值,将目标哈希值与元数据信息中的哈希值进行比较,若一致,则哈希值合法,否则,哈希值非法。
一些实施例中,网络大数据的管理系统还包括隔离模块,隔离模块用于对非法数据包进行处理分析。
筛选模块还用于将合法数据包传输至数据管理模块,将非法数据传输至隔离模块。
一些实施例中,数据管理模块包括重组单元,重组单元用于获取采集窗口内的所有合法数据包,提取每个合法数据包中的数据块和元数据信息,根据元数据信息将若干数据块进行重组,得到若干目标数据信息。
数据管理模块还包括索引分配单元,索引分配单元用于根据预设的映射规则生成每个目标数据信息的标签索引,标签索引包括第一层标签和第二层标签。其中,预设的映射规则由预设的关键词与标签数据库、标签与主题数据库的匹配关系生成。索引分配单元根据预设的映射规则生成每个目标数据信息的标签索引,具体包括:
C1、对目标数据信息进行关键词提取,根据预设的关键词与标签数据库的匹配关系,确定目标数据信息的第二层标签;
C2、基于目标数据信息的第二层标签,根据预设的标签与主题数据库的匹配关系,确定目标数据信息的第一层标签;
C3、根据目标数据信息的第一层标签和第二层标签,生成目标数据信息的标签索引,标签索引与目标数据信息呈现一对多或一对一的关系。
具体而言,索引分配单元通过预设的映射规则连接有标签索引池,标签索引池由关键词-标签数据库、标签-主题数据库构成,每个标签对应一个或多个关键词,每个主题对应一个或多个标签。
由于单个标签可能不足以确定一个具体的主题,所以在上述步骤C1中,第二层标签由若干个子标签组成,具体包括:
遍历目标数据信息中的关键词,每个关键词都会匹配至对应的标签下,统计每个标签下匹配到的关键词数量;
将关键词数量大于匹配阈值的标签作为子标签;
若干个子标签组合成为第二层标签。
作为一个示例,在一个目标数据信息中,符合匹配阈值的关键词对应的标签分别为“电力”、“营销”、“年度报告”和“2023年”,所以,第二层标签为“电力营销年度报告2023年”,进一步地,根据第二层标签匹配到主题为“电力报告”,将第一层标签和第二层标签组合,生成该目标数据信息对应的标签索引“电力报告-电力营销年度报告2023年”。
数据管理模块还用于将目标数据信息和对应的标签索引传输至数据存储模块。
一些实施例中,数据存储模块用于根据标签索引设置若干存储单元,每个存储单元与一个标签索引相关联,每个存储单元都被赋予一个链接地址,链接地址与标签索引呈现一对一的关系。数据存储模块还设置有设定的接口端,当设定的接口端接收到访问请求时,快速定位至对应的链接地址。其中,访问请求包括标签索引和用户信息。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
将原始数据分解为若干数据块,并赋予数据块元数据信息,确保数据块的时序性和唯一性,在每个采集窗口中根据网络带宽利用率动态调整数据块大小,有效适应了网络环境的变化,这种自适应机制优化了数据传输性能,保证了数据块大小的合理性和网络的稳定性。
通过预设的筛选规则对数据进行多重合法性检测,包括数据格式、IP地址和哈希值,有效过滤了非法数据,保证了数据的安全性和准确性。筛选模块设置有访问控制列表、数据格式列表和校验模块,实现了对数据的快速、准确筛选,提高了数据处理效率。
通过重组单元将数据块重组为目标数据信息,并通过索引分配单元为每个目标数据信息生成标签索引,根据标签索引设置存储单元,并赋予每个存储单元一个链接地址,通过设定的接口端输入相应的标签索引,即可快速定位至与标签索引对应的链接地址,获取所需的数据信息,为用户提供了便捷的数据访问方式,不仅有助于数据的组织和管理,还能提高数据检索的效率和准确性。
实施例二
在实施例一中,数据存储模块根据标签索引设置若干个存储单元,用以存储与标签索引关联的目标数据信息,但是并未考虑到不同的目标数据信息存在不同的安全等级,或者,不同的目标数据信息对于访问的频率也有所不同,针对该问题,可能会造成数据存储模块的空间拥堵或者资源浪费,并不能合理利用存储空间,并且所有的目标数据信息都设置有同样等级的存储位置,并无明显区别,并不有利于对数据信息的管理。
一般情况下,对于访问频率较少的目标数据信息,可能是因为目标数据信息不重要或者只有特定的用户才会需要查阅该目标数据信息,所以,对于这种类型的目标数据信息,数据存储模块并没有对其进行针对性管理。
一些实施例中,数据存储模块还用于将所有的存储单元根据动态迁移机制分别分配至第一空间和第二空间。
具体而言,动态迁移机制包括:
D1、统计所有存储单元在目标时间内的访问次数,得到每个存储单元在目标时间内的访问频率,目标时间设置为一个月,目标时间可以根据具体的应用场景进行调整。
具体而言,访问次数除以目标时间,得到访问频率。
D2、根据每个存储单元对应的标签索引在预设场景中的重要程度,为每个存储单元赋予等级分值。
具体而言,根据预设场景为标签索引设置等级分值,例如,若应用在某公司的数据中心,与财务报表相关的标签索引具备更高的等级,可以赋予等级分值8分。
具体包括:
为索引标签设置基础分值,该基础分值表示重要程度的平均水平;
为每个预设场景分别设置权重值,权重值依据预设场景的重要程度进行设置;
将索引标签的基础分值与对应的权重值相乘,得到索引标签的等级分值。
举例而言,索引标签的基础分值为5分,假设索引标签对应的预设场景与“财务”有关,由于“财务”在企业内的重要程度较高,权重值赋予1.5,所以,索引标签的等级分值为7.5分。
D3、当存储单元的访问频率大于频率阈值且存储单元的等级分值大于分值阈值时,将存储单元迁移至第一空间,否则,将存储单元迁移至第二空间。其中,频率阈值和分值阈值根据实际情况进行具体设置。
一些实施例中,筛选模块中的访问控制列表还包括具备访问权限的用户信息,并且每个用户信息都设置有相应的访问权限等级。
一些实施例中,如图2所示,第二空间配置有安全验证单元,当安全验证单元被触发时,安全验证单元用于进行访问权限的二次验证,安全验证方式包括密码验证、短信验证中的任意一种。
第二空间还配置有压缩单元,用于分别将迁移至第二空间的存储单元内的目标数据信息进行压缩存储。
数据存储模块的接口端还设置有审核单元,审核单元用于调取筛选模块的访问控制列表,判断访问请求中的用户信息是否具备访问权限。
审核单元还用于根据用户信息的访问权限等级和访问请求中标签索引对应的存储单元的等级分值,得到访问权限匹配度。审核单元还用于将访问权限匹配度发送至判断单元。
其中,根据用户信息的访问权限等级和访问请求中标签索引对应的存储单元的等级分值,得到访问权限匹配度,具体包括:
S11,若访问请求中的用户信息在访问控制列表中未匹配成功,则确定访问权限匹配度为0;
S12,若访问请求中的用户信息具备访问权限,且访问权限等级与标签索引对应的等级分值之差在第一安全阈值内,则确定访问权限匹配度为5;
S13,若访问请求中的用户信息具备访问权限,且访问权限等级与标签索引对应的等级分值之差在第二安全阈值内,则确定访问权限匹配度为10。其中,第一安全阈值大于第二安全阈值。
数据存储模块的接口端还设置有判断单元,判断单元用于根据接收到的访问权限匹配度,判断访问请求中的用户信息是否满足访问该访问请求中标签索引对应的存储单元的要求。判断单元具体用于:
S21,当访问请求中标签索引对应的存储单元位于第一空间时,若访问权限匹配度大于第一阈值,则直接根据标签索引对应的链接地址定位至存储单元内的目标数据信息;
其中,第一阈值设置为0。
S22,当访问请求中标签索引对应的存储单元位于第二空间时,若访问权限匹配度为5时,则触发第二空间配置的安全验证单元,若通过验证,则直接根据标签索引对应的链接地址定位至存储单元内的目标数据信息;
S23,当访问请求中标签索引对应的存储单元位于第二空间时,若访问权限匹配度为10,则直接根据标签索引对应的链接地址定位至存储单元内的目标数据信息;
S24,否则,向发送访问请求的端口发送警告信息。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
通过数据存储模块设置的动态迁移机制,利用存储单元对应的访问频率和重要程度,合理分配第一空间和第二空间内的存储单元,并基于第一空间和第二空间不同的存储方式,优化数据存储模块的数据信息的管理,减少空间拥堵和资源浪费。
在数据存储模块的接口端设置判断单元和审核单元,确保只有具备访问权限的用户才能查阅数据内容,并且针对不同访问权限等级的用户提供不同的访问方式,增强系统管理的安全性和有序性。
实施例三
在实施例二中,发送访问请求中的用户信息具备访问权限时,如果由于其访问权限匹配度并未达到预设的阈值要求,则被发送警告信息,但是数据存储模块对于接收到的访问请求并未有一个具体的解决方法,当应用场景为某个企业时,某个员工具备访问权限,由于自身的职位等级导致访问权限匹配度并未达到预设的阈值要求,但是该员工可能急需与访问请求中标签索引相关的数据内容进行工作的开展,那么数据存储模块在该企业中的管理方式并未考虑到标签索引的灵活性问题。
一些实施例中,如图3所示,数据存储模块的接口端还包括调整单元,当发送访问请求的端口具备访问权限且接收到警告信息时,触发调整单元,调整单元用于:
S31,生成目标标签索引,目标标签索引由访问请求中的标签索引的第二层标签确定,具体而言,在第一层标签的基础上,匹配与第二层标签相关度满足相关阈值的目标第二层标签,根据目标第二层标签和第一层标签,生成目标标签索引;
S32,将目标标签索引传输至判断单元,直至在判断单元中,目标标签索引与发送访问请求的用户信息生成的目标访问权限匹配度满足预设的阈值时,停止调整单元的触发。
作为一个示例,某大型跨国企业,拥有庞大的数据管理系统,其中存储了财务、人力资源、市场、研发等多个部门的关键数据,这些数据根据访问频率和重要程度,通过标签索引分别划分至第一空间和第二空间进行管理,并且员工根据职位和工作需要被赋予不同的访问权限等级。数据存储模块中存储单元对应的标签索引赋予等级分值,位于第二空间内的存储单元具备更高的等级分值。
某个员工是该企业市场部门的一名初级经理,他具备初级访问权限,赋予的访问权限等级为初级,对应的等级分值为4分。该员工急需访问一份关于“2023年第四季度市场分析报告”的数据,对应的标签索引为“市场-2023年第四季度市场分析报告”,所在的存储单元的等级分值为9分,访问权限等级与标签索引对应的等级分值之差为5,第一安全阈值为[3,4],第二安全阈值为[1,2],由于该员工的访问权限等级与标签索引对应的等级分值之差不在第一安全阈值内,则确定访问权限匹配度为0,向发送访问请求的端口发送警告信息,触发调整单元。
调整单元首先识别该员工访问请求中的第一层标签“市场”,然后在其权限范围内寻找与第二层标签“去年第四季度市场分析报告”相关度满足阈值的目标第二层标签。
经过匹配,调整单元匹配到“今年第一季度市场概况”这个目标标签索引与该员工的访问请求相关度较高,生成新的目标标签索引“市场-今年第一季度市场概况”,并将其传输至判断单元。
判断单元重新计算该员工的访问权限匹配度,目标标签索引所在的存储单元的等级分值为7,访问权限等级与标签索引对应的等级分值之差为3,在第一安全阈值内,确定访问权限匹配度为5,触发第二空间配置的安全验证单元,若通过验证,则直接根据目标标签索引对应的链接地址定位至存储单元内的目标数据信息。
由此,该员工虽然没能直接访问到原始请求的数据,但获得了与其工作需求高度相关的替代数据,从而顺利完成了工作。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
通过引入调整单元,并与判断单元结合,不仅提高了数据存储模块的灵活性,还增强了数据的安全性和场景的适应性,提高了数据访问的灵活性,通过生成目标标签索引,数据存储模块能够为用户提供与其访问权限更匹配的数据内容。
以上所述仅为本发明的优选实施方式,并不用于限制本发明,对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明精神和原则内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种网络大数据的管理系统,其特征在于,包括数据采集模块、筛选模块、数据管理模块和数据存储模块;
所述数据采集模块用于根据预设的采集窗口采集原始数据,将原始数据根据目标数据块大小分解为若干个数据块,并赋予每个数据块对应的元数据信息,将数据块和对应的元数据信息封装成数据包,元数据信息包括序列号、采集时间戳、IP地址和数据块内容的哈希值;数据采集模块包括带宽监测单元和数据分解单元,带宽监测单元用于根据预设的采集窗口周期性地监测网络带宽利用率,数据分解单元用于根据网络带宽利用率确定目标数据块大小;所述数据采集模块还用于将若干个数据包传输至筛选模块;
所述筛选模块用于根据预设的筛选规则对若干个数据包进行合法性检测,当数据包的数据格式、IP地址和哈希值均合法时,则该数据包为合法数据包;当数据包的数据格式、IP地址和哈希值中任意一个条件非法时,则该数据包为非法数据包;筛选模块还用于将合法数据包传输至数据管理模块;
数据管理模块包括重组单元和索引分配单元,重组单元用于获取采集窗口内的所有合法数据包,提取每个合法数据包中的数据块和元数据信息,根据元数据信息将若干数据块进行重组,得到若干目标数据信息;索引分配单元用于根据预设的映射规则生成每个目标数据信息的标签索引,标签索引包括第一层标签和第二层标签,其中,预设的映射规则由预设的关键词与标签数据库、标签与主题数据库的匹配关系生成;数据管理模块还用于将目标数据信息和对应的标签索引传输至数据存储模块;
数据存储模块用于根据标签索引设置若干存储单元,每个存储单元与一个标签索引相关联,每个存储单元都被赋予一个链接地址,链接地址与标签索引呈现一对一的关系;数据存储模块还设置有设定的接口端,当设定的接口端接收到访问请求时,快速定位至对应的链接地址,其中,访问请求包括标签索引和用户信息。
2.如权利要求1所述的网络大数据的管理系统,其特征在于,所述数据分解单元根据网络带宽利用率确定目标数据块大小,包括:
定义基础数据块大小,根据检测到的带宽利用率确定调整系数,目标数据块大小为基础数据块大小与调整系数的乘积;
当检测到带宽利用率在预设区间内时,确定调整系数为1;
当检测到带宽利用率小于预设区间的下限时,确定调整系数为1.5;
当检测到带宽利用率大于预设区间的上限时,确定调整系数为0.7;
当目标数据块大小超过最大值时,将最大值确定为目标数据块大小;当目标数据块小于最小值时,将最小值确定为目标数据块大小;
所述数据分解单元还用于根据目标数据块大小和原始数据大小,在预设的采集时间窗口将原始数据分解为若干个数据块。
3.如权利要求1所述的网络大数据的管理系统,其特征在于,所述筛选模块包括访问控制列表和数据格式列表,访问控制列表由若干个允许进行数据交互的IP地址组成,数据格式列表由若干个符合数据传输要求的数据格式组成。
4.如权利要求3所述的网络大数据的管理系统,其特征在于,所述筛选模块用于检测数据包的IP地址是否存在于访问控制列表中,若存在,则IP地址合法,否则,IP地址非法;所述筛选模块还用于将数据包的数据格式与数据格式列表进行比对,判断数据格式是否合法;所述筛选模块还包括校验模块,校验模块用于通过哈希函数对数据包进行校验,计算数据包中数据块内容的目标哈希值,将目标哈希值与元数据信息中的哈希值进行比较,若一致,则哈希值合法,否则,哈希值非法。
5.如权利要求1所述的网络大数据的管理系统,其特征在于,所述索引分配单元根据预设的映射规则生成每个目标数据信息的标签索引,包括:
对目标数据信息进行关键词提取,根据预设的关键词与标签数据库的匹配关系,确定目标数据信息的第二层标签;
基于目标数据信息的第二层标签,根据预设的标签与主题数据库的匹配关系,确定目标数据信息的第一层标签;
根据目标数据信息的第一层标签和第二层标签,生成目标数据信息的标签索引,标签索引与目标数据信息呈现一对多或一对一的关系。
6.如权利要求3所述的网络大数据的管理系统,其特征在于,所述数据存储模块还用于将所有的存储单元根据动态迁移机制分别分配至第一空间和第二空间,动态迁移机制包括:
统计所有存储单元在目标时间内的访问次数,得到每个存储单元在目标时间内的访问频率;
根据每个存储单元对应的标签索引在预设场景中的重要程度,为每个存储单元赋予等级分值;
当存储单元的访问频率大于频率阈值且存储单元的等级分值大于分值阈值时,将存储单元迁移至第一空间,否则,将存储单元迁移至第二空间。
7.如权利要求6所述的网络大数据的管理系统,其特征在于,所述第二空间配置有安全验证单元,当安全验证单元被触发时,安全验证单元用于根据安全验证方式进行访问权限的二次验证,安全验证方式包括密码验证、短信验证中的任意一种;
所述第二空间还配置有压缩单元,用于分别将迁移至第二空间的存储单元内的目标数据信息进行压缩存储。
8.如权利要求3或7所述的网络大数据的管理系统,其特征在于,所述访问控制列表还包括具备访问权限的用户信息,并且每个用户信息都设置有相应的访问权限等级;
所述数据存储模块的接口端还设置有审核单元和判断单元,审核单元用于调取筛选模块的访问控制列表,判断访问请求中的用户信息是否具备访问权限;审核单元还用于根据用户信息的访问权限等级和访问请求中标签索引对应的存储单元的等级分值,得到访问权限匹配度;审核单元还用于将访问权限匹配度发送至判断单元;
判断单元用于根据接收到的访问权限匹配度,判断访问请求中的用户信息是否满足访问请求中标签索引对应的存储单元的要求,包括:
当访问请求中标签索引对应的存储单元位于第一空间时,若访问权限匹配度大于第一阈值,则直接根据标签索引对应的链接地址定位至存储单元内的目标数据信息;
当访问请求中标签索引对应的存储单元位于第二空间时,若访问权限匹配度为5时,则触发第二空间配置的安全验证单元,若通过验证,则直接根据标签索引对应的链接地址定位至存储单元内的目标数据信息;
当访问请求中标签索引对应的存储单元位于第二空间时,若访问权限匹配度为10,则直接根据标签索引对应的链接地址定位至存储单元内的目标数据信息;
否则,向发送访问请求的端口发送警告信息。
9.如权利要求8所述的网络大数据的管理系统,其特征在于,所述审核单元根据用户信息的访问权限等级和访问请求中标签索引对应的存储单元的等级分值,得到访问权限匹配度,包括:
若访问请求中的用户信息在访问控制列表中未匹配成功,则确定访问权限匹配度为0;
若访问请求中的用户信息具备访问权限,且访问权限等级与标签索引对应的等级分值之差在第一安全阈值内,则确定访问权限匹配度为5;
若访问请求中的用户信息具备访问权限,且访问权限等级与标签索引对应的等级分值之差在第二安全阈值内,则确定访问权限匹配度为10;
其中,第一安全阈值大于第二安全阈值。
10.如权利要求9所述的网络大数据的管理系统,其特征在于,所述数据存储模块的接口端还包括调整单元,当发送访问请求的端口具备访问权限且接收到警告信息时,触发调整单元,调整单元用于:
生成目标标签索引,目标标签索引由访问请求中的标签索引的第二层标签确定,在第一层标签的基础上,匹配与第二层标签相关度满足相关阈值的目标第二层标签,根据目标第二层标签和第一层标签,生成目标标签索引;
将目标标签索引传输至判断单元,直至在判断单元中,目标标签索引与发送访问请求的用户信息生成的目标访问权限匹配度满足预设的阈值时,判断单元向调整单元发送停止触发的信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410147761.3A CN117688593B (zh) | 2024-02-02 | 2024-02-02 | 一种网络大数据的管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410147761.3A CN117688593B (zh) | 2024-02-02 | 2024-02-02 | 一种网络大数据的管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117688593A true CN117688593A (zh) | 2024-03-12 |
CN117688593B CN117688593B (zh) | 2024-04-30 |
Family
ID=90128535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410147761.3A Active CN117688593B (zh) | 2024-02-02 | 2024-02-02 | 一种网络大数据的管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688593B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108809514A (zh) * | 2018-04-23 | 2018-11-13 | 华为技术有限公司 | 一种数据传输方法及相关设备 |
CN110188080A (zh) * | 2019-05-17 | 2019-08-30 | 北京航空航天大学 | 基于客户端高效缓存的远程文件数据访问性能优化方法 |
CN110943979A (zh) * | 2019-11-19 | 2020-03-31 | 普联技术有限公司 | Sdn网络攻击检测方法、装置、设备和系统 |
US20210034776A1 (en) * | 2019-07-31 | 2021-02-04 | JFrog Ltd. | Metadata storage architecture and data aggregation |
CN112887343A (zh) * | 2021-05-06 | 2021-06-01 | 广东电网有限责任公司佛山供电局 | 一种用于网络大数据的管理系统及管理方法 |
CN114911917A (zh) * | 2022-07-13 | 2022-08-16 | 树根互联股份有限公司 | 资产元信息搜索方法、装置、计算机设备及可读存储介质 |
CN115694799A (zh) * | 2022-10-18 | 2023-02-03 | 安徽超视野智能科技有限公司 | 一种基于量子密钥的通信数据加密方法 |
CN116318785A (zh) * | 2022-12-07 | 2023-06-23 | 岭南师范学院 | 一种伪造攻击流量的识别方法及系统 |
US11722490B1 (en) * | 2022-07-11 | 2023-08-08 | Chengdu University Of Information Technology | Data access processing method for industrial internet cloud service platform |
-
2024
- 2024-02-02 CN CN202410147761.3A patent/CN117688593B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108809514A (zh) * | 2018-04-23 | 2018-11-13 | 华为技术有限公司 | 一种数据传输方法及相关设备 |
CN110188080A (zh) * | 2019-05-17 | 2019-08-30 | 北京航空航天大学 | 基于客户端高效缓存的远程文件数据访问性能优化方法 |
US20210034776A1 (en) * | 2019-07-31 | 2021-02-04 | JFrog Ltd. | Metadata storage architecture and data aggregation |
CN110943979A (zh) * | 2019-11-19 | 2020-03-31 | 普联技术有限公司 | Sdn网络攻击检测方法、装置、设备和系统 |
CN112887343A (zh) * | 2021-05-06 | 2021-06-01 | 广东电网有限责任公司佛山供电局 | 一种用于网络大数据的管理系统及管理方法 |
US11722490B1 (en) * | 2022-07-11 | 2023-08-08 | Chengdu University Of Information Technology | Data access processing method for industrial internet cloud service platform |
CN114911917A (zh) * | 2022-07-13 | 2022-08-16 | 树根互联股份有限公司 | 资产元信息搜索方法、装置、计算机设备及可读存储介质 |
CN115694799A (zh) * | 2022-10-18 | 2023-02-03 | 安徽超视野智能科技有限公司 | 一种基于量子密钥的通信数据加密方法 |
CN116318785A (zh) * | 2022-12-07 | 2023-06-23 | 岭南师范学院 | 一种伪造攻击流量的识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117688593B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778253A (zh) | 基于大数据的威胁情景感知信息安全主动防御模型 | |
CN100555954C (zh) | 一种实现用户上网行为审计的方法及系统 | |
CN112632129B (zh) | 一种码流数据管理方法、装置及存储介质 | |
CN105354251B (zh) | 电力系统中基于Hadoop的电力云数据管理索引方法 | |
CN106095575B (zh) | 一种日志审计的装置、系统和方法 | |
US9123006B2 (en) | Techniques for parallel business intelligence evaluation and management | |
CN111552570B (zh) | 物联网数据处理资源的自适应分配方法及云计算服务器 | |
CN110795756A (zh) | 一种数据脱敏方法、装置、计算机设备及计算机可读存储介质 | |
CN102833111B (zh) | 一种可视化http数据监管方法及装置 | |
CN114140082B (zh) | 企业内容管理系统 | |
KR20210083936A (ko) | 사이버 위협정보 수집 시스템 | |
CN116578586B (zh) | 一种基于大数据的动态数据查询系统 | |
CN115080546B (zh) | 一种基于大数据的企业数据诊断系统 | |
CN114218318B (zh) | 一种用于电力大数据的数据处理系统及方法 | |
CN111931239A (zh) | 一种数据库安全防护用数据防泄漏系统 | |
CN112699182A (zh) | 一种工程造价数据管理系统 | |
CN111008234A (zh) | 基于网络安全数据治理的数仓处理方法 | |
CN117688593B (zh) | 一种网络大数据的管理系统 | |
CN113364758B (zh) | 一种基于堡垒机的网络安全运维管理系统 | |
CN112887343B (zh) | 一种用于网络大数据的管理系统及管理方法 | |
CN117614693A (zh) | 一种基于行为流量的云内安全威胁检测方法 | |
CN116257190B (zh) | 一种基于区块链的数据监管系统 | |
CN112769755A (zh) | 一种面向威胁检测的dns日志统计特征抽取方法 | |
CN111078783A (zh) | 一种基于监管保护的数据治理可视化方法 | |
CN114817489A (zh) | 基于大数据的教育材料储存与查询管理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |