一种基于大数据的子网安全性评估方法
技术领域
本发明涉及大数据和云计算等技术领域,尤其涉及一种大数据的子网安全性评估方法。
背景技术
大数据、云计算、分布式网络等概念代表了当今互联网信息技术革命的最新热点和发展方向。大数据是继云计算、物联网之后IT行业又一大颠覆性的技术革命。如今我国大数据产业已经具备了良好的发展基础,面临着难得的发展机遇。如今,随着大数据的迅猛发展,大数据网络的规模已经远远超越了现有网络架构和基础设施的承载能力,网络实时性要求也大大超越了现有的计算能力;且大数据网络中存储的数据往往都是PB级别的,对于这种海量数据的运行安全评估和数据容灾也是大数据领域值得关注的重点议题。如何提高大数据并发处理的效率和稳定性;解决网络中大数据海量存储、安全处理,以及数据备份容灾等,都是大数据网络实现所面临的重要内容。随着云计算技术的飞速发展,如何结合通过云计算管理平台实现大数据分析管理,也体现了云计算技术的发展方向。
现有技术在网络大数据、云计算和分布式网络在运行效率和数据安全稳定性等多个方面仍有很多值得改进之处。例如,如何利用云计算技术提高网络大数据的子网评估的计算效率是亟待解决的问题。
发明内容
为了解决现有技术中存在的问题,本发明的目的在于克服已有技术存在的不足,提出了一种基于大数据的子网安全性评估方法,该方法包括以下步骤:
步骤一:将分布式网络分割为若干个子网,其中每个子网具有一个或多个分布式数据中心、以及一个云计算管理平台;
步骤二:实现每个子网的网络设置、安全性评估和数据容灾。
可选地,所述分布式数据中心基于HDFS实现分布式统一数据存储,支持MongoDB分布式数据库;采用Vert.x全异步服务器架构处理高并发I/O请求,并使用Kafka消息中间件处理大数据。
可选地,所述云计算管理平台为支持私有云和公有云的混合云计算管理平台,该平台采用SaaS服务模式,并提供分布式接口服务;
所述云计算管理平台使用加密方法通过安全的通讯信道连接当前子网中的分布式数据中心;
所述云计算管理平台包括支持OPC或者OPC-UA的通讯协议转换模块,用于对当前子网中的分布式数据中心进行远程控制;
所述云计算管理平台通过push或pull and pooling的采集方法收集当前子网中的分布式数据中心的各类数据,用于对当前子网中的分布式数据中心进行远程监测;
所述云计算管理平台支持Spark大数据引擎,使用该引擎中的Spark Streaming模型执行大数据实时处理分析;其中,
所述大数据实时处理分析包括:聚类分析、预测性分析、数据挖掘、以及可视化分析;
所述可视化分析包括:使用基于MVVM的vue.js联合框架,利用webpack工具进行打包,实时显示数据分析结果。
可选地,所述步骤二中,实现每个子网的网络设置,包括将每个子网配置为:
该子网具有以云存储方式实现的数据容灾备份中心,并且
若该子网具有多个分布式数据中心,则以大二层连接方式将该子网中的每个分布式数据中心的经虚拟化的核心交换机互连。
可选地,所述步骤二中,实现每个子网的安全性评估包括:所述每个子网的云计算管理平台对该子网中的每个分布式数据中心执行以下步骤:
步骤1:分析计算当前分布式数据中心内部各个服务器的故障率指标,进行统计处理;
步骤2:计算当前分布式数据中心的故障评估值;
步骤3:根据所述故障评估值确定当前分布式数据中心的安全级别。
可选地,所述步骤二中,实现每个子网的数据容灾包括:所述每个子网的云计算管理平台对该子网中的每个分布式数据中心执行以下步骤:
根据当前分布式数据中心的安全级别,按照对应的数据容灾备份周期,将当前分布式数据中心的数据镜像备份至该子网中的数据容灾备份中心。
可选地,所述步骤1包括以下步骤:
步骤1.1:所述分析计算当前分布式数据中心内部各个服务器的故障率指标包括:
设当前分布式数据中心内部的服务器数量为m,统计时间段的长度为T,第i台服务器的平均故障间隔时间为Δti,则第i台服务器的故障率指标μi为:
μi=1/ln(1+Δti/T) 公式(1)
其中,i=1,2…,m;m为自然数;T为预设的固定值;0<Δti<T;
步骤1.2:所述进行统计处理包括:
统计当前分布式数据中心内部所有服务器的故障率指标中的最小值μmin和最大值μmax。
可选地,所述步骤2包括以下步骤:
步骤2.1:通过以下公式计算当前分布式数据中心的故障初评值σ:
σ=((μmin+μ1+μ2+…+μm+μmax)/(m+2))1/3 公式(2)
步骤2.2:设当前子网中所有分布式数据中心的故障初评值σ中的最小值为σmin,最大值为σmax;则当前分布式数据中心的故障评估值ψ计算如下:
若σmin≠σmax,则:
ψ=σmin+(σ2-σmin2)1/2/(σmax2–σmin2)1/2 公式(3.1)
若σmin=σmax,则:
ψ=σmin 公式(3.2)。
可选地,在所述步骤3之前,计算得到当前子网中所有分布式数据中心的故障评估值的最小值ψmin,最大值ψmax,以及当前子网中所有分布式数据中心的算数平均值ψavg;
令ψ1=ψmin+(ψavg-ψmin)*1/2;ψ2=ψavg+(ψmax-ψavg)*2/3;
若ψmin=ψmax,或ψmin=ψavg,或ψavg=ψmax,则将当前子网中所有分布式数据中心的安全级别都设置为0级;并且将当前子网中所有分布式数据中心的数据容灾备份周期都设置为T0。
可选地,所述步骤3包括:结合当前分布式数据中心的故障评估值ψ的判断,执行以下步骤:
若ψmin≤ψ<ψ1,则设置当前分布式数据中心的安全级别为1级、数据容灾备份周期为T1;
若ψ1≤ψ<ψavg,则设置当前分布式数据中心的安全级别为2级、数据容灾备份周期为T2;
若ψavg≤ψ<ψ2,则设置当前分布式数据中心的安全级别为3级、数据容灾备份周期为T3;
若ψ2≤ψ<ψmax,则设置当前分布式数据中心的安全级别为4级、数据容灾备份周期为T4;
若ψ=ψmax,则设置当前分布式数据中心的安全级别为5级、数据容灾备份周期为T5;
其中,T0>T1>T2>T3>T4>T5。
本发明还提供一种基于大数据的子网安全性评估装置,应用于分布式网络,所述分布式网络分割为若干个子网,其中每个子网具有一个或多个分布式数据中心、以及一个云计算管理平台;所述安全性评估装置位于由每个子网的云计算管理平台,包括:
统计单元,用于分析计算当前分布式数据中心内部各个服务器的故障率指标,进行统计处理;
计算单元,用于计算当前分布式数据中心的故障评估值;
确定单元,用于根据所述故障评估值确定当前分布式数据中心的安全级别。
本发明与现有技术相比较,具有显而易见的突出实质性特点和显著优点,具体地:本发明结合云计算技术,提高了分布式网络中大数据资源的分析管理和计算效率;同时,更加安全高效地实现了大数据资源的容灾备份,提高了大数据资源的安全性。
附图说明
图1是根据本发明实施例的基于大数据的子网安全性评估的流程图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的优选实施例详述如下:
实施例一:
在本实施例中,参见图1,提供一种基于大数据的子网安全性评估,该方法包括以下步骤:
步骤一:将分布式网络分割为若干个子网,其中每个子网具有一个或多个分布式数据中心、以及一个云计算管理平台;
步骤二:实现每个子网的网络设置、安全性评估和数据容灾。
一、分布式数据中心的设置具体如下:
·分布式数据中心基于HDFS实现分布式统一数据存储,并支持MongoDB分布式数据库。具体地:
MongoDB是一个基于分布式文件存储的数据库,可为WEB应用提供可扩展的高性能数据存储解决方案。同时,MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的;可以存储比较复杂的数据类型,其最大特点是支持的查询语言非常强大,可实现类似关系数据库单表查询的大部分功能,且支持对数据建立索引;
·分布式数据中心采用Vert.x全异步服务器架构处理高并发I/O请求,并使用Kafka消息中间件处理大量数据。具体地:
首先,要接收大量来自网络的I/O请求,并要在尽量短的时间内进行相应逻辑的处理,可使用全异步服务器架构来处理高并发的I/O请求。即:对于每个分布式数据中心采用Vert.x全异步服务器架构处理高并发I/O请求;
Vert.x是一个异步无阻塞的网络框架,Vert.x是事件驱动的,其处理请求的高性能也是基于其事件机制。Vert.x以非阻塞IO的思想来实现高性能,非阻塞IO的实现,基于Event Loop Vertical和Worker Vertical的分离,在Vert.x中,Event Loop用于接收,并将短业务操作交由其内部的Vertical来处理,该模块是非阻塞的,这样可以保证请求的处理效率;
其次,对于大量数据的存储及调用,可使用Kafka消息中间件处理大量数据。
Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理网站中的所有动作流数据。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案;
二、云计算管理平台具体配置如下:
·所述云计算管理平台为支持私有云和公有云的混合云计算管理平台。
混合云,即融合了私有云(例如,本地子网)和公有云(例如,其他子网),是近年来云计算的主要模式和发展方向。本地私有云可承载敏感数据,公有云可提供各种服务(SAAS、PAAS等)。我们已经知道私有云主要是面向用户的私有数据,出于安全考虑,用户更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源,在这种情况下混合云被越来越多的采用,它将私有云和公有云进行混合和匹配,以获得最佳的效果,这种个性化的解决方案,达到了既省钱又安全的目的。
可选地,所述混合云计算管理平台采用SaaS服务模式:目前SaaS云服务的市场处于快速增长阶段,SaaS提供商为用户搭建信息化所需要的所有网络基础设施及软件、硬件运作平台,并负责所有前期的实施、后期的维护等一系列服务。因此,用户无需购买软硬件、建设机房、招聘IT人员,即可通过互联网使用信息系统。用户可根据实际需要,向SaaS提供商租赁软件服务。
可选地,所述混合云计算管理平台提供分布式接口服务:Web服务技术通过使用一系列的标准规范,为互联网上的不同应用提供了语法互操作性支持,使得用户之间的应用交互从局部范围发展到全球范围成为可能。利用Web服务技术进行交互的应用只需遵从相应的Web服务接口,而不需考虑各自的内部实现,从而极大地降低了交互应用之间的耦合度,增加了应用的灵活性。
·云计算管理平台对于分布式数据中心的远程控制和监测:
所述云计算管理平台使用加密方法通过安全的通讯信道连接当前子网中的分布式数据中心。
所述云计算管理平台集成了支持OPC(Open Platform Communications)或者OPC-UA(OPC Unified Architecture)的通讯协议转换模块,通过数据调用通信接口分别与当前子网中的分布式数据中心进行信号连接,并向所述分布式数据中心发出远程控制调度指令信息,以实现对所述分布式数据中心的远程控制。
所述云计算管理平台还通过push或pull and pooling的采集方法收集当前子网中的分布式数据中心的各类数据,实现对所述分布式数据中心的远程监测。
·云计算管理平台对于大数据的支持:
所述云计算管理平台支持Spark大数据引擎,使用该引擎中的Spark Streaming模型执行大数据实时处理分析;
所述大数据实时处理分析包括:聚类分析、预测性分析、数据挖掘、以及可视化分析;
所述可视化分析包括:使用基于MVVM的vue.js联合框架,利用webpack工具进行打包,实时显示数据分析结果。其中,基于MVVM模式的框架Vue.js可实现以数据驱动,视图与数据双向绑定,轻量、高效地展示数据分析结果。
三、实现每个子网的网络设置、安全性评估和数据容灾,具体如下:
所述步骤二中,实现某个子网的网络设置,包括进行以下设置:
·该子网具有以云存储方式实现的数据容灾备份中心。
若该子网具有多个分布式数据中心,则:
·以大二层连接方式将该子网中的每个分布式数据中心的经虚拟化(通过“Intelligent Resilient Framework”在二层和三层上虚拟)的核心交换机互连;所述核心交换机充当网关;并且
·可利用存储虚拟化技术在每个分布式数据中心内设置存储虚拟网关,将每个分布式数据中心之间的存储虚拟网关互连;
所述步骤二中,实现某个子网的安全性评估包括:
所述云计算管理平台对该子网中的每个分布式数据中心依次执行以下步骤:
步骤1:分析计算当前分布式数据中心内部各个服务器的故障率指标并进行统计处理;
步骤2:计算当前分布式数据中心的故障评估值;
步骤3:根据所述故障评估值确定当前分布式数据中心的安全级别。
所述步骤二中,实现某个子网的数据容灾包括:
对该子网中的每个分布式数据中心依次执行以下步骤:
根据当前分布式数据中心的安全级别,按照对应的数据容灾备份周期,将当前分布式数据中心的数据镜像备份至该子网中的数据容灾备份中心。
步骤1包括以下步骤:
步骤1.1:所述分析计算当前分布式数据中心内部各个服务器的故障率指标包括:
设当前分布式数据中心内部的服务器数量为m,统计时间段的长度为T,第i台服务器的平均故障间隔时间为Δti;其中,服务器的平均故障间隔时间Δti的数值越大,表明该服务器的平均无故障运行时间越长,也就是说该服务器的可靠性越高。
作为对现有技术的改进,本发明通过下面的公式(1)计算第i台服务器的故障率指标μi,具体地:
μi=1/ln(1+Δti/T) 公式(1)
其中,i=1,2…,m;m为自然数;T为预设的固定值,应设置为大于每台服务器的平均故障间隔时间(即,Δti和T需要满足的关系为:0<Δti<T),一般为整数;Δti和T的单位一般可以是小时或者天;
由上述公式(1)可知,单台服务器的平均故障间隔时间Δti的数值越大,其故障率指标μi的数值越小。
步骤1.2:所述进行统计处理包括:
统计当前分布式数据中心内部所有服务器的故障率指标中的最小值μmin和最大值μmax。
步骤2包括以下步骤:
步骤2.1:作为对现有技术的改进,本发明通过以下公式计算当前分布式数据中心的故障初评值σ:
σ=((μmin+μ1+μ2+…+μm+μmax)/(m+2))1/3 公式(2)
由上述公式(2)可知,分布式数据中心的故障初评值σ的数值越小,说明该分布式数据中心总体上发生故障的概率越小。
步骤2.2:设当前子网中所有分布式数据中心的故障初评值σ中的最小值为σmin,最大值为σmax;作为对现有技术的改进,本发明对分布式数据中心的故障初评值σ指标进行了改进,即:提出了当前分布式数据中心的故障评估值ψ,该故障评估值ψ指标用于对故障初评值σ指标进行优化调整,故障评估值ψ的具体计算过程如下:
若σmin≠σmax,则:
ψ=σmin+(σ2-σmin2)1/2/(σmax2–σmin2)1/2 公式(3.1)
若σmin=σmax(当前子网中仅有一个分布式数据中心,或者其它的极端情况),则:
ψ=σmin 公式(3.2)。
由上述公式(3.1)、(3.2)可知,分布式数据中心的故障初评值σ的数值越小,其对应的故障评估值ψ的数值也越小。
在步骤3之前,计算得到当前子网中所有分布式数据中心的故障评估值的最小值ψmin,最大值ψmax,以及当前子网中所有分布式数据中心的算数平均值ψavg;
作为对现有技术的改进,本发明增加两个中间的边界判断条件值ψ1和ψ2,具体地:
令ψ1=ψmin+(ψavg-ψmin)*1/2;ψ2=ψavg+(ψmax-ψavg)*2/3;
通过上述增加的两个中间的边界判断条件值ψ1和ψ2,可以增加阈值判断的阶梯度,从而提高计算判断的精确性。
特殊情况下的配置如下:
若ψmin=ψmax,或ψmin=ψavg,或ψavg=ψmax,则将当前子网中所有分布式数据中心的安全级别都设置为0级;并且将当前子网中所有分布式数据中心的数据容灾备份周期都设置为T0。
进一步地,所述步骤3具体如下:
结合当前分布式数据中心的故障评估值ψ的判断,执行以下步骤:
若ψmin≤ψ<ψ1,则设置当前分布式数据中心的安全级别为1级、数据容灾备份周期为T1;
若ψ1≤ψ<ψavg,则设置当前分布式数据中心的安全级别为2级、数据容灾备份周期为T2;
若ψavg≤ψ<ψ2,则设置当前分布式数据中心的安全级别为3级、数据容灾备份周期为T3;
若ψ2≤ψ<ψmax,则设置当前分布式数据中心的安全级别为4级、数据容灾备份周期为T4;
若ψ=ψmax,则设置当前分布式数据中心的安全级别为5级、数据容灾备份周期为T5;
其中,T0>T1>T2>T3>T4>T5。安全级别的数值越小,表明当前分布式数据中心的的无故障运行时间越长,运行效率越高;其对应的数据容灾备份周期也就越长;反之亦然。
由上可知:对于各个分布式数据中心,根据安全级别的不同,通过设置对应于其安全级别的数据容灾备份周期,可实现针对不同安全级别的数据容灾备份;减少了数据容灾对于整体软硬件资源的消耗,可提高数据容灾备份的效率。
上面结合附图对本发明实施例进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。