基于大数据的信息安全系统的延时处理电路和方法
技术领域
本发明涉及电数据处理领域,并且更具体而言,涉及一种基于大数据的信息安全系统的延时处理电路和方法。
背景技术
随着技术的不断发展,产生了越来越多的海量数据,即大数据。大数据具有大量、高速、多样、真实性、复杂性、高时效、高价值的特点,其深刻地改变了人类的思维、生产、生活和学习方式,并延伸进人们的日常生活。大数据的增加一方面给人们提供了更全面的信息来源,但是另一方面,给人们进行信息的筛选和挖掘带来了困扰,特别是其中往往存在虚假和干扰、类似的信息;再一方面,也带来了巨大的安全隐患和数据存储压力。
在现有技术中,往往聚焦于数据信息的隐私保护,加密算法的研究,安全风险评估,数据的信息挖掘等等,缺少对于数据源的适当处理,对于存储的合理分配,对于访问的安全认证,对于众多访问的应急处理等方面的适应性应对,导致侧重于后期挖掘而轻前期处理。使得大数据的信息安全缺少前期保障,这是现有技术所面临的一个重要挑战。
特别地,现有技术中更为突出的是,数据量的急速增加导致大数据服务器的数量和容量也急速增加,同时由于访问的客户端的数量的急速增加,导致对大数据服务器的访问存在冲突的风险和安全隐患。当大数据服务器出现故障时,内存中的数据可能会丢失或紊乱,现场数据可能未被有效处理即被丢失,而且由于处理量的庞大,严重影响了大数据服务器的恢复工作。另外,现场数据的故障增加了读取、调用、计算以恢复现场数据的时间成本。
基于此,有必要发明一种基于大数据的信息安全系统和方法来解决以上问题。
发明内容
本发明的目的之一是提供一种基于大数据的信息安全系统和方法,其能够对于数据源进行适当处理,对存储进行合理分配,对访问进行安全认证,对众多访问进行处理,有效地避免大数据被攻击的风险,并且在访问过多的情况下能够有效地缓解访问处理资源的压力,能够保证数据的准确性,能够合理地将大数据分布和存储,能够保证大数据发生故障的情况下的数据恢复和访问;避免了由于服务器发生故障内存数据会丢失的情况,并且降低了对大数据服务器的恢复工作的影响;并且减少了由于现场数据的故障导致的读取、调用、计算以恢复现场数据的时间成本。
本发明为解决上述技术问题而采取的技术方案为:一种基于大数据的信息安全系统,包括多个大数据服务器和多个延时处理电路,其中每个大数据服务器与一个延时处理电路一一对应;每个大数据服务器都包括判定模块,所述判定模块包括权限判定模块,在外部节点访问存储模块的大数据时,由每个大数据服务器中都包括的判定模块对外部节点的数量和权限进行判定,当需要访问的外部节点的数量超过可访问处理资源的数量时,需要通过权限的判定排除或拒绝不符合访问条件的外部节点;延时处理电路包括多个延时器,每个延时器接收来自相应大数据服务器的一个访问请求,延时处理电路锁存并选通多个访问请求中的一个,并允许该访问请求;在该访问请求之后将反馈信号传送给大数据服务器的处理器以进行下一个访问请求的访问许可操作。
在一个实施例中,所述判定模块进一步包括数量判定模块,如果权限判定后的外部节点的数量超过可访问处理资源的数量,则根据访问先后顺序将外部节点进行排序,并根据排序结果将排序靠前的访问请求依次输入该大数据服务器对应的延时处理电路的多个不同的延时器中;权限判定后的外部节点的访问请求为第i访问请求~第j访问请求,其中j-i=L并且i、j和L均为正整数;然后将第i访问请求~第j访问请求分别输入各自的延时器中;该延时处理电路包括多个延时器,多个第一多路复用器,多个锁存单元和一个第二多路复用器;每个延时器由首尾相连的多个延时单元构成,每个延时单元的输出连接到对应的第一多路复用器,并且除第一个和最后一个延时单元之外,每个延时单元的输出还连接到其所属延时器的下一个延时单元的输入,第一个延时单元的输入连接到该延时器对应的访问请求并作为该延时器的输入,第一个延时单元的输出连接到该延时器的第二个延时单元的输入,最后一个延时单元的输出作为其所属的延时器的输出;其中首尾相连的延时单元数量为M,M是2的正整数次幂并且其数值大于L。
在一个实施例中,每个大数据服务器都包括处理器,在处理器的控制下,将第i访问请求连接到M个延时单元i1,…,im,…,iM,以此类推,将第j访问请求连接到M个延时单元j1,…,jm,…,jM,m是介于1和M之间的正整数;其中第i访问请求~第j访问请求各自的第一个延时单元的输出连接到第一多路复用器mux11,…,其中第i访问请求~第j访问请求各自的第m个延时单元的输出连接到第一多路复用器mux1m,…,其中第i访问请求~第j访问请求各自的第M个延时单元的输出连接到第一多路复用器mux1M;每个第一多路复用器的输出连接到对应的锁存单元,其中第一多路复用器mux11的输出连接到锁存单元1,…,第一多路复用器mux1m的输出连接到锁存单元m,…,第一多路复用器mux1M的输出连接到锁存单元M;各个锁存单元的输出连接到第二多路复用器,其中锁存单元1的输出连接到第二多路复用器mux2的第一个输入,…,锁存单元m的输出连接到第二多路复用器mux2的第m个输入,…,锁存单元M的输出连接到第二多路复用器mux2的第M个输入;第二多路复用器mux2的输出作为判定模块的输出和认证模块的输入,其中在处理器的控制下,将第i访问请求~第j访问请求分别设置不同的延时,并且在使能信号的控制下,控制多个第一多路复用器中的一个输入的选通,并将该信号锁入到对应的锁存单元中,之后在第二使能信号的控制下,控制第二多路复用器中的一个输入的选通;之后在该访问请求之后,将反馈信号传送给大数据服务器的处理器,以进行下一个访问请求的访问许可操作。
在一个实施例中,大数据服务器还包括认证模块,用于在大数据服务器中的判定模块操作之后,认证模块对外部访问节点进行身份认证,包括:获取访问的外部节点的历史行为数据,并对其进行分析以获得特征,鉴别该外部节点的使用者的行为及其身份;判断访问的外部节点的访问请求与预设的指令的相关系数,当该相关系数大于阈值时,确认通过身份认证并进入挖掘模块进行数据挖掘;否则确定身份认证不通过并退出。
在一个实施例中,大数据服务器还包括存储模块,用于在大数据服务器中的判定模块操作之前,将大数据以分布式的方式存储在大数据平台中,包括:使用云存储技术,在大数据平台中的多个节点上以分布式的方式存储大数据;其中该存储进一步包括:接收大数据;确认其数据完整性和数据长度;选择可用的存储节点,并进行磨损均衡判定,以确定其可用系数,并且确定其可用存储空间大小,利用可用系数的从高到低排序,依次选择总和符合大数据数据长度的可用的待存储节点,其中该可用系数与可用的存储节点的使用次数呈负相关的关系。
在一个实施例中,大数据服务器还包括挖掘模块,用于在大数据服务器中的认证模块操作之后,根据外部节点的请求对大数据进行挖掘,包括:将大数据进行分类:根据其数据的来源进行空间聚类处理,去除空间外数据;将聚类的数据形成多个集合,即将处于同一空间的数据对象即成为集合;采用正则表达,去除各个集合中的数字、表情符等符号;采用数据对象的出现次数和该数据对象在上述集合中的分布情况来判定数据对象在对应集合中的重要程度;通过统计方法获取数据对象的频率,并进行汇总得到对该数据对象的出现次数;对该数据对象进行聚类分析,获得数据挖掘结果。
本发明为解决上述技术问题而采取的另一个技术方案为:一种基于大数据的信息安全方法,应用于基于大数据的信息安全系统,其中该系统包括多个大数据服务器和多个延时处理电路,其中每个大数据服务器与一个延时处理电路一一对应;该方法包括:在外部节点访问存储模块的大数据时,由每个大数据服务器中都包括的判定模块对外部节点的数量和权限进行判定,当需要访问的外部节点的数量超过可访问处理资源的数量时,需要通过权限的判定排除或拒绝不符合访问条件的外部节点;延时处理电路锁存并选通多个访问请求中的一个,并允许该访问请求;在该访问请求之后将反馈信号传送给大数据服务器的处理器以进行下一个访问请求的访问许可操作,其中该延时处理电路包括多个延时器,每个延时器接收来自相应大数据服务器的一个访问请求。
在一个实施例中,大数据服务器中的判定模块中的数量判定模块的操作、以及延时处理电路的操作进一步包括:当需要访问的外部节点的数量超过可访问处理资源的数量时,需要通过权限的判定排除或拒绝不符合访问条件的外部节点;如果权限判定后的外部节点的数量超过可访问处理资源的数量,则判定模块中包括的数量判定模块根据访问先后顺序将外部节点进行排序,并根据排序结果将排序靠前的访问请求依次输入该大数据服务器对应的延时处理电路的多个不同的延时器中;权限判定后的外部节点的访问请求为第i访问请求~第j访问请求,其中j-i=L并且i、j和L均为正整数;然后将第i访问请求~第j访问请求分别输入各自的延时器中;该延时处理电路包括多个延时器,多个第一多路复用器,多个锁存单元和一个第二多路复用器;每个延时器由首尾相连的多个延时单元构成,每个延时单元的输出连接到对应的第一多路复用器,并且除第一个和最后一个延时单元之外,每个延时单元的输出还连接到其所属延时器的下一个延时单元的输入,第一个延时单元的输入连接到该延时器对应的访问请求并作为该延时器的输入,第一个延时单元的输出连接到该延时器的第二个延时单元的输入,最后一个延时单元的输出作为其所属的延时器的输出;其中首尾相连的延时单元数量为M,M是2的正整数次幂并且其数值大于L;其中第i访问请求连接的M个延时单元为i1,…,im,…,iM,以此类推,第j访问请求连接的M个延时单元为j1,…,jm,…,jM,m是介于1和M之间的正整数;其中第i访问请求~第j访问请求各自的第一个延时单元的输出连接到第一多路复用器mux11,…,其中第i访问请求~第j访问请求各自的第m个延时单元的输出连接到第一多路复用器mux1m,…,其中第i访问请求~第j访问请求各自的第M个延时单元的输出连接到第一多路复用器mux1M;每个第一多路复用器的输出连接到对应的锁存单元,其中第一多路复用器mux11的输出连接到锁存单元1,…,第一多路复用器mux1m的输出连接到锁存单元m,…,第一多路复用器mux1M的输出连接到锁存单元M;各个锁存单元的输出连接到第二多路复用器,其中锁存单元1的输出连接到第二多路复用器mux2的第一个输入,…,锁存单元m的输出连接到第二多路复用器mux2的第m个输入,…,锁存单元M的输出连接到第二多路复用器mux2的第M个输入;第二多路复用器mux2的输出作为判定模块的输出和认证模块的输入,其中在处理器的控制下,将第i访问请求~第j访问请求分别设置不同的延时,并且在使能信号的控制下,控制多个第一多路复用器中的一个输入的选通,并将该信号锁入到对应的锁存单元中,之后在第二使能信号的控制下,控制第二多路复用器中的一个输入的选通;之后在该访问请求之后,将反馈信号传送给大数据服务器的处理器,以进行下一个访问请求的访问许可操作。
在一个实施例中,大数据服务器在大数据服务器中的判定操作之后,对外部访问节点进行身份认证,包括:获取访问的外部节点的历史行为数据,并对其进行分析以获得特征,鉴别该外部节点的使用者的行为及其身份;判断访问的外部节点的访问请求与预设的指令的相关系数,当该相关系数大于阈值时,确认通过身份认证并进行数据挖掘;否则确定身份认证不通过并退出;大数据服务器在大数据服务器中的判定操作之前,将大数据以分布式的方式存储在大数据平台中,包括:使用云存储技术,在大数据平台中的多个节点上以分布式的方式存储大数据;其中该存储进一步包括:接收大数据;确认其数据完整性和数据长度;选择可用的存储节点,并进行磨损均衡判定,以确定其可用系数,并且确定其可用存储空间大小,利用可用系数的从高到低排序,依次选择总和符合大数据数据长度的可用的待存储节点,其中该可用系数与可用的存储节点的使用次数呈负相关的关系。
在一个实施例中,大数据服务器在大数据服务器中的认证操作之后,根据外部节点的请求对大数据进行挖掘,包括:将大数据进行分类:根据其数据的来源进行空间聚类处理,去除空间外数据;将聚类的数据形成多个集合,即将处于同一空间的数据对象即成为集合;采用正则表达,去除各个集合中的数字、表情符等符号;采用数据对象的出现次数和该数据对象在上述集合中的分布情况来判定数据对象在对应集合中的重要程度;通过统计方法获取数据对象的频率,并进行汇总得到对该数据对象的出现次数;对该数据对象进行聚类分析,获得数据挖掘结果。
附图说明
在附图中通过实例的方式而不是通过限制的方式来示出本发明的实施例,其中相同的附图标记表示相同的元件,其中:
根据本发明的示范性实施例,图1图示基于大数据的信息安全系统的结构图。
根据本发明的示范性实施例,图2图示大数据服务器的结构图。
根据本发明的示范性实施例,图3图示访问请求的延时处理电路的结构图。
根据本发明的示范性实施例,图4图示一种基于大数据的信息安全方法的流程简图。
具体实施方式
在进行以下具体实施方式之前,阐述贯穿本专利文档所使用的某些词语和短语的定义可能是有利的:术语“包括”和“包含”及其派生词意味着包括而没有限制;术语“或”是包含的,意味着和/或;短语“与...相关联”、“与其相关联”及其派生词可能意味着包括,被包括在...内,与...互连,包含,被包含在...内,连接到...或与...连接,耦合到...或与...耦合,可与...通信,与...合作,交织,并列,接近...,被绑定到...或与...绑定,具有,具有..的属性,等等;而术语“控制器”意味着控制至少一个操作的任何设备、系统或其部件,这样的设备可能以硬件、固件或软件或者其中至少两个的一些组合来实现。应当注意的是:与任何特定的控制器相关联的功能性可能是集中式或分布式的,无论是本地还是远程。贯穿本专利文档提供用于某些词语和短语的定义,本领域技术人员应当理解:如果不是大多数情况下,在许多情况下,这样的定义适用于现有的以及这样定义的词语和短语的未来使用。
在下面的描述中,参考附图并以图示的方式示出几个具体的实施例。将理解的是:可设想并且可做出其他实施例而不脱离本公开的范围或精神。因此,以下详细描述不应被认为具有限制意义。
根据本发明的示范性实施例,图1图示基于大数据的信息安全系统的结构图。基于大数据的信息安全系统包括多个大数据服务器和多个延时处理电路,其中每个大数据服务器与一个延时处理电路一一对应。
根据本发明的示范性实施例,图2图示大数据服务器的结构图。其中该大数据服务器包括:
传输接口,接收访问的请求,和/或发送处理的数据;
获取集成模块,经由传输接口,从多个数据源获取数据,并通过数据集成过程形成待处理和使用的大数据;
清洗模块,将大数据进行清洗,消除类似的或重复的数据;
确定模块,确定是否使用隐私保护技术对清洗模块生成的大数据进行保护,并根据确定结果执行相应操作;
存储模块,将确定模块生成的大数据以分布式的方式存储在大数据平台中;
冗余模块,使用冗余技术将存储模块存储的大数据进行容灾准备;
判定模块,当外部节点经由传输接口访问存储模块存储的大数据时,对外部节点的数量和权限进行判定,符合条件则将外部节点引导到认证模块;
认证模块,对外部访问节点进行身份认证;
挖掘模块,根据外部节点的请求对大数据进行挖掘;
反馈模块,根据是否使用加密技术的判定,将大数据挖掘结果经由传输接口反馈回外部访问节点。
优选地,大数据服务器中的获取集成模块,经由传输接口,从多个数据源获取数据,并通过数据集成过程形成待处理和使用的大数据进一步包括:通过有线或无线链路,经由符合安全传输协议的传输接口,从外部的多个数据源获取数据,并且根据不同的来源数据,通过数据集成过程形成待处理和使用的大数据。优选地,不同来源的数据包括:由计算机信息处理系统产生的数据,由数字设备获取的原始数据;不同来源的数据的表现形式包括但不限于文本、静态或动态图像。
优选地,大数据服务器中的清洗模块,将大数据进行清洗,消除类似的或重复的数据进一步包括:基于不同模式的描述,根据划分规则对大数据进行划分形成待处理单元,依据每个待处理单元的内容特性计算对应的散列值,比较该散列值与已存在的散列值相同与否来确定待处理单元是否重复;若相同则表明待处理单元与已存在的待处理单元为类似的或重复的数据,并去除该待处理单元,否则表明不是类似的或重复的数据并不执行去除操作。特别地,所述划分规则是长度等分规则。通过该模块及其操作,能够保证数据的准确性。
优选地,大数据服务器中的确定模块,确定是否使用隐私保护技术对清洗模块生成的大数据进行保护,并根据确定结果执行相应操作进一步包括:确定是否使用隐私保护技术对获取集成模块形成的大数据进行保护,如果需要则采用匿名隐私保护技术进行加密保护并将结果输入到存储模块,否则直接进入存储模块。
优选地,大数据服务器中的存储模块,将大数据以分布式的方式存储在大数据平台中进一步包括:使用云存储技术,在大数据平台中的多个节点上以分布式的方式存储大数据;其中该存储进一步包括:接收大数据;确认其数据完整性和数据长度;选择可用的存储节点,并进行磨损均衡判定,以确定其可用系数,并且确定其可用存储空间大小,利用可用系数的从高到低排序,依次选择总和符合大数据数据长度的可用的待存储节点,其中该可用系数与可用的存储节点的使用次数呈负相关的关系。通过该模块及其操作,能够合理地将大数据分布和存储。
优选地,大数据服务器中的冗余模块,使用冗余技术将生成的大数据进行容灾准备进一步包括:使用第一存储节点存储源数据,将第二存储节点设置为提供异构存储信息的资源池,并将第二存储节点中的每个数据存储单元设置成与第一存储节点的对应位置的镜像,并且保证第一存储节点和第二存储节点属于分离的不同存储介质;监视第一存储节点的访问和故障,并在监视到第一存储节点发生更新或者故障时,分别执行第二存储节点的镜像的对应更新或者启动第二存储节点以将对应部分的数据通过通信接口提供给访问节点。通过该冗余模块及其操作,能够保证大数据发生故障的情况下的数据恢复和访问。
优选地,大数据服务器中的判定模块,所述判定模块包括权限判定模块,该权限判定模块在外部节点访问存储模块的大数据时,由每个大数据服务器中都包括的判定模块对外部节点的数量和权限进行判定,进一步包括:当需要访问的外部节点的数量超过可访问处理资源的数量时(如遇到大规模攻击时,或者遇到诸如促销之类的大量访问时),需要通过权限的判定排除或拒绝不符合访问条件的外部节点,例如当访问的外部节点的IP位于黑名单所列的IP时,直接拒绝其端口访问;如果权限判定后的外部节点的数量超过可访问处理资源的数量,则根据访问先后顺序将外部节点进行排序,并根据排序结果将排序靠前的访问请求依次输入该大数据服务器对应的延时处理电路的多个不同的延时器中;所述延时器由首尾相连的多个延时单元构成,每个延时单元的输出连接到对应的第一多路复用器,并且每个第一多路复用器的输出连接到对应的锁存单元,各个锁存单元的输出连接到第二多路复用器,第二多路复用器的输出作为认证模块的输入。
通过该判定模块,能够有效地避免大数据被攻击的风险,并且在访问过多的情况下,能够有效地缓解访问处理资源的压力。
更具体地,大数据服务器中的判定模块,所述判定模块包括权限判定模块,该权限判定模块在外部节点访问存储模块的大数据时,由每个大数据服务器中都包括的判定模块对外部节点的数量和权限进行判定,进一步包括:当需要访问的外部节点的数量超过可访问处理资源的数量时(如遇到大规模攻击时,或者遇到诸如促销之类的大量访问时),需要通过权限的判定排除或拒绝不符合访问条件的外部节点,例如当访问的外部节点的IP位于黑名单所列的IP时,直接拒绝其端口访问;如果权限判定后的外部节点的数量超过可访问处理资源的数量,则根据访问先后顺序将外部节点进行排序,并根据排序结果将排序靠前的访问请求依次输入该大数据服务器对应的延时处理电路的多个不同的延时器中;权限判定后的外部节点的访问请求为第i访问请求~第j访问请求,其中j-i=L并且i、j和L均为正整数;然后将第i访问请求~第j访问请求分别输入各自的延时器中;图3图示访问请求的延时处理电路的结构图,该延时处理电路包括多个延时器,多个第一多路复用器,多个锁存单元和一个第二多路复用器;每个延时器由首尾相连的多个延时单元构成,每个延时单元的输出连接到对应的第一多路复用器,并且除第一个和最后一个延时单元之外,每个延时单元的输出还连接到其所属延时器的下一个延时单元的输入,第一个延时单元的输入连接到该延时器对应的访问请求并作为该延时器的输入,第一个延时单元的输出连接到该延时器的第二个延时单元的输入,最后一个延时单元的输出作为其所属的延时器的输出;其中首尾相连的延时单元数量为M,M是2的正整数次幂并且其数值大于L;其中每个大数据服务器都包括处理器,在处理器的控制下,将第i访问请求连接的M个延时单元为i1,…,im,…,iM,以此类推,第j访问请求连接的M个延时单元为j1,…,jm,…,jM,m是介于1和M之间的正整数;其中第i访问请求~第j访问请求各自的第一个延时单元的输出连接到第一多路复用器mux11,…,其中第i访问请求~第j访问请求各自的第m个延时单元的输出连接到第一多路复用器mux1m,…,其中第i访问请求~第j访问请求各自的第M个延时单元的输出连接到第一多路复用器mux1M;每个第一多路复用器的输出连接到对应的锁存单元,其中第一多路复用器mux11的输出连接到锁存单元1,…,第一多路复用器mux1m的输出连接到锁存单元m,…,第一多路复用器mux1M的输出连接到锁存单元M;各个锁存单元的输出连接到第二多路复用器,其中锁存单元1的输出连接到第二多路复用器mux2的第一个输入,…,锁存单元m的输出连接到第二多路复用器mux2的第m个输入,…,锁存单元M的输出连接到第二多路复用器mux2的第M个输入;第二多路复用器mux2的输出作为判定模块的输出和认证模块的输入。其中在处理器的控制下,将第i访问请求~第j访问请求分别设置不同的延时,并且在使能信号的控制下,控制多个第一多路复用器中的一个输入的选通,并将该信号锁入到对应的锁存单元中,之后在第二使能信号的控制下,控制第二多路复用器中的一个输入的选通;之后在该访问请求之后,将反馈信号传送给大数据服务器的处理器,以进行下一个访问请求的访问许可操作。
作为对于现有技术的重大改进,本发明的该方案中的延时处理电路与大数据服务器独立设置,减少排队处理占用的处理资源,同时当大数据服务器出现故障时,延时处理电路由于锁存功能,即保存了现场数据,又能在大数据服务器恢复工作时以更快的速度继续工作,相对于现有技术中现场数据保存在内存中,避免了由于服务器发生故障内存数据会丢失的情况,并且降低了对大数据服务器的恢复工作的影响;并且减少了由于现场数据的故障导致的读取、调用、计算以恢复现场数据的时间成本。
优选地,其中每个延时单元的结构包括:第一晶体管的源极连接高电压电平,第一晶体管的漏极连接第二晶体管的漏极并共同作为本级延时单元的输出,第一晶体管的栅极连接第二晶体管的栅极并共同作为本级延时单元的输入,第二晶体管的源极连接第三晶体管的漏极,第三晶体管的栅极连接高电压电平,第三晶体管的源极连接低电压电平,其中第一晶体管的极性与第二晶体管、第三晶体管的极性相反。
替代地,其中每个延时单元的结构包括:第十一晶体管的源极、第十二晶体管的源极、第十五晶体管的栅极都连接到高电压电平,第十一晶体管的栅极和漏极都连接到第十五晶体管的漏极、第十七晶体管的栅极,第十二晶体管的栅极连接到第十六晶体管的栅极,第十五晶体管的源极连接到第十六晶体管的漏极,第十二晶体管的漏极连接到第十三晶体管的源极,第十三晶体管的栅极连接到第十四晶体管的栅极并共同作为本级延时单元的输入,第十三晶体管的漏极连接到第十四晶体管的漏极并作为本级延时单元的输出,第十四晶体管的源极连接到第十七晶体管的漏极,第十六晶体管的源极和第十七晶体管的源极连接到低电压电平,其中第十一晶体管、第十二晶体管、第十三晶体管的极性与第十四晶体管、第十五晶体管、第十六晶体管、第十七晶体管的极性相反。
替代地,其中每个延时单元的结构包括:第二十一晶体管的源极、第二十二晶体管的源极、第二十五晶体管的源极连接到高电压电平,第二十一晶体管的栅极、第二十二晶体管的栅极、第二十三晶体管的栅极和第二十四晶体管的栅极都连接到本级延时单元的输入,第二十一晶体管的漏极、第二十二晶体管的漏极都连接到第二十三晶体管的漏极、第二十五晶体管的栅极、第二十六晶体管的栅极,第二十三晶体管的源极连接到第二十四晶体管的漏极,第二十五晶体管的漏极连接到第二十六晶体管的漏极并作为本级延时单元的输出,第二十六晶体管的源极和第二十四晶体管的源极都连接到低电压电平,其中第二十一晶体管、第二十二晶体管和第二十五晶体管的极性与第二十三晶体管、第二十四晶体管和第二十六晶体管的极性相反。
优选地,其中每个锁存单元的结构包括:该锁存单元的输入连接到第一倒相器的输入,第一倒相器的输出连接到第二倒相器的输入和第三十一晶体管的栅极,第三十一晶体管的漏极连接到第三倒相器的输出、第四倒相器的输入、第五倒相器的输入,第五倒相器的输出连接到第六倒相器的输入,第六倒相器的输出作为该锁存单元的输出,第二倒相器的输出连接到第三十三晶体管的栅极,第三十三晶体管的源极和第三十一晶体管的源极连接到低电压电平,第三十三晶体管的漏极连接到第三十二晶体管的源极,第三十二晶体管的栅极连接到使能信号,第三十二晶体管的漏极连接到第三倒相器的输入和第四倒相器的输出。
通过以上的延时单元和锁存单元,可以有效地控制多个访问请求的不同访问时序和顺序,使得访问处理资源的利用得到优化。
优选地,大数据服务器中的认证模块,对外部访问节点进行身份认证进一步包括:获取访问的外部节点的历史行为数据,并对其进行分析以获得特征,鉴别该外部节点的使用者的行为及其身份;判断访问的外部节点的访问请求与预设的指令的相关系数,当该相关系数大于阈值时,确认通过身份认证并进入挖掘模块进行数据挖掘;否则确定身份认证不通过并退出;其中所述相关系数的生成过程为:将访问请求包含的数据向量化,形成AS=[A1,A2,Ai,…,AN];获取预设的指令的向量化表示PSI=[I1,I2,Ii,…,IN],其中N是正整数;计算访问的外部节点的访问请求与预设的指令的相关系数
优选地,所述阈值的选取空间为0.925~0.975。更优选地,所述阈值为0.95。
通过该认证模块及其特定的操作,可以对外部节点的使用者的行为及其身份进行有效地证认证,从而保障基于大数据的信息安全系统的安全性。
优选地,大数据服务器中的挖掘模块,根据外部节点的请求对大数据进行挖掘进一步包括:将大数据进行分类:根据其数据的来源进行空间聚类处理,去除空间外数据;将聚类的数据形成多个集合,即将处于同一空间的数据对象即成为集合;采用正则表达,去除各个集合中的数字、表情符等符号;采用数据对象的出现次数和该数据对象在上述集合中的分布情况来判定数据对象在对应集合中的重要程度;通过统计方法获取数据对象的频率,并进行汇总得到对该数据对象的出现次数;对该数据对象进行聚类分析,获得数据挖掘结果。
优选地,大数据服务器中的反馈模块,根据是否使用加密技术的判定,将大数据挖掘结果经由传输接口反馈回外部访问节点包括:当使用加密技术时,根据大数据中心的加解密单元对大数据挖掘结果进行加密,并通过传输接口将其反馈回外部访问节点,其中将密钥与加密数据分开存放。
通过以上所述的基于大数据的信息安全系统和大数据服务器的配置,能够对于数据源进行适当处理,对存储进行合理分配,对访问进行安全认证,对众多访问进行处理,有效地避免大数据被攻击的风险,并且在访问过多的情况下能够有效地缓解访问处理资源的压力,能够保证数据的准确性,能够合理地将大数据分布和存储,能够保证大数据发生故障的情况下的数据恢复和访问;避免了由于服务器发生故障内存数据会丢失的情况,并且降低了对大数据服务器的恢复工作的影响;并且减少了由于现场数据的故障导致的读取、调用、计算以恢复现场数据的时间成本。
根据本发明的示范性实施例,图4图示一种基于大数据的信息安全方法的流程简图。所述基于大数据的信息安全方法应用于基于大数据的信息安全系统,其中该系统包括多个大数据服务器和多个延时处理电路,其中每个大数据服务器与一个延时处理电路一一对应。该方法包括:大数据服务器经配置以执行:
接收访问的请求,和/或发送处理的数据;经由传输接口而从多个数据源获取数据,并通过数据集成过程形成待处理和使用的大数据;
将大数据进行清洗,消除类似的或重复的数据;
确定是否使用隐私保护技术对清洗生成的大数据进行保护,并根据确定结果执行相应操作;
将确定步骤生成的大数据以分布式的方式存储在大数据平台中;
使用冗余技术将存储的大数据进行容灾准备;
在外部节点经由传输接口访问存储的大数据时,对外部节点的数量和权限进行判定,符合条件则将外部节点引导到认证步骤;
对外部访问节点进行身份认证;
根据外部节点的请求对大数据进行挖掘;
根据是否使用加密技术的判定,将大数据挖掘结果经由传输接口反馈回外部访问节点。
优选地,经由传输接口而从多个数据源获取数据,并通过数据集成过程形成待处理和使用的大数据进一步包括:通过有线或无线链路,经由符合安全传输协议的传输接口,从外部的多个数据源获取数据,并且根据不同的来源数据,通过数据集成过程形成待处理和使用的大数据。优选地,不同来源的数据包括:由计算机信息处理系统产生的数据,由数字设备获取的原始数据;不同来源的数据的表现形式包括但不限于文本、静态或动态图像。
优选地,将大数据进行清洗,消除类似的或重复的数据进一步包括:基于不同模式的描述,根据划分规则对大数据进行划分形成待处理单元,依据每个待处理单元的内容特性计算对应的散列值,比较该散列值与已存在的散列值相同与否来确定待处理单元是否重复;若相同则表明待处理单元与已存在的待处理单元为类似的或重复的数据,并去除该待处理单元,否则表明不是类似的或重复的数据并不执行去除操作。特别地,所述划分规则是长度等分规则。通过该步骤,能够保证数据的准确性。
优选地,确定是否使用隐私保护技术对清洗生成的大数据进行保护,并根据确定结果执行相应操作进一步包括:确定是否使用隐私保护技术对获取和集成形成的大数据进行保护,如果需要则采用匿名隐私保护技术进行加密保护并将结果输入到存储步骤,否则直接进入存储步骤。
优选地,将确定步骤生成的大数据以分布式的方式存储在大数据平台中进一步包括:使用云存储技术,在大数据平台中的多个节点上以分布式的方式存储大数据;其中该存储进一步包括:接收大数据;确认其数据完整性和数据长度;选择可用的存储节点,并进行磨损均衡判定,以确定其可用系数,并且确定其可用存储空间大小,利用可用系数的从高到低排序,依次选择总和符合大数据数据长度的可用的待存储节点,其中该可用系数与可用的存储节点的使用次数呈负相关的关系。通过该步骤,能够合理地将大数据分布和存储。
优选地,使用冗余技术将存储的大数据进行容灾准备进一步包括:使用第一存储节点存储源数据,将第二存储节点设置为提供异构存储信息的资源池,并将第二存储节点中的每个数据存储单元设置成与第一存储节点的对应位置的镜像,并且保证第一存储节点和第二存储节点属于分离的不同存储介质;监视第一存储节点的访问和故障,并在监视到第一存储节点发生更新或者故障时,分别执行第二存储节点的镜像的对应更新或者启动第二存储节点以将对应部分的数据通过通信接口提供给访问节点。通过该步骤,能够保证大数据发生故障的情况下的数据恢复和访问。
优选地,在外部节点经由传输接口访问存储步骤存储的大数据时,对外部节点的数量和权限进行判定,符合条件则将外部节点引导到认证步骤进一步包括:当需要访问的外部节点的数量超过可访问处理资源的数量时(如遇到大规模攻击时,或者遇到诸如促销之类的大量访问时),需要通过权限的判定排除或拒绝不符合访问条件的外部节点,例如当访问的外部节点的IP位于黑名单所列的IP时,直接拒绝其端口访问;如果权限判定后的外部节点的数量超过可访问处理资源的数量,则根据访问先后顺序将外部节点进行排序,并根据排序结果将排序靠前的访问请求依次输入该大数据服务器对应的延时处理电路的多个不同的延时器中;所述延时器由首尾相连的多个延时单元构成,每个延时单元的输出连接到对应的第一多路复用器,并且每个第一多路复用器的输出连接到对应的锁存单元,各个锁存单元的输出连接到第二多路复用器,第二多路复用器的输出作为认证步骤的输入。
通过该判定步骤,能够有效地避免大数据被攻击的风险,并且在访问过多的情况下,能够有效地缓解访问处理资源的压力。
更具体地,在外部节点访问存储步骤的大数据时,对外部节点的数量和权限进行判定,进一步包括:当需要访问的外部节点的数量超过可访问处理资源的数量时(如遇到大规模攻击时,或者遇到诸如促销之类的大量访问时),需要通过权限的判定排除或拒绝不符合访问条件的外部节点,例如当访问的外部节点的IP位于黑名单所列的IP时,直接拒绝其端口访问;如果权限判定后的外部节点的数量超过可访问处理资源的数量,则根据访问先后顺序将外部节点进行排序,并根据排序结果将排序靠前的访问请求依次输入该大数据服务器对应的延时处理电路的多个不同的延时器中;权限判定后的外部节点的访问请求为第i访问请求~第j访问请求,其中j-i=L并且i、j和L均为正整数;然后将第i访问请求~第j访问请求分别输入各自的延时器中;该延时处理电路包括多个延时器,多个第一多路复用器,多个锁存单元和一个第二多路复用器;每个延时器由首尾相连的多个延时单元构成,每个延时单元的输出连接到对应的第一多路复用器,并且除第一个和最后一个延时单元之外,每个延时单元的输出还连接到其所属延时器的下一个延时单元的输入,第一个延时单元的输入连接到该延时器对应的访问请求并作为该延时器的输入,第一个延时单元的输出连接到该延时器的第二个延时单元的输入,最后一个延时单元的输出作为其所属的延时器的输出;其中首尾相连的延时单元数量为M,M是2的正整数次幂并且其数值大于L;其中每个大数据服务器都包括处理器,在处理器的控制下,将第i访问请求链接的M个延时单元为i1,…,im,…,iM,以此类推,第j访问请求链接的M个延时单元为j1,…,jm,…,jM,m是介于1和M之间的正整数;其中第i访问请求~第j访问请求各自的第一个延时单元的输出连接到第一多路复用器mux11,…,其中第i访问请求~第j访问请求各自的第m个延时单元的输出连接到第一多路复用器mux1m,…,其中第i访问请求~第j访问请求各自的第M个延时单元的输出连接到第一多路复用器mux1M;每个第一多路复用器的输出连接到对应的锁存单元,其中第一多路复用器mux11的输出连接到锁存单元1,…,第一多路复用器mux1m的输出连接到锁存单元m,…,第一多路复用器mux1M的输出连接到锁存单元M;各个锁存单元的输出连接到第二多路复用器,其中锁存单元1的输出连接到第二多路复用器mux2的第一个输入,…,锁存单元m的输出连接到第二多路复用器mux2的第m个输入,…,锁存单元M的输出连接到第二多路复用器mux2的第M个输入;第二多路复用器mux2的输出作为判定步骤的输出和认证步骤的输入。其中在处理器的控制下,将第i访问请求~第j访问请求分别设置不同的延时,并且在使能信号的控制下,控制多个第一多路复用器中的一个输入的选通,并将该信号锁入到对应的锁存单元中,之后在第二使能信号的控制下,控制第二多路复用器中的一个输入的选通;之后在该访问请求之后,将反馈信号传送给大数据服务器的处理器,以进行下一个访问请求的访问许可操作。
作为对于现有技术的改进,在该方法步骤中采用延时处理电路与大数据服务器的独立设置,减少排队处理占用的处理资源,同时当大数据服务器出现故障时,延时处理电路由于锁存功能,即保存了现场数据,又能在大数据服务器恢复工作时以更快的速度继续工作,相对于现有技术中现场数据保存在内存中,避免了由于服务器发生故障内存数据会丢失的情况,并且降低了对大数据服务器的恢复工作的影响;并且减少了由于现场数据的故障导致的读取、调用、计算以恢复现场数据的时间成本。此外,通过以上的延时单元和锁存单元,可以有效地控制多个访问请求的不同访问时序和顺序,使得访问处理资源的利用得到优化。
优选地,对外部访问节点进行身份认证进一步包括:获取访问的外部节点的历史行为数据,并对其进行分析以获得特征,鉴别该外部节点的使用者的行为及其身份;判断访问的外部节点的访问请求与预设的指令的相关系数,当该相关系数大于阈值时,确认通过身份认证并进入挖掘步骤进行数据挖掘;否则确定身份认证不通过并退出;其中所述相关系数的生成过程为:将访问请求包含的数据向量化,形成AS=[A1,A2,Ai,…,AN];获取预设的指令的向量化表示PSI=[I1,I2,Ii,…,IN],其中N是正整数;计算访问的外部节点的访问请求与预设的指令的相关系数
优选地,所述阈值的选取空间为0.925~0.975。更优选地,所述阈值为0.95。
通过该认证步骤及其特定的操作,可以对外部节点的使用者的行为及其身份进行有效地证认证,从而保障基于大数据的信息安全系统的安全性。
优选地,根据外部节点的请求对大数据进行挖掘进一步包括:将大数据进行分类:根据其数据的来源进行空间聚类处理,去除空间外数据;将聚类的数据形成多个集合,即将处于同一空间的数据对象即成为集合;采用正则表达,去除各个集合中的数字、表情符等符号;采用数据对象的出现次数和该数据对象在上述集合中的分布情况来判定数据对象在对应集合中的重要程度;通过统计方法获取数据对象的频率,并进行汇总得到对该数据对象的出现次数;对该数据对象进行聚类分析,获得数据挖掘结果。
优选地,根据是否使用加密技术的判定,将大数据挖掘结果经由传输接口反馈回外部访问节点包括:当使用加密技术时,根据大数据中心的加解密单元对大数据挖掘结果进行加密,并通过传输接口将其反馈回外部访问节点,其中将密钥与加密数据分开存放。
通过以上所述的基于大数据的信息安全方法及其操作,能够对于数据源进行适当处理,对存储进行合理分配,对访问进行安全认证,对众多访问进行处理,有效地避免大数据被攻击的风险,并且在访问过多的情况下能够有效地缓解访问处理资源的压力,能够保证数据的准确性,能够合理地将大数据分布和存储,能够保证大数据发生故障的情况下的数据恢复和访问;避免了由于服务器发生故障内存数据会丢失的情况,并且降低了对大数据服务器的恢复工作的影响;并且减少了由于现场数据的故障导致的读取、调用、计算以恢复现场数据的时间成本。
根据本发明的示范性实施例,本发明还涉及一种基于大数据的信息安全装置,包括:储存器,用于存储大数据的信息和指令数据;以及处理器,其用于执行以上基于大数据的信息安全方法中所述的任何一个或多个步骤。
根据本发明的示范性实施例,本发明还涉及一种计算机可读存储介质,其上存储有可执行指令,该指令由计算机执行时将实现以上基于大数据的信息安全方法中所述的任何一个或多个步骤。
上述的各个技术术语是本领域中的具有通常含义的常规技术术语,为了不模糊本发明的重点,在此不对其进行进一步的解释。
大数据平台中的多个节点是本领域中公知的节点类型,诸如可以是大数据服务器,云盘,微盘,网盘,客户端等各种形式的数据存储类型的节点。外部节点例如可以采用客户端、移动终端、客户机之类的形式。大数据平台可以是包括大数据服务器的平台,其中包括了上述多个节点。可访问处理资源例如可以指可用于数据处理的信道、流水线、线程等。但是以上术语仅仅是示例而非限制。
综上,在本发明的技术方案中,通过采用了一种基于大数据的信息安全系统和方法,其能够对于数据源进行适当处理,对存储进行合理分配,对访问进行安全认证,对众多访问进行处理,有效地避免大数据被攻击的风险,并且在访问过多的情况下能够有效地缓解访问处理资源的压力,能够保证数据的准确性,能够合理地将大数据分布和存储,能够保证大数据发生故障的情况下的数据恢复和访问;避免了由于服务器发生故障内存数据会丢失的情况,并且降低了对大数据服务器的恢复工作的影响;并且减少了由于现场数据的故障导致的读取、调用、计算以恢复现场数据的时间成本。
将理解的是:可以硬件、软件或硬件和软件的组合的形式实现本发明的示例和实施例。如上所述,可存储任何执行这种方法的主体,以挥发性或非挥发性存储的形式,例如存储设备,像ROM,无论可抹除或可重写与否,或者以存储器的形式,诸如例如RAM、存储器芯片、设备或集成电路或在光或磁可读的介质上,诸如例如CD、DVD、磁盘或磁带。将理解的是:存储设备和存储介质是适合于存储一个或多个程序的机器可读存储的示例,当被执行时,所述一个或多个程序实现本发明的示例。经由任何介质,诸如通过有线或无线耦合载有的通信信号,可以电子地传递本发明的示例,并且示例适当地包含相同内容。
应当注意的是:因为本发明解决了能够对于数据源进行适当处理,对存储进行合理分配,对访问进行安全认证,对众多访问进行处理,有效地避免大数据被攻击的风险,并且在访问过多的情况下能够有效地缓解访问处理资源的压力,能够保证数据的准确性,能够合理地将大数据分布和存储,能够保证大数据发生故障的情况下的数据恢复和访问;避免了由于服务器发生故障内存数据会丢失的情况,并且降低了对大数据服务器的恢复工作的影响;并且减少了由于现场数据的故障导致的读取、调用、计算以恢复现场数据的时间成本的技术问题,采用了计算机技术领域中技术人员在阅读本说明书之后根据其教导所能理解的技术手段,并获取了有益技术效果,所以在所附权利要求中要求保护的方案属于专利法意义上的技术方案。另外,因为所附权利要求要求保护的技术方案可以在工业中制造或使用,因此该方案具备实用性。
以上所述,仅为本发明的较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应包涵在本发明的保护范围之内。除非以其他方式明确陈述,否则公开的每个特征仅是一般系列的等效或类似特征的一个示例。因此,本发明的保护范围应该以权利要求书的保护范围为准。