CN112561197B

CN112561197B - 一种带有主动防御影响范围的电力数据预取与缓存方法

Info

Publication number: CN112561197B
Application number: CN202011535240.3A
Authority: CN
Inventors: 邓星; 张明; 周航; 孙佳炜; 嵇文路; 朱红勤; 杨斌
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-08-23
Anticipated expiration: 2040-12-23
Also published as: CN112561197A

Abstract

本发明涉及一种带有主动防御影响范围的电力数据预取与缓存方法，利用集成学习实现电力系统日志异常监测和分析；截获电力系统调用，提取主动防御行为；监测主动防御行为对电力系统文件、系统进程、系统注册表变动的影响；基于主动防御行为对系统文件、系统进程、系统注册表变动的综合分析，实现主动防御行为对当前系统影响范围的综合评估和预警；利用WGAN实现电力数据完整性攻击防御，通过判别器和生成器训练实现检测数据完整性攻击，补全受损测量值数据，从而达到对电力数据完整性攻击的主动防御；构建基于FP‑Growth的数据预取模型；构建数据缓存模型实现数据预取模型的数据缓存。本发明适用于电力系统用户安全高效的使用电力系统内部数据。

Description

一种带有主动防御影响范围的电力数据预取与缓存方法

技术领域

本发明属于互联网技术领域，尤其涉及一种带有主动防御影响范围的电力数据预取与缓存方法。

背景技术

当前，与传统电力系统相比，电力系统信息安全具有点多面广、技术复杂的特点，它有很复杂的接口和不同的通信手段，由于网络的机型、设备不同，因此统一地对其连接十分繁杂。电力系统能够进行电力户线延伸、中继线传输，并可以将光纤、微波信号转换成不同类型种类，以构造出复杂的网络通信模式，但这一复杂的模式也引起了工作过程中的不便，进而导致其信息安全风险隐患更为突出。特别的，电力系统信息安全具备传统互联网和电网系统双重安全威胁特点，安全威胁种类多，安全防御难度大。

与此同时，目前的电力系统主要使用基于Web网页模式开发，由于其设计基础是桌面系统，设计方式并不符合现今移动互联网络的特点。传统基于桌面Web网页模式的后台数据库设计并未使用数据预取及缓存机制，并没有对移动网络的带宽、延迟、稳定性相比于等于固定网络相比均有一定的差距的因素。与此同时，在电力系统并发访问量较大的时候，极易出现电力系统后台数据库查询瓶颈而导致电力系统用户请求得到不及时相应的情况，严重影响到操作效率。

实际工作中，存在如针对电力系统的虚假数据注入攻击，数据完整性攻击及网络攻击等诸多不安全因素的同时，在电力系统并发访问量较大的时候，极易出现电力系统后台数据库查询瓶颈而导致电力系统用户请求得到不及时相应的情况，严重影响到操作效率等问题。

发明内容

本发明的目的是为了提供一种带有主动防御影响范围的电力数据预取与缓存方法，适用于电力系统用户安全高效的使用电力系统内部数据。

为解决以上技术问题，本发明的技术方案为：一种带有主动防御影响范围的电力数据预取与缓存方法，其步骤包括

步骤1：利用集成学习实现电力系统日志异常监测和分析，从而适应电力系统安全风险监测的需求；

步骤2：截获电力系统调用，提取主动防御行为，接下来的主动防御行为分析及主动防御影响范围评估作好准备；

步骤3：监测主动防御行为对电力系统文件变动的影响，实现主动防御对系统文件影响的评估和分析；

步骤4：监测主动防御行为对电力系统进程变动的影响，实现主动防御对系统进程影响的评估和分析；

步骤5：监测主动防御行为对电力系统注册表变动的影响，实现主动防御对系统注册表影响的评估和分析；

步骤6：基于主动防御行为对系统文件、系统进程、系统注册表变动的综合分析，实现主动防御行为对当前系统及网络设备的影响范围的综合评估和预警；

步骤7：利用WGAN实现电力数据完整性攻击防御，通过判别器和生成器训练实现检测数据完整性攻击，补全受损测量值数据，从而达到对电力数据完整性攻击的主动防御；

步骤8：构建基于FP-Growth的数据预取模型，提升用户发起请求之前的主动预判断准确性；

步骤9：构建数据缓存模型实现数据预取模型的数据缓存，从而保证降低数据请求的等待时间的同时降低电力数据的存取频率。

按以上方案，所述步骤1中，集成学习为时间序列分析集成学习，集成学习的策略为：通过各预测算法获取预测结果；

通过权重更新策略来更新每个预测算法的权重；

根据各预测算法的预测结果和权重计算集成学习的结果。

按以上方案，权重更新策略为：

利用每个预测值和真实值之间的差异，计算预测算法在时间点上的相对误差；

利用相对误差对权重进行归一化来更新权重。

按以上方案，所述步骤2中，采用strace技术进行电力系统调用截获。

按以上方案，所述步骤3中，监测电力系统文件变动具体包括：监测敏感目录创建可疑文件、监测文件删除和监测修改文件属性。

按以上方案，所述步骤4具体为：采用IDT HooK检测方法检测系统函数是否被挂钩来判断隐藏在电力系统中的Rootkit，进而是实现对主动防御执行过程中对电力系统进程变动的影响；IDT HooK检测方法用于查找当前电力系统中的中断描述符表的各个表项值，查找出来以后与先前保存在基准数据库中的值进行比较，判断这两个值是否相等，以确定电力系统中是否存在由于执行主动防御行为所产生的隐藏进程。

按以上方案，所述步骤5具体为：通过基于增量支持向量机的检测模型监测主动防御行为对电力系统注册表变动的影响。

按以上方案，所述步骤6具体步骤为：

步骤6.1：实时监控电力系统，包括文件变动操作、注册表变动操作以及进程变动注入三个方面，并拦截这些操作行为抽象成一组API调用序列；

步骤6.2：对API调用序列进行分析和类别判断，实现对需要执行的主动防御策略对电力系统造成的影响预警，结果有：异常主动防御策略和正常主动防御策略；若判定结果为异常主动防御，则直接将主动防御策略所造成影响分析和预警信息发送给系统管理人员，由人工进行干预；若判定结果为正常主动防御，则直接将该主动防御策略放行所产生的影响信息返发送给系统管理人员。

按以上方案，所述步骤8具体为：构建基于FP-Growth算法挖掘关联规则的电力数据预取模型，包括使用FP-Growth算法作为电力系统用户数据请求关联规则的挖掘算法，并在电力数据预取的过程中加入了对关联规则的泛化过程。

按以上方案，所述步骤9具体为：构建基于优先级动态分层的电力数据缓存模型，待缓存电力数据具有动态的优先级，通过实时的优先级改变来达到电力数据分层的改变。

本发明具有如下有益效果：

一、集成学习实现电力系统日志异常监测和分析，从而适应电力系统安全风险监测的需求，较之以往的异常监测算法，基于集成学习的异常检测算法适应度更强；

二、利用基于主动防御对系统文件、系统进程、系统注册表变动的综合分析，实现主动防御策略对当前系统及网络设备的影响范围的综合评估和预警；

三、构建了基于FP-Growth的数据预取模型，提升了用户发起请求之前的主动预判断准确性；

四、综合考虑复杂网络环境的特点以及影响数据预取的各种因素，提出适合电力系统网络环境的数据预取模型，使其能根据电力系统用户的当前操作以及过往的操作记录，能够高效的实现将电力系统用户可能需要的数据自动预取到缓存之中，从而实现高效的电力数据访问。

附图说明

图1为本发明实施例方法流程图；

图2为本发明的IDT HOOK检测方法流程图；

图3为本发明的基于SVM的注册表异常检测模型示意图；

图4为本发明的分层访问优先级示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明作进一步详细说明。

请参考图1至图4，本发明为一种带有主动防御影响范围的电力数据预取与缓存方法，其步骤包括：

结合电力系统环境及终端设备告警日志的特点确立监测目标。其中，针对电力系统的异常监测是通过监测电力系统日志数据进而预测接下来的一段时间之内整个电力系统是否会出现异常，一旦预测出异常，则可以通过数据备份、任务调度、或者重新启动核心设备等方式来减小异常造成的损失从而在一定程度上提升电力系统的可靠性。

集成学习为时间序列分析集成学习，集成学习的策略为：通过各预测算法获取预测结果；通过权重更新策略来更新每个预测算法的权重；根据各预测算法的预测结果和权重计算集成学习的结果；其中，权重更新策略为：利用每个预测值和真实值之间的差异，计算预测算法在时间点上的相对误差；利用相对误差对权重进行归一化来更新权重。

集成学习的策略在数据挖掘的分类问题中己经被广泛应用。在分类问题中，数据样本被认为是独立同分布的即样本被认为是从相同的分布中独立抽取的。然而对于时间序列分析问题，样本间存在强烈的时间维度的关联。此外，与分类问题不同，时间序列分析问题的类标(即需要预测的值)是连续值，因此无法使用类似于分类的投票机制来获取最终结果。对于时间序列分析集成学习，集成学习策略主要通过预测评估标准来更新每个预测算法的权重。因此，在具体的实现过程中，采用了三种不同的时间序列预测技术，分别是滑动平均，自回归预测，支持向量机。

为了集成上述三种预测技术的预测结果，假设预测算法p∈P在时间点t的预测结果为

且它在时间点对应的权重为

则在时间点t针对某个日志的预测值为：

初始状态，t＝0，所有预测算法对预测结果的贡献程度都相同，比如

基于集成算法的权重更新策略也跟传统分类基本策略不同。在分类的预测场景中，结果只能表示为“正确”或者“不正确”，而集成算法权重更新的目的，恰恰是要去提升那些分类结果正确的分类器的权重。在预测的场景中，预测结果是连续值并且预测算法的权重会直接影响到集成算法的结果。

为了实现集成预测算法权重的更新，利用每个预测值

和真实值

之间的差异，预测算法i在时间点t的相对误差

如下式所示：

其中，

表示预测评估成本函数MAE，LSE，MAPE计算出来的预测算法i或者p的预测成本。

相对误差由于没有归一化，不能在预测算法的更新权重中使用。由于最终的预测结果是多个预测算法的线性组合，下式可以用来对权重进行归一化。

根据这个权重更新策略，可以保证每个时间点的最优预测算法的权重能够增加。其实不光传统的预测算法在这个特殊场景中无法满足需求，根据进一步的研究，传统的评估标准，同样无法满足电力工控网络系统异常数量监测的需求。

常见的预测评估标准是错误代价函数。传统的时间序列分析方法使用的错误代价函数通常为均方差(MSE)、平均绝对误差(MAE)、平均绝对比率误差(MAPE)等。从本质讲，这些错误代价函数都是对称代价函数，即错误代价函数同等对待方法的过估计及不足估计。其中，MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。

其中，observed_i表示真实值，predicted_i表示预测值。

平均绝对误差是绝对误差的平均值。平均绝对误差能更好地反映预测值误差的实际情况。

MAPE值越大，说明预测值与原始值差别越大，也即预测效果越差，MAPE的绝对值越小精度越高。这些函数出发点是衡量时间序列分析方法的几何误差以及在训练时引导方法以几何误差最小的形式趋近真实值。这些函数从广义上来讲普适于大多数时间序列预测的问题。但是对于预测面向电力工控系统的异常数量的场景，它们都具有一定的局限性。这些评估标准有一个共性，那就是它们仅仅通过预测值和实际值的绝对误差进行错误估计，而不区别对待过高预测(预测值高于实际值)以及过低预测(预测值低于实际值)。

电力系统异常数量的预测存在过估计和估计不足的情况，并且这两种情况在特定场景中具有不同的语义，从而会导致不同的代价，具体而言，如果预测的异常数量高于实际的情况，系统的安全不会受到影响，但是作为整个电力系统而言却要为这些浪费的资源买单；相反，如果预测的异常数量低于实际的情况，那么系统就不会采取足够的异常处理措施，进而系统的安全会受到影响。

步骤2：截获电力系统调用，提取主动防御行为；

利用主动防御行为特征的提取，实现主动防御行为提取模块的作用就是要截取系统调用，进一步提取信息，为接下来的主动防御行为分析及主动防御影响范围评估作好准备。

在对主动防御策略影响范围评估中占据相当重要地位的是主动防御策略的行为特征提取模块,它同时也是主动防御策略的行为分析模块的重要信息来源。电力系统调用序列是主动防御策略的的行为的具体表现。如果主动防御策略的行为会对电力系统造成异常也是通过一系列的系统调用来对电力系统造成伤害的。所以，将各个主动防御进程的电力系统调用成功的截获以后，再对主动防御策略进行相应的控制，就能够提前免除电力系统数据出现异常的发生。主动防御策略的行为提取模块的作用就是要截取电力系统的调用，进一步提取信息，为接下来的主动防御策略的行为分析模块作好准备，主要涉及到建立主动防御策略的正常行为库，还会进一步的对电力系统的运行和响应的速度产生影响，所以，主动防御系统对本模块的研究提出了高标准和严要求。电力系统调用在电力系统完成功能时都会涉及到。因此，电力系统调用序列串对主动防御策略的行为有着很好的描述。

一般来说，一个进程是不可以访问内核的，它既不可以访问内核的内存也不可以调用内核的函数程序和内核的相通,即需要请求内核服务的时候就只好通过系统调用，它是程序和内核相通的唯一途径，可以说没有系统调用，程序就什么都不能做。所以，提取系统调用也就成为控制程序行为的非常有利的方式；本实施例采用strace技术进行电力系统调用截获，由此可知，截获加载之后，每一个系统调用的执行都要最先执行截获函数，在对相应系统调用信息进行提取以后就会转入原系统调用。

系统调用截获分为如下几步：

(1)得到电力系统中主动防御策略执行时调用的地址，这个地址存在于系统调用表中；

(2)保存原来的每一个系统调用地址；

(3)把得到的每一个地址存在系统调用表中的相应地址处。

strace是一个用于在运行时跟踪进程调用的系统调用的工具，它同时报告进程收到的信号或软中断。在最简单的情况下，strace运行指定的命令直到该命令执行完成，它截获并记录进程调用的系统调用和收到的信号，从开始执行直到才会结束；它还有一个附加的功能,会把获得的系统调用的名称、参数和返回值存放到标准输出或者存放到指定的文件。strace是一个功能强大的调试，分析诊断工具；strace还可以利用一个表达式对某一系统调用进行控制跟踪，从而满足根据用户的需求；strace是一个应用层的程序，虽然strace能够比较详尽的截获系统调用的信息，但是缺少对于进程的跟踪的能力。它只能对进程从开始执行到初始化父进程正常退出这段时期的系统调用进行追踪。这样以后有新的调用请求来临的时候。就无法截获之后的主动防御策略对系统的调用。

在电力系统中，电力文件系统负责存储和管理电力文件数据及电力相关信息。它是一种用于向电力系统用户提供底层数据访问的机制，可以为用户建立文件、存入、读出、修改、转储文件，控制文件的存取，当用户不再使用时关闭文件等。主动防御策略执行时的很多行为都需要访问文件系统，有的会在特定目录下释放可执行程序、动态链接库、驱动文件、配置文件等；有的会复制自身到系统敏感目录或其路经，或者删除自身文件；也可能释放或下载一个或多个文件到本地磁盘中，甚至还有些主动防御策略会删除系统中原有的文件；还有的会复制系统中的重要数据甚至机密文件，这些都是文件操作。可以说绝大多数异常主动防御策略爆发后都会对电力系统文件有不同程度的影响。异常主动防御策略对电力系统中文件的操作对于其功能的完成是至关重要的，而异常主动防御策略执行时是没有任何界面的，因此监控主动防御策略运行过程中的文件操作，对发现和识别恶意主动防御策略具有重要意义。

在实现过程中，本发明实现对下面对几种常见的文件行为的监测步骤如下：

(1)敏感目录创建可疑文件监测：监测异常主动防御策略是否在电力系统目录或其它隐蔽的位置释放文件。

(2)文件删除监测：监测异常主动防御策略在执行的过程中是否将当前目录下的自身文件删除，以实现对电力系统的安全进行保护。

(3)修改文件属性监测：监测异常主动防御策略执行过程中是否在将文件设为隐藏文件，修改文件的创建日期为系统文件的创建日期，重命名伪装成系统文件等操作。

步骤4：监测主动防御行为对电力系统进程变动的影响，实现对主动防御对系统进程影响的评估。

本发明在实现的过程中，电力系统的进程检测技术的监测重点在进程行为上。钩子技术是恶意代码在内核模式下隐藏自身信息常用的技术之一，恶意代码通过挂钩系统服务函数来修改函数的执行流程，篡改函数的返回结果，进而达到欺骗用户和系统的目的。所以可通过检测系统函数是否被挂钩来判断隐藏在电力系统中的Rootkit，进而是实现对主动防御策略执行过程中对系统进程变动的影响。本发明在实现过程中主要采用的时IDTHooK检测方法，参阅图2，在检测IDT钩子时，主要通过对比当前系统中的中断描述符表和基准数据库中的中断描述符表，以检测IDT是否被挂钩具体步骤如下：

(1)在单处理器计算机上，使用SIDT指令在内存中查找中断描述符表。而在多处理器计算机上，需使用SIDI指令查找每一个CPU对应的中断描述符表。

(2)读取保存在基准数据库中的IDT，与当前的IDT进行比较，判断其是否相等，如果相等说明未被挂钩，否则说明IDT表被修改挂钩，记录检测结果。

(3)判读IDT中的各表项是否比较完毕，如果比较完毕则退出程序，否则跳转到步骤2继续执行。

该检测方法最主要的步骤是查找当前电力系统中的中断描述符表的各个表项值，查找出来以后与先前保存在基准数据库中的值进行比较，判断这两个值是否相等，以确定电力系统中是否存在由于执行主动防御策略所产生的隐藏进程。

步骤5：监测主动防御行为对系统注册表变动的影响，实现对主动防御对系统注册表影响的评估。

基于增量支持向量机的检测模型主要包括注册表感知器、样本预处理器、支持向量机训练系统和支持向量机预测系统四个部分，如图3所示。

注册表感知器用于收集注册表初始化样本集和系统运行期样本集，即收集到的样本集分为初始正常样本集和待检测样本集两种。初始正常样本集用于建立异常检测模型，并通过次模型检测系统运行期访问行为是否偏离正常模型来发现病毒和入侵行为。

样本预处理器用于对收集到的样本进行预处理或转换。由于支持向量机方法是数值分析方法，所以需要将注册表特征转化为数值特征进行处理。支持向量机训练系统用于训练正常样本集来生成检测模型库，它通过计算一组数据的最小超球边界来对该组数据进行描述。方法是将正常样本集分为互不相交的n个部分，训练得到支持向量集，并用支持向量集取代本组训练样本集和下一组样本集进行分类学习，直到所有样本训练完成得到检测模型。支持向量机预测系统是一个分类系统，在已确定正常向量空间模型最小超球边界的情况下，计算待检测数据集是否偏离超球边界来判断是否发生异常行为。最后通过检测率和虚警率来评估该模型，计算公式如下:

步骤6：利用基于主动防御对系统文件、系统进程、系统注册表变动的综合分析，实现主动防御策略对当前系统及网络设备的影响范围的综合评估和预警。行为分析是主动防御系统的核心部分，主要功能是利用本方法实现的改进的分类算法对行为进行综合分析，并给出判定结果并发送至系统管理员处进行人工操作，主要有以下几个步骤：

(1)实时监控电力系统，包括文件操作、注册表操作以及进程注入等三个方面，并拦截这些操作行为抽象成一组API调用序列。

(2)利用本方法实现的基于增量支持向量机的分类算法对行为监控模块传递过来的API调用序列进行分析和类别判断，实现对需要执行的主动防御策略对电力系统以及所属的物理设备所造成的影响预警，结果有：异常主动防御策略、正常主动防御策略；若判定结果为异常主动防御，则直接将主动防御策略所造成影响分析和预警信息发送给系统管理人员，由人工进行干预；若判定结果为正常程序，则直接将该主动防御策略放行所产生的影响如什么时间删除了什么文件等相关信息返发送给系统管理人员。

(3)当判定结果为不确定主动防御策略时，需要系统管理人员来决定。若系统管理人员没有决断能力，则开启安全模式，此时不确定主动防御策略将判定为异常主动防御策略并将该主动防御策略所造成的影响和预警信息发送给系统管理人员，由系统管理人员对此主动防御策略进行决定并将决定的结果信息返还给系统内部的主动防御模块；若系统管理人员在30秒内没有做出决定，则系统默认为正常主动防御并将正常主动防御策略执行所产生的影响和预警信息返还给系统内部的主动防御模块，并执行相应的操作。

(4)与此同时，若行为分析认为该请求为正常主动防御策略时，电力系统会接收到请求放行的信息，并且将该主动防御策略执行所产生的影响进行评估，并弹窗将告知系统管理人员系统将执行主动防御策略。

步骤7：利用WGAN实现电力数据完整性攻击防御方法，通过判别器和生成器训练实现检测数据完整性攻击，补全电力系统的受损测量值数据，从而达到对电力数据完整性攻击的主动防御。

传统的生成对抗网络的最优判别器下，生成器损失面临梯度消失问题，此外，生成器损失面临优化目标荒谬、梯度不稳定、对多样性与准确性惩罚不平衡导致模式崩溃等问题，而WGAN的提出在一定程度上解决了以上存在的问题，具体的WGAN网络设计如下所示：

(1)WGAN引入Wasserstein距离，由于它相对KL散度与JS散度具有优越的平滑特性，理论上可以解决梯度消失问题Wasserstein离的公式表示如下：

W(Pr，Pg)＝inf_γs(x，y)E(x，y)[||x-y||]

相比KL散度、JS散度的优越性：即便两个分布没有重叠，Wasserstein距离仍能反映它们的远近。KL散度和JS散度足欠变的，Wasserstein距离却是平滑的，可以提供有意义的梯度。

(2)WGAN的形式

然后通过数学变换把Wasserstein距离转换成求解的形式，并使用一个判别器网络(参数数值范围受限)来将这个形式最大化，从而实现与Wasserstein距离近似。具体的，将Wasserstein距离的可求解形式表示为：

要求函数f的导函数绝对值不超过尺的条件下，对所有可能满足条件的f取到上式的上界，然后再除以K。

进而，用该距离作为对抗生成M络的损失函数，可得：

生成器损失函数：-E_x～pr[f(x)]

判别器损失函数：E_x～pg[f(x)]-E_x～pr[f(x)]

由此可知，训练进程中损失的数值越小，则代表数据的真实分布情况与生成的分布情况的Wasserstein距离越小，生成对抗网络训练的效果越好。相对KL散度与JS散度，Wasserstein距离具有明显优越的平滑特性，因此理论上来说可以解决可能出现的梯度消失问题。在此近似的最优判别器下，优化生成器缩小Wasserstein距离，就能够有效地使生成的分布无限接近真实的分布。WGAN既解决了训练过程不稳定的问题，也为生成样本的质量提供了一个可靠的训练进程指标。

基于此，本发明实现了一种针对数据完整性攻击的WGAN的防御方法，主要操作包括：根据p(Z_m)取样n个再生数据

根据p(Z)取样n个数据{Z⁽¹⁾，Z⁽²⁾，...，Z⁽ⁿ⁾}；更新判别器梯度

在迭代一定次数后，训练结果收敛，根据p(Z_m)取样n个再生数据

更新生成器梯度

基于WGAN的数据完整性攻击防御方法的算法示例如下：

输入：原始测量值数据Z，判别器训练的迭代次数K_d，生成器训练的迭代次数K_g

步骤：

While:K_g≥0do

For K_d≥0do

根据P(Z_m)取样n个再生数据

根据p(Z)取样n个数据{Z⁽¹⁾，Z⁽²⁾，...，Z⁽ⁿ⁾}；

更新判别器梯度

Endfor

根据p(Z_m)取样n个再生数据

更新生成器梯度

End while

输出：测量值向量受到攻击的概率D(Z)，受损测量值的数量N_d,再生合并数据Z_m

步骤8：构建基于FP-Growth的数据预取模型，提升用户发起请求之前的主动预判断准确性。

FP-Growth算法挖掘关联规则的过程包含两个部分：构建FP-Tree、递归挖掘FP-Tree中的关联规则。FP-Growth算法扫描两遍数据库的过程就发生在FP-Tree的构造阶段，FP-Tree是一种前缀树，由于相同路轻可共用，使得仅需要在构造的过程中存储一次，从而达到了压缩数据库的目的。第二阶段为从构造的FP-Tree中递归挖掘出所有的频繁项集。

构建FP-Tree的过程：

步骤1)遍历扫描事务数据库中的事务，按照预先设定的最小支持度阀值3来获取计算得出频繁项集合F＝{i₁，i₂，i₃，...，i_n}并保持原有项之间的相对顺序，同时计算每一个频繁项i_k的支持度support(i_k)。集合F按照支持度递减排序如下所示：FList＝SortDesc(F)＝{(c:4)，(f:4)，(a:3)，(b:3)，(m:3)，(p:3)}

步骤2)创建FP-Tree并标记为T，设置超级节点root<null>，以避免生成的FP-Tree因没有共同的根节点而形成森林的情况。

对于第二条事务数据处理后的数据{f,c,a,b,m}，它与路径S1＝{f,c,a,m,p}中具有相同的部分路径{f,c,a},对于这部分相同的路径，可以直接通过对节点计数加1达到路径复用的目的，即{(f:2),(c:2),(a:2)}。对于后面不同的路径，则需要创建新的路径，{(b:1),(m:1)},由于整体路径中b节点在a节点后面，故b节点是a节点的子节点。同理，m是b的子节点。

频繁项挖掘过程：递归调用FP-Growth也实现关联规则的挖掘，FP-Growth是整个算法的核也。通过不断的递归过程，FP-Growth根据已生成的FP-Tree挖举出关联规则。FP-Growth算法是构造移动评教数据预取模型的核心。FP-Growth通过挖掘历史记录中的事务从而找出关联规则，数据预取模型正是基于对用户过往历史记录的挖掘，寻找出历史数据中的频繁项集。关联规则步骤挖掘步骤如下：

步骤1)：设定最小的支持度阔值为3，扫描处理得到的事务集合T，获取全部的频繁项(即频繁的请求URL)以及每个频繁项的出现次数(即总的请求次数)。

步骤2)：将所得到的频繁请求的URL数据按照请求次数排序，得到FList。

步骤3)：对所有的事务集合T进行扫描，取出其中每个事务对应的频繁项集合。

步骤4)：按照上述FP-Tree构造算法构建FP-Tree，并使用FP-Growth挖掘其中的关联关系。

在挖掘关联规则时依据的数据是全体访问记录，所挖掘的规则也是全体用户所共有的。由于每个用户各自具有自身的请求差异性，这些差异性在全体数据中不会呈现频繁出现的情况，一些个体的关联性质在挖掘过程中由于没有达到阀值而被认为是非频繁出现，而谊些数据对于个体而言可能是频繁访问的。在数据预取过程中，随机泛化预取的范围，适当扩大预取的数据量，可以有效的解决个体用户访问特性在数据挖掘过程中被忽略的情况。对于挖掘出的关联规则义X→Y,使用如下方式进行预取范围的泛化。

随机泛化过程：

步骤1)：计算出本用户标识所有请求的总数及每个请求的请求次数。

步骤2)：将本关联规则的支持度作为泛化的条件阈值。

步骤3)：查找所有条件包含X的事务，并将这些事务中出现次数高于步骤2中阈值的请求作为备用。

步骤4)：从备用请求中随机挑选一个或多个请求集合并，加入到Y中，形成泛化的关联规则X→{Y,R}。

步骤5)：向数据库发起包含{Y,R}的全部数据请求，并将数据结果存入缓存系统之中。

完成关联规则泛化后，依据当前用户所在的请求状态以及用户标识符，计算每个可用关联规则的代价值，选取代价值最高的三个(如果低于三个则选取实际个数)的预取规则，提取出其中的URL请求，剔除其中与数据库读取无关请求，对每个数据请求逐一访问数据库，得到缓存结果，将缓存结果存入缓存系统中备用。在数据预取的过程，随机加入高频出现的请求来泛化数据预取的对象主要原因有如下几点：

(1)有些数据对于个体用户来说属于高频请求，但对于整体请求而言所占比例非常小，往往在关联分析过程中不会出现与之相关的关联规则。将其作为随机化的参数加入，有利于趋向于个体化请求特性。

(2)高频数据的访问概率远大于普通数据，即使在一次请求中不被使用到，在其它的请求中被使用的概率比较大，通过泛化的关联规则来预取部分高频数据，即使其在本次预测中是无巧数据，其在未来的操作中也会有很大的使用概率。

(3)使用以往数据来预测用户的数据请求不一定是百分百准确的，往往只能保证一定的命中率。当用户的使用结构发生快速的改变时，若关联规则还未得到更新，以往的规则对于新的使用环境将是无效的。加入随机的泛化过程，可增加在使用环境发生改变后，预取策略的运行性能与可用性。

由于预取的数据不是用户真实的请求数据，而是由服务器端预测的用户可能请求的数据，将全部数据发往客户端会大大加重网络负担和客户端的资源消耗。因而在数据预取模型向系统请求得到预取数据之后不能立即发往客户端，而是需要在服务器端缓存系统中将其缓存备用。待客户端发起真实的数据请求时，再从缓存系统中将其取出返回客户端，利用缓存机制将数据读取这一耗时步骤异步实现，从而达到降低等待时间的目的。同时缓存系统缓存了以往的预取数据，对于这些数据的再次请求，预取系统不再需要重复预取。

缓存数据有“冷热”之分，将访问频繁且不容易发生改变的数据定义为热数据，将访问不太频繁且可能不再使用的数据定义为冷数据。现有缓存分层技术往往是依据网络逻辑结构和实施位置划分的，本方法在实现过程中提出的分层模型是依据数据冷热程度划分，同一层级用于聚合热度相近(此处热度等同下文中的层级值)的数据，逻辑分层结果表示如图4所示，其中级数越高的缓存中的数据具有越高的优先级，这些数据在缓存替换时会被优先被保留。

缓存层级的计算包含缓存层级值的计算过程以及缓存层级划分过程。缓存层级值计算过程主要完成层级值的计算，层级值依据缓存数据的业务逻辑特性计算而来。缓存层级划分根据计算得到的缓存层级值映射到对应层级。

(1)缓存层级值计算：

根据电力系统数据的业务特点，将是否为公用数据、是否容易发生更新、是否适合缓存、是否具有时效性等数据特性现提取为特性集合T＝{t₁，t₂,t₃，…,t_n}，对每个系统特性赋予

的特征权值，其中ε为设置的偏移值，用于调节特征权值的偏移。每一个待缓存数据的公用程度按照如下方式计算：矩阵N中记录所有特性对应的不同持征值，v_ij表示第i个特征对应的第j级特征权值。矩阵M对应为0-1矩阵，记录待缓存数据具有的特性。依据下式计算数据的公用程度值G(d_i)：

数据更新频率按照数据所属类别来进行计算，此处将数据分为热门数据、常用数据、不常用数据三类，分别使用c₁,c₂,c₃来代替对应类别的更新权值。依据下式所示计算数据的加权更新频率值。

对于所需要缓存的数据d_i数据公用程度G(d_i)、数据更新频率R(d_i),数据的层级权值计算公式如下：

F(d_i)＝α×G(d_i)+β×R(d_i)

在上述的层级值F(d_i)计算过程中，α和β分别为公用程度值和数据更新频率值对应的权值系数，使用α，β两个参数调节系统的缓存倾向，较大的系数可W让对应的特性对F(d_i)的影响更大。

当α>β时，计算出的F(d_i)所受的影响更加偏向于G(d_i)的数值。此时缓存的层级值更加偏向于待缓存数据的公用程度。适用于公用数据集合PData与热点数据HData有大量交集的情况。

当α<β时，F(d_i)所受的影响更加偏向于R(d_i)的数值。此时缓存的层级值更加偏向于待缓存数据的更新频率与时效性。时效性较强的数据会被快速缓存起来，适用于电力系统用户数据相关且在使用过程中会快速更新或替换的数据。

(2)缓存层级映射

设定缓存层级闽值，其中t＜Max(F(d_i),按照如下公式计算缓存所在的缓存层级。

C(d_i)＝F(d_i)/t

并将所得数据压入对应层级的缓存之中。F(d_i)越大，对应的C(d_i)也就越大，层级越大的缓存拥有越高的缓存优先级和读取优先级。

当用户发起了真实的数据请求时，以请求中的SQL语句对应的MD5值为依据按照如下流程进行读取：

步骤1)读取顶级缓存中的数据，如果数据存在则直接返回命中的记录项，并将缓存记录中的时效性中的命中计数加1，同时记录命中时间，结束访问过程。

步骤2)如果没有命中待读取的数据，则进入下一级缓存中重复步骤1)，命中返回。

步骤3)全部缓存均未命中时，直接使用SQL查询数据。

本发明未涉及部分与现有技术相同或可采用现有技术加以实现。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种带有主动防御影响范围的电力数据预取与缓存方法，其特征在于：其步骤包括

步骤1：利用集成学习实现电力系统日志异常监测和分析；

步骤2：截获电力系统调用，提取主动防御行为；

步骤3：监测主动防御行为对电力系统文件变动的影响；

步骤4：监测主动防御行为对电力系统进程变动的影响；

步骤5：监测主动防御行为对电力系统注册表变动的影响；

步骤6：基于主动防御行为对系统文件、系统进程、系统注册表变动的综合分析，实现主动防御行为对当前系统影响范围的综合评估和预警；

步骤8：构建基于FP-Growth的数据预取模型；

步骤9：构建数据缓存模型实现数据预取模型的数据缓存。

2.根据权利要求1所述的电力数据预取与缓存方法，其特征在于：所述步骤1中，集成学习为时间序列分析集成学习，集成学习的策略为：

通过各预测算法获取预测结果；

通过权重更新策略来更新每个预测算法的权重；

根据各预测算法的预测结果和权重计算集成学习的结果。

3.根据权利要求2所述的电力数据预取与缓存方法，其特征在于：权重更新策略为：

利用相对误差对权重进行归一化来更新权重。

4.根据权利要求1所述的电力数据预取与缓存方法，其特征在于：所述步骤2中，采用strace技术进行电力系统调用截获。

5.根据权利要求1所述的电力数据预取与缓存方法，其特征在于：所述步骤3中，监测电力系统文件变动具体包括：监测敏感目录创建可疑文件、监测文件删除和监测修改文件属性。

6.根据权利要求1所述的电力数据预取与缓存方法，其特征在于：所述步骤4具体为：采用IDT HooK检测方法检测系统函数是否被挂钩来判断隐藏在电力系统中的Rootkit，进而实现对主动防御执行过程中对电力系统进程变动的影响；

IDT HooK检测方法用于查找当前电力系统中的中断描述符表的各个表项值，查找出来以后与先前保存在基准数据库中的值进行比较，判断这两个值是否相等，以确定电力系统中是否存在由于执行主动防御行为所产生的隐藏进程。

7.根据权利要求1所述的电力数据预取与缓存方法，其特征在于：所述步骤5具体为：通过基于增量支持向量机的检测模型监测主动防御行为对电力系统注册表变动的影响。

8.根据权利要求1所述的电力数据预取与缓存方法，其特征在于：所述步骤6具体步骤为：步骤6.1：实时监控电力系统，包括文件变动操作、注册表变动操作以及进程变动注入三个方面，并拦截这些操作行为抽象成一组API调用序列；

9.根据权利要求1所述的电力数据预取与缓存方法，其特征在于：所述步骤8具体为：构建基于FP-Growth算法挖掘关联规则的电力数据预取模型，包括使用FP-Growth算法作为电力系统用户数据请求关联规则的挖掘算法，并在电力数据预取的过程中加入了对关联规则的泛化过程。

10.根据权利要求1所述的电力数据预取与缓存方法，其特征在于：所述步骤9具体为：构建基于优先级动态分层的电力数据缓存模型，待缓存电力数据具有动态的优先级，通过实时的优先级改变来达到电力数据分层的改变。