CN107835087B

CN107835087B - 一种基于频繁模式挖掘的安全设备告警规则自动提取方法

Info

Publication number: CN107835087B
Application number: CN201710827658.3A
Authority: CN
Inventors: 李勃; 周媛; 梁野; 邵立嵩; 苏达; 张宏杰; 施佳峰; 贺建伟
Original assignee: Beijing Kedong Electric Power Control System Co Ltd; State Grid Ningxia Electric Power Co Ltd
Current assignee: Beijing Kedong Electric Power Control System Co Ltd; State Grid Ningxia Electric Power Co Ltd
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2022-09-02
Anticipated expiration: 2037-09-14
Also published as: CN107835087A

Abstract

本发明公开了一种基于频繁模式挖掘的安全设备告警规则自动提取方法，包括如下步骤：S1，采集电力二次系统中不符合安全策略的告警日志信息；S2，对告警日志信息进行关联分析挖掘频繁项集；S3，对频繁项集中的特定日志类型标识进行统计，根据统计的特定日志类型标识挖掘新的告警规则。该方法对于遇到现在没有告警规则对应的新的告警信息时，可以进行规则提取和处理，可以有效的对电力二次系统中不符合安全策略的告警日志信息进行识别和告警，提高了电力二次系统运行的安全性。

Description

一种基于频繁模式挖掘的安全设备告警规则自动提取方法

技术领域

本发明涉及一种安全设备告警规则自动提取方法，尤其涉及一种基于频繁模式挖掘的安全设备告警规则自动提取方法；属于电力通信安全技术领域。

背景技术

电力二次系统是指由各级电力监控系统和调度数据网络(SPDnet)以及各级管理信息系统和电力数据通信网络(SPTnet)构成的系统。电力二次系统是电力系统安全的重要组成部分，与电网调度和控制系统的安全运行紧密关联。电力二次系统内存在大量的安全设备、业务系统，同时伴随着海量的日志数据信息。如何有效的利用这些信息，为电力二次系统的安全稳定运行提供技术支撑，是一直备受关注的问题。

目前，告警规则的设计提取大致分为三类：(1)手工配置规则。(2)专家经验知识库。(3)数据挖掘方法。手工配置规则，通过规则设计人员结合专业知识及业务特点，进行告警规则设计，并加入告警处理系统中；其优点在于设计结合业务特点，告警原因明确；缺点在于只能对已知有限的异常进行告警规则设计，且基于异常或故障表象，难于进行定位。专家经验知识库主要通过智能计算机专家系统根据某一或多个专家提供的知识和经验进行推理和判断从而告警，该方法优点在于有一定的学习能力，缺点在于具有一定知识领域的局限性，处理过程较复杂不适用于海量数据实时处理。数据挖掘方法近年来发展迅速，受到广大研究人员的重视，其优点在于数据挖掘技术日渐成熟，通过利用各种数据挖掘技术，能够自动生成告警规则，适应性较强；其缺点在于模型设计实施难度较大。而且，现有的告警规则提取方法均是对现有的告警规则进行提取，对于现在没有告警规则对应的新的告警信息，则无法进行规则提取和处理。

在李彤岩、肖海林、李兴明发表的《通信网告警加权关联规则挖掘算法的研究[J]》(《电子科技大学学报》，2008，37(6):807-810)，公开了一种采用频繁项来进行告警数据挖掘进而寻找现有的告警规则的机制。在王爽、王国仁发表的《基于滑动窗口的Top-K概率频繁项查询算法研究[J]》(计算机研究与发展，2012，49(10):2189-2197)，提出了一种基于滑动窗口模型的频繁项查询算法，适用于数据流环境频繁项挖掘。在徐前方、肖波、郭军发表的《一种基于相关度统计的告警关联规则挖掘算法[J]》(《北京邮电大学学报》，2007，30(1):66-70)，提出一种以高相关度、高置信度为条件的挖掘算法，可以同时发现频繁和非频繁告警序列间关联规则。

上述文献，均在电力二次系统的安全日志告警规则的提取研究中取得一定研究成果，但是，针对电网系统设备告警规则如何自动生成的问题均未进行探讨，对于遇到现在没有告警规则对应的新的告警信息时，如何进行规则提取和处理的问题，也没有进行有效的处理。除此之外，目前二次系统内网安全监视平台现有告警规则主要参考业务特点和专业知识由专业人员进行设计。一个故障现象的出现通常由层层异常现象发展而来，并伴随着一条或多条告警日志通知运维人员，各级告警日志间存在潜在的关联和规律，而目前这些关联并没有被充分利用，因此为了从这些日志数据中，更深入的发掘现有设备、系统潜在告警规则，一种应用于电力二次系统安全设备日志告警规则的自动提取方法，成为迫切需求。

发明内容

针对现有技术的不足，本发明所要解决的技术问题在于提供一种基于频繁模式挖掘的安全设备告警规则自动提取方法。

为实现上述发明目的，本发明采用下述的技术方案：

一种基于频繁模式挖掘的安全设备告警规则自动提取方法，包括如下步骤：

S1，采集电力二次系统中不符合安全策略的告警日志信息；

S2，对告警日志信息进行关联分析挖掘频繁项集；

S3，对频繁项集中的特定日志类型标识进行统计，根据统计的特定日志类型标识挖掘新的告警规则。

其中较优的，在步骤S3中，对频繁项集中的特定日志类型标识进行统计，包括如下步骤：

判断挖掘出的频繁项集组成的频繁模式与已知的告警规则是否一致；

如果一致则挖掘出的该条频繁项集组成的频繁模式不计分；否则判断所述频繁模式是否含有源端口；

如果所述频繁模式含有源端口则挖掘出的所述频繁项集不计分；否则判断所述频繁模式是否含有源IP、目的IP和目的端口；

根据含有的源IP、目的IP和目的端口的种类个数，对挖掘出的频繁项集组成的频繁模式进行计分；

对计分不为零的频繁模式中的特定日志类型标识进行统计，得到计分不为零的频繁模式中含有的特定日志类型标识的种类。

其中较优的，在步骤S3中，根据统计的特定日志类型标识挖掘新的告警规则，包括如下步骤：

对告警日志信息中的特定日志类型标识进行统计，确定所述特定日志类型标识的类型；

如果统计过后的特定日志类型标识仅含源IP，则告警规则为：仅含源IP，源IP发生端口扫描攻击；

如果统计过后的特定日志类型标识仅含目的IP，则告警规则为：仅含目的IP，目的IP发生DDos攻击；

如果统计过后的特定日志类型标识仅含目的端口，则告警规则为：仅含目的端口，存在对目的端口的扫描或类似攻击行为，发生新型攻击；

如果统计过后的特定日志类型标识含源IP和目的IP，则告警规则为：含源IP和目的IP，存在源IP正在对目的IP进行攻击的风险；

如果统计过后的特定日志类型标识含源IP和目的端口，则告警规则为：含源IP和目的端口，源IP正在对目的端口进行扫描或类似攻击行为，存在发生新型攻击的风险；

如果统计过后的特定日志类型标识含目的IP和目的端口，则告警规则为：含目的IP和目的端口，目的IP和目的端口正在被攻击；

如果统计过后的特定日志类型标识含源IP目的IP及目的端口，则告警规则为：含源IP目的IP及目的端口，源IP正在对目的IP和目的端口进行攻击。

其中较优的，在步骤S2中，对告警日志信息进行关联分析挖掘频繁项集采用FP-Growth算法。

其中较优的，采用FP-Growth算法对告警日志信息进行关联分析挖掘频繁项集，包括如下步骤：

S21，从待分析数据库中读取待分析数据，计算待分析数据集中的事务总数，根据最小支持度阈值，计算最小支持度为；

S22，统计每个事物项的频次，对小于最小支持度的事物项进行过滤，并按照支持度的大小进行降序排列，形成频繁项表；

S23，建立一个根节点为NULL的FP树和一个存储节点信息的Tab表；

S24，将频繁项表中的每条处理好的事务中的数据项按降序依次插入到FP树中，构建出FP树的一条路径；在将所述数据项插入到FP树的过程中，同时用Tab指针指向对应项的节点，并将每个节点的计数增加1；

S25，从Tab表的尾部的项开始向上遍历FP树，每次遍历得到所述项的条件模式基，将所述条件模式基转化为条件FP树；

S26，重复步骤S25，直到FP树包含一个元素项为止；

S27，将每一棵条件FP树生成的所有的从根节点到叶子节点的路径，由路径中的集合产生频繁项集。

其中较优的，在步骤S1中，对采集的所述告警日志信息进行过滤，获取告警日志信息中的特定日志类型标识。

其中较优的，所述特定日志类型标识包括源IP地址、源端口、目的IP地址和目的端口四种类型。

本发明所提供的基于频繁模式挖掘的安全设备告警规则自动提取方法，通过对告警日志信息进行关联分析挖掘频繁项集，对频繁项集中的特定日志类型标识进行统计，根据统计的特定日志类型标识挖掘新的告警规则，该方法对于遇到现在没有告警规则对应的新的告警信息时，可以进行规则提取和处理，可以有效的对电力二次系统中不符合安全策略的告警日志信息进行识别和告警，提高了电力二次系统运行的安全性。

附图说明

图1为本发明所提供的基于频繁模式挖掘的安全设备告警规则自动提取方法的流程图；

图2为本发明所提供的实施例中，构建的FP-tree的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

如图1所示，本发明所提供的基于频繁模式挖掘的安全设备告警规则自动提取方法，包括如下步骤：首先，采集电力二次系统中不符合安全策略的告警日志信息；然后，对告警日志信息进行关联分析挖掘频繁项集；最后，对频繁项集中的特定日志类型标识进行统计，根据统计的特定日志类型标识挖掘新的告警规则。即对告警日志信息中的特定日志类型标识进行统计，确定所述特定日志类型标识的类型；如果统计过后的特定日志类型标识仅含源IP，则告警规则为：仅含源IP，源IP发生端口扫描攻击；如果统计过后的特定日志类型标识仅含目的IP，则告警规则为：仅含目的IP，目的IP发生DDos攻击；如果统计过后的特定日志类型标识仅含目的端口，则告警规则为：仅含目的端口，存在对目的端口的扫描或类似攻击行为，发生新型攻击；如果统计过后的特定日志类型标识含源IP和目的IP，则告警规则为：含源IP和目的IP，存在源IP正在对目的IP进行攻击的风险；如果统计过后的特定日志类型标识含源IP和目的端口，则告警规则为：含源IP和目的端口，源IP正在对目的端口进行扫描或类似攻击行为，存在发生新型攻击的风险；如果统计过后的特定日志类型标识含目的IP和目的端口，则告警规则为：含目的IP和目的端口，目的IP和目的端口正在被攻击；如果统计过后的特定日志类型标识含源IP目的IP及目的端口，则告警规则为：含源IP目的IP及目的端口，源IP正在对目的IP和目的端口进行攻击。下面对这一处理过程进行详细说明。

S1，采集电力二次系统中不符合安全策略的告警日志信息。

表1所示为原始事务数据集，其中事物项内容为电力二次系统纵向加密认证装置的不符合安全策略的告警日志信息，格式定义为：日期<空格>时间<空格>设备名称<空格>异常ID<空格>源IP地址<空格>源端口<空格>目的IP地址<空格>目的端口。

表1原始事务数据集展示表

为了挖掘事务的频繁项集，以便于根据频项集生成新的告警规则，在本发明所提供的实施例中，对采集的告警日志信息进行过滤，获取告警日志信息中的特定日志类型标识，包括源IP地址、源端口、目的IP地址、目的端口四个特定日志类型标识。

S2，对告警日志信息进行关联分析挖掘频繁项集。

目前，基于分布式计算平台的机器学习框架主要有基于Hadoop平台的Mahout、基于Spark平台的MLlib以及图运算框架Graph Lab等。其中，Mahout基于Map Reduce计算模型，因此在Hadoop平台执行作业时需要进行频繁的磁盘读写操作，计算性能较差；GraphLab主要针对图运算模型的计算平台，应用范围较窄；MLlib基于Spark平台实现，是面向迭代式内存计算的需求而设计的，因此更适合于机器学习的应用场景，在这些场景中MLlib具有明显的性能优势。

Spark平台通过引入RDD(resilient distributed da-tasets)模型大大提高了其处理速度，使其在交互式计算和迭代计算方面远胜于Hadoop；擅长迭代计算的优势使得Spark处理平台非常有利于大数据的数据挖掘。在本发明名所提供的实施例中，实验运行于Ubuntu系统，分布式计算环境采用的是Spark MLlib。

在本发明所提供的实施例中，采用基于Spark的FP-Growth算法对告警日志信息进行关联分析挖掘频繁项集。

FP_Growth算法采用分治的思想，用FP树来递归增长频繁项集。将提供的频繁项集的数据集压缩到一棵FP树，但仍保留项集关联信息，之后将这种压缩后的数据集分成一组条件数据库(一种特殊的投影数据库)，每个关联一个频繁项，并分别挖掘每个条件数据库。FP树用来储存所有的频繁模式信息，通过分析FP树路径的条件模式基得到所有的频繁项。其中对于每个支持度大于给定值的项，生成它的条件模式基，然后在它条件模式基的基础上生成它的条件FP树。对每个新生成的条件FP树，重复此步骤，直到结果FP树为空，或只含有唯一的一条路径且此路径的每条子路径对应的项集都是频繁项集。下面采用一个具体的实施例进行详细的说明。在实际的数据挖掘过程中会获取大量的告警日志信息进行分析，在本实施例中为了方便说明，截取实际数据中9条记录进行示例说明。

采集电力二次系统中不符合安全策略的告警日志信息之后，告警日志信息进行过滤，提取所有告警日志异常ID为VEAD278的所有日志。

前已述及，在本实施例中，告警日志信息格式定义为：日期<空格>时间<空格>设备名称<空格>异常ID<空格>源IP地址<空格>源端口<空格>目的IP地址<空格>目的端口。将原始数据中的所有日志如“2014-06-14 09:45:55vlan300VEAD278 10.10.238.237 010.10.223.43 144”，进行解析提取出“源IP地址”、“源端口”、“目的IP地址”、“目的端口”四种类型的特征数据，组成待分析数据库。

采用基于Spark的FP-Growth算法对告警日志信息进行关联分析挖掘频繁项集时，具体包括如下步骤：

S21，从待分析数据库中读取待分析数据，计算待分析数据集事务总数，根据最小支持度阈值40％，计算最小支持度为4。

事务数据库如下表2：

Tid	Items
		1	0.0.0.0,68,255.255.255.255,67
2	10.1.1.2,42290,233.1.1.1,8000
		3	10.1.1.2,42290,233.1.1.1,8000
4	10.1.1.2,42290,233.1.1.1,8000
		5	10.1.2.2,42290,233.1.1.2,8000
6	10.1.1.2,42290,233.1.1.1,8000
		7	10.1.2.2,42290,233.1.1.2,8000
8	0.0.0.0,68,255.255.255.255,67
		9	18.10.10.12,42290,10.10.120.17,8000

表2事务数据库部分展示表

S22，统计每个事物项的频次，对小于最小支持度的事物项进行过滤，并按照支持度的大小进行降序排列，形成频繁项表。

扫描事务数据库得到频繁1-项集F。

0.0.0.0	2
		68	2
255.255.255.255	2
		67	2
10.1.1.2	4
		233.1.1.1	4
10.1.2.2	2
		233.1.1.2	2
42290	7
		8000	7

表3频繁1-项集部分展示表

按照支持度的大小重新排列,将支持度小于4的项过滤。

42290	7
		8000	7
10.1.1.2	4
		233.1.1.1	4

表4过滤后的频繁1-项集部分展示表

重新调整事务数据库。

表5过滤后的事务数据库部分展示表

S23，建立一个根节点为NULL的FP树和一个存储节点信息的Tab表。

创建根节点和频繁项表，如下：

Item	Node-head
		42290
8000
		10.1.1.2
233.1.1.1

表6根节点和频繁项表

S24，将频繁项表中的每条处理好的事务中的数据项按降序依次插入到FP树中，构建出FP树的一条路径；在将数据项插入到FP树的过程中，同时用Tab指针指向对应项的节点，并将每个节点的计数增加1。

加入事务构造FP-tree如下表7和图2所示。

Item	Node-head
		42290
8000
		10.1.1.2
233.1.1.1

表7加入事务构造FP-tree展示表

S25，从Tab表的尾部得项开始向上遍历FP树，每次遍历得到该项的条件模式基，将该条件模式基转化为条件FP树。

S26，重复步骤S25，直到FP树包含一个元素项为止。

S27，将每一棵条件FP树(条件FP-tree)生成的所有的从根节点到叶子节点的路径，由路径中的集合产生频繁项集。

FP-tree建好后，就可以进行频繁项集的挖掘，挖掘从表头header的最后一个项开始，挖掘得到条件模式基后构造条件FP-tree，根据条件FP-tree，进行全排列组合即可得到挖掘出来的频繁模式。

表8FP-tree与频繁项集的对照表

返回所有频繁项集。

表9频繁项集部分展示表

关联规则挖掘是在给定事务数据集中通过一定数据挖掘算法搜索出满足预设最小支持度阀值和最小置信度阀值的所有强关联规则。关联规则挖掘的基本过程分为2个阶段：(1)寻找事务数据库中的所有频繁项集；(2)由频繁项集产生强关联规则。这2个阶段中，寻找频繁项集最为关键，它决定着关联规则的总体性能。通过上述基于Spark的FP-Growth算法对告警日志信息进行关联分析可以挖掘出所需的频繁项集。

根据上述频繁项集的挖掘结果，可以提炼出这些不符合规则的访问日志中，发生频次超过阈值或者端口号不符合业务规定范围内的访问信息，将这些信息定义为新的规则，添加到系统实时的检测队列中，帮助及时的发现问题。表9展示了通过数据挖掘分析出的安全设备日志中存在的强关联规则，但这些规则还需要进行进一步处理，以筛选出合理的新告警规则。在本发明所提供的实施例中，采用一种基于独立原则的模式兴趣度度量机制，即有趣度打分，判定模式为有趣代表该模式可用于决策。其中分值可以根据实际使用需要进行设定。在该实施例中，感兴趣的分值设为1，不感兴趣的分值设为0。具体打分机制如下：

表10打分规则展示表

对频繁项集中的特定日志类型标识进行统计，具体包括如下步骤：

如果一致则挖掘出的该条频繁项集组成的频繁模式不计分；否则判断挖掘出的该频繁项集组成的频繁模式是否含有源端口；

如果挖掘出的该频繁项集组成的频繁模式含有源端口则挖掘出的该条频繁项集不计分；否则判断挖掘出的该频繁项集组成的频繁模式是否含有源IP、目的IP和目的端口；

根据含有的源IP、目的IP和目的端口的种类个数，对挖掘出的频繁项集组成的频繁模式进行计分；例如：如果该挖掘出的该频繁项集组成的频繁模式仅含有源IP、目的IP和目的端口中的一种，则挖掘出的频繁项集组成的频繁模式计1分；如果该挖掘出的该频繁项集组成的频繁模式含有源IP、目的IP和目的端口中的任意两种，则挖掘出的频繁项集组成的频繁模式计2分；如果该挖掘出的该频繁项集组成的频繁模式含有源IP、目的IP和目的端口中的三种，则挖掘出的频繁项集组成的频繁模式计3分。如果挖掘出的该频繁项集组成的频繁模式不含有源IP、目的IP和目的端口的任意一项，则挖掘出的该条频繁项集不计分。

根据以上评定标准对挖掘出的频繁模式进行有趣度打分，分值大于等于零的即认为该模式有趣，可作为新的告警规则进行决策。

根据统计的特定日志类型标识挖掘新的告警规则，具体包括如下步骤：

对告警日志信息中的特定日志类型标识进行统计，确定该特定日志类型标识的类型；

其中，上述通过挖掘获取的告警规则描述如下表：

表11告警规则展示表

在本发明所提供的实施例中，对电力二次系统中安全设备的海量日志数据进行收集，在Spark MLlib计算框架下将收集到的日志数据利用FP-growth算法进行频繁模式挖掘。通过分析，可以挖掘出二次系统安全设备日志间存在的潜在联系，并自动生成新的日志告警规则。通过实验结果表明，该实施例中采用的方法可以有效的自动提取新的二次系统安全设备日志告警规则，为二次系统的安全稳定运行提供有效的技术支撑。

综上所述，本发明所提供的基于频繁模式挖掘的安全设备告警规则自动提取方法，通过采集电力二次系统中不符合安全策略的告警日志信息；对告警日志信息进行关联分析挖掘频繁项集；最后，对告警日志信息中的特定日志类型标识进行统计，根据统计的特定日志类型标识挖掘新的告警规则，该方法对于遇到现在没有告警规则对应的新的告警信息时，可以进行规则提取和处理，可以有效的对电力二次系统中不符合安全策略的告警日志信息进行识别和告警，提高了电力二次系统运行的安全性。

上面对本发明所提供的基于频繁模式挖掘的安全设备告警规则自动提取方法进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于频繁模式挖掘的安全设备告警规则自动提取方法，其特征在于包括如下步骤：

S1，采集电力二次系统中不符合安全策略的告警日志信息；

S2，对告警日志信息进行关联分析挖掘频繁项集；

S3，判断挖掘出的频繁项集组成的频繁模式与已知的告警规则是否一致；如果一致则挖掘出的该条频繁项集组成的频繁模式不计分；否则判断所述频繁模式是否含有源端口；如果所述频繁模式含有源端口则挖掘出的所述频繁项集不计分；否则判断所述频繁模式是否含有源IP、目的IP和目的端口；根据含有的源IP、目的IP和目的端口的种类个数，对挖掘出的频繁项集组成的频繁模式进行计分；对告警日志信息中的特定日志类型标识进行统计，确定所述特定日志类型标识的类型：

如果统计过后的特定日志类型标识仅含源IP，告警规则为：仅含源IP，源IP发生端口扫描攻击；

如果统计过后的特定日志类型标识仅含目的IP，告警规则为：仅含目的IP，目的IP发生DDos攻击；

如果统计过后的特定日志类型标识仅含目的端口，告警规则为：仅含目的端口，存在对目的端口的扫描或类似攻击行为，发生新型攻击；

如果统计过后的特定日志类型标识含源IP和目的IP，告警规则为：含源IP和目的IP，存在源IP正在对目的IP进行攻击的风险；

如果统计过后的特定日志类型标识含源IP和目的端口，告警规则为：含源IP和目的端口，源IP正在对目的端口进行扫描或类似攻击行为，存在发生新型攻击的风险；

如果统计过后的特定日志类型标识含目的IP和目的端口，告警规则为：含目的IP和目的端口，目的IP和目的端口正在被攻击；

如果统计过后的特定日志类型标识含源IP目的IP及目的端口，告警规则为：含源IP目的IP及目的端口，源IP正在对目的IP和目的端口进行攻击。

2.如权利要求1所述的基于频繁模式挖掘的安全设备告警规则自动提取方法，其特征在于：

在步骤S2中，对告警日志信息进行关联分析挖掘频繁项集采用FP-Growth算法。

3.如权利要求2所述的基于频繁模式挖掘的安全设备告警规则自动提取方法，其特征在于采用FP-Growth算法对告警日志信息进行关联分析挖掘频繁项集，包括如下步骤：

S21，从待分析数据库中读取待分析数据，计算待分析数据集中的事务总数，根据最小支持度阈值，计算最小支持度；

S26，重复步骤S25，直到FP树包含一个元素项为止；

4.如权利要求1所述的基于频繁模式挖掘的安全设备告警规则自动提取方法，其特征在于：

在步骤S1中，对采集的所述告警日志信息进行过滤，获取告警日志信息中的特定日志类型标识。

5.如权利要求4所述的基于频繁模式挖掘的安全设备告警规则自动提取方法，其特征在于：

所述特定日志类型标识包括源IP地址、源端口、目的IP地址和目的端口四种类型。