CN103581198A

CN103581198A - 基于Apriori算法的安全日志分析方法

Info

Publication number: CN103581198A
Application number: CN201310568041.6A
Authority: CN
Inventors: 姜学峰; 李威; 李健俊; 王正敏
Original assignee: China Tobacco Zhejiang Industrial Co Ltd
Current assignee: China Tobacco Zhejiang Industrial Co Ltd
Priority date: 2013-11-13
Filing date: 2013-11-13
Publication date: 2014-02-12

Abstract

本发明涉及一种基于Apriori算法的安全日志分析方法，步骤如下：1）步骤S1，定义分析参数；2）从日志服务器中取出安全日志，步骤S2；对日志进行分类，形成日志类型集合D={D1，D2，…，Dn}，步骤S3；3）对集合D进行Apriori计算，获得支持度值，步骤S4；如果支持度小于设定的阀值，则重新计算，步骤S5；4）如果支持度大于等于设定的阀值，则进行Apriori计算，获得信任度值，步骤S6；如果信任度小于设定的阀值，则返回S4重新计算，步骤S7；5）如果支持度和信任度都大于等于设定的阀值，将它们归纳为关联事件，步骤S8。本发明的方法，可以自动发现大量日志中的有关联关系的日志，为网络安全分析与管理提供依据。

Description

基于 Apriori 算法的安全日志分析方法

技术领域

本发明涉及一种针对安全日志的分析方法，将Apriori算法应用到安全日志的分析，能实现从大量不同类型的安全日志中分析出具有关联特性的安全日志，属于信息技术领域。

背景技术

目前，计算机网络往往部署了多种网络安全产品，如防火墙、入侵检测设备、防病毒产品、安全审计产品等，来保障网络系统的安全。这些安全产品会产生大量安全日志，日志服务器虽然能够通过采用日志文件、主动轮询、远程探测、被动接收、嵌入式Agent等多种方式对安全设备产生的日志进行收集和统一管理，但不同安全产品产生的日志各不相同，即使是同一个安全事件引发各安全产品产生各不相同的日志，包括日志格式不同、事件级别和类型不同、事件信息内容不同，因此每个安全产品都会产生大量的安全日志，这为安全管理员的安全分析代理很多的工作量。其中很多安全事件或日志都是由相同的安全攻击行为产生的，它们之间存在内在的关联性，如果能对各安全产品产生的安全事件进行关联分析，将具有关联性的安全日志归并到一起，就能大大减轻安全事件分析的工作量，提高安全事件处置和响应的效率。尽管目前日志服务器能够实现各种安全日志的管理，但主要侧重于日志的统一采集、存储、查询和统计，日志的分析能力比较弱，尤其缺乏各安全日志之间的关联分析，无法将同一安全事件引发的多条日志进行有效关联分析。由于各安全产品每天产生大量的日志记录，日志量非常庞大，管理员关注的信息往往淹没在大量普通的信息中。Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法，它利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-项集。具体做法就是：首先找出频繁1-项集，记为L₁；然后利用L₁来挖掘L₂，即频繁2-项集；不断如此循环下去直到无法发现更多的频繁k-项集为止。Apriori算法利用了一个重要性质，又称为Apriori性质（一个频繁项集中任一子集也应是频繁项集）来帮助有效缩小频繁项集的搜索空间。利用L_k-1来获得L_k主要包含连接和删除两个处理步骤：1）连接：设l₁和l₂为L_k-1中的两个项集，l_i[j]表示l_i中的第j个项。假设数据库记录中各项均已按字典排序。如果(l₁[1]= l₂[1])∧…∧(l₁[k-2]= l₂[k-2]) ∧(l₁[k-1]<l₂[k-1])，则L_k-1中l₁和l₂就可以连接到一起获得L_k的候选集合C_k。2）删除：C_k是L_k的一个超集，C_k中所有频度不小于最小支持频度的候选项集就是属于L_k的频繁k-项集。在找到所有的频繁项集后，就可以较为容易获得相应的关联规则。可以利用下面的条件概率计算公式来计算所获关联规则的信任度：

其中，supp_num(X∪Y)为包含项集X∪Y的记录数目，supp_num(X)为包含项集X的记录数目。具体产生关联规则的操作如下：

对于每个频繁项集l的非空子集s，若

则产生一个关联规则“s ⇒ (l-s)”，其中min_conf为设定的最小信任度阈值。

如果将所有日志安全合规性事件设为一个集合，每个日志安全合规性事件均为一个布尔值（真/假）的变量以描述该日志安全合规性事件是否在某类日志（操作系统日志、应用系统日志、安全设备日志）产生，那么检测模型针对某类日志产生的每个日志安全合规性事件都能用一个布尔向量来表示，分析相应的布尔向量就可以获得哪些日志安全合规性事件是关联发生的。找到诸如某个日志文件的记录是否在一定信任度上伴随着另一个日志文件的记录等关联规则，可以发现用户各类行为之间的关联性。

发明内容

本发明的目的在于克服日志服务器中安全日志关联分析技术中的不足，提出一种基于Apriori算法的安全日志关联分析方法，从大量的安全日志信息中，找出具有关联性的日志记录，从而分析出异常的网络访问行为，有效提高对安全日志信息的挖掘和利用能力，为安全管理系统和网络监控分析系统提供有利的技术支持。

为了实现上述的目的，本发明采用了以下的技术方案：

基于Apriori算法的安全日志分析方法，该方法包括以下的步骤：

1）步骤S1，定义分析参数

支持度：支持度是指安全事件在所有主机中发生的频率；

支持度阈值：支持度阈值就是规定了挖掘结果所要求达到的最小支持度；

信任度：信任度是指不同安全事件同时发生的频率；

信任度阈值：信任度阈值就是规定了挖掘结果所要求达到的最小支持度；

统计主机数：分析的安全日志所牵涉的所有主机的数目；

2）从日志服务器中取出安全日志，步骤S2；根据安全日志的类别属性，对日志进行分类，形成日志类型集合D={D1，D2，…，Dn}，步骤S3；

3）对集合D进行Apriori计算，获得支持度值，根据支持度阀值定义，这些项集的频度应不小于预先设置的支持度阀值，步骤S4；如果支持度小于设定的阀值，则重新根据Apriori进行计算，步骤S5；

4）如果支持度大于等于设定的阀值，则进行Apriori计算，获得信任度值，产生相应的强关联规则，步骤S6；如果信任度小于设定的阀值，则返回S4重新根据Apriori进行计算，步骤S7；

5）如果支持度和信任度都大于等于设定的阀值，则表明安全日志具有关联性，满足预定的关联强度，将它们归纳为关联事件，步骤S8。

本发明的安全日志关联分析就是从大量的安全日志中挖掘出有价值的描述数据项之间相互联系的有关知识。Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法，该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-项集。Apriori算法利用了一个重要性质，又称为Apriori性质来帮助有效缩小频繁项集的搜索空间。

若将系统内各种安全产品所能产生的所有安全事件主题设为一个集合，每个安全事件主题均为一个布尔值（真/假）的变量以描述该安全事件是否在（一个）网络设备上产生。因此所有安全产品针对每个网络设备产生的安全事件都能用一个布尔向量来表示。分析相应的布尔向量就可以获得哪些安全事件是伴随(关联)发生的。如木马病毒安全事件（来自防病毒）产生同时也会产生尝试读取非常规端口安全事件（来自入侵检测）的事件关联就可以用以下的关联规则来描述：

troj_virus=>read_illegal_port_ids[support=20%, confidence=80%](1.1)

关联规则的支持度（support）和信任度（confidence）是两个度量有关规则的方法。它们分别描述了一个被挖掘出的关联规则的有用性和确定性。规则（1.1）的支持度为20%，就表示所分析的系统中有20%网络设备同时发生了木马病毒事件和尝试读取非常规端口事件。信任度为80%则表示所有发生木马病毒事件的网络设备中的80%同时还会发生尝试读取非常规端口事件。通常如果一个关联规则满足最小支持度阈值和最小信任度阈值，那么就认为该关联规则是有意义的；而用户或专家可以设置最小支持度阈值和最小信任度阈值。满足最小支持度阈值和最小信任度阈值的关联规则就称为强规则。一个数据项的集合就称为项集。一个包含k个数据项的项集就称为k-项集。因此集合{ troj_virus,read_illegal_port_ids }就是一个2-项集。

一个项集的出现频度就是整个安全事件记录数据集D中包含该项集的记录数。满足最小支持度阈值所对应的网络设备数就称为最小支持频度。满足最小支持阈值的项集就称为频繁项集。所有频繁k-项集的集合就记为Lk。

本发明由于采用了上述的技术方案，根据安全日志结构的特点，提取出日志发生的时间、网络地址、IP地址、事件数量、事件内容，根据制定的策略对所有日志进行Apriori算法分析，得出支持度（support）和信任度（confidence）两个度量值，并根据支持度和信任度满足设定目标的情况来判断安全日志是否能够关联在一起。通过这种方法，可以自动发现大量日志中的有关联关系的日志，为网络安全分析与管理提供依据。

附图说明

图1是本发明的安全日志Apriori分析方法的流程框图。

具体实施方式

下面根据安全日志，说明本发明提出的技术方案的具体实现方法。

如图1所示，本发明的实现的方法首先定义分析参数，步骤S1。例如设定以下参数内容：

支持度：支持度是指安全事件在所有主机中发生的频率。比如安全事件A和安全事件B在20台主机中有同时发生的记录，而分析总共牵涉到100台主机，那么安全事件A和安全事件B同时发生这一关系的支持度是20%。

支持度阈值：支持度阈值就是规定了挖掘结果所要求达到的最小支持度。支持度阈值定的越低，条件越宽容，应该有较多挖掘结果。如果结果低于信任度阀值，将没有挖掘结果可输出。

信任度：信任度是指不同安全事件同时发生的频率。比如发生安全事件A所在的主机中80%同时发生安全事件B，那么安全事件A和安全事件B同时发生这一关系的信任度是80%。

信任度阈值：信任度阈值就是规定了挖掘结果所要求达到的最小支持度。信任度阈值定的越低，条件越宽容，应该有较多挖掘结果。如果结果低于信任程度阀值，将没有挖掘结果可输出。

统计主机数：分析的安全日志所牵涉的所有主机的数目。如果分析的安全事件采集自50台主机，那么统计主机数就是50。

从日志服务器中取出安全日志，步骤S2。根据安全日志的类别属性，对日志进行分类，形成日志类型集合D={D1，D2，…，Dn}，步骤S3。

对集合D进行Apriori计算，获得支持度值，根据支持度阀值定义，这些项集的频度应不小于（预先设置的）支持度阀值，步骤S4。如果支持度小于设定的阀值，则重新根据Apriori进行计算，步骤S5。

如果支持度大于等于设定的阀值，则进行Apriori计算，获得信任度值，产生相应的强关联规则，步骤S6。如果信任度小于设定的阀值，则返回S4重新根据Apriori进行计算，步骤S7。

如果支持度和信任度都大于等于设定的阀值，则表明安全日志具有关联性，满足预定的关联强度，可以将它们归纳为关联事件，步骤S8。

通过以上的算法和步骤，当安全事件的数量积累足够多的时候，可以有效挖掘出事件之间的关联特性。例如通过挖掘可以得到对网络的正常访问和非正常访问状况，为及时分析处理网络非正常访问提供有力帮助。

本发明提出了利用Apriori分析安全日志的方法，根据此方法，能够在大量的安全日志中找到具有关联性的安全事件。本发明可以利用在网络安全管理和分析系统中，为海量安全日志的自动挖掘分析提供技术手段。

Claims

1.基于Apriori算法的安全日志分析方法，该方法包括以下的步骤：

1）步骤S1，定义分析参数

支持度：支持度是指安全事件在所有主机中发生的频率；

信任度：信任度是指不同安全事件同时发生的频率；

统计主机数：分析的安全日志所牵涉的所有主机的数目；