CN103581198A - 基于Apriori算法的安全日志分析方法 - Google Patents

基于Apriori算法的安全日志分析方法 Download PDF

Info

Publication number
CN103581198A
CN103581198A CN201310568041.6A CN201310568041A CN103581198A CN 103581198 A CN103581198 A CN 103581198A CN 201310568041 A CN201310568041 A CN 201310568041A CN 103581198 A CN103581198 A CN 103581198A
Authority
CN
China
Prior art keywords
support
security
log
degree
belief
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310568041.6A
Other languages
English (en)
Inventor
姜学峰
李威
李健俊
王正敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Zhejiang Industrial Co Ltd
Original Assignee
China Tobacco Zhejiang Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Zhejiang Industrial Co Ltd filed Critical China Tobacco Zhejiang Industrial Co Ltd
Priority to CN201310568041.6A priority Critical patent/CN103581198A/zh
Publication of CN103581198A publication Critical patent/CN103581198A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Apriori算法的安全日志分析方法,步骤如下:1)步骤S1,定义分析参数;2)从日志服务器中取出安全日志,步骤S2;对日志进行分类,形成日志类型集合D={D1,D2,…,Dn},步骤S3;3)对集合D进行Apriori计算,获得支持度值,步骤S4;如果支持度小于设定的阀值,则重新计算,步骤S5;4)如果支持度大于等于设定的阀值,则进行Apriori计算,获得信任度值,步骤S6;如果信任度小于设定的阀值,则返回S4重新计算,步骤S7;5)如果支持度和信任度都大于等于设定的阀值,将它们归纳为关联事件,步骤S8。本发明的方法,可以自动发现大量日志中的有关联关系的日志,为网络安全分析与管理提供依据。

Description

基于 Apriori 算法的安全日志分析方法
技术领域
本发明涉及一种针对安全日志的分析方法,将Apriori算法应用到安全日志的分析,能实现从大量不同类型的安全日志中分析出具有关联特性的安全日志,属于信息技术领域。
背景技术
目前,计算机网络往往部署了多种网络安全产品,如防火墙、入侵检测设备、防病毒产品、安全审计产品等,来保障网络系统的安全。这些安全产品会产生大量安全日志,日志服务器虽然能够通过采用日志文件、主动轮询、远程探测、被动接收、嵌入式Agent等多种方式对安全设备产生的日志进行收集和统一管理,但不同安全产品产生的日志各不相同,即使是同一个安全事件引发各安全产品产生各不相同的日志,包括日志格式不同、事件级别和类型不同、事件信息内容不同,因此每个安全产品都会产生大量的安全日志,这为安全管理员的安全分析代理很多的工作量。其中很多安全事件或日志都是由相同的安全攻击行为产生的,它们之间存在内在的关联性,如果能对各安全产品产生的安全事件进行关联分析,将具有关联性的安全日志归并到一起,就能大大减轻安全事件分析的工作量,提高安全事件处置和响应的效率。尽管目前日志服务器能够实现各种安全日志的管理,但主要侧重于日志的统一采集、存储、查询和统计,日志的分析能力比较弱,尤其缺乏各安全日志之间的关联分析,无法将同一安全事件引发的多条日志进行有效关联分析。由于各安全产品每天产生大量的日志记录,日志量非常庞大,管理员关注的信息往往淹没在大量普通的信息中。Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,它利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-项集。具体做法就是:首先找出频繁1-项集,记为L1;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。Apriori算法利用了一个重要性质,又称为Apriori性质(一个频繁项集中任一子集也应是频繁项集)来帮助有效缩小频繁项集的搜索空间。利用Lk-1来获得Lk主要包含连接和删除两个处理步骤:1)连接:设l1和l2为Lk-1中的两个项集,li[j]表示li中的第j个项。假设数据库记录中各项均已按字典排序。如果(l1[1]= l2[1])∧…∧(l1[k-2]= l2[k-2]) ∧(l1[k-1]<l2[k-1]),则Lk-1中l1和l2就可以连接到一起获得Lk的候选集合Ck。2)删除:Ck是Lk的一个超集,Ck中所有频度不小于最小支持频度的候选项集就是属于Lk的频繁k-项集。在找到所有的频繁项集后,就可以较为容易获得相应的关联规则。可以利用下面的条件概率计算公式来计算所获关联规则的信任度:
Figure 847759DEST_PATH_IMAGE001
其中,supp_num(X∪Y)为包含项集X∪Y的记录数目,supp_num(X)为包含项集X的记录数目。具体产生关联规则的操作如下:
对于每个频繁项集l的非空子集s,若
则产生一个关联规则“s ⇒ (l-s)”,其中min_conf为设定的最小信任度阈值。
如果将所有日志安全合规性事件设为一个集合,每个日志安全合规性事件均为一个布尔值(真/假)的变量以描述该日志安全合规性事件是否在某类日志(操作系统日志、应用系统日志、安全设备日志)产生,那么检测模型针对某类日志产生的每个日志安全合规性事件都能用一个布尔向量来表示,分析相应的布尔向量就可以获得哪些日志安全合规性事件是关联发生的。找到诸如某个日志文件的记录是否在一定信任度上伴随着另一个日志文件的记录等关联规则,可以发现用户各类行为之间的关联性。
发明内容
本发明的目的在于克服日志服务器中安全日志关联分析技术中的不足,提出一种基于Apriori算法的安全日志关联分析方法,从大量的安全日志信息中,找出具有关联性的日志记录,从而分析出异常的网络访问行为,有效提高对安全日志信息的挖掘和利用能力,为安全管理系统和网络监控分析系统提供有利的技术支持。
为了实现上述的目的,本发明采用了以下的技术方案:
基于Apriori算法的安全日志分析方法,该方法包括以下的步骤:
1)步骤S1,定义分析参数
支持度:支持度是指安全事件在所有主机中发生的频率;
支持度阈值:支持度阈值就是规定了挖掘结果所要求达到的最小支持度;
信任度:信任度是指不同安全事件同时发生的频率;
信任度阈值:信任度阈值就是规定了挖掘结果所要求达到的最小支持度;
统计主机数:分析的安全日志所牵涉的所有主机的数目;
2)从日志服务器中取出安全日志,步骤S2;根据安全日志的类别属性,对日志进行分类,形成日志类型集合D={D1,D2,…,Dn},步骤S3;
3)对集合D进行Apriori计算,获得支持度值,根据支持度阀值定义,这些项集的频度应不小于预先设置的支持度阀值,步骤S4;如果支持度小于设定的阀值,则重新根据Apriori进行计算,步骤S5;
4)如果支持度大于等于设定的阀值,则进行Apriori计算,获得信任度值,产生相应的强关联规则,步骤S6;如果信任度小于设定的阀值,则返回S4重新根据Apriori进行计算,步骤S7;
5)如果支持度和信任度都大于等于设定的阀值,则表明安全日志具有关联性,满足预定的关联强度,将它们归纳为关联事件,步骤S8。
本发明的安全日志关联分析就是从大量的安全日志中挖掘出有价值的描述数据项之间相互联系的有关知识。Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-项集。Apriori算法利用了一个重要性质,又称为Apriori性质来帮助有效缩小频繁项集的搜索空间。
若将系统内各种安全产品所能产生的所有安全事件主题设为一个集合,每个安全事件主题均为一个布尔值(真/假)的变量以描述该安全事件是否在(一个)网络设备上产生。因此所有安全产品针对每个网络设备产生的安全事件都能用一个布尔向量来表示。分析相应的布尔向量就可以获得哪些安全事件是伴随(关联)发生的。如木马病毒安全事件(来自防病毒)产生同时也会产生尝试读取非常规端口安全事件(来自入侵检测)的事件关联就可以用以下的关联规则来描述:
troj_virus=>read_illegal_port_ids[support=20%, confidence=80%](1.1)
关联规则的支持度(support)和信任度(confidence)是两个度量有关规则的方法。它们分别描述了一个被挖掘出的关联规则的有用性和确定性。规则(1.1)的支持度为20%,就表示所分析的系统中有20%网络设备同时发生了木马病毒事件和尝试读取非常规端口事件。信任度为80%则表示所有发生木马病毒事件的网络设备中的80%同时还会发生尝试读取非常规端口事件。通常如果一个关联规则满足最小支持度阈值和最小信任度阈值,那么就认为该关联规则是有意义的;而用户或专家可以设置最小支持度阈值和最小信任度阈值。满足最小支持度阈值和最小信任度阈值的关联规则就称为强规则。一个数据项的集合就称为项集。一个包含k个数据项的项集就称为k-项集。因此集合{ troj_virus,read_illegal_port_ids }就是一个2-项集。
一个项集的出现频度就是整个安全事件记录数据集D中包含该项集的记录数。满足最小支持度阈值所对应的网络设备数就称为最小支持频度。满足最小支持阈值的项集就称为频繁项集。所有频繁k-项集的集合就记为Lk。
本发明由于采用了上述的技术方案,根据安全日志结构的特点,提取出日志发生的时间、网络地址、IP地址、事件数量、事件内容,根据制定的策略对所有日志进行Apriori算法分析,得出支持度(support)和信任度(confidence)两个度量值,并根据支持度和信任度满足设定目标的情况来判断安全日志是否能够关联在一起。通过这种方法,可以自动发现大量日志中的有关联关系的日志,为网络安全分析与管理提供依据。
附图说明
图1是本发明的安全日志Apriori分析方法的流程框图。
具体实施方式
下面根据安全日志,说明本发明提出的技术方案的具体实现方法。
如图1所示,本发明的实现的方法首先定义分析参数,步骤S1。例如设定以下参数内容:
支持度:支持度是指安全事件在所有主机中发生的频率。比如安全事件A和安全事件B在20台主机中有同时发生的记录,而分析总共牵涉到100台主机,那么安全事件A和安全事件B同时发生这一关系的支持度是20%。
支持度阈值:支持度阈值就是规定了挖掘结果所要求达到的最小支持度。支持度阈值定的越低,条件越宽容,应该有较多挖掘结果。如果结果低于信任度阀值,将没有挖掘结果可输出。
信任度:信任度是指不同安全事件同时发生的频率。比如发生安全事件A所在的主机中80%同时发生安全事件B,那么安全事件A和安全事件B同时发生这一关系的信任度是80%。
信任度阈值:信任度阈值就是规定了挖掘结果所要求达到的最小支持度。信任度阈值定的越低,条件越宽容,应该有较多挖掘结果。如果结果低于信任程度阀值,将没有挖掘结果可输出。
统计主机数:分析的安全日志所牵涉的所有主机的数目。如果分析的安全事件采集自50台主机,那么统计主机数就是50。
从日志服务器中取出安全日志,步骤S2。根据安全日志的类别属性,对日志进行分类,形成日志类型集合D={D1,D2,…,Dn},步骤S3。
对集合D进行Apriori计算,获得支持度值,根据支持度阀值定义,这些项集的频度应不小于(预先设置的)支持度阀值,步骤S4。如果支持度小于设定的阀值,则重新根据Apriori进行计算,步骤S5。
如果支持度大于等于设定的阀值,则进行Apriori计算,获得信任度值,产生相应的强关联规则,步骤S6。如果信任度小于设定的阀值,则返回S4重新根据Apriori进行计算,步骤S7。
如果支持度和信任度都大于等于设定的阀值,则表明安全日志具有关联性,满足预定的关联强度,可以将它们归纳为关联事件,步骤S8。
通过以上的算法和步骤,当安全事件的数量积累足够多的时候,可以有效挖掘出事件之间的关联特性。例如通过挖掘可以得到对网络的正常访问和非正常访问状况,为及时分析处理网络非正常访问提供有力帮助。
本发明提出了利用Apriori分析安全日志的方法,根据此方法,能够在大量的安全日志中找到具有关联性的安全事件。本发明可以利用在网络安全管理和分析系统中,为海量安全日志的自动挖掘分析提供技术手段。

Claims (1)

1.基于Apriori算法的安全日志分析方法,该方法包括以下的步骤:
1)步骤S1,定义分析参数
支持度:支持度是指安全事件在所有主机中发生的频率;
支持度阈值:支持度阈值就是规定了挖掘结果所要求达到的最小支持度;
信任度:信任度是指不同安全事件同时发生的频率;
信任度阈值:信任度阈值就是规定了挖掘结果所要求达到的最小支持度;
统计主机数:分析的安全日志所牵涉的所有主机的数目;
2)从日志服务器中取出安全日志,步骤S2;根据安全日志的类别属性,对日志进行分类,形成日志类型集合D={D1,D2,…,Dn},步骤S3;
3)对集合D进行Apriori计算,获得支持度值,根据支持度阀值定义,这些项集的频度应不小于预先设置的支持度阀值,步骤S4;如果支持度小于设定的阀值,则重新根据Apriori进行计算,步骤S5;
4)如果支持度大于等于设定的阀值,则进行Apriori计算,获得信任度值,产生相应的强关联规则,步骤S6;如果信任度小于设定的阀值,则返回S4重新根据Apriori进行计算,步骤S7;
5)如果支持度和信任度都大于等于设定的阀值,则表明安全日志具有关联性,满足预定的关联强度,将它们归纳为关联事件,步骤S8。
CN201310568041.6A 2013-11-13 2013-11-13 基于Apriori算法的安全日志分析方法 Pending CN103581198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310568041.6A CN103581198A (zh) 2013-11-13 2013-11-13 基于Apriori算法的安全日志分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310568041.6A CN103581198A (zh) 2013-11-13 2013-11-13 基于Apriori算法的安全日志分析方法

Publications (1)

Publication Number Publication Date
CN103581198A true CN103581198A (zh) 2014-02-12

Family

ID=50052128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310568041.6A Pending CN103581198A (zh) 2013-11-13 2013-11-13 基于Apriori算法的安全日志分析方法

Country Status (1)

Country Link
CN (1) CN103581198A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951555A (zh) * 2015-06-30 2015-09-30 浪潮(北京)电子信息产业有限公司 一种日志信息管理方法及日志信息管理终端
CN107231258A (zh) * 2017-06-01 2017-10-03 国网电子商务有限公司 一种网络告警数据处理方法及装置
CN107517216A (zh) * 2017-09-08 2017-12-26 瑞达信息安全产业股份有限公司 一种网络安全事件关联方法
WO2018107811A1 (zh) * 2016-12-14 2018-06-21 平安科技(深圳)有限公司 网络安全联合防御方法、装置、服务器和存储介质
CN108256299A (zh) * 2016-12-28 2018-07-06 中国移动通信集团河北有限公司 一种控制权限的方法和装置
CN108304726A (zh) * 2017-01-13 2018-07-20 中国移动通信集团贵州有限公司 数据脱敏方法和装置
CN108830655A (zh) * 2018-06-19 2018-11-16 郑州云海信息技术有限公司 一种用户操作关系获取方法及相关装置
CN109218255A (zh) * 2017-06-30 2019-01-15 中国电信股份有限公司 安全防护方法、控制系统和安全防护系统
CN109685217A (zh) * 2017-10-17 2019-04-26 博彦科技股份有限公司 数据处理方法、装置、存储介质和处理器
CN111831528A (zh) * 2020-07-17 2020-10-27 浪潮商用机器有限公司 一种计算机系统日志关联方法及相关装置
CN113778970A (zh) * 2021-08-12 2021-12-10 华中科技大学 一种容器异常检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286872A (zh) * 2008-05-29 2008-10-15 上海交通大学 无线传感器网络中分布式入侵检测方法
EP2088711A1 (en) * 2006-11-30 2009-08-12 Alibaba Group Holding Limited A log analyzing method and system based on distributed compute network
CN103281341A (zh) * 2013-06-27 2013-09-04 福建伊时代信息科技股份有限公司 网络事件处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2088711A1 (en) * 2006-11-30 2009-08-12 Alibaba Group Holding Limited A log analyzing method and system based on distributed compute network
CN101286872A (zh) * 2008-05-29 2008-10-15 上海交通大学 无线传感器网络中分布式入侵检测方法
CN103281341A (zh) * 2013-06-27 2013-09-04 福建伊时代信息科技股份有限公司 网络事件处理方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951555A (zh) * 2015-06-30 2015-09-30 浪潮(北京)电子信息产业有限公司 一种日志信息管理方法及日志信息管理终端
US10917417B2 (en) 2016-12-14 2021-02-09 Ping An Technology (Shenzhen) Co., Ltd. Method, apparatus, server, and storage medium for network security joint defense
WO2018107811A1 (zh) * 2016-12-14 2018-06-21 平安科技(深圳)有限公司 网络安全联合防御方法、装置、服务器和存储介质
CN108256299A (zh) * 2016-12-28 2018-07-06 中国移动通信集团河北有限公司 一种控制权限的方法和装置
CN108304726A (zh) * 2017-01-13 2018-07-20 中国移动通信集团贵州有限公司 数据脱敏方法和装置
CN107231258B (zh) * 2017-06-01 2019-09-24 国网电子商务有限公司 一种网络告警数据处理方法及装置
CN107231258A (zh) * 2017-06-01 2017-10-03 国网电子商务有限公司 一种网络告警数据处理方法及装置
CN109218255A (zh) * 2017-06-30 2019-01-15 中国电信股份有限公司 安全防护方法、控制系统和安全防护系统
CN109218255B (zh) * 2017-06-30 2021-06-04 中国电信股份有限公司 安全防护方法、控制系统和安全防护系统
CN107517216A (zh) * 2017-09-08 2017-12-26 瑞达信息安全产业股份有限公司 一种网络安全事件关联方法
CN107517216B (zh) * 2017-09-08 2020-02-21 瑞达信息安全产业股份有限公司 一种网络安全事件关联方法
CN109685217A (zh) * 2017-10-17 2019-04-26 博彦科技股份有限公司 数据处理方法、装置、存储介质和处理器
CN108830655A (zh) * 2018-06-19 2018-11-16 郑州云海信息技术有限公司 一种用户操作关系获取方法及相关装置
CN111831528A (zh) * 2020-07-17 2020-10-27 浪潮商用机器有限公司 一种计算机系统日志关联方法及相关装置
CN113778970A (zh) * 2021-08-12 2021-12-10 华中科技大学 一种容器异常检测方法及系统

Similar Documents

Publication Publication Date Title
CN103581198A (zh) 基于Apriori算法的安全日志分析方法
Liu et al. Log2vec: A heterogeneous graph embedding based approach for detecting cyber threats within enterprise
Keshk et al. Privacy preservation intrusion detection technique for SCADA systems
KR101621019B1 (ko) 시계열 통계 기반 공격의심 이상징후를 탐지하기 위한 방법
Zhang et al. An anomaly detection model based on one-class svm to detect network intrusions
CN110213226B (zh) 基于风险全要素辨识关联的网络攻击场景重建方法及系统
CN103428196B (zh) 一种基于url白名单的web应用入侵检测方法
CN104811452A (zh) 一种基于数据挖掘的自学习分级预警入侵检测系统
Skopik et al. Dealing with advanced persistent threats in smart grid ICT networks
CN105207826A (zh) 一种基于Tachyou的Spark大数据平台的安全攻击告警定位系统
US11159564B2 (en) Detecting zero-day attacks with unknown signatures via mining correlation in behavioral change of entities over time
CN114915479B (zh) 一种基于Web日志的Web攻击阶段分析方法及系统
Iturbe et al. Towards Large‐Scale, Heterogeneous Anomaly Detection Systems in Industrial Networks: A Survey of Current Trends
Aung et al. Hybrid intrusion detection system using K-means and K-nearest neighbors algorithms
Sajith et al. Optimized intrusion detection system using computational intelligent algorithm
Hemmer et al. A process mining approach for supporting iot predictive security
Kanimozhi et al. Oppositional tunicate fuzzy C‐means algorithm and logistic regression for intrusion detection on cloud
Xue et al. Prediction of computer network security situation based on association rules mining
CN114091033A (zh) 一种面向全生命周期的数据安全异常检测方法及系统
KR102311997B1 (ko) 인공지능 행위분석 기반의 edr 장치 및 방법
Taihua et al. Associating IDS alerts by an improved apriori algorithm
Yanyan et al. Study of database intrusion detection based on improved association rule algorithm
CN113032774B (zh) 异常检测模型的训练方法、装置、设备及计算机存储介质
Sun et al. Intelligent log analysis system for massive and multi-source security logs: MMSLAS design and implementation plan
Njogu et al. Network specific vulnerability based alert reduction approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140212