CN112333195A - 基于多源日志关联分析的apt攻击场景还原检测方法及系统 - Google Patents

基于多源日志关联分析的apt攻击场景还原检测方法及系统 Download PDF

Info

Publication number
CN112333195A
CN112333195A CN202011248337.6A CN202011248337A CN112333195A CN 112333195 A CN112333195 A CN 112333195A CN 202011248337 A CN202011248337 A CN 202011248337A CN 112333195 A CN112333195 A CN 112333195A
Authority
CN
China
Prior art keywords
event
graph
log
vector
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011248337.6A
Other languages
English (en)
Other versions
CN112333195B (zh
Inventor
李腾
张钰洁
张翔宇
温子祺
廖艾
林杨旭
魏大卫
马卓
沈玉龙
马建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011248337.6A priority Critical patent/CN112333195B/zh
Publication of CN112333195A publication Critical patent/CN112333195A/zh
Application granted granted Critical
Publication of CN112333195B publication Critical patent/CN112333195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

基于多源日志关联分析的APT攻击场景还原检测方法及系统,检测方法包括收集主机的多源日志,设置新的特征参数,使用关系向量关联所有日志条目,将所有日志条目视为网络中的节点,日志条目间的关系视为节点之间的边,构建无向、有权重复杂网络图,使用标签传播算法聚类,识别出事件;再按照时间顺序将日志和事件组成长序列,挖掘出事件间逻辑关系及时间关系,生成初始子分区图并不断进行优化,得到场景图;然后学习场景图的顶点和边的矢量表达,进行聚类,对更新后的场景图,检测其新边和顶点是否异常,完成检测后,更新聚类情况,为后续检测做准备。本发明能全面、准确的还原攻击场景,防止高误报率和漏网之鱼,高效检测出APT攻击。

Description

基于多源日志关联分析的APT攻击场景还原检测方法及系统
技术领域
本发明属于网络安全领域,具体涉及一种基于多源日志关联分析的APT攻击场景还原检测方法及系统。
背景技术
随着计算机信息技术的飞速发展,人们越来越多地依赖网络进行信息传输和交互。但威胁着网络安全的事件却频繁发生,已经严重影响到了整个社会和个人的信息安全。据悉,全球平均每20秒就发生一起互联网计算机入侵事件。为了保护网络安全,市面上出现了防火墙、入侵检测系统等设备,这些设备基于网络数据包中特有的参数进行规则匹配,只能对违反现存规则的行为进行告警和阻断,在网络攻击的防御方面具有一定的滞后性。尤其对于APT攻击,它们往往难以检测到。APT攻击,即高级持久威胁攻击,是由有组织、经验丰富的攻击者发起,往往是对特定目标采取针对性、持久性的攻击。前期采用社会工程学等手段对目标进行反复侦察并获取有用信息,其行为往往难以探测并具有伪装性。当攻击者获取目标的信任并能够以不被发现的身份潜藏在目标网络中时,便会盗取信息并不断扩大其感染范围,严重的会使整个目标网络瘫痪。为了对APT攻击行为做到识别和防范,通常企业会选择部署入侵检测系统(IDS),启用安全信息和事件管理(SIEM)工具,采用各种IOC(“危害指标”)捕获分散的指标,但它们孤立地对单一、固定的攻击行为进行检测的特点导致无法从整体上构建完整准确的攻击场景,故而造成了较高的误报率。此外,来自企业内部的攻击者由于本身具有对系统的访问权限,并且可能很熟悉网络体系结构和系统策略/过程,因而更有可能避开这些检测系统进行信息窃取甚至注入病毒等攻击行为。
为了更加全面、准确的还原攻击场景,防止高误报率和漏网之鱼,从日志层面上来识别系统发生的事件、研究事件之间的关系并构建完整的场景是十分必要的。
现有的日志研究方法通常采用单一或同类日志进行检测和追踪,例如采用主机审核数据(Linux审核或Windows ETW数据)描绘APT活动,但它们在检测攻击者前期的试探以及对目标网络的长期针对性调查方面显得力不从心;有的方法对日志及相应事件之间的关系分析不够准确,如通过时间戳对齐来关联来自不同记录的事件,通过实验发现,将此方法运用在关联不同类的日志时,由于不同类别的日志对同一事件的时间记录存在偏差,因此会出现将同一事件识别为不同事件的情况,导致无法正确处理事件关系。
发明内容
本发明的目的在于针对上述现有技术中通过日志检测APT攻击效果不佳的问题,提供一种基于多源日志关联分析的APT攻击场景还原检测方法及系统,能够更加全面、准确的还原攻击场景,防止高误报率和漏网之鱼的产生,确保准确检测出APT攻击。
为了实现上述目的,本发明有如下的技术方案:
一种基于多源日志关联分析的APT攻击场景还原检测方法,包括:
步骤一、识别事件;
(1a)收集主机的多源日志,对日志进行解析,统一日志的条目格式,使用关系向量关联所有日志条目,捕获日志内部和日志之间的关系;
(1b)构建无向、有权重复杂网络图:将所有日志条目视为网络中的节点,日志条目间的关系视为节点之间的边,关系向量中1的个数作为边的权重;
(1c)使用带权重的标签传播算法对网络图中的节点进行聚类,关联程度最为紧密的日志条目被聚成一组,称为一类事件;聚类出的节点类别对应于识别出的事件类型;
步骤二、构建场景图;
(2a)挖掘事件间的逻辑关系和时间关系;
(2b)建立初始图,在初始图的基础上,将属于相同类别事件的日志条目划分到同一个事件分区以生成初始子分区图,每个图中至少体现步骤(2a)挖掘出的逻辑关系的一种;
(2c)对每个初始子分区图,找出其中违反步骤(2a)挖掘出的时间关系的事件关系,通过从事件分区中分离出某些日志条目到其他分区的方式来改变这些不合法的事件关系,直至初始子分区图不违反任何挖掘出的时间关系为止;
(2d)对于每个子分区图,在不违反步骤(2a)挖掘出的时间关系的前提下,通过把同类日志条目融合进一个事件分区的方式对分区图进行优化,直到不能再融合为止;
(2e)将子分区图按照事件发生的先后顺序组合成完整场景图G=(V,E),其中顶点V表示事件,由日志条目集合构成,有向边
Figure BDA0002770794330000031
则表示事件间的关系;
步骤三、APT攻击检测;
(3a)学习现有场景图G的顶点和边的矢量表达;
(3b)对顶点或边的矢量表达进行聚类;
(3c)当场景图G更新或使用新的场景图G'时,根据异常分数或是否属于任何一个已知类别判断新的顶点或边是否来自APT攻击,若是,则报告异常情况;
(3d)更新聚类情况;
(3e)返回步骤(3c)进行新的APT攻击检测。
优选的,主机的多源日志包括防火墙日志、网络流量记录和进程日志;对日志进行解析包括调整参数、删除冗余以及统一格式;使用24维关系向量
Figure BDA0002770794330000032
关联所有日志条目,使每个日志条目xi(i=1,2,...,n)都有一个关系矩阵Mi储存着它和其它日志条目的关系向量
Figure BDA0002770794330000033
优选的,步骤(3a)使用Graph Embedding方法学习顶点和边的矢量表达;步骤(3b)使用k-means++对顶点或边的矢量表达进行聚类;步骤(3d)使用Streaming k-means更新聚类情况。
优选的,步骤(2a)挖掘事件间的逻辑关系时利用日志和事件序列挖掘不随输入及工作负载而改变的恒定关系式,通过这些关系反映程序工作流程的特征和结构。
优选的,步骤(2a)挖掘事件间的时间关系时挖掘时间不变式,时间不变式有三种,分别为:
·A→B:只要事件A发生,那么B事件一定会在A后面的某一时刻发生,尽管不一定紧随其后;
·
Figure BDA0002770794330000045
如果事件A发生,那么事件B一定不会在A后面发生;
·A←B:如果事件B发生,那么事件A一定在B前面的某一时刻发生了。
优选的,挖掘出的时间不变式有两组,利用逻辑关系中的恒定关系式挖掘出第一组时间不变式,利用表示恒定关系以外的其它收集到的日志和所对应的事件挖掘出第二组时间不变式。
优选的,步骤(3a)按下式学习现有场景图G的顶点和边的矢量表达:
(3a1)使用DeepWalk学习顶点的矢量表达;
(3a2)使用Hadamard运算符将顶点的矢量表达进行运算得出边的矢量表达。
优选的,步骤(3c)的异常分数为每个样本与当前已有聚类中心之间的最短距离。
优选的,步骤(3d)对于新到来的样本,其中聚类中心的更新方法为:
若更新前为n0个样本
Figure BDA0002770794330000041
新到来n’个样本
Figure BDA0002770794330000042
衰减因子为
Figure BDA0002770794330000043
则:
Figure BDA0002770794330000044
之后用更新后的中心点作为下一批数据更新时的初始中心点,以此反复。
本发明还提供一种基于多源日志关联分析的APT攻击场景还原检测系统,包括:
事件识别模块,用于收集主机的多源日志,设置新的特征参数,使用关系向量关联所有日志条目,将所有日志条目视为网络中的节点,日志条目间的关系视为节点之间的边,构建无向、有权重复杂网络图,使用带权重的标签传播算法对节点聚类,识别出事件;
场景图构建模块,用于按照时间顺序将日志和事件组成长序列,挖掘出事件间的逻辑关系及时间关系,生成初始子分区图并不断进行优化,得到场景图;
APT攻击检测模块,用于学习场景图的顶点和边的矢量表达,进行聚类,对更新后的场景图,检测其新边和顶点是否异常,完成检测后,更新聚类情况并进行后续检测。
相较于现有技术,本发明具有如下的有益效果:
1.具有自验证性:不需要引入第三方数据进行验证,所有数据均来自实验室计算机,该实验过程实施中也会对计算机发起攻击,以获取日志数据。
2.便于安全人员理解、分析:在步骤一就对复杂的日志记录进行了提升语义操作,将日志转化为事件,即将复杂的日志记录转换成用户和分析员能够快速理解的事件。同时,在步骤二根据事件关系构建了完整的系统场景图,安全人员不仅可以通过本发明的方法进行APT检测,而且可以很快理解问题出现的原因及危害性等。
3.系统工作场景模型构建简洁、准确:
本发明对识别出的事件进行不变关系的挖掘,包括逻辑关系和时间关系,无论是系统内本身存在的不随其输入及工作负载而改变的恒定工作流程还是攻击者为了隐藏自身存在而模仿系统工作模式的行为,都会被作为事件间关系挖掘出来并用来构建完整关系模型。
4.适用性强:本发明不依赖于现有的重量级日志解析工具,在识别事件时,通过对日志参数(如协议类型、IP地址、端口、操作行为、进程名称、文件类型、时间戳等)进行关联分析以达到可以分别对每一类日志进行特征提取和事件识别的目的。
进一步的,本发明使用Graph Embedding方法学习顶点和边的矢量表达,在进行事件的特征学习时,使用Graph Embedding方法适用于各类关系图的学习。
进一步的,本发明的可扩展性强,使用Streaming k-means方法对场景图更新后的样本进行重新聚类,对于分批到来的新样本,计算异常分数,并且重新计算聚类中心的位置。该场景同样可以很好的扩展到动态、实时的APT检测应用上来。
附图说明
图1本发明检测方法的实现流程图;
图2本发明通过场景图进行APT攻击检测示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
本发明基于多源日志关联分析的APT攻击场景还原检测方法主要由三个阶段构成:识别系统内事件,构建场景图,检测APT攻击。参见图1,具体的实现方法如下:
步骤1,识别系统内事件;
(1a)收集防火墙日志、网络流量记录和进程日志,对日志进行解析,统一日志条目格式,使用24维关系向量
Figure BDA0002770794330000061
关联所有日志条目,捕获日志内部和日志之间的关系:
具体的,首先收集不同来源的日志(防火墙日志、网络流量记录和进程日志),对日志进行解析,调整参数,删除冗余,统一格式。本发明在原有日志参数设置的基础上,进行保留和更新,得出了18个新的特征参数,如表1所示:
表1
Figure BDA0002770794330000062
Figure BDA0002770794330000071
之后使用24维关系向量
Figure BDA0002770794330000072
关联所有日志条目,捕获日志内部和日志之间的关系,以更好地识别出系统内事件。向量中不同维度数据及描述如表2所示:
表2
Figure BDA0002770794330000073
Figure BDA0002770794330000081
可以灵活调整表2第一行t的取值以得到更为准确的关联结果。对于任何一对日志条目,例如l和l',都有一组只包含0,1元素的向量
Figure BDA0002770794330000082
来记录二者的关系,1表示满足关系,0表示不满足。例如
Figure BDA0002770794330000083
表示l和l'满足上表中d1,d24所示的关系,不满足d2所示的关系。特别的,如果
Figure BDA0002770794330000084
则显然l和l'属于同类记录,代表同类事件。
故而,对于每一条日志条目,都可以得到许多它与其他日志条目的关系向量
Figure BDA0002770794330000085
规定X指代所有的日志条目,即有X={x1,x2,…,xn}。
对于每一条日志条目xi∈X,使用一个对应的关系矩阵Mi存储关系向量
Figure BDA0002770794330000086
Figure BDA0002770794330000087
实际情况中,日志条目巨大,为每一个条目xi∈X构建一个n×24的矩阵是没有意义的,因为Mi中将存在大量的全0行及无意义的向量,对寻找相似的条目没有益处。
因此,矩阵Mi只包含强连接关系的向量,其定义为:当且仅当
Figure BDA0002770794330000088
中的非0元素个数≥
Figure BDA0002770794330000089
中的非0元素个数;这是因为,非0元素的个数代表了日志条目之间的关联程度,为了避免在日志条目之间建立过多的弱连接,以每一个条目自身的关联度
Figure BDA00027707943300000810
为基准,只对关联程度较高,满足上述定义的强连接感兴趣。此时,对于每个日志条目xi(i=1,2,...,n),都有一个关系矩阵Mi储存着它和其它日志条目的关系向量
Figure BDA0002770794330000091
(1b)构建无向、有权重复杂网络图:将所有日志条目xi视为网络中的节点,日志条目间的关系视为节点之间的边,关系向量
Figure BDA0002770794330000092
中1的个数作为边的权重;
(1c)使用带权重的标签传播(wLPA)算法对网络图中的节点进行聚类,关联程度最为紧密的日志条目将被聚成一组,称为一类事件。聚类出的节点类别对应于识别出的事件类型:
标签传播算法使用唯一的标签区分各个社区,具有相同标签的节点属于同一个社区。对于每个节点而言,它的标签由其邻居决定,在传统的LPA算法中,节点xi的标签Li是其最多的邻居拥有的标签。而在wLPA算法中,还需要考虑边的权重信息。在本实施例中,节点的集合即为X={x1,x2,…,xn},使用邻接矩阵Aij记录节点边的信息,有公式(1):
Figure BDA0002770794330000093
令节点xi的邻居集合为Ni(x),x=1,2,...,k,每个Ni(x)表示具有相同标签的邻居集合,它们的标签记为
Figure BDA0002770794330000094
k为唯一标签的个数。
节点xi对于当前邻居的每个标签权重和,得到公式(2):
Figure BDA0002770794330000095
通过max{Si(1),Si(2),...,Si(k)}找出当前轮次中标签权重最大的邻居集合Ni(T),则其标签
Figure BDA0002770794330000096
为节点xi的新标签。
该算法迭代进行,算法结束的条件为,对所有节点xi,都有以下公式(3):
Figure BDA0002770794330000097
其中x=1,2,...,k。
下面给出算法完整步骤:
(1c1)初始化网络中的节点标签L:对于节点xi,有Li (t=0)=i;
(1c2)令t=1;
(1c3)随机排列网络中的节点并更新节点信息X(xi∈X);
(1c4)计算每个节点xi分别对于其各个邻居标签的权重和(公式(2)),选择具有最大权重和的标签作为xi这一轮的标签,即有Li (t)=Ni (t-1)(T);
(1c5)如果对于
Figure BDA0002770794330000101
都有当前标签的权重和大于等于xi对于其他邻居标签的权重和(公式(3)),那么算法结束,否则从(1c3)步骤开始重复进行;
步骤2,构建场景图;
(2a)挖掘事件间的逻辑关系和时间关系:
(2a1)挖掘事件间的逻辑关系:
挖掘事件间的逻辑关系,其内容为挖掘系统工作的恒定关系,即利用日志和事件序列挖掘系统内不随其输入及工作负载而改变的恒定关系式,这些关系反映着程序工作流程的特征和结构(比如顺序、分支、循环等),是完整场景图构建的基础模式。
恒定关系的数学定义如下,若向量α=[a0,a2,a3,…,an]T满足下述公式(4):
Yα=0 (4)
则α可以表示一组恒定关系,称为不变式向量,其中向量Y=[1,y1,y2,…,ym],yj(j=1,2,...,m)表示识别出的各类事件对应的日志条目总数,并按照其在系统内发生的时间顺序排列起来。这一部分的目标是通过向量Y和上述等式,找出合适的不变式向量α,其中α所在空间称为不变式空间I。其方法为:
将向量Y分成两个子空间:R和I,其中I称作不变式空间,也就是不变式向量α所在空间,它是另一个子空间R的正交补空间。令I的维度为r,则R的维度为(m+1-r)。令P(Y)=m+1-r,它代表了每个不变式向量中非零值数目的最大值,用p表示不变式向量中非零值的个数,有p≤P(Y)。下面为该部分的具体步骤:
(2a1a)估算不变式空间I的维度r:对向量Y进行奇异值分解,对其右奇异向量vi按照奇异值递增的顺序进行检测,看是否满足|Yvi|<ε,其中ε取较小值0.5。当条件满足时,r的值自增并继续循环检测,当该条件不满足时,检测结束。
(2a1b)用暴力算法找到不变式α:
首先定义非零系数模式{ki,i=1,2,...,p},ki是向量Y中非零值的下标,该集合按下标从小到大的顺序排列,且有0≤ki≤m。之后进行搜索:
①p按照从1到p(Y)的顺序递增,搜索出满足定义的非零系数模式的候选项
Figure BDA0002770794330000111
②判断候选项
Figure BDA0002770794330000112
是否满足等式(4),若是,则
Figure BDA0002770794330000113
为我们要找的不变式,否则丢弃;
③找到r个满足上述条件的不变式时,算法退出;
(2a2)挖掘事件间的时间关系:
挖掘事件间的时间关系,其内容为挖掘时间不变式,时间不变式一共有三种,其定义为:
·A→B:只要事件A发生,那么B事件一定会在A后面的某一时刻发生,尽管不一定紧随其后;
·
Figure BDA0002770794330000114
如果事件A发生,那么事件B一定不会在A后面发生;
·A←B:如果事件B发生,那么事件A一定在B前面的某一时刻发生了;
挖掘时间不变式是在初始图上进行的,该图由日志抽象得出,图中每个事件分区仅包含一个日志条目,分区间的有向边体现了日志条目对应的事件发生的时间顺序关系。其中挖掘出的时间不变式一共有两组:利用(2a1)所述的恒定关系可以挖掘出第一组时间不变式,利用表示恒定关系以外的其它收集到的日志和其对应的事件可以挖掘出第二组时间不变式;
(2b)在初始图的基础上,将属于相同类别的事件的日志条目划分到同一个事件分区以生成初始子分区图。每个子分区图至少可以体现(2a)中挖掘出的事件间逻辑关系的一种;
(2c)对每个子分区图,找出其中违反(2a)中挖掘出的事件间时间关系的事件关系,通过从事件分区中分离出某些日志条目到其他分区的方式来依次改变这些不合法的事件关系,直到该子分区图不再违反任何挖掘出的时间关系为止;
(2d)对于每个子分区图,在不违反(2a)中挖掘出的事件间时间关系的前提下,通过把某些同类日志条目融合进一个事件分区的方式对分区图进行优化,直到不可以再融合为止;
(2e)将子分区图按照事件发生的先后顺序组合成完整场景图G=(V,E),其中顶点V表示事件,由日志条目集合构成,有向边
Figure BDA0002770794330000121
则表示事件间的关系;
步骤3,检测APT攻击;
(3a)使用Graph Embedding方法学习现有场景图G的特征表达,即图中顶点和边的矢量表达:
(3a1)使用DeepWalk学习顶点的矢量表达:
(3a1a)设置参数:Skip-Gram窗口大小w,矢量表达的维度d,以图中每个顶点vi∈V为起点的随机游走序列数目γ,随机游走序列的长度l;
(3a1b)初始化矢量表达矩阵ψ∈R|V|×d
(3a1c)设置外循环,循环γ次,用来给每个顶点vi∈V生成γ个随机游走序列Wvi
Figure BDA0002770794330000122
直到序列长度为l为止,其中
Figure BDA0002770794330000123
是从顶点vk的邻居顶点随机选择出的一个顶点;
(3a1d)设置内循环,依次给图中每个顶点vi∈V生成一个随机游走序列,之后直接进入Skip-Gram算法部分;
(3a1e)Skip-Gram算法:对于随机游走序列Wvi中的每个顶点vj∈Wvi,选择该顶点左边w个顶点和右边w个顶点组成的长度为2w的序列sk,最小化优化函数-logPr(sk|ψ(vj)),得到最优化的矢量表达矩阵ψ;
(3a2)使用Hadamard运算符将顶点的表达进行运算得出边的矢量表达:如果相邻顶点v和u的矢量表达为
Figure BDA0002770794330000124
Figure BDA0002770794330000125
边(v,u)的矢量表达为
Figure BDA0002770794330000126
(3b)使用k-means++对顶点或边的矢量表达进行聚类:
(3b1)随机选择一个聚类样本作为初始聚类中心c1
(3b2)计算每个样本x∈X与当前已有聚类中心之间的最短距离D(x),以及每个样本被选为下一个聚类中心的概率
Figure BDA0002770794330000131
最后按照轮盘法选择下一个聚类中心;
(3b3)重复步骤(3b2)直到选择出K个聚类中心;
(3b4)对每个样本x∈X,计算它到K个聚类中心的距离,将其分到距离最小的聚类中心所在的类中;
(3b5)对每个类别ci,重新计算它的聚类中心所在位置
Figure BDA0002770794330000132
(3b6)重复(3b4),(3b5)步骤直到聚类中心的位置不在变化;
其中距离D(x)使用欧氏距离||c-f(·)||2,c代表聚类中心,f(·)是学习到的矢量表达。
(3c)当场景图G更新或使用新的场景图G'时,根据异常分数(或是否属于任何一个已知类别)判断新的顶点或边是否来自APT攻击,若是,则报告异常情况,如图2所示,其中异常分数定义为每个样本与当前已有聚类中心之间的最短距离;
(3d)使用Streaming k-means更新聚类情况:Streaming k-means使用参数来控制估算值的衰减,即衰减因子
Figure BDA0002770794330000133
它可以控制现有集群中过去数据点的重要性。对于新到来的样本,重复上述的(3b4),(3b5)步骤,其中聚类中心的更新方法为:
假如更新前为n0个样本
Figure BDA0002770794330000134
新到来n’个样本
Figure BDA0002770794330000135
有公式(5):
Figure BDA0002770794330000136
然后可以用更新后的中心点作为下一批数据更新时的初始中心点,以此反复。
(3e)返回到(3c)步骤进行新的APT攻击检测。
一种基于多源日志关联分析的APT攻击场景还原检测系统,包括:
事件识别模块,用于收集主机的多源日志,设置新的特征参数,使用关系向量关联所有日志条目,将所有日志条目视为网络中的节点,日志条目间的关系视为节点之间的边,构建无向、有权重复杂网络图,使用带权重的标签传播算法对节点聚类,识别出事件;
场景图构建模块,用于按照时间顺序将日志和事件组成长序列,挖掘出事件间的逻辑关系及时间关系,生成初始子分区图并不断进行优化,得到场景图;
APT攻击检测模块,用于学习场景图的顶点和边的矢量表达,进行聚类,对更新后的场景图,检测其新边和顶点是否异常,完成检测后,更新聚类情况并进行后续检测。
本发明不需要引入第三方数据进行验证,可用于网络安全应用中对APT攻击的检测,能更加全面、准确的还原攻击场景,防止高误报率和漏网之鱼,确保准确检测出APT攻击。
以上所述的仅仅是本发明的较佳实施例,并不用以对本发明的技术方案进行任何限制,本领域技术人员应当理解的是,在不脱离本发明精神和原则的前提下,该技术方案还可以进行若干简单的修改和替换,这些修改和替换也均属于权利要求书所涵盖的保护范围之内。

Claims (10)

1.一种基于多源日志关联分析的APT攻击场景还原检测方法,其特征在于,包括:
步骤一、识别事件;
(1a)收集主机的多源日志,对日志进行解析,统一日志的条目格式,使用关系向量关联所有日志条目,捕获日志内部和日志之间的关系;
(1b)构建无向、有权重复杂网络图:将所有日志条目视为网络中的节点,日志条目间的关系视为节点之间的边,关系向量中1的个数作为边的权重;
(1c)使用带权重的标签传播算法对网络图中的节点进行聚类,关联程度最为紧密的日志条目被聚成一组,称为一类事件;聚类出的节点类别对应于识别出的事件类型;
步骤二、构建场景图;
(2a)挖掘事件间的逻辑关系和时间关系;
(2b)建立初始图,在初始图的基础上,将属于相同类别事件的日志条目划分到同一个事件分区以生成初始子分区图,每个图中至少体现步骤(2a)挖掘出的逻辑关系的一种;
(2c)对每个初始子分区图,找出其中违反步骤(2a)挖掘出的时间关系的事件关系,通过从事件分区中分离出某些日志条目到其他分区的方式来改变这些不合法的事件关系,直至初始子分区图不违反任何挖掘出的时间关系为止;
(2d)对于每个子分区图,在不违反步骤(2a)挖掘出的时间关系的前提下,通过把同类日志条目融合进一个事件分区的方式对分区图进行优化,直到不能再融合为止;
(2e)将子分区图按照事件发生的先后顺序组合成完整场景图G=(V,E),其中顶点V表示事件,由日志条目集合构成,有向边
Figure FDA0002770794320000011
则表示事件间的关系;
步骤三、APT攻击检测;
(3a)学习现有场景图G的顶点和边的矢量表达;
(3b)对顶点或边的矢量表达进行聚类;
(3c)当场景图G更新或使用新的场景图G'时,根据异常分数或是否属于任何一个已知类别判断新的顶点或边是否来自APT攻击,若是,则报告异常情况;
(3d)更新聚类情况;
(3e)返回步骤(3c)进行新的APT攻击检测。
2.根据权利要求1所述基于多源日志关联分析的APT攻击场景还原检测方法,其特征在于:主机的多源日志包括防火墙日志、网络流量记录和进程日志;对日志进行解析包括调整参数、删除冗余以及统一格式;使用24维关系向量
Figure FDA0002770794320000021
关联所有日志条目,使每个日志条目xi(i=1,2,...,n)都有一个关系矩阵Mi储存着它和其它日志条目的关系向量
Figure FDA0002770794320000022
3.根据权利要求1所述基于多源日志关联分析的APT攻击场景还原检测方法,其特征在于:步骤(3a)使用Graph Embedding方法学习顶点和边的矢量表达;步骤(3b)使用k-means++对顶点或边的矢量表达进行聚类;步骤(3d)使用Streaming k-means更新聚类情况。
4.根据权利要求1所述基于多源日志关联分析的APT攻击场景还原检测方法,其特征在于:步骤(2a)挖掘事件间的逻辑关系时利用日志和事件序列挖掘不随输入及工作负载而改变的恒定关系式,通过这些关系反映程序工作流程的特征和结构。
5.根据权利要求1所述基于多源日志关联分析的APT攻击场景还原检测方法,其特征在于,步骤(2a)挖掘事件间的时间关系时挖掘时间不变式,时间不变式有三种,分别为:
·A→B:只要事件A发生,那么B事件一定会在A后面的某一时刻发生,尽管不一定紧随其后;
·
Figure FDA0002770794320000023
如果事件A发生,那么事件B一定不会在A后面发生;
·A←B:如果事件B发生,那么事件A一定在B前面的某一时刻发生了。
6.根据权利要求5所述基于多源日志关联分析的APT攻击场景还原检测方法,其特征在于:挖掘出的时间不变式有两组,利用逻辑关系中的恒定关系式挖掘出第一组时间不变式,利用表示恒定关系以外的其它收集到的日志和所对应的事件挖掘出第二组时间不变式。
7.根据权利要求1所述基于多源日志关联分析的APT攻击场景还原检测方法,其特征在于,步骤(3a)按下式学习现有场景图G的顶点和边的矢量表达:
(3a1)使用DeepWalk学习顶点的矢量表达;
(3a2)使用Hadamard运算符将顶点的矢量表达进行运算得出边的矢量表达。
8.根据权利要求1所述基于多源日志关联分析的APT攻击场景还原检测方法,其特征在于:步骤(3c)的异常分数为每个样本与当前已有聚类中心之间的最短距离。
9.根据权利要求1所述基于多源日志关联分析的APT攻击场景还原检测方法,其特征在于,步骤(3d)对于新到来的样本,其中聚类中心的更新方法为:
若更新前为n0个样本
Figure FDA0002770794320000031
新到来n’个样本
Figure FDA0002770794320000032
衰减因子为
Figure FDA0002770794320000033
则:
Figure FDA0002770794320000034
之后用更新后的中心点作为下一批数据更新时的初始中心点,以此反复。
10.一种基于多源日志关联分析的APT攻击场景还原检测系统,其特征在于,包括:
事件识别模块,用于收集主机的多源日志,设置新的特征参数,使用关系向量关联所有日志条目,将所有日志条目视为网络中的节点,日志条目间的关系视为节点之间的边,构建无向、有权重复杂网络图,使用带权重的标签传播算法对节点聚类,识别出事件;
场景图构建模块,用于按照时间顺序将日志和事件组成长序列,挖掘出事件间的逻辑关系及时间关系,生成初始子分区图并不断进行优化,得到场景图;
APT攻击检测模块,用于学习场景图的顶点和边的矢量表达,进行聚类,对更新后的场景图,检测其新边和顶点是否异常,完成检测后,更新聚类情况并进行后续检测。
CN202011248337.6A 2020-11-10 2020-11-10 基于多源日志关联分析的apt攻击场景还原检测方法及系统 Active CN112333195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011248337.6A CN112333195B (zh) 2020-11-10 2020-11-10 基于多源日志关联分析的apt攻击场景还原检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011248337.6A CN112333195B (zh) 2020-11-10 2020-11-10 基于多源日志关联分析的apt攻击场景还原检测方法及系统

Publications (2)

Publication Number Publication Date
CN112333195A true CN112333195A (zh) 2021-02-05
CN112333195B CN112333195B (zh) 2021-11-30

Family

ID=74319005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011248337.6A Active CN112333195B (zh) 2020-11-10 2020-11-10 基于多源日志关联分析的apt攻击场景还原检测方法及系统

Country Status (1)

Country Link
CN (1) CN112333195B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860533A (zh) * 2021-03-15 2021-05-28 西安电子科技大学 面向分布式无人机群网络日志分析的异常检测方法及设备
CN115174251A (zh) * 2022-07-19 2022-10-11 深信服科技股份有限公司 一种安全告警的误报识别方法、装置以及存储介质
CN115225386A (zh) * 2022-07-20 2022-10-21 广东电网有限责任公司 基于事件序列关联融合的业务识别与风险分析方法及系统
CN115567305A (zh) * 2022-09-29 2023-01-03 中国人民解放军国防科技大学 基于深度学习的顺序网络攻击预测分析方法
CN115589339A (zh) * 2022-12-08 2023-01-10 北京华云安信息技术有限公司 网络攻击类型识别方法、装置、设备以及存储介质
WO2024216729A1 (zh) * 2023-04-20 2024-10-24 浙江工业大学 一种基于跨主机异常行为识别的复杂网络攻击检测方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法
CN104539626A (zh) * 2015-01-14 2015-04-22 中国人民解放军信息工程大学 一种基于多源报警日志的网络攻击场景生成方法
CN106790186A (zh) * 2016-12-30 2017-05-31 中国人民解放军信息工程大学 基于多源异常事件关联分析的多步攻击检测方法
CN106817248A (zh) * 2016-12-19 2017-06-09 西安电子科技大学 一种apt攻击检测方法
CN108076040A (zh) * 2017-10-11 2018-05-25 北京邮电大学 一种基于杀伤链和模糊聚类的apt攻击场景挖掘方法
CN108494810A (zh) * 2018-06-11 2018-09-04 中国人民解放军战略支援部队信息工程大学 面向攻击的网络安全态势预测方法、装置及系统
US10121000B1 (en) * 2016-06-28 2018-11-06 Fireeye, Inc. System and method to detect premium attacks on electronic networks and electronic devices
CN109327480A (zh) * 2018-12-14 2019-02-12 北京邮电大学 一种基于神经网络和贝叶斯网络攻击图的多步攻击场景挖掘方法
CN110958220A (zh) * 2019-10-24 2020-04-03 中国科学院信息工程研究所 一种基于异构图嵌入的网络空间安全威胁检测方法及系统
US10630715B1 (en) * 2019-07-25 2020-04-21 Confluera, Inc. Methods and system for characterizing infrastructure security-related events
US20200177608A1 (en) * 2018-12-04 2020-06-04 International Business Machines Corporation Ontology Based Persistent Attack Campaign Detection
CN111581643A (zh) * 2020-05-07 2020-08-25 中国工商银行股份有限公司 渗透攻击评价方法和装置、以及电子设备和可读存储介质
CN111931173A (zh) * 2020-08-14 2020-11-13 广州纬通贸易有限公司 一种基于apt攻击意图的操作权限控制方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法
CN104539626A (zh) * 2015-01-14 2015-04-22 中国人民解放军信息工程大学 一种基于多源报警日志的网络攻击场景生成方法
US10121000B1 (en) * 2016-06-28 2018-11-06 Fireeye, Inc. System and method to detect premium attacks on electronic networks and electronic devices
CN106817248A (zh) * 2016-12-19 2017-06-09 西安电子科技大学 一种apt攻击检测方法
CN106790186A (zh) * 2016-12-30 2017-05-31 中国人民解放军信息工程大学 基于多源异常事件关联分析的多步攻击检测方法
CN108076040A (zh) * 2017-10-11 2018-05-25 北京邮电大学 一种基于杀伤链和模糊聚类的apt攻击场景挖掘方法
CN108494810A (zh) * 2018-06-11 2018-09-04 中国人民解放军战略支援部队信息工程大学 面向攻击的网络安全态势预测方法、装置及系统
US20200177608A1 (en) * 2018-12-04 2020-06-04 International Business Machines Corporation Ontology Based Persistent Attack Campaign Detection
CN109327480A (zh) * 2018-12-14 2019-02-12 北京邮电大学 一种基于神经网络和贝叶斯网络攻击图的多步攻击场景挖掘方法
US10630715B1 (en) * 2019-07-25 2020-04-21 Confluera, Inc. Methods and system for characterizing infrastructure security-related events
CN110958220A (zh) * 2019-10-24 2020-04-03 中国科学院信息工程研究所 一种基于异构图嵌入的网络空间安全威胁检测方法及系统
CN111581643A (zh) * 2020-05-07 2020-08-25 中国工商银行股份有限公司 渗透攻击评价方法和装置、以及电子设备和可读存储介质
CN111931173A (zh) * 2020-08-14 2020-11-13 广州纬通贸易有限公司 一种基于apt攻击意图的操作权限控制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
B. BURR, S. WANG, G. SALMON AND H. SOLIMAN: ""On the Detection of Persistent Attacks using Alert Graphs and Event Feature Embeddings"", 《NOMS 2020 - 2020 IEEE/IFIP NETWORK OPERATIONS AND MANAGEMENT SYMPOSIUM》 *
付钰,李洪成,吴晓平,王甲生: ""基于大数据分析的APT攻击检测研究综述"", 《通信学报》 *
刘威歆: ""基于攻击图的APT攻击检测和威胁评估研究"", 《中国博士学位论文全文数据库(电子期刊)信息科技辑》 *
李腾: ""智能通信设备的隐私保护和异常检测方法"", 《中国博士学位论文全文数据库(电子期刊)信息科技辑》 *
芶继军,李均华,陈晨,陈一鸣,吕奕达: ""基于随机森林的网络入侵检测方法"", 《计算机工程与应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860533A (zh) * 2021-03-15 2021-05-28 西安电子科技大学 面向分布式无人机群网络日志分析的异常检测方法及设备
CN112860533B (zh) * 2021-03-15 2022-06-17 西安电子科技大学 面向分布式无人机群网络日志分析的异常检测方法及设备
CN115174251A (zh) * 2022-07-19 2022-10-11 深信服科技股份有限公司 一种安全告警的误报识别方法、装置以及存储介质
CN115174251B (zh) * 2022-07-19 2023-09-05 深信服科技股份有限公司 一种安全告警的误报识别方法、装置以及存储介质
CN115225386A (zh) * 2022-07-20 2022-10-21 广东电网有限责任公司 基于事件序列关联融合的业务识别与风险分析方法及系统
CN115225386B (zh) * 2022-07-20 2023-05-19 广东电网有限责任公司 基于事件序列关联融合的业务识别与风险分析方法及系统
CN115567305A (zh) * 2022-09-29 2023-01-03 中国人民解放军国防科技大学 基于深度学习的顺序网络攻击预测分析方法
CN115567305B (zh) * 2022-09-29 2024-05-07 中国人民解放军国防科技大学 基于深度学习的顺序网络攻击预测分析方法
CN115589339A (zh) * 2022-12-08 2023-01-10 北京华云安信息技术有限公司 网络攻击类型识别方法、装置、设备以及存储介质
CN115589339B (zh) * 2022-12-08 2023-04-07 北京华云安信息技术有限公司 网络攻击类型识别方法、装置、设备以及存储介质
WO2024216729A1 (zh) * 2023-04-20 2024-10-24 浙江工业大学 一种基于跨主机异常行为识别的复杂网络攻击检测方法

Also Published As

Publication number Publication date
CN112333195B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN112333195B (zh) 基于多源日志关联分析的apt攻击场景还原检测方法及系统
Cai et al. Structural temporal graph neural networks for anomaly detection in dynamic graphs
Aljawarneh et al. Anomaly-based intrusion detection system through feature selection analysis and building hybrid efficient model
Sahu et al. Network intrusion detection system using J48 Decision Tree
CN108076040B (zh) 一种基于杀伤链和模糊聚类的apt攻击场景挖掘方法
Gogoi et al. MLH-IDS: a multi-level hybrid intrusion detection method
US11194906B2 (en) Automated threat alert triage via data provenance
CN107517216B (zh) 一种网络安全事件关联方法
CN111709022B (zh) 基于ap聚类与因果关系的混合报警关联方法
CN113422763B (zh) 基于攻击场景构建的报警关联分析方法
CN115643035A (zh) 基于多源日志的网络安全态势评估方法
CN113064932A (zh) 一种基于数据挖掘的网络态势评估方法
CN113821793A (zh) 一种基于图卷积神经网络的多阶段攻击场景构建方法及系统
Hendry et al. Intrusion signature creation via clustering anomalies
Dong et al. Anomalous event sequence detection
Aung et al. Association rule pattern mining approaches network anomaly detection
CN108243169A (zh) 一种网络安全探知方法及系统
Chimphlee et al. Unsupervised clustering methods for identifying rare events in anomaly detection
CN115085948A (zh) 基于改进d-s证据理论的网络安全态势评估方法
CN116938587A (zh) 基于溯源图行为语义提取的威胁检测方法及系统
CN115567325B (zh) 一种基于图匹配的威胁狩猎方法
CN117134943A (zh) 一种基于模糊贝叶斯网络的攻击模式预测方法
CN115277178B (zh) 基于企业网网络流量的异常监测方法、装置及存储介质
Soliman et al. A network intrusions detection system based on a quantum bio inspired algorithm
Leevy et al. Feature evaluation for IoT botnet traffic classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant