CN109922069B - 高级持续性威胁的多维关联分析方法及系统 - Google Patents
高级持续性威胁的多维关联分析方法及系统 Download PDFInfo
- Publication number
- CN109922069B CN109922069B CN201910191125.XA CN201910191125A CN109922069B CN 109922069 B CN109922069 B CN 109922069B CN 201910191125 A CN201910191125 A CN 201910191125A CN 109922069 B CN109922069 B CN 109922069B
- Authority
- CN
- China
- Prior art keywords
- alarm information
- attack
- chain
- analysis
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了高级持续性威胁的多维关联分析方法及系统,方法包括:对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链;通过语义分析提取出告警信息链中隐含的攻击主题;根据攻击主题的概率计算出安全评估值。本发明能够实现攻击相关性评估,并发现网络威胁各攻击阶段对安全态势的潜在影响,从而实现整网安全态势评估。
Description
技术领域
本申请涉及网络安全监测技术领域,尤其涉及高级持续性威胁的多维关联分析方法及系统。
背景技术
网络信息技术的发展对现今社会生产力带来了巨大的变化,越来越多的国家公司、机构和政府加快发展自身的网络应用和服务,现有计算机网络和软件系统日趋复杂,随之而来的是漏洞频发和攻击事件频出,这些事件的攻击手段日渐多样化和持久化,攻击面从传统计算机网络延伸到工控系统和社交网络。
高级持续性威胁(Advanced Persistent Threat,APT)是二十世纪以来出现的一类新型网络攻击,攻击者掌握计算机系统及计算机网络的高深专业知识和有效充足的资源,通过多种攻击途径(如网络、系统驱动、物理设施和欺骗等),在特定组织的信息技术基础设施建立立足点,以窃取机密信息,破坏或阻碍任务、程序或组织的关键系统,或者驻留在组织的内部网络进行后续攻击。APT攻击主要针对政府、能源、金融等重要行业与部门实施,其先进的攻击模式、高级的攻击技术、持续的攻击周期与明确的攻击目标,使得攻击能够实现精准打击,造成难以估量的破坏和损失。因此,针对APT攻击进行安全态势和威胁影响的合理评估,为网络管理员或安全主管部门提供辅助决策信息迫在眉睫。
目前,评估攻击事件对信息系统造成的威胁态势大体上分为三个研究方向:基于规则的评估方法、基于指标体系的评估方法和基于模型的评估方法。基于规则的评估方法是用主动扫描和被动监测的方式从网络流量和本地、远程机提取检测规则相匹配的脆弱性集合,然后以集合的脆弱性数量及严重程度作为整体安全风险的度量前提。例如,通过主机上安装代理软件,检查文件、进程和注册表等来确定是否存在与扫描规则相抵触的对象;通过发起网络链接主动扫描网络中暴露的漏洞或通过捕获的数据包判断是否存在与漏洞规则匹配的数据包,从而定位漏洞所在的主机。然而,随着计算机网络日趋复杂,安全漏洞日益庞大,扫描准则难以实时跟进;攻击趋于利用多个漏洞组合实施,单一的扫描规则难以发现组合之间的依赖关系,因而难以评估组合利用漏洞的危害。基于指标体系的评估方法,该类方法按照属性的异同分为不同的指标组,构建层次化的评估体系,逐层向上计算整体安全风险。该方法将复杂安全问题进行分解评估,能够反映被评估对像的定量、定性因素,将评估过程和评估因素分层分阶段进行,最终能结合定性定量的中间结果给出最终的评定。但是,该方法中也常忽略主机关联性和漏洞关联性,无法对当前态势的潜在影响进行定量评估,同时该方法大多利用攻击知识库和攻击结果数据,忽略攻击过程中状态变化,导致其评估结果有一定片面性。基于模型的评估方法通过模型定义关联方法,用逻辑推断来衡量漏洞组合利用造成的危害。相对于前面两种评估方法,基于模型的评估方法能将指标体系、关联关系、逻辑关系结合起来评估网络安全态势,因此基于模型的评估方法已经成为网络安全风险评估方法研究领域中的主流方向。
综上所述,针对APT攻击的安全评估,采用以上三种方法,每种方法有其优势,也有着其缺点。基于规则的评估方法依据现在规则能准确发现存在的脆弱性,但是难以应对未知攻击,难以发现脆弱性之间的依懒关系;基于指标体系的评估方法,能够结合各阶段的中间结果给出最终评定,但是评估结果难以反映状态变化;基于模型的评估方法能够结合多方面因素进行评估,能够展示攻击过程和威胁变化,但是攻击依赖关系和逻辑关系在评估中的合理应用面临挑战。总之,APT对传统的安全评估技术的挑战关键在于其攻击分阶段的持续性,现有的安全评估技术缺乏长期的监控关联,难以发现这种各阶段攻击中隐蔽的持续破坏。
发明内容
有鉴于此,本申请提供了高级持续性威胁的多维关联分析方法,能够实现攻击相关性评估,并发现网络威胁各攻击阶段对安全态势的潜在影响,从而实现整网安全态势评估。
本申请提供了一种高级持续性威胁的多维关联分析方法,包括:
对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链;
通过语义分析提取出所述告警信息链中隐含的攻击主题;
根据所述攻击主题的概率计算出安全评估值。
优选地,所述方法还包括:
对不断产生的新的异常告警信息进行持续追踪。
优选地,所述对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链包括:
获取网络异常行为产生的所述原始告警信息;
基于网络攻击的相互依赖关系对所述原始告警信息进行关联分析,得到超告警信息;
基于所述超告警信息的关联关系得到所述告警信息链。
优选地,所述通过语义分析提取出所述告警信息链中隐含的攻击主题包括:
建立网络威胁情报的语义模型;
对所述语义模型经参数估计,得到所述告警信息链中隐含的攻击主题。
一种高级持续性威胁的多维关联分析系统,包括:
关联分析模块,用于对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链;
语义分析模块,用于通过语义分析提取出所述告警信息链中隐含的攻击主题;
安全预警模块,用于根据所述攻击主题的概率计算出安全评估值。
优选地,所述的系统还包括:
持续追踪模块,用于对不断产生的新的异常告警信息进行持续追踪。
优选地,所述关联分析模块包括:
获取单元,用于获取网络异常行为产生的所述原始告警信息;
第一生成单元,用于基于网络攻击的相互依赖关系对所述原始告警信息进行关联分析,得到超告警信息;
第二生成单元,用于基于所述超告警信息的关联关系得到所述告警信息链。
优选地,所述语义分析模块包括:
建模单元,用于建立网络威胁情报的语义模型;
参数估计单元,用于对所述语义模型经参数估计,得到所述告警信息链中隐含的攻击主题。
综上所述,本发明公开了高级持续性威胁的多维关联分析方法,包括:对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链,通过语义分析提取出告警信息链中隐含的攻击主题,根据攻击主题的概率计算出安全评估值。本发明能够实现攻击相关性评估,并发现网络威胁各攻击阶段对安全态势的潜在影响,从而实现整网安全态势评估。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的高级持续性威胁的多维关联分析方法实施例1的流程图;
图2为本发明公开的高级持续性威胁的多维关联分析方法实施例2的流程图;
图3为本发明公开的基于LDA模型的复合网络威胁语义分析模型;
图4为本发明公开的简化的复合网络威胁语义分析LDA贝叶斯网络示意图;
图5为本发明公开的超告警信息生成及关联过程示意图;
图6为本发明公开的高级持续性威胁的多维关联分析系统实施例1的结构示意图;
图7为本发明公开的高级持续性威胁的多维关联分析系统实施例2的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本发明公开的高级持续性威胁的多维关联分析方法实施例1的流程图,所述方法可以包括以下步骤:
S101、对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链;
S102、通过语义分析提取出告警信息链中隐含的攻击主题;
S103、根据攻击主题的概率计算出安全评估值。
综上所述,针对目前在大数据环境下APT攻击安全评估面临的攻击依赖关系和逻辑关系评估的挑战,本发明提供了基于语义上下文的网络威胁多维关联分析方法,对原始安全告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链,然后利用基于隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型的语义分析方法提取告警信息链中隐含的攻击主题,能够实现攻击相关性评估,并发现网络威胁各攻击阶段对安全态势的潜在影响,从而实现整网安全态势评估。
如图2所示,为本发明公开的高级持续性威胁的多维关联分析方法实施例2的流程图,所述方法可以包括以下步骤:
S201、获取网络异常行为产生的原始告警信息;
网络安全信息系统,如入侵检测系统,蜜罐系统日志、沙箱行为、异常流检测,通常能针对某一网络异常行为产生告警信息,大部分入侵检测系统都遵循标准的入侵检测信息交换格式(IntrusionDetectionMessage Exchange Format,IDMEF)。常见的入侵检测系统检测到异常的告警信息表示为(ip,port,t,severity,event,dsp),其中ip,port分别表示异常发生相关的IP地址和端口号,t表示告警信息产生的时间,severity表示该异常的严重程度,event表示告警信息的类型,event对告警信息的描述信息,是对异常行为的补充描述或原因分析。本发明中所述告警信息用包含了时间、地点、告警信息类型的三元组d=(ip,t,event)表示。
S202、基于网络攻击的相互依赖关系对原始告警信息进行关联分析,得到超告警信息;
大部分网络攻击都不是孤立的,而是与不同阶段的一系列攻击相关的。直观上来说,一个攻击的成功开展需要一定的先决条件,并产生一定的结果,该结果又为其他的网络攻击提供先决条件。本发明利用网络攻击的相互依赖关系实现对网络告警日志的关联分析,即在原始网络告警日志的基础上,用超告警信息来表示告警信息之间的依赖关系。对于检测到的一个异常,其告警信息d=(ip,t,event),则对应的超告警信息h用一个二元组(P,C)来表示,其中P=(P(ip),P(t),P(event))表示该异常发生的先决条件,其本质是另外一条告警信息d'=(ip',t',event'),则P(ip)=ip',P(t)=t',P(event)=event'即P=d';C=(C(ip),C(t),C(event))表示该异常发生的结果,其本质是当前产生的告警信息d,则C(ip)=ip,C(t)=t,C(event)=event,即C=d;超告警信息的时间项必须满足P(t)<C(t)。那么,对于告警信息d生成的超告警信息h可表示为:
h=(P,C)=(d',d)=((ip',t',event'),(ip,t,event))
S203、基于超告警信息的关联关系得到告警信息链;
有如下两条超告警信息h1和h2:
h1=(P1,C1)=(d,d')
h2=(P2,C2)=(d',d”)
其中C1=P2,也就是说超告警信息h1的结果C1是另一条超告警信息h2的先决条件P2,则认为两条超告警信息h1和h2具有关联关系。
这些超告警信息的关联关系就可以将各告警信息关联在一起(d是d'的先决条件,同时d'是d”的先决条件),生成由相关告警信息组成的告警链(d→d'→d”),告警链的每个节点是一条告警信息。
S204、建立网络威胁情报的语义模型;
建立网络威胁情报的语义模型,该模型主要由四个要素组成:文档、单词、词库、主题。该模型中所述文档对应异常告警链;单词对应异常告警链中的各个节点元素;词库对应所有异常告警链中的不同节点元素的集合;主题表示某个单词或文档具有的性质(例如攻击的类型)。
隐含狄利克雷分布(LatentDirichletAllocation,LDA)模型是一种由文档层、主题层和词层构成的三层树状贝叶斯(Bayes)概率生成模型。图3给出了本发明基于LDA模型的攻击主题ρ和告警信息集合B的语义分析描述模型。该模型中,有M篇文档(即M条告警链),以告警链的每个节点中告警信息三元组的event为基础单元,即每条告警信息的eventn(其中n=1,2,...,NM,m=1,2,...,M)是词层中的一个词wv(其中,v=1,2,...,V),词层中的词库总共有V个不同单词,Nm服从泊松分布;根据异常告警链生成的矢量fm(其中,m=1,2,...,M)由该异常告警链中每个节点对应的告警信息类型组成,攻击文档集合B则是根据异常告警链生成的矢量(f1,f2,…,fM)组成,即文档层的文档是fm,其中m=1,2,...,M;主题层的主题ρ是指某个词(告警信息的eventn)或某个文档(告警信息链fm)的性质,用于说明告警信息的攻击类型,也叫攻击主题,K个主题用ρk(其中,k=1,2,...,K)。α、σ、β是LDA的模型参数,其中α表示文档集上与σ对应的K维狄利克雷超参数,设α=[α1,α2,…,αK];是狄利克雷变量, 表示第m篇文档在主题上的多项式分布,长度为K,设 则σm1+σm2+…+σmK=1,且0≤σmk≤1,k=1,2,…,K,m=1,2,…,M;是基于攻击主题的告警信息分布, 其中,k=1,2,…,K,记录第k个主题中词的分布,长度为V。β中每个元素βkv记录k个主题条件下抽到第v个词的概率。
S205、对语义模型经参数估计,得到告警信息链中隐含的攻击主题;
已知的先验条件是由M个攻击文档fm组成的攻击文档集合B;词库中词的个数为V,即攻击文档集合B中共有V个不同的词(告警类型);攻击文档集合B分为K个主题(攻击类型)。
本发明采用变分推理的方法实现模型参数的估计。
变分推理将图3转化为一个简化的复合网络威胁语义分析LDA贝叶斯网络图,简化后的贝叶斯网络图如图4所示。简化后,定义如下的变分分布:
q(σ,ρ|γ,Φ)=q(σ|γ)q(ρ|Φ) (2-1)
其中γ和Φ分别是变分分布中的狄利克雷和多项式分布参数,通过固定点迭代方法求解如下的相对熵最小化问题,
(γ*,Φ*)=argminγ,φD(q(σ,ρ|γ,Φ)||p(σ,ρ|f,α,β)) (2-2)
式(2-2)中q(σ,ρ|γ,Φ)表示变分后验概率,p(σ,ρ|f,α,β)表示真实后验概率,D(q(σ,ρ|γ,Φ)||p(σ,ρ|f,α,β))是KL(Kullback-Leibler Divergence,相对熵),表示变分后验概率和真实后验概率的差值,这个差值越小近似的结果就越好,argminγ,φD(q(σ,ρ|γ,Φ)||p(σ,ρ|f,α,β))表示变分后验概率和真实后验概率差值最小,γ*、Φ*是变分后验概率和真实后验概率差最小时的γ和Φ的值。求最小化相对熵时γ和Φ的值用一篇文档做为迭代固定点的方法,该方法表示为:
表示第m篇文档中第n个词的多项式分布参数,长度为K,其中n=1,2,...,Nm,因此Φ是一个大小为Nm×K的矩阵,每一行代表第m篇文章里的第n个词的多项式分布,每一个元素表示第m篇中第n个词被分到第k个主题的概率。
式(2-3)中的Eq((log(σmk))|γm)可以用式(2-5)计算。
其中,σmk为文档在第k个主题上的分布概率,Ψ函数是logΓ函数求一阶偏导,利用泰勒近似可求得。
将m篇文档中的每一篇文档分别作为一个固定点用式(2-3)和(2-4)进行迭代,对应每篇文档的迭代可得到一个γm*、Φm*值,变分后验概率和真实后验概率差最小时的γ和Φ的值,该值使得式(2-2)中的相对熵最小。
基于γm*、Φm*,通过最大化关于α,β的似然比对数下界,可以得到α,β的估计值。其中,β参照公式(2-6)计算:
α用牛顿-拉弗森法可求,选代公式如下:
αnew=αold-H(αold)-1g(αold) (2-7)
αnew为α当前计算值,αold为前一次的α计算值,H(αold)和g(αold)为αold处的Hessian矩阵和梯度。Hessian矩阵H(αold)的每个元素用hkj表示,其中k∈[1,K],j∈[1,K];梯度g(αold)是一个向量,它的每个元素用gk表示,其中k∈[1,K]。
当且仅当k=j时,δ(k,j)=1,否则δ(k,j)=0。式(2-9)和(2-10)中的αk和αj都是K维向量αold中的元素,其中k∈[1,K],j∈[1,K]。
反复迭代最小化最大化问题,上述基于LDA模型的攻击主题和告警信息集合的语义分析描述模型,根据已知的攻击文档集合B即可估计模型的参数α,σ,β和Φ,从而实现网络复合威胁的语义增强。
S206、根据攻击主题的概率计算出安全评估值;
对于一个文档fm中的一个单词wm,n在词库中的编号为v它可能的主题分布就为Φm的值取参数迭代收敛时的Φm*的值,Φm表示第m篇文档中第n个词属于第k个主题的概率。fm中有Nm个词,我们用 来表示每篇文档和每个主题的关系,其中表示第m篇文档属于第k个主题的概率,用如下公式(2-11)计算
安全系数值对应的安全等级如下表:
表1安全系数值对应的安全等级
根据文档fm的安全系数pAPT值的大小我们可以标注该文档对应的告警信息链安全性,对pAPT值大于0.3的告警信息链输出不安全报警。
S207、对不断产生的新的异常告警信息进行持续追踪。
APT攻击具有多阶段、持续时间长的特点,随着APT攻击的持续进行,新的网络告警日志会不断产生,这些新的告警信息将生成新的异常告警链或者被关联到已生成的异常告警链,随后网络告警信息文档集合将会被更新。随着新的告警日志的出现,APT攻击的特点和行为轮廓将更加突出,通过对新的文档集合进行主题分析,可以更有效地提取文档的主题模型。当新日志产生时,将新的日志加入到旧日志中,按照上述方法重新生成告警链,再建模进行LDA语义分析,最后再计算安全系数值判断安全性。
综上所述,针对网络异常行为,入侵检测系统会给出海量告警信息,现有的安全评估技术缺乏长期的监控关联,难以发现长时间海量告警信息中隐蔽的有关联的持续破坏。本发明将各阶段攻击告警信息关联成告警链,并利用语义分析找到异常告警链中隐含的攻击主题分布(语义特征)信息,有利于从海量告警信息中发现攻击的关联性,从而发现各阶段攻击中隐蔽的持续破坏,实现整网安全态势评估。
为了更加详细的说明本发明提供的技术方案,下面以具体的实例再次进行详细说明,具体如下:
本实施例提出的一种高级持续性威胁多维关联分析方法,包括:APT攻击的关联分析、APT攻击的语义增强、APT攻击的安全预警、APT攻击的持续追踪。其中:
(1)APT攻击的关联分析
其用于对原始告警信息进行关联分析和再组织,将具有关联关系的告警消息组成告警信息链。告警信息链生成过程如下例,若有3条告警信息:
d1=(ip1,t1,event1)=(202.195.93.61,0xc12b141a,VulnerableSadmind)
d2=(ip2,t2,event2)=(202.195.93.133,0xc1296314,ExistsHost)
d3=(ip3,t3,event3)=(202.195.93.139,0xc12b2579,GainRootAccess)
t2<t1,我们就认为告警信息d2是告警信息d1的先决条件,d1是d2的结果,其超告警信息为:
h1=(P1,C1)=(d2,d1)=((202.195.93.133,0xc1296314,ExistsHost),(202.195.93.61,0xc12b141a,VulnerableSadmind))
t1<t3,同理生成超告警信息:
h2=(P2,C2)=(d1,d3)=((202.195.93.61,0xc12b141a,VulnerableSadmind),(202.195.93.139,0xc12b2579,GainRootAccess))
t2<t1,同理生成超告警信息:
h3=(P3,C3)=(d2,d3)=((202.195.93.133,0xc1296314,ExistsHost),(202.195.93.139,0xc12b2579,GainRootAccess))
超告警信息生成及关联过程示意图如图5所示,h1中结果是h2中的先决条件,所h1和h2是两条相关联的超告警信息,由它们的关联关系可生成告警信息链e1,而h3没有与之相关联的超告警信息,此时的告警信息链e2等同于超告警信息h3。告警信息链表示了告警信息之间的前后关联,告警信息链中的每一个节点是一条告警信息,如e1中的d1、d2、d3;若存在两条告警信息d1=(ip1,t1,event1)和d2=(ip2,t2,event2),d2是d1的先决条件,d1是d2的结果,生成的超警告信息为h=(d2,d1),则超告警信息h就是关系链中的一条有向边从节点d2指向d1,如图5中告警信息链e1中的两个箭头,d1指向d2的箭头就是超告警信息h1,d1指向d3的箭头就是超告警信息h2。
(2)APT攻击的语义增强
其用于提取异常告警链中隐含的不可观的攻击特征,在异常告警链的基础上对其进行语义增强。
语义分析建模
有了告警信息链以后,我们把链中每个节点的中的“event”按链的先后顺序取出来作为LDA模型的一篇文档,也就是一篇文档对应一条告警信息链,每个“event”就是LDA模型中的一个词,主题就是这些词和文档的属性即攻击的类型。例如图5中的告警信息链e1和e2对应的LDA模型文档分别为f1和f2如下:
f1=(ExistsHost,VulnerableSadmind,GainRootAccess)
f2=(ExistsHost,GainRootAccess)
文档f1由词ExistsHost,VulnerableSadmind,GainRootAccess组成,其文档的长度N1=3;文档f2由词ExistsHost,GainRootAccess组成,其文档的长度N2=2;若告警信息链只有这两条,LDA模型的词库就由ExistsHost,VulnerableSadmind,GainRootAccess三个词构成,V=3;同理可以由告警信息链得到M篇文档的LDA模型,主题K的值由实际应用中攻击的种类决定。
模型的参数估计
已知的先验条件是由M个攻击文档fm组成的攻击文档集合B;词库中词的个数为V,即攻击文档集合B中共有V个不同的词(告警类型);攻击文档集合B分为K个主题(攻击类型)。
模型的参数估计具体按表2中的算法伪代码实现。
表2模型的参数估计算法
参数估计算法中的输入(f1,f2,...,fM)是所有告警信息链形成的文档;迭代次数T1根据实际情况来设置,迭代T1次之后实现γmk和收敛;迭代次数T2根据实际情况来设置,迭代T2次之后实现α收敛。完成表2中的E-STEP和M-STEP之后,只是完成了一次完整的迭代,该完整的迭代过程必须要重复T次后才完成了整个参数估计的过程,此处的T值也根据实际情况来设置,目的是重复T次后α和β都收敛。
(3)APT攻击的安全预警
最后用公式(2-12)计算出的fm的安全系数pAPT。根据表1输出安全预警。
(4)APT攻击的持续追踪
随着APT攻击的持续进行,新的网络告警日志会不断产生,我们将新产生的日志加入到旧的日志中,再按照(1)(2)(3)中的方法重新计算安全系数pAPT,输出安全预警。
如图6所示,为本发明公开的高级持续性威胁的多维关联分析系统实施例1的结构示意图,所述系统包括:
关联分析模块601,用于对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链;
语义分析模块602,用于通过语义分析提取出告警信息链中隐含的攻击主题;
安全预警模块603,用于根据攻击主题的概率计算出安全评估值。
综上所述,针对目前在大数据环境下APT攻击安全评估面临的攻击依赖关系和逻辑关系评估的挑战,本发明提供了基于语义上下文的网络威胁多维关联分析方法,对原始安全告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链,然后利用基于隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型的语义分析方法提取告警信息链中隐含的攻击主题,能够实现攻击相关性评估,并发现网络威胁各攻击阶段对安全态势的潜在影响,从而实现整网安全态势评估。
如图7所示,为本发明公开的高级持续性威胁的多维关联分析系统实施例2的结构示意图,所述系统包括:
获取单元701,用于获取网络异常行为产生的原始告警信息;
网络安全信息系统,如入侵检测系统,蜜罐系统日志、沙箱行为、异常流检测,通常能针对某一网络异常行为产生告警信息,大部分入侵检测系统都遵循标准的入侵检测信息交换格式(Intrusion Detection Message Exchange Format,IDMEF)。常见的入侵检测系统检测到异常的告警信息表示为(ip,port,t,severity,event,dsp),其中ip,port分别表示异常发生相关的IP地址和端口号,t表示告警信息产生的时间,severity表示该异常的严重程度,event表示告警信息的类型,event对告警信息的描述信息,是对异常行为的补充描述或原因分析。本发明中所述告警信息用包含了时间、地点、告警信息类型的三元组d=(ip,t,event)表示。
第一生成单元702,用于基于网络攻击的相互依赖关系对原始告警信息进行关联分析,得到超告警信息;
大部分网络攻击都不是孤立的,而是与不同阶段的一系列攻击相关的。直观上来说,一个攻击的成功开展需要一定的先决条件,并产生一定的结果,该结果又为其他的网络攻击提供先决条件。本发明利用网络攻击的相互依赖关系实现对网络告警日志的关联分析,即在原始网络告警日志的基础上,用超告警信息来表示告警信息之间的依赖关系。对于检测到的一个异常,其告警信息d=(ip,t,event),则对应的超告警信息h用一个二元组(P,C)来表示,其中P=(P(ip),P(t),P(event))表示该异常发生的先决条件,其本质是另外一条告警信息d'=(ip',t',event'),则P(ip)=ip',P(t)=t',P(event)=event'即P=d';C=(C(ip),C(t),C(event))表示该异常发生的结果,其本质是当前产生的告警信息d,则C(ip)=ip,C(t)=t,C(event)=event,即C=d;超告警信息的时间项必须满足P(t)<C(t)。那么,对于告警信息d生成的超告警信息h可表示为:
h=(P,C)=(d',d)=((ip',t',event'),(ip,t,event))
第二生成单元703,用于基于超告警信息的关联关系得到告警信息链;
有如下两条超告警信息h1和h2:
h1=(P1,C1)=(d,d')
h2=(P2,C2)=(d',d”)
其中C1=P2,也就是说超告警信息h1的结果C1是另一条超告警信息h2的先决条件P2,则认为两条超告警信息h1和h2具有关联关系。
这些超告警信息的关联关系就可以将各告警信息关联在一起(d是d'的先决条件,同时d'是d”的先决条件),生成由相关告警信息组成的告警链(d→d'→d”),告警链的每个节点是一条告警信息。
建模单元704,用于建立网络威胁情报的语义模型;
建立网络威胁情报的语义模型,该模型主要由四个要素组成:文档、单词、词库、主题。该模型中所述文档对应异常告警链;单词对应异常告警链中的各个节点元素;词库对应所有异常告警链中的不同节点元素的集合;主题表示某个单词或文档具有的性质(例如攻击的类型)。
隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是一种由文档层、主题层和词层构成的三层树状贝叶斯(Bayes)概率生成模型。图3给出了本发明基于LDA模型的攻击主题ρ和告警信息集合B的语义分析描述模型。该模型中,有M篇文档(即M条告警链),以告警链的每个节点中告警信息三元组的event为基础单元,即每条告警信息的eventn(其中n=1,2,...,NM,m=1,2,...,M)是词层中的一个词wv(其中,v=1,2,...,V),词层中的词库总共有V个不同单词,Nm服从泊松分布;根据异常告警链生成的矢量fm(其中,m=1,2,...,M)由该异常告警链中每个节点对应的告警信息类型组成,攻击文档集合B则是根据异常告警链生成的矢量(f1,f2,…,fM)组成,即文档层的文档是fm,其中,m=1,2,...,M;主题层的主题ρ是指某个词(告警信息的eventn)或某个文档(告警信息链fm)的性质,用于说明告警信息的攻击类型,也叫攻击主题,K个主题用ρk(其中,k=1,2,...,K)。α、σ、β是LDA的模型参数,其中α表示文档集上与σ对应的K维狄利克雷超参数,设α=[α1,α2,…,αK];是狄利克雷变量, 表示第m篇文档在主题上的多项式分布,长度为K,设 则σm1+σm2+…+σmK=1,且0≤σmk≤1,k=1,2,…,K,m=1,2,…,M;是基于攻击主题的告警信息分布, 其中,k=1,2,…,K,记录第k个主题中词的分布,长度为V。β中每个元素βkv记录k个主题条件下抽到第v个词的概率。
参数估计单元705,用于对语义模型经参数估计,得到告警信息链中隐含的攻击主题;
已知的先验条件是由M个攻击文档fm组成的攻击文档集合B;词库中词的个数为V,即攻击文档集合B中共有V个不同的词(告警类型);攻击文档集合B分为K个主题(攻击类型)。
本发明采用变分推理的方法实现模型参数的估计。
变分推理将图3转化为一个简化的复合网络威胁语义分析LDA贝叶斯网络图,简化后的贝叶斯网络图如图4所示。简化后,定义如下的变分分布,
q(σ,ρ|γ,Φ)=q(σ|γ)q(ρ|Φ) (2-1)
其中γ和Φ分别是变分分布中的狄利克雷和多项式分布参数,通过固定点迭代方法求解如下的相对熵最小化问题,
(γ*,Φ*)=argminγ,φD(q(σ,ρ|γ,Φ)||p(σ,ρ|f,α,β)) (2-2)
式(2-2)中q(σ,ρ|γ,Φ)表示变分后验概率,p(σ,ρ|f,α,β)表示真实后验概率,D(q(σ,ρ|γ,Φ)||p(σ,ρ|f,α,β))是KL(Kullback-Leibler Divergence,相对熵),表示变分后验概率和真实后验概率的差值,这个差值越小近似的结果就越好,argminγ,φD(q(σ,ρ|γ,Φ)||p(σ,ρ|f,α,β))表示变分后验概率和真实后验概率差值最小,γ*、Φ*是变分后验概率和真实后验概率差最小时的γ和Φ的值。求最小化相对熵时γ和Φ的值用一篇文档做为迭代固定点的方法,该方法表示为:
表示第m篇文档中第n个词的多项式分布参数,长度为K,其中n=1,2,...,Nm,因此Φ是一个大小为Nm×K的矩阵,每一行代表第m篇文章里的第n个词的多项式分布,每一个元素表示第m篇中第n个词被分到第k个主题的概率。
式(2-3)中的Eq((log(σmk))|γm)可以用式(2-5)计算。
其中,σmk为文档在第k个主题上的分布概率,Ψ函数是logΓ函数求一阶偏导,利用泰勒近似可求得。
将m篇文档中的每一篇文档分别作为一个固定点用式(2-3)和(2-4)进行迭代,对应每篇文档的迭代可得到一个γm*、Φm*值,变分后验概率和真实后验概率差最小时的γ和Φ的值,该值使得式(2-2)中的相对熵最小。
基于γm*、Φm*,通过最大化关于α,β的似然比对数下界,可以得到α,β的估计值。其中,β参照公式(2-6)计算:
α用牛顿-拉弗森法可求,选代公式如下:
αnew=αold-H(αold)-1g(αold) (2-7)
αnew为α当前计算值,αold为前一次的α计算值,H(αold)和g(αold)为αold处的Hessian矩阵和梯度。Hessian矩阵H(αold)的每个元素用hkj表示,其中k∈[1,K],j∈[1,K];梯度g(αold)是一个向量,它的每个元素用gk表示,其中k∈[1,K]。
当且仅当k=j时,δ(k,j)=1,否则δ(k,j)=0。式(2-9)和(2-10)中的αk和αj都是K维向量αold中的元素,其中k∈[1,K],j∈[1,K]。
反复迭代最小化最大化问题,上述基于LDA模型的攻击主题和告警信息集合的语义分析描述模型,根据已知的攻击文档集合B即可估计模型的参数α,σ,β和Φ,从而实现网络复合威胁的语义增强。
安全预警模块706,用于根据攻击主题的概率计算出安全评估值;
对于一个文档fm中的一个单词wm,n在词库中的编号为v它可能的主题分布就为Φm的值取参数迭代收敛时的Φm*的值,Φm表示第m篇文档中第n个词属于第k个主题的概率。fm中有Nm个词,我们用 来表示每篇文档和每个主题的关系,其中表示第m篇文档属于第k个主题的概率,用如下公式(2-11)计算
其中,安全系数值对应的安全等级如表1。
根据文档fm的安全系数pAPT值的大小我们可以标注该文档对应的告警信息链安全性,对pAPT值大于0.3的告警信息链输出不安全报警。
持续追踪模块707,用于对不断产生的新的异常告警信息进行持续追踪。
APT攻击具有多阶段、持续时间长的特点,随着APT攻击的持续进行,新的网络告警日志会不断产生,这些新的告警信息将生成新的异常告警链或者被关联到已生成的异常告警链,随后网络告警信息文档集合将会被更新。随着新的告警日志的出现,APT攻击的特点和行为轮廓将更加突出,通过对新的文档集合进行主题分析,可以更有效地提取文档的主题模型。当新日志产生时,将新的日志加入到旧日志中,按照上述方法重新生成告警链,再建模进行LDA语义分析,最后再计算安全系数值判断安全性。
综上所述,针对网络异常行为,入侵检测系统会给出海量告警信息,现有的安全评估技术缺乏长期的监控关联,难以发现长时间海量告警信息中隐蔽的有关联的持续破坏。本发明将各阶段攻击告警信息关联成告警链,并利用语义分析找到异常告警链中隐含的攻击主题分布(语义特征)信息,有利于从海量告警信息中发现攻击的关联性,从而发现各阶段攻击中隐蔽的持续破坏,实现整网安全态势评估。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种高级持续性威胁的多维关联分析方法,其特征在于,包括:
对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链;
通过语义分析提取出所述告警信息链中隐含的攻击主题;
根据所述攻击主题的概率计算出安全评估值;
其中,所述对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链包括:
获取网络异常行为产生的所述原始告警信息;
基于网络攻击的相互依赖关系对所述原始告警信息进行关联分析,得到超告警信息;
基于所述超告警信息的关联关系得到所述告警信息链。
2.根据权利要求1所述的方法,其特征在于,还包括:
对不断产生的新的异常告警信息进行持续追踪。
3.根据权利要求1所述的方法,其特征在于,所述通过语义分析提取出所述告警信息链中隐含的攻击主题包括:
建立网络威胁情报的语义模型;
对所述语义模型经参数估计,得到所述告警信息链中隐含的攻击主题。
4.一种高级持续性威胁的多维关联分析系统,其特征在于,包括:
关联分析模块,用于对原始告警信息进行关联分析和再组织,将具有关联关系的告警信息组成告警信息链;
语义分析模块,用于通过语义分析提取出所述告警信息链中隐含的攻击主题;
安全预警模块,用于根据所述攻击主题的概率计算出安全评估值;
其中,所述关联分析模块包括:
获取单元,用于获取网络异常行为产生的所述原始告警信息;
第一生成单元,用于基于网络攻击的相互依赖关系对所述原始告警信息进行关联分析,得到超告警信息;
第二生成单元,用于基于所述超告警信息的关联关系得到所述告警信息链。
5.根据权利要求4所述的系统,其特征在于,还包括:
持续追踪模块,用于对不断产生的新的异常告警信息进行持续追踪。
6.根据权利要求4所述的系统,其特征在于,所述语义分析模块包括:
建模单元,用于建立网络威胁情报的语义模型;
参数估计单元,用于对所述语义模型经参数估计,得到所述告警信息链中隐含的攻击主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910191125.XA CN109922069B (zh) | 2019-03-13 | 2019-03-13 | 高级持续性威胁的多维关联分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910191125.XA CN109922069B (zh) | 2019-03-13 | 2019-03-13 | 高级持续性威胁的多维关联分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109922069A CN109922069A (zh) | 2019-06-21 |
CN109922069B true CN109922069B (zh) | 2020-12-25 |
Family
ID=66964712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910191125.XA Active CN109922069B (zh) | 2019-03-13 | 2019-03-13 | 高级持续性威胁的多维关联分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109922069B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110149350B (zh) * | 2019-06-24 | 2021-11-05 | 国网安徽省电力有限公司信息通信分公司 | 一种告警日志关联的网络攻击事件分析方法及装置 |
CN110378124A (zh) * | 2019-07-19 | 2019-10-25 | 杉树岭网络科技有限公司 | 一种基于lda机器学习的网络安全威胁分析方法及系统 |
CN110602042B (zh) * | 2019-08-07 | 2022-04-29 | 中国人民解放军战略支援部队信息工程大学 | 基于级联攻击链模型的apt攻击行为分析检测方法及装置 |
CN112395481B (zh) * | 2019-08-19 | 2022-08-09 | 四川大学 | 一种基于多层感知器的陷落指标自动提取方法 |
CN110535702B (zh) * | 2019-08-30 | 2022-07-12 | 绿盟科技集团股份有限公司 | 一种告警信息处理方法及装置 |
CN111245807B (zh) * | 2020-01-07 | 2022-05-17 | 北京工业大学 | 基于攻击链因子的网络态势量化评估方法 |
CN111274285A (zh) * | 2020-01-15 | 2020-06-12 | 上海观安信息技术股份有限公司 | 一种基于信息论的告警关联方法 |
CN111651340B (zh) * | 2020-06-10 | 2023-07-18 | 创新奇智(上海)科技有限公司 | 告警数据规则挖掘方法、装置及电子设备 |
CN112153002B (zh) * | 2020-08-24 | 2023-04-18 | 杭州安恒信息技术股份有限公司 | 告警信息分析方法、装置、计算机设备和存储介质 |
CN112217838B (zh) * | 2020-11-02 | 2021-08-31 | 福州大学 | 一种基于云模型理论的网络攻击面评估方法 |
CN112291260A (zh) * | 2020-11-12 | 2021-01-29 | 福建奇点时空数字科技有限公司 | 一种面向apt攻击的网络安全威胁隐蔽目标识别方法 |
CN113162904B (zh) * | 2021-02-08 | 2022-11-08 | 国网重庆市电力公司电力科学研究院 | 一种基于概率图模型的电力监控系统网络安全告警评估方法 |
CN112822220B (zh) * | 2021-03-04 | 2023-02-28 | 安天科技集团股份有限公司 | 一种面向多样本组合攻击的溯源方法和装置 |
CN113259176B (zh) * | 2021-06-11 | 2021-10-08 | 长扬科技(北京)有限公司 | 一种告警事件分析方法和装置 |
CN114338118B (zh) * | 2021-12-22 | 2024-06-21 | 北京未来智安科技有限公司 | 一种基于att&ck威胁检测的方法及装置 |
CN115333814B (zh) * | 2022-08-02 | 2024-08-09 | 哈尔滨工业大学(威海) | 一种面向工业控制系统报警数据的分析系统与方法 |
CN115549953B (zh) * | 2022-08-15 | 2023-04-07 | 国家管网集团北方管道有限责任公司 | 一种网络安全告警方法及系统 |
CN117201165B (zh) * | 2023-09-29 | 2024-07-05 | 中国电子科技集团公司第十五研究所 | 基于网络威胁信息的威胁告警关联分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150133368A (ko) * | 2014-05-19 | 2015-11-30 | 주식회사 케이티 | 지능형 지속 위협 탐지 방법 및 장치 |
CN105471623A (zh) * | 2015-11-16 | 2016-04-06 | 中国烟草总公司江苏省公司 | 一种基于模糊场景的关键ip地址安全报警关联分析方法 |
CN108234426A (zh) * | 2016-12-21 | 2018-06-29 | 中国移动通信集团安徽有限公司 | Apt攻击告警方法和apt攻击告警装置 |
WO2018177210A1 (zh) * | 2017-03-27 | 2018-10-04 | 新华三技术有限公司 | 防御apt攻击 |
CN108965349A (zh) * | 2018-10-19 | 2018-12-07 | 周红梅 | 一种监测高级持续性网络攻击的方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101242278A (zh) * | 2008-02-18 | 2008-08-13 | 华中科技大学 | 网络多步攻击意图在线识别方法 |
CN107370755B (zh) * | 2017-08-23 | 2020-03-03 | 杭州安恒信息技术股份有限公司 | 一种多维度深层次检测apt攻击的方法 |
-
2019
- 2019-03-13 CN CN201910191125.XA patent/CN109922069B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150133368A (ko) * | 2014-05-19 | 2015-11-30 | 주식회사 케이티 | 지능형 지속 위협 탐지 방법 및 장치 |
CN105471623A (zh) * | 2015-11-16 | 2016-04-06 | 中国烟草总公司江苏省公司 | 一种基于模糊场景的关键ip地址安全报警关联分析方法 |
CN108234426A (zh) * | 2016-12-21 | 2018-06-29 | 中国移动通信集团安徽有限公司 | Apt攻击告警方法和apt攻击告警装置 |
WO2018177210A1 (zh) * | 2017-03-27 | 2018-10-04 | 新华三技术有限公司 | 防御apt攻击 |
CN108965349A (zh) * | 2018-10-19 | 2018-12-07 | 周红梅 | 一种监测高级持续性网络攻击的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109922069A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109922069B (zh) | 高级持续性威胁的多维关联分析方法及系统 | |
Zhu et al. | OFS-NN: an effective phishing websites detection model based on optimal feature selection and neural network | |
Ingre et al. | Performance analysis of NSL-KDD dataset using ANN | |
Namanya et al. | Similarity hash based scoring of portable executable files for efficient malware detection in IoT | |
Zhu et al. | Locating multi-sources in social networks with a low infection rate | |
CN111355697B (zh) | 僵尸网络域名家族的检测方法、装置、设备及存储介质 | |
CN112822206B (zh) | 网络协同攻击行为的预测方法、装置以及电子设备 | |
CN113064932B (zh) | 一种基于数据挖掘的网络态势评估方法 | |
Wei et al. | Strategic application of ai intelligent algorithm in network threat detection and defense | |
Kim et al. | Cost-effective valuable data detection based on the reliability of artificial intelligence | |
Marchetti et al. | Identification of correlated network intrusion alerts | |
Xiao et al. | A multitarget backdooring attack on deep neural networks with random location trigger | |
Liu et al. | Multi-step attack scenarios mining based on neural network and Bayesian network attack graph | |
Goldberg et al. | Explaining and aggregating anomalies to detect insider threats | |
Harbola et al. | Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set | |
TK et al. | Identifying sensitive data items within hadoop | |
Zhang et al. | DDoS attack security situation assessment model using fusion feature based on fuzzy C-means clustering algorithm | |
Patil et al. | Learning to detect phishing web pages using lexical and string complexity analysis | |
Anwer et al. | Intrusion detection using deep learning | |
Wang et al. | Has Approximate Machine Unlearning been evaluated properly? From Auditing to Side Effects | |
Fedorchenko et al. | IOT Security event correlation based on the analysis of event types | |
Fu et al. | A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models | |
Layton | Relative cyberattack attribution | |
Shona et al. | An ensemble data preprocessing approach for intrusion detection system using variant firefly and Bk-NN techniques | |
Chen et al. | Attack intent analysis method based on attack path graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |