CN113064932B - 一种基于数据挖掘的网络态势评估方法 - Google Patents
一种基于数据挖掘的网络态势评估方法 Download PDFInfo
- Publication number
- CN113064932B CN113064932B CN202110290024.5A CN202110290024A CN113064932B CN 113064932 B CN113064932 B CN 113064932B CN 202110290024 A CN202110290024 A CN 202110290024A CN 113064932 B CN113064932 B CN 113064932B
- Authority
- CN
- China
- Prior art keywords
- network
- attack
- evidence
- formula
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000007418 data mining Methods 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 238000004140 cleaning Methods 0.000 claims abstract description 3
- 238000005065 mining Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于基于数据挖掘的网络态势评估方法,该方法包含:首先对海量复杂的网络安全日志进行数据清洗,清除包含缺失值的数据,并将清洗后的日志数据存储到关系数据库中;采用相似度计算函数并比较数据库中网络攻击日志,找到网络日志中所有的网络攻击序列;根据PrefixSpan算法,从网络攻击序列中挖掘出所有的频繁攻击序列;最后根据基于D‑S证据链理论,将上一步产生的频繁攻击序列作为评估网络中每个主机风险程度的证据,通过合成公式将这些证据生成信任度更高的主机风险值,以实现对网络主机乃至全网的安全状况的评估。
Description
技术领域
本发明属于网络通信技术领域,涉及一种基于数据挖掘的网络态势评估方法。
背景技术
网络是现代信息技术基础设施的重要组成部分,并为人们交换信息和共享资源提供了极大的便利。随着计算机网络的出现和普及,网络安全隐患也逐渐暴露出来,现如今网络仍然面临着网络病毒、网络入侵、数据盗窃和篡改等诸多威胁。网络日志包括许多关于网络中发生的所有行为的有价值的信息。可对这些网络日志进行分析发现各日志间隐藏的关联关系,与此同时提高网络的安全性。网络安全问题日益严重和加剧,如何解决这个问题已经成为众多研究者关注的焦点。
在网络运行过程中,会产生大量的网络日志来记录网络中发生的所有行为。这些网络日志包含了大量有用的信息,可供网络安全专家发现网络威胁,加强网络安全。数据挖掘是对信息的一个高级处理过程,它能够从繁杂的数据中识别出有价值的知识,其核心技术是机器学习、统计等。高级处理过程是指对数据进行多步骤的处理,这些步骤之间会互相影响,在经过多次调整后,最终会形成一个统一的结果。随着大数据及数据挖掘的普及,数据挖掘算法逐渐趋于成熟,很多的日志分析解决方案得以提出。
数据挖掘的实现方式有聚类分析、分类分析、关联分析及神经网络等。频繁模式挖掘是关联分析方法中的一种。现有的频繁模式挖掘算法大致包括Apriori算法、FP-Growth算法、GSP算法和FreeSpan算法。前两种方法是挖掘频繁项集的算法,在应用上有着不错的效果,凡是也存在着以下问题:没有考虑到事件发生的时间顺序。后两种方法是挖掘频繁序列模式的算法,与本发明中应用的PrefixSpan算法相比,有着内存消耗不稳定等问题。
本发明为克服上述缺陷,提出了一种基于数据挖掘的网络态势评估方法,本发明具体步骤如下:
S1,对网络安全日志数据进行数据清洗,清除含有缺失数据的日志,并将清洗后的日志数据存储到关系数据库中;
S2,根据相似度计算函数,比较数据库中网络攻击日志,找到网络日志中所有的网络攻击序列;
S3,采用PrefixSpan算法从网络攻击序列中挖掘出所有的频繁攻击序列;
S4,根据基于D-S证据链理论,将上一步产生的频繁攻击序列作为评估网络中每个主机风险程度的证据,通过合成公式将这些证据生成信任度更高的主机风险值,以实现对网络主机安全状况的评估,最后根据每个主机的风险值生成整个网络的风险值。
本发明的技术方案特征和改进为:
1.对于步骤S2,为了从网络安全日志中找出所有的网络攻击序列,本发明采用了网络攻击记录之间的相似度计算函数,综合考虑了攻击发生的时间、攻击的IP地址和攻击的端口号,分为基于攻击发生时间的相似性计算函数、基于攻击端口号的相似度计算函数和基于攻击IP地址的相似度计算函数:
当两个网络攻击记录之间的时间间隔大于给定的时间滑动窗口时,可以认为两个网络攻击日志不属于同一个网络攻击序列,相反,则认为两个网络攻击日志属于同一个网络攻击序列,并利用高斯分布计算两个网络攻击记录的时间相似度,假设A={a1,a2...an}表示网络攻击记录,ai表示一种网络攻击记录的第i个属性,其中1≤i≤n,,
攻击发生时间的相似度计算函数Stime(Ai,Aj)如公式(1)所示:
在上式中,Ai,Aj为两个网络攻击记录,Ai.time,Aj.time分别表示两个攻击发生的时间,Δt表示两个时间的间隔,W为事先给定的时间滑动窗口值;
攻击的IP地址相似度计算时,先用L(ipi,ipj)判断两个攻击的IP地址是否相同,如公式(2)所示:
在上式中ipi,ipj,分别表示需要进行判断的两个IP地址,如果IP地址相同则返回1,反之则返回0,
攻击的IP地址相似度计算函数Sip(Ai,Aj)如公式(3)所示:
Sip(Ai,Aj)=(L(Ai.srcIP,Aj.srcIP)+L(Ai.desIP,Aj.desIP))/2 (3)
在上式中,Ai.srcIP,Aj.srcIP分别表示两个攻击源IP地址,Ai.desIP,Aj.desIP分别表示两个攻击的目的地址;
攻击端口号的相似度计算时,先用L(porti,portj)判断两个攻击的端口号是否相同,如公式(4)所示:
在上式中porti,portj,分别表示需要进行判断的两个端口号,如果端口号相同则返回1,反之则返回0,
攻击的端口号相似度计算函数Sport(Ai,Aj)如公式(5)所示:
Sport(Ai,Aj)=(L(Ai.srcPort,Aj.srcPort)+L(Ai.desPort,Aj.desPort))/2 (5)
在上式中,Ai.srcPort,Aj.srcPort分别表示两个攻击的源端口号,Ai.desPort,Aj.desPort分别表示两个攻击的目的端口号;
结合上述公式,可以得到两个攻击记录的相似度计算函数如公式(6)所示:
S(Ai,Aj)=∑kwk×Sk(Ai,Aj) (6)
在上式中,wk是权重系数,其中k分别代表时间、ip地址或端口号,并且满足wtime+wip+wport=1。
2.对于步骤S3,本发明采用PrefixSpan算法从网络攻击序列中挖掘出所有频繁的攻击序列,以此来识别网络攻击类型;网络攻击之间是按照一定的时间顺序发生的,从海量的网络攻击序列中,找出所有的频繁攻击序列,获取能够进一步精准判断的数据,考虑到挖掘的时间和空间,选择PrefixSpan算法可以有效找出所有频繁的攻击序列:
使用PrefixSpan算法挖掘频繁攻击序列的过程如下:输入为网络攻击序列集SA和最小支持度阈值Min_Supt,输出为频繁的攻击序列FSA:(1)扫描SA中的每个网络攻击序列,并找出所有长度为1的网络攻击序列前缀,创建对应的投影网络攻击序列集1-SA;(2)计算每个网络攻击序列前缀的支持度即频率,从SA中删除支持度小于Min_Supt的所有网络攻击序列,并获取频繁攻击序列集1-SA;(3)对于长度为i且支持度大于Min_Supt的每个网络攻击序列前缀,执行以下递归挖掘操作:a.找出对应的投影网络攻击序列集i-SA,如果i-SA为空,则结束递归操作并返回0,反之则直接返回0,b.计算攻击序列集i-SA中每个网络攻击序列的支持度,如果每个网络攻击序列的支持度都小于Min_Supt,则结束递归操作并返回0,反之则直接返回0,c.将当前前缀加入到每一个网络攻击序列,并获得一系列新的前缀,d.执行i=i+1,并将每个新的联合前缀作为前缀递归地执行;
在执行完上述算法后,可以从网络攻击日志中挖掘出所有频繁的攻击序列,在挖掘得到频繁攻击序列FSA可为后续进一步的评估提供证据。
3.对于步骤S4,本发明引入改进的D-S证据理论,将得到的频繁攻击序列作为评估网络中每个主机风险程度的证据,通过合成公式将这些证据融合生成主机风险值:
D-S证据理论可以用于多源数据融合,但是可能出现不合理甚至错误的结论,即当存在合理的证据时,使用D-S组合规则才可以得到理想的信息合成结果,当证据之间有冲突时,就会出现与表达信息相反的合成结果,而改进的D-S证据理论可以解决证据的冲突并提高数据融合的准确性,即提高主机风险值的准确性;
本发明中提到的改进的D-S理论引入置信度的概念,用置信度α来描述证据的可靠性和可信度,在证据融合前可对融合所需的证据进行修改,首先需度量不同证据之间的距离,采用Bhattacharyya距离,计算不同证据间的距离,mi,mj是两条证据,如公式(7)所示:
d(mi,mj)=dij=-ln(BC(mi,mj)) (7)
式(7)中,d(mi,mj)是mi,mj之间的Bhattacharyya距离,BC(mi,mj)是Bhattacharyya系数,
由此可导出一个1*1的矩阵D,而D是一个对称矩阵,且对角元素为0,如公式(9)所示;
式(9)中,矩阵D中的元素dij是证据mi,mj之间的距离,
证据mi和其他证据之间的距离之和为ui,如公式(10)所示:
式(10)中,ui的大小代表证据和其他证据之间的距离之和,它的大小反映了证据mi和其他证据之间的差异程度,证据mi和其他证据之间的差异越大,mi是噪声点的可能性越大,且置信水平α越低,相反,证据mi的ui值越小,mi与其他证据表达的信息的一致性越强,置信度α应该越高,
所以mi的置信度αi定义如公式(11)所示:
式(11)中,αi是证据mi与其他证据表达的信息的一致性的强弱程度,与1/ui成正比,
根据D-S证据理论中定义的基本信任分配函数BPA,在证据理论中用来分配证据的初始信任度,定义如公式(12)所示:
式(12)中θ为识别框架,包含互相独立的事件,Aj是θ中的事件,φ为不可能发生的事件,m(Aj)为事件Aj的基本信任分配函数,mi(Aj)为每一个证据的基本信任函数值,
改进后,BPA定义如公式(13)所示:
式(13)中,在计算事件Aj的基本信任分配函数m(Aj)时,为每一个证据的基本信任函数值mi(Aj)乘上了置信度αi,
最终调整后的BPA避免了证据冲突,为下一步的证据融合奠定了良好的基础;
网络的状况分为两大类:危险和安全,可确定识别框架Θ={S,D},其中S代表当前网络状态是安全,D代表当前网络状态是危险,根据D-S证据理论相关定义,m(S)+m(D)=1,
首先对证据分配初始信任度值,初始基本可信度分配主要衡量两个方面,一个是该多步攻击成功发生的概率,另一个是该多步攻击的威胁程度,
一个目标主机在一段时间内挖掘出来的每一条最大频繁多步攻击序列作为评估该主机态势的一个证据,利用合成公式,如公式(14)对这些证据的信任度值进行合成,这个值就代表着目标主机的态势状况,
式(14)中,M(A)为主机中A事件的风险值,Ai为事件A的证据,mi(Ai)为Ai的基本信任函数值,k代表证据之间的冲突程度,随着k值的增大,证据之间的冲突程度就越大,
计算整个网络的风险值,如公式(16)所示:
式(16)中,DW为整个网络的风险值,M(A)i表示网络中每个主机的风险值,Wi为每个主机的权重,代表网络主机资产的重要性,主机资产的重要性越高,对该主机发动攻击造成的危害就越高,
DW值越高表示网络中的风险程度越大,可将整个网络的安全状态分为三个状态:安全、低风险、高风险,并设定相应阈值sl,st来作为这三个状态的分界值,如公式(17)所示:
阈值根据被评估网络的实际状况以及安全管理的要求来决定。
本发明的基于数据挖掘的网络态势评估方法,能够准确地评估出网络态势情况,提高了网络安全人员识别和防御网络威胁的能力,具有以下优点:
(1)本发明采用PrefixSpan算法用于频繁攻击序列挖掘,针对网络中存在的海量复杂的网络日志,能够更加有效的挖掘出隐藏的信息,为入侵检测和安全预测提供了一种网络日志分析方法,并可以从规模庞大的数据中获得隐藏在其中的网络攻击行为和威胁信息。
(2)本发明的方法可以对当前网络状况进行评估,能够综合网络中各个主机的状态,高效组织不确定的网络信息并对其进行分析和评估,更好的辅助管理人员做出相应的决策和判断,避免网络威胁产生的严重后果。
附图说明
图1为本发明中PrefixSpan算法的流程图
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
图1为本发明中PrefixSpan算法的流程图,其中包含:
S3,采用PrefixSpan算法对网络攻击日志进行进一步的挖掘,挖掘出频繁攻击序列以确定准确攻击行为特征。在算法中,输入网络攻击序列集SA和最小支持度阈值Min_Supt,首先扫描SA中的每个网络攻击序列,并找出所有长度为1的网络攻击序列前缀,创建对应的投影网络攻击序列集1-SA。计算出每个网络攻击序列前缀的支持度,判断SA中的攻击序列支持度是否小于Min_Supt,如果小于则删除该网络攻击序列,大于等于则可以保存到频繁攻击序列集1-SA中。对于长度为i且支持度大于Min_Supt的每个网络攻击序列前缀,执行以下递归挖掘操作:a.找出对应的投影网络攻击序列集i-SA。如果i-SA为空,则结束递归操作并返回0,反之则直接返回0。b.计算攻击序列集i-SA中每个网络攻击序列的支持度。如果每个网络攻击序列的支持度都小于Min_Supt,则结束递归操作并返回0,反之则直接返回0。c.将当前前缀加入到每一个网络攻击序列,并获得一系列新的前缀。d.执行i=i+1,并将每个新的联合前缀作为前缀递归地执行(3)。
综上所述,本发明的基于数据挖掘的网络态势评估方法可以全面的对网络日志进行挖掘并进行当前网络状态的评估,而网络日志挖掘对于网络安全防护具有重要意义。针对海量复杂的网络日志,挖掘时使用PrefiSpan算法,用于识别频繁的攻击序列,能够为入侵检测和安全预测提供一种网络日志分析手段,再结合改进的D-S证据链理论,可对网络态势进行较为准确的评估。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (4)
1.一种基于数据挖掘的网络态势评估方法,其特征及具体步骤如下:
S1,对网络安全日志数据进行数据清洗,清除含有缺失数据的日志,并将清洗后的日志数据存储到关系数据库中;
S2,根据相似度计算函数,比较数据库中网络攻击日志,找到网络日志中所有的网络攻击序列;
S3,采用PrefixSpan算法从网络攻击序列中挖掘出所有的频繁攻击序列;
S4,根据基于D-S证据链理论,将上一步产生的频繁攻击序列作为评估网络中每个主机风险程度的证据,通过合成公式将这些证据生成信任度更高的主机风险值,以实现对网络主机安全状况的评估,最后根据每个主机的风险值生成整个网络的风险值。
2.根据权利要求1所述的一种基于数据挖掘的网络态势评估方法,其特征在于,对于步骤
S2,为了从网络安全日志中找出所有的网络攻击序列,本发明采用了网络攻击记录之间的相似度计算函数,综合考虑了攻击发生的时间、攻击的IP地址和攻击的端口号,分为基于攻击发生时间的相似性计算函数、基于攻击端口号的相似度计算函数和基于攻击IP地址的相似度计算函数:
当两个网络攻击记录之间的时间间隔大于给定的时间滑动窗口时,可以认为两个网络攻击日志不属于同一个网络攻击序列,相反,则认为两个网络攻击日志属于同一个网络攻击序列,并利用高斯分布计算两个网络攻击记录的时间相似度,假设A={a1,a2...an}表示网络攻击记录,ai表示一种网络攻击记录的第i个属性,其中1≤i≤n,
攻击发生时间的相似度计算函数Stime(Ai,Aj)如公式(1)所示:
在上式中,Ai,Aj为两个网络攻击记录,Ai.time,Aj.time分别表示两个攻击发生的时间,Δt表示两个时间的间隔,W为事先给定的时间滑动窗口值;
攻击的IP地址相似度计算时,先用L(ipi,ipj)判断两个攻击的IP地址是否相同,如公式(2)所示:
在上式中ipi,ipj,分别表示需要进行判断的两个IP地址,如果IP地址相同则返回1,反之则返回0,
攻击的IP地址相似度计算函数Sip(Ai,Aj)如公式(3)所示:
Sip(Ai,Aj)=(L(Ai.srcIP,Aj.srcIP)+L(Ai.desIP,Aj.desIP))/2 (3)
在上式中,Ai.srcIP,Aj.srcIP分别表示两个攻击源IP地址,Ai.desIP,Aj.desIP分别表示两个攻击的目的地址;
攻击端口号的相似度计算时,先用L(porti,portj)判断两个攻击的端口号是否相同,如公式(4)所示:
在上式中porti,portj,分别表示需要进行判断的两个端口号,如果端口号相同则返回1,反之则返回0,
攻击的端口号相似度计算函数Sport(Ai,Aj)如公式(5)所示:
Sport(Ai,Aj)=(L(Ai.srcPort,Aj.srcPort)+L(Ai·desPort,Aj.desPort))/2 (5)
在上式中,Ai·srcPort,Aj·srcPort分别表示两个攻击的源端口号,Ai.desPort,Aj.desPort分别表示两个攻击的目的端口号;
结合上述公式,可以得到两个攻击记录的相似度计算函数如公式(6)所示:
S(Ai,Aj)=∑kwk×Sk(Ai,Aj) (6)
在上式中,wk是权重系数,其中k分别代表时间、ip地址或端口号,并且满足wtime+wip+wport=1。
3.根据权利要求1所述的一种基于数据挖掘的网络态势评估方法,其特征在于,对于步骤S3,本发明采用PrefixSpan算法从网络攻击序列中挖掘出所有频繁的攻击序列,以此来识别网络攻击类型;网络攻击之间是按照一定的时间顺序发生的,从海量的网络攻击序列中,找出所有的频繁攻击序列,获取能够进一步精准判断的数据,考虑到挖掘的时间和空间,选择PrefixSpan算法可以有效找出所有频繁的攻击序列:
使用PrefixSpan算法挖掘频繁攻击序列的过程如下:输入为网络攻击序列集SA和最小支持度阈值Min_Supt,输出为频繁的攻击序列FSA:(1)扫描Sa中的每个网络攻击序列,并找出所有长度为1的网络攻击序列前缀,创建对应的投影网络攻击序列集1-SA;(2)计算每个网络攻击序列前缀的支持度即频率,从SA中删除支持度小于Min_Supt的所有网络攻击序列,并获取频繁攻击序列集1-SA;(3)对于长度为i且支持度大于Min_Supt的每个网络攻击序列前缀,执行以下递归挖掘操作:a.找出对应的投影网络攻击序列集i-SA,如果i-SA为空,则结束递归操作并返回0,反之则直接返回0,b.计算攻击序列集i-SA中每个网络攻击序列的支持度,如果每个网络攻击序列的支持度都小于Min_Supt,则结束递归操作并返回0,反之则直接返回0,c.将当前前缀加入到每一个网络攻击序列,并获得一系列新的前缀,d.执行i=i+1,并将每个新的联合前缀作为前缀递归地执行;
在执行完上述算法后,可以从网络攻击日志中挖掘出所有频繁的攻击序列,在挖掘得到频繁攻击序列FSA可为后续进一步的评估提供证据。
4.根据权利要求1所述的一种基于数据挖掘的网络态势评估方法,其特征在于,对于步骤S4,本发明引入改进的D-S证据理论,将得到的频繁攻击序列作为评估网络中每个主机风险程度的证据,通过合成公式将这些证据融合生成主机风险值:
本发明中提到的改进的D-S理论引入置信度的概念,用置信度α来描述证据的可靠性和可信度,在证据融合前可对融合所需的证据进行修改,首先需度量不同证据之间的距离,采用Bhattacharyya距离,计算不同证据间的距离,mi,mj是两条证据,如公式(7)所示:
d(mi,mj)=dij=-ln(BC(mi,mj)) (7)
式(7)中,d(mi,mj)是mi,mj之间的Bhattacharyya距离,BC(mi,mj)是Bhattacharyya系数,
由此可导出一个l*l的矩阵D,而D是一个对称矩阵,且对角元素为0,如公式(9)所示:
式(9)中,矩阵D中的元素dij是证据mi,mj之间的距离,
证据mi和其他证据之间的距离之和为ui,如公式(10)所示:
式(10)中,ui的大小代表证据和其他证据之间的距离之和,它的大小反映了证据mi和其他证据之间的差异程度,证据mi和其他证据之间的差异越大,mi是噪声点的可能性越大,且置信水平α越低,相反,证据mi的ui值越小,mi与其他证据表达的信息的一致性越强,置信度α应该越高,
所以mi的置信度αi定义如公式(11)所示:
式(11)中,αi是证据mi与其他证据表达的信息的一致性的强弱程度,与1/ui成正比,
根据D-S证据理论中定义的基本信任分配函数BPA,在证据理论中用来分配证据的初始信任度,定义如公式(12)所示:
式(12)中θ为识别框架,包含互相独立的事件,Aj是θ中的事件,φ为不可能发生的事件,m(Aj)为事件Aj的基本信任分配函数,mi(Aj)为每一个证据的基本信任函数值,
改进后,BPA定义如公式(13)所示:
式(13)中,在计算事件Aj的基本信任分配函数m(Aj)时,为每一个证据的基本信任函数值mi(Aj)乘上了置信度αi,
最终调整后的BPA避免了证据冲突,为下一步的证据融合奠定了良好的基础;
网络的状况分为两大类:危险和安全,可确定识别框架Θ={S,D},其中S代表当前网络状态是安全,D代表当前网络状态是危险,根据D-S证据理论相关定义,m(S)+m(D)=1,
首先对证据分配初始信任度值,初始基本可信度分配主要衡量两个方面,一个是该多步攻击成功发生的概率,另一个是该多步攻击的威胁程度,
一个目标主机在一段时间内挖掘出来的每一条最大频繁多步攻击序列作为评估该主机态势的一个证据,利用合成公式,如公式(14)对这些证据的信任度值进行合成,这个值就代表着目标主机的态势状况,
式(14)中,M(A)为主机中A事件的风险值,Ai为事件A的证据,mi(Ai)为Ai的基本信任函数值,k代表证据之间的冲突程度,随着k值的增大,证据之间的冲突程度就越大,
计算整个网络的风险值,如公式(16)所示:
式(16)中,DW为整个网络的风险值,M(A)i表示网络中每个主机的风险值,Wi为每个主机的权重,代表网络主机资产的重要性,主机资产的重要性越高,对该主机发动攻击造成的危害就越高,
DW值越高表示网络中的风险程度越大,可将整个网络的安全状态分为三个状态:安全、低风险、高风险,并设定相应阈值sl,st来作为这三个状态的分界值,如公式(17)所示:
阈值根据被评估网络的实际状况以及安全管理的要求来决定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110290024.5A CN113064932B (zh) | 2021-03-18 | 2021-03-18 | 一种基于数据挖掘的网络态势评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110290024.5A CN113064932B (zh) | 2021-03-18 | 2021-03-18 | 一种基于数据挖掘的网络态势评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113064932A CN113064932A (zh) | 2021-07-02 |
CN113064932B true CN113064932B (zh) | 2023-01-24 |
Family
ID=76561756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110290024.5A Expired - Fee Related CN113064932B (zh) | 2021-03-18 | 2021-03-18 | 一种基于数据挖掘的网络态势评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113064932B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113546426B (zh) * | 2021-07-21 | 2023-08-22 | 西安理工大学 | 一种针对游戏业务中数据访问事件的安全策略生成方法 |
CN114374561B (zh) * | 2022-01-13 | 2023-10-24 | 潍坊学院 | 一种网络安全状态评估方法、装置及可存储介质 |
CN115242457A (zh) * | 2022-06-28 | 2022-10-25 | 中国电信股份有限公司 | 一种日志数据的检测方法、装置、电子设备和存储介质 |
CN115357910B (zh) * | 2022-10-20 | 2023-03-31 | 中孚安全技术有限公司 | 一种基于空间关系的网络风险态势分析方法及系统 |
CN115913683B (zh) * | 2022-11-07 | 2024-04-30 | 中国联合网络通信集团有限公司 | 风险访问记录生成方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101931570A (zh) * | 2010-02-08 | 2010-12-29 | 中国航天科技集团公司第七一○研究所 | 一种基于频繁模式增长算法的网络攻击路径重构方法 |
CN106341414A (zh) * | 2016-09-30 | 2017-01-18 | 重庆邮电大学 | 一种基于贝叶斯网络的多步攻击安全态势评估方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104125217A (zh) * | 2014-06-30 | 2014-10-29 | 复旦大学 | 一种基于主机日志分析的云数据中心实时风险评估方法 |
CN104539626A (zh) * | 2015-01-14 | 2015-04-22 | 中国人民解放军信息工程大学 | 一种基于多源报警日志的网络攻击场景生成方法 |
US9699205B2 (en) * | 2015-08-31 | 2017-07-04 | Splunk Inc. | Network security system |
CN105721427B (zh) * | 2016-01-14 | 2018-10-30 | 湖南大学 | 一种从Web日志中挖掘攻击频繁序列模式的方法 |
CN106375339B (zh) * | 2016-10-08 | 2019-07-09 | 电子科技大学 | 基于事件滑动窗口的攻击模式检测方法 |
CN108306894A (zh) * | 2018-03-19 | 2018-07-20 | 西安电子科技大学 | 一种基于攻击发生置信度的网络安全态势评估方法及系统 |
CN108769051B (zh) * | 2018-06-11 | 2020-09-11 | 中国人民解放军战略支援部队信息工程大学 | 一种基于告警融合的网络入侵态势意图评估方法 |
CN110493179B (zh) * | 2019-07-04 | 2022-03-29 | 湖北央中巨石信息技术有限公司 | 基于时间序列的网络安全态势感知系统和方法 |
CN112312443A (zh) * | 2020-10-13 | 2021-02-02 | 西安电子科技大学 | 海量告警数据处理方法、系统、介质、计算机设备及应用 |
-
2021
- 2021-03-18 CN CN202110290024.5A patent/CN113064932B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101931570A (zh) * | 2010-02-08 | 2010-12-29 | 中国航天科技集团公司第七一○研究所 | 一种基于频繁模式增长算法的网络攻击路径重构方法 |
CN106341414A (zh) * | 2016-09-30 | 2017-01-18 | 重庆邮电大学 | 一种基于贝叶斯网络的多步攻击安全态势评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113064932A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113064932B (zh) | 一种基于数据挖掘的网络态势评估方法 | |
CN109922069B (zh) | 高级持续性威胁的多维关联分析方法及系统 | |
TWI595375B (zh) | 使用適應性行爲輪廓之異常檢測技術 | |
Garcia-Teodoro et al. | Anomaly-based network intrusion detection: Techniques, systems and challenges | |
Luo et al. | Mining fuzzy association rules and fuzzy frequency episodes for intrusion detection | |
Barbara et al. | Detecting novel network intrusions using bayes estimators | |
Gogoi et al. | MLH-IDS: a multi-level hybrid intrusion detection method | |
CN102075516A (zh) | 一种网络多步攻击识别和预测方法 | |
CN111641634B (zh) | 一种基于蜜网的工业控制网络主动防御系统及其方法 | |
CN112333195B (zh) | 基于多源日志关联分析的apt攻击场景还原检测方法及系统 | |
CN111953697A (zh) | 一种apt攻击识别及防御方法 | |
CN115643035A (zh) | 基于多源日志的网络安全态势评估方法 | |
WO2019200739A1 (zh) | 数据欺诈识别方法、装置、计算机设备和存储介质 | |
CN113904881B (zh) | 一种入侵检测规则误报处理方法和装置 | |
CN113422763A (zh) | 基于攻击场景构建的报警关联分析方法 | |
Kim et al. | Cost-effective valuable data detection based on the reliability of artificial intelligence | |
Werner et al. | Near real-time intrusion alert aggregation using concept-based learning | |
CN117220961A (zh) | 一种基于关联规则图谱的入侵检测方法及装置 | |
US20230164162A1 (en) | Valuable alert screening method efficiently detecting malicious threat | |
Lu et al. | One intrusion detection method based on uniformed conditional dynamic mutual information | |
CN116260610A (zh) | 一种层次化网络安全威胁态势量化评估方法 | |
Shen et al. | RP-NBSR: A Novel Network Attack Detection Model Based on Machine Learning. | |
CN115085948A (zh) | 基于改进d-s证据理论的网络安全态势评估方法 | |
Lin et al. | Genetic-clustering algorithm for intrusion detection system | |
Liu et al. | A Blockchain-assisted Collaborative Ensemble Learning for Network Intrusion Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230124 |
|
CF01 | Termination of patent right due to non-payment of annual fee |