CN113064932B

CN113064932B - 一种基于数据挖掘的网络态势评估方法

Info

Publication number: CN113064932B
Application number: CN202110290024.5A
Authority: CN
Inventors: 肖军弼; 牟丹
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2023-01-24
Anticipated expiration: 2041-03-18
Also published as: CN113064932A

Abstract

本发明公开了一种基于基于数据挖掘的网络态势评估方法，该方法包含：首先对海量复杂的网络安全日志进行数据清洗，清除包含缺失值的数据，并将清洗后的日志数据存储到关系数据库中；采用相似度计算函数并比较数据库中网络攻击日志，找到网络日志中所有的网络攻击序列；根据PrefixSpan算法，从网络攻击序列中挖掘出所有的频繁攻击序列；最后根据基于D‑S证据链理论，将上一步产生的频繁攻击序列作为评估网络中每个主机风险程度的证据，通过合成公式将这些证据生成信任度更高的主机风险值，以实现对网络主机乃至全网的安全状况的评估。

Description

一种基于数据挖掘的网络态势评估方法

技术领域

本发明属于网络通信技术领域，涉及一种基于数据挖掘的网络态势评估方法。

背景技术

网络是现代信息技术基础设施的重要组成部分，并为人们交换信息和共享资源提供了极大的便利。随着计算机网络的出现和普及，网络安全隐患也逐渐暴露出来，现如今网络仍然面临着网络病毒、网络入侵、数据盗窃和篡改等诸多威胁。网络日志包括许多关于网络中发生的所有行为的有价值的信息。可对这些网络日志进行分析发现各日志间隐藏的关联关系，与此同时提高网络的安全性。网络安全问题日益严重和加剧，如何解决这个问题已经成为众多研究者关注的焦点。

在网络运行过程中，会产生大量的网络日志来记录网络中发生的所有行为。这些网络日志包含了大量有用的信息，可供网络安全专家发现网络威胁，加强网络安全。数据挖掘是对信息的一个高级处理过程，它能够从繁杂的数据中识别出有价值的知识，其核心技术是机器学习、统计等。高级处理过程是指对数据进行多步骤的处理，这些步骤之间会互相影响，在经过多次调整后，最终会形成一个统一的结果。随着大数据及数据挖掘的普及，数据挖掘算法逐渐趋于成熟，很多的日志分析解决方案得以提出。

数据挖掘的实现方式有聚类分析、分类分析、关联分析及神经网络等。频繁模式挖掘是关联分析方法中的一种。现有的频繁模式挖掘算法大致包括Apriori算法、FP-Growth算法、GSP算法和FreeSpan算法。前两种方法是挖掘频繁项集的算法，在应用上有着不错的效果，凡是也存在着以下问题：没有考虑到事件发生的时间顺序。后两种方法是挖掘频繁序列模式的算法，与本发明中应用的PrefixSpan算法相比，有着内存消耗不稳定等问题。

本发明为克服上述缺陷，提出了一种基于数据挖掘的网络态势评估方法，本发明具体步骤如下：

S1，对网络安全日志数据进行数据清洗，清除含有缺失数据的日志，并将清洗后的日志数据存储到关系数据库中；

S2，根据相似度计算函数，比较数据库中网络攻击日志，找到网络日志中所有的网络攻击序列；

S3，采用PrefixSpan算法从网络攻击序列中挖掘出所有的频繁攻击序列；

S4，根据基于D-S证据链理论，将上一步产生的频繁攻击序列作为评估网络中每个主机风险程度的证据，通过合成公式将这些证据生成信任度更高的主机风险值，以实现对网络主机安全状况的评估，最后根据每个主机的风险值生成整个网络的风险值。

本发明的技术方案特征和改进为：

1.对于步骤S2，为了从网络安全日志中找出所有的网络攻击序列，本发明采用了网络攻击记录之间的相似度计算函数，综合考虑了攻击发生的时间、攻击的IP地址和攻击的端口号，分为基于攻击发生时间的相似性计算函数、基于攻击端口号的相似度计算函数和基于攻击IP地址的相似度计算函数：

当两个网络攻击记录之间的时间间隔大于给定的时间滑动窗口时，可以认为两个网络攻击日志不属于同一个网络攻击序列，相反，则认为两个网络攻击日志属于同一个网络攻击序列，并利用高斯分布计算两个网络攻击记录的时间相似度，假设A＝{a₁，a₂...a_n}表示网络攻击记录，a_i表示一种网络攻击记录的第i个属性，其中1≤i≤n，，

攻击发生时间的相似度计算函数S_time(A_i，A_j)如公式(1)所示：

在上式中，A_i，A_j为两个网络攻击记录，A_i.time，A_j.time分别表示两个攻击发生的时间，Δt表示两个时间的间隔，W为事先给定的时间滑动窗口值；

攻击的IP地址相似度计算时，先用L(ip_i，ip_j)判断两个攻击的IP地址是否相同，如公式(2)所示：

在上式中ip_i，ip_j，分别表示需要进行判断的两个IP地址，如果IP地址相同则返回1，反之则返回0，

攻击的IP地址相似度计算函数S_ip(A_i，A_j)如公式(3)所示：

S_ip(A_i，A_j)＝(L(A_i.srcIP，A_j.srcIP)+L(A_i.desIP，A_j.desIP))/2 (3)

在上式中，A_i.srcIP，A_j.srcIP分别表示两个攻击源IP地址，A_i.desIP，A_j.desIP分别表示两个攻击的目的地址；

攻击端口号的相似度计算时，先用L(port_i，port_j)判断两个攻击的端口号是否相同，如公式(4)所示：

在上式中port_i，port_j，分别表示需要进行判断的两个端口号，如果端口号相同则返回1，反之则返回0，

攻击的端口号相似度计算函数S_port(A_i，A_j)如公式(5)所示：

S_port(A_i，A_j)＝(L(A_i.srcPort，A_j.srcPort)+L(A_i.desPort，A_j.desPort))/2 (5)

在上式中，A_i.srcPort，A_j.srcPort分别表示两个攻击的源端口号，A_i.desPort，A_j.desPort分别表示两个攻击的目的端口号；

结合上述公式，可以得到两个攻击记录的相似度计算函数如公式(6)所示：

S(A_i，A_j)＝∑_kw_k×S_k(A_i，A_j) (6)

在上式中，w_k是权重系数，其中k分别代表时间、ip地址或端口号，并且满足w_time+w_ip+w_port＝1。

2.对于步骤S3，本发明采用PrefixSpan算法从网络攻击序列中挖掘出所有频繁的攻击序列，以此来识别网络攻击类型；网络攻击之间是按照一定的时间顺序发生的，从海量的网络攻击序列中，找出所有的频繁攻击序列，获取能够进一步精准判断的数据，考虑到挖掘的时间和空间，选择PrefixSpan算法可以有效找出所有频繁的攻击序列：

使用PrefixSpan算法挖掘频繁攻击序列的过程如下：输入为网络攻击序列集S_A和最小支持度阈值Min_Supt，输出为频繁的攻击序列FS_A：(1)扫描S_A中的每个网络攻击序列，并找出所有长度为1的网络攻击序列前缀，创建对应的投影网络攻击序列集1-S_A；(2)计算每个网络攻击序列前缀的支持度即频率，从S_A中删除支持度小于Min_Supt的所有网络攻击序列，并获取频繁攻击序列集1-S_A；(3)对于长度为i且支持度大于Min_Supt的每个网络攻击序列前缀，执行以下递归挖掘操作：a.找出对应的投影网络攻击序列集i-S_A，如果i-S_A为空，则结束递归操作并返回0，反之则直接返回0，b.计算攻击序列集i-S_A中每个网络攻击序列的支持度，如果每个网络攻击序列的支持度都小于Min_Supt，则结束递归操作并返回0，反之则直接返回0，c.将当前前缀加入到每一个网络攻击序列，并获得一系列新的前缀，d.执行i＝i+1，并将每个新的联合前缀作为前缀递归地执行；

在执行完上述算法后，可以从网络攻击日志中挖掘出所有频繁的攻击序列，在挖掘得到频繁攻击序列FS_A可为后续进一步的评估提供证据。

3.对于步骤S4，本发明引入改进的D-S证据理论，将得到的频繁攻击序列作为评估网络中每个主机风险程度的证据，通过合成公式将这些证据融合生成主机风险值：

D-S证据理论可以用于多源数据融合，但是可能出现不合理甚至错误的结论，即当存在合理的证据时，使用D-S组合规则才可以得到理想的信息合成结果，当证据之间有冲突时，就会出现与表达信息相反的合成结果，而改进的D-S证据理论可以解决证据的冲突并提高数据融合的准确性，即提高主机风险值的准确性；

本发明中提到的改进的D-S理论引入置信度的概念，用置信度α来描述证据的可靠性和可信度，在证据融合前可对融合所需的证据进行修改，首先需度量不同证据之间的距离，采用Bhattacharyya距离，计算不同证据间的距离，m_i，m_j是两条证据，如公式(7)所示：

d(m_i，m_j)＝d_ij＝-ln(BC(m_i，m_j)) (7)

式(7)中，d(m_i，m_j)是m_i，m_j之间的Bhattacharyya距离，BC(m_i，m_j)是Bhattacharyya系数，

由此可导出一个1*1的矩阵D，而D是一个对称矩阵，且对角元素为0，如公式(9)所示；

式(9)中，矩阵D中的元素d_ij是证据m_i，m_j之间的距离，

证据m_i和其他证据之间的距离之和为u_i，如公式(10)所示：

式(10)中，u_i的大小代表证据和其他证据之间的距离之和，它的大小反映了证据m_i和其他证据之间的差异程度，证据m_i和其他证据之间的差异越大，m_i是噪声点的可能性越大，且置信水平α越低，相反，证据m_i的u_i值越小，m_i与其他证据表达的信息的一致性越强，置信度α应该越高，

所以m_i的置信度α_i定义如公式(11)所示：

式(11)中，α_i是证据m_i与其他证据表达的信息的一致性的强弱程度，与1/u_i成正比，

根据D-S证据理论中定义的基本信任分配函数BPA，在证据理论中用来分配证据的初始信任度，定义如公式(12)所示：

式(12)中θ为识别框架，包含互相独立的事件，A_j是θ中的事件，φ为不可能发生的事件，m(A_j)为事件A_j的基本信任分配函数，m_i(A_j)为每一个证据的基本信任函数值，

改进后，BPA定义如公式(13)所示：

式(13)中，在计算事件A_j的基本信任分配函数m(A_j)时，为每一个证据的基本信任函数值m_i(A_j)乘上了置信度α_i，

最终调整后的BPA避免了证据冲突，为下一步的证据融合奠定了良好的基础；

网络的状况分为两大类：危险和安全，可确定识别框架Θ＝{S，D}，其中S代表当前网络状态是安全，D代表当前网络状态是危险，根据D-S证据理论相关定义，m(S)+m(D)＝1，

首先对证据分配初始信任度值，初始基本可信度分配主要衡量两个方面，一个是该多步攻击成功发生的概率，另一个是该多步攻击的威胁程度，

一个目标主机在一段时间内挖掘出来的每一条最大频繁多步攻击序列作为评估该主机态势的一个证据，利用合成公式，如公式(14)对这些证据的信任度值进行合成，这个值就代表着目标主机的态势状况，

式(14)中，M(A)为主机中A事件的风险值，A_i为事件A的证据，m_i(A_i)为A_i的基本信任函数值，k代表证据之间的冲突程度，随着k值的增大，证据之间的冲突程度就越大，

计算整个网络的风险值，如公式(16)所示：

式(16)中，DW为整个网络的风险值，M(A)_i表示网络中每个主机的风险值，W_i为每个主机的权重，代表网络主机资产的重要性，主机资产的重要性越高，对该主机发动攻击造成的危害就越高，

DW值越高表示网络中的风险程度越大，可将整个网络的安全状态分为三个状态：安全、低风险、高风险，并设定相应阈值s_l，s_t来作为这三个状态的分界值，如公式(17)所示：

阈值根据被评估网络的实际状况以及安全管理的要求来决定。

本发明的基于数据挖掘的网络态势评估方法，能够准确地评估出网络态势情况，提高了网络安全人员识别和防御网络威胁的能力，具有以下优点：

(1)本发明采用PrefixSpan算法用于频繁攻击序列挖掘，针对网络中存在的海量复杂的网络日志，能够更加有效的挖掘出隐藏的信息，为入侵检测和安全预测提供了一种网络日志分析方法，并可以从规模庞大的数据中获得隐藏在其中的网络攻击行为和威胁信息。

(2)本发明的方法可以对当前网络状况进行评估，能够综合网络中各个主机的状态，高效组织不确定的网络信息并对其进行分析和评估，更好的辅助管理人员做出相应的决策和判断，避免网络威胁产生的严重后果。

附图说明

图1为本发明中PrefixSpan算法的流程图

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

图1为本发明中PrefixSpan算法的流程图，其中包含：

S3，采用PrefixSpan算法对网络攻击日志进行进一步的挖掘，挖掘出频繁攻击序列以确定准确攻击行为特征。在算法中，输入网络攻击序列集S_A和最小支持度阈值Min_Supt，首先扫描S_A中的每个网络攻击序列，并找出所有长度为1的网络攻击序列前缀，创建对应的投影网络攻击序列集1-S_A。计算出每个网络攻击序列前缀的支持度，判断S_A中的攻击序列支持度是否小于Min_Supt，如果小于则删除该网络攻击序列，大于等于则可以保存到频繁攻击序列集1-S_A中。对于长度为i且支持度大于Min_Supt的每个网络攻击序列前缀，执行以下递归挖掘操作：a.找出对应的投影网络攻击序列集i-S_A。如果i-S_A为空，则结束递归操作并返回0，反之则直接返回0。b.计算攻击序列集i-S_A中每个网络攻击序列的支持度。如果每个网络攻击序列的支持度都小于Min_Supt，则结束递归操作并返回0，反之则直接返回0。c.将当前前缀加入到每一个网络攻击序列，并获得一系列新的前缀。d.执行i＝i+1，并将每个新的联合前缀作为前缀递归地执行(3)。

综上所述，本发明的基于数据挖掘的网络态势评估方法可以全面的对网络日志进行挖掘并进行当前网络状态的评估，而网络日志挖掘对于网络安全防护具有重要意义。针对海量复杂的网络日志，挖掘时使用PrefiSpan算法，用于识别频繁的攻击序列，能够为入侵检测和安全预测提供一种网络日志分析手段，再结合改进的D-S证据链理论，可对网络态势进行较为准确的评估。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于数据挖掘的网络态势评估方法，其特征及具体步骤如下：

2.根据权利要求1所述的一种基于数据挖掘的网络态势评估方法，其特征在于，对于步骤

S2，为了从网络安全日志中找出所有的网络攻击序列，本发明采用了网络攻击记录之间的相似度计算函数，综合考虑了攻击发生的时间、攻击的IP地址和攻击的端口号，分为基于攻击发生时间的相似性计算函数、基于攻击端口号的相似度计算函数和基于攻击IP地址的相似度计算函数：

当两个网络攻击记录之间的时间间隔大于给定的时间滑动窗口时，可以认为两个网络攻击日志不属于同一个网络攻击序列，相反，则认为两个网络攻击日志属于同一个网络攻击序列，并利用高斯分布计算两个网络攻击记录的时间相似度，假设A＝{a₁，a₂...a_n}表示网络攻击记录，a_i表示一种网络攻击记录的第i个属性，其中1≤i≤n，

攻击的IP地址相似度计算函数S_ip(A_i，A_j)如公式(3)所示：

S_ip(A_i，A_j)＝(L(A_i.srcIP，A_j.srcIP)+L(A_i.desIP，A_j.desIP))/2 (3)

攻击的端口号相似度计算函数S_port(A_i，A_j)如公式(5)所示：

S_port(A_i，A_j)＝(L(A_i.srcPort，A_j.srcPort)+L(A_i·desPort，A_j.desPort))/2 (5)

在上式中，A_i·srcPort，A_j·srcPort分别表示两个攻击的源端口号，A_i.desPort，A_j.desPort分别表示两个攻击的目的端口号；

S(A_i，A_j)＝∑_kw_k×S_k(A_i，A_j) (6)

3.根据权利要求1所述的一种基于数据挖掘的网络态势评估方法，其特征在于，对于步骤S3，本发明采用PrefixSpan算法从网络攻击序列中挖掘出所有频繁的攻击序列，以此来识别网络攻击类型；网络攻击之间是按照一定的时间顺序发生的，从海量的网络攻击序列中，找出所有的频繁攻击序列，获取能够进一步精准判断的数据，考虑到挖掘的时间和空间，选择PrefixSpan算法可以有效找出所有频繁的攻击序列：