CN115412328A

CN115412328A - 基于机器学习的攻击路径溯源和攻击源头检测方法

Info

Publication number: CN115412328A
Application number: CN202211014967.6A
Authority: CN
Inventors: 王乐; 张志强; 周亮; 顾钊铨; 黄坤鑫; 马丽婷; 陈光耀; 蔺子卿; 王海翔; 杨举
Original assignee: China Electric Power Research Institute Co Ltd CEPRI; Guangzhou University; State Grid Shanghai Electric Power Co Ltd
Current assignee: China Electric Power Research Institute Co Ltd CEPRI; Guangzhou University; State Grid Shanghai Electric Power Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-29

Abstract

本发明公开了一种基于机器学习的攻击路径溯源和攻击源头检测方法，包括：构建大型网络有向攻击图，针对不同的源主机和目标主机进行统一编号，并将相邻主机之间的可达性存储为二维邻接矩阵，利用深度优先遍历算法和二维邻接矩阵找出源主机和目标主机之间所有可达路径，从所有可达路径中筛选出符合依照事件时间顺序的实际可行路径，对实际可行路径的权重进行初始化，利用路径排序算法计算攻击源头概率，选出概率值最大的作为攻击源头，对计算攻击源头概率过程中路径权重不断迭代寻优，得出最优情况下的路径权重值；本发明有效提升了攻击源头检测的效率，能够发现在整个大型网络中与该起攻击事件密切相关的多个节点，可为防御者快速找到突破口。

Description

基于机器学习的攻击路径溯源和攻击源头检测方法

技术领域

本发明涉及机器学习和网络安全技术领域，特别涉及一种基于机器学习的攻击路径溯源和攻击源头检测方法。

背景技术

随着以5G技术为代表的网络技术的快速发展,互联网已经在工业、金融、教育等各个领域都广泛应用。信息网络成为社会发展的重要保证的同时，由于网络形式具有多样性,不均匀性以及开放性等特点,使得计算机在应用的过程中,很容易受到网络攻击,从而导致信息数据泄露和破坏。相关数据显示，在2015年至2025这十年间，网络攻击引发的全球潜在经济损失可能高达2940亿美元。网络风险的升级，让政府、企业和个人都对该风险愈加关注。在大型网络中，基于Windows的身份验证事件可以表示为攻击图，通过攻击图可以分析出当一个主机被攻破时，这个攻击源头最可能是哪台计算机，从而可以对攻击源头进行溯源，来帮助防御方更好的分析和决断。

目前对攻击源检测的方法有很多种，包括基于动态贝叶斯攻击图的检测算法、动态可达性模型检测、基于特征信息与异常行为的流量监测等等，然而这些方法都存在其局限性。基于贝叶斯的网络攻击检测模型结合联结树算法对攻击路径的追踪方法忽略了贝叶斯网络节点之间并非全部相对独立，这使得该方法有较大的追踪误差。孤立森林算法进行攻击检测时存在不适用于高维数据的问题，且对全局稀疏点敏感，这导致攻击检测的准确性不高。借助二进制粒子群优化算法在指定解空间内寻找路径的方法仅限于解空间主机数量较少的情况，若解空间过大则会较多消耗资源。当使用增量分段线性分类算法进行恶意攻击识别时，会存在效率低下且消耗资源过多的情况。基于遗传算法的攻击路径溯源方法会因为遗传算法中对交叉率和变异率的相关参数并无严谨科学的计算方法定义，从而使得解的品质并不高。

发明内容

针对现有技术的各种缺陷，本发明提供一种基于机器学习的攻击路径溯源和攻击源头检测方法，旨在解决现有技术中的缺陷问题。

本发明提供的技术方案是：

一种基于机器学习的攻击路径溯源和攻击源头检测方法，包括如下步骤：

构建大型网络有向攻击图，针对不同的源主机和目标主机进行统一编号，并将相邻主机之间的可达性存储为二维邻接矩阵，利用深度优先遍历算法和二维邻接矩阵找出源主机和目标主机之间所有可达路径；

引入事件发生的时间参数结合递归的方式，从所有可达路径中筛选出符合依照事件时间顺序的实际可行路径；

对实际可行路径的权重进行初始化，利用路径排序算法计算攻击源头概率，选出概率值最大的作为攻击源头；

通过粒子群优化算法对计算攻击源头概率过程中路径权重不断迭代寻优，从而得出最优情况下的路径权重值。

本发明提出的基于机器学习的攻击路径溯源和攻击源头检测方法，其有益效果包括：

本发明提供的检测方法，在对攻击路径溯源和攻击源检测的过程中将PRA算法、深度优先遍历算法和粒子群优化算法的优点进行结合，通过粒子群优化算法来优化路径权重，能够大幅度提升攻击源头检测的效率和准确性，并且能够发现在整个大型网络中与该起攻击事件密切相关的多个节点，可为防御者找到突破口，使得在攻击路径溯源和攻击源头检测方面的准确率大幅度提升，为防御方的防御工作和攻击源头快速确立提供了保障。

附图说明

为了更清楚的说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见的，下面的描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于机器学习的攻击路径溯源和攻击源头检测方法流程示意图；

图2为本发明实施例提供的通过深度优先遍历算法寻找可达路径方法流程示意图；

图3为本发明实施例提供的基于PRA算法计算某个节点是另一个节点的攻击源头概率原理图；

图4为本发明实施例提供的通过粒子群优化算法确定PRA算法中的路径权重原理图；

图5为本发明实施例提供的实验仿真列举的部分源头检测概率图；

图6为本发明实施例提供的实验仿真枚举的部分节点之间的可行路径数量图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例：

参见图1，本发明实施例提供的基于机器学习的攻击路径溯源和攻击源头检测方法流程图，包括如下步骤：

S101、构建大型网络有向攻击图，针对不同的源主机和目标主机进行统一编号，并将相邻主机之间的可达性存储为二维邻接矩阵，利用深度优先遍历算法和二维邻接矩阵找出源主机和目标主机之间所有可达路径。

基于Windows的身份验证事件数据依据主机之间的访问方向构建大型网络有向攻击图，并针对不同的主机进行编号，利用一维数组存储主机编号，并将相邻主机之间的可达性存储为二维邻接矩阵。

然后通过使用深度优先遍历算法，枚举出源主机和目标主机之间所有可达路径(此处的可达路径表示所有中间路径在邻接矩阵上不为零即表示该路径可达)。本发明将两个节点之间的所有可达路径保存至二维数组。

参见图2实施例所示的通过深度优先遍历算法寻找可达路径方法流程图；

通过深度优先遍历算法寻找可达路径，具体包括：

步骤一、通过深度优先便利算法访问某顶点V时，将该顶点作为当前顶点，访问当前顶点的下一个未被访问过的邻接点；

步骤二、如果当前顶点的所有邻接点中有还未访问过的邻接点，则访问还未访问过的邻接点，并对还未访问过的邻接点执行步骤一中的操作；

步骤三、如果当前顶点的所有邻接点都访问过，则判断所有顶点是否都被访问过，若是，则表示所有可达路径均已得到，否则，沿搜索路径回退，继续执行步骤一。

通过深度优先遍历算法并结合时间参数和递归的方式来筛选出实际的攻击路径可行性路径，从而避免了非可行性路径对攻击源头检测的影响。

S102、引入事件发生的时间参数结合递归的方式，从所有可达路径中筛选出符合依照事件时间顺序的实际可行路径。

接下来引入事件发生的时间参数并使用递归地方式从枚举的所有可达路径中筛选出实际有效的可行路径(此处将筛选出所有符合中间路径依照时间递增关系的有效路径)。主机C_i到主机C_j的可行关系路径P需要满足所有中间路径T_pm依照时间顺序有序排列，符合如下公式的规则才算是实际有效的可行路径。

S103、对实际可行路径的权重进行初始化，利用路径排序算法计算攻击源头概率，选出概率值最大的作为攻击源头。

参见图3实施例所示的基于PRA算法计算某个节点是另一个节点的攻击源头概率原理图；

对于利用PRA算法计算某台主机是另一台主机攻击源头的概率score(i；j)，首先初始化不同级别的路径权重，如路径C₁→C₂→C₃→C₄和路径C₁→C₅→C₆→C₃→C₄，其中C₁→C₂是一级路径，路径权重为W₁，C₃→C₄是三级路径，路径权重W₃，然而对于路径C₁→C₅→C₆→C₃→C₄而言，C₃→C₄则是四级路径，路径权重为W₄。在本发明的方法中将直接将权重的种类定义为8个类别，分别表示8个级别的路径权重，超过8级的路径权重也记为W₈。此外还需要了解相邻主机路径概率值θ的计算方式，相邻两个节点C_p到C_q的路径概率θ_pq满足与C_p出度相关的关系表达式：

在计算主机C_i是主机Cj的攻击源头的概率score(i；j)时，本发明对求出的每条可达路径P_ij所经过的所有相邻中间路径的路径概率与路径权重相乘得到单条路径概率score(one P_ij)，最终将求出的所有可达路径的单条路径概率求和作为最终的攻击源头概率score(i；j)。

在上述公式中，虽然每条可达路径P_ij的始点和终点相同，但它们的含义却互不相同，表示同一个始点走向同一个终点的不同路径。由此，本发明的单条路径概率score(oneP_ij)会有很多种，需要把所有的单条路径概率求和才是真正的主机C_i可能是主机C_j的攻击源头的概率score(i；j)。

通过PRA算法将攻击图中相邻节点路径的路径概率与路径权重相乘得到单条路径概率，最终将所有单条路径概率求和计算出攻击源头的概率，将概率大的一个或多个节点作为攻击源头，该方法能够极大提高攻击源头检测的准确性。

S104、通过粒子群优化算法对计算攻击源头概率过程中路径权重不断迭代寻优，从而得出最优情况下的路径权重值。

参见图4实施例所示的通过粒子群优化算法确定PRA算法中的路径权重原理图；

对于使用粒子群优化算法来确定各级路径权重值，首先初始化指定个数的粒子数为8，并初始化粒子的初始速度和初始位置(即8个级别的路径初始权重值)，还需要初始化全局最优和局部最优值(最优值即多台主机是某一台主机的攻击源头的概率)。通过如下公式来更新单个粒子的速度和位置：

单个粒子位置更新后以该位置作为对应路径的权重，其余路径权重不变，基于当前路径权重值使用上一步所述的攻击源头概率计算方式计算主机是另一个主机的攻击源头的概率以此作为此时的局部最优值并与历史最优值进行比较。所有粒子的位置都更新后，再基于此时的路径权重值使用攻击源头概率计算方式计算主机是另一个主机的攻击源头的概率以此作为当前的全局最优值并与历史全局最优值进行比较。如果全局最优值与实际值误差高于历史全局最优值与实际值误差则退出循环迭代过程，并将历史最优情况下对应的粒子位置作为最终的多条路径的权重。反之若全局最优值与实际值误差低于历史全局最优值与实际值误差则重新进入更新粒子速度和位置的步骤，并将历史最优值更新为当前全局最优值(意味着通过迭代还能找到更合适的路径权重和全局最优值)。

通过粒子群优化算法对计算攻击源头概率过程中路径权重不断迭代寻优，从而得出最优情况下的路径权重值，提高了攻击源检测的效率及准确性。

参见图5所示的方法实验仿真列举的部分源头检测概率图，以及图6所示的实验仿真枚举的部分节点之间的可行路径数量图；

在一实施例中，在得到最终的多条路径的权重之后，还需要对该方法进行效果验证：

本发明使用上述方法基于洛斯阿拉莫斯国家实验室(LANL)收集的基于Windows的桌面计算机、服务器和活动目录服务器的身份验证事件数据做了一个仿真实验。数据总共包含58天的10亿条身份验证事件，而本发明的实验实际使用的是第8天的前15分钟数据集。每条数据的字段标识包括时间、源用户域、目标用户域、源计算机、目标计算机、身份验证类型、登陆类型、身份验证方向和验证结果。实际使用的15分钟数据特征统计结果如图6。本发明使用15分钟的数据构建了一个含有10143个节点和273279条边的攻击图。

通过仿真实验对比本发明的攻击源头检测结果和攻击路径溯源结果皆与实际数据结果很相似，使用本发明的方法通过实验仿真得到了很高的准确率。对于目标主机C586而言，当它受到攻击时，该攻击源最可能来自主机C1843。当主机C529、C612、C457、C467和主机C1065被攻陷时，对应的攻击源也都最可能来自于主机C1843。相比之下，主机C625和主机C528对应的攻击源头分别是主机C18436和主机C10494。并得出主机C1843在该攻击事件中起到了至关重要的作用的结论。

本发明上述实施例，在对攻击路径溯源和攻击源检测的过程中将PRA算法、深度优先遍历算法和粒子群优化算法的优点进行结合。通过粒子群优化算法来优化路径权重，能够大幅度提升攻击源头检测的效率和准确性，并且能够发现在整个大型网络中与该起攻击事件密切相关的多个节点，可为防御者找到突破口。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，所述利用深度优先遍历算法和二维邻接矩阵找出源主机和目标主机之间所有可达路径，包括：

利用深度优先遍历算法找出所有中间路径在二维邻接矩阵上不为零的路径，作为可达路径。

3.如权利要求1所述的基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，所述从所有可达路径中筛选出符合依照事件时间顺序的实际可行路径，包括：

主机C_i到主机C_j的可行关系路径P需要满足所有中间路径T_pm依照时间顺序有序排列，符合如下公式的规则为实际可行路径：

4.如权利要求3所述的基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，所述对实际可行路径的权重进行初始化，包括：

将权重的种类定义为8个类别，分别表示8个级别的路径权重，将8级或超过8级的路径权重均记为W₈。

5.如权利要求1所述的基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，所述利用路径排序算法计算攻击源头概率之前，包括：

计算相邻主机路径概率值，具体为：

相邻两个节点C_p到C_q的路径概率θ_pq满足与C_p出度相关的关系表达式：

6.如权利要求3所述的基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，所述利用路径排序算法计算攻击源头概率，包括：

对求出的每条可达路径P_ij所经过的所有相邻中间路径的路径概率与路径权重相乘得到单条路径概率score(one P_ij)，最终将求出的所有可达路径的单条路径概率求和作为最终的攻击源头概率score(i；j)：

7.如权利要求6所述的基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，所述将求出的所有可达路径的单条路径概率求和作为最终的攻击源头概率score(i；j)，包括：

对求出的每条可达路径P_ij，其始点和终点相同，由于同一个始点走向同一个终点的不同路径，单条路径概率score(one P_ij)会有很多种，因此，将所有的单条路径概率求和，才是真正的主机C_i是主机C_j的攻击源头的概率score(i；j)。

8.如权利要求6所述的基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，所述通过粒子群优化算法对计算攻击源头概率过程中路径权重不断迭代寻优之前，包括：

初始化指定个数的粒子数为8，并初始化粒子的初始速度和初始位置，其中，初始位置即8个级别的路径初始权重值，然后初始化全局最优和局部最优值，其中，最优值即多台主机是某一台主机的攻击源头的概率，通过如下公式来更新单个粒子的速度和位置：

9.如权利要求8所述的基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，更新单个例子的速度和位置之后，包括：

将单个粒子位置更新的位置作为对应路径的权重，其余路径权重不变，基于当前路径权重值，使用攻击源头概率计算方式计算主机是另一个主机的攻击源头的概率，以此作为此时的局部最优值并与历史最优值进行比较，所有粒子的位置都更新后，再基于此时的路径权重值，使用攻击源头概率计算方式计算主机是另一个主机的攻击源头的概率，以此作为当前的全局最优值并与历史全局最优值进行比较，如果全局最优值与实际值误差高于历史全局最优值与实际值误差，则退出循环迭代过程，并将历史最优情况下对应的粒子位置作为最终的多条路径的权重。

10.如权利要求9所述的基于机器学习的攻击路径溯源和攻击源头检测方法，其特征在于，若全局最优值与实际值误差低于历史全局最优值与实际值误差，则重新进入更新粒子速度和位置的步骤，并将历史最优值更新为当前全局最优值。