CN116743468A

CN116743468A - 基于强化学习的动态攻击路径生成方法

Info

Publication number: CN116743468A
Application number: CN202310757725.4A
Authority: CN
Inventors: 李腾; 唐智亮; 孙小敏; 方保坤; 林炜国; 马卓; 李德彪
Original assignee: Xi'an Lianfei Intelligent Equipment Research Institute Co ltd; Xidian University
Current assignee: Xi'an Lianfei Intelligent Equipment Research Institute Co ltd; Xidian University
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-12

Abstract

本发明提出了一种基于强化学习的动态攻击路径生成方法，主要解决现有技术在内部网络环境下获取最优攻击路径效率低且结果不全面的问题。包括：1)构建用于模拟真实内部网络情况的网络拓扑结构；2)生成网络拓扑结构图，获取网络拓扑信息以及各主机漏洞信息；3)对主机漏洞信息进行权值计算，得到表示各节点间连通边的权值矩阵；4)利用前述步骤得到的信息构建基于强化学习的动态攻击路径生成模型；5)采用改进强化学习Q‑learning算法对模型进行迭代训练；6)根据训练后的攻击路径生成模型获取最优攻击路径结果。本发明能够应对复杂网络环境，高效输出符合真实网络环境特征的全部最优攻击路径结果。

Description

基于强化学习的动态攻击路径生成方法

技术领域

本发明属于计算机网络技术领域，进一步涉及攻击路径生成方法，具体为一种基于强化学习的动态攻击路径生成方法，可用于企业、机构等内部网络获取最优攻击路径。

背景技术

攻击路径指的是黑客或攻击者在攻击目标系统时，所采用的一系列步骤或方法。攻击者通过探测目标系统的漏洞或弱点，制定攻击路径并进行攻击，最终实现对目标系统的入侵。随着网络系统日益复杂化，通过最优路径攻击的方式发动网络攻击已成为影响各企业、机构内部网络安全的重要因素。现阶段内部网络中探寻最优攻击路径主要有基于攻击图和基于强化学习的方法，其中，采用基于攻击图的实现方法是目前的主流方案，该方式是一种基于模型的网络脆弱性分析技术，利用攻击图可以发现潜在的攻击路径，但目前利用攻击图去分析网络环境安全性的方法大多适用于小型内部网络分析，且每一次只能得出一条攻击实例。强化学习是一种无模型、在线学习的算法，采用基于强化学习的方法可以通过训练快速寻找到最优路径，同时可以适应未知环境，因此十分适合做最优路径规划工作。其中典型的方法是基于Q-learning的攻击路径生成方法，用于解决离散动作空间的问题。它通过不断地试错和学习来寻找最优策略，通过训练可以在较短的时间内找到最优策略。然而，目前的方法没有利用内部网络信息去优化最优攻击路径生成，效率不高且不具备针对性。同时由于Q-learning算法的时间复杂度较高以及强化学习初期训练速度慢的局限性，在处理大规模状态空间时，计算成本会非常高。

例如申请公布号为CN107317756A，名称为“一种基于Q学习的最佳攻击路径规划方法”的专利申请，采用Q-learning算法进行最佳攻击路径规划，通过获取网络结构与主机漏洞表作为Q学习最佳攻击路径规划模型的输入，采用Q-learning算法进行迭代训练，输出最佳攻击路径序列。设计的奖励函数包含当前状态、当前主机存在的漏洞以及后继状态的奖励信息。该方法不需要收集训练数据，可以在线学习，实时确定不同时刻不同网络状态对应的最佳攻击路径。但是存在的缺陷是存在算法参数运用不足，缺乏针对性，且占用了较多内存资源，同时仍无法解决复杂网络环境带来的环路问题以及强化学习初期训练速度慢的问题。

发明内容

本发明的目的在于针对上述已有技术的不足，提出了一种基于强化学习的动态攻击路径生成方法，用于解决现有技术中复杂网络环境下最优攻击路径生成效率低且获取路径不全面的问题。

本发明的技术思路是：首先，构建实验网络模拟真实内网，并获取实验网络中的网络拓扑信息以及各主机漏洞信息，接着对主机漏洞信息进行权值转换，利用这些信息构建强化学习动态攻击路径生成模型，而后利用改进强化学习Q-learning算法进行迭代训练，训练完成后获取最优攻击路径结果，具体包括如下步骤：

(1)构建网络拓扑结构G：

构建包括m个节点和n条边的网络拓扑结构G，用于模拟真实内部网络情况；且从起始节点到目标节点具有连通性，各节点主机具有漏洞信息，其中m≥5，n≥15；

(2)生成网络拓扑结构G的网络拓扑结构图：

(2a)读取G中起始节点的IPv4路由表信息，提取出路由表里的网络目标和网络掩码，再将网络目标和网络掩码数据转换为二进制形式的IP地址进行与运算，获得与当前节点相应设备相连接的网段信息，通过与网段中主机建立传输控制协议TCP连接，将连接成功的主机添加到存活主机列表；

(2b)通过对存活主机列表中的存活主机之间进行连通性检测，将连通的主机之间以节点和边的方式记录，其中节点表示主机IP地址，边表示主机之间可以直接相通，得到网络拓扑结构G的网络拓扑结构图，并按照节点个数对网络拓扑中每个节点从1到m进行编号，其中初始节点记为1、目标节点记为m；

(3)获取各节点间连通边的权值矩阵ω：

(3a)使用Nmap工具探测常规端口并记录开放端口号，匹配漏洞POC库，获取各个节点上存在漏洞的通用漏洞披露CVE名；

(3b)通过比对各节点漏洞的通用漏洞披露CVE名称和美国国家漏洞数据库的漏洞数据，得到各节点漏洞的通用漏洞评分系统CVSS评分，每个节点保留最高的CVSS评分，构建漏洞评分数据列表

(3c)获取评分列表中各节点漏洞评分并进行权值计算，得到表示各节点间连通边的权值矩阵ω；

(4)构建基于强化学习的动态攻击路径生成模型：

(4a)建立大小为m×m的奖励矩阵R，行列索引根据步骤(2b)从1到m进行编号，将权值矩阵ω中节点之间的权值作为奖励，初始化奖励矩阵R，对ω中没有的权值设置奖励为N，表示节点之间不连通；

(4b)将起始节点作为初始状态S₁，目标节点作为目标状态S_m，其余节点表示中间状态S_z，1＜z＜m，每个节点连通的边表示可执行动作A，A_i表示当前状态S_i下所有可执行的动作，A_ij表示当前状态S_i可以达到新状态S_j的动作，i、j∈[1，m]，R_ij表示从当前状态S_i采取动作A_ij到达新状态S_j获得的奖励值，得到基于强化学习的动态攻击路径生成模型；

(5)初始化大小为m×m的矩阵Q表，行列索引根据步骤(2b)从1到m进行编号，Q表中每一个Q值元素均设置为0，根据奖励矩阵R中的先验知识对Q表进行初始化，令Q(S_i,A_ij)表示在当前状态S_i采取动作A_ij带来的收益期望；

(6)采用改进强化学习Q-learning算法对步骤(4)构建的模型进行迭代训练：

(6a)设定学习率为α、折扣率为γ、迭代次数为episode以及进行收敛判别的判别周期为T；

(6b)令当前迭代次数为t，初始状态为S₁；

(6c)在当前状态S_i下，根据动作选取原则选择下一步动作A_ij；

(6d)在到达新状态S_j时，获取奖励R_ij，并根据更新公式更新Q表中的Q(S_i,A_ij)；

(6e)判断新状态S_j是否为目标状态S_m，若是，则执行步骤(6f)，否则执行步骤(6c)；

(6f)判断t除以T是否为整数，若是，则记录此时Q表中收益期望的最小值Q(S₁,A_1j)，计入判别列表θ，并执行步骤(6g)，否则令t＝t+1，返回步骤(6b)；

(6g)判断判别列表θ最近三次记录是否不变，若是，则迭代训练结束，执行步骤(7)，否则令t＝t+1，并返回步骤(6b)；

(7)获取最优攻击路径结果：

根据迭代训练完成后的最优攻击路径生成模型，通过对Q表进行搜索，从起始节点起检索Q值最小的下一步动作，记录到达目标节点累计Q值最小的路径并对其进行汇总，得到最优攻击路径结果。

本发明与现有技术相比，具有以下优点：

第一、由于本发明采用容易实现且高效的方式进行网络拓扑发现以及漏洞扫描，针对未知的网络情况可以充分获取目标信息，且每一条路由的记录都是经过验证的，可以确保网络拓扑探测的精度，与现有技术相比，解决了未知网络发现难题，并可以适应多种内部网络环境。

第二、由于本发明采用在攻击图的有向边上附加权值的方式，使得利用强化学习算法进行最优攻击路径发现时，能够更为精准的反映出内部网络最优攻击路径上主机的脆弱性，使得结果更直观且更具有代表性，与现有技术相比，提高了内部网络信息利用率。

第三、由于本发明采用强化学习Q-learning算法，对算法各项参数做了适应性修改，将Q-learning算法选取原则由选取最大期望修改为选取最小期望，在考虑到局部最优解的同时注意到整体求解的最优性，与现有技术相比，解决了复杂网络中可能存在的环路问题，同时实现对全部最优攻击路径的获取。

第四、由于本发明利用收集到的网络信息作为强化学习模型的先验知识辅助训练，通过在训练前提前对Q表进行更新，干预训练初期的路径选取，提升强化学习初期训练速度，同时通过自动判别是否完成收敛缩短迭代训练的时间，与现有技术相比，保证了在复杂网络环境下的最优攻击路径生成效率，降低了各种网络下的计算成本。

附图说明

图1为本发明的实现流程图；

图2为本发明对基于强化学习动态攻击路径生成模型进行迭代训练的实现流程图；

图3为本发明实施例提供的带权值攻击图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述。

参照附图1，本发明提出的一种基于强化学习的动态攻击路径生成方法，通过对内部网络环境进行网络拓扑发现以及漏洞扫描获取内网信息，利用收集到的内网信息构建动态攻击路径生成模型，使用基于强化学习方法进行迭代训练，获取最优攻击路径结果；具体包括如下步骤：

步骤1.构建网络拓扑结构G：

构建包括m个节点和n条边的网络拓扑结构G，用于模拟真实内部网络情况；且从起始节点到目标节点具有连通性，各节点主机具有漏洞信息，其中m≥5，n≥15。

本实施例选用包含9个主机节点网络拓扑作为实验网络G，每个节点均存在边与其相连，在该拓扑中，m＝9，n＝19；

步骤2.生成网络拓扑结构G的网络拓扑结构图：

步骤3.获取各节点间连通边的权值矩阵ω：

(3c)获取评分列表中各节点漏洞评分并进行权值计算，得到表示各节点间连通边的权值矩阵ω；这里进行的权值计算，具体是构建权值矩阵ω映射主机漏洞评分，其计算公式如下：

其中，x表示源节点，y表示指向节点，表示漏洞评分数据列表，/>表示指向节点对应的漏洞评分，且/>ω表示权值矩阵，ω_xy表示从源节点到指向节点边的权值，表示取列表中最大值，/>表示取列表中最小值。

步骤4.构建基于强化学习的动态攻击路径生成模型：

(4a)建立大小为m×m的奖励矩阵R，行列索引根据步骤(2b)从1到m进行编号，将权值矩阵ω中节点之间的权值作为奖励，初始化奖励矩阵R，对ω中没有的权值设置奖励为N，表示节点之间不连通；本实例中将N设置为100，这里通常设定的N为较大数值。

步骤5.初始化大小为m×m的矩阵Q表，行列索引根据步骤(2b)从1到m进行编号，Q表中每一个Q值元素均设置为0，根据奖励矩阵R中的先验知识对Q表进行初始化，即利用奖励矩阵R中节点之间的奖励值初始化Q表值，将Q(S_i,A_ij)值更新为R_ij值，其中Q(S_i,A_ij)表示在当前状态S_i采取动作A_ij带来的收益期望；

步骤6.参照图2，采用改进强化学习Q-learning算法对步骤4构建的模型进行迭代训练：

(6a)设定学习率为α、折扣率为γ、迭代次数为episode以及进行收敛判别的判别周期为T；其中学习率α用于表示每次期望值和实际奖励值的误差值被学习的程度，折扣率γ用来表示对未来奖励的衰减值，本实施例中设置学习率为α、折扣率为γ分别为0.8和1，判别周期T为10。

(6b)令当前迭代次数为t，初始状态为S₁；

(6c)在当前状态S_i下，根据动作选取原则选择下一步动作A_ij；所述动作选取原则，是指选取当前状态S_i下，Q表中第i行最小值对应的动作，若有多个最小值则随机选取。

(6d)在到达新状态S_j时，获取奖励R_ij，并根据更新公式更新Q表中的Q(S_i,A_ij)；所述更新公式，具体如下：

Q(S_i,A_ij)←Q(S_i,A_ij)+α(R_ij+γminQ(S_j,A_j′)-Q(S_i,A_ij))

其中，A_j′表示达到新的状态S_j后按动作选取原则选择的下一动作。

步骤7.获取最优攻击路径结果：

参照图3，使用带权值攻击图对得到的最优攻击路径结果进行直观展示，该示例中共有9个节点、19条有向边，起始节点为1，目标节点为9，存在一条路径为1→4→5→9的最优攻击路径，使得从起始节点到目标节点累计权值最小，值为23。

随着网络系统日益复杂化、多元化，网络风险也在不断上升，通过最优路径发动攻击的方式发动网络攻击已成为影响各企业、机构内部网络安全的重要因素，这种攻击方式成为了不可忽视的安全隐患，具有攻击性高且难以溯源的特点。本发明首先采用在攻击图上附加权值的方式，对内部网络中各主机进行漏洞扫描与权值量化，建立带权值攻击图，更加精准的反映内部网络中各主机的脆弱性，提升了内部网络信息利用率；其次对强化学习Q-learning算法各项参数做了适应性修改，将动作选取原则由选取最大期望修改为选取最小期望，考虑局部最优的同时注意整体的最优性，避免了环路问题，实现对全部最优攻击路径的同时获取；最后利用收集到的网络信息作为先验知识辅助强化学习训练，提升了训练初期的速度，同时通过自动判别收敛结束缩短训练浪费时间，提升了最优攻击路径的生成效率，降低了各种网络环境下的计算成本。解决了现有技术针对内部网络环境下获取最优攻击路径效率低且结果不全面的问题，并能够应对复杂网络环境输出符合真实网络环境特征的全部最优攻击路径结果，精准反映内网脆弱性，因此具有良好的研究价值和应用前景。

本发明未详细说明部分属于本领域技术人员公知常识。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于强化学习的动态攻击路径生成方法，其特征在于，包括如下步骤：

(1)构建网络拓扑结构G：

(2)生成网络拓扑结构G的网络拓扑结构图：

(3)获取各节点间连通边的权值矩阵ω：

(4)构建基于强化学习的动态攻击路径生成模型：

(6b)令当前迭代次数为t，初始状态为S₁；

(7)获取最优攻击路径结果：

2.根据权利要求1所述的方法，其特征在于：步骤(3c)中所述的权值计算，具体是构建权值矩阵ω映射主机漏洞评分，其计算公式如下：

其中，x表示源节点，y表示指向节点，表示漏洞评分数据列表，/>表示指向节点对应的漏洞评分，且/>ω表示权值矩阵，ω_xy表示从源节点到指向节点边的权值，/>表示取列表中最大值，/>表示取列表中最小值。

3.根据权利要求1所述的方法，其特征在于：步骤(5)中所述对Q表进行初始化，是利用奖励矩阵R中节点之间的奖励值初始化Q表值，将Q(S_i,A_ij)值更新为R_ij值。

4.根据权利要求1所述的方法，其特征在于：步骤(6a)中所述学习率为α、折扣率为γ分别设置为0.8和1。

5.根据权利要求1所述的方法，其特征在于：步骤(6c)中所述动作选取原则，是指选取当前状态S_i下，Q表中第i行最小值对应的动作，若有多个最小值则随机选取。

6.根据权利要求1所述的方法，其特征在于：步骤(6d)中所述更新公式，具体如下：

Q(S_i,A_ij)←Q(S_i,A_ij)+α(R_ij+γminQ(S_j,A_j′)-Q(S_i,A_ij))