CN116112278A

CN116112278A - 基于Q-learning的网络最优攻击路径预测方法及系统

Info

Publication number: CN116112278A
Application number: CN202310132460.9A
Authority: CN
Inventors: 李腾; 廖艾; 王佳欣; 于润泽; 马卓; 卢知雨; 何彦武; 张俊伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-05-12

Abstract

本发明公开了一种基于Q‑learning的网络最优攻击路径预测方法及系统，利用漏洞扫描工具获取网络环境中的漏洞信息，构建网络环境的攻击图；根据提出的漏洞量化规则，从多维度对获取的漏洞进行评分，进而对攻击图进行量化；构建Q‑learning的网络最优攻击路径预测模型，将攻击图中的量化信息作为环境反馈值；在攻击图上对基于Q‑learning的网络最优攻击路径预测模型进行迭代训练，通过多次迭代自动实现对决策的优化；最终预测出多步攻击场景下的高危攻击路径，主要解决现有技术攻击路径预测慢、计算成本高、不能随着网络环境的变化进行动态调整的问题，可用于高校和企业网络等场景。

Description

基于Q-learning的网络最优攻击路径预测方法及系统

技术领域

本发明涉及网络安全技术领域，可用于高校、企业网络等领域,具体为一种基于Q-learning的最优攻击路径预测方法及系统。

背景技术

随着互联网的迅速发展，网络流量激增，国内外网络攻击事件频发。攻击者为谋求利益铤而走险，导致了网络设备资源的恶意侵占，隐私数据的泄漏、篡改。在众多攻击方式中，多步攻击是目前主流的攻击之一。不同于单步攻击，多步攻击更为复杂，攻击者往往采取多条攻击路径，攻击一旦发生将对网络系统造成不可逆的损坏。随着网络规模逐渐扩大，在紧急情况下追踪每一条攻击路径，系统防御系统不能及时给出最优的修复建议。不同于普通的攻击路径，最优攻击路径是多步攻击场景下，攻击者最可能采取的一条攻击路。通过最优攻击路径，攻击者能以较低的攻击成本和高攻击回报抵达攻击目标。在网络系统崩溃前预测出最优攻击路径，能起到未雨绸缪的作用。网络攻击的预测，一般由网络环境信息采集、攻击场景建模、攻击场景分析三阶段构成。攻击图是研究网络环境脆弱性的有力工具，能展示攻击者可能采取的所有攻击路径，十分适用于攻击场景的建模。强化学习可以通过行为的价值来选取特定行为，依据奖惩机制不断试探，在迭代多次后最终得到一组最优动作以最大化累计回报。

申请公布号为CN112804208A，名称为“一种基于攻击者特性指标的网络攻击路径预测方法”的专利申请，该方法从攻击者的角度出发,结合攻击图和隐马尔可夫模型,提出网络攻击路径的量化指标来体现不同意图的攻击者对于最优攻击路径选取的不同；并基于量化指标对攻击图中的攻击路径进行量化和分析,更加有效地描述网络攻防场景；最后,通过将每一条攻击路径上所有漏洞的攻击成本、攻击收益及攻击利润分别相加,得到整条攻击路径的攻击总成本、攻击总获利以及攻击总利润,通过比较各个攻击路径的指标值，从而更加准确地找到攻击者可能攻击的风险较大的一条或多条攻击路径。但是，该发明仅考虑攻击图中的漏洞节点，没有考虑其中的条件节点，这对路径预测的准确性带来了影响。同时，该方法每次预测都需要先计算出所有的攻击路径，这造成了不必要的计算成本，从而降低了攻击路径的预测速度。

又如申请公布号为CN111683080A，名称为“一种高危攻击路径动态预测及修复系统与方法”，公开了一种基于累积概率值的高危路径预测方法，该方法使用改进的CVSS评分策略和专家知识库估计各攻击节点的攻击发动概率、攻击成功概率以及安全监测点的置信度,得到概率攻击图,最终通过最大概率攻击路径预测算法得到高危攻击路径。同时，该发明以系统日志与安全监测点报警信息作为数据源建立起Gompertz数学模型，动态反映了每一个攻击及其所在路径的利用概率随时间变化的特性。该方法虽然考虑到每个攻击随时间变化的特性以增加路径预测的准确性，但采用的路径选择算法是以广度优先的思想对图进行遍历，这降低了攻击路径的预测速度。

发明内容

针对现有技术中存在的问题，本发明提供一种基于Q-learning的最优攻击路径预测方法及系统，解决了现有方法预测速度慢，且不能随着网络环境的变化进行动态调整的问题。

本发明是通过以下技术方案来实现：

一种基于Q-learning的网络最优攻击路径预测方法，包括以下步骤：

步骤1，根据网络中的关键信息以及网络环境中的漏洞，构建网络环境的攻击图；

步骤2，采用优化的CVSS通用漏洞评分系统，确定攻击图中每一个漏洞节点的攻击发动指标和攻击成功指标，将攻击成功指标与攻击发动指标赋于攻击图上的两类边，将其作为两类边的边权值，得到量化后的攻击图G′；

步骤3，将量化后的攻击图作为环境属性，攻击图上的节点作为状态集合，攻击图上的有向边作为动作集合，构建基于Q-learning的最优攻击路径预测模型；

步骤4，对Q-learning的最优攻击路径预测模型进行迭代训练，根据训练后的最优攻击路径预测模型进行网络最优攻击路径的预测。

优选的，步骤2中，所述CVSS通用漏洞评分系统的优化方法如下：

增加CVSS通用漏洞评分系统中攻击复杂度属性、权限要求和可用性的权重，剩余属性保持不变。

优选的，步骤2中所述攻击发动指标计算公式为：

Lau_k＝min(1.08×(P1+P2)，10)

其中，P1＝8.22×AV×AC×PR×UI，AV表示漏洞的攻击向量、AC表示漏洞的攻击复杂度、PR表示漏洞的权限要求、UI表示漏洞的用户交互；

所述攻击成功指标Suc_k根据攻击发动指标Lau_k与漏洞本身的攻击复杂度AC，确定。

优选的，步骤3中构建基于Q-learning的最优攻击路径预测模型的方法如下：

S3.1、建立N×N的二维数组R，将步骤2得到的量化后的攻击图G′的边权值存在二维数组R中得到矩阵R，在量化后的攻击图G′中，若两节点间相互不连通，将R中对应的值取为-1；

S3.2、取条件节点B₁作为初始采样状态S₁，B_M作为目标状态S_Term，量化后的攻击图G′中的其余节点作为中间状态S_t，G′中的有向边作为动作A，矩阵R作为学习环境，R_t，j表示在状态S_t下采取动作A_t到达状态S_j的环境反馈值，构建基于Q-learning的网络最优攻击路径预测模型。

优选的，步骤4中所述基于Q-learning的最优攻击路径预测模型的迭代训练方法如下：

S4.1、当前迭代次数为更新周期的整数倍，对行为决策算法π中的贪婪度ε进行更新；

S4.2、在中间状态S_t下，生成随机动作选取概率，根据行为决策算法π选取一个可执行动作A_t，执行可执行动作A_t达到新状态S_new；

S4.3、然后从矩阵R中获取环境反馈值R_t，new，对收益期望Q(S_t，A_ti)进行更新；

S4.4、判断新状态S_new是否到达目标状态S_Term；

新状态S_new没有到达目标状态S_Term，以新状态S_new作为当前状态，并执行S4.1，直至新状态S_new到达目标状态S_Term；

新状态S_new到达目标状态S_Term，令z＝z+1，并重复S4.1直至到达最大迭代次数，得到训练后的网络最优攻击路径预测模型。

优选的，S4.1中贪婪度ε的更新方法如下：

ε＝ε×δ

其中，δ为常数。

优选的，S4.2中行为决策算法如下：

其中，A_ti是决策出的可执行动作。

优选的，S4.3、中收益期望Q(S_t，A_ti)的更新方法如下：

Q(S_t，A_ti)←Q(S_t，A_ti)+α[R_t，new+γmax(Q(S_new，A_new))-Q(S_t，A_ti)]

其中，Q(S_new，A_new)表示状态S_new下执行动作A_new带来的收益期望。

优选的，步骤4中网络最优攻击路径的预测方法如下：

对预测模型中状态-动作的期望进行深度优先遍历，从初始状态S₁开始计算到目标状态S_Term的累积奖励最高的路径，即最优攻击路径。

基于Q-learning的网络最优攻击路径预测方法的系统，包括，

攻击图模块，用于根据网络中的关键信息以及网络环境中的漏洞，构建网络环境的攻击图；

攻击图量化模块，用于采用优化的CVSS通用漏洞评分系统，确定攻击图中每一个漏洞节点的攻击发动指标和攻击成功指标，将攻击成功指标与攻击发动指标赋于攻击图上的两类边，将其作为两类边的边权值，得到量化后的攻击图G′；

预测模型构建模块，将量化后的攻击图作为环境属性，攻击图上的节点作为状态集合，攻击图上的有向边作为动作集合，构建基于Q-learning的最优攻击路径预测模型；

攻击路径预测模块，用于对Q-learning的最优攻击路径预测模型进行迭代训练，根据训练后的最优攻击路径预测模型进行网络最优攻击路径的预测。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供的一种基于Q-learning的网络最优攻击路径预测方法，利用漏洞扫描工具获取网络环境中的漏洞信息，构建网络环境的攻击图；根据提出的漏洞量化规则，从多维度对获取的漏洞进行评分，进而对攻击图进行量化；构建Q-learning的网络最优攻击路径预测模型，将攻击图中的量化信息作为环境反馈值；在攻击图上对基于Q-learning的网络最优攻击路径预测模型进行迭代训练，通过多次迭代自动实现对决策的优化；最终预测出多步攻击场景下的高危攻击路径，解决了现有技术攻击路径预测慢、计算成本高、不能随着网络环境的变化进行动态调整的问题。

进一步，将攻击图量化过程中的攻击发动概率、攻击成功概率作为强化学习过程中的奖励值，在原有CVSS漏洞评分系统上对相应指标值进行调整，重新对各漏洞节点进行评分，并根据漏洞评分与漏洞本身的攻击复杂度计算出各条件节点的评分，考虑了攻击者不同技术水平、攻击图中各节点本身具有的属性，使漏洞的评分更具针对性，与现有技术相比，本发明对攻击图的量化更加精准，提高了后续对攻击图分析的准确性。

进一步，将环境反馈值作为动作选择的依据之一，让主体在环境中随机选取动作进行试探，在奖惩机制思想的指导下完成预测工作，不需要提前训练，与现有技术相比，有利于系统对未知攻击行为预测的尝试与探索，提高了最优攻击路径预测速度，与只考虑最少漏洞数的路径相比，解决了判定依据单一的问题。

进一步，本发明给出了动作随机选择的衰减因子，让主体在环境中随机选取动作的概率随迭代次数的增加而降低，与现有技术相比，本发明兼顾了探索与执行个方面，适应多种不同网络系统动态变化的特点，增强了最优攻击路径预测的时效性，使预测结果具有更高的准确度。

附图说明

图1为本发明基于Q-learning的最优攻击路径预测方法的流程图；

图2为本发明最优攻击路径预测模型的训练流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

参阅图1和2，一种基于Q-learning的网络最优攻击路径预测方法，包括以下步骤：

步骤1，根据网络中的关键信息以及析网络环境中的漏洞，构建网络环境的攻击图。

具体的，将网络中的各主机信息、网络拓扑情况以及脆弱性信息作为关键信息，利用Nessus漏洞扫描工具来分析网络环境中的漏洞，并将采集到的漏洞与关键信息作为MulVAL工具的输入，自动生成攻击图G。

关键信息包括：主机IP地址、主机上开启的服务信息、接口信息、主机间的访问控制策略、主机中存在可被利用的漏洞。

攻击图G中包含N个节点，其中K个攻击节点和M个条件节点，同时，对攻击图G中的节点从1到N进行编号，本示例生成的攻击图,K＝6，M＝7；

步骤2，采用优化的CVSS通用漏洞评分系统，确定攻击图G中每一个漏洞节点V_k的攻击发动指标Lau_k和攻击成功指标Suc_k，将攻击成功指标与攻击发动指标赋于攻击图上的两类边，漏洞节点到条件节点的边权值赋攻击发动指标，条件节点到漏洞节点的边权值为攻击成功指标，将其作为两类边的边权值，得到量化后的攻击图G′；

S2.1、改进CVSS通用漏洞评分系统，对攻击复杂度属性、权限要求、可用性三个属性进行重分配，余下四个属性保留原值，增大攻击复杂度对漏洞评分的影响，由于漏洞权限要求描述攻击者一次成功攻击前所必须拥有的特权级别，攻击图中的条件节点包括了攻击者当前所具备的特权及资源，在该评分系统中对权限要求指标全部设置为常数表示无其他权限需要，对可用性指标也赋为常数，不考虑可用性影响，具体如下表所示；

根据改进后的CVSS迪用漏洞评分系统，计算攻击图G中每一个漏洞节点V_k的攻击发动指标Lau_k和攻击成功指标Suc_k。

攻击发动指标Lau_k计算公式为：

Lau_k＝min(1.08×(P1+P2)，10)

其中，P1＝8.22×AV×AC×PR×UI，P1中AV表示漏洞的攻击向量、AC表示漏洞的攻击复杂度、PR表示漏洞的权限要求、UI表示漏洞的用户交互。

当漏洞的作用域不变时P2＝6.42×ISCbase，当漏洞的作用域改变时P2＝7.25×(ISCbase-0.029)-3.25×(ISCbase-0.02)¹⁵。

所述P2中的ISCbase计算公式为：

ISCbase＝1-(1-C)×(1-I)×(1-A)

在ISCbase中C表示漏洞的机密性影响因子、I表示完整性影响因子、A表示可用性影响因子，AV、AC、PR、UI、C、I、A是每个漏洞所固有的；

攻击成功指标Suc_k的值，根据攻击发动指标Lau_k与漏洞本身的攻击复杂度AC，被分为7大类，通过查寻下表进行取值，攻击发动指标Lau_k越大且攻击复杂度越低，攻击成功指标Suc_k越大；

S2.2、在攻击图G中，对每个节点间的有向边进行量化，令漏洞节点V_k到条件节点B_m的边权值为V_k的攻击成功指标Suc_k，条件节点B_m到漏洞节点V_k的边权值为V_k的攻击发动指标Lau_k，最终得到量化后的攻击图G′；

步骤3，将量化后的攻击图作为环境属性，攻击图上的节点作为状态集合，攻击图上的有向边作为动作集合，构建基于Q-learning的最优攻击路径预测模型。

S3.1、建立N×N的二维数组R，将步骤2得到的量化后的攻击图G′的边权值存在R中得到矩阵R，在量化后的攻击图G′中，若两节点间相互不连通，将R中对应的值取为-1；

S3.2、取条件节点B₁作为初始采样状态S₁，B_M作为目标状态S_Term，G′中的其余节点作为中间状态S_t，其中1≤t≤N，G′中的有向边作为动作A，A_t表示状态S_t下的所有可执行动作，A_ti表示状态S_t下可执行的一个动作，A_ti∈A_t，矩阵R作为学习环境，R_t，j表示在状态S_t下采取动作A_t到达状态S_j的环境反馈值，其中1≤j≤N，构建基于Q-learning的网络最优攻击路径预测模型。

步骤4，对基于Q-learning的最优攻击路径预测模型进行迭代训练：

S4.1、建立N×N的矩阵Q，并初始化矩阵Q为0，Q(S_t，A_ti)表示状态S_t下执行动作A_ti带来的收益期望；

S4.2、设迭代次数为z，最大迭代次数为Z，Z≥10⁶，Z的初始值为0，同时，给定学习率α＝0.8、折扣率γ＝0.9、随机选择衰减因子δ＝0.98、决策算法π中的贪婪度ε＝0.5以及更新周期T＝500；

参照附图2，对最优攻击路径预测模型的训练过程进一步的详细描述。

S4.3、判断当前迭代次数为更新周期整数倍，对行为决策算法π中的贪婪度ε进行更新，即：ε＝ε×δ，否则执行步骤S4.2；

迭代次数的判断公式如下，z÷T＝n，n＝{0，1，…}。

S4.4、在中间状态S_t下，生成随机动作选取概率，根据行为决策算法π选取一个可执行动作A_t，执行可执行动作A_t达到新状态S_new。

然后从矩阵R中获取环境反馈值R_t，new，根据以下公式对收益期望Q(S_t，A_ti)进行更新，公式如下

Q(S_i，A_ti)←Q(S_i，A_ti)+α[R_t，new+γmax(Q(S_new，A_new))-Q(S_i，A_ti)]

其中，Q(S_new，A_new)表示状态S_new下执行动作A_new带来的收益期望；

S4.5、判断新状态S_new是否到达目标状态S_Term；

新状态S_new没有到达目标状态S_Term，以新状态S_new作为当前状态，并执行S4.3，直至新状态S_new到达目标状态S_Term；

新状态S_new到达目标状态S_Term，令z＝z+1，并重复步骤S4.3，直至到达最大迭代次数，本示例中Z＝10⁵，得到训练后的网络最优攻击路径预测模型；

步骤5，根据训练后的基于Q-learning的最优攻击路径预测模型进行网络最优攻击路径的预测。

基于训练后的最优攻击路径预测模型，对矩阵Q进行深度优先遍历，从初始状态S₁开始计算到目标状态S_Term的累积奖励最高的路径,即最优攻击路径。

本发明还提供了一种基于Q-learning的网络最优攻击路径预测方法的系统，包括攻击图模块、攻击图量化模块、攻击图量化模块和攻击路径预测模块；

本发明在攻击者发动最终攻击前，利用漏洞扫描工具获取网络环境中的漏洞信息，并在此基础上生成攻击图，以可视化的形式对所有攻击路径进行展示，根据提出的漏洞量化规则，从多维度对获取的漏洞进行评分，利用强化学习中的奖惩机制，站在攻击者的角度对环境的反馈信息来自动实现对决策的优化，最终预测出多步攻击场景下的最优攻击路径。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，步骤2中，所述CVSS通用漏洞评分系统的优化方法如下：

3.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，步骤2中所述攻击发动指标计算公式为:

Lau_k＝min(1.08×(P1+P2),10)

其中，P1＝8.22×AV×AC×PR×UI，AB表示漏洞的攻击向量、AC表示漏洞的攻击复杂度、PR表示漏洞的权限要求、UI表示漏洞的用户交互；

4.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，步骤3中构建基于Q-learning的最优攻击路径预测模型的方法如下：

5.根据权利要求4所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，步骤4中所述基于Q-learning的最优攻击路径预测模型的迭代训练方法如下：

S4.4、判断新状态S_new是否到达目标状态S_Term；

6.根据权利要求4所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，S4.1中贪婪度ε的更新方法如下：

ε＝ε×δ

其中，δ为常数。

7.根据权利要求6所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，S4.2中行为决策算法如下：

其中，A_ti是决策出的可执行动作。

8.根据权利要求5所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，S4.3、中收益期望Q(S_t，A_ti)的更新方法如下：

Q(S_t，A_ti)←Q(S_l，A_ti)+α[R_t，new+γmax(Q(S_new，A_new))-Q(S_t，A_ti)]

9.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，步骤4中网络最优攻击路径的预测方法如下：

10.一种执行权利要求1-9任一项所述的基于Q-learning的网络最优攻击路径预测方法的系统，其特征在于，包括，