CN116112278A - 基于Q-learning的网络最优攻击路径预测方法及系统 - Google Patents

基于Q-learning的网络最优攻击路径预测方法及系统 Download PDF

Info

Publication number
CN116112278A
CN116112278A CN202310132460.9A CN202310132460A CN116112278A CN 116112278 A CN116112278 A CN 116112278A CN 202310132460 A CN202310132460 A CN 202310132460A CN 116112278 A CN116112278 A CN 116112278A
Authority
CN
China
Prior art keywords
attack
learning
network
new
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310132460.9A
Other languages
English (en)
Inventor
李腾
廖艾
王佳欣
于润泽
马卓
卢知雨
何彦武
张俊伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310132460.9A priority Critical patent/CN116112278A/zh
Publication of CN116112278A publication Critical patent/CN116112278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于Q‑learning的网络最优攻击路径预测方法及系统,利用漏洞扫描工具获取网络环境中的漏洞信息,构建网络环境的攻击图;根据提出的漏洞量化规则,从多维度对获取的漏洞进行评分,进而对攻击图进行量化;构建Q‑learning的网络最优攻击路径预测模型,将攻击图中的量化信息作为环境反馈值;在攻击图上对基于Q‑learning的网络最优攻击路径预测模型进行迭代训练,通过多次迭代自动实现对决策的优化;最终预测出多步攻击场景下的高危攻击路径,主要解决现有技术攻击路径预测慢、计算成本高、不能随着网络环境的变化进行动态调整的问题,可用于高校和企业网络等场景。

Description

基于Q-learning的网络最优攻击路径预测方法及系统
技术领域
本发明涉及网络安全技术领域,可用于高校、企业网络等领域,具体为一种基于Q-learning的最优攻击路径预测方法及系统。
背景技术
随着互联网的迅速发展,网络流量激增,国内外网络攻击事件频发。攻击者为谋求利益铤而走险,导致了网络设备资源的恶意侵占,隐私数据的泄漏、篡改。在众多攻击方式中,多步攻击是目前主流的攻击之一。不同于单步攻击,多步攻击更为复杂,攻击者往往采取多条攻击路径,攻击一旦发生将对网络系统造成不可逆的损坏。随着网络规模逐渐扩大,在紧急情况下追踪每一条攻击路径,系统防御系统不能及时给出最优的修复建议。不同于普通的攻击路径,最优攻击路径是多步攻击场景下,攻击者最可能采取的一条攻击路。通过最优攻击路径,攻击者能以较低的攻击成本和高攻击回报抵达攻击目标。在网络系统崩溃前预测出最优攻击路径,能起到未雨绸缪的作用。网络攻击的预测,一般由网络环境信息采集、攻击场景建模、攻击场景分析三阶段构成。攻击图是研究网络环境脆弱性的有力工具,能展示攻击者可能采取的所有攻击路径,十分适用于攻击场景的建模。强化学习可以通过行为的价值来选取特定行为,依据奖惩机制不断试探,在迭代多次后最终得到一组最优动作以最大化累计回报。
申请公布号为CN112804208A,名称为“一种基于攻击者特性指标的网络攻击路径预测方法”的专利申请,该方法从攻击者的角度出发,结合攻击图和隐马尔可夫模型,提出网络攻击路径的量化指标来体现不同意图的攻击者对于最优攻击路径选取的不同;并基于量化指标对攻击图中的攻击路径进行量化和分析,更加有效地描述网络攻防场景;最后,通过将每一条攻击路径上所有漏洞的攻击成本、攻击收益及攻击利润分别相加,得到整条攻击路径的攻击总成本、攻击总获利以及攻击总利润,通过比较各个攻击路径的指标值,从而更加准确地找到攻击者可能攻击的风险较大的一条或多条攻击路径。但是,该发明仅考虑攻击图中的漏洞节点,没有考虑其中的条件节点,这对路径预测的准确性带来了影响。同时,该方法每次预测都需要先计算出所有的攻击路径,这造成了不必要的计算成本,从而降低了攻击路径的预测速度。
又如申请公布号为CN111683080A,名称为“一种高危攻击路径动态预测及修复系统与方法”,公开了一种基于累积概率值的高危路径预测方法,该方法使用改进的CVSS评分策略和专家知识库估计各攻击节点的攻击发动概率、攻击成功概率以及安全监测点的置信度,得到概率攻击图,最终通过最大概率攻击路径预测算法得到高危攻击路径。同时,该发明以系统日志与安全监测点报警信息作为数据源建立起Gompertz数学模型,动态反映了每一个攻击及其所在路径的利用概率随时间变化的特性。该方法虽然考虑到每个攻击随时间变化的特性以增加路径预测的准确性,但采用的路径选择算法是以广度优先的思想对图进行遍历,这降低了攻击路径的预测速度。
发明内容
针对现有技术中存在的问题,本发明提供一种基于Q-learning的最优攻击路径预测方法及系统,解决了现有方法预测速度慢,且不能随着网络环境的变化进行动态调整的问题。
本发明是通过以下技术方案来实现:
一种基于Q-learning的网络最优攻击路径预测方法,包括以下步骤:
步骤1,根据网络中的关键信息以及网络环境中的漏洞,构建网络环境的攻击图;
步骤2,采用优化的CVSS通用漏洞评分系统,确定攻击图中每一个漏洞节点的攻击发动指标和攻击成功指标,将攻击成功指标与攻击发动指标赋于攻击图上的两类边,将其作为两类边的边权值,得到量化后的攻击图G′;
步骤3,将量化后的攻击图作为环境属性,攻击图上的节点作为状态集合,攻击图上的有向边作为动作集合,构建基于Q-learning的最优攻击路径预测模型;
步骤4,对Q-learning的最优攻击路径预测模型进行迭代训练,根据训练后的最优攻击路径预测模型进行网络最优攻击路径的预测。
优选的,步骤2中,所述CVSS通用漏洞评分系统的优化方法如下:
增加CVSS通用漏洞评分系统中攻击复杂度属性、权限要求和可用性的权重,剩余属性保持不变。
优选的,步骤2中所述攻击发动指标计算公式为:
Lauk=min(1.08×(P1+P2),10)
其中,P1=8.22×AV×AC×PR×UI,AV表示漏洞的攻击向量、AC表示漏洞的攻击复杂度、PR表示漏洞的权限要求、UI表示漏洞的用户交互;
所述攻击成功指标Suck根据攻击发动指标Lauk与漏洞本身的攻击复杂度AC,确定。
优选的,步骤3中构建基于Q-learning的最优攻击路径预测模型的方法如下:
S3.1、建立N×N的二维数组R,将步骤2得到的量化后的攻击图G′的边权值存在二维数组R中得到矩阵R,在量化后的攻击图G′中,若两节点间相互不连通,将R中对应的值取为-1;
S3.2、取条件节点B1作为初始采样状态S1,BM作为目标状态STerm,量化后的攻击图G′中的其余节点作为中间状态St,G′中的有向边作为动作A,矩阵R作为学习环境,Rt,j表示在状态St下采取动作At到达状态Sj的环境反馈值,构建基于Q-learning的网络最优攻击路径预测模型。
优选的,步骤4中所述基于Q-learning的最优攻击路径预测模型的迭代训练方法如下:
S4.1、当前迭代次数为更新周期的整数倍,对行为决策算法π中的贪婪度ε进行更新;
S4.2、在中间状态St下,生成随机动作选取概率,根据行为决策算法π选取一个可执行动作At,执行可执行动作At达到新状态Snew
S4.3、然后从矩阵R中获取环境反馈值Rt,new,对收益期望Q(St,Ati)进行更新;
S4.4、判断新状态Snew是否到达目标状态STerm
新状态Snew没有到达目标状态STerm,以新状态Snew作为当前状态,并执行S4.1,直至新状态Snew到达目标状态STerm
新状态Snew到达目标状态STerm,令z=z+1,并重复S4.1直至到达最大迭代次数,得到训练后的网络最优攻击路径预测模型。
优选的,S4.1中贪婪度ε的更新方法如下:
ε=ε×δ
其中,δ为常数。
优选的,S4.2中行为决策算法如下:
Figure BDA0004084535300000041
其中,Ati是决策出的可执行动作。
优选的,S4.3、中收益期望Q(St,Ati)的更新方法如下:
Q(St,Ati)←Q(St,Ati)+α[Rt,new+γmax(Q(Snew,Anew))-Q(St,Ati)]
其中,Q(Snew,Anew)表示状态Snew下执行动作Anew带来的收益期望。
优选的,步骤4中网络最优攻击路径的预测方法如下:
对预测模型中状态-动作的期望进行深度优先遍历,从初始状态S1开始计算到目标状态STerm的累积奖励最高的路径,即最优攻击路径。
基于Q-learning的网络最优攻击路径预测方法的系统,包括,
攻击图模块,用于根据网络中的关键信息以及网络环境中的漏洞,构建网络环境的攻击图;
攻击图量化模块,用于采用优化的CVSS通用漏洞评分系统,确定攻击图中每一个漏洞节点的攻击发动指标和攻击成功指标,将攻击成功指标与攻击发动指标赋于攻击图上的两类边,将其作为两类边的边权值,得到量化后的攻击图G′;
预测模型构建模块,将量化后的攻击图作为环境属性,攻击图上的节点作为状态集合,攻击图上的有向边作为动作集合,构建基于Q-learning的最优攻击路径预测模型;
攻击路径预测模块,用于对Q-learning的最优攻击路径预测模型进行迭代训练,根据训练后的最优攻击路径预测模型进行网络最优攻击路径的预测。
与现有技术相比,本发明具有以下有益的技术效果:
本发明提供的一种基于Q-learning的网络最优攻击路径预测方法,利用漏洞扫描工具获取网络环境中的漏洞信息,构建网络环境的攻击图;根据提出的漏洞量化规则,从多维度对获取的漏洞进行评分,进而对攻击图进行量化;构建Q-learning的网络最优攻击路径预测模型,将攻击图中的量化信息作为环境反馈值;在攻击图上对基于Q-learning的网络最优攻击路径预测模型进行迭代训练,通过多次迭代自动实现对决策的优化;最终预测出多步攻击场景下的高危攻击路径,解决了现有技术攻击路径预测慢、计算成本高、不能随着网络环境的变化进行动态调整的问题。
进一步,将攻击图量化过程中的攻击发动概率、攻击成功概率作为强化学习过程中的奖励值,在原有CVSS漏洞评分系统上对相应指标值进行调整,重新对各漏洞节点进行评分,并根据漏洞评分与漏洞本身的攻击复杂度计算出各条件节点的评分,考虑了攻击者不同技术水平、攻击图中各节点本身具有的属性,使漏洞的评分更具针对性,与现有技术相比,本发明对攻击图的量化更加精准,提高了后续对攻击图分析的准确性。
进一步,将环境反馈值作为动作选择的依据之一,让主体在环境中随机选取动作进行试探,在奖惩机制思想的指导下完成预测工作,不需要提前训练,与现有技术相比,有利于系统对未知攻击行为预测的尝试与探索,提高了最优攻击路径预测速度,与只考虑最少漏洞数的路径相比,解决了判定依据单一的问题。
进一步,本发明给出了动作随机选择的衰减因子,让主体在环境中随机选取动作的概率随迭代次数的增加而降低,与现有技术相比,本发明兼顾了探索与执行个方面,适应多种不同网络系统动态变化的特点,增强了最优攻击路径预测的时效性,使预测结果具有更高的准确度。
附图说明
图1为本发明基于Q-learning的最优攻击路径预测方法的流程图;
图2为本发明最优攻击路径预测模型的训练流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
参阅图1和2,一种基于Q-learning的网络最优攻击路径预测方法,包括以下步骤:
步骤1,根据网络中的关键信息以及析网络环境中的漏洞,构建网络环境的攻击图。
具体的,将网络中的各主机信息、网络拓扑情况以及脆弱性信息作为关键信息,利用Nessus漏洞扫描工具来分析网络环境中的漏洞,并将采集到的漏洞与关键信息作为MulVAL工具的输入,自动生成攻击图G。
关键信息包括:主机IP地址、主机上开启的服务信息、接口信息、主机间的访问控制策略、主机中存在可被利用的漏洞。
攻击图G中包含N个节点,其中K个攻击节点和M个条件节点,同时,对攻击图G中的节点从1到N进行编号,本示例生成的攻击图,K=6,M=7;
步骤2,采用优化的CVSS通用漏洞评分系统,确定攻击图G中每一个漏洞节点Vk的攻击发动指标Lauk和攻击成功指标Suck,将攻击成功指标与攻击发动指标赋于攻击图上的两类边,漏洞节点到条件节点的边权值赋攻击发动指标,条件节点到漏洞节点的边权值为攻击成功指标,将其作为两类边的边权值,得到量化后的攻击图G′;
S2.1、改进CVSS通用漏洞评分系统,对攻击复杂度属性、权限要求、可用性三个属性进行重分配,余下四个属性保留原值,增大攻击复杂度对漏洞评分的影响,由于漏洞权限要求描述攻击者一次成功攻击前所必须拥有的特权级别,攻击图中的条件节点包括了攻击者当前所具备的特权及资源,在该评分系统中对权限要求指标全部设置为常数表示无其他权限需要,对可用性指标也赋为常数,不考虑可用性影响,具体如下表所示;
Figure BDA0004084535300000071
根据改进后的CVSS迪用漏洞评分系统,计算攻击图G中每一个漏洞节点Vk的攻击发动指标Lauk和攻击成功指标Suck
攻击发动指标Lauk计算公式为:
Lauk=min(1.08×(P1+P2),10)
其中,P1=8.22×AV×AC×PR×UI,P1中AV表示漏洞的攻击向量、AC表示漏洞的攻击复杂度、PR表示漏洞的权限要求、UI表示漏洞的用户交互。
当漏洞的作用域不变时P2=6.42×ISCbase,当漏洞的作用域改变时P2=7.25×(ISCbase-0.029)-3.25×(ISCbase-0.02)15
所述P2中的ISCbase计算公式为:
ISCbase=1-(1-C)×(1-I)×(1-A)
在ISCbase中C表示漏洞的机密性影响因子、I表示完整性影响因子、A表示可用性影响因子,AV、AC、PR、UI、C、I、A是每个漏洞所固有的;
攻击成功指标Suck的值,根据攻击发动指标Lauk与漏洞本身的攻击复杂度AC,被分为7大类,通过查寻下表进行取值,攻击发动指标Lauk越大且攻击复杂度越低,攻击成功指标Suck越大;
Figure BDA0004084535300000081
S2.2、在攻击图G中,对每个节点间的有向边进行量化,令漏洞节点Vk到条件节点Bm的边权值为Vk的攻击成功指标Suck,条件节点Bm到漏洞节点Vk的边权值为Vk的攻击发动指标Lauk,最终得到量化后的攻击图G′;
步骤3,将量化后的攻击图作为环境属性,攻击图上的节点作为状态集合,攻击图上的有向边作为动作集合,构建基于Q-learning的最优攻击路径预测模型。
S3.1、建立N×N的二维数组R,将步骤2得到的量化后的攻击图G′的边权值存在R中得到矩阵R,在量化后的攻击图G′中,若两节点间相互不连通,将R中对应的值取为-1;
S3.2、取条件节点B1作为初始采样状态S1,BM作为目标状态STerm,G′中的其余节点作为中间状态St,其中1≤t≤N,G′中的有向边作为动作A,At表示状态St下的所有可执行动作,Ati表示状态St下可执行的一个动作,Ati∈At,矩阵R作为学习环境,Rt,j表示在状态St下采取动作At到达状态Sj的环境反馈值,其中1≤j≤N,构建基于Q-learning的网络最优攻击路径预测模型。
步骤4,对基于Q-learning的最优攻击路径预测模型进行迭代训练:
S4.1、建立N×N的矩阵Q,并初始化矩阵Q为0,Q(St,Ati)表示状态St下执行动作Ati带来的收益期望;
S4.2、设迭代次数为z,最大迭代次数为Z,Z≥106,Z的初始值为0,同时,给定学习率α=0.8、折扣率γ=0.9、随机选择衰减因子δ=0.98、决策算法π中的贪婪度ε=0.5以及更新周期T=500;
参照附图2,对最优攻击路径预测模型的训练过程进一步的详细描述。
S4.3、判断当前迭代次数为更新周期整数倍,对行为决策算法π中的贪婪度ε进行更新,即:ε=ε×δ,否则执行步骤S4.2;
迭代次数的判断公式如下,z÷T=n,n={0,1,…}。
S4.4、在中间状态St下,生成随机动作选取概率,根据行为决策算法π选取一个可执行动作At,执行可执行动作At达到新状态Snew
Figure BDA0004084535300000091
然后从矩阵R中获取环境反馈值Rt,new,根据以下公式对收益期望Q(St,Ati)进行更新,公式如下
Q(Si,Ati)←Q(Si,Ati)+α[Rt,new+γmax(Q(Snew,Anew))-Q(Si,Ati)]
其中,Q(Snew,Anew)表示状态Snew下执行动作Anew带来的收益期望;
S4.5、判断新状态Snew是否到达目标状态STerm
新状态Snew没有到达目标状态STerm,以新状态Snew作为当前状态,并执行S4.3,直至新状态Snew到达目标状态STerm
新状态Snew到达目标状态STerm,令z=z+1,并重复步骤S4.3,直至到达最大迭代次数,本示例中Z=105,得到训练后的网络最优攻击路径预测模型;
步骤5,根据训练后的基于Q-learning的最优攻击路径预测模型进行网络最优攻击路径的预测。
基于训练后的最优攻击路径预测模型,对矩阵Q进行深度优先遍历,从初始状态S1开始计算到目标状态STerm的累积奖励最高的路径,即最优攻击路径。
本发明还提供了一种基于Q-learning的网络最优攻击路径预测方法的系统,包括攻击图模块、攻击图量化模块、攻击图量化模块和攻击路径预测模块;
攻击图模块,用于根据网络中的关键信息以及网络环境中的漏洞,构建网络环境的攻击图;
攻击图量化模块,用于采用优化的CVSS通用漏洞评分系统,确定攻击图中每一个漏洞节点的攻击发动指标和攻击成功指标,将攻击成功指标与攻击发动指标赋于攻击图上的两类边,将其作为两类边的边权值,得到量化后的攻击图G′;
预测模型构建模块,将量化后的攻击图作为环境属性,攻击图上的节点作为状态集合,攻击图上的有向边作为动作集合,构建基于Q-learning的最优攻击路径预测模型;
攻击路径预测模块,用于对Q-learning的最优攻击路径预测模型进行迭代训练,根据训练后的最优攻击路径预测模型进行网络最优攻击路径的预测。
本发明在攻击者发动最终攻击前,利用漏洞扫描工具获取网络环境中的漏洞信息,并在此基础上生成攻击图,以可视化的形式对所有攻击路径进行展示,根据提出的漏洞量化规则,从多维度对获取的漏洞进行评分,利用强化学习中的奖惩机制,站在攻击者的角度对环境的反馈信息来自动实现对决策的优化,最终预测出多步攻击场景下的最优攻击路径。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,包括以下步骤:
步骤1,根据网络中的关键信息以及网络环境中的漏洞,构建网络环境的攻击图;
步骤2,采用优化的CVSS通用漏洞评分系统,确定攻击图中每一个漏洞节点的攻击发动指标和攻击成功指标,将攻击成功指标与攻击发动指标赋于攻击图上的两类边,将其作为两类边的边权值,得到量化后的攻击图G′;
步骤3,将量化后的攻击图作为环境属性,攻击图上的节点作为状态集合,攻击图上的有向边作为动作集合,构建基于Q-learning的最优攻击路径预测模型;
步骤4,对Q-learning的最优攻击路径预测模型进行迭代训练,根据训练后的最优攻击路径预测模型进行网络最优攻击路径的预测。
2.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,步骤2中,所述CVSS通用漏洞评分系统的优化方法如下:
增加CVSS通用漏洞评分系统中攻击复杂度属性、权限要求和可用性的权重,剩余属性保持不变。
3.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,步骤2中所述攻击发动指标计算公式为:
Lauk=min(1.08×(P1+P2),10)
其中,P1=8.22×AV×AC×PR×UI,AB表示漏洞的攻击向量、AC表示漏洞的攻击复杂度、PR表示漏洞的权限要求、UI表示漏洞的用户交互;
所述攻击成功指标Suck根据攻击发动指标Lauk与漏洞本身的攻击复杂度AC,确定。
4.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,步骤3中构建基于Q-learning的最优攻击路径预测模型的方法如下:
S3.1、建立N×N的二维数组R,将步骤2得到的量化后的攻击图G′的边权值存在二维数组R中得到矩阵R,在量化后的攻击图G′中,若两节点间相互不连通,将R中对应的值取为-1;
S3.2、取条件节点B1作为初始采样状态S1,BM作为目标状态STerm,量化后的攻击图G′中的其余节点作为中间状态St,G′中的有向边作为动作A,矩阵R作为学习环境,Rt,j表示在状态St下采取动作At到达状态Sj的环境反馈值,构建基于Q-learning的网络最优攻击路径预测模型。
5.根据权利要求4所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,步骤4中所述基于Q-learning的最优攻击路径预测模型的迭代训练方法如下:
S4.1、当前迭代次数为更新周期的整数倍,对行为决策算法π中的贪婪度ε进行更新;
S4.2、在中间状态St下,生成随机动作选取概率,根据行为决策算法π选取一个可执行动作At,执行可执行动作At达到新状态Snew
S4.3、然后从矩阵R中获取环境反馈值Rt,new,对收益期望Q(St,Ati)进行更新;
S4.4、判断新状态Snew是否到达目标状态STerm
新状态Snew没有到达目标状态STerm,以新状态Snew作为当前状态,并执行S4.1,直至新状态Snew到达目标状态STerm
新状态Snew到达目标状态STerm,令z=z+1,并重复S4.1直至到达最大迭代次数,得到训练后的网络最优攻击路径预测模型。
6.根据权利要求4所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,S4.1中贪婪度ε的更新方法如下:
ε=ε×δ
其中,δ为常数。
7.根据权利要求6所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,S4.2中行为决策算法如下:
Figure FDA0004084535290000031
其中,Ati是决策出的可执行动作。
8.根据权利要求5所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,S4.3、中收益期望Q(St,Ati)的更新方法如下:
Q(St,Ati)←Q(Sl,Ati)+α[Rt,new+γmax(Q(Snew,Anew))-Q(St,Ati)]
其中,Q(Snew,Anew)表示状态Snew下执行动作Anew带来的收益期望。
9.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,步骤4中网络最优攻击路径的预测方法如下:
对预测模型中状态-动作的期望进行深度优先遍历,从初始状态S1开始计算到目标状态STerm的累积奖励最高的路径,即最优攻击路径。
10.一种执行权利要求1-9任一项所述的基于Q-learning的网络最优攻击路径预测方法的系统,其特征在于,包括,
攻击图模块,用于根据网络中的关键信息以及网络环境中的漏洞,构建网络环境的攻击图;
攻击图量化模块,用于采用优化的CVSS通用漏洞评分系统,确定攻击图中每一个漏洞节点的攻击发动指标和攻击成功指标,将攻击成功指标与攻击发动指标赋于攻击图上的两类边,将其作为两类边的边权值,得到量化后的攻击图G′;
预测模型构建模块,将量化后的攻击图作为环境属性,攻击图上的节点作为状态集合,攻击图上的有向边作为动作集合,构建基于Q-learning的最优攻击路径预测模型;
攻击路径预测模块,用于对Q-learning的最优攻击路径预测模型进行迭代训练,根据训练后的最优攻击路径预测模型进行网络最优攻击路径的预测。
CN202310132460.9A 2023-02-17 2023-02-17 基于Q-learning的网络最优攻击路径预测方法及系统 Pending CN116112278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310132460.9A CN116112278A (zh) 2023-02-17 2023-02-17 基于Q-learning的网络最优攻击路径预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310132460.9A CN116112278A (zh) 2023-02-17 2023-02-17 基于Q-learning的网络最优攻击路径预测方法及系统

Publications (1)

Publication Number Publication Date
CN116112278A true CN116112278A (zh) 2023-05-12

Family

ID=86257897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310132460.9A Pending CN116112278A (zh) 2023-02-17 2023-02-17 基于Q-learning的网络最优攻击路径预测方法及系统

Country Status (1)

Country Link
CN (1) CN116112278A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116405323A (zh) * 2023-06-05 2023-07-07 拓尔思天行网安信息技术有限责任公司 安全态势感知攻击预测方法、装置、设备、介质及产品
CN116541006A (zh) * 2023-06-28 2023-08-04 壹仟零壹艺网络科技(北京)有限公司 一种计算机人机交互界面的图形处理方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106657144A (zh) * 2017-01-20 2017-05-10 北京理工大学 一种基于增强学习的动态保护路径规划方法
KR20180007832A (ko) * 2016-07-14 2018-01-24 국방과학연구소 네트워크 도달 가능성 기반의 자동화된 침투 경로 예측 장치 및 방법
KR102079687B1 (ko) * 2019-07-12 2020-02-20 한화시스템(주) 공격 그래프 기반의 사이버 위협 예측 시스템 및 그 방법
CN111683080A (zh) * 2020-06-03 2020-09-18 西安电子科技大学 一种高危攻击路径动态预测及修复系统与方法
JP2020155098A (ja) * 2019-03-22 2020-09-24 株式会社日立製作所 コンピュータネットワークにおける攻撃経路を予測するための方法およびシステム
CN112311780A (zh) * 2020-10-23 2021-02-02 国网吉林省电力有限公司电力科学研究院 一种基于多维度攻击路径与攻击图的生成方法
CN113660241A (zh) * 2021-08-11 2021-11-16 中电积至(海南)信息技术有限公司 一种基于深度强化学习的自动化渗透测试方法
CN115174263A (zh) * 2022-08-03 2022-10-11 中国电子科技集团公司信息科学研究院 攻击路径动态决策方法与装置
CN115580430A (zh) * 2022-08-31 2023-01-06 浙江工业大学 一种基于深度强化学习的攻击树蜜罐部署防御方法与装置
EP4124975A1 (en) * 2021-07-28 2023-02-01 Accenture Global Solutions Limited Discovering cyber-attack process model based on analytical attack graphs

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180007832A (ko) * 2016-07-14 2018-01-24 국방과학연구소 네트워크 도달 가능성 기반의 자동화된 침투 경로 예측 장치 및 방법
CN106657144A (zh) * 2017-01-20 2017-05-10 北京理工大学 一种基于增强学习的动态保护路径规划方法
JP2020155098A (ja) * 2019-03-22 2020-09-24 株式会社日立製作所 コンピュータネットワークにおける攻撃経路を予測するための方法およびシステム
KR102079687B1 (ko) * 2019-07-12 2020-02-20 한화시스템(주) 공격 그래프 기반의 사이버 위협 예측 시스템 및 그 방법
CN111683080A (zh) * 2020-06-03 2020-09-18 西安电子科技大学 一种高危攻击路径动态预测及修复系统与方法
CN112311780A (zh) * 2020-10-23 2021-02-02 国网吉林省电力有限公司电力科学研究院 一种基于多维度攻击路径与攻击图的生成方法
EP4124975A1 (en) * 2021-07-28 2023-02-01 Accenture Global Solutions Limited Discovering cyber-attack process model based on analytical attack graphs
CN113660241A (zh) * 2021-08-11 2021-11-16 中电积至(海南)信息技术有限公司 一种基于深度强化学习的自动化渗透测试方法
CN115174263A (zh) * 2022-08-03 2022-10-11 中国电子科技集团公司信息科学研究院 攻击路径动态决策方法与装置
CN115580430A (zh) * 2022-08-31 2023-01-06 浙江工业大学 一种基于深度强化学习的攻击树蜜罐部署防御方法与装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MARJAN KERAMATI等: "CVSS-based security metrics for quantitative analysis of attack graphs", 《ICCKE 2013》, 16 December 2013 (2013-12-16) *
TENG LI等: "DeepAG: Attack Graph Construction and Threats Prediction With Bi-Directional Deep Learning", 《IEEE TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING》, 18 January 2022 (2022-01-18) *
李凯江: "基于Q-learning机制的网络安全动态防御研究", 《万方学术论文数据库》, 18 December 2018 (2018-12-18) *
李腾等: "应用Q学习决策的最优攻击路径生成方法", 《西安电子科技大学学报》, vol. 48, no. 1, 30 October 2020 (2020-10-30) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116405323A (zh) * 2023-06-05 2023-07-07 拓尔思天行网安信息技术有限责任公司 安全态势感知攻击预测方法、装置、设备、介质及产品
CN116405323B (zh) * 2023-06-05 2023-09-22 拓尔思天行网安信息技术有限责任公司 安全态势感知攻击预测方法、装置、设备、介质及产品
CN116541006A (zh) * 2023-06-28 2023-08-04 壹仟零壹艺网络科技(北京)有限公司 一种计算机人机交互界面的图形处理方法和装置
CN116541006B (zh) * 2023-06-28 2024-01-26 壹仟零壹艺网络科技(北京)有限公司 一种计算机人机交互界面的图形处理方法和装置

Similar Documents

Publication Publication Date Title
Hu et al. Automated penetration testing using deep reinforcement learning
CN116112278A (zh) 基于Q-learning的网络最优攻击路径预测方法及系统
Abraham et al. Cyber security analytics: a stochastic model for security quantification using absorbing markov chains
Ryan et al. Quantifying information security risks using expert judgment elicitation
CN107135224A (zh) 基于Markov演化博弈的网络防御策略选取方法及其装置
Doynikova et al. CVSS-based probabilistic risk assessment for cyber situational awareness and countermeasure selection
Zhou et al. NIG-AP: A new method for automated penetration testing
Hu et al. Adaptive cyber defense against multi-stage attacks using learning-based POMDP
US11765196B2 (en) Attack scenario simulation device, attack scenario generation system, and attack scenario generation method
Huang et al. Markov differential game for network defense decision-making method
CN113452699B (zh) 基于配置文件的跳板攻击路径分析方法
Hadar et al. Cyber digital twin simulator for automatic gathering and prioritization of security controls’ requirements
Li et al. Network security situation assessment method based on Markov game model
Barth et al. A learning-based approach to reactive security
Hasanabadi et al. A survey and research challenges of anti-forensics: Evaluation of game-theoretic models in simulation of forensic agents’ behaviour
CN114844701A (zh) 一种基于贝叶斯攻击图的网络入侵意图分析方法
Dehghan et al. Proapt: Projection of apt threats with deep reinforcement learning
CN114726620A (zh) 一种基于贝叶斯攻击图的sdn攻击意图分析方法
Lagerström et al. Automatic design of secure enterprise architecture: Work in progress paper
Moskal et al. Simulating attack behaviors in enterprise networks
Ye et al. Reinforcement unlearning
Grant Speeding up planning of cyber attacks using AI techniques: State of the art
Gollmann From Insider Threats to Business Processes that are Secure-by-Design.
Kryukov et al. Security analysis of information systems based on attack sequences generation and testing
Koutiva et al. An Agent-Based Modelling approach to assess risk in Cyber-Physical Systems (CPS)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination