CN116582349A

CN116582349A - 基于网络攻击图的攻击路径预测模型生成方法及装置

Info

Publication number: CN116582349A
Application number: CN202310683222.7A
Authority: CN
Inventors: 季振洲; 马瑞琳; 王鹤儒; 谢玮勋; 张立钊; 王开宇; 孔胜嵩; 刘华赞; 黎凯凯
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-08-11

Abstract

本申请公开了一种基于网络攻击图的攻击路径预测模型生成方法及装置，涉及工控安全技术领域，通过获取工控网络数据和国家漏洞数据库的漏洞数据生成整个工控网络的网络漏洞信息，根据网络漏洞信息生成工控网络各个区域的网络攻击图，从网络攻击图中提取攻防方博弈对抗训练所需要的信息并进行对抗训练，得到攻击路径选择概率，根据攻击路径选择概率量化网络攻击图有向边的权值，根据网络攻击图和网络漏洞信息计算漏洞可利用率，根据漏洞可利用率量化网络攻击图节点的权值，根据量化后的网络攻击图，使用DDQN算法和联邦学习算法训练得到整个工控网络的攻击路径预测模型，解决了规模较大的网络结构下的攻击路径预测问题。

Description

基于网络攻击图的攻击路径预测模型生成方法及装置

技术领域

本申请涉及工控安全技术领域，具体涉及一种基于网络攻击图的攻击路径预测模型生成方法及装置。

背景技术

随着信息化和工业化结合的不断发展，原本封闭的工控网络变得开放起来，在开放的工控网络环境下，工控网络的功能和生产效率都得到了提高，但是也面临着许多安全问题。到目前为止，工控安全问题愈发突出，所以针对工控网络安全问题的预警方法对于解决工控网络安全问题有重要意义。

网络的脆弱性评价是一种在攻击发生前就能进行防范的方法，是由黑客攻防技术发展而来的，通过获取系统可能的行为和状态，并以此为基础进行分析和计算，其中，网络攻击图技术是网络脆弱性评价的重要手段。

但是，目前工控安全领域还是面临以下挑战：

一、随着工控网络环境与外界连通性不断增强，工控网络的安全隐患也越来越引起人们的注意；

二、工控网络对于网络攻击的处理要求为高精度和低时延，为满足工控网络对攻击应对的要求，不能直接照搬互联网攻击的应对方法；

三、对于工控网络上发生的多步攻击，由于其隐蔽性和复杂性，对于大多数的防御策略来说很难应对；

四、工控网络的攻击预测方法往往在大规模的网络环境下性能较差，而生成大规模网络的攻击图耗时长，效果较差；

五、目前普遍所采取的贝叶斯攻击图对攻击路径进行预测的方法，是根据漏洞的评分以及漏洞间的关联关系来计算攻击路径的概率，没有考虑到工控网络上过去曾经发生的攻击，以及在攻防方博弈过程中，攻击者对攻击路径可能做的调整，这些信息对攻击路径的预测也有参考价值。

综上可知，在工控安全领域如何在已知工控网络中对可能发生攻击进行预测；如何在已知工控网络中提高获取漏洞可利用率的准确性；如何对漏洞间的关联关系进行分析；如何在未受到网络攻击的情况下对漏洞信息和漏洞间关系进行合理预测；如何解决生成大规模网络的攻击图时效率低下的问题；如何对更加隐蔽，难以应对的多步攻击进行分析和预测；如何综合网络结构、漏洞可利用率以及历史攻击数据等信息对可能发生攻击的攻击路径进行合理预测；如何解决规模较大的网络结构下的攻击路径预测问题成为了本领域技术人员亟待解决的问题。

发明内容

为此，本申请提供一种基于网络攻击图的攻击路径预测模型生成方法及装置，以解决现有技术存在的在规模较大的工控网络结构下难以对可能发生攻击的攻击路径进行预测的问题，本申请提供如下技术方案：

第一方面，一种基于网络攻击图的攻击路径预测模型生成方法，包括：

步骤1：获取工控网络数据和国家漏洞数据库的漏洞数据，根据所述工控网络数据和所述漏洞数据生成整个工控网络的网络漏洞信息；

步骤2：根据所述网络漏洞信息生成工控网络各个区域的网络攻击图；

步骤3：从所述网络攻击图中提取攻防方博弈对抗训练所需要的信息，并根据提取的信息进行对抗训练，得到攻击路径选择概率；

步骤4：根据所述攻击路径选择概率量化所述网络攻击图有向边的权值；

步骤5：根据所述网络攻击图和所述网络漏洞信息计算漏洞可利用率；

步骤6：根据所述漏洞可利用率量化所述网络攻击图节点的权值；

步骤7：根据量化后的所述网络攻击图，使用DDQN算法和联邦学习算法训练得到整个工控网络的攻击路径预测模型。

进一步的，所述步骤2中的网络攻击图是利用MulVAL生成的。

进一步的，所述步骤2中的网络攻击图是利用贝叶斯攻击图生成算法生成的无权贝叶斯攻击图。

进一步的，所述步骤3中根据提取的信息进行对抗训练，具体包括：

步骤301：攻击方和防御方检测当前时刻的网络状态；

步骤302：攻击方和防御方根据各自预期的策略收益函数，依次实施各自的攻防策略；

步骤303：攻击方和防御方计算各自的实际收益；

步骤304：网络系统进入下一个安全状态；

步骤305：重复执行步骤301至步骤304，直到攻防达到平衡状态。

进一步的，所述步骤5中的漏洞可利用率是根据直接漏洞可利用率、历史漏洞可利用率和推荐漏洞可利用率计算得到的。

进一步的，所述步骤7中攻击路径预测模型的初始模型为马尔可夫决策模型。

进一步的，所述步骤7中联邦学习算法为联邦平均算法。

第二方面，一种基于网络攻击图的攻击路径预测模型生成装置，包括：

网络漏洞信息获取模块，用于获取工控网络数据和国家漏洞数据库的漏洞数据，根据所述工控网络数据和所述漏洞数据生成整个工控网络的网络漏洞信息；

攻击图生成模块，用于根据所述网络漏洞信息生成工控网络各个区域的网络攻击图；

攻防方博弈对抗训练模块，用于从所述网络攻击图中提取攻防方博弈对抗训练所需要的信息，并根据提取的信息进行对抗训练，得到攻击路径选择概率；

以及根据所述攻击路径选择概率量化所述网络攻击图有向边的权值；

漏洞可利用率评估模块，用于根据所述网络攻击图和所述网络漏洞信息计算漏洞可利用率；

以及根据所述漏洞可利用率量化所述网络攻击图节点的权值；

攻击路径预测模型，用于根据量化后的所述网络攻击图，使用DDQN算法和联邦学习算法训练得到整个工控网络的攻击路径预测模型。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于网络攻击图的攻击路径预测模型生成方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于网络攻击图的攻击路径预测模型生成的步骤。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种基于网络攻击图的攻击路径预测模型生成方法及装置，通过获取工控网络数据和国家漏洞数据库的漏洞数据生成整个工控网络的网络漏洞信息，根据网络漏洞信息生成工控网络各个区域的网络攻击图，从网络攻击图中提取攻防方博弈对抗训练所需要的信息并进行对抗训练，得到攻击路径选择概率，根据攻击路径选择概率量化网络攻击图有向边的权值，根据网络攻击图和网络漏洞信息计算漏洞可利用率，根据漏洞可利用率量化网络攻击图节点的权值，根据量化后的网络攻击图，使用DDQN算法和联邦学习算法训练得到整个工控网络的攻击路径预测模型。通过本申请训练得到的攻击路径预测模型能够在已知工控网络中对可能发生攻击的攻击路径进行合理预测，解决了规模较大的网络结构下的攻击路径预测问题。

附图说明

为了更直观地说明现有技术以及本申请，下面给出几个示例性的附图。应当理解，附图中所示的具体形状、构造，通常不应视为实现本申请时的限定条件；例如，本领域技术人员基于本申请揭示的技术构思和示例性的附图，有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易做出常规的调整或进一步的优化。

图1为本申请实施例一提供的一种基于网络攻击图的攻击路径预测模型生成方法流程图；

图2为本申请实施例一中生成攻击路径预测模型的结构示意图；

图3为本申请实施例二提供的一种基于网络攻击图的攻击路径预测模型生成装置结构示意图。

具体实施方式

以下结合附图，通过具体实施例对本申请作进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，通常是为了便于对照附图直观理解，而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下，这些相对位置关系的改变，当亦视为本申请表述的范畴。

随着人工智能技术的不断发展，越来越多的技术领域将人工智能技术相结合，并且取得了良好的效果。Double DQN(DDQN)算法是基于DQN算法的改进方法，DDQN是基于价值的无模型学习算法，Q代表策略的质量函数Q(s,a)，表示某一状态s下，采取行动a的期望收益。DQN用相同的神经网络生成目标Q值和估计Q值，并采用经验回放机制解决数据相关性的问题，通过这种方法，DDQN将选择操作与计算目标Q值两个过程解耦，有效的解决了DQN算法中存在的Q值过估计的问题。

联邦学习是一种分布式机器学习技术，联邦学习的核心思想是通过拥有本地数据的数据源之间进行分布式模型训练。联邦学习的过程中不需要交换本地个体或样本数据，而是通过交换模型参数或中间结果的方式来构建全局模型。联邦学习无需收集原始数据，降低了通信成本以及计算成本，同时也很好的解决了数据孤岛和隐私问题。

实施例一

请参阅图1，本实施例提供了一种基于网络攻击图的攻击路径预测模型生成方法，包括：

S1：获取工控网络数据和国家漏洞数据库的漏洞数据，根据工控网络数据和漏洞数据生成整个工控网络的网络漏洞信息；

具体的，工控网络数据包括工控网络拓扑和工控漏洞信息。

S2：根据网络漏洞信息生成工控网络各个区域的网络攻击图；

具体的，网络攻击图是利用MulVAL工具生成的，网络攻击图选用属性攻击图，初始节点被赋予概率值，有向边则用于表示节点之间的关系，可以根据初始节点的概率值和节点间的关系推导出其他节点的条件概率。

使用MulVAL进行网络漏洞分析时需要使用Datalog语言作为模型语言，其输入数据包括：

漏洞警告，本实施例使用开放式脆弱性评估语言进行规范化的漏洞定义，然后将其转化为Datalog语言，例如：vulExists(webServer,′CAN-2002-0392′,httpd)；

主机配置，使用OVAL扫描器定向提取主机的配置参数，并转化为Datalog语言，例如：networkService(fileServer,nfsd,rpc,100003,root)；

网络配置，将网络配置建模为抽象的主机访问控制列表(HACL)，此信息可以由防火墙管理工具提供；

主体，将主体符号映射到其在网络主机上的用户；

互动，在多级攻击中，漏洞和操作系统的语义决定了对手在每个阶段的选择。

根据以上输入的网络漏洞信息，使用贝叶斯攻击图生成算法生成的无权贝叶斯攻击图。

S3：从网络攻击图中提取攻防方博弈对抗训练所需要的信息，并根据提取的信息进行对抗训练，得到攻击路径选择概率；

此步骤的目的是为了应对目前网络上隐蔽性较强，较难应对的多步攻击。在攻防方博弈的每个阶段，攻击方和防御方各自执行攻防动作，并立即获得回报。每个阶段的收益的累积总和就是双方在整个对抗过程中的收益总和。攻防双方博弈的目标是总收益最大化。

首先利用生成的网络攻击图提取攻防动作、攻防策略、攻防代价和网络状态等攻防方博弈对抗训练所需的信息，根据获得的信息计算攻击代价、攻击收益、防御代价和防御收益；对于不同漏洞的攻击代价和攻击收益可以参照CVSS的漏洞评分来设置；而漏洞防御代价可以用收集攻击信息的成本、防御策略对系统造成的不良影响以及实施成本的和来计算；漏洞的防御收益则可以漏洞危险程度的倒数与攻击者留下的信息价值的和来计算。

攻防双方博弈对抗训练的具体实施步骤如下：

S301：攻击方和防御方检测当前时刻的网络状态；

S302：攻击方和防御方根据各自预期的策略收益函数，依次实施各自的攻防策略；

S303：攻击方和防御方计算各自的实际收益；

S304：网络系统进入下一个安全状态；

S305：重复执行S301至S304，直到攻防达到平衡状态。

通过使用此博弈模型对不同的攻击行为进行学习和推理，最终可以获得网络中某一结点选择不同路径的优先级(即攻击路径选择概率)。

S4：根据攻击路径选择概率量化网络攻击图有向边的权值；

本步骤使用博弈模型获得的攻击路径选择概率对生成的无权贝叶斯攻击图中的有向边的权值进行量化，网络攻击图中有向边的权值即前驱节点漏洞利用成功后，攻击后继节点的概率。

S5：根据网络攻击图和网络漏洞信息计算漏洞可利用率；

具体的，漏洞可利用率是根据直接漏洞可利用率、历史漏洞可利用率和推荐漏洞可利用率计算得到的。

直接漏洞可利用率,通过参考国家信息安全漏洞库的漏洞数据，获取CVSS2.0安全漏洞基础评分指标，包括攻击途径、攻击复杂度、认证、机密性、完整性和可用性的具体分值，然后代入安全漏洞基础评分公式，得到漏洞i的直接漏洞可利用率Vdirect_i。

历史漏洞可利用率，当网络中漏洞所在的节点加入网络中时，就开始记录节点与整个网络中其他节点交互的记录与发生攻击的事件信息，得到节点的历史信誉值，而节点的历史信誉值Thistory_i服从beta分布，即：

式(1)中，

式(2)中，α_i表示节点i发送数据或接收数据成功的次数，β_i表示节点i发送数据或接收数据失败的次数。

然后根据得到的漏洞所在的节点的历史信誉值计算历史漏洞可利用率Vhistory_i：

Vhistory_i＝1-Thistory_i (3)

推荐漏洞可利用率，通过最近一段时间内发生的漏洞利用事件次数来计算推荐漏洞可利用率Vrecommend_i。

综上，漏洞可利用率Vfinal_i为：

Vfinal_i＝a×Vdirect_i+b×Vhistory_i+c×Vrecommend_i (4)

式(4)中，a+b+c＝1，a>b>c。

在计算漏洞可利用率的过程中，根据CVSS2.0计算得到的基础漏洞可利用率占比最高，此评分体现了漏洞的危险程度，而历史漏洞可利用率和推荐漏洞可利用率则是通过过去曾经发生的攻击行为和对未来攻击行为的模拟和推测来评估漏洞的危险程度，占比较低。

S6：根据漏洞可利用率量化网络攻击图节点的权值；

本步骤根据获得的漏洞可利用率对生成的网络攻击图中节点的权值进行量化，节点的权值即漏洞可利用率。

S7：根据量化后的网络攻击图，使用DDQN算法和联邦学习算法训练得到整个工控网络的攻击路径预测模型。

本步骤采用横向联邦学习算法来完成整个工控网络的攻击路径预测模型的训练，并使用客户/服务器架构作为联邦学习的系统架构。根据工控网络的区域划分，将联邦学习的参与者划分为若干不同的训练方，可以将每个子网作为一个训练方，每个训练方负责训练一个区域的模型。各训练方在本地计算梯度，将加密后的梯度发给聚合服务器，聚合服务器进行安全聚合，并将聚合后的结果发给各参与方，各参与方对接收到的梯度进行解密，更新各自的模型参数。具体的联邦学习模型结构以及各个训练方的DDQN学习流程如图2所示。

本实施例对每个区域的网络漏洞信息，最优攻击路径问题的状态空间和动作空间进行形式化描述，将网络攻击过程建模为马尔可夫决策模型，使用基于深度强化学习DDQN算法训练智能体，通过与环境的交互学习的方法，进而获得最优攻击路径。

其中，马尔可夫决策模型通过四元组<S，A，R，T>进行刻画，其中，S表示当前的网络状态；A表示智能体在获取当前网络权限的情况下可以采取的漏洞利用操作的集合，即网络攻击图中当前节点的所有后继节点的集合；R表示智能体在采取某种操作后获得分数的奖励函数；T表示状态转移函数，即攻击图中以当前节点为起始节点的边的权值。

使用DDQN算法的目的是为了训练出一个神经网络，输入当前网络的状态，该神经网络输出若干Q值，使得智能体可以根据神经网络的输出选择最大的Q值作为下一步执行的动作，并进入下一状态。为解决算法的目标状态奖励传递过慢的问题，引入优先级经验回放方法，使用时间差分偏差来衡量每个经验的学习价值，用一个内存空间来存储之前的经验，通过时间差分偏差的绝对值来对经验池里的经验进行排序，从中选取那些高偏差的经验来更新网络。

训练过程共采用M轮训练，每轮训练共执行N步攻击行动，每一轮训练具体为：

首先进行环境状态的初始化，智能体根据当前所获取的网络状态，选择动作a_n＝argmax_aQ(s_n+1,a,θ)，执行动作a_n，获取对应的奖励r_n以及下一状态s_n+1，计算(s_n,a_n,r_n,s_n+1)的时间差分偏差的绝对值，并将序列存储到经验池D中；采用优先级经验回放方法，从经验池中选择具有高偏差的序列(s_i,a_i,r_i,s_i+1)作为质量函数来计算目标Q值，目标Q值为：

式(5)中，θ_i表示当前Q网络的参数，而表示目标Q网络的参数。

计算损失函数，损失函数为：

L(θ_i)＝E_(s,a,r,s′)[(r_i+1+γQ_target(s_t+1,argmax_a((s_i+1,a)))-Q(s_i,a_i))²] (6)

更新目标网络参数，并重复执行以上操作直到达到N步，本轮训练结束并开始下一轮训练。

为解决联邦优化问题，本步骤采用了联邦平均算法，可以用于DDQN算法中神经网络训练中遇到的损失函数不是凸函数的问题。使用参数ρ来控制每一轮进行计算的参与方的占比；使用参数S来控制每一轮训练中，每个训练方在本地数据集训练的步骤数；使用参数M来设置每个训练方更新时使用的小批量的大小。

在第m轮训练更新全局模型参数θ_m时，第k参与方将会计算当前模型参数θ_m的本地数据的平均梯度由协调方聚合这些梯度并更新模型参数信息然后将更新后的模型参数θ_m+1发送给各个参与方，参与方根据所获得的新参数开始新一轮训练。

本实施例提供的基于网络攻击图的攻击路径预测模型生成方法为保证工控网络信息的安全性，选择在工控网络的各个区域独立地绘制本区域的网络攻击图，使用联邦学习的模型对各个区域的攻击图进行训练，以获取整个工控网络的最佳攻击路径，为了改进攻击图默认情况下漏洞利用率为100％的不足，对网络中的节点进行漏洞可利用率的评估，提高了网络攻击图的准确率。

实施例二

请参阅图3，本实施例提供了一种基于网络攻击图的攻击路径预测模型生成装置，包括：

关于基于网络攻击图的攻击路径预测模型生成装置的具体限定可以参见上文中对于基于网络攻击图的攻击路径预测模型生成方法的限定，在此不再赘述。

实施例三

本实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于网络攻击图的攻击路径预测模型生成方法的步骤。

实施例四

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于网络攻击图的攻击路径预测模型生成的步骤。

综上，本申请提供的基于网络攻击图的攻击路径预测模型生成方法及装置具有以下优势：

(1)与现有的攻击图量化普遍采取漏洞评分系统的方法相比，本申请的漏洞评估方法综合考虑了节点在整个网络中的关键性、自身的安全性、节点的软件中是否包含国家漏洞数据库中的漏洞、是否曾经受到攻击或存在于历史攻击路径中等信息，将节点的特性进一步划分为功能特性、性能特性和安全特性，通过对节点特性进行加权求和运算，计算节点的当前置信度以及历史置信度，对关键节点进行评估，给出量化后的节点可利用性；

(2)本申请的攻防方博弈对抗训练利用生成的网络攻击图提取用于攻防双方博弈的信息，并计算得到各个节点的不同漏洞攻击成本和收益值以及防御成本和收益值。攻防双方均采取当前最优的策略进行博弈，直到达到平衡状态，获得选择不同攻击路径的收益值，作为攻击图边的权值。能够对目前网络上隐蔽性较强，较难应对的多步攻击进行预测；

(3)现有的基于攻击图的攻击路径分析方法在大规模网络上性能表现不佳，本申请的攻击路径预测模块将攻击图与深度强化学习相结合，并采用了联邦学习模型，将每个子网作为一个训练方，每个训练方使用子网的本地攻击图的特征数据进行训练同一个用于预测网络攻击路径的神经网络；同时，每个训练方都使用链路来上传梯度信息到服务器，而服务器也需要将聚合后的模型参数发送给每个训练方，从而完成整个工控网络攻击预警功能。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾)，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解，基于本申请的技术构思，还可以对这些具体实施例做出若干常规的调整或进一步的创新；但只要未脱离本申请的技术构思，这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。

Claims

1.一种基于网络攻击图的攻击路径预测模型生成方法，其特征在于，包括：

2.根据权利要求1所述的基于网络攻击图的攻击路径预测模型生成方法，其特征在于，所述步骤2中的网络攻击图是利用MulVAL生成的。

3.根据权利要求1所述的基于网络攻击图的攻击路径预测模型生成方法，其特征在于，所述步骤2中的网络攻击图是利用贝叶斯攻击图生成算法生成的无权贝叶斯攻击图。

4.根据权利要求1所述的基于网络攻击图的攻击路径预测模型生成方法，其特征在于，所述步骤3中根据提取的信息进行对抗训练，具体包括：

步骤301：攻击方和防御方检测当前时刻的网络状态；

步骤303：攻击方和防御方计算各自的实际收益；

步骤304：网络系统进入下一个安全状态；

5.根据权利要求1所述的基于网络攻击图的攻击路径预测模型生成方法，其特征在于，所述步骤5中的漏洞可利用率是根据直接漏洞可利用率、历史漏洞可利用率和推荐漏洞可利用率计算得到的。

6.根据权利要求1所述的基于网络攻击图的攻击路径预测模型生成方法，其特征在于，所述步骤7中攻击路径预测模型的初始模型为马尔可夫决策模型。

7.根据权利要求1所述的基于网络攻击图的攻击路径预测模型生成方法，其特征在于，所述步骤7中联邦学习算法为联邦平均算法。

8.一种基于网络攻击图的攻击路径预测模型生成装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。