CN116248311A

CN116248311A - 基于深度强化学习的网络节点安全措施缓解部署优化方法及系统

Info

Publication number: CN116248311A
Application number: CN202211549075.6A
Authority: CN
Inventors: 刘盈泽; 郭渊博; 郝耀辉; 方晨; 李勇飞; 陈庆礼
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-06-09

Abstract

本发明属于网络安全技术领域，特别涉及一种基于深度强化学习的网络节点安全措施缓解部署优化方法及系统，利用深度强化学习缓解措施模型来将网络节点安全缓解措施部署转换为多目标优化问题，其中，深度强化学习缓解措施模型基于安全知识库运行并利用安全知识库建立由漏洞连接的攻击和防御之间的关系，依据行动空间、状态空间和奖励函数构建问题空间，并通过深度强化学习方法在问题空间中优化缓解部署。本发明能够综合考虑部署节点重要性权重、部署成本、漏洞修复及阻碍攻击有效性，在脆弱性、缓解措施和攻击技术之间建立桥梁，能够较好地维持缓解行动的决策，在控制大型组织的网络防御成本方面具有潜力。

Description

基于深度强化学习的网络节点安全措施缓解部署优化方法及系统

技术领域

本发明属于网络安全技术领域，特别涉及一种基于深度强化学习的网络节点安全措施缓解部署优化方法及系统。

背景技术

针对特定攻击的缓解部署已经成为网络安全研究和应用的一个关键问题。主流的缓解措施部署方法，通常是那些依靠攻击图和机器学习的方法，常规地进行风险评估，以获得最脆弱的设备，然后针对网络攻击部署缓解措施，完成有效防御。虽然已经取得了宏伟的成就，但如何在确保有效防御网络攻击的同时尽量减少冗余，仍然是缓解措施部署中的一个开放性问题。长期以来，大型组织一直遭受着这项工作所产生的低效率和高成本，而即使以过度冗余为代价，也未必能保证其有效性。CVSS(Common Vulnerability ScoringSystem)缓解部署任务工作流程如图2所示。在早期阶段，在贝叶斯攻击图(BAG)的指导下可以通过估计攻击网络资产的概率来确定攻击路径。适当的缓解措施可以参照攻击图对脆弱节点进行部署，以提高整体安全水平。沿着这个方向已经做出了努力，以改善风险评估，从而通过寻找最佳攻击路径来优化缓解措施，以及考虑系统受损的可能性和保护关键基础设施。需要注意的是，BAG对于大型动态网络来说是不够的，因为构建(更新)攻击图的超高复杂度使得在时间限制下精确的缓解措施部署变得困难，而且冗余是不可避免的。之后，这个问题被认为是博弈论背景下目标冲突的主体之间的决策问题。通过平衡部署成本和防御利益的纳什均衡，可以得出"最佳"防御策略。例如，贝叶斯博弈的目的是在互联网中的不确定性，通过实现贝叶斯纳什均衡点与场景中的概率信息来寻找最佳策略。在这种情况下，可以通过抽象的攻防层面的复杂数学模型，考虑成本和防御效益，得出最优方案。然而，如何决定防御部署的确切位置仍然不清楚，尽管这是防御效果的一个关键因素。

最近，机器学习方法在网络安全应用中蓬勃发展，因为这些方法已被证明在探索/实施缓解部署策略以实现给定的安全目标方面非常强大。因为缓解部署的任务本质上是为涉及网络安全任务中动态关键因素的多目标问题寻找解决方案，而机器学习在这方面表现出色。采用Q-learning以及深度强化学习的缓解部署方法在处理日益复杂的网络攻击问题上取得了巨大成功。值得注意的是，要使部署成本最小化仍然不是一件小事，因为防御的有效性通常是以过高的冗余度为代价来保证的。制定攻击和防御之间的关系是任何缓解部署方法实现其目标所必须的。像MITRE ATT&CK这样的安全知识库经常适用，它可以模拟网络对手的行为、对手的攻击生命周期、已知的目标平台，更重要的是现有防御的缓解措施。然后，防御者可以通过参考这种安全知识库来采取缓解攻击的行动。然而，现有的安全知识库主要集中在攻击和防御上，其中的漏洞没有被明确制定，使得漏洞的作用没有得到关注。在缓解措施的部署方面仍然存在着迫切的需求，以解决缩小脆弱节点的范围及在保证缓解措施有效性的前提下保持低水平的冗余。

发明内容

为此，本发明提供一种基于深度强化学习的网络节点安全措施缓解部署优化方法及系统，综合考虑部署节点重要性权重、部署成本、漏洞修复及阻碍攻击有效性，在脆弱性、缓解措施和攻击技术之间建立桥梁，能够较好地维持缓解行动的决策。

按照本发明所提供的设计方案，提供一种基于深度强化学习的网络节点安全措施缓解部署优化方法，包含如下内容：

构建深度强化学习缓解措施模型，利用深度强化学习缓解措施模型来将网络节点安全缓解措施部署转换为多目标优化问题，其中，深度强化学习缓解措施模型基于安全知识库运行并利用安全知识库建立由漏洞连接的攻击和防御之间的关系，依据行动空间、状态空间和奖励函数构建问题空间，并通过深度强化学习方法在问题空间中优化缓解部署；

针对目标网络，利用安全知识库获取网络中攻击技术和缓解措施，并根据目标网络中节点功能来分配节点权重，目标网络中的攻击技术、缓解措施及节点重要性权重作为深度强化学习缓解措施模型输入，通过对深度强化学习缓解措施模型的求解来得到目标网络中最佳缓解部署策略。

作为本发明中基于深度强化学习的网络节点安全措施缓解部署优化方法，进一步地，所述安全知识库为对外开放的对手战术和技术知识库，该对手战术和技术知识库包含：ATT&CK知识库和CVE知识库。

作为本发明中基于深度强化学习的网络节点安全措施缓解部署优化方法，进一步，问题空间中，依据安全知识库获取网络在时间步骤可能出现的每一个缓解行动，由每一个缓解动作构成行动空间；在每个时间步骤中由每个攻击技术阻碍状态构成状态空间；并通过部署节点重要性权重、防止缓解措施对所有攻击技术影响的奖励、缓解措施修复漏洞奖励和部署成本来构建混合奖励函数，利用该混合奖励函数来平衡部署节点重要性、防止网络攻击效果、修复漏洞效果和部署成本。

作为本发明中基于深度强化学习的网络节点安全措施缓解部署优化方法，进一步，混合奖励函数表示为：

其中，w为部署节点重要性权重，r_tech为防止缓解措施对所有攻击技术的影响的奖励，r_vul为缓解措施修复漏洞的奖励，c为部署成本，e_techi为缓解措施对第i种攻击技术的影响，N为攻击技术数量，CVSS_v为修复漏洞v的CVSS评分的向量表示。

作为本发明基于深度强化学习的网络节点安全措施缓解部署优化方法，进一步地，节点重要性权重评估中，首先，依据受攻击可能性大小的经验数据来初步设定服务器、网络连接权重及主机的节点权重；然后，依据处理文件重要性程度因子、访问数据库权限因子及公开程度因子来获取主机功能三联体，利用该主机功能三联体来获取主机节点权重。

作为本发明基于深度强化学习的网络节点安全措施缓解部署优化方法，进一步地，利用主机功能三联体来获取主机节点权重W的过程表示为：W＝1-(1-X)(1-Y)(1-Z)，其中，X、Y、Z分别表示处理文件重要性程度因子、访问数据库权限因子及公开程度因子。

作为本发明基于深度强化学习的网络节点安全措施缓解部署优化方法，进一步地，深度强化学习缓解措施模型求解中，通过构建多目标优化的目标函数，并利用SAC算法在问题空间中通过最大化多目标优化的目标函数来学习缓解部署，利用目标函数的最大化过程来获取最优缓解部署策略，其中，多目标优化的目标函数表示为：

其中，π为候选策略，π^*为输出的最佳策略；

为期望函数，r(s_t,a_t)为奖励函数；γ∈[0,1]为折扣率，s_t为时间步骤t的攻击技术阻碍状态，a_t为时间步骤t的缓解行动；T_π为策略π引起的轨迹分布；α为温度参数；/>

为策略π在状态s_t的熵值。

作为本发明基于深度强化学习的网络节点安全措施缓解部署优化方法，进一步地，最大化多目标优化的目标函数中，设置策略的状态价值函数为V(s_t):＝π(s_t)^T[Q(s_t)-αlog(π(s_t))]，并利用两个Q网络构建状态价值网络，利用状态和动作的经验回放及Q函数来训练状态价值网络并产生缓解部署策略，在策略网络中通过最大化奖励来获取行动分布及期望估计。

作为本发明基于深度强化学习的网络节点安全措施缓解部署优化方法，进一步地，利用SAC算法学习缓解部署的过程，包含如下内容：首先，从候选策略中选取缓解行动，并在环境中转接攻击技术阻碍状态，将过渡存储在重放缓冲器中；然后，在每个时间步骤梯度，通过状态价值网络目标函数、策略网络目标函数及温度网络目标函数来优化深度强化学习缓解措施模型参数，直至深度强化学习缓解措施模型达到收敛状态。

进一步地，本发明还提供一种基于深度强化学习的网络节点安全措施缓解部署优化系统，包含：模型构建模块和部署优化模块，其中，

模型构建模块，用于构建深度强化学习缓解措施模型，利用深度强化学习缓解措施模型来将网络节点安全缓解措施部署转换为多目标优化问题，其中，深度强化学习缓解措施模型基于安全知识库运行并利用安全知识库建立由漏洞连接的攻击和防御之间的关系，依据行动空间、状态空间和奖励函数构建问题空间，并通过深度强化学习方法在问题空间中优化缓解部署；

部署优化模块，用于针对目标网络，利用安全知识库获取网络中攻击技术和缓解措施，并根据目标网络中节点功能来分配节点权重，目标网络中的攻击技术、缓解措施及节点重要性权重作为深度强化学习缓解措施模型输入，通过对深度强化学习缓解措施模型的求解来得到目标网络中最佳缓解部署策略。

本发明的有益效果：

本发明通过构建深度强化学习缓解措施模型，综合考虑部署节点重要性权重、部署成本、漏洞修复及阻碍攻击有效性，在脆弱性、缓解措施和攻击技术之间建立桥梁，更有效地防御网络攻击的持续，大大降低冗余度。并通过数据仿真验证，为了实现同样的安全目标，本案方案需要部署的缓解措施比最先进的同行要少得多，进一步说明本案方案在控制大型组织的网络防御成本方面具有潜力。

附图说明：

图1为实施例中基于深度强化学习的网络节点安全措施缓解部署优化流程示意；

图2为实施例中CVSS缓解部署任务工作流程示意；

图3为实施例中深度强化学习缓解措施模型架构示意；

图4为实施例中V-ATT&CK关系模型示意；

图5为实施例中测试平台示意；

图6为实施例中V-ATT&CK的WannaCry知识图谱示意；

图7为实施例中使用不同强化学习方法的缓解部署的性能示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

本案实施例，参见图1所示，提供一种基于深度强化学习的网络节点安全措施缓解部署优化方法，包含：

S101、构建深度强化学习缓解措施模型，利用深度强化学习缓解措施模型来将网络节点安全缓解措施部署转换为多目标优化问题，其中，深度强化学习缓解措施模型基于安全知识库运行并利用安全知识库建立由漏洞连接的攻击和防御之间的关系，依据行动空间、状态空间和奖励函数构建问题空间，并通过深度强化学习方法在问题空间中优化缓解部署；

S102、针对目标网络，利用安全知识库获取网络中攻击技术和缓解措施，并根据目标网络中节点功能来分配节点权重，目标网络中的攻击技术、缓解措施及节点重要性权重作为深度强化学习缓解措施模型输入，通过对深度强化学习缓解措施模型的求解来得到目标网络中最佳缓解部署策略。

深度强化学习缓解措施(Deep Reinforcement Learning-MitigationDeployment，DRL-MD)模型框架，如图3所示，将缓解措施部署过程视为寻找一个复杂的多目标优化问题的解决方案，问题解决阶段的重点是通过深度强化学习方法在问题空间中定义的输入和约束条件下，优化缓解部署。本案实施例，进一步，可DRL-MD模型可在增强ATT&CK模型(标记为"V-ATT&CK")上运行，并建立由漏洞连接的攻击和防御之间的关系，在问题空间中制定行动空间、状态空间和基于V-ATT&CK的奖励函数

作为优选实施例，进一步，问题空间中，依据安全知识库获取网络在时间步骤可能出现的每一个缓解行动，由每一个缓解动作构成行动空间；在每个时间步骤中由每个攻击技术阻碍状态构成状态空间；并通过部署节点重要性权重、防止缓解措施对所有攻击技术影响的奖励、缓解措施修复漏洞奖励和部署成本来构建混合奖励函数，利用该混合奖励函数来平衡部署节点重要性、防止网络攻击效果、修复漏洞效果和部署成本。

建议的安全知识库，即V-ATT&CK，是ATT&CK和CVE(Common Vulnerabilities andExposures)的无缝融合。作为一个基于现实世界观察的全球可访问的对手战术和技术的知识库，前者可为进攻和防御提供一个通用的分类法，后者可以参考CVSS及发布的安全漏洞。V-ATT&CK便于更好地理解攻击者的行动，以及在漏洞知识的明确指导下，缓解措施如何防止攻击，从而可以减轻缓解行动的决策问题。

V-ATT&CK对攻击者可以执行的对手战术、技术和程序(Tactics,Techniques andProcedures，TTPs)进行分类，以完成战术类别所代表的目标，将相应的技术和子技术分组，其中，保持关键的高层组件可描述如下：战术代表攻击过程中对手的短期战术目标；技术描述了对手实现战术目标的手段；子技术描述了对手在比技术更低的层次上实现战术目标的更具体的手段；攻击组可以直接使用技术，或采用实现技术的软件来完成战术；缓解措施代表安全概念和技术类别，可用于防止技术或子技术被成功执行，如配置、工具和流程；漏洞被攻击技术所利用，以达到攻击者的目的；缓解措施应修复它们，以抵御攻击。如图4所示，描述组件之间的关系。当处理一个由先验知识覆盖的攻击组/软件时，可以参考V-ATT&CK来获得：1)攻击组/软件使用的攻击技术；2)为修复被攻击技术利用的漏洞所采取的缓解措施。然后，决策过程可以被引导到最佳缓解行动。

进一步地，节点重要性权重评估中，可依据受攻击可能性大小的经验数据来初步设定服务器、网络连接权重及主机的节点权重；然后，依据处理文件重要性程度因子、访问数据库权限因子及公开程度因子来获取主机功能三联体，利用该主机功能三联体来获取主机节点权重。

节点重要性估计构成对最终缓解措施部署地点进行优先排序的标准。这个问题通常通过宏观的中心度量识别复杂网络中的有影响力的节点。然而，这种指标不能衡量节点功能的多样性，更不能衡量存放核心数据的服务器，而后者是吸引攻击者的关键因素。因此，本案实施例中，利用替代性的节点重要性估计来强调节点的功能，特别是存储数据的重要性。储存的数据的重要性可由不同的权重反映出来。

替代性的节点重要性估计基本原则是根据网络节点的功能进行权重分配。表1列出了节点权重(W)的初步经验设定。

表1：不同节点类型的权重分配

1.服务器(WEB服务器、DB服务器和FTP服务器等)和网络连接设备(路由器、交换机和集线器)：将最高的权重分配给这些最可能的目标。

2.普通主机(台式机和笔记本电脑)：由于其功能的不确定性，不能采用统一的权重，需要进一步分析(表2)。

3.防火墙：作为攻击者必须跨越的网络网关，为了方便起见，可以忽略不计。

表2：主机定制的权重

/>

自定义主机的权重可以与三个不同的功能相关联：1)处理重要文件，2)可以访问数据库，3)公开性。主机功能可以表示为一个三联体<X,Y,Z>，其中X,Y,Z对应于表2中定义的三个特征。

当主机满足这些特征时，三个权重分别设置为<0.9，0.8，0.6>，否则<0.1，0.2，0.4>适用。主机的权重可以用公式1来表示。

W＝1-(1-X)(1-Y)(1-Z) (1)

尝试根据其功能来估计部署节点的重要性。它至少提供一个量化指标，以确定缓解措施部署的目标地点的优先次序。

作为优选实施例，进一步地，深度强化学习缓解措施模型求解中，通过构建多目标优化的目标函数，并利用SAC算法在问题空间中通过最大化多目标优化的目标函数来学习缓解部署，利用目标函数的最大化过程来获取最优缓解部署策略。

进一步地，利用SAC算法学习缓解部署的过程，包含如下内容：首先，从候选策略中选取缓解行动，并在环境中转接攻击技术阻碍状态，将过渡存储在重放缓冲器中；然后，在每个时间步骤梯度，通过状态价值网络目标函数、策略网络目标函数及温度网络目标函数来优化深度强化学习缓解措施模型参数，直至深度强化学习缓解措施模型达到收敛状态。

DRL-MD框架的核心是Soft Actor-Critic(SAC)算法，以达到最佳的缓解部署策略，如图3所示，包括两个阶段，即问题空间定义和问题解决。其中，问题空间中，行动空间A可以在V-ATT&CK的基础上制定，它包括在时间t的每一个可能的缓解行动。状态空间S包括观察攻击技术的阻碍状态s_t＝(tech₁,tech₂,...,tech_i),0≤i≤N，在每个时间步骤t中，N表示技术的数量，tech_i∈{0,1}:0/1表示tech_i未被阻碍/被阻碍。状态空间S中的目标状态是(1，1，...，1)，即希望所有攻击技术被阻碍；奖励函数r评估缓解措施，以实现多目标的优化，其中包括1)部署节点w的重要性(第5.2节)，2)防止缓解措施对所有攻击技术的影响的奖励r_tech，3)通过缓解措施修复漏洞的奖励r_vul，以及4)部署成本c。因此，奖励函数可进一步表示为：

其中，

表示缓解措施对第i种攻击技术的影响；N表示攻击技术的数量；CVSS_v是修复漏洞v的CVSS评分；为了计算方便，部署成本c可被统一设置为0.1。

SAC在问题空间中工作，通过最大化公式(3)所示的多目标优化的目标函数来学习缓解部署的最佳策略，即问题解决。在此背景下，最优策略、状态值函数、Q网络、策略网络和温度网络可描述如下：

寻找最优策略的问题可以表述为：用SAC使最大熵目标最大化：

其中，π是一个候选策略，π^*是要得出的最佳策略；

是奖励函数，r∈[0,1]是折扣率，s_t∈S是时间点t的状态，a_t∈A是时间点t的行动；T_π是策略π引起的轨迹分布；α决定了熵项与奖励的相对重要性，称为温度参数；/>

是策略π在状态s_t的熵值：

为了使目标最大化，策略π的状态价值函数可以定义为：

V(s_t):＝π(s_t)^T[Q(s_t)-αlog(π(s_t))] (4)

根据Q函数分别训练两个Q网络，并应用两个输出的最小值。这样做是为了避免高估状态值，并使贝尔曼残差最小化，因此，所产生的策略可能会得到改善。

其中D是过去经验重放的缓冲区；

是使用Q的目标网络和从D中取样经验后对公式4的蒙特卡洛估计。

策略网络中，目标策略可以通过奖励最大化来改进。Q函数指导对具有新策略目标的策略进行任何改变。

其中，策略π_φ(s_t)使用一个具有参数φ的神经网络，提供准确的行动分布以直接推导出期望。

在温度网络中，通过学习温度来减少温度损失估计的方差：

其中，

是一个常数向量，代表目标熵的超参数。

每个迭代的训练可包括：1)从策略π中取样行动a_t，从环境中转接状态s_t→s_t+1，并将过渡存储在重放缓冲器D中；2)对于每个梯度步骤，更新Q函数参数θ、策略权重φ和温度α以优化参数。

为此，在获得对攻击组发起的攻击技术的缓解措施，并完成DRL-MD模型的训练后，可以通过多目标优化来确定最佳缓解部署策略。

进一步地，基于上述的方法，本发明实施例还提供一种基于深度强化学习的网络节点安全措施缓解部署优化系统，包含：模型构建模块和部署优化模块，其中，

为验证本案方案有效性，下面结合仿真数据做进一步解释说明：

以检验DRL-MD的缓解部署能力。该勒索软件已形成最大的互联网攻击之一，通过恶意封锁全球受害者的数据或设备以换取赎金。测试平台如图5所示，由11个节点组成，包括2个硬件防火墙、1个路由器、1个交换机、1个FTP服务器，1台DB服务器，以及5台主机。其中，外部防火墙将互联网与内网路由器隔离开来，内部防火墙将主机1、主机2和存储重要文件的服务器分开；主机1和主机2可以相互访问，而只有主机2可以访问FTP服务器和DB服务器；DB服务器与FTP服务器相连，以接收和响应后者的请求；交换机直接连接到路由器，路由器连接到Host3、Host4和Host5。这三个主机是供公众使用的，没有重要文件。

构建问题空间，以处理WannaCry勒索软件的攻击测试平台，其中，WannaCry勒索软件的攻击技术和缓解措施最初通过V-ATT&CK获得。表3列出了攻击技术的细节，包括攻击技术ID、攻击技术名称、要达到的战术目标和战术目标的完成，以及技术的描述。

表3：攻击技术信息

表4列出了缓解措施的信息，包括缓解措施的ID、名称和描述。表5说明了1)攻击技术和缓解措施之间的关系，2)攻击技术可以被缓解措施阻碍，以及3)根据过往记录，缓解措施的效果如何。值得注意的是，用预防性控制来缓解与"发现战术"类别相关的攻击技术是一个挑战，因为这些技术是基于对系统功能的滥用。

表4：缓解措施的信息

/>

表5：攻击技术与缓解措施之间的关系

/>

漏洞评估工具Nessus会检测网络中的相关漏洞。表6中列出了CVSS 3.0的分数。图6显示漏洞与相应技术和缓解措施之间的联系，参考V-ATT&CK。该知识库图通过Neo4j可视化，每种类型的实体都用单独的颜色标记为攻击组织、战术、技术、缓解措施和漏洞。实体之间的关系用有向边表示。

表6：相关漏洞的信息

根据测试平台的设置，节点的重要性可以由公式1来估计，如表7所示。

表7：测试平台的节点重要性

/>

1.主机1处理重要文件，不能访问数据库，并且是私有的，其节点重要性为1-(1-0.9)×(1-0.2)×(1-0.4)＝0.952。

2.主机2处理重要的文件，有访问数据库的权限，私有，其节点重要性为1-(1-0.9)×(1-0.8)×(1-0.4)＝0.988。

3.主机3、主机4和主机5不处理重要文件，不能访问数据库，且是公开的，节点重要性为1-(1-0.1)×(1-0.2)×(1-0.6)＝0.712。

4.路由器、交换机和两个服务器的节点重要性被设定为0.9。

为了找到最佳缓解部署策略π^*，DRL-MD需要根据公式2推导出混合奖励函数r。这项任务依赖于：1)表7中的节点重要性w；2)奖励r_tech，即缓解措施对所有攻击技术的阻碍效果；3)奖励r_vul，即通过缓解措施修复漏洞。

缓解措施对攻击技术的阻碍效果可以参考表5中的缓解效果，攻击技术总数N＝10。通过缓解措施修复漏洞的奖励可以通过图6中漏洞和缓解措施之间的关系得到，两者之间的直线意味着缓解措施对漏洞有修复作用，反之亦然。

到目前为止，为了找到最佳的缓解部署策略，已经对问题空间进行了适当的初始化，也就是说，用提出的DRL-MD方法得到了关键因素的初始值/设置。

性能评估中，首先，与现有的ATT&CK模型相比，V-ATT&CK的有效性得到评估。之后，DRL-MD的整体性能与最先进的对应模型进行比较评估。

1、V-ATT&CK的有效性

通过实验比较提议的V-ATT&CK知识库与ATT&CK(没有漏洞知识)在部署成本和使用DRL-MD的攻击技术覆盖率方面的差异。攻击技术覆盖率是评估缓解措施部署效果的常用指标，而部署成本则是衡量冗余度的指标。结果列于表8。

很明显，用V-ATT&CK得出的缓解策略优于用ATT&CK得出的策略。前者能以较少的缓解措施和较低的部署成本实现防止攻击技术覆盖的相同安全目标。

表8：使用不同知识库部署缓解措施的攻击技术覆盖率和部署成本(50次试验的平均值和标准偏差)。

结果表明：1)V-ATT&CK可以作为一个有效的网络安全知识库来寻找缓解部署策略；2)使用V-ATT&CK可以比使用ATT&CK找到更多的最优策略，在保证有效防御的同时，大大减少了冗余。

2、SAC性能

DRL-MD模型中的SAC算法与最先进的强化学习对应方法进行检验，包括：1)DQN，2)DDQN，3)Dueling DDQN，以及4)A3C。图7描述防御WannaCry攻击的缓解部署的性能。性能是以200个rolling episode分数来衡量的。所有的候选方法都能达到最优策略。其他对应方法的性能指标是相互接近的，而DRL-MD总是优于其他方法。DRL-MD在第160episode达到了最高的分31.42，其缓解部署的最佳策略序列优于其他方法。

结果表明，与最先进的方法相比，DRL-MD利用SAC可以在较少的训练情节中找到具有高性能的最佳缓解部署策略。

3、DRL-MD的整体性能

为了评估DRL-MD在缓解部署方面的整体性能与针对WannaCry攻击的最先进的解决方案(包括BAG和博弈论方法)相比，进行了实验，结果列于表9。

在实现相同的安全目标(攻击技术覆盖率)时，DRL-MD的部署成本显然低于其他解决方案。此外，从DRL-MD获得的缓解措施可以覆盖所有的漏洞，而，1)BAG解决方案有较高的CVSS平均分，但漏洞覆盖率较低；2)博弈论解决方案的CVSS平均分和漏洞覆盖率较低。

表9：在部署成本、攻击技术覆盖率、漏洞覆盖率和CVSS平均分方面对缓解部署方法进行比较。

总的来说，本案实施例中所提出的DRL-MD可以在有效防御网络攻击的情况下，大大减少缓解部署的冗余度，平衡了部署节点的重要性、防止网络攻击的效果、修复漏洞和部署成本，这在控制大规模场景下的网络防御成本方面具有潜力。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于深度强化学习的网络节点安全措施缓解部署优化方法，其特征在于，包含如下内容：

2.根据权利要求1所述的基于深度强化学习的网络节点安全措施缓解部署优化方法，其特征在于，所述安全知识库为对外开放的对手战术和技术知识库，该对手战术和技术知识库包含：ATT&CK知识库和CVE知识库。

3.根据权利要求1所述的基于深度强化学习的网络节点安全措施缓解部署优化方法，其特征在于，问题空间中，依据安全知识库获取网络在时间步骤可能出现的每一个缓解行动，由每一个缓解动作构成行动空间；在每个时间步骤中由每个攻击技术阻碍状态构成状态空间；并

通过部署节点重要性权重、防止缓解措施对所有攻击技术影响的奖励、缓解措施修复漏洞奖励和部署成本来构建混合奖励函数，利用该混合奖励函数来平衡部署节点重要性、防止网络攻击效果、修复漏洞效果和部署成本。

4.根据权利要求3所述的基于深度强化学习的网络节点安全措施缓解部署优化方法，其特征在于，混合奖励函数表示为：

其中，w为部署节点重要性权重，r_tech为防止缓解措施对所有攻击技术的影响的奖励，r_vul为缓解措施修复漏洞的奖励，c为部署成本，/>

为缓解措施对第i种攻击技术的影响，N为攻击技术数量，CVSS_v为修复漏洞v的CVSS评分。

5.根据权利要求1或3所述的基于深度强化学习的网络节点安全措施缓解部署优化方法，其特征在于，节点重要性权重评估中，首先，依据受攻击可能性大小的经验数据来初步设定服务器、网络连接权重及主机的节点权重；然后，依据处理文件重要性程度因子、访问数据库权限因子及公开程度因子来获取主机功能三联体，利用该主机功能三联体来获取主机节点权重。

6.根据权利要求1所述的基于深度强化学习的网络节点安全措施缓解部署优化方法，其特征在于，利用主机功能三联体来获取主机节点权重W的过程表示为：W＝1-(1-X)(1-Y)(1-Z)，其中，X、Y、Z分别表示处理文件重要性程度因子、访问数据库权限因子及公开程度因子。

7.根据权利要求1所述的基于深度强化学习的网络节点安全措施缓解部署优化方法，其特征在于，深度强化学习缓解措施模型求解中，通过构建多目标优化的目标函数，并利用SAC算法在问题空间中通过最大化多目标优化的目标函数来学习缓解部署，利用目标函数的最大化过程来获取最优缓解部署策略，其中，多目标优化的目标函数表示为：

其中，π为候选策略，π^*为输出的最佳策略；

为期望函数，r(s_t,a_t)为奖励函数；γ为折扣率，且γ∈[0,1]，s_t为时间步骤t的攻击技术阻碍状态，a_t为时间步骤t的缓解行动；T_π为策略π引起的轨迹分布；α为温度参数；

为策略π在状态s_t的熵值。

8.根据权利要求7所述的基于深度强化学习的网络节点安全措施缓解部署优化方法，其特征在于，最大化多目标优化的目标函数中，设置策略的状态价值函数为V(s_t):＝π(s_t)^T[Q(s_t)-αlog(π(s_t))]，并利用两个Q网络构建状态价值网络，利用状态和动作的经验回放及Q函数来训练状态价值网络并产生缓解部署策略，在策略网络中通过最大化奖励来获取行动分布及期望估计。

9.根据权利要求8所述的基于深度强化学习的网络节点安全措施缓解部署优化方法，其特征在于，利用SAC算法学习缓解部署的过程，包含如下内容：首先，从候选策略中选取缓解行动，并在环境中转接攻击技术阻碍状态，将过渡存储在重放缓冲器中；然后，在每个时间步骤梯度，通过状态价值网络目标函数、策略网络目标函数及温度网络目标函数来优化深度强化学习缓解措施模型参数，直至深度强化学习缓解措施模型达到收敛状态。

10.一种基于深度强化学习的网络节点安全措施缓解部署优化系统，其特征在于，包含：模型构建模块和部署优化模块，其中，