CN110602062B

CN110602062B - 基于强化学习的网络主动防御方法及装置

Info

Publication number: CN110602062B
Application number: CN201910794323.5A
Authority: CN
Inventors: 许长桥; 杨树杰; 张焘; 苏盘社; 张寅�
Original assignee: Beijing University of Posts and Telecommunications; Beijing Armyfly Technology Co Ltd
Current assignee: Beijing University of Posts and Telecommunications; Beijing Armyfly Technology Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2020-12-25
Anticipated expiration: 2039-08-27
Also published as: CN110602062A

Abstract

本发明实施例提供一种基于强化学习的网络主动防御方法及装置，所述方法包括：感知网络安全态势值，所述网络安全态势值用于衡量网络安全态势的变化趋势；将所述网络安全态势值，输入至预设的自适应跳变周期调整算法模型，确定最佳的路由跳变周期。本发明实施例提供的基于强化学习的网络主动防御方法及装置，运用博弈理论，提出一种新颖的网络安全态势感知模型，可以准确感知网络安全态势的变化趋势，提升了网络的防御性能。

Description

基于强化学习的网络主动防御方法及装置

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于强化学习的网络主动防御方法及装置。

背景技术

面对日益普遍的网络威胁(例如分布式拒绝服务(DDoS)和窃听)，网络安全对于服务可用性和服务质量(QoS)都至关重要。但是传统静态网络防御方法总是需要检测攻击行为，因此它们这些方法在成本、时间和信息收集等方面都存在着明显缺陷。例如，当前的DDoS防御方法试图通过过滤掉恶意流量来达到防御的效果，但是交火攻击的攻击行为是非常隐秘的，现有防御方法无法有效区分良性流量和恶意流量。相反，攻击者几乎拥有无限时间收集相关信息，构建攻击方案并最终发起攻击行为。

为了应对静态网络防御方法这种严重的固有缺陷，网络动目标防御(NMTD)作为一种主动防御方法，通过调整网络参数、网络身份标识或资源分配机制，从而能够达到主动躲避攻击的效果。其中，因为路由是一个非常重要的保护对象，近年来已经提出了一些路由跳变的方法来实现主动防御。路由跳变旨在通过定期更改路由来避免不同类型的攻击。事实上，变异路由的动态性和不可预测性可以在很大程度上使攻击者的先验知识无效化。但基于目前对路径跳变的研究，还存在三个亟待解决的主要问题。第一个是大多数的路径跳变方法仅针对特定攻击；其次，在以前的研究中，防御者无法学习到攻击者的攻击策略；最后，大多数路由跳变方法不具有在不同网络安全态势下的自适应能力。因此，目前的方法难以最大化路由跳变方法的防御效果。

发明内容

本发明实施例提供一种基于强化学习的网络主动防御方法及装置，用于解决现有技术中路由跳变方法的防御效果差的技术问题。

为了解决上述技术问题，一方面，本发明实施例提供一种基于强化学习的网络主动防御方法，包括：

感知网络安全态势值，所述网络安全态势值用于衡量网络安全态势的变化趋势；

将所述网络安全态势值，输入至预设的自适应跳变周期调整算法模型，确定最佳的路由跳变周期。

进一步地，所述感知网络安全态势值，具体包括：

获取攻击者的攻击收益，以及防御者的防御收益；

根据所述攻击收益和所述防御收益，计算所述网络安全态势值。

进一步地，所述确定最佳的路由跳变周期之后，还包括：

将所述网络安全态势值、网络状态数量、潜在的跳变路由数量，以及折扣因子，输入至预设的强化学习算法模型，输出防御者的最优路由跳变矩阵。

进一步地，所述强化学习算法模型的目标是收敛到最优动作价值函数；

所述强化学习算法模型的约束条件包括：入侵检测系统约束、容量约束和服务质量约束。

进一步地，在输出防御者的最优路由跳变矩阵的过程中，根据所述网络安全态势值动态调整强化学习速率。

进一步地，所述强化学习算法模型为Q-learning算法模型或者深度Q-Learning算法模型。

另一方面，本发明实施例提供一种基于强化学习的网络主动防御装置，包括：

感知模块，用于感知网络安全态势值，所述网络安全态势值用于衡量网络安全态势的变化趋势；

路由跳变周期决策模块，用于将所述网络安全态势值，输入至预设的自适应跳变周期调整算法模型，确定最佳的路由跳变周期。

进一步地，还包括路由跳变矩阵决策模块；

所述路由跳变矩阵决策模块用于将所述网络安全态势值、网络状态数量、潜在的跳变路由数量，以及折扣因子，输入至预设的强化学习算法模型，输出防御者的最优路由跳变矩阵。

再一方面，本发明实施例提供一种电子设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述方法的步骤。

又一方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述方法的步骤。

本发明实施例提供的基于强化学习的网络主动防御方法及装置，运用博弈理论，提出一种新颖的网络安全态势感知模型，可以准确感知网络安全态势的变化趋势，提升了网络的防御性能。

附图说明

图1为本发明实施例提供的基于强化学习的网络主动防御方法示意图；

图2为本发明实施例提供的路由跳变系统框图；

图3为本发明实施例提供的安全感知的强化学习过程示意图；

图4为本发明实施例提供的基于强化学习的网络主动防御装置示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

攻击策略识别和最优防御策略选择的自动化对于最大化系统防御效率和网络的主动防御是必要的。强化学习(RL)的基本思想是通过最大化智能体从环境中获得的累积奖励值来学习目标的最佳策略。本质上，强化学习的方法更侧重于学习解决问题的策略。因此，可以利用强化学习的技术优势来解决现有路由跳变方法中的缺陷和不足。

强化学习与路由跳变的主动防御方法结合具有重要的研究价值。在本专利中，考虑将强化学习算法应用到路由跳变方法中，使防御者能够给自主学习到攻击者的攻击策略，从而进行最优防御策略选择，最大化主动防御方法的防御性能，此外，进一步提出了一种网络安全态势感知的算法和一种路由跳变周期自适应算法来降低路由跳变所带来的网络消耗与管理消耗，从而增加路由跳变主动防御方法的适用性。

图1为本发明实施例提供的基于强化学习的网络主动防御方法示意图，如图1所示，本发明实施例提供一种基于强化学习的网络主动防御方法，其执行主体为基于强化学习的网络主动防御装置，该方法包括：

步骤S101、感知网络安全态势值，所述网络安全态势值用于衡量网络安全态势的变化趋势。

具体来说，网络安全态势感知的步骤包括：

1)数据采集：通过各种检测工具，对各种影响系统安全性的要素进行检测采集获取，这一步是态势感知的前提。

2)态势理解：对各种网络安全要素数据进行分类、归并、关联分析等手段进行处理融合，对融合的信息进行综合分析，得出影响网络的整体安全状况，这一步是态势感知基础。

3)态势评估：定性、定量分析网络当前的安全状态和薄弱环节，并给出相应的应对措施，这一步是态势感知的核心。

4)态势预测：通过对态势评估输出的数据，预测网络安全状况的发展趋势，这一步是态势感知的目标。

本发明实施例通过感知网络安全态势值，以网络安全态势值衡量网络安全态势的变化趋势。

步骤S102、将所述网络安全态势值，输入至预设的自适应跳变周期调整算法模型，确定最佳的路由跳变周期。

具体来说，路由跳变预先使得网络拓扑存在多种组成方式和连接关系(即存在备选连接)，将网络中的拓扑以及节点之间的连接关系按照一定的规则(跳变策略)进行动态的变化，使得渗透者的渗透路径在一段时间后即会发生变化，从而导致先前收集的信息失效过期，理论上可极大地降低渗透的成功率。但频繁的路由跳变会导致网络资源与管理资源的巨大消耗，使得路由跳变的主动防御方法难以在真实网络环境中大规模部署。

本发明实施例将网络安全态势值，输入至预设的自适应跳变周期调整算法模型，确定最佳的路由跳变周期。

进一步提出一种自适应的跳变周期调整算法，通过安全态势感知，有效降低路由跳变的网络资源消耗和管理消耗，大幅提升路由主动防御方法的可用性。该自适应的跳变周期调整算法能够基于安全态势值动态调整跳变周期，从而大幅降低资源开销，显著增加路由跳变的主动防御方法的适用性。

自适应的跳变周期调整算法的详细伪代码如下：

本发明实施例提供的基于强化学习的网络主动防御方法，运用博弈理论，提出一种新颖的网络安全态势感知模型，可以准确感知网络安全态势的变化趋势，提升了网络的防御性能。

基于上述任一实施例，进一步地，所述感知网络安全态势值，具体包括：

获取攻击者的攻击收益，以及防御者的防御收益；

具体来说，图2为本发明实施例提供的路由跳变系统框图，如图2所示，攻击者和防御者之间的交互可以被建模为随机博弈，其被描述为四元组

攻击者攻击不同的节点需要付出不同的代价，同时如果攻击者攻击成功，将会获得相应的攻击收益。定义攻击消耗为

攻击收益为

防御者采取路由跳变具有相应的消耗，定义防御者的消耗函数为C_defense，用公式表示如下：

其中，C_defense表示防御者的消耗函数，μ表示跳变消耗系数，B^f(t)表示t时刻路由节点被选择的情况，B^f(t+1)表示t+1时刻路由节点被选择的情况，d[.]表示两个向量距离的计算公式。

表示t+1时刻路由节点i是否被选入数据流f的路径中，

表示t时刻路由节点i是否被选入数据流f的路径中，n表示路由节点的总数量。

如果防御者选择的路由没有被攻击中，则防御者会具有一定的奖励，被定义为

同时定义网络安全矩阵为NS_i×j，用公式表示如下：

其中，NS_i×j表示网络安全矩阵，ns_ij表示网络安全矩阵中的第i行第j列的元素，

表示第j列所代表的路由节点被攻击者命中的攻击收益，r_j ^d表示第j列所代表的路由节点防御成功获得的防御奖励，i表示过去的k个时隙。因此当前网络安全值V用公式表示如下：

其中，V表示当前网络安全值，k表示时隙，n表示网络中的节点数，m表示每个时隙被攻击的节点。ns_ij表示网络安全矩阵中的第i行第j列的元素，

表示第j列所代表的路由节点被攻击者命中的攻击消耗，C_defense表示防御者的防御消耗。

用网络安全值的导数表示安全态势值K，用公式表示如下：

其中，K表示安全态势值，V′(t₀)表示在t₀时刻当前网络安全值的导数值。

当K＝0时，攻防对抗中的收益与消耗相持平；当K>0时，攻击者占据优势；当K<0时，防御者占据优势。

基于上述任一实施例，进一步地，所述确定最佳的路由跳变周期之后，还包括：

基于上述任一实施例，进一步地，在输出防御者的最优路由跳变矩阵的过程中，根据所述网络安全态势值动态调整强化学习速率。

基于上述任一实施例，进一步地，所述强化学习算法模型为Q-learning算法模型或者深度Q-Learning算法模型。

具体来说，图3为本发明实施例提供的安全感知的强化学习过程示意图，如图3所示，攻击者在每个时刻所采用的攻击策略对防御者而言都是未知且不可预测的。基于此，拟采用强化学习中的Q-learning算法或者深度Q-Learning算法对攻击者的行为策略进行学习，从而实现能够在备选路径跳变集合中挑选最优路径。在Q-learning算法中，动作价值函数和更新过程表示如下：

Q_t+1(s_t,a_t)＝Q_t(s_t,a_t)+αδ

其中，δ表示TD-误差，R_t+1表示t+1时刻的反馈，γ表示折扣因子Q_t表示在t时间步的动作价值函数，α表示强化学习设置的学习速率。Q-learning算法以概率1收敛到最优动作价值函数Q*，因此Q-learning算法最终能够挑选出最优路径。进一步根据安全态势感知模型获得的安全态势值，动态调整学习速率加速强化学习，其中学习速率函数α用公式表示如下：

其中，α(K,τ)表示由网络安全态势值与时间因子共同决定的学习速率，K是感知到的当前网络安全态势值，τ是时间因子，其值每经过固定个数的时隙后增加1。

上述流程的详细伪代码如算法2所示：

本发明实施例提出一种基于强化学习的路由跳变方法，使防御者能够给自主学习到攻击者的攻击策略，从而进行最优防御策略选择，最大化主动防御方法的防御性能。

通过改造Q-learning算法，创新性地提出一种基于强化学习的路由跳变方法，能够根据网络安全态势，动态调整学习速率，加快算法收敛速度。

基于上述任一实施例，进一步地，所述强化学习算法模型的目标是收敛到最优动作价值函数；

具体来说，网络通常可以建模成无向连通图模型G＝(V,E)，其中V代表网络中的节点，E代表节点间的链路。定义一个多维向量

表示一条数据流当前所处路由的选择状态，

是一个布尔型变量，表示如果数据流f中的节点i在时隙t时被路由选中，b_i的值等于1，否则等于0。对一条从源节点S到目的节点D的数据流依据性能约束建立模型从而能够备选路由跳变的空间：

(1)入侵检测系统约束

存在一些关键节点拥有入侵检测系统，意味着一条数据流必须至少经过这些节点中的一个，将入侵检测系统约束写成可满足性模块理论(SMT)的形式：

(b_i＝1)∧…∧(b_j＝1)

其中，b_i与b_j表示具有入侵检系统的节点。

(2)容量约束

备选的跳变节点不能够包含那些没有额外带宽的节点或者链路，其SMT表达式为：

其中，

表示节点i的最大容量，n表示网络中路由节点的总数量，

表示路由节点i是否被选入数据流f_j的路径中，c_i(j)表示数据流j在节点i所需要的容量，

表示节点i的最小门限。c_i(j)可以被定义为：

其中，c_i(j)表示数据流j在节点i所需要的容量，C_i表示节点i剩余的容量，

表示一个通常被设置为2n的参数，n表示节点总数。

(3)服务质量约束

跳变路由需要满足一些用户服务质量需求，例如传输时延、最大跳数等。传输时延的SMT表达式为：

其中，n表示路由节点的总数量，

表示路由节点i是否被选入数据流f的路径中，

表示路由节点j是否被选入数据流f的路径中，

表示设定的时延阈值，m表示节点i周围邻居节点的数量，D_forward表示节点的转发时延，D_transmission表示节点的传输时延。路由最大跳数的SMT表达式为：

其中，n表示路由节点的总数量，

表示路由节点i是否被选入数据流f的路径中，ε^th表示设定的路由跳数阈值，这意味着路由的最大跳数需要小于门限值ε^th。

基于上述任一实施例，图4为本发明实施例提供的基于强化学习的网络主动防御装置示意图，如图4所示，本发明实施例提供一种基于强化学习的网络主动防御装置，包括感知模块401和路由跳变周期决策模块402，其中：

感知模块401用于感知网络安全态势值，所述网络安全态势值用于衡量网络安全态势的变化趋势。

路由跳变周期决策模块402用于将所述网络安全态势值，输入至预设的自适应跳变周期调整算法模型，确定最佳的路由跳变周期。

基于上述任一实施例，进一步地，还包括路由跳变矩阵决策模块；

本发明实施例提供一种基于强化学习的网络主动防御装置，用于执行上述任一实施例中所述的方法，通过本实施例提供的装置执行上述某一实施例中所述的方法的具体步骤与上述相应实施例相同，此处不再赘述。

本发明实施例提供的基于强化学习的网络主动防御装置，运用博弈理论，提出一种新颖的网络安全态势感知模型，可以准确感知网络安全态势的变化趋势，提升了网络的防御性能。使防御者能够给自主学习到攻击者的攻击策略，从而进行最优防御策略选择，最大化主动防御方法的防御性能。能够根据网络安全态势，动态调整学习速率，加快算法收敛速度。

图5为本发明实施例提供的电子设备的结构示意图，如图5所示，所述设备包括：处理器(processor)501、存储器(memory)502、总线503，以及存储在存储器上并可在处理器上运行的计算机程序。

其中，处理器501和存储器502通过总线503完成相互间的通信；

处理器501用于调用并执行存储器502中的计算机程序，以执行上述各方法实施例中的步骤，例如包括：

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例中的步骤，例如包括：

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述各方法实施例中的步骤，例如包括：

以上所描述的装置及设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。