CN112487431B

CN112487431B - 基于非完全信息的入侵检测系统最优稳态策略求解方法

Info

Publication number: CN112487431B
Application number: CN202011387702.1A
Authority: CN
Inventors: 冯宇; 寿宇航; 石月楼
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2022-07-15
Anticipated expiration: 2040-12-02
Also published as: CN112487431A

Abstract

一种基于非完全信息的入侵检测系统最优稳态策略求解方法，包括以下步骤：1)攻击者针对网络系统状态信息的缺失，建立基于信念的连续零和随机博弈模型，给出攻击者的最优稳态策略；2)入侵检测系统作为信息优势方，建立具有连续性和离散性的混合状态的Markov决策过程，给出入侵检测系统的最优稳态策略；3)使用一种基于深度强化学习的算法，求解出攻击者和入侵检测系统的最优稳态策略。本发明提供了一种基于非完全信息的入侵检测系统最优稳态策略求解方法，攻击者缺失网络系统状态信息的情况下，分析攻击者和入侵检测系统的行为，找到攻击者和入侵检测系统的最优稳态策略。

Description

基于非完全信息的入侵检测系统最优稳态策略求解方法

技术领域

本发明属于网络安全技术领域，具体涉及一种基于非完全信息博弈的入侵检测系统最优稳态策略的求解方法。

背景技术

目前网络系统已经遍布社会生产生活的各个领域，但是由于网络系统其本身开放的性质，各种恶意个人和团体出于金钱或其他目的，寻找网络系统中的漏洞，非法攻击各种网络系统，使得网络系统的安全面临严峻威胁和挑战。因此，网络系统的安全性已成为一个非常重要的研究方向。

网络系统的安全问题大多是在恶意攻击者和网络的防守者之间展开，博弈论为我们提供了一个很好的思想去研究这类安全问题，现如今已经有大量的研究将博弈论应用于网络攻防分析，但是大部分的研究仍然是在攻防双方完全知道各自信息的前提下展开，对于双方不完全掌握各自信息情况的研究仍然是这方面研究的难点和重点。然而在实际情况中，这种信息不完全的情况是比较常见的。

发明内容

为了克服已有技术的不足，本发明提供了一种基于非完全信息的入侵检测系统最优稳态策略求解方法，攻击者缺失网络系统状态信息的情况下，分析攻击者和入侵检测系统的行为，找到攻击者和入侵检测系统的最优稳态策略。

本发明解决其技术问题所采用的技术方案是：

一种基于非完全信息的入侵检测系统最优稳态策略求解方法，包括以下步骤：

1)攻击者针对网络系统状态信息的缺失，建立基于信念的连续零和随机博弈模型，给出攻击者的最优稳态策略；

2)入侵检测系统作为信息优势方，建立具有连续性和离散性的混合状态的Markov决策过程，给出入侵检测系统的最优稳态策略；

3)使用一种基于深度强化学习的算法，求解出攻击者和入侵检测系统的最优稳态策略。

进一步，所述步骤1)中，建立基于信念的连续零和随机博弈模型，攻击者的纯动作集合为

α_a＝i代表攻击者使用

中相应的某一攻击类型i，其相应给定的攻击代价为c_a(i)＞0，入侵检测系统的有限检测库集合为

其中，每个库l_i会以一定的概率

检测到攻击类型α_a，加载一个库l_i也有其相应给定的代价

入侵检测系统通过加载不同的库来检测不同的攻击类型，定义F_i，i∈{1,2,...,2^N}表示入侵检测系统对于库的不同配置。入侵检测系统的纯动作集合为

纯动作

表示选择具体的某一配置，因此执行纯动作α_d的代价为

若入侵检测系统执行纯动作α_d，则识别到攻击类型α_a的概率为

定义集合

表示网络系统3种状态的集合，其中S₁，S₂，S₃分别代表网络系统的健康，受损，故障3种状态。在状态S_k下，若攻击类型α_a未被入侵检测系统检测到，则会对网络系统造成的损害表示为D(S_k,α_a)，定义在状态S_k下，入侵检测系统选择纯动作α_d，攻击者选择攻击类型α_a，攻击者的收益，也即入侵检测系统的损失为

网络系统的不同状态之间会以一定的概率进行相互转移，定义网络系统的状态转移矩阵为

其中，

表示在纯动作{α_d,α_a}下，网络系统从状态S_i转移到状态S_j的转移概率；

给出攻击者的最优稳态策略，基于信念的连续零和随机博弈模型使用五元组

描述，模型设定如下：

1.1)

是博弈的参与者集合，

代表加权入侵检测系统，a代表攻击者；

1.2)

是对

联合概率分布的集合，Δ表示对于一个集合的概率测度空间，×表示笛卡尔积。

表示加权入侵检测系统的纯动作集合，

分别表示加权入侵检测系统和攻击者的概率动作集合。a＝{a_d,a_a}∈A是联合概率动作，

为加权入侵检测系统的概率动作，

为攻击者的概率动作；

1.3)

是信念状态集合，是对于集合

的联合概率分布，t时刻攻击者的信念为B_t，通过式(3)更新出在t+1时刻的信念B_t+1。

分别表示在t时刻，攻击者观测到的纯动作；

其中

由式(2)得到；

1.4)T是信念状态的转移概率：

T(b′|b,a)表示当前时刻，信念状态为b∈B，攻守双方的联合概率动作为a∈A的条件下，下一时刻转移到信念状态b′∈B的概率，

表示加权入侵检测系统执行纯动作

的概率，a_a(α_a)攻击者执行纯动作α_a的概率；

1.5)

是一步回报集合，其中，r_i(B_t＝b,A_t＝a)是参与者i在t时刻状态B_t＝b下采取联合概率动作A_t＝a的一步回报，给出攻击者和加权入侵检测系统的一步回报分别为

其中，

b(j)表示系统状态j的概率；

1.6)定义加权入侵检测系统和攻击者的目标函数：

其中，b₀为初始信念，0＜ρ＜1是折扣因子，π(b)是根据当前信念状态b，加权入侵检测系统和攻击者的稳态策略，每个参与者的目标都是最大化自己的目标函数，最优稳态策略求解问题也就是找到稳态鞍点均衡，即最优稳态策略

满足式(8)，

即为攻击者的最优稳态策略；

其中，

1.7)给出攻击者的最优状态值函数为

给出攻击者的最优状态-动作值函数为

其中，

表示对所有

和α_a组合的累加，

转移概率

表示当前时刻信念状态为b，联合概率动作为a，加权入侵检测系统和攻击者的纯动作分别为

α_a的条件下，下一时刻信念状态转移到b′的概率。

进一步，所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的Markov决策过程，给出入侵检测系统的最优稳态策略，该决策过程可以用一个四元组

描述，包括以下步骤：

2.1)

是联合概率动作集合。

表示入侵检测系统的概率动作集合；

2.2)

是混合状态集合；

2.3)

是混合状态的转移概率：

表示在当前时刻，混合状态为u，u＝{s,b}∈U，

b∈B，攻守双方的联合概率动作为

的条件下，下一时刻转移到混合状态u′的概率，u′＝{s′,b′}∈U，

b′∈B。

是定义在(2)状态转移矩阵中(s,s′)对应的元素，a_d(α_d)表示入侵检测系统执行纯动作α_d的概率；

2.4)入侵检测系统的一步回报为：

2.5)定义入侵检测系统的目标函数：

其中，u₀为初始混合状态，0＜ρ＜1是折扣因子，ζ_d(u)是根据当前混合状态u,入侵检测系统的稳态策略，入侵检测系统的目标是最大化自己的目标函数，入侵检测系统的最优稳态策略由(13)得到，记为

由式子(8)得到 (14)

2.6)给出入侵检测系统的最优状态值函数为

给出入侵检测系统的最优状态-动作值函数为

其中α＝{α_d,α_a}，

表示对所有α_d和α_a组合的累加，

为根据式(8)得到的策略

做出的最优概率动作，

转移概率

表示当前时刻信念状态为b，联合概率动作为

入侵检测系统和攻击者的纯动作分别为α_d，α_a的条件下，下一时刻信念状态转移到b′的概率。

更进一步，所述步骤3)中,使用一种基于深度强化学习的算法，找到攻击者和入侵检测系统的最优稳态策略，包括以下步骤：

3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数，就可以得到双方在不同状态下的最优稳态策略，考虑到信念状态的连续性，使用如下深度Q学习算法来求解最优状态-动作值函数，过程为：

3.1.1.初始化容量分别为C_a，C_d的记忆库M_a，M_d；

3.1.2.分别随机初始化Q网络

和Q_d(b,α；σ_d)的权重σ_a，σ_d；

3.1.3.分别初始化目标网络

的权重，

3.1.4.设置初始状态为b₁∈B，

u₁＝{s₁,b₁}；

3.1.5.对于t＝1,2,...执行以下循环：

3.1.6.对于t时刻的信念状态b_t，找到当前时刻攻击者和加权入侵检测系统的策略；

3.1.7.对于t时刻的混合状态u_t和攻击者的策略，找到当前时刻入侵检测系统的策略；

3.1.8.根据ε-greedy政策选择纯动作

α_d,t；

3.1.9.观测到系统状态s_t+1，计算t时刻的

记为

3.1.10.根据(3)算出t+1时刻的信念状态b_t+1，设置混合状态u_t+1＝{s_t+1,b_t+1}；

3.1.11.把当前的经历

分别存储在记忆库M_a，M_d中；

3.1.12.随机分别从记忆库M_a，M_d抽取若干条记忆

3.1.13.令

3.1.14.对于

[z_d,l-Q_d(u_l,α_l；σ_d)]²执行梯度下降法训练Q网络的权重σ_a，σ_d；

3.1.15.每过D步以后，把Q网络的权重赋给目标网络；

3.1.16.循环结束；

所述3.1.8中，

分别为攻击者在t时刻观测到的纯动作，α_d,t为入侵检测系统在t时刻实际执行的纯动作；3.1.12到3.1.14中，下标j，l表示随机抽取到的某一时刻j，l；3.1.13中，

表示j+1时刻所有纯动作

和α′_a组合的累加，

表示l+1时刻所有纯动作α′_d和α′_a组合的累加；3.1.14中，权重σ_a，σ_d的更新公式为：

其中0＜γ≤1是步长因子，下标k表示抽取的若干记忆执行梯度下降法时的迭代次数，

和

分别表示

Q_d(u,α；σ_d,k)的梯度；

3.2)当训练好神经网络后，使用Q网络

和Q_d(b,α；σ_d)分别估计出最优状态-动作值函数

针对不同的信念状态b，使用线性规划即能够得到攻击者的最优稳态策略

然后入侵检测系统通过

求解最优化问题(13)得到最优稳态策略

本发明以网络系统为基本模型，考虑在攻击者无法获取网络系统状态信息的情况下，攻击者对网络系统展开攻击。同时入侵检测系统检测网络中存在的攻击并进行拦截，减少攻击者对系统的损害。因此在我们的模型中，入侵检测系统可以称之为网络的防守者。于是，我们的网络攻防将在网络的攻击者和网络的防守者，即入侵检测系统之间展开。由于攻守双方信息的不对称，攻击者通过使用对网络系统状态的信念与虚构的加权入侵检测系统竞争，在连续的零和随机博弈模型内解决相应的策略求解问题。由于入侵检测系统可以完全获知网络系统的状态，因此入侵检测系统通过解决具有连续性和离散性的混合状态的Markov决策过程来求解策略。此外，为了应对连续的信念状态空间，提出了一种基于深度强化学习的算法，以找到最优稳态策略。

具体求解过程如下：对于攻击者，建立基于信念的连续零和随机博弈模型，给出攻击者的最优稳态策略；对于入侵检测系统，建立具有连续性和离散性的混合状态的Markov决策过程，给出入侵检测系统的最优稳态策略；最后使用一种基于深度强化学习的算法，分别求解出攻击者和入侵检测系统的最优稳态策略。

本发明的有益效果主要表现在：本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型，对于入侵检测系统，建立具有连续性和离散性的混合状态的Markov决策过程。为了克服信念状态的连续性带来的求解困难，使用一种基于深度强化学习的算法，求解出攻击者和入侵检测系统的最优稳态策略。

附图说明

图1是本发明方法求解得到的最优稳态策略在实际执行中的仿真效果图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于非完全信息的入侵检测系统最优稳态策略求解方法。其具体求解过程如下：对于攻击者，建立基于信念的连续零和随机博弈模型，给出攻击者的最优稳态策略；对于入侵检测系统，建立具有连续性和离散性的混合状态的Markov决策过程，给出入侵检测系统的最优稳态策略；最后使用一种基于深度强化学习的算法，分别求解出攻击者和入侵检测系统的最优稳态策略。

α_a＝i代表攻击者使用

中相应的某一攻击类型i，其相应给定的攻击代价为c_a(1)＝1，c_a(2)＝1.2，入侵检测系统的有限检测库集合为

其中，库l₁，l₂会以一定的概率

检测到攻击类型α_a。加载一个库l_i也有其给定的代价

入侵检测系统通过加载不同的库来检测不同的攻击类型，定义F_i，i∈{1,2,3,4}表示入侵检测系统对于库的不同配置。入侵检测系统的纯动作集合为

纯动作

表示选择具体的某一配置，因此执行纯动作α_d的代价为

定义集合

表示网络系统3种状态的集合，其中S₁，S₂，S₃分别代表网络系统的健康，受损，故障3种状态。在状态S_k下，若攻击类型α_a未被入侵检测系统检测到，则会对网络系统造成的损害表示为D(S_k,α_a)，设定

定义在状态S_k下，入侵检测系统选择纯动作α_d，攻击者选择攻击类型α_a，攻击者的收益，也即入侵检测系统的损失为

其中，

表示在纯动作{α_d,α_a}下，网络系统从状态S_i转移到状态S_j的转移概率。假设攻击者选择攻击类型1，入侵检测系统同时加载库l₁ l₂，相应的某一转移概率为

其他的转移概率可以通过类似方法求得。

描述，模型设定如下：

1.1)

是博弈的参与者集合，

代表加权入侵检测系统，a代表攻击者；

1.2)

是对

表示加权入侵检测系统的纯动作集合，

分别表示加权入侵检测系统和攻击者的概率动作集合。

是联合概率动作，

为加权入侵检测系统的概率动作，

为攻击者的概率动作；

1.3)

是信念状态集合，是对于集合

分别表示在t时刻，攻击者观测到的纯动作；

其中

由式(2)得到；

1.4)T是信念状态的转移概率：

表示加权入侵检测系统执行纯动作

的概率，a_a(α_a)攻击者执行纯动作α_a的概率；

1.5)

其中，

b(j)表示系统状态j的概率；

1.6)定义加权入侵检测系统和攻击者的目标函数：

其中，b₀为初始信念，ρ＝0.9是折扣因子，π(b)是根据当前信念状态b，加权入侵检测系统和攻击者的稳态策略，每个参与者的目标都是最大化自己的目标函数，最优稳态策略求解问题也就是找到稳态鞍点均衡，即最优稳态策略

满足式(8)，

即为攻击者的最优稳态策略；

其中，J＝J_a＝-J_d；

1.7)给出攻击者的最优状态值函数为

给出攻击者的最优状态-动作值函数为

其中，

表示对所有

和α_a组合的累加，

转移概率

α_a的条件下，下一时刻信念状态转移到b′的概率。

描述，包括以下步骤：

2.1)

是联合概率动作集合。

表示入侵检测系统的概率动作集合；

2.2)

是混合状态集合；

2.3)

是混合状态的转移概率：

表示在当前时刻，混合状态为u，u＝{s,b}∈U，

b∈B，攻守双方的联合概率动作为

b′∈B。

2.4)入侵检测系统的一步回报为：

2.5)定义入侵检测系统的目标函数：

其中，u₀为初始混合状态，ρ＝0.9是折扣因子，ζ_d(u)是根据当前混合状态u,入侵检测系统的稳态策略，入侵检测系统的目标是最大化自己的目标函数，入侵检测系统的最优稳态策略由(13)得到，记为

由式子(8)得到 (14)

2.6)给出入侵检测系统的最优状态值函数为

给出入侵检测系统的最优状态-动作值函数为

其中α＝{α_d,α_a}，

表示对所有α_d和α_a组合的累加，

为根据式(8)得到的策略

做出的最优概率动作，

转移概率

表示当前时刻信念状态为b，联合概率动作为

3.1.1.初始化容量分别为C_a＝C_d＝1000的记忆库M_a，M_d；

3.1.2.分别随机初始化Q网络

和Q_d(b,α；σ_d)的权重σ_a，σ_d；

3.1.3.分别初始化目标网络

的权重，

3.1.4.设置初始状态为b₁∈B，

u₁＝{s₁,b₁}；

3.1.5.对于t＝1,2,...执行以下循环：

3.1.8.根据ε-greedy政策选择纯动作

α_d,t；

3.1.9.观测到系统状态s_t+1，计算t时刻的

记为

3.1.11.把当前的经历

分别存储在记忆库M_a，M_d中；

3.1.12.随机分别从记忆库M_a，M_d抽取100条记忆

3.1.13.令

3.1.14.对于

3.1.15.每过D＝200步以后，把Q网络的权重赋给目标网络；

3.1.16.循环结束；

所述3.1.8中，

表示j+1时刻所有纯动作

和α′_a组合的累加，

其中γ＝0.0005是步长因子，下标k表示抽取的若干记忆执行梯度下降法时的迭代次数，

和

分别表示

Q_d(u,α；σ_d,k)的梯度，Q网络和目标网络都使用了5层神经网络，每层的神经元个数分别为80,60,50,40,30。激活函数使用的是ReLU；

3.2)当训练好神经网络后，使用Q网络

和Q_d(b,α；σ_d)分别估计出最优状态-动作值函数

然后入侵检测系统通过

求解最优化问题(13)得到最优稳态策略

本实施例的基于非完全信息的入侵检测系统最优稳态策略求解方法，使用博弈论的思想并结合深度强化学习算法来得到入侵检测系统最优稳态策略，本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型，对于入侵检测系统，建立具有连续性和离散性的混合状态的Markov决策过程。为了克服信念状态的连续性带来的求解困难，使用一种基于深度强化学习的算法，求解出攻击者和入侵检测系统的最优稳态策略。

以上结合附图详细说明和陈述了本发明的实施方式，但并不局限于上述方式。在本领域的技术人员所具备的知识范围内，只要以本发明的构思为基础，还可以做出多种变化和改进。

Claims

1.一种基于非完全信息的入侵检测系统最优稳态策略求解方法，其特征在于，所述方法包括以下步骤：

3)使用一种基于深度强化学习的算法，求解出攻击者和入侵检测系统的最优稳态策略；

所述步骤1)中，建立基于信念的连续零和随机博弈模型，攻击者的纯动作集合为

α_a＝i代表攻击者使用

其中，每个库l_i会以概率

检测到攻击类型α_a，加载一个库l_i也有其相应给定的代价

入侵检测系统通过加载不同的库来检测不同的攻击类型，定义F_i，i∈{1,2,...,2^N}表示入侵检测系统对于库的不同配置；入侵检测系统的纯动作集合为

纯动作

表示选择具体的某一配置，因此执行纯动作α_d的代价为

定义集合

表示网络系统3种状态的集合，其中S₁，S₂，S₃分别代表网络系统的健康，受损，故障3种状态，在状态S_k下，若攻击类型α_a未被入侵检测系统检测到，则会对网络系统造成的损害表示为D(S_k,α_a)，定义在状态S_k下，入侵检测系统选择纯动作α_d，攻击者选择攻击类型α_a，攻击者的收益，也即入侵检测系统的损失为