CN112487431B - 基于非完全信息的入侵检测系统最优稳态策略求解方法 - Google Patents
基于非完全信息的入侵检测系统最优稳态策略求解方法 Download PDFInfo
- Publication number
- CN112487431B CN112487431B CN202011387702.1A CN202011387702A CN112487431B CN 112487431 B CN112487431 B CN 112487431B CN 202011387702 A CN202011387702 A CN 202011387702A CN 112487431 B CN112487431 B CN 112487431B
- Authority
- CN
- China
- Prior art keywords
- state
- detection system
- intrusion detection
- attacker
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000002787 reinforcement Effects 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims description 76
- 230000006870 function Effects 0.000 claims description 33
- 230000007704 transition Effects 0.000 claims description 27
- 238000002156 mixing Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 13
- 238000009825 accumulation Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims 1
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 5
- 230000007123 defense Effects 0.000 description 3
- 241000170489 Upis Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Virology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。本发明提供了一种基于非完全信息的入侵检测系统最优稳态策略求解方法,攻击者缺失网络系统状态信息的情况下,分析攻击者和入侵检测系统的行为,找到攻击者和入侵检测系统的最优稳态策略。
Description
技术领域
本发明属于网络安全技术领域,具体涉及一种基于非完全信息博弈的入侵检测系统最优稳态策略的求解方法。
背景技术
目前网络系统已经遍布社会生产生活的各个领域,但是由于网络系统其本身开放的性质,各种恶意个人和团体出于金钱或其他目的,寻找网络系统中的漏洞,非法攻击各种网络系统,使得网络系统的安全面临严峻威胁和挑战。因此,网络系统的安全性已成为一个非常重要的研究方向。
网络系统的安全问题大多是在恶意攻击者和网络的防守者之间展开,博弈论为我们提供了一个很好的思想去研究这类安全问题,现如今已经有大量的研究将博弈论应用于网络攻防分析,但是大部分的研究仍然是在攻防双方完全知道各自信息的前提下展开,对于双方不完全掌握各自信息情况的研究仍然是这方面研究的难点和重点。然而在实际情况中,这种信息不完全的情况是比较常见的。
发明内容
为了克服已有技术的不足,本发明提供了一种基于非完全信息的入侵检测系统最优稳态策略求解方法,攻击者缺失网络系统状态信息的情况下,分析攻击者和入侵检测系统的行为,找到攻击者和入侵检测系统的最优稳态策略。
本发明解决其技术问题所采用的技术方案是:
一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
进一步,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为αa=i代表攻击者使用中相应的某一攻击类型i,其相应给定的攻击代价为ca(i)>0,入侵检测系统的有限检测库集合为其中,每个库li会以一定的概率检测到攻击类型αa,加载一个库li也有其相应给定的代价入侵检测系统通过加载不同的库来检测不同的攻击类型,定义Fi,i∈{1,2,...,2N}表示入侵检测系统对于库的不同配置。入侵检测系统的纯动作集合为纯动作表示选择具体的某一配置,因此执行纯动作αd的代价为若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为定义集合表示网络系统3种状态的集合,其中S1,S2,S3分别代表网络系统的健康,受损,故障3种状态。在状态Sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为D(Sk,αa),定义在状态Sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为
网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为
1.2)是对联合概率分布的集合,Δ表示对于一个集合的概率测度空间,×表示笛卡尔积。表示加权入侵检测系统的纯动作集合,分别表示加权入侵检测系统和攻击者的概率动作集合。a={ad,aa}∈A是联合概率动作,为加权入侵检测系统的概率动作,为攻击者的概率动作;
1.4)T是信念状态的转移概率:
T(b′|b,a)表示当前时刻,信念状态为b∈B,攻守双方的联合概率动作为a∈A的条件下,下一时刻转移到信念状态b′∈B的概率,表示加权入侵检测系统执行纯动作的概率,aa(αa)攻击者执行纯动作αa的概率;
1.6)定义加权入侵检测系统和攻击者的目标函数:
其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略满足式(8),即为攻击者的最优稳态策略;
1.7)给出攻击者的最优状态值函数为
给出攻击者的最优状态-动作值函数为
表示在当前时刻,混合状态为u,u={s,b}∈U,b∈B,攻守双方的联合概率动作为 的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈U,b′∈B。是定义在(2)状态转移矩阵中(s,s′)对应的元素,ad(αd)表示入侵检测系统执行纯动作αd的概率;
2.4)入侵检测系统的一步回报为:
2.5)定义入侵检测系统的目标函数:
2.6)给出入侵检测系统的最优状态值函数为
给出入侵检测系统的最优状态-动作值函数为
其中α={αd,αa},表示对所有αd和αa组合的累加,为根据式(8)得到的策略做出的最优概率动作,转移概率表示当前时刻信念状态为b,联合概率动作为入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率。
更进一步,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度Q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为Ca,Cd的记忆库Ma,Md;
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.10.根据(3)算出t+1时刻的信念状态bt+1,设置混合状态ut+1={st+1,bt+1};
3.1.15.每过D步以后,把Q网络的权重赋给目标网络;
3.1.16.循环结束;
所述3.1.8中,分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,表示j+1时刻所有纯动作和α′a组合的累加,表示l+1时刻所有纯动作α′d和α′a组合的累加;3.1.14中,权重σa,σd的更新公式为:
3.2)当训练好神经网络后,使用Q网络和Qd(b,α;σd)分别估计出最优状态-动作值函数针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略然后入侵检测系统通过求解最优化问题(13)得到最优稳态策略
本发明以网络系统为基本模型,考虑在攻击者无法获取网络系统状态信息的情况下,攻击者对网络系统展开攻击。同时入侵检测系统检测网络中存在的攻击并进行拦截,减少攻击者对系统的损害。因此在我们的模型中,入侵检测系统可以称之为网络的防守者。于是,我们的网络攻防将在网络的攻击者和网络的防守者,即入侵检测系统之间展开。由于攻守双方信息的不对称,攻击者通过使用对网络系统状态的信念与虚构的加权入侵检测系统竞争,在连续的零和随机博弈模型内解决相应的策略求解问题。由于入侵检测系统可以完全获知网络系统的状态,因此入侵检测系统通过解决具有连续性和离散性的混合状态的Markov决策过程来求解策略。此外,为了应对连续的信念状态空间,提出了一种基于深度强化学习的算法,以找到最优稳态策略。
具体求解过程如下:对于攻击者,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;对于入侵检测系统,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;最后使用一种基于深度强化学习的算法,分别求解出攻击者和入侵检测系统的最优稳态策略。
本发明的有益效果主要表现在:本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型,对于入侵检测系统,建立具有连续性和离散性的混合状态的Markov决策过程。为了克服信念状态的连续性带来的求解困难,使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
附图说明
图1是本发明方法求解得到的最优稳态策略在实际执行中的仿真效果图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于非完全信息的入侵检测系统最优稳态策略求解方法。其具体求解过程如下:对于攻击者,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;对于入侵检测系统,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;最后使用一种基于深度强化学习的算法,分别求解出攻击者和入侵检测系统的最优稳态策略。
一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
进一步,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为αa=i代表攻击者使用中相应的某一攻击类型i,其相应给定的攻击代价为ca(1)=1,ca(2)=1.2,入侵检测系统的有限检测库集合为其中,库l1,l2会以一定的概率 检测到攻击类型αa。加载一个库li也有其给定的代价入侵检测系统通过加载不同的库来检测不同的攻击类型,定义Fi,i∈{1,2,3,4}表示入侵检测系统对于库的不同配置。入侵检测系统的纯动作集合为纯动作表示选择具体的某一配置,因此执行纯动作αd的代价为若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为定义集合表示网络系统3种状态的集合,其中S1,S2,S3分别代表网络系统的健康,受损,故障3种状态。在状态Sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为D(Sk,αa),设定定义在状态Sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为
网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为
1.2)是对联合概率分布的集合,Δ表示对于一个集合的概率测度空间,×表示笛卡尔积。表示加权入侵检测系统的纯动作集合,分别表示加权入侵检测系统和攻击者的概率动作集合。是联合概率动作,为加权入侵检测系统的概率动作,为攻击者的概率动作;
1.4)T是信念状态的转移概率:
T(b′|b,a)表示当前时刻,信念状态为b∈B,攻守双方的联合概率动作为a∈A的条件下,下一时刻转移到信念状态b′∈B的概率,表示加权入侵检测系统执行纯动作的概率,aa(αa)攻击者执行纯动作αa的概率;
1.6)定义加权入侵检测系统和攻击者的目标函数:
其中,b0为初始信念,ρ=0.9是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略满足式(8),即为攻击者的最优稳态策略;
其中,J=Ja=-Jd;
1.7)给出攻击者的最优状态值函数为
给出攻击者的最优状态-动作值函数为
表示在当前时刻,混合状态为u,u={s,b}∈U,b∈B,攻守双方的联合概率动作为 的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈U,b′∈B。是定义在(2)状态转移矩阵中(s,s′)对应的元素,ad(αd)表示入侵检测系统执行纯动作αd的概率;
2.4)入侵检测系统的一步回报为:
2.5)定义入侵检测系统的目标函数:
2.6)给出入侵检测系统的最优状态值函数为
给出入侵检测系统的最优状态-动作值函数为
其中α={αd,αa},表示对所有αd和αa组合的累加,为根据式(8)得到的策略做出的最优概率动作,转移概率表示当前时刻信念状态为b,联合概率动作为入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率。
更进一步,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度Q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为Ca=Cd=1000的记忆库Ma,Md;
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.10.根据(3)算出t+1时刻的信念状态bt+1,设置混合状态ut+1={st+1,bt+1};
3.1.15.每过D=200步以后,把Q网络的权重赋给目标网络;
3.1.16.循环结束;
所述3.1.8中,分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,表示j+1时刻所有纯动作和α′a组合的累加,表示l+1时刻所有纯动作α′d和α′a组合的累加;3.1.14中,权重σa,σd的更新公式为:
其中γ=0.0005是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,和分别表示Qd(u,α;σd,k)的梯度,Q网络和目标网络都使用了5层神经网络,每层的神经元个数分别为80,60,50,40,30。激活函数使用的是ReLU;
3.2)当训练好神经网络后,使用Q网络和Qd(b,α;σd)分别估计出最优状态-动作值函数针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略然后入侵检测系统通过求解最优化问题(13)得到最优稳态策略
本实施例的基于非完全信息的入侵检测系统最优稳态策略求解方法,使用博弈论的思想并结合深度强化学习算法来得到入侵检测系统最优稳态策略,本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型,对于入侵检测系统,建立具有连续性和离散性的混合状态的Markov决策过程。为了克服信念状态的连续性带来的求解困难,使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
以上结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。
Claims (1)
1.一种基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述方法包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略;
所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为αa=i代表攻击者使用中相应的某一攻击类型i,其相应给定的攻击代价为ca(i)>0,入侵检测系统的有限检测库集合为其中,每个库li会以概率检测到攻击类型αa,加载一个库li也有其相应给定的代价入侵检测系统通过加载不同的库来检测不同的攻击类型,定义Fi,i∈{1,2,...,2N}表示入侵检测系统对于库的不同配置;入侵检测系统的纯动作集合为纯动作表示选择具体的某一配置,因此执行纯动作αd的代价为若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为定义集合表示网络系统3种状态的集合,其中S1,S2,S3分别代表网络系统的健康,受损,故障3种状态,在状态Sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为D(Sk,αa),定义在状态Sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为
网络系统的不同状态之间会以设定的概率进行相互转移,定义网络系统的状态转移矩阵为
1.2)是对联合概率分布的集合,Δ表示对于一个集合的概率测度空间,×表示笛卡尔积,表示加权入侵检测系统的纯动作集合,分别表示加权入侵检测系统和攻击者的概率动作集合,是联合概率动作,为加权入侵检测系统的概率动作,为攻击者的概率动作;
1.4)T是信念状态的转移概率:
T(b′|b,a)表示当前时刻,信念状态为b∈B,攻守双方的联合概率动作为a∈A的条件下,下一时刻转移到信念状态b′∈B的概率,表示加权入侵检测系统执行纯动作的概率,aa(αa)攻击者执行纯动作αa的概率;
1.6)定义加权入侵检测系统和攻击者的目标函数:
其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略满足式(8),即为攻击者的最优稳态策略;
其中,J=Ja=-Jd;
1.7)给出攻击者的最优状态值函数为
给出攻击者的最优状态-动作值函数为
表示在当前时刻,混合状态为u,u={s,b}∈U,b∈B,攻守双方的联合概率动作为的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈U,b′∈B,是定义在公式(2)状态转移矩阵中(s,s′)对应的元素,ad(αd)表示入侵检测系统执行纯动作αd的概率;
2.4)入侵检测系统的一步回报为:
2.5)定义入侵检测系统的目标函数:
2.6)给出入侵检测系统的最优状态值函数为
给出入侵检测系统的最优状态-动作值函数为
其中α={αd,αa},表示对所有αd和αa组合的累加,为根据式(8)得到的策略做出的最优概率动作,转移概率表示当前时刻信念状态为b,联合概率动作为入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率;
所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度Q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为Ca,Cd的记忆库Ma,Md;
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.10.根据公式(3)算出t+1时刻的信念状态bt+1,设置混合状态ut+1={st+1,bt+1};
3.1.15.每过D步以后,把Q网络的权重赋给目标网络
3.1.16.循环结束;
所述3.1.8中,分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,表示j+1时刻所有纯动作和α′a组合的累加,表示l+1时刻所有纯动作α′d和α′a组合的累加;3.1.14中,权重σa,σd的更新公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011387702.1A CN112487431B (zh) | 2020-12-02 | 2020-12-02 | 基于非完全信息的入侵检测系统最优稳态策略求解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011387702.1A CN112487431B (zh) | 2020-12-02 | 2020-12-02 | 基于非完全信息的入侵检测系统最优稳态策略求解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487431A CN112487431A (zh) | 2021-03-12 |
CN112487431B true CN112487431B (zh) | 2022-07-15 |
Family
ID=74938780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011387702.1A Active CN112487431B (zh) | 2020-12-02 | 2020-12-02 | 基于非完全信息的入侵检测系统最优稳态策略求解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487431B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800415B (zh) * | 2021-04-13 | 2021-09-07 | 深圳市云盾科技有限公司 | 一种基于贪婪算法模型的弱口令检测方法和系统 |
CN114048833B (zh) * | 2021-11-05 | 2023-01-17 | 哈尔滨工业大学(深圳) | 基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置 |
CN114760095B (zh) * | 2022-03-09 | 2023-04-07 | 西安电子科技大学 | 一种意图驱动的网络防御策略生成方法、系统及应用 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101808020A (zh) * | 2010-04-19 | 2010-08-18 | 吉林大学 | 基于不完全信息动态博弈的入侵响应决策方法 |
EP2271047A1 (en) * | 2009-06-22 | 2011-01-05 | Deutsche Telekom AG | Game theoretic recommendation system and method for security alert dissemination |
CN103152345A (zh) * | 2013-03-07 | 2013-06-12 | 南京理工大学常熟研究院有限公司 | 一种攻防博弈的网络安全最优攻防决策方法 |
WO2013176784A1 (en) * | 2012-05-24 | 2013-11-28 | University Of Southern California | Optimal strategies in security games |
CN108512837A (zh) * | 2018-03-16 | 2018-09-07 | 西安电子科技大学 | 一种基于攻防演化博弈的网络安全态势评估的方法及系统 |
CN108833402A (zh) * | 2018-06-11 | 2018-11-16 | 中国人民解放军战略支援部队信息工程大学 | 一种基于有限理性博弈理论的网络最优防御策略选取方法及装置 |
CN109327427A (zh) * | 2018-05-16 | 2019-02-12 | 中国人民解放军战略支援部队信息工程大学 | 一种面对未知威胁的动态网络变化决策方法及其系统 |
CN111563330A (zh) * | 2020-05-07 | 2020-08-21 | 东北大学 | 一种基于零和博弈对策的信息物理系统安全优化分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190354100A1 (en) * | 2018-05-21 | 2019-11-21 | Board Of Regents, The University Of Texas System | Bayesian control methodology for the solution of graphical games with incomplete information |
-
2020
- 2020-12-02 CN CN202011387702.1A patent/CN112487431B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2271047A1 (en) * | 2009-06-22 | 2011-01-05 | Deutsche Telekom AG | Game theoretic recommendation system and method for security alert dissemination |
CN101808020A (zh) * | 2010-04-19 | 2010-08-18 | 吉林大学 | 基于不完全信息动态博弈的入侵响应决策方法 |
WO2013176784A1 (en) * | 2012-05-24 | 2013-11-28 | University Of Southern California | Optimal strategies in security games |
CN103152345A (zh) * | 2013-03-07 | 2013-06-12 | 南京理工大学常熟研究院有限公司 | 一种攻防博弈的网络安全最优攻防决策方法 |
CN108512837A (zh) * | 2018-03-16 | 2018-09-07 | 西安电子科技大学 | 一种基于攻防演化博弈的网络安全态势评估的方法及系统 |
CN109327427A (zh) * | 2018-05-16 | 2019-02-12 | 中国人民解放军战略支援部队信息工程大学 | 一种面对未知威胁的动态网络变化决策方法及其系统 |
CN108833402A (zh) * | 2018-06-11 | 2018-11-16 | 中国人民解放军战略支援部队信息工程大学 | 一种基于有限理性博弈理论的网络最优防御策略选取方法及装置 |
CN111563330A (zh) * | 2020-05-07 | 2020-08-21 | 东北大学 | 一种基于零和博弈对策的信息物理系统安全优化分析方法 |
Non-Patent Citations (1)
Title |
---|
基于博弈的无线传感器网络入侵检测模型;熊自立等;《计算机科学》;20170615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112487431A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487431B (zh) | 基于非完全信息的入侵检测系统最优稳态策略求解方法 | |
Lin et al. | Free-riders in federated learning: Attacks and defenses | |
CN115943382A (zh) | 用于防御对联邦学习系统的对抗性攻击的方法和装置 | |
CN115333825A (zh) | 针对联邦学习神经元梯度攻击的防御方法 | |
Xue et al. | Backdoors hidden in facial features: A novel invisible backdoor attack against face recognition systems | |
Zhu et al. | Binarizedattack: Structural poisoning attacks to graph-based anomaly detection | |
CN114764499A (zh) | 一种面向联邦学习的对抗样本投毒攻击方法 | |
Zhao et al. | Intrusion detection based on clustering genetic algorithm | |
CN114491541B (zh) | 基于知识图谱路径分析的安全运营剧本自动化编排方法 | |
CN117272306A (zh) | 基于交替最小化的联邦学习半目标投毒攻击方法及系统 | |
CN105933316A (zh) | 网络安全级别的确定方法和装置 | |
Li et al. | Model architecture level privacy leakage in neural networks | |
Wu et al. | Strategies of attack–defense game for wireless sensor networks considering the effect of confidence level in fuzzy environment | |
CN114494771B (zh) | 一种可防御后门攻击的联邦学习图像分类方法 | |
CN117540376A (zh) | 一种支持抗投毒和推理攻击的联邦学习方法及系统 | |
Chen et al. | Adaptive adversarial training for meta reinforcement learning | |
Liu et al. | An adaptive black-box defense against trojan attacks (trojdef) | |
CN114024738A (zh) | 一种基于多阶段攻防信号的网络防御方法 | |
Zhang et al. | Evaluation of data poisoning attacks on federated learning-based network intrusion detection system | |
CN113132398A (zh) | 一种基于q学习的阵列蜜罐系统防御策略预测方法 | |
CN116595467A (zh) | 一种基于动态加权图卷积的异常用户检测方法及存储介质 | |
CN112583844B (zh) | 一种面向高级可持续威胁攻击的大数据平台防御方法 | |
Naem et al. | Optimizing community detection in social networks using antlion and K-median | |
Reddy et al. | DDoS attack detection in cloud using ensemble model tuned with optimal hyperparameter | |
Li et al. | FlPhish: Reputation-based phishing byzantine defense in ensemble federated learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |