CN112487431B - 基于非完全信息的入侵检测系统最优稳态策略求解方法 - Google Patents

基于非完全信息的入侵检测系统最优稳态策略求解方法 Download PDF

Info

Publication number
CN112487431B
CN112487431B CN202011387702.1A CN202011387702A CN112487431B CN 112487431 B CN112487431 B CN 112487431B CN 202011387702 A CN202011387702 A CN 202011387702A CN 112487431 B CN112487431 B CN 112487431B
Authority
CN
China
Prior art keywords
state
detection system
intrusion detection
attacker
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011387702.1A
Other languages
English (en)
Other versions
CN112487431A (zh
Inventor
冯宇
寿宇航
石月楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011387702.1A priority Critical patent/CN112487431B/zh
Publication of CN112487431A publication Critical patent/CN112487431A/zh
Application granted granted Critical
Publication of CN112487431B publication Critical patent/CN112487431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Virology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。本发明提供了一种基于非完全信息的入侵检测系统最优稳态策略求解方法,攻击者缺失网络系统状态信息的情况下,分析攻击者和入侵检测系统的行为,找到攻击者和入侵检测系统的最优稳态策略。

Description

基于非完全信息的入侵检测系统最优稳态策略求解方法
技术领域
本发明属于网络安全技术领域,具体涉及一种基于非完全信息博弈的入侵检测系统最优稳态策略的求解方法。
背景技术
目前网络系统已经遍布社会生产生活的各个领域,但是由于网络系统其本身开放的性质,各种恶意个人和团体出于金钱或其他目的,寻找网络系统中的漏洞,非法攻击各种网络系统,使得网络系统的安全面临严峻威胁和挑战。因此,网络系统的安全性已成为一个非常重要的研究方向。
网络系统的安全问题大多是在恶意攻击者和网络的防守者之间展开,博弈论为我们提供了一个很好的思想去研究这类安全问题,现如今已经有大量的研究将博弈论应用于网络攻防分析,但是大部分的研究仍然是在攻防双方完全知道各自信息的前提下展开,对于双方不完全掌握各自信息情况的研究仍然是这方面研究的难点和重点。然而在实际情况中,这种信息不完全的情况是比较常见的。
发明内容
为了克服已有技术的不足,本发明提供了一种基于非完全信息的入侵检测系统最优稳态策略求解方法,攻击者缺失网络系统状态信息的情况下,分析攻击者和入侵检测系统的行为,找到攻击者和入侵检测系统的最优稳态策略。
本发明解决其技术问题所采用的技术方案是:
一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
进一步,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为
Figure BDA0002811513280000021
αa=i代表攻击者使用
Figure BDA0002811513280000022
中相应的某一攻击类型i,其相应给定的攻击代价为ca(i)>0,入侵检测系统的有限检测库集合为
Figure BDA0002811513280000023
其中,每个库li会以一定的概率
Figure BDA0002811513280000024
检测到攻击类型αa,加载一个库li也有其相应给定的代价
Figure BDA0002811513280000025
入侵检测系统通过加载不同的库来检测不同的攻击类型,定义Fi,i∈{1,2,...,2N}表示入侵检测系统对于库的不同配置。入侵检测系统的纯动作集合为
Figure BDA0002811513280000026
纯动作
Figure BDA0002811513280000027
表示选择具体的某一配置,因此执行纯动作αd的代价为
Figure BDA0002811513280000028
若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为
Figure BDA0002811513280000029
定义集合
Figure BDA00028115132800000210
表示网络系统3种状态的集合,其中S1,S2,S3分别代表网络系统的健康,受损,故障3种状态。在状态Sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为D(Ska),定义在状态Sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为
Figure BDA00028115132800000211
网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为
Figure BDA00028115132800000212
其中,
Figure BDA00028115132800000213
表示在纯动作{αda}下,网络系统从状态Si转移到状态Sj的转移概率;
给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组
Figure BDA00028115132800000214
描述,模型设定如下:
1.1)
Figure BDA00028115132800000215
是博弈的参与者集合,
Figure BDA00028115132800000216
代表加权入侵检测系统,a代表攻击者;
1.2)
Figure BDA00028115132800000217
是对
Figure BDA00028115132800000218
联合概率分布的集合,Δ表示对于一个集合的概率测度空间,×表示笛卡尔积。
Figure BDA00028115132800000219
表示加权入侵检测系统的纯动作集合,
Figure BDA00028115132800000220
分别表示加权入侵检测系统和攻击者的概率动作集合。a={ad,aa}∈A是联合概率动作,
Figure BDA00028115132800000221
为加权入侵检测系统的概率动作,
Figure BDA00028115132800000222
为攻击者的概率动作;
1.3)
Figure BDA00028115132800000223
是信念状态集合,是对于集合
Figure BDA00028115132800000224
的联合概率分布,t时刻攻击者的信念为Bt,通过式(3)更新出在t+1时刻的信念Bt+1
Figure BDA00028115132800000225
分别表示在t时刻,攻击者观测到的纯动作;
Figure BDA0002811513280000031
其中
Figure BDA0002811513280000032
由式(2)得到;
1.4)T是信念状态的转移概率:
Figure BDA0002811513280000033
T(b′|b,a)表示当前时刻,信念状态为b∈B,攻守双方的联合概率动作为a∈A的条件下,下一时刻转移到信念状态b′∈B的概率,
Figure BDA0002811513280000034
表示加权入侵检测系统执行纯动作
Figure BDA0002811513280000035
的概率,aaa)攻击者执行纯动作αa的概率;
1.5)
Figure BDA0002811513280000036
是一步回报集合,其中,ri(Bt=b,At=a)是参与者i在t时刻状态Bt=b下采取联合概率动作At=a的一步回报,给出攻击者和加权入侵检测系统的一步回报分别为
Figure BDA0002811513280000037
Figure BDA0002811513280000038
其中,
Figure BDA0002811513280000039
b(j)表示系统状态j的概率;
1.6)定义加权入侵检测系统和攻击者的目标函数:
Figure BDA00028115132800000310
其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略
Figure BDA00028115132800000311
满足式(8),
Figure BDA00028115132800000312
即为攻击者的最优稳态策略;
Figure BDA00028115132800000313
其中,
Figure BDA00028115132800000314
1.7)给出攻击者的最优状态值函数为
Figure BDA00028115132800000315
给出攻击者的最优状态-动作值函数为
Figure BDA00028115132800000316
其中,
Figure BDA00028115132800000317
Figure BDA00028115132800000318
表示对所有
Figure BDA00028115132800000319
和αa组合的累加,
Figure BDA0002811513280000041
转移概率
Figure BDA0002811513280000042
表示当前时刻信念状态为b,联合概率动作为a,加权入侵检测系统和攻击者的纯动作分别为
Figure BDA0002811513280000043
αa的条件下,下一时刻信念状态转移到b′的概率。
进一步,所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程可以用一个四元组
Figure BDA0002811513280000044
描述,包括以下步骤:
2.1)
Figure BDA0002811513280000045
是联合概率动作集合。
Figure BDA0002811513280000046
表示入侵检测系统的概率动作集合;
2.2)
Figure BDA0002811513280000047
是混合状态集合;
2.3)
Figure BDA0002811513280000048
是混合状态的转移概率:
Figure BDA0002811513280000049
表示在当前时刻,混合状态为u,u={s,b}∈U,
Figure BDA00028115132800000410
b∈B,攻守双方的联合概率动作为
Figure BDA00028115132800000411
Figure BDA00028115132800000412
的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈U,
Figure BDA00028115132800000413
b′∈B。
Figure BDA00028115132800000414
是定义在(2)状态转移矩阵中(s,s′)对应的元素,add)表示入侵检测系统执行纯动作αd的概率;
2.4)入侵检测系统的一步回报为:
Figure BDA00028115132800000415
2.5)定义入侵检测系统的目标函数:
Figure BDA00028115132800000416
其中,u0为初始混合状态,0<ρ<1是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由(13)得到,记为
Figure BDA00028115132800000417
Figure BDA00028115132800000418
Figure BDA00028115132800000419
由式子(8)得到 (14)
2.6)给出入侵检测系统的最优状态值函数为
Figure BDA00028115132800000420
给出入侵检测系统的最优状态-动作值函数为
Figure BDA00028115132800000421
其中α={αda},
Figure BDA00028115132800000422
表示对所有αd和αa组合的累加,
Figure BDA00028115132800000423
为根据式(8)得到的策略
Figure BDA0002811513280000051
做出的最优概率动作,
Figure BDA0002811513280000052
转移概率
Figure BDA0002811513280000053
表示当前时刻信念状态为b,联合概率动作为
Figure BDA0002811513280000054
入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率。
更进一步,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度Q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为Ca,Cd的记忆库Ma,Md
3.1.2.分别随机初始化Q网络
Figure BDA0002811513280000055
和Qd(b,α;σd)的权重σa,σd
3.1.3.分别初始化目标网络
Figure BDA0002811513280000056
的权重,
Figure BDA0002811513280000057
Figure BDA0002811513280000058
3.1.4.设置初始状态为b1∈B,
Figure BDA0002811513280000059
u1={s1,b1};
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.8.根据ε-greedy政策选择纯动作
Figure BDA00028115132800000510
αd,t
3.1.9.观测到系统状态st+1,计算t时刻的
Figure BDA00028115132800000511
Figure BDA00028115132800000512
记为
Figure BDA00028115132800000513
3.1.10.根据(3)算出t+1时刻的信念状态bt+1,设置混合状态ut+1={st+1,bt+1};
3.1.11.把当前的经历
Figure BDA00028115132800000514
分别存储在记忆库Ma,Md中;
3.1.12.随机分别从记忆库Ma,Md抽取若干条记忆
Figure BDA00028115132800000515
Figure BDA00028115132800000516
3.1.13.令
Figure BDA00028115132800000517
Figure BDA00028115132800000518
3.1.14.对于
Figure BDA00028115132800000519
[zd,l-Qd(ull;σd)]2执行梯度下降法训练Q网络的权重σa,σd
3.1.15.每过D步以后,把Q网络的权重赋给目标网络;
3.1.16.循环结束;
所述3.1.8中,
Figure BDA00028115132800000520
分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,
Figure BDA0002811513280000061
表示j+1时刻所有纯动作
Figure BDA0002811513280000062
和α′a组合的累加,
Figure BDA0002811513280000063
表示l+1时刻所有纯动作α′d和α′a组合的累加;3.1.14中,权重σa,σd的更新公式为:
Figure BDA0002811513280000064
Figure BDA0002811513280000065
其中0<γ≤1是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,
Figure BDA0002811513280000066
Figure BDA0002811513280000067
分别表示
Figure BDA0002811513280000068
Qd(u,α;σd,k)的梯度;
3.2)当训练好神经网络后,使用Q网络
Figure BDA0002811513280000069
和Qd(b,α;σd)分别估计出最优状态-动作值函数
Figure BDA00028115132800000610
针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略
Figure BDA00028115132800000611
然后入侵检测系统通过
Figure BDA00028115132800000612
求解最优化问题(13)得到最优稳态策略
Figure BDA00028115132800000613
本发明以网络系统为基本模型,考虑在攻击者无法获取网络系统状态信息的情况下,攻击者对网络系统展开攻击。同时入侵检测系统检测网络中存在的攻击并进行拦截,减少攻击者对系统的损害。因此在我们的模型中,入侵检测系统可以称之为网络的防守者。于是,我们的网络攻防将在网络的攻击者和网络的防守者,即入侵检测系统之间展开。由于攻守双方信息的不对称,攻击者通过使用对网络系统状态的信念与虚构的加权入侵检测系统竞争,在连续的零和随机博弈模型内解决相应的策略求解问题。由于入侵检测系统可以完全获知网络系统的状态,因此入侵检测系统通过解决具有连续性和离散性的混合状态的Markov决策过程来求解策略。此外,为了应对连续的信念状态空间,提出了一种基于深度强化学习的算法,以找到最优稳态策略。
具体求解过程如下:对于攻击者,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;对于入侵检测系统,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;最后使用一种基于深度强化学习的算法,分别求解出攻击者和入侵检测系统的最优稳态策略。
本发明的有益效果主要表现在:本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型,对于入侵检测系统,建立具有连续性和离散性的混合状态的Markov决策过程。为了克服信念状态的连续性带来的求解困难,使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
附图说明
图1是本发明方法求解得到的最优稳态策略在实际执行中的仿真效果图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于非完全信息的入侵检测系统最优稳态策略求解方法。其具体求解过程如下:对于攻击者,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;对于入侵检测系统,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;最后使用一种基于深度强化学习的算法,分别求解出攻击者和入侵检测系统的最优稳态策略。
一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
进一步,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为
Figure BDA0002811513280000081
αa=i代表攻击者使用
Figure BDA0002811513280000082
中相应的某一攻击类型i,其相应给定的攻击代价为ca(1)=1,ca(2)=1.2,入侵检测系统的有限检测库集合为
Figure BDA0002811513280000083
其中,库l1,l2会以一定的概率
Figure BDA0002811513280000084
Figure BDA0002811513280000085
检测到攻击类型αa。加载一个库li也有其给定的代价
Figure BDA0002811513280000086
入侵检测系统通过加载不同的库来检测不同的攻击类型,定义Fi,i∈{1,2,3,4}表示入侵检测系统对于库的不同配置。入侵检测系统的纯动作集合为
Figure BDA0002811513280000087
纯动作
Figure BDA0002811513280000088
表示选择具体的某一配置,因此执行纯动作αd的代价为
Figure BDA0002811513280000089
若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为
Figure BDA00028115132800000810
定义集合
Figure BDA00028115132800000811
表示网络系统3种状态的集合,其中S1,S2,S3分别代表网络系统的健康,受损,故障3种状态。在状态Sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为D(Ska),设定
Figure BDA00028115132800000812
定义在状态Sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为
Figure BDA00028115132800000813
网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为
Figure BDA00028115132800000814
其中,
Figure BDA00028115132800000815
表示在纯动作{αda}下,网络系统从状态Si转移到状态Sj的转移概率。假设攻击者选择攻击类型1,入侵检测系统同时加载库l1 l2,相应的某一转移概率为
Figure BDA00028115132800000816
其他的转移概率可以通过类似方法求得。
给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组
Figure BDA00028115132800000817
描述,模型设定如下:
1.1)
Figure BDA00028115132800000818
是博弈的参与者集合,
Figure BDA00028115132800000819
代表加权入侵检测系统,a代表攻击者;
1.2)
Figure BDA00028115132800000820
是对
Figure BDA00028115132800000821
联合概率分布的集合,Δ表示对于一个集合的概率测度空间,×表示笛卡尔积。
Figure BDA00028115132800000822
表示加权入侵检测系统的纯动作集合,
Figure BDA00028115132800000823
分别表示加权入侵检测系统和攻击者的概率动作集合。
Figure BDA00028115132800000824
是联合概率动作,
Figure BDA00028115132800000825
为加权入侵检测系统的概率动作,
Figure BDA00028115132800000826
为攻击者的概率动作;
1.3)
Figure BDA0002811513280000091
是信念状态集合,是对于集合
Figure BDA0002811513280000092
的联合概率分布,t时刻攻击者的信念为Bt,通过式(3)更新出在t+1时刻的信念Bt+1
Figure BDA0002811513280000093
分别表示在t时刻,攻击者观测到的纯动作;
Figure BDA0002811513280000094
其中
Figure BDA0002811513280000095
由式(2)得到;
1.4)T是信念状态的转移概率:
Figure BDA0002811513280000096
T(b′|b,a)表示当前时刻,信念状态为b∈B,攻守双方的联合概率动作为a∈A的条件下,下一时刻转移到信念状态b′∈B的概率,
Figure BDA0002811513280000097
表示加权入侵检测系统执行纯动作
Figure BDA0002811513280000098
的概率,aaa)攻击者执行纯动作αa的概率;
1.5)
Figure BDA0002811513280000099
是一步回报集合,其中,ri(Bt=b,At=a)是参与者i在t时刻状态Bt=b下采取联合概率动作At=a的一步回报,给出攻击者和加权入侵检测系统的一步回报分别为
Figure BDA00028115132800000910
Figure BDA00028115132800000911
其中,
Figure BDA00028115132800000912
b(j)表示系统状态j的概率;
1.6)定义加权入侵检测系统和攻击者的目标函数:
Figure BDA00028115132800000913
其中,b0为初始信念,ρ=0.9是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略
Figure BDA00028115132800000914
满足式(8),
Figure BDA00028115132800000915
即为攻击者的最优稳态策略;
Figure BDA00028115132800000916
其中,J=Ja=-Jd
1.7)给出攻击者的最优状态值函数为
Figure BDA00028115132800000917
给出攻击者的最优状态-动作值函数为
Figure BDA00028115132800000918
其中,
Figure BDA0002811513280000101
Figure BDA0002811513280000102
表示对所有
Figure BDA0002811513280000103
和αa组合的累加,
Figure BDA0002811513280000104
转移概率
Figure BDA0002811513280000105
表示当前时刻信念状态为b,联合概率动作为a,加权入侵检测系统和攻击者的纯动作分别为
Figure BDA0002811513280000106
αa的条件下,下一时刻信念状态转移到b′的概率。
进一步,所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程可以用一个四元组
Figure BDA0002811513280000107
描述,包括以下步骤:
2.1)
Figure BDA0002811513280000108
是联合概率动作集合。
Figure BDA0002811513280000109
表示入侵检测系统的概率动作集合;
2.2)
Figure BDA00028115132800001010
是混合状态集合;
2.3)
Figure BDA00028115132800001011
是混合状态的转移概率:
Figure BDA00028115132800001012
表示在当前时刻,混合状态为u,u={s,b}∈U,
Figure BDA00028115132800001013
b∈B,攻守双方的联合概率动作为
Figure BDA00028115132800001014
Figure BDA00028115132800001015
的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈U,
Figure BDA00028115132800001016
b′∈B。
Figure BDA00028115132800001017
是定义在(2)状态转移矩阵中(s,s′)对应的元素,add)表示入侵检测系统执行纯动作αd的概率;
2.4)入侵检测系统的一步回报为:
Figure BDA00028115132800001018
2.5)定义入侵检测系统的目标函数:
Figure BDA00028115132800001019
其中,u0为初始混合状态,ρ=0.9是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由(13)得到,记为
Figure BDA00028115132800001020
Figure BDA00028115132800001021
Figure BDA00028115132800001022
由式子(8)得到 (14)
2.6)给出入侵检测系统的最优状态值函数为
Figure BDA00028115132800001023
给出入侵检测系统的最优状态-动作值函数为
Figure BDA00028115132800001024
其中α={αda},
Figure BDA0002811513280000111
表示对所有αd和αa组合的累加,
Figure BDA0002811513280000112
为根据式(8)得到的策略
Figure BDA0002811513280000113
做出的最优概率动作,
Figure BDA0002811513280000114
转移概率
Figure BDA0002811513280000115
表示当前时刻信念状态为b,联合概率动作为
Figure BDA0002811513280000116
入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率。
更进一步,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度Q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为Ca=Cd=1000的记忆库Ma,Md
3.1.2.分别随机初始化Q网络
Figure BDA0002811513280000117
和Qd(b,α;σd)的权重σa,σd
3.1.3.分别初始化目标网络
Figure BDA0002811513280000118
的权重,
Figure BDA0002811513280000119
Figure BDA00028115132800001110
3.1.4.设置初始状态为b1∈B,
Figure BDA00028115132800001111
u1={s1,b1};
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.8.根据ε-greedy政策选择纯动作
Figure BDA00028115132800001112
αd,t
3.1.9.观测到系统状态st+1,计算t时刻的
Figure BDA00028115132800001113
Figure BDA00028115132800001114
记为
Figure BDA00028115132800001115
3.1.10.根据(3)算出t+1时刻的信念状态bt+1,设置混合状态ut+1={st+1,bt+1};
3.1.11.把当前的经历
Figure BDA00028115132800001116
分别存储在记忆库Ma,Md中;
3.1.12.随机分别从记忆库Ma,Md抽取100条记忆
Figure BDA00028115132800001117
Figure BDA00028115132800001118
3.1.13.令
Figure BDA00028115132800001119
Figure BDA00028115132800001120
3.1.14.对于
Figure BDA00028115132800001121
[zd,l-Qd(ull;σd)]2执行梯度下降法训练Q网络的权重σa,σd
3.1.15.每过D=200步以后,把Q网络的权重赋给目标网络;
3.1.16.循环结束;
所述3.1.8中,
Figure BDA0002811513280000121
分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,
Figure BDA0002811513280000122
表示j+1时刻所有纯动作
Figure BDA0002811513280000123
和α′a组合的累加,
Figure BDA0002811513280000124
表示l+1时刻所有纯动作α′d和α′a组合的累加;3.1.14中,权重σa,σd的更新公式为:
Figure BDA0002811513280000125
Figure BDA0002811513280000126
其中γ=0.0005是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,
Figure BDA0002811513280000127
Figure BDA0002811513280000128
分别表示
Figure BDA0002811513280000129
Qd(u,α;σd,k)的梯度,Q网络和目标网络都使用了5层神经网络,每层的神经元个数分别为80,60,50,40,30。激活函数使用的是ReLU;
3.2)当训练好神经网络后,使用Q网络
Figure BDA00028115132800001210
和Qd(b,α;σd)分别估计出最优状态-动作值函数
Figure BDA00028115132800001211
针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略
Figure BDA00028115132800001212
然后入侵检测系统通过
Figure BDA00028115132800001213
求解最优化问题(13)得到最优稳态策略
Figure BDA00028115132800001214
本实施例的基于非完全信息的入侵检测系统最优稳态策略求解方法,使用博弈论的思想并结合深度强化学习算法来得到入侵检测系统最优稳态策略,本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型,对于入侵检测系统,建立具有连续性和离散性的混合状态的Markov决策过程。为了克服信念状态的连续性带来的求解困难,使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
以上结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。

Claims (1)

1.一种基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述方法包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略;
所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为
Figure FDA0003616074060000011
αa=i代表攻击者使用
Figure FDA0003616074060000012
中相应的某一攻击类型i,其相应给定的攻击代价为ca(i)>0,入侵检测系统的有限检测库集合为
Figure FDA0003616074060000013
其中,每个库li会以概率
Figure FDA0003616074060000014
检测到攻击类型αa,加载一个库li也有其相应给定的代价
Figure FDA0003616074060000015
入侵检测系统通过加载不同的库来检测不同的攻击类型,定义Fi,i∈{1,2,...,2N}表示入侵检测系统对于库的不同配置;入侵检测系统的纯动作集合为
Figure FDA0003616074060000016
纯动作
Figure FDA0003616074060000017
表示选择具体的某一配置,因此执行纯动作αd的代价为
Figure FDA0003616074060000018
若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为
Figure FDA0003616074060000019
定义集合
Figure FDA00036160740600000110
表示网络系统3种状态的集合,其中S1,S2,S3分别代表网络系统的健康,受损,故障3种状态,在状态Sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为D(Ska),定义在状态Sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为
Figure FDA00036160740600000111
网络系统的不同状态之间会以设定的概率进行相互转移,定义网络系统的状态转移矩阵为
Figure FDA0003616074060000021
其中,
Figure FDA0003616074060000022
表示在纯动作{αda}下,网络系统从状态Si转移到状态Sj的转移概率;
给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组
Figure FDA00036160740600000220
描述,模型设定如下:
1.1)
Figure FDA0003616074060000023
是博弈的参与者集合,
Figure FDA0003616074060000024
代表加权入侵检测系统,a代表攻击者;
1.2)
Figure FDA0003616074060000025
是对
Figure FDA0003616074060000026
联合概率分布的集合,Δ表示对于一个集合的概率测度空间,×表示笛卡尔积,
Figure FDA0003616074060000027
表示加权入侵检测系统的纯动作集合,
Figure FDA0003616074060000028
分别表示加权入侵检测系统和攻击者的概率动作集合,
Figure FDA0003616074060000029
是联合概率动作,
Figure FDA00036160740600000210
为加权入侵检测系统的概率动作,
Figure FDA00036160740600000211
为攻击者的概率动作;
1.3)
Figure FDA00036160740600000212
是信念状态集合,是对于集合
Figure FDA00036160740600000213
的联合概率分布,t时刻攻击者的信念为Bt,通过式(3)更新出在t+1时刻的信念Bt+1
Figure FDA00036160740600000214
分别表示在t时刻,攻击者观测到的纯动作;
Figure FDA00036160740600000215
其中
Figure FDA00036160740600000216
由式(2)得到;
1.4)T是信念状态的转移概率:
Figure FDA00036160740600000217
T(b′|b,a)表示当前时刻,信念状态为b∈B,攻守双方的联合概率动作为a∈A的条件下,下一时刻转移到信念状态b′∈B的概率,
Figure FDA00036160740600000218
表示加权入侵检测系统执行纯动作
Figure FDA00036160740600000219
的概率,aaa)攻击者执行纯动作αa的概率;
1.5)
Figure FDA0003616074060000031
是一步回报集合,其中,ri(Bt=b,At=a)是参与者i在t时刻状态Bt=b下采取联合概率动作At=a的一步回报,给出攻击者和加权入侵检测系统的一步回报分别为
Figure FDA0003616074060000032
Figure FDA0003616074060000033
其中,
Figure FDA0003616074060000034
b(j)表示系统状态j的概率;
1.6)定义加权入侵检测系统和攻击者的目标函数:
Figure FDA0003616074060000035
其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略
Figure FDA0003616074060000036
满足式(8),
Figure FDA0003616074060000037
即为攻击者的最优稳态策略;
Figure FDA0003616074060000038
其中,J=Ja=-Jd
1.7)给出攻击者的最优状态值函数为
Figure FDA0003616074060000039
给出攻击者的最优状态-动作值函数为
Figure FDA00036160740600000310
其中,
Figure FDA00036160740600000311
表示对所有
Figure FDA00036160740600000312
和αa组合的累加,
Figure FDA00036160740600000313
转移概率
Figure FDA00036160740600000314
表示当前时刻信念状态为b,联合概率动作为a,加权入侵检测系统和攻击者的纯动作分别为
Figure FDA00036160740600000315
αa的条件下,下一时刻信念状态转移到b′的概率;
所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程用一个四元组
Figure FDA0003616074060000041
描述,包括以下步骤:
2.1)
Figure FDA0003616074060000042
是联合概率动作集合,
Figure FDA0003616074060000043
表示入侵检测系统的概率动作集合;
2.2)
Figure FDA0003616074060000044
是混合状态集合;
2.3)
Figure FDA0003616074060000045
是混合状态的转移概率:
Figure FDA0003616074060000046
表示在当前时刻,混合状态为u,u={s,b}∈U,
Figure FDA0003616074060000047
b∈B,攻守双方的联合概率动作为
Figure FDA0003616074060000048
的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈U,
Figure FDA0003616074060000049
b′∈B,
Figure FDA00036160740600000410
是定义在公式(2)状态转移矩阵中(s,s′)对应的元素,add)表示入侵检测系统执行纯动作αd的概率;
2.4)入侵检测系统的一步回报为:
Figure FDA00036160740600000411
2.5)定义入侵检测系统的目标函数:
Figure FDA00036160740600000412
其中,u0为初始混合状态,0<ρ<1是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由公式(13)得到,记为
Figure FDA00036160740600000413
Figure FDA00036160740600000414
Figure FDA00036160740600000415
2.6)给出入侵检测系统的最优状态值函数为
Figure FDA00036160740600000416
给出入侵检测系统的最优状态-动作值函数为
Figure FDA0003616074060000051
其中α={αda},
Figure FDA0003616074060000052
表示对所有αd和αa组合的累加,
Figure FDA0003616074060000053
为根据式(8)得到的策略
Figure FDA0003616074060000054
做出的最优概率动作,
Figure FDA0003616074060000055
转移概率
Figure FDA0003616074060000056
表示当前时刻信念状态为b,联合概率动作为
Figure FDA0003616074060000057
入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率;
所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度Q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为Ca,Cd的记忆库Ma,Md
3.1.2.分别随机初始化Q网络
Figure FDA0003616074060000058
和Qd(b,α;σd)的权重σa,σd
3.1.3.分别初始化目标网络
Figure FDA0003616074060000059
的权重,
Figure FDA00036160740600000510
Figure FDA00036160740600000511
3.1.4.设置初始状态为b1∈B,
Figure FDA00036160740600000512
u1={s1,b1};
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.8.根据ε-greedy政策选择纯动作
Figure FDA00036160740600000513
3.1.9.观测到系统状态st+1,计算t时刻的
Figure FDA0003616074060000061
记为
Figure FDA0003616074060000062
3.1.10.根据公式(3)算出t+1时刻的信念状态bt+1,设置混合状态ut+1={st+1,bt+1};
3.1.11.把当前的经历
Figure FDA0003616074060000063
分别存储在记忆库Ma,Md中;
3.1.12.随机分别从记忆库Ma,Md抽取若干条记忆
Figure FDA0003616074060000064
Figure FDA0003616074060000065
3.1.13.令
Figure FDA0003616074060000066
Figure FDA0003616074060000067
3.1.14.对于
Figure FDA0003616074060000068
[zd,l-Qd(ull;σd)]2执行梯度下降法训练Q网络的权重σa,σd
3.1.15.每过D步以后,把Q网络的权重赋给目标网络
3.1.16.循环结束;
所述3.1.8中,
Figure FDA0003616074060000069
分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,
Figure FDA00036160740600000610
表示j+1时刻所有纯动作
Figure FDA00036160740600000611
和α′a组合的累加,
Figure FDA00036160740600000612
表示l+1时刻所有纯动作α′d和α′a组合的累加;3.1.14中,权重σa,σd的更新公式为:
Figure FDA00036160740600000613
Figure FDA00036160740600000614
其中0<γ≤1是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,
Figure FDA00036160740600000615
Figure FDA00036160740600000616
分别表示
Figure FDA00036160740600000617
Qd(u,α;σd,k)的梯度;
3.2)当训练好神经网络后,使用Q网络
Figure FDA0003616074060000071
和Qd(b,α;σd)分别估计出最优状态-动作值函数
Figure FDA0003616074060000072
针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略
Figure FDA0003616074060000073
然后入侵检测系统通过
Figure FDA0003616074060000074
求解最优化问题的公式(13)得到最优稳态策略
Figure FDA0003616074060000075
CN202011387702.1A 2020-12-02 2020-12-02 基于非完全信息的入侵检测系统最优稳态策略求解方法 Active CN112487431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011387702.1A CN112487431B (zh) 2020-12-02 2020-12-02 基于非完全信息的入侵检测系统最优稳态策略求解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011387702.1A CN112487431B (zh) 2020-12-02 2020-12-02 基于非完全信息的入侵检测系统最优稳态策略求解方法

Publications (2)

Publication Number Publication Date
CN112487431A CN112487431A (zh) 2021-03-12
CN112487431B true CN112487431B (zh) 2022-07-15

Family

ID=74938780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011387702.1A Active CN112487431B (zh) 2020-12-02 2020-12-02 基于非完全信息的入侵检测系统最优稳态策略求解方法

Country Status (1)

Country Link
CN (1) CN112487431B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800415B (zh) * 2021-04-13 2021-09-07 深圳市云盾科技有限公司 一种基于贪婪算法模型的弱口令检测方法和系统
CN114048833B (zh) * 2021-11-05 2023-01-17 哈尔滨工业大学(深圳) 基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置
CN114760095B (zh) * 2022-03-09 2023-04-07 西安电子科技大学 一种意图驱动的网络防御策略生成方法、系统及应用

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808020A (zh) * 2010-04-19 2010-08-18 吉林大学 基于不完全信息动态博弈的入侵响应决策方法
EP2271047A1 (en) * 2009-06-22 2011-01-05 Deutsche Telekom AG Game theoretic recommendation system and method for security alert dissemination
CN103152345A (zh) * 2013-03-07 2013-06-12 南京理工大学常熟研究院有限公司 一种攻防博弈的网络安全最优攻防决策方法
WO2013176784A1 (en) * 2012-05-24 2013-11-28 University Of Southern California Optimal strategies in security games
CN108512837A (zh) * 2018-03-16 2018-09-07 西安电子科技大学 一种基于攻防演化博弈的网络安全态势评估的方法及系统
CN108833402A (zh) * 2018-06-11 2018-11-16 中国人民解放军战略支援部队信息工程大学 一种基于有限理性博弈理论的网络最优防御策略选取方法及装置
CN109327427A (zh) * 2018-05-16 2019-02-12 中国人民解放军战略支援部队信息工程大学 一种面对未知威胁的动态网络变化决策方法及其系统
CN111563330A (zh) * 2020-05-07 2020-08-21 东北大学 一种基于零和博弈对策的信息物理系统安全优化分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354100A1 (en) * 2018-05-21 2019-11-21 Board Of Regents, The University Of Texas System Bayesian control methodology for the solution of graphical games with incomplete information

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2271047A1 (en) * 2009-06-22 2011-01-05 Deutsche Telekom AG Game theoretic recommendation system and method for security alert dissemination
CN101808020A (zh) * 2010-04-19 2010-08-18 吉林大学 基于不完全信息动态博弈的入侵响应决策方法
WO2013176784A1 (en) * 2012-05-24 2013-11-28 University Of Southern California Optimal strategies in security games
CN103152345A (zh) * 2013-03-07 2013-06-12 南京理工大学常熟研究院有限公司 一种攻防博弈的网络安全最优攻防决策方法
CN108512837A (zh) * 2018-03-16 2018-09-07 西安电子科技大学 一种基于攻防演化博弈的网络安全态势评估的方法及系统
CN109327427A (zh) * 2018-05-16 2019-02-12 中国人民解放军战略支援部队信息工程大学 一种面对未知威胁的动态网络变化决策方法及其系统
CN108833402A (zh) * 2018-06-11 2018-11-16 中国人民解放军战略支援部队信息工程大学 一种基于有限理性博弈理论的网络最优防御策略选取方法及装置
CN111563330A (zh) * 2020-05-07 2020-08-21 东北大学 一种基于零和博弈对策的信息物理系统安全优化分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于博弈的无线传感器网络入侵检测模型;熊自立等;《计算机科学》;20170615;全文 *

Also Published As

Publication number Publication date
CN112487431A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112487431B (zh) 基于非完全信息的入侵检测系统最优稳态策略求解方法
Lin et al. Free-riders in federated learning: Attacks and defenses
CN115943382A (zh) 用于防御对联邦学习系统的对抗性攻击的方法和装置
CN115333825A (zh) 针对联邦学习神经元梯度攻击的防御方法
Xue et al. Backdoors hidden in facial features: A novel invisible backdoor attack against face recognition systems
Zhu et al. Binarizedattack: Structural poisoning attacks to graph-based anomaly detection
CN114764499A (zh) 一种面向联邦学习的对抗样本投毒攻击方法
Zhao et al. Intrusion detection based on clustering genetic algorithm
CN114491541B (zh) 基于知识图谱路径分析的安全运营剧本自动化编排方法
CN117272306A (zh) 基于交替最小化的联邦学习半目标投毒攻击方法及系统
CN105933316A (zh) 网络安全级别的确定方法和装置
Li et al. Model architecture level privacy leakage in neural networks
Wu et al. Strategies of attack–defense game for wireless sensor networks considering the effect of confidence level in fuzzy environment
CN114494771B (zh) 一种可防御后门攻击的联邦学习图像分类方法
CN117540376A (zh) 一种支持抗投毒和推理攻击的联邦学习方法及系统
Chen et al. Adaptive adversarial training for meta reinforcement learning
Liu et al. An adaptive black-box defense against trojan attacks (trojdef)
CN114024738A (zh) 一种基于多阶段攻防信号的网络防御方法
Zhang et al. Evaluation of data poisoning attacks on federated learning-based network intrusion detection system
CN113132398A (zh) 一种基于q学习的阵列蜜罐系统防御策略预测方法
CN116595467A (zh) 一种基于动态加权图卷积的异常用户检测方法及存储介质
CN112583844B (zh) 一种面向高级可持续威胁攻击的大数据平台防御方法
Naem et al. Optimizing community detection in social networks using antlion and K-median
Reddy et al. DDoS attack detection in cloud using ensemble model tuned with optimal hyperparameter
Li et al. FlPhish: Reputation-based phishing byzantine defense in ensemble federated learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant