CN115001855A - 基于轨迹逼近的深度强化学习智能体选择攻击方法 - Google Patents

基于轨迹逼近的深度强化学习智能体选择攻击方法 Download PDF

Info

Publication number
CN115001855A
CN115001855A CN202210839861.3A CN202210839861A CN115001855A CN 115001855 A CN115001855 A CN 115001855A CN 202210839861 A CN202210839861 A CN 202210839861A CN 115001855 A CN115001855 A CN 115001855A
Authority
CN
China
Prior art keywords
attack
track
state
strategy
dis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210839861.3A
Other languages
English (en)
Inventor
练智超
姚洪金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202210839861.3A priority Critical patent/CN115001855A/zh
Publication of CN115001855A publication Critical patent/CN115001855A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Robotics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于轨迹逼近的深度强化学习智能体选择攻击方法,在时间步tK步全部攻击形成的攻击轨迹为最佳轨迹,以K步无攻击形成的攻击轨迹为最差轨迹,通过逼近最佳轨迹的同时避免贴近最差轨迹,从N种随机攻击策略中选择具有最佳攻击扰动分布的攻击策略进行后续K步的攻击。本发明通过上述每步的攻击轨迹规划,达到了对强化学习环境中整个回合的攻击轨迹逼近,最大化了具有最小累积奖励的攻击轨迹的概率,在保持较高攻击频率下攻击效果的同时有效提升了在较低攻击频率下的攻击效果。

Description

基于轨迹逼近的深度强化学习智能体选择攻击方法
技术领域
本发明属于人工智能安全技术领域,具体涉及一种基于轨迹逼近的深度强化学习智能体选择攻击方法。
背景技术
深度强化学习是人工智能领域新兴技术之一,它将深度学习强大的特征提取能力与强化学习的决策能力相结合,实现从感知输入到决策输出的端到端框架,具有较强的学习能力且应用广泛。然而,已有研究表明深度强化学习存在安全漏洞,容易受到对抗样本攻击。因此,通过对抗攻击技术研究深度强化学习系统的弱点已经成为构建鲁棒深度强化学习系统的必要前提。
与传统的深度学习系统相比,深度强化学习系统的特点是长序列决策,而不是一步决策,因此攻击者必须对其进行多步攻击,但是过多的攻击次数容易引起目标智能体的怀疑,并暴露攻击者的身份,攻击者应该选择一些特定的关键时间步来发起对抗攻击。
目前已有一些选择攻击方法,即通过选择一些关键时间步进行攻击,并且达到与一般攻击方法一样的攻击效果,同时降低了被目标智能体发现的可能性。但是,它们中有些缺乏通用性,不能攻击具备连续动作空间的强化学习环境中的智能体或者在较低攻击频率下,攻击效果很差。
发明内容
本发明解决的技术问题:提供一种攻击效果好的基于轨迹逼近的深度强化学习智能体选择攻击方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种基于轨迹逼近的深度强化学习智能体选择攻击方法,在时间步tK步全部攻击形成的攻击轨迹为最佳轨迹,以K步无攻击形成的攻击轨迹为最差轨迹,通过逼近最佳轨迹的同时避免贴近最差轨迹,从N种随机攻击策略中选择具有最佳攻击扰动分布的攻击策略进行后续K步的攻击。具体步骤如下:
步骤1:根据在时间步t时,t%K是否为0,判断当前时间步是否需要进行攻击轨迹规划。如果需要进行攻击轨迹规划,分别预测在最佳攻击轨迹和最差攻击轨迹的攻击下t+K处的状态值,然后进行后续步骤2、3、4,否则,跳转到步骤43,t%Kt除以k的余数;
步骤2:生成种随机攻击策略,针对每一种攻击策略预测在此攻击策略的攻击下,测试时环境在时间步t+K的状态值;
步骤3:计算每种攻击策略在时间步t+K处的轨迹逼近值;
步骤4:以步骤3的计算结果为筛选指标,从种攻击策略中选择最佳攻击策略,利用此最佳攻击策略进行时间步t后续K步的攻击。
作为优选,步骤1的具体实现步骤如下:
步骤11:首先判断在时间步t时,t%K是否为0。如果t%K为0则代表在时间步t需要进行对后续K步的攻击轨迹的规划,因此进行后续步骤12、13,否则跳转至步骤43;
步骤12:如果需要进行规划,则通过访问测试时环境以及目标智能体的策略网络,预测在后续K步的每一步都对目标智能体进行攻击的情况下,测试时环境在时间步t+K的状态值State_all
步骤13:预测在后续K步的每一步都不对目标智能体进行攻击的情况下,测试时环境在时间步t+K的状态值State_no
作为优选,步骤2的具体实现步骤如下:
步骤21:利用随机方法生成个随机列表,并从中随机采样出N个列表,列表中只包含0或1,将这N个随机列表作为N种攻击策略;
步骤22:通过访问测试时环境以及目标智能体的策略网络,针对每一种攻击策略预测在此攻击策略的攻击下,测试时环境在时间步t+K的状态值State_i,0≤i≤N-1;
作为优选,步骤3中,计算每种攻击策略在时间步t+K的状态值State_iState_ all的距离dis_all_i,以及State_iState_no的距离dis_no_i,并计算轨迹逼近值dis_ relative_i
作为优选,计算过程如下:对State_i-State_all计算其向量二范数,得到dis_ all_i,对State_i-State_no计算向量二范数,得到dis_no_i,在计算dis_relative_i之前,对所有的dis_no_i加上0.0000000.1,然后计算dis_relative_i=dis_all_i/dis_no_i
作为优选,步骤4的具体实现步骤如下:
步骤41:以dis_relative_i为筛选指标,从N种攻击策略中选择其轨迹逼近值dis_ relative_i最小的攻击策略作为最佳攻击策略;
步骤42:将规划得到的最佳攻击策略覆盖旧的最佳攻击策略;
步骤43:取当前最佳攻击策略的t%K处的决策值attack_or_not,如果为0,不进行攻击,如果为1,进行攻击。时间步t加1,如果到达此回合终点,则此回合攻击结束,否则,返回步骤11。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明利用轨迹逼近方法,在时间步,以步全部攻击形成的攻击轨迹为最佳轨迹,以步无攻击形成的攻击轨迹为最差轨迹,通过逼近最佳轨迹的同时避免贴近最差轨迹,从种随机攻击策略中选择具有最佳攻击扰动分布的攻击策略。通过上述每步的攻击轨迹规划,达到了对强化学习环境中整个回合的攻击轨迹逼近,最大化了具有最小累积奖励的攻击轨迹的概率,适用于具有离散动作空间和具有确定性连续动作空间的环境;
(2)在保持较高攻击频率下攻击效果的同时有效提升了在较低攻击频率下的攻击效果。在较低攻击频率下优于现有选择攻击方法,且达到了比较好的攻击效果;
(3)选择攻击效果可以随着攻击频率的增加而稳步增加,波动很小。
附图说明
图1是基于轨迹逼近的深度强化学习智能体选择攻击方法结构示意图;
图2是本发明与Strategically-Timed选择攻击方法对Atari环境中的DQN智能体以及PPO智能体的攻击效果;
图3是本发明与Tentative Frame选择攻击方法对MuJoCo环境中的PPO智能体的攻击效果。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本申请的基于轨迹逼近的深度强化学习智能体选择攻击方法,在时间步tK步全部攻击形成的攻击轨迹为最佳轨迹,以K步无攻击形成的攻击轨迹为最差轨迹,通过逼近最佳轨迹的同时避免贴近最差轨迹,从N种随机攻击策略中选择具有最佳攻击扰动分布的攻击策略进行后续K步的攻击。具体包括如下步骤1-步骤4共四大步骤:
步骤1:根据在时间步t时,t%K是否为0,判断当前时间步是否需要进行攻击轨迹规划。如果需要进行攻击轨迹规划,分别预测在最佳攻击轨迹和最差攻击轨迹的攻击下t+K处的状态值,然后进行后续步骤2、3、4,否则,跳转到步骤43:
步骤11:首先判断在时间步t时,t%K是否为0;如果t%K为0则代表在时间步t需要进行对后续K步的攻击轨迹的规划,因此进行后续步骤12、13,否则跳转至步骤43,t%Kt除以k的余数;
步骤12:如果需要进行规划,则通过访问测试时环境以及目标智能体的策略网络,预测在后续K步的每一步都对目标智能体进行攻击的情况下,测试时环境在时间步t+K的状态值State_all
步骤13:预测在后续K步的每一步都不对目标智能体进行攻击的情况下,测试时环境在时间步t+K的状态值State_no
在Atari环境下,其中在t+K处的状态值State_allState_no分别取自在将当前实际环境状态State_allState_no输入到目标智能体策略网络后其logits层的前一层输出的特征向量。
在MuJoCo环境下,则分别直接取自环境的实际环境状态向量。针对Atari环境的攻击方法采用FGSM方法,针对MuJoCo环境的攻击方法则采用optimal attack方法。
步骤2:生成种随机攻击策略,针对每一种攻击策略预测在此攻击策略的攻击下,测试时环境在时间步t+K的状态值:
步骤21:利用随机方法生成个随机列表,并从中随机采样出N个列表,列表中只包含0或1,将这N个随机列表作为N种攻击策略;
步骤22:通过访问测试时环境以及目标智能体的策略网络,针对每一种攻击策略预测在此攻击策略的攻击下,测试时环境在时间步t+K的状态值State_i,0≤i≤N-1;
在Atari环境下,其中在t+K处的状态值State_i(0≤i≤N-1)均取自在将当前实际环境状态State_i输入到目标智能体策略网络后其logits层的前一层输出的特征向量。在MuJoCo环境下,则均直接取自环境的实际环境状态向量。
步骤3:计算每种攻击策略在时间步t+K的状态值State_iState_all的距离dis_ all_i,以及State_iState_no的距离dis_no_i,并计算轨迹逼近值dis_relative_i:计算过程如下:
State_i-State_all计算其向量二范数,得到dis_all_i,对State_i-State_no计算向量二范数,得到dis_no_i,在计算dis_relative_i之前,对所有的dis_no_i加上0.0000000.1,然后计算dis_relative_i=dis_all_i/dis_no_i
步骤4:以dis_relative_i为筛选指标,从N种攻击策略中选择其轨迹逼近值dis_ relative_i最小的攻击策略作为最佳攻击策略:
步骤41:以dis_relative_i为筛选指标,从N种攻击策略中选择其轨迹逼近值dis_ relative_i最小的攻击策略作为最佳攻击策略;
步骤42:将规划得到的最佳攻击策略覆盖旧的最佳攻击策略;
步骤43:取当前最佳攻击策略的t%K处的决策值attack_or_not,如果为0,不进行攻击,如果为1,进行攻击。时间步t加1,如果到达此回合终点,则此回合攻击结束。否则,返回步骤11。
通过以下实验验证本发明的方法有效性和效率:
• 选择攻击效果——对于深度强化学习中智能体的攻击效果,以智能体在标准强化学习环境中多回合的平均奖励为指标。
在OpenAI开源的Gym系列强化学习环境中的Atari系列环境以及MuJoCo系列环境中验证了所提出的方法。Atari系列环境中包含了一系列在深度强化学习攻击领域常用的具备离散动作空间的环境,MuJoCo系列环境包含了一系列在深度强化学习攻击领域常用的具备连续动作空间的环境。从Atari系列环境选出三种具有代表性的环境:MsPacman-v4、Qbert-v4、Seaquest-v4,从MuJoCo系列环境选出四种具有代表性的环境:Ant-v2、HalfCheetah-v2、Hopper-v2、Walker-v2。值得注意的是,在Atari环境中针对每一种环境分别利用DQN算法以及PPO算法训练两种性能不同的智能体,通常PPO算法训练的智能体更强。在MuJoCo环境中针对每一种环境只利用PPO算法训练一种智能体。在Atari系列环境中,以20回合平均奖励作为最终奖励。在MuJoCo系列环境中,以50回合平均奖励作为最终奖励。
如图2所示,在图2中将Strategically-Timed选择攻击方法简称为STA,本发明的方法简称为TA-relative。
图2 中的(a)、(b)、(c)展示了STA方法和TA-relative攻击方法对三种Atari环境中的DQN智能体的攻击效果。可以看出,TA-relative攻击方法在DQN-Qbert和DQN-Seaquest环境中在较低攻击频率下的攻击效果明显优于STA方法,在较高的攻击频率下,它们则基本保持一致。在DQN-MsPacman环境中,TA-relative攻击方法比STA方法的攻击效果稍差。
图2 中的(d)、(e)和(f)展示了STA方法和TA-relative攻击方法对三种Atari环境中的PPO智能体的攻击效果。需要注意的是,此处STA方法的攻击效果在原文中没有给出,本发明在相同实验条件下,用STA方法给出的攻击方法对其攻击效果进行了测试。可以看出,在PPO-Qbert环境下,TA-relative攻击方法在较低的攻击频率下比STA方法取得了明显更好的效果,而在较高的攻击频率下它们则基本保持一致。在PPO-MsPacman环境中,在低攻击频率下TA-relative攻击方法的攻击效果略低于STA,在较高攻击频率下它的攻击效果优于STA。在PPO-Seaquest环境下攻击效果略差于STA。
如图3所示,在图二中将Tentative Frame选择攻击方法简称为Tentative,本发明的方法简称为TA-relative。
图3中的 (a)、(b)、(c)、(d)展示了Tentative方法和TA-relative攻击方法对四种MuJoCo环境中的PPO智能体的攻击效果。可以看出,在四种具有连续动作空间的环境中,TA-relative攻击方法能够在较低的攻击频率下取得较好的攻击效果,且趋势稳定,明显优于Tentative攻击方法。在较高的攻击频率下,两者则基本一致。
总体而言,本发明利用轨迹逼近方法,在时间步,以步全部攻击形成的攻击轨迹为最佳轨迹,以步无攻击形成的攻击轨迹为最差轨迹,通过逼近最佳轨迹的同时避免贴近最差轨迹,从种随机攻击策略中选择具有最佳攻击扰动分布的攻击策略。通过每步的攻击轨迹规划,达到了对强化学习环境中整个回合的攻击轨迹逼近,最大化了具有最小累积奖励的攻击轨迹的概率,在保持较高攻击频率下攻击效果的同时有效提升了在较低攻击频率下的攻击效果。实验结果表明,本发明所提出的选择攻击方法性能优于其他选择攻击方法,并且具备通用性。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于轨迹逼近的深度强化学习智能体选择攻击方法,其特征在于:在时间步tK步全部攻击形成的攻击轨迹为最佳轨迹,以K步无攻击形成的攻击轨迹为最差轨迹,通过逼近最佳轨迹的同时避免贴近最差轨迹,从N种随机攻击策略中选择具有最佳攻击扰动分布的攻击策略进行后续K步的攻击。
2.根据权利要求1所述的基于轨迹逼近的深度强化学习智能体选择攻击方法,其特征在于:具体步骤如下:
步骤1:根据在时间步t时,t%K是否为0,判断当前时间步是否需要进行攻击轨迹规划;
如果需要进行攻击轨迹规划,分别预测在最佳攻击轨迹和最差攻击轨迹的攻击下t+K处的状态值,然后进行后续步骤2、3、4,否则,跳转到步骤43, t%Kt除以k的余数;
步骤2:生成种随机攻击策略,针对每一种攻击策略预测在此攻击策略的攻击下,测试时环境在时间步t+K的状态值;
步骤3:计算每种攻击策略在时间步t+K处的轨迹逼近值;
步骤4:以步骤3的计算结果为筛选指标,从种攻击策略中选择最佳攻击策略,利用此最佳攻击策略进行时间步t后续K步的攻击。
3.根据权利要求2所述的基于轨迹逼近的深度强化学习智能体选择攻击方法,其特征在于:步骤1的具体实现步骤如下:
步骤11:首先判断在时间步t时,t%K是否为0,如果t%K为0则代表在时间步t需要进行对后续K步的攻击轨迹的规划,因此进行后续步骤12、13,否则跳转至步骤43,t%Kt除以k的余数;
步骤12:如果需要进行规划,则通过访问测试时环境以及目标智能体的策略网络,预测在后续K步的每一步都对目标智能体进行攻击的情况下,测试时环境在时间步t+K的状态值State_all
步骤13:预测在后续K步的每一步都不对目标智能体进行攻击的情况下,测试时环境在时间步t+K的状态值State_no
4.根据权利要求1所述的基于轨迹逼近的深度强化学习智能体选择攻击方法,其特征在于:步骤2的具体实现步骤如下:
步骤21:利用随机方法生成个随机列表,并从中随机采样出N个列表,列表中只包含0或1,将这N个随机列表作为N种攻击策略;
步骤22:通过访问测试时环境以及目标智能体的策略网络,针对每一种攻击策略预测在此攻击策略的攻击下,测试时环境在时间步t+K的状态值State_i,0≤i≤N-1。
5.根据权利要求2所述的基于轨迹逼近的深度强化学习智能体选择攻击方法,其特征在于:步骤3中,计算每种攻击策略在时间步t+K的状态值State_iState_all的距离dis_ all_i,以及State_iState_no的距离dis_no_i,并计算轨迹逼近值dis_relative_i
6.根据权利要求5所述的基于轨迹逼近的深度强化学习智能体选择攻击方法,其特征在于:计算过程如下:对State_i-State_all计算其向量二范数,得到dis_all_i,对State_ i-State_no计算向量二范数,得到dis_no_i,在计算dis_relative_i之前,对所有的dis_ no_i加上0.0000000.1,然后计算dis_relative_i=dis_all_i/dis_no_i
7.根据权利要求1所述的基于轨迹逼近的深度强化学习智能体选择攻击方法,其特征在于:步骤4的具体实现步骤如下:
步骤41:以dis_relative_i为筛选指标,从N种攻击策略中选择其轨迹逼近值dis_ relative_i最小的攻击策略作为最佳攻击策略;
步骤42:将规划得到的最佳攻击策略覆盖旧的最佳攻击策略;
步骤43:取当前最佳攻击策略的t%K处的决策值attack_or_not,如果为0,不进行攻击,如果为1,进行攻击;时间步t加1,如果到达此回合终点,则此回合攻击结束,否则,返回步骤11。
CN202210839861.3A 2022-07-18 2022-07-18 基于轨迹逼近的深度强化学习智能体选择攻击方法 Pending CN115001855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210839861.3A CN115001855A (zh) 2022-07-18 2022-07-18 基于轨迹逼近的深度强化学习智能体选择攻击方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210839861.3A CN115001855A (zh) 2022-07-18 2022-07-18 基于轨迹逼近的深度强化学习智能体选择攻击方法

Publications (1)

Publication Number Publication Date
CN115001855A true CN115001855A (zh) 2022-09-02

Family

ID=83022028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210839861.3A Pending CN115001855A (zh) 2022-07-18 2022-07-18 基于轨迹逼近的深度强化学习智能体选择攻击方法

Country Status (1)

Country Link
CN (1) CN115001855A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172303A (zh) * 2023-10-23 2023-12-05 华中科技大学 针对连续动作空间下深度强化学习的黑盒攻击方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107132765A (zh) * 2017-06-01 2017-09-05 烟台南山学院 一种基于轨迹规划的攻击角度与攻击时间控制方法
US20170302691A1 (en) * 2016-04-18 2017-10-19 Acalvio Technologies, Inc. Systems and Methods for Detecting and Tracking Adversary Trajectory
US20200007311A1 (en) * 2018-06-28 2020-01-02 International Business Machines Corporation Audit trail configuration in a blockchain
CN112491818A (zh) * 2020-11-12 2021-03-12 南京邮电大学 基于多智能体深度强化学习的电网输电线路防御方法
CN112698646A (zh) * 2020-12-05 2021-04-23 西北工业大学 一种基于强化学习的航行器路径规划方法
CN113783881A (zh) * 2021-09-15 2021-12-10 浙江工业大学 一种面向渗透攻击的网络蜜罐部署方法
CN113891244A (zh) * 2021-11-16 2022-01-04 电子科技大学 一种DoS攻击下的无线传感器网络定位方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170302691A1 (en) * 2016-04-18 2017-10-19 Acalvio Technologies, Inc. Systems and Methods for Detecting and Tracking Adversary Trajectory
CN107132765A (zh) * 2017-06-01 2017-09-05 烟台南山学院 一种基于轨迹规划的攻击角度与攻击时间控制方法
US20200007311A1 (en) * 2018-06-28 2020-01-02 International Business Machines Corporation Audit trail configuration in a blockchain
CN112491818A (zh) * 2020-11-12 2021-03-12 南京邮电大学 基于多智能体深度强化学习的电网输电线路防御方法
CN112698646A (zh) * 2020-12-05 2021-04-23 西北工业大学 一种基于强化学习的航行器路径规划方法
CN113783881A (zh) * 2021-09-15 2021-12-10 浙江工业大学 一种面向渗透攻击的网络蜜罐部署方法
CN113891244A (zh) * 2021-11-16 2022-01-04 电子科技大学 一种DoS攻击下的无线传感器网络定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MICHELLE S. CHONG: "A secure state estimation algorithm for nonlinear systems under sensor attacks", 《2020 59TH IEEE CONFERENCE ON DECISION AND CONTROL (CDC)》 *
张政: "基于DDPG强化学习算法的模糊测试技术研究", 《信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172303A (zh) * 2023-10-23 2023-12-05 华中科技大学 针对连续动作空间下深度强化学习的黑盒攻击方法及装置
CN117172303B (zh) * 2023-10-23 2024-03-08 华中科技大学 针对连续动作空间下深度强化学习的黑盒攻击方法及装置

Similar Documents

Publication Publication Date Title
CN112819300B (zh) 网络攻击下基于随机博弈网的配电网风险评估方法
CN112491818B (zh) 基于多智能体深度强化学习的电网输电线路防御方法
Bisht Hybrid genetic-simulated annealing algorithm for optimal weapon allocation in multilayer defence scenario
CN115001855A (zh) 基于轨迹逼近的深度强化学习智能体选择攻击方法
CN111045334B (zh) 信息物理融合系统的主动防御弹性滑模控制方法
CN110381509B (zh) 一种适用于动态连接场景的联合认证方法和服务器
CN113392396A (zh) 面向深度强化学习的策略保护防御方法
CN115333825A (zh) 针对联邦学习神经元梯度攻击的防御方法
Chai et al. DQ-MOTAG: deep reinforcement learning-based moving target defense against DDoS attacks
Li et al. Optimal timing of moving target defense: A Stackelberg game model
Slimeni et al. Cognitive radio jamming mitigation using markov decision process and reinforcement learning
Hu et al. Sparse adversarial attack in multi-agent reinforcement learning
CN117235742A (zh) 一种基于深度强化学习的智能化渗透测试方法与系统
Ali et al. Acadia: Efficient and robust adversarial attacks against deep reinforcement learning
CN107622214B (zh) 基于蚁群的硬件木马优化测试向量生成方法
CN113472515B (zh) 一种用于检验用户防御侧信道攻击能力的方法
CN115860140A (zh) 基于特征空间距离加固的深度学习后门防御方法
Bidar et al. Discrete particle swarm optimization algorithm for dynamic constraint satisfaction with minimal perturbation
Dong et al. Mind your heart: Stealthy backdoor attack on dynamic deep neural network in edge computing
Pashaei et al. Honeypot intrusion detection system using an adversarial reinforcement learning for industrial control networks
Gu et al. A Reinforcement Learning Model to Adaptive Strategy Determination for Dynamic Defense
Fernández-Carrasco et al. Security and 5G: Attack mitigation using Reinforcement Learning in SDN networks
Ramesh Babu et al. Optimal DBN‐based distributed attack detection model for Internet of Things
CN116684135B (zh) 一种基于改进sga的武器装备网络攻击面评估方法
CN114124784B (zh) 一种基于垂直联邦的智能路由决策保护方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination