CN113313236A - 基于时序神经通路的深度强化学习模型中毒检测方法及其装置 - Google Patents

基于时序神经通路的深度强化学习模型中毒检测方法及其装置 Download PDF

Info

Publication number
CN113313236A
CN113313236A CN202110648356.6A CN202110648356A CN113313236A CN 113313236 A CN113313236 A CN 113313236A CN 202110648356 A CN202110648356 A CN 202110648356A CN 113313236 A CN113313236 A CN 113313236A
Authority
CN
China
Prior art keywords
reinforcement learning
deep reinforcement
learning model
poisoning
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110648356.6A
Other languages
English (en)
Other versions
CN113313236B (zh
Inventor
陈晋音
王雪柯
章燕
胡书隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110648356.6A priority Critical patent/CN113313236B/zh
Publication of CN113313236A publication Critical patent/CN113313236A/zh
Application granted granted Critical
Publication of CN113313236B publication Critical patent/CN113313236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时序神经通路的深度强化学习模型中毒检测方法及其装置,包括:定义深度强化学习的时序神经通路,并依据时序神经通过定义构建包含卷积层和池化层的第一部分、包含全连接层的第二部分的深度强化学习模型的时序神经通路,具体过程为:通过多次查找得到第一部分的Top‑c神经元,该Top‑c神经元与第二部分的所有神经元投入神经元池,依据神经元池构建深度强化学习的时序神经通路;将样本数据输入至深度强化学习模型中,利用构建的时序神经通路的反向传播生成扰动,将扰动添加到输入样本得到中毒样本;将中毒样本输入至深度强化学习模型,依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。

Description

基于时序神经通路的深度强化学习模型中毒检测方法及其 装置
技术领域
本发明属于中度检测领域,具体涉及一种基于时序神经通路的深度强化学习模型中毒检测方法及其装置。
背景技术
深度强化学习(Deep Reinforcement learning,DRL)是人工智能领域的一个新的研究热点。自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破。DRL 已广泛应用于不同领域,包括游戏博弈、自动驾驶、医疗健康、金融交易、机器人控制、网络安全、计算机视觉等等。
人工智能技术在众多领域替代人类进行自主决策,但是近期研究表明,深度强化学习模型容易受到不同类型的恶意攻击,深度强化学习算法存在的安全漏洞使得深度强化学习系统的完整性、可用性和机密性受到极大威胁。随着人工智能领域的快速发展,各个领域已经将人工智能技术融入到应用层,然而人工智能的应用安全问题的需求日渐迫切。
在游戏领域,为了提高用户体验,在很多场景下需要训练AI自动玩游戏,目前,游戏训练场景接受度最高的是深度强化学习。自动驾驶领域也在不断探索中,强度强化学习的出现,对其发展也是起到很大推动作用。深度强化学习模型充分利用了卷积神经网络处理大数据的能力,将场景作为输入,其输出可以使动作概率也可以是动作评价值。然而神经网络极易受到对抗性攻击,专家学者们也提出了很多攻击方法和防御方法,目前提出防御方法比较多的是利用强化学习做防御而不是对强化学习模型进行防御。强化学习的安全性必然会成为其发展的重要隐患因素之一。
强化学习的过程就是智能体与环境不断的交互学习。最终学会根据环境状态决定执行的动作,使得最后的奖励最大。但强化学习模型训练过成中极易被恶意攻击者使用带有后门的数据对模型进行训练,从而使模型带有潜在的后门,甚至存在恶意者私自篡改模型中的参数,使模型留有后门。测试时触发样本会触发目标策略诱导智能体执行次优动作,最终影响整体决策。而这种攻击很难被发现,因此面向深度强化学习的检测防御方法有待进一步提升。
发明内容
针对目前深度强化学习模型易被中毒,并且中毒后难以检测的问题,本发明提供了一种基于时序神经通路的深度强化学习模型中毒检测方法及装置,可以通过时序神经通路上的神经元优化出近似中毒测试样本,通过近似中毒测试样本检测深度强化学习模型是否中毒。
本发明实现上述发明目的所采用的技术方案如下:
第一方面,一种基于时序神经通路的深度强化学习模型中毒检测方法,包括以下步骤;
获取深度学习样本数据;
定义深度强化学习的时序神经通路,并依据时序神经通过定义构建包含卷积层和池化层的第一部分、包含全连接层的第二部分的深度强化学习模型的时序神经通路,具体过程为:通过多次查找得到第一部分的Top-c 神经元,该Top-c神经元与第二部分的所有神经元投入神经元池,依据神经元池构建深度强化学习的时序神经通路;
将样本数据输入至深度强化学习模型中,利用构建的时序神经通路的反向传播生成扰动,将扰动添加到输入样本得到中毒样本;
将中毒样本输入至深度强化学习模型,依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。
优选地,查找第一部分的Top-c神经元的过程为:
将样本数据输入至深度强化学习中,提取第一部分的嵌入特征图,从嵌入特征图中激活值最大的Top-c神经元进行累加,构成损失函数,依据损失函数优化深度强化学习模型的网络参数,经过多次迭代,提取激活值最大的Top-c神经元以及对应的权重值投入神经元池。
优选地,依据神经元池构建深度强化学习的时序神经通路包括:依据输入样本在每个神经元的激活值,筛选激活值最大的c个神经元,构建深度强化学习的时序神经通路,此处的输入样本为中毒样本;
优选地,中毒样本的生成过程为:
利用深度强化学习的时序神经通路构建损失函数,通过对损失函数梯度上升作为扰动导向,对输入样本的像素值进行改变,得到中毒样本。
优选地,在生成中毒样本的过程中,控制原始样本和中毒样本的后续序列状态之间的神经元激活状态在阈值范围内。
第二方面,一种基于时序神经通路的深度强化学习模型中毒检测装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行所述计算机程序时实现上述基于时序神经通路的深度强化学习模型中毒检测方法。
与现有技术相比,本发明的有益效果主要表现在:可以利用时序神经通路找出近似中毒样本,利用近似中毒测试样本检测深度强化学习模型是否中毒,该方法具有良好的适用性,能够有效的检测中毒攻击,并且不影响正常策略的执行。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例提供的基于时序神经通路的深度强化学习模型中毒检测方法的流程图;
图2是一实施例提供的DQN模型的原理图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本发明的技术构思为:针对深度强化学习模型在被恶意中毒后难以检测的问题,本发明实施例提供了一种基于时序神经通路的深度强化学习中毒防御方法及其装置。根据深度强化学习的学习特点,定义了针对深度强化学习模型的时序神经通路,该时序神经通路可以关联前后时刻的输入,使深度强化学习模型的中毒检测更加有效。通过特征提取层产生序列导向性样本从而构建深度强化学习模型的关键神经通路,模拟触发样本的数据流动过程。通过求取损失函数的梯度优化测试样本,使时序神经通路上的神经元激活值最大,以找出近似中毒测试样本,利用近似中毒测试样本检测深度强化学习模型是否中毒。
如图1所示,实施例提供的一种基于时序神经通路的深度强化学习中毒防御方法,包括以下步骤:
步骤1,获取深度学习样本数据,并进行预处理。
实施例中,深度强化学习模型用于游戏博弈、自动驾驶领域,采集的数据样本是周围的环境数据,其目标是依据环境户数产生决策动作。实施例中,以DQN算法为例来生成观测数据集。DQN算法模型如图2所示。强化学习主要是通过观察周围的环境,采取最优行动,并获得反馈,从而不断优化决策。从训练场景中采集N个时刻的状态、动作以及奖励值对{S,A,R}。将该数据集合作为待训练样本集。
实施例中,假设深度强化学习模型已经是中毒的,为了体现深度强化学习模型中毒检测效果,如深度强化学习模型未中毒,需要对深度强化学习模型进行中毒处理,具体过程为:测试训练好的深度强化学习模型,在测试过程中保存多条序列状态动作对;收集模型中毒方法,获取Feature embedding Attack和Trojan Attack并保存;选取中毒攻击方法并对获取的状态数据进行下毒操作,并混入到干净状态中进行模型训练,以实现对深度强化学习模型的中毒。
步骤2,定义深度强化学习的时序神经通路。
深度强化学习是智能体与环境的交互学习过程,在每个时刻智能体与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到具体的状态特征表示;基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;环境对此动作做出反应,并得到下一个观察。通过不断循环以上过程,最终可以得到实现目标的最优策略。因为深度强化学习的过程是一个时序动态的输入模型,因此若该模型中毒,仅仅依靠离散的状态动作对查找到的神经通路无法将前后时刻的输入结合起来的,也就是说仅仅依靠离散状态动作对的时序神经通路检测模型的话忽略了中毒数据在时间上的关联性以及前后状态动作的关联性,是无法有效检测模型是否中毒的。因此时序神经通路为T时刻状态动作对(st,at)下的隐藏层激活值最大的几个神经元的激活值,在传递到T+1时刻重复测试 T时刻(st,at)之后的序列状态保持稳定后对应的隐藏层神经元上的时序神经通路。
步骤3,依据时序神经通过定义构建深度强化学习的时序神经通路。
将神经网络的前向传播过程表示为f:RD→RC,其中D表示输入的维度,C表示输出的维度。对于L层网络结构,以输入的某个神经元为起始节点,每层中间运算层的某个神经元为中间节点,最后输出的某个神经元为末节点,节点间串联构成一条有向无环图,这就是主要研究的第L-1级神经通路,定义为集合PL-1={pL-1(1,·,...,·)}。对集合中所有神经通路的计算构成了神经网络的前向传播过程,并且决定了最后的输出结果。由于卷积层、池化层和全连接层对于深度强化学习模型的意义不同,卷积层、池化层主要用于模拟中毒数据特征提取过程,对下层起导向作用;全连接层则是图像增加的扰动像素的直观表现形式,因此将对两部分构建神经通路。
具体构建时序神经通路的过程为:
(1)卷积层和池化层的Top-c神经元的提取和深度强化学习模型的参数优化,具体过程为:
将干净状态序列数据集S输入到预训练好的深度强化学习模型f(·)中,并计算样本在模型f(·)卷积层与池化层的嵌入特征{fem(si_0),...,fem(si_z)},其中si_z∈X,i=1,2,...,z是超参数。将特征图中激活值最大的Top-c神经元进行累加,构成损失函数:
Figure RE-GDA0003168041060000071
Figure RE-GDA0003168041060000072
其中,λ表示平衡参数,maxc(.)表示每层激活值最大的c个嵌入特征图, si_0→i_z表示第i个状态及其之后的连续z个状态,U表示在相应状态下最终计算得到特征值,l表示神经网络的第l层。
依据损失函数优化深度强化学习模型的网络参数,经过多次迭代,提取激活值最大的Top-c神经元以及对应的权重值投入神经元池。
(2)依据神经元池构建深度强化学习的时序神经通路,具体过程为:
首先,从序列数据集中随机选取状态序列作为测试种子样本输入到深度强化学习模型中,神经通路查找整体框图如图1所示。图中神经元池即为查找到的一组神经元,对全连接层之前神经元进行查找,而全连接层的所有神经元都放到神经元池中。
然后构建整个深度强化学习模型的Top-c神经通路:设N={n1,n2,...}为深度强化学习模型的一组神经元;设T={s'1-0,...,1-z,s'2-0,...,2-z,...}为深度学习模型的一组中毒样本;设φi-0,...,i-z(s,n)表示一个功能函数,该函数代表在给定输入s'i-0,...,i-z∈T,n∈N时,第i层所得到的神经元输出值,maxc(.)表示该层激活值最大的c个神经元。整个模型的Top-c神经通路定义如下:
TCPath(T,N)=Us'∈T,n∈N(U1<i<lmaxci(s',n)))
最终,整条通路对应损失是
Figure RE-GDA0003168041060000073
其中λ是超参数,TCPath[j]是指Top-c通路中第j个神经元的值,wj表示第j个神经元对应的权重,然后给定任一状态通过该通路反向传播复原扰动就可以还原中毒状态。
步骤4,依据时序神经通路构建中毒样本,具体包括:
实施例中,利用深度强化学习的时序神经通路构建损失函数,通过对损失函数梯度上升作为扰动导向,对输入样本的像素值进行改变,得到中毒样本,具体表示为:
Figure RE-GDA0003168041060000081
s′i_0=si_0+γ*grad
其中,γ为迭代步长,si_0是第i个状态,但是状态si_0以及s′i_0后续序列状态之间的神经元激活状态不能有太大偏差,要控制在阈值ζ范围之内:
Δfeature=|TCFeature(s′i_0,si_1→i_z)-TCFeature(si_0,si_1→i_z)|≤ζ
Figure RE-GDA0003168041060000082
Figure RE-GDA0003168041060000083
其中si_0是第i个状态,si_1→i_z是继第i个状态之后的连续z个状态,s′i_0是扰动状态,fem(·)是状态在模型f(·)卷积层与池化层的嵌入特征。 TCFeature(·)是特征图中激活值最大的Top-c神经元进行累加结果。
步骤5,将中毒样本输入至深度强化学习模型,依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。
实施例中,构建的近似中毒状态输入到待检测的深度强化学习模型F 中,统计F对近似中毒测试状态的决策结果,找到的总Top-c通路并还原出相同目标动作的干扰状态。本发明则通过统计动作变化率证明模型是否中毒,动作变化计算公式如下:
Figure RE-GDA0003168041060000084
其中,T是选择的测试状态集合,F(s′i_0)是在还原中毒状态s′i_0下深度强化学习模型的输出动作,si_0是第i个原状态,Δfeature是选定原状态si_0的后续序列状态以及还原中毒状态s′i_0后神经元变换量,ζ是神经元变化上限阈值,若动作变化δ(T)大于α则表明深度强化学习模型被中毒,否则没被中毒。
实施例还提供了一种基于时序神经通路的深度强化学习模型中毒检测装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时上述基于时序神经通路的深度强化学习模型中毒检测方法,包括以下步骤:
步骤1,获取深度学习样本数据,并进行预处理;
步骤2,定义深度强化学习的时序神经通路;
步骤3,依据时序神经通过定义构建深度强化学习的时序神经通路;
步骤4,依据时序神经通路构建中毒样本;
步骤5,步骤5,将中毒样本输入至深度强化学习模型,依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,包括以下步骤:
获取深度学习样本数据;
定义深度强化学习的时序神经通路,并依据时序神经通过定义构建包含卷积层和池化层的第一部分、包含全连接层的第二部分的深度强化学习模型的时序神经通路,具体过程为:通过多次查找得到第一部分的Top-c神经元,该Top-c神经元与第二部分的所有神经元投入神经元池,依据神经元池构建深度强化学习的时序神经通路;
将样本数据输入至深度强化学习模型中,利用构建的时序神经通路的反向传播生成扰动,将扰动添加到输入样本得到中毒样本;
将中毒样本输入至深度强化学习模型,依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。
2.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,查找第一部分的Top-c神经元的过程为:
将样本数据输入至深度强化学习中,提取第一部分的嵌入特征图,从嵌入特征图中激活值最大的Top-c神经元进行累加,构成损失函数,依据损失函数优化深度强化学习模型的网络参数,经过多次迭代,提取激活值最大的Top-c神经元以及对应的权重值投入神经元池。
3.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,依据神经元池构建深度强化学习的时序神经通路包括:依据输入样本在每个神经元的激活值,筛选激活值最大的c个神经元,构建深度强化学习的时序神经通路,此处的输入样本为中毒样本。
4.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,中毒样本的生成过程为:
利用深度强化学习的时序神经通路构建损失函数,通过对损失函数梯度上升作为扰动导向,对输入样本的像素值进行改变,得到中毒样本。
5.如权利要求1或4所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,在生成中毒样本的过程中,控制原始样本和中毒样本的后续序列状态之间的神经元激活状态在阈值范围内。
6.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,所述依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒包括:
通过统计动作变化率证明模型是否中毒,动作变化计算公式如下:
Figure RE-FDA0003168041050000021
其中,T是选择的测试状态集合,F(s′i_0)是在还原中毒状态s′i_0下深度强化学习模型的输出动作,si_0是第i个原状态,Δfeature是选定原状态si_0的后续序列状态以及还原中毒状态s′i_0后神经元变换量,ζ是神经元变化上限阈值,若动作变化δ(T)大于α则表明深度强化学习模型被中毒,否则没被中毒。
7.一种基于时序神经通路的深度强化学习模型中毒检测装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行所述计算机程序时实现权利要求1~6任一项所述的基于时序神经通路的深度强化学习模型中毒检测方法。
CN202110648356.6A 2021-06-10 2021-06-10 基于时序神经通路的深度强化学习模型中毒检测方法及其装置 Active CN113313236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110648356.6A CN113313236B (zh) 2021-06-10 2021-06-10 基于时序神经通路的深度强化学习模型中毒检测方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110648356.6A CN113313236B (zh) 2021-06-10 2021-06-10 基于时序神经通路的深度强化学习模型中毒检测方法及其装置

Publications (2)

Publication Number Publication Date
CN113313236A true CN113313236A (zh) 2021-08-27
CN113313236B CN113313236B (zh) 2024-03-15

Family

ID=77378069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110648356.6A Active CN113313236B (zh) 2021-06-10 2021-06-10 基于时序神经通路的深度强化学习模型中毒检测方法及其装置

Country Status (1)

Country Link
CN (1) CN113313236B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063903A (zh) * 2018-07-19 2018-12-21 山东建筑大学 一种基于深度强化学习的建筑能耗预测方法及系统
CN110147310A (zh) * 2019-04-02 2019-08-20 中国科学院信息工程研究所 一种基于变异策略的并行模糊测试调度方法及装置
CN110533189A (zh) * 2018-05-25 2019-12-03 罗伯特·博世有限公司 机器学习系统
CN111080408A (zh) * 2019-12-06 2020-04-28 广东工业大学 一种基于深度强化学习的订单信息处理方法
US20200193226A1 (en) * 2018-12-17 2020-06-18 King Fahd University Of Petroleum And Minerals Enhanced deep reinforcement learning deep q-network models
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法
CN112884131A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于模仿学习的深度强化学习策略优化防御方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533189A (zh) * 2018-05-25 2019-12-03 罗伯特·博世有限公司 机器学习系统
CN109063903A (zh) * 2018-07-19 2018-12-21 山东建筑大学 一种基于深度强化学习的建筑能耗预测方法及系统
US20200193226A1 (en) * 2018-12-17 2020-06-18 King Fahd University Of Petroleum And Minerals Enhanced deep reinforcement learning deep q-network models
CN110147310A (zh) * 2019-04-02 2019-08-20 中国科学院信息工程研究所 一种基于变异策略的并行模糊测试调度方法及装置
CN111080408A (zh) * 2019-12-06 2020-04-28 广东工业大学 一种基于深度强化学习的订单信息处理方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法
CN112884131A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于模仿学习的深度强化学习策略优化防御方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田宝园;程怿;蔡叶华;陈可;施俊;徐树公;张麒;: "基于改进U- Net深度网络的超声正中神经图像分割", 自动化仪表, no. 08, 20 August 2020 (2020-08-20) *
胡洋;: "基于深度学习的SDN虚拟蜜网路由优化", 计算机系统应用, no. 10, 13 October 2020 (2020-10-13) *

Also Published As

Publication number Publication date
CN113313236B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN111310915B (zh) 一种面向强化学习的数据异常检测防御方法
CN110134774B (zh) 一种基于注意力决策的图像视觉问答模型、方法和系统
Zhu et al. Online minimax Q network learning for two-player zero-sum Markov games
JP7399277B2 (ja) 情報処理方法、装置、コンピュータプログラム及び電子装置
Le Hy et al. Teaching bayesian behaviours to video game characters
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN111886059A (zh) 自动减少在在线游戏环境中使用欺骗软件
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN112884130A (zh) 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
Samsuden et al. A review paper on implementing reinforcement learning technique in optimising games performance
CN107729953A (zh) 基于连续状态行为域强化学习的机器人羽状流追踪方法
CN114757351B (zh) 一种深度强化学习模型对抗攻击的防御方法
Kunanusont et al. General video game ai: Learning from screen capture
CN113298252B (zh) 一种面向深度强化学习的策略异常检测方法和装置
CN114925850B (zh) 一种面向扰动奖励的深度强化学习对抗防御方法
WO2022247791A1 (zh) 一种基于机器学习的棋类自学习方法及装置
CN113360917A (zh) 基于差分隐私的深度强化学习模型安全加固方法及装置
CN116128060A (zh) 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法
Dao et al. Deep reinforcement learning monitor for snapshot recording
Raiman et al. Long-term planning and situational awareness in openai five
Xu et al. Deep reinforcement learning with part-aware exploration bonus in video games
Liao et al. Cs229 final report reinforcement learning to play mario
Lin et al. An uncertainty-incorporated approach to predict the winner in StarCraft II using neural processes
CN115909027B (zh) 一种态势估计方法及装置
CN113313236A (zh) 基于时序神经通路的深度强化学习模型中毒检测方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant