CN112884130A - 一种基于SeqGAN的深度强化学习数据增强防御方法和装置 - Google Patents

一种基于SeqGAN的深度强化学习数据增强防御方法和装置 Download PDF

Info

Publication number
CN112884130A
CN112884130A CN202110281225.9A CN202110281225A CN112884130A CN 112884130 A CN112884130 A CN 112884130A CN 202110281225 A CN202110281225 A CN 202110281225A CN 112884130 A CN112884130 A CN 112884130A
Authority
CN
China
Prior art keywords
network
value
deep
seqgan
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110281225.9A
Other languages
English (en)
Inventor
陈晋音
章燕
王雪柯
胡书隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110281225.9A priority Critical patent/CN112884130A/zh
Publication of CN112884130A publication Critical patent/CN112884130A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于SeqGAN的深度强化学习数据增强防御方法和装置,首先,利用DQN算法对目标智能体进行预训练,再采样多个T时刻的序列状态动作对作为真实序列轨迹数据;其次将初始状态动作对输入到生成器中利用生成器来生成序列状态策略轨迹数据,使用判别器和基于策略梯度的蒙特卡洛法来评估生成的序列得到的奖励,用于引导生成器的训练,以用于生成接近真实的状态动作数据;最后通过比较由模型策略得到的序列累计奖励值和SeqGAN生成的状态策略得到的累计奖励值大小来对训练数据进行增强,以优化模型的策略,提高模型的鲁棒性。

Description

一种基于SeqGAN的深度强化学习数据增强防御方法和装置
技术领域
本发明属于面向深度强化学习的防御领域,具体涉及一种基于SeqGAN的深度强化学习数据增强防御方法和装置。
背景技术
深度强化学习是近年来人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用,关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务,深度强化学习系统需要进行多步决策来完成某项任务,而且连续的决策之间还具有高度的相关性。
强化学习通常是一个连续决策的过程,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构,结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略,最终实现从感知输入到决策输出的端到端深度强化学习框架,具有较强的学习能力且应用广泛。但是与机器学习模型相同的是,强化学习也容易受到对抗样本的干扰,根据对样本的攻击,主要可分为观测攻击、奖励攻击、动作攻击以及环境攻击。同时,深度强化学习的训练过程中也会受到中毒攻击,使得模型的训练代价加大,模型的性能降低。此外,深度强化学习训练的策略还存在安全性隐患,尤其是在安全关键型领域,如复杂作战环境、作战指挥环境、无人机装甲车、无人机监察机、智能机器人控制等,模型策略漏洞的存在会给强化学习系统带来严重的损害。尤其是在安全关键型领域中,这种安全性隐患带来了很大的危害,会使强化学习系统的决策发生错误,这对于强化学习的决策安全应用领域是重大挑战。
已有研究表明,通过策略中毒攻击可以通过改变训练集中的数据来使决策发生改变,从未使得智能体动作选取失误,智能体最终达不到学习目的。这种攻击对于无人驾驶等安全决策领域的应用是十分致命的。目前,根据现有的防御机制,常见的强化学习的防御方法可以分为对抗训练、鲁棒学习、对抗检测三大类。对抗训练是指将对抗样本加入到训练样本中对模型进行训练,其主要目的是提高策略对正常样本以外的泛化能力。但是对抗训练往往只能提高策略对参与训练的样本的拟合能力。鲁棒学习是训练模型在面对来自训练阶段或者测试阶段时的攻击方法时提高其自身鲁棒性的学习机制。对抗检测指模型对正常样本与对抗样本加以甄别,并在不修改原始模型参数的情况下处理对抗样本,来实现防御效果。
发明内容
鉴于深度强化学习在安全决策领域(例如自动驾驶场景)由于容易受到噪声扰动攻击而引起的安全威胁问题,本发明的目的是提供一种基于SeqGAN的深度强化学习数据增强防御方法和装置。通过数据增强的方式来优化深度强化学习模型,提升深度强化学习模型的鲁棒性,以防御攻击。
为实现上述发明目的,本发明提供以下技术方案:
第一方面,一种基于SeqGAN的深度强化学习数据增强防御方法,包括以下步骤:
搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数;
利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;
利用强化学习的方法来训练包含生成器和判别器的SeqGAN,以专家数据中状态动作对作为生成器的输入来生成状态动作对,同时采用基于策略梯度蒙特卡洛搜索来模拟采样,采样得到的状态动作对与生成器生成的状态动作对组成固定长度的状态动作对序列并输入至判别器,计算奖励值,依据该奖励值更新SeqGAN的网络参数;
将当前状态输入至参数优化的SeqGAN的生成器中以获得生成状态动作对序列,利用参数优化的深度Q网络来计算生成状态动作对序列的累计奖励值,将该累计奖励值与目标智能体的深度Q网络策略得到的累计奖励值进行比较,以累计奖励值更高的状态动作对作为增强数据存储用于对深度Q网络再优化;
从存储中选择增强数据对深度Q网络进行参数再优化,以实现深度强化学习数据增强防御。
第二方面,一种基于SeqGAN的深度强化学习数据增强防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行计算机程序时实现上述基于SeqGAN的深度强化学习数据增强防御方法。
与现有技术相比,本发明基于SeqGAN的深度强化学习数据增强防御方法和装置具有的有益效果至少包括:
1)通过训练SeqGAN来生成序列状态和策略动作以增强训练数据以优化目标智能体策略,提高DRL模型的鲁棒性;2)在SeqGAN训练过程中,生成器用来生成序列状态和策略动作轨迹数据,判别器的真实数据输入是采样自预训练的DQN模型的序列状态动作对数据,训练过程中通过更新生成器和判别器的参数来生成更为真实的序列状态策略数据;3)通过比较由模型策略得到的序列累计奖励值和SeqGAN生成的状态策略得到的累计奖励值大小来对训练数据进行增强,以优化模型的策略,提高模型的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于SeqGAN的深度强化学习数据增强防御方法的流程图;
图2是实施例提供的基于SeqGAN训练的序列数据生成过程示意图;
图3是实施例提供的化学习中DQN算法结构的示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
在模拟小车自动驾驶的深度强化学习训练过程中,基于训练数据集中毒的攻击方法会使学习者学习到一个错误的策略,从而选择一个不好的动作,使得学习者学习错误。基于此种情况,实施例提供了一种基于SeqGAN的深度强化学习数据增强防御方法和装置,利用SeqGAN来生成序列状态动作数据来进行训练数据增强以达到优化目标智能体策略的目的。具体过程为:首先,利用DQN算法对目标智能体进行预训练,再采样多个T时刻的序列状态动作对作为真实序列轨迹数据;其次将初始状态动作对输入到生成器中利用生成器来生成序列状态策略轨迹数据,使用判别器和基于策略梯度的蒙特卡洛法来评估生成的序列得到的奖励,用于引导生成器的训练,以用于生成接近真实的状态动作数据;最后通过比较由模型策略得到的序列累计奖励值和SeqGAN生成的状态策略得到的累计奖励值大小来对训练数据进行增强,以优化模型的策略,提高模型的鲁棒性。
图1是实施例提供的基于SeqGAN的深度强化学习数据增强防御方法的流程图。如图1所示,实施例提供的深度强化学习数据增强防御方法包括以下步骤:
步骤1,搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络(DQN)构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数。
实施例中,智能体可以是自动驾驶环境中的小车,在利用强化学习中的深度Q网络训练小车,目的是使小车尽可能快递达到目的地。深度Q网络是将Q学习和卷积神经网络相结合,构建用于深度强化学习的训练模型。
其中,如图3所示,深度Q网络包括主Q网络和目标Q网络,其中,主Q网络作为目标智能体的决策网络,目标Q网络作为目标智能体的价值网络,主Q网络和目标Q网络均采用卷积神经网络。在对目标智能体进行强化学习时,主Q网络根据状态计算的决策Q值作为动作值,并根据动作值产生下一时刻的状态值和奖励值,状态值、动作值以及奖励值均被存储,目标Q网络从存储中取出下一时刻的环境计算目标Q值,并以主Q网络与目标Q网络输出的决策Q值和目标Q值以及累计奖励值来更新主Q网络,同时每隔一段时间将当前主Q网络复制给目标Q网络。
实施例中,DQN通过结合深度神经网络与强化学习的Q学习算法,不仅解决了状态空间过大难以维护的问题,而且由于神经网络强大的特征提取能力,其潜力也远大于人工的特征表示。强化学习中的Q学习通过贝尔曼方程,采用时序差分的方式进行迭代更新状态-动作价值函数Q:
Qi+1(st,at)=Qi(st,at)+α(yi-Qi(st,at))
其中,
Figure BDA0002978492980000061
为目标Q值,st+1是作为动作at出现的下一状态,at+1是st+1状态下的可能动作。α为学习率,γ为折现因子。根据贝尔曼最优方程理论,只要通过不断迭代更新上式,即可使Q函数逼近至真实值Q*,从而最终得到最优策略:
Figure BDA0002978492980000062
DQN还使用了目标网络机制,即在当前Qθ网络结构基础上,搭建了一个结构完全相同的目标
Figure BDA0002978492980000063
网络组成DQN的整体模型框架,训练过程中,当前Qθ网络输出的预测Q值用来选择动作a,另一个目标
Figure BDA0002978492980000064
网络用于计算目标Q值。以决策Q值和和包含累计奖励值的目标Q值的均方差作为损失函数来更新主Q网络。损失函数:
Figure BDA0002978492980000065
其中,
Figure BDA0002978492980000066
为目标Q值,通过神经网络的反向梯度传播来更新当前Qθ网络的参数θ。
训练过程中,DQN采用了经验回放机制,将状态转换过程(状态si、动作ai、奖励ri、下一个状态s′i)存储在经验回放缓冲区Buff中,作为网络模型的训练数据集,并以随机采样的形式进行批处理学习;
从Buff中采样N个训练数据集,通过最小化损失函数来更新当前Qθ网络的网络参数,对于目标
Figure BDA0002978492980000071
网络,其网络参数不需要进行迭代更新,而是每隔一段时间从当前Qθ网络中将网络参数复制过来,即延时更新,再进行下一轮的学习。这种方法减轻了每次Q值变化对策略参数的影响,即减少了目标Q值与预测Q值之间的相关性,增加了策略训练的稳定性。
步骤2,利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作。
生成状态动作对序列的过程是一个采样过程,采用获得的T个时刻小车驾驶序列状态动作对{(s1,a1),...,(sT,aT)}作为专家数据,其中动作a取得是对应的决策Q值最小的动作,表示该动作为错误动作,其中,s表示状态值。
步骤3,利用强化学习的方法来训练包含生成器和判别器的SeqGAN。
实施例中,在对包含多个生成器和判别器的SeqGAN进行参数优化时,将专家数据中状态动作对作为生成器的输入,生成器用于根据输入的状态动作对作生成状态动作对,同时采用基于策略梯度蒙特卡洛搜索来模拟采样来得到一些状态动作对,该些状态动作对与生成器生成的状态动作对形成固定长度的生成状态动作对序列,该生成状态动作对序列被输入至判别器,判别器用于根据输入的生成状态动作对序列计算奖励值;
从存储中在线采样固定长度的真实状态动作对序列输入至判别器,经计算获得真实状态动作对序列的奖励值,该奖励值与生成状态动作对序列的奖励值的交叉熵为损失函数,来更新判别器和生成器的参数。
具体地,如图2所示,SeqGAN的训练过程为:
生成器的目标是生成一个序列数据Y1:T=(y1,...,yt,...,yT),使得参数为φ的判别器Dφ将该序列数据认为是真实序列数据,其生成策略表示为Gθ。其中,序列数据Y1:T是指序列状态策略动作数据,即((s′1,a′1),...,(s′t,a′t),...,(s'T,a'T))。利用强化学习算法来指导SeqGAN的训练,状态state表示已经生成的状态动作序列((s′1,a′1),...,(s′t-1,a′t-1))=(y1,...,yt-1),动作action表示下一个选择生成的状态动作对数据yt=(s′t,a′t),奖励值reward用来评估生成的序列;
当没有中间奖励值时,生成器Gθ(Y1:t-1)的目标是从初始的状态动作对开始,生成一个奖励值最高的序列状态动作对:
Figure BDA0002978492980000081
其中,RT表示完整序列的奖励,Q函数是指在状态(s0,a0)下,选择y1后,使用生成器Gθ的生成策略得到的累计奖励,即
Figure BDA0002978492980000082
用于评估生成的序列数据。但是由于判别只能得到完整序列的奖励,因此为了计算中间状态的奖励,使用基于策略梯度的蒙特卡洛MC算法使用roll-out策略Gβ(与生成器Gθ一致)来模拟采样剩下的T-t个序列状态动作对数据,并重复N次,roll-out中的采样目的只是为了计算当前状态的行动值以便进入下一个状态,而这些估计的行动值不会被保留。由此可得到Q函数为:
Figure BDA0002978492980000091
GAN的目的是使生成数据与目标数据分布(训练集数据所代表的的分布)相接近,其中判别器的目标是使两者的分布最小化,目标函数可表示为:
Figure BDA0002978492980000092
其中,Pdata为来自样本序列数据的分布,第一项中的logDφ(Y)表示判别器对真实序列数据的判断,第二项log(1-Dφ(Y))则表示对生成的序列数据的判断,通过对目标函数进行梯度反向求导来更新判别器的参数φ;
训练过程中,使用判别器来评估生成的序列数据,来指导生成器的训练,通过策略梯度更新的方法对生成器的参数θ进行更新:
Figure BDA0002978492980000093
其中,αh∈R+表示第h步相应的学习率。
步骤4,基于预训练的深度Q网络和参数优化的SeqGAN的预测结果筛选用于对深度Q网络的再优化的增强数据。
具体地,将当前状态输入至参数优化的SeqGAN的生成器G中以获得T个时刻的生成状态动作对序列,将其输入到DQN模型中,利用参数优化的深度Q网络来计算生成状态动作对序列的累计奖励值,将该累计奖励值与目标智能体的深度Q网络策略得到的累计奖励值进行比较,以累计奖励值更高的状态动作对作为增强数据并连同得到的奖励值作为模型的训练数据存入经验缓冲区。
其中,目标智能体的深度Q网络策略得到的累计奖励值的获取过程为:将在线采样的状态动作对序列作为依次深度Q网络的输入,利用深度Q网络计算获得深度Q网络策略得到的累计奖励值。
步骤5,从存储中选择增强数据对深度Q网络进行参数再优化,以实现深度强化学习数据增强防御。
具体地,目标智能体从Buff中采样N个训练数据集,通过最小化当前主Q网络的决策Q值和目标Q网络的目标Q值的均方差来更新当前主Q网络的网络参数,每隔一段时间将当前主Q网络的参数复制给目标Q网络,通过数据增强的方式对模型的策略进行优化,提高了模型的鲁棒性。
实施例还提供一种基于SeqGAN的深度强化学习数据增强防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,计算机处理器执行计算机程序时实现上述基于SeqGAN的深度强化学习数据增强防御方法。
实际应用中,计算机存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现基于SeqGAN的深度强化学习数据增强防御方法步骤。
上述基于SeqGAN的深度强化学习数据增强防御方法和装置主要用于基于强化学习训练过程受到攻击从而使训练数据集发生改变的场景下。该方法基于序列对抗式生成网络(SeqGAN)来生成训练策略,从而利用生成的序列数据对模型进行优化,达到训练数据增强的目的,从而提高模型的鲁棒性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于SeqGAN的深度强化学习数据增强防御方法,包括以下步骤,其特征在于,包括以下步骤:
搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数;
利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;
利用强化学习的方法来训练包含生成器和判别器的SeqGAN,以专家数据中状态动作对作为生成器的输入来生成状态动作对,同时采用基于策略梯度蒙特卡洛搜索来模拟采样,采样得到的状态动作对与生成器生成的状态动作对组成固定长度的状态动作对序列并输入至判别器,计算奖励值,依据该奖励值更新SeqGAN的网络参数;
将当前状态输入至参数优化的SeqGAN的生成器中以获得生成状态动作对序列,利用参数优化的深度Q网络来计算生成状态动作对序列的累计奖励值,将该累计奖励值与目标智能体的深度Q网络策略得到的累计奖励值进行比较,以累计奖励值更高的状态动作对作为增强数据存储用于对深度Q网络再优化;
从存储中选择增强数据对深度Q网络进行参数再优化,以实现深度强化学习数据增强防御。
2.如权利要求1所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,所述深度Q网络包括主Q网络和目标Q网络,其中,主Q网络作为目标智能体的决策网络,目标Q网络作为目标智能体的价值网络,在对目标智能体进行强化学习时,主Q网络根据状态计算的决策Q值作为动作值,并根据动作值产生下一时刻的状态值和奖励值,状态值、动作值以及奖励值均被存储,目标Q网络从存储中取出下一时刻的环境计算目标Q值,并以主Q网络与目标Q网络输出的决策Q值和目标Q值以及累计奖励值来更新主Q网络,同时每隔一段时间将当前主Q网络复制给目标。
3.如权利要求2所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,以决策Q值和和包含累计奖励值的目标Q值的均方差作为损失函数来更新主Q网络。
4.如权利要求2所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,深度Q网络在强化学习过程中,采用时序差分的方式进行迭代更新状态-动作价值函数Q:
Qi+1(st,at)=Qi(st,at)+α(yi-Qi(st,at))
其中,
Figure FDA0002978492970000024
为目标Q值,st+1是作为动作at出现的下一状态,i为轮次索引,at+1是st+1状态下的可能动作,α为学习率,γ为折现因子,根据贝尔曼最优方程理论,通过不断迭代更新上式,即可使Q函数逼近至真实值Q*,从而最终得到最优策略:
Figure FDA0002978492970000021
损失函数loss定义为:
Figure FDA0002978492970000022
其中,
Figure FDA0002978492970000023
为目标Q值,通过神经网络的反向梯度传播来更新当前Qθ网络的参数θ。
5.如权利要求1所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,在对包含多个生成器和判别器SeqGAN进行参数优化时,将专家数据中状态动作对作为生成器的输入,生成器用于根据输入的状态动作对作生成状态动作对,同时采用基于策略梯度蒙特卡洛搜索来模拟采样来得到一些状态动作对,该些状态动作对与生成器生成的状态动作对形成固定长度的生成状态动作对序列,该生成状态动作对序列被输入至判别器,判别器用于根据输入的生成状态动作对序列计算奖励值;
从存储中在线采样固定长度的真实状态动作对序列输入至判别器,经计算获得真实状态动作对序列的奖励值,该奖励值与生成状态动作对序列的奖励值的交叉熵为损失函数,来更新判别器和生成器的参数。
6.如权利要求1所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,目标智能体的深度Q网络策略得到的累计奖励值的获取过程为:将在线采样的状态动作对序列作为依次深度Q网络的输入,利用深度Q网络计算获得深度Q网络策略得到的累计奖励值。
7.如权利要求1所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,在对SeqGAN进行训练时,采用的目标函数为:
Figure FDA0002978492970000031
其中,Pdata为来自样本序列数据的分布,第一项中的logDφ(Y)表示判别器对真实序列数据的判断,第二项log(1-Dφ(Y))则表示对生成的序列数据的判断,通过对目标函数进行梯度反向求导来更新判别器的参数φ;
同时,通过策略梯度更新的方法对生成器的参数θ进行更新:
Figure FDA0002978492970000032
其中,αh∈R+表示第h步相应的学习率。
8.一种基于SeqGAN的深度强化学习数据增强防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行计算机程序时实现权利要求1~7任一项所述的基于SeqGAN的深度强化学习数据增强防御方法。
CN202110281225.9A 2021-03-16 2021-03-16 一种基于SeqGAN的深度强化学习数据增强防御方法和装置 Pending CN112884130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110281225.9A CN112884130A (zh) 2021-03-16 2021-03-16 一种基于SeqGAN的深度强化学习数据增强防御方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110281225.9A CN112884130A (zh) 2021-03-16 2021-03-16 一种基于SeqGAN的深度强化学习数据增强防御方法和装置

Publications (1)

Publication Number Publication Date
CN112884130A true CN112884130A (zh) 2021-06-01

Family

ID=76042505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110281225.9A Pending CN112884130A (zh) 2021-03-16 2021-03-16 一种基于SeqGAN的深度强化学习数据增强防御方法和装置

Country Status (1)

Country Link
CN (1) CN112884130A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221469A (zh) * 2021-06-04 2021-08-06 上海天壤智能科技有限公司 增强交通模拟器真实性的逆强化学习方法及系统
CN113239171A (zh) * 2021-06-07 2021-08-10 平安科技(深圳)有限公司 对话管理系统更新方法、装置、计算机设备及存储介质
CN113239634A (zh) * 2021-06-11 2021-08-10 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN114629699A (zh) * 2022-03-07 2022-06-14 北京邮电大学 基于深度强化学习的可迁移性网络流行为异常检测方法及装置
CN114625091A (zh) * 2022-03-21 2022-06-14 京东城市(北京)数字科技有限公司 一种优化控制方法、装置、存储介质及电子设备
CN114683280A (zh) * 2022-03-17 2022-07-01 达闼机器人股份有限公司 对象控制方法、装置、存储介质及电子设备
CN115022282A (zh) * 2022-06-06 2022-09-06 天津大学 一种新型域名生成模型建立及应用
CN116010609A (zh) * 2023-03-23 2023-04-25 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310915A (zh) * 2020-01-21 2020-06-19 浙江工业大学 一种面向强化学习的数据异常检测防御方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310915A (zh) * 2020-01-21 2020-06-19 浙江工业大学 一种面向强化学习的数据异常检测防御方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEI TAI等: "A Survey of Deep Network Solutions for Learning Control in Robotics: From Reinforcement to Imitation", 《ARXIV:1612.07139V4》, pages 1 - 19 *
TONGTAO ZHANG等: "Event Extraction with Generative Adversarial Imitation Learning", 《ARXIV:1804.07881V1》, pages 1 - 10 *
XINYUE LIU等: "Goal-directed Sequence Generation with Simulation Feedback Method", 《IEEE》, pages 1 - 8 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221469A (zh) * 2021-06-04 2021-08-06 上海天壤智能科技有限公司 增强交通模拟器真实性的逆强化学习方法及系统
CN113239171B (zh) * 2021-06-07 2023-08-01 平安科技(深圳)有限公司 对话管理系统更新方法、装置、计算机设备及存储介质
CN113239171A (zh) * 2021-06-07 2021-08-10 平安科技(深圳)有限公司 对话管理系统更新方法、装置、计算机设备及存储介质
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113420326B (zh) * 2021-06-08 2022-06-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113239634A (zh) * 2021-06-11 2021-08-10 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN114629699A (zh) * 2022-03-07 2022-06-14 北京邮电大学 基于深度强化学习的可迁移性网络流行为异常检测方法及装置
CN114629699B (zh) * 2022-03-07 2022-12-09 北京邮电大学 基于深度强化学习的可迁移性网络流行为异常检测方法及装置
CN114683280A (zh) * 2022-03-17 2022-07-01 达闼机器人股份有限公司 对象控制方法、装置、存储介质及电子设备
CN114683280B (zh) * 2022-03-17 2023-11-17 达闼机器人股份有限公司 对象控制方法、装置、存储介质及电子设备
CN114625091A (zh) * 2022-03-21 2022-06-14 京东城市(北京)数字科技有限公司 一种优化控制方法、装置、存储介质及电子设备
CN115022282A (zh) * 2022-06-06 2022-09-06 天津大学 一种新型域名生成模型建立及应用
CN116010609A (zh) * 2023-03-23 2023-04-25 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112884130A (zh) 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN111310915B (zh) 一种面向强化学习的数据异常检测防御方法
Wang et al. Deep reinforcement learning for green security games with real-time information
CN108520268B (zh) 基于样本选择和模型进化的黑盒对抗性攻击防御方法
CN110968866B (zh) 一种面向深度强化学习模型对抗攻击的防御方法
CN113392396B (zh) 面向深度强化学习的策略保护防御方法
CN114757351B (zh) 一种深度强化学习模型对抗攻击的防御方法
CN113298252B (zh) 一种面向深度强化学习的策略异常检测方法和装置
CN114821204B (zh) 一种基于元学习嵌入半监督学习图像分类方法与系统
CN112069504A (zh) 面向深度强化学习对抗攻击的模型增强防御方法
Uriarte et al. Improving Monte Carlo tree search policies in StarCraft via probabilistic models learned from replay data
Xu et al. Pursuit and evasion strategy of a differential game based on deep reinforcement learning
CN113255526B (zh) 基于动量的对人群计数模型的对抗样本生成方法及系统
CN117008620A (zh) 一种无人驾驶自适应路径规划方法、系统、设备及介质
CN115909027B (zh) 一种态势估计方法及装置
CN113298255B (zh) 基于神经元覆盖率的深度强化学习鲁棒训练方法和装置
Liu et al. Hindsight generative adversarial imitation learning
CN113485313A (zh) 自动驾驶车辆的抗干扰方法和装置
CN113807230A (zh) 基于主动强化学习的装备目标识别方法及人机智能体
Brejl et al. Exploring deep recurrent Q-Learning for navigation in a 3D environment
Gu et al. A game theory approach to attack-defense strategy for perception of connected vehicles
CN114124784B (zh) 一种基于垂直联邦的智能路由决策保护方法和系统
Pekaslan et al. Leveraging it2 input fuzzy sets in non-singleton fuzzy logic systems to dynamically adapt to varying uncertainty levels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination