CN112884131A - 一种基于模仿学习的深度强化学习策略优化防御方法和装置 - Google Patents

一种基于模仿学习的深度强化学习策略优化防御方法和装置 Download PDF

Info

Publication number
CN112884131A
CN112884131A CN202110282288.6A CN202110282288A CN112884131A CN 112884131 A CN112884131 A CN 112884131A CN 202110282288 A CN202110282288 A CN 202110282288A CN 112884131 A CN112884131 A CN 112884131A
Authority
CN
China
Prior art keywords
network
value
agent
target
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110282288.6A
Other languages
English (en)
Inventor
陈晋音
章燕
王雪柯
胡书隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110282288.6A priority Critical patent/CN112884131A/zh
Publication of CN112884131A publication Critical patent/CN112884131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于模仿学习的深度强化学习策略优化防御方法和装置,包括:搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,对目标智能体进行强化学习以优化深度Q网络的参数;利用参数优化的深度Q网络产生T个时刻的目标智能体的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;基于生成式对抗网络构建对抗智能体,并对对抗智能体进行模仿学习,即以专家数据中状态作为生成式对抗网络的输入,以专家数据作为标签来监督优化生成式对抗网络的参数;基于对抗智能体产生的状态对目标智能体进行对抗训练,再优化优化深度Q网络的参数,以实现深度强化学习策略优化防御。

Description

一种基于模仿学习的深度强化学习策略优化防御方法和装置
技术领域
本发明属于面向深度强化学习的防御领域,具体涉及一种基于模仿学习的深度强化学习策略优化防御方法和装置。
背景技术
深度强化学习是近年来人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用,关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务,深度强化学习系统需要进行多步决策来完成某项任务,而且连续的决策之间还具有高度的相关性。
强化学习通常是一个连续决策的过程,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构,结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略,最终实现从感知输入到决策输出的端到端深度强化学习框架,具有较强的学习能力且应用广泛。但是与机器学习模型相同的是,强化学习也容易受到对抗样本的干扰,根据对样本的攻击,主要可分为观测攻击、奖励攻击、动作攻击以及环境攻击。同时,深度强化学习的训练过程中也会受到中毒攻击,使得模型的训练代价加大,模型的性能降低。此外,深度强化学习训练的策略还存在安全性隐患,尤其是在安全关键型领域,如复杂作战环境、作战指挥环境、无人机装甲车、无人机监察机、智能机器人控制等,模型策略漏洞的存在会给强化学习系统带来严重的损害。尤其是在安全关键型领域中,这种安全性隐患带来了很大的危害,会使强化学习系统的决策发生错误,这对于强化学习的决策安全应用领域是重大挑战。
由于强化学习训练得到的策略存在安全性隐患,因此提高强化学习模型和策略的鲁棒性,使其有效安全地应用在安全决策领域已经日益成为了人们关注的重点。目前,根据现有的防御机制,常见的强化学习的防御方法可以分为对抗训练、鲁棒学习、对抗检测三大类。对抗训练是指将对抗样本加入到训练样本中对模型进行训练,其主要目的是提高策略对正常样本以外的泛化能力。但是对抗训练往往只能提高策略对参与训练的样本的拟合能力。鲁棒学习是训练模型在面对来自训练阶段或者测试阶段时的攻击方法时提高其自身鲁棒性的学习机制。对抗检测指模型对正常样本与对抗样本加以甄别,并在不修改原始模型参数的情况下处理对抗样本,来实现防御效果。
发明内容
为了解决现有强化学习在安全决策领域(例如自动驾驶场景)受到攻击或自动决策漏漏洞,进而导致决策结果不准确带来安全隐患的问题,本发明的目的是提供一种基于模仿学习的深度强化学习策略优化防御方法和装置。
为实现上述发明目的,本发明提供以下技术方案:
一种基于模仿学习的深度强化学习策略优化防御方法,包括以下步骤:
搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数;
利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;
基于生成式对抗网络构建对抗智能体,并对对抗智能体进行模仿学习,即以专家数据中状态作为生成式对抗网络的输入,同时以专家数据作为标签来监督以优化生成式对抗网络的参数;
基于对抗智能体产生的状态对目标智能体进行对抗训练,再优化优化深度Q网络的参数,以实现对深度强化学习策略优化防御。
一种基于模仿学习的深度强化学习策略优化防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行计算机程序时实现上述基于模仿学习的深度强化学习策略优化防御方法。
与现有技术相比,本发明具有的有益效果至少包括:
1)利用模仿学习来训练对抗性智能体以优化目标智能体策略,提高深度强化学习模型的鲁棒性;2)在模仿学习过程中,专家数据中的状态动作对采集的是目标智能体中Q值最小的动作,通过判别器的输出作为奖励值来指导对抗性智能体的策略学习,以生成各种策略陷阱使得目标智能体达到危险的状态;3)将目标智能体与对抗性智能体一起进行交替对抗博弈训练,目标智能体训练N步,对抗性智能体采取一次动作,以提前经历危险的环境状态,从而提高目标智能体策略的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于模仿学习的深度强化学习策略优化防御方法的流程图;
图2是实施例提供的基于模仿学习的对抗性智能体训练示意图;
图3是实施例提供的强化学习中DQN算法结构的示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
基于鲁棒学习的防御机制,实施例提供了基于模仿学习的深度强化学习策略优化防御方法,主要应用于自动驾驶场景中。技术构思为:在模拟小车自动驾驶的深度强化学习训练过程中,基于策略中毒的攻击方法会使学习者学习到一个错误的策略,从而选择一个不好的动作,使得学习者学习错误。基于此情况,该方法利用模仿学习机制来训练对抗性智能体产生对抗性的错误动作,在目标智能体训练过程中将错误动作作为策略陷阱来扰乱目标智能体的策略,使其预见受到扰动的环境状态和错误行为所带来的破坏,从而提高目标智能体的策略鲁棒性,增强深度强化学习模型的安全性。
图1是实施例提供的基于模仿学习的深度强化学习策略优化防御方法的流程图。如图1所示,实施例提供的基于模仿学习的深度强化学习策略优化防御方法,包括以下步骤:
步骤1,搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络(DQN)构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数。
实施例中,智能体可以是自动驾驶环境中的小车,在利用强化学习中的深度Q网络训练小车,目的是使小车尽可能快递达到目的地。深度Q网络是将Q学习和卷积神经网络相结合,构建用于深度强化学习的训练模型。
其中,如图3所示,深度Q网络包括主Q网络和目标Q网络,其中,主Q网络作为目标智能体的决策网络,目标Q网络作为目标智能体的价值网络,主Q网络和目标Q网络均采用卷积神经网络。在对目标智能体进行强化学习时,主Q网络根据状态计算的决策Q值作为动作值,并根据动作值产生下一时刻的状态值和奖励值,状态值、动作值以及奖励值均被存储,目标Q网络从存储中取出下一时刻的环境计算目标Q值,并以主Q网络与目标Q网络输出的决策Q值和目标Q值以及累计奖励值来更新主Q网络,同时每隔一段时间将当前主Q网络复制给目标Q网络。
实施例中,DQN算法的具体过程为:
(a)当前主Qθ网络的输入是当前场景的图像数据,也就是环境状态,输出则是每个动作对应的价值函数来估计累计的长期奖励,即决策Q值;
(b)DQN还使用了目标网络机制,即在当前主Qθ网络的基础上,搭建了一个结构完全相同的目标Qθ-网络组成DQN的整体模型框架,训练过程中,当前主Qθ网络输出的决策Q值用来选择动作a,另一个目标Qθ-网络用于计算目标Q值。以决策Q值和和包含累计奖励值的目标Q值的均方差作为损失函数来更新主Q网络,其中,损失函数为:
Figure BDA0002979058620000061
其中,
Figure BDA0002979058620000062
为目标Q值,通过神经网络的反向梯度传播来更新当前主Qθ网络的参数θ,序号i表示输入数据的索引,m为输入数据的个数。
(c)训练过程中,DQN采用了经验回放机制,将状态转换过程(状态si、动作ai、奖励ri、下一个状态si')存储在经验回放缓冲区Buff中,作为网络模型的训练数据集,并以随机采样的形式进行批处理学习。
(d)从Buff中采样N个训练数据集,通过最小化损失函数来更新当前主Qθ网络的网络参数,每隔一段时间将当前主Qθ网络的参数复制给目标Qθ-网络,即延时更新,再进行下一轮的学习。
经过以上步骤(a)~步骤(d)即可以预训练目标智能体的深度Q网络的参数,预训练的深度Q网络用于产生数据对作为对抗智能体学习的样本数据。
步骤2,利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作。
生成状态动作对序列的过程是一个采样过程,采用获得的T个时刻小车驾驶序列状态动作对{(s1,a1),...,(sT,aT)}作为专家数据,其中动作a取得是对应的决策Q值最小的动作,表示该动作为错误动作,其中,s表示状态值。
步骤3,基于生成式对抗网络构建对抗智能体,并对对抗智能体进行模仿学习,即以专家数据中状态作为生成式对抗网络的输入,同时以专家数据作为标签来监督以优化生成式对抗网络的参数。
实施例中,生成式对抗网络包括生成器和判别器,其中,生成器作为对抗智能体的决策网络,判别器作为对抗智能体的价值网络,在对对抗智能体进行强化学习时,以专家数据中每个状态动作对的状态值作为生成器的输入,生成器根据输入的状态值计算产生预测动作值,该预测动作值与对应的输入状态值组成的状态动作对输入至判别器,专家数据中相同状态值的状态动作对作为标签也输入至判别器,判别器用于对生成器产生的动作值进行判断,并将判别结果作为奖励值以指导生成器的学习。
其中,生成器和判别器均采用卷积神经网络,对抗性智能体为了达到类似于策略陷阱的作用,通过最大化得到的期望奖励值来学习到使目标智能体陷入错误策略,最小化损失函数以更新网络结构参数。具体地,如图2所示,在对对抗智能体进行强化学习的具体过程包括:
(a)生成器中,通过输入当前时刻的状态数据,得到相应的动作策略π(a|s;θ),π(a|s;θ)表示在s和θ的情况下选择动作a的概率。概率的对数乘以该动作的总回报R对θ求梯度,以梯度上升的方式更新θ。将采样得到的专家数据中的状态s输入到生成器网络(也就Actor网络)中,根据网络的初始化策略参数来得到相应的动作a',以生成对抗性智能体的状态动作对(s,a');
(b)GAN的目的是使生成数据与目标数据分布(训练集数据所代表的分布)相似,其中,判别器D可以当作一个二分类器,采用交叉熵来表示:
Figure BDA0002979058620000071
其中,minmax表示纳什均衡中的最大最小目标函数,Pdata(x)为来自样本数据的分布,第一项中的logD(x)表示判别器对真实数据的判断,第二项log(1-D(x))则表示对生成数据的判断通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的生成式网络和判别式网络,直至达到纳什均衡点。在对抗性智能体的训练过程中,利用Actor网络代替生成器G,其输出的动作与状态成对输入到判别器中,与专家数据进行对比,判别器D:S×A→(0,1)的输出作为奖励值用来指导对抗性智能体的策略学习。因此,模仿学习中的判别器损失函数可以表示为:
Figure BDA0002979058620000081
其中,Eπ[logD(s,a)]表示判别器依据生成器产生的状态动作值计算的能力值,EπE[1-logD(s,a)表示表示判别器依据专家数据中的状态动作对(s,a)计算的能量值,D∈(0,1)S×A表示判别器的输出为尺寸为S×A的0~1之间的小数;
(c)训练过程中,对抗性智能体通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
Figure BDA0002979058620000082
其中,
Figure BDA0002979058620000083
是对抗性智能体策略π的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项。
步骤4,基于对抗智能体产生的状态对目标智能体进行对抗训练,再优化优化深度Q网络的参数,以实现对深度强化学习策略优化防御。
实施例中,基于对抗智能体产生的状态对目标智能体进行对抗训练时,目标智能体基于参数优化的主Q网络产生N个动作时,即采用N步行为动作后,对抗智能体基于存储的状态产生N+1时刻的动作,并产生对应的状态值并存储,目标智能体的目标Q网络基于对抗智能体产生的N+1时刻的状态值计算目标Q值,以优化主Q网络的参数。
这样,经过深度学深度强化学习策略优化防御获得的深度Q网络可以用来在自动驾驶环境中的防御攻击,即目标智能体能够在攻击情况下产生正确动作。
实施例中,目标智能体的对抗博弈训练过程:
(a)目标智能体与对抗性智能体采用交替采取行为的方式对预训练模型进行对抗博弈训练,即当目标智能体采取N步的行为后,对抗性智能体采取一次行为,根据学习到的策略进行动作输出以得到下一个状态作为策略扰动结果。
(b)对抗性智能体不断地通过目标智能体的状态和Q值最小的动作来进行学习,提高了目标智能体对对抗性扰动的错误策略动作概率,从而优化目标智能体的策略,增强模型的鲁棒性。
(c)目标智能体从Buff中采样N个训练数据集,通过最小化当前Q网络的预测Q值和目标Q网络的目标Q值的均方差来更新当前Q网络的网络参数,每隔一段时间将当前Q网络的参数复制给目标Q网络。
实施例还提供一种基于模仿学习的深度强化学习策略优化防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,计算机处理器执行计算机程序时实现上述基于模仿学习的深度强化学习策略优化防御方法。
实际应用中,计算机存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现基于模仿学习的深度强化学习策略优化防御方法步骤。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于模仿学习的深度强化学习策略优化防御方法,其特征在于,包括以下步骤:
搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数;
利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;
基于生成式对抗网络构建对抗智能体,并对对抗智能体进行模仿学习,即以专家数据中状态作为生成式对抗网络的输入,同时以专家数据作为标签来监督以优化生成式对抗网络的参数;
基于对抗智能体产生的状态对目标智能体进行对抗训练,再优化优化深度Q网络的参数,以实现深度强化学习策略优化防御。
2.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,所述深度Q网络包括主Q网络和目标Q网络,其中,主Q网络作为目标智能体的决策网络,目标Q网络作为目标智能体的价值网络,在对目标智能体进行强化学习时,主Q网络根据状态计算的决策Q值作为动作值,并根据动作值产生下一时刻的状态值和奖励值,状态值、动作值以及奖励值均被存储,目标Q网络从存储中取出下一时刻的环境计算目标Q值,并以主Q网络与目标Q网络输出的决策Q值和目标Q值以及累计奖励值来更新主Q网络,同时每隔一段时间将当前主Q网络复制给目标Q网络。
3.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,以决策Q值和和包含累计奖励值的目标Q值的均方差作为损失函数来更新主Q网络。
4.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,所述生成式对抗网络包括生成器和判别器,其中,生成器作为对抗智能体的决策网络,判别器作为对抗智能体的价值网络,在对对抗智能体进行强化学习时,以专家数据中每个状态动作对的状态值作为生成器的输入,生成器根据输入的状态值计算产生预测动作值,该预测动作值与对应的输入状态值组成的状态动作对输入至判别器,专家数据中相同状态值的状态动作对作为标签也输入至判别器,判别器用于对生成器产生的动作值进行判断,并将判别结果作为奖励值以指导生成器的学习。
5.如权利要求4所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,对对抗智能体进行强化学习时,采用如公式(1)所示的损失函数更新判别器的参数:
Figure FDA0002979058610000021
其中,D表示判别器,Eπ[logD(s,a)]表示判别器依据生成器产生的状态动作值计算的能力值,EπE[1-logD(s,a)]表示表示判别器依据专家数据中的状态动作对(s,a)计算的能量值,D∈(0,1)S×A表示判别器的输出为尺寸为S×A的0~1之间的小数,
Figure FDA0002979058610000022
是对抗性智能体策略π的熵,由常数λ,λ≥0控制,作为损失函数中的策略正则项。
6.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,基于对抗智能体产生的状态对目标智能体进行对抗训练时,目标智能体基于参数优化的主Q网络产生N个动作时,即采用N步行为动作后,对抗智能体基于存储的状态产生N+1时刻的动作,并产生对应的状态值并存储,目标智能体的目标Q网络基于对抗智能体产生的N+1时刻的状态值计算目标Q值,以优化主Q网络的参数。
7.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,经过深度学深度强化学习策略优化防御获得的深度Q网络可以用来在自动驾驶环境中的防御攻击,即目标智能体能够在攻击情况下产生正确动作。
8.一种基于模仿学习的深度强化学习策略优化防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行计算机程序时实现权利要求1~7任一项所述的基于模仿学习的深度强化学习策略优化防御方法。
CN202110282288.6A 2021-03-16 2021-03-16 一种基于模仿学习的深度强化学习策略优化防御方法和装置 Pending CN112884131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110282288.6A CN112884131A (zh) 2021-03-16 2021-03-16 一种基于模仿学习的深度强化学习策略优化防御方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110282288.6A CN112884131A (zh) 2021-03-16 2021-03-16 一种基于模仿学习的深度强化学习策略优化防御方法和装置

Publications (1)

Publication Number Publication Date
CN112884131A true CN112884131A (zh) 2021-06-01

Family

ID=76042649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110282288.6A Pending CN112884131A (zh) 2021-03-16 2021-03-16 一种基于模仿学习的深度强化学习策略优化防御方法和装置

Country Status (1)

Country Link
CN (1) CN112884131A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313236A (zh) * 2021-06-10 2021-08-27 浙江工业大学 基于时序神经通路的深度强化学习模型中毒检测方法及其装置
CN113360917A (zh) * 2021-07-07 2021-09-07 浙江工业大学 基于差分隐私的深度强化学习模型安全加固方法及装置
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113485313A (zh) * 2021-06-25 2021-10-08 杭州玳数科技有限公司 自动驾驶车辆的抗干扰方法和装置
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策系统
CN114021635A (zh) * 2021-10-29 2022-02-08 北京京东振世信息技术有限公司 用于训练模型的方法、装置、设备以及存储介质
CN114137967A (zh) * 2021-11-23 2022-03-04 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114189470A (zh) * 2022-02-14 2022-03-15 军事科学院系统工程研究院网络信息研究所 一种基于模仿学习的智能路由决策保护方法和装置
CN114355936A (zh) * 2021-12-31 2022-04-15 深兰人工智能(深圳)有限公司 智能体的控制方法、装置、智能体及计算机可读存储介质
CN115373411A (zh) * 2022-05-31 2022-11-22 中国航空工业集团公司沈阳飞机设计研究所 一种飞机自动驾驶控制策略决策方法及其系统
CN115694947A (zh) * 2022-10-26 2023-02-03 四川大学 基于对抗生成dqn的网络加密流量威胁样本生成机制方法
WO2023082205A1 (zh) * 2021-11-12 2023-05-19 华为技术有限公司 强化学习代理的评估方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310915A (zh) * 2020-01-21 2020-06-19 浙江工业大学 一种面向强化学习的数据异常检测防御方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310915A (zh) * 2020-01-21 2020-06-19 浙江工业大学 一种面向强化学习的数据异常检测防御方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEI TAI等: "A Survey of Deep Network Solutions for Learning Control in Robotics: From Reinforcement to Imitation", 《ARXIV:1612.07139V4》, pages 1 - 19 *
TONGTAO ZHANG等: "Event Extraction with Generative Adversarial Imitation Learning", 《ARXIV:1804.07881V1》, pages 1 - 10 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113420326B (zh) * 2021-06-08 2022-06-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113313236A (zh) * 2021-06-10 2021-08-27 浙江工业大学 基于时序神经通路的深度强化学习模型中毒检测方法及其装置
CN113313236B (zh) * 2021-06-10 2024-03-15 浙江工业大学 基于时序神经通路的深度强化学习模型中毒检测方法及其装置
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113485313A (zh) * 2021-06-25 2021-10-08 杭州玳数科技有限公司 自动驾驶车辆的抗干扰方法和装置
CN113360917A (zh) * 2021-07-07 2021-09-07 浙江工业大学 基于差分隐私的深度强化学习模型安全加固方法及装置
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策系统
CN114021635A (zh) * 2021-10-29 2022-02-08 北京京东振世信息技术有限公司 用于训练模型的方法、装置、设备以及存储介质
WO2023082205A1 (zh) * 2021-11-12 2023-05-19 华为技术有限公司 强化学习代理的评估方法及相关装置
CN114137967A (zh) * 2021-11-23 2022-03-04 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114137967B (zh) * 2021-11-23 2023-12-15 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114355936A (zh) * 2021-12-31 2022-04-15 深兰人工智能(深圳)有限公司 智能体的控制方法、装置、智能体及计算机可读存储介质
CN114189470A (zh) * 2022-02-14 2022-03-15 军事科学院系统工程研究院网络信息研究所 一种基于模仿学习的智能路由决策保护方法和装置
CN115373411A (zh) * 2022-05-31 2022-11-22 中国航空工业集团公司沈阳飞机设计研究所 一种飞机自动驾驶控制策略决策方法及其系统
CN115694947A (zh) * 2022-10-26 2023-02-03 四川大学 基于对抗生成dqn的网络加密流量威胁样本生成机制方法
CN115694947B (zh) * 2022-10-26 2024-04-16 四川大学 基于对抗生成dqn的网络加密流量威胁样本生成机制方法

Similar Documents

Publication Publication Date Title
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN109492582B (zh) 一种基于算法对抗性攻击的图像识别攻击方法
CN111310915B (zh) 一种面向强化学习的数据异常检测防御方法
CN112884130A (zh) 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN110968866B (zh) 一种面向深度强化学习模型对抗攻击的防御方法
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
US20220176248A1 (en) Information processing method and apparatus, computer readable storage medium, and electronic device
CN114358128B (zh) 一种训练端到端的自动驾驶策略的方法
CN113392396A (zh) 面向深度强化学习的策略保护防御方法
CN114925850B (zh) 一种面向扰动奖励的深度强化学习对抗防御方法
CN113298252B (zh) 一种面向深度强化学习的策略异常检测方法和装置
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN112069504A (zh) 面向深度强化学习对抗攻击的模型增强防御方法
CN112272074B (zh) 一种基于神经网络的信息传输速率控制方法及系统
CN114863226A (zh) 一种网络物理系统入侵检测方法
CN112434791A (zh) 多智能体强对抗仿真方法、装置及电子设备
CN115168720A (zh) 内容交互预测方法以及相关设备
CN112084936B (zh) 一种人脸图像预处理方法、装置、设备及存储介质
CN115909027B (zh) 一种态势估计方法及装置
CN117008620A (zh) 一种无人驾驶自适应路径规划方法、系统、设备及介质
CN113807230B (zh) 基于主动强化学习的装备目标识别方法及装置
CN113344071B (zh) 一种基于深度策略梯度的入侵检测算法
CN116165886A (zh) 多传感器智能协同控制方法、装置、设备及介质
CN113485313A (zh) 自动驾驶车辆的抗干扰方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination