CN113392396A - 面向深度强化学习的策略保护防御方法 - Google Patents

面向深度强化学习的策略保护防御方法 Download PDF

Info

Publication number
CN113392396A
CN113392396A CN202110651675.2A CN202110651675A CN113392396A CN 113392396 A CN113392396 A CN 113392396A CN 202110651675 A CN202110651675 A CN 202110651675A CN 113392396 A CN113392396 A CN 113392396A
Authority
CN
China
Prior art keywords
strategy
network
target
deep
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110651675.2A
Other languages
English (en)
Other versions
CN113392396B (zh
Inventor
陈晋音
章燕
王雪柯
胡书隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110651675.2A priority Critical patent/CN113392396B/zh
Publication of CN113392396A publication Critical patent/CN113392396A/zh
Application granted granted Critical
Publication of CN113392396B publication Critical patent/CN113392396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向深度强化学习的策略保护防御方法,包括以下步骤:1)搭建深度强化学习的目标智能体自动驾驶模拟环境,基于强化学习中的深度Q网络预训练目标智能体以优化深度Q网络的参数;2)根据优化后的深度Q网络的策略πt生成T个时刻目标智能体驾驶序列状态动作对和奖励值作为专家数据;3)根据专家数据模仿学习生成模仿策略πIL;4)目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,通过对深度Q网络进行微调并修改目标函数,使得在保证目标智能体策略πt可以获得较高的期望奖励值的同时,保证根据模仿策略πIL得到的期望奖励值较低,以达到策略保护的目的。

Description

面向深度强化学习的策略保护防御方法
技术领域
本发明涉及策略隐私保护,尤其涉及一种面向深度强化学习的策略保护防御方法。
背景技术
深度强化学习是近年来人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用,关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务,深度强化学习系统需要进行多步决策来完成某项任务,而且连续的决策之间还具有高度的相关性。
强化学习通常是一个连续决策的过程,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构,结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略,使智能体可以随着时间的推移从其所在环境中不断自我学习。但是,深度强化学习训练得到的策略也会通过模仿学习或者行为克隆而被窃取,此外,窃取者还能根据窃取获得的策略对深度强化学习模型进行攻击,反过来扰乱强化学习本身训练好的策略,使其模型策略存在安全性漏洞,不能再很好地应对当前的环境。这不仅泄露了模型本身的策略数据,同时还给模型带来了极大的安全隐患,尤其是在需要隐私保护的安全关键型领域,有可能造成极大的损失。
由于深度强化学习训练得到的策略存在隐私泄露的风险,而模仿学习和行为克隆有强大的策略行为学习能力,窃取者可以通过学习到的策略给攻击者提供了模型的相关信息,从而生成相应的对抗样本对目标模型进行攻击,给模型的安全性带来了极大的挑战。
目前,深度强化学习通过结合了深度学习的感知能力和强化学习的决策能力来优化自身策略,凭借其所在环境中可以不断自我学习的优势得到了广泛的应用。但是,深度强化学习策略也会通过模仿学习或者行为克隆的方法被窃取,同时还容易因此而受到对抗样本扰动的攻击,存在策略泄露和安全威胁的问题。
发明内容
本发明提供了一种基于模仿学习和模型微调的面向深度强化学习的策略保护防御方法,以提高深度强化学习(DRL)模型的鲁棒性。
本发明的技术方案如下:
一种面向深度强化学习的策略保护防御方法,包括以下步骤:
1)搭建深度强化学习的目标智能体自动驾驶模拟环境,基于强化学习中的深度Q网络预训练目标智能体以优化深度Q网络的参数;
所述的智能体可以为自动驾驶环境中的无人小车。
优选的,步骤1)包括:
1.1)搭建深度强化学习的目标智能体自动驾驶模拟环境;
1.2)基于强化学习中的深度Q网络(DQN)训练目标智能体,训练目标是在较短的时间内安全地到达目的地;
1.3)训练过程中,将目标智能体的状态转换过程(包括状态st、动作at、奖励rt、下一个状态st')存储在经验回放缓冲区Buff中,作为深度Q网络的训练数据集;所述的深度Q网络包括当前Q网络和目标Q网络;
1.4)从经验回放缓冲区Buff中随机采样N个训练数据集,通过最小化当前Q网络的预测Q值和目标Q网络的目标Q值的均方差来更新当前 Q网络的网络参数;每隔一段时间将当前Q网络的参数复制给目标Q网络。
所述的深度Q网络在强化学习过程中,采用时序差分的方式进行迭代更新状态-动作价值函数Q:
Qi+1(st,at)=Qi(st,at)+α(yi-Qi(st,at))
其中,yi=Ri+1+γmaxat+1(Qi(st+1,at+1))为目标Q值,st+1是作为动作at出现的下一状态,at+1是st+1状态下的可能动作;a为学习率;γ为折现因子;
根据贝尔曼最优方程理论,;通过不断迭代更新上式,即可使Q函数逼近至真实值Q*,从而最终得到最优策略:
Figure RE-GDA0003199693880000031
训练过程中,当前Qθ网络输出的预测Q值用来选择动作a,另一个目标Qθ-网络用于计算目标Q值;通过计算预测Q值和目标Q值得均方差来定义损失函数:
Figure RE-GDA0003199693880000032
其中,yi=Ri+1+γmaxai+1(Qi(si+1,ai+1))为目标Q值,通过神经网络的反向梯度传播来更新当前Qθ网络的参数θ。
2)根据优化后的深度Q网络的策略πt生成T个时刻目标智能体驾驶序列状态动作对和奖励值作为专家数据;
3)根据专家数据模仿学习生成模仿策略πIL;包括:
3.1)将专家数据中的状态s作为Actor网络的输入,根据初始化的模仿策略πIL(a|s)输出Actor网络所采取的动作a';
3.2)将a'和专家数据中的状态s作为状态动作对(s,a'),与专家数据中对应的状态动作对(s,a)一起输入到判别器网络当中,对其产生的动作进行判别,利用判别器网络的输出yD来作为奖励值以指导模仿策略πIL的学习;
3.3)在模仿策略πIL的学习过程中,通过最大化得到的期望奖励值来学习专家数据的策略,最小化损失函数以更新深度Q网络的参数;
3.4)重复步骤3.2)-3.3),迭代更新Actor网络和判别器网络的结构参数以学习专家数据的策略,得到模仿策略πIL
所述判别器网络的损失函数为:
Figure RE-GDA0003199693880000033
其中,πIL表示模仿学习得到的策略;πt表示采样的专家策略;第一项中的logD(s,a)表示判别器对真实数据的判断;第二项log(1-D(s,a))则表示判别器对生成数据的判断。
步骤3.3)中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
Figure RE-GDA0003199693880000041
其中,
Figure RE-GDA0003199693880000042
是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项。
4)目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,通过对深度Q网络进行微调并修改目标函数,使得在保证目标智能体策略πt可以获得较高的期望奖励值的同时,保证根据模仿策略πIL得到的期望奖励值较低,以达到策略保护的目的。
步骤4)中,对深度Q网络进行微调包括:
将深度Q网络最后的Q网络层进行复制扩充,得到k个并行的Q网络层;
在训练过程中,随机从k个Q网络层中选择一个作为Q值输出层用于进行策略动作选取;更新参数时,从经验回放缓冲区Buff中进行数据采样,然后利用泊松分布生成一个k×1的掩码对k个Q网络层进行参数更新,利用k个Q值的平均值
Figure RE-GDA0003199693880000043
作为目标智能体策略πt进行学习和模仿。
步骤4)中,修改目标函数包括:
在目标函数上增加基于模仿策略πIL惩罚项,修改后的目标函数为:
Figure RE-GDA0003199693880000044
其中,τ1和τ2分别是根据目标策略πt和模仿策略πIL得到的轨迹数据; V(st)为t时刻状态的值函数;R(t)为t时刻的奖励值。
分别采样N1和N2个轨迹,对目标函数进行策略梯度求导,可得:
Figure RE-GDA0003199693880000045
其中,
Figure RE-GDA0003199693880000046
πt表示目标智能体的策略,πIL表示模仿策略,
Figure RE-GDA0003199693880000047
Figure RE-GDA0003199693880000048
对深度Q网络进行参数更新,可得到新的网络参数:
θ←θ+α(C1+C2),
Figure RE-GDA0003199693880000049
其中,a和β表示参数更新的学习率;每隔一段时间将子线程中的网络参数更新为主网络的参数,以指导目标智能体的策略学习。
本发明基于深度强化学习模型策略的隐私保护机制,提出了一种在自动驾驶场景中基于模仿学习的策略隐私保护方法。该方法首先利用模仿学习去学习预训练的模型策略,同时模型策略在训练过程中要保证自己学习到的策略有较好的性能,同时也要保证模仿学习得到的策略所获得的期望奖励值要低。本发明通过对模型进行微调来进行策略学习保护,同时修改目标函数以保证模型本身的性能较好以及模仿学习到的策略较差,从而达到策略隐私保护的目的,增强DRL模型的安全性。
本发明的技术构思为:在模拟自动驾驶的深度强化学习训练过程中,攻击者会通过目标智能体的动作来窃取目标智能体的策略信息,从而可以构建等价的模型来对目标模型进行攻击,使得目标模型的策略发生错误。基于此种情况,本发明利用模仿学习来进行模仿策略学习以进行策略保护,同时在训练过程中修改模型的输出层使得目标模型的策略动作分布发生改变,以达到策略隐私保护的目的。首先,利用DQN算法对目标智能体进行预训练得到目标策略πt,再采样多个回合的其序列状态和动作对作为专家数据;其次将专家数据中的状态输入到模仿学习的Actor网络中根据模仿策略πIL来生成动作,再将模仿学习的状态动作对与专家数据一起放入到判别器D中,利用判别器的输出作为奖励值来指导模仿策略的学习;然后对目标智能体进行模型微调,对输出层并行扩充以获取多个微调后的Q值,并将多个Q值的平均作为模型测试时的输出;最后在目标智能体的目标函数进行修改,增加基于模仿策略的惩罚性以调整目标策略,以达到目标智能体策略保护的目的。
与现有技术相比,本发明的有益效果主要表现在:
1)利用模仿学习和模型微调的方法来进行目标智能体的策略隐私保护;
2)在模型微调过程中,并行训练k个Q值网络层,测试时将平均值
Figure RE-GDA0003199693880000051
作为模型的输出,以防止攻击者获取其中某一层的模型参数来进行策略窃取;
3)在策略保护过程中,利用模仿学习来学习目标策略以生成模仿策略,再将模仿策略获得的期望奖励值作为惩罚项添加到目标智能体的目标函数中,在保证目标策略性能好的基础上还要保证模仿策略的性能要低以达到策略保护的目的。
附图说明
图1为本发明方法的流程示意图;
图2为本发明方法的基于模仿学习的策略保护示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细描述。
参照图1~图2,基于模仿学习和模型微调的深度强化学习策略保护防御方法,步骤如下:
1)目标智能体预训练过程。
1.1)搭建深度强化学习小车自动驾驶模拟环境;
1.2)基于强化学习中的深度Q网络算法(DQN)训练无人小车智能体Car,Car的目标是在较短的时间内安全地到达目的地;
1.3)训练过程中,将状态转换过程(状态st、动作at、奖励rt、下一个状态st')存储在经验回放缓冲区Buff中,作为网络模型的训练数据集;
1.4)从Buff中采样N个训练数据集,通过最小化当前Q网络的预测 Q值和目标Q网络的目标Q值的均方差来更新当前Q网络的网络参数,每隔一段时间将当前Q网络的参数复制给目标Q网络。
目标智能体进行预训练得到目标策略πt:基于强化学习中的深度Q网络算法(DQN)训练小车Car,Car的目标是尽可能快地安全到达目的地, DQN将Q学习与卷积神经网络相结合,构建了强化学习训练模型,其算法步骤如下:
DQN通过结合深度神经网络与强化学习的Q学习算法,不仅解决了状态空间过大难以维护的问题,而且由于神经网络强大的特征提取能力,其潜力也远大于人工的特征表示。强化学习中的Q学习通过贝尔曼方程,采用时序差分的方式进行迭代更新状态-动作价值函数Q:
Qi+1(st,at)=Qi(st,at)+a(yi-Qi(st,at))
其中,yi=Ri+1+γmaxat+1(Qi(st+1,at+1))为目标Q值,st+1是作为动作at出现的下一状态,at+1是st+1状态下的可能动作。a为学习率,γ为折现因子,Ri+1为奖励值。根据贝尔曼最优方程理论,只要通过不断迭代更新上式,即可使Q函数逼近至真实值Q*,从而最终得到最优策略:
Figure RE-GDA0003199693880000071
DQN还使用了目标网络机制,即在当前Qθ网络结构基础上,搭建了一个结构完全相同的目标Qθ-网络组成DQN的整体模型框架,训练过程中,当前Qθ网络输出的预测Q值用来选择动作a,另一个目标Qθ-网络用于计算目标Q值。通过计算预测Q值和目标Q值得均方差来定义损失函数:
Figure RE-GDA0003199693880000072
其中,yi=Ri+1+γmaxai+1(Qi(si+1,ai+1))为目标Q值,通过神经网络的反向梯度传播来更新当前Qθ网络的参数θ。
训练过程中,DQN采用了经验回放机制,将状态转换过程(状态si、动作ai、奖励ri、下一个状态s′i)存储在经验回放缓冲区Buff中,作为网络模型的训练数据集,并以随机采样的形式进行批处理学习。
从Buff中采样N个训练数据集,通过最小化损失函数来更新当前Qθ网络的网络参数,对于目标
Figure RE-GDA0003199693880000073
网络,其网络参数不需要进行迭代更新,而是每隔一段时间从当前Qθ网络中将网络参数复制过来,再进行下一轮的学习。
2)根据深度强度学习预训练模型的策略πt生成T个时刻小车驾驶序列状态动作对(state,action){(s1,a1),...,(sT,aT)}作为专家数据用于模仿学习以生成模仿策略πIL
3)基于模型学习生成模仿策略πIL
3.1)将专家数据中的小车正常驾驶状态s输入到行动者Actor网络中,其中Actor与目标模型中的Actor网络结构相同,根据初始化的模仿策略πIL(a|s)输出Actor网络所采取的动作a';
3.2)将步骤3.1)的输出a'和小车正常驾驶状态s作为状态动作对(s,a') 与专家的状态动作对(s,a)一起输入到判别器当中,对其产生的动作进行判别,利用判别器的输出yD来作为奖励值r以指导模仿策略的学习;
3.3)模仿学习具有较强的学习模仿策略的能力,训练过程中通过最大化得到的期望奖励值来学习专家的策略,最小化损失函数以更新网络结构参数;
3.4)重复步骤3.2)-3.3),迭代更新Actor网络和判别器网络的结构参数以学习专家策略数据,得到学习到的预训练目标模型的模仿策略πIL
模仿学习的网络结构包括行动者网络Actor和判别器网络D,其训练过程步骤如下:
Actor网络中,通过输入当前时刻的状态数据,得到相应的模仿策略
Figure RE-GDA0003199693880000081
表示在s和ω的情况下选择动作a的概率。将采样得到的专家数据中的状态s输入到Actor网络中,根据模仿策略πIL来得到相应的动作a',以生成模拟的状态动作对(s,a');
在模仿策略的训练过程中,利用Actor网络代替生成器G,其输出的动作与状态成对输入到判别器中,与专家数据进行对比,判别器 D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习。因此,模仿学习中的判别器损失函数可以表示为:
Figure RE-GDA0003199693880000082
其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略。第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1-D(s,a))则表示对生成数据的判断,通过这样一个最大最小博弈过程,循环交替优化G和D 来训练所需要的Actor网络和判别式网络。
训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和 Actor网络参数,其损失函数如下:
Figure RE-GDA0003199693880000083
其中,
Figure RE-GDA0003199693880000084
是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项。
4)目标智能体的策略保护:目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,通过对深度强化学习模型进行微调并在损失函数上进行修改,使得在保证目标智能体策略πt可以获得较高的期望奖励值的同时,还要保证根据模仿策略得到的期望奖励值越小越好,以达到策略保护的目的,具体方法步骤如下:
4.1)对目标智能体模型进行微调:在模型微调过程中,将模型最后的 Q网络层进行复制扩充,得到并行的k个Q网络层。在训练过程中,随机从k个网络层中选择一个作为Q值输出层用于进行策略动作选取,更新Q函数时,DQN算法从经验回放缓冲区Buff中进行数据采样,然后利用泊松分布生成一个k×1的掩码对k个Q网络层进行参数更新(掩码中为1的下标对应的Q网络层进行更新,为0的不更新),利用k个Q值的平均值
Figure RE-GDA0003199693880000091
作为目标智能体策略πt进行学习和模仿;
4.2)目标智能体通过在目标函数J(θ)上增加惩罚项进行修改,原本的目标函数是最大化目标智能体所获得的期望奖励值
Figure RE-GDA0003199693880000092
在目标函数上添加基于模仿策略的惩罚项
Figure RE-GDA0003199693880000093
其中τ表示轨迹数据,通过最大化目标函数就可以达到同时保证目标策略πt有较好的性能而模仿策略πIL性能低的目的;
4.3)训练过程中,目标函数可以用参数为μ值函数来表示,得到损失函数为:
Figure RE-GDA0003199693880000094
其中,τ1和τ2分别是根据目标策略和模仿策略得到的轨迹数据,V(st) 为t时刻状态的值函数;R(t)t时刻的奖励值。
分别采样N1和N2个轨迹,然后对损失函数进行策略梯度求导,可得:
Figure RE-GDA0003199693880000095
其中,
Figure RE-GDA0003199693880000096
πt表示目标智能体的策略,πIL表示模仿策略,
Figure RE-GDA0003199693880000097
Figure RE-GDA0003199693880000098
4.4)对主网络进行参数更新,可得到新的网络参数:
Figure RE-GDA0003199693880000099
其中,α和β表示参数更新的学习率。每隔一段时间将子线程中的网络参数更新为主网络的参数,以指导目标智能体的策略学习。
4.5)在目标智能体的训练过程中,模仿策略πIL每隔一段时间也会进行策略学习更新,保证其策略接近于修改后的目标智能体策略πt,从而指导目标智能体的策略保护。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向深度强化学习的策略保护防御方法,其特征在于,包括以下步骤:
1)搭建深度强化学习的目标智能体自动驾驶模拟环境,基于强化学习中的深度Q网络预训练目标智能体以优化深度Q网络的参数;
2)根据优化后的深度Q网络的策略πt生成T个时刻目标智能体驾驶序列状态动作对和奖励值作为专家数据;
3)根据专家数据模仿学习生成模仿策略πIL
4)目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,通过对深度Q网络进行微调并修改目标函数,使得在保证目标智能体策略πt可以获得较高的期望奖励值的同时,保证根据模仿策略πIL得到的期望奖励值较低,以达到策略保护的目的。
2.根据权利要求1所述的面向深度强化学习的策略保护防御方法,其特征在于,步骤1)包括:
1.1)搭建深度强化学习的目标智能体自动驾驶模拟环境;
1.2)基于强化学习中的深度Q网络训练目标智能体,训练目标是在较短的时间内安全地到达目的地;
1.3)训练过程中,将目标智能体的状态转换过程存储在经验回放缓冲区Buff中,作为深度Q网络的训练数据集;所述的深度Q网络包括当前Q网络和目标Q网络;
1.4)从经验回放缓冲区Buff中随机采样N个训练数据集,通过最小化当前Q网络的预测Q值和目标Q网络的目标Q值的均方差来更新当前Q网络的网络参数;每隔一段时间将当前Q网络的参数复制给目标Q网络。
3.根据权利要求1所述的面向深度强化学习的策略保护防御方法,其特征在于,步骤3)包括:
3.1)将专家数据中的状态s作为Actor网络的输入,根据初始化的模仿策略πIL(a|s)输出Actor网络所采取的动作a';
3.2)将a'和专家数据中的状态s作为状态动作对(s,a'),与专家数据中对应的状态动作对(s,a)一起输入到判别器网络当中,对其产生的动作进行判别,利用判别器网络的输出yD来作为奖励值以指导模仿策略πIL的学习;
3.3)在模仿策略πIL的学习过程中,通过最大化得到的期望奖励值来学习专家数据的策略,最小化损失函数以更新深度Q网络的参数;
3.4)重复步骤3.2)-3.3),迭代更新Actor网络和判别器网络的结构参数以学习专家数据的策略,得到模仿策略πIL
4.根据权利要求3所述的面向深度强化学习的策略保护防御方法,其特征在于,所述判别器网络的损失函数为:
Figure FDA0003111735130000021
其中,πIL表示模仿学习得到的策略;πt表示采样的专家策略;第一项中的log D(s,a)表示判别器对真实数据的判断;第二项log(1-D(s,a))则表示判别器对生成数据的判断。
5.根据权利要求3所述的面向深度强化学习的策略保护防御方法,其特征在于,步骤3.3)中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
Figure FDA0003111735130000022
其中,
Figure FDA0003111735130000023
是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项。
6.根据权利要求1所述的面向深度强化学习的策略保护防御方法,其特征在于,步骤4)中,对深度Q网络进行微调包括:
将深度Q网络最后的Q网络层进行复制扩充,得到k个并行的Q网络层;
在训练过程中,随机从k个Q网络层中选择一个作为Q值输出层用于进行策略动作选取;更新参数时,从经验回放缓冲区Buff中进行数据采样,然后利用泊松分布生成一个k×1的掩码对k个Q网络层进行参数更新,利用k个Q值的平均值
Figure FDA0003111735130000024
作为目标智能体策略πt进行学习和模仿。
7.根据权利要求1所述的面向深度强化学习的策略保护防御方法,其特征在于,步骤4)中,修改目标函数包括:
在目标函数上增加基于模仿策略πIL惩罚项,修改后的目标函数为:
Figure FDA0003111735130000031
其中,τ1和τ2分别是根据目标策略πt和模仿策略πIL得到的轨迹数据;V(st)为t时刻状态的值函数;R(t)为t时刻的奖励值。
8.根据权利要求7所述的面向深度强化学习的策略保护防御方法,其特征在于,分别采样N1和N2个轨迹,对目标函数进行策略梯度求导,可得:
Figure FDA0003111735130000032
其中,
Figure FDA0003111735130000033
πt表示目标智能体的策略,πIL表示模仿策略,
Figure FDA0003111735130000034
Figure FDA0003111735130000035
对深度Q网络进行参数更新,可得到新的网络参数:
θ←θ+α(C1+C2),
Figure FDA0003111735130000036
其中,α和β表示参数更新的学习率。
CN202110651675.2A 2021-06-11 2021-06-11 面向深度强化学习的策略保护防御方法 Active CN113392396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110651675.2A CN113392396B (zh) 2021-06-11 2021-06-11 面向深度强化学习的策略保护防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110651675.2A CN113392396B (zh) 2021-06-11 2021-06-11 面向深度强化学习的策略保护防御方法

Publications (2)

Publication Number Publication Date
CN113392396A true CN113392396A (zh) 2021-09-14
CN113392396B CN113392396B (zh) 2022-10-14

Family

ID=77620726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110651675.2A Active CN113392396B (zh) 2021-06-11 2021-06-11 面向深度强化学习的策略保护防御方法

Country Status (1)

Country Link
CN (1) CN113392396B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936219A (zh) * 2021-10-29 2022-01-14 北京航空航天大学 一种基于强化学习的高光谱图像波段选择方法
CN114048903A (zh) * 2021-11-11 2022-02-15 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
CN114925850A (zh) * 2022-05-11 2022-08-19 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法
CN115314399A (zh) * 2022-08-05 2022-11-08 北京航空航天大学 一种基于逆强化学习的数据中心流量调度方法
CN115542915A (zh) * 2022-10-08 2022-12-30 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN116319060A (zh) * 2023-04-17 2023-06-23 北京理工大学 一种基于drl模型的网络威胁处置策略智能自进化生成方法
WO2023206777A1 (zh) * 2022-04-29 2023-11-02 浪潮(北京)电子信息产业有限公司 模型生成方法、运行控制方法、装置、设备及存储介质
CN117610180A (zh) * 2023-11-16 2024-02-27 苏州科技大学 一种板壳加强筋生成式设计方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
US20200104679A1 (en) * 2018-09-27 2020-04-02 Deepmind Technologies Limited Learning observation representations by predicting the future in latent space
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CA3060900A1 (en) * 2018-11-05 2020-05-05 Royal Bank Of Canada System and method for deep reinforcement learning
US20200167686A1 (en) * 2018-11-27 2020-05-28 Amazon Technologies, Inc. Reinforcement learning model training through simulation
CN111310915A (zh) * 2020-01-21 2020-06-19 浙江工业大学 一种面向强化学习的数据异常检测防御方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN111856925A (zh) * 2020-06-02 2020-10-30 清华大学 基于状态轨迹的对抗式模仿学习方法及装置
CN112016686A (zh) * 2020-08-13 2020-12-01 中山大学 一种基于深度学习模型的对抗性训练方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112069504A (zh) * 2020-08-31 2020-12-11 浙江工业大学 面向深度强化学习对抗攻击的模型增强防御方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112884131A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN112884130A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于SeqGAN的深度强化学习数据增强防御方法和装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200104679A1 (en) * 2018-09-27 2020-04-02 Deepmind Technologies Limited Learning observation representations by predicting the future in latent space
CA3060900A1 (en) * 2018-11-05 2020-05-05 Royal Bank Of Canada System and method for deep reinforcement learning
US20200167686A1 (en) * 2018-11-27 2020-05-28 Amazon Technologies, Inc. Reinforcement learning model training through simulation
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CN111310915A (zh) * 2020-01-21 2020-06-19 浙江工业大学 一种面向强化学习的数据异常检测防御方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111856925A (zh) * 2020-06-02 2020-10-30 清华大学 基于状态轨迹的对抗式模仿学习方法及装置
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN112016686A (zh) * 2020-08-13 2020-12-01 中山大学 一种基于深度学习模型的对抗性训练方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112069504A (zh) * 2020-08-31 2020-12-11 浙江工业大学 面向深度强化学习对抗攻击的模型增强防御方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112884131A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN112884130A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于SeqGAN的深度强化学习数据增强防御方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
万里鹏等: "深度强化学习理论及其应用综述", 《模式识别与人工智能》 *
朱斐等: "基于双深度网络的安全深度强化学习方法", 《计算机学报》 *
林嘉豪等: "基于生成对抗网络的模仿学习综述", 《计算机学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936219A (zh) * 2021-10-29 2022-01-14 北京航空航天大学 一种基于强化学习的高光谱图像波段选择方法
CN113936219B (zh) * 2021-10-29 2024-05-31 北京航空航天大学 一种基于强化学习的高光谱图像波段选择方法
CN114048903A (zh) * 2021-11-11 2022-02-15 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
CN114048903B (zh) * 2021-11-11 2024-03-26 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
WO2023206777A1 (zh) * 2022-04-29 2023-11-02 浪潮(北京)电子信息产业有限公司 模型生成方法、运行控制方法、装置、设备及存储介质
CN114925850A (zh) * 2022-05-11 2022-08-19 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法
CN114925850B (zh) * 2022-05-11 2024-02-20 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法
CN115314399A (zh) * 2022-08-05 2022-11-08 北京航空航天大学 一种基于逆强化学习的数据中心流量调度方法
CN115314399B (zh) * 2022-08-05 2023-09-15 北京航空航天大学 一种基于逆强化学习的数据中心流量调度方法
CN115542915B (zh) * 2022-10-08 2023-10-31 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN115542915A (zh) * 2022-10-08 2022-12-30 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN116319060A (zh) * 2023-04-17 2023-06-23 北京理工大学 一种基于drl模型的网络威胁处置策略智能自进化生成方法
CN116319060B (zh) * 2023-04-17 2024-08-16 北京理工大学 一种基于drl模型的网络威胁处置策略智能自进化生成方法
CN117610180A (zh) * 2023-11-16 2024-02-27 苏州科技大学 一种板壳加强筋生成式设计方法
CN117610180B (zh) * 2023-11-16 2024-05-14 苏州科技大学 一种板壳加强筋生成式设计方法

Also Published As

Publication number Publication date
CN113392396B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN113392396B (zh) 面向深度强化学习的策略保护防御方法
CN113420326B (zh) 面向深度强化学习的模型隐私保护方法和系统
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN111310915B (zh) 一种面向强化学习的数据异常检测防御方法
Chen et al. POBA-GA: Perturbation optimized black-box adversarial attacks via genetic algorithm
Wang et al. Improving Reinforcement Learning with Confidence-Based Demonstrations.
CN114757351B (zh) 一种深度强化学习模型对抗攻击的防御方法
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN112052456A (zh) 基于多智能体的深度强化学习策略优化防御方法
CN112884130A (zh) 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
CN113033822A (zh) 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统
CN112069504A (zh) 面向深度强化学习对抗攻击的模型增强防御方法
CN113379027A (zh) 一种生成对抗交互模仿学习方法、系统、存储介质及应用
CN113360917A (zh) 基于差分隐私的深度强化学习模型安全加固方法及装置
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN115063652A (zh) 一种基于元学习的黑盒攻击方法、终端设备及存储介质
CN115933717A (zh) 基于深度强化学习的无人机智能空战机动决策训练系统及方法
Tong et al. Enhancing rolling horizon evolution with policy and value networks
Ohashi et al. Deep adversarial reinforcement learning with noise compensation by autoencoder
CN117441168A (zh) 用于深度强化学习中的对抗性攻击的方法和装置
CN113485313A (zh) 自动驾驶车辆的抗干扰方法和装置
CN115905861A (zh) 一种基于多级算子变异的强化学习框架安全性检测方法
CN117057395A (zh) 一种基于渐进演化的对战决策方法
CN115660052A (zh) 一种融合后见之明思想的群体智能学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant