CN113420326A - 面向深度强化学习的模型隐私保护方法和系统 - Google Patents

面向深度强化学习的模型隐私保护方法和系统 Download PDF

Info

Publication number
CN113420326A
CN113420326A CN202110635546.4A CN202110635546A CN113420326A CN 113420326 A CN113420326 A CN 113420326A CN 202110635546 A CN202110635546 A CN 202110635546A CN 113420326 A CN113420326 A CN 113420326A
Authority
CN
China
Prior art keywords
network
strategy
action
target
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110635546.4A
Other languages
English (en)
Other versions
CN113420326B (zh
Inventor
何文秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhijiang College of ZJUT
Original Assignee
Zhijiang College of ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhijiang College of ZJUT filed Critical Zhijiang College of ZJUT
Priority to CN202110635546.4A priority Critical patent/CN113420326B/zh
Publication of CN113420326A publication Critical patent/CN113420326A/zh
Application granted granted Critical
Publication of CN113420326B publication Critical patent/CN113420326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

面向深度强化学习的模型隐私保护方法,包括:对目标智能体进行预训练得到目标策略πt;根据深度强度学习预训练模型的策略πt生成T个时刻小车驾驶序列状态动作对作为专家数据用于模仿学习以生成模仿策略πIL;基于模型学习生成模仿策略πIL;对目标智能体的模型进行隐私保护;对目标智能体进行对抗训练。本发明还包括面向深度强化学习的模型隐私保护的系统。本发明能够防止窃取者通过窃取模型进行攻击,在保证目标策略性能好的基础上还保证模仿策略的性能要低以达到模型隐私保护的目的。

Description

面向深度强化学习的模型隐私保护方法和系统
技术领域
本发明属于面向深度强化学习的模型隐私保护领域,具体涉及一种基于模仿学习的模型隐私保护方法和系统。
背景技术
深度强化学习是近年来人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用,关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务,深度强化学习系统需要进行多步决策来完成某项任务,而且连续的决策之间还具有高度的相关性。
强化学习通常是一个连续决策的过程,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构,结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略,使智能体可以随着时间的推移从其所在环境中不断自我学习。但是,深度强化学习训练得到的策略也会通过模仿学习或者行为克隆而被窃取,此外,窃取者还能根据窃取获得的策略对深度强化学习模型进行攻击,反过来扰乱强化学习本身训练好的策略,使其模型策略存在安全性漏洞,不能再很好地应对当前的环境。这不仅泄露了模型本身的策略数据,同时还给模型带来了极大的安全隐患,尤其是在需要隐私保护的安全关键型领域,有可能造成极大的损失。
由于深度强化学习的训练数据存在隐私泄露的风险,而模仿学习和行为克隆有强大的策略行为学习能力,窃取者可以通过学习到的策略给攻击者提供了数据的相关信息,从而生成相应的对抗样本对目标模型进行攻击,给模型的安全性带来了极大的挑战。本发明就是基于深度强化学习的模型隐私保护机制,提出了一种在自动驾驶场景中基于模仿学习的模型隐私保护方法。该方法首先利用模仿学习去学习预训练的模型策略,同时模型策略在训练过程中要保证自己学习到的策略有较好的性能,同时也要保证模仿学习得到的策略所获得的期望奖励值要低。此外,为了防御攻击者利用等价模型的策略对目标模型进行对抗攻击,本发明利用模仿学习生成的对抗样本,进行对抗训练防御,从而提高目标智能体的策略鲁棒性,增强DRL模型的安全性。
目前,深度强化学习通过结合了深度学习的感知能力和强化学习的决策能力来优化自身策略,凭借其所在环境中可以不断自我学习的优势得到了广泛的应用。但是,深度强化学习策略也会通过模仿学习或者行为克隆的方法被窃取,同时还容易因此而受到对抗样本扰动的攻击,存在数据泄露和对抗安全威胁的问题。
发明内容
本发明要克服现有技术的上述缺点,提出一种面向深度强化学习的模型隐私保护方法和系统,以提高DRL模型的鲁棒性。
本发明的面向深度强化学习的模型隐私保护方法,包括以下步骤:
1)预训练目标智能体:
1.1)搭建深度强化学习小车自动驾驶模拟环境;
1.2)基于强化学习中的深度确定性决策梯度算法(DDPG)训练无人小车智能体Car,Car的目标是在较短的时间内安全地到达目的地;
1.3)训练过程中,将状态转换过程(状态st、动作at、奖励rt、下一个状态st')存储在经验回放缓冲区Buff中,作为网络模型的训练数据集;
1.4)目标智能体从Buff中采样小批次训练数据,通过最小化实际累积的奖励函数和动作值Q函数之间的损失函数来更新Critic网络参数;通过计算动作值函数的梯度来更新Actor网络的策略参数;通过软更新的方式来更新目标网络参数;
2)根据深度强度学习预训练模型的策略πt生成T个时刻小车驾驶序列状态动作对(state,action){(s1,a1),...,(sT,aT)}作为专家数据用于模仿学习以生成模仿策略πIL
3)基于模仿学习训练模仿策略πIL
3.1)将专家数据中的小车正常驾驶状态s输入到行动者Actor网络中,其中Actor与目标模型中的Actor网络结构相同,根据初始化的模仿策略πIL(a|s)输出Actor网络所采取的动作a';
3.2)将步骤3.1)的输出a'和小车正常驾驶状态s作为状态动作对(s,a')与专家的状态动作对(s,a)一起输入到判别器当中,对其产生的动作进行判别,利用判别器的输出yD来作为奖励值r以指导模仿策略的学习;
3.3)模仿学习具有较强的学习模仿策略的能力,训练过程中通过最大化得到的期望奖励值来学习专家的策略,最小化损失函数以更新网络结构参数;
3.4)重复步骤3.2)-3.3),迭代更新Actor网络和判别器网络的结构参数以学习专家策略数据,得到学习到的预训练目标模型的模仿策略πIL
4)对目标智能体的模型进行隐私保护:
目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,通过对深度强化学习模型进行微调并在损失函数上进行修改,使得在保证目标智能体策略πt可以获得较高的期望奖励值的同时,还要保证根据模仿策略得到的期望奖励值越小越好,以防止攻击者通过模型决策输出来实现数据窃取攻击;
4.1)修改损失函数:
目标智能体通过在目标函数上增加惩罚项进行修改,原本的目标函数是最大化目标智能体所获得的期望奖励值,在目标函数上添加基于模仿策略的惩罚项,即根据模仿策略所获得的期望奖励值,通过最大化目标函数就可以达到同时保证目标策略πt有较好的性能而模仿策略πIL性能低的目的;
4.2)在目标智能体的模型微调训练过程中,模仿策略πIL每隔一段时间也会进行策略学习更新,保证其策略接近于修改后的目标智能体策略πt,从而指导目标智能体的决策输出,实现模型安全隐私保护;
5)对目标智能体进行对抗训练:
5.1)在目标智能体的防御保护训练过程中,每隔N个回合基于模仿学习生成对抗样本,利用基于梯度优化的方法来模拟黑盒对抗攻击来生成不同状态的对抗样本;
5.2)在训练过程中,将生成的对抗样本作为输入状态对目标模型进行对抗训练,以提高模型策略的鲁棒性,防御攻击者利用模仿学习来进行对抗攻击。
本发明还包括实现上述面向深度强化学习的模型隐私保护方法的系统,包括依次连接的目标智能体预训练模块、小车驾驶序列状态动作对生成模块、模仿策略πIL训练模块、目标智能体模型隐私保护模块、目标智能体对抗训练模块。
本发明的技术构思为:在模拟小车自动驾驶的深度强化学习训练过程中,攻击者会通过目标智能体的动作策略输出来窃取目标智能体的状态数据信息,从而可以构建等价的模型来对目标模型进行攻击,使得目标模型的策略发生错误。基于此种情况,本发明利用模仿学习来进行模拟策略学习以进行决策输出保护,从而防止窃取者通过输出来窃取模型的数据信息,同时在训练过程中加入基于模仿学习生成的扰动样本数据,以达到模型鲁棒安全增强的目的。首先,利用DDPG算法对目标智能体进行预训练得到目标策略πt,再采样多个回合的其序列状态和动作对作为专家数据;其次将专家数据中的状态输入到模仿学习的Actor网络中根据模仿策略πIL来生成动作,再将模仿学习的状态动作对与专家数据一起放入到判别器D中,利用判别器的输出作为奖励值来指导模仿策略的学习;然后在目标智能体的目标函数进行修改,增加基于模仿策略的惩罚性以调整目标策略,以达到目标智能体策略输出保护的目的;最后利用模仿学习来生成扰动样本,以构造带有对抗样本的数据集进行对抗训练,实现DRL模型鲁棒安全增强的目的。
本发明的有益效果主要表现在:1)利用模仿学习方法来进行目标智能体的策略输出保护以达到防止窃取者通过窃取模型进行攻击;2)在策略保护过程中,利用模仿学习来学习目标策略以生成模仿策略,再将模仿策略获得的期望奖励值作为惩罚项添加到目标智能体的目标函数中,在保证目标策略性能好的基础上还要保证模仿策略的性能要低以达到模型隐私保护的目的;3)利用模仿学习来生成扰动样本构造对抗训练数据集,以抵抗模型在测试过程的黑盒对抗攻击。
附图说明
图1为本发明方法的示意图。
图2为本发明方法的基于模仿学习的模型隐私保护示意图。
图3为本发明方法的强化学习中DDPG算法结构的示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细描述。
参照图1~图3,面向深度强化学习的模型隐私保护方法,步骤如下:
1)对目标智能体进行预训练得到目标策略πt:深度确定性决策梯度算法(DDPG)训练小车Car,Car的目标是尽可能快地安全到达目的地。DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来,采用了确定性策略μ来选取动作at=μ(s|θμ),θμ是产生确定性动作的策略网络μ(s|θμ)的参数,以μ(s)来充当Actor,θQ是价值Q网络Q(s,a,θQ)的参数,以Q(s,a)函数来充当Critic。为提高训练稳定性,同时为策略网络和价值网络引入目标网络。其算法步骤如下:
1.1)DDPG模型用来生成连续行为,其网络结构由两大部分组成,即actor网络包含动作估计网络和动作实现网络,以及critic网络包含状态估计网络和状态实现网络。在预训练阶段,只需要训练动作估计网络和状态估计网络的参数,动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的。状态估计网络的学习过程根据下面的损失函数来进行网络学习,即实际Q值和估计Q值的平方损失:
Figure BDA0003105530790000061
其中,Q(si,ai,w)是根据状态估计网络根据状态si和在动作估计网络参数w下的动作ai得到的估计Q值,ai是动作估计网络传过来的动作,yi为实际Q值,以目标Q值yi的最大值作为实际Q值,即yi=max(yi),其中,目标Q值yi是根据现实奖励R、下一时刻环境状态s′以及动作实现网络输出的动作A′利用贝尔曼方程计算得到,具体公式为:
Yi=R+γQ′(S′,A′,w′) (2)
其中,R为当前动作对应的奖励值,γ为折扣因子,取值范围为0~1,Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值,由状态实现网络计算得到,w′为状态实现网络参数。
1.2)动作估计网络参数则是利用损失梯度来更新的,神经网络参数的更新公式如下:
Figure BDA0003105530790000071
θ′←τθ+(1-τ)θ′ (4)
w′←τw+(1-τ)w′ (5)
其中,θ是动作估计网络的参数,θ′是动作实现网络的参数,w是状态估计网络的参数,w′是状态实现网络的参数,Q(si,ai,w)是根据状态估计网络根据状态si和在状态估计网络参数w下的动作ai得到的估计Q值,πθ(.)是参数θ下动作估计网络的策略,J(.)是动作估计网络的损失函数。
1.3)训练过程中,将目标智能体的状态转换过渡过程(s0,a0,r0,s'0)存储在经验回放缓冲区Buff,其中s0表示目标智能的部分可观测的状态数据,a0表示目标智能在s0状态时采取的动作,r0表示得到的即时奖励,s'0表示目标智能体可观测到的下一个状态数据,作为网络模型的训练数据集,并以随机采样的形式进行批处理学习。
2)根据深度强度学习预训练模型的策略πt生成T个时刻小车驾驶序列状态动作对(state,action){(s1,a1),...,(sT,aT)}作为专家数据用于模仿学习以生成模仿策略πIL
3)基于模型学习生成模仿策略πIL:模仿学习的网络结构包括行动者网络Actor和判别器网络D,其训练过程步骤如下:
3.1)Actor网络中,通过输入当前时刻的状态数据,得到相应的模仿策略
Figure BDA0003105530790000084
表示在s和ω的情况下选择动作a的概率。将采样得到的专家数据中的状态s输入到Actor网络中,根据模仿策略πIL来得到相应的动作a',以生成模拟的状态动作对(s,a');
3.2)在模仿策略的训练过程中,利用Actor网络代替生成器G,其输出的动作与状态成对输入到判别器中,与专家数据进行对比,判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习。因此,模仿学习中的判别器损失函数可以表示为:
Figure BDA0003105530790000081
其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略。第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1-D(s,a))则表示对生成数据的判断,通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的Actor网络和判别式网络。
3.3)训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
Figure BDA0003105530790000082
其中,
Figure BDA0003105530790000083
是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项。
4)目标智能体的模型隐私保护:目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,即在保证目标智能体策略πt可以获得较高的期望奖励值的同时,还要保证根据模仿策略得到的期望奖励值越小越好,以达到策略保护的目的,具体方法步骤如下:
4.1)目标智能体通过在目标函数J(θ)上增加惩罚项进行修改,原本的目标函数是最大化目标智能体所获得的期望奖励值
Figure BDA0003105530790000091
在目标函数上添加基于模仿策略的惩罚项
Figure BDA0003105530790000092
其中τ表示轨迹数据,通过最大化目标函数就可以达到同时保证目标策略πt有较好的性能而模仿策略πIL性能低的目的;
4.2)训练过程中,目标函数可以用参数为μ值函数来表示,得到损失函数为:
Figure BDA0003105530790000093
其中,τ1和τ2分别是根据目标策略和模仿策略得到的轨迹数据,分别采样N1和N2个轨迹,然后对损失函数进行策略梯度求导,可得:
Figure BDA0003105530790000094
其中,
Figure BDA0003105530790000095
πt表示目标智能体的策略,πIL表示模仿策略,
Figure BDA0003105530790000096
Figure BDA0003105530790000097
4.3)对主网络进行参数更新,可得到新的网络参数:
Figure BDA0003105530790000098
其中,α和β表示参数更新的学习率。每隔一段时间将子线程中的网络参数更新为主网络的参数,以指导目标智能体的策略学习。
4.4)在目标智能体的训练过程中,模仿策略πIL每隔一段时间也会进行策略学习更新,保证其策略接近于修改后的目标智能体策略πt,从而指导目标智能体的决策输出,实现模型安全隐私保护;
5)目标智能体的对抗训练:
5.1)在目标智能体的防御保护训练过程中,每隔N个回合基于模仿学习生成对抗样本,利用基于梯度优化的方法来模拟黑盒对抗攻击来生成不同状态的对抗样本;
5.2)在训练过程中,将生成的对抗样本作为输入状态对目标模型进行对抗训练,以提高模型策略的鲁棒性,防御攻击者利用模仿学习来进行对抗攻击。
实施本发明的面向深度强化学习的模型隐私保护方法的系统,包括依次连接的目标智能体预训练模块、小车驾驶序列状态动作对生成模块、模仿策略πIL训练模块、目标智能体模型隐私保护模块、目标智能体对抗训练模块,其中
目标智能体预训练模块对目标智能体进行预训练得到目标策略πt,具体包括:深度确定性决策梯度算法(DDPG)训练小车Car,Car的目标是尽可能快地安全到达目的地。DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来,采用了确定性策略μ来选取动作at=μ(s|θμ),θμ是产生确定性动作的策略网络μ(s|θμ)的参数,以μ(s)来充当Actor,θQ是价值Q网络Q(s,a,θQ)的参数,以Q(s,a)函数来充当Critic。为提高训练稳定性,同时为策略网络和价值网络引入目标网络。其算法步骤如下:
1.1)DDPG模型用来生成连续行为,其网络结构由两大部分组成,即actor网络包含动作估计网络和动作实现网络,以及critic网络包含状态估计网络和状态实现网络。在预训练阶段,只需要训练动作估计网络和状态估计网络的参数,动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的。状态估计网络的学习过程根据下面的损失函数来进行网络学习,即实际Q值和估计Q值的平方损失:
Figure BDA0003105530790000111
其中,Q(si,ai,w)是根据状态估计网络根据状态si和在动作估计网络参数w下的动作ai得到的估计Q值,ai是动作估计网络传过来的动作,yi为实际Q值,以目标Q值yi的最大值作为实际Q值,即yi=max(yi),其中,目标Q值yi是根据现实奖励R、下一时刻环境状态s′以及动作实现网络输出的动作A′利用贝尔曼方程计算得到,具体公式为:
Yi=R+γQ′(S′,A′,w′) (2)
其中,R为当前动作对应的奖励值,γ为折扣因子,取值范围为0~1,Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值,由状态实现网络计算得到,w′为状态实现网络参数。
1.2)动作估计网络参数则是利用损失梯度来更新的,神经网络参数的更新公式如下:
Figure BDA0003105530790000112
θ′←τθ+(1-τ)θ′ (4)
w′←τw+(1-τ)w′ (5)
其中,θ是动作估计网络的参数,θ′是动作实现网络的参数,w是状态估计网络的参数,w′是状态实现网络的参数,Q(si,ai,w)是根据状态估计网络根据状态si和在状态估计网络参数w下的动作ai得到的估计Q值,πθ(.)是参数θ下动作估计网络的策略,J(.)是动作估计网络的损失函数。
1.3)训练过程中,将目标智能体的状态转换过渡过程(s0,a0,r0,s'0)存储在经验回放缓冲区Buff,其中s0表示目标智能的部分可观测的状态数据,a0表示目标智能在s0状态时采取的动作,r0表示得到的即时奖励,s'0表示目标智能体可观测到的下一个状态数据,作为网络模型的训练数据集,并以随机采样的形式进行批处理学习。
小车驾驶序列状态动作对生成模块根据深度强度学习预训练模型的策略πt生成T个时刻小车驾驶序列状态动作对(state,action){(s1,a1),...,(sT,aT)}作为专家数据用于模仿学习以生成模仿策略πIL
模仿策略πIL训练模块基于模型学习生成模仿策略πIL,具体包括:模仿学习的网络结构包括行动者网络Actor和判别器网络D,其训练过程步骤如下:
3.1)Actor网络中,通过输入当前时刻的状态数据,得到相应的模仿策略
Figure BDA0003105530790000121
表示在s和ω的情况下选择动作a的概率。将采样得到的专家数据中的状态s输入到Actor网络中,根据模仿策略πIL来得到相应的动作a',以生成模拟的状态动作对(s,a');
3.2)在模仿策略的训练过程中,利用Actor网络代替生成器G,其输出的动作与状态成对输入到判别器中,与专家数据进行对比,判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习。因此,模仿学习中的判别器损失函数可以表示为:
Figure BDA0003105530790000122
其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略。第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1-D(s,a))则表示对生成数据的判断,通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的Actor网络和判别式网络。
3.3)训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
Figure BDA0003105530790000131
其中,
Figure BDA0003105530790000132
是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项。
目标智能体模型隐私保护模块包括:目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,即在保证目标智能体策略πt可以获得较高的期望奖励值的同时,还要保证根据模仿策略得到的期望奖励值越小越好,以达到策略保护的目的,具体方法步骤如下:
4.1)目标智能体通过在目标函数J(θ)上增加惩罚项进行修改,原本的目标函数是最大化目标智能体所获得的期望奖励值
Figure BDA0003105530790000133
在目标函数上添加基于模仿策略的惩罚项
Figure BDA0003105530790000134
其中τ表示轨迹数据,通过最大化目标函数就可以达到同时保证目标策略πt有较好的性能而模仿策略πIL性能低的目的;
4.2)训练过程中,目标函数可以用参数为μ值函数来表示,得到损失函数为:
Figure BDA0003105530790000135
其中,τ1和τ2分别是根据目标策略和模仿策略得到的轨迹数据,分别采样N1和N2个轨迹,然后对损失函数进行策略梯度求导,可得:
Figure BDA0003105530790000136
其中,
Figure BDA0003105530790000141
πt表示目标智能体的策略,πIL表示模仿策略,
Figure BDA0003105530790000142
Figure BDA0003105530790000143
4.3)对主网络进行参数更新,可得到新的网络参数:
Figure BDA0003105530790000144
其中,α和β表示参数更新的学习率。每隔一段时间将子线程中的网络参数更新为主网络的参数,以指导目标智能体的策略学习。
4.4)在目标智能体的训练过程中,模仿策略πIL每隔一段时间也会进行策略学习更新,保证其策略接近于修改后的目标智能体策略πt,从而指导目标智能体的决策输出,实现模型安全隐私保护;
目标智能体对抗训练模块包括:
5.1)在目标智能体的防御保护训练过程中,每隔N个回合基于模仿学习生成对抗样本,利用基于梯度优化的方法来模拟黑盒对抗攻击来生成不同状态的对抗样本;
5.2)在训练过程中,将生成的对抗样本作为输入状态对目标模型进行对抗训练,以提高模型策略的鲁棒性,防御攻击者利用模仿学习来进行对抗攻击。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.面向深度强化学习的模型隐私保护方法,步骤如下:
1)对目标智能体进行预训练得到目标策略πt:深度确定性决策梯度算法(DDPG)训练小车Car,Car的目标是尽可能快地安全到达目的地;DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来,采用了确定性策略μ来选取动作at=μ(s|θμ),θμ是产生确定性动作的策略网络μ(s|θμ)的参数,以μ(s)来充当Actor,θQ是价值Q网络Q(s,a,θQ)的参数,以Q(s,a)函数来充当Critic;为提高训练稳定性,同时为策略网络和价值网络引入目标网络;其算法步骤如下:
1.1)DDPG模型用来生成连续行为,其网络结构由两大部分组成,即actor网络包含动作估计网络和动作实现网络,以及critic网络包含状态估计网络和状态实现网络;在预训练阶段,只需要训练动作估计网络和状态估计网络的参数,动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的;状态估计网络的学习过程根据下面的损失函数来进行网络学习,即实际Q值和估计Q值的平方损失:
Figure FDA0003105530780000011
其中,Q(si,ai,w)是根据状态估计网络根据状态si和在动作估计网络参数w下的动作ai得到的估计Q值,ai是动作估计网络传过来的动作,yi为实际Q值,以目标Q值yi的最大值作为实际Q值,即yi=max(yi),其中,目标Q值yi是根据现实奖励R、下一时刻环境状态s′以及动作实现网络输出的动作A′利用贝尔曼方程计算得到,具体公式为:
Yi=R+γQ′(S′,A′,w′) (2)
其中,R为当前动作对应的奖励值,γ为折扣因子,取值范围为0~1,Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值,由状态实现网络计算得到,w′为状态实现网络参数;
1.2)动作估计网络参数则是利用损失梯度来更新的,神经网络参数的更新公式如下:
Figure FDA0003105530780000021
θ′←τθ+(1-τ)θ′ (4)
w′←τw+(1-τ)w′ (5)
其中,θ是动作估计网络的参数,θ′是动作实现网络的参数,w是状态估计网络的参数,w′是状态实现网络的参数,Q(si,ai,w)是根据状态估计网络根据状态si和在状态估计网络参数w下的动作ai得到的估计Q值,πθ(.)是参数θ下动作估计网络的策略,J(.)是动作估计网络的损失函数;
1.3)训练过程中,将目标智能体的状态转换过渡过程(s0,a0,r0,s′0)存储在经验回放缓冲区Buff,其中s0表示目标智能的部分可观测的状态数据,a0表示目标智能在s0状态时采取的动作,r0表示得到的即时奖励,s′0表示目标智能体可观测到的下一个状态数据,作为网络模型的训练数据集,并以随机采样的形式进行批处理学习;
2)根据深度强度学习预训练模型的策略πt生成T个时刻小车驾驶序列状态动作对(state,action){(s1,a1),...,(sT,aT)}作为专家数据用于模仿学习以生成模仿策略πIL
3)基于模型学习生成模仿策略πIL:模仿学习的网络结构包括行动者网络Actor和判别器网络D,其训练过程步骤如下:
3.1)Actor网络中,通过输入当前时刻的状态数据,得到相应的模仿策略
Figure FDA0003105530780000031
Figure FDA0003105530780000032
表示在s和ω的情况下选择动作a的概率;将采样得到的专家数据中的状态s输入到Actor网络中,根据模仿策略πIL来得到相应的动作a′,以生成模拟的状态动作对(s,a′);
3.2)在模仿策略的训练过程中,利用Actor网络代替生成器G,其输出的动作与状态成对输入到判别器中,与专家数据进行对比,判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习;因此,模仿学习中的判别器损失函数可以表示为:
Figure FDA0003105530780000033
其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略;第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1-D(s,a))则表示对生成数据的判断,通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的Actor网络和判别式网络;
3.3)训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
Figure FDA0003105530780000034
其中,
Figure FDA0003105530780000035
是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项;
4)对目标智能体的模型进行隐私保护:目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,即在保证目标智能体策略πt可以获得较高的期望奖励值的同时,还要保证根据模仿策略得到的期望奖励值越小越好,以达到策略保护的目的,具体方法步骤如下:
4.1)目标智能体通过在目标函数J(θ)上增加惩罚项进行修改,原本的目标函数是最大化目标智能体所获得的期望奖励值
Figure FDA0003105530780000041
在目标函数上添加基于模仿策略的惩罚项
Figure FDA0003105530780000042
其中τ表示轨迹数据,通过最大化目标函数就可以达到同时保证目标策略πt有较好的性能而模仿策略πIL性能低的目的;
4.2)训练过程中,目标函数可以用参数为μ值函数来表示,得到损失函数为:
Figure FDA0003105530780000043
其中,τ1和τ2分别是根据目标策略和模仿策略得到的轨迹数据,分别采样N1和N2个轨迹,然后对损失函数进行策略梯度求导,可得:
Figure FDA0003105530780000044
其中,
Figure FDA0003105530780000045
Figure FDA0003105530780000046
πt表示目标智能体的策略,πIL表示模仿策略,
Figure FDA0003105530780000047
4.3)对主网络进行参数更新,可得到新的网络参数:
Figure FDA0003105530780000051
其中,α和β表示参数更新的学习率;每隔一段时间将子线程中的网络参数更新为主网络的参数,以指导目标智能体的策略学习;
4.4)在目标智能体的训练过程中,模仿策略πIL每隔一段时间也会进行策略学习更新,保证其策略接近于修改后的目标智能体策略πt,从而指导目标智能体的决策输出,实现模型安全隐私保护;
5)对目标智能体进行对抗训练:
5.1)在目标智能体的防御保护训练过程中,每隔N个回合基于模仿学习生成对抗样本,利用基于梯度优化的方法来模拟黑盒对抗攻击来生成不同状态的对抗样本;
5.2)在训练过程中,将生成的对抗样本作为输入状态对目标模型进行对抗训练,以提高模型策略的鲁棒性,防御攻击者利用模仿学习来进行对抗攻击。
2.实施权利要求1所述的面向深度强化学习的模型隐私保护方法的系统,其特征在于:包括依次连接的目标智能体预训练模块、小车驾驶序列状态动作对生成模块、模仿策略πIL训练模块、目标智能体模型隐私保护模块、目标智能体对抗训练模块,其中
目标智能体预训练模块对目标智能体进行预训练得到目标策略πt,具体包括:深度确定性决策梯度算法(DDPG)训练小车Car,Car的目标是尽可能快地安全到达目的地;DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来,采用了确定性策略μ来选取动作at=μ(s|θμ),θμ是产生确定性动作的策略网络μ(s|θμ)的参数,以μ(s)来充当Actor,θQ是价值Q网络Q(s,a,θQ)的参数,以Q(s,a)函数来充当Critic;为提高训练稳定性,同时为策略网络和价值网络引入目标网络;其算法步骤如下:
1.1)DDPG模型用来生成连续行为,其网络结构由两大部分组成,即actor网络包含动作估计网络和动作实现网络,以及critic网络包含状态估计网络和状态实现网络;在预训练阶段,只需要训练动作估计网络和状态估计网络的参数,动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的;状态估计网络的学习过程根据下面的损失函数来进行网络学习,即实际Q值和估计Q值的平方损失:
Figure FDA0003105530780000061
其中,Q(si,ai,w)是根据状态估计网络根据状态si和在动作估计网络参数w下的动作ai得到的估计Q值,ai是动作估计网络传过来的动作,yi为实际Q值,以目标Q值yi的最大值作为实际Q值,即yi=max(yi),其中,目标Q值yi是根据现实奖励R、下一时刻环境状态s′以及动作实现网络输出的动作A′利用贝尔曼方程计算得到,具体公式为:
Yi=R+γQ′(S′,A′,w′) (2)
其中,R为当前动作对应的奖励值,γ为折扣因子,取值范围为0~1,Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值,由状态实现网络计算得到,w′为状态实现网络参数;
1.2)动作估计网络参数则是利用损失梯度来更新的,神经网络参数的更新公式如下:
Figure FDA0003105530780000071
θ′←τθ+(1-τ)θ′ (4)
w′←τw+(1-τ)w′ (5)
其中,θ是动作估计网络的参数,θ′是动作实现网络的参数,w是状态估计网络的参数,w′是状态实现网络的参数,Q(si,ai,w)是根据状态估计网络根据状态si和在状态估计网络参数w下的动作ai得到的估计Q值,πθ(.)是参数θ下动作估计网络的策略,J(.)是动作估计网络的损失函数;
1.3)训练过程中,将目标智能体的状态转换过渡过程(s0,a0,r0,s′0)存储在经验回放缓冲区Buff,其中s0表示目标智能的部分可观测的状态数据,a0表示目标智能在s0状态时采取的动作,r0表示得到的即时奖励,s′0表示目标智能体可观测到的下一个状态数据,作为网络模型的训练数据集,并以随机采样的形式进行批处理学习;
小车驾驶序列状态动作对生成模块根据深度强度学习预训练模型的策略πt生成T个时刻小车驾驶序列状态动作对(state,action){(s1,a1),...,(sT,aT)}作为专家数据用于模仿学习以生成模仿策略πIL
模仿策略πIL训练模块基于模型学习生成模仿策略πIL,具体包括:模仿学习的网络结构包括行动者网络Actor和判别器网络D,其训练过程步骤如下:
3.1)Actor网络中,通过输入当前时刻的状态数据,得到相应的模仿策略
Figure FDA0003105530780000081
Figure FDA0003105530780000082
表示在s和ω的情况下选择动作a的概率;将采样得到的专家数据中的状态s输入到Actor网络中,根据模仿策略πIL来得到相应的动作a′,以生成模拟的状态动作对(s,a′);
3.2)在模仿策略的训练过程中,利用Actor网络代替生成器G,其输出的动作与状态成对输入到判别器中,与专家数据进行对比,判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习;因此,模仿学习中的判别器损失函数可以表示为:
Figure FDA0003105530780000083
其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略;第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1-D(s,a))则表示对生成数据的判断,通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的Actor网络和判别式网络;
3.3)训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
Figure FDA0003105530780000084
其中,
Figure FDA0003105530780000085
是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项;
目标智能体模型隐私保护模块包括:目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,即在保证目标智能体策略πt可以获得较高的期望奖励值的同时,还要保证根据模仿策略得到的期望奖励值越小越好,以达到策略保护的目的,具体方法步骤如下:
4.1)目标智能体通过在目标函数J(θ)上增加惩罚项进行修改,原本的目标函数是最大化目标智能体所获得的期望奖励值
Figure FDA0003105530780000091
在目标函数上添加基于模仿策略的惩罚项
Figure FDA0003105530780000092
其中τ表示轨迹数据,通过最大化目标函数就可以达到同时保证目标策略πt有较好的性能而模仿策略πIL性能低的目的;
4.2)训练过程中,目标函数可以用参数为μ值函数来表示,得到损失函数为:
Figure FDA0003105530780000093
其中,τ1和τ2分别是根据目标策略和模仿策略得到的轨迹数据,分别采样N1和N2个轨迹,然后对损失函数进行策略梯度求导,可得:
Figure FDA0003105530780000094
其中,
Figure FDA0003105530780000095
Figure FDA0003105530780000096
πt表示目标智能体的策略,πIL表示模仿策略,
Figure FDA0003105530780000097
4.3)对主网络进行参数更新,可得到新的网络参数:
Figure FDA0003105530780000098
其中,α和β表示参数更新的学习率;每隔一段时间将子线程中的网络参数更新为主网络的参数,以指导目标智能体的策略学习;
4.4)在目标智能体的训练过程中,模仿策略πIL每隔一段时间也会进行策略学习更新,保证其策略接近于修改后的目标智能体策略πt,从而指导目标智能体的决策输出,实现模型安全隐私保护;
目标智能体对抗训练模块包括:
5.1)在目标智能体的防御保护训练过程中,每隔N个回合基于模仿学习生成对抗样本,利用基于梯度优化的方法来模拟黑盒对抗攻击来生成不同状态的对抗样本;
5.2)在训练过程中,将生成的对抗样本作为输入状态对目标模型进行对抗训练,以提高模型策略的鲁棒性,防御攻击者利用模仿学习来进行对抗攻击。
CN202110635546.4A 2021-06-08 2021-06-08 面向深度强化学习的模型隐私保护方法和系统 Active CN113420326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110635546.4A CN113420326B (zh) 2021-06-08 2021-06-08 面向深度强化学习的模型隐私保护方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110635546.4A CN113420326B (zh) 2021-06-08 2021-06-08 面向深度强化学习的模型隐私保护方法和系统

Publications (2)

Publication Number Publication Date
CN113420326A true CN113420326A (zh) 2021-09-21
CN113420326B CN113420326B (zh) 2022-06-21

Family

ID=77788101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110635546.4A Active CN113420326B (zh) 2021-06-08 2021-06-08 面向深度强化学习的模型隐私保护方法和系统

Country Status (1)

Country Link
CN (1) CN113420326B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218867A (zh) * 2021-12-20 2022-03-22 暨南大学 基于熵优化安全强化学习的特种设备流程控制方法及系统
CN114266050A (zh) * 2022-03-03 2022-04-01 西南石油大学 一种跨平台恶意软件对抗样本生成方法及系统
CN114817989A (zh) * 2022-04-29 2022-07-29 浪潮(北京)电子信息产业有限公司 模型生成方法、运行控制方法、装置、设备及存储介质
CN114925850A (zh) * 2022-05-11 2022-08-19 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法
CN115982737A (zh) * 2022-12-22 2023-04-18 贵州大学 一种基于强化学习的最优隐私保护策略方法
CN116227571A (zh) * 2023-03-01 2023-06-06 北京百度网讯科技有限公司 模型的训练、动作确定方法、装置、电子设备及存储介质
CN117763127A (zh) * 2024-01-10 2024-03-26 南京理工大学 一种基于强化学习和知识库匹配的工业问答模型训练方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备
US9569736B1 (en) * 2015-09-16 2017-02-14 Siemens Healthcare Gmbh Intelligent medical image landmark detection
CN109902617A (zh) * 2019-02-25 2019-06-18 百度在线网络技术(北京)有限公司 一种图片识别方法、装置、计算机设备和介质
CN110378382A (zh) * 2019-06-18 2019-10-25 华南师范大学 基于深度强化学习的新型量化交易系统及其实现方法
CN110580682A (zh) * 2019-09-16 2019-12-17 电子科技大学 一种基于优化生成对抗网络地震数据超分辨率重建方法
CN110647918A (zh) * 2019-08-26 2020-01-03 浙江工业大学 面向深度学习模型对抗攻击的拟态防御方法
CN110874578A (zh) * 2019-11-15 2020-03-10 北京航空航天大学青岛研究院 一种基于强化学习的无人机视角车辆识别追踪方法
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111310915A (zh) * 2020-01-21 2020-06-19 浙江工业大学 一种面向强化学习的数据异常检测防御方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111600851A (zh) * 2020-04-27 2020-08-28 浙江工业大学 面向深度强化学习模型的特征过滤防御方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112069504A (zh) * 2020-08-31 2020-12-11 浙江工业大学 面向深度强化学习对抗攻击的模型增强防御方法
CN112311578A (zh) * 2019-07-31 2021-02-02 中国移动通信集团浙江有限公司 基于深度强化学习的vnf调度方法及装置
CN112884130A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN112884131A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于模仿学习的深度强化学习策略优化防御方法和装置
KR20210063769A (ko) * 2019-11-25 2021-06-02 (주)크래프트테크놀로지스 증권 거래를 위한 딥러닝 모델 학습 프로그램과 기록매체

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备
US9569736B1 (en) * 2015-09-16 2017-02-14 Siemens Healthcare Gmbh Intelligent medical image landmark detection
CN109902617A (zh) * 2019-02-25 2019-06-18 百度在线网络技术(北京)有限公司 一种图片识别方法、装置、计算机设备和介质
CN110378382A (zh) * 2019-06-18 2019-10-25 华南师范大学 基于深度强化学习的新型量化交易系统及其实现方法
CN112311578A (zh) * 2019-07-31 2021-02-02 中国移动通信集团浙江有限公司 基于深度强化学习的vnf调度方法及装置
CN110647918A (zh) * 2019-08-26 2020-01-03 浙江工业大学 面向深度学习模型对抗攻击的拟态防御方法
CN110580682A (zh) * 2019-09-16 2019-12-17 电子科技大学 一种基于优化生成对抗网络地震数据超分辨率重建方法
CN110874578A (zh) * 2019-11-15 2020-03-10 北京航空航天大学青岛研究院 一种基于强化学习的无人机视角车辆识别追踪方法
KR20210063769A (ko) * 2019-11-25 2021-06-02 (주)크래프트테크놀로지스 증권 거래를 위한 딥러닝 모델 학습 프로그램과 기록매체
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111310915A (zh) * 2020-01-21 2020-06-19 浙江工业大学 一种面向强化学习的数据异常检测防御方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111600851A (zh) * 2020-04-27 2020-08-28 浙江工业大学 面向深度强化学习模型的特征过滤防御方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112069504A (zh) * 2020-08-31 2020-12-11 浙江工业大学 面向深度强化学习对抗攻击的模型增强防御方法
CN112884130A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN112884131A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于模仿学习的深度强化学习策略优化防御方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KENNETH_YU: "Deep Reinforcement Learning - 1. DDPG原理和算法 3-4", 《CSDN》 *
刘建伟等: "基于值函数和策略梯度的深度强化学习综述", 《计算机学报》 *
刘强等: "基于深度强化学习的群体对抗策略研究", 《智能计算机与应用》 *
李志航: "基于深度递归强化学习的无人自主驾驶策略研究", 《工业控制计算机》 *
郭业才等: "基于深度强化对抗学习的图像增强方法", 《扬州大学学报(自然科学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218867A (zh) * 2021-12-20 2022-03-22 暨南大学 基于熵优化安全强化学习的特种设备流程控制方法及系统
CN114266050A (zh) * 2022-03-03 2022-04-01 西南石油大学 一种跨平台恶意软件对抗样本生成方法及系统
CN114266050B (zh) * 2022-03-03 2022-10-04 西南石油大学 一种跨平台恶意软件对抗样本生成方法及系统
CN114817989A (zh) * 2022-04-29 2022-07-29 浪潮(北京)电子信息产业有限公司 模型生成方法、运行控制方法、装置、设备及存储介质
CN114817989B (zh) * 2022-04-29 2024-06-11 浪潮(北京)电子信息产业有限公司 模型生成方法、运行控制方法、装置、设备及存储介质
CN114925850A (zh) * 2022-05-11 2022-08-19 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法
CN114925850B (zh) * 2022-05-11 2024-02-20 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法
CN115982737A (zh) * 2022-12-22 2023-04-18 贵州大学 一种基于强化学习的最优隐私保护策略方法
CN116227571A (zh) * 2023-03-01 2023-06-06 北京百度网讯科技有限公司 模型的训练、动作确定方法、装置、电子设备及存储介质
CN116227571B (zh) * 2023-03-01 2024-03-12 北京百度网讯科技有限公司 模型的训练、动作确定方法、装置、电子设备及存储介质
CN117763127A (zh) * 2024-01-10 2024-03-26 南京理工大学 一种基于强化学习和知识库匹配的工业问答模型训练方法

Also Published As

Publication number Publication date
CN113420326B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN113420326B (zh) 面向深度强化学习的模型隐私保护方法和系统
CN113392396B (zh) 面向深度强化学习的策略保护防御方法
CN112052456B (zh) 基于多智能体的深度强化学习策略优化防御方法
Wang et al. Backdoorl: Backdoor attack against competitive reinforcement learning
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN111310915B (zh) 一种面向强化学习的数据异常检测防御方法
Chen et al. POBA-GA: Perturbation optimized black-box adversarial attacks via genetic algorithm
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN110968866B (zh) 一种面向深度强化学习模型对抗攻击的防御方法
CN114757351B (zh) 一种深度强化学习模型对抗攻击的防御方法
CN112884130A (zh) 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN109598342A (zh) 一种决策网络模型自博弈训练方法及系统
CN112069504A (zh) 面向深度强化学习对抗攻击的模型增强防御方法
CN113033822A (zh) 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统
CN114881228A (zh) 一种基于q学习的平均sac深度强化学习方法和系统
CN113360917A (zh) 基于差分隐私的深度强化学习模型安全加固方法及装置
CN116776929A (zh) 一种基于pf-maddpg的多智能体任务决策方法
Yang et al. Adaptive inner-reward shaping in sparse reward games
Hu et al. RL-VAEGAN: Adversarial defense for reinforcement learning agents via style transfer
Chen et al. Agent manipulator: Stealthy strategy attacks on deep reinforcement learning
Ohashi et al. Deep adversarial reinforcement learning with noise compensation by autoencoder
CN113379027A (zh) 一种生成对抗交互模仿学习方法、系统、存储介质及应用
Huang et al. Adversarial manipulation of reinforcement learning policies in autonomous agents
Xing et al. Policy distillation with selective input gradient regularization for efficient interpretability
CN115905861A (zh) 一种基于多级算子变异的强化学习框架安全性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant