CN113420326A

CN113420326A - 面向深度强化学习的模型隐私保护方法和系统

Info

Publication number: CN113420326A
Application number: CN202110635546.4A
Authority: CN
Inventors: 何文秀
Original assignee: Zhijiang College of ZJUT
Current assignee: Zhijiang College of ZJUT
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-09-21
Anticipated expiration: 2041-06-08
Also published as: CN113420326B

Abstract

面向深度强化学习的模型隐私保护方法，包括：对目标智能体进行预训练得到目标策略π_t；根据深度强度学习预训练模型的策略π_t生成T个时刻小车驾驶序列状态动作对作为专家数据用于模仿学习以生成模仿策略π_IL；基于模型学习生成模仿策略π_IL；对目标智能体的模型进行隐私保护；对目标智能体进行对抗训练。本发明还包括面向深度强化学习的模型隐私保护的系统。本发明能够防止窃取者通过窃取模型进行攻击，在保证目标策略性能好的基础上还保证模仿策略的性能要低以达到模型隐私保护的目的。

Description

面向深度强化学习的模型隐私保护方法和系统

技术领域

本发明属于面向深度强化学习的模型隐私保护领域，具体涉及一种基于模仿学习的模型隐私保护方法和系统。

背景技术

深度强化学习是近年来人工智能备受关注的方向之一，随着强化学习的快速发展和应用，强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用，关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务，深度强化学习系统需要进行多步决策来完成某项任务，而且连续的决策之间还具有高度的相关性。

强化学习通常是一个连续决策的过程，其基本思想是通过最大化智能体从环境中获取的累计奖励，从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构，结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略，使智能体可以随着时间的推移从其所在环境中不断自我学习。但是，深度强化学习训练得到的策略也会通过模仿学习或者行为克隆而被窃取，此外，窃取者还能根据窃取获得的策略对深度强化学习模型进行攻击，反过来扰乱强化学习本身训练好的策略，使其模型策略存在安全性漏洞，不能再很好地应对当前的环境。这不仅泄露了模型本身的策略数据，同时还给模型带来了极大的安全隐患，尤其是在需要隐私保护的安全关键型领域，有可能造成极大的损失。

由于深度强化学习的训练数据存在隐私泄露的风险，而模仿学习和行为克隆有强大的策略行为学习能力，窃取者可以通过学习到的策略给攻击者提供了数据的相关信息，从而生成相应的对抗样本对目标模型进行攻击，给模型的安全性带来了极大的挑战。本发明就是基于深度强化学习的模型隐私保护机制，提出了一种在自动驾驶场景中基于模仿学习的模型隐私保护方法。该方法首先利用模仿学习去学习预训练的模型策略，同时模型策略在训练过程中要保证自己学习到的策略有较好的性能，同时也要保证模仿学习得到的策略所获得的期望奖励值要低。此外，为了防御攻击者利用等价模型的策略对目标模型进行对抗攻击，本发明利用模仿学习生成的对抗样本，进行对抗训练防御，从而提高目标智能体的策略鲁棒性，增强DRL模型的安全性。

目前，深度强化学习通过结合了深度学习的感知能力和强化学习的决策能力来优化自身策略，凭借其所在环境中可以不断自我学习的优势得到了广泛的应用。但是，深度强化学习策略也会通过模仿学习或者行为克隆的方法被窃取，同时还容易因此而受到对抗样本扰动的攻击，存在数据泄露和对抗安全威胁的问题。

发明内容

本发明要克服现有技术的上述缺点，提出一种面向深度强化学习的模型隐私保护方法和系统，以提高DRL模型的鲁棒性。

本发明的面向深度强化学习的模型隐私保护方法，包括以下步骤：

1)预训练目标智能体：

1.1)搭建深度强化学习小车自动驾驶模拟环境；

1.2)基于强化学习中的深度确定性决策梯度算法(DDPG)训练无人小车智能体Car，Car的目标是在较短的时间内安全地到达目的地；

1.3)训练过程中，将状态转换过程(状态s_t、动作a_t、奖励r_t、下一个状态s_t')存储在经验回放缓冲区Buff中，作为网络模型的训练数据集；

1.4)目标智能体从Buff中采样小批次训练数据，通过最小化实际累积的奖励函数和动作值Q函数之间的损失函数来更新Critic网络参数；通过计算动作值函数的梯度来更新Actor网络的策略参数；通过软更新的方式来更新目标网络参数；

2)根据深度强度学习预训练模型的策略π_t生成T个时刻小车驾驶序列状态动作对(state，action){(s₁,a₁),...,(s_T,a_T)}作为专家数据用于模仿学习以生成模仿策略π_IL；

3)基于模仿学习训练模仿策略π_IL：

3.1)将专家数据中的小车正常驾驶状态s输入到行动者Actor网络中，其中Actor与目标模型中的Actor网络结构相同，根据初始化的模仿策略π_IL(a|s)输出Actor网络所采取的动作a'；

3.2)将步骤3.1)的输出a'和小车正常驾驶状态s作为状态动作对(s,a')与专家的状态动作对(s,a)一起输入到判别器当中，对其产生的动作进行判别，利用判别器的输出y_D来作为奖励值r以指导模仿策略的学习；

3.3)模仿学习具有较强的学习模仿策略的能力，训练过程中通过最大化得到的期望奖励值来学习专家的策略，最小化损失函数以更新网络结构参数；

3.4)重复步骤3.2)-3.3)，迭代更新Actor网络和判别器网络的结构参数以学习专家策略数据，得到学习到的预训练目标模型的模仿策略π_IL；

4)对目标智能体的模型进行隐私保护：

目标智能体在模仿策略π_IL的基础上对自身的策略进行调整学习，通过对深度强化学习模型进行微调并在损失函数上进行修改，使得在保证目标智能体策略π_t可以获得较高的期望奖励值的同时，还要保证根据模仿策略得到的期望奖励值越小越好，以防止攻击者通过模型决策输出来实现数据窃取攻击；

4.1)修改损失函数：

目标智能体通过在目标函数上增加惩罚项进行修改，原本的目标函数是最大化目标智能体所获得的期望奖励值，在目标函数上添加基于模仿策略的惩罚项，即根据模仿策略所获得的期望奖励值，通过最大化目标函数就可以达到同时保证目标策略π_t有较好的性能而模仿策略π_IL性能低的目的；

4.2)在目标智能体的模型微调训练过程中，模仿策略π_IL每隔一段时间也会进行策略学习更新，保证其策略接近于修改后的目标智能体策略π_t，从而指导目标智能体的决策输出，实现模型安全隐私保护；

5)对目标智能体进行对抗训练：

5.1)在目标智能体的防御保护训练过程中，每隔N个回合基于模仿学习生成对抗样本，利用基于梯度优化的方法来模拟黑盒对抗攻击来生成不同状态的对抗样本；

5.2)在训练过程中，将生成的对抗样本作为输入状态对目标模型进行对抗训练，以提高模型策略的鲁棒性，防御攻击者利用模仿学习来进行对抗攻击。

本发明还包括实现上述面向深度强化学习的模型隐私保护方法的系统，包括依次连接的目标智能体预训练模块、小车驾驶序列状态动作对生成模块、模仿策略π_IL训练模块、目标智能体模型隐私保护模块、目标智能体对抗训练模块。

本发明的技术构思为：在模拟小车自动驾驶的深度强化学习训练过程中，攻击者会通过目标智能体的动作策略输出来窃取目标智能体的状态数据信息，从而可以构建等价的模型来对目标模型进行攻击，使得目标模型的策略发生错误。基于此种情况，本发明利用模仿学习来进行模拟策略学习以进行决策输出保护，从而防止窃取者通过输出来窃取模型的数据信息，同时在训练过程中加入基于模仿学习生成的扰动样本数据，以达到模型鲁棒安全增强的目的。首先，利用DDPG算法对目标智能体进行预训练得到目标策略π_t，再采样多个回合的其序列状态和动作对作为专家数据；其次将专家数据中的状态输入到模仿学习的Actor网络中根据模仿策略π_IL来生成动作，再将模仿学习的状态动作对与专家数据一起放入到判别器D中，利用判别器的输出作为奖励值来指导模仿策略的学习；然后在目标智能体的目标函数进行修改，增加基于模仿策略的惩罚性以调整目标策略，以达到目标智能体策略输出保护的目的；最后利用模仿学习来生成扰动样本，以构造带有对抗样本的数据集进行对抗训练，实现DRL模型鲁棒安全增强的目的。

本发明的有益效果主要表现在：1)利用模仿学习方法来进行目标智能体的策略输出保护以达到防止窃取者通过窃取模型进行攻击；2)在策略保护过程中，利用模仿学习来学习目标策略以生成模仿策略，再将模仿策略获得的期望奖励值作为惩罚项添加到目标智能体的目标函数中，在保证目标策略性能好的基础上还要保证模仿策略的性能要低以达到模型隐私保护的目的；3)利用模仿学习来生成扰动样本构造对抗训练数据集，以抵抗模型在测试过程的黑盒对抗攻击。

附图说明

图1为本发明方法的示意图。

图2为本发明方法的基于模仿学习的模型隐私保护示意图。

图3为本发明方法的强化学习中DDPG算法结构的示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细描述。

参照图1～图3，面向深度强化学习的模型隐私保护方法，步骤如下：

1)对目标智能体进行预训练得到目标策略π_t：深度确定性决策梯度算法(DDPG)训练小车Car，Car的目标是尽可能快地安全到达目的地。DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来，采用了确定性策略μ来选取动作a_t＝μ(s|θ^μ)，θ^μ是产生确定性动作的策略网络μ(s|θ^μ)的参数，以μ(s)来充当Actor，θ^Q是价值Q网络Q(s,a,θ^Q)的参数，以Q(s,a)函数来充当Critic。为提高训练稳定性，同时为策略网络和价值网络引入目标网络。其算法步骤如下：

1.1)DDPG模型用来生成连续行为，其网络结构由两大部分组成，即actor网络包含动作估计网络和动作实现网络，以及critic网络包含状态估计网络和状态实现网络。在预训练阶段，只需要训练动作估计网络和状态估计网络的参数，动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的。状态估计网络的学习过程根据下面的损失函数来进行网络学习，即实际Q值和估计Q值的平方损失：

其中，Q(s_i,a_i,w)是根据状态估计网络根据状态s_i和在动作估计网络参数w下的动作a_i得到的估计Q值，a_i是动作估计网络传过来的动作，y_i为实际Q值，以目标Q值y_i的最大值作为实际Q值，即y_i＝max(y_i)，其中，目标Q值y_i是根据现实奖励R、下一时刻环境状态s′以及动作实现网络输出的动作A′利用贝尔曼方程计算得到，具体公式为：

Y_i＝R+γQ′(S′,A′,w′) (2)

其中，R为当前动作对应的奖励值，γ为折扣因子，取值范围为0～1，Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值，由状态实现网络计算得到，w′为状态实现网络参数。

1.2)动作估计网络参数则是利用损失梯度来更新的，神经网络参数的更新公式如下：

θ′←τθ+(1-τ)θ′ (4)

w′←τw+(1-τ)w′ (5)

其中，θ是动作估计网络的参数，θ′是动作实现网络的参数，w是状态估计网络的参数，w′是状态实现网络的参数，Q(s_i,a_i,w)是根据状态估计网络根据状态s_i和在状态估计网络参数w下的动作a_i得到的估计Q值，π_θ(.)是参数θ下动作估计网络的策略，J(.)是动作估计网络的损失函数。

1.3)训练过程中，将目标智能体的状态转换过渡过程(s₀,a₀,r₀,s'₀)存储在经验回放缓冲区Buff，其中s₀表示目标智能的部分可观测的状态数据，a₀表示目标智能在s₀状态时采取的动作，r₀表示得到的即时奖励，s'₀表示目标智能体可观测到的下一个状态数据，作为网络模型的训练数据集，并以随机采样的形式进行批处理学习。

3)基于模型学习生成模仿策略π_IL：模仿学习的网络结构包括行动者网络Actor和判别器网络D，其训练过程步骤如下：

3.1)Actor网络中，通过输入当前时刻的状态数据，得到相应的模仿策略

表示在s和ω的情况下选择动作a的概率。将采样得到的专家数据中的状态s输入到Actor网络中，根据模仿策略π_IL来得到相应的动作a'，以生成模拟的状态动作对(s,a')；

3.2)在模仿策略的训练过程中，利用Actor网络代替生成器G，其输出的动作与状态成对输入到判别器中，与专家数据进行对比，判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习。因此，模仿学习中的判别器损失函数可以表示为：

其中，π_IL表示模仿学习得到的策略，π_t表示采样的专家策略。第一项中的logD(s,a)表示判别器对真实数据的判断，第二项log(1-D(s,a))则表示对生成数据的判断，通过这样一个最大最小博弈过程，循环交替优化G和D来训练所需要的Actor网络和判别式网络。

3.3)训练过程中，通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数，其损失函数如下：

其中，

是模仿策略π_IL的熵，由常数λ(λ≥0)控制，作为损失函数中的策略正则项。

4)目标智能体的模型隐私保护：目标智能体在模仿策略π_IL的基础上对自身的策略进行调整学习，即在保证目标智能体策略π_t可以获得较高的期望奖励值的同时，还要保证根据模仿策略得到的期望奖励值越小越好，以达到策略保护的目的，具体方法步骤如下：

4.1)目标智能体通过在目标函数J(θ)上增加惩罚项进行修改，原本的目标函数是最大化目标智能体所获得的期望奖励值

在目标函数上添加基于模仿策略的惩罚项

其中τ表示轨迹数据，通过最大化目标函数就可以达到同时保证目标策略π_t有较好的性能而模仿策略π_IL性能低的目的；

4.2)训练过程中，目标函数可以用参数为μ值函数来表示，得到损失函数为：

其中，τ₁和τ₂分别是根据目标策略和模仿策略得到的轨迹数据，分别采样N₁和N₂个轨迹，然后对损失函数进行策略梯度求导，可得：

其中，

π_t表示目标智能体的策略，π_IL表示模仿策略，

4.3)对主网络进行参数更新，可得到新的网络参数：

其中，α和β表示参数更新的学习率。每隔一段时间将子线程中的网络参数更新为主网络的参数，以指导目标智能体的策略学习。

4.4)在目标智能体的训练过程中，模仿策略π_IL每隔一段时间也会进行策略学习更新，保证其策略接近于修改后的目标智能体策略π_t，从而指导目标智能体的决策输出，实现模型安全隐私保护；

5)目标智能体的对抗训练：

实施本发明的面向深度强化学习的模型隐私保护方法的系统，包括依次连接的目标智能体预训练模块、小车驾驶序列状态动作对生成模块、模仿策略π_IL训练模块、目标智能体模型隐私保护模块、目标智能体对抗训练模块，其中

目标智能体预训练模块对目标智能体进行预训练得到目标策略π_t，具体包括：深度确定性决策梯度算法(DDPG)训练小车Car，Car的目标是尽可能快地安全到达目的地。DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来，采用了确定性策略μ来选取动作a_t＝μ(s|θ^μ)，θ^μ是产生确定性动作的策略网络μ(s|θ^μ)的参数，以μ(s)来充当Actor，θ^Q是价值Q网络Q(s,a,θ^Q)的参数，以Q(s,a)函数来充当Critic。为提高训练稳定性，同时为策略网络和价值网络引入目标网络。其算法步骤如下：

Y_i＝R+γQ′(S′,A′,w′) (2)

θ′←τθ+(1-τ)θ′ (4)

w′←τw+(1-τ)w′ (5)

小车驾驶序列状态动作对生成模块根据深度强度学习预训练模型的策略π_t生成T个时刻小车驾驶序列状态动作对(state，action){(s₁,a₁),...,(s_T,a_T)}作为专家数据用于模仿学习以生成模仿策略π_IL；

模仿策略π_IL训练模块基于模型学习生成模仿策略π_IL，具体包括：模仿学习的网络结构包括行动者网络Actor和判别器网络D，其训练过程步骤如下：

其中，

目标智能体模型隐私保护模块包括：目标智能体在模仿策略π_IL的基础上对自身的策略进行调整学习，即在保证目标智能体策略π_t可以获得较高的期望奖励值的同时，还要保证根据模仿策略得到的期望奖励值越小越好，以达到策略保护的目的，具体方法步骤如下：

在目标函数上添加基于模仿策略的惩罚项

其中，

π_t表示目标智能体的策略，π_IL表示模仿策略，

4.3)对主网络进行参数更新，可得到新的网络参数：

目标智能体对抗训练模块包括：

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.面向深度强化学习的模型隐私保护方法，步骤如下：

1)对目标智能体进行预训练得到目标策略π_t：深度确定性决策梯度算法(DDPG)训练小车Car，Car的目标是尽可能快地安全到达目的地；DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来，采用了确定性策略μ来选取动作a_t＝μ(s|θ^μ)，θ^μ是产生确定性动作的策略网络μ(s|θ^μ)的参数，以μ(s)来充当Actor，θ^Q是价值Q网络Q(s,a,θ^Q)的参数，以Q(s,a)函数来充当Critic；为提高训练稳定性，同时为策略网络和价值网络引入目标网络；其算法步骤如下：

1.1)DDPG模型用来生成连续行为，其网络结构由两大部分组成，即actor网络包含动作估计网络和动作实现网络，以及critic网络包含状态估计网络和状态实现网络；在预训练阶段，只需要训练动作估计网络和状态估计网络的参数，动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的；状态估计网络的学习过程根据下面的损失函数来进行网络学习，即实际Q值和估计Q值的平方损失：

Y_i＝R+γQ′(S′,A′,w′) (2)

其中，R为当前动作对应的奖励值，γ为折扣因子，取值范围为0～1，Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值，由状态实现网络计算得到，w′为状态实现网络参数；

θ′←τθ+(1-τ)θ′ (4)

w′←τw+(1-τ)w′ (5)

其中，θ是动作估计网络的参数，θ′是动作实现网络的参数，w是状态估计网络的参数，w′是状态实现网络的参数，Q(s_i,a_i,w)是根据状态估计网络根据状态s_i和在状态估计网络参数w下的动作a_i得到的估计Q值，π_θ(.)是参数θ下动作估计网络的策略，J(.)是动作估计网络的损失函数；

1.3)训练过程中，将目标智能体的状态转换过渡过程(s₀,a₀,r₀,s′₀)存储在经验回放缓冲区Buff，其中s₀表示目标智能的部分可观测的状态数据，a₀表示目标智能在s₀状态时采取的动作，r₀表示得到的即时奖励，s′₀表示目标智能体可观测到的下一个状态数据，作为网络模型的训练数据集，并以随机采样的形式进行批处理学习；

表示在s和ω的情况下选择动作a的概率；将采样得到的专家数据中的状态s输入到Actor网络中，根据模仿策略π_IL来得到相应的动作a′，以生成模拟的状态动作对(s,a′)；

3.2)在模仿策略的训练过程中，利用Actor网络代替生成器G，其输出的动作与状态成对输入到判别器中，与专家数据进行对比，判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习；因此，模仿学习中的判别器损失函数可以表示为：

其中，π_IL表示模仿学习得到的策略，π_t表示采样的专家策略；第一项中的logD(s,a)表示判别器对真实数据的判断，第二项log(1-D(s,a))则表示对生成数据的判断，通过这样一个最大最小博弈过程，循环交替优化G和D来训练所需要的Actor网络和判别式网络；

其中，

是模仿策略π_IL的熵，由常数λ(λ≥0)控制，作为损失函数中的策略正则项；

4)对目标智能体的模型进行隐私保护：目标智能体在模仿策略π_IL的基础上对自身的策略进行调整学习，即在保证目标智能体策略π_t可以获得较高的期望奖励值的同时，还要保证根据模仿策略得到的期望奖励值越小越好，以达到策略保护的目的，具体方法步骤如下：

在目标函数上添加基于模仿策略的惩罚项

其中，

π_t表示目标智能体的策略，π_IL表示模仿策略，

4.3)对主网络进行参数更新，可得到新的网络参数：

其中，α和β表示参数更新的学习率；每隔一段时间将子线程中的网络参数更新为主网络的参数，以指导目标智能体的策略学习；

5)对目标智能体进行对抗训练：

2.实施权利要求1所述的面向深度强化学习的模型隐私保护方法的系统，其特征在于：包括依次连接的目标智能体预训练模块、小车驾驶序列状态动作对生成模块、模仿策略π_IL训练模块、目标智能体模型隐私保护模块、目标智能体对抗训练模块，其中

目标智能体预训练模块对目标智能体进行预训练得到目标策略π_t，具体包括：深度确定性决策梯度算法(DDPG)训练小车Car，Car的目标是尽可能快地安全到达目的地；DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来，采用了确定性策略μ来选取动作a_t＝μ(s|θ^μ)，θ^μ是产生确定性动作的策略网络μ(s|θ^μ)的参数，以μ(s)来充当Actor，θ^Q是价值Q网络Q(s,a,θ^Q)的参数，以Q(s,a)函数来充当Critic；为提高训练稳定性，同时为策略网络和价值网络引入目标网络；其算法步骤如下：