CN113392396A

CN113392396A - 面向深度强化学习的策略保护防御方法

Info

Publication number: CN113392396A
Application number: CN202110651675.2A
Authority: CN
Inventors: 陈晋音; 章燕; 王雪柯; 胡书隆
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14
Anticipated expiration: 2041-06-11
Also published as: CN113392396B

Abstract

本发明公开了一种面向深度强化学习的策略保护防御方法，包括以下步骤：1)搭建深度强化学习的目标智能体自动驾驶模拟环境，基于强化学习中的深度Q网络预训练目标智能体以优化深度Q网络的参数；2)根据优化后的深度Q网络的策略π_t生成T个时刻目标智能体驾驶序列状态动作对和奖励值作为专家数据；3)根据专家数据模仿学习生成模仿策略π_IL；4)目标智能体在模仿策略π_IL的基础上对自身的策略进行调整学习，通过对深度Q网络进行微调并修改目标函数，使得在保证目标智能体策略π_t可以获得较高的期望奖励值的同时，保证根据模仿策略π_IL得到的期望奖励值较低，以达到策略保护的目的。

Description

面向深度强化学习的策略保护防御方法

技术领域

本发明涉及策略隐私保护，尤其涉及一种面向深度强化学习的策略保护防御方法。

背景技术

深度强化学习是近年来人工智能备受关注的方向之一，随着强化学习的快速发展和应用，强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用，关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务，深度强化学习系统需要进行多步决策来完成某项任务，而且连续的决策之间还具有高度的相关性。

强化学习通常是一个连续决策的过程，其基本思想是通过最大化智能体从环境中获取的累计奖励，从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构，结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略，使智能体可以随着时间的推移从其所在环境中不断自我学习。但是，深度强化学习训练得到的策略也会通过模仿学习或者行为克隆而被窃取，此外，窃取者还能根据窃取获得的策略对深度强化学习模型进行攻击，反过来扰乱强化学习本身训练好的策略，使其模型策略存在安全性漏洞，不能再很好地应对当前的环境。这不仅泄露了模型本身的策略数据，同时还给模型带来了极大的安全隐患，尤其是在需要隐私保护的安全关键型领域，有可能造成极大的损失。

由于深度强化学习训练得到的策略存在隐私泄露的风险，而模仿学习和行为克隆有强大的策略行为学习能力，窃取者可以通过学习到的策略给攻击者提供了模型的相关信息，从而生成相应的对抗样本对目标模型进行攻击，给模型的安全性带来了极大的挑战。

目前，深度强化学习通过结合了深度学习的感知能力和强化学习的决策能力来优化自身策略，凭借其所在环境中可以不断自我学习的优势得到了广泛的应用。但是，深度强化学习策略也会通过模仿学习或者行为克隆的方法被窃取，同时还容易因此而受到对抗样本扰动的攻击，存在策略泄露和安全威胁的问题。

发明内容

本发明提供了一种基于模仿学习和模型微调的面向深度强化学习的策略保护防御方法，以提高深度强化学习(DRL)模型的鲁棒性。

本发明的技术方案如下：

一种面向深度强化学习的策略保护防御方法，包括以下步骤：

1)搭建深度强化学习的目标智能体自动驾驶模拟环境，基于强化学习中的深度Q网络预训练目标智能体以优化深度Q网络的参数；

所述的智能体可以为自动驾驶环境中的无人小车。

优选的，步骤1)包括：

1.1)搭建深度强化学习的目标智能体自动驾驶模拟环境；

1.2)基于强化学习中的深度Q网络(DQN)训练目标智能体，训练目标是在较短的时间内安全地到达目的地；

1.3)训练过程中，将目标智能体的状态转换过程(包括状态s_t、动作a_t、奖励r_t、下一个状态s_t')存储在经验回放缓冲区Buff中，作为深度Q网络的训练数据集；所述的深度Q网络包括当前Q网络和目标Q网络；

1.4)从经验回放缓冲区Buff中随机采样N个训练数据集，通过最小化当前Q网络的预测Q值和目标Q网络的目标Q值的均方差来更新当前 Q网络的网络参数；每隔一段时间将当前Q网络的参数复制给目标Q网络。

所述的深度Q网络在强化学习过程中，采用时序差分的方式进行迭代更新状态-动作价值函数Q：

Q_i+1(s_t,a_t)＝Q_i(s_t,a_t)+α(y_i-Q_i(s_t,a_t))

其中，y_i＝R_i+1+γmax_at+1(Q_i(s_t+1,a_t+1))为目标Q值，s_t+1是作为动作a_t出现的下一状态，a_t+1是s_t+1状态下的可能动作；a为学习率；γ为折现因子；

根据贝尔曼最优方程理论，；通过不断迭代更新上式，即可使Q函数逼近至真实值Q^*，从而最终得到最优策略：

训练过程中，当前Q_θ网络输出的预测Q值用来选择动作a，另一个目标Q_θ-网络用于计算目标Q值；通过计算预测Q值和目标Q值得均方差来定义损失函数：

其中，y_i＝R_i+1+γmax_ai+1(Q_i(s_i+1,a_i+1))为目标Q值，通过神经网络的反向梯度传播来更新当前Q_θ网络的参数θ。

2)根据优化后的深度Q网络的策略π_t生成T个时刻目标智能体驾驶序列状态动作对和奖励值作为专家数据；

3)根据专家数据模仿学习生成模仿策略π_IL；包括：

3.1)将专家数据中的状态s作为Actor网络的输入，根据初始化的模仿策略π_IL(a|s)输出Actor网络所采取的动作a'；

3.2)将a'和专家数据中的状态s作为状态动作对(s,a')，与专家数据中对应的状态动作对(s,a)一起输入到判别器网络当中，对其产生的动作进行判别，利用判别器网络的输出y_D来作为奖励值以指导模仿策略π_IL的学习；

3.3)在模仿策略π_IL的学习过程中，通过最大化得到的期望奖励值来学习专家数据的策略，最小化损失函数以更新深度Q网络的参数；

3.4)重复步骤3.2)-3.3)，迭代更新Actor网络和判别器网络的结构参数以学习专家数据的策略，得到模仿策略π_IL。

所述判别器网络的损失函数为：

其中，π_IL表示模仿学习得到的策略；π_t表示采样的专家策略；第一项中的logD(s,a)表示判别器对真实数据的判断；第二项log(1-D(s,a))则表示判别器对生成数据的判断。

步骤3.3)中，通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数，其损失函数如下：

其中，

是模仿策略π_IL的熵，由常数λ(λ≥0)控制，作为损失函数中的策略正则项。

4)目标智能体在模仿策略π_IL的基础上对自身的策略进行调整学习，通过对深度Q网络进行微调并修改目标函数，使得在保证目标智能体策略π_t可以获得较高的期望奖励值的同时，保证根据模仿策略π_IL得到的期望奖励值较低，以达到策略保护的目的。

步骤4)中，对深度Q网络进行微调包括：

将深度Q网络最后的Q网络层进行复制扩充，得到k个并行的Q网络层；

在训练过程中，随机从k个Q网络层中选择一个作为Q值输出层用于进行策略动作选取；更新参数时，从经验回放缓冲区Buff中进行数据采样，然后利用泊松分布生成一个k×1的掩码对k个Q网络层进行参数更新，利用k个Q值的平均值

作为目标智能体策略π_t进行学习和模仿。

步骤4)中，修改目标函数包括：

在目标函数上增加基于模仿策略π_IL惩罚项，修改后的目标函数为：

其中，τ₁和τ₂分别是根据目标策略π_t和模仿策略π_IL得到的轨迹数据； V(s_t)为t时刻状态的值函数；R(t)为t时刻的奖励值。

分别采样N₁和N₂个轨迹，对目标函数进行策略梯度求导，可得：

其中，

π_t表示目标智能体的策略，π_IL表示模仿策略，

对深度Q网络进行参数更新，可得到新的网络参数：

θ←θ+α(C₁+C₂)，

其中，a和β表示参数更新的学习率；每隔一段时间将子线程中的网络参数更新为主网络的参数，以指导目标智能体的策略学习。

本发明基于深度强化学习模型策略的隐私保护机制，提出了一种在自动驾驶场景中基于模仿学习的策略隐私保护方法。该方法首先利用模仿学习去学习预训练的模型策略，同时模型策略在训练过程中要保证自己学习到的策略有较好的性能，同时也要保证模仿学习得到的策略所获得的期望奖励值要低。本发明通过对模型进行微调来进行策略学习保护，同时修改目标函数以保证模型本身的性能较好以及模仿学习到的策略较差，从而达到策略隐私保护的目的，增强DRL模型的安全性。

本发明的技术构思为：在模拟自动驾驶的深度强化学习训练过程中，攻击者会通过目标智能体的动作来窃取目标智能体的策略信息，从而可以构建等价的模型来对目标模型进行攻击，使得目标模型的策略发生错误。基于此种情况，本发明利用模仿学习来进行模仿策略学习以进行策略保护，同时在训练过程中修改模型的输出层使得目标模型的策略动作分布发生改变，以达到策略隐私保护的目的。首先，利用DQN算法对目标智能体进行预训练得到目标策略π_t，再采样多个回合的其序列状态和动作对作为专家数据；其次将专家数据中的状态输入到模仿学习的Actor网络中根据模仿策略π_IL来生成动作，再将模仿学习的状态动作对与专家数据一起放入到判别器D中，利用判别器的输出作为奖励值来指导模仿策略的学习；然后对目标智能体进行模型微调，对输出层并行扩充以获取多个微调后的Q值，并将多个Q值的平均作为模型测试时的输出；最后在目标智能体的目标函数进行修改，增加基于模仿策略的惩罚性以调整目标策略，以达到目标智能体策略保护的目的。

与现有技术相比，本发明的有益效果主要表现在：

1)利用模仿学习和模型微调的方法来进行目标智能体的策略隐私保护；

2)在模型微调过程中，并行训练k个Q值网络层，测试时将平均值

作为模型的输出，以防止攻击者获取其中某一层的模型参数来进行策略窃取；

3)在策略保护过程中，利用模仿学习来学习目标策略以生成模仿策略，再将模仿策略获得的期望奖励值作为惩罚项添加到目标智能体的目标函数中，在保证目标策略性能好的基础上还要保证模仿策略的性能要低以达到策略保护的目的。

附图说明

图1为本发明方法的流程示意图；

图2为本发明方法的基于模仿学习的策略保护示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细描述。

参照图1～图2，基于模仿学习和模型微调的深度强化学习策略保护防御方法，步骤如下：

1)目标智能体预训练过程。

1.1)搭建深度强化学习小车自动驾驶模拟环境；

1.2)基于强化学习中的深度Q网络算法(DQN)训练无人小车智能体Car，Car的目标是在较短的时间内安全地到达目的地；

1.3)训练过程中，将状态转换过程(状态s_t、动作a_t、奖励r_t、下一个状态s_t')存储在经验回放缓冲区Buff中，作为网络模型的训练数据集；

1.4)从Buff中采样N个训练数据集，通过最小化当前Q网络的预测 Q值和目标Q网络的目标Q值的均方差来更新当前Q网络的网络参数，每隔一段时间将当前Q网络的参数复制给目标Q网络。

目标智能体进行预训练得到目标策略π_t：基于强化学习中的深度Q网络算法(DQN)训练小车Car，Car的目标是尽可能快地安全到达目的地， DQN将Q学习与卷积神经网络相结合，构建了强化学习训练模型，其算法步骤如下：

DQN通过结合深度神经网络与强化学习的Q学习算法，不仅解决了状态空间过大难以维护的问题，而且由于神经网络强大的特征提取能力，其潜力也远大于人工的特征表示。强化学习中的Q学习通过贝尔曼方程，采用时序差分的方式进行迭代更新状态-动作价值函数Q：

Q_i+1(s_t,a_t)＝Q_i(s_t,a_t)+a(y_i-Q_i(s_t,a_t))

其中，y_i＝R_i+1+γmax_at+1(Q_i(s_t+1,a_t+1))为目标Q值，s_t+1是作为动作a_t出现的下一状态，a_t+1是s_t+1状态下的可能动作。a为学习率，γ为折现因子，R_i+1为奖励值。根据贝尔曼最优方程理论，只要通过不断迭代更新上式，即可使Q函数逼近至真实值Q^*，从而最终得到最优策略：

DQN还使用了目标网络机制，即在当前Q_θ网络结构基础上，搭建了一个结构完全相同的目标Q_θ-网络组成DQN的整体模型框架，训练过程中，当前Q_θ网络输出的预测Q值用来选择动作a,另一个目标Q_θ-网络用于计算目标Q值。通过计算预测Q值和目标Q值得均方差来定义损失函数：

训练过程中，DQN采用了经验回放机制，将状态转换过程(状态s_i、动作a_i、奖励r_i、下一个状态s′_i)存储在经验回放缓冲区Buff中，作为网络模型的训练数据集，并以随机采样的形式进行批处理学习。

从Buff中采样N个训练数据集，通过最小化损失函数来更新当前Q_θ网络的网络参数，对于目标

网络，其网络参数不需要进行迭代更新，而是每隔一段时间从当前Q_θ网络中将网络参数复制过来，再进行下一轮的学习。

2)根据深度强度学习预训练模型的策略π_t生成T个时刻小车驾驶序列状态动作对(state，action){(s₁,a₁),...,(s_T,a_T)}作为专家数据用于模仿学习以生成模仿策略π_IL；

3)基于模型学习生成模仿策略π_IL：

3.1)将专家数据中的小车正常驾驶状态s输入到行动者Actor网络中，其中Actor与目标模型中的Actor网络结构相同，根据初始化的模仿策略π_IL(a|s)输出Actor网络所采取的动作a'；

3.2)将步骤3.1)的输出a'和小车正常驾驶状态s作为状态动作对(s,a') 与专家的状态动作对(s,a)一起输入到判别器当中，对其产生的动作进行判别，利用判别器的输出y_D来作为奖励值r以指导模仿策略的学习；

3.3)模仿学习具有较强的学习模仿策略的能力，训练过程中通过最大化得到的期望奖励值来学习专家的策略，最小化损失函数以更新网络结构参数；

3.4)重复步骤3.2)-3.3)，迭代更新Actor网络和判别器网络的结构参数以学习专家策略数据，得到学习到的预训练目标模型的模仿策略π_IL；

模仿学习的网络结构包括行动者网络Actor和判别器网络D，其训练过程步骤如下：

Actor网络中，通过输入当前时刻的状态数据，得到相应的模仿策略

表示在s和ω的情况下选择动作a的概率。将采样得到的专家数据中的状态s输入到Actor网络中，根据模仿策略π_IL来得到相应的动作a'，以生成模拟的状态动作对(s,a')；

在模仿策略的训练过程中，利用Actor网络代替生成器G，其输出的动作与状态成对输入到判别器中，与专家数据进行对比，判别器 D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习。因此，模仿学习中的判别器损失函数可以表示为：

其中，π_IL表示模仿学习得到的策略，π_t表示采样的专家策略。第一项中的logD(s,a)表示判别器对真实数据的判断，第二项log(1-D(s,a))则表示对生成数据的判断，通过这样一个最大最小博弈过程，循环交替优化G和D 来训练所需要的Actor网络和判别式网络。

训练过程中，通过梯度求导来最小化损失函数从而反向更新判别器和 Actor网络参数，其损失函数如下：

其中，

4)目标智能体的策略保护：目标智能体在模仿策略π_IL的基础上对自身的策略进行调整学习，通过对深度强化学习模型进行微调并在损失函数上进行修改，使得在保证目标智能体策略π_t可以获得较高的期望奖励值的同时，还要保证根据模仿策略得到的期望奖励值越小越好，以达到策略保护的目的，具体方法步骤如下：

4.1)对目标智能体模型进行微调：在模型微调过程中，将模型最后的 Q网络层进行复制扩充，得到并行的k个Q网络层。在训练过程中，随机从k个网络层中选择一个作为Q值输出层用于进行策略动作选取，更新Q函数时，DQN算法从经验回放缓冲区Buff中进行数据采样，然后利用泊松分布生成一个k×1的掩码对k个Q网络层进行参数更新(掩码中为1的下标对应的Q网络层进行更新，为0的不更新)，利用k个Q值的平均值

作为目标智能体策略π_t进行学习和模仿；

4.2)目标智能体通过在目标函数J(θ)上增加惩罚项进行修改，原本的目标函数是最大化目标智能体所获得的期望奖励值

在目标函数上添加基于模仿策略的惩罚项

其中τ表示轨迹数据，通过最大化目标函数就可以达到同时保证目标策略π_t有较好的性能而模仿策略π_IL性能低的目的；

4.3)训练过程中，目标函数可以用参数为μ值函数来表示，得到损失函数为：

其中，τ₁和τ₂分别是根据目标策略和模仿策略得到的轨迹数据，V(s_t) 为t时刻状态的值函数；R(t)t时刻的奖励值。

分别采样N₁和N₂个轨迹，然后对损失函数进行策略梯度求导，可得：

其中，

π_t表示目标智能体的策略，π_IL表示模仿策略，

4.4)对主网络进行参数更新，可得到新的网络参数：

其中，α和β表示参数更新的学习率。每隔一段时间将子线程中的网络参数更新为主网络的参数，以指导目标智能体的策略学习。

4.5)在目标智能体的训练过程中，模仿策略π_IL每隔一段时间也会进行策略学习更新，保证其策略接近于修改后的目标智能体策略π_t，从而指导目标智能体的策略保护。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。