CN113255936B

CN113255936B - 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置

Info

Publication number: CN113255936B
Application number: CN202110592426.0A
Authority: CN
Inventors: 陈晋音; 章燕; 王雪柯; 胡书隆
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2024-02-13
Anticipated expiration: 2041-05-28
Also published as: CN113255936A

Abstract

本发明公开了一种基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置，包括：利用A3C网络对目标智能体进行预训练得到目标策略，再采样多个回合的其序列状态和动作对作为专家数据；其次将专家数据中的状态输入到模仿学习网络的行动者网络中根据模仿策略来生成动作，再将模仿学习的状态动作对与专家数据一起放入到判别器中，利用判别器的输出作为奖励值来指导模仿策略的学习；然后对目标智能体的目标函数进行修改，增加基于模仿策略的惩罚性以调整目标策略；最后利用注意力机制从模仿学习网络中提取浅层特征来生成对抗样本，对目标模型进行对抗训练，以增强目标模型的鲁棒性。

Description

基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置

技术领域

本发明属于面向深度强化学习隐私保护的防御领域，具体涉及一种基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置。

背景技术

深度强化学习是近年来人工智能备受关注的方向之一，随着强化学习的快速发展和应用，强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用，关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务，深度强化学习系统需要进行多步决策来完成某项任务，而且连续的决策之间还具有高度的相关性。

强化学习通常是一个连续决策的过程，其基本思想是通过最大化智能体从环境中获取的累计奖励，从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构，结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略，使智能体可以随着时间的推移从其所在环境中不断自我学习。但是，深度强化学习训练得到的策略也会通过模仿学习或者行为克隆而被窃取，此外，窃取者还能根据窃取获得的策略对深度强化学习模型进行攻击，反过来扰乱强化学习本身训练好的策略，使其模型策略存在安全性漏洞，不能再很好地应对当前的环境。这不仅泄露了模型本身的策略数据，同时还给模型带来了极大的安全隐患，尤其是在需要隐私保护的安全关键型领域，有可能造成极大的损失。

由于深度强化学习训练得到的策略存在隐私泄露的风险，而模仿学习和行为克隆有强大的策略行为学习能力，窃取者可以通过学习到的策略给攻击者提供了模型的相关信息，从而生成相应的对抗样本对目标模型进行攻击，给模型的安全性带来了极大的挑战。

发明内容

鉴于上述，本发明的目的是提供一种基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置，以提高深度强化学习模型的鲁棒性。

第一方面，本发明实施例提供了一种基于模仿学习和注意力机制的深度强化学习策略保护防御方法，包括以下步骤：

构建自动驾驶场景，并基于自动驾驶场景采集环境状态，利用环境状态进行包含主网络和子线程网络的A3C网络的目标策略的预学习，并根据预学习的A3C网络生成决策动作，与对应的环境状态组成专家状态动作对；

构建包含行动者网络和判别器的模仿学习网络，行动者网络用于依据专家状态动作对中环境状态生成模仿动作，该模仿动作对与输入的环境状态组成模仿状态动作对，判别器用于区分输入的专家状态动作对与模仿状态动作对；

将判别器的输出作为奖励值，来构建模仿学习网络的损失函数，利用该损失函数指导模仿学习网络的模仿策略学习，以更新模仿学习网络的参数，同时，从行动者网络中提取浅层特征，并基于注意力机制生成对抗样本；

将行动者网络的模仿策略的期望奖励值作为惩罚项，重建A3C网络的新目标函数；根据对抗样本和/或新目标函数进行A3C网络的目标策略的对抗学习；

学习结束后，A3C网络中的主网络与对应的参数组成能够防御攻击的目标决策模型。

第二方面，本发明实施例提供了一种基于模仿学习和注意力机制的深度强化学习策略保护防御装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，所述处理器执行计算机程序时实现第一方面所述的基于模仿学习和注意力机制的深度强化学习策略保护防御方法。

上述实施例提供的种基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置，具有的有益效果至少包括：

1)利用模仿学习和注意力机制来进行目标策略保护和增强目标模型的鲁棒性；2)在策略保护过程中，利用模仿学习来学习目标策略以生成模仿策略，再将模仿策略获得的期望奖励值作为惩罚项添加到A3C网络的目标函数中，在保证目标策略性能好的基础上还要保证模仿策略的性能要低以达到策略保护的目的；3)在策略防御过程中，利用注意力机制从模仿学习的行动者网络中提取浅层特征来生成对抗样本，再对A3C网络进行对抗训练，从而提高A3C网络中主网络的目标策略的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是一实施例提供的基于模仿学习和注意力机制的深度强化学习策略保护防御方法的流程图；

图2是一实施例提供的强化学习中A3C网络的结构即训练示意图；

图3是一实施例提供的基于模仿学习的策略保护示意图；

图4是一实施例提供的基于注意力机制的对抗样本生成过程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

针对深度强化学习策略也会通过模仿学习或者行为克隆的方法被窃取，同时还容易因此而受到对抗样本扰动的攻击，存在策略泄露和安全威胁的问题。当深度强化学习应用于自动驾驶领域时，小车自动驾驶的深度强化学习训练过程中，攻击者会通过模仿学习目标智能体的策略来窃取目标模型的相关信息，从而生成对抗样本而对目标模型进行攻击，使得目标模型的策略发生错误，使得学习者学习错误。

基于此种情况，实施例提供了一种基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置，利用利用模仿学习来进行模仿策略学习以进行策略保护，同时利用注意力机制的方法进行对抗训练以增强目标模型的鲁棒性。首先，利用DQN算法对目标智能体进行预训练得到目标策略，再采样多个回合的其序列状态和动作对作为专家数据；其次将专家数据中的状态输入到模仿学习的Actor网络中根据模仿策略来生成动作，再将模仿学习的状态动作对与专家数据一起放入到判别器D中，利用判别器的输出作为奖励值来指导模仿策略的学习；然后对目标智能体的目标函数进行修改，增加基于模仿策略的惩罚性以调整目标策略；最后利用注意力机制从模仿学习网络中提取浅层特征来生成对抗样本，对目标模型进行对抗训练，以增强目标模型的鲁棒性。防止策略被攻击而造成的安全隐患。

图1是一实施例提供的基于模仿学习和注意力机制的深度强化学习策略保护防御方法的流程图。如图所示，实施例提供的深度强化学习策略保护防御方法，包括以下步骤：

步骤1，构建自动驾驶场景，利用环境状态进行A3C网络的目标策略的预学习。

搭建深度强化学习小车自动驾驶模拟环境。基于该小车自动驾驶模拟环境可以采集环境状态，用于训练A3C网络。

如图2所示，A3C网络是基于强化学习中的异步优势行动者评论家算法(A3C)采用的网络，包含主网络和多个子线程网络，主网络和每个子线程网络均包含用于产生策略的Actor网络和用一个产生值函数的Critic网络，Actor网络的参数用θ表示，Critic网络的参数用μ表示。实施例中，基于A3C算法对无人小车智能体进行预训练得到目标策略π_t，预训练目标是无人小车智能体在较短的时间内安全地到达目的地。

实施例中，利用环境状态进行A3C网络的目标策略的预学习时，每个子线程网络通过与环境交互采集的环境状态进行目标策略的学习以更新各自的参数，主网络利用各子线程网络的参数的加权求和更新自己的参数，主网络将更新后的参数复制给各子线程网络。

实施例中，目标智能体采用多线程的方式，每个子线程网络中采用AC框架与环境进行单独地交互训练，通过各自与环境进行交互以得到经验数据，即状态转换过程(环境状态s_t、动作a_t、奖励r_t、下一个环境状态s_t')，以用于子线程网络的参数更新。具体过程为：

A3C算法采用多线程的方法，在主网络和子线程网络中都采用了AC网络结构，即分为Actor网络和Critic网络，通过输入当前时刻的状态来得到相应的策略π(a|s；θ)，表示在状态s和参数θ的情况下选择动作a的概率。A3C中通过利用Critic网络的输出V(s|μ')构造优势函数A(s,t)来评估采取的策略，当采用N步采样时，得到的优势函数为：

A(s,t)＝r_t+γr_r+1+...+γ^n-1R_t+n-1γⁿV(s')-V(s)＝R(t)-V(s)

其中，γ是折扣因子，取值范围为(0,1)，R(·)是奖励函数，然后利用策略梯度来计算更新子线程网络中Actor网络和Critic网络中的参数：

其中，θ和μ分别为子线程中Actor网络和Critic网络的参数，π(a|s；θ)是基于Actor网络参数θ的策略函数，而A(s|μ)是基于Critic网络参数μ的优势函数，其通过上述优势函数A(s,t)计算得到。

各子线程网络利用各自的损失函数的梯度迭代更新主网络，而主网络的参数也会每隔一段时间分发给子线程网络，进而指导之后的策略学习。具体地，主网络利用各子线程网络的参数的加权求和更新自己的参数。每个子线程网络的参数更新主网络的参数过程为：

θ＝θ-α·dθ

μ＝μ-β·dμ

其中，α和β表示参数更新的学习率。

步骤2，根据预学习的A3C网络生成决策动作，与对应的环境状态组成专家状态动作对。

在对A3C网络预训练时，根据深度强度学习预训练模型的策略π_t生成T个时刻小车的专家状态动作对组成序列{(s₁,a₁),...,(s_T,a_T)}用于模仿学习以生成模仿策略π_IL。

步骤3，构建包含行动者网络和判别器的模仿学习网络。

模仿学习网络用于模拟A3C网络学习，形成模拟策略。如图3所示，模仿学习网络包含行动者网络(Actor网络)和判别器的模仿学习网络，行动者网络用于依据专家状态动作对中环境状态生成模仿动作，该模仿动作对与输入的环境状态组成模仿状态动作对，判别器用于区分输入的专家状态动作对与模仿状态动作对。

实施例中，模仿学习网络的Actor网络与A3C网络中主网络的Actor网络结构相同，参数为ω，作用也相同。将采样得到的专家状态s输入至Actor网络，在参数ω和专家状态s下，根据模仿策略π_IL(a|s)输出所采取的模仿动作a'，形成模仿状态动作对(s,a')。

生成式对抗网络(GAN)的目的是使生成数据与目标数据分布(训练集数据所代表的分布)尽可能相同，其中，判别器D可以当作一个二分类器，采用交叉熵来表示。在模仿策略的训练过程中，利用Actor网络代替生成器G，其输出的动作与状态成对组成模仿状态动作对输入到判别器中，同时，专家状态动作对也输入至判别器中，用于判别行动者网络产生的模仿动作进行判别。

步骤3，构建模仿学习网络的损失函数，并利用损失函数指导模仿学习网络的模仿策略学习，以更新模仿学习网络的参数。

实施例中，判别器D:S×A→(0,1)的输出作为奖励值，用来指导模仿学习的策略学习。因此，模仿学习中的判别器的损失函数可以表示为：

其中，π_IL表示仿学习网络的模仿策略，π_t表示A3C网络的目标策略。第一项中的logD(s,a)表示判别器对专家状态动作对的判断，第二项log(1-D(s,a′))则表示对模仿状态动作对的判断，通过这样一个最大最小博弈过程，循环交替优化Actor网络和判别器来训练所需要的Actor网络和判别器。

整个模仿学习网络的损失函数Loss为：

其中，是模仿策略π_IL的熵，由常数λ(λ≥0)控制，作为损失函数中的策略正则项。

模仿学习具有较强的学习模仿策略的能力，训练过程中通过最大化得到的期望奖励值来学习专家的策略，最小化损失函数以更新网络结构参数。具体地，训练过程中，通过对损失函数Loss的梯度求导来最小化损失函数从而反向更新模仿学习网络中判别器和Actor网络的参数。

步骤4，模仿学习过程中，从行动者网络中提取浅层特征，并基于注意力机制生成对抗样本。

生成的对抗样本可以用于目标智能体的策略防御。在目标智能体的策略保护训练过程中，每隔N个回合基于模仿学习生成对抗样本，利用通道空间注意力机制和像素空间注意力机制的方法从模仿学习的行动者网络中提取浅层特征以生成不同状态的对抗样本。具体地，如图4所示，从行动者网络中提取浅层特征，并基于注意力机制生成对抗样本，包括：

首先，从行动者网络中提取输入的原始状态图的浅层特征，并对浅层特征进行上采样、reshape、移位处理后，将移位前后的特征图进行乘积运算并经过softmax处理得到通道注意力图；

然后，将通道注意力图与移位前的特征图乘积运算后，再与移位前的特征图进行点积运算，得到像素注意力图；

最后，将像素注意力图经过reshape处理后与原始状态图进行点积运算得到噪声扰动，将噪声扰动与原始状态图点乘运算得到对抗样本。

步骤5，重建A3C网络的新目标函数，根据对抗样本和/或新目标函数进行A3C网络的目标策略的对抗学习。

为了实现对A3C网络中目标智能体的策略保护，目标智能体在模仿策略π_IL的基础上对自身的策略进行调整学习，即在保证目标智能体的策略π_t可以获得较高的期望奖励值的同时，还要保证根据模仿策略得到的期望奖励值越小越好，以达到策略保护的目的，具体方法步骤如下：

目标智能体通过在目标函数J(θ)上增加惩罚项进行修改，原本的目标函数是最大化目标智能体所获得的期望奖励值改进时，将将行动者网络的模仿策略的期望奖励值作为惩罚项/>重建A3C网络的新目标函数，其中τ表示轨迹数据，通过最大化新目标函数就可以达到同时保证目标策略π_t有较好的性能而模仿策略π_IL性能低的目的；

实施例中，目标函数可以用参数为μ的值函数来表示，得到损失函数为：

其中，τ₁和τ₂分别是根据目标策略和模仿策略得到的轨迹数据，由多个时刻的动作组成，_T1、_T2分别表示轨迹数据τ₁和τ₂包含的时刻数，t表示时刻的索引，和/>分别表示状态s_t在目标策略π_t和模仿策略π_IL下Critic网络的值函数值，/>分别表示轨迹数据τ₁和τ₂的奖励值，其中，/>等于期望奖励值/>

然后，对损失函数进行策略梯度求导，可得：

其中， π_t表示目标智能体的目标策略，π_IL表示模仿策略，/>N₁和N₂分别表示轨迹数据的个数，/>和/>分别表示主网络中actor网络的动作输出对应的值函数，表示模仿学习网络中actor网络的动作输出对应的值函数。

最后，对主网络进行参数更新，可得到新的网络参数：

其中，α和β表示参数更新的学习率。每隔一段时间将子线程中的网络参数更新为主网络的参数，以指导目标智能体的策略学习。

实施例中，根据对抗样本和/或新目标函数进行A3C网络的目标策略的对抗学习。在目标智能体的对抗学习过程中，将生成的对抗样本作为输入状态对目标模型进行对抗训练，以提高模型策略的鲁棒性，防御攻击者利用模仿学习来进行对抗攻击。模仿策略π_IL每隔一段时间也会进行策略学习更新，保证其策略接近于修改后的目标智能体策略π_t，从而指导目标智能体的策略保护。

实施例还提供了一种基于模仿学习和注意力机制的深度强化学习策略保护防御装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，所述处理器执行计算机程序时实现上述基于模仿学习和注意力机制的深度强化学习策略保护防御方法的步骤。

实际应用中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于模仿学习和注意力机制的深度强化学习策略保护防御方法步骤。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于模仿学习和注意力机制的深度强化学习策略保护防御方法，其特征在于，包括：

2.如权利要求1所述的基于模仿学习和注意力机制的深度强化学习策略保护防御方法，其特征在于，利用环境状态进行A3C网络的目标策略的预学习时，每个子线程网络利用采集的环境状态进行目标策略的学习以更新各自的参数，主网络利用各子线程网络的参数的加权求和更新自己的参数，主网络将更新后的参数复制给各子线程网络。

3.如权利要求1所述的基于模仿学习和注意力机制的深度强化学习策略保护防御方法，其特征在于，将判别器的输出作为奖励值，构建的模仿学习网络的损失函数Loss为：

其中，s表示状态，a表示动作，a'表示模仿动作，D表示判别器，π_IL表示模仿学习网络的模仿策略，π_t表示A3C网络的目标策略，也是采样的专家策略，logD(s,a)表示判别器对专家状态动作对的判断，log(1-D(s,a′))则表示对模仿状态动作对的判断，通过这样一个最大最小博弈过程，循环交替优化行动者网络和判别器来训练所需要的行动者网络和判别器，是模仿策略π_IL的熵，由常数λ控制，作为损失函数中的策略正则项，sup表示上确界，即最小上界，就是在提供的状态动作对数据集的情况下求得损失。

4.如权利要求1所述的基于模仿学习和注意力机制的深度强化学习策略保护防御方法，其特征在于，从行动者网络中提取浅层特征，并基于注意力机制生成对抗样本，包括：

5.如权利要求1所述的基于模仿学习和注意力机制的深度强化学习策略保护防御方法，其特征在于，将行动者网络的模仿策略的期望奖励值作为惩罚项，重建A3C网络的新目标函数为：

6.一种基于模仿学习和注意力机制的深度强化学习策略保护防御装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1～5任一项所述的模仿学习和注意力机制的深度强化学习策略保护防御方法。