CN112884131A

CN112884131A - 一种基于模仿学习的深度强化学习策略优化防御方法和装置

Info

Publication number: CN112884131A
Application number: CN202110282288.6A
Authority: CN
Inventors: 陈晋音; 章燕; 王雪柯; 胡书隆
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-01

Abstract

本发明公开了一种基于模仿学习的深度强化学习策略优化防御方法和装置，包括：搭建深度强化学习的智能体自动驾驶模拟环境，基于强化学习中的深度Q网络构建目标智能体，对目标智能体进行强化学习以优化深度Q网络的参数；利用参数优化的深度Q网络产生T个时刻的目标智能体的状态动作对序列作为专家数据，其中，状态动作对中的动作取值对应Q值最小的动作；基于生成式对抗网络构建对抗智能体，并对对抗智能体进行模仿学习，即以专家数据中状态作为生成式对抗网络的输入，以专家数据作为标签来监督优化生成式对抗网络的参数；基于对抗智能体产生的状态对目标智能体进行对抗训练，再优化优化深度Q网络的参数，以实现深度强化学习策略优化防御。

Description

一种基于模仿学习的深度强化学习策略优化防御方法和装置

技术领域

本发明属于面向深度强化学习的防御领域，具体涉及一种基于模仿学习的深度强化学习策略优化防御方法和装置。

背景技术

深度强化学习是近年来人工智能备受关注的方向之一，随着强化学习的快速发展和应用，强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用，关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务，深度强化学习系统需要进行多步决策来完成某项任务，而且连续的决策之间还具有高度的相关性。

强化学习通常是一个连续决策的过程，其基本思想是通过最大化智能体从环境中获取的累计奖励，从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构，结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略，最终实现从感知输入到决策输出的端到端深度强化学习框架，具有较强的学习能力且应用广泛。但是与机器学习模型相同的是，强化学习也容易受到对抗样本的干扰，根据对样本的攻击，主要可分为观测攻击、奖励攻击、动作攻击以及环境攻击。同时，深度强化学习的训练过程中也会受到中毒攻击，使得模型的训练代价加大，模型的性能降低。此外，深度强化学习训练的策略还存在安全性隐患，尤其是在安全关键型领域，如复杂作战环境、作战指挥环境、无人机装甲车、无人机监察机、智能机器人控制等，模型策略漏洞的存在会给强化学习系统带来严重的损害。尤其是在安全关键型领域中，这种安全性隐患带来了很大的危害，会使强化学习系统的决策发生错误，这对于强化学习的决策安全应用领域是重大挑战。

由于强化学习训练得到的策略存在安全性隐患，因此提高强化学习模型和策略的鲁棒性，使其有效安全地应用在安全决策领域已经日益成为了人们关注的重点。目前，根据现有的防御机制，常见的强化学习的防御方法可以分为对抗训练、鲁棒学习、对抗检测三大类。对抗训练是指将对抗样本加入到训练样本中对模型进行训练，其主要目的是提高策略对正常样本以外的泛化能力。但是对抗训练往往只能提高策略对参与训练的样本的拟合能力。鲁棒学习是训练模型在面对来自训练阶段或者测试阶段时的攻击方法时提高其自身鲁棒性的学习机制。对抗检测指模型对正常样本与对抗样本加以甄别，并在不修改原始模型参数的情况下处理对抗样本，来实现防御效果。

发明内容

为了解决现有强化学习在安全决策领域(例如自动驾驶场景)受到攻击或自动决策漏漏洞，进而导致决策结果不准确带来安全隐患的问题，本发明的目的是提供一种基于模仿学习的深度强化学习策略优化防御方法和装置。

为实现上述发明目的，本发明提供以下技术方案：

一种基于模仿学习的深度强化学习策略优化防御方法，包括以下步骤：

搭建深度强化学习的智能体自动驾驶模拟环境，基于强化学习中的深度Q网络构建目标智能体，并对目标智能体进行强化学习以优化深度Q网络的参数；

利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据，其中，状态动作对中的动作取值对应Q值最小的动作；

基于生成式对抗网络构建对抗智能体，并对对抗智能体进行模仿学习，即以专家数据中状态作为生成式对抗网络的输入，同时以专家数据作为标签来监督以优化生成式对抗网络的参数；

基于对抗智能体产生的状态对目标智能体进行对抗训练，再优化优化深度Q网络的参数，以实现对深度强化学习策略优化防御。

一种基于模仿学习的深度强化学习策略优化防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行计算机程序时实现上述基于模仿学习的深度强化学习策略优化防御方法。

与现有技术相比，本发明具有的有益效果至少包括：

1)利用模仿学习来训练对抗性智能体以优化目标智能体策略，提高深度强化学习模型的鲁棒性；2)在模仿学习过程中，专家数据中的状态动作对采集的是目标智能体中Q值最小的动作，通过判别器的输出作为奖励值来指导对抗性智能体的策略学习，以生成各种策略陷阱使得目标智能体达到危险的状态；3)将目标智能体与对抗性智能体一起进行交替对抗博弈训练，目标智能体训练N步，对抗性智能体采取一次动作，以提前经历危险的环境状态，从而提高目标智能体策略的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于模仿学习的深度强化学习策略优化防御方法的流程图；

图2是实施例提供的基于模仿学习的对抗性智能体训练示意图；

图3是实施例提供的强化学习中DQN算法结构的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

基于鲁棒学习的防御机制，实施例提供了基于模仿学习的深度强化学习策略优化防御方法，主要应用于自动驾驶场景中。技术构思为：在模拟小车自动驾驶的深度强化学习训练过程中，基于策略中毒的攻击方法会使学习者学习到一个错误的策略，从而选择一个不好的动作，使得学习者学习错误。基于此情况，该方法利用模仿学习机制来训练对抗性智能体产生对抗性的错误动作，在目标智能体训练过程中将错误动作作为策略陷阱来扰乱目标智能体的策略，使其预见受到扰动的环境状态和错误行为所带来的破坏，从而提高目标智能体的策略鲁棒性，增强深度强化学习模型的安全性。

图1是实施例提供的基于模仿学习的深度强化学习策略优化防御方法的流程图。如图1所示，实施例提供的基于模仿学习的深度强化学习策略优化防御方法，包括以下步骤：

步骤1，搭建深度强化学习的智能体自动驾驶模拟环境，基于强化学习中的深度Q网络(DQN)构建目标智能体，并对目标智能体进行强化学习以优化深度Q网络的参数。

实施例中，智能体可以是自动驾驶环境中的小车，在利用强化学习中的深度Q网络训练小车，目的是使小车尽可能快递达到目的地。深度Q网络是将Q学习和卷积神经网络相结合，构建用于深度强化学习的训练模型。

其中，如图3所示，深度Q网络包括主Q网络和目标Q网络，其中，主Q网络作为目标智能体的决策网络，目标Q网络作为目标智能体的价值网络，主Q网络和目标Q网络均采用卷积神经网络。在对目标智能体进行强化学习时，主Q网络根据状态计算的决策Q值作为动作值，并根据动作值产生下一时刻的状态值和奖励值，状态值、动作值以及奖励值均被存储，目标Q网络从存储中取出下一时刻的环境计算目标Q值，并以主Q网络与目标Q网络输出的决策Q值和目标Q值以及累计奖励值来更新主Q网络，同时每隔一段时间将当前主Q网络复制给目标Q网络。

实施例中，DQN算法的具体过程为：

(a)当前主Q_θ网络的输入是当前场景的图像数据，也就是环境状态，输出则是每个动作对应的价值函数来估计累计的长期奖励，即决策Q值；

(b)DQN还使用了目标网络机制，即在当前主Q_θ网络的基础上，搭建了一个结构完全相同的目标Q_θ-网络组成DQN的整体模型框架，训练过程中，当前主Q_θ网络输出的决策Q值用来选择动作a,另一个目标Q_θ-网络用于计算目标Q值。以决策Q值和和包含累计奖励值的目标Q值的均方差作为损失函数来更新主Q网络，其中，损失函数为：

其中，

为目标Q值，通过神经网络的反向梯度传播来更新当前主Q_θ网络的参数θ，序号i表示输入数据的索引，m为输入数据的个数。

(c)训练过程中，DQN采用了经验回放机制，将状态转换过程(状态s_i、动作a_i、奖励r_i、下一个状态s_i')存储在经验回放缓冲区Buff中，作为网络模型的训练数据集，并以随机采样的形式进行批处理学习。

(d)从Buff中采样N个训练数据集，通过最小化损失函数来更新当前主Q_θ网络的网络参数，每隔一段时间将当前主Q_θ网络的参数复制给目标Q_θ-网络，即延时更新，再进行下一轮的学习。

经过以上步骤(a)～步骤(d)即可以预训练目标智能体的深度Q网络的参数，预训练的深度Q网络用于产生数据对作为对抗智能体学习的样本数据。

步骤2，利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据，其中，状态动作对中的动作取值对应Q值最小的动作。

生成状态动作对序列的过程是一个采样过程，采用获得的T个时刻小车驾驶序列状态动作对{(s₁,a₁),...,(s_T,a_T)}作为专家数据，其中动作a取得是对应的决策Q值最小的动作，表示该动作为错误动作，其中，s表示状态值。

步骤3，基于生成式对抗网络构建对抗智能体，并对对抗智能体进行模仿学习，即以专家数据中状态作为生成式对抗网络的输入，同时以专家数据作为标签来监督以优化生成式对抗网络的参数。

实施例中，生成式对抗网络包括生成器和判别器，其中，生成器作为对抗智能体的决策网络，判别器作为对抗智能体的价值网络，在对对抗智能体进行强化学习时，以专家数据中每个状态动作对的状态值作为生成器的输入，生成器根据输入的状态值计算产生预测动作值，该预测动作值与对应的输入状态值组成的状态动作对输入至判别器，专家数据中相同状态值的状态动作对作为标签也输入至判别器，判别器用于对生成器产生的动作值进行判断，并将判别结果作为奖励值以指导生成器的学习。

其中，生成器和判别器均采用卷积神经网络，对抗性智能体为了达到类似于策略陷阱的作用，通过最大化得到的期望奖励值来学习到使目标智能体陷入错误策略，最小化损失函数以更新网络结构参数。具体地，如图2所示，在对对抗智能体进行强化学习的具体过程包括：

(a)生成器中，通过输入当前时刻的状态数据，得到相应的动作策略π(a|s；θ)，π(a|s；θ)表示在s和θ的情况下选择动作a的概率。概率的对数乘以该动作的总回报R对θ求梯度，以梯度上升的方式更新θ。将采样得到的专家数据中的状态s输入到生成器网络(也就Actor网络)中，根据网络的初始化策略参数来得到相应的动作a'，以生成对抗性智能体的状态动作对(s,a')；

(b)GAN的目的是使生成数据与目标数据分布(训练集数据所代表的分布)相似，其中，判别器D可以当作一个二分类器，采用交叉熵来表示：

其中，minmax表示纳什均衡中的最大最小目标函数，P_data(x)为来自样本数据的分布，第一项中的logD(x)表示判别器对真实数据的判断，第二项log(1-D(x))则表示对生成数据的判断通过这样一个最大最小博弈过程，循环交替优化G和D来训练所需要的生成式网络和判别式网络，直至达到纳什均衡点。在对抗性智能体的训练过程中，利用Actor网络代替生成器G，其输出的动作与状态成对输入到判别器中，与专家数据进行对比，判别器D:S×A→(0,1)的输出作为奖励值用来指导对抗性智能体的策略学习。因此，模仿学习中的判别器损失函数可以表示为：

其中，E_π[logD(s,a)]表示判别器依据生成器产生的状态动作值计算的能力值，E_πE[1-logD(s,a)表示表示判别器依据专家数据中的状态动作对(s,a)计算的能量值，D∈(0,1)S×A表示判别器的输出为尺寸为S×A的0～1之间的小数；

(c)训练过程中，对抗性智能体通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数，其损失函数如下：

其中，

是对抗性智能体策略π的熵，由常数λ(λ≥0)控制，作为损失函数中的策略正则项。

步骤4，基于对抗智能体产生的状态对目标智能体进行对抗训练，再优化优化深度Q网络的参数，以实现对深度强化学习策略优化防御。

实施例中，基于对抗智能体产生的状态对目标智能体进行对抗训练时，目标智能体基于参数优化的主Q网络产生N个动作时，即采用N步行为动作后，对抗智能体基于存储的状态产生N+1时刻的动作，并产生对应的状态值并存储，目标智能体的目标Q网络基于对抗智能体产生的N+1时刻的状态值计算目标Q值，以优化主Q网络的参数。

这样，经过深度学深度强化学习策略优化防御获得的深度Q网络可以用来在自动驾驶环境中的防御攻击，即目标智能体能够在攻击情况下产生正确动作。

实施例中，目标智能体的对抗博弈训练过程：

(a)目标智能体与对抗性智能体采用交替采取行为的方式对预训练模型进行对抗博弈训练，即当目标智能体采取N步的行为后，对抗性智能体采取一次行为，根据学习到的策略进行动作输出以得到下一个状态作为策略扰动结果。

(b)对抗性智能体不断地通过目标智能体的状态和Q值最小的动作来进行学习，提高了目标智能体对对抗性扰动的错误策略动作概率，从而优化目标智能体的策略，增强模型的鲁棒性。

(c)目标智能体从Buff中采样N个训练数据集，通过最小化当前Q网络的预测Q值和目标Q网络的目标Q值的均方差来更新当前Q网络的网络参数，每隔一段时间将当前Q网络的参数复制给目标Q网络。

实施例还提供一种基于模仿学习的深度强化学习策略优化防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，计算机处理器执行计算机程序时实现上述基于模仿学习的深度强化学习策略优化防御方法。

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于模仿学习的深度强化学习策略优化防御方法步骤。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于模仿学习的深度强化学习策略优化防御方法，其特征在于，包括以下步骤：

基于对抗智能体产生的状态对目标智能体进行对抗训练，再优化优化深度Q网络的参数，以实现深度强化学习策略优化防御。

2.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法，其特征在于，所述深度Q网络包括主Q网络和目标Q网络，其中，主Q网络作为目标智能体的决策网络，目标Q网络作为目标智能体的价值网络，在对目标智能体进行强化学习时，主Q网络根据状态计算的决策Q值作为动作值，并根据动作值产生下一时刻的状态值和奖励值，状态值、动作值以及奖励值均被存储，目标Q网络从存储中取出下一时刻的环境计算目标Q值，并以主Q网络与目标Q网络输出的决策Q值和目标Q值以及累计奖励值来更新主Q网络，同时每隔一段时间将当前主Q网络复制给目标Q网络。

3.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法，其特征在于，以决策Q值和和包含累计奖励值的目标Q值的均方差作为损失函数来更新主Q网络。

4.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法，其特征在于，所述生成式对抗网络包括生成器和判别器，其中，生成器作为对抗智能体的决策网络，判别器作为对抗智能体的价值网络，在对对抗智能体进行强化学习时，以专家数据中每个状态动作对的状态值作为生成器的输入，生成器根据输入的状态值计算产生预测动作值，该预测动作值与对应的输入状态值组成的状态动作对输入至判别器，专家数据中相同状态值的状态动作对作为标签也输入至判别器，判别器用于对生成器产生的动作值进行判断，并将判别结果作为奖励值以指导生成器的学习。

5.如权利要求4所述的基于模仿学习的深度强化学习策略优化防御方法，其特征在于，对对抗智能体进行强化学习时，采用如公式(1)所示的损失函数更新判别器的参数：

其中，D表示判别器，E_π[logD(s,a)]表示判别器依据生成器产生的状态动作值计算的能力值，E_πE[1-logD(s,a)]表示表示判别器依据专家数据中的状态动作对(s,a)计算的能量值，D∈(0,1)S×A表示判别器的输出为尺寸为S×A的0～1之间的小数，

是对抗性智能体策略π的熵，由常数λ，λ≥0控制，作为损失函数中的策略正则项。

6.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法，其特征在于，基于对抗智能体产生的状态对目标智能体进行对抗训练时，目标智能体基于参数优化的主Q网络产生N个动作时，即采用N步行为动作后，对抗智能体基于存储的状态产生N+1时刻的动作，并产生对应的状态值并存储，目标智能体的目标Q网络基于对抗智能体产生的N+1时刻的状态值计算目标Q值，以优化主Q网络的参数。

7.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法，其特征在于，经过深度学深度强化学习策略优化防御获得的深度Q网络可以用来在自动驾驶环境中的防御攻击，即目标智能体能够在攻击情况下产生正确动作。

8.一种基于模仿学习的深度强化学习策略优化防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行计算机程序时实现权利要求1～7任一项所述的基于模仿学习的深度强化学习策略优化防御方法。