CN111600851A

CN111600851A - 面向深度强化学习模型的特征过滤防御方法

Info

Publication number: CN111600851A
Application number: CN202010345029.9A
Authority: CN
Inventors: 陈晋音; 王雪柯; 章燕; 王珏
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-28
Anticipated expiration: 2040-04-27
Also published as: CN111600851B

Abstract

本发明公开了一种面向深度强化学习模型的特征过滤防御方法，包括：(1)针对生成连续行为的DDPG模型，包括actor网络和critic网络，其中，所述actor网络包括动作估计网络和动作实现网络，所述critic网络包括状态估计网络和状态实现网络，对所述深度强化学习模型DDPG进行预训练，并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓存区；(2)训练自编码器，并利用训练好的自编码器的编码器对输入状态进行特征过滤，获得过滤后的输入状态对应的特征图，并保存到缓存区；(3)对预训练后的DDPG模型中的卷积核进行剪枝，利用剪枝后的DPG模型进行动作预测，输出并执行预测动作。

Description

面向深度强化学习模型的特征过滤防御方法

技术领域

本发明属于深度学习技术领域，具体涉及一种面向深度强化学习模型的特征过滤防御方法。

背景技术

随着人工智能技术的迅速发展，越来越多的领域都开始使用AI技术。自1956年“人工智能”概念的首度提出以来，AI的受关注度就越来越高。其研究领域包括知识表示、机器感知、机器思维、机器学习、机器行为，各种领域都取得了一定成就。强化学习也是一种多学科交叉的产物，它本身是一种决策科学，所以在许多学科分支中都可以找到它的身影。强化学习应用广泛，比如：直升机特技飞行、游戏AI、投资管理、发电站控制、让机器人模仿人类行走等。

在游戏领域，为了提高用户体验，在很多场景下需要训练AI自动玩游戏，目前，游戏训练场景接受度最高的是深度强化学习(Deep Reinforcement Learning，DRL)，一般情况下使用深度Q-learning网络(Deep Q-learning Network,DQN)来训练游戏AI自动玩游戏。DRL网络充分利用了卷积神经网络处理大数据的能力，将游戏画面作为输入，同时融合更多的游戏数据作为输入。然而神经网络极易受到对抗性攻击，专家学者们也提出了很多攻击方法和防御方法，但是，针对深度强化学习的防御方法并没有成型的专利提出。随着深度强化学习的应用越来越广泛，安全性必然成为其发展的重要隐患因素之一。为了解决这一问题，本发明提出了有效的解决方法。

强化学习就是学习如何根据一个环境状态去决定如何行动，使得最后的奖励最大。强化学习中两个最重要的特征就是试错(trial-and-error)和滞后奖励(delayedreward)。观察过程的状态容易被攻击者添加对抗扰动，攻击者也可直接攻击行动或奖励值以达到攻击目的。奇异样本数据的存在会引起训练时间增大，同时也可能导致无法收敛，因此，当存在奇异样本数据时，在进行训练之前需要对预处理数据进行归一化；反之，不存在奇异样本数据时，则可以不进行归一化。智能体的行为直接受奖励值的影响，奖励值是根据当前状态给出的，因此达到防御的最有效方式就是保证状态不受干扰。

如何防御状态不受干扰成为了迫不及待要解决的问题。

发明内容

为了提高深度强化学习模型的鲁棒性以及学习效率，提高模型有效抵御对抗攻击的能力，防止状态识别有误奖励值偏差太大从而使智能体采取错误的动作，本发明提出了一种面向深度强化学习攻击的防御方法。

本发明的技术方案为：

一种面向深度强化学习模型的特征过滤防御方法，包括以下步骤：

(1)针对生成连续行为的DDPG模型，包括actor网络和critic网络，其中，所述actor网络包括动作估计网络和动作实现网络，所述critic网络包括状态估计网络和状态实现网络，对所述深度强化学习模型DDPG进行预训练，并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓存区；

(2)训练自编码器，并利用训练好的自编码器的编码器对输入状态进行特征过滤，获得过滤后的输入状态对应的特征图，并保存到缓存区；

(3)对预训练后的DDPG模型中的卷积核进行剪枝，利用剪枝后的DPG模型进行动作预测，输出并执行预测动作。

其中，所述深度强化学习模型DDPG的预训练过程包括：

针对状态估计网络，以实际Q值与估计Q值的平方损失为损失函数来更新状态估计网络的参数；

针对动作估计网络，利用损失梯度来更新动作估计网络的参数；

将所述状态估计网络的参数复制给状态实现网络，以更新状态实现网络的参数；

将所述动作估计网络的参数复制给动作实现网络，以更新动作实现网络的参数。

其中，所述自编码器包括编码器和解码器两部分；

针对编码器部分的训练，首先采用RBM网络对编码器的卷积层进行逐层训练，逐层训练结束后，根据编码器输入状态与解码器的输出状态的相似度来更新编码器所有卷积层的参数；

针对解码器部分的训练，直接采用编码器的输入状态与解码器的输出状态的损失来更新解码器的参数。

其中，采用以下公式计算编码器输入状态与解码器的输出状态的相似度KL(q(s)||p(s))：

其中，q(s)是输入状态对应的概率分布，p(s)是解码器的输出状态对应的概率分布，s表示输入状态，Ω表示状态总和。

其中，所述利用训练好的自编码器的编码器对输入状态进行特征过滤，获得过滤后的输入状态对应的特征图的过程包括：

采用在伯努利随机变量X(i,j,k)对每个状态矩阵的位置(i,j,k)进行随机采样得到一组随机值；

计算该一组随机值与位置(i,j,k)对应值总方差，以总方差最小化为目标滤除或保留位置(i,j,k)对应值，以实现对输入状态的特征过滤。

其中，对预训练后的DDPG模型中的卷积核进行剪枝包括：

在结构剪枝过程中，细化了一组参数，这组参数保留了自适应网络的准确性，L(D|χ′)≈L(D|χ)，相当于一个组合优化：

min|L(D|χ′)-L(D|χ)|s.t||χ′||₀≤η，

其中，D表示缓存区，参数χ包括动作估计网络的参数θ和状态估计网络的参数w，参数χ″表示对参数θ和参数w剪枝后剩下参数，L(D|χ)表示根据缓存区D中的状态和动作值在参数χ下计算的损失函数值，表示根据缓存区D中的状态和动作值在参数χ″下计算的损失函数值；

从一组参数χ开始，迭代地识别和删除最不重要的参数，通过在每次迭代中删除参数，以确保最终满足||χ″||₀≤η。

与现有技术相比，本发明具有的有益效果为：

1)使用Autoencoder模型有一定的去噪作用，可以提取更有价值的特征。2)总方差测量图像中的微小变化量，总方差最小化使得图像中的微小扰动被去除。3)本发明防御方法与深度强化学习的策略模型无关，可适用于任意策略网络。4)采用结构剪枝有效过滤掉冗余的神经元，提高了训练效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是面向深度强化学习模型的特征过滤防御方法的流程图；

图2是面向深度强化学习模型的特征过滤防御方法中深度强化学习原理图；

图3是面向深度强化学习模型的特征过滤防御方法中自编码器原理图；

图4是面向深度强化学习模型的特征过滤防御方法中基于结构剪枝的DDPG模型原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

以下实施例以游戏环境为例，智能体在交互式环境与环境状态建立联系。防御对象就是深度强化学习模型，强化学习一般以马尔科夫决策过程(Markov DecisionProcess，MDP)作为形式化的手段。在交互式环境下通过收集环境观察状态s并让代理采取行动a同时根据环境s变化及时给出奖励值R,每次同时保存当前状态、行动、奖励值以及下一状态。通过大量观察数据训练深度强化学习模型，然后对输入状态添加扰动使代理行为出错，通常对抗扰动不易察觉，本发明提出特征过滤的防御方法，限制输入状态的像素值，从而使添加扰动的像素不起主要作用，同时对深度强化学习模型应用结构剪枝以提高学习效率。特征过滤则是利用基于压缩感知的自动编器(Autoencoder)来实现的，并对强化学习模型的神经网络中卷积核进行剪枝以提高效率，最终智能体高效的采取正确的行动。如果深度强化学习状态受到攻击则将观察状态通过本发明的防御网络模型进行防御，本发明方法的防御模型由Autoencoder模型和强化学习模型构成。

图1面向深度强化学习模型的特征过滤防御方法的流程图，如图1所示，实施例提供的面向深度强化学习模型的特征过滤防御方法，包括以下步骤：

S101，对DDPG模型进行预训练，并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓冲区。

本实施例中，如图2所示，采用DDPG(Deep Deterministic Policy Gradient)模型生成连续行为，DDPG算法是Actor-Critic和DQN算法的结合体，采用DQN中的经验池和双网络结构来促进神经网络能够有效学习，这里actor不再是输出每个动作的概率，而是输出每个动作对应的值。DDPG的网络结构由两大部分组成，即actor网络包含动作估计网络和动作实现网络，以及critic网络包含状态估计网络和状态实现网络。动作估计网络负责策略参数的迭代更新，根据当前环境状态S选择当前动作A，并和环境交互生成下一时刻环境S′和当前动作对应的奖励值R。动作实现网络根据经验回放池(也即是缓冲区)D中采样的下一时刻环境状态S′选择最优的下一动作A′。

在预训练阶段，只需要训练动作估计网络和状态估计网络的参数，动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的。

状态估计网络的学习过程与DQN类似，根据下面的损失函数来进行网络学习，即实际Q值和估计Q值的平方损失：

其中，Q(s_i,a_i,w)是根据状态估计网络根据状态s_i和在动作估计网络参数w下的动作a_i得到的估计Q值，a_i是动作估计网络传过来的动作，y_i为实际Q值，以目标Q值Yi的最大值作为实际Q值，即y_i＝max(Yi)，其中，目标Q值Yi是根据现实奖励R、下一时刻环境状态s′以及动作实现网络输出的动作A′利用贝尔曼方程计算得到，具体公式为：

Y_i＝R+γQ′(S′,A′,w′) (2)

其中，R为当前动作对应的奖励值，γ为折扣因子，取值范围为0～1，Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值，由状态实现网络计算得到，w′为状态实现网络参数。

动作估计网络参数则是利用损失梯度来更新的，神经网络参数的更新公式如下：

θ′←τθ+(1-τ)θ′ (4)

w′←τw+(1-τ)w′ (5)

其中，θ是动作估计网络的参数，θ′是动作实现网络的参数，w是状态估计网络的参数，w′是状态实现网络的参数，Q(s_i,a_i,w)是根据状态估计网络根据状态s_i和在状态估计网络参数w下的动作a_i得到的估计Q值，π_θ(.)是参数θ下动作估计网络的策略，J(.)是动作估计网络的损失函数。

S102，训练自编码器。利用训练好的自编码器对输入状态进行特征过滤，获得过滤后的输入状态对应的特征图。

本实施例中，首先需要对自编码器中的编码器进行逐层预训练，得到初始的权值与偏置。然后根据自编码得到重构数据，通过BP算法进行全局微调权值与偏置。

自编码器由两部分组成，即编码器Encoder和解码器Decoder部分。其中，Encoder的作用是降维，Decoder是从降为后的特征中恢复出原始特征。

其中，Encoder由5个卷积层组成，将3000维的特征压缩到30维，先由一层卷积层将3000维特征压缩到1000维，然后将1000维数据经过一层卷积降为500维再将500维特征压缩到250维，最后压缩到30维。Decoder则是相反的过程，其中解码层和编码层经过30维数据的卷积层连结在一起，首先是将30维特征扩展到250维，然后将250维特征解压到500维，再经过一层卷积层将500维特征解压到100维，最后经过一层卷积将1000维特征恢复到3000维。

如图3所示，针对编码器部分的逐层训练，采用Autoencoder相邻两层参数，权重矩阵δ，隐藏层偏置参数c_i，可视层偏置参数b_j，参数传播更新过程分为从可视层到隐藏层以及隐藏层到可视层。从可视层到隐藏层的数据更新概率公式为：

从隐藏层到可视层的数据更新概率公式为：

其中，v代表可视层节点，h代表隐层节点，σ(x)＝1/(1+e^-x)。

自编码器的权重更新公式：

δ(t+1)＝δ(t)+λ(νh^T-ν′h′^T) (8)

其中，δ_t为权重，ν和h分别代表可视层(即输入层)输入和隐藏层输出，λ为学习率。

自编码器训练过程中，逐层训练主要作用是在隐藏层尽可能保留从可视层输入状态的主要特征，特征保留程度指标由压缩特征恢复出来的图像与原图像的差别。特征压缩过程就是正向过程(υ→h)，对真实特征υ产生影响，反向过程则是利用压缩后的特征h复现真实数据的特征υ′，权重更新是由正反向误差υh^T-υ′h′^T。基于RBM网络的能量函数为：

其中，ν和h分别代表可视层输入和隐藏层输出，δ为自编码器参数。RBM网络训练用到的损失函数的偏导数为：

其中，-p(υ)是RBM网络可视层输入υ的概率分布，在RBM网络中将其称为损失函数，E是能量函数，ν和h分别代表可视层输入和隐藏层输出。如果要使系统(这里即指RBM网络)达到稳定，则应该是系统的能量值最小，要使能量E最小，应该使损失函数-p(υ)最小，通过使RBM网络达到稳定实现对编码器的逐层训练。

逐层训练结束后，根据编码器输入状态与解码器的输出状态的相似度来更新编码器所有卷积层的参数。

S103，利用训练好的自编码器的编码器对输入状态进行特征过滤，获得过滤后的输入状态对应的特征图，并保存到缓存区。

本实施例中，将输入状态可以看成是一张图，对输入状态扰动的滤除可以看作是对图中对抗扰动的滤除，可以通过压缩感知方法将像素丢失与总方差最小化相结合消除对抗性扰动。该方法先随机选择一小组像素，并重构与所选像素一致的最简单图像。这里重构的图像往往不包含对抗性扰动，因为这种人为设计的扰动往往很小且局部化。

具体地，首先通过伯努利随机变量X(i,j,k)对每个像素位置(i,j,k)进行随机采样得到一组随机像素z，然后，基于总方差最小化的原则来构造一个图像，它类似于所选像素组的扰动输入图像。总方差最小化可以表示为：

其中，x表示像素位置(i,j,k)对应的像素值，X表示像素位置(i,j,k)的伯努利随机变量X值，·表示逐元素乘法，λ_TV是超参数，TV_p(z))测量图像z中像素值变化的数量，因此TV最小化有助于消除图像中的小扰动。这里p的取值为2表示求z的均方差。总方差测量图像中的微小变化量，总方差最小化使得图像中的微小扰动被去除，当X(i,j,k)＝1时仅保留一个像素。

S104，对预训练后的DDPG模型中的卷积核进行剪枝。

DDPG模型的输入是状态、动作值，输出是动作，DDPG模型的网络参数w和θ分别通过公式(1)所示的平方损失L和公式(3)所示的梯度损失▽J(θ)来更新。如图4所示，本发明同时对状态估计网络和动作估计网络进行结构剪枝。结构剪枝对原网络损失函数没有影响，在结构剪枝过程中，本发明细化了一组参数，这些参数保留了自适应网络的准确性，L(D|χ″)≈L(D|χ)，相当于一个组合优化：

min|L(D|χ″)-L(D|χ)|s.t||χ″||₀≤η， (12)

其中，参数χ包括动作估计网络的参数θ和状态估计网络的参数w，参数χ″表示对参数θ和参数w剪枝后剩下参数，L(D|χ)表示根据缓存区D中的状态和动作值在参数χ下计算的损失函数值，表示根据缓存区D中的状态和动作值在参数χ″下计算的损失函数值，当参数χ为参数θ时，根据公式(1)计算损失函数值，当参数χ为参数w时，根据公式(3)计算损失函数值。l₀范数||·||₀限制了参数χ″的值，目的是达到误差函数的全局最小值，同时||χ″||₀也有最大值。在保持成本值尽可能接近原始值的同时，找到一个好的参数子集是一个组合问题，虽然对于任何合理大小的网络都不可能精确地解决这个优化问题，但在这项工作中，研究了一类贪婪方法，从一组完整的参数χ开始，迭代地识别和删除最不重要的参数，通过在每次迭代中删除参数，我们可以确保最终满足||χ″||₀≤η，在actor网络和critic网络中，η表示参数χ″的上限，取值大于1，η可以相同或不同。

S105，利用剪枝后的DDPG模型进行动作预测，输出并执行预测动作。

实施例中，当DDPG模型中的卷积核剪枝之后，利用剩下的参数χ″更新参数χ用

来表示一组状态特征图，特征映射可以是网络的输入状态z₀，也可以是第l个卷积层的输出状态z_l，其中，k为通道数索引，也表示卷积核个数，k∈[1,2,…,C_l]，卷积层将卷积操作(*)应用于一组输入特征映射Z_l-1，其内核参数为

其中，

是将大小为P×P的每个C_l-1内核与其各自的输入特征图进行卷积并添加偏置

的结果，也引进了修剪门

一种外部开关，它决定在前馈传播过程中是否包含或修剪特定的特征图。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向深度强化学习模型的特征过滤防御方法，包括以下步骤：

(3)对预训练后的DDPG模型中的卷积核进行剪枝，利用剪枝后的DDPG模型进行动作预测，输出并执行预测动作。

2.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法，其特征在于，所述深度强化学习模型DDPG的预训练过程包括：

3.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法，其特征在于，所述自编码器包括编码器和解码器两部分；

4.如权利要求2所述的面向深度强化学习模型的特征过滤防御方法，其特征在于，采用以下公式计算编码器输入状态与解码器的输出状态的相似度KL(q(s)||p(s))：

5.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法，其特征在于，所述利用训练好的自编码器的编码器对输入状态进行特征过滤，获得过滤后的输入状态对应的特征图的过程包括：

6.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法，其特征在于，对预训练后的DDPG模型中的卷积核进行剪枝包括：

min|L(D|χ′)-L(D|χ)|s.t||χ′||₀≤η，