CN114757351A

CN114757351A - 一种深度强化学习模型对抗攻击的防御方法

Info

Publication number: CN114757351A
Application number: CN202210432692.1A
Authority: CN
Inventors: 刘博涵; 刘坤; 林业茗; 曾恩; 董昭财; 曹渊; 张淇瑞; 韩冬昱; 王浩军; 夏元清
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-07-15
Anticipated expiration: 2042-04-24
Also published as: CN114757351B

Abstract

本发明公开了一种深度强化学习模型对抗攻击的防御方法，通过训练样本观测数据内部统计规律，基于所得的概率分布模型，产生与原始样本同分布的样本，使模型能抵御不同类型的对抗攻击，较之其他防御算法,本发明提供的防御方法在保证防御效果的基础上,具有更强的泛化能力和鲁棒性。此外，本发明的对抗样本是在原始样本基础上加入扰动后生成，再将对抗样本中的扰动去除重构为原始样本，因此本发明提供的防御方法更具可解释性。样本数据形成了一个从对抗攻击到防御的闭环，满足循环一致性的原则。

Description

一种深度强化学习模型对抗攻击的防御方法

技术领域

本发明属于对机器学习模型的对抗攻击的防御技术领域，具体涉及一种深度强化学习模型对抗攻击的防御方法。

背景技术

作为人工智能算法的重要分支，深度强化学习模型集成了深度学习强大的信息表征能力与强化学习对序列决策的优化能力，可以从原始的高维输入数据中提取出有效信息进行决策，实现端到端的学习。深度强化学习模型在许多复杂的实际问题中实现了应用，例如自动驾驶汽车自主导航和避障、机器人夹持操作控制、信息物理系统入侵自主检测等。然而，类似于其他连接主义模型，深度强化学习模型也存在一定的脆弱性。在应用过程中，对抗攻击会对深度强化学习模型造成潜在威胁，例如攻击者可以在原始样本中加入轻微扰动来影响智能体的决策过程，从而导致整个深度强化学习模型性能显著下降，同时模型的脆弱性进一步加剧了私有数据信息泄露等安全风险。因此，研究深度强化学习模型对抗攻击的防御问题，提高模型的防御能力和鲁棒性具有必要性和实际意义。

深度强化学习模型防御问题是针对可能存在的对抗攻击，通过设计防御方法来提高深度强化学习模型的对抗鲁棒性和可靠性，保证模型在面对攻击者恶意输入对抗样本的情况下，依然能做出正确的决策。目前，深度强化学习模型对抗攻击的防御主要使用对抗训练、鲁棒学习等方式实现。对抗训练通过不断地在训练集中添加对抗样本，从而提高模型对正常样本以外的泛化能力。鲁棒学习是训练模型在面对来自训练阶段或者测试阶段的攻击方法时提高其自身鲁棒性的学习机制，通过控制训练过程来使深度强化学习模型的智能体与攻击者达到鞍点均衡，从而增强智能体在面对干扰时的鲁棒性。

上述防御方法在特定的攻击形式下起到提高深度强化学习模型鲁棒性的作用，然而针对不同类型攻击存在局限性。同时，已有防御方法增强模型对抗鲁棒性的机制缺乏理论依据，方法的可解释性不足。此外，已有防御方法需要调整模型原有结构和参数，进一步导致算法复杂度的增大。针对以上问题，部分研究针对对抗样本的特性，通过对输入样本进行重构来去除样本中的对抗扰动，从而保证深度强化学习模型的安全性。相比于对抗训练和鲁棒学习的防御方法，该方法基于对抗样本的数据分布特性对输入样本进行处理，可以应对不同形式的对抗攻击，具有更强的泛化能力和可解释性。

MagNet是一种通过重构对抗样本来实现有效防御的方法，其利用自编码器将对抗样本转换为更接近原始样本数据分布的样本，能达到较好的防御效果。然而，由于MagNet需要大量先验知识对实际问题进行建模，在复杂的实际问题中所需的计算量往往十分庞大。然而，采用生成对抗网络的方式能够有效解决上述问题，其核心思想源于博弈论的纳什均衡，主要由生成器和判别器作为博弈的双方，博弈的双方通过对抗学习的方式来迭代训练，逼近纳什均衡。生成对抗网络基于训练样本观测数据内部统计规律，通过所得到的概率分布模型，最终生成与训练样本具有相同分布的数据。目前，生成对抗网络已经广泛应用于深度学习的攻防领域。但是，现有原始的生成对抗网络算法仍存在训练不稳定、收敛困难等问题。

发明内容

有鉴于此，本发明提供了一种深度强化学习模型对抗攻击的防御方法，通过将WGAN-GDP网络作为深度强化学习模型的附加网络，实现了对深度强化学习模型对抗攻击的防御。

本发明提供的一种深度强化学习模型对抗攻击的防御方法，包括以下步骤：

确定需要防御的深度强化学习模型作为防御目标模型；模拟攻击者采用针对状态观测的攻击方法构建攻击扰动得到对抗样本，将所述对抗样本添加到所述防御目标模型的智能体的状态观测中；基于WGAN-GDP建立附加网络；由防御目标模型的原始状态观测样本和所述对抗样本构成训练样本集，采用所述训练样本集完成附加网络的训练；将训练得到的附加网络应用到深度强化学习模型上实现对对抗攻击的防御。

进一步地，所述附加网络的生成网络包括编码子网和解码子网，所述编码子网由全局特征提取卷积块、降采样卷积块和局部特征提取卷积块组成，所述全局特征提取卷积块由卷积层和激活层组成，所述降采样卷积块由卷积层、批标准化层、随机失活层和激活层组成，所述局部特征提取卷积块由多个残差密集网络连接形成；所述解码子网由上采样卷积块、反卷积层和激活层组成。

进一步地，所述全局特征提取卷积块中的卷积层可选取具有32个步长为1的7×7过滤器的卷积层，所述降采样卷积块中的卷积层可选取具有64个步长为2的5×5过滤器的卷积层。

进一步地，所述附加网络的判别网络包括四个卷积块和全连接层，所述卷积块由卷积层、归一化层和激活层组成。

进一步地，所述判别网络的卷积块中的归一化层采用风格归一化(InstanceNormalization，IN)算法，激活层采用Leaky ReLu作为激活函数。

进一步地，所述判别网络的损失函数为：

所述生成网络的损失函数为：

其中，x表示为原始状态观测图像，其数据分布空间为P_r；z表示为添加了对抗扰动的状态观测图像，其数据分布空间为P_g；惩罚因子λ设置为10，

是对真实样本P_r与生成样本P_g之间的空间采样，D()表示判别网络，G()表示生成网络。

进一步地，所述将训练得到的附加网络应用到深度强化学习模型上实现对对抗攻击的防御，包括以下步骤：

步骤7.1、初始化深度强化学习模型智能体的状态观测s_ori，获取攻击者生成的对抗样本s_adv；

步骤7.2、将对抗样本s_adv输入到训练得到的附加网络的生成网络中，从对抗样本中编码提取重要特征，将重要特征解码成与原始样本相近的样本

步骤7.3、将得到的样本

输入深度强化学习模型的智能体中，智能体根据策略执行动作a，与环境交互获得奖励r和下一时刻的状态观测s′_ori。

进一步地，所述深度强化学习模型为采用深度Q网络建立的网络模型。

有益效果：

1、本发明考虑了深度强化学习模型遭受不同的对抗攻击的情况，通过训练样本观测数据内部统计规律，基于所得的概率分布模型，产生与原始样本同分布的样本，使模型能抵御不同类型的对抗攻击，较之其他防御算法,本发明提供的防御方法在保证防御效果的基础上,具有更强的泛化能力和鲁棒性。此外，本发明的对抗样本是在原始样本基础上加入扰动后生成，再将对抗样本中的扰动去除重构为原始样本，因此本发明提供的防御方法更具可解释性。样本数据形成了一个从对抗攻击到防御的闭环，满足循环一致性的原则。

2、本发明的附加网络的训练过程与深度强化学习模型的训练过程是解耦的，因此本发明防御方法的训练计算成本远远低于对抗训练等防御方法，同时兼顾了较好的泛化能力和实用性。同时，本发明具有较强的适应性，可以适用于不同形式的深度强化学习模型，并可在自动驾驶汽车、夹持机器人的智能视觉感知决策系统的防御问题中发挥重要的作用。

附图说明

图1为本发明提供的一种深度强化学习模型对抗攻击的防御方法的流程图。

图2为经典算法深度Q网络算法的整体框架图。

图3为深度强化学习模型受到对抗攻击后对模型性能影响的示意图。

图4为本发明提供的一种深度强化学习模型对抗攻击的防御方法的生成网络的整体结构框架图。

图5为本发明提供的一种深度强化学习模型对抗攻击的防御方法的判别网络的整体结构框架图。

图6为本发明提供的一种深度强化学习模型对抗攻击的防御方法的附加网络的训练过程示意图。

图7为本发明提供的一种深度强化学习模型对抗攻击的防御方法的附加网络训练后对对抗样本处理结果图。

具体实施方式

下面结合附图，对本发明进行详细描述。

目前，在针对深度强化学习模型的对抗攻击中，按照深度强化学习模型的不同关键环节的攻击中，针对状态观测的白盒攻击方法是一种简单高效的攻击方法，对不同的模型均有较好的攻击效果。针对状态观测白盒攻击是指攻击者能访问模型的结构和参数，在模型的状态观测中加入对抗扰动的攻击方式。

现有技术中采用生成对抗网络进行防御的方式已经被广泛应用于对深度学习模型对抗攻击的防御中，由于深度强化学习模型集成了深度学习模型和强化学习模型的特点及优势，因此，采用生成对抗网络进行防御的方式从原理上来说也同样适用于深度强化学习模型的对抗攻击防御。

基于梯度距离惩罚的Wasserstein生成对抗网络(Wasserstein GenerativeAdversarial Networks with Gradient and Distance Penalty，WGAN-GDP)是采用Wasserstein散度代替原始生成对抗网络衡量概率分布之间距离的计算方式，并在此基础上增加梯度和距离惩罚因子，解决了原始的生成对抗网络容易产生梯度消失的问题，提高了训练过程的稳定性。

因此，本发明考虑将WGAN-GDP网络作为深度强化学习的附加网络，以实现采用生成对抗网络对深度强化学习模型对抗攻击的防御。

本发明使用深度强化学习的经典算法深度Q网络(Deep Q-Network，DQN)算法建立深度强化学习模型，其输入、输出分别为图像数据和所执行动作的价值函数。在此基础上，考虑深度强化学习模型受到不同形式的对抗攻击时的防御问题。根据不同的攻击方法产生的对抗样本与正常样本之间的数据分布关系，设计附加网络对对抗样本进行处理，重构出与原始样本相似分布的数据样本。

由于WGAN-GDP具有很强的样本数据分布学习能力，本发明考虑将WGAN-GDP作为深度强化学习模型的附加网络。附加网络的主要组成部分是生成器和判别器，生成器由编码和解码两个部分构成，其中编码是对状态观测图像中重要特征进行提取，解码是将提取的重要特征还原成与原始样本近似分布的样本，而判别器则通过对生成的状态观测图像与原始状态观测图像的相似度进行判断，以高相似度为目标优化生成器的参数。附加网络通过学习未受干扰的状态观测图像的数据分布，生成满足原始样本分布的近似样本，再将生成的样本输入到深度强化学习模型中，以达到防御对抗攻击的目的。

本发明提供的一种深度强化学习模型对抗攻击的防御方法，考虑深度强化学习模型在受到针对状态观测的白盒攻击的情况下，通过对对抗样本重构，去除样本中的对抗扰动，进而提高深度强化学习模型的对抗鲁棒性。基于WGAN-GDP的深度强化学习对抗攻击的防御方法总体思路为：使用WGAN-GDP作为深度强化学习模型的附加网络。在不改变模型本身结构的前提下，通过附加网络对对抗样本进行重构，获取与原始样本分布近似分布的样本，再将该样本输入到模型中，从而起到防御效果。

本发明提供的一种深度强化学习模型对抗攻击的防御方法，如图1所示，具体包括以下步骤：

步骤1、确定需要防御的深度强化学习模型作为防御目标模型。

本发明提供的防御方法可以应用于已建立的深度强化学习模型，也可以应用于根据问题需要重新构建的深度强化学习模型。

采用现有的深度强化学习算法建立深度强化学习模型，通过从高维状态观测图像s中提取信息，并结合当前奖励r和执行动作a进行决策，实现端到端的学习。

例如，本发明使用深度强化学习经典算法深度Q网络(Deep Q-Network，DQN)算法对Atari 2600games中的PongNoFrameskip-v4游戏在Gym平台上进行训练，建立相应的深度强化学习模型。Pong是一种击球游戏，其中智能体与游戏系统控制的击球板相互博弈，一方漏球则对抗一方得一分，先获得20分的一方获胜同时一轮游戏结束。模型中智能体与环境交互获取的状态观测是4×84×84图像数据，智能体执行的动作有6种选择，即模型的输入为4通道的84×84的图像，输出为当前状态执行每个动作的动作价值函数的值。

DQN算法使用深度神经网络来替代强化学习中智能体的动作价值函数Q(s,a；θ_i)，其中θ_i是第i次迭代时Q网络的权重。在决策过程中，Q网络能自动提取特征，并采取有效的控制策略。DQN网络包括评估网络Q(s,a；θ)和目标网络Q(s,a；θ′)，其整体框架如图2所示。DQN优化策略的过程包括以下步骤：

步骤1.1、初始化经验回放池

设置目标网络Q(s,a；θ′)的参数θ′、评估网络Q(s,a；θ)的参数θ，设置奖励的折扣率γ＝0.99。

步骤1.2、初始化智能体的状态s，根据评估网络选择t时刻状态s_t的最优动作a_t＝arg max_a Q(s_t,a；θ)，智能体执行动作a_t，得到此时的奖励r_t和状态观测s_t+1，将经验(s_t,a_t,r_t,s_t+1)存入经验池

中。

步骤1.3、从经验池

中采小批量样本(s_j,a_j,r_j,s_j+1)，由目标网络计算此时回报的估计值y_j：

并且根据模型的损失函数更新评估网络的权重，损失函数L_i(θ_i)可表示为：

其中，s_t,a_t,r_t分别代表t时刻智能体的状态观测、采取的动作和对应的奖励值，s_t+1,a_t+1分别代表t+1时刻智能体的状态观测、采取的动作。除更新评估网络的权重外，在迭代一定次数后对目标网络权重进行更新θ′←θ。重复步骤1.2和步骤1.3直至模型的平均累积回报在最大值处收敛，建立深度强化学习系统模型。

步骤2、模拟攻击者采用针对状态观测的攻击方法构建攻击样本，即生成对抗扰动攻击的对抗样本，再将对抗样本添加到步骤1确定的防御目标模型的智能体的状态观测中以模拟攻击者的操作。

生成的对抗样本s′可表示为：

s′＝s+ε·f(s,a,θ) (3)

其中，ε表示对抗扰动的强度，设置为0.001，f(s,a,θ)表示攻击者根据模型的输入状态观测s、输出动作a以及网络结构参数θ所产生的对抗扰动。攻击者通过在状态观测图像上加入轻微扰动，影响智能体的决策如图3所示。针对状态观测的白盒攻击方法同样存在多种形式。

步骤3、建立附加网络。

虽然不同的白盒攻击方法产生对抗样本的方式不同，但相同的是各方法都是在访问深度强化学习模型的结构和参数后根据原始样本的数据分布生成的。本发明通过附加网络实现对对抗样本的重构以滤除样本中的攻击扰动，再将此样本输入到步骤1所确定的防御目标模型中完成对防御目标模型的训练，从而达到对防御目标模型防御的目的。

本发明采用WGAN-GDP作为附加网络实现对对抗样本的重构。WGAN-GDP由生成网络G和判别网络D构成，是一种非监督学习的方法，生成网络G的目标是将对抗样本转换成原始样本，判别网络D则是通过对生成样本和原始样本进行判别起到对生成网络G监督训练的作用。

1、生成网络G。

生成网络G的具体结构如图4所示，包括编码子网G_encode和解码子网G_decode两个部分，编码子网G_encode用于提取状态观测图像中的重要特征，解码子网G_decode用于根据提取到的重要特征将对抗样本还原成原始样本。

(1)、生成网络G的编码子网G_encode由全局特征提取卷积块、降采样卷积块和局部特征提取卷积块组成。

其中，全局特征提取卷积块由卷积层和激活层组成，卷积层可选取具有32个步长为1的7×7过滤器的卷积层。

降采样卷积块(Down-Sampling，DS)由卷积层、批标准化层、随机失活层和激活层组成，卷积层可选取具有64个步长为2的5×5过滤器的卷积层；批标准化层处理每个Batch训练数据使其满足均值为0、方差为1的正态分布，使用批标准化层不仅使训练数据分布一致，同时还能避免梯度消失；随机失活层是在训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃，进而防止过拟合，提升模型的泛化能力。

局部特征提取卷积块由多个残差密集网络(Residual dense Network，RDN)连接形成，用于提取状态观测图像的局部特征。RDN本质上是残差网络结构与密集网络结构的结合。通过紧密连接的卷积层，RDN能连接从之前的状态到当前的状态的所有层，提取出丰富的状态观测特征，进而形成连续的特征存储机制。将RDN嵌入到设计的生成网络中，使用层次特征学习全局和局部特征，能够生成更高质量的图像。

(2)、生成网络G的解码子网G_decode由上采样(Up-Sampling，UP)卷积块、反卷积层和激活层组成。具体来说，经过编码子网处理得到数据输入解码子网后先通过一个图像的上采样(Up-Sampling，UP)的卷积块，接着使用一个步长为1的7×7滤波器的反卷积层，将提取出的状态观测特征重建成与原始样本近似的状态观测图像。

对抗样本是在原始样本的基础上所产生的，而本发明设计的防御方法又将产生的对抗样本还原成原始样本，这个循环的过程增加了防御算法的可解释性。

2、判别网络D。

判别网络D的具体结构如图5所示，包括四个卷积块和全连接层。具体来说，对抗样本输入到判别网络中后首先通过四层卷积层对状态观测图像信息进行特征提取，然后连接全连接层，由全连接层将提取出的特征进行加权输出生成样本与真实样本的相似程度，通过得到的相似度反馈给生成网络G进行更新。判别网络中的每个卷积块由卷积层、归一化层和激活层组成。

进一步地，由于状态观测图像转换主要依据于某张具体的状态观测图像，所以对整个数据集样本进行归一化会影响状态观测图像的分布情况不利于图像的重构，如果采用风格归一化(Instance Normalization，IN)对像素做归一化处理，则可在加快模型收敛速度的同时，保持每张状态观测图像之间的独立。因此，本发明中，判别网络中每个卷积块的归一化层采用图像风格迁移的风格归一化，激活层采用Leaky ReLu作为激活函数，且LeakyReLu在ReLu函数的负半区引入一个泄露值a＝0.2，表达式为：

使用Leaky ReLu作为激活函数使神经元输出值为负数时也能更新参数，避免无法被激活。

进一步地，在生成网络与判别网络相互对抗训练之前，对网络的损失函数和优化器进行设置。WGAN-GDP中的损失函数取消了原始生成对抗网络中绝对值取对数的操作，并且为了避免梯度爆炸或梯度消失，使训练更易于收敛，需要对梯度进行约束，进而引入梯度惩罚(Gradient Penalty，GP)函数。因此，判别网络的损失函数L(D)可以表示为：

其中，x表示为原始状态观测图像，其数据分布空间为P_r，z表示为添加了对抗扰动的状态观测图像，其数据分布空间为P_g，惩罚因子λ设置为10，

是对真实样本P_r与生成样本P_g之间的空间采样。在判别网络的损失函数加入GP是为了尽可能加大真假样本的差距，以便对生成网络进行更好的训练。

进一步地，由于WGAN-GP方法中没有利用原始状态观测图像与生成图像的联合分布的信息，在判别网络优化超过了一定的限度后，生成网络的损失函数会变成两个图像的JS散度(Jensen-Shannon Divergence，JSD)。此时会导致损失函数的梯度消失，生成网络无法进一步训练。由于对抗样本是在原始样本上生成的，生成样本又是对对抗样本进行处理后产生的，原始样本和生成样本存在一定的对应关系，可利用两者的联合分布在生成网络损失函数中加入两种样本分布的距离。通过不断的迭代优化，来减小生成网络的损失函数，从而生成更接近原始样本的状态观测图像。因此，添加距离因子后的生成网络的损失函数L(G)可以表示为：

判别网络D的输出表示生成网络对对抗样本处理后的样本与原始样本的相似度，固定判别网络参数对生成网络监督训练时，如果判别网络对生成网络生成的样本判别值低即生成的状态观测图像不满足要求，则督促生成网络提取对抗样本中影响智能体决策的有效特征，生成与真实样本近似分布的样本。

步骤4、采用由原始状态观测样本及对抗样本构成数据集作为训练样本集，通过生成网络G与判别网络D对抗训练，完成附加网络的训练。

具体来说，生成网络G的输入为对抗样本，对生成网络进行训练，使用梯度下降法以减小原始样本和生成样本的重构误差，生成与原始样本分布更接近的状态观测图像，生成网络G的输出为处理后生成的与原始样本近似分布的样本；判别网络D的输入为生成网络G输出的样本及原始的状态观测图像、输出为生成图像与真实图像的相似度。

例如，深度强化学习模型中智能体与环境交互获取的状态观测s是4×84×84图像数据。生成网络G的输入为在智能体的状态观测图像s加入对抗扰动形成的对抗样本s′，输出为处理后生成的与原始样本近似分布的样本。判别网络D的输入为处理后的样本与原始的状态观测图像，输出为生成图像与真实图像的相似度。将原始状态观测样本与攻击者通过状态观测白盒攻击产生的对抗样本作为WGAN-GDP的训练集，设置网络的训练参数，每批训练的样本大小batchsize＝8，所有样本重复训练的轮数epoch＝500。网络参数的更新都使用Adam优化器进行优化，优化器的优化过程为：

其中，θ_t为WGAN-GDP中需要更新的网络参数，g_t为t时刻模型f_t(θ_t-1)的梯度，m_t、v_t分别为t时刻的有偏一阶矩估计和有偏二阶矩估计，

分别为t时刻修正一阶矩的偏差值和修正二阶矩的偏差值，β₁、β₂为矩估计的指数衰减速率，分别设置为0.9、0.999，学习率α设置为0.0002。生成网络和判别网络之间进行交替迭代训练即固定一个网络参数对另外一个网络参数进行更新。最终，WGAN-GDP通过学习原始样本的分布，将对抗样本转换成与原始样本相似分布的样本如图7所示，图中附加网络学习了原始样本的分布情况，将对抗扰动转移至原始样本分布处，以消除对抗扰动对模型性能的影响。将处理后的样本输入到深度强化学习模型中以达到保障数据安全性和提高整体模型对抗鲁棒性的作用。

步骤5、将训练好的附加网络WGAN-GDP应用到深度强化学习模型上实现对对抗攻击的防御。具体步骤包括：

步骤5.1、初始化深度强化学习模型智能体的状态观测s_ori，攻击者根据原始的状态观测s_ori生成对抗样本s_adv＝Attack(s_ori)。

步骤5.2、将对抗样本s_adv输入到WGAN-GDP训练好的生成网络中，从对抗样本s_adv中编码提取重要特征z＝G_encode(s_adv)，将提取的重要特征解码成与原始样本相近的样本

从而消除对抗扰动对智能体决策的影响。

步骤5.3、将生成的状态观测图像

输入到深度强化学习模型智能体中，智能体根据策略执行动作a，与环境交互获得奖励r和下一时刻的状态观测s′_ori。

当深度强化学习模型为DQN时，将训练好的WGAN-GDP作为DQN模型的附加网络对对抗样本进行处理，将对抗扰动转移至原始样本分布处，使原有模型对于对抗攻击具有较强的防御能力。由于防御方法通过学习对抗样本的数据分布对样本进行处理，对不同类型的攻击方法都具有较强的防御能力。此外，防御方法的训练过程与深度强化学习智能体的训练过程是解耦的，因此它可以应用于任何一种算法而无需额外的训练过程，具有较好的泛化能力。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种深度强化学习模型对抗攻击的防御方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的防御方法，其特征在于，所述附加网络的生成网络包括编码子网和解码子网，所述编码子网由全局特征提取卷积块、降采样卷积块和局部特征提取卷积块组成，所述全局特征提取卷积块由卷积层和激活层组成，所述降采样卷积块由卷积层、批标准化层、随机失活层和激活层组成，所述局部特征提取卷积块由多个残差密集网络连接形成；所述解码子网由上采样卷积块、反卷积层和激活层组成。

3.根据权利要求2所述的防御方法，其特征在于，所述全局特征提取卷积块中的卷积层可选取具有32个步长为1的7×7过滤器的卷积层，所述降采样卷积块中的卷积层可选取具有64个步长为2的5×5过滤器的卷积层。

4.根据权利要求1所述的防御方法，其特征在于，所述附加网络的判别网络包括四个卷积块和全连接层，所述卷积块由卷积层、归一化层和激活层组成。

5.根据权利要求4所述的防御方法，其特征在于，所述判别网络的卷积块中的归一化层采用风格归一化(Instance Normalization，IN)算法，激活层采用Leaky ReLu作为激活函数。

6.根据权利要求4所述的防御方法，其特征在于，所述判别网络的损失函数为：

所述生成网络的损失函数为：

7.根据权利要求1所述的防御方法，其特征在于，所述将训练得到的附加网络应用到深度强化学习模型上实现对对抗攻击的防御，包括以下步骤：

步骤7.3、将得到的样本

8.根据权利要求1所述的防御方法，其特征在于，所述深度强化学习模型为采用深度Q网络建立的网络模型。