CN112069504A

CN112069504A - 面向深度强化学习对抗攻击的模型增强防御方法

Info

Publication number: CN112069504A
Application number: CN202010896464.0A
Authority: CN
Inventors: 陈晋音; 王雪柯; 章燕
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-11

Abstract

本发明公开了一种面向深度强化学习对抗攻击的模型增强防御方法，包括：(1)根据A3C模型，从自动驾驶场景中采集每个线程训练所需的样本数据；(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型，设定Actor损失函数和Critic损失函数；(3)针对每个线程对应的子强化学习模型，根据Actor损失函数对子Actor网络模型进行优化学习；根据Critic损失函数对子Critic网络模型进行优化学习；(4)利用子强化学习模型的参数更新A3C模型对应的主强化学习模型的参数，实现对主强化学习模型的训练，得到能够抵抗对抗攻击的主强化学习模型。

Description

面向深度强化学习对抗攻击的模型增强防御方法

技术领域

本发明属于深度学习安全领域，具体涉及一种面向深度强化学习对抗攻击的模型增强防御方法。

背景技术

人工智能的飞速发展，越来越多的领域都开始使用AI技术。强化学习是人工智能领域的一个新兴技术，受关注度就越来越高。其研究领域包括知识表示、机器感知、机器思维、机器学习、机器行为，各种领域都取得了一定成就。比如2014年Google DeepMind开发的人工智能围棋软件——阿尔法围棋(AlphaGo)，就利用了深度学习和强化学习。强化学习也是一种多学科交叉的产物，它本身是一种决策科学，所以在许多学科分支中都可以找到它的身影。强化学习应用广泛，比如：直升机特技飞行、游戏AI、投资管理、发电站控制、让机器人模仿人类行走等。

在游戏领域，为了提高用户体验，在很多场景下需要训练AI自动玩游戏，目前，游戏训练场景接受度最高的是深度强化学习。自动驾驶领域也在不断探索中，强度强化学习的出现，对其发展也是起到很大推动作用。深度强化学习模型充分利用了卷积神经网络处理大数据的能力，将场景作为输入，其输出可以使动作概率也可以是动作评价值。

然而，卷积神经网络极易受到对抗性攻击，专家学者们也提出了很多攻击方法和防御方法，目前已有的防御方法包括：(1)利用视觉预测模型和判别器及外加防御模型对强化学习模型进行防御，如申请号为CN201911184051.3公开的一种面向深度强化学习模型对抗攻击的防御方法；(2)基于强化学习的不安全跨网站脚本(XSS)防御系统识别方法，如申请号为CN201910567203.1公开的一种基于强化学习的不安全XSS防御系统识别方法。目前提出防御方法比较多的是利用强化学习做防御而不是对强化学习模型进行防御。强化学习的安全性必然会成为其发展的重要隐患因素之一。

发明内容

为了解决自动驾驶场景中，利用深度强化学习被攻击产生不准确的决策造成安全隐患的问题，本发明提供了一种面向深度强化学习对抗攻击的模型增强防御方法。

本发明的技术方案为：

一种面向深度强化学习对抗攻击的模型增强防御方法，包括以下步骤：

(1)采用A3C算法从自动驾驶场景中采集每个线程训练所需的样本数据，该样本数据包括环境状态、动作以及奖励值；

(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型，设定子Actor网络模型的Actor损失函数为公式(1)，在子Critic网络模型参数中增加噪声，并设定Critic网络模型的Critic损失函数为公式(2)；

其中，l^**为Actor损失函数，θ′是子Actor网络模型的参数，w′是子critic网络模型的参数，q是计算的长期累积奖励值，Q(s_i；w′)是在参数w′下子critic网络模型针对环境状态s_i的输出结果，π(a_i|s_i；θ′)表示在参数θ′下子Actor网络模型针对环境状态数据s_i的输出策略的概率分布，m是智能体每步执行动作时的所能选择的所有可能的动作个数；

其中，w^*是加入噪声的子critic网络模型的参数，q是计算的长期累积奖励值，Q^*(s_i,a_i；w^*)是在参数w^*下子critic网络模型针对环境状态s_i和动作a_i的输出结果，

μ是可学习的参数向量，μ∈R^q×p，ε是零均值噪声的向量，

表示按元素相乘，σ∈R^q×p是噪声系的数；

(3)针对每个线程对应的子强化学习模型，根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数；根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数；

(4)利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数，实现对主强化学习模型的训练，得到能够抵抗对抗攻击的主强化学习模型。

优选地，所述子Actor网络模型和主Actor网络模型包括依次连接的卷积层组和全连接层组，卷积层组包括至少3个依次连接的卷积层，全连接层组包括至少3个依次连接的全连接层。

优选地，所述子Critic网络模型和主Critic网络模型包括依次连接的卷积层组和全连接层组，卷积层组包括至少3个依次连接的卷积层，全连接层组包括至少3个依次连接的全连接层。

优选地，根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数时，

将环境状态s_i作为子Actor网络模型的输入，计算子Actor网络模型根据输入的环境状态s_i计算获得的策略动作a_i；

根据Actor损失函数计算Actor损失函数值，然后，按照公式(3)更新子Actor网络模型的参数；

优选地，根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数时，

将环境状态s_i和策略动作a_i作为子Critic网络模型的输入，计算子Critic网络模型根据输入的环境状态s_i和策略动作a_i计算获得的Q^*值，

根据Critic损失函数计算Critic损失函数值，然后，按照公式(4)更新子Critic网络模型的参数；

利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数包括：

在训练主强化学习模型时，针对主Actor网络模型，每隔n步从子Actor网络模型中复制参数到主Actor网络模型中，利用子Actor网络模型的参数更新主Actor网络模型的参数，直到更新步数达到预设步数停止更新；

针对主Critic网络模型，每隔n步从子Critic网络模型中复制参数到主Critic网络模型中，利用子Critic网络模型的参数更新主Critic网络模型的参数，直到更新步数达到预设步数停止更新。

应用时，从自动驾驶场景中采集环境状态数据，输入至训练好的主强化学习模型中，经计算输出决策动作。

与现有技术相比，本发明具有的有益效果至少包括：

本发明提供的面向深度强化学习对抗攻击的模型增强防御方法中，通过改进Actor损失函数和Critic损失函数来增加状态逆干扰，来提高子Actor网络模型和子Critic网络模型对干扰数据样本的鲁棒性，以此来提高子强化学习模型的预测准确性，同时采用A3模型，利用多线程的子强化学习模型参数来更新主强化学习模型参数，进一步提升了主强化学习模型的预测准确性，因此能够避免因为主强化学习模型被对抗攻击导致的安全风险，实现了对深度强化学习对抗攻击的模型增强防御。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的面向深度强化学习对抗攻击的模型增强防御方法的流程图；

图2是实施例提供的A3C模型原理图；

图3是实施例提供的AC原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

强化学习就是学习怎样根据一个环境状态去决定如何行动，使得最后的奖励最大。观察过程的状态容易被攻击者添加对抗扰动，攻击者也可直接攻击行动或奖励值以达到攻击目的。而智能体的行为受多方面的影响，因此比较有效的方法就是提高强化学习模型的鲁棒性，以防止对抗攻击。

以下实施例以基于自动驾驶场景的环境为例，增强模型鲁棒性，使小车高效的寻找最优路径并避免碰撞。其中智能体在交互式环境中与环境状态建立联系。本发明防御对象是基于深度强化学习模型的自动驾驶场景，强化学习一般以马尔科夫决策过程(MarkovDecision Process，MDP)作为形式化的手段。强化学习模型在训练过程中包含两个阶段，训观察阶段和训练阶段，观察阶段需要将当前状态s_t，行为a_t，奖励值R_t以及下一状态s_t+1保存在缓冲区D中。该过程的状态s很容易受到扰动，奖励值也会受到攻击者的恶意干扰。本发明则在训练过程中利用改进的交叉熵训练模型以增强模型鲁棒性，并通过状态逆干扰来提高模型对受干扰数据样本的鲁棒性。

如图1～图3所示，实施例提供的模型增强防御方法包括以下步骤：

步骤1，样本数据的获取。

强化学习主要是通过观察周围的环境，采取最优行动，并获得反馈，从而不断优化决策。基于A3C算法的深度强化学习最重要的是Actor网络和Critic网络的设定，而本发明防御方法与原深度强化学习的Actor网络和Critic网络无关，可以适用于任意结构的强化学习模型。

本发明的训练过程中，采用A3C模型，即子深度学习模型进行训练，然后利用子深度学习模型参数更新主深度学习模型参数。因此，在获取样本数据时，根据A3C模型，从搭建的自动驾驶场景中采集每个线程训练所需的样本数据，每个样本数据包括环境状态、动作以及奖励值组成的三元组对。

步骤2，根据基于交叉熵改进的Actor损失函数训练子Actor网络模型。

A3C算法采用了多线程的方法，将动作评论家算法(Actor-Critic，AC)放到了多个线程中进行同步训练，如图2所示，可以采用4个线程，每个线程会独立的和环境进行交互得到经验数据，这些线程之间互不干扰，独立运行。因此基于A3C算法的强化学习模型的每个子线程需要训练两个网络，即Actor网络和Critic网络。本部分给出训练Actor网络的过程。

2.1)计算策略函数。

强化学习的目标是给定马尔科夫决策过程，寻找最优策略。而策略是状态到动作的映射，策略常用符号

表示，它是指给定状态

时，动作集上的一个分布，即：

π(a|s)＝P(A_t＝a|S_t＝s)

策略

在每个状态

指定一个动作概率。如果给出的策略

是确定性的，那么策略

在每个状态

指定一个确定的动作。同时每采取一个动作就给一个奖励R。

若已知最优状态-动作值函数，最优策略可通过直接最大化

来决定。

2.2)更新Actor网络。

Actor基于概率选行为，Actor根据Critic的评分修改选行为的概率。Actor和Critic的网络模型是一样的都有两层卷积层和两层全连接层，但是Actor网络的输入时状态，输出是动作的概率。本方案设自动驾驶场景中的智能体每次执行动作时有m种选择，并根据网络模型给出的每种动作的概率执行最大概率对应的动作。

2.2.1)首先初始化神经网络参数，θ←θ₀，同时随机选择初始输入状态为s←s₀，初始步数t记为1，最大训练步数记为t_max。

2.2.2)然后，针对当前状态s₀根据神经网络输出的状态动作转移概率P(a_i|s₀)得到最大概率对应的动作a₀，并根据自动驾驶模拟场景评分机制给出当前动作的评分R₀。

2.2.3)计算基于交叉熵改进的Actor损失函数值。

为了增强模型的鲁棒性，本发明对损失函数进行交叉熵改进。Actor网络模型输出的是每种动作对应的概率值，智能体执行最大概率对应的动作。本发明通过交叉熵改进可以拉大Actor网络模型输出概率值对应动作之间的距离，降低智能体采取不好动作的概率，保证智能体每步都执行最好的动作。当模型受到攻击时会减小各动作之间的距离以迷惑智能体，但是改进交叉熵后各动作之间距离拉大，再次攻击对模型造成影响很小，模型鲁棒性增强切有一定的防御能力。进行交叉熵改进后的Actor损失函数是：

2.2.4)根据Actor损失函数值更新子Actor网络模型参数。

具体更新公式为：

其中，α和θ′是子Actor网络模型的参数，θ^**是使用交叉熵改进后模型训练得到的参数。w′是子critic网络模型的参数，q是计算的长期累积奖励值，Q是子critic网络模型的输出结果，m是智能体每步执行动作时的所能选择的所有可能的动作个数。执行动作a₀后进入下一状态s₁，同时更新步数t←t+1。

2.2.5)重复步骤2.2.3)和2.2.4)直到更新次数达到t_max。此时得到最优策略π^**(a|s)＝P(a|s)。

步骤3，根据Critic损失函数训练子Critic网络模型。

3.1)计算值函数。

当给定一个策略

时，就可以计算累积回报：

当智能体采用策略

时，累积回报服从一个分布，累积回报在状态

处的期望值为状态-值函数：

状态值函数是与策略

相对应的，这是因为策略

决定了累积回报

的状态分布。相应地，根据上式可以进一步得到状态-行为值函数计算公式为：

状态值函数与状态-行为值函数的贝尔曼方程，由状态值函数的定义式可以得到：

υ_π(s)＝E[G_t|S_t＝s]

＝E[R_t+1+γR_t+2+…|S_t＝s]

＝E[R_t+1+γ(R_t+2+γR_t+3+…)|S_t＝s]

＝E[R_t+1+γG_t|S_t＝s]

＝E[R_t+1+γυ(S_t+1)|S_t＝s]

同样可以得到状态-动作值函数的贝尔曼方程：

q_π(s,a)＝E_π[R_t+1+γq(S_t,A_t)|S_t＝s,A_t＝a]

其中，q是累积奖励值，γ是折扣因子，R_t+1是t+1时刻的奖励值，s和a分别是模型的输入状态和动作。

3.2)更新Critic网络。

Critic基于Actor的行为评判行为的得分。子Critic网络模型和子Actor网络模型一样是有三层卷积层和两层全连接层，但是子Critic网络的输入是状态和对应动作，输出是Q值。

3.2.1)首先初始化神经网络参数，w←w₀，同时选择Actor网络初始输入状态作为Critic网络的初始状态s←s₀，以及Actor选择的动作a₀作为Critic网络的初始输入动作。初始步数t记为1，最大训练步数记为t_max。

3.2.2)然后，将当前状态s₀以及动作a₀输入神经网络模型中，输出当前状态和动作对应的Q值，同时Actor网络根据该Q对当前动作进行评价并辅助更新网络参数。

3.2.3)然后需要更新Critic网络模型的参数，此处参数的更新加入了噪声，目的就是增强模型的鲁棒性，提高防御能力。使用噪声网络训练好的模型要比原模型在强化学习场景中的得分更高，而且能抵抗一定的噪声扰动。模型参数更新时需要用到损失函数，原Critic网络模型的是损失函数是：

L_loss＝(q-Q(s_i,a_i；w′))²

其中，q是长期累积奖励值，Q(s_i,a_i；w′)是预测Q值，s_i和a_i分别是模型的输入状态和动作，w′是critic网络模型的参数。加入参数噪声后参数的更新公式为：

其中，w^*是加入噪声的critic网络模型的参数，q是计算的长期累积奖励值，Q^*是critic网络模型的输出结果，s_i和a_i分别是模型的输入状态和动作。w^*表示为

其中μ是可学习的参数向量，ε是零均值噪声的向量，

表示按元素相乘。神经网络的损失函数由包含噪声ε的期望

所得到，最后对参数μ的集合进行优化。参数μ∈R^q×p，σ∈R^q×p是噪声系的数，ε∈R^q×p是随机噪声变量。当Actor网络执行动作a₀后进入下一状态s₁，同时Critic网络的输入也进行更新，输入状态仍和Actor网络模型的一致，紧接着更新步数t←t+1。

3.2.4)重复步骤3.2.3)直到更新次数达到t_max。此时得到最优策略Critic网络。

步骤4，利用子Actor网络模型和子Critic网络模型更新主深度学习模型的主Actor网络模型和主Critic网络模型。

4.1)更新主Actor网络模型

4.1.1)首先初始化神经网络参数，θ←θ₀，同时随机选择初始输入状态为s←s₀，初始步数t记为1，最大训练步数记为t_max。

4.1.2)然后，针对当前状态s₀根据神经网络输出的状态动作转移概率P(a_i|s₀)得到最大概率对应的动作a₀，并根据自动驾驶模拟场景评分机制给出当前动作的评分r₀。

4.1.3)接着进行主Actor网络模型参数的更新，该主Actor网络参数的更新是从多个子Actor网络模型中复制过来的。所以每隔n步就从Actor网络模型中复制参数直到子Actor网络模型更新步数达到t_max时时停止更新。此时训练得到最优策略π^***(a|s)。

4.2)更主Critic网络模型

该步骤更新方式与4.1)类似，首先是要初始化神经网络，并将与actor网络相同的初始状态s₀以及Actor网络的初始输出动作a₀作为Critic网络的输入。

接着进行主Critic网络模型参数的更新，该主Critic网络模型参数的更新是从多个子Critic网络模型中复制过来的。所以每隔n步就从子Critic网络模型中复制参数直到主Critic网络模型更新步数达到t_max时时停止更新。此时训练得到最优Critic网络Q^*(a|s)。

通过以上训练步骤，做种训练得到更加鲁棒的神经网络模型，并有一定的防御能力。

上述面向深度强化学习对抗攻击的模型增强防御方法中，通过改进Actor损失函数进行子Actor网络模型训练，解决了智能体误采取错误动作的问题，拉大了各个动作之间的距离，并有利于模型的收敛，解决了模型收敛困难的问题，Critic损失函数对添加噪声的子Critic网络模型进行训练提高了抗干扰能力，以此来提高子强化学习模型的预测准确性，同时采用A3模型，利用多线程的子强化学习模型参数来更新主强化学习模型参数，进一步提升了主强化学习模型的预测准确性，因此能够避免因为主强化学习模型被对抗攻击导致的安全风险，实现了对深度强化学习对抗攻击的模型增强防御。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向深度强化学习对抗攻击的模型增强防御方法，其特征在于，包括以下步骤：

(1)根据A3C模型，从自动驾驶场景中采集每个线程训练所需的样本数据，该样本数据包括环境状态、动作以及奖励值；

μ是可学习的参数向量，μ∈R^q×p，ε是零均值噪声的向量，

表示按元素相乘，σ∈R^q×p是噪声系的数；

(4)利用子强化学习模型的参数更新A3C模型对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数，实现对主强化学习模型的训练，得到能够抵抗对抗攻击的主强化学习模型。

2.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法，其特征在于，所述子Actor网络模型和主Actor网络模型包括依次连接的卷积层组和全连接层组，卷积层组包括至少3个依次连接的卷积层，全连接层组包括至少3个依次连接的全连接层。

3.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法，其特征在于，所述子Critic网络模型和主Critic网络模型包括依次连接的卷积层组和全连接层组，卷积层组包括至少3个依次连接的卷积层，全连接层组包括至少3个依次连接的全连接层。

4.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法，其特征在于，根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数时，

5.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法，其特征在于，根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数时，

6.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法，其特征在于，利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数包括：

在训练主强化学习模型时，针对主Actor网络模型，每隔n步从子Actor网络模型中复制参数到主Actor网络模型中，利用子Actor网络模型的参数更新主Actor网络模型的参数，直到更新步数达到预设步数停止更新。

7.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法，其特征在于，利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数包括：

在训练主强化学习模型时，针对主Critic网络模型，每隔n步从子Critic网络模型中复制参数到主Critic网络模型中，利用子Critic网络模型的参数更新主Critic网络模型的参数，直到更新步数达到预设步数停止更新。

8.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法，其特征在于，应用时，从自动驾驶场景中采集环境状态数据，输入至训练好的主强化学习模型中，经计算输出决策动作。