CN111310915A

CN111310915A - 一种面向强化学习的数据异常检测防御方法

Info

Publication number: CN111310915A
Application number: CN202010071877.5A
Authority: CN
Inventors: 陈晋音; 章燕; 王雪柯
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-19
Anticipated expiration: 2040-01-21
Also published as: CN111310915B

Abstract

本发明公开了一种面向强化学习的异常数据检测防御方法，包括：(1)搭建小车自动驾驶环境，并基于根据小车自动驾驶环境提供的状态数据，采用深度确定性策略梯度算法进行强化学习，生成驾驶状态数据作为训练样本；(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络；(3)采集的驾驶状态数据，利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据；(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常，当下一刻的真实驾驶状态数据异常，预测驾驶状态数据正常，利用预测驾驶状态数据替换真实驾驶状态数据。

Description

一种面向强化学习的数据异常检测防御方法

技术领域

本发明属于面向强化学习的防御领域，具体涉及一种面向强化学习的异常数据检测防御方法。

背景技术

强化学习是近年来人工智能备受关注的方向之一，其基本思想是通过最大化智能体从环境中获取的累计奖励，从而学习最优策略以达到学习目的。但是，强化学习训练过程容易受到攻击，使得其训练集数据异常，影响了智能体在学习过程中对于决策的判断或者动作的选择，最终使智能体朝着失败的方向学习动作，这对于强化学习的决策安全应用领域是重大挑战。

目前，根据异常数据结构分布的特点，异常数据的检测防御方法可以大致分为两种。一种是对结构化数据的异常检测方法，其解决思想主要是通过与正常数据集差异较大的离群点，把离群点作为异常点。但是这种方法一般会面临两种问题：一是需要定义一个清晰地决策边界，从而界定正常点与异常点；二是维数灾难及交叉指标计算之间的高频计算性能瓶颈。随着研究的深入，该类异常数据检测主要通过图形位置分布、统计方法检测、距离检测、密度检测和矩阵分解检测等技术来界定正常点与异常点，以达到检测异常数据的目的。第二种是对非结构化数据的异常检测防御方法。该方法常见于图像识别任务，通过对图像目标检测，识别出异常(故障)点，该方法主要通过数字图像处理、RCNN、YOLO等和SSD目标检测算法来实现。

随着强化学习的快速发展和应用，强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。在异常数据检测领域，面向强化学习的检测防御技术还没有很多的新进展。因此，强化学习的异常数据检测成为了安全应用领域中的重要挑战。已有研究表明，通过决策中毒攻击可以通过改变训练集中的奖励来使决策发生改变，从而使训练集中的策略中毒，动作选取失误，最终使智能体达不到学习目的。这种攻击对于无人驾驶等安全决策领域的应用是十分致命的。

发明内容

本发明基于这种中毒攻击场景，提出了一种面向强化学习的异常数据检测防御方法。该防御方法基于双向生成式对抗网络(Generative Adversaria Networks，GAN)进行异常数据检测，通过比较正常数据样本和观测到的数据样本分布情况，来界定正常数据和异常数据，以达到异常数据检测的效果。

本发明的技术方案为：

一种面向强化学习的异常数据检测防御方法，包括以下步骤：

(1)搭建小车自动驾驶环境，并基于根据小车自动驾驶环境提供的状态数据，采用深度确定性策略梯度算法(Deep Deterministic Policy Gradient，DDPG)进行强化学习，生成驾驶状态数据作为训练样本；

(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络；

(3)采集驾驶状态数据，利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据；

(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常，当下一刻的真实驾驶状态数据异常，预测驾驶状态数据正常，利用预测驾驶状态数据替换真实驾驶状态数据。

优选地，所述采用深度确定性策略梯度算法进行强化学习生成驾驶状态数据包括：

利用主网络的主策略网络基于当前时刻的驾驶状态数据s_t产生动作a_t，并利用主网络的主价值Q网络计算动作a_t的奖励值r_t，并将当前时刻的驾驶状态数据s_t、动作a_t、奖励值r_t以及下一时刻的驾驶状态数据s_t+1存储到缓冲区内；

利用目标网络的目标价值Q网络根据缓冲区的奖励值r_t和驾驶状态数据s_t+1计算累积奖励值r，根据奖励值和累积奖励值计算损失函数，利用损失函数更新主价值Q网络的参数；

根据参数更新后的主价值Q网络计算的动作a_t的更新价值和主策略网络产生的动作变化值计算累计奖励函数的梯度，利用该梯度来更新主策略网络的参数；

根据主策略网络参数和主价值Q网络参数采用软更新方式更新目标策略网络参数和目标价值Q网络参数。

优选地，所述生成器用于根据当前时刻的驾驶状态数据生成下一时刻的预测驾驶状态数据，所述生成器包括：生成器网络模型使用3层卷积神经网络结构作为隐层，隐层中使用批标准化(batch normalization)，使用ReLU作为激活函数，最后一层使用tanh激活函数，生成器模型优化器使用Adam优化器。

优选地，所述判别器是一个二分类判别器，用于判别下一时刻的预测驾驶状态数据和下一时刻的真实驾驶状态数据的真伪。

步骤(4)中，若所述判别器的输出表示其来自于真实驾驶状态数据，则表明预测驾驶状态数据和真实驾驶状态数据相似，该真实驾驶状态数据有效。

步骤(4)中，若所述判别器的输出表示其来自于生成器输出的预测驾驶状态数据，则表明预测驾驶状态数据异于真实驾驶状态数据，则认为真实驾驶状态数据脱离之前的预测驾驶状态数据分布，则将该真实驾驶状态数据作为异常数据点处理，利用预测驾驶状态数据取代真实驾驶状态数据。

与现有技术相比，本发明具有的有益效果为：

通过GAN网络可以检测出正常状态数据样本的分布情况；在强化学习过程中，可以利用训练好的GAN网络针对当前状态数据生成下一个时刻的预测驾驶状态数据，该预测驾驶状态数据与真实驾驶状态数据分布相接近，将其和观测到的下一时刻真实驾驶状态数据进行判别来界定观测到的数据是否异常，该过程在训练过程就可实行，可及时替换掉异常状态数据。实现了对异常数据检测的防御。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的面向强化学习的异常数据检测防御方法的流程图；

图2是本发明实施例提供的GAN网络的工作示意图；

图3是本发明实施例提供的利用训练好的GAN网络进行异常数据检测防御的工作流程图；

图4是本发明实施例提供的深度确定性策略梯度算法的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

参加图1～图4，实施例提供的一种面向强化学习的异常数据检测防御方法，包括以下步骤：

S101，搭建小车自动驾驶环境，并基于根据小车自动驾驶环境提供的状态数据，采用深度确定性策略梯度算法进行强化学习，生成驾驶状态数据作为训练样本。

搭建强化学习小车自动驾驶模拟环境；基于强化学习中的深度确定性决策梯度算法(DDPG)训练小车Player，Player的目标是尽可能快地安全到达目的地。

训练过程中，将状态转换过程(状态、动作、奖励、下一个状态)存储在经验回放缓冲区D中，作为训练数据集；从D中采样N个训练数据集，通过最小化实际累积的奖励函数和动作值Q函数之间的损失函数来更新主网络的主价值Q网路的网络参数；通过计算动作值函数的梯度来更新主网络的主策略网络的策略参数；通过软更新的方式来更新目标网络参数。

强化学习中的DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来，采用了确定性策略μ来选取动作a_t＝μ(s_t|θ^μ)，其中a_t表示在t时刻的选择的动作，s_t表示在t时刻的状态，θ^μ是产生确定性动作的策略网络μ(s,θ^μ)的参数，以μ(s)来充当actor，θ^Q是价值Q网络Q(s,a,θ^Q)的参数，以Q(s,a)函数来充当critic。为提高训练稳定性，同时为策略网络和价值网络引入目标网络。其算法步骤如下：

(a)根据当前策略和探索噪声N_t(高斯分布)选择动作a_t＝μ(s_t|θ^μ)+N_t，执行该动作a_t后，获取奖励r_t和下一个状态s_t+1，将状态转换过程(s_t,a_t,r_t,s_t+1)存到经验回放缓冲区D中；

(b)从D中采样小批量N个状态转换过程(s_i,a_i,r_i,s_i+1)，通过最小化损失函数来更新价值网络中的的参数θ^Q：

其中y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)，Q^μ(s_i,a_i)＝E[r(s_i,a_i)+γQ^μ(s_i+1,μ(s_i+1))]，γ为衰减因子，取[0,1]之间的值。

(c)通过计算预期的累计奖励函数的梯度来更新策略网络中的策略参数θ^μ：

(d)通过软更新的方式更新目标网络中目标价值Q网路和目标策略网络的参数θ^Q′和θ^μ′：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

S102，利用所述训练样本训练由生成器和判别器组成的生成式对抗网络。

从训练数据集中采集T个时刻正常的小车驾驶状态

作为样本数据；

GAN的目的是使生成数据与目标数据分布(训练集数据所代表的的分布)，其中判别器D可以当作一个二分类器，采用交叉熵来表示：

其中minmax表示纳什均衡中的最大最小目标函数，p_data(x_s)为来自样本数据的分布，第一项中的logD(x)表示判别器对真实数据的判断，第二项log(1-D(x))则表示对生成数据的判断通过这样一个最大最小博弈过程，循环交替优化G和D来训练所需要的生成式网络和判别式网络，直至达到纳什均衡点。

具体的训练过程为：

2.1)将样本数据按一定的比例分为训练集和测试集；

2.2)将训练集中的正常小车驾驶状态数据分布x_s输入到生成器G，生成器输出为下一时刻的状态数据x′_s′；

2.3)将步骤2.2)的输出x′_s′和训练集中下一时刻的真实正常状态x_s′输入到判别器D中；用判别器的输出y来判别其数据是来自于真实数据的概率，从而检验生成器的输出是否合格；

2.4)重复步骤2.2)-2.3)，直到生成器生成的数据样本符合判别器的要求为止；

2.5)用测试集中的数据重复步骤2.2)-2.3)，检测生成式对抗网络(GAN)是否能正确生成预测状态数据。

S103，采集驾驶状态数据，利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据。利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常，当下一刻的真实驾驶状态数据异常，预测驾驶状态数据正常，利用预测驾驶状态数据替换真实驾驶状态数据。

具体过程为：

3.1)将T时刻数据集中的状态数据

作为生成器的输入，利用训练好的GAN模型输出T+1时刻的预测状态数据

该状态数据与之前的正常样本数据分布相似。

3.2)将T+1时刻的预测状态数据

与T+1时刻强化学习过程中观测到的状态数据

输入到判别器D中，检验判别器的输出y：

若判别器的输出表示其来自于真实状态数据，则表明预测状态数据

和真实状态数据

相似，即T+1时刻观测到的状态数据

与之前的正常样本数据分布相似，该数据

有效。

若判别器的输出表示其来自于生成器的输出数据，则表明预测状态数据

异于真实状态数据

即t+1时刻观测到的状态数据

脱离之前的正常样本数据分布，则将该数据

作为异常数据点处理，预测状态数据

取代

作为t+1时刻的状态数据存入训练数据集中；

3.3)重复步骤3.1)3.2)，依次类推，继续检测T+2,T+3,...时刻的状态数据，直至将所有基于策略生成的状态数据检测完全。

上述异常数据检测防御方法在模拟小车自动驾驶的强化学习训练过程中，基于策略中毒的攻击方法会使学习者学习到一个错误的策略，从而选择一个不好的动作，使得学习者学习错误。基于此种情况，使用GAN来检测数据集中的状态数据是否异常。首先，利用正常的状态数据训练GAN网络，基于当前状态数据生成下一时刻的预测状态数据，与强化学习过程中下一时刻真实状态数据进行判别，检测该真实数据是否与之前的正常样本数据分布相似，以此来界定该数据是否异常。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向强化学习的异常数据检测防御方法，其特征在于，包括以下步骤：

(1)搭建小车自动驾驶环境，并基于根据小车自动驾驶环境提供的状态数据，采用深度确定性策略梯度算法进行强化学习，生成驾驶状态数据作为训练样本；

2.如权利要求1所述的面向强化学习的异常数据检测防御方法，其特征在于，所述采用深度确定性策略梯度算法进行强化学习生成驾驶状态数据包括：

3.如权利要求1所述的面向强化学习的异常数据检测防御方法，其特征在于，所述生成器用于根据当前时刻的驾驶状态数据生成下一时刻的预测驾驶状态数据，所述生成器包括：生成器网络模型使用3层卷积神经网络结构作为隐层，隐层中使用批标准化，使用ReLU作为激活函数，最后一层使用tanh激活函数，生成器模型优化器使用Adam优化器。

4.如权利要求1所述的面向强化学习的异常数据检测防御方法，其特征在于，所述判别器是一个二分类判别器，用于判别下一时刻的预测驾驶状态数据和下一时刻的真实驾驶状态数据的真伪。

5.如权利要求1所述的面向强化学习的异常数据检测防御方法，其特征在于，步骤(4)中，若所述判别器的输出表示其来自于真实驾驶状态数据，则表明预测驾驶状态数据和真实驾驶状态数据相似，该真实驾驶状态数据有效。

6.如权利要求1所述的面向强化学习的异常数据检测防御方法，其特征在于，步骤(4)中，若所述判别器的输出表示其来自于生成器输出的预测驾驶状态数据，则表明预测驾驶状态数据异于真实驾驶状态数据，则认为真实驾驶状态数据脱离之前的预测驾驶状态数据分布，则将该真实驾驶状态数据作为异常数据点处理，利用预测驾驶状态数据取代真实驾驶状态数据。