CN111753300B

CN111753300B - 面向强化学习的检测防御异常数据方法和装置

Info

Publication number: CN111753300B
Application number: CN202010608352.0A
Authority: CN
Inventors: 陈晋音; 章燕; 王雪柯; 王珏
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2024-03-19
Anticipated expiration: 2040-06-29
Also published as: CN111753300A

Abstract

本发明公开了一种面向强化学习的检测防御异常数据方法和装置，包括以下步骤：采集场景a下小车正常驾驶状态作为样本数据，对样本数据采用PCA降维处理，得到前n个特征值的累计贡献率α以及变换矩阵P；基于DDPG算法建立场景a下自动驾驶训练模型，预训练自动驾驶训练模型，将状态转换过程存入经验回放缓冲区D；采集场景a下自动驾驶训练模型训练过程中的状态s_t，利用变换矩阵P对状态s_t降维处理，计算前n个特征值的累计贡献率α’；若||α‑α’||≥∈，则判定s_t异常，向对应的奖励值r_t增加惩罚项并将更新后的状态转换过程存储在经验回放缓冲区D中；根据更新后的奖励值计算损失函数，利用损失函数更新主网络的参数。

Description

面向强化学习的检测防御异常数据方法和装置

技术领域

本发明属于强化学习的防御领域，具体涉及一种面向强化学习的检测防御异常数据方法和装置。

背景技术

强化学习是近年来人工智能备受关注的方向之一，其基本思想是通过最大化智能体从环境中获取的累计奖励，从而学习最优策略以达到学习目的。

但是，强化学习训练过程容易受到攻击，使得其训练集数据异常，影响了智能体在学习过程中对于决策的判断或者动作的选择，最终使智能体朝着失败的方向学习动作，这对于强化学习的决策安全应用领域是重大挑战。

目前，根据异常数据结构分布的特点，异常数据的检测防御方法可以大致分为两种：

第一种是对结构化数据的异常检测方法，其解决思想主要是通过与正常数据集差异较大的离群点，把离群点作为异常点。

但是这种方法一般会面临两种问题：一是需要定义一个清晰地决策边界，从而界定正常点与异常点；二是维数灾难及交叉指标计算之间的高频计算性能瓶颈。

随着研究的深入，该类异常数据检测主要通过图形位置分布、统计方法检测、距离检测、密度检测和矩阵分解检测等技术来界定正常点与异常点，以达到检测异常数据的目的。

第二种是对非结构化数据的异常检测防御方法。该方法常见于图像识别任务，通过对图像目标检测，识别出异常(故障)点，该方法主要通过数字图像处理、RCNN、YOLO等和SSD目标检测算法来实现。

强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用，随着强化学习的快速发展和应用，随之也会受到很多的对抗攻击等。同时，强化学习在安全决策领域(例如无人车驾驶场景)也存在自身决策漏洞或者受在训练过程中受到攻击的影响。

已有研究表明，通过决策中毒攻击可以通过改变训练集中的数据来使决策发生改变，从而使得智能体动作选取失误，智能体最终达不到学习目的。这种攻击对于无人驾驶等安全决策领域的应用是十分致命的。

在异常数据检测领域，面向强化学习的检测防御技术还没有很多的新进展。因此，强化学习的异常数据检测成为了安全应用领域中的重要挑战。

发明内容

本发明提供了一种面向强化学习的检测防御异常数据方法和装置，该方法和装置基于主成分分析法Principal Competent Ahalysis(PCA)对输入进行特征降维，得到前n个特征值的累计贡献率，将其与正常驾驶状态下前n个特征值的的累计贡献率进行比较，从而区分正常数据和异常数据，同时在训练过程中对异常输入得到的奖励值增加惩罚项，以达到数据异常的检测防御效果，避免在强化学习训练过程受到决策中毒攻击从而使训练数据集发生改变。

本发明解决其技术问题所采用的技术方案是：

一种面向强化学习的检测防御异常数据方法，包括以下步骤：

S1、采集场景a下小车正常驾驶状态作为样本数据，对样本数据采用PCA降维处理，得到前n个特征值的累计贡献率α以及相应的变换矩阵P；

S2、基于DDPG算法建立场景a下自动驾驶训练模型，预训练场景a下自动驾驶训练模型，将状态转换过程存入经验回放缓冲区D，所述的场景a下自动驾驶训练模型包括主网络、目标网络和经验回放缓冲区D；

S3、采集场景a下自动驾驶训练模型训练过程中的状态s_t，利用变换矩阵P对状态s_t进行降维处理，计算前n个特征值的累计贡献率α’；

S4、若||α-α’||≥∈，则判定s_t异常，向对应的奖励值r_t增加惩罚项并将更新后的状态转换过程存储在经验回放缓冲区D中，所述的ξ的取值范围为ξ＜0；

S5、根据更新后的奖励值计算损失函数，利用损失函数更新主网络的参数。

本发明还提供了一种面向强化学习的检测防御异常数据的装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现本发明所述的面向强化学习的检测防御异常数据方法。

本发明的有益效果主要表现在：

使用PCA对正常状态数据输入进行特征降维，得到变换矩阵；训练时，对输入的数据先进行降维并计算累积贡献率，正常数据和异常数据得到的累计贡献率有所差异，以此界定数据是否异常，及时检测到异常数据后，在强化学习训练过程中对异常数据得到的奖励值增加惩罚项，最终实现异常数据的防御效果。

附图说明

图1为本发明实施例提供的面向强化学习的检测防御异常数据方法的流程示意图。

图2为本发明实施例提供的PCA降维处理的原理示意图。

图3为本发明实施例提供的强化学习中DDPG算法结构的示意图。

图4为本发明实施例提供的基于PCA的数据检测防御示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

在自动驾驶训练模型的强化学习训练过程中，决策中毒攻击会导致训练过程中的状态s_t发生改变，使自动驾驶训练模型学习到一个错误的策略，从而选择一个不好的动作，使得自动驾驶训练模型学习错误。

基于此种情况，本发明所述的面向强化学习的检测防御异常数据方法通过比较训练过程中输入的状态s_t和正常行驶状态的累积贡献率，来检测状态s_t是否受到决策中毒攻击，若判定状态s_t存在异常，则在训练过程中对异常输入得到的奖励值增加惩罚项，即对得到该状态s_t的动作策略给予一定的惩罚，以保证训练效果，根据更新后的奖励值计算损失函数，利用损失函数更新主网络的参数，以达到异常数据的检测防御效果，从而增加强化学习训练过程的准确性，提高无人车自动驾驶决策的准确率，行驶的安全性。

参加图1～图4，实施例提供的一种面向强化学习的检测防御异常数据方法，包括以下步骤：

S1、采集场景a下小车正常驾驶状态作为样本数据，对样本数据采用PCA降维处理，得到前n个特征值的累计贡献率α以及相应的变换矩阵P。

S11、从训练数据存储区中采集场景a下T个时刻的小车正常驾驶状态数据x_s组成矩阵X序列作为样本数据；

S12、根据式(1)对每个小车正常驾驶状态数据x_s进行标准化处理得到y_sij：

其中，y_sij为y_s中第i行第j列的数据，x_sij为x_s中第i行第j列的数据，μ_i为第i行数据的均值，σ_j为第j行数据的标准差；

S13、根据式(2)计算协方差矩阵S，

其中，y_si是y_s矩阵中第i行数据，是y_s矩阵中第i行数据的转置；

S14、计算协方差矩阵S的特征值λ_k(k＝1，2，…，m)和对应的特征向量a_k(k＝1，2，…，m)；

S15、将特征值λ_k按照从大到小排列，λ₁≥λ₂≥…≥λ_m；选择累计贡献率大于阈值的前n个特征值对应的特征向量(a₁，…，a_n)组成m行n列的变换矩阵P，前n个特征值的累积贡献率为主成分的累计贡献率α，累计贡献率α的计算公式如式(3)所示；

或者，根据式(4)计算每个特征值的贡献率η_k，将贡献率按照从大到小排列η₁≥η₂≥…≥η_m，选择累计贡献率大于阈值的前n个特征值对应的特征向量(a₁，…，a_n)组成m行n列的变换矩阵P，前n个特征值的累积贡献率为主成分的累计贡献率α，累计贡献率α的计算公式如式(5)所示。

S2、基于DDPG算法建立场景a下自动驾驶训练模型，预训练场景a下自动驾驶训练模型，将状态转换过程存入经验回放缓冲区D，所述的场景a下自动驾驶训练模型包括主网络、目标网络和经验回放缓冲区D。

S3、采集场景a下自动驾驶训练模型训练过程中的状态s_t，利用变换矩阵P对状态s_t进行降维处理，计算前n个特征值的累计贡献率α’。

S31、采集场景a下自动驾驶训练模型训练过程中的状态s_t；

S32、根据式(6)利用变换矩阵P对状态s_t进行降维处理得到状态s_t’；

s_t’＝s_t·P (6)

S33、计算状态s_t’的特征值λ’_k(k＝1，2，…，m)，将特征值λ’_k按照从大到小排列λ’₁≥λ’₂≥…≥λ’_m，根据式(7)计算前n个特征值的累计贡献率α’；

或者根据式(8)计算每个特征值λ’_k的贡献率η’_k，将贡献率按照从大到小排列η’₁≥η’₂≥…≥η’_m，根据式(9)计算前n个特征值的累积贡献率α’。

S4、若||α-α’||≥∈，则判定s_t异常，向对应的奖励值r_t增加惩罚项并将更新后的状态转换过程存储在经验回放缓冲区D中，所述的ξ的取值范围为ξ＜0。

S51、从经验回放缓冲区D中采样小批量N个状态转换过程(s_t，a_t，r_t，s_t+1)，通过最小化损失函数来更新主网络的主价值Q网络中的参数θ^Q；

其中，a_t表示在t时刻的选择的动作，s_t表示在t时刻的状态，θ^Q为主网络的主价值Q网络的参数；Q(s_t，a_t|θ^Q)表示在主网络的主价值Q网络的参数为θ^Q，输入s_t和a_t时，主网络的主价值Q网络的预测输出Q值；

z_t＝r_t+γQ’(s_t+1，μ’(s_t+1|θ^μ’)|θ^Q’) (11)

其中，r₀是初始奖励值；γ为衰减因子，取值范围为[0，1]，s_t+1表示t+1时刻的状态，θ^μ’为目标网络的目标策略网络μ’的参数，θ^Q’为目标网络的目标价值Q网络的参数，μ’(s_t+1|θ_μ)表示参数θ_μ下，输入s_t+1时，目标策略网络的预测输出策略值；Q’(s_t+1，μ’(s_t+1|θ^μ)|θ^Q)表示θ^Q下，输入s_t+1和μ’(s_t+1|θ^μ’)时，目标价值Q网络的预测输出Q值。

S52、根据更新后的主价值Q网络中的参数θ^Q计算主网络的策略梯度，利用策略梯度来更新主网络的主策略网络的策略参数θ^μ，

其中，代表损失函数对策略参数θ^μ求导，/>代表主网络中的Q函数对策略参数θ^μ求导，/>代表主网络的策略函数对策略参数θ^μ求导。

强化学习中的DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来，采用了确定性策略μ来选取动作a_t＝μ(s_t|θ^μ)，θ^μ是产生确定性动作的策略网络μ(s，θ^μ)的策略参数，以μ(s)来充当actor，θ^Q是价值Q网络Q(s，a，θ^Q)的参数，以Q(s，a)函数来充当critic。为提高训练稳定性，同时为策略网络和价值网络引入目标网络。

通过软更新的方式更新目标网络中参数θ^Q’和θ^μ’：

θ^Q’←τθ^Q+(1-τ)θ^Q’ (14)

θ^μ′←τθμ+(1-τ)θ^μ’ (15)

其中，θ^Q’为目标网络的目标价值Q网络Q’(s，a，θ^Q’)的参数，θ^Q为主价值Q网络Q(s，a，θ^Q)的参数，τ为软更新中的超参数，取(0，1)之间的值；其中，θ^μ’为目标网络的目标策略网络μ′(s，θ^μ’)的参数，θ^μ为主策略网络μ(s，θ^μ)的策略参数。

实施例还提供了一种面向强化学习的检测防御异常数据的装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述面向强化学习的检测防御异常数据方法。

Claims

1.一种面向强化学习的检测防御异常数据方法，其特征在于，包括以下步骤：

S1、采集场景a下小车正常驾驶状态作为样本数据，对样本数据采用主成分分析PCA降维处理，得到前n个特征值的第一累计贡献率α以及相应的变换矩阵P，具体如下：

S12、根据式(1)对每个小车正常驾驶状态数据x_s进行标准化处理得到y_s：

其中，为y_s中第i行第j列的数据，/>为x_s中第i行第j列的数据，μ_i为第i行数据的均值，σ_j为第j行数据的标准差；

S13、根据式(2)计算协方差矩阵S，

其中，是y_s矩阵中第i行数据，/>是y_s矩阵中第i行数据的转置；

S14、计算协方差矩阵S的特征值λ_k和对应的特征向量a_k，k＝1,2，···,m；

S15、将特征值λ_k按照从大到小排列，λ₁≥λ₂≥···≥λ_m；选择累计贡献率大于阈值的前n个特征值对应的特征向量(a₁,···,a_n)组成m行n列的变换矩阵P，前n个特征值的累积贡献率为主成分的第一累计贡献率α，第一累计贡献率α的计算公式如式(3)所示；

或者，根据式(4)计算每个特征值的贡献率η_k，将贡献率按照从大到小排列η₁≥η₂≥···≥η_m，选择累计贡献率大于阈值的前n个特征值对应的特征向量(a₁,···,a_n)组成m行n列的变换矩阵P，前n个特征值的累积贡献率为主成分的第一累计贡献率α，第一累计贡献率α的计算公式如式(5)所示；

S3、采集场景a下自动驾驶训练模型训练过程中的状态s_t，利用变换矩阵P对状态s_t进行降维处理，计算前n个特征值的第二累计贡献率α’，

具体如下：

S31、采集场景a下自动驾驶训练模型训练过程中的状态s_t；

s_t’＝s_t·P (6)

S33、计算状态s_t’的特征值λ’_k，k＝1,2，···,m，将特征值λ’_k按照从大到小排列λ’₁≥λ’₂≥···≥λ’_m，根据式(7)计算前n个特征值的第二累计贡献率α’；

或者根据式(8)计算每个特征值λ’_k的贡献率η’_k，将贡献率按照从大到小排列η’₁≥η’₂≥···≥η’_m，根据式(9)计算前n个特征值的第二累积贡献率α’，

S4、若‖α-α’‖≥∈，则判定s_t异常，向对应的奖励值r_t增加惩罚项并将更新后的状态转换过程存储在经验回放缓冲区D中，所述的ξ的取值范围为ξ＜0；

2.根据权利要求1所述的面向强化学习的检测防御异常数据方法，其特征在于，根据更新后的奖励值计算损失函数，利用损失函数更新主网络的参数，具体如下：

S51、通过最小化损失函数更新主网络的主价值Q网络中的参数θ^Q；

S52、根据更新后的主价值Q网络中的参数θ^Q计算主网络的策略梯度，利用策略梯度来更新主网络的主策略网络的策略参数θ^μ。

3.根据权利要求1所述的面向强化学习的检测防御异常数据方法，其特征在于，步骤S15中所述的阈值≥85％。

4.根据权利要求1所述的面向强化学习的检测防御异常数据方法，其特征在于，所述的∈的取值范围为[5％，10％]。

5.根据权利要求1所述的面向强化学习的检测防御异常数据方法，其特征在于，所述的ξ的取值范围为[-80，-100]。

6.一种面向强化学习的检测防御异常数据的装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现权利要求1～5任意一项所述的面向强化学习的检测防御异常数据方法。