CN113313236A

CN113313236A - 基于时序神经通路的深度强化学习模型中毒检测方法及其装置

Info

Publication number: CN113313236A
Application number: CN202110648356.6A
Authority: CN
Inventors: 陈晋音; 王雪柯; 章燕; 胡书隆
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-27
Anticipated expiration: 2041-06-10
Also published as: CN113313236B

Abstract

本发明公开了一种基于时序神经通路的深度强化学习模型中毒检测方法及其装置，包括：定义深度强化学习的时序神经通路，并依据时序神经通过定义构建包含卷积层和池化层的第一部分、包含全连接层的第二部分的深度强化学习模型的时序神经通路，具体过程为：通过多次查找得到第一部分的Top‑c神经元，该Top‑c神经元与第二部分的所有神经元投入神经元池，依据神经元池构建深度强化学习的时序神经通路；将样本数据输入至深度强化学习模型中，利用构建的时序神经通路的反向传播生成扰动，将扰动添加到输入样本得到中毒样本；将中毒样本输入至深度强化学习模型，依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。

Description

基于时序神经通路的深度强化学习模型中毒检测方法及其装置

技术领域

本发明属于中度检测领域，具体涉及一种基于时序神经通路的深度强化学习模型中毒检测方法及其装置。

背景技术

深度强化学习(Deep Reinforcement learning,DRL)是人工智能领域的一个新的研究热点。自提出以来，在许多需要感知高维度原始输入数据和决策控制的任务中，深度强化学习方法已经取得了实质性的突破。DRL 已广泛应用于不同领域，包括游戏博弈、自动驾驶、医疗健康、金融交易、机器人控制、网络安全、计算机视觉等等。

人工智能技术在众多领域替代人类进行自主决策，但是近期研究表明，深度强化学习模型容易受到不同类型的恶意攻击，深度强化学习算法存在的安全漏洞使得深度强化学习系统的完整性、可用性和机密性受到极大威胁。随着人工智能领域的快速发展，各个领域已经将人工智能技术融入到应用层，然而人工智能的应用安全问题的需求日渐迫切。

在游戏领域，为了提高用户体验，在很多场景下需要训练AI自动玩游戏，目前，游戏训练场景接受度最高的是深度强化学习。自动驾驶领域也在不断探索中，强度强化学习的出现，对其发展也是起到很大推动作用。深度强化学习模型充分利用了卷积神经网络处理大数据的能力，将场景作为输入，其输出可以使动作概率也可以是动作评价值。然而神经网络极易受到对抗性攻击，专家学者们也提出了很多攻击方法和防御方法，目前提出防御方法比较多的是利用强化学习做防御而不是对强化学习模型进行防御。强化学习的安全性必然会成为其发展的重要隐患因素之一。

强化学习的过程就是智能体与环境不断的交互学习。最终学会根据环境状态决定执行的动作，使得最后的奖励最大。但强化学习模型训练过成中极易被恶意攻击者使用带有后门的数据对模型进行训练，从而使模型带有潜在的后门，甚至存在恶意者私自篡改模型中的参数，使模型留有后门。测试时触发样本会触发目标策略诱导智能体执行次优动作，最终影响整体决策。而这种攻击很难被发现，因此面向深度强化学习的检测防御方法有待进一步提升。

发明内容

针对目前深度强化学习模型易被中毒，并且中毒后难以检测的问题，本发明提供了一种基于时序神经通路的深度强化学习模型中毒检测方法及装置，可以通过时序神经通路上的神经元优化出近似中毒测试样本，通过近似中毒测试样本检测深度强化学习模型是否中毒。

本发明实现上述发明目的所采用的技术方案如下：

第一方面，一种基于时序神经通路的深度强化学习模型中毒检测方法，包括以下步骤；

获取深度学习样本数据；

定义深度强化学习的时序神经通路，并依据时序神经通过定义构建包含卷积层和池化层的第一部分、包含全连接层的第二部分的深度强化学习模型的时序神经通路，具体过程为：通过多次查找得到第一部分的Top-c 神经元，该Top-c神经元与第二部分的所有神经元投入神经元池，依据神经元池构建深度强化学习的时序神经通路；

将样本数据输入至深度强化学习模型中，利用构建的时序神经通路的反向传播生成扰动，将扰动添加到输入样本得到中毒样本；

将中毒样本输入至深度强化学习模型，依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。

优选地，查找第一部分的Top-c神经元的过程为：

将样本数据输入至深度强化学习中，提取第一部分的嵌入特征图，从嵌入特征图中激活值最大的Top-c神经元进行累加，构成损失函数，依据损失函数优化深度强化学习模型的网络参数，经过多次迭代，提取激活值最大的Top-c神经元以及对应的权重值投入神经元池。

优选地，依据神经元池构建深度强化学习的时序神经通路包括：依据输入样本在每个神经元的激活值，筛选激活值最大的c个神经元，构建深度强化学习的时序神经通路，此处的输入样本为中毒样本；

优选地，中毒样本的生成过程为：

利用深度强化学习的时序神经通路构建损失函数，通过对损失函数梯度上升作为扰动导向，对输入样本的像素值进行改变，得到中毒样本。

优选地，在生成中毒样本的过程中，控制原始样本和中毒样本的后续序列状态之间的神经元激活状态在阈值范围内。

第二方面，一种基于时序神经通路的深度强化学习模型中毒检测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现上述基于时序神经通路的深度强化学习模型中毒检测方法。

与现有技术相比，本发明的有益效果主要表现在：可以利用时序神经通路找出近似中毒样本，利用近似中毒测试样本检测深度强化学习模型是否中毒，该方法具有良好的适用性，能够有效的检测中毒攻击，并且不影响正常策略的执行。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是一实施例提供的基于时序神经通路的深度强化学习模型中毒检测方法的流程图；

图2是一实施例提供的DQN模型的原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本发明的技术构思为：针对深度强化学习模型在被恶意中毒后难以检测的问题，本发明实施例提供了一种基于时序神经通路的深度强化学习中毒防御方法及其装置。根据深度强化学习的学习特点，定义了针对深度强化学习模型的时序神经通路，该时序神经通路可以关联前后时刻的输入，使深度强化学习模型的中毒检测更加有效。通过特征提取层产生序列导向性样本从而构建深度强化学习模型的关键神经通路，模拟触发样本的数据流动过程。通过求取损失函数的梯度优化测试样本，使时序神经通路上的神经元激活值最大，以找出近似中毒测试样本，利用近似中毒测试样本检测深度强化学习模型是否中毒。

如图1所示，实施例提供的一种基于时序神经通路的深度强化学习中毒防御方法，包括以下步骤：

步骤1，获取深度学习样本数据，并进行预处理。

实施例中，深度强化学习模型用于游戏博弈、自动驾驶领域，采集的数据样本是周围的环境数据，其目标是依据环境户数产生决策动作。实施例中，以DQN算法为例来生成观测数据集。DQN算法模型如图2所示。强化学习主要是通过观察周围的环境，采取最优行动，并获得反馈，从而不断优化决策。从训练场景中采集N个时刻的状态、动作以及奖励值对{S,A,R}。将该数据集合作为待训练样本集。

实施例中，假设深度强化学习模型已经是中毒的，为了体现深度强化学习模型中毒检测效果，如深度强化学习模型未中毒，需要对深度强化学习模型进行中毒处理，具体过程为：测试训练好的深度强化学习模型，在测试过程中保存多条序列状态动作对；收集模型中毒方法，获取Feature embedding Attack和Trojan Attack并保存；选取中毒攻击方法并对获取的状态数据进行下毒操作，并混入到干净状态中进行模型训练，以实现对深度强化学习模型的中毒。

步骤2，定义深度强化学习的时序神经通路。

深度强化学习是智能体与环境的交互学习过程，在每个时刻智能体与环境交互得到一个高维度的观察，并利用DL方法来感知观察，以得到具体的状态特征表示；基于预期回报来评价各动作的价值函数，并通过某种策略将当前状态映射为相应的动作；环境对此动作做出反应，并得到下一个观察。通过不断循环以上过程，最终可以得到实现目标的最优策略。因为深度强化学习的过程是一个时序动态的输入模型，因此若该模型中毒，仅仅依靠离散的状态动作对查找到的神经通路无法将前后时刻的输入结合起来的，也就是说仅仅依靠离散状态动作对的时序神经通路检测模型的话忽略了中毒数据在时间上的关联性以及前后状态动作的关联性，是无法有效检测模型是否中毒的。因此时序神经通路为T时刻状态动作对(s_t,a_t)下的隐藏层激活值最大的几个神经元的激活值，在传递到T+1时刻重复测试 T时刻(s_t,a_t)之后的序列状态保持稳定后对应的隐藏层神经元上的时序神经通路。

步骤3，依据时序神经通过定义构建深度强化学习的时序神经通路。

将神经网络的前向传播过程表示为f:R^D→R^C，其中D表示输入的维度，C表示输出的维度。对于L层网络结构，以输入的某个神经元为起始节点，每层中间运算层的某个神经元为中间节点，最后输出的某个神经元为末节点，节点间串联构成一条有向无环图，这就是主要研究的第L-1级神经通路，定义为集合P_L-1＝{p_L-1(1,·,...,·)}。对集合中所有神经通路的计算构成了神经网络的前向传播过程，并且决定了最后的输出结果。由于卷积层、池化层和全连接层对于深度强化学习模型的意义不同，卷积层、池化层主要用于模拟中毒数据特征提取过程，对下层起导向作用；全连接层则是图像增加的扰动像素的直观表现形式，因此将对两部分构建神经通路。

具体构建时序神经通路的过程为：

(1)卷积层和池化层的Top-c神经元的提取和深度强化学习模型的参数优化，具体过程为：

将干净状态序列数据集S输入到预训练好的深度强化学习模型f(·)中，并计算样本在模型f(·)卷积层与池化层的嵌入特征{f_em(s_{i_0})，...，f_em(s_{i_z})}，其中s_{i_z}∈X,i＝1,2,...，z是超参数。将特征图中激活值最大的Top-c神经元进行累加，构成损失函数：

其中，λ表示平衡参数，max_c(.)表示每层激活值最大的c个嵌入特征图， s_{i_0→i_z}表示第i个状态及其之后的连续z个状态，U表示在相应状态下最终计算得到特征值，l表示神经网络的第l层。

依据损失函数优化深度强化学习模型的网络参数，经过多次迭代，提取激活值最大的Top-c神经元以及对应的权重值投入神经元池。

(2)依据神经元池构建深度强化学习的时序神经通路，具体过程为：

首先，从序列数据集中随机选取状态序列作为测试种子样本输入到深度强化学习模型中，神经通路查找整体框图如图1所示。图中神经元池即为查找到的一组神经元，对全连接层之前神经元进行查找，而全连接层的所有神经元都放到神经元池中。

然后构建整个深度强化学习模型的Top-c神经通路：设N＝{n₁,n₂,...}为深度强化学习模型的一组神经元；设T＝{s'_1-0,...,1-z,s'_2-0,...,2-z,...}为深度学习模型的一组中毒样本；设φ_i-0,...,i-z(s,n)表示一个功能函数，该函数代表在给定输入s'_i-0,...,i-z∈T，n∈N时，第i层所得到的神经元输出值，max_c(.)表示该层激活值最大的c个神经元。整个模型的Top-c神经通路定义如下：

TCPath(T,N)＝U_s'∈T,n∈N(U_1＜i＜lmax_c(φ_i(s',n)))

最终，整条通路对应损失是

其中λ是超参数，TCPath[j]是指Top-c通路中第j个神经元的值，w_j表示第j个神经元对应的权重，然后给定任一状态通过该通路反向传播复原扰动就可以还原中毒状态。

步骤4，依据时序神经通路构建中毒样本，具体包括：

实施例中，利用深度强化学习的时序神经通路构建损失函数，通过对损失函数梯度上升作为扰动导向，对输入样本的像素值进行改变，得到中毒样本，具体表示为：

s′_{i_0}＝s_{i_0}+γ*grad

其中，γ为迭代步长，s_{i_0}是第i个状态，但是状态s_{i_0}以及s′_{i_0}后续序列状态之间的神经元激活状态不能有太大偏差，要控制在阈值ζ范围之内：

Δ_feature＝|TCFeature(s′_{i_0},s_{i_1→i_z})-TCFeature(s_{i_0},s_{i_1→i_z})|≤ζ

其中s_{i_0}是第i个状态，s_{i_1→i_z}是继第i个状态之后的连续z个状态，s′_{i_0}是扰动状态，f_em(·)是状态在模型f(·)卷积层与池化层的嵌入特征。 TCFeature(·)是特征图中激活值最大的Top-c神经元进行累加结果。

步骤5，将中毒样本输入至深度强化学习模型，依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。

实施例中，构建的近似中毒状态输入到待检测的深度强化学习模型F 中，统计F对近似中毒测试状态的决策结果，找到的总Top-c通路并还原出相同目标动作的干扰状态。本发明则通过统计动作变化率证明模型是否中毒，动作变化计算公式如下：

其中，T是选择的测试状态集合，F(s′_{i_0})是在还原中毒状态s′_{i_0}下深度强化学习模型的输出动作，s_{i_0}是第i个原状态，Δ_feature是选定原状态s_{i_0}的后续序列状态以及还原中毒状态s′_{i_0}后神经元变换量，ζ是神经元变化上限阈值，若动作变化δ(T)大于α则表明深度强化学习模型被中毒，否则没被中毒。

实施例还提供了一种基于时序神经通路的深度强化学习模型中毒检测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时上述基于时序神经通路的深度强化学习模型中毒检测方法，包括以下步骤：

步骤1，获取深度学习样本数据，并进行预处理；

步骤2，定义深度强化学习的时序神经通路；

步骤3，依据时序神经通过定义构建深度强化学习的时序神经通路；

步骤4，依据时序神经通路构建中毒样本；

步骤5，步骤5，将中毒样本输入至深度强化学习模型，依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时序神经通路的深度强化学习模型中毒检测方法，其特征在于，包括以下步骤：

获取深度学习样本数据；

定义深度强化学习的时序神经通路，并依据时序神经通过定义构建包含卷积层和池化层的第一部分、包含全连接层的第二部分的深度强化学习模型的时序神经通路，具体过程为：通过多次查找得到第一部分的Top-c神经元，该Top-c神经元与第二部分的所有神经元投入神经元池，依据神经元池构建深度强化学习的时序神经通路；

2.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法，其特征在于，查找第一部分的Top-c神经元的过程为：

3.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法，其特征在于，依据神经元池构建深度强化学习的时序神经通路包括：依据输入样本在每个神经元的激活值，筛选激活值最大的c个神经元，构建深度强化学习的时序神经通路，此处的输入样本为中毒样本。

4.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法，其特征在于，中毒样本的生成过程为：

5.如权利要求1或4所述的基于时序神经通路的深度强化学习模型中毒检测方法，其特征在于，在生成中毒样本的过程中，控制原始样本和中毒样本的后续序列状态之间的神经元激活状态在阈值范围内。

6.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法，其特征在于，所述依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒包括：

通过统计动作变化率证明模型是否中毒，动作变化计算公式如下：

7.一种基于时序神经通路的深度强化学习模型中毒检测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现权利要求1～6任一项所述的基于时序神经通路的深度强化学习模型中毒检测方法。