CN113298252A

CN113298252A - 一种面向深度强化学习的策略异常检测方法和装置

Info

Publication number: CN113298252A
Application number: CN202110598324.XA
Authority: CN
Inventors: 陈晋音; 胡书隆; 章燕; 王雪柯
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-24
Anticipated expiration: 2041-05-31
Also published as: CN113298252B

Abstract

本发明公开了一种面向深度强化学习的策略异常检测方法和装置，包括：利用采集的状态样本对DDPG网络进行强化学习；构建包含行动者网络和判别器的模仿学习网络，利用采集的状态样本和专家状态动作对对模仿学习网络进行训练；利用参数优化的DDPG网络基于输入的状态样本生成状态动作对，利用参数优化的判别器对状态动作对进行判别，当判别结果为1时，认为动作未受到攻击；当判别结果为0时，认为状动作存在异常；当动作存在异常时，且动作幅度差异在阈值范围外，说明动作受到攻击，利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对，以指导DDPG网络在后续阶段的强化学习过程中做出正确决策。

Description

一种面向深度强化学习的策略异常检测方法和装置

技术领域

本发明属于深度强化学习的安全防御领域，具体涉及一种面向深度强化学习的策略异常检测方法和装置。

背景技术

伴随着人工智能技术的不断发展，深度强化学习(Deep ReinforcementLearning，DRL)方法自提出以来就一直受到广大专家学者的重视与青睐。在在自动驾驶、机器人控制、游戏博弈、医疗健康等领域都有了深入的发展并被广泛应用。作为人工智能领域不可或缺的一种重要技术，DRL的方法也在不断地被扩充。RL是DRL中关键的一环，其核心是代理通过不断最大化回报奖励从而得到一个相对较优的策略。但相关研究表明智能体在策略执行阶段容易受到对抗攻击，攻击者对智能体将要执行动作时修改其动作值，会对智能体接下来的动作分布产生较大的偏差，从而导致其向一个错误甚至危险方向运动，最终导致智能体学习失败，在强化学习的决策安全领域这是一个不容忽视的挑战。尤其在自动驾驶场景下是十分致命的。

基于此，对深度强化学习的异常策略检测十分重要，现如今检测异常策略的方法主要有以下两种：基于元学习的对抗检测和基于预测模型的对抗检测。这两种方法都属于对抗样本与正常样本的甄别方法，在不破坏模型本身参数的前提下，再对对抗样本进行处理。

基于元学习的对抗检测方法采用了一种监督机制，主导智能体的主要作用是监视对应的子策略，根据一段时间内子策略所获得的累积回报奖励值来判定是否执行子策略。因为主智能体对相应的子策略事先已经设定好了对应的预期阈值，当决策动作受到对抗攻击，主智能体就能立马感知到并马上更换当前的子策略。基于预测模型的对抗检测方法基于动作条件帧预测模型，对抗样本的确定是根据目标策略对应的预测帧与现实帧之间动作分布的差异，若现实帧被确定为对抗样本，则智能体就会自动选择预测帧来取代现实帧作为输入并执行相应的动作。

以上两种异常策略检测方法检测效果不佳，迫切地需要一种效果更好的异常策略检测方法。

发明内容

鉴于上述，本发明的目的是提供一种面向深度强化学习的策略异常检测方法和装置，实现对深度强化学习策略的异常检测。

第一方面，一种面向深度强化学习的策略异常检测方法，包括以下步骤：

构建自动驾驶场景，利用自动驾驶场景采集的状态样本对DDPG网络进行强化学习，优化DDPG网络的参数；

构建包含行动者网络和判别器的模仿学习网络，利用自动驾驶场景采集的状态样本和专家状态动作对对模仿学习网络进行训练，优化行动者网络和判别器的参数；

利用参数优化的DDPG网络基于输入的状态样本生成动作，形成状态动作对，利用参数优化的判别器对状态动作对进行判别，当判别结果为1时，认为状态动作对中的动作未受到攻击，当判别结果为0时，认为状态动作对中的动作存在异常；

当状态动作对中的动作存在异常时，且动作幅度差异在阈值范围外，说明动作受到攻击，利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对，利用模仿学习网络生成的状态动作指导DDPG网络在后续阶段的强化学习过程中做出正确决策。

优选地，当状态动作对中的动作存在异常时，且动作幅度差异在阈值范围内，则认为是系统误差生成的物理扰动，不进行状态动作对的替换。

优选地，所述动作幅度差异为DDPG网络生成的动作与专家动作之间的差异。

优选地，所述阈值范围为±5°。

优选地，利用自动驾驶场景采集的状态样本和专家样本对模仿学习网络进行训练时，将状态样本输入至行动者网络，生成状态动作对，并计算状态动作对的第一奖励函数值，同时计算专家状态动作对的第二奖励函数值，以第第二奖励函数值大于第一奖励函数值为目标，不断寻找奖励函数，并利用奖励函数更新行动者网络的参数；

将行动者网络生成的状态动作对和专家状态动作对输入至判别器，通尽可能多地利用专家状态动作对，减少利用状态动作对，来更新判别器的参数，通过判别器的输出来判定状态动作对是否无限接近专家状态动作对，当判别器的输出为0时，表明判别器训练结束。

第二方面，实施例提供的一种面向深度强化学习的策略异常检测装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，所述处理器执行计算机程序时实现第一方面所述的面向深度强化学习的策略异常检测方法。

上述实施例提供的面向深度强化学习的策略异常检测方法具有的有益效果至少包括：通过模仿学习网络模型可以生成一个比较好的状态动作分布；强化学习过程生成的状态动作分布可以利用模仿学习中训练好的判别器网络来检测其动作是否受到对抗攻击；检测到对抗攻击后可以直接用通过模仿学习生成的较优样本与之进行替换；4)该过程在检测阶段实时性强，可行性高，在某种程度上可以尽量避免对抗攻击所造成的严重损失。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是一实施例提供的面向深度强化学习的策略异常检测方法的流程图；

图2是一实施例提供的DDPG网络的训练过程示意图；

图3是一实施例提供的行动者网络的训练过程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

针对例如自动驾驶决策场景等强化学习安全决策领域，由于其本身也可能存在未检测到的决策漏洞，并且也容易受到对抗攻击的影响，导致的安全隐患的问题。尤其是智能车在自动驾驶过程中，在动作执行阶段容易受到对抗攻击，这可能使智能体朝一个错误甚至危险的方向运动。鉴于此，实施例提供了一种面向深度强化学习的策略异常检测方法和装置，以区分正常策略和异常策略。主要的技术构思为：首先通过模仿学习生成与之前训练好的专家样本无限接近的状态动作对，再将通过强化学习生成的状态动作对输入模仿学习网络中训练好的判别器进行判别，检测所生成的状态动作分布与通过模仿学习训练生成的状态动作分布是否相似，若不相似，则再进行替换。

图1是一实施例提供的面向深度强化学习的策略异常检测方法的流程图。如图1所示，实施例提供的策略异常检测方法，包括以下步骤：

步骤1，构建自动驾驶场景，利用自动驾驶场景采集的状态样本对DDPG网络进行强化学习，优化DDPG网络的参数。

深度确定性决策梯度算法DDPG，顾名思义是由AC(Actor-Critic)算法，DQN(DeepQ-Network)以及DPG(Deterministic policy gradient)确定性策略梯度算法演变而来。如图2所示，在DDPG算法中，将Q(s,a|θ^Q)视为critic网络，将μ(s|θ^μ)当做actor网络，其中的θ^Q和θ^μ分别为critic和actor的网络参数。智能体在t时刻选取的动作a_t＝μ(s_t|θ^μ)由确定性策略μ来选取，其中s_t表示智能体在t时刻的状态。与传统的DQN不同的是，传统的DQN采用的是一种被称为'hard'模式的target-net网络参数更新，即每隔一定的步数就将evaluate-net(估计网络)中的网络参数赋值给target-net(目标网络)，而在DDPG中，为了提高学习的稳定性，所采用的是一种'soft'模式的target-net网络参数更新，即每一步都只对target-net网络的参数更新一小部分。

DDPG网络的训练过程为：

(a)根据当前的策略和探索噪声N_t(高斯分布)选择动作a_t＝μ(s_t|θ^μ)+N_t，执行该动作a_t后，获取奖励s_t和下一个状态s_t+1，将状态转换过程(s_t,a_t,r_t,s_t+1)存放至经验回放池R中；

(b)从R中随机采样小批量N个状态的转换过程(s_i,a_i,r_i,s_i+1)，通过最小化损失函数来更新价值网络中的的参数θ^Q：

设定y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)，Q^μ(s_i,a_i)＝E[r(s_i,a_i)+γQ^μ(s_i+1,μ(s_i+1))]，其中γ为衰减因子，γ∈[0,1]。

(c)通过计算预期的累计奖励函数的梯度来更新策略网络中的策略参数θ^μ：

(d)通过软更新的方式更新目标网络中参数θ^Q′和θ^μ′：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

基于DDPG网络的强化学习过程中，先搭建好智能车基于强化学习的模拟驾驶环境；收集的当前T时刻的状态样本{s₁、s₂、s₃...s_T}输入已提前训练好的基于强化学习的DDPG网络；通过DDPG网络生成对应的状态动作对τ'＝{(s₁,a₁')、(s₁,a'₂)、(s₃,a'₃)...(s₃,a'_T)}。

步骤2，构建包含行动者网络和判别器的模仿学习网络，利用自动驾驶场景采集的状态样本和专家状态动作对对模仿学习网络进行训练，优化行动者网络和判别器的参数。

实施例中，模仿学习网络包含行动者网络(actor网络)和判别器，模仿学习网络中的分类器与GAN中的分类器相当，而GAN中的生成器相当于模仿学习网络中的actor网络。其中，actor网络用于根据输入的状态样本生成动作，与输入的状态形成状态动作对。判别器用于区分输入数据是来自于actor网络生成的状态动作对还是专家状态动作对。

模仿学习是通过对输入的状态样本、所生成的对应动作与专家状态动作样本进行训练。具体过程为：首先，将将采集的状态样本输入actor网络，生成对应的动作{a₁、a₂、a₃...a_T}；生成的状态动作对τ＝{(s₁,a₁)、(s₂,a₂)...(s_T,a_T)}与专家状态动作对

输入判别器进行训练，检验判别器的输出p；判别器的输出p为1，则表明判别器还需进行训练；判别器输出p为0，说明通过actor网络生成的状态动作对与专家状态动作对已经无限接近，同时也表明判别器已经训练完毕。下面针对actor网络和判别器的训练进行详细说明。

针对actor网络的训练，将采集的某T时刻的智能车正常驾驶状态(state){s₁,s₂,s₃...s_T}输入actor网络生成对应的动作{a₁,a₂,a₃...a_T}，记第一个和第二个状态动作对分别为τ₁、τ₂，以此类推，同时记τ＝{(s₁,a₁),(s₂,a₂)...(s_T,a_T)}，奖励函数

其中，f(s_t,a_t)表示某个状态动作对的奖励函数值；给定提前训练好的专家策略

专家策略所获得的奖励是所以动作中最大的；

假定r_t是智能体在某一时刻t所获得的奖励r_t＝ω·f(s_t,a_t)，

表示智能体获的总体奖励值，其中，ω为actor网络需要更新的参数，

不断寻找奖励函数，直到满足

以此解释给定的专家行为奖励为最大；通过寻找到的奖励函数不断更新actor网络，

针对判别器的训练，初始化判别器和actor网络；输入专家状态动作对

至判别器中；在每次迭代过程中：利用actor网络生成状态动作对{τ₁，τ₂，...，τ₃}，更新判别器参数，增加

减少D(τ_i)，其中，

d(s_t,a_t)表示样本数据的分布，更新actor网络参数，增加D(τ_i)，同时不断更新参数θ^π,

η为学习率；将actor网络生成的状态动作对{τ₁，τ₂，...，τ₃}输入到判别器中，通过判别器的输出P来判定状态动作对{τ₁，τ₂，...，τ₃}是否无限接近专家状态动作对

若判别器输出P为0，表明判别器已训练完毕；若P输出为1，则重复以上过程。

步骤3，利用参数优化的actor网络和判别器进行DDPG网络的异常检测。

在进行DDPG网络的异常检测时，将状态样本分别输入至参数优化的的DDPG网络和actor网络，生成两个状态动作对，利用参数优化的判别器对DDPG网络生成的状态动作对进行判别，当判别结果为1时，认为状态动作对中的动作未受到攻击，当判别结果为0时，认为状态动作对中的动作存在异常。

当状态动作对中的动作存在异常时，且动作幅度差异在阈值范围(例如±5°)外，说明动作受到攻击，利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对，利用模仿学习网络生成的状态动作指导DDPG网络在后续阶段的强化学习过程中做出正确决策。实施中，动作幅度差异是指DDPG网络生成的动作与专家动作之间的差异。

当状态动作对中的动作存在异常时，且动作幅度差异在阈值范围内，则认为是系统误差生成的物理扰动，不进行状态动作对的替换。

实施例还提供了一种面向深度强化学习的策略异常检测装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，所述处理器执行计算机程序时实现上述面向深度强化学习的策略异常检测方法。

实际应用中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现面向深度强化学习的策略异常检测方法步骤。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向深度强化学习的策略异常检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的面向深度强化学习的策略异常检测方法，其特征在于，当状态动作对中的动作存在异常时，且动作幅度差异在阈值范围内，则认为是系统误差生成的物理扰动，不进行状态动作对的替换。

3.如权利要求1或2所述的面向深度强化学习的策略异常检测方法，其特征在于，所述动作幅度差异为DDPG网络生成的动作与专家动作之间的差异。

4.如权利要求1或2所述的面向深度强化学习的策略异常检测方法，其特征在于，所述阈值范围为±5°。

5.如权利要求1所述的面向深度强化学习的策略异常检测方法，其特征在于，利用自动驾驶场景采集的状态样本和专家样本对模仿学习网络进行训练时，将状态样本输入至行动者网络，生成状态动作对，并计算状态动作对的第一奖励函数值，同时计算专家状态动作对的第二奖励函数值，以第第二奖励函数值大于第一奖励函数值为目标，不断寻找奖励函数，并利用奖励函数更新行动者网络的参数；

6.一种面向深度强化学习的策略异常检测装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1～5任一项所述的面向深度强化学习的策略异常检测方法。