CN112069504A - 面向深度强化学习对抗攻击的模型增强防御方法 - Google Patents

面向深度强化学习对抗攻击的模型增强防御方法 Download PDF

Info

Publication number
CN112069504A
CN112069504A CN202010896464.0A CN202010896464A CN112069504A CN 112069504 A CN112069504 A CN 112069504A CN 202010896464 A CN202010896464 A CN 202010896464A CN 112069504 A CN112069504 A CN 112069504A
Authority
CN
China
Prior art keywords
network model
sub
model
reinforcement learning
actor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010896464.0A
Other languages
English (en)
Inventor
陈晋音
王雪柯
章燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010896464.0A priority Critical patent/CN112069504A/zh
Publication of CN112069504A publication Critical patent/CN112069504A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种面向深度强化学习对抗攻击的模型增强防御方法,包括:(1)根据A3C模型,从自动驾驶场景中采集每个线程训练所需的样本数据;(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定Actor损失函数和Critic损失函数;(3)针对每个线程对应的子强化学习模型,根据Actor损失函数对子Actor网络模型进行优化学习;根据Critic损失函数对子Critic网络模型进行优化学习;(4)利用子强化学习模型的参数更新A3C模型对应的主强化学习模型的参数,实现对主强化学习模型的训练,得到能够抵抗对抗攻击的主强化学习模型。

Description

面向深度强化学习对抗攻击的模型增强防御方法
技术领域
本发明属于深度学习安全领域,具体涉及一种面向深度强化学习对抗攻击的模型增强防御方法。
背景技术
人工智能的飞速发展,越来越多的领域都开始使用AI技术。强化学习是人工智能领域的一个新兴技术,受关注度就越来越高。其研究领域包括知识表示、机器感知、机器思维、机器学习、机器行为,各种领域都取得了一定成就。比如2014年Google DeepMind开发的人工智能围棋软件——阿尔法围棋(AlphaGo),就利用了深度学习和强化学习。强化学习也是一种多学科交叉的产物,它本身是一种决策科学,所以在许多学科分支中都可以找到它的身影。强化学习应用广泛,比如:直升机特技飞行、游戏AI、投资管理、发电站控制、让机器人模仿人类行走等。
在游戏领域,为了提高用户体验,在很多场景下需要训练AI自动玩游戏,目前,游戏训练场景接受度最高的是深度强化学习。自动驾驶领域也在不断探索中,强度强化学习的出现,对其发展也是起到很大推动作用。深度强化学习模型充分利用了卷积神经网络处理大数据的能力,将场景作为输入,其输出可以使动作概率也可以是动作评价值。
然而,卷积神经网络极易受到对抗性攻击,专家学者们也提出了很多攻击方法和防御方法,目前已有的防御方法包括:(1)利用视觉预测模型和判别器及外加防御模型对强化学习模型进行防御,如申请号为CN201911184051.3公开的一种面向深度强化学习模型对抗攻击的防御方法;(2)基于强化学习的不安全跨网站脚本(XSS)防御系统识别方法,如申请号为CN201910567203.1公开的一种基于强化学习的不安全XSS防御系统识别方法。目前提出防御方法比较多的是利用强化学习做防御而不是对强化学习模型进行防御。强化学习的安全性必然会成为其发展的重要隐患因素之一。
发明内容
为了解决自动驾驶场景中,利用深度强化学习被攻击产生不准确的决策造成安全隐患的问题,本发明提供了一种面向深度强化学习对抗攻击的模型增强防御方法。
本发明的技术方案为:
一种面向深度强化学习对抗攻击的模型增强防御方法,包括以下步骤:
(1)采用A3C算法从自动驾驶场景中采集每个线程训练所需的样本数据,该样本数据包括环境状态、动作以及奖励值;
(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定子Actor网络模型的Actor损失函数为公式(1),在子Critic网络模型参数中增加噪声,并设定Critic网络模型的Critic损失函数为公式(2);
Figure BDA0002658559530000021
其中,l**为Actor损失函数,θ′是子Actor网络模型的参数,w′是子critic网络模型的参数,q是计算的长期累积奖励值,Q(si;w′)是在参数w′下子critic网络模型针对环境状态si的输出结果,π(ai|si;θ′)表示在参数θ′下子Actor网络模型针对环境状态数据si的输出策略的概率分布,m是智能体每步执行动作时的所能选择的所有可能的动作个数;
Figure BDA0002658559530000031
其中,w*是加入噪声的子critic网络模型的参数,q是计算的长期累积奖励值,Q*(si,ai;w*)是在参数w*下子critic网络模型针对环境状态si和动作ai的输出结果,
Figure BDA0002658559530000032
μ是可学习的参数向量,μ∈Rq×p,ε是零均值噪声的向量,
Figure BDA0002658559530000033
表示按元素相乘,σ∈Rq×p是噪声系的数;
(3)针对每个线程对应的子强化学习模型,根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数;根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数;
(4)利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数,实现对主强化学习模型的训练,得到能够抵抗对抗攻击的主强化学习模型。
优选地,所述子Actor网络模型和主Actor网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积层,全连接层组包括至少3个依次连接的全连接层。
优选地,所述子Critic网络模型和主Critic网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积层,全连接层组包括至少3个依次连接的全连接层。
优选地,根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数时,
将环境状态si作为子Actor网络模型的输入,计算子Actor网络模型根据输入的环境状态si计算获得的策略动作ai
根据Actor损失函数计算Actor损失函数值,然后,按照公式(3)更新子Actor网络模型的参数;
Figure BDA0002658559530000041
优选地,根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数时,
将环境状态si和策略动作ai作为子Critic网络模型的输入,计算子Critic网络模型根据输入的环境状态si和策略动作ai计算获得的Q*值,
根据Critic损失函数计算Critic损失函数值,然后,按照公式(4)更新子Critic网络模型的参数;
Figure BDA0002658559530000042
利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数包括:
在训练主强化学习模型时,针对主Actor网络模型,每隔n步从子Actor网络模型中复制参数到主Actor网络模型中,利用子Actor网络模型的参数更新主Actor网络模型的参数,直到更新步数达到预设步数停止更新;
针对主Critic网络模型,每隔n步从子Critic网络模型中复制参数到主Critic网络模型中,利用子Critic网络模型的参数更新主Critic网络模型的参数,直到更新步数达到预设步数停止更新。
应用时,从自动驾驶场景中采集环境状态数据,输入至训练好的主强化学习模型中,经计算输出决策动作。
与现有技术相比,本发明具有的有益效果至少包括:
本发明提供的面向深度强化学习对抗攻击的模型增强防御方法中,通过改进Actor损失函数和Critic损失函数来增加状态逆干扰,来提高子Actor网络模型和子Critic网络模型对干扰数据样本的鲁棒性,以此来提高子强化学习模型的预测准确性,同时采用A3模型,利用多线程的子强化学习模型参数来更新主强化学习模型参数,进一步提升了主强化学习模型的预测准确性,因此能够避免因为主强化学习模型被对抗攻击导致的安全风险,实现了对深度强化学习对抗攻击的模型增强防御。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的面向深度强化学习对抗攻击的模型增强防御方法的流程图;
图2是实施例提供的A3C模型原理图;
图3是实施例提供的AC原理图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
强化学习就是学习怎样根据一个环境状态去决定如何行动,使得最后的奖励最大。观察过程的状态容易被攻击者添加对抗扰动,攻击者也可直接攻击行动或奖励值以达到攻击目的。而智能体的行为受多方面的影响,因此比较有效的方法就是提高强化学习模型的鲁棒性,以防止对抗攻击。
以下实施例以基于自动驾驶场景的环境为例,增强模型鲁棒性,使小车高效的寻找最优路径并避免碰撞。其中智能体在交互式环境中与环境状态建立联系。本发明防御对象是基于深度强化学习模型的自动驾驶场景,强化学习一般以马尔科夫决策过程(MarkovDecision Process,MDP)作为形式化的手段。强化学习模型在训练过程中包含两个阶段,训观察阶段和训练阶段,观察阶段需要将当前状态st,行为at,奖励值Rt以及下一状态st+1保存在缓冲区D中。该过程的状态s很容易受到扰动,奖励值也会受到攻击者的恶意干扰。本发明则在训练过程中利用改进的交叉熵训练模型以增强模型鲁棒性,并通过状态逆干扰来提高模型对受干扰数据样本的鲁棒性。
如图1~图3所示,实施例提供的模型增强防御方法包括以下步骤:
步骤1,样本数据的获取。
强化学习主要是通过观察周围的环境,采取最优行动,并获得反馈,从而不断优化决策。基于A3C算法的深度强化学习最重要的是Actor网络和Critic网络的设定,而本发明防御方法与原深度强化学习的Actor网络和Critic网络无关,可以适用于任意结构的强化学习模型。
本发明的训练过程中,采用A3C模型,即子深度学习模型进行训练,然后利用子深度学习模型参数更新主深度学习模型参数。因此,在获取样本数据时,根据A3C模型,从搭建的自动驾驶场景中采集每个线程训练所需的样本数据,每个样本数据包括环境状态、动作以及奖励值组成的三元组对。
步骤2,根据基于交叉熵改进的Actor损失函数训练子Actor网络模型。
A3C算法采用了多线程的方法,将动作评论家算法(Actor-Critic,AC)放到了多个线程中进行同步训练,如图2所示,可以采用4个线程,每个线程会独立的和环境进行交互得到经验数据,这些线程之间互不干扰,独立运行。因此基于A3C算法的强化学习模型的每个子线程需要训练两个网络,即Actor网络和Critic网络。本部分给出训练Actor网络的过程。
2.1)计算策略函数。
强化学习的目标是给定马尔科夫决策过程,寻找最优策略。而策略是状态到动作的映射,策略常用符号
Figure BDA0002658559530000071
表示,它是指给定状态
Figure BDA0002658559530000072
时,动作集上的一个分布,即:
π(a|s)=P(At=a|St=s)
策略
Figure BDA0002658559530000073
在每个状态
Figure BDA0002658559530000074
指定一个动作概率。如果给出的策略
Figure BDA0002658559530000075
是确定性的,那么策略
Figure BDA0002658559530000076
在每个状态
Figure BDA0002658559530000077
指定一个确定的动作。同时每采取一个动作就给一个奖励R。
若已知最优状态-动作值函数,最优策略可通过直接最大化
Figure BDA0002658559530000078
来决定。
Figure BDA0002658559530000079
2.2)更新Actor网络。
Actor基于概率选行为,Actor根据Critic的评分修改选行为的概率。Actor和Critic的网络模型是一样的都有两层卷积层和两层全连接层,但是Actor网络的输入时状态,输出是动作的概率。本方案设自动驾驶场景中的智能体每次执行动作时有m种选择,并根据网络模型给出的每种动作的概率执行最大概率对应的动作。
2.2.1)首先初始化神经网络参数,θ←θ0,同时随机选择初始输入状态为s←s0,初始步数t记为1,最大训练步数记为tmax
2.2.2)然后,针对当前状态s0根据神经网络输出的状态动作转移概率P(ai|s0)得到最大概率对应的动作a0,并根据自动驾驶模拟场景评分机制给出当前动作的评分R0
2.2.3)计算基于交叉熵改进的Actor损失函数值。
为了增强模型的鲁棒性,本发明对损失函数进行交叉熵改进。Actor网络模型输出的是每种动作对应的概率值,智能体执行最大概率对应的动作。本发明通过交叉熵改进可以拉大Actor网络模型输出概率值对应动作之间的距离,降低智能体采取不好动作的概率,保证智能体每步都执行最好的动作。当模型受到攻击时会减小各动作之间的距离以迷惑智能体,但是改进交叉熵后各动作之间距离拉大,再次攻击对模型造成影响很小,模型鲁棒性增强切有一定的防御能力。进行交叉熵改进后的Actor损失函数是:
Figure BDA0002658559530000081
其中,l**为Actor损失函数,θ′是子Actor网络模型的参数,w′是子critic网络模型的参数,q是计算的长期累积奖励值,Q(si;w′)是在参数w′下子critic网络模型针对环境状态si的输出结果,π(ai|si;θ′)表示在参数θ′下子Actor网络模型针对环境状态数据si的输出策略的概率分布,m是智能体每步执行动作时的所能选择的所有可能的动作个数;
2.2.4)根据Actor损失函数值更新子Actor网络模型参数。
具体更新公式为:
Figure BDA0002658559530000091
其中,α和θ′是子Actor网络模型的参数,θ**是使用交叉熵改进后模型训练得到的参数。w′是子critic网络模型的参数,q是计算的长期累积奖励值,Q是子critic网络模型的输出结果,m是智能体每步执行动作时的所能选择的所有可能的动作个数。执行动作a0后进入下一状态s1,同时更新步数t←t+1。
2.2.5)重复步骤2.2.3)和2.2.4)直到更新次数达到tmax。此时得到最优策略π**(a|s)=P(a|s)。
步骤3,根据Critic损失函数训练子Critic网络模型。
3.1)计算值函数。
当给定一个策略
Figure BDA0002658559530000092
时,就可以计算累积回报:
Figure BDA0002658559530000093
当智能体采用策略
Figure BDA0002658559530000094
时,累积回报服从一个分布,累积回报在状态
Figure BDA0002658559530000095
处的期望值为状态-值函数:
Figure BDA0002658559530000096
状态值函数是与策略
Figure BDA0002658559530000101
相对应的,这是因为策略
Figure BDA0002658559530000102
决定了累积回报
Figure BDA0002658559530000103
的状态分布。相应地,根据上式可以进一步得到状态-行为值函数计算公式为:
Figure BDA0002658559530000104
状态值函数与状态-行为值函数的贝尔曼方程,由状态值函数的定义式可以得到:
υπ(s)=E[Gt|St=s]
=E[Rt+1+γRt+2+…|St=s]
=E[Rt+1+γ(Rt+2+γRt+3+…)|St=s]
=E[Rt+1+γGt|St=s]
=E[Rt+1+γυ(St+1)|St=s]
同样可以得到状态-动作值函数的贝尔曼方程:
qπ(s,a)=Eπ[Rt+1+γq(St,At)|St=s,At=a]
其中,q是累积奖励值,γ是折扣因子,Rt+1是t+1时刻的奖励值,s和a分别是模型的输入状态和动作。
3.2)更新Critic网络。
Critic基于Actor的行为评判行为的得分。子Critic网络模型和子Actor网络模型一样是有三层卷积层和两层全连接层,但是子Critic网络的输入是状态和对应动作,输出是Q值。
3.2.1)首先初始化神经网络参数,w←w0,同时选择Actor网络初始输入状态作为Critic网络的初始状态s←s0,以及Actor选择的动作a0作为Critic网络的初始输入动作。初始步数t记为1,最大训练步数记为tmax
3.2.2)然后,将当前状态s0以及动作a0输入神经网络模型中,输出当前状态和动作对应的Q值,同时Actor网络根据该Q对当前动作进行评价并辅助更新网络参数。
3.2.3)然后需要更新Critic网络模型的参数,此处参数的更新加入了噪声,目的就是增强模型的鲁棒性,提高防御能力。使用噪声网络训练好的模型要比原模型在强化学习场景中的得分更高,而且能抵抗一定的噪声扰动。模型参数更新时需要用到损失函数,原Critic网络模型的是损失函数是:
Lloss=(q-Q(si,ai;w′))2
其中,q是长期累积奖励值,Q(si,ai;w′)是预测Q值,si和ai分别是模型的输入状态和动作,w′是critic网络模型的参数。加入参数噪声后参数的更新公式为:
Figure BDA0002658559530000111
Figure BDA0002658559530000112
其中,w*是加入噪声的critic网络模型的参数,q是计算的长期累积奖励值,Q*是critic网络模型的输出结果,si和ai分别是模型的输入状态和动作。w*表示为
Figure BDA0002658559530000113
其中μ是可学习的参数向量,ε是零均值噪声的向量,
Figure BDA0002658559530000114
表示按元素相乘。神经网络的损失函数由包含噪声ε的期望
Figure BDA0002658559530000115
所得到,最后对参数μ的集合进行优化。参数μ∈Rq×p,σ∈Rq×p是噪声系的数,ε∈Rq×p是随机噪声变量。当Actor网络执行动作a0后进入下一状态s1,同时Critic网络的输入也进行更新,输入状态仍和Actor网络模型的一致,紧接着更新步数t←t+1。
3.2.4)重复步骤3.2.3)直到更新次数达到tmax。此时得到最优策略Critic网络。
步骤4,利用子Actor网络模型和子Critic网络模型更新主深度学习模型的主Actor网络模型和主Critic网络模型。
4.1)更新主Actor网络模型
4.1.1)首先初始化神经网络参数,θ←θ0,同时随机选择初始输入状态为s←s0,初始步数t记为1,最大训练步数记为tmax
4.1.2)然后,针对当前状态s0根据神经网络输出的状态动作转移概率P(ai|s0)得到最大概率对应的动作a0,并根据自动驾驶模拟场景评分机制给出当前动作的评分r0
4.1.3)接着进行主Actor网络模型参数的更新,该主Actor网络参数的更新是从多个子Actor网络模型中复制过来的。所以每隔n步就从Actor网络模型中复制参数直到子Actor网络模型更新步数达到tmax时时停止更新。此时训练得到最优策略π***(a|s)。
4.2)更主Critic网络模型
该步骤更新方式与4.1)类似,首先是要初始化神经网络,并将与actor网络相同的初始状态s0以及Actor网络的初始输出动作a0作为Critic网络的输入。
接着进行主Critic网络模型参数的更新,该主Critic网络模型参数的更新是从多个子Critic网络模型中复制过来的。所以每隔n步就从子Critic网络模型中复制参数直到主Critic网络模型更新步数达到tmax时时停止更新。此时训练得到最优Critic网络Q*(a|s)。
通过以上训练步骤,做种训练得到更加鲁棒的神经网络模型,并有一定的防御能力。
应用时,从自动驾驶场景中采集环境状态数据,输入至训练好的主强化学习模型中,经计算输出决策动作。
上述面向深度强化学习对抗攻击的模型增强防御方法中,通过改进Actor损失函数进行子Actor网络模型训练,解决了智能体误采取错误动作的问题,拉大了各个动作之间的距离,并有利于模型的收敛,解决了模型收敛困难的问题,Critic损失函数对添加噪声的子Critic网络模型进行训练提高了抗干扰能力,以此来提高子强化学习模型的预测准确性,同时采用A3模型,利用多线程的子强化学习模型参数来更新主强化学习模型参数,进一步提升了主强化学习模型的预测准确性,因此能够避免因为主强化学习模型被对抗攻击导致的安全风险,实现了对深度强化学习对抗攻击的模型增强防御。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,包括以下步骤:
(1)根据A3C模型,从自动驾驶场景中采集每个线程训练所需的样本数据,该样本数据包括环境状态、动作以及奖励值;
(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定子Actor网络模型的Actor损失函数为公式(1),在子Critic网络模型参数中增加噪声,并设定Critic网络模型的Critic损失函数为公式(2);
Figure FDA0002658559520000011
其中,l**为Actor损失函数,θ′是子Actor网络模型的参数,w′是子critic网络模型的参数,q是计算的长期累积奖励值,Q(si;w′)是在参数w′下子critic网络模型针对环境状态si的输出结果,π(ai|si;θ′)表示在参数θ′下子Actor网络模型针对环境状态数据si的输出策略的概率分布,m是智能体每步执行动作时的所能选择的所有可能的动作个数;
Figure FDA0002658559520000012
其中,w*是加入噪声的子critic网络模型的参数,q是计算的长期累积奖励值,Q*(si,ai;w*)是在参数w*下子critic网络模型针对环境状态si和动作ai的输出结果,
Figure FDA0002658559520000013
μ是可学习的参数向量,μ∈Rq×p,ε是零均值噪声的向量,
Figure FDA0002658559520000014
表示按元素相乘,σ∈Rq×p是噪声系的数;
(3)针对每个线程对应的子强化学习模型,根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数;根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数;
(4)利用子强化学习模型的参数更新A3C模型对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数,实现对主强化学习模型的训练,得到能够抵抗对抗攻击的主强化学习模型。
2.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,所述子Actor网络模型和主Actor网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积层,全连接层组包括至少3个依次连接的全连接层。
3.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,所述子Critic网络模型和主Critic网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积层,全连接层组包括至少3个依次连接的全连接层。
4.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数时,
将环境状态si作为子Actor网络模型的输入,计算子Actor网络模型根据输入的环境状态si计算获得的策略动作ai
根据Actor损失函数计算Actor损失函数值,然后,按照公式(3)更新子Actor网络模型的参数;
Figure FDA0002658559520000021
5.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数时,
将环境状态si和策略动作ai作为子Critic网络模型的输入,计算子Critic网络模型根据输入的环境状态si和策略动作ai计算获得的Q*值,
根据Critic损失函数计算Critic损失函数值,然后,按照公式(4)更新子Critic网络模型的参数;
Figure FDA0002658559520000031
6.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数包括:
在训练主强化学习模型时,针对主Actor网络模型,每隔n步从子Actor网络模型中复制参数到主Actor网络模型中,利用子Actor网络模型的参数更新主Actor网络模型的参数,直到更新步数达到预设步数停止更新。
7.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数包括:
在训练主强化学习模型时,针对主Critic网络模型,每隔n步从子Critic网络模型中复制参数到主Critic网络模型中,利用子Critic网络模型的参数更新主Critic网络模型的参数,直到更新步数达到预设步数停止更新。
8.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,应用时,从自动驾驶场景中采集环境状态数据,输入至训练好的主强化学习模型中,经计算输出决策动作。
CN202010896464.0A 2020-08-31 2020-08-31 面向深度强化学习对抗攻击的模型增强防御方法 Withdrawn CN112069504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010896464.0A CN112069504A (zh) 2020-08-31 2020-08-31 面向深度强化学习对抗攻击的模型增强防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010896464.0A CN112069504A (zh) 2020-08-31 2020-08-31 面向深度强化学习对抗攻击的模型增强防御方法

Publications (1)

Publication Number Publication Date
CN112069504A true CN112069504A (zh) 2020-12-11

Family

ID=73664845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010896464.0A Withdrawn CN112069504A (zh) 2020-08-31 2020-08-31 面向深度强化学习对抗攻击的模型增强防御方法

Country Status (1)

Country Link
CN (1) CN112069504A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113420495A (zh) * 2021-05-31 2021-09-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN114444718A (zh) * 2022-01-26 2022-05-06 北京百度网讯科技有限公司 机器学习模型的训练方法、信号控制方法和装置
CN114925850A (zh) * 2022-05-11 2022-08-19 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420495A (zh) * 2021-05-31 2021-09-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113420326B (zh) * 2021-06-08 2022-06-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN114444718A (zh) * 2022-01-26 2022-05-06 北京百度网讯科技有限公司 机器学习模型的训练方法、信号控制方法和装置
CN114925850A (zh) * 2022-05-11 2022-08-19 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法
CN114925850B (zh) * 2022-05-11 2024-02-20 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法

Similar Documents

Publication Publication Date Title
CN112069504A (zh) 面向深度强化学习对抗攻击的模型增强防御方法
CN110991545B (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111310915B (zh) 一种面向强化学习的数据异常检测防御方法
CN110968866B (zh) 一种面向深度强化学习模型对抗攻击的防御方法
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN112052456A (zh) 基于多智能体的深度强化学习策略优化防御方法
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN114925850B (zh) 一种面向扰动奖励的深度强化学习对抗防御方法
CN112884130A (zh) 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN113392396A (zh) 面向深度强化学习的策略保护防御方法
CN113420326A (zh) 面向深度强化学习的模型隐私保护方法和系统
CN113298252B (zh) 一种面向深度强化学习的策略异常检测方法和装置
CN114626499A (zh) 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法
CN114757351A (zh) 一种深度强化学习模型对抗攻击的防御方法
CN116136945A (zh) 一种基于反事实基线的无人机集群对抗博弈仿真方法
Zakharenkov et al. Deep reinforcement learning with dqn vs. ppo in vizdoom
CN116757497A (zh) 基于图类感知Transformer的多模态军事智能辅助作战决策方法
Yang et al. Adaptive inner-reward shaping in sparse reward games
CN114154397A (zh) 一种基于深度强化学习的隐式对手建模方法
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN115660052A (zh) 一种融合后见之明思想的群体智能学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201211

WW01 Invention patent application withdrawn after publication