CN111600851A - 面向深度强化学习模型的特征过滤防御方法 - Google Patents

面向深度强化学习模型的特征过滤防御方法 Download PDF

Info

Publication number
CN111600851A
CN111600851A CN202010345029.9A CN202010345029A CN111600851A CN 111600851 A CN111600851 A CN 111600851A CN 202010345029 A CN202010345029 A CN 202010345029A CN 111600851 A CN111600851 A CN 111600851A
Authority
CN
China
Prior art keywords
state
network
encoder
action
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010345029.9A
Other languages
English (en)
Other versions
CN111600851B (zh
Inventor
陈晋音
王雪柯
章燕
王珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010345029.9A priority Critical patent/CN111600851B/zh
Publication of CN111600851A publication Critical patent/CN111600851A/zh
Application granted granted Critical
Publication of CN111600851B publication Critical patent/CN111600851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向深度强化学习模型的特征过滤防御方法,包括:(1)针对生成连续行为的DDPG模型,包括actor网络和critic网络,其中,所述actor网络包括动作估计网络和动作实现网络,所述critic网络包括状态估计网络和状态实现网络,对所述深度强化学习模型DDPG进行预训练,并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓存区;(2)训练自编码器,并利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图,并保存到缓存区;(3)对预训练后的DDPG模型中的卷积核进行剪枝,利用剪枝后的DPG模型进行动作预测,输出并执行预测动作。

Description

面向深度强化学习模型的特征过滤防御方法
技术领域
本发明属于深度学习技术领域,具体涉及一种面向深度强化学习模型的特征过滤防御方法。
背景技术
随着人工智能技术的迅速发展,越来越多的领域都开始使用AI技术。自1956年“人工智能”概念的首度提出以来,AI的受关注度就越来越高。其研究领域包括知识表示、机器感知、机器思维、机器学习、机器行为,各种领域都取得了一定成就。强化学习也是一种多学科交叉的产物,它本身是一种决策科学,所以在许多学科分支中都可以找到它的身影。强化学习应用广泛,比如:直升机特技飞行、游戏AI、投资管理、发电站控制、让机器人模仿人类行走等。
在游戏领域,为了提高用户体验,在很多场景下需要训练AI自动玩游戏,目前,游戏训练场景接受度最高的是深度强化学习(Deep Reinforcement Learning,DRL),一般情况下使用深度Q-learning网络(Deep Q-learning Network,DQN)来训练游戏AI自动玩游戏。DRL网络充分利用了卷积神经网络处理大数据的能力,将游戏画面作为输入,同时融合更多的游戏数据作为输入。然而神经网络极易受到对抗性攻击,专家学者们也提出了很多攻击方法和防御方法,但是,针对深度强化学习的防御方法并没有成型的专利提出。随着深度强化学习的应用越来越广泛,安全性必然成为其发展的重要隐患因素之一。为了解决这一问题,本发明提出了有效的解决方法。
强化学习就是学习如何根据一个环境状态去决定如何行动,使得最后的奖励最大。强化学习中两个最重要的特征就是试错(trial-and-error)和滞后奖励(delayedreward)。观察过程的状态容易被攻击者添加对抗扰动,攻击者也可直接攻击行动或奖励值以达到攻击目的。奇异样本数据的存在会引起训练时间增大,同时也可能导致无法收敛,因此,当存在奇异样本数据时,在进行训练之前需要对预处理数据进行归一化;反之,不存在奇异样本数据时,则可以不进行归一化。智能体的行为直接受奖励值的影响,奖励值是根据当前状态给出的,因此达到防御的最有效方式就是保证状态不受干扰。
如何防御状态不受干扰成为了迫不及待要解决的问题。
发明内容
为了提高深度强化学习模型的鲁棒性以及学习效率,提高模型有效抵御对抗攻击的能力,防止状态识别有误奖励值偏差太大从而使智能体采取错误的动作,本发明提出了一种面向深度强化学习攻击的防御方法。
本发明的技术方案为:
一种面向深度强化学习模型的特征过滤防御方法,包括以下步骤:
(1)针对生成连续行为的DDPG模型,包括actor网络和critic网络,其中,所述actor网络包括动作估计网络和动作实现网络,所述critic网络包括状态估计网络和状态实现网络,对所述深度强化学习模型DDPG进行预训练,并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓存区;
(2)训练自编码器,并利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图,并保存到缓存区;
(3)对预训练后的DDPG模型中的卷积核进行剪枝,利用剪枝后的DPG模型进行动作预测,输出并执行预测动作。
其中,所述深度强化学习模型DDPG的预训练过程包括:
针对状态估计网络,以实际Q值与估计Q值的平方损失为损失函数来更新状态估计网络的参数;
针对动作估计网络,利用损失梯度来更新动作估计网络的参数;
将所述状态估计网络的参数复制给状态实现网络,以更新状态实现网络的参数;
将所述动作估计网络的参数复制给动作实现网络,以更新动作实现网络的参数。
其中,所述自编码器包括编码器和解码器两部分;
针对编码器部分的训练,首先采用RBM网络对编码器的卷积层进行逐层训练,逐层训练结束后,根据编码器输入状态与解码器的输出状态的相似度来更新编码器所有卷积层的参数;
针对解码器部分的训练,直接采用编码器的输入状态与解码器的输出状态的损失来更新解码器的参数。
其中,采用以下公式计算编码器输入状态与解码器的输出状态的相似度KL(q(s)||p(s)):
Figure BDA0002469761160000031
其中,q(s)是输入状态对应的概率分布,p(s)是解码器的输出状态对应的概率分布,s表示输入状态,Ω表示状态总和。
其中,所述利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图的过程包括:
采用在伯努利随机变量X(i,j,k)对每个状态矩阵的位置(i,j,k)进行随机采样得到一组随机值;
计算该一组随机值与位置(i,j,k)对应值总方差,以总方差最小化为目标滤除或保留位置(i,j,k)对应值,以实现对输入状态的特征过滤。
其中,对预训练后的DDPG模型中的卷积核进行剪枝包括:
在结构剪枝过程中,细化了一组参数,这组参数保留了自适应网络的准确性,L(D|χ′)≈L(D|χ),相当于一个组合优化:
min|L(D|χ′)-L(D|χ)|s.t||χ′||0≤η,
其中,D表示缓存区,参数χ包括动作估计网络的参数θ和状态估计网络的参数w,参数χ″表示对参数θ和参数w剪枝后剩下参数,L(D|χ)表示根据缓存区D中的状态和动作值在参数χ下计算的损失函数值,表示根据缓存区D中的状态和动作值在参数χ″下计算的损失函数值;
从一组参数χ开始,迭代地识别和删除最不重要的参数,通过在每次迭代中删除参数,以确保最终满足||χ″||0≤η。
与现有技术相比,本发明具有的有益效果为:
1)使用Autoencoder模型有一定的去噪作用,可以提取更有价值的特征。2)总方差测量图像中的微小变化量,总方差最小化使得图像中的微小扰动被去除。3)本发明防御方法与深度强化学习的策略模型无关,可适用于任意策略网络。4)采用结构剪枝有效过滤掉冗余的神经元,提高了训练效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是面向深度强化学习模型的特征过滤防御方法的流程图;
图2是面向深度强化学习模型的特征过滤防御方法中深度强化学习原理图;
图3是面向深度强化学习模型的特征过滤防御方法中自编码器原理图;
图4是面向深度强化学习模型的特征过滤防御方法中基于结构剪枝的DDPG模型原理图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
以下实施例以游戏环境为例,智能体在交互式环境与环境状态建立联系。防御对象就是深度强化学习模型,强化学习一般以马尔科夫决策过程(Markov DecisionProcess,MDP)作为形式化的手段。在交互式环境下通过收集环境观察状态s并让代理采取行动a同时根据环境s变化及时给出奖励值R,每次同时保存当前状态、行动、奖励值以及下一状态。通过大量观察数据训练深度强化学习模型,然后对输入状态添加扰动使代理行为出错,通常对抗扰动不易察觉,本发明提出特征过滤的防御方法,限制输入状态的像素值,从而使添加扰动的像素不起主要作用,同时对深度强化学习模型应用结构剪枝以提高学习效率。特征过滤则是利用基于压缩感知的自动编器(Autoencoder)来实现的,并对强化学习模型的神经网络中卷积核进行剪枝以提高效率,最终智能体高效的采取正确的行动。如果深度强化学习状态受到攻击则将观察状态通过本发明的防御网络模型进行防御,本发明方法的防御模型由Autoencoder模型和强化学习模型构成。
图1面向深度强化学习模型的特征过滤防御方法的流程图,如图1所示,实施例提供的面向深度强化学习模型的特征过滤防御方法,包括以下步骤:
S101,对DDPG模型进行预训练,并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓冲区。
本实施例中,如图2所示,采用DDPG(Deep Deterministic Policy Gradient)模型生成连续行为,DDPG算法是Actor-Critic和DQN算法的结合体,采用DQN中的经验池和双网络结构来促进神经网络能够有效学习,这里actor不再是输出每个动作的概率,而是输出每个动作对应的值。DDPG的网络结构由两大部分组成,即actor网络包含动作估计网络和动作实现网络,以及critic网络包含状态估计网络和状态实现网络。动作估计网络负责策略参数的迭代更新,根据当前环境状态S选择当前动作A,并和环境交互生成下一时刻环境S′和当前动作对应的奖励值R。动作实现网络根据经验回放池(也即是缓冲区)D中采样的下一时刻环境状态S′选择最优的下一动作A′。
在预训练阶段,只需要训练动作估计网络和状态估计网络的参数,动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的。
状态估计网络的学习过程与DQN类似,根据下面的损失函数来进行网络学习,即实际Q值和估计Q值的平方损失:
Figure BDA0002469761160000071
其中,Q(si,ai,w)是根据状态估计网络根据状态si和在动作估计网络参数w下的动作ai得到的估计Q值,ai是动作估计网络传过来的动作,yi为实际Q值,以目标Q值Yi的最大值作为实际Q值,即yi=max(Yi),其中,目标Q值Yi是根据现实奖励R、下一时刻环境状态s′以及动作实现网络输出的动作A′利用贝尔曼方程计算得到,具体公式为:
Yi=R+γQ′(S′,A′,w′) (2)
其中,R为当前动作对应的奖励值,γ为折扣因子,取值范围为0~1,Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值,由状态实现网络计算得到,w′为状态实现网络参数。
动作估计网络参数则是利用损失梯度来更新的,神经网络参数的更新公式如下:
Figure BDA0002469761160000072
θ′←τθ+(1-τ)θ′ (4)
w′←τw+(1-τ)w′ (5)
其中,θ是动作估计网络的参数,θ′是动作实现网络的参数,w是状态估计网络的参数,w′是状态实现网络的参数,Q(si,ai,w)是根据状态估计网络根据状态si和在状态估计网络参数w下的动作ai得到的估计Q值,πθ(.)是参数θ下动作估计网络的策略,J(.)是动作估计网络的损失函数。
S102,训练自编码器。利用训练好的自编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图。
本实施例中,首先需要对自编码器中的编码器进行逐层预训练,得到初始的权值与偏置。然后根据自编码得到重构数据,通过BP算法进行全局微调权值与偏置。
自编码器由两部分组成,即编码器Encoder和解码器Decoder部分。其中,Encoder的作用是降维,Decoder是从降为后的特征中恢复出原始特征。
其中,Encoder由5个卷积层组成,将3000维的特征压缩到30维,先由一层卷积层将3000维特征压缩到1000维,然后将1000维数据经过一层卷积降为500维再将500维特征压缩到250维,最后压缩到30维。Decoder则是相反的过程,其中解码层和编码层经过30维数据的卷积层连结在一起,首先是将30维特征扩展到250维,然后将250维特征解压到500维,再经过一层卷积层将500维特征解压到100维,最后经过一层卷积将1000维特征恢复到3000维。
如图3所示,针对编码器部分的逐层训练,采用Autoencoder相邻两层参数,权重矩阵δ,隐藏层偏置参数ci,可视层偏置参数bj,参数传播更新过程分为从可视层到隐藏层以及隐藏层到可视层。从可视层到隐藏层的数据更新概率公式为:
Figure BDA0002469761160000081
从隐藏层到可视层的数据更新概率公式为:
Figure BDA0002469761160000082
其中,v代表可视层节点,h代表隐层节点,σ(x)=1/(1+e-x)。
自编码器的权重更新公式:
δ(t+1)=δ(t)+λ(νhT-ν′h′T) (8)
其中,δt为权重,ν和h分别代表可视层(即输入层)输入和隐藏层输出,λ为学习率。
自编码器训练过程中,逐层训练主要作用是在隐藏层尽可能保留从可视层输入状态的主要特征,特征保留程度指标由压缩特征恢复出来的图像与原图像的差别。特征压缩过程就是正向过程(υ→h),对真实特征υ产生影响,反向过程则是利用压缩后的特征h复现真实数据的特征υ′,权重更新是由正反向误差υhT-υ′h′T。基于RBM网络的能量函数为:
Figure BDA0002469761160000091
其中,ν和h分别代表可视层输入和隐藏层输出,δ为自编码器参数。RBM网络训练用到的损失函数的偏导数为:
Figure BDA0002469761160000092
其中,-p(υ)是RBM网络可视层输入υ的概率分布,在RBM网络中将其称为损失函数,E是能量函数,ν和h分别代表可视层输入和隐藏层输出。如果要使系统(这里即指RBM网络)达到稳定,则应该是系统的能量值最小,要使能量E最小,应该使损失函数-p(υ)最小,通过使RBM网络达到稳定实现对编码器的逐层训练。
逐层训练结束后,根据编码器输入状态与解码器的输出状态的相似度来更新编码器所有卷积层的参数。
S103,利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图,并保存到缓存区。
本实施例中,将输入状态可以看成是一张图,对输入状态扰动的滤除可以看作是对图中对抗扰动的滤除,可以通过压缩感知方法将像素丢失与总方差最小化相结合消除对抗性扰动。该方法先随机选择一小组像素,并重构与所选像素一致的最简单图像。这里重构的图像往往不包含对抗性扰动,因为这种人为设计的扰动往往很小且局部化。
具体地,首先通过伯努利随机变量X(i,j,k)对每个像素位置(i,j,k)进行随机采样得到一组随机像素z,然后,基于总方差最小化的原则来构造一个图像,它类似于所选像素组的扰动输入图像。总方差最小化可以表示为:
Figure BDA0002469761160000101
其中,x表示像素位置(i,j,k)对应的像素值,X表示像素位置(i,j,k)的伯努利随机变量X值,·表示逐元素乘法,λTV是超参数,TVp(z))测量图像z中像素值变化的数量,因此TV最小化有助于消除图像中的小扰动。这里p的取值为2表示求z的均方差。总方差测量图像中的微小变化量,总方差最小化使得图像中的微小扰动被去除,当X(i,j,k)=1时仅保留一个像素。
S104,对预训练后的DDPG模型中的卷积核进行剪枝。
DDPG模型的输入是状态、动作值,输出是动作,DDPG模型的网络参数w和θ分别通过公式(1)所示的平方损失L和公式(3)所示的梯度损失▽J(θ)来更新。如图4所示,本发明同时对状态估计网络和动作估计网络进行结构剪枝。结构剪枝对原网络损失函数没有影响,在结构剪枝过程中,本发明细化了一组参数,这些参数保留了自适应网络的准确性,L(D|χ″)≈L(D|χ),相当于一个组合优化:
min|L(D|χ″)-L(D|χ)|s.t||χ″||0≤η, (12)
其中,参数χ包括动作估计网络的参数θ和状态估计网络的参数w,参数χ″表示对参数θ和参数w剪枝后剩下参数,L(D|χ)表示根据缓存区D中的状态和动作值在参数χ下计算的损失函数值,表示根据缓存区D中的状态和动作值在参数χ″下计算的损失函数值,当参数χ为参数θ时,根据公式(1)计算损失函数值,当参数χ为参数w时,根据公式(3)计算损失函数值。l0范数||·||0限制了参数χ″的值,目的是达到误差函数的全局最小值,同时||χ″||0也有最大值。在保持成本值尽可能接近原始值的同时,找到一个好的参数子集是一个组合问题,虽然对于任何合理大小的网络都不可能精确地解决这个优化问题,但在这项工作中,研究了一类贪婪方法,从一组完整的参数χ开始,迭代地识别和删除最不重要的参数,通过在每次迭代中删除参数,我们可以确保最终满足||χ″||0≤η,在actor网络和critic网络中,η表示参数χ″的上限,取值大于1,η可以相同或不同。
S105,利用剪枝后的DDPG模型进行动作预测,输出并执行预测动作。
实施例中,当DDPG模型中的卷积核剪枝之后,利用剩下的参数χ″更新参数χ用
Figure BDA0002469761160000111
来表示一组状态特征图,特征映射可以是网络的输入状态z0,也可以是第l个卷积层的输出状态zl,其中,k为通道数索引,也表示卷积核个数,k∈[1,2,…,Cl],卷积层将卷积操作(*)应用于一组输入特征映射Zl-1,其内核参数为
Figure BDA0002469761160000112
Figure BDA0002469761160000113
其中,
Figure BDA0002469761160000114
是将大小为P×P的每个Cl-1内核与其各自的输入特征图进行卷积并添加偏置
Figure BDA0002469761160000115
的结果,也引进了修剪门
Figure BDA0002469761160000116
一种外部开关,它决定在前馈传播过程中是否包含或修剪特定的特征图。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种面向深度强化学习模型的特征过滤防御方法,包括以下步骤:
(1)针对生成连续行为的DDPG模型,包括actor网络和critic网络,其中,所述actor网络包括动作估计网络和动作实现网络,所述critic网络包括状态估计网络和状态实现网络,对所述深度强化学习模型DDPG进行预训练,并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓存区;
(2)训练自编码器,并利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图,并保存到缓存区;
(3)对预训练后的DDPG模型中的卷积核进行剪枝,利用剪枝后的DDPG模型进行动作预测,输出并执行预测动作。
2.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,所述深度强化学习模型DDPG的预训练过程包括:
针对状态估计网络,以实际Q值与估计Q值的平方损失为损失函数来更新状态估计网络的参数;
针对动作估计网络,利用损失梯度来更新动作估计网络的参数;
将所述状态估计网络的参数复制给状态实现网络,以更新状态实现网络的参数;
将所述动作估计网络的参数复制给动作实现网络,以更新动作实现网络的参数。
3.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,所述自编码器包括编码器和解码器两部分;
针对编码器部分的训练,首先采用RBM网络对编码器的卷积层进行逐层训练,逐层训练结束后,根据编码器输入状态与解码器的输出状态的相似度来更新编码器所有卷积层的参数;
针对解码器部分的训练,直接采用编码器的输入状态与解码器的输出状态的损失来更新解码器的参数。
4.如权利要求2所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,采用以下公式计算编码器输入状态与解码器的输出状态的相似度KL(q(s)||p(s)):
Figure FDA0002469761150000021
其中,q(s)是输入状态对应的概率分布,p(s)是解码器的输出状态对应的概率分布,s表示输入状态,Ω表示状态总和。
5.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,所述利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图的过程包括:
采用在伯努利随机变量X(i,j,k)对每个状态矩阵的位置(i,j,k)进行随机采样得到一组随机值;
计算该一组随机值与位置(i,j,k)对应值总方差,以总方差最小化为目标滤除或保留位置(i,j,k)对应值,以实现对输入状态的特征过滤。
6.如权利要求1所述的面向深度强化学习模型的特征过滤防御方法,其特征在于,对预训练后的DDPG模型中的卷积核进行剪枝包括:
在结构剪枝过程中,细化了一组参数,这组参数保留了自适应网络的准确性,L(D|χ′)≈L(D|χ),相当于一个组合优化:
min|L(D|χ′)-L(D|χ)|s.t||χ′||0≤η,
其中,D表示缓存区,参数χ包括动作估计网络的参数θ和状态估计网络的参数w,参数χ″表示对参数θ和参数w剪枝后剩下参数,L(D|χ)表示根据缓存区D中的状态和动作值在参数χ下计算的损失函数值,表示根据缓存区D中的状态和动作值在参数χ″下计算的损失函数值;
从一组参数χ开始,迭代地识别和删除最不重要的参数,通过在每次迭代中删除参数,以确保最终满足||χ″||0≤η。
CN202010345029.9A 2020-04-27 2020-04-27 面向深度强化学习模型的特征过滤防御方法 Active CN111600851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010345029.9A CN111600851B (zh) 2020-04-27 2020-04-27 面向深度强化学习模型的特征过滤防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010345029.9A CN111600851B (zh) 2020-04-27 2020-04-27 面向深度强化学习模型的特征过滤防御方法

Publications (2)

Publication Number Publication Date
CN111600851A true CN111600851A (zh) 2020-08-28
CN111600851B CN111600851B (zh) 2022-03-08

Family

ID=72192088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010345029.9A Active CN111600851B (zh) 2020-04-27 2020-04-27 面向深度强化学习模型的特征过滤防御方法

Country Status (1)

Country Link
CN (1) CN111600851B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307778A (zh) * 2020-11-17 2021-02-02 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN112488224A (zh) * 2020-12-08 2021-03-12 深圳供电局有限公司 模型训练方法、装置、计算机设备及存储介质
CN112598129A (zh) * 2021-03-03 2021-04-02 之江实验室 基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架
CN112859903A (zh) * 2021-01-22 2021-05-28 中国科学技术大学 一种无人直升机自主飞行控制方法及系统
CN113095367A (zh) * 2021-03-16 2021-07-09 华中科技大学 一种基于深度强化学习的压缩机故障诊断方法
CN113111945A (zh) * 2021-04-15 2021-07-13 东南大学 一种基于变换自编码器的对抗样本防御方法
CN113141012A (zh) * 2021-04-24 2021-07-20 西安交通大学 基于深度确定性策略梯度网络的电网潮流调控决策推理方法
CN113255735A (zh) * 2021-04-29 2021-08-13 平安科技(深圳)有限公司 患者用药方案的确定方法及确定装置
CN113297575A (zh) * 2021-06-11 2021-08-24 浙江工业大学 一种基于自编码器的多通道图垂直联邦模型防御方法
CN113326509A (zh) * 2021-06-17 2021-08-31 浙江工业大学 基于互信息的深度学习模型中毒攻击检测方法及其装置
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN114389990A (zh) * 2022-01-07 2022-04-22 中国人民解放军国防科技大学 基于深度强化学习的最短路阻断方法和装置
CN114500102A (zh) * 2022-03-09 2022-05-13 绍兴文理学院 一种基于抽样的边缘计算架构物联网入侵检测系统及方法
CN114648178A (zh) * 2022-05-12 2022-06-21 武汉格蓝若智能技术有限公司 一种基于ddpg算法的电能计量装置运维策略优化方法
CN115118532A (zh) * 2022-08-31 2022-09-27 中国人民解放军战略支援部队航天工程大学 基于改进d3qn算法的sdn下自适应威胁缓解方法及系统
CN115134174A (zh) * 2022-08-31 2022-09-30 中国人民解放军战略支援部队航天工程大学 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
CN116129197A (zh) * 2023-04-04 2023-05-16 中国科学院水生生物研究所 一种基于强化学习的鱼类分类方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170278018A1 (en) * 2013-10-08 2017-09-28 Google Inc. Methods and apparatus for reinforcement learning
CN109902617A (zh) * 2019-02-25 2019-06-18 百度在线网络技术(北京)有限公司 一种图片识别方法、装置、计算机设备和介质
CN110378382A (zh) * 2019-06-18 2019-10-25 华南师范大学 基于深度强化学习的新型量化交易系统及其实现方法
CN110580682A (zh) * 2019-09-16 2019-12-17 电子科技大学 一种基于优化生成对抗网络地震数据超分辨率重建方法
CN110647918A (zh) * 2019-08-26 2020-01-03 浙江工业大学 面向深度学习模型对抗攻击的拟态防御方法
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170278018A1 (en) * 2013-10-08 2017-09-28 Google Inc. Methods and apparatus for reinforcement learning
CN109902617A (zh) * 2019-02-25 2019-06-18 百度在线网络技术(北京)有限公司 一种图片识别方法、装置、计算机设备和介质
CN110378382A (zh) * 2019-06-18 2019-10-25 华南师范大学 基于深度强化学习的新型量化交易系统及其实现方法
CN110647918A (zh) * 2019-08-26 2020-01-03 浙江工业大学 面向深度学习模型对抗攻击的拟态防御方法
CN110580682A (zh) * 2019-09-16 2019-12-17 电子科技大学 一种基于优化生成对抗网络地震数据超分辨率重建方法
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEIBO JIANG等: "Stacked Autoencoder-Based Deep Reinforcement Learning for Online Resource Scheduling in Large-Scale MEC Networks", 《IEEE INTERNET OF THINGS JOURNAL ( VOLUME: 7, ISSUE: 10, OCT. 2020)》 *
王昊等: "结合深度自编码与强化学习的轴承健康评估方法", 《工业工程与管理》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307778A (zh) * 2020-11-17 2021-02-02 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN112307778B (zh) * 2020-11-17 2023-11-24 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN112488224A (zh) * 2020-12-08 2021-03-12 深圳供电局有限公司 模型训练方法、装置、计算机设备及存储介质
CN112488224B (zh) * 2020-12-08 2023-11-28 深圳供电局有限公司 模型训练方法、装置、计算机设备及存储介质
CN112859903A (zh) * 2021-01-22 2021-05-28 中国科学技术大学 一种无人直升机自主飞行控制方法及系统
CN112598129A (zh) * 2021-03-03 2021-04-02 之江实验室 基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架
CN113095367B (zh) * 2021-03-16 2023-04-18 华中科技大学 一种基于深度强化学习的压缩机故障诊断方法
CN113095367A (zh) * 2021-03-16 2021-07-09 华中科技大学 一种基于深度强化学习的压缩机故障诊断方法
CN113111945A (zh) * 2021-04-15 2021-07-13 东南大学 一种基于变换自编码器的对抗样本防御方法
CN113111945B (zh) * 2021-04-15 2024-07-09 东南大学 一种基于变换自编码器的对抗样本防御方法
CN113141012A (zh) * 2021-04-24 2021-07-20 西安交通大学 基于深度确定性策略梯度网络的电网潮流调控决策推理方法
CN113255735A (zh) * 2021-04-29 2021-08-13 平安科技(深圳)有限公司 患者用药方案的确定方法及确定装置
WO2022227198A1 (zh) * 2021-04-29 2022-11-03 平安科技(深圳)有限公司 患者用药方案的确定方法及确定装置
CN113255735B (zh) * 2021-04-29 2024-04-09 平安科技(深圳)有限公司 患者用药方案的确定方法及确定装置
CN113420326B (zh) * 2021-06-08 2022-06-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113297575B (zh) * 2021-06-11 2022-05-17 浙江工业大学 一种基于自编码器的多通道图垂直联邦模型防御方法
CN113297575A (zh) * 2021-06-11 2021-08-24 浙江工业大学 一种基于自编码器的多通道图垂直联邦模型防御方法
CN113326509A (zh) * 2021-06-17 2021-08-31 浙江工业大学 基于互信息的深度学习模型中毒攻击检测方法及其装置
CN113326509B (zh) * 2021-06-17 2022-07-19 浙江工业大学 基于互信息的深度学习模型中毒攻击检测方法及其装置
CN114389990A (zh) * 2022-01-07 2022-04-22 中国人民解放军国防科技大学 基于深度强化学习的最短路阻断方法和装置
CN114500102A (zh) * 2022-03-09 2022-05-13 绍兴文理学院 一种基于抽样的边缘计算架构物联网入侵检测系统及方法
CN114500102B (zh) * 2022-03-09 2024-02-13 绍兴文理学院 一种基于抽样的边缘计算架构物联网入侵检测系统及方法
CN114648178A (zh) * 2022-05-12 2022-06-21 武汉格蓝若智能技术有限公司 一种基于ddpg算法的电能计量装置运维策略优化方法
CN115134174A (zh) * 2022-08-31 2022-09-30 中国人民解放军战略支援部队航天工程大学 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
CN115134174B (zh) * 2022-08-31 2022-11-25 中国人民解放军战略支援部队航天工程大学 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
CN115118532A (zh) * 2022-08-31 2022-09-27 中国人民解放军战略支援部队航天工程大学 基于改进d3qn算法的sdn下自适应威胁缓解方法及系统
CN116129197A (zh) * 2023-04-04 2023-05-16 中国科学院水生生物研究所 一种基于强化学习的鱼类分类方法、系统、设备及介质

Also Published As

Publication number Publication date
CN111600851B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN111600851B (zh) 面向深度强化学习模型的特征过滤防御方法
Eysenbach et al. Contrastive learning as goal-conditioned reinforcement learning
CN110968866B (zh) 一种面向深度强化学习模型对抗攻击的防御方法
Lomonaco et al. Rehearsal-Free Continual Learning over Small Non-IID Batches.
CN113159173B (zh) 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法
CN108803615B (zh) 一种基于深度强化学习的虚拟人未知环境导航算法
CN110706303B (zh) 基于GANs的人脸图像生成方法
CN111401557B (zh) 智能体决策制定方法、ai模型训练方法、服务器及介质
CN114757351A (zh) 一种深度强化学习模型对抗攻击的防御方法
CN113139446A (zh) 一种端到端自动驾驶行为决策方法、系统及终端设备
CN112906853A (zh) 模型自动优化的方法及装置、设备、存储介质
CN115329744B (zh) 一种自然语言处理方法、系统、设备及存储介质
CN114757362A (zh) 一种基于边缘增强的多智能体系统通信方法及相关装置
CN115457240A (zh) 图像目标驱动导航方法、装置、设备和存储介质
Shim et al. Snerl: Semantic-aware neural radiance fields for reinforcement learning
CN113947022A (zh) 一种基于模型的近端策略优化方法
Mousa-Pasandi et al. Convolutional neural network pruning using filter attenuation
CN116977661A (zh) 一种数据处理方法、装置、设备、存储介质及程序产品
Sohn et al. Shortest-path constrained reinforcement learning for sparse reward tasks
Jang et al. AVAST: Attentive variational state tracker in a reinforced navigator
CN113657592B (zh) 一种软件定义卫星自适应剪枝模型压缩方法
CN115793450A (zh) 基于强化学习的机器人回报函数的自适应方法
CN115168722A (zh) 内容交互预测方法以及相关设备
CN111179338B (zh) 一种用于移动供电接收端的轻量化目标定位方法
CN113807541A (zh) 决策系统的公平性修复方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant