CN111753300B - 面向强化学习的检测防御异常数据方法和装置 - Google Patents
面向强化学习的检测防御异常数据方法和装置 Download PDFInfo
- Publication number
- CN111753300B CN111753300B CN202010608352.0A CN202010608352A CN111753300B CN 111753300 B CN111753300 B CN 111753300B CN 202010608352 A CN202010608352 A CN 202010608352A CN 111753300 B CN111753300 B CN 111753300B
- Authority
- CN
- China
- Prior art keywords
- data
- contribution rate
- state
- value
- alpha
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 42
- 230000002787 reinforcement Effects 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 17
- 230000009466 transformation Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 230000001186 cumulative effect Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 2
- 238000000513 principal component analysis Methods 0.000 claims 2
- 230000007704 transition Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 15
- 230000009471 action Effects 0.000 description 8
- 230000007123 defense Effects 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 231100000572 poisoning Toxicity 0.000 description 4
- 230000000607 poisoning effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002498 deadly effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向强化学习的检测防御异常数据方法和装置,包括以下步骤:采集场景a下小车正常驾驶状态作为样本数据,对样本数据采用PCA降维处理,得到前n个特征值的累计贡献率α以及变换矩阵P;基于DDPG算法建立场景a下自动驾驶训练模型,预训练自动驾驶训练模型,将状态转换过程存入经验回放缓冲区D;采集场景a下自动驾驶训练模型训练过程中的状态st,利用变换矩阵P对状态st降维处理,计算前n个特征值的累计贡献率α’;若||α‑α’||≥∈,则判定st异常,向对应的奖励值rt增加惩罚项并将更新后的状态转换过程存储在经验回放缓冲区D中;根据更新后的奖励值计算损失函数,利用损失函数更新主网络的参数。
Description
技术领域
本发明属于强化学习的防御领域,具体涉及一种面向强化学习的检测防御异常数据方法和装置。
背景技术
强化学习是近年来人工智能备受关注的方向之一,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。
但是,强化学习训练过程容易受到攻击,使得其训练集数据异常,影响了智能体在学习过程中对于决策的判断或者动作的选择,最终使智能体朝着失败的方向学习动作,这对于强化学习的决策安全应用领域是重大挑战。
目前,根据异常数据结构分布的特点,异常数据的检测防御方法可以大致分为两种:
第一种是对结构化数据的异常检测方法,其解决思想主要是通过与正常数据集差异较大的离群点,把离群点作为异常点。
但是这种方法一般会面临两种问题:一是需要定义一个清晰地决策边界,从而界定正常点与异常点;二是维数灾难及交叉指标计算之间的高频计算性能瓶颈。
随着研究的深入,该类异常数据检测主要通过图形位置分布、统计方法检测、距离检测、密度检测和矩阵分解检测等技术来界定正常点与异常点,以达到检测异常数据的目的。
第二种是对非结构化数据的异常检测防御方法。该方法常见于图像识别任务,通过对图像目标检测,识别出异常(故障)点,该方法主要通过数字图像处理、RCNN、YOLO等和SSD目标检测算法来实现。
强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用,随着强化学习的快速发展和应用,随之也会受到很多的对抗攻击等。同时,强化学习在安全决策领域(例如无人车驾驶场景)也存在自身决策漏洞或者受在训练过程中受到攻击的影响。
已有研究表明,通过决策中毒攻击可以通过改变训练集中的数据来使决策发生改变,从而使得智能体动作选取失误,智能体最终达不到学习目的。这种攻击对于无人驾驶等安全决策领域的应用是十分致命的。
在异常数据检测领域,面向强化学习的检测防御技术还没有很多的新进展。因此,强化学习的异常数据检测成为了安全应用领域中的重要挑战。
发明内容
本发明提供了一种面向强化学习的检测防御异常数据方法和装置,该方法和装置基于主成分分析法Principal Competent Ahalysis(PCA)对输入进行特征降维,得到前n个特征值的累计贡献率,将其与正常驾驶状态下前n个特征值的的累计贡献率进行比较,从而区分正常数据和异常数据,同时在训练过程中对异常输入得到的奖励值增加惩罚项,以达到数据异常的检测防御效果,避免在强化学习训练过程受到决策中毒攻击从而使训练数据集发生改变。
本发明解决其技术问题所采用的技术方案是:
一种面向强化学习的检测防御异常数据方法,包括以下步骤:
S1、采集场景a下小车正常驾驶状态作为样本数据,对样本数据采用PCA降维处理,得到前n个特征值的累计贡献率α以及相应的变换矩阵P;
S2、基于DDPG算法建立场景a下自动驾驶训练模型,预训练场景a下自动驾驶训练模型,将状态转换过程存入经验回放缓冲区D,所述的场景a下自动驾驶训练模型包括主网络、目标网络和经验回放缓冲区D;
S3、采集场景a下自动驾驶训练模型训练过程中的状态st,利用变换矩阵P对状态st进行降维处理,计算前n个特征值的累计贡献率α’;
S4、若||α-α’||≥∈,则判定st异常,向对应的奖励值rt增加惩罚项并将更新后的状态转换过程存储在经验回放缓冲区D中,所述的ξ的取值范围为ξ<0;
S5、根据更新后的奖励值计算损失函数,利用损失函数更新主网络的参数。
本发明还提供了一种面向强化学习的检测防御异常数据的装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现本发明所述的面向强化学习的检测防御异常数据方法。
本发明的有益效果主要表现在:
使用PCA对正常状态数据输入进行特征降维,得到变换矩阵;训练时,对输入的数据先进行降维并计算累积贡献率,正常数据和异常数据得到的累计贡献率有所差异,以此界定数据是否异常,及时检测到异常数据后,在强化学习训练过程中对异常数据得到的奖励值增加惩罚项,最终实现异常数据的防御效果。
附图说明
图1为本发明实施例提供的面向强化学习的检测防御异常数据方法的流程示意图。
图2为本发明实施例提供的PCA降维处理的原理示意图。
图3为本发明实施例提供的强化学习中DDPG算法结构的示意图。
图4为本发明实施例提供的基于PCA的数据检测防御示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
在自动驾驶训练模型的强化学习训练过程中,决策中毒攻击会导致训练过程中的状态st发生改变,使自动驾驶训练模型学习到一个错误的策略,从而选择一个不好的动作,使得自动驾驶训练模型学习错误。
基于此种情况,本发明所述的面向强化学习的检测防御异常数据方法通过比较训练过程中输入的状态st和正常行驶状态的累积贡献率,来检测状态st是否受到决策中毒攻击,若判定状态st存在异常,则在训练过程中对异常输入得到的奖励值增加惩罚项,即对得到该状态st的动作策略给予一定的惩罚,以保证训练效果,根据更新后的奖励值计算损失函数,利用损失函数更新主网络的参数,以达到异常数据的检测防御效果,从而增加强化学习训练过程的准确性,提高无人车自动驾驶决策的准确率,行驶的安全性。
参加图1~图4,实施例提供的一种面向强化学习的检测防御异常数据方法,包括以下步骤:
S1、采集场景a下小车正常驾驶状态作为样本数据,对样本数据采用PCA降维处理,得到前n个特征值的累计贡献率α以及相应的变换矩阵P。
S11、从训练数据存储区中采集场景a下T个时刻的小车正常驾驶状态数据xs组成矩阵X序列作为样本数据;
S12、根据式(1)对每个小车正常驾驶状态数据xs进行标准化处理得到ysij:
其中,ysij为ys中第i行第j列的数据,xsij为xs中第i行第j列的数据,μi为第i行数据的均值,σj为第j行数据的标准差;
S13、根据式(2)计算协方差矩阵S,
其中,ysi是ys矩阵中第i行数据,是ys矩阵中第i行数据的转置;
S14、计算协方差矩阵S的特征值λk(k=1,2,…,m)和对应的特征向量ak(k=1,2,…,m);
S15、将特征值λk按照从大到小排列,λ1≥λ2≥…≥λm;选择累计贡献率大于阈值的前n个特征值对应的特征向量(a1,…,an)组成m行n列的变换矩阵P,前n个特征值的累积贡献率为主成分的累计贡献率α,累计贡献率α的计算公式如式(3)所示;
或者,根据式(4)计算每个特征值的贡献率ηk,将贡献率按照从大到小排列η1≥η2≥…≥ηm,选择累计贡献率大于阈值的前n个特征值对应的特征向量(a1,…,an)组成m行n列的变换矩阵P,前n个特征值的累积贡献率为主成分的累计贡献率α,累计贡献率α的计算公式如式(5)所示。
S2、基于DDPG算法建立场景a下自动驾驶训练模型,预训练场景a下自动驾驶训练模型,将状态转换过程存入经验回放缓冲区D,所述的场景a下自动驾驶训练模型包括主网络、目标网络和经验回放缓冲区D。
S3、采集场景a下自动驾驶训练模型训练过程中的状态st,利用变换矩阵P对状态st进行降维处理,计算前n个特征值的累计贡献率α’。
S31、采集场景a下自动驾驶训练模型训练过程中的状态st;
S32、根据式(6)利用变换矩阵P对状态st进行降维处理得到状态st’;
st’=st·P (6)
S33、计算状态st’的特征值λ’k(k=1,2,…,m),将特征值λ’k按照从大到小排列λ’1≥λ’2≥…≥λ’m,根据式(7)计算前n个特征值的累计贡献率α’;
或者根据式(8)计算每个特征值λ’k的贡献率η’k,将贡献率按照从大到小排列η’1≥η’2≥…≥η’m,根据式(9)计算前n个特征值的累积贡献率α’。
S4、若||α-α’||≥∈,则判定st异常,向对应的奖励值rt增加惩罚项并将更新后的状态转换过程存储在经验回放缓冲区D中,所述的ξ的取值范围为ξ<0。
S5、根据更新后的奖励值计算损失函数,利用损失函数更新主网络的参数。
S51、从经验回放缓冲区D中采样小批量N个状态转换过程(st,at,rt,st+1),通过最小化损失函数来更新主网络的主价值Q网络中的参数θQ;
其中,at表示在t时刻的选择的动作,st表示在t时刻的状态,θQ为主网络的主价值Q网络的参数;Q(st,at|θQ)表示在主网络的主价值Q网络的参数为θQ,输入st和at时,主网络的主价值Q网络的预测输出Q值;
zt=rt+γQ’(st+1,μ’(st+1|θμ’)|θQ’) (11)
其中,r0是初始奖励值;γ为衰减因子,取值范围为[0,1],st+1表示t+1时刻的状态,θμ’为目标网络的目标策略网络μ’的参数,θQ’为目标网络的目标价值Q网络的参数,μ’(st+1|θμ)表示参数θμ下,输入st+1时,目标策略网络的预测输出策略值;Q’(st+1,μ’(st+1|θμ)|θQ)表示θQ下,输入st+1和μ’(st+1|θμ’)时,目标价值Q网络的预测输出Q值。
S52、根据更新后的主价值Q网络中的参数θQ计算主网络的策略梯度,利用策略梯度来更新主网络的主策略网络的策略参数θμ,
其中,代表损失函数对策略参数θμ求导,/>代表主网络中的Q函数对策略参数θμ求导,/>代表主网络的策略函数对策略参数θμ求导。
强化学习中的DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来,采用了确定性策略μ来选取动作at=μ(st|θμ),θμ是产生确定性动作的策略网络μ(s,θμ)的策略参数,以μ(s)来充当actor,θQ是价值Q网络Q(s,a,θQ)的参数,以Q(s,a)函数来充当critic。为提高训练稳定性,同时为策略网络和价值网络引入目标网络。
通过软更新的方式更新目标网络中参数θQ’和θμ’:
θQ’←τθQ+(1-τ)θQ’ (14)
θμ′←τθμ+(1-τ)θμ’ (15)
其中,θQ’为目标网络的目标价值Q网络Q’(s,a,θQ’)的参数,θQ为主价值Q网络Q(s,a,θQ)的参数,τ为软更新中的超参数,取(0,1)之间的值;其中,θμ’为目标网络的目标策略网络μ′(s,θμ’)的参数,θμ为主策略网络μ(s,θμ)的策略参数。
实施例还提供了一种面向强化学习的检测防御异常数据的装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述面向强化学习的检测防御异常数据方法。
Claims (6)
1.一种面向强化学习的检测防御异常数据方法,其特征在于,包括以下步骤:
S1、采集场景a下小车正常驾驶状态作为样本数据,对样本数据采用主成分分析PCA降维处理,得到前n个特征值的第一累计贡献率α以及相应的变换矩阵P,具体如下:
S11、从训练数据存储区中采集场景a下T个时刻的小车正常驾驶状态数据xs组成矩阵X序列作为样本数据;
S12、根据式(1)对每个小车正常驾驶状态数据xs进行标准化处理得到ys:
其中,为ys中第i行第j列的数据,/>为xs中第i行第j列的数据,μi为第i行数据的均值,σj为第j行数据的标准差;
S13、根据式(2)计算协方差矩阵S,
其中,是ys矩阵中第i行数据,/>是ys矩阵中第i行数据的转置;
S14、计算协方差矩阵S的特征值λk和对应的特征向量ak,k=1,2,···,m;
S15、将特征值λk按照从大到小排列,λ1≥λ2≥···≥λm;选择累计贡献率大于阈值的前n个特征值对应的特征向量(a1,···,an)组成m行n列的变换矩阵P,前n个特征值的累积贡献率为主成分的第一累计贡献率α,第一累计贡献率α的计算公式如式(3)所示;
或者,根据式(4)计算每个特征值的贡献率ηk,将贡献率按照从大到小排列η1≥η2≥···≥ηm,选择累计贡献率大于阈值的前n个特征值对应的特征向量(a1,···,an)组成m行n列的变换矩阵P,前n个特征值的累积贡献率为主成分的第一累计贡献率α,第一累计贡献率α的计算公式如式(5)所示;
S2、基于DDPG算法建立场景a下自动驾驶训练模型,预训练场景a下自动驾驶训练模型,将状态转换过程存入经验回放缓冲区D,所述的场景a下自动驾驶训练模型包括主网络、目标网络和经验回放缓冲区D;
S3、采集场景a下自动驾驶训练模型训练过程中的状态st,利用变换矩阵P对状态st进行降维处理,计算前n个特征值的第二累计贡献率α’,
具体如下:
S31、采集场景a下自动驾驶训练模型训练过程中的状态st;
S32、根据式(6)利用变换矩阵P对状态st进行降维处理得到状态st’;
st’=st·P (6)
S33、计算状态st’的特征值λ’k,k=1,2,···,m,将特征值λ’k按照从大到小排列λ’1≥λ’2≥···≥λ’m,根据式(7)计算前n个特征值的第二累计贡献率α’;
或者根据式(8)计算每个特征值λ’k的贡献率η’k,将贡献率按照从大到小排列η’1≥η’2≥···≥η’m,根据式(9)计算前n个特征值的第二累积贡献率α’,
S4、若‖α-α’‖≥∈,则判定st异常,向对应的奖励值rt增加惩罚项并将更新后的状态转换过程存储在经验回放缓冲区D中,所述的ξ的取值范围为ξ<0;
S5、根据更新后的奖励值计算损失函数,利用损失函数更新主网络的参数。
2.根据权利要求1所述的面向强化学习的检测防御异常数据方法,其特征在于,根据更新后的奖励值计算损失函数,利用损失函数更新主网络的参数,具体如下:
S51、通过最小化损失函数更新主网络的主价值Q网络中的参数θQ;
S52、根据更新后的主价值Q网络中的参数θQ计算主网络的策略梯度,利用策略梯度来更新主网络的主策略网络的策略参数θμ。
3.根据权利要求1所述的面向强化学习的检测防御异常数据方法,其特征在于,步骤S15中所述的阈值≥85%。
4.根据权利要求1所述的面向强化学习的检测防御异常数据方法,其特征在于,所述的∈的取值范围为[5%,10%]。
5.根据权利要求1所述的面向强化学习的检测防御异常数据方法,其特征在于,所述的ξ的取值范围为[-80,-100]。
6.一种面向强化学习的检测防御异常数据的装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行所述计算机程序时实现权利要求1~5任意一项所述的面向强化学习的检测防御异常数据方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010608352.0A CN111753300B (zh) | 2020-06-29 | 2020-06-29 | 面向强化学习的检测防御异常数据方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010608352.0A CN111753300B (zh) | 2020-06-29 | 2020-06-29 | 面向强化学习的检测防御异常数据方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753300A CN111753300A (zh) | 2020-10-09 |
CN111753300B true CN111753300B (zh) | 2024-03-19 |
Family
ID=72678138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010608352.0A Active CN111753300B (zh) | 2020-06-29 | 2020-06-29 | 面向强化学习的检测防御异常数据方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753300B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347568B (zh) * | 2020-11-27 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 一种仿真测试的方法、相关装置、设备及存储介质 |
CN112560039B (zh) * | 2020-12-25 | 2023-04-18 | 河南交通职业技术学院 | 一种计算机安全防护方法 |
CN113382413B (zh) * | 2021-06-07 | 2022-09-27 | 西安电子科技大学 | 基于机器学习的智能无人设备组网异常检测方法及系统 |
CN113783841B (zh) * | 2021-08-06 | 2022-11-22 | 成都墨甲信息科技有限公司 | 工业物联网入侵检测网络架构构建方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991027A (zh) * | 2019-11-27 | 2020-04-10 | 华南理工大学 | 一种基于虚拟场景训练的机器人模仿学习方法 |
CN111310915A (zh) * | 2020-01-21 | 2020-06-19 | 浙江工业大学 | 一种面向强化学习的数据异常检测防御方法 |
CN111339690A (zh) * | 2019-04-26 | 2020-06-26 | 成都蓉奥科技有限公司 | 一种基于期望值函数的深度强化学习训练加速方法 |
-
2020
- 2020-06-29 CN CN202010608352.0A patent/CN111753300B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339690A (zh) * | 2019-04-26 | 2020-06-26 | 成都蓉奥科技有限公司 | 一种基于期望值函数的深度强化学习训练加速方法 |
CN110991027A (zh) * | 2019-11-27 | 2020-04-10 | 华南理工大学 | 一种基于虚拟场景训练的机器人模仿学习方法 |
CN111310915A (zh) * | 2020-01-21 | 2020-06-19 | 浙江工业大学 | 一种面向强化学习的数据异常检测防御方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111753300A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753300B (zh) | 面向强化学习的检测防御异常数据方法和装置 | |
CN111310915B (zh) | 一种面向强化学习的数据异常检测防御方法 | |
CN110135314B (zh) | 一种基于深度轨迹预测的多目标跟踪方法 | |
CN111241952B (zh) | 一种离散制造场景中的强化学习奖励自学习方法 | |
CN110134774B (zh) | 一种基于注意力决策的图像视觉问答模型、方法和系统 | |
CN109067773A (zh) | 一种基于神经网络的车载can网络入侵检测方法及系统 | |
CN111416797B (zh) | 改进天牛群算法优化正则化极限学习机的入侵检测方法 | |
CN113435644B (zh) | 基于深度双向长短期记忆神经网络的突发事件预测方法 | |
Bai et al. | Adversarial examples construction towards white-box Q table variation in DQN pathfinding training | |
CN113298252B (zh) | 一种面向深度强化学习的策略异常检测方法和装置 | |
CN113033555B (zh) | 基于度量学习的视觉slam闭环检测方法 | |
Analikwu et al. | Multi-agent learning in the game of guarding a territory | |
CN116341605A (zh) | 一种基于反向学习策略的灰狼算法混合优化方法 | |
Lee et al. | Performance enhancement for neural fuzzy systems using asymmetric membership functions | |
Prasad et al. | Online Identification of Self‐Organizing Fuzzy Neural Networks for Modeling Time‐Varying Complex Systems | |
CN113126489A (zh) | 一种基于cnn-gru-binn的重型燃气轮机控制系统智能bit设计方法 | |
Osogami et al. | Determinantal reinforcement learning | |
CN115909027B (zh) | 一种态势估计方法及装置 | |
CN117253161A (zh) | 基于特征校正和多级对抗防御的遥感图像深度识别方法 | |
Sun et al. | Training RBF neural network via quantum-behaved particle swarm optimization | |
Pang et al. | Autonomous control of a particle accelerator using deep reinforcement learning | |
CN115718497A (zh) | 一种多无人艇避碰决策方法 | |
CN113807230B (zh) | 基于主动强化学习的装备目标识别方法及装置 | |
Datta et al. | Kohonen network modelling for the strength of thermomechanically processed HSLA steel | |
CN115510986A (zh) | 一种基于AdvGAN的对抗样本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |