CN111310915A - 一种面向强化学习的数据异常检测防御方法 - Google Patents
一种面向强化学习的数据异常检测防御方法 Download PDFInfo
- Publication number
- CN111310915A CN111310915A CN202010071877.5A CN202010071877A CN111310915A CN 111310915 A CN111310915 A CN 111310915A CN 202010071877 A CN202010071877 A CN 202010071877A CN 111310915 A CN111310915 A CN 111310915A
- Authority
- CN
- China
- Prior art keywords
- state data
- driving state
- network
- data
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向强化学习的异常数据检测防御方法,包括:(1)搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法进行强化学习,生成驾驶状态数据作为训练样本;(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络;(3)采集的驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据;(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据。
Description
技术领域
本发明属于面向强化学习的防御领域,具体涉及一种面向强化学习的异常数据检测防御方法。
背景技术
强化学习是近年来人工智能备受关注的方向之一,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。但是,强化学习训练过程容易受到攻击,使得其训练集数据异常,影响了智能体在学习过程中对于决策的判断或者动作的选择,最终使智能体朝着失败的方向学习动作,这对于强化学习的决策安全应用领域是重大挑战。
目前,根据异常数据结构分布的特点,异常数据的检测防御方法可以大致分为两种。一种是对结构化数据的异常检测方法,其解决思想主要是通过与正常数据集差异较大的离群点,把离群点作为异常点。但是这种方法一般会面临两种问题:一是需要定义一个清晰地决策边界,从而界定正常点与异常点;二是维数灾难及交叉指标计算之间的高频计算性能瓶颈。随着研究的深入,该类异常数据检测主要通过图形位置分布、统计方法检测、距离检测、密度检测和矩阵分解检测等技术来界定正常点与异常点,以达到检测异常数据的目的。第二种是对非结构化数据的异常检测防御方法。该方法常见于图像识别任务,通过对图像目标检测,识别出异常(故障)点,该方法主要通过数字图像处理、RCNN、YOLO等和SSD目标检测算法来实现。
随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。在异常数据检测领域,面向强化学习的检测防御技术还没有很多的新进展。因此,强化学习的异常数据检测成为了安全应用领域中的重要挑战。已有研究表明,通过决策中毒攻击可以通过改变训练集中的奖励来使决策发生改变,从而使训练集中的策略中毒,动作选取失误,最终使智能体达不到学习目的。这种攻击对于无人驾驶等安全决策领域的应用是十分致命的。
发明内容
本发明基于这种中毒攻击场景,提出了一种面向强化学习的异常数据检测防御方法。该防御方法基于双向生成式对抗网络(Generative Adversaria Networks,GAN)进行异常数据检测,通过比较正常数据样本和观测到的数据样本分布情况,来界定正常数据和异常数据,以达到异常数据检测的效果。
本发明的技术方案为:
一种面向强化学习的异常数据检测防御方法,包括以下步骤:
(1)搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)进行强化学习,生成驾驶状态数据作为训练样本;
(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络;
(3)采集驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据;
(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据。
优选地,所述采用深度确定性策略梯度算法进行强化学习生成驾驶状态数据包括:
利用主网络的主策略网络基于当前时刻的驾驶状态数据st产生动作at,并利用主网络的主价值Q网络计算动作at的奖励值rt,并将当前时刻的驾驶状态数据st、动作at、奖励值rt以及下一时刻的驾驶状态数据st+1存储到缓冲区内;
利用目标网络的目标价值Q网络根据缓冲区的奖励值rt和驾驶状态数据st+1计算累积奖励值r,根据奖励值和累积奖励值计算损失函数,利用损失函数更新主价值Q网络的参数;
根据参数更新后的主价值Q网络计算的动作at的更新价值和主策略网络产生的动作变化值计算累计奖励函数的梯度,利用该梯度来更新主策略网络的参数;
根据主策略网络参数和主价值Q网络参数采用软更新方式更新目标策略网络参数和目标价值Q网络参数。
优选地,所述生成器用于根据当前时刻的驾驶状态数据生成下一时刻的预测驾驶状态数据,所述生成器包括:生成器网络模型使用3层卷积神经网络结构作为隐层,隐层中使用批标准化(batch normalization),使用ReLU作为激活函数,最后一层使用tanh激活函数,生成器模型优化器使用Adam优化器。
优选地,所述判别器是一个二分类判别器,用于判别下一时刻的预测驾驶状态数据和下一时刻的真实驾驶状态数据的真伪。
步骤(4)中,若所述判别器的输出表示其来自于真实驾驶状态数据,则表明预测驾驶状态数据和真实驾驶状态数据相似,该真实驾驶状态数据有效。
步骤(4)中,若所述判别器的输出表示其来自于生成器输出的预测驾驶状态数据,则表明预测驾驶状态数据异于真实驾驶状态数据,则认为真实驾驶状态数据脱离之前的预测驾驶状态数据分布,则将该真实驾驶状态数据作为异常数据点处理,利用预测驾驶状态数据取代真实驾驶状态数据。
与现有技术相比,本发明具有的有益效果为:
通过GAN网络可以检测出正常状态数据样本的分布情况;在强化学习过程中,可以利用训练好的GAN网络针对当前状态数据生成下一个时刻的预测驾驶状态数据,该预测驾驶状态数据与真实驾驶状态数据分布相接近,将其和观测到的下一时刻真实驾驶状态数据进行判别来界定观测到的数据是否异常,该过程在训练过程就可实行,可及时替换掉异常状态数据。实现了对异常数据检测的防御。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的面向强化学习的异常数据检测防御方法的流程图;
图2是本发明实施例提供的GAN网络的工作示意图;
图3是本发明实施例提供的利用训练好的GAN网络进行异常数据检测防御的工作流程图;
图4是本发明实施例提供的深度确定性策略梯度算法的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
参加图1~图4,实施例提供的一种面向强化学习的异常数据检测防御方法,包括以下步骤:
S101,搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法进行强化学习,生成驾驶状态数据作为训练样本。
搭建强化学习小车自动驾驶模拟环境;基于强化学习中的深度确定性决策梯度算法(DDPG)训练小车Player,Player的目标是尽可能快地安全到达目的地。
训练过程中,将状态转换过程(状态、动作、奖励、下一个状态)存储在经验回放缓冲区D中,作为训练数据集;从D中采样N个训练数据集,通过最小化实际累积的奖励函数和动作值Q函数之间的损失函数来更新主网络的主价值Q网路的网络参数;通过计算动作值函数的梯度来更新主网络的主策略网络的策略参数;通过软更新的方式来更新目标网络参数。
强化学习中的DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来,采用了确定性策略μ来选取动作at=μ(st|θμ),其中at表示在t时刻的选择的动作,st表示在t时刻的状态,θμ是产生确定性动作的策略网络μ(s,θμ)的参数,以μ(s)来充当actor,θQ是价值Q网络Q(s,a,θQ)的参数,以Q(s,a)函数来充当critic。为提高训练稳定性,同时为策略网络和价值网络引入目标网络。其算法步骤如下:
(a)根据当前策略和探索噪声Nt(高斯分布)选择动作at=μ(st|θμ)+Nt,执行该动作at后,获取奖励rt和下一个状态st+1,将状态转换过程(st,at,rt,st+1)存到经验回放缓冲区D中;
(b)从D中采样小批量N个状态转换过程(si,ai,ri,si+1),通过最小化损失函数来更新价值网络中的的参数θQ:
其中yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′),Qμ(si,ai)=E[r(si,ai)+γQμ(si+1,μ(si+1))],γ为衰减因子,取[0,1]之间的值。
(c)通过计算预期的累计奖励函数的梯度来更新策略网络中的策略参数θμ:
(d)通过软更新的方式更新目标网络中目标价值Q网路和目标策略网络的参数θQ′和θμ′:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
S102,利用所述训练样本训练由生成器和判别器组成的生成式对抗网络。
GAN的目的是使生成数据与目标数据分布(训练集数据所代表的的分布),其中判别器D可以当作一个二分类器,采用交叉熵来表示:
其中minmax表示纳什均衡中的最大最小目标函数,pdata(xs)为来自样本数据的分布,第一项中的logD(x)表示判别器对真实数据的判断,第二项log(1-D(x))则表示对生成数据的判断通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的生成式网络和判别式网络,直至达到纳什均衡点。
具体的训练过程为:
2.1)将样本数据按一定的比例分为训练集和测试集;
2.2)将训练集中的正常小车驾驶状态数据分布xs输入到生成器G,生成器输出为下一时刻的状态数据x′s′;
2.3)将步骤2.2)的输出x′s′和训练集中下一时刻的真实正常状态xs′输入到判别器D中;用判别器的输出y来判别其数据是来自于真实数据的概率,从而检验生成器的输出是否合格;
2.4)重复步骤2.2)-2.3),直到生成器生成的数据样本符合判别器的要求为止;
2.5)用测试集中的数据重复步骤2.2)-2.3),检测生成式对抗网络(GAN)是否能正确生成预测状态数据。
S103,采集驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据。利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据。
具体过程为:
若判别器的输出表示其来自于生成器的输出数据,则表明预测状态数据异于真实状态数据即t+1时刻观测到的状态数据脱离之前的正常样本数据分布,则将该数据作为异常数据点处理,预测状态数据取代作为t+1时刻的状态数据存入训练数据集中;
3.3)重复步骤3.1)3.2),依次类推,继续检测T+2,T+3,...时刻的状态数据,直至将所有基于策略生成的状态数据检测完全。
上述异常数据检测防御方法在模拟小车自动驾驶的强化学习训练过程中,基于策略中毒的攻击方法会使学习者学习到一个错误的策略,从而选择一个不好的动作,使得学习者学习错误。基于此种情况,使用GAN来检测数据集中的状态数据是否异常。首先,利用正常的状态数据训练GAN网络,基于当前状态数据生成下一时刻的预测状态数据,与强化学习过程中下一时刻真实状态数据进行判别,检测该真实数据是否与之前的正常样本数据分布相似,以此来界定该数据是否异常。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种面向强化学习的异常数据检测防御方法,其特征在于,包括以下步骤:
(1)搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法进行强化学习,生成驾驶状态数据作为训练样本;
(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络;
(3)采集驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据;
(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据。
2.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述采用深度确定性策略梯度算法进行强化学习生成驾驶状态数据包括:
利用主网络的主策略网络基于当前时刻的驾驶状态数据st产生动作at,并利用主网络的主价值Q网络计算动作at的奖励值rt,并将当前时刻的驾驶状态数据st、动作at、奖励值rt以及下一时刻的驾驶状态数据st+1存储到缓冲区内;
利用目标网络的目标价值Q网络根据缓冲区的奖励值rt和驾驶状态数据st+1计算累积奖励值r,根据奖励值和累积奖励值计算损失函数,利用损失函数更新主价值Q网络的参数;
根据参数更新后的主价值Q网络计算的动作at的更新价值和主策略网络产生的动作变化值计算累计奖励函数的梯度,利用该梯度来更新主策略网络的参数;
根据主策略网络参数和主价值Q网络参数采用软更新方式更新目标策略网络参数和目标价值Q网络参数。
3.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述生成器用于根据当前时刻的驾驶状态数据生成下一时刻的预测驾驶状态数据,所述生成器包括:生成器网络模型使用3层卷积神经网络结构作为隐层,隐层中使用批标准化,使用ReLU作为激活函数,最后一层使用tanh激活函数,生成器模型优化器使用Adam优化器。
4.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述判别器是一个二分类判别器,用于判别下一时刻的预测驾驶状态数据和下一时刻的真实驾驶状态数据的真伪。
5.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,步骤(4)中,若所述判别器的输出表示其来自于真实驾驶状态数据,则表明预测驾驶状态数据和真实驾驶状态数据相似,该真实驾驶状态数据有效。
6.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,步骤(4)中,若所述判别器的输出表示其来自于生成器输出的预测驾驶状态数据,则表明预测驾驶状态数据异于真实驾驶状态数据,则认为真实驾驶状态数据脱离之前的预测驾驶状态数据分布,则将该真实驾驶状态数据作为异常数据点处理,利用预测驾驶状态数据取代真实驾驶状态数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071877.5A CN111310915B (zh) | 2020-01-21 | 2020-01-21 | 一种面向强化学习的数据异常检测防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071877.5A CN111310915B (zh) | 2020-01-21 | 2020-01-21 | 一种面向强化学习的数据异常检测防御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310915A true CN111310915A (zh) | 2020-06-19 |
CN111310915B CN111310915B (zh) | 2023-09-01 |
Family
ID=71161599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010071877.5A Active CN111310915B (zh) | 2020-01-21 | 2020-01-21 | 一种面向强化学习的数据异常检测防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310915B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753300A (zh) * | 2020-06-29 | 2020-10-09 | 浙江工业大学 | 面向强化学习的检测防御异常数据方法和装置 |
CN112052456A (zh) * | 2020-08-31 | 2020-12-08 | 浙江工业大学 | 基于多智能体的深度强化学习策略优化防御方法 |
CN112254274A (zh) * | 2020-10-21 | 2021-01-22 | 上海协格空调工程有限公司 | 基于机器学习技术的空调故障识别系统 |
CN112311733A (zh) * | 2019-07-30 | 2021-02-02 | 四川大学 | 一种基于强化学习优化xss检测模型防御对抗攻击的方法 |
CN112417771A (zh) * | 2020-12-10 | 2021-02-26 | 华中科技大学 | 机床主轴故障诊断模型建立方法及机床主轴故障诊断方法 |
CN112884130A (zh) * | 2021-03-16 | 2021-06-01 | 浙江工业大学 | 一种基于SeqGAN的深度强化学习数据增强防御方法和装置 |
CN112884131A (zh) * | 2021-03-16 | 2021-06-01 | 浙江工业大学 | 一种基于模仿学习的深度强化学习策略优化防御方法和装置 |
CN112904852A (zh) * | 2021-01-18 | 2021-06-04 | 国汽智控(北京)科技有限公司 | 一种自动驾驶控制方法、装置及电子设备 |
CN113079167A (zh) * | 2021-04-12 | 2021-07-06 | 西北工业大学 | 一种基于深度强化学习的车联网入侵检测方法及系统 |
CN113298252A (zh) * | 2021-05-31 | 2021-08-24 | 浙江工业大学 | 一种面向深度强化学习的策略异常检测方法和装置 |
CN113392396A (zh) * | 2021-06-11 | 2021-09-14 | 浙江工业大学 | 面向深度强化学习的策略保护防御方法 |
CN113420326A (zh) * | 2021-06-08 | 2021-09-21 | 浙江工业大学之江学院 | 面向深度强化学习的模型隐私保护方法和系统 |
CN113485313A (zh) * | 2021-06-25 | 2021-10-08 | 杭州玳数科技有限公司 | 自动驾驶车辆的抗干扰方法和装置 |
CN113746800A (zh) * | 2021-07-29 | 2021-12-03 | 北京七壹技术开发有限公司 | 一种智能多平台协同防御方法及系统 |
CN113780482A (zh) * | 2021-11-12 | 2021-12-10 | 中国科学院理化技术研究所 | 一种能量路由器异常智能检测方法 |
CN114048834A (zh) * | 2021-11-05 | 2022-02-15 | 哈尔滨工业大学(深圳) | 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 |
WO2022052406A1 (zh) * | 2020-09-08 | 2022-03-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN111731326B (zh) * | 2020-07-02 | 2022-06-21 | 知行汽车科技(苏州)有限公司 | 避障策略确定方法、装置及存储介质 |
CN115009291A (zh) * | 2022-05-23 | 2022-09-06 | 暨南大学 | 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 |
TWI781708B (zh) * | 2020-08-31 | 2022-10-21 | 日商歐姆龍股份有限公司 | 學習裝置、學習方法、學習程式、控制裝置、控制方法及控制程式 |
CN117237891A (zh) * | 2023-08-31 | 2023-12-15 | 唐山百川智能机器股份有限公司 | 交叉网络交通异常的检测方法、系统、终端及存储介质 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734276A (zh) * | 2018-04-28 | 2018-11-02 | 同济大学 | 一种基于对抗生成网络的模仿学习对话生成方法 |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN108923922A (zh) * | 2018-07-26 | 2018-11-30 | 北京工商大学 | 一种基于生成对抗网络的文本隐写方法 |
CN109242207A (zh) * | 2018-10-10 | 2019-01-18 | 中山大学 | 一种基于深度强化学习的金融时序数据预测方法 |
CN109318897A (zh) * | 2018-10-08 | 2019-02-12 | 苏州大学 | 基于自动推理机制的接管巡航方法及系统 |
CN109376862A (zh) * | 2018-10-29 | 2019-02-22 | 中国石油大学(华东) | 一种基于生成对抗网络的时间序列生成方法 |
CN109493599A (zh) * | 2018-11-16 | 2019-03-19 | 南京航空航天大学 | 一种基于生成式对抗网络的短时交通流预测方法 |
CN109886403A (zh) * | 2019-01-28 | 2019-06-14 | 中国石油大学(华东) | 一种基于神经网络模型的工业数据生成方法 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN109993222A (zh) * | 2019-03-25 | 2019-07-09 | 中国科学院上海高等研究院 | 数据异常检测系统及方法 |
CN110046712A (zh) * | 2019-04-04 | 2019-07-23 | 天津科技大学 | 基于生成模型的隐空间模型化策略搜索学习方法 |
WO2019171060A1 (en) * | 2018-03-06 | 2019-09-12 | Latent Logic Ltd | Control policy determination method and system |
CN110309861A (zh) * | 2019-06-10 | 2019-10-08 | 浙江大学 | 一种基于生成对抗网络的多模态人类活动识别方法 |
CN110489707A (zh) * | 2019-08-22 | 2019-11-22 | 苏州科技大学 | 一种基于gan网络的机器人逆运动学求解方法 |
EP3576020A1 (en) * | 2018-05-30 | 2019-12-04 | Siemens Healthcare GmbH | Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium |
KR20190134966A (ko) * | 2018-11-30 | 2019-12-05 | 남기헌 | 정책망 및 가치망을 이용한 온라인 쇼핑몰에서의 프로모션 성과 예측 및 추천 장치 |
CN110637308A (zh) * | 2017-05-10 | 2019-12-31 | 瑞典爱立信有限公司 | 用于虚拟化环境中的自学习代理的预训练系统 |
CN110647839A (zh) * | 2019-09-18 | 2020-01-03 | 深圳信息职业技术学院 | 自动驾驶策略的生成方法、装置及计算机可读存储介质 |
CN110705376A (zh) * | 2019-09-11 | 2020-01-17 | 南京邮电大学 | 一种基于生成式对抗网络的异常行为检测方法 |
-
2020
- 2020-01-21 CN CN202010071877.5A patent/CN111310915B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110637308A (zh) * | 2017-05-10 | 2019-12-31 | 瑞典爱立信有限公司 | 用于虚拟化环境中的自学习代理的预训练系统 |
WO2019171060A1 (en) * | 2018-03-06 | 2019-09-12 | Latent Logic Ltd | Control policy determination method and system |
US20210049415A1 (en) * | 2018-03-06 | 2021-02-18 | Waymo UK Ltd. | Behaviour Models for Autonomous Vehicle Simulators |
CN108734276A (zh) * | 2018-04-28 | 2018-11-02 | 同济大学 | 一种基于对抗生成网络的模仿学习对话生成方法 |
EP3576020A1 (en) * | 2018-05-30 | 2019-12-04 | Siemens Healthcare GmbH | Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN108923922A (zh) * | 2018-07-26 | 2018-11-30 | 北京工商大学 | 一种基于生成对抗网络的文本隐写方法 |
CN109318897A (zh) * | 2018-10-08 | 2019-02-12 | 苏州大学 | 基于自动推理机制的接管巡航方法及系统 |
CN109242207A (zh) * | 2018-10-10 | 2019-01-18 | 中山大学 | 一种基于深度强化学习的金融时序数据预测方法 |
CN109376862A (zh) * | 2018-10-29 | 2019-02-22 | 中国石油大学(华东) | 一种基于生成对抗网络的时间序列生成方法 |
CN109493599A (zh) * | 2018-11-16 | 2019-03-19 | 南京航空航天大学 | 一种基于生成式对抗网络的短时交通流预测方法 |
KR20190134966A (ko) * | 2018-11-30 | 2019-12-05 | 남기헌 | 정책망 및 가치망을 이용한 온라인 쇼핑몰에서의 프로모션 성과 예측 및 추천 장치 |
CN109886403A (zh) * | 2019-01-28 | 2019-06-14 | 中国石油大学(华东) | 一种基于神经网络模型的工业数据生成方法 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN109993222A (zh) * | 2019-03-25 | 2019-07-09 | 中国科学院上海高等研究院 | 数据异常检测系统及方法 |
CN110046712A (zh) * | 2019-04-04 | 2019-07-23 | 天津科技大学 | 基于生成模型的隐空间模型化策略搜索学习方法 |
CN110309861A (zh) * | 2019-06-10 | 2019-10-08 | 浙江大学 | 一种基于生成对抗网络的多模态人类活动识别方法 |
CN110489707A (zh) * | 2019-08-22 | 2019-11-22 | 苏州科技大学 | 一种基于gan网络的机器人逆运动学求解方法 |
CN110705376A (zh) * | 2019-09-11 | 2020-01-17 | 南京邮电大学 | 一种基于生成式对抗网络的异常行为检测方法 |
CN110647839A (zh) * | 2019-09-18 | 2020-01-03 | 深圳信息职业技术学院 | 自动驾驶策略的生成方法、装置及计算机可读存储介质 |
Non-Patent Citations (8)
Title |
---|
LI J, ET AL.: "Adversarial learning for neural dialogue generation", 《ARXIV》 * |
LILLICRAP T P, ET AL.: "Continuous control with deep reinforcement learning", 《ARXIV》 * |
LILLICRAP T P, ET AL.: "Continuous control with deep reinforcement learning", pages 1 - 8 * |
TALPAERT V, ET AL.: "Exploring applications of deep reinforcement learning for real-world autonomous driving systems", 《ARXIV》 * |
WANG F Y, ET AL.: "Parallel driving in CPSS: A unified approach for transport automation and vehicle intelligence", 《IEEE/CAA JOURNAL OF AUTOMATICA SINICA》 * |
YU L, ET AL.: "Seqgan: Sequence generative adversarial nets with policy gradient", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
吴宏杰,等: "强化学习与生成式对抗网络结合方法研究进展", 《计算机工程与应用》 * |
吴宏杰,等: "强化学习与生成式对抗网络结合方法研究进展", pages 2 - 7 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112311733A (zh) * | 2019-07-30 | 2021-02-02 | 四川大学 | 一种基于强化学习优化xss检测模型防御对抗攻击的方法 |
CN111753300A (zh) * | 2020-06-29 | 2020-10-09 | 浙江工业大学 | 面向强化学习的检测防御异常数据方法和装置 |
CN111753300B (zh) * | 2020-06-29 | 2024-03-19 | 浙江工业大学 | 面向强化学习的检测防御异常数据方法和装置 |
CN111731326B (zh) * | 2020-07-02 | 2022-06-21 | 知行汽车科技(苏州)有限公司 | 避障策略确定方法、装置及存储介质 |
CN112052456A (zh) * | 2020-08-31 | 2020-12-08 | 浙江工业大学 | 基于多智能体的深度强化学习策略优化防御方法 |
TWI781708B (zh) * | 2020-08-31 | 2022-10-21 | 日商歐姆龍股份有限公司 | 學習裝置、學習方法、學習程式、控制裝置、控制方法及控制程式 |
CN112052456B (zh) * | 2020-08-31 | 2024-07-19 | 浙江工业大学 | 基于多智能体的深度强化学习策略优化防御方法 |
WO2022052406A1 (zh) * | 2020-09-08 | 2022-03-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN112254274A (zh) * | 2020-10-21 | 2021-01-22 | 上海协格空调工程有限公司 | 基于机器学习技术的空调故障识别系统 |
CN112417771A (zh) * | 2020-12-10 | 2021-02-26 | 华中科技大学 | 机床主轴故障诊断模型建立方法及机床主轴故障诊断方法 |
CN112904852A (zh) * | 2021-01-18 | 2021-06-04 | 国汽智控(北京)科技有限公司 | 一种自动驾驶控制方法、装置及电子设备 |
CN112884130A (zh) * | 2021-03-16 | 2021-06-01 | 浙江工业大学 | 一种基于SeqGAN的深度强化学习数据增强防御方法和装置 |
CN112884131A (zh) * | 2021-03-16 | 2021-06-01 | 浙江工业大学 | 一种基于模仿学习的深度强化学习策略优化防御方法和装置 |
CN113079167A (zh) * | 2021-04-12 | 2021-07-06 | 西北工业大学 | 一种基于深度强化学习的车联网入侵检测方法及系统 |
CN113079167B (zh) * | 2021-04-12 | 2022-02-22 | 西北工业大学 | 一种基于深度强化学习的车联网入侵检测方法及系统 |
CN113298252B (zh) * | 2021-05-31 | 2024-02-13 | 浙江工业大学 | 一种面向深度强化学习的策略异常检测方法和装置 |
CN113298252A (zh) * | 2021-05-31 | 2021-08-24 | 浙江工业大学 | 一种面向深度强化学习的策略异常检测方法和装置 |
CN113420326B (zh) * | 2021-06-08 | 2022-06-21 | 浙江工业大学之江学院 | 面向深度强化学习的模型隐私保护方法和系统 |
CN113420326A (zh) * | 2021-06-08 | 2021-09-21 | 浙江工业大学之江学院 | 面向深度强化学习的模型隐私保护方法和系统 |
CN113392396B (zh) * | 2021-06-11 | 2022-10-14 | 浙江工业大学 | 面向深度强化学习的策略保护防御方法 |
CN113392396A (zh) * | 2021-06-11 | 2021-09-14 | 浙江工业大学 | 面向深度强化学习的策略保护防御方法 |
CN113485313A (zh) * | 2021-06-25 | 2021-10-08 | 杭州玳数科技有限公司 | 自动驾驶车辆的抗干扰方法和装置 |
CN113746800A (zh) * | 2021-07-29 | 2021-12-03 | 北京七壹技术开发有限公司 | 一种智能多平台协同防御方法及系统 |
CN114048834A (zh) * | 2021-11-05 | 2022-02-15 | 哈尔滨工业大学(深圳) | 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 |
CN113780482A (zh) * | 2021-11-12 | 2021-12-10 | 中国科学院理化技术研究所 | 一种能量路由器异常智能检测方法 |
CN115009291A (zh) * | 2022-05-23 | 2022-09-06 | 暨南大学 | 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 |
CN117237891A (zh) * | 2023-08-31 | 2023-12-15 | 唐山百川智能机器股份有限公司 | 交叉网络交通异常的检测方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111310915B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310915A (zh) | 一种面向强化学习的数据异常检测防御方法 | |
US12059619B2 (en) | Information processing method and apparatus, computer readable storage medium, and electronic device | |
US20210390416A1 (en) | Variable parameter probability for machine-learning model generation and training | |
CN109067773B (zh) | 一种基于神经网络的车载can网络入侵检测方法及系统 | |
CN112884131A (zh) | 一种基于模仿学习的深度强化学习策略优化防御方法和装置 | |
CN114757351B (zh) | 一种深度强化学习模型对抗攻击的防御方法 | |
CN113255936A (zh) | 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置 | |
CN113298252B (zh) | 一种面向深度强化学习的策略异常检测方法和装置 | |
CN111753300A (zh) | 面向强化学习的检测防御异常数据方法和装置 | |
CN113743509B (zh) | 一种基于不完全信息的在线作战意图识别方法及装置 | |
CN114925850B (zh) | 一种面向扰动奖励的深度强化学习对抗防御方法 | |
CN114127747A (zh) | 用于分布外检测的似然比 | |
Riyahi et al. | Multiobjective whale optimization algorithm‐based feature selection for intelligent systems | |
CN110807291B (zh) | 一种基于拟态对抗学习机制的现场态势未来引导技术 | |
CN114863226A (zh) | 一种网络物理系统入侵检测方法 | |
CN113822443A (zh) | 一种对抗攻击和生成对抗样本的方法 | |
Chadha et al. | Hybrid genetic fuzzy rule based inference engine to detect intrusion in networks | |
CN117350364A (zh) | 基于知识蒸馏的代码预训练模型对抗样本生成方法及系统 | |
CN116524316A (zh) | 强化学习框架下场景图骨架构建方法 | |
Liu et al. | Network intrusion detection based on chaotic multi-verse optimizer | |
CN114997306A (zh) | 一种基于动态贝叶斯网络的目标意图识别方法 | |
Sharif et al. | ReMAV: Reward Modeling of Autonomous Vehicles for Finding Likely Failure Events | |
CN113599823B (zh) | 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法 | |
CN113283537B (zh) | 面向成员推理攻击的基于参数共享的深度模型隐私保护方法和装置 | |
CN117556681B (zh) | 一种智能空战决策方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |