CN113298252A - 一种面向深度强化学习的策略异常检测方法和装置 - Google Patents
一种面向深度强化学习的策略异常检测方法和装置 Download PDFInfo
- Publication number
- CN113298252A CN113298252A CN202110598324.XA CN202110598324A CN113298252A CN 113298252 A CN113298252 A CN 113298252A CN 202110598324 A CN202110598324 A CN 202110598324A CN 113298252 A CN113298252 A CN 113298252A
- Authority
- CN
- China
- Prior art keywords
- state
- network
- action
- state action
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 230000009471 action Effects 0.000 claims abstract description 129
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000004088 simulation Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241001125929 Trisopterus luscus Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向深度强化学习的策略异常检测方法和装置,包括:利用采集的状态样本对DDPG网络进行强化学习;构建包含行动者网络和判别器的模仿学习网络,利用采集的状态样本和专家状态动作对对模仿学习网络进行训练;利用参数优化的DDPG网络基于输入的状态样本生成状态动作对,利用参数优化的判别器对状态动作对进行判别,当判别结果为1时,认为动作未受到攻击;当判别结果为0时,认为状动作存在异常;当动作存在异常时,且动作幅度差异在阈值范围外,说明动作受到攻击,利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对,以指导DDPG网络在后续阶段的强化学习过程中做出正确决策。
Description
技术领域
本发明属于深度强化学习的安全防御领域,具体涉及一种面向深度强化学习的策略异常检测方法和装置。
背景技术
伴随着人工智能技术的不断发展,深度强化学习(Deep ReinforcementLearning,DRL)方法自提出以来就一直受到广大专家学者的重视与青睐。在在自动驾驶、机器人控制、游戏博弈、医疗健康等领域都有了深入的发展并被广泛应用。作为人工智能领域不可或缺的一种重要技术,DRL的方法也在不断地被扩充。RL是DRL中关键的一环,其核心是代理通过不断最大化回报奖励从而得到一个相对较优的策略。但相关研究表明智能体在策略执行阶段容易受到对抗攻击,攻击者对智能体将要执行动作时修改其动作值,会对智能体接下来的动作分布产生较大的偏差,从而导致其向一个错误甚至危险方向运动,最终导致智能体学习失败,在强化学习的决策安全领域这是一个不容忽视的挑战。尤其在自动驾驶场景下是十分致命的。
基于此,对深度强化学习的异常策略检测十分重要,现如今检测异常策略的方法主要有以下两种:基于元学习的对抗检测和基于预测模型的对抗检测。这两种方法都属于对抗样本与正常样本的甄别方法,在不破坏模型本身参数的前提下,再对对抗样本进行处理。
基于元学习的对抗检测方法采用了一种监督机制,主导智能体的主要作用是监视对应的子策略,根据一段时间内子策略所获得的累积回报奖励值来判定是否执行子策略。因为主智能体对相应的子策略事先已经设定好了对应的预期阈值,当决策动作受到对抗攻击,主智能体就能立马感知到并马上更换当前的子策略。基于预测模型的对抗检测方法基于动作条件帧预测模型,对抗样本的确定是根据目标策略对应的预测帧与现实帧之间动作分布的差异,若现实帧被确定为对抗样本,则智能体就会自动选择预测帧来取代现实帧作为输入并执行相应的动作。
以上两种异常策略检测方法检测效果不佳,迫切地需要一种效果更好的异常策略检测方法。
发明内容
鉴于上述,本发明的目的是提供一种面向深度强化学习的策略异常检测方法和装置,实现对深度强化学习策略的异常检测。
第一方面,一种面向深度强化学习的策略异常检测方法,包括以下步骤:
构建自动驾驶场景,利用自动驾驶场景采集的状态样本对DDPG网络进行强化学习,优化DDPG网络的参数;
构建包含行动者网络和判别器的模仿学习网络,利用自动驾驶场景采集的状态样本和专家状态动作对对模仿学习网络进行训练,优化行动者网络和判别器的参数;
利用参数优化的DDPG网络基于输入的状态样本生成动作,形成状态动作对,利用参数优化的判别器对状态动作对进行判别,当判别结果为1时,认为状态动作对中的动作未受到攻击,当判别结果为0时,认为状态动作对中的动作存在异常;
当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围外,说明动作受到攻击,利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对,利用模仿学习网络生成的状态动作指导DDPG网络在后续阶段的强化学习过程中做出正确决策。
优选地,当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围内,则认为是系统误差生成的物理扰动,不进行状态动作对的替换。
优选地,所述动作幅度差异为DDPG网络生成的动作与专家动作之间的差异。
优选地,所述阈值范围为±5°。
优选地,利用自动驾驶场景采集的状态样本和专家样本对模仿学习网络进行训练时,将状态样本输入至行动者网络,生成状态动作对,并计算状态动作对的第一奖励函数值,同时计算专家状态动作对的第二奖励函数值,以第第二奖励函数值大于第一奖励函数值为目标,不断寻找奖励函数,并利用奖励函数更新行动者网络的参数;
将行动者网络生成的状态动作对和专家状态动作对输入至判别器,通尽可能多地利用专家状态动作对,减少利用状态动作对,来更新判别器的参数,通过判别器的输出来判定状态动作对是否无限接近专家状态动作对,当判别器的输出为0时,表明判别器训练结束。
第二方面,实施例提供的一种面向深度强化学习的策略异常检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,所述处理器执行计算机程序时实现第一方面所述的面向深度强化学习的策略异常检测方法。
上述实施例提供的面向深度强化学习的策略异常检测方法具有的有益效果至少包括:通过模仿学习网络模型可以生成一个比较好的状态动作分布;强化学习过程生成的状态动作分布可以利用模仿学习中训练好的判别器网络来检测其动作是否受到对抗攻击;检测到对抗攻击后可以直接用通过模仿学习生成的较优样本与之进行替换;4)该过程在检测阶段实时性强,可行性高,在某种程度上可以尽量避免对抗攻击所造成的严重损失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例提供的面向深度强化学习的策略异常检测方法的流程图;
图2是一实施例提供的DDPG网络的训练过程示意图;
图3是一实施例提供的行动者网络的训练过程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
针对例如自动驾驶决策场景等强化学习安全决策领域,由于其本身也可能存在未检测到的决策漏洞,并且也容易受到对抗攻击的影响,导致的安全隐患的问题。尤其是智能车在自动驾驶过程中,在动作执行阶段容易受到对抗攻击,这可能使智能体朝一个错误甚至危险的方向运动。鉴于此,实施例提供了一种面向深度强化学习的策略异常检测方法和装置,以区分正常策略和异常策略。主要的技术构思为:首先通过模仿学习生成与之前训练好的专家样本无限接近的状态动作对,再将通过强化学习生成的状态动作对输入模仿学习网络中训练好的判别器进行判别,检测所生成的状态动作分布与通过模仿学习训练生成的状态动作分布是否相似,若不相似,则再进行替换。
图1是一实施例提供的面向深度强化学习的策略异常检测方法的流程图。如图1所示,实施例提供的策略异常检测方法,包括以下步骤:
步骤1,构建自动驾驶场景,利用自动驾驶场景采集的状态样本对DDPG网络进行强化学习,优化DDPG网络的参数。
深度确定性决策梯度算法DDPG,顾名思义是由AC(Actor-Critic)算法,DQN(DeepQ-Network)以及DPG(Deterministic policy gradient)确定性策略梯度算法演变而来。如图2所示,在DDPG算法中,将Q(s,a|θQ)视为critic网络,将μ(s|θμ)当做actor网络,其中的θQ和θμ分别为critic和actor的网络参数。智能体在t时刻选取的动作at=μ(st|θμ)由确定性策略μ来选取,其中st表示智能体在t时刻的状态。与传统的DQN不同的是,传统的DQN采用的是一种被称为'hard'模式的target-net网络参数更新,即每隔一定的步数就将evaluate-net(估计网络)中的网络参数赋值给target-net(目标网络),而在DDPG中,为了提高学习的稳定性,所采用的是一种'soft'模式的target-net网络参数更新,即每一步都只对target-net网络的参数更新一小部分。
DDPG网络的训练过程为:
(a)根据当前的策略和探索噪声Nt(高斯分布)选择动作at=μ(st|θμ)+Nt,执行该动作at后,获取奖励st和下一个状态st+1,将状态转换过程(st,at,rt,st+1)存放至经验回放池R中;
(b)从R中随机采样小批量N个状态的转换过程(si,ai,ri,si+1),通过最小化损失函数来更新价值网络中的的参数θQ:
设定yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′),Qμ(si,ai)=E[r(si,ai)+γQμ(si+1,μ(si+1))],其中γ为衰减因子,γ∈[0,1]。
(c)通过计算预期的累计奖励函数的梯度来更新策略网络中的策略参数θμ:
(d)通过软更新的方式更新目标网络中参数θQ′和θμ′:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
基于DDPG网络的强化学习过程中,先搭建好智能车基于强化学习的模拟驾驶环境;收集的当前T时刻的状态样本{s1、s2、s3...sT}输入已提前训练好的基于强化学习的DDPG网络;通过DDPG网络生成对应的状态动作对τ'={(s1,a1')、(s1,a'2)、(s3,a'3)...(s3,a'T)}。
步骤2,构建包含行动者网络和判别器的模仿学习网络,利用自动驾驶场景采集的状态样本和专家状态动作对对模仿学习网络进行训练,优化行动者网络和判别器的参数。
实施例中,模仿学习网络包含行动者网络(actor网络)和判别器,模仿学习网络中的分类器与GAN中的分类器相当,而GAN中的生成器相当于模仿学习网络中的actor网络。其中,actor网络用于根据输入的状态样本生成动作,与输入的状态形成状态动作对。判别器用于区分输入数据是来自于actor网络生成的状态动作对还是专家状态动作对。
模仿学习是通过对输入的状态样本、所生成的对应动作与专家状态动作样本进行训练。具体过程为:首先,将将采集的状态样本输入actor网络,生成对应的动作{a1、a2、a3...aT};生成的状态动作对τ={(s1,a1)、(s2,a2)...(sT,aT)}与专家状态动作对输入判别器进行训练,检验判别器的输出p;判别器的输出p为1,则表明判别器还需进行训练;判别器输出p为0,说明通过actor网络生成的状态动作对与专家状态动作对已经无限接近,同时也表明判别器已经训练完毕。下面针对actor网络和判别器的训练进行详细说明。
针对actor网络的训练,将采集的某T时刻的智能车正常驾驶状态(state){s1,s2,s3...sT}输入actor网络生成对应的动作{a1,a2,a3...aT},记第一个和第二个状态动作对分别为τ1、τ2,以此类推,同时记τ={(s1,a1),(s2,a2)...(sT,aT)},奖励函数其中,f(st,at)表示某个状态动作对的奖励函数值;给定提前训练好的专家策略专家策略所获得的奖励是所以动作中最大的;
假定rt是智能体在某一时刻t所获得的奖励rt=ω·f(st,at),表示智能体获的总体奖励值,其中,ω为actor网络需要更新的参数,不断寻找奖励函数,直到满足以此解释给定的专家行为奖励为最大;通过寻找到的奖励函数不断更新actor网络,
针对判别器的训练,初始化判别器和actor网络;输入专家状态动作对至判别器中;在每次迭代过程中:利用actor网络生成状态动作对{τ1,τ2,...,τ3},更新判别器参数,增加减少D(τi),其中,d(st,at)表示样本数据的分布,更新actor网络参数,增加D(τi),同时不断更新参数θπ,η为学习率;将actor网络生成的状态动作对{τ1,τ2,...,τ3}输入到判别器中,通过判别器的输出P来判定状态动作对{τ1,τ2,...,τ3}是否无限接近专家状态动作对若判别器输出P为0,表明判别器已训练完毕;若P输出为1,则重复以上过程。
步骤3,利用参数优化的actor网络和判别器进行DDPG网络的异常检测。
在进行DDPG网络的异常检测时,将状态样本分别输入至参数优化的的DDPG网络和actor网络,生成两个状态动作对,利用参数优化的判别器对DDPG网络生成的状态动作对进行判别,当判别结果为1时,认为状态动作对中的动作未受到攻击,当判别结果为0时,认为状态动作对中的动作存在异常。
当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围(例如±5°)外,说明动作受到攻击,利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对,利用模仿学习网络生成的状态动作指导DDPG网络在后续阶段的强化学习过程中做出正确决策。实施中,动作幅度差异是指DDPG网络生成的动作与专家动作之间的差异。
当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围内,则认为是系统误差生成的物理扰动,不进行状态动作对的替换。
实施例还提供了一种面向深度强化学习的策略异常检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,所述处理器执行计算机程序时实现上述面向深度强化学习的策略异常检测方法。
实际应用中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现面向深度强化学习的策略异常检测方法步骤。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种面向深度强化学习的策略异常检测方法,其特征在于,包括以下步骤:
构建自动驾驶场景,利用自动驾驶场景采集的状态样本对DDPG网络进行强化学习,优化DDPG网络的参数;
构建包含行动者网络和判别器的模仿学习网络,利用自动驾驶场景采集的状态样本和专家状态动作对对模仿学习网络进行训练,优化行动者网络和判别器的参数;
利用参数优化的DDPG网络基于输入的状态样本生成动作,形成状态动作对,利用参数优化的判别器对状态动作对进行判别,当判别结果为1时,认为状态动作对中的动作未受到攻击,当判别结果为0时,认为状态动作对中的动作存在异常;
当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围外,说明动作受到攻击,利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对,利用模仿学习网络生成的状态动作指导DDPG网络在后续阶段的强化学习过程中做出正确决策。
2.如权利要求1所述的面向深度强化学习的策略异常检测方法,其特征在于,当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围内,则认为是系统误差生成的物理扰动,不进行状态动作对的替换。
3.如权利要求1或2所述的面向深度强化学习的策略异常检测方法,其特征在于,所述动作幅度差异为DDPG网络生成的动作与专家动作之间的差异。
4.如权利要求1或2所述的面向深度强化学习的策略异常检测方法,其特征在于,所述阈值范围为±5°。
5.如权利要求1所述的面向深度强化学习的策略异常检测方法,其特征在于,利用自动驾驶场景采集的状态样本和专家样本对模仿学习网络进行训练时,将状态样本输入至行动者网络,生成状态动作对,并计算状态动作对的第一奖励函数值,同时计算专家状态动作对的第二奖励函数值,以第第二奖励函数值大于第一奖励函数值为目标,不断寻找奖励函数,并利用奖励函数更新行动者网络的参数;
将行动者网络生成的状态动作对和专家状态动作对输入至判别器,通尽可能多地利用专家状态动作对,减少利用状态动作对,来更新判别器的参数,通过判别器的输出来判定状态动作对是否无限接近专家状态动作对,当判别器的输出为0时,表明判别器训练结束。
6.一种面向深度强化学习的策略异常检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1~5任一项所述的面向深度强化学习的策略异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110598324.XA CN113298252B (zh) | 2021-05-31 | 2021-05-31 | 一种面向深度强化学习的策略异常检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110598324.XA CN113298252B (zh) | 2021-05-31 | 2021-05-31 | 一种面向深度强化学习的策略异常检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113298252A true CN113298252A (zh) | 2021-08-24 |
CN113298252B CN113298252B (zh) | 2024-02-13 |
Family
ID=77326169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110598324.XA Active CN113298252B (zh) | 2021-05-31 | 2021-05-31 | 一种面向深度强化学习的策略异常检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298252B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114217524A (zh) * | 2021-11-18 | 2022-03-22 | 国网天津市电力公司电力科学研究院 | 一种基于深度强化学习的电网实时自适应决策方法 |
CN114660947A (zh) * | 2022-05-19 | 2022-06-24 | 季华实验室 | 机器人步态自主学习方法、装置、电子设备及存储介质 |
CN114866356A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于元学习的策略博弈的行为预测方法和预测器 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310915A (zh) * | 2020-01-21 | 2020-06-19 | 浙江工业大学 | 一种面向强化学习的数据异常检测防御方法 |
CN111856925A (zh) * | 2020-06-02 | 2020-10-30 | 清华大学 | 基于状态轨迹的对抗式模仿学习方法及装置 |
-
2021
- 2021-05-31 CN CN202110598324.XA patent/CN113298252B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310915A (zh) * | 2020-01-21 | 2020-06-19 | 浙江工业大学 | 一种面向强化学习的数据异常检测防御方法 |
CN111856925A (zh) * | 2020-06-02 | 2020-10-30 | 清华大学 | 基于状态轨迹的对抗式模仿学习方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114217524A (zh) * | 2021-11-18 | 2022-03-22 | 国网天津市电力公司电力科学研究院 | 一种基于深度强化学习的电网实时自适应决策方法 |
CN114217524B (zh) * | 2021-11-18 | 2024-03-19 | 国网天津市电力公司电力科学研究院 | 一种基于深度强化学习的电网实时自适应决策方法 |
CN114660947A (zh) * | 2022-05-19 | 2022-06-24 | 季华实验室 | 机器人步态自主学习方法、装置、电子设备及存储介质 |
CN114660947B (zh) * | 2022-05-19 | 2022-07-29 | 季华实验室 | 机器人步态自主学习方法、装置、电子设备及存储介质 |
CN114866356A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于元学习的策略博弈的行为预测方法和预测器 |
CN114866356B (zh) * | 2022-07-06 | 2022-09-20 | 中国人民解放军国防科技大学 | 基于元学习的策略博弈的行为预测方法和预测器 |
Also Published As
Publication number | Publication date |
---|---|
CN113298252B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310915B (zh) | 一种面向强化学习的数据异常检测防御方法 | |
CN113298252A (zh) | 一种面向深度强化学习的策略异常检测方法和装置 | |
KR102242516B1 (ko) | 복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련 | |
KR102492318B1 (ko) | 모델 학습 방법 및 장치, 및 데이터 인식 방법 | |
CN112884131A (zh) | 一种基于模仿学习的深度强化学习策略优化防御方法和装置 | |
CN112884130A (zh) | 一种基于SeqGAN的深度强化学习数据增强防御方法和装置 | |
CN113255936B (zh) | 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置 | |
CN111144580B (zh) | 一种基于模仿学习的层级强化学习训练方法和装置 | |
CN111856925B (zh) | 基于状态轨迹的对抗式模仿学习方法及装置 | |
US20220036186A1 (en) | Accelerated deep reinforcement learning of agent control policies | |
CN114925850B (zh) | 一种面向扰动奖励的深度强化学习对抗防御方法 | |
KR20200063309A (ko) | 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템 | |
WO2023011172A1 (zh) | 一种驾驶行为确定方法及其相关设备 | |
CN111348034B (zh) | 基于生成对抗模仿学习的自动泊车方法及系统 | |
CN116128060A (zh) | 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
JP7382633B2 (ja) | 学習モデル構築装置、学習モデル構築方法及びコンピュータプログラム | |
CN115905861A (zh) | 一种基于多级算子变异的强化学习框架安全性检测方法 | |
CN115509233A (zh) | 基于优先经验回放机制的机器人路径规划方法及系统 | |
CN115632808A (zh) | 针对入侵检测模型的威胁感知方法及装置 | |
CN110298449B (zh) | 计算机进行通用学习的方法、装置和计算机可读存储介质 | |
CN110866607A (zh) | 一种基于机器学习的渗透行为预测算法 | |
CN112884129B (zh) | 一种基于示教数据的多步规则提取方法、设备及存储介质 | |
CN113313236B (zh) | 基于时序神经通路的深度强化学习模型中毒检测方法及其装置 | |
CN116954156B (zh) | 数控加工的工艺路线规划方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |