CN113239629B - 一种轨迹空间行列式点过程的强化学习探索和利用的方法 - Google Patents

一种轨迹空间行列式点过程的强化学习探索和利用的方法 Download PDF

Info

Publication number
CN113239629B
CN113239629B CN202110618757.7A CN202110618757A CN113239629B CN 113239629 B CN113239629 B CN 113239629B CN 202110618757 A CN202110618757 A CN 202110618757A CN 113239629 B CN113239629 B CN 113239629B
Authority
CN
China
Prior art keywords
track
space
trajectory
strategies
exploration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110618757.7A
Other languages
English (en)
Other versions
CN113239629A (zh
Inventor
缪佳宇
张伟楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110618757.7A priority Critical patent/CN113239629B/zh
Publication of CN113239629A publication Critical patent/CN113239629A/zh
Application granted granted Critical
Publication of CN113239629B publication Critical patent/CN113239629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种轨迹空间行列式点过程的强化学习探索和利用的方法,涉及质量和多样性强化学习领域。在质量和多样性强化学习框架中,增加强化学习中智能体的探索能力和生成多样化的智能体策略。本发明首先通过变分自编码器和对比学习学习到一个有意义的轨迹编码空间,鼓励种群中的智能体沿着不同的轨迹方向进行探索,然后基于行列式点过程不断从中筛选出高回报和多样性的策略并变异其他策略的探索方向。本发明可以在各种维度、各种类型(连续或离散)的状态空间下提升智能体的表现,在需要强探索能力的环境中的收敛速度和表现优于框架下的其他方法,并且可以生成多样的高回报策略,可以用于机器人导航等强化学习应用场景中辅助机器人进行探索。

Description

一种轨迹空间行列式点过程的强化学习探索和利用的方法
技术领域
本发明涉及质量和多样性强化学习领域,尤其涉及一种轨迹空间行列式点过程的强化学习探索和利用的方法。
背景技术
质量和多样性强化学习问题,是指在一个种群中,不仅希望智能体能够得到高回报的策略,同时希望策略之间的差异性要尽可能大。同时追求质量和多样性,一方面有利于智能体的探索,另一方面很有可能可以得到多种不同的高回报策略。
(一)分析近期质量和多样化强化学习的研究:
Parker-Holder等在Advances in Neural Information Processing Systems(神经信息处理系统会议)会议(2020年第33届第18050-18062页)上发表的EffectiveDiversity in Population Based Reinforcement Learning.《高效的基于种群的多样性强化学习》,该文中将行为空间定义为某些状态下的动作空间,并使用行列式核矩阵的值当成额外的损失函数。其不足在于局限于不同的策略需要有一定数量的重合状态的情况,以及额外的优化目标会影响训练的过程;
Cideron等在arXiv preprint平台(2020年编号2006.08505)上发表的QD-RL:Efficient Mixing of Quality and Diversity in Reinforcement Learning.《QD-RL:强化学习中有效的混合质量和多样性》,该文中将行为空间定义为结果空间。其不足在于:忽略了策略运行过程中的特征。
对国内外相关专利分析以及相关研究可得出以下结论:目前在质量和多样性强化学习问题中没有重视策略运行过程中轨迹特征和稳定训练的方法。
因此,本领域的技术人员致力于开发一种轨迹空间行列式点过程的强化学习探索和利用的方法,在质量和多样性强化学习问题中,重视策略运行过程中的轨迹特征并且能够稳定训练的方法。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是现有质量和多样性强化学习方法忽略了策略运行的轨迹特征和训练不稳定的问题。
为实现上述目的,本发明提供了一种轨迹空间行列式点过程的强化学习探索和利用的方法,包括如下步骤:
步骤1、学习到轨迹空间;
步骤2、在学习到的所述轨迹空间中,通过行列式点过程对种群中探索不同的轨迹方向的策略进行选择和变异。
进一步地,所述轨迹空间通过变分自编码器和对比学习方法学习得到;所述变分自编码器被要求解码出的轨迹需要和输入的轨迹尽可能相同,所述对比学习方法被要求相似的轨迹在轨迹空间的编码尽可能相似,不相似的轨迹在轨迹空间的编码尽可能不相似。
进一步地,所述轨迹空间的学习过程中,z匹配策略模型πψ(s,z)被要求通过行为克隆的方法使得生成的轨迹和编码z对应的轨迹相一致。
进一步地,所述步骤2探索不同的轨迹方向的策略是指策略以不同的z匹配策略初始化,从而探索不同的轨迹方向。
进一步地,所述行列式点过程选择是指从策略种群中选取具有高回报和多样性的策略;所述行列式点过程变异是为策略设置新的轨迹空间探索方向。
进一步地,包括如下步骤:
步骤1、输入在环境中采样得到的轨迹,通过优化整体的目标损失函数,训练轨迹编码模型得到有意义的轨迹编码空间和z匹配策略模型;
步骤2、随机采样N个隐变量z放入集合Z;
步骤3、根据集合Z中的新加入或者被替换的隐变量生成z匹配策略,种群中对应的智能体以z匹配策略初始化,并在对应的轨迹方向与环境交互进行学习;
步骤4、每隔T时间步,获取每个策略的回报和对应的轨迹编码,通过行列式点过程选取前K个具有高回报和多样性的策略;
步骤5、对于剩下的N-K策略重新采样隐变量z并替换集合Z中其对应的部分;
步骤6、如果到达最大时间步,终止训练并返回最新的前K个具有高回报和多样性的策略,否则进入所述步骤3。
进一步地,所述训练轨迹编码模型包括如下步骤:
步骤1.1、输入批量的轨迹序列τ;
步骤1.2、通过长短期记忆(LSTM)网络得到编码z,再通过另外一个长短期记忆(LSTM)网络解码得到解码后的序列τ′;
步骤1.3、通过梯度下降法优化整体的目标损失函数。
进一步地,所述轨迹编码模型的整体目标损失函数为:
Figure BDA0003098845770000021
-E[logpθ(τ|z)]+DKL(qΦ(z|τ)|p(z))为变分自编码器相关的部分,目的在于提升极大似然估计的下确界(ELBO),其中θ为轨迹编码器的参数,φ为轨迹解码器的参数,DKL为KL散度;
Figure BDA0003098845770000022
为对比学习的部分,使得相似的轨迹在轨迹空间的编码尽可能相似,不相似的轨迹在轨迹空间的编码尽可能不相似,其中α是权重系数,lφ(τ,τp;Tn)具体公式为:
Figure BDA0003098845770000031
其中,sim代表余弦相似度,τp代表正样本,τn代表负样本;Eτ[lBC]为z匹配策略模型的行为克隆损失函数,目的是使得z匹配策略生成的轨迹和z对应的轨迹相匹配,具体公式为:
Figure BDA0003098845770000032
其中,ψ为匹配策略模型参数。
进一步地,所述行列式点过程选择机制包括如下步骤:
步骤4.1、输入不同策略对应的回报和轨迹编码,得到核矩阵L=Diag(ru)·S·Diag(ru),Lij=Bi,Bj=rizi,rjzj=rirjzi,zj,其中ri代表第i个策略的回报,zi代表第i个策略的轨迹归一化后的编码,Diag(ru)代表N个策略的回报组成的对角矩阵,S代表N个策略的轨迹编码z组成的相似度矩阵;
步骤4.2、得到后验概率
Figure BDA0003098845770000033
其中Du代表选取的策略索引;最大化所述后验概率即相当于选取高回报且具有多样性的策略;
步骤4.3、通过快速贪婪MAP算法最大化所述后验概率筛选出前K个具有高回报和多样性的策略。
进一步地,所述行列式点过程可以通过令L′=Diag(exp(α′ru))·S·Diag(exp(α′ru)),其中α′=θ′/(2(1-θ′)),使得后验概率
Figure BDA0003098845770000034
从而可以通过控制θ′在回报项和多样性项进行权衡。
本发明定义行为空间为轨迹空间,有效地利用了策略运行过程中的特征,从而可以利用策略在轨迹空间中不同的轨迹方向上进行探索。训练轨迹模型中的变分自编码器和对比学习的约束使得隐变量编码z能够对应轨迹空间中的轨迹,同时保证z之间的相似度和其对应的轨迹的相似度相对应。z匹配策略作为初始化可以保证对应的策略在一开始的时候探索z对应的轨迹方向,从而可以保证种群中的策略探索轨迹空间中的不同区域。而基于行列式点过程的选择和变异机制,能够有效的筛选出种群中高回报并且差异度比较大的策略,并对其他的策略进行变异,从而探索其他可能的方向。这种在上层轨迹空间中探索的方式区别于单纯的动作上的探索,既指定了不同的探索方向又给了策略探索的空间。行列式点过程的选择和变异机制消除了额外的多样性优化目标带来的干扰,从而稳定了训练的过程。
本发明与现有技术相比较,具有如下显而易见的实质性特点和显著优点:
1.本发明中轨迹空间模型能够有效捕捉策略运行中轨迹的特征,形成具有区分度和有意义的轨迹编码。相比于之前的动作空间和结果空间更能够体现策略之间的差异性。
2.本发明中基于行列式点过程的选择和变异机制能够使得种群中的策略在轨迹空间中进行充分的探索和利用,同时可以一些生成高回报和多样性的策略。
3、实践证明,本发明中训练得到的策略种群具有更快的收敛速度和收敛表现,这代表了更强的探索能力,同时生成的高回报策略间也存在着差异性,这代表了种群策略的多样性。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的方法流程图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1所示,本发明实施提供了一种轨迹空间下基于行列式点过程的强化学习探索和利用的方法。本发明实施例将方法应用于机器人导航环境中,该环境中机器人需要移动至目标位置处,但是中间有一道阻隔墙,机器人不知道墙体的位置,而且每个时刻受到的奖励与到目标的直线距离成反比。这是一个具有欺骗性奖励的环境,机器人需要绕过墙体到达指定位置。使用的强化学习方法为近端策略优化算法,即PPO(Proximal PolicyOptimization)具体步骤如下:
1、使用纯探索的策略进行采样,得到若干个机器人的长度为M的轨迹,作为轨迹编码模型的训练集。其中纯探索的策略的奖励设置为负的证据下界(ELBO)。
2、不断的从训练集中选取大小为B的批量样本,以轨迹间的位置距离作为相似度衡量的基准,令最相似的轨迹作为正例,最不相似的B/2的样本作为负例,同时通过梯度反向传播方法优化整体的目标函数,包括变分自编码器的损失函数-E[logpθ(τ|z)]+DKL(qΦ(z|τ)|p(z)),对比学习的损失函数lφ(τ,τp;Tn)和z匹配策略的损失函数lBC。其中隐变量z编码空间大小为d。
3.从正态分布中随机采样N个隐变量z组成隐变量集合Z。
4.对于Z中新加入的或者被更新的隐变量z生成对应的z匹配策略。种群中对应的智能体以此策略初始化,并在对应的轨迹方向使用常规的PPO算法进行学习。
5.每隔T时间步,获取每个策略的回报ri和对应的轨迹编码zi,通过行列式点过程选取前K个具有高回报和多样性的策略。
6.对于剩下的N-K个策略重新从正态分布中采样隐变量z并替换集合Z中其对应的部分。
7.如果到达最大时间步MAXT,终止训练并返回最新的前K个具有高回报和多样性的策略,否则进入步骤4。
在机器人导航的场景中,之前的质量和多样性强化学习方法往往较难绕过障碍物导致阻塞,而本方法可以使得机器人绕开中间的障碍,成功的抵达目标,这表明本方法具有较大的探索能力。同时基于行列式点过程的选择和变异机制在轨迹空间中进行探索和利用,能不断地筛选出具有高回报同时多样性的策略,具体表现为机器人可以沿着不同的轨迹到达目的地,例如从左侧绕开墙体或者从右侧绕开墙体。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,包括如下步骤:
步骤1、机器人导航环境中,采样得到机器人智能体探索策略种群与环境交互的轨迹数据,学习机器人的移动轨迹空间;
步骤2、在学习到的所述机器人的移动轨迹空间中,通过行列式点过程的技术手段对种群中机器人策略探索不同的轨迹方向的策略进行选择和变异,在整个机器人策略种群中,通过行列式点过程中最大化后验概率的快速贪婪MAP算法,筛选出轨迹回报高且具有多样性的策略个体,并对剩余的策略个体进行重新初始化以探索其他轨迹方向,重复进行选择和变异步骤直到达到环境允许的最大次数,最终得到可以解决机器人导航任务且具有多样性的策略种群。
2.如权利要求1所述的轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,所述轨迹空间通过变分自编码器和对比学习方法学习得到;所述变分自编码器被要求解码出的轨迹需要和输入的轨迹尽可能相同,所述对比学习方法被要求相似的轨迹在轨迹空间的编码尽可能相似,不相似的轨迹在轨迹空间的编码尽可能不相似。
3.如权利要求2所述的轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,所述轨迹空间的学习过程中,z匹配策略模型πψ(s,z)被要求通过行为克隆的方法使得生成的轨迹和编码z对应的轨迹相一致。
4.如权利要求1所述的轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,所述步骤2探索不同的轨迹方向的策略是指策略以不同的z匹配策略初始化,从而探索不同的轨迹方向。
5.如权利要求1所述的轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,所述行列式点过程选择是指从策略种群中选取具有高回报和多样性的策略;所述行列式点过程变异是为策略设置新的轨迹空间探索方向。
6.如权利要求1所述的轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,包括如下步骤:
步骤1、输入在环境中采样得到的轨迹,通过优化整体的目标损失函数,训练轨迹编码模型得到有意义的轨迹编码空间和z匹配策略模型;
步骤2、随机采样N个隐变量z放入集合Z;
步骤3、根据集合Z中的新加入或者被替换的隐变量生成z匹配策略,种群中对应的智能体以z匹配策略初始化,并在对应的轨迹方向与环境交互进行学习;
步骤4、每隔T时间步,获取每个策略的回报和对应的轨迹编码,通过行列式点过程选取前K个具有高回报和多样性的策略;
步骤5、对于剩下的N-K个策略重新采样隐变量z并替换集合Z中其对应的部分;
步骤6、如果到达最大时间步,终止训练并返回最新的前K个具有高回报和多样性的策略,否则进入所述步骤3。
7.如权利要求6所述的轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,所述轨迹编码模型训练包括如下步骤:
步骤1.1、输入批量的轨迹序列τ;
步骤1.2、通过长短期记忆(LSTM)网络得到编码z,再通过另外一个长短期记忆(LSTM)网络解码得到解码后的序列τ′;
步骤1.3、通过梯度下降法优化整体的目标损失函数。
8.如权利要求6所述的轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,所述轨迹编码模型的整体目标损失函数为:
Figure FDA0004187818650000021
Figure FDA0004187818650000022
为变分自编码器相关的部分,目的在于提升极大似然估计的下确界(ELBO),其中θ为轨迹编码器的参数,φ为轨迹解码器的参数,DKL为KL散度;
Figure FDA0004187818650000023
为对比学习的部分,使得相似的轨迹在轨迹空间的编码尽可能相似,不相似的轨迹在轨迹空间的编码尽可能不相似,其中α是权重系数,损失函数lφ(τ,τp;Tn)具体公式为:
Figure FDA0004187818650000024
其中,sim代表余弦相似度,τp代表正样本,τn代表负样本;Eτ[lBC]为z匹配策略模型的行为克隆损失函数lBC的期望,目的是使得z匹配策略生成的轨迹和z对应的轨迹相匹配,lBC具体公式为:
Figure FDA0004187818650000025
其中,ψ为匹配策略模型参数。
9.如权利要求6所述的轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,所述行列式点过程选择机制包括如下步骤:
步骤4.1、输入不同策略对应的回报和轨迹编码,得到核矩阵L=Diag(ru)·S·Diag(ru),Lij=Bi,Bj=rizi,rjzj=rirjzi,zj,其中ri代表第i个策略的回报,zi代表第i个策略的轨迹归一化后的编码,Diag(ru)代表N个策略的回报组成的对角矩阵,S代表N个策略的轨迹编码z组成的相似度矩阵;
步骤4.2、得到后验概率
Figure FDA0004187818650000026
其中Du代表选取的策略索引;最大化所述后验概率即相当于从种群中选取高回报且具有多样性的策略;
步骤4.3、通过快速贪婪MAP算法最大化所述后验概率筛选出前K个具有高回报和多样性的策略。
10.如权利要求6所述的轨迹空间行列式点过程的强化学习探索和利用的方法,其特征在于,所述行列式点过程可以通过令L′=Diag(exp(α′ru))·S·Diag(exp(α′ru)),其中α′=θ′/(2(1-θ′)),使得后验概率
Figure FDA0004187818650000031
从而可以通过控制θ′在回报项和多样性项进行权衡。
CN202110618757.7A 2021-06-03 2021-06-03 一种轨迹空间行列式点过程的强化学习探索和利用的方法 Active CN113239629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110618757.7A CN113239629B (zh) 2021-06-03 2021-06-03 一种轨迹空间行列式点过程的强化学习探索和利用的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110618757.7A CN113239629B (zh) 2021-06-03 2021-06-03 一种轨迹空间行列式点过程的强化学习探索和利用的方法

Publications (2)

Publication Number Publication Date
CN113239629A CN113239629A (zh) 2021-08-10
CN113239629B true CN113239629B (zh) 2023-06-16

Family

ID=77136703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110618757.7A Active CN113239629B (zh) 2021-06-03 2021-06-03 一种轨迹空间行列式点过程的强化学习探索和利用的方法

Country Status (1)

Country Link
CN (1) CN113239629B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471731B (zh) * 2022-08-23 2024-04-09 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及设备
CN116679615B (zh) * 2023-08-03 2023-10-20 中科航迈数控软件(深圳)有限公司 数控加工工艺的优化方法、装置、终端设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260072A (zh) * 2020-01-08 2020-06-09 上海交通大学 一种基于生成对抗网络的强化学习探索方法
CN112183288A (zh) * 2020-09-22 2021-01-05 上海交通大学 一种基于模型的多智能体强化学习方法
CN113359448A (zh) * 2021-06-03 2021-09-07 清华大学 一种针对时变动力学的自主水下航行器轨迹跟踪控制方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408115A (zh) * 2016-08-31 2017-02-15 北京百度网讯科技有限公司 出行线路的推荐方法及装置
WO2018211140A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Data efficient imitation of diverse behaviors
CN110390399A (zh) * 2019-06-24 2019-10-29 浙江大学 一种强化学习的高效探索方法
CN111783248A (zh) * 2020-07-01 2020-10-16 南京航空航天大学 一种工业机器人动力学建模及动力学参数识别方法
CN112801273A (zh) * 2021-01-29 2021-05-14 江苏大学 一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260072A (zh) * 2020-01-08 2020-06-09 上海交通大学 一种基于生成对抗网络的强化学习探索方法
CN112183288A (zh) * 2020-09-22 2021-01-05 上海交通大学 一种基于模型的多智能体强化学习方法
CN113359448A (zh) * 2021-06-03 2021-09-07 清华大学 一种针对时变动力学的自主水下航行器轨迹跟踪控制方法

Also Published As

Publication number Publication date
CN113239629A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
Sadeghian et al. Sophie: An attentive gan for predicting paths compliant to social and physical constraints
Nayakanti et al. Wayformer: Motion forecasting via simple & efficient attention networks
CN113239629B (zh) 一种轨迹空间行列式点过程的强化学习探索和利用的方法
Grefenstette Lamarckian learning in multi-agent environments
Tan FALCON: A fusion architecture for learning, cognition, and navigation
Waterhouse Classification and regression using mixtures of experts
Mendez et al. Modular lifelong reinforcement learning via neural composition
Alsaleh et al. Markov-game modeling of cyclist-pedestrian interactions in shared spaces: A multi-agent adversarial inverse reinforcement learning approach
Thiesson et al. Learning mixtures of Bayesian networks
Mahadevan Enhancing transfer in reinforcement learning by building stochastic models of robot actions
CN114859899A (zh) 移动机器人导航避障的演员-评论家稳定性强化学习方法
Gao et al. Enhance sample efficiency and robustness of end-to-end urban autonomous driving via semantic masked world model
Campbell Constructive learning techniques for designing neural network systems
Rafati et al. Unsupervised Methods For Subgoal Discovery During Intrinsic Motivation in Model-Free Hierarchical Reinforcement Learning.
CN112183762A (zh) 一种基于混合行为空间的强化学习方法
Araujo Prune-able fuzzy ART neural architecture for robot map learning and navigation in dynamic environments
Alsaleh et al. Do road users play Nash Equilibrium? A comparison between Nash and Logistic stochastic Equilibriums for multiagent modeling of road user interactions in shared spaces
Shao et al. Failure detection for motion prediction of autonomous driving: An uncertainty perspective
Ma et al. Diverse sampling for normalizing flow based trajectory forecasting
CN117408406A (zh) 一种规划耦合的多目标车辆轨迹预测方法及系统
Sun et al. Constrained mdps can be solved by eearly-termination with recurrent models
KR20240073064A (ko) 궤적을 예측하는 방법 및 차량을 자동 조작하는 방법
Yang et al. An algorithm of complete coverage path planning based on improved DQN
Hussein et al. Incremental learning for enhanced personalization of autocomplete teleoperation
Kim et al. Macro action reinforcement learning with sequence disentanglement using variational autoencoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant