CN113408796B - 多任务深度强化学习的深空探测器软着陆路径规划方法 - Google Patents

多任务深度强化学习的深空探测器软着陆路径规划方法 Download PDF

Info

Publication number
CN113408796B
CN113408796B CN202110622474.XA CN202110622474A CN113408796B CN 113408796 B CN113408796 B CN 113408796B CN 202110622474 A CN202110622474 A CN 202110622474A CN 113408796 B CN113408796 B CN 113408796B
Authority
CN
China
Prior art keywords
agent
representing
network
policy
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110622474.XA
Other languages
English (en)
Other versions
CN113408796A (zh
Inventor
赵清杰
王鑫
张长春
陈涌泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110622474.XA priority Critical patent/CN113408796B/zh
Publication of CN113408796A publication Critical patent/CN113408796A/zh
Application granted granted Critical
Publication of CN113408796B publication Critical patent/CN113408796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种多任务深度强化学习的深空探测器软着陆路径规划方法,属于人工智能与深空探测技术领域。本发明基于深度确定性策略强化学习算法DDPG,采用多任务学习,充分利用智能体之间的对抗与协作关系,提升了每个智能体应对不确定情况的能力,提高模型整体的泛化性能。通过采用融合时间上下文信息的自注意力机制,不仅避免智能体陷入局部最优状态,而且使智能体更加聚焦到有利于自身获得最大回报的信息进行学习,进一步提高探测器着陆的成功率。本方法能够实现深空探测器的稳定着陆,为后续实现小行星探测、自主取样和航天员登陆活动奠定基础。

Description

多任务深度强化学习的深空探测器软着陆路径规划方法
技术领域
本发明涉及一种深空探测器软着陆路径规划方法,具体涉及一种多任务深度强化学习的深空探测器软着陆路径规划方法,属于人工智能与深空探测技术领域。
背景技术
小行星探测是一项学科综合、高技术集成的系统工程,体现了一个国家的综合实力和竞争力。小行星探测不仅有利于人类进一步了解太阳系的起源和演化,而且可以推动航天新理论和技术的发展和验证,推动科技创新并进一步提高国家的综合国力。
传统的深空探测器,主要依靠人类先验知识来制定飞行策略,进而实施探测器着陆。但是,探测器在着陆过程中,由于缺乏路径自主规划功能,且由于小行星的特殊性和未知性,导致探测器在着陆过程中会出现失控、翻转或倾覆等问题。
解决深空探测器着陆问题,是实现深空探测的关键任务之一。由于深空环境复杂,且小行星存在弱引力等特性,如何减少探测器对地面人工先验知识的依赖,通过自主规划路径进行探测器软着陆,是实现探测器自主采样的关键。此外,由于深空中存在很多的障碍物,探测器在软着陆过程中,通过实施路径规划,能够避免与深空中的障碍物以及其他星体发生碰撞,从而提高着陆的成功率。
目前,现有的探测器着陆路径规划方法包括基于D3QN PER算法的行星车路径规划方法、基于光学的自主导航方法、采用固定时序控制着陆、采用确定附着策略进行着陆等。但是,这些方法或者仅适用于静态环境,或者缺乏自主规划能力,难以应对复杂的深空环境,尤其是在面对未知参数的小行星时,很容易导致探测器着陆失败。
发明内容
本发明的目的是为了解决深空探测器着陆过程中,因飞行距离远、与地面通信延时较长,多依赖人工经验缺乏自主规划能力,以及小行星自身的未知性和特殊性等原因,导致深空探测器着陆失败率高的技术问题,创造性地提出一种多任务深度强化学习的深空探测器软着陆路径规划方法。
本发明的创新点在于:基于DDPG(深度确定性策略强化学习算法,DeepDeterministic Policy Gradient),采用多任务学习和融合时间上下文的自注意力机制,实现深空探测器的稳定着陆,为后续实现小行星探测、自主取样和航天员登录活动奠定基础。
本发明采用以下技术方案实现。
一种多任务深度强化学习的深空探测器软着陆路径规划方法,包括以下步骤:
首先,在DDPG模型基础上,采用多任务学习构造多智能体强化学习模型。DDPG算法包含actor和critic网络两个部分,actor包含online策略网络和target策略网络,critic包含online Q网络和target Q网络,online网络和target网络都是由两个MLP构成。在DDPG的基础上,采用基于硬参数共享的多任务学习方式改进MLP。采用融合时间上下文信息的自注意力机制改进MLP,使每个智能体在学习时能够更加关注使自己获得最大收益的信息进行学习。
online策略网络和随机噪声生成一个随机过程,actor网络根据随机过程为每个智能体选择一个行为
Figure BDA0003100426270000021
并与环境作用,返回奖励
Figure BDA0003100426270000022
以及新的状态
Figure BDA0003100426270000023
actor将每个智能体的
Figure BDA0003100426270000024
存入经验池中,作为训练online网络的数据集。
然后,每个智能体从对应的经验池中随机采样N个
Figure BDA0003100426270000025
数据,作为online策略网络、online Q网络的一个mini-batch训练数据。
之后,采用均方误差计算online Q网络的梯度,之后更新online Q网络。采用Monte-carlo方法计算策略网络的梯度,之后更新online策略网络。
最后,采用软更新方式更新target策略网络的参数,完成路径规划。
有益效果
与现有技术相比,本发明方法具有以下优点:
1.通过采用多任务学习方式,充分利用智能体之间的对抗与协作关系,进一步提升每个智能体应对不确定情况的能力,提高模型整体的泛化性能。
2.通过采用融合时间上下文信息的自注意力机制,不仅可以避免智能体陷入局部最优状态,而且也可以使智能体更加聚焦到有利于自身获得最大回报的信息进行学习,进一步提高探测器着陆的成功率。
附图说明
图1为本发明的模型结构示意图。
图2为智能体基于硬参数共享的多任务学习结构图。
图3为本方法采用的深度强化学习DDPG模型结构图。
图4为本方法与其他方法对比的实验结果图。
具体实施方式
下面结合附图对本发明方法做进一步详细说明。
如图1所示。一种多任务深度强化学习的深空探测器软着陆路径规划方法,包括以下步骤。
步骤1:将深空探测器的节点、深空环境中的障碍物均定义为智能体。
步骤2:在DDPG模型基础上,采用多任务学习构造多智能体强化学习模型。如图2所示。具体如下:
DDPG模型由对策略进行模拟的actor网络和对Q函数进行模拟的critic网络组成。其中,actor网络包含online策略网络和target策略网络,critic网络包含online Q函数和target Q网络。如图3所示。
online策略网络和target策略网络均由两个MLP(多层感知机,Multi-layerPerceptron,MLP)组成。其中,智能体之间采用硬参数共享的多任务学习方法,在MLP的前5层进行参数共享。通过多任务学习,实现智能体之间的协作。当某个智能体在学习时,其它智能体作为监督信号来提升当前智能体的学习能力。
步骤3:当MLP进行特征提取时,采用融合时间上下文信息的自注意力机制对其进行改进,如式1、式2、式3所示:
Λi=softmax(f(Fi-1(oi,ai))) (1)
Fi=Λi*Fi (2)
Fi=Fi+Fi-1 (3)
其中,oi表示第i个智能体的观测值,ai表示第i个智能体的行为,f表示激活函数ReLu,Fi-1表示第i-1层的特征,Λi表示标准化输出,Fi表示第i层的特征。
通过使用自注意力机制,使智能体在进行多任务学习时,能够更加关注有利于使自己获得最大回报的信息进行学习。同时,采用时间上下文信息,避免了智能体陷入局部最优状态中。
步骤4:actor网络根据当前online策略μ和随机噪声Noise,生成一个随机过程,根据该随机过程为每个智能体选择一个
Figure BDA0003100426270000041
为t时刻第i个智能体的动作。然后,智能体在当前状态
Figure BDA0003100426270000042
和环境中执行
Figure BDA0003100426270000043
返回奖励
Figure BDA0003100426270000044
和新的状态
Figure BDA0003100426270000045
其中,reward函数设置如式4所示:
Figure BDA0003100426270000046
其中,dt表示t时刻智能体距离小行星的距离,dt-1表示t-1时刻智能体距离小行星的距离;dbody表示智能体距离探测器主体的距离,dagent_i表示第i个智能体距离探测器主体的距离;ωagent_t表示t时刻智能体的加速度,ωagent_t-1表示t-1时刻智能体的加速度;vagent_t表示t时刻智能体的速度,vagent_t-1表示t-1时刻智能体的速度。
步骤5:actor网络将每个智能体的
Figure BDA0003100426270000047
存入经验池D中,作为训练online策略网络的数据集,D=(x,x’,a1,...,aN,r1,...,rN)包含所有智能体的观测值、行为和奖励。
其中,x表示智能体的观测值,x’表示智能体更新的观测值,aN表示第N个智能体的动作,rN表示第N个智能体的奖励。
步骤6:每个智能体从对应的经验池D中,随机采样N个
Figure BDA0003100426270000048
数据,作为online策略网络、online Q策略网络的1个mini-batch训练数据。
步骤7:利用式5定义的均方误差,计算online Q网络的梯度。
Figure BDA0003100426270000049
Figure BDA00031004262700000410
其中,θi表示第i个智能体的策略函数μθi的参数,
Figure BDA00031004262700000411
表示第i个智能体在策略μ、智能体观测值x和行为ɑ下的Q函数值,(a1,...,aN)表示第1个到第N个智能体的动作,y表示真实值,Ex,a,r,x’表示智能体在观测值x、行为a、奖励r和新观测值x’下的期望值,L(θi)表示关于θi的损失函数,ri表示第i个智能体获得的奖励,γ表示折扣因子,
Figure BDA00031004262700000412
表示第i个智能体在新策略μ’下的Q函数值,(a’1,...,a’N)表示第1个到第N个智能体的新动作。
步骤8:更新online Q策略网络。采用Adam优化器更新θQ,θQ表示online Q策略网络的参数。
步骤9:由于智能体之间存在交互,每个智能体的策略会受其他智能体的影响,将策略近似为
Figure BDA0003100426270000051
其中φ表示近似策略的参数,简写为
Figure BDA0003100426270000052
则智能体的近似策略如式7、式8所示:
Figure BDA0003100426270000053
Figure BDA0003100426270000054
其中,
Figure BDA0003100426270000055
表示第j个智能体在第i次迭代时的近似策略参数,
Figure BDA0003100426270000056
表示关于
Figure BDA0003100426270000057
的损失函数;
Figure BDA0003100426270000058
表示第j个智能体在观测值oj条件下执行aj时的近似策略函数;
Figure BDA0003100426270000059
表示近似策略
Figure BDA00031004262700000510
的熵;λ表示折扣稀疏;
Figure BDA00031004262700000511
表示关于观测值oj和动作aj的期望值;
Figure BDA00031004262700000512
表示近似真实值;ri表示reward值;
Figure BDA00031004262700000513
表示更新策略后的Q函数值;x’表示更新的观测值,
Figure BDA00031004262700000514
表示智能体的近似策略函数,其中(o1,…,oi,…,oN)表示智能体的观测值。
步骤10:每个智能体期望获得的最大reward如式9所示,利用式10计算策略网络的梯度:
Figure BDA00031004262700000515
Figure BDA00031004262700000516
其中,ui表示第i个智能体的策略函数,Ri(s,a)表示在状态s下执行动作ɑ获得的奖励,
Figure BDA00031004262700000517
表示第k个子策略服从均匀分布unif(1,K)、状态s的分布为pμ、并且在
Figure BDA00031004262700000518
下执行动作ɑ时的期望值;
Figure BDA00031004262700000519
表示进行梯度计算;
Figure BDA00031004262700000520
表示子策略
Figure BDA00031004262700000521
的经验池;Jei)表示状态s根据分布pμ时Ri(s,a)的期望值;K表示所有子策略的个数;
Figure BDA00031004262700000522
表示第k个子策略在观测值x和动作ɑ取样于
Figure BDA00031004262700000523
时的期望值;
Figure BDA00031004262700000524
表示在观测值为oi条件下动作为ai时第i个智能体在第k个子策略时的策略函数,其中oi表示第i个智能体的观测值,ai表示第i个智能体的行为;
Figure BDA00031004262700000526
表示观测值为x、动作为(a1,…,aN)时执行策略μi时的Q函数值;
Figure BDA00031004262700000525
表示观测值为oi时第i个智能体的第k个子策略的策略函数。
步骤11:更新online策略网络。采用Adam优化器更新θμ,θμ表示策略函数μ的参数。
步骤12:采用式11的软更新方式,更新target策略网络的参数。
软更新:
Figure BDA0003100426270000061
其中,τ表示调节系数,θQ表示Q函数的参数,θQ’表示更新后的Q函数的参数,θμ表示策略函数μ的参数,θμ’表示更新后策略函数μ’的参数。
在实验测试中,AMDRL模型的超参数设置如表1所示:
表1 AMTDRL模型超参数
Figure BDA0003100426270000062
探测器的参数设置如表2所示:
表2探测器参数
Figure BDA0003100426270000063
本发明以MADDPG模型作为基线进行对比,实验结果如图4所示。算法迭代30000个episode,每隔100次进行取样。从图4可以看出,在迭代前10000次时AMTDRL与MADDPG获得的平均reward趋于一致,但是对着迭代次数的增加,AMTDRL的平均reward值一直高于MADDPG,说明在该方法下探测器可以更好的躲避障碍,获得更优的着陆路径。

Claims (3)

1.多任务深度强化学习的深空探测器软着陆路径规划方法,其特征在于,包括以下步骤:
步骤1:将深空探测器的节点、深空环境中的障碍物均定义为智能体;
步骤2:在深度确定性策略强化学习算法DDPG模型基础上,采用多任务学习构造多智能体强化学习模型,具体如下:
DDPG模型由对策略进行模拟的actor网络和对Q函数进行模拟的critic网络组成,其中,actor网络包含online策略网络和target策略网络,critic网络包含online Q函数和target Q网络;
online策略网络和target策略网络均由两个多层感知机MLP组成;其中,智能体之间采用硬参数共享的多任务学习方法,在MLP的前5层进行参数共享;通过多任务学习,实现智能体之间的协作;当某个智能体在学习时,其它智能体作为监督信号来提升当前智能体的学习能力;
步骤3:当MLP进行特征提取时,采用融合时间上下文信息的自注意力机制对其进行改进,如式1、式2、式3所示:
Λi=softmax(f(Fi-1(oi,ai))) (1)
Fi=Λi*Fi (2)
Fi=Fi+Fi-1 (3)
其中,oi表示第i个智能体的观测值,ai表示第i个智能体的行为,f表示激活函数ReLu,Fi-1表示第i-1层的特征,Λi表示标准化输出,Fi表示第i层的特征;
步骤4:actor网络根据当前online策略μ和随机噪声Noise,生成一个随机过程,根据该随机过程为每个智能体选择一个
Figure FDA0003789942260000011
Figure FDA0003789942260000012
为t时刻第i个智能体的动作;然后,智能体在当前状态
Figure FDA0003789942260000013
和环境中执行
Figure FDA0003789942260000014
返回奖励
Figure FDA0003789942260000015
和新的状态
Figure FDA0003789942260000016
其中,reward函数设置如式4所示:
Figure FDA0003789942260000017
其中,dt表示t时刻智能体距离小行星的距离,dt-1表示t-1时刻智能体距离小行星的距离;dbody表示智能体距离探测器主体的距离,dagent_i表示第i个智能体距离探测器主体的距离;ωagent_t表示t时刻智能体的加速度,ωagent_t-1表示t-1时刻智能体的加速度;vagent_t表示t时刻智能体的速度,vagent_t-1表示t-1时刻智能体的速度;
步骤5:actor网络将每个智能体的
Figure FDA0003789942260000021
存入经验池D中,作为训练online策略网络的数据集,D=(x,x',a1,...,aN,r1,...,rN)包含所有智能体的观测值、行为和奖励;
其中,x表示智能体的观测值,x'表示智能体更新的观测值,aN表示第N个智能体的动作,rN表示第N个智能体的奖励;
步骤6:每个智能体从对应的经验池D中,随机采样N个
Figure FDA0003789942260000022
数据,作为online策略网络、online Q策略网络的1个mini-batch训练数据;
步骤7:利用式5定义的均方误差,计算online Q网络的梯度;
Figure FDA0003789942260000023
Figure FDA0003789942260000024
其中,θi表示第i个智能体的策略函数
Figure FDA0003789942260000025
的参数,
Figure FDA0003789942260000026
表示第i个智能体在策略μ、智能体观测值x和行为ɑ下的Q函数值,(a1,...,aN)表示第1个到第N个智能体的动作,y表示真实值,Ex,a,r,x'表示智能体在观测值x、行为a、奖励r和新观测值x'下的期望值,L(θi)表示关于θi的损失函数,ri表示第i个智能体获得的奖励,γ表示折扣因子,
Figure FDA0003789942260000027
表示第i个智能体在新策略μ'下的Q函数值,(a'1,...,a'N)表示第1个到第N个智能体的新动作;
步骤8:更新online Q策略网络;
步骤9:将智能体的策略近似为
Figure FDA0003789942260000028
其中φ表示近似策略的参数,简写为
Figure FDA0003789942260000029
则智能体的近似策略如式7、式8所示:
Figure FDA00037899422600000210
Figure FDA00037899422600000211
其中,
Figure FDA00037899422600000212
表示第j个智能体在第i次迭代时的近似策略参数,
Figure FDA00037899422600000213
表示关于
Figure FDA00037899422600000214
的损失函数;
Figure FDA00037899422600000215
表示第j个智能体在观测值oj条件下执行aj时的近似策略函数;
Figure FDA00037899422600000216
表示近似策略
Figure FDA00037899422600000217
的熵;λ表示折扣系数;
Figure FDA00037899422600000218
表示关于观测值oj和动作aj的期望值;
Figure FDA00037899422600000219
表示近似真实值;ri表示reward值;
Figure FDA00037899422600000220
表示更新策略后的Q函数值;x'表示更新的观测值,
Figure FDA0003789942260000031
表示智能体的近似策略函数,其中(o1,...,oi,...,oN)表示智能体的观测值;
步骤10:每个智能体期望获得的最大reward如式9所示,利用式10计算策略网络的梯度:
Figure FDA0003789942260000032
Figure FDA0003789942260000033
其中,ui表示第i个智能体的策略函数,Ri(s,a)表示在状态s下执行动作ɑ获得的奖励,
Figure FDA0003789942260000034
表示第k个子策略服从均匀分布unif(1,K)、状态s的分布为pμ、并且在
Figure FDA0003789942260000035
下执行动作ɑ时的期望值;
Figure FDA0003789942260000036
表示进行梯度计算;
Figure FDA0003789942260000037
表示子策略
Figure FDA0003789942260000038
的经验池;Jei)表示状态s根据分布pμ时Ri(s,a)的期望值;K表示所有子策略的个数;
Figure FDA0003789942260000039
表示第k个子策略在观测值x和动作ɑ取样于
Figure FDA00037899422600000310
时的期望值;
Figure FDA00037899422600000311
表示在观测值为oi条件下动作为ai时第i个智能体在第k个子策略时的策略函数,其中oi表示第i个智能体的观测值,ai表示第i个智能体的行为;
Figure FDA00037899422600000312
表示观测值为x、动作为(a1,...,aN)时执行策略μi时的Q函数值;
Figure FDA00037899422600000313
表示观测值为oi时第i个智能体的第k个子策略的策略函数;
步骤11:更新online策略网络;
步骤12:采用式11的软更新方式,更新target策略网络的参数:
Figure FDA00037899422600000314
其中,τ表示调节系数,θQ表示Q函数的参数,θQ'表示更新后的Q函数的参数,θμ表示策略函数μ的参数,θμ'表示更新后策略函数μ'的参数。
2.如权利要求1所述的多任务深度强化学习的深空探测器软着陆路径规划方法,其特征在于,步骤8具体采用Adam优化器更新θQ,θQ表示online Q策略网络的参数。
3.如权利要求1所述的多任务深度强化学习的深空探测器软着陆路径规划方法,其特征在于,步骤11具体采用Adam优化器更新θμ,θμ表示策略函数μ的参数。
CN202110622474.XA 2021-06-04 2021-06-04 多任务深度强化学习的深空探测器软着陆路径规划方法 Active CN113408796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110622474.XA CN113408796B (zh) 2021-06-04 2021-06-04 多任务深度强化学习的深空探测器软着陆路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110622474.XA CN113408796B (zh) 2021-06-04 2021-06-04 多任务深度强化学习的深空探测器软着陆路径规划方法

Publications (2)

Publication Number Publication Date
CN113408796A CN113408796A (zh) 2021-09-17
CN113408796B true CN113408796B (zh) 2022-11-04

Family

ID=77676271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110622474.XA Active CN113408796B (zh) 2021-06-04 2021-06-04 多任务深度强化学习的深空探测器软着陆路径规划方法

Country Status (1)

Country Link
CN (1) CN113408796B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821057B (zh) * 2021-10-14 2023-05-30 哈尔滨工业大学 一种基于强化学习的行星软着陆控制方法及系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
JP2020166795A (ja) * 2019-03-31 2020-10-08 国立大学法人神戸大学 効率的に学習を行う強化学習方法、強化学習装置及び強化学習プログラム
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019219965A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Meta-gradient updates for training return functions for reinforcement learning systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
JP2020166795A (ja) * 2019-03-31 2020-10-08 国立大学法人神戸大学 効率的に学習を行う強化学習方法、強化学習装置及び強化学習プログラム
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Attention guided for partial domain adaptation》;Changchun Zhang等;《Information Sciences》;20210208;第547卷;第860-869页 *
《基于值函数和策略梯度的深度强化学习综述》;刘建伟 等;《计算机学报》;20190630;第42卷(第6期);第1407-1438页 *
《多智能体深度强化学习研究综述》;孙彧 等;《计算机工程与应用》;20201231;第56卷(第5期);第13-24页 *

Also Published As

Publication number Publication date
CN113408796A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN110262511B (zh) 基于深度强化学习的双足机器人自适应性行走控制方法
EP4231197A1 (en) Training machine learning models on multiple machine learning tasks
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
Harris et al. Spacecraft decision-making autonomy using deep reinforcement learning
CN115511177A (zh) 基于ingo-swgmn混合模型的超短期风速预测方法
CN113408796B (zh) 多任务深度强化学习的深空探测器软着陆路径规划方法
CN116224794A (zh) 一种基于离散-连续异构q网络的强化学习连续动作控制方法
CN114169421A (zh) 基于内在动机的多智能体稀疏奖励环境协作探索方法
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
CN116301027B (zh) 一种基于安全强化学习的城市空域内无人机路径规划方法
CN116859989A (zh) 一种基于群体协同的无人机集群智能对抗策略生成方法
CN116307331A (zh) 航空器轨迹的规划方法
CN114115307B (zh) 一种基于深度学习的航天器反交会逃逸脉冲求解方法
CN115453880A (zh) 基于对抗神经网络的用于状态预测的生成模型的训练方法
CN114861368A (zh) 一种基于近端策略的铁路纵断面设计学习模型的构建方法
Zhang et al. Gliding control of underwater gliding snake-like robot based on reinforcement learning
CN114118371A (zh) 一种智能体深度强化学习方法及计算机可读介质
Li et al. Research on path planning of cloud robot in dynamic environment based on improved ddpg algorithm
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及系统
CN114386620A (zh) 一种基于动作约束的离线多智能体强化学习方法
Yang et al. On the application of reinforcement learning in multi-debris active removal mission planning
Hu et al. Densely rewarded reinforcement learning for robust low-thrust trajectory optimization
Wang et al. Automated Reinforcement Learning Based on Parameter Sharing Network Architecture Search
Sun et al. Incremental learning-based optimal design of BFN kernel for online spacecraft disturbance rejection control
CN115857556B (zh) 一种基于强化学习的无人飞行器协同探测规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant