CN113408796B - 多任务深度强化学习的深空探测器软着陆路径规划方法 - Google Patents
多任务深度强化学习的深空探测器软着陆路径规划方法 Download PDFInfo
- Publication number
- CN113408796B CN113408796B CN202110622474.XA CN202110622474A CN113408796B CN 113408796 B CN113408796 B CN 113408796B CN 202110622474 A CN202110622474 A CN 202110622474A CN 113408796 B CN113408796 B CN 113408796B
- Authority
- CN
- China
- Prior art keywords
- agent
- representing
- network
- policy
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种多任务深度强化学习的深空探测器软着陆路径规划方法,属于人工智能与深空探测技术领域。本发明基于深度确定性策略强化学习算法DDPG,采用多任务学习,充分利用智能体之间的对抗与协作关系,提升了每个智能体应对不确定情况的能力,提高模型整体的泛化性能。通过采用融合时间上下文信息的自注意力机制,不仅避免智能体陷入局部最优状态,而且使智能体更加聚焦到有利于自身获得最大回报的信息进行学习,进一步提高探测器着陆的成功率。本方法能够实现深空探测器的稳定着陆,为后续实现小行星探测、自主取样和航天员登陆活动奠定基础。
Description
技术领域
本发明涉及一种深空探测器软着陆路径规划方法,具体涉及一种多任务深度强化学习的深空探测器软着陆路径规划方法,属于人工智能与深空探测技术领域。
背景技术
小行星探测是一项学科综合、高技术集成的系统工程,体现了一个国家的综合实力和竞争力。小行星探测不仅有利于人类进一步了解太阳系的起源和演化,而且可以推动航天新理论和技术的发展和验证,推动科技创新并进一步提高国家的综合国力。
传统的深空探测器,主要依靠人类先验知识来制定飞行策略,进而实施探测器着陆。但是,探测器在着陆过程中,由于缺乏路径自主规划功能,且由于小行星的特殊性和未知性,导致探测器在着陆过程中会出现失控、翻转或倾覆等问题。
解决深空探测器着陆问题,是实现深空探测的关键任务之一。由于深空环境复杂,且小行星存在弱引力等特性,如何减少探测器对地面人工先验知识的依赖,通过自主规划路径进行探测器软着陆,是实现探测器自主采样的关键。此外,由于深空中存在很多的障碍物,探测器在软着陆过程中,通过实施路径规划,能够避免与深空中的障碍物以及其他星体发生碰撞,从而提高着陆的成功率。
目前,现有的探测器着陆路径规划方法包括基于D3QN PER算法的行星车路径规划方法、基于光学的自主导航方法、采用固定时序控制着陆、采用确定附着策略进行着陆等。但是,这些方法或者仅适用于静态环境,或者缺乏自主规划能力,难以应对复杂的深空环境,尤其是在面对未知参数的小行星时,很容易导致探测器着陆失败。
发明内容
本发明的目的是为了解决深空探测器着陆过程中,因飞行距离远、与地面通信延时较长,多依赖人工经验缺乏自主规划能力,以及小行星自身的未知性和特殊性等原因,导致深空探测器着陆失败率高的技术问题,创造性地提出一种多任务深度强化学习的深空探测器软着陆路径规划方法。
本发明的创新点在于:基于DDPG(深度确定性策略强化学习算法,DeepDeterministic Policy Gradient),采用多任务学习和融合时间上下文的自注意力机制,实现深空探测器的稳定着陆,为后续实现小行星探测、自主取样和航天员登录活动奠定基础。
本发明采用以下技术方案实现。
一种多任务深度强化学习的深空探测器软着陆路径规划方法,包括以下步骤:
首先,在DDPG模型基础上,采用多任务学习构造多智能体强化学习模型。DDPG算法包含actor和critic网络两个部分,actor包含online策略网络和target策略网络,critic包含online Q网络和target Q网络,online网络和target网络都是由两个MLP构成。在DDPG的基础上,采用基于硬参数共享的多任务学习方式改进MLP。采用融合时间上下文信息的自注意力机制改进MLP,使每个智能体在学习时能够更加关注使自己获得最大收益的信息进行学习。
online策略网络和随机噪声生成一个随机过程,actor网络根据随机过程为每个智能体选择一个行为并与环境作用,返回奖励以及新的状态actor将每个智能体的存入经验池中,作为训练online网络的数据集。
之后,采用均方误差计算online Q网络的梯度,之后更新online Q网络。采用Monte-carlo方法计算策略网络的梯度,之后更新online策略网络。
最后,采用软更新方式更新target策略网络的参数,完成路径规划。
有益效果
与现有技术相比,本发明方法具有以下优点:
1.通过采用多任务学习方式,充分利用智能体之间的对抗与协作关系,进一步提升每个智能体应对不确定情况的能力,提高模型整体的泛化性能。
2.通过采用融合时间上下文信息的自注意力机制,不仅可以避免智能体陷入局部最优状态,而且也可以使智能体更加聚焦到有利于自身获得最大回报的信息进行学习,进一步提高探测器着陆的成功率。
附图说明
图1为本发明的模型结构示意图。
图2为智能体基于硬参数共享的多任务学习结构图。
图3为本方法采用的深度强化学习DDPG模型结构图。
图4为本方法与其他方法对比的实验结果图。
具体实施方式
下面结合附图对本发明方法做进一步详细说明。
如图1所示。一种多任务深度强化学习的深空探测器软着陆路径规划方法,包括以下步骤。
步骤1:将深空探测器的节点、深空环境中的障碍物均定义为智能体。
步骤2:在DDPG模型基础上,采用多任务学习构造多智能体强化学习模型。如图2所示。具体如下:
DDPG模型由对策略进行模拟的actor网络和对Q函数进行模拟的critic网络组成。其中,actor网络包含online策略网络和target策略网络,critic网络包含online Q函数和target Q网络。如图3所示。
online策略网络和target策略网络均由两个MLP(多层感知机,Multi-layerPerceptron,MLP)组成。其中,智能体之间采用硬参数共享的多任务学习方法,在MLP的前5层进行参数共享。通过多任务学习,实现智能体之间的协作。当某个智能体在学习时,其它智能体作为监督信号来提升当前智能体的学习能力。
步骤3:当MLP进行特征提取时,采用融合时间上下文信息的自注意力机制对其进行改进,如式1、式2、式3所示:
Λi=softmax(f(Fi-1(oi,ai))) (1)
Fi=Λi*Fi (2)
Fi=Fi+Fi-1 (3)
其中,oi表示第i个智能体的观测值,ai表示第i个智能体的行为,f表示激活函数ReLu,Fi-1表示第i-1层的特征,Λi表示标准化输出,Fi表示第i层的特征。
通过使用自注意力机制,使智能体在进行多任务学习时,能够更加关注有利于使自己获得最大回报的信息进行学习。同时,采用时间上下文信息,避免了智能体陷入局部最优状态中。
步骤4:actor网络根据当前online策略μ和随机噪声Noise,生成一个随机过程,根据该随机过程为每个智能体选择一个为t时刻第i个智能体的动作。然后,智能体在当前状态和环境中执行返回奖励和新的状态其中,reward函数设置如式4所示:
其中,dt表示t时刻智能体距离小行星的距离,dt-1表示t-1时刻智能体距离小行星的距离;dbody表示智能体距离探测器主体的距离,dagent_i表示第i个智能体距离探测器主体的距离;ωagent_t表示t时刻智能体的加速度,ωagent_t-1表示t-1时刻智能体的加速度;vagent_t表示t时刻智能体的速度,vagent_t-1表示t-1时刻智能体的速度。
其中,x表示智能体的观测值,x’表示智能体更新的观测值,aN表示第N个智能体的动作,rN表示第N个智能体的奖励。
步骤7:利用式5定义的均方误差,计算online Q网络的梯度。
其中,θi表示第i个智能体的策略函数μθi的参数,表示第i个智能体在策略μ、智能体观测值x和行为ɑ下的Q函数值,(a1,...,aN)表示第1个到第N个智能体的动作,y表示真实值,Ex,a,r,x’表示智能体在观测值x、行为a、奖励r和新观测值x’下的期望值,L(θi)表示关于θi的损失函数,ri表示第i个智能体获得的奖励,γ表示折扣因子,表示第i个智能体在新策略μ’下的Q函数值,(a’1,...,a’N)表示第1个到第N个智能体的新动作。
步骤8:更新online Q策略网络。采用Adam优化器更新θQ,θQ表示online Q策略网络的参数。
其中,表示第j个智能体在第i次迭代时的近似策略参数,表示关于的损失函数;表示第j个智能体在观测值oj条件下执行aj时的近似策略函数;表示近似策略的熵;λ表示折扣稀疏;表示关于观测值oj和动作aj的期望值;表示近似真实值;ri表示reward值;表示更新策略后的Q函数值;x’表示更新的观测值,表示智能体的近似策略函数,其中(o1,…,oi,…,oN)表示智能体的观测值。
步骤10:每个智能体期望获得的最大reward如式9所示,利用式10计算策略网络的梯度:
其中,ui表示第i个智能体的策略函数,Ri(s,a)表示在状态s下执行动作ɑ获得的奖励,表示第k个子策略服从均匀分布unif(1,K)、状态s的分布为pμ、并且在下执行动作ɑ时的期望值;表示进行梯度计算;表示子策略的经验池;Je(μi)表示状态s根据分布pμ时Ri(s,a)的期望值;K表示所有子策略的个数;表示第k个子策略在观测值x和动作ɑ取样于时的期望值;表示在观测值为oi条件下动作为ai时第i个智能体在第k个子策略时的策略函数,其中oi表示第i个智能体的观测值,ai表示第i个智能体的行为;表示观测值为x、动作为(a1,…,aN)时执行策略μi时的Q函数值;表示观测值为oi时第i个智能体的第k个子策略的策略函数。
步骤11:更新online策略网络。采用Adam优化器更新θμ,θμ表示策略函数μ的参数。
步骤12:采用式11的软更新方式,更新target策略网络的参数。
在实验测试中,AMDRL模型的超参数设置如表1所示:
表1 AMTDRL模型超参数
探测器的参数设置如表2所示:
表2探测器参数
本发明以MADDPG模型作为基线进行对比,实验结果如图4所示。算法迭代30000个episode,每隔100次进行取样。从图4可以看出,在迭代前10000次时AMTDRL与MADDPG获得的平均reward趋于一致,但是对着迭代次数的增加,AMTDRL的平均reward值一直高于MADDPG,说明在该方法下探测器可以更好的躲避障碍,获得更优的着陆路径。
Claims (3)
1.多任务深度强化学习的深空探测器软着陆路径规划方法,其特征在于,包括以下步骤:
步骤1:将深空探测器的节点、深空环境中的障碍物均定义为智能体;
步骤2:在深度确定性策略强化学习算法DDPG模型基础上,采用多任务学习构造多智能体强化学习模型,具体如下:
DDPG模型由对策略进行模拟的actor网络和对Q函数进行模拟的critic网络组成,其中,actor网络包含online策略网络和target策略网络,critic网络包含online Q函数和target Q网络;
online策略网络和target策略网络均由两个多层感知机MLP组成;其中,智能体之间采用硬参数共享的多任务学习方法,在MLP的前5层进行参数共享;通过多任务学习,实现智能体之间的协作;当某个智能体在学习时,其它智能体作为监督信号来提升当前智能体的学习能力;
步骤3:当MLP进行特征提取时,采用融合时间上下文信息的自注意力机制对其进行改进,如式1、式2、式3所示:
Λi=softmax(f(Fi-1(oi,ai))) (1)
Fi=Λi*Fi (2)
Fi=Fi+Fi-1 (3)
其中,oi表示第i个智能体的观测值,ai表示第i个智能体的行为,f表示激活函数ReLu,Fi-1表示第i-1层的特征,Λi表示标准化输出,Fi表示第i层的特征;
步骤4:actor网络根据当前online策略μ和随机噪声Noise,生成一个随机过程,根据该随机过程为每个智能体选择一个 为t时刻第i个智能体的动作;然后,智能体在当前状态和环境中执行返回奖励和新的状态其中,reward函数设置如式4所示:
其中,dt表示t时刻智能体距离小行星的距离,dt-1表示t-1时刻智能体距离小行星的距离;dbody表示智能体距离探测器主体的距离,dagent_i表示第i个智能体距离探测器主体的距离;ωagent_t表示t时刻智能体的加速度,ωagent_t-1表示t-1时刻智能体的加速度;vagent_t表示t时刻智能体的速度,vagent_t-1表示t-1时刻智能体的速度;
其中,x表示智能体的观测值,x'表示智能体更新的观测值,aN表示第N个智能体的动作,rN表示第N个智能体的奖励;
步骤7:利用式5定义的均方误差,计算online Q网络的梯度;
其中,θi表示第i个智能体的策略函数的参数,表示第i个智能体在策略μ、智能体观测值x和行为ɑ下的Q函数值,(a1,...,aN)表示第1个到第N个智能体的动作,y表示真实值,Ex,a,r,x'表示智能体在观测值x、行为a、奖励r和新观测值x'下的期望值,L(θi)表示关于θi的损失函数,ri表示第i个智能体获得的奖励,γ表示折扣因子,表示第i个智能体在新策略μ'下的Q函数值,(a'1,...,a'N)表示第1个到第N个智能体的新动作;
步骤8:更新online Q策略网络;
其中,表示第j个智能体在第i次迭代时的近似策略参数,表示关于的损失函数;表示第j个智能体在观测值oj条件下执行aj时的近似策略函数;表示近似策略的熵;λ表示折扣系数;表示关于观测值oj和动作aj的期望值;表示近似真实值;ri表示reward值;表示更新策略后的Q函数值;x'表示更新的观测值,表示智能体的近似策略函数,其中(o1,...,oi,...,oN)表示智能体的观测值;
步骤10:每个智能体期望获得的最大reward如式9所示,利用式10计算策略网络的梯度:
其中,ui表示第i个智能体的策略函数,Ri(s,a)表示在状态s下执行动作ɑ获得的奖励,表示第k个子策略服从均匀分布unif(1,K)、状态s的分布为pμ、并且在下执行动作ɑ时的期望值;表示进行梯度计算;表示子策略的经验池;Je(μi)表示状态s根据分布pμ时Ri(s,a)的期望值;K表示所有子策略的个数;表示第k个子策略在观测值x和动作ɑ取样于时的期望值;表示在观测值为oi条件下动作为ai时第i个智能体在第k个子策略时的策略函数,其中oi表示第i个智能体的观测值,ai表示第i个智能体的行为;表示观测值为x、动作为(a1,...,aN)时执行策略μi时的Q函数值;表示观测值为oi时第i个智能体的第k个子策略的策略函数;
步骤11:更新online策略网络;
步骤12:采用式11的软更新方式,更新target策略网络的参数:
其中,τ表示调节系数,θQ表示Q函数的参数,θQ'表示更新后的Q函数的参数,θμ表示策略函数μ的参数,θμ'表示更新后策略函数μ'的参数。
2.如权利要求1所述的多任务深度强化学习的深空探测器软着陆路径规划方法,其特征在于,步骤8具体采用Adam优化器更新θQ,θQ表示online Q策略网络的参数。
3.如权利要求1所述的多任务深度强化学习的深空探测器软着陆路径规划方法,其特征在于,步骤11具体采用Adam优化器更新θμ,θμ表示策略函数μ的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110622474.XA CN113408796B (zh) | 2021-06-04 | 2021-06-04 | 多任务深度强化学习的深空探测器软着陆路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110622474.XA CN113408796B (zh) | 2021-06-04 | 2021-06-04 | 多任务深度强化学习的深空探测器软着陆路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113408796A CN113408796A (zh) | 2021-09-17 |
CN113408796B true CN113408796B (zh) | 2022-11-04 |
Family
ID=77676271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110622474.XA Active CN113408796B (zh) | 2021-06-04 | 2021-06-04 | 多任务深度强化学习的深空探测器软着陆路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113408796B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821057B (zh) * | 2021-10-14 | 2023-05-30 | 哈尔滨工业大学 | 一种基于强化学习的行星软着陆控制方法及系统和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
JP2020166795A (ja) * | 2019-03-31 | 2020-10-08 | 国立大学法人神戸大学 | 効率的に学習を行う強化学習方法、強化学習装置及び強化学習プログラム |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019219965A1 (en) * | 2018-05-18 | 2019-11-21 | Deepmind Technologies Limited | Meta-gradient updates for training return functions for reinforcement learning systems |
-
2021
- 2021-06-04 CN CN202110622474.XA patent/CN113408796B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
JP2020166795A (ja) * | 2019-03-31 | 2020-10-08 | 国立大学法人神戸大学 | 効率的に学習を行う強化学習方法、強化学習装置及び強化学習プログラム |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
Non-Patent Citations (3)
Title |
---|
《Attention guided for partial domain adaptation》;Changchun Zhang等;《Information Sciences》;20210208;第547卷;第860-869页 * |
《基于值函数和策略梯度的深度强化学习综述》;刘建伟 等;《计算机学报》;20190630;第42卷(第6期);第1407-1438页 * |
《多智能体深度强化学习研究综述》;孙彧 等;《计算机工程与应用》;20201231;第56卷(第5期);第13-24页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113408796A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110262511B (zh) | 基于深度强化学习的双足机器人自适应性行走控制方法 | |
EP4231197A1 (en) | Training machine learning models on multiple machine learning tasks | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
Harris et al. | Spacecraft decision-making autonomy using deep reinforcement learning | |
CN115511177A (zh) | 基于ingo-swgmn混合模型的超短期风速预测方法 | |
CN113408796B (zh) | 多任务深度强化学习的深空探测器软着陆路径规划方法 | |
CN116224794A (zh) | 一种基于离散-连续异构q网络的强化学习连续动作控制方法 | |
CN114169421A (zh) | 基于内在动机的多智能体稀疏奖励环境协作探索方法 | |
CN115374933A (zh) | 一种多节点探测器着陆行为智能规划及决策方法 | |
CN116301027B (zh) | 一种基于安全强化学习的城市空域内无人机路径规划方法 | |
CN116859989A (zh) | 一种基于群体协同的无人机集群智能对抗策略生成方法 | |
CN116307331A (zh) | 航空器轨迹的规划方法 | |
CN114115307B (zh) | 一种基于深度学习的航天器反交会逃逸脉冲求解方法 | |
CN115453880A (zh) | 基于对抗神经网络的用于状态预测的生成模型的训练方法 | |
CN114861368A (zh) | 一种基于近端策略的铁路纵断面设计学习模型的构建方法 | |
Zhang et al. | Gliding control of underwater gliding snake-like robot based on reinforcement learning | |
CN114118371A (zh) | 一种智能体深度强化学习方法及计算机可读介质 | |
Li et al. | Research on path planning of cloud robot in dynamic environment based on improved ddpg algorithm | |
CN114662656A (zh) | 一种深度神经网络模型训练方法、自主导航方法及系统 | |
CN114386620A (zh) | 一种基于动作约束的离线多智能体强化学习方法 | |
Yang et al. | On the application of reinforcement learning in multi-debris active removal mission planning | |
Hu et al. | Densely rewarded reinforcement learning for robust low-thrust trajectory optimization | |
Wang et al. | Automated Reinforcement Learning Based on Parameter Sharing Network Architecture Search | |
Sun et al. | Incremental learning-based optimal design of BFN kernel for online spacecraft disturbance rejection control | |
CN115857556B (zh) | 一种基于强化学习的无人飞行器协同探测规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |