CN113419548A - 一种航天器深度强化学习莱维飞行控制系统 - Google Patents
一种航天器深度强化学习莱维飞行控制系统 Download PDFInfo
- Publication number
- CN113419548A CN113419548A CN202110593261.9A CN202110593261A CN113419548A CN 113419548 A CN113419548 A CN 113419548A CN 202110593261 A CN202110593261 A CN 202110593261A CN 113419548 A CN113419548 A CN 113419548A
- Authority
- CN
- China
- Prior art keywords
- flight
- spacecraft
- levy
- track
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 19
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 239000000446 fuel Substances 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
- G05D1/0816—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
- G05D1/0833—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability using limited authority control
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
一种航天器深度强化学习莱维飞行控制系统,包括:自主规划模块,根据航天器的状态信息获取特征,利用该特征进行预测,并获得莱维飞行参数;莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;航天器姿轨控模块,用于控制飞行器跟踪下一时刻的飞行轨迹。本发明在莱维飞行的基础上,采用深度强化学习以综合考虑各种因素,选择最佳的飞行轨迹,以保证在最优的飞行性能。
Description
技术领域
本发明涉及一种航天器深度强化学习莱维飞行控制系统,用于解决各类航天器在轨机动问题。
背景技术
莱维分布是法国数学家莱维(Levy)于20世纪30年代提出的一种概率分布,莱维飞行是一种非高斯随机过程,它是以发生长程跳跃为特点的一类具有马尔科夫性质的随机过程,其步长服从莱维分布,这是一种短距离搜索与偶尔长距离搜索相间的随机行走模式。科学家经过研究发现,许多鸟类、昆虫的飞行路径都遵循莱维飞行的规律。因此,航天器在受到攻击时可以采用莱维飞行,其能够减小击中概率,快速脱离危险区域。
莱维飞行可以简单地用数学描述为
一般采用Mantegna算法模拟Levy(λ),其数学表达式如下所示:
从上式可见,通过调整参数λ可以调整Levy(λ)飞行整体飞行步长。从而可以调节整体的飞行轨迹。
但航天器除了考虑采用何种飞行轨迹外,还要考虑燃料消耗、机动能力等各种复杂的限制因素,因此需要航天器综合选择合适的飞行策略。
现有技术中,尚无已有方案或流程可供借鉴。
发明内容
本发明要解决的技术问题是:克服现有技术的不足,提供了一种航天器深度强化学习莱维飞行控制系统,包括:自主规划模块,根据航天器的状态信息获取特征,利用该特征进行预测,并获得莱维飞行参数;莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;航天器姿轨控模块,用于控制飞行器跟踪下一时刻的飞行轨迹。本发明在莱维飞行的基础上,采用深度强化学习以综合考虑各种因素,选择最佳的飞行轨迹,以保证在最优的飞行性能。
本发明目的通过以下技术方案予以实现:
一种航天器深度强化学习莱维飞行控制系统,包括:
基于深度学习的特征提取模块,用于根据航天器的状态信息获取特征;
基于深度强化学习自主规划模块,利用特征进行预测,并获得莱维飞行参数;
莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;
航天器姿轨控模块,用于控制飞行器跟踪莱维飞行模块生成的飞行轨迹。
在本发明一实施例中,基于深度学习的特征提取模块利用深度神经网络,对航天器的状态信息进行提取。
在本发明一实施例中,评价网络利用所述特征进行预测,测的结果包括Q值和击中概率。
在本发明一实施例中,策略网络利用所述特征获得莱维飞行参数。
一种航天器深度强化学习莱维飞行控制方法,包括如下步骤:
从航天器的状态信息中提取特征;
基于该特征,利用评价网络进行预测,利用策略网络生成莱维飞行参数;
根据航天器的状态信息和莱维飞行参数,确定下一时刻的飞行轨迹;
控制飞行器跟踪下一时刻的飞行轨迹。
在本发明一实施例中,航天器的状态信息包括位置、姿态、速度、角速度和击中概率。
在本发明一实施例中,采用强化学习方法训练策略网络。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述航天器深度强化学习莱维飞行控制方法。
本发明相比于现有技术具有如下有益效果:
(1)本发明结合深度强化学习和莱维飞行生提出了一种飞行策略,充分利用了莱维飞行随机游走特性,保持了飞行轨迹的随机性;
(2)本发明充分挖掘了莱维飞行重要参数λ的作用,通过设置不同λ,控制飞行轨迹随机变化的增量,从而实现随机飞行轨迹一定程度的可控性;
(3)通过引入深度强化学习调节莱维飞行的参数λ,实现飞行随机化的同时考虑多种限制因素的目的;
(4)利用深度神经网络的特征提取能力,实现了对各种复杂异构信息的特征提取,使航天器能够综合各种信息做出决策。
附图说明
图1为本发明系统方案的组成示意图;
图2为特征提取网络结构;
图3为策略网络结构;
图4为评价网络结构。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步详细描述。
(1)基本组成
一种航天器深度强化学习莱维飞行控制系统及方法,基本方案如图1所示,包括基于深度学习的特征提取模块、基于深度强化学习的自主规划模块、莱维飞行模块和航天器姿轨控模块。
基于深度学习的特征提取模块由卷积网络和全连接网络组成,输入为追踪航天器状态,输出为特征,如图2所示;
基于深度强化学习的自主规划模块由策略网络和评价网络三个部分组成。策略网络由长短时记忆网络组成,输入为特征,输出为轨道和姿态的莱维飞行参数,如图3所示;评价网络由长短时记忆网络组成,输入为特征,输出为Q值和击中概率,如图4所示。
莱维飞行模块包括姿态和轨道两种飞行控制方式,其中姿态飞行控制方式包括由偏航、俯仰、滚动三个通道组成、轨道飞行控制方式由X、Y、Z三个通道组成。每个通道均采用莱维飞行轨迹计算运动增量。
其中,X表示航天器6自由度位姿。
航天器姿轨控模块包括轨道控制器和姿态控制器,分别以莱维飞行模块的输出作为期望轨迹,理论上可以采用任何轨道或姿态控制器实现对期望轨迹的跟踪控制。
(2)Reward函数设计
Reward函数要反应任务的目标及各种限制因素。因此,定义reward函数如下:
r=k1Hitnum+k2Hitpart+k3Hittime+k4Fuel。
其中,Hitnum为威胁数量,Hitpart为威胁部位、Hittime为威胁持续时间、为Fuel燃料消耗。上述各物理量可根据不同对象具体设计。k1,k2,k3,k4为可调参数,表示上述各量在整个reward函数中的占比。
(3)工作流程
工作流程包括如下步骤:
1)利用基于深度神经网络的特征提取系统,将航天器1的态势图像包括航天器1位置/姿态及其速度和角速度、航天器2位置/姿态及其速度和角速度、击中概率转变为特征。
2)利用策略网络把特征转变为姿态和轨道飞行轨迹的莱维飞行参数,利用评价网络得到预测的Q值和击中概率。
3)利用莱维飞行公式,基于当前运动状态和策略网络的输出参数,计算下一时刻的速度增量,从而得到下一时刻的飞行轨迹。
4)利用姿态和轨道控制器跟踪飞行轨迹,完成机动飞行。
学习训练需要在数学仿真学习训练系统下完成,具体步骤如下:
1)采样:
基于上述步骤,设置k个模拟场景进行仿真,并收集数据;
2)训练:
基于PPO/trpo/ddpg等强化学习方法训练策略和利用监督学习方法训练评价网络。
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (8)
1.一种航天器深度强化学习莱维飞行控制系统,其特征在于,包括:
基于深度学习的特征提取模块,用于根据航天器的状态信息获取特征;
基于深度强化学习自主规划模块,利用特征进行预测,并获得莱维飞行参数;
莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;
航天器姿轨控模块,用于控制飞行器跟踪莱维飞行模块生成的飞行轨迹。
2.根据权利要求1所述的控制系统,其特征在于,基于深度学习的特征提取模块利用深度神经网络,对航天器的状态信息进行提取。
3.根据权利要求1或2所述的控制系统,其特征在于,评价网络利用所述特征进行预测,测的结果包括Q值和击中概率。
4.根据权利要求1或2所述的控制系统,其特征在于,策略网络利用所述特征获得莱维飞行参数。
5.一种航天器深度强化学习莱维飞行控制方法,其特征在于,包括如下步骤:
从航天器的状态信息中提取特征;
基于该特征,利用评价网络进行预测,利用策略网络生成莱维飞行参数;
根据航天器的状态信息和莱维飞行参数,确定下一时刻的飞行轨迹;
控制飞行器跟踪下一时刻的飞行轨迹。
6.根据权利要求5所述的控制方法,其特征在于,航天器的状态信息包括位置、姿态、速度、角速度和击中概率。
7.根据权利要求5或6所述的控制方法,其特征在于,采用强化学习方法训练策略网络。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求5至7中任一项所述的控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110593261.9A CN113419548A (zh) | 2021-05-28 | 2021-05-28 | 一种航天器深度强化学习莱维飞行控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110593261.9A CN113419548A (zh) | 2021-05-28 | 2021-05-28 | 一种航天器深度强化学习莱维飞行控制系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113419548A true CN113419548A (zh) | 2021-09-21 |
Family
ID=77713179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110593261.9A Pending CN113419548A (zh) | 2021-05-28 | 2021-05-28 | 一种航天器深度强化学习莱维飞行控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113419548A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012078022A1 (en) * | 2010-12-09 | 2012-06-14 | Universiti Sains Malaysia | System of autonomous surface vehicles with swarming algorithm |
CN103760907A (zh) * | 2013-12-30 | 2014-04-30 | 哈尔滨工程大学 | 一种基于布谷鸟搜索算法的水下潜器三维路径规划方法 |
CN109344956A (zh) * | 2018-12-05 | 2019-02-15 | 重庆邮电大学 | 基于改进莱维飞行粒子群算法的svm参数优化 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110806759A (zh) * | 2019-11-12 | 2020-02-18 | 清华大学 | 一种基于深度强化学习的飞行器航线跟踪方法 |
CN111024086A (zh) * | 2019-12-19 | 2020-04-17 | 哈尔滨工程大学 | 一种基于群禽寻优技术的多无人机航迹规划方法 |
CN111815055A (zh) * | 2020-07-11 | 2020-10-23 | 哈尔滨理工大学 | 一种基于改进莱维飞行蚁狮优化算法的无人机航迹规划方法 |
WO2021086532A1 (en) * | 2019-10-29 | 2021-05-06 | Loon Llc | Navigating aerial vehicles using deep reinforcement learning |
-
2021
- 2021-05-28 CN CN202110593261.9A patent/CN113419548A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012078022A1 (en) * | 2010-12-09 | 2012-06-14 | Universiti Sains Malaysia | System of autonomous surface vehicles with swarming algorithm |
CN103760907A (zh) * | 2013-12-30 | 2014-04-30 | 哈尔滨工程大学 | 一种基于布谷鸟搜索算法的水下潜器三维路径规划方法 |
CN109344956A (zh) * | 2018-12-05 | 2019-02-15 | 重庆邮电大学 | 基于改进莱维飞行粒子群算法的svm参数优化 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
WO2021086532A1 (en) * | 2019-10-29 | 2021-05-06 | Loon Llc | Navigating aerial vehicles using deep reinforcement learning |
CN110806759A (zh) * | 2019-11-12 | 2020-02-18 | 清华大学 | 一种基于深度强化学习的飞行器航线跟踪方法 |
CN111024086A (zh) * | 2019-12-19 | 2020-04-17 | 哈尔滨工程大学 | 一种基于群禽寻优技术的多无人机航迹规划方法 |
CN111815055A (zh) * | 2020-07-11 | 2020-10-23 | 哈尔滨理工大学 | 一种基于改进莱维飞行蚁狮优化算法的无人机航迹规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113485380B (zh) | 一种基于强化学习的agv路径规划方法及系统 | |
US10293483B2 (en) | Apparatus and methods for training path navigation by robots | |
Pfeiffer et al. | Reinforced imitation: Sample efficient deep reinforcement learning for mapless navigation by leveraging prior demonstrations | |
Grigorescu et al. | Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles | |
CN111950873B (zh) | 基于深度强化学习的卫星实时引导任务规划方法及系统 | |
CN112148024B (zh) | 基于自适应伪谱法的无人机实时在线航迹规划方法 | |
Espinoza et al. | Deep interactive motion prediction and planning: Playing games with motion prediction models | |
CN111580544A (zh) | 一种基于强化学习ppo算法的无人机目标跟踪控制方法 | |
Li et al. | Reinforcement learning and deep learning based lateral control for autonomous driving | |
Cheng et al. | Fuzzy categorical deep reinforcement learning of a defensive game for an unmanned surface vessel | |
Yan et al. | Reinforcement Learning‐Based Autonomous Navigation and Obstacle Avoidance for USVs under Partially Observable Conditions | |
Qu et al. | Pursuit-evasion game strategy of USV based on deep reinforcement learning in complex multi-obstacle environment | |
Li et al. | Missile guidance with assisted deep reinforcement learning for head-on interception of maneuvering target | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
Scorsoglio et al. | Safe Lunar landing via images: A Reinforcement Meta-Learning application to autonomous hazard avoidance and landing | |
Wu et al. | Uncertainty-aware model-based reinforcement learning with application to autonomous driving | |
Liu et al. | A hierarchical reinforcement learning algorithm based on attention mechanism for uav autonomous navigation | |
Salvatore et al. | A neuro-inspired approach to intelligent collision avoidance and navigation | |
Zhang et al. | Situational continuity-based air combat autonomous maneuvering decision-making | |
CN113419548A (zh) | 一种航天器深度强化学习莱维飞行控制系统 | |
WO2021008798A1 (en) | Training of a convolutional neural network | |
CN115097861B (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
CN115320890A (zh) | 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法 | |
CN116301011A (zh) | 一种多智能体高效编队避障方法 | |
CN115373415A (zh) | 一种基于深度强化学习的无人机智能导航方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210921 |