CN113419548A - 一种航天器深度强化学习莱维飞行控制系统 - Google Patents

一种航天器深度强化学习莱维飞行控制系统 Download PDF

Info

Publication number
CN113419548A
CN113419548A CN202110593261.9A CN202110593261A CN113419548A CN 113419548 A CN113419548 A CN 113419548A CN 202110593261 A CN202110593261 A CN 202110593261A CN 113419548 A CN113419548 A CN 113419548A
Authority
CN
China
Prior art keywords
flight
spacecraft
levy
track
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110593261.9A
Other languages
English (en)
Inventor
汤亮
王勇
袁利
韩冬
黄煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Control Engineering
Original Assignee
Beijing Institute of Control Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Control Engineering filed Critical Beijing Institute of Control Engineering
Priority to CN202110593261.9A priority Critical patent/CN113419548A/zh
Publication of CN113419548A publication Critical patent/CN113419548A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • G05D1/0816Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
    • G05D1/0833Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability using limited authority control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

一种航天器深度强化学习莱维飞行控制系统,包括:自主规划模块,根据航天器的状态信息获取特征,利用该特征进行预测,并获得莱维飞行参数;莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;航天器姿轨控模块,用于控制飞行器跟踪下一时刻的飞行轨迹。本发明在莱维飞行的基础上,采用深度强化学习以综合考虑各种因素,选择最佳的飞行轨迹,以保证在最优的飞行性能。

Description

一种航天器深度强化学习莱维飞行控制系统
技术领域
本发明涉及一种航天器深度强化学习莱维飞行控制系统,用于解决各类航天器在轨机动问题。
背景技术
莱维分布是法国数学家莱维(Levy)于20世纪30年代提出的一种概率分布,莱维飞行是一种非高斯随机过程,它是以发生长程跳跃为特点的一类具有马尔科夫性质的随机过程,其步长服从莱维分布,这是一种短距离搜索与偶尔长距离搜索相间的随机行走模式。科学家经过研究发现,许多鸟类、昆虫的飞行路径都遵循莱维飞行的规律。因此,航天器在受到攻击时可以采用莱维飞行,其能够减小击中概率,快速脱离危险区域。
莱维飞行可以简单地用数学描述为
Figure BDA0003090320910000011
其中,Xt为在t时刻的位置,
Figure BDA0003090320910000012
为点乘运算,Levy(λ)由莱维飞行得到的位置增量,λ为可调参数。
一般采用Mantegna算法模拟Levy(λ),其数学表达式如下所示:
Figure BDA0003090320910000013
其中,u服从正态分布
Figure BDA0003090320910000014
v服从正态分布N(0,1),
Figure BDA0003090320910000015
从上式可见,通过调整参数λ可以调整Levy(λ)飞行整体飞行步长。从而可以调节整体的飞行轨迹。
但航天器除了考虑采用何种飞行轨迹外,还要考虑燃料消耗、机动能力等各种复杂的限制因素,因此需要航天器综合选择合适的飞行策略。
现有技术中,尚无已有方案或流程可供借鉴。
发明内容
本发明要解决的技术问题是:克服现有技术的不足,提供了一种航天器深度强化学习莱维飞行控制系统,包括:自主规划模块,根据航天器的状态信息获取特征,利用该特征进行预测,并获得莱维飞行参数;莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;航天器姿轨控模块,用于控制飞行器跟踪下一时刻的飞行轨迹。本发明在莱维飞行的基础上,采用深度强化学习以综合考虑各种因素,选择最佳的飞行轨迹,以保证在最优的飞行性能。
本发明目的通过以下技术方案予以实现:
一种航天器深度强化学习莱维飞行控制系统,包括:
基于深度学习的特征提取模块,用于根据航天器的状态信息获取特征;
基于深度强化学习自主规划模块,利用特征进行预测,并获得莱维飞行参数;
莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;
航天器姿轨控模块,用于控制飞行器跟踪莱维飞行模块生成的飞行轨迹。
在本发明一实施例中,基于深度学习的特征提取模块利用深度神经网络,对航天器的状态信息进行提取。
在本发明一实施例中,评价网络利用所述特征进行预测,测的结果包括Q值和击中概率。
在本发明一实施例中,策略网络利用所述特征获得莱维飞行参数。
一种航天器深度强化学习莱维飞行控制方法,包括如下步骤:
从航天器的状态信息中提取特征;
基于该特征,利用评价网络进行预测,利用策略网络生成莱维飞行参数;
根据航天器的状态信息和莱维飞行参数,确定下一时刻的飞行轨迹;
控制飞行器跟踪下一时刻的飞行轨迹。
在本发明一实施例中,航天器的状态信息包括位置、姿态、速度、角速度和击中概率。
在本发明一实施例中,采用强化学习方法训练策略网络。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述航天器深度强化学习莱维飞行控制方法。
本发明相比于现有技术具有如下有益效果:
(1)本发明结合深度强化学习和莱维飞行生提出了一种飞行策略,充分利用了莱维飞行随机游走特性,保持了飞行轨迹的随机性;
(2)本发明充分挖掘了莱维飞行重要参数λ的作用,通过设置不同λ,控制飞行轨迹随机变化的增量,从而实现随机飞行轨迹一定程度的可控性;
(3)通过引入深度强化学习调节莱维飞行的参数λ,实现飞行随机化的同时考虑多种限制因素的目的;
(4)利用深度神经网络的特征提取能力,实现了对各种复杂异构信息的特征提取,使航天器能够综合各种信息做出决策。
附图说明
图1为本发明系统方案的组成示意图;
图2为特征提取网络结构;
图3为策略网络结构;
图4为评价网络结构。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步详细描述。
(1)基本组成
一种航天器深度强化学习莱维飞行控制系统及方法,基本方案如图1所示,包括基于深度学习的特征提取模块、基于深度强化学习的自主规划模块、莱维飞行模块和航天器姿轨控模块。
基于深度学习的特征提取模块由卷积网络和全连接网络组成,输入为追踪航天器状态,输出为特征,如图2所示;
基于深度强化学习的自主规划模块由策略网络和评价网络三个部分组成。策略网络由长短时记忆网络组成,输入为特征,输出为轨道和姿态的莱维飞行参数,如图3所示;评价网络由长短时记忆网络组成,输入为特征,输出为Q值和击中概率,如图4所示。
莱维飞行模块包括姿态和轨道两种飞行控制方式,其中姿态飞行控制方式包括由偏航、俯仰、滚动三个通道组成、轨道飞行控制方式由X、Y、Z三个通道组成。每个通道均采用莱维飞行轨迹计算运动增量。
Figure BDA0003090320910000041
其中,X表示航天器6自由度位姿。
航天器姿轨控模块包括轨道控制器和姿态控制器,分别以莱维飞行模块的输出作为期望轨迹,理论上可以采用任何轨道或姿态控制器实现对期望轨迹的跟踪控制。
(2)Reward函数设计
Reward函数要反应任务的目标及各种限制因素。因此,定义reward函数如下:
r=k1Hitnum+k2Hitpart+k3Hittime+k4Fuel。
其中,Hitnum为威胁数量,Hitpart为威胁部位、Hittime为威胁持续时间、为Fuel燃料消耗。上述各物理量可根据不同对象具体设计。k1,k2,k3,k4为可调参数,表示上述各量在整个reward函数中的占比。
(3)工作流程
工作流程包括如下步骤:
1)利用基于深度神经网络的特征提取系统,将航天器1的态势图像包括航天器1位置/姿态及其速度和角速度、航天器2位置/姿态及其速度和角速度、击中概率转变为特征。
2)利用策略网络把特征转变为姿态和轨道飞行轨迹的莱维飞行参数,利用评价网络得到预测的Q值和击中概率。
3)利用莱维飞行公式,基于当前运动状态和策略网络的输出参数,计算下一时刻的速度增量,从而得到下一时刻的飞行轨迹。
4)利用姿态和轨道控制器跟踪飞行轨迹,完成机动飞行。
学习训练需要在数学仿真学习训练系统下完成,具体步骤如下:
1)采样:
基于上述步骤,设置k个模拟场景进行仿真,并收集数据;
2)训练:
基于PPO/trpo/ddpg等强化学习方法训练策略和利用监督学习方法训练评价网络。
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (8)

1.一种航天器深度强化学习莱维飞行控制系统,其特征在于,包括:
基于深度学习的特征提取模块,用于根据航天器的状态信息获取特征;
基于深度强化学习自主规划模块,利用特征进行预测,并获得莱维飞行参数;
莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;
航天器姿轨控模块,用于控制飞行器跟踪莱维飞行模块生成的飞行轨迹。
2.根据权利要求1所述的控制系统,其特征在于,基于深度学习的特征提取模块利用深度神经网络,对航天器的状态信息进行提取。
3.根据权利要求1或2所述的控制系统,其特征在于,评价网络利用所述特征进行预测,测的结果包括Q值和击中概率。
4.根据权利要求1或2所述的控制系统,其特征在于,策略网络利用所述特征获得莱维飞行参数。
5.一种航天器深度强化学习莱维飞行控制方法,其特征在于,包括如下步骤:
从航天器的状态信息中提取特征;
基于该特征,利用评价网络进行预测,利用策略网络生成莱维飞行参数;
根据航天器的状态信息和莱维飞行参数,确定下一时刻的飞行轨迹;
控制飞行器跟踪下一时刻的飞行轨迹。
6.根据权利要求5所述的控制方法,其特征在于,航天器的状态信息包括位置、姿态、速度、角速度和击中概率。
7.根据权利要求5或6所述的控制方法,其特征在于,采用强化学习方法训练策略网络。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求5至7中任一项所述的控制方法。
CN202110593261.9A 2021-05-28 2021-05-28 一种航天器深度强化学习莱维飞行控制系统 Pending CN113419548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110593261.9A CN113419548A (zh) 2021-05-28 2021-05-28 一种航天器深度强化学习莱维飞行控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110593261.9A CN113419548A (zh) 2021-05-28 2021-05-28 一种航天器深度强化学习莱维飞行控制系统

Publications (1)

Publication Number Publication Date
CN113419548A true CN113419548A (zh) 2021-09-21

Family

ID=77713179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110593261.9A Pending CN113419548A (zh) 2021-05-28 2021-05-28 一种航天器深度强化学习莱维飞行控制系统

Country Status (1)

Country Link
CN (1) CN113419548A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012078022A1 (en) * 2010-12-09 2012-06-14 Universiti Sains Malaysia System of autonomous surface vehicles with swarming algorithm
CN103760907A (zh) * 2013-12-30 2014-04-30 哈尔滨工程大学 一种基于布谷鸟搜索算法的水下潜器三维路径规划方法
CN109344956A (zh) * 2018-12-05 2019-02-15 重庆邮电大学 基于改进莱维飞行粒子群算法的svm参数优化
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110806759A (zh) * 2019-11-12 2020-02-18 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
CN111024086A (zh) * 2019-12-19 2020-04-17 哈尔滨工程大学 一种基于群禽寻优技术的多无人机航迹规划方法
CN111815055A (zh) * 2020-07-11 2020-10-23 哈尔滨理工大学 一种基于改进莱维飞行蚁狮优化算法的无人机航迹规划方法
WO2021086532A1 (en) * 2019-10-29 2021-05-06 Loon Llc Navigating aerial vehicles using deep reinforcement learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012078022A1 (en) * 2010-12-09 2012-06-14 Universiti Sains Malaysia System of autonomous surface vehicles with swarming algorithm
CN103760907A (zh) * 2013-12-30 2014-04-30 哈尔滨工程大学 一种基于布谷鸟搜索算法的水下潜器三维路径规划方法
CN109344956A (zh) * 2018-12-05 2019-02-15 重庆邮电大学 基于改进莱维飞行粒子群算法的svm参数优化
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
WO2021086532A1 (en) * 2019-10-29 2021-05-06 Loon Llc Navigating aerial vehicles using deep reinforcement learning
CN110806759A (zh) * 2019-11-12 2020-02-18 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
CN111024086A (zh) * 2019-12-19 2020-04-17 哈尔滨工程大学 一种基于群禽寻优技术的多无人机航迹规划方法
CN111815055A (zh) * 2020-07-11 2020-10-23 哈尔滨理工大学 一种基于改进莱维飞行蚁狮优化算法的无人机航迹规划方法

Similar Documents

Publication Publication Date Title
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及系统
US10293483B2 (en) Apparatus and methods for training path navigation by robots
Pfeiffer et al. Reinforced imitation: Sample efficient deep reinforcement learning for mapless navigation by leveraging prior demonstrations
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
CN111950873B (zh) 基于深度强化学习的卫星实时引导任务规划方法及系统
CN112148024B (zh) 基于自适应伪谱法的无人机实时在线航迹规划方法
Espinoza et al. Deep interactive motion prediction and planning: Playing games with motion prediction models
CN111580544A (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
Li et al. Reinforcement learning and deep learning based lateral control for autonomous driving
Cheng et al. Fuzzy categorical deep reinforcement learning of a defensive game for an unmanned surface vessel
Yan et al. Reinforcement Learning‐Based Autonomous Navigation and Obstacle Avoidance for USVs under Partially Observable Conditions
Qu et al. Pursuit-evasion game strategy of USV based on deep reinforcement learning in complex multi-obstacle environment
Li et al. Missile guidance with assisted deep reinforcement learning for head-on interception of maneuvering target
CN113671825A (zh) 一种基于强化学习的机动智能决策规避导弹方法
Scorsoglio et al. Safe Lunar landing via images: A Reinforcement Meta-Learning application to autonomous hazard avoidance and landing
Wu et al. Uncertainty-aware model-based reinforcement learning with application to autonomous driving
Liu et al. A hierarchical reinforcement learning algorithm based on attention mechanism for uav autonomous navigation
Salvatore et al. A neuro-inspired approach to intelligent collision avoidance and navigation
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
CN113419548A (zh) 一种航天器深度强化学习莱维飞行控制系统
WO2021008798A1 (en) Training of a convolutional neural network
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
CN115320890A (zh) 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法
CN116301011A (zh) 一种多智能体高效编队避障方法
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210921