CN111027143A - 一种基于深度强化学习的舰载机进近引导方法 - Google Patents
一种基于深度强化学习的舰载机进近引导方法 Download PDFInfo
- Publication number
- CN111027143A CN111027143A CN201911308198.9A CN201911308198A CN111027143A CN 111027143 A CN111027143 A CN 111027143A CN 201911308198 A CN201911308198 A CN 201911308198A CN 111027143 A CN111027143 A CN 111027143A
- Authority
- CN
- China
- Prior art keywords
- carrier
- aircraft
- guiding
- approach
- intelligent agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于深度强化学习的舰载机进近引导方法,包括以下步骤:首先,对舰载机和航母进行建模,构建智能体训练环境;其次,构建深度强化学习引导智能体,设计智能体的状态空间和决策动作空间;然后,根据舰载机进近成功条件设置奖励函数;之后,设置引导场景中舰载机和航母的初始姿态,并采用深度强化学习方法训练智能体;最后,使用训练完成的智能体准确引导舰载机到达最终进近点。本发明可以应用于舰载机智能引导中,利用具备指挥控制能力的智能体辅助指挥人员进行指挥,引导舰载机从任意姿态到达最终进近点,解决了进近过程中舰载机在固定航线等待进近导致的进近效率低、耗时久的问题,使进近过程更加高效、可靠。
Description
技术领域
本发明属于计算机应用及人工智能技术领域,特别设计一种基于深度强化学习的舰载机进近引导方法。
背景技术
舰载机是航空母舰战斗力的重要保障,而舰载机能否高效、可靠地到达进近点是保证航空母舰战斗力最主要的技术条件之一。现有进近引导技术要求舰载机在固定航线等待,依次进近,导致进近引导效率低、耗时久,无法满足进近过程高效、可靠地要求。本发明提出了一种基于深度强化学习的舰载机进近引导方法,该方法能够利用深度强化学习方法训练出引导智能体,用于辅助指挥人员指挥控制进近过程,使舰载机从任意姿态都能高效、可靠地到达进近点,同时能针对不同的舰载机类型进行自主学习,有较好的适应性。
发明内容
本发明的目的在于解决现有舰载机进近引导技术效率低、耗时久的问题,提出一种基于深度强化学习的舰载机进近引导方法,可使舰载机从任意姿态都能高效、可靠地到达进近点,提高舰载机进近引导效率。
为实现以上目的,本发明采取如下技术方案:
一种基于深度强化学习的舰载机进近引导方法,包括以下步骤:
步骤一,根据动力学方程和运动学方程,对舰载机和航母进行建模,构建智能体训练环境;
步骤二,依据舰载机引导任务特性,构建基于深度强化学习的引导智能体,设计智能体的状态空间和决策动作空间;
步骤三,根据舰载机成功引导条件,确定智能体的输出策略,设置奖励函数和训练终止条件;
步骤四,利用深度强化学习的方法,对引导智能体深度神经网络进行训练,直至引导智能体可准确生成引导指令,引导舰载机到达最终进近点,得到训练完成的引导智能体;
步骤五,利用训练好的智能体在场景中引导舰载机进近,此时引导智能体具备准确引导舰载机到达最终进近点的能力。
本发明相对于现有技术具有如下的优点和效果:
(1)本发明将深度强化学习方法应用于舰载机进近引导过程中,利用引导智能体辅助指挥人员指挥控制进近过程,实现舰载机在任意姿态下都能高效、可靠地到达进近点,不需要在固定航线等待,提高了进近引导效率;
(2) 本发明可以使用多种飞机的性能参数数据进行训练,能够实现不同飞机的进近引导。
附图说明
图1为本实施例的一种基于深度强化学习的舰载机进近引导方法的步骤流程图;
图2为本实施例的一种基于深度强化学习的舰载机进近引导方法的深度强化学习原理架构图;
图3 为本实施例的基于深度强化学习的舰载机进近引导方法训练过程成功率变化图;
图4为本实施例的一种基于深度强化学习的舰载机进近引导方法的舰载机引导实例航迹图。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
本实施方式进近场景中,为方便表述舰载机态势信息,以航母的初始位置为坐标原点,建立地面坐标系,智能体在该进近场景中进行舰载机进近引导实验;如图1所示,一种基于深度强化学习的舰载机进近引导方法,包括以下几个步骤:
步骤一,根据动力学方程和运动学方程,对舰载机和航母进行建模,构建智能体训练环境;
步骤二,依据舰载机引导任务特性,构建基于深度强化学习的引导智能体,设计智能体的状态空间和决策动作空间;
步骤三,根据舰载机成功引导条件,确定智能体的输出策略,设置奖励函数和训练终止条件;
步骤四,利用深度强化学习的方法,对引导智能体深度神经网络进行训练,直至引导智能体可准确生成引导指令,引导舰载机到达最终进近点,得到训练完成的引导智能体;
步骤五,利用训练好的智能体在场景中引导舰载机进近,此时引导智能体具备准确引导舰载机到达最终进近点的能力。
所述步骤一具体包含以下步骤:
研究飞机的连续决策控制问题时,根据动力学基本定理和飞机质心动力学方程,使用过载来描述飞机的机动过程,在航迹坐标系内建立的飞机过载动力学方程如下:
其中,g为重力加速度,是为轨迹倾角,为轨迹偏角,为飞机飞行速度,为切向过载,, 分别为法向过载在y轴、z轴系上的投影分量,为飞机加速度大小,为飞机轨迹倾角的变化率,为飞机轨迹偏角的变化率;通过改变切向过载和法向过载的值,可以实现不同的机动动作,将通过飞机过载运动学方程获得的轨迹倾角、轨迹偏角、飞机速度值代入飞机质心运动学方程中即可获得飞机在地面坐标系中的位置变化;飞机质心运动学方程如下:
研究航母的运动情况时,将航母运动过程当作质点来考虑,忽略波浪对航母运动的影响,航母在水平面运动时在运动坐标系一般方程如下:
所述步骤二具体包含以下步骤:
依据舰载机引导任务特性,确定进近环境下舰载机和航母的态势信息;所述态势信息包含地面坐标系下位置和朝向角、速度、油量等;将进近环境下舰载机和航母的态势信息作为深度神经网络的状态输入;所述地面坐标系是以航母位置为坐标原点,正北方向为x轴正方向,以正东方向为z轴正方向,y轴的方向满足左手定则,且垂直于x、z轴方向;深度神经网络的状态输入S表达式如公式如下:
其中,S代表进近环境下舰载机和航母的态势信息,、、、分别代表舰载机的x、y、z坐标和朝向角,、、、分别代表航母的x、y、z坐标和朝向角;L代表进近场景宽度,代表舰载机当前剩余油量,代表舰载机总可用油量,代表当前舰载机机动动作,代表舰载机动作空间的大小;
在地面坐标系下,设计深度神经网络输出的决策动作空间a的集合为A,其中,集合A是根据NASA学者提出的空战最常用的基本动作库提取出7种基本动作的集合;所述的7种基本动作包含:1)最大加速,2)最大减速,3)最大过载爬升,4)最大过载俯冲,5)最大过载左转,6)最大过载右转,7)稳定飞行;本实例中舰载机的决策动作空间,即舰载机可采取的动作共有七种,分别用[0,1,2,3,4,5,6]表示。
所述步骤三具体包含以下步骤:
根据舰载机成功引导条件,进近实验动作选取策略为ε-greedy策略如下所示,动作值由深度神经网络根据当前状态S给出;
其中,action代表网络的决策输出,epsilon表示一个随机产生的0到1之间的浮点数,action_space表示决策动作空间a的集合A,random函数表示从集合A内随机取一个动作;表示将当前状态state输入到网络Q中,表示从网络Q的输出中取最大值,表示网络Q输出的最大值所对应的候选动作;
在训练过程中,每一步都生成一个0到1之间随机浮点数epsilon,如果随机数epsilon的值小于ε,则深度神经网络会在动作空间中随机选取动作,否则选择使神经网络Q输出最大的对应动作;即在每一步中,深度神经网络有ε的概率随机选取动作,有1-ε的概率按策略选取动作;
每次选取动作ε都会减少,ε随时间衰减的表达式如公式(4)所示:
其中:ε初始值为1,代表完全随机选取动作;α代表每次选取动作时ε的衰减值,其值为0.00004;β代表深度神经网络至少有β概率随机选取动作,即深度神经网络的探索率为β,其值为0.1;
本实施方式中,当舰载机成功到达进近点时,获得R=1的回报值;当舰载机在训练过程中超出进近空域时,获得R=-1的回报值;当超出指定引导时间,即时间耗尽仍未到达进近点时,获得R=0的回报值;
将状态作为深度神经网络的输入,计算当前状态下每一个动作a的Q值;重复上述过程,直至训练过程中舰载机在固定时间内成功率趋于稳定时停止训练;本实施方式实例在仿真场景中对舰载机进行了训练,给出如图4所示的舰载机进近引导实验成功率图。
在本实施例中,所述舰载机着舰引导条件为:
如果舰载机到达进近点,且高度、速度、航向、飞机构型等飞行状态需达到下滑着舰要求则舰载机进近引导结束。
在本实施例中,所述舰载机到达进近点位置的判断方法为:
在本实例中,所述引导智能体训练方法为:
在每个训练步长内,对进近场景内舰载机和航母坐标进行初始化,在进近场景范围内随机生成舰载机,引导智能体根据舰载机当前姿态和与航母的相对位置,生成引导指令,舰载机执行该指令并根据指令质量给出奖励值,最终舰载机依靠智能体引导成功到达最终进近点;本实施方式将训练成功的智能体应用于引导舰载机到达进近点中,给出了如图3所示的一种基于深度强化学习的舰载机进近引导方法的舰载机引导实例航迹图。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (1)
1.一种基于深度强化学习的舰载机进近引导方法,其特征在于,包括以下步骤:
步骤一,根据动力学方程和运动学方程,对舰载机和航母进行建模,构建智能体训练环境;
步骤二,依据舰载机引导任务特性,构建基于深度强化学习的引导智能体,设计智能体的状态空间和决策动作空间;
步骤三,根据舰载机成功引导条件,确定智能体的输出策略,设置奖励函数和训练终止条件;
步骤四,利用深度强化学习的方法,对引导智能体深度神经网络进行训练,直至引导智能体可准确生成引导指令,引导舰载机到达最终进近点,得到训练完成的引导智能体;
步骤五,利用训练好的智能体在场景中引导舰载机进近,此时引导智能体具备准确引导舰载机到达最终进近点的能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911308198.9A CN111027143B (zh) | 2019-12-18 | 2019-12-18 | 一种基于深度强化学习的舰载机进近引导方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911308198.9A CN111027143B (zh) | 2019-12-18 | 2019-12-18 | 一种基于深度强化学习的舰载机进近引导方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111027143A true CN111027143A (zh) | 2020-04-17 |
CN111027143B CN111027143B (zh) | 2020-12-04 |
Family
ID=70210275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911308198.9A Active CN111027143B (zh) | 2019-12-18 | 2019-12-18 | 一种基于深度强化学习的舰载机进近引导方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111027143B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111596677A (zh) * | 2020-05-07 | 2020-08-28 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
CN112486192A (zh) * | 2020-11-18 | 2021-03-12 | 四川大学 | 一种基于目的地运动预测的飞行器引导迁移学习训练算法 |
CN113156972A (zh) * | 2021-05-11 | 2021-07-23 | 郑州大学 | 航母甲板动态避障方法、终端设备及计算机可读存储介质 |
CN113343355A (zh) * | 2021-06-08 | 2021-09-03 | 四川大学 | 基于深度学习的飞机蒙皮型面检测路径规划方法 |
CN113706023A (zh) * | 2021-08-31 | 2021-11-26 | 哈尔滨理工大学 | 基于深度强化学习的舰载机保障作业人员调度方法 |
CN114003059A (zh) * | 2021-11-01 | 2022-02-01 | 河海大学常州校区 | 运动学约束条件下基于深度强化学习的uav路径规划方法 |
CN114035602A (zh) * | 2021-08-07 | 2022-02-11 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于分层强化学习的飞机机动控制方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043043B1 (en) * | 2011-09-23 | 2015-05-26 | Rockwell Collins, Inc. | Autonomous flight controls for providing safe mode navigation |
CN106800094A (zh) * | 2016-11-28 | 2017-06-06 | 中国人民解放军海军航空兵学院 | 一种飞机着陆监视引导方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
US20170227673A1 (en) * | 2016-02-08 | 2017-08-10 | Goodrich Corporation | Material detection systems |
CN108549237A (zh) * | 2018-05-16 | 2018-09-18 | 华南理工大学 | 基于深度增强学习的预观控制仿人机器人步态规划方法 |
CN108873929A (zh) * | 2018-05-24 | 2018-11-23 | 北京航空航天大学 | 一种固定翼飞机自主着舰方法及系统 |
CN108974373A (zh) * | 2018-07-19 | 2018-12-11 | 西安恒宇众科空间技术有限公司 | 基于双目视觉飞行器自主着陆装置 |
CN109343341A (zh) * | 2018-11-21 | 2019-02-15 | 北京航天自动控制研究所 | 一种基于深度强化学习的运载火箭垂直回收智能控制方法 |
-
2019
- 2019-12-18 CN CN201911308198.9A patent/CN111027143B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043043B1 (en) * | 2011-09-23 | 2015-05-26 | Rockwell Collins, Inc. | Autonomous flight controls for providing safe mode navigation |
US20170227673A1 (en) * | 2016-02-08 | 2017-08-10 | Goodrich Corporation | Material detection systems |
CN106800094A (zh) * | 2016-11-28 | 2017-06-06 | 中国人民解放军海军航空兵学院 | 一种飞机着陆监视引导方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN108549237A (zh) * | 2018-05-16 | 2018-09-18 | 华南理工大学 | 基于深度增强学习的预观控制仿人机器人步态规划方法 |
CN108873929A (zh) * | 2018-05-24 | 2018-11-23 | 北京航空航天大学 | 一种固定翼飞机自主着舰方法及系统 |
CN108974373A (zh) * | 2018-07-19 | 2018-12-11 | 西安恒宇众科空间技术有限公司 | 基于双目视觉飞行器自主着陆装置 |
CN109343341A (zh) * | 2018-11-21 | 2019-02-15 | 北京航天自动控制研究所 | 一种基于深度强化学习的运载火箭垂直回收智能控制方法 |
Non-Patent Citations (6)
Title |
---|
SU XIAODONG 等: "Research on Landing Environment System of Carrier-Based Aircraft", 《2019 CHINESE CONTROL AND DECISION CONFERENCE (CCDC》 * |
ZHUANG WANG 等: "Design of Agent Training Environment for Aircraft Landing Guidance Based on Deep Reinforcement Learning", 《2018 11TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN》 * |
丁强: "多无人机协调的飞行航迹规划问题研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
方晓彤 等: "基于UML的着舰引导系统作战视图描述方法", 《船舶标准化与质量》 * |
段萍萍: "舰载飞机着舰过程动力学性能分析", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
潘婷婷: "舰载机进近着舰航线设计及控制系统仿真", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111596677A (zh) * | 2020-05-07 | 2020-08-28 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
CN111596677B (zh) * | 2020-05-07 | 2021-11-30 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
CN112486192A (zh) * | 2020-11-18 | 2021-03-12 | 四川大学 | 一种基于目的地运动预测的飞行器引导迁移学习训练算法 |
CN113156972A (zh) * | 2021-05-11 | 2021-07-23 | 郑州大学 | 航母甲板动态避障方法、终端设备及计算机可读存储介质 |
CN113343355A (zh) * | 2021-06-08 | 2021-09-03 | 四川大学 | 基于深度学习的飞机蒙皮型面检测路径规划方法 |
CN113343355B (zh) * | 2021-06-08 | 2022-10-18 | 四川大学 | 基于深度学习的飞机蒙皮型面检测路径规划方法 |
CN114035602A (zh) * | 2021-08-07 | 2022-02-11 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于分层强化学习的飞机机动控制方法 |
CN113706023A (zh) * | 2021-08-31 | 2021-11-26 | 哈尔滨理工大学 | 基于深度强化学习的舰载机保障作业人员调度方法 |
CN114003059A (zh) * | 2021-11-01 | 2022-02-01 | 河海大学常州校区 | 运动学约束条件下基于深度强化学习的uav路径规划方法 |
CN114003059B (zh) * | 2021-11-01 | 2024-04-16 | 河海大学常州校区 | 运动学约束条件下基于深度强化学习的uav路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111027143B (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027143B (zh) | 一种基于深度强化学习的舰载机进近引导方法 | |
Sun et al. | Mapless motion planning system for an autonomous underwater vehicle using policy gradient-based deep reinforcement learning | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN111026157B (zh) | 一种基于奖励重塑强化学习的飞行器智能引导方法 | |
CN106842926A (zh) | 一种基于正实b样条的飞行器轨迹优化方法 | |
CN111924139B (zh) | 基于膨胀预警区的小天体着陆避障常推力控制方法 | |
CN111461294B (zh) | 面向动态博弈的智能飞行器类脑认知学习方法 | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
CN115688268A (zh) | 一种飞行器近距空战态势评估自适应权重设计方法 | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
CN113625569A (zh) | 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN114756959A (zh) | 一种飞行器近距空战机动智能决策机模型设计方法 | |
Sandström et al. | Fighter pilot behavior cloning | |
Song et al. | Surface path tracking method of autonomous surface underwater vehicle based on deep reinforcement learning | |
CN116697829A (zh) | 一种基于深度强化学习的火箭着陆制导方法及系统 | |
Sun et al. | The study on intelligent advanced fighter air combat decision support system | |
CN115164890A (zh) | 一种基于模仿学习的群体无人机自主运动规划方法 | |
Ma et al. | Strategy generation based on reinforcement learning with deep deterministic policy gradient for ucav | |
Jin et al. | End-to-end trajectory tracking algorithm for unmanned surface vehicle using reinforcement learning | |
Zhou et al. | Deep learning for unmanned aerial vehicles landing carrier in different conditions | |
Emrani et al. | An adaptive leader-follower formation controller for multiple AUVs in spatial motions | |
CN112161626A (zh) | 一种基于航路跟踪映射网络的高可飞性航路规划方法 | |
CN110703792A (zh) | 基于增强学习的水下机器人姿态控制方法 | |
Arneberg | Guidance laws for partially-observable UAV interception based on linear covariance analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |