CN111026157A - 一种基于奖励重塑强化学习的飞行器智能引导方法 - Google Patents
一种基于奖励重塑强化学习的飞行器智能引导方法 Download PDFInfo
- Publication number
- CN111026157A CN111026157A CN201911307975.8A CN201911307975A CN111026157A CN 111026157 A CN111026157 A CN 111026157A CN 201911307975 A CN201911307975 A CN 201911307975A CN 111026157 A CN111026157 A CN 111026157A
- Authority
- CN
- China
- Prior art keywords
- aircraft
- reward
- destination
- reinforcement learning
- guiding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/0088—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
Abstract
本发明公开了一种基于奖励重塑强化学习的飞行器智能引导方法,包括下述步骤:首先设置使用空域范围,以及飞行器和目的地的动态模型;然后,构建深度强化学习智能体,并重塑奖励函数,包括终止条件奖励、引导平滑性奖励、飞行器姿态奖励;之后,在训练模式下,设置飞行器初始姿态,目的地初始位置、朝向,并使用强化学习方法训练引导智能体;最后,在应用模式下,使用训练完成的引导智能体,引导飞行器沿着特定方向到达移动的目的地。本发明的方法可以应用在现有飞行器指挥引导系统中,采用预先规划或实时指挥的方式,引导飞行器从任意姿态开始,沿着特定方向到达移动目的地。
Description
技术领域
本发明涉及飞行器指挥引导领域,特别涉及一种基于奖励重塑强化学习的飞行器智能引导方法。
背景技术
在诸多飞行任务中,需要引导飞行器沿着特定方向到达移动目的地。如战斗机空战占位任务,需要引导飞机到达不断移动的目标后方并朝向目标;舰载机降落任务中,需要在航母航行中引导舰载机沿跑道方向到达航母;空中加油任务中,需要引导飞机到达直线航行加油机的正后方等。
现有算法对引导飞行器到达移动无朝向要求的目的地以及固定位置有朝向要求的目的地有许多研究,如引导旋转翼无人机降落到移动车辆上,引导固定翼飞机沿跑道方向到达机场。对于移动有朝向要求目的地的引导,大多采用提前规划、固定区域等待等方法实现,计算效率低,无法满足实际飞行任务中实时性的要求,仍需要进一步研究。强化学习执行效率高,使用灵活,与奖励重塑方法结合后,可用在飞行器指挥引导系统中,支持按照现有模式在飞行任务前生成引导规划,也支持实时、准确给出引导指令,对战斗机空中占位、舰载机降落、空中加油等目的地移动且有朝向要求的飞行任务具有实践意义。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出一种基于奖励重塑强化学习的飞行器智能引导方法,训练飞行器引导智能体,针对移动的,具有朝向要求的目的地,预先给出引导航迹或实时给出引导指令。
为实现以上目的,本发明采取如下技术方案:
一种基于奖励重塑强化学习的飞行器智能引导方法,包括下述步骤:
(1)根据飞行任务确定使用空域范围,设置飞行器的动态模型及可移动目的地的动态模型;
(2)依据飞行器特性,构建基于深度强化学习的引导智能体,智能体的输入是飞行器姿态和目的地信息,输出是对飞行器的引导指令;
(3)根据飞行任务,从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数;
(4)在训练模式下,设置飞行器初始姿态,包括三维坐标、俯仰角、朝向角、速度、剩余油量,设置目的地三维坐标、速度和朝向角,设置训练终止条件;
(5)利用深度强化学习的方法,训练引导智能体深度神经网络,在每个训练步长内,根据飞行器当前姿态,生成引导指令,根据指令质量给出重塑后的奖励值,最终引导飞行器沿特定方向到达按动态模型移动的目的地;
(6)经过海量训练后,在应用模式下,根据输入的飞行器姿态和目的地信息,准确地生成引导指令,引导飞行器沿特定方向到达移动目的地。
作为优选的技术方案,步骤(1)中,目的地是移动的,具备动态模型。
作为优选的技术方案,步骤(3)中,重塑奖励函数的具体计算过程如下:
其中,为t时刻的强化学习状态,为t时刻的引导指令,为t+1时刻的强化学习状态,是重塑后的奖励函数,是终止条件奖励函数,是引导平滑性奖励函数,是飞行器姿态重塑奖励函数;如果引导成功,终止条件奖励为正奖励,否则为负奖励;如果引导指令变化,平滑性奖励为负奖励,否则为非负奖励;飞行器姿态重塑奖励计算公式如下:
作为优选的技术方案,步骤(4)中,目的地初始信息不仅包含三维坐标信息,还包括朝向信息,目的地在训练中依据其动态模型,位置和朝向不断变化,智能体引导飞行器沿特定方向到达移动目的地。
作为优选的技术方案,步骤(6)中,对于计划模式,在飞行任务开始时,根据飞行器初始姿态,生成一系列引导指令进行开环控制;对于实时模式,在飞行器飞行过程中,实时生成引导指令,进行闭环控制。
本发明相对于现有技术具有如下的优点和效果:
(1)本发明与传统方法相比,采用基于强化学习的人工智能技术,计算效率更高,能在10ms之内生成一条引导指令。
(2)本发明采用奖励重塑的方法,设计终止条件奖励、引导平滑性奖励和飞行器与目的地相对姿态奖励,提高智能体训练速度,更高效地生成平滑、路径短的引导指令。
(3)本发明将基于奖励重塑强化学习的飞行器智能引导方法应用在飞行器指挥引导系统中,实现引导飞行器沿着特定方向到达移动目的地,在飞行器任意姿态下生成引导指令,对战斗机空中占位、舰载机降落、空中加油等飞行任务具有实践意义。
附图说明
图1为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的流程图;
图2为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的深度强化学习训练架构图;
图3为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的引导智能体训练过程奖励变化图;
图4为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的飞行器引导实例航迹图。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
在本实施例中,在三维有界空域内,引导飞行器飞行,一种基于奖励重塑强化学习的飞行器智能引导方法,实现在目的地具有方向属性且直线移动的场景下,飞机沿着特定方向到达移动目的地;如图1所示,该方法包括下述步骤:
(1)根据飞行任务确定使用空域范围,设置飞行器的动态模型及可移动目的地的动态模型;
(2)依据飞行器特性,构建基于深度强化学习的引导智能体,智能体的输入是飞行器姿态和目的地信息,输出是对飞行器的引导指令;
在本实施例中,智能体的输入空间是高维连续的,可同时引导无人飞行器和有人飞行器,训练架构如图2所示;
在本实施例中,智能体输入的状态内容是飞行器的三维坐标、朝向角、速度、剩余油量,以及目的地的三维坐标、朝向角,输出的对飞行器的引导指令集是直飞、左转、右转、爬升、俯冲、保持当前指令不变。
(3)根据飞行任务,从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数,重塑奖励函数的具体计算过程如下:
其中,为t时刻的强化学习状态,为t时刻的引导指令,为t+1时刻的强化学习状态,是重塑后的奖励函数,是终止条件奖励函数,是引导平滑性奖励函数,是飞行器姿态重塑奖励函数;如果引导成功,终止条件奖励为正奖励,否则为负奖励;如果引导指令变化,平滑性奖励为负奖励,否则为非负奖励;飞行器姿态重塑奖励计算公式如下:
在本实施例中,引导成功时终止条件奖励值为20,飞行器飞出空域时终止奖励为-20,飞机剩余油量降为0时终止奖励为-10;
在本实施例中,每个步长内飞行器引导指令维持不变时引导平滑性奖励值为-0.01,飞行器引导指令发生变化使引导平滑性奖励值为-0.1;
(4)在训练模式下,设置飞行器初始姿态,包括三维坐标、俯仰角、朝向角、速度、剩余油量,设置目的地三维坐标、速度和朝向角,设置训练终止条件,目的地初始信息不仅包含三维坐标信息,还包括朝向信息,目的地在训练中依据其动态模型,位置和朝向不断变化,智能体引导飞行器沿特定方向到达移动目的地;
在本实施例中,训练模式下的飞行器初始姿态随机,目的地高度为0,位于水平面坐标原点,朝向为y轴正向。
(5)利用深度强化学习的方法,训练引导智能体深度神经网络,在每个训练步长内,根据飞行器当前姿态,生成引导指令,根据指令质量给出重塑后的奖励值,最终引导飞行器沿特定方向到达按动态模型移动的目的地;
在本实施例中,采用近端策略优化深度强化学习方法(PPO)训练引导智能体,引导智能体在飞行器引导训练环境中不断自学习;
在本实施例中,引导智能体训练过程中,所获奖励不断提升,如图3所示,随着训练的进行,智能体所获得的奖励值不断提升。
(6)经过海量训练后,智能体具备了引导能力,在应用模式下,根据输入的飞行器姿态和目的地信息,准确地生成引导指令,引导飞行器沿特定方向到达移动目的地;
在本实施例中,如图4所示,训练完成的引导智能体可生成准确的引导指令,引导飞行器沿特定方向到达移动目的地。
以上所述实施例仅表达了本发明的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以权利要求所述为准。
Claims (5)
1.一种基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,包括以下步骤:
(1)根据飞行任务确定使用空域范围,设置飞行器的动态模型及可移动目的地的动态模型;
(2)依据飞行器特性,构建基于深度强化学习的引导智能体,智能体的输入是飞行器姿态和目的地信息,输出是对飞行器的引导指令;
(3)根据飞行任务,从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数;
(4)在训练模式下,设置飞行器初始姿态,包括三维坐标、俯仰角、朝向角、速度、剩余油量,设置目的地三维坐标、速度和朝向角,设置训练终止条件;
(5)利用深度强化学习的方法,训练引导智能体深度神经网络,在每个训练步长内,根据飞行器当前姿态,生成引导指令,根据指令质量给出重塑后的奖励值,最终引导飞行器沿特定方向到达按动态模型移动的目的地;
(6)经过海量训练后,在应用模式下,根据输入的飞行器姿态和目的地信息,准确地生成引导指令,引导飞行器沿特定方向到达移动目的地。
2.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(1)中,目的地是移动的,具备动态模型。
4.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(4)中,目的地初始信息不仅包含三维坐标信息,还包括朝向信息,目的地在训练中依据其动态模型,位置和朝向不断变化,智能体引导飞行器沿特定方向到达移动目的地。
5.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(6)中,对于计划模式,在飞行任务开始时,根据飞行器初始姿态,生成一系列引导指令进行开环控制;对于实时模式,在飞行器飞行过程中,实时生成引导指令,进行闭环控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911307975.8A CN111026157B (zh) | 2019-12-18 | 2019-12-18 | 一种基于奖励重塑强化学习的飞行器智能引导方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911307975.8A CN111026157B (zh) | 2019-12-18 | 2019-12-18 | 一种基于奖励重塑强化学习的飞行器智能引导方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111026157A true CN111026157A (zh) | 2020-04-17 |
CN111026157B CN111026157B (zh) | 2020-07-28 |
Family
ID=70209506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911307975.8A Expired - Fee Related CN111026157B (zh) | 2019-12-18 | 2019-12-18 | 一种基于奖励重塑强化学习的飞行器智能引导方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026157B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111596677A (zh) * | 2020-05-07 | 2020-08-28 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
CN111882047A (zh) * | 2020-09-28 | 2020-11-03 | 四川大学 | 一种基于强化学习与线性规划的快速空管防冲突方法 |
CN111898770A (zh) * | 2020-09-29 | 2020-11-06 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
CN112486192A (zh) * | 2020-11-18 | 2021-03-12 | 四川大学 | 一种基于目的地运动预测的飞行器引导迁移学习训练算法 |
CN112896485A (zh) * | 2021-02-24 | 2021-06-04 | 河南大学 | 一种流线型机身的两轴倾斜翼飞行器及控制方法 |
CN113892070A (zh) * | 2020-04-30 | 2022-01-04 | 乐天集团股份有限公司 | 学习装置、信息处理装置、及完成学习的控制模型 |
CN114237267A (zh) * | 2021-11-02 | 2022-03-25 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
CN114526738A (zh) * | 2022-01-25 | 2022-05-24 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
CN109669452A (zh) * | 2018-11-02 | 2019-04-23 | 北京物资学院 | 一种基于并行强化学习的云机器人任务调度方法和系统 |
CN110136481A (zh) * | 2018-09-20 | 2019-08-16 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN110413000A (zh) * | 2019-05-28 | 2019-11-05 | 北京航空航天大学 | 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法 |
CN110471444A (zh) * | 2019-08-19 | 2019-11-19 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
CN110488859A (zh) * | 2019-07-15 | 2019-11-22 | 北京航空航天大学 | 一种基于改进Q-learning算法的无人机航路规划方法 |
US20190370602A1 (en) * | 2018-06-04 | 2019-12-05 | Olympus Corporation | Learning management device, learning management method, and imaging device |
-
2019
- 2019-12-18 CN CN201911307975.8A patent/CN111026157B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370602A1 (en) * | 2018-06-04 | 2019-12-05 | Olympus Corporation | Learning management device, learning management method, and imaging device |
CN110136481A (zh) * | 2018-09-20 | 2019-08-16 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN109669452A (zh) * | 2018-11-02 | 2019-04-23 | 北京物资学院 | 一种基于并行强化学习的云机器人任务调度方法和系统 |
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
CN110413000A (zh) * | 2019-05-28 | 2019-11-05 | 北京航空航天大学 | 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法 |
CN110488859A (zh) * | 2019-07-15 | 2019-11-22 | 北京航空航天大学 | 一种基于改进Q-learning算法的无人机航路规划方法 |
CN110471444A (zh) * | 2019-08-19 | 2019-11-19 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
Non-Patent Citations (3)
Title |
---|
PIOTR JAROSIK等: "Automatic Ultrasound Guidance Based on Deep Reinforcement Learning", 《2019 IEEE INTERNATIONAL ULTRASONICS SYMPOSIUM (IUS)》 * |
ZHUANG WANG等: "Deep reinforcement learning based conflict detection and resolution in air traffic control", 《THE INSTITUTION OF ENGINEERING AND TECHNOLOGY》 * |
周毅等: "基于深度强化学习的无人机自主部署及能效优化策略", 《物联网学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113892070A (zh) * | 2020-04-30 | 2022-01-04 | 乐天集团股份有限公司 | 学习装置、信息处理装置、及完成学习的控制模型 |
CN113892070B (zh) * | 2020-04-30 | 2024-04-26 | 乐天集团股份有限公司 | 学习装置、信息处理装置、及完成学习的控制模型 |
CN111596677A (zh) * | 2020-05-07 | 2020-08-28 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
CN111596677B (zh) * | 2020-05-07 | 2021-11-30 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
CN111882047A (zh) * | 2020-09-28 | 2020-11-03 | 四川大学 | 一种基于强化学习与线性规划的快速空管防冲突方法 |
CN111882047B (zh) * | 2020-09-28 | 2021-01-15 | 四川大学 | 一种基于强化学习与线性规划的快速空管防冲突方法 |
CN111898770A (zh) * | 2020-09-29 | 2020-11-06 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
CN111898770B (zh) * | 2020-09-29 | 2021-01-15 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
CN112486192B (zh) * | 2020-11-18 | 2022-04-08 | 四川大学 | 一种基于目的地运动预测的飞行器引导迁移学习训练算法 |
CN112486192A (zh) * | 2020-11-18 | 2021-03-12 | 四川大学 | 一种基于目的地运动预测的飞行器引导迁移学习训练算法 |
CN112896485A (zh) * | 2021-02-24 | 2021-06-04 | 河南大学 | 一种流线型机身的两轴倾斜翼飞行器及控制方法 |
CN114237267B (zh) * | 2021-11-02 | 2023-11-24 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
CN114237267A (zh) * | 2021-11-02 | 2022-03-25 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
CN114526738A (zh) * | 2022-01-25 | 2022-05-24 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
CN114526738B (zh) * | 2022-01-25 | 2023-06-16 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111026157B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026157B (zh) | 一种基于奖励重塑强化学习的飞行器智能引导方法 | |
CN109933086B (zh) | 基于深度q学习的无人机环境感知与自主避障方法 | |
Frank et al. | Hover, transition, and level flight control design for a single-propeller indoor airplane | |
Gimenez et al. | Multi-objective control for cooperative payload transport with rotorcraft UAVs | |
CN111027143B (zh) | 一种基于深度强化学习的舰载机进近引导方法 | |
Waldock et al. | Learning to perform a perched landing on the ground using deep reinforcement learning | |
CN111240348B (zh) | 基于运动基座的无人机降落控制方法、计算机可读存储介质及控制设备 | |
Greatwood et al. | Perched landing manoeuvres with a variable sweep wing UAV | |
de Paiva et al. | Project AURORA: Infrastructure and flight control experiments for a robotic airship | |
CN104656661B (zh) | 一种公务机下降着陆控制方法 | |
Zhang et al. | Review of modeling and control in UAV autonomous maneuvering flight | |
CN112114592B (zh) | 一种实现无人机自主穿越可移动框形障碍物的方法 | |
Perhinschi et al. | Simulation environment for UAV fault tolerant autonomous control laws development | |
CN109703769A (zh) | 一种基于预瞄策略的空中加油对接控制方法 | |
CN111830848A (zh) | 一种无人机超机动飞行性能仿真训练系统及方法 | |
Proctor et al. | Vision‐only control and guidance for aircraft | |
Denison | Automated carrier landing of an unmanned combat aerial vehicle using dynamic inversion | |
CN110992759B (zh) | 塔台模拟与雷达模拟一体化系统及其数据交互方法 | |
CN109101035B (zh) | 一种用于高空滑翔uuv纵平面弹道控制的方法 | |
CN111240349A (zh) | 基于运动基座的无人机起飞控制方法、计算机可读存储介质及控制设备 | |
KR102392874B1 (ko) | 인공지능 기반 정밀타격시스템 | |
CN105759630A (zh) | 基于模糊pid控制的飞机4d航迹仿真系统及仿真方法 | |
Silva et al. | Experimental assessment of online dynamic soaring optimization for small unmanned aircraft | |
Zhou et al. | Deep learning for unmanned aerial vehicles landing carrier in different conditions | |
CN112486192B (zh) | 一种基于目的地运动预测的飞行器引导迁移学习训练算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200728 Termination date: 20201218 |