CN111026157A - 一种基于奖励重塑强化学习的飞行器智能引导方法 - Google Patents

一种基于奖励重塑强化学习的飞行器智能引导方法 Download PDF

Info

Publication number
CN111026157A
CN111026157A CN201911307975.8A CN201911307975A CN111026157A CN 111026157 A CN111026157 A CN 111026157A CN 201911307975 A CN201911307975 A CN 201911307975A CN 111026157 A CN111026157 A CN 111026157A
Authority
CN
China
Prior art keywords
aircraft
reward
destination
reinforcement learning
guiding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911307975.8A
Other languages
English (en)
Other versions
CN111026157B (zh
Inventor
李辉
王壮
陈希亮
吴昭欣
吴昊霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201911307975.8A priority Critical patent/CN111026157B/zh
Publication of CN111026157A publication Critical patent/CN111026157A/zh
Application granted granted Critical
Publication of CN111026157B publication Critical patent/CN111026157B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0088Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours

Abstract

本发明公开了一种基于奖励重塑强化学习的飞行器智能引导方法,包括下述步骤:首先设置使用空域范围,以及飞行器和目的地的动态模型;然后,构建深度强化学习智能体,并重塑奖励函数,包括终止条件奖励、引导平滑性奖励、飞行器姿态奖励;之后,在训练模式下,设置飞行器初始姿态,目的地初始位置、朝向,并使用强化学习方法训练引导智能体;最后,在应用模式下,使用训练完成的引导智能体,引导飞行器沿着特定方向到达移动的目的地。本发明的方法可以应用在现有飞行器指挥引导系统中,采用预先规划或实时指挥的方式,引导飞行器从任意姿态开始,沿着特定方向到达移动目的地。

Description

一种基于奖励重塑强化学习的飞行器智能引导方法
技术领域
本发明涉及飞行器指挥引导领域,特别涉及一种基于奖励重塑强化学习的飞行器智能引导方法。
背景技术
在诸多飞行任务中,需要引导飞行器沿着特定方向到达移动目的地。如战斗机空战占位任务,需要引导飞机到达不断移动的目标后方并朝向目标;舰载机降落任务中,需要在航母航行中引导舰载机沿跑道方向到达航母;空中加油任务中,需要引导飞机到达直线航行加油机的正后方等。
现有算法对引导飞行器到达移动无朝向要求的目的地以及固定位置有朝向要求的目的地有许多研究,如引导旋转翼无人机降落到移动车辆上,引导固定翼飞机沿跑道方向到达机场。对于移动有朝向要求目的地的引导,大多采用提前规划、固定区域等待等方法实现,计算效率低,无法满足实际飞行任务中实时性的要求,仍需要进一步研究。强化学习执行效率高,使用灵活,与奖励重塑方法结合后,可用在飞行器指挥引导系统中,支持按照现有模式在飞行任务前生成引导规划,也支持实时、准确给出引导指令,对战斗机空中占位、舰载机降落、空中加油等目的地移动且有朝向要求的飞行任务具有实践意义。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出一种基于奖励重塑强化学习的飞行器智能引导方法,训练飞行器引导智能体,针对移动的,具有朝向要求的目的地,预先给出引导航迹或实时给出引导指令。
为实现以上目的,本发明采取如下技术方案:
一种基于奖励重塑强化学习的飞行器智能引导方法,包括下述步骤:
(1)根据飞行任务确定使用空域范围,设置飞行器的动态模型及可移动目的地的动态模型;
(2)依据飞行器特性,构建基于深度强化学习的引导智能体,智能体的输入是飞行器姿态和目的地信息,输出是对飞行器的引导指令;
(3)根据飞行任务,从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数;
(4)在训练模式下,设置飞行器初始姿态,包括三维坐标、俯仰角、朝向角、速度、剩余油量,设置目的地三维坐标、速度和朝向角,设置训练终止条件;
(5)利用深度强化学习的方法,训练引导智能体深度神经网络,在每个训练步长内,根据飞行器当前姿态,生成引导指令,根据指令质量给出重塑后的奖励值,最终引导飞行器沿特定方向到达按动态模型移动的目的地;
(6)经过海量训练后,在应用模式下,根据输入的飞行器姿态和目的地信息,准确地生成引导指令,引导飞行器沿特定方向到达移动目的地。
作为优选的技术方案,步骤(1)中,目的地是移动的,具备动态模型。
作为优选的技术方案,步骤(3)中,重塑奖励函数的具体计算过程如下:
Figure 63757DEST_PATH_IMAGE001
其中,
Figure 202615DEST_PATH_IMAGE002
为t时刻的强化学习状态,
Figure 786043DEST_PATH_IMAGE003
为t时刻的引导指令,
Figure 721244DEST_PATH_IMAGE004
为t+1时刻的强化学习状态,
Figure 706518DEST_PATH_IMAGE005
是重塑后的奖励函数,
Figure 16276DEST_PATH_IMAGE006
是终止条件奖励函数,
Figure 24684DEST_PATH_IMAGE007
是引导平滑性奖励函数,
Figure 78090DEST_PATH_IMAGE008
是飞行器姿态重塑奖励函数;如果引导成功,终止条件奖励为正奖励,否则为负奖励;如果引导指令变化,平滑性奖励为负奖励,否则为非负奖励;飞行器姿态重塑奖励计算公式如下:
Figure 917870DEST_PATH_IMAGE009
其中,
Figure 398530DEST_PATH_IMAGE010
是关于飞行器在t时刻状态的函数,其计算公式如下:
Figure 877922DEST_PATH_IMAGE011
其中,
Figure 735020DEST_PATH_IMAGE012
为水平距离评价函数,
Figure 429306DEST_PATH_IMAGE013
朝向评价函数,
Figure 18551DEST_PATH_IMAGE014
为高度评价函数,
Figure 63867DEST_PATH_IMAGE015
Figure 147492DEST_PATH_IMAGE016
Figure 696285DEST_PATH_IMAGE017
为权重。
作为优选的技术方案,步骤(4)中,目的地初始信息不仅包含三维坐标信息,还包括朝向信息,目的地在训练中依据其动态模型,位置和朝向不断变化,智能体引导飞行器沿特定方向到达移动目的地。
作为优选的技术方案,步骤(6)中,对于计划模式,在飞行任务开始时,根据飞行器初始姿态,生成一系列引导指令进行开环控制;对于实时模式,在飞行器飞行过程中,实时生成引导指令,进行闭环控制。
本发明相对于现有技术具有如下的优点和效果:
(1)本发明与传统方法相比,采用基于强化学习的人工智能技术,计算效率更高,能在10ms之内生成一条引导指令。
(2)本发明采用奖励重塑的方法,设计终止条件奖励、引导平滑性奖励和飞行器与目的地相对姿态奖励,提高智能体训练速度,更高效地生成平滑、路径短的引导指令。
(3)本发明将基于奖励重塑强化学习的飞行器智能引导方法应用在飞行器指挥引导系统中,实现引导飞行器沿着特定方向到达移动目的地,在飞行器任意姿态下生成引导指令,对战斗机空中占位、舰载机降落、空中加油等飞行任务具有实践意义。
附图说明
图1为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的流程图;
图2为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的深度强化学习训练架构图;
图3为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的引导智能体训练过程奖励变化图;
图4为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的飞行器引导实例航迹图。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
在本实施例中,在三维有界空域内,引导飞行器飞行,一种基于奖励重塑强化学习的飞行器智能引导方法,实现在目的地具有方向属性且直线移动的场景下,飞机沿着特定方向到达移动目的地;如图1所示,该方法包括下述步骤:
(1)根据飞行任务确定使用空域范围,设置飞行器的动态模型及可移动目的地的动态模型;
在本实施例中,空域范围是水平面横坐标
Figure 784326DEST_PATH_IMAGE018
,水平面纵坐标
Figure 51360DEST_PATH_IMAGE019
,高度
Figure 187943DEST_PATH_IMAGE020
;飞机动态模型如下:
Figure 591242DEST_PATH_IMAGE021
其中,
Figure 850186DEST_PATH_IMAGE022
为飞行器三维坐标,
Figure 604515DEST_PATH_IMAGE023
为飞行器在水平面横坐标、水平面纵坐标、高度的变化率,
Figure 528477DEST_PATH_IMAGE024
为飞行器俯仰角,
Figure 51863DEST_PATH_IMAGE025
为飞行器朝向角,
Figure 481707DEST_PATH_IMAGE026
为飞行器速度;目的地动态模型如下:
Figure 395436DEST_PATH_IMAGE027
其中,
Figure 936139DEST_PATH_IMAGE028
为目的地水平面内坐标,目的地高度
Figure 579610DEST_PATH_IMAGE029
固定,
Figure 914776DEST_PATH_IMAGE030
为目的地在水平面横坐标、水平面纵坐标的变化率,
Figure 643698DEST_PATH_IMAGE031
为目的地朝向角,
Figure 402139DEST_PATH_IMAGE032
为目的地移动速度。
(2)依据飞行器特性,构建基于深度强化学习的引导智能体,智能体的输入是飞行器姿态和目的地信息,输出是对飞行器的引导指令;
在本实施例中,智能体的输入空间是高维连续的,可同时引导无人飞行器和有人飞行器,训练架构如图2所示;
在本实施例中,智能体输入的状态内容是飞行器的三维坐标、朝向角、速度、剩余油量,以及目的地的三维坐标、朝向角,输出的对飞行器的引导指令集是直飞、左转、右转、爬升、俯冲、保持当前指令不变。
(3)根据飞行任务,从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数,重塑奖励函数的具体计算过程如下:
Figure 900116DEST_PATH_IMAGE033
其中,
Figure 406184DEST_PATH_IMAGE034
为t时刻的强化学习状态,
Figure 622402DEST_PATH_IMAGE035
为t时刻的引导指令,
Figure 442590DEST_PATH_IMAGE036
为t+1时刻的强化学习状态,
Figure 795074DEST_PATH_IMAGE037
是重塑后的奖励函数,
Figure 737622DEST_PATH_IMAGE038
是终止条件奖励函数,
Figure 175557DEST_PATH_IMAGE039
是引导平滑性奖励函数,
Figure 783125DEST_PATH_IMAGE040
是飞行器姿态重塑奖励函数;如果引导成功,终止条件奖励为正奖励,否则为负奖励;如果引导指令变化,平滑性奖励为负奖励,否则为非负奖励;飞行器姿态重塑奖励计算公式如下:
Figure 255694DEST_PATH_IMAGE009
其中,
Figure 103565DEST_PATH_IMAGE010
是关于飞行器在t时刻状态的函数,其计算公式如下:
Figure 28795DEST_PATH_IMAGE011
其中,
Figure 190786DEST_PATH_IMAGE012
为水平距离评价函数,
Figure 517862DEST_PATH_IMAGE013
朝向评价函数,
Figure 802213DEST_PATH_IMAGE014
为高度评价函数,
Figure 214740DEST_PATH_IMAGE015
Figure 665575DEST_PATH_IMAGE016
Figure 847158DEST_PATH_IMAGE017
为权重。
在本实施例中,引导成功时终止条件奖励值为20,飞行器飞出空域时终止奖励为-20,飞机剩余油量降为0时终止奖励为-10;
在本实施例中,每个步长内飞行器引导指令维持不变时引导平滑性奖励值为-0.01,飞行器引导指令发生变化使引导平滑性奖励值为-0.1;
在本实施例中,水平距离评价函数
Figure 302410DEST_PATH_IMAGE041
,朝向评价函数
Figure 202233DEST_PATH_IMAGE042
,高度评价函数
Figure 706027DEST_PATH_IMAGE043
计算公式如下:
Figure 742116DEST_PATH_IMAGE044
其中,
Figure 368269DEST_PATH_IMAGE045
为飞行器姿态,分别代表t时刻水平面横坐标、水平面纵坐标、高度、朝向角,
Figure 755388DEST_PATH_IMAGE046
为目的地姿态,分别代表t时刻水平面横坐标、水平面纵坐标、高度、朝向角,权重
Figure 46561DEST_PATH_IMAGE015
Figure 202736DEST_PATH_IMAGE016
Figure 999791DEST_PATH_IMAGE047
的值分别为0.0001、0.5、0.1。
(4)在训练模式下,设置飞行器初始姿态,包括三维坐标、俯仰角、朝向角、速度、剩余油量,设置目的地三维坐标、速度和朝向角,设置训练终止条件,目的地初始信息不仅包含三维坐标信息,还包括朝向信息,目的地在训练中依据其动态模型,位置和朝向不断变化,智能体引导飞行器沿特定方向到达移动目的地;
在本实施例中,训练模式下的飞行器初始姿态随机,目的地高度为0,位于水平面坐标原点,朝向为y轴正向。
(5)利用深度强化学习的方法,训练引导智能体深度神经网络,在每个训练步长内,根据飞行器当前姿态,生成引导指令,根据指令质量给出重塑后的奖励值,最终引导飞行器沿特定方向到达按动态模型移动的目的地;
在本实施例中,采用近端策略优化深度强化学习方法(PPO)训练引导智能体,引导智能体在飞行器引导训练环境中不断自学习;
在本实施例中,引导智能体训练过程中,所获奖励不断提升,如图3所示,随着训练的进行,智能体所获得的奖励值不断提升。
(6)经过海量训练后,智能体具备了引导能力,在应用模式下,根据输入的飞行器姿态和目的地信息,准确地生成引导指令,引导飞行器沿特定方向到达移动目的地;
在本实施例中,如图4所示,训练完成的引导智能体可生成准确的引导指令,引导飞行器沿特定方向到达移动目的地。
以上所述实施例仅表达了本发明的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以权利要求所述为准。

Claims (5)

1.一种基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,包括以下步骤:
(1)根据飞行任务确定使用空域范围,设置飞行器的动态模型及可移动目的地的动态模型;
(2)依据飞行器特性,构建基于深度强化学习的引导智能体,智能体的输入是飞行器姿态和目的地信息,输出是对飞行器的引导指令;
(3)根据飞行任务,从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数;
(4)在训练模式下,设置飞行器初始姿态,包括三维坐标、俯仰角、朝向角、速度、剩余油量,设置目的地三维坐标、速度和朝向角,设置训练终止条件;
(5)利用深度强化学习的方法,训练引导智能体深度神经网络,在每个训练步长内,根据飞行器当前姿态,生成引导指令,根据指令质量给出重塑后的奖励值,最终引导飞行器沿特定方向到达按动态模型移动的目的地;
(6)经过海量训练后,在应用模式下,根据输入的飞行器姿态和目的地信息,准确地生成引导指令,引导飞行器沿特定方向到达移动目的地。
2.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(1)中,目的地是移动的,具备动态模型。
3.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(3)中,重塑奖励函数的具体计算过程如下:
Figure 191573DEST_PATH_IMAGE001
其中,
Figure 53481DEST_PATH_IMAGE002
为t时刻的强化学习状态,
Figure 64162DEST_PATH_IMAGE003
为t时刻的引导指令,
Figure 32118DEST_PATH_IMAGE004
为t+1时刻的强化学习状态,
Figure 128250DEST_PATH_IMAGE005
是重塑后的奖励函数,
Figure 511958DEST_PATH_IMAGE006
是终止条件奖励函数,
Figure 642725DEST_PATH_IMAGE007
是引导平滑性奖励函数,
Figure 781583DEST_PATH_IMAGE008
是飞行器姿态重塑奖励函数;如果引导成功,终止条件奖励为正奖励,否则为负奖励;如果引导指令变化,平滑性奖励为负奖励,否则为非负奖励;飞行器姿态重塑奖励计算公式如下:
Figure 365011DEST_PATH_IMAGE009
其中,
Figure 801677DEST_PATH_IMAGE010
是关于飞行器在t时刻状态的函数,其计算公式如下:
Figure 786951DEST_PATH_IMAGE011
其中,
Figure 96709DEST_PATH_IMAGE012
为水平距离评价函数,
Figure 105117DEST_PATH_IMAGE013
朝向评价函数,
Figure 158523DEST_PATH_IMAGE014
为高度评价函数,
Figure 998303DEST_PATH_IMAGE015
Figure 478963DEST_PATH_IMAGE016
Figure 474468DEST_PATH_IMAGE017
为权重。
4.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(4)中,目的地初始信息不仅包含三维坐标信息,还包括朝向信息,目的地在训练中依据其动态模型,位置和朝向不断变化,智能体引导飞行器沿特定方向到达移动目的地。
5.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(6)中,对于计划模式,在飞行任务开始时,根据飞行器初始姿态,生成一系列引导指令进行开环控制;对于实时模式,在飞行器飞行过程中,实时生成引导指令,进行闭环控制。
CN201911307975.8A 2019-12-18 2019-12-18 一种基于奖励重塑强化学习的飞行器智能引导方法 Expired - Fee Related CN111026157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911307975.8A CN111026157B (zh) 2019-12-18 2019-12-18 一种基于奖励重塑强化学习的飞行器智能引导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911307975.8A CN111026157B (zh) 2019-12-18 2019-12-18 一种基于奖励重塑强化学习的飞行器智能引导方法

Publications (2)

Publication Number Publication Date
CN111026157A true CN111026157A (zh) 2020-04-17
CN111026157B CN111026157B (zh) 2020-07-28

Family

ID=70209506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911307975.8A Expired - Fee Related CN111026157B (zh) 2019-12-18 2019-12-18 一种基于奖励重塑强化学习的飞行器智能引导方法

Country Status (1)

Country Link
CN (1) CN111026157B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111596677A (zh) * 2020-05-07 2020-08-28 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及系统
CN111882047A (zh) * 2020-09-28 2020-11-03 四川大学 一种基于强化学习与线性规划的快速空管防冲突方法
CN111898770A (zh) * 2020-09-29 2020-11-06 四川大学 一种多智能体强化学习方法、电子设备及存储介质
CN112486192A (zh) * 2020-11-18 2021-03-12 四川大学 一种基于目的地运动预测的飞行器引导迁移学习训练算法
CN112896485A (zh) * 2021-02-24 2021-06-04 河南大学 一种流线型机身的两轴倾斜翼飞行器及控制方法
CN113892070A (zh) * 2020-04-30 2022-01-04 乐天集团股份有限公司 学习装置、信息处理装置、及完成学习的控制模型
CN114237267A (zh) * 2021-11-02 2022-03-25 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法
CN114526738A (zh) * 2022-01-25 2022-05-24 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN109669452A (zh) * 2018-11-02 2019-04-23 北京物资学院 一种基于并行强化学习的云机器人任务调度方法和系统
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN110413000A (zh) * 2019-05-28 2019-11-05 北京航空航天大学 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
US20190370602A1 (en) * 2018-06-04 2019-12-05 Olympus Corporation Learning management device, learning management method, and imaging device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370602A1 (en) * 2018-06-04 2019-12-05 Olympus Corporation Learning management device, learning management method, and imaging device
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN109669452A (zh) * 2018-11-02 2019-04-23 北京物资学院 一种基于并行强化学习的云机器人任务调度方法和系统
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN110413000A (zh) * 2019-05-28 2019-11-05 北京航空航天大学 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PIOTR JAROSIK等: "Automatic Ultrasound Guidance Based on Deep Reinforcement Learning", 《2019 IEEE INTERNATIONAL ULTRASONICS SYMPOSIUM (IUS)》 *
ZHUANG WANG等: "Deep reinforcement learning based conflict detection and resolution in air traffic control", 《THE INSTITUTION OF ENGINEERING AND TECHNOLOGY》 *
周毅等: "基于深度强化学习的无人机自主部署及能效优化策略", 《物联网学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113892070A (zh) * 2020-04-30 2022-01-04 乐天集团股份有限公司 学习装置、信息处理装置、及完成学习的控制模型
CN113892070B (zh) * 2020-04-30 2024-04-26 乐天集团股份有限公司 学习装置、信息处理装置、及完成学习的控制模型
CN111596677A (zh) * 2020-05-07 2020-08-28 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及系统
CN111596677B (zh) * 2020-05-07 2021-11-30 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及系统
CN111882047A (zh) * 2020-09-28 2020-11-03 四川大学 一种基于强化学习与线性规划的快速空管防冲突方法
CN111882047B (zh) * 2020-09-28 2021-01-15 四川大学 一种基于强化学习与线性规划的快速空管防冲突方法
CN111898770A (zh) * 2020-09-29 2020-11-06 四川大学 一种多智能体强化学习方法、电子设备及存储介质
CN111898770B (zh) * 2020-09-29 2021-01-15 四川大学 一种多智能体强化学习方法、电子设备及存储介质
CN112486192B (zh) * 2020-11-18 2022-04-08 四川大学 一种基于目的地运动预测的飞行器引导迁移学习训练算法
CN112486192A (zh) * 2020-11-18 2021-03-12 四川大学 一种基于目的地运动预测的飞行器引导迁移学习训练算法
CN112896485A (zh) * 2021-02-24 2021-06-04 河南大学 一种流线型机身的两轴倾斜翼飞行器及控制方法
CN114237267B (zh) * 2021-11-02 2023-11-24 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法
CN114237267A (zh) * 2021-11-02 2022-03-25 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法
CN114526738A (zh) * 2022-01-25 2022-05-24 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置
CN114526738B (zh) * 2022-01-25 2023-06-16 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置

Also Published As

Publication number Publication date
CN111026157B (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111026157B (zh) 一种基于奖励重塑强化学习的飞行器智能引导方法
CN109933086B (zh) 基于深度q学习的无人机环境感知与自主避障方法
Frank et al. Hover, transition, and level flight control design for a single-propeller indoor airplane
Gimenez et al. Multi-objective control for cooperative payload transport with rotorcraft UAVs
CN111027143B (zh) 一种基于深度强化学习的舰载机进近引导方法
Waldock et al. Learning to perform a perched landing on the ground using deep reinforcement learning
CN111240348B (zh) 基于运动基座的无人机降落控制方法、计算机可读存储介质及控制设备
Greatwood et al. Perched landing manoeuvres with a variable sweep wing UAV
de Paiva et al. Project AURORA: Infrastructure and flight control experiments for a robotic airship
CN104656661B (zh) 一种公务机下降着陆控制方法
Zhang et al. Review of modeling and control in UAV autonomous maneuvering flight
CN112114592B (zh) 一种实现无人机自主穿越可移动框形障碍物的方法
Perhinschi et al. Simulation environment for UAV fault tolerant autonomous control laws development
CN109703769A (zh) 一种基于预瞄策略的空中加油对接控制方法
CN111830848A (zh) 一种无人机超机动飞行性能仿真训练系统及方法
Proctor et al. Vision‐only control and guidance for aircraft
Denison Automated carrier landing of an unmanned combat aerial vehicle using dynamic inversion
CN110992759B (zh) 塔台模拟与雷达模拟一体化系统及其数据交互方法
CN109101035B (zh) 一种用于高空滑翔uuv纵平面弹道控制的方法
CN111240349A (zh) 基于运动基座的无人机起飞控制方法、计算机可读存储介质及控制设备
KR102392874B1 (ko) 인공지능 기반 정밀타격시스템
CN105759630A (zh) 基于模糊pid控制的飞机4d航迹仿真系统及仿真方法
Silva et al. Experimental assessment of online dynamic soaring optimization for small unmanned aircraft
Zhou et al. Deep learning for unmanned aerial vehicles landing carrier in different conditions
CN112486192B (zh) 一种基于目的地运动预测的飞行器引导迁移学习训练算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200728

Termination date: 20201218