CN113176786A - 一种基于Q-Learning的高超声速飞行器动态路径规划方法 - Google Patents

一种基于Q-Learning的高超声速飞行器动态路径规划方法 Download PDF

Info

Publication number
CN113176786A
CN113176786A CN202110439713.8A CN202110439713A CN113176786A CN 113176786 A CN113176786 A CN 113176786A CN 202110439713 A CN202110439713 A CN 202110439713A CN 113176786 A CN113176786 A CN 113176786A
Authority
CN
China
Prior art keywords
aircraft
hypersonic aircraft
hypersonic
environment
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110439713.8A
Other languages
English (en)
Inventor
李元凯
吕雅丽
高阳
冯欣乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kaitian Tongdao Technology Co ltd
Original Assignee
Chengdu Kaitian Tongdao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kaitian Tongdao Technology Co ltd filed Critical Chengdu Kaitian Tongdao Technology Co ltd
Priority to CN202110439713.8A priority Critical patent/CN113176786A/zh
Publication of CN113176786A publication Critical patent/CN113176786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于高超声速飞行器轨迹设计领域,具体涉及一种基于Q‑learning算法的高超声速飞行器动态路径规划方法。该方法中假设飞行器进入巡航阶段,飞行速度定常,飞行高度不变。包括以下步骤:1)建立飞行器飞行场景,建立符合高超声速飞行器飞行特性的环境。2)为高超声速飞行器建立搜索策略,即在任一状态下的动作选择集。3)为高超声速飞行器建立合理的奖励值函数,能够使飞行器在与环境交互中获得最大的累计奖励。4)在已知起点与终点的情况下,为飞行器规划出一条能够避障的路径。该方法不需要建立环境的动态特性模型即可做出策略预测及最优决策,实现高超声速飞行器对未知威胁的动态避障,可用于未知障碍下的飞行器路径规划问题。

Description

一种基于Q-Learning的高超声速飞行器动态路径规划方法
技术领域:
本发明属于高超声速飞行器轨迹设计领域,具体涉及一种基于Q-Learning的高超声速飞行器动态路径规划方法。
背景技术:
近年来,高超声速飞行器在航空航天领域发展迅速,以其独特的优势成为世界关注的焦点。飞行器具有飞行速度快、反应时间短、作战半径大、隐蔽性好、穿刺力强等特点。路径规划是执行飞行任务的重要技术,特别是面对来自地面或空间的未知威胁。飞行器路径规划的目的是在自机动性能、敌人威胁和飞行时间等约束条件下,寻找最优或次最优路径以有效规避威胁。
随着空天任务难度的增加,特别是在未知环境下,路径规划需要考虑不确定性因素的影响,要求具有学习能力,以适应环境变化的不确定性。
强化学习技术发展使得路径规划可以不再依赖于环境模型,也不需要环境的先验知识。因此,利用强化学习进行路径规划以提高飞行器对未知环境的适应性的方法得到高度重视。Q-learning算法是强化学习的典型方法,目前用Q-learning为飞行器规划路径的相关研究十分少见。
发明内容:
针对以上背景,为解决现有的路径规划算法不能为未知环境中的飞行器规划避障路径的问题,本发明提供了一种基于Q-learning算法的动态路径规划算法,基于Q-learning算法,结合飞行器的动态特性,能够为飞行器在未知环境中规划出一条可飞的避障路径。
一种高超声速飞行器的动态路径规划设计,其技术方案包括以下步骤:
1)场景建立:
在飞行器巡航阶段,进入定高定速飞行的飞行空间,需要一种有效的状态空间划分方法,该方法必须可以清晰地描述飞行器所处的环境。考虑到网格方法在表示二维环境信息方面简单、方便、高效,采用网格方法对环境进行建模。将飞行器的巡航区域划分为n×n个网格,每个网格的长度为m km。m的值应大于或等于飞行器的最小转弯半径R,转弯半径由飞行器过载决定,以便于飞行器可以正常机动。
2)动作选择集:
由于网格的尺寸大小符合飞行器的最小转弯半径的要求,所以可以认为飞行器够在它周围的8个方向自由移动的,如图3所示。但是为了加快整个学习过程,缩短飞行器到达目的地的时间。利用当前位置点坐标与目标点位置坐标的关系建立新的飞行器动作集。具体方案如下:设当前位置点坐标为(xc,yc),目标点位置坐标为(xg,yg)。
若xc<xg且yc<yg,则a=rand(0,1,2);
若xc>xg且yc>yg,则a=rand(4,5,6);
若xc<xg且yc>yg,则a=rand(2,3,4);
若xc>xg且yc<yg,则a=rand(0,6,7);
若xc=xg或yc=yg,则a=rand(0,4)或a=rand(2,6);
其他情况下,a=rand(a,a-1,a+1)。
3)奖励值选择:
对于Q-Learning算法来说,它的目的是能够使agent在与环境的交互中(从初始状态到目标状态)获得最大的累积奖励。因此,建立一个合理的奖励函数是非常重要的。具体的奖励值由多次实验的数据得出。
4)动态路径规划:
具体的路径规划步骤如下:
步骤1:初始化q函数,状态和动作为任意值。
步骤2:观察当前状态s,使用动作选择策略选择一个动作a。
步骤3:执行选择的动作a,观察收到的即时奖励r和随后的状态s。
步骤4:根据Q(st,at)←Q(st,at)+α[rt+1+γ×max Q(st+1,a)-Q(st,at)]更新q函数值。
步骤5:如果新状态满足终端状态,则结束本次试验的学习,开始下一次试验的训练。否则,返回执行步骤3。
附图说明:
图1为本发明的步骤流程图。
图2为飞行器抽象的有限环境模型图。
图3为飞行器的动作选择集图。
图4为某实例的路径规划航迹图。
图5为某实例飞行器迭代次数随实验次数的变化。
图6为某实例飞行器迭代次数的标准偏差。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步详细描述。
一种高超声速飞行器巡航段动态路径规划方法,考虑高超声速飞行器整个巡航段处于定高定速飞行,仅考虑横向平面内的运动,包括如下步骤:
1)场景建立:
采用网格方法对环境进行建模。将飞行器的巡航区域划分为n×n个网格,每个网格的长度为m km。m的值满足大于或等于飞行器的最小转弯半径R,转弯半径由飞行器过载决定,保证飞行器的正常机动。如图2所示。
2)动作选择集:
网格的尺寸大小符合飞行器的最小转弯半径的要求,飞行器可以在它周围的8个方向自由移动,如图3所示。利用当前位置点坐标与目标点位置坐标的关系建立新的飞行器动作集,以此加快整个学习过程,缩短飞行器到达目的地的时间。具体方案如下:设当前位置点坐标为(xc,yc),目标点位置坐标为(xg,yg)。
若xc<xg且yc<yg,则a=rand(0,1,2);
若xc>xg且yc>yg,则a=rand(4,5,6);
若xc<xg且yc>yg,则a=rand(2,3,4);
若xc>xg且yc<yg,则a=rand(0,6,7);
若xc=xg或yc=yg,则a=rand(0,4)或a=rand(2,6);
其他情况下,a=rand(a,a-1,a+1)。
3)奖励值选择:
通过多次实验的数据得出飞行器在遇到不同情况时的奖励值,进而建立一个合理的奖励函数。
4)飞行器的动态路径规划:
具体的路径规划步骤如下:
步骤1:输入环境,初始化q函数,状态和动作为任意值。
步骤2:观察当前状态s,使用动作选择策略选择一个动作a。
步骤3:执行选择的动作a,观察收到的即时奖励r和随后的状态s。
步骤4:根据Q(st,at)←Q(st,at)+α[rt+1+γ×max Q(st+1,a)-Q(st,at)]更新q函数值。
步骤5:如果新状态满足终端状态,则结束本次试验的学习,开始下一次试验的训练。否则,返回执行步骤3。
最终为飞行器规划出一条最优路径。
具体实施案例:
通过仿真验证了该算法在高超声速飞行器遇到未知障碍时的有效性。Q-learning算法所需训练参数的具体值如表1所示。
表1参数设置
Figure BDA0003034566640000041
将飞行器起始点设为(15,390),即对应网格(1,26)中的坐标点,用蓝星表示。目标位置为(405,45),即对应网格(27,3)中的坐标点,用红星表示。随机放置三个障碍物作为未知威胁。
仿真结果如图4所示,圆点代表飞行器,黑色实心圆代表障碍物。因此,从图中可以看出,飞行器从原点位置出发,成功避开障碍物,最终到达目标位置。
在图5中,x轴为试验次数,每次试验agent都从初始状态开始,直到达到目标状态。y轴表示迭代次数,即到达目的地的时间步长。说明随着试验次数的增加,飞行器到达终点的迭代次数会减少,随着试验次数的增加,到达终点的最终步骤基本稳定。
在图6中,x轴与图5相同,y轴表示迭代次数的标准差。结果表明,随着试验次数的增加,标准差逐渐减小。

Claims (3)

1.一种基于Q-Learning的高超声速飞行器动态路径规划方法,其特征在于包括以下步骤:
1)建立飞行器飞行场景,建立符合高超声速飞行器飞行特性的环境;
2)为高超声速飞行器建立搜索策略,即在任一状态下的动作选择集;
3)为高超声速飞行器建立合理的奖励值函数,能够使飞行器在与环境交互中获得最大的累计奖励;
4)在已知起点与终点的情况下,为飞行器规划出一条能够避障的路径。
2.根据权利要求1所述一种基于Q-Learning的高超声速飞行器动态路径规划方法,其特征在于,步骤1)建立符合高超声速飞行器飞行特性的环境,具体采用网格法对环境进行建模,将飞行器的巡航区域划分为n×n个网格,每个网格的长度为m或km,m的值应大于或等于飞行器的最小转弯半径R, 转弯半径由飞行器过载决定,保证飞行器正常机动。
3.根据权利要求1所述的一种基于Q-Learning的高超声速飞行器动态路径规划方法,其特征在于,步骤2)为高超声速飞行器建立搜索策略,网格的尺寸大小符合飞行器的最小转弯半径的要求,飞行器可在它周围的8个方向自由移动,利用当前位置与目标点位置的关系对飞行器的动作进行约束,提高整个学习效率,使飞行器更快到达目的地。
CN202110439713.8A 2021-04-23 2021-04-23 一种基于Q-Learning的高超声速飞行器动态路径规划方法 Pending CN113176786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110439713.8A CN113176786A (zh) 2021-04-23 2021-04-23 一种基于Q-Learning的高超声速飞行器动态路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110439713.8A CN113176786A (zh) 2021-04-23 2021-04-23 一种基于Q-Learning的高超声速飞行器动态路径规划方法

Publications (1)

Publication Number Publication Date
CN113176786A true CN113176786A (zh) 2021-07-27

Family

ID=76924242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110439713.8A Pending CN113176786A (zh) 2021-04-23 2021-04-23 一种基于Q-Learning的高超声速飞行器动态路径规划方法

Country Status (1)

Country Link
CN (1) CN113176786A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN110132282A (zh) * 2019-05-24 2019-08-16 北京航空航天大学 无人机路径规划方法及装置
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
CN112231845A (zh) * 2020-11-03 2021-01-15 中国人民解放军国防科技大学 一种平流层飞艇高度控制方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN110132282A (zh) * 2019-05-24 2019-08-16 北京航空航天大学 无人机路径规划方法及装置
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
CN112231845A (zh) * 2020-11-03 2021-01-15 中国人民解放军国防科技大学 一种平流层飞艇高度控制方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李天任,等: "基于Q-Learning算法的再入飞行器制导方法", 《战术导弹技术》 *
郝钏钏,等: "基于Q学习的无人机三维航迹规划算法", 《上海交通大学学报》 *

Similar Documents

Publication Publication Date Title
CN108681787B (zh) 基于改进双向快速扩展随机树算法的无人机路径优化方法
Allaire et al. FPGA implementation of genetic algorithm for UAV real-time path planning
CN108153328B (zh) 一种基于分段贝塞尔曲线的多导弹协同航迹规划方法
CN107807521B (zh) 面向固定时间的编队飞行器协同控制方法及系统
Duan et al. Multiple UAVs/UGVs heterogeneous coordinated technique based on receding horizon control (RHC) and velocity vector control
CN103267528A (zh) 禁飞区限制下的多无人机协同区域搜索方法
CN111766901B (zh) 多无人机协同目标分配攻击方法
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN115328191B (zh) 一种掠地巡航靶标巡航控制方法、系统、设备及存储介质
CN114661069A (zh) 一种群体智能系统的编队控制方法
CN114510078A (zh) 一种基于深度强化学习的无人机机动规避决策方法
CN113268087A (zh) 多约束复杂环境下基于改进蚁群算法的多无人机协同工作的航迹规划方法
CN111157002B (zh) 基于多智能体进化算法的飞行器3d路径规划方法
Gang et al. Research status and progress on anti-ship missile path planning
Zandavi Surface-to-air missile path planning using genetic and PSO algorithms
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN116009569A (zh) Sead任务场景下一种基于多类型基因染色体遗传算法的异构多无人机任务规划方法
Lee et al. Predictive control for soaring of unpowered autonomous UAVs
Tan et al. Mission Planning for Unmanned Aerial Vehicles Based on Voronoi Diagram‐Tabu Genetic Algorithm
CN113176786A (zh) 一种基于Q-Learning的高超声速飞行器动态路径规划方法
Zheng et al. Multiple task planning based on TS algorithm for multiple heterogeneous unmanned aerial vehicles
CN110377048B (zh) 一种基于遗传算法的无人机群防御部署方法
Montella et al. Reinforcement learning for autonomous dynamic soaring in shear winds
CN116820122A (zh) 基于粒子群优化算法无人机的稀土矿山路径规划方法
CN112698666B (zh) 一种基于气象栅格的飞行器航路优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210727

WD01 Invention patent application deemed withdrawn after publication