CN110928329A - 一种基于深度q学习算法的多飞行器航迹规划方法 - Google Patents

一种基于深度q学习算法的多飞行器航迹规划方法 Download PDF

Info

Publication number
CN110928329A
CN110928329A CN201911350476.7A CN201911350476A CN110928329A CN 110928329 A CN110928329 A CN 110928329A CN 201911350476 A CN201911350476 A CN 201911350476A CN 110928329 A CN110928329 A CN 110928329A
Authority
CN
China
Prior art keywords
aircraft
neural network
target
state
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911350476.7A
Other languages
English (en)
Other versions
CN110928329B (zh
Inventor
张伸
侯砚泽
陈冲
王开强
李宪强
付新卫
刘昶秀
陈润峰
杨格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Space Technology Research and Test Center
Original Assignee
Beijing Space Technology Research and Test Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Space Technology Research and Test Center filed Critical Beijing Space Technology Research and Test Center
Priority to CN201911350476.7A priority Critical patent/CN110928329B/zh
Publication of CN110928329A publication Critical patent/CN110928329A/zh
Application granted granted Critical
Publication of CN110928329B publication Critical patent/CN110928329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于深度Q学习算法的多飞行器航迹规划方法,包括:S1.基于飞行器的性能构建所述飞行器的运动学模型;S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型;S3.根据所述运动学模型和所述任务模型构建所述飞行器的状态空间;S4.根据所述运动学模型和所述任务模型构建所述飞行器的动作空间;S5.基于所述状态空间和所述动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数;S6.基于所述奖赏函数对所述神经网络进行训练;S7.对完成训练的所述神经网络进行目标打击验证。通过深度Q学习算法完成多飞行器协同航迹规划,实现能量损失最小、打击时间最短、防空威胁区域规避等约束下的目标打击。

Description

一种基于深度Q学习算法的多飞行器航迹规划方法
技术领域
本发明涉及多飞行器协同航迹规划技术领域,尤其涉及一种基于深度Q学习算法的多飞行器航迹规划方法。
背景技术
未来战争中战场环境日趋复杂且各类防御体系性能日益提高,战争已从单个武器间的对抗过度到系统与体系间的对抗。在此背景下,多飞行器的协同作战成为一种新的作战形式。具体来讲,协同作战要求各飞行器间协同分享、分配与组织作战信息与作战资源,而后迅速准确地做出决策,完成协同侦查、协同攻击、协同拦截等任务。
从系统角度讲,实现多飞行器协同作战的关键在于有效地任务规划,而航迹规划属于任务规划的核心部分,最终规划的飞行航迹的质量高低将直接影响多飞行器协同作战的最终效果。对于单个飞行器而言,其航迹规划问题的实质就是在综合考虑到达时间、燃料消耗、防空威胁等因素条件下,规划出符合需求的飞行航迹。然而一旦问题扩展至多飞行器的航迹规划,其复杂度就会大幅增加。不仅要考虑单条航迹的各类约束,还需综合分析多条航迹存在时的安全性欲协同性问题,及多飞行器的资源分配。加之战场环境的复杂多变与各影响因素的关联耦合,使得多飞行器协同航迹规划建模复杂性、组合复杂性以及时间复杂性都大幅度增加。
发明内容
本发明的目的在于提供一种基于深度Q学习算法的多飞行器航迹规划方法,实现简单、计算量小。
为实现上述发明目的,本发明提供一种基于深度Q学习算法的多飞行器航迹规划方法,包括:
S1.基于飞行器的性能构建所述飞行器的运动学模型;
S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型;
S3.根据所述运动学模型和所述任务模型构建所述飞行器的状态空间;
S4.根据所述运动学模型和所述任务模型构建所述飞行器的动作空间;
S5.基于所述状态空间和所述动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数;
S6.基于所述奖赏函数对所述神经网络进行训练;
S7.对完成训练的所述神经网络进行目标打击验证。
根据本发明的一个方面,步骤S1中,所述运行学模型为所述飞行器的三自由度运动方程;
所述三自由度运动方程为:
Figure BDA0002334537670000021
其中,V表示飞行器速度,θ与Ψ分别表示弹道倾角与弹道偏角,D、L、Z分别表示飞行器所受的气动阻力、升力、侧向力,x、y、z为飞行器位置坐标。
根据本发明的一个方面,步骤S2中,所述任务模型用于所述飞行器的三维攻击航迹规划;
所述任务模型采用双层次规划设计,包括航迹水平面规划设计和轨迹铅垂面规划设计;其中,所述航迹水平面规划设计采用所述深度Q学习算法构建对地方防空区域的躲避和目标打击的第一方案,所述航迹铅垂面设计基于所述第一方案采用比例导引法构建铅垂面上飞行器对地方目标对准的第二方案。
根据本发明的一个方面,步骤S3中,所述状态空间用于表示所述飞行器当前飞行状态与目标状态,且所述状态空间为一个n维向量,其中各元素为所述飞行器通过直接传感器测量或由传感器测量信号间接计算获得的变量。
根据本发明的一个方面,步骤S4中,所述动作空间包含所有所述飞行器改变其飞行状态的动作决策。
根据本发明的一个方面,步骤S5中,基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中,分别设计所述神经网络的结构参数、训练方法、网络学习率、经验池、训练批数、网络替换迭代数。
构建所述奖赏函数的步骤中,根据能量损失约束,打击时间约束,对危险区域的规避约束,以及对所述目标的多方位打击约束设计所述奖赏函数。
根据本发明的一个方面,步骤S5中,基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中,所述神经网络为含两层隐层的全连接网络,各隐层包含50个神经元,训练方法采用RMS优化器,网络学习率为0.001,经验池为500,训练批数为200,网络替换迭代数为200;
构建所述奖赏函数的步骤中,所述奖赏函数为:
r=α1rgoa12robs3rV4rtran
其中,rgoal为飞行器到终点距离的归一化数值,robs为飞行器到危险区中心点距离的归一化数值,rv为飞行器速度的归一化数值,rtran为飞行器到预设目标距离的归一化数值,α1、α2、α3、α4分别为各部分奖赏函数权值。
根据本发明的一个方面,步骤S6包括:
S61.随机初始化所述神经网络的各权值与阈值;
S62.随机初始化飞行器状态、目标与威胁区、飞行航迹;
S63.取当前时刻飞行器状态向量st,输入所述神经网络,获取当前状态下的动作选择at,根据所述飞行器的运动学模型获得动作选择后下一时刻的飞行状态向量st+1,并根据所述奖赏函数得到当前动作选择获得奖赏值rt
S64.将at、at、st+1、rt作为一组数据存入所述神经网络的经验池中,若经验池已满,则将数据从旧到新依次替换,并使所述神经网络完成一次学习训练;
S65.用下一时刻的状态向量st+1替换st
S66.判断当前轨迹是否结束。若结束,则随机重置飞行器状态,目标与威胁区、飞行航迹,否则,重复S63-S65。
S67.根据收敛性是否满足要求或迭代次数是否达到最大值判断网络训练是否结束,若结束,则保存输出所述神经网络与全部权值与阈值;否则重复S63-S66。
根据本发明的一个方面,步骤S7包括:
S71.随机初始化飞行器状态、目标与威胁区、飞行轨迹。
S72.取当前时刻飞行器状态向量st,输入神经网络,得到当前状态下的动作选择at,以及动作选择后下一时刻的飞行器状态向量st+1
S73.用下一时刻的状态向量st+1替换st
S74.判断当前航迹是否结束,若结束,则保存当前完整飞行航迹,随机重置飞行器状态、目标与威胁、飞行航迹,否则,重复S72-S73;
S75.重复S72-S74,获得多条飞行航迹,并验证任务完成率。
根据本发明的一种方案,通过深度Q学习算法完成多飞行器协同航迹规划。利用深度Q学习的感知与决策能力,以一种通用范式进行端对端的学习。实现能量损失最小、打击时间最短、防空威胁区域规避等约束下的目标打击。该算法具有实时性高,结构简单,设计灵活的特点。
根据本发明的一种方案,本发明适用于巡航导弹、弹道导弹等的多飞行器协同目标打击任务的航迹规划问题,可以满足包括能量损失最小、打击(飞行)时间最短、防空威胁区域规避等约束条件下的各类飞行器自动航迹生成。
根据本发明的一种方案,能够通过设计有效地任务规划制定出各飞行器间的优化协同策略,不仅有效提高了飞行器突防与拦截能力、还有效提高对运动目标的搜捕与跟踪精度。同时对减少参战飞行器数量有利,大幅增强了飞行器的整体作战效果。
根据本发明的一种方案,本方案中将深度学习的感知能力与强化学习的决策能力相结合构建出具有深度强化学习的神经网络,进而能更好的适应多飞行器航迹规划问题带来的各种挑战,通过一种通用的范式实现端对端的学习,使得本方案可以根据输入的原始数据实现航迹规划,拥有极强的泛化能力以及解决高维感知决策的能力。
附图说明
图1示意性表示根据本发明的一种基于深度Q学习算法的多飞行器航迹规划方法的步骤框图。
具体实施方式
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在针对本发明的实施方式进行描述时,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”所表达的方位或位置关系是基于相关附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
如图1所示,根据本发明的一种实施方式,本发明的一种基于深度Q学习算法的多飞行器航迹规划方法,包括:
S1.基于飞行器的性能构建飞行器的运动学模型;
S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型;
S3.根据运动学模型和任务模型构建飞行器的状态空间;
S4.根据运动学模型和任务模型构建飞行器的动作空间;
S5.基于状态空间和动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数;
S6.基于奖赏函数对所述神经网络进行训练;
S7.对完成训练的神经网络进行目标打击验证。
根据本发明的一种实施方式,步骤S1中,运行学模型为所述飞行器的三自由度运动方程;在本实施方式中,三自由度运动方程为:
Figure BDA0002334537670000061
其中,V表示飞行器速度,θ与Ψ分别表示弹道倾角与弹道偏角,D、L、Z分别表示飞行器所受的气动阻力、升力、侧向力,x、y、z为飞行器位置坐标。
根据本发明的一种实施方式,步骤S2中,任务模型用于飞行器的三维攻击航迹规划。在本实施方式中,任务模型采用双层次规划设计,包括航迹水平面规划设计和轨迹铅垂面规划设计;其中,航迹水平面规划设计采用深度Q学习算法构建对地方防空区域的躲避和目标打击的第一方案,航迹铅垂面设计基于第一方案采用比例导引法构建铅垂面上飞行器对地方目标对准的第二方案。
在本实施方式中,本发明中水平面航迹规划设计采用深度Q学习算法,其奖赏函数会直接影响最终规划出的航迹性能。为了实现协同作战时对目标的多角度打击,在目标附近预设攻击点,通过调整攻击点的位置实现对目标的多角度打击。在水平面航迹规划设计结果(即第一方案)的基础上,进行铅垂面航迹规划设计。铅垂面航迹规划设计采用比例导引法,即将飞行器在铅垂面上的速度方向始终指向目标,飞行器在铅垂面上不做躲避防空区域的机动。
至此,可将任务模型模型简化为飞行器从指定目标,以随机弹道倾角与弹道偏角发射,绕过目标前方的威胁区域,并在能量损失最小且打击时间最短的条件下完成目标打击。
根据本发明的一种实施方式,步骤S3中,状态空间用于表示飞行器当前飞行状态与目标状态,且所述状态空间为一个n维向量,其中各元素为所述飞行器通过直接传感器测量或由传感器测量信号间接计算获得的变量,并且要求状态空间能够完备的表示出飞行器当前飞行状态与任务目标的状态。例如,可选取n=15的状态空间,其中的元素包括:飞行器当前的三维坐标、飞行器当前速度在三坐标轴上的投影、任务目标的三维坐标、威胁区域中心点的三维坐标、攻击点的三维坐标。状态空间的设计选取可根据具体任务需求增加或减少元素。
根据本发明的一种实施方式,步骤S4中,动作空间包含所有飞行器改变其飞行状态的动作决策。在本实施方式中,动作空间的设计要求能包含飞行器所有可能改变其飞行状态的动作决策。在本实施方式中。纵平面(即铅垂面)采用比例导引方法,因此动作空间只需考虑改变飞行器的水平面航迹的动作决策,即横向过载。根据飞行器的实际性能,选取若干个离散数值作为动作选择空间。例如,可选取为-20m/s2至20m/s2且间隔为10的5个离散数值。
根据本发明的一种实施方式,步骤S5中,基于状态空间条件和动作空间条件构建基于深度Q学习算法的神经网络的步骤中,分别设计神经网络的结构参数、训练方法、网络学习率、经验池、训练批数、网络替换迭代数。在本实施方式中,神经网络可设计为含两层隐层的全连接网络,各隐层包含50个神经元,训练方法采用RMS优化器,网络学习率为0.001,经验池为500,训练批数为200,网络替换迭代数为200。网络的输入为飞行器的状态向量,输出为飞行器当前状态下的最优动作选择。
根据本发明的一种实施方式,步骤S5中,构建所述奖赏函数的步骤中,根据能量损失约束,打击时间约束,对危险区域的规避约束,以及对所述目标的多方位打击约束设计所述奖赏函数。在本实施方式中,根据飞行器航迹规划要求满足能量损失最小、打击时间最短等约束条件,且能实现对危险区域的有效规避以及对目标的多方位打击等任务需求,综合设计奖赏函数。在本实施方式中,可将奖赏函数选取为如下形式:
r=α1rgoa12robs3rV4rtran
其中,rgoal为飞行器到终点距离的归一化数值,robs为飞行器到危险区中心点距离的归一化数值,rv为飞行器速度的归一化数值,rtran为飞行器到预设目标距离的归一化数值,α1、α2、α3、α4分别为各部分奖赏函数权值。
根据本发明的一种实施方式,步骤S6包括:
S61.随机初始化神经网络的各权值与阈值;
S62.随机初始化飞行器状态、目标与威胁区、飞行航迹;其中,飞行器状态属于状态空间、目标与威胁区属于任务模型、飞行航迹属于动作空间;
S63.取当前时刻飞行器状态向量st,输入所述神经网络,获取当前状态下的动作选择at(即动作空间),根据飞行器的运动学模型获得动作选择后下一时刻的飞行状态向量st+1,并根据奖赏函数得到当前动作选择获得奖赏值rt
S64.将at、at、st+1、rt作为一组数据存入神经网络的经验池中,若经验池已满,则将数据从旧到新依次替换,并使神经网络完成一次学习训练;
S65.用下一时刻的状态向量st+1替换st
S66.判断当前轨迹是否结束。若结束,则随机重置飞行器状态,目标与威胁区、飞行航迹,否则,重复S63-S65。在本实施方式中,判断当前轨迹是否结束的步骤中,若rtran小于设定值,则当前轨迹结束。
S67.根据收敛性是否满足要求或迭代次数是否达到最大值判断网络训练是否结束,若结束,则保存输出神经网络与全部权值与阈值;否则重复S63-S66。
根据本发明的一种实施方式,步骤S7包括:
S71.随机初始化飞行器状态、目标与威胁区、飞行轨迹。
S72.取当前时刻飞行器状态向量st,输入神经网络,得到当前状态下的动作选择at,以及动作选择后下一时刻的飞行器状态向量st+1
S73.用下一时刻的状态向量st+1替换st
S74.判断当前航迹是否结束,若结束,则保存当前完整飞行航迹,随机重置飞行器状态、目标与威胁、飞行航迹,否则,重复S72-S73;在本实施方式中,判断当前轨迹是否结束的步骤中,若rtran小于设定值,则当前轨迹结束。
S75.重复S72-S74,获得多条飞行航迹,并验证任务完成率。
根据本发明,通过深度Q学习算法完成多飞行器协同航迹规划,实现能量损失最小、打击时间最短、防空威胁区域规避等约束下的目标打击。
根据本发明,本发明适用于巡航导弹、弹道导弹等的多飞行器协同目标打击任务的航迹规划问题,可以满足包括能量损失最小、打击时间最短、防空威胁区域规避等约束条件下的自动航迹生成。
上述内容仅为本发明的具体方案的例子,对于其中未详尽描述的设备和结构,应当理解为采取本领域已有的通用设备及通用方法来予以实施。
以上所述仅为本发明的一个方案而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度Q学习算法的多飞行器航迹规划方法,包括:
S1.基于飞行器的性能构建所述飞行器的运动学模型;
S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型;
S3.根据所述运动学模型和所述任务模型构建所述飞行器的状态空间;
S4.根据所述运动学模型和所述任务模型构建所述飞行器的动作空间;
S5.基于所述状态空间和所述动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数;
S6.基于所述奖赏函数对所述神经网络进行训练;
S7.对完成训练的所述神经网络进行目标打击验证。
2.根据权利要求1所述的多飞行器航迹规划方法,其特征在于,步骤S1中,所述运行学模型为所述飞行器的三自由度运动方程;
所述三自由度运动方程为:
Figure FDA0002334537660000011
其中,V表示飞行器速度,θ与Ψ分别表示弹道倾角与弹道偏角,D、L、Z分别表示飞行器所受的气动阻力、升力、侧向力,x、y、z为飞行器位置坐标。
3.根据权利要求2所述的多飞行器航迹规划方法,其特征在于,步骤S2中,所述任务模型用于所述飞行器的三维攻击航迹规划;
所述任务模型采用双层次规划设计,包括航迹水平面规划设计和轨迹铅垂面规划设计;其中,所述航迹水平面规划设计采用所述深度Q学习算法构建对地方防空区域的躲避和目标打击的第一方案,所述航迹铅垂面设计基于所述第一方案采用比例导引法构建铅垂面上飞行器对地方目标对准的第二方案。
4.根据权利要求3所述的多飞行器航迹规划方法,其特征在于,步骤S3中,所述状态空间用于表示所述飞行器当前飞行状态与目标状态,且所述状态空间为一个n维向量,其中各元素为所述飞行器通过直接传感器测量或由传感器测量信号间接计算获得的变量。
5.根据权利要求4所述的多飞行器航迹规划方法,其特征在于,步骤S4中,所述动作空间包含所有所述飞行器改变其飞行状态的动作决策。
6.根据权利要求5所述的多飞行器航迹规划方法,其特征在于,步骤S5中,基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中,分别设计所述神经网络的结构参数、训练方法、网络学习率、经验池、训练批数、网络替换迭代数。
构建所述奖赏函数的步骤中,根据能量损失约束,打击时间约束,对危险区域的规避约束,以及对所述目标的多方位打击约束设计所述奖赏函数。
7.根据权利要求6所述的多飞行器航迹规划方法,其特征在于,步骤S5中,基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中,所述神经网络为含两层隐层的全连接网络,各隐层包含50个神经元,训练方法采用RMS优化器,网络学习率为0.001,经验池为500,训练批数为200,网络替换迭代数为200;
构建所述奖赏函数的步骤中,所述奖赏函数为:
r=α1rgoal2robs3rV4rtran
其中,rgoal为飞行器到终点距离的归一化数值,robs为飞行器到危险区中心点距离的归一化数值,rv为飞行器速度的归一化数值,rtran为飞行器到预设目标距离的归一化数值,α1、α2、α3、α4分别为各部分奖赏函数权值。
8.根据权利要求1至7任一项所述的多飞行器航迹规划方法,其特征在于,步骤S6包括:
S61.随机初始化所述神经网络的各权值与阈值;
S62.随机初始化飞行器状态、目标与威胁区、飞行航迹;
S63.取当前时刻飞行器状态向量st,输入所述神经网络,获取当前状态下的动作选择at,根据所述飞行器的运动学模型获得动作选择后下一时刻的飞行状态向量st+1,并根据所述奖赏函数得到当前动作选择获得奖赏值rt
S64.将at、at、st+1、rt作为一组数据存入所述神经网络的经验池中,若经验池已满,则将数据从旧到新依次替换,并使所述神经网络完成一次学习训练;
S65.用下一时刻的状态向量st+1替换st
S66.判断当前轨迹是否结束。若结束,则随机重置飞行器状态,目标与威胁区、飞行航迹,否则,重复S63-S65。
S67.根据收敛性是否满足要求或迭代次数是否达到最大值判断网络训练是否结束,若结束,则保存输出所述神经网络与全部权值与阈值;否则重复S63-S66。
9.根据权利要求8所述的多飞行器航迹规划方法,其特征在于,步骤S7包括:
S71.随机初始化飞行器状态、目标与威胁区、飞行轨迹。
S72.取当前时刻飞行器状态向量st,输入神经网络,得到当前状态下的动作选择at,以及动作选择后下一时刻的飞行器状态向量st+1
S73.用下一时刻的状态向量st+1替换st
S74.判断当前航迹是否结束,若结束,则保存当前完整飞行航迹,随机重置飞行器状态、目标与威胁、飞行航迹,否则,重复S72-S73;
S75.重复S72-S74,获得多条飞行航迹,并验证任务完成率。
CN201911350476.7A 2019-12-24 2019-12-24 一种基于深度q学习算法的多飞行器航迹规划方法 Active CN110928329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911350476.7A CN110928329B (zh) 2019-12-24 2019-12-24 一种基于深度q学习算法的多飞行器航迹规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911350476.7A CN110928329B (zh) 2019-12-24 2019-12-24 一种基于深度q学习算法的多飞行器航迹规划方法

Publications (2)

Publication Number Publication Date
CN110928329A true CN110928329A (zh) 2020-03-27
CN110928329B CN110928329B (zh) 2023-05-02

Family

ID=69861877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911350476.7A Active CN110928329B (zh) 2019-12-24 2019-12-24 一种基于深度q学习算法的多飞行器航迹规划方法

Country Status (1)

Country Link
CN (1) CN110928329B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111123957A (zh) * 2020-03-31 2020-05-08 北京三快在线科技有限公司 一种轨迹规划的方法及装置
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN112947592A (zh) * 2021-03-30 2021-06-11 北京航空航天大学 一种基于强化学习的再入飞行器轨迹规划方法
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN113050686A (zh) * 2021-03-19 2021-06-29 北京航空航天大学 一种基于深度强化学习的作战策略优化方法及系统
CN114035616A (zh) * 2021-10-22 2022-02-11 中国人民解放军国防科技大学 一种飞行器对移动目标打击控制方法及系统
CN114578861A (zh) * 2022-04-29 2022-06-03 北京航空航天大学 一种利用阵风环境的无人机飞行控制策略设计方法
CN116070785A (zh) * 2023-03-07 2023-05-05 中国电子科技集团公司第二十八研究所 一种基于Andrew算法的陆空协同空域分配方法
CN116400738A (zh) * 2023-06-06 2023-07-07 成都流体动力创新中心 一种针对低小慢无人机的低成本打击方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘波 等: "基于群集智能的协同多目标攻击空战决策", 《航空学报》 *
柏茂羽 等: "基于Q学习的多目标耦合协同任务分配算法", 《电光与控制》 *
潘耀宗 等: "战机自主作战机动双网络智能决策方法", 《哈尔滨工业大学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111123957A (zh) * 2020-03-31 2020-05-08 北京三快在线科技有限公司 一种轨迹规划的方法及装置
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN113050686A (zh) * 2021-03-19 2021-06-29 北京航空航天大学 一种基于深度强化学习的作战策略优化方法及系统
CN112947592B (zh) * 2021-03-30 2022-06-10 北京航空航天大学 一种基于强化学习的再入飞行器轨迹规划方法
CN112947592A (zh) * 2021-03-30 2021-06-11 北京航空航天大学 一种基于强化学习的再入飞行器轨迹规划方法
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN113031642B (zh) * 2021-05-24 2021-08-10 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN114035616A (zh) * 2021-10-22 2022-02-11 中国人民解放军国防科技大学 一种飞行器对移动目标打击控制方法及系统
CN114035616B (zh) * 2021-10-22 2023-10-20 中国人民解放军国防科技大学 一种飞行器对移动目标打击控制方法及系统
CN114578861A (zh) * 2022-04-29 2022-06-03 北京航空航天大学 一种利用阵风环境的无人机飞行控制策略设计方法
CN114578861B (zh) * 2022-04-29 2022-08-16 北京航空航天大学 一种利用阵风环境的无人机飞行控制策略设计方法
CN116070785A (zh) * 2023-03-07 2023-05-05 中国电子科技集团公司第二十八研究所 一种基于Andrew算法的陆空协同空域分配方法
CN116400738A (zh) * 2023-06-06 2023-07-07 成都流体动力创新中心 一种针对低小慢无人机的低成本打击方法及系统
CN116400738B (zh) * 2023-06-06 2023-08-08 成都流体动力创新中心 一种针对低小慢无人机的低成本打击方法及系统

Also Published As

Publication number Publication date
CN110928329B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN110928329B (zh) 一种基于深度q学习算法的多飞行器航迹规划方法
Zhang et al. An improved constrained differential evolution algorithm for unmanned aerial vehicle global route planning
CN111240353B (zh) 基于遗传模糊树的无人机协同空战决策方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN108153328B (zh) 一种基于分段贝塞尔曲线的多导弹协同航迹规划方法
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN107063255A (zh) 一种基于改进果蝇优化算法的三维航路规划方法
CN114840020A (zh) 一种基于改进鲸鱼算法的无人机飞行轨迹规划方法
CN112666981B (zh) 基于原鸽群动态群组学习的无人机集群动态航路规划方法
CN113671825A (zh) 一种基于强化学习的机动智能决策规避导弹方法
Yuan et al. Research on UCAV maneuvering decision method based on heuristic reinforcement learning
CN114063644A (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN112733251A (zh) 一种多无人飞行器协同航迹规划方法
CN113625569A (zh) 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Duan et al. Autonomous maneuver decision for unmanned aerial vehicle via improved pigeon-inspired optimization
Wang et al. Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction
CN116858039A (zh) 一种高超声速飞行器博弈制导方法、系统、设备及介质
Xiong et al. Multi-uav 3d path planning in simultaneous attack
Cheng et al. Weapon-target assignment of ballistic missiles based on Q-learning and genetic algorithm
CN115951695A (zh) 空战模拟环境中基于三方博弈的动态战术控制域解算方法
CN112818496B (zh) 基于蚁群算法的要地防空策略
Yang et al. Ballistic missile maneuver penetration based on reinforcement learning
Meng et al. UAV Attack and Defense Optimization Guidance Method Based on Target Trajectory Prediction
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant