CN110928329B - 一种基于深度q学习算法的多飞行器航迹规划方法 - Google Patents
一种基于深度q学习算法的多飞行器航迹规划方法 Download PDFInfo
- Publication number
- CN110928329B CN110928329B CN201911350476.7A CN201911350476A CN110928329B CN 110928329 B CN110928329 B CN 110928329B CN 201911350476 A CN201911350476 A CN 201911350476A CN 110928329 B CN110928329 B CN 110928329B
- Authority
- CN
- China
- Prior art keywords
- aircraft
- neural network
- state
- constructing
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 42
- 230000009471 action Effects 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000007123 defense Effects 0.000 claims abstract description 11
- 238000012795 verification Methods 0.000 claims abstract description 4
- 238000013461 design Methods 0.000 claims description 22
- 238000006467 substitution reaction Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000008447 perception Effects 0.000 description 3
- 101100069049 Caenorhabditis elegans goa-1 gene Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及一种基于深度Q学习算法的多飞行器航迹规划方法,包括:S1.基于飞行器的性能构建所述飞行器的运动学模型;S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型;S3.根据所述运动学模型和所述任务模型构建所述飞行器的状态空间;S4.根据所述运动学模型和所述任务模型构建所述飞行器的动作空间;S5.基于所述状态空间和所述动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数;S6.基于所述奖赏函数对所述神经网络进行训练;S7.对完成训练的所述神经网络进行目标打击验证。通过深度Q学习算法完成多飞行器协同航迹规划,实现能量损失最小、打击时间最短、防空威胁区域规避等约束下的目标打击。
Description
技术领域
本发明涉及多飞行器协同航迹规划技术领域,尤其涉及一种基于深度Q学习算法的多飞行器航迹规划方法。
背景技术
未来战争中战场环境日趋复杂且各类防御体系性能日益提高,战争已从单个武器间的对抗过度到系统与体系间的对抗。在此背景下,多飞行器的协同作战成为一种新的作战形式。具体来讲,协同作战要求各飞行器间协同分享、分配与组织作战信息与作战资源,而后迅速准确地做出决策,完成协同侦查、协同攻击、协同拦截等任务。
从系统角度讲,实现多飞行器协同作战的关键在于有效地任务规划,而航迹规划属于任务规划的核心部分,最终规划的飞行航迹的质量高低将直接影响多飞行器协同作战的最终效果。对于单个飞行器而言,其航迹规划问题的实质就是在综合考虑到达时间、燃料消耗、防空威胁等因素条件下,规划出符合需求的飞行航迹。然而一旦问题扩展至多飞行器的航迹规划,其复杂度就会大幅增加。不仅要考虑单条航迹的各类约束,还需综合分析多条航迹存在时的安全性欲协同性问题,及多飞行器的资源分配。加之战场环境的复杂多变与各影响因素的关联耦合,使得多飞行器协同航迹规划建模复杂性、组合复杂性以及时间复杂性都大幅度增加。
发明内容
本发明的目的在于提供一种基于深度Q学习算法的多飞行器航迹规划方法,实现简单、计算量小。
为实现上述发明目的,本发明提供一种基于深度Q学习算法的多飞行器航迹规划方法,包括:
S1.基于飞行器的性能构建所述飞行器的运动学模型;
S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型;
S3.根据所述运动学模型和所述任务模型构建所述飞行器的状态空间;
S4.根据所述运动学模型和所述任务模型构建所述飞行器的动作空间;
S5.基于所述状态空间和所述动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数;
S6.基于所述奖赏函数对所述神经网络进行训练;
S7.对完成训练的所述神经网络进行目标打击验证。
根据本发明的一个方面,步骤S1中,所述运行学模型为所述飞行器的三自由度运动方程;
所述三自由度运动方程为:
其中,V表示飞行器速度,θ与Ψ分别表示弹道倾角与弹道偏角,D、L、Z分别表示飞行器所受的气动阻力、升力、侧向力,x、y、z为飞行器位置坐标。
根据本发明的一个方面,步骤S2中,所述任务模型用于所述飞行器的三维攻击航迹规划;
所述任务模型采用双层次规划设计,包括航迹水平面规划设计和轨迹铅垂面规划设计;其中,所述航迹水平面规划设计采用所述深度Q学习算法构建对地方防空区域的躲避和目标打击的第一方案,所述航迹铅垂面设计基于所述第一方案采用比例导引法构建铅垂面上飞行器对地方目标对准的第二方案。
根据本发明的一个方面,步骤S3中,所述状态空间用于表示所述飞行器当前飞行状态与目标状态,且所述状态空间为一个n维向量,其中各元素为所述飞行器通过直接传感器测量或由传感器测量信号间接计算获得的变量。
根据本发明的一个方面,步骤S4中,所述动作空间包含所有所述飞行器改变其飞行状态的动作决策。
根据本发明的一个方面,步骤S5中,基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中,分别设计所述神经网络的结构参数、训练方法、网络学习率、经验池、训练批数、网络替换迭代数。
构建所述奖赏函数的步骤中,根据能量损失约束,打击时间约束,对危险区域的规避约束,以及对所述目标的多方位打击约束设计所述奖赏函数。
根据本发明的一个方面,步骤S5中,基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中,所述神经网络为含两层隐层的全连接网络,各隐层包含50个神经元,训练方法采用RMS优化器,网络学习率为0.001,经验池为500,训练批数为200,网络替换迭代数为200;
构建所述奖赏函数的步骤中,所述奖赏函数为:
r=α1rgoa1+α2robs+α3rV+α4rtran
其中,rgoal为飞行器到终点距离的归一化数值,robs为飞行器到危险区中心点距离的归一化数值,rv为飞行器速度的归一化数值,rtran为飞行器到预设目标距离的归一化数值,α1、α2、α3、α4分别为各部分奖赏函数权值。
根据本发明的一个方面,步骤S6包括:
S61.随机初始化所述神经网络的各权值与阈值;
S62.随机初始化飞行器状态、目标与威胁区、飞行航迹;
S63.取当前时刻飞行器状态向量st,输入所述神经网络,获取当前状态下的动作选择at,根据所述飞行器的运动学模型获得动作选择后下一时刻的飞行状态向量st+1,并根据所述奖赏函数得到当前动作选择获得奖赏值rt;
S64.将at、at、st+1、rt作为一组数据存入所述神经网络的经验池中,若经验池已满,则将数据从旧到新依次替换,并使所述神经网络完成一次学习训练;
S65.用下一时刻的状态向量st+1替换st。
S66.判断当前轨迹是否结束。若结束,则随机重置飞行器状态,目标与威胁区、飞行航迹,否则,重复S63-S65。
S67.根据收敛性是否满足要求或迭代次数是否达到最大值判断网络训练是否结束,若结束,则保存输出所述神经网络与全部权值与阈值;否则重复S63-S66。
根据本发明的一个方面,步骤S7包括:
S71.随机初始化飞行器状态、目标与威胁区、飞行轨迹。
S72.取当前时刻飞行器状态向量st,输入神经网络,得到当前状态下的动作选择at,以及动作选择后下一时刻的飞行器状态向量st+1;
S73.用下一时刻的状态向量st+1替换st。
S74.判断当前航迹是否结束,若结束,则保存当前完整飞行航迹,随机重置飞行器状态、目标与威胁、飞行航迹,否则,重复S72-S73;
S75.重复S72-S74,获得多条飞行航迹,并验证任务完成率。
根据本发明的一种方案,通过深度Q学习算法完成多飞行器协同航迹规划。利用深度Q学习的感知与决策能力,以一种通用范式进行端对端的学习。实现能量损失最小、打击时间最短、防空威胁区域规避等约束下的目标打击。该算法具有实时性高,结构简单,设计灵活的特点。
根据本发明的一种方案,本发明适用于巡航导弹、弹道导弹等的多飞行器协同目标打击任务的航迹规划问题,可以满足包括能量损失最小、打击(飞行)时间最短、防空威胁区域规避等约束条件下的各类飞行器自动航迹生成。
根据本发明的一种方案,能够通过设计有效地任务规划制定出各飞行器间的优化协同策略,不仅有效提高了飞行器突防与拦截能力、还有效提高对运动目标的搜捕与跟踪精度。同时对减少参战飞行器数量有利,大幅增强了飞行器的整体作战效果。
根据本发明的一种方案,本方案中将深度学习的感知能力与强化学习的决策能力相结合构建出具有深度强化学习的神经网络,进而能更好的适应多飞行器航迹规划问题带来的各种挑战,通过一种通用的范式实现端对端的学习,使得本方案可以根据输入的原始数据实现航迹规划,拥有极强的泛化能力以及解决高维感知决策的能力。
附图说明
图1示意性表示根据本发明的一种基于深度Q学习算法的多飞行器航迹规划方法的步骤框图。
具体实施方式
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在针对本发明的实施方式进行描述时,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”所表达的方位或位置关系是基于相关附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
如图1所示,根据本发明的一种实施方式,本发明的一种基于深度Q学习算法的多飞行器航迹规划方法,包括:
S1.基于飞行器的性能构建飞行器的运动学模型;
S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型;
S3.根据运动学模型和任务模型构建飞行器的状态空间;
S4.根据运动学模型和任务模型构建飞行器的动作空间;
S5.基于状态空间和动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数;
S6.基于奖赏函数对所述神经网络进行训练;
S7.对完成训练的神经网络进行目标打击验证。
根据本发明的一种实施方式,步骤S1中,运行学模型为所述飞行器的三自由度运动方程;在本实施方式中,三自由度运动方程为:
其中,V表示飞行器速度,θ与Ψ分别表示弹道倾角与弹道偏角,D、L、Z分别表示飞行器所受的气动阻力、升力、侧向力,x、y、z为飞行器位置坐标。
根据本发明的一种实施方式,步骤S2中,任务模型用于飞行器的三维攻击航迹规划。在本实施方式中,任务模型采用双层次规划设计,包括航迹水平面规划设计和轨迹铅垂面规划设计;其中,航迹水平面规划设计采用深度Q学习算法构建对地方防空区域的躲避和目标打击的第一方案,航迹铅垂面设计基于第一方案采用比例导引法构建铅垂面上飞行器对地方目标对准的第二方案。
在本实施方式中,本发明中水平面航迹规划设计采用深度Q学习算法,其奖赏函数会直接影响最终规划出的航迹性能。为了实现协同作战时对目标的多角度打击,在目标附近预设攻击点,通过调整攻击点的位置实现对目标的多角度打击。在水平面航迹规划设计结果(即第一方案)的基础上,进行铅垂面航迹规划设计。铅垂面航迹规划设计采用比例导引法,即将飞行器在铅垂面上的速度方向始终指向目标,飞行器在铅垂面上不做躲避防空区域的机动。
至此,可将任务模型模型简化为飞行器从指定目标,以随机弹道倾角与弹道偏角发射,绕过目标前方的威胁区域,并在能量损失最小且打击时间最短的条件下完成目标打击。
根据本发明的一种实施方式,步骤S3中,状态空间用于表示飞行器当前飞行状态与目标状态,且所述状态空间为一个n维向量,其中各元素为所述飞行器通过直接传感器测量或由传感器测量信号间接计算获得的变量,并且要求状态空间能够完备的表示出飞行器当前飞行状态与任务目标的状态。例如,可选取n=15的状态空间,其中的元素包括:飞行器当前的三维坐标、飞行器当前速度在三坐标轴上的投影、任务目标的三维坐标、威胁区域中心点的三维坐标、攻击点的三维坐标。状态空间的设计选取可根据具体任务需求增加或减少元素。
根据本发明的一种实施方式,步骤S4中,动作空间包含所有飞行器改变其飞行状态的动作决策。在本实施方式中,动作空间的设计要求能包含飞行器所有可能改变其飞行状态的动作决策。在本实施方式中。纵平面(即铅垂面)采用比例导引方法,因此动作空间只需考虑改变飞行器的水平面航迹的动作决策,即横向过载。根据飞行器的实际性能,选取若干个离散数值作为动作选择空间。例如,可选取为-20m/s2至20m/s2且间隔为10的5个离散数值。
根据本发明的一种实施方式,步骤S5中,基于状态空间条件和动作空间条件构建基于深度Q学习算法的神经网络的步骤中,分别设计神经网络的结构参数、训练方法、网络学习率、经验池、训练批数、网络替换迭代数。在本实施方式中,神经网络可设计为含两层隐层的全连接网络,各隐层包含50个神经元,训练方法采用RMS优化器,网络学习率为0.001,经验池为500,训练批数为200,网络替换迭代数为200。网络的输入为飞行器的状态向量,输出为飞行器当前状态下的最优动作选择。
根据本发明的一种实施方式,步骤S5中,构建所述奖赏函数的步骤中,根据能量损失约束,打击时间约束,对危险区域的规避约束,以及对所述目标的多方位打击约束设计所述奖赏函数。在本实施方式中,根据飞行器航迹规划要求满足能量损失最小、打击时间最短等约束条件,且能实现对危险区域的有效规避以及对目标的多方位打击等任务需求,综合设计奖赏函数。在本实施方式中,可将奖赏函数选取为如下形式:
r=α1rgoa1+α2robs+α3rV+α4rtran
其中,rgoal为飞行器到终点距离的归一化数值,robs为飞行器到危险区中心点距离的归一化数值,rv为飞行器速度的归一化数值,rtran为飞行器到预设目标距离的归一化数值,α1、α2、α3、α4分别为各部分奖赏函数权值。
根据本发明的一种实施方式,步骤S6包括:
S61.随机初始化神经网络的各权值与阈值;
S62.随机初始化飞行器状态、目标与威胁区、飞行航迹;其中,飞行器状态属于状态空间、目标与威胁区属于任务模型、飞行航迹属于动作空间;
S63.取当前时刻飞行器状态向量st,输入所述神经网络,获取当前状态下的动作选择at(即动作空间),根据飞行器的运动学模型获得动作选择后下一时刻的飞行状态向量st+1,并根据奖赏函数得到当前动作选择获得奖赏值rt;
S64.将at、at、st+1、rt作为一组数据存入神经网络的经验池中,若经验池已满,则将数据从旧到新依次替换,并使神经网络完成一次学习训练;
S65.用下一时刻的状态向量st+1替换st。
S66.判断当前轨迹是否结束。若结束,则随机重置飞行器状态,目标与威胁区、飞行航迹,否则,重复S63-S65。在本实施方式中,判断当前轨迹是否结束的步骤中,若rtran小于设定值,则当前轨迹结束。
S67.根据收敛性是否满足要求或迭代次数是否达到最大值判断网络训练是否结束,若结束,则保存输出神经网络与全部权值与阈值;否则重复S63-S66。
根据本发明的一种实施方式,步骤S7包括:
S71.随机初始化飞行器状态、目标与威胁区、飞行轨迹。
S72.取当前时刻飞行器状态向量st,输入神经网络,得到当前状态下的动作选择at,以及动作选择后下一时刻的飞行器状态向量st+1;
S73.用下一时刻的状态向量st+1替换st。
S74.判断当前航迹是否结束,若结束,则保存当前完整飞行航迹,随机重置飞行器状态、目标与威胁、飞行航迹,否则,重复S72-S73;在本实施方式中,判断当前轨迹是否结束的步骤中,若rtran小于设定值,则当前轨迹结束。
S75.重复S72-S74,获得多条飞行航迹,并验证任务完成率。
根据本发明,通过深度Q学习算法完成多飞行器协同航迹规划,实现能量损失最小、打击时间最短、防空威胁区域规避等约束下的目标打击。
根据本发明,本发明适用于巡航导弹、弹道导弹等的多飞行器协同目标打击任务的航迹规划问题,可以满足包括能量损失最小、打击时间最短、防空威胁区域规避等约束条件下的自动航迹生成。
上述内容仅为本发明的具体方案的例子,对于其中未详尽描述的设备和结构,应当理解为采取本领域已有的通用设备及通用方法来予以实施。
以上所述仅为本发明的一个方案而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度Q学习算法的多飞行器航迹规划方法,包括:
S1.基于飞行器的性能构建所述飞行器的运动学模型;
S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型;
S3.根据所述运动学模型和所述任务模型构建所述飞行器的状态空间;
S4.根据所述运动学模型和所述任务模型构建所述飞行器的动作空间;
S5.基于所述状态空间和所述动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数;
S6.基于所述奖赏函数对所述神经网络进行训练;
S7.对完成训练的所述神经网络进行目标打击验证;
步骤S2中,所述任务模型用于所述飞行器的三维攻击航迹规划;
所述任务模型采用双层次规划设计,包括航迹水平面规划设计和轨迹铅垂面规划设计;其中,所述航迹水平面规划设计采用所述深度Q学习算法构建对地方防空区域的躲避和目标打击的第一方案,航迹铅垂面设计基于所述第一方案采用比例导引法构建铅垂面上飞行器对地方目标对准的第二方案;
步骤S5中,基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中,分别设计所述神经网络的结构参数、训练方法、网络学习率、经验池、训练批数、网络替换迭代数;
构建所述奖赏函数的步骤中,根据能量损失约束,打击时间约束,对危险区域的规避约束,以及对所述目标的多方位打击约束设计所述奖赏函数。
3.根据权利要求2所述的多飞行器航迹规划方法,其特征在于,步骤S3中,所述状态空间用于表示所述飞行器当前飞行状态与目标状态,且所述状态空间为一个n维向量,其中各元素为所述飞行器通过直接传感器测量或由传感器测量信号间接计算获得的变量。
4.根据权利要求3所述的多飞行器航迹规划方法,其特征在于,步骤S4中,所述动作空间包含所有所述飞行器改变其飞行状态的动作决策。
5.根据权利要求4所述的多飞行器航迹规划方法,其特征在于,步骤S5中,基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中,所述神经网络为含两层隐层的全连接网络,各隐层包含50个神经元,训练方法采用RMS优化器,网络学习率为0.001,经验池为500,训练批数为200,网络替换迭代数为200;
构建所述奖赏函数的步骤中,所述奖赏函数为:
r=α1rgoal+α2robs+α3rV+α4rtran
其中,rgoal为飞行器到终点距离的归一化数值,robs为飞行器到危险区中心点距离的归一化数值,rv为飞行器速度的归一化数值,rtran为飞行器到预设目标距离的归一化数值,α1、α2、α3、α4分别为各部分奖赏函数权值。
6.根据权利要求1至5任一项所述的多飞行器航迹规划方法,其特征在于,步骤S6包括:
S61.随机初始化所述神经网络的各权值与阈值;
S62.随机初始化飞行器状态、目标与威胁区、飞行航迹;
S63.取当前时刻飞行器状态向量st,输入所述神经网络,获取当前状态下的动作选择at,根据所述飞行器的运动学模型获得动作选择后下一时刻的飞行状态向量st+1,并根据所述奖赏函数得到当前动作选择获得奖赏值rt;
S64.将at、at、st+1、rt作为一组数据存入所述神经网络的经验池中,若经验池已满,则将数据从旧到新依次替换,并使所述神经网络完成一次学习训练;
S65.用下一时刻的状态向量st+1替换st;
S66.判断当前轨迹是否结束;若结束,则随机重置飞行器状态,目标与威胁区、飞行航迹,否则,重复S63-S65;
S67.根据收敛性是否满足要求或迭代次数是否达到最大值判断网络训练是否结束,若结束,则保存输出所述神经网络与全部权值与阈值;否则重复S63-S66。
7.根据权利要求6所述的多飞行器航迹规划方法,其特征在于,步骤S7包括:
S71.随机初始化飞行器状态、目标与威胁区、飞行轨迹;
S72.取当前时刻飞行器状态向量st,输入神经网络,得到当前状态下的动作选择at,以及动作选择后下一时刻的飞行器状态向量st+1;
S73.用下一时刻的状态向量st+1替换st;
S74.判断当前航迹是否结束,若结束,则保存当前完整飞行航迹,随机重置飞行器状态、目标与威胁、飞行航迹,否则,重复S72-S73;
S75.重复S72-S74,获得多条飞行航迹,并验证任务完成率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911350476.7A CN110928329B (zh) | 2019-12-24 | 2019-12-24 | 一种基于深度q学习算法的多飞行器航迹规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911350476.7A CN110928329B (zh) | 2019-12-24 | 2019-12-24 | 一种基于深度q学习算法的多飞行器航迹规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110928329A CN110928329A (zh) | 2020-03-27 |
CN110928329B true CN110928329B (zh) | 2023-05-02 |
Family
ID=69861877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911350476.7A Active CN110928329B (zh) | 2019-12-24 | 2019-12-24 | 一种基于深度q学习算法的多飞行器航迹规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110928329B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111123957B (zh) * | 2020-03-31 | 2020-09-04 | 北京三快在线科技有限公司 | 一种轨迹规划的方法及装置 |
CN112180967B (zh) * | 2020-04-26 | 2022-08-19 | 北京理工大学 | 基于评判-执行架构的多无人机协同对抗决策方法 |
CN113050686B (zh) * | 2021-03-19 | 2022-03-25 | 北京航空航天大学 | 一种基于深度强化学习的作战策略优化方法及系统 |
CN112947592B (zh) * | 2021-03-30 | 2022-06-10 | 北京航空航天大学 | 一种基于强化学习的再入飞行器轨迹规划方法 |
CN113031642B (zh) * | 2021-05-24 | 2021-08-10 | 北京航空航天大学 | 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统 |
CN114035616B (zh) * | 2021-10-22 | 2023-10-20 | 中国人民解放军国防科技大学 | 一种飞行器对移动目标打击控制方法及系统 |
CN114578861B (zh) * | 2022-04-29 | 2022-08-16 | 北京航空航天大学 | 一种利用阵风环境的无人机飞行控制策略设计方法 |
CN116070785B (zh) * | 2023-03-07 | 2023-07-07 | 中国电子科技集团公司第二十八研究所 | 一种基于Andrew算法的陆空协同空域分配方法 |
CN116400738B (zh) * | 2023-06-06 | 2023-08-08 | 成都流体动力创新中心 | 一种针对低小慢无人机的低成本打击方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
-
2019
- 2019-12-24 CN CN201911350476.7A patent/CN110928329B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
Non-Patent Citations (3)
Title |
---|
基于Q学习的多目标耦合协同任务分配算法;柏茂羽 等;《电光与控制》;20171231;第25卷(第04期);第16-22页 * |
基于群集智能的协同多目标攻击空战决策;刘波 等;《航空学报》;20090930;第30卷(第09期);第1727-1739页 * |
战机自主作战机动双网络智能决策方法;潘耀宗 等;《哈尔滨工业大学学报》;20190809;第51卷(第11期);第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110928329A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110928329B (zh) | 一种基于深度q学习算法的多飞行器航迹规划方法 | |
CN110031004B (zh) | 基于数字地图的无人机静态和动态路径规划方法 | |
CN108153328B (zh) | 一种基于分段贝塞尔曲线的多导弹协同航迹规划方法 | |
CN113791634B (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
Yang et al. | Evasive maneuver strategy for UCAV in beyond-visual-range air combat based on hierarchical multi-objective evolutionary algorithm | |
CN111240353A (zh) | 基于遗传模糊树的无人机协同空战决策方法 | |
CN111859541B (zh) | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 | |
Xia et al. | Multi—UAV path planning based on improved neural network | |
CN114840020A (zh) | 一种基于改进鲸鱼算法的无人机飞行轨迹规划方法 | |
CN112198892A (zh) | 一种多无人机智能协同突防对抗方法 | |
CN115951709A (zh) | 基于td3的多无人机空战策略生成方法 | |
CN115951695A (zh) | 空战模拟环境中基于三方博弈的动态战术控制域解算方法 | |
CN116858039A (zh) | 一种高超声速飞行器博弈制导方法、系统、设备及介质 | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
CN114063644A (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
Duan et al. | Autonomous maneuver decision for unmanned aerial vehicle via improved pigeon-inspired optimization | |
Wang et al. | Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction | |
CN116661496B (zh) | 一种基于智能算法的多巡飞弹协同航迹规划方法 | |
CN110986948B (zh) | 一种基于奖励函数优化的多无人机分组协同判断方法 | |
Xiong et al. | Multi-uav 3d path planning in simultaneous attack | |
CN114372603A (zh) | 一种仿鸽群多学习智能的无人靶机协同航路动态规划方法 | |
Zhu et al. | Mastering air combat game with deep reinforcement learning | |
Yang et al. | Ballistic missile maneuver penetration based on reinforcement learning | |
Tianbo et al. | Reinforcement learning-based missile terminal guidance of maneuvering targets with decoys |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |