CN116501086A - 一种基于强化学习的飞行器自主规避决策方法 - Google Patents
一种基于强化学习的飞行器自主规避决策方法 Download PDFInfo
- Publication number
- CN116501086A CN116501086A CN202310474890.9A CN202310474890A CN116501086A CN 116501086 A CN116501086 A CN 116501086A CN 202310474890 A CN202310474890 A CN 202310474890A CN 116501086 A CN116501086 A CN 116501086A
- Authority
- CN
- China
- Prior art keywords
- aircraft
- decision
- network
- autonomous avoidance
- autonomous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 230000009471 action Effects 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 16
- 230000008901 benefit Effects 0.000 claims description 14
- 230000003993 interaction Effects 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012300 Sequence Analysis Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 230000015654 memory Effects 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013178 mathematical model Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Radar Systems Or Details Thereof (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于强化学习的飞行器自主规避决策方法,S1、建立自主规避决策博弈模型;S2、威胁目标轨迹预测网络;S3、飞行器自主规避决策算法;S4、验证算法的有效性。本发明采用上述步骤的一种基于强化学习的飞行器自主规避决策方法,该自主规避方法考虑了预测信息,设计了基于深度长短期记忆神经网络的轨迹预测算法,实现对威胁目标未来轨迹的预测,结合双延迟深度确定性策略梯度算法强化学习算法设计了具有连续动作空间的深度强化学习系统,有效提升了决策模型的收敛速度。
Description
技术领域
本发明涉及飞行器自主规避决策技术领域,特别是涉及一种基于强化学习的飞行器自主规避决策方法。
背景技术
高超声速飞行器通常具有经济性、高效性、安全性、强机动性等特点。随着现代信息技术和空间技术的发展,高超声速飞行器已逐渐成为未来空间攻防对抗、应对潜在空间冲突、维护国家安全等方面必不可缺的战略装备,是世界各国航空航天系统的重要研究方向。然而,随着飞行器任务与飞行环境的日益复杂,飞行器在执行任务过程中存在诸多不可预知的威胁或障碍,如雷达探测系统及其他飞行器的跟踪、拦截等。因此,研究飞行器自主规避决策方法,对保障飞行器的高效安全飞行,增强飞行器自主能力具有十分重要的意义。
目前飞行器自主机动决策的方法主要分为基于数学模型的传统方法和基于强化学习的人工智能方法。基于数学模型的传统方法包含微分对策法、影响图法、矩阵对策法等。然而,基于数学模型的理论方法进行飞行器规避决策设计时,均建立在离线规划数学模型的基础上,在实际复杂的博弈环境中,由于无法获得威胁目标的参数信息,飞行器无法在短时间内推导出威胁目标的弹道和制导方式,因此无法自主应对威胁目标的实时跟踪和拦截。
随着人工智能的发展,基于强化学习的人工智能方法可用于求解无模型非线性规划问题,具有求解速度比传统数学算法快的优势,逐渐成为飞行器自主决策领域的研究重点。然而,当前的决策理论研究大多集中在无人机等无人系统上,针对飞行器自主规避决策技术的研究还较少。
发明内容
本发明的目的是提供一种基于强化学习的飞行器自主规避决策方法,实现了飞行器的自主规避决策,有利于提高飞行器对潜在威胁的成功规避概率,保障飞行器的安全性。
为实现上述目的,本发明提供了一种基于强化学习的飞行器自主规避决策方法,S1、建立自主规避决策博弈模型:根据飞行器运动特性设计连续动作空间及状态空间,以完成规避任务为目标,综合全局环境的约束条件,考虑飞行器与威胁目标的相对位置以及与任务目标点的距离建立奖惩机制,设定最大化飞行器的总收益作为该博弈模型的性能指标函数;
S2、威胁目标轨迹预测网络:综合考虑飞行器与威胁目标行为之间的耦合性,设计两层LSTM网络学习特征间的长期依赖关系,采用通过时间的反向传播算法训练预测网络,预测威胁目标的未来轨迹;
S3、飞行器自主规避决策算法:设计基于双延迟深度确定性策略梯度算法的飞行器决策算法求解S1中自主规避决策模型的最优奖励函数值,结合S2中的预测信息,通过迭代更新飞行器决策网络与飞行器评价网络的权值,获得自主规避决策博弈模型的求解策略,实现飞行器自主规避决策;
S4、验证算法的有效性:基于“Python-Unity”交互模式搭建飞行器自主规避决策的虚拟仿真交互平台,验证飞行器自主规避算法的有效性。
优选的,S1中,将飞行器面向威胁目标的规避任务转化为博弈问题,并基于飞行器运动模型,建立面向飞行器规避任务的自主规避决策博弈模型,自主规避决策博弈模型包含六个基本要素:即参与者,状态空间,动作空间,折扣因子,状态转移函数以及奖励函数。
优选的,S1.1、参与者:飞行器和威胁目标;
S1.2、状态空间:考虑规避任务需求,将飞行器的状态信息、威胁目标的状态信息以及对威胁目标的预测信息作为飞行器面向规避任务的状态;
S1.3、动作空间:动作空间为飞行器攻角,倾侧角和推力;
S1.4、折扣因子:设定折扣因子为γ,γ∈[0,1]表示未来累积回报收益值相对于当前决策的重要程度;
S1.5、状态转移函数:将飞行器的运动学方程作为自主规避决策博弈模型的状态转移函数;
S1.6、奖励函数:为了减小飞行器自主规避决策行为对后续任务的影响,设置任务目标点以限制飞行器采取不合理的规避决策,考虑参与者双方相对位置、飞行器与任务目标点的距离建立奖惩机制,设定单步决策立即回报收益值和博弈模型的性能指标函数。
优选的,S2中,将飞行器与威胁目标的历史轨迹作为输入,通过数据处理、特征提取以及双层LSTM的时序分析,输出威胁目标的下一时刻动作。
优选的,S3中,S3.1、飞行器决策网络中最大化博弈过程的总收益;
S3.2、优化飞行器决策网络的权值;
S3.3、优化飞行器评价网络的权值;
S3.4、迭代更新飞行器决策网络和飞行器评价网络的权值。
优选的,S4中,飞行器每次与虚拟仿真交互平台的交互过程中,将当前时刻的状态信息、决策动作、单步决策立即回报收益值、以及下一时刻的状态信息以集合的方式存入到经验数据库当中。
因此,本发明采用上述步骤的一种基于强化学习的飞行器自主规避决策方法,其有益效果为:
1、本发明设计提出的自主规避方法考虑了威胁目标的行为对飞行器决策的影响,设计了基于深度长短期记忆神经网络(Long Short-Term Memory,LSTM)的轨迹预测算法,实现对威胁目标未来轨迹的预测,结合双延迟深度确定性策略梯度算法(Twin DelayedDeep Deterministic policy gradient algorithm,TD3)强化学习算法设计了具有连续动作空间的深度强化学习系统,有效提升了决策模型的收敛速度;
2、针对飞行器面临的飞行安全问题,给出了飞行器规避机动场景的任务描述,基于马尔可夫决策过程理论构建了面向飞行器规避任务的博弈模型;
3、考虑威胁目标的行为对飞行器决策的影响,综合考虑飞行器与威胁目标行为之间的耦合性,设计基于深度长短期记忆神经网络的轨迹预测算法,实现对威胁目标未来轨迹的预测;
4、基于预测信息与博弈模型,结合双延迟深度确定性策略梯度算法设计了飞行器决策算法,该决策方法依据神经网络的拟合能力具有很好的自主性,实现了飞行器的自主规避决策,有利于提高飞行器对潜在威胁的成功规避概率,保障飞行器的安全性;
5、通过仿真训练实现了飞行器的自主规避,有效提高了飞行器对潜在威胁的成功规避概率,增强了飞行器的自主性与安全性,对飞行器自主规避技术研究具有一定的参考价值。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是基于强化学习的飞行器自主规避决策方法结构图;
图2是预测网络与决策算法网络图;
图3是威胁目标轨迹预测仿真结果;
图4是奖励值变化曲线;
图5是飞行器自主规避决策仿真结果;
图6是飞行器控制量变化;
图7是威胁目标的过载变化。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
实施例1
S1、基于马尔可夫决策过程理论将飞行器面向威胁目标的规避任务转化为博弈问题,并依据飞行器运动模型,综合考虑飞行器的机动能力和博弈双方的状态信息,建立面向飞行器规避任务的博弈模型,设计该博弈模型的性能指标函数。
S1中,自主规避决策博弈模型包含六个基本要素:即参与者,状态空间,动作空间,折扣因子,状态转移函数以及奖励函数。
S1.1、参与者:设定飞行器为T,威胁目标为M。
S1.2、状态空间:考虑规避任务需求,将飞行器的状态信息、威胁目标的状态信息以及对威胁目标的预测信息作为飞行器面向规避任务的状态,设定状态空间为S,
其中,xT,yT,zT为飞行器的位置信息,vT,θT,为飞行器的速度、航迹角和航向角;xM,yM,zM为威胁目标的位置信息,vM,θM,/>为威胁目标的速度、航迹角、航向角;对威胁目标的预测信息。
S1.3、动作空间:动作空间为飞行器攻角,倾侧角和推力,设定动作空间为A,
a=[α,β,F]∈A
其中,α为飞行器攻角,β为倾侧角,F为推力。
S1.4、折扣因子:设定折扣因子为γ,γ∈[0,1]表示未来累积回报收益值相对于当前决策的重要程度,此处折扣因子γ=0.9。
S1.5、状态转移函数:将飞行器的运动学方程作为自主规避决策博弈模型的状态转移函数,设定状态转移函数为P,
其中,xT,yT,zT为地面坐标系下飞行器的位置信息,vT,θT,为飞行器的速度、航迹角和航向角,α为飞行器攻角,β为倾侧角,F为推力,σ为飞行器侧滑角,X、Y、Z分别为飞行器所受阻力、升力、侧向力。
假设威胁目标采用三维比例导引制导率接近飞行器,
其中,k1、k2为比例导引系数,rlos为威胁目标与飞行器的视距,表示视距变化率,/>表示视线高低角变化率,/>表示视线方位角变化率,n1为威胁目标的垂直面控制量,n2为威胁目标的水平面控制量;
得到威胁目标的运动学方程为:
其中,xM,yM,zM为威胁目标的位置信息,vM,θM,为威胁目标的速度、航迹角、航向角,g为重力加速度值。
S1.6、奖励函数:为了减小飞行器自主规避决策行为对后续任务的影响,本发明设置任务目标点以限制飞行器采取不合理的规避决策,考虑博弈双方相对位置、与目标点的相对位置建立奖惩机制。设定单步决策立即回报收益值为r,最大化飞行器的总收益为Q。
其中,dT为飞行器与威胁目标的距离,ρA为威胁目标的威胁半径,dend为飞行器与任务目标点的距离。
可知,飞行器距离威胁目标越近,则单步决策立即回报收益值越小;飞行器距离任务目标点越近,单步决策立即回报收益值越大。
为了实现飞行器的自主规避决策,设计以最大化飞行器的总收益Q为博弈过程的性能指标,优化目标为得到的Q越大。
其中,Q为飞行器在完整博弈π过程中获得的总收益,rt为t时刻飞行器获得的立即回报收益值。
S2中,如图2所示,针对威胁目标设置基于LSTM的预测网络。其中,输入为飞行器与威胁目标的历史轨迹,通过数据处理、特征提取以及双层LSTM的时序分析,输出威胁目标的下一时刻动作。
采用均方差函数作为LSTM训练过程的损失函数,采用通过时间的反向传播算法确定网络参数,由此实现对威胁目标未来信息的精准预测。
其中,n为每一回合中训练过程批量样本的个数,i∈[1,n]代表该批量样本中第i个样本,Pi表示神经网络输出的预测值,Oi为真实值。
S3中,如图2所示,本发明采用双延迟深度确定性策略梯度算法(Twin DelayedDeep Deterministic policy gradient algorithm,TD3)求解优化策略,以实现最大化飞行器的总收益。
S3.1、飞行器决策网络中最大化博弈过程的总收益
由于S2中通过改变网络参数实现优化,因此可将S1.6中Q的表达式描述为如下式所示,设定基于神经网络拟合的飞行器的总收益为
其中,为决策网络的权值,st为t时刻飞行器与威胁目标的状态信息,at为t时刻飞行器采取的决策动作,π(at|st)表示在状态st下依据当前网络参数/>输出动作值为at的概率,rt表示t时刻飞行器获得的立即回报收益值。
S3.2、优化飞行器决策网络的权值
飞行器决策网络通过最小化梯度优化该决策网络的权值,本发明基于贝尔曼方程与梯度下降方法梯度将/>进行如下表示:
其中,为梯度计算符号,Qπ(st,at,ε)为飞行器评价网络输出的估计Q值,ε为飞行器评价网络的权值。
S3.3、更新飞行器评价网络的权值
设置两个评价网络:飞行器评价网络1和飞行器评价网络2。利用均方差函数作为损失函数更新评价网络的权值参数,其目标是使Qπ(st,at,ε)近似Qπ(st,at),使得L(ε)获得最小值,飞行器评价网络1、飞行器评价网络2均以最小化L(ε)为目标进行更新。
L(ε)=E[(Qπ(st,at,ε)-Qπ(st,at))2]
其中,Qπ(st,at)表示真实值,可根据时间差分算法近似表示,Qπ(st,at,ε)为飞行器评价网络输出的估计Q值。
选择两个评价网络中最小的输出的估计Q值进行下式计算,
Q(st,at)=rt+γmin(Q1(s′t,a′t),Q2(s′t,a′t)}
其中,s′t,a′t为飞行器下一时刻的状态与动作,Q1(s′t,a′t)为飞行器评价网络1针对下一时刻状态估计的Q值,Q2(s′t,a′t)为飞行器评价网络2针对下一时刻状态估计的Q值,rt表示t时刻飞行器获得的立即回报收益值。
最终,通过梯度下降方法最小化梯度更新飞行器评价网络权值,
其中,Qπ(st,at)表示真实值,Qπ(st,at,ε)为飞行器评价网络输出的估计Q值。
S3.4、迭代更新飞行器决策网络和飞行器评价网络的权值
使用软更新方法更新目标决策网络和目标评价网络1以及目标评价网络2的参数,
ε1′←τε1+(1-τ)ε1′
ε2′←τε2+(1-τ)ε2′
其中,为目标决策网络的权值,19是飞行器决策网络的权值,ε1′为目标评价网络1的权值,ε2′为目标评价网络2的权值,ε1为飞行器评价网络1的权值,ε2为飞行器评价网络2的权值,τ为软更新系数。
S4中,飞行器每次与虚拟仿真交互平台的交互过程中,将当前时刻的状态信息、决策动作、单步决策立即回报收益值、以及下一时刻的状态信息以集合的方式存入到经验数据库当中。
在强化学习训练环节中,需要从经验数据库中提取数据,采用随机经验回放机制训练飞行器决策网络与评价网络。
实施例2
首先将飞行器的运动模型搭载在虚拟仿真交互平台中,并进行了仿真交互实验,主要仿真过程如下:
(1)参数设置
1)仿真场景参数设置:飞行器初始位置为,初始速度为1500m/s,威胁目标初始位置为,初始速度为1500m/s,威胁半径为100m,设置任务目标点位置为[2km,0,12km]。
2)预测算法参数设置:
预测网络特征提取层节点数:64;
预测网络LSTM层节点数:128;
预测网络输出节点数:3;
训练批量大小:512。
3)决策算法参数设置:
飞行器决策网络与飞行器评价网络学习率:1×10-3;
目标决策网络与目标评价网络的软更新率为:τ=5×10-3;
飞行器决策网络与目标决策网络全连接神经网络隐藏节点数:128;
飞行器决策网络与目标决策网络全连接神经网络输出节点数:3;
飞行器决策网络与目标决策网络激活函数(全连接层):tanh;
飞行器评价网络与目标评价网络全连接神经网络隐藏节点数:128;
飞行器评价网络与目标评价网络全连接神经网络输出节点数:3;
飞行器评价网络与目标评价网络激活函数(全连接层):relu;
训练批量大小:512。
(2)结果分析
在上述给定的条件下,获得的仿真结果如图3-图7所示。
图3为利用本发明提出的基于LSTM的威胁目标轨迹预测方法的仿真结果,可以看出,预测网络对未来时刻的预测轨迹与真实轨迹的趋势一致且偏差较小。
图4为采用决策算法在训练过程的奖励值变化图,本发明对比了考虑预测信息的决策算法与未考虑预测信息的决策算法的奖励值变化曲线。可以看出,网络在150回合后学会规避决策,而考虑预测信息的决策算法收敛速度更快。这说明提前感知对方态势对飞行器实现规避决策具有指导作用,这也与一般战场经验相符。
图5给出了飞行器自主规避决策的仿真结果,以时间为横坐标,分别以威胁目标的位置信息为纵坐标,通过与无机动和随机机动决策对比,可以看出本发明所设计的飞行器自主规避决策算法可以实现自主规避。
图6为飞行器自主规避过程的控制量输出。
图7为该过程中威胁目标的过载变化,可以看出,飞行器在接近威胁目标时通过拉大过载自主规避威胁,并且在规避过程中有效消耗了威胁目标的过载量。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (6)
1.一种基于强化学习的飞行器自主规避决策方法,其特征在于:
S1、建立自主规避决策博弈模型:根据飞行器运动特性设计连续动作空间及状态空间,以完成规避任务为目标,综合全局环境的约束条件,考虑飞行器与威胁目标的相对位置以及与任务目标点的距离建立奖惩机制,设定最大化飞行器的总收益作为该博弈模型的性能指标函数;
S2、威胁目标轨迹预测网络:综合考虑飞行器与威胁目标行为之间的耦合性,设计两层LSTM网络学习特征间的长期依赖关系,采用通过时间的反向传播算法训练预测网络,预测威胁目标的未来轨迹;
S3、飞行器自主规避决策算法:设计基于双延迟深度确定性策略梯度算法的飞行器决策算法求解S1中自主规避决策模型的最优奖励函数值,结合S2中的预测信息,通过迭代更新飞行器决策网络与飞行器评价网络的权值,获得自主规避决策博弈模型的求解策略,实现飞行器自主规避决策;
S4、验证算法的有效性:基于“Python-Unity”交互模式搭建飞行器自主规避决策的虚拟仿真交互平台,验证飞行器自主规避算法的有效性。
2.根据权利要求1所述的一种基于强化学习的飞行器自主规避决策方法,其特征在于:S1中,将飞行器面向威胁目标的规避任务转化为博弈问题,并基于飞行器运动模型,建立面向飞行器规避任务的自主规避决策博弈模型,自主规避决策博弈模型包含六个基本要素:即参与者,状态空间,动作空间,折扣因子,状态转移函数以及奖励函数。
3.根据权利要求2所述的一种基于强化学习的飞行器自主规避决策方法,其特征在于:S1.1、参与者:飞行器和威胁目标;
S1.2、状态空间:考虑规避任务需求,将飞行器的状态信息、威胁目标的状态信息以及对威胁目标的预测信息作为飞行器面向规避任务的状态;
S1.3、动作空间:动作空间为飞行器攻角,倾侧角和推力;
S1.4、折扣因子:设定折扣因子为γ,γ∈[0,1]表示未来累积回报收益值相对于当前决策的重要程度;
S1.5、状态转移函数:将飞行器的运动学方程作为自主规避决策博弈模型的状态转移函数;
S1.6、奖励函数:为了减小飞行器自主规避决策行为对后续任务的影响,设置任务目标点以限制飞行器采取不合理的规避决策,考虑参与者双方相对位置、飞行器与任务目标点的距离建立奖惩机制,设定单步决策立即回报收益值和博弈模型的性能指标函数。
4.根据权利要求1所述的一种基于强化学习的飞行器自主规避决策方法,其特征在于:S2中,将飞行器与威胁目标的历史轨迹作为输入,通过数据处理、特征提取以及双层LSTM的时序分析,输出威胁目标的下一时刻动作。
5.根据权利要求1所述的一种基于强化学习的飞行器自主规避决策方法,其特征在于:S3中,S3.1、飞行器决策网络中最大化博弈过程的总收益;
S3.2、优化飞行器决策网络的权值;
S3.3、优化飞行器评价网络的权值;
S3.4、迭代更新飞行器决策网络和飞行器评价网络的权值。
6.根据权利要求1所述的一种基于强化学习的飞行器自主规避决策方法,其特征在于:S4中,飞行器每次与虚拟仿真交互平台的交互过程中,将当前时刻的状态信息、决策动作、单步决策立即回报收益值、以及下一时刻的状态信息以集合的方式存入到经验数据库当中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310474890.9A CN116501086B (zh) | 2023-04-27 | 2023-04-27 | 一种基于强化学习的飞行器自主规避决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310474890.9A CN116501086B (zh) | 2023-04-27 | 2023-04-27 | 一种基于强化学习的飞行器自主规避决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116501086A true CN116501086A (zh) | 2023-07-28 |
CN116501086B CN116501086B (zh) | 2024-03-26 |
Family
ID=87317868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310474890.9A Active CN116501086B (zh) | 2023-04-27 | 2023-04-27 | 一种基于强化学习的飞行器自主规避决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501086B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117806364A (zh) * | 2023-12-22 | 2024-04-02 | 华中科技大学 | 航行器路径跟踪控制器的对抗学习架构、控制方法和装置 |
CN117806171A (zh) * | 2024-02-23 | 2024-04-02 | 西北工业大学 | 一种携带防御器的超高速飞行器智能协同博弈机动方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113050686A (zh) * | 2021-03-19 | 2021-06-29 | 北京航空航天大学 | 一种基于深度强化学习的作战策略优化方法及系统 |
CN113467508A (zh) * | 2021-06-30 | 2021-10-01 | 天津大学 | 面向围捕任务的多无人机智能协同决策方法 |
WO2021238303A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 运动规划的方法与装置 |
CN114048889A (zh) * | 2021-10-08 | 2022-02-15 | 天津大学 | 基于长短期记忆网络的飞行器轨迹预测的方法 |
CN114330651A (zh) * | 2021-12-14 | 2022-04-12 | 中国运载火箭技术研究院 | 面向多要素联合指控的分层多智能体增强学习方法 |
CN114415735A (zh) * | 2022-03-31 | 2022-04-29 | 天津大学 | 面向动态环境的多无人机分布式智能任务分配方法 |
CN115291625A (zh) * | 2022-07-15 | 2022-11-04 | 同济大学 | 基于多智能体分层强化学习的多无人机空战决策方法 |
CN115392119A (zh) * | 2022-08-20 | 2022-11-25 | 西安翔腾微电子科技有限公司 | 一种基于深度强化学习的空战对抗智能计算系统及方法 |
CN115469663A (zh) * | 2022-09-15 | 2022-12-13 | 中国科学技术大学 | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 |
-
2023
- 2023-04-27 CN CN202310474890.9A patent/CN116501086B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021238303A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 运动规划的方法与装置 |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113050686A (zh) * | 2021-03-19 | 2021-06-29 | 北京航空航天大学 | 一种基于深度强化学习的作战策略优化方法及系统 |
CN113467508A (zh) * | 2021-06-30 | 2021-10-01 | 天津大学 | 面向围捕任务的多无人机智能协同决策方法 |
CN114048889A (zh) * | 2021-10-08 | 2022-02-15 | 天津大学 | 基于长短期记忆网络的飞行器轨迹预测的方法 |
CN114330651A (zh) * | 2021-12-14 | 2022-04-12 | 中国运载火箭技术研究院 | 面向多要素联合指控的分层多智能体增强学习方法 |
CN114415735A (zh) * | 2022-03-31 | 2022-04-29 | 天津大学 | 面向动态环境的多无人机分布式智能任务分配方法 |
CN115291625A (zh) * | 2022-07-15 | 2022-11-04 | 同济大学 | 基于多智能体分层强化学习的多无人机空战决策方法 |
CN115392119A (zh) * | 2022-08-20 | 2022-11-25 | 西安翔腾微电子科技有限公司 | 一种基于深度强化学习的空战对抗智能计算系统及方法 |
CN115469663A (zh) * | 2022-09-15 | 2022-12-13 | 中国科学技术大学 | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 |
Non-Patent Citations (2)
Title |
---|
RUILONG ZHANG: "Multi-UAV Pursuit-Evasion Game With Online Motion Planning by Deep Reinforcement Learning", IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, vol. 34, no. 10, 14 February 2022 (2022-02-14), pages 7900 - 7909, XP011950951, DOI: 10.1109/TNNLS.2022.3146976 * |
赵毓: "多智能体系统自主规避任务决策方法研究", 中国博士学位论文全文数据库工程科技Ⅱ辑, no. 2, pages 031 - 37 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117806364A (zh) * | 2023-12-22 | 2024-04-02 | 华中科技大学 | 航行器路径跟踪控制器的对抗学习架构、控制方法和装置 |
CN117806364B (zh) * | 2023-12-22 | 2024-05-28 | 华中科技大学 | 航行器路径跟踪控制器的对抗学习架构、控制方法和装置 |
CN117806171A (zh) * | 2024-02-23 | 2024-04-02 | 西北工业大学 | 一种携带防御器的超高速飞行器智能协同博弈机动方法 |
CN117806171B (zh) * | 2024-02-23 | 2024-05-24 | 西北工业大学 | 一种携带防御器的超高速飞行器智能协同博弈机动方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116501086B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116501086B (zh) | 一种基于强化学习的飞行器自主规避决策方法 | |
Yang et al. | UAV air combat autonomous maneuver decision based on DDPG algorithm | |
Xu et al. | Optimized multi-UAV cooperative path planning under the complex confrontation environment | |
Huang et al. | Multi-model cooperative task assignment and path planning of multiple UCAV formation | |
CN113467508B (zh) | 面向围捕任务的多无人机智能协同决策方法 | |
CN114048889B (zh) | 基于长短期记忆网络的飞行器轨迹预测的方法 | |
CN113095481A (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
Wei et al. | Recurrent MADDPG for object detection and assignment in combat tasks | |
CN112947592A (zh) | 一种基于强化学习的再入飞行器轨迹规划方法 | |
CN116661503B (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
Pope et al. | Hierarchical reinforcement learning for air combat at DARPA's AlphaDogfight trials | |
CN113962012A (zh) | 无人机对抗策略优化方法及装置 | |
Li et al. | Autonomous air combat decision‐making of UAV based on parallel self‐play reinforcement learning | |
Zhang et al. | Hybrid FWPS cooperation algorithm based unmanned aerial vehicle constrained path planning | |
Wang et al. | Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction | |
Liang et al. | Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network | |
Wu et al. | Heterogeneous mission planning for multiple uav formations via metaheuristic algorithms | |
Duan et al. | Autonomous maneuver decision for unmanned aerial vehicle via improved pigeon-inspired optimization | |
Shi et al. | Optimal trajectories of multi-UAVs with approaching formation for target tracking using improved Harris Hawks optimizer | |
CN116432539A (zh) | 一种时间一致性协同制导方法、系统、设备及介质 | |
Han et al. | Ground threat prediction-based path planning of unmanned autonomous helicopter using hybrid enhanced artificial bee colony algorithm | |
Ximeng et al. | Trajectory prediction of target aircraft in air combat based on ga-oif-elman neural network | |
Wei et al. | UCAV formation online collaborative trajectory planning using hp adaptive pseudospectral method | |
CN115097861A (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |