CN113741186A - 一种基于近端策略优化的双机空战决策方法 - Google Patents
一种基于近端策略优化的双机空战决策方法 Download PDFInfo
- Publication number
- CN113741186A CN113741186A CN202110964269.1A CN202110964269A CN113741186A CN 113741186 A CN113741186 A CN 113741186A CN 202110964269 A CN202110964269 A CN 202110964269A CN 113741186 A CN113741186 A CN 113741186A
- Authority
- CN
- China
- Prior art keywords
- enemy
- plane
- strategy
- machine
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005457 optimization Methods 0.000 title claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 78
- 238000013528 artificial neural network Methods 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000008901 benefit Effects 0.000 claims abstract description 11
- 230000006378 damage Effects 0.000 claims description 26
- 238000013459 approach Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000004088 simulation Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000002787 reinforcement Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于近端策略优化的双机空战决策方法,首先分别构建无人机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;然后建立无人机对战的飞机模型和导弹模型,接下来将无人机所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;将我机和敌机的状态信息归一化后,将信息打包成四元组存入经验池中;当经验池的数据量达到所设定的最小训练数据量时,对价值神经网络和策略神经网络进行训练,更新我机和敌机的动作选取策略;最终得到训练好的我机和敌机的策略神经网络和价值神经网络。本发明方法收敛性强、实时性好,且具有一定的鲁棒性,具有较好的可行性。
Description
技术领域
本发明属于无人机技术领域,具体涉及一种双机空战决策方法。
背景技术
在当今的信息化智能化时代,无人机的应用领域越来越广泛,除了应用于地质勘探、巡检、航拍等民用领域,也越来越多地被应用于侦察监视、预警、电子对抗、补给运输和歼击轰炸等军事目的。随着无人机所要执行的任务越来越复杂,无人机操作手工作的任务量和复杂度都大幅增加。为减轻操作手的工作负担并提升无人机工作效率,市场对于无人机的智能化程度要求越来越高,希望无人机能够独自完成多种复杂的任务。空战决策是其中最为复杂的任务。
空战战术决策方法大致归纳为传统基于规则的非学习策略和基于智能算法的自我学习策略两种。基于规则的非学习策略主要是根据空战格斗中既定的行为规则来进行机动动作的选择,决策形成过程中没有基于数据的训练、优化自身策略的过程。自我学习的空战决策方法核心是基于一些智能算法进行空战决策的建模和优化,通过自身的经验来优化自身决策模型的结构和参数。其中,深度强化学习方法既关注了短期的利益,又考虑到了长远的回报,所选出来的动作具有较强的合理性和实时性,对于环境也有一定的自适应性,相比于其他算法具有明显的优势。
深度强化学习是机器学习的重要分支,是由Minsky,Lee M于1954年提出的一种仿生算法。强化学习算法通过智能体不断与环境进行交互试错得到奖励或惩罚,然后根据所得的奖励或惩罚改进动作选择策略,从而进行学习。深度强化学习将深度学习和强化学习相结合,通过引入神经网络解决了复杂系统中数据量过大的问题。在多种深度强化学习算法中,近端策略优化算法(Proximal Policy Optimization,PPO)既解决了策略梯度算法(Policy Gradient)中步长选取困难的问题,又解决了由此带来的优化策略差的问题,是目前效果最好的算法之一。
发明内容
为了克服现有技术的不足,本发明提供了一种基于近端策略优化的双机空战决策方法,首先分别构建无人机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;然后建立无人机对战的飞机模型和导弹模型,接下来将无人机所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;将我机和敌机的状态信息归一化后,将信息打包成四元组存入经验池中;当经验池的数据量达到所设定的最小训练数据量时,对价值神经网络和策略神经网络进行训练,更新我机和敌机的动作选取策略;最终得到训练好的我机和敌机的策略神经网络和价值神经网络。本发明方法收敛性强、实时性好,且具有一定的鲁棒性,具有较好的可行性。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:将无人机对战双方分为我方和敌方,我方无人机为我机,敌方无人机为敌机;分别构建我机与敌机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;
步骤2:建立无人机对战的飞机模型和导弹模型,在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角,并在导弹模型中设定所携带的导弹数量以及空战环境大小;
步骤3:我机和敌机分别将自身所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;
步骤4:将我机和敌机的状态信息归一化后,与在步骤3选择的动作和得到的回报打包成四元组<st,at,st+1,rt+1>存入经验池中,st表示当前状态,st+1表示下一时刻状态,at表示当前状态选择的动作,rt+1表示下一时刻状态得到的回报;
步骤5:重复步骤3和步骤4,当经验池的数据量达到所设定的最小训练数据量时,从经验池中采样一批次样本,将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;然后再将我机和敌机各自的状态信息分别输入至各自的策略神经网络中,并结合价值神经网络中的优势函数对我机和敌机的策略神经网络进行训练,更新我机和敌机的动作选取策略;
步骤6:重复步骤3至步骤5,直至达到训练结束条件,得到训练好的我机和敌机的策略神经网络和价值神经网络。
步骤7:我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。
进一步地,所述步骤2的具体步骤如下:
步骤2-1:建立无人机的六自由度运动方程如式(1),即飞机模型;
表1七种不同的机动动作指令对应的编码方式
则无人机状态更新的计算表示为:
st+1=f(st,ar,ab) (2)
式中,ar和br分别表示单步决策中我机和敌机所选择的机动动作,f(.)表示依据式(1)的运动学微分方程构建的状态更新函数;
步骤2-2:建立导弹模型;
导弹模型包括导弹攻击区模型和敌机击毁概率P;
步骤2-2-1:导弹攻击区模型;
当满足条件式(3)时,敌机进入我方导弹攻击区:
Areaack={Pos(Target)|d<DMmaxMmax} (3)
其中,Areaack表示导弹攻击区,ATA表示偏离角,Pos(Target)表示敌机位置,d表示敌机与我机的距离;
将我方导弹攻击区分为5个部分,定义如下:
步骤2-2-2:敌机击毁概率;
步骤2-2-2-1:设定我机和敌机的相对位置如下:
其中,Δx、Δy、Δz分别表示敌机与我机在x轴方向、y轴方向和z轴方向的距离差,xb、yb、zb分别表示敌机在x轴方向、y轴方向和z轴方向的位置,xr、yr、zr分别表示我机在x轴方向、y轴方向和z轴方向的位置;
其中,vx、vy分别表示飞机速度在x轴和y轴的投影;
步骤2-2-2-6:考虑敌机与我机高度差对敌机击毁概率的影响,最终敌机击毁概率Ph=KhP,其中Kh为:
其中,Δh表示敌机与我机高度差。
进一步地,所述步骤5的具体步骤如下:
步骤5-1:将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;价值神经网络中的优势函数如下:
其中表示第j架无人机在t时刻的优势函数,表示第i架无人机在t时刻的状态,i=1,2;表示第i架无人机在t时刻的选取的动作,γ表示折扣因子,表示第j架无人机在t时刻的状态值函数,表示第j架无人机在t-1时刻的状态值函数;表示第j架无人机在t时刻的回报;
步骤5-2:将我机和敌机各自的状态信息输入至各自的策略神经网络中,策略神经网络更新目标函数LCPI(.)为:
其中,表示求期望,表示第i架无人机根据当前的动作选取策略θi在状态下选择动作ai的概率,表示第i架无人机根据之前的动作选取策略θi,old在状态下选择动作ai的概率,表示优势函数,a′k表示在k时刻选择的动作,π′k表示在k时刻的动作选取策略,表示在k时刻的状态;
将新的动作选取策略于旧的动作选取策略进行比较,并对动作选取策略进行裁剪,更新获得新的动作选取策略,最终策略更新目标函数L(θ)如下:
其中表示求期望,πθ(at|st)表示根据当前的动作选取策略θ在状态st下选择动作ai的概率,表示根据之前的动作选取策略θold在状态st下选择动作ai的概率,clip(.)表示裁剪函数,表示优势函数。
本发明的有益效果如下:
1、本发明方法有效解决了双机空战决策算法中存在的计算量大,战场态势变化快等问题。
2、本发明方法将近端策略优化算法和集中式训练、分布式执行架构相结合,解决了1v1空战决策中实时对抗、动作持续性、搜索空间大和任务复杂度高等问题。
3、本发明所形成的基于近端策略优化的双机空战决策方法中模块化程度高可以实现快速移植,包括了战场环境模块、飞机模块、导弹模块以及奖励函数模块。
4、本发明能够实现1v1实时空战决策,并且可以根据不同的场景单独训练,且该算法具有良好的输入输出接口。
附图说明
图1为本发明基于近端策略优化的双机空战决策方法框架。
图2为本发明方法基本空战机动示意图。
图3为本发明方法攻击区横截面示意图。
图4为本发明实施例敌我双方初始位置设定图。
图5为本发明实施例敌我双方速度变化图。
图6为本发明实施例敌我双方高度变化图。
图7为本发明实施例敌我双方距离变化图。
图8为本发明实施例敌我双方奖励变化图。
图9为本发明实施例敌我双方偏离角变化图。
图10为本发明实施例敌我双方脱离角变化图。
图11为本发明实施例敌我双方轨迹图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
双机空战对抗属于博弈论中的零和博弈问题,针对此问题,本发明提供了一种基于近端策略优化的双机空战决策算法,通过我机和敌机不断与环境进行交互得到回报,然后用得到的回报训练动作策略神经网络从而优化敌我双方的动作选取策略,最终敌我双方无人机可以通过训练完成的神经网络在空战中实时选取合理的动作指令来进行双机空战。
如图1所示,一种基于近端策略优化的双机空战决策方法,包括如下步骤:
步骤1:将无人机对战双方分为我方和敌方,我方无人机为我机,敌方无人机为敌机;分别构建我机与敌机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;
步骤2:初始化环境模块,在环境模块中建立无人机对战的飞机模型和导弹模型,在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角,并在导弹模型中设定所携带的导弹数量以及空战环境大小;
步骤3:我机和敌机分别将自身所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;
步骤4:将我机和敌机的状态信息归一化后,与在步骤3选择的动作和得到的回报打包成四元组<st,at,st+1,rt+1>存入经验池中;
步骤5:重复步骤3和步骤4,当经验池的数据量达到所设定的最小训练数据量时,从经验池中采样一批次样本,将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;然后再将我机和敌机各自的状态信息分别输入至各自的策略神经网络中,并结合价值神经网络中的优势函数对我机和敌机的策略神经网络进行训练,更新我机和敌机的动作选取策略;
步骤6:重复步骤3至步骤5,直至达到训练结束条件,得到训练好的我机和敌机的策略神经网络和价值神经网络。
步骤7:在步骤2中设定好的初始环境下,我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。
进一步地,所述步骤2的具体步骤如下:
步骤2-1:建立无人机的六自由度运动方程如式(1),即飞机模型;
表1七种不同的机动动作指令对应的编码方式
图2展示了无人机在飞行过程中所能采用的基本机动,其中1为定常飞行、2为加速、3为减速、4为左转弯、5为右转弯、6为拉起、7为俯冲。
则无人机状态更新的计算表示为:
st+1=f(st,ar,ab) (2)
式中,ar和br分别表示单步决策中我机和敌机所选择的机动动作,f(.)表示依据式(1)的运动学微分方程构建的状态更新函数;结合四阶龙格-库塔微分方程数值解方法求得飞行器速度、三维空间坐标值、俯仰角和偏航角的一阶微分,在状态st下,给定双方机动动作结合仿真时间单位Δt即可计算出新状态st+1,相比于直接数值计算的欧拉法精度更高。在任意时刻的某个系统状态下,三元组表示某一方无人机的机动动作输入。除了基本的飞行轨迹,无人机通过连续多步的机动控制可以实现一些较复杂的战术轨迹;
步骤2-2:建立导弹模型;
导弹模型包括导弹攻击区模型和敌机击毁概率P;
步骤2-2-1:导弹攻击区模型;
当满足条件式(3)时,敌机进入我方导弹攻击区:
Areaack={Pos(Target)|dt<DMmaxMmax} (3)
如图3所示,将我方导弹攻击区分为5个部分,定义如下:
步骤2-2-2:敌机击毁概率;
步骤2-2-2-1:设定我机和敌机的相对位置如下:
步骤2-2-2-2:当且DM min<d<DMk min时,敌机处于攻击区的①区,此时敌机的速度方向如果与我机一致,即脱离角此时目标机越靠近不可逃逸区,被击中的概率加大,当AA=0时,命中概率较大,相反,目标机会逃出攻击区,命中的概率较小,与距离则是线性关系,两机距离越近,目标机被命中的概率越小,则敌机的击毁概率为:
步骤2-2-2-3:当且DM min<d<DM max且时,敌机处于攻击区的②区,此时目标机的速度方向对命中概率有很大的影响,若目标机向敌机的方向飞行,则接近不可逃逸区,命中概率会被加大,相反,则会更快逃离攻击区,规避导弹的进攻。当目标机相对远离我机时,当飞机沿着攻击区的切线方向时,可以更快逃离攻击区,此时与目标机机动相关联的击毁概率最小,当目标机相对靠近我机时,当飞机沿着攻击区的切线方向时,更接近不可逃逸区,此时与目标机机动相关联的击毁概率最大,与距离相关联的击毁概率则是越接近攻击区的最大或者最小攻击距离则越小,而在这种情况下,机动能力对击毁概率的影响肯定要大于距离对击毁概率的影响。
步骤2-2-2-4:当且DM min<d<DM max且敌机处于攻击区的③区,此时目标机的速度方向对命中概率有很大的影响,若目标机向敌机的方向飞行,则接近不可逃逸区,命中概率会被加大,相反,则会更快逃离攻击区,规避导弹的进攻。当目标机相对远离我机时,当飞机沿着攻击区的切线方向时,可以更快逃离攻击区,此时与目标机机动相关联的击毁概率最小,当目标机相对靠近我机时,当飞机沿着攻击区的切线方向时,更接近不可逃逸区,此时与目标机机动相关联的击毁概率最大,与距离相关联的击毁概率则是越接近攻击区的最大或者最小攻击距离则越小,而在这种情况下,机动能力对击毁概率的影响肯定要大于距离对击毁概率的影响。
步骤2-2-2-5:当且DMk max<d<DM max,敌机处于攻击区的④区,此时敌机的速度方向如果与我机一致,即此时目标机越远离不可逃逸区,被击中的概率减小,当AA=0时,命中概率最小,相反,目标机会接近不可逃逸区,命中的概率加大,与距离则是线性关系,两机距离越近,目标机被命中的概率越小。敌机的击毁概率如下:
步骤2-2-2-5:当且DMk min<d<DMk max时,敌机处于攻击区的⑤区,此时目标机处于攻击区中的不可逃逸区,无论目标做出任种机动,即AA无论为何值,目标机都无法规避导弹的攻击,此时目标机处于攻击区中的不可逃逸区,此时敌机的击毁概率P为1;
步骤2-2-2-6:考虑高度差对敌机击毁概率的影响,设计了高度对目标击毁概率的影响,如果将高度直接以加法的形式加入目标击毁概率中,无法显示高度对导弹带来的重要影响,所以采取乘法的形式,最终敌机击毁概率Ph=KhP,其中Kh为:
Kh∈[0.7,1.3],本机高度过高或者高度低于目标机都会导致目标击毁概率降低。
进一步地,所述步骤5的具体步骤如下:
步骤5-1:将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;价值神经网络中的优势函数如下:
其中表示第j架无人机在t时刻的优势函数,表示第i架无人机在t时刻的状态,i=1,2;表示第i架无人机在t时刻的选取的动作,γ表示折扣因子,表示第j架无人机在t时刻的状态值函数,表示第j架无人机在t-1时刻的状态值函数;
其中,S为最小训练数据量的大小,θi表示第i架无人机当前的动作选取策略;
步骤5-2:将我机和敌机各自的状态信息输入至各自的策略神经网络中,策略神经网络更新目标函数LCPI(.)为:
将新的动作选取策略于旧的动作选取策略进行比较,并对动作选取策略进行裁剪,更新获得新的动作选取策略,最终策略更新目标函数L(θ)如下:
具体实施例:
如图4所示,研究设定当敌我双方xy平面内距离差为50km时,我机在敌机之上,高度差为2km,此时我机的初始位置为[-50000m,0m,5000m],速度为100m/s,俯仰角和偏航角为[0rad,0rad]。敌机的初始位置为[0m,0m,3000m],速度为100m/s,俯仰角和偏航角为[0rad,0rad]。基于上述仿真条件,对所设计的算法进行仿真验证,进行1000次仿真,仿真结果如表2所示。
表2仿真结果
情况 | 次数 |
我机胜 | 1000 |
敌机胜 | 0 |
选取一种我机获胜的情况进行详细说明,具体仿真结果如图5-图11所示。
从图5-图11的仿真结果可以看出,实线代表我机,虚线代表敌机。
我机选取的动作序列是['acc','acc','acc','acc','acc','acc','acc','acc','acc','acc','right','acc','left','right','acc','left','right','acc','acc','acc','left','acc','right','acc','acc','acc','acc','left','acc','acc','acc','slow','slow','acc','acc','acc','right','left','left','acc','acc','acc','slow','acc','acc']。
敌机选取的动作序列是['acc','acc','acc','acc','acc','acc','right','acc','right','acc','left','left','right','acc','acc','acc','left','acc','right','acc','acc','left','acc','right','acc','acc','acc','left','acc','acc','acc','acc','acc','left','acc','acc','left','left','left','left','acc','acc','acc','left','acc']。
由速度变化图可以看敌我双方都率先选择加速,在接近最大速度350m/s后,由于我机拥有高度和角度上巨大的优势,逼迫敌机选择了转弯的动作来扭转角度劣势和高度劣势,因此我机夺得了速度上的优势,并且保持了高度上的优势,最终我机处于态势上的巨大优势,并将敌机置于己方的攻击区中,我机此时的导弹命中率为47.9%,我机发射导弹成功命中敌机。
综合各个仿真结果以及实际试飞定位结果,证明了本发明所设计的基于近端策略优化的双机空战决策算法设计与实现方法的有效性,能够成功对双机进行训练优化策略,最后敌我双方飞机都能根据己方飞机的状态和预测到的对方飞机的状态和选择的动作,选择合适的动作,引导飞机取得空战的胜利。
Claims (3)
1.一种基于近端策略优化的双机空战决策方法,其特征在于,包括以下步骤:
步骤1:将无人机对战双方分为我方和敌方,我方无人机为我机,敌方无人机为敌机;分别构建我机与敌机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;
步骤2:建立无人机对战的飞机模型和导弹模型,在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角,并在导弹模型中设定所携带的导弹数量以及空战环境大小;
步骤3:我机和敌机分别将自身所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;
步骤4:将我机和敌机的状态信息归一化后,与在步骤3选择的动作和得到的回报打包成四元组<st,at,st+1,rt+1>存入经验池中,st表示当前状态,st+1表示下一时刻状态,at表示当前状态选择的动作,rt+1表示下一时刻状态得到的回报;
步骤5:重复步骤3和步骤4,当经验池的数据量达到所设定的最小训练数据量时,从经验池中采样一批次样本,将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;然后再将我机和敌机各自的状态信息分别输入至各自的策略神经网络中,并结合价值神经网络中的优势函数对我机和敌机的策略神经网络进行训练,更新我机和敌机的动作选取策略;
步骤6:重复步骤3至步骤5,直至达到训练结束条件,得到训练好的我机和敌机的策略神经网络和价值神经网络。
步骤7:我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。
2.根据权利要求1所述的一种基于近端策略优化的双机空战决策方法,其特征在于,所述步骤2的具体步骤如下:
步骤2-1:建立无人机的六自由度运动方程如式(1),即飞机模型;
表1七种不同的机动动作指令对应的编码方式
则无人机状态更新的计算表示为:
st+1=f(st,ar,ab) (2)
式中,ar和br分别表示单步决策中我机和敌机所选择的机动动作,f(.)表示依据式(1)的运动学微分方程构建的状态更新函数;
步骤2-2:建立导弹模型;
导弹模型包括导弹攻击区模型和敌机击毁概率P;
步骤2-2-1:导弹攻击区模型;
当满足条件式(3)时,敌机进入我方导弹攻击区:
Areaack={Pos(Target)|d<DMmaxMmax} (3)
其中,Areaack表示导弹攻击区,ATA表示偏离角,Pos(Target)表示敌机位置,d表示敌机与我机的距离;
将我方导弹攻击区分为5个部分,定义如下:
步骤2-2-2:敌机击毁概率;
步骤2-2-2-1:设定我机和敌机的相对位置如下:
其中,Δx、Δy、Δz分别表示敌机与我机在x轴方向、y轴方向和z轴方向的距离差,xb、yb、zb分别表示敌机在x轴方向、y轴方向和z轴方向的位置,xr、yr、zr分别表示我机在x轴方向、y轴方向和z轴方向的位置;
其中,vx、vy分别表示飞机速度在x轴和y轴的投影;
步骤2-2-2-6:考虑敌机与我机高度差对敌机击毁概率的影响,最终敌机击毁概率Ph=KhP,其中Kh为:
其中,Δh表示敌机与我机高度差。
3.根据权利要求2所述的一种基于近端策略优化的双机空战决策方法,其特征在于,所述步骤5的具体步骤如下:
步骤5-1:将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;价值神经网络中的优势函数如下:
其中表示第j架无人机在t时刻的优势函数,表示第i架无人机在t时刻的状态,i=1,2;表示第i架无人机在t时刻的选取的动作,γ表示折扣因子,Vt j(.)表示第j架无人机在t时刻的状态值函数,表示第j架无人机在t-1时刻的状态值函数;表示第j架无人机在t时刻的回报;
其中,S为最小训练数据量的大小,θi表示第i架无人机当前的动作选取策略;Vi θ表示更新动作选取策略之后的状态值函数,Vt targetθ表示动作选取策略更新之前的状态值函数;
步骤5-2:将我机和敌机各自的状态信息输入至各自的策略神经网络中,策略神经网络更新目标函数LCPI(.)为:
其中,表示求期望,表示第i架无人机根据当前的动作选取策略θi在状态下选择动作ai的概率,表示第i架无人机根据之前的动作选取策略θi,old在状态下选择动作ai的概率,表示优势函数,a′k表示在k时刻选择的动作,π′k表示在k时刻的动作选取策略,表示在k时刻的状态;
将新的动作选取策略于旧的动作选取策略进行比较,并对动作选取策略进行裁剪,更新获得新的动作选取策略,最终策略更新目标函数L(θ)如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110964269.1A CN113741186B (zh) | 2021-08-22 | 2021-08-22 | 一种基于近端策略优化的双机空战决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110964269.1A CN113741186B (zh) | 2021-08-22 | 2021-08-22 | 一种基于近端策略优化的双机空战决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113741186A true CN113741186A (zh) | 2021-12-03 |
CN113741186B CN113741186B (zh) | 2023-08-18 |
Family
ID=78732118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110964269.1A Active CN113741186B (zh) | 2021-08-22 | 2021-08-22 | 一种基于近端策略优化的双机空战决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113741186B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116736729A (zh) * | 2023-08-14 | 2023-09-12 | 成都蓉奥科技有限公司 | 一种抗感知误差的视距内空战机动策略生成方法 |
CN116893690A (zh) * | 2023-07-25 | 2023-10-17 | 西安爱生技术集团有限公司 | 一种基于强化学习的无人机躲避攻击输入数据计算方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407596A (zh) * | 2016-10-11 | 2017-02-15 | 中国人民解放军军械工程学院 | 防空导弹命中毁伤过程建模仿真方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN112906233A (zh) * | 2021-03-08 | 2021-06-04 | 中国人民解放军国防科技大学 | 基于认知行为知识的分布式近端策略优化方法及其应用 |
CN113093802A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
CN113282061A (zh) * | 2021-04-25 | 2021-08-20 | 南京大学 | 一种基于课程学习的无人机空中博弈对抗的解决方法 |
-
2021
- 2021-08-22 CN CN202110964269.1A patent/CN113741186B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407596A (zh) * | 2016-10-11 | 2017-02-15 | 中国人民解放军军械工程学院 | 防空导弹命中毁伤过程建模仿真方法 |
CN112906233A (zh) * | 2021-03-08 | 2021-06-04 | 中国人民解放军国防科技大学 | 基于认知行为知识的分布式近端策略优化方法及其应用 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113093802A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
CN113282061A (zh) * | 2021-04-25 | 2021-08-20 | 南京大学 | 一种基于课程学习的无人机空中博弈对抗的解决方法 |
Non-Patent Citations (5)
Title |
---|
JAEWOONG YOO: "Deep Reinforcement Learning-based Intelligent Agent for Autonomous Air Combat", 《2022 IEEE/AIAA 41ST DIGITAL AVIONICS SYSTEMS CONFERENCE (DASC)》 * |
WENXUE CHEN: "Proximal policy optimization guidance algorithm for intercepting near-space maneuvering targets", 《AEROSPACE SCIENCE AND TECHNOLOGY》 * |
傅莉等: "战机空战决策方法及分析", 《沈阳航空航天大学学报》 * |
吴宜珈: "强化学习算法在超视距空战辅助决策上的应用研究", 《航空兵器》 * |
顾佼佼: "基于攻击区和杀伤概率的视距内空战态势评估", 《系统工程与电子技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116893690A (zh) * | 2023-07-25 | 2023-10-17 | 西安爱生技术集团有限公司 | 一种基于强化学习的无人机躲避攻击输入数据计算方法 |
CN116736729A (zh) * | 2023-08-14 | 2023-09-12 | 成都蓉奥科技有限公司 | 一种抗感知误差的视距内空战机动策略生成方法 |
CN116736729B (zh) * | 2023-08-14 | 2023-10-27 | 成都蓉奥科技有限公司 | 一种抗感知误差的视距内空战机动策略生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113741186B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113589842B (zh) | 一种基于多智能体强化学习的无人集群任务协同方法 | |
CN113791634B (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
CN111240353B (zh) | 基于遗传模糊树的无人机协同空战决策方法 | |
CN105678030B (zh) | 基于专家系统和战术战法分形化的空战战术团队仿真方法 | |
CN114063644B (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN112906233B (zh) | 基于认知行为知识的分布式近端策略优化方法及其应用 | |
CN113741186A (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN114460959A (zh) | 一种基于多体博弈的无人机群协同自主决策方法及装置 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
Li et al. | Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
Chen et al. | Design and verification of UAV maneuver decision simulation system based on deep q-learning network | |
Kong et al. | Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat | |
CN115047907B (zh) | 一种基于多智能体ppo算法的空中同构编队指挥方法 | |
CN116796844A (zh) | 一种基于m2gpi的无人机一对一追逃博弈方法 | |
CN116432030A (zh) | 一种基于深度强化学习的空战多意图策略自主生成方法 | |
CN116225065A (zh) | 多智能体强化学习的多自由度模型的无人机协同追捕方法 | |
Kong et al. | Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning | |
CN115457809A (zh) | 对面支援场景下基于多智能体强化学习的航迹规划方法 | |
Lu et al. | Strategy Generation Based on DDPG with Prioritized Experience Replay for UCAV | |
Guopeng et al. | Research on Path planning of Three-Dimensional UAV Based on Levy Flight Strategy and Improved Particle Swarm Optimization Algorithm | |
Wang et al. | Research on naval air defense intelligent operations on deep reinforcement learning | |
CN116679742B (zh) | 一种多六自由度飞行器协同作战决策方法 | |
CN113962012B (zh) | 无人机对抗策略优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |