CN113095481A - 一种基于并行自我博弈的空战机动方法 - Google Patents

一种基于并行自我博弈的空战机动方法 Download PDF

Info

Publication number
CN113095481A
CN113095481A CN202110364109.3A CN202110364109A CN113095481A CN 113095481 A CN113095481 A CN 113095481A CN 202110364109 A CN202110364109 A CN 202110364109A CN 113095481 A CN113095481 A CN 113095481A
Authority
CN
China
Prior art keywords
red
blue
square
unmanned aerial
aerial vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110364109.3A
Other languages
English (en)
Other versions
CN113095481B (zh
Inventor
李波
甘志刚
梁诗阳
高晓光
万开方
越凯强
杨志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110364109.3A priority Critical patent/CN113095481B/zh
Publication of CN113095481A publication Critical patent/CN113095481A/zh
Priority to US17/500,626 priority patent/US11794898B2/en
Application granted granted Critical
Publication of CN113095481B publication Critical patent/CN113095481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64CAEROPLANES; HELICOPTERS
    • B64C39/00Aircraft not otherwise provided for
    • B64C39/02Aircraft not otherwise provided for characterised by special use
    • B64C39/024Aircraft not otherwise provided for characterised by special use of the remote controlled vehicle type, i.e. RPV
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2101/00UAVs specially adapted for particular uses or applications
    • B64U2101/15UAVs specially adapted for particular uses or applications for conventional or electronic warfare

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Computer Hardware Design (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平,增大决策模型作战成功率。

Description

一种基于并行自我博弈的空战机动方法
技术领域
本发明属于无人机技术领域,具体涉及一种空战机动方法。
背景技术
自主空战机动决策是指:基于数学优化、人工智能等方法,模拟各种空战态势下飞行员空战决策,自动生成对飞行器(包括有人、无人机等)操纵决策的过程。
按照方法的不同,常见的无人机机动决策可以分为传统方法以及智能方法。传统方法指采取专家知识、公式推导、影响图等方法来实现择优决策过程,这类方法更注重先验知识或数学运算,对于决策往往不具备自优化过程。智能方法指使用诸如遗传算法、贝叶斯、人工智能等具有自学习、自优化能力的智能方法来实现无人机的机动控制,这类方法一般可以根据态势目标自主达到策略的优化。
然而,在解决敌我对抗问题时,这些方法均为在单一确定环境下训练,智能体学习得到的策略模型会过于适应当前环境及态势,具有较弱的鲁棒性。当应用至新环境或改变自身初始态势,策略模型将无法准确选择合理的决策动作。若在面临新环境时从头学习,则会消耗大量的训练时间。
发明内容
为了克服现有技术的不足,本发明提供了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;:然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平,增大决策模型作战成功率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机机动模型;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
步骤S4:构建基于SAC算法的机动决策模型结构;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率。
进一步地,所述构建无人机机动模型的具体步骤包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure BDA0003006709930000021
Figure BDA0003006709930000022
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure BDA0003006709930000023
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure BDA0003006709930000024
为无人机航向角变化量。
进一步地,所述步骤S2的具体步骤包括:
红蓝运动态势获取模型获取的作战双方的相对态势用
Figure BDA0003006709930000025
d与q描述,其中,
Figure BDA0003006709930000026
表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量
Figure BDA0003006709930000027
与距离向量
Figure BDA0003006709930000028
的夹角;
蓝方相对于红方的作战态势用
Figure BDA0003006709930000029
d、qr表示,红方相对于蓝方的作战态势用
Figure BDA00030067099300000210
d及qb表示;
Figure BDA00030067099300000211
表示红方与蓝方之间的位置向量,方向由红方指向蓝方,
Figure BDA00030067099300000212
表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角;
Figure BDA0003006709930000031
d、qr与qb的计算如下:
Figure BDA0003006709930000032
Figure BDA0003006709930000033
Figure BDA0003006709930000034
Figure BDA0003006709930000035
Figure BDA0003006709930000036
其中,
Figure BDA0003006709930000037
为红方的位置向量,
Figure BDA0003006709930000038
为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,
Figure BDA0003006709930000039
为红方的航向角;
Figure BDA00030067099300000310
为蓝方的位置向量,
Figure BDA00030067099300000311
为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,
Figure BDA00030067099300000312
为蓝方的航向角。
进一步地,所述步骤S3的具体步骤包括:
定义红方无人机状态空间为
Figure BDA00030067099300000313
蓝方无人机状态空间为
Figure BDA00030067099300000314
红方无人机动作空间为
Figure BDA00030067099300000315
蓝方无人机动作空间为
Figure BDA00030067099300000316
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Figure BDA00030067099300000317
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,所述构建基于SAC算法的机动决策模型结构的具体步骤包括:
基于SAC算法的机动决策模型采用SAC方法生成红蓝双方机动控制量,用于红蓝双方机动;
SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络
Figure BDA0003006709930000041
Figure BDA0003006709930000042
两个Target Soft-Q网络
Figure BDA0003006709930000043
Figure BDA0003006709930000044
其中,θ,
Figure BDA0003006709930000045
均表示对应网络的权重;
Actor神经网络πθ的输入为红方状态值
Figure BDA0003006709930000046
或蓝方状态值
Figure BDA0003006709930000047
输出为均值μ(μrb)和方差σ(σrb);噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作
Figure BDA0003006709930000048
或蓝方动作
Figure BDA0003006709930000049
并通过tanh函数将动作
Figure BDA00030067099300000410
Figure BDA00030067099300000411
限制在(-1,1)之间,动作生成过程如下所示:
Figure BDA00030067099300000412
Figure BDA00030067099300000413
Figure BDA00030067099300000414
Figure BDA00030067099300000415
Figure BDA00030067099300000416
Figure BDA00030067099300000417
Soft-Q神经网络
Figure BDA00030067099300000418
Figure BDA00030067099300000419
的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络
Figure BDA00030067099300000420
Figure BDA00030067099300000421
与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述步骤S5的具体步骤包括:
初始化多组作战双方时,初始位置在作战区域内,设定初始速度范围,初始俯仰角范围,初始航向角范围;
通过空战对抗实现并行自我博弈训练SAC算法的步骤为:
步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态
Figure BDA0003006709930000051
及蓝方的初始状态
Figure BDA0003006709930000052
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重
Figure BDA0003006709930000053
初始化策略网络πθ与两个Soft-Q网络
Figure BDA0003006709930000054
Figure BDA0003006709930000055
Figure BDA0003006709930000056
作为网络权重初始化TargetSoft-Q网络
Figure BDA0003006709930000057
步骤S53:将红方状态
Figure BDA0003006709930000058
输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作
Figure BDA0003006709930000059
红方执行动作后获取新状态
Figure BDA00030067099300000510
并根据步骤S3奖惩函数R获得奖惩值
Figure BDA00030067099300000511
将蓝方状态
Figure BDA00030067099300000512
输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作
Figure BDA00030067099300000513
蓝方执行动作后获取新状态
Figure BDA00030067099300000514
并根据步骤S3中奖惩函数R获得奖惩值
Figure BDA00030067099300000515
将元组
Figure BDA00030067099300000516
及元组
Figure BDA00030067099300000517
存储至经验池M;
步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;
步骤S55:当经验池内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α;
步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,
Figure BDA00030067099300000518
转至执行步骤S53;
步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51。
进一步地,所述步骤S6的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态
Figure BDA0003006709930000061
步骤S62:分别记录状态
Figure BDA0003006709930000062
将状态
Figure BDA0003006709930000063
输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作
Figure BDA0003006709930000064
双方执行动作后获取新状态
Figure BDA0003006709930000065
步骤S63:判定作战是否成功,若是,则结束;否则令
Figure BDA0003006709930000066
并转至执行步骤S62;
步骤S64:依据所记录的状态
Figure BDA0003006709930000067
画出作战双方的作战轨迹;
步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;
步骤S66:计算num/n,即为最终的作战成功率,并以此表示决策模型的泛化能力。
进一步地,所述步骤S5中,设定初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
本发明的有益效果如下:
1、本发明在自我博弈过程引入多个战场环境,具有战场环境间样本与策略共享的特点,能够整体优化机动策略。
2、本发明的并行自我博弈算法能够有效提升敌我对抗水平,增大决策模型作战成功率。
附图说明
图1是本发明方法流程图。
图2是本发明方法的自我博弈原理图。
图3是本发明实施例的作战轨迹图。
图4是本发明实施例的作战成功率曲线。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于并行自我博弈的空战机动方法,包括以下步骤:
步骤S1:构建无人机机动模型;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
步骤S4:构建基于SAC算法的机动决策模型结构;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率。
进一步地,所述构建无人机机动模型的具体步骤包括:
敌我双方无人机通过无人机运动方程更新位置信息,实现机动,并将敌我双方信息提供给敌我态势获取模块用于计算相应态势。
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure BDA0003006709930000071
Figure BDA0003006709930000072
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure BDA0003006709930000073
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure BDA0003006709930000074
为无人机航向角变化量。
进一步地,所述步骤S2的具体步骤包括:
红蓝运动态势获取模型可依据红蓝状态信息计算相对态势,并提供给基于深度强化学习方法的机动决策模块用于决策;
红蓝运动态势获取模型获取的作战双方的相对态势用
Figure BDA0003006709930000075
d与q描述,其中,
Figure BDA0003006709930000076
表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量
Figure BDA0003006709930000081
与距离向量
Figure BDA0003006709930000082
的夹角;
蓝方相对于红方的作战态势用
Figure BDA0003006709930000083
d、qr表示,红方相对于蓝方的作战态势用
Figure BDA0003006709930000084
d及qb表示;
Figure BDA0003006709930000085
表示红方与蓝方之间的位置向量,方向由红方指向蓝方,
Figure BDA0003006709930000086
表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角;
Figure BDA0003006709930000087
d、qr与qb的计算如下:
Figure BDA0003006709930000088
Figure BDA0003006709930000089
Figure BDA00030067099300000810
Figure BDA00030067099300000811
Figure BDA00030067099300000812
其中,
Figure BDA00030067099300000813
为红方的位置向量,
Figure BDA00030067099300000814
为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,
Figure BDA00030067099300000815
为红方的航向角;
Figure BDA00030067099300000816
为蓝方的位置向量,
Figure BDA00030067099300000817
为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,
Figure BDA00030067099300000818
为蓝方的航向角。
进一步地,所述步骤S3的具体步骤包括:
定义红方无人机状态空间为
Figure BDA00030067099300000819
蓝方无人机状态空间为
Figure BDA00030067099300000820
红方无人机动作空间为
Figure BDA00030067099300000821
蓝方无人机动作空间为
Figure BDA00030067099300000822
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Figure BDA0003006709930000091
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,如图2所示,所述构建基于SAC算法的机动决策模型结构的具体步骤包括:
基于SAC算法的机动决策模型采用SAC方法生成红蓝双方机动控制量,用于红蓝双方机动;
SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络
Figure BDA0003006709930000092
Figure BDA0003006709930000093
两个Target Soft-Q网络
Figure BDA0003006709930000094
Figure BDA0003006709930000095
其中,θ,
Figure BDA0003006709930000096
均表示对应网络的权重;
经验池M是一种经验回放缓存结构,用来专门存储强化学习中学习的经验。
Actor神经网络πθ的输入为红方状态值
Figure BDA0003006709930000097
或蓝方状态值
Figure BDA0003006709930000098
输出为均值μ(μrb)和方差σ(σrb);噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作
Figure BDA0003006709930000099
或蓝方动作
Figure BDA00030067099300000910
并通过tanh函数将动作
Figure BDA00030067099300000911
Figure BDA00030067099300000912
限制在(-1,1)之间,动作生成过程如下所示:
Figure BDA00030067099300000913
Figure BDA00030067099300000914
Figure BDA00030067099300000915
Figure BDA00030067099300000916
Figure BDA0003006709930000101
Figure BDA0003006709930000102
Soft-Q神经网络
Figure BDA0003006709930000103
Figure BDA0003006709930000104
的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络
Figure BDA0003006709930000105
Figure BDA0003006709930000106
与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述步骤S5的具体步骤包括:
初始化多组作战双方时,初始位置在作战区域内,初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
通过空战对抗实现并行自我博弈训练SAC算法的步骤为:
步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态
Figure BDA0003006709930000107
及蓝方的初始状态
Figure BDA0003006709930000108
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重
Figure BDA0003006709930000109
初始化策略网络πθ与两个Soft-Q网络
Figure BDA00030067099300001010
Figure BDA00030067099300001011
Figure BDA00030067099300001012
作为网络权重初始化TargetSoft-Q网络
Figure BDA00030067099300001013
步骤S53:将红方状态
Figure BDA00030067099300001014
输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作
Figure BDA00030067099300001015
红方执行动作后获取新状态
Figure BDA00030067099300001016
并根据步骤S3奖惩函数R获得奖惩值
Figure BDA00030067099300001017
将蓝方状态
Figure BDA00030067099300001018
输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作
Figure BDA00030067099300001019
蓝方执行动作后获取新状态
Figure BDA00030067099300001020
并根据步骤S3中奖惩函数R获得奖惩值rt b;将元组
Figure BDA00030067099300001021
及元组
Figure BDA00030067099300001022
存储至经验池M;
步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;
步骤S55:当经验池M内经验组数大于batch_size时,随机取出batch_size组经验,其中每组数据被重新定义为<st,at,st+1,r>,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α。针对Actor神经网络损失函数和Soft-Q神经网络的损失函数
Figure BDA0003006709930000111
进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重。
双Soft-Q函数被定义为Target Soft-Q网络
Figure BDA0003006709930000112
输出的最小值,因此有:
Figure BDA0003006709930000113
Figure BDA0003006709930000114
分别表示Target Soft-Q网络
Figure BDA0003006709930000115
的输出目标Q值。
其中Actor神经网络损失函数定义如下:
Figure BDA0003006709930000116
Soft-Q神经网络的损失函数
Figure BDA0003006709930000117
定义如下:
Figure BDA0003006709930000118
Target Soft-Q神经网络权重
Figure BDA0003006709930000119
更新方式如下:
Figure BDA00030067099300001110
Figure BDA00030067099300001111
更新正则化系数α,损失函数为:
J(α)=E[-αlogπt(at|st)-αH0]
步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,
Figure BDA00030067099300001112
转至执行步骤S53;
步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51。
进一步地,所述步骤S6的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态
Figure BDA00030067099300001113
步骤S62:分别记录状态
Figure BDA00030067099300001114
将状态
Figure BDA00030067099300001115
输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作
Figure BDA00030067099300001116
双方执行动作后获取新状态
Figure BDA00030067099300001117
步骤S63:判定作战是否成功,若是,则结束;否则令
Figure BDA00030067099300001118
并转至执行步骤S62;
步骤S64:依据所记录的状态
Figure BDA0003006709930000121
画出作战双方的作战轨迹;
步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;
步骤S66:计算num/n,即为最终的作战成功率,并以此表示决策模型的泛化能力。
具体实施例:
实施例中,初始化多组作战双方时,作战区域为x∈[-6km,6km],y∈[3km,4km],z∈[-6km,6km],初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
导弹的最大攻击距离为6km,最小攻击距离为1km,导弹的最大离轴发射角为30°,w1=w2=0.5。
SAC算法模型的构建包括如下部分:SAC算法中Actor神经网络隐含层层数l=2,各层的节点个数n=256。优化算法为Adam算法、折扣因子γ=0.99、网络学习率lr=0.0003、熵的正则化系数α=1、目标熵值H0=-3。
定义并行自我博弈环境个数env_num=[2,4,6,8,10,12,14,16,18,20],定义训练样本组数batch_size=128,定义最大仿真步长N=800。
训练完成后,随机初始化作战双方,测试所训练算法,显示作战轨迹,如图3所示。图中显示,作战开始后,红蓝双方同时使用训练完成模型进行决策,均能够有效的近敌,实现对对方的攻击。
随机初始化200组作战双方,测试所训练算法,统计作战成功率随着并行自我博弈环境个数变化结果,如图4所示。图中显示,并行自我博弈训练时,随着博弈环境的增加,因为算法具有样本共享与策略共享的特点,模型能够综合学习到适用于所有作战环境的决策,避免过拟合,提升泛化能力,使得整体作战最优,也因此在新环境中能够达到更高的作战成功率。当并行博弈环境为12时,决策模型的泛化能力达到最高,可以实现69.15%的作战成功率。随着博弈环境个数的继续增加,环境产生的样本过于复杂,算法无法令所有环境中的智能体达到作战最优,因此丢失了一部分决策能力,使得作战成功率逐渐降低。
因此,本发明不仅能够有效实现无人机机动决策过程,同时能够提升模型的泛化能力,更加具有实用性。

Claims (8)

1.一种基于并行自我博弈的空战机动方法,其特征在于,包括以下步骤:
步骤S1:构建无人机机动模型;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
步骤S4:构建基于SAC算法的机动决策模型结构;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率。
2.根据权利要求1所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述构建无人机机动模型的具体步骤包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure FDA0003006709920000011
Figure FDA0003006709920000012
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure FDA0003006709920000013
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure FDA0003006709920000014
为无人机航向角变化量。
3.根据权利要求2所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述步骤S2的具体步骤包括:
红蓝运动态势获取模型获取的作战双方的相对态势用
Figure FDA0003006709920000021
d与q描述,其中,
Figure FDA0003006709920000022
表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量
Figure FDA0003006709920000023
与距离向量
Figure FDA0003006709920000024
的夹角;
蓝方相对于红方的作战态势用
Figure FDA0003006709920000025
d、qr表示,红方相对于蓝方的作战态势用
Figure FDA0003006709920000026
d及qb表示;
Figure FDA0003006709920000027
表示红方与蓝方之间的位置向量,方向由红方指向蓝方,
Figure FDA0003006709920000028
表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角;
Figure FDA0003006709920000029
d、qr与qb的计算如下:
Figure FDA00030067099200000210
Figure FDA00030067099200000211
Figure FDA00030067099200000212
Figure FDA00030067099200000213
Figure FDA00030067099200000214
其中,
Figure FDA00030067099200000215
为红方的位置向量,
Figure FDA00030067099200000216
为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,
Figure FDA00030067099200000217
为红方的航向角;
Figure FDA00030067099200000218
为蓝方的位置向量,
Figure FDA00030067099200000219
为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,
Figure FDA00030067099200000220
为蓝方的航向角。
4.根据权利要求3所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述步骤S3的具体步骤包括:
定义红方无人机状态空间为
Figure FDA00030067099200000221
蓝方无人机状态空间为
Figure FDA00030067099200000222
红方无人机动作空间为
Figure FDA00030067099200000223
蓝方无人机动作空间为
Figure FDA00030067099200000224
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Figure FDA0003006709920000031
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
5.根据权利要求4所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述构建基于SAC算法的机动决策模型结构的具体步骤包括:
基于SAC算法的机动决策模型采用SAC方法生成红蓝双方机动控制量,用于红蓝双方机动;
SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络
Figure FDA0003006709920000032
Figure FDA0003006709920000033
两个Target Soft-Q网络
Figure FDA0003006709920000034
Figure FDA0003006709920000035
其中,θ,
Figure FDA0003006709920000036
均表示对应网络的权重;
Actor神经网络πθ的输入为红方状态值
Figure FDA0003006709920000037
或蓝方状态值
Figure FDA0003006709920000038
输出为均值μ(μrb)和方差σ(σrb);噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作
Figure FDA0003006709920000039
或蓝方动作
Figure FDA00030067099200000310
并通过tanh函数将动作
Figure FDA00030067099200000311
Figure FDA00030067099200000312
限制在(-1,1)之间,动作生成过程如下所示:
Figure FDA00030067099200000313
Figure FDA00030067099200000314
Figure FDA0003006709920000041
Figure FDA0003006709920000042
Figure FDA0003006709920000043
Figure FDA0003006709920000044
Soft-Q神经网络
Figure FDA0003006709920000045
Figure FDA0003006709920000046
的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络
Figure FDA0003006709920000047
Figure FDA0003006709920000048
与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
6.根据权利要求5所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述步骤S5的具体步骤包括:
初始化多组作战双方时,初始位置在作战区域内,设定初始速度范围,初始俯仰角范围,初始航向角范围;
通过空战对抗实现并行自我博弈训练SAC算法的步骤为:
步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态
Figure FDA0003006709920000049
及蓝方的初始状态
Figure FDA00030067099200000410
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重
Figure FDA00030067099200000411
初始化策略网络πθ与两个Soft-Q网络
Figure FDA00030067099200000412
Figure FDA00030067099200000413
Figure FDA00030067099200000414
作为网络权重初始化Target Soft-Q网络
Figure FDA00030067099200000415
步骤S53:将红方状态
Figure FDA00030067099200000416
输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作
Figure FDA00030067099200000417
红方执行动作后获取新状态
Figure FDA00030067099200000418
并根据步骤S3奖惩函数R获得奖惩值
Figure FDA00030067099200000419
将蓝方状态
Figure FDA00030067099200000420
输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作
Figure FDA00030067099200000421
蓝方执行动作后获取新状态
Figure FDA00030067099200000422
并根据步骤S3中奖惩函数R获得奖惩值
Figure FDA00030067099200000423
将元组
Figure FDA0003006709920000051
及元组
Figure FDA0003006709920000052
存储至经验池M;
步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;
步骤S55:当经验池内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α;
步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,
Figure FDA0003006709920000053
转至执行步骤S53;
步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51。
7.根据权利要求6所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述步骤S6的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态
Figure FDA0003006709920000054
步骤S62:分别记录状态
Figure FDA0003006709920000055
将状态
Figure FDA0003006709920000056
输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作
Figure FDA0003006709920000057
双方执行动作后获取新状态
Figure FDA0003006709920000058
步骤S63:判定作战是否成功,若是,则结束;否则令
Figure FDA0003006709920000059
并转至执行步骤S62;
步骤S64:依据所记录的状态
Figure FDA00030067099200000510
画出作战双方的作战轨迹;
步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;
步骤S66:计算num/n,即为最终的作战成功率,并以此表示决策模型的泛化能力。
8.根据权利要求7所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述步骤S5中,设定初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
CN202110364109.3A 2021-04-03 2021-04-03 一种基于并行自我博弈的空战机动方法 Active CN113095481B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110364109.3A CN113095481B (zh) 2021-04-03 2021-04-03 一种基于并行自我博弈的空战机动方法
US17/500,626 US11794898B2 (en) 2021-04-03 2021-10-13 Air combat maneuvering method based on parallel self-play

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364109.3A CN113095481B (zh) 2021-04-03 2021-04-03 一种基于并行自我博弈的空战机动方法

Publications (2)

Publication Number Publication Date
CN113095481A true CN113095481A (zh) 2021-07-09
CN113095481B CN113095481B (zh) 2024-02-02

Family

ID=76673822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364109.3A Active CN113095481B (zh) 2021-04-03 2021-04-03 一种基于并行自我博弈的空战机动方法

Country Status (2)

Country Link
US (1) US11794898B2 (zh)
CN (1) CN113095481B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444255A (zh) * 2021-12-13 2022-05-06 西北工业大学 一种基于格斗过程的飞机空战能力通用计算方法
CN115185288A (zh) * 2022-05-27 2022-10-14 西北工业大学 一种基于sac算法的无人机分层飞行决策方法
CN116880186A (zh) * 2023-07-13 2023-10-13 四川大学 一种数据驱动的自适应动态规划空战决策方法
CN116909155A (zh) * 2023-09-14 2023-10-20 中国人民解放军国防科技大学 基于持续强化学习的无人机自主机动决策方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307251B (zh) * 2023-04-12 2023-09-19 哈尔滨理工大学 一种基于强化学习的工作排程优化方法
CN116187207B (zh) * 2023-04-25 2023-07-25 中国兵器科学研究院 一种陆战装备体系仿真评估方法、装置以及存储介质
CN116796505B (zh) * 2023-05-11 2024-02-20 中国人民解放军海军航空大学 一种基于示例策略约束的空战机动策略生成方法
CN116360503B (zh) * 2023-05-31 2023-10-13 北京航空航天大学 一种无人机博弈对抗策略生成方法、系统及电子设备
CN116861645B (zh) * 2023-06-27 2024-04-16 四川大学 基于非线性预测控制的飞行器超视距空战机动决策方法
CN116993010B (zh) * 2023-07-28 2024-02-06 南通大学 一种基于贝叶斯神经网络的固定翼无人机态势预测方法
CN116991074A (zh) * 2023-08-28 2023-11-03 四川大学 一种智能权重下的近距空战机动决策优化方法
CN117162102A (zh) * 2023-10-30 2023-12-05 南京邮电大学 机器人联合行动的独立近端策略优化训练加速方法
CN117518836B (zh) * 2024-01-04 2024-04-09 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
US20180268203A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Face recognition system for face recognition in unlabeled videos with domain adversarial learning and knowledge distillation
CN112052511A (zh) * 2020-06-15 2020-12-08 成都蓉奥科技有限公司 一种基于深度随机博弈的空战机动策略生成技术
CN112269396A (zh) * 2020-10-14 2021-01-26 北京航空航天大学 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606411B2 (en) * 2006-10-05 2009-10-20 The United States Of America As Represented By The Secretary Of The Navy Robotic gesture recognition system
US10140575B2 (en) * 2013-11-15 2018-11-27 Disney Enterprises, Inc. Sports formation retrieval
US20220027798A1 (en) * 2020-07-24 2022-01-27 SparkCognition, Inc. Autonomous behaviors in a multiagent adversarial scene
WO2022094624A1 (en) * 2020-11-01 2022-05-05 Nvidia Corporation Model-based reinforcement learning for behavior prediction in autonomous systems and applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
US20180268203A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Face recognition system for face recognition in unlabeled videos with domain adversarial learning and knowledge distillation
CN112052511A (zh) * 2020-06-15 2020-12-08 成都蓉奥科技有限公司 一种基于深度随机博弈的空战机动策略生成技术
CN112269396A (zh) * 2020-10-14 2021-01-26 北京航空航天大学 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI BO ET AL.: ""An adaptive dwell time scheduling model for phased array radar based on three-way decision"", 《JOURNAL OF SYSTEMS ENGINEERING AND ELECTRONICS》, vol. 31, no. 3 *
李波等: ""基于网络负载均衡的无人作战系统跨云层任务分配方法"", 《指挥控制与仿真》, vol. 40, no. 5 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444255A (zh) * 2021-12-13 2022-05-06 西北工业大学 一种基于格斗过程的飞机空战能力通用计算方法
CN114444255B (zh) * 2021-12-13 2023-10-03 西北工业大学 一种基于格斗过程的飞机空战能力通用计算方法
CN115185288A (zh) * 2022-05-27 2022-10-14 西北工业大学 一种基于sac算法的无人机分层飞行决策方法
CN115185288B (zh) * 2022-05-27 2024-05-03 西北工业大学 一种基于sac算法的无人机分层飞行决策方法
CN116880186A (zh) * 2023-07-13 2023-10-13 四川大学 一种数据驱动的自适应动态规划空战决策方法
CN116880186B (zh) * 2023-07-13 2024-04-16 四川大学 一种数据驱动的自适应动态规划空战决策方法
CN116909155A (zh) * 2023-09-14 2023-10-20 中国人民解放军国防科技大学 基于持续强化学习的无人机自主机动决策方法及装置
CN116909155B (zh) * 2023-09-14 2023-11-24 中国人民解放军国防科技大学 基于持续强化学习的无人机自主机动决策方法及装置

Also Published As

Publication number Publication date
US20220315219A1 (en) 2022-10-06
US11794898B2 (en) 2023-10-24
CN113095481B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN113095481A (zh) 一种基于并行自我博弈的空战机动方法
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN113050686B (zh) 一种基于深度强化学习的作战策略优化方法及系统
CN115291625A (zh) 基于多智能体分层强化学习的多无人机空战决策方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN108319132A (zh) 用于无人机空中对抗的决策系统及方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN111461294B (zh) 面向动态博弈的智能飞行器类脑认知学习方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN112198892A (zh) 一种多无人机智能协同突防对抗方法
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
Yuan et al. Research on UCAV maneuvering decision method based on heuristic reinforcement learning
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN116796844A (zh) 一种基于m2gpi的无人机一对一追逃博弈方法
CN116243727A (zh) 一种渐进式深度强化学习的无人载具对抗与避障方法
Kong et al. Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning
CN114706418A (zh) 基于深度强化学习td3算法的无人机格斗自主决策方法
CN115097861A (zh) 一种基于cel-maddpg的多无人机围捕策略方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant