CN113095481B - 一种基于并行自我博弈的空战机动方法 - Google Patents

一种基于并行自我博弈的空战机动方法 Download PDF

Info

Publication number
CN113095481B
CN113095481B CN202110364109.3A CN202110364109A CN113095481B CN 113095481 B CN113095481 B CN 113095481B CN 202110364109 A CN202110364109 A CN 202110364109A CN 113095481 B CN113095481 B CN 113095481B
Authority
CN
China
Prior art keywords
red
blue
aerial vehicle
unmanned aerial
punishment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110364109.3A
Other languages
English (en)
Other versions
CN113095481A (zh
Inventor
李波
甘志刚
梁诗阳
高晓光
万开方
越凯强
杨志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110364109.3A priority Critical patent/CN113095481B/zh
Publication of CN113095481A publication Critical patent/CN113095481A/zh
Priority to US17/500,626 priority patent/US11794898B2/en
Application granted granted Critical
Publication of CN113095481B publication Critical patent/CN113095481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64CAEROPLANES; HELICOPTERS
    • B64C39/00Aircraft not otherwise provided for
    • B64C39/02Aircraft not otherwise provided for characterised by special use
    • B64C39/024Aircraft not otherwise provided for characterised by special use of the remote controlled vehicle type, i.e. RPV
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2101/00UAVs specially adapted for particular uses or applications
    • B64U2101/15UAVs specially adapted for particular uses or applications for conventional or electronic warfare

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Feedback Control In General (AREA)
  • Processing Or Creating Images (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平,增大决策模型作战成功率。

Description

一种基于并行自我博弈的空战机动方法
技术领域
本发明属于无人机技术领域,具体涉及一种空战机动方法。
背景技术
自主空战机动决策是指:基于数学优化、人工智能等方法,模拟各种空战态势下飞行员空战决策,自动生成对飞行器(包括有人、无人机等)操纵决策的过程。
按照方法的不同,常见的无人机机动决策可以分为传统方法以及智能方法。传统方法指采取专家知识、公式推导、影响图等方法来实现择优决策过程,这类方法更注重先验知识或数学运算,对于决策往往不具备自优化过程。智能方法指使用诸如遗传算法、贝叶斯、人工智能等具有自学习、自优化能力的智能方法来实现无人机的机动控制,这类方法一般可以根据态势目标自主达到策略的优化。
然而,在解决敌我对抗问题时,这些方法均为在单一确定环境下训练,智能体学习得到的策略模型会过于适应当前环境及态势,具有较弱的鲁棒性。当应用至新环境或改变自身初始态势,策略模型将无法准确选择合理的决策动作。若在面临新环境时从头学习,则会消耗大量的训练时间。
发明内容
为了克服现有技术的不足,本发明提供了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;:然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平,增大决策模型作战成功率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机机动模型;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
步骤S4:构建基于SAC算法的机动决策模型结构;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率。
进一步地,所述构建无人机机动模型的具体步骤包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,/>为无人机航向角变化量。
进一步地,所述步骤S2的具体步骤包括:
红蓝运动态势获取模型获取的作战双方的相对态势用d与q描述,其中,/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量/>与距离向量/>的夹角;
蓝方相对于红方的作战态势用d、qr表示,红方相对于蓝方的作战态势用/>d及qb表示;/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,/>表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角;
d、qr与qb的计算如下:
其中,为红方的位置向量,/>为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,/>为红方的航向角;/>为蓝方的位置向量,/>为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,/>为蓝方的航向角。
进一步地,所述步骤S3的具体步骤包括:
定义红方无人机状态空间为蓝方无人机状态空间为/>
红方无人机动作空间为蓝方无人机动作空间为/>
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,所述构建基于SAC算法的机动决策模型结构的具体步骤包括:
基于SAC算法的机动决策模型采用SAC方法生成红蓝双方机动控制量,用于红蓝双方机动;
SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络和/>两个Target Soft-Q网络/>和/>其中,θ,/>均表示对应网络的权重;
Actor神经网络πθ的输入为红方状态值或蓝方状态值/>输出为均值μ(μrb)和方差σ(σrb);噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作/>或蓝方动作/>并通过tanh函数将动作/>或/>限制在(-1,1)之间,动作生成过程如下所示:
Soft-Q神经网络和/>的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络/>和/>与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述步骤S5的具体步骤包括:
初始化多组作战双方时,初始位置在作战区域内,设定初始速度范围,初始俯仰角范围,初始航向角范围;
通过空战对抗实现并行自我博弈训练SAC算法的步骤为:
步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态及蓝方的初始状态/>
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重初始化策略网络πθ与两个Soft-Q网络/>令/>将/>作为网络权重初始化TargetSoft-Q网络/>
步骤S53:将红方状态输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作/>红方执行动作后获取新状态/>并根据步骤S3奖惩函数R获得奖惩值/>将蓝方状态/>输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作/>蓝方执行动作后获取新状态/>并根据步骤S3中奖惩函数R获得奖惩值/>将元组/>及元组/>存储至经验池M;
步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;
步骤S55:当经验池内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α;
步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,转至执行步骤S53;
步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51。
进一步地,所述步骤S6的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态
步骤S62:分别记录状态将状态/>输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作/>双方执行动作后获取新状态/>
步骤S63:判定作战是否成功,若是,则结束;否则令并转至执行步骤S62;
步骤S64:依据所记录的状态画出作战双方的作战轨迹;
步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;
步骤S66:计算num/n,即为最终的作战成功率,并以此表示决策模型的泛化能力。
进一步地,所述步骤S5中,设定初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
本发明的有益效果如下:
1、本发明在自我博弈过程引入多个战场环境,具有战场环境间样本与策略共享的特点,能够整体优化机动策略。
2、本发明的并行自我博弈算法能够有效提升敌我对抗水平,增大决策模型作战成功率。
附图说明
图1是本发明方法流程图。
图2是本发明方法的自我博弈原理图。
图3是本发明实施例的作战轨迹图。
图4是本发明实施例的作战成功率曲线。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于并行自我博弈的空战机动方法,包括以下步骤:
步骤S1:构建无人机机动模型;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
步骤S4:构建基于SAC算法的机动决策模型结构;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率。
进一步地,所述构建无人机机动模型的具体步骤包括:
敌我双方无人机通过无人机运动方程更新位置信息,实现机动,并将敌我双方信息提供给敌我态势获取模块用于计算相应态势。
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,/>为无人机航向角变化量。
进一步地,所述步骤S2的具体步骤包括:
红蓝运动态势获取模型可依据红蓝状态信息计算相对态势,并提供给基于深度强化学习方法的机动决策模块用于决策;
红蓝运动态势获取模型获取的作战双方的相对态势用d与q描述,其中,/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量/>与距离向量/>的夹角;
蓝方相对于红方的作战态势用d、qr表示,红方相对于蓝方的作战态势用/>d及qb表示;/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,/>表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角;
d、qr与qb的计算如下:
其中,为红方的位置向量,/>为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,/>为红方的航向角;/>为蓝方的位置向量,/>为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,/>为蓝方的航向角。
进一步地,所述步骤S3的具体步骤包括:
定义红方无人机状态空间为蓝方无人机状态空间为/>
红方无人机动作空间为蓝方无人机动作空间为/>
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,如图2所示,所述构建基于SAC算法的机动决策模型结构的具体步骤包括:
基于SAC算法的机动决策模型采用SAC方法生成红蓝双方机动控制量,用于红蓝双方机动;
SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络和/>两个Target Soft-Q网络/>和/>其中,θ,/>均表示对应网络的权重;
经验池M是一种经验回放缓存结构,用来专门存储强化学习中学习的经验。
Actor神经网络πθ的输入为红方状态值或蓝方状态值/>输出为均值μ(μrb)和方差σ(σrb);噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作/>或蓝方动作/>并通过tanh函数将动作/>或/>限制在(-1,1)之间,动作生成过程如下所示:
Soft-Q神经网络和/>的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络/>和/>与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述步骤S5的具体步骤包括:
初始化多组作战双方时,初始位置在作战区域内,初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
通过空战对抗实现并行自我博弈训练SAC算法的步骤为:
步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态及蓝方的初始状态/>
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重初始化策略网络πθ与两个Soft-Q网络/>令/>将/>作为网络权重初始化TargetSoft-Q网络/>
步骤S53:将红方状态输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作/>红方执行动作后获取新状态/>并根据步骤S3奖惩函数R获得奖惩值/>将蓝方状态/>输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作/>蓝方执行动作后获取新状态/>并根据步骤S3中奖惩函数R获得奖惩值rt b;将元组/>及元组/>存储至经验池M;
步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;
步骤S55:当经验池M内经验组数大于batch_size时,随机取出batch_size组经验,其中每组数据被重新定义为<st,at,st+1,r>,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α。针对Actor神经网络损失函数和Soft-Q神经网络的损失函数进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重。
双Soft-Q函数被定义为Target Soft-Q网络输出的最小值,因此有:
分别表示Target Soft-Q网络/>的输出目标Q值。
其中Actor神经网络损失函数定义如下:
Soft-Q神经网络的损失函数定义如下:
Target Soft-Q神经网络权重更新方式如下:
更新正则化系数α,损失函数为:
J(α)=E[-αlogπt(at|st)-αH0]
步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,转至执行步骤S53;
步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51。
进一步地,所述步骤S6的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态
步骤S62:分别记录状态将状态/>输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作/>双方执行动作后获取新状态/>
步骤S63:判定作战是否成功,若是,则结束;否则令并转至执行步骤S62;
步骤S64:依据所记录的状态画出作战双方的作战轨迹;
步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;
步骤S66:计算num/n,即为最终的作战成功率,并以此表示决策模型的泛化能力。
具体实施例:
实施例中,初始化多组作战双方时,作战区域为x∈[-6km,6km],y∈[3km,4km],z∈[-6km,6km],初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
导弹的最大攻击距离为6km,最小攻击距离为1km,导弹的最大离轴发射角为30°,w1=w2=0.5。
SAC算法模型的构建包括如下部分:SAC算法中Actor神经网络隐含层层数l=2,各层的节点个数n=256。优化算法为Adam算法、折扣因子γ=0.99、网络学习率lr=0.0003、熵的正则化系数α=1、目标熵值H0=-3。
定义并行自我博弈环境个数env_num=[2,4,6,8,10,12,14,16,18,20],定义训练样本组数batch_size=128,定义最大仿真步长N=800。
训练完成后,随机初始化作战双方,测试所训练算法,显示作战轨迹,如图3所示。图中显示,作战开始后,红蓝双方同时使用训练完成模型进行决策,均能够有效的近敌,实现对对方的攻击。
随机初始化200组作战双方,测试所训练算法,统计作战成功率随着并行自我博弈环境个数变化结果,如图4所示。图中显示,并行自我博弈训练时,随着博弈环境的增加,因为算法具有样本共享与策略共享的特点,模型能够综合学习到适用于所有作战环境的决策,避免过拟合,提升泛化能力,使得整体作战最优,也因此在新环境中能够达到更高的作战成功率。当并行博弈环境为12时,决策模型的泛化能力达到最高,可以实现69.15%的作战成功率。随着博弈环境个数的继续增加,环境产生的样本过于复杂,算法无法令所有环境中的智能体达到作战最优,因此丢失了一部分决策能力,使得作战成功率逐渐降低。
因此,本发明不仅能够有效实现无人机机动决策过程,同时能够提升模型的泛化能力,更加具有实用性。

Claims (2)

1.一种基于并行自我博弈的空战机动方法,其特征在于,包括以下步骤:
步骤S1:构建无人机机动模型;
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,/>为无人机航向角变化量;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
红蓝运动态势获取模型获取的作战双方的相对态势用d与q描述,其中,/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量/>与距离向量/>的夹角;
蓝方相对于红方的作战态势用d、qr表示,红方相对于蓝方的作战态势用/>d及qb表示;/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,/>表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角;
d、qr与qb的计算如下:
其中,为红方的位置向量,/>为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,/>为红方的航向角;/>为蓝方的位置向量,/>为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,/>为蓝方的航向角;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
定义红方无人机状态空间为蓝方无人机状态空间为
红方无人机动作空间为蓝方无人机动作空间为/>
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角;
步骤S4:构建基于SAC算法的机动决策模型结构;
基于SAC算法的机动决策模型采用SAC算法生成红蓝双方机动控制量,用于红蓝双方机动;
SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络和/>两个Target Soft-Q网络/>和/>其中,θ,/>均表示对应网络的权重;
Actor神经网络πθ的输入为红方状态值或蓝方状态值/>输出为均值μ(μrb)和方差σ(σrb);噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作/>或蓝方动作/>并通过tanh函数将动作/>或/>限制在(-1,1)之间,动作生成过程如下所示:
Soft-Q神经网络和/>的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络/>和/>与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
初始化多组作战双方时,初始位置在作战区域内,设定初始速度范围,初始俯仰角范围,初始航向角范围;
通过空战对抗实现并行自我博弈训练SAC算法的步骤为:
步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态及蓝方的初始状态/>
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重初始化策略网络πθ与两个Soft-Q网络/>令/>将/>作为网络权重初始化Target Soft-Q网络/>
步骤S53:将红方状态输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作/>红方执行动作后获取新状态/>并根据步骤S3奖惩函数R获得奖惩值rt r;将蓝方状态/>输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作/>蓝方执行动作后获取新状态/>并根据步骤S3中奖惩函数R获得奖惩值rt b;将元组/>及元组/>存储至经验池M;
步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;
步骤S55:当经验池内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α;
步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,转至执行步骤S53;
步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率;
步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态
步骤S62:分别记录状态将状态/>输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作/>双方执行动作后获取新状态/>
步骤S63:判定作战是否成功,若是,则结束;否则令并转至执行步骤S62;
步骤S64:依据所记录的状态画出作战双方的作战轨迹;
步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;
步骤S66:计算num/n,即为最终的作战成功率,并以此表示决策模型的泛化能力。
2.根据权利要求1所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述步骤S5中,设定初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
CN202110364109.3A 2021-04-03 2021-04-03 一种基于并行自我博弈的空战机动方法 Active CN113095481B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110364109.3A CN113095481B (zh) 2021-04-03 2021-04-03 一种基于并行自我博弈的空战机动方法
US17/500,626 US11794898B2 (en) 2021-04-03 2021-10-13 Air combat maneuvering method based on parallel self-play

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364109.3A CN113095481B (zh) 2021-04-03 2021-04-03 一种基于并行自我博弈的空战机动方法

Publications (2)

Publication Number Publication Date
CN113095481A CN113095481A (zh) 2021-07-09
CN113095481B true CN113095481B (zh) 2024-02-02

Family

ID=76673822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364109.3A Active CN113095481B (zh) 2021-04-03 2021-04-03 一种基于并行自我博弈的空战机动方法

Country Status (2)

Country Link
US (1) US11794898B2 (zh)
CN (1) CN113095481B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444255B (zh) * 2021-12-13 2023-10-03 西北工业大学 一种基于格斗过程的飞机空战能力通用计算方法
CN115185288B (zh) * 2022-05-27 2024-05-03 西北工业大学 一种基于sac算法的无人机分层飞行决策方法
CN116307251B (zh) * 2023-04-12 2023-09-19 哈尔滨理工大学 一种基于强化学习的工作排程优化方法
CN116187207B (zh) * 2023-04-25 2023-07-25 中国兵器科学研究院 一种陆战装备体系仿真评估方法、装置以及存储介质
CN116796505B (zh) * 2023-05-11 2024-02-20 中国人民解放军海军航空大学 一种基于示例策略约束的空战机动策略生成方法
CN116360503B (zh) * 2023-05-31 2023-10-13 北京航空航天大学 一种无人机博弈对抗策略生成方法、系统及电子设备
CN116861645B (zh) * 2023-06-27 2024-04-16 四川大学 基于非线性预测控制的飞行器超视距空战机动决策方法
CN116880186B (zh) * 2023-07-13 2024-04-16 四川大学 一种数据驱动的自适应动态规划空战决策方法
CN116993010B (zh) * 2023-07-28 2024-02-06 南通大学 一种基于贝叶斯神经网络的固定翼无人机态势预测方法
CN116991074A (zh) * 2023-08-28 2023-11-03 四川大学 一种智能权重下的近距空战机动决策优化方法
CN116909155B (zh) * 2023-09-14 2023-11-24 中国人民解放军国防科技大学 基于持续强化学习的无人机自主机动决策方法及装置
CN117162102A (zh) * 2023-10-30 2023-12-05 南京邮电大学 机器人联合行动的独立近端策略优化训练加速方法
CN117518836B (zh) * 2024-01-04 2024-04-09 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052511A (zh) * 2020-06-15 2020-12-08 成都蓉奥科技有限公司 一种基于深度随机博弈的空战机动策略生成技术
CN112269396A (zh) * 2020-10-14 2021-01-26 北京航空航天大学 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606411B2 (en) * 2006-10-05 2009-10-20 The United States Of America As Represented By The Secretary Of The Navy Robotic gesture recognition system
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US10140575B2 (en) * 2013-11-15 2018-11-27 Disney Enterprises, Inc. Sports formation retrieval
US10635950B2 (en) * 2017-03-17 2020-04-28 Nec Corporation Surveillance system for recognition in unlabeled videos with domain adversarial learning and knowledge distillation
US20220027798A1 (en) * 2020-07-24 2022-01-27 SparkCognition, Inc. Autonomous behaviors in a multiagent adversarial scene
DE112021001994T5 (de) * 2020-11-01 2023-01-19 Nvidia Corporation Modellbasiertes bestärkendes lernen zur verhaltensvorhersage in autonomen systemen und anwendungen

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052511A (zh) * 2020-06-15 2020-12-08 成都蓉奥科技有限公司 一种基于深度随机博弈的空战机动策略生成技术
CN112269396A (zh) * 2020-10-14 2021-01-26 北京航空航天大学 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"An adaptive dwell time scheduling model for phased array radar based on three-way decision";Li Bo et al.;《Journal of Systems Engineering and Electronics》;第31卷(第3期);全文 *
"基于网络负载均衡的无人作战系统跨云层任务分配方法";李波等;《指挥控制与仿真》;第40卷(第5期);全文 *

Also Published As

Publication number Publication date
US20220315219A1 (en) 2022-10-06
CN113095481A (zh) 2021-07-09
US11794898B2 (en) 2023-10-24

Similar Documents

Publication Publication Date Title
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN108549233B (zh) 一种带有直觉模糊信息的无人机空战机动博弈方法
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN108319132A (zh) 用于无人机空中对抗的决策系统及方法
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN113467508A (zh) 面向围捕任务的多无人机智能协同决策方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN111461294B (zh) 面向动态博弈的智能飞行器类脑认知学习方法
CN111240356A (zh) 一种基于深度强化学习的无人机集群会合方法
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN116136945A (zh) 一种基于反事实基线的无人机集群对抗博弈仿真方法
CN113625569A (zh) 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统
CN114967713A (zh) 基于强化学习的水下航行器浮力离散变化下的控制方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN116796844A (zh) 一种基于m2gpi的无人机一对一追逃博弈方法
CN116432539A (zh) 一种时间一致性协同制导方法、系统、设备及介质
Kong et al. Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning
CN115097861A (zh) 一种基于cel-maddpg的多无人机围捕策略方法
Lu et al. Strategy Generation Based on DDPG with Prioritized Experience Replay for UCAV

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant