CN113093803B - 一种基于e-sac算法的无人机空战运动控制方法 - Google Patents

一种基于e-sac算法的无人机空战运动控制方法 Download PDF

Info

Publication number
CN113093803B
CN113093803B CN202110364108.9A CN202110364108A CN113093803B CN 113093803 B CN113093803 B CN 113093803B CN 202110364108 A CN202110364108 A CN 202110364108A CN 113093803 B CN113093803 B CN 113093803B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
angle
expert
plane
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110364108.9A
Other languages
English (en)
Other versions
CN113093803A (zh
Inventor
李波
甘志刚
梁诗阳
高晓光
万开方
越凯强
杨志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110364108.9A priority Critical patent/CN113093803B/zh
Publication of CN113093803A publication Critical patent/CN113093803A/zh
Application granted granted Critical
Publication of CN113093803B publication Critical patent/CN113093803B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • G05D1/1064Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones specially adapted for avoiding collisions with other aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于E‑SAC算法的无人机空战运动控制方法,首先构建无人机运动模型,获取无人机自身的状态及敌机的相对状态,组成总状态,然后构建SAC算法模型并进行训练,最后根据无人机机动模型,采用SAC算法模型实现机动,直至实现对敌机的攻击。本发明通过专家经验样本在前期驱动训练,使得算法全局收敛,能够获取更快的作战效率。

Description

一种基于E-SAC算法的无人机空战运动控制方法
技术领域
本发明属于无人机技术领域,具体涉及一种无人机空战运动控制方法。
背景技术
随着智能算法应用的层出不穷,学者与研究人员意识到“人工智能+无人机”的组合将会产生更多高级、新型、有效的空战策略,能够改变未来战场的作战模式。
近些年来,国内外已出现研究使用深度强化学习算法进行无人机运动控制,如Q-learning、DQN、DDPG算法。然而这些方法在训练过程中,算法收敛速度较慢,训练训练较低,极易陷入局部最优决策,无法获得全局最优的无人机自主机动决策,不能满足空战对抗机动决策的要求。
发明内容
为了克服现有技术的不足,本发明提供了一种基于E-SAC算法的无人机空战运动控制方法,首先构建无人机运动模型,获取无人机自身的状态及敌机的相对状态,组成总状态,然后构建SAC算法模型并进行训练,最后根据无人机机动模型,采用SAC算法模型实现机动,直至实现对敌机的攻击。本发明通过专家经验样本在前期驱动训练,使得算法全局收敛,能够获取更快的作战效率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机运动模型;
步骤S2:获取无人机自身的状态及敌机的相对状态,组成总状态s;
步骤S3:构建SAC算法模型并进行训练;
步骤S31:构建SAC算法模型,构建奖励函数R;
步骤S32:建立专家决策方法,获取专家动作控制量,提取专家经验样本,获得专家经验池Me
步骤S33:将总状态s输入SAC算法模型并输出动作控制量a,无人机执行动作后获取下一时刻状态s'及奖励值r,将元组<s,a,s′,r>存储至SAC算法模型的经验池M;
步骤S34:使用专家经验池Me和SAC算法经验池M中数据对SAC算法模型进行训练,直至算法模型收敛;
步骤S4:根据步骤S1中的无人机机动模型,无人机采用SAC算法模型实现机动,直至实现对敌机的攻击。
进一步地,所述步骤S1中构建无人机运动模型的步骤具体包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure GDA0003774845870000021
Figure GDA0003774845870000022
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure GDA0003774845870000023
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure GDA0003774845870000024
为无人机航向角变化量。
进一步地,所述步骤S2中获取无人机自身的状态及敌机的相对状态,组成总状态s的具体步骤包括:
Figure GDA0003774845870000025
表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量
Figure GDA0003774845870000026
与距离向量
Figure GDA0003774845870000027
的夹角;无人机与敌机相对态势数据用
Figure GDA0003774845870000028
d与q描述:
Figure GDA0003774845870000029
Figure GDA00037748458700000210
Figure GDA00037748458700000211
其中,
Figure GDA00037748458700000212
为无人机在三维空间坐标系的位置向量,
Figure GDA00037748458700000213
为速度向量,
Figure GDA0003774845870000031
为敌机在三维空间坐标系的位置向量;
无人机的自身状态包括无人机三维空间坐标系下的位置分量[Xr,Yr,Zr],无人机速度大小vr,无人机俯仰角θr,无人机航向角
Figure GDA0003774845870000032
无人机与敌机的相对状态包括相对距离d及相对方位角q;总状态
Figure GDA0003774845870000033
动作控制量a为
Figure GDA0003774845870000034
进一步地,所述步骤S31中构建SAC算法模型,构建奖励函数R的具体步骤包括:
步骤S31-1:SAC算法模型通过神经网络来实现,包含SAC算法经验池M,一个Actor神经网络πθ、两个Soft-Q神经网络
Figure GDA0003774845870000035
Figure GDA0003774845870000036
两个Target Soft-Q网络
Figure GDA0003774845870000037
Figure GDA0003774845870000038
其中,θ,
Figure GDA0003774845870000039
均表示不同的网络权重;
步骤S31-2:奖励函数R的构建如下:
R=w1*Rd+w2*Ra
Rd1=-d/(5*Dmax)
Figure GDA00037748458700000310
Rd=Rd1+Rd2
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rd为距离奖惩函数,Rq为角度奖惩函数,w1,w2为距离奖惩与角度奖惩的权重;Rd1为连续距离奖惩值,Rd2为稀疏距离奖惩值,Dmin为无人机所载导弹的最小攻击距离,Dmax为无人机所载导弹的最大攻击距离,Rq1表示连续角度奖惩值,Rq2表示稀疏角度奖惩值,qmax表示无人机所载导弹的最大离轴发射角。
进一步地,所述步骤S32中建立专家决策方法,获取专家动作控制量的具体步骤包括:
设无人机速度、航向角与俯仰角的增量分别控制在[-△v0,△v0]、
Figure GDA00037748458700000311
[-△θ0,△θ0]范围内,专家动作控制量包括速度、俯仰角、航向角的变化量,计算过程如下:
Figure GDA0003774845870000041
Figure GDA0003774845870000042
Figure GDA0003774845870000043
其中,△X,△Y,△Z分别表示敌机相对于无人机的位置向量分量,
Figure GDA0003774845870000044
表示位置向量
Figure GDA0003774845870000045
在XOZ平面上投影向量的航向角,Dθ表示位置向量
Figure GDA0003774845870000046
与XOZ平面间的夹角;
令Δv为敌机和无人机速度之差,△v=vb-vr,则速度的变化量dv为:
Figure GDA0003774845870000047
Figure GDA0003774845870000048
则航向角的变化量
Figure GDA0003774845870000049
为:
Figure GDA00037748458700000410
Figure GDA00037748458700000411
则俯仰角的变化量dθ为:
Figure GDA00037748458700000412
其中,dv,dθ,
Figure GDA00037748458700000413
分别表示速度、俯仰角、航向角的变化量;
进一步地,所述步骤S32中提取专家经验样本,获得专家经验池Me的步骤具体包括:
步骤S32-1:定义需提取样本的环境个数n,令i=1;
步骤S32-2:在作战区域内初始化第i组无人机及敌机,获取状态se
步骤S32-3:依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量,并定义为动作ae
步骤S32-4:执行动作ae,获得新的作战状态s′e,同时计算得到奖惩值re
步骤S32-5:元组<se,ae,se′,re>即为专家经验样本,将样本存储至专家经验池Me
步骤S32-6:判定是否作战成功,若成功则i加1;否则执行步骤S32-3至S32-6;
步骤S32-7:判定i是否小于n,若i<n则执行步骤S32-2至S32-7;否则结束;
步骤S32-8:获得所存储的专家经验样本池。
进一步地,所述步骤S34中对SAC算法模型进行训练的步骤具体包括:
步骤S34-1:定义批量处理数据大小为batch_size,定义提供专家样本数据训练步数expert_step;
步骤S34-2:随机生成Actor网络权重θ,Soft-Q网络权重
Figure GDA0003774845870000051
初始化Actor网络πθ与两个Soft-Q网络
Figure GDA0003774845870000052
Figure GDA0003774845870000053
Figure GDA0003774845870000054
作为网络权重初始化TargetSoft-Q网络
Figure GDA0003774845870000055
步骤S34-3:判定SAC算法模型经验池M内经验组数是否小于expert_step,若为是,则从专家经验池Me中随机取出n1组经验,n1=batch_size,对SAC算法中神经网络权重进行更新;若为否,则从专家经验池Me中随机取出n1组经验,从SAC算法经验池M中取出n2组经验,令n2=batch_size-n1,对SAC算法中神经网络权重进行更新。
进一步地,所述batch_size=256,expert_step=2e5。
本发明的有益效果如下:
1、本发明借助少量专家经验增加样本的多样性,能够有效提升强化学习的探索与利用效率,加速算法的收敛过程。
2、本发明通过专家经验样本在前期驱动训练,使得算法全局收敛,能够获取更快的作战效率。
附图说明
图1是本发明的方法流程图。
图2是本发明实施例的无人机与敌机位置及相关参数图。
图3是本发明方法的SAC算法模型结构图。
图4是本发明实施例的无人机导弹攻击区示意图。
图5是本发明实施例无人机作战轨迹图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明考虑到专家知识样本对深度强化学习算法的引导作用,以专家数据为驱动进行训练,能够快速的实现算法训练的全局收敛,解决了算法的局部收敛问题,得到全局最优决策模型。
如图1所示,一种基于E-SAC算法的无人机空战运动控制方法,包括以下步骤:
步骤S1:在三维空间中,无人机具有位置、速度和姿态等物理描述量;据此构建无人机运动模型;
步骤S2:获取无人机自身的状态及敌机的相对状态,组成总状态s;
步骤S3:构建SAC算法模型并进行训练;
步骤S31:构建SAC算法模型,构建奖励函数R;
步骤S32:建立专家决策方法,获取专家动作控制量,提取专家经验样本,获得专家经验池Me
步骤S33:将总状态s输入SAC算法模型并输出动作控制量a,无人机执行动作后获取下一时刻状态s'及奖励值r,将元组<s,a,s′,r>存储至SAC算法模型的经验池M;
步骤S34:使用专家经验池Me和SAC算法经验池M中数据对SAC算法模型进行训练,直至算法模型收敛;
步骤S4:根据步骤S1中的无人机机动模型,无人机采用SAC算法模型实现机动,直至实现对敌机的攻击。
进一步地,所述步骤S1中构建无人机运动模型的步骤具体包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure GDA0003774845870000071
Figure GDA0003774845870000072
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure GDA0003774845870000073
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure GDA0003774845870000074
为无人机航向角变化量。
进一步地,所述步骤S2中获取无人机自身的状态及敌机的相对状态,组成总状态s的具体步骤包括:
Figure GDA0003774845870000075
表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量
Figure GDA0003774845870000076
与距离向量
Figure GDA0003774845870000077
的夹角;无人机与敌机相对态势数据用
Figure GDA0003774845870000078
d与q描述:
Figure GDA0003774845870000079
Figure GDA00037748458700000710
Figure GDA00037748458700000711
其中,
Figure GDA00037748458700000712
为无人机在三维空间坐标系的位置向量,
Figure GDA00037748458700000713
为速度向量,vr为无人机速度大小,θr为无人机俯仰角,
Figure GDA00037748458700000714
为无人机航向角;
Figure GDA00037748458700000715
为敌机在三维空间坐标系的位置向量,
Figure GDA00037748458700000716
为速度向量,vb为敌机速度大小,θb为敌机俯仰角,
Figure GDA00037748458700000717
为敌机航向角;
无人机的自身状态包括无人机三维空间坐标系下的位置分量[Xr,Yr,Zr],无人机速度大小vr,无人机俯仰角θr,无人机航向角
Figure GDA00037748458700000718
无人机与敌机的相对状态包括相对距离d及相对方位角q;总状态
Figure GDA0003774845870000081
动作控制量a为
Figure GDA0003774845870000082
进一步地,所述步骤S31中构建SAC算法模型,构建奖励函数R的具体步骤包括:
步骤S31-1:SAC算法模型通过神经网络来实现,包含SAC算法经验池M,一个Actor神经网络πθ、两个Soft-Q神经网络
Figure GDA0003774845870000083
Figure GDA0003774845870000084
两个Target Soft-Q网络
Figure GDA0003774845870000085
Figure GDA0003774845870000086
其中,θ,
Figure GDA0003774845870000087
均表示不同的网络权重;
SAC算法经验池M是一种经验回放缓存结构,用来专门贮存强化学习中学习的经验;
Actor神经网络πθ的输入为状态值st,输出为均值μ和方差σ。噪声τ从标准正态分布采样得到。由均值μ和方差σ和噪声τ生成动作at,并通过tanh函数将动作at限制在(-1,1)之间,动作生成过程如下所示:
μ,σ=πθ(st)
at=N(μ,σ2)=μ+σ*τ
at=tanh(at)
Soft-Q神经网络
Figure GDA0003774845870000088
Figure GDA0003774845870000089
的输入为状态值和动作值,输出为神经网络预测的Q值。Target Soft-Q神经网络
Figure GDA00037748458700000810
Figure GDA00037748458700000811
与Soft-Q神经网络结构相同但是网络权重不同,Soft-Q神经网络用于产生预测的Q值以及选取动作;Target Soft-Q神经网络产生目标Q值以及评估动作。Soft-Q神经网络权重实时优化更新,且在一定次数迭代后将权重复制于TargetSoft-Q网络。
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数;
步骤S31-2:奖励函数R的构建由敌机和无人机距离、相对方位角及无人机所载导弹的相关参数共同决定,计算如下:
R=w1*Rd+w2*Ra
Rd1=-d/(5*Dmax)
Figure GDA00037748458700000812
Rd=Rd1+Rd2
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rd为距离奖惩函数,Rq为角度奖惩函数,w1,w2为距离奖惩与角度奖惩的权重;Rd1为连续距离奖惩值,Rd2为稀疏距离奖惩值,Dmin为无人机所载导弹的最小攻击距离,Dmax为无人机所载导弹的最大攻击距离,d为无人机到敌机的距离,Rq1表示连续角度奖惩值,Rq2表示稀疏角度奖惩值,q表示相对方位角,qmax表示无人机所载导弹的最大离轴发射角。
进一步地,所述步骤S32中专家决策方法的作用为在当前作战态势下获得能令无人机产生作战优势的运动控制量,实现对无人机的最优控制。专家动作控制量包括速度、俯仰角、航向角的变化量,设无人机速度、航向角与俯仰角的增量需要分别控制在[-△v0,△v0]、
Figure GDA0003774845870000091
[-△θ0,△θ0]范围内,无人机专家控制模型如下:
Figure GDA0003774845870000092
Figure GDA0003774845870000093
Figure GDA0003774845870000094
其中,△X,△Y,△Z分别表示敌机相对于无人机的位置向量分量,
Figure GDA0003774845870000095
表示位置向量
Figure GDA0003774845870000096
在XOZ平面上投影向量的航向角,Dθ表示位置向量
Figure GDA0003774845870000097
与XOZ平面间的夹角;
令Δv为敌机和无人机速度之差,△v=vb-vr,则速度的变化量dv为:
Figure GDA0003774845870000098
Figure GDA0003774845870000101
则航向角的变化量
Figure GDA0003774845870000102
为:
Figure GDA0003774845870000103
令△θ=Dθ-θ,则俯仰角的变化量dθ为:
Figure GDA0003774845870000104
其中,dv,dθ,
Figure GDA0003774845870000105
分别表示速度、俯仰角、航向角的变化量;
得到速度、俯仰角、航向角的变化量后,通过无人机运动模型可以求得无人机的位置,从而实现基于专家控制方式的机动飞行。
进一步地,所述步骤S32中提取专家经验样本,获得专家经验池Me的步骤具体包括:
步骤S32-1:定义需提取样本的环境个数n,令i=1;
步骤S32-2:在作战区域内初始化第i组无人机及敌机,获取状态se
步骤S32-3:依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量,并定义为动作ae
步骤S32-4:执行动作ae,获得新的作战状态s′e,同时计算得到奖惩值re
步骤S32-5:元组<se,ae,s′e,re>即为专家经验样本,将样本存储至专家经验池Me
步骤S32-6:判定是否作战成功,若成功则i加1;否则执行步骤S32-3至S32-6;
步骤S32-7:判定i是否小于n,若i<n则执行步骤S32-2至S32-7;否则结束;
步骤S32-8:获得所存储的专家经验样本池。
进一步地,所述步骤S34中对SAC算法模型进行训练的步骤具体包括:
步骤S34-1:定义批量处理数据大小为batch_size,定义提供专家样本数据训练步数expert_step;
步骤S34-2:随机生成Actor网络权重θ,Soft-Q网络权重
Figure GDA0003774845870000106
初始化Actor网络πθ与两个Soft-Q网络
Figure GDA0003774845870000107
Figure GDA0003774845870000108
Figure GDA0003774845870000109
作为网络权重初始化TargetSoft-Q网络
Figure GDA00037748458700001010
步骤S34-3:判定SAC算法模型经验池M内经验组数是否小于expert_step,若为是,则从专家经验池Me中随机取出n1组经验,n1=batch_size,对SAC算法中神经网络权重进行更新;若为否,则从专家经验池Me中随机取出n1组经验,从SAC算法经验池M中取出n2组经验,令n2=batch_size-n1,对SAC算法中神经网络权重进行更新。
n1与n2之间的关系如下:
若SAC算法模型经验池M样本数为偶数则:
n1=n1-1
n2=batch_size-n1
训练时,针对Actor神经网络损失函数和Soft-Q神经网络的损失函数
Figure GDA0003774845870000111
进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重,具体的神经网络损失函数和神经网络更新过程如下:
双Soft-Q函数被定义为Target Soft-Q网络
Figure GDA0003774845870000112
输出的最小值,因此有:
Figure GDA0003774845870000113
Figure GDA0003774845870000114
分别表示Target Soft-Q网络
Figure GDA0003774845870000115
的输出目标Q值。
其中Actor神经网络损失函数定义如下:
Figure GDA0003774845870000116
Soft-Q神经网络的损失函数
Figure GDA0003774845870000117
定义如下:
Figure GDA0003774845870000118
Target Soft-Q神经网络权重
Figure GDA0003774845870000119
更新方式如下:
Figure GDA00037748458700001110
Figure GDA00037748458700001111
更新正则化系数α,损失函数为:
J(α)=E[-αlogπt(at|st)-αH0]
具体实施例:
本实施例中,如图2所示,我方无人机的位置向量为[-2km,3km,4km],俯仰角、航向角分别为2°、120°,初始速度为80m/s;敌机的位置向量为[5km,4km,-6km],俯仰角、航向角分别为1°、-30°,初始速度为80m/s。计算得到d=12.25km,q=170.30°。总状态s=[-2km,3km,4km,80,2,120,12.25,170.30]。
本实施例中,SAC算法模型的结构如图3所示。
奖励函数R的设计中,w1=w2=0.5,无人机所载导弹的最大攻击距离为6km,最小攻击距离为1km,导弹的最大离轴发射角为30°。导弹攻击区如图4所示。
提取专家样本的环境个数n=100。
小样本组数batch_size=256,定义提供专家样本训练步数expert_step=2e5。
使用训练后的模型对无人机进行机动决策后,无人机的作战轨迹如图5所示。红方为我方无人机,采用训练后的模型进行决策,蓝方为敌机,做固定机动。图中显示,我方通过机动实现了近敌,使得敌方能够被我方的导弹击毁。

Claims (2)

1.一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,包括以下步骤:
步骤S1:构建无人机运动模型;
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure FDA0003774845860000011
Figure FDA0003774845860000012
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure FDA0003774845860000013
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure FDA0003774845860000014
为无人机航向角变化量;
步骤S2:获取无人机自身的状态及敌机的相对状态,组成总状态s;
Figure FDA0003774845860000015
表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量
Figure FDA0003774845860000016
与距离向量
Figure FDA0003774845860000017
的夹角;无人机与敌机相对态势数据用
Figure FDA0003774845860000018
d与q描述:
Figure FDA0003774845860000019
Figure FDA00037748458600000110
Figure FDA00037748458600000111
其中,
Figure FDA00037748458600000112
为无人机在三维空间坐标系的位置向量,
Figure FDA00037748458600000113
为速度向量;
Figure FDA00037748458600000114
为敌机在三维空间坐标系的位置向量;
无人机的自身状态包括无人机三维空间坐标系下的位置分量[Xr,Yr,Zr],无人机速度大小vr,无人机俯仰角θr,无人机航向角
Figure FDA0003774845860000021
无人机与敌机的相对状态包括相对距离d及相对方位角q;总状态
Figure FDA0003774845860000022
动作控制量a为
Figure FDA0003774845860000023
步骤S3:构建SAC算法模型并进行训练;
步骤S31:构建SAC算法模型,构建奖励函数R;
步骤S31-1:SAC算法模型通过神经网络来实现,包含SAC算法经验池M,一个Actor神经网络πθ、两个Soft-Q神经网络
Figure FDA0003774845860000024
Figure FDA0003774845860000025
两个Target Soft-Q网络
Figure FDA0003774845860000026
Figure FDA0003774845860000027
其中,θ,
Figure FDA0003774845860000028
均表示不同的网络权重;
步骤S31-2:奖励函数R的构建如下:
R=w1*Rd+w2*Ra
Rd1=-d/(5*Dmax)
Figure FDA0003774845860000029
Rd=Rd1+Rd2
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rd为距离奖惩函数,Rq为角度奖惩函数,w1,w2为距离奖惩与角度奖惩的权重;Rd1为连续距离奖惩值,Rd2为稀疏距离奖惩值,Dmin为无人机所载导弹的最小攻击距离,Dmax为无人机所载导弹的最大攻击距离,Rq1表示连续角度奖惩值,Rq2表示稀疏角度奖惩值,qmax表示无人机所载导弹的最大离轴发射角;
步骤S32:建立专家决策方法,获取专家动作控制量,提取专家经验样本,获得专家经验池Me
设无人机速度、航向角与俯仰角的增量分别控制在[-△v0,△v0]、
Figure FDA00037748458600000210
[-△θ0,△θ0]范围内,专家动作控制量包括速度、俯仰角、航向角的变化量,计算过程如下:
Figure FDA0003774845860000031
Figure FDA0003774845860000032
Figure FDA0003774845860000033
其中,△X,△Y,△Z分别表示敌机相对于无人机的位置向量分量,
Figure FDA0003774845860000034
表示位置向量
Figure FDA0003774845860000035
在XOZ平面上投影向量的航向角,Dθ表示位置向量
Figure FDA0003774845860000036
与XOZ平面间的夹角;
令Δv为敌机和无人机速度之差,△v=vb-vr,则速度的变化量dv为:
Figure FDA0003774845860000037
Figure FDA0003774845860000038
则航向角的变化量
Figure FDA0003774845860000039
为:
Figure FDA00037748458600000310
令△θ=Dθ-θ,则俯仰角的变化量dθ为:
Figure FDA00037748458600000311
其中,dv,dθ,
Figure FDA00037748458600000312
分别表示速度、俯仰角、航向角的变化量;
步骤S32-1:定义需提取样本的环境个数n,令i=1;
步骤S32-2:在作战区域内初始化第i组无人机及敌机,获取状态se
步骤S32-3:依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量,并定义为动作ae
步骤S32-4:执行动作ae,获得新的作战状态s′e,同时计算得到奖惩值re
步骤S32-5:元组<se,ae,s′e,re>即为专家经验样本,将样本存储至专家经验池Me
步骤S32-6:判定是否作战成功,若成功则i加1;否则执行步骤S32-3至S32-6;
步骤S32-7:判定i是否小于n,若i<n则执行步骤S32-2至S32-7;否则结束;
步骤S32-8:获得所存储的专家经验样本池;
步骤S33:将总状态s输入SAC算法模型并输出动作控制量a,无人机执行动作后获取下一时刻状态s'及奖励值r,将元组<s,a,s′,r>存储至SAC算法模型的经验池M;
步骤S34:使用专家经验池Me和SAC算法经验池M中数据对SAC算法模型进行训练,直至算法模型收敛;
步骤S34-1:定义批量处理数据大小为batch_size,定义提供专家样本数据训练步数expert_step;
步骤S34-2:随机生成Actor网络权重θ,Soft-Q网络权重
Figure FDA0003774845860000041
初始化Actor网络πθ与两个Soft-Q网络
Figure FDA0003774845860000042
Figure FDA0003774845860000043
Figure FDA0003774845860000044
作为网络权重初始化Target Soft-Q网络
Figure FDA0003774845860000045
步骤S34-3:判定SAC算法模型经验池M内经验组数是否小于expert_step,若为是,则从专家经验池Me中随机取出n1组经验,n1=batch_size,对SAC算法中神经网络权重进行更新;若为否,则从专家经验池Me中随机取出n1组经验,从SAC算法经验池M中取出n2组经验,令n2=batch_size-n1,对SAC算法中神经网络权重进行更新;
步骤S4:根据步骤S1中的无人机机动模型,无人机采用SAC算法模型实现机动,直至实现对敌机的攻击。
2.根据权利要求1所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述batch_size=256,expert_step=2e5。
CN202110364108.9A 2021-04-03 2021-04-03 一种基于e-sac算法的无人机空战运动控制方法 Expired - Fee Related CN113093803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110364108.9A CN113093803B (zh) 2021-04-03 2021-04-03 一种基于e-sac算法的无人机空战运动控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364108.9A CN113093803B (zh) 2021-04-03 2021-04-03 一种基于e-sac算法的无人机空战运动控制方法

Publications (2)

Publication Number Publication Date
CN113093803A CN113093803A (zh) 2021-07-09
CN113093803B true CN113093803B (zh) 2022-10-14

Family

ID=76673497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364108.9A Expired - Fee Related CN113093803B (zh) 2021-04-03 2021-04-03 一种基于e-sac算法的无人机空战运动控制方法

Country Status (1)

Country Link
CN (1) CN113093803B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9761002B2 (en) * 2013-07-30 2017-09-12 The Boeing Company Stereo-motion method of three-dimensional (3-D) structure information extraction from a video for fusion with 3-D point cloud data
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
CN109655066B (zh) * 2019-01-25 2022-05-17 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN111667513B (zh) * 2020-06-01 2022-02-18 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN111859541B (zh) * 2020-07-17 2022-10-14 西北工业大学 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN111880563B (zh) * 2020-07-17 2022-07-15 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN111859816A (zh) * 2020-08-03 2020-10-30 南京航空航天大学 拟态物理法与ddqn结合的无人机集群空战决策方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112596515B (zh) * 2020-11-25 2023-10-24 北京物资学院 一种多物流机器人移动控制方法及装置
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法

Also Published As

Publication number Publication date
CN113093803A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN111666631A (zh) 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN113221444B (zh) 一种面向空中智能博弈的行为模仿训练方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN113050686B (zh) 一种基于深度强化学习的作战策略优化方法及系统
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN115903865A (zh) 一种飞行器近距空战机动决策实现方法
CN114063644A (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
Wang et al. Autonomous maneuver decision of uav based on deep reinforcement learning: comparison of DQN and DDPG
CN113093803B (zh) 一种基于e-sac算法的无人机空战运动控制方法
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN116774731A (zh) 一种基于强化学习的无人机编队路径规划方法
CN116820134A (zh) 基于深度强化学习的无人机编队保持控制方法
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
Guo et al. Maneuver decision of UAV in air combat based on deterministic policy gradient
CN116011315A (zh) 一种基于k-稀疏自编码svm的导弹不可逃逸区快速解算
CN113050420B (zh) 基于s面控制和td3的auv路径跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221014