CN113093803A - 一种基于e-sac算法的无人机空战运动控制方法 - Google Patents

一种基于e-sac算法的无人机空战运动控制方法 Download PDF

Info

Publication number
CN113093803A
CN113093803A CN202110364108.9A CN202110364108A CN113093803A CN 113093803 A CN113093803 A CN 113093803A CN 202110364108 A CN202110364108 A CN 202110364108A CN 113093803 A CN113093803 A CN 113093803A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
expert
angle
plane
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110364108.9A
Other languages
English (en)
Other versions
CN113093803B (zh
Inventor
李波
甘志刚
梁诗阳
高晓光
万开方
越凯强
杨志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110364108.9A priority Critical patent/CN113093803B/zh
Publication of CN113093803A publication Critical patent/CN113093803A/zh
Application granted granted Critical
Publication of CN113093803B publication Critical patent/CN113093803B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • G05D1/1064Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones specially adapted for avoiding collisions with other aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于E‑SAC算法的无人机空战运动控制方法,首先构建无人机运动模型,获取无人机自身的状态及敌机的相对状态,组成总状态,然后构建SAC算法模型并进行训练,最后根据无人机机动模型,采用SAC算法模型实现机动,直至实现对敌机的攻击。本发明通过专家经验样本在前期驱动训练,使得算法全局收敛,能够获取更快的作战效率。

Description

一种基于E-SAC算法的无人机空战运动控制方法
技术领域
本发明属于无人机技术领域,具体涉及一种无人机空战运动控制方法。
背景技术
随着智能算法应用的层出不穷,学者与研究人员意识到“人工智能+无人机”的组合将会产生更多高级、新型、有效的空战策略,能够改变未来战场的作战模式。
近些年来,国内外已出现研究使用深度强化学习算法进行无人机运动控制,如Q-learning、DQN、DDPG算法。然而这些方法在训练过程中,算法收敛速度较慢,训练训练较低,极易陷入局部最优决策,无法获得全局最优的无人机自主机动决策,不能满足空战对抗机动决策的要求。
发明内容
为了克服现有技术的不足,本发明提供了一种基于E-SAC算法的无人机空战运动控制方法,首先构建无人机运动模型,获取无人机自身的状态及敌机的相对状态,组成总状态,然后构建SAC算法模型并进行训练,最后根据无人机机动模型,采用SAC算法模型实现机动,直至实现对敌机的攻击。本发明通过专家经验样本在前期驱动训练,使得算法全局收敛,能够获取更快的作战效率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机运动模型;
步骤S2:获取无人机自身的状态及敌机的相对状态,组成总状态s;
步骤S3:构建SAC算法模型并进行训练;
步骤S31:构建SAC算法模型,构建奖励函数R;
步骤S32:建立专家决策方法,获取专家动作控制量,提取专家经验样本,获得专家经验池Me
步骤S33:将总状态s输入SAC算法模型并输出动作控制量a,无人机执行动作后获取下一时刻状态s'及奖励值r,将元组<s,a,s’,r>存储至SAC算法模型的经验池M;
步骤S34:使用专家经验池Me和SAC算法经验池M中数据对SAC算法模型进行训练,直至算法模型收敛;
步骤S4:根据步骤S1中的无人机机动模型,无人机采用SAC算法模型实现机动,直至实现对敌机的攻击。
进一步地,所述步骤S1中构建无人机运动模型的步骤具体包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure BDA0003006710070000021
Figure BDA0003006710070000022
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure BDA0003006710070000023
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure BDA0003006710070000024
为无人机航向角变化量。
进一步地,所述步骤S2中获取无人机自身的状态及敌机的相对状态,组成总状态s的具体步骤包括:
Figure BDA0003006710070000025
表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量
Figure BDA0003006710070000026
与距离向量
Figure BDA0003006710070000027
的夹角;无人机与敌机相对态势数据用
Figure BDA0003006710070000028
d与q描述:
Figure BDA0003006710070000029
Figure BDA00030067100700000210
Figure BDA00030067100700000211
其中,
Figure BDA00030067100700000212
为无人机在三维空间坐标系的位置向量,
Figure BDA00030067100700000213
为速度向量,vr为无人机速度大小,θr为无人机俯仰角,
Figure BDA0003006710070000031
为无人机航向角;
Figure BDA0003006710070000032
为敌机在三维空间坐标系的位置向量,
Figure BDA0003006710070000033
为速度向量,vb为敌机速度大小,θb为敌机俯仰角,
Figure BDA0003006710070000034
为敌机航向角;
无人机的自身状态包括无人机三维空间坐标系下的位置分量[Xr,Yr,Zr],无人机速度大小vr,无人机俯仰角θr,无人机航向角
Figure BDA0003006710070000035
无人机与敌机的相对状态包括相对距离d及相对方位角q;总状态
Figure BDA0003006710070000036
动作控制量a为
Figure BDA0003006710070000037
进一步地,所述步骤S31中构建SAC算法模型,构建奖励函数R的具体步骤包括:
步骤S31-1:SAC算法模型通过神经网络来实现,包含SAC算法经验池M,一个Actor神经网络πθ、两个Soft-Q神经网络
Figure BDA0003006710070000038
Figure BDA0003006710070000039
两个Target Soft-Q网络
Figure BDA00030067100700000310
Figure BDA00030067100700000311
其中,θ,
Figure BDA00030067100700000312
均表示不同的网络权重;
步骤S31-2:奖励函数R的构建如下:
R=w1*Rd+w2*Ra
Rd1=-d/(5*Dmax)
Figure BDA00030067100700000313
Rd=Rd1+Rd2
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rd为距离奖惩函数,Rq为角度奖惩函数,w1,w2为距离奖惩与角度奖惩的权重;Rd1为连续距离奖惩值,Rd2为稀疏距离奖惩值,Dmin为无人机所载导弹的最小攻击距离,Dmax为无人机所载导弹的最大攻击距离,Rq1表示连续角度奖惩值,Rq2表示稀疏角度奖惩值,qmax表示无人机所载导弹的最大离轴发射角。
进一步地,所述步骤S32中建立专家决策方法,获取专家动作控制量的具体步骤包括:
设无人机速度、航向角与俯仰角的增量分别控制在[-△v0,△v0]、
Figure BDA00030067100700000314
[-△θ0,△θ0]范围内,专家动作控制量包括速度、俯仰角、航向角的变化量,计算过程如下:
Figure BDA0003006710070000041
Figure BDA0003006710070000042
Figure BDA0003006710070000043
其中,△X,△Y,△Z分别表示敌机相对于无人机的位置向量分量,
Figure BDA0003006710070000044
表示位置向量
Figure BDA0003006710070000045
在XOZ平面上投影向量的航向角,Dθ表示位置向量
Figure BDA0003006710070000046
与XOZ平面间的夹角;
令Δv为敌机和无人机速度之差,△v=vb-vr,则速度的变化量dv为:
Figure BDA0003006710070000047
Figure BDA0003006710070000048
则航向角的变化量
Figure BDA0003006710070000049
为:
Figure BDA00030067100700000410
令△θ=Dθ-θ,则俯仰角的变化量dθ为:
Figure BDA00030067100700000411
其中,dV,dθ,
Figure BDA00030067100700000412
分别表示速度、俯仰角、航向角的变化量;
进一步地,所述步骤S32中提取专家经验样本,获得专家经验池Me的步骤具体包括:
步骤S32-1:定义需提取样本的环境个数n,令i=1;
步骤S32-2:在作战区域内初始化第i组无人机及敌机,获取状态se
步骤S32-3:依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量,并定义为动作ae
步骤S32-4:执行动作ae,获得新的作战状态s′e,同时计算得到奖惩值re
步骤S32-5:元组<se,ae,s′e,re>即为专家经验样本,将样本存储至专家经验池Me
步骤S32-6:判定是否作战成功,若成功则i加1;否则执行步骤S32-3至S32-6;
步骤S32-7:判定i是否小于n,若i<n则执行步骤S32-2至S32-7;否则结束;
步骤S32-8:获得所存储的专家经验样本池。
进一步地,所述步骤S34中对SAC算法模型进行训练的步骤具体包括:
步骤S34-1:定义批量处理数据大小为batch_size,定义提供专家样本数据训练步数expert_step;
步骤S34-2:随机生成Actor网络权重θ,Soft-Q网络权重
Figure BDA0003006710070000051
初始化Actor网络πθ与两个Soft-Q网络
Figure BDA0003006710070000052
Figure BDA0003006710070000053
Figure BDA0003006710070000054
作为网络权重初始化TargetSoft-Q网络
Figure BDA0003006710070000055
步骤S34-3:判定SAC算法模型经验池M内经验组数是否小于expert_step,若为是,则从专家经验池Me中随机取出n1组经验,n1=batch_size,对SAC算法中神经网络权重进行更新;若为否,则从专家经验池Me中随机取出n1组经验,从SAC算法经验池M中取出n2组经验,令n2=batch_size-n1,对SAC算法中神经网络权重进行更新。
进一步地,所述batch_size=256,expert_step=2e5。
本发明的有益效果如下:
1、本发明借助少量专家经验增加样本的多样性,能够有效提升强化学习的探索与利用效率,加速算法的收敛过程。
2、本发明通过专家经验样本在前期驱动训练,使得算法全局收敛,能够获取更快的作战效率。
附图说明
图1是本发明的方法流程图。
图2是本发明实施例的无人机与敌机位置及相关参数图。
图3是本发明方法的SAC算法模型结构图。
图4是本发明实施例的无人机导弹攻击区示意图。
图5是本发明实施例无人机作战轨迹图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明考虑到专家知识样本对深度强化学习算法的引导作用,以专家数据为驱动进行训练,能够快速的实现算法训练的全局收敛,解决了算法的局部收敛问题,得到全局最优决策模型。
如图1所示,一种基于E-SAC算法的无人机空战运动控制方法,包括以下步骤:
步骤S1:在三维空间中,无人机具有位置、速度和姿态等物理描述量;据此构建无人机运动模型;
步骤S2:获取无人机自身的状态及敌机的相对状态,组成总状态s;
步骤S3:构建SAC算法模型并进行训练;
步骤S31:构建SAC算法模型,构建奖励函数R;
步骤S32:建立专家决策方法,获取专家动作控制量,提取专家经验样本,获得专家经验池Me
步骤S33:将总状态s输入SAC算法模型并输出动作控制量a,无人机执行动作后获取下一时刻状态s'及奖励值r,将元组<s,a,s′,r>存储至SAC算法模型的经验池M;
步骤S34:使用专家经验池Me和SAC算法经验池M中数据对SAC算法模型进行训练,直至算法模型收敛;
步骤S4:根据步骤S1中的无人机机动模型,无人机采用SAC算法模型实现机动,直至实现对敌机的攻击。
进一步地,所述步骤S1中构建无人机运动模型的步骤具体包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure BDA0003006710070000071
Figure BDA0003006710070000072
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure BDA0003006710070000073
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure BDA0003006710070000074
为无人机航向角变化量。
进一步地,所述步骤S2中获取无人机自身的状态及敌机的相对状态,组成总状态s的具体步骤包括:
Figure BDA0003006710070000075
表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量
Figure BDA0003006710070000076
与距离向量
Figure BDA0003006710070000077
的夹角;无人机与敌机相对态势数据用
Figure BDA0003006710070000078
d与q描述:
Figure BDA0003006710070000079
Figure BDA00030067100700000710
Figure BDA00030067100700000711
其中,
Figure BDA00030067100700000712
为无人机在三维空间坐标系的位置向量,
Figure BDA00030067100700000713
为速度向量,vr为无人机速度大小,θr为无人机俯仰角,
Figure BDA00030067100700000714
为无人机航向角;
Figure BDA00030067100700000715
为敌机在三维空间坐标系的位置向量,
Figure BDA00030067100700000716
为速度向量,vb为敌机速度大小,θb为敌机俯仰角,
Figure BDA00030067100700000717
为敌机航向角;
无人机的自身状态包括无人机三维空间坐标系下的位置分量[Xr,Yr,Zr],无人机速度大小vr,无人机俯仰角θr,无人机航向角
Figure BDA00030067100700000718
无人机与敌机的相对状态包括相对距离d及相对方位角q;总状态
Figure BDA0003006710070000081
动作控制量a为
Figure BDA0003006710070000082
进一步地,所述步骤S31中构建SAC算法模型,构建奖励函数R的具体步骤包括:
步骤S31-1:SAC算法模型通过神经网络来实现,包含SAC算法经验池M,一个Actor神经网络πθ、两个Soft-Q神经网络
Figure BDA0003006710070000083
Figure BDA0003006710070000084
两个Target Soft-Q网络
Figure BDA0003006710070000085
Figure BDA0003006710070000086
其中,θ,
Figure BDA00030067100700000811
均表示不同的网络权重;
SAC算法经验池M是一种经验回放缓存结构,用来专门贮存强化学习中学习的经验;
Actor神经网络πθ的输入为状态值st,输出为均值μ和方差σ。噪声τ从标准正态分布采样得到。由均值μ和方差σ和噪声τ生成动作at,并通过tanh函数将动作at限制在(-1,1)之间,动作生成过程如下所示:
μ,σ=πθ(st)
at=N(μ,σ2)=μ+σ*τ
at=tanh(at)
Soft-Q神经网络
Figure BDA0003006710070000087
Figure BDA0003006710070000088
的输入为状态值和动作值,输出为神经网络预测的Q值。Target Soft-Q神经网络
Figure BDA00030067100700000812
Figure BDA0003006710070000089
与Soft-Q神经网络结构相同但是网络权重不同,Soft-Q神经网络用于产生预测的Q值以及选取动作;Target Soft-Q神经网络产生目标Q值以及评估动作。Soft-Q神经网络权重实时优化更新,且在一定次数迭代后将权重复制于TargetSoft-Q网络。
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数;
步骤S31-2:奖励函数R的构建由敌机和无人机距离、相对方位角及无人机所载导弹的相关参数共同决定,计算如下:
R=w1*Rd+w2*Ra
Rd1=-d/(5*Dmax)
Figure BDA00030067100700000810
Rd=Rd1+Rd2
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rd为距离奖惩函数,Rq为角度奖惩函数,w1,w2为距离奖惩与角度奖惩的权重;Rd1为连续距离奖惩值,Rd2为稀疏距离奖惩值,Dmin为无人机所载导弹的最小攻击距离,Dmax为无人机所载导弹的最大攻击距离,d为无人机到敌机的距离,Rq1表示连续角度奖惩值,Rq2表示稀疏角度奖惩值,q表示相对方位角,qmax表示无人机所载导弹的最大离轴发射角。
进一步地,所述步骤S32中专家决策方法的作用为在当前作战态势下获得能令无人机产生作战优势的运动控制量,实现对无人机的最优控制。专家动作控制量包括速度、俯仰角、航向角的变化量,设无人机速度、航向角与俯仰角的增量需要分别控制在[-△v0,△v0]、
Figure BDA0003006710070000091
[-△θ0,△θ0]范围内,无人机专家控制模型如下:
Figure BDA0003006710070000092
Figure BDA0003006710070000093
Figure BDA0003006710070000094
其中,△X,△Y,△Z分别表示敌机相对于无人机的位置向量分量,
Figure BDA0003006710070000095
表示位置向量
Figure BDA0003006710070000096
在XOZ平面上投影向量的航向角,Dθ表示位置向量
Figure BDA0003006710070000097
与XOZ平面间的夹角;
令Δv为敌机和无人机速度之差,△v=vb-vr,则速度的变化量dv为:
Figure BDA0003006710070000098
Figure BDA0003006710070000101
则航向角的变化量
Figure BDA0003006710070000102
为:
Figure BDA0003006710070000103
令△θ=Dθ-θ,则俯仰角的变化量dθ为:
Figure BDA0003006710070000104
其中,dV,dθ,
Figure BDA0003006710070000105
分别表示速度、俯仰角、航向角的变化量;
得到速度、俯仰角、航向角的变化量后,通过无人机运动模型可以求得无人机的位置,从而实现基于专家控制方式的机动飞行。
进一步地,所述步骤S32中提取专家经验样本,获得专家经验池Me的步骤具体包括:
步骤S32-1:定义需提取样本的环境个数n,令i=1;
步骤S32-2:在作战区域内初始化第i组无人机及敌机,获取状态se
步骤S32-3:依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量,并定义为动作ae
步骤S32-4:执行动作ae,获得新的作战状态s′e,同时计算得到奖惩值re
步骤S32-5:元组<se,ae,se′,re>即为专家经验样本,将样本存储至专家经验池Me
步骤S32-6:判定是否作战成功,若成功则i加1;否则执行步骤S32-3至S32-6;
步骤S32-7:判定i是否小于n,若i<n则执行步骤S32-2至S32-7;否则结束;
步骤S32-8:获得所存储的专家经验样本池。
进一步地,所述步骤S34中对SAC算法模型进行训练的步骤具体包括:
步骤S34-1:定义批量处理数据大小为batch_size,定义提供专家样本数据训练步数expert_step;
步骤S34-2:随机生成Actor网络权重θ,Soft-Q网络权重
Figure BDA0003006710070000106
初始化Actor网络πθ与两个Soft-Q网络
Figure BDA0003006710070000107
Figure BDA0003006710070000108
Figure BDA0003006710070000109
作为网络权重初始化TargetSoft-Q网络
Figure BDA00030067100700001010
步骤S34-3:判定SAC算法模型经验池M内经验组数是否小于expert_step,若为是,则从专家经验池Me中随机取出n1组经验,n1=batch_size,对SAC算法中神经网络权重进行更新;若为否,则从专家经验池Me中随机取出n1组经验,从SAC算法经验池M中取出n2组经验,令n2=batch_size-n1,对SAC算法中神经网络权重进行更新。
n1与n2之间的关系如下:
若SAC算法模型经验池M样本数为偶数则:
n1=n1-1
n2=batch_size-n1
训练时,针对Actor神经网络损失函数和Soft-Q神经网络的损失函数
Figure BDA0003006710070000111
进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重,具体的神经网络损失函数和神经网络更新过程如下:
双Soft-Q函数被定义为Target Soft-Q网络
Figure BDA0003006710070000112
输出的最小值,因此有:
Figure BDA0003006710070000113
Figure BDA0003006710070000114
分别表示Target Soft-Q网络
Figure BDA0003006710070000115
的输出目标Q值。
其中Actor神经网络损失函数定义如下:
Figure BDA0003006710070000116
Soft-Q神经网络的损失函数
Figure BDA0003006710070000117
定义如下:
Figure BDA0003006710070000118
Target Soft-Q神经网络权重
Figure BDA0003006710070000119
更新方式如下:
Figure BDA00030067100700001110
Figure BDA00030067100700001111
更新正则化系数α,损失函数为:
J(α)=E[-αlogπt(at|st)-αH0]
具体实施例:
本实施例中,如图2所示,我方无人机的位置向量为[-2km,3km,4km],俯仰角、航向角分别为2°、120°,初始速度为80m/s;敌机的位置向量为[5km,4km,-6km],俯仰角、航向角分别为1°、-30°,初始速度为80m/s。计算得到d=12.25km,q=170.30°。总状态s=[-2km,3km,4km,80,2,120,12.25,170.30]。
本实施例中,SAC算法模型的结构如图3所示。
奖励函数R的设计中,w1=w2=0.5,无人机所载导弹的最大攻击距离为6km,最小攻击距离为1km,导弹的最大离轴发射角为30°。导弹攻击区如图4所示。
提取专家样本的环境个数n=100。
小样本组数batch_size=256,定义提供专家样本训练步数expert_step=2e5。
使用训练后的模型对无人机进行机动决策后,无人机的作战轨迹如图5所示。红方为我方无人机,采用训练后的模型进行决策,蓝方为敌机,做固定机动。图中显示,我方通过机动实现了近敌,使得敌方能够被我方的导弹击毁。

Claims (8)

1.一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,包括以下步骤:
步骤S1:构建无人机运动模型;
步骤S2:获取无人机自身的状态及敌机的相对状态,组成总状态s;
步骤S3:构建SAC算法模型并进行训练;
步骤S31:构建SAC算法模型,构建奖励函数R;
步骤S32:建立专家决策方法,获取专家动作控制量,提取专家经验样本,获得专家经验池Me
步骤S33:将总状态s输入SAC算法模型并输出动作控制量a,无人机执行动作后获取下一时刻状态s'及奖励值r,将元组<s,a,s′,r>存储至SAC算法模型的经验池M;
步骤S34:使用专家经验池Me和SAC算法经验池M中数据对SAC算法模型进行训练,直至算法模型收敛;
步骤S4:根据步骤S1中的无人机机动模型,无人机采用SAC算法模型实现机动,直至实现对敌机的攻击。
2.根据权利要求1所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S1中构建无人机运动模型的步骤具体包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure FDA0003006710060000011
Figure FDA0003006710060000012
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure FDA0003006710060000021
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure FDA0003006710060000022
为无人机航向角变化量。
3.根据权利要求2所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S2中获取无人机自身的状态及敌机的相对状态,组成总状态s的具体步骤包括:
Figure FDA0003006710060000023
表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量
Figure FDA0003006710060000024
与距离向量
Figure FDA0003006710060000025
的夹角;无人机与敌机相对态势数据用
Figure FDA0003006710060000026
d与q描述:
Figure FDA0003006710060000027
Figure FDA0003006710060000028
Figure FDA0003006710060000029
其中,
Figure FDA00030067100600000210
为无人机在三维空间坐标系的位置向量,
Figure FDA00030067100600000211
为速度向量,vr为无人机速度大小,θr为无人机俯仰角,
Figure FDA00030067100600000212
为无人机航向角;
Figure FDA00030067100600000213
为敌机在三维空间坐标系的位置向量,
Figure FDA00030067100600000214
为速度向量,vb为敌机速度大小,θb为敌机俯仰角,
Figure FDA00030067100600000215
为敌机航向角;
无人机的自身状态包括无人机三维空间坐标系下的位置分量[Xr,Yr,Zr],无人机速度大小vr,无人机俯仰角θr,无人机航向角
Figure FDA00030067100600000216
无人机与敌机的相对状态包括相对距离d及相对方位角q;总状态
Figure FDA00030067100600000217
动作控制量a为
Figure FDA00030067100600000218
4.根据权利要求3所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S31中构建SAC算法模型,构建奖励函数R的具体步骤包括:
步骤S31-1:SAC算法模型通过神经网络来实现,包含SAC算法经验池M,一个Actor神经网络πθ、两个Soft-Q神经网络
Figure FDA00030067100600000219
Figure FDA00030067100600000220
两个Target Soft-Q网络
Figure FDA00030067100600000221
Figure FDA00030067100600000222
其中,θ,
Figure FDA00030067100600000223
均表示不同的网络权重;
步骤S31-2:奖励函数R的构建如下:
R=w1*Rd+w2*Ra
Rd1=-d/(5*Dmax)
Figure FDA0003006710060000031
Rd=Rd1+Rd2
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rd为距离奖惩函数,Rq为角度奖惩函数,w1,w2为距离奖惩与角度奖惩的权重;Rd1为连续距离奖惩值,Rd2为稀疏距离奖惩值,Dmin为无人机所载导弹的最小攻击距离,Dmax为无人机所载导弹的最大攻击距离,Rq1表示连续角度奖惩值,Rq2表示稀疏角度奖惩值,qmax表示无人机所载导弹的最大离轴发射角。
5.根据权利要求4所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S32中建立专家决策方法,获取专家动作控制量的具体步骤包括:
设无人机速度、航向角与俯仰角的增量分别控制在[-△v0,△v0]、
Figure FDA0003006710060000032
[-△θ0,△θ0]范围内,专家动作控制量包括速度、俯仰角、航向角的变化量,计算过程如下:
Figure FDA0003006710060000033
Figure FDA0003006710060000034
Figure FDA0003006710060000035
其中,△X,△Y,△Z分别表示敌机相对于无人机的位置向量分量,
Figure FDA0003006710060000036
表示位置向量
Figure FDA0003006710060000037
在XOZ平面上投影向量的航向角,Dθ表示位置向量
Figure FDA0003006710060000038
与XOZ平面间的夹角;
令Δv为敌机和无人机速度之差,△v=vb-vr,则速度的变化量dv为:
Figure FDA0003006710060000041
Figure FDA0003006710060000042
则航向角的变化量
Figure FDA0003006710060000043
为:
Figure FDA0003006710060000044
令△θ=Dθ-θ,则俯仰角的变化量dθ为:
Figure FDA0003006710060000045
其中,dV,dθ,
Figure FDA0003006710060000046
分别表示速度、俯仰角、航向角的变化量。
6.根据权利要求5所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S32中提取专家经验样本,获得专家经验池Me的步骤具体包括:
步骤S32-1:定义需提取样本的环境个数n,令i=1;
步骤S32-2:在作战区域内初始化第i组无人机及敌机,获取状态se
步骤S32-3:依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量,并定义为动作ae
步骤S32-4:执行动作ae,获得新的作战状态s′e,同时计算得到奖惩值re
步骤S32-5:元组<se,ae,s′e,re>即为专家经验样本,将样本存储至专家经验池Me
步骤S32-6:判定是否作战成功,若成功则i加1;否则执行步骤S32-3至S32-6;
步骤S32-7:判定i是否小于n,若i<n则执行步骤S32-2至S32-7;否则结束;
步骤S32-8:获得所存储的专家经验样本池。
7.根据权利要求6所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S34中对SAC算法模型进行训练的步骤具体包括:
步骤S34-1:定义批量处理数据大小为batch_size,定义提供专家样本数据训练步数expert_step;
步骤S34-2:随机生成Actor网络权重θ,Soft-Q网络权重
Figure FDA0003006710060000051
初始化Actor网络πθ与两个Soft-Q网络
Figure FDA0003006710060000052
Figure FDA0003006710060000053
Figure FDA0003006710060000054
作为网络权重初始化Target Soft-Q网络
Figure FDA0003006710060000055
步骤S34-3:判定SAC算法模型经验池M内经验组数是否小于expert_step,若为是,则从专家经验池Me中随机取出n1组经验,n1=batch_size,对SAC算法中神经网络权重进行更新;若为否,则从专家经验池Me中随机取出n1组经验,从SAC算法经验池M中取出n2组经验,令n2=batch_size-n1,对SAC算法中神经网络权重进行更新。
8.根据权利要求7所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述batch_size=256,expert_step=2e5。
CN202110364108.9A 2021-04-03 2021-04-03 一种基于e-sac算法的无人机空战运动控制方法 Expired - Fee Related CN113093803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110364108.9A CN113093803B (zh) 2021-04-03 2021-04-03 一种基于e-sac算法的无人机空战运动控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364108.9A CN113093803B (zh) 2021-04-03 2021-04-03 一种基于e-sac算法的无人机空战运动控制方法

Publications (2)

Publication Number Publication Date
CN113093803A true CN113093803A (zh) 2021-07-09
CN113093803B CN113093803B (zh) 2022-10-14

Family

ID=76673497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364108.9A Expired - Fee Related CN113093803B (zh) 2021-04-03 2021-04-03 一种基于e-sac算法的无人机空战运动控制方法

Country Status (1)

Country Link
CN (1) CN113093803B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150036916A1 (en) * 2013-07-30 2015-02-05 The Boeing Company Stereo-motion method of three-dimensional (3-d) structure information extraction from a video for fusion with 3-d point cloud data
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN111859541A (zh) * 2020-07-17 2020-10-30 西北工业大学 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN111859816A (zh) * 2020-08-03 2020-10-30 南京航空航天大学 拟态物理法与ddqn结合的无人机集群空战决策方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
CN112596515A (zh) * 2020-11-25 2021-04-02 北京物资学院 一种多物流机器人移动控制方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150036916A1 (en) * 2013-07-30 2015-02-05 The Boeing Company Stereo-motion method of three-dimensional (3-d) structure information extraction from a video for fusion with 3-d point cloud data
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN111859541A (zh) * 2020-07-17 2020-10-30 西北工业大学 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN111859816A (zh) * 2020-08-03 2020-10-30 南京航空航天大学 拟态物理法与ddqn结合的无人机集群空战决策方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112596515A (zh) * 2020-11-25 2021-04-02 北京物资学院 一种多物流机器人移动控制方法及装置
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO LI,ET AL.: "Maneuvering target tracking of UAV based on MN-DDPG and transfer learning", 《DEFENCE TECHNOLOGY》 *
ZIJIAN HU,ET AL.: "Relevant experience learning: A deep reinforcement learning method for UAV autonomous motion planning in complex unknown environments", 《CHINESE JOURNAL OF AERONAUTICS》 *
何金等: "基于Double Deep Q Network的无人机隐蔽接敌策略", 《电光与控制》 *

Also Published As

Publication number Publication date
CN113093803B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
US11794898B2 (en) Air combat maneuvering method based on parallel self-play
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN111666631A (zh) 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN113221444B (zh) 一种面向空中智能博弈的行为模仿训练方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN112001120B (zh) 一种基于强化学习的航天器对多拦截器自主规避机动方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN113050686A (zh) 一种基于深度强化学习的作战策略优化方法及系统
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN114063644A (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN115857548A (zh) 一种基于深度强化学习的末制导律设计方法
CN116820134A (zh) 基于深度强化学习的无人机编队保持控制方法
Wang et al. Autonomous maneuver decision of uav based on deep reinforcement learning: comparison of DQN and DDPG
CN113093803B (zh) 一种基于e-sac算法的无人机空战运动控制方法
CN116774731A (zh) 一种基于强化学习的无人机编队路径规划方法
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
CN113050420B (zh) 基于s面控制和td3的auv路径跟踪方法及系统
Ma et al. Strategy generation based on reinforcement learning with deep deterministic policy gradient for UCAV
CN116796505B (zh) 一种基于示例策略约束的空战机动策略生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221014