CN113093802B - 一种基于深度强化学习的无人机机动决策方法 - Google Patents

一种基于深度强化学习的无人机机动决策方法 Download PDF

Info

Publication number
CN113093802B
CN113093802B CN202110364100.2A CN202110364100A CN113093802B CN 113093802 B CN113093802 B CN 113093802B CN 202110364100 A CN202110364100 A CN 202110364100A CN 113093802 B CN113093802 B CN 113093802B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
reward
soft
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110364100.2A
Other languages
English (en)
Other versions
CN113093802A (zh
Inventor
李波
甘志刚
梁诗阳
高晓光
万开方
越凯强
杨志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110364100.2A priority Critical patent/CN113093802B/zh
Publication of CN113093802A publication Critical patent/CN113093802A/zh
Application granted granted Critical
Publication of CN113093802B publication Critical patent/CN113093802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于深度强化学习的无人机机动决策方法,首先构建无人机机动模型,然后描述无人机和敌机作战相对态势,再依据马尔科夫过程构建状态空间、动作空间和奖惩函数,接下来构建SAC算法模型结构,再定义SAC算法模型参数并进行训练,最后初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策,无需人工参与,且具有很强的探索能力,能够高效的探索到最优策略。

Description

一种基于深度强化学习的无人机机动决策方法
技术领域
本发明属于无人机技术领域,具体涉及一种无人机机动决策方法。
背景技术
无人机自凭借零伤亡、机动性能强、成本低、隐身性等优势进入军事领域以来,已经被快速并广泛的应用于各类军事用途。然而,现在的无人机在作战方面仍需要有人机或者地面站指挥员的指挥控制,未能实现真正的自主能力,无人机的自主机动决策也逐渐成为无人机领域重要的研究内容之一。
近年来,国内外针对无人机自主智能机动决策问题具有广泛的研究。崔明朗等人提出采用蒙特卡洛强化学习方法实现近距空战机动决策。该方法将动作空间离散化,选择态势评估函数构建状态空间,以空战结果作为返回奖赏的依据,保证机动动作的连续性。专利CN110488872A采用D3QN网络实现无人机的实施路径规划。胡真财设计了基于Q学习(Q-learning)与价值评估网络的空战机动决策方法。该方法将作战动作空间离散化,实现与敌机的对抗机动决策过程。
这些方法没有考虑空战具有大状态空间及大机动的特点,因此以确定性深度强化学习算法进行决策可能无法获取最优结果。
发明内容
为了克服现有技术的不足,本发明提供了一种基于深度强化学习的无人机机动决策方法,首先构建无人机机动模型,然后描述无人机和敌机作战相对态势,再依据马尔科夫过程构建状态空间、动作空间和奖惩函数,接下来构建SAC算法模型结构,再定义SAC算法模型参数并进行训练,最后初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策,无需人工参与,且具有很强的探索能力,能够高效的探索到最优策略。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机机动模型;
步骤S2:描述无人机和敌机作战相对态势;
步骤S3:依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R;
步骤S4:构建SAC算法模型结构;
步骤S5:定义SAC算法模型参数并进行训练;
步骤S6:初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。
进一步地,所述构建无人机机动模型的具体步骤包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure GDA0003714274230000021
Figure GDA0003714274230000022
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure GDA0003714274230000023
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure GDA0003714274230000024
为无人机航向角变化量。
进一步地,所述描述无人机和敌机作战相对态势的具体步骤包括:
Figure GDA0003714274230000025
表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量
Figure GDA0003714274230000026
与距离向量
Figure GDA0003714274230000027
的夹角;无人机与敌机相对态势数据用
Figure GDA0003714274230000028
d与q描述:
Figure GDA0003714274230000029
Figure GDA00037142742300000210
Figure GDA00037142742300000211
其中,
Figure GDA00037142742300000212
为无人机在三维空间坐标系的位置向量,
Figure GDA00037142742300000213
为速度向量,vr为无人机速度大小,θr为无人机俯仰角,
Figure GDA00037142742300000214
为无人机航向角;
Figure GDA00037142742300000215
为敌机在三维空间坐标系的位置向量;
进一步地,所述依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R的具体步骤包括:
定义状态空间为
Figure GDA0003714274230000031
动作空间为
Figure GDA0003714274230000032
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Figure GDA0003714274230000033
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,所述构建SAC算法模型结构的具体步骤包括:
SAC算法模型通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络
Figure GDA0003714274230000034
Figure GDA0003714274230000035
两个Target Soft-Q网络
Figure GDA0003714274230000036
Figure GDA0003714274230000037
其中,θ,
Figure GDA0003714274230000038
均表示对应网络的权重;
Actor神经网络πθ的输入为状态值st,输出为均值μ和方差σ,噪声τ从标准正态分布采样得到;由均值μ和方差σ和噪声τ生成动作at,并通过tanh函数将动作at限制在(-1,1)之间,动作生成过程如下所示:
πθ(st)=N(μ,σ2)
at=N(μ,σ2)=μ+σ*τ
at=tanh(at)
Soft-Q神经网络
Figure GDA0003714274230000041
Figure GDA0003714274230000042
的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络
Figure GDA0003714274230000043
Figure GDA0003714274230000044
与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述定义SAC算法模型参数并进行训练的具体步骤包括:
定义SAC算法模型参数,包括最大仿真步长N、训练回合episode、时间步长T、训练样本组数batch_size、折扣因子γ、网络学习率lr、熵的正则化系数α、目标熵值H0
训练SAC算法模型,包括以下步骤:
步骤S51:初始化无人机和敌机作战相对态势,获取状态空间S的初始状态st
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重
Figure GDA0003714274230000045
初始化Actor网络πθ与两个Soft-Q网络
Figure GDA0003714274230000046
Figure GDA0003714274230000047
Figure GDA0003714274230000048
作为网络权重初始化Target Soft-Q网络
Figure GDA0003714274230000049
步骤S53:将状态st输入至Actor网络,输出均值μ和方差σ,由步骤S4中动作生成过程得到动作at,无人机执行动作at后获取新状态st+1并根据步骤S3得到奖惩函数R奖惩值r(st,at),并将<st,at,st+1,r(st,at)>元组存储至经验池M;
步骤S54:当经验池M内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,其中Actor神经网络与Soft-Q神经网络的损失函数分别如下:
Figure GDA00037142742300000410
Figure GDA00037142742300000411
更新正则化系数α,损失函数为:
J(α)=E[-αlogπθ(at|st)-αH0]
步骤S55:判定是否作战成功,若是,则执行步骤S56;否则令st=st+1,转至执行步骤S53;
步骤S56:判定SAC算法是否收敛或是否达到训练回合,若是,则结束训练,保存训练结束后的模型;否则转至执行步骤S51。
进一步地,所述初始化无人机和敌机作战态势,使用训练完成算法进行机动决策的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取初始状态st
步骤S62:对状态s进行记录,将状态st输入至训练完成的SAC算法模型的Actor神经网络,输出动作at=πθ(st),无人机执行动作at,敌机执行随机动作,获取新状态st+1
步骤S63:判定作战是否成功,若是,则结束;否则令st=st+1,并转至执行步骤S62;
步骤S64:记录无人机作战成功时的步长,根据所记录状态st画出作战双方轨迹图。
进一步地,所述batch_size=256,T=0.1s。
本发明的有益效果如下:
1、本发明将深度强化学习算法中的非确定性策略算法SAC应用至无人机机动决策中,能够有效地令无人机自主决策,无需人工参与;
2、本发明中的非确定性机动策略具有很强的探索能力,能够高效的探索到最优策略。
附图说明
图1是本发明方法流程图。
图2是本发明方法的SAC算法模型网络结构。
图3是本发明实施例的导弹攻击区。
图4是本发明实施例的作战轨迹图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于深度强化学习的无人机机动决策方法,包括以下步骤:
步骤S1:构建无人机机动模型;
步骤S2:描述无人机和敌机作战相对态势;
步骤S3:依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R;
步骤S4:构建SAC算法模型结构;
步骤S5:定义SAC算法模型参数并进行训练;
步骤S6:初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。
进一步地,所述构建无人机机动模型的具体步骤包括:
对建立无人机运动、动力学模型作如下假设:
(1)假设无人机为刚体;
(2)忽略地球自转及公转影响,忽略地球曲率;
(3)基于近距空战格斗机动幅度大、战斗时间短的特点,忽略风力的作用以及油耗的影响。
在三维空间中,无人机具有位置、速度和姿态等物理描述量。设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
在考察无人机运动时,将无人机视为质点,无人机运动方程如下所示:
Figure GDA0003714274230000061
Figure GDA0003714274230000062
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure GDA0003714274230000063
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure GDA0003714274230000064
为无人机航向角变化量。
进一步地,所述描述无人机和敌机作战相对态势的具体步骤包括:
Figure GDA0003714274230000071
表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量
Figure GDA0003714274230000072
与距离向量
Figure GDA0003714274230000073
的夹角;无人机与敌机相对态势数据用
Figure GDA0003714274230000074
d与q描述:
Figure GDA0003714274230000075
Figure GDA0003714274230000076
Figure GDA0003714274230000077
其中,
Figure GDA0003714274230000078
为无人机在三维空间坐标系的位置向量,
Figure GDA0003714274230000079
为速度向量,vr为无人机速度大小,θr为无人机俯仰角,
Figure GDA00037142742300000710
为无人机航向角;
Figure GDA00037142742300000711
为敌机在三维空间坐标系的位置向量;
进一步地,所述依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R的具体步骤包括:
状态空间用八元组描述,以向量形式表示,定义状态空间为
Figure GDA00037142742300000712
动作空间为
Figure GDA00037142742300000713
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
奖励函数由连续奖励及激励奖励共同组成,解决了算法长期无法得到奖励回应,导致算法收敛较慢或无法收敛的问题。其中,连续奖励函数与相对方位角及相对距离呈负相关,用于引导策略探索,激励函数为常值,用于激励算法保存已探索到的较优策略。
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Figure GDA00037142742300000714
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,所述构建SAC算法模型结构的具体步骤包括:
如图2所示,SAC算法模型通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络
Figure GDA0003714274230000081
Figure GDA0003714274230000082
两个Target Soft-Q网络
Figure GDA0003714274230000083
Figure GDA0003714274230000084
其中,θ,
Figure GDA0003714274230000085
均表示对应网络的权重;
经验池M是一种经验回放缓存结构,用来专门贮存强化学习中学习的经验。
Actor神经网络πθ的输入为状态值st,输出为均值μ和方差σ,噪声τ从标准正态分布采样得到;由均值μ和方差σ和噪声τ生成动作at,并通过tanh函数将动作at限制在(-1,1)之间,动作生成过程如下所示:
πθ(st)=N(μ,σ2)
at=N(μ,σ2)=μ+σ*τ
at=tanh(at)
Soft-Q神经网络
Figure GDA0003714274230000086
Figure GDA0003714274230000087
的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络
Figure GDA0003714274230000088
Figure GDA0003714274230000089
与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述定义SAC算法模型参数并进行训练的具体步骤包括:
定义SAC算法模型参数,包括最大仿真步长N、训练回合episode、时间步长T、训练样本组数batch_size、折扣因子γ、网络学习率lr、熵的正则化系数α、目标熵值H0
训练SAC算法模型,包括以下步骤:
步骤S51:初始化无人机和敌机作战相对态势,获取状态空间S的初始状态st
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重
Figure GDA0003714274230000091
初始化Actor网络πθ与两个Soft-Q网络
Figure GDA0003714274230000092
Figure GDA0003714274230000093
Figure GDA0003714274230000094
作为网络权重初始化Target Soft-Q网络
Figure GDA0003714274230000095
步骤S53:将状态st输入至Actor网络,输出均值μ和方差σ,由步骤S4中动作生成过程得到动作at,无人机执行动作at后获取新状态st+1并根据步骤S3得到奖惩函数R奖惩值r(st,at),并将<st,at,st+1,r(st,at)>元组存储至经验池M;
步骤S54:当经验池M内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的权重进行更新;针对Actor神经网络损失函数和Soft-Q神经网络的损失函数
Figure GDA0003714274230000096
进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重;
双Soft-Q函数被定义为Target Soft-Q网络
Figure GDA0003714274230000097
输出的最小值,因此有:
Figure GDA0003714274230000098
Figure GDA0003714274230000099
分别表示Target Soft-Q网络
Figure GDA00037142742300000910
的输出目标Q值。
其中Actor神经网络损失函数定义如下:
Figure GDA00037142742300000911
Soft-Q神经网络的损失函数
Figure GDA00037142742300000912
定义如下:
Figure GDA00037142742300000913
Target Soft-Q神经网络权重
Figure GDA00037142742300000914
更新方式如下:
Figure GDA00037142742300000915
Figure GDA00037142742300000916
更新正则化系数α,损失函数为:
J(α)=E[-αlogπθ(at|st)-αH0]
步骤S55:判定是否作战成功,若是,则执行步骤S56;否则令st=st+1,转至执行步骤S53;
判定作战成功条件如下:
设敌机连续处于无人机导弹攻击区的时间为tin,当满足下式时,即可认为无人机导弹发射成功,且敌机被导弹摧毁,作战成功。
Figure GDA0003714274230000101
步骤S56:判定SAC算法是否收敛或是否达到训练回合,若是,则结束训练,保存训练结束后的模型;否则转至执行步骤S51。
进一步地,所述初始化作战态势,使用训练完成算法进行机动决策的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取初始状态st
步骤S62:对状态s进行记录,将状态st输入至训练完成的SAC算法模型的Actor神经网络,输出动作at=πθ(st),无人机执行动作at,敌机执行随机动作,获取新状态st+1
步骤S63:判定作战是否成功,若是,则结束;否则令st=st+1,并转至执行步骤S62;
步骤S64:记录无人机作战成功时的步长,根据所记录状态st画出作战双方轨迹图。
具体实施例:
实施例中,初始化无人机的初始位置向量为[-6km,2km,6km],初始俯仰角、偏航角分别为2°、120°,初始速度为80m/s;敌方的初始位置向量为[6km,6km,6km],初始俯仰角、偏航角分别为1°、-60°,初始速度为60m/s。计算得到
Figure GDA0003714274230000102
d=12.64km,q=47.35°。
初始状态空间s=[-6km,2km,6km,80,2,120,12.64,47.35]。
导弹的最大攻击距离为6km,最小攻击距离为1km,导弹的最大离轴发射角为30°,w1=w2=0.5,导弹的攻击区如图3所示。
SAC算法中Actor神经网络隐含层层数l=2,各层的节点个数n=256。优化算法为Adam算法、折扣因子γ=0.99、网络学习率lr=0.0003、熵的正则化系数α=1、目标熵值H0=-3。
最大仿真步长N=800、训练回合episode=2000、时间步长T=0.1s、训练样本组数batch_size=256。
经过训练后,初始化作战态势,使用训练完成算法进行机动决策。记录无人机作战成功时的步长,根据所记录状态s画出作战双方轨迹图。无人机在第314个步长作战成功,图4为双方的作战轨迹图,红方为我方无人机,蓝方为敌机,图中可知,使用经过训练后的决策模型进行机动决策后,无人机能够快速近敌且实现对敌方的攻击。

Claims (2)

1.一种基于深度强化学习的无人机机动决策方法,其特征在于,包括以下步骤:
步骤S1:构建无人机机动模型;
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
Figure FDA0003714274220000011
Figure FDA0003714274220000012
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θtt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角
Figure FDA0003714274220000013
为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,
Figure FDA0003714274220000014
为无人机航向角变化量;
步骤S2:描述无人机和敌机作战相对态势;
Figure FDA0003714274220000015
表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量
Figure FDA0003714274220000016
与距离向量
Figure FDA0003714274220000017
的夹角;无人机与敌机相对态势数据用
Figure FDA0003714274220000018
d与q描述:
Figure FDA0003714274220000019
Figure FDA00037142742200000110
Figure FDA00037142742200000111
其中,
Figure FDA00037142742200000112
为无人机在三维空间坐标系的位置向量,
Figure FDA00037142742200000113
为速度向量,vr为无人机速度大小,θr为无人机俯仰角,
Figure FDA00037142742200000114
为无人机航向角;
Figure FDA00037142742200000115
为敌机在三维空间坐标系的位置向量;
步骤S3:依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R;
定义状态空间为
Figure FDA0003714274220000021
动作空间为
Figure FDA0003714274220000022
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Figure FDA0003714274220000023
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角;
步骤S4:构建SAC算法模型结构;
SAC算法模型通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络
Figure FDA0003714274220000024
Figure FDA0003714274220000025
两个Target Soft-Q网络
Figure FDA0003714274220000026
Figure FDA0003714274220000027
其中,θ,
Figure FDA0003714274220000028
均表示对应网络的权重;
Actor神经网络πθ的输入为状态值st,输出为均值μ和方差σ,噪声τ从标准正态分布采样得到;由均值μ和方差σ和噪声τ生成动作at,并通过tanh函数将动作at限制在(-1,1)之间,动作生成过程如下所示:
πθ(st)=N(μ,σ2)
at=N(μ,σ2)=μ+σ*τ
at=tanh(at)
Soft-Q神经网络
Figure FDA0003714274220000029
Figure FDA00037142742200000210
的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络
Figure FDA0003714274220000031
Figure FDA0003714274220000032
与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数;
步骤S5:定义SAC算法模型参数并进行训练;
定义SAC算法模型参数,包括最大仿真步长N、训练回合episode、时间步长T、训练样本组数batch_size、折扣因子γ、网络学习率lr、熵的正则化系数α、目标熵值H0
训练SAC算法模型,包括以下步骤:
步骤S51:初始化无人机和敌机作战相对态势,获取状态空间S的初始状态st
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重
Figure FDA0003714274220000033
初始化Actor网络πθ与两个Soft-Q网络
Figure FDA0003714274220000034
Figure FDA0003714274220000035
Figure FDA0003714274220000036
作为网络权重初始化Target Soft-Q网络
Figure FDA0003714274220000037
步骤S53:将状态st输入至Actor网络,输出均值μ和方差σ,由步骤S4中动作生成过程得到动作at,无人机执行动作at后获取新状态st+1并根据步骤S3得到奖惩函数R奖惩值r(st,at),并将<st,at,st+1,r(st,at)>元组存储至经验池M;
步骤S54:当经验池M内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,其中Actor神经网络与Soft-Q神经网络的损失函数分别如下:
Figure FDA0003714274220000038
Figure FDA0003714274220000039
更新正则化系数α,损失函数为:
J(α)=E[-αlogπθ(at|st)-αH0]
步骤S55:判定是否作战成功,若是,则执行步骤S56;否则令st=st+1,转至执行步骤S53;
步骤S56:判定SAC算法是否收敛或是否达到训练回合,若是,则结束训练,保存训练结束后的模型;否则转至执行步骤S51;
步骤S6:初始化无人机和敌机作战态势,使用训练完成算法进行机动决策;
步骤S61:初始化作战双方的初始态势,获取初始状态st
步骤S62:对状态s进行记录,将状态st输入至训练完成的SAC算法模型的Actor神经网络,输出动作at=πθ(st),无人机执行动作at,敌机执行随机动作,获取新状态st+1
步骤S63:判定作战是否成功,若是,则结束;否则令st=st+1,并转至执行步骤S62;
步骤S64:记录无人机作战成功时的步长,根据所记录状态st画出作战双方轨迹图。
2.根据权利要求1所述的一种基于深度强化学习的无人机机动决策方法,其特征在于,所述batch_size=256,T=0.1s。
CN202110364100.2A 2021-04-03 2021-04-03 一种基于深度强化学习的无人机机动决策方法 Active CN113093802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110364100.2A CN113093802B (zh) 2021-04-03 2021-04-03 一种基于深度强化学习的无人机机动决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364100.2A CN113093802B (zh) 2021-04-03 2021-04-03 一种基于深度强化学习的无人机机动决策方法

Publications (2)

Publication Number Publication Date
CN113093802A CN113093802A (zh) 2021-07-09
CN113093802B true CN113093802B (zh) 2022-08-02

Family

ID=76673493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364100.2A Active CN113093802B (zh) 2021-04-03 2021-04-03 一种基于深度强化学习的无人机机动决策方法

Country Status (1)

Country Link
CN (1) CN113093802B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962012B (zh) * 2021-07-23 2024-05-24 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN113721645A (zh) * 2021-08-07 2021-11-30 中国航空工业集团公司沈阳飞机设计研究所 一种基于分布式强化学习的无人机连续机动控制方法
CN113625569B (zh) * 2021-08-12 2022-02-08 中国人民解放军32802部队 一种基于混合决策模型的小型无人机防控决策方法及系统
CN113741186B (zh) * 2021-08-22 2023-08-18 西北工业大学 一种基于近端策略优化的双机空战决策方法
CN114237267B (zh) * 2021-11-02 2023-11-24 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法
CN114237303B (zh) * 2021-11-17 2022-09-06 中国人民解放军军事科学院国防科技创新研究院 一种基于蒙特卡洛树搜索的无人机路径规划方法及装置
CN114510078B (zh) * 2022-02-16 2022-12-09 南通大学 一种基于深度强化学习的无人机机动规避决策方法
CN115097853B (zh) * 2022-05-18 2023-07-07 中国航空工业集团公司沈阳飞机设计研究所 一种基于细粒度重复策略的无人机机动飞行控制方法
CN114895697B (zh) * 2022-05-27 2024-04-30 西北工业大学 一种基于元强化学习并行训练算法的无人机飞行决策方法
CN115185288B (zh) * 2022-05-27 2024-05-03 西北工业大学 一种基于sac算法的无人机分层飞行决策方法
CN115755956B (zh) * 2022-11-03 2023-12-15 南京航空航天大学 一种知识与数据协同驱动的无人机机动决策方法与系统
CN116069056B (zh) * 2022-12-15 2023-07-18 南通大学 一种基于深度强化学习的无人机战场目标跟踪控制方法
CN116489193B (zh) * 2023-05-04 2024-01-23 中国人民解放军陆军工程大学 一种作战网络自适应组合方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9087451B1 (en) * 2014-07-14 2015-07-21 John A. Jarrell Unmanned aerial vehicle communication, monitoring, and traffic management
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111859816A (zh) * 2020-08-03 2020-10-30 南京航空航天大学 拟态物理法与ddqn结合的无人机集群空战决策方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112052511A (zh) * 2020-06-15 2020-12-08 成都蓉奥科技有限公司 一种基于深度随机博弈的空战机动策略生成技术
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9087451B1 (en) * 2014-07-14 2015-07-21 John A. Jarrell Unmanned aerial vehicle communication, monitoring, and traffic management
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN112052511A (zh) * 2020-06-15 2020-12-08 成都蓉奥科技有限公司 一种基于深度随机博弈的空战机动策略生成技术
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN111859816A (zh) * 2020-08-03 2020-10-30 南京航空航天大学 拟态物理法与ddqn结合的无人机集群空战决策方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于 Double Deep Q Network 的无人机隐蔽接敌策略;何金等;《电光与控制》;20200731;第27卷(第7期);第52-57页 *

Also Published As

Publication number Publication date
CN113093802A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN112230678B (zh) 基于粒子群算法的三维无人机路径规划方法及规划系统
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN112947592B (zh) 一种基于强化学习的再入飞行器轨迹规划方法
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及系统
CN113050686B (zh) 一种基于深度强化学习的作战策略优化方法及系统
CN114253296B (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
Bai et al. UAV maneuvering decision-making algorithm based on twin delayed deep deterministic policy gradient algorithm
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN113159266B (zh) 基于麻雀搜索神经网络的空战机动决策方法
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN114510078A (zh) 一种基于深度强化学习的无人机机动规避决策方法
CN113221444A (zh) 一种面向空中智能博弈的行为模仿训练方法
Yuan et al. Research on UCAV maneuvering decision method based on heuristic reinforcement learning
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
Chen et al. Deep reinforcement learning based strategy for quadrotor UAV pursuer and evader problem
CN116243727A (zh) 一种渐进式深度强化学习的无人载具对抗与避障方法
CN117035435A (zh) 一种动态环境下的多无人机任务分配与航迹规划优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant