CN113093803A - 一种基于e-sac算法的无人机空战运动控制方法 - Google Patents
一种基于e-sac算法的无人机空战运动控制方法 Download PDFInfo
- Publication number
- CN113093803A CN113093803A CN202110364108.9A CN202110364108A CN113093803A CN 113093803 A CN113093803 A CN 113093803A CN 202110364108 A CN202110364108 A CN 202110364108A CN 113093803 A CN113093803 A CN 113093803A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- expert
- angle
- plane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
- G05D1/1064—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones specially adapted for avoiding collisions with other aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于E‑SAC算法的无人机空战运动控制方法,首先构建无人机运动模型,获取无人机自身的状态及敌机的相对状态,组成总状态,然后构建SAC算法模型并进行训练,最后根据无人机机动模型,采用SAC算法模型实现机动,直至实现对敌机的攻击。本发明通过专家经验样本在前期驱动训练,使得算法全局收敛,能够获取更快的作战效率。
Description
技术领域
本发明属于无人机技术领域,具体涉及一种无人机空战运动控制方法。
背景技术
随着智能算法应用的层出不穷,学者与研究人员意识到“人工智能+无人机”的组合将会产生更多高级、新型、有效的空战策略,能够改变未来战场的作战模式。
近些年来,国内外已出现研究使用深度强化学习算法进行无人机运动控制,如Q-learning、DQN、DDPG算法。然而这些方法在训练过程中,算法收敛速度较慢,训练训练较低,极易陷入局部最优决策,无法获得全局最优的无人机自主机动决策,不能满足空战对抗机动决策的要求。
发明内容
为了克服现有技术的不足,本发明提供了一种基于E-SAC算法的无人机空战运动控制方法,首先构建无人机运动模型,获取无人机自身的状态及敌机的相对状态,组成总状态,然后构建SAC算法模型并进行训练,最后根据无人机机动模型,采用SAC算法模型实现机动,直至实现对敌机的攻击。本发明通过专家经验样本在前期驱动训练,使得算法全局收敛,能够获取更快的作战效率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机运动模型;
步骤S2:获取无人机自身的状态及敌机的相对状态,组成总状态s;
步骤S3:构建SAC算法模型并进行训练;
步骤S31:构建SAC算法模型,构建奖励函数R;
步骤S32:建立专家决策方法,获取专家动作控制量,提取专家经验样本,获得专家经验池Me;
步骤S33:将总状态s输入SAC算法模型并输出动作控制量a,无人机执行动作后获取下一时刻状态s'及奖励值r,将元组<s,a,s’,r>存储至SAC算法模型的经验池M;
步骤S34:使用专家经验池Me和SAC算法经验池M中数据对SAC算法模型进行训练,直至算法模型收敛;
步骤S4:根据步骤S1中的无人机机动模型,无人机采用SAC算法模型实现机动,直至实现对敌机的攻击。
进一步地,所述步骤S1中构建无人机运动模型的步骤具体包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,为无人机航向角变化量。
进一步地,所述步骤S2中获取无人机自身的状态及敌机的相对状态,组成总状态s的具体步骤包括:
其中,为无人机在三维空间坐标系的位置向量,为速度向量,vr为无人机速度大小,θr为无人机俯仰角,为无人机航向角;为敌机在三维空间坐标系的位置向量,为速度向量,vb为敌机速度大小,θb为敌机俯仰角,为敌机航向角;
进一步地,所述步骤S31中构建SAC算法模型,构建奖励函数R的具体步骤包括:
步骤S31-2:奖励函数R的构建如下:
R=w1*Rd+w2*Ra,
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rd为距离奖惩函数,Rq为角度奖惩函数,w1,w2为距离奖惩与角度奖惩的权重;Rd1为连续距离奖惩值,Rd2为稀疏距离奖惩值,Dmin为无人机所载导弹的最小攻击距离,Dmax为无人机所载导弹的最大攻击距离,Rq1表示连续角度奖惩值,Rq2表示稀疏角度奖惩值,qmax表示无人机所载导弹的最大离轴发射角。
进一步地,所述步骤S32中建立专家决策方法,获取专家动作控制量的具体步骤包括:
令Δv为敌机和无人机速度之差,△v=vb-vr,则速度的变化量dv为:
令△θ=Dθ-θ,则俯仰角的变化量dθ为:
进一步地,所述步骤S32中提取专家经验样本,获得专家经验池Me的步骤具体包括:
步骤S32-1:定义需提取样本的环境个数n,令i=1;
步骤S32-2:在作战区域内初始化第i组无人机及敌机,获取状态se;
步骤S32-3:依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量,并定义为动作ae;
步骤S32-4:执行动作ae,获得新的作战状态s′e,同时计算得到奖惩值re;
步骤S32-5:元组<se,ae,s′e,re>即为专家经验样本,将样本存储至专家经验池Me;
步骤S32-6:判定是否作战成功,若成功则i加1;否则执行步骤S32-3至S32-6;
步骤S32-7:判定i是否小于n,若i<n则执行步骤S32-2至S32-7;否则结束;
步骤S32-8:获得所存储的专家经验样本池。
进一步地,所述步骤S34中对SAC算法模型进行训练的步骤具体包括:
步骤S34-1:定义批量处理数据大小为batch_size,定义提供专家样本数据训练步数expert_step;
步骤S34-3:判定SAC算法模型经验池M内经验组数是否小于expert_step,若为是,则从专家经验池Me中随机取出n1组经验,n1=batch_size,对SAC算法中神经网络权重进行更新;若为否,则从专家经验池Me中随机取出n1组经验,从SAC算法经验池M中取出n2组经验,令n2=batch_size-n1,对SAC算法中神经网络权重进行更新。
进一步地,所述batch_size=256,expert_step=2e5。
本发明的有益效果如下:
1、本发明借助少量专家经验增加样本的多样性,能够有效提升强化学习的探索与利用效率,加速算法的收敛过程。
2、本发明通过专家经验样本在前期驱动训练,使得算法全局收敛,能够获取更快的作战效率。
附图说明
图1是本发明的方法流程图。
图2是本发明实施例的无人机与敌机位置及相关参数图。
图3是本发明方法的SAC算法模型结构图。
图4是本发明实施例的无人机导弹攻击区示意图。
图5是本发明实施例无人机作战轨迹图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明考虑到专家知识样本对深度强化学习算法的引导作用,以专家数据为驱动进行训练,能够快速的实现算法训练的全局收敛,解决了算法的局部收敛问题,得到全局最优决策模型。
如图1所示,一种基于E-SAC算法的无人机空战运动控制方法,包括以下步骤:
步骤S1:在三维空间中,无人机具有位置、速度和姿态等物理描述量;据此构建无人机运动模型;
步骤S2:获取无人机自身的状态及敌机的相对状态,组成总状态s;
步骤S3:构建SAC算法模型并进行训练;
步骤S31:构建SAC算法模型,构建奖励函数R;
步骤S32:建立专家决策方法,获取专家动作控制量,提取专家经验样本,获得专家经验池Me;
步骤S33:将总状态s输入SAC算法模型并输出动作控制量a,无人机执行动作后获取下一时刻状态s'及奖励值r,将元组<s,a,s′,r>存储至SAC算法模型的经验池M;
步骤S34:使用专家经验池Me和SAC算法经验池M中数据对SAC算法模型进行训练,直至算法模型收敛;
步骤S4:根据步骤S1中的无人机机动模型,无人机采用SAC算法模型实现机动,直至实现对敌机的攻击。
进一步地,所述步骤S1中构建无人机运动模型的步骤具体包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,为无人机航向角变化量。
进一步地,所述步骤S2中获取无人机自身的状态及敌机的相对状态,组成总状态s的具体步骤包括:
其中,为无人机在三维空间坐标系的位置向量,为速度向量,vr为无人机速度大小,θr为无人机俯仰角,为无人机航向角;为敌机在三维空间坐标系的位置向量,为速度向量,vb为敌机速度大小,θb为敌机俯仰角,为敌机航向角;
进一步地,所述步骤S31中构建SAC算法模型,构建奖励函数R的具体步骤包括:
SAC算法经验池M是一种经验回放缓存结构,用来专门贮存强化学习中学习的经验;
Actor神经网络πθ的输入为状态值st,输出为均值μ和方差σ。噪声τ从标准正态分布采样得到。由均值μ和方差σ和噪声τ生成动作at,并通过tanh函数将动作at限制在(-1,1)之间,动作生成过程如下所示:
μ,σ=πθ(st)
at=N(μ,σ2)=μ+σ*τ
at=tanh(at)
Soft-Q神经网络和的输入为状态值和动作值,输出为神经网络预测的Q值。Target Soft-Q神经网络和与Soft-Q神经网络结构相同但是网络权重不同,Soft-Q神经网络用于产生预测的Q值以及选取动作;Target Soft-Q神经网络产生目标Q值以及评估动作。Soft-Q神经网络权重实时优化更新,且在一定次数迭代后将权重复制于TargetSoft-Q网络。
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数;
步骤S31-2:奖励函数R的构建由敌机和无人机距离、相对方位角及无人机所载导弹的相关参数共同决定,计算如下:
R=w1*Rd+w2*Ra,
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rd为距离奖惩函数,Rq为角度奖惩函数,w1,w2为距离奖惩与角度奖惩的权重;Rd1为连续距离奖惩值,Rd2为稀疏距离奖惩值,Dmin为无人机所载导弹的最小攻击距离,Dmax为无人机所载导弹的最大攻击距离,d为无人机到敌机的距离,Rq1表示连续角度奖惩值,Rq2表示稀疏角度奖惩值,q表示相对方位角,qmax表示无人机所载导弹的最大离轴发射角。
进一步地,所述步骤S32中专家决策方法的作用为在当前作战态势下获得能令无人机产生作战优势的运动控制量,实现对无人机的最优控制。专家动作控制量包括速度、俯仰角、航向角的变化量,设无人机速度、航向角与俯仰角的增量需要分别控制在[-△v0,△v0]、[-△θ0,△θ0]范围内,无人机专家控制模型如下:
令Δv为敌机和无人机速度之差,△v=vb-vr,则速度的变化量dv为:
令△θ=Dθ-θ,则俯仰角的变化量dθ为:
得到速度、俯仰角、航向角的变化量后,通过无人机运动模型可以求得无人机的位置,从而实现基于专家控制方式的机动飞行。
进一步地,所述步骤S32中提取专家经验样本,获得专家经验池Me的步骤具体包括:
步骤S32-1:定义需提取样本的环境个数n,令i=1;
步骤S32-2:在作战区域内初始化第i组无人机及敌机,获取状态se;
步骤S32-3:依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量,并定义为动作ae;
步骤S32-4:执行动作ae,获得新的作战状态s′e,同时计算得到奖惩值re;
步骤S32-5:元组<se,ae,se′,re>即为专家经验样本,将样本存储至专家经验池Me;
步骤S32-6:判定是否作战成功,若成功则i加1;否则执行步骤S32-3至S32-6;
步骤S32-7:判定i是否小于n,若i<n则执行步骤S32-2至S32-7;否则结束;
步骤S32-8:获得所存储的专家经验样本池。
进一步地,所述步骤S34中对SAC算法模型进行训练的步骤具体包括:
步骤S34-1:定义批量处理数据大小为batch_size,定义提供专家样本数据训练步数expert_step;
步骤S34-3:判定SAC算法模型经验池M内经验组数是否小于expert_step,若为是,则从专家经验池Me中随机取出n1组经验,n1=batch_size,对SAC算法中神经网络权重进行更新;若为否,则从专家经验池Me中随机取出n1组经验,从SAC算法经验池M中取出n2组经验,令n2=batch_size-n1,对SAC算法中神经网络权重进行更新。
n1与n2之间的关系如下:
若SAC算法模型经验池M样本数为偶数则:
n1=n1-1
n2=batch_size-n1
其中Actor神经网络损失函数定义如下:
更新正则化系数α,损失函数为:
J(α)=E[-αlogπt(at|st)-αH0]
具体实施例:
本实施例中,如图2所示,我方无人机的位置向量为[-2km,3km,4km],俯仰角、航向角分别为2°、120°,初始速度为80m/s;敌机的位置向量为[5km,4km,-6km],俯仰角、航向角分别为1°、-30°,初始速度为80m/s。计算得到d=12.25km,q=170.30°。总状态s=[-2km,3km,4km,80,2,120,12.25,170.30]。
本实施例中,SAC算法模型的结构如图3所示。
奖励函数R的设计中,w1=w2=0.5,无人机所载导弹的最大攻击距离为6km,最小攻击距离为1km,导弹的最大离轴发射角为30°。导弹攻击区如图4所示。
提取专家样本的环境个数n=100。
小样本组数batch_size=256,定义提供专家样本训练步数expert_step=2e5。
使用训练后的模型对无人机进行机动决策后,无人机的作战轨迹如图5所示。红方为我方无人机,采用训练后的模型进行决策,蓝方为敌机,做固定机动。图中显示,我方通过机动实现了近敌,使得敌方能够被我方的导弹击毁。
Claims (8)
1.一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,包括以下步骤:
步骤S1:构建无人机运动模型;
步骤S2:获取无人机自身的状态及敌机的相对状态,组成总状态s;
步骤S3:构建SAC算法模型并进行训练;
步骤S31:构建SAC算法模型,构建奖励函数R;
步骤S32:建立专家决策方法,获取专家动作控制量,提取专家经验样本,获得专家经验池Me;
步骤S33:将总状态s输入SAC算法模型并输出动作控制量a,无人机执行动作后获取下一时刻状态s'及奖励值r,将元组<s,a,s′,r>存储至SAC算法模型的经验池M;
步骤S34:使用专家经验池Me和SAC算法经验池M中数据对SAC算法模型进行训练,直至算法模型收敛;
步骤S4:根据步骤S1中的无人机机动模型,无人机采用SAC算法模型实现机动,直至实现对敌机的攻击。
2.根据权利要求1所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S1中构建无人机运动模型的步骤具体包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
3.根据权利要求2所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S2中获取无人机自身的状态及敌机的相对状态,组成总状态s的具体步骤包括:
其中,为无人机在三维空间坐标系的位置向量,为速度向量,vr为无人机速度大小,θr为无人机俯仰角,为无人机航向角;为敌机在三维空间坐标系的位置向量,为速度向量,vb为敌机速度大小,θb为敌机俯仰角,为敌机航向角;
4.根据权利要求3所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S31中构建SAC算法模型,构建奖励函数R的具体步骤包括:
步骤S31-2:奖励函数R的构建如下:
R=w1*Rd+w2*Ra,
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rd为距离奖惩函数,Rq为角度奖惩函数,w1,w2为距离奖惩与角度奖惩的权重;Rd1为连续距离奖惩值,Rd2为稀疏距离奖惩值,Dmin为无人机所载导弹的最小攻击距离,Dmax为无人机所载导弹的最大攻击距离,Rq1表示连续角度奖惩值,Rq2表示稀疏角度奖惩值,qmax表示无人机所载导弹的最大离轴发射角。
5.根据权利要求4所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S32中建立专家决策方法,获取专家动作控制量的具体步骤包括:
令Δv为敌机和无人机速度之差,△v=vb-vr,则速度的变化量dv为:
令△θ=Dθ-θ,则俯仰角的变化量dθ为:
6.根据权利要求5所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S32中提取专家经验样本,获得专家经验池Me的步骤具体包括:
步骤S32-1:定义需提取样本的环境个数n,令i=1;
步骤S32-2:在作战区域内初始化第i组无人机及敌机,获取状态se;
步骤S32-3:依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量,并定义为动作ae;
步骤S32-4:执行动作ae,获得新的作战状态s′e,同时计算得到奖惩值re;
步骤S32-5:元组<se,ae,s′e,re>即为专家经验样本,将样本存储至专家经验池Me;
步骤S32-6:判定是否作战成功,若成功则i加1;否则执行步骤S32-3至S32-6;
步骤S32-7:判定i是否小于n,若i<n则执行步骤S32-2至S32-7;否则结束;
步骤S32-8:获得所存储的专家经验样本池。
7.根据权利要求6所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述步骤S34中对SAC算法模型进行训练的步骤具体包括:
步骤S34-1:定义批量处理数据大小为batch_size,定义提供专家样本数据训练步数expert_step;
步骤S34-3:判定SAC算法模型经验池M内经验组数是否小于expert_step,若为是,则从专家经验池Me中随机取出n1组经验,n1=batch_size,对SAC算法中神经网络权重进行更新;若为否,则从专家经验池Me中随机取出n1组经验,从SAC算法经验池M中取出n2组经验,令n2=batch_size-n1,对SAC算法中神经网络权重进行更新。
8.根据权利要求7所述的一种基于E-SAC算法的无人机空战运动控制方法,其特征在于,所述batch_size=256,expert_step=2e5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364108.9A CN113093803B (zh) | 2021-04-03 | 2021-04-03 | 一种基于e-sac算法的无人机空战运动控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364108.9A CN113093803B (zh) | 2021-04-03 | 2021-04-03 | 一种基于e-sac算法的无人机空战运动控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113093803A true CN113093803A (zh) | 2021-07-09 |
CN113093803B CN113093803B (zh) | 2022-10-14 |
Family
ID=76673497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110364108.9A Expired - Fee Related CN113093803B (zh) | 2021-04-03 | 2021-04-03 | 一种基于e-sac算法的无人机空战运动控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113093803B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150036916A1 (en) * | 2013-07-30 | 2015-02-05 | The Boeing Company | Stereo-motion method of three-dimensional (3-d) structure information extraction from a video for fusion with 3-d point cloud data |
CN108021754A (zh) * | 2017-12-06 | 2018-05-11 | 北京航空航天大学 | 一种无人机自主空战决策框架及方法 |
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
CN111667513A (zh) * | 2020-06-01 | 2020-09-15 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
CN111666631A (zh) * | 2020-06-03 | 2020-09-15 | 南京航空航天大学 | 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法 |
CN111859541A (zh) * | 2020-07-17 | 2020-10-30 | 西北工业大学 | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 |
CN111859816A (zh) * | 2020-08-03 | 2020-10-30 | 南京航空航天大学 | 拟态物理法与ddqn结合的无人机集群空战决策方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN112180967A (zh) * | 2020-04-26 | 2021-01-05 | 北京理工大学 | 基于评判-执行架构的多无人机协同对抗决策方法 |
CN112215283A (zh) * | 2020-10-12 | 2021-01-12 | 中国人民解放军海军航空大学 | 基于有人/无人机系统的近距空战智能决策方法 |
CN112435275A (zh) * | 2020-12-07 | 2021-03-02 | 中国电子科技集团公司第二十研究所 | 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法 |
CN112596515A (zh) * | 2020-11-25 | 2021-04-02 | 北京物资学院 | 一种多物流机器人移动控制方法及装置 |
-
2021
- 2021-04-03 CN CN202110364108.9A patent/CN113093803B/zh not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150036916A1 (en) * | 2013-07-30 | 2015-02-05 | The Boeing Company | Stereo-motion method of three-dimensional (3-d) structure information extraction from a video for fusion with 3-d point cloud data |
CN108021754A (zh) * | 2017-12-06 | 2018-05-11 | 北京航空航天大学 | 一种无人机自主空战决策框架及方法 |
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
CN112180967A (zh) * | 2020-04-26 | 2021-01-05 | 北京理工大学 | 基于评判-执行架构的多无人机协同对抗决策方法 |
CN111667513A (zh) * | 2020-06-01 | 2020-09-15 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
CN111666631A (zh) * | 2020-06-03 | 2020-09-15 | 南京航空航天大学 | 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法 |
CN111859541A (zh) * | 2020-07-17 | 2020-10-30 | 西北工业大学 | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN111859816A (zh) * | 2020-08-03 | 2020-10-30 | 南京航空航天大学 | 拟态物理法与ddqn结合的无人机集群空战决策方法 |
CN112215283A (zh) * | 2020-10-12 | 2021-01-12 | 中国人民解放军海军航空大学 | 基于有人/无人机系统的近距空战智能决策方法 |
CN112596515A (zh) * | 2020-11-25 | 2021-04-02 | 北京物资学院 | 一种多物流机器人移动控制方法及装置 |
CN112435275A (zh) * | 2020-12-07 | 2021-03-02 | 中国电子科技集团公司第二十研究所 | 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法 |
Non-Patent Citations (3)
Title |
---|
BO LI,ET AL.: "Maneuvering target tracking of UAV based on MN-DDPG and transfer learning", 《DEFENCE TECHNOLOGY》 * |
ZIJIAN HU,ET AL.: "Relevant experience learning: A deep reinforcement learning method for UAV autonomous motion planning in complex unknown environments", 《CHINESE JOURNAL OF AERONAUTICS》 * |
何金等: "基于Double Deep Q Network的无人机隐蔽接敌策略", 《电光与控制》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113093803B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
US11794898B2 (en) | Air combat maneuvering method based on parallel self-play | |
CN112947562B (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN111666631A (zh) | 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
CN113221444B (zh) | 一种面向空中智能博弈的行为模仿训练方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN112001120B (zh) | 一种基于强化学习的航天器对多拦截器自主规避机动方法 | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN113050686A (zh) | 一种基于深度强化学习的作战策略优化方法及系统 | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
CN113962012A (zh) | 无人机对抗策略优化方法及装置 | |
CN116697829A (zh) | 一种基于深度强化学习的火箭着陆制导方法及系统 | |
CN114063644A (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN115857548A (zh) | 一种基于深度强化学习的末制导律设计方法 | |
CN116820134A (zh) | 基于深度强化学习的无人机编队保持控制方法 | |
Wang et al. | Autonomous maneuver decision of uav based on deep reinforcement learning: comparison of DQN and DDPG | |
CN113093803B (zh) | 一种基于e-sac算法的无人机空战运动控制方法 | |
CN116774731A (zh) | 一种基于强化学习的无人机编队路径规划方法 | |
CN116796843A (zh) | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 | |
CN113050420B (zh) | 基于s面控制和td3的auv路径跟踪方法及系统 | |
Ma et al. | Strategy generation based on reinforcement learning with deep deterministic policy gradient for UCAV | |
CN116796505B (zh) | 一种基于示例策略约束的空战机动策略生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221014 |