CN110673488A - 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 - Google Patents

一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 Download PDF

Info

Publication number
CN110673488A
CN110673488A CN201911009182.8A CN201911009182A CN110673488A CN 110673488 A CN110673488 A CN 110673488A CN 201911009182 A CN201911009182 A CN 201911009182A CN 110673488 A CN110673488 A CN 110673488A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
enemy
reward
random sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911009182.8A
Other languages
English (en)
Inventor
丁勇
何金
高振龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201911009182.8A priority Critical patent/CN110673488A/zh
Publication of CN110673488A publication Critical patent/CN110673488A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公布了一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法,包括:首先,建立隐蔽接敌双方空战态势示意图,由该图建立隐蔽接敌过程的优势区域与暴露区域;其次,建立无人机的状态空间并转化为特征空间和基于速度限制的无人机动作空间;然后,构建基于优先级随机抽样策略的双深度Q学习网络;接着,根据优势区域与暴露区域中敌我双方相对位置构建目标势函数奖赏,由无人机与障碍物的距离构建障碍物奖赏,将二者叠加为总奖赏对Double DQN神经网络进行隐蔽接敌训练;最后,将无人机当前的特征序列输入至训练后的Double DQN中的Q目标神经网络,得到无人机最优隐蔽接敌策略。该方法主要解决了无人机无模型隐蔽接敌问题。

Description

一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌 方法
技术领域
本发明属于无人机空战决策领域,特别是一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法。
技术背景
随着空战环境越来越复杂与未知,新一代无人飞行器更加强调低可探测性、高机动性、网络化作战与隐身突防轨迹优化等特性。采用隐蔽接敌策略,无人飞行器能很快到达优势区域,形成可攻击条件,同时避免出现在敌机攻击范围内的暴露区域。因此,隐蔽接敌对于无人飞行器的作战与生存性能起着至关重要的作用。由于空战的实时性要求较高,目前采用的由地面站遥控的方法很难完成对无人机及时、准确的操控,因此提高无人机的智能水平,让无人机能独立感知战场环境,自动产生控制指令完成空战中的机动选择是当前无人机空战主要的研究方向。
强化学习是一种采用“试错”的方法与环境交互的学习算法,由于空战环境的不确定性以及复杂性,传统强化学习无法解决高维连续状态空间策略学习所面临的“维数灾难”问题,因此产生了将深度学习与强化学习进行结合的DQN算法,利用深度学习的神经网络拟合动作值函数解决该问题。但DQN算法在进行动作选择与动作评估时均采用同一个神经网络,很容易产生过拟合现象,导致所选动作并非最优解而是当前状态的次优解。
因此本发明针对以上问题,提出一种基于优先级随机抽样策略的Double DQN算法,利用Double DQN生成目标值函数的方法解决了传统DQN的过拟合问题,同时基于优先级随机抽样策略获取样本对神经网络进行训练,加快了神经网络的训练速度,保证了隐蔽接敌过程的准确性和快速性。
发明内容
本发明的目的在于提供一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法,该方法可以使无人机在无环境模型情况下进行隐蔽接地。
为实现上述目的,本发明采用以下技术方案:
一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法,包括:
步骤1,建立隐蔽接敌双方空战态势示意图,由该图建立隐蔽接敌过程的优势区域与暴露区域。
步骤2,建立无人机在环境中的状态空间,并将其转换为特征空间。
步骤3,建立基于速度限制的无人机动作空间。
步骤4,构建基于优先级随机抽样策略的双深度Q学习网络。
步骤5,根据优势区域与暴露区域构建目标势函数奖赏,利用无人机与障碍物的距离构建障碍物奖赏,将二者叠加构成总的势函数奖赏。
步骤6,利用总的势函数奖赏对Double DQN神经网络进行训练,更新网络参数。
步骤7,将无人机当前的特征序列输入训练后的Double DQN中的Q目标神经网络,得到无人机最优隐蔽接敌策略。
本发明具有以下优点:
1.本发明通过对无人机的动作空间进行速度限制,达到了对无人机飞行姿态角的限制,更符合实际战场环境。
2.本发明通过引入基于优先级随机抽样策略改进Double DQN算法,克服了传统强化学习算法过拟合的缺点,避免了动作选择次优解而非最优解的问题,同时按照优先级随机抽样原则抽取训练样本,提高了神经网络训练的快速性。
3.本发明采用神经网络对动作值函数进行拟合,解决了传统强化学习的维数过高问题,能够实现无模型无人机隐蔽接敌。
附图说明
图1为本发明方法的流程图
图2为敌我双方空战态势示意图
图3为优势区域与暴露区域示意图
图4为基于优先级随机抽样策略的Double DQN算法隐蔽接敌测试图
图5为基于优先级随机抽样策略的Double DQN算法不同训练次数平均奖赏比较
图6为基于优先级随机抽样策略的Double DQN算法前7000次训练的损失函数曲线
具体实施方式
结合所附图表,对本发明的技术方案作具体说明。
本发明的一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法,具体包括以下步骤:
步骤1,建立隐蔽接敌双方空战态势示意图,如图2所示。图中,B和R分别为我方和敌方无人机的位置,L为敌我双方的距离,
Figure BSA0000192238880000031
为我方无人机提前角,θ为敌方无人机进入角,ρ为敌我双方航向夹角,vb和vr分别为敌我双方速度矢量。然后,根据该空战态势图,得到隐蔽接敌过程的优势区域与暴露区域,如图 3所示,具体计算公式为:
(1.1)优势区域定义为:
Figure BSA0000192238880000032
式中,θ为敌方无人机进入角,
Figure BSA0000192238880000033
为我方无人机提前角,θm
Figure BSA0000192238880000034
为无人机机载武器性能决定的攻击临界角,L为敌我双方的距离,Rm与RM为机载武器最小发射距离与射程。
(1.2)暴露区域定义为:
Figure BSA0000192238880000035
式中,θ为敌方无人机进入角,L为敌我双方距离,θR为敌机雷达最大扫描角度, RR为敌机最大侦察距离。
步骤2,设敌我双方无人机在环境中的位置分别为(xb,yb)和(xr,yr),敌我双方无人机的速度分别为vb和vr,敌我双方航向夹角为ρ,则无人机在环境中的状态空间为S=[xr,yr,xb,yb,vr,vb],将状态空间S转化为特征空间
Figure BSA0000192238880000036
其中,L,α,
Figure BSA0000192238880000037
θ具体计算公式为:
Figure BSA0000192238880000038
式中,L为敌我双方的距离,α为敌我双方连线与横坐标的夹角,
Figure BSA0000192238880000041
为我方无人机提前角,θ为敌方无人机进入角,ρ为敌我双方航向夹角,vr,vb为敌我双方的速度矢量,其与横轴的夹角分别为∠vr,∠vb
步骤3,由于无人机接敌时转向存在角度限制,故对无人机动作选择进行限制,建立基于速度限制的动作空间At,具体为:
At=[n-3,n-2,n-1,n,n+1,n+2,n+3] (16)
式中,At为t时刻的动作空间,n为上一时刻无人机的动作序号。
步骤4,构建基于优先级随机抽样策略的双深度Q学习网络,具体为:
(4.1)建立双深度Q学习网络,初始化参数如下表所示。
Figure BSA0000192238880000042
(4.2)通过优先级随机抽样策略抽取经验池中的样本,对双深度Q学习网络进行训练,具体为:
(4.2.1)对于样本j计算优先级P(j),计算公式为:
Figure BSA0000192238880000043
式中,pi和pj分别为第i和第j个样本的时序差分差异,具体为:
pi=TargetQ-Q(si,ai;θ) (18)
pj=TargetQ-Q(sj,aj;θ) (19)
其中,TargetQ为目标神经网络输出的Q值,Q(si,ai;θ)和Q(sj,aj;θ)为Q估计神经网络输出的Q值。
(4.2.2)基于优先级随机抽样策略抽取经验池中的样本,将抽取的样本送入神经网络进行训练,具体步骤为:
首先,从经验池中随机抽取n个样本,根据其优先级P(j),(j=1,2,…,n)进行排序;
然后,根据抽样数量选取前n1个优先级的样本作为训练样本,输入至神经网络进行训练。
步骤5,根据优势区域与暴露区域中敌我双方相对位置关系构建目标势函数奖赏,利用无人机与障碍物的距离构建障碍物奖赏,将二者叠加构成总势函数奖赏,具体为:
(5.1)根据优势区域与暴露区域中敌我双方相对位置关系构建目标势函数奖赏rtar,具体过程为:
(5.1.1)建立态势函数A(s),计算公式为:
Figure BSA0000192238880000051
式中,μ1与μ2为角度调节因子,分别满足
Figure BSA0000192238880000052
Figure BSA0000192238880000053
这里α1为敌机的雷达扫描角度,α2为我方无人机的攻击覆盖角度。θ为敌方无人机进入角,
Figure BSA0000192238880000054
为我方无人机提前角,d为飞行步长,Rd为期望的接近距离,k为调节因子。
(5.1.2)建立目标即时奖赏函数R(s),计算公式为:
Figure BSA0000192238880000055
式中,dk为当前时刻敌我双方的距离,dk+1是下一时刻敌我双方的距离。
(5.1.3)目标势函数奖赏rtar计算公式为:
rtar=ωR(s)+(1-ω)A(s) (22)
式中,ω为权重因子,表示即时收益与态势优势的权重关系,这里取ω=0.15。
(5.2)利用无人机与障碍物的距离构建障碍物奖赏rob,计算公式为:
Figure BSA0000192238880000061
式中,
Figure BSA0000192238880000062
为当前时刻无人机与障碍物误入区域最短距离,
Figure BSA0000192238880000063
为执行完当前动作后下一时刻无人机与误入区域最短距离,rob为障碍物最大半径。
(5.3)将二者叠加构成无人机总的势函数奖赏r,计算公式为:
r=rtar+rob (24)
步骤6,利用无人机总的势函数奖赏r对Double DQN神经网络进行训练,更新网络参数,具体步骤为:
(6.1)建立样本池,确定经验池容量D=50000以及最小经验块Dm=300。
(6.2)建立Q目标神经网络和Q估计神经网络,该网络是由一个输入层、两个隐含层和一个输出层组成的全连接神经网络,选择激活函数为ReLU,设置神经网络学习率α=0.001、折扣因子γ=0.1、无人机飞行步长η=5、动态贪婪系数ε满足:
Figure BSA0000192238880000064
式中,t为当前训练情节数,δ为偏移量,这里选取δ=20。
(6.3)每次训练设置总的训练情节数N=1000。
(6.4)随机初始化无人机状态向量
Figure BSA0000192238880000065
及敌我双方航向夹角ρ1,将其转化为特征向量其中,L1,α1
Figure BSA0000192238880000067
θ1由式 (15)得到。
(6.5)对情节中的第k步,将特征向量
Figure BSA0000192238880000068
作为神经网络的输入,按照ε的概率随机选择动作ak,按照1-ε的概率选择值函数最大的动作ak=argmaxaQ(s,a;θ);无人机执行动作ak,计算当前时刻势函数奖赏 rk;计算无人机下一时刻的状态
Figure BSA0000192238880000069
及敌我双方航向夹角ρk+1,并将该状态转化为特征向量
Figure BSA00001922388800000610
其中,Lk+1,αk+1
Figure BSA00001922388800000611
θk+1由式(15)得到。
(6.6)将当前特征向量
Figure BSA0000192238880000071
作为新的样本存储在经验池D中,从经验池D中随机抽取最小经验块Dmin对神经网络进行训练。
(6.7)构造损失值函数L(θ),对其执行梯度下降,更新Q估计神经网络权值θ,并且每隔100步更新Q目标神经网络权值θ-=θ。这里,L(θ)满足:
Figure BSA0000192238880000072
式中,Q(sk,ak;θ)为Q估计神经网络输出的Q值,yk为Q目标神经网络输出的 Q值,满足:
Figure BSA0000192238880000073
(6.8)当所有情节全部训练完成,则训练结束;否则,转至步骤(6.4)。
步骤7,将无人机当前的特征序列输入训练后的Double DQN中的Q目标神经网络,得到无人机最优隐蔽接敌策略,具体步骤为:
(7.1)设置无人机飞行步长η为5,障碍物检测距离l为20m。
(7.2)令k=1,随机初始化无人机状态向量
Figure BSA0000192238880000074
及敌我双方航向夹角ρ1,将其转化为特征序列
Figure BSA0000192238880000075
(7.3)将无人机当前的特征序列输入到训练后的Q目标神经网络,由网络输出的最优动作值ak=arg maxaQ(sk,a;θ),得到下一时刻我方无人机位置
Figure BSA0000192238880000077
具体为:
式中,
Figure BSA0000192238880000079
为我方无人机当前位置。
(7.4)当我方无人机进入优势区域,形成隐蔽接敌态势,即
Figure BSA00001922388800000710
则接敌运动结束;否则,获取k+1时刻的状态序列 Sk+1,并按照式(15)将其转化为当前特征序列T(sk+1),令k=k+1转至步骤 (7.3);
为了验证方法的可行性和有效性,下面结合实例对本发明做进一步详细的描述。
在macOS操作系统(版本号为:Mojava version:10.14.5,处理器:2.5GHz intercode i7,内存:16GB 1600MHz DDR3,显卡:Inter Iris Pro 1536MB)上,使用python 语言在pycharm上搭建仿真环境进行算法仿真,并将仿真结果导出,实现可视化。
图4为基于优先级随机抽样策略的DDQN算法在训练10000次后,利用Q 目标神经网络得到的隐蔽接敌测试效果。图中,椭圆为随机产生的10个障碍物,实线曲线为我方无人机飞行轨迹,虚线曲线为敌方无人机飞行轨迹。由图中可以看出,在DDQN训练10000次后,我方无人机能迅速到达敌方无人机后方,形成了可攻击的条件,很好地完成了隐蔽接敌任务。
图5为基于优先级随机抽样策略的Double DQN算法不同训练次数的平均奖赏比较。图中,虚点线为训练情节900到1000的平均奖赏;虚线为训练情节4900 到5000的平均奖赏;实线为训练情节9900到10000的平均奖赏。由虚点线可以看出,在Double DQN训练初期,平均奖赏较低并且有较大的波动,这是由于无人机对环境只进行了较少的探索,因此无法做出合理的决策所导致,并且在第 900到第950个训练情节中平均奖赏为负值;由虚线和实线可以看出,随着训练次数的不断增加,平均奖赏也不断增加,当训练次数达到一定值后,平均奖赏将渐渐收敛,符合马尔科夫理论。
图6为基于优先级随机抽样策略的Double DQN算法前7000次训练的损失函数曲线,可以看出,损失函数值呈现下降趋势,且可以很快下降到一个较小值,说明该网络具有很好的性能。图中曲线出现尖峰现象,是由于在贪婪策略 (ε-greedy)下进行探索,以ε的概率随机选择动作导致。

Claims (5)

1.一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法,其特征在于,包括:
步骤1,建立隐蔽接敌双方空战态势示意图,由该图建立隐蔽接敌过程的优势区域与暴露区域。
步骤2,建立无人机在环境中的状态空间,并将其转换为特征空间。
步骤3,建立基于速度限制的无人机动作空间。
步骤4,构建基于优先级随机抽样策略的双深度Q学习网络。
步骤5,根据优势区域与暴露区域构建目标势函数奖赏,利用无人机与障碍物的距离构建障碍物奖赏,将二者叠加构成总的势函数奖赏。
步骤6,利用总的势函数奖赏对Double DQN神经网络进行训练,更新网络参数。
步骤7,将无人机当前的特征序列输入训练后的Double DQN中的Q目标神经网络,得到无人机最优隐蔽接敌策略。
2.如权利要求1所述的一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法,其特征在于,所述步骤2中建立无人机在环境中的状态空间,并将该状态空间转换为特征空间,具体为:
(2.1)无人机在环境中的状态空间,表达式为:
S=[xr,yr,xb,yb,vr,vb] (1)
式中,xr,yr为我方无人机的位置坐标,xb,yb为敌方无人机的位置坐标,vr,vb分别为我方与敌方的速度矢量。
(2.2)将上述状态空间S转换为特征空间T,表达式为:
式中,L为敌我双方距离,α为敌我双方连线与横坐标的夹角,
Figure FSA0000192238870000012
为我方无人机提前角,θ为敌方无人机进入角,ρ为敌我双方航向夹角,vr,vb为敌我双方的速度矢量。其中,L,α,
Figure FSA0000192238870000013
θ具体计算公式为:
Figure FSA0000192238870000021
式中,∠vr,∠vb为敌我双方的速度矢量vr,vb与横轴的夹角。
3.如权利要求1所述的一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法,其特征在于,所述步骤3中建立基于速度限制的无人机动作空间,具体为:
At=[n-3,n-2,n-1,n,n+1,n+2,n+3] (4)
式中,At为t时刻无人机的动作空间,n为上一时刻无人机的动作序号。
4.如权利要求1所述的一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法,其特征在于,所述步骤4中构建基于优先级随机抽样策略的双深度Q学习网络,其中的优先级随机抽样策略,具体为:
(4.1)对于样本j计算优先级P(j),计算公式为:
Figure FSA0000192238870000022
式中,pi和pj分别为第i和第j个样本的时序差分差异,具体为:
pi=TargetQ-Q(si,ai;θ) (6)
pj=TargetQ-Q(sj,aj;θ) (7)
其中,TargetQ为目标神经网络输出的Q值,Q(si,ai;θ)和Q(sj,aj;θ)为Q估计网络输出的Q值。
(4.2)优先级随机抽样策略,具体为:首先,在进行抽样时,从经验池中随机抽取n个样本,计算其优先级P(j),(j=1,2,…,n),并按照优先级进行排序;然后,根据抽样数量选取前n1个优先级的样本作为训练样本输入至神经网络进行训练。
5.如权利要求1所述的一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法,其特征在于,所述步骤5中根据优势区域与暴露区域中敌我双方相对位置关系构建目标势函数奖赏,利用无人机与障碍物的距离构建障碍物奖赏,将二者叠加构成无人机受到总的势函数奖赏,具体为:
(5.1)根据优势区域与暴露区域中敌我双方相对位置关系构建目标势函数奖赏trar,具体为:
(5.1.1)建立态势函数A(s),计算公式为:
Figure FSA0000192238870000031
式中,μ1与μ2为角度调节因子,分别满足
Figure FSA0000192238870000033
这里α1为敌机的雷达扫描角度,α2为我方无人飞行器的攻击覆盖角度。θ为敌方无人机进入角,
Figure FSA0000192238870000034
为我方无人机提前角,d为飞行步长,Rd为期望的接近距离,k为调节因子。
(5.1.2)建立目标即时奖赏函数R(s),计算公式为:
Figure FSA0000192238870000035
式中,dk为当前时刻敌我双方的距离,dk+1是下一时刻敌我双方的距离。
(5.1.3)目标势函数奖赏rtar计算公式为:
rtar=ωR(s)+(1-ω)A(s) (10)
式中,ω为权重因子,表示即时收益与态势优势的权重关系。
(5.2)利用无人机与障碍物的距离构建障碍物奖赏rob,计算公式为:
Figure FSA0000192238870000036
式中,
Figure FSA0000192238870000037
为当前时刻无人机与障碍物误入区域最短距离,
Figure FSA0000192238870000038
为执行完当前动作后下一时刻无人机与误入区域最短距离,rob为障碍物最大半径。
(5.3)将二者叠加构成无人机受到总的势函数奖赏r,计算公式为:
r=rtar+rob (12)
CN201911009182.8A 2019-10-21 2019-10-21 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 Pending CN110673488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911009182.8A CN110673488A (zh) 2019-10-21 2019-10-21 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911009182.8A CN110673488A (zh) 2019-10-21 2019-10-21 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法

Publications (1)

Publication Number Publication Date
CN110673488A true CN110673488A (zh) 2020-01-10

Family

ID=69083765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911009182.8A Pending CN110673488A (zh) 2019-10-21 2019-10-21 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法

Country Status (1)

Country Link
CN (1) CN110673488A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859816A (zh) * 2020-08-03 2020-10-30 南京航空航天大学 拟态物理法与ddqn结合的无人机集群空战决策方法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112883947A (zh) * 2021-04-29 2021-06-01 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN113055384A (zh) * 2021-03-12 2021-06-29 周口师范学院 一种ssddqn的网络异常流量检测方法
CN113128021A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN114371729A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171948A (ja) * 2004-12-14 2006-06-29 Fuji Electric Holdings Co Ltd 解探索方法、解探索装置、解探索プログラムおよび記録媒体
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171948A (ja) * 2004-12-14 2006-06-29 Fuji Electric Holdings Co Ltd 解探索方法、解探索装置、解探索プログラムおよび記録媒体
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
左思翔: "基于深度强化学习的无人驾驶智能决策控制研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *
徐安 等: "基于MDP框架的飞行器隐蔽接敌策略", 《系统工程与电子技术》 *
徐安 等: "基于RBF神经网络的Q学习飞行器隐蔽接敌策略", 《系统工程与电子技术》 *
胡磊: "基于启发神经网络强化学习的AUV路径规划方法研究", 《哈尔滨工程大学硕士学位论文》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112198870B (zh) * 2020-06-01 2022-09-02 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN111859816A (zh) * 2020-08-03 2020-10-30 南京航空航天大学 拟态物理法与ddqn结合的无人机集群空战决策方法
CN113055384A (zh) * 2021-03-12 2021-06-29 周口师范学院 一种ssddqn的网络异常流量检测方法
CN113128021A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN113128021B (zh) * 2021-03-12 2022-10-25 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN112883947A (zh) * 2021-04-29 2021-06-01 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN114371729A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法

Similar Documents

Publication Publication Date Title
CN110673488A (zh) 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法
CN112880688B (zh) 基于混沌自适应麻雀搜索算法的无人机三维航迹规划方法
Changqiang et al. Autonomous air combat maneuver decision using Bayesian inference and moving horizon optimization
US11794898B2 (en) Air combat maneuvering method based on parallel self-play
CN108153328B (zh) 一种基于分段贝塞尔曲线的多导弹协同航迹规划方法
CN111666631A (zh) 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN113342047A (zh) 未知环境中基于障碍物位置预测改进人工势场法的无人机路径规划方法
CN109063819B (zh) 基于贝叶斯网络的任务共同体的识别方法
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
CN113221444B (zh) 一种面向空中智能博弈的行为模仿训练方法
Li et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN114492805A (zh) 一种基于模糊推理的空战机动决策设计方法
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN114063644A (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN115951695A (zh) 空战模拟环境中基于三方博弈的动态战术控制域解算方法
CN114779823A (zh) 饱和攻击任务下的无人机协同围捕控制方法
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
CN116225065A (zh) 多智能体强化学习的多自由度模型的无人机协同追捕方法
Meng et al. UAV Attack and Defense Optimization Guidance Method Based on Target Trajectory Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200110

WD01 Invention patent application deemed withdrawn after publication