CN111859816A - 拟态物理法与ddqn结合的无人机集群空战决策方法 - Google Patents

拟态物理法与ddqn结合的无人机集群空战决策方法 Download PDF

Info

Publication number
CN111859816A
CN111859816A CN202010769672.4A CN202010769672A CN111859816A CN 111859816 A CN111859816 A CN 111859816A CN 202010769672 A CN202010769672 A CN 202010769672A CN 111859816 A CN111859816 A CN 111859816A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
cluster
uav
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010769672.4A
Other languages
English (en)
Inventor
丁勇
高振龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010769672.4A priority Critical patent/CN111859816A/zh
Publication of CN111859816A publication Critical patent/CN111859816A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公布了拟态物理法与DDQN结合的无人机集群空战决策方法,涉及空战决策技术领域。所述方法首先建立无人机的质点运动模型,无人机与邻居个体之间、无人机与目标之间的相对几何位置关系;其次,利用拟态物理法描述无人机与周围个体的作用力;然后,建立无人机集群系统的连续状态空间,描述无人机集群个体之间的复杂耦合关系;接着,综合考虑集群无人机在空战中靠近目标区域、发动进攻、联合打击效能和被击毁等因素建立奖赏函数,保证了无人机之间的相互协作;最后,利用DDQN算法训练无人机集群获得最优空战策略。本发明可使无人机集群自主实现分群搜索、合作围捕、友军支援等复杂的空战行为,具有较好的集群作战效率。

Description

拟态物理法与DDQN结合的无人机集群空战决策方法
技术领域
本发明属于无人机空战决策领域,特别是拟态物理法与DDQN结合的无人机集群空战决策方法。
背景技术
无人机集群空战机动决策是指集群系统被投放到作战区域后,通过自主决策完成目标搜索、友军支援、合作打击等作战任务。与传统的多无人机作战相比,无人机集群系统作为一个有机整体,不依赖于中央决策系统的调度,是一种更高层次的智能表现。
根据是否依赖于决策模型,决策方法可分为基于模型的解析方法和以专家系统、强化学习为代表的无模型方法。解析方法主要包括矩阵博弈、微分对策等,即首先建立空战模型,如影响图、策略评估函数、零和博弈等,然后通过自适应规划、差分进化算法、模拟退火算法等求解最优策略。然而,由于实际作战环境中的信息往往具有不确定性和不完备性等复杂特性,很难建立精确的决策模型,因此近年来无模型方法成为了研究热点。强化学习是一种不需要事先准备样本集的学习算法,比较适合应用于无样本或样本采集困难的军事领域。陈侠等通过建立无人机集群空战的马尔科夫决策过程(Markov Decision Process,MDP)模型,利用启发式强化学习对大规模无人机集群进行训练,无人机集群在空战中表现出较高的智能水平。但是该方法随着状态空间维度的增加计算量会呈指数爆炸,且对于连续状态空间问题不再适用。深度强化学习算法是借助深度神经网络较好的非线性表征能力,将强化学习模型中的值函数、策略等使用深度神经网络进行拟合,并采用梯度下降等方法对神经网络参数进行优化,已被大量应用于集群决策领域。DeepMind团队将深度Q网络(Deep Q-network,DQN)用于多智能体的矩阵博弈,并通过三个多智能体博弈案例证明通过DQN算法学习,智能体能够获得更好的决策能力。OpenAI团队将Actor-Critic算法用于合作-竞争环境下的多智能体决策问题,利用信息交流机制解决了多智能体决策问题中环境动态变化导致的算法不收敛的问题。
发明内容
本发明的目的在于提供拟态物理法与Double DQN(Artificial Physics basedDouble DQN,AP-DDQN)结合的无人机集群空战决策方法,解决了无人机集群自主实现分群搜索、合作围捕、友军支援等复杂的空战行为。
为实现上述目的,本发明采用以下技术方案:
拟态物理法与DDQN结合的无人机集群空战决策方法,包括:
步骤一,在无人机集群系统中,建立无人机的质点运动模型,建立无人机与其邻居个体之间、无人机与目标之间的相对几何位置关系。
步骤二,对于由N架无人机组成的无人机集群系统,定义无人机UAVj的状态感知空间Ωi
Figure BSA0000215315230000021
其中
Figure BSA0000215315230000022
为距离UAVi最近的Nuav架邻居个体组成的集合,
Figure BSA0000215315230000023
为距离UAVi最近的Naim个目标组成的集合。
步骤三,根据拟态物理法计算集群系统无人机UAVj∈Ωi对无人机UAVi相互作用力Fi,包括无人机之间避碰作用力和速度一致作用力。
步骤四,对于任意时刻t,计算无人机UAVi的状态
Figure BSA0000215315230000024
步骤五,为保证目标歼灭的成功率以及无人机之间的配合,利用目标的联合毁伤效能表示无人机之间的协作关系。根据无人机集群的集群回合平均收益,表示无人机之间相互配合具有的空战决策能力。
步骤六,各无人机在每次执行动作之后,通过对能源损耗、接近目标、对目标发动进攻后的联合打击回报、无人机被击毁的奖赏求和,得到总的奖赏。
步骤七,利用DDQN算法训练无人机集群,使空战机动策略收敛,得到最优策略,计算集群收益并统计空战时间。
本发明具有以下优点:
1.根据实际空战环境,定义了无人机的状态感知空间,提高了无人机在空战决策时的计算速度。利用拟态物理力描述无人机周围其他个体的作用,同时根据无人机与其邻居个体之间的相对几何位置,无人机与目标之间的相对几何位置,建立了无人机集群系统的连续状态空间,来描述无人机集群中个体之间的复杂耦合关系。
2.红方无人机进入目标区构成攻击条件后,利用目标的联合毁伤效能表示集群无人机之间的协作关系,保证了目标歼灭的成功率以及无人机之间的配合,
3.提出通过对能源损耗,无人机在靠近目标区的过程中获得的奖赏,对目标发动进攻后的联合打击回报,无人机被击毁的奖赏求和,得到总的奖赏,保证了无人机之间的相互协作。
附图表说明
图1为本发明方法的流程图。
图2为本发明AP-DDQN算法、经典DDQN算法、Actor-Critic算法训练过程中集群平均收益曲线。
图3为本发明AP-DDQN算法训练过程中个体回合收益曲线。
图4为DDQN算法训练过程中个体回合收益曲线。
图5为无人机集群支援情形。
图6为无人机集群合作围捕情形。
图7为本发明AP-DDQN算法、DDQN算法和Actor-Critic算法任务完成效率的对比。
具体实施方式
结合所附图表,对本发明的技术方案作具体说明。
如图1所示,本发明的拟态物理法与DDQN结合的无人机集群空战决策方法,具体包括以下步骤:
步骤1:在无人机集群系统中,建立无人机的质点运动模型,建立无人机与其邻居个体之间、无人机与目标之间的相对几何位置关系。
(1.1)将无人机个体视为质点,建立无人机的质点运动模型为
Figure BSA0000215315230000031
式中,vi=||Vi||为速度大小,满足vmin<vi<vmax,vmin和vmax为无人机的最小速度与最大速度,
Figure BSA0000215315230000032
为速度方向角,满足
Figure BSA0000215315230000033
N为无人机总数。
(1.2)根据无人机集群中两无人机之间的关系,建立无人机与其邻居个体之间的相对几何位置关系,无人机与目标之间的相对几何位置关系,具体为:
假设无人机集群中无人机UAVj为无人机UAVi的邻居个体,则无人机UAVi与其邻居个体UAVj之间的相对几何位置关系为:
Figure BSA0000215315230000041
式中,
Figure BSA0000215315230000042
为无人机之间的距离向量,
Figure BSA0000215315230000043
为两机速度方向之间的夹角,Vij为两机相对速度,
Figure BSA0000215315230000044
为UAVi的速度矢量与两机视线之间的夹角,
Figure BSA0000215315230000045
为无人机间欧式距离。
无人机UAVi与目标aimm之间的相对几何位置关系为
Figure BSA0000215315230000046
式中,
Figure BSA0000215315230000047
为无人机UAVi与目标aima之间的距离向量,Pi为无人机UAVi的位置,Pm为目标aimm的位置。
步骤2:对于由N架无人机组成的无人机集群系统,定义无人机IAVi的状态感知空间
Figure BSA0000215315230000048
其中
Figure BSA0000215315230000049
为距离UAVi最近的Nuav架邻居个体组成的集合,
Figure BSA00002153152300000410
为距离UAVi最近的Naim个目标组成的集合。
状态感知空间Ωi满足如下条件:
(a)UAVi的邻居个体UAVj满足j∈Ni,如果邻居无人机数小于Nuav,则
Figure BSA00002153152300000411
由空缺位置使用任选邻居无人机补充,如果邻居个体数为0,则
Figure BSA00002153152300000412
(b)距离UAVi最近的Naim个目标包括集群投放前已知的目标和位于无人机感知区域内的目标,如果已知目标个数为0,则
Figure BSA00002153152300000413
步骤3:根据拟态物理法计算集群系统中无人机UAVi∈Ωi对无人机UAVi相互作用力Fi,包括无人机之间速度一致作用力
Figure BSA00002153152300000414
和避碰作用力
Figure BSA00002153152300000415
具体过程为:
Figure BSA00002153152300000416
式中,
Figure BSA00002153152300000417
满足:
Figure BSA00002153152300000418
其中,
Figure BSA00002153152300000419
为两无人机相对位置向量,
Figure BSA00002153152300000420
为两无人机的平均相对速度,
Figure BSA00002153152300000421
rS和rA分别为避碰距离和对齐距离,kp和kv分别为聚集系数、一致运动系数,分别满足:
Figure BSA00002153152300000422
Figure BSA0000215315230000051
满足:
Figure BSA0000215315230000052
其中,
Figure BSA0000215315230000053
为两无人机相对位置向量,
Figure BSA0000215315230000054
rS和rA分别为避碰距离和对齐距离,kr为避碰系数,满足:
Figure BSA0000215315230000055
这里,q为指数因子。
步骤4:对于任意时刻t,计算无人机UAVi的状态
Figure BSA0000215315230000056
具体过程为:
(4.1)
Figure BSA0000215315230000057
为无人机UAVi可观测的UAVj∈Ωi的相对几何关系信息,由式(2)求得;
(4.2)
Figure BSA0000215315230000058
为无人机UAVi与目标aimm之间的相对几何位置关系,由式(3)求得;
(4.3)Fi为集群系统中无人机UAVj∈Ωi对无人机UAVi相互作用力,由式(4)求得。
步骤5:为保证目标歼灭的成功率以及无人机之间的配合,利用目标的联合毁伤效能表示无人机之间的协作关系。根据无人机集群的集群回合平均收益,表示无人机之间相互配合具有的空战决策能力。
(5.1)目标的联合毁伤效能Wdes
Figure BSA0000215315230000059
式中,
Figure BSA00002153152300000510
表示编号为i的无人机UAVi对目标的毁伤概率,这里取
Figure BSA00002153152300000511
n为目标区内红方无人机的个数。当Wdes=1时表示目标被歼灭,当Wdes<1时,表示由于进攻的无人机数量较少,目标无法被歼灭,只是造成了一定程度的损毁,损毁程度为Wdes
(5.2)无人机集群的集群回合平均收益Rave
Figure BSA0000215315230000061
式中,Ri为无人机UAVi的个体回合收益,满足:
Figure BSA0000215315230000062
其中,令无人机集群从投放到歼灭作战区域内所有的目标为一个空战回合,tent为一个空战回合完成的时刻,ri(t)为回报。
式中,单架无人机的回合收益越高,则表示该无人机具有更好的空战决策能力。集群回合平均收益越高,表示无人机之间相互配合程度越好。
步骤6:各无人机在每次执行动作之后,通过对能源损耗、接近目标、对目标发动进攻后的联合打击回报、无人机被击毁的奖赏求和,得到总的奖赏。
(6.1)每单位时间内无人机的能源损耗奖赏设为ra,这里取ra=-0.01。
(6.2)无人机接近目标奖赏为rapp,具体为:
Figure BSA0000215315230000063
(6.3)无人机进入目标区对目标发动进攻后,基于目标联合毁伤效能的目标打击回报为rkill,具体为:
rkill=kkill·Wdes (10)式中,kkill为目标毁伤回报增益,这里取kkill=10,Wdes为目标的联合毁伤效能,由式(7)求得。
该式保证了无人机之间的相互配合,即单架无人机的收益不仅取决于是否完成自身任务,还与集群中个体之间是否相互配合有关,有利于提高打击任务的毁伤效能。
(6.4)如果无人机离开作战区则认为无人机被击毁,作战任务失败获得的无人机被击毁负奖赏为rbekilled,这里取rbekilled=-10。
(6.5)总的奖赏r为
r=ra+rapp+rkill+rbekilled (11)
上式奖赏函数的意义在于,允许无人机根据观测到的其他无人机的状态及自身的状态来做出当前条件下更优的决策。
步骤7:利用DDQN算法训练无人机集群,使空战机动策略收敛,得到最优策略,计算集群收益并统计空战时间。
(7.1)无人机UAVi根据步骤4计算当前状态
Figure BSA0000215315230000071
(7.2)按照ε-贪婪策略选择动作ai(t),根据式(11)得到回报ri(t),并计算状态
Figure BSA0000215315230000072
(7.3)将
Figure BSA0000215315230000073
储存到记忆池D中
For j=1,..,N do
从记忆池D中采样一批规模为nbatch样本数据<s,a,ri,s′>
计算
Figure BSA0000215315230000074
令目标函数为(∑[yj-Qt(a,s′,;ψ)]2)/nbatcb,执行梯度下降,更新网络参数ψ=ψ+Δψ
end for
(7.4)更新目标神经网络参数,即
Figure BSA0000215315230000075
(7.5)将训练好的网络用于空战决策,根据步骤4计算当前无人机集群中的无人机状态
Figure BSA0000215315230000076
并输入网络,输出无人机可采取的动作。当剩余目标数为0后,计算集群收益。这里定义无人机可采取的动作集A为
A={ac,de,lat,rat,ldt,rdt,lt,rt} (12)
式中,ac表示加速飞行,de表示减速飞行,lat表示左转弯加速飞行,rat表示右转弯加速飞行,ldt表示左转弯减速飞行,rdt表示右转弯减速飞行,li表示左转弯,rt表示左转弯。
为了验证方法的可行性和有效性,下面结合实例对本发明做进一步详细的描述。
在Linux环境下搭建无人机集群空战决策仿真环境,基于Python编程语言、pygame1.9.4图形界面库和tensorflow 1.13深度学习框架。计算机配置为Intel Core i5-3210M处理器,NVIDIA GeForce GTX 750 Ti显卡,8GB内存。设置作战区域为10km×6km的二维连续空间,由N=15架红方无人机组成的无人机集群在作战区域内对环境中的5个目标发动进攻,红方预警机已将随机两个目标的信息发送给集群系统的每一架无人机,剩余目标需要无人机去搜索发现。
单架无人机及空战环境参数如表1所示,AP-DDQN算法超参数如表2所示。
表1 单架无人机及空战环境参数设置
Figure BSA0000215315230000081
表2 AP-DDQN算法超参数
Figure BSA0000215315230000082
图2为本发明AP-DDQN算法、经典DDQN算法、Actor-Critic算法训练过程中集群平均收益曲线,图中实线表示AP-DDQN算法收敛后的集群回合平均奖赏,短虚线为经典DDQN算法收敛后的集群回合平均奖赏,长虚线为Actor-Critic算法收敛后的集群回合平均奖赏。由图中可以看出,在1000回合的训练中,AP-DDQN算法和DDQN算法都可以较好的收敛,但AP-DDQN算法收敛后的集群回合平均奖赏大于DDQN算法收敛后的集群回合平均奖赏,而Actor-Critic算法始终处于发散的状态。
图3为本发明AP-DDQN算法训练过程中个体回合收益曲线,图4为DDQN算法训练过程中个体回合收益曲线。由图中可以看出,DDQN算法的个体奖赏能够达到较高水平,但是仍然低于AP-DDQN算法训练得到的无人机个体奖赏,显然是由于DDQN算法训练过程中没有发挥集群作战的优势,而在AP-DDQN算法中,无人机能够根据临近无人机的分布及相互作用情况,更好地实现个体间合作,从而提高了集群整体收益。
图5所示为无人机集群支援情形,由图中可以看出,当无人机落单无法保证目标的毁伤效益时,会选择在目标附近做盘旋运动,直到红方援军到达并实现集群汇合,共同发起进攻,涌现出了集群协作的现象。
图6所示为无人机合作围捕情形,由图中可以看出,当大量无人机组队进攻一个目标时,随着目标的接近,无人机之间相互分离形成合作围捕,其优点一方面可以避免无人机之间的碰撞,另一方面增加了组队的探索面积,有利于搜索新的目标,更好地体现集群作战的优势。
图7所示为本发明AP-DDQN算法、经典DDQN算法和Actor-Critic算法任务完成效率的对比。由图中可以看出,由于AP-DDQN算法训练得到的集群空战机动策略在分群打击和目标搜索方面的优势,100回合中完成任务所用平均时间为132.46s;DDQN算法训练完成的无人机集群完成任务的平均时间为175.26s;Actor-Critic算法训练完成的无人机集群完成任务的平均时间为215.53s。如果认为时长超过300s即为任务失败,则Actor-Critic算法的训练结果中仍存在无法完成任务的情况,显然,AP-DDQN算法更好地发挥了集群性能,提高了无人机集群作战效率。

Claims (5)

1.拟态物理法与DDQN结合的无人机集群空战决策方法,其特征在于,包括以下步骤:
步骤一,在无人机集群系统中,建立无人机的质点运动模型,建立无人机与其邻居个体之间、无人机与目标之间的相对几何位置关系。
步骤二,对于由N架无人机组成的无人机集群系统,定义无人机UA Vi的状态感知空间Ωi
Figure FSA0000215315220000011
其中
Figure FSA0000215315220000012
为距离UA Vi最近的
Figure FSA00002153152200000112
架邻居个体组成的集合,
Figure FSA0000215315220000013
为距离UAi最近的Naim个目标组成的集合。
步骤三,根据拟态物理法计算集群系统无人机UA Vj∈Ωi对无人机UA Vi相互作用力Fi,包括无人机之间避碰作用力和速度一致作用力。
步骤四,对于任意时刻t,计算无人机UA Vi的状态
Figure FSA0000215315220000014
步骤五,为保证目标歼灭的成功率以及无人机之间的配合,利用目标的联合毁伤效能表示无人机之间的协作关系。根据无人机集群的集群回合平均收益,表示无人机之间相互配合具有的空战决策能力。
步骤六,各无人机在每次执行动作之后,通过对能源损耗、接近目标、对目标发动进攻后的联合打击回报、无人机被击毁的奖赏求和,得到总的奖赏。
步骤七,利用DDQN算法训练无人机集群,使空战机动策略收敛,得到最优策略,计算集群收益并统计空战时间。
2.如权利要求1所述的拟态物理法与DDQN结合的无人机集群空战决策方法,其特征在于,所述步骤一中在无人机集群系统中,建立无人机与其邻居个体之间、无人机与目标之间的相对几何位置关系,具体为:
(2.1)假设无人机UA Vj为无人机UA Vi的邻居个体,无人机UA Vi在平面中的位置为
Figure FSA0000215315220000015
速度为
Figure FSA0000215315220000016
速度方向角为
Figure FSA0000215315220000017
无人机UA Vj在平面中的位置为
Figure FSA0000215315220000018
速度为
Figure FSA0000215315220000019
速度方向角为
Figure FSA00002153152200000110
定义无人机集群中无人机UA Vi与其邻居个体UA Vj之间的相对几何位置为:
Figure FSA00002153152200000111
式中,
Figure FSA0000215315220000021
为无人机之间的距离向量,
Figure FSA0000215315220000022
为两机速度方向之间的夹角,Vij为两机相对速度,
Figure FSA0000215315220000023
为UA Vi的速度矢量与两机视线之间的夹角,
Figure FSA0000215315220000024
为无人机间欧式距离。
(2.2)定义无人机UA Vi与目标aimm之间的相对几何位置关系为
Figure FSA0000215315220000025
式中,
Figure FSA0000215315220000026
为无人机UA Vi与目标aima之间的距离向量,Pi为无人机UA Vi的位置,Pm为目标aimm的位置。
3.如权利要求1所述的拟态物理法与DDQN结合的无人机集群空战决策方法,其特征在于,所述步骤四中,对于任意时刻t,计算无人机UA Vi的状态
Figure FSA0000215315220000027
具体为:
(3.1)
Figure FSA0000215315220000028
为无人机UA Vi可观测的UA Vj∈Ωi的相对几何关系信息,由式(1)求得;
(3.2)
Figure FSA0000215315220000029
为无人机UA Vi与目标aimm之间的相对几何位置关系,由式(2)求得;
(3.3)Fi为集群系统中无人机UA Vj∈Ωi对无人机UA Vi相互作用力,包括无人机之间速度一致作用力和避碰作用力。其中,速度一致作用力
Figure FSA00002153152200000210
为:
Figure FSA00002153152200000211
其中,
Figure FSA00002153152200000212
为两无人机相对位置向量,
Figure FSA00002153152200000213
为两无人机的平均相对速度,kp和kv分别为聚集系数、一致运动系数,
Figure FSA00002153152200000214
rS和rA分别为避碰距离和对齐距离。
避碰作用力
Figure FSA00002153152200000215
为:
Figure FSA00002153152200000216
其中,
Figure FSA00002153152200000217
为两无人机相对位置向量,kr为避碰系数。
4.如权利要求1所述的拟态物理法与DDQN结合的无人机集群空战决策方法,其特征在于,所述步骤五中,利用目标的联合毁伤效能表示无人机之间的协作关系,其中,目标的联合毁伤效能Wdes满足:
Figure FSA0000215315220000031
式中,
Figure FSA0000215315220000032
表示编号为i的无人机UA Vi对目标的毁伤概率,这里取
Figure FSA0000215315220000033
n为目标区内红方无人机的个数。当Wdes=1时表示目标被歼灭,当Wdes<1时,表示由于进攻的无人机数量较少,目标无法被歼灭,只是造成了一定程度的损毁,损毁程度为Wdes
5.如权利要求1所述的拟态物理法与DDQN结合的无人机集群空战决策方法,其特征在于,所述步骤六中各无人机在每次执行动作之后,通过对能源损耗、接近目标、对目标发动进攻后的联合打击回报、无人机被击毁的奖赏求和,得到总的奖赏r,具体为:
(5.1)每单位时间内无人机的能源损耗奖赏设为ra,这里取ra=-0.01。
(5.2)无人机接近目标奖赏为rapp,具体为
Figure FSA0000215315220000034
(5.3)无人机进入目标区对目标发动进攻后,基于目标联合毁伤效能的目标打击回报为rkill,具体为:
rkill=kkill·Wdes (7)
式中,kkill为目标毁伤回报增益,这里取kkill=10,Wdes为目标的联合毁伤效能,由式(5)求得。该式保证了无人机之间的相互配合,即单架无人机的收益不仅取决于是否完成自身任务,还与集群中个体之间是否相互配合有关,有利于提高打击任务的毁伤效能。
(5.4)如果无人机离开作战区则认为无人机被击毁,作战任务失败获得的无人机被击毁负奖赏为rbekilled,这里取rbekilled=-10。
(5.5)总的奖赏r为
r=ra+rapp+rkill+rbekilled (8)
上式奖赏函数的意义在于,允许无人机根据观测到的其他无人机的状态及自身的状态来做出当前条件下更优的决策。
CN202010769672.4A 2020-08-03 2020-08-03 拟态物理法与ddqn结合的无人机集群空战决策方法 Pending CN111859816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010769672.4A CN111859816A (zh) 2020-08-03 2020-08-03 拟态物理法与ddqn结合的无人机集群空战决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010769672.4A CN111859816A (zh) 2020-08-03 2020-08-03 拟态物理法与ddqn结合的无人机集群空战决策方法

Publications (1)

Publication Number Publication Date
CN111859816A true CN111859816A (zh) 2020-10-30

Family

ID=72954396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010769672.4A Pending CN111859816A (zh) 2020-08-03 2020-08-03 拟态物理法与ddqn结合的无人机集群空战决策方法

Country Status (1)

Country Link
CN (1) CN111859816A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947575A (zh) * 2021-03-17 2021-06-11 中国人民解放军国防科技大学 基于深度强化学习的无人机集群多目标搜索方法及系统
CN113093803A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于e-sac算法的无人机空战运动控制方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108680063A (zh) * 2018-05-23 2018-10-19 南京航空航天大学 一种针对大规模无人机集群动态对抗的决策方法
CN110275527A (zh) * 2019-05-29 2019-09-24 南京航空航天大学 一种基于改进拟态物理法的多智能体系统运动控制方法
CN110673488A (zh) * 2019-10-21 2020-01-10 南京航空航天大学 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108680063A (zh) * 2018-05-23 2018-10-19 南京航空航天大学 一种针对大规模无人机集群动态对抗的决策方法
CN110275527A (zh) * 2019-05-29 2019-09-24 南京航空航天大学 一种基于改进拟态物理法的多智能体系统运动控制方法
CN110673488A (zh) * 2019-10-21 2020-01-10 南京航空航天大学 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
沈林成 等: "基于拟态物理法的无人机集群与重构控制", 《中国科学:技术科学》, no. 03 *
王勋: "基于拟态物理学的无人机编队控制与重构方法研究", 《万方学术论文库》 *
高振龙 等: "注意力跟随机制与IAP法相结合的多智能体运动控制", 《电光与控制》, no. 03 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947575A (zh) * 2021-03-17 2021-06-11 中国人民解放军国防科技大学 基于深度强化学习的无人机集群多目标搜索方法及系统
CN113093803A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于e-sac算法的无人机空战运动控制方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113093802B (zh) * 2021-04-03 2022-08-02 西北工业大学 一种基于深度强化学习的无人机机动决策方法

Similar Documents

Publication Publication Date Title
CN111859816A (zh) 拟态物理法与ddqn结合的无人机集群空战决策方法
CN105892480B (zh) 异构多无人机系统协同察打任务自组织方法
CN108829131B (zh) 一种基于多目标自适应变异鸽群优化的无人机集群避障法
CN113791634A (zh) 一种基于多智能体强化学习的多机空战决策方法
Huang et al. Multi-model cooperative task assignment and path planning of multiple UCAV formation
CN110928329A (zh) 一种基于深度q学习算法的多飞行器航迹规划方法
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
Wang et al. Multiple UAVs routes planning based on particle swarm optimization algorithm
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN114397911A (zh) 一种基于多智能体的无人机集群对抗决策方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN111256681A (zh) 一种无人机群路径规划方法
Fu et al. The overview for UAV air-combat decision method
CN114485665A (zh) 一种基于麻雀搜索算法的无人机航迹规划方法
CN112284188A (zh) 一种基于自适应步长离散狼群算法的无人机攻防决策方法
CN113435598A (zh) 知识驱动下的兵棋推演智能决策方法
CN115755963A (zh) 一种考虑载具投递模式的无人机群协同任务规划方法
Liu et al. Optimization of large-scale UAV cluster confrontation game based on integrated evolution strategy
Wang et al. Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
CN116360503B (zh) 一种无人机博弈对抗策略生成方法、系统及电子设备
Chen et al. Deep reinforcement learning based strategy for quadrotor UAV pursuer and evader problem
CN116088586B (zh) 一种无人机作战过程中的临机任务规划的方法
Karneeb et al. Distributed discrepancy detection for a goal reasoning agent in beyond-visual-range air combat
CN114167899B (zh) 一种无人机蜂群协同对抗决策方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination