CN113741525A - 基于策略集合maddpg多无人机协同攻防对抗方法 - Google Patents

基于策略集合maddpg多无人机协同攻防对抗方法 Download PDF

Info

Publication number
CN113741525A
CN113741525A CN202111065663.8A CN202111065663A CN113741525A CN 113741525 A CN113741525 A CN 113741525A CN 202111065663 A CN202111065663 A CN 202111065663A CN 113741525 A CN113741525 A CN 113741525A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
attack
drone
defense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111065663.8A
Other languages
English (en)
Other versions
CN113741525B (zh
Inventor
丁勇
聂志诚
何金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202111065663.8A priority Critical patent/CN113741525B/zh
Publication of CN113741525A publication Critical patent/CN113741525A/zh
Application granted granted Critical
Publication of CN113741525B publication Critical patent/CN113741525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公布了基于策略集合MADDPG多无人机协同攻防对抗方法,所述方法首先构建多无人机协同攻防对抗作战任务环境;其次建立多无人机系统的联合状态空间和联合动作空间;然后,针对多无人机攻防对抗问题设计了基于群体目标的奖赏函数,包括进攻方无人机和防御方无人机两个部分;接着,对基于策略集合MADDPG网络进行训练;最终使用训练完成的网络模型实现多无人机协同攻防对抗决策。本发明对MADDPG算法进行改进,设计基于群体目标的奖赏函数,引导协同攻防策略的学习,使用策略集合有效解决了多无人机系统中单个智能体针对其竞争对手出现过拟合强策略的问题,攻防效率更高,从而赋予了无人机更好的协同攻防对抗能力。

Description

基于策略集合MADDPG多无人机协同攻防对抗方法
技术领域
本发明属于空战决策技术领域,具体为基于策略集合MADDPG多无人机协同攻防对抗方法。
技术背景
随着计算机技术的不断进步,强化学习算法已经被大量运用到无人机空战机动决策的研究。多无人机系统中,一个无人机学习的同时,其他无人机也在进行学习,他们所执行的动作作用于环境,使当前的学习环境发生变化,这将使得多无人机系统不满足MDP模型,那么强化学习也就不能直接运用到多无人机系统。为解决此问题,部分算法采用状态预测的强化学习方法解决多无人机智能决策问题,各个无人机首先利用其他无人机的以往状态历史对其他无人机的动作选择进行预测,得到下一时刻其他无人机的预测状态,根据自身状态与其他无人机下一时刻的预测状态进行决策。但是,该方法的好坏很大程度依赖于状态预测的准确性,因此该方法的实用性并不强。深度强化学习于2016年由DeepMind团队提出,迅速成为决策领域研究热点,主要分为基于值函数的方法和基于策略的方法。基于值函数的DRL算法主要解决离散状态空间与离散行为空间的问题,在状态或者动作空间连续的情况下,无法很好地估计出各个状态-动作值函数。基于策略梯度的深度强化学习正好可以弥补基于值函数算法在动作空间连续情况下的不足。其中应用最广泛的为深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)及其改进算法,该算法利用策略网络直接输出动作,可以应对连续动作的输出,但存在一个重要的问题,由于每个智能体的策略都在更新迭代,导致环境对于某一个特定的智能体是动态不稳定的。
发明内容
本发明的目的在于提供一种基于策略集合MADDPG多无人机协同攻防对抗方法,该方法对MADDPG算法进行改进,为多无人机系统构建基于群体目标状态的奖赏函数进行环境与算法的沟通,将每个无人机智能体的策略网络重建为一个子策略集合,达到优化策略集合的整体效果,实现多无人机的协同攻防对抗。
为达到上述目的,本发明采用以下技术方案:
基于策略集合MADDPG多无人机协同攻防对抗方法,包括:
步骤(1)建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面;
步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A;
步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数rt,其中,进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面,防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分;
步骤(4)对基于策略集合MADDPG网络进行训练;
步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。
本发明具有以下优点:
1.本发明对MADDPG算法进行改进,提出了基于策略集合MADDPG算法,解决了多智能体强化学习中动态不稳定的问题;
2.基于策略集合MADDPG算法设计了基于任务目标设计的奖赏函数,引导协同攻防策略的学习,解决了无偏连续奖赏函数设计困难的问题。
3.基于策略集合MADDPG算法能够使无人机不断学习和优化协同攻防策略直至收敛,且攻防效率更高,从而赋予了无人机更好的协同攻防对抗能力,为多无人机协同攻防对抗决策提供了新思路。
附图说明
图1为本发明的算法流程图。
图2为多无人机协同攻防对抗示意图。
图3为攻防对抗仿真初始环境示意图。
图4为本发明的基于策略集合MADDPG算法与MADDPG算法和DDPG算法在训练过程中进攻无人机平均奖赏曲线。
图5为多无人机协同攻防对抗运动轨迹。
图6为障碍物临界区域δthreat取不同值情况下基于策略集合MADDPG算法的奖赏值比较。
具体实施方式
结合所附图表,对本发明的技术方案作具体说明。
如图1所示,本发明基于策略集合MADDPG多无人机协同攻防对抗方法,具体包括以下步骤:
步骤1建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面,具体过程为:
(1.1)建立多无人机协同攻防对抗示意图,如图2所示,在区域(0km~2km,7km~10km)内随机产生3架进攻无人机,初始速度随机产生;在区域 (6km~8km,0km~3km)内随机产生4架防御无人机,初始速度随机产生;目标位置分别为(2km,2.5km)、(8.5km,5km),且不可移动;障碍物区域和隐蔽区域在整个仿真环境内随机产生,且不可移动;图中(xtarget,ytarget)为目标位置,(xhidden,yhidden)为隐蔽区域位置,(xthreat,ythreat)为障碍物位置,(xattack_i,yattcck_i)为第i架进攻无人机的位置坐标,(xdefense_i,ydefense_i)为第i架防御无人机的位置坐标;
(1.2)根据该示意图,构建多无人机攻防对抗作战任务,包含目标攻防:进攻无人机在整个攻防过程中要找到目标且进行摧毁打击,防御无人机负责保护目标;无人机追逃:在有限区域内,防御无人机追捕进攻无人机,进攻无人机躲避防御无人机的进攻。
步骤2建立多无人机系统的联合状态空间S,具体为:
(2.1)假设i=1,2,...,n表示各个无人机的编号,n为无人机的总数量,t时刻n架无人机的联合观测信息为
Figure BSA0000252226990000031
其中
Figure BSA0000252226990000032
为第i架无人机的观测信息,包括自身的位置坐标和速度,与其他所有无人机的相对位置,与隐蔽区域、威胁区域以及目标的相对位置;
(2.2)令t时刻所有无人机的状态为st,使st=xt,则所有无人机在各个时刻的状态构成无人机的联合状态空间S。
步骤3建立多无人机系统的联合动作空间A,具体为:
假设每架无人机的动作为当前时刻的加速度,则t时刻所有无人机的动作
Figure BSA0000252226990000041
则所有时刻无人机的动作空间构成了无人机联合动作空间A。
步骤4设计多无人机系统中基于群体目标状态的奖赏函数rt,具体为:
(4.1)进攻方无人机的奖赏函数rt attack_i包括攻占目标、避免冲突和避免被敌机击毁三个方面,具体为:
(4.1.1)定义攻占目标的奖赏函数rattack_1为:
rattack_1=-max(d) (1)
式中,d为所有目标与各个进攻无人机的距离集合,
Figure BSA0000252226990000042
m为目标数,n为进攻无人机数,
Figure BSA0000252226990000043
为进攻无人机i与目标j的距离,max(d)为集合d中的最大值。
(4.1.2)定义避免与威胁区域冲突的奖赏函数rattack_2为:
Figure BSA0000252226990000044
式中,luav为进攻无人机尺寸,lthreat为威胁区域半径,δuav为无人机的临界区域宽度,δthreat为威胁区域的临界区域宽度,
Figure BSA0000252226990000045
为进攻无人机i与威胁区域的中心距离;
(4.1.3)定义无人机相互碰撞的奖赏函数
Figure BSA0000252226990000046
为:
Figure BSA0000252226990000047
式中,dij为进攻无人机i与进攻无人机j的距离;
(4.1.4)定义避免被防御方无人机击毁的奖赏函数
Figure BSA0000252226990000048
为:
Figure BSA0000252226990000049
式中,
Figure BSA00002522269900000410
为进攻无人机i相对于防御无人机j的视线角,ηji为防御无人机j相对于进攻无人机i的视线角,dij进攻无人机i与防御无人机j的距离,Rd为期望的相对距离,k为调节因子;
(4.1.5)进攻方无人机获得的奖赏为以上各部分奖赏值的和,即:
Figure BSA0000252226990000051
(4.2)防御方无人机的奖赏函数rt defence_j分为避免冲突和打击进攻方无人机两部分,具体为:
(4.2.1)定义避免与威胁区域冲突的奖赏函数rdefence_1为:
Figure BSA0000252226990000052
式中,luav为进攻无人机尺寸,lthreat为威胁区域半径,δuav为无人机的临界区域宽度,δthreat为威胁区域的临界区域宽度,
Figure BSA0000252226990000053
为防御无人机j与威胁区域的中心距离;
(4.2.2)定义无人机之间避免机间碰撞奖赏函数rdefence_2为:
Figure BSA0000252226990000054
式中,dij为进攻无人机i与进攻无人机j的距离;
(4.2.3)定义打击进攻方无人机i的奖赏函数
Figure BSA0000252226990000055
为:
Figure BSA0000252226990000056
式中,ηij为进攻无人机i相对于防御无人机j的视线角,
Figure BSA0000252226990000057
为防御无人机j相对于进攻无人机i的视线角,dij进攻无人机i与防御无人机j的距离,Rd为期望的相对距离,k为调节因子;
(4.2.4)防御方无人机获得的奖赏为以上各部分奖赏值的和,即:
Figure BSA0000252226990000058
(4.3)基于群体目标状态的奖赏函数rt如下所示:
rt=(rt attack_1,...,rt attack_i,...rt attack_m,rt defence_1...,rt defence_j,...,rt defence_n-m) (10)
步骤5进行基于策略集合MADDPG网络的训练,具体过程为:
(5.1)随机初始化无人机的Online策略网络参数θμ和Online Q网络参数θQ,以及Target策略网络参数θμ′和Target Q网路参数θQ′,满足θQ′←θQ和θμ′←θμ,同时初始化经验回放缓冲区R;
(5.2)初始化一个随机过程χ进行动作探索,并对联合状态S进行初始化;
(5.3)对于每个无人机i,利用其当前的策略网络和随机过程选择动作
Figure BSA0000252226990000061
计算t时刻n个无人机的状态st、所执行的动作
Figure BSA0000252226990000062
得到奖赏值rt=(rt attack_1,...,rt attack_i,...rt attack_m,rt defence_1...,rt defence_j,...,rt defence_n-m)和下一时刻的状态s′,并将其存入经验回放缓冲区D;
(5.4)从D中随机抽取一批样本,样本数为S,设其中一条为(sj,aj,rj,s′j),计算Q值
Figure BSA0000252226990000063
并通过最小化损失函数更新Online Q网络,其损失函数为:
Figure BSA0000252226990000064
式中,yj由第j架无人机的Target Q网络得出,即
Figure BSA0000252226990000065
(5.5)从无人机i的策略网络中选择某一子策略
Figure BSA0000252226990000066
更新其Online策略网络,具体更新梯度为:
Figure BSA0000252226990000067
式中,
Figure BSA0000252226990000068
为无人机i第k个子策略的记忆存储,
Figure BSA0000252226990000069
为无人机i的第k个子策略的神经网络参数,
Figure BSA00002522269900000610
为无人机i的Q网络参数,ai为无人机i执行的动作,oi为无人机i的观测信息,s为当前时刻多无人机联合状态。
(5.6)通过soft update算法更新Target策略网络和Target Q网络的参数,具体为:
Figure BSA0000252226990000071
式中,τ为学习率,θμ′为Target策略网络参数,θQ′为Target Q网络参数。
步骤6使用训练完成的网络模型实现基于策略集合MADDPG多无人机协同攻防对抗决策。
为了验证方法的可行性和有效性,下面结合仿真实例对本发明做进一步详细的描述。
假设空战环境设定为10km×10km的战场平面,无人机尺寸设置为2m,隐蔽区域为边长为5m的矩形,威胁区域为半径为5m的圆形。
表1为本发明基于策略集合MADDPG的多无人机协同攻防对抗方法中算法仿真主要初始化参数。
表1算法仿真主要初始化参数设置
Figure BSA0000252226990000072
图3为攻防对抗仿真初始环境示意图。从图中可以看出,进攻无人机数量为 4,防御无人机数量为4。训练时,对于每个情节,攻防无人机在整个仿真区域内随机产生,初始速度随机产生;威胁区域、隐蔽区域和目标位置随机初始化,且威胁区域、隐蔽区域和目标不可移动。
图4为本发明的基于策略集合MADDPG算法(PE-MADDPG)与MADDPG 算法和DDPG算法在训练过程中进攻无人机平均奖赏曲线。从图中可以看出,本发明的基于策略集合算法和MADDPG算法都可以较好的收敛,同时基于策略集合MADDPG算法收敛后的集群回合平均奖赏大于MADDPG算法收敛后的集群回合平均奖赏,而DDPG算法始终处于发散的状态,这是由于攻防无人机均采用DDPG算法进行训练,双方均无法获得优于对手的策略。
图5为多无人机协同攻防对抗运动轨迹。图中,实线和虚线分别为进攻无人机和防御无人机的运动轨迹,曲线箭头处为无人机运动终点,两个小圆形区域为两个目标,实心矩形区域为隐蔽区域,大的圆形区域为障碍物区域。从图中可以看出,进攻无人机相比于防御无人机具有机动优势,距离最近的两个进攻无人机构成一组,共分为两组进攻两个目标,其中进攻无人机1、2为一组,3、4为一组;同样防御无人机也按此原则分组,其中防御无人机5、6为一组,7、8为一组。最后,进攻无人机利用速度和机动能力优势从防御无人机追捕的空隙中突防,成功入侵两个目标。
图6为障碍物临界区域δthreat取不同值情况下基于策略集合MADDPG算法的奖赏值比较。由图中可以看出,临界区域δthreat越大,无人机能更早得到预警信号以避免与障碍物碰撞,无人机收获的奖赏值更大。

Claims (4)

1.基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,该方法包括以下步骤:
步骤(1)建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面;
步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A;
步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数rt,其中,进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面,防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分;
步骤(4)对基于策略集合MADDPG网络进行训练;
步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。
2.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(2)中的建立多无人机系统的联合状态空间S和联合动作空间A,具体为:
(2.1)定义多无人机系统的联合状态空间S
假设i=1,2,...,n表示各个无人机的编号,n为无人机的总数量,t时刻n架无人机的联合观测信息为
Figure FSA0000252226980000011
其中
Figure FSA0000252226980000012
为第i架无人机的观测信息,包括自身的位置坐标和速度,与其他所有无人机的相对位置,与隐蔽区域、威胁区域以及目标的相对位置;
令t时刻所有无人机的状态为st,使st=xt,则所有无人机在各个时刻的状态构成无人机的联合状态空间S;
(2.2)定义多无人机系统的联合动作空间A
假设每架无人机的动作为当前时刻的加速度,则t时刻所有无人机的动作
Figure FSA0000252226980000013
其中
Figure FSA0000252226980000014
为t时刻第i架无人机的动作,则所有时刻无人机的动作空间构成了无人机联合动作空间A。
3.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(3)中的设计多无人机系统中基于群体目标状态的奖赏函数rt,具体为:
(3.1)进攻方无人机的奖赏函数rt attack_i包括攻占目标、避免冲突和避免被敌机击毁三个方面,具体为:
(3.1.1)定义攻占目标的奖赏函数rattack_1为:
rattack_1=-max(d) (1)
式中,d为所有目标与各个进攻无人机的距离集合,
Figure FSA0000252226980000021
m为目标数,n为进攻无人机数,
Figure FSA0000252226980000022
为进攻无人机i与目标j的距离,max(d)为集合d中的最大值。
(3.1.2)定义避免与威胁区域冲突的奖赏函数rattack_2为:
Figure FSA0000252226980000023
式中,luav为进攻无人机尺寸,lthreat为威胁区域半径,δuav为无人机的临界区域宽度,δthreat为威胁区域的临界区域宽度,
Figure FSA0000252226980000024
为进攻无人机i与威胁区域的中心距离;
(3.1.3)定义无人机相互碰撞的奖赏函数
Figure FSA0000252226980000025
为:
Figure FSA0000252226980000026
式中,dij为进攻无人机i与进攻无人机j的距离;
(3.1.4)定义避免被防御方无人机击毁的奖赏函数
Figure FSA0000252226980000027
为:
Figure FSA0000252226980000028
式中,
Figure FSA0000252226980000029
为进攻无人机i相对于防御无人机j的视线角,ηji为防御无人机j相对于进攻无人机i的视线角,dij进攻无人机i与防御无人机j的距离,Rd为期望的相对距离,k为调节因子;
(3.1.5)进攻方无人机获得的奖赏为以上各部分奖赏值的和,即:
Figure FSA0000252226980000031
(3.2)防御方无人机的奖赏函数rt defence_j分为避免冲突和打击进攻方无人机两部分,具体为:
(3.2.1)定义避免与威胁区域冲突的奖赏函数rdefence_1为:
Figure FSA0000252226980000032
式中,luav为进攻无人机尺寸,lthreat为威胁区域半径,δuav为无人机的临界区域宽度,δthreat为威胁区域的临界区域宽度,
Figure FSA0000252226980000033
为防御无人机j与威胁区域的中心距离;
(3.2.2)定义无人机之间避免机间碰撞奖赏函数rdefence_2为:
Figure FSA0000252226980000034
式中,dij为进攻无人机i与进攻无人机j的距离;
(3.2.3)定义打击进攻方无人机i的奖赏函数
Figure FSA0000252226980000035
为:
Figure FSA0000252226980000036
式中,ηij为进攻无人机i相对于防御无人机j的视线角,
Figure FSA0000252226980000037
为防御无人机j相对于进攻无人机i的视线角,dij进攻无人机i与防御无人机j的距离,Rd为期望的相对距离,k为调节因子;
(3.2.4)防御方无人机获得的奖赏为以上各部分奖赏值的和,即:
Figure FSA0000252226980000038
(3.3)基于群体目标状态的奖赏函数rt如下所示:
rt=(rt attack_1,...,rt attack_i,..rt attack_m,rt defence_1...,rt defence_j,...,rt defence_n-m)(10)
4.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(4)中的对基于策略集合MADDPG网络进行训练,具体为:
(4.1)随机初始化无人机的Online策略网络参数θμ和Online Q网络参数θQ,以及Target策略网络参数θμ′和Target Q网路参数θQ′,同时初始化经验回放缓冲区;
(4.2)初始化一个随机过程χ进行动作探索,并对联合状态S进行初始化;
(4.3)对于每个无人机i,利用其当前的策略网络和随机过程选择动作
Figure FSA0000252226980000041
计算t时刻n个无人机的状态st、所执行的动作
Figure FSA0000252226980000042
得到奖赏值
Figure FSA0000252226980000043
和下一时刻的状态s′,并将其存入经验回放缓冲区D;
(4.4)从D中随机抽取一批样本,样本数为S,其中一条为(sj,aj,rj,s′j),利用最小化损失函数更新无人机的Online Q网络;
(4.5)从无人机i的策略网络中选择某一子策略
Figure FSA0000252226980000044
针对每一个子策略更新其Online策略网络;
(4.6)通过soft update算法更新Target策略网络和Target Q网络的参数,具体为:
Figure FSA0000252226980000045
式中,τ为学习率,θμ′为Target策略网络参数,θQ′为Target Q网络参数。
CN202111065663.8A 2021-09-10 2021-09-10 基于策略集合maddpg多无人机协同攻防对抗方法 Active CN113741525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111065663.8A CN113741525B (zh) 2021-09-10 2021-09-10 基于策略集合maddpg多无人机协同攻防对抗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111065663.8A CN113741525B (zh) 2021-09-10 2021-09-10 基于策略集合maddpg多无人机协同攻防对抗方法

Publications (2)

Publication Number Publication Date
CN113741525A true CN113741525A (zh) 2021-12-03
CN113741525B CN113741525B (zh) 2024-02-06

Family

ID=78738298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111065663.8A Active CN113741525B (zh) 2021-09-10 2021-09-10 基于策略集合maddpg多无人机协同攻防对抗方法

Country Status (1)

Country Link
CN (1) CN113741525B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962031A (zh) * 2021-12-20 2022-01-21 北京航空航天大学 一种基于图神经网络强化学习的异质平台冲突消解方法
CN114167893A (zh) * 2021-12-06 2022-03-11 北京航空航天大学 一种飞行器集群攻防对抗方法及系统
CN114911269A (zh) * 2022-06-17 2022-08-16 电子科技大学 一种基于无人机群的组网雷达干扰策略生成方法
CN115454136A (zh) * 2022-10-09 2022-12-09 北京航空航天大学 一种无人机集群协同攻防对抗决策方法
CN115544898A (zh) * 2022-11-09 2022-12-30 哈尔滨工业大学 基于深度强化学习的多智能体攻防决策方法
CN116827685A (zh) * 2023-08-28 2023-09-29 成都乐超人科技有限公司 基于深度强化学习的微服务系统动态防御策略方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045443A (zh) * 2018-10-11 2020-04-21 北京航空航天大学 移动控制方法、装置、设备及存储介质
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112633415A (zh) * 2021-01-11 2021-04-09 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113065709A (zh) * 2021-04-13 2021-07-02 西北工业大学 一种基于强化学习的跨域异构集群路径规划方法
CN113268078A (zh) * 2021-04-20 2021-08-17 四川大学 一种无人机群自适应环境的目标追踪围捕方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045443A (zh) * 2018-10-11 2020-04-21 北京航空航天大学 移动控制方法、装置、设备及存储介质
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112633415A (zh) * 2021-01-11 2021-04-09 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113065709A (zh) * 2021-04-13 2021-07-02 西北工业大学 一种基于强化学习的跨域异构集群路径规划方法
CN113268078A (zh) * 2021-04-20 2021-08-17 四川大学 一种无人机群自适应环境的目标追踪围捕方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
HAIJUN ZHANG: "Power Control Based on Deep Reinforcement Learning for Spectrum Sharing", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 *
HAIJUN ZHANG: "Power Control Based on Deep Reinforcement Learning for Spectrum Sharing", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》, 30 June 2020 (2020-06-30) *
何金 等: "未知环境下基于PF-DQN的无人机路径规划", 《兵工自动化》 *
何金 等: "未知环境下基于PF-DQN的无人机路径规划", 《兵工自动化》, 9 September 2020 (2020-09-09) *
施伟 等: "基于深度强化学习的多机协同空战方法研究", 《自动化学报》 *
施伟 等: "基于深度强化学习的多机协同空战方法研究", 《自动化学报》, 31 July 2021 (2021-07-31) *
李波 等: "基于MADDPG的多无人机协同任务决策", 《宇航学报》 *
李波 等: "基于MADDPG的多无人机协同任务决策", 《宇航学报》, 30 June 2021 (2021-06-30) *
符小卫 等: "基于DE-MADDPG的多无人机协同追捕策略", 《航空学报》 *
符小卫 等: "基于DE-MADDPG的多无人机协同追捕策略", 《航空学报》, 30 March 2021 (2021-03-30) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114167893A (zh) * 2021-12-06 2022-03-11 北京航空航天大学 一种飞行器集群攻防对抗方法及系统
CN114167893B (zh) * 2021-12-06 2023-05-12 北京航空航天大学 一种飞行器集群攻防对抗方法及系统
CN113962031A (zh) * 2021-12-20 2022-01-21 北京航空航天大学 一种基于图神经网络强化学习的异质平台冲突消解方法
CN113962031B (zh) * 2021-12-20 2022-03-29 北京航空航天大学 一种基于图神经网络强化学习的异质平台冲突消解方法
CN114911269A (zh) * 2022-06-17 2022-08-16 电子科技大学 一种基于无人机群的组网雷达干扰策略生成方法
CN115454136A (zh) * 2022-10-09 2022-12-09 北京航空航天大学 一种无人机集群协同攻防对抗决策方法
CN115454136B (zh) * 2022-10-09 2024-04-30 北京航空航天大学 一种无人机集群协同攻防对抗决策方法
CN115544898A (zh) * 2022-11-09 2022-12-30 哈尔滨工业大学 基于深度强化学习的多智能体攻防决策方法
CN115544898B (zh) * 2022-11-09 2023-08-29 哈尔滨工业大学 基于深度强化学习的多智能体攻防决策方法
CN116827685A (zh) * 2023-08-28 2023-09-29 成都乐超人科技有限公司 基于深度强化学习的微服务系统动态防御策略方法
CN116827685B (zh) * 2023-08-28 2023-11-14 成都乐超人科技有限公司 基于深度强化学习的微服务系统动态防御策略方法

Also Published As

Publication number Publication date
CN113741525B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN113741525B (zh) 基于策略集合maddpg多无人机协同攻防对抗方法
CN108680063B (zh) 一种针对大规模无人机集群动态对抗的决策方法
CN111880563B (zh) 一种基于maddpg的多无人机任务决策方法
CN112269396B (zh) 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法
Wang et al. Multiple UAVs routes planning based on particle swarm optimization algorithm
CN112633415B (zh) 基于规则约束训练的无人机集群智能任务执行方法和装置
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
CN110928329A (zh) 一种基于深度q学习算法的多飞行器航迹规划方法
CN109709981B (zh) 一种无人机群竞技对抗方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN114721424A (zh) 一种多无人机协同对抗方法、系统以及存储介质
CN114626246A (zh) 多层反导协同作战任务规划建模方法
CN111773722B (zh) 一种模拟环境中的战斗机规避机动策略集生成方法
Xiang et al. Research on UAV swarm confrontation task based on MADDPG algorithm
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Liu et al. Discrete pigeon-inspired optimization-simulated annealing algorithm and optimal reciprocal collision avoidance scheme for fixed-wing UAV formation assembly
Ha et al. A stochastic game-based approach for multiple beyond-visual-range air combat
CN115061495B (zh) 一种基于鹰鸽博弈的无人机群组对抗自主控制方法
CN114911269B (zh) 一种基于无人机群的组网雷达干扰策略生成方法
CN116088572A (zh) 基于自适应灰狼优化算法的无人机协同攻击多目标任务分配方法
Xie et al. Self-organization method of usv swarm target strike task based on ant colony algorithm
Kung et al. A study of missile maximum capture area and fighter minimum evasive range for negotiation team air combat
CN116068889B (zh) 一种巡飞弹的饱和攻击方法、装置及存储介质
CN113342031B (zh) 一种导弹航迹在线智能规划方法
CN110917622B (zh) 基于近似动态规划算法的博弈决策方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant