CN113741525A - 基于策略集合maddpg多无人机协同攻防对抗方法 - Google Patents
基于策略集合maddpg多无人机协同攻防对抗方法 Download PDFInfo
- Publication number
- CN113741525A CN113741525A CN202111065663.8A CN202111065663A CN113741525A CN 113741525 A CN113741525 A CN 113741525A CN 202111065663 A CN202111065663 A CN 202111065663A CN 113741525 A CN113741525 A CN 113741525A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- attack
- drone
- defense
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007123 defense Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 41
- 230000009916 joint effect Effects 0.000 claims abstract description 7
- 230000033001 locomotion Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000004888 barrier function Effects 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000001133 acceleration Effects 0.000 claims description 2
- 230000006378 damage Effects 0.000 claims 1
- 230000002787 reinforcement Effects 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公布了基于策略集合MADDPG多无人机协同攻防对抗方法,所述方法首先构建多无人机协同攻防对抗作战任务环境;其次建立多无人机系统的联合状态空间和联合动作空间;然后,针对多无人机攻防对抗问题设计了基于群体目标的奖赏函数,包括进攻方无人机和防御方无人机两个部分;接着,对基于策略集合MADDPG网络进行训练;最终使用训练完成的网络模型实现多无人机协同攻防对抗决策。本发明对MADDPG算法进行改进,设计基于群体目标的奖赏函数,引导协同攻防策略的学习,使用策略集合有效解决了多无人机系统中单个智能体针对其竞争对手出现过拟合强策略的问题,攻防效率更高,从而赋予了无人机更好的协同攻防对抗能力。
Description
技术领域
本发明属于空战决策技术领域,具体为基于策略集合MADDPG多无人机协同攻防对抗方法。
技术背景
随着计算机技术的不断进步,强化学习算法已经被大量运用到无人机空战机动决策的研究。多无人机系统中,一个无人机学习的同时,其他无人机也在进行学习,他们所执行的动作作用于环境,使当前的学习环境发生变化,这将使得多无人机系统不满足MDP模型,那么强化学习也就不能直接运用到多无人机系统。为解决此问题,部分算法采用状态预测的强化学习方法解决多无人机智能决策问题,各个无人机首先利用其他无人机的以往状态历史对其他无人机的动作选择进行预测,得到下一时刻其他无人机的预测状态,根据自身状态与其他无人机下一时刻的预测状态进行决策。但是,该方法的好坏很大程度依赖于状态预测的准确性,因此该方法的实用性并不强。深度强化学习于2016年由DeepMind团队提出,迅速成为决策领域研究热点,主要分为基于值函数的方法和基于策略的方法。基于值函数的DRL算法主要解决离散状态空间与离散行为空间的问题,在状态或者动作空间连续的情况下,无法很好地估计出各个状态-动作值函数。基于策略梯度的深度强化学习正好可以弥补基于值函数算法在动作空间连续情况下的不足。其中应用最广泛的为深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)及其改进算法,该算法利用策略网络直接输出动作,可以应对连续动作的输出,但存在一个重要的问题,由于每个智能体的策略都在更新迭代,导致环境对于某一个特定的智能体是动态不稳定的。
发明内容
本发明的目的在于提供一种基于策略集合MADDPG多无人机协同攻防对抗方法,该方法对MADDPG算法进行改进,为多无人机系统构建基于群体目标状态的奖赏函数进行环境与算法的沟通,将每个无人机智能体的策略网络重建为一个子策略集合,达到优化策略集合的整体效果,实现多无人机的协同攻防对抗。
为达到上述目的,本发明采用以下技术方案:
基于策略集合MADDPG多无人机协同攻防对抗方法,包括:
步骤(1)建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面;
步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A;
步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数rt,其中,进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面,防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分;
步骤(4)对基于策略集合MADDPG网络进行训练;
步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。
本发明具有以下优点:
1.本发明对MADDPG算法进行改进,提出了基于策略集合MADDPG算法,解决了多智能体强化学习中动态不稳定的问题;
2.基于策略集合MADDPG算法设计了基于任务目标设计的奖赏函数,引导协同攻防策略的学习,解决了无偏连续奖赏函数设计困难的问题。
3.基于策略集合MADDPG算法能够使无人机不断学习和优化协同攻防策略直至收敛,且攻防效率更高,从而赋予了无人机更好的协同攻防对抗能力,为多无人机协同攻防对抗决策提供了新思路。
附图说明
图1为本发明的算法流程图。
图2为多无人机协同攻防对抗示意图。
图3为攻防对抗仿真初始环境示意图。
图4为本发明的基于策略集合MADDPG算法与MADDPG算法和DDPG算法在训练过程中进攻无人机平均奖赏曲线。
图5为多无人机协同攻防对抗运动轨迹。
图6为障碍物临界区域δthreat取不同值情况下基于策略集合MADDPG算法的奖赏值比较。
具体实施方式
结合所附图表,对本发明的技术方案作具体说明。
如图1所示,本发明基于策略集合MADDPG多无人机协同攻防对抗方法,具体包括以下步骤:
步骤1建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面,具体过程为:
(1.1)建立多无人机协同攻防对抗示意图,如图2所示,在区域(0km~2km,7km~10km)内随机产生3架进攻无人机,初始速度随机产生;在区域 (6km~8km,0km~3km)内随机产生4架防御无人机,初始速度随机产生;目标位置分别为(2km,2.5km)、(8.5km,5km),且不可移动;障碍物区域和隐蔽区域在整个仿真环境内随机产生,且不可移动;图中(xtarget,ytarget)为目标位置,(xhidden,yhidden)为隐蔽区域位置,(xthreat,ythreat)为障碍物位置,(xattack_i,yattcck_i)为第i架进攻无人机的位置坐标,(xdefense_i,ydefense_i)为第i架防御无人机的位置坐标;
(1.2)根据该示意图,构建多无人机攻防对抗作战任务,包含目标攻防:进攻无人机在整个攻防过程中要找到目标且进行摧毁打击,防御无人机负责保护目标;无人机追逃:在有限区域内,防御无人机追捕进攻无人机,进攻无人机躲避防御无人机的进攻。
步骤2建立多无人机系统的联合状态空间S,具体为:
(2.1)假设i=1,2,...,n表示各个无人机的编号,n为无人机的总数量,t时刻n架无人机的联合观测信息为其中为第i架无人机的观测信息,包括自身的位置坐标和速度,与其他所有无人机的相对位置,与隐蔽区域、威胁区域以及目标的相对位置;
(2.2)令t时刻所有无人机的状态为st,使st=xt,则所有无人机在各个时刻的状态构成无人机的联合状态空间S。
步骤3建立多无人机系统的联合动作空间A,具体为:
步骤4设计多无人机系统中基于群体目标状态的奖赏函数rt,具体为:
(4.1)进攻方无人机的奖赏函数rt attack_i包括攻占目标、避免冲突和避免被敌机击毁三个方面,具体为:
(4.1.1)定义攻占目标的奖赏函数rattack_1为:
rattack_1=-max(d) (1)
(4.1.2)定义避免与威胁区域冲突的奖赏函数rattack_2为:
式中,dij为进攻无人机i与进攻无人机j的距离;
(4.1.5)进攻方无人机获得的奖赏为以上各部分奖赏值的和,即:
(4.2)防御方无人机的奖赏函数rt defence_j分为避免冲突和打击进攻方无人机两部分,具体为:
(4.2.1)定义避免与威胁区域冲突的奖赏函数rdefence_1为:
(4.2.2)定义无人机之间避免机间碰撞奖赏函数rdefence_2为:
式中,dij为进攻无人机i与进攻无人机j的距离;
(4.2.4)防御方无人机获得的奖赏为以上各部分奖赏值的和,即:
(4.3)基于群体目标状态的奖赏函数rt如下所示:
rt=(rt attack_1,...,rt attack_i,...rt attack_m,rt defence_1...,rt defence_j,...,rt defence_n-m) (10)
步骤5进行基于策略集合MADDPG网络的训练,具体过程为:
(5.1)随机初始化无人机的Online策略网络参数θμ和Online Q网络参数θQ,以及Target策略网络参数θμ′和Target Q网路参数θQ′,满足θQ′←θQ和θμ′←θμ,同时初始化经验回放缓冲区R;
(5.2)初始化一个随机过程χ进行动作探索,并对联合状态S进行初始化;
(5.3)对于每个无人机i,利用其当前的策略网络和随机过程选择动作计算t时刻n个无人机的状态st、所执行的动作得到奖赏值rt=(rt attack_1,...,rt attack_i,...rt attack_m,rt defence_1...,rt defence_j,...,rt defence_n-m)和下一时刻的状态s′,并将其存入经验回放缓冲区D;
式中,yj由第j架无人机的Target Q网络得出,即
(5.6)通过soft update算法更新Target策略网络和Target Q网络的参数,具体为:
式中,τ为学习率,θμ′为Target策略网络参数,θQ′为Target Q网络参数。
步骤6使用训练完成的网络模型实现基于策略集合MADDPG多无人机协同攻防对抗决策。
为了验证方法的可行性和有效性,下面结合仿真实例对本发明做进一步详细的描述。
假设空战环境设定为10km×10km的战场平面,无人机尺寸设置为2m,隐蔽区域为边长为5m的矩形,威胁区域为半径为5m的圆形。
表1为本发明基于策略集合MADDPG的多无人机协同攻防对抗方法中算法仿真主要初始化参数。
表1算法仿真主要初始化参数设置
图3为攻防对抗仿真初始环境示意图。从图中可以看出,进攻无人机数量为 4,防御无人机数量为4。训练时,对于每个情节,攻防无人机在整个仿真区域内随机产生,初始速度随机产生;威胁区域、隐蔽区域和目标位置随机初始化,且威胁区域、隐蔽区域和目标不可移动。
图4为本发明的基于策略集合MADDPG算法(PE-MADDPG)与MADDPG 算法和DDPG算法在训练过程中进攻无人机平均奖赏曲线。从图中可以看出,本发明的基于策略集合算法和MADDPG算法都可以较好的收敛,同时基于策略集合MADDPG算法收敛后的集群回合平均奖赏大于MADDPG算法收敛后的集群回合平均奖赏,而DDPG算法始终处于发散的状态,这是由于攻防无人机均采用DDPG算法进行训练,双方均无法获得优于对手的策略。
图5为多无人机协同攻防对抗运动轨迹。图中,实线和虚线分别为进攻无人机和防御无人机的运动轨迹,曲线箭头处为无人机运动终点,两个小圆形区域为两个目标,实心矩形区域为隐蔽区域,大的圆形区域为障碍物区域。从图中可以看出,进攻无人机相比于防御无人机具有机动优势,距离最近的两个进攻无人机构成一组,共分为两组进攻两个目标,其中进攻无人机1、2为一组,3、4为一组;同样防御无人机也按此原则分组,其中防御无人机5、6为一组,7、8为一组。最后,进攻无人机利用速度和机动能力优势从防御无人机追捕的空隙中突防,成功入侵两个目标。
图6为障碍物临界区域δthreat取不同值情况下基于策略集合MADDPG算法的奖赏值比较。由图中可以看出,临界区域δthreat越大,无人机能更早得到预警信号以避免与障碍物碰撞,无人机收获的奖赏值更大。
Claims (4)
1.基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,该方法包括以下步骤:
步骤(1)建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面;
步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A;
步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数rt,其中,进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面,防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分;
步骤(4)对基于策略集合MADDPG网络进行训练;
步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。
2.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(2)中的建立多无人机系统的联合状态空间S和联合动作空间A,具体为:
(2.1)定义多无人机系统的联合状态空间S
假设i=1,2,...,n表示各个无人机的编号,n为无人机的总数量,t时刻n架无人机的联合观测信息为其中为第i架无人机的观测信息,包括自身的位置坐标和速度,与其他所有无人机的相对位置,与隐蔽区域、威胁区域以及目标的相对位置;
令t时刻所有无人机的状态为st,使st=xt,则所有无人机在各个时刻的状态构成无人机的联合状态空间S;
(2.2)定义多无人机系统的联合动作空间A
3.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(3)中的设计多无人机系统中基于群体目标状态的奖赏函数rt,具体为:
(3.1)进攻方无人机的奖赏函数rt attack_i包括攻占目标、避免冲突和避免被敌机击毁三个方面,具体为:
(3.1.1)定义攻占目标的奖赏函数rattack_1为:
rattack_1=-max(d) (1)
(3.1.2)定义避免与威胁区域冲突的奖赏函数rattack_2为:
式中,dij为进攻无人机i与进攻无人机j的距离;
(3.1.5)进攻方无人机获得的奖赏为以上各部分奖赏值的和,即:
(3.2)防御方无人机的奖赏函数rt defence_j分为避免冲突和打击进攻方无人机两部分,具体为:
(3.2.1)定义避免与威胁区域冲突的奖赏函数rdefence_1为:
(3.2.2)定义无人机之间避免机间碰撞奖赏函数rdefence_2为:
式中,dij为进攻无人机i与进攻无人机j的距离;
(3.2.4)防御方无人机获得的奖赏为以上各部分奖赏值的和,即:
(3.3)基于群体目标状态的奖赏函数rt如下所示:
rt=(rt attack_1,...,rt attack_i,..rt attack_m,rt defence_1...,rt defence_j,...,rt defence_n-m)(10)
4.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(4)中的对基于策略集合MADDPG网络进行训练,具体为:
(4.1)随机初始化无人机的Online策略网络参数θμ和Online Q网络参数θQ,以及Target策略网络参数θμ′和Target Q网路参数θQ′,同时初始化经验回放缓冲区;
(4.2)初始化一个随机过程χ进行动作探索,并对联合状态S进行初始化;
(4.4)从D中随机抽取一批样本,样本数为S,其中一条为(sj,aj,rj,s′j),利用最小化损失函数更新无人机的Online Q网络;
(4.6)通过soft update算法更新Target策略网络和Target Q网络的参数,具体为:
式中,τ为学习率,θμ′为Target策略网络参数,θQ′为Target Q网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111065663.8A CN113741525B (zh) | 2021-09-10 | 2021-09-10 | 基于策略集合maddpg多无人机协同攻防对抗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111065663.8A CN113741525B (zh) | 2021-09-10 | 2021-09-10 | 基于策略集合maddpg多无人机协同攻防对抗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113741525A true CN113741525A (zh) | 2021-12-03 |
CN113741525B CN113741525B (zh) | 2024-02-06 |
Family
ID=78738298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111065663.8A Active CN113741525B (zh) | 2021-09-10 | 2021-09-10 | 基于策略集合maddpg多无人机协同攻防对抗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113741525B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962031A (zh) * | 2021-12-20 | 2022-01-21 | 北京航空航天大学 | 一种基于图神经网络强化学习的异质平台冲突消解方法 |
CN114167893A (zh) * | 2021-12-06 | 2022-03-11 | 北京航空航天大学 | 一种飞行器集群攻防对抗方法及系统 |
CN114911269A (zh) * | 2022-06-17 | 2022-08-16 | 电子科技大学 | 一种基于无人机群的组网雷达干扰策略生成方法 |
CN115454136A (zh) * | 2022-10-09 | 2022-12-09 | 北京航空航天大学 | 一种无人机集群协同攻防对抗决策方法 |
CN115544898A (zh) * | 2022-11-09 | 2022-12-30 | 哈尔滨工业大学 | 基于深度强化学习的多智能体攻防决策方法 |
CN116827685A (zh) * | 2023-08-28 | 2023-09-29 | 成都乐超人科技有限公司 | 基于深度强化学习的微服务系统动态防御策略方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111045443A (zh) * | 2018-10-11 | 2020-04-21 | 北京航空航天大学 | 移动控制方法、装置、设备及存储介质 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111666631A (zh) * | 2020-06-03 | 2020-09-15 | 南京航空航天大学 | 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112633415A (zh) * | 2021-01-11 | 2021-04-09 | 中国人民解放军国防科技大学 | 基于规则约束训练的无人机集群智能任务执行方法和装置 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN112947562A (zh) * | 2021-02-10 | 2021-06-11 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN113065709A (zh) * | 2021-04-13 | 2021-07-02 | 西北工业大学 | 一种基于强化学习的跨域异构集群路径规划方法 |
CN113268078A (zh) * | 2021-04-20 | 2021-08-17 | 四川大学 | 一种无人机群自适应环境的目标追踪围捕方法 |
CN113341958A (zh) * | 2021-05-21 | 2021-09-03 | 西北工业大学 | 一种混合经验的多智能体强化学习运动规划方法 |
-
2021
- 2021-09-10 CN CN202111065663.8A patent/CN113741525B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111045443A (zh) * | 2018-10-11 | 2020-04-21 | 北京航空航天大学 | 移动控制方法、装置、设备及存储介质 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111666631A (zh) * | 2020-06-03 | 2020-09-15 | 南京航空航天大学 | 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN112633415A (zh) * | 2021-01-11 | 2021-04-09 | 中国人民解放军国防科技大学 | 基于规则约束训练的无人机集群智能任务执行方法和装置 |
CN112947562A (zh) * | 2021-02-10 | 2021-06-11 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN113065709A (zh) * | 2021-04-13 | 2021-07-02 | 西北工业大学 | 一种基于强化学习的跨域异构集群路径规划方法 |
CN113268078A (zh) * | 2021-04-20 | 2021-08-17 | 四川大学 | 一种无人机群自适应环境的目标追踪围捕方法 |
CN113341958A (zh) * | 2021-05-21 | 2021-09-03 | 西北工业大学 | 一种混合经验的多智能体强化学习运动规划方法 |
Non-Patent Citations (10)
Title |
---|
HAIJUN ZHANG: "Power Control Based on Deep Reinforcement Learning for Spectrum Sharing", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 * |
HAIJUN ZHANG: "Power Control Based on Deep Reinforcement Learning for Spectrum Sharing", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》, 30 June 2020 (2020-06-30) * |
何金 等: "未知环境下基于PF-DQN的无人机路径规划", 《兵工自动化》 * |
何金 等: "未知环境下基于PF-DQN的无人机路径规划", 《兵工自动化》, 9 September 2020 (2020-09-09) * |
施伟 等: "基于深度强化学习的多机协同空战方法研究", 《自动化学报》 * |
施伟 等: "基于深度强化学习的多机协同空战方法研究", 《自动化学报》, 31 July 2021 (2021-07-31) * |
李波 等: "基于MADDPG的多无人机协同任务决策", 《宇航学报》 * |
李波 等: "基于MADDPG的多无人机协同任务决策", 《宇航学报》, 30 June 2021 (2021-06-30) * |
符小卫 等: "基于DE-MADDPG的多无人机协同追捕策略", 《航空学报》 * |
符小卫 等: "基于DE-MADDPG的多无人机协同追捕策略", 《航空学报》, 30 March 2021 (2021-03-30) * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114167893A (zh) * | 2021-12-06 | 2022-03-11 | 北京航空航天大学 | 一种飞行器集群攻防对抗方法及系统 |
CN114167893B (zh) * | 2021-12-06 | 2023-05-12 | 北京航空航天大学 | 一种飞行器集群攻防对抗方法及系统 |
CN113962031A (zh) * | 2021-12-20 | 2022-01-21 | 北京航空航天大学 | 一种基于图神经网络强化学习的异质平台冲突消解方法 |
CN113962031B (zh) * | 2021-12-20 | 2022-03-29 | 北京航空航天大学 | 一种基于图神经网络强化学习的异质平台冲突消解方法 |
CN114911269A (zh) * | 2022-06-17 | 2022-08-16 | 电子科技大学 | 一种基于无人机群的组网雷达干扰策略生成方法 |
CN115454136A (zh) * | 2022-10-09 | 2022-12-09 | 北京航空航天大学 | 一种无人机集群协同攻防对抗决策方法 |
CN115454136B (zh) * | 2022-10-09 | 2024-04-30 | 北京航空航天大学 | 一种无人机集群协同攻防对抗决策方法 |
CN115544898A (zh) * | 2022-11-09 | 2022-12-30 | 哈尔滨工业大学 | 基于深度强化学习的多智能体攻防决策方法 |
CN115544898B (zh) * | 2022-11-09 | 2023-08-29 | 哈尔滨工业大学 | 基于深度强化学习的多智能体攻防决策方法 |
CN116827685A (zh) * | 2023-08-28 | 2023-09-29 | 成都乐超人科技有限公司 | 基于深度强化学习的微服务系统动态防御策略方法 |
CN116827685B (zh) * | 2023-08-28 | 2023-11-14 | 成都乐超人科技有限公司 | 基于深度强化学习的微服务系统动态防御策略方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113741525B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113741525B (zh) | 基于策略集合maddpg多无人机协同攻防对抗方法 | |
CN111880563B (zh) | 一种基于maddpg的多无人机任务决策方法 | |
CN108680063B (zh) | 一种针对大规模无人机集群动态对抗的决策方法 | |
CN112269396B (zh) | 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法 | |
Wang et al. | Improving maneuver strategy in air combat by alternate freeze games with a deep reinforcement learning algorithm | |
Wang et al. | Multiple UAVs routes planning based on particle swarm optimization algorithm | |
CN114460959A (zh) | 一种基于多体博弈的无人机群协同自主决策方法及装置 | |
CN110928329A (zh) | 一种基于深度q学习算法的多飞行器航迹规划方法 | |
CN112633415B (zh) | 基于规则约束训练的无人机集群智能任务执行方法和装置 | |
CN112666981B (zh) | 基于原鸽群动态群组学习的无人机集群动态航路规划方法 | |
CN109709981B (zh) | 一种无人机群竞技对抗方法 | |
CN114063644B (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN114721424B (zh) | 一种多无人机协同对抗方法、系统以及存储介质 | |
CN111773722B (zh) | 一种模拟环境中的战斗机规避机动策略集生成方法 | |
CN113553777A (zh) | 反无人机蜂群的防空部署方法、装置、设备和介质 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
Ha et al. | A stochastic game-based approach for multiple beyond-visual-range air combat | |
Liu et al. | Discrete pigeon-inspired optimization-simulated annealing algorithm and optimal reciprocal collision avoidance scheme for fixed-wing UAV formation assembly | |
Li et al. | An Intelligent Algorithm for Solving Weapon-Target Assignment Problem: DDPG-DNPE Algorithm. | |
CN115061495B (zh) | 一种基于鹰鸽博弈的无人机群组对抗自主控制方法 | |
CN117519231A (zh) | 一种基于ddpg的融合无人机运动姿态的路径规划方法 | |
CN114911269B (zh) | 一种基于无人机群的组网雷达干扰策略生成方法 | |
CN116088572A (zh) | 基于自适应灰狼优化算法的无人机协同攻击多目标任务分配方法 | |
Xie et al. | Self-organization method of usv swarm target strike task based on ant colony algorithm | |
CN116068889B (zh) | 一种巡飞弹的饱和攻击方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |