CN111880563A - 一种基于maddpg的多无人机任务决策方法 - Google Patents

一种基于maddpg的多无人机任务决策方法 Download PDF

Info

Publication number
CN111880563A
CN111880563A CN202010691504.8A CN202010691504A CN111880563A CN 111880563 A CN111880563 A CN 111880563A CN 202010691504 A CN202010691504 A CN 202010691504A CN 111880563 A CN111880563 A CN 111880563A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
threat
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010691504.8A
Other languages
English (en)
Other versions
CN111880563B (zh
Inventor
李波
甘志刚
越凯强
高晓光
万开方
高佩忻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010691504.8A priority Critical patent/CN111880563B/zh
Publication of CN111880563A publication Critical patent/CN111880563A/zh
Application granted granted Critical
Publication of CN111880563B publication Critical patent/CN111880563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Abstract

本发明公开了一种基于MADDPG的多无人机任务决策方法,将MADDPG算法引入到多无人机任务分配当中,首先根据多无人机实际作战环境,建立深度强化学习所需的二维作战环境模型,其次,建立多无人机作战环境中的防空导弹等多种威胁的数学描述,最后将多无人机的航迹、距离和战场的防御威胁作为约束条件,进行学习训练,进而得到多无人机任务决策模型。本方法采用了经验池和双网络结构,使得整个网络的运算与收敛速度大大提升,在无人机高速飞行的过程中,可以更快的得到结果,并且可以实现多无人机自主决策的目的,在未知的作战环境下也可以保证其任务决策的高效性。

Description

一种基于MADDPG的多无人机任务决策方法
技术领域
本发明属于飞行控制领域,具体涉及一种多无人机任务决策的方法。
背景技术
对于各国军方来说,无人机将会成为未来战场必不可少的武器之一。无人机很可能成为多个作战平台的攻击和反击对象,成为最普遍和最致命的空战“利剑”。现有的多无人机系统,虽然能完成一些复杂的作战任务,但是作为一个庞大的机群协作系统,一般传统的多无人机任务决策是在战场环境已知的条件下进行的,一旦预先设定的作战计划不能满足实际作战环境,就很难及时做出应对处理方案。因此,寻找一种能够在未知作战环境下多无人机快速高效进行任务分配的方法,对未来无人机作战显得尤为重要。
目前针对无人机系统的任务决策问题,主要的研究方法是通过地面指挥中心对作战任务进行划分,先利用无人机对目标区域进行搜索与探测,收集卫星图像信息和目标信息等情报,通过分析得到作战区域的整体态势情况。然后地面指挥中心使用随机路径图算法、蚁群算法、A*算法等方法对任务分配和路径规划等一系列问题进行求解,再制定整个作战流程与细节,最后下达作战任务,选择符合作战要求的无人机组成作战编队,将详细的作战任务分配给多无人机系统中的每个无人机。多个无人机根据预先加载的作战路径,按照预规划航路前往作战区域执行任务,在一系列的“观察-判断-决策-分配-执行”动作中完成整个作战任务。这种传统的解决方法,面对相对稳定的作战环境虽然有效性与可靠度较高,但是在战场未知的环境下很难发挥其原本的作用,仅仅依靠传统的方法来进行多无人机的任务分配是远远不够的。
当环境变化时,还需要重新制定作战计划,再重新发送作战指令到每架无人机,一旦出现不稳定因素,就会大大影响整个作战任务的执行,很大几率导致任务失败。为此,需要提高无人机群的自行调整能力和自主决策能力,使得无人机群在多变的作战环境当中,能够具有一定的“自我意识”以迅速适应战场状况和调整自我行动。
深度强化学习算法在解决无人机自主决策的领域发挥了重要的作用,现有的研究成果将传统的深度强化学习算法引入到无人机的航迹规划、自主避障等问题当中并取得了可喜的成果。但是在多无人机的环境下,传统强化学习方法很难发挥作用,因为在多无人机环境中,每架无人机都是不断变化,环境也不再稳定,并且对于传统强化学习算法中的策略梯度方法来说,随着无人机数量增加,环境复杂度也增加,这就导致通过采样来估计梯度的优化方式,方差急剧增加,难以计算得到最终结果。
发明内容
为了克服现有技术的不足,本发明提供一种基于MADDPG的多无人机任务决策方法,将MADDPG算法引入到多无人机任务分配当中,首先根据多无人机实际作战环境,建立深度强化学习所需的二维作战环境模型,其次,建立多无人机作战环境中的防空导弹等多种威胁的数学描述,最后将多无人机的航迹、距离和战场的防御威胁作为约束条件,进行学习训练,进而得到多无人机任务决策模型。本发明使用基于MADDPG的强化学习算法,采用集中式学习和分布式应用的原理,允许在学习时使用一些额外的信息(即全局信息),但是在应用决策的时候只使用局部信息,能够使多无人机在战场环境未知的前提下,进行高效的任务决策,同时,该方法还采用了经验池和双网络结构,使得整个网络的运算与收敛速度大大提升,在无人机高速飞行的过程中,可以更快的得到结果,并且可以实现多无人机自主决策的目的,在未知的作战环境下也可以保证其任务决策的高效性。
为达到上述目的,本发明提出了一种基于MADDPG的多无人机任务决策方法,包括以下步骤:
步骤1:设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机;随机选择一个或多个威胁区,随机选择一个或多个目标区域,随机选择一架或多架无人机,将选择的威胁区、目标区域、无人机进行组合,构建一个无人机作战环境;重复上述随机选择和组合过程,构建G个无人机作战环境;
步骤2:建立雷达威胁模型、导弹威胁模型和转弯半径约束模型
建立雷达威胁模型为:
Figure BDA0002589556060000021
其中,Rmax为雷达在水平方向上最远的探测距离,UR是无人机当前位置与雷达位置的距离;
建立导弹威胁模型为:
Figure BDA0002589556060000031
其中,UM是无人机当前位置与导弹位置的距离,dMmax为导弹所能攻击的最远距离,dMmin为导弹的不可逃逸距离,一旦无人机与导弹的距离小于dMmin,则无人机一定会被击中;
建立转弯半径约束模型为:
Ruav≥Rmin (3)
其中,Rmin为无人机的最小转弯半径,Ruav为无人机的实际转弯半径;
步骤3:设定作战环境中共有k架无人机、m个威胁区和k个目标区域;k架无人机分别为:UAV1,UAV2,...,UAVk;定义第i架无人机的状态Suavi包含当前时刻的速度矢量(vuavi,x,vuavi,y)和在作战环境中的坐标位置(puavi,x,puavi,y);定义环境状态Senv包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置,其中第i个威胁区的坐标位置和威胁半径分别表示为(Wi,x,Wi,y)和ri,y,第i个目标区域的坐标位置表示为(Mi,x,Mi,y);k架无人机从起点出发,绕过作战环境中的威胁区,最终要分别到达k个目标区域;
步骤3-1:建立无人机的状态空间
每一架无人机的状态包括了自身的状态、其它无人机的状态和环境状态,无人机UAV1在t时刻的状态定义为:
St,uav1=(Suav1,Suav2,...,Suavk,Senv) (4)
进一步第i架无人机在t时刻的状态表示为:
Figure BDA0002589556060000032
无人机在各个时刻的状态构成无人机的状态空间;
步骤3-2:建立无人机的动作空间
t时刻将无人机的状态输入无人机的控制网络,控制网络输出无人机动作策略,表示为无人机瞬时速度(vx,vy),vx表示无人机沿x轴方向的速度,vy表示无人机沿y轴方向的速度;瞬时速度的大小限制在指定范围内,若超过指定范围的上限将瞬时速度设定为上限,若低于指定范围的下限将瞬时速度设定为下限;瞬时速度的方向受到无人机的转弯半径约束模型的约束,如果不符合转弯半径约束模型,则控制网络重新输出瞬时速度;
无人机经过△t时刻后的位置更新为
Figure BDA0002589556060000041
Figure BDA0002589556060000042
式中,
Figure BDA0002589556060000043
Figure BDA0002589556060000044
分别表示无人机在t时刻的位置;
无人机在不同时刻的动作策略构成了二维向量表示的无人机动作空间;
步骤3-3:建立无人机奖励函数
定义威胁奖励函数Rf,如下式:
Figure BDA0002589556060000045
式中,DW为无人机与威胁区的距离;
设定碰撞奖励函数Rp,如下式:
Figure BDA0002589556060000046
式中,Ddij为第i架无人机与第j架无人机之间的距离,Dd为无人机之间的最小安全距离;
设定距离奖励函数Rr,如下式:
Figure BDA0002589556060000047
式中,dmin是每个目标区域距最近无人机的距离之和,(puavi,x,puavi,y)表示第i架无人机在作战环境中的坐标位置,(Mj,x,Mj,y)表示第j个目标区域在作战环境中的坐标位置;
最终无人机奖励函数设定为:
Ri=Rf+Rp+Rr (10)
式中,Ri表示第i架无人机的奖励值;
步骤4:构建与训练基于MADDPG算法的多无人机任务决策网络模型;
步骤4-1:加载步骤1中创建的任一无人机作战环境;
步骤4-2:无人机随机产生动作,无人机与威胁区、无人机与目标区域及无人机之间的相对位置发生变化,从而无人机作战环境发生改变;
步骤4-3:根据步骤3-3的无人机奖励函数(10)计算无人机随机产生动作后得到的奖励值,从而得到无人机状态转移数据;无人机状态转移数据包括无人机当前时刻状态、无人机动作策略、无人机奖励值、无人机下一时刻的状态;无人机状态转移数据表示为<si,ai,ri,si+1>,其中si表示无人机当前时刻的状态,ai表示当前时刻无人机动作策略,ri当前时刻无人机奖励值,si+1表示无人机下一时刻的状态;
步骤4-4:每架无人机在每一时刻都不断地产生状态转移数据并存储在自身的数据存储空间,每一架无人机的状态转移数据存储空间定义为一个经验池,经验池中的每个状态转移数据称为一个经验;
步骤4-5:采用基于MADDPG算法进行无人机控制网络更新;
每架无人机的控制网络包含两个网络:Actor网络和Critic网络;Actor网络和Critic网络也都具备双网络结构,拥有各自的target网络和eval网络;
步骤4-5-1:随机从每个无人机的经验池中取出不同时刻的H个经验,组成经验包<S,A,R,S′>,其中S和S′分别是经验包中的无人机当前时刻状态集合和下一时刻状态集合,A是抽取的经验包中当前时刻无人机动作策略集合,R是抽取的经验包中当前时刻无人机奖励值集合,下一时刻状态集合S′由当前时刻状态集合S采取集合A中的动作策略得到;
步骤4-5-2:将S′输入到每一架无人机的Actor网络中得到下一时刻所有无人机动作策略集合A′,随后将A′和S′一起输入到每一架无人机的Critic网络中,得到每一架无人机对下一时刻估计的目标Q值;
步骤4-5-3:定义Critic网络的损失函数为:
Figure BDA0002589556060000051
其中,θQ是Critic网络中eval网络的权重,N表示训练时抽取经验数;Q(si,aiQ)表示以si和ai为输入时,Critic网络中eval网络的输出Q值;
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′) (12)
式中,γ是折扣因子,θQ′是Critic网络中target网络的权重,θμ′是Actor网络中target网络的权重,μ′表示Actor网络中target网络的策略;μ′(si+1μ′)表示以si+1为输入时,Actor网络中target网络的输出;Q′(si+1,μ′(si+1μ′)|θQ′)表示以si+1和μ′(si+1μ′)为输入时,Critic网络中target网络的输出;
以yi为训练标签,通过back-propagation算法更新Actor网络中eval网络权重;
步骤4-5-4:采用off-policy方法进行训练和更新Critic网络中eval网络的权重;
步骤4-5-5:每间隔固定时间通过soft-update算法更新Critic网络中target网络和Actor网络中target网络的权重;
步骤4-6:重复步骤4-2到步骤4-5,当达到设定的训练次数时停止训练;
步骤4-7:从步骤1中创建的G个无人机作战环境中选取未训练的无人机作战环境进行加载,重复步骤4-1到4-6,直到加载完G个作战环境后结束训练;
步骤5:使用训练完成的多无人机任务决策网络模型实现多架无人机在动态作战环境下面对多目标时的任务决策。
由于采用了本发明提出的一种基于MADDPG的多无人机任务决策方法,取得了以下有益效果:
1.本发明提供的基于MADDPG的多无人机任务决策方法,在未知的作战环境下,也可以高效的进行决策,实现无人机的任务,克服了已有技术中只能在已知或静态作战环境下进行任务决策的缺陷。
2.深度强化学习中的MADDPG算法可以解决复杂环境中的多无人机问题,当未探测或者突发状况出现时,也可以自我进行快速有效的自我决策,解决问题,具有一定的智能化水平。
3.MADDPG算法具有双网络结构和经验池回放机制,相比传统的深度强化学习算法,具有更高的学习效率和更快的收敛速度,可以保证在飞行过程中,能够快速及时的得到准确的决策方案。
4.本发明深度强化学习与多无人机系统联系在一起,在日益复杂化的战场环境下,可以增加无人机群的智能化水平,提高机群的作战能力,大大保障了无人机群在未知作战环境中的生存能力,具有很好的发展前景。
附图说明
图1是本发明多无人机任务决策模型的实现步骤示意图。
图2是本发明雷达威胁示意图
图3是本发明导弹威胁示意图。
图4是本发明无人机最小转弯半径示意图。
图5是本发明多无人机任务决策网络模型构建流程图。
图6是本发明Critic网络和Actor网络结构示意图。
图7是本发明基于MADDPG的多无人机任务决策网络模型图。
图8是本发明无人机网络结构示意图。
图9是本发明无人机的经验池结构示意图。
图10是本发明的多无人机任务决策方法测试结果轨迹图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明提出了一种基于MADDPG的多无人机任务决策方法,包括以下步骤:
步骤1:设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机;随机选择一个或多个威胁区,随机选择一个或多个目标区域,随机选择一架或多架无人机,将选择的威胁区、目标区域、无人机进行组合,构建一个无人机作战环境;重复上述随机选择和组合过程,构建G个无人机作战环境;无人机作战环境采用二维平面环境,无人机飞行的航迹是连续的,无人机需要绕过威胁区域,最终达到目标区域。
作战环境模型采用连续表示的环境模型。在连续表示的环境中,无人机所处的环境是连续的,飞行的航迹也是连续的,可以将环境中的信息映射为坐标信息,用坐标的变化来反应环境的动态改变,通常可以建立二维或三维空间的环境模型。连续表示模型中无人机和目标的位置可以用坐标点来表示,并且威胁区等可以建立函数关系用数学模型来表示。
步骤2:建立雷达威胁模型、导弹威胁模型和转弯半径约束模型
雷达威胁主要是指无人机在敌方空域飞行时,能够探测并且对无人机造成影响的防空雷达。通常假设敌方防空雷达的探测范围是360度,如图2所示。在二维空间环境中等效为以雷达位置为中心,雷达水平方向探测最远距离为半径的圆周,建立雷达威胁模型为:
Figure BDA0002589556060000071
其中,Rmax为雷达在水平方向上最远的探测距离,UR是无人机当前位置与雷达位置的距离;
导弹威胁主要是指可以影响无人机正常飞行的防空导弹。和雷达威胁相同,导弹威胁在二维空间环境中也可以等效为圆周,如图3所示。但是不同的是,无人机与导弹的距离越近越容易被击中,无人机的杀伤概率与无人机和导弹的距离成一定比例,建立导弹威胁模型为:
Figure BDA0002589556060000081
其中,UM是无人机当前位置与导弹位置的距离,dMmax为导弹所能攻击的最远距离,dMmin为导弹的不可逃逸距离,一旦无人机与导弹的距离小于dMmin,则无人机一定会被击中;
无人机在飞行过程中,由于惯性原因无法毫无约束的进行飞行转弯,在进行转弯飞行时会有一个最小转弯半径。如果航迹决策中的转弯半径小于无人机的最小转弯半径,则实际环境中无人机就无法完成此动作决策。如图4所示,建立转弯半径约束模型为:
Ruav≥Rmin (3)
其中,Rmin为无人机的最小转弯半径,Ruav为无人机的实际转弯半径;
步骤3:设定作战环境中共有k架无人机、m个威胁区和k个目标区域;k架无人机分别为:UAV1,UAV2,...,UAVk;定义第i架无人机的状态Suavi包含当前时刻的速度矢量(vuavi,x,vuavi,y)和在作战环境中的坐标位置(puavi,x,puavi,y);定义环境状态Senv包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置,其中第i个威胁区的坐标位置和威胁半径分别表示为(Wi,x,Wi,y)和ri,y,第i个目标区域的坐标位置表示为(Mi,x,Mi,y);k架无人机从起点出发,绕过环境中的威胁区,最终要分别到达k个目标区域;在k架无人机向目标飞行的过程中,无人机除了需要避开威胁区域外,还要注意避免航线与其它无人机产生重合而导致碰撞,因此单独无人机机动动作的选择不再具有完全独立性,与其它飞机具有一定的相关性,同时对于k个无人机各自对应的目标也没有明确指定,需要无人机之间相互协作共同决策,保证每个目标都有无人机前往,从而协同完成任务。
步骤3-1:建立无人机的状态空间
每一架无人机的状态包括了自身的状态、其它无人机的状态和环境状态,无人机UAV1在t时刻的状态定义为:
St,uav1=(Suav1,Suav2,...,Suavk,Senv) (4)
进一步第i架无人机在t时刻的状态表示为:
Figure BDA0002589556060000091
无人机在各个时刻的状态构成无人机的状态空间;
步骤3-2:建立无人机的动作空间
t时刻将无人机的状态输入无人机的控制网络,控制网络输出无人机动作策略,表示为无人机瞬时速度(vx,vy),vx表示无人机沿x轴方向的速度,vy表示无人机沿y轴方向的速度;瞬时速度的大小限制在指定范围内,若超过指定范围的上限将瞬时速度设定为上限,若低于指定范围的下限将瞬时速度设定为下限;瞬时速度的方向受到无人机的转弯半径约束模型的约束,如果不符合转弯半径约束模型,则控制网络重新输出瞬时速度;
无人机经过△t时刻后的位置更新为
Figure BDA0002589556060000092
Figure BDA0002589556060000093
式中,
Figure BDA0002589556060000094
Figure BDA0002589556060000095
分别表示无人机在t时刻的位置;
无人机在不同时刻的动作策略构成了二维向量表示的无人机动作空间;
步骤3-3:建立无人机奖励函数
针对躲避威胁区设定一个威胁奖励,当无人机进入威胁区后,会被给予一个负奖励,定义威胁奖励函数Rf,如下式:
Figure BDA0002589556060000096
式中,DW为无人机与威胁区的距离;
在无人机的飞行过程中,每一架无人机都应和其它无人机保持安全距离,一旦无人机的位置过近,就会互相产生飞行威胁甚至发生碰撞,所以为了避免无人机发生碰撞,设定碰撞奖励函数Rp,当无人机间的距离小于安全距离时,就会给予其负奖励。碰撞奖励Rp如下式:
Figure BDA0002589556060000101
式中,Ddij为第i架无人机与第j架无人机之间的距离,Dd为无人机之间的最小安全距离;
为了在开始训练时,能够准确的引导无人机选择动作策略,并且让无人机每一步都拥有一个奖励,在这里设计了一个距离奖励Rr,计算每一时刻,无人机与目标的最近距离,以距离的负值作为奖励值,距离越近,奖励值越大。
设定距离奖励函数Rr,如下式:
Figure BDA0002589556060000102
式中,dmin是每个目标区域距最近无人机的距离之和,(puavi,x,puavi,y)表示第i架无人机在环境中的坐标位置,(Mj,x,Mj,y)表示第j个目标区域在环境中的坐标位置;
最终无人机奖励函数设定为:
Ri=Rf+Rp+Rr (10)
式中,Ri表示第i架无人机的奖励值;
步骤4:如图5和图7所示,构建与训练基于MADDPG算法的多无人机任务决策网络模型;
步骤4-1:加载步骤1中创建的任一无人机作战环境;
步骤4-2:无人机随机产生动作,无人机与威胁区、无人机与目标区域及无人机之间的相对位置发生变化,从而无人机作战环境发生改变;
步骤4-3:根据步骤3-3的无人机奖励函数(10)计算无人机随机产生动作后得到的奖励值,从而得到无人机状态转移数据;无人机状态转移数据包括无人机当前时刻状态、无人机动作策略、无人机奖励值、无人机下一时刻的状态;无人机状态转移数据表示为<si,ai,ri,si+1>,其中si表示无人机当前时刻的状态,ai表示当前时刻无人机动作策略,ri当前时刻无人机奖励值,si+1表示无人机下一时刻的状态;
步骤4-4:每架无人机在每一时刻都不断地产生状态转移数据并存储在自身的数据存储空间,每一架无人机的状态转移数据存储空间定义为一个经验池,如图9所示,经验池中的每个状态转移数据称为一个经验;
步骤4-5:基于MADDPG算法进行无人机控制网络更新;
如图8所示,每架无人机的控制网络包含两个网络:Actor网络和Critic网络;Actor网络和Critic网络也都具备双网络结构,拥有各自的target网络和eval网络;
步骤4-5-1:随机从每个无人机的经验池中取出不同时刻的H个经验,组成经验包<S,A,R,S′>,其中S和S′分别是经验包中的无人机当前时刻状态集合和下一时刻状态集合,A是抽取的经验包中当前时刻无人机动作策略集合,R是抽取的经验包中当前时刻无人机奖励值集合,下一时刻状态集合S′由当前时刻状态集合S采取集合A中的动作策略得到;
步骤4-5-2:将S′输入到每一架无人机的Actor网络中得到下一时刻所有无人机动作策略集合A′,随后将A′和S′一起输入到每一架无人机的Critic网络中,得到每一架无人机对下一时刻估计的目标Q值;
步骤4-5-3:实际Q值通过使用Critic网络得到,再利用时间差分法来更新Critic网络,用Q值的策略梯度来更新Actor网络,定义Critic网络的损失函数为:
Figure BDA0002589556060000111
其中,θQ是Critic网络中eval网络的权重,N表示训练时抽取经验数;Q(si,aiQ)表示以si和ai为输入时,Critic网络中eval网络的输出Q值;
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′) (12)
式中,γ是折扣因子,θQ′是Critic网络中target网络的权重,θμ′是Actor网络中target网络的权重,μ′表示Actor网络中target网络的策略;μ′(si+1μ′)表示以si+1为输入时,Actor网络中target网络的输出;Q′(si+1,μ′(si+1μ′)|θQ′)表示以si+1和μ′(si+1μ′)为输入时,Critic网络中target网络的输出;
以yi为训练标签,通过back-propagation算法更新Actor网络中eval网络权重;
步骤4-5-4:计算Actor网络的策略梯度时,采用off-policy方法进行训练和更新Critic网络中eval网络的权重;
策略梯度如下式:
Figure BDA0002589556060000121
当s根据ρβ分布时,策略梯度是
Figure BDA0002589556060000122
的期望值;使用蒙特卡罗算法估算
Figure BDA0002589556060000123
的值;其中,θμ是Actor网络中eval网络的权重,μ(s|θμ)表示Actor网络中eval网络在状态s时的输出动作,Q(s,a|θQ)表示Critic网络中eval网络在输入状态s、动作a时的输出价值,ρβ表示策略,
Figure BDA0002589556060000124
表示对a求梯度,
Figure BDA0002589556060000125
表示对θμ求梯度;
步骤4-5-5:每间隔固定时间通过soft-update算法更新Critic网络中target网络和Actor网络中target网络的权重;更新过程如下式:
Figure BDA0002589556060000126
其中τ表示soft-update过程系数;
所有无人机依照相同的方法来更新自身的网络,只是每一个无人机的输入有所差别,而在其它方面的更新流程相同;
步骤4-6:重复步骤4-2到步骤4-5,当达到设定的训练次数时停止训练;
步骤4-7:从步骤1中创建的G个无人机作战环境中选取未训练的无人机作战环境进行加载,重复步骤4-1到步骤4-6,直到加载完G个作战环境后结束训练;
上述步骤中所述加载无人机作战环境的过程是在无人机与环境进行交互的前提下,当无人机面对新的作战环境时,将无人机之前在某一种或者多种环境上已经学好的模型参数迁移到新的环境当中。
步骤5:使用训练完成的多无人机任务决策网络模型实现多架无人机在动态作战环境下面对多目标时的任务决策。
实施例:
本实例中最终网络结构设计为:Actor网络结构为[56;56;2]的全连接神经网络,Critic网络的结构是[118;78;36;1]的全连接神经网络,两个神经网络隐藏层都采用RELU函数作为激活函数,如图6所示。在训练时的mini-batch大小为1024,最大学习步长(maxepisode)为30000,辅助网络的更新率τ=0.01,Critic网络的学习率为0.01,Actor网络的学习率为0.001,两个网络都采用了AdamOptimizer优化器进行学习,经验池的大小为1000000,一旦经验池的数据超过最大数值,将会丢掉原始的经验数据,所构建的多无人机任务决策网络性能达到最优。
本发明在二维空间的连续环境模型中指定区域初始化3架无人机的位置,同时在环境中设置防空导弹等威胁源的位置和3个目标的位置。3架无人机从起点出发,绕过环境中的威胁区域,最终要分别到达3个目标区域。在3架无人机向目标飞行的过程中,无人机除了需要避开威胁区域外,还要注意避免航线与其它无人机产生重合而导致碰撞。
多无人机任务决策结果如图10所示,图中正方形阴影区域为威胁区,圆形区域为目标区域,可以看出3架无人机飞行轨迹全都进入了目标区域,而且躲避了所有的威胁区。结果表明,使用基于MADDPG所构建的多无人机任务决策网络可以快速的收敛并且保证较高的精度,可以满足作战时多无人机任务决策的要求。

Claims (1)

1.一种基于MADDPG的多无人机任务决策方法,其特征在于,包括以下步骤:
步骤1:设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机;随机选择一个或多个威胁区,随机选择一个或多个目标区域,随机选择一架或多架无人机,将选择的威胁区、目标区域、无人机进行组合,构建一个无人机作战环境;重复上述随机选择和组合过程,构建G个无人机作战环境;
步骤2:建立雷达威胁模型、导弹威胁模型和转弯半径约束模型;
建立雷达威胁模型为:
Figure FDA0002589556050000011
其中,Rmax为雷达在水平方向上最远的探测距离,UR是无人机当前位置与雷达位置的距离;
建立导弹威胁模型为:
Figure FDA0002589556050000012
其中,UM是无人机当前位置与导弹位置的距离,dM max为导弹所能攻击的最远距离,dM min为导弹的不可逃逸距离,一旦无人机与导弹的距离小于dM min,则无人机一定会被击中;
建立转弯半径约束模型为:
Ruav≥Rmin (3)
其中,Rmin为无人机的最小转弯半径,Ruav为无人机的实际转弯半径;
步骤3:设定作战环境中共有k架无人机、m个威胁区和k个目标区域;k架无人机分别为:UAV1,UAV2,...,UAVk;定义第i架无人机的状态Suavi包含当前时刻的速度矢量(vuavi,x,vuavi,y)和在作战环境中的坐标位置(puavi,x,puavi,y);定义环境状态Senv包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置,其中第i个威胁区的坐标位置和威胁半径分别表示为(Wi,x,Wi,y)和ri,y,第i个目标区域的坐标位置表示为(Mi,x,Mi,y);k架无人机从起点出发,绕过作战环境中的威胁区,最终要分别到达k个目标区域;
步骤3-1:建立无人机的状态空间;
每一架无人机的状态包括了自身的状态、其它无人机的状态和环境状态,无人机UAV1在t时刻的状态定义为:
St,uav1=(Suav1,Suav2,...,Suavk,Senv) (4)
进一步第i架无人机在t时刻的状态表示为:
Figure FDA0002589556050000021
无人机在各个时刻的状态构成无人机的状态空间;
步骤3-2:建立无人机的动作空间;
t时刻将无人机的状态输入无人机的控制网络,控制网络输出无人机动作策略,表示为无人机瞬时速度(vx,vy),vx表示无人机沿x轴方向的速度,vy表示无人机沿y轴方向的速度;瞬时速度的大小限制在指定范围内,若超过指定范围的上限将瞬时速度设定为上限,若低于指定范围的下限将瞬时速度设定为下限;瞬时速度的方向受到无人机的转弯半径约束模型的约束,如果不符合转弯半径约束模型,则控制网络重新输出瞬时速度;
无人机经过△t时刻后的位置更新为
Figure FDA0002589556050000022
Figure FDA0002589556050000023
式中,
Figure FDA0002589556050000024
Figure FDA0002589556050000025
分别表示无人机在t时刻的位置;
无人机在不同时刻的动作策略构成了二维向量表示的无人机动作空间;
步骤3-3:建立无人机奖励函数;
定义威胁奖励函数Rf,如下式:
Figure FDA0002589556050000026
式中,DW为无人机与威胁区的距离;
设定碰撞奖励函数Rp,如下式:
Figure FDA0002589556050000027
式中,Ddij为第i架无人机与第j架无人机之间的距离,Dd为无人机之间的最小安全距离;
设定距离奖励函数Rr,如下式:
Figure FDA0002589556050000031
式中,dmin是每个目标区域距最近无人机的距离之和,(puavi,x,puavi,y)表示第i架无人机在作战环境中的坐标位置,(Mj,x,Mj,y)表示第j个目标区域在作战环境中的坐标位置;
最终无人机奖励函数设定为:
Ri=Rf+Rp+Rr (10)
式中,Ri表示第i架无人机的奖励值;
步骤4:构建与训练基于MADDPG算法的多无人机任务决策网络模型;
步骤4-1:加载步骤1中创建的任一无人机作战环境;
步骤4-2:无人机随机产生动作,无人机与威胁区、无人机与目标区域及无人机之间的相对位置发生变化,从而无人机作战环境发生改变;
步骤4-3:根据步骤3-3的无人机奖励函数(10)计算无人机随机产生动作后得到的奖励值,从而得到无人机状态转移数据;无人机状态转移数据包括无人机当前时刻状态、无人机动作策略、无人机奖励值、无人机下一时刻的状态;无人机状态转移数据表示为<si,ai,ri,si+1>,其中si表示无人机当前时刻的状态,ai表示当前时刻无人机动作策略,ri当前时刻无人机奖励值,si+1表示无人机下一时刻的状态;
步骤4-4:每架无人机在每一时刻都不断地产生状态转移数据并存储在自身的数据存储空间,每一架无人机的状态转移数据存储空间定义为一个经验池,经验池中的每个状态转移数据称为一个经验;
步骤4-5:采用基于MADDPG算法进行无人机控制网络更新;
每架无人机的控制网络包含两个网络:Actor网络和Critic网络;Actor网络和Critic网络也都具备双网络结构,拥有各自的target网络和eval网络;
步骤4-5-1:随机从每个无人机的经验池中取出不同时刻的H个经验,组成经验包<S,A,R,S′>,其中S和S′分别是经验包中的无人机当前时刻状态集合和下一时刻状态集合,A是抽取的经验包中当前时刻无人机动作策略集合,R是抽取的经验包中当前时刻无人机奖励值集合,下一时刻状态集合S′由当前时刻状态集合S采取集合A中的动作策略得到;
步骤4-5-2:将S′输入到每一架无人机的Actor网络中得到下一时刻所有无人机动作策略集合A′,随后将A′和S′一起输入到每一架无人机的Critic网络中,得到每一架无人机对下一时刻估计的目标Q值;
步骤4-5-3:定义Critic网络的损失函数为:
Figure FDA0002589556050000041
其中,θQ是Critic网络中eval网络的权重,N表示训练时抽取经验数;Q(si,aiQ)表示以si和ai为输入时,Critic网络中eval网络的输出Q值;
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′) (12)
式中,γ是折扣因子,θQ′是Critic网络中target网络的权重,θμ′是Actor网络中target网络的权重,μ′表示Actor网络中target网络的策略;μ′(si+1μ′)表示以si+1为输入时,Actor网络中target网络的输出;Q′(si+1,μ′(si+1μ′)|θQ′)表示以si+1和μ′(si+1μ′)为输入时,Critic网络中target网络的输出;
以yi为训练标签,通过back-propagation算法更新Actor网络中eval网络权重;
步骤4-5-4:采用off-policy方法进行训练和更新Critic网络中eval网络的权重;
步骤4-5-5:每间隔固定时间通过soft-update算法更新Critic网络中target网络和Actor网络中target网络的权重;
步骤4-6:重复步骤4-2到步骤4-5,当达到设定的训练次数时停止训练;
步骤4-7:从步骤1中创建的G个无人机作战环境中选取未训练的无人机作战环境进行加载,重复步骤4-1到4-6,直到加载完G个作战环境后结束训练;
步骤5:使用训练完成的多无人机任务决策网络模型实现多架无人机在动态作战环境下面对多目标时的任务决策。
CN202010691504.8A 2020-07-17 2020-07-17 一种基于maddpg的多无人机任务决策方法 Active CN111880563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010691504.8A CN111880563B (zh) 2020-07-17 2020-07-17 一种基于maddpg的多无人机任务决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010691504.8A CN111880563B (zh) 2020-07-17 2020-07-17 一种基于maddpg的多无人机任务决策方法

Publications (2)

Publication Number Publication Date
CN111880563A true CN111880563A (zh) 2020-11-03
CN111880563B CN111880563B (zh) 2022-07-15

Family

ID=73156074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010691504.8A Active CN111880563B (zh) 2020-07-17 2020-07-17 一种基于maddpg的多无人机任务决策方法

Country Status (1)

Country Link
CN (1) CN111880563B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543049A (zh) * 2020-11-16 2021-03-23 北京科技大学 一种集成地面卫星网络的能效优化方法及装置
CN112633415A (zh) * 2021-01-11 2021-04-09 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN112651486A (zh) * 2020-12-09 2021-04-13 中国人民解放军陆军工程大学 一种提高maddpg算法收敛速度的方法及其应用
CN112689296A (zh) * 2020-12-14 2021-04-20 山东师范大学 一种异构IoT网络中的边缘计算与缓存方法及系统
CN112766329A (zh) * 2021-01-06 2021-05-07 上海大学 一种多无人艇协同拦截控制方法及系统
CN112783199A (zh) * 2020-12-25 2021-05-11 北京航空航天大学 一种基于迁移学习的无人机自主导航方法
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113093803A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于e-sac算法的无人机空战运动控制方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113128699A (zh) * 2021-03-12 2021-07-16 合肥工业大学 快速收敛的多无人机协同对抗强化学习方法
CN113128021A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN113156979A (zh) * 2021-05-27 2021-07-23 浙江农林大学 基于改进的maddpg算法的护林员巡护路径规划方法和装置
CN113268078A (zh) * 2021-04-20 2021-08-17 四川大学 一种无人机群自适应环境的目标追踪围捕方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113359480A (zh) * 2021-07-16 2021-09-07 中国人民解放军火箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113885576A (zh) * 2021-10-29 2022-01-04 南京航空航天大学 基于深度强化学习的无人机编队环境建立与控制方法
CN114237293A (zh) * 2021-12-16 2022-03-25 中国人民解放军海军航空大学 一种基于动态目标分配的深度强化学习队形变换方法及系统
CN114371634A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于多级事后经验回放的无人机作战模拟仿真方法
CN115981369A (zh) * 2023-01-09 2023-04-18 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法
US11907335B2 (en) * 2020-10-16 2024-02-20 Cognitive Space System and method for facilitating autonomous target selection

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105511480A (zh) * 2016-02-25 2016-04-20 哈尔滨工程大学 一种基于人工蜂群优化的模型预测的欠驱动uuv深度控制方法
US20190004518A1 (en) * 2017-06-30 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and system for training unmanned aerial vehicle control model based on artificial intelligence
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN109885082A (zh) * 2019-03-03 2019-06-14 西安电子科技大学 一种基于任务驱动下的无人机航迹规划的方法
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN110587606A (zh) * 2019-09-18 2019-12-20 中国人民解放军国防科技大学 一种面向开放场景的多机器人自主协同搜救方法
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105511480A (zh) * 2016-02-25 2016-04-20 哈尔滨工程大学 一种基于人工蜂群优化的模型预测的欠驱动uuv深度控制方法
US20190004518A1 (en) * 2017-06-30 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and system for training unmanned aerial vehicle control model based on artificial intelligence
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN109885082A (zh) * 2019-03-03 2019-06-14 西安电子科技大学 一种基于任务驱动下的无人机航迹规划的方法
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法
CN110587606A (zh) * 2019-09-18 2019-12-20 中国人民解放军国防科技大学 一种面向开放场景的多机器人自主协同搜救方法
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SOMDYUTI PAUL: "Deterministic Policy Gradient Based Robotic Path Planning with Continuous Action Spaces", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS》 *
韩统: "多无人机协同空战机动决策", 《兵器装备工程学报》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11907335B2 (en) * 2020-10-16 2024-02-20 Cognitive Space System and method for facilitating autonomous target selection
CN112543049A (zh) * 2020-11-16 2021-03-23 北京科技大学 一种集成地面卫星网络的能效优化方法及装置
CN112543049B (zh) * 2020-11-16 2021-10-29 北京科技大学 一种集成地面卫星网络的能效优化方法及装置
CN112651486A (zh) * 2020-12-09 2021-04-13 中国人民解放军陆军工程大学 一种提高maddpg算法收敛速度的方法及其应用
CN112689296A (zh) * 2020-12-14 2021-04-20 山东师范大学 一种异构IoT网络中的边缘计算与缓存方法及系统
CN112689296B (zh) * 2020-12-14 2022-06-24 山东师范大学 一种异构IoT网络中的边缘计算与缓存方法及系统
CN112783199A (zh) * 2020-12-25 2021-05-11 北京航空航天大学 一种基于迁移学习的无人机自主导航方法
CN112766329A (zh) * 2021-01-06 2021-05-07 上海大学 一种多无人艇协同拦截控制方法及系统
CN112766329B (zh) * 2021-01-06 2022-03-22 上海大学 一种多无人艇协同拦截控制方法及系统
CN112633415A (zh) * 2021-01-11 2021-04-09 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN112633415B (zh) * 2021-01-11 2023-05-19 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN112947562B (zh) * 2021-02-10 2021-11-30 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113128021A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN113128699A (zh) * 2021-03-12 2021-07-16 合肥工业大学 快速收敛的多无人机协同对抗强化学习方法
CN113128699B (zh) * 2021-03-12 2022-11-15 合肥工业大学 快速收敛的多无人机协同对抗强化学习方法
CN113128021B (zh) * 2021-03-12 2022-10-25 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN112947581B (zh) * 2021-03-25 2022-07-05 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113093803A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于e-sac算法的无人机空战运动控制方法
CN113093802B (zh) * 2021-04-03 2022-08-02 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113268078A (zh) * 2021-04-20 2021-08-17 四川大学 一种无人机群自适应环境的目标追踪围捕方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113156979B (zh) * 2021-05-27 2022-09-06 浙江农林大学 基于改进的maddpg算法的护林员巡护路径规划方法和装置
CN113156979A (zh) * 2021-05-27 2021-07-23 浙江农林大学 基于改进的maddpg算法的护林员巡护路径规划方法和装置
CN113359480B (zh) * 2021-07-16 2022-02-01 中国人民解放军火箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113359480A (zh) * 2021-07-16 2021-09-07 中国人民解放军火箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113741525B (zh) * 2021-09-10 2024-02-06 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113885576A (zh) * 2021-10-29 2022-01-04 南京航空航天大学 基于深度强化学习的无人机编队环境建立与控制方法
CN114237293A (zh) * 2021-12-16 2022-03-25 中国人民解放军海军航空大学 一种基于动态目标分配的深度强化学习队形变换方法及系统
CN114237293B (zh) * 2021-12-16 2023-08-25 中国人民解放军海军航空大学 一种基于动态目标分配的深度强化学习队形变换方法及系统
CN114371634A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于多级事后经验回放的无人机作战模拟仿真方法
CN115981369A (zh) * 2023-01-09 2023-04-18 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法
CN115981369B (zh) * 2023-01-09 2023-12-01 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法

Also Published As

Publication number Publication date
CN111880563B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN111880563B (zh) 一种基于maddpg的多无人机任务决策方法
CN112947581B (zh) 基于多智能体强化学习的多无人机协同空战机动决策方法
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
Wang et al. Multiple UAVs routes planning based on particle swarm optimization algorithm
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
Fu et al. The overview for UAV air-combat decision method
Weiren et al. Air combat autonomous maneuver decision for one-on-one within visual range engagement base on robust multi-agent reinforcement learning
CN114740883B (zh) 一种协同点侦察任务规划跨层联合优化方法
CN114510078A (zh) 一种基于深度强化学习的无人机机动规避决策方法
CN115951709A (zh) 基于td3的多无人机空战策略生成方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
Gong et al. UAV cooperative air combat maneuvering confrontation based on multi-agent reinforcement learning
Wu et al. Heterogeneous Mission Planning for Multiple UAV Formations via Metaheuristic Algorithms
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Kang et al. Beyond-visual-range tactical game strategy for multiple uavs
Liu et al. Discrete pigeon-inspired optimization-simulated annealing algorithm and optimal reciprocal collision avoidance scheme for fixed-wing UAV formation assembly
Wang et al. Autonomous maneuver decision of uav based on deep reinforcement learning: comparison of DQN and DDPG
Wei et al. UCAV formation online collaborative trajectory planning using hp adaptive pseudospectral method
Pinon et al. Task allocation and path planning for collaborative swarm guidance in support of artillery mission
Shuo et al. Research on distributed task allocation of loitering munition swarm
CN113268865B (zh) 一种基于规则流程链的飞行器行为建模构建方法
CN115220473A (zh) 一种多无人机蜂群协同任务动态分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant