CN115097861A - 一种基于cel-maddpg的多无人机围捕策略方法 - Google Patents

一种基于cel-maddpg的多无人机围捕策略方法 Download PDF

Info

Publication number
CN115097861A
CN115097861A CN202210525305.9A CN202210525305A CN115097861A CN 115097861 A CN115097861 A CN 115097861A CN 202210525305 A CN202210525305 A CN 202210525305A CN 115097861 A CN115097861 A CN 115097861A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
target
enclosure
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210525305.9A
Other languages
English (en)
Other versions
CN115097861B (zh
Inventor
李波
黄晶益
谢国燕
杨志鹏
杨帆
万开方
高晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210525305.9A priority Critical patent/CN115097861B/zh
Publication of CN115097861A publication Critical patent/CN115097861A/zh
Application granted granted Critical
Publication of CN115097861B publication Critical patent/CN115097861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于CEL‑MADDPG的多无人机围捕策略方法,建立一种基于多智能体深度确定性策略梯度算法的框架,将多无人机围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务,通过设立三种奖励函数帮助多无人机对围捕过程中的各子任务进行学习,通过引入相关性指标对样本采样效率进行改进,最终,提出的基于课程经验学习的多无人机围捕策略方法能够帮助无人机在动态复杂环境下,成功追踪接近目标,并实现对目标的包围捕获。本发明能够实现无人机自主决策,且各无人机产生的行为策略协同性更强,能够使多无人机学习到更为合理的围捕策略,提升多无人机围捕模型训练效率,且构建的多无人机决策模型具有更好的围捕性能。

Description

一种基于CEL-MADDPG的多无人机围捕策略方法
技术领域
本发明涉及多智能体系统和无人机智能决策领域,尤其是一种多无人机围捕策略方法。
背景技术
随着近些年无线通信、人工智能等高新技术的发展,无人机在区域搜索、工业巡检、等诸多领域大放异彩。然而,一些不法分子利用无人机敏捷、隐蔽的特性,将无 人机部署于对国家领土或基础设施的恶意间谍活动或恐怖袭击中,大大危害了国土领 域安全。这一系列的恶意无人机事件,引发了无人技术研究界对空域安全的新思考。 为了守卫空域安全,在敌方入侵我方领空进行非法情报侦察的场景中,采用多架防御 无人机构成多无人机编队,让多无人机编队能够根据态势环境而自动进行对目标的包 围驱逐或伴飞监视,具有重要意义。
现有对多无人机围捕策略的研究主要基于传统的一致性控制等方法,将若干无人机形成系统或集群,实现协同化决策。公开专利CN113917944A提出了一种无线紫外 光协作集群无人机围捕方法,其中无人机集群基于贪婪最优效益构建多个子联盟,己 方无人机之间通过不同波长紫外光信号进行防碰撞,通过效益最大化实现对目标的围 捕。然而,该类方法只关注当前收益,当目标具备更优机动性能时,己方无人机难以 完成战术布局,实现对目标的围捕。
深度强化学习(Deep Reinforcement Learning,DRL)通过最大化智能体从环境中获 得的累计奖赏值,帮助智能体学习到完成任务的最优序列决策,目前已被广泛应用于智能控制、多智能体系统、博弈对抗等领域中。公开专利CN113625775A提出了一种 状态预测和DDPG相结合的多无人机围捕方法,通过最小二乘法预测无人机状态信息, 然后基于深度强化学习DDPG算法对无人机模型进行训练,实现多无人机协同围捕。 然而,该方法中各无人机之间关联性较差,难以实现高效率的智能化协同决策。公开 专利CN113467508A提出了一种面向围捕任务的多无人机智能协同决策方法,基于状 态部分可观测的特点、任务环境动态性与不确定性因素的影响,采用多智能体深度强 化学习方法和避障机制,获得最优行动策略,达到多无人机智能协同决策的目的。然 而,该训练方法依赖大量样本数据,大大影响训练效率。同时,考虑到各无人机既需 要完成对目标的接近和自主障碍物规避,也需要考虑多智能体系统中的其他无人机单 元信息,通过合作完成对包围捕获。因此,让各无人机在适当的状态下学习合适的行 为,提升多无人机协同决策的有效性,也是我们需要关注的。
课程学习(Curriculum Learning,CL)的基本思想是将一个困难的目标任务排序为一系列更简单的任务,使得智能体可以通过依次解决课程中易处理的子任务来逐步 学习复杂的策略。因此,如何将课程学习方法引入到多智能体深度强化学习方法之中, 并与复杂的多无人机围捕决策模型相结合以改善各无人机的自主行为,并通过协同决 策完成对目标的靠近、包围、捕获,成为了深度强化学习在多无人机智能决策领域运 用的难题。
发明内容
为了克服现有技术的不足,本发明提供一种基于CEL-MADDPG的多无人机围捕 策略方法。本发明为一种基于课程经验学习多智能体深度确定性策略梯度(CurriculumExperience Learning Multi-agent deep deterministic policy gradient,CEL-MADDPG)的多 无人机围捕策略方法。具体地,建立一种基于多智能体深度确定性策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)算法的框架,实现多无人机协同运动控制。然后,引入课程学习方法,将多无人机围捕任务拆分为目标追踪、 包围过渡、靠近捕获三个子任务,通过设立三种奖励函数帮助多无人机对围捕过程中 的各子任务进行学习。在此基础上,引入相关性学习策略(Relative Experience Learning, REL)和优先经验回放策略,通过引入相关性指标对样本采样效率进行改进。最终, 提出的基于课程经验学习(Curriculum Experience Learning,CEL)的多无人机围捕策 略方法能够帮助无人机在动态复杂环境下,成功追踪接近目标,并实现对目标的包围 捕获。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:设定无人机状态信息:
步骤2:设定无人机的动作信息和无人机的状态更新过程:
通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度控制;因此,设定无人机动作状态信息为:
A=[Fx,Fy]
其中,Fx,Fy分别表示无人机在x、y轴上的受力,则无人机的加速度表示为:
a=[ax,ay]=[Fx,Fy]/mu
其中,ax,ay分别表示无人机在x、y轴上的加速度,mu表示无人机质量;基于无 人机受力的无人机状态更新过程表示为:
Figure BDA0003644212740000031
其中,其中上标t表示时间,pt,vt
Figure BDA0003644212740000032
分别表示t时刻我方无人机的位置信息、 速度信息和偏航角,xt-1,yt-1分别表示t-1时刻我方无人机在x、y轴上的位置,
Figure BDA0003644212740000033
分 别表示t时刻我方无人机在x、y轴上的速度分量,
Figure BDA0003644212740000034
分别表示t-1时刻我方无人 机在x、y轴上的速度分量,△t表示无人机运动时间间隔,a为无人机加速度,
Figure BDA0003644212740000035
分 别表示t时刻无人机加速度在x、y轴上的加速度分量;
步骤3:定义奖励函数R:
步骤4:结合课程学习策略,优化无人机奖励函数:
在围捕课程学习中,引入课程奖励rcourse用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习;
步骤4-1:设定目标追踪子任务判定条件为:
Figure BDA0003644212740000036
其中,dcapture表示单机捕获距离,dlimit表示针对目标追踪子任务到包围过渡子任务转 化设定的阈值。当满足该条件时,课程奖励rcourse等于目标追踪子奖励rtrack,此时设定目标追踪子奖励为:
Figure BDA0003644212740000037
其中,dmax为任务场景中目标与无人机的最大距离值;
步骤4-2:设定包围过渡子任务判定条件为:
Figure BDA0003644212740000041
其中,
Figure BDA0003644212740000042
表示无人机i、无人机i+1、目标E构成的三角形面积,U0和Un都用 于表示最后一个即第n个无人机,当满足该条件时,课程奖励rcourse等于包围过渡子奖 励rencicle,此时设定包围过渡子奖励为:
Figure BDA0003644212740000043
步骤4-3:设定靠近捕获子任务判定条件为:
Figure BDA0003644212740000044
当满足该条件时,课程奖励rcourse等于靠近捕获子奖励rcapture,此时设定靠近捕获子 奖励为:
Figure BDA0003644212740000045
其中,
Figure BDA0003644212740000046
Figure BDA0003644212740000047
分别表示t时刻和t-1时刻无人机i到目标的距离;
步骤4-4:对于每个无人机,更新其受到的总奖励为:
Figure BDA0003644212740000048
其中,β1~β4表示四项奖励的相应权重值;
步骤4-5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标 与各围捕无人机距离都小于捕获距离dcapture时,视作目标无法逃逸,此时多无人机围捕 任务完成;
步骤5:引入相关性学习策略,基于深度强化学习CEL-MADDPG算法,构建多 无人机围捕决策模型并进行训练,通过CEL-MADDPG神经网络进行拟合,输出无人 机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。
所述步骤1中设定无人机状态信息的具体步骤为:
对于每个围捕无人机,其状态信息S设定为:
S=[Suav,Steamer,Sobser,Starget]
其中,Suav,Steamer,Sobser,Starget分别表示无人机自身状态信息、其他右方无人机状态信 息、无人机自身观测状态信息和目标状态信息;
在多无人机围捕机动决策任务中,设定任务场景宽度和长度分别为lwidth和llength,对 于无人机i,设定无人机自身状态信息为:
Figure BDA0003644212740000051
其中,xi和yi表示第i个无人机在x、y轴上的坐标信息,
Figure BDA0003644212740000052
Figure BDA0003644212740000053
表示第i个无人 机在x、y轴上的速度信息,vmax为无人机最大速度;
对于无人机i,设定友方无人机状态信息为:
Figure BDA0003644212740000054
其中,n表示多无人机系统中无人机数量;
对于无人机i,设定无人机自身观测状态信息为
Figure BDA0003644212740000055
其中,di和θi分别表示我方围捕无人机与目标的距离和相对方位角;
分别利用j个距离传感器对无人机周围环境进行探测;对于无人机i,设定无人机探测状态信息为:
Figure BDA0003644212740000056
其中
Figure BDA0003644212740000057
表示无人机i的各距离传感器示数,L表示距离传感器探测范围。
所述定义奖励函数R为:
步骤3-1:对于无人机i,设定无人机靠近目标奖励为:
Figure BDA0003644212740000058
其中vi表示无人机速度大小,ψi表示无人机与目标的相对方位角;
步骤3-2:对于无人机i,设定无人机安全飞行奖励:
Figure BDA0003644212740000059
dio表示无人机到障碍物的距离,Robstacle表示无人机到障碍物的最小安全距离,
Figure BDA0003644212740000061
表示无人机处于任务场景外;
步骤3-3:对于无人机i,设定无人机任务完成奖励:
Figure BDA0003644212740000062
其中,
Figure BDA0003644212740000063
表示目标与我方两两无人机形成的三角形面积之和,
Figure BDA0003644212740000064
表示 所有无人机形成的多边形面积,di表示无人机i到目标的距离,dcapture表示单机捕获距离;
步骤3-4:对于无人机i,设定其受到的总奖励为:
Figure BDA0003644212740000065
其中,μ1~μ3表示三项奖励的相应权重值。
所述步骤5的实现步骤为:
步骤5-1:对于每个围捕无人机,分别构建动作网络
Figure BDA0003644212740000066
和评价网络
Figure BDA0003644212740000067
基于
Figure BDA0003644212740000068
同步参数至目标价值网络
Figure BDA0003644212740000069
和目标动作网络
Figure BDA00036442127400000610
中,其中i表示无人机序号;
步骤5-2:初始化超参数:经验回放队列大小M,初次采样大小Npre-batch,二次采 样大小Nbatch,每回合最大步长T,折扣因子γ,最大回合数E,训练频次K,设定回合 数e=0;
步骤5-3:初始化n个围捕无人机的状态s1,…,sn,更新当前时刻为t=0;
步骤5-4:对于每一个无人机i,根据当前动作网络和探索噪声选择动作
Figure BDA00036442127400000611
其中
Figure BDA00036442127400000612
表示动作噪声;
步骤5-5:分别执行动作a1,…,an后,得到奖励值r1,…,rn,得到下一时刻系统状态x′;
步骤5-6:计算当前t时刻下的相关性指标函数:
Figure BDA00036442127400000613
其中,σ1~3为三项子指标的权重值,为常量。O为多围捕无人机勾成的围捕网质 心,
Figure BDA00036442127400000614
表示序号为i的无人机与围捕网质心O的距离;
然后,存储经验样本[x,a1,…,aN,r1,…,rN,x′,fr(x)]于经验回放队列中;
步骤5-7:根据
Figure BDA0003644212740000071
采样Npre-batch个样本数据,其中c表示被抽取的经验样本的序号,pc表示其优先级,参数α为用于调节样本优先采样程度的参数;
在所采样的Npre-batch个样本数据中,根据△fr=|fr(st)-fr(sbatch)|进行二次采样获得 Nbatch个相关性样本,fr(sbatch)为基于采样样本数据计算得到的相关性指标数据;
计算重要性权重wj=(M·P(i))/maxiwi,其中M为经验回放队列大小,β为超参数,用于调节重要性采样对模型收敛速率的影响;
计算目标值:
Figure BDA0003644212740000072
其中,γ为奖励折扣因子,a1′,…aN′为下一时刻各无人机动作;
通过最小化损失函数对在线价值网络进行更新:
Figure BDA0003644212740000073
通过策略梯度方法对在线动作网络进行更新:
Figure BDA0003644212740000074
步骤5-8:分别更新各无人机智能体的目标动作网络和目标价值网络参数:
Figure BDA0003644212740000075
τ表示更新比例系数;
步骤5-9:更新步长t加1,执行判定:当t<T且不满足多无人机围捕判定条件时, 进入步骤5-4;否则进入步骤5-10;
步骤5-10:更新回合数e加1,执行判定:若e<E,则更新至步骤5-3;否则, 训练完成,进入步骤5-11;
步骤5-11:终止CEL-MADDPG网络训练过程,保存当前网络参数;将保存好的 参数加载至多无人机围捕系统中;每一时刻,每个无人机分别将状态信息输入至神经 网络中,通过CEL-MADDPG神经网络进行拟合,输出无人机飞行动作,各个围捕无 人机通过协同决策,实现对目标的靠近、包围、捕获。
本发明提出的基于CEL-MADDPG的多无人机围捕策略方法,其优点具体体现在:
(1)构建的基于深度强化学习的多无人机系统控制模型,采用集中式训练、分布式执行方法,能够实现无人机自主决策,且各无人机产生的行为策略协同性更强;
(2)本发明将深度强化学习方法和课程学习方法相结合,针对多无人机围捕场景,将复杂围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务,并设立相应的奖 励函数用于鼓励无人机在不同状态下学习合适的行为策略,能够使多无人机学习到更 为合理的围捕策略;
(3)本发明在训练过程中引入相关性学习策略和优先经验回放策略,利用优先经验 回放机制打破经验回放队列中连续经验条的相关性,然后在经验样本中引入多种围捕相关的数据指标,对样本采样效率进行改进,提升多无人机围捕模型训练效率,且构 建的多无人机决策模型具有更好的围捕性能。
附图说明
图1为基于CEL-MADDPG的多无人机围捕机动决策模型构建示意图。
图2为无人机探测示意图。
图3为围捕无人机与目标的位置关系示意图。
图4为基于课程学习的多无人机围捕各子任务图,图4(a)为目标跟踪状态的子 任务图,图4(b)为包围过渡状态的子任务图,图4(c)为靠近捕获状态的子任务图。
图5为多无人机围捕仿真测试图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出的一种基于CEL-MADDPG的多无人机围捕策略方法,其模型训练、 测试和构建流程如图1所示。下面结合附图和具体实施例,对该技术方案作进一步清 晰和完整的描述:
步骤1:设定无人机状态信息:
对于每个围捕无人机,其状态信息S设定为:
S=[Suav,Steamer,Sobser,Starget]
其中,Suav,Steamer,Sobser,Starget分别表示无人机自身状态信息、其他右方无人机状态信 息、无人机自身观测状态信息、目标状态信息;
具体地,在多无人机围捕机动决策任务中,设定任务场景宽度和长度分别为lwidth和 llength。对于无人机i,设定无人机自身状态信息为:
Figure BDA0003644212740000091
其中,xi和yi表示第i个无人机在x、y轴上的坐标信息,
Figure BDA0003644212740000092
Figure BDA0003644212740000093
表示第i个无人 机在x、y轴上的速度信息,vmax为无人机最大速度;
对于无人机i,设定友方无人机状态信息为:
Figure BDA0003644212740000094
其中,n表示多无人机系统中无人机数量;
对于无人机i,设定无人机自身观测状态信息为:
Figure BDA0003644212740000095
其中,di和θi分别表示我方围捕无人机与目标的距离和相对方位角,xe,ye表示目标位置信息;
分别利用j个距离传感器对无人机周围环境进行探测;对于无人机i,设定无人机探测状态信息为:
Figure BDA0003644212740000096
其中
Figure BDA0003644212740000097
表示无人机i的各距离传感器示数,L表示距离传感器探测范围。无人机探测模型如图2所示,当传感器探测到障碍物或环境边界时,ln∈[0,L],表示无人机 到障碍物或环境边界的距离。
步骤2:设定无人机的动作信息和无人机的状态更新过程:
通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度控制。因此,设定无人机动作状态信息为:
A=[Fx,Fy]
其中,Fx,Fy分别表示无人机在x、y轴上的受力。则无人机的加速度可以表示为:
a=[ax,ay]=[Fx,Fy]/mu
其中,ax,ay分别表示无人机在x、y轴上的加速度,mu表示无人机质量;基于无 人机受力的无人机状态更新过程可以表示为:
Figure BDA0003644212740000101
其中,其中上标t表示时间,pt,vt
Figure BDA0003644212740000102
分别表示t时刻我方无人机的位置信息、 速度信息和偏航角,xt-1,yt-1分别表示t-1时刻我方无人机在x、y轴上的位置,
Figure BDA0003644212740000103
分 别表示t时刻我方无人机在x、y轴上的速度分量,
Figure BDA0003644212740000104
分别表示t-1时刻我方无人 机在x、y轴上的速度分量,△t表示无人机运动时间间隔,a为无人机加速度,
Figure BDA0003644212740000105
分 别表示t时刻无人机加速度在x、y轴上的加速度分量;
步骤3:定义奖励函数R:
步骤3-1:对于无人机i,设定无人机靠近目标奖励为:
Figure BDA0003644212740000106
其中vi表示无人机速度大小,ψi表示无人机与目标的相对方位角,具体表示为:
Figure BDA0003644212740000107
无人机和目标的相对位置关系如图3所示;
步骤3-2:对于无人机i,设定无人机安全飞行奖励:
Figure BDA0003644212740000108
dio表示无人机到障碍物的距离,Robstacle表示无人机到障碍物的最小安全距离,
Figure BDA0003644212740000109
表示无人机处于任务场景外;
步骤3-3:对于无人机i,设定无人机任务完成奖励:
Figure BDA0003644212740000111
其中,
Figure BDA0003644212740000112
表示目标与我方两两无人机形成的三角形面积之和,
Figure BDA0003644212740000113
表示 所有无人机形成的多边形面积,di表示无人机i到目标的距离,dcapture表示单机捕获距离;
步骤3-4:对于无人机i,设定其受到的总奖励为:
Figure BDA0003644212740000114
其中,μ1~3表示三项奖励的相应权重值;
步骤4:结合课程学习策略,优化无人机奖励函数:
在围捕课程学习中,引入课程奖励rcourse用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习,基于课程学习的多无人机围捕任务图如图4所示;
步骤4-1:设定目标追踪子任务判定条件为:
Figure BDA0003644212740000115
其中,dlimit表示针对目标追踪子任务到包围过渡子任务转化设定的阈值。当满足该条件时,课程奖励rcourse等于目标追踪子奖励rtrack,此时设定目标追踪子奖励为:
Figure BDA0003644212740000116
其中,dmax为任务场景中目标与无人机的最大距离值;
步骤4-2:设定包围过渡子任务判定条件为:
Figure BDA0003644212740000117
其中,
Figure BDA0003644212740000118
表示无人机i、无人机i+1、目标E构成的三角形面积。为方便公式 表述,U0和Un都用于表示最后一个即第n个无人机。当满足该条件时,课程奖励rcourse等于包围过渡子奖励rencicle,此时设定包围过渡子奖励为:
Figure BDA0003644212740000121
步骤4-3:设定靠近捕获子任务判定条件为:
Figure BDA0003644212740000122
当满足该条件时,课程奖励rcourse等于靠近捕获子奖励rcapture,此时设定靠近捕获子 奖励为:
Figure BDA0003644212740000123
其中,
Figure BDA0003644212740000124
Figure BDA0003644212740000125
分别表示t时刻和t-1时刻无人机i到目标的距离;
步骤4-4:对于每个无人机,更新其受到的总奖励为:
Figure BDA0003644212740000126
其中,β1~4表示四项奖励的相应权重值;
步骤4-5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标 与各围捕无人机距离都小于捕获距离dcapture时,视作目标无法逃逸,此时多无人机围捕 任务完成;
步骤5:引入相关性学习策略,基于深度强化学习CEL-MADDPG算法,构建多 无人机围捕决策模型并进行训练:
步骤5-1:对于每个围捕无人机,分别构建动作网络
Figure BDA0003644212740000127
和评价网络
Figure BDA0003644212740000128
基于
Figure BDA0003644212740000129
同步参数至目标价值网络
Figure BDA00036442127400001210
和目标动作网络
Figure BDA00036442127400001211
中,其中i表示无人机序号;
步骤5-2:初始化超参数:经验回放队列大小M,初次采样大小Npre-batch,二次采 样大小Nbatch,每回合最大步长T,折扣因子γ,最大回合数E,训练频次K,设定回合 数e=0;
步骤5-3:初始化n个围捕无人机的状态s1,…,sn,更新当前时刻为t=0;
步骤5-4:对于每一个无人机i,根据当前动作网络和探索噪声选择动作
Figure BDA00036442127400001212
其中
Figure BDA00036442127400001213
表示动作噪声;
步骤5-5:分别执行动作a1,…,an后,得到奖励值r1,…,rn,得到下一时刻系统状态x′;
步骤5-6:计算当前t时刻下的相关性指标函数:
Figure BDA0003644212740000131
其中,σ1~3为三项子指标的权重值,为常量。O为多围捕无人机勾成的围捕网质 心,
Figure BDA0003644212740000132
表示序号为i的无人机与围捕网质心O的距离;
然后,存储经验样本[x,a1,…,aN,r1,…,rN,x′,fr(x)]于经验回放队列中;
步骤5-7:根据
Figure BDA0003644212740000133
采样Npre-batch个样本数据,其中c表示被抽取的经验样本的序号,pc表示其优先级,参数α为用于调节样本优先采样程度的参数;
在所采样的Npre-batch个样本数据中,根据△fr=|fr(st)-fr(sbatch)|进行二次采样获得 Nbatch个相关性样本,fr(sbatch)为基于采样样本数据计算得到的相关性指标数据;
计算重要性权重wj=(M·P(i))/maxiwi,其中M为经验回放队列大小,β为超参数,用于调节重要性采样对模型收敛速率的影响;
计算目标值:
Figure BDA0003644212740000134
其中,γ为奖励折扣因子,a1′,…aN′为下一时刻各无人机动作;
通过最小化损失函数对在线价值网络进行更新:
Figure BDA0003644212740000135
通过策略梯度方法对在线动作网络进行更新:
Figure BDA0003644212740000136
步骤5-8:分别更新各无人机智能体的目标动作网络和目标价值网络参数:
Figure BDA0003644212740000137
τ表示更新比例系数;
步骤5-9:更新步长t=t+1,执行判定:当t<T且不满足多无人机围捕判定条件 时,进入步骤5-4;否则进入步骤5-10;
步骤5-10:更新回合数e加1,执行判定:若e<E,则更新至步骤5-3;否则, 训练完成,进入步骤5-11;
步骤5-11:终止CEL-MADDPG网络训练过程,保存当前网络参数;将保存好的 参数加载至多无人机围捕系统中。每一时刻,每个无人机分别将状态信息进行输入, 并通过神经网络进行拟合,输出无人机飞行动作。各围捕无人机通过协同决策,最终 实现对目标的靠近、包围、捕获。
综上,本发明提出的一种基于CEL-MADDPG的多无人机围捕策略方法,实现了 多无人机协同围捕决策控制。同时,将多无人机围捕任务进行拆解,并引导多无人机 通过课程学习对围捕过程中的相关策略进行系统性学习。此外,引入相关性学习策略 和经验优先回放策略,在训练过程中对经验样本进行筛选,提升训练效率。
基于本发明提出的多无人机围捕策略方法,能够为多无人机系统提供自主学习和自适应能力,使我方多无人机系统能够动态感知环境变化,在不同的状态下决策出合 适的行为,最终逐渐实现对目标的追踪接近和包围捕获,多无人围捕仿真测试图如图5所示。
以上所述仅为本发明的优选实施方式,应该指出:本发明的实施方式并不局限于上述实施方法的限制;在不脱离本发明原理的前提下,其他的对本发明做出的删减、 修饰、简化等修改方式的方案,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于CEL-MADDPG的多无人机围捕策略方法,其特征在于包括下述步骤:
步骤1:设定无人机状态信息:
步骤2:设定无人机的动作信息和无人机的状态更新过程:
通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度控制;因此,设定无人机动作状态信息为:
A=[Fx,Fy]
其中,Fx,Fy分别表示无人机在x、y轴上的受力,则无人机的加速度表示为:
a=[ax,ay]=[Fx,Fy]/mu
其中,ax,ay分别表示无人机在x、y轴上的加速度,mu表示无人机质量;基于无人机受力的无人机状态更新过程表示为:
Figure FDA0003644212730000011
其中,其中上标t表示时间,pt,vt
Figure FDA0003644212730000012
分别表示t时刻我方无人机的位置信息、速度信息和偏航角,xt-1,yt-1分别表示t-1时刻我方无人机在x、y轴上的位置,
Figure FDA0003644212730000013
分别表示t时刻我方无人机在x、y轴上的速度分量,
Figure FDA0003644212730000014
分别表示t-1时刻我方无人机在x、y轴上的速度分量,△t表示无人机运动时间间隔,a为无人机加速度,
Figure FDA0003644212730000015
分别表示t时刻无人机加速度在x、y轴上的加速度分量;
步骤3:定义奖励函数R:
步骤4:结合课程学习策略,优化无人机奖励函数:
在围捕课程学习中,引入课程奖励rcourse用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习;
步骤4-1:设定目标追踪子任务判定条件为:
Figure FDA0003644212730000021
其中,dcapture表示单机捕获距离,dlimit表示针对目标追踪子任务到包围过渡子任务转化设定的阈值,当满足该条件时,课程奖励rcourse等于目标追踪子奖励rtrack,此时设定目标追踪子奖励为:
Figure FDA0003644212730000022
其中,dmax为任务场景中目标与无人机的最大距离值;
步骤4-2:设定包围过渡子任务判定条件为:
Figure FDA0003644212730000023
其中,
Figure FDA0003644212730000024
表示无人机i、无人机i+1、目标E构成的三角形面积,U0和Un都用于表示最后一个即第n个无人机,当满足该条件时,课程奖励rcourse等于包围过渡子奖励rencicle,此时设定包围过渡子奖励为:
Figure FDA0003644212730000025
步骤4-3:设定靠近捕获子任务判定条件为:
Figure FDA0003644212730000026
当满足该条件时,课程奖励rcourse等于靠近捕获子奖励rcapture,此时设定靠近捕获子奖励为:
Figure FDA0003644212730000027
其中,
Figure FDA0003644212730000028
Figure FDA0003644212730000029
分别表示t时刻和t-1时刻无人机i到目标的距离;
步骤4-4:对于每个无人机,更新其受到的总奖励为:
Figure FDA00036442127300000210
其中,β1~β4表示四项奖励的相应权重值;
步骤4-5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标与各围捕无人机距离都小于捕获距离dcapture时,视作目标无法逃逸,此时多无人机围捕任务完成;
步骤5:引入相关性学习策略,基于深度强化学习CEL-MADDPG算法,构建多无人机围捕决策模型并进行训练,通过CEL-MADDPG神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。
2.根据权利要求1所述的基于CEL-MADDPG的多无人机围捕策略方法,其特征在于:
所述步骤1中设定无人机状态信息的具体步骤为:
对于每个围捕无人机,其状态信息S设定为:
S=[Suav,Steamer,Sobser,Starget]
其中,Suav,Steamer,Sobser,Starget分别表示无人机自身状态信息、其他右方无人机状态信息、无人机自身观测状态信息和目标状态信息;
在多无人机围捕机动决策任务中,设定任务场景宽度和长度分别为lwidth和llength,对于无人机i,设定无人机自身状态信息为:
Figure FDA0003644212730000031
其中,xi和yi表示第i个无人机在x、y轴上的坐标信息,
Figure FDA0003644212730000032
Figure FDA0003644212730000033
表示第i个无人机在x、y轴上的速度信息,vmax为无人机最大速度;
对于无人机i,设定友方无人机状态信息为:
Figure FDA0003644212730000034
其中,n表示多无人机系统中无人机数量;
对于无人机i,设定无人机自身观测状态信息为
Figure FDA0003644212730000035
其中,di和θi分别表示我方围捕无人机与目标的距离和相对方位角;
分别利用j个距离传感器对无人机周围环境进行探测;对于无人机i,设定无人机探测状态信息为:
Figure FDA0003644212730000041
其中
Figure FDA0003644212730000042
表示无人机i的各距离传感器示数,L表示距离传感器探测范围。
3.根据权利要求1所述的基于CEL-MADDPG的多无人机围捕策略方法,其特征在于:
所述定义奖励函数R为:
步骤3-1:对于无人机i,设定无人机靠近目标奖励为:
Figure FDA0003644212730000043
其中vi表示无人机速度大小,ψi表示无人机与目标的相对方位角;
步骤3-2:对于无人机i,设定无人机安全飞行奖励:
Figure FDA0003644212730000044
dio表示无人机到障碍物的距离,Robstacle表示无人机到障碍物的最小安全距离,
Figure FDA0003644212730000045
表示无人机处于任务场景外;
步骤3-3:对于无人机i,设定无人机任务完成奖励:
Figure FDA0003644212730000046
其中,
Figure FDA0003644212730000047
表示目标与我方两两无人机形成的三角形面积之和,
Figure FDA0003644212730000048
表示所有无人机形成的多边形面积,di表示无人机i到目标的距离,dcapture表示单机捕获距离;
步骤3-4:对于无人机i,设定其受到的总奖励为:
Figure FDA0003644212730000049
其中,μ1~μ3表示三项奖励的相应权重值。
4.根据权利要求1所述的基于CEL-MADDPG的多无人机围捕策略方法,其特征在于:
所述步骤5的实现步骤为:
步骤5-1:对于每个围捕无人机,分别构建动作网络
Figure FDA0003644212730000051
和评价网络
Figure FDA0003644212730000052
基于
Figure FDA0003644212730000053
同步参数至目标价值网络
Figure FDA0003644212730000054
和目标动作网络
Figure FDA0003644212730000055
中,其中i表示无人机序号;
步骤5-2:初始化超参数:经验回放队列大小M,初次采样大小Npre-batch,二次采样大小Nbatch,每回合最大步长T,折扣因子γ,最大回合数E,训练频次K,设定回合数e=0;
步骤5-3:初始化n个围捕无人机的状态s1,…,sn,更新当前时刻为t=0;
步骤5-4:对于每一个无人机i,根据当前动作网络和探索噪声选择动作
Figure FDA0003644212730000056
其中
Figure FDA0003644212730000057
表示动作噪声;
步骤5-5:分别执行动作a1,…,an后,得到奖励值r1,…,rn,得到下一时刻系统状态x′;
步骤5-6:计算当前t时刻下的相关性指标函数:
Figure FDA0003644212730000058
其中,σ1~3为三项子指标的权重值,为常量;O为多围捕无人机勾成的围捕网质心,
Figure FDA0003644212730000059
表示序号为i的无人机与围捕网质心O的距离;
然后,存储经验样本[x,a1,…,aN,r1,…,rN,x′,fr(x)]于经验回放队列中;
步骤5-7:根据
Figure FDA00036442127300000510
采样Npre-batch个样本数据,其中c表示被抽取的经验样本的序号,pc表示其优先级,参数α为用于调节样本优先采样程度的参数;
在所采样的Npre-batch个样本数据中,根据△fr=|fr(st)-fr(sbatch)|进行二次采样获得Nbatch个相关性样本,fr(sbatch)为基于采样样本数据计算得到的相关性指标数据;
计算重要性权重wj=(M·P(i))/maxiwi,其中M为经验回放队列大小,β为超参数,用于调节重要性采样对模型收敛速率的影响;
计算目标值:
Figure FDA00036442127300000511
其中,γ为奖励折扣因子,a1′,…aN′为下一时刻各无人机动作;
通过最小化损失函数对在线价值网络进行更新:
Figure FDA0003644212730000061
通过策略梯度方法对在线动作网络进行更新:
Figure FDA0003644212730000062
步骤5-8:分别更新各无人机智能体的目标动作网络和目标价值网络参数:
Figure FDA0003644212730000063
τ表示更新比例系数;
步骤5-9:更新步长t加1,执行判定:当t<T且不满足多无人机围捕判定条件时,进入步骤5-4;否则进入步骤5-10;
步骤5-10:更新回合数e加1,执行判定:若e<E,则更新至步骤5-3;否则,训练完成,进入步骤5-11;
步骤5-11:终止CEL-MADDPG网络训练过程,保存当前网络参数;将保存好的参数加载至多无人机围捕系统中;每一时刻,每个无人机分别将状态信息输入至神经网络中,通过CEL-MADDPG神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。
CN202210525305.9A 2022-05-15 2022-05-15 一种基于cel-maddpg的多无人机围捕策略方法 Active CN115097861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210525305.9A CN115097861B (zh) 2022-05-15 2022-05-15 一种基于cel-maddpg的多无人机围捕策略方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210525305.9A CN115097861B (zh) 2022-05-15 2022-05-15 一种基于cel-maddpg的多无人机围捕策略方法

Publications (2)

Publication Number Publication Date
CN115097861A true CN115097861A (zh) 2022-09-23
CN115097861B CN115097861B (zh) 2024-04-26

Family

ID=83287468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210525305.9A Active CN115097861B (zh) 2022-05-15 2022-05-15 一种基于cel-maddpg的多无人机围捕策略方法

Country Status (1)

Country Link
CN (1) CN115097861B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350326A (zh) * 2023-11-29 2024-01-05 北京航空航天大学 层次协同学习的多机围捕方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020064969A1 (en) * 2018-09-26 2020-04-02 Flare Bright Ltd Aerial imaging device and system
CN113268078A (zh) * 2021-04-20 2021-08-17 四川大学 一种无人机群自适应环境的目标追踪围捕方法
CN113467508A (zh) * 2021-06-30 2021-10-01 天津大学 面向围捕任务的多无人机智能协同决策方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020064969A1 (en) * 2018-09-26 2020-04-02 Flare Bright Ltd Aerial imaging device and system
CN113268078A (zh) * 2021-04-20 2021-08-17 四川大学 一种无人机群自适应环境的目标追踪围捕方法
CN113467508A (zh) * 2021-06-30 2021-10-01 天津大学 面向围捕任务的多无人机智能协同决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏治宝, 陆际联, 童亮: "一种多移动机器人协作围捕策略", 北京理工大学学报, no. 05, 30 May 2004 (2004-05-30), pages 32 - 35 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350326A (zh) * 2023-11-29 2024-01-05 北京航空航天大学 层次协同学习的多机围捕方法、装置、电子设备及介质
CN117350326B (zh) * 2023-11-29 2024-04-09 北京航空航天大学 层次协同学习的多机围捕方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN115097861B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
Yan et al. Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments
CN113589842B (zh) 一种基于多智能体强化学习的无人集群任务协同方法
CN108731684B (zh) 一种多无人机协同区域监视的航路规划方法
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
Liu et al. A deep reinforcement learning based intelligent decision method for UCAV air combat
US8924069B1 (en) Artificial immune system approach for airborne vehicle maneuvering
CN113095481A (zh) 一种基于并行自我博弈的空战机动方法
CN112947562A (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN114510078B (zh) 一种基于深度强化学习的无人机机动规避决策方法
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
Kersandt et al. Self-training by reinforcement learning for full-autonomous drones of the future
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN114679729B (zh) 一种雷达通信一体化的无人机协同多目标探测方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN113536564B (zh) 基于虚拟仿真的无人蜂群自主协同评估方法及系统
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant