CN115097861A - 一种基于cel-maddpg的多无人机围捕策略方法 - Google Patents
一种基于cel-maddpg的多无人机围捕策略方法 Download PDFInfo
- Publication number
- CN115097861A CN115097861A CN202210525305.9A CN202210525305A CN115097861A CN 115097861 A CN115097861 A CN 115097861A CN 202210525305 A CN202210525305 A CN 202210525305A CN 115097861 A CN115097861 A CN 115097861A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- target
- enclosure
- drone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000007704 transition Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000013459 approach Methods 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims description 36
- 230000001133 acceleration Effects 0.000 claims description 12
- 230000002787 reinforcement Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于CEL‑MADDPG的多无人机围捕策略方法,建立一种基于多智能体深度确定性策略梯度算法的框架,将多无人机围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务,通过设立三种奖励函数帮助多无人机对围捕过程中的各子任务进行学习,通过引入相关性指标对样本采样效率进行改进,最终,提出的基于课程经验学习的多无人机围捕策略方法能够帮助无人机在动态复杂环境下,成功追踪接近目标,并实现对目标的包围捕获。本发明能够实现无人机自主决策,且各无人机产生的行为策略协同性更强,能够使多无人机学习到更为合理的围捕策略,提升多无人机围捕模型训练效率,且构建的多无人机决策模型具有更好的围捕性能。
Description
技术领域
本发明涉及多智能体系统和无人机智能决策领域,尤其是一种多无人机围捕策略方法。
背景技术
随着近些年无线通信、人工智能等高新技术的发展,无人机在区域搜索、工业巡检、等诸多领域大放异彩。然而,一些不法分子利用无人机敏捷、隐蔽的特性,将无 人机部署于对国家领土或基础设施的恶意间谍活动或恐怖袭击中,大大危害了国土领 域安全。这一系列的恶意无人机事件,引发了无人技术研究界对空域安全的新思考。 为了守卫空域安全,在敌方入侵我方领空进行非法情报侦察的场景中,采用多架防御 无人机构成多无人机编队,让多无人机编队能够根据态势环境而自动进行对目标的包 围驱逐或伴飞监视,具有重要意义。
现有对多无人机围捕策略的研究主要基于传统的一致性控制等方法,将若干无人机形成系统或集群,实现协同化决策。公开专利CN113917944A提出了一种无线紫外 光协作集群无人机围捕方法,其中无人机集群基于贪婪最优效益构建多个子联盟,己 方无人机之间通过不同波长紫外光信号进行防碰撞,通过效益最大化实现对目标的围 捕。然而,该类方法只关注当前收益,当目标具备更优机动性能时,己方无人机难以 完成战术布局,实现对目标的围捕。
深度强化学习(Deep Reinforcement Learning,DRL)通过最大化智能体从环境中获 得的累计奖赏值,帮助智能体学习到完成任务的最优序列决策,目前已被广泛应用于智能控制、多智能体系统、博弈对抗等领域中。公开专利CN113625775A提出了一种 状态预测和DDPG相结合的多无人机围捕方法,通过最小二乘法预测无人机状态信息, 然后基于深度强化学习DDPG算法对无人机模型进行训练,实现多无人机协同围捕。 然而,该方法中各无人机之间关联性较差,难以实现高效率的智能化协同决策。公开 专利CN113467508A提出了一种面向围捕任务的多无人机智能协同决策方法,基于状 态部分可观测的特点、任务环境动态性与不确定性因素的影响,采用多智能体深度强 化学习方法和避障机制,获得最优行动策略,达到多无人机智能协同决策的目的。然 而,该训练方法依赖大量样本数据,大大影响训练效率。同时,考虑到各无人机既需 要完成对目标的接近和自主障碍物规避,也需要考虑多智能体系统中的其他无人机单 元信息,通过合作完成对包围捕获。因此,让各无人机在适当的状态下学习合适的行 为,提升多无人机协同决策的有效性,也是我们需要关注的。
课程学习(Curriculum Learning,CL)的基本思想是将一个困难的目标任务排序为一系列更简单的任务,使得智能体可以通过依次解决课程中易处理的子任务来逐步 学习复杂的策略。因此,如何将课程学习方法引入到多智能体深度强化学习方法之中, 并与复杂的多无人机围捕决策模型相结合以改善各无人机的自主行为,并通过协同决 策完成对目标的靠近、包围、捕获,成为了深度强化学习在多无人机智能决策领域运 用的难题。
发明内容
为了克服现有技术的不足,本发明提供一种基于CEL-MADDPG的多无人机围捕 策略方法。本发明为一种基于课程经验学习多智能体深度确定性策略梯度(CurriculumExperience Learning Multi-agent deep deterministic policy gradient,CEL-MADDPG)的多 无人机围捕策略方法。具体地,建立一种基于多智能体深度确定性策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)算法的框架,实现多无人机协同运动控制。然后,引入课程学习方法,将多无人机围捕任务拆分为目标追踪、 包围过渡、靠近捕获三个子任务,通过设立三种奖励函数帮助多无人机对围捕过程中 的各子任务进行学习。在此基础上,引入相关性学习策略(Relative Experience Learning, REL)和优先经验回放策略,通过引入相关性指标对样本采样效率进行改进。最终, 提出的基于课程经验学习(Curriculum Experience Learning,CEL)的多无人机围捕策 略方法能够帮助无人机在动态复杂环境下,成功追踪接近目标,并实现对目标的包围 捕获。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:设定无人机状态信息:
步骤2:设定无人机的动作信息和无人机的状态更新过程:
通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度控制;因此,设定无人机动作状态信息为:
A=[Fx,Fy]
其中,Fx,Fy分别表示无人机在x、y轴上的受力,则无人机的加速度表示为:
a=[ax,ay]=[Fx,Fy]/mu
其中,ax,ay分别表示无人机在x、y轴上的加速度,mu表示无人机质量;基于无 人机受力的无人机状态更新过程表示为:
其中,其中上标t表示时间,pt,vt,分别表示t时刻我方无人机的位置信息、 速度信息和偏航角,xt-1,yt-1分别表示t-1时刻我方无人机在x、y轴上的位置,分 别表示t时刻我方无人机在x、y轴上的速度分量,分别表示t-1时刻我方无人 机在x、y轴上的速度分量,△t表示无人机运动时间间隔,a为无人机加速度,分 别表示t时刻无人机加速度在x、y轴上的加速度分量;
步骤3:定义奖励函数R:
步骤4:结合课程学习策略,优化无人机奖励函数:
在围捕课程学习中,引入课程奖励rcourse用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习;
步骤4-1:设定目标追踪子任务判定条件为:
其中,dcapture表示单机捕获距离,dlimit表示针对目标追踪子任务到包围过渡子任务转 化设定的阈值。当满足该条件时,课程奖励rcourse等于目标追踪子奖励rtrack,此时设定目标追踪子奖励为:
其中,dmax为任务场景中目标与无人机的最大距离值;
步骤4-2:设定包围过渡子任务判定条件为:
其中,表示无人机i、无人机i+1、目标E构成的三角形面积,U0和Un都用 于表示最后一个即第n个无人机,当满足该条件时,课程奖励rcourse等于包围过渡子奖 励rencicle,此时设定包围过渡子奖励为:
步骤4-3:设定靠近捕获子任务判定条件为:
当满足该条件时,课程奖励rcourse等于靠近捕获子奖励rcapture,此时设定靠近捕获子 奖励为:
步骤4-4:对于每个无人机,更新其受到的总奖励为:
其中,β1~β4表示四项奖励的相应权重值;
步骤4-5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标 与各围捕无人机距离都小于捕获距离dcapture时,视作目标无法逃逸,此时多无人机围捕 任务完成;
步骤5:引入相关性学习策略,基于深度强化学习CEL-MADDPG算法,构建多 无人机围捕决策模型并进行训练,通过CEL-MADDPG神经网络进行拟合,输出无人 机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。
所述步骤1中设定无人机状态信息的具体步骤为:
对于每个围捕无人机,其状态信息S设定为:
S=[Suav,Steamer,Sobser,Starget]
其中,Suav,Steamer,Sobser,Starget分别表示无人机自身状态信息、其他右方无人机状态信 息、无人机自身观测状态信息和目标状态信息;
在多无人机围捕机动决策任务中,设定任务场景宽度和长度分别为lwidth和llength,对 于无人机i,设定无人机自身状态信息为:
对于无人机i,设定友方无人机状态信息为:
其中,n表示多无人机系统中无人机数量;
其中,di和θi分别表示我方围捕无人机与目标的距离和相对方位角;
分别利用j个距离传感器对无人机周围环境进行探测;对于无人机i,设定无人机探测状态信息为:
所述定义奖励函数R为:
步骤3-1:对于无人机i,设定无人机靠近目标奖励为:
其中vi表示无人机速度大小,ψi表示无人机与目标的相对方位角;
步骤3-2:对于无人机i,设定无人机安全飞行奖励:
dio表示无人机到障碍物的距离,Robstacle表示无人机到障碍物的最小安全距离,
步骤3-3:对于无人机i,设定无人机任务完成奖励:
步骤3-4:对于无人机i,设定其受到的总奖励为:
其中,μ1~μ3表示三项奖励的相应权重值。
所述步骤5的实现步骤为:
步骤5-2:初始化超参数:经验回放队列大小M,初次采样大小Npre-batch,二次采 样大小Nbatch,每回合最大步长T,折扣因子γ,最大回合数E,训练频次K,设定回合 数e=0;
步骤5-3:初始化n个围捕无人机的状态s1,…,sn,更新当前时刻为t=0;
步骤5-5:分别执行动作a1,…,an后,得到奖励值r1,…,rn,得到下一时刻系统状态x′;
步骤5-6:计算当前t时刻下的相关性指标函数:
然后,存储经验样本[x,a1,…,aN,r1,…,rN,x′,fr(x)]于经验回放队列中;
在所采样的Npre-batch个样本数据中,根据△fr=|fr(st)-fr(sbatch)|进行二次采样获得 Nbatch个相关性样本,fr(sbatch)为基于采样样本数据计算得到的相关性指标数据;
计算重要性权重wj=(M·P(i))-β/maxiwi,其中M为经验回放队列大小,β为超参数,用于调节重要性采样对模型收敛速率的影响;
计算目标值:
其中,γ为奖励折扣因子,a1′,…aN′为下一时刻各无人机动作;
通过最小化损失函数对在线价值网络进行更新:
通过策略梯度方法对在线动作网络进行更新:
步骤5-8:分别更新各无人机智能体的目标动作网络和目标价值网络参数:
τ表示更新比例系数;
步骤5-9:更新步长t加1,执行判定:当t<T且不满足多无人机围捕判定条件时, 进入步骤5-4;否则进入步骤5-10;
步骤5-10:更新回合数e加1,执行判定:若e<E,则更新至步骤5-3;否则, 训练完成,进入步骤5-11;
步骤5-11:终止CEL-MADDPG网络训练过程,保存当前网络参数;将保存好的 参数加载至多无人机围捕系统中;每一时刻,每个无人机分别将状态信息输入至神经 网络中,通过CEL-MADDPG神经网络进行拟合,输出无人机飞行动作,各个围捕无 人机通过协同决策,实现对目标的靠近、包围、捕获。
本发明提出的基于CEL-MADDPG的多无人机围捕策略方法,其优点具体体现在:
(1)构建的基于深度强化学习的多无人机系统控制模型,采用集中式训练、分布式执行方法,能够实现无人机自主决策,且各无人机产生的行为策略协同性更强;
(2)本发明将深度强化学习方法和课程学习方法相结合,针对多无人机围捕场景,将复杂围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务,并设立相应的奖 励函数用于鼓励无人机在不同状态下学习合适的行为策略,能够使多无人机学习到更 为合理的围捕策略;
(3)本发明在训练过程中引入相关性学习策略和优先经验回放策略,利用优先经验 回放机制打破经验回放队列中连续经验条的相关性,然后在经验样本中引入多种围捕相关的数据指标,对样本采样效率进行改进,提升多无人机围捕模型训练效率,且构 建的多无人机决策模型具有更好的围捕性能。
附图说明
图1为基于CEL-MADDPG的多无人机围捕机动决策模型构建示意图。
图2为无人机探测示意图。
图3为围捕无人机与目标的位置关系示意图。
图4为基于课程学习的多无人机围捕各子任务图,图4(a)为目标跟踪状态的子 任务图,图4(b)为包围过渡状态的子任务图,图4(c)为靠近捕获状态的子任务图。
图5为多无人机围捕仿真测试图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出的一种基于CEL-MADDPG的多无人机围捕策略方法,其模型训练、 测试和构建流程如图1所示。下面结合附图和具体实施例,对该技术方案作进一步清 晰和完整的描述:
步骤1:设定无人机状态信息:
对于每个围捕无人机,其状态信息S设定为:
S=[Suav,Steamer,Sobser,Starget]
其中,Suav,Steamer,Sobser,Starget分别表示无人机自身状态信息、其他右方无人机状态信 息、无人机自身观测状态信息、目标状态信息;
具体地,在多无人机围捕机动决策任务中,设定任务场景宽度和长度分别为lwidth和 llength。对于无人机i,设定无人机自身状态信息为:
对于无人机i,设定友方无人机状态信息为:
其中,n表示多无人机系统中无人机数量;
对于无人机i,设定无人机自身观测状态信息为:
其中,di和θi分别表示我方围捕无人机与目标的距离和相对方位角,xe,ye表示目标位置信息;
分别利用j个距离传感器对无人机周围环境进行探测;对于无人机i,设定无人机探测状态信息为:
步骤2:设定无人机的动作信息和无人机的状态更新过程:
通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度控制。因此,设定无人机动作状态信息为:
A=[Fx,Fy]
其中,Fx,Fy分别表示无人机在x、y轴上的受力。则无人机的加速度可以表示为:
a=[ax,ay]=[Fx,Fy]/mu
其中,ax,ay分别表示无人机在x、y轴上的加速度,mu表示无人机质量;基于无 人机受力的无人机状态更新过程可以表示为:
其中,其中上标t表示时间,pt,vt,分别表示t时刻我方无人机的位置信息、 速度信息和偏航角,xt-1,yt-1分别表示t-1时刻我方无人机在x、y轴上的位置,分 别表示t时刻我方无人机在x、y轴上的速度分量,分别表示t-1时刻我方无人 机在x、y轴上的速度分量,△t表示无人机运动时间间隔,a为无人机加速度,分 别表示t时刻无人机加速度在x、y轴上的加速度分量;
步骤3:定义奖励函数R:
步骤3-1:对于无人机i,设定无人机靠近目标奖励为:
其中vi表示无人机速度大小,ψi表示无人机与目标的相对方位角,具体表示为:
无人机和目标的相对位置关系如图3所示;
步骤3-2:对于无人机i,设定无人机安全飞行奖励:
步骤3-3:对于无人机i,设定无人机任务完成奖励:
步骤3-4:对于无人机i,设定其受到的总奖励为:
其中,μ1~3表示三项奖励的相应权重值;
步骤4:结合课程学习策略,优化无人机奖励函数:
在围捕课程学习中,引入课程奖励rcourse用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习,基于课程学习的多无人机围捕任务图如图4所示;
步骤4-1:设定目标追踪子任务判定条件为:
其中,dlimit表示针对目标追踪子任务到包围过渡子任务转化设定的阈值。当满足该条件时,课程奖励rcourse等于目标追踪子奖励rtrack,此时设定目标追踪子奖励为:
其中,dmax为任务场景中目标与无人机的最大距离值;
步骤4-2:设定包围过渡子任务判定条件为:
其中,表示无人机i、无人机i+1、目标E构成的三角形面积。为方便公式 表述,U0和Un都用于表示最后一个即第n个无人机。当满足该条件时,课程奖励rcourse等于包围过渡子奖励rencicle,此时设定包围过渡子奖励为:
步骤4-3:设定靠近捕获子任务判定条件为:
当满足该条件时,课程奖励rcourse等于靠近捕获子奖励rcapture,此时设定靠近捕获子 奖励为:
步骤4-4:对于每个无人机,更新其受到的总奖励为:
其中,β1~4表示四项奖励的相应权重值;
步骤4-5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标 与各围捕无人机距离都小于捕获距离dcapture时,视作目标无法逃逸,此时多无人机围捕 任务完成;
步骤5:引入相关性学习策略,基于深度强化学习CEL-MADDPG算法,构建多 无人机围捕决策模型并进行训练:
步骤5-2:初始化超参数:经验回放队列大小M,初次采样大小Npre-batch,二次采 样大小Nbatch,每回合最大步长T,折扣因子γ,最大回合数E,训练频次K,设定回合 数e=0;
步骤5-3:初始化n个围捕无人机的状态s1,…,sn,更新当前时刻为t=0;
步骤5-5:分别执行动作a1,…,an后,得到奖励值r1,…,rn,得到下一时刻系统状态x′;
步骤5-6:计算当前t时刻下的相关性指标函数:
然后,存储经验样本[x,a1,…,aN,r1,…,rN,x′,fr(x)]于经验回放队列中;
在所采样的Npre-batch个样本数据中,根据△fr=|fr(st)-fr(sbatch)|进行二次采样获得 Nbatch个相关性样本,fr(sbatch)为基于采样样本数据计算得到的相关性指标数据;
计算重要性权重wj=(M·P(i))-β/maxiwi,其中M为经验回放队列大小,β为超参数,用于调节重要性采样对模型收敛速率的影响;
计算目标值:
其中,γ为奖励折扣因子,a1′,…aN′为下一时刻各无人机动作;
通过最小化损失函数对在线价值网络进行更新:
通过策略梯度方法对在线动作网络进行更新:
步骤5-8:分别更新各无人机智能体的目标动作网络和目标价值网络参数:
τ表示更新比例系数;
步骤5-9:更新步长t=t+1,执行判定:当t<T且不满足多无人机围捕判定条件 时,进入步骤5-4;否则进入步骤5-10;
步骤5-10:更新回合数e加1,执行判定:若e<E,则更新至步骤5-3;否则, 训练完成,进入步骤5-11;
步骤5-11:终止CEL-MADDPG网络训练过程,保存当前网络参数;将保存好的 参数加载至多无人机围捕系统中。每一时刻,每个无人机分别将状态信息进行输入, 并通过神经网络进行拟合,输出无人机飞行动作。各围捕无人机通过协同决策,最终 实现对目标的靠近、包围、捕获。
综上,本发明提出的一种基于CEL-MADDPG的多无人机围捕策略方法,实现了 多无人机协同围捕决策控制。同时,将多无人机围捕任务进行拆解,并引导多无人机 通过课程学习对围捕过程中的相关策略进行系统性学习。此外,引入相关性学习策略 和经验优先回放策略,在训练过程中对经验样本进行筛选,提升训练效率。
基于本发明提出的多无人机围捕策略方法,能够为多无人机系统提供自主学习和自适应能力,使我方多无人机系统能够动态感知环境变化,在不同的状态下决策出合 适的行为,最终逐渐实现对目标的追踪接近和包围捕获,多无人围捕仿真测试图如图5所示。
以上所述仅为本发明的优选实施方式,应该指出:本发明的实施方式并不局限于上述实施方法的限制;在不脱离本发明原理的前提下,其他的对本发明做出的删减、 修饰、简化等修改方式的方案,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于CEL-MADDPG的多无人机围捕策略方法,其特征在于包括下述步骤:
步骤1:设定无人机状态信息:
步骤2:设定无人机的动作信息和无人机的状态更新过程:
通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度控制;因此,设定无人机动作状态信息为:
A=[Fx,Fy]
其中,Fx,Fy分别表示无人机在x、y轴上的受力,则无人机的加速度表示为:
a=[ax,ay]=[Fx,Fy]/mu
其中,ax,ay分别表示无人机在x、y轴上的加速度,mu表示无人机质量;基于无人机受力的无人机状态更新过程表示为:
其中,其中上标t表示时间,pt,vt,分别表示t时刻我方无人机的位置信息、速度信息和偏航角,xt-1,yt-1分别表示t-1时刻我方无人机在x、y轴上的位置,分别表示t时刻我方无人机在x、y轴上的速度分量,分别表示t-1时刻我方无人机在x、y轴上的速度分量,△t表示无人机运动时间间隔,a为无人机加速度,分别表示t时刻无人机加速度在x、y轴上的加速度分量;
步骤3:定义奖励函数R:
步骤4:结合课程学习策略,优化无人机奖励函数:
在围捕课程学习中,引入课程奖励rcourse用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习;
步骤4-1:设定目标追踪子任务判定条件为:
其中,dcapture表示单机捕获距离,dlimit表示针对目标追踪子任务到包围过渡子任务转化设定的阈值,当满足该条件时,课程奖励rcourse等于目标追踪子奖励rtrack,此时设定目标追踪子奖励为:
其中,dmax为任务场景中目标与无人机的最大距离值;
步骤4-2:设定包围过渡子任务判定条件为:
其中,表示无人机i、无人机i+1、目标E构成的三角形面积,U0和Un都用于表示最后一个即第n个无人机,当满足该条件时,课程奖励rcourse等于包围过渡子奖励rencicle,此时设定包围过渡子奖励为:
步骤4-3:设定靠近捕获子任务判定条件为:
当满足该条件时,课程奖励rcourse等于靠近捕获子奖励rcapture,此时设定靠近捕获子奖励为:
步骤4-4:对于每个无人机,更新其受到的总奖励为:
其中,β1~β4表示四项奖励的相应权重值;
步骤4-5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标与各围捕无人机距离都小于捕获距离dcapture时,视作目标无法逃逸,此时多无人机围捕任务完成;
步骤5:引入相关性学习策略,基于深度强化学习CEL-MADDPG算法,构建多无人机围捕决策模型并进行训练,通过CEL-MADDPG神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。
2.根据权利要求1所述的基于CEL-MADDPG的多无人机围捕策略方法,其特征在于:
所述步骤1中设定无人机状态信息的具体步骤为:
对于每个围捕无人机,其状态信息S设定为:
S=[Suav,Steamer,Sobser,Starget]
其中,Suav,Steamer,Sobser,Starget分别表示无人机自身状态信息、其他右方无人机状态信息、无人机自身观测状态信息和目标状态信息;
在多无人机围捕机动决策任务中,设定任务场景宽度和长度分别为lwidth和llength,对于无人机i,设定无人机自身状态信息为:
对于无人机i,设定友方无人机状态信息为:
其中,n表示多无人机系统中无人机数量;
其中,di和θi分别表示我方围捕无人机与目标的距离和相对方位角;
分别利用j个距离传感器对无人机周围环境进行探测;对于无人机i,设定无人机探测状态信息为:
3.根据权利要求1所述的基于CEL-MADDPG的多无人机围捕策略方法,其特征在于:
所述定义奖励函数R为:
步骤3-1:对于无人机i,设定无人机靠近目标奖励为:
其中vi表示无人机速度大小,ψi表示无人机与目标的相对方位角;
步骤3-2:对于无人机i,设定无人机安全飞行奖励:
步骤3-3:对于无人机i,设定无人机任务完成奖励:
步骤3-4:对于无人机i,设定其受到的总奖励为:
其中,μ1~μ3表示三项奖励的相应权重值。
4.根据权利要求1所述的基于CEL-MADDPG的多无人机围捕策略方法,其特征在于:
所述步骤5的实现步骤为:
步骤5-2:初始化超参数:经验回放队列大小M,初次采样大小Npre-batch,二次采样大小Nbatch,每回合最大步长T,折扣因子γ,最大回合数E,训练频次K,设定回合数e=0;
步骤5-3:初始化n个围捕无人机的状态s1,…,sn,更新当前时刻为t=0;
步骤5-5:分别执行动作a1,…,an后,得到奖励值r1,…,rn,得到下一时刻系统状态x′;
步骤5-6:计算当前t时刻下的相关性指标函数:
然后,存储经验样本[x,a1,…,aN,r1,…,rN,x′,fr(x)]于经验回放队列中;
在所采样的Npre-batch个样本数据中,根据△fr=|fr(st)-fr(sbatch)|进行二次采样获得Nbatch个相关性样本,fr(sbatch)为基于采样样本数据计算得到的相关性指标数据;
计算重要性权重wj=(M·P(i))-β/maxiwi,其中M为经验回放队列大小,β为超参数,用于调节重要性采样对模型收敛速率的影响;
计算目标值:
其中,γ为奖励折扣因子,a1′,…aN′为下一时刻各无人机动作;
通过最小化损失函数对在线价值网络进行更新:
通过策略梯度方法对在线动作网络进行更新:
步骤5-8:分别更新各无人机智能体的目标动作网络和目标价值网络参数:
τ表示更新比例系数;
步骤5-9:更新步长t加1,执行判定:当t<T且不满足多无人机围捕判定条件时,进入步骤5-4;否则进入步骤5-10;
步骤5-10:更新回合数e加1,执行判定:若e<E,则更新至步骤5-3;否则,训练完成,进入步骤5-11;
步骤5-11:终止CEL-MADDPG网络训练过程,保存当前网络参数;将保存好的参数加载至多无人机围捕系统中;每一时刻,每个无人机分别将状态信息输入至神经网络中,通过CEL-MADDPG神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210525305.9A CN115097861B (zh) | 2022-05-15 | 2022-05-15 | 一种基于cel-maddpg的多无人机围捕策略方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210525305.9A CN115097861B (zh) | 2022-05-15 | 2022-05-15 | 一种基于cel-maddpg的多无人机围捕策略方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115097861A true CN115097861A (zh) | 2022-09-23 |
CN115097861B CN115097861B (zh) | 2024-04-26 |
Family
ID=83287468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210525305.9A Active CN115097861B (zh) | 2022-05-15 | 2022-05-15 | 一种基于cel-maddpg的多无人机围捕策略方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115097861B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350326A (zh) * | 2023-11-29 | 2024-01-05 | 北京航空航天大学 | 层次协同学习的多机围捕方法、装置、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020064969A1 (en) * | 2018-09-26 | 2020-04-02 | Flare Bright Ltd | Aerial imaging device and system |
CN113268078A (zh) * | 2021-04-20 | 2021-08-17 | 四川大学 | 一种无人机群自适应环境的目标追踪围捕方法 |
CN113467508A (zh) * | 2021-06-30 | 2021-10-01 | 天津大学 | 面向围捕任务的多无人机智能协同决策方法 |
-
2022
- 2022-05-15 CN CN202210525305.9A patent/CN115097861B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020064969A1 (en) * | 2018-09-26 | 2020-04-02 | Flare Bright Ltd | Aerial imaging device and system |
CN113268078A (zh) * | 2021-04-20 | 2021-08-17 | 四川大学 | 一种无人机群自适应环境的目标追踪围捕方法 |
CN113467508A (zh) * | 2021-06-30 | 2021-10-01 | 天津大学 | 面向围捕任务的多无人机智能协同决策方法 |
Non-Patent Citations (1)
Title |
---|
苏治宝, 陆际联, 童亮: "一种多移动机器人协作围捕策略", 北京理工大学学报, no. 05, 30 May 2004 (2004-05-30), pages 32 - 35 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350326A (zh) * | 2023-11-29 | 2024-01-05 | 北京航空航天大学 | 层次协同学习的多机围捕方法、装置、电子设备及介质 |
CN117350326B (zh) * | 2023-11-29 | 2024-04-09 | 北京航空航天大学 | 层次协同学习的多机围捕方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115097861B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yan et al. | Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments | |
CN113589842B (zh) | 一种基于多智能体强化学习的无人集群任务协同方法 | |
CN108731684B (zh) | 一种多无人机协同区域监视的航路规划方法 | |
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
Liu et al. | A deep reinforcement learning based intelligent decision method for UCAV air combat | |
US8924069B1 (en) | Artificial immune system approach for airborne vehicle maneuvering | |
CN113095481A (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN112947562A (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN114510078B (zh) | 一种基于深度强化学习的无人机机动规避决策方法 | |
CN111859541B (zh) | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
CN112198892B (zh) | 一种多无人机智能协同突防对抗方法 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
Kersandt et al. | Self-training by reinforcement learning for full-autonomous drones of the future | |
CN116661503B (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
CN113625569B (zh) | 一种基于混合决策模型的小型无人机防控决策方法及系统 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
CN114679729B (zh) | 一种雷达通信一体化的无人机协同多目标探测方法 | |
CN114815891A (zh) | 一种基于per-idqn的多无人机围捕战术方法 | |
CN115097861B (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN113536564B (zh) | 基于虚拟仿真的无人蜂群自主协同评估方法及系统 | |
Zhang et al. | Situational continuity-based air combat autonomous maneuvering decision-making |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |