CN116796843A - 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 - Google Patents
一种基于pso-m3ddpg的无人机多对多追逃博弈方法 Download PDFInfo
- Publication number
- CN116796843A CN116796843A CN202310651127.9A CN202310651127A CN116796843A CN 116796843 A CN116796843 A CN 116796843A CN 202310651127 A CN202310651127 A CN 202310651127A CN 116796843 A CN116796843 A CN 116796843A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- escape
- pursuit
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000033001 locomotion Effects 0.000 claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 50
- 230000006870 function Effects 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000003062 neural network model Methods 0.000 claims abstract description 12
- 239000002245 particle Substances 0.000 claims description 55
- 239000003795 chemical substances by application Substances 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 4
- 230000002411 adverse Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 28
- 230000002787 reinforcement Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 240000007839 Kleinhovia hospita Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于PSO‑M3DDPG的无人机多对多追逃博弈方法,本发明:构建无人机运动模型和任务分配模型;构建追捕无人机和逃逸无人机的奖励函数,引入PSO算法,对神经网络模型参数进行初始化,利用PSO‑M3DDPG算法,对追逃双方无人机的初始追逃博弈模型进行训练,最终收敛,得到无人机多对多追逃博弈的最终模型,运用无人机多对多追逃博弈的最终模型可实时输出追捕无人机的策略。本发明引入了PSO算法,避免初值的不合理,结合极大极小值法的M3DDPG算法,提高算法的鲁棒性和泛化能力,同时引入了多智能体对抗学习方法,解决了求解优化的极大极小目标所带来的计算困难。
Description
技术领域
本发明涉及无人机追逃博弈和强化学习领域,具体为一种无人机多对多追逃博弈方法。
背景技术
随着技术产业的升级,智能化程度的提高,实际的应用场景变得更加复杂,许多重要应用中都需要智能体间的交互,训练过程中每个智能体都在变化,环境会变得不稳定,因此传统的单智能体强化学习算法并不适用。
为了解决这类问题,让智能体能够学习到稳定的策略,研究人员基于DDPG算法提出了MADDPG算法,该算法在critic网络中加入了其他智能体的信息,采用“集中训练、分布执行”的方法,适用于合作环境以及竞争和合作并存的混合环境中。但MADDPG算法训练的智能体往往对环境脆弱敏感,尤其是环境中智能体的行为会对其他智能体不利时,如追逃环境中的碰撞风险,智能体容易陷入较差的局部最优中。
因此,如何提供一种既降低智能体对环境的敏感度,又能实时智能地提供追逃策略的基于博弈强化学习的无人机多对多追逃博弈方法,是本领域技术人员亟需解决的问题。
发明内容
为了克服现有技术的不足,本发明提供一种基于PSO-M3DDPG的无人机多对多追逃博弈方法。本发明提高算法的鲁棒性和泛化能力,研究人员在MADDPG算法的基础上结合极大极小值法提出了PSO-M3DDPG算法。同时引入了多智能体对抗学习(MAAL)方法,解决求解优化的极大极小目标所带来的计算困难。如此设计优化了网络的训练过程,避免了智能体陷入局部最优,优化了追捕效果。
为了实现上述目的,本发明采用的技术方案包括以下步骤:
S1:构建无人机多对多虚拟追逃博弈场景;
S2:构建无人机运动模型;设定逃逸无人机的三种机动方式分别为直线运动、简单曲线运动和智能逃逸运动,复杂度依次递增;
S3:构建任务分配模型;设计优势函数及目标函数,求解最优任务分配情况;
S4:搭建无人机信息交互模型;
S5:构建追捕无人机和逃逸无人机的奖励函数;
S6:引入PSO算法,对深度神经网络模型的初始权重值进行一定程度的搜索学习,得到一个整体优化过程中的较优解,对神经网络模型参数进行初始化;
S7:利用PSO-M3DDPG算法,对追逃双方无人机的初始追逃博弈模型进行训练,最终收敛,得到无人机多对多追逃博弈的最终模型;
S8:运用无人机多对多追逃博弈的最终模型可实时输出追捕无人机的策略;
将追逃无人机的状态信息实时输入到最终的无人机多对多逃博弈模型的神经网络中,进行任务分配,得到追逃无人机的动作选择,控制追捕无人机完成对逃逸无人机的追捕任务。
步骤S2中,针对无人机多对多追逃任务,设计了三种智能化程度逐步提高的逃跑策略,分别进行我方无人机追逃任务策略训练,逃逸无人机的三种机动方式的表达式如下:
直线运动:
曲线运动:
智能逃逸运动:
θtar-uav=arctan((ytarget-ycenter)/(xtarget-xcenter))
其中,Δt为步长;xtarget、ytarget为逃逸无人机的坐标,x′target、y′target为下一时刻逃逸无人机的坐标;vtarget、θtarget为逃逸无人机的速度大小和方向,方向为速度方向与X轴正方向的夹角,v′target、θ′target为下一时刻逃逸无人机的速度大小和方向;av、aθ为逃逸无人机的线加速度和角加速度;k和m为影响曲线的弯曲程度的参数,k=1,2,3……;m随意取值;xcenter、ycenter为追捕无人机集群的几何中心坐标;θtar-uav为逃逸无人机和探测范围内追捕无人机集群的几何中心连线与地图x轴正方向的夹角,xi为第i个无人机位置的x坐标,yi为第i个无人机位置的y坐标,i=1,2,3,……,n,n为无人机的数量。
所述任务分配模型包括优势函数及目标函数,任务分配标志aij为无人机任务分配标志,表示第i架无人机是否执行第j项任务:
当追捕无人机数量等于逃逸无人机数量,进行如下0-1规划:
当追捕无人机数量大于逃逸无人机数量,进行如下0-1规划:
追捕无人机的位置为,逃逸无人机的位置为/>,追捕无人机和逃逸无人机的速度比/>,可得阿波罗尼奥斯圆圆心坐标为/>阿波罗尼奥斯圆的半径为/>追逃双方所形成的阿波罗尼奥斯圆越小越好,圆上离Y轴最近的点的横坐标越大越好,定义优势函数如下:
总的目标函数如下所示:
因此最优任务分配如下所示:
所述无人机信息交互模型为每架无人机只能够跟通讯范围内最近的三架无人机进行信息交互。
所述奖励函数包括距离上和方向上两种引导性的全局奖励,以及捕获成功和任务失败两种局部奖励,奖励函数设置如下:
其中rgollbal为全局奖励;为距离上的奖励;/>为方向上的奖励;rlocal为局部奖励;rfinal为无人机完成对单逃逸无人机追捕的奖励值;rbound表示边界奖惩;rteam为子追捕团队奖励;rdanger为追捕无人机之间碰撞的奖惩值;dis表示当前时刻的相对距离;dis_表示下一时刻的相对距离;/>表示追捕无人机的速度矢量和追逃无人机双方位置连线的夹角;β和γ为超参数,表示权重系数;αdanger表示权重系数,i代表第i架无人机,/>为第i架无人机的全局奖励,/>表示第i架无人机的局部奖励,/>为距离上的奖励,/>为方向上的奖励,/>为第i架无人机完成对单逃逸无人机追捕的奖励值,/>为第i架无人机的边界奖惩,/>为第i架无人机的子追捕团队奖励,/>为第i架无人机与其他追捕无人机之间碰撞的奖惩值,disi表示第i架无人机与目标无人机当前时刻的相对距离,/>表示第i架无人机与目标无人机下一时刻的相对距离,dij表示第i架无人机与第j架无人机之间的相对距离,ddanger表示追捕无人机之间最小碰撞距离,dsafe表示追捕无人机之间最小安全距离。
引用PSO算法对深度神经网络模型的初始权重值进行优化求解,具体步骤为:
设定相关参数c1,c2,w和粒子个数,初始化种群,对种群中粒子不断进行评价优化,即在可行解空间中随机初始化一群粒子,每个粒子都为优化问题的一个可行解,并由目标函数为之确定一个适应度值,每个粒子将在解的空间中运动,并由速度决定其下一时刻的运动方向和距离,粒子将追随当前的最优粒子而动,并经逐代搜索最后得到最优解;按照如下公式计算每个粒子新的时刻的速度和位置:
vid(t+1)=wvid(t)+c1r1(pi(t)-xid(t))+c2r2(g(t)-xid(t))
xid(t+1)=xid(t)+vid(t+1)
对于第i个粒子,它的位置表示为Xi=(xi0,xi1,…,xiDim),速度表示为Vi=(vi0,vi1,…,viDim),i=1,2,…,N,其中N是粒子数目,Dim是粒子的维数,xid(t)表示粒子i在当前时刻t的位置,下角标d表示粒子维度,xid(t+1)表示粒子i在下一时刻t+1的位置,vid(t)表示粒子i在当前时刻t的速度,下角标d表示粒子维度,vid(t+1)表示粒子i在下一时刻t+1的速度,pi(t)表示粒子i在t时刻前的最优解,g(t)表示表示整个粒子群在t时刻前的历史最优解;w为惯性权重,控制粒子速度变化;r1,r2为[0,1]之间的随机数,为控制权重;c1,c2为学习因子,c1,c2取c1=c2=2,代表了粒子向自身和全局最优值推进的随机加速权重;
假设其他智能体都做出对己方最不利的行为,形成了极小值学习目标JM(θi):
s表示状态空间ρ下的智能体环境状态,ai表示第i个智能体策略网络下选择的动作,θi为策略网络参数,Oi第i个智能体的观测信息,/>第i个智能体集中式的状态函数;
通过最小化估计误差更新critic网络,利用采样的策略梯度更新actor网络,优化参数,利用最小化损失值、梯度下降的方法,分别优化critic网络的权重、偏差参数以及actor网络的权重、偏差参数,最终构造最优策略网络如下:
yk为critic网络的目标函数,L(θi)为损失函数;
目标网络更新方式如下所示:
θ′target←τθeval+(1-τ)θtarget
τ表示软更新系数,表示新元素所占的比例。
在M3DDPG算法中,采用多智能体对抗学习方法进行极大极小目标求解,求解在其他智能体都做出对己方最不利的行为的情况下,智能体执行追捕任务的最优策略;通过构造局部线性函数逼近非线性的状态值函数,采用梯度下降的方法代替内环极小化方法近似求解目标,即求解局部线性函数,补充公式如下:
其中,a′k为第k个智能体在状态ok时经策略网络选择所采取的动作,为第j个智能体使Q值减小最快的动作,超参数γ为折扣因子,εj≠i为引入的干扰,使其他智能体动作表现最差,定义一组扰动∈,通过线性化Q函数/>寻求一个干扰值εj,在梯度方向局部近似/>对减少最多Q值的行为a*进行干扰,令a*=a+ε,通过叠加干扰,使其他智能体行为减少最多Q值,构造不利环境,使学习到更稳健的策略,然后对Q函数/>进行线性化,表达式如下:
其中α表示可调系数,能影响梯度下降求解的步长。
本发明的有益效果在于提供了一种基于PSO-M3DDPG的无人机多对多追逃博弈方法。本发明提供的PSO-M3DDPG算法在MADDPG算法的基础上进行了改进发展,引入了PSO算法,避免初值的不合理,结合极大极小值法的M3DDPG算法,提高算法的鲁棒性和泛化能力,同时引入了多智能体对抗学习(MAAL)方法,解决了求解优化的极大极小目标所带来的计算困难。
附图说明
图1为本发明提供的基于PSO-M3DDPG的无人机多对多追逃博弈方法的流程图。
图2为本发明提供的无人机多对多追逃博弈模拟场景示意图;
图3为本发明提供的逃逸无人机运动模型示意图;图3的(a)图逃逸无人机做匀速直线运动模型图,图3的(b)图为逃逸无人机做简单曲线运动模型图,图3的(c)图为逃逸无人机做智能逃逸运动模型图。
图4为本发明提供的追捕无人机合作追捕示意图;
图5为本发明提供的无人机信息交互模型示意图;
图6为本发明提供的PSO算法流程图;
图7为本发明提供的无人机多对多追逃博弈任务初始态势图;图7的(a)图为无人机二对二追逃任务,图7的(b)图为无人机四对二追逃任务。
图8为本发明提供的逃逸无人机采取直线运动时“actor_eval网络”部分参数训练过程中变化曲线对比图;
图9为本发明提供的训练后模型控制追捕无人机对直线运动的逃逸无人机进行追捕的轨迹图;图9的(a)图为无人机二对二追逃任务轨迹图,图9(b)为无人机四对二追逃任务轨迹图。
图10为本发明提供的多对多追逃任务中训练过程逃逸无人机采取直线运动时个体、全局奖励曲线对比图;图10的(a)图为个体奖励,图10到(b)图为全局奖励。
图11为本发明提供的逃逸无人机采取简单曲线运动时“actor_eval网络”部分参数训练过程中变化曲线对比图;
图12为本发明提供的训练后模型控制追捕无人机对简单曲线运动的逃逸无人机进行追捕的轨迹图;图12的(a)图为无人机二对二追逃任务轨迹图,图12的(b)图为无人机四对二追逃任务轨迹图。
图13为本发明提供的多对多追逃任务中训练过程逃逸无人机采取简单曲线运动时个体、全局奖励曲线对比图;图13的(a)图为个体奖励,图13的(b)图为全局奖励。
图14为本发明提供的逃逸无人机采取智能逃逸运动时“actor_eval网络”部分参数训练过程中变化曲线对比图;
图15为本发明提供的训练后模型控制追捕无人机对智能逃逸运动的逃逸无人机进行追捕的轨迹图;图15的(a)图为无人机二对二追逃任务轨迹图,图15的(b)图为无人机四对二追逃任务轨迹图。
图16为本发明提供的多对多追逃任务中训练过程逃逸无人机采取智能逃逸运动时个体、全局奖励曲线对比图;图16的(a)图为个体奖励,图16的(b)图为全局奖励。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1,本发明实施例公开了一种基于PSO-M3DDPG的无人机多对多追逃博弈方法,包括以下步骤:
S1:构建无人机多对多虚拟追逃博弈场景。
S2:构建无人机运动模型。设定逃逸无人机的三种机动方式:直线运动,简单曲线运动,智能逃逸运动,复杂度逐渐递增;
S3:构建任务分配模型。设计优势函数及目标函数,求解最优任务分配情况;
S4:搭建无人机信息交互模型;
S5:构建追捕无人机和逃逸无人机的奖励函数;
S6:引入PSO算法,对深度神经网络模型的初始权重值进行一定程度的搜索学习,得到一个整体优化过程中的较优解,对神经网络模型参数进行初始化;
S7:利用PSO-M3DDPG算法,对追逃双方无人机的初始追逃博弈模型进行训练,最终收敛,得到无人机多对多追逃博弈的最终模型;
S8:运用无人机多对多追逃博弈的最终模型可实时输出追捕无人机的策略。
下面分别对上述步骤进行详细描述。
S1:构建无人机多对多虚拟追逃博弈场景。场景如图2所示,以追捕无人机角度观察战场态势,其中蓝色无人机为追捕无人机e1,红色无人机为逃逸无人机p1,dE为逃逸无人机的安全距离,当追捕无人机和逃逸无人机的距离小于dE时,认为逃逸无人机被成功追捕。
S2:确定追捕无人机和逃逸无人机在所述追逃博弈场景中的环境范围约束条件,设定逃逸无人机的三种机动方式:直线运动,简单曲线运动,智能逃逸运动,复杂度逐渐递增。追逃无人机的运动建模如图3所示,设计了三种智能化程度逐步提高的逃跑策略,其中,Δt为步长;xtarget、ytarget为逃逸无人机的坐标;vtarget、θtarget为逃逸无人机的速度大小和方向,方向为速度方向与X轴正方向的夹角。运动表达式如下:
针对无人机多对多追逃任务,设计了三种智能化程度逐步提高的逃跑策略,分别进行我方无人机追逃任务策略训练。表达式如下:
直线运动:
曲线运动:
av=0 aθ=(θ′target-θtarget)/Δt
智能逃逸运动:
θtar-uav=arctan((ytarget-ycenter)/(xtarget-xcenter))
其中,Δy为步长;xtarget、ytarget为逃逸无人机的坐标;vtarget、θtarget为逃逸无人机的速度大小和方向,方向为速度方向与X轴正方向的夹角;av、aθ为逃逸无人机的线加速度和角加速度;v′target、θ′target为下一时刻逃逸无人机的速度大小和方向;x′target、ytarget为下一时刻逃逸无人机的坐标;k、m为影响曲线的弯曲程度的参数;xcenter、ycenter为追捕无人机集群的几何中心坐标;θtar-uav为逃逸无人机和探测范围内追捕无人机集群的几何中心连线的夹角。
S3:构建任务分配模型。做出如下假设:
任务分配主要分两种情况,一种的追捕无人机数量等于逃逸无人机数量,即(n=m);另一种是追捕无人机数量多于逃逸无人机数量,即(n>m)。
当n=m时,进行0-1规划:
当n>m时,无人机合作追捕如图4。进行0-1规划:
假设追捕无人机的位置为,逃逸无人机的位置为/>,两者的速度比/>可得阿波罗尼奥斯圆圆心坐标为/>,阿波罗尼奥斯圆的半径为/>定义优势函数如下所示:
总的目标函数如下所示:
最优任务分配如下所示:
S4:搭建无人机信息交互模型。每架无人机都有一个固定的通信范围,在通信范围内无人机之间才能够进行通信。假定每架无人机只能够跟通讯范围内最近的三架无人机进行信息交互,信息交互模型如图5所示。
S5:分别构建追捕无人机和逃逸无人机的奖励函数;针对追捕任务的完成,设计了距离上和方向上两种引导性的全局奖励以及捕获成功和任务失败两种局部奖励;针对追捕团队之间的协作要求,设计了组成追捕团队以及无人机之间的碰撞两种局部奖励。
奖励函数设置如下:
其中rgolbal为全局奖励;为距离上的奖励;/>为方向上的奖励;rlocal为局部奖励;rfinal为无人机完成对单逃逸无人机追捕的奖励值;rbound表示边界奖惩;rteam为子追捕团队奖励;rdanger为追捕无人机之间碰撞的奖惩值;dis表示当前时刻的相对距离;dis_表示下一时刻的相对距离;φ表示追捕无人机的速度矢量和追逃无人机双方位置连线的夹角;β和γ为超参数,表示权重系数;αdange表示权重系数。
S6:引入PSO算法,对深度神经网络模型的初始权重值进行一定程度的搜索学习,得到一个整体优化过程中的较优解,根据较优解对神经网络模型参数进行初始化,进而通过神经网络的梯度下降进行细节的优化学习,得到最优解。PSO算法流程图如图6所示。
表示粒子在t时刻的位置,/>表示粒子在下一时刻的位置,/>表示粒子在t时刻的速度,/>表示粒子在下一时刻的速度,/>表示粒子在t时刻前的最优解,表示整个粒子群在t时刻前的历史最优解。
对于第i个粒子,它的位置表示为Xi=(xi0,xi1,…,xiDim),速度表示为Vi=(vi0,vi1,…,viDim)i=1,2,…,N,其中N是粒子数目,Dim是粒子的维数。每个粒子根据自身经验和群体的经验/>来确定自身的速度,调整自己的轨迹,向最优点靠拢,不同粒子通过对应目标函数得到自己的个体适应度值,根据个体适应度值分析评价个体优劣。粒子的速度和位置更新公式如下所示:
vid(t+1)=wvid(t)+c1r1(pi(t)-xid(t))+c2r2(g(t)-xid(t))
xid(t+1)=xid(t)+vid(t+1)
上式中:w为惯性权重,控制粒子速度变化;r1,r2为[0,1]之间的随机数,为控制权重;c1,c2为学习因子,代表了粒子向自身和全局最优值推进的随机加速权重。
S7:利用PSO-M3DDPG算法,对追逃双方无人机的初始追逃博弈模型进行训练,M3DDPG算法采用PSO算法得到的权值结构进行深度强化学习的梯度下降更新模式,不断对无人机的“critic_eval”网络、“actor_eval”网络进行更新,直至最终收敛,得到最优解。在训练完成后得到无人机多对多追逃博弈的最终模型。PSO-M3DDPG算法算法流程图如图1所示。
假设其他智能体都做出对己方最不利的行为,强制每一个智能体执行一个比较好的策略,优化智能体的累计奖励,这样就形成了极小值学习目标JM(θi)。
s表示状态空间ρ下的智能体环境状态,ai表示第i个智能体策略网络下选择的动作,θi为策略网络参数,Oi为第i个智能体的观测信息,/>第i个智能体集中式的状态函数;
通过最小化估计误差来更新critic网络,利用采样的策略梯度来更新actor网络,优化参数。损失函数、优化公式如下:
模型采用深度网络框架,包含了“现实”和“估计”双网络模型,因此目标网络更新方式如下所示:
θtarget←τθeval+(1-τ)θtarget
训练过程分别使用基本M3DDPG算法和改进的PSO-M3DDPG算法作为追捕无人机决策单元进行无人机多对多追逃任务的模型训练,训练中每回合初始对无人机初始状态进行随机初始化。无人机多对多追逃任务的不同初始场景如下图7所示。
下面本发明对上述方法得到的无人机多对多追逃博弈的最终模型进行仿真实验:
在500*500的模拟环境场景中,随机生成多架追捕无人机和多架逃逸无人机,无人机的速度大小和方向均在各自的取值范围内随机生成。设定逃逸无人机进行直线运动、简单曲线运动、智能逃逸运动,设置每回合最大迭代步数为800。对网络参数进行训练,直至收敛。
对改进算法的收敛性进行研究,actor_eval网络的部分参数值变化情况分别如图8、图11、图14所示。从图中可以看出,由上图可知,M3DDPG算法训练初始由于神经网络参数按照正态分布随机初始化,在追逃决策过程中容易出现局部最优解;而在PSO-M3DDPG算法训练中,由于使用PSO算法进行神经网络参数的预训练,得到一个较优解空间,在神经网络更新中整体参数优化幅度较小,收敛速度加快。随着学习过程的深入,神经网络参数逐渐向最优值靠拢,直至收敛,达到平稳状态,得到一个稳定的无人机集群行为决策模型。
对改进算法的实际性能进行研究,分别采用PSO-M3DDPG算法和M3DDPG算法算法对无人机多对多追逃任务进行训练,记录每个训练回合下无人机个体回合奖励均值和无人机集群整体奖励值。具体分别如图10、图13、图16所示。从图中可以看出,随着训练过程的进入,奖励值缓慢上升,PSO-M3DDPG算法奖励初始值高于M3DDPG算法,而且整体学习效率和最终收敛结果明显优于M3DDPG算法,说明使用PSO算法对神经网络参数进行了一定程度的搜索学习,得到一个较优初始解,促进神经网络的学习过程,加快算法收敛速度并得到一个更优的收敛结果。
S8:运用无人机多对多追逃博弈的最终模型可实时输出追捕无人机的策略。
训练完成后,为了测试模型的效果,利用追逃模型实时控制追逃无人机进行仿真实验,在进行了1000轮实验后,结果证明,追捕无人机能成功捕获逃逸无人机。其中逃逸无人机采取不同机动方式下仿真实验轨迹图分别如图9、图12、图15所示,图9的(a)图为无人机二对二追逃任务轨迹图,图9(b)为无人机四对二追逃任务轨迹图,图9的左右两图为逃逸无人机进行不同速度、方向的匀速直线运动时的追捕任务轨迹图,图12(a)为无人机二对二追逃任务轨迹图,图12(b)为无人机四对二追逃任务轨迹图。图12的左右两边为逃逸无人机进行不同速度、幅度的简单曲线运动时的追捕任务轨迹图,图15的(a)图为无人机二对二追逃任务轨迹图,图15的(b)图为无人机四对二追逃任务轨迹图,图15的左右两边为逃逸无人机进行不同初始运动状态的智能逃逸运动时的追捕任务轨迹图。
追捕无人机集群与做简单直线运动、简单曲线运动、智能逃逸运动的逃逸无人机进行追逃任务训练,对训练完成的神经网络模型进行性能验证。使用收敛后的人工神经网络作为追捕无人机集群的行为决策单元,进行不同数量和不同初始状态下的无人机多对多追逃实验,并得到追捕无人机集群轨迹图进行分析。从图9、图12、图15可以看出,分别展示了不同数量的无人机进行多对多追逃任务的轨迹图。从图中可以看出,针对简单直线运动、简单曲线运动、智能逃逸运动目标,不同数量无人机的集群均有效地完成了追逃任务,表现良好。
Claims (7)
1.一种基于PSO-M3DDPG的无人机多对多追逃博弈方法,其特征在于包括下述步骤:
S1:构建无人机多对多虚拟追逃博弈场景;
S2:构建无人机运动模型;设定逃逸无人机的三种机动方式分别为直线运动、简单曲线运动和智能逃逸运动,复杂度依次递增;
S3:构建任务分配模型;设计优势函数及目标函数,求解最优任务分配情况;
S4:搭建无人机信息交互模型;
S5:构建追捕无人机和逃逸无人机的奖励函数;
S6:引入PSO算法,对深度神经网络模型的初始权重值进行一定程度的搜索学习,得到一个整体优化过程中的较优解,对神经网络模型参数进行初始化;
S7:利用PSO-M3DDPG算法,对追逃双方无人机的初始追逃博弈模型进行训练,最终收敛,得到无人机多对多追逃博弈的最终模型;
S8:运用无人机多对多追逃博弈的最终模型可实时输出追捕无人机的策略;
将追逃无人机的状态信息实时输入到最终的无人机多对多逃博弈模型的神经网络中,进行任务分配,得到追逃无人机的动作选择,控制追捕无人机完成对逃逸无人机的追捕任务。
2.根据权利要求1所述的基于PSO-M3DDPG的无人机多对多追逃博弈方法,其特征在于:
步骤S2中,针对无人机多对多追逃任务,设计了三种智能化程度逐步提高的逃跑策略,分别进行我方无人机追逃任务策略训练,逃逸无人机的三种机动方式的表达式如下:
直线运动:
曲线运动:
av=0aθ=(θ′target-θtarget)/△t
智能逃逸运动:
θtar-uav=arctan((ytarget-ycenter)/(xtarget-xcenter))
其中,Δt为步长;xtarget、ytarget为逃逸无人机的坐标,x′target、y′target为下一时刻逃逸无人机的坐标;vtarget、θtarget为逃逸无人机的速度大小和方向,方向为速度方向与X轴正方向的夹角,v′target、θ′target为下一时刻逃逸无人机的速度大小和方向;av、aθ为逃逸无人机的线加速度和角加速度;k和m为影响曲线的弯曲程度的参数,k=1,2,3……;m随意取值;xcenter、ycenter为追捕无人机集群的几何中心坐标;θtar-uav为逃逸无人机和探测范围内追捕无人机集群的几何中心连线与地图x轴正方向的夹角,xi为第i个无人机位置的x坐标,yi为第i个无人机位置的y坐标,i=1,2,3,……,n,n为无人机的数量。
3.根据权利要求1所述的基于PSO-M3DDPG的无人机多对多追逃博弈方法,其特征在于:
所述任务分配模型包括优势函数及目标函数,任务分配标志aij为无人机任务分配标志,表示第i架无人机是否执行第j项任务:
当追捕无人机数量等于逃逸无人机数量,进行如下0-1规划:
当追捕无人机数量大于逃逸无人机数量,进行如下0-1规划:
追捕无人机的位置为逃逸无人机的位置为/>追捕无人机和逃逸无人机的速度比/>可得阿波罗尼奥斯圆圆心坐标为/>阿波罗尼奥斯圆的半径为/>追逃双方所形成的阿波罗尼奥斯圆越小越好,圆上离Y轴最近的点的横坐标越大越好,定义优势函数如下:
总的目标函数如下所示:
因此最优任务分配如下所示:
4.根据权利要求1所述的基于PSO-M3DDPG的无人机多对多追逃博弈方法,其特征在于:
所述无人机信息交互模型为每架无人机只能够跟通讯范围内最近的三架无人机进行信息交互。
5.根据权利要求1所述的基于PSO-M3DDPG的无人机多对多追逃博弈方法,其特征在于:
所述奖励函数包括距离上和方向上两种引导性的全局奖励,以及捕获成功和任务失败两种局部奖励,奖励函数设置如下:
其中rgolbal为全局奖励;为距离上的奖励;/>为方向上的奖励;rlocal为局部奖励;rfinal为无人机完成对单逃逸无人机追捕的奖励值;rbound表示边界奖惩;rteam为子追捕团队奖励;rdanger为追捕无人机之间碰撞的奖惩值;dis表示当前时刻的相对距离;dis_表示下一时刻的相对距离;/>表示追捕无人机的速度矢量和追逃无人机双方位置连线的夹角;β和γ为超参数,表示权重系数;αdanger表示权重系数,i代表第i架无人机,/>为第i架无人机的全局奖励,/>表示第i架无人机的局部奖励,/>为距离上的奖励,/>为方向上的奖励,为第i架无人机完成对单逃逸无人机追捕的奖励值,/>为第i架无人机的边界奖惩,/>为第i架无人机的子追捕团队奖励,/>为第i架无人机与其他追捕无人机之间碰撞的奖惩值,disi表示第i架无人机与目标无人机当前时刻的相对距离,dis_i表示第i架无人机与目标无人机下一时刻的相对距离,dij表示第i架无人机与第j架无人机之间的相对距离,ddanger表示追捕无人机之间最小碰撞距离,dsafe表示追捕无人机之间最小安全距离。
6.根据权利要求1所述的基于PSO-M3DDPG的无人机多对多追逃博弈方法,其特征在于:
引用PSO算法对深度神经网络模型的初始权重值进行优化求解,具体步骤为:
设定相关参数c1,c2,w和粒子个数,初始化种群,对种群中粒子不断进行评价优化,即在可行解空间中随机初始化一群粒子,每个粒子都为优化问题的一个可行解,并由目标函数为之确定一个适应度值,每个粒子将在解的空间中运动,并由速度决定其下一时刻的运动方向和距离,粒子将追随当前的最优粒子而动,并经逐代搜索最后得到最优解;按照如下公式计算每个粒子新的时刻的速度和位置:
vid(t+1)=wvid(t)+c1r1(pi(t)-xid(t))+c2r2(g(t)-xid(t))
xid(t+1)=xid(t)+vid(t+1)
对于第i个粒子,它的位置表示为Xi=(xi0,xi1,…,xiDim),速度表示为Vi=(vi0,vi1,…,viDim),i=1,2,…,N,其中N是粒子数目,Dim是粒子的维数,xid(t)表示粒子i在当前时刻t的位置,下角标d表示粒子维度,xid(t+1)表示粒子i在下一时刻t+1的位置,vid(t)表示粒子i在当前时刻t的速度,下角标d表示粒子维度,vid(t+1)表示粒子i在下一时刻t+1的速度,pi(t)表示粒子i在t时刻前的最优解,g(t)表示表示整个粒子群在t时刻前的历史最优解;w为惯性权重,控制粒子速度变化;r1,r2为[0,1]之间的随机数,为控制权重;c1,c2为学习因子,c1,c2取c1=c2=2,代表了粒子向自身和全局最优值推进的随机加速权重;
假设其他智能体都做出对己方最不利的行为,形成了极小值学习目标JM(θi):
s表示状态空间ρ下的智能体环境状态,ai表示第i个智能体策略网络下选择的动作,θi为策略网络参数,Oi第i个智能体的观测信息,/>第i个智能体集中式的状态函数;
通过最小化估计误差更新critic网络,利用采样的策略梯度更新actor网络,优化参数,利用最小化损失值、梯度下降的方法,分别优化critic网络的权重、偏差参数以及actor网络的权重、偏差参数,最终构造最优策略网络如下:
yk为critic网络的目标函数,L(θi)为损失函数;
目标网络更新方式如下所示:
θ′target←τθeval+(1-τ)θtarget
τ表示软更新系数,表示新元素所占的比例。
7.根据权利要求1所述的基于PSO-M3DDPG的无人机多对多追逃博弈方法,其特征在于:
在M3DDPG算法中,采用多智能体对抗学习方法进行极大极小目标求解,求解在其他智能体都做出对己方最不利的行为的情况下,智能体执行追捕任务的最优策略;通过构造局部线性函数逼近非线性的状态值函数,采用梯度下降的方法代替内环极小化方法近似求解目标,即求解局部线性函数,补充公式如下:
其中,a′k为第k个智能体在状态ok时经策略网络选择所采取的动作,为第j个智能体使Q值减小最快的动作,超参数γ为折扣因子,εj≠i为引入的干扰,使其他智能体动作表现最差,定义一组扰动∈,通过线性化Q函数/>寻求一个干扰值εj,在梯度方向局部近似/>对减少最多Q值的行为α*进行干扰,令a*=a+ε,通过叠加干扰,使其他智能体行为减少最多Q值,构造不利环境,使学习到更稳健的策略,然后对Q函数/>进行线性化,表达式如下:
其中α表示可调系数,能影响梯度下降求解的步长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651127.9A CN116796843A (zh) | 2023-06-04 | 2023-06-04 | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651127.9A CN116796843A (zh) | 2023-06-04 | 2023-06-04 | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116796843A true CN116796843A (zh) | 2023-09-22 |
Family
ID=88047369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310651127.9A Pending CN116796843A (zh) | 2023-06-04 | 2023-06-04 | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116796843A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117434968A (zh) * | 2023-12-19 | 2024-01-23 | 华中科技大学 | 一种基于分布式a2c的多无人机追逃博弈方法及系统 |
-
2023
- 2023-06-04 CN CN202310651127.9A patent/CN116796843A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117434968A (zh) * | 2023-12-19 | 2024-01-23 | 华中科技大学 | 一种基于分布式a2c的多无人机追逃博弈方法及系统 |
CN117434968B (zh) * | 2023-12-19 | 2024-03-19 | 华中科技大学 | 一种基于分布式a2c的多无人机追逃博弈方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112947581B (zh) | 基于多智能体强化学习的多无人机协同空战机动决策方法 | |
CN112947562B (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
Jiandong et al. | UAV cooperative air combat maneuver decision based on multi-agent reinforcement learning | |
Ma et al. | Multi-robot target encirclement control with collision avoidance via deep reinforcement learning | |
CN113900445A (zh) | 基于多智能体强化学习的无人机协同控制训练方法及系统 | |
CN111580544B (zh) | 一种基于强化学习ppo算法的无人机目标跟踪控制方法 | |
CN112034888B (zh) | 一种固定翼无人机自主控制协作策略训练方法 | |
CN112902767B (zh) | 一种多弹时间协同的导弹制导方法及系统 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN115509251A (zh) | 基于mappo算法的多无人机多目标协同跟踪控制方法 | |
CN111240345A (zh) | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
Ruan et al. | Autonomous maneuver decisions via transfer learning pigeon-inspired optimization for UCAVs in dogfight engagements | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN116796843A (zh) | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 | |
Chai et al. | A hierarchical deep reinforcement learning framework for 6-DOF UCAV air-to-air combat | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
CN116776929A (zh) | 一种基于pf-maddpg的多智能体任务决策方法 | |
CN116107213A (zh) | 一种基于sac和lgvf的航天器追捕任务组合优化控制方法 | |
CN113741186A (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN116243727A (zh) | 一种渐进式深度强化学习的无人载具对抗与避障方法 | |
CN116697829A (zh) | 一种基于深度强化学习的火箭着陆制导方法及系统 | |
CN116774731A (zh) | 一种基于强化学习的无人机编队路径规划方法 | |
CN116702903A (zh) | 一种基于深度强化学习的航天器集群博弈智能决策方法 | |
CN116227622A (zh) | 基于深度强化学习的多智能体地标覆盖方法及系统 | |
Guo et al. | Maneuver decision of UAV in air combat based on deterministic policy gradient |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |