CN113341958B

CN113341958B - 一种混合经验的多智能体强化学习运动规划方法

Info

Publication number: CN113341958B
Application number: CN202110558854.1A
Authority: CN
Inventors: 万开方; 武鼎威; 高晓光
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2022-02-25
Anticipated expiration: 2041-05-21
Also published as: CN113341958A

Abstract

本发明公开了一种混合经验的多智能体强化学习运动规划方法，即ME‑MADDPG算法。该方法通过MADDPG算法训练，在产生样本时，不仅通过探索和学习产生经验，还增加了通过人工势场法将多无人机成功规划至目标的高质量经验，并把这两种经验存放至不同的经验池。在训练时，神经网络通过动态采样，以变化的概率从两种经验池中采集样本，以每个智能体的自身状态信息和环境信息作为神经网络的输入，以多智能体的速度作为输出。同时，在训练的过程中神经网络缓慢更新，稳定地完成多智能体运动规划策略的训练，最终实现多智能体在复杂环境下自主避障并顺利到达各自的目标位置。本发明可以在复杂动态的环境中高效地训练出稳定性和适应性更好的运动规划策略。

Description

一种混合经验的多智能体强化学习运动规划方法

技术领域

本发明属于深度学习技术领域，具体涉及一种多智能体强化学习运动规划方法。

背景技术

随着科学理论与科学技术的蓬勃发展，多智能体系统在人们的日常生产和生活中应用越来越广泛，应用领域包括机场拖航、物流仓储、交通控制、机器人、电子游戏、智能无人驾驶等，而在这些领域中都需要利用多智能体运动规划技术。多智能体运动规划问题是一类寻找多个智能体从起始位置到目标位置且无冲突的最优路径集合的问题，如何让智能体高效地避开障碍物以及其他智能体，到达指定区域成为了一大研究难题。

目前研究者提出的运动规划方法整体上可以分为全局路径规划和局部路径规划。全局路径规划虽然能够高效快速地得到全局最优解，但全局信息的获取及通信瓶颈问题使得该类方法难以适应动态复杂的环境。因此在动态复杂的环境中依赖于具有实时获取环境信息能力的局部路径规划方法显示出巨大的优势，如人工势场法、遗传算法、神经网络、模糊逻辑等，但仍存在如难以解决局部极小、收敛速度慢及存储量大、规则和样本难以确定等问题，这些方法通常容易受到无法预料的干扰，任何不完整的感知，有偏差的估计或不正确的模型都将导致性能不佳。而多智能体强化学习不依赖环境模型和先验知识，而且具有自主学习和预测学习的特点，通过奖赏与惩罚来优化马尔科夫决策过程中的多智能体的策略，代表算法有MADDPG算法等，它们可以适用于随机变化的环境，逐渐成为多智能体在运动规划方面的研究热点。但是在多智能体系统训练的过程中，随着智能体增多，环境的状态维度也会指数增大，容易陷入维数灾难，会导致算法收敛困难，同时由于环境中多个智能体的存在，会导致对某个单一智能体而言，环境是不稳定的，该问题会加剧算法收敛的难度，同时会影响多智能体运动规划策略的稳定性，难以适用于复杂环境。因此，设计出一个能适应在不同未知、动态、复杂的环境中的多移动智能体的高效避障与路径规划系统，具有十分重大的实际意义。

人工势场法具有简单且有效的避障规划策略，但存在局部极小和规划难以适用动态复杂环境的问题；MADDPG算法不在意环境的复杂度，具有自主学习的特性，但存在收敛困难以及训练稳定性较差的问题。因此，将两者优势相结合，设计一种收敛性和稳定性强大的多智能体运动规划方法，对于多智能体在动态复杂的环境中高效地完成运动规划具有重要意义。

发明内容

为了克服现有技术的不足，本发明提供了一种混合经验的多智能体强化学习运动规划方法，即ME-MADDPG算法。该方法通过MADDPG算法训练，在产生样本时，不仅通过探索和学习产生经验，还增加了通过人工势场法将多无人机成功规划至目标的高质量经验，并把这两种经验存放至不同的经验池。在训练时，神经网络通过动态采样，以变化的概率从两种经验池中采集样本，以每个智能体的自身状态信息和环境信息作为神经网络的输入，以多智能体的速度作为输出。同时，在训练的过程中神经网络缓慢更新，稳定地完成多智能体运动规划策略的训练，最终实现多智能体在复杂环境下自主避障并顺利到达各自的目标位置。本发明可以在复杂动态的环境中高效地训练出稳定性和适应性更好的运动规划策略。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：对多智能体建立复杂环境下运动规划的随机对策模型；

采用随机对策作为环境模型，随机对策又称马尔科夫博弈模型，用五元组<N,S,A,P,R>进行描述，其中N＝{1,2,...,n}，表示n个智能体的集合，S表示联合状态，A表示联合动作，P为状态转移模型，R表示联合奖励；

步骤1-1：设定智能体以及障碍物的物理模型；

对于智能体i，i＝1,2,…,n，其半径为r_i ^a，在绝对坐标系中的位置为

智能体i运动的角速度为ω_i，速率为u_i，用速度角ψ_i表示速率与X轴正方向的夹角，n为智能体数量；

智能体i的目标设定为半径为r_i ^g的圆形区域，目标位置为

目标与智能体i的距离为D(P_i ^a,P_i ^g)；当D(P_i ^a,P_i ^g)≤r_i ^a+r_i ^g时，表明智能体i已到达目标；

设定智能体i的目标速度角为α_i，表示以智能体i中心为原点，以智能体i到其目标的方向为正方向建立极坐标系时的智能体i速度矢量与该极坐标下正方向的夹角值；智能体i具有通信功能，设定智能体i的通信范围是以智能体i为圆心，以d_c为半径的圆形区域；在通信范围内，智能体i能感知到其他智能体和障碍物的位置；

障碍物设定为失去通信功能的故障智能体，对于障碍物j，它的半径为

速率和角速度分别为

和

速度角为

位置为

与智能体i的距离为

为智能体i与障碍物j的碰撞距离，且

当

时，表明已发生碰撞；

步骤1-2：设定多智能体的联合状态；

多智能体的联合状态为所有智能体的状态的笛卡尔积，表示为S＝s₁×s₂×...×s_n，其中s_i代表着智能体i的状态；对于智能体i，它的状态空间为局部环境的观测信息；

将智能体i作为原点，将其与目标位置连线的方向作为正方向建立极坐标系，智能体i的状态表示为s_i＝(s_Ai,s_Ei)，其中

为自身信息，

为智能体i与目标的距离，α_i为目标速度角，u_i和ψ_i分别为智能体i的速率和速度角；

为环境信息，其中

为智能体i与距离它最近邻居j之间的距离，智能体i的邻居为其通信范围内的智能体和障碍物的集合，

和

分别为最近邻居j的速率、速度角以及半径；

如果智能体i的通讯范围内没有邻居，则

步骤1-3：设定多智能体的联合动作；

多智能体的联合动作为所有智能体的动作的笛卡尔积，表示为A，且A＝a₁×a₂×...×a_n，其中a_i表示无人机i的动作；对于智能体i，它的运动是由自身的角速度和速率所决定；

设定智能体i的动作空间为

其中

为t时刻智能体i的角速度；

步骤1-4：设定多智能体的状态转移模型；

多智能体的状态转移模型为P:S×A×S→[0,1]，表示所有智能体在当前状态采取联合动作到达下一状态的概率值；

智能体的状态转移通过运动实现，设定智能体和障碍物的运动空间为二维空间，则对于智能体i，它的运动模型表示为：

其中，

和

分别为智能体i的速率

沿X轴和Y轴的分量，

为智能体i的角速度；设定智能体i下一时刻位置为

下一时刻速度角为

运动的间隔时间为△t，则智能体i从当前状态

转移到下一状态

的过程表示如下：

障碍物的状态转移过程与智能体相同；

步骤1-5：设置多智能体的联合奖励；

设定多智能体的联合奖励为R，表示为R＝R₁×R₂×...×R_n，即所有智能体奖励函数的笛卡尔积，其中R_i表示智能体i与环境交互、实现状态转移后获得的奖励值；

智能体i的奖励函数设置如下：

设智能体i到达目标时的奖励函数为

其中

表示智能体到达目标消耗时间的惩罚值，W_t表示惩罚程度的参数值，T_i为智能体实际到达目标消耗的时间；

表示智能体以匀速沿直线运动至目标位置时消耗的时间，其中P_i ^a0为智能体i的初始位置；

智能体i发生碰撞时的奖励函数为R_{i_collision}＝-5；

当智能体i没有到达目标或没有发生碰撞时，设置4种非稀疏奖励函数，具体表达式如下：

其中

为初始时刻智能体i到目标的距离值，

表示下一时刻智能体i到目标的距离值；

则智能体i正常运动时的奖励函数表示为R_i＝η₁N(R₁)+η₂N(R₂)+η₃N(R₃)+η₄N(R₄)，其中N(R)表示对奖励函数的归一化处理，η₁,η₂,η₃,η₄表示4种奖励函数的贡献率，且η₁+η₂+η₃+η₄＝1；

步骤2：采用ME-MADDPG算法对多智能体运动规划进行训练；

步骤2-1：构建运动规划网络结构；

运动规划网络结构采用Actor-Critic网络结构，Actor网络和-Critic网络为两个独立的神经网络，都由输入层、隐藏层和输出层构成；

对于n个智能体，则有n个Actor网络和Critic网络以及n个目标Actor网络和目标Critic网络，设智能体运动规划的确定性策略集合为μ＝{μ₁,…,μ_n}；

对于智能体i，它的Actor网络输入为状态向量s_i，输出向量为动作向量

它的Critic网络输入为所有智能体的状态向量s＝(s₁,…,s_n)和所有智能体根据各自的策略网络μ_i得到的动作a₁,…,a_n；输出为

表示智能体i的动作值函数，即Q值，其中

和

分别为Actor网络参数和Critic网络参数的集合；θ′^μ和θ′^Q分别为目标Actor网络参数和目标Critic网络参数的集合，而智能体i的目标Actor网络参数和目标Critic网络参数更新方式为将Actor网络μ_i和Critic网络

的参数复制到各自对应的目标网络中，即

之后设定Actor网络和Critic网络的超参数，包括网络层数、节点数、学习率、激活函数以及训练优化器；

步骤2-2：设置训练参数的值，包括经验池容量M、批量采样数量N、目标网络更新频率F、最大训练回合数E以及每个回合智能体的最长运动时间T，并初始化训练回合数为e＝0；

步骤2-3：初始化智能体和障碍物的初始位置、目标位置、速率、角速度以及速度角，初始化迭代次数k＝0和运动时间t＝0，生成一个随机数p₀且p₀∈[0,1]；初始化每个智能体的联合状态，即对于智能体i，设置初始联合状态为s_i＝(0,0,0,0,0,0,0,0,0)；

步骤2-4：设置采样概率p的具体值；

首先设置p的初始值，p∈[0,1]；之后在每个训练回合进行条件判定，若进入训练环节且p>0，则设置p的值为clip(p-1/M,0,1)，即clip(p-1/M,0,1)→p；否则p不发生变化；

clip(p-1/M,0,1)→p表示：当p-1/M≥1时p＝1，当p-1/M≤0时p＝0，当0<p-1/M<1时p-1/M→p；

步骤2-5：判断决策动作的方式；

若p₀≤p，则转到步骤2-6，根据人工势场法决策每个智能体的动作并获得联合状态，将其存入专家经验池D_A；否则，转到步骤2-7，根据每个智能体的Actor网络决策动作并获得联合状态，将其存入探索经验池D_E；

步骤2-6：根据人工势场法决策动作；

对于智能体i，首先求出智能体i与目标之间的引力场

得到该引力场对智能体i所产生的引力

即为引力势能的负梯度大小；然后求出智能体i与它的邻居j之间的斥力场

得到斥力场所生成的斥力

即为斥力势能的负梯度；之后求出智能体i受到的合力大小，表示为：

合力方向为

求出角速度为

最后确定智能体i的角速度，表示如下：

其中，ω_max和ω_min分别表示智能体在其机动性能限制下的最大角速度和最小角速度；

则智能体i获得的动作为a_i＝(ω_i)；对于智能体i，在当前状态s_i根据动作a_i进行状态转移，进入下一状态s′_i并获得奖励R_i，得到联合状态<s_i,a_i,s′_i,R_i>，将其存入专家经验池D_A；

步骤2-7：根据Actor网络决策动作；

对于智能体i，通过其Actor网络μ_i，根据状态信息s_i选择动作a_i，即

其中

为确定性策略函数，N_i为Ornstein-Uhlenbeck噪声；

智能体i在当前状态s_i根据动作a_i进行状态转移，进入下一状态s′_i并获得奖励R_i，得到联合状态<s_i,a_i,s′_i,R_i>，将其存入探索经验池D_E；

步骤2-8：更新所有智能体的状态信息；

对于智能体i，将当前状态s_i更新为s′_i，即s′_i→s_i，并设置运动时间更新，即t+△t→t；

步骤2-9：判断多智能体是否进入训练阶段；

根据存入经验池D_A和D_E的经验元组数量判断是否进入强化学习训练运动规划策略的阶段，若经验元组数量未超过经验池容量M，则转到步骤2-5，继续产生新的经验；否则，转到步骤2-10，进入强化学习训练阶段；

步骤2-10：根据动态采样策略采集样本用于训练；

动态采样策略为：设置从专家经验池D_A采集的样本数量为nA，且nA＝ceil(N×p)，即nA为N×p向上取整的数；设置从探索经验池D_E采集的样本数量为nE，且nE＝N-nA；

分别从经验池D_A和D_E中随机抽取nA和nE个样本，将它们随机组合为(s^l,a^l,s′^l,R^l)_l＝1,N，即为最终用于训练的样本集；

步骤2-11：训练更新多智能体的Critic网络参数θ^Q；

对于智能体i，其价值网络参数

通过最小化代价函数

更新，表示如下：

其中a_i和a′_i分别为智能体i当前时刻和下一时刻的动作值，s和s′分别为多智能体当前时刻和下一时刻的联合状态，R_i为智能体i的立即奖励，

和

分别为智能体i的动作值函数和目标动作值函数，γ为折扣因子；

步骤2-12：训练更新多智能体的Actor网络参数θ^μ；

对于智能体i的策略网络参数

通过梯度下降的方式更新，表示如下：

其中μ_i(a_i|s_i)表示Actor网络在状态s_i时根据动作策略函数μ_i得到的动作，

表示状态s_i下采取动作a_i＝μ_i(s_i)时的动作值函数，

表示在Actor网络参数

下的策略梯度，

和

分别表示Actor网络策略函数梯度和Critic网络动作值函数梯度；

步骤2-13：判断Actor目标网络和Critic目标网络是否更新；

设置迭代次数k+1→k，并判断是否达到Actor目标网络或Critic目标网络更新的条件，即更新后的迭代次数k是否能整除Actor目标网络或Critic目标网络更新频率F，若条件符合，则转到步骤2-14，更新Actor目标网络和Critic目标网络；否则，转到步骤2-15；

步骤2-14：更新目标网络参数；

对Actor目标网络和Critic目标网络的参数进行软更新，表达式为：

其中τ为软更新比例系数；

步骤2-15：判断训练是否结束；

判断运动时间t是否大于最长运动时间T，若不满足t≥T，则转到步骤2-5，继续实现多智能体的状态转移；若满足t≥T，则设置训练回合数e+1→e实现训练回合数的更新，之后对训练回合数进行判断，如果不满足e≥E，则转到步骤2-3，开始下一个回合的训练；如果e≥E，则表明训练结束，保存训练完成的运动规划网络参数；

步骤3：采用步骤2训练完成的运动规划网络对多智能体进行运动规划。

优选地，所述采样概率p＝0.4，经验池容量M＝40000、批量采样数量N＝128。

本发明的有益效果如下：

1、本发明具有较好的经验生成方式。相比于MADDPG算法，ME-MADDPG算法中智能体不仅仅根据训练的策略选择动作，还会根据人工势场法选择动作，因此，经验池包括探索经验池D_E和专家经验池D_A两部分。D_E中包含多智能体通过探索和训练的策略得到的联合状态、联合动作、奖赏值以及下一联合状态，由于在探索和训练初期，多智能体很难在避障的同时安全快速地到达目标，因此在该时期下每个智能体获得的Q值极低。而D_A中包含智能体通过人工势场法避障且到达目标的过程中每一时刻的联合空间组成的经验存储元组，且上述的人工势场规划方法可以成功将多智能体规划至目的地，所以在该策略下可以使每个智能体获得较高的Q值，因此，D_A中的经验相比于D_E中经验质量更高。综上，相比MADDPG算法，ME-MADDPG算法极大地提升了高质量经验在回放缓冲区的比例，在训练的过程中有效地使用该高质量经验，可以加速神经网络的训练速度，加快算法的收敛速率。

2、本发明具有较好的训练技巧。本发明在训练过程中使用了延迟学习技巧，设置了用于目标网络软更新的固定间隔，在每个训练回合内，时间步长每达到固定间隔一次，才对目标网络的参数进行软更新。该方法减少了目标网络参数的更新频率，确保在目标网络参数更新之前，Actor网络和Critic网络遵循相同的原则进行训练，在一定程度上使得训练更加稳定。

3、本发明具有较好的样本采集策略。本文提出了一种新的样本采集策略，可以使D_A中的高质量经验被高效地利用，快速地学习到优秀的规划策略，该采样方式描述如下：神经网络在通过随机采样训练的时候，同时从D_E和D_A中进行采样，在D_A中随机采集的样本的数量占采集样本的总数量的比例为采样概率p。而p是动态变化的，变化过程如下：在初期多智能体进行探索的过程中，p是固定不变的，当多智能体收集的经验数量达到经验回放缓冲区的容量上限时，神经网络开始通过随机采样训练规划策略，此时的p是动态变化的，它随着训练回合数的增加逐渐减小，最后至0。该变化可以逐渐减少训练样本中来自D_A的高质量样本的数量，增加来自D_E的探索和训练样本的数量。该方法可以使神经网络在学习到比较优秀的策略之后，逐渐全面地认知多智能体所处的环境，充分地学习到多智能体在不同状态和不同动作时的Q值大小，训练出适应性更强和灵活性更高的优秀策略。

4、本发明通过ME-MADDPG方法，可以在复杂动态的环境中高效地训练出稳定性和适应性更好的运动规划策略，在有效保障智能体安全无碰撞地情况下提高了规划效率，在多智能体协同运动规划的复杂动态环境和场景具有较好的应用前景。

附图说明

图1为本发明多智能体运动规划任务示意图。

图2本发明为智能体和障碍物的物理模型示意图。

图3为本发明ME-MADDPG算法训练多智能体运动规划策略的训练流程图。

图4为本发明网络结构图，图中(a)图为Actor网络结构图，(b)图为Critic网络结构图。

图5为本发明ME-MADDPG算法的结构示意图。

图6为本发明测试多智能体运动规划策略性能的环境初始图。

图7为本发明实施例5个智能体在20个障碍物静止和运动的环境中不同时刻的轨迹示意图。图(a)(b)(c)分别为障碍物静止时智能体在20s、40s以及57s的运动轨迹图；图(d)(e)(f)分别为障碍物运动时智能体在20s、40s以及58.5s的运动轨迹图。

图8为本发明中ME-MADDPG算法和MADDPG算法训练过程中多智能体获得的平均奖励变化曲线图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出的ME-MADDPG算法，是一种混合经验的多智能体强化学习运动规划方法，可以实现在复杂的环境中，将多智能体在躲避障碍物的同时安全规划至目标，具体任务图示意如图1所示。

一种混合经验的多智能体强化学习运动规划方法，包括如下步骤：

本发明属于多智能体强化学习问题，采用随机对策作为环境模型，随机对策又称马尔科夫博弈模型，用五元组<N,S,A,P,R>进行描述，其中N＝{1,2,...,n}，表示n个智能体的集合，S表示联合状态，A表示联合动作，P为状态转移模型，R表示联合奖励；

步骤1-1：设定智能体以及障碍物的物理模型,模型示意图如图2所示。

智能体设定为圆形智能车，对于智能体i，i＝1,2,…,n，其半径为r_i ^a，在绝对坐标系中的位置为

智能体i运动的角速度为ω_i，速率为u_i，用速度角ψ_i表示速率与X轴正方向的夹角；

智能体i的目标设定为半径为r_i ^g的圆形区域，目标位置为

速率和角速度分别为

和

速度角为

位置为

与智能体i的距离为

为智能体i与障碍物j的碰撞距离，且

当

时，表明已发生碰撞；

步骤1-2：设定多智能体的联合状态；

为自身信息，

为环境信息，其中

和

分别为最近邻居j的速率、速度角以及半径；

如果智能体i的通讯范围内没有邻居，则

步骤1-3：设定多智能体的联合动作；

该发明将所有智能体设定为匀速运动，根据智能车的机动性设置角速度范围为[-π/6,π/6]，设定智能体i的动作空间为

其中

为t时刻智能体i的角速度；

步骤1-4：设定多智能体的状态转移模型；

其中，

和

分别为智能体i的速率

沿X轴和Y轴的分量，

为智能体i的角速度。设定智能体i下一时刻位置为

下一时刻速度角为ψ′_i，运动的间隔时间为△t，则智能体i从当前状态

转移到下一状态

的过程表示如下：

障碍物的状态转移过程与智能体相同；

步骤1-5：设置多智能体的联合奖励；

智能体i的奖励函数设置如下：

设智能体i到达目标时的奖励函数为

其中

智能体i发生碰撞时的奖励函数为R_{i_collision}＝-5；

其中式(1)依据智能体i与目标的距离设置，其中

为初始时刻智能体i到目标的距离值；式(2)依据目标速度角设置；式(3)依据智能体i每个时刻的位置设置，其中

表示下一时刻智能体i到目标的距离值；式(4)为碰撞预警，如果智能体i有邻居时给予它惩罚。则智能体i正常运动时的奖励函数表示为R_i＝η₁N(R₁)+η₂N(R₂)+η₃N(R₃)+η₄N(R₄)，其中N(R)表示对奖励函数的归一化处理，η₁,η₂,η₃,η₄表示4种奖励函数的贡献率，且η₁+η₂+η₃+η₄＝1；

步骤2：采用ME-MADDPG算法对多智能体运动规划进行训练；

步骤2-1：构建运动规划网络结构；

它的Critic网络输入为所有智能体的状态向量s＝(s₁,...,s_n)和所有智能体根据各自的策略网络μ_i得到的动作a₁,...,a_n；输出为

表示智能体i的动作值函数，即Q值，其中

和

的参数复制到各自对应的目标网络中，即

步骤2-4：设置采样概率p的具体值；

步骤2-5：判断决策动作的方式；

步骤2-6：根据人工势场法决策动作；

对于智能体i，首先求出智能体i与目标之间的引力场

得到该引力场对智能体i所产生的引力

得到斥力场所生成的斥力

合力方向为

求出角速度为

最后确定智能体i的角速度，表示如下：

步骤2-7：根据Actor网络决策动作；

其中

为确定性策略函数，N_i为Ornstein-Uhlenbeck噪声；

步骤2-8：更新所有智能体的状态信息；

步骤2-9：判断多智能体是否进入训练阶段；

步骤2-10：根据动态采样策略采集样本用于训练；

步骤2-11：训练更新多智能体的Critic网络参数θ^Q；

对于智能体i，其价值网络参数

通过最小化代价函数

更新，表示如下：

和

步骤2-12：训练更新多智能体的Actor网络参数θ^μ；

对于智能体i的策略网络参数

通过梯度下降的方式更新，表示如下：

表示状态s_i下采取动作a_i＝μ_i(s_i)时的动作值函数，

表示在Actor网络参数

下的策略梯度，

和

步骤2-13：判断Actor目标网络和Critic目标网络是否更新；

步骤2-14：更新目标网络参数；

其中τ为软更新比例系数；

步骤2-15：判断训练是否结束；

步骤3：设置不同的复杂环境。初始化环境中智能体和障碍物的初始位置、速率、角速度以及速度角。之后在环境中加载训练好的多智能体规划模型，在不同的复杂环境中测试ME-MADDPG算法实现多智能体运动规划的性能。最终采用步骤2训练完成的运动规划网络对多智能体进行运动规划。

具体实施例：

1、对多智能体建立复杂环境下运动规划的随机对策模型。

本实施例属于多智能体强化学习问题，采用随机对策作为环境模型。

1.1、设定智能体以及障碍物的物理模型，模型示意图如图2所示。

智能体设定为圆形智能车，数量为n，本实施例设定n＝5。在本发明中设定所有智能体的物理模型相同，对于智能体i，设定它的半径为r_i ^a＝0.5m，速率为u_i＝1.0m/s，速度角ψ_i表示速率与X轴正方向的夹角，范围为(-π,π]。智能体i的目标设定为半径r_i ^g＝1.0m的圆形区域，位置为

与智能体i的距离为D(P_i ^a,P_i ^g)。当D(P_i ^a,P_i ^g)≤r_i ^a+r_i ^g，D(P_i ^a,P_i ^g)≤1.5m时，表明智能体i已到达目标。智能体i的目标速度角为α_i，表示以智能体i中心为原点，以智能体i到其目标的方向为正方向建立极坐标系时的智能体i速度矢量与该极坐标下正方向的夹角值，范围为(-π,π]。智能体i具有通信功能，它的通信范围时以智能体i为圆心，以d_c为半径的圆形区域，在通信范围内，它可以感知到其他智能体和障碍物的位置，设置d_c＝4m。障碍物设定为失去通信功能的故障智能体，对于障碍物j，它的半径

如果障碍物运动时，速率

为[0,0.3m/s]内的随机值，角速度

为[-π/12rad/s,π/12rad/s]内的随机值，速度角为

范围为(-π,π]，位置为

与智能体i的距离为

为智能体i与障碍物j的碰撞距离，且

即

当

时，表明已发生碰撞。

1.2、设定多智能体的联合状态。

1.3、设定多智能体的联合动作。

本实施例将所有智能体设定为匀速运动，根据智能车的机动性设置角速度范围为[-π/6,π/6]。

1.4、描述多智能体的状态转移模型。

本实施例设置△t＝0.5s。障碍物的状态转移过程与智能体相同。

1.5、设置多智能体的联合奖励。

本发明中取W_t＝0.1，T_i为智能体实际到达目标消耗的时间，智能体i发生碰撞时的奖励函数为R_{i_collision}＝-5。η₁,η₂,η₃,η₄表示4种奖励函数的贡献率，且η₁+η₂+η₃+η₄＝1，本实施例设置η₁＝0.1,η₂＝0.4,η₃＝0.3,η₄＝0.2。

2、通过ME-MADDPG算法对多智能体运动规划进行训练，训练的流程示意图如图3所示，该算法的结构图如图5所示。

2.1、构建训练所需的神经网络结构。

图4中(a)图为Actor网络结构图，网络为全连接神经网络，包括输入层、隐藏层和输出层。隐藏层为两层，激活函数都为relu函数，第一层为64个节点，第二层为32个节点，输出层为1个节点，即无人机采取的动作，采用的激活函数为tanh函数，策略网络的学习率为0.001；图4中(b)图为Critic网络结构图，网络也为全连接神经网络，包括输入层、隐藏层和输出层，隐藏层也为两层，激活函数都为relu函数，节点数都为64，输出层为1个节点，即Q值函数，激活函数为线性函数y＝x+b，b为偏置参数，评价网络的学习率为0.0001。

2.2、设置训练参数的值。

本实施例的训练实例设置经验池容量M＝40000、批量采样数量N＝128、目标网络更新频率F＝50、最大训练回合数E＝22000以及每个回合智能体的最长运动时间T＝200s，并初始化训练回合数为e＝0。

2.3、初始化智能体和障碍物的物理性质。本实施例中在训练时有5个智能体和5个障碍物，它们在边长为60m的正方体内运动，智能体运动出边界则视为碰撞。智能体和障碍物的初始位置以及智能体的目标位置在运动环境内随机生成，智能体速率为1.0m/s，角速度以及速度角分别在各自的限制范围内随机生成。障碍物设置为运动的状态，速率在[0,0.3m/s]内随机生成，角速度在[-π/12rad/s,π/12rad/s]内随机生成，速度角也随机生成。

初始化迭代次数k＝0和运动时间t＝0，生成一个随机数p₀且p₀∈[0,1]。初始化每个智能体的联合状态，即对于智能体i，设置初始联合状态为s_i＝(0,0,0,0,0,0,0,0,0)。

2.4、设置采样概率p的具体值。

本实施例首先设置p＝0.4，之后在每个训练回合进行条件判定，若进入训练环节且p>0，则设置p的值为clip(p-1/M,0,1)，即clip(p-1/M,0,1)→p；否则p不发生变化。clip(p-1/M,0,1)→p具体意思为：当p-1/M≥1时p＝1，当p-1/M≤0时p＝0，当0<p-1/M<1时p-1/M→p。

2.5、判断决策动作的方式。

若p₀≤p，则转到步骤2.6，根据人工势场法决策每个智能体的动作并获得联合状态，将其存入专家经验池D_A；否则，转到步骤2.7，根据每个智能体的Actor网络决策动作并获得联合状态，将其存入探索经验池D_E。

2.6、根据人工势场法决策动作。

对于智能体i，首先求出智能体i与目标之间的引力场，表示如下：

其中m为引力增益系数，取m＝1.0。得到该引力场对智能体i所产生的引力，即为引力势能的负梯度大小，表示如下：

然后求出智能体i与它的邻居j之间的斥力场，表示如下：

其中

n为智能体i的通信范围内障碍物的个数，k斥力增益系数，取k＝1.5。得到斥力场所生成的斥力，即为斥力势能的负梯度，表示如下：

之后求出智能体i受到的合力大小，表示为：

合力方向为

求出角速度为

最后确定智能体i的角速度，表示如下：

则智能体i获得的动作为a_i＝(ω_i)。对于智能体i，在当前状态s_i根据动作a_i进行状态转移，进入下一状态s′_i并获得奖励R_i，得到联合状态<s_i,a_i,s′_i,R_i>，将其存入专家经验池D_A。

2.7、根据Actor网络决策动作。

2.8、更新所有智能体的状态信息。对于智能体i，将当前状态s_i更新为s′_i，即s′_i→s_i，并设置运动时间更新，即t+△t→t。

2.9、判断多智能体是否进入训练阶段。

2.10、根据动态采样策略采集样本用于训练。

2.11、训练更新多智能体的Critic网络参数θ^Q，γ为折扣因子，取值为γ＝0.98。

2.12、训练更新多智能体的Actor网络参数θ^μ。

2.13、判断目标网络是否更新。

设置迭代次数k+1→k，并判断是否达到Actor目标网络和Critic目标网络更新的条件，即更新后的迭代次数k是否能整除目标网络更新频率F，若条件符合，则转到步骤2.14，更新目标网络；否则，转到步骤2-15。

2.14、更新目标网络参数，τ为软更新比例系数，取值为τ＝0.99。

2.15、判断训练是否结束。

判断运动时间t是否大于最长运动时间T，若不满足t≥T，则转到步骤2.5，继续实现多智能体的状态转移；若满足t≥T，则设置训练回合数e+1→e来实现训练回合数的更新，之后对训练回合数进行判断，如果不满足e≥E，则转到步骤2.3，开始下一个回合的训练；如果e≥E，则表明训练结束，保存训练好的网络参数，转到步骤3进行测试。

3、设置不同的复杂环境。本实施例的测试环境示意图如图6所示，环境中有5个智能体和20个障碍物，分别在障碍物静止和运动两种状态下进行测试。20个障碍物的初始位置分别设置为[-20,20]，[-10,20]，[10,20]，[20,20]，[-10,10]，[0,10]，[10,10]，[-20,0]，[-10,0]，[0,0]，[10,0]，[20,0]，[-20,-10]，[-10,-10]，[0,-10]，[10,-10]，[20,-10]，[-20,-20]，[0,-20]和[20,-20]，智能体的初始位置和目标位置的设置具体如表1所示。对智能体和障碍物的速率、角速度以及速度角的初始化与训练时的初始化一致。之后在环境中加载训练完成的多智能体规划模型，在不同的复杂环境中测试ME-MADDPG算法实现多智能体运动规划的性能。

表1测试时智能体的初始位置和目标位置

编号	初始位置	目标位置
			1	[-10,-20]	[0,20]
2	[0,20]	[10,-20]
			3	[10,-20]	[-20,10]
4	[-20,10]	[20,10]
			5	[20,10]	[-10,-20]

本实施例的仿真平台为python。在复杂环境中对ME-MADDPG算法实现多智能体运动规划性能的测试效果如图7所示。图中为5个智能体在20个障碍物静止和运动的环境中不同时刻的轨迹示意图，图(a)(b)(c)分别为20个障碍物静止时智能体在20s、40s以及57s的运动轨迹图，在57s时，5个智能体都安全到达了它们各自的目标位置；图(d)(e)(f)分别为20个障碍物运动时智能体在20s、40s以及58.5s的运动轨迹图，在58.5s时，5个智能体全部到达目标。从图7的运动轨迹图可以看出，ME-MADDPG算法的控制模型呈现了较为高效的运动规划方式，智能体都以较小的目标速度角朝着目标方向运动，在保证目标速度角的绝对值没有过大的前提下，通过远离障碍物进行避障，安全且快速地到达各自的目标位置，顺利完成多智能体的运动规划任务，这说明该算法训练的控制模型的规划方法同时保证了智能体高效避障和快速到达目标，是一种高效的运动规划方法。

同时，为了表明该算法的优越性，本实施例对比了MADDPG算法和ME-MADDPG算法训练过程中的智能体奖励变化过程，两种算法在训练过程中多智能体获得的奖励值变化曲线图如图8所示，实线表示ME-MADDPG算法在训练过程中多智能体每回合获得奖励值的变化趋势，虚线则表示仅使用MADDPG算法训练时奖励值的变化趋势，其中奖励值为一次训练回合结束后多智能体在每个时刻获得的立即奖励的平均值。开始训练之后，每200个回合统计一次奖励值的平均值，且ME-MADDPG算法统计的回合不包括人工势场法规划的回合。由于训练过程中得到的动作会加上Ornstein-Uhlenbeck噪声，因此图8中的奖励值曲线收敛后仍然会存在小范围内的波动。从图8可以看出，MADDPG训练约8000次才开始收敛，而ME-MADDPG在训练约5000回合后已经收敛，而且收敛之后多智能体能够获得高额且稳定的奖励值。在20000回合训练的过程中，MADDPG算法得到的平均奖励值为1.8016，而ME-MADDPG算法得到的为2.2344，相比MADDPG提高了0.4328；在两种算法都收敛之后，MADDPG算法得到的平均奖励值为2.3390，而ME-MADDPG算法得到的为2.5959，相比MADDPG提高了0.2569，这表明ME-MADDPG具有更快的训练速度，得到的结果表现效果更好。

本发明提出的ME-MADDPG算法，通过人工势场的规划方式提供了高质量的经验，同时通过动态概率采样的方式训练，可以加速训练的速率，学习到对复杂环境具有良好适应性的优秀规划策略，再加上延迟学习的技巧，可以在一定程度上保证训练的稳定性。综合上述的实验结果，验证了ME-MADDPG算法的优势，表明该算法相比MADDPG算法训练时收敛速度更快，得到的收敛值更高，同时在动态复杂的环境下ME-MADDPG算法得到的控制模型可以有效且安全地完成多智能体运动规划任务。